CN111261140B - 韵律模型训练方法及装置 - Google Patents

韵律模型训练方法及装置 Download PDF

Info

Publication number
CN111261140B
CN111261140B CN202010047794.2A CN202010047794A CN111261140B CN 111261140 B CN111261140 B CN 111261140B CN 202010047794 A CN202010047794 A CN 202010047794A CN 111261140 B CN111261140 B CN 111261140B
Authority
CN
China
Prior art keywords
prosody
neural network
model
training
prosodic
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010047794.2A
Other languages
English (en)
Other versions
CN111261140A (zh
Inventor
吴朗
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Unisound Intelligent Technology Co Ltd
Xiamen Yunzhixin Intelligent Technology Co Ltd
Original Assignee
Unisound Intelligent Technology Co Ltd
Xiamen Yunzhixin Intelligent Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Unisound Intelligent Technology Co Ltd, Xiamen Yunzhixin Intelligent Technology Co Ltd filed Critical Unisound Intelligent Technology Co Ltd
Priority to CN202010047794.2A priority Critical patent/CN111261140B/zh
Publication of CN111261140A publication Critical patent/CN111261140A/zh
Application granted granted Critical
Publication of CN111261140B publication Critical patent/CN111261140B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/08Text analysis or generation of parameters for speech synthesis out of text, e.g. grapheme to phoneme translation, prosody generation or stress or intonation determination
    • G10L13/10Prosody rules derived from text; Stress or intonation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/27Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
    • G10L25/30Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Theoretical Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Computing Systems (AREA)
  • Software Systems (AREA)
  • Biophysics (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Biomedical Technology (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Data Mining & Analysis (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明是关于韵律模型训练方法及装置。该方法包括:接收包含韵律标注信息的训练语料;将所述训练语料输入至待训练的韵律模型,以得到韵律输出结果;根据所述韵律输出结果和/或所述韵律标注信息,对所述待训练的韵律模型的网络参数进行训练,得到目标韵律模型。通过本发明的技术方案,使得目标韵律模型是个性化的、适应性和精准度较高的韵律模型,可更好地从不同来源的训练数据中学习标注共性,如此,有利于提高韵律词边界、韵律短语边界的预测准确率和韵律模型的鲁棒性。

Description

韵律模型训练方法及装置
技术领域
本发明涉及神经网络技术领域,尤其涉及韵律模型训练方法及装置。
背景技术
目前,为了预测韵律词、韵律短语的边界,通常都会使用预先/事先设置好的韵律模型进行预测,而这种韵律模型比较固定,因而,会导致韵律词的边界、韵律短语的边界的预测错误,从而降低韵律词边界、韵律短语边界的预测准确率。
发明内容
本发明实施例提供了韵律模型训练方法及装置。所述技术方案如下:
根据本发明实施例的第一方面,提供一种韵律模型训练方法,包括:
接收包含韵律标注信息的训练语料;
将所述训练语料输入至待训练的韵律模型,以得到韵律输出结果;
根据所述韵律输出结果和所述韵律标注信息,对所述待训练的韵律模型进行训练,得到目标韵律模型。
在一个实施例中,所述待训练的韵律模型包括:第一神经网络和第二神经网络;所述第二神经网络包括第一条件随机场层和第二条件随机场层;
所述将所述训练语料输入至待训练的韵律模型,以得到韵律输出结果,包括:
将所述训练语料输入至所述第一神经网络,得到第一输出向量;
将所述第一输出向量输入至所述第二神经网络的所述第一条件随机场层,以得到韵律词边界;
将表征所述韵律词边界的向量和所述第一输出向量组成的合成向量,输入至所述第二神经网络的所述第二条件随机场层,以得到韵律短语边界;
将所述韵律词边界和所述韵律短语边界确定为所述韵律输出结果。
在一个实施例中,所述待训练的韵律模型包括:第三神经网络;
所述根据所述韵律输出结果和所述韵律标注信息,对所述待训练的韵律模型进行训练,得到目标韵律模型,包括:
将所述第一输出向量进行处理,得到第二输出向量;
将所述第二输出向量输入至所述第三神经网络,以得到输出结果;
根据所述输出结果是否能够指示出韵律标注信息的标注人员,对所述待训练的韵律模型进行训练,得到目标韵律模型。
在一个实施例中,所述根据所述输出结果是否能够指示出韵律标注信息的标注人员,对所述待训练的韵律模型进行训练,得到目标韵律模型,包括:
当所述输出结果能够指示出韵律标注信息的标注人员时,调整所述第一神经网络、所述第二神经网络和所述第三神经网络中的参数,直至所述输出结果无法指示出所述韵律标注信息的标注人员时,将调整后的韵律模型确定为所述目标韵律模型。
在一个实施例中,所述方法还包括:
当所述输出结果无法指示出所述韵律标注信息的标注人员时,生成参数保持提示,所述参数保持提示用于指示不对所述第一神经网络、所述第二神经网络和所述第三神经网络中的参数进行调整。
根据本发明实施例的第二方面,提供一种韵律模型训练装置,包括:
接收模块,用于接收包含韵律标注信息的训练语料;
输入模块,用于将所述训练语料输入至待训练的韵律模型,以得到韵律输出结果;
训练模块,用于根据所述韵律输出结果和所述韵律标注信息,对所述待训练的韵律模型进行训练,得到目标韵律模型。
在一个实施例中,所述待训练的韵律模型包括:第一神经网络和第二神经网络;所述第二神经网络包括第一条件随机场层和第二条件随机场层;
所述输入模块包括:
第一输入子模块,用于将所述训练语料输入至所述第一神经网络,得到第一输出向量;
第二输入子模块,用于将所述第一输出向量输入至所述第二神经网络的所述第一条件随机场层,以得到韵律词边界;
第三输入子模块,用于将表征所述韵律词边界的向量和所述第一输出向量组成的合成向量,输入至所述第二神经网络的所述第二条件随机场层,以得到韵律短语边界;
确定子模块,用于将所述韵律词边界和所述韵律短语边界确定为所述韵律输出结果。
在一个实施例中,所述待训练的韵律模型包括:第三神经网络;
所述训练模块包括:
处理子模块,用于将所述第一输出向量进行处理,得到第二输出向量;
第四输入子模块,用于将所述第二输出向量输入至所述第三神经网络,以得到输出结果;
训练子模块,用于根据所述输出结果是否能够指示出韵律标注信息的标注人员,对所述待训练的韵律模型进行训练,得到目标韵律模型。
在一个实施例中,所述训练子模块具体用于:
当所述输出结果能够指示出韵律标注信息的标注人员时,调整所述第一神经网络、所述第二神经网络和所述第三神经网络中的参数,直至所述输出结果无法指示出所述韵律标注信息的标注人员时,将调整后的韵律模型确定为所述目标韵律模型。
在一个实施例中,所述装置还包括:
生成模块,用于当所述输出结果无法指示出所述韵律标注信息的标注人员时,生成参数保持提示,所述参数保持提示用于指示不对所述第一神经网络、所述第二神经网络和所述第三神经网络中的参数进行调整。
本发明的实施例提供的技术方案可以包括以下有益效果:
通过接收该训练语料,可将该训练语料输入至事先设置好的待训练的韵律模型,以得到韵律输出结果,然后根据该韵律输出结果和所述韵律标注信息,自动地对所述待训练的韵律模型的网络参数进行训练,以得到目标韵律模型,从而使得目标韵律模型是个性化的、适应性和精准度较高的韵律模型,可更好地从不同来源的训练数据中学习到标注共性,如此,也有利于提高韵律词边界、韵律短语边界的预测准确率和韵律模型的鲁棒性。
应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本发明。
附图说明
此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本发明的实施例,并与说明书一起用于解释本发明的原理。
图1是根据一示例性实施例示出的一种韵律模型训练方法的流程图。
图2是根据一示例性实施例示出的一种韵律模型训练装置的框图。
具体实施方式
这里将详细地对示例性实施例进行说明,其示例表示在附图中。下面的描述涉及附图时,除非另有表示,不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本发明相一致的所有实施方式。相反,它们仅是与如所附权利要求书中所详述的、本发明的一些方面相一致的装置和方法的例子。
目前,为了预测韵律词、韵律短语的边界,通常都会使用预先/事先设置好的韵律模型进行预测,而这种韵律模型比较固定,因而,会导致韵律词的边界、韵律短语的边界的预测错误,从而降低韵律词边界、韵律短语边界的预测准确率。
而另一种现有技术为:深度神经网络大都是靠堆数据来提高韵律模型预测准确率,但是训练韵律模型时使用的训练数据中的韵律标注因不同人经验知识而不同,很容易导致标注不一致性,当堆训练数据到一定量的时候,模型很容易饱和,甚至会降低模型性能。
为了解决上述技术问题,本发明实施例提供了一种韵律模型训练方法,该方法可用于韵律模型训练程序、系统或装置中,且该方法对应的执行主体可以是终端或服务器,如图1所示,该方法包括步骤S101至步骤S103:
在步骤S101中,接收包含韵律标注信息的训练语料;
韵律标注信息指的是标注人员人工地对训练语料中的韵律词、韵律短语的标注,当然,该标注可以是斜杠(/)、井号(#)等。
训练语料可以是海量的训练语句、短语等。
而该韵律指的是语音合成前端的韵律。
韵律标注信息可以来自不同标注人员。
在步骤S102中,将所述训练语料输入至待训练的韵律模型,以得到韵律输出结果;
在步骤S103中,根据所述韵律输出结果和所述韵律标注信息,对所述待训练的韵律模型进行训练,得到目标韵律模型。
通过接收该训练语料,可将该训练语料输入至事先设置好的待训练的韵律模型,以得到韵律输出结果,然后根据该韵律输出结果和所述韵律标注信息,自动地对所述待训练的韵律模型进行训练,以得到目标韵律模型,从而使得目标韵律模型是个性化的、适应性和精准度较高的韵律模型,可更好地从不同来源的训练数据中学习标注共性,如此,也有利于提高韵律模型的鲁棒性以及韵律词边界、韵律短语边界的预测准确率。
其次,韵律词边界指的是韵律词中的最后一个字的边界,韵律短语边界指的是韵律短语中的最后一个字的边界。韵律词是从韵律学的角度来定义的,指“最小的能够自由运用的语言单位”,而韵律学中的“语言单位”是“韵律单位”,韵律词是以语言中的韵律单位为基础。另外,有规则性语法结构的、停延和音步的音域展敛可以使用规则控制的可能多音步。“可能的多音步”是指它们或者总是多音步,或者虽然在一定的上下文语境中可以是单音步,但另外的上下文语境中却可以是多音步。也就是说,我们认为汉语的韵律词决定性的韵律标记是单音步,而韵律短语是在单音步组合的基础上再加上更高层的停延和音步的音域展敛变化。
另外,在接收到待预测的语料时,可将待预测的语料输入至目标韵律模型,以通过该目标韵律模型对待预测的语料中的韵律词、韵律短语进行准确预测,或者通过该目标韵律模型对待预测的语料中的韵律词边界、韵律短语的边界进行准确预测。
在一个实施例中,所述待训练的韵律模型包括:第一神经网络和第二神经网络;所述第二神经网络包括第一条件随机场层和第二条件随机场层;
所述将所述训练语料输入至待训练的韵律模型,以得到韵律输出结果,包括:
将所述训练语料输入至所述第一神经网络,得到第一输出向量;
训练语料输入至第一神经网络时,会先经过多个不同宽度滤波器的卷积层,再依次经过Max-over-time池化层和Highwaynetwork层,最后经过一个2层的Bi-LSTM(Bi-directional-LongShort-TermMemory)网络,才得到第一输出向量。
将所述第一输出向量输入至所述第二神经网络的所述第一条件随机场层,以得到韵律词边界;
第一条件随机场层和第二条件随机场层分别是2个CRF层网络。
将表征所述韵律词边界的向量(也即该韵律词边界的向量)和所述第一输出向量组成的合成向量(如将这两个向量组合成一个向量),输入至所述第二神经网络的所述第二条件随机场层,以得到韵律短语边界;
将所述韵律词边界和所述韵律短语边界确定为所述韵律输出结果。
在将训练语料输入至第一神经网络之前,可确定训练语料中各字向量拼成单词向量以及单词词性向量,然后将单词向量以及单词词性向量输入至第一神经网络,得到第一输出向量,然后将第一输出向量输入至第一条件随机场层,从而得到韵律词边界,再将表征该韵律词边界的向量和第一输出向量组成的合成向量输入至第二条件随机场层,从而进一步得到韵律短语边界,如此,即可实现通过两个条件随机场层预测出韵律词短语以及韵律短语边界,以便于之后利用韵律词边界和韵律短语边界对待训练的韵律模型进行训练。
单词向量为用于表征单词内容的向量,单词词性向量为用于表征单词语法功能的向量,该词性指的是以词的特点作为划分词类的根据,词性为动词、名词、形容词等。
在一个实施例中,所述待训练的韵律模型包括:第三神经网络;
第三神经网络是由一个多层的全连接神经网络和softmax层组成的网络。
所述根据所述韵律输出结果和所述韵律标注信息,对所述待训练的韵律模型进行训练,得到目标韵律模型,包括:
将所述第一输出向量进行处理,得到第二输出向量;
该处理过程可以是将每个时刻的第一输出向量取平均值,从而得到第二输出向量。
将所述第二输出向量输入至所述第三神经网络,以得到输出结果;
根据所述输出结果是否能够指示出韵律标注信息的标注人员(具体地:是否能够指示出标注人员的标识,而该标识可以是编号、姓名等标识,最终表示成向量的形式),对所述待训练的韵律模型进行训练,得到目标韵律模型。
通过将第二输出向量输入至第三神经网络,可得到输出结果,然后根据该输出结果是否能够指示出韵律标注信息具体的标注人员,可对事先设置好的待训练的韵律模型进行自动训练,从而得到个性化的、适应性和精准度较高的目标韵律模型,进而可更好地预测新输入的语料中的韵律词边界以及韵律短语边界。
当然,上述得到目标韵律模型的实施例是根据韵律标注信息,对待训练的韵律模型进行训练得到的。
在训练时,结合韵律输出结果以及韵律标注信息对待训练的韵律模型进行训练,判断韵律输出结果与韵律标注信息的差异,对待训练的韵律模型进行训练。而具体训练过程可以是:
设置两个损失函数,第二神经网络输出端有一个损失函数,它有两个参数,一个是训练数据经过待训练的韵律模型后的输出(预测)结果(韵律词边界和韵律短语边界),另一个是训练数据里标注结果(即韵律标注信息),这两个结果都用向量表示,然后利用这个损失函数去计算两个向量之间的损失,再更新待训练的韵律模型中的参数(权值或权重),使得这个损失降到最低;
且第三神经网络也有一个损失函数,同样也有两个参数,一个是训练数据经过待训练的韵律模型输出的预测结果的概率分布,另一个是标注人员编号的向量,然后计算损失最大,通过取反转变成计算损失最小,和前面那个损失函数一致。
最后,将每个损失函数分别乘上一个权重再求和,得到最终的目标损失函数,利用该目标损失函数确定出目标韵律模型。
在一个实施例中,所述根据所述输出结果是否能够指示出韵律标注信息的标注人员,对所述待训练的韵律模型进行训练,得到目标韵律模型,包括:
当所述输出结果能够指示出韵律标注信息的标注人员时,调整所述第一神经网络、所述第二神经网络和所述第三神经网络中的参数,直至所述输出结果无法指示出所述韵律标注信息的标注人员时,将调整后的韵律模型确定为所述目标韵律模型。
当输出结果能够指示出韵律标注信息的标注人员即哪条韵律标注信息属于哪个标注人员时,说明该待训练的韵律模型目前不太准,只偏向于对某个标注人员的韵律标注信息进行识别,且韵律标注信息通常会因不同人经验知识而不同,这意味着此时的韵律模型并没有学习到多个标注人员的韵律标注信息中的共性,这就不利于该模型识别其他不同标注人员的韵律标注信息,因而,需要调整第一神经网络、所述第二神经网络和所述第三神经网络中的参数,直至所述输出结果无法指示出韵律标注信息的具体标注人员时,才将调整后的韵律模型确定为所述目标韵律模型,从而使得训练出的目标韵律模型可正确识别出各种标注人员的韵律标注信息,进而确保目标韵律模型比较精准。
当然,包括第一神经网络、第二神经网络和第三神经网络的韵律模型属于多任务学习网络,能够降低预测错误的传递,还可以增强泛化能力。
在一个实施例中,所述方法还用于:
当所述输出结果无法指示出所述韵律标注信息的标注人员时,生成参数保持提示,所述参数保持提示用于指示不对所述第一神经网络、所述第二神经网络和所述第三神经网络中的参数进行调整。
当输出结果无法指示出韵律标注信息具体的标注人员时,可生成参数保持提示,以提示不对上述第一神经网络、第二神经网络和第三神经网络中的参数进行调整,从而避免误调整而影响目标韵律模型的精准性。
最后,需要明确的是:本领域技术人员可根据实际需求,将上述多个实施例进行自由组合。
对应本发明实施例提供的上述韵律模型训练方法,本发明实施例还提供一种韵律模型训练装置,如图2所示,该装置包括:
接收模块201,用于接收包含韵律标注信息的训练语料;
输入模块202,用于将所述训练语料输入至待训练的韵律模型,以得到韵律输出结果;
训练模块203,用于根据所述韵律输出结果和所述韵律标注信息,对所述待训练的韵律模型进行训练,得到目标韵律模型。
在一个实施例中,所述待训练的韵律模型包括:第一神经网络和第二神经网络;所述第二神经网络包括第一条件随机场层和第二条件随机场层;
所述输入模块包括:
第一输入子模块,用于将所述训练语料输入至所述第一神经网络,得到第一输出向量;
第二输入子模块,用于将所述第一输出向量输入至所述第二神经网络的所述第一条件随机场层,以得到韵律词边界;
第三输入子模块,用于将表征所述韵律词边界的向量和所述第一输出向量组成的合成向量,输入至所述第二神经网络的所述第二条件随机场层,以得到韵律短语边界;
确定子模块,用于将所述韵律词边界和所述韵律短语边界确定为所述韵律输出结果。
在一个实施例中,所述待训练的韵律模型包括:第三神经网络;
所述训练模块包括:
处理子模块,用于将所述第一输出向量进行处理,得到第二输出向量;
第四输入子模块,用于将所述第二输出向量输入至所述第三神经网络,以得到输出结果;
训练子模块,用于根据所述输出结果是否能够指示出韵律标注信息的标注人员,对所述待训练的韵律模型进行训练,得到目标韵律模型。
在一个实施例中,所述训练子模块具体用于:
当所述输出结果能够指示出韵律标注信息的标注人员时,调整所述第一神经网络、所述第二神经网络和所述第三神经网络中的参数,直至所述输出结果无法指示出所述韵律标注信息的标注人员时,将调整后的韵律模型确定为所述目标韵律模型。
在一个实施例中,所述装置还包括:
生成模块,用于当所述输出结果无法指示出所述韵律标注信息的标注人员时,生成参数保持提示,所述参数保持提示用于指示不对所述第一神经网络、所述第二神经网络和所述第三神经网络中的参数进行调整。
本领域技术人员在考虑说明书及实践这里发明的发明后,将容易想到本发明的其它实施方案。本申请旨在涵盖本发明的任何变型、用途或者适应性变化,这些变型、用途或者适应性变化遵循本发明的一般性原理并包括本发明未发明的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的,本发明的真正范围和精神由下面的权利要求指出。
应当理解的是,本发明并不局限于上面已经描述并在附图中示出的精确结构,并且可以在不脱离其范围进行各种修改和改变。本发明的范围仅由所附的权利要求来限制。

Claims (2)

1.一种韵律模型训练方法,其特征在于,包括:
接收包含韵律标注信息的训练语料;
将所述训练语料输入至待训练的韵律模型,以得到韵律输出结果;
根据所述韵律输出结果和所述韵律标注信息,对所述待训练的韵律模型进行训练,得到目标韵律模型;
所述待训练的韵律模型包括:第一神经网络和第二神经网络;所述第二神经网络包括第一条件随机场层和第二条件随机场层;
所述将所述训练语料输入至待训练的韵律模型,以得到韵律输出结果,包括:
将所述训练语料输入至所述第一神经网络,得到第一输出向量;
将所述第一输出向量输入至所述第二神经网络的所述第一条件随机场层,以得到韵律词边界;
将表征所述韵律词边界的向量和所述第一输出向量组成的合成向量,输入至所述第二神经网络的所述第二条件随机场层,以得到韵律短语边界;
将所述韵律词边界和所述韵律短语边界确定为所述韵律输出结果;
所述待训练的韵律模型包括:第三神经网络;
所述根据所述韵律输出结果和所述韵律标注信息,对所述待训练的韵律模型进行训练,得到目标韵律模型,包括:
将所述第一输出向量进行处理,得到第二输出向量;
将所述第二输出向量输入至所述第三神经网络,以得到输出结果;
根据所述输出结果是否能够指示出韵律标注信息的标注人员,对所述待训练的韵律模型进行训练,得到目标韵律模型;
所述根据所述输出结果是否能够指示出韵律标注信息的标注人员,对所述待训练的韵律模型进行训练,得到目标韵律模型,包括:
当所述输出结果能够指示出韵律标注信息的标注人员时,调整所述第一神经网络、所述第二神经网络和所述第三神经网络中的参数,直至所述输出结果无法指示出所述韵律标注信息的标注人员时,将调整后的韵律模型确定为所述目标韵律模型;
所述方法还包括:
当所述输出结果无法指示出所述韵律标注信息的标注人员时,生成参数保持提示,所述参数保持提示用于指示不对所述第一神经网络、所述第二神经网络和所述第三神经网络中的参数进行调整。
2.一种韵律模型训练装置,其特征在于,包括:
接收模块,用于接收包含韵律标注信息的训练语料;
输入模块,用于将所述训练语料输入至待训练的韵律模型,以得到韵律输出结果;
训练模块,用于根据所述韵律输出结果和所述韵律标注信息,对所述待训练的韵律模型进行训练,得到目标韵律模型;
所述待训练的韵律模型包括:第一神经网络和第二神经网络;所述第二神经网络包括第一条件随机场层和第二条件随机场层;
所述输入模块包括:
第一输入子模块,用于将所述训练语料输入至所述第一神经网络,得到第一输出向量;
第二输入子模块,用于将所述第一输出向量输入至所述第二神经网络的所述第一条件随机场层,以得到韵律词边界;
第三输入子模块,用于将表征所述韵律词边界的向量和所述第一输出向量组成的合成向量,输入至所述第二神经网络的所述第二条件随机场层,以得到韵律短语边界;
确定子模块,用于将所述韵律词边界和所述韵律短语边界确定为所述韵律输出结果;
所述待训练的韵律模型包括:第三神经网络;
所述训练模块包括:
处理子模块,用于将所述第一输出向量进行处理,得到第二输出向量;
第四输入子模块,用于将所述第二输出向量输入至所述第三神经网络,以得到输出结果;
训练子模块,用于根据所述输出结果是否能够指示出韵律标注信息的标注人员,对所述待训练的韵律模型进行训练,得到目标韵律模型;
所述训练子模块具体用于:
当所述输出结果能够指示出韵律标注信息的标注人员时,调整所述第一神经网络、所述第二神经网络和所述第三神经网络中的参数,直至所述输出结果无法指示出所述韵律标注信息的标注人员时,将调整后的韵律模型确定为所述目标韵律模型;
所述装置还包括:
生成模块,用于当所述输出结果无法指示出所述韵律标注信息的标注人员时,生成参数保持提示,所述参数保持提示用于指示不对所述第一神经网络、所述第二神经网络和所述第三神经网络中的参数进行调整。
CN202010047794.2A 2020-01-16 2020-01-16 韵律模型训练方法及装置 Active CN111261140B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010047794.2A CN111261140B (zh) 2020-01-16 2020-01-16 韵律模型训练方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010047794.2A CN111261140B (zh) 2020-01-16 2020-01-16 韵律模型训练方法及装置

Publications (2)

Publication Number Publication Date
CN111261140A CN111261140A (zh) 2020-06-09
CN111261140B true CN111261140B (zh) 2022-09-27

Family

ID=70952161

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010047794.2A Active CN111261140B (zh) 2020-01-16 2020-01-16 韵律模型训练方法及装置

Country Status (1)

Country Link
CN (1) CN111261140B (zh)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112016325A (zh) * 2020-09-04 2020-12-01 北京声智科技有限公司 语音合成方法及电子设备
CN112151009B (zh) * 2020-09-27 2024-06-25 平安科技(深圳)有限公司 一种基于韵律边界的语音合成方法及装置、介质、设备
CN112988964B (zh) * 2021-02-20 2024-03-08 平安科技(深圳)有限公司 文本韵律边界预测的方法、装置、设备及存储介质

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2019052810A1 (en) * 2017-09-13 2019-03-21 Koninklijke Philips N.V. TRAINING A MODEL
CN109710933A (zh) * 2018-12-25 2019-05-03 广州天鹏计算机科技有限公司 训练语料的获取方法、装置、计算机设备和存储介质
CN110069602A (zh) * 2019-04-15 2019-07-30 网宿科技股份有限公司 语料标注方法、装置、服务器及存储介质

Family Cites Families (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8201080B2 (en) * 2006-05-24 2012-06-12 International Business Machines Corporation Systems and methods for augmenting audio/visual broadcasts with annotations to assist with perception and interpretation of broadcast content
CN101650942B (zh) * 2009-08-26 2012-06-27 北京邮电大学 基于韵律短语的韵律结构生成方法
CN108122035B (zh) * 2016-11-29 2019-10-18 科大讯飞股份有限公司 端到端建模方法及系统
CN106601228B (zh) * 2016-12-09 2020-02-04 百度在线网络技术(北京)有限公司 基于人工智能韵律预测的样本标注方法及装置
US20180240031A1 (en) * 2017-02-17 2018-08-23 Twitter, Inc. Active learning system
CN107451115B (zh) * 2017-07-11 2020-03-06 中国科学院自动化研究所 端到端的汉语韵律层级结构预测模型的构建方法及系统
CN107680579B (zh) * 2017-09-29 2020-08-14 百度在线网络技术(北京)有限公司 文本正则化模型训练方法和装置、文本正则化方法和装置
CN108305612B (zh) * 2017-11-21 2020-07-31 腾讯科技(深圳)有限公司 文本处理、模型训练方法、装置、存储介质和计算机设备
CN110223473A (zh) * 2019-05-08 2019-09-10 苏州凸现信息科技有限公司 一种基于多项特征变化识别的安防监控系统及其工作方法
CN110246487B (zh) * 2019-06-13 2021-06-22 思必驰科技股份有限公司 用于单通道的语音识别模型的优化方法及系统

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2019052810A1 (en) * 2017-09-13 2019-03-21 Koninklijke Philips N.V. TRAINING A MODEL
CN109710933A (zh) * 2018-12-25 2019-05-03 广州天鹏计算机科技有限公司 训练语料的获取方法、装置、计算机设备和存储介质
CN110069602A (zh) * 2019-04-15 2019-07-30 网宿科技股份有限公司 语料标注方法、装置、服务器及存储介质

Also Published As

Publication number Publication date
CN111261140A (zh) 2020-06-09

Similar Documents

Publication Publication Date Title
CN110489555B (zh) 一种结合类词信息的语言模型预训练方法
CN111261140B (zh) 韵律模型训练方法及装置
US10540585B2 (en) Training sequence generation neural networks using quality scores
CN109817201B (zh) 一种语言学习方法、装置、电子设备及可读存储介质
CN110991195B (zh) 机器翻译模型训练方法、装置及存储介质
CN109800298A (zh) 一种基于神经网络的中文分词模型的训练方法
CN110136747A (zh) 一种评价语音音素正确性的方法、装置、设备及存储介质
CN111489746B (zh) 一种基于bert的电网调度语音识别语言模型构建方法
CN115357719B (zh) 基于改进bert模型的电力审计文本分类方法及装置
CN117149984B (zh) 一种基于大模型思维链的定制化培训方法及装置
CN112634866A (zh) 语音合成模型训练和语音合成方法、装置、设备及介质
CN112530405A (zh) 一种端到端语音合成纠错方法、系统及装置
Ferreira et al. Adversarial bandit for online interactive active learning of zero-shot spoken language understanding
CN112749544B (zh) 段落分割模型的训练方法及系统
CN115116474A (zh) 口语评分模型训练方法、评分方法、装置及电子设备
CN111680515B (zh) 基于ai识别的答案确定方法、装置、电子设备及介质
CN110851572A (zh) 会话标注方法、装置、存储介质及电子设备
Wang et al. Phonological modeling of mispronunciation gradations in L2 English speech of L1 Chinese learners
CN114333790A (zh) 数据处理方法、装置、设备、存储介质及程序产品
WO2021235968A1 (ru) Система и способ корректировки орфографических ошибок
US20120100519A1 (en) Training system
Nagata et al. A method for rating English texts by reading level for Japanese learners of English
CN117275319B (zh) 训练语言重点能力的装置
CN117993366B (zh) 测评题目动态生成方法及系统、电子设备、可读存储介质
CN117909485B (zh) 基于大语言模型的法律咨询智能交互方法及系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant