CN115587570A - 韵律边界与多音字的标注方法、装置、模型、设备及介质 - Google Patents
韵律边界与多音字的标注方法、装置、模型、设备及介质 Download PDFInfo
- Publication number
- CN115587570A CN115587570A CN202211545540.9A CN202211545540A CN115587570A CN 115587570 A CN115587570 A CN 115587570A CN 202211545540 A CN202211545540 A CN 202211545540A CN 115587570 A CN115587570 A CN 115587570A
- Authority
- CN
- China
- Prior art keywords
- sublayer
- semantic features
- polyphone
- text sequence
- labeling
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 69
- 238000002372 labelling Methods 0.000 claims abstract description 68
- 239000013598 vector Substances 0.000 claims abstract description 41
- 238000012549 training Methods 0.000 claims description 29
- 238000000605 extraction Methods 0.000 claims description 26
- 238000004364 calculation method Methods 0.000 claims description 18
- 230000006870 function Effects 0.000 claims description 17
- 230000007246 mechanism Effects 0.000 claims description 10
- 230000015654 memory Effects 0.000 claims description 9
- 230000033764 rhythmic process Effects 0.000 claims description 8
- 230000006403 short-term memory Effects 0.000 claims description 5
- 230000007787 long-term memory Effects 0.000 claims description 4
- 230000000694 effects Effects 0.000 abstract description 9
- 230000008569 process Effects 0.000 description 22
- 230000015572 biosynthetic process Effects 0.000 description 10
- 238000010586 diagram Methods 0.000 description 10
- 238000012545 processing Methods 0.000 description 10
- 238000003786 synthesis reaction Methods 0.000 description 10
- 230000009471 action Effects 0.000 description 5
- 238000004590 computer program Methods 0.000 description 5
- 125000004122 cyclic group Chemical group 0.000 description 4
- 230000004044 response Effects 0.000 description 4
- 230000011218 segmentation Effects 0.000 description 3
- 230000003190 augmentative effect Effects 0.000 description 2
- 238000010801 machine learning Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 238000009825 accumulation Methods 0.000 description 1
- 230000002457 bidirectional effect Effects 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 238000012821 model calculation Methods 0.000 description 1
- 238000003062 neural network model Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000005192 partition Methods 0.000 description 1
- 238000012805 post-processing Methods 0.000 description 1
- 238000007781 pre-processing Methods 0.000 description 1
- 230000000306 recurrent effect Effects 0.000 description 1
- 230000002441 reversible effect Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
- G06F40/103—Formatting, i.e. changing of presentation of documents
- G06F40/117—Tagging; Marking up; Designating a block; Setting of attributes
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/049—Temporal neural networks, e.g. delay elements, oscillating neurons or pulsed inputs
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- Software Systems (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Evolutionary Computation (AREA)
- Mathematical Physics (AREA)
- Computing Systems (AREA)
- Data Mining & Analysis (AREA)
- Life Sciences & Earth Sciences (AREA)
- Molecular Biology (AREA)
- Biophysics (AREA)
- Biomedical Technology (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Medical Informatics (AREA)
- Machine Translation (AREA)
Abstract
本申请实施例提供韵律边界与多音字的标注方法、装置、模型、设备及介质,应用于已训练的端到端模型,端到端模型包括输入层、中间层和并列的韵律边界标注子层与多音字标注子层;方法包括:从输入层获取待标注的文本序列的文本向量;利用中间层从文本向量中提取上下文语义特征;利用韵律边界标注子层根据上下文语义特征,输出携带韵律边界标签的文本序列;利用多音字标注子层根据上下文语义特征,输出携带读音标签的文本序列。由于多音字消歧与韵律边界预测之间的信息有互助作用,因此可以直接使用上下文语义特征进行多音字消歧,同时舍弃了常用的词性特征。从而使得既实现了端到端的输出,又提高了输出结果的准确率。
Description
技术领域
本申请涉及机器学习技术领域,具体而言,涉及韵律边界与多音字的标注方法、装置、模型、设备及介质。
背景技术
在语音合成(Text-To-Speech,TTS)任务中,一般包括前端和后端两个部分。前端用于将文本转化为语言特征。前端中的多音字消歧与韵律边界预测,是整个语音合成任务重最复杂的任务,在整个语音合成中具有十分重要的作用。然而,在相关技术中,多音字消歧与韵律边界预测往往是作为两个独立的任务分别实现,一方面增加了处理成本,增加了服务的响应时间;另一方面无法实现从端到端的输出,输出准确率受限。
发明内容
本申请实施例的目的在于提供韵律边界与多音字的标注方法、装置、模型、设备及介质,用以实现端到端输出的技术效果。
本申请实施例第一方面提供了一种韵律边界与多音字读音的标注方法,所述方法应用于已训练的端到端模型,所述端到端模型包括输入层、中间层和输出层;所述输出层包括并列的韵律边界标注子层与多音字标注子层;所述方法包括:
从所述输入层获取待标注的文本序列的文本向量;
利用所述中间层从所述文本向量中提取上下文语义特征;所述上下文语义特征表征所述待标注的文本序列中上下文的语义相关性;
利用所述韵律边界标注子层根据所述上下文语义特征,输出携带韵律边界标签的文本序列;
利用所述多音字标注子层根据所述上下文语义特征,输出携带读音标签的文本序列。
在上述实现过程中,由于多音字消歧与韵律边界预测之间的信息有互助作用,因此可以直接使用上下文语义特征进行多音字消歧,同时舍弃了常用的词性特征。从而使得既实现了端到端的输出,又提高了输出结果的准确率。
进一步地,所述中间层包括特征提取子层与循环网络子层;所述利用所述中间层从所述文本向量中提取上下文语义特征,包括:
利用所述特征提取子层基于自注意力机制,从所述文本向量中提取第一语义特征,所述第一语义特征表征所述待标注的文本序列中字符之间的相关性;
利用所述循环网络子层基于所述待标注的文本序列中在前字符对在后字符的语义影响,对所述第一语义特征进行序列化计算,得到上下文语义特征。
在上述实现过程中,通过自注意力机制提取待标注的文本序列中字符之间的相关性,然后基于在前字符对在后字符的语义影响,进行序列化计算,可以建立每个字符之间的联系,从而更好地提取出上下文语义特征。
进一步地,所述特征提取子层为BERT模型;所述循环网络子层为长短期记忆网络LSTM;所述韵律边界标注子层与所述多音字标注子层为条件随机场CRF模型。
在上述实现过程中,BERT模型作为特征提取器能有效丰富特征表征,LSTM能将在前字符的信息也考虑到在后字符的语义计算中,从而更好地提取出上下文语义特征。
进一步地,所述端到端模型通过有监督训练得到;训练样本包括携带真实标签的文本序列,所述真实标签包括韵律边界的真实标签以及多音字读音的真实标签;所述端到端模型的损失函数是基于韵律边界的预测标签与真实标签之间的误差、以及多音字读音的预测标签与真实标签之间的误差确定的。
在上述实现过程中,端到端模型作为一个整体进行联合训练,通过联合训练同时解决语音合成中韵律边界预测和多音字消歧两大任务,不仅提升了模型训练效率,同时,在训练的过程中两个任务相互借用特征,以使训练效果更好,提高了输出结果的准确率。
进一步地,所述读音标签包括空白标签与多音字读音标签;所述空白标签携带于单音字,所述多音字读音标签携带于多音字,表征所述多音字的正确读音。
在上述实现过程中,只对多音字进行读音标注,而对于单音字无需进行读音标注,从而减轻了模型计算压力,提高响应效率。
本申请实施例第二方面提供了一种韵律边界与多音字读音的标注装置,所述装置应用于已训练的端到端模型;所述端到端模型包括输入层、中间层和输出层;所述输出层包括并列的韵律边界标注子层与多音字标注子层;所述装置包括:
获取模块,用于从所述输入层获取待标注的文本序列的文本向量;
提取模块,用于利用所述中间层从所述文本向量中提取上下文语义特征;所述上下文语义特征表征所述待标注的文本序列中上下文的语义相关性;
第一输出模块,用于利用所述韵律边界标注子层根据所述上下文语义特征,输出携带韵律边界标签的文本序列;
第二输出模块,用于利用所述多音字标注子层根据所述上下文语义特征,输出携带读音标签的文本序列。
进一步地,所述中间层包括特征提取子层与循环网络子层;所述提取模块具体用于:
利用所述特征提取子层基于自注意力机制,从所述文本向量中提取第一语义特征,所述第一语义特征表征所述待标注的文本序列中字符之间的相关性;
利用所述循环网络子层基于所述待标注的文本序列中在前字符对在后字符的语义影响,对所述第一语义特征进行序列化计算,得到上下文语义特征。
进一步地,所述特征提取子层为BERT模型;所述循环网络子层为长短期记忆网络LSTM;所述韵律边界标注子层与所述多音字标注子层为条件随机场CRF模型。
进一步地,所述端到端模型通过有监督训练得到;训练样本包括携带真实标签的文本序列,所述真实标签包括韵律边界的真实标签以及多音字读音的真实标签;所述端到端模型的损失函数是基于韵律边界的预测标签与真实标签之间的误差、以及多音字读音的预测标签与真实标签之间的误差确定的。
本申请实施例第三方面提供了一种端到端模型,所述端到端模型用于标注韵律边界与多音字读音;所述端到端模型包括:
输入层,用于获取待标注的文本序列的文本向量;
中间层,用于从所述文本向量中提取上下文语义特征;所述上下文语义特征表征所述待标注的文本序列中上下文的语义相关性;
输出层,包括并列的韵律边界标注子层与多音字标注子层;
所述韵律边界标注子层,用于根据所述上下文语义特征,输出携带韵律边界标签的文本序列;
所述多音字标注子层,用于根据所述上下文语义特征,输出携带读音标签的文本序列。
本申请实施例第四方面提供了一种电子设备,所述电子设备包括:
处理器;
用于存储处理器可执行指令的存储器;
其中,所述处理器调用所述可执行指令时实现第一方面任一所述方法的操作。
本申请实施例第五方面提供了一种计算机可读存储介质,其上存储有计算机指令,所述计算机指令被处理器执行时实现第一方面任一所述方法的步骤。
附图说明
为了更清楚地说明本申请实施例的技术方案,下面将对本申请实施例中所需要使用的附图作简单地介绍,应当理解,以下附图仅示出了本申请的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。
图1为本申请实施例提供的一种端到端模型的模型结构示意图;
图2为本申请实施例提供的一种韵律边界与多音字读音的标注方法的流程示意图;
图3为本申请实施例提供的另一种端到端模型的模型结构示意图;
图4为本申请实施例提供的另一种韵律边界与多音字读音的标注方法的流程示意图;
图5为本申请实施例提供的另一种端到端模型的模型结构示意图;
图6为本申请实施例提供的一种韵律边界与多音字读音的标注装置的结构框图;
图7为本申请实施例提供的一种电子设备的硬件结构图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行描述。
应注意到:相似的标号和字母在下面的附图中表示类似项,因此,一旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步定义和解释。同时,在本申请的描述中,术语“第一”、“第二”等仅用于区分描述,而不能理解为指示或暗示相对重要性。
在语音合成(Text-To-Speech,TTS)任务中,一般包括前端和后端两个部分。前端用于将文本转化为语言特征。前端中的多音字消歧与韵律边界预测,是整个语音合成任务重最复杂的任务,在整个语音合成中具有十分重要的作用。
多音字消歧是指从多音字的多个发音中选择出正确的一个。在相关技术中,多音字消歧的方法包括但不限于规则匹配与词性标注方法等。规则匹配是指预先建立一个多音字词库,其中包括了所有多音字在不同词语组合下的发音。例如“强调diao4”、“调tiao2整”、“长chang2度”等。然而,规则匹配只能解决固定搭配的词语,对于同一个词语在不同语境中有不同发音的情况则无法识别出正确的读音。例如“朝阳”用作地名时,读作“朝chao2阳”;用作名词时,则读作“朝zhao1阳”。此外,规则匹配的方法由于无法穷举到所有包含多音字的词,因此其覆盖率较低。
而词性标注方法则是指根据同一个汉字在不同词性下的读音进行不同的标注识别。是通过标注的数据训练模型,抽取句子中每个词的词性特征,然后预测存在的多音字的读音。
韵律边界预测是指标记出句子中的字、词、短语和句子边界,从而指导语音合成时音节的发音时长。在相关技术中,韵律边界预测可以通过模型进行标注。例如,模型主要有Seq2Seq(Sequence to Sequence,序列到序列)模型、循环神经网络模型等。
然而,在相关技术中,多音字消歧与韵律边界预测往往是作为两个独立的任务分别实现。例如,可以是并列的两个任务,又或者是流水线的两个任务。若作为两个并列的独立任务分别实现,那么每个任务都分别对输入的文本进行处理,从而增加了处理成本。若作为流水线上的先后执行的两个独立任务分别执行,则会增加了服务的响应时间。再者,在利用词性进行标注时,往往需要增加后处理过程,也即针对模型的输出结果,进一步地利用词性来纠正模型的输出结果,如此,便无法实现从端到端的输出。
所谓端到端的输出,即将原始数据作为模型的输入,而无需经过数据预处理,随后模型可以直接输出结果。也即将多步骤或模块解决的任务使用单个模型来解决。可以理解的是,在传统的机器学习中,往往由多个独立的模块组成,也即使用的是非端到端模型。每个独立的模块解决一个独立的任务,上一个步骤模块的输出结果好坏会影响到下一个步骤,从而影响到最后的输出结果。由于各个模块的训练目标不一致,某个模块的目标函数可能与系统的宏观目标由偏差,这样训练出来的系统最终很难达到最优性能,上一个模块的输出误差,会累积到下一个模块,最终导致输出结果的准确率受限。
为此,本申请提出了一种韵律边界与多音字读音的标注方法,应用于已训练的端到端模型。如图1所示,端到端模型100可以包括输入层110、中间层120以及输出层130。其中,输出层130包括并列的韵律边界标注子层131与多音字标注子层132。所谓并列,也即中间层120的输出结果既输入韵律边界标注子层131,又输入多音字标注子层132。
其中,上述方法包括如图2所示的步骤:
步骤210:从所述输入层获取待标注的文本序列的文本向量;
步骤220:利用所述中间层从所述文本向量中提取上下文语义特征;所述上下文语义特征表征所述待标注的文本序列中上下文的语义相关性;
步骤230:利用所述韵律边界标注子层根据所述上下文语义特征,输出携带韵律边界标签的文本序列;
步骤240:利用所述多音字标注子层根据所述上下文语义特征,输出携带读音标签的文本序列。
其中,上述方法可以由电子设备执行,例如电子设备可以是语音合成中的前端设备。示例性地,电子设备可以包括但不限于服务器、智能电话/手机、个人数字助理(PDA)、媒体内容播放器、视频游戏站/系统、虚拟现实系统、增强现实系统、可穿戴设备(如手表、手环、手套、帽子、头盔、虚拟现实头戴耳机、增强现实头戴耳机、头装式装置(HMD)、头带、挂件、臂章、腿环、鞋子或者马甲等)等等。
待标注的文本序列包括多个字符。将待标注的文本序列输入端到端模型后,端到端模型的第一层输入层可以获取待标注的文本序列的文本向量。随后,文本向量作为中间层的输入,中间层可以对文本向量进行处理,建立每个字符之间的联系,从文本向量中提取上下文语义特征。其中,上下文语义特征表征待标注的文本序列中上下文的语义相关性。
随后,上下文语义特征输入输出层。输出层包括并列的韵律边界标注子层与多音字标注子层。因此,上下文语义特征分别输入韵律边界标注子层与多音字标注子层。韵律边界标注子层根据上下文语义特征,可以输出携带韵律边界标签的文本序列;而多音字标注子层根据上下文语义特征,输出的则是携带读音标签的文本序列。其中,上述步骤230与步骤240没有先后执行顺序,也可以同时执行。
其中,韵律边界标签包括词边界标签、短语边界标签、短句边界标签、长句边界标签中的一种或多种。示例性地,词边界标签可以用符号#1表示,短语边界标签可以用符号#2表示,短句边界标签可以用符号#3表示,长句边界标签可以用符号#4表示。其中,“#”为韵律边界标识符,用于标识韵律边界。
作为例子,待标注的文本序列可以是“网络安全专家及集团副总裁李生”。经过上述端到端模型的处理后,韵律边界标注子层可以输出携带韵律边界标签的文本序列“网/O络/#1 安/O 全/#1 专/O 家/#3 及/O 集/O 团/#1 副/O 总/O 裁/#2 李/O 生/#4”。其中,“O”代表非边界位置。
此外,读音标签可以包括空白标签与多音字读音标签。对于单音字来说,由于不需要进行多音字消歧,因此经过端到端模型处理后输出的结果可以携带空白标签。也即空白标签携带于单音字。对于多音字来说,经过端到端模型处理后输出的结果可以携带多音字读音标签。某一多音字所携带的多音字读音标签用于表征该多音字的正确读音。
作为例子,待标注的文本序列可以是“加强企业调度”。其中,“强”、“调”均为多音字,其余为单音字。如此,经过上述端到端模型的处理后,多音字标注子层可以输出携带读音标签的文本序列“加/O 强/qiang2 企/O 业/O 调/diao4 度/du4”。
可见,本申请提供的一种韵律边界与多音字读音的标注方法,首先,多音字消歧任务与韵律边界预测任务之间的信息是有互助作用的,这是因为多音字在同一句话中不同断句方式的读音存在可变性。例如,对于文本序列“增强调整”,若断句方式为“增|强调|整”,则“调”的读音为diao4。若断句方式为“增强|调整”,则“调”的读音为tiao2。
也即由于多音字的不同读音一般与其进行组合的词相关,而韵律边界的预测又可以对句子进行词组的切分,因此韵律边界的划分对多音字消歧任务有一定的辅助作用。如在上述例子中,若在韵律边界预测中确定划分方式为“增强|调整”,则在多音字消歧中可以辅助判断“调”的读音为tiao2。
反之,多音字与不同字组合的读音不同,也会引起不同的词组切分,即对韵律边界识别产生了一定的影响。如在上述例子中,若在多音字消歧中确定“调”的读音为tiao2,那么在韵律边界预测中可以辅助判断划分方式为“增强|调整”。
由于多音字消歧与韵律边界预测之间的信息有互助作用,因此提出了在多音字消歧中舍弃常用的词性特征,而直接使用上下文语义特征进行多音字消歧。如上所述,由于利用词性特征进行标注时,需要对模型的输出结果进一步使用词性特征进行纠正,使得模型的输出结果并非是最终的处理结果,导致无法实现端到端的输出,输出结果的准确率受限。因此在舍弃常用的词性特征后,一方面可以实现端到端的输出;另一方面,由于多音字消歧与韵律边界预测之间的信息有互助作用,就算舍弃了词性特征后,也不会降低输出结果的准确率。相反,由于端到端模型作为一个整体以最终结果的优化为目标进行训练,因此不会发生误差累积,反而提高了输出结果的准确率。
此外,本申请将多音字消歧与韵律边界预测这两个任务转化为NLP中的序列标注任务。将原本的两个独立任务转化为一个任务,通过共用一次输入端文本处理,便可同时输出多音字标注与韵律边界标注结果。从而节约了处理成本,以及提升了服务的响应效率。
在一些实施例中,如图3所示,中间层120包括特征提取子层121与循环网络子层122。如此,上述步骤220上下文语义特征的提取过程,包括如图4所示的步骤:
步骤221:利用所述特征提取子层基于自注意力机制,从所述文本向量中提取第一语义特征;
其中,所述第一语义特征表征所述待标注的文本序列中字符之间的相关性;
步骤222:利用所述循环网络子层基于所述待标注的文本序列中在前字符对在后字符的语义影响,对所述第一语义特征进行序列化计算,得到上下文语义特征。
基于自注意力(self-attention)机制可以计算出待标注的文本序列中每个字符与在前字符和在后字符的相关性,也即待标注的文本序列中字符之间的相关性。因此基于自注意力机制可以从文本向量中提取第一语义特征。随后,利用循环网络对第一语义特征进行序列化计算,计算过程中将在前字符对在后字符的语义影响也一并考虑,从而得到上下文语义特征。
在一些实施例中,特征提取子层为BERT(Bidirectional EncoderRepresentations from Transformer)模型,循环网络子层为长短期记忆网络(Longshort-term memory, LSTM),韵律边界标注子层与多音字标注子层均为条件随机场CRF模型。如此,本申请提出的端到端模型可以如图5所示。
以BERT模型520作为特征提取器提取第一语义特征,能有效丰富特征表征。BERT模型520包括多层,每一层均进行自注意力计算、线性投影(Linear-Projections)计算以及前馈(Feed-Forward)计算。以BERT模型520作为特征提取器时,输入层510可以将待标注的文本序列处理成BERT模型520的输入向量形式,包括词嵌入向量(Word Embeddings)、语句分块向量(Segmentation Embedding)、以及位置编码张量(Position Embedding)。其中,上述三种向量的维度为预设值,例如128维或256维。随后,将上述三种向量相加求和可以得到文本向量,并输入BERT模型520。其中,待标注的文本序列包括的字符数量不超过预设数量。
文本向量经过BERT模型520后,可以输出第一语义特征。随后LSTM网络530可以对第一语义特征再次更新。LSTM网络是一个序列化的计算流程。每一时刻的计算都会考虑前一时刻的结果。又或者说,前一时刻的计算结果会传输至下一时刻的计算。因此,在前字符的信息会传递至在后的字符的计算中。在前的语义信息会影响在后的语义信息。
经过LSTM网络530处理后,可以输出上下文语义特征。随后,上下文语义特征作为输出层的输入。输出层包括CRF 541与CRF 542。其中,CRF 541为韵律边界标注子层,可以输出携带韵律边界标签的文本序列。CRF 542为多音字标注子层,可以输出携带读音标签的文本序列。
关于端到端模型的训练过程,在一些实施例中,端到端模型作为一个整体进行联合训练。采取的训练方式可以为有监督训练。训练样本携带真实标签的文本序列。其中,真实标签包括韵律边界的真实标签以及多音字读音的真实标签。
在训练过程中,将训练的文本序列输入端到端模型,端到端模型可以输出携带预测标签的文本序列。预测标签包括韵律边界的预测标签以及多音字读音的预测标签。如此,基于韵律边界的预测标签与真实标签之间的误差,以及多音字读音的预测标签与真实标签之间的误差,可以确定端到端模型的损失函数。也即损失函数为韵律边界预测和多音字消歧两个任务的损失函数之和。利用损失函数更新端到端模型的模型参数,在满足训练停止条件时,即可停止训练,得到已训练的端到端模型。
在本实施例中,通过联合训练同时解决语音合成中韵律边界预测和多音字消歧两大任务,不仅提升了模型训练效率,同时,在训练的过程中两个任务相互借用特征,以使训练效果更好,提高了输出结果的准确率。
基于上述任一实施例提供的一种韵律边界与多音字读音的标注方法,本申请还提供了一种韵律边界与多音字读音的标注装置,应用于已训练的端到端模型。该端到端模型可以是上述任一实施例所述的端到端模型,包括输入层、中间层和输出层。输出层包括并列的韵律边界标注子层与多音字标注子层。如图6所示,该装置600包括:
获取模块610,用于从所述输入层获取待标注的文本序列的文本向量;
提取模块620,用于利用所述中间层从所述文本向量中提取上下文语义特征;所述上下文语义特征表征所述待标注的文本序列中上下文的语义相关性;
第一输出模块630,用于利用所述韵律边界标注子层根据所述上下文语义特征,输出携带韵律边界标签的文本序列;
第二输出模块640,用于利用所述多音字标注子层根据所述上下文语义特征,输出携带读音标签的文本序列。
其中,上述装置600可以搭载于电子设备中,以使电子设备执行本申请提供的一种韵律边界与多音字读音的标注方法。
在一些实施例中,所述中间层包括特征提取子层与循环网络子层;所述提取模块620具体用于:
利用所述特征提取子层基于自注意力机制,从所述文本向量中提取第一语义特征,所述第一语义特征表征所述待标注的文本序列中字符之间的相关性;
利用所述循环网络子层基于所述待标注的文本序列中在前字符对在后字符的语义影响,对所述第一语义特征进行序列化计算,得到上下文语义特征。
在一些实施例中,所述特征提取子层为BERT模型;所述循环网络子层为长短期记忆网络LSTM;所述韵律边界标注子层与所述多音字标注子层为条件随机场CRF模型。
在一些实施例中,所述端到端模型通过有监督训练得到;训练样本包括携带真实标签的文本序列,所述真实标签包括韵律边界的真实标签以及多音字读音的真实标签;所述端到端模型的损失函数是基于韵律边界的预测标签与真实标签之间的误差、以及多音字读音的预测标签与真实标签之间的误差确定的。
上述装置中各个模块的功能和作用的实现过程具体详见上述方法中对应步骤的实现过程,在此不再赘述。
基于上述任一实施例提供的一种韵律边界与多音字读音的标注方法,本申请还提供了一种端到端模型,用于标注韵律边界与多音字读音。如图1所示,端到端模型100包括:
输入层110,用于获取待标注的文本序列的文本向量;
中间层120,用于从所述文本向量中提取上下文语义特征;所述上下文语义特征表征所述待标注的文本序列中上下文的语义相关性;
输出层130,包括并列的韵律边界标注子层131与多音字标注子层132;
所述韵律边界标注子层131,用于根据所述上下文语义特征,输出携带韵律边界标签的文本序列;
所述多音字标注子层132,用于根据所述上下文语义特征,输出携带读音标签的文本序列。
其中,上述端到端模型可以以组件等形式加载至程序中运行。又或者,可以以SDK(软件开发工具包,Software Development Kit)的形式输出,并通过相应的API(应用程序编程接口,Application Programming Interface)被调用。
在一些实施例中,如图3所示,中间层120包括特征提取子层121与循环网络子层122;其中,
所述特征提取子层121用于基于自注意力机制,从所述文本向量中提取第一语义特征,所述第一语义特征表征所述待标注的文本序列中字符之间的相关性;
所述循环网络子层122用于基于所述待标注的文本序列中在前字符对在后字符的语义影响,对所述第一语义特征进行序列化计算,得到上下文语义特征。
在一些实施例中,如图5所示,所述特征提取子层121为BERT模型520;所述循环网络子层122为长短期记忆网络LSTM 530;所述韵律边界标注子层131为条件随机场CRF模型541,所述多音字标注子层132为CRF模型542。
在一些实施例中,所述端到端模型100通过有监督训练得到;训练样本包括携带真实标签的文本序列,所述真实标签包括韵律边界的真实标签以及多音字读音的真实标签;所述端到端模型的损失函数是基于韵律边界的预测标签与真实标签之间的误差、以及多音字读音的预测标签与真实标签之间的误差确定的。
上述模型中各个模块的功能和作用的实现过程具体详见上述方法中对应步骤的实现过程,在此不再赘述。
基于上述任意实施例所述的一种韵律边界与多音字读音的标注方法,本申请还提供了如图7所示的一种电子设备的结构示意图。如图7,在硬件层面,该电子设备包括处理器、内部总线、网络接口、内存以及非易失性存储器,当然还可能包括其他业务所需要的硬件。处理器从非易失性存储器中读取对应的计算机程序到内存中然后运行,以实现上述任意实施例所述的一种韵律边界与多音字读音的标注方法。
本申请还提供了一种计算机存储介质,存储介质存储有计算机程序,计算机程序被处理器执行时可用于执行上述任意实施例所述的一种韵律边界与多音字读音的标注方法。
在本申请所提供的几个实施例中,应该理解到,所揭露的装置和方法,也可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的,例如,附图中的流程图和框图显示了根据本申请的多个实施例的装置、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段或代码的一部分,所述模块、程序段或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现方式中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个连续的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或动作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
另外,在本申请各个实施例中的各功能模块可以集成在一起形成一个独立的部分,也可以是各个模块单独存在,也可以两个或两个以上模块集成形成一个独立的部分。
所述功能如果以软件功能模块的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述仅为本申请的实施例而已,并不用于限制本申请的保护范围,对于本领域的技术人员来说,本申请可以有各种更改和变化。凡在本申请的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本申请的保护范围之内。应注意到:相似的标号和字母在下面的附图中表示类似项,因此,一旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步定义和解释。
以上所述,仅为本申请的具体实施方式,但本申请的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本申请揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本申请的保护范围之内。因此,本申请的保护范围应所述以权利要求的保护范围为准。
需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
Claims (12)
1.一种韵律边界与多音字读音的标注方法,其特征在于,所述方法应用于已训练的端到端模型,所述端到端模型包括输入层、中间层和输出层;所述输出层包括并列的韵律边界标注子层与多音字标注子层;所述方法包括:
从所述输入层获取待标注的文本序列的文本向量;
利用所述中间层从所述文本向量中提取上下文语义特征;所述上下文语义特征表征所述待标注的文本序列中上下文的语义相关性;
利用所述韵律边界标注子层根据所述上下文语义特征,输出携带韵律边界标签的文本序列;
利用所述多音字标注子层根据所述上下文语义特征,输出携带读音标签的文本序列。
2.根据权利要求1所述的方法,其特征在于,所述中间层包括特征提取子层与循环网络子层;所述利用所述中间层从所述文本向量中提取上下文语义特征,包括:
利用所述特征提取子层基于自注意力机制,从所述文本向量中提取第一语义特征,所述第一语义特征表征所述待标注的文本序列中字符之间的相关性;
利用所述循环网络子层基于所述待标注的文本序列中在前字符对在后字符的语义影响,对所述第一语义特征进行序列化计算,得到上下文语义特征。
3.根据权利要求2所述的方法,其特征在于,所述特征提取子层为BERT模型;所述循环网络子层为长短期记忆网络LSTM;所述韵律边界标注子层与所述多音字标注子层为条件随机场CRF模型。
4.根据权利要求1所述的方法,其特征在于,所述端到端模型通过有监督训练得到;训练样本包括携带真实标签的文本序列,所述真实标签包括韵律边界的真实标签以及多音字读音的真实标签;所述端到端模型的损失函数是基于韵律边界的预测标签与真实标签之间的误差、以及多音字读音的预测标签与真实标签之间的误差确定的。
5.根据权利要求1所述的方法,其特征在于,所述读音标签包括空白标签与多音字读音标签;所述空白标签携带于单音字,所述多音字读音标签携带于多音字,表征所述多音字的正确读音。
6.一种韵律边界与多音字读音的标注装置,其特征在于,所述装置应用于已训练的端到端模型;所述端到端模型包括输入层、中间层和输出层;所述输出层包括并列的韵律边界标注子层与多音字标注子层;所述装置包括:
获取模块,用于从所述输入层获取待标注的文本序列的文本向量;
提取模块,用于利用所述中间层从所述文本向量中提取上下文语义特征;所述上下文语义特征表征所述待标注的文本序列中上下文的语义相关性;
第一输出模块,用于利用所述韵律边界标注子层根据所述上下文语义特征,输出携带韵律边界标签的文本序列;
第二输出模块,用于利用所述多音字标注子层根据所述上下文语义特征,输出携带读音标签的文本序列。
7.根据权利要求6所述的装置,其特征在于,所述中间层包括特征提取子层与循环网络子层;所述提取模块具体用于:
利用所述特征提取子层基于自注意力机制,从所述文本向量中提取第一语义特征,所述第一语义特征表征所述待标注的文本序列中字符之间的相关性;
利用所述循环网络子层基于所述待标注的文本序列中在前字符对在后字符的语义影响,对所述第一语义特征进行序列化计算,得到上下文语义特征。
8.根据权利要求7所述的装置,其特征在于,所述特征提取子层为BERT模型;所述循环网络子层为长短期记忆网络LSTM;所述韵律边界标注子层与所述多音字标注子层为条件随机场CRF模型。
9.根据权利要求6所述的装置,其特征在于,所述端到端模型通过有监督训练得到;训练样本包括携带真实标签的文本序列,所述真实标签包括韵律边界的真实标签以及多音字读音的真实标签;所述端到端模型的损失函数是基于韵律边界的预测标签与真实标签之间的误差、以及多音字读音的预测标签与真实标签之间的误差确定的。
10.一种端到端模型,其特征在于,所述端到端模型用于标注韵律边界与多音字读音;所述端到端模型包括:
输入层,用于获取待标注的文本序列的文本向量;
中间层,用于从所述文本向量中提取上下文语义特征;所述上下文语义特征表征所述待标注的文本序列中上下文的语义相关性;
输出层,包括并列的韵律边界标注子层与多音字标注子层;
所述韵律边界标注子层,用于根据所述上下文语义特征,输出携带韵律边界标签的文本序列;
所述多音字标注子层,用于根据所述上下文语义特征,输出携带读音标签的文本序列。
11.一种电子设备,其特征在于,所述电子设备包括:
处理器;
用于存储处理器可执行指令的存储器;
其中,所述处理器调用所述可执行指令时实现权利要求1-5任一所述方法的操作。
12.一种计算机可读存储介质,其特征在于,其上存储有计算机指令,所述计算机指令被处理器执行时实现权利要求1-5任一所述方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211545540.9A CN115587570A (zh) | 2022-12-05 | 2022-12-05 | 韵律边界与多音字的标注方法、装置、模型、设备及介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211545540.9A CN115587570A (zh) | 2022-12-05 | 2022-12-05 | 韵律边界与多音字的标注方法、装置、模型、设备及介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN115587570A true CN115587570A (zh) | 2023-01-10 |
Family
ID=84783383
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202211545540.9A Pending CN115587570A (zh) | 2022-12-05 | 2022-12-05 | 韵律边界与多音字的标注方法、装置、模型、设备及介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115587570A (zh) |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7136816B1 (en) * | 2002-04-05 | 2006-11-14 | At&T Corp. | System and method for predicting prosodic parameters |
CN111951780A (zh) * | 2020-08-19 | 2020-11-17 | 广州华多网络科技有限公司 | 语音合成的多任务模型训练方法及相关设备 |
CN112364653A (zh) * | 2020-11-09 | 2021-02-12 | 北京有竹居网络技术有限公司 | 用于语音合成的文本分析方法、装置、服务器和介质 |
CN112908293A (zh) * | 2021-03-11 | 2021-06-04 | 浙江工业大学 | 一种基于语义注意力机制的多音字发音纠错方法及装置 |
CN114242038A (zh) * | 2021-12-20 | 2022-03-25 | 浙江核新同花顺网络信息股份有限公司 | 一种语音合成方法及系统 |
-
2022
- 2022-12-05 CN CN202211545540.9A patent/CN115587570A/zh active Pending
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7136816B1 (en) * | 2002-04-05 | 2006-11-14 | At&T Corp. | System and method for predicting prosodic parameters |
CN111951780A (zh) * | 2020-08-19 | 2020-11-17 | 广州华多网络科技有限公司 | 语音合成的多任务模型训练方法及相关设备 |
CN112364653A (zh) * | 2020-11-09 | 2021-02-12 | 北京有竹居网络技术有限公司 | 用于语音合成的文本分析方法、装置、服务器和介质 |
CN112908293A (zh) * | 2021-03-11 | 2021-06-04 | 浙江工业大学 | 一种基于语义注意力机制的多音字发音纠错方法及装置 |
CN114242038A (zh) * | 2021-12-20 | 2022-03-25 | 浙江核新同花顺网络信息股份有限公司 | 一种语音合成方法及系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110232183B (zh) | 关键词提取模型训练方法、关键词提取方法、装置及存储介质 | |
CN111460807B (zh) | 序列标注方法、装置、计算机设备和存储介质 | |
CN111145728B (zh) | 语音识别模型训练方法、系统、移动终端及存储介质 | |
Liao et al. | Improving readability for automatic speech recognition transcription | |
CN111951780B (zh) | 语音合成的多任务模型训练方法及相关设备 | |
KR102315830B1 (ko) | 반지도 학습 기반 단어 단위 감정 임베딩과 lstm 모델을 이용한 대화 내에서 발화의 감정 분류 방법 | |
CN111611810A (zh) | 一种多音字读音消歧装置及方法 | |
CN111489746B (zh) | 一种基于bert的电网调度语音识别语言模型构建方法 | |
Zheng et al. | BLSTM-CRF Based End-to-End Prosodic Boundary Prediction with Context Sensitive Embeddings in a Text-to-Speech Front-End. | |
CN113380223B (zh) | 多音字消歧方法、装置、系统及存储介质 | |
WO2019167296A1 (ja) | 自然言語処理のための装置、方法及びプログラム | |
CN111859940B (zh) | 一种关键词提取方法、装置、电子设备及存储介质 | |
CN113901170A (zh) | 结合Bert模型和模板匹配的事件抽取方法及系统、电子设备 | |
CN113705315A (zh) | 视频处理方法、装置、设备及存储介质 | |
CN116341651A (zh) | 实体识别模型训练方法、装置、电子设备及存储介质 | |
CN111814479A (zh) | 一种企业简称生成及其模型的训练方法及装置 | |
CN116343747A (zh) | 语音合成方法、语音合成装置、电子设备及存储介质 | |
WO2019163752A1 (ja) | 形態素解析学習装置、形態素解析装置、方法、及びプログラム | |
CN116312539A (zh) | 基于大模型的中文对话轮次纠正方法及系统 | |
CN115587570A (zh) | 韵律边界与多音字的标注方法、装置、模型、设备及介质 | |
CN109960782A (zh) | 一种基于深度神经网络的藏文分词方法及装置 | |
Liao et al. | Automatic speech recognition post-processing for readability: Task, dataset and a two-stage pre-trained approach | |
CN113327578B (zh) | 一种声学模型训练方法、装置、终端设备及存储介质 | |
CN112818688B (zh) | 文本处理方法、装置、设备及存储介质 | |
CN115240712A (zh) | 一种基于多模态的情感分类方法、装置、设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20230110 |
|
RJ01 | Rejection of invention patent application after publication |