CN111339771A

CN111339771A - 一种基于多任务多层级模型的文本韵律预测方法

Info

Publication number: CN111339771A
Application number: CN202010158288.0A
Authority: CN
Inventors: 周俊明; 刘杰; 肖鉴津; 黄博贤
Original assignee: Guangzhou Shensheng Technology Co Ltd
Current assignee: Guangzhou Shensheng Technology Co Ltd
Priority date: 2020-03-09
Filing date: 2020-03-09
Publication date: 2020-06-26
Anticipated expiration: 2040-03-09
Also published as: CN111339771B

Abstract

本发明公开了一种基于多任务多层级模型的文本韵律预测方法，其特征在于，包括有以下步骤：步骤401：获取预测文本；步骤402：对待预测文本针对字表，进行字符级编码；步骤403：使用多任务模型进行序列预测；步骤404：判断句子是否存在长句无L2，L3的情况；步骤405：合并L1、L2、L3的输出结果，其中边界位置重叠，按L3、L2、L1的优先级进行选择合并，返回输出结果，本发明涉及文本韵律预测技术领域。本发明，解决了韵律信息生成误差、不能相互共享信息，且训练和调参麻烦、韵律短语和语调短语的边界预测不够准确、容易出现长句子无韵律短语边界和语调短语边界的问题。

Description

一种基于多任务多层级模型的文本韵律预测方法

技术领域

本发明涉及文本韵律预测技术领域，特别是涉及一种基于多任务多层级模型的文本韵律预测方法。

背景技术

近几年来，深度学习技术飞速发展的同时，给语音合成方面也带来了很大突破。韵律在语音合成自然度方面起着重要作用，而从文本中提取的韵律信息能给语音合成后端提供十分有效的特征，提高合成语音的停顿感和节奏感；更具体而言，按韵律声学分三个层级：韵律词、韵律短语、语调短语，以上边界语音停顿时长依次增加，特别是韵律短语和语调短语，对语音停顿感和节奏感影响很大。

目前韵律预测相关技术中，最常见的是条件随机场和循环神经网络模型，这两种方法通过模型训练能较好地提取到文本韵律规律，但随着语音合成技术更极致的要求，以上方法便凸显了一些问题，主要如下：

目前文本信息的提取主要依据词向量，而分词不可避免的带来了分词误差，而这往往会给韵律信息生成带来严重影响；

不同韵律特征往往要三个模型分开训练，分别提取不同层次的韵律信息，不能相互共享信息，且训练和调参麻烦；

韵律短语和语调短语的边界预测不够准确，导致韵律短语和语调短语边界容易被预测到词语中间，从而导致错误；

预测阶段，容易出现长句子无韵律短语边界和语调短语边界，这类情况合成语音听感上语速较为急促且无停顿，导致听感舒适度较差。

发明内容

为了解决韵律信息生成误差、不能相互共享信息，且训练和调参麻烦、韵律短语和语调短语的边界预测不够准确、容易出现长句子无韵律短语边界和语调短语边界的问题，本发明的目的是提供一种基于多任务多层级模型的文本韵律预测方法。

为了实现上述目的，本发明采用如下技术方案：一种基于多任务多层级模型的文本韵律预测方法，包括有以下步骤：

步骤401：获取预测文本；

步骤402：对待预测文本针对字表，进行字符级编码，部分单词不在字表中的单词，使用UNK或者其它方式进行替换匹配；

步骤403：使用多任务模型进行序列预测，并得到分别得到句子的L1、L2、L3的各个标签的概率分布；

步骤404：判断句子是否存在长句无L2，L3的情况，如若有一个满足，则采用图三中的择优机制，进行二次选择，生成韵律边界B标签；

步骤405：合并L1、L2、L3的输出结果，其中边界位置重叠，按L3、L2、L1的优先级进行选择合并，返回输出结果。

优选的，所述步骤401中，文本为训练文本，包括文本长度裁剪、非法字符及标点符号纠正等常用文本文本正则化方法；韵律声学中，将句号、问号、感叹号和逗号作为语调短语边界，据此，使用随机去出除文本中的逗号、句号、感叹号、问号及分号等能对文本韵律形成长停顿的标点符号，将标点符号位置视为语调短语级别边界点，并将此类文本作为扩充文本，作为训练数据；本步骤还包括两段或多段短文本的拼接，用来作为韵律文本训练扩充数据。

优选的，所述步骤402中，使用字符级编码方式，建立字表，对于部分单词不在字表中的单词，可以使用UNK或者其它方式进行替换匹配，提高字表的覆盖度。

优选的，所述步骤403中，对标签进行编码，具体的，由于韵律词级L1、韵律短语(L2和语调短语级L3区别较大，在语言结构层级上差别较大，对于文本分别按L1、L2、L3进行编码转换，将L2、L3边界视为L1边界，将L3边界视为L2边界，将各自边界的前一字符、中间字符、后一字符分别用B、O、E进行替换编码，当字符同时为两边界的前后字符时，用 S表示。

优选的，所述步骤404中，L2层输出概率矩阵计算argmax后，全部是O标签，即句子中无韵律短语边界，即只含韵律词边界，此情况会导致合成语音没有停顿感，显得连续而急促，特别是对于更长句子而言；从Ｂ标签做切片，得到所有字中B标签的可能概率大小，并选择最大概率位置，作为B标签位置。

与现有技术相比，本发明实现的有益效果：

本方法的第一个优点在于使用字符级单位进行训练，减少了对分词带来的错误；

本方法的第二个优点在于多任务多层次模型联合训练，能有效提高信息利用和不同韵律层级的提取；

本方法的第三个优点在于有更深的神经网络结构，可以提取到更深层次的文本表征，能更准确进行韵律预测；

本方法的第四个优点在于对长句无韵律和语调短语边界的情况采取了择优生成策略，优化了此类不良问题，减少了长句无韵律停顿的情况。

附图说明

以下结合附图和具体实施方式来进一步详细说明本发明：

图1为数据处理、模型训练流程图。

图 2 为神经网络模型架构图。

图 3 为长句生成机制说明图。

图 4 为文本韵律预测流程。

具体实施方式

以下由特定的具体实施例说明本发明的实施方式，熟悉此技术的人士可由本说明书所揭露的内容轻易地了解本发明的其他优点及功效。

请参阅图1至图4。须知，本说明书所附图式所绘示的结构、比例、大小等，均仅用以配合说明书所揭示的内容，以供熟悉此技术的人士了解与阅读，并非用以限定本发明可实施的限定条件，故不具技术上的实质意义，任何结构的修饰、比例关系的改变或大小的调整，在不影响本发明所能产生的功效及所能达成的目的下，均应仍落在本发明所揭示的技术内容得能涵盖的范围内。同时，本说明书中所引用的如“上”、“下”、“左”、“右”、“中间”及“一”等的用语，亦仅为便于叙述的明了，而非用以限定本发明可实施的范围，其相对关系的改变或调整，在无实质变更技术内容下，当亦视为本发明可实施的范畴。

实施例1，见图 1，本图主要说明数据的处理、数据的编码和模型的训练部分，具体实施方式包括以下部分：

步骤101：获取训练文本，包括文本长度裁剪、非法字符及标点符号纠正等常用文本文本正则化方法；

步骤102：韵律声学中，将句号、问号、感叹号和逗号作为语调短语边界，据此，使用随机去出除文本中的逗号、句号、感叹号、问号及分号等能对文本韵律形成长停顿的标点符号，将标点符号位置视为语调短语级别边界点，并将此类文本作为扩充文本，作为训练数据；本步骤还包括两段或多段短文本的拼接，用来作为韵律文本训练扩充数据；

步骤103：使用字符级编码方式，建立字表，对于部分单词不在字表中的单词，可以使用UNK或者其它方式进行替换匹配，提高字表的覆盖度；

步骤103还包括对韵律目标标签的编码，具体的，由于韵律词级(L1)、韵律短语级(L2)和语调短语级(L3)区别较大，在语言结构层级上差别较大。对于文本分别按L1、L2、L3进行编码转换，将L2、L3边界视为L1边界，将L3边界视为L2边界，将各自边界的前一字符、中间字符、后一字符分别用B、O、E进行替换编码，当字符同时为两边界的前后字符时，用 S表示，如图中所示，得到三组BOES编码特征，用于模型训练；

步骤104：使用多任务模型对多目标进行联合训练。

实施例2，见图 2，本图主要为多任务神经网络模型架构部分，具体实施方式包括以下部分，为了清楚简明，以下描述中省略了对公知功能和结构的描述，仅对核心重点进行说明：

如图中，首先对输入句子进入模型后，进行编码，包括字信息和位置信息编码，使用的方式包括但不限于常见的独热向量、三角函数相对位置编码等；

使用多层的多头自注意力层，对文本语义解析及韵律结构信息进行提取，对于多头自注意力层的注意力权重算法在此不做限定；

其中，图中的多层自注意力模型可以自己使用大文本语料进行预训练，也可以使用经过语义预训练得到的模型，如BERT双向编码器，得到多层的多头自注意语言模型；

如图，使用多层自注意力的最后三层输出向量，分别接入三个双向LSTM＋softmax层做序列预测器，进行L1、L2、L3的韵律序列训练和预测；

上述需说明的是，外接的序列预测器不限于双向LSTM网络，可以是多层GRU、全连接等形式的，多层注意力的输出表征使用层的组合也不做具体限定；

模型损失使用L1、L2、L3的损失和，各损失分配不同权重，使用梯度下降法进行联合训练；

为了得到更好的训练效果，使用预训练好的多层自注意力模型参数进行加载，使用分层学习率进行训练，具体的，对于外层LSTM层，使用较大学习率，对于内层预训练过的多层自注意层，使用较小学习率进行训练，这样有助于保留一定预训练效果的情况下，提高模型特定任务的泛化能力。

实施例3，见图 3，主要说明预测阶段较长句子未预测出L2、L3边界的解决机制，即择优生成一个边界，具体为：

如图中，假设L2层输出概率矩阵计算argmax后，全部是O标签，即句子中无韵律短语边界，即只含韵律词边界，此情况会导致合成语音没有停顿感，显得连续而急促，特别是对于更长句子而言；

那么采用一种较为合理的机制：从Ｂ标签做切片，得到所有字中B标签的可能概率大小，并选择最大概率位置，作为B标签位置。

实施例3，见图 3，对预测全流程进行说明，具体的：

步骤401：获取预测文本；

步骤402：对待预测文本针对字表，进行字符级编码，相似步骤103，部分单词不在字表中的单词，可以使用UNK或者其它方式进行替换匹配，提高字表的覆盖度；

上述实施例仅例示性说明本发明的原理及其功效，而非用于限制本发明。任何熟悉此技术的人士皆可在不违背本发明的精神及范畴下，对上述实施例进行修饰或改变。因此，举凡所属技术领域中具有通常知识者在未脱离本发明所揭示的精神与技术思想下所完成的一切等效修饰或改变，仍应由本发明的权利要求所涵盖。

Claims

1.一种基于多任务多层级模型的文本韵律预测方法，其特征在于，包括有以下步骤：

步骤401：获取预测文本；

2.根据权利要求1所述的一种基于多任务多层级模型的文本韵律预测方法，其特征在于，所述步骤401中，文本为训练文本，包括文本长度裁剪、非法字符及标点符号纠正等常用文本文本正则化方法；韵律声学中，将句号、问号、感叹号和逗号作为语调短语边界，据此，使用随机去出除文本中的逗号、句号、感叹号、问号及分号等能对文本韵律形成长停顿的标点符号，将标点符号位置视为语调短语级别边界点，并将此类文本作为扩充文本，作为训练数据；本步骤还包括两段或多段短文本的拼接，用来作为韵律文本训练扩充数据。

3.根据权利要求1所述的一种基于多任务多层级模型的文本韵律预测方法，其特征在于，所述步骤402中，使用字符级编码方式，建立字表，对于部分单词不在字表中的单词，可以使用UNK或者其它方式进行替换匹配，提高字表的覆盖度。

4.根据权利要求1所述的一种基于多任务多层级模型的文本韵律预测方法，其特征在于，所述步骤403中，对标签进行编码，具体的，由于韵律词级L1、韵律短语(L2和语调短语级L3区别较大，在语言结构层级上差别较大，对于文本分别按L1、L2、L3进行编码转换，将L2、L3边界视为L1边界，将L3边界视为L2边界，将各自边界的前一字符、中间字符、后一字符分别用B、O、E进行替换编码，当字符同时为两边界的前后字符时，用 S表示。

5.根据权利要求1所述的一种基于多任务多层级模型的文本韵律预测方法，其特征在于，所述步骤404中，L2层输出概率矩阵计算argmax后，全部是O标签，即句子中无韵律短语边界，即只含韵律词边界，此情况会导致合成语音没有停顿感，显得连续而急促，特别是对于更长句子而言；从Ｂ标签做切片，得到所有字中B标签的可能概率大小，并选择最大概率位置，作为B标签位置。