CN111105780A

CN111105780A - 一种韵律纠正方法、装置以及计算机可读存储介质

Info

Publication number: CN111105780A
Application number: CN201911374496.8A
Authority: CN
Inventors: 李永强; 雷欣; 李志飞
Original assignee: Mobvoi Information Technology Co Ltd
Current assignee: Mobvoi Information Technology Co Ltd
Priority date: 2019-12-27
Filing date: 2019-12-27
Publication date: 2020-05-05
Anticipated expiration: 2039-12-27
Also published as: CN111105780B

Abstract

本发明公开了一种韵律纠正方法、装置以及计算机可读存储介质，包括：获取分词信息；对所获取的分词信息设置预设标签信息；将所述分词信息进行韵律预测，得到预测结果信息；根据所获取的预设标签信息和预测结果信息，确定是否将所述预设标签信息替换所述预测结果信息。由此，通过在现有的韵律预测的技术上结合了韵律纠正的措施，当预测结果出现偏差时，能够及时进行纠正，使得生成的韵律结果的准确度更高，进而使得经TTS合成的语音更加自然。

Description

一种韵律纠正方法、装置以及计算机可读存储介质

技术领域

本发明涉及语音合成技术领域，尤其涉及一种韵律纠正方法、装置以及计算机可读存储介质。

背景技术

TTS(Text-To-Speech,从文本到语音)系统主要由前端(frond-end)和后端(back-end)组成。其中前端主要包括文本正则化(tn:text normalization)，分词，韵律预测，g2p(grapheme to phoneme)等组成，其中韵律预测的好坏直接影响TTS的自然程度。

发明内容

本发明实施例提供了一种韵律纠正方法、装置以及计算机可读存储介质，当预测结果出现偏差时，能够及时进行纠正，使得生成的韵律结果的准确度更高。

本发明一方面提供一种韵律纠正方法，所述方法包括：获取分词信息；对所获取的分词信息设置预设标签信息；将所述分词信息进行韵律预测，得到预测结果信息；根据所获取的预设标签信息和预测结果信息，确定是否将所述预设标签信息替换所述预测结果信息。

在一可实施方式中，所述获取分词信息，包括：获取第一文本信息；对所获取的第一文本信息进行文本正则化处理，获得第二文本信息；对所获得的第二文本信息进行分词处理，得到分词信息。

在一可实施方式中，所述将所述分词信息进行韵律预测，得到预测结果信息，包括：将所述分词信息作为韵律规则库、条件随机场和神经网络模型其中一种的输入，得到预测结果信息。

在一可实施方式中，所述根据所获取的预设标签信息和预测结果信息，确定是否所述预设标签信息替换所述预测结果信息，包括：判断所述预测结果信息与所述预设标签信息是否一致；若所述预测结果信息与所述预设标签信息不一致，则将所述预设标签信息替换所述预测结果信息。

在一可实施方式中，所述预设标签信息包括预设韵律词标签、预设韵律短语标签和预设语调短语标签；相应的，所述预测结果信息包括韵律词结果信息、韵律短语结果信息和语调短语结果信息。

本发明另一方面提供一种韵律纠正装置，所述装置包括：分词信息获取模块，用于获取分词信息；预设标签设置模块，用于对所获取的分词信息设置预设标签信息；预测结果获取模块，用于将所述分词信息进行韵律预测，得到预测结果信息；结果替换模块，用于根据所获取的预设标签信息和预测结果信息，确定是否将所述预设标签信息替换所述预测结果信息。

在一可实施方式中，所述分词信息获取模块，具体用于：获取第一文本信息；对所获取的第一文本信息进行文本正则化处理，获得第二文本信息；对所获得的第二文本信息进行分词处理，得到分词信息。

在一可实施方式中，所述预测结果获取模块，具体用于：将所述分词信息作为韵律规则库、条件随机场和神经网络模型其中一种的输入，得到预测结果信息。

在一可实施方式中，所述结果替换模块，具体用于：判断所述预测结果信息与所述预设标签信息是否一致；若所述预测结果信息与所述预设标签信息不一致，则将所述预设标签信息替换所述预测结果信息。

本发明另一方面提供一种计算机可读存储介质，所述存储介质包括一组计算机可执行指令，当所述指令被执行时用于执行上述任一项所述的一种韵律纠正方法。

在本发明实施例中，在现有的韵律预测的技术上结合了韵律纠正的措施，当预测结果出现偏差时，能够及时进行纠正，使得生成的韵律结果的准确度更高，进而使得经TTS合成的语音更加自然。

附图说明

通过参考附图阅读下文的详细描述，本发明示例性实施方式的上述以及其他目的、特征和优点将变得易于理解。在附图中，以示例性而非限制性的方式示出了本发明的若干实施方式，其中：

在附图中，相同或对应的标号表示相同或对应的部分。

图1为本发明实施例一种韵律纠正方法的实现流程示意图；

图2为本发明实施例一种韵律纠正装置的结构组成示意图。

具体实施方式

为使本发明的目的、特征、优点能够更加的明显和易懂，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而非全部实施例。基于本发明中的实施例，本领域技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

图1为本发明实施例一种韵律纠正方法的实现流程示意图。

请参考图1，本发明一方面提供一种韵律纠正方法，方法包括：

步骤101，获取分词信息；

步骤102，对所获取的分词信息设置预设标签信息；

步骤103，将分词信息进行韵律预测，得到预测结果信息；

步骤104，根据所获取的预设标签信息和预测结果信息，确定是否将预设标签信息替换预测结果信息。

本实施例中，首先获取得到分词信息，获取方式可以从线上直接获取得到，也可以在本地端编写。

接着用户根据实际情况，对所获取得到的分词信息(主要是易错分词或者新词)设置预设标签信息，其中，预设标签信息可通过语音合成标记语言(SSML)来设置，具体形式为：<pw>第一分词</pw>,<pph>第二分词</pph>和<iph>第三分词</iph>。

接着将分词信息进行韵律预测，得到预测结果信息。

最后根据所获取的预设标签信息和预测结果信息，确定是否预设标签信息替换预测结果信息。

由此，在现有的韵律预测的技术上结合了韵律纠正的措施，当预测结果出现偏差时，能够及时进行纠正，使得生成的韵律结果的准确度更高，进而使得经TTS合成的语音更加自然。

在一可实施方式中，获取分词信息，包括：

获取第一文本信息；

对所获取的第一文本信息进行文本正则化处理，获得第二文本信息；

对所获得的第二文本信息进行分词处理，得到分词信息。

本实施例中，步骤101的具体过程为：

首先获得第一文本信息，其中文本信息可以从线上获取，也可以在线下撰写得到。

接着将第一文本信息进行文本正则化处理，得到第二文本信息。其中，真实文本中可能含有大量的非标准词(如阿拉伯数字、英文字符、各种符号等)，这些词在词典中查不到，它们的读音也不能通过正常的拼音规则得到，由此，文本正则化处理用于将非汉字字符转换成对应的汉字。

接着对所获得的第二文本信息进行分词处理，得到对应于第二文本的多个分词信息。其中，分词处理具体可以使用现有的分词工具(如Jieba,SnowNLP,PkuSeg,等)来实现。

在一可实施方式中，将分词信息进行韵律预测，得到预测结果信息，包括：

将分词信息作为韵律规则库、条件随机场和神经网络模型其中一种的输入，得到预测结果信息。

本实施例中，韵律规则库具体可以通过决策树等数据结构来对分词进行韵律预测，得到对应的预测结果信息。

随机条件场的方式，该方式为一种判别式概率无向图学习的方案，将分词作为随机条件场的输入，得到对应的预测结果信息。

基于神经网络模型的方式主要是基于encoder-decoder模型(编码-解码模型)的LSTM(长短期记忆网络)，将分词信息作为长短期记忆网络的输入，得到对应的预测结果信息。

其中，随机条件场和长短期记忆网络均事先需要经过大量分词语料预训练，使之能够根据分词信息得到对应的预测结果信息，训练方法为现有技术，在本实施例中不再详细阐述。

在一可实施方式中，预设标签信息包括预设韵律词标签、预设韵律短语标签和预设语调短语标签；

相应的，预测结果信息包括韵律词结果信息、韵律短语结果信息和语调短语结果信息。

本实施例中，预设韵律词标签、预设韵律短语标签和预设语调短语标签均用语音合成标记语言(SSML)分别以<pw>第一分词</pw>,<pph>第二分词</pph>和<iph>第三分词</iph>的形式展现。

相应的，韵律词结果信息、韵律短语结果信息和语调短语结果信息分别以pw第一分词pw、pph第二分词pph和iph第三分词iph的形式展现。

在一可实施方式中，根据所获取的预设标签信息和预测结果信息，确定是否预设标签信息替换预测结果信息，包括：

判断预测结果信息与预设标签信息是否一致；

若预测结果信息与预设标签信息不一致，则将预设标签信息替换预测结果信息。

本实施例中，步骤104的具体过程为：

判断用户给该分词设置的预设标签信息与经韵律预测的预测结果信息是否一致；

若用户给该分词设置的预设标签信息与经韵律预测的预测结果信息不一致，则将所得到的预测结果信息替换为分词所设置的预设标签信息。

例如通过用户对“我们来了，美丽的中国”中的分词“来了”设置的预设标签信息为“<iph>来了</iph>”，经韵律预测后的预测结果信息为“来了pw”；接着提取预设标签信息中的标签信息“iph”和预测结果信息中的“pw”，并判断所提取的“iph”和“pw”是否一致，在本假设中“iph”和“pw”明显不一致，则将用户设置的“iph”替换预测结果信息中的“pw”。

反之，若用户给该分词设置的预设标签信息与经韵律预测的预测结果信息一致，则无需替换。

整体的方法过程如下：

假设有一条文本“我们来了，美丽的国家”需要韵律标注。

首先给该文本中的易错部分设置标签，比如我们<iph>来了</iph><pw>美丽的</pw>中国。

接着将文本进行韵律预测，假设预测的结果是我们“pw来了pw美丽的iph中国iph”。

此时，<iph>来了</iph>与pw来了pw不一致，则将iph替换pw，得到的最终结果为“我们pw来了iph美丽的pw中国iph”。

图2为本发明实施例一种韵律纠正装置的结构组成示意图。

请参考图2，本发明另一方面提供一种韵律纠正装置，装置包括：

分词信息获取模块201，用于获取分词信息；

预设标签设置模块202，用于对所获取的分词信息设置预设标签信息；

预测结果获取模块203，用于将分词信息进行韵律预测，得到预测结果信息；

结果替换模块204，用于根据所获取的预设标签信息和预测结果信息，确定是否预设标签信息替换预测结果信息。

本实施例中，首先通过分词信息获取模块201获取得到分词信息，获取方式可以从线上直接获取得到，也可以在本地端编写。

接着通过预设标签设置模块202根据实际情况，对所获取得到的分词信息(主要是易错分词或者新词)设置预设标签信息，其中，预设标签信息可通过语音合成标记语言(SSML)来设置，具体形式为：<pw>第一分词</pw>,<pph>第二分词</pph>和<iph>第三分词</iph>。

接着通过预测结果获取模块203将分词信息进行韵律预测，得到预测结果信息。

最后通过结果替换模块204根据所获取的预设标签信息和预测结果信息，确定是否预设标签信息替换预测结果信息。

在一可实施方式中，分词信息获取模块201，具体用于：

获取第一文本信息；

对所获得的第二文本信息进行分词处理，得到分词信息。

本实施例中，分词信息获取模块201具体用于：

在一可实施方式中，结果替换模块204，具体用于：

判断预测结果信息与预设标签信息是否一致；

若预测结果信息与预设标签信息不一致，则将预设标签信息替换所述预测结果信息。

本实施例中，结果替换模块204，具体用于：

若用户给该分词设置的预设标签信息与经韵律预测的预测结果信息不一致，则将预设标签信息替换预测结果信息。

在一可实施方式中，预测结果获取模块，具体用于：

本发明另一方面提供一种计算机可读存储介质，存储介质包括一组计算机可执行指令，当指令被执行时用于执行韵律纠正方法。

在本发明实施例中计算机可读存储介质包括一组计算机可执行指令，当指令被执行时用于，获取分词信息；对所获取的分词信息设置预设标签信息；将分词信息进行韵律预测，得到预测结果信息；根据所获取的预设标签信息和预测结果信息，确定是否将预设标签信息替换预测结果信息。

在本说明书的描述中，参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。而且，描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外，在不相互矛盾的情况下，本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。

此外，术语“第一”、“第二”仅用于描述目的，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”的特征可以明示或隐含地包括至少一个该特征。在本发明的描述中，“多个”的含义是两个或两个以上，除非另有明确具体的限定。

以上，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应以权利要求的保护范围为准。

Claims

1.一种韵律纠正方法，其特征在于，所述方法包括：

获取分词信息；

对所获取的分词信息设置预设标签信息；

将所述分词信息进行韵律预测，得到预测结果信息；

根据所获取的预设标签信息和预测结果信息，确定是否将所述预设标签信息替换所述预测结果信息。

2.根据权利要求1所述的方法，其特征在于，所述获取分词信息，包括：

获取第一文本信息；

对所获得的第二文本信息进行分词处理，得到分词信息。

3.根据权利要求1所述的方法，其特征在于，所述将所述分词信息进行韵律预测，得到预测结果信息，包括：

将所述分词信息作为韵律规则库、条件随机场和神经网络模型其中一种的输入，得到预测结果信息。

4.根据权利要求1所述的方法，其特征在于，所述根据所获取的预设标签信息和预测结果信息，确定是否将所述预设标签信息替换所述预测结果信息，包括：

判断所述预测结果信息与所述预设标签信息是否一致；

若所述预测结果信息与所述预设标签信息不一致，则将所述预设标签信息替换所述预测结果信息。

5.根据权利要求1所述的方法，其特征在于，所述预设标签信息包括预设韵律词标签、预设韵律短语标签和预设语调短语标签；

相应的，所述预测结果信息包括韵律词结果信息、韵律短语结果信息和语调短语结果信息。

6.一种韵律纠正装置，其特征在于，所述装置包括：

分词信息获取模块，用于获取分词信息；

预设标签设置模块，用于对所获取的分词信息设置预设标签信息；

预测结果获取模块，用于将所述分词信息进行韵律预测，得到预测结果信息；

结果替换模块，用于根据所获取的预设标签信息和预测结果信息，确定是否将所述预设标签信息替换所述预测结果信息。

7.根据权利要求6所述的装置，其特征在于，所述分词信息获取模块，具体用于：

获取第一文本信息；

对所获得的第二文本信息进行分词处理，得到分词信息。

8.根据权利要求6所述的装置，其特征在于，所述预测结果获取模块，具体用于：

9.根据权利要求6所述的装置，其特征在于，所述结果替换模块，具体用于：

判断所述预测结果信息与所述预设标签信息是否一致；

10.一种计算机可读存储介质，其特征在于，所述存储介质包括一组计算机可执行指令，当所述指令被执行时用于执行权利要求1-5任一项所述的一种韵律纠正方法。