CN113035236A

CN113035236A - 语音合成数据的质检方法以及装置

Info

Publication number: CN113035236A
Application number: CN202110562516.5A
Authority: CN
Inventors: 张晴晴; 朱冬; 张雪璐; 贾艳明
Original assignee: Beijing Aishu Wisdom Technology Co ltd
Current assignee: Beijing Qingshu Intelligent Technology Co ltd
Priority date: 2021-05-24
Filing date: 2021-05-24
Publication date: 2021-06-25
Anticipated expiration: 2041-05-24
Also published as: CN113035236B

Abstract

本申请公开了一种语音合成数据的质检方法以及装置，属于语音合成领域，质检方法包括：根据原始文本，使用不同的语音合成方式合成多条目标音频；通过ASR模型对多条目标音频进行识别，得到各自的识别文本；在识别文本与原始文本不一致的情况下，判断识别文本对应的目标音频不合格；在识别文本与原始文本一致的情况下，判断识别文本对应的目标音频初步合格；通过端到端的判别模型输出每个初步合格的目标音频的对齐后的音素的概率值；根据音素的概率值进行音素的发音打分；通过回归模型将音素的得分转化为相应的句子的得分；在句子的得分高于阈值的情况下，判断句子对应的目标音频合格，并将得分最高的句子对应的目标音频判断为最佳音频。

Description

语音合成数据的质检方法以及装置

技术领域

本申请属于语音合成技术领域，具体涉及一种语音合成数据的质检方法以及装置。

背景技术

语音合成是一种将文本转换为语音的技术，即将给定文字按需求转换为语音进行输出。在竞争日趋激烈的市场环境对运用语音合成技术提供服务时提出了更高的要求，即合成的语音达到真人发声的效果。具体来说，第一点合成的语音不能缺字或多字，第二点合成的语音发音不能出现音素缺失或音素发音错误，第三点合成的语音虽然整体正确但存在缺陷。如何保证语音合成系统在广泛场景下都能得到高质量的合成语音是一项具有挑战的任务。

此外随着硬件设备、算力和用于语音合成建模数据质量提升，语音合成技术也从传统的前端和后端两个模块结合，发展到了端到端的语音合成。目前关于语音合成效果的评判，通常采用专家级评测MOS（Mean Opinion Scores）或者普通用户评测ABX，即专家对合成的音频打分或普通用户对比不同语音合成系统对同一段文字的合成效果。

发明人发现现有技术当前至少存在以下问题：即时使用先进的端到端的语音合成技术，加专家级或普通用户级的评测，也不能百分百保证通过评测的语音合成系统合成的语音质量，即可能存在听感上漏字、发音缺失、发音错误或者发音正确但不符合人的听感的现象。采用人工质检效率低下，并且难以保证质检的质量。

发明内容

本申请实施例的目的是提供一种语音合成数据的质检方法和装置，能够解决目前对于语音合成数据采用人工质检时效率低下，并且难以保证质检质量的问题。同时克服传统发音质量评价特征提取过程复杂的问题，并提高所得评分与发音的相关性。

为了解决上述技术问题，本申请是这样实现的：

第一方面，本申请实施例提供了一种语音合成数据的质检方法，包括：

根据原始文本，使用不同的语音合成方式合成多条目标音频；

通过ASR模型对多条所述目标音频进行识别，得到各自的识别文本；

在所述识别文本与所述原始文本不一致的情况下，判断所述识别文本对应的所述目标音频不合格；

在所述识别文本与所述原始文本一致的情况下，判断所述识别文本对应的所述目标音频初步合格；

通过端到端的判别模型输出每个初步合格的所述目标音频的对齐后的音素的概率值；

根据所述音素的概率值进行所述音素的发音打分；

通过回归模型将所述音素的得分转化为相应的句子的得分；

在所述句子的得分高于阈值的情况下，判断所述句子对应的所述目标音频合格，并将得分最高的所述句子对应的所述目标音频判断为最佳音频。

进一步地，所述ASR模型包括：声学模型、语音模型以及词典，其中，所述声学模型采用真人语音以及合成语音进行共同训练得到，所述语音模型通过通用语言模型与各领域模型进行插值得到。

进一步地，所述判别模型采用CTC+Attention相结合的技术训练得到。

进一步地，所述方法还包括：

在所述句子的得分低于所述阈值的情况下，记录所述目标音频出现的音素级以及句子级的错误信息；

根据所述错误信息，定期更新所述判别模型。

进一步地，所述判别模型采用seq2seg技术或者transformer技术训练得到。

进一步地，所述回归模型采用XGBoost技术或者RNN技术训练得到。

第二方面，本申请实施例提供了一种语言合成数据的质检装置，包括：

合成模块，用于根据原始文本，使用不同的语音合成方式合成多条目标音频；

识别模块，用于通过ASR模型对多条所述目标音频进行识别，得到各自的识别文本；

第一判断模块，用于在所述识别文本与所述原始文本不一致的情况下，判断所述识别文本对应的所述目标音频不合格；

第二判断模块，用于在所述识别文本与所述原始文本一致的情况下，判断所述识别文本对应的所述目标音频初步合格；

判别模块，用于通过端到端的判别模型输出每个初步合格的所述目标音频的对齐后的音素的概率值；

打分模块，用于根据所述音素的概率值进行所述音素的发音打分；

转化模块，用于通过回归模型将所述音素的得分转化为相应的句子的得分；

第三判断模块，用于在所述句子的得分高于阈值的情况下，判断所述句子对应的所述目标音频合格，并将得分最高的所述句子对应的所述目标音频判断为最佳音频。

进一步地，所述装置还包括：

记录模块，用于在所述句子的得分低于所述阈值的情况下，记录所述目标音频出现的音素级以及句子级的错误信息；

更新模块，用于根据所述错误信息，定期更新所述判别模型。

在本申请实施例中，通过第一阶段的比对以及第二阶段的打分自动化地对语音合成数据进行评价，快速确定最优的语音合成数据，提高了质检效率以及质检的准确性。

附图说明

图1是本申请实施例提供的一种语音合成数据的质检方法的流程示意图；

图2是本申请实施例提供的一种语音合成数据的质检装置的结构示意图。

本发明目的的实现、功能特点及优点将结合实施例、参照附图做进一步说明。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

本申请的说明书和权利要求书中的术语“第一”、“第二”等是用于区别类似的对象，而不用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便本申请的实施例能够以除了在这里图示或描述的那些以外的顺序实施，且“第一”、“第二”等所区分的对象通常为一类，并不限定对象的个数，例如第一对象可以是一个，也可以是多个。

下面结合附图，通过具体的实施例及其应用场景对本申请实施例提供的语音合成数据的质检方法进行详细地说明。

实施例一

参照图1，示出了本申请实施例提供的一种语音合成数据的质检方法的流程示意图。

语音合成数据的质检方法包括：

S101：根据原始文本，使用不同的语音合成方式合成多条目标音频。

其中，原始文本是为了测试各种语音合成方式提供的测试文本，是已知的文本。

可以理解的是，不同的合成方式可以是由不同的语音合成系统提供的合成方法，即采用不同的语音合成系统合成多条目标音频。

S102：通过ASR模型对多条目标音频进行识别，得到各自的识别文本。

其中，ASR模型包括：声学模型、语音模型以及词典，其中，声学模型采用真人语音以及合成语音进行共同训练得到，语音模型通过通用语言模型与各领域模型进行插值得到。

S103：在识别文本与原始文本不一致的情况下，判断识别文本对应的目标音频不合格。

需要说明的是，经过第一阶段的筛选判断，对于不合格的目标音频，将不进入后续步骤。

S104：在识别文本与原始文本一致的情况下，判断识别文本对应的目标音频初步合格。

需要说明的是，经过第一阶段的筛选判断，对于初步合格的目标音频，将进一步地进入到后续步骤中。

第一阶段可以初步筛选出识别文本与原始文本一致的合成音频，可以有效避免错误的音频进入下游步骤，进一步地提供质检效率。

S105：通过端到端的判别模型输出每个初步合格的目标音频的对齐后的音素的概率值。

其中，判别模型采用CTC+Attention相结合的技术训练得到。

采用CTC+Attention相结合的技术，不需要预先对数据做对齐，即可实现端到端的训练，该模型的输出为目标文本的每一个音素的后验概率值（0~1范围），根据该值可直接根据设定的阈值判断该音素的发音好坏，从而达到简化发音质量评价流程。

进一步地，判别模型还可以采用seq2seg技术或者transformer技术训练得到。

假设通过第一阶段筛选出符合要求的合成音频有3条，这3条合成音频均通过判别模型输出对应的音素级的概率值。

S106：根据音素的概率值进行音素的发音打分。

需要说明的是，此处的分数是音素的分数，其中，一个句子可以由多个音素组成。

S107：通过回归模型将音素的得分转化为相应的句子的得分。

其中，回归模型采用XGBoost技术或者RNN技术训练得到。

S108：在句子的得分高于阈值的情况下，判断句子对应的目标音频合格，并将得分最高的句子对应的目标音频判断为最佳音频。

可选地，合成音频数据的质检方法还包括：

S109：在句子的得分低于阈值的情况下，记录目标音频出现的音素级以及句子级的错误信息。

S110：根据错误信息，定期更新判别模型。

通过对于错误信息的更新，可以进一步提高质检的准确度，同时也提高语音合成系统的合成准确度。

实施例二

参照图2，示出了本申请实施例提供的一种语音合成数据的质检装置的结构示意图。质检装置20包括：

合成模块201，用于根据原始文本，使用不同的语音合成方式合成多条目标音频。

识别模块202，用于通过ASR模型对多条目标音频进行识别，得到各自的识别文本。

第一判断模块203，用于在识别文本与原始文本不一致的情况下，判断识别文本对应的目标音频不合格。

第二判断模块204，用于在识别文本与原始文本一致的情况下，判断识别文本对应的目标音频初步合格。

判别模块205，用于通过端到端的判别模型输出每个初步合格的目标音频的对齐后的音素的概率值。

打分模块206，用于根据音素的概率值进行音素的发音打分。

转化模块207，用于通过回归模型将音素的得分转化为相应的句子的得分。

第三判断模块208，用于在句子的得分高于阈值的情况下，判断句子对应的目标音频合格，并将得分最高的句子对应的目标音频判断为最佳音频。

进一步地，ASR模型包括：声学模型、语音模型以及词典，其中，声学模型采用真人语音以及合成语音进行共同训练得到，语音模型通过通用语言模型与各领域模型进行插值得到。

进一步地，判别模型采用CTC+Attention相结合的技术训练得到。

进一步地，质检装置20还包括：

记录模块209，用于在句子的得分低于阈值的情况下，记录目标音频出现的音素级以及句子级的错误信息；

更新模块210，用于根据错误信息，定期更新判别模型。

进一步地，判别模型采用seq2seg技术或者transformer技术训练得到。

进一步地，回归模型采用XGBoost技术或者RNN技术训练得到。本申请实施例提供的语音合成数据的质检装置20能够实现上述方法实施例中实现的各个过程，为避免重复，这里不再赘述。

本申请实施例中的虚拟装置可以是装置，也可以是终端中的部件、集成电路、或芯片。

以上所述仅为本发明的实施例而已，并不用于限制本发明。对于本领域技术人员来说，本发明可以有各种更改和变化。凡在本发明的精神和原理之内所作的任何修改、等同替换、改进等，均应包含在本发明的权利要求范围之内。

Claims

1.一种语音合成数据的质检方法，其特征在于，包括：

根据所述音素的概率值进行所述音素的发音打分；

通过回归模型将所述音素的得分转化为相应的句子的得分；

2.根据权利要求1所述的方法，其特征在于，所述ASR模型包括：声学模型、语音模型以及词典，其中，所述声学模型采用真人语音以及合成语音进行共同训练得到，所述语音模型通过通用语言模型与各领域模型进行插值得到。

3.根据权利要求1所述的方法，其特征在于，所述判别模型采用CTC+Attention相结合的技术训练得到。

4.根据权利要求1所述的方法，其特征在于，还包括：

根据所述错误信息，定期更新所述判别模型。

5.根据权利要求1所述的方法，其特征在于，所述判别模型采用seq2seg技术或者transformer技术训练得到。

6.根据权利要求1所述的方法，其特征在于，所述回归模型采用XGBoost技术或者RNN技术训练得到。

7.一种语音合成数据的质检装置，其特征在于，包括：

8.根据权利要求7所述的装置，其特征在于，所述ASR模型包括：声学模型、语音模型以及词典，其中，所述声学模型采用真人语音以及合成语音进行共同训练得到，所述语音模型通过通用语言模型与各领域模型进行插值得到。

9.根据权利要求7所述的装置，其特征在于，所述判别模型采用CTC+Attention相结合的技术训练得到。

10.根据权利要求7所述的装置，其特征在于，还包括：

11.根据权利要求7所述的装置，其特征在于，所述判别模型采用seq2seg技术或者transformer技术训练得到。

12.根据权利要求7所述的装置，其特征在于，所述回归模型采用XGBoost技术或者RNN技术训练得到。