CN112133278B

CN112133278B - 一种个性化语音合成模型网络训练及个性化语音合成方法

Info

Publication number: CN112133278B
Application number: CN202011309759.XA
Authority: CN
Inventors: 陈佩云; 何云鹏; 许兵
Original assignee: Chipintelli Technology Co Ltd
Current assignee: Chipintelli Technology Co Ltd
Priority date: 2020-11-20
Filing date: 2020-11-20
Publication date: 2021-02-05
Anticipated expiration: 2040-11-20
Also published as: CN112133278A

Abstract

本发明公开了一种个性化语音合成模型网络训练及个性化语音合成方法，包括如下步骤:步骤1.采集单人高质量音频数据训练出基准模型A1，步骤2.搭建发音人音色编码网络，用于将发音人编码。步骤3.利用步骤2中的发音人音色编码网络A2计算步骤1中所有基准模型的音色编码，得到基准模型音色编码；步骤4.筛选修正模型基准A3,并利用A3通过迁移学习生成单人合成模型；步骤5.重复步骤4所有操作，得到多个发音人单人合成模型A4以及标签；步骤6.形成合成模型网络A5。本发明可以仅通过少量发音人音频与待合成文本，快速搜索出最匹配模型来合成该段文本对应的语音；相比于现有的技术所需要的单人语料数据更少，合成实时性更高。

Description

一种个性化语音合成模型网络训练及个性化语音合成方法

技术领域

本发明属于语音智能识别技术领域，涉及语音合成技术，具体涉及一种个性化语音合成模型网络训练及个性化语音合成方法。

背景技术

语音合成是一种将文本内容转化为音频输出的技术，又称为文本转换语音技术（Text To Speech，TTS）。现有的语音合成技术普遍都只能合成出具有通用音色的音频不能满足多种场景需求。如果要指定用某个发音人的音色，语气来合成音频就需要采用个性化语音合成技术。

个性化语音合成是以语音合成为基础的，利用文本合成出带有特定发音人音色特征的音频。现有的个性化语音合成技术的实现主要有以下三种方案。方案一：需采集超大量高质量多发音人音频以及所对应的文本数据，训练出通用多发音人语音生成模型，在合成时将目标发音人的嵌入以及待合成的文本输入多发音人语音生成模型生成音频。方案二：采集大量指定发音人音色音频及所对应的文本数据，生成该发音人的生成模型，在合成时输入文本内容合成出具有该发音人音色的音频。方案三：采用语音转换技术，实现将具有基准音色的音频转换为指定说话人音色的音频。

其中方案一在实际应用时需要采集大量的不同发音人的高质量音频，通常为了训练出较好的通用多发音人语音生成模型需要采集数千人次发音人的语音，并且每人次需要一小时以上的高质量音频，且通用多发音人语音生成模型的训练难度极高，往往会对某些音色的兼容性极低，且维护难度高每次升级维护需重新训练整个模型。方案二在具体应用时由于模型都是特定模型，每增加一个指定发音人，需要对这个发音人单独采集数据训练专有模型，其模型制作周期一般较长。方案三在使用时需先准备好基准的音频文件，提取其相关特征并转换为目标发音人特征，整个运算过程较为复杂，运算时间较长，很难实现从文本直接生成个性化语音功能。三个方案都存在一个及以上的问题无法满足高要求的个性化语音合成需求。

发明内容

为克服现有语料处理技术存在的缺陷，本发明公开了一种个性化语音合成模型网络训练及个性化语音合成方法。

本发明所述个性化语音合成模型网络训练方法，包括如下步骤:

步骤1.采集单人高质量音频数据训练出基准模型A1，所述基准模型A1包括不同类别音色差距明显的发音人，所述基准模型A1采用基于注意力机制的端到端的文本转语音网络进行训练得到，所述高质量音频数据为高保真音频及对应文本；

步骤2.搭建发音人音色编码网络A2，用于将发音人编码；

提取不同类型发音人的声学特征,将不同类型的发音人的声学特征在编码网络中训练，得到发音人音色编码网络A2；

步骤3.利用步骤2中的发音人音色编码网络A2计算步骤1中所有基准模型A1的音色编码，得到基准模型音色编码M1；

步骤4.筛选修正基准模型A3,并利用修正基准模型A3通过迁移学习生成单人合成模型，具体包括如下步骤：

S41.采集单人数据；所述单人数据为包括多段音频的高质量音频数据；

S42.利用步骤2得到的发音人音色编码网络A2计算步骤S41 中高质量音频数据的每一段音频的音色编码，再将所有编码取平均值来表示该发音人的单人音色编码M2；

S43.计算步骤S42中得到的单人音色编码M2与步骤3得到的基准模型音色编码M1的相似度，选取出相似度最高的基准模型音色编码M1，从步骤1中的基准模型A1选取出与该基准模型音色编码M1对应的基准模型作为该类人群的修正基准模型A3；

S44.用步骤S41中的数据在步骤S43中选出的修正基准模型A3上做迁移训练得到单人合成模型A4 ；

S45.用步骤S42 中的单人音色编码M2作为该单人合成模型A4的标签；

步骤5.更换步骤S41中的单人数据，重复步骤4所有操作，得到多个发音人单人合成模型A4，以及单人合成模型A4对应的单人音色编码M2作为该单人合成模型A4的标签；

步骤6.将步骤5中得到的所有单人合成模型A4及其标签对应，并将步骤1中的基准模型A1与模型标签形成一一对应的关系，将每个单人合成模型A4与步骤1的基准模型A1对应，形成合成模型网络A5。

优选的，所述步骤3中具体为将步骤1中的用于基准模型A1的音频集B1的每一段音频通过发音人音色编码网络A2计算出音色编码，再将所有音频的音色编码取平均值表示该基准模型音色编码M1。

优选的，所述步骤S43中的相似度通过计算S42的单人音色编码M2与步骤3得到的基准模型音色编码M1的余弦距离得到。

优选的，所述步骤S44中的具体方法是将修正基准模型A3前面数层的模型参数固定，只通过反向传播来训练未固定的剩余瓶颈层的模型参数，以得到S41中发音人的单人合成模型A4。

本发明还公开了一种个性化语音合成方法，基于合成模型网络实现，包括如下步骤：

S71.根据指定音色的发音人的多个参考音频，利用发音人音色编码网络A2计算这些参考音频的音色编码，再计算这些音色编码的平均值，作为该指定音色的发音人的参考平均音色编码M3；

S72.根据S71中计算出的参考平均音色编码M3在合成模型网络A5中匹配相似度最高的模型标签，该模型标签对应的单人合成模型即可选出作为想要合成音频的发音人对应的目标音频模型A6;

S73.将待合成文本输入目标音频模型A6得到指定了发音人和文本的目标音频。

优选的，在步骤S72中，设置相似度匹配门限值，若选出的相似度最高的模型标签相似度达不到门限值，则更新合成模型网络A5，更新后再进行匹配。

优选的，所述更新合成模型网络A5具体为：增加对该指定音色的发音人或指定音色的发音人同类人群的语音数据采集，对合成模型网络进行训练，扩充合成模型网络A5。

通过本发明训练得到的合成模型网络，可以仅通过少量发音人音频与待合成文本，能够快速搜索出最匹配模型来合成该段文本对应的语音。相比于现有的技术所需要的单人语料数据更少，合成实时性更高，仅需增添发音人音频训练即可对系统进行升级，系统维护及数据扩充更为便捷。

附图说明

图1为本发明所述个性化语音合成模型网络训练及个性化语音合成方法的一种具体实施方式示意图。

具体实施方式

下面对本发明的具体实施方式作进一步的详细说明。

步骤2.搭建发音人音色编码网络，用于将发音人编码。

步骤4.通过迁移学习生成单人合成模型A4和修正基准模型A3，具体包括如下步骤：

S42.利用步骤2得到的发音人音色编码网络A2计算步骤S41 中高质量音频数据的每一段音频的音色编码，再将所有编码取平均值来表示该发音人的单人音色编码M2。

S45.用步骤S42 中的单人音色编码M2作为该单人合成模型A4的标签。

步骤5更换步骤S41中的单人数据，重复步骤4所有操作，得到多个发音人单人合成模型A4，以及单人合成模型A4对应的单人音色编码M2作为该单人合成模型A4的标签；

步骤6将步骤5中得到的所有单人合成模型A4及其标签对应，并将步骤1中的基准模型与模型标签形成一一对应的关系，将每个单人合成模型与步骤1的基准模型对应，形成合成模型网络A5。

以下给出一个更具体的个性化语音合成方法实施方式，如图1所示，其中步骤1至6为合成模型网络A5，步骤7为利用该合成模型网络A5进行个性化语音合成。

步骤1.

采集单人高质量数据训练出高质量的基准模型A1，作为其他说话人模型的基准模型A1。

可选用多个音色差距较大的发音人的语音数据训练基准模型A1。例如青年女、青年男、老人男、老人女、男童、女童等六类发音差别较为明显的人群。其中青年界限为16-50周岁，老人年龄为50-70周岁，儿童年龄为5-15岁。

本发明的基准模型A1采用基于注意力机制的端到端的文本转语音网络，利用采集的单人高质量音频数据的声学特征以及对应文本训练基准模型。

基于注意力机制的端到端的文本转语音网络为现有技术，以下文献中已有记载：Zeyu Q , Dan Q U , Lianhai Z . End-to-end speech synthesis based on WaveNet[J]. Journal of Computer Applications, 2019.论文中公开了该技术。

例如每类人群以单人或多人合计时长约4-8小时的音频集B1包括其对应文本作为训练数据，训练音频集通常包括多段独立的音频，分别利用基于注意力机制的端到端网络训练出六种基准模型A1，对应前述的六种不同类型的发音人人群。

步骤2.

搭建发音人音色编码网络，用于将发音人编码。

提取不同类型发音人的声学特征,例如前述的六类人群,将不同类型的发音人的声学特征在编码网络中训练，得到发音人音色编码网络A2。其中编码网络为现有技术中的端到端的说话人识别网络。

得到的发音人音色编码网络A2能够将该类型发音人的一段音频根据其音色特征编码为一个固定长度的音色向量，并以该音色向量来表示该发音人该段语音的音色。

将发音人的每一段音频的音色向量求出，并求其平均值可以表示该发音人的音色编码。

一个具体实例中，选取1000个同一类别说话人的音频，得到适合于该类人的发音人音色编码网络A2，并可以通过该网络将该类人的音频与其它类区分，通过搭建端到端的说话人识别网络的训练方式来训练发音人音色编码网络A2。

步骤3.

利用步骤2中的发音人音色编码网络A2计算步骤1中所有基准模型的音色编码，得到基准模型音色编码M1。

具体为将步骤1中的用于基准模型A1的音频集B1的每一段音频通过发音人音色编码网络A2计算出音色编码，再将所有音频的音色编码取平均值表示该基准模型音色编码M1。

步骤4.

通过迁移学习利用少量数据生成单人合成模型A4，其具体实现过程应包括：

S41.采集单人数据，单人数据量可远小于步骤1中训练基准模型的音频集，通常只需约几分钟的高质量且有文本标注的音频数据，例如可以采集5-15分钟的音频单人数据。

S43.计算步骤S42中得到的单人音色编码M2与步骤3得到的基准模型音色编码M1的相似度，选取出相似度最高的基准模型音色编码M1，从步骤1中的基准模型A1选取出与该基准模型音色编码M1对应的基准模型作为该类人群的修正基准模型A3。

相似度可以通过计算S42的单人音色编码M2与步骤3得到的基准模型音色编码M1的余弦距离得到。

余弦距离：

其中Ai，Bi分别为两个编码向量的元素，下标 i表示不同的元素，n为向量维度。

S44.用步骤S41中的数据在步骤S43中选出的修正基准模型A3上做迁移训练，

其具体方法是将修正基准模型A3前面数层的模型参数固定，只通过反向传播来训练未固定的剩余瓶颈层的模型参数，以得到S41中发音人的单人合成模型A4，

选择修正基准模型A3中具体哪些层的模型参数固定,根据模型类别等具体情况确定,并根据训练结果可以动态调整;

例如对于一个10层的具备合成效果良好的修正基准模型,可以先固定前六层模型参数,对后四层进行训练,如果训练出的模型合成效果不佳，例如音色差异与单人数据的差异过大,可以修改为固定前五层再训练,如果发现对于合成音频的字、词的发音不准确,可以修改为固定前七层,对后三层进行训练。

训练出的单人合成模型A4能够利用文本信息合成出S41中单人数据对应的发音人音色的音频。

S45.用S42 中的单人音色编码M2来作为该单人合成模型A4的标签。

步骤5.更换单人数据，重复步骤4中的所有操作，以得到大量发音人单人合成模型A4，以及单人合成模型A4对应的单人音色编码M2作为该单人合成模型A4的标签。

例如可以选取1000人次的五分钟有效数据做1000次步骤4中的操作以得到1000个单人合成模型及其标签。

步骤6.建立合成模型网络A5，将步骤5中得到的所有单人合成模型A4及其标签，以及基准模型与模型标签组成模型网络A5。在本实例中就一共包含6个基础模型以及1000个迁移模型共同构成。

步骤7.通过指定发音人以及待合成文本来合成音频的具体实现过程应包括：

S71.根据指定音色的发音人（即想要合成的某类发音人）的多个参考音频，利用步骤2的发音人音色编码网络A2计算这些参考音频的音色编码。再计算这些编码的平均值，作为该指定音色的发音人的参考平均音色编码M3。

S72.根据S71中计算出的参考平均音色编码M3在步骤6建立的合成模型网络A5中匹配相似度最高的模型标签，该模型标签对应的单人合成模型即可选出，用于作为想要合成音频的发音人对应的目标音频模型A6。

相似度可以通过计算参考平均音色编码M3与作为模型标签的单人音色编码M2的余弦距离判断。

S73.将待合成文本输入目标音频模型A6得到目标音频。

对于系统优化，其具体实现过程可以包括以下措施：

（1）在应用过程中可随时重复步骤5，以扩大步骤6中的网络数据量以获得更完备丰富的合成模型网络A5。

（2）在步骤S72中，可设置相似度匹配门限值，若最大相似度都达不到门限，表示参考平均音色编码M3在步骤6的合成模型网络A5中找到的最接近的标签也与要合成的参考音色差距较大；此时可增加对该指定音色的发音人或指定音色的发音人同类人群的语音数据采集。再通过步骤1至5，扩充合成模型网络A5，再进行匹配。

本发明的实施例可提供为方法、系统、或计算机程序产品。因此，本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质上实施的计算机程序产品的形式。

这些计算机程序指令可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

前文所述的为本发明的各个优选实施例，各个优选实施例中的优选实施方式如果不是明显自相矛盾或以某一优选实施方式为前提，各个优选实施方式都可以任意叠加组合使用，所述实施例以及实施例中的具体参数仅是为了清楚表述发明人的发明验证过程，并非用以限制本发明的专利保护范围，本发明的专利保护范围仍然以其权利要求书为准，凡是运用本发明的说明书及附图内容所作的等同结构变化，同理均应包含在本发明的保护范围内。

Claims

1.一种个性化语音合成模型网络训练方法，其特征在于,包括如下步骤:

步骤2.搭建发音人音色编码网络A2，用于将发音人编码；

步骤4.筛选修正基准模型A3,并利用修正基准模型A3通过迁移学习生成单人合成模型A4，具体包括如下步骤：

2.如权利要求1所述个性化语音合成模型网络训练方法，其特征在于，所述步骤3中具体为将步骤1中的用于基准模型A1的音频集B1的每一段音频通过发音人音色编码网络A2计算出音色编码，再将所有音频的音色编码取平均值表示该基准模型音色编码M1。

3.如权利要求1所述个性化语音合成模型网络训练方法，其特征在于，所述步骤S43中的相似度通过计算S42的单人音色编码M2与步骤3得到的基准模型音色编码M1的余弦距离得到。

4.如权利要求1所述个性化语音合成模型网络训练方法，其特征在于，所述步骤S44中的具体方法是将修正基准模型A3前面数层的模型参数固定，只通过反向传播来训练未固定的剩余瓶颈层的模型参数，以得到S41中发音人的单人合成模型A4。