CN117351930A

CN117351930A - 一种中文高保真语音合成音色定制方法

Info

Publication number: CN117351930A
Application number: CN202311389786.6A
Authority: CN
Inventors: 杨帆; 孙宇飞; 郝强; 潘鑫淼; 胡建国
Original assignee: Xiaoshi Technology Jiangsu Co ltd
Current assignee: Xiaoshi Technology Jiangsu Co ltd
Priority date: 2023-10-25
Filing date: 2023-10-25
Publication date: 2024-01-05

Abstract

本发明涉及语音合成技术领域，特别是涉及一种中文高保真语音合成音色定制方法，包括S1、单独训练语音合成模型的文本编码器模块，并将文本编码器与BERT的特征空间进行对齐；S2、在具有多个发音人的数据集上训练一个基础语音合成模型；S3、利用动态规划算法进行最优录音语料的选取；S4、用户根据选取的语料录制声音，并构建微调所使用的训练集；S5、根据所录制的声音及微调训练集对TTS底模的参数进行微调；S6、完成音色定制。本发明方案采用动态规划进行最优的语料选取，使用户的录音样本包含更全面的发音信息；本发明通过预训练BERT语言模型使合成出来的语音停顿更加自然，通过引入对抗网络，使训练出的音色更加符合定制角色的特点，实现高保真效果。

Description

一种中文高保真语音合成音色定制方法

技术领域

本发明涉及语音合成技术领域，特别是涉及一种中文高保真语音合成音色定制方法。

背景技术

语音合成(Text to Speech，TTS)是将语言文字内容转化成语音的过程。而音色定制是在此基础上，根据用户提供的少量录音样本，使合成出来的任意语音都具有该用户的音色特点。与本发明方案最相近的技术是一种被称为语音克隆(Voice Clone，VC)的技术。目前该技术主要有以下两个难题：1.合成出来的语音存在不自然的停顿现象，韵律欠佳，难以保留原始发音的韵律；2.当用户提供的语音样本时长较短时，由于语料(文字)较少，涵盖的发音信息相应也较少，会给定制的音色带来不利的影响。

发明内容

本发明目的是针对背景技术中存在的问题，提出一种中文高保真语音合成音色定制方法，通过预训练BERT语言模型使合成出来的语音停顿更加符合定制角色的特点，实现高保真的定制效果；针对用户录音语料较少的问题，本发明方案采用动态规划的方法进行最优的语料选取，使用户的录音样本包含更全面的发音信息。

本发明的技术方案，一种中文高保真语音合成音色定制方法，包括以下具体步骤：

S1、单独训练语音合成模型的文本编码器模块E_text，进行语言特征提取，并将文本编码器提取的语言特征与BERT提取的语言特征这两个特征空间进行对齐；

S2、在具有多个发音人的数据集上训练一个基础语音合成模型，即为TTS底模；

S3、利用动态规划算法进行最优录音语料的选取；

S4、用户根据选取的语料录制声音，并构建微调所使用的训练集；

S5、根据所录制的声音及微调训练集对TTS底模的参数进行微调；

S6、完成音色定制。

S1中将文本编码器与BERT模型提取的语言特征进行对齐的损失函数为：

S2中还包括以下步骤：

S21、将输入文本通过预处理得到音素序列；其中音素序列包括汉语的声母，韵母和音调；

S22、通过文本编码器得到文本的语言特征v_lang；

S23、为每个不同的发音人训练一个音色特征向量v_id；并根据该特征向量来生成每个音素的时长和文本的发音特征。

S23还包括以下步骤：

S231、将S22中训练好的文本编码器提取的语言特征v_lang与音色特征向量进行拼接，得到音素时长特征z_d，通过音素时长预测模块来预测每个音素的发音时长；

S232、通过与S231相同的方式，得到梅尔频谱特征z_m，并采用梅尔频谱变换模块来预测文本对应的梅尔频谱x_m；

S233、将预测的梅尔频谱再次与音色特征向量v_id拼接后，经过声码器G生成可以通过音频软件播放的声波数据y。

通过计算预测的梅尔频谱与真实声音的梅尔频谱之间的差值，得到语音信号的重建损失：

通过MAS单调对齐搜索算法计算音素的发音时长损失：

其中d和分别代表输入文本中每个音素的预测发音时长和通过MAS算法计算得到的发音时长。

S2采用生成对抗网络的思想，引入梅尔频谱的对抗损失：

底模训练的损失函数为以上各项损失之和：

文本编码器采用NLP领域中的Transformer结构，包含六个注意力层和一个全连接投影层，音素时长预测模块采用一个三层的一维卷积和一个全连接投影层，生成器和鉴别器采用HiFi-GAN所提出的多周期鉴别器网络结构。

S3中利用背包算法选择K个句子的最优句子索引，并得到用于微调音色的语料T′＝{T_i|i∈IdxList}。

S4中用户根据指定的语料进行文字朗读，并在每句话之间停顿1秒以上；

在收到用户录制好的语音样本，根据预先指定的停顿时间将音频切分为若干条较短的样本，并与语料的每句话相对应，够建微调所使用的训练集。

与现有技术相比，本发明具有如下有益的技术效果：

1、本发明先单独训练语音合成的文本编码器，将其特征空间与BERT进行对齐，然后再训练其它模块，这样模型具有比较好的韵律，且与现有的音色定制技术所采用的预训练的BERT语言模型进行文本特征的提取的方式相比，不会降低推理速度。

2、本发明采用动态规划的方法进行最优的语料选取，使用户的录音样本包含更全面的发音信息，定制后与原音色相似性较高。

附图说明

图1为本发明音色定制方法的流程图；

图2为本发明多发音人底模训练流程图。

具体实施方式

实施例1

本发明提出的一种中文高保真语音合成音色定制方法，包括以下具体步骤：

S1、单独训练语音合成模型的文本编码器模块E_text，进行语言特征提取，并将文本编码器提取的语言特征与BERT提取的语言特征这两个特征空间进行对齐，损失函数为：

S22、通过文本编码器得到文本的语言特征v_lang；

S232、通过与S231相同的方式，得到梅尔频谱特征z_m，采用梅尔频谱变换模块来预测文本对应的梅尔频谱x_m；

通过MAS单调对齐搜索算法计算音素的发音时长损失：

S2采用生成对抗网络的思想，引入梅尔频谱的对抗损失：

底模训练的损失函数为以上各项损失之和：

S3、针对录音语料进行动态规划的选取；

S6、完成音色定制。

在一个可选的实施例中，文本编码器采用NLP领域中的Transformer结构，包含六个注意力层和一个全连接投影层，音素时长预测模块采用一个三层的一维卷积和一个全连接投影层，生成器和鉴别器采用HiFi-GAN所提出的多周期鉴别器网络结构。

在本实施例中，由于音色的定制是根据用户提供的少量录音样本来进行的，为了保证音色定制的效果，本发明针对录音语料进行一定的优化；具体来说，假设有文本数据库T＝{T_i|i＝1，2，...，N}，其中T_i表示第i个句子，每个句子所包含的音素为P_i＝{P_ij|j＝1，2，...，M}。我们的目标是从这N个句子中，选出K(N＞＞K，且K为常数，本发明方案的一个实施例中，K取200)个句子，使得所包含的音素最丰富。这可以通过动态规划中经典的背包问题算法来求解。利用背包算法选择K个最优句子的算法python伪代码如下：

得到最优的句子索引后，就可以得到用于微调音色的语料T′＝{Tili∈IdxList}。

在本实施例中，在完成多发音人TTS的底模训练和用于定制音色的语料选取之后，接下来就是用户根据选取的语料录制自己的声音，再对底模的参数进行微调。具体来说，用户根据S4中所指定的语料进行文字朗读，并在每句话之间停顿1秒以上。在收到用户录制好的语音样本(约10-20分钟)后，根据预先指定的停顿时间将音频切分为若干条较短的(约3-10秒)样本，并与语料的每句话相对应，这样就够建好了微调所使用的训练集。

不同的发音人其发音区别主要在音色和讲话快慢程度上，而讲话的快慢程度决定了音色的韵律。因此，本发明方案在进行模型微调时，将与音色和讲话快慢无关的模型参数冻结，如文本编码器；仅仅调整音素时长预测模块和生成对抗网络的参数，损失函数同S1相同。

本发明提出的一种中文高保真语音合成音色定制方法。与已有的方法相比，本专利所提出的方法只需要少量录音样本，即可实现高保真的音色定制，且合成的语音停顿较为自然，具有较好的韵律。

上面结合附图对本发明的实施方式作了详细说明，但是本发明并不限于此，在所属技术领域的技术人员所具备的知识范围内，在不脱离本发明宗旨的前提下还可以作出各种变化。

Claims

1.一种中文高保真语音合成音色定制方法，其特征在于，包括以下具体步骤：

S3、利用动态规划算法进行最优录音语料的选取；

S6、完成音色定制。

2.根据权利要求1所述的一种中文高保真语音合成音色定制方法，其特征在于，S1中将文本编码器与BERT模型提取的语言特征进行对齐的损失函数为：

3.根据权利要求1所述的一种中文高保真语音合成音色定制方法，其特征在于，S2中还包括以下步骤：

S22、通过文本编码器得到文本的语言特征v_lang；

4.根据权利要求3所述的一种中文高保真语音合成音色定制方法，其特征在于，S23还包括以下步骤：

5.根据权利要求4所述的一种中文高保真语音合成音色定制方法，其特征在于，通过计算预测的梅尔频谱与真实声音的梅尔频谱之间的差值，得到语音信号的重建损失：

6.根据权利要求5所述的一种中文高保真语音合成音色定制方法，其特征在于，通过MAS单调对齐搜索算法计算音素的发音时长损失：

7.根据权利要求6所述的一种中文高保真语音合成音色定制方法，其特征在于，S2采用生成对抗网络的思想，引入梅尔频谱的对抗损失：

底模训练的损失函数为以上各项损失之和：

8.根据权利要求2所述的一种中文高保真语音合成音色定制方法，其特征在于，文本编码器采用NLP领域中的Transformer结构，包含六个注意力层和一个全连接投影层，音素时长预测模块采用一个三层的一维卷积和一个全连接投影层，生成器和鉴别器采用HiFi-GAN所提出的多周期鉴别器网络结构。

9.根据权利要求1所述的一种中文高保真语音合成音色定制方法，其特征在于，S3中利用背包算法选择K个句子的最优句子索引，并得到用于微调音色的语料T'＝{T_i|i∈IdxList}。

10.根据权利要求1所述的一种中文高保真语音合成音色定制方法，其特征在于，S4中用户根据指定的语料进行文字朗读，并在每句话之间停顿1秒以上；