CN117711374B

CN117711374B - 一种视听一致个性化语音合成系统、合成方法及训练方法

Info

Publication number: CN117711374B
Application number: CN202410139479.0A
Authority: CN
Inventors: 柯登峰; 徐艳艳; 林鹏; 李明珠; 许佳超
Original assignee: Guangdong Lianting Technology Co ltd
Current assignee: Guangdong Lianting Technology Co ltd
Priority date: 2024-02-01
Filing date: 2024-02-01
Publication date: 2024-05-10
Anticipated expiration: 2044-02-01
Also published as: CN117711374A

Abstract

本发明涉及个性化语音合成领域，尤其涉及一种视听一致个性化语音合成系统、合成方法及训练方法。本发明通过加入说话人的人脸图像进行语音合成，并将参考音频与人脸图像进行结合，使得合成的语音能兼具视觉模态信息和听觉模态信息，有效提高语音合成系统的个性化建模能力；同时采用两个阶段对语音合成系统进行训练，可以充分挖掘语音和人脸图像的特征，并提高模型的准确性和自然度。

Description

一种视听一致个性化语音合成系统、合成方法及训练方法

技术领域

本发明涉及个性化语音合成领域，尤其涉及一种视听一致个性化语音合成系统、合成方法及训练方法。

背景技术

随着人工智能技术的迅速发展，不断改变人与机器互动的方式，其中，语音合成在于通过合成类人、自然的音频叙述，这使得机器开口成为可能。同时，随着语音合成技术的发展，深度学习和神经网络不断应用在语音合成技术中，使得语音合成技术在自然度和可理解性基本达到应用标准。目前，合成语音在个性化表达方面还无法满足应用需求，在音色选择上不够丰富，无法合成不同特定的说话人身份特征和情感状态的语音。

发明内容

本发明的目的在于提供一种视听一致个性化语音合成系统、合成方法及训练方法，通过深入挖掘语音与说话人视觉特征的相关性，实现视听一致性约束，构建说话人表征，以此生成具有视听一致的较高质量的个性化语音。

为达到上述目的，本发明采用如下技术方案：一种视听一致个性化语音合成系统，包括个性化语音生成模型和声码器，所述个性化语音生成模型包括文本编码器、风格编码器、人脸编码器、持续时间预测器、韵律预测器和解码器；所述文本编码器用于将给定的音素编码为音素隐藏表示；所述风格编码器用于将给定的梅尔谱图进行编码得到其音频风格向量；所述人脸编码器用于将给定的人脸图像进行编码得到人脸风格向量；所述持续时间预测器用于从给定的音素隐藏表示和风格向量得到预测的音素隐藏表示和预测的注意力对齐以及对齐音素隐藏表示；所述韵律预测器用于根据预测的音素隐藏表示和预测的注意力对齐以及风格向量得到预测音高和预测能量值；所述解码器用于将对齐音素隐藏表示、风格向量、音高和能量值进行重建得到新的梅尔谱图；所述声码器用于将梅尔谱图生成输出语音。

具体的，个性化语音生成模型还包括文本对齐器和音高提取器；文本对齐器用于根据给定的音素和梅尔谱图生成注意力对齐；所述音高提取器用于从给定的梅尔谱图中提取音高和能量值，所述文本对齐器和音高提取器用于对解码器进行训练。

进一步的，还包括有鉴别器，所述鉴别器用于对解码器进行辅助训练。

一种视听一致个性化语音合成方法，包括如下步骤：

S01、输入文本、说话人的参考音频和说话人的人脸图像，并将输入文本通过音素转换得到输入音素，将说话人的参考音频转换为参考梅尔谱图。

S02、将输入音素输入到文本编码器得到音素隐藏表示；将参考梅尔谱图输入到风格编码器得到音频风格向量；将人脸图像输入到人脸编码器得到人脸风格向量。

S03、将音频风格向量和人脸风格向量进行叠加得到视听一体的风格向量。

S04、将步骤S02中的音素隐藏表示和风格向量输入到持续时间预测器，得到预测的音素隐藏表示和预测的注意力对齐，并以此生成预测的对齐音素隐藏表示。

S05、将预测的音素隐藏表示和预测的注意力对齐以及风格向量输入到韵律预测器得到预测音高和预测能量值。

S06、将预测的对齐音素隐藏表示、增强后视听一体的风格向量、预测音高和预测能量值输入到解码器输出得到经过持续时间预测和韵律预测后的梅尔谱图；并将该梅尔谱图输入到声码器中生成合成语音。

一种视听一致个性化语音合成系统的训练方法，包括如下步骤：

S11、第一阶段：利用如下训练函数对解码器的重构函数进行训练：，其中，为音素经过文本编码器后得到的音素隐藏表示，为音素和梅尔谱图经过文本对齐器后得到的注意力对齐，为利用音频风格向量和人脸风格向量进行叠加得到视听一体的风格向量，其中音频风格向量为将梅尔谱图输入到风格编码器后得到，人脸风格向量为将人脸图像输入到人脸编码器后得到。

S12、同时利用如下训练函数对文本对齐器进行训练：①； ②，其中，为交叉熵损失函数，为音素中的第i个音素标记，为文本对齐器输出的第i个预测的音素标记，T为音素中音素的数量，为文本对齐器输入的注意力对齐，为通过动态规划算法获得的单调硬对齐。

S22、第二阶段：利用如下训练函数对持续时间预测器进行训练：，其中，为真实持续时间，为持续时间预测器输出的预测持续时间。

S22、利用如下训练函数对韵律预测器进行训练：①，②，其中，为梅尔谱图的真实音高，为的注意力对齐，为的能量值，为韵律预测器输出的预测音高，为韵律预测器输出的预测能量值。

S23、利用如下训练函数再次对解码器的重构函数进行训练：，其中，为增强的梅尔谱图，为为韵律预测器输出的预测音高，为韵律预测器输出的预测能量值。

具体的，所述第一阶段训练还包括如下步骤：

S13、增加鉴别器并利用如下训练函数对对解码器的重构函数进行训练：①，②，其中，为鉴别器的处理函数，其具有T层输出特征，为中具有个特征的第i层的输出特征图；为给定梅尔谱图，为经过解码器重构函数后的梅尔谱图，即，。

具体的，所述第一阶段训练的整体函数使用超参数，第一阶段训练的整体函数为：。

具体的，第二阶段训练的整体函数使用超参数，第二阶段训练的整体函数为：。

本发明的有益效果在于：通过加入说话人的人脸图像进行语音合成，并将参考音频与人脸图像进行结合，使得合成的语音能兼具视觉模态信息和听觉模态信息，有效提高语音合成系统的个性化建模能力；同时采用两个阶段对语音合成系统进行训练，可以充分挖掘语音和人脸图像的特征，并提高模型的准确性和自然度。

附图说明

附图1为实施例中个性化语音合成系统及合成方法的原理图。

具体实施方式

实施例1，参照图1，一种视听一致个性化语音合成系统，包括个性化语音生成模型和声码器，所述个性化语音生成模型包括文本编码器、风格编码器、人脸编码器、持续时间预测器、韵律预测器和解码器；所述文本编码器用于将给定的音素编码为音素隐藏表示；所述风格编码器用于将给定的梅尔谱图进行编码得到其音频风格向量；所述人脸编码器用于将给定的人脸图像进行编码得到人脸风格向量；所述持续时间预测器用于从给定的音素隐藏表示和风格向量得到预测的音素隐藏表示和预测的注意力对齐以及对齐音素隐藏表示；所述韵律预测器用于根据预测的音素隐藏表示和预测的注意力对齐以及风格向量得到预测音高和预测能量值；所述解码器用于将对齐音素隐藏表示、风格向量、音高和能量值进行重建得到新的梅尔谱图；所述声码器用于将梅尔谱图生成输出语音。

一种视听一致个性化语音合成方法，包括如下步骤：

具体的，所述第一阶段训练还包括如下步骤：

另外，本实施例还对上述语音合成系统、合成方法及训练方法进行实验，具体如下：实验使用PyTorch深度学习框架进行开发与运行，运行在Windows11系统上，硬件支持包括NVIDIA RTX 4070Ti加速。实验使用希尔贝壳中文普通话语音数据库 AISHELL-3，一个大规模、高保真多说话人普通话语音语料库，可用于训练多说话人文本到语音系统。该语料库包含大约85小时的情感中性录音，录制过程在安静室内环境中，使用高保真麦克风（44.1kHz，16bit）。文字内容的话题涉及智能家居语音指令、新闻报道、地理信息等广泛领域，由 218 名以中国普通话为母语的人所说，总共 88035 条话语。他们的辅助属性，如性别、年龄组和本地口音在语料库中被明确标记和提供。同时，汉字级别和拼音级别的文本与录音一起提供。专业语音校对人员进行拼音和韵律标注，并通过严格质量检验，此语料库音字准确率在98%以上。由于语音数据库 AISHELL-3不包含说话人人脸图像，故本发明在实验时根据AISHELL-3中说话人的性别、年龄属性标签，通过自动匹配和人工校准的方式，为其匹配了相应的人脸图像。

训练集和验证集数据的划分是根据说话人身份随机生成的。在218名说话人中，随机抽取出44名作为训练中未见过的说话人，其余174名说话人用于训练本实施例的语音合成系统。但是，并非训练集中说话人的所有样本都用于模型训练，其中一部分语音被抽取出加入测试集，以验证模型对于训练过的说话人的语音合成效果，所以训练集包含64773条话语，时长约60小时。随机抽取出的44名说话人的全部语音，和训练集中174名说话人的部分语音，构成了验证集。

为了验证本实施例的语音合成系统的改进效果，本发明将StyleTTS模型和FastSpeech2模型分别在AISHELL3数据集上训练，并对不同模型合成的语音进行MOS得分对比。从AISHELL3数据集中随机挑选出5个说话人，进行2次语音合成，共生成10句语音，然后由20名语音信号处理领域的专业人员对这些句子进行评分，并计算MOS得分对合成语音进行客观实验评估，对比结果如下表所示：

模型	MOS值（95%置信区间）
		AVSyncTTS	4.591 ± 0.238
Styletts	4.369 ± 0.223
		FastSpeech2	3.303 ± 0.603

其中，AVSyncTTS为本实施例的语音合成系统，由此可以看出，本实施例的MOS均分得分高于另外两个常用的模型。

同时，为了验证人脸编码模块的有效性，还设计了两组消融实验，分别是去除人脸图像编码模块实验和个性化编码融合方式实验，实验结果如下表所示：

模型	MOS值（95%置信区间）
		AVSyncTTS	4.591 ± 0.238
AVSyncTTS w/o image	4.369 ± 0.223
		AVSyncTTS w concat	4.407 ± 0.314

其中，AVSyncTTS为本实施例完整的语音合成系统，AVSyncTTS w/o image模型表示AVSyncTTS去除人脸编码模块后在AISHELL3上训练得到的模型，AVSyncTTS w concat模型表示AVSyncTTS模型个性化编码模块中语音的风格向量与人脸图像编码向量的融合方式使用拼接，代替原模型中相加的方法。由此可以看出，无论是去除人脸编码还是改变人脸编码向量与语音的风格向量的结合方式，比起本实施例，MOS得分均分都有所降低。

当然，以上仅为本发明较佳实施方式，并非以此限定本发明的使用范围，故，凡是在本发明原理上做等效改变均应包含在本发明的保护范围内。

Claims

1.一种视听一致的个性化语音合成系统，其特征在于：包括个性化语音生成模型和声码器，所述个性化语音生成模型包括文本编码器、风格编码器、人脸编码器、持续时间预测器、韵律预测器和解码器；所述文本编码器用于将给定的音素编码为音素隐藏表示；所述风格编码器用于将给定的梅尔谱图进行编码得到其音频风格向量；所述人脸编码器用于将给定的人脸图像进行编码得到人脸风格向量；所述持续时间预测器用于从给定的音素隐藏表示和风格向量得到预测的音素隐藏表示和预测的注意力对齐以及对齐音素隐藏表示；所述韵律预测器用于根据预测的音素隐藏表示和预测的注意力对齐以及风格向量得到预测音高和预测能量值；所述解码器用于将对齐音素隐藏表示、风格向量、音高和能量值进行重建得到新的梅尔谱图；所述声码器用于将梅尔谱图生成输出语音；其中，持续时间预测器的训练函数为其中，a为真实持续时间，a_pred为持续时间预测器输出的预测持续时间；韵律预测器的训练函数为/> 其中，p为梅尔谱图x的真实音高，d_align为x的注意力对齐，||x||为x的能量值，P_p()为韵律预测器输出的预测音高，P_n()为韵律预测器输出的预测能量值。

2.根据权利要求1所述的一种视听一致的个性化语音合成系统，其特征在于：所述个性化语音生成模型还包括文本对齐器和音高提取器；文本对齐器用于对齐给定的音素和梅尔谱图生成注意力对齐；所述音高提取器用于从给定的梅尔谱图中提取音高和能量值，所述文本对齐器和音高提取器用于对解码器进行训练。

3.根据权利要求1所述的一种视听一致个性化语音合成系统，其特征在于：还包括有鉴别器，所述鉴别器用于对解码器进行辅助训练。

4.一种利用如权利要求1-3任一项所述的视听一致个性化语音合成系统进行的个性化语音合成方法，其特征在于，包括如下步骤：

S01、输入文本、说话人的参考音频和说话人的人脸图像，并将输入文本通过音素转换得到输入音素，将说话人的参考音频转换为参考梅尔谱图x；

S02、将输入音素输入到文本编码器得到音素隐藏表示h_text；将参考梅尔谱图x输入到风格编码器得到音频风格向量s；将人脸图像输入到人脸编码器得到人脸风格向量a；

S03、将音频风格向量s和人脸风格向量a进行叠加得到视听一体的风格向量s′＝s+a；

S04、将步骤S02中的音素隐藏表示h_text和风格向量s′输入到持续时间预测器，得到预测的音素隐藏表示h_prosody和预测的注意力对齐d_pred，并以此生成预测的对齐音素隐藏表示h_prosody·d_pred

S05、将预测的音素隐藏表示h_prosody和预测的注意力对齐d_pred以及风格向量s′输入到韵律预测器得到预测音高p_pred和预测能量值||x||_pred；

S06、将预测的对齐音素隐藏表示h_prosody·d_pred、增强后视听一体的风格向量s′、预测音高p_pred和预测能量值||x||_pred输入到解码器输出得到经过持续时间预测和韵律预测后的梅尔谱图x′＝G(h_prosody·d_pred,s',p_pred,||x||_pred)；并将该梅尔谱图x'输入到声码器中生成合成语音。

5.一种如权利要求3所述的视听一致个性化语音合成系统的训练方法，其特征在于，包括如下步骤：

S11、第一阶段：利用如下训练函数对解码器的重构函数G进行训练：其中，h_text为音素t经过文本编码器后得到的音素隐藏表示，d_align为音素t和梅尔谱图x经过文本对齐器后得到的注意力对齐，s'＝s+a为利用音频风格向量s和人脸风格向量a进行叠加得到视听一体的风格向量，其中音频风格向量s为将梅尔谱图x输入到风格编码器后得到，人脸风格向量a为将人脸图像输入到人脸编码器后得到；

S12、同时利用如下训练函数对文本对齐器进行训练：其中，CE()为交叉熵损失函数，t_i为音素t中的第i个音素标记，/>为文本对齐器输出的第i个预测的音素标记，T为音素t中音素的数量，d_align为文本对齐器输入的注意力对齐，d_hard为通过动态规划算法获得的单调硬对齐；

S21、第二阶段：利用如下训练函数对持续时间预测器进行训练：其中，a为真实持续时间，a_pred为持续时间预测器输出的预测持续时间；

S22、利用如下训练函数对韵律预测器进行训练： d_align)||₁]，其中，p为梅尔谱图x的真实音高，d_align为x的注意力对齐，||x||为x的能量值，P_p()为韵律预测器输出的预测音高，P_n()为韵律预测器输出的预测能量值；

S23、利用如下训练函数再次对解码器的重构函数G(h_text·d_align，s，p_x，||x||)进行训练：其中，x为增强的梅尔谱图，/>为韵律预测器输出的预测音高，/>为韵律预测器输出的预测能量值。

6.根据权利要求5所述的一种个性化语音合成系统的训练方法，其特征在于，所述第一阶段训练还包括如下步骤：

S13、增加鉴别器并利用如下训练函数对解码器的重构函数G进行训练：其中，D()为鉴别器的处理函数，其具有T层输出特征，Dⁱ()为D()中具有N_i个特征的第i层的输出特征图；x为给定梅尔谱图，/>为经过解码器重构函数后的梅尔谱图，即，/>

7.根据权利要求6所述的一种个性化语音合成系统的训练方法，其特征在于：所述第一阶段训练的整体函数使用超参数λ_s2s，λ_mono，λ_adv，λ_fm，第一阶段训练的整体函数为：

8.根据权利要求5所述的一种个性化语音合成系统的训练方法，其特征在于：所述第二阶段训练的整体函数使用超参数λ_dur，λ_f0，λ_n，第二阶段训练的整体函数为：