CN114255735A

CN114255735A - 语音合成方法及系统

Info

Publication number: CN114255735A
Application number: CN202111512624.8A
Authority: CN
Inventors: 朱海
Original assignee: Sichuan Cric Technology Co ltd
Current assignee: Sichuan Cric Technology Co ltd
Priority date: 2021-12-08
Filing date: 2021-12-08
Publication date: 2022-03-29

Abstract

本发明提供了一种语音合成方法，包括：获取目标说话人的目标频谱特征；基于识别模型对所述目标频谱特征的处理，获得所述目标说话人的语音识别向量；基于预测模型对所述目标频谱特征的处理，分别获得音素级、音节级、句子级目标声学预测向量；基于编码模型对待合成文本的处理，获得文本编码向量；基于解码模型对所述音素级、音节级、句子级目标声学预测向量及所述文本编码向量的处理，得到预测频谱特征；基于声码模型对所述预测频谱特征的处理，获得合成音频。可以在少样本个性化语音合成的任务中提升了音质以及自然度。

Description

语音合成方法及系统

技术领域

本发明涉及语音合成技术领域，具体涉及一种语音合成方法及系统。

背景技术

语音合成是一种将文本信息转换为语音信息的技术，即将文字信息转换为任意的可听的语音。涉及到声学、语言学、计算机科学等多门学科。然而，少样本的个性化语音合成即使热点又是难点。在少样本的个性化语音合成中，由于样本数量的限制在现有的声学模型上往往表现出较低的音质和相似度。

发明内容

本发明的目的在于提供一种语音合成方法及系统。以期解决背景技术中存在的技术问题。

为了实现上述目的，本发明采用以下技术方案：

一种语音合成方法，包括：

获取目标说话人的目标频谱特征；

基于识别模型对所述目标频谱特征的处理，获得所述目标说话人的语音识别向量；

基于预测模型对所述目标频谱特征的处理，分别获得音素级、音节级、句子级目标声学预测向量；

基于编码模型对待合成文本的处理，获得文本编码向量；

基于解码模型对所述音素级、音节级、句子级目标声学预测向量及所述文本编码向量的处理，得到预测频谱特征；

基于声码模型对所述预测频谱特征的处理，获得合成音频。

在一些实施例中，所述识别模型为机器学习模型，所述识别模型的训练样本包括多个不同说话人的音频及对应的文本。

在一些实施例中，所述目标频谱特征包括以下至少一种：线性频谱特征、梅尔频谱特征。

在一些实施例中，待合成文本为经预处理的合成文本，所述预处理包括筛选出非法音节、进行分词、词性标注。

在一些实施例中，所述预处理还包括：

对所述合成文本进行综合语言学特征提取，并将提取的所述综合语言学特征输入到韵律预测模型，获得停顿级别标注；

将所述合成文本的中文汉字转换为对应的拼音音素。

在一些实施例中，对所述目标频谱特征的处理还包括：通过强制对齐算法获得频谱特征与待合成文本之间的对齐结果；

根据所述对齐结果分别对目标频谱特征在音素级、音节级上对每一帧进行平均；

所述编码模型包括音素级编码模型、音节级编码模型、句子级编码模型；

所述音节级编码模型的输出维度根据音素步长进行扩展且与音素步长保持一致。

在一些实施例中，所述音素级、音节级、句子级目标声学预测向量及所述文本编码向量输入到解码模型之前先进行以下处理：

通过将所述语音识别向量、文本编码向量以及音素级、音节级、句子级目标声学预测向量进行相加，结合频谱特征与待合成文本之间的对齐结果对相加后的向量进行扩帧。

在一些实施例中，所述解码模型包括但不限于CNN、Transformer。

在一些实施例中，所述声码模型包括但不限于WaveNET、WavRNN、MelGAN。

同时，本发明还公开了一种语音合成系统，包括：

获取模块，用于获取目标说话人的目标频谱特征；

识别模块，用于基于识别模型对所述目标频谱特征的处理，获得所述目标说话人的语音识别向量；

预测模块，用于基于预测模型对所述目标频谱特征的处理，分别获得音素级、音节级、句子级目标声学预测向量；

编码模块，用于基于编码模型对待合成文本的处理，获得文本编码向量；

解码模块，用于基于解码模型对所述音素级、音节级、句子级目标声学预测向量及所述文本编码向量的处理，得到预测频谱特征；

声码模块，用于基于声码模型对所述预测频谱特征的处理，获得合成音频。

同时，本发明还公开了一种语音合成装置，所述装置包括处理器以及存储器；所述存储器用于存储指令，所述指令被所述处理器执行时，导致所述装置实现上述任一项所述语音合成方法。

同时，本发明还公开了一种计算机可读存储介质，所述存储介质存储计算机指令，当计算机读取存储介质中的计算机指令后，计算机运行上述任一项所述语音合成方法。

有益效果

本发明与现有技术相比，其显著优点是：

本发明的方案在多说话人语音合成模型的基础上加入了自适应声学信息预测模块，对输入文本进行音素级、音节级、句子级声学编码信息进行预测，通过解码层对输入的说话人识别向量、文本编码向量及预测声学编码向量得到目标预测频谱，最后通过声码器将目标预测频谱转化为目标合成音频，提升了少样本个性化语音合成的音质及相似度。

同时，通过将自适应声学特征预测器得到的音素级、音节级、句子级声学特征预测向量加入多说话人语音合成模型，在少样本个性化语音合成的任务中提升了音质以及自然度。

附图说明

图1是本实施例涉及语音合成系统示意图；

图2是本实施例涉及的语音合成方法流程示意图；

图3为本发明实施例的模型的训练流程图；

图4为本发明实施例模型的应用流程图。

具体实施方式

为了使本申请的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本申请进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本申请，并不用于限定本申请。

相反，本申请涵盖任何由权利要求定义的在本申请的精髓和范围上做的替代、修改、等效方法以及方案。进一步，为了使公众对本申请有更好的了解，在下文对本申请的细节描述中，详尽描述了一些特定的细节部分。对本领域技术人员来说没有这些细节部分的描述也可以完全理解本申请。

以下将结合图1-2对本申请实施例所涉及的一种语音合成方法进行详细说明。值得注意的是，以下实施例仅仅用于解释本申请，并不构成对本申请的限定。

实施例1

如图1所示，一种语音合成方法，基于多个模型或多个层共同作用实现语音合成。

本实施例主要说明模型的训练方法：

先获取训练语料，训练语料中包含多说话人的语音，以及不同说话人的音频及对应的文本。

具体的，获取多说话人的训练语料包括但不限于公开的多说话人语音合成训练数据集或自己录制的多说话人语音合成训练数据集。

然后对获取到的训练语料进行特征提取以提取其真实频谱特征，并对真实频谱特征经预训练的说话人识别模型提取说话人识别向量。

可选的，提取的语音真实频谱特征包括但不限于线性频谱特征、梅尔频谱特征；预训练的说话人识别模型包括但不限于目前的主流说话人识别模型，如：GE2E、 I-Vector等。

接着对不同说话人的语音对应的文本进行预处理，并通过文本编码模型得到文本编码向量。

可选的，预处理可以包括筛选出非法音节，对合法输入进行分词、词性标注等，并将提取的综合语言学特征输入到韵律预测模型，获得停顿级别标注；将中文汉字转换为对应的拼音音素；其中，文本编码层包括但不限于CNN网络结构、Transformer 网络结构。

然后将真实频谱特征分别输入音素级、音节级、句子级声学编码层得到音素级、音节级、句子级声学编码向量，同时将真实频谱特征分别通过音素级、音节级、句子级声学预测器得到音素级、音节级、句子级声学预测向量。

接着再将说话人识别向量、文本编码向量以及音素级、音节级、句子级声学预测向量共同输入到解码层，得到预测频谱特征。

作为优选的，为了自适应的获得不同层次的声学信息，还可进行以下操作：

通过强制对齐算法获得频谱特征与文本之间的对齐结果；频谱特征输入音素级、音节级声学编码层之前，根据频谱特征与文本之间的对齐结果，分别对频谱特征在音素级、音节级上对每一帧进行平均；音节级编码层的输出维度根据音素步长进行扩展，与音素步长保持一致。

其中，音素级、音节级、句子级声学编码层包括但不限于CNN网络结构；句子级声学编码层网络结构最后一层为池化层，句子级声学编码层的输出维度根据音素步长进行扩展，与音素步长保持一致；声学预测器与声学编码层网络结构保持一致；声学预测器的输入为文本编码向量。

进一步的，为了获得预测频谱特征，还包括以下操作：

通过将说话人识别向量、文本编码向量以及音素级、音节级、句子级声学编码向量进行相加，通过频谱特征与文本之间的对齐结果对相加后的向量进行扩帧后输入到解码层；解码层网络结构包括但不限于CNN、Transformer等网络结构；预测频谱特征与真实频谱特征步长一致。

最后，通过真实频谱特征与预测频谱特征之间的损失函数对文本编码层、声学编码层、解码层参数进行训练，声学编码向量与声学预测向量之间的损失函数对声学预测器参数进行训练。

具体的，真实频谱特征与预测频谱特征之间的损失函数以及声学编码向量与声学预测向量之间的损失函数包括但不限与均方差损失函数；训练早期阶段固定声学预测器参数及该部分的梯度，训练后期阶段整个网络一起训练。

实施例2

本实施例主要对如何应用训练好的模型进行说明，具体如下：

首先，对待合成文本进行规范化处理，并对目标说话人音频样本提取真实频谱特征。

其次，对目标频谱特征输入到经预训练的说话人识别模型得到目标说话人识别向量，同时，目标频谱特征输入到训练好的声学预测器得到音素级、音节级、句子级目标声学预测向量。

然后，将待合成文本输入到训练好的编码层得到文本编码向量；

接着，将得到的音素级、音节级、句子级声学预测向量以及文本编码向量共同输入到训练好的解码层，得到预测频谱特征；

其中，语音合成模型参数由训练阶段得到，并且网络结构一致；推理阶段的文本的处理方式与训练阶段一致；训练阶段使用真实频谱特征与文本的对齐结果对文本编码向量、声学编码向量、说话人识别向量进行扩帧，而推理阶段采用时长预测器预测结果对文本编码向量、声学编码向量、说话人识别向量进行扩帧；推理阶段不使用声学编码层。

最后，将预测频谱特征经预训练的声码器生成合成音频。

其中，采用的声码器包括但不限于WavNET、WavRNN、MelGAN。

实施例3

一种语音合成系统，包括：

获取模块，用于获取目标说话人的目标频谱特征；

实施4

一种用于语音合成的方法，具体包括模型的训练方法及模型的应用方法，其中，如图3及图4所示，模型的整体架构采用编码、解码网络框架；文本编码层以及解码层采用Transformer网络结构，声学编码层以及声学预测器采用CNN网络结构，最后通过解码层输出预测频谱特征。

如图2所示，模型训练方法(即训练阶段)包括下述步骤：

S11.获取多说话人的训练语料，包括不同说话人的音频及对应的文本；

可选的，获取多说话人的训练语料包括但不限于公开的多说话人语音合成训练数据集或自己录制的多说话人语音合成训练数据集。

S12.对步骤S11的获取的音频提取真实频谱特征，并对真实频谱特征经预训练的说话人识别模型提取说话人识别向量；

举例说明，对获取的音频提取80维的梅尔频谱特征，使用通过GE2E loss训练多说话人识别模型；使用训练好的说话人识别模型对梅尔频谱特征提取说话人识别向量；

S13.对步骤S11获取的文本经规范化处理后，通过文本编码层得到文本编码向量；

可选的，对中文文本进行规范化处理，筛选出非法音节，对合法输入进行分词、词性标注等，并将提取的综合语言学特征输入到韵律预测模型，获得停顿级别标注；将中文汉字转换为对应的拼音音素；可选的，文本编码层包括但不限于CNN网络结构、Transformer网络结构。

举例说明，“九芝堂阿胶补血颗粒，售价180元一盒。”，在本例中首先筛选出“，”、“。”等非法音节，其中的阿拉伯数字“180”根据情况转换为对应发音汉字，然后将合法的待合成文本输入韵律预测模型，得到停顿级别标注，再把汉字转换为拼音标记，即['jiu3','zhi1','tang2','#2','e1','jiao1','#1', 'bu3','xue4','#2','ke1','li4','#1','shou4','jia4','#2','yi1','bai3', 'ba1','shi2','yuan2','#1','yi1','he2','#4']，其中“#”为停顿标注；再将拼音标注转换为音素标注，得到“j iou3 zh iii1 t ang2#2 e1j iao1#1 b u3 x ve4#2 k e1 l i4#1 sh ou4 j ia4#2 i1 b ai3 b a1 sh iii2 van2#1i1 h e2#4”；文本编码层采用CNN结构，将规范化后的文本序列输入到文本编码层得到文本编码向量。

S14.对步骤S12提取的真实频谱特征分别输入音素级、音节级、句子级声学编码层得到音素级、音节级、句子级声学编码向量，同时将步骤S12提取的频谱特征分别通过音素级、音节级、句子级声学预测器得到音素级、音节级、句子级声学预测向量；

可理解的是，为了获得音素级、音节级、句子级的声学编码向量并且加入到文本编码向量中，需要保持音素级、音节级、句子级的声学编码向量的维度与文本编码向量(即音素步长)一致，可选的，通过强制对齐算法获得频谱特征与文本之间的对齐结果；频谱特征输入音素级、音节级声学编码层之前，根据频谱特征与文本之间的对齐结果，分别对频谱特征在音素级、音节级上对每一帧进行平均；音节级编码层的输出维度根据音素步长进行扩展，与音素步长保持一致；可选的，音素级、音节级、句子级声学编码层均采用CNN网络结构；句子级声学编码层网络结构最后一层为池化层，句子级声学编码层的输出维度根据音素步长进行扩展，与音素步长保持一致；声学预测器与声学编码层网络结构保持一致；可理解的是，声学预测器的输入为文本编码向量。

具体的，声学编码向量以及声学预测向量的提取过程如图2所示。

S15.将步骤S12得到的说话人识别向量、步骤S13得到的文本编码向量以及步骤S14得到的音素级、音节级、句子级声学编码向量共同输入到解码层，得到预测频谱特征。

可理解的，通过将说话人识别向量、文本编码向量以及音素级、音节级、句子级声学编码向量进行相加，通过频谱特征与文本之间的对齐结果对相加后的向量进行扩帧后输入到解码层；解码层网络结构包括但不限于CNN、Transformer等网络结构；预测频谱特征与真实频谱特征步长一致。

其中，文本编码层包括但不限于CNN网络结构、Transformer网络结构；说话人识别模块包括但不限于GE2E等说话人识别模型；采用的声码器包括但不限于 WaveNET、WavRNN、MelGAN。

如图2所示，模型的应用方法(即推理阶段)包括以下步骤：

S21.对待合成文本进行规范化处理，并对目标说话人音频样本提取真实频谱特征；

S22.对步骤S21提取的目标频谱特征输入到步骤S12中的预训练说话人识别模型得到目标说话人识别向量，将步骤S21提取的目标频谱特征输入到S14中训练好的声学预测器得到音素级、音节级、句子级目标声学预测向量；

S23.将步骤S21得到的文本输入到步骤S13训练好的编码层得到文本编码向量；

S24.将步骤S22得到的音素级、音节级、句子级声学预测向量以及S23得到的文本编码向量共同输入到步骤S15训练好的解码层，得到预测频谱特征；

S25.将步骤S24得到的预测频谱特征经预训练的声码器生成合成音频；

可理解的是，推理阶段的语音合成模型参数由训练阶段得到，并且网络结构一致；推理阶段的文本的处理方式与训练阶段一致；训练阶段使用真实频谱特征与文本的对齐结果对文本编码向量、声学编码向量、说话人识别向量进行扩帧，而推理阶段采用时长预测器预测结果对文本编码向量、声学预测向量、说话人识别向量进行扩帧；推理阶段不使用声学编码层。

综上可知，本申请的技术方案通过将自适应声学特征预测器得到的音素级、音节级、句子级声学特征预测向量加入多说话人语音合成模型，在少样本个性化语音合成的任务中提升了音质以及自然度。

以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明的保护范围之内。

Claims

1.一种语音合成方法，其特征在于，包括：

获取目标说话人的目标频谱特征；

基于编码模型对待合成文本的处理，获得文本编码向量；

基于声码模型对所述预测频谱特征的处理，获得合成音频。

2.根据权利要求1所述的方法，其特征在于，所述识别模型为机器学习模型，所述识别模型的训练样本包括多个不同说话人的音频及对应的文本。

3.根据权利要求1所述的方法，其特征在于，所述目标频谱特征包括以下至少一种：线性频谱特征、梅尔频谱特征。

4.根据权利要求1所述的方法，其特征在于，待合成文本为经预处理的合成文本，所述预处理包括筛选出非法音节、进行分词、词性标注。

5.根据权利要求4所述的方法，其特征在于，所述预处理还包括：

将所述合成文本的中文汉字转换为对应的拼音音素。

6.根据权利要求1所述的方法，其特征在于，对所述目标频谱特征的处理还包括：通过强制对齐算法获得频谱特征与待合成文本之间的对齐结果；

7.根据权利要求6所述的方法，其特征在于，所述音素级、音节级、句子级目标声学预测向量及所述文本编码向量输入到解码模型之前先进行以下处理：

8.根据权利要求1-7中任一所述的方法，其特征在于，所述解码模型包括但不限于CNN、Transformer。

9.根据权利要求1-7中任一所述的方法，其特征在于，所述声码模型包括但不限于WaveNET、WavRNN、MelGAN。

10.一种语音合成系统，其特征在于，包括：

获取模块，用于获取目标说话人的目标频谱特征；