CN116469368A

CN116469368A - 一种融合语义信息的语音合成方法、系统

Info

Publication number: CN116469368A
Application number: CN202310386199.5A
Authority: CN
Inventors: 柯登峰; 刘嗣平; 张顺; 杜宝乐; 徐艳艳
Original assignee: Guangzhou Jiusi Intelligent Technology Co ltd
Current assignee: Guangzhou Jiusi Intelligent Technology Co ltd
Priority date: 2023-04-11
Filing date: 2023-04-11
Publication date: 2023-07-21

Abstract

本发明提供一种基于融合语义信息的语音合成的方法，包括如下步骤：数据准备，收集语音数据以及对应文本，对数据进行预处理提取音素序列、时长、能量、基频数据；模型构建，构建融合语义信息的语音合成模型；模型训练，输入真实音频对应的音素序列、时长、能量、基频数据对模型进行训练得到训练好的模型；模型测试，对训练好的模型从合成语音质量以及与语音说话人相似度两个方面进行评价打分，若打分结果满足条件，则保留该模型。采用本发明的技术方案能减少显式韵律建模中韵律表征提取出现的误差，提升韵律自然度。

Description

一种融合语义信息的语音合成方法、系统

技术领域

本申请涉及语音合成领域，尤其涉及一种融合语义信息的语音合成方法、系统。

背景技术

语音合成技术也称为文本到语音(text-to-speech，TTS)，目的是通过向设备输入文字，令其转化为人类可以听懂的流畅语音，这一技术是实现人机交互的重要部分，在语音助手、语音导航、智能机器人等方面已有广泛的应用。近几年，深度神经网络的发展使得端到端的语音合成方法成为了研究主流，许多优秀模型的合成语音已经非常接近人声。但是大多数的合成语音仍然存在声音机械、停顿不明确、表现力不足的问题。

为了合成出更贴近人生的语音，目前的主流方法中，韵律建模是一种比较有效的方法，韵律建模的目的是使模型学会预测韵律表征的能力，韵律建模有两种不同的方法，对于预测或提取的韵律表征，如果存在实际的物理意义且可以直接通过对数据的处理得到，例如，时长、能量、基频，称之为显式韵律建模；如果没有明显的物理意义，需要通过额外特征提取器得到，称之为隐式韵律建模。另一种是显式韵律建模，通过引入时长、能量、基频使合成语音的表现力得到了一定提升，但仍然存在显式的韵律表征提取容易出现误差，无法将不同的韵律表征进行联系的问题，韵律自然度仍有可以提升的空间。

发明内容

本申请实施例提供一种基于融合语义信息的语音合成的方法及装置的相关技术方案，用以解决现有技术中显式的韵律表征提取容易出现误差，无法将不同的韵律表征进行联系的问题，韵律自然度低的技术问题。

本申请实施例提供一种基于融合语义信息的语音合成的方法，包括如下步骤：

数据准备，收集语音数据以及对应文本，对数据进行预处理提取音素序列、时长、能量、基频数据；

模型构建，构建融合语义信息的语音合成模型；

模型训练，输入真实音频对应的音素序列、时长、能量、基频数据对模型进行训练得到训练好的模型；

模型测试，对训练好的模型从合成语音质量以及与语音说话人相似度两个方面进行评价打分，若打分结果满足条件，则使用该模型进行语音合成。

进一步的，所述合成模型包括音素编码器、词编码器、词-音素注意力、编码器、变量适配器以及梅尔谱解码器；所述音素编码器连接到词编码器，所述音素编码器和词编码器分别连接词-音素注意力，词-音素注意力连接编码器，编码器连接变量适配器，变量适配器连接梅尔谱解码器。

进一步的，收集整理中文数据集AISHELL-3以及英文数据集LibriTTS，对中文数据集AISHELL-3以及英文数据集LibriTTS分别进行预处理，将AISHELL-3音频对应的中文文本进行拼音化处理，得到文本为拼音的文本序列。

进一步的，所述模型训练中使用Adam优化器。

进一步的，所述打分包括得到10个不同说话人的合成音频得分，并将10个人的得分再次进行平均得到最终模型得分。

本申请实施例还提供一种基于融合语义信息的语音合成的装置，包括：

数据收集模块，收集语音数据以及对应文本，对数据进行预处理提取音素序列、时长、能量、基频数据；

模型构建模块，构建融合语义信息的语音合成模型；

模型训练模块，输入真实音频对应的音素序列、时长、能量、基频数据对模型进行训练得到训练好的模型；

模型测试模块，对训练好的模型从合成语音质量以及与语音说话人相似度两个方面进行评价打分，若打分结果满足条件，则使用该模型进行语音合成。

进一步的，其中，所述合成模型包括音素编码器、词编码器、词-音素注意力、编码器、变量适配器以及梅尔谱解码器；所述音素编码器连接到词编码器，所述音素编码器和词编码器分别连接词-音素注意力，词-音素注意力连接编码器，编码器连接变量适配器，变量适配器连接梅尔谱解码器。

本申请实施例还提供一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，所述处理器执行所述计算机程序时实现前述的方法的步骤。

本申请实施例还提供一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现前述的方法的步骤。

本发明提供的实施例至少具有以下有益效果：

本发明提供一种基于融合语义信息的语音合成的方法，包括如下步骤：数据准备，收集语音数据以及对应文本，对数据进行预处理提取音素序列、时长、能量、基频数据；模型构建，构建融合语义信息的语音合成模型；模型训练，输入真实音频对应的音素序列、时长、能量、基频数据对模型进行训练得到训练好的模型；模型测试，对训练好的模型从合成语音质量以及与语音说话人相似度两个方面进行评价打分，若打分结果满足条件，则使用该模型进行语音合成。采用本申请的技术方案能减少显式韵律建模中韵律表征提取出现的误差，提升韵律自然度。

附图说明

此处所说明的附图用来提供对本申请的进一步理解，构成本申请的一部分，本申请的示意性实施例及其说明用于解释本申请，并不构成对本申请的不当限定。在附图中：

图1为本申请实施例提供的一种基于融合语义信息的语音合成的方法的示意图；

图2为本申请实施例提供的融合语义信息的语音合成模型的模块示意图；

图3为本申请实施例提供的融合语义信息的词-音素注意力的模块示意图；

图4为本申请实施例提供的编码器中改进后的FFT结构的示意图。

具体实施方式

为使本申请的目的、技术方案和优点更加清楚，下面将结合本申请具体实施例及相应的附图对本申请技术方案进行清楚、完整地描述。显然，所描述的实施例仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

如图1-4所示，本申请实施例提供一种基于融合语义信息的语音合成的方法，包括如下步骤：

收集整理中文数据集AISHELL-3以及英文数据集LibriTTS，对两个数据集分别进行预处理，将AISHELL-3音频对应的中文文本进行拼音化处理，得到文本为拼音的文本序列，并将声调标注为1，2，3，4声以及轻声5。收集挑选两种语音合适的音素词典，将拼音文本序列以及英语文本序列根据音素词典转化为音素序列。

对获得的音频进行处理，首先根据表1中的参数，对语音数据进行重采样，将其采样率转换为22050HZ，对重采样后的语音数据进行0.97的预加重处理，随后对音频进行帧移为256，窗长以及帧长为1024的短时傅里叶变换，采用梅尔滤波器组数量为80的梅尔滤波器，从最小频率0提升到最大频率8000，与使用的HiFi-GAN声码器保持一致。

表1音频参数

模型构建，构建融合语义信息的语音合成模型；

如图2所示，融合语义信息的语音合成模型包括音素编码器(Phoneme Encoder)，词编码器(word Encoder),词-音素注意力(WPAttention),编码器(Encoder)，变量适配器(Variance Adaptor)，梅尔谱解码器(Mel-spectrogram Decoder)

音素编码器，由Embedding部分以及标准FFT块组成，以音素作为输入，使用one-hot编码将其编码为音素序列，通过Embedding操作将输入转化为256维隐藏特征，将隐藏特征经过FFT块处理得到隐变量X_p。

词编码器的结构与音素编码器类似，由标准FFT块构成，词编码器的目的在于，通过额外的词边界信息处理音素序列，从而获得句子中的语义信息。大多数的模型，仅以音素等显式特征作为输入，这种形式模型无法提取文本中的句法结构信息，因此提取句子的句法信息对于合成表现力高的音频有重要意义。词编码器以音素编码器的输出X_p以及词边界信息作为输入，首先将两个输入拼接，进行词级的池化操作，池化后的特征经过标准FFT处理后得到隐变量X_w。

词-音素注意力，结构如图3所示。由时长预测器(Duration Predictor)，长度调节器(Length Regulator)，多头注意力(Multi-head Attention)三部分组成。词-音素注意力的输入由词边界信息(word Boundary)、音素编码器的输出X_p与词编码器的输出X_w作为输入。时长预测器以word Boundary，X_p为输入，由两个一维卷积，ReLU激活函数，层归一化以及一个线性层组成，时长预测器将每个时间步中的隐藏状态投影到标量，得到预测的音素时间。长度调节器以X_w作为输入，结构设置与FastSpeech一致，用于控制语速和部分韵律。多头注意力具有两个头部，以长度调节器的输出Q，以及从X_p复制得到的K，V作为输入，得到隐变量X。词-音素注意力部分的公式如下所示：

X_D＝DP(X_P+word)

X_L＝LR(X_w+X_D)

X＝attention(Q，K，V)

式中X_p为音素编码器的输出；X_w为词编码器的输出，word为词边界信息；DP为时长预测器的相关运算，X_D为时长预测器的输出；LR为长度调节器的相关运算；X_L为长度调节器的输出；Q为X_L的复制；K，V为X_P的复制。

编码器，由4个改进的FFT块组成，改进后的FFT结构如图4所示，音素编码器的输出X_p与词编码器的输出X_w经过WP Attention融合后得到含有文本特征的隐变量X，编码器将隐变量X作为输入，将其复制三份分别命名为Q，K，V，送入隐藏维度为256的Multi-HeadAttention中，得到隐变量X_a，将X_a线性转换后与X相加，经过层归一化后得到第一隐藏特征X_{第一隐藏特征}，将X_{第一隐藏特征}送入新增的双向GRU(Bi-GRU)中，得到隐藏特征X_GRU，通过这种方式，可以弥补self-attention对局部特征关注的不足，从而提高局部依赖关系建模能力。随后X_GRU经过前馈神经网络(FFN)处理后，与X_GRU相加，经过层归一化得到最终的输出变量X_E。其中FFN先后包括卷积核大小为9，隐变量维度为1024的一维卷积；relu激活函数；卷积核大小为1，隐变量维度维为256的一维卷积；编码器部分的公式如下所示：

X＝WP(X_p+X_W+word)

X_a＝attention(Q，K，V)

X_{第一隐藏特征}＝LN(X+Linear(X_a))

X_GRU＝BiGRU(X_{第一隐藏特征})

X_E＝LN(X_GRU+FFN(X_GRU))

式中，word代表词边界信息(word Boundary)，X_p代表音素特征；X_w代表文本特征；WP代表词-音素注意力的相关运算；X代表融合后的特征；attention代表Multi-HeadAttention的相关操作，X_a代表经过注意力运算的隐藏特征；Linear代表线性处理；LN代表层归一化；X_{第一隐藏特征}代表第一隐藏特征；BiGRU代表双向GRU的相关操作；X_GRU代表经过双向GRU处理后的隐藏特征；FFN代表前馈神经网络的相关操作；X_E代表最终FFT块的输出，也就是Encoder的输出。

变量适配器与梅尔谱解码器。遵循基线模型的设置，变量适配器由持续时长预测器、音高预测器、能量预测器构成。三种预测器的结构相同，均由一维卷积、ReLU激活函数、LN、Dropout、一维卷积、ReLU激活函数、LN、Dropout、线性层9部分线性组成。梅尔谱解码器由6个标准的FFT块组成。

模型训练，输入真实音频对应的音素序列、时长、能量、基频数据对模型进行训练得到训练好的模型；模型的输入为真实音频，对应的音素序列、时长、能量、基频数据，训练中使用Adam优化器，beta值为0.9和0.98。均方误差(MSE)对预测的梅尔频谱和真实的梅尔频谱计算损失，同时对时长、能量、基频信息做MAE损失，权重系数为1.训练数据为218个说话人，85小时的中文数据集AISHELL-3，以及2456个说话人，585小时英文数据集LibriTTS(随机挑选400人，约100小时)，将数据集划分为训练集、验证集、测试集，分别用两个数据集的训练集训练模型，训练时的批大小为64，每一批次中的音频数据随机选取，声码器采用普遍使用的训练好的HiFi-GAN模型，两个数据集上的模型经过10万步的迭代训练后均收敛，得到训练好的模型。模型预测生成音频时，使用的时长、能量、基频为根据文本及音素序列得到的预测数据。

模型测试，对训练好的模型从合成语音质量以及与语音说话人相似度两个方面进行评价打分，若打分结果满足条件，则使用该模型进行语音合成。首先随机选取模型测试集中使用某个人的5-10条音频，1条音频标记为标准音频，使用随机句子合成15-20条同一说话人的音频，将除标准音频的所有音频进行混合。邀请10名母语使用者，告知使用国际标准的5分打分制，从0到5依次是：非常差，情感与目标情感完全不贴切，情感表现力极差；很差，情感与目标情感基本贴切，情感表现力极差；中等，情感与目标情感较贴切，情感表现力较好；良好，情感与目标情感较贴切，情感表现力充分；优秀，情感与目标情感贴切，情感表现力突出；每0.5分为1个间隔。首先听标准音频，随后依据标准音频对混合后的音频进行打分，将生成音频的得分进行平均。重复流程，得到10个不同说话人的合成音频得分。并将10个人的得分再次进行平均得到最终模型得分。

模型构建模块，构建融合语义信息的语音合成模型；

模型测试模块，对训练好的模型从合成语音质量以及与语音说话人相似度两个方面进行评价打分，若打分结果满足条件，则保留该模型。

进一步的，收集整理中文数据集AISHELL-3，以及英文数据集LibriTTS，对两个数据集分别进行预处理，将AISHELL-3音频对应的中文文本进行拼音化处理，得到文本为拼音的文本序列。

进一步的，所述模型训练中使用Adam优化器。

本申请实施例还提供一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行前述的方法的步骤。

还需要说明的是，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、商品或者设备中还存在另外的相同要素。

本领域技术人员应明白，本申请的实施例可提供为方法、系统或计算机程序产品。因此，本申请可采用完全硬件实施例、完全软件实施例或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

以上所述仅为本申请的实施例而已，并不用于限制本申请。对于本领域技术人员来说，本申请可以有各种更改和变化。凡在本申请的精神和原理之内所作的任何修改、等同替换、改进等，均应包含在本申请的权利要求范围之内。

Claims

1.一种基于融合语义信息的语音合成的方法，其特征在于，包括如下步骤：

模型构建，构建融合语义信息的语音合成模型；

2.根据权利要求1所述的基于融合语义信息的语音合成的方法，其特征在于，所述合成模型包括音素编码器、词编码器、词-音素注意力、编码器、变量适配器以及梅尔谱解码器；所述音素编码器连接到词编码器，所述音素编码器和词编码器分别连接词-音素注意力，词-音素注意力连接编码器，编码器连接变量适配器，变量适配器连接梅尔谱解码器。

3.根据权利要求1所述的基于融合语义信息的语音合成的方法，其特征在于，收集整理中文数据集AISHELL-3以及英文数据集LibriTTS，对中文数据集AISHELL-3以及英文数据集LibriTTS分别进行预处理，将AISHELL-3音频对应的中文文本进行拼音化处理，得到文本为拼音的文本序列。

4.根据权利要求1所述的基于融合语义信息的语音合成的方法，其特征在于，所述模型训练中使用Adam优化器。

5.根据权利要求1所述的基于融合语义信息的语音合成的方法，其特征在于，所述打分包括得到10个不同说话人的合成音频得分，并将10个人的得分再次进行平均得到最终模型得分。

6.一种基于融合语义信息的语音合成的装置，其特征在于，包括：

模型构建模块，构建融合语义信息的语音合成模型；

7.根据权利要求6所述的基于融合语义信息的语音合成的装置，其特征在于，所述合成模型包括音素编码器、词编码器、词-音素注意力、编码器、变量适配器以及梅尔谱解码器；所述音素编码器连接到词编码器，所述音素编码器和词编码器分别连接词-音素注意力，词-音素注意力连接编码器，编码器连接变量适配器，变量适配器连接梅尔谱解码器。

8.根据权利要求6所述的基于融合语义信息的语音合成的装置，其特征在于，所述打分包括得到10个不同说话人的合成音频得分，并将10个人的得分再次进行平均得到最终模型得分。

9.一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，其特征在于，所述处理器执行所述计算机程序时实现权利要求1至5中任一项所述的方法的步骤。

10.一种计算机可读存储介质，其特征在于，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1至5中任一项所述的方法的步骤。