CN116403562A

CN116403562A - 一种基于语义信息自动预测停顿的语音合成方法、系统

Info

Publication number: CN116403562A
Application number: CN202310386187.2A
Authority: CN
Inventors: 柯登峰; 刘嗣平; 张顺; 杜宝乐; 徐艳艳
Original assignee: Guangzhou Jiusi Intelligent Technology Co ltd
Current assignee: Guangzhou Jiusi Intelligent Technology Co ltd
Priority date: 2023-04-11
Filing date: 2023-04-11
Publication date: 2023-07-07
Anticipated expiration: 2043-04-11
Also published as: CN116403562B

Abstract

本发明提供一种基于融合语义信息的语音合成的方法，包括如下步骤：搜集对应的语音数据，生成真实语音的能量、音高、音素持续时长、字停顿等级标签以及梅尔频谱数据，然后进行模型的构建与训练，再进行模型的测试与评估。本发明在模型中增加了停顿预测器，进行大量的数据来训练模型去更好地预测句子中的停顿。采用本申请的技术方案能模拟人说话的停顿，提升韵律自然度。

Description

一种基于语义信息自动预测停顿的语音合成方法、系统

技术领域

本申请涉及语音合成领域，尤其涉及一种基于语义信息自动预测停顿的语音合成方法、系统。

背景技术

语音合成(Speech Synthesis)，又叫做文本到语音(Text-to-Speech,TTS)，是一种将文本转换为语音的技术。它的任务是使机器发出类似人的声音，在智能语音交互、有声读物中应用广泛。近年来，基于深度学习(Deep Learning)和神经网络(Neural Network)的建模方法在机器学习领域各个任务上都取得了快速的发展，语音合成技术也在此基础上得到了显著的提升。随着信息技术及人工智能技术的发展，各种应用场景对语音合成的效果的要求也越来越高。

传统的基于深度学习的语音合成方法，一般分为三个阶段。第一个阶段为文字经过文本正则化，进一步得到音素(Phoneme)序列、韵律标注等信息。第二阶段将上一阶段得到的信息输入声学模型中，预测出信息对应的声学特征。最后阶段将声学特征通过声码器，还原成我们可以听懂的语音。一般第二阶段的声学模型的输入只有音素序列这单一信息，虽然已经可以合成出与人类发音相近的语音。但是其合成的语音还是存在一些机械感，在自然度和韵律方面与人类真实的录音还是存在不小的差距。

发明内容

本申请实施例提供一种基于融合语义信息的语音合成的方法及装置的相关技术方案，用以解决现有技术中显式的韵律表征提取容易出现误差，无法将不同的韵律表征进行联系的问题，韵律自然度低的技术问题。

本申请实施例提供一种基于语义信息自动预测停顿的语音合成方法，包括如下步骤：

获取训练数据集并处理；

构建语音合成模型；

将音素序列输入到合成模型中的音素编码器，生成音素隐藏特征；

将字序列输入到合成模型中的字编码器，生成字隐藏特征；

将生成的字隐藏特征输入到停顿预测器中，再投影到N类停顿等级上，取每个位置最大概率的停顿等级，得到每个字后的停顿等级标签序列；

将得到的停顿等级标签序列经过嵌入层，得到停顿等级的嵌入序列，再把嵌入序列和字隐藏特征拼接并投影到与原来字隐藏特征相同的维度上，得到新的字隐藏特征；

根据音素与字的对应关系，将字隐藏特征扩展到与音素隐藏特征相同长度，将两者相加，得到总的语义隐藏特征；

将语义隐藏特征分别送入音高预测器和能量预测器，持续时长预测器得到音高嵌入，能量嵌入和每个音素持续的时间，将语义隐藏特征与音高嵌入，能量嵌入相加，再根据预测出的音素持续时间将语义隐藏特征扩充到对应的长度，得到最终的隐藏特征；

将上述隐藏特征输入到声学特征解码器，最终得到预测的声学特征；

利用预测的声学特征、音高、能量、持续时间和真实语音提取的声学特征、音高、能量、持续时间计算模型损失，用此损失更新模型参数，对模型进行训练直至收敛；

将预测的声学特征输入到预训练好的声码器，输出最终的语音数据。

进一步的，所述获取训练数据集并处理的步骤包括：利用预测的声学特征、音高、能量、持续时间和真实语音提取的声学特征、音高、能量、持续时间计算模型损失，使用该损失更新模型参数，对模型进行训练直至收敛；

准备有文本标注的语音数据，使用pypinyin工具包将每条语音的文本转化为拼音文本，并记录拼音文本中每个音素与文本中每个字的对应关系；

将文本、拼音文本、语音放在相同的目录下，利用Montreal Forced Aligner工具将拼音文本与语音信号对齐，得到文本与语音的对齐结果；

利用所述结果，得到每个音素的持续时间；

根据每个音素的持续时间，从语音中提取每个音素对应的音高和能量信息；

将停顿划分为多个等级，根据文本与语音的对齐结果，获得每个字的停顿等级信息。

进一步的，所述声学特征采用的是梅尔谱，是从真实训练数据集的语音中提取，作为模型的生成目标。

进一步的，经过自注意结构提取音素与音素之间的全局依赖信息，再经过1维卷积进一步提取信息，重复四次以上步骤，得到音素隐藏特征。

进一步的，经过自注意结构提取字与字之间的全局依赖信息，再经过1维卷积进一步提取信息，重复四次以上步骤，得到字隐藏特征。

本申请实施例还提供一种基于语义信息自动预测停顿的语音合成装置，包括：

数据收集模块，获取训练数据集并处理；

模型构建模块，构建语音合成模型；

合成模型中的音素编码器接收音素序列输入，生成音素隐藏特征；

合成模型中的字编码器接收字序列输入，生成字隐藏特征；将生成的字隐藏状态输入到停顿预测器中，再投影到N类停顿等级上，取每个位置最大概率的停顿等级，得到每个字后的停顿等级标签序列；将得到的停顿等级标签序列经过嵌入层，得到停顿等级的嵌入序列，再把嵌入序列和字隐藏特征拼接并投影到与原来字隐藏特征相同的维度上，得到新的字隐藏特征；

音高预测器，能量预测器和持续时长预测器分别接收语义隐藏特征，得到音高嵌入，能量嵌入和每个音素持续的时间，将语义隐藏特征与音高嵌入，能量嵌入相加，再根据预测出的音素持续时间将语义隐藏特征扩充到对应的长度，得到最终的隐藏特征；

预训练好的声码器接收预测的声学特征输入，输出最终的语音数据。

利用所述结果，得到每个音素的持续时间；

文本与语音的对齐结果中，不仅有每个音素的持续时间，也有静音片段，即停顿的持续时间，将停顿划分为多个等级，根据文本与语音的对齐结果，获得每个字的停顿等级信息。

本申请实施例还提供一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，所述处理器执行所述计算机程序时实现前述的方法的步骤。

本申请实施例还提供一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现前述的方法的步骤。

本发明提供的实施例至少具有以下有益效果：

附图说明

此处所说明的附图用来提供对本申请的进一步理解，构成本申请的一部分，本申请的示意性实施例及其说明用于解释本申请，并不构成对本申请的不当限定。在附图中：

图1为本申请实施例提供的一种基于融合语义信息的语音合成的装置的总体架构图；

图2为本申请实施例提供的音素编码器和字编码器模块的示意图；

图3为本申请实施例提供的停顿预测器模块的示意图。

具体实施方式

为使本申请的目的、技术方案和优点更加清楚，下面将结合本申请具体实施例及相应的附图对本申请技术方案进行清楚、完整地描述。显然，所描述的实施例仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

如图1-4所示，本申请实施例提供基于语义信息自动预测停顿的语音合成方法，包括如下步骤：

获取训练数据集并处理；

构建语音合成模型；

将字序列输入到合成模型中的字编码器，生成字隐藏特征；

将生成的字隐藏状态输入到停顿预测器中，再投影到N类停顿等级上，取每个位置最大概率的停顿等级，得到每个字后的停顿等级标签序列；

将语义隐藏特征分别送入音高预测器，能量预测器，持续时长预测器得到音高嵌入，能量嵌入和每个音素持续的时间，将语义隐藏特征与音高嵌入，能量嵌入相加，再根据预测出的音素持续时间将语义隐藏特征扩充到对应的长度，得到最终的隐藏特征；

为了更清楚的说明本发明的技术方法和优点，下面结合附图来进一步描述本发明，包括以下3个步骤。

步骤1：数据准备。

搜集对应的语音数据，生成真实语音的能量、音高、音素持续时长、字停顿等级标签以及梅尔频谱数据。

本发明增加了停顿预测器，所以需要大量的数据来训练模型去更好地预测句子中的停顿。

收集和整理开源纯净语音数据集，把每句话的文字使用pypinyin转化为pinyin，根据拼音字典，使用Montreal Forced Aligner(MFA)工具将拼音文本与语音信号对齐，得到文本与语音的对齐结果；利用上述结果，得到每个音素的持续时间；根据每个音素的持续时间，从语音中提取每个音素对应的音高和能量信息；

文本与语音的对齐结果中，不仅有每个音素的持续时间，也有静音片段，即停顿的持续时间，为了更细粒度地控制合成语音的停顿，本发明根据表1规则将停顿划分为10个等级，根据文本与语音的对齐结果，获得每个字的停顿等级信息；

表1：停顿等级划分规则

停顿时间	停顿等级
		无停顿	0
<0.05s	1
		0.05s-0.10s	2
0.10s-0.15s	3
		0.15s-0.20s	4
0.20s-0.30s	5
		0.30s-0.40s	6
0.40s-0.50s	7
		0.50s-0.65s	8
>0.65s	9

使用上述对应的语音，并且根据表2的参数来进行处理。对于梅尔频谱的转换。我们在变换之前，将通过重采样的方式，将所有语音的采样率转换到22050HZ，并且通过0.97的预加重对语音进行预处理，并且通过短时傅立叶变换(STFT)算法，采用表格所述，帧移为256，窗长和帧长都为1024，梅尔滤波器则是采用80个的梅尔滤波器组，从0的最小频率提升到8000的最大频率，而并非11025的最大频率，用以跟HiFi-GAN声码器的设定保持一致。

表2：音频参数

步骤2：模型的构建和训练。

为了提高合成语音的自然度，除了把音素序列作为输入之外，我们还引入了字序列作为输入来帮助更好地提取语音信息。我们使用音素编码器和字编码器分来提取音素和字的依赖信息。

音素编码器和字编码器的输入是音素序列或字序列，它们的任务是捕捉序列中的语义信息。首先将音素或字序列经过多头注意力模块，对输入的音素或字序列进行自注意力机制的运算，以捕捉序列中不同位置的相关性，多头注意力将输入序列或上下文向量通过多个头进行划分，每个头独立学习不同的注意力模型，然后将所有头的输出结果进行拼接，从而提高模型的表达能力和泛化能力。然后将多头注意力的输出结果再经过两层1维卷积，卷积核分别为9和1，卷积层可以在一定程度上实现位置信息的交换和合并，能够快速捕捉不同位置之间的长程依赖关系，从而提取输入文本的高层次抽象特征。多头注意力以及卷积模块之间都加入了残差连接，以帮助模型更好地训练。它们的具体结构如图2所示。

为了引入更多的信息，辅助模型生成声学特征。还加入了音高、能量和持续时间预测器，它们根据音素编码器和字编码器的输出来预测对应的音高、能量以及每个音素的持续时间。它们具有相同的网络结构：两层1维卷积和一个线形层。

在语音合成中除了音高、语速、音量等语音特征外，韵律的控制也十分重要，本发明提出了一种根据语义信息自动预测停顿的模块——停顿预测器，它的输入为字级别的语义信息，将语义信息经过三层停顿预测器Block，再经过一个线性层将输出结果映射到我们规定好的10类停顿等级上，得到每个字对应的停顿等级概率。将得到的停顿等级标签序列与字隐层特征进一步融合得到新的字字隐层特征。停顿预测器模块的结构如图3所示。

将得到的所有信息相加，输入到解码器中，生成文本对应的声学特征。

模型整体结构如图1所示。为了减少真实声学特征与预测的声学特征之间的mismatch，我们不直接采用真实的声学特征来训练声码器，而是使用训练好的模型生成对应文本的声学特征与真实的语音数据来预训练声码器，来进一步提高生成语音的质量。声码器结构我们采用的是HiFi-GAN声码器。

训练声学模型的过程中的损失计算主要分为三个部分：1.对预测的声学特征和真实的声学特征计算MSE损失；2.对预测的音高、能量、时长信息与真实语音提取的音高、能量、时长信息计算MAE损失。3.使用交叉熵损失计算停顿等级分类损失。所有的损失权重的系数皆为1。

我们在NVIDIA GeForce RTX 3090GPU上进行训练模型进行900K步迭代，批处理大小为64。采用Adam优化器，β1＝0.9，β2＝0.98。

步骤3：模型的测试和评估。

本发明的baseline模型为FastSpeech2，分别使用baseline模型与本发明提出的模型合成30条语音。并且邀请10名母语为汉语的测试人员进行主观评测。

首先进行了平均意见得分(Mean Opinion Score，MOS)测评，要求测试人员对听到的语音进行打分，打分规则如表2所示。

表2：平均意见得分的评估标准

在MOS测评中，我们把改进后的模型与baseline模型进行了比较，由于模型的输入不仅有音素序列，还引入了词序列来提取语义信息，并预测停顿，所以使得合成的语音音质进一步提高，停顿更加自然，自然度得到改善。MOS评测结果如表3所示，结果也证明了本发明对比baseline有所提升。

利用所述结果，得到每个音素的持续时间；

数据收集模块，获取训练数据集并处理；

模型构建模块，构建语音合成模型；

利用所述结果，得到每个音素的持续时间；

还需要说明的是，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、商品或者设备中还存在另外的相同要素。

本领域技术人员应明白，本申请的实施例可提供为方法、系统或计算机程序产品。因此，本申请可采用完全硬件实施例、完全软件实施例或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

以上所述仅为本申请的实施例而已，并不用于限制本申请。对于本领域技术人员来说，本申请可以有各种更改和变化。凡在本申请的精神和原理之内所作的任何修改、等同替换、改进等，均应包含在本申请的权利要求范围之内。

Claims

1.一种基于语义信息自动预测停顿的语音合成方法，其特征在于，包括如下步骤：

获取训练数据集并处理；

构建语音合成模型；

将字序列输入到合成模型中的字编码器，生成字隐藏特征；

2.根据权利要求1所述的基于语义信息自动预测停顿的语音合成方法，其特征在于，所述获取训练数据集并处理的步骤包括：利用预测的声学特征、音高、能量、持续时间和真实语音提取的声学特征、音高、能量、持续时间计算模型损失，使用该损失更新模型参数，对模型进行训练直至收敛；

将文本、拼音文本、语音放在相同的目录下，利用MontrealForced Aligner工具将拼音文本与语音信号对齐，得到文本与语音的对齐结果；

利用所述结果，得到每个音素的持续时间；

3.根据权利要求1所述的基于语义信息自动预测停顿的语音合成方法，其特征在于，所述声学特征采用的是梅尔谱，是从真实训练数据集的语音中提取，作为模型的生成目标。

4.根据权利要求1所述的基于语义信息自动预测停顿的语音合成方法，其特征在于，经过自注意结构提取音素与音素之间的全局依赖信息，再经过1维卷积进一步提取信息，重复四次以上步骤，得到音素隐藏特征。

5.根据权利要求1所述的基于语义信息自动预测停顿的语音合成方法，其特征在于，经过自注意结构提取字与字之间的全局依赖信息，再经过1维卷积进一步提取信息，重复四次以上步骤，得到字隐藏特征。

6.一种基于语义信息自动预测停顿的语音合成装置，其特征在于，包括：

数据收集模块，获取训练数据集并处理；

模型构建模块，构建语音合成模型；

7.根据权利要求6所述的基于语义信息自动预测停顿的语音合成装置，其特征在于，所述获取训练数据集并处理的步骤包括：利用预测的声学特征、音高、能量、持续时间和真实语音提取的声学特征、音高、能量、持续时间计算模型损失，使用该损失更新模型参数，对模型进行训练直至收敛；

利用所述结果，得到每个音素的持续时间；

8.根据权利要求6所述的基于语义信息自动预测停顿的语音合成装置，其特征在于，所述声学特征采用的是梅尔谱，是从真实训练数据集的语音中提取，作为模型的生成目标。

9.一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，其特征在于，所述处理器执行所述计算机程序时实现权利要求1至5中任一项所述的方法的步骤。

10.一种计算机可读存储介质，其特征在于，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1至5中任一项所述的方法的步骤。