CN117133270B

CN117133270B - 语音合成方法、装置、电子设备及存储介质

Info

Publication number: CN117133270B
Application number: CN202311149343.XA
Authority: CN
Inventors: 吕召彪; 赵文博; 许程冲; 肖清
Original assignee: China Unicom Guangdong Industrial Internet Co Ltd
Current assignee: China Unicom Guangdong Industrial Internet Co Ltd
Priority date: 2023-09-06
Filing date: 2023-09-06
Publication date: 2024-07-26
Anticipated expiration: 2043-09-06
Also published as: CN117133270A

Abstract

本申请实施例公开一种语音合成方法、装置、电子设备及存储介质，该方法包括：获取原始文本；通过训练得到的语音模型提取原始文本的语音特征，并根据语音特征对原始文本对应的初始频谱向量进行优化，得到目标频谱向量；其中，语音模型包括前端模块、语音合成TTS模型及后端模块，前端模块用于基于多头注意力机制提取原始文本对应的至少一种语音特征，TTS模型用于生成原始文本对应的初始频谱向量，后端模块用于将至少一种语音特征及初始频谱向量进行融合，得到目标频谱向量；根据目标频谱向量生成目标语音。实施本申请实施例，能够提高对合成语音的调整效率，同时也提高了合成语音的自然度和流畅度。

Description

语音合成方法、装置、电子设备及存储介质

技术领域

本申请涉及人工智能技术领域，具体涉及一种语音合成方法、装置、电子设备及存储介质。

背景技术

目前，语音语调的调整一般是将TTS(Text To Speech，从文本到语音)模型生成的合成语音的音素时长和基频，与目标语音的音素时长和基频进行比较，再通过调整每个音素的时长和基频来实现语音语调的调整，这种方法虽然可以精确地调整合成语音的每个音素的语调，但需要大量的人工干预，效率较低。另外，还可以通过将TTS模型生成语音的语音信号与目标语音的语音信号进行比较，然后通过对生成语音的基频、音量、音色等参数进行全局调整来实现语音语调的调整。这种方法的虽然可以快速地调整整个语音信号的语调，但是调整效果相对较粗糙，可能会影响语音的自然度和流畅度。

发明内容

本申请实施例公开了一种语音合成方法、装置、电子设备及存储介质，能够提高对合成语音的调整效率，同时也提高了合成语音的自然度和流畅度。

本申请实施例公开一种语音合成方法，所述方法包括：

获取原始文本；

通过训练得到的语音模型提取所述原始文本的语音特征，并根据所述语音特征对所述原始文本对应的初始频谱向量进行优化，得到目标频谱向量；其中，所述语音模型包括前端模块、语音合成TTS模型及后端模块，所述前端模块用于基于多头注意力机制提取所述原始文本对应的至少一种语音特征，所述TTS模型用于生成所述原始文本对应的初始频谱向量，所述后端模块用于将所述至少一种语音特征及所述初始频谱向量进行融合，得到目标频谱向量；

根据所述目标频谱向量生成目标语音。

作为一种可选的实施方式，在所述通过训练得到的语音模型提取所述原始文本的语音特征之前，所述方法还包括：

对所述原始文本进行拼音转化操作，以确定所述原始文本对应的音素序列；

所述通过训练得到的语音模型提取所述原始文本的语音特征，并根据所述语音特征对所述原始文本对应的初始频谱向量进行优化，得到目标频谱向量，包括：

将所述音素序列输入训练得到的语音模型，通过所述语音模型根据所述音素序列提取所述原始文本的语音特征，并根据所述语音特征对所述原始文本对应的初始频谱向量进行优化，得到目标频谱向量。

作为一种可选的实施方式，所述原始文本对应的至少一种语音特征，包括：时长特征、韵律特征以及高音特征中的一种或多种，所述时长特征用于指示所述原始文本的每个音素进行发音时所需的时间长度，所述韵律特征用于指示所述原始文本的相邻两个音素进行发音时的时间间隔，所述高音特征用于指示所述原始文本的每个音素进行发音时声波的频率。

作为一种可选的实施方式，所述前端模块包括时长特征生成单元、韵律特征生成单元以及高音特征生成单元，所述时长特征生成单元用于提取时长特征，所述韵律特征生成单元用于提取韵律特征，所述高音特征生成单元用于提取高音特征；所述基于多头注意力机制提取所述原始文本对应的语音特征，包括：

根据所述音素序列生成音素向量；

基于多头注意力机制，通过目标特征生成单元对所述音素向量进行多头注意力计算，得到多个注意力向量，对所述多个注意力向量进行拼接，得到多头注意力向量，并根据所述多头注意力向量，生成所述目标特征生成单元对应的目标语音特征；所述目标特征生成单元为所述时长特征生成单元、韵律特征生成单元以及高音特征生成单元中的任意一个。

作为一种可选的实施方式，所述目标特征生成模块包括多层神经网络；所述基于多头注意力机制，通过目标特征生成单元对所述音素向量进行多头注意力计算，得到多个注意力向量，对所述多个注意力向量进行拼接，得到多头注意力向量，并根据所述多头注意力向量，生成所述目标特征生成单元对应的目标语音特征，包括：

将所述音素向量作为输入到第一层神经网络的目标特征向量，通过当前层的神经网络对输入的目标特征向量进行多头注意力计算，得到多个注意力向量，并对所述多个注意力向量进行拼接，得到所述当前层的神经网络对应的多头注意力向量；

对所述多头注意力向量进行残差连接处理及第一归一化处理，得到第一特征向量；

对所述第一特征向量进行残差连接处理及前向传播，得到第二特征向量；

对所述第二特征向量进行第二归一化处理，得到目标特征向量；

将所述目标特征向量输入至下一层的神经网络，并将所述下一层的神经网络作为新的当前层的神经网络，重新执行所述通过当前层的神经网络对输入的目标特征向量进行多头注意力计算，得到多个注意力向量的步骤，直至所述当前层的神经网络为最后一层神经网络；

将最后一层神经网络输出的目标特征向量确定为所述目标特征生成单元对应的目标语音特征。

作为一种可选的实施方式，所述将所述至少一种语音特征及所述初始频谱向量进行融合，得到目标频谱向量，包括：

根据所述至少一种语音特征及所述初始频谱向量分别对应的权重值，对所述至少一种语音特征及所述初始频谱向量进行加权融合，得到目标频谱向量。

作为一种可选的实施方式，在所述获取原始文本之前，所述方法还包括：

获取样本音素序列集合，所述样本音素序列集合包括多个样本音素序列；

对每个所述样本音素序列进行音素切分，得到音素时长序列、音素间隔序列以及频谱序列；

将所述样本音素序列及对应的音素时长序列、音素间隔序列以及频谱序列输入待训练的语音模型，通过所述待训练的语音模型的前端模块根据输入的样本音素序列确定预测时长特征、预测韵律特征以及预测高音特征，根据所述预测时长特征及输入的音素时长序列之间的第一误差、所述预测韵律特征及输入的音素间隔序列之间的第二误差、所述预测高音特征与输入的频谱序列之间的第三误差调整所述待训练的语音模型的模型参数，以得到训练后的语音模型。

本申请实施例公开一种语音合成装置，所述装置包括：

获取模块，用于获取原始文本；

优化模块，用于通过训练得到的语音模型提取所述原始文本的语音特征，并根据所述语音特征对所述原始文本对应的初始频谱向量进行优化，得到目标频谱向量；其中，所述语音模型包括前端模块、语音合成TTS模型及后端模块，所述前端模块用于基于多头注意力机制提取所述原始文本对应的至少一种语音特征，所述TTS模型用于生成所述原始文本对应的初始频谱向量，所述后端模块用于将所述至少一种语音特征及所述初始频谱向量进行融合，得到目标频谱向量；

生成模块，用于根据所述目标频谱向量生成目标语音。

本申请实施例公开一种电子设备，包括存储器及处理器，所述存储器中存储有计算机程序，所述计算机程序被所述处理器执行时，使得所述处理器实现本申请实施例公开的任意一种语音合成方法。

本申请实施例公开一种计算机可读存储介质，其存储计算机程序，其中，所述计算机程序被处理器执行时实现本申请实施例公开的任意一种语音合成方法。

与相关技术相比，本申请实施例具有以下有益效果：

本申请实施例提供了一种语音合成的方法、装置、电子设备及存储介质，获取原始文本，通过训练得到的语音模型提取原始文本的语音特征，并根据语音特征对原始文本对应的初始频谱向量进行优化，得到目标频谱向量，再根据目标频谱向量生成目标语音；其中，语音模型包括前端模块、语音合成TTS模型及后端模块，前端模块用于基于多头注意力机制提取原始文本对应的至少一种语音特征，TTS模型用于生成原始文本对应的初始频谱向量，后端模块用于将至少一种语音特征及初始频谱向量进行融合，得到目标频谱向量，根据目标频谱向量生成目标语音。在本申请实施例中，通过训练得到的语音模型自动提取原始文本的至少一种语音特征，解决了手动设计特征导致效率低的问题，并利用原始文本的至少一种语音特征对TTS模型生成的初始频谱向量进行优化，能够提高对合成语音的调整效率，同时也提高了合成语音的自然度和流畅度。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本申请实施例公开的一种语音合成方法的流程示意图；

图2是本申请实施例公开的另一种语音合成方法的流程示意图；

图3是本申请实施例公开的步骤基于多头注意力机制提取原始文本对应的语音特征的流程示意图；

图4是本申请实施例公开的训练语音模型的流程示意图；

图5是一个实施例中通过语音模型得到目标频谱向量的示意图；

图6是一个实施例中通过前端模块生成语音特征的示意图；

图7是本申请实施例公开的一种语音合成装置的结构示意图；

图8是本申请实施例公开的一种电子设备的结构示意图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

需要说明的是，本申请实施例及附图中的术语“包括”和“具有”以及它们任何变形，意图在于覆盖不排他的包含。例如包含了一系列步骤或单元的过程、方法、系统、产品或设备没有限定于已列出的步骤或单元，而是可选地还包括没有列出的步骤或单元，或可选地还包括对于这些过程、方法、产品或设备固有的其它步骤或单元。

可以理解，本申请所使用的术语“第一”、“第二”等可在本文中用于描述各种元件，但这些元件不受这些术语限制。这些术语仅用于将第一个元件与另一个元件区分。举例来说，在不脱离本申请的范围的情况下，可以将第一特征向量称为第二特征向量，且类似地，可将第二特征向量称为第一特征向量。第一特征向量和第二特征向量两者都是特征向量，但其不是相同的特征向量。

本申请实施例公开了一种语音合成方法、装置、电子设备及存储介质，能够提高对合成语音的调整效率，同时也提高了合成语音的自然度和流畅度。以下分别进行详细说明。

请参阅图1，图1是本申请实施例公开的一种语音合成方法的流程示意图。其中，图1所描述的语音合成方法适用于手机、平板电脑、可穿戴设备、笔记本电脑、PC(PersonalComputer，个人计算机)、车载终端等电子设备，本申请实施例不做限定。该语音合成方法，可以包括以下步骤：

步骤S101，获取原始文本。

在语音合成中，需要根据电子设备获取的原始文本进行语音合成，原始文本的形式可以是只有一种语言的文本，例如全中文汉字、全英文词句，也可以是多种语言混合的文本，中文与英文的混合文本。

作为一种实施方式，获取原始文本的方式可以是电子设备根据输入图片提取的文字，从而获取原始文本，也可以是直接获取输入的文字作为原始文本。

步骤S102，通过训练得到的语音模型提取原始文本的语音特征，并根据语音特征对原始文本对应的初始频谱向量进行优化，得到目标频谱向量。

语音模型可包括前端模块、TTS模型及后端模块，前端模块用于基于多头注意力机制提取原始文本对应的至少一种语音特征，TTS模型用于生成原始文本对应的初始频谱向量，后端模块用于将至少一种语音特征及初始频谱向量进行融合，得到目标频谱向量。

TTS模型可以把原始文本转化为自然语音流，TTS模型主要用于根据原始文本生成对应的初始频谱向量，频谱向量可以描述任何复杂的振动情况的频率分布的情况。TTS模型可对原始文本进行语音合成，根据原始文本获取原始文本对应的初始频谱向量。

原始文本对应的语音特征可用于描述原始文本进行发音时所需的语调。原始文本对应的语音特征可包括时长特征、韵律特征以及高音特征中的一种或多种，其中，时长特征可以描述原始文本每个词语或字符进行发音所需的时间长度，韵律特征可以描述原始文本相邻的两个词语或字符进行发音时的时间间隔，高音特征可以描述原始文本每个词语或字符进行发音时声波的频率。通过原始文本对应的语音特征对初始频谱向量进行优化，可以提高目标语音的自然度和流畅度。

作为一种实施方式，前端模块用于基于多头注意力机制提取原始文本对应的至少一种语音特征，进一步地，可通过前端模块对原始文本进行编码，得到编码向量，并对编码向量进行多次注意力计算，得到多个注意力向量，再根据多个注意力向量生成多头注意力向量，并根据该多头注意力向量确定语音特征。更进一步地，多头注意力机制主要是根据原始文本中的每个词语或字符的目标特征权重提取多个注意力向量，再根据多个注意力向量确定对应的目标特征向量，目标特征权重包括时长特征权重、韵律特征权重以及高音特征权重中的一种或多种，其中，时长特征权重用于通过多头注意力机制提取原始文本对应的时长特征，韵律特征权重用于通过多头注意力机制提取原始文本对应的韵律特征，高音特征权重用于通过多头注意力机制提取原始文本对应的高音特征。以提取原始文本的高音特征为例，在句子“我特别喜欢小猫”中，“特别”一词需要进行强调，因此需要发音时选择较高的声波频率来达到强调的作用，在基于多头注意力进行特征提取时，可以对该词语赋予较高的特征权重，从而计算出的注意力向量能更好地表达该句子的高音特征。

作为一种实施方式，后端模块用于根据原始文本对应的语音特征对初始频谱向量进行优化，可通过后端模块将原始文本对应的语音特征与初始频谱向量进行融合，得到目标频谱向量。

步骤S103，根据目标频谱向量生成目标语音。

在一些实施例中，电子设备可通过声码器生成目标语音，声码器可以根据语音信号生成合成语音，语音信号可以是频谱向量，可以将目标频谱向量输入到声码器中生成目标语音，目标语音是是根据目标频谱向量生成的语音，目标频谱向量是根据语音特征对进行TTS生成的初始频谱向量优化后得到的频谱向量。

在本申请实施例中，通过训练得到的语音模型的前端模块可以基于多头注意力机制自动提取到原始文本的语音特征，原始文本对应的语音特征可以描述原始文本进行发音时需要的语调，再基于后端模块根据原始文本对应的语音特征与初始频谱向量进行融合，从而得到优化后的频谱向量即为目标频谱向量，再根据目标频谱向量生成目标语音，能够提高对合成语音的调整效率，同时也提高了合成语音的自然度和流畅度。

请参阅图2，图2是本申请实施例公开的另一种语音合成方法的流程示意图。如图2所示，该方法包括以下步骤：

步骤S201，对原始文本进行拼音转化操作，以确定原始文本对应的音素序列。

音素是根据语音的自然属性划分出的最小的语音单位，依据音节里的发声动作来分析，一个动作构成一个音素。音素分为元音和辅音两大类，例如汉语中的音节“啊”只有一个音素ā，而“太”有两个音素，分别是t和ài。

作为一种实施方式，可以对原始文本进行拼音转化操作，以确定原始文本对应的拼音序列，根据拼音序列可以得到原始文本对应的音素序列，例如，在“老师你好”的原始文本中，对应的音素序列是“l ao2 sh i1 n i2 h ao3”，音素序列中的数字代表原始文本的拼音中的声调。原始文本对应的音素序列更好地可以反映目标语音进行发声时的音韵和语调，根据音素序列得到原始文本对应的语音特征，能更准确地对原始文本的初始频谱向量进行优化，从而得到目标语音。

步骤S202，将音素序列输入到训练得到的语音模型，通过语音模型根据音素序列提取原始文本的语音特征，并根据语音特征对原始文本对应的初始频谱向量进行优化，得到目标频谱向量。

作为一种实施方式，将音素序列输入到语音模型的前端模块中，通过前端模块根据该音素序列提取出原始文本对应的至少一种语音特征，再通过后端模块根据至少一种语音特征及初始频谱向量分别对应的权重值，对至少一种语音特征及初始频谱向量进行加权融合，得到目标频谱向量，其中，该权重值是通过大量样本数据训练得到的。

在一些实施例中，后端模块可根据语音特征及初始频谱向量分别对应的权重值确定加权公式，再将初始频谱向量输入到一个全连接层进行前向传播处理，得到处理后的初始频谱向量，将原始文本的语音特征与处理后的初始频谱向量输入到加权公式中进行加权融合，可以得到目标频谱向量。

作为一种具体实施方式，后端模块可以计算各个语音特征与对应的权重值相乘得到各个语音特征对应的乘积，再将各个语音特征对应的乘积与处理后的初始频谱向量相加，得到目标频谱向量，具体可以参考以下公式(1)：

E_S＝W_d·V_d+W_r·V_r+W_p·V_p+E_c (1)

其中，E_c为处理后的初始频谱向量，E_S为目标频谱向量，V_d表示时长特征、V_r表示韵律特征，V_p表示高音特征，V_d、V_r以及V_p三个语音特征对应的权重值分别是W_d、W_r以及W_p。

图5是一个实施例中通过语音模型得到目标频谱向量的示意图，如图5所示，将音素序列输入到语音模型的前端模块中，根据前端模块中的时长特征生成单元生成原始文本对应的时长特征，韵律特征生成单元生成原始文本对应的韵律特征，高音特征生成单元生成原始文本对应的高音特征，同时，将音素序列输入到TTS模型中，得到初始频谱向量，将时长特征、韵律特征、高音特征以及初始频谱向量输入到语音模型的后端模块中，通过后端模块将时长特征、韵律特征、高音特征以及初始频谱向量进行加权融合，得到加权融合后的频谱向量，对加权融合后的频谱向量进行非线性变换，得到原始文本对应的目标频谱向量。

步骤S203，根据目标频谱向量生成目标语音。

步骤S203的描述可以参照上述实施例中的步骤S103的相关描述，在此不再赘述。

在本申请实施例中，对原始文本进行拼音转化操作，以确定原始文本对应的音素序列，再将音素序列输入到训练得到的语音模型，通过语音模型根据音素序列提取原始文本的语音特征，并根据语音特征对原始文本对应的初始频谱向量进行优化，得到目标频谱向量，原始文本的音素序列可以更好地反映目标语音的语调，因此，根据音素序列提取原始文本的语音特征，再根据语音特征对原始文本对应的初始频谱向量进行优化，能够提高目标语音的自然度和流畅度。

请参阅图3，图3是本申请实施例公开的前端模块基于多头注意力机制提取原始文本对应的语音特征的流程示意图。如图3所示，步骤基于多头注意力机制提取原始文本对应的语音特征，包括以下步骤：

步骤S301，根据音素序列生成音素向量。

作为一种实施方式，可以对音素序列进行独热编码，得到编码向量，并对编码向量进行位置嵌入处理，得到音素向量。独热编码是一位有效编码，可以使用N位状态寄存器来对音素序列中的N个音素进行编码，每个音素都有独立的寄存器位，例如，原始文本“红色”、“绿色”和“黄色”每个音素对应的向量可以是[0,0,1]、[0,1,0]和[1,0,0]。位置嵌入处理是将音素序列中的每一个音素的位置信息都对应到音素向量中，从而使得音素向量也包含每一个音素的位置信息。

步骤S302，基于多头注意力机制，通过目标特征生成单元对音素向量进行多头注意力计算，得到多个注意力向量，对多个注意力向量进行拼接，得到多头注意力向量，并根据多头注意力向量，生成目标特征生成单元对应的目标语音特征:目标特征生成单元为时长特征生成单元、韵律特征生成单元以及高音特征生成单元中的任意一个。

注意力机制是根据原始文本对应的音素序列的每个音素对应的权重值，以提取到更重要的信息的机制。在传统的TTS模型中，所有的输入的音素序列都被看作是同等重要的，而注意力机制则可以根据输入的音素序列的不同部分的权重值不同，对音素序列的不同部分赋予不同的权重值，以便更精确地提取到原始文本的语音特征。

作为一种实施方式，原始文本对应的至少一种语音特征可以包括：时长特征、韵律特征以及高音特征中的一种或多种，时长特征用于指示原始文本的每个音素进行发音时所需的时间长度，例如，原始文本“你好”对应的音素序列是“ni2 hao3”，其中每个音素“n”、“i”、“h”以及“ao”分别进行发声时的时间长度即为该原始文本对应的时长特征，韵律特征用于指示原始文本的相邻两个音素进行发音时的时间间隔，高音特征用于指示原始文本的每个音素进行发音时声波的频率。

前端模块包括时长特征生成单元、韵律特征生成单元以及高音特征生成单元，时长特征生成单元用于提取原始文本对应的时长特征，韵律特征生成单元用于提取原始文本对应的韵律特征，高音特征生成单元用于提取原始文本对应的高音特征。

作为一种实施方式，可以将原始文本的音素向量输入到目标特征生成单元进行多头注意力计算，得到多个注意力向量，再对多个注意力向量进行拼接，得到多头注意力向量，再根据多头注意力向量生成目标特征生成单元对应的目标语音特征，目标特征生成单元包括时长特征生成单元、韵律特征生成单元以及高音特征生成单元中的任意一种。

通过对音素向量进行多个独立的注意力计算，将计算得到的多个独立的注意力向量进行拼接得到多头注意力向量，可以让目标特征生成单元关注音素向量中多个方面的信息，从而防止出现过拟合的情况。其中，多个注意力向量进行拼接可包括将多个注意力向量进行首尾拼接，得到多头注意力向量，例如注意力向量[0,0,1]和注意力向量[1,2,3]进行拼接可以得到多头注意力向量[0,0,1,1,2,3]，每个注意力向量可以根据预设的注意力计算公式进行计算得出，进一步地，可以先计算出音素向量对应的关键字向量、权重向量以及查询向量，再将音素向量对应的关键字向量和查询向量输入到softmax函数中得到一个概率分布向量，再将该概率分布向量乘以权重向量即可得出注意力向量，具体参考以下公式(2)：

其中，A为多个注意力向量中的任意一个，K、Q和V分别是关键字向量、权重向量以及查询向量，d为关键字向量K的维度，其中，关键字向量K、权重向量V以及查询向量Q的计算方法可以参考公式(3)：

其中，E_p为原始文本对应的音素向量，W_k、W_v以及W_q分别是关键字向量K、权重向量V以及查询向量Q对应的参数，W_k、W_v以及W_q可以是在语音模型进行训练的过程中确定。

在一些实施例中，目标特征生成单元包括多层神经网络，可以将音素向量作为输入到第一层神经网络的目标特征向量，通过当前层的神经网络对输入的目标特征向量进行多头注意力计算，得到多个注意力向量，并对多个注意力向量进行拼接，得到当前层的神经网络对应的多头注意力向量；对多头注意力向量进行残差连接处理及第一归一化处理，得到第一特征向量；对第一特征向量进行残差连接处理及前向传播，得到第二特征向量；对第二特征向量进行第二归一化处理，得到目标特征向量；将目标特征向量输入至下一层的神经网络，并将下一层的神经网络作为新的当前层的神经网络，重新执行通过当前层的神经网络对输入的目标特征向量进行多头注意力计算，得到多个注意力向量的步骤，直至当前层的神经网络为最后一层神经网络；将最后一层神经网络输出的目标特征向量确定为目标特征生成单元对应的目标语音特征。

其中，第一归一化处理与第二归一化处理可以是相同的归一化处理，其区别在于进行归一化处理的对象不同，第一归一化处理是对多头注意力向量进行归一化处理，第二归一化处理是对第二特征向量进行归一化处理，前向传播是一层神经网络全连接层，可以将输入的第一特征向量进行线性变换后，得到输出的第二特征向量，以确定目标特征向量从而输入到下一层进行多头注意力计算，残差连接处理是根据进行归一化处理或前向传播处理得到的处理后的特征向量与处理前特征向量得到连接后的特征向量，具体是根据处理后的特征向量与处理前特征向量的和得到连接后的特征向量，在注意力机制和归一化处理之间使用残差连接，最大程度地保留了音素向量的信息，可以防止多层神经网络模型中出现梯度消失的问题，以提高多层神经网络模型的泛化性和鲁棒性。

作为一种具体的实施例，可以将音素向量E_p作为输入到第一层神经网络的目标特征向量，通过当前层的神经网络对音素向量E_p进行多头注意力计算，得到多个注意力向量A，并对多个注意力向量A进行拼接，得到多头注意力向量H，再对H进行残差处理及第一归一化处理，得到第一特征向量V_a，再对V_a进行残差连接处理及前向传播，得到第二特征向量V_f，再对V_f进行第二归一化处理，从而得到目标特征向量。

作为一种实施方式，时长特征生成单元、韵律特征生成单元以及高音特征生成单元均可按照上述的步骤分别生成时长特征、韵律特征以及高音特征。

图6是一个实施例中通过前端模块生成语音特征的示意图。如图6所示，将音素序列输入到前端模块，前端模块对音素序列进行独热编码及位置嵌入处理，得到音素向量，再将音素向量输入到前端模块中的目标特征生成单元中，目标特征生成单元对音序向量E_p进行多头注意力计算，得到多头注意力向量H，再对多头注意力向量H进行残差连接处理以及第一归一化处理，得到第一特征向量V_a，对V_a进行前向传播及残差连接处理，得到第二特征向量V_f，再对V_f进行第二归一化后处理，以得到目标特征向量，使用目标特征生成单元中的多层编码器对目标特征向量进行处理，最后将处理后的目标特征向量进行非线性变换，从而得到目标语音特征。该流程可以是时长特征生成单元根据音素向量生成时长特征，或韵律特征生成单元根据音素向量生成韵律特征，或高音特征生成单元根据音素向量生成高音特征的任意一个过程。

在本申请实施例中，根据音素序列生成音素向量，基于多头注意力机制提取原始文本对应的语音特征，能够更加准确地提取到原始文本对应的语音特征，无需大量地人工干预对目标语音的音素进行调节，而且提高了目标语音的自然度和流畅度，能更有效地对目标语音的音素进行自动调节。

请参阅图4，图4是本申请实施例公开的训练语音模型的流程示意图。如图4所示，训练语音模型，可包括以下步骤：

步骤S401，获取样本音素序列集合，样本音素序列集合包括多个样本音素序列。

作为一种实施方式，获取样本音素序列集合是用于对待训练的语音模型进行训练的，样本音素序列，样本音素序列集合包含多个样本音素序列，每个样本音素序列包含音素时长序列、音素间隔序列以及频谱序列，其中，音素时长序列用于对待训练的语音模型中的时长特征模型进行训练，音素间隔序列用于对待训练的语音模型中的韵律特征模型进行训练，频谱序列用于对待训练的语音模型中的高音特征模型进行训练。

在一些实施例中，在获取样本音素序列集合之后，可以先对样本音素序列进行预处理，得到预处理后的样本音素序列集合，再根据预处理后的样本音素序列集合对待训练语音模型进行训练。

作为一种实施方式，对样本音素序列进行预处理可以包括对样本音素序列进行去噪、分段以及对齐处理，对齐处理可以采用MFA(Montreal Forced Aligner，一种用于音素对齐的方法)方法对样本文本的样本音素序列与样本文本的目标语音进行音素对齐，得到样本音素序列中的每个音素对应的语音音频片段，从而可以根据样本音素序列中的每个音素对应的语音音频片段对样本音素序列进行切分，样本文本是与样本音素序列对应的文本信息，样本文本的目标语音可以指样本文本对应的理想语音。

步骤S402，对每个样本音素序列进行音素切分，得到音素时长序列、音素间隔序列以及频谱序列。

作为一种实施方式，可以对每个样本音素序列进行音素切分，再加入训练标签，以得到音素时长序列、音素间隔序列以及频谱序列，可以对待训练的语音模型进行有监督训练，例如，在“老师你好”这个样本文本中，对应的样本音素序列为“lao3 shi1 ni2 hao4”，对该样本音素序列进行音素切分后，得到的音素时长序列为“l ao3 sh i1 n i2 h ao4”，音素间隔序列为“l ao3 sh i1 sp n i2 h ao4”，其中，加入的“sp”为音素间隔序列的间隔标签。

步骤S403，将样本音素序列及对应的音素时长序列、音素间隔序列以及频谱序列输入待训练的语音模型，通过待训练的语音模型的前端模块根据输入的样本音素序列确定预测时长特征、预测韵律特征以及预测高音特征，根据预测时长特征及输入的音素时长序列之间的第一误差、预测韵律特征及输入的音素间隔序列之间的第二误差、预测高音特征与输入的频谱序列之间的第三误差调整待训练的语音模型的模型参数，以得到训练后的语音模型。

作为一种实施方式，待训练的语音模型中的前端模块包括待训练的时长特征生成模型、待训练的韵律特征生成单元以及待训练的高音特征生成单元。可将样本音素序列及对应的音素时长序列输入待训练的时长特征生成单元，通过待训练的时长特征生成单元根据输入的样本音素序列确定预测时长特征，根据预测时长特征及输入的音素时长序列确定第一误差，并利用第一误差对待训练的时长特征生成单元的参数进行调整，直至满足第一收敛条件。第一收敛条件可包括预测时长特征及输入的音素时长序列之间的第一误差处于第一预设范围内，或者，预测时长特征及输入的音素时长序列之间的第一误差稳定。同样的，可以根据预测韵律特征及输入的音素韵律序列确定第二误差，并利用第二误差对待训练的韵律特征生成单元的参数进行调整，直至满足第二收敛条件。第二收敛条件可包括预测韵律特征及输入的音素韵律序列之间的第二误差处于第二预设范围内，或者，预测韵律特征及输入的音素韵律序列之间的第二误差稳定；根据预测高音特征及输入的音素高音序列确定第三误差，并利用第三误差对待训练的高音特征生成单元的参数进行调整，直至满足第三收敛条件。第三收敛条件可包括预测高音特征及输入的音素高音序列之间的第三误差处于第三预设范围内，或者，预测高音特征及输入的音素高音序列之间的第三误差稳定。

进一步地，若预测时长特征及输入的音素时长序列之间的第一误差满足第一收敛条件，则训练完成，得到训练后的时长特征生成单元；若预测韵律特征及输入的音素间隔序列之间的第二误差满足第二收敛条件，则训练完成，得到训练后的韵律特征生成单元；若预测高音特征及输入的频谱序列之间的第三误差满足第三收敛条件，则训练完成，得到训练后的高音特征生成单元，第一收敛条件、第二收敛条件以及第三收敛条件之间相互独立。

在本申请实施例中，通过获取样本音素序列集合，对每个样本音素序列进行音素切分，得到音素时长序列、音素间隔序列以及频谱序列，将样本音素序列及对应的音素时长序列、音素间隔序列以及频谱序列对待训练的语音模型进行训练，且对时长特征生成模型、韵律特征生成单元以及高音特征生成单元分开进行针对性训练，可以提高语音模型提取时长特征、韵律特征及高音特征的准确性，从而提高了语音模型的性能。

请参阅图7，图7是本申请实施例公开的一种语音合成装置的结构示意图。该装置可应用于上述的电子设备，具体不做限定。如图7所示，语音合成装置700可包括：获取模块701、优化模块702、生成模块703。

获取模块701，用于获取原始文本；

优化模块702，用于通过训练得到的语音模型提取原始文本的语音特征，并根据语音特征对原始文本对应的初始频谱向量进行优化，得到目标频谱向量；其中，语音模型包括前端模块、语音合成TTS模型及后端模块，前端模块用于基于多头注意力机制提取原始文本对应的至少一种语音特征，TTS模型用于生成原始文本对应的初始频谱向量，后端模块用于将至少一种语音特征及初始频谱向量进行融合，得到目标频谱向量；

生成模块703，用于根据目标频谱向量生成目标语音。

作为一种可选的实施方式，语音合成装置700还包括：

转化模块，用于对原始文本进行拼音转化操作，以确定原始文本对应的音素序列；

优化模块702，还用于将音素序列输入训练得到的语音模型，通过语音模型根据音素序列提取原始文本的语音特征，并根据语音特征对原始文本对应的初始频谱向量进行优化，得到目标频谱向量。

作为一种可选的实施方式，原始文本对应的至少一种语音特征，包括：时长特征、韵律特征以及高音特征中的一种或多种，时长特征用于指示原始文本的每个音素进行发音时所需的时间长度，韵律特征用于指示原始文本的相邻两个音素进行发音时的时间间隔，高音特征用于指示原始文本的每个音素进行发音时声波的频率。

作为一种可选的实施方式，前端模块包括时长特征生成单元、韵律特征生成单元以及高音特征生成单元，时长特征生成单元用于提取时长特征，韵律特征生成单元用于提取韵律特征，高音特征生成单元用于提取高音特征。

优化模块701，包括音素向量生成单元及特征提取单元。

音素向量生成单元，用于根据音素序列生成音素向量；

特征提取单元，用于基于多头注意力机制，通过目标特征生成单元对音素向量进行多头注意力计算，得到多个注意力向量，对多个注意力向量进行拼接，得到多头注意力向量，并根据多头注意力向量，生成目标特征生成单元对应的目标语音特征；目标特征生成单元为时长特征生成单元、韵律特征生成单元以及高音特征生成单元中的任意一个。

作为一种可选的实施方式，特征提取单元，还用于将音素向量作为输入到第一层神经网络的目标特征向量，通过当前层的神经网络对输入的目标特征向量进行多头注意力计算，得到多个注意力向量，并对多个注意力向量进行拼接，得到当前层的神经网络对应的多头注意力向量；对多头注意力向量进行残差连接处理及第一归一化处理，得到第一特征向量；对第一特征向量进行残差连接处理及前向传播，得到第二特征向量；对第二特征向量进行第二归一化处理，得到目标特征向量；将目标特征向量输入至下一层的神经网络，并将下一层的神经网络作为新的当前层的神经网络，重新执行通过当前层的神经网络对输入的目标特征向量进行多头注意力计算，得到多个注意力向量的步骤，直至当前层的神经网络为最后一层神经网络；以及用于将最后一层神经网络输出的目标特征向量确定为目标特征生成单元对应的目标语音特征。

作为一种可选的实施方式，优化模块701还用于通过后端模块根据至少一种语音特征及初始频谱向量分别对应的权重值，对至少一种语音特征及初始频谱向量进行加权融合，得到目标频谱向量。

作为一种可选的实施方式，语音合成装置700还包括样本获取模块、切分模块及训练模块。

样本获取模块，用于获取样本音素序列集合，样本音素序列集合包括多个样本音素序列；

切分模块，用于对每个样本音素序列进行音素切分，得到音素时长序列、音素间隔序列以及频谱序列；

训练模块，用于将样本音素序列及对应的音素时长序列、音素间隔序列以及频谱序列输入待训练的语音模型，通过待训练的语音模型的前端模块根据输入的样本音素序列确定预测时长特征、预测韵律特征以及预测高音特征，根据预测时长特征及输入的音素时长序列之间的第一误差、预测韵律特征及输入的音素间隔序列之间的第二误差、预测高音特征与输入的频谱序列之间的第三误差调整待训练的语音模型的模型参数，以得到训练后的目标特征生成单元。

在本申请实施例中，根据原始文本的语音特征对原始文本对应的目标频谱向量进行优化，再根据目标频谱向量生成目标语音，能够对目标的语音的音素进行自动调整，同时也提高了目标语音的自然度和流畅度。

请参阅图8，图8是本申请实施例公开的一种电子设备的结构示意图。如图8所示，该电子设备800可以包括：

存储有可执行程序代码的存储器801；

与存储器801耦合的处理器802；

其中，处理器802调用存储器801中存储的可执行程序代码，执行本申请实施例公开的任一种语音合成方法。

本申请实施例公开一种计算机可读存储介质，其存储计算机程序，其中，计算机程序被所述处理器执行时，使得所述处理器实现本申请实施例公开的任意一种语音合成方法。

应理解，说明书通篇中提到的“一个实施例”或“一实施例”意味着与实施例有关的特定特征、结构或特性包括在本申请的至少一个实施例中。因此，在整个说明书各处出现的“在一个实施例中”或“在一实施例中”未必一定指相同的实施例。此外，这些特定特征、结构或特性可以以任意适合的方式结合在一个或多个实施例中。本领域技术人员也应该知悉，说明书中所描述的实施例均属于可选实施例，所涉及的动作和模块并不一定是本申请所必须的。

在本申请的各种实施例中，应理解，上述各过程的序号的大小并不意味着执行顺序的必然先后，各过程的执行顺序应以其功能和内在逻辑确定，而不应对本申请实施例的实施过程构成任何限定。

上述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物单元，即可位于一个地方，或者也可以分布到多个网络单元上。可根据实际的需要选择其中的部分或全部单元来实现本实施例方案的目的。

另外，在本申请各实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

上述集成的单元若以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可获取的存储器中。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或者部分，可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储器中，包括若干请求用以使得一台计算机设备(可以为个人计算机、服务器或者网络设备等，具体可以是计算机设备中的处理器)执行本申请的各个实施例上述方法的部分或全部步骤。

本领域普通技术人员可以理解上述实施例的各种方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成，该程序可以存储于一计算机可读存储介质中，存储介质包括只读存储器(Read-Only Memory，ROM)、随机存储器(Random Access Memory，RAM)、可编程只读存储器(Programmable Read-only Memory，PROM)、可擦除可编程只读存储器(Erasable Programmable Read Only Memory，EPROM)、一次可编程只读存储器(One-time Programmable Read-Only Memory，OTPROM)、电子抹除式可复写只读存储器(Electrically-Erasable Programmable Read-Only Memory，EEPROM)、只读光盘(CompactDisc Read-Only Memory，CD-ROM)或其他光盘存储器、磁盘存储器、磁带存储器、或者能够用于携带或存储数据的计算机可读的任何其他介质。

以上对本申请实施例公开的一种语音合成方法、装置、电子设备及存储介质进行了详细介绍，本文中应用了具体个例对本申请的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本申请的方法及其核心思想。同时，对于本领域的一般技术人员，依据本申请的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本申请的限制。

Claims

1.一种语音合成方法，其特征在于，所述方法包括：

获取原始文本；

通过训练得到的语音模型提取所述原始文本的语音特征，并根据所述语音特征对所述原始文本对应的初始频谱向量进行优化，得到目标频谱向量；其中，所述语音模型包括前端模块、语音合成TTS模型及后端模块，所述前端模块用于基于多头注意力机制提取所述原始文本对应的至少一种语音特征，所述语音合成TTS模型用于生成所述原始文本对应的初始频谱向量，所述后端模块用于将所述至少一种语音特征及所述初始频谱向量进行融合，得到目标频谱向量；

根据所述目标频谱向量生成目标语音。

2.根据权利要求1所述的方法，其特征在于，在所述通过训练得到的语音模型提取所述原始文本的语音特征之前，所述方法还包括：

3.根据权利要求2所述的方法，其特征在于，所述原始文本对应的至少一种语音特征，包括：时长特征、韵律特征以及高音特征中的一种或多种，所述时长特征用于指示所述原始文本的每个音素进行发音时所需的时间长度，所述韵律特征用于指示所述原始文本的相邻两个音素进行发音时的时间间隔，所述高音特征用于指示所述原始文本的每个音素进行发音时声波的频率。

4.根据权利要求3所述的方法，其特征在于，所述前端模块包括时长特征生成单元、韵律特征生成单元以及高音特征生成单元，所述时长特征生成单元用于提取时长特征，所述韵律特征生成单元用于提取韵律特征，所述高音特征生成单元用于提取高音特征；所述基于多头注意力机制提取所述原始文本对应的语音特征，包括：

根据所述音素序列生成音素向量；

5.根据权利要求4所述的方法，其特征在于，所述目标特征生成模块包括多层神经网络；所述基于多头注意力机制，通过目标特征生成单元对所述音素向量进行多头注意力计算，得到多个注意力向量，对所述多个注意力向量进行拼接，得到多头注意力向量，并根据所述多头注意力向量，生成所述目标特征生成单元对应的目标语音特征，包括：

6.根据权利要求1～5任一项所述的方法，其特征在于，所述将所述至少一种语音特征及所述初始频谱向量进行融合，得到目标频谱向量，包括：

7.根据权利要求1～5任一项所述的方法，在所述获取原始文本之前，所述方法还包括：

8.一种语音合成装置，其特征在于，包括：

获取模块，用于获取原始文本；

优化模块，用于通过训练得到的语音模型提取所述原始文本的语音特征，并根据所述语音特征对所述原始文本对应的初始频谱向量进行优化，得到目标频谱向量；其中，所述语音模型包括前端模块、语音合成TTS模型及后端模块，所述前端模块用于基于多头注意力机制提取所述原始文本对应的至少一种语音特征，所述语音合成TTS模型用于生成所述原始文本对应的初始频谱向量，所述后端模块用于将所述至少一种语音特征及所述初始频谱向量进行融合，得到目标频谱向量；

生成模块，用于根据所述目标频谱向量生成目标语音。

9.一种电子设备，其特征在于，包括存储器及处理器，所述存储器中存储有计算机程序，所述计算机程序被所述处理器执行时，使得所述处理器实现如权利要求1至7任一所述的方法。

10.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1至7任一所述的方法。