CN116110369A

CN116110369A - 一种语音合成方法和装置

Info

Publication number: CN116110369A
Application number: CN202310078716.2A
Authority: CN
Inventors: 樊冯飞; 姚树杰; 赵言; 先永春
Original assignee: Dingfu New Power Beijing Intelligent Technology Co ltd
Current assignee: Dingfu New Power Beijing Intelligent Technology Co ltd
Priority date: 2023-01-17
Filing date: 2023-01-17
Publication date: 2023-05-12

Abstract

本申请提供了一种语音合成方法和装置，能够提升合成的语音的拟人化程度，使得合成的语音情感丰富。该方法包括：获取与训练文本对应的训练音频及标准的梅尔频谱；根据训练文本和训练音频，提取训练音频中每个音素的标准的语音特征；根据训练文本和训练音频，确定训练文本的情感标签序列，情感标签序列包含的数字表征训练文本中相应位置的文字是否用于表达情感；根据标准的梅尔频谱、标准的语音特征、情感标签序列、训练文本对应的音素标识序列和说话人的标识，确定训练数据；基于训练数据训练语音合成模型，使得语音合成模型学习到每个音素的语音特征，以及每个文字的情感特征；根据目标文本和训练好的语音合成模型，确定目标文本对应的合成语音。

Description

一种语音合成方法和装置

技术领域

本申请涉及自然语言处理技术领域，尤其涉及一种语音合成方法和装置。

背景技术

语音合成(Speech Synthesis)，又称文语转换技术是指计算机通过分析将任意文本转化为流畅语音的技术。语音合成作为实现人机语音交互系统的核心技术之一，是语音处理技术中一个重要的方向，其应用价值越来越受到重视。

目前的语音合成技术中根据文本生成的语音，虽然在音色和音调上接近录音者，且流利通畅，但是让人听起来非常正式和官方，缺乏情感。而日常生活中人们进行交流的时候蕴含情感的表现例如，文本“嗯，我还没想好”，通常在说“嗯”的时候会发生拖音的现象，表示思索中、犹豫等情感。相似地，还有文本“呃，我想想”中的“呃”也会发生拖音的现象，表示思索中。又例如，“哦，我看好你呦”中的“哦”会发生音调变化的现象表示朋友间愉悦的情感。但是目前的语音合成技术无法合成体现情感的语音，导致生成的语音拟人化程度较低，缺乏情感。例如，目前的语音合成技术针对文本“嗯，我还没想好”中的“嗯”的读音只是普通的发音，没有体现出人的思索中、犹豫等情感。

因此，如何提升合成的语音的拟人化程度，使得合成的语音情感丰富成为亟待解决的问题。

发明内容

本申请提供了一种语音合成方法和装置，能够提升合成的语音的拟人化程度，使得合成的语音情感丰富。

第一方面，提供了一种语音合成方法，包括：

获取说话人根据训练文本录制的训练音频，以及训练音频对应的标准的梅尔频谱；

根据训练文本和训练音频，提取训练音频中每个音素的标准的语音特征，语音特征包括音长、音高和能量中的一种或多种；

根据训练文本和训练音频，确定训练文本的情感标签序列，情感标签序列包含与训练文本的文字数量相同的数字，每一数字表征训练文本中相应位置的文字是否用于表达情感；

根据标准的梅尔频谱、标准的语音特征、情感标签序列、训练文本对应的音素标识序列和说话人的标识，确定训练数据；

基于训练数据训练语音合成模型，使得语音合成模型学习说话人录制的训练文本中每个音素的语音特征，以及每个文字的情感特征，根据语音合成模型预测的梅尔频谱与标准的梅尔频谱之间的误差计算损失，根据语音合成模型预测的每个音素的语音特征与对应的标准的语音特征计算损失，直到语音合成模型收敛，得到训练好的语音合成模型；

根据目标文本和训练好的语音合成模型，确定目标文本对应的合成语音。

在一个示例中，语音合成模型包括情感标签序列嵌入层、音素标识序列嵌入层、说话人标识嵌入层、编码层、拼接层、方差适配器和梅尔频谱解码器，其中，基于训练数据训练语音合成模型，包括：

向情感标签序列嵌入层输入情感标签序列，以获取情感标签序列的向量矩阵；

向音素标识序列嵌入层输入音素标识序列，以获取音素标识序列的向量矩阵；

向说话人标识嵌入层输入说话人的标识，以获取说话人的标识的向量矩阵；

使用编码层提取音素标识序列的向量矩阵的隐藏特征，以获取音素标识序列的特征向量矩阵；

使用拼接层将音素标识序列的特征向量矩阵和说话人的标识的向量矩阵，进行拼接处理，得到拼接向量矩阵；

使用方差适配器根据情感标签序列的向量矩阵和拼接向量矩阵，预测每个音素的语音特征和情感特征；

使用梅尔频谱解码器根据预测结果实现并行解码，预测训练音频的梅尔频谱。

在一个示例中，根据目标文本和训练好的语音合成模型，确定目标文本对应的合成语音，包括：

对目标文本进行预处理，以获取只包含文字的目标文本；

根据目标文本确定目标文本的情感标签序列；

获取目标文本对应的音素标识序列；

向语音合成模型输入目标文本的情感标签序列、目标文本对应的音素标识序列和说话人标识，以获取梅尔频谱解码器预测的目标文本的梅尔频谱；

使用声码器将目标文本的梅尔频谱映射为声音波形，以获取目标文本对应的合成语音。

在一个示例中，在根据目标文本确定目标文本的情感标签序列之前，方法还包括：

获取说话人录制训练音频时的至少一种呼吸音；

获取至少一种呼吸音中每一呼吸音的梅尔频谱；

对目标文本按照标点符号或者韵律进行分割处理，获取多个断句。

在一个示例中，根据目标文本确定目标文本的情感标签序列；获取目标文本对应的音素标识序列；向语音合成模型输入目标文本的情感标签序列、目标文本对应的音素标识序列和说话人标识，以获取梅尔频谱解码器预测的目标文本的梅尔频谱，使用声码器将目标文本的梅尔频谱映射为声音波形，以获取目标文本对应的合成语音，包括：

根据每一断句确定每一断句的情感标签序列；

获取每一断句对应的音素标识序列；

向语音合成模型输入每一断句的情感标签序列、每一断句对应的音素标识序列和说话人标识，以获取梅尔频谱解码器预测的每一断句的梅尔频谱；

将每一断句的梅尔频谱按照顺序进行拼接，并在两个断句的梅尔频谱之间插入第一呼吸音的梅尔频谱，以获取目标梅尔频谱，第一呼吸音属于至少一种呼吸音；

使用声码器将目标梅尔频谱映射为声音波形，以获取目标文本对应的合成语音，合成语音包含至少一种呼吸音中的呼吸音。

在一个示例中，根据每一断句确定每一断句的情感标签序列，包括：

基于训练文本和训练文本对应的情感标签序列，训练分类模型，使得分类模型学习训练文本中用于表达情感的关键文字的特征，以对文字进行分类的方式预测训练文本中每个文字是否用于表达情感；

向分类模型输入每一断句，获取分类模型输出的分类结果，分类结果即每一断句的情感标签序列。

在一个示例中，分类模型采用基于Transformer的双向编码器表示算法。

在一个示例中，用于表达情感的方式为说话人对文字进行拖音。

在一个示例中，根据标准的梅尔频谱、标准的语音特征、情感标签序列、训练文本对应的音素标识序列和说话人的标识，确定训练数据，包括：

若情感标签序列包含表征说话人对文字进行拖音的数字，获取说话人根据训练文本录制的未拖音训练音频，未拖音训练音频中对进行拖音的数字对应的文字未进行拖音；

获取未拖音训练音频对应的标准的梅尔频谱；

根据训练文本和未拖音训练音频，提取未拖音训练音频中每个音素的标准的语音特征；

根据训练文本和未拖音训练音频，确定未拖音训练音频对应的情感标签序列；

根据训练音频对应的标准的梅尔频谱、未拖音训练音频对应的标准的梅尔频谱、训练音频中每个音素的标准的语音特征、未拖音训练音频中每个音素的标准的语音特征、训练文本的情感标签序列、未拖音训练音频对应的情感标签序列、训练文本对应的音素标识序列和说话人的标识，确定训练数据。

第二方面，提供了一种语音合成装置，包括：

数据获取模块，用于获取说话人根据训练文本录制的训练音频，以及训练音频对应的标准的梅尔频谱；

语音特征获取模块，用于根据训练文本和训练音频，提取训练音频中每个音素的标准的语音特征，语音特征包括音长、音高和能量中的一种或多种；

情感标签序列获取模块，用于根据训练文本和训练音频，确定训练文本的情感标签序列，情感标签序列包含与训练文本的文字数量相同的数字，每一数字表征训练文本中相应位置的文字是否用于表达情感；

训练数据获取模块，用于根据标准的梅尔频谱、标准的语音特征、情感标签序列、训练文本对应的音素标识序列和说话人的标识，确定训练数据；

语音合成模型训练模块，用于基于训练数据训练语音合成模型，使得语音合成模型学习说话人录制的训练文本中每个音素的语音特征，以及每个文字的情感特征，根据语音合成模型预测的梅尔频谱与标准的梅尔频谱之间的误差计算损失，根据语音合成模型预测的每个音素的语音特征与对应的标准的语音特征计算损失，直到语音合成模型收敛，得到训练好的语音合成模型；

语音合成模块，用于根据目标文本和训练好的语音合成模型，确定目标文本对应的合成语音。

本申请上述实施例中，首先确定训练数据，训练数据包括标准的梅尔频谱、标准的语音特征、情感标签序列、训练文本对应的音素标识序列和说话人的标识。其中，训练音频对应的标准的梅尔频谱用于语音合成模型计算与预测的梅尔频谱之间的损失。标准的语音特征是根据训练文本和训练音频，提取的训练音频中每个音素的标准的语音特征，用于语音合成模型计算预测的每个音素的语音特征与对应的标准的语音特征计算损失。利用这两个损失使得语音合成模型收敛，并学习根据音素的语音特征合成梅尔频谱。情感标签序列用于语音合成模型学习情感特征(情感特征包括用于表达情感的文字的特征、用于表达情感的文字所属的语句的特征、不用于表达情感的文字的特征和不用于表达情感的文字所属的语句的特征)。训练文本对应的音素标识序列用于语音合成模型预测每个音素的语音特征。说话人的标识用于语音合成模型建立说话人与语音特征、情感特征的对应关系。语音合成模型根据上述训练数据能够学习到说话人的语音特征以及情感特征，因此使用该语音合成模型根据目标文本合成的语音蕴含了情感，提升了合成的语音的拟人化效果。

附图说明

为了更清楚地说明本申请的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，显而易见地，对于本领域普通技术人员而言，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本申请实施例提供的一例语音合成方法示意性流程图；

图2是本申请实施例提供的一例语音合成的系统框架示意图；

图3是本申请实施例提供的一例用于训练语音合成模型的训练数据的结构示意图；

图4是本申请实施例提供的再一例用于训练语音合成模型的训练数据的结构示意图；

图5是本申请实施例提供的一例训练拼音文本的内容示意图；

图6是本申请实施例提供的又一例用于训练语音合成模型的训练数据的结构示意图；

图7是本申请实施例提供的一例语音合成模型框架示意图；

图8是本申请实施例提供的一例方差适配器框架示意图；

图9是本申请实施例提供的再一例语音合成的系统框架示意图。

具体实施方式

下面详细描述本申请的实施例，所述实施例的示例在附图中示出，其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的，仅用于解释本申请，而不能解释为对本申请的限制。需要说明的是，在不冲突的情况下，本申请中的实施例及实施例中的特征可以相互组合。

本技术领域技术人员可以理解，除非特意声明，这里使用的单数形式“一”、“一个”、“所述”和“该”也可包括复数形式。应该进一步理解的是，本申请的说明书中使用的措辞“包括”是指存在所述特征、整数、步骤、操作、元件和/或组件，但是并不排除存在或添加一个或多个其他特征、整数、步骤、操作、元件、组件和/或它们的组。应该理解，当我们称元件被“连接”或“耦接”到另一元件时，它可以直接连接或耦接到其他元件，或者也可以存在中间元件。此外，这里使用的“连接”或“耦接”可以包括无线连接或无线耦接。这里使用的措辞“和/或”包括一个或更多个相关联的列出项的全部或任一单元和全部组合。

为了便于理解本申请中的方案，以下对一些技术概念进行简单介绍：

音长(duration)：音长表示声波振动持续时间的长短，其由发音体振动时持续时间的长短决定，振动时间越长声波就越长。

音高(pitch)：有时候又称音调，音高的高低是由声波振动频率的高低决定，振动频率越高则音高越高。在汉语里，汉字的声调和语句的语调主要是由音高决定。

能量(energy)：是声音的音强的表现方式，表示声音的强弱。声音的能量在汉语里有区别词义的作用和一定的语法作用，比如决定了轻声、重音的区别意义。

汉语由于其特殊的复杂性，具有语法结构、语法规则、声学特性、韵律结构等多方面特征。在汉语里，一个音节一般就是一个汉字，声调是音节结构中不可或缺的组成部分，通常用声调来表示一个音节发音时的高低升降。声调的形成除了主要由音高变化决定外，还表现在音长变化上。在发音过程中，发音体可随时调整音高和音长的变化，这样就会形成了不同的声调。声调担负着重要的辨义作用，例如通过声调来区别汉语语音中“题材”和“体裁”、“练习”和“联系”等等的词语意义。在汉语里，连续语句的发音中间还会出现停顿，语句中的不同字会根据上下语义而采用轻音或重音。汉语的这些语法结构、语法规则、声学特性、韵律结构共同形成了汉语在语音上的抑扬顿挫、语气侧重、语气感情和韵律节奏。

在人们日常交流中，出于发音习惯或者表达情感的目的，通常在某些文字的发音上进行拖音处理，表示思索中、犹豫等情感，或者对于某一个文字的发音通过变化音调来表达某些情感。然而，人们对于合成语音的情感需求渐渐提高，例如，在使用智能语音客服或者智能语音助手时，希望智能语音客服或者智能语音助手合成的语音具有情感。目前的语音合成技术合成的语音的发音让人听起来是官方且正式的，不具有情感，拟人化程度低，无法满足人们的精神需求。

为了解决上述问题，本申请提供了一种语音合成方法和用于语音合成的系统框架，下面结合图1和图2对该方法进行说明，该方法包括：

S110，获取说话人根据训练文本录制的训练音频，以及训练音频对应的标准的梅尔频谱。

应理解，训练文本可以包括一条语句，也可以包括多条语句，训练音频中的每条语音和训练文本中的语句一一对应。例如图3所示，其中3条语句分别对应3条录制的音频，3条语句分别是“spk_001、spk_002、spk_003”，相对应地，3条音频分别是“spk_001.wav、spk_002.wav、spk_003.wav”。

需要说明的是，上述说话人既可以指一个说话人也可以指多个说话人。如图4所示，当有多个说话人时(例如speaker01、speaker02和speaker03)，每个说话人都根据训练文本录制了训练音频，具体数据结构参见图4内容所示。应理解，本申请中的实施例既适用于一个说话人，也适用于多个说话人。

S120，根据训练文本和训练音频，提取训练音频中每个音素的标准的语音特征。

其中，语音特征包括音长、音高和能量中的一种或多种。

在一个示例中，首先将训练文本进行拼音化处理，获取训练拼音文本。然后使用蒙特利尔强制对准器(Montreal Forced Aligner，MFA)算法，根据训练拼音文本和对应的训练音频，对训练音频中的每个音素的时长进行预测，以标记出音素在语音中的起止时刻，便于根据每个音素对应的时刻提取每个音素对应的音帧片段。接着根据每个音素对应的音帧片段，提取每个音素的音长、音高或能量特征。

示例性地，根据训练拼音文本和对应的训练音频，对训练音频中的每个音素的时长进行预测，包括：

获取训练拼音文本和对应的训练音频中的部分数据，将该部分数据作为MFA的时长提取模型的训练数据来训练时长提取模型。然后向MFA输入训练拼音文本和对应的训练音频，使得时长提取模型能够对训练音频中的每个音素的时长进行准确地预测。

向MFA输入训练拼音文本和对应的训练音频，使用MFA内置的时长提取模型直接对训练音频中的每个音素的时长进行预测。该示例的方案速度较快。

其中，训练拼音文本的内容如图5所示，由每个文字的拼音和韵律标签组成。拼音化处理后的语音数据结构如图6所示，可以看出，在图6中，每个说话人文件夹下，都没有了“labels.txt”文件，但却多出了“spk_00*.lab”文件，该文件为对应的语音的拼音文本内容。

具体地，根据公式(1)提取音素的音高pitch特征：

其中，s_i是一个音帧中的第i个音频的采样点的值，而n则是每个音帧包含的采样点数。median为所有采样点的值其中位数。

根据公式(2)提取音素的能量energy特征：

注意，这里的音高特征和能量特征是按照每个音素进行提取的，即，每个音素会对应出一个音高和能量。

根据公式(3)提取各个音素的音长duration特征。

duration＝(P_e-P_s)*sample_rate*hop_size 公式(3)

其中，P_e为一个音素的结束时间，P_s为该音素的开始时间，这两个时间可以通过MFA生成的语音时长文件获取。sample_rate表示语音音频的采样频率(本实施例以采样率24kHz为例)，hop_size表示语音的两个相邻的采样窗口之间错开的采样数。注意，每条语音的音长特征数量和该语音的音素数量应该是保持一致的。

进一步示例性地，根据每个音素的音高特征计算出音高的状态特征，根据每个音素的能量特征计算出能量的状态特征，以便于语音合成模型使用音高的状态特征对预测的音高进行规范，或者以便于语音合成模型使用能量的状态特征对预测的能量进行规范。

具体地，根据公式(4)计算出音高的状态特征数据，即:

其中，pitch_min表示音高的最小值，pitch_max表示音高的最大值，pitch_mean表示平均值，pitch_std表示标准差。

同理，根据公式(5)计算能量的状态特征数据如下：

其中，energy_min表示能量的最小值，energy_max表示音高的最大值，energy_mean表示平均值，energy_std表示标准差。

上述方式中，使用MFA算法能够准确快速地对训练音频中的每个音素的时长进行预测。

S130，根据训练文本和训练音频，确定训练文本的情感标签序列。

情感标签序列包含与训练文本的文字数量相同的数字，每一数字表征训练文本中相应位置的文字是否用于表达情感。

具体地，根据训练音频中每个文字的发音，确定每个文字是否用于表达情感。根据每个文字是否用于表达情感，确定相应位置的情感标签序列中的数字的值。

在一个示例中，用于表达情感的方式为说话人对文字进行拖音，或做其他特殊的发音处理，来进行情感的表达，该特殊的发音处理使得文字的读音在音调或者时长上与该文字的官方读音不同。

例如，训练文本为“哦，我想好了再告诉你”，说话人录制的训练音频中对“哦”进行了拖音，其他文字没有进行拖音。因此，训练文本的情感标签序列为“100000000”，其中标签“1”表示训练文本相应位置的文字“哦”进行了拖音，标签“0”表示训练文本相应位置的文字没有进行拖音。训练文本的情感标签序列以后缀名为“.tyb”的文件存储，如图6中所示的数据结构所示。

又例如，训练文本为“哦，我看好你呦”，说话人录制的训练音频中在“哦”字和“呦”字分别进行了特殊的发音。其中，“哦”字进行了音调变化处理，先读了四声接着转变成了二声，来表达愉悦的情感。“呦”的读音为轻声“you”，但是说话人在此语句中的“呦”读作了一声并且进行了语气加重的处理，来表达希冀或者鼓励的情感。

S140，根据标准的梅尔频谱、标准的语音特征、情感标签序列、训练文本对应的音素标识序列和说话人的标识，确定训练数据。

应理解，训练数据中，训练音频的标准的梅尔频谱、标准的语音特征、训练文本对应的情感标签序列、训练文本对应的音素标识序列和说话人的标识均是对应的。其中，不同的说话人的标识不同。

其中，获取训练文本对应的音素标识序列的方式包括：

获取第一关联关系，第一关联关系用于关联音素和标识。然后根据训练拼音文本确定训练文本的音素，接着结合第一关联关系确定训练文本对应的音素标识序列。

示例性地，第一关联关系如表一所示：

表一

音素	标识(ID)
		a1	2
a2	3
		a3	4
…	…

如表一所示，音素“a1”对应的ID为“2”，“a1”中的“1”表示声调，其他音素与标识的映射关系参见表一，本申请在此不再赘述。

在一个示例中，根据标准的梅尔频谱、标准的语音特征、情感标签序列、训练文本对应的音素标识序列和说话人的标识，确定训练数据，包括：若情感标签序列包含表征说话人对文字进行拖音的数字，首先获取说话人根据训练文本录制的未拖音训练音频，未拖音训练音频中对所述进行拖音的数字对应的文字未进行拖音。获取未拖音训练音频对应的标准的梅尔频谱。接着根据训练文本和未拖音训练音频，提取未拖音训练音频中每个音素的标准的语音特征。根据训练文本和未拖音训练音频，确定未拖音训练音频对应的情感标签序列。然后根据训练音频对应的标准的梅尔频谱、未拖音训练音频对应的标准的梅尔频谱、训练音频中每个音素的标准的语音特征、未拖音训练音频中每个音素的标准的语音特征、训练文本的情感标签序列、未拖音训练音频对应的情感标签序列、训练文本对应的音素标识序列和说话人的标识，确定训练数据。

考虑到发音特殊的文字也会有正常发音的情况，若情感标签序列包含表征说话人对文字进行拖音的数字，即训练音频中对该文字进行了拖音，上述方式中为了使得训练数据更加全面，以便于语音合成模型能够学习到进行了拖音的该文字不拖音时的发音特征，还需使说话人根据该训练文本再次录制对该文字均未进行拖音的未拖音训练音频。接着获取未拖音训练音频对应的标准的梅尔频谱、未拖音训练音频中每个音素的标准的语音特征和未拖音训练音频对应的情感标签序列(即该训练文本对应的情感标签序列)。然后将上述数据同样作为训练数据参与后续语音合成模型的训练，使得语音合成模型能够准确全面地学习文字的发音特征。

S150，基于训练数据训练语音合成模型，以得到训练好的语音合成模型。

具体地，基于训练数据训练语音合成模型，使得语音合成模型学习说话人录制的训练文本中每个音素的语音特征，以及每个文字的情感特征，根据语音合成模型预测的梅尔频谱与标准的梅尔频谱之间的误差计算损失，根据语音合成模型预测的每个音素的语音特征与对应的标准的语音特征计算损失，直到语音合成模型收敛，得到训练好的语音合成模型。

其中，每个文字的情感特征包括“无情感表示”和“有情感表示”，其中“有情感表示”可以是对文字进行拖音处理、变化音调处理等其他使文字的发音与机械化地只按照汉语拼音进行发音不同的处理。

在一个示例中，如图7所示，语音合成模型包括情感标签序列嵌入层、音素标识序列嵌入层、说话人标识嵌入层、编码层、拼接层、方差适配器和梅尔频谱解码器，其中，基于训练数据训练语音合成模型，包括：

首先向情感标签序列嵌入层输入情感标签序列，以获取情感标签序列的向量矩阵；向音素标识序列嵌入层输入音素标识序列，以获取音素标识序列的向量矩阵；向说话人标识嵌入层输入说话人的标识，以获取说话人的标识的向量矩阵。接着使用编码层提取音素标识序列的向量矩阵的特征，以获取音素标识序列的特征向量矩阵。使用拼接层将音素标识序列的特征向量矩阵和说话人的标识的向量矩阵，进行拼接处理，得到拼接向量矩阵。使用方差适配器根据情感标签序列的向量矩阵和拼接向量矩阵，预测每个音素的语音特征和情感特征。使用梅尔频谱解码器根据预测结果实现并行解码，预测训练音频的梅尔频谱。

其中，情感标签序列嵌入层用于将情感标签序列转化为高维度数据，音素标识序列嵌入层用于将音素标识序列转化为高维度数据，说话人标识嵌入层用于将说话人的标识转化为高纬度数据。编码层用于提取音素标识序列的向量矩阵的隐藏特征。

图7中的位置编码，用于构造一个与方差适配器的输出维度一样的矩阵，然后跟该与方差适配器的输出维度一样的矩阵相加得到采用了multi-headattention(多头注意力机制)的梅尔解码器输入。

如图8所示，方差适配器包括音高预测模块、能量预测模块和音长预测模块。

上述方式提供的语音合成模型，通过情感标签序列嵌入层对情感标签序列编码，获取情感标签序列的向量矩阵，以便于方差适配器通过情感标签序列的向量矩阵，提取文字的情感特征。通过音素标识序列的向量矩阵对音素标识序列编码，获取音素标识序列的向量矩阵，以便于方差适配器通过音素标识序列的向量矩阵提取每个文字对应的音素的语音特征。通过说话人标识嵌入层，获取说话人的标识的向量矩阵，以便于方差适配器通过说话人的标识的向量矩阵，建立说话人与语音特征、情感特征的联系。

S160，根据目标文本和训练好的语音合成模型，确定目标文本对应的合成语音。

在一个示例中，如图9所示，本申请还提供了一种系统框架，根据目标文本和训练好的语音合成模型，确定目标文本对应的合成语音，包括：

首先对目标文本进行预处理，以获取只包含文字的目标文本。接着根据目标文本确定目标文本的情感标签序列。获取目标文本对应的音素标识序列。然后向语音合成模型输入目标文本的情感标签序列、目标文本对应的音素标识序列和说话人标识，以获取梅尔频谱解码器预测的目标文本的梅尔频谱。使用声码器将目标文本的梅尔频谱映射为声音波形，以获取目标文本对应的合成语音。

示例性地，对目标文本进行预处理包括删除目标文本中除文字以外的符号。

在一个示例中，如图9所示，根据目标文本确定目标文本的情感标签序列的方式包括：首先基于训练文本和训练文本对应的情感标签序列，训练分类模型，使得分类模型学习训练文本中用于表达情感的关键文字的特征，以对文字进行分类的方式预测训练文本中每个文字是否用于表达情感；然后向分类模型输入目标文本，获取分类模型输出的分类结果，分类结果即目标文本的情感标签序列。

示例性地，分类模型采用基于Transformer的双向编码器表示算法。

上述方式中，对目标文本进行预处理，以获取只包含文字的目标文本，以便于分类模型能够不受非文字符号的干扰，准确地根据目标文本中的文字生成目标文本的情感标签序列。

在一个示例中，如图9所示，在根据目标文本确定目标文本的情感标签序列之前，方法还包括：首先获取说话人录制训练音频时的至少一种呼吸音。接着获取至少一种呼吸音中每一呼吸音的梅尔频谱，然后对目标文本按照标点符号或者韵律进行分割处理，获取多个断句。

应理解，“呼吸音”也可称为“换气音”，人在阅读文本的时候，会随机地在标点符号的地方进行换气，从而更顺畅地进行后续文本的阅读。

例如：“在该阶段中的文本预处理中，对文本进行分段处理，即通过输入文本的断句形式，进行后续的换气音插入，比如说。”这句话，可以有5处断句情况(最后的话语末尾也认为是断句)，这时，在预处理阶段，会随机选择n处进行断句(n<5)，例如在第一个逗号和第三个逗号处对上述文本进行分割，获取3个断句，依次为“在该阶段中的文本预处理中，”“对文本进行分段处理，即通过输入文本的断句形式，”“进行后续的换气音插入，比如说。”

根据每一断句确定每一断句的情感标签序列；

获取每一断句对应的音素标识序列；

示例性地，不同组的两个断句的梅尔频谱之间插入不同的第一呼吸音的梅尔频谱，其中每组的两个断句之间的第一呼吸音是从至少一种呼吸音中随机选择的一个呼吸音，能够保证合成语音的呼吸音多样化。

例如，第一个断句“在该阶段中的文本预处理中，”和第二个断句“对文本进行分段处理，即通过输入文本的断句形式，”之间插入的第一呼吸音为从至少一种呼吸音中随机选择的呼吸音#1，然后从至少一种呼吸音中排除呼吸音#1后，再随机选择一个呼吸音(即呼吸音#2)插入第二个断句“对文本进行分段处理，即通过输入文本的断句形式，”和第三个断句“进行后续的换气音插入，比如说。”之间。

本申请为了提升合成的语音的拟人化程度，在两个断句的梅尔频谱之间插入呼吸音的梅尔频谱，使得声码器根据目标梅尔频谱生成的合成语音中包括呼吸音，还可能会包括“拖音”，这样使得合成语音具备的拟人化的效果更加丰富。

在一个示例中，根据每一断句确定每一断句的情感标签序列，包括：首先基于训练文本和训练文本对应的情感标签序列，训练分类模型，使得分类模型学习训练文本中用于表达情感的关键文字的特征，以对文字进行分类的方式预测训练文本中每个文字是否用于表达情感。然后向分类模型输入每一断句，获取分类模型输出的分类结果，分类结果即每一断句的情感标签序列。

上述方式中，对每个断句进行预处理，以获取只包含文字的断句，以便于分类模型能够不受非文字符号的干扰，准确地根据断句的文字生成断句的情感标签序列。

由上述实施例可知，本申请首先确定训练数据，训练数据包括标准的梅尔频谱、标准的语音特征、情感标签序列、训练文本对应的音素标识序列和说话人的标识。其中，训练音频对应的标准的梅尔频谱用于语音合成模型计算与预测的梅尔频谱之间的损失。标准的语音特征是根据训练文本和训练音频，提取的训练音频中每个音素的标准的语音特征，用于语音合成模型计算预测的每个音素的语音特征与对应的标准的语音特征计算损失。利用这两个损失使得语音合成模型收敛，并学习根据音素的语音特征合成梅尔频谱。情感标签序列用于语音合成模型学习情感特征(情感特征包括用于表达情感的文字的特征、用于表达情感的文字所属的语句的特征、不用于表达情感的文字的特征和不用于表达情感的文字所属的语句的特征)。训练文本对应的音素标识序列用于语音合成模型预测每个音素的语音特征。说话人的标识用于语音合成模型建立说话人与语音特征、情感特征的对应关系。语音合成模型根据上述训练数据能够学习到说话人的语音特征以及情感特征，因此使用该语音合成模型根据目标文本合成的语音蕴含了情感，提升了合成的语音的拟人化效果。

在上述语音合成方法的基础上，本申请还提供了一种语音合成装置，包括：

在一个示例中，语音合成模型包括情感标签序列嵌入层、音素标识序列嵌入层、说话人标识嵌入层、编码层、拼接层、方差适配器和梅尔频谱解码器，其中情感标签序列嵌入层用于根据情感标签序列，获取情感标签序列的向量矩阵；音素标识序列嵌入层用于根据音素标识序列，获取音素标识序列的向量矩阵；说话人标识嵌入层用于根据说话人的标识，获取说话人的标识的向量矩阵；编码层用于提取音素标识序列的向量矩阵的特征，以获取音素标识序列的特征向量矩阵；拼接层用于将音素标识序列的特征向量矩阵和说话人的标识的向量矩阵，进行拼接处理，得到拼接向量矩阵；方差适配器用于根据情感标签序列的向量矩阵和拼接向量矩阵，预测每个音素的语音特征和情感特征；梅尔频谱解码器用于根据预测结果实现并行解码，预测训练音频的梅尔频谱。

在一个示例中，语音合成模块还包括：

预处理子模块，用于对目标文本进行预处理，以获取只包含文字的目标文本；

目标文本的情感标签序列获取子模块，用于根据目标文本确定目标文本的情感标签序列；

音素标识序列获取子模块，用于获取目标文本对应的音素标识序列；

语音合成模型用于根据目标文本的情感标签序列、目标文本对应的音素标识序列和说话人标识，获取梅尔频谱解码器预测的目标文本的梅尔频谱；

声码器用于将目标文本的梅尔频谱映射为声音波形，获取目标文本对应的合成语音。

在一个示例中，该装置还包括：

呼吸音获取模块，用于获取说话人录制训练音频时的至少一种呼吸音；

呼吸音梅尔频谱获取模块，用于获取至少一种呼吸音中每一呼吸音的梅尔频谱；

断句获取模块，用于对目标文本按照标点符号或者韵律进行分割处理，获取多个断句。

进一步示例性地，装置还包括梅尔频谱拼接模块，其中：

目标文本的情感标签序列获取子模块，还用于根据每一断句确定每一断句的情感标签序列；

音素标识序列获取子模块，还用于获取每一断句对应的音素标识序列；

语音合成模型还用于根据每一断句的情感标签序列、每一断句对应的音素标识序列和说话人标识，获取梅尔频谱解码器预测的每一断句的梅尔频谱；

梅尔频谱拼接模块，用于将每一断句的梅尔频谱按照顺序进行拼接，并在两个断句的梅尔频谱之间插入第一呼吸音的梅尔频谱，以获取目标梅尔频谱，第一呼吸音属于至少一种呼吸音；

声码器还用于将目标梅尔频谱映射为声音波形，以获取目标文本对应的合成语音，合成语音包含至少一种呼吸音中的呼吸音。

该装置的其他实现方式和效果参见语音合成方法中的说明，在此不再赘述。

以上结合具体实施例描述了本申请的基本原理，但是，需要指出的是，在本申请中提及的优点、优势、效果等仅是示例而非限制，不能认为这些优点、优势、效果等是本申请的各个实施例必须具备的。另外，上述公开的具体细节仅是为了示例的作用和便于理解的作用，而非限制，上述细节并不限制本申请为必须采用上述具体的细节来实现。

应该理解的是，虽然附图的流程图中的各个步骤按照箭头的指示依次显示，但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明，这些步骤的执行并没有严格的顺序限制，其可以以其他的顺序执行。而且，附图的流程图中的至少一部分步骤可以包括多个子步骤或者多个阶段，这些子步骤或者阶段并不必然是在同一时刻执行完成，而是可以在不同的时刻执行，其执行顺序也不必然是依次进行，而是可以与其他步骤或者其他步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。

本申请中涉及的器件、装置、设备、系统的方框图仅作为例示性的例子并且不意图要求或暗示必须按照方框图示出的方式进行连接、布置、配置。如本领域技术人员将认识到的，可以按任意方式连接、布置、配置这些器件、装置、设备、系统。诸如“包括”、“包含”、“具有”等等的词语是开放性词汇，指“包括但不限于”，且可与其互换使用。这里所使用的词汇“或”和“和”指词汇“和/或”，且可与其互换使用，除非上下文明确指示不是如此。这里所使用的词汇“诸如”指词组“诸如但不限于”，且可与其互换使用。

还需要指出的是，在本申请的装置、设备和方法中，各部件或各步骤是可以分解和/或重新组合的。这些分解和/或重新组合应视为本申请的等效方案。

提供所公开的方面的以上描述以使本领域的任何技术人员能够做出或者使用本申请。对这些方面的各种修改对于本领域技术人员而言是非常显而易见的，并且在此定义的一般原理可以应用于其他方面而不脱离本申请的范围。因此，本申请不意图被限制到在此示出的方面，而是按照与在此公开的原理和新颖的特征一致的最宽范围。

为了例示和描述的目的已经给出了以上描述。此外，此描述不意图将本申请的实施例限制到在此公开的形式。尽管以上已经讨论了多个示例方面和实施例，但是本领域技术人员将认识到其某些变型、修改、改变、添加和子组合。

Claims

1.一种语音合成方法，其特征在于，包括：

获取说话人根据训练文本录制的训练音频，以及所述训练音频对应的标准的梅尔频谱；

根据所述训练文本和所述训练音频，提取所述训练音频中每个音素的标准的语音特征，所述语音特征包括音长、音高和能量中的一种或多种；

根据所述训练文本和所述训练音频，确定所述训练文本的情感标签序列，所述情感标签序列包含与所述训练文本的文字数量相同的数字，每一数字表征所述训练文本中相应位置的文字是否用于表达情感；

根据所述标准的梅尔频谱、所述标准的语音特征、所述情感标签序列、所述训练文本对应的音素标识序列和所述说话人的标识，确定训练数据；

基于所述训练数据训练语音合成模型，使得所述语音合成模型学习所述说话人录制的所述训练文本中每个音素的语音特征，以及每个文字的情感特征，根据所述语音合成模型预测的梅尔频谱与所述标准的梅尔频谱之间的误差计算损失，根据所述语音合成模型预测的所述每个音素的语音特征与对应的所述标准的语音特征计算损失，直到所述语音合成模型收敛，得到训练好的所述语音合成模型；

根据目标文本和训练好的所述语音合成模型，确定所述目标文本对应的合成语音。

2.根据权利要求1所述的方法，其特征在于，所述语音合成模型包括情感标签序列嵌入层、音素标识序列嵌入层、说话人标识嵌入层、编码层、拼接层、方差适配器和梅尔频谱解码器，其中，基于所述训练数据训练语音合成模型，包括：

向所述情感标签序列嵌入层输入所述情感标签序列，以获取所述情感标签序列的向量矩阵；

向所述音素标识序列嵌入层输入所述音素标识序列，以获取所述音素标识序列的向量矩阵；

向所述说话人标识嵌入层输入所述说话人的标识，以获取所述说话人的标识的向量矩阵；

使用所述编码层提取所述音素标识序列的向量矩阵的隐藏特征，以获取所述音素标识序列的特征向量矩阵；

使用所述拼接层将所述音素标识序列的特征向量矩阵和所述说话人的标识的向量矩阵，进行拼接处理，得到拼接向量矩阵；

使用所述方差适配器根据所述情感标签序列的向量矩阵和所述拼接向量矩阵，预测所述每个音素的语音特征和情感特征；

使用所述梅尔频谱解码器根据所述预测结果实现并行解码，预测所述训练音频的梅尔频谱。

3.根据权利要求2所述的方法，其特征在于，所述根据目标文本和训练好的所述语音合成模型，确定所述目标文本对应的合成语音，包括：

对所述目标文本进行预处理，以获取只包含文字的所述目标文本；

根据所述目标文本确定所述目标文本的情感标签序列；

获取所述目标文本对应的音素标识序列；

向所述语音合成模型输入所述目标文本的情感标签序列、所述目标文本对应的音素标识序列和所述说话人标识，以获取所述梅尔频谱解码器预测的所述目标文本的梅尔频谱；

使用声码器将所述目标文本的梅尔频谱映射为声音波形，以获取所述目标文本对应的合成语音。

4.根据权利要求3所述的方法，其特征在于，在所述根据所述目标文本确定所述目标文本的情感标签序列之前，所述方法还包括：

获取所述说话人录制所述训练音频时的至少一种呼吸音；

获取所述至少一种呼吸音中每一呼吸音的梅尔频谱；

对所述目标文本按照标点符号或者韵律进行分割处理，获取多个断句。

5.根据权利要求4所述的方法，其特征在于，所述根据所述目标文本确定所述目标文本的情感标签序列；获取所述目标文本对应的音素标识序列；向所述语音合成模型输入所述目标文本的情感标签序列、所述目标文本对应的音素标识序列和所述说话人标识，以获取所述梅尔频谱解码器预测的所述目标文本的梅尔频谱，使用声码器将所述目标文本的梅尔频谱映射为声音波形，以获取所述目标文本对应的合成语音，包括：

根据每一所述断句确定每一所述断句的情感标签序列；

获取每一所述断句对应的音素标识序列；

向所述语音合成模型输入每一所述断句的情感标签序列、每一所述断句对应的音素标识序列和所述说话人标识，以获取所述梅尔频谱解码器预测的每一所述断句的梅尔频谱；

将所述每一所述断句的梅尔频谱按照顺序进行拼接，并在两个所述断句的梅尔频谱之间插入第一呼吸音的梅尔频谱，以获取目标梅尔频谱，所述第一呼吸音属于所述至少一种呼吸音；

使用所述声码器将所述目标梅尔频谱映射为声音波形，以获取所述目标文本对应的合成语音，所述合成语音包含所述至少一种呼吸音中的呼吸音。

6.根据权利要求5所述的方法，其特征在于，所述根据每一所述断句确定每一所述断句的情感标签序列，包括：

基于所述训练文本和所述训练文本对应的所述情感标签序列，训练分类模型，使得所述分类模型学习所述训练文本中用于表达情感的关键文字的特征，以对文字进行分类的方式预测所述训练文本中每个文字是否用于表达情感；

向所述分类模型输入每一所述断句，获取所述分类模型输出的分类结果，所述分类结果即每一所述断句的情感标签序列。

7.根据权利要求6所述的方法，其特征在于，所述分类模型采用基于Transformer的双向编码器表示算法。

8.根据权利要求1-7中任一项所述的方法，其特征在于，所述用于表达情感的方式为所述说话人对文字进行拖音。

9.根据权利要求8所述的方法，其特征在于，所述根据所述标准的梅尔频谱、所述标准的语音特征、所述情感标签序列、所述训练文本对应的音素标识序列和所述说话人的标识，确定训练数据，包括：

若所述情感标签序列包含表征所述说话人对文字进行拖音的数字，获取所述说话人根据所述训练文本录制的未拖音训练音频，所述未拖音训练音频中对所述进行拖音的数字对应的文字未进行拖音；

获取所述未拖音训练音频对应的标准的梅尔频谱；

根据所述训练文本和所述未拖音训练音频，提取所述未拖音训练音频中每个音素的标准的所述语音特征；

根据所述训练文本和所述未拖音训练音频，确定所述未拖音训练音频对应的情感标签序列；

根据所述训练音频对应的标准的梅尔频谱、所述未拖音训练音频对应的标准的梅尔频谱、所述训练音频中每个音素的标准的语音特征、所述未拖音训练音频中每个音素的标准的所述语音特征、所述训练文本的情感标签序列、所述未拖音训练音频对应的情感标签序列、所述训练文本对应的音素标识序列和所述说话人的标识，确定训练数据。

10.一种语音合成装置，其特征在于，包括：

数据获取模块，用于获取说话人根据训练文本录制的训练音频，以及所述训练音频对应的标准的梅尔频谱；

语音特征获取模块，用于根据所述训练文本和所述训练音频，提取所述训练音频中每个音素的标准的语音特征，所述语音特征包括音长、音高和能量中的一种或多种；

情感标签序列获取模块，用于根据所述训练文本和所述训练音频，确定所述训练文本的情感标签序列，所述情感标签序列包含与所述训练文本的文字数量相同的数字，每一数字表征所述训练文本中相应位置的文字是否用于表达情感；

训练数据获取模块，用于根据所述标准的梅尔频谱、所述标准的语音特征、所述情感标签序列、所述训练文本对应的音素标识序列和所述说话人的标识，确定训练数据；

语音合成模型训练模块，用于基于所述训练数据训练语音合成模型，使得所述语音合成模型学习所述说话人录制的所述训练文本中每个音素的语音特征，以及每个文字的情感特征，根据所述语音合成模型预测的梅尔频谱与所述标准的梅尔频谱之间的误差计算损失，根据所述语音合成模型预测的所述每个音素的语音特征与对应的所述标准的语音特征计算损失，直到所述语音合成模型收敛，得到训练好的所述语音合成模型；

语音合成模块，用于根据目标文本和训练好的所述语音合成模型，确定所述目标文本对应的合成语音。