CN113920977A

CN113920977A - 一种语音合成模型、模型的训练方法以及语音合成方法

Info

Publication number: CN113920977A
Application number: CN202111165153.8A
Authority: CN
Inventors: 司马华鹏; 毛志强; 田晓晖
Original assignee: Suqian Silicon Based Intelligent Technology Co ltd
Current assignee: Suqian Silicon Based Intelligent Technology Co ltd
Priority date: 2021-09-30
Filing date: 2021-09-30
Publication date: 2022-01-11

Abstract

本发明公开了一种语音合成模型、模型的训练方法以及语音合成方法，语音合成模型包括：嵌入模块、时长预测模块、能量预测模块、音高预测模块、情感强度预测模块、编码器、特征组合模块以及解码器。对该模型进行训练包括：获取多条情感音频以及与每条情感音频对应的文本；分析情感音频，提取情感音频对应的音素；获取情感音频的真实特征；将真实特征、情感音频对应的音素以及文本输入至初始化语音合成模型完成训练。通过训练完成的语音模型完成语音合成，包括：获取目标情感音频对应的音素以及目标文本；将目标情感音频对应的音素以及目标文本输入至语音合成模型中，得到目标声学特征；将目标声学特征还原成目标文本对应的音频。

Description

一种语音合成模型、模型的训练方法以及语音合成方法

技术领域

本申请涉及语音合成技术领域，尤其涉及一种语音合成模型的训练方法、语音合成方法。

背景技术

语音合成技术发展迅速，广泛应用于手机导航、智能音箱、电话机器人、虚拟主播等场景，是语音交互的重要模块，用户对于语音合成技术也变得不陌生，也对语音合成质量有更高的要求，不仅要“说的清晰、自然”，还要“说的富有情感”。语音合成结果在清晰、正确表达出文字信息同时，表达文字所代表的情感也是提高人机交互体验的重要指标。

传统的语音合成技术在合成情感语音时，需要借助参考音频的情感合成文字语音，即传统的技术语音合成系统有两个输入，一个为目标文字，另一个为参考音频，即合成后音频的内容来自于目标文字，音频的情感来自于参考音频。在传统的技术语音合成系统中，通过从参考音频中提取音频情感特征加入到系统中，从而控制合成音音频的情感接近参考音频的情感。

但现有的语音合成技术对于不同情感的文字，需要选择不同情感的参考音频与之匹配，不同的参考音频对文本的影响也不同，寻找到完全匹配文本的参考音频很困难，难以获得与文字对应且满足用户需要的情感。另外在使用情感分类网络提取情感特征时，是将整条参考音频作为输入，输出固定维度的特征，这样的特征是参考音频的全局平均特征，因此情感特征提取粒度较粗，对合成文字的情感表达粒度不够精细。

发明内容

本申请提供了一种语音合成模型的训练方法、语音合成方法，以解决现有语音合成技术中难以获得与文字对应且满足用户需要的情感，以及对合成文字的情感表达粒度不够精细的问题。

第一方面，本申请提供了一种语音合成模型，所述模型包括嵌入模块、能量预测模块、音高预测模块、情感强度预测模块、编码器、特征组合模块以及解码器，其中：

所述嵌入模块用于对待合成文本进行预处理，所述预处理包括对所述待合成文本的正则化处理、拼音转音素、多音字消岐、韵律预测；

所述时长预测模块用于对目标音频中的每个音素的发音时长进行预测，得到音素时长特征预测值；

所述能量预测模块用于对所述目标音频中的能量进行预测，得到能量特征预测值；

所述音高预测模块用于对所述目标音频中的音高进行预测，得到音高特征预测值；

所述情感强度预测模块用于对所述目标音频中的情感强度进行预测，得到情感强度特征预测值；

所述编码器用于提取所述待合成文本的文本特征；

所述特征组合模块用于将所述文本特征与所述音素时长特征预测值、能量特征预测值、音高特征预测值、情感强度特征预测值进行组合拼接得到组合特征；

所述解码器用于将所述组合特征经过解码获得目标声学特征；

第二方面，本申请还提供了一种语音合成模型的训练方法，应用于上述所述模型中，所述方法包括：

获取训练数据，所述训练数据包括多条情感音频以及与每条所述情感音频对应的文本；分析所述情感音频，提取所述情感音频对应的音素；

获取所述情感音频的真实特征，所述真实特征包括音素时长特征、能量特征、音高特征、情感强度特征；

将所述真实特征、所述情感音频对应的音素以及所述文本输入至初始化语音合成模型，所述初始化语音合成模型根据初始模型参数执行以下步骤：

对所述文本进行预处理，包括文本的正则化处理、拼音转音素、多音字消歧以及韵律预测；

根据预处理的文本，获取所述文本的文本序列，将所述文本序列转换为对应的编码值；

获取所述音素的预测特征，所述预测特征包括预测音素时长特征、预测能量特征、预测音高特征、预测情感强度特征；

根据所述真实特征与所述预测特征计算损失函数；

根据所述预测特征与所述编码值获取声学特征，所述声学特征为梅尔频谱特征，并根据所述损失函数与所述声学特征优化所述初始模型参数，直至达到模型收敛条件，完成训练，生成目标语音合成模型。

在一种实现方式中，获取所述情感音频的情感强度特征，包括：通过所述文本，获取任一条所述情感音频对应的拼音；使用音素对齐工具获取所述拼音在所述情感音频中的起始和终止时间；根据所述拼音的起始和终止时间，将所述情感音频分割为多个子音频；根据所述子音频获取所述情感音频的情感强度特征；

在一种实现方式中，获取所述音素的预测特征，包括：分析所述情感音频，提取所述情感音频对应的音素；对所述文本进行预处理，所述预处理包括对所述文本的正则化处理、拼音转音素、多音字消歧以及韵律预测；分析所述文本，提取所述文本的文本特征，所述文本特征为所述文本对应的音素；将所述情感音频对应的音素以及所述文本输入至待训练语音合成模型；对所述情感音频中的每个音素的发音时长进行预测，得到对应的预测音素时长特征，对每个所述音素的能量、音高、情感强度进行预测，得到对应的预测能量特征、预测音高特征以及预测情感强度特征。

在一种实现方式中，所述生成目标语音合成模型，包括：将所述文本特征与所述情感音频对应的音素输入至初始化语音合成模型，生成对应的所述音素的预测特征；将所述音素的预测特征与所述真实特征进行比对，并根据比对结果对所述初始化语音合成模型参数值进行反向更新；根据所述文本特征与所述情感音频对应的音素，进行迭代，并计算每次迭代后的初始化语音合成模型的多个所述损失函数；当迭代后的所述初始化语音合成模型的多个所述损失函数均值最小化时，停止迭代，生成所述目标语音合成模型。

在一种实现方式中，所述当迭代后的所述初始化语音合成模型的多个所述损失函数均值最小化时，停止迭代，生成所述目标语音合成模型，包括：将所述情感音频对应的音素输入至所述初始化语音合成模型；获取所述音素的预测特征，所述预测特征包括预测音素时长特征、预测能量特征、预测音高特征、预测情感强度特征；根据所述真实特征与所述预测特征计算损失函数；通过所述损失函数优化所述初始模型参数，直至达到模型收敛条件，即所述损失函数均值最小化，停止迭代，此时完成训练，生成所述目标语音合成模型。

在一种实现方式中，根据所述预测特征与所述编码值获取声学特征，包括：将所述真实特征、所述情感音频对应的音素以及所述文本输入至初始化语音合成模型；对所述文本进行预处理，包括文本的正则化处理、拼音转音素、多音字消歧以及韵律预测；根据预处理的文本，获取所述文本的文本序列，将所述文本序列转换为对应的编码值；获取所述音素的预测特征，所述预测特征包括预测音素时长特征、预测能量特征、预测音高特征、预测情感强度特征；将所述编码值与所述预测音素时长特征、预测能量特征、预测音高特征以及预测情感强度特征进行组合拼接，得到组合特征；将所述组合特征进行解码获取声学特征。

第三方面，本申请还提供了一种语音合成方法，所述方法包括：

获取目标情感音频对应的音素以及目标文本；

将所述目标情感音频对应的音素以及所述目标文本输入至上述语音合成模型中，得到目标声学特征；

将目标声学特征还原成目标文本对应的音频。

在一种实现方式中，所述将情感音频对应的音素以及所述文本输入至语音合成模型，得到目标声学特征包括：对所述文本进行预处理，包括文本的正则化处理、拼音转音素、多音字消歧以及韵律预测；根据预处理的文本，获取所述文本的文本序列，将所述文本序列转换为对应的编码值；获取所述音素的预测特征，所述预测特征包括预测音素时长特征、预测能量特征、预测音高特征、预测情感强度特征；根据所述预测特征与所述编码值获取声学特征，所述声学特征为梅尔谱特征或lpc特征。

在一种实现方式中，所述将目标声学特征还原成目标文本对应的音频，包括：将所述目标音频对应的音素输入至所述语音合成模型得到目标声学特征；将所述目标声学特征输入至声码器还原得到目标音频。

本申请提供的一种语音合成模型、模型的训练方法以及语音合成方法，语音合成模型包括嵌入模块、编码器、时长预测模块、能量预测模块、音高预测模块、情感强度预测模块、特征组合模块以及解码器，可以由文本自动预测语音合成过程中音频的情感，以实现根据文本独立进行情感语音合成，且在语音合成的全部过程中不依赖于参考音频，可以显著改善语音合成对音频样本的需求。进一步的，通过本申请的语音合成方法可以控制每个音素或字的发音情感，进而显著改善情感控制的粒度，实现细粒度的情感控制。

附图说明

为了更清楚地说明本申请的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，显而易见地，对于本领域普通技术人员而言，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本申请提供的一种语音合成模型结构示意图；

图2为本申请提供的时长预测模块的模型结构示意图；

图3为本申请提供的编码器模型结构示意图；

图4为本申请提供的解码器模型结构示意图；

图5为本申请提供的一种语音合成模型的训练方法流程图；

图6为本申请提供的一种训练语音合成模型结构示意图；

图7为本申请提供的一种语音合成终端结构示意图。

具体实施方式

下面将详细地对实施例进行说明，其示例表示在附图中。下面的描述涉及附图时，除非另有表示，不同附图中的相同数字表示相同或相似的要素。以下实施例中描述的实施方式并不代表与本申请相一致的所有实施方式。仅是与权利要求书中所详述的、本申请的一些方面相一致的系统和方法的示例。

需要说明的是，本申请中对于术语的简要说明，仅是为了方便理解接下来描述的实施方式，而不是意图限定本申请的实施方式。除非另有说明，这些术语应当按照其普通和通常的含义理解。

本申请中说明书和权利要求书及上述附图的术语“第一”、“第二”、“第三”等是用于区别类似或同类的对象或实体，而不必然意味着限定特定的顺序或先后次序，除非另外注明。应该理解这样使用的用语在适当情况下可以互换。术语“包括”和“具有”以及他们的任何变形，意图在于覆盖但不排他的包含，例如，包含了一系列组件的产品或设备不必限于清楚地列出所有组件，而是可包括没有清楚地列出的所有组件，而是可包括没有清楚地列出的或对于这些产品或设备固有的其他组件。术语“模块”是指任何已知或后来开发的硬件、软件、固件、人工智能、模糊逻辑或硬件或/和软件代码的组合，能够执行与该元件相关的功能。

本申请公开了一种语音合成模型，通过将用户进行声音变化或声音克隆等操作中用户实际输入的音频所对应的音素输入至训练完成的语音合成模型中，所述音素在经过嵌入模块后，分别进入时长预测模块、能量预测模块、音高预测模块以及情感强度预测模块，得到每个模块的预测值，再将这些预测值与编码器的结果进行组合，最后经过解码器的预测获得声学特征。

本申请提供的一种语音合成模型，参见图1，该语音合成模型包括嵌入模块、时长预测模块、能量预测模块、音高预测模块、情感强度预测模块、编码器、特征组合模块以及解码器，其中：

所述嵌入模块用于对待合成文本进行预处理，所述预处理包括对所述待合成文本的正则化处理、拼音转音素、多音字消岐、韵律预测；具体地，嵌入模块是将输入至语音合成模型中的音素向量映射成一个高维向量，进一步地，是一个将高维稀疏特征变为连续特征的模块。该模块主要负责文本处理，包括对文本的正则化处理、拼音转因素、多音字消岐、韵律预测。

所述时长预测模块用于对目标音频中的每个音素的发音时长进行预测，得到音素时长特征预测值；具体地，时长预测模块负责对每个音素的发音时长进行建模，学习该说话人的发音时长规律，其模型结构如图2所示，模块中的时长预测器对经过嵌入模块的音素的发音时长进行长度调节，最终得到该模块的声学特征即音素时长特征。

所述能量预测模块用于对所述目标音频中的能量进行预测，得到能量预测值；所述音高预测模块用于对所述目标音频中的音高进行预测，得到音高特征预测值；所述情感强度预测模块用于对所述目标音频中的情感强度进行预测，得到情感强度特征预测值；具体地，能量预测模块、音高预测模块以及情感强度预测模块的模型结构相同，使用一层全连接层分别负责对能量、音高、情感强度进行建模。

所述编码器用于提取所述待合成文本的文本特征；具体地，本申请使用的编码器如图3所示参考Tacotron的CBGH模块，该模块善于提取序列，模块步骤具体包括：首先输入序列，先经过K个一维卷积层(1-D convolution)，第K个卷积核(filter)通道为k。这些卷积核可以对当前以及上下文信息有效建模。接着，卷积输出被堆叠(stack)一起，沿着时间轴最大池化(maxpooling)以增加当前信息不变性。Stride取为1维持时间分辨率。然后输入到几个固定宽度的一维卷积，将输出增加到起始的输入序列。所有的卷积都采用批标准化层(Batch Normal ization)，输入多层的告诉网络，用以提取更高级别的特征。最后在顶部加入双向门控制循环单元(GRU)，用于提取序列的上下文特征。由于加入了批标准化层，残差连接以及stride＝1的最大池化，表现效果更好。

所述特征组合模块用于将所述文本特征与所述音素时长特征预测值、能量特征预测值、音高特征预测值、情感强度特征预测值进行组合拼接得到组合特征；具体地，情感音频对应的音素输入至语音合成模型中后，一方面在经过嵌入模块后，分别进入时长预测模块、能量预测模块、音高预测模块以及情感强度预测模块得到每个模块的预测特征。另一方面，这些预测特征与编码器的所得结果通过特征组合模块进行组合拼接，得到组合特征。

所述解码器用于将所述组合特征经过解码后获得目标声学特征；具体地，如图4所示，解码器负责将时长特征、能量特征、音高特征以及情感强度特征与编码器结果进行组合，作为解码器的输入，经过三层自注意力(self-attention)层后，再经过一个全连接层后输出，输出的特征即为声码器所需的声学特征，本申请中以梅尔频谱特征为例。

进一步地，本申请还公开了一种语音合成模型的训练方法，应用于上述语音合成模型中，如图5所示具体步骤包括：

S1，获取训练数据，所述训练数据包括多条情感音频以及与每条所述情感音频对应的文本；

具体地，获取所述训练数据，包括：获取所述多条情感音频；根据所述情感音频，获取所述每条情感音频对应的文本；通过所述文本，获取任一条所述情感音频对应的拼音。进一步地，所述文本可以包括词、短语、音素、音节、句子特征(例如重音、词内音节数量、音节在短语中的位置)、音素时长中的至少一项。

示例性的，获取至少一个说话人的6种情感音频数据，包含恐惧、生气、悲伤、惊喜、高兴、厌恶的情感数据7000条，以及剩余非情感数据(即自然情感数据)1500条。训练数据包括情感音频数据，以及与情感音频数据对应的文本。

S2，分析所述情感音频，提取所述情感音频对应的音素；

示例性的，根据训练数据获取训练数据中各音频所对应的拼音，例如：内容为“我劝你最好适可而止”的音频所对应的拼音标记为“wo3 quan4 ni3 zui4 hao3 shi4 ke3er2 zhi3”,获得音频所对应的音素。

S3，获取所述情感音频的真实特征，所述真实特征包括音素时长特征、能量特征、音高特征、情感强度特征；

示例性的，使用音素对齐工具(MFA)获取拼音在音频中的起始和终止时间，如表1所示，依据每个拼音的起始和终止时间，截取音频，使用openSMILE工具，提取384维情感特征，再使用RankSVM算法，提取恐惧、生气、悲伤、惊喜、高兴、厌恶相对于自然情感的情感强度特征。需要说明的是，情感强度特征为通过响度、语速等诸多维度形容音频情感的特征，即上述不同的非自然情感相对于自然情感的区别特征。使用训练数据中录好的7000条情感音频数据以及1500条非情感音频数据，提取80维的梅尔频谱特征、一维能量特征、一维音高特征。

表1

在一些实施例中，获取所述情感音频的情感强度特征，包括：获取任一条所述情感音频对应的拼音；使用音素对齐工具获取所述拼音在所述情感音频中的起始和终止时间；根据所述拼音的起始和终止时间，将所述情感音频分割为多个子音频；根据所述子音频获取所述情感音频的情感强度特征；

S4，将所述真实特征、所述情感音频对应的音素以及所述文本输入至初始化语音合成模型，所述初始化语音合成模型根据初始模型参数执行以下步骤：

S5，对所述文本进行预处理，包括文本的正则化处理、拼音转音素、多音字消歧以及韵律预测；

S6，根据预处理的文本，获取所述文本的文本序列，将所述文本序列转换为对应的编码值；

S7,获取所述音素的预测特征，所述预测特征包括预测音素时长特征、预测能量特征、预测音高特征、预测情感强度特征；

S8，根据所述真实特征与所述预测特征计算损失函数；

S9，根据所述预测特征与所述编码值获取声学特征，所述声学特征为梅尔频谱特征，并根据所述损失函数与所述声学特征优化所述初始模型参数，直至达到模型收敛条件，完成训练，生成目标语音合成模型。

示例性的，将情感音频对应的音素输入至待训练的初始化语音合成模型中，同时将音频对应的音素的时长特征、能量特征、音高特征以及情感强度特征作为模型中相应模块的输出。音素在经过嵌入模块后，通过时长预测模块、能量预测模块、音高预测模块以及情感强度预测模块进行预测，分别得到每个模块的预测值，将所述预测值与音素时长特征、能量特征、音高特征以及情感强度特征的真实值进行比较，来计算每一模块的损失函数(loss)，根据损失函数不断优化初始模型参数，直至达到模型收敛条件，以此完成各个模块的训练，生成目标语音合成模型。实践中，损失函数通常是用来估量语音合成模型的预测值与真实值的不一致程度。它是一个非负值函数。一般情况下，损失函数越小，模型的鲁棒性就越好。损失函数可以根据实际需求来设置，在本申请中不做限制。

进一步地，将得到的真实特征与预测特征进行比较之后，根据比较的结果确定初始化语音合成模型是否训练完成。在本申请中，若执行主体确定初始神经网络已训练完成，则可以完成对初始化语音合成模型的训练。若执行主体确定初始化语音合成模型未训练完成，则可以调整初始化语音合成模型的参数。示例性的，可以采用反向传播算法更新初始化语音合成模型的权重。之后，可以从训练数据中选取训练数据，继续执行上述训练步骤。

需要说明的是，初始化语音合成模型可以是未经训练或未训练完成的深度神经网络模型。进一步地，深度神经网络模型通常由大量的节点(或称神经元)之间相互连接构成，每个节点代表一种特定的输出函数，称为激励函数。每两个节点间的连接都代表一个对于通过该连接信号的加权值，称之为权重(又叫做参数)，网络的输出则依网络的连接方式、权重值和激励函数的不同而不同。实践中，可以选取开源的用于语音合成的神经网络模型作为初始化语音合成模型。作为示例，可以选取WaveNet、Deep Voice、Tacotron等。其中WaveNet是一种自回归的深度神经网络。其网络结构融合了扩展卷积神经网络(dilatedCNN)、残差网络、门式结构等。其中，扩展卷积神经网络可以实现增加卷积核的感受野，利用更长距离的上下文信息。残差网络可以将之前的输入跳跃连接到之后的输出，解决深层网络的梯度弥散问题。门式结构见于LSTM(Long Short-Term Memory)模型，可以对输入信息进行有效选择。由此，WaveNet可以实现基于输入的文本特征，输出语音数据。Deep Voice、Tacotron网络中也包含了类似结构。进一步地，对于这些开源的用于语音合成的神经网络，可以根据实际需要对其输入、输出以及网络的层数进行调整。作为示例，对于WaveNet，可以改变其输入输出，以及增加用于根据输入的文本得到基频的中间层。同样的，对于DeepVoice、Tacotron等神经网络，也可以根据需要对其进行调整。

在一些实施例中，获取所述音素的预测特征，包括：分析所述情感音频，提取所述情感音频对应的音素；对所述文本进行预处理，所述预处理包括对所述文本的正则化处理、拼音转音素、多音字消歧以及韵律预测；分析所述文本，提取所述文本的文本特征，所述文本特征为所述文本对应的音素；将所述情感音频对应的音素以及所述文本输入至待训练语音合成模型；对所述情感音频中的每个音素的发音时长进行预测，得到对应的预测音素时长特征，对每个所述音素的能量、音高、情感强度进行预测，得到对应的预测能量特征、预测音高特征以及预测情感强度特征。

需要说明的是，在获取音素的预测特征时需要分析所述文本，提取所述文本的文本特征，具体包括：对所述文本依次进行句子结构分析、文本正则化、分词、词性预测、多音字消歧以及韵律预测和拼音转音素等处理，以得到所述文本的文本特征。

示例性的，初始化语音合成模型的训练网络结构如图6，首先将训练数据中音频对应的音素以及音频对应的音素时长特征，能量特征，音高特征，情感强度特征输入至初始化语音合成模型中，音素在经过嵌入模块后，一方面，分别通过时长预测模块、能量预测模块、音高预测模块以及情感强度预测模块内进行预测，以得到每个模块的预测值，将该预测值与所述音素时长特征，能量特征，音高特征，情感强度特征的真实值进行比较，以计算每一个模块的损失函数(loss)，以此完成各个模块的训练。另一方面，上述预测值可与编码器结果进行组合拼接，组合后的特征经过解码器后得到网络的输出梅尔谱特征。

在一些实施例中，所述生成目标语音合成模型，包括：将所述文本特征与所述情感音频对应的音素输入至初始化语音合成模型，生成对应的所述音素的预测特征；将所述音素的预测特征与所述真实特征进行比对，并根据比对结果对所述初始化语音合成模型参数值进行反向更新；根据所述文本特征与所述情感音频对应的音素，进行迭代，并计算每次迭代后的初始化语音合成模型的多个所述损失函数；当迭代后的所述初始化语音合成模型的多个所述损失函数均值最小化时，停止迭代，生成所述目标语音合成模型。

在一些实施例中，所述当迭代后的所述初始化语音合成模型的多个所述损失函数均值最小化时，停止迭代，生成所述目标语音合成模型，包括：将所述情感音频对应的音素输入至所述初始化语音合成模型；获取所述音素的预测特征，所述预测特征包括预测音素时长特征、预测能量特征、预测音高特征、预测情感强度特征；根据所述真实特征与所述预测特征计算损失函数；通过所述损失函数优化所述初始模型参数，直至达到模型收敛条件，即所述损失函数均值最小化，停止迭代，此时完成训练，生成所述目标语音合成模型。

示例性的，将获得的情感音频对应的音素作为初始化语音合成模型的输入，通过时长预测模块、能量预测模块、音高预测模块以及情感强度预测模块，获取音素的时长、能量、音高以及情感强度的预测特征，并通过与所述真实特征的比较计算损失函数。需要说明的是，在本申请中，当迭代后的初始化语音合成模型的多个损失函数的均值最小化时停止迭代，初始化语音合成模型完成训练，并生成目标语音合成模型。

进一步地，语音合成模型在完成训练后，将用户进行声音变化或声音克隆等操作中用户实际输入的音频所对应的音素作为输入，该音素在经过嵌入模块后，分别进入时长预测模块、能量预测模块、音高预测模块以及情感强度预测模块，以得到预测音素时长特征、预测能量特征、预测音高特征以及预测情感强度特征，再通过特征组合模块将这些预测特征与编码器的结果进行组合，最后通过解码器的预测获得梅尔谱特征即目标声学特征。

在一些实施例中，根据所述预测特征与所述编码值获取声学特征，包括：将所述真实特征、所述情感音频对应的音素以及所述文本输入至初始化语音合成模型；对所述文本进行预处理，包括文本的正则化处理、拼音转音素、多音字消歧以及韵律预测；根据预处理的文本，获取所述文本的文本序列，将所述文本序列转换为对应的编码值；获取所述音素的预测特征，所述预测特征包括预测音素时长特征、预测能量特征、预测音高特征、预测情感强度特征；将所述编码值与所述预测音素时长特征、预测能量特征、预测音高特征以及预测情感强度特征进行组合拼接，得到组合特征；将所述组合特征进行解码获取声学特征。

示例性的，语音合成模型中的特征组合模块将获得的预测音素时长特征、预测能量特征、预测音高特征以及预测情感强度特征与编码器所输出的编码值进行组合拼劲，得到组合特征，然后通过解码器对组合特征的解码得到语音合成模型的输出目标声学特征即梅尔频谱特征。

进一步地，本申请还公开了一种语音合成方法，具体步骤包括：S11，获取目标情感音频对应的音素以及目标文本；S12，将所述目标情感音频对应的音素以及所述目标文本输入至语音合成模型，得到目标声学特征，其中所述语音合成模型为采用上述训练方法训练得到的；S13，将目标声学特征还原成目标文本对应的音频。

示例性的，本申请提供的一种语音合成方法采用上述语音合成训练方法训练得到的语音合成模型。具体地，将获取到的目标情感音频对应的音素以及目标文本输入至训练完成得到的语音合成模型，最后得到目标声学特征，即梅尔频谱特征。

在一些实施例中，所述将情感音频对应的音素以及所述文本输入至语音合成模型，得到目标声学特征包括：对所述文本进行预处理，包括文本的正则化处理、拼音转音素、多音字消歧以及韵律预测；根据预处理的文本，获取所述文本的文本序列，将所述文本序列转换为对应的编码值；获取所述音素的预测特征，所述预测特征包括预测音素时长特征、预测能量特征、预测音高特征、预测情感强度特征；根据所述预测特征与所述编码值获取声学特征，所述声学特征为梅尔谱特征或lpc特征。

示例性的，将情感音频对应的音素以及文本输入至训练完成的语音合成模型后，模型中的嵌入模块首先会对文本进行正则化处理、拼音转音素、多音字消岐以及韵律预测等，随后得到文本的文本序列，接着编码器会将通过的文本序列转化为对应的编码值，并与时长预测模块、能量预测模块、音高预测模块以及情感强度预测模块得到的预测特征通过特征组合模块与解码器最终获取目标声学特征。特别的，在本申请中，目标声学特征可以是梅尔频谱特征或lpc特征等。

在一些实施例中，所述将目标声学特征还原成目标文本对应的音频，包括：将所述目标音频对应的音素输入至所述语音合成模型得到目标声学特征；将所述目标声学特征输入至声码器还原得到目标音频。

示例性的，音素经过语音合成模型的预测得到目标声学特征，例如梅尔频谱、lpc特征等，接着使用例如ParallelWaveGAN、LPCNet、WaveNet等声码器还原成音频，特别的，在本申请中，不同情感的音频还原可以使用不同的声码器，也可以使用一个通用的声码器。

在一些实施例中，本申请提供的方案可以在语音合成时不需要提供参考音频，模型会根据文字进行情感预测，自动判断文本的情感。具体实施例步骤如下。

本示例性实施例中，以小说音频合成为例。

(1)获取小说的文本内容，对小说文本中的每一个角色的文本内容进行分离；

(2)确定每个角色以及旁白的说话风格，选择适合的的语音合成模型，具体包括男生、女生、男童声、女童声等多个语音合成模型；

(3)将小说文本中每一个角色对应文本内容输入至对应的语音合成模型中，其中，该语音合成模型包括嵌入模块、编码器、时长预测模块、能量预测模块、音高预测模块、情感强度预测模块、特征组合模块以及解码器；

(4)嵌入模块负责对文本进行正则化处理、拼音转音素、多音字消岐、韵律预测；

(5)时长预测模块、能量预测模块、音高预测模块、情感强度预测模块根据文本内容进行音素时长特征、能量特征、音高特征以及情感强度特征预测，自动判断该文本的情感；

(6)编码器用于提取上述待合成文本的文本特征；

(7)特征组合模块将音素时长特征、能量特征、音高特征以及情感强度特征的预测值与编码器的结果进行组合拼接得到组合特征；

(8)解码器将组合特征经过解码后得到目标声学特征；

(9)将目标声学特征通过声码器还原成目标音频。

在本实施例中，本申请可达到细粒度情感语音合成小说中的不同角色使用不同的语音合成说话人的效果，首先对效果进行角色分离，确定每个角色以及旁白的说话风格，选择适合的语音合成模型(此处有多个细粒度情感语音合成模型作为支持，男生、女生、男童声、女童声等)，本申请提供的语音合成方法为每一个角色选择了一个语音合成模型，合成对应说话人的台词。在合成时，用户不需要提供参考音频，角色对应的语音合成模型会根据文字进行情感预测，自动判断该文本的情感，最后完成小说的合成。

需要说明的是，本申请提供的语音合成模型在使用过程中，可针对用户的实际需要对各个模块的输出进行调节。进一步地，可调整每一模块中的参数，或直接将模块的输出设置为预设值，以改变情感的强烈程度。特别地，根据本申请提供的语音合成模型，所述对模块参数的调整过程中，可将本发明中的细粒度情感语音合成模型集成于用户终端，并在用户终端之上设置屏幕与可用于情感强烈程度调节的实体或虚拟调节按钮，使用户可以根据自身实际需求主动的控制情感强烈程度。参见图7，为一种可选的控制方式，其中用户终端3之上设置有屏幕2，并在屏幕2的上方设置可用于调节情感强烈程度的虚拟调节按钮1。进一步地，终端设备还可以是手机、计算机、平板电脑等。

在一些实施例中，本申请提供的方案可实现细粒度情感控制。具体实施例步骤如下。

本示例性实施例中，以影视配音情感调节为例。

(1)获取影视配音的文本内容；

(2)将上述文本内容输入至语音合成模型中，其中，该语音合成模型包括嵌入模块、编码器、时长预测模块、能量预测模块、音高预测模块、情感强度预测模块、特征组合模块以及解码器；

(6)编码器用于提取上述待合成文本的文本特征；

(8)解码器将组合特征经过解码后得到目标声学特征；

(9)将目标声学特征通过声码器还原成目标音频；

(10)对时长预测模块、能量预测模块、音高预测模块、情感强度预测模块的预测特征进行调节，获取用户所需目标情感音频。

在本实施例中，本申请提供的语音合成模型可以解决在一些影视的配音任务中，对于声音情感变化要求较高的要求，例如“我会将你绳之以法”这句台词，情感强度预测值为“0.11,0.12,0.09,1.0,1.1,1.2,1.5,1.4”，本申请提供的语音合成模型可将强度预测结果显示给用户，并作为用户调节情感强度的参考，开放用户修改情感强度的权限，使用户能够自己调节何时情感该加重、何时该减轻，用户希望加强“绳之以法”的情感，可以将情感强度预测值修改为“0.11,0.12,0.09,1.0,2.0,2.0,2.0,2.0”，以此完成有情感定制需求的语音合成。

通过以上技术方案可以看出，本申请可以由文本自动预测语音合成过程中音频的情感，以实现根据文本独立进行情感语音合成。所述过程并不依赖于参考音频，故可以显著改善语音合成对音频样本的需求。可用于情感小说语音合成、短视频配音、电话机器人、语音交互等语音合成使用场景。同时，本申请提供的一种语音合成模型可以控制每个音素或字的发音情感，进而显著改善情感控制的粒度，实现细粒度的情感控制。

本说明书中通篇提及的“多个实施例”、“一些实施例”、“一个实施例”或“实施例”等，意味着结合该实施例描述的具体特征，部件或特性包括在至少一个实施例中，因此，本说明书通篇出现的短语“在多个实施例中”、“在一些实施例中”、“在至少另一个实施例中”或“在实施例中”等，并不一定都指相同的实施例。此外，在一个或多个实施例中，具体特征、部件或特性可以任何合适的方式进行组合。因此，在无限制的情形下，结合一个实施例示出或描述的具体特征、部件或特性可全部或部分地与一个或多个其他实施例的特征、部件或特性进行组合。这种修改和变型旨在包括早本申请的范围之内。

本申请提供的实施例之间的相似部分相互参见即可，以上提供的具体实施方式只是本申请总的构思下的几个示例，并不构成本申请保护范围的限定。对于本领域的技术人员而言，在不付出创造性劳动的前提下依据本申请方案所扩展出的任何其他实施方式都属于本申请的保护范围。

Claims

1.一种语音合成模型，其特征在于，包括嵌入模块、时长预测模块、能量预测模块、音高预测模块、情感强度预测模块、编码器、特征组合模块以及解码器，其中：

所述编码器用于提取所述待合成文本的文本特征；

所述解码器用于将所述组合特征经过解码获得目标声学特征。

2.一种语音合成模型的训练方法，应用于权利要求1所述的模型中，其特征在于，包括：

获取训练数据，所述训练数据包括多条情感音频以及与每条所述情感音频对应的文本；

分析所述情感音频，提取所述情感音频对应的音素；

根据所述真实特征与所述预测特征计算损失函数；

3.根据权利要求2所述的方法，其特征在于，获取所述情感音频的情感强度特征，包括：

通过所述文本，获取任一条所述情感音频对应的拼音；

使用音素对齐工具获取所述拼音在所述情感音频中的起始和终止时间；

根据所述拼音的起始和终止时间，将所述情感音频分割为多个子音频；

根据所述子音频获取所述情感音频的情感强度特征。

4.根据权利要求2所述的方法，其特征在于，获取所述音素的预测特征，包括：

分析所述情感音频，提取所述情感音频对应的音素；

对所述文本进行预处理，所述预处理包括对所述文本的正则化处理、拼音转音素、多音字消歧以及韵律预测；

分析所述文本，提取所述文本的文本特征，所述文本特征为所述文本对应的音素；

将所述情感音频对应的音素以及所述文本输入至初始化语音合成模型；

对所述情感音频中的每个音素的发音时长进行预测，得到对应的预测音素时长特征，对每个所述音素的能量、音高、情感强度进行预测，得到对应的预测能量特征、预测音高特征以及预测情感强度特征。

5.根据权利要求2所述的方法，其特征在于，所述生成目标语音合成模型，包括：

将所述文本特征与所述情感音频对应的音素输入至初始化语音合成模型，生成对应的所述音素的预测特征；

将所述音素的预测特征与所述真实特征进行比对，并根据比对结果对所述初始化语音合成模型参数值进行反向更新；

根据所述文本特征与所述情感音频对应的音素，进行迭代，并计算每次迭代后的初始化语音合成模型的多个所述损失函数；

当迭代后的所述初始化语音合成模型的多个所述损失函数均值最小化时，停止迭代，生成所述目标语音合成模型。

6.根据权利要求5所述的方法，其特征在于，所述当迭代后的所述初始化语音合成模型的多个所述损失函数均值最小化时，停止迭代，生成所述目标语音合成模型，包括：

将所述情感音频对应的音素输入至所述初始化语音合成模型；

根据所述真实特征与所述预测特征计算损失函数；

通过所述损失函数优化所述初始模型参数，直至达到模型收敛条件，即所述损失函数均值最小化，停止迭代，此时完成训练，生成所述目标语音合成模型。

7.根据权利要求2所述的方法，其特征在于，根据所述预测特征与所述编码值获取声学特征，包括：

将所述真实特征、所述情感音频对应的音素以及所述文本输入至初始化语音合成模型；

将所述编码值与所述预测音素时长特征、预测能量特征、预测音高特征以及预测情感强度特征进行组合拼接，得到组合特征；

将所述组合特征进行解码获取声学特征。

8.一种语音合成方法，其特征在于，包括：

获取目标情感音频对应的音素以及目标文本；

将所述目标情感音频对应的音素以及所述目标文本输入至权利要求1所述的语音合成模型中，得到目标声学特征；

将目标声学特征还原成目标文本对应的音频。

9.根据权利要求8所述的方法，其特征在于，所述将情感音频对应的音素以及所述文本输入至语音合成模型，得到目标声学特征包括：

根据所述预测特征与所述编码值获取声学特征，所述声学特征为梅尔谱特征或lpc特征。

10.根据权利要求8所述的方法，其特征在于，所述将目标声学特征还原成目标文本对应的音频，包括：

将所述目标音频对应的音素输入至所述语音合成模型得到目标声学特征；

将所述目标声学特征输入至声码器还原得到目标音频。