CN116895273B

CN116895273B - 合成音频的输出方法及装置、存储介质、电子装置

Info

Publication number: CN116895273B
Application number: CN202311160940.2A
Authority: CN
Inventors: 司马华鹏; 吴海娥; 姚奥; 蒋达; 汤毅平
Original assignee: Nanjing Silicon Intelligence Technology Co Ltd
Current assignee: Nanjing Silicon Intelligence Technology Co Ltd
Priority date: 2023-09-11
Filing date: 2023-09-11
Publication date: 2023-12-26
Anticipated expiration: 2043-09-11
Also published as: CN116895273A

Abstract

本申请实施例提供了一种合成音频的输出方法及装置、存储介质、电子装置，所述方法包括：将输入文本和指定的目标身份标识输入音频输出模型，通过所述身份识别模型提取所述目标身份的身份特征序列，通过所述语音合成模型的编码层提取所述输入文本对应的音素特征序列，将所述目标身份的身份特征序列和所述输入文本对应的音素特征序列叠加并输入所述语音合成模型的变量适配器，通过所述变量适配器对所述音素特征序列进行时长预测和对齐、能量预测以及音高预测后，然后经过语音合成模型的解码层并输出与所述输入文本对应的目标梅尔谱特征，将所述目标梅尔谱特征输入声码器，通过所述声码器输出符合所述目标身份说话风格的合成音频。

Description

合成音频的输出方法及装置、存储介质、电子装置

技术领域

本申请涉及数据处理技术领域，具体而言，涉及一种合成音频的输出方法及装置、存储介质、电子装置。

背景技术

相关技术中的语音合成（Text To Speech，简称为TTS）技术，是将文本转化为语音并输出的技术。随着单人TTS的方法越来越成熟，基于多发音人的TTS方法被进一步推进。区别于单人TTS方法，基于多发音人的TTS方法通常需要用一个speaker embedding（目标说话人嵌入）将每个说话人的声音、风格以及口音等这些特征进行编码，以便区分每个说话人的不同特点。

现有的多发音人TTS模型在很多场合其合成的语音会形成语音风格中和的情况（举例而言，如果存在两个speaker分别对应男性说话人与女性说话人，理想情况下，上述两个speaker分别对应男声风格与女声风格。语音风格中和指上述两个风格相互影响，使得最终语音合成的效果偏向中性化）。

针对相关技术中，基于多发音人的语音合成方法无法解决语音中和现象，导致语音合成效果不理想的问题，相关技术中尚未提出有效的解决方案。

发明内容

本申请实施例提供了一种合成音频的输出方法及装置、存储介质、电子装置，以至少解决相关技术中基于多发音人的语音合成方法无法解决语音中和现象，导致语音合成效果不理想的问题。

在本申请的一个实施例中，提供了一种合成音频的输出方法，包括：将输入文本和指定的目标身份标识输入音频输出模型，其中，所述目标身份标识唯一对应目标身份，所述音频输出模型是使用样本数据训练的神经网络模型，所述音频输出模型中包含身份识别模型和语音合成模型；通过所述身份识别模型提取所述目标身份的身份特征序列，其中，所述身份识别模型在训练过程中保存了身份映射表，所述身份映射表中包含身份标识和身份特征序列之间的映射；通过所述语音合成模型的编码层提取所述输入文本对应的音素特征序列；将所述目标身份的身份特征序列和所述输入文本对应的音素特征序列叠加并输入所述语音合成模型的变量适配器，通过所述变量适配器对所述音素特征序列进行时长预测和对齐、能量预测以及音高预测后，经过语音合成模型的解码层进行解码并输出与所述输入文本对应的目标梅尔谱特征，其中，所述目标梅尔谱特征符合所述目标身份的说话风格；将所述目标梅尔谱特征输入声码器，通过所述声码器输出符合所述目标身份说话风格的合成音频。

在一实施例中，所述身份识别模型为基于残差网络构建的模型，在训练过程中，以卷积残差模块作为主体提取输入音频特征，经过特征平均模块将帧级的输入转换为话语级别的说话人特征，经过线性变换和标准化模块将临时汇集的说话人特征映射成一个与说话人的身份标识对应的身份特征序列，通过三重损失函数训练所述身份识别模型，以最大化相同说话人间的余弦相似度，并最小化不同人之间的余弦相似度。

在一实施例中，在将输入文本和指定的目标身份标识输入音频输出模型之前，所述方法包括：使用第一训练样本训练所述身份识别模型的初始模型，得到第一身份识别模型；使用第二训练样本训练所述语音合成模型的初始模型，得到第一语音合成模型；使用第三训练样本同时训练所述第一身份识别模型和所述第一语音合成模型，得到所述音频输出模型。

在一实施例中，所述使用第一训练样本训练所述身份识别模型的初始模型，得到第一身份识别模型，包括：将所述第一训练样本输入所述身份识别模型的初始模型，其中，所述第一训练样本包括：包含多个说话人音频的第一样本音频以及每个说话人对应的身份标签，所述身份识别模型的初始模型包括：至少两个卷积残差模块、平均模块、仿射模块、标准化模块和损失函数模块，所述卷积残差模块由第一卷积层和第一残差层组成，所述第一残差层包括至少两层卷积子层和一层激活函数子层；通过所述卷积残差模块输出所述第一样本音频数据对应的帧级音频特征，并进行0均值和方差归一化后输入所述平均模块；通过所述平均模块对接收到的数据进行平均处理以使特定长度的音频对应特定长度的音频特征，然后将经过平均处理的数据输入所述仿射模块；通过所述仿射模块对接收到的数据进行降维处理，然后通过标准化模块将降维处理后的数据映射为表示说话人身份的身份特征序列；通过所述损失函数模块验证所述身份特征序列和所述身份标签之间的差值，并更新所述身份识别模型的初始模型的模型参数，经过多次迭代，当所述身份特征序列和所述身份标签之间的差值小于第一预设阈值时，得到所述第一身份识别模型。

在一实施例中，所述使用第二训练样本训练所述语音合成模型的初始模型，得到第一语音合成模型，包括：将所述第二训练样本输入所述语音合成模型的初始模型，其中，所述第二训练样本包括：第二样本文本以及说话人以所述第二样本文本为内容录制的第二样本音频，所述语音合成模型的初始模型包括：特征编码模块、变量适配模块和特征解码模块，所述变量适配模块包括时长预测层、长度调节层、能量预测层和音高预测层；所述第二样本文本对应的音素特征序列以及所述第二样本音频数据对应的音频特征序列，其中，所述第二样本文本对应的音素特征序列是通过所述特征编码模块提取的，所述第二样本音频数据对应的音频特征序列是提前经数据预处理步骤处理好的；通过所述时长预测层对所述第二样本文本对应的音素特征序列进行时长预测处理，并将所述时长预测结果与所述第二样本音频数据对应的音频特征序列进行比对，得到第一损失函数；将所述第二样本文本对应的音素特征序列以及所述第二样本音频数据对应的音频特征序列作为第一数据输入所述时长预测层，所述时长预测层对输入的所述第一数据计算低维均值和方差后得到第二数据，从隐变量空间对所述第二数据进行采样处理得到潜在数据，对所述潜在数据进行升维处理得到第三数据，将所述第一数据与所述第三数据进行比对得到第二损失函数，将所述第三数据的概率分布与标准正态分布进行比对得到第三损失函数，其中，所述第一损失函数、所述第二损失函数和所述第三损失函数按照特定的权重共同调整所述时长预测层的参数；将所述时长预测层输出的数据输入所述长度调节层，根据数据拉长过程中的高斯分布概率进行对齐处理；将所述第二样本音频数据对应的音频特征序列分别输入所述能量预测层输出和所述音高预测层，输出能量特征序列和音高特征序列；将所述长度调节层、所述能量预测层输出和所述音高预测层输出的数据，分别输入所述特征解码模块，通过所述特征解码模块输出梅尔谱特征；通过损失函数验证所述特征解码模块输出的梅尔谱特征与所述第二样本音频数据对应的音频特征序列之间的差值，并更新所述语音合成模型的初始模型的模型参数，经过多次迭代，当所述特征解码模块输出的梅尔谱特征与所述第二样本音频数据对应的音频特征序列之间的差值小于第二预设阈值时，得到所述第一语音合成模型。

在一实施例中，所述使用第三训练样本同时训练所述第一身份识别模型和所述第一语音合成模型，得到所述音频输出模型，包括：将所述第三训练样本输入所述音频输出模型的初始模型，其中，所述音频输出模型的初始模型包括所述第一身份识别模型和所述第一语音合成模型，所述第三训练样本包括：第三样本音频以及所述第三样本音频对应的第三样本文本，所述第三样本音频中包含目标身份群体的音频；将所述第三样本文本经所述第一语音合成模型提取音素特征序列，通过隐变量空间转换为音素隐变量特征；通过所述第一身份识别模型提取每一条所述第三样本音频的身份特征，并对每一个身份特征对应的身份标识进行编码得到身份标识特征；将所述音素隐变量特征、所述身份特征和所述身份标识特征叠加后得到隐变量序列，使用所述隐变量序列训练所述第一语音合成模型的变量适配器模块；通过损失函数验证所述第一语音合成模型输出的梅尔谱特征与所述第三样本音频数据对应的音频特征之间的差值，并更新所述音频输出模型的初始模型的模型参数，经过多次迭代，当所述第一语音合成模型输出的梅尔谱特征与所述第三样本音频数据对应的音频特征之间的差值小于第三预设阈值时，得到所述音频输出模型。

在本申请的另一个实施例中，还提供了一种合成音频的输出装置，包括：输入模块，配置为将输入文本和指定的目标身份标识输入音频输出模型，其中，所述目标身份标识唯一对应目标身份，所述音频输出模型是使用样本数据训练的神经网络模型，所述音频输出模型中包含身份识别模型和语音合成模型；第一提取模块，配置为通过所述身份识别模型提取所述目标身份的身份特征序列，其中，所述身份识别模型在训练过程中保存了身份映射表，所述身份映射表中包含身份标识和身份特征序列之间的映射；第二提取模块，配置为通过所述语音合成模型的编码层提取所述输入文本对应的音素特征序列；处理模块，配置为将所述目标身份的身份特征序列和所述输入文本对应的音素特征序列叠加并输入所述语音合成模型的变量适配器，通过所述变量适配器对所述音素特征序列进行时长预测和对齐、能量预测以及音高预测后，输入到语音合成模型的解码层并输出与所述输入文本对应的目标梅尔谱特征，其中，所述目标梅尔谱特征符合所述目标身份的说话风格；输出模块，配置为将所述目标梅尔谱特征输入声码器，通过所述声码器输出符合所述目标身份说话风格的合成音频。

在本申请的一个实施例中，还提出了一种计算机可读的存储介质，所述存储介质中存储有计算机程序，其中，所述计算机程序被设置为运行时执行上述任一项方法实施例中的步骤。

在本申请的一个实施例中，还提出了一种电子装置，包括存储器和处理器，其特征在于，所述存储器中存储有计算机程序，所述处理器被设置为运行所述计算机程序以执行上述任一项方法实施例中的步骤。

通过本申请实施例提供的合成音频的输出方法，将输入文本和指定的目标身份标识输入音频输出模型，通过所述身份识别模型提取所述目标身份的身份特征序列，通过所述语音合成模型的编码层提取所述输入文本对应的音素特征序列，将所述目标身份的身份特征序列和所述输入文本对应的音素特征序列叠加并输入所述语音合成模型的变量适配器，通过所述变量适配器对所述音素特征序列进行时长预测和对齐、能量预测以及音高预测后，然后经过语音合成模型的解码层并输出与所述输入文本对应的目标梅尔谱特征，将所述目标梅尔谱特征输入声码器，通过所述声码器输出符合所述目标身份说话风格的合成音频。解决了相关技术中基于多发音人的语音合成方法无法解决语音中和现象，导致语音合成效果不理想的问题，通过身份识别模型在训练过程中保存身份映射表，身份映射表中包含身份标识和身份特征序列之间的映射，进而可以在音频合成过程中，通过身份识别模型提取目标身份的身份特征序列，将目标身份的身份特征序列和输入文本对应的音素特征序列叠加并输入语音合成模型的变量适配器，进而通过对所述音素特征序列进行时长预测和对齐、能量预测以及音高预测后，然后经过语音合成模型的解码层并输出与所述输入文本对应的目标梅尔谱特征，此时的目标梅尔谱特征符合目标身份的说话风格，有效避免了语音中和现象，合成音频更贴近目标身份的说话风格。

附图说明

此处所说明的附图用来提供对本申请的进一步理解，构成本申请的一部分，本申请的示意性实施例及其说明用于解释本申请，并不构成对本申请的不当限定。在附图中：

图1是根据本申请实施例的一种可选的合成音频的输出方法的流程图；

图2是根据本申请实施例的一种可选的音频输出模型的结构示意图；

图3是根据本申请实施例的一种可选的合成音频的输出装置的结构示意图；

图4是根据本申请实施例的一种可选的电子装置结构示意图。

实施方式

下文中将参考附图并结合实施例来详细说明本申请。需要说明的是，在不冲突的情况下，本申请中的实施例及实施例中的特征可以相互组合。

需要说明的是，本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。

图1是根据本申请实施例的一种可选的合成音频的输出方法的流程图，如图1所示，本申请实施例提供了一种合成音频的输出方法，包括：

步骤S102，将输入文本和指定的目标身份标识输入音频输出模型，其中，目标身份标识唯一对应目标身份，音频输出模型是使用样本数据训练的神经网络模型，音频输出模型中包含身份识别模型和语音合成模型；

步骤S104，通过身份识别模型提取目标身份的身份特征序列，其中，身份识别模型在训练过程中保存了身份映射表，身份映射表中包含身份标识和身份特征序列之间的映射；

步骤S106，通过语音合成模型的编码层提取所述输入文本对应的音素特征序列；

步骤S108，将目标身份的身份特征序列和输入文本对应的音素特征序列叠加并输入语音合成模型的变量适配器，通过变量适配器对音素特征序列进行时长预测和对齐、能量预测以及音高预测后，经过语音合成模型的解码层进行解码并输出与所述输入文本对应的目标梅尔谱特征，其中，目标梅尔谱特征符合所述目标身份的说话风格；

步骤S110，将目标梅尔谱特征输入声码器，通过声码器输出符合目标身份说话风格的合成音频。

需要说明的是，输入文本可以是中文、英文、韩语、日语或法语等多种类型的语言，语音合成模型的编码层针对不同类型的语言可以设置不同的编码方式，以得到准确的音素特征序列。

需要说明的是，身份识别模型和语音合成模型在训练过程中，先分别进行训练，再合在一起训练，例如，可以先使用通用的数据库中的大量训练样本来训练初始的身份识别模型，然后使用包含特定身份的训练样本来训练身份识别模型，同理，可以先使用通用的数据库中的大量训练样本来训练初始的语音合成模型，然后使用包含特定身份的训练样本来训练语音合成模型。在使用包含特定身份的训练样本来训练身份识别模型和语音合成模型时，可以直接将两个模型合在一起训练，也可以分别训练后再合在一起训练。

需要说明的是，身份识别模型为基于残差网络构建的模型，将语音句子映射到一个超平面，然后通过cosine similarity计算说话人之间的相似度，从而将不同说话人的特点进行区分。语音经过身份识别模型后，联合一个基于conformer结构的语音合成模型进行训练，从而来提高多发音人的语音与真实发音人的相似性。

图2是根据本申请实施例的一种可选的音频输出模型的结构示意图，如图2所示，在一实施例中，在将输入文本和指定的目标身份标识输入音频输出模型之前，所述方法包括：使用第一训练样本训练所述身份识别模型的初始模型，得到第一身份识别模型；使用第二训练样本训练所述语音合成模型的初始模型，得到第一语音合成模型；使用第三训练样本同时训练所述第一身份识别模型和所述第一语音合成模型，得到所述音频输出模型。

需要说明的是，第一训练样本和第二训练样本从通用数据库获取；第三训练样本为包含目标身份群体的音频的数据。第一训练样本中包含大量多说话人的语音数据，使得训练后的第一身份识别模型具有泛化的功能，可以有效识别不同的说话人身份标识，匹配对应的身份特征序列，进而匹配到对应的说话风格。

在一实施例中，所述使用第一训练样本训练所述身份识别模型的初始模型，得到第一身份识别模型，包括：将所述第一训练样本输入所述身份识别模型的初始模型，其中，所述第一训练样本包括：包含多个说话人音频的第一样本音频以及每个说话人对应的身份标签，所述身份识别模型的初始模型包括：至少两个卷积残差模块、平均模块、仿射模块、标准化模块和损失函数模块，所述卷积残差模块由第一卷积层和第一残差层组成，所述第一残差层包括至少四层卷积子层和一层激活函数子层；通过所述卷积残差模块输出所述第一样本音频数据对应的帧级音频特征，并进行0均值和方差归一化后输入所述平均模块；通过所述平均模块对接收到的数据进行平均处理以使特定长度的音频对应特定长度的音频特征，然后将经过平均处理的数据输入所述仿射模块；通过所述仿射模块对接收到的数据进行降维处理，然后通过标准化模块将降维处理后的数据映射为表示说话人身份的身份特征序列；通过所述损失函数模块验证所述身份特征序列和所述身份标签之间的差值，并更新所述身份识别模型的初始模型的模型参数，经过多次迭代，当所述身份特征序列和所述身份标签之间的差值小于第一预设阈值时，得到所述第一身份识别模型。

需要说明的是，卷积残差模块主要是由第一卷积层CNN和第一残差层Res组成，卷积残差模块可以包括2个、3个、4个甚至更多，个数越多训练的结果越好，本申请实施例优选采用3个或5个。其中第一残差层Res可以由2至4个残差块堆叠而成，每个残差块是由2至4个3*3的卷积子层（步长为1）和1个Relu激活函数组成。卷积残差模块主要是用于提取出语音帧级别的特征，是跟说话人相关的特征。例如可以提取64维的mfcc特征，并进行0均值和方差归一化。

需要说明的是，卷积残差模块提取出语音帧级别的特征涉及到的相关处理，可以包括：确定预设高斯分量数量；根据所述预设高斯分量数量，对所述身份识别数据集合中的数据进行预处理，生成所述身份识别数据集合中数据的高斯分量；其中，每一所述高斯分量的信息包括：权重信息、矢量信息和协方差矩阵。

具体地，第一身份识别模型的训练过程中的初始化处理，可设M=2048个高斯分量组件。即生成2048个单高斯分量，每个 i 分量（i=1，2...M）包括一个权重、一个均值矢量、一个协方差矩阵：λ = {ci，μi，∑i}，其中μi和∑i分别是矢量与矩阵。

高斯分量的信息提取是指将语音数据的特征序列，比如MFCC特征序列，用统计量来进行描述。提取的统计量属于高维特征，然后投影至低维空间中得到身份参数向量。在实际应用中，身份参数向量代表了不同说话人的身份信息。

平均模块用于实现语音特征平均的操作，主要作用是将卷积残差模块出来的语音帧特征进行平均化操作，使一段语音就对应一段特征，而不是每一帧语音都对应一段特征。主要是进行降维和归一化，降低计算复杂度，因为一段语音帧数N很多，每一帧都对应66维特征，会导致一小段语音就有N*66维，计算复杂度很高，训练会很慢。仿射模块用于特征维度的变换，例如将维度2048的特征变为512维，将维度降低，进而降低计算复杂度，减少模型的参数量，避免训练难收敛的情况。标准化模块将降维后的特征标准化之后，使其映射成一个表示说话者语音的向量，即表示说话人身份的身份特征序列。

需要说明的是，通过所述损失函数模块验证所述身份特征序列和所述身份标签之间的差值，并更新所述身份识别模型的初始模型的模型参数，本申请实施例中训练所述身份识别模型损失函数为三重损失函数，将三个样例同时输入身份识别模型，一个anchor点（特定说话人A说的一句话“M”），一个正例（同一个说话人A说的另一句话P），一个负例（另一个说话人B说的一句话“N”），B说的话可以与A说的话相同，也可以不同。不断更新anchor点与正例和负例之间的余弦相似度，从而最大化相同说话人间的余弦相似度，最小化不同人之间的余弦相似度。经过多次迭代，当所述身份特征序列和所述身份标签之间的差值小于第一预设阈值时，得到所述第一身份识别模型。余弦相似度的计算是根据现有公式cosine_similarity（）来计算的，输入是两个要比较的数值（三个样例两两进行比较），比如这里的M和N，输出对应的是A的身份标签。

需要说明的是，第二样本音频数据对应的音频特征序列是提前经数据预处理步骤处理好的，数据预处理步骤主要包括：提取音频的梅尔谱、音高、能量、时长的预测这些训练时所用的特征。

需要说明的是，第二样本文本对应的音素特征序列是通过所述特征编码模块提取的。特征编码模块将训练数据里的音素编码为音素向量，并加入位置编码来表达音素之间的相关性以及所在位置的信息。

需要说明的是，变量适配器可以额外引入不同的声学特征信息，如基频（音高）、时长、能量等用来控制合成出的语音的质量。在语音中，音素时长，直接影响发音长度和整体韵律；基频则是影响情感和韵律的另一个特征；能量则影响频谱的幅度，直接影响音频的音量，所以引入这三个变量会改善合成音频的质量。由于音频的梅尔频谱的长度要远远大于输入的音素的长度，输出需要将二者等长，所以需要长度调节层利用时长信息来扩展编码器输出的长度到频谱长度。主要是根据时长的具体值，直接上采样，即可实现扩展长度。

需要说明的是，时长预测单元用于对样本文本进行时长预测，时长用于控制文本所合成语音的韵律与节奏等，诸如说话的节奏、快慢等，可令合成的语音变的更自然。时长预测单元进一步包括MFA（Montreal Forced Aligner）子单元与变分自动编码子单元，两个子单元相互独立。

MFA子单元用于对特征编码模块输出的音素序列进行时长预测处理，将时长预测结果与样本音频时长进行比对，得到第一损失函数。

变分自动编码子单元用于对样本中的文本与音频进行自编码处理，通过对特征以自编码的形式得到一个新的数据，通过自编码得到的音频与样本音频之间的比较得到第二损失函数。变分自动编码子单元的核心内容是利用了潜在特征进行损失函数的计算。以下对变分自动编码子单元的工作原理进行描述：

变分自动编码子单元由编码器部分与解码器部分构成，编码器部分用于对输入数据X（音素特征和音频特征拼接到一起的特征，相当于第一数据）计算其低维（几百维左右）均值和方差，并进一步通过低维均值和方差（得到第二数据），从隐变量空间对X进行采样处理得到输入数据对应的潜在数据Z（相当于潜在数据）。解码器部分用于根据上述潜在数据Z进行升维处理后生成新的数据Y（相当于第三数据）。变分自动编码子单元的原理在于，通过按照输入数据X的概率分布进行采样以得到潜在数据Z，并进一步生成与原始的输入数据X不同，但遵循输入数据X的概率分布的新数据Y。以这种方式，在语音合成的过程中，即使样本数量较少，也可通过上述自编码的过程得到样本数据的概率分布，以得到较好的训练效果。

上述隐变量空间采样过程中，为保证潜在数据 Z 的概率分布符合输入数据 X，可先假设存在一个 Z 关于 X 的后验概率，并进一步假设该后验概率分布符合正态分布，以该后验概率分布去计算Z关于X的先验概率，即可令Z的概率分布符合输入数据 X的概率分布。

对于第二损失函数，其包括两个部分，一个部分用于计算生成的数据Y与原始数据X的相似程度，另一部分用于计算输出数据Y的概率分布与标准正态分布的差异。

上述MFA子单元的第一损失函数与变分自动编码子单元的第二损失函数共同构成本申请实施例中时长预测层的损失函数。以上MFA子单元与变分自动编码子单元的输出，统一输入至长度调节层中进行处理。

需要说明的是，联合训练时，首先将训练文本经第一语音合成模型中的特征编码模块得到音素特征序列，同时用训练好的第一身份识别模型提取出训练数据的每个身份特征序列，同时将多个说话人的标识进行编码，得到身份标识特征序列，同时提取出音频数据中的基频特征、时长特征和能量特征，将这三者与音素特征序列、身份特征序列和身份标识特征序列一起合并叠加，这样就得到具有说话人音色的隐变量，然后隐变量输入变量适配器模块一起进行训练，最终经解码器将变量适配器模块生成的适配后的隐变量并行地转换成梅尔谱特征。

在具体应用中，将输入文本和指定的目标身份标识输入音频输出模型，通过解码器输出目标梅尔谱特征后，经声码器可以输出符合所述目标身份说话风格的合成音频。

在本申请的另一个实施例中，还提供了一种合成音频的输出装置，用于实现上述任一方法步骤，已经陈述过的方案此处不再重复。如图3所示，所述合成音频的输出装置包括：

输入模块302，配置为将输入文本和指定的目标身份标识输入音频输出模型，其中，所述目标身份标识唯一对应目标身份，所述音频输出模型是使用样本数据训练的神经网络模型，所述音频输出模型中包含身份识别模型和语音合成模型；

第一提取模块304，配置为通过所述身份识别模型提取所述目标身份的身份特征序列，其中，所述身份识别模型在训练过程中保存了身份映射表，所述身份映射表中包含身份标识和身份特征序列之间的映射；

第二提取模块306，配置为通过所述语音合成模型的编码层提取所述输入文本对应的音素特征序列；

处理模块308，配置为将所述目标身份的身份特征序列和所述输入文本对应的音素特征序列叠加并输入所述语音合成模型的变量适配器，通过所述变量适配器对所述音素特征序列进行时长预测和对齐、能量预测以及音高预测后，输入到语音合成模型的解码层并输出与所述输入文本对应的目标梅尔谱特征，其中，所述目标梅尔谱特征符合所述目标身份的说话风格；

输出模块310，配置为将所述目标梅尔谱特征输入声码器，通过所述声码器输出符合所述目标身份说话风格的合成音频。

本申请实施例提供的音频输出模型，可以在使用第一样本数据和第二样本数据训练完成后，生成一个通用模型，用户在使用过程中，仅需要提供10-20min的小样本数据即可完成包含针对性目标身份的模型训练，而变分自动编码子单元与MFA子单元的并用，令通过上述10-20min的小样本数据即可达到较为理想的训练效果。

根据本申请实施例的又一个方面，还提供了一种用于实施上述合成音频的输出方法的电子装置，上述电子装置可以但不限于应用于服务器中。如图4所示，该电子装置包括存储器402和处理器404，该存储器402中存储有计算机程序，该处理器404被设置为通过计算机程序执行上述任一项方法实施例中的步骤。

可选地，在本实施例中，上述电子装置可以位于计算机网络的多个网络设备中的至少一个网络设备。

可选地，在本实施例中，上述处理器可以被设置为通过计算机程序执行以下步骤：

S1，获取第一音频特征和第一图像特征，其中，第一音频特征为第一对象的语音数据特征，第一图像特征为包含目标对象的嘴部图像的图像序列；

S2，将第一音频特征和第一图像特征输入训练好的音频驱动口型网络模型，其中，所述音频驱动口型网络模型为使用样本视频数据和样本口型图像对初始音频驱动口型网络模型进行训练后得到的模型；

S3，将第一音频特征和第一图像特征拼接后依次进行卷积编码和深度学习，得到第二图像特征；

S4，基于特征抽取和亚像素卷积的方法，通过卷积和多通道间的重组，将第一分辨率的第二图像特征转换为第二分辨率的目标图像特征，其中，所述第一分辨率小于所述第二分辨率；

S5，将目标图像特征进行反卷积编码，输出与第一音频特征对应的目标对象的口型图像。

可选地，本领域普通技术人员可以理解，图4所示的结构仅为示意，电子装置也可以是智能手机（如Android手机、iOS手机等）、平板电脑、掌上电脑以及移动互联网设备（Mobile Internet Devices，MID）、PAD等终端设备。图4其并不对上述电子装置的结构造成限定。例如，电子装置还可包括比图4中所示更多或者更少的组件（如网络接口等），或者具有与图4所示不同的配置。

其中，存储器402可用于存储软件程序以及模块，如本申请实施例中的合成音频的输出方法和装置对应的程序指令/模块，处理器404通过运行存储在存储器402内的软件程序以及模块，从而执行各种功能应用以及数据处理，即实现上述的合成音频的输出方法。存储器402可包括高速随机存储器，还可以包括非易失性存储器，如一个或者多个磁性存储装置、闪存、或者其他非易失性固态存储器。在一些实例中，存储器402可进一步包括相对于处理器404远程设置的存储器，这些远程存储器可以通过网络连接至终端。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。其中，存储器402具体可以但不限于用于储存语音分离方法的程序步骤。

可选地，上述的传输装置406用于经由一个网络接收或者发送数据。上述的网络具体实例可包括有线网络及无线网络。在一个实例中，传输装置406包括一个网络适配器（Network Interface Controller，NIC），其可通过网线与其他网络设备与路由器相连从而可与互联网或局域网进行通讯。在一个实例中，传输装置406为射频（Radio Frequency，RF）模块，其用于通过无线方式与互联网进行通讯。

此外，上述电子装置还包括：显示器408，用于显示合成音频的输出过程；和连接总线410，用于连接上述电子装置中的各个模块部件。

本申请的实施例还提供了一种计算机可读的存储介质，该存储介质中存储有计算机程序，其中，该计算机程序被设置为运行时执行上述任一项方法实施例中的步骤。

可选地，在本实施例中，上述存储介质可以被设置为存储用于执行以下步骤的计算机程序：

本申请实施例中所涉及的实时音频驱动口型系统侧重后端算法，在实现过程中不涉及用于计算处理的服务器或终端设备以外的其他执行主体，仅在信息采集、展示等阶段涉及本领域常用的视频采集设备，音频接收设备，视频展示设备等。

上述本申请实施例序号仅仅为了描述，不代表实施例的优劣。

上述实施例中的集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在上述计算机可读取的存储介质中。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在存储介质中，包括若干指令用以使得一台或多台计算机设备（可为个人计算机、服务器或者网络设备等）执行本申请各个实施例所述方法的全部或部分步骤。

在本申请的上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述的部分，可以参见其他实施例的相关描述。

在本申请所提供的几个实施例中，应该理解到，所揭露的客户端，可通过其它的方式实现。其中，以上所描述的装置实施例仅仅是示意性的，例如所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，单元或模块的间接耦合或通信连接，可以是电性或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本申请各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

以上所述仅是本申请的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本申请原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本申请的保护范围。

Claims

1.一种合成音频的输出方法，其特征在于，包括：

将输入文本和指定的目标身份标识输入音频输出模型，其中，所述目标身份标识唯一对应目标身份，所述音频输出模型是使用样本数据训练的神经网络模型，所述音频输出模型中包含身份识别模型和语音合成模型；

通过所述身份识别模型提取所述目标身份的身份特征序列，其中，所述身份识别模型在训练过程中保存了身份映射表，所述身份映射表中包含身份标识和身份特征序列之间的映射；

通过所述语音合成模型的编码层提取所述输入文本对应的音素特征序列；

将所述目标身份的身份特征序列和所述输入文本对应的音素特征序列叠加并输入所述语音合成模型的变量适配器，通过所述变量适配器对所述音素特征序列进行时长预测和对齐、能量预测以及音高预测后，经过语音合成模型的解码层进行解码并输出与所述输入文本对应的目标梅尔谱特征，其中，所述目标梅尔谱特征符合所述目标身份的说话风格；

将所述目标梅尔谱特征输入声码器，通过所述声码器输出符合所述目标身份说话风格的合成音频。

2.如权利要求1所述的合成音频的输出方法，其特征在于，所述身份识别模型为基于残差网络构建的模型，在训练过程中，以卷积残差模块作为主体提取输入音频特征，经过特征平均模块将帧级的输入转换为话语级别的说话人特征，经过线性变换和标准化模块将临时汇集的说话人特征映射成一个与说话人的身份标识对应的身份特征序列，通过三重损失函数训练所述身份识别模型，以最大化相同说话人间的余弦相似度，并最小化不同人之间的余弦相似度。

3.如权利要求1所述的合成音频的输出方法，其特征在于，在将输入文本和指定的目标身份标识输入音频输出模型之前，所述方法包括：

使用第一训练样本训练所述身份识别模型的初始模型，得到第一身份识别模型；

使用第二训练样本训练所述语音合成模型的初始模型，得到第一语音合成模型；

使用第三训练样本同时训练所述第一身份识别模型和所述第一语音合成模型，得到所述音频输出模型。

4.如权利要求3所述的合成音频的输出方法，其特征在于，所述使用第一训练样本训练所述身份识别模型的初始模型，得到第一身份识别模型，包括：

将所述第一训练样本输入所述身份识别模型的初始模型，其中，所述第一训练样本包括：包含多个说话人音频的第一样本音频以及每个说话人对应的身份标签，所述身份识别模型的初始模型包括：至少两个卷积残差模块、平均模块、仿射模块、标准化模块和损失函数模块，所述卷积残差模块由第一卷积层和第一残差层组成，所述第一残差层包括至少四层卷积子层和一层激活函数子层；

通过所述卷积残差模块输出所述第一样本音频数据对应的帧级音频特征，并进行0均值和方差归一化后输入所述平均模块；

通过所述平均模块对接收到的数据进行平均处理以使特定长度的音频对应特定长度的音频特征，然后将经过平均处理的数据输入所述仿射模块；

通过所述仿射模块对接收到的数据进行降维处理，然后通过标准化模块将降维处理后的数据映射为表示说话人身份的身份特征序列；

通过所述损失函数模块验证所述身份特征序列和所述身份标签之间的差值，并更新所述身份识别模型的初始模型的模型参数，经过多次迭代，当所述身份特征序列和所述身份标签之间的差值小于第一预设阈值时，得到所述第一身份识别模型。

5.如权利要求3所述的合成音频的输出方法，其特征在于，所述使用第二训练样本训练所述语音合成模型的初始模型，得到第一语音合成模型，包括：

将所述第二训练样本输入所述语音合成模型的初始模型，其中，所述第二训练样本包括：第二样本文本以及说话人以所述第二样本文本为内容录制的第二样本音频，所述语音合成模型的初始模型包括：特征编码模块、变量适配模块和特征解码模块，所述变量适配模块包括时长预测层、长度调节层、能量预测层和音高预测层；

获取所述第二样本文本对应的音素特征序列以及所述第二样本音频数据对应的音频特征序列，其中，所述第二样本文本对应的音素特征序列是通过所述特征编码模块提取的，所述第二样本音频数据对应的音频特征序列是提前经数据预处理步骤处理好的；

通过所述时长预测层对所述第二样本文本对应的音素特征序列进行时长预测处理，并将所述时长预测结果与所述第二样本音频数据对应的音频特征序列进行比对，得到第一损失函数；

将所述第二样本文本对应的音素特征序列以及所述第二样本音频数据对应的音频特征序列作为第一数据输入所述时长预测层，所述时长预测层对输入的所述第一数据计算低维均值和方差后得到第二数据，从隐变量空间对所述第二数据进行采样处理得到潜在数据，对所述潜在数据进行升维处理得到第三数据，将所述第一数据与所述第三数据进行比对得到第二损失函数，将所述第三数据的概率分布与标准正态分布进行比对得到第三损失函数，其中，所述第一损失函数、所述第二损失函数和所述第三损失函数按照特定的权重共同调整所述时长预测层的参数；

将所述时长预测层输出的数据输入所述长度调节层，根据数据拉长过程中的高斯分布概率进行对齐处理；

将所述第二样本音频数据对应的音频特征序列分别输入所述能量预测层输出和所述音高预测层，输出能量特征序列和音高特征序列；

将所述长度调节层、所述能量预测层输出和所述音高预测层输出的数据，叠加后输入所述特征解码模块，通过所述特征解码模块输出梅尔谱特征；

通过损失函数验证所述特征解码模块输出的梅尔谱特征与所述第二样本音频数据对应的音频特征序列之间的差值，并更新所述语音合成模型的初始模型的模型参数，经过多次迭代，当所述特征解码模块输出的梅尔谱特征与所述第二样本音频数据对应的音频特征序列之间的差值小于第二预设阈值时，得到所述第一语音合成模型。

6.如权利要求3所述的合成音频的输出方法，其特征在于，所述使用第三训练样本同时训练所述第一身份识别模型和所述第一语音合成模型，得到所述音频输出模型，包括：

将所述第三训练样本输入所述音频输出模型的初始模型，其中，所述音频输出模型的初始模型包括所述第一身份识别模型和所述第一语音合成模型，所述第三训练样本包括：第三样本音频以及所述第三样本音频对应的第三样本文本，所述第三样本音频中包含目标身份群体的音频；

将所述第三样本文本经所述第一语音合成模型提取音素特征序列，通过隐变量空间转换为音素隐变量特征；

通过所述第一身份识别模型提取每一条所述第三样本音频的身份特征，并对每一个身份特征对应的身份标识进行编码得到身份标识特征；

将所述音素隐变量特征、所述身份特征和所述身份标识特征，以及所述第三样本音频对应的基频特征、时长特征和能量特征叠加后得到隐变量序列，使用所述隐变量序列训练所述第一语音合成模型的变量适配器模块；

通过损失函数验证所述第一语音合成模型输出的梅尔谱特征与所述第三样本音频数据对应的音频特征之间的差值，并更新所述音频输出模型的初始模型的模型参数，经过多次迭代，当所述第一语音合成模型输出的梅尔谱特征与所述第三样本音频数据对应的音频特征之间的差值小于第三预设阈值时，得到所述音频输出模型。

7.一种合成音频的输出装置，其特征在于，包括：

输入模块，配置为将输入文本和指定的目标身份标识输入音频输出模型，其中，所述目标身份标识唯一对应目标身份，所述音频输出模型是使用样本数据训练的神经网络模型，所述音频输出模型中包含身份识别模型和语音合成模型；

第一提取模块，配置为通过所述身份识别模型提取所述目标身份的身份特征序列，其中，所述身份识别模型在训练过程中保存了身份映射表，所述身份映射表中包含身份标识和身份特征序列之间的映射；

第二提取模块，配置为通过所述语音合成模型的编码层提取所述输入文本对应的音素特征序列；

处理模块，配置为将所述目标身份的身份特征序列和所述输入文本对应的音素特征序列叠加并输入所述语音合成模型的变量适配器，通过所述变量适配器对所述音素特征序列进行时长预测和对齐、能量预测以及音高预测后，输入到语音合成模型的解码层并输出与所述输入文本对应的目标梅尔谱特征，其中，所述目标梅尔谱特征符合所述目标身份的说话风格；

输出模块，配置为将所述目标梅尔谱特征输入声码器，通过所述声码器输出符合所述目标身份说话风格的合成音频。

8.一种计算机可读的存储介质，其特征在于，所述存储介质中存储有计算机程序，其中，所述计算机程序被设置为运行时执行权利要求1至6任一项中所述的方法。

9.一种电子装置，包括存储器和处理器，其特征在于，所述存储器中存储有计算机程序，所述处理器被设置为运行所述计算机程序以执行权利要求1至6任一项中所述的方法。