CN113327572B

CN113327572B - 基于情感类别标签的可控情感语音合成方法及系统

Info

Publication number: CN113327572B
Application number: CN202110612224.8A
Authority: CN
Inventors: 吴志勇; 李翔
Original assignee: Shenzhen International Graduate School of Tsinghua University
Current assignee: Shenzhen International Graduate School of Tsinghua University
Priority date: 2021-06-02
Filing date: 2021-06-02
Publication date: 2024-02-09
Anticipated expiration: 2041-06-02
Also published as: CN113327572A

Abstract

本发明公开了一种基于情感类别标签的可控情感语音合成系统及方法，该方法包括：文本特征提取步骤，用于从输入的音素序列中提取出语音文本特征；语音风格特征提取步骤，用于接收与音素序列对应的目标语音的声学特征，并从声学特征中提取出语音风格特征；语音风格特征记忆步骤，用于根据语音风格特征得到目标语音的情感风格特征；声学特征预测步骤，用于根据语音文本特征和情感风格特征预测合成情感语音声学特征。本发明可提高语音风格特征与语音文本特征的解耦程度，使得合成语音的风格调控结果不受文本内容限制，提升合成语音的可控性和灵活性，并且可有效利用语料中语音的情感标签与各情感数据分布信息，以更高效地提取各情感的语音风格特征。

Description

基于情感类别标签的可控情感语音合成方法及系统

技术领域

本发明涉及人工智能技术领域，尤其涉及一种基于情感类别标签的可控情感语音合成系统及方法。

背景技术

情感，是人类语音中除文本内容之外反映语义信息和说话人状态的重要副语言信息。情感语音合成着力于提高语音合成系统输出语音在表达效果上的丰富性、听感上的拟真性，从而提高合成语音的自然度，是提升语音交互体验的重要技术基础，在智能语音助手、有声小说生成等多种交互场景下有着多样的应用前景。

传统的语音合成方法中，波形拼接式语音合成对语料要求较高，基于隐马尔可夫模型的统计参数合成音质和自然度偏低。目前随着深度学习的发展，基于神经网络中的序列到序列模型的端到端式统计参数合成方法逐渐成为主流。

普通的端到端式合成方法中，虽然合成语音质量得到了提升，但缺乏对于合成语音韵律、情感的控制。在此基础上，有研究者尝试了通过加入语音风格提取模块，训练模型从语料中提取风格隐变量并进行记忆，以用于指导模型合成出更有表现力的语音。但是目前面向情感语料的语音情感风格学习研究较少，仍缺乏有效可控的高自然度情感语音合成方法。

相关技术中，提出了普通的端到端语音合成技术，但该技术中缺乏对合成语音韵律和表现力的控制。相关技术还提出了一个语音风格提取模块，实现从给定的参考语音中提取风格特征，用于指导表现力语音合成。在此基础上，还进一步提出了基于全局风格令牌的风格特征聚类方法，实现了不依赖于参考语音直接进行合成语音风格调控的语音合成方法。然而，为了合成出指定情感的语音，相关技术尝试在基于全局风格令牌的风格特征聚类方法中的风格特征聚类学习过程中，加入普通的情感分类监督信息，实现面向情感类别的语音风格聚类。

然而上述方法存在如下技术问题：（1）合成系统的灵活性和风格可控性受到限制；（2）合成系统对语料中风格信息的利用存在缺陷。

发明内容

本发明旨在提出一种基于情感类别标签的可控情感语音合成方法及系统，提升合成语音的可控性和灵活性，更高效地提取各情感的语音风格特征。

为达到上述目的，本发明第一方面提出了一种基于情感类别标签的可控情感语音合成方法，如下步骤：S1、文本特征提取，从输入的音素序列中提取出语音文本特征；S2、语音风格特征提取，接收与所述音素序列对应的目标语音的声学特征，并从所述声学特征中提取出语音风格特征；S3、语音风格特征记忆，根据所述语音风格特征得到所述目标语音的情感风格特征；S4、声学特征预测，根据所述语音文本特征和所述情感风格特征预测合成情感语音声学特征。

在一些实施例中，还包括如下技术特征：

所述文本特征提取中使用一特征查询表、三层卷积神经网络和一层双向长短期记忆网络。

所述文本特征提取包括：

通过所述特征查询表将所述音素序列中的每个语音文本符号转化为浮点型向量，得到第一特征序列，并将所述第一特征序列输入到所述三层卷积神经网络和所述双向长短期记忆网络中，以得到所述语音文本特征。

所述语音风格特征提取采用五层卷积神经网络和一层门控循环单元。

所述语音风格特征提取包括：

接收目标语音的声学特征，将所述声学特征输入至所述五层卷积神经网络中得到第二特征序列，并将所述第二特征序列输入至所述门控循环单元中，取最后一时间步的输出，得到所述语音风格特征。

所述语音风格特征记忆采用若干个全局风格令牌表和第一注意力机制单元。

所述语音风格特征记忆包括：采用所述第一注意力机制单元预测所述若干个全局风格令牌表中的多个风格令牌与所述语音风格特征之间的相似度，并基于所述相似度对所述多个风格令牌进行加权，以得到所述目标语音的情感风格特征。

所述语音风格特征记忆还包括基于外部提供的目标语音情感标签，通过情感分类损失函数进行语音风格特征记忆。

所述的基于情感类别标签的可控情感语音合成方法，还包括：解耦步骤，根据所述语音文本特征和所述情感风格特征预估所述语音文本特征和所述情感风格特征之间的互信息大小，并对所述互信息取相反数，以及通过取相反数后的互信息指导系统学习和所述音素序列无关的风格信息。

本发明还提出一种基于情感类别标签的可控情感语音合成系统，其特征在于，包括处理器和存储器，所述存储器中存储有计算机软件，所述计算机软件可处理器执行以实现所述的方法。

本发明至少具有以下优点之一：

本发明通过文本特征提取、语音风格特征提取和语音风格特征记忆以及声学特征预测可根据任意给定的语音文本及目标语音的声学特征，自动合成出情感风格符合指定声学特征的目标语音，提高了语音风格特征与语音文本特征的解耦程度，使得合成语音的风格调控结果不受文本内容限制，提升合成语音的可控性和灵活性，并且可有效利用语料中语音的情感标签与各情感数据的分布信息，以更高效地提取各情感的语音风格特征，从而提高合成语音的表现力与丰富性，提升智能语音交互系统的自然度与拟真性。

进一步地，在本发明的基于情感类别标签的可控情感语音合成系统中通过增加解耦步骤可进一步提高语音风格特征与语音文本特征的解耦程度，使得合成语音的风格调控结果不受文本内容限制，提升合成语音的可控性和灵活性，并且语音风格特征记忆模块还可有效利用语料中语音的情感标签与各情感数据的分布信息，以更高效地提取各情感的语音风格特征。

本发明附加的方面和优点将在下面的描述中部分给出，部分将从下面的描述中变得明显，或通过本发明的实践了解到。

附图说明

图1为本发明一实施例提供的基于情感类别标签的可控情感语音合成系统的结构框图；

图2为本发明一实施例提供的基于情感类别标签的可控情感语音合成系统的工作原理图；

图3为本发明一实施例提供基于情感类别标签的可控情感语音合成方法的流程图。

具体实施方式

下面详细描述本发明的实施例，所述实施例的示例在附图中示出，其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的，旨在用于解释本发明，而不能理解为对本发明的限制。

承如背景技术所述，相关技术中描述的语音合成方法存在如下技术问题：缺乏对于语音风格特征和语音文本内容特征的解耦，合成系统的灵活性和风格可控性受到限制，以及缺乏面向情感语料设计的语音情感风格学习方法，合成系统对语料中风格信息的利用存在缺陷。

针对上述技术问题，本实施例提出了基于语料信息的情感风格学习方法和基于互信息估计的情感风格与文本解耦方法。上述方法应用于本申请所提出的基于情感类别标签的可控情感语音合成系统中。

其中，基于语料信息的情感风格学习方法可利用语料中的情感类别标签，通过在语音风格提取模块的训练中加入基于情感分类的监督信息，从而可有效调控语音风格模块的学习结果，进而可提高模型的可解释性与合成语音风格的可控性；基于互信息估计的情感风格与文本解耦方法主要是基于随机分布间的互信息估计方法，通过限制文本特征与情感风格特征间的互信息交叉程度，从而实现语音情感与语音内容的解耦，进而提高了情感语音合成模型的灵活性与合成效果稳定性。

下面参考附图描述本实施例的基于情感类别标签的可控情感语音合成系统及方法。

参考图1所示，本实施例提供的一种基于情感类别标签的可控情感语音合成系统包括文本特征提取模块10、语音风格特征提取模块20、语音风格特征记忆模块30和声学特征预测模块40。相对应地，如图3所示，本实施例的基于情感类别标签的可控情感语音合成方法包括如下步骤：S1，从输入的音素序列中提取出语音文本特征；S2，接收与所述音素序列对应的目标语音的声学特征，并从所述声学特征中提取出语音风格特征；S3，根据所述语音风格特征得到所述目标语音的情感风格特征；S4，根据所述语音文本特征和所述情感风格特征预测合成情感语音声学特征。

具体地，参考图2所示，文本特征提取模块10，用于从输入的音素序列中提取出语音文本特征；语音风格特征提取模块20，用于接收与所述音素序列对应的目标语音的声学特征，并从所述声学特征中提取出语音风格特征；语音风格特征记忆模块30，与所述语音风格特征提取模块20连接，所述语音风格特征记忆模块30用于根据所述语音风格特征得到所述目标语音的情感风格特征；声学特征预测模块40，分别与所述文本特征提取模块10和所述语音风格特征记忆模块30连接，所述声学特征预测模块40用于根据所述语音文本特征和所述情感风格特征预测合成情感语音声学特征。

在本发明的一个实施例中，所述文本特征提取模块10包括一特征查询表、三层卷积神经网络和一层双向长短期记忆网络。

所述文本特征提取模块10具体用于通过所述特征查询表将所述音素序列中的每个语音文本符号转化为浮点型向量，得到第一特征序列，并将所述第一特征序列输入到所述三层卷积神经网络和所述双向长短期记忆网络中，以得到所述语音文本特征。

具体地，文本特征提取模块10包含三层卷积神经网络和一层双向长短期记忆网络以及一特征查询表。文本特征提取模块10用于从输入的文本信息或音素序列中提取出包含上下文信息的音素级发音内容信息即语音文本特征。

作为一个示例，向该模块输入需要合成的文本，对于中文语音合成，其具体形式为形如（“h”，“e”，“2”，“ch”，“eng”，“2”，……）的音素符号序列，其中“h”等为音素符号（序列长度记为N）。该序列通过一个可训练的特征查询表将每个符号转化为d1维的浮点型向量作为特征表示，即整个序列被转化为一个大小为N*d1的初始特征序列即第一特征序列。该特征序列随后被输入至三层卷积神经网络和一层双向长短期记忆网络，得到一个大小为N*d2的语音文本特征序列即语音文本特征，该序列即为本模块的最终输出。其中，d1和d2为可配置参数。

在本发明的一个实施例中，所述语音风格特征提取模块20包括五层卷积神经网络和一层门控循环单元。

所述语音风格特征提取模块20具体用于接收目标语音的声学特征，将所述声学特征输入至所述五层卷积神经网络中得到第二特征序列，并将所述第二特征序列输入至所述门控循环单元中，取最后一时间步的输出，得到所述语音风格特征。

具体地，语音风格特征提取模块20包含五层卷积神经网络与一层门控循环单元。在训练阶段，语音风格特征提取模块20接受目标语音的声学特征，提取出一个高维向量形式的语音风格特征。

作为一个示例，向语音风格特征提取模块20输入目标语音的声学特征。具体形式为T1*ds1的语谱图，其中T1为语谱谱的帧数，ds1为频带数。具体地，该声学特征对应的序列首先输入五层卷积神经网络中，得到一个T2*ds2的第二特征序列；该第二特征序列再通过一层门控循环单元，取最后一个时间步的输出，得到一个d3维的特征向量，该高维向量即为最终输出的语音风格特征。其中，ds1、ds2和d3为可配置参数。

在本发明的一个实施例中，所述语音风格特征记忆模块30包括若干个全局风格令牌表和第一注意力机制单元。

所述语音风格特征记忆模块30具体用于：采用所述第一注意力机制单元预测所述若干个全局风格令牌表中的多个风格令牌与所述语音风格特征之间的相似度，并基于所述相似度对所述多个风格令牌进行加权，以得到所述目标语音的情感风格特征。所述语音风格特征记忆模块30还用于基于外部提供的目标语音情感标签，通过情感分类损失函数进行语音风格特征记忆。

具体地，语音风格特征记忆模块30包含若干高维隐向量组成的全局风格令牌表（表长与训练语料中情感类别数目相同），以及一个预测特征相似度的第一注意力机制单元。训练时，首先利用第一注意力机制单元，预测各风格令牌与前继模块所提取的语音风格特征之间的相似度，基于该相似度对各令牌进行加权得到目标语音的情感风格特征。同时，如图2所示，基于所提供的目标语音情感标签，通过损失函数Focal Loss计算额外的情感分类损失函数，用于训练模型面向语料中的情感分布进行语音风格特征记忆。通过调节FocalLoss中的函数参数，可实现在非平衡和不同标注强度的语料上的有效训练。

作为一个示例，向该模块输入从语音风格特征提取模块20提取的d3维的语音风格特征向量。语音风格特征记忆模块30接收输入后，使用第一注意力机制单元，计算全局风格令牌表中各风格令牌与该输入特征的相似度，得到一个NT维的权重向量，这里NT是表中令牌个数，表中每个令牌均为dT维的特征向量。基于该权重向量得到各令牌的特征加权和，即一个dT维的情感风格特征向量，以作为语音风格特征记忆模块30的最终输出。

在面向情感语料进行模型训练时，需保持NT和语料中情感类别数目一致，同时训练时加入Focal Loss作为损失函数之一，以实现面向情感的语音风格特征聚类效果。其中Focal Loss 的计算公式如下：

（1）

这里为了面向语料进行更平衡的训练，需要将αj需设置为第j种情感的语料句数与语料句数的比值。（n为训练中一个批次的样本总数；pt为注意力机制计算得到的相似度权重值；γ，NT为可配置参数）

在本发明的一个实施例中，所述系统还包括：解耦模块50，分别与所述文本特征提取模块10和所述语音风格特征记忆模块30连接，所述解耦模块50用于根据所述语音文本特征和所述情感风格特征预估所述语音文本特征和所述情感风格特征之间的互信息大小，并对所述互信息取相反数，以及通过取相反数后的互信息指导所述系统学习和所述音素序列无关的风格信息。

具体地，解耦模块50接收文本特征提取模块10提取的语音文本特征和语音风格特征记忆模块30输出的情感风格特征，然后估计两者分布之间的互信息大小，取相反数后，作为模型训练目标函数的补充，指导模型学习和文本内容无关的风格信息。

作为一个示例，解耦模块50可包含两层全连接层和一层输出层。具体地，可向解耦模块50输入大小为N*d2的语音文本特征序列和d3维情感风格特征向量。解耦模块50接收输入后，通过公式计算得到两个输入之间的互信息估计值，作为其他模块的训练损失函数之一，训练时，该模块的优化目标函数值为该互信息值取相反数，所述公式表示如下：

（2）

其中，n为训练中一个批次的样本总数，y为语音文本特征序列，z为情感风格特征向量，T表示模块中的两层全连接层和一层输出层，而为随机打乱顺序之后的语音文本特诊该序列。

进一步地，声学特征预测模块40接收文本特征提取模块10提取的语音文本特征和语音风格特征记忆模块30输出的情感风格特征，然后预测目标语音的声学特征，即为合成结果。

具体地，该声学特征预测模块40由预处理网络、两个线性映射网络、后处理网络、一层双向长短期记忆网络和第二注意力机制单元组成，其中预处理网络与线性映射网络实际为两层全连接神经网络，后处理网络为五层卷积神经网络。该模块输入情感风格特征向量，复制扩展后，与文本特征序列拼接得到大小为N*（d2+d3）的特征序列。声学特征预测模块40接收输入后，按逐步推导的方式，通过T个时间步，解码生成形如T*ds的目标语音声学特征序列，即情感语音声学特征，作为最终合成结果。

其中每一步里，首先将上一步两层双向长短期记忆网络的输出通过预处理网络，与上一步的上下文特征向量拼接，再输入双向长短期记忆网络得到中间特征。该中间特征和输入的N*（d2+d3）的特征序列共同送入第二注意力机制单元中，计算得到当前时间步的上下文特征向量。该上下文特征向量先与中间特征拼接，再分别被送入至两个线性映射网络中。其中，第1个线性映射网络的输出进一步通过后处理网络预测残差，再加上原始值后成为当前时间步的最终输出，即ds维的声学特征；第二个线性映射网络则输出预测截止当前时间步音频是否合成完毕的概率，当该概率大于预定阈值时，即决策在当前时间步停止解码过程。

需要说明的是，关于文本特征提取模块10，也可采用其他结构的神经网络实现；关于语音风格特征提取模块20，也可采用其他结构的神经网络实现；关于语音风格特征记忆模块30，也可采用变分自编码器等其他神经网络实现；关于声学特征预测模块40的注意力机制，也可采用其他类型。

限于本发明提出的基于情感类别标签的可控情感语音合成方法的具体实施方式与上述基于情感类别标签的可控情感语音合成系统的具体实施方式相同，所以请具体参阅上述基于情感类别标签的可控情感语音合成系统的具体实施方式，此处不再进行详细赘述。

进一步地，本发明首先接收所需合成的语音文本所对应的中文音素序列，以及所指定的情感类别标签。然后通过编码模块从音素序列中提取出音素级别的中间特征序列，同时通过情感风格模块将情感类别标签转化为高维特征。最后利用基于注意力机制的解码模块预测出目标音频的声学特征序列。本发明立足于包含语音情感类别标签和语音文本标注的情感语音合成语料库，通过在情感语料上进行训练，并加入文本解耦模块和基于类别标签的情感监督信息，赋予系统合成语料中各类情感的能力。

综上所述，本发明通过文本特征提取模块、语音风格特征提取模块和语音风格特征记忆模块以及声学特征预测模块可根据任意给定的语音文本及目标语音的声学特征，自动合成出情感风格符合指定声学特征的目标语音，从而提高合成语音的表现力与丰富性，提升智能语音交互系统的自然度与拟真性。

进一步地，在本发明的基于情感类别标签的可控情感语音合成系统中通过增加解耦模块可提高语音风格特征与语音文本特征的解耦程度，使得合成语音的风格调控结果不受文本内容限制，提升合成语音的可控性和灵活性，并且语音风格特征记忆模块还可有效利用语料中语音的情感标签与各情感数据的分布信息，以更高效地提取各情感的语音风格特征。

需要说明的是，在流程图中表示或在此以其他方式描述的逻辑和/或步骤，例如，可以被认为是用于实现逻辑功能的可执行指令的定序列表，可以具体实现在任何计算机可读介质中，以供指令执行系统、装置或设备（如基于计算机的系统、包括处理器的系统或其他可以从指令执行系统、装置或设备取指令并执行指令的系统）使用，或结合这些指令执行系统、装置或设备而使用。就本说明书而言，"计算机可读介质"可以是任何可以包含、存储、通信、传播或传输程序以供指令执行系统、装置或设备或结合这些指令执行系统、装置或设备而使用的装置。计算机可读介质的更具体的示例（非穷尽性列表）包括以下：具有一个或多个布线的电连接部（电子装置），便携式计算机盘盒（磁装置），随机存取存储器（RAM），只读存储器（ROM），可擦除可编辑只读存储器（EPROM或闪速存储器），光纤装置，以及便携式光盘只读存储器（CDROM）。另外，计算机可读介质甚至可以是可在其上打印程序的纸或其他合适的介质，因为可以例如通过对纸或其他介质进行光学扫描，接着进行编辑、解译或必要时以其他合适方式进行处理来以电子方式获得程序，然后将其存储在计算机存储器中。

在本说明书的描述中，参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中，对上述术语的示意性表述不一定指的是相同的实施例或示例。而且，描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。

此外，术语“第一”、“第二”仅用于描述目的，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。在本发明的描述中，“多个”的含义是至少两个，例如两个，三个等，除非另有明确具体的限定。

尽管上面已经示出和描述了本发明的实施例，可以理解的是，上述实施例是示例性的，不能理解为对本发明的限制，本领域的普通技术人员在本发明的范围内可以对上述实施例进行变化、修改、替换和变型。

Claims

1.一种基于情感类别标签的可控情感语音合成方法，其特征在于，包括如下步骤：

S1、文本特征提取，从输入的音素序列中提取出语音文本特征；

S2、语音风格特征提取，接收与所述音素序列对应的目标语音的声学特征，并从所述声学特征中提取出语音风格特征；

S3、语音风格特征记忆，根据所述语音风格特征得到所述目标语音的情感风格特征；

S4、声学特征预测，根据所述语音文本特征和所述情感风格特征预测合成情感语音声学特征；

还包括解耦步骤，根据所述语音文本特征和所述情感风格特征预估所述语音文本特征和所述情感风格特征之间的互信息大小，并对所述互信息取相反数，以及通过取相反数后的互信息指导系统学习和所述音素序列无关的风格信息。

2.如权利要求1所述的基于情感类别标签的可控情感语音合成方法，其特征在于，所述文本特征提取中使用一特征查询表、三层卷积神经网络和一层双向长短期记忆网络。

3.如权利要求2所述的基于情感类别标签的可控情感语音合成方法，其特征在于，所述文本特征提取包括：

4.如权利要求1所述的基于情感类别标签的可控情感语音合成方法，其特征在于，所述语音风格特征提取采用五层卷积神经网络和一层门控循环单元。

5.如权利要求4所述的基于情感类别标签的可控情感语音合成方法，其特征在于，所述语音风格特征提取包括：

6.如权利要求1所述的基于情感类别标签的可控情感语音合成方法，其特征在于，所述语音风格特征记忆采用若干个全局风格令牌表和第一注意力机制单元。

7.如权利要求6所述的基于情感类别标签的可控情感语音合成方法，其特征在于，所述语音风格特征记忆包括：

采用所述第一注意力机制单元预测所述若干个全局风格令牌表中的多个风格令牌与所述语音风格特征之间的相似度，并基于所述相似度对所述多个风格令牌进行加权，以得到所述目标语音的情感风格特征。

8.如权利要求1所述的基于情感类别标签的可控情感语音合成方法，其特征在于，所述语音风格特征记忆还包括基于外部提供的目标语音情感标签，通过情感分类损失函数进行语音风格特征记忆。

9.一种基于情感类别标签的可控情感语音合成系统，其特征在于，包括处理器和存储器，所述存储器中存储有计算机软件，所述计算机软件可处理器执行以实现如权利要求1-8中任一项所述的方法。