CN114882868A

CN114882868A - 语音合成、情绪迁移、交互方法、存储介质、程序产品

Info

Publication number: CN114882868A
Application number: CN202210481757.1A
Authority: CN
Inventors: 张光琰; 张文杰; 石强; 盖于涛; 姜飞俊
Original assignee: Zhejiang Maojing Artificial Intelligence Technology Co ltd
Current assignee: Zhejiang Maojing Artificial Intelligence Technology Co ltd
Priority date: 2022-05-05
Filing date: 2022-05-05
Publication date: 2022-08-09

Abstract

本申请提供了一种语音合成、情绪迁移方法、存储介质、程序产品，语音生成方法，包括：根据目标情绪以及待合成语音文本对应的音素序列进行韵律生成，得到待合成语音文本对应的音素级别的韵律信息；将音素级别的韵律信息上采样至语音帧级别，得到待合成语音文本对应的语音帧特征；将目标说话人的音色特征融入语音帧特征，并根据融入音色特征后的语音帧特征，生成与待合成语音文本对应的、并且以目标情绪表达的目标说话人语音。本方案先根据和音色无关的音素序列以及情绪生成韵律信息，再将音色融入韵律信息，可以将音色和韵律进行解耦，保证了语音帧特征中的音色仅包括目标说话人的音色，并可以通过语音的韵律准确表达目标情绪，提高了合成的语音的质量。

Description

语音合成、情绪迁移、交互方法、存储介质、程序产品

技术领域

本申请实施例涉及计算机技术领域，尤其涉及一种语音合成、情绪迁移、交互方法、存储介质、程序产品。

背景技术

向语音中增加情绪，并使得智能语音的情绪表现力更加细腻可控，是智能语音的重要发展方向，在自动语音聊天、自动朗读有声书、自动影视配音、自动游戏配音等多种领域有即为广泛的前景。

一般情况下，会根据录制的样本语音训练神经网络，使得神经网络可以自动生成具有目标说话人音色且表达特定情绪的语音，但合成的语音的质量较差。

发明内容

有鉴于此，本申请实施例提供一种语音合成、情绪迁移、交互方法、存储介质、程序产品，以至少部分解决上述问题。

根据本申请实施例的第一方面，提供了一种语音生成方法，包括：根据目标情绪以及待合成语音文本对应的音素序列进行韵律生成，得到所述待合成语音文本对应的音素级别的韵律信息；将所述音素级别的韵律信息上采样至语音帧级别，得到所述待合成语音文本对应的语音帧特征；将目标说话人的音色特征融入所述语音帧特征，并根据融入音色特征后的语音帧特征，生成与所述待合成语音文本对应的、并且以所述目标情绪表达的目标说话人语音。

根据本申请实施例的第二方面，提供了一种情绪迁移方法，包括：通过韵律预测器，根据待迁移情绪特征以及待合成语音文本对应的音素序列进行韵律预测，得到所述待合成语音文本对应的音素级别的韵律信息，其中，所述韵律预测器通过具有待迁移情绪的第一样本语音训练得到；将所述音素级别的韵律信息上采样至语音帧级别，得到所述待合成语音文本对应的语音帧特征；将目标说话人的音色特征融入所述语音帧特征，其中，所述目标说话人的音色特征通过所述目标说话人的第二样本语音提取得到；根据融入音色特征后的语音帧特征，生成与所述待合成语音文本对应的、并且以所述待迁移情绪特征对应的待迁移情绪表达的目标说话人语音。

根据本申请实施例的第三方面，提供了一种韵律预测器的训练方法，包括：将样本语音输入至情绪分类器；通过所述情绪分类器对所述样本语音进行情绪分类，并计算情绪分类结果对应的后验概率，根据所述后验概率确定情绪强度，所述情绪强度用于表征所述样本语音所表达的情绪的强度；通过所述情绪分类器将所述情绪分类结果输出为所述样本语音的情绪标签，以及输出所述样本情绪的强度；根据所述样本语音及其对应的所述情绪标签和所述情绪强度训练韵律预测器，所述韵律预测器用于根据目标情绪以及待合成语音文本对应的音素序列进行韵律生成，得到所述待合成语音文本对应的音素级别的韵律信息。

根据本申请实施例的第四方面，提供了一种语音交互方法，包括：获得用户输入的交互内容，以及确定所述用户对应的目标说话人；根据所述交互内容，确定向用户输出的待合成语音文本及目标情绪；通过如上述第一方面所述的方法，生成与所述待合成语音文本对应的、并且以所述目标情绪表达的目标说话人语音；响应于所述用户的输入操作，向所述用户输出所述目标说话人语音。

根据本申请实施例的第五方面，提供了一种计算机存储介质，其上存储有计算机程序，该程序被处理器执行时实现如上所述的方法。

根据本申请实施例的第六方面，提供了一种计算机程序产品，包括计算机指令，所述计算机指令指示计算设备执行如上所述的方法对应的操作。

根据本申请实施例提供的方案，通过根据目标情绪以及待合成语音文本对应的音素序列进行韵律生成，得到所述待合成语音文本对应的音素级别的韵律信息，由于韵律生成过程依赖的是目标情绪和待合成语音文本对应的音素序列，由此，可以保证生成的音素级别的韵律信息中不包括源说话人的音色，进而避免源合成的语音中包括说话人的音色；将所述音素级别的韵律信息上采样至语音帧级别，得到所述待合成语音文本对应的语音帧特征，可以便于将目标说话人的音色特征融入所述语音帧特征，之后根据融入音色特征后的语音帧特征，即可生成与所述待合成语音文本对应的、并且以所述目标情绪表达的目标说话人语音，且先根据和音色无关的音素序列以及情绪生成韵律信息，再将音色融入韵律信息，可以将音色和韵律进行解耦，保证了语音帧特征中的音色仅包括目标说话人的音色，并可以通过语音的韵律准确表达目标情绪，提高了合成的语音的质量。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请实施例中记载的一些实施例，对于本领域普通技术人员来讲，还可以根据这些附图获得其他的附图。

图1A为本申请实施例提供的一种语音合成方法的步骤流程图；

图1B为本申请实施例提供的一种使用场景示意图；

图2A为本申请实施例提供的一种语音合成模型的结构示意图；

图2B为本申请实施例提供的一种语音合成方法的流程示意图；

图3A为本申请实施例提供的一种训练阶段的语音合成模型的结构示意图；

图3B为本申请实施例提供的一种训练方法的流程示意图；

图4A为本申请实施例提供的一种确定目标说话人的音色特征的流程示意图；；

图4B为本申请实施例提供的一种音色编码器的结构框图；

图5A为本申请实施例提供的一种对样本语音进行情绪分类的方法流程图；

图5B为本申请实施例提供的一种情绪分类器的结构示意图；

图6为本申请实施例提供的一种情绪迁移的确定方法的流程示意图；

图7为本申请实施例提供的一种训练韵律预测器的训练方法的步骤流程图；

图8为本申请实施例提供的一种语音交互方法的步骤流程图；

图9为根据本申请实施例的一种电子设备的结构示意图。

具体实施方式

为了使本领域的人员更好地理解本申请实施例中的技术方案，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅是本申请实施例一部分实施例，而不是全部的实施例。基于本申请实施例中的实施例，本领域普通技术人员所获得的所有其他实施例，都应当属于本申请实施例保护的范围。

为了更加详细地说明本实施例提供的方案，下面先对本申请的使用场景进行示例性说明。

在自动语音聊天、自动朗读有声书、自动影视配音、自动游戏配音等多种领域都有合成语音的需求，且希望合成的语音都具备目标说话人的音色。例如，在自动语音聊天领域，希望合成的语音具有用户指定的聊天人的音色；在自动朗读有声书领域，希望合成的语音有特定的朗读者的音色；在自动影视配音、自动游戏配音领域，希望合成的语音具有特定角色的音色。

在此基础上，进行语音合成时，期望将其他人(后续称为源说话人)的语音中携带的情绪迁移到目标说话人上，合成具有目标说话人音色的且能够表达希望的情绪的语音。

一般情况下，在进行情绪迁移前，可以采用具有相同情绪的源说话人语音和目标说话人语音，训练神经网络模型，希望神经网络模型能够自动将源说话人的音色修改为目标说话人音色，从而将源说话人的情绪迁移到目标说话人上，即希望神经网络可以学习到如何保留情绪特征，并将语音中源说话人的音色特征修改为目标说话人的音色特征。

但是，语音中说话人的特征和情绪特征一般是高度耦合的，某种表达情感的说话方式可能只有说出语音的说话人才具有，因此，直接分离语音中说话人的音色特征和情感特征的难度极大。导致基于样本语音训练的神经网络模型生成的语音，一般会在样本语音携带的情绪上得到较好的效果，但一旦应用至其他情绪上，尤其是神经网络模型未见过的情绪上，难免会由于情绪特征和音色特征的高度耦合，导致生成的语音中不仅会包括目标说话人的音色特征，也会包括样本语音对应的源说话人的音色，或者得到的语音中目标说话人的音色特征不明显，即合成得到的语音的质量较差。

另外，还存在源说话人语音和目标说话人不具有相同情感的语音的情况，导致不存在进行情绪迁移的基础。

为此，本申请实施例提供一种语音合成方案，以解决或缓解上述问题。

图1A为本申请实施例提供的一种语音合成方法的流程示意图，如图所示，其包括：

S101、根据目标情绪以及待合成语音文本对应的音素序列进行韵律生成，得到所述待合成语音文本对应的音素级别的韵律信息。

目标情绪可以包括目标情绪标签，或者可以包括目标情绪标签及目标情绪强度。

音素(phone)，是根据语音的自然属性划分出来的最小语音单位，具体可以依据音节里的发音动作来分析，一个动作构成一个音素。

音素级别的韵律(prosody)信息是指语音中音素的发音长短、发音轻重等。

本实施例中，可以通过上游的应用来确定需要待合成语音对应的文本，以及待合成语音需要表达的目标情绪。示例地，若在智能聊天领域，可以通过问答模型生成需要回复给用户的答复文本，以及进行回复时需要表达出的目标情绪；若在影视配音领域，可以直接将台词文本作为待合成语音对应的文本，将角色情绪作为待合成语音需要表达的目标情绪。

本实施例中，由于每个文本的发音是固定的，因此，可以直接根据待合成语音文本确定对应的音素序列。

在人的感知中，情绪一般通过两种途径传递，一种是语音的内容，另一种是语音的韵律，因此，根据目标情绪以及待合成语音文本对应的音素序列进行韵律生成，可以使得按照得到的音素级别的韵律信息进行朗读时，朗读得到的语音能够表达出目标情绪。

本实施例中，由于是直接根据目标情绪以及待合成语音文本对应的音素序列进行韵律生成，韵律生成过程中并未依靠源说话人的语音，可以使得预测得到的韵律信息不携带有源说话人的音色。

S102、将所述音素级别的韵律信息上采样至语音帧级别，得到所述待合成语音文本对应的语音帧特征。

为了便于后续步骤中融入目标说话人的音色特征，因此，本实施例中，将所述音素级别的韵律信息上采样至语音帧级别，得到所述待合成语音文本对应的语音帧特征。音素级别高于语音帧级别，一个音素中可以包括若干个语音帧。

本实施例中，具体根据音素信息进行上采样的方法可参考相关技术，在此不再赘述。

S103、将目标说话人的音色特征融入所述语音帧特征，并根据融入音色特征后的语音帧特征，生成与所述待合成语音文本对应的、并且以所述目标情绪表达的目标说话人语音。

音色是指声音的个性特色，具体到本申请中，音色可以指目标说话人的声音特色。

目标说话人的音色特征具体可以为反映目标说话人的音色的特征向量；对应的，将所述音素级别的韵律信息上采样至语音帧级别后，可以得到语音帧级别的语音特征向量作为语音帧特征。则本步骤中，可以通过向量叠加的方式将目标说话人的音色特征融入所述语音帧特征。

融入音色特征前的语音帧特征可以对应于目标情绪，则融入音色特征后的语音帧特征生成语音时，可以使得生成的语音具有说话人的音色和用于表达目标情绪的韵律。

下面通过一种具体的实现方式，对本实施例提供的方案进行示例性说明。

参见图1B，示出了本申请的一种语音合成模型，如图所示，其包括韵律预测器、上采样模块、音色编码器、语音生成模块。

韵律预测器可以通过源说话人的语音进行训练。具体地，可以将源说话人的语音对应的情绪标签、源说话人的语音对应的音素序列作为输入，提取源说话人的语音对应的音素级别的韵律信息作为监督，对韵律预测器进行监督训练。示例地，若希望合成的语音表达的情绪包括愤怒、高兴、伤心等，则可以选择具有愤怒、高兴、伤心标签的多个源说话人的语音对韵律预测器进行训练。源说话人可以为一个或者多个，本实施例对此不进行限定。

音色编码器可以用于提取目标说话人的音色特征。具体地，可以将目标说话人的多个语音输入至音色编码器，以通过音色编码器提取目标说话人的音色特征。具体地，音色编码器可以提取有多个目标说话人的音色特征。

在进行语音合成时，可以将目标情绪和待合成语音文本对应的音素序列输入至韵律预测器，通过韵律预测器根据目标情绪以及待合成语音文本对应的音素序列进行韵律生成，得到所述待合成语音文本对应的音素级别的韵律信息；再通过上采样模块将音素级别的韵律信息上采样至语音帧级别，得到所述待合成语音文本对应的语音帧特征。

可以将目标说话人的标识输入至音色编码器，通过音色编码器输出标识对应的音色特征，并可以将目标说话人的音色特征融入语音帧特征。再通过语音生成模块根据融入音色特征后的语音帧特征，生成与所述待合成语音文本对应的、并且以所述目标情绪表达的目标说话人语音。

本实施例提供的方案，通过根据目标情绪以及待合成语音文本对应的音素序列进行韵律生成，得到所述待合成语音文本对应的音素级别的韵律信息，由于韵律生成过程依赖的是目标情绪和待合成语音文本对应的音素序列，由此，可以保证生成的音素级别的韵律信息中不包括源说话人的音色，进而避免源合成的语音中包括说话人的音色；将所述音素级别的韵律信息上采样至语音帧级别，得到所述待合成语音文本对应的语音帧特征，可以便于将目标说话人的音色特征融入所述语音帧特征，之后根据融入音色特征后的语音帧特征，即可生成与所述待合成语音文本对应的、并且以所述目标情绪表达的目标说话人语音，且先根据和音色无关的音素序列以及情绪生成韵律信息，再将音色融入韵律信息，可以将音色和韵律进行解耦，保证了语音帧特征中的音色仅包括目标说话人的音色，并可以通过语音的韵律准确表达目标情绪，提高了合成的语音的质量。

本实施例的语音合成方法可以由任意适当的具有数据处理能力的电子设备执行，包括但不限于：服务器、移动终端(如手机、PAD等)和PC机等。

图2A为本申请实施例提供的一种语音合成模型的结构示意图，图2B为本申请实施例提供的一种语音合成方法的流程示意图。

如图2A所示，语音合成模型包括：音素编码器Phoneme Encoder、音色编码器Timbre Encoder、韵律预测器ProsodyPredictor、语音解码器Speech Decoder、声码器Vocoder。

参见图2B，本实施例中的语音合成方法包括:

S201、确定所述目标情绪对应的情绪特征向量。

本实施例中，具体确定情绪特征向量的方法可参考相关技术，例如，可以预先确定期望生成的目标情绪的目标情绪标签，并通过编码器将目标情绪标签编码为情绪特征向量。

S202、通过音素编码器，对所述待合成语音文本对应的音素序列中的各个音素进行编码，得到音素向量序列。

具体音素编码器的具体实现可参考相关技术，在此不再赘述。具体地，音素编码器可以为encoder或者为LSTM等。

具体地，本实施例中，音素编码器可以将音素序列的每个音素编码为256维度的向量，再将各个音素向量通过四层的Transformer Encoder模块，得到音素向量序列Phonemeencodeing。

S203、通过韵律预测器，根据所述情绪特征向量，对所述音素向量序列中的各个音素向量进行韵律生成，得到所述待合成语音文本对应的音素级别的韵律信息。

韵律预测器的具体实现可参考相关技术，在此不再赘述。具体地，韵律预测器可以为transformer或者RNN等。

韵律预测器主要是用来预测归一化的音素级别的韵律信息，预测的韵律信息具体可以包括包括基频(F0)，音强度(intensity)，和时长(duration)。具体地，本实施例中，韵律预测器可以包含五层的ID conv和ReLu激活函数，每一层后都连接一层layernormalization和dropout，最后通过一层线性层来属于音素级别的韵律信息。

S204、将所述音素级别的韵律信息上采样至语音帧级别，得到所述待合成语音文本对应的语音帧特征。

S205、将目标说话人的音色特征融入所述语音帧特征，并根据融入音色特征后的语音帧特征，生成与所述待合成语音文本对应的、并且以所述目标情绪表达的目标说话人语音。

步骤S204和步骤S205的具体实现方式可参考上述实施例中的S102、S103，在此不再赘述。

可选地，本实施例中，参见图2A，可以将融入音色特征后的语音帧特征输入至语音解码器speech decoder，语音解码器可以根据语音帧特征重建80维度的梅尔谱图，并通过声码器Vocoder将梅尔谱图转换为与所述待合成语音文本对应的、并且以所述目标情绪表达的目标说话人语音。

下面对语音合成模型的训练过程进行说明。

参见图3A，示出了一种训练阶段的语音合成模型，与图2A相比，图3A中还包括情绪分类器。参见图3B，音素编码器和所述韵律预测器的训练方法包括：

S301、将样本语音输入至情绪分类器，通过所述情绪分类器对所述样本语音进行情绪分类，并输出所述样本语音对应的样本情绪标签，根据所述样本情绪标签得到对应的样本情绪特征向量。

本实施例中，输入至情绪分类器的具体可以为样本语音Sample voice的梅尔谱图，这也在本实施例的保护范围内。

可选地，步骤S301可以包括：将样本语音输入至所述情绪分类器；通过所述情绪分类器对所述样本语音进行情绪分类，并计算情绪分类结果对应的后验概率，根据所述后验概率确定样本情绪强度，所述样本情绪强度用于表征所述样本语音表达的样本情绪的强度；通过所述情绪分类器将所述情绪分类结果输出为所述样本语音的样本情绪标签，以及输出所述样本情绪的强度；根据所述样本情绪标签和所述样本情绪强度得到对应的样本情绪特征向量。

由此，可以用过后验概率作为情绪强度的衡量，后验概率越大、强度越强，后验概率越小、强度越弱，使得本实施例提供的情绪强度控制方法具有可解释性。在具体进行语音合成时，可以根据目标情绪标签以及所述目标情绪对应的情绪强度，生成所述目标情绪对应的情绪特征向量，并根据情绪特征向量进行韵律预测，使得合成的语音中的情感强度可以控制。

具体地，在具体进行语音合成时，可以输入目标情绪标签和目标情绪强度，或者可以输入目标情绪标签及对应的情绪强度标量值，这些均在本申请的保护范围内。

参见图3A，当情绪分类器同时输出样本情绪标签(具体为情绪标签emotionid)和样本情绪强度(emotionintersity)时，样本情绪标签可以先进行编码(即图中的embedding)，并将编码结果与样本情绪强度共同进行编码(emotionembedding)，输出情绪特征向量。

当实际进行语音合成时，可以直接省略情绪编码器，直接输入期望的目标情绪的标签和情绪强度。

情绪分类器的具体结构详见下述图5A、5B的相关说明，在此不再赘述。当然，图5A、5B所示仅为一种情绪分类器的示例，其他采用情绪分类器的训练方案也在本申请的保护范围内。

S302、将所述样本语音对应的音素序列输入至所述音素编码器，通过所述音素编码器对所述样本语音对应的音素序列中的各个音素进行编码，得到样本音素向量序列。

S303、通过所述韵律预测器，根据所述样本情绪特征向量，对所述样本音素向量序列中的各个样本音素向量进行韵律预测，得到音素级别的预测韵律信息。

S304、对所述样本语音进行韵律信息提取得到音素级别的样本韵律信息。

S305、根据所述预测韵律信息和所述样本韵律信息之间的差异，调整所述音素编码器和所述韵律预测器。

具体地，参见图3A，可以根据预测韵律信息Prosody Predicted和样本韵律信息Ground truth计算损失值loss，并根据损失值调整音素编码器和韵律预测器。

可替代地，本实施例中的情绪分类器若为预先训练的，则在步骤S305中，可以不调整情绪分类器，这也在本申请的保护范围内。

若情绪分类器并非是预先训练的，则可以在步骤S305中同时调整情绪分类器，以通过端到端的训练方法训练情绪分类器、音素编码器和韵律预测器。

具体地，本实施例中，目标说话人的音色特征可以通过图4A所示的方法得到，如图4A所示，方法包括：

S401、获得所述目标说话人的样本语音。

需要说明的是，一般情况下，为了便于机器处理，会将语音转换为图，例如转换为梅尔谱图或者声谱图等，则本实施例中的样本语音和预测语音具体可以为语音对应的梅尔谱图，这也在本申请的保护范围内。

S402、通过音色编码器对所述样本语音进行音色特征提取，得到所述目标说话人的候选音色特征。

本实施例中，音色编码器(Timbre Encoder)具体可以为任意能够提取到语音的音色特征的编码器，本实施例对此不进行限定。

S403、对所述样本语音进行音素级别的韵律信息提取，得到样本韵律信息。

本实施例中，具体提取音素级别的韵律信息的方法可参考相关技术，在此不再赘述。

S404、将所述样本韵律信息上采样至语音帧级别，得到所述样本语音对应的语音帧特征。

本步骤的具体实现方式可参考上述实施例中的步骤S102，在此不再赘述。

S405、将所述目标说话人的候选音色特征融入所述样本语音对应的语音帧特征，并根据融入音色特征后的语音帧特征，生成得到样本语音对应的预测语音。

具体地，本实施例中，可以将候选音色特征采样至语音帧级别，得到与所述语音帧特征级别相同的候选音色特征，之后可以将候选音色特征与语音帧特征叠加，以将候选音色特征融入语音帧特征中。

具体根据语音帧特征生成语音的过程可参考相关技术，在此不再赘述。

S406、根据所述样本语音和预测语音之间的差异，调整所述目标说话人的候选音色特征。

具体进行调整的过程可参考相关技术，在此不再赘述。

可选地，若有多条目标说话人的样本语音时，可以多次重复上述操作，并在每次重复时，根据当前输入的样本语音调整候选音色特征，使得得到的目标说话人的音色特征更加准确。

可选地，若所述目标说话人包括多个，则步骤S402可以包括：通过音色编码器对多个所述目标说话人各自对应的样本语音进行音色特征提取，得到多个所述目标说话人各自的候选音色特征，并建立所述候选音色特征与对应的所述目标说话人的标识之间的关联，以根据所述目标说话人的标识确定对应的音色特征。

参见图4B，示出了一种音色编码器的结构示意图，如图所示，其中可以存储有多个目标说话人标识SpeakerI D及其关联的的音色特征embedding。在进行语音合成时，可以将SpeakerID输入至音色编码器，使得音色编码器输出对应的目标说话人标识的音色特征embedding。

可选地，本实施例中，所述音色编码器还包括：说话人特征提取模块speakerencoder和瓶颈层bottleneck layer，所述目标说话人的音色特征还通过下述步骤得到：通过所述说话人特征提取模块对所述目标说话人的样本语音进行特征提取，得到所述目标说话人的特征向量；通过所述瓶颈层，过滤所述目标说话人的特征向量，得到所述目标说话人的音色特征。由此，当目标说话人的样本语音较少，不足以提取得到目标说话人的音色特征时，可以通过说话人特征提取模块和瓶颈层提取得到说话人的音色特征，来实现零目标说话人样本(zero shot)的语音合成。

本实施例中，说话人特征提取模块speaker encoder可以从语音对应的梅尔谱图中提取说话人的声音特征信息，具体可以将说话者的语音嵌入编码为固定维度的向量，该向量表示了说话者的声音潜在特征。说话人特征提取模块speakerencoder的具体实现可以参考相关技术，在此不再赘述。瓶颈层bottleneck layer用于将说话人声音特征信息作为输入，并输出音色特征。它可以将说话人声音特征信息中的非音色信息尽量过滤掉。

本实施例中，说话人特征提取模块speakerencoder和瓶颈层bottleneck layer可以为预训练的，当目标说话人的样本语音较少时，可以将目标说话人的样本语音输入至说话人特征提取模块speakerencoder，以通过瓶颈层bottleneck layer过滤得到目标说话人对应的音色特征。

参见图5A，示出了一种对样本语音进行情绪分类的方法流程图；参见图5B，示出了一种情绪分类器的结构示意图。

如图5B所示，情绪分类器可以包括特征提取器featureectractor、分类模块、甘贝尔归一化函数Gumbel softmax层和改进的归一化函数modified softmax层，图中的方框表示情绪分类器中包括的各个分类器或层，图中的椭圆表示各个分类器或层输入或输出的数据。

参见图5A，对样本语音进行情绪分类的方法可以包括以下步骤：

S501、将样本语音输入至所述情绪分类器。

本步骤中，具体输入的可以为样本语音的梅尔谱图。

S502、通过所述情绪分类器对所述样本语音进行情绪分类，并计算情绪分类结果对应的后验概率，根据所述后验概率确定样本情绪强度，所述样本情绪强度用于表征所述样本语音表达的样本情绪的强度。

具体地，本实施例中，可以通过所述情绪分类器中的特征提取器，提取所述样本语音的语音特征，得到语音特征向量emotionvector；按照预设映射关系将所述语音特征向量映射至多维的未归一化概率，其中，所述多维未归一化概率中的每一维对应一种情绪标签；根据映射得到的所述多维的未归一化概率，确定所述样本语音对应的样本情绪标签；根据所述多维的未归一化概率确定所述样本情绪标签对应的后验概率，并将所述后验概率作为所述样本情绪标签对应的样本情绪强度。

具体地，可以通过特征提取器featureectractor提取样本语音的语音特征，得到的语音特征可以为256维度的语音特征向量，即图中的emotionencoding。之后可以按照预设映射关系将语音特征向量emotionencoding映射至M维度的未归一化概率logits，由于映射得到的未归一化概率logits的每个维度对应一个情感标签，即得到的情感标签是离散的，因此，本实施例中，通过甘贝尔归一化函数Gumbel softmax层得到样本语音对应的情感标签，并可以针对离散的情感标签进行导数回传，即得到emotionid，并可以通过改进的归一化函数modified softmax层根据M维度的未归一化概率logits计算情感标签的后验概率，即计算emotionintensity，计算得到的后验概率不进行导数回传。

需要说明的是，一般情况下，计算后验概率会使用以e为底的指数函数，但是容易出现耦合过渡的情况，即计算得到的后验概率的值较为集中，导致计算得到的后验概率不能较为直观地衡量情感强度。为此，本实施例中，基于以超参数α为底的概率计算公式，根据所述多维的未归一化概率确定所述样本情绪标签对应的后验概率，其中，所述超参数α大于0且小于自然常数e，由此，可以避免上述耦合过渡的情况出现。

S503、通过所述情绪分类器将所述情绪分类结果输出为所述样本语音的样本情绪标签，以及输出所述样本情绪的强度。

当输出情绪标签和情绪强度时，需要根据所述样本情绪标签和所述样本情绪强度得到对应的样本情绪特征向量。具体根据样本情绪标签和所述样本情绪强度得到样本情绪特征向量的过程可参考上述实施例中根据emotionid和emotionintersity得到样本情绪特征向量的过程，在此不再赘述。

需要说明的是，本实施例提供的方案不仅可以用于对样本语音进行情绪分类，也可以对其他语音进行情绪分类，本实施例对此不进行限定。

另外，参见图5B，情绪分类器中还可以包括分类模块classifier。具体地，若所述样本语音包括多个，多个样本语音中的部分具有情绪标签，则可以将具有情绪标签的所述样本语音对应的多维的未归一化概率输入至所述分类模块，通过所述分类模块根据所述多维的未归一化概率对所述样本语音进行分类，得到所述样本情绪标签；所述方法还包括：根据所述样本语音对应的样本情绪标签与标记情绪标签之间的差异，调整所述情绪分类器。由此，可以使用有标签的样本语音对情绪分类器进行训练。

本实施例中，可以对情绪分类器进行半监督训练，当输入的样本语音具有预先标记的标记情绪标签时，可以通过分类模块classifier得到样本情绪标签，并基于样本情绪标签和标记情绪标签的差异调整情绪分类器；当输入的为不具有标记情绪标签的样本语音时，可以通过Gumbel softmax层得到样本语音对应的情感标签，并通过交叉熵的方式进行优化。

可选地，参见图5B，情绪分类器还可以包括对抗说话人分类模块，对抗说话人分类模块可以包括梯度反转层graientreversal和说话人分类模块classifier，通过梯度反转层结合说话人分类模块classifier识别出语音特征中和说话人相关的特征，并影响特征提取器featureectractor，使得其提取出语音特征中包括的说话人相关的特征的占比较少。梯度反转层graientreversal和说话人分类模块classifier可以通过对抗损失函数adversarial loss训练得到。

参见图6，示出了一种情绪迁移方法的步骤流程图，如图所示，其包括：

S601、通过韵律预测器，根据待迁移情绪特征以及待合成语音文本对应的音素序列进行韵律预测，得到所述待合成语音文本对应的音素级别的韵律信息，其中，所述韵律预测器通过具有待迁移情绪的第一样本语音训练得到。

S602、将所述音素级别的韵律信息上采样至语音帧级别，得到所述待合成语音文本对应的语音帧特征。

S603、将目标说话人的音色特征融入所述语音帧特征，其中，所述目标说话人的音色特征通过所述目标说话人的第二样本语音提取得到。

S604、根据融入音色特征后的语音帧特征，生成与所述待合成语音文本对应的、并且以所述待迁移情绪特征对应的待迁移情绪表达的目标说话人语音。

具体实现方式可参考上述实施例，在此不再赘述。

参见图7，示出了一种训练韵律预测器的训练方法的步骤流程图，如图所示，其包括：

S701、将样本语音输入至情绪分类器；

S702、通过所述情绪分类器对所述样本语音进行情绪分类，并计算情绪分类结果对应的后验概率，根据所述后验概率确定情绪强度，所述情绪强度用于表征所述样本语音所表达的情绪的强度；

S703、通过所述情绪分类器将所述情绪分类结果输出为所述样本语音的情绪标签，以及输出所述样本情绪的强度；

S704、根据所述样本语音及其对应的所述情绪标签和所述情绪强度训练韵律预测器，所述韵律预测器用于根据目标情绪以及待合成语音文本对应的音素序列进行韵律生成，得到所述待合成语音文本对应的音素级别的韵律信息。

本实施例中，情绪分类器和韵律预测器的具体实现及训练方式可参考上述实施例，在此不再赘述。

本实施例中，通过情绪分类器对样本语音进行分类并输出情绪标签及情绪强度，并可以根据样本语音及其情绪标签和情绪强度，训练韵律预测器，可以使得韵律预测器可以进行韵律预测，并的韵律信息可以按照强度表达情绪。

参见图8，示出了一种语音交互方法的步骤流程图，如图所示，其包括：

S801、获得用户输入的交互内容，以及确定所述用户对应的目标说话人。

本实施例中，用户对应的目标说话人可以由用户预先设置，或者可以根据默认设置确定，本实施例对此不进行限定。

本实施例中，可以通过任意方式获得用户输入的交互内容，例如获得用户输入的语音、按键操作、手势操作等。

S802、根据所述交互内容，确定向用户输出的待合成语音文本及目标情绪；

根据交互内容，可以确定向用户输出的待合成语音文本以及目标情绪，具体地，可以通过预设的交互模型，根据用户的交互内容确定用户需求，根据用户需求确定向用户输出的内容，输出的内容具体包括文本、音乐、视频等。

示例地，以智能音箱为例，根据用户输入的“最近有什么新歌”的交互内容，可以确定最近一个月内新发布的歌曲及相关信息，根据确定出的歌曲及相关信息可以生成向用户输出的歌曲介绍内容，具体可以包括歌曲介绍文本及介绍歌曲时的目标情绪。

S803、通过上述实施例提供的方法，生成与所述待合成语音文本对应的、并且以所述目标情绪表达的目标说话人语音。

之后可以根据确定出的向用户输出的待合成语音文本及目标情绪，生成对应的目标说话人语音。例如，目标说话人可以为主持人A，则可以生成具有主持人音色的语音，语音内容为歌曲介绍文本，语音表达的情绪为目标情绪。

S804、响应于所述用户的输入操作，向所述用户输出所述目标说话人语音。

生成语音后，可以响应于用户的输入操作，向用户输出语音。

示例地，以智能音箱为例，响应于用户输入的“最近有什么新歌”的交互内容，可以通过智能音箱输出以目标情绪介绍歌曲的语音。

参照图9，示出了本申请实施例提供的一种电子设备的结构示意图，本申请具体实施例并不对电子设备的具体实现做限定。

如图9所示，该电子设备可以包括：处理器(processor)902、通信接口(Communications Interface)904、存储器(memory)906、以及通信总线908。

其中：

处理器902、通信接口904、以及存储器906通过通信总线908完成相互间的通信。

通信接口904，用于与其它电子设备或服务器进行通信。

处理器902，用于执行程序910，具体可以执行上述语音合成方法、情绪迁移方法、语音交互方法等实施例中的相关步骤。

具体地，程序910可以包括程序代码，该程序代码包括计算机操作指令。

处理器902可能是处理器CPU，或者是特定集成电路ASIC(Application SpecificIntegrated Circuit)，或者是被配置成实施本申请实施例的一个或多个集成电路。智能设备包括的一个或多个处理器，可以是同一类型的处理器，如一个或多个CPU；也可以是不同类型的处理器，如一个或多个CPU以及一个或多个ASIC。

存储器906，用于存放程序910。存储器906可能包含高速RAM存储器，也可能还包括非易失性存储器(non-volatile memory)，例如至少一个磁盘存储器。

程序910中各步骤的具体实现可以参见上述语音合成方法、情绪迁移方法、语音交互方法等实施例中的相应步骤和单元中对应的描述，在此不赘述。所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的设备和模块的具体工作过程，可以参考前述方法实施例中的对应过程描述，在此不再赘述。

本申请实施例还提供了一种计算机程序产品，包括计算机指令，该计算机指令指示计算设备执行上述多个方法实施例中的任一语音合成方法、情绪迁移方法、语音交互方法等对应的操作。

需要指出，根据实施的需要，可将本申请实施例中描述的各个部件/步骤拆分为更多部件/步骤，也可将两个或多个部件/步骤或者部件/步骤的部分操作组合成新的部件/步骤，以实现本申请实施例的目的。

上述根据本申请实施例的方法可在硬件、固件中实现，或者被实现为可存储在记录介质(诸如CD ROM、RAM、软盘、硬盘或磁光盘)中的软件或计算机代码，或者被实现通过网络下载的原始存储在远程记录介质或非暂时机器可读介质中并将被存储在本地记录介质中的计算机代码，从而在此描述的方法可被存储在使用通用计算机、专用处理器或者可编程或专用硬件(诸如ASIC或FPGA)的记录介质上的这样的软件处理。可以理解，计算机、处理器、微处理器控制器或可编程硬件包括可存储或接收软件或计算机代码的存储组件(例如，RAM、ROM、闪存等)，当所述软件或计算机代码被计算机、处理器或硬件访问且执行时，实现在此描述的语音合成方法、情绪迁移方法、语音交互方法等。此外，当通用计算机访问用于实现在此示出的语音合成方法、情绪迁移方法、语音交互方法等的代码时，代码的执行将通用计算机转换为用于执行在此示出的语音合成方法、情绪迁移方法、语音交互方法等的专用计算机。

本领域普通技术人员可以意识到，结合本文中所公开的实施例描述的各示例的单元及方法步骤，能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本申请实施例的范围。

以上实施方式仅用于说明本申请实施例，而并非对本申请实施例的限制，有关技术领域的普通技术人员，在不脱离本申请实施例的精神和范围的情况下，还可以做出各种变化和变型，因此所有等同的技术方案也属于本申请实施例的范畴，本申请实施例的专利保护范围应由权利要求限定。

Claims

1.一种语音生成方法，包括：

根据目标情绪以及待合成语音文本对应的音素序列进行韵律生成，得到所述待合成语音文本对应的音素级别的韵律信息，其中，所述目标情绪包括目标情绪标签，或者包括目标情绪标签及目标情绪强度；

将所述音素级别的韵律信息上采样至语音帧级别，得到所述待合成语音文本对应的语音帧特征；

将目标说话人的音色特征融入所述语音帧特征，并根据融入音色特征后的语音帧特征，生成与所述待合成语音文本对应的、并且以所述目标情绪表达的目标说话人语音。

2.根据权利要求1所述的方法，其中，所述目标说话人的音色特征通过下述步骤得到：

获得所述目标说话人的样本语音；

通过音色编码器对所述样本语音进行音色特征提取，得到所述目标说话人的候选音色特征；

对所述样本语音进行音素级别的韵律信息提取，得到样本韵律信息；

将所述样本韵律信息上采样至语音帧级别，得到所述样本语音对应的语音帧特征；

将所述目标说话人的候选音色特征融入所述样本语音对应的语音帧特征，并根据融入音色特征后的语音帧特征，生成得到样本语音对应的预测语音；

根据所述样本语音和预测语音之间的差异，调整所述目标说话人的候选音色特征。

3.根据权利要求2所述的方法，其中，所述音色编码器还包括：说话人特征提取模块和瓶颈层，所述目标说话人的音色特征还通过下述步骤得到：

通过所述说话人特征提取模块对所述目标说话人的样本语音进行特征提取，得到所述目标说话人的特征向量；

通过所述瓶颈层，过滤所述目标说话人的特征向量，得到所述目标说话人的音色特征。

4.根据权利要求1所述的方法，其中，所述根据目标情绪以及待合成语音文本对应的音素序列进行韵律生成，得到所述待合成语音文本对应的音素级别的韵律信息，包括：

确定所述目标情绪对应的情绪特征向量；

通过音素编码器，对所述待合成语音文本对应的音素序列中的各个音素进行编码，得到音素向量序列；

通过韵律预测器，根据所述情绪特征向量，对所述音素向量序列中的各个音素向量进行韵律生成，得到所述待合成语音文本对应的音素级别的韵律信息；

其中，所述音素编码器和所述韵律预测器通过下述方法训练：

将样本语音输入至情绪分类器，通过所述情绪分类器对所述样本语音进行情绪分类，并输出所述样本语音对应的样本情绪标签，根据所述样本情绪标签得到对应的样本情绪特征向量；

将所述样本语音对应的音素序列输入至所述音素编码器，通过所述音素编码器对所述样本语音对应的音素序列中的各个音素进行编码，得到样本音素向量序列；

通过所述韵律预测器，根据所述样本情绪特征向量，对所述样本音素向量序列中的各个样本音素向量进行韵律预测，得到音素级别的预测韵律信息；

对所述样本语音进行韵律信息提取得到音素级别的样本韵律信息；

根据所述预测韵律信息和所述样本韵律信息之间的差异，调整所述情绪分类器、所述音素编码器和所述韵律预测器。

5.根据权利要求4所述的方法，其中，所述将样本语音输入至情绪分类器，通过所述情绪分类器对所述样本语音进行情绪分类，并输出所述样本语音对应的样本情绪标签，根据所述样本情绪标签得到对应的样本情绪特征向量，包括：

将样本语音输入至所述情绪分类器；

通过所述情绪分类器对所述样本语音进行情绪分类，并计算情绪分类结果对应的后验概率，根据所述后验概率确定样本情绪强度，所述样本情绪强度用于表征所述样本语音表达的样本情绪的强度；

通过所述情绪分类器将所述情绪分类结果输出为所述样本语音的样本情绪标签，以及输出所述样本情绪的强度；

根据所述样本情绪标签和所述样本情绪强度得到对应的样本情绪特征向量。

6.根据权利要求5所述的方法，其中，所述确定所述目标情绪对应的情绪特征向量，包括：

根据目标情绪标签，以及所述目标情绪标签对应的情绪强度，生成所述目标情绪对应的情绪特征向量。

7.根据权利要求5所述的方法，其中，所述通过所述情绪分类器对所述样本语音进行情绪分类，并计算情绪分类结果对应的后验概率，根据所述后验概率确定样本情绪强度，包括：

通过所述情绪分类器中的特征提取器，提取所述样本语音的语音特征，得到语音特征向量；

按照预设映射关系将所述语音特征向量映射至多维的未归一化概率，其中，所述多维未归一化概率中的每一维对应一种情绪标签；

根据映射得到的所述多维的未归一化概率，确定所述样本语音对应的样本情绪标签；

根据所述多维的未归一化概率确定所述样本情绪标签对应的后验概率，并将所述后验概率作为所述样本情绪标签对应的样本情绪强度。

8.根据权利要求7所述的方法，其中，根据所述多维的未归一化概率确定所述样本情绪标签对应的后验概率，包括：

基于以超参数α为底的概率计算公式，根据所述多维的未归一化概率确定所述样本情绪标签对应的后验概率，其中，所述超参数α大于0且小于自然常数e。

9.根据权利要求7所述的方法，其中，若所述样本语音包括多个，多个样本语音中的部分具有预先标记的标记情绪标签，则所述情绪分类器还包括分类模块，所述根据映射得到的所述多维的未归一化概率，确定所述样本语音对应的样本情绪标签包括：

将具有情绪标签的所述样本语音对应的多维的未归一化概率输入至所述分类模块，通过所述分类模块根据所述多维的未归一化概率对所述样本语音进行分类，得到所述样本情绪标签；

所述方法还包括：

根据所述样本语音对应的样本情绪标签与标记情绪标签之间的差异，调整所述情绪分类器。

10.一种情绪迁移方法，包括：

通过韵律预测器，根据待迁移情绪特征以及待合成语音文本对应的音素序列进行韵律预测，得到所述待合成语音文本对应的音素级别的韵律信息，其中，所述韵律预测器通过具有待迁移情绪的第一样本语音训练得到；

将目标说话人的音色特征融入所述语音帧特征，其中，所述目标说话人的音色特征通过所述目标说话人的第二样本语音提取得到；

根据融入音色特征后的语音帧特征，生成与所述待合成语音文本对应的、并且以所述待迁移情绪特征对应的待迁移情绪表达的目标说话人语音。

11.一种韵律预测器的训练方法，包括：

将样本语音输入至情绪分类器；

通过所述情绪分类器对所述样本语音进行情绪分类，并计算情绪分类结果对应的后验概率，根据所述后验概率确定情绪强度，所述情绪强度用于表征所述样本语音所表达的情绪的强度；

通过所述情绪分类器将所述情绪分类结果输出为所述样本语音的情绪标签，以及输出所述样本情绪的强度；

根据所述样本语音及其对应的所述情绪标签和所述情绪强度训练韵律预测器，所述韵律预测器用于根据目标情绪以及待合成语音文本对应的音素序列进行韵律生成，得到所述待合成语音文本对应的音素级别的韵律信息。

12.一种语音交互方法，包括：

获得用户输入的交互内容，以及确定所述用户对应的目标说话人；

根据所述交互内容，确定向用户输出的待合成语音文本及目标情绪；

通过如权利要求1-9所述的方法，生成与所述待合成语音文本对应的、并且以所述目标情绪表达的目标说话人语音；

响应于所述用户的输入操作，向所述用户输出所述目标说话人语音。

13.一种计算机存储介质，其上存储有计算机程序，该程序被处理器执行时实现如权利要求1-12中任一所述的方法。

14.一种计算机程序产品，包括计算机指令，所述计算机指令指示计算设备执行如权利要求1-12中任一所述方法。