CN109754779A

CN109754779A - 可控情感语音合成方法、装置、电子设备及可读存储介质

Info

Publication number: CN109754779A
Application number: CN201910033227.9A
Authority: CN
Inventors: 陈云琳; 刘冰
Original assignee: Chumen Wenwen Information Technology Co Ltd
Current assignee: Chumen Wenwen Information Technology Co Ltd
Priority date: 2019-01-14
Filing date: 2019-01-14
Publication date: 2019-05-14

Abstract

本发明实施例公开了一种可控情感语音合成方法、装置、电子设备及可读存储介质。该可控情感语音合成方法包括：获得标准情感语音和需要注入情感的输入文本；依据所述标准情感语音获得全局的情感风格嵌入特征；将所述情感风格嵌入特征嵌入所述输入文本以获得具有情感风格的情感编码文本；将具有情感风格的情感编码文本转换为语音谱参数；通过卷积神经网络并在采样点建模的方式将所述语音谱参数合成带有情感风格的自然语音。该方法可以获得具有严厉、和蔼、甜美等不同情感风格的合成音，品质高，类似人声。

Description

可控情感语音合成方法、装置、电子设备及可读存储介质

技术领域

本发明实施例涉及信息处理技术领域，具体涉及一种可控情感语音合成方法、装置、电子设备及可读存储介质。

背景技术

电话客服系统是一种有效的业务推广与客户服务系统，越来越受到众多企事业单位的重视和运用。当用户播打电话客户服务热线，并按照提示选择了相应的服务项目，电话客服系统通过语音为用户提供相应的语音服务。

在电话客服系统中，语音合成主要有参数语音合成和拼接语音合成两种形式。其中，参数语音合成包括基于隐马尔可夫的语音合成和基于神经网络的语音合成，这两种语音合成方式虽然可以获得不错的合成音，合成音平淡、缺乏情感，无法获得情感饱满的声音，并且含有一些背景音。拼接语音合成又称波形拼接语音合成，是根据不同的波形单元选择策略，利用平滑算法直接拼凑。因为采用原声波形进行拼接，因此合成的声音的音质很高，保留了声音的情感。然而，拼接语音合成需要录制大量的声音，以满足不同的场景需求，成本高，而且经常有拼接不连贯的问题。

在真正的电话客服场景中，需要针对不同的用户需求选择不同的发音情感，比如，在电话催收场景中需要严厉的语气，在信用卡服务场景中需要甜美吸引人的声音，等等。但是目前的参数语音合成无法满足饱满情感的需求，拼接语音合成要向获得饱满情感需要录制大量的情感数据，成本高，并且情感只能是录制时的语气，没有多样性。

发明内容

为此，本发明实施例提供一种可控情感语音合成方法、装置、电子设备及可读存储介质，以解决现有技术中由于无法获得多样、饱满情感的语音合成而导致合成语音情感不饱满、多样性差的问题。

为了实现上述目的，本发明实施例提供如下技术方案：

第一方面，本发明实施例提供了一种可控情感语音合成法，该方法包括：获得标准情感语音和需要注入情感的输入文本；

依据所述标准情感语音获得全局的情感风格嵌入特征；

将所述情感风格嵌入特征嵌入所述输入文本以获得具有情感风格的情感编码文本；

将具有情感风格的情感编码文本转换为语音谱参数；

通过卷积神经网络并在采样点建模的方式将所述语音谱参数合成带有情感风格的自然语音。

其中，标准情感语音是通过以下训练步骤得到：

对训练语音进行编码得到所述训练语音在每个时刻的语音编码向量；

对所述语音编码向量进行风格标志并提取情感风格嵌入特征；

将获得的训练输入文本进行编码获得编码状态；

将所述情感风格嵌入特征所述嵌入编码状态，获得带有情感风格的编码状态；

对带有情感风格的编码状态进行解码获得训练语音特征；

根据目标语音特征计算所述训练语音特征的损失，并调整参数；所述参数包括对训练语音进行编码的参数、提取情感风格嵌入特征的参数、对所述训练输入文本进行编码的参数以及对带有情感风格的编码状态进行解码的参数；

采用卷积神经网络在采样点上直接建模获得所述标准情感语音。

优选地，所述依据所述标准情感语音获得全局的情感风格嵌入特征的步骤包括：

将所述标准情感语音进行编码获得标准情感编码向量；

利用注意力机制对所述标准情感编码向量中的情感风格特征进行标记获得全局的情感风格嵌入特征。

优选地，所述将所述情感风格嵌入特征嵌入所述输入文本以获得具有情感风格的编码文本的步骤包括：

对所述输入文本进行编码获得编码状态；

将所述情感风格嵌入特征嵌入编码状态获得具有情感风格的情感编码文本。

优选地，所述情感编辑文本是通过自回归解码方式转换为所述语音谱参数。

第二方面，本发明实施例还提供一种可控情感语音合成装置，该装置包括：

输入单元，用于获得标准情感语音和需要注入情感的输入文本；

情感特征提取单元，用于依据所述标准情感语音获得全局的情感风格嵌入特征；

情感控制单元，用于将所述情感风格嵌入特征嵌入所述输入文本以获得具有情感风格的情感编码文本；

转换单元，用于将具有情感风格的情感编码文本转换为语音谱参数；

合成单元，用于通过采样点建模方式将所述语音谱参数合成带有情感风格的自然语音。

其中，所述情感特征提取单元包括：

语音编码器，用于对输入的语音进行编码获得语音编码向量；

标记模块，用于通过注意力机制对所述语音编码向量中的情感风格特征进行标记；

情感风格特征提取模块，用于从所述标记的语音编码向量中提取所述情感风格特征获得情感风格嵌入特征。

其中，所述情感控制单元包括：

文本编码器，用于对所述输入文本进行编码获得编码状态；

嵌入模块，用于将所述情感风格嵌入特征嵌入所述编码状态。

第三方面，本发明实施例还提供一种电子设备，包括：

至少一个处理器；

以及与所述处理器连接的至少一个存储器、总线；其中，

所述处理器、存储器通过所述总线完成相互间的通信；

所述处理器用于调用所述存储器中的程序指令，以执行本发明提供的任一项所述的可控情感语音合成方法。

第四方面，本发明实施例还提供一种非暂态计算机可读存储介质，所述非暂态计算机可读存储介质存储计算机指令，所述计算机指令使所述计算机执行本发明提供的任一项所述的可控情感语音合成方法。

本发明实施例具有如下优点：

本发明提供的可控情感语音合成方法首先从标准情感语音获得全局的情感风格嵌入特征，然后将所述情感风格嵌入特征嵌入所述输入文本以获得具有情感风格的情感编码文本，再将具有情感风格的情感编码文本转换为语音谱参数，最后通过卷积神经网络并在采样点建模的方式将将所述语音谱参数合成带有情感的自然语音。针对不同的客服场景，将不同的情感风格嵌入到输入文本中，从而获得具有严厉、和蔼、甜美等不同情感风格的合成音，每一句话都与给定的韵律和情感类似；而且该方法是通过卷积神经网络并在采样点建模方式将语音谱参数合成情感饱满的自然语音，提高了合成音的品质，合成的声音与真人的声音类似。另外，该方法只需要训练一次模型，即可实现对所有的情感的控制。

附图说明

为了更清楚地说明本发明的实施方式或现有技术中的技术方案，下面将对实施方式或现有技术描述中所需要使用的附图作简单地介绍。显而易见地，下面描述中的附图仅仅是示例性的，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据提供的附图引伸获得其它的实施附图。

图1为本发明实施例1提供的一种可控情感语音合成方法的流程图；

图2为本发明实施例1中训练标准情感语音的流程图；

图3为本发明实施例1中全局的情感风格嵌入特征的流程图；

图4为本发明实施例1中获得具有情感风格的编码文本的流程图；

图5为本发明实施例2提供的可控情感语音合成装置的结构示意图。

图中：1-输入单元，11-语音输入单元，12-文本输入单元，2-情感特征提取单元，21-语音编码器，22-标记模块，23-情感风格特征提取模块，3-情感控制单元，31-文本编码器，32-嵌入模块，4-转换单元，5-合成单元。

具体实施方式

以下由特定的具体实施例说明本发明的实施方式，熟悉此技术的人士可由本说明书所揭露的内容轻易地了解本发明的其他优点及功效，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

实施例1

本实施例提供一种可控情感语音合成方法。如图1所示，可控情感语音合成方法包括如下步骤：

步骤S1，获得标准情感语音和需要注入情感的输入文本。

步骤S2，依据标准情感语音获得全局的情感风格嵌入特征。

步骤S3，将情感风格嵌入特征嵌入输入文本以获得具有情感风格的情感编码文本。

步骤S4，将具有情感风格的情感编码文本转换为语音谱参数。

在步骤S4中，情感编辑文本是通过自回归解码方式转换为语音谱参数。

步骤S5，通过卷积神经网络并在采样点建模的方式将语音谱参数合成带有情感风格的自然语音。

如图2所示，在上述步骤S1中，标准情感语音是通过以下训练步骤得到：

步骤S11，对训练语音进行编码得到训练语音在每个时刻的编码向量。

训练用的多情感的数据来自于10-20小时单一说话人的语音，即训练语音。通过引用编码器对训练语音进行编码，得到每个时刻的语音编码向量。

步骤S12，对语音编码向量进行风格标志并提取情感风格嵌入特征。

步骤S13，将获得的训练输入文本进行编码获得编码状态。

在步骤S13中，训练输入文本通过编码器进行编码得到编码状态。

步骤S14，将情感风格嵌入特征嵌入到编码状态，获得带有情感风格的编码状态。

步骤S15，对带有情感风格的编码状态进行解码获得训练语音特征。

步骤S16，根据目标语音特征计算训练语音特征的损失，并调整参数；参数包括对训练语音进行编码的参数、提取情感风格嵌入特征的参数、对训练输入文本进行编码的参数以及对带有情感风格的编码状态进行解码的参数等。

步骤S17，采用卷积神经网络在采样点上直接建模获得标准情感语音。

如图3所示，在上述步骤S2中，全局的情感风格嵌入特征的步骤包括：

步骤S21，将标准情感语音进行编码获得标准情感编码向量；

步骤S22，利用注意力机制对标准情感编码向量中的情感风格特征进行标记获得全局的情感风格嵌入特征。

如图4所示，在上述步骤S3中，获得具有情感风格的编码文本的步骤包括：

步骤S31，对输入文本进行编码获得编码状态。

步骤S32，将情感风格嵌入特征嵌入编码状态获得具有情感风格的情感编码文本。

实施例2

本实施例提供一种可控情感语音合成装置。如图5所示，可控情感语音合成装置包括：

输入单元1，用于获得标准情感语音和需要注入情感的输入文本。

输入单元1为语音输入单元11和文本输入单元12，分别用于输入语音和文本。输入单元1也可以为语音转换文本单元，即将语音转换为文本的转换器。

情感特征提取单元2，用于依据标准情感语音获得全局的情感风格嵌入特征；

情感特征提取单元2包括：

语音编码器21，用于对输入的语音进行编码获得语音编码向量；

标记模块22，用于通过注意力机制对语音编码向量中的情感风格特征进行标记；

情感风格特征提取模块23，用于从标记的语音编码向量中提取情感风格特征获得情感风格嵌入特征。

情感控制单元3，用于将情感风格嵌入特征嵌入输入文本以获得具有情感风格的情感编码文本。

情感控制单元3包括：

文本编码器31，用于对输入文本进行编码获得编码状态；

嵌入模块32，用于将情感风格嵌入特征嵌入编码状态。

转换单元4，用于将具有情感风格的情感编码文本转换为语音谱参数；

合成单元5，用于通过采样点建模方式将语音谱参数合成带有情感风格的自然语音。

本实施例提供的可控情感语音合成装置将不同情感风格嵌入输入文本，再将输入文本转换为语音，从而使输出的语音具有嵌入的风格，每一句话都与给定的韵律和情感类似，获得具有严厉、和蔼、甜美等不同情感风格的合成音；而且通过卷积神经网络并在采样点建模方式将语音谱参数合成情感饱满的自然语音，提高了合成音的品质，合成的声音与真人的声音类似。

实施例3

本实施例提供一种电子设备。该电子设备包括：至少一个处理器；以及与处理器连接的至少一个存储器、总线；其中，处理器、存储器通过总线完成相互间的通信；处理器用于调用存储器中的程序指令，以执行如下步骤：

获得标准情感语音和需要注入情感的输入文本；依据标准情感语音获得全局的情感风格嵌入特征；将情感风格嵌入特征嵌入输入文本以获得具有情感风格的情感编码文本；将具有情感风格的情感编码文本转换为语音谱参数；通过卷积神经网络并在采样点建模的方式将语音谱参数合成带有情感风格的自然语音。

在本实施例提供的电子设备中的程序指令执行的步骤与实施例1及其优选和变型实施例相同，在此不再赘述。

该电子设备可以针对不同的客服场景输出具有严厉、和蔼、甜美等不同情感风格的合成音，而且每一句话都可以与给定的韵律和情感，获得了类似人声的合成音。

实施例4

本实施例提供一种非暂态计算机可读存储介质。非暂态计算机可读存储介质存储计算机指令，计算机指令使计算机执行可控情感语音合成方法，该语音合成方法包括：获得标准情感语音和需要注入情感的输入文本；依据标准情感语音获得全局的情感风格嵌入特征；将情感风格嵌入特征嵌入输入文本以获得具有情感风格的情感编码文本；将具有情感风格的情感编码文本转换为语音谱参数；通过卷积神经网络并在采样点建模的方式将语音谱参数合成带有情感风格的自然语音。

该非暂态计算机可读存储介质可以针对不同的客服场景输出具有严厉、和蔼、甜美等不同情感风格的合成音，每一句话都可以与给定的韵律和情感类似，获得了类似人声的合成音。

虽然，上文中已经用一般性说明及具体实施例对本发明作了详尽的描述，但在本发明基础上，可以对之作一些修改或改进，这对本领域技术人员而言是显而易见的。因此，在不偏离本发明精神的基础上所做的这些修改或改进，均属于本发明要求保护的范围。

Claims

1.一种可控情感语音合成方法，其特征在于，包括：

获得标准情感语音和需要注入情感的输入文本；

依据所述标准情感语音获得全局的情感风格嵌入特征；

将具有情感风格的情感编码文本转换为语音谱参数；

2.根据权利要求1所述的方法，其特征在于，所述标准情感语音是通过以下训练步骤得到：

将获得的训练输入文本进行编码获得编码状态；

将所述情感风格嵌入特征嵌入所述编码状态，获得带有情感风格的编码状态；

对带有情感风格的编码状态进行解码获得训练语音特征；

3.根据权利要求1所述的方法，其特征在于，所述依据所述标准情感语音获得全局的情感风格嵌入特征的步骤包括：

将所述标准情感语音进行编码获得标准情感编码向量；

4.根据权利要求1所述的方法，其特征在于，所述将所述情感风格嵌入特征嵌入所述输入文本以获得具有情感风格的编码文本的步骤包括：

对所述输入文本进行编码获得编码状态；

5.根据权利要求1所述的方法，其特征在于，所述情感编辑文本是通过自回归解码方式转换为所述语音谱参数。

6.一种可控情感语音合成装置，其特征在于，包括：

7.根据权利要求6所述的装置，其特征在于，所述情感特征提取单元包括：

8.根据权利要求6所述的装置，其特征在于，所述情感控制单元包括：

文本编码器，用于对所述输入文本进行编码获得编码状态；

9.一种电子设备，其特征在于，包括：

至少一个处理器；

以及与所述处理器连接的至少一个存储器、总线；其中，

所述处理器、存储器通过所述总线完成相互间的通信；

所述处理器用于调用所述存储器中的程序指令，以执行权利要求1至权利要求5中任一项所述的可控情感语音合成方法。

10.一种非暂态计算机可读存储介质，其特征在于，所述非暂态计算机可读存储介质存储计算机指令，所述计算机指令使所述计算机执行权利要求1至权利要求5中任一项所述的可控情感语音合成方法。