CN116013242A

CN116013242A - 语音合成方法、装置、电子设备和存储介质

Info

Publication number: CN116013242A
Application number: CN202211627963.5A
Authority: CN
Inventors: 方昕; 陈恩红; 刘聪
Original assignee: iFlytek Co Ltd
Current assignee: iFlytek Co Ltd
Priority date: 2022-12-16
Filing date: 2022-12-16
Publication date: 2023-04-25

Abstract

本发明提供一种语音合成方法、装置、电子设备和存储介质，其中方法包括：对用户语音进行情绪特征提取，得到语音情绪特征；基于语音情绪特征进行情绪浓度表征，得到情绪浓度特征；基于语音情绪特征、情绪浓度特征，以及回复文本，进行语音合成，得到情感合成语音，克服了传统方案中语音合成风格单一，以致合成语音的情感表现力不佳的缺陷，实现了多情感的信息表达，通过不同角度不同层面的情感控制，不仅提升了情感表现力，还将语音合成时的情感控制在自然的范围内，从而使得合成的情感合成语音的情感表达更为自然，情感表现效果更佳，为人机交互领域下机器类人的多情感表现力的实现提供了助力，优化了人机交互体验。

Description

语音合成方法、装置、电子设备和存储介质

技术领域

本发明涉及语音合成技术领域，尤其涉及一种语音合成方法、装置、电子设备和存储介质。

背景技术

语音合成是指将输入的文本转换成语音输出的过程。然而，传统的语音合成方法，仅仅是将书面文字、字符等转换为简单的口语输出，却忽略了说话人在言语表达过程中所携带的情感信息，从而使得合成语音不具备情感表现力，因而，如何提高合成情感表现力成为了语音合成技术研究过程中亟待解决的问题。

目前，语音合成技术多是按照定制的音库进行模型训练，因而，训练所的模型的表达能力与音库的表达能力基本一致，简而言之，音库所具备的表达能力即模型所具备的表达能力，由于模型训练受限于音库，因而其情感也取决于音库，即仅能模拟音库进行情感表达，情感表达能力过于单一，以致合成语音的表现力不佳。

发明内容

本发明提供一种语音合成方法、装置、电子设备和存储介质，用以解决现有技术中语音合成风格单一，以致合成语音的情感表现力不佳的缺陷，实现多情感的信息表达，提升了合成语音的情感表现力。

本发明提供一种语音合成方法，包括：

确定用户语音，以及所述用户语音对应的回复文本；

对所述用户语音进行情绪特征提取，得到语音情绪特征；

基于所述语音情绪特征进行情绪浓度表征，得到情绪浓度特征；

基于所述语音情绪特征、所述情绪浓度特征，以及所述回复文本，进行语音合成，得到情感合成语音。

根据本发明提供的一种语音合成方法，所述基于所述语音情绪特征进行情绪浓度表征，得到情绪浓度特征，包括：

确定情绪中心特征，所述情绪中心特征基于样本语音的样本语音情绪特征进行聚类得到；

基于所述语音情绪特征，以及所述情绪中心特征，进行情绪浓度表征，得到情绪浓度特征。

根据本发明提供的一种语音合成方法，所述情绪中心特征包括中等情绪中心特征和高等情绪中心特征，所述中等情绪中心特征和所述高等情绪中心特征分别由对应浓度等级的样本语音的样本语音情绪特征在对应浓度等级下进行聚类得到；

所述基于所述语音情绪特征，以及所述情绪中心特征，进行情绪浓度表征，得到情绪浓度特征，包括：

基于所述语音情绪特征，以及所述中等情绪中心特征，确定中等情绪浓度特征；

基于所述语音情绪特征，以及所述高等情绪中心特征，确定高等情绪浓度特征；

基于所述中等情绪浓度特征，以及所述高等情绪浓度特征，确定情绪浓度特征。

根据本发明提供的一种语音合成方法，所述用户语音对应的回复文本基于如下步骤确定：

确定用户信息，所述用户信息包括用户语音、用户图像，以及所述用户语音对应的用户文本中的至少一种；

对所述用户信息进行语义理解，得到问题关键信息，并对所述问题关键信息进行实体链接，得到所述问题关键信息链接的各关联实体；

基于各关联实体，以及所述用户文本的文本特征，生成回复文本。

根据本发明提供的一种语音合成方法，所述基于所述语音情绪特征、所述情绪浓度特征，以及所述回复文本，进行语音合成，得到情感合成语音，包括：

基于用户信息分别进行情绪识别和情绪预测，得到情绪类别和情绪预测分数；

基于所述回复文本、所述情绪类别，以及所述情绪预测分数，进行情绪文本生成，得到情绪回复文本；

基于所述语音情绪特征、所述情绪浓度特征，以及所述情绪回复文本，进行语音合成，得到情感合成语音。

根据本发明提供的一种语音合成方法，所述基于所述回复文本、所述情绪类别，以及所述情绪预测分数，进行情绪文本生成，得到情绪回复文本，包括：

基于所述回复文本，以及所述情绪类别，进行情绪文本生成，得到初始情绪回复文本；

基于所述情绪预测分数，对所述初始情绪回复文本进行语序调整和语气词添加，得到情绪回复文本。

根据本发明提供的一种语音合成方法，所述对所述用户语音进行情绪特征提取，得到语音情绪特征，包括：

分别对所述用户语音的频谱特征进行情绪特征提取和说话人特征提取，得到初始语音情绪特征和初始说话人特征；

基于所述初始语音情绪特征和所述初始说话人特征之间的正交约束，对所述初始语音情绪特征和所述初始说话人特征进行解耦，得到语音情绪特征和说话人特征；

所述正交约束用于约束所述初始语音情绪特征和所述初始说话人特征之间的无关性。

本发明还提供一种语音合成装置，包括：

信息确定单元，用于确定用户语音，以及所述用户语音对应的回复文本；

特征提取单元，用于对所述用户语音进行情绪特征提取，得到语音情绪特征；

浓度表征单元，用于基于所述语音情绪特征进行情绪浓度表征，得到情绪浓度特征；

语音合成单元，用于基于所述语音情绪特征、所述情绪浓度特征，以及所述回复文本，进行语音合成，得到情感合成语音。

本发明还提供一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现如上述任一种所述的语音合成方法。

本发明还提供一种非暂态计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现如上述任一种所述的语音合成方法。

本发明提供的语音合成方法、装置、电子设备和存储介质，对用户语音进行情绪特征提取，得到语音情绪特征；基于语音情绪特征进行情绪浓度表征，得到情绪浓度特征；基于语音情绪特征、情绪浓度特征，以及回复文本，进行语音合成，得到情感合成语音，克服了传统方案中语音合成风格单一，以致合成语音的情感表现力不佳的缺陷，实现了多情感的信息表达，通过不同角度不同层面的情感控制，不仅提升了情感表现力，还将语音合成时的情感控制在自然的范围内，从而使得合成的情感合成语音的情感表达更为自然，情感表现效果更佳，为人机交互领域下机器类人的多情感表现力的实现提供了助力，优化了人机交互体验。

附图说明

为了更清楚地说明本发明或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明提供的语音合成方法的流程示意图；

图2是本发明提供的情感控制模块的结构示意图；

图3是本发明提供的语音合成方法中步骤130的流程示意图；

图4是本发明提供的语音合成方法中步骤132的流程示意图；

图5是本发明提供的回复文本的确定过程的示意图；

图6是本发明提供的语音合成方法中步骤140的流程示意图；

图7是本发明提供的语音合成方法中步骤142的流程示意图；

图8是本发明提供的情绪回复文本的确定过程的示例图；

图9是本发明提供的语音合成方法中步骤120的流程示意图；

图10是本发明提供的业务执行过程的框架图；

图11是本发明提供的业务执行过程的示例图；

图12是本发明提供的语音合成方法的总体框架图；

图13是本发明提供的语音合成装置的结构示意图；

图14是本发明提供的电子设备的结构示意图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面将结合本发明中的附图，对本发明中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

语音合成是指将输入的文本转换成语音输出的过程。然而，传统的语音合成方法，仅仅是将书面文字、字符等转换为简单的口语输出，却忽略了说话人在言语表达过程中所携带的情感信息，从而使得合成语音不具备情感表现力，因而，如何提高合成语音表现力成为了语音合成技术研究过程中亟待解决的问题。

而随着智能语音技术的发展，人机交互已从之前一问一答的机械模式转换为了如今类似助理的智能交互模式，机器不再仅按照默认的语气进行信息表达，而是能够根据设计的情感参数进行情感化的信息表达，从而可以使得人机交互更加自然。进一步地，在机器能够实现情感化表达的基础上，如何使得机器具备类人一样的多情感表达能力，成为了当前的热门问题。

目前，语音合成技术多是按照定制的音库进行模型训练，因而，应用音库训练所的模型的表达能力与音库基本一致，简而言之，音库所具备的表达能力即模型所具备的表达能力，例如，实际应用中，助理默认采用温柔风格，因而音库会按照温柔风格进行录制，进一步地，若希望助理在交互过程具备多种情感的表达能力，则可以按照同样的方式录制几种对应情感的音库，最终训练所得模型具备默认的温柔风格，以及几种情感的单独风格。

但是，由于模型训练受限于音库，因而，其情感也取决于音库，换而言之，由于是基于音库风格进行模型训练的，因而语音合成模型无法具备类人的多情感表现力，即仅能模拟音库进行情感表达，情感表达能力过于单一(语音合成风格单一)，合成语音的表现力不佳。

对此，本发明提供一种语音合成方法，旨在借助语音情绪特征和情绪浓度特征，实现多情感的表达，提升了合成语音的情感表现力，并为人机交互领域下机器类人的多情感表现力的实现提供了助力，图1是本发明提供的语音合成方法的流程示意图，如图1所示，该方法包括：

步骤110，确定用户语音，以及用户语音对应的回复文本；

具体地，在进行语音合成之前，首先需确定用户语音，该用户语音可以理解为人机交互过程中用户的输入语音，而对应于用户语音的回复文本实则为需要进行语音合成的文本，其文本内容是与用户语音的语音内容对应的，即其文本内容为用户语音的语音内容的回复信息。

此处，回复文本是在用户语音的基础上生成的，其可以通过对用户语音及其对应的用户文本等进行语义理解、关键词抽取、关键词匹配、实体识别、实体链接等得到，也可以在用户语音的基础上结合预设知识图谱、对话管理系统等得到，本发明实施例对此不做具体限定。

对应于传统的人机交互场景，输入用户语音即可得到机器输出的用户语音对应的回复文本的合成语音，此处的合成语音仅是回复文本的语音表达，通常不携带情绪信息，因而其不具备情感表现力，从而使得人机交互过程极为极为生硬，人机交互体验不佳。为克服这一问题，现需对机器的情感表现力进行提升优化。

步骤120，对用户语音进行情绪特征提取，得到语音情绪特征；

具体地，在步骤110中，确定用户语音之后，即可执行步骤120，对用户语音进行情绪特征提取，以得到语音情绪特征，具体过程包括：

考虑到目前的语音合成模型大多不具备情感表现力，或者情感表现力单一，以致人机交互体验不佳的情况，本发明实施例中，为了使语音合成模型/语音合成引擎/语音合成系统具备多情感的表达能力，可以在语音合成过程中增加情感控制模块，通过情感控制使得其具备情感表征能力，从而实现情感化的信息表达。

又由于语音的情绪信息于语音而言，仅是一种副信息，为使模型能够学习到这一信息，需采用能够包含丰富信息的频谱特征作为情感控制模块的输入，以进行情绪特征提取，从而得到语音情绪特征。

具体而言，可以通过对用户语音进行特征提取，提取其频谱特征，此处的频谱特征可以是FBANK(Filter bank)特征、MFCC(Mel-Frequency Cepstral Coefficeitns)特征等；将频谱特征(Mel Spectrogram)作为情感控制模块的输入，图2是本发明提供的情感控制模块的结构示意图，如图2所示，通过多层神经网络(Reference Encoder)对频谱特征进行编码，以对用户语音进行情绪特征提取，从而得到其语音情绪特征，并可在输出端进行情绪分类(Emotion classifier)，如此即可使得语音合成模型/语音合成引擎/语音合成系统的隐层具备了情感表征能力，能够实现多种情绪的情绪表征。

本发明实施例种，以情绪分类为目标驱动模型训练，然后模型编码层通过逐层信息过滤，获知了用户语音的情绪表征信息，从而具备情感表征的能力，简而言之，在编码过程中提取得到了用户语音的语音情绪特征，即获知了用户语音的情绪表征信息，因而模型的隐层具备了情感表征能力。

步骤130，基于语音情绪特征进行情绪浓度表征，得到情绪浓度特征；

具体地，经过步骤120，得到用户语音的语音情绪特征后，即可执行步骤130，根据语音情绪特征进行情绪浓度表征，从而得到情绪浓度特征，这一过程具体包括：

由于传统方案中模型是基于音库风格进行训练的，因而其语音合成风格往往较为单一，不具备类人的多情感表现力，例如，人在表达单一情感时是具备情绪浓度的，即能够体现出不同浓度的情感表现力。

鉴于此，本发明实施例中，可以利用语音情绪特征进行情绪浓度表征，以使其具备情感浓度表征的能力，从而实现情绪浓度表达，进而体现出不同浓度的情感表现力。

具体而言，可以在语音情绪特征的基础上，通过参考情绪特征的情绪空间聚类，实现情绪浓度表征，具体可以是，以语音情绪特征和参考情绪特征为基准，进行情绪浓度表征，从而得到情绪浓度特征，即可以对参考情绪特征进行聚类，得到情绪浓度的聚类中心，然后结合语音情绪特征，即可计算得到情绪浓度特征。

此处，参考情绪特征顾名思义可以理解为参考向量，其是通过大量的样本数据进行聚类得到的，体现了情绪浓度的聚类中心，表征着样本数据在浓度层面下的情绪中心特征。

本发明实施例中，通过情绪浓度表征，可以使得其具备类人的情绪浓度表征能力，从而在面对单一情绪时也能表现出不同浓度的情绪变化，即赋予了其不同浓度的情感表现力。

步骤140，基于语音情绪特征、情绪浓度特征，以及回复文本，进行语音合成，得到情感合成语音。

具体地，经过上述步骤得到语音情绪特征、情绪浓度特征，以及回复文本之后，即可据此三者进行语音合成，从而得到情感合成语音，具体过程可以是，以用户语音对应的回复文本为基准，利用语音情绪特征和情绪浓度特征，进行多情感的语音合成，以得到情感合成语音，即在语音合成中，通过语音情绪特征和情绪浓度特征，对回复文本进行情感化的表达，从而得到情感化的合成语音，即情感合成语音。

本发明实施例中，通过不同角度不同层面的情感控制，不仅实现了多情感的信息表达，提升了情感表现力，还可以将语音合成时的情感控制在自然的范围内，从而使得合成的情感合成语音的情感表达更为自然，不生硬不突兀，情感表现效果更佳。

本发明提供的语音合成方法，对用户语音进行情绪特征提取，得到语音情绪特征；基于语音情绪特征进行情绪浓度表征，得到情绪浓度特征；基于语音情绪特征、情绪浓度特征，以及回复文本，进行语音合成，得到情感合成语音，克服了传统方案中语音合成风格单一，以致合成语音的情感表现力不佳的缺陷，实现了多情感的信息表达，通过不同角度不同层面的情感控制，不仅提升了情感表现力，还将语音合成时的情感控制在自然的范围内，从而使得合成的情感合成语音的情感表达更为自然，情感表现效果更佳，为人机交互领域下机器类人的多情感表现力的实现提供了助力，优化了人机交互体验。

基于上述实施例，图3是本发明提供的语音合成方法中步骤130的流程示意图，如图3所示，步骤130包括：

步骤131，确定情绪中心特征，情绪中心特征基于样本语音的样本语音情绪特征进行聚类得到；

步骤132，基于语音情绪特征，以及情绪中心特征，进行情绪浓度表征，得到情绪浓度特征。

具体地，步骤130中，利用语音情绪特征进行情绪浓度表征，以得到情绪浓度特征的过程，具体包括如下步骤：

步骤131，首先可以利用参考情绪特征进行聚类，以得到情绪中心特征，此处参考情绪特征为样本语音的样本语音情绪特征，其可以通过对样本语音进行情绪特征提取得到，情绪中心特征则可以理解为对应浓度的情绪表征中心，其可以通过对大量的对应浓度的样本语音的样本语音情绪特征进行层次聚类得到；

具体而言，训练数据集构建过程中，会录制大量的某一浓度的语音数据，如1000条语音数据，该部分语音数据即为样本语音，同时也会录制其他浓度的语音数据；这一浓度的1000条样本语音经过情感表征网络，即可得到1000条隐层特征，即通过对1000条样本语音进行语音特征提取，从而得到1000条样本语音的样本语音情绪特征；然后通过层次聚类的方式得到多个聚类中心，选择覆盖样本数最多的样本中心作为对应浓度的样本语音的情绪中心特征。

此处，利用样本语音的样本语音情绪特征进行层次聚类的方式，得到情绪中心特征，较之直接求解类中心的优势在于，能够规避部分噪声数据的干扰(导致情绪中心偏移)，保证情绪中心特征的精准度。

步骤132，随即可以根据语音情绪特征，以及情绪中心特征，进行情绪浓度表征，以得到情绪浓度特征，具体可以是，通过度量语音情绪特征和情绪中心特征之间的距离，实现情绪浓度表征，从而得到情绪浓度特征，即可以通过语音情绪特征和情绪中心特征之间的特征相似度，实现两者间的距离度量，借助距离计算两者是否归属同一类，从而实现情绪浓度表征，最终可以得到情绪浓度特征。

本发明实施例中，通过情绪浓度表征可以使得语音合成过程的情感不再固定为单一的情感风格，而是充分模拟了人的情感表达，能够实现不同浓度的情绪变化，尤其是面对单一情绪时也能表现出不同浓度的情感表达，赋予了其不同浓度的情感表现力。

基于上述实施例，情绪中心特征包括中等情绪中心特征和高等情绪中心特征，中等情绪中心特征和高等情绪中心特征分别由对应浓度等级的样本语音的样本语音情绪特征在对应浓度等级下进行聚类得到；图4是本发明提供的语音合成方法中步骤132的流程示意图，如图4所示，步骤132包括：

步骤132-1，基于语音情绪特征，以及中等情绪中心特征，确定中等情绪浓度特征；

步骤132-2，基于语音情绪特征，以及高等情绪中心特征，确定高等情绪浓度特征；

步骤132-3，基于中等情绪浓度特征，以及高等情绪浓度特征，确定情绪浓度特征。

具体地，由于人在表达情感时，通常具备低中高三个不同档位的情感表现力，因而，本发明实施例中为使模型的情感浓度表征的能力更为贴切，符合实际，在录制样本数据时，可以对应录制不同浓度等级的样本语音，从而可以对应求得不同浓度等级的情绪中心特征。

此处，情绪中心特征分为中等情绪中心特征和高等情绪中心特征，其中，中等情绪中心特征可以通过预先录制/收集的中等浓度的样本语音的样本语音情绪特征进行层次聚类得到；高等情绪中心特征可以通过预先录制/收集的高等浓度的样本语音的样本语音情绪特征进行层次聚类得到，具体的求解过程上文已详细说明，此处不再赘述。

进一步地，步骤132，利用语音情绪特征，以及情绪中心特征，进行情绪浓度表征，得到情绪浓度特征的过程，具体包括如下步骤：

步骤132-1，首先可以依据语音情绪特征，以及中等情绪中心特征，确定中等情绪浓度特征，即可以通过度量语音情绪特征和中等情绪中心特征之间的距离，实现情绪浓度表征，从而得到中等情绪浓度特征，具体可以是，通过语音情绪特征和中等情绪中心特征之间的特征相似度，计算两者是否归属同一类，从而实现情绪浓度表征；

步骤132-2，同时可以根据语音情绪特征，以及高等情绪中心特征，确定高等情绪浓度特征，具体可以是，通过语音情绪特征和高等情绪中心特征之间的特征相似度，实现语音情绪特征和高等情绪中心特征之间距离度量，借助距离计算两者是否归属同一类，从而实现情绪浓度表征，最终可以得到高等情绪浓度特征；

步骤132-3，随后，即可根据中等情绪浓度特征，以及高等情绪浓度特征，确定情绪浓度特征，具体可以是，在进行情感浓度控制时，采用向量计算的方式求得低到中等的情感浓度表征，以及中到高等的情感浓度表征，通过两个等级却涵盖三个档位的情感浓度表征，确定情绪浓度特征。

本发明实施例中，通过两级的情感控制，可以在保证情感表现力丰富度的同时，将情感拉伸控制在自然的空间内；同时还可对外提供多档(40档左右)的情感调参，以进行情感浓度控制。

基于上述实施例，低到中等的情感浓度表征和中到高等的情感浓度表征的计算公式，如下式所示：

其中，低到中等的情感浓度表征的计算公式为：

(v_emotion_mid-v_neutral)*scale+v_neutral

中到高的等情感浓度表征的计算公式为：

(v_emotion_high–v_emotion_mid)*scale+v_emotion_mid；

式中，v_emotion_mid表示中等情绪浓度特征，v_emotion_high表示高等情绪浓度特征，v_neutral表示中性情绪浓度特征，scale为情感表达系数，通过scale可以实现不同浓度的情感表达。

基于上述实施例，图5是本发明提供的回复文本的确定过程的示意图，如图5所示，用户语音对应的回复文本基于如下步骤确定：

步骤510，确定用户信息，用户信息包括用户语音、用户图像，以及用户语音对应的用户文本中的至少一种；

步骤520，对用户信息进行语义理解，得到问题关键信息，并对问题关键信息进行实体链接，得到问题关键信息链接的各关联实体；

步骤530，基于各关联实体，以及用户文本的文本特征，生成回复文本。

具体地，用户语音对应的回复文本的确定过程，包括以下步骤：

步骤510，首先需要获取用户信息，该用户信息包括用户语音、用户图像，以及用户语音对应的用户文本中的一种或多种，用户文本即用户语音对应的转写文本，用户信息有助于问题关键信息和用户情绪信息的获取，以及回复文本的生成，用户图像可以通过图像采集设备采集得到，此处的图像采集设备可以是相机、摄像头、扫描仪等；

步骤520，随即可以以用户信息为基准，进行语义理解以确定问题关键信息，具体可以是，通过语义理解模块，对用户信息进行语义理解，理解用户信息的信息含义，从而抽取用户信息中问题的关键信息，最终得到问题关键信息，此处的问题关键信息包括涉及的话题、话题的关键词等；

接着，可以对问题关键信息进行实体链接，以得到问题关键信息链接的各关联实体，即可以在预设知识图谱的基础上进行实体链接，从而得到问题关键信息链接的各关联实体，具体可以是，通过实体链接技术，对问题关键信息进行实体链接，得到问题关键信息在预设知识图谱中链接的各关联实体；

步骤530，此后即可依据各关联实体，以及用户文本的文本特征，生成回复文本，即可以在各关联实体，以及用户文本的文本特征的基础上，借助对话管理系统进行回复文本的生成，具体可以是，将各关联实体，以及用户文本的文本特征输入至对话管理系统，对话管理系统可根据输入的信息进行回复语生成，最终可以得到对话管理系统输出的回复文本。

基于上述实施例，图6是本发明提供的语音合成方法中步骤140的流程示意图，如图6所示，步骤140包括：

步骤141，基于用户信息分别进行情绪识别和情绪预测，得到情绪类别和情绪预测分数；

步骤142，基于回复文本、情绪类别，以及情绪预测分数，进行情绪文本生成，得到情绪回复文本；

步骤143，基于语音情绪特征、情绪浓度特征，以及情绪回复文本，进行语音合成，得到情感合成语音。

考虑到人机交互设计过程中，大多会提前固定交互的脚本内容，并采用人工方式对文本风格和情感进行标签注解，例如，通用问答采用默认温柔风格响应，在一些埋点的回复语上加上自定义的情感标签，如此可在用户与机器进行交流时，若用户问题触发了对应的情感标签回复语，则机器可以进行多情感的回复表达。

然而，上述方案虽然可以实现情感化的信息表达，但是其情感化合成是基于固定埋点回复语触发的，这会使得交互过程极为生硬，且无法感知用户的情绪变化和环境变化，难以做出与之相对应的情感化回复，致使用户体验不佳。

鉴于此，本发明实施例中，增加了情绪识别、情绪预测，以及情绪回复文本的生成，能够在交互过程中实时监控用户情绪和场景的变化，然后自动生成对应的情绪回复文本，从而实现文本层面多情感的信息表达，助益了情感表现力的提升。

具体地，步骤140中，通过语音情绪特征、情绪浓度特征，以及回复文本进行语音合成，从而得到情感合成语音的过程，具体包括：

步骤141，首先可以依据用户信息进行情绪识别，以得到用户的情绪类别，具体可以是，确定用户信息中的用户语音、用户图像、用户文本中的一种或多种在情绪表征层面的情绪特征，并据此一种或多种情绪特征对用户进行情绪识别，从而得到用户的情绪概率分布，情绪概率分布包含用户可能对应的各类情绪，以及归属于各类情绪的概率，其中最大概率对应的情绪类别即为所求的情绪类别；

同时，可以利用用户信息进行情绪预测，以确定用户的情绪预测分数，即借助用户信息中的用户语音、用户图像、用户文本中的一种或多种，预测用户的情感积极分数，从而得到情绪预测分数，该分数表征着用户的情感倾向，其从负向到正向分别对应不同的情绪等级。而由于用户的情绪等级可以定制成正向和负向的一个连续空间，因而，可以使用情绪预测分数中的负数表示负向情感，正数表示正向情感；

步骤142，随即可以利用回复文本、情绪类别，以及情绪预测分数进行情绪文本生成，以得到情绪回复文本，具体可以是，在回复文本、情绪类别，以及情绪预测分数的基础上，借助文本生成模型进行情绪文本生成，从而得到情绪回复文本，此处文本生成模型可以是在大规模对话预训练的自然对话生成模型的基础上，应用样本回复文本，以及样本情绪类别标签训练得到的；

具体而言，文本生成模型的输入为对话管理系统输出的回复文本，以及情绪识别所得的情绪类别，输出为情绪回复文本，即可以将回复文本以及情绪类别输入至文本生成模型，文本生成模型可据此两者进行情绪文本生成，并输出生成的情绪回复文本；而由于此时得到的情绪回复文本在拟人性上还稍显僵硬，因而需进行进一步的优化处理，遂将此时得到的情绪回复文本称为初始情绪回复文本；之后，可利用情绪预测分数，对初始情绪回复文本进行微调，最终可以得到情绪回复文本。

步骤143，此后即可依据语音情绪特征、情绪浓度特征，以及情绪回复文本，进行语音合成，从而得到情感合成语音，具体可以是，以情绪回复文本为基准，利用语音情绪特征和情绪浓度特征，进行多情感的语音合成，以得到情感合成语音，即在语音合成中，通过语音情绪特征和情绪浓度特征，对情绪回复文本进行情感化的表达，从而得到情感化的合成语音，即情感合成语音。

本发明实施例中，结合语音情绪特征、情绪浓度特征，以及情绪回复文本进行语音合成，不仅可以实现多情感的信息表达，还可以使得情感表达更为丰富、顺畅和细腻，提升了情感表现力，精进了情感表现效果，为人机交互体验的提升提供了关键性的助力。

基于上述实施例，图7是本发明提供的语音合成方法中步骤142的流程示意图，如图7所示，步骤142包括：

步骤142-1，基于回复文本，以及情绪类别，进行情绪文本生成，得到初始情绪回复文本；

步骤142-2，基于情绪预测分数，对初始情绪回复文本进行语序调整和语气词添加，得到情绪回复文本。

具体地，步骤142中，通过回复文本、情绪类别，以及情绪预测分数进行情绪文本生成，得到情绪回复文本的过程，包括以下步骤：

步骤142-1，首先可以根据回复文本，以及情绪类别，进行情绪文本生成，得到初始情绪回复文本，具体可以是，将回复文本，以及情绪类别输入至文本生成模型，文本生成模型可据此两者进行情绪文本生成，最终可以得到文本生成模型输出生成的初始情绪回复文本；

步骤142-2，随即可以利用情绪预测分数，对初始情绪回复文本进行微调，以得到情绪回复文本，具体可以是，参照情绪预测分数表征的用户情绪信息、情感倾向信息等，对初始情绪回复文本进行语序调整和语气词添加，以使其更加类似于人的情感化表达，更加拟人化，更加生动，从而得到情绪回复文本，即可以在初始情绪回复文本的基础上添加语气词，以及对初始情绪回复文本中的回复语句进行语序修改，从而得到匹配于对应情感/情绪的情绪回复文本。

图8是本发明提供的情绪回复文本的确定过程的示例图，如图8所示，对于用户输入信息(最近气温突然降了，又感冒了，好烦啊)，首先，可以据此进行情绪预测和情绪识别，得到情绪类别(烦躁)和情绪预测分数(-5)，然后可以通过语义理解模块，得到问题关键信息(关键词：感冒；话题：天气；情感)，之后可以结合预设知识图谱进行实体链接，得到问题关键信息链接的各关联实体(如，感冒——医院、药物、医生、身体不适等)，在这之后可通过对话管理系统进行文本生成，得到回复文本；

而后，即可将回复文本、情绪类别，以及情绪预测分数输入至文本生成模型，以进行情绪文本生成，从而得到情绪回复文本(感冒确实很难受，你吃药了吗？)。此处文本生成模型是在大规模对话预训练模型的基础上训练得到的。值得注意的是，生成的情绪回复文本对于用户情绪有积极引导作用，能够引导其向积极正向的方向转变，如图8中用户的情绪预测分数从-5转向2。

基于上述实施例，图9是本发明提供的语音合成方法中步骤120的流程示意图，如图9所示，步骤120包括：

步骤121，分别对用户语音的频谱特征进行情绪特征提取和说话人特征提取，得到初始语音情绪特征和初始说话人特征；

步骤122，基于初始语音情绪特征和初始说话人特征之间的正交约束，对初始语音情绪特征和初始说话人特征进行解耦，得到语音情绪特征和说话人特征；正交约束用于约束初始语音情绪特征和初始说话人特征之间的无关性。

具体地，步骤120中，对用户语音进行情绪特征提取，以得到语音情绪特征的过程，具体可以包括如下步骤：

步骤121，首先可以对用户语音进行频谱特征提取，从而得到用户语音的频谱特征，然后可将频谱特征作为编码模块的输入，以通过两个不同的编码模块，分别对频谱特征进行情绪特征提取和说话人特征提取，从而得到情绪编码模块输出的初始语音情绪特征，以及说话人编码模块输出的初始说话人特征；

由于在实际操作中发现由同一输入经不同编码模块输出的初始语音情绪特征和初始说话人特征之间存在一些耦合，因此为使初始语音情绪特征更纯粹，其中不掺杂有说话人信息，还需对两者进行解耦。

步骤122，随即可以利用初始语音情绪特征和初始说话人特征之间的正交约束，对初始语音情绪特征和初始说话人特征进行解耦，以得到语音情绪特征和说话人特征，具体可以是，在建模过程中采用了情感编码和说话人编码两个编码模块，并对此两者的输出设置了正交约束，该约束用于约束两者输出之间的无关性，即是的两者的输出不相关，因而此处可以借助初始语音情绪特征和初始说话人特征之间的正交约束，来保证说话人和情感的解耦，从而可以得到语音情绪特征和说话人特征，如此可以使得后续的情感控制过程更加纯粹，且效果更好。

图12是本发明提供的语音合成方法的总体框架图，如图12所示，该方法具体包括如下步骤：

首先，确定用户语音，以及用户语音对应的回复文本；

其中，用户语音对应的回复文本基于如下步骤确定：确定用户信息，用户信息包括用户语音、用户图像，以及用户语音对应的用户文本中的至少一种；对用户信息进行语义理解，得到问题关键信息，并对问题关键信息进行实体链接，得到问题关键信息链接的各关联实体；基于各关联实体，以及用户文本的文本特征，生成回复文本。

随即，对用户语音进行情绪特征提取，得到语音情绪特征，具体可以是，分别对用户语音的频谱特征进行情绪特征提取和说话人特征提取，得到初始语音情绪特征和初始说话人特征；基于初始语音情绪特征和初始说话人特征之间的正交约束，对初始语音情绪特征和初始说话人特征进行解耦，得到语音情绪特征和说话人特征；正交约束用于约束初始语音情绪特征和初始说话人特征之间的无关性；

随后，基于语音情绪特征进行情绪浓度表征，得到情绪浓度特征，具体可以是，确定情绪中心特征，情绪中心特征基于样本语音的样本语音情绪特征进行聚类得到；基于语音情绪特征，以及情绪中心特征，进行情绪浓度表征，得到情绪浓度特征；

此处，情绪中心特征包括中等情绪中心特征和高等情绪中心特征，中等情绪中心特征和高等情绪中心特征分别由对应浓度等级的样本语音的样本语音情绪特征在对应浓度等级下进行聚类得到。

其中，基于语音情绪特征，以及情绪中心特征，进行情绪浓度表征，得到情绪浓度特征，具体包括：基于语音情绪特征，以及中等情绪中心特征，确定中等情绪浓度特征；基于语音情绪特征，以及高等情绪中心特征，确定高等情绪浓度特征；基于中等情绪浓度特征，以及高等情绪浓度特征，确定情绪浓度特征。

此后，基于语音情绪特征、情绪浓度特征，以及回复文本，进行语音合成，得到情感合成语音，具体可以是，基于用户信息分别进行情绪识别和情绪预测，得到情绪类别和情绪预测分数；基于回复文本、情绪类别，以及情绪预测分数，进行情绪文本生成，得到情绪回复文本；基于语音情绪特征、情绪浓度特征，以及情绪回复文本，进行语音合成，得到情感合成语音。

其中，基于回复文本、情绪类别，以及情绪预测分数，进行情绪文本生成，得到情绪回复文本，具体包括：基于回复文本，以及情绪类别，进行情绪文本生成，得到初始情绪回复文本；基于情绪预测分数，对初始情绪回复文本进行语序调整和语气词添加，得到情绪回复文本。

图10是本发明提供的业务执行过程的框架图，图11是本发明提供的业务执行过程的示例图，参见图10和图11可知，本发明提供的方法可以应用于人机交互场景，具体应用时的场景信息可以分为主动交互场景和被动交互场景，其中主动交互场景可以是上车问候、生日问候、日程提醒等，被动交互场景则可以是口令执行、导航、音乐搜索等；下面以口令执行“打开车窗”为例，对业务执行过程进行说明：

首先可以以用户语音及其对应的用户文本作为输入，然后两条支路分别进行情绪识别和业务执行，上方支路识别得到用户的情绪类别为愤怒，对应的概率/置信度为90％，下方支路执行口令“打开车窗”，返回结果“打开车窗失败”，即“口令执行失败”，之后确认回复文本所对应的回复情感范围“抱歉、恐惧”，以生成情绪回复文本，并基于情绪预测分数，判断情绪回复文本是否符合场景/要求“抱歉，没能打开车窗——可用抱歉表达，符合要求”，最后给出置信度，端侧判断是否执行“[90％][抱歉表情]抱歉，没能打开车窗”。

本发明实施例提供的方法，对用户语音进行情绪特征提取，得到语音情绪特征；基于语音情绪特征进行情绪浓度表征，得到情绪浓度特征；基于语音情绪特征、情绪浓度特征，以及回复文本，进行语音合成，得到情感合成语音，克服了传统方案中语音合成风格单一，以致合成语音的情感表现力不佳的缺陷，实现了多情感的信息表达，通过不同角度不同层面的情感控制，不仅提升了情感表现力，还将语音合成时的情感控制在自然的范围内，从而使得合成的情感合成语音的情感表达更为自然，情感表现效果更佳，为人机交互领域下机器类人的多情感表现力的实现提供了助力，优化了人机交互体验。

下面对本发明提供的语音合成装置进行描述，下文描述的语音合成装置与上文描述的语音合成方法可相互对应参照。

图13是本发明提供的语音合成装置的结构示意图，如图13所示，该装置包括：

信息确定单元1310，用于确定用户语音，以及所述用户语音对应的回复文本；

特征提取单元1320，用于对所述用户语音进行情绪特征提取，得到语音情绪特征；

浓度表征单元1330，用于基于所述语音情绪特征进行情绪浓度表征，得到情绪浓度特征；

语音合成单元1340，用于基于所述语音情绪特征、所述情绪浓度特征，以及所述回复文本，进行语音合成，得到情感合成语音。

本发明提供的语音合成装置，对用户语音进行情绪特征提取，得到语音情绪特征；基于语音情绪特征进行情绪浓度表征，得到情绪浓度特征；基于语音情绪特征、情绪浓度特征，以及回复文本，进行语音合成，得到情感合成语音，克服了传统方案中语音合成风格单一，以致合成语音的情感表现力不佳的缺陷，实现了多情感的信息表达，通过不同角度不同层面的情感控制，不仅提升了情感表现力，还将语音合成时的情感控制在自然的范围内，从而使得合成的情感合成语音的情感表达更为自然，情感表现效果更佳，为人机交互领域下机器类人的多情感表现力的实现提供了助力，优化了人机交互体验。

基于上述实施例，浓度表征单元1330用于：

基于上述实施例，所述情绪中心特征包括中等情绪中心特征和高等情绪中心特征，所述中等情绪中心特征和所述高等情绪中心特征分别由对应浓度等级的样本语音的样本语音情绪特征在对应浓度等级下进行聚类得到；

浓度表征单元1330用于：

基于上述实施例，信息确定单元1310用于：

基于上述实施例，语音合成单元1340用于：

基于上述实施例，特征提取单元1320用于：

图14示例了一种电子设备的实体结构示意图，如图14所示，该电子设备可以包括：处理器(processor)1410、通信接口(Communications Interface)1420、存储器(memory)1430和通信总线1440，其中，处理器1410，通信接口1420，存储器1430通过通信总线1440完成相互间的通信。处理器1410可以调用存储器1430中的逻辑指令，以执行语音合成方法，该方法包括：确定用户语音，以及所述用户语音对应的回复文本；对所述用户语音进行情绪特征提取，得到语音情绪特征；基于所述语音情绪特征进行情绪浓度表征，得到情绪浓度特征；基于所述语音情绪特征、所述情绪浓度特征，以及所述回复文本，进行语音合成，得到情感合成语音。

此外，上述的存储器1430中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

另一方面，本发明还提供一种计算机程序产品，所述计算机程序产品包括存储在非暂态计算机可读存储介质上的计算机程序，所述计算机程序包括程序指令，当所述程序指令被计算机执行时，计算机能够执行上述各方法所提供的语音合成方法，该方法包括：确定用户语音，以及所述用户语音对应的回复文本；对所述用户语音进行情绪特征提取，得到语音情绪特征；基于所述语音情绪特征进行情绪浓度表征，得到情绪浓度特征；基于所述语音情绪特征、所述情绪浓度特征，以及所述回复文本，进行语音合成，得到情感合成语音。

又一方面，本发明还提供一种非暂态计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现以执行上述各方法所提供的语音合成方法，该方法包括：确定用户语音，以及所述用户语音对应的回复文本；对所述用户语音进行情绪特征提取，得到语音情绪特征；基于所述语音情绪特征进行情绪浓度表征，得到情绪浓度特征；基于所述语音情绪特征、所述情绪浓度特征，以及所述回复文本，进行语音合成，得到情感合成语音。

以上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下，即可以理解并实施。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件。基于这样的理解，上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在计算机可读存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。

最后应说明的是：以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种语音合成方法，其特征在于，包括：

确定用户语音，以及所述用户语音对应的回复文本；

对所述用户语音进行情绪特征提取，得到语音情绪特征；

2.根据权利要求1所述的语音合成方法，其特征在于，所述基于所述语音情绪特征进行情绪浓度表征，得到情绪浓度特征，包括：

3.根据权利要求2所述的语音合成方法，其特征在于，所述情绪中心特征包括中等情绪中心特征和高等情绪中心特征，所述中等情绪中心特征和所述高等情绪中心特征分别由对应浓度等级的样本语音的样本语音情绪特征在对应浓度等级下进行聚类得到；

4.根据权利要求1至3中任一项所述的语音合成方法，其特征在于，所述用户语音对应的回复文本基于如下步骤确定：

5.根据权利要求1至3中任一项所述的语音合成方法，其特征在于，所述基于所述语音情绪特征、所述情绪浓度特征，以及所述回复文本，进行语音合成，得到情感合成语音，包括：

6.根据权利要求5所述的语音合成方法，其特征在于，所述基于所述回复文本、所述情绪类别，以及所述情绪预测分数，进行情绪文本生成，得到情绪回复文本，包括：

7.根据权利要求1至3中任一项所述的语音合成方法，其特征在于，所述对所述用户语音进行情绪特征提取，得到语音情绪特征，包括：

8.一种语音合成装置，其特征在于，包括：

9.一种电子设备，包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现如权利要求1至7任一项所述的语音合成方法。

10.一种非暂态计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1至7任一项所述的语音合成方法。