CN115424605A

CN115424605A - 语音合成方法、装置、电子设备及计算机可读存储介质

Info

Publication number: CN115424605A
Application number: CN202211353393.5A
Authority: CN
Inventors: 刘诗慧; 周力
Original assignee: Beijing Hongmian Xiaoice Technology Co Ltd
Current assignee: Beijing Hongmian Xiaoice Technology Co Ltd
Priority date: 2022-11-01
Filing date: 2022-11-01
Publication date: 2022-12-02
Anticipated expiration: 2042-11-01
Also published as: CN115424605B

Abstract

本申请提供一种语音合成方法、装置、电子设备及计算机可读存储介质，涉及音频处理领域，该方法包括：获取对话过程中用户输入的待回复音频，并对待回复音频进行处理，得到对应的输入情感向量和输入语义向量；对输入情感向量和输入语义向量进行情感预测，并根据情感预测的预测结果确定回复情感向量和回复文本；使用语音合成模型对回复情感向量以及回复文本进行处理，得到能够表达情感的目标音频。本申请提供的语音合成方法、装置、电子设备及计算机可读存储介质，用于在语音助手与用户的交流过程中，能够根据用户的情绪变化，以合适的语气和符合用户情绪的内容与用户进行沟通交流。

Description

语音合成方法、装置、电子设备及计算机可读存储介质

技术领域

本申请涉及音频处理领域，尤其涉及一种语音合成方法、装置、电子设备及计算机可读存储介质。

背景技术

随着人工智能技术的快速发展，语音助手（也可称为聊天机器人）的应用场景也越来越多。语音助手能够在与用户的交流过程中回答用户提出的问题，或者按照用户的指令控制智能设备等。

在相关技术中，语音助手在与用户的交流过程中，风格语气较为单一，这样的交流方式无法让用户感受到语音助手的情绪变化，使得语音助手看起来不那么智能。

因此，使语音助手在与用户的交流过程中具有情绪变化的能力，是提升语音助手智能化的重要途径。

发明内容

本申请的目的是提供一种语音合成方法、装置、电子设备及计算机可读存储介质，用于在语音助手与用户的交流过程中，能够根据用户的情绪变化，以合适的语气和符合用户情绪的内容与用户进行沟通交流。

本申请提供一种语音合成方法，包括：

获取对话过程中用户输入的待回复音频，并对所述待回复音频进行处理，得到对应的输入情感向量和输入语义向量；对所述输入情感向量和所述输入语义向量进行情感预测，并根据情感预测的预测结果确定回复情感向量和回复文本；使用语音合成模型对所述回复情感向量以及所述回复文本进行处理，得到能够表达情感的目标音频。

可选地，所述对所述待回复音频进行处理，得到对应的输入情感向量和输入语义向量，包括：对所述待回复音频进行语音识别，得到所述待回复音频对应的文本内容；对所述文本内容进行语义识别，得到所述输入语义向量。

可选地，所述对所述待回复音频进行语音识别，得到所述待回复音频对应的文本内容之后，所述方法还包括：对所述待回复音频进行声纹提取，得到所述待回复音频的声纹信息；通过所述声纹信息从所述待回复音频中去除与用户相关的特征信息，并通过所述文本内容从所述待回复音频中去除与内容相关的特征信息，得到处理后的音频信息；对所述处理后的音频信息进行声学情感提取，得到所述输入情感向量。

可选地，所述对所述输入情感向量和所述输入语义向量进行情感预测，并根据情感预测的预测结果确定回复情感向量和回复文本，包括：基于隐状态向量对所述输入情感向量和所述输入语义向量进行粗粒度情感预测，得到粗粒度情感向量和回复语义向量，并基于所述粗粒度情感预测的预测结果更新所述隐状态向量；基于所述粗粒度情感向量以及对话过程中上一个语音回复对应的已回复语义向量和上一个语音回复对应的已回复情感向量对所述输入情感向量进行细粒度情感预测，得到细粒度情感向量；基于更新后的隐状态向量，确定所述粗粒度情感向量和所述细粒度情感向量的权重占比，并根据所述粗粒度情感向量和所述细粒度情感向量的权重占比计算得到所述回复情感向量；其中，所述隐状态向量用于表示用户的当前情感；所述当前情感为基于用户在对话过程中的历史情感的累积结果得到的。

可选地，所述基于隐状态向量对所述输入情感向量和所述输入语义向量进行粗粒度情感预测，得到粗粒度情感向量和回复语义向量之后，所述方法还包括：从候选回复语料中筛选出与所述回复语义向量相匹配的回复文本。

可选地，所述语音合成模型包括：编码器，解码器，以及声码器；所述编码器的结构包括：自注意力模型；所述解码器的结构包括：卷积层和残差层；所述使用语音合成模型对所述回复情感向量以及所述回复文本进行处理，得到能够表达情感的目标音频，包括：通过所述编码器将所述回复文本转换为发音信息向量；通过所述解码器提取所述发音信息向量以及所述回复情感向量中的发音信息和情感信息，并基于所述发音信息和所述情感信息预测所述目标音频的音频频谱；通过声码器对所述音频频谱进行解码，得到所述目标音频；其中，所述卷积层用于从所述发音信息向量以及所述回复情感向量中提取所述发音信息和所述情感信息；所述残差层用于对所述发音信息和所述情感信息进行强化。

本申请还提供一种语音合成装置，包括：

获取模块，用于获取对话过程中用户输入的待回复音频；音频处理模块，用于对所述待回复音频进行处理，得到对应的输入情感向量和输入语义向量；情感预测模块，用于对所述输入情感向量和所述输入语义向量进行情感预测，并根据情感预测的预测结果确定回复情感向量和回复文本；语音合成模块，用于使用语音合成模型对所述回复情感向量以及所述回复文本进行处理，得到能够表达情感的目标音频。

可选地，所述音频处理模块，具体用于对所述待回复音频进行语音识别，得到所述待回复音频对应的文本内容；所述音频处理模块，具体还用于对所述文本内容进行语义识别，得到所述输入语义向量。

可选地，所述音频处理模块，具体用于对所述待回复音频进行声纹提取，得到所述待回复音频的声纹信息；所述音频处理模块，具体还用于通过所述声纹信息从所述待回复音频中去除与用户相关的特征信息，并通过所述文本内容从所述待回复音频中去除与内容相关的特征信息，得到处理后的音频信息；所述音频处理模块，具体还用于对所述处理后的音频信息进行声学情感提取，得到所述输入情感向量。

可选地，所述情感预测模块，具体用于基于隐状态向量对所述输入情感向量和所述输入语义向量进行粗粒度情感预测，得到粗粒度情感向量和回复语义向量，并基于所述粗粒度情感预测的预测结果更新所述隐状态向量；所述情感预测模块，具体还用于基于所述粗粒度情感向量以及对话过程中上一个语音回复对应的已回复语义向量和上一个语音回复对应的已回复情感向量对所述输入情感向量进行细粒度情感预测，得到细粒度情感向量；所述情感预测模块，具体还用于基于更新后的隐状态向量，确定所述粗粒度情感向量和所述细粒度情感向量的权重占比，并根据所述粗粒度情感向量和所述细粒度情感向量的权重占比计算得到所述回复情感向量；其中，所述隐状态向量用于表示用户的当前情感；所述当前情感为基于用户在对话过程中的历史情感的累积结果得到的。

可选地，所述情感预测模块，具体用于从候选回复语料中筛选出与所述回复语义向量相匹配的回复文本。

可选地，所述语音合成模型包括：编码器，解码器，以及声码器；所述编码器的结构包括：自注意力模型；所述解码器的结构包括：卷积层和残差层；所述语音合成模块，具体用于通过编码器将所述回复文本转换为发音信息向量；所述语音合成模块，具体还用于通过解码器提取所述发音信息向量以及所述回复情感向量中的发音信息和情感信息，并基于所述发音信息和所述情感信息预测所述目标音频的音频频谱；语音合成模块，具体还用于通过声码器对所述音频频谱进行解码，得到所述目标音频；其中，所述卷积层用于从所述发音信息向量以及所述回复情感向量中提取所述发音信息和所述情感信息；所述残差层用于对所述发音信息和所述情感信息进行强化。

本申请还提供一种计算机程序产品，包括计算机程序/指令，该计算机程序/指令被处理器执行时实现如上述任一种所述语音合成方法的步骤。

本申请还提供一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现如上述任一种所述语音合成方法的步骤。

本申请还提供一种计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现如上述任一种所述语音合成方法的步骤。

本申请提供的语音合成方法、装置、电子设备及计算机可读存储介质，首先获取对话过程中用户输入的待回复音频，并对待回复音频进行处理，得到对应的输入情感向量和输入语义向量。之后，对输入情感向量和输入语义向量进行情感预测，并根据情感预测的预测结果确定回复情感向量和回复文本。最后，使用语音合成模型对回复情感向量以及回复文本进行处理，得到能够表达情感的目标音频。如此，使得语音助手在与用户的交流过程中，能够根据用户的情绪变化，以合适的语气和符合用户情绪的内容与用户进行沟通交流。

附图说明

为了更清楚地说明本申请或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本申请提供的语音合成方法的流程示意图之一；

图2是本申请提供的语音合成方法的流程示意图之二；

图3是本申请提供的确定声学情感向量的流程示意图；

图4是本申请提供的确定回复文本和回复情感向量的流程示意图；

图5是本申请提供的合成目标音频的流程示意图；

图6是本申请提供的语音合成装置的结构示意图；

图7是本申请提供的电子设备的结构示意图。

具体实施方式

为使本申请的目的、技术方案和优点更加清楚，下面将结合本申请中的附图，对本申请中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

本申请的说明书和权利要求书中的术语“第一”、“第二”等是用于区别类似的对象，而不用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便本申请的实施例能够以除了在这里图示或描述的那些以外的顺序实施，且“第一”、“第二”等所区分的对象通常为一类，并不限定对象的个数，例如第一对象可以是一个，也可以是多个。此外，说明书以及权利要求中“和/或”表示所连接对象的至少其中之一，字符“/”，一般表示前后关联对象是一种“或”的关系。

在相关技术中，语音回复通常采用的语音合成技术，包括以下三种技术方案：

技术方案1、通用语音回复。

为了确保语音合成效果的稳定，发音人在录制音频数据的过程中，均为统一的风格语气。这样合成出来的效果，不会根据对话内容，或对话中的情绪状态产生对应的语气变化。

技术方案2、情绪控制。

技术方案1在对话场景中不容易有情景带入的感觉，因此，会在录制的时候根据文本，及设定的情绪标签，将其演绎出来。在实际应用中，可以根据当前回复文本及情绪标签，输入到预测模型中，模型根据给定的标签，合成指定情绪的音频。

技术方案3、隐变量控制。

无监督训练，训练数据不对情感分类进行标记，而是根据模型训练中，神经网络自己学习到的参数，作为情感的输入。在实际应用中，根据某些预设好的参数作为模型输入，合成指定情绪的音频。

基于上述内容可知，相关技术中合成具有情感表达的音频，存在以下缺陷：

1、人类情绪复杂多变，同一情绪，或者给定情绪标签，难以将丰富的情绪完全演绎出来。

2、隐变量控制可以比较好的合成出情绪多变的音频，但在实际应用的过程中，一般采用某几个固定的隐变量，难以达到复杂多变的效果。

3、在对话场景中，情绪起伏会比较连贯，并且与对方的说话内容和语气有比较大的关联，相关技术中的语音合成方案无法结合前文内容和语气，匹配最合适的情绪。

针对相关技术中存在的上述技术问题，本申请实施例提供了一种语音合成方法，在语音助手与用户的交流过程中，能够根据用户的情绪变化，以合适的语气和符合用户情绪的内容与用户进行沟通交流。

下面结合附图，通过具体的实施例及其应用场景对本申请实施例提供的语音合成方法进行详细地说明。

如图1所示，本申请实施例提供的一种语音合成方法，该方法可以包括下述步骤101至步骤103：

步骤101、获取对话过程中用户输入的待回复音频，并对所述待回复音频进行处理，得到对应的输入情感向量和输入语义向量。

示例性地，在接收到用户输入的待回复音频后，为了确定回复音频的回复语气，需要接待回复音频进行处理，确定能够反应用户情绪的输入情感向量，以及能够反应用户真实意图的输入语义向量。

具体地，上述步骤101，可以包括以下步骤101a1和步骤101a2：

步骤101a1、对所述待回复音频进行语音识别，得到所述待回复音频对应的文本内容。

步骤101a2、对所述文本内容进行语义识别，得到所述输入语义向量。

示例性地，如图2所示，为了确定用户的真实意图，首先需要对用户输入的待回复音频进行语音识别，得到对应的文本内容。之后，通过语义提取器从文本内容中提取出语义向量（即上述输入语义向量）。

需要说明的是，上述语义提取器可以为双向编码器（bidirectional encoderrepresentation from transformers，BERT）模型，通过该BERT模型，可以获取输入文本所要表达的内容的语义信息，即上述输入语义向量。

具体地，在得到上述待回复音频的输入语义向量之后，上述步骤101，可以包括以下步骤101b1至步骤101b3：

步骤101b1、对所述待回复音频进行声纹提取，得到所述待回复音频的声纹信息。

步骤101b2、通过所述声纹信息从所述待回复音频中去除与用户相关的特征信息，并通过所述文本内容从所述待回复音频中去除与内容相关的特征信息，得到处理后的音频信息。

步骤101b3、对所述处理后的音频信息进行声学情感提取，得到所述输入情感向量。

示例性地，上述输入情感向量主要用于表示待回复音频对应的情感，即用户输入该待回复音频时的情感状态。用户的情感状态可以通过至少一种情绪来进行表示，即每一中情感状态均可以通过至少一种情绪来表示。不同情感状态下，用户输入音频时的语气不同。

示例性地，基于图2，如图3所示，通过语音识别得到待回复音频对应的文本内容，以及通过声纹提取得到待回复音频对应的声纹信息后，将文本内容、声纹信息以及待回复音频输入声学情感提取器中，得到待回复音频的声学情感向量，即上述输入情感向量。

示例性地，声学情感提取器主要用于从待回复音频的频谱中提取与发音人（即上述用户）以及说话内容无关的情感表示向量。其输入的样本为音频，之后，加入声纹信息从待回复音频的频谱中排除说话人（即上述用户）相关信息，同时，还需要加入文本内容从待回复音频的频谱中排除说话内容相关信息。最后，通过神经网络，得到待回复音频的情感表示向量。

步骤102、对所述输入情感向量和所述输入语义向量进行情感预测，并根据情感预测的预测结果确定回复情感向量和回复文本。

示例性地，在得到待回复音频对应的输入情感向量以及输入语义向量之后，便可以基于输入情感向量以及输入语义向量对待回复音频进行情感预测。

示例性地，对待回复音频进行情感预测主要用于确定回复音频（即上述目标音频）所采用的情感，以及回复音频的回复内容（即上述回复文本）。

具体地，上述步骤102，可以包括以下步骤102a1至步骤102a3：

步骤102a1、基于隐状态向量对所述输入情感向量和所述输入语义向量进行粗粒度情感预测，得到粗粒度情感向量和回复语义向量，并基于所述粗粒度情感预测的预测结果更新所述隐状态向量。

步骤102a2、基于所述粗粒度情感向量以及对话过程中上一个语音回复对应的已回复语义向量和上一个语音回复对应的已回复情感向量对所述输入情感向量进行细粒度情感预测，得到细粒度情感向量。

步骤102a3、基于更新后的隐状态向量，确定所述粗粒度情感向量和所述细粒度情感向量的权重占比，并根据所述粗粒度情感向量和所述细粒度情感向量的权重占比计算得到所述回复情感向量。

其中，所述隐状态向量用于表示用户的当前情感；所述当前情感为基于用户在对话过程中的历史情感的累积结果得到的。

示例性地，基于图2，如图4所示，为图2中通过匹配器以及候选回复语料得到回复文本和回复情感向量的具体步骤。如图4所示，首先将输入情感向量以及输入语义向量输入到粗粒度情感预测模型中，并基于隐状态向量对回复音频所需的情感进行粗粒度情感预测，得到粗粒度情感向，和回复语义向量。同时，还可以基于粗粒度情感预测模型的预测结果更新隐状态向量。

示例性地，如图4所示，在得到粗粒度情感向量之后，可以将粗粒度情感向量、输入情感向量以及上一条回复音频对应的情感向量（即上述已回复情感向量）和语义向量（即上述已回复语义向量）输入到细粒度情感预测模型中进行细粒度情感预测，得到细粒度情感向量。

示例性地，如图4所示，在得到待回复音频对应的细粒度情感向量之后，便可以将细粒度情感向量、粗粒度情感向量以及更新后的隐状态向量输入到粗细粒度情感混合模型中，通过更新后的隐状态向量预测粗粒度情感向量和细粒度情感向量的权重占比。最后，根据预测结果计算并得到最终的回复情感向量。

示例性地，回复情感向量P可以表示为：P=A*a+B*b。其中，A为粗粒度情感向量，B为细粒度情感向量；a为粗粒度情感向量的权重，b为细粒度情感向量的权重。

具体地，在通过粗粒度情感预测模型得到回复语义向量（即上述步骤102a1）之后，上述步骤102，还可以包括以下步骤102b：

步骤102b、从候选回复语料中筛选出与所述回复语义向量相匹配的回复文本。

示例性地，如图4所示，在通过粗粒度情感预测模型得到回复语义向量之后，便可以从候选语料库中筛选出与回复语义向量相匹配的回复文本。

步骤103、使用语音合成模型对所述回复情感向量以及所述回复文本进行处理，得到能够表达情感的目标音频。

示例性地，如图2所示，在将声学情感向量、语义回复向量输入到匹配其中，并通过匹配器得到上述回复情感向量以及回复文本之后，便可以通过语音合成模型合成能够表达情感的回复音频，即上述目标音频。

示例性地，上述语音合成模型包括：编码器，解码器，以及声码器。所述编码器的结构包括：自注意力模型；所述解码器的结构包括：卷积层和残差层。

具体地，上述步骤103，可以包括以下步骤103a1至步骤103a3：

步骤103a1、通过所述编码器将所述回复文本转换为发音信息向量。

步骤103a2、通过所述解码器提取所述发音信息向量以及所述回复情感向量中的发音信息和情感信息，并基于所述发音信息和所述情感信息预测所述目标音频的音频频谱。

需要说明的是，上述解码器的输入为发音信息向量以及回复情感向量，输出为目标音频的音频频谱。

步骤103a3、通过所述声码器对所述音频频谱进行解码，得到所述目标音频。

其中，所述卷积层用于从所述发音信息向量以及所述回复情感向量中提取所述发音信息和所述情感信息；所述残差层用于对所述发音信息和所述情感信息进行强化。

示例性地，如图5所示，为合成目标音频的流程示意图。将匹配器输出的回复文本输入到语音合成模型中，通过自注意力模型得到该回复文本对应的发音信息向量。之后，通过卷积层获取发音信息向量和回复情感向量中的发音信息及情感信息，再通过残差层，不断强化发音信息及情感信息，并预测目标音频的频谱信息。最后，通过声码器对预测出的频谱信息进行解码，得到目标音频。

本申请实施例提供的语音合成方法，首先获取对话过程中用户输入的待回复音频，并对待回复音频进行处理，得到对应的输入情感向量和输入语义向量。之后，对输入情感向量和输入语义向量进行情感预测，并根据情感预测的预测结果确定回复情感向量和回复文本。最后，使用语音合成模型对回复情感向量以及回复文本进行处理，得到能够表达情感的目标音频。如此，使得语音助手在与用户的交流过程中，能够根据用户的情绪变化，以合适的语气和符合用户情绪的内容与用户进行沟通交流。

需要说明的是，本申请实施例提供的语音合成方法，执行主体可以为语音合成装置，或者该语音合成装置中的用于执行语音合成方法的控制模块。本申请实施例中以语音合成装置执行语音合成方法为例，说明本申请实施例提供的语音合成装置。

需要说明的是，本申请实施例中，上述各个方法附图所示的。语音合成方法均是以结合本申请实施例中的一个附图为例示例性的说明的。具体实现时，上述各个方法附图所示的语音合成方法还可以结合上述实施例中示意的其它可以结合的任意附图实现，此处不再赘述。

下面对本申请提供的语音合成装置进行描述，下文描述的与上文描述的语音合成方法可相互对应参照。

图6为本申请一实施例提供的语音合成装置的结构示意图，如图6所示，具体包括：

获取模块601，用于获取对话过程中用户输入的待回复音频；音频处理模块602，用于对所述待回复音频进行处理，得到对应的输入情感向量和输入语义向量；情感预测模块603，用于对所述输入情感向量和所述输入语义向量进行情感预测，并根据情感预测的预测结果确定回复情感向量和回复文本；语音合成模块604，用于使用语音合成模型对回复情感向量以及回复文本进行处理，得到能够表达情感的目标音频。

可选地，所述音频处理模块602，具体用于对所述待回复音频进行语音识别，得到所述待回复音频对应的文本内容；所述音频处理模块602，具体还用于对所述文本内容进行语义识别，得到所述输入语义向量。

可选地，所述音频处理模块602，具体用于对所述待回复音频进行声纹提取，得到所述待回复音频的声纹信息；所述音频处理模块602，具体还用于通过所述声纹信息从所述待回复音频中去除与用户相关的特征信息，并通过所述文本内容从所述待回复音频中去除与内容相关的特征信息，得到处理后的音频信息；所述音频处理模块602，具体还用于对所述处理后的音频信息进行声学情感提取，得到所述输入情感向量。

可选地，所述情感预测模块603，具体用于基于隐状态向量对所述输入情感向量和所述输入语义向量进行粗粒度情感预测，得到粗粒度情感向量和回复语义向量，并基于所述粗粒度情感预测的预测结果更新所述隐状态向量；所述情感预测模块603，具体还用于基于所述粗粒度情感向量以及对话过程中上一个语音回复对应的已回复语义向量和上一个语音回复对应的已回复情感向量对所述输入情感向量进行细粒度情感预测，得到细粒度情感向量；所述情感预测模块603，具体还用于基于更新后的隐状态向量，确定所述粗粒度情感向量和所述细粒度情感向量的权重占比，并根据所述粗粒度情感向量和所述细粒度情感向量的权重占比计算得到所述回复情感向量；其中，所述隐状态向量用于表示用户的当前情感；所述当前情感为基于用户在对话过程中的历史情感的累积结果得到的。

可选地，所述情感预测模块603，具体用于从候选回复语料中筛选出与所述回复语义向量相匹配的回复文本。

可选地，所述语音合成模型包括：编码器，解码器，以及声码器；所述编码器的结构包括：自注意力模型；所述解码器的结构包括：卷积层和残差层；所述语音合成模块604，具体用于通过编码器将所述回复文本转换为发音信息向量；所述语音合成模块604，具体还用于通过解码器提取所述发音信息向量以及所述回复情感向量中的发音信息和情感信息，并基于所述发音信息和所述情感信息预测所述目标音频的音频频谱；语音合成模块604，具体还用于通过声码器对所述音频频谱进行解码，得到所述目标音频；其中，所述卷积层用于从所述发音信息向量以及所述回复情感向量中提取所述发音信息和所述情感信息；所述残差层用于对所述发音信息和所述情感信息进行强化。

本申请提供的语音合成装置，首先获取对话过程中用户输入的待回复音频，并对待回复音频进行处理，得到对应的输入情感向量和输入语义向量。之后，对输入情感向量和输入语义向量进行情感预测，并根据情感预测的预测结果确定回复情感向量和回复文本。最后，使用语音合成模型对回复情感向量以及回复文本进行处理，得到能够表达情感的目标音频。如此，使得语音助手在与用户的交流过程中，能够根据用户的情绪变化，以合适的语气和符合用户情绪的内容与用户进行沟通交流。

图7示例了一种电子设备的实体结构示意图，如图7所示，该电子设备可以包括：处理器(processor)710、通信接口(Communications Interface)720、存储器(memory)730和通信总线740，其中，处理器710，通信接口720，存储器730通过通信总线740完成相互间的通信。处理器710可以调用存储器730中的逻辑指令，以执行语音合成方法，该方法包括：获取对话过程中用户输入的待回复音频，并对所述待回复音频进行处理，得到对应的输入情感向量和输入语义向量；对所述输入情感向量和所述输入语义向量进行情感预测，并根据情感预测的预测结果确定回复情感向量和回复文本；使用语音合成模型对所述回复情感向量以及所述回复文本进行处理，得到能够表达情感的目标音频。

此外，上述的存储器730中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备（可以是个人计算机，服务器，或者网络设备等）执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器（ROM，Read-Only Memory）、随机存取存储器（RAM，Random Access Memory）、磁碟或者光盘等各种可以存储程序代码的介质。

另一方面，本申请还提供一种计算机程序产品，所述计算机程序产品包括存储在计算机可读存储介质上的计算机程序，所述计算机程序包括程序指令，当所述程序指令被计算机执行时，计算机能够执行上述各方法所提供的语音合成方法，该方法包括：获取对话过程中用户输入的待回复音频，并对所述待回复音频进行处理，得到对应的输入情感向量和输入语义向量；对所述输入情感向量和所述输入语义向量进行情感预测，并根据情感预测的预测结果确定回复情感向量和回复文本；使用语音合成模型对所述回复情感向量以及所述回复文本进行处理，得到能够表达情感的目标音频。

又一方面，本申请还提供一种计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现以执行上述各提供的语音合成方法，该方法包括：获取对话过程中用户输入的待回复音频，并对所述待回复音频进行处理，得到对应的输入情感向量和输入语义向量；对所述输入情感向量和所述输入语义向量进行情感预测，并根据情感预测的预测结果确定回复情感向量和回复文本；使用语音合成模型对所述回复情感向量以及所述回复文本进行处理，得到能够表达情感的目标音频。

以上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下，即可以理解并实施。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件。基于这样的理解，上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在计算机可读存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备（可以是个人计算机，服务器，或者网络设备等）执行各个实施例或者实施例的某些部分所述的方法。

最后应说明的是：以上实施例仅用以说明本申请的技术方案，而非对其限制；尽管参照前述实施例对本申请进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围。

Claims

1.一种语音合成方法，其特征在于，包括：

获取对话过程中用户输入的待回复音频，并对所述待回复音频进行处理，得到对应的输入情感向量和输入语义向量；

对所述输入情感向量和所述输入语义向量进行情感预测，并根据情感预测的预测结果确定回复情感向量和回复文本；

使用语音合成模型对所述回复情感向量以及所述回复文本进行处理，得到能够表达情感的目标音频。

2.根据权利要求1所述的方法，其特征在于，所述对所述待回复音频进行处理，得到对应的输入情感向量和输入语义向量，包括：

对所述待回复音频进行语音识别，得到所述待回复音频对应的文本内容；

对所述文本内容进行语义识别，得到所述输入语义向量。

3.根据权利要求2所述的方法，其特征在于，所述对所述待回复音频进行语音识别，得到所述待回复音频对应的文本内容之后，所述方法还包括：

对所述待回复音频进行声纹提取，得到所述待回复音频的声纹信息；

通过所述声纹信息从所述待回复音频中去除与用户相关的特征信息，并通过所述文本内容从所述待回复音频中去除与内容相关的特征信息，得到处理后的音频信息；

对所述处理后的音频信息进行声学情感提取，得到所述输入情感向量。

4.根据权利要求1所述的方法，其特征在于，所述对所述输入情感向量和所述输入语义向量进行情感预测，并根据情感预测的预测结果确定回复情感向量和回复文本，包括：

基于隐状态向量对所述输入情感向量和所述输入语义向量进行粗粒度情感预测，得到粗粒度情感向量和回复语义向量，并基于所述粗粒度情感预测的预测结果更新所述隐状态向量；

基于所述粗粒度情感向量以及对话过程中上一个语音回复对应的已回复语义向量和上一个语音回复对应的已回复情感向量对所述输入情感向量进行细粒度情感预测，得到细粒度情感向量；

基于更新后的隐状态向量，确定所述粗粒度情感向量和所述细粒度情感向量的权重占比，并根据所述粗粒度情感向量和所述细粒度情感向量的权重占比计算得到所述回复情感向量；

5.根据权利要求4所述的方法，其特征在于，所述基于隐状态向量对所述输入情感向量和所述输入语义向量进行粗粒度情感预测，得到粗粒度情感向量和回复语义向量之后，所述方法还包括：

从候选回复语料中筛选出与所述回复语义向量相匹配的回复文本。

6.根据权利要求1所述的方法，其特征在于，所述语音合成模型包括：编码器，解码器，以及声码器；所述编码器的结构包括：自注意力模型；所述解码器的结构包括：卷积层和残差层；

所述使用语音合成模型对所述回复情感向量以及所述回复文本进行处理，得到能够表达情感的目标音频，包括：

通过所述编码器将所述回复文本转换为发音信息向量；

通过所述解码器提取所述发音信息向量以及所述回复情感向量中的发音信息和情感信息，并基于所述发音信息和所述情感信息预测所述目标音频的音频频谱；

通过所述声码器对所述音频频谱进行解码，得到所述目标音频；

7.一种语音合成装置，其特征在于，所述装置包括：

获取模块，用于获取对话过程中用户输入的待回复音频；

音频处理模块，用于对所述待回复音频进行处理，得到对应的输入情感向量和输入语义向量；

情感预测模块，用于对所述输入情感向量和所述输入语义向量进行情感预测，并根据情感预测的预测结果确定回复情感向量和回复文本；

语音合成模块，用于使用语音合成模型对所述回复情感向量以及所述回复文本进行处理，得到能够表达情感的目标音频。

8.根据权利要求7所述的装置，其特征在于，

所述音频处理模块，具体用于对所述待回复音频进行语音识别，得到所述待回复音频对应的文本内容；

所述音频处理模块，具体还用于对所述文本内容进行语义识别，得到所述输入语义向量。

9.一种电子设备，其特征在于，包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述处理器执行所述程序时实现如权利要求1至6中任一项所述语音合成方法的步骤。

10.一种计算机可读存储介质，其特征在于，其上存储有计算机程序，所述计算机程序被处理器执行时实现如权利要求1至6中任一项所述语音合成方法的步骤。