CN117238275B

CN117238275B - 基于常识推理的语音合成模型训练方法、装置及合成方法

Info

Publication number: CN117238275B
Application number: CN202311071256.7A
Authority: CN
Inventors: 李雅; 薛锦隆; 邓雅月; 王风平; 高迎明
Original assignee: Beijing University of Posts and Telecommunications
Current assignee: Beijing University of Posts and Telecommunications
Priority date: 2023-08-24
Filing date: 2023-08-24
Publication date: 2024-03-19
Anticipated expiration: 2043-08-24
Also published as: CN117238275A

Abstract

本申请提供一种基于常识推理的语音合成模型训练方法、装置及合成方法，所述训练方法包括：从数据集中确定目标对话语音对应的目标对话文本以及目标对话人标识以及多个历史对话文本、历史语音以及历史对话人标识；基于目标对话文本和目标对话人标识得到目标对话文本向量；并基于各个历史对话文本、历史语音、历史对话人标识，以及目标对话文本、预先获取的常识推理训练模型和预设的多模态上下文关联模块得到情感状态嵌入向量；基于目标对话文本向量和情感状态嵌入向量得到目标对话文本合成语音；基于上述内容进行模型训练得到对话语音合成模型。本申请能够有效提高模拟语音的真实性，进而提高用户在如人机对话等具体应用场景的用户体验。

Description

基于常识推理的语音合成模型训练方法、装置及合成方法

技术领域

本申请涉及语音合成领域，尤其涉及一种基于常识推理的语音合成模型训练方法、装置及合成方法。

背景技术

在现有的语音合成系统中，可以通过根据数据库中的文本和语音进行训练，输入特定的文本生成对应的语音，从而实现语音合成的功能。然而，在面向多人对话场景的语音合成系统中，需要根据历史的对话信息，例如其他人的语调、情感、重音以及说话内容等，来合成适合当前文本的语音语调、情感等风格，以实现更自然、贴近真实人类对话的语音合成。

然而，现有的对话语音合成系统在模拟对话者之间的动态情感交互方面存在挑战。尤其是，如何提供对话者之间对话情感的模拟效果，以及如何在语音合成中准确地体现这种模拟效果，是一个尚未解决的问题。

发明内容

鉴于此，本申请实施例提供了一种基于常识推理的语音合成模型训练方法、装置及合成方法，以消除或改善现有技术中存在的一个或更多个缺陷。

本申请的第一个方面提供了一种基于常识推理的语音合成模型训练方法，该方法包括：

从数据集中确定目标对话语音对应的目标对话文本以及该目标对话文本的目标对话人标识；并从所述数据集中选取在所述目标对话文本之前的多个历史语音、多个历史对话人标识以及各个所述历史语音各自对应的历史对话文本；

基于所述目标对话文本和目标对话人标识得到目标对话文本向量；并基于各个所述历史对话文本、历史语音、历史对话人标识，以及所述目标对话文本、预先获取的常识推理训练模型和预设的多模态上下文关联模块得到情感状态嵌入向量；

基于所述目标对话文本向量和情感状态嵌入向量得到目标对话文本合成语音；

基于所述目标对话文本、目标对话人标识、各个历史对话文本、各个历史语音、各个历史对话人标识和目标对话文本合成语音对预设的语音生成器进行训练，并在训练过程中，基于所述目标对话语音确定所述目标对话文本合成语音的损失，并基于该损失迭代训练所述语音生成器，以得到用于将对话文本转换为对话语音的对话语音合成模型。

在本申请的一些实施例中，所述基于所述目标对话文本和目标对话人标识得到目标对话文本向量，包括：

基于音素转化器将所述目标对话文本转换为对应的音素序列；

将所述音素序列输入第一编码器以输出得到对应的目标对话文本编码；并将所述目标对话人标识输入第二编码器以输出得到对应的目标对话人标识向量；

基于所述目标对话文本编码和目标对话人标识向量得到所述目标对话文本向量。

在本申请的一些实施例中，所述基于各个所述历史对话文本、历史语音、历史对话人标识，以及所述目标对话文本和预设的多模态上下文关联模块得到情感状态嵌入向量，包括：

将各个所述历史对话文本和所述目标对话文本输入预先获取的文本训练模型中以输出得到各个所述历史对话文本各自对应的历史对话文本向量和所述目标对话文本对应的当前目标对话文本向量；将各个所述历史对话文本和所述目标对话文本输入所述常识推理训练模型中以输出得到各个所述历史对话文本各自对应的历史常识向量和所述目标对话文本对应的目标常识向量；将各个所述历史语音输入预先获取的语音训练模型中以输出得到各自对应的历史语音向量；

将各个所述历史对话文本向量、历史常识向量、历史语音向量和历史对话人标识，以及所述目标常识向量和当前目标对话文本向量输入所述多模态上下文关联模块，以输出得到所述情感状态嵌入向量。

在本申请的一些实施例中，基于所述目标对话文本向量和情感状态嵌入向量得到目标对话文本合成语音，包括：

基于所述情感状态嵌入向量和目标对话文本向量得到第一目标对话文本向量；

将所述目标对话语音转化为目标梅尔频谱；

基于所述第一目标对话文本向量和目标梅尔频谱得到所述目标对话文本合成语音。

在本申请的一些实施例中，基于所述第一目标对话文本向量和目标梅尔频谱得到所述目标对话文本合成语音，包括：

将所述第一目标对话文本向量输入预设的长度适配器以输出得到与所述目标梅尔频谱长度相同的第二目标对话文本向量；

将所述第二目标对话文本向量输入预设的梅尔解码器中以输出得到梅尔频谱；

将所述梅尔频谱输入预设的声码器中以输出得到所述目标对话文本合成语音。

在本申请的一些实施例中，所述多模态上下文关联模块包括：多个独立的门控循环单元、预设的注意力模块和与该注意力模块相连接的门控循环单元。

本申请的第二个方面提供了一种基于常识推理的语音合成方法，该方法包括：

从当前多人对话数据记录中确定待合成对话文本，以及在所述待合成对话文本之前的多个对话语音、多个对话文本和多个对话人标识；

将各个所述对话语音、对话文本、多个对话人标识以及所述待合成对话文本输入第二方面所述的基于常识推理的语音合成模型训练方法训练得到的对话语音合成模型，以输出得到该待合成对话文本对应的合成语音。

本申请的第三个方面提供了一种基于常识推理的语音合成模型训练装置，该装置包括：

数据选取模块，用于从数据集中确定目标对话语音对应的目标对话文本以及该目标对话文本的目标对话人标识；并从所述数据集中选取在所述目标对话文本之前的多个历史语音、多个历史对话人标识以及各个所述历史语音各自对应的历史对话文本；

数据编码模块，用于基于所述目标对话文本和目标对话人标识得到目标对话文本向量；并基于各个所述历史对话文本、历史语音、历史对话人标识，以及所述目标对话文本、预先获取的常识推理训练模型和预设的多模态上下文关联模块得到情感状态嵌入向量；

语音合成模块，用于基于所述目标对话文本向量和情感状态嵌入向量得到目标对话文本合成语音；

模型训练模块，用于基于所述目标对话文本、目标对话人标识、各个历史对话文本、各个历史语音、各个历史对话人标识和目标对话文本合成语音对预设的语音生成器进行训练，并在训练过程中，基于所述目标对话语音确定所述目标对话文本合成语音的损失，并基于该损失迭代训练所述语音生成器，以得到用于将对话文本转换为对话语音的对话语音合成模型。

本申请的第四个方面提供了一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现前述的第一方面所述的基于常识推理的语音合成模型训练方法，或者实现第二方面所述的基于常识推理的语音合成方法。

本申请的第五个方面提供了一种计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现前述的第一方面所述的基于常识推理的语音合成模型训练方法或，或者实现第二方面所述的基于常识推理的语音合成方法。

本申请提供一种基于常识推理的语音合成模型训练方法、装置及合成方法，所述方法包括：从数据集中确定目标对话语音对应的目标对话文本以及目标对话人标识以及多个历史对话文本、历史语音以及历史对话人标识；基于目标对话文本和目标对话人标识得到目标对话文本向量；并基于各个历史对话文本、历史语音、历史对话人标识，以及目标对话文本和预设的多模态上下文关联模块得到情感状态嵌入向量；基于目标对话文本向量和情感状态嵌入向量得到目标对话文本合成语音；基于上述内容进行模型训练得到对话语音合成模型。本申请能够有效提高模拟语音的真实性，进而提高用户在如人机对话等具体应用场景的用户体验。

本申请的附加优点、目的，以及特征将在下面的描述中将部分地加以阐述，且将对于本领域普通技术人员在研究下文后部分地变得明显，或者可以根据本申请的实践而获知。本申请的目的和其它优点可以通过在说明书以及附图中具体指出的结构实现到并获得。

本领域技术人员将会理解的是，能够用本申请实现的目的和优点不限于以上具体所述，并且根据以下详细说明将更清楚地理解本申请能够实现的上述和其他目的。

附图说明

此处所说明的附图用来提供对本申请的进一步理解，构成本申请的一部分，并不构成对本申请的限定。附图中的部件不是成比例绘制的，而只是为了示出本申请的原理。为了便于示出和描述本申请的一些部分，附图中对应部分可能被放大，即，相对于依据本申请实际制造的示例性装置中的其它部件可能变得更大。在附图中：

图1为本申请一实施例中的基于常识推理的语音合成模型训练方法的流程示意图。

图2为本申请另一实施例中的基于常识推理的语音合成模型训练装置的结构示意图。

图3为本申请一实施例中的多模态常识知识提取模块和多模态上下文关联模块的架构示意图。

图4为本申请一实施例中的基于常识推理的语音合成方法的流程示意图。

具体实施方式

为使本申请的目的、技术方案和优点更加清楚明白，下面结合实施方式和附图，对本申请做进一步详细说明。在此，本申请的示意性实施方式及其说明用于解释本申请，但并不作为对本申请的限定。

在此，还需要说明的是，为了避免因不必要的细节而模糊了本申请，在附图中仅仅示出了与根据本申请的方案密切相关的结构和/或处理步骤，而省略了与本申请关系不大的其他细节。

应该强调，术语“包括/包含”在本文使用时指特征、要素、步骤或组件的存在，但并不排除一个或更多个其它特征、要素、步骤或组件的存在或附加。

在此，还需要说明的是，如果没有特殊说明，术语“连接”在本文不仅可以指直接连接，也可以表示存在中间物的间接连接。

在下文中，将参考附图描述本申请的实施例。在附图中，相同的附图标记代表相同或类似的部件，或者相同或类似的步骤。

具体通过下述实施例进行详细说明。

本申请实施例提供一种可以由基于常识推理的语音合成模型训练装置或客户端设备执行的基于常识推理的语音合成模型训练方法，参见图1，所述的基于常识推理的语音合成模型训练方法具体包含有如下内容：

步骤110：从数据集中确定目标对话语音对应的目标对话文本以及该目标对话文本的目标对话人标识；并从所述数据集中选取在所述目标对话文本之前的多个历史语音、多个历史对话人标识以及各个所述历史语音各自对应的历史对话文本。

步骤120：基于所述目标对话文本和目标对话人标识得到目标对话文本向量；并基于各个所述历史对话文本、历史语音、历史对话人标识，以及所述目标对话文本、预先获取的常识推理训练模型和预设的多模态上下文关联模块得到情感状态嵌入向量。

步骤130：基于所述目标对话文本向量和情感状态嵌入向量得到目标对话文本合成语音。

步骤140：基于所述目标对话文本、目标对话人标识、各个历史对话文本、各个历史语音、各个历史对话人标识和目标对话文本合成语音对预设的语音生成器进行训练，并在训练过程中，基于所述目标对话语音确定所述目标对话文本合成语音的损失，并基于该损失迭代训练所述语音生成器，以得到用于将对话文本转换为对话语音的对话语音合成模型。

具体来说，客户端设备首先从数据集中确定目标对话语音对应的目标对话文本以及该目标对话文本的目标对话人标识；并从数据集中选取在目标对话文本之前的多个历史语音、多个历史对话人标识以及各个历史语音各自对应的历史对话文本。然后基于目标对话文本和目标对话人标识得到目标对话文本向量；并基于各个历史对话文本、历史语音、历史对话人标识，以及目标对话文本、预先获取的常识推理训练模型和预设的多模态上下文关联模块得到情感状态嵌入向量。接着基于目标对话文本向量和情感状态嵌入向量得到目标对话文本合成语音。最后基于目标对话文本、目标对话人标识、各个历史对话文本、各个历史语音、各个历史对话人标识和目标对话文本合成语音对预设的语音生成器进行训练，并在训练过程中，基于目标对话语音确定目标对话文本合成语音的损失，并基于该损失迭代训练语音生成器，以得到用于将对话文本转换为对话语音的对话语音合成模型，从而能够有效提高模拟语音的真实性，进而提高用户在如人机对话等具体应用场景的用户体验。

为了有效获取目标对话文本向量，步骤120中所述基于所述目标对话文本和目标对话人标识得到目标对话文本向量，包括：

具体来说，客户端设备首先基于音素转化器将目标对话文本转换为对应的音素序列；然后将音素序列输入第一编码器以输出得到对应的目标对话文本编码；并将目标对话人标识输入第二编码器以输出得到对应的目标对话人标识向量；最后基于目标对话文本编码和目标对话人标识向量得到目标对话文本向量，从而能够有效地获取目标对话文本向量。

其中，所述第一编码器为文本编码器，第二编码器为说话人编码器，用于将目标对话人标识转换为相应的嵌入向量，即目标对话人标识向量。

为了提升语音的仿真效果，步骤120中的所述基于各个所述历史对话文本、历史语音、历史对话人标识，以及所述目标对话文本和预设的多模态上下文关联模块得到情感状态嵌入向量，包括：

具体来说，参见图3，客户端设备首先将各个历史对话文本和目标对话文本输入预先获取的文本训练模型中以输出得到各个历史对话文本各自对应的历史对话文本向量和目标对话文本对应的当前目标对话文本向量(即图3中的通过文本训练模型得到x_t)；将各个历史对话文本和目标对话文本输入常识推理训练模型中以输出得到各个历史对话文本各自对应的历史常识向量和目标对话文本对应的目标常识向量(即图3中的/>通过常识推理训练模型得到/>将各个历史语音输入预先获取的语音训练模型中以输出得到各自对应的历史语音向量(即图3中的/>通过语音训练模型得到w₁-w_N；然后将各个历史对话文本向量、历史常识向量、历史语音向量和历史对话人标识，以及目标常识向量和当前目标对话文本向量输入多模态上下文关联模块，以输出得到所述情感状态嵌入向量，从而能够有效提升语音的仿真效果。

其中，文本训练模型可取大规模文本预训练模型RoBERTa,常识推理训练模型可取常识知识推理预训练模型COMET，语音训练模型可取大规模语音预训练模型Wav2Vec。历史常识向量和目标常识向量都包括：自身意图、自身影响、自身反应、他人影响和他人反应嵌入向量，分别表示为图3中的IScs、EScs、RScs、ELcs和RLcs。和/>表示当前轮次对应的历史对话文本和历史语音。

需要说明的是，参见图3，在当前timet轮次中，对于说话人A(图3中的Speaker A)而言。将当前轮次对应的历史对话文本向量x_t和历史语音向量w_t以及预设的全局状态c_t-1输入门控循环单元以更新全局状态c_t。然后将预设的注意力向量a_t、c_t-1和c_t输入注意力模块以更新注意力向量为a_t+1。接着将前一轮得到的内在状态q_A,t-1、a_t和输入门控循环单元以更新内在状态为q_A,t；将前一轮得到的外部状态r_A,t-1、/>历史对话文本向量x_t和历史语音向量w_t输入门控循环单元以更新外部状态为r_A,t；将前一轮得到的意图状态i_A,t-1、q_A,t和/>输入门控循环单元以更新意图状态为i_A,t。其中，全局状态、注意力向量、内在状态、外部状态和意图状态初始值为0。由说话人的内在状态、外部状态和意图状态构成当前轮次timet的情感状态嵌入向量。

在当前timet轮次中，对于听众B(图3中的ListenerB)而言，将前一轮得到的内在状态q_B,t-1、a_t和输入门控循环单元以更新内在状态为q_B,t；将前一轮得到的外部状态r_B,t-1、/>历史对话文本向量x_t和历史语音向量w_t输入门控循环单元以更新外部状态为r_A,t；将前一轮得到的意图状态i_B,t-1不做改变更新为i_B,t。其中，内在状态、外部状态和意图状态初始值为0。其他多个听众如C、D、E以及图中的listenerA(听众A)等的处理方式同听众B。

在t+1轮次时，ListenerA(听众A)的处理方式同上述的听众B，SpeakerB(说话人B)的处理方式同上述的说话人A。

在所有历史对话轮次结束后，基于该目标对话文本对应的说话人得到的内在状态、外部状态和意图状态，以及当前的全局状态和注意力向量，对目标对话文本执行同说话人A相同的步骤，以得到最终的内在状态、外部状态和意图状态，从而得到最终的情感状态嵌入向量。其中，由于该目标对话文本没有对应的语音文本，因此在此步骤中，将w_t取为0。

为了提升语音合成的精确性，步骤130包括：

步骤131：基于所述情感状态嵌入向量和目标对话文本向量得到第一目标对话文本向量。

步骤132：将所述目标对话语音转化为目标梅尔频谱。

步骤133：基于所述第一目标对话文本向量和目标梅尔频谱得到所述目标对话文本合成语音。

具体来说，客户端设备首先基于情感状态嵌入向量和目标对话文本向量得到第一目标对话文本向量。然后将目标对话语音转化为目标梅尔频谱。最后基于第一目标对话文本向量和目标梅尔频谱得到目标对话文本合成语音，从而能够有效提升语音合成的精确性。

为了进一步提升语音合成的精确性，步骤133包括：

具体来说，客户端设备首先将第一目标对话文本向量输入预设的长度适配器以输出得到与目标梅尔频谱长度相同的第二目标对话文本向量；然后将第二目标对话文本向量输入预设的梅尔解码器中以输出得到梅尔频谱；最后将梅尔频谱输入预设的声码器中以输出得到所述目标对话文本合成语音，从而能够进一步提升语音合成的精确性。

为了进一步提升语音的仿真效果，步骤120中的所述多模态上下文关联模块包括：多个独立的门控循环单元、预设的注意力模块和与该注意力模块相连接的门控循环单元。

具体来说，参见图3，多模态上下文关联模块可由6个独立的门控循环单元及一个注意力模块组成，从而能够进一步提升语音的仿真效果。

本申请的第二个方面提供了一种由客户端执行的基于常识推理的语音合成方法，参见图4，具体包括如下内容：

步骤210：从当前多人对话数据记录中确定待合成对话文本，以及在所述待合成对话文本之前的多个对话语音、多个对话文本和多个对话人标识。

步骤220：将各个所述对话语音、对话文本、多个对话人标识以及所述待合成对话文本输入前述实施例所述的基于常识推理的语音合成模型训练方法训练得到的对话语音合成模型，以输出得到该待合成对话文本对应的合成语音。

具体来说，客户端设备首先从当前多人对话数据记录中确定待合成对话文本，以及在所述待合成对话文本之前的多个对话语音、多个对话文本和多个对话人标识；然后将各个对话语音、对话文本、多个对话人标识以及所述待合成对话文本输入前述实施例中的基于常识推理的语音合成模型训练方法训练得到的对话语音合成模型，以输出得到该待合成对话文本对应的合成语音，从而能够有效提高模拟语音的真实性，进而提高用户在如人机对话等具体应用场景的用户体验。

从软件层面来说，本申请还提供一种用于执行所述的基于常识推理的语音合成模型训练方法中全部或部分内的基于常识推理的语音合成模型训练装置，参见图2，所述的基于常识推理的语音合成模型训练装置具体包含有如下内容：

数据选取模块10，用于从数据集中确定目标对话语音对应的目标对话文本以及该目标对话文本的目标对话人标识；并从所述数据集中选取在所述目标对话文本之前的多个历史语音、多个历史对话人标识以及各个所述历史语音各自对应的历史对话文本。

数据编码模块20，用于基于所述目标对话文本和目标对话人标识得到目标对话文本向量；并基于各个所述历史对话文本、历史语音、历史对话人标识，以及所述目标对话文本、预先获取的常识推理训练模型和预设的多模态上下文关联模块得到情感状态嵌入向量。

语音合成模块30，用于基于所述目标对话文本向量和情感状态嵌入向量得到目标对话文本合成语音。

模型训练模块40，用于基于所述目标对话文本、目标对话人标识、各个历史对话文本、各个历史语音、各个历史对话人标识和目标对话文本合成语音对预设的语音生成器进行训练，并在训练过程中，基于所述目标对话语音确定所述目标对话文本合成语音的损失，并基于该损失迭代训练所述语音生成器，以得到用于将对话文本转换为对话语音的对话语音合成模型。

本申请提供的基于常识推理的语音合成模型训练装置的实施例具体可以用于执行上述实施例中的基于常识推理的语音合成模型训练方法的实施例的处理流程，其功能在此不再赘述，可以参照上述的基于常识推理的语音合成模型训练方法实施例的详细描述。

本申请提供一种对话语音合成模型训练装置，该装置执行的方法包括：从数据集中确定目标对话语音对应的目标对话文本以及目标对话人标识以及多个历史对话文本、历史语音以及历史对话人标识；基于目标对话文本和目标对话人标识得到目标对话文本向量；并基于各个历史对话文本、历史语音、历史对话人标识，以及目标对话文本和预设的多模态上下文关联模块得到情感状态嵌入向量；基于目标对话文本向量和情感状态嵌入向量得到目标对话文本合成语音；基于上述内容进行模型训练得到对话语音合成模型。本申请能够有效提高模拟语音的真实性，进而提高用户在如人机对话等具体应用场景的用户体验。

本申请实施例还提供了一种电子设备，例如中心服务器，该电子设备可以包括处理器、存储器、接收器及发送器，处理器用于执行上述实施例提及的基于常识推理的语音合成模型训练方法或者上述实施例提及的基于常识推理的语音合成方法，其中处理器和存储器可以通过总线或者其他方式连接，以通过总线连接为例。该接收器可通过有线或无线方式与处理器、存储器连接。

处理器可以为中央处理器(Central Processing Unit，CPU)。处理器还可以为其他通用处理器、数字信号处理器(Digital Signal Processor，DSP)、专用集成电路(Application Specific Integrated Circuit，ASIC)、现场可编程门阵列(Field-Programmable Gate Array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等芯片，或者上述各类芯片的组合。

存储器作为一种非暂态计算机可读存储介质，可用于存储非暂态软件程序、非暂态计算机可执行程序以及模块，如本申请实施例中的基于常识推理的语音合成模型训练方法或者上述实施例提及的基于常识推理的语音合成方法对应的程序指令/模块。处理器通过运行存储在存储器中的非暂态软件程序、指令以及模块，从而执行处理器的各种功能应用以及数据处理，即实现上述方法实施例中的基于常识推理的语音合成模型训练方法或者上述实施例提及的基于常识推理的语音合成方法。

存储器可以包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需要的应用程序；存储数据区可存储处理器所创建的数据等。此外，存储器可以包括高速随机存取存储器，还可以包括非暂态存储器，例如至少一个磁盘存储器件、闪存器件、或其他非暂态固态存储器件。在一些实施例中，存储器可选包括相对于处理器远程设置的存储器，这些远程存储器可以通过网络连接至处理器。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

所述一个或者多个模块存储在所述存储器中，当被所述处理器执行时，执行实施例中的基于常识推理的语音合成模型训练方法或者上述实施例提及的基于常识推理的语音合成方法。

在本申请的一些实施例中，用户设备可以包括处理器、存储器和收发单元，该收发单元可包括接收器和发送器，处理器、存储器、接收器和发送器可通过总线系统连接，存储器用于存储计算机指令，处理器用于执行存储器中存储的计算机指令，以控制收发单元收发信号。

作为一种实现方式，本申请中接收器和发送器的功能可以考虑通过收发电路或者收发的专用芯片来实现，处理器可以考虑通过专用处理芯片、处理电路或通用芯片实现。

作为另一种实现方式，可以考虑使用通用计算机的方式来实现本申请实施例提供的服务器。即将实现处理器，接收器和发送器功能的程序代码存储在存储器中，通用处理器通过执行存储器中的代码来实现处理器，接收器和发送器的功能。

本申请实施例还提供一种计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时以实现前述的基于常识推理的语音合成模型训练方法或者上述实施例提及的基于常识推理的语音合成方法的步骤。该计算机可读存储介质可以是有形存储介质，诸如随机存储器(RAM)、内存、只读存储器(ROM)、电可编程ROM、电可擦除可编程ROM、寄存器、软盘、硬盘、可移动存储盘、CD-ROM、或技术领域内所公知的任意其它形式的存储介质。

本领域普通技术人员应该可以明白，结合本文中所公开的实施方式描述的各示例性的组成部分、系统和方法，能够以硬件、软件或者二者的结合来实现。具体究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本申请的范围。当以硬件方式实现时，其可以例如是电子电路、专用集成电路(ASIC)、适当的固件、插件、功能卡等等。当以软件方式实现时，本申请的元素是被用于执行所需任务的程序或者代码段。程序或者代码段可以存储在机器可读介质中，或者通过载波中携带的数据信号在传输介质或者通信链路上传送。

需要明确的是，本申请并不局限于上文所描述并在图中示出的特定配置和处理。为了简明起见，这里省略了对已知方法的详细描述。在上述实施例中，描述和示出了若干具体的步骤作为示例。但是，本申请的方法过程并不限于所描述和示出的具体步骤，本领域的技术人员可以在领会本申请的精神后，作出各种改变、修改和添加，或者改变步骤之间的顺序。

本申请中，针对一个实施方式描述和/或例示的特征，可以在一个或更多个其它实施方式中以相同方式或以类似方式使用，和/或与其他实施方式的特征相结合或代替其他实施方式的特征。

以上所述仅为本申请的优选实施例，并不用于限制本申请，对于本领域的技术人员来说，本申请实施例可以有各种更改和变化。凡在本申请的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本申请的保护范围之内。

Claims

1.一种基于常识推理的语音合成模型训练方法，其特征在于，包括：

基于所述目标对话文本、目标对话人标识、各个历史对话文本、各个历史语音、各个历史对话人标识和目标对话文本合成语音对预设的语音生成器进行训练，并在训练过程中，基于所述目标对话语音确定所述目标对话文本合成语音的损失，并基于该损失迭代训练所述语音生成器，以得到用于将对话文本转换为对话语音的对话语音合成模型；

其中，所述基于各个所述历史对话文本、历史语音、历史对话人标识，以及所述目标对话文本和预设的多模态上下文关联模块得到情感状态嵌入向量，包括：

2.根据权利要求1所述的基于常识推理的语音合成模型训练方法，其特征在于，所述基于所述目标对话文本和目标对话人标识得到目标对话文本向量，包括：

3.根据权利要求1所述的基于常识推理的语音合成模型训练方法，其特征在于，基于所述目标对话文本向量和情感状态嵌入向量得到目标对话文本合成语音，包括：

将所述目标对话语音转化为目标梅尔频谱；

4.根据权利要求3所述的基于常识推理的语音合成模型训练方法，其特征在于，基于所述第一目标对话文本向量和目标梅尔频谱得到所述目标对话文本合成语音，包括：

5.根据权利要求1所述的基于常识推理的语音合成模型训练方法，其特征在于，所述多模态上下文关联模块包括：多个独立的门控循环单元、预设的注意力模块和与该注意力模块相连接的门控循环单元。

6.一种基于常识推理的语音合成方法，其特征在于，包括：

将各个所述对话语音、对话文本、多个对话人标识以及所述待合成对话文本输入权利要求1-5任一项所述的基于常识推理的语音合成模型训练方法训练得到的对话语音合成模型，以输出得到该待合成对话文本对应的合成语音。

7.一种基于常识推理的语音合成模型训练装置，其特征在于，包括：

模型训练模块，用于基于所述目标对话文本、目标对话人标识、各个历史对话文本、各个历史语音、各个历史对话人标识和目标对话文本合成语音对预设的语音生成器进行训练，并在训练过程中，基于所述目标对话语音确定所述目标对话文本合成语音的损失，并基于该损失迭代训练所述语音生成器，以得到用于将对话文本转换为对话语音的对话语音合成模型；

8.一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现如权利要求1至5任一项所述的基于常识推理的语音合成模型训练方法，或者，实现权利要求6所述的基于常识推理的语音合成方法。

9.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，该计算机程序被处理器执行时实现如权利要求1至5任一项所述的基于常识推理的语音合成模型训练方法，或者，实现权利要求6所述的基于常识推理的语音合成方法。