CN114121010A

CN114121010A - 模型训练、语音生成、语音交互方法、设备以及存储介质

Info

Publication number: CN114121010A
Application number: CN202111451390.0A
Authority: CN
Inventors: 李梅; 盖于涛
Original assignee: Alibaba China Co Ltd
Current assignee: Alibaba China Co Ltd
Priority date: 2021-11-30
Filing date: 2021-11-30
Publication date: 2022-03-01

Abstract

本发明实施例提供了一种模型训练、语音生成、语音交互方法、设备以及存储介质。所述训练方法用于声学模型，所述声学模型包括编码器和解码器，所述编码器的输出连接到所述解码器的输入，所述方法包括：获取训练数据，所述训练数据包括文本特征、以及与所述文本特征对应的语音特征和音色特征；在基于所述文本特征和所述语音特征训练所述声学模型时，基于所述音色特征对所述编码器输出的文本上下文表示进行对抗训练。本发明实施例能够使训练后的声学模型能够改善了语音听觉效果。

Description

模型训练、语音生成、语音交互方法、设备以及存储介质

技术领域

本发明实施例涉及计算机技术领域，尤其涉及一种模型训练、语音生成、语音交互方法、设备以及存储介质。

背景技术

一般而言，在跨语种的语音生成方案中，首先针对不同的语种分别训练语音合成模型。在进行语音生成时，将句子根据语种切分成子句，再使用对应的模型分别合成，再后再拼到一起。

但是，以这种方式合成出的句子，音色不一致，导致听觉效果较差。

发明内容

有鉴于此，本发明实施例提供一种模型训练、语音生成、语音交互方法、设备以及存储介质，以至少部分解决上述问题。

根据本发明实施例的第一方面，提供了一种用于声学模型的训练方法，所述声学模型包括编码器和解码器，所述编码器的输出连接到所述解码器的输入，所述方法包括：获取训练数据，所述训练数据包括文本特征、以及与所述文本特征对应的语音特征和音色特征；在基于所述文本特征和所述语音特征训练所述声学模型时，基于所述音色特征对所述编码器输出的文本上下文表示进行对抗训练。

根据本发明实施例的第二方面，提供了一种语音生成方法，包括：对文本数据进行特征提取，得到文本特征；将所述文本特征输入声学模型，得到语音特征，所述声学模型根据第一方面所述的模型训练方法训练得到；根据所述语音特征生成语音数据。

根据本发明实施例的第三方面，提供了一种用于声学模型的训练装置，所述声学模型包括编码器和解码器，所述编码器的输出连接到所述解码器的输入，所述装置包括：获取模块，获取训练数据，所述训练数据包括文本特征、以及与所述文本特征对应的语音特征和音色特征；训练模块，在基于所述文本特征和所述语音特征训练所述声学模型时，基于所述音色特征对所述编码器输出的文本上下文表示进行对抗训练。

根据本发明实施例的第四方面，提供了一种语音生成装置，包括：特征提取模块，对文本数据进行特征提取，得到文本特征；特征处理模块，将所述文本特征输入声学模型，得到语音特征，所述声学模型根据第一方面所述的模型训练方法训练得到；语音生成模块，根据所述语音特征生成语音数据。

根据本发明实施例的第五方面，提供了一种语音交互方法，包括：通过人机交互界面获取用户多媒体指令；发送所述用户多媒体指令，以对所述用户多媒体指令据进行解析，得到所述用户多媒体指令的语音反馈数据，所述语音反馈数据利用第二方面所述的语音生成方法基于文本数据生成，所述文本数据包括基于多语言的语义信息；通过所述人机交互界面展示所述语音反馈数据。

根据本发明实施例的第六方面，提供了一种电子设备，包括：处理器、存储器、通信接口和通信总线，所述处理器、所述存储器和所述通信接口通过所述通信总线完成相互间的通信；所述存储器用于存放至少一可执行指令，所述可执行指令使所述处理器执行如第一方面或第二方面所述的方法对应的操作。

根据本发明实施例的第七方面，提供了一种计算机存储介质，其上存储有计算机程序，该程序被处理器执行时实现如第一方面或第二方面所述的方法。

在本发明实施例的方案中，在基于文本特征和语音特征训练声学模型时，基于音色特征对编码器输出的文本上下文表示进行对抗训练，减小了文本上下文表示对于音色特征的依赖，使声学模型学习到的文本上下文表示与音色无关，从而使训练后的声学模型能够实现跨音色推理过程，例如，能够实现跨音色的语音生成处理，改善了语音听觉效果。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明实施例中记载的一些实施例，对于本领域普通技术人员来讲，还可以根据这些附图获得其他的附图。

图1为根据本发明的一个实施例的语音服务架构的示意图；

图2A为根据本发明的另一实施例的语音生成方法的示意性框图；

图2B为根据本发明的另一实施例的训练方法的步骤流程图；

图3为根据本发明的另一实施例的声学模型的示意性结构图；

图4A为根据本发明的另一实施例的语音生成方法的步骤流程图；

图4B为根据本发明的另一实施例的语音交互方法的步骤流程图；

图5为根据本发明的另一实施例的训练装置的结构框图；

图6为根据本发明的另一实施例的语音生成装置的结构框图；

图7为根据本发明的另一实施例的电子设备的结构示意图。

具体实施方式

为了使本领域的人员更好地理解本发明实施例中的技术方案，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅是本发明实施例一部分实施例，而不是全部的实施例。基于本发明实施例中的实施例，本领域普通技术人员所获得的所有其他实施例，都应当属于本发明实施例保护的范围。

下面结合本发明实施例附图进一步说明本发明实施例具体实现。

图1为根据一个示例的语音处理方法的示意性架构图。图1的语音处理方法在智能设备110和服务器120。智能设备110与服务器120可以采用各种通信方式，包括但不限于诸如移动通信、互联网的计算机网络。智能设备110包括但不限于诸如嵌入式设备或物联网设备的电子设备，例如，智能手机、智能音箱、智能手表、智能家电等。

作为一个示例，智能设备110能够通过与服务器120之间的通信提供智能语音服务，智能设备110包括人机交互模块111和语音收发模块112。其中，人机交互模块111用于接收用户语音指令，并且将用户语音指令中的语音数据经由语音收发模块112发送到服务器120。进一步地，服务器120中的语音处理模块121对语音数据进行诸如自动语音识别(ASR)的语音处理，得到文本。服务器120中的自然语言处理模块122对文本进行直接处理或者调用其他的知识库接口得到返回文本。然后，再次语音处理模块121能够基于返回文本进行文本到语音处理(TTS)，得到语音响应数据。最终，服务器120将语音响应数据返回到智能设备110，以向用户播放语音响应数据。

在另一示例中，服务器120中的语音处理模块121和自然语言处理模块122中的至少一者的功能可以配置在智能设备110中。在这两个模块的功能都配置在服务器120中能够减小智能设备110的成本，并且将语音处理和自然语言处理这部分功能配置在服务器120有利于提高数据处理效率，也提高了服务器120同时服务多个智能设备110的效率。

下面将详细描述语音处理模块121能够基于返回文本进行文本到语音处理(TTS)的过程，图2A示出了用于TTS的语音生成方法。语音处理模块121可以包括端到端声学模型210和声码器220。

首先，跨语言文本通过特征提取能够得到文本特征序列，并且将文本特征序列输入到端到端声学模型210，即，基于序列到序列的声学模型。然后，端到端声学模型210能够基于输入的文本特征序列，生成诸如梅尔普的声谱图，声谱图通过声码器220中进行处理，得到生成的语音。应理解，在另一示例中，端到端声学模型210也可以基于文本特征序列直接生成语音。上述的示例均适用于图2B的声学模型。

下面将结合图2B详细描述和说明另一实施例的声学模型的训练方法。本实施例的方案可以适用于任意适当的具有数据处理能力的电子设备，包括但不限于：服务器、移动终端(如手机、PAD等)和PC机等。在一个示例中，电子设备能够基于机器学习软件框架配合诸如GPU的硬件配置，执行本实施例的方法。本实施例的声学模型包括编码器和解码器，编码器的输出连接到解码器的输入。根据图2B的步骤流程图，该方法包括：

S2100：获取训练数据，训练数据包括文本特征、以及与文本特征对应的语音特征和音色特征。

应理解，文本特征可以通过对文本数据进行特征提取处理得到，特征提取处理可以提取文本数据中的跨语种特征，例如，音素特征、发音特征、拼写特征等，得到跨语种文本特征。对语音数据进行时频信息提取处理，确定语音数据的声谱图，作为语音特征。声谱图可以为指示声音时频信息的图，其指示了时间信息和声频信息之间的对应关系。还可以对语音数据进行音色特征提取得到音色特征。文本数据可以包括至少一个语种的数据。在文本数据包括多个语种的数据时，能够提取了各个语种的跨语种文本特征。

还应理解，可以获取初始训练数据，初始训练数据中包括文本数据、语音数据、与语音数据的发音主体相关的主体数据。可以对主体数据进行特征提取，得到音色特征，在这种情况下，音色特征指示发音主体，即，说话人的标识。

S2200：在基于文本特征和语音特征训练声学模型时，基于音色特征对编码器输出的文本上下文表示进行对抗训练。

应理解，上述的文本特征、音色特征和语音特征都可以执行序列化，训练基于序列到序列的声学模型。在执行序列化之前，可以利用词表对文本特征、音色特征和语音特征执行词嵌入处理。另外，基于文本特征和语音特征训练声学模型与文本上下文表示的对抗训练可以独立执行，也可以执行联合训练。在执行联合训练时，联合训练的损失函数可以基于两个训练构建。对于训练后的声学模型，能够输出特定语音特征，对语音特征的进一步处理可以与上述提取语音特征的处理相反，以生成语音数据。

下面将详细描述和说明在本实施例方案的基础上其他的可能实现方式。

在另一些示例中，声学模型还包括分类器，文本上下文表示输入到分类器。基于音色特征对编码器输出的文本上下文表示进行对抗训练，包括：基于文本特征作为编码器的输入，基于语音特征作为解码器的输出，基于音色特征作为分类器的输出，对声学模型进行训练。因此，利用分类器实现了上述的对抗训练，同时保证了声学模型的简单结构，便于执行文本上下文表示的对抗训练以及编码器和解码器训练两者。

在另一些示例中，声学模型还包括梯度反转层，文本上下文表示经由梯度反转层输入到分类器，梯度反转层有利于构建可靠的损失函数，得到可靠地对抗训练结果。

在另一些示例中，对声学模型进行训练，包括：根据损失函数，对声学模型进行训练，损失函数包括对应于编码器和解码器的第一函数、以及对应于分类器的第二函数，第一函数基于音色特征与文本特征确定，第二函数基于语音特征与文本特征确定。因此，通过损失函数实现了联合训练，提高了声学模型的训练效率。

在另一些示例中，损失函数由第一函数和第二函数线性加权构成，有利于构造可靠的损失函数，同时保证训练过程中的计算量较小。

在另一些示例中，训练数据还包括与文本特征、语音特征和音色特征中的至少一者的关联特征，对声学模型进行训练，还包括：基于关联特征作为编码器的输入，对声学模型进行训练。因此，使编码器学习到关联特征，进一步提高了训练后的声学模型的推理能力。

在另一些示例中，关联特征包括与音色特征的主体相关的主体特征、与文本特征的语种关联的语种特征中的至少一者。主体特征和语种特征有利于实现音色迁移的目的，例如，使中文说话人的音色迁移到英文或其它语种上。

在另一些示例中，文本特征通过以下方式得到：确定包括至少两者语种的语种音素的音素集合，音素集合中语种音素的数目小于各个语种的语种音素的数目之和；基于音素集合，对文本数据进行特征提取，得到文本特征。因此减轻了跨语种声学模型输入特征稀疏的问题。

在另一些示例中，至少两者语种的语种音素为通用音标。通用音标可以为国际音标(International Phonetic Alphabet，IPA)。基于音素集合，对文本数据进行特征提取，得到文本特征，包括：对文本数据进行通用音标特征提取，得到文本特征。因此，通过国际音标进一步提高了音色迁移和语种迁移的效果。

图3为根据本发明的另一实施例的声学模型的示意性结构图。图3的声学模型包括编码器310和解码器320。对于输入的文本特征而言，编码器310能够将输入的文本特征进行编码得到文本上下文表示，例如，采用注意力机制，将表示文本特征的向量的线性变换，得到文本上下文表示。文本上下文表示输入到解码器320得到诸如梅尔谱的声谱图。

对于训练过程中的声学模型，声谱图可以通过对初始训练数据中的语音数据进行声谱图提取处理得到，作为语音特征的示例。

对于训练完的声学模型，根据输入的文本数据能够在解码器320侧得到声谱图，声谱图能够进一步通过诸如图2A中的声码器220等处理逻辑生成语音数据。

在一个示例中，输入到解码器320的数据除了文本上下文表示，还可以包括其他训练数据，例如，与所述音色特征的主体相关的主体特征、与所述文本特征的语种关联的语种特征中的至少一者。换言之，可以将说话人嵌入特征和语种嵌入特征作为解码器320的输入。上述的主体特征和语种特征中的至少一者可以与文本上下文表示构建成拼接矩阵或矩阵向量输入到解码器320。例如，训练数据中的音色特征可以作为解码器320的额输入。

作为对抗训练的一个示例，声学模型还包括梯度反转层330和分类器340，分类器340用于对音色主体进行分类。例如，可以在训练编码器310和解码器320时，将音色特征作为分类器340的输出。梯度反转层310有利于对文本上下文表示进行对抗训练。应理解，在对上述编码器310和解码器320进行训练时，可以基于用于编码器310和解码器320的第一损失函数进行。在对上述文本上下文表示时，可以基于用于分类器340的损失函数进行。在一个示例中，可以独立地执行基于第一损失函数的训练和基于第二损失函数的训练，例如，可以交替地进行上述的两种训练。应理解，基于第一损失函数的训练为调整编码器310和解码器320中的参数，获得第一损失函数的最小值。基于第二损失函数的训练目标为调整文本上下文表示的参数，得到第二损失函数的最小值。还应理解，在声学模型中不包括梯度反转层310的情况下，基于第二损失函数的训练目标为调整文本上下文表示的参数，得到第二损失函数的最大值。

在另一示例中，可以基于第三损失函数对编码器310、解码器320和分类器340进行联合训练，第三损失函数包括对应于所述编码器和所述解码器的第一函数、以及对应于所述分类器的第二函数，所述第一函数基于所述音色特征与所述文本特征确定，所述第二函数基于所述语音特征与所述文本特征确定。另外，第一函数可以与第一损失函数形式相同，第二函数可以与第二损失函数形式相同，只是在本示例中，第一函数和第二函数不直接作为损失函数采用。另外，第一函数和第二函数采用相同符号进行加权，具体而言，第三损失函数由所述第一函数和所述第二函数线性加权构成，例如，第三损失函数可以为第一函数与第二函数的和。另外，在声学模型中不包括梯度反转层310的情况下，第一函数与第二函数采用相反符合进行加权。

图4A为根据本发明的另一实施例的语音生成方法的步骤流程图。本实施例的方案可以适用于任意适当的具有数据处理能力的电子设备，包括但不限于：服务器、移动终端(如手机、PAD等)和PC机等。图4A的语音生成方法，包括：

S410：对文本数据进行特征提取，得到文本特征。

S420：将所述文本特征输入声学模型，得到语音特征。

S430：根据所述语音特征生成语音数据。

进一步地，图4B示出了一种语音交互方法应用于诸如智能设备的电子设备，并且智能设备包括诸如嵌入式设备、物联网设备的智能设备等，例如，诸如智能门铃、智能音响等智能家居设备或智能办公设备，诸如智能手表、智能眼镜、智能手环的可穿戴设备、诸如智能手机、平板电脑等智能终端。

图4B的语音交互方法包括以下各个步骤：

S4100：通过人机交互界面获取用户多媒体指令。

S4200：发送用户多媒体指令，以对用户多媒体指令据进行解析，得到用户多媒体指令的语音反馈数据，语音反馈数据利用语音生成方法基于文本数据生成，文本数据包括基于多语言的语义信息。

S4300：通过人机交互界面展示语音反馈数据。

应理解，步骤S4100中的用户多媒体指令包括文字指令、语音指令、计算机视觉指令中的至少一种。语音指令可以通过人机交互界面中的诸如麦克风的音频采集部件接收，计算机视觉指令可以通过人机交互界面中的诸如摄像头的图像采集部件接收。文字指令可以通过人机交互界面中的诸如键盘的文字输入部件接收。用户多媒体指令还可以为上述多种指令的组合，例如，通过音频采集部件获取到语音信息，通过图像采集部件采集到图像信息，通过文字输入部件获取到文字信息，相应地，用户多媒体指令的信息包括上述的图像信息、语音信息和文字信息等。

还应理解，在步骤S4200中，可以向后台服务器发送用户多媒体指令，后台服务器可以对用户多媒体指令进行解析，得到上述的图像信息、语音信息和文字信息中的至少一种。然后，直接将文字信息作为待处理文字，或者，确定图像信息、语音信息和文字信息整体对应的待处理文字。然后，执行待处理文字向语音数据的转换，具体地，可以利用预先训练的声学模型执行语音数据的生成。

在一个示例中，待处理文字为基于第一语言的数据，预先训练的声学模型采用基于第一语言的训练数据训练得到。生成的语音反馈数据至少包括基于第二语言的语音数据，第一语言与第二语言不同。由于声学模型能够学习到第一语言与第二语言之间(即，不同语言之间)的通用表示，削减了不同语言之间的差异，因此尽管生成的语音反馈数据包括基于第二语言的语音数据，但是生成的语音反馈数据仍然与基于第一语言的语音数据同样的流畅和自然。

在另一示例中，待处理文字为基于第一语言的数据，预先训练的声学模型采用基于第二语言的训练数据训练得到，生成的语音反馈数据至少包括基于第一语言的语音数据。由于声学模型能够学习到第一语言与第二语言之间(即，不同语言之间)的通用表示，削减了不同语言之间的差异，因此，尽管声学模型采用基于第二语言的训练数据训练得到，但是仍然可以输出流畅和自然的包括基于第一语言的语音数据。

在另一示例中，待处理文字为第一音色主体的数据，预先训练的声学模型采用第一音色主体的训练数据训练得到。生成的语音反馈数据至少包括第二音色主体的语音数据，第一音色主体与第二音色主体不同。由于声学模型能够学习到第一音色主体与第二音色主体之间(即，不同音色主体之间)的通用表示，削减了不同音色主体之间的差异，因此尽管生成的语音反馈数据包括音色主体的语音数据，但是生成的语音反馈数据仍然与第一音色主体的语音数据同样的流畅和自然。

在另一示例中，待处理文字为第一音色主体的数据，预先训练的声学模型采用第二音色主体的训练数据训练得到，生成的语音反馈数据至少包括第一音色主体的语音数据。由于声学模型能够学习到第一音色主体与第二音色主体之间(即，不同音色主体之间)的通用表示，削减了不同音色主体之间的差异，因此，尽管声学模型采用第二音色主体的训练数据训练得到，但是仍然可以输出流畅和自然的包括第一音色主体的语音数据。

应理解，上述的第一语言和第二语言仅仅为不同语言的示例，本实施例的方法适用于多语言，上述的第一语言和第二语言为多语言中的任意两种语言。

还应理解，在步骤S4300中，作为一个示例，可以利用人机交互界面中的扬声器播放语音反馈数据；作为另一示例中，可以将语音反馈数据转化为包括文字或图像在内的多媒体展示数据，例如，可以在智能设备本地执行上述的转化过程，例如，基于语音反馈数据的特征确定对应的图像信息和文字信息，在展示语音数据时伴随展示上述的图像信息和文字信息。又例如，可以将语音反馈数据发用到用于进行多媒体数据处理的服务器，该服务器预先存储有或者能够获取到图像资源或文字资源，以辅助多媒体数据处理过程，得到包括相应的图像信息和文字信息的多媒体展示数据，然后将多媒体展示数据返回到智能设备的人机交互界面中展示。

图5为根据本发明的另一实施例的训练装置的结构框图。本实施例的方案可以适用于任意适当的具有数据处理能力的电子设备，包括但不限于：服务器、移动终端(如手机、PAD等)和PC机等。图5的训练装置用于声学模型，声学模型包括编码器和解码器，所述编码器的输出连接到所述解码器的输入，该装置包括：

获取模块510，获取训练数据，所述训练数据包括文本特征、以及与所述文本特征对应的语音特征和音色特征。

训练模块520，在基于所述文本特征和所述语音特征训练所述声学模型时，基于所述音色特征对所述编码器输出的文本上下文表示进行对抗训练。

在另一些示例中，所述声学模型还包括分类器，所述文本上下文表示输入到所述分类器。训练模块具体用于：基于所述文本特征作为所述编码器的输入，基于所述语音特征作为所述解码器的输出，基于所述音色特征作为所述分类器的输出，对所述声学模型进行训练。

在另一些示例中，所述声学模型还包括梯度反转层，所述文本上下文表示经由所述梯度反转层输入到所述分类器。

在另一些示例中，训练模块具体用于：根据损失函数，对所述声学模型进行训练，所述损失函数包括对应于所述编码器和所述解码器的第一函数、以及对应于所述分类器的第二函数，所述第一函数基于所述音色特征与所述文本特征确定，所述第二函数基于所述语音特征与所述文本特征确定。

在另一些示例中，所述损失函数由所述第一函数和所述第二函数线性加权构成。

在另一些示例中，所述训练数据还包括与所述文本特征、所述语音特征和所述音色特征中的至少一者的关联特征，训练模块还用于：基于所述关联特征作为所述编码器的输入，对所述声学模型进行训练。

在另一些示例中，所述关联特征包括与所述音色特征的主体相关的主体特征、与所述文本特征的语种关联的语种特征中的至少一者。

在另一些示例中，所述文本特征通过以下方式得到：确定包括至少两者语种的语种音素的音素集合，所述音素集合中语种音素的数目小于各个语种的语种音素的数目之和；基于所述音素集合，对文本数据进行特征提取，得到所述文本特征。

在另一些示例中，所述至少两者语种的语种音素为通用音标。所述文本特征具体通过以下方式得到：对所述文本数据进行通用音标特征提取，得到所述文本特征。

在另一些示例中，所述语音特征通过以下方式得到：对语音数据进行时频处理，确定所述语音数据的声谱图，作为所述语音特征。

本实施例的装置用于实现前述多个方法实施例中相应的方法，并具有相应的方法实施例的有益效果，在此不再赘述。此外，本实施例的装置中的各个模块的功能实现均可参照前述方法实施例中的相应部分的描述，在此亦不再赘述。

图6为根据本发明的另一实施例的语音生成装置的结构框图。本实施例的方案可以适用于任意适当的具有数据处理能力的电子设备，包括但不限于：服务器、移动终端(如手机、PAD等)和PC机等。图6的语音生成装置包括：

特征提取模块610，对文本数据进行特征提取，得到文本特征。

特征处理模块620，将所述文本特征输入声学模型，得到语音特征。

语音生成模块630，根据所述语音特征生成语音数据。

此外，本发明实施例还提供了一种智能设备，包括获取模块、发送模块和接收模块。其中，获取模块用于获取语音指令。发送模块用于发送所述语音指令中包括的第一语音数据。接收模块用于接收第二语音数据。第二语音数据利用图4A所述的语音生成方法基于所述第一语音数据对应的文本数据生成。获取模块可以采用智能设备110中的人机交互模块111实现。发送模块和接收模块可以采用智能设备110中的语音收发模块112实现。另外，利用图4A所述的语音生成方法基于所述第一语音数据对应的文本数据生成第二语音数据，也可以基于服务器120的配置方式实现。

参照图7，示出了根据本发明的另一实施例的电子设备的结构示意图，本发明具体实施例并不对电子设备的具体实现做限定。

如图7所示，该电子设备可以包括：处理器(processor)702、通信接口(Communications Interface)704、存储器(memory)706、以及通信总线708。

其中：

处理器702、通信接口704、以及存储器706通过通信总线708完成相互间的通信。

通信接口704，用于与其它电子设备或服务器进行通信。

处理器702，用于执行程序710，具体可以执行上述方法实施例中的相关步骤。

具体地，程序710可以包括程序代码，该程序代码包括计算机操作指令。

处理器702可能是处理器CPU，或者是特定集成电路ASIC(Application SpecificIntegrated Circuit)，或者是被配置成实施本发明实施例的一个或多个集成电路。智能设备包括的一个或多个处理器，可以是同一类型的处理器，如一个或多个CPU；也可以是不同类型的处理器，如一个或多个CPU以及一个或多个ASIC。

存储器706，用于存放程序710。存储器706可能包含高速RAM存储器，也可能还包括非易失性存储器(non-volatile memory)，例如至少一个磁盘存储器。

程序710具体可以用于使得处理器702执行以下操作：获取训练数据，所述训练数据包括文本特征、以及与所述文本特征对应的语音特征和音色特征；在基于所述文本特征和所述语音特征训练所述声学模型时，基于所述音色特征对所述编码器输出的文本上下文表示进行对抗训练，其中，声学模型包括编码器和解码器，所述编码器的输出连接到所述解码器的输入。

或者，程序710具体可以用于使得处理器702执行以下操作：对文本数据进行特征提取，得到文本特征；将所述文本特征输入声学模型，得到语音特征，所述声学模型根据上述的模型训练方法训练得到；根据所述语音特征生成语音数据。

或者，程序710具体可以用于使得处理器702执行以下操作：通过人机交互界面获取用户多媒体指令；发送所述用户多媒体指令，以对所述用户多媒体指令据进行解析，得到所述用户多媒体指令的语音反馈数据，所述语音反馈数据利用语音生成方法基于文本数据生成，所述文本数据包括基于多语言的语义信息；通过所述人机交互界面展示所述语音反馈数据。

此外，程序710中各步骤的具体实现可以参见上述方法实施例中的相应步骤和单元中对应的描述，在此不赘述。所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的设备和模块的具体工作过程，可以参考前述方法实施例中的对应过程描述，在此不再赘述。

需要指出，根据实施的需要，可将本发明实施例中描述的各个部件/步骤拆分为更多部件/步骤，也可将两个或多个部件/步骤或者部件/步骤的部分操作组合成新的部件/步骤，以实现本发明实施例的目的。

上述根据本发明实施例的方法可在硬件、固件中实现，或者被实现为可存储在记录介质(诸如CD ROM、RAM、软盘、硬盘或磁光盘)中的软件或计算机代码，或者被实现通过网络下载的原始存储在远程记录介质或非暂时机器可读介质中并将被存储在本地记录介质中的计算机代码，从而在此描述的方法可被存储在使用通用计算机、专用处理器或者可编程或专用硬件(诸如ASIC或FPGA)的记录介质上的这样的软件处理。可以理解，计算机、处理器、微处理器控制器或可编程硬件包括可存储或接收软件或计算机代码的存储组件(例如，RAM、ROM、闪存等)，当所述软件或计算机代码被计算机、处理器或硬件访问且执行时，实现在此描述的方法。此外，当通用计算机访问用于实现在此示出的方法的代码时，代码的执行将通用计算机转换为用于执行在此示出的方法的专用计算机。

本领域普通技术人员可以意识到，结合本文中所公开的实施例描述的各示例的单元及方法步骤，能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本发明实施例的范围。

以上实施方式仅用于说明本发明实施例，而并非对本发明实施例的限制，有关技术领域的普通技术人员，在不脱离本发明实施例的精神和范围的情况下，还可以做出各种变化和变型，因此所有等同的技术方案也属于本发明实施例的范畴，本发明实施例的专利保护范围应由权利要求限定。

Claims

1.一种用于声学模型的训练方法，所述声学模型包括编码器和解码器，所述编码器的输出连接到所述解码器的输入，所述方法包括：

获取训练数据，所述训练数据包括文本特征、以及与所述文本特征对应的语音特征和音色特征；

在基于所述文本特征和所述语音特征训练所述声学模型时，基于所述音色特征对所述编码器输出的文本上下文表示进行对抗训练。

2.根据权利要求1所述的方法，其中，所述声学模型还包括分类器，所述文本上下文表示输入到所述分类器，

所述基于所述音色特征对所述编码器输出的文本上下文表示进行对抗训练，包括：

基于所述文本特征作为所述编码器的输入，基于所述语音特征作为所述解码器的输出，基于所述音色特征作为所述分类器的输出，对所述声学模型进行训练。

3.根据权利要求2所述的方法，其中，所述声学模型还包括梯度反转层，所述文本上下文表示经由所述梯度反转层输入到所述分类器。

4.根据权利要求2所述的方法，其中，所述对所述声学模型进行训练，包括：

根据损失函数，对所述声学模型进行训练，所述损失函数包括对应于所述编码器和所述解码器的第一函数、以及对应于所述分类器的第二函数，所述第一函数基于所述音色特征与所述文本特征确定，所述第二函数基于所述语音特征与所述文本特征确定。

5.根据权利要求4所述的方法，其中，所述损失函数由所述第一函数和所述第二函数线性加权构成。

6.根据权利要求2所述的方法，其中，所述训练数据还包括与所述文本特征、所述语音特征和所述音色特征中的至少一者的关联特征，

所述对所述声学模型进行训练，还包括：

基于所述关联特征作为所述编码器的输入，对所述声学模型进行训练。

7.根据权利要求6所述的方法，其中，所述关联特征包括与所述音色特征的主体相关的主体特征、与所述文本特征的语种关联的语种特征中的至少一者。

8.根据权利要求1所述的方法，其中，所述文本特征通过以下方式得到：

确定包括至少两者语种的语种音素的音素集合，所述音素集合中语种音素的数目小于各个语种的语种音素的数目之和；

基于所述音素集合，对文本数据进行特征提取，得到所述文本特征。

9.根据权利要求8所述的方法，其中，所述至少两者语种的语种音素为通用音标，

所述基于所述音素集合，对文本数据进行特征提取，得到所述文本特征，包括：

对所述文本数据进行通用音标特征提取，得到所述文本特征。

10.根据权利要求1所述的方法，其中，所述语音特征通过以下方式得到：

对语音数据进行时频处理，确定所述语音数据的声谱图，作为所述语音特征。

11.一种语音生成方法，包括：

对文本数据进行特征提取，得到文本特征；

将所述文本特征输入声学模型，得到语音特征，所述声学模型根据权利要求1-10中任一项所述的模型训练方法训练得到；

根据所述语音特征生成语音数据。

12.一种语音交互方法，包括：

通过人机交互界面获取用户多媒体指令；

发送所述用户多媒体指令，以对所述用户多媒体指令据进行解析，得到所述用户多媒体指令的语音反馈数据，所述语音反馈数据利用权利要求11所述的语音生成方法基于文本数据生成，所述文本数据包括基于多语言的语义信息；

通过所述人机交互界面展示所述语音反馈数据。

13.一种电子设备，包括：处理器、存储器、通信接口和通信总线，所述处理器、所述存储器和所述通信接口通过所述通信总线完成相互间的通信；所述存储器用于存放至少一可执行指令，所述可执行指令使所述处理器执行如权利要求1-12中任一项所述的方法对应的操作。

14.一种计算机存储介质，其上存储有计算机程序，该程序被处理器执行时实现如权利要求1-12中任一项所述的方法。