CN118057522A

CN118057522A - 语音合成方法、模型训练方法、装置、设备及存储介质

Info

Publication number: CN118057522A
Application number: CN202211448746.XA
Authority: CN
Inventors: 刘利娟; 胡亚军; 潘嘉
Original assignee: iFlytek Co Ltd
Current assignee: iFlytek Co Ltd
Priority date: 2022-11-18
Filing date: 2022-11-18
Publication date: 2024-05-21

Abstract

本申请提出一种语音合成方法、模型训练方法、装置、设备及存储介质，该语音合成方法包括：通过预先训练的编码模型，提取待合成文本的语义特征；至少基于所述待合成文本和所述语义特征，生成与待合成文本相匹配的语音；其中，所述编码模型通过对第一训练样本进行语义特征提取训练得到，第一训练样本包括第一文本样本以及与第一文本样本平行的第一语音样本的声学特征；所述语义特征提取训练，以使得编码模型能够正确提取第一文本样本的文本特征和/或第一语音样本的声学特征，以及，能够正确预测所述第一语音样本的韵律信息，为目标。该方法能够合成可懂度和自然度更高的语音。

Description

语音合成方法、模型训练方法、装置、设备及存储介质

技术领域

本申请涉及语音合成技术领域，尤其涉及一种语音合成方法、模型训练方法、装置、设备及存储介质。

背景技术

传统的语音合成系统在基于文本合成语音时，通常是对文本分词后针对分词结果分别进行语音建模，然后将分词对应的语音建模结果进行拼接得到合成语音。上述的方案主要借助分词与语音或音素的映射关系而实现语音合成。但是，语音中包含非常丰富的语义信息，例如一句相同的文本，发音停顿重度的不同会传达不同的语义。而现有的语音合成系统，仅仅是实现了文本到语音的映射，往往不能准确传达语音中丰富的语义信息。

发明内容

基于上述技术现状，本申请提出一种语音合成方法、模型训练方法、装置、设备及存储介质，能够使合成的语音包含更加丰富且准确的语义信息，从而提高合成语音的可懂度和自然度。

为了达到上述技术目的，本申请提出如下技术方案：

一种语音合成方法，包括

获取待合成文本对应的字音特征和韵律特征，以及，通过预先训练的编码模型，提取所述待合成文本的语义特征；

基于所述字音特征、所述韵律特征和所述语义特征，生成与所述待合成文本相匹配的语音；

其中，所述编码模型通过对第一训练样本进行语义特征提取训练得到，所述第一训练样本包括第一文本样本以及与所述第一文本样本平行的第一语音样本的声学特征；所述语义特征提取训练，以使得所述编码模型能够正确提取所述第一文本样本的文本特征和/或所述第一语音样本的声学特征，以及，能够正确预测所述第一语音样本的韵律信息，为目标。

可选的，所述获取待合成文本对应的字音特征和韵律特征，包括；

通过预先训练的字音和韵律预测模型，从所述待合成文本中提取字音特征和韵律特征；

其中，所述字音和韵律预测模型，通过对所述编码模型进行基于文本的字音和韵律预测训练得到。

可选的，所述编码模型的训练过程，包括：

对所述第一训练样本中的第一文本样本和/或第一语音样本的声学特征进行随机掩盖后输入所述编码模型，以使所述编码模型预测被掩盖的字符和/或声学特征；

以使所述编码模型能够正确预测被掩盖的字符和/或声学特征，以及能够正确预测所述第一语音样本的韵律信息为目标，对所述编码模型进行参数修正。

可选的，以使所述编码模型能够正确预测被掩盖的字符和/或声学特征，以及能够正确预测所述第一语音样本的韵律信息为目标，对所述编码模型进行参数修正，包括：

获取所述编码模型通过预测被掩盖的字符和/或声学特征而得到的预测文本和/或预测声学特征，以及，获取所述编码模型输出的预测韵律信息；

以所述编码模型能够正确预测所述第一文本样本和/或所述第一语音样本的声学特征，以及，能够正确预测所述第一语音样本的韵律信息为目标，对所述编码模型进行参数修正。

可选的，以所述编码模型能够正确预测所述第一文本样本和/或所述第一语音样本的声学特征，以及，能够正确预测所述第一语音样本的韵律信息为目标，对所述编码模型进行参数修正，包括：

从所述编码模型输出的预测文本中确定出对应所述第一文本样本中被掩盖字符的预测字符，和/或，从所述编码模型输出的预测声学特征中，确定出对应所述第一语音样本的声学特征中被掩盖的声学特征的预测声学特征；

根据所述预测字符与所述被掩盖的字符，和/或根据所述预测声学特征与所述被掩盖的声学特征，计算得到掩码预测损失；以及，根据所述编码模型输出的预测韵律信息与所述第一语音样本的韵律标签，计算得到韵律预测损失；

以降低所述掩码预测损失和所述韵律预测损失为目标，对所述编码模型进行参数修正。

可选的，对所述第一训练样本中的第一文本样本和/或第一语音样本的声学特征进行随机掩盖后输入所述编码模型，以使所述编码模型预测被掩盖的字符和/或声学特征，包括：

将所述第一文本样本和所述第一语音样本的声学特征中对应相同位置的字符和声学特征分别进行掩盖，并将掩盖后的所述第一文本样本和所述第一语言样本的声学特征输入所述编码模型，以使所述编码模型预测被掩盖的字符和被掩盖的声学特征；

和/或，

将所述第一文本样本和所述第一语音样本中对应相同位置的字符和声学特征分别进行掩盖，并将掩盖后的所述第一文本样本输入所述编码模型，以使所述编码模型预测被掩盖的声学特征；

和/或，

对所述第一语音样本的声学特征进行随机掩盖后，将所述第一文本样本和掩盖后的所述第一语音样本的声学特征，输入所述编码模型，以使所述编码模型预测被掩盖的声学特征。

可选的，所述编码模型输出的预测韵律信息，包括语音停顿信息和/或字符时长信息。

可选的，所述第一文本样本以及与所述第一文本样本平行的第一语音样本的声学特征，通过如下处理得到：

获取第一文本样本以及与所述第一文本样本平行的第一语音样本；

通过对所述第一文本样本与所述第一语音样本进行字符级别的数据对齐处理，从所述第一语音样本中确定出与所述第一文本样本中的每个字符对应的语音片段；

分别确定所述第一文本样本中的每个字符对应的语音片段的声学特征，得到所述第一语音样本的声学特征序列。

可选的，确定所述第一文本样本中的每个字符对应的语音片段的声学特征，包括：

将所述第一文本样本中的字符对应的语音片段输入语音声学编码模型，得到所述语音声学编码模型输出的编码特征；

将所述编码特征输入语音声学解码模型，得到所述语音声学解码模型输出的重建语音片段；

基于该重建语音片段与输入所述语音声学编码模型的语音片段的差异，对所述语音声学编码模型进行参数校正，直至当所述语音声学解码模型输出的重建语音片段与输入所述语音声学编码模型的语音片段的差异小于设定阈值时，将所述语音声学编码模型输出的编码特征，确定为输入所述语音声学编码模型的语音片段的声学特征。

可选的，所述语音声学编码模型输出的编码特征为128维的编码特征。

一种模型训练方法，包括：

将第一训练样本输入编码模型，对所述编码模型进行语义特征提取训练；

其中，所述第一训练样本包括第一文本样本以及与所述第一文本样本平行的第一语音样本的声学特征；所述编码模型提取的语义特征用于生成语音；

所述语义特征提取训练，以使得所述编码模型能够正确提取所述第一文本样本的文本特征和/或所述第一语音样本的声学特征，以及，能够正确预测所述第一语音样本的韵律信息，为目标。

一种语音合成装置，包括：

特征提取单元，用于获取待合成文本对应的字音特征和韵律特征，以及，通过预先训练的编码模型，提取所述待合成文本的语义特征；

语音合成单元，用于基于所述字音特征、所述韵律特征和所述语义特征，生成与所述待合成文本相匹配的语音；

一种模型训练装置，包括：

训练模块，用于将第一训练样本输入编码模型，对所述编码模型进行语义特征提取训练；

一种电子设备，包括：

存储器和处理器；

所述存储器与所述处理器连接，用于存储程序；

所述处理器，用于通过运行所述存储器中的程序，实现上述的语音合成方法，或者实现上述的模型训练方法。

一种存储介质，所述存储介质上存储有计算机程序，所述计算机程序被处理器运行时，实现上述的语音合成方法，或者实现上述的模型训练方法。

本申请提出的语音合成方法及模型训练方法，通过对编码模型进行训练，使得编码模型在对输入的文本进行编码获取其语义特征时，能够同步提取文本中所蕴含的韵律信息，也就是在从文本中提取语义特征时，能够提取得到耦合了韵律信息的语义特征。另外，上述的编码模型训练过程为文本和语音双模训练，该训练过程可以使得编码模型深入挖掘文本和语音之间的相关性，从而能够更加准确地从文本中挖掘与语音相关的语义信息。

从而，将该编码模型对文本进行编码得到的语义特征用于语音合成，能够使得合成的语音包含准确的韵律信息和语义信息，从而能够通过语音更加准确、丰富地体现文本语义，提高生成的语音的可懂度和自然度。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据提供的附图获得其他的附图。

图1为本申请实施例提供的一种模型训练方法的流程示意图；

图2为本申请实施例提供的一种语音声学编解码模型的结构示意图；

图3为本申请实施例提供的编码模型训练示意图；

图4为本申请实施例提供的一种语音合成方法的流程示意图；

图5为本申请实施例提供的一种模型训练装置的结构示意图；

图6为本申请实施例提供的一种语音合成装置的结构示意图；

图7为本申请实施例提供的一种电子设备的结构示意图。

具体实施方式

本申请实施例技术方案适用于基于文本合成语音的应用场景，采用本申请实施例技术方案，能够基于文本生成可懂度和自然度更高的语音。

具体的，在公共服务(信息播报、智能客服等)、智能硬件(智能音箱、智能机器人等)、智慧交通(语音导航、智能车载设备等)、教育(智慧课堂、外语学习等)、内容生产(有声阅读、影视配音、虚拟偶像等)等具有语音合成处理环节的领域、产品或场景中，均可以应用本申请实施例技术方案。

语音包含了更加丰富的语义信息。例如一句相同的文本，发音停顿重度的不同会传达不同的语义。传统语音合成系统前后端建模时，输入仅包含原始文本，缺乏上下语境下关于语义相关信息，最终影响合成语音的可懂度和自然度。

为此，本申请实施例提出一种新的语音合成方案，能够使合成的语音准确表达语义，提高语音的可懂度和自然度。

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

示例性方法

本申请实施例首先提出一种模型训练方法，参见图1所示，该方法包括：

S101、将第一训练样本输入编码模型，对所述编码模型进行语义特征提取训练。

其中，所述第一训练样本包括第一文本样本以及与所述第一文本样本平行的第一语音样本的声学特征；

具体的，本申请实施例提出的模型训练方法，用于对编码模型进行训练，该编码模型可以为任意类型的能够对文本进行语义编码的神经网络模型，其具体用于对文本进行编码，从而准确而全面地提取文本的语义特征，以便于后续能够基于文本的语义特征生成相应的语音。

本申请实施例预先收集海量的文本和语音平行数据作为训练数据。例如，将平行的第一文本样本与第一语音样本作为训练数据，进一步的，对第一语音样本进行声学特征提取，并将第一文本样本以及与第一文本样本平行的第一语音样本的声学特征，共同组成第一训练样本。

其中，对第一语音样本进行声学特征提取可以采用任意可行的声学特征提取方案实现，本申请实施例不做限定。

为了保证模型训练效果以及模型训练有效性，作为训练数据的语音的时长至少5秒。上述的文本和语音平行数据，可以通过发音人录制、有声音频数据(例如电视节目、电视剧、有声小说)等途径获取得到，具体可以是任意内容、任意语种的文本和语音平行数据。

基于上述介绍，可以得到海量的文本样本以及与文本样本平行的语音样本的声学特征，每一组相互平行的文本样本以及语音样本的声学特征，可以组成一组训练样本用于对编码模型进行训练。

例如，将第一文本样本，以及与第一文本样本平行的第一语音样本的声学特征，输入编码模型，使该编码模型对第一文本样本和/或第一语音样本的声学特征进行编码处理，输出对第一文本样本的编码结果和/或对第一语音样本的声学特征的编码结果。

同时，该编码模型通过对第一文本样本和/或第一语音样本的声学特征进行编码处理，生成并输出第一语音样本的韵律信息。

作为一种可选的实施方式，可以预先标注第一文本样本的正确编码结果、第一语音样本的声学特征的正确编码结果，以及第一语音样本的韵律信息。

在对编码模型的训练过程中，当编码模型输出对第一文本样本的编码结果和/或对第一语音样本的声学特征的编码结果，以及输出第一语音样本的韵律信息时，将编码模型输出结果与相应的预先标注结果进行对比计算损失函数，并基于损失函数，以使得编码模型能够正确提取第一文本样本的文本特征和/或第一语音样本的声学特征，以及，能够正确预测第一语音样本的韵律信息为目标，对编码模型进行参数修正，也就是，以使得上述计算得到的损失函数更小为目标，对编码模型进行参数修正。

可以理解，上述的编码模型训练过程，使得编码模型在对输入的文本进行编码获取其语义特征时，能够同步提取文本中所蕴含的韵律信息，也就是在从文本中提取语义特征时，能够提取得到耦合了韵律信息的语义特征。另外，上述的编码模型训练过程为文本和语音双模训练，该训练过程可以使得编码模型深入挖掘文本和语音之间的相关性，从而能够更加准确地从文本中挖掘与语音相关的语义信息。

下面，对本申请实施例上述的编码模型训练方案进行具体介绍。

首先，在收集了海量的文本、语音平行数据后，通过如下步骤A1-A3的处理，获取第一文本样本以及与第一文本样本平行的第一语音样本的声学特征：

A1、获取第一文本样本以及与所述第一文本样本平行的第一语音样本。

具体的，从海量的文本、语音平行数据中，选择任意一组相互平行的文本和语音数据，即可分别得到第一文本样本，以及与第一文本样本平行的第一语音样本。

A2、通过对所述第一文本样本与所述第一语音样本进行字符级别的数据对齐处理，从所述第一语音样本中确定出与所述第一文本样本中的每个字符对应的语音片段。

示例性的，可以利用语音识别模型(开源的语音识别模型或者自行训练的识别模型等)，对上述的第一文本样本和第一语音样本进行强制对齐(Force Alignment,FA)，根据对齐信息获得第一语音样本中对应第一文本样本的每个字符的时长信息、句子中的停顿信息以及切分的字符声学片段(即从第一语音样本中切分出的对应第一文本样本中的每个字符的声学片段)。其中，第一文本样本的每个字符的时长信息和/或停顿信息，即可作为第一语音样本的韵律信息。这些韵律信息可以作为第一语音样本的韵律信息标签，用于后续对编码模型的韵律信息提取功能进行训练。

例如，假设第一文本样本中包含N个字符c＝[c₁，c₂，...，c_n，...，c_N]。通过FA，获得这句话中字符的时长序列d＝[d₁，d₂，...，d_n，...，d_N]，d_n为第一语言样本中对应第一文本样本中的第n个字符的语音帧数。停顿信息是指在第一语音样本中每个字符后是否有停顿，根据FA切分结果中每个字符后是否有静音来确定。最终得到句子的停顿信息序列p＝[p₁，p₂，...，p_n，...，p_N]。其中，p_n∈{0，1}表示第n个字符后是否有停顿。如果FA结果中，第n个字符后面切分出一段静音帧，表示这个字符后发音有停顿，那么p_n＝1，否则p_n＝0。

进一步的，利用FA的对齐信息，对第一语音样本进行切分，得到对应第一文本样本中的每个字符的语音片段。

A3、分别确定所述第一文本样本中的每个字符对应的语音片段的声学特征，得到所述第一语音样本的声学特征序列。

具体的，在分别从第一语音样本中确定出第一文本样本中的每个字符对应的语音片段后，对每个字符对应的语音片段分别进行声学特征提取，得到每个字符对应的语音片段的声学特征，进而，将每个字符对应的语音片段的声学特征按照字符序列进行拼接，即可得到第一语音样本的声学特征序列。

作为一种优选的实施方式，通过如下A31-A33的处理，可以确定第一文本样本中的每个字符对应的语音片段的声学特征：

A31、将第一文本样本中的字符对应的语音片段输入语音声学编码模型，得到语音声学编码模型输出的编码特征。

A32、将所述编码特征输入语音声学解码模型，得到所述语音声学解码模型输出的重建语音片段。

A33、基于该重建语音片段与输入所述语音声学编码模型的语音片段的差异，对所述语音声学编码模型进行参数校正，直至当所述语音声学解码模型输出的重建语音片段与输入所述语音声学编码模型的语音片段的差异小于设定阈值时，将所述语音声学编码模型输出的编码特征，确定为输入所述语音声学编码模型的语音片段的声学特征。

具体的，由于文本、语音两个模态数据长度不一致，为了实现文本语音双模联合建模，也就是为了使得文本和语音能够同时用于对编码模型进行编码训练，本申请实施例首先训练一个语音声学编解码模型，以对语音信号编码来获得一个与文本长度匹配的说话人音色无关的语音声学表征序列。

上述的语音声学编解码模型的结构如图2所示，该模型为一个字符级别的语音声学编码模型，其包含语音声学编码和语音声学解码两个模块。

将第一文本样本中的一个字符对应的语音片段x_n(记x_n为一句话中第n个字符的语音声学片段)输入语音声学编码模块，经过语音声学编码模块对其编码，输出一个编码特征z_n。

为了让z_n能够保留x_n中的声学信息，将z_n送入语音声学解码模块进行字符重建，也就是对原始的语音片段x_n进行恢复，得到重建语音片段

若重建语音片段与原始的语音片段x_n的差异较大，例如大于设定差异度阈值，则对语音声学编码模块进行参数修正，并使参数修正后的语音声学编码模块重新对原始的语音片段x_n进行编码。

重复上述的编码及参数修正过程，当语音声学解码模块的输出和原始输入x_n的差异很小时，编码模块得到的单个向量特征z_n即可作为对x_n的表征，也就是作为输入的语音片段x_n的声学特征。

进一步的，为了让z_n中尽可能的包含与说话人音色无关的信息，需要对z_n的编码过程做一定的限制。在本申请实施例的一个实施实例中，可以通过约束语音声学编码模块输出层的维度来进行约束。例如，将语音声学编码模块的输出层维度限制为128维，则使得语音声学编码模块对输入的语音片段进行编码得到的编码特征的维度为128维。由于维度较小，编码的信息量有限，在采用海量说话人数据训练情况下，为了尽可能的恢复x_n，语音声学编码模型会对x_n中的主要信息，例如发音、韵律等进行编码得到与说话人音色无关的声学特征z_n。

在本案的另外一个实施实例中，也可以通过对语音声学编码模块输出的声学特征进行量化编码的方式达到信息约束的目的，来获得说话人音色无关的语音声学特征z_n。

上述的语音声学编解码模型的语音声学编码模块和语音声学解码模块可以采用前向神经网络、循环神经网络、卷积神经网络等网络模块的一种和几种的组合进行实现，本申请实施例不做具体约束。

在训练时，将每一字符对应的语音片段数据x_n，作为训练数据对模型进行训练。上述的语音片段数据x_n可以是原始的语音波形，也可以是从语音波形上提取的线性谱特征、梅尔频谱特征等。训练时，为了最小化重建的和原始输入x_n的差异，可以采用最小均方误差损失，也可以采用生成式对抗损失等。

在完成上述的训练数据准备工作之后，即可基于上述的训练数据对编码模型进行语义特征提取训练。下面仍以上述的第一文本样本和第一语音样本构成的第一训练样本为例，介绍对编码模型的具体训练过程。

作为一种优选的训练方式，本申请实施例对编码模型进行掩码预测训练和韵律预测训练，使得编码模型能够正确进行特征提取及韵律预测。

具体的，对第一训练样本中的第一文本样本和/或第一语音样本的声学特征进行随机掩盖后输入编码模型，以使编码模型预测被掩盖的字符和/或声学特征；并以使编码模型能够正确预测被掩盖的字符和/或声学特征，以及能够正确预测第一语音样本的韵律信息为目标，对编码模型进行参数修正。

如图3所示，对于第一文本样本c及其对应的第一语音样本x＝[x₁，x₂，...，x_n，...，x_N]，首先采用上述的语音声学编码模型，对x进行编码处理，获得第一语音样本的语音声学表征(语音声学特征)z＝[z₁，z₂，...，z_n，...，z_N]。然后将c＝[c₁，c₂，...，c_n，...，c_N]和z＝[z₁，z₂，...，z_n，...，z_N]对应位置拼接。

为了让模型学习到富含文本语义及其相关声学特性的表征，本申请实施例采用了掩码预测训练和韵律预测训练相结合的训练方式。其中，将掩码预测训练得到的掩码预测损失L_MCP(Masked-Code Prediction)和韵律预测训练得到的韵律预测损失L_RIP(RythemeInformation Prediction,RIP)的组合，用于对模型进行参数修正。

在掩码预测训练时，对第一训练样本中的第一文本样本和/或第一语音样本的声学特征进行随机掩盖后输入编码模型，以使编码模型预测被掩盖的字符和/或声学特征，具体可以采用如下三种掩盖方式中的一种或多种的组合：

(1)将所述第一文本样本和所述第一语音样本的声学特征中对应相同位置的字符和声学特征分别进行掩盖，并将掩盖后的所述第一文本样本和所述第一语言样本的声学特征输入所述编码模型，以使所述编码模型预测被掩盖的字符和被掩盖的声学特征。

具体的，例如图3中所示，按照一定的概率对第一文本样本和第一语音样本的声学特征中对应相同位置的字符和声学特征进行随机掩盖，并将掩盖处理后的字符和语音声学表征输入编码模型中，使编码模型预测被掩盖的字符和声学特征。

由于文本/语音前后之前存在较强相关性，特别是语音声学表征中包含的声学发音和韵律等信息(例如强调重读等)与文本语义十分相关。为了预测准确，模型会从其他未被掩盖的文本特征以及其他声学特征中深入挖掘语义信息以及文本语音两个模态的相关性。

(2)将第一文本样本和第一语音样本的声学特征中对应相同位置的字符和声学特征分别进行掩盖，并将掩盖后的第一文本样本输入编码模型，以使所述编码模型预测被掩盖的声学特征。

具体的，参照图3所示的掩盖方式，对第一文本样本和第一语音样本的声学特征中对应相同位置的字符和声学特征进行随机掩盖，但是在输入编码模型时，只将掩盖后的第一文本样本输入编码模型，使编码模型对第一语音样本的声学特征中被掩盖的声学特征进行预测。

(3)对第一语音样本的声学特征进行随机掩盖后，将第一文本样本和掩盖后的第一语音样本的声学特征，输入编码模型，以使编码模型预测被掩盖的声学特征。

具体的，这种方式是只对第一语音样本的声学特征按照一定概率进行随机掩盖，然后将掩盖后的第一语音样本的声学特征和未掩盖的第一文本样本输入编码模型，使模型对第一语音样本的声学特征中的被掩盖的声学特征进行预测。

在上述的掩码预测训练的同时，还执行韵律预测训练，即，使编码模型基于输入的第一文本样本和/或第一语音样本的声学特征，预测第一语音样本的韵律信息，得到预测韵律信息。具体例如预测第一语音样本的语音停顿信息和/或字符时长信息，得到包含语音停顿信息和/或字符时长信息的预测韵律信息。

然后，以使得编码模型能够正确预测被掩盖的字符和/或声学特征，以及能够正确预测第一语音样本的韵律信息为目标，对编码模型进行参数修正。

首先，获取编码模型通过预测被掩盖的字符和/或声学特征而得到的预测文本和/或预测声学特征，以及，获取编码模型输出的预测韵律信息。

具体的，编码模型通过预测被掩盖的字符而得到的预测文本，可以是在预测第一文本样本中被掩盖的字符后得到的对应第一文本样本的完整预测样本，或者仅仅是对第一文本样本中被掩盖的字符进行预测得到的预测字符。

编码模型通过预测被掩盖的声学特征而得到的预测声学特征，可以是在预测第一语音样本中被掩盖的声学特征后得到的对应第一语音样本的完整预测声学特征，或者仅仅是对第一语音样本中被掩盖的声学特征进行预测得到的声学特征。

在本申请实施例中，编码模型通过预测被掩盖的字符而得到的预测文本，为对应被掩盖处理后的第一文本样本的完整的预测文本；编码模型通过预测被掩盖的声学特征而得到的预测声学特征，是对应第一语音样本的完整预测声学特征。

编码模型输出的预测韵律信息，即为编码模型预测得到的语音停顿信息和/或字符时长信息。

然后，基于上述的预测文本、预测声学特征，以及预测韵律信息，以编码模型能够正确预测第一文本样本和/或第一语音样本的声学特征，以及，能够正确预测第一语音样本的韵律信息为目标，对编码模型进行参数修正。

具体的，可以通过执行如下步骤B1-B3的处理，实现对编码模型的参数修正：

B1、从编码模型输出的预测文本中确定出对应第一文本样本中被掩盖字符的预测字符，和/或，从编码模型输出的预测声学特征中，确定出对应第一语音样本的声学特征中被掩盖的声学特征的预测声学特征。

具体的，基于被掩盖的字符在第一文本样本中的第一位置和/或被掩盖的声学特征在第一语音样本的声学特征中的第二位置，可以从编码模型输出的预测文本的第一位置处，提取对应第一文本样本中被掩盖字符的预测字符，和/或，从编码模型输出的预测声学特征中的第二位置处，提取对应第一语音样本的声学特征中被掩盖的声学特征的预测声学特征。

B2、根据预测字符与被掩盖的字符，和/或根据预测声学特征与被掩盖的声学特征，计算得到掩码预测损失；以及，根据编码模型输出的预测韵律信息与第一语音样本的韵律标签，计算得到韵律预测损失。

具体的，通过将掩盖的字符与预测字符进行比对，可计算得到掩码预测损失。其中，对于上述的第(1)种掩盖方式，可以计算得到第一掩码预测损失L_MCP-CA；对于上述的第(2)种掩盖方式，可以计算得到第二掩码预测损失L_MCP-C-A；对于上述的第(3)种掩盖方式，可以计算得到第三掩码预测损失L_MCP-A。第一掩码预测损失L_MCP-CA、第二掩码预测损失L_MCP-C-A和第三掩码预测损失L_MCP-A共同构成掩码预测损失L_MCP。

同时，通过将编码模型输出的预测韵律信息与第一语音样本的韵律标签进行比对，可计算得到韵律预测损失L_RIP。

B3、以降低掩码预测损失和韵律预测损失为目标，对编码模型进行参数修正。

具体的，通过最小化掩码预测损失L_MCP和韵律预测损失L_RIP之和，对编码模型进行参数修正，直至收敛。

当上述编码模型训练收敛时，该编码模型可以用于对输入的文本进行语义特征提取。例如，该编码模型的最后一个隐层输出的特征向量，即为对输入的文本进行编码得到的文本语义特征。

通过上述训练过程介绍可知，本申请实施例提出的模型训练方法在对编码模型进行训练时，以文本和语音双模训练数据作为样本对编码模型进行特征提取和韵律提取训练，使得该编码模型能够深入挖掘文本与语音之间的关系，获取的与语音韵律强相关的语义特征。基于该语义特征进行语音合成，可以使得合成的语音中包含丰富且准确的语义信息，从而提高合成语音的可懂度和自然度。

基于通过上述的模型训练方法训练得到的编码模型，本申请实施例还提出一种语音合成方法，该方法通过上述训练得到的编码模型，提取待合成文本的语义特征，然后至少基于待合成文本，以及待合成文本的语义特征，生成与待合成文本相匹配的语音。

其中，上述的待合成文本，可以是任意语种、任意内容、任意长度的文本。

上述的编码模型的训练过程可以参见上述实施例介绍，同时，根据待合成文本以及待合成文本的语义特征进行语音合成的具体过程，也可以参见常规的结合语义和文本的语音合成方案。

与现有的常规方案所不同的是，上述的语音合成方法利用经过上述训练方式训练得到的编码模型提取待合成文本的语义特征，并将该语义特征用于生成与待合成文本相匹配的语音。由于经过上述训练方式训练得到的编码模型在从文本中提取语义特征时，能够提取得到耦合了韵律信息的语义特征。另外，上述的编码模型训练过程为文本和语音双模训练，该训练过程可以使得编码模型深入挖掘文本和语音之间的相关性，从而能够更加准确地从文本中挖掘与语音相关的语义信息。

从而，将该编码模型对待合成文本进行编码得到的语义特征用于语音合成，能够使得生成的语音包含准确的韵律信息和语义信息，从而能够通过语音更加准确、丰富地体现文本语义，提高生成的语音的可懂度和自然度。

作为一种优选的实施方式，在对待合成文本进行语音合成时，还可以提取待合成文本的字音特征和/或韵律特征，并将提取的字音特征和/或韵律特征用于语音合成。

具体参见图4所示，在该实现方式中，上述的语音合成方法包括：

S401、获取待合成文本对应的字音特征和/或韵律特征，以及，通过预先训练的编码模型，提取待合成文本的语义特征。

本申请实施例首先对待合成文本进行音素、声调预测，确定待合成文本对应的字音特征，和/或，对待合成文本进行韵律预测，确定待合成文本对应的韵律特征。

作为可选的实现方式，通过预先训练字音和韵律预测模型，可以实现对待合成文本的字音特征和/或韵律特征的预测。

另外，将待合成文本输入上述的通过对第一训练样本进行语义特征提取训练得到的编码模型，提取该待合成文本的语义特征。该编码模型的具体训练过程，可参见上述的任意一种模型训练方法实施例的介绍。

S402、基于所述字音特征和/或所述韵律特征，以及所述待合成文本和所述语义特征，生成与所述待合成文本相匹配的语音。

具体的，在确定待合成文本对应的字音特征、韵律特征和语义特征后，利用字音特征、韵律特征和语义特征进行语音合成，得到与待合成文本相匹配的语音。

上述的语音合成方法利用经过上述训练方式训练得到的编码模型提取待合成文本的语义特征，并将该语义特征用于生成与待合成文本相匹配的语音。由于经过上述训练方式训练得到的编码模型在从文本中提取语义特征时，能够提取得到耦合了韵律信息的语义特征。另外，上述的编码模型训练过程为文本和语音双模训练，该训练过程可以使得编码模型深入挖掘文本和语音之间的相关性，从而能够更加准确地从文本中挖掘与语音相关的语义信息。

作为一种优选的实施方式，在上述的语音合成方法中，在获取待合成文本对应的字音特征和/或韵律特征时，通过预先训练的字音和韵律预测模型，从待合成文本中提取字音特征和/或韵律特征。

其中，上述的字音和韵律预测模型，通过对本申请上述实施例中训练得到的编码模型进行基于文本的字音和韵律特征预测训练得到。

即，按照本申请上述实施例的介绍训练得到编码模型后，继续对该编码模型进行字音和韵律预测训练。例如，将文本样本输入训练得到的编码模型，以使该编码模型预测输入的文本样本的字音特征和韵律特征。

由于本申请上述实施例训练得到的编码模型在经过训练后已经能够从文本中准确提取与韵律和发音强相关的语义信息，因此基于该编码模型可以更加容易地训练得到能够准确提取文本的字音特征和韵律特征的字音和韵律预测模型。

可以理解，在本申请实施例中，将采用本申请上述实施例介绍的模型训练方法训练得到的编码模型用于语音合成系统的前后端建模，具体是，在语音合成系统的前端，基于该编码模型训练字音和韵律预测模型用于预测待合成文本对应的字音特征和韵律特征，能够保证预测的字音特征和韵律特征的准确度；在语音合成系统的后端，将上述的编码模型从待合成文本中提取的语义特征用于语音合成，由于该语义特征中耦合了韵律信息，因此将该语义特征用于辅助语音合成，能够使得合成的语音能够充分、准确地表达待合成文本中所蕴含的语义信息，从而提高合成语音的可懂度和自然度。

示例性装置

与上述的模型训练方法相应的，本申请实施例还提供了一种模型训练装置，参见图5所示，该装置包括：

训练模块001，用于将第一训练样本输入编码模型，对所述编码模型进行语义特征提取训练；

作为一种可选的实现方式，所述编码模型的训练过程，包括：

作为一种可选的实现方式，以使所述编码模型能够正确预测被掩盖的字符和/或声学特征，以及能够正确预测所述第一语音样本的韵律信息为目标，对所述编码模型进行参数修正，包括：

作为一种可选的实现方式，以所述编码模型能够正确预测所述第一文本样本和/或所述第一语音样本的声学特征，以及，能够正确预测所述第一语音样本的韵律信息为目标，对所述编码模型进行参数修正，包括：

作为一种可选的实现方式，对所述第一训练样本中的第一文本样本和/或第一语音样本的声学特征进行随机掩盖后输入所述编码模型，以使所述编码模型预测被掩盖的字符和/或声学特征，包括：

和/或，

作为一种可选的实现方式，所述编码模型输出的预测韵律信息，包括语音停顿信息和/或字符时长信息。

作为一种可选的实现方式，所述第一文本样本以及与所述第一文本样本平行的第一语音样本的声学特征，通过如下处理得到：

作为一种可选的实现方式，确定所述第一文本样本中的每个字符对应的语音片段的声学特征，包括：

作为一种可选的实现方式，所述语音声学编码模型输出的编码特征为128维的编码特征。

本实施例提供的模型训练装置，与本申请上述实施例所提供的模型训练方法属于同一申请构思，可执行本申请上述任意实施例所提供的模型训练方法，具备执行方法相应的功能模块和有益效果。未在本实施例中详尽描述的技术细节，可参见本申请上述实施例提供的模型训练方法的具体处理内容，此处不再加以赘述。

与上述的语音合成方法相对应的，本申请实施例还提出一种语音合成装置，参见图6所示，该装置包括：

特征提取单元100，用于获取待合成文本对应的字音特征和韵律特征，以及，通过预先训练的编码模型，提取所述待合成文本的语义特征；

语音合成单元110，用于基于所述字音特征、所述韵律特征和所述语义特征，生成与所述待合成文本相匹配的语音；

作为一种可选的实现方式，所述获取待合成文本对应的字音特征和韵律特征，包括；

和/或，

同理，本实施例提供的语音合成装置，与本申请上述实施例所提供的语音合成方法属于同一申请构思，可执行本申请上述任意实施例所提供的语音合成方法，具备执行方法相应的功能模块和有益效果。未在本实施例中详尽描述的技术细节，可参见本申请上述实施例提供的语音合成方法的具体处理内容，此处不再加以赘述。

示例性电子设备

本申请另一实施例还提出一种电子设备，该电子设备具体可以为翻译机、词典笔、智能交互终端等具备基于语音的人机交互功能、能够执行语音合成操作的电子设备，还可以是任意的数据处理设备，例如处理器、服务器等。

参见图7所示，该电子设备包括：

存储器200和处理器210；

其中，所述存储器200与所述处理器210连接，用于存储程序；

所述处理器210，用于通过运行所述存储器200中存储的程序，实现上述任一实施例公开的语音合成方法或模型训练方法。

具体的，上述电子设备还可以包括：总线、通信接口220、输入设备230和输出设备240。

处理器210、存储器200、通信接口220、输入设备230和输出设备240通过总线相互连接。其中：

总线可包括一通路，在计算机系统各个部件之间传送信息。

处理器210可以是通用处理器，例如通用中央处理器(CPU)、微处理器等，也可以是特定应用集成电路(application-specific integrated circuit，ASIC)，或一个或多个用于控制本发明方案程序执行的集成电路。还可以是数字信号处理器(DSP)、专用集成电路(ASIC)、现成可编程门阵列(FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。

处理器210可包括主处理器，还可包括基带芯片、调制解调器等。

存储器200中保存有执行本发明技术方案的程序，还可以保存有操作系统和其他关键业务。具体地，程序可以包括程序代码，程序代码包括计算机操作指令。更具体的，存储器200可以包括只读存储器(read-only memory，ROM)、可存储静态信息和指令的其他类型的静态存储设备、随机存取存储器(random access memory，RAM)、可存储信息和指令的其他类型的动态存储设备、磁盘存储器、flash等等。

输入设备230可包括接收用户输入的数据和信息的装置，例如键盘、鼠标、摄像头、扫描仪、光笔、语音输入装置、触摸屏、计步器或重力感应器等。

输出设备240可包括允许输出信息给用户的装置，例如显示屏、打印机、扬声器等。

通信接口220可包括使用任何收发器一类的装置，以便与其他设备或通信网络通信，如以太网，无线接入网(RAN)，无线局域网(WLAN)等。

处理器210执行存储器200中所存放的程序，以及调用其他设备，可用于实现本申请上述实施例所提供的任意一种语音合成方法或模型训练方法的各个步骤。

示例性计算机程序产品和存储介质

除了上述方法和设备以外，本申请的实施例还可以是计算机程序产品，其包括计算机程序指令，所述计算机程序指令在被处理器运行时使得所述处理器执行本说明书上述“示例性方法”部分中描述的语音合成方法或模型训练方法中的步骤。

所述计算机程序产品可以以一种或多种程序设计语言的任意组合来编写用于执行本申请实施例操作的程序代码，所述程序设计语言包括面向对象的程序设计语言，诸如Java、C++等，还包括常规的过程式程序设计语言，诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算设备上执行、部分地在用户设备上执行、作为一个独立的软件包执行、部分在用户计算设备上部分在远程计算设备上执行、或者完全在远程计算设备或服务器上执行。

此外，本申请的实施例还可以是存储介质，其上存储有计算机程序，计算机程序被处理器执行本说明书上述“示例性方法”部分中描述的语音合成方法或模型训练方法中的步骤。

对于前述的各方法实施例，为了简单描述，故将其都表述为一系列的动作组合，但是本领域技术人员应该知悉，本申请并不受所描述的动作顺序的限制，因为依据本申请，某些步骤可以采用其他顺序或者同时进行。其次，本领域技术人员也应该知悉，说明书中所描述的实施例均属于优选实施例，所涉及的动作和模块并不一定是本申请所必须的。

需要说明的是，本说明书中的各个实施例均采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似的部分互相参见即可。对于装置类实施例而言，由于其与方法实施例基本相似，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

本申请各实施例方法中的步骤可以根据实际需要进行顺序调整、合并和删减，各实施例中记载的技术特征可以进行替换或者组合。

本申请各实施例种装置及终端中的模块和子模块可以根据实际需要进行合并、划分和删减。

本申请所提供的几个实施例中，应该理解到，所揭露的终端，装置和方法，可以通过其它的方式实现。例如，以上所描述的终端实施例仅仅是示意性的，例如，模块或子模块的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个子模块或模块可以结合或者可以集成到另一个模块，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或模块的间接耦合或通信连接，可以是电性，机械或其它的形式。

作为分离部件说明的模块或子模块可以是或者也可以不是物理上分开的，作为模块或子模块的部件可以是或者也可以不是物理模块或子模块，即可以位于一个地方，或者也可以分布到多个网络模块或子模块上。可以根据实际的需要选择其中的部分或者全部模块或子模块来实现本实施例方案的目的。

另外，在本申请各个实施例中的各功能模块或子模块可以集成在一个处理模块中，也可以是各个模块或子模块单独物理存在，也可以两个或两个以上模块或子模块集成在一个模块中。上述集成的模块或子模块既可以采用硬件的形式实现，也可以采用软件功能模块或子模块的形式实现。

专业人员还可以进一步意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、计算机软件或者二者的结合来实现，为了清楚地说明硬件和软件的可互换性，在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本申请的范围。

结合本文中所公开的实施例描述的方法或算法的步骤可以直接用硬件、处理器执行的软件单元，或者二者的结合来实施。软件单元可以置于随机存储器(RAM)、内存、只读存储器(ROM)、电可编程ROM、电可擦除可编程ROM、寄存器、硬盘、可移动磁盘、CD-ROM、或技术领域内所公知的任意其它形式的存储介质中。

最后，还需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

对所公开的实施例的上述说明，使本领域技术人员能够实现或使用本申请。对这些实施例的多种修改对本领域的技术人员来说将是显而易见的，本文中所定义的一般原理可以在不脱离本申请的精神或范围的情况下，在其它实施例中实现。因此，本申请将不会被限制于本文所示的这些实施例，而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims

1.一种语音合成方法，其特征在于，包括

通过预先训练的编码模型，提取待合成文本的语义特征；

至少基于所述待合成文本和所述语义特征，生成与所述待合成文本相匹配的语音；

2.根据权利要求1所述的方法，其特征在于，所述方法还包括：获取所述待合成文本对应的字音特征和/或韵律特征；

所述至少基于所述待合成文本和所述语义特征，生成与所述待合成文本相匹配的语音，包括：

基于所述字音特征和/或所述韵律特征，以及所述待合成文本和所述语义特征，生成与所述待合成文本相匹配的语音。

3.根据权利要求2所述的方法，其特征在于，所述获取所述待合成文本对应的字音特征和/或韵律特征，包括；

通过预先训练的字音和韵律预测模型，从所述待合成文本中提取字音特征和/或韵律特征；

4.根据权利要求1至3中任意一项所述的方法，其特征在于，所述编码模型的训练过程，包括：

5.根据权利要求4所述的方法，其特征在于，以使所述编码模型能够正确预测被掩盖的字符和/或声学特征，以及能够正确预测所述第一语音样本的韵律信息为目标，对所述编码模型进行参数修正，包括：

6.根据权利要求5所述的方法，其特征在于，以所述编码模型能够正确预测所述第一文本样本和/或所述第一语音样本的声学特征，以及，能够正确预测所述第一语音样本的韵律信息为目标，对所述编码模型进行参数修正，包括：

7.根据权利要求4所述的方法，其特征在于，对所述第一训练样本中的第一文本样本和/或第一语音样本的声学特征进行随机掩盖后输入所述编码模型，以使所述编码模型预测被掩盖的字符和/或声学特征，包括：

和/或，

8.根据权利要求6所述的方法，其特征在于，所述编码模型输出的预测韵律信息，包括语音停顿信息和/或字符时长信息。

9.根据权利要求1至3中任意一项所述的方法，其特征在于，所述第一文本样本以及与所述第一文本样本平行的第一语音样本的声学特征，通过如下处理得到：

10.根据权利要求9所述的方法，其特征在于，确定所述第一文本样本中的每个字符对应的语音片段的声学特征，包括：

11.一种模型训练方法，其特征在于，包括：

12.一种语音合成装置，其特征在于，包括：

13.一种模型训练装置，其特征在于，包括：

14.一种电子设备，其特征在于，包括：

存储器和处理器；

所述存储器与所述处理器连接，用于存储程序；

所述处理器，用于通过运行所述存储器中的程序，实现如权利要求1至10中任意一项所述的语音合成方法，或者实现如权利要求11所述的模型训练方法。

15.一种存储介质，其特征在于，所述存储介质上存储有计算机程序，所述计算机程序被处理器运行时，实现如权利要求1至10中任意一项所述的语音合成方法，或者实现如权利要求11所述的模型训练方法。