CN112786012B

CN112786012B - 一种语音合成方法、装置、电子设备和存储介质

Info

Publication number: CN112786012B
Application number: CN202011623508.9A
Authority: CN
Inventors: 宋飞豹; 宋锐; 侯秋侠; 孟亚洲; 江源
Original assignee: iFlytek Co Ltd
Current assignee: iFlytek Co Ltd
Priority date: 2020-12-31
Filing date: 2020-12-31
Publication date: 2024-05-31
Anticipated expiration: 2040-12-31
Also published as: CN112786012A

Abstract

本发明提供一种语音合成方法、装置、电子设备和存储介质，其中方法包括：将初始语音输入至韵律学模型，得到韵律学特征；将韵律学特征和目标音色特征输入至语音合成模型，得到语音合成模型输出的合成结果；其中，韵律学模型是基于各第一语音训练得到的，各第一语音是基于相同的第一韵律学特征和不同的音色合成的；语音合成模型是基于各第二语音及其第二韵律学特征和音色特征训练得到的，第二韵律学特征是将第二语音输入韵律学模型得到的。本发明提供的方法、装置、电子设备和存储介质，韵律学模型输出的韵律学特征与音色无关，提高了语音合成的可靠性和准确性；此外，韵律学模型是针对各语种通用的，极大降低了语音合成任务的实现难度。

Description

一种语音合成方法、装置、电子设备和存储介质

技术领域

本发明涉及自然语言处理技术领域，尤其涉及一种语音合成方法、装置、电子设备和存储介质。

背景技术

多语种的语音合成可以通过单一语音合成系统实现跨语种、跨发言人的音色转换。

目前的语音合成系统通常包含前端模块和语音合成模型两个部分，其中前端模块用于文本分析、韵律预测、文本音素转换等，这需要对语言知识进行详细了解，其构建过程需要耗费大量人力和时间投入。而在多语种的语音合成任务中，大量语种的前端模块极难获得，这对于多语种语音合成任务带来极大困难。

发明内容

本发明提供一种语音合成方法、装置、电子设备和存储介质，用以解决现有技术中前端模块构建难度大导致语音合成实现困难的缺陷。

本发明提供一种语音合成方法，包括：

将初始语音输入至韵律学模型，得到所述韵律学模型输出的韵律学特征；

将所述韵律学特征和目标音色特征输入至语音合成模型，得到所述语音合成模型输出的合成结果；

其中，所述韵律学模型是基于各第一语音训练得到的，所述各第一语音是基于相同的第一韵律学特征和不同的音色合成的；所述语音合成模型是基于各第二语音及其第二韵律学特征和音色特征训练得到的，所述第二韵律学特征是将对应第二语音输入所述韵律学模型得到的。

根据本发明提供的一种语音合成方法，所述韵律学模型是基于如下步骤训练得到的：

将样本语音输入至基线韵律学模型，得到所述基线韵律学模型输出的第一韵律学特征；

将所述第一韵律学特征分别与不同的目标音色特征输入至基线语音合成模型，得到所述基线语音合成模型输出的对应不同音色的第一合成结果；

基于所述第一韵律学特征以及各第一合成结果对应的第一语音，训练所述基线韵律学模型，得到所述韵律学模型。

根据本发明提供的一种语音合成方法，所述将所述韵律学特征输入至语音合成模型，得到所述语音合成模型输出的合成结果，包括：

将所述韵律学特征输入至所述语音合成模型的文本编码层，得到所述文本编码层输出的文本特征；

将所述文本特征和所述目标音色特征输入至所述语音合成模型的解码层，得到所述解码层输出的合成结果。

根据本发明提供的一种语音合成方法，所述文本编码层是与说话人识别模型对抗训练得到的，所述说话人识别模型用于对对抗文本特征进行说话人识别，所述对抗文本特征是对所述文本编码层的输出进行梯度反转得到的。

根据本发明提供的一种语音合成方法，所述将所述文本特征和所述目标音色特征输入至所述语音合成模型的解码层，得到所述解码层输出的合成结果，包括：

将上一解码时刻的解码结果输入至解码层的标准化层，由所述标准化层基于说话人标准化参数对所述上一解码时刻的解码结果进行标准化，得到所述标准化层输出的上一解码时刻的标准化结果；所述说话人标准化参数是基于所述目标音色特征中的目标说话人特征确定的；

将所述文本特征和所述目标音色特征，以及所述上一解码时刻的标准化结果输入至所述解码层的当前解码层，得到所述当前解码层输出的当前解码时刻的解码结果；

所述合成结果即最终解码时刻的解码结果。

根据本发明提供的一种语音合成方法，所述语音合成模型是基于各第二语音及其第二韵律学特征和音色特征，与所述韵律学模型联合训练得到的；

联合训练的损失函数包括韵律学特征的损失值。

根据本发明提供的一种语音合成方法，所述语音合成模型的损失函数包括目标音色特征中目标说话人特征的损失值。

本发明还提供一种语音合成装置，包括：

韵律学提取单元，用于将初始语音输入至韵律学模型，得到所述韵律学模型输出的韵律学特征；

语音合成单元，用于将所述韵律学特征和目标音色特征输入至语音合成模型，得到所述语音合成模型输出的合成结果；

本发明还提供一种电子设备，包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现如上述任一种所述语音合成方法的步骤。

本发明还提供一种非暂态计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现如上述任一种所述语音合成方法的步骤。

本发明提供的语音合成方法、装置、电子设备和存储介质，通过相同第一韵律学特征和不同音色下的各第一语音训练韵律学模型，保证韵律学模型输出的韵律学特征与音色无关，由此进行语音合成，保证合成结果的音色能够更加贴合目标音色，提高了语音合成的可靠性和准确性；此外，韵律学模型是针对各语种通用的，因此无需再为各语种分别设置前端模块，极大降低了语音合成任务的实现难度，有助于语音合成应用的推广。

附图说明

为了更清楚地说明本发明或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明提供的语音合成方法的流程示意图；

图2是本发明提供的韵律学模型的训练方法的流程示意图；

图3是本发明提供的语音合成方法中步骤120的实施方式的流程示意图；

图4是本发明提供的文本编码层的训练结构示意图；

图5是本发明提供的语音合成方法中步骤122的实施方式的流程示意图；

图6是本发明提供的语音合成模型的结构示意图；

图7是本发明提供的语音合成装置的结构示意图；

图8是本发明提供的电子设备的结构示意图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面将结合本发明中的附图，对本发明中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

在多语种统一建模的语音合成任务中，需要花费大量人力物力对各个语种进行前端处理，尤其是部分小语种，类似于印地语、阿拉伯语，其前端模块极难获取，多语种语音合成任务的实现难度很大。对此，本发明实施例提供一种统一前端的语音合成方法，无需针对各个语种分别处理，极大减小了工作量。

图1是本发明提供的语音合成方法的流程示意图，如图1所示，该方法包括：

步骤110，将初始语音输入至韵律学模型，得到所述韵律学模型输出的韵律学特征；其中，韵律学模型是基于各第一语音训练得到的，各第一语音是基于相同的第一韵律学特征和不同的音色合成的。

具体地，初始语音即包含了期望合成的语音中文本信息的语音，初始语音可以是用户通过音频采集设备直接录制的，也可以是用户通过互联网或者其他途径下载得到的，本发明实施例对此不作具体限定。

韵律学特征反映的是对应语音在音律和音素层面的信息，例如可以是基于wav2vec得到的特征，或者基于vq-wav2vec得到的特征vqid等。韵律学特征的应用，为将语音信号转换成自然语言处理(Natural Language Processing，NLP)任务的输入提供了思路，相类似地，本发明实施例中可以应用初始语音的韵律学特征替代传统语音合成所需文本的在音律和音素层面的信息，从而通过针对各语种无区分的韵律学模型，替代语音合成所需的各语种分别对应的前端模块。

进一步地，韵律学模型用于提取输入语音的韵律学特征，其本身可以是在目前已有的模型结构例如wav2vec、vq-wav2vec的基础上得到的。此外，考虑到多语种场景下，韵律学模型的训练样本中针对单一语种的样本语音，尤其是小语种的样本语音，极有可能是来自少数几个说话人的。而单个语种的样本语音对应说话人的数量少，会直接导致训练所得的韵律学模型提取到的韵律学特征与对应说话人的音色严重耦合，由此合成的语音无论如何设置目标音色，合成语音的音色均会偏向训练时该语种对应说话人的音色。

针对这一情况，在步骤110执行之前，本发明实施例中对韵律学的训练样本进行了改进，在训练样本的选取上，选取基于相同的第一韵律学特征和不同的音色合成的各第一语音进行训练。此处的各第一语音，对应于相同的第一韵律学特征，即具有相同的读音，同时对应不同的音色，应用各第一语音及其对应的同个韵律学特征训练韵律学模型时，可以使得韵律学模型即便是在对应小语种的韵律学特征时，也能够学习到不同音色的第一语音与第一韵律学特征之间的映射关系，通过大量不同音色的第一语音对音色和韵律学特征进行解耦，从而使得训练所得的韵律学模型能够忽略输入语音中包含的音色信息，准确提取表征语音在音律和音素层面信息的韵律学特征。

进一步地，考虑到直接采集相同韵律学特征和不同音色的语音难度较大，可以在确定第一韵律学特征后，利用第一韵律学特征和各种不同的音色分别进行语音合成，此处第一韵律学特征本身不需要与说话人音色解耦，只要由此生成的第一语音本身能够反映不同说话人的音色即可。

步骤120，将韵律学特征和目标音色特征输入至语音合成模型，得到语音合成模型输出的合成结果；语音合成模型是基于各第二语音及其第二韵律学特征和音色特征训练得到的，第二韵律学特征是将对应第二语音输入韵律学模型得到的。

具体地，目标音色特征反映的是期望合成结果所具备的音色特征，考虑到不同的说话人具有不同的嗓音特色，而即便是同个说话人在说不同语种时其嗓音特色也会有所区别，目标音色特征可以包括目标说话人特征和/或目标语种特征，其中目标说话人特征即期望合成结果所具备的声纹特征，假设期望合成结果模拟的是说话人A的语音，则可以将说话人A的声纹特征作为目标说话人特征；目标语种特征即期望合成结果所应用语种的编码向量。

在得到初始语音的韵律学特征后，即可将韵律学特征以及目标音色特征输入至语音合成模型，由语音合成模型基于韵律学特征以及目标音色特征进行语音合成，并输出合成结果。此处所指的合成结果可以是合成语音，或者合成语音对应的语音声学特征。

在执行步骤120之前，还可以预先训练得到语音合成模型，语音合成模型的训练方法包括如下步骤：首先，收集大量第二语音，并通过声纹提取和/或语种识别获取第二语音的声纹特征和/或语种，从而标记第二语音的音色特征。随即，应用已经训练好的可以实现韵律学特征与音色解耦的韵律学模型，获取第二语音的第二韵律学特征。最后，基于各第二语音及其第二韵律学特征和音色特征训练语音合成模型。

在此过程中，由于训练语音合成模型所应用的第二语音的第二韵律学特征是基于韵律学特征与音色解耦的韵律学模型得到的，由此训练所得的语音合成模型输出合成结果的音色能够更加贴合目标音色，提高了语音合成的可靠性和准确性。

本发明实施例提供的方法，通过相同第一韵律学特征和不同音色下的各第一语音训练韵律学模型，保证韵律学模型输出的韵律学特征与音色无关，由此进行语音合成，保证合成结果的音色能够更加贴合目标音色，提高了语音合成的可靠性和准确性；此外，韵律学模型是针对各语种通用的，因此无需再为各语种分别设置前端模块，极大降低了语音合成任务的实现难度，有助于语音合成应用的推广。

基于上述实施例，图2是本发明提供的韵律学模型的训练方法的流程示意图，如图2所示，韵律学模型是基于如下步骤训练得到的：

步骤210，将样本语音输入至基线韵律学模型，得到基线韵律学模型输出的第一韵律学特征。

此处，样本语音即预先采集所得的语音，样本语音可以是任意说话人应用任意语种说话时录制的语音。基线韵律学模型可以是目前通用的韵律学模型，考虑到多语种语音合成的应用场景，基线韵律学模型所提取的韵律学特征与语种无关，相对应的基线韵律学模型在训练时，可以采用多个语种的语音构建训练样本集，例如可以应用中英法西德意等53个语种3000h的语音数据训练Vq-wav2vec作为基线韵律学模型。

在得到基线韵律学模型后，可以直接将样本语音输入至基线韵律学模型，得到基线韵律学模型输出的第一韵律学特征。此处的第一韵律学特征与说话人的音色耦合。

步骤220，将第一韵律学特征分别与不同的目标音色特征输入至基线语音合成模型，得到基线语音合成模型输出的对应不同音色的第一合成结果。

具体地，基线语音合成模型能够实现基于韵律学特征的语音合成，基线语音合成模型可以是基于tacotron模型或者其他类型的语音合成模型构建的，且为了适应不同的语音合成需求，基线语音合成模型以韵律学特征和目标音色特征作为输入，并输出对应韵律学特征和目标音色特征的合成结果。

在得到第一韵律学特征后，可以将第一韵律学特征分别与各种不同的目标音色特征相结合，并输入至基线语音合成模型中，从而得到基线语音合成模型输出的对应于第一韵律学特征和不同目标音色特征的第一合成结果，假设合成结果是语音声学特征，则可以在基线语音合成模型之后接入声码器，从而将第一合成结果转换为第一语音。由此实现具有相同韵律学特征和不同音色的第一语音的合成，以构建音色无关的韵律学模型的训练样本。

此处所应用的声码器可以是wavenet、waveglow或者lpcnet等，且考虑到多语种的应用场景，可以预先应用多个语种的语音训练声码器。作为优选，此处的声码器可以是wavenet。

步骤230，基于第一韵律学特征以及各第一合成结果对应的第一语音，训练基线韵律学模型，得到韵律学模型。

具体地，可以在基线韵律学模型的基础上，基于第一韵律学特征以及各第一合成结果对应的第一语音进行参数调整，从而得到音色无关的韵律学模型。

在此之后，还可以应用音色无关的韵律学模型，构建语音合成模型训练所需的样本集合，并在步骤220应用的基线语音合成模型的基础上进行优化训练，从而得到语音合成模型。

本发明实施例提供的方法，通过基线韵律学模型和基线语音合成模型的应用，实现了具有相同韵律学特征和不同音色的第一语音的合成，进而实现了音色无关的韵律学模型训练，有效降低了样本获取难度，提高了训练效率。

基于上述任一实施例，语音合成模型包括文本编码层和解码层；图3是本发明提供的语音合成方法中步骤120的实施方式的流程示意图，如图3所示，步骤120包括：

步骤121，将韵律学特征输入至语音合成模型的文本编码层，得到文本编码层输出的文本特征。

步骤122，将文本特征和目标音色特征输入至语音合成模型的解码层，得到解码层输出的合成结果。

具体地，文本编码层用于对输入的韵律学特征所反映的文本层面的信息进行特征编码，从而输出文本特征。解码层可以对文本特征以及目标音色特征进行融合后的特征进行解码，从而预测合成语音中各帧的声学特征，得到并输出合成结果。

多语种的语音合成场景下，语音合成模型的训练样本中针对单一语种的样本语音，尤其是小语种的样本语音，极有可能是来自少数几个说话人的。而单个语种的样本语音对应说话人的数量少，会直接导致训练所得的语音合成模型中文本编码层提取的文本特征与对应说话人相关联，由此合成的语音无论如何设置目标说话人，合成语音均会包含训练时该语种对应说话人的音色。

针对这一问题，基于上述任一实施例，图4是本发明提供的文本编码层的训练结构示意图，如图4所示，文本编码层是与说话人识别模型对抗训练得到的，说话人识别模型用于对对抗文本特征进行说话人识别，对抗文本特征是对文本编码层的输出进行梯度反转得到的。

具体地，文本编码层可以视为一个独立的模型与说话人识别模型进行对抗训练，对抗训练过程中，文本编码层的训练目标是对文本编码得到的文本特征与说话人信息去相关，尽量使得文本特征中不包含说话人信息，说话人识别模型的训练目标是尽量从文本特征中捕捉说话人信息以识别文本特征对应的说话人。

在文本编码层和说话人识别模型的对抗训练过程中，文本编码层和说话人识别模型相互博弈学习，从而在消除文本编码层输出的文本特征中与说话人相关的信息的同时，提高说话人识别模型对于文本特征中与说话人相关的信息的捕捉能力和辨别能力。具体可以将样本文本输入至文本编码层中，由文本编码层输出样本文本的文本特征，再将样本文本的文本编码进行梯度反转(Gradient Reversal Layer，GRL)，将梯度反转后的文本特征输入说话人识别模型进行说话人识别，此处的梯度反转可以起到使其前后连接的文本编码层和说话人识别模型训练目标相反的目的，最终使得说话人识别模型无法识别文本编码层提取的文本特征对应的说话人，以达到对抗的效果。对抗训练所得的文本编码层所提取的文本特征能够与说话人信息去相关，从而避免后续部分合成的语音中携带训练时该语种对应说话人的音色。

此外，一般来说不同语种之间韵律、发音风格均有明显区别，使用目标音色特征中的目标语种特征进行切换完全可行。但是由于不同说话人之间，尤其是同性别之间的音色区分程度往往不是很明显，此时仅仅通过目标说话人标识进行切换，音色转换效果不是很好。针对这个问题，目前的改进方式是将声纹识别所得的声纹特征，例如xvector作为目标说话人特征，在单语种的语音数据中，xvector能够较好的提取到说话人信息，但是在跨语种任务里，例如中国人说中文和说英文，音色往往有着较大区别，x-vector往往无法提取到这种信息。

针对这一问题，基于上述任一实施例，解码层包括标准化层和当前解码层；图5是本发明提供的语音合成方法中步骤122的实施方式的流程示意图，如图5所示，步骤122包括：

步骤1221，将上一解码时刻的解码结果输入至解码层的标准化层，由标准化层基于说话人标准化参数对上一解码时刻的解码结果进行标准化，得到标准化层输出的上一解码时刻的标准化结果；说话人标准化参数是基于目标音色特征中的目标说话人特征确定的。

步骤1222，将文本特征和目标音色特征，以及上一解码时刻的标准化结果输入至解码层的当前解码层，得到当前解码层输出的当前解码时刻的解码结果；合成结果即最终解码时刻的解码结果。

具体地，可以在语音合成模型的训练过程中，学习目标说话人特征与解码层进行标准化时应用的标准化参数之间的映射关系，从而在语音合成阶段，基于输入的目标说话人特征，以及语音合成模型预先学习所得的映射关系，确定目标说话人特征对应的标准化参数，即说话人标准化参数。

在解码过程中，标准化层可以应用说话人标准化参数，对上一解码时刻输出的解码结果进行标准化，并输出标准化后的解码结果，即上一解码时刻的标准化结果。通过说话人标准化参数对上一解码时刻的解码结果进行标准化，使得标准化所得的上一解码时刻的标准化结果中携带有更加符合当前解码场景的说话人信息。此处的标准化层可以是通过LayerNorm实现的。

在此基础上，当前解码层可以基于输入的文本特征和目标音色特征，以及标准化层输出的上一解码时刻的标准化结果，执行当前解码时刻的解码操作，从而输出当前解码时刻的解码结果。此处，当前解码时刻的解码结果是当前解码时刻解码得到的语音帧对应的声学特征与上一解码时刻对应的解码结果拼接后的声学特征频谱。

在进行当前解码时刻的解码操作过程中，当前解码层不仅应用了直接输入的目标音色特征中的目标说话人特征，还结合了上一解码时刻的标准化结果中携带的更加符合当前解码场景的说话人信息，由此得到的解码结果能够更加准确地反映目标说话人在应用目标语种说话时的音色。

基于上述任一实施例，步骤1221中，说话人标准化参数的获取方法可以包括：将目标说话人特征speaker emebed分别通过两个训练好的全连接层，从而生成两个[bsz,1]的参数，其中bsz表示的是当前批次下的音频的数目。考虑到后续计算的对齐，可以将上述两个参数维度中间再扩充一维，之后将这两个参数加在初始化的标准化参数layerNorm中，以便于后续应用。此外，在应用过程中，即标准化的均值方差计算时，需要保持维度一致性。

基于上述任一实施例，语音合成模型是基于各第二语音及其第二韵律学特征和音色特征，与韵律学模型联合训练得到的；联合训练的损失函数包括韵律学特征的损失值。

具体地，为了进一步保证韵律学模型输出的韵律学特征与音色无关，可以将韵律学模型与语音合成模型进行联合训练。在联合训练的过程中，考虑到输入语音合成模型的韵律学特征应当与音色完全解耦，而语音合成模型输出的合成结果应当携带目标音色特征所指示的音色，可以将语音合成模型输出的合成结果输入到韵律学模型中，获取合成结果对应的韵律学特征作为合成韵律学特征，将合成韵律学特征与输入语音合成模型的韵律学特征之间的差距作为韵律学特征的损失值，纳入韵律学模型与语音合成模型联合训练所用的损失函数。

进一步地，合成韵律学特征与输入语音合成模型的韵律学特征之间的差距越小，韵律学特征的损失值就越小，相应的联合训练所用的损失函数值越小，韵律学模型本身与音色解耦的能力越强。

基于上述任一实施例，语音合成模型的损失函数包括目标音色特征中目标说话人特征的损失值。

具体地，为了保证语音合成过程中音色迁移的准确性，使得语音合成模型输出的合成结果能够反映出目标说话人的自身音色，可以将目标说话人特征的损失值纳入语音合成模型训练所用的损失函数。此处，目标说话人特征的损失值可以是训练过程中语音合成模型输出的合成结果的说话人特征与目标说话人特征之间的差距。具体可以表示为合成结果的说话人特征与目标说话人特征之间的相似度，相似度的衡量方式可以是余弦相似度、欧氏距离相似度等。

基于上述任一实施例，韵律学模型与语音合成模型联合训练的情况下，语音合成模型的损失函数可以是如下形式：

Loss＝t+cosi(e_i,s_i)+MSE(vqid_i,vqid_p)

式中，t表示合成结果的损失值，反映合成结果与第二语音之间的差异；cosi(e_i,s_i)表示目标说话人特征的损失值，具体是e_i和s_i之间的余弦相似度，e_i表示预测合成结果的说话人特征，s_i为目标说话人特征；MSE(vqid_t,vqid_p)表示韵律学特征的损失值，基于均方误差(Mean Square Error，MSE)损失函数计算得到，vqid_i是输入语音合成模型的韵律学特征，vqid_p是将合成结果输入韵律学模型得到的韵律学特征。

基于上述任一实施例，一种语音合成方法，包括如下步骤：

首先，确定初始语音，并将初始语音输入到以vq-wav2vec为基础构建的韵律学模型中，得到与音色无关的韵律学特征。此处的韵律学模型是基于相同韵律学特征和不同音色的第一语音训练得到的，训练过程中，韵律学模型通过大量不同音色的第一语音对音色和韵律学特征进行解耦，从而使得训练完成的韵律学模型能够忽略输入语音中包含的音色信息，准确提取表征语音在音律和音素层面信息的韵律学特征。

随即，将韵律学特征和目标音色特征输入到语音合成模型进行语音合成。此处的语音合成模型是基于tacotron模型构建的，且目标音色特征包括目标说话人特征和目标语种特征两类。

图6是本发明提供的语音合成模型的结构示意图，如图6所示，图6中实线示出的是语音合成模型预测过程中应用的模块，包括文本编码层和解码层。虚线示出的是仅在训练过程中应用的模块，包括梯度反转和说话人识别模型，以及损失函数中计入的合成结果损失值、说话人特征损失值和韵律学特征损失值。

考虑到多语种的语音合成场景下，训练样本中单个语种的样本语音对应说话人的数量少，会直接导致训练所得的语音合成模型中文本编码层提取的文本特征与对应说话人相关联，在文本编码层的训练阶段，引入梯度反转和说话人识别模型，实现文本编码层和说话人识别模型的对抗训练，使得对抗训练所得的文本编码层所提取的文本特征能够与说话人信息去相关，从而避免后续部分合成的语音中携带训练时该语种对应说话人的音色。

此外，在解码层，应用目标说话人特征确定说话人标准化参数，从而将说话人标准化参数应用到解码过程中每次输入的上一解码时刻的解码结果的标准化LayerNorm，使得上一解码时刻的标准化结果中携带有更加符合当前解码场景的说话人信息，从而保证最终所得的合成结果能够更加准确地反映目标说话人在应用目标语种说话时的音色。

另外，在模型训练过程中，说话人特征损失值的应用，能够保证语音合成过程中音色迁移的准确性，使得语音合成模型输出的合成结果能够反映出目标说话人的自身音色；韵律学特征损失值的应用，能够进一步增强联合训练时韵律学模型本身与音色解耦的能力。

下面对本发明提供的语音合成装置进行描述，下文描述的语音合成装置与上文描述的语音合成方法可相互对应参照。

图7是本发明提供的语音合成装置的结构示意图，如图7所示，该装置包括：

韵律学提取单元710用于将初始语音输入至韵律学模型，得到所述韵律学模型输出的韵律学特征；

语音合成单元720用于将所述韵律学特征和目标音色特征输入至语音合成模型，得到所述语音合成模型输出的合成结果；

本发明实施例提供的装置，通过相同第一韵律学特征和不同音色下的各第一语音训练韵律学模型，保证韵律学模型输出的韵律学特征与音色无关，由此进行语音合成，保证合成结果的音色能够更加贴合目标音色，提高了语音合成的可靠性和准确性；此外，韵律学模型是针对各语种通用的，因此无需再为各语种分别设置前端模块，极大降低了语音合成任务的实现难度，有助于语音合成应用的推广。

基于上述任一实施例，该装置还包括韵律学模型训练单元，用于：

基于上述任一实施例，所述语音合成单元720包括：

编码子单元，用于将所述韵律学特征输入至所述语音合成模型的文本编码层，得到所述文本编码层输出的文本特征；

解码子单元，用于将所述文本特征和所述目标音色特征输入至所述语音合成模型的解码层，得到所述解码层输出的合成结果。

基于上述任一实施例，所述文本编码层是与说话人识别模型对抗训练得到的，所述说话人识别模型用于对对抗文本特征进行说话人识别，所述对抗文本特征是对所述文本编码层的输出进行梯度反转得到的。

基于上述任一实施例，解码子单元包括：

所述合成结果即最终解码时刻的解码结果。

基于上述任一实施例，所述语音合成模型是基于各第二语音及其第二韵律学特征和音色特征，与所述韵律学模型联合训练得到的；

联合训练的损失函数包括韵律学特征的损失值。

基于上述任一实施例，所述语音合成模型的损失函数包括目标音色特征中目标说话人特征的损失值。

图8示例了一种电子设备的实体结构示意图，如图8所示，该电子设备可以包括：处理器(processor)810、通信接口(Communications Interface)820、存储器(memory)830和通信总线840，其中，处理器810，通信接口820，存储器830通过通信总线840完成相互间的通信。处理器810可以调用存储器830中的逻辑指令，以执行语音合成方法，该方法包括：将初始语音输入至韵律学模型，得到所述韵律学模型输出的韵律学特征；将所述韵律学特征和目标音色特征输入至语音合成模型，得到所述语音合成模型输出的合成结果；其中，所述韵律学模型是基于各第一语音训练得到的，所述各第一语音是基于相同的第一韵律学特征和不同的音色合成的；所述语音合成模型是基于各第二语音及其第二韵律学特征和音色特征训练得到的，所述第二韵律学特征是将对应第二语音输入所述韵律学模型得到的。

此外，上述的存储器830中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

另一方面，本发明还提供一种计算机程序产品，所述计算机程序产品包括存储在非暂态计算机可读存储介质上的计算机程序，所述计算机程序包括程序指令，当所述程序指令被计算机执行时，计算机能够执行上述各方法所提供的语音合成方法，该方法包括：将初始语音输入至韵律学模型，得到所述韵律学模型输出的韵律学特征；将所述韵律学特征和目标音色特征输入至语音合成模型，得到所述语音合成模型输出的合成结果；其中，所述韵律学模型是基于各第一语音训练得到的，所述各第一语音是基于相同的第一韵律学特征和不同的音色合成的；所述语音合成模型是基于各第二语音及其第二韵律学特征和音色特征训练得到的，所述第二韵律学特征是将对应第二语音输入所述韵律学模型得到的。

又一方面，本发明还提供一种非暂态计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现以执行上述各提供的语音合成方法，该方法包括：将初始语音输入至韵律学模型，得到所述韵律学模型输出的韵律学特征；将所述韵律学特征和目标音色特征输入至语音合成模型，得到所述语音合成模型输出的合成结果；其中，所述韵律学模型是基于各第一语音训练得到的，所述各第一语音是基于相同的第一韵律学特征和不同的音色合成的；所述语音合成模型是基于各第二语音及其第二韵律学特征和音色特征训练得到的，所述第二韵律学特征是将对应第二语音输入所述韵律学模型得到的。

以上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下，即可以理解并实施。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件。基于这样的理解，上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在计算机可读存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。

最后应说明的是：以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种语音合成方法，其特征在于，包括：

将初始语音输入至韵律学模型，得到所述韵律学模型输出的韵律学特征，所述韵律学特征与音色无关，所述韵律学特征反映语音在音律和音素层面的信息；

其中，所述韵律学模型是基于各第一语音训练得到的，所述各第一语音是基于相同的第一韵律学特征和不同的音色合成的，所述各第一语音具有相同的读音，同时对应不同的音色，所述韵律学模型在训练中学习到不同音色的第一语音与第一韵律学特征之间的映射关系，通过所述第一语音对音色和韵律学特征进行解耦，所述韵律学模型能够忽略输入语音中包含的音色信息；所述语音合成模型是基于各第二语音及其第二韵律学特征和音色特征训练得到的，所述第二韵律学特征是将对应第二语音输入所述韵律学模型得到的。

2.根据权利要求1所述的语音合成方法，其特征在于，所述韵律学模型是基于如下步骤训练得到的：

3.根据权利要求1所述的语音合成方法，其特征在于，所述将所述韵律学特征输入至语音合成模型，得到所述语音合成模型输出的合成结果，包括：

4.根据权利要求3所述的语音合成方法，其特征在于，所述文本编码层是与说话人识别模型对抗训练得到的，所述说话人识别模型用于对对抗文本特征进行说话人识别，所述对抗文本特征是对所述文本编码层的输出进行梯度反转得到的。

5.根据权利要求3所述的语音合成方法，其特征在于，所述将所述文本特征和所述目标音色特征输入至所述语音合成模型的解码层，得到所述解码层输出的合成结果，包括：

所述合成结果即最终解码时刻的解码结果。

6.根据权利要求1至5中任一项所述的语音合成方法，其特征在于，所述语音合成模型是基于各第二语音及其第二韵律学特征和音色特征，与所述韵律学模型联合训练得到的；

联合训练的损失函数包括韵律学特征的损失值。

7.根据权利要求1至5中任一项所述的语音合成方法，其特征在于，所述语音合成模型的损失函数包括目标音色特征中目标说话人特征的损失值。

8.一种语音合成装置，其特征在于，包括：

韵律学提取单元，用于将初始语音输入至韵律学模型，得到所述韵律学模型输出的韵律学特征，所述韵律学特征与音色无关，所述韵律学特征反映语音在音律和音素层面的信息；

9.一种电子设备，包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现如权利要求1至7任一项所述语音合成方法的步骤。

10.一种非暂态计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1至7任一项所述语音合成方法的步骤。