CN113808571B

CN113808571B - 语音合成方法、装置、电子设备以及存储介质

Info

Publication number: CN113808571B
Application number: CN202110944989.1A
Authority: CN
Inventors: 张君腾; 吴建民; 孙涛; 贾磊
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Priority date: 2021-08-17
Filing date: 2021-08-17
Publication date: 2022-05-27
Anticipated expiration: 2041-08-17
Also published as: KR102619408B1; CN113808571A; JP2022133392A; KR20220083987A; US20220375453A1

Abstract

本公开提供了语音合成方法、装置、电子设备以及存储介质，涉及计算机技术领域，尤其涉及深度学习、语音技术等人工智能技术领域。具体实现方案为：获取待合成的目标文本，以及说话者的标识；获取所述目标文本中至少一个字符的发音信息；根据所述目标文本所属的目标语言，对所述目标文本中所述至少一个字符的所述发音信息进行特征提取，以生成所述目标文本的语言学特征；根据所述目标文本的语言学特征和所述说话者的标识，进行语音合成，以得到目标语音。由此，使得对于一种语言下的说话者，能够实现多种语言下文本的语音合成。

Description

语音合成方法、装置、电子设备以及存储介质

技术领域

本公开涉及计算机技术领域，特别涉及深度学习、语音技术等人工智能技术领域，尤其涉及语音合成方法、装置、电子设备以及存储介质。

背景技术

语音合成技术，是将文本信息转变为可懂的、自然的、拟人的语音信息的技术，广泛应用于新闻播报、车载导航、智能音箱等领域。

随着语音合成技术的应用场景的不断增加，对多语言语音合成的需求越来越大。然而，由于通常一个说话人只会讲一种语言，单人多语言语料的获取难度大，因此相关技术中的语音合成技术通常仅支持单人单语言的语音合成。如何实现单人多语言的语音合成，对于扩大语音合成的应用场景具有重要意义。

发明内容

本公开提供了一种语音合成方法、装置、电子设备以及存储介质。

根据本公开的一方面，提供了一种语音合成方法，包括：获取待合成的目标文本，以及说话者的标识；获取所述目标文本中至少一个字符的发音信息；根据所述目标文本所属的目标语言，对所述目标文本中所述至少一个字符的所述发音信息进行特征提取，以生成所述目标文本的语言学特征；根据所述目标文本的语言学特征和所述说话者的标识，进行语音合成，以得到目标语音。

根据本公开的另一方面，提供了一种语音合成装置，包括：第一获取模块，用于获取待合成的目标文本，以及说话者的标识；第二获取模块，用于获取所述目标文本中至少一个字符的发音信息；提取模块，用于根据所述目标文本所属的目标语言，对所述目标文本中所述至少一个字符的所述发音信息进行特征提取，以生成所述目标文本的语言学特征；合成模块，用于根据所述目标文本的语言学特征和所述说话者的标识，进行语音合成，以得到目标语音。

根据本公开的另一方面，提供了一种电子设备，包括：至少一个处理器；以及与所述至少一个处理器通信连接的存储器；其中，所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行如上所述的语音合成方法。

根据本公开的另一方面，提供了一种存储有计算机指令的非瞬时计算机可读存储介质，所述计算机指令用于使所述计算机执行如上所述的语音合成方法。

根据本公开的另一方面，提供了一种计算机程序产品，包括计算机程序，所述计算机程序被处理器执行时实现如上所述的语音合成方法的步骤。

应当理解，本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征，也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。

附图说明

附图用于更好地理解本方案，不构成对本公开的限定。其中：

图1是根据本公开第一实施例的语音合成方法的流程示意图；

图2是根据本公开第二实施例的语音合成方法的流程示意图；

图3是根据本公开第二实施例的日语文本的各调型的示例图；

图4是根据本公开第二实施例的目标文本中各字符的发音信息及各分词词汇对应的韵律示例图；

图5是根据本公开第二实施例的语言学特征中对应的特征项的示例图；

图6是根据本公开第三实施例的语音合成方法的流程示意图；

图7是根据本公开第三实施例的语音合成模型的结构示意图；

图8是根据本公开第三实施例的训练模型和风格网络的结构示意图；

图9是根据本公开第四实施例的语音合成装置的结构示意图；

图10是根据本公开第五实施例的语音合成装置的结构示意图；

图11是用来实现本公开实施例的语音合成方法的电子设备的框图。

具体实施方式

以下结合附图对本公开的示范性实施例做出说明，其中包括本公开实施例的各种细节以助于理解，应当将它们认为仅仅是示范性的。因此，本领域普通技术人员应当认识到，可以对这里描述的实施例做出各种改变和修改，而不会背离本公开的范围和精神。同样，为了清楚和简明，以下的描述中省略了对公知功能和结构的描述。

需要说明的是，本公开的技术方案中，所涉及的用户个人信息的获取，存储和应用等，均符合相关法律法规的规定，且不违背公序良俗。

本公开提出一种能够实现单人多语言的语音合成的方法，该方法中，首先获取待合成的目标文本，以及说话者的标识，再获取目标文本中至少一个字符的发音信息，根据目标文本所属的目标语言，对目标文本中至少一个字符的发音信息进行特征提取，以生成目标文本的语言学特征，进而根据目标文本的语言学特征和说话者的标识，进行语音合成，以得到目标语音，由此，通过根据待合成的目标文本的语言学特征和说话者的标识进行语言合成，使得对于一种语言下的说话者，能够实现多种语言下文本的语音合成。

下面参考附图描述本公开实施例的语音合成方法、装置、电子设备、非瞬时计算机可读存储介质以及计算机程序产品。

首先结合图1，对本公开提供的语音合成方法进行详细描述。

图1是根据本公开第一实施例的语音合成方法的流程示意图。其中，需要说明的是，本公开实施例提供的语音合成方法，执行主体为语音合成装置。该语音合成装置具体可以为电子设备，或者电子设备中配置的软件等，以对于一种语言下的说话者，能够实现多种语言下文本的语音合成。本公开实施例以语音合成装置被配置在电子设备中为例进行说明。

其中，电子设备，可以是任意能够进行数据处理的静止或者移动计算设备，例如笔记本电脑、智能手机、可穿戴设备等移动计算设备，或者台式计算机等静止的计算设备，或者服务器，或者其它类型的计算设备等，本公开对此不作限制。

如图1所示，语音合成方法，可以包括以下步骤：

步骤101，获取待合成的目标文本，以及说话者的标识。

其中，在本公开实施例中，待合成的文本可以为任意语言下的任意文本。其中，语言例如为汉语、英语、日语等。文本例如为新闻文本、娱乐文本、聊天文本等。需要说明的是，待合成的目标文本，可以为一种语言下的文本，也可以为多种语言下的文本，本公开对此不作限制。

其中，说话者的标识，用于唯一标识说话者。其中，说话者，指的是根据目标文本合成的目标语音的所属说话者。例如，若要根据待合成的目标文本合成得到说话者A的语音，则说话者为说话者A；若要根据待合成的目标文本合成得到说话者B的语音，则说话者为说话者B。

需要说明的是，本公开实施例中的语音合成装置可以通过各种公开、合法合规的方式获取待合成的目标文本。例如语音合成装置可以在经过聊天文本所属的聊天用户授权后，获取聊天用户的聊天文本作为待合成的目标文本。

步骤102，获取目标文本中至少一个字符的发音信息。

其中，发音信息，可以包括音素、音节、词、声调、重音、儿化音等信息。其中，音素是根据语音的自然属性划分出来的最小语音单位；音节是由音素组合发音的语音单位；声调，表示声音的高低，比如对于汉语，声调可以包括一声、二声、三声、四声、轻声，对于日语，声调可以包括高音和低音；重音，表示重音强度，能够体现说话人着重强调的逻辑重点或感情重点，比如对于英语，重音可以包括无重音至强重音的三级重音强度；儿化音为汉语中个别字的韵母因卷舌动作而发生的音变现象，其特点是在韵母后面加上r。具体的，可根据目标文本所属的目标语言，查询得到目标文本中包含的至少一个字符的发音信息。

以汉语文本“他们呐都非常喜欢打猎”为例，可以获取汉语文本中各字符的发音信息，其中，各字符的发音信息可以包括“ta1 men5 ne5 dou1 fei1 chang2 xi3 huan1 da3lie4”。其中，“t”、“a”、“m”、“en”、“n”、“e”等为音素；“ta”、“men”、“ne”、“dou”等为音节，音节之间通过空格间隔开；数字表示中文声调，其中，“1”表示一声、“2”表示二声、“3”表示三声、“4”表示四声、“5”表示轻声。

步骤103，根据目标文本所属的目标语言，对目标文本中至少一个字符的发音信息进行特征提取，以生成目标文本的语言学特征。

其中，语言学特征，为能够表征目标文本的音调变化、韵律等的特征。

由于不同语言下的文本具有不同的音调变化、韵律等特点，因此，本公开实施例中，可以根据目标文本所属的目标语言，对目标文本中至少一个字符的发音信息进行特征提取，以生成目标文本的语言学特征，具体的特征提取方法将在下述实施例中进行说明，此处不作赘述。

步骤104，根据目标文本的语言学特征和说话者的标识，进行语音合成，以得到目标语音。

在示例性实施例中，可以预先训练得到语音合成模型，语音合成模型的输入为文本的语言学特征和说话者的标识，输出为合成后的语音，从而可以将目标文本的语言学特征和说话者的标识输入训练好的语音合成模型，进行语音合成，得到目标语音。

由于对于任意语言下的目标文本，均能根据目标文本所属的目标语言，对目标文本中至少一个字符的发音信息进行特征提取，生成目标文本的语言学特征，进而根据目标文本的语言学特征和说话者的标识，进行语音合成，以得到目标语音，从而对于一种语言下的说话者，能够实现多种语言下文本的语音合成。比如，对于讲汉语的说话者A，可以根据说话者A的标识和英语的目标文本的语言学特征，进行语音合成，得到说话者A以英语讲述目标文本的目标语音，或者，也可以根据说话者A的标识和日语的目标文本的语言学特征，进行语音合成，得到说话者A以日语讲述目标文本的目标语音。

本公开实施例提供的语音合成方法，首先获取待合成的目标文本，以及说话者的标识，再获取目标文本中至少一个字符的发音信息，根据目标文本所属的目标语言，对目标文本中至少一个字符的发音信息进行特征提取，以生成目标文本的语言学特征，进而根据目标文本的语言学特征和说话者的标识，进行语音合成，以得到目标语音，由此，通过根据待合成的目标文本的语言学特征和说话者的标识进行语言合成，使得对于一种语言下的说话者，能够实现多种语言下文本的语音合成。

通过上述分析可知，本公开实施例中，可以根据目标文本所属的目标语言，对目标文本中至少一个字符的发音信息进行特征提取，以生成目标文本的语言学特征，进而根据目标文本的语言学特征和说话者的标识，进行语音合成，下面结合图2，对本公开提供的语音合成方法中，生成目标文本的语言学特征的过程进一步说明。

图2是根据本公开第二实施例的语音合成方法的流程示意图。如图2所示，语音合成方法，可以包括以下步骤：

步骤201，获取待合成的目标文本，以及说话者的标识。

其中，步骤201的具体实现过程及原理，可以参考上述实施例的描述，此处不再赘述。

步骤202，获取目标文本中至少一个字符的发音信息。

步骤203，根据目标文本中至少一个字符的发音信息，确定至少一个字符包含的音素，以及音素组合得到的音节或词所对应的音调。

其中，发音信息，可以包括音素、音节、词、声调、重音、儿化音等信息，从而可以根据目标文本中至少一个字符的发音信息，确定至少一个字符包含的音素，以及各音素组合得到的音节或词所对应的音调。其中，对目标文本中至少一个字符，可以根据字符的发音信息中的声调、重音和儿化音中的一个或多个组合，确定各音素组合得到的音节或词所对应的音调，提高确定的各音调的准确性。

在示例性实施例中，对于汉语文本，可以根据至少一个字符的发音信息，确定至少一个字符包含的音素，根据至少一个字符的发音信息中的声调、儿化音中的一个或两个的组合，确定各音素组合得到的音节所对应的音调。

对于日语文本，可以根据至少一个字符的发音信息，确定至少一个字符包含的音素，根据至少一个字符的发音信息中的声调，确定各音素组合得到的音节或词所对应的音调。

对于英语文本，可以根据至少一个字符的发音信息，确定至少一个字符包含的音素，根据至少一个字符的发音信息中的重音，确定各音素组合得到的音节或词所对应的音调。

以汉语文本“他们呐都非常喜欢打猎”为例，可以获取汉语文本中各字符的发音信息。其中，各字符的发音信息可以包括“ta1 men5 ne5 dou1 fei1 chang2 xi3 huan1 da3lie4”。其中，“t”、“a”、“m”、“en”、“n”、“e”等为音素；“ta”、“men”、“ne”、“dou”等为音节，音节之间通过空格间隔开；数字表示中文声调，其中，“1”表示一声、“2”表示二声、“3”表示三声、“4”表示四声、“5”表示轻声。

根据上述汉语文本中包含的各字符的发音信息，可以确定各字符包含的“t”、“a”、“m”、“en”、“n”、“e”等音素，以及音节“ta”对应的声调“一声”、音节“men”对应的声调“轻声”、音节“ne”对应的声调“轻声”、音节“dou”对应的声调“一声”、音节“fei”对应的声调“一声”、音节“chang”对应的声调“二声”，音节“xi”对应的声调“三声”、音节“huan”对应的声调“一声”、音节“da”对应的声调“三声”、音节“lie”对应的声调“四声”，并将各音节对应的声调作为各音节对应的音调。

步骤204，根据目标文本所属的目标语言类型，对音素添加后缀，以及确定音调的音调编码。

可以理解的是，不同语言类型下的文本中，至少一个字符包含的音素可能存在重叠的情况，比如对于汉语文本和英语文本，都存在音素“sh”，本公开实施例中，为了对不同语言类型下的各音素进行区分，避免不同语言类型的各音素混叠，可以对各音素添加后缀。

在示例性实施例中，对于不同的目标语言类型，可以添加不同的后缀。比如，对于汉语，可以不对各音素添加后缀，从而对于比如音素“t”、“a”、“m”、“en”，添加后缀前后各音素保持不变；对于日语，可以对各音素添加后缀“j”，从而对于比如音素“yo”、“i”、“yu”，添加后缀后的各音素为“yoj”、“ij”、“yuj”；对于英语，可以对各音素添加后缀“l”，从而对于比如音素“sh”、“iy”、“hh”、“ae”，添加后缀后的各音素为“shl”、“iyl”、“hhl”、“ael”。

在示例性实施例中，音调的音调编码方式，可以根据需要确定。

比如，对于汉语文本，可以将声调“一声”、“二声”、“三声”、“四声”、“轻声”分别编码为1、2、3、4、5，将儿化音编码为1，非儿化音编码为0；对于日语文本，可以将高音编码为1，将低音编码为0；对于英语文本，可以将无重音、中等重音、强重音这三级重音强度分别编码为0、1、2。从而可以根据目标文本所属的目标语言类型，按照各语言类型下各音调的音调编码方式，确定各音调的音调编码。

参考图3，日语文本的调型包括多种调型，其中图3仅以0型-4型为例进行示意。其中，图3中的小写英文字母表示音节，大写英文字母“L”表示低音，大写英文字母“H”表示高音。如图3所示，对于0型，第一个音节为低音，后续一直为高音；对于1型，第一个音节为高音，后续一直为低音；对于2型，第一个音节为低音，第二个音节为高音，后续一直为低音；对于3型，第一个音节为低音，第二到第三音节为高音，后续一直为低音；对于4型，第一个音节为低音，第二到第四音节为高音，后续一直为低音；其他调型顺次类推。对于图3所示的各种调型的日语文本，均可以将高音编码为1，低音编码为0。

步骤205，根据添加后缀后的音素和音调编码，以及音素在所属音节中的位置和/或音节在所属词中的位置，生成语言学特征中对应的特征项。

在示例性实施例中，对于汉语文本，可以将添加后缀后的各音素和各音调编码，以及各音素在所属音节中的位置，作为语言学特征中对应的特征项；对于日语文本和英语文本，可以将添加后缀后的各音素和各音调编码，以及各音素在所属音节中的位置和各音节在所属词中的位置，作为语言学特征中对应的特征项。其中，语言学特征中各特征项可以表征目标文本中至少一个字符的发音特征。

通过根据目标文本中至少一个字符的发音信息，确定至少一个字符包含的音素以及音素组合得到的音节或词所对应的音调，根据目标文本所属的目标语言类型对音素添加后缀以及确定音调的音调编码，根据添加后缀后的音素和音调编码，以及音素在所属音节中的位置和/或音节在所属词中的位置，生成语言学特征中对应的特征项，实现了从目标文本中至少一个字符的发音信息中提取得到表征目标文本中至少一个字符的发音特征的各特征，为后续生成语言学特征以及基于语言学特征进行语音合成奠定了基础。

在示例性实施例中，语言学特征中的特征项，还可以包括目标文本中各分词词汇对应的韵律，其中，韵律体现各分词词汇的停顿时长。相应的，上述步骤202之后，还可以包括：

根据目标文本所属的目标语言，对目标文本分词，并确定各分词词汇对应的韵律；根据各分词词汇对应的韵律，生成语言学特征中对应的特征项。

在示例性实施例中，可以通过预先训练的韵律预测模型，确定各分词词汇对应的韵律。其中，韵律预测模型的输入为说话者的标识和目标文本，输出为目标文本的各分词词汇对应的韵律。韵律预测模型的结构和利用韵律预测模型确定各分词词汇对应的韵律的过程，可以参考相关技术，此处不作赘述。

在示例性实施例中，对于汉语文本，可以将韵律分为四级，每一级表示停顿长度，分别用#1、#2、#3、#4表示。其中，韵律词内部为0；#1表示韵律词边界，基本无停顿；#2表示韵律短语边界，可感知的小停顿；#3表示语调短语边界，可感知的大停顿；#4表示句子末尾。对于日语文本，与汉语类似，可以将韵律分为4级。对于英语文本，可以将韵律分为4级，每一级表示停顿长度，分别用“-”、“”、“/”、“％”表示。其中，“-”表示连读；“”表示单词边界，基本无停顿；“/”表示韵律短语边界，小停顿；“％”表示语调短语边界或句子末尾，大停顿。

参考图4，对于汉语的目标文本、日语的目标文本和英语的目标文本，可以分别获取图4所示的目标文本中各分词词汇对应的韵律，以及各字符的发音信息。其中，图4中“#1”、“#2”、“#3”、“#4”分别表示汉语文本和日语文本中各分词词汇对应的韵律等级；“-”、“”、“/”、“％”表示英语文本中各分词词汇对应的韵律等级。图4所示的对于汉语目标文本中各字符的发音信息中，音节之间通过空格间隔开，0-5的各数字分别表示中文声调；对于日语目标文本中各字符的发音信息中，音素之间通过空格间隔开，音节之间通过“.”间隔开，词之间通过“/”间隔开，0、1数字分别表示日语声调，“:”表示长音(日语的长音会将母音拉长为2个音节，因此对长音进行标记，并作为独立的日语音素)；对于英语目标文本中各字符的发音信息中，音素之间通过空格间隔开，音节之间通过“.”间隔开，词之间通过“/”间隔开，0、1、2数字分别表示英语重音。

进一步的，根据目标文本中各字符的发音信息，可以确定各字符包含的音素、各音素在所属音节中的位置和/或各音节在所属词中的位置以及各音素组合得到的音节或词所对应的音调，并根据目标文本所属的目标语言类型，对各音素添加后缀，比如对于日语文本的各字符包含的音素添加后缀“j”，对于英语文本的各字符包含的音素添加后缀“l”，以及确定各音调的音调编码，即图4中的各个数字。另外，可以确定目标文本各分词词汇对应的韵律，即图4中的“#1”、“#4”等。进而可以根据添加后缀后的各音素和各音调编码、各音素在所属音节中的位置、各音节在所属词中的位置，以及各分词词汇对应的韵律，生成语言学特征中对应的特征项。由此，使得生成的语言学特征中对应的特征项更丰富，进而使后续基于语言学特征进行语音合成时的合成效果更好。

在示例性实施例中，生成的语言学特征中对应的特征项可以如图5所示。其中，对于英语重音特征项，在目标文本为英语时，该特征项可以为0-2，在目标文本为汉语或日语时，该特征项可以为0。对于儿化音特征项，在目标文本为汉语时，该特征项可以为0或1(儿化音为1，非儿化音为0)，在目标文本为英语或日语时，该特征项可以为0。对于音节在所属词中的位置这一特征项，在目标文本为汉语时，该特征项可以为0。

在示例性实施例中，生成语言学特征中对应的特征项后，可以对各特征项进行例如onehot编码，从而生成目标文本的语言学特征。其中，以添加后缀后的各音素为例，可以将独立的添加后缀后的各音素加入音素列表，根据音素列表得到各音素的位置索引，从而根据位置索引将添加后缀后的各音素转换为onehot编码。具体进行onehot编码的过程可以参考相关技术，此处不再赘述。

步骤206，根据目标文本的语言学特征和说话者的标识，进行语音合成，以得到目标语音。

本公开实施例的语音合成方法，获取待合成的目标文本，以及说话者的标识，对目标文本中包含的至少一个字符，获取至少一个字符的发音信息，根据目标文本中至少一个字符的发音信息，确定至少一个字符包含的音素，以及音素组合得到的音节或字所对应的音调，根据目标文本所属的目标语言类型，对音素添加后缀，以及确定音调的音调编码，根据添加后缀后的音素和音调编码，以及音素在所属音节中的位置和/或音节在所属词中的位置，生成语言学特征中对应的特征项，根据目标文本的语言学特征和说话者的标识，进行语音合成，以得到目标语音，使得对于一种语言下的说话者，能够实现多种语言下文本的语音合成。

通过上述分析可知，本公开实施例中，可以采用语音合成模型，根据目标文本的语言学特征和说话者的标识进行语音合成，以得到目标语音。下面结合图6，对本公开提供的语音合成方法中，根据目标文本的语言学特征和说话者的标识，进行语音合成，以得到目标语音的过程进一步说明。

图6是根据本公开第三实施例的语音合成方法的流程示意图。如图6所示，语音合成方法，可以包括以下步骤：

步骤601，获取待合成的目标文本，以及说话者的标识。

步骤602，获取目标文本中至少一个字符的发音信息。

步骤603，根据目标文本所属的目标语言，对目标文本中至少一个字符的发音信息进行特征提取，以生成目标文本的语言学特征。

其中，上述步骤601-603的具体实现过程及原理，可以参考上述实施例的描述，此处不再赘述。

步骤604，将目标文本的语言学特征，输入语音合成模型的第一编码器，得到特征编码。

其中，特征编码可以描述目标文本的语言学特征。

步骤605，将说话者的标识，输入语音合成模型的第二编码器，得到说话者的音色编码。

在本公开实施例中，说话者对应有音色特征，不同的说话者有不同的音色特征，其中，音色编码可以描述说话者的音色特征。

步骤606，将语言学特征和说话者的标识，输入语音合成模型的风格网络得到目标文本和说话者对应的风格编码。

其中，风格网络用来预测说话者讲述目标文本时的韵律信息，即说话者讲述目标文本时的抑扬顿挫节奏，其是对基频、时长、能力的宏观体现。风格编码可以描述说话者讲述目标文本时的韵律信息。

步骤607，将风格编码、特征编码和音色编码融合，得到融合编码。

步骤608，采用语音合成模型的解码器对融合编码进行解码，以得到目标语音的声学谱。

在示例性实施例中，语音合成模型的结构如图7所示。其中，语音合成模型包括第一编码器(Text Encoder)、第二编码器(Speaker Encoder)、风格网络(TP Net)、解码器(Decoder)。第一编码器、第二编码器和风格网络的输出与解码器的输入连接。语音合成模型的输入可以为文本的语言学特征和说话者标识，输出可以为语音的声学谱。其中，声学谱，例如可以为梅尔(Mel)谱。

其中，将目标文本的语言学特征输入第一编码器，可以得到目标文本的特征编码(Text Encoding)；将说话者的标识输入第二编码器，可以得到说话者的音色编码(SpeakerEncoding)。

风格网络可以为风格编码器(Style Encoder)+第一卷积层(First Conv Layers)+第二卷积层(Second Conv Layers)，将说话者的标识输入风格编码器，可以得到说话者对应的风格特征(Style Feature)，将目标文本的语言学特征输入第二卷积层，可以得到目标文本对应的语言学特征编码(TP Text Encoding)，进而将说话者对应的风格特征和目标文本对应的语言学特征编码融合，再将融合后的编码输入第一卷积层，可以得到目标文本和说话者对应的风格编码。其中，图7中的“◇”表示对特征进行融合处理。

将风格编码、特征编码和音色编码进行融合，可以得到融合编码，进而可以采用解码器对融合编码进行解码，得到目标语音的声学谱。

在本公开实施例中，语音合成模型为基于细粒度韵律的声学模型，通过语音合成模型中第一编码器、第二编码器、风格网络的采用，分别结合韵律信息、文本的语言学特征以及说话人的音色特征来合成语音，使得在语音合成时，韵律信息作为独特的特征，而不是耦合到说话者和文本上，从而降低了说话者和语言之间的耦合度，在采用一种语言下的说话者，进行多种语言下文本的语音合成的场景，能够仅结合一种韵律信息，避免同时结合两种韵律信息来进行语音合成，从而提高了语音合成效果，提高合成得到的目标语音的还原度。

在示例性实施例中，在采用语音合成模型，根据目标文本的语言学特征和说话者的标识，进行语音合成之前，可以预先训练得到语音合成模型。其中，在训练语音合成模型时，可以设置参考网络，根据语音合成模型的第一编码器、第二编码器、解码器和参考网络，生成训练模型，其中，第一编码器、第二编码器和参考网络的输出与解码器的输入连接，采用训练数据，对训练模型和风格网络进行训练，进而根据训练后的训练模型中第一编码器、第二编码器和解码器，以及经过训练的风格网络，生成语音合成模型。

其中，参考网络的结构可以参考图8。如图8所示，参考网络可以包括参考编码器(Reference Encoder)+注意力机制模块(Reference Attention)。其中，参考编码器可以对从语音中提取的声学谱进行编码，得到声学特征编码，声学特征编码可以输入注意力机制模块，通过注意力机制模块与输入第一编码器中的语言学特征进行对齐，进而得到韵律信息。

其中，训练数据可以包括文本样本的语言学特征，以及文本样本对应的语音样本和语音样本的说话者标识。

需要说明的是，为了使生成的语音合成模型可以对一种语言下的说话者实现多种语言下文本的语音合成，训练数据中需要包含多种语言下的文本样本和对应的语音样本。比如为了使生成的语音合成模型可以对讲汉语的说话者实现汉语、英语和日语三种语言下文本的语音合成，训练数据中需要包含汉语、英语和日语三种语言的文本样本和对应的语音样本，其中，各种语言的语音样本的说话者标识可以不同，即训练数据不要求单人多语言的训练语料。另外，每种语言的语音样本的说话者数量可以大于预设阈值比如5，从而提高模型的训练效果。另外，为了实现单人多语言的语音合成，本公开实施例中对各语言下的文本样本的语言学特征进行统一设计和编码。训练数据中的文本样本可以采用图4所示的形式进行人工标注。

在示例性实施例中，采用训练数据，对训练模型和风格网络进行训练时，可以采用训练模型和风格网络同步训练的方式。具体的训练过程可以为：

将文本样本的语言学特征输入训练模型中的第一编码器，将语音样本的说话者标识输入训练模型的第二编码器；将语音样本输入训练模型的参考网络；对参考网络的输出、第一编码器的输出和第二编码器的输出进行融合，并采用训练模型中的解码器解码，以得到预测声学谱；根据预测声学谱与语音样本的声学谱之间的差异，对训练模型进行模型参数调整；将文本样本的语言学特征和语音样本的说话者标识输入风格网络；根据风格网络的输出与参考网络的输出之间的差异，对风格网络进行模型参数调整。

具体的，针对一个或多个文本样本的语言学特征、文本样本对应的语言样本和语音样本的说话者标识，可以将文本样本的语言学特征输入训练模型的第一编码器，得到文本样本的语言学特征对应的特征编码，将语音样本的说话者标识输入训练模型的第二编码器，得到说话者对应的音色编码，将语音样本输入训练模型的参考网络，得到语音样本的韵律信息，进而将参考网络输出的韵律信息、第一编码器输出的特征编码和第二编码器输出的音色编码进行融合，并采用解码器对融合后特征进行解码，得到预测声学谱。进而结合预测声学谱和语音样本的声学谱之间的差异，对训练模型进行模型参数调整。在将文本样本的语言学特征输入训练模型的第一编码器以及将语音样本的说话者标识输入训练模型的第二编码器的同时，可以将文本样本的语言学特征和语音样本的说话者标识输入风格网络，得到风格网络输出的风格编码，根据风格网络输出的风格编码和参考网络输出的韵律信息之间的差异，对风格网络进行模型参数调整。

由此，通过根据训练样本中包括的多个文本样本的语言学特征、文本样本对应的语音样本和语音样本的说话者标识，不断地调整训练模型和风格网络的模型参数对训练模型和风格网络进行迭代训练，直至训练模型和风格网络的输出结果的准确率满足预先设定的阈值，训练结束，得到经过训练的训练模型和风格网络。对训练模型和风格网络进行训练之后，即可根据训练后的训练模型中的第一编码器、第二编码器、解码器和训练后的风格网络，生成语音合成模型。

通过对第一编码器、第二编码器、解码器、参考网络构成的训练模型以及风格网络进行同步训练，在训练结束后根据第一编码器、第二编码器、解码器和风格网络生成语音合成模型，即在进行模型训练时结合输入为语音样本的参考网络进行训练，而在训练后不再需要参考网络，可以摆脱利用训练后的语音合成模型进行语音合成时对语音输入的依赖，从而对于任意的文本，均能利用语音合成模型进行语音合成，并且，对训练模型和风格网络同步训练的方式，可以提高模型的训练效率。

综上，本公开实施例的语音合成方法，获取待合成的目标文本，以及说话者的标识，对目标文本中包含的至少一个字符，获取至少一个字符的发音信息，根据目标文本所属的目标语言，对目标文本中至少一个字符的发音信息进行特征提取，以生成目标文本的语言学特征，将目标文本的语言学特征，输入语音合成模型的第一编码器，得到特征编码，将说话者的标识，输入语音合成模型的第二编码器，得到说话者的音色编码，将语言学特征和说话者的标识，输入语音合成模型的风格网络得到目标文本和说话者对应的风格编码，将风格编码、特征编码和音色编码融合，得到融合编码，采用语音合成模型的解码器对融合编码进行解码，以得到目标语音的声学谱，使得对于一种语言下的说话者，能够实现多种语言下文本的语音合成，且提高了语音合成效果，提高合成得到的目标语音的还原度。

下面结合图9，对本公开提供的语音合成装置进行说明。

图9是根据本公开第四实施例的语音合成装置的结构示意图。

如图9所示，本公开提供的语音合成装置900，包括：第一获取模块901、第二获取模块902、提取模块903以及合成模块904。

其中，第一获取模块901，用于获取待合成的目标文本，以及说话者的标识；

第二获取模块902，用于获取目标文本中至少一个字符的发音信息；

提取模块903，用于根据目标文本所属的目标语言，对目标文本中至少一个字符的发音信息进行特征提取，以生成目标文本的语言学特征；

合成模块904，用于根据目标文本的语言学特征和说话者的标识，进行语音合成，以得到目标语音。

需要说明的是，本实施例提供的语音合成装置，可以执行前述实施例的语音合成方法。其中，语音合成装置可以为电子设备，也可以为配置在电子设备的软件，以对于一种语言下的说话者，能够实现多种语言下文本的语音合成。

需要说明的是，前述对于语音合成方法的实施例的说明，也适用于本公开提供的语音合成装置，此处不再赘述。

本公开实施例提供的语音合成装置，首先获取待合成的目标文本，以及说话者的标识，再获取目标文本中至少一个字符的发音信息，根据目标文本所属的目标语言，对目标文本中至少一个字符的发音信息进行特征提取，以生成目标文本的语言学特征，进而根据目标文本的语言学特征和说话者的标识，进行语音合成，以得到目标语音，由此，通过根据待合成的目标文本的语言学特征和说话者的标识进行语言合成，使得对于一种语言下的说话者，能够实现多种语言下文本的语音合成。

下面结合图10，对本公开提供的语音合成装置进行说明。

图10是根据本公开第五实施例的语音合成装置的结构示意图。

如图10所示，语音合成装置1000，具体可以包括：第一获取模块1001、第二获取模块1002、提取模块1003以及合成模块1004。其中，图10中第一获取模块1001、第二获取模块1002、提取模块1003以及合成模块1004与图9中第一获取模块901、第二获取模块902、提取模块903以及合成模块904具有相同功能和结构。

在示例性实施例中，提取模块1003，包括：

第一确定单元10031，用于根据目标文本中至少一个字符的发音信息，确定至少一个字符包含的音素，以及音素组合得到的音节或词所对应的音调；

第二确定单元10032，用于根据目标文本所属的目标语言类型，对音素添加后缀，以及确定音调的音调编码；

第一生成单元10033，用于根据添加后缀后的音素和音调编码，以及音素在所属音节中的位置和/或音节在所属词中的位置，生成语言学特征中对应的特征项。

在示例性实施例中，第一确定单元10031，包括：

确定子单元，用于对目标文本中至少一个字符，根据字符的发音信息中的声调、重音和儿化音中的一个或多个组合，确定音素组合得到的音节或词所对应的音调。

在示例性实施例中，提取模块1003，还包括：

第三确定单元10034，用于根据目标文本所属的目标语言，对目标文本分词，并确定各分词词汇对应的韵律；

第二生成单元10035，用于根据各分词词汇对应的韵律，生成语言学特征中对应的特征项。

在示例性实施例中，合成模块1004，包括：

第一编码单元，用于将目标文本的语言学特征，输入语音合成模型的第一编码器，得到特征编码；

第二编码单元，用于将说话者的标识，输入语音合成模型的第二编码器，得到说话者的音色编码；

第三编码单元，用于将语言学特征和说话者的标识，输入语音合成模型的风格网络得到目标文本和说话者对应的风格编码；

融合单元，用于将风格编码、特征编码和音色编码融合，得到融合编码；

解码单元，用于采用语音合成模型的解码器对融合编码进行解码，以得到目标语音的声学谱。

在示例性实施例中，语音合成装置1000，还可以包括：

第一生成模块，用于根据语音合成模型的第一编码器、第二编码器、解码器和参考网络，生成训练模型；其中，第一编码器、第二编码器和参考网络的输出与解码器的输入连接；

训练模块，用于采用训练数据，对训练模型和风格网络进行训练；

第二生成模块，用于根据训练后的训练模型中第一编码器、第二编码器和解码器，以及经过训练的风格网络，生成语音合成模型。

在示例性实施例中，训练数据包括文本样本的语言学特征，以及文本样本对应的语音样本和语音样本的说话者标识；

训练模块，包括：

第一处理单元，用于将文本样本的语言学特征输入训练模型中的第一编码器，将语音样本的说话者标识输入训练模型的第二编码器；

第二处理单元，用于将语音样本输入训练模型的参考网络；

第三处理单元，用于对参考网络的输出、第一编码器的输出和第二编码器的输出进行融合，并采用训练模型中的解码器解码，以得到预测声学谱；

第一调整单元，用于根据预测声学谱与语音样本的声学谱之间的差异，对训练模型进行模型参数调整；

第四处理单元，用于将文本样本的语言学特征和语音样本的说话者标识输入风格网络；

第二调整单元，用于根据风格网络的输出与参考网络的输出之间的差异，对风格网络进行模型参数调整。

根据本公开的实施例，本公开还提供了一种电子设备、一种可读存储介质和一种计算机程序产品。

图11示出了可以用来实施本公开的实施例的示例电子设备1100的示意性框图。电子设备旨在表示各种形式的数字计算机，诸如，膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置，诸如，个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例，并且不意在限制本文中描述的和/或者要求的本公开的实现。

如图11所示，设备1100包括计算单元1101，其可以根据存储在只读存储器(ROM)1102中的计算机程序或者从存储单元1108加载到随机访问存储器(RAM)1103中的计算机程序，来执行各种适当的动作和处理。在RAM 1103中，还可存储设备1100操作所需的各种程序和数据。计算单元1101、ROM 1102以及RAM 1103通过总线1104彼此相连。输入/输出(I/O)接口1105也连接至总线1104。

设备1100中的多个部件连接至I/O接口1105，包括：输入单元1106，例如键盘、鼠标等；输出单元1107，例如各种类型的显示器、扬声器等；存储单元1108，例如磁盘、光盘等；以及通信单元1109，例如网卡、调制解调器、无线通信收发机等。通信单元1109允许设备1100通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据。

计算单元1101可以是各种具有处理和计算能力的通用和/或专用处理组件。计算单元1101的一些示例包括但不限于中央处理单元(CPU)、图形处理单元(GPU)、各种专用的人工智能(AI)计算芯片、各种运行机器学习模型算法的计算单元、数字信号处理器(DSP)、以及任何适当的处理器、控制器、微控制器等。计算单元1101执行上文所描述的各个方法和处理，例如语音合成方法。例如，在一些实施例中，语音合成方法可被实现为计算机软件程序，其被有形地包含于机器可读介质，例如存储单元1108。在一些实施例中，计算机程序的部分或者全部可以经由ROM 1102和/或通信单元1109而被载入和/或安装到设备1100上。当计算机程序加载到RAM 1103并由计算单元1101执行时，可以执行上文描述的语音合成方法的一个或多个步骤。备选地，在其他实施例中，计算单元1101可以通过其他任何适当的方式(例如，借助于固件)而被配置为执行语音合成方法。

本文中以上描述的系统和技术的各种实施方式可以在数字电子电路系统、集成电路系统、场可编程门阵列(FPGA)、专用集成电路(ASIC)、专用标准产品(ASSP)、芯片上系统的系统(SOC)、负载可编程逻辑设备(CPLD)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括：实施在一个或者多个计算机程序中，该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释，该可编程处理器可以是专用或者通用可编程处理器，可以从存储系统、至少一个输入装置、和至少一个输出装置接收数据和指令，并且将数据和指令传输至该存储系统、该至少一个输入装置、和该至少一个输出装置。

用于实施本公开的方法的程序代码可以采用一个或多个编程语言的任何组合来编写。这些程序代码可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器或控制器，使得程序代码当由处理器或控制器执行时使流程图和/或框图中所规定的功能/操作被实施。程序代码可以完全在机器上执行、部分地在机器上执行，作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。

在本公开的上下文中，机器可读介质可以是有形的介质，其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备，或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或快闪存储器)、光纤、便捷式紧凑盘只读存储器(CD-ROM)、光学储存设备、磁储存设备、或上述内容的任何合适组合。

为了提供与用户的交互，可以在计算机上实施此处描述的系统和技术，该计算机具有：用于向用户显示信息的显示装置(例如，CRT(阴极射线管)或者LCD(液晶显示器)监视器)；以及键盘和指向装置(例如，鼠标或者轨迹球)，用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互；例如，提供给用户的反馈可以是任何形式的传感反馈(例如，视觉反馈、听觉反馈、或者触觉反馈)；并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。

可以将此处描述的系统和技术实施在包括后台部件的计算系统(例如，作为数据服务器)、或者包括中间件部件的计算系统(例如，应用服务器)、或者包括前端部件的计算系统(例如，具有图形用户界面或者网络浏览器的用户计算机，用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信(例如，通信网络)来将系统的部件相互连接。通信网络的示例包括：局域网(LAN)、广域网(WAN)、互联网和区块链网络。

计算机系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。服务器可以是云服务器，又称为云计算服务器或云主机，是云计算服务体系中的一项主机产品，以解决了传统物理主机与VPS服务("Virtual Private Server"，或简称"VPS")中，存在的管理难度大，业务扩展性弱的缺陷。服务器也可以为分布式系统的服务器，或者是结合了区块链的服务器。

本公开涉及计算机技术领域，特别涉及深度学习、语音技术等人工智能技术领域。

需要说明的是，人工智能是研究使计算机来模拟人的某些思维过程和智能行为(如学习、推理、思考、规划等)的学科，既有硬件层面的技术也有软件层面的技术。人工智能硬件技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理等技术；人工智能软件技术主要包括计算机视觉、语音识别技术、自然语言处理技术以及机器学习/深度学习、大数据处理技术、知识图谱技术等几大方向。

根据本公开实施例的技术方案，通过根据待合成的目标文本的语言学特征和说话者的标识进行语言合成，使得对于一种语言下的说话者，能够实现多种语言下文本的语音合成。

应该理解，可以使用上面所示的各种形式的流程，重新排序、增加或删除步骤。例如，本发公开中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行，只要能够实现本公开公开的技术方案所期望的结果，本文在此不进行限制。

上述具体实施方式，并不构成对本公开保护范围的限制。本领域技术人员应该明白的是，根据设计要求和其他因素，可以进行各种修改、组合、子组合和替代。任何在本公开的精神和原则之内所作的修改、等同替换和改进等，均应包含在本公开保护范围之内。

Claims

1.一种语音合成方法，包括：

获取待合成的目标文本，以及说话者的标识；

获取所述目标文本中至少一个字符的发音信息；

根据所述目标文本所属的目标语言，对所述目标文本中所述至少一个字符的所述发音信息进行特征提取，以生成所述目标文本的语言学特征；

根据所述目标文本的语言学特征和所述说话者的标识，进行语音合成，以得到目标语音；

所述根据所述目标文本的语言学特征和所述说话者的标识，进行语音合成，以得到目标语音，包括：

将所述目标文本的语言学特征，输入语音合成模型的第一编码器，得到特征编码；

将所述说话者的标识，输入所述语音合成模型的第二编码器，得到所述说话者的音色编码；

将所述语言学特征和所述说话者的标识，输入所述语音合成模型的风格网络得到所述目标文本和所述说话者对应的风格编码；

将所述风格编码、所述特征编码和所述音色编码融合，得到融合编码；

采用所述语音合成模型的解码器对所述融合编码进行解码，以得到所述目标语音的声学谱。

2.根据权利要求1所述的方法，其中，所述根据所述目标文本所属的目标语言，对所述目标文本中所述至少一个字符的所述发音信息进行特征提取，以生成所述目标文本的语言学特征，包括：

根据所述目标文本中所述至少一个字符的发音信息，确定所述至少一个字符包含的音素，以及所述音素组合得到的音节或词所对应的音调；

根据所述目标文本所属的目标语言类型，对所述音素添加后缀，以及确定所述音调的音调编码；

根据添加所述后缀后的所述音素和所述音调编码，以及所述音素在所属音节中的位置和/或所述音节在所属词中的位置，生成所述语言学特征中对应的特征项。

3.根据权利要求2所述的方法，其中，所述根据所述目标文本中所述至少一个字符的发音信息，确定所述至少一个字符包含的音素，以及所述音素组合得到的音节或词所对应的音调，包括：

对所述目标文本中所述至少一个字符，根据所述字符的发音信息中的声调、重音和儿化音中的一个或多个组合，确定所述音素组合得到的音节或词所对应的音调。

4.根据权利要求2所述的方法，其中，所述根据所述目标文本所属的目标语言，对所述目标文本中所述至少一个字符的所述发音信息进行特征提取，以生成所述目标文本的语言学特征，还包括：

根据所述目标文本所属的目标语言，对所述目标文本分词，并确定各分词词汇对应的韵律；

根据各所述分词词汇对应的韵律，生成所述语言学特征中对应的特征项。

5.根据权利要求1所述的方法，其中，所述将所述目标文本的语言学特征，输入语音合成模型的第一编码器，得到特征编码之前，还包括：

根据所述语音合成模型的所述第一编码器、所述第二编码器、所述解码器和参考网络，生成训练模型；其中，所述第一编码器、所述第二编码器和所述参考网络的输出与所述解码器的输入连接；

采用训练数据，对所述训练模型和所述风格网络进行训练；

根据训练后的所述训练模型中所述第一编码器、所述第二编码器和所述解码器，以及经过训练的所述风格网络，生成所述语音合成模型。

6.根据权利要求5所述的方法，其中，所述训练数据包括文本样本的语言学特征，以及所述文本样本对应的语音样本和所述语音样本的说话者标识；

所述采用训练数据，对所述训练模型和所述风格网络进行训练，包括：

将所述文本样本的语言学特征输入所述训练模型中的所述第一编码器，将所述语音样本的说话者标识输入所述训练模型的所述第二编码器；

将所述语音样本输入所述训练模型的参考网络；

对所述参考网络的输出、所述第一编码器的输出和所述第二编码器的输出进行融合，并采用所述训练模型中的所述解码器解码，以得到预测声学谱；

根据所述预测声学谱与所述语音样本的声学谱之间的差异，对所述训练模型进行模型参数调整；

将所述文本样本的语言学特征和所述语音样本的说话者标识输入所述风格网络；

根据所述风格网络的输出与所述参考网络的输出之间的差异，对所述风格网络进行模型参数调整。

7.一种语音合成装置，包括：

第一获取模块，用于获取待合成的目标文本，以及说话者的标识；

第二获取模块，用于获取所述目标文本中至少一个字符的发音信息；

提取模块，用于根据所述目标文本所属的目标语言，对所述目标文本中所述至少一个字符的所述发音信息进行特征提取，以生成所述目标文本的语言学特征；

合成模块，用于根据所述目标文本的语言学特征和所述说话者的标识，进行语音合成，以得到目标语音；

所述合成模块，包括：

第一编码单元，用于将所述目标文本的语言学特征，输入语音合成模型的第一编码器，得到特征编码；

第二编码单元，用于将所述说话者的标识，输入所述语音合成模型的第二编码器，得到所述说话者的音色编码；

第三编码单元，用于将所述语言学特征和所述说话者的标识，输入所述语音合成模型的风格网络得到所述目标文本和所述说话者对应的风格编码；

融合单元，用于将所述风格编码、所述特征编码和所述音色编码融合，得到融合编码；

解码单元，用于采用所述语音合成模型的解码器对所述融合编码进行解码，以得到所述目标语音的声学谱。

8.根据权利要求7所述的装置，其中，所述提取模块，包括：

第一确定单元，用于根据所述目标文本中所述至少一个字符的发音信息，确定所述至少一个字符包含的音素，以及所述音素组合得到的音节或词所对应的音调；

第二确定单元，用于根据所述目标文本所属的目标语言类型，对所述音素添加后缀，以及确定所述音调的音调编码；

第一生成单元，用于根据添加所述后缀后的所述音素和所述音调编码，以及所述音素在所属音节中的位置和/或所述音节在所属词中的位置，生成所述语言学特征中对应的特征项。

9.根据权利要求8所述的装置，其中，所述第一确定单元，包括：

确定子单元，用于对所述目标文本中所述至少一个字符，根据所述字符的发音信息中的声调、重音和儿化音中的一个或多个组合，确定音素组合得到的音节或词所对应的音调。

10.根据权利要求8所述的装置，其中，所述提取模块，还包括：

第三确定单元，用于根据所述目标文本所属的目标语言，对所述目标文本分词，并确定各分词词汇对应的韵律；

第二生成单元，用于根据各所述分词词汇对应的韵律，生成所述语言学特征中对应的特征项。

11.根据权利要求7所述的装置，还包括：

第一生成模块，用于根据所述语音合成模型的所述第一编码器、所述第二编码器、所述解码器和参考网络，生成训练模型；其中，所述第一编码器、所述第二编码器和所述参考网络的输出与所述解码器的输入连接；

训练模块，用于采用训练数据，对所述训练模型和所述风格网络进行训练；

第二生成模块，用于根据训练后的所述训练模型中所述第一编码器、所述第二编码器和所述解码器，以及经过训练的所述风格网络，生成所述语音合成模型。

12.根据权利要求11所述的装置，其中，所述训练数据包括文本样本的语言学特征，以及所述文本样本对应的语音样本和所述语音样本的说话者标识；

所述训练模块，包括：

第一处理单元，用于将所述文本样本的语言学特征输入所述训练模型中的所述第一编码器，将所述语音样本的说话者标识输入所述训练模型的所述第二编码器；

第二处理单元，用于将所述语音样本输入所述训练模型的参考网络；

第三处理单元，用于对所述参考网络的输出、所述第一编码器的输出和所述第二编码器的输出进行融合，并采用所述训练模型中的所述解码器解码，以得到预测声学谱；

第一调整单元，用于根据所述预测声学谱与所述语音样本的声学谱之间的差异，对所述训练模型进行模型参数调整；

第四处理单元，用于将所述文本样本的语言学特征和所述语音样本的说话者标识输入所述风格网络；

第二调整单元，用于根据所述风格网络的输出与所述参考网络的输出之间的差异，对所述风格网络进行模型参数调整。

13.一种电子设备，包括：

至少一个处理器；以及

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行权利要求1-6中任一项所述的方法。

14.一种存储有计算机指令的非瞬时计算机可读存储介质，其中，所述计算机指令用于使所述计算机执行根据权利要求1-6中任一项所述的方法。