CN112634866B

CN112634866B - 语音合成模型训练和语音合成方法、装置、设备及介质

Info

Publication number: CN112634866B
Application number: CN202011549430.0A
Authority: CN
Inventors: 张大成; 刘欢
Original assignee: Beijing Orion Star Technology Co Ltd
Current assignee: Beijing Orion Star Technology Co Ltd
Priority date: 2020-12-24
Filing date: 2020-12-24
Publication date: 2024-05-14
Anticipated expiration: 2040-12-24
Also published as: CN112634866A

Abstract

本发明公开了一种语音合成模型训练和语音合成方法、装置、设备及介质。由于样本集中的任一第一语音样本对应的文本特征，均是根据预先配置的第一语言的语音单元集合与第二语言的语音单元集合的对应关系确定的，从而实现了将第一语音样本转换为第二语言的语音样本，增加了第二语言的语音样本的数量，后续基于样本集中的第一语音样本对应的文本特征样本和第一语音样本的第一声学特征，即可对原始语音合成模型进行训练，从而获取到第二语言对应的目标语音合成模型，从而实现无需大量的采集第二语言的语音样本，即可获取到第二语言的目标语音合成模型。

Description

语音合成模型训练和语音合成方法、装置、设备及介质

技术领域

本发明涉及语音处理技术领域，尤其涉及一种语音合成模型训练和语音合成方法、装置、设备及介质。

背景技术

随着文本转语音(Text to Speech，TTS)技术的发展，越来越多的领域采用该种技术，以提高用户的体验。比如，通过预先设置智能设备上语音助手对某一问题的回答内容，以使后续用户在请求语音助手回答该问题时，即可输出语音形式的回答内容。现有技术中，可以通过预先训练完成的语音合成模型，生成文本信息对应的声学特征。后续基于该声学特征，进行相应的处理，从而得到文本信息对应的语音信息。如果希望可以将任一文本信息转化成自然、准确的语音信息，则需要基于大量的预先标记好的语音样本，对该语音合成模型进行训练，以提高该语音合成模型输出文本信息对应的声学特征的准确度。而近几年来，为了进一步提高用户的体验，并可以为用户提供个性化的服务，如何将文本信息转化成语音为方言的语音信息成为人们日益关注的问题。

为了可以将任一文本信息转化成自然、准确的语音为方言的语音信息，基于现有技术中的方法，需要预先采集大量的后，基于语音为某一方言的语音样本，对原始语音合成模型进行训练，后续才能根据文本信息的文本特征以及训练完成的语音合成模型获取到可以准确预测该方言的语音信息的声学特征。由于一般需要预先采集3万句以上、或者30小时以上的该方言的语音样本，才能保证该语音合成模型的准确性，导致获取到用于训练该方言的语音合成模型的语音样本的难度以及所耗费的成本都非常的大。

发明内容

本发明实施例提供了一种模型训练和语音合成方法、装置、设备及介质，用以解决现有获取到可以预测方言的语音信息的声学特征的语音合成模型的难度、以及所耗费的成本非常大的问题。

本发明实施例提供了一种语音合成模型训练方法，所述方法包括：

获取包含至少一个第一语音样本的样本集，所述第一语音样本为采用第一语言的语音样本，所述第一语音样本对应的文本特征样本是根据预先配置的第一语言的语音单元集合与第二语言的语音单元集合的对应关系确定的；

基于所述样本集中的第一语音样本对应的文本特征样本和所述第一语音样本的第一声学特征，对原始语音合成模型进行训练，以获取所述第二语言对应的目标语音合成模型。

获取包含至少一个语音样本的样本集，所述语音样本包括采用第一语言的第一语音样本和采用第二语言的第二语言样本；

基于所述样本集中的第一语音样本对应的第一文本特征和所述第一语音样本的第一声学特征，以及所述样本集中的第二语音样本对应的第二文本特征和所述第二语音样本的第二声学特征，对所述原始语音合成模型进行训练，得到基础语音合成模型；其中，所述第一文本特征是基于所述第一语言的语音单元集合确定的，所述第二文本特征是基于所述第二语言的语音单元集合确定的；

基于所述第二语音样本对应的第二文本特征和所述第二语音样本的第二声学特征，对所述基础语音合成模型进行训练，得到目标语音合成模型。

本发明实施例提供了一种基于上述任一语音合成模型训练方法获取到的目标语音合成模型的语音合成方法，所述方法包括：

获取文本信息的文本特征，所述文本特征是基于所述第二语言的语音单元集合确定的；

通过预先训练完成的目标语音合成模型，获取所述文本特征对应的至少一个声学特征；

基于所述至少一个所述声学特征以及声码器，确定通过所述第二语言发出所述文本信息的语音信息。

本发明实施例提供了一种语音合成模型训练装置，所述装置包括：

获取单元，用于获取包含至少一个第一语音样本的样本集，所述第一语音样本为采用第一语言的语音样本，所述第一语音样本对应的文本特征样本是根据预先配置的第一语言的语音单元集合与第二语言的语音单元集合的对应关系确定的；

训练单元，用于基于所述样本集中的第一语音样本对应的文本特征样本和所述第一语音样本的第一声学特征，对原始语音合成模型进行训练，以获取所述第二语言对应的目标语音合成模型。

获取模块，用于获取包含至少一个语音样本的样本集，所述语音样本包括采用第一语言的第一语音样本和采用第二语言的第二语言样本；

第一训练模块，用于基于所述样本集中的第一语音样本对应的第一文本特征和所述第一语音样本的第一声学特征，以及所述样本集中的第二语音样本对应的第二文本特征和所述第二语音样本的第二声学特征，对所述原始语音合成模型进行训练，得到基础语音合成模型；其中，所述第一文本特征是基于所述第一语言的语音单元集合确定的，所述第二文本特征是基于所述第二语言的语音单元集合确定的；

第二训练模块，用于基于所述第二语音样本对应的第二文本特征和所述第二语音样本的第二声学特征，对所述基础语音合成模型进行训练，得到目标语音合成模型。

本发明实施例提供了一种基于上述任一语音合成模型训练方法获取到的目标语音合成模型的语音合成装置，所述装置包括：

确定模块，用于获取文本信息的文本特征，所述文本特征是基于所述第二语言的语音单元集合确定的；

处理模块，用于通过预先训练完成的目标语音合成模型，获取所述文本特征对应的至少一个声学特征；

合成模块，用于基于所述至少一个所述声学特征以及声码器，确定通过所述第二语言发出所述文本信息的语音信息。

本发明实施例提供了一种电子设备，所述电子设备至少包括处理器和存储器，所述处理器用于执行存储器中存储的计算机程序时实现如上述任一所述语音合成模型训练方法的步骤，或者实现如上述所述语音合成方法的步骤。

本发明实施例提供了一种计算机可读存储介质，其存储有计算机程序，所述计算机程序被处理器执行时实现如上述任一所述语音合成模型训练方法的步骤，或者实现如上述所述语音合成方法的步骤。

本发明实施例中，由于样本集中的任一第一语音样本对应的文本特征，均是根据预先配置的第一语言的语音单元集合与第二语言的语音单元集合的对应关系确定的，从而实现将第一语音样本转换为第二语言的语音样本，增加了第二语言的语音样本的数量，后续基于样本集中的第一语音样本对应的文本特征样本和第一语音样本的第一声学特征，即可对原始语音合成模型进行训练，从而获取到第二语言对应的目标语音合成模型，从而实现无需大量采集第二语言的语音样本，即可获取到第二语言的目标语音合成模型。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简要介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域的普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例提供的一种语音合成模型训练过程示意图；

图2为本发明实施例提供的一种语音合成模型训练流程示意图；

图3为本发明实施例提供的一种语音合成模型训练过程示意图；

图4为本发明实施例提供的一种语音合成模型训练流程示意图；

图5为本发明实施例提供的一种语音合成过程示意图；

图6为本发明实施例提供的一种语音合成模型训练装置的结构示意图；

图7为本发明实施例提供的再一种语音合成模型训练装置的结构示意图；

图8为本发明实施例提供的一种语音合成装置的结构示意图；

图9为本发明实施例提供的一种电子设备结构示意图；

图10为本发明实施例提供的再一种电子设备结构示意图；

图11为本发明实施例提供的再一种电子设备结构示意图。

具体实施方式

下面将结合附图对本发明作进一步地详细描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例，都属于本发明保护的范围。

为了降低获取到第二语言对应的语音合成模型的难度、以及获取第二语言的语音样本的难度和所耗费的成本，本发明实施例提供了一种语音合成模型训练和语音合成方法、装置、设备及介质。

实施例1：图1为本发明实施例提供的一种语音合成模型训练过程示意图，该过程包括：

S101：获取包含至少一个第一语音样本的样本集，第一语音样本为采用第一语言的语音样本，第一语音样本对应的文本特征样本是根据预先配置的第一语言的语音单元集合与第二语言的语音单元集合的对应关系确定的。

本发明实施例提供的语音合成模型训练方法应用于电子设备，该电子设备可以为如机器人等智能设备，也可以是服务器。

为了快速生成方言的目标语音合成模型，需要预先获取用于训练该方言的目标语音合成模型的语音样本。而由于实际应用过程中，语音合成模型的输入为文本特征，输出为该文本特征对应的至少一个声学特征，因此，当获取到了用于训练该方言的目标语音合成模型的语音样本之后，确定该语音样本对应的文本特征，以基于该语音样本以及该语音样本对应的文本特征，对原始语音合成模型进行训练，从而得到方言的目标语音合成模型。

在一种可能的实施方式中，若采集到的某一方言的语音信息的数量足够的多，一般为3万句或者30小时以上的语音信息，则可以直接将采集到该方言的语音信息确定为语音样本。后续基于该方言的每个语音样本以及每个语音样本对应的文本特征，对原始语音合成模型进行训练，以获取训练完成的该方言的目标语音合成模型。然而在实际应用场景中，使用某种特定的方言的用户的数量不多，采集到该特定的方言的语音信息的难度也比较大，费用也很高，从而无法采集到大量的可以用于训练目标语音合成模型的语音样本，获取语音样本的难度以及所耗费的成本都非常的大。

在本发明实施例中，可以将语言为普通话(为了方便描述，记为第一语言)的语音样本确定为用于训练方言的目标语音合成模型的样本集中的语音样本(为了方便描述，记为第一语音样本)，大量的普通话的语音样本容易获取，获取成本也低。但基于大量的第一语言的语音信息以及每个语音信息对应的文本特征，只能训练出用于识别第一语言对应的目标语音合成模型。因此，在本发明实施例中，无法直接基于第一语言的语音信息，训练出某一方言(为了方便描述，记为第二语言)对应的目标语音合成模型，需要对第一语音样本进行相应的处理，从而实现将第一语言样本转化成第二语言的语音样本，从而获取到大量的第二语言的语音样本。

在本发明实施例中，为了实现将第一语言样本转化成第二语言的语音样本，预先根据第一语言的语音单元集合，以及第二语言的语音单元集合，配置了第一语言的语音单元集合与第二语言的语音单元集合的对应关系，即对于第一语言的语音单元集合中的语音单元(为了方便描述，记为第一语音单元)，确定第二语言的语音单元中与该第一语音单元的发音相似的语音单元(为了方便描述，记为第二语音单元)，并建立该第一语音单元、及与该第一语音单元发音相似的第二语音单元之间的对应关系。比如，第一语言为普通话，第二语言为方言，对于普通话的语音单元集合中每个第一语音单元，在方言的语音单元集合中查询是否存在与该第一语音单元发音相似的第二语音单元，若存在，则建立该第一语音单元、及与该第一语音单元发音相似的第二语音单元之间的对应关系。根据预先配置的第一语言的语音单元集合与第二语言的语音单元集合的对应关系，分别获取每个第一语音样本对应的文本特征样本。

其中，第一语言的语音单元集合包括普通话的每个第一语音单元，第二语言的语音单元集合包括该第二语言的每个第二语音单元。语音单元中包括声调以及至少一个语音单位元素，该语音单位元素可以为音素、声韵母、音节中的任一种，即在预先配置第一语言的语音单元集合与第二语言的语音单元集合的对应关系时，不仅需要配置第一语言的语音单位元素与第二语言的语音单位元素的对应关系，还需要配置第一语言的声调与第二语言的声调的对应关系。

比如，某一第一语音样本对应的第一文本特征为“you3”，该第一语音样本对应的文本特征样本为“ieu2”。其中，第一文本特征中的3表示该语音单元“you3”在第一语言中的声调为三声，文本特征样本中的2表示该语音单元“ieu2”在第二语言中的声调为二声。

再例如，第一语言为普通话，第二语音为长沙话，预先配置的普通话的语音单位元素与长沙话的语音单位元素的对应关系，如下表：

其中，在确定第一语言的语音单元集合与第二语言的语音单元集合的对应关系时，可以针对第一语言的语音单元集合中的每个第一语音单元，确定第二语言的语音单元集合中是否存在与该第一语音单元发音相似的第二语音单元，若存在，则建立该第一语音单元、及与该第一语音单元发音相似的第二语音单元的对应关系；也可以针对第二语言的语音单元集合中的每个第二语音单元，确定第一语言的语音单元集合中是否存在与该第二语音单元发音相似的第一语音单元，若存在，则建立该第二语音单元、及与该第二语音单元发音相似的第二语音单元的对应关系。

比如，普通话对应的语音单元集合中有63个第一语音单元，长沙话对应的语音单元集合中有62个第二语音单元，其中，普通话对应的语音单元集合中，存在45个第一语音单元分别在长沙话的语音单元集合中存在发音相似的第二语音单元，则可以针对该45个第一语音单元，确定该第一语音单元、及与该第一语音单元发音相似的第二语音单元的对应关系。

具体实施过程中，首先针对任一第一语音样本，基于第一语言的语音单元集合确定该第一语音样本对应的文本特征(为了方便描述，记为第一文本特征)。针对该第一文本特征中所包含的每个第一语音单元，根据预先配置的第一语言的语音单元集合与第二语言的语音单元集合的对应关系，确定该第一语音单元对应的第二语言的第二语音单元。依次根据该第一文本特征对应的每个第二语音单元，确定该第一语音样本对应的文本特征样本并保存。

其中，获取第一语音样本对应的第一文本特征，可以是通过文本分析算法确定，比如，句法分析、文法分析等，也可以是通过人工的方式确定。

在一种可能的实施方式中，任一第一语音样本对应的第一文本特征包括：第一语音样本的声韵母序列(为了方便说明，记为第一声韵母序列)、第一语音样本中包括的每个词语的词性和分词信息、第一语音样本的语调、以及第一声韵母序列对应的韵律特征中的至少一种。

S102：基于样本集中的第一语音样本对应的文本特征样本和第一语音样本的第一声学特征，对原始语音合成模型进行训练，以获取第二语言对应的目标语音合成模型。

在本发明实施例中，基于上述实施例对每个第一语音样本对应的文本特征进行处理了之后，可以将获取了对应的文本特征样本的每个第一语音样本理解为按照第二语言的发音习惯发音的语音信息，该按照第二语言的发音习惯发音的语音信息所对应的文本内容、与按照第一语音的发音习惯发音的语音信息所对应的文本内容可能是不同的。当基于上述实施例获取到样本集中的每个第一语音样本以及每个第一语音样本对应的文本特征样本之后，可以基于该第一语音样本对应的文本特征样本和该第一语音样本的声学特征(为了方便描述，记为第一声学特征)，对原始语音合成模型进行训练，以获取第二语言对应的目标语音合成模型。

其中，任一第一语音样本的声学特征包括该第一语音样本的音频谱参数、该第一语音样本的音频时长以及该第一语音样本的基频中的至少一种。

需要说明的是，获取第一语音样本的第一声学特征为现有技术，比如，每个第一语音样本的第一声学特征则可以是通过声学特征提取算法获取，也可以是通过声学特征提取模型获取。具体实施中，可以根据实际需求进行灵活设置，在此不做具体限定。

其中，样本集中一般包含有大量的第一语音样本，如果为了尽可能的增加第二语言的语音样本，可以获取每个第一语音样本对应的文本特征样本，然后基于每个第一语音样本对应的文本特征样本以及每个第一语音样本的第一声学特征，对原始语音合成模型进行训练。如果为了减少用于确定第一语音样本对应的文本特征样本所耗费的资源，可以只获取样本集中部分第一语音样本对应的文本特征样本，后续只根据该部分第一语音样本对应的文本特征样本以及该部分第一语音样本对应的第一声学特征，对原始语音合成模型进行训练。

由于样本集中的任一第一语音样本对应的文本特征，均是根据预先配置的第一语言的语音单元集合与第二语言的语音单元集合的对应关系确定的，从而实现了将第一语音样本转换为第二语言的语音样本，增加了第二语言的语音样本的数量，后续基于样本集中的第一语音样本对应的文本特征样本和第一语音样本的第一声学特征，即可对原始语音合成模型进行训练，从而获取到第二语言对应的目标语音合成模型，从而实现无需大量的采集第二语言的语音样本，即可获取到第二语言的目标语音合成模型。

实施例2：为了准确地获取到第二语言对应的语音合成模型，在上述实施例的基础上，在本发明实施例中，基于样本集中的第一语音样本对应的文本特征样本和第一语音样本的第一声学特征，对原始语音合成模型进行训练，以获取第二语言对应的目标语音合成模型，包括：

获取样本集中任一第一语音样本对应的文本特征样本；基于第一语音样本对应的文本特征样本和第一语音样本的第一声学特征，对原始语音合成模型进行训练，得到基础语音合成模型；

获取至少一个第二语音样本，第二语音样本为采用第二语言的语音样本，且第二语音样本的数量远小于第一语音样本的数量；基于第二语音样本对应的第二文本特征和第二语音样本的第二声学特征，对基础语音合成模型进行训练，得到目标语音合成模型，第二文本特征是基于第二语言的语音单元集合确定的。

在本发明实施例中，虽然可以将第一语音样本确定为一种按照第二语言的发音习惯进行发音的语音信息，但是该按照第二语言的发音习惯进行发音的语音信息所对应的文本内容，与真实的、自然地第二语言的语音信息所对应的文本内容还是会存在一定的差异的。而在实际应用过程中，第二语言的语音信息与第一语言的语音信息中较为普遍的声学特征一般是一致的，比如，上下文的发音规律等，而基于上述实施例，只基于样本集中的第一语音样本对应的文本特征样本以及第一语音样本的第一声学特征所训练得到的目标语音合成模型，只能学习到不同发音人发出第二语言的语音信息中比较普遍的声学特征，比如，文本的上下文发音规律等。

为了进一步准确地获取到第二语言的目标语音合成模型，在本发明实施例中，预先收集了少量第二语言的语音信息，将每个第二语言的语音信息均确定为语音样本(为了方便描述，记为第二语音样本)，并根据预先配置的第二语言的语音单元集合，分别确定每个第二语音样本对应的文本特征(第二文本特征)。其中，无需采集大量的第二语言的语音信息，第二语音样本的数量远小于第一语音样本的数量，其一般为几百句、比如，五百句，一小时以内的第二语言的语音信息即可。当然，为了进一步提高目标语音合成模型的精度，也可以尽可能收集更多的第二语音样本。其中，任一第二语音样本对应的文本特征包括：第二语音样本的声韵母序列(为了方便描述，记为第二声韵母序列)、第二语音样本中包括的每个词语的词性和分词信息、第二语音样本的语调、以及第二声韵母序列对应的韵律特征中的至少一种。

在基于样本集中的每个第一语音样本分别对应的文本特征样本以及每个第一语音样本的第一声学特征，获取到训练完成的语音合成模型之后，将该语音合成模型确定为基础语音合成模型，后续基于预先收集的每个第二语音样本的声学特征(为了方便说明，记为第二声学特征)以及每个第二语音样本对应的第二文本特征，在该基础语音合成模型的基础上，对该基础语音合成进行进一步地训练，实现对该基础语音合成模型进一步地调优，以准确地获取到第二语言对应的目标语音合成模型，提高目标语音合成模型的准确性。

其中，如果为了保证第二语音样本的多样性，第二语音样本可以是不同发音人发出的第二语言的语音信息，如果为了保证获取到的目标语音合成模型可以准确地预测某一发音人发出某一文本信息的语音信息的声学特征，第二语音样本也可以是该发音人发出的第二语言的语音信息。为了保证第二语音样本的准确性，应尽可能的采集经常使用该第二语言进行交流的地方的人发出的第二语言的语音信息。

在一种可能的实施方式中，若至少一个第二语音样本均为同一发音人发出的第二语言的语音信息，则后续生成的第二语言对应的目标语音合成模型，不仅可以用于基于某一文本信息对应的采用第二语言对应的语音单位集合所确定的文本特征，预测该文本特征的至少一个声学特征，以便后续根据该至少一个声学特征以及声码器，生成该文本信息对应的第二语言的语音信息，还可以用于基于某一文本信息对应的采用第二语言对应的语音单位集合所确定的文本特征，预测该文本特征的至少一个声学特征，以便后续根据该至少一个声学特征以及声码器，生成该发音人在发出该文本信息时的第二语言的语音信息。

需要说明的是，获取每个第二语音样本分别对应的第二文本特征的方法以及第二声学特征的获取方法，均分别与上述获取第一文本特征的方法、以及第一声学特征的获取方法相同，重复之处不做赘述。

在本发明实施例中，第二语音样本的声学特征包括：该第二语音样本的音频谱参数、该第二语音样本的音频时长、该第二语音样本的基频中的至少一种。

具体实施过程中，为了可以获取到第二语言的目标语音合成模型，获取样本集中任一第一语音样本对应的文本特征样本，将该文本特征样本输入到原始语音合成模型。通过原始语音合成模型，基于该文本特征样本，确定该文本特征样本对应的至少一个声学特征(为了方便描述，记为第三声学特征)。根据该第一语音样本对应的每个第三声学特征以及该第一语音样本的第一声学特征，对原始语音合成模型进行训练，以对原始语音合成模型中的各个参数的参数值进行调整。

由于样本集中包含有大量的第一语音样本，针对每个第一语音样本均执行上述的步骤。当满足预设的收敛条件(为了方便描述，记为第一收敛条件)时，该基础语音合成模型训练完成。

其中，满足预设的第一收敛条件可以为基于样本集中的每个第一语音样本的第一声学特征以及对应的第三声学特征，所确定的损失值是否小于预设的第一损失阈值，或对原始语音合成模型进行训练的迭代次数达到设置的第一最大迭代次数等。具体实施中可以灵活进行设置，在此不做具体限定。

当基于上述实施例中的步骤，获取到基础语音合成模型训练了之后，只需基于每个第二语音样本以及每个第二语音样本对应的第二文本特征，对该基础语音合成模型进行进一步地训练，以使该基础语音合成模型更加适用于预测第二语言的语音信息的声学特征即可。

在一种可能的实施方式中，得到基础语音合成模型之后，方法还包括：

将基础语音合成模型中的各第一类参数的参数值，分别确定为目标语音合成模型中的对应参数的参数值；

基于第二语音样本对应的第二文本特征和第二语音样本的第二声学特征，对基础语音合成模型进行训练，包括：

基于第二语音样本对应的第二文本特征和第二语音样本的第二声学特征，对基础语音合成模型中的第二类参数的参数值进行调整，以确定目标语音合成模型中的对应参数的参数值。

由于基于上述实施例获取到的基础语音合成模型，已经可以识别出大部分的不同发音人发出的第二语言的语音信息中比较普遍的声学特征。因此，后续在基于每个第二语音样本以及每个第二语音样本对应的第二文本特征，对该基础语音合成模型进行进一步地训练时，无需对该基础语音合成中的每个参数均进行调整，只需对其中的部分参数进行调整即可。

需要说明的是，本发明实施例中的语音合成模型一般是深度神经网络模型，比如，tacotron模型。

在本发明实施例中，当获取到基础语音合成模型后，可以将该基础语音合成模型中的参数分为第一类参数和第二类参数，其中，第一类参数的参数值可能不会因为样本数据的不同而变化，或者变化幅度很小(第一类参数也称为固定参数或底层参数)，第二类参数的参数值会因为样本数据的不同而发生变化且变化幅度较大(第二类参数也称为可调参数或顶层参数)，即将该基础语音合成模型包含的每个参数中，除第一类参数之外的其他参数确定为第二类参数。其中，该第一类参数的参数量一般非常的大，而第二类参数的参数量则相对较少，可以减少后续对基础语音合成模型训练时所需调整的参数的数量。

当确定了基础语音合成模型中的每个第一类参数之后，将基础语音合成模型中的各第一类参数的参数值，分别确定为目标语音合成模型中的与各第一类参数对应的参数的参数值。后续在该基础语音合成模型的基础上，采用迁移学习的思想训练得到目标语音合成模型，即在基础语音合成模型确定的各第一类参数的参数值的基础上，对各第二类参数的参数值进行调优。

在一种可能的实施方式中，第一类参数包括基础语音合成模型中编码器(encode)所包含的参数；

第二类参数包括基础语音合成模型中的学习率、迭代次数、批量大小(batchsize)、解码器(decode)所包含的参数中的至少一种。

后续在基于每个第二语音样本以及每个第二语音样本对应的第二文本特征，对该基础语音合成模型进行进一步地训练时，只对基础语音合成模型中的第二类参数的参数值进行调整即可，以确定目标语音合成模型中的第二类参数对应参数的参数值。

具体实施过程中，获取任一第二语音样本对应的第二文本特征，将该第二文本特征输入到基础语音合成模型。通过基础语音合成模型，基于该第二语音样本对应的第二文本特征，获取该第二文本特征对应的至少一个声学特征(为了方便描述，记为第四声学特征)。基于该第二语音样本对应的每个第四声学特征以及该第二语音样本的第二声学特征，对基础语音合成模型中的各第二类参数的参数值进行训练，即对基础语音合成模型中的各第二类参数的参数值进行调整，以确定目标语音合成模型中个第二类参数对应参数的参数值。

针对每个第二语音样本均执行上述的步骤。当确定满足预设的收敛条件(为了方便描述，记为第二收敛条件)时，则确定目标语音合成模型训练完成。

其中，满足预设的第二收敛条件可以为基于每个第二语音样本的第二声学特征以及对应的每个第四声学特征，所确定的损失值是否小于预设的第二损失阈值，或对基础语音合成模型进行训练的迭代次数达到设置的第二最大迭代次数等。具体实施中可以灵活进行设置，在此不做具体限定。

上述方法是只基于样本集中的对应有文本特征样本的第一语音样本，训练得到基础语音合成模型，在训练得到基础语音合成模型时，作为另一种可能的实施方式，训练基础语音合成模型的样本集中还包括至少一个第二语音样本；基于第一语音样本对应的文本特征样本和第一语音样本的第一声学特征，对原始语音合成模型进行训练，得到基础语音合成模型，还包括：

基于第二语音样本对应的第二文本特征和第二语音样本的第二声学特征，对原始语音合成模型进行训练，得到基础语音合成模型。

在本发明实施例中，为了降低获取语音样本的难度以及成本，样本集中可以只包含有第一语音样本，也可以为了进一步提高基础语音合成模型的准确性，该样本集中该包括有至少一个第二语言的语音信息，即该样本集中既包含有第一语音样本，也包含有第二语音样本，比如，样本集中既包含有普通话的语音信息，也包含有长沙话的语音信息。

具体实施过程中，基于样本集中第一语音样本的文本特征样本及第一语音样本的第一声学特征、以及第二语音样本对应的第二文本特征及第二语音样本的第二声学特征，对原始语音合成模型进行训练，以对原始语音合成模型中的各个参数的参数值进行调整。

需要说明的是，用于训练原始语音合成模型的第二语音样本可以是获取到的全部第二语音样本，也可以是将获取到的第二语音样本分为两部分，一部分用于训练原始语音合成模型，另一部分用于后续对基础语音合成模型的训练。具体实施过程中，可以根据实际需求进行灵活设置，在此不作具体限定。

针对用于训练原始语音合成模型的每个第二语音样本均执行上述的步骤，当基于样本集中的第一语音样本对应的文本特征样本和第一语音样本的第一声学特征、以及于训练原始语音合成模型的第二语音样本对应的第二文本特征和用于训练原始语音合成模型的第二语音样本的第二声学特征，对原始语音合成模型进行训练，当确定满足预设的第一收敛条件时，则确定该基础语音合成模型训练完成。

在一种可能的实施方式中，在进行基础语音合成模型训练时，把样本集中的语音样本分训练样本和测试样本，先基于训练样本对原始语音合成模型进行训练，再基于测试样本对上述已训练的基础语音合成模型的可靠程度进行验证。

同样的，在进行目标语音合成模型训练时，也可以将第二语音样本分训练样本和测试样本，先基于训练样本对基础语音合成模型进行训练，再基于测试样本对上述已训练的目标语音合成模型的可靠程度进行验证。

实施例3：为了语音样本的多样性，在上述各实施例的基础上，在本发明实施例中，语音样本为采集到的原始语音样本、或由相同发音人的至少两个原始语音样本进行拼接确定的拼接语音样本。

在本发明实施例中，为了提高获取到的目标语音合成模型的鲁棒性，使其尽可能地准确预测出第二语言的语音信息的声学特征，还可以将采集到的语音信息进行拼接，使语音样本(包括第一语音样本和第二语音样本)的数量倍增，进而提高目标语音合成模型的准确性以及鲁棒性。具体实施中，获取的语音样本包括以下几种情况：

情况一、可以将采集到的第一语音样本确定为原始第一语音样本，并针对原始第一语音样本对应的部分或全部发音人，将该发音人的至少两个原始第一语音样本进行拼接，确定出拼接语音样本(为了方便描述，记为第一拼接语音样本)。将每个原始第一语音样本以及每个第一拼接语音样本均确定为第一语音样本，将采集到的第二语言的语音信息直接确定为第二语音样本。

情况二、可以将采集到的第二语言的语音信息确定为原始第二语音样本，针对原始第二语音样本对应的部分或全部发音人，将该发音人的至少两个原始第二语音样本进行拼接，确定出拼接语音样本(为了方便描述，记为第二拼接语音样本)。将每个原始第二语音样本以及每个第二拼接语音样本均确定为第二语音样本，采集到的第一语言的语音信息直接确定为第一语音样本。

情况三、将采集到的第一语音样本确定为原始第一语音样本，并针对原始第一语音样本对应的部分或全部发音人，将该发音人的至少两个原始第一语音样本进行拼接，确定出第一拼接语音样本。将采集到的第二语言的语音信息确定为原始第二语音样本，针对原始第二语音样本对应的部分或全部发音人，将该发音人的至少两个原始第二语音样本进行拼接，确定出第二拼接语音样本。将每个原始第一语音样本以及每个第一拼接语音样本均确定为第一语音样本，将每个原始第二语音样本以及每个第二拼接语音样本均确定为第二语音样本。

在本发明实施例中，采集的语音样本可以是在智能设备的工作环境中采集到的，也可以是从专业的语音样本录制环境中采集到的，即第一语音样本包括从智能设备的工作环境中采集到的语音信息，和/或，从专业的语音样本录制环境中采集到的语音信息；第二语音样本包括从智能设备的工作环境中采集到的语音信息，和/或，从专业的样本录制环境中采集到的语音信息。

实施例4：下面通过具体的实施例对本发明实施例提供的语音合成模型训练方法进行详细的说明，图2为本发明实施例提供的一种语音合成模型训练流程示意图，该流程包括：

S201：确定包含有至少一个第一语音样本的样本集，以及该样本集中的每个第一语音样本对应的文本特征样本。

其中，任一第一语音样本对应的文本特征样本是根据预先配置的第一语言的语音单元集合与第二语言的语音单元集合的对应关系确定的。

比如，某一语音样本“有没有想我？”对应的第一文本特征为“you3 mei2 you3xiang2 wo3，该语音样本对应的文本特征样本为“ieu2 mei3 ieu2 xian3 o5”。

S202：获取样本集中的任一第一语音样本对应的文本特征样本。

S203：通过原始语音合成模型，基于该文本特征样本，获取该文本特征样本对应的第三声学特征。

S204：基于第三声学特征以及该第一语音样本的第一声学特征，对原始语音合成模型进行训练，获取训练完成的基础语音合成模型。

针对样本集中的每个第一语音样本，均执行上述S202～S204的步骤。当满足预设的第一收敛条件时，确定原始语音合成模型训练完成，获取到训练完成的基础语音合成模型。

当获取到训练完成的基础语音合成模型之后，确定基础语音合成模型的每个参数中各第一类参数，将基础语音合成模型中的各第一类参数的参数值，分别确定为目标语音合成模型中的对应参数的参数值。

S205：获取任一第二语音样本。

其中，第二语音样本为采用第二语言的语音样本，并且第二语音样本的数量远小于第一语音样本的数量。

S206：通过基础语音合成模型，基于该第二语音样本对应的第二文本特征，获取该第二文本特征对应的第四声学特征。

S207：基于第四声学特征以及该第二语音样本的第二声学特征，对基础语音合成模型中的各第二类参数的参数值进行训练，获取训练完成的目标语音合成模型。

针对任一二语音样本，均执行上述S205～S207的步骤。当满足预设的第二收敛条件)时，确定基础语音合成模型中的各第二类参数的参数值训练完成，获取到训练完成的目标语音合成模型。

实施例5：为了降低获取到第二语言对应的语音合成模型的难度、以及获取第二语言的语音样本的难度和所耗费的成本，本发明实施例还提供了一种语音合成模型训练方法，图3为本发明实施例提供的一种语音合成模型训练过程示意图，该过程包括：

S301：获取包含至少一个语音样本的样本集，语音样本包括采用第一语言的第一语音样本和采用第二语言的第二语言样本。

S302：基于样本集中的第一语音样本对应的第一文本特征和第一语音样本的第一声学特征，以及样本集中的第二语音样本对应的第二文本特征和第二语音样本的第二声学特征，对原始语音合成模型进行训练，得到基础语音合成模型；其中，第一文本特征是基于第一语言的语音单元集合确定的，第二文本特征是基于第二语言的语音单元集合确定的。

S303：基于第二语音样本对应的第二文本特征和第二语音样本的第二声学特征，对基础语音合成模型进行训练，得到目标语音合成模型。

为了快速生成方言的目标语音合成模型，需预先获取用于训练方言的目标语音合成模型的语音样本，基于该语音样本以及该语音样本对应的文本特征，对原始语音合成模型进行训练，从而获取到方言的目标语音合成模型。

由于在实际应用场景中，使用某种特定的方言的用户进行交流比较少，采集到该特定的方言的语音信息的难度也比较大，从而无法采集到可以满足用于训练目标语音合成模型的语音样本，而使用普通话的用户比较多，且比较容易采集到大量的语言为普通话的语音信息。因此，在本发明实施例中，可以将第一语言的语音信息以及第二语言的语音信息，均确定为样本集中的语音样本，即将采用第一语言的第一语音样本以及采用第二语言的第二语音样本，均确定为样本集中的语音样本。

具体实施过程中，语音合成模型的输入为文本特征，输出为该文本特征对应的至少一个声学特征，因此，当获取到了用于训练该方言的目标语音合成模型的语音样本之后，确定该语音样本对应的文本特征，即分别确定第一语音样本对应的第一文本特征、以及第二语音样本对应的第二文本特征，后续基于第一语音样本的第一声学特征以及对应的第一文本特征、第二语音样本的第二声学特征以及对应的第二文本特征，对原始语音合成模型进行训练。其中，第一文本特征是基于第一语言对应的语音单元集合确定的，第二文本特征是基于第二语言对应的语音单元集合确定的。

其中，确定第一文本特征以及确定第二文本特征的具体方法已在上述实施例中描述，重复之处不做赘述。

上述的方法可以理解为将第一语言对应的语音单元集合以及第二语言对应的语音单元集合进行合并。根据该合并后的语音单元集合，可实现根据第一语言对应的语音单元集合，确定第一语音样本对应的第一文本特征，根据第二语言对应的语音单元集合，确定第二语音样本对应的第二文本特征。

其中，第一语言的语音单元集合包括普通话的每个第一语音单元，第二语言的语音单元集合包括方言的每个第二语音单元。语音单元中包括声调以及至少一个语音单位元素，该语音单位元素可以为音素、声韵母、音节中的任一种。因此，在将第一语言对应的语音单元集合以及第二语言对应的语音单元集合进行合并时，不仅需要将第一语言对应的每个语音单位元素以及第二语言对应的每个语音单位元素进行合并，比如，普通话对应有63个语音单位元素，长沙话对应有62个语音单位元素，合并后的语音单元集合对应有125个语音单位元素，还需要将第一语言对应的每个声调与第二语言对应的每个声调进行合并。其中，在将第一语言对应的每个声调与第二语言对应的每个声调进行合并时，可以直接将第一语言对应的每个声调与第二语言对应的每个声调进行合并，比如，普通话对应有1、2、3、4、5(轻声)这5个声调，长沙话对应有1、2、3、4、5、6、0(轻声)这7个声调，可以直接将普通话对应的5个声调与长沙话对应的7个声调进行合并，确定合并后的语音单位集合对应有12个声调，也可以是确定第二语言对应的每个声调中，与第一语言对应的每个声调不同的目标声调，根据每个目标声调以及第一语言对应的每个声调，确定合并后的语音单位集合对应的每个声调。

比如，普通话和长沙话在1、2声调相差不大，较相似，而长沙话的3、4、5、6声调与普通话对应的每个声调均不同，则将长沙话的3、4、5、6声调确定为目标声调，根据每个目标声调以及普通话对应的每个声调，确定合并后的语音单位集合对应的每个声调，即将长沙话对应的3声调确定为定合并后的语音单位集合对应的7声调，长沙话对应的6声调确定为定合并后的语音单位集合对应的6声调，长沙话对应的4声调确定为定合并后的语音单位集合对应的8声调，长沙话对应的5声调确定为定合并后的语音单位集合对应的9声调，合并后的语音单位集合对应的声调有1、2、3、4、5、6(长沙话对应的6声调)、7(长沙话对应的3声调)、8(长沙话对应的4声调)、9(长沙话对应的5声调)。

具体实施过程中，为了可以获取到第二语言的目标语音合成模型，获取样本集中任一语音样本对应的文本特征(包括第一文本特征和第二文本特征)，若该语音样本为第一语音样本时，将该第一语音样本对应的第一文本特征以及该第一语音样本输入到原始语音合成模型。通过原始语音合成模型，基于该第一文本特征，确定该第一文本特征对应的至少一个第三声学特征。根据该第一语音样本对应的每个第三声学特征以及该第一语音样本的第一声学特征，对原始语音合成模型进行训练，以对原始语音合成模型中的各个参数的参数值进行调整。若该语音样本为第二语音样本，将该第二语音样本对应的第二文本特征以及该第二语音样本输入到原始语音合成模型。通过原始语音合成模型，基于该第二文本特征，确定该第二文本特征对应的至少一个第四声学特征。根据该第二语音样本对应的每个第四声学特征以及该第二语音样本的第二声学特征，对原始语音合成模型进行训练，以对原始语音合成模型中的各个参数的参数值进行调整。

当确定已训练的语音合成模型满足预设的第一收敛条件时，该基础语音合成模型训练完成。

在基于样本集中的每个语音样本分别对应的文本特征以及每个语音样本的声学特征(包括第一声学特征和第二声学特征)，获取到训练完成的语音合成模型之后，将该语音合成模型确定为基础语音合成模型，后续基于预先收集的每个第二语音样本的第二声学特征以及每个第二语音样本对应的第二文本特征，在该基础语音合成模型的基础上，对该基础语音合成进行进一步地训练，实现对该基础语音合成模型进一步地调优，以准确地获取到第二语言对应的目标语音合成模型，提高目标语音合成模型的准确性。

具体实施过程中，当获取到基础语音合成模型后，可以从该基础语音合成模型包含的每个参数中，确定每个第一类参数，并将基础语音合成模型中的各第一类参数的参数值，分别确定为目标语音合成模型中的与各第一类参数对应的参数的参数值，并将该基础语音合成模型包含的每个参数中，除第一类参数之外的其他参数确定为第二类参数。

获取任一第二语音样本对应的第二文本特征，将该第二文本特征输入到基础语音合成模型。通过基础语音合成模型，基于该第二语音样本对应的第二文本特征，获取该第二文本特征对应的至少一个声学特征(为了方便描述，记为第四声学特征)。基于该第二语音样本对应的每个第四声学特征以及该第二语音样本的第二声学特征，对基础语音合成模型中的各第二类参数的参数值进行训练，即对基础语音合成模型中的各第二类参数的参数值进行调整，以确定目标语音合成模型中个第二类参数对应参数的参数值。

针对用于训练基础语音合成模型的每个第二语音样本均执行上述的步骤。当确定满足预设的第二收敛条件时，则确定目标语音合成模型训练完成。

需要说明的是，具体的获取目标语音合成模型的过程与上述实施例1-4中描述的获取目标语音合成模型的过程类似，重复之处不做赘述。

下面通过具体的实施例对本发明实施例提供的语音合成模型训练方法进行详细的说明，图4为本发明实施例提供的一种语音合成模型训练流程示意图，该流程包括：

S401：确定包含有至少一个语音样本的样本集，以及该样本集中包括采用第一语言的第一语音样本以及采用第二语言的第二语音样本。

S402：基于样本集中的第一语音样本对应的第一文本特征和第一语音样本的第一声学特征，及样本集中的第二语音样本对应的第二文本特征和第二语音样本的第二声学特征，对原始语音合成模型进行训练，得到基础语音合成模型。

具体的，当获取到训练完成的基础语音合成模型之后，确定基础语音合成模型的每个参数中各第一类参数，将基础语音合成模型中的各第一类参数的参数值，分别确定为目标语音合成模型中的对应参数的参数值。

S403：获取至少一个第二语音样本。其中，第二语音样本为采用第二语言的语音样本，并且第二语音样本的数量远小于第一语音样本的数量。

S404：通过基础语音合成模型，基于该第二语音样本对应的第二文本特征，获取该第二文本特征对应的第四声学特征。

S405：基于第四声学特征以及第二声学特征，对基础语音合成模型中的各第二类参数的参数值进行训练。

针对任一二语音样本，均执行上述S403～S405的步骤。当满足预设的第二收敛条件)时，确定基础语音合成模型中的各第二类参数的参数值训练完成，获取到训练完成的目标语音合成模型。

实施例6：本发明实施例提供了一种语音合成方法，图5为本发明实施例提供的一种语音合成过程示意图，该过程包括：

S501：获取文本信息的文本特征，文本特征是基于第二语言的语音单元集合确定的。

S502：通过预先训练完成的目标语音合成模型，获取文本特征对应的至少一个声学特征。

S503：基于至少一个声学特征以及声码器，确定通过第二语言发出文本信息的语音信息。

本发明实施例提供的语音合成方法应用于电子设备，该电子设备可以为如机器人等智能设备，也可以为服务器。

其中，本发明实施例中进行语音合成的电子设备可以与上述进行语音合成模型训练的电子设备相同，也可以不同。

在一种可能的实施方式中，由于在进行目标语音合成模型训练的过程中，一般采用离线的方式，进行语音合成模型训练的电子设备预先通过样本集中的每个第一语音样本以及每个第一语音样本对应的文本特征样本，对原始语音合成模型进行训练，以获得第二语言对应的目标语音合成模型，其中，任一第一语音样本对应的文本特征样本是根据预先配置的第一语言的语音单元集合与第二语言的语音单元集合的对应关系确定的。

在另一种可能的实施方式中，由于在进行目标语音合成模型训练的过程中，一般采用离线的方式，进行语音合成模型训练的电子设备通过样本集中的至少一个语音样本，该语音样本包括采用第一语言的第一语音样本以及采用第二语言的第二语音样本，基于样本集中的第一语音样本对应的第一文本特征和第一语音样本的第一声学特征，以及样本集中的第二语音样本对应的第二文本特征和第二语音样本的第二声学特征，对原始语音合成模型进行训练，得到基础语音合成模型，然后通过至少一个第二语音样本对应的第二文本特征以及第二语音样本的第二声学特征，对基础语音合成模型进行进一步地训练，获取训练完成的目标语音合成模型，其中，第一文本特征为第一语言的文本特征，第二文本特征为第二语言的文本特征。

基于上述实施例中训练完成的目标语音合成模型，将上述训练完成的目标语音合成模型保存到后续进行语音合成的电子设备中。

为了生成第二语言的语音信息，在本发明实施例中，当获取到需要进行文本转语音(Text to Speech，TTS)处理的文本信息后，需要根据预先配置的第二语言的语音单元集合，确定该文本信息对应的文本特征。

在一种可能的实施方式中，在根据预先配置的第二语言的语音单元集合，确定该文本信息对应的文本特征时，可以先获取该文本信息对应的采用第一语音的语音单元集合确定的第一文本特征，然后根据预先配置的第一语言的语音单元集合与第二语言的语音单元集合的对应关系，确定该第一文本特征对应的每个第二语音单元，根据该第一文本特征对应的每个第二语音单元，确定该文本信息对应的文本特征。其中，可以通过人工标注的方法获取该文本信息对应的第一文本特征，也可以通过文本标注工具确定，具体实施过程中，可以根据实际需求进行灵活设置，在此不作具体限定。

具体的，首先基于第一语言的语音单元集合，确定该文本信息的第一文本特征。针对该第一文本特征中所包含的每个第一语音单元，根据预先配置的第一语言的语音单元集合与第二语言的语音单元集合的对应关系，确定该第一语音单元对应的第二语言的第二语音单元。依次根据该第一文本特征对应的每个第二语音单元，确定该文本信息对应的文本特征。

然后通过预先训练完成的目标语音合成模型，可以获取到该文本特征对应的至少一个声学特征。基于每个声学特征以及声码器，比如，WORLD声码器、LPC声码器等，确定通过第二语言发出该文本信息的语音信息。

其中，基于每个声学特征以及声码器，确定通过第二语言发出该文本信息的语音信息，属于现有技术，在此不做赘述。

实施例7：本发明实施例提供了一种语音合成模型训练装置，图6为本发明实施例提供的一种语音合成模型训练装置的结构示意图，装置包括：

获取单元61，用于获取包含至少一个第一语音样本的样本集，第一语音样本为采用第一语言的语音样本，第一语音样本对应的文本特征样本是根据预先配置的第一语言的语音单元集合与第二语言的语音单元集合的对应关系确定；

训练单元62，用于基于样本集中的第一语音样本对应的文本特征样本和第一语音样本的第一声学特征，对原始语音合成模型进行训练，以获取第二语言对应的目标语音合成模型。

在一种可能的实施方式中，获取单元61还用于获取样本集中任一第一语音样本对应的文本特征样本；

训练单元62具体用于基于第一语音样本对应的文本特征样本和第一语音样本的第一声学特征，对原始语音合成模型进行训练，得到基础语音合成模型；

获取单元61还用于获取至少一个第二语音样本，第二语音样本为采用第二语言的语音样本，且第二语音样本的数量远小于第一语音样本的数量；

训练单元62具体用于基于第二语音样本对应的第二文本特征和第二语音样本的第二声学特征，对基础语音合成模型进行训练，得到目标语音合成模型，第二文本特征是基于第二语言的语音单元集合确定的。

在一种可能的实施方式中，训练单元62具体用于：得到基础语音合成模型之后，将基础语音合成模型中的各第一类参数的参数值，分别确定为目标语音合成模型中的对应参数的参数值；

训练单元62具体用于：基于第二语音样本对应的第二文本特征和第二语音样本的第二声学特征，对基础语音合成模型中的第二类参数的参数值进行调整，以确定目标语音合成模型中的对应参数的参数值。

在一种可能的实施方式中，样本集中还包括至少一个第二语音样本，训练单元62具体用于：基于第二语音样本对应的第二文本特征样本和第二语音样本的第二声学特征，对原始语音合成模型进行训练，得到基础语音合成模型。

实施例8：本发明实施例提供了一种语音合成模型训练装置，图7为本发明实施例提供的再一种语音合成模型训练装置的结构示意图，装置包括：

获取模块71，用于获取包含至少一个语音样本的样本集，语音样本包括采用第一语言的第一语音样本和采用第二语言的第二语言样本；

第一训练模块72，用于基于样本集中的第一语音样本对应的第一文本特征和第一语音样本的第一声学特征，以及样本集中的第二语音样本对应的第二文本特征和第二语音样本的第二声学特征，对原始语音合成模型进行训练，得到基础语音合成模型；其中，第一文本特征是基于第一语言的语音单元集合确定的，第二文本特征是基于第二语言的语音单元集合确定的；

第二训练模块73，用于基于第二语音样本对应的第二文本特征和第二语音样本的第二声学特征，对基础语音合成模型进行训练，得到目标语音合成模型。

在一种可能的实施方式中，第一训练模块72具体用于：

得到基础语音合成模型之后，将基础语音合成模型中的各第一类参数的参数值，分别确定为目标语音合成模型中的对应参数的参数值；

第二训练模块73具体用于：

实施例9：本发明实施例提供了一种基于上述任一实施例1-5中的语音合成模型训练方法得到的目标语音合成模型的语音合成装置，图8为本发明实施例提供的一种语音合成装置的结构示意图，装置包括：

确定模块81，用于获取文本信息的文本特征，文本特征是基于第二语言的语音单元集合确定的；

处理模块82，用于通过预先训练完成的目标语音合成模型，获取文本特征对应的至少一个声学特征；

合成模块83，用于基于至少一个声学特征以及声码器，确定通过第二语言发出文本信息的语音信息。

实施例10：在上述实施例的基础上，本发明实施例还提供了一种电子设备，如图9所示，包括：处理器91、通信接口92、存储器93和通信总线94，其中，处理器91，通信接口92，存储器93通过通信总线94完成相互间的通信；

存储器93中存储有计算机程序，当程序被处理器91执行时，使得处理器91执行如下步骤：

获取包含至少一个第一语音样本的样本集，第一语音样本为采用第一语言的语音样本，第一语音样本对应的文本特征样本是根据预先配置的第一语言的语音单元集合与第二语言的语音单元集合的对应关系确定的；基于样本集中的第一语音样本对应的文本特征样本和第一语音样本的第一声学特征，对原始语音合成模型进行训练，以获取第二语言对应的目标语音合成模型。

由于上述电子设备解决问题的原理与语音合成模型训练方法相似，因此上述电子设备的实施可以参见方法的实施例1-4，重复之处不再赘述。

实施例11：在上述各实施例的基础上，本发明实施例还提供了一种电子设备，如图10所示，包括：处理器1001、通信接口1002、存储器1003和通信总线1004，其中，处理器1001，通信接口1002，存储器1003通过通信总线1004完成相互间的通信；

存储器1003中存储有计算机程序，当程序被处理器1001执行时，使得处理器1001执行如下步骤：

获取包含至少一个语音样本的样本集，语音样本包括采用第一语言的第一语音样本和采用第二语言的第二语言样本；基于样本集中的第一语音样本对应的第一文本特征和第一语音样本的第一声学特征，以及样本集中的第二语音样本对应的第二文本特征和第二语音样本的第二声学特征，对原始语音合成模型进行训练，得到基础语音合成模型；其中，第一文本特征是基于第一语言的语音单元集合确定的，第二文本特征是基于第二语言的语音单元集合确定的；基于第二语音样本对应的第二文本特征和第二语音样本的第二声学特征，对基础语音合成模型进行训练，得到目标语音合成模型。

由于上述电子设备解决问题的原理与语音合成模型训练方法相似，因此上述电子设备的实施可以参见方法的实施例5，重复之处不再赘述。

实施例12：在上述各实施例的基础上，本发明实施例还提供了一种电子设备，如图11所示，包括：处理器1101、通信接口1102、存储器1103和通信总线1104，其中，处理器1101，通信接口1102，存储器1103通过通信总线1104完成相互间的通信；

存储器1103中存储有计算机程序，当程序被处理器1101执行时，使得处理器1101执行如下步骤：

获取文本信息的文本特征，文本特征是基于第二语言的语音单元集合确定的；通过预先训练完成的目标语音合成模型，获取文本特征对应的至少一个声学特征；基于至少一个声学特征以及声码器，确定通过第二语言发出文本信息的语音信息。

由于上述电子设备解决问题的原理与语音合成方法相似，因此上述电子设备的实施可以参见方法的实施，重复之处不再赘述。

上述电子设备提到的通信总线可以是外设部件互连标准(Peripheral ComponentInterconnect，PCI)总线或扩展工业标准结构(Extended Industry StandardArchitecture，EISA)总线等。该通信总线可以分为地址总线、数据总线、控制总线等。为便于表示，图中仅用一条粗线表示，但并不表示仅有一根总线或一种类型的总线。

通信接口1102用于上述电子设备与其他设备之间的通信。

存储器可以包括随机存取存储器(Random Access Memory，RAM)，也可以包括非易失性存储器(Non-Volatile Memory，NVM)，例如至少一个磁盘存储器。可选地，存储器还可以是至少一个位于远离前述处理器的存储装置。

上述处理器可以是通用处理器，包括中央处理器、网络处理器(NetworkProcessor，NP)等；还可以是数字指令处理器(Digital Signal Processing，DSP)、专用集成电路、现场可编程门陈列或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。

实施例13：在上述各实施例的基础上，本发明实施例还提供了一种计算机可读存储介质，计算机可读存储介质内存储有可由处理器执行的计算机程序，当程序在处理器上运行时，使得处理器执行时实现如下步骤：

由于上述计算机可读存储介质解决问题的原理与语音合成模型训练方法相似，因此上述计算机可读存储介质的实施可以参见方法的实施1-4，重复之处不再赘述。

实施例14：在上述各实施例的基础上，本发明实施例还提供了一种计算机可读存储介质，计算机可读存储介质内存储有可由处理器执行的计算机程序，当程序在处理器上运行时，使得处理器执行时实现如下步骤：

由于上述计算机可读存储介质解决问题的原理与语音合成模型训练方法相似，因此上述计算机可读存储介质的实施可以参见方法的实施5，重复之处不再赘述。

实施例15：在上述各实施例的基础上，本发明实施例还提供了一种计算机可读存储介质，计算机可读存储介质内存储有可由处理器执行的计算机程序，当程序在处理器上运行时，使得处理器执行时实现如下步骤：

由于上述计算机可读存储介质解决问题的原理与语音合成方法相似，因此上述计算机可读存储介质的实施可以参见方法的实施，重复之处不再赘述。

本领域内的技术人员应明白，本申请的实施例可提供为方法、系统、或计算机程序产品。因此，本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本申请是参照根据本申请的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

显然，本领域的技术人员可以对本申请进行各种改动和变型而不脱离本申请的精神和范围。这样，倘若本申请的这些修改和变型属于本申请权利要求及其等同技术的范围之内，则本申请也意图包含这些改动和变型在内。

Claims

1.一种语音合成模型训练方法，其特征在于，所述方法包括：

基于所述样本集中的第一语音样本对应的文本特征样本和所述第一语音样本的第一声学特征，对原始语音合成模型进行训练，以获取所述第二语言对应的目标语音合成模型；

其中，任一语音样本对应的文本特征包括：所述语音样本的声韵母序列、所述语音样本中包括的每个词语的词性和分词信息、所述语音样本的语调、以及所述声韵母序列对应的韵律特征中的至少一种；

第一语言的语音单元集合与第二语言的语音单元集合的对应关系的配置过程包括：第一语音单元为第一语言的语音单元集合中的语音单元，第二语音单元为第二语言的语音单元集合中的语音单元，确定第二语言的语音单元集合中与该第一语音单元的发音相似的第二语音单元，建立该第一语音单元、及与该第一语音单元发音相似的第二语音单元之间的对应关系。

2.根据权利要求1所述的方法，其特征在于，所述基于所述样本集中的第一语音样本对应的文本特征样本和所述第一语音样本的第一声学特征，对原始语音合成模型进行训练，以获取所述第二语言对应的目标语音合成模型，包括：

获取所述样本集中任一第一语音样本对应的文本特征样本；基于所述第一语音样本对应的文本特征样本和所述第一语音样本的第一声学特征，对所述原始语音合成模型进行训练，得到基础语音合成模型；

获取至少一个第二语音样本，所述第二语音样本为采用所述第二语言的语音样本，且所述第二语音样本的数量远小于第一语音样本的数量；基于所述第二语音样本对应的第二文本特征和所述第二语音样本的第二声学特征，对所述基础语音合成模型进行训练，得到所述目标语音合成模型，所述第二文本特征是基于所述第二语言的语音单元集合确定的。

3.根据权利要求2所述的方法，其特征在于，所述得到基础语音合成模型之后，所述方法还包括：

将所述基础语音合成模型中的各第一类参数的参数值，分别确定为所述目标语音合成模型中的对应参数的参数值；

所述基于所述第二语音样本对应的第二文本特征和所述第二语音样本的第二声学特征，对所述基础语音合成模型进行训练，包括：

基于所述第二语音样本对应的第二文本特征和所述第二语音样本的第二声学特征，对所述基础语音合成模型中的第二类参数的参数值进行调整，以确定所述目标语音合成模型中的对应参数的参数值。

4.根据权利要求3所述的方法，其特征在于，所述第一类参数包括所述基础语音合成模型中编码器所包含的参数；

所述第二类参数包括所述基础语音合成模型中的学习率、迭代次数、批量大小、解码器所包含的参数中的至少一种。

5.根据权利要求2所述的方法，其特征在于，所述样本集中还包括至少一个所述第二语音样本；基于所述第一语音样本对应的文本特征样本和所述第一语音样本的第一声学特征，对所述原始语音合成模型进行训练，得到基础语音合成模型，还包括：

基于所述第二语音样本对应的第二文本特征和所述第二语音样本的第二声学特征，对所述原始语音合成模型进行训练，得到所述基础语音合成模型。

6.根据权利要求1-5任一所述的方法，其特征在于，任一语音样本的声学特征包括：所述语音样本的音频谱参数、所述语音样本的音频时长以及所述语音样本的基频中的至少一种，其中，所述语音样本包括所述第一语音样本和所述第二语音样本。

7.根据权利要求1-5任一所述的方法，其特征在于，所述第一语言为普通话，所述第二语言为方言。

8.一种基于如权利要求1-7任一项所述语音合成模型训练方法获取到的目标语音合成模型的语音合成方法，其特征在于，所述方法包括：

9.一种语音合成模型训练装置，其特征在于，所述装置包括：

训练单元，用于基于所述样本集中的第一语音样本对应的文本特征样本和所述第一语音样本的第一声学特征，对原始语音合成模型进行训练，以获取所述第二语言对应的目标语音合成模型；

10.根据权利要求9所述的装置，其特征在于，所述获取单元，还用于获取所述样本集中任一第一语音样本对应的文本特征样本；

所述训练单元具体用于：基于所述第一语音样本对应的文本特征样本和所述第一语音样本的第一声学特征，对所述原始语音合成模型进行训练，得到基础语音合成模型；

所述获取单元，还用于获取至少一个第二语音样本，所述第二语音样本为采用所述第二语言的语音样本，且所述第二语音样本的数量远小于第一语音样本的数量；

所述训练单元具体用于：基于所述第二语音样本对应的第二文本特征和所述第二语音样本的第二声学特征，对所述基础语音合成模型进行训练，得到所述目标语音合成模型，所述第二文本特征是基于所述第二语言的语音单元集合确定的。

11.根据权利要求10所述的装置，其特征在于，所述训练单元具体用于：

得到基础语音合成模型之后，将所述基础语音合成模型中的各第一类参数的参数值，分别确定为所述目标语音合成模型中的对应参数的参数值；

12.根据权利要求10所述的装置，其特征在于，所述样本集中还包括至少一个所述第二语音样本，所述训练单元具体用于：

基于所述第二语音样本对应的第二文本特征样本和所述第二语音样本的第二声学特征，对所述原始语音合成模型进行训练，得到所述基础语音合成模型。

13.一种基于如权利要求1-7任一项所述语音合成模型训练方法获取到的目标语音合成模型的语音合成装置，其特征在于，所述装置包括：

14.一种电子设备，其特征在于，所述电子设备至少包括处理器和存储器，所述处理器用于执行存储器中存储的计算机程序时实现如权利要求1-7中任一所述语音合成模型训练方法的步骤，或者，实现如权利要求8所述语音合成方法的步骤。

15.一种计算机可读存储介质，其特征在于，其存储有计算机程序，所述计算机程序被处理器执行时实现如权利要求1-7中任一所述语音合成模型训练方法的步骤，或者，实现如权利要求8所述语音合成方法的步骤。