CN112669841A

CN112669841A - 多语种语音的生成模型的训练方法、装置及计算机设备

Info

Publication number: CN112669841A
Application number: CN202011503535.2A
Authority: CN
Inventors: 陈闽川; 马骏; 王少军
Original assignee: Ping An Technology Shenzhen Co Ltd
Current assignee: Ping An Technology Shenzhen Co Ltd
Priority date: 2020-12-18
Filing date: 2020-12-18
Publication date: 2021-04-16

Abstract

本发明公开了一种多语种语音的生成模型的训练方法、装置及计算机设备，该方法包括：若接收到用户输入的多语种语音，获取多语种语音的文本、目标梅尔频谱以及用户的声纹特征向量；根据国际音标表对文本进行处理并将处理后的文本输入到编码器中，得到音素特征向量；将音素特征向量与声纹特征向量进行拼接，得到多语种语音的特征向量；将特征向量输入到解码器中，得到预测梅尔频谱；根据预测梅尔频谱、目标梅尔频谱更新编码器、解码器的网络参数。本发明基于语音语义技术，在对生成模型进行训练的过程中，通过添加多语种语音的国际音标，使得多语种语音的语句在解码过程中实现了对齐，解决了后续无法完整的将多语种语音生成指定说话人的语音的问题。

Description

多语种语音的生成模型的训练方法、装置及计算机设备

技术领域

本发明涉及语音语义技术领域，尤其涉及一种多语种语音的生成模型的训练方法、装置及计算机设备。

背景技术

在现有技术中，虽然能较易将单语言语音生成特定说话人的语音，但是在使用多语种语音生成特定说话人的语音的过程中，语言转换的衔接部分不流畅，无法准确读取多语种语音中特定的字符，导致生成的多语种语音出现发音错误的现象，且无法清晰的体现出特定说话人的特征。

发明内容

针对上述技术问题，本发明实施例提供了一种多语种语音的生成模型的训练方法、装置及计算机设备，通过添加多语种语音的国际音标，使得多语种语音的语句在编码过程中对齐，实现了将用户的多语种语音生成指定说话人的梅尔频谱。

第一方面，本发明实施例提供了一种多语种语音的生成模型的训练方法，其包括：

若接收到用户输入的多语种语音，获取所述多语种语音的文本、目标梅尔频谱以及所述用户的声纹特征向量；

根据预设的国际音标表对所述文本进行处理并将处理后的文本输入到编码器中，得到所述多语种语音的音素特征向量；

将所述音素特征向量与所述声纹特征向量进行拼接，得到所述多语种语音的特征向量；

将所述多语种语音的特征向量输入到解码器中，得到所述多语种语音的预测梅尔频谱；

根据所述预测梅尔频谱、所述目标梅尔频谱更新所述编码器、所述解码器的网络参数。

第二方面，本发明实施例提供了一种多语种语音的生成模型的训练装置，其包括：

接收单元，用于若接收到用户输入的多语种语音，获取所述多语种语音的文本、目标梅尔频谱以及所述用户的声纹特征向量；

处理单元，用于根据预设的国际音标表对所述文本进行处理并将处理后的文本输入到编码器中，得到所述多语种语音的音素特征向量；

第一拼接单元，用于将所述音素特征向量与所述声纹特征向量进行拼接，得到所述多语种语音的特征向量；

解码单元，用于将所述多语种语音的特征向量输入到解码器中，得到所述多语种语音的预测梅尔频谱；

第一更新单元，用于根据所述预测梅尔频谱、所述目标梅尔频谱更新所述编码器、所述解码器的网络参数。

第三方面，本发明实施例又提供了一种计算机设备，包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现如上述第一方面所述的多语种语音的生成模型的训练方法。

第四方面，本发明实施例还提供了一种计算机可读存储介质，其中所述计算机可读存储介质存储有计算机程序，所述计算机程序当被处理器执行时使所述处理器执行上述第一方面所述的多语种语音的生成模型的训练方法。

本发明实施例提供了一种多语种语音的生成模型的训练方法、装置、计算机设备及存储介质，该方法包括：若接收到用户输入的多语种语音，获取所述多语种语音的文本、目标梅尔频谱以及所述用户的声纹特征向量；根据预设的国际音标表对所述文本进行处理并将处理后的文本输入到编码器中，得到所述多语种语音的音素特征向量；将所述音素特征向量与所述声纹特征向量进行拼接，得到所述多语种语音的特征向量；将所述多语种语音的特征向量输入到解码器中，得到所述多语种语音的预测梅尔频谱；根据所述预测梅尔频谱、所述目标梅尔频谱更新所述编码器、所述解码器的网络参数。本发明实施例通过该方法使得多语种语音的语句在解码过程中实现了对齐，解决了后续无法完整的将多语种语音生成指定说话人的语音的问题。

附图说明

图1为本发明实施例提供的多语种语音的生成模型的训练方法的流程示意图；

图2为本发明实施例提供的多语种语音的生成模型的训练方法的子流程示意图；

图3为本发明实施例提供的多语种语音的生成模型的训练方法的另一子流程示意图；

图4为本发明实施例提供的多语种语音的生成模型的训练方法的另一子流程示意图；

图5为本发明实施例提供的多语种语音的生成模型的训练方法的另一流程示意图；

图6为本发明实施例提供的多语种语音的生成模型的训练方法的另一子流程示意图；

图7为本发明实施例提供的多语种语音的生成模型的训练装置的示意性框图；

图8为本发明实施例提供的多语种语音的生成模型的训练装置的子单元示意性框图；

图9为本发明实施例提供的多语种语音的生成模型的训练装置的另一子单元示意性框图；

图10为本发明实施例提供的多语种语音的生成模型的训练装置的另一子单元示意性框图；

图11为本发明实施例提供的计算机设备的示意性框图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

应当理解，当在本说明书和所附权利要求书中使用时，术语“包括”和“包含”指示所描述特征、整体、步骤、操作、元素和/或组件的存在，但并不排除一个或多个其它特征、整体、步骤、操作、元素、组件和/或其集合的存在或添加。

还应当理解，在此本发明说明书中所使用的术语仅仅是出于描述特定实施例的目的而并不意在限制本发明。如在本发明说明书和所附权利要求书中所使用的那样，除非上下文清楚地指明其它情况，否则单数形式的“一”、“一个”及“该”意在包括复数形式。

还应当进一步理解，在本发明说明书和所附权利要求书中使用的术语“和/或”是指相关联列出的项中的一个或多个的任何组合以及所有可能组合，并且包括这些组合。

请参阅图1，图1为本发明实施例提供的多语种语音的生成模型的训练方法的流程示意图。本发明实施例的所述的多语种语音的生成模型的训练方法应用于终端设备中，该方法通过安装于终端设备中的应用软件进行执行。其中，终端设备为具备接入互联网功能的终端设备，例如台式电脑、笔记本电脑、平板电脑或手机等设备。

下面对所述的多语种语音的生成模型的训练方法进行详细说明。如图1所示，该方法包括以下步骤S110～S150。

S110、若接收到用户输入的多语种语音，获取所述多语种语音的文本、目标梅尔频谱以及所述用户的声纹特征向量。

若接收到用户输入的多语种语音，获取所述多语种语音的文本、目标梅尔频谱以及所述用户的声纹特征向量。具体的，所述多语种语音为由至少两种以上的语言组成的语音，所述多语种语音的文本为终端采集到所述多语种语音的信号后，通过ASR系统便可得到所述多语种语音的文本，所述目标梅尔频谱为用户输入的多语种语音的真实梅尔频谱，所述用户的声纹特征向量为用于表征识别该用户身份，所述用户的声纹特征向量既可以通过模型学习得到也可以从预先训练好的说话人识别的网络中得到。

在另一实施例中，如图2所示，步骤S110包括子步骤S111、S112和S113。

S111、将所述多语种语音输入到预置的ASR系统中，得到所述文本。

将所述多语种语音输入到预置的ASR系统中，得到所述文本。具体的，所述ASR系统为用于将人类的语音中的词汇内容转换为计算机可读的输入，例如按键、二进制编码或者字符序列，所述ASR系统对所述多语种语音进行预处理，然后提取语音的特征并建立所述多语种语音识别所需的模板，在识别过程中要根据语音识别的模型，将语音模板与所述多语种语音信号的特征进行比较，根据一定的搜索和匹配策略，找出一系列最优的与所述多语种语音匹配的模板，最后根据该模板的定义，通过查表就可以得到所述文本。

S112、将所述多语种语音进行傅里叶转换并根据预置的梅尔滤波器组对转换后的多语种语音进行处理，得到所述目标梅尔频谱。

将所述多语种语音进行傅里叶转换并根据预置的梅尔滤波器组对转换后的多语种语音进行处理，得到所述目标梅尔频谱。具体的，终端设备接收到用户输入的多语种语音后，先对所述多语种语音进行预加重、分帧和加窗，得到预处理后的多语种语音，然后将预处理后的多语种语音进行快速傅里叶变换，从而获取分布在时间轴上不同时间窗内的频谱，最后将分布在时间轴上不同时间窗内的频谱分别通过梅尔滤波器组，得到所述目标梅尔频谱。

S113、将所述目标梅尔频谱进行倒谱分析，得到所述用户的声纹特征向量。

将所述目标梅尔频谱进行倒谱分析，得到所述用户的声纹特征向量。具体的，将所述目标梅尔频谱进行对数运算，对数运算完成后进行逆傅里叶变换便可得到梅尔频率倒谱系数，所述梅尔频率倒谱系数即为所述用户的声纹特征向量。

S120、根据预设的国际音标表对所述文本进行处理并将处理后的文本输入到编码器中，得到所述多语种语音的音素特征向量。

根据预设的国际音标表对所述文本进行处理并将处理后的文本输入到编码器中，得到所述多语种语音的音素特征向量。具体的，通过将所述标注有语种级音素的文本进行向量化并将向量化后的文本输入至编码器中，得到所述音素特征向量。其中，所述音素特征向量为所述多语种语音中文本的特征向量，所述国际音标表用于对语言中字符进行标音，所述国际音标表遵循一音一符，一符一音的原则。

在另一实施例中，如图3所示，步骤S120包括子步骤S121和S122。

S121、根据所述国际音标表对所述文本进行第一次标注，得到标注有音素的文本。

根据所述国际音标表对所述文本进行第一次标注，得到标注有音素的文本。具体的，音素是根据语音的自然属性划分出来的最小语音单位，依据音节里的发音动作来分析，一个动作构成一个音素；音标是记录音素的符号，是音素的标写符号，如汉语的拼音字母、英语的韦氏音标和国际音标等，一个音素只用一个音标表示，而一个音标并不只表示一个音素。在参照所述国际音标表对所述文本进行标注的过程中，首先对所述文本进行分词处理，得到所述文本中的每个字符，然后参照所述国际音标表对每个字符进行标注，使得每个字符均标注有国际音标，从而得到标注有音素的文本。

S122、根据预设的标注规则对所述标注有音素的文本进行第二次标注，得到标注有语种级音素的文本。

根据预设的标注规则对所述标注有音素的文本进行第二次标注，得到标注有语种级音素的文本。具体的，所述标注规则为用于对所述标注有音素的文本进行第二次标注，以便于将所述文本中语种进行区分的规则信息。例如，当所述文本包括中文和英文时，将所述标注有音素的文本中的中文字符标注为1，英文字符标注为2。当所述文本中包括三种以上的语种时，均可使用所述标注规则对所述标注有音素的文本进行标注。

在另一实施例中，如图4所示，步骤S120包括还子步骤S123和S124。

S123、将所述文本的字符序列、音素序列、语种序列分别输入至预置的词嵌入模型中，得到文本向量序列、音素向量序列以及语种向量序列。

将所述文本的字符序列、音素序列、语种序列分别输入至预置的词嵌入模型中，得到文本向量序列、音素向量序列以及语种向量序列。具体的，所述文本的字符序列为表示所述文本中所有字符的序列，所述音素序列为所述文本中每个字符的国际音标序列，所述语种序列为区分所述文本中语种标注的标签序列，所述文本的字符序列、所述音素序列、所述语种序列均以字符串的形式分别输入到所述词嵌入模型中进行向量化，便可得到所述文本向量序列、所述音素向量序列以及所述语种向量序列。

S124、将所述文本向量序列、所述音素向量序列以及所述语种向量序列进行拼接，得到所述向量化后的文本。

将所述文本向量序列、所述音素向量序列以及所述语种向量序列进行拼接，得到所述向量化后的文本。具体的，将所述文本向量序列、所述音素向量序列以及所述语种向量序列进行首尾拼接，便可得到所述向量化后的文本。

S130、将所述音素特征向量与所述声纹特征向量进行拼接，得到所述多语种语音的特征向量。

将所述音素特征向量与所述声纹特征向量进行拼接，得到所述多语种语音的特征向量。具体的，所述音素特征向量为所述多语种语音中文本的特征向量，所述声纹特征向量为用于辨识产生所述多语种语音的用户的身份，通过将所述音素特征向量与所述声纹特征向量进行首尾拼接，得到所述多语种语音的全部信息，然后输入到编码器中进行编码，便可得到所述多语种语音的特征向量。

S140、将所述多语种语音的特征向量输入到解码器中，得到所述多语种语音的预测梅尔频谱。

将所述多语种语音的特征向量输入到解码器中，得到所述多语种语音的预测梅尔频谱。具体的，所述解码器有循环神经网络构成并引入注意力机制，所述多语种语音的特征向量输入到所述解码器的循环神经网络过程中，通过所述注意力机制多次将所述多语种语音的特征向量在所述循环神经网络中循环，最终分类预测出所述多语种语音的预测梅尔频谱。在本发明实施例中，采用长短期记忆人工神经网络对所述特征向量进行分类预测，得到所述多语种语音的预测梅尔频谱。

S150、根据所述预测梅尔频谱、所述目标梅尔频谱更新所述编码器、所述解码器的网络参数。

根据所述预测梅尔频谱、所述目标梅尔频谱更新所述编码器、所述解码器的网络参数。具体的，通过所述预测梅尔频谱与所述目标梅尔频谱计算所述编码器以及所述解码器的损失，通过该损失对所述编码器以及所述解码器的网络参数进行调整，直至所述编码器以及所述解码器收敛，便可完成所述编码器以及所述解码器的训练。通过该方法使得多语种语音的语句在解码过程中实现了对齐，进而实现将用户的多语种语音生成指定说话人的梅尔频谱。

在另一实施例中，如图5所示，步骤S150之后，还包括步骤S160、S170和S180。

S160、将所述预测梅尔频谱、预设的说话人的声纹特征向量输入到生成器中，得到所述生成器生成的梅尔频谱。

将所述预测梅尔频谱、预设的说话人的声纹特征向量输入到生成器中，得到所述生成器生成的梅尔频谱。具体的，所述说话人的声纹特征向量为生成指定说话人的语音的声纹特征向量，该声纹特征向量用于辨别该说话人的身份。所述生成器用于根据所述用户的预测梅尔频谱以及预设的说话人的声纹特征向量生成该说话人的梅尔频谱，所述生成器生成该说话人的梅尔频谱后，将该说话人的梅尔频谱通过声码器编码，便可将所述用户的多语种语音转换成以该说话人的多语种语音。在本发明实施例中，所述生成器采用为残差生成器，通过该残差生成器便可以合成更加流畅清晰自然的语音。

S170、根据预置的分类判别模型对所述生成器生成的梅尔频谱进行分类判别，得到所述生成器生成的梅尔频谱的分类判别结果。

根据预置的分类判别模型对所述生成器生成的梅尔频谱进行分类判别，得到所述生成器生成的梅尔频谱的分类判别结果。具体的，所述分类判别模型为用于对所述生成器生成的梅尔频谱进行分类判别，得到该梅尔频谱是否是真实的模型，所述分类判别模型包括判别器和分类器，所述判别器用于判断所述生成器生成的梅尔频谱是否是真实的，所述分类器用于分类识别所述生成器生成的梅尔频谱的说话人身份。另外，所述判别器、所述分类器的网络最后一层不相同。

在另一实施例中，如图6所示，步骤S170包括子步骤S171和S172。

S171、将所述生成器生成的梅尔频谱、所述预测梅尔频谱进行拼接，得到拼接后的梅尔频谱。

将所述生成器生成的梅尔频谱、所述预测梅尔频谱进行拼接，得到拼接后的梅尔频谱。具体的，所述生成器生成的梅尔频谱的向量表示的维度与所述预测梅尔频谱的向量表示的维度相同，通过将所述生成器生成的梅尔频谱、所述预测梅尔频谱进行拼接，所述拼接后的梅尔频谱通过编码器进行编译后，能生成合成更加流畅清晰自然的语音，该语音能更好的体现所述预设的说话人的特征。

S172、将所述拼接后的梅尔频谱输入到所述分类判别模型中，得到所述分类判别结果。

将所述拼接后的梅尔频谱输入到所述分类判别模型中，得到所述分类判别结果。具体的，所述拼接后的梅尔频谱包含有所述预设的说话人的身份，通过将所述拼接后的梅尔频谱输入到所述分类判别模型中后，所述分类判别模型中的分类器从所述拼接后的梅尔频谱中分类识别出所述预设的说话人身份，然后便可通过分类判别模型中的判别器来对所述拼接后的梅尔频谱进行判别，得到所述分类判别结果，若所述分类判别结果为所述拼接后的梅尔频谱为合成的，则根据该结果调整所述生成器的网络参数，若所述分类判别结果为所述拼接后的梅尔频谱为真实的，则完成所述生成器的训练。

S180、根据所述分类判别结果更新所述生成器的网络参数。

在本发明实施例所提供的多语种语音的生成模型的训练方法中，通过若接收到用户输入的多语种语音，获取所述多语种语音的文本、目标梅尔频谱以及所述用户的声纹特征向量；根据预设的国际音标表对所述文本进行处理并将处理后的文本输入到编码器中，得到所述多语种语音的音素特征向量；将所述音素特征向量与所述声纹特征向量进行拼接，得到所述多语种语音的特征向量；将所述多语种语音的特征向量输入到解码器中，得到所述多语种语音的预测梅尔频谱；根据所述预测梅尔频谱、所述目标梅尔频谱更新所述编码器、所述解码器的网络参数。本发明实施例通过该方法使得多语种语音的语句在编码过程中对齐，解决了后续无法完整的将多语种语音生成指定说话人的语音的问题，同时能生成合成更加流畅清晰自然的语音且该语音能更好的体现说话人的特征。

本发明实施例还提供了一种多语种语音的生成模型的训练装置100，该装置用于执行前述多语种语音的生成模型的训练方法的任一实施例。具体地，请参阅图7，图7是本发明实施例提供的多语种语音的生成模型的训练装置100的示意性框图。

如图7所示，所述的多语种语音的生成模型的训练装置100，该装置包括接收单元110、处理单元120、第一拼接单元130、解码单元140和第一更新单元150。

接收单元110，用于若接收到用户输入的多语种语音，获取所述多语种语音的文本、目标梅尔频谱以及所述用户的声纹特征向量。

在其他发明实施例中，如图8所示，所述接收单元110包括：第一获取单元111、第二获取单元112和第三获取单元113。

第一获取单元111，用于将所述多语种语音输入到预置的ASR系统中，得到所述文本。

第二获取单元112，用于将所述多语种语音进行傅里叶转换并根据预置的梅尔滤波器组对转换后的多语种语音进行处理，得到所述目标梅尔频谱。

第三获取单元113，用于将所述目标梅尔频谱进行倒谱分析，得到所述用户的声纹特征向量。

处理单元120，用于根据预设的国际音标表对所述文本进行处理并将处理后的文本输入到编码器中，得到所述多语种语音的音素特征向量。

在其他发明实施例中，如图9所示，所述处理单元120包括：第一标注单元121和第二标注单元122。

第一标注单元121，用于根据所述国际音标表对所述文本进行第一次标注，得到标注有音素的文本。

第二标注单元122，用于根据预设的标注规则对所述标注有音素的文本进行第二次标注，得到标注有语种级音素的文本。

在其他发明实施例中，如图9所示，所述第所述处理单元120还包括：向量化单元123和第二拼接单元124。

向量化单元123，用于将所述文本的字符序列、音素序列、语种序列分别输入至预置的词嵌入模型中，得到文本向量序列、音素向量序列以及语种向量序列。

第二拼接单元124，用于将所述文本向量序列、所述音素向量序列以及所述语种向量序列进行拼接，得到所述向量化后的文本。

第一拼接单元130，用于将所述音素特征向量与所述声纹特征向量进行拼接，得到所述多语种语音的特征向量。

解码单元140，用于将所述多语种语音的特征向量输入到解码器中，得到所述多语种语音的预测梅尔频谱。

第一更新单元150，用于根据所述预测梅尔频谱、所述目标梅尔频谱更新所述编码器、所述解码器的网络参数。

在其他发明实施例中，所述的多语种语音的生成模型的训练装置100还包括：生成单元160、第一分类判别单元170和第二更新单元180。

生成单元160，用于将所述预测梅尔频谱、预设的说话人的声纹特征向量输入到生成器中，得到所述生成器生成的梅尔频谱。

第一分类判别单元170，用于根据预置的分类判别模型对所述生成器生成的梅尔频谱进行分类判别，得到所述生成器生成的梅尔频谱的分类判别结果。

在其他发明实施例中，如图10示，所述第一分类判别单元170包括：第三拼接单元171和第二分类判别单元172。

第三拼接单元171，用于将所述生成器生成的梅尔频谱、所述预测梅尔频谱进行拼接，得到拼接后的梅尔频谱。

分类单元172，用于将所述拼接后的梅尔频谱输入到所述分类判别模型中，得到所述分类判别结果。

第二更新单元180，用于根据所述分类判别结果更新所述生成器的网络参数。

本发明实施例所提供的多语种语音的生成模型的训练装置100用于执行上述若接收到用户输入的多语种语音，获取所述多语种语音的文本、目标梅尔频谱以及所述用户的声纹特征向量；根据预设的国际音标表对所述文本进行处理并将处理后的文本输入到编码器中，得到所述多语种语音的音素特征向量；将所述音素特征向量与所述声纹特征向量进行拼接，得到所述多语种语音的特征向量；将所述特征向量输入到解码器中，得到所述多语种语音的预测梅尔频谱；根据所述预测梅尔频谱、所述目标梅尔频谱更新所述编码器、所述解码器的网络参数。

请参阅图11，图11是本发明实施例提供的计算机设备的示意性框图。

参阅图11，该设备500包括通过系统总线501连接的处理器502、存储器和网络接口505，其中，存储器可以包括非易失性存储介质503和内存储器504。

该非易失性存储介质503可存储操作系统5031和计算机程序5032。该计算机程序5032被执行时，可使得处理器502执行多语种语音的生成模型的训练方法。

该处理器502用于提供计算和控制能力，支撑整个设备500的运行。

该内存储器504为非易失性存储介质503中的计算机程序5032的运行提供环境，该计算机程序5032被处理器502执行时，可使得处理器502执行多语种语音的生成模型的训练方法。

该网络接口505用于进行网络通信，如提供数据信息的传输等。本领域技术人员可以理解，图11中示出的结构，仅仅是与本发明方案相关的部分结构的框图，并不构成对本发明方案所应用于其上的设备500的限定，具体的设备500可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。

其中，所述处理器502用于运行存储在存储器中的计算机程序5032，以实现如下功能：若接收到用户输入的多语种语音，获取所述多语种语音的文本、目标梅尔频谱以及所述用户的声纹特征向量；根据预设的国际音标表对所述文本进行处理并将处理后的文本输入到编码器中，得到所述多语种语音的音素特征向量；将所述音素特征向量与所述声纹特征向量进行拼接，得到所述多语种语音的特征向量；将所述多语种语音的特征向量输入到解码器中，得到所述多语种语音的预测梅尔频谱；根据所述预测梅尔频谱、所述目标梅尔频谱更新所述编码器、所述解码器的网络参数。

本领域技术人员可以理解，图11中示出的设备500的实施例并不构成对设备500具体构成的限定，在其他实施例中，设备500可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。例如，在一些实施例中，设备500可以仅包括存储器及处理器502，在这样的实施例中，存储器及处理器502的结构及功能与图11所示实施例一致，在此不再赘述。

应当理解，在本发明实施例中，处理器502可以是中央处理单元(CentralProcessing Unit，CPU)，该处理器502还可以是其他通用处理器502、数字信号处理器502(Digital Signal Processor，DSP)、专用集成电路(Application Specific IntegratedCircuit，ASIC)、现成可编程门阵列(Field-Programmable Gate Array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。其中，通用处理器502可以是微处理器502或者该处理器502也可以是任何常规的处理器502等。

在本发明的另一实施例中提供计算机存储介质。该存储介质可以为非易失性的计算机可读存储介质。该存储介质存储有计算机程序5032，其中计算机程序5032被处理器502执行时实现以下步骤若接收到用户输入的多语种语音，获取所述多语种语音的文本、目标梅尔频谱以及所述用户的声纹特征向量；根据预设的国际音标表对所述文本进行处理并将处理后的文本输入到编码器中，得到所述多语种语音的音素特征向量；将所述音素特征向量与所述声纹特征向量进行拼接，得到所述多语种语音的特征向量；将所述多语种语音的特征向量输入到解码器中，得到所述多语种语音的预测梅尔频谱；根据所述预测梅尔频谱、所述目标梅尔频谱更新所述编码器、所述解码器的网络参数。

所属领域的技术人员可以清楚地了解到，为了描述的方便和简洁，上述描述的设备、装置和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。本领域普通技术人员可以意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、计算机软件或者二者的结合来实现，为了清楚地说明硬件和软件的可互换性，在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本发明的范围。

在本发明所提供的几个实施例中，应该理解到，所揭露的设备、装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为逻辑功能划分，实际实现时可以有另外的划分方式，也可以将具有相同功能的单元集合成一个单元，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另外，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口、装置或单元的间接耦合或通信连接，也可以是电的，机械的或其它的形式连接。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本发明实施例方案的目的。

另外，在本发明各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以是两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分，或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台设备500(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到各种等效的修改或替换，这些修改或替换都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应以权利要求的保护范围为准。

Claims

1.一种多语种语音的生成模型的训练方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的多语种语音的生成模型的训练方法，其特征在于，所述根据所述预测梅尔频谱、所述目标梅尔频谱更新所述编码器、所述解码器的网络参数之后，还包括：

将所述预测梅尔频谱、预设的说话人的声纹特征向量输入到生成器中，得到所述生成器生成的梅尔频谱；

根据预置的分类判别模型对所述生成器生成的梅尔频谱进行分类判别，得到所述生成器生成的梅尔频谱的分类判别结果；

根据所述分类判别结果更新所述生成器的网络参数。

3.根据权利要求2所述的多语种语音的生成模型的训练方法，其特征在于，所述根据预置的分类判别模型对所述生成器生成的梅尔频谱进行分类判别，得到所述生成器生成的梅尔频谱的分类判别结果，包括：

将所述生成器生成的梅尔频谱、所述预测梅尔频谱进行拼接，得到拼接后的梅尔频谱；

将所述拼接后的梅尔频谱输入到所述分类判别模型中，得到所述分类判别结果。

4.根据权利要求1所述的多语种语音的生成模型的训练方法，其特征在于，所述获取所述多语种语音的文本、目标梅尔频谱以及所述用户的声纹特征向量，包括：

将所述多语种语音输入到预置的ASR系统中，得到所述文本；

将所述多语种语音进行傅里叶转换并根据预置的梅尔滤波器组对转换后的多语种语音进行处理，得到所述目标梅尔频谱；

将所述目标梅尔频谱进行倒谱分析，得到所述用户的声纹特征向量。

5.根据权利要求1所述的多语种语音的生成模型的训练方法，其特征在于，所述根据预设的国际音标表对所述文本进行处理，包括：

根据所述国际音标表对所述文本进行第一次标注，得到标注有音素的文本；

根据预设的标注规则对所述标注有音素的文本进行第二次标注，得到标注有语种级音素的文本。

6.根据权利要求5所述的多语种语音的生成模型的训练方法，其特征在于，所述将处理后的文本输入到编码器中，得到所述多语种语音的音素特征向量，包括：

将所述标注有语种级音素的文本进行向量化并将向量化后的文本输入至编码器中，得到所述音素特征向量。

7.根据权利要求6所述的多语种语音的生成模型的训练方法，其特征在于，所述将所述标注有语种级音素的文本进行向量化，包括：

将所述文本的字符序列、音素序列、语种序列分别输入至预置的词嵌入模型中，得到文本向量序列、音素向量序列以及语种向量序列；

将所述文本向量序列、所述音素向量序列以及所述语种向量序列进行拼接，得到所述向量化后的文本。

8.一种多语种语音的生成模型的训练装置，其特征在于，包括：

9.一种计算机设备，包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现如权利要求1至7中任一项所述的多语种语音的生成模型的训练方法。

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储有计算机程序，所述计算机程序当被处理器执行时使所述处理器执行如权利要求1至7任一项所述的多语种语音的生成模型的训练方法。