CN111489734B

CN111489734B - 基于多说话人的模型训练方法以及装置

Info

Publication number: CN111489734B
Application number: CN202010260568.2A
Authority: CN
Inventors: 曾晓东
Original assignee: Alipay Hangzhou Information Technology Co Ltd
Current assignee: Alipay Hangzhou Information Technology Co Ltd
Priority date: 2020-04-03
Filing date: 2020-04-03
Publication date: 2023-08-22
Anticipated expiration: 2040-04-03
Also published as: CN111489734A

Abstract

本说明书实施例提供基于多说话人的模型训练方法以及装置，其中所述基于多说话人的模型训练方法包括：获取语音库中多个说话人的语音信息，以及语音信息对应的文本信息；将语音信息转换为声谱特征序列，以及，对文本信息进行标注处理，获得音素序列；对声谱特征序列和音素序列添加说话人标签，获得样本声谱特征序列以及样本音素序列；根据样本声谱特征序列和样本音素序列，构建训练样本集；根据训练样本集中的训练样本对初始声谱预测模型进行训练，获得主说话人的声谱预测模型；其中，初始声谱预测模型的超参数预设为在多个说话人中指定的主说话人的主说话人标识，并在训练过程中嵌入从语音信息提取的共享说话人特征。

Description

基于多说话人的模型训练方法以及装置

技术领域

本说明书实施例涉及信息处理技术领域，特别涉及一种基于多说话人的模型训练方法以及装置。本说明书一个或者多个实施例同时涉及一种基于多说话人的语音合成系统。

背景技术

随着科技的进步，语音已经作为一种有效的营销触达的方式，且随着应用场景以及设备的多样性，对于语音可变性以及可定制化的要求越来越高，目前，训练一个说话人的语音合成系统需要此说话人大量的音频数据，导致训练一个说话人的语音合成系统的成本较高，且耗费时间长，因此需要提供更低成本且更快速的方案。

发明内容

有鉴于此，本说明书实施例提供了一种基于多说话人的模型训练方法。本说明书一个或者多个实施例同时涉及一种基于多说话人的模型训练装置，一种基于多说话人的语音合成系统，一种计算设备，以及一种计算机可读存储介质，以解决现有技术中存在的技术缺陷。

本说明书实施例的第一方面，提供了一种基于多说话人的模型训练方法，包括：

获取语音库中多个说话人的语音信息，以及所述语音信息对应的文本信息；

将所述语音信息转换为声谱特征序列，以及，对所述文本信息进行标注处理，获得音素序列；

对所述声谱特征序列和所述音素序列添加说话人标签，获得样本声谱特征序列以及样本音素序列；

根据所述样本声谱特征序列和所述样本音素序列，构建训练样本集；

根据所述训练样本集中的训练样本对初始声谱预测模型进行训练，获得主说话人的声谱预测模型；其中，所述初始声谱预测模型的超参数预设为在所述多个说话人中指定的所述主说话人的主说话人标识，并在训练过程中嵌入从所述语音信息提取的共享说话人特征。

可选的，所述基于多说话人的模型训练方法，还包括：

获取待处理文本信息，将所述待处理文本信息进行标注处理，获得待处理音素序列；

将所述待处理音素序列以及所述共享说话人特征输入所述声谱预测模型进行声谱预测，获得所述声谱预测模型输出的所述主说话人的声谱特征序列；

根据所述主说话人的声谱特征序列以及所述主说话人标识进行语音合成，获得所述主说话人的时域语音信号。

可选的，所述声谱预测模型，具体采用如下方式进行声谱预测：

将所述待处理音素序列以及所述共享说话人特征输入所述声谱预测模型的编码器进行编码，获得所述编码器输出的隐层向量；

将所述隐层向量以及所述共享说话人特征输入所述声谱预测模型的位置敏感注意力机制，获得所述位置敏感注意力机制输出的上下文向量；

将所述上下文向量以及所述共享说话人特征输入所述声谱预测模型的解码器进行解码，获得所述解码器输出的所述主说话人的梅尔频谱帧序列，将所述梅尔频谱帧序列作为所述主说话人的声谱特征序列。

可选的，所述根据所述主说话人的声谱特征序列以及所述主说话人标识进行语音合成，获得所述主说话人的时域语音信号，包括：

将所述梅尔频谱帧序列输入声码器，对所述梅尔频谱帧序列进行语音合成，获得所述声码器输出的所述时域语音信号；其中，所述声码器的全局条件预设为所述主说话人标识。

可选的，所述根据所述主说话人的声谱特征序列以及所述主说话人标识进行语音合成，获得所述主说话人的时域语音信号步骤执行之后，还包括：

将所述时域语音信号以及目标说话人的目标说话人标识输入第一语音转换模型，对所述时域语音信号进行语音转换，获得所述第一语音转换模型输出的所述目标说话人的第一目标语音信号。

将所述时域语音信号输入第二语音转换模型，对所述时域语音信号进行语音转换，获得所述第二语音转换模型输出的第二目标语音信号。

本说明书实施例的第二方面，提供了一种基于多说话人的模型训练装置，包括：

获取模块，被配置为获取语音库中多个说话人的语音信息，以及所述语音信息对应的文本信息；

处理模块，被配置为将所述语音信息转换为声谱特征序列，以及，对所述文本信息进行标注处理，获得音素序列；

添加模块，被配置为对所述声谱特征序列和所述音素序列添加说话人标签，获得样本声谱特征序列以及样本音素序列；

构建模块，被配置为根据所述样本声谱特征序列和所述样本音素序列，构建训练样本集；

训练模块，被配置为根据所述训练样本集中的训练样本对初始声谱预测模型进行训练，获得主说话人的声谱预测模型；其中，所述初始声谱预测模型的超参数预设为在所述多个说话人中指定的所述主说话人的主说话人标识，并在训练过程中嵌入从所述语音信息提取的共享说话人特征。

本说明书实施例的第三方面，提供了一种基于多说话人的语音合成系统，包括：

声谱预测模块以及语音合成模块；

其中，所述声谱预测模块，被配置为获取待处理文本信息，将所述待处理文本信息进行标注处理，获得待处理音素序列；将所述待处理音素序列以及共享说话人特征输入声谱预测模型进行声谱预测，获得所述声谱预测模型输出的主说话人的声谱特征序列；其中，所述共享说话人特征从语音库中多个说话人的语音信息中提取；

所述语音合成模块，被配置为根据所述主说话人的声谱特征序列以及所述主说话人的主说话人标识进行语音合成，获得所述主说话人的时域语音信号。

可选的，所述声谱预测模型，通过如下方式进行训练：

获取所述语音库中所述多个说话人的所述语音信息，以及所述语音信息对应的文本信息；

对转换生成的声谱特征序列和所述音素序列添加说话人标签，获得样本声谱特征序列以及样本音素序列；

根据所述训练样本集中的训练样本对初始声谱预测模型进行训练，获得所述声谱预测模型；其中，所述初始声谱预测模型的超参数预设为在所述多个说话人中指定的所述主说话人的主说话人标识，并在训练过程中嵌入所述共享说话人特征。

可选的，所述语音合成模块，还被配置为：

可选的，所述基于多说话人的语音合成系统，还包括：

第一语音转换模块，被配置为将所述时域语音信号以及目标说话人的目标说话人标识输入第一语音转换模型，对所述时域语音信号进行语音转换，获得所述第一语音转换模型输出的所述目标说话人的第一目标语音信号。

可选的，所述基于多说话人的语音合成系统，还包括：

第二语音转换模块，被配置为将所述时域语音信号输入第二语音转换模型，对所述时域语音信号进行语音转换，获得所述第二语音转换模型输出的第二目标语音信号。

本说明书实施例的第四方面，提供了一种计算设备，包括：

存储器和处理器；

所述存储器用于存储计算机可执行指令，所述处理器用于执行所述计算机可执行指令：

本说明书实施例的第五方面，提供了一种计算机可读存储介质，其存储有计算机可执行指令，该指令被处理器执行时实现所述基于多说话人的模型训练方法的步骤。

本说明书提供一种基于多说话人的模型训练方法，通过获取语音库中多个说话人的语音信息，以及所述语音信息对应的文本信息；并对获取的多个说话人的语音信息以及文本信息进行预处理，构建训练样本集；根据所述训练样本集中的训练样本对初始声谱预测模型进行训练，获得主说话人的声谱预测模型；并在训练过程中嵌入从所述语音信息提取的共享说话人特征，实现了根据多个说话人的语音信息，并根据从多个说话人的语音信息提取出的共享说话人特征，训练多个说话人中主说话人的初始声谱预测模型，以多个说话人中除主说话人之外的说话人的语音信息作为辅助，训练主说话人的初始声谱预测模型，减少了对主说话人的语音信息的语音时长的需求，进而降低了训练初始声谱预测模型的训练成本，提高了训练初始声谱预测模型的训练效率。

附图说明

图1是本说明书一个实施例提供的一种基于多说话人的模型训练方法的处理流程图；

图2是本说明书一个实施例提供的一种应用于支付终端的基于多说话人的模型训练方法的处理流程图；

图3是本说明书一个实施例提供的一种基于多说话人的模型训练装置的示意图；

图4是本说明书一个实施例提供的一种基于多说话人的语音合成系统的示意图；

图5是本说明书一个实施例提供的一种计算设备的结构框图。

具体实施方式

在下面的描述中阐述了很多具体细节以便于充分理解本说明书。但是本说明书能够以很多不同于在此描述的其它方式来实施，本领域技术人员可以在不违背本说明书内涵的情况下做类似推广，因此本说明书不受下面公开的具体实施的限制。

在本说明书一个或多个实施例中使用的术语是仅仅出于描述特定实施例的目的，而非旨在限制本说明书一个或多个实施例。在本说明书一个或多个实施例和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式，除非上下文清楚地表示其他含义。还应当理解，本说明书一个或多个实施例中使用的术语“和/或”是指并包含一个或多个相关联的列出项目的任何或所有可能组合。

应当理解，尽管在本说明书一个或多个实施例中可能采用术语第一、第二等来描述各种信息，但这些信息不应限于这些术语。这些术语仅用来将同一类型的信息彼此区分开。例如，在不脱离本说明书一个或多个实施例范围的情况下，第一也可以被称为第二，类似地，第二也可以被称为第一。取决于语境，如在此所使用的词语“如果”可以被解释成为“在……时”或“当……时”或“响应于确定”。

在本说明书中，提供了一种基于多说话人的模型训练方法，本说明书一个或者多个实施例同时涉及一种基于多说话人的模型训练装置，一种基于多说话人的语音合成系统，一种计算设备，以及一种计算机可读存储介质，在下面的实施例中逐一进行详细说明。

本说明书提供的一种基于多说话人的模型训练方法实施例如下：

图1示出了根据本说明书一个实施例提供的一种基于多说话人的模型训练方法的处理流程图，包括步骤S102至步骤S110。

步骤S102，获取语音库中多个说话人的语音信息，以及所述语音信息对应的文本信息。

实际应用中，在对一个说话人的初始声谱预测模型进行训练的过程中，需要采集这个说话人大量的语音信息，来构建训练样本集，然而采集一个说话人大量的语音信息非常有难度，因此训练初始声谱预测模型的训练成本也很高，本说明书实施例，通过构建具有多个说话人的语音信息以及其文本信息的语音库，并基于多个说话人的语音信息，对多个说话人中主说话人进行初始声谱预测模型训练，降低了声谱预测模型的训练成本，并提高了声谱预测模型的训练效率。

具体的，初始声谱预测模型，是指未进行模型训练之前的初始模型，通过对初始声谱预测模型进行训练，可获得声谱预测模型；相应的，所述声谱预测模型，是指完成模型训练后的模型，此声谱预测模型可以根据文本信息，预测主说话人的声谱特征。

所述主说话人是所述多个说话人中的其中一个说话人；所述语音信息，为包含一句话的音频文件或者音频数据；相应的，所述文本信息，是与语音信息对应的文本文件或文本数据；所述语音库，是指用于存储语音信息，以及语音信息对应的文本信息的数据库或文件夹。

例如，在语音库中获取m个人的n条语音信息，以及这n条语音信息对应的n个文本信息，其中，主说话人A的语音信息有k条，对应的文本信息也有k条。

具体实施时，为了训练主说话人的初始声谱预测模型，需要采集多个说话人的语音信息，其中主说话人的语音信息应满足一定的语音时长，并以其他说话人的语音信息进行辅助，进而学习预测主说话人的声谱特征。

步骤S104，将所述语音信息转换为声谱特征序列，以及，对所述文本信息进行标注处理，获得音素序列。

具体的，在上述获取语音库中多个说话人的语音信息，以及语音信息对应的文本信息的基础上，需要对获取的语音信息以及文本信息分别进行预处理，将语音信息转换为声谱特征序列，将文本信息进行标注处理，获得音素序列，以便于后续生成训练样本对初始声谱预测模型进行模型训练。

其中，所述声谱特征序列，是指在语音信息中提取的具有辨识性的声谱特征所形成的序列，实际应用中，由于梅尔频谱更符合人耳的听觉特性，可以通过对语音信息分帧、加窗，再对每一帧语音信息做傅里叶变换，将语音信息转换为梅尔频谱帧序列。

所述音素序列，是由音素组成的序列，其中，音素，是根据语音的自然属性划分出来的最小语音单位，在汉语普通话中，普通话的发音结构是用音节表示，而音节又是由音素组成的，音素可以分为元音与辅音两大类，此外，音素还可以分为单音素、双音素、三音素等，例如：

文本信息为：“我们要出去”；

此文本信息对应的音节为：“wo3 men2 yao4 chu1 qu4”；

文本信息对应的音素为：“w o3 m en2 y ao4 ch u1 q u4”。

具体实施时，对文本信息进行标注处理，获得音素序列，是指根据文本信息的发音特点、语句类型、词性、停顿等方面，按照预设的标注规则对文本信息进行标注处理，获得音素序列，具体的，可以采用隐马尔可夫模型(Hidden Markov Model，HMM)对文本信息进行标注处理，此外，还可以采用其他方式对文本信息进行标注处理，在此不做限制。

实际应用中，除对文本信息进行标注处理，获得音素序列之外，还可以对文本信息进行其他处理，获得字符序列，词序列等，并针对字符序列或词序列形成训练样本，具体的，针对字符序列或词序列的处理方式与对音素序列的处理方式类似，参考对音素序列的具体处理方式即可，在此不再赘述。

沿用上例，将获取的n条语音信息转换为n个梅尔频谱帧序列，将这n条语音信息对应的n个文本信息，通过隐马尔可夫模型进行标注处理，获得n个音素序列，其中，主说话人A对应的梅尔频谱帧序列有k条，对应的音素序列也有k条。

步骤S106，对所述声谱特征序列和所述音素序列添加说话人标签，获得样本声谱特征序列以及样本音素序列。

具体的，在上述对语音库中多个说话人的语音信息，以及语音信息对应的文本信息进行预处理，获得声谱特征序列以及音素序列的基础上，需要为这些声谱特征序列以及音素序列添加说话人标签，以便更好地区分这些声谱特征序列以及音素序列是出自于哪一个说话人，进而形成训练样本对初始声谱预测模型进行训练。

实际应用中，对所述声谱特征序列和所述音素序列添加说话人标签，是指分别对声谱特征序列和音素序列添加说话人标签，具体的，说话人标签是以说话人的说话人标识作为标签，其中，说话人标识是指可以对说话人进行唯一标识的字符串。

沿用上例，将上述n个梅尔频谱帧序列，按照其对应的说话人的说话人标识，添加说话人标签，获得n个样本梅尔频谱帧序列，分别为：y₁、y₂、y₃…y_n，并将n个音素序列，按照其对应的说话人的说话人标识，添加说话人标签，获得n个样本音素序列，分别为：x₁、x₂、x₃…x_n，其中，主说话人A的主说话人标识为“speaker0035”，则将主说话人A对应的k个梅尔频谱帧序列，以及k个音素序列分别添加标签“speaker0035”，获得k个样本梅尔频谱帧序列，以及k个样本音素序列。

步骤S108，根据所述样本声谱特征序列和所述样本音素序列，构建训练样本集。

具体的，在上述获得样本声谱特征序列和样本音素序列的基础上，根据获得的样本声谱特征序列和样本音素序列，构建训练样本集，通过训练样本集中的训练样本对初始声谱预测模型进行有监督训练。

具体实施时，所述训练样本集中的训练样本由一个样本音素序列及其对应的样本声谱特征序列组成，其中，样本声谱特征序列作为对样本音素序列进行声谱预测训练的已知输出。

沿用上例，将获得的n个样本音素序列x₁、x₂、x₃…x_n作为初始声谱预测模型的输入，并将n个样本声谱特征序列y₁、y₂、y₃…y_n作为对上述n个样本音素序列进行声谱预测训练的已知输出，构建训练样本集{(x₁|y₁)，(x₂|y₂)，(x₃|y₃)，…，(x_n|y_n)}。

步骤S110，根据所述训练样本集中的训练样本对初始声谱预测模型进行训练，获得主说话人的声谱预测模型。

具体的，在构建上述训练样本集的基础上，对初始声谱预测模型进行训练，获得主说话人的声谱预测模型，其中，所述初始声谱预测模型的超参数预设为在所述多个说话人中指定的所述主说话人的主说话人标识，并在训练过程中嵌入从所述语音信息提取的共享说话人特征。

所述超参数是在初始声谱预测模型开始学习过程之前设置值的参数，而不是通过训练得到的参数，具体实施时，将超参数预设为主说话人的主说话人标识，是为了在存在多个说话人的训练样本中，指定对主说话人进行声谱预测学习；所述共享说话人特征，是指从多个说话人的语音信息中提取出的一些高维的语言学特征的特征表示，此语言学特征可以在不同说话人之间共享，通过此共享说话人特征，主说话人虽然没有表达过声谱特征，但可以根据共享说话人特征合成这部分的声谱特征，具体的，此共享说话人特征可以采用向量表示，也可以采用矩阵表示，在此不做限制。

沿用上例，将初始声谱预测模型的超参数预设为主说话人A的主说话人标识“speaker0035”，根据训练样本集{(x₁|y₁)，(x₂|y₂)，(x₃|y₃)，…，(x_n|y_n)}中的各个训练样本，并嵌入从上述n个语音信息中提取出的共享说话人特征g，对初始声谱预测模型进行训练，获得主说话人A的声谱预测模型F。

在对初始声谱预测模型进行训练，获得主说话人的声谱预测模型的基础上，可以基于此声谱预测模型对待处理文本信息进行语音合成，增加了语音合成的效率以及准确率，说明书实施例提供的一种可选实施方式中，在获得主说话人的声谱预测模型之后，基于此声谱预测模型进行语音合成，具体通过如下方式实现：

具体的，所述待处理文本信息与上述文本信息类似，对所述待处理文本信息进行标注处理的具体实现方式与上述对文本信息进行标注处理的具体实现方式类似，所述待处理音素序列与上述音素序列类似，在此不再赘述。

实际应用中，所述声谱预测模型是指序列到序列模型(Sequence-to-SequenceModel，Seq2Seq Model)，序列到序列模型是一个编码器-解码器结构的模型，其输入是一个序列，输出也是一个序列；编码器将一个可变长度的输入序列编码为固定长度的向量，解码器将这个固定长度的向量解码成可变长度的输出序列，本说明书实施例，声谱预测模型是对输入的音素序列进行声谱预测，输出主说话人的声谱特征序列。

在输出主说话人的声谱特征序列的基础上，进一步，根据主说话人的声谱特征序列并主说话人的主说话人标识进行语音合成，获得所述主说话人的时域语音信号，具体的，所述时域语音信号，为时域语音波形，即音频信号。

沿用上例，获取待处理文本信息，将待处理文本信息进行标注处理，获得待处理音素序列X₁，将待处理音素序列X₁以及共享说话人特征g输入声谱预测模型F进行声谱预测，获得说话人A的声谱特征序列Y₁，并根据声谱特征序列Y₁以及说话人A的说话人标识“speaker0035”通过声码器进行语音合成，获得主说话人A的时域语音信号S₁。

进一步，在上述语音合成的过程中，通过声谱预测模型中的编码器和引入位置敏感注意力机制的解码器对待处理音素序列进行声谱预测，使得声谱预测模型更注意位置信息，减少了在解码过程中出现序列重复或者遗漏等潜在的失败，本说明书实施例提供的一种可选实施方式中，所述声谱预测模型，具体采用如下方式进行声谱预测：

本说明书实施例，声谱预测模型是一个引入位置敏感注意力机制的序列到序列模型，声谱预测模型的编码器首先对音素序列做嵌入处理，将嵌入处理后的序列经过三层卷积层以提取上下文信息，并将提取出的上下文信息输入一个双向长短期记忆网络(Bidirectional Long Short-Term Memory，BiLSTM)，获得此双向长短期记忆网络输出的隐层向量，具体实施时，在编码器进行编码输出隐层向量的过程中嵌入共享说话人特征用以生成此隐层向量。

继而将上述编码器输出的隐层向量，输入声谱预测模型的解码器的位置敏感注意力机制，获得位置敏感注意力机制输出的上下文向量，并将共享说话人特征嵌入到位置敏感注意力机制用以形成此上下文向量。

然后，位置敏感注意力机制作为上述编码器以及声谱预测模型的解码器中间的桥接，将此上下文向量输入声谱预测模型的解码器进行解码，获得所述解码器输出的主说话人的梅尔频谱帧序列。

具体的，声谱预测模型的解码器是一个自回归的循环神经网络，用以预测输出梅尔频谱帧序列，一次预测一帧，上一步预测出的梅尔频谱帧首先被输入一个双层全连接的预处理网络，并将预处理网络的输出和上述位置敏感注意力机制输出的上下文向量拼接在一起，输入一个单向的长短期记忆网络，长短期记忆网络的输出再次和此上下文向量拼接在一起，然后输入一个线性变换投影来预测梅尔频谱帧；具体实施时，在解码器进行解码的过程中嵌入共享说话人特征用以预测梅尔频谱帧。

具体实施时，在声谱预测模型的解码器完成解码后，还可以将解码器输出的梅尔频谱帧序列输入一个五层卷积层的后处理网络，通过此后处理网络预测一个残差叠加到卷积前的梅尔频谱帧上，用以提升梅尔频谱帧的质量。

沿用上例，将待处理音素序列X₁以及共享说话人特征g输入声谱预测模型F的编码器，获得此编码器输出的隐层向量h，将隐层向量h以及共享说话人特征g输入声谱预测模型F的位置敏感注意力机制，获得此位置敏感注意力机制输出的上下文向量c，将此上下文向量c以及共享说话人特征g输入声谱预测模型F的解码器，获得此解码器输出的梅尔频谱帧序列M。

在获得上述声谱预测模型的解码器输出的梅尔频谱帧序列的基础上，可以通过声码器对主说话人的梅尔频谱帧序列进行语音合成，由于梅尔频谱会强调语音的低频细节，而低频细节对语音的理解度非常关键，同时梅尔频谱会淡化高频细节，而高频细节通常被摩擦声和其他爆裂噪声所主导，因而对梅尔频谱帧序列进行语音合成，简化了语音合成的步骤，并提高了语音合成的效率并质量，本说明书实施例提供的一种可选实施方式中，通过声码器对主说话人的梅尔频谱帧序列进行语音合成，具体采用如下方式实现：

具体的，所述声码器，是指波网(WaveNet)模型，WaveNet模型是一个自回归的生成模型，其对预测每个语音信号时都是基于前面预测的语音信号，即此模型中的每个卷积层都对前一层进行卷积，卷积核越大，层数越多，时域上的感知能力越强，感知范围也越大，由于语音信号的采样率高，时域上对感知范围要求大，因而需要数量巨大的卷积层，而在WaveNet模型中采用扩张卷积，对于预测下一个语音信号的时候，扩大了输入的感知范围，可以减少WaveNet模型中卷积层的数量，此外，还可以通过其他声码器，对梅尔频谱帧序列进行语音合成，在此不做限制。

具体实施时，将输入的梅尔频谱帧序列作为WaveNet模型的局部条件，并将主说话人标识作为在WaveNet模型中预设的全局条件，对输入的梅尔频谱帧序列进行语音合成，获得主说话人的时域语音信号。

沿用上例，在获得主说话人A的梅尔频谱帧序列M的基础上，在WaveNet模型中预设主说话人标识“speaker0035”作为全局条件，并将输入WaveNet模型的梅尔频谱帧序列M作为局部条件进行语音合成，生成主说话人A的时域语音信号S₂。

进一步，在上述语音合成的基础上，还可以对合成的语音进行语音转换，即将主说话人的时域语音信号转换为目标说话人的第一目标语音信号，既使合成的语音具有可变性，还可以实现定制化的语音需求，本说明书实施例提供的第一种可选实施方式中，将主说话人的时域语音信号转换为目标说话人的第一目标语音信号，具体采用如下方式实现：

将所述时域语音信号以及目标说话人的目标说话人标识输入第一语音转换模型，对所述时域语音信号进行语音转换，获得第一语音转换模型输出目标说话人的第一目标语音信号。

具体的，所述目标说话人，是指非主说话人之外的另一说话人；所述第一目标语音信号，是指目标说话人的时域语音信号。

沿用上例，获得主说话人A的时域语音信号S₁后，将时域语音信号S₁以及目标说话人的目标说话人标识“speaker0006”输入第一语音转换模型，获得此第一语音转换模型输出的第一目标语音信号S₃。

除上述提供的对合成的语音进行语音转换的实现方法之外，本说明书实施例提供的第二种可选实施方式中，所述根据所述主说话人的声谱特征序列以及所述主说话人标识进行语音合成，获得所述主说话人的时域语音信号步骤执行之后，还包括：

具体的，第二语音转换模型对时域语音信号进行语音转换，是指对输入的时域语音信号，通过预设的调整参数，在音调、节奏，和/或音色等方面进行语音转换，使合成的语音的更具灵活性，可以满足用户针对声音在多个方面的个性化的喜好，提高了用户的体验感。

下述结合附图2，以本说明书提供的基于多说话人的模型训练方法在支付终端中的应用为例，对所述基于多说话人的模型训练方法进行进一步说明。其中，图2示出了本说明书一个实施例提供的一种应用于支付终端的基于多说话人的模型训练方法的处理流程图，具体步骤包括步骤S202至步骤S222。

步骤S202，获取语音库中多个说话人的语音信息，以及语音信息对应的文本信息。

步骤S204，将语音信息转换为声谱特征序列，以及，对文本信息进行标注处理，获得音素序列。

步骤S206，对声谱特征序列和音素序列添加说话人标签，获得样本声谱特征序列以及样本音素序列。

步骤S208，根据样本声谱特征序列和样本音素序列，构建训练样本集。

步骤S210，根据训练样本集中的训练样本对初始声谱预测模型进行训练，获得主说话人的声谱预测模型。

其中，所述初始声谱预测模型的超参数预设为在所述多个说话人中指定的所述主说话人的主说话人标识，并在训练过程中嵌入从所述语音信息提取的共享说话人特征。

步骤S212，获取支付终端的待处理文本信息，将待处理文本信息进行标注处理，获得待处理音素序列。

步骤S214，将待处理音素序列以及共享说话人特征输入声谱预测模型的编码器进行编码，获得编码器输出的隐层向量。

步骤S216，将隐层向量以及共享说话人特征输入声谱预测模型的位置敏感注意力机制，获得位置敏感注意力机制输出的上下文向量。

步骤S218，将上下文向量以及共享说话人特征输入声谱预测模型的解码器进行解码，获得解码器输出的主说话人的梅尔频谱帧序列，将梅尔频谱帧序列作为所述主说话人的声谱特征序列。

步骤S220，将梅尔频谱帧序列输入声码器，对梅尔频谱帧序列进行语音合成，获得声码器输出的时域语音信号。

其中，所述声码器的全局条件预设为所述主说话人标识。

步骤S222，将时域语音信号以及目标说话人的目标说话人标识输入第一语音转换模型，对时域语音信号进行语音转换，获得第一语音转换模型输出的目标说话人的第一目标语音信号。

综上所述，本说明书提供一种基于多说话人的模型训练方法，通过获取语音库中多个说话人的语音信息，以及所述语音信息对应的文本信息；并对获取的多个说话人的语音信息以及文本信息进行预处理，构建训练样本集；根据所述训练样本集中的训练样本对初始声谱预测模型进行训练，获得主说话人的声谱预测模型；并在训练过程中嵌入从所述语音信息提取的共享说话人特征，实现了根据多个说话人的语音信息，并根据从多个说话人的语音信息提取出的共享说话人特征，训练多个说话人中主说话人的初始声谱预测模型，以多个说话人中除主说话人之外的说话人的语音信息作为辅助，训练主说话人的初始声谱预测模型，减少了对主说话人的语音信息的语音时长的需求，进而降低了训练初始声谱预测模型的训练成本，提高了训练初始声谱预测模型的训练效率。

本说明书提供的一种基于多说话人的模型训练装置实施例如下：

与上述方法实施例相对应，本说明书还提供了基于多说话人的模型训练装置实施例，图3示出了本说明书一个实施例提供的一种基于多说话人的模型训练装置的示意图。如图3所示，该装置包括：

获取模块302，被配置为获取语音库中多个说话人的语音信息，以及所述语音信息对应的文本信息；

处理模块304，被配置为将所述语音信息转换为声谱特征序列，以及，对所述文本信息进行标注处理，获得音素序列；

添加模块306，被配置为对所述声谱特征序列和所述音素序列添加说话人标签，获得样本声谱特征序列以及样本音素序列；

构建模块308，被配置为根据所述样本声谱特征序列和所述样本音素序列，构建训练样本集；

训练模块310，被配置为根据所述训练样本集中的训练样本对初始声谱预测模型进行训练，获得主说话人的声谱预测模型；其中，所述初始声谱预测模型的超参数预设为在所述多个说话人中指定的所述主说话人的主说话人标识，并在训练过程中嵌入从所述语音信息提取的共享说话人特征。

可选的，所述基于多说话人的模型训练装置，还包括：

获得序列模块，被配置为获取待处理文本信息，将所述待处理文本信息进行标注处理，获得待处理音素序列；

声谱预测模块，被配置为将所述待处理音素序列以及所述共享说话人特征输入所述声谱预测模型进行声谱预测，获得所述声谱预测模型输出的所述主说话人的声谱特征序列；

合成模块，被配置为根据所述主说话人的声谱特征序列以及所述主说话人标识进行语音合成，获得所述主说话人的时域语音信号。

可选的，所述合成模块，还被配置为：

可选的，所述基于多说话人的模型训练装置，还包括：

第一转换模块，被配置为将所述时域语音信号以及目标说话人的目标说话人标识输入第一语音转换模型，对所述时域语音信号进行语音转换，获得所述第一语音转换模型输出的所述目标说话人的第一目标语音信号。

可选的，所述基于多说话人的模型训练装置，还包括：

第二转换模块，被配置为将所述时域语音信号输入第二语音转换模型，对所述时域语音信号进行语音转换，获得所述第二语音转换模型输出的第二目标语音信号。

上述为本实施例的一种基于多说话人的模型训练装置的示意性方案。需要说明的是，该基于多说话人的模型训练装置的技术方案与上述的基于多说话人的模型训练方法的技术方案属于同一构思，基于多说话人的模型训练装置的技术方案未详细描述的细节内容，均可以参见上述基于多说话人的模型训练方法的技术方案的描述。

图4示出了根据本说明书一个实施例提供的一种基于多说话人的语音合成系统的示意图。

本说明书实施例为一种基于多说话人的语音合成系统的示意性方案。需要说明的是，本说明书实施例是执行上述基于多说话人的模型训练方法实施例的应用系统，本说明书实施例提供的一种基于多说话人的语音合成系统的技术方案未详细描述的细节内容，均可以参见上述基于多说话人的模型训练的技术方案的描述。

所述基于多说话人的语音合成系统400，包括：

声谱预测模块402以及语音合成模块404；

其中，所述声谱预测模块402，被配置为获取待处理文本信息，将所述待处理文本信息进行标注处理，获得待处理音素序列；将所述待处理音素序列以及共享说话人特征输入声谱预测模型进行声谱预测，获得所述声谱预测模型输出的主说话人的声谱特征序列；其中，所述共享说话人特征从语音库中多个说话人的语音信息中提取；

所述语音合成模块404，被配置为根据所述主说话人的声谱特征序列以及所述主说话人的主说话人标识进行语音合成，获得所述主说话人的时域语音信号。

可选的，所述声谱预测模型，通过如下方式进行训练：

可选的，所述语音合成模块404，还被配置为：

可选的，所述基于多说话人的语音合成系统400，还包括：

综上所述，本说明书提供一种基于多说话人的语音合成系统400，通过声谱预测模块402以及语音合成模块404对待处理文本信息进行语音合成，其中，声谱预测模块402通过对待处理文本信息进行标注处理获得待处理音素序列，并通过主说话人的声谱预测模型，根据嵌入的从多个说话人的语音信息提取出的共享说话人特征，对待处理音素序列进行声谱预测，获得主说话人的声谱特征序列，进而通过语音合成模块404对主说话人的声谱特征序列进行语音合成，获得主说话人的时域语音信号，实现了以共享说话人特征作为辅助对主说话人的声谱特征进行声谱预测，提高了语音合成的效率和语音合成的质量。

本说明书提供的一种计算设备实施例如下：

图5示出了根据本说明书一个实施例提供的一种计算设备500的结构框图。该计算设备500的部件包括但不限于存储器510和处理器520。处理器520与存储器510通过总线530相连接，数据库550用于保存数据。

计算设备500还包括接入设备540，接入设备540使得计算设备500能够经由一个或多个网络560通信。这些网络的示例包括公用交换电话网(PSTN)、局域网(LAN)、广域网(WAN)、个域网(PAN)或诸如因特网的通信网络的组合。接入设备540可以包括有线或无线的任何类型的网络接口(例如，网络接口卡(NIC))中的一个或多个，诸如IEEE802.11无线局域网(WLAN)无线接口、全球微波互联接入(Wi-MAX)接口、以太网接口、通用串行总线(USB)接口、蜂窝网络接口、蓝牙接口、近场通信(NFC)接口，等等。

在本说明书的一个实施例中，计算设备500的上述部件以及图5中未示出的其他部件也可以彼此相连接，例如通过总线。应当理解，图5所示的计算设备结构框图仅仅是出于示例的目的，而不是对本说明书范围的限制。本领域技术人员可以根据需要，增添或替换其他部件。

计算设备500可以是任何类型的静止或移动计算设备，包括移动计算机或移动计算设备(例如，平板计算机、个人数字助理、膝上型计算机、笔记本计算机、上网本等)、移动电话(例如，智能手机)、可佩戴的计算设备(例如，智能手表、智能眼镜等)或其他类型的移动设备，或者诸如台式计算机或PC的静止计算设备。计算设备500还可以是移动式或静止式的服务器。

本说明书提供一种计算设备，包括存储器510、处理器520及存储在存储器上并可在处理器上运行的计算机指令，所述处理器520用于执行如下计算机可执行指令：

上述为本实施例的一种计算设备的示意性方案。需要说明的是，该计算设备的技术方案与上述的基于多说话人的模型训练方法的技术方案属于同一构思，计算设备的技术方案未详细描述的细节内容，均可以参见上述基于多说话人的模型训练方法的技术方案的描述。

本说明书提供的一种计算机可读存储介质实施例如下：

本说明书提供一种计算机可读存储介质，其存储有计算机指令，该指令被处理器执行时以用于：

上述为本实施例的一种计算机可读存储介质的示意性方案。需要说明的是，该存储介质的技术方案与上述的基于多说话人的模型训练方法的技术方案属于同一构思，存储介质的技术方案未详细描述的细节内容，均可以参见上述基于多说话人的模型训练方法的技术方案的描述。

上述对本说明书特定实施例进行了描述。其它实施例在所附权利要求书的范围内。在一些情况下，在权利要求书中记载的动作或步骤可以按照不同于实施例中的顺序来执行并且仍然可以实现期望的结果。另外，在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中，多任务处理和并行处理也是可以的或者可能是有利的。

所述计算机指令包括计算机程序代码，所述计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。所述计算机可读介质可以包括：能够携带所述计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、电载波信号、电信信号以及软件分发介质等。需要说明的是，所述计算机可读介质包含的内容可以根据司法管辖区内立法和专利实践的要求进行适当的增减，例如在某些司法管辖区，根据立法和专利实践，计算机可读介质不包括电载波信号和电信信号。

需要说明的是，对于前述的各方法实施例，为了简便描述，故将其都表述为一系列的动作组合，但是本领域技术人员应该知悉，本说明书实施例并不受所描述的动作顺序的限制，因为依据本说明书实施例，某些步骤可以采用其它顺序或者同时进行。其次，本领域技术人员也应该知悉，说明书中所描述的实施例均属于优选实施例，所涉及的动作和模块并不一定都是本说明书实施例所必须的。

在上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述的部分，可以参见其它实施例的相关描述。

以上公开的本说明书优选实施例只是用于帮助阐述本说明书。可选实施例并没有详尽叙述所有的细节，也不限制该发明仅为所述的具体实施方式。显然，根据本说明书实施例的内容，可作很多的修改和变化。本说明书选取并具体描述这些实施例，是为了更好地解释本说明书实施例的原理和实际应用，从而使所属技术领域技术人员能很好地理解和利用本说明书。本说明书仅受权利要求书及其全部范围和等效物的限制。

Claims

1.一种基于多说话人的模型训练方法，包括：

根据所述训练样本集中的训练样本对初始声谱预测模型进行训练，获得主说话人的声谱预测模型；其中，所述初始声谱预测模型的超参数预设为在所述多个说话人中指定的所述主说话人的主说话人标识，所述超参数用于指定对主说话人进行声谱预测学习，并在训练过程中嵌入从所述语音信息提取的共享说话人特征，所述共享说话人特征用于合成主说话人未表达过的声谱特征。

2.根据权利要求1所述的基于多说话人的模型训练方法，还包括：

3.根据权利要求2所述的基于多说话人的模型训练方法，所述声谱预测模型，具体采用如下方式进行声谱预测：

4.根据权利要求3所述的基于多说话人的模型训练方法，所述根据所述主说话人的声谱特征序列以及所述主说话人标识进行语音合成，获得所述主说话人的时域语音信号，包括：

5.根据权利要求2所述的基于多说话人的模型训练方法，所述根据所述主说话人的声谱特征序列以及所述主说话人标识进行语音合成，获得所述主说话人的时域语音信号步骤执行之后，还包括：

6.根据权利要求2所述的基于多说话人的模型训练方法，所述根据所述主说话人的声谱特征序列以及所述主说话人标识进行语音合成，获得所述主说话人的时域语音信号步骤执行之后，还包括：

7.一种基于多说话人的模型训练装置，包括：

训练模块，被配置为根据所述训练样本集中的训练样本对初始声谱预测模型进行训练，获得主说话人的声谱预测模型；其中，所述初始声谱预测模型的超参数预设为在所述多个说话人中指定的所述主说话人的主说话人标识，所述超参数用于指定对主说话人进行声谱预测学习，并在训练过程中嵌入从所述语音信息提取的共享说话人特征，所述共享说话人特征用于合成主说话人未表达过的声谱特征。

8.一种基于多说话人的语音合成系统，包括：

声谱预测模块以及语音合成模块；

其中，所述声谱预测模块，被配置为获取待处理文本信息，将所述待处理文本信息进行标注处理，获得待处理音素序列；将所述待处理音素序列以及共享说话人特征输入声谱预测模型进行声谱预测，获得所述声谱预测模型输出的主说话人的声谱特征序列；其中，所述共享说话人特征从语音库中多个说话人的语音信息中提取，所述共享说话人特征用于合成主说话人未表达过的声谱特征；

9.根据权利要求8所述的基于多说话人的语音合成系统，所述声谱预测模型，通过如下方式进行训练：

10.根据权利要求8所述的基于多说话人的语音合成系统，所述声谱预测模型，具体采用如下方式进行声谱预测：

11.根据权利要求10所述的基于多说话人的语音合成系统，所述语音合成模块，还被配置为：

12.根据权利要求8所述的基于多说话人的语音合成系统，还包括：

13.根据权利要求8所述的基于多说话人的语音合成系统，还包括：

14.一种计算设备，包括：

存储器和处理器；

15.一种计算机可读存储介质，其存储有计算机指令，该指令被处理器执行时实现权利要求1至6任意一项所述基于多说话人的模型训练方法的步骤。