CN113450760A

CN113450760A - 一种文本转语音的方法、装置及电子设备

Info

Publication number: CN113450760A
Application number: CN202110631344.2A
Authority: CN
Inventors: 衷奕; 王旭; 饶丰
Original assignee: Beijing Yiyi Education Technology Co ltd
Current assignee: Beijing Yiyi Education Technology Co ltd
Priority date: 2021-06-07
Filing date: 2021-06-07
Publication date: 2021-09-28

Abstract

本发明提供了一种文本转语音的方法、装置及电子设备，其中，该方法包括：获取多个样本用户的样本文本和相应的样本音频，获取特定用户的特定文本和相应的特定音频；将用户标识一并作为输入进行训练以及微调训练，生成与特定用户对应的前端特定模型；将目标文本输入至前端特定模型，确定对应的声学特征，并根据声码器模型转换为音频信号。通过本发明实施例提供的文本转语音的方法、装置及电子设备，将用户标识一并作为输入，使得前端基线模型可以合成多个用户的语音，之后低资源自适应微调训练所得到前端特定模型也具有较好的合成效果，合成的音频与特定用户的音频具有较高的相似度。

Description

一种文本转语音的方法、装置及电子设备

技术领域

本发明涉及语音转换技术领域，具体而言，涉及一种文本转语音的方法、装置、电子设备及计算机可读存储介质。

背景技术

TTS(Text To Speech，从文本到语音)系统用于将书面语言转换为人类语音。通常，TTS系统首先将文本转换为紧凑的音频表示，然后使用声码器的音频波形合成方法将这种表示转换为音频。TTS系统的一个目标是将文本转换为听起来像具有特定音频/说话者特性的音频。例如，将文本转换为明星等特定个体的音频。

为了能够基于特定个体的少量样本数据制作TTS系统，一般会通过大量样本创建基线模型，之后在基于特定个体的少量样本数据微调该基线模型。该方案虽然可以实现语音转换，但合成效果较差，其合成的音频与特定个体本身音频相似度较低。

发明内容

为解决现有存在的技术问题，本发明实施例提供一种文本转语音的方法、装置、电子设备及计算机可读存储介质。

第一方面，本发明实施例提供了一种文本转语音的方法，包括：

获取多个样本用户的样本文本和相应的样本音频，并提取所述样本音频的声学特征；获取特定用户的特定文本和相应的特定音频，并提取所述特定音频的声学特征；

将所述样本文本和相应所述样本用户的用户标识作为输入、所述样本音频的声学特征作为标签进行训练，生成前端基线模型；

将所述特定文本和所述特定用户的用户标识作为输入、所述特定音频的声学特征作为标签，对所述前端基线模型进行微调训练，生成与所述特定用户对应的前端特定模型；

将待转换的目标文本输入至所述前端特定模型，确定所述目标文本对应的声学特征，并根据声码器模型将所述目标文本对应的声学特征转换为音频信号。

第二方面，本发明实施例还提供了一种文本转语音的装置，包括：

获取模块，用于获取多个样本用户的样本文本和相应的样本音频，并提取所述样本音频的声学特征；获取特定用户的特定文本和相应的特定音频，并提取所述特定音频的声学特征；

基线训练模块，用于将所述样本文本和相应所述样本用户的用户标识作为输入、所述样本音频的声学特征作为标签进行训练，生成前端基线模型；

微调训练模块，用于将所述特定文本和所述特定用户的用户标识作为输入、所述特定音频的声学特征作为标签，对所述前端基线模型进行微调训练，生成与所述特定用户对应的前端特定模型；

转换模块，用于将待转换的目标文本输入至所述前端特定模型，确定所述目标文本对应的声学特征，并根据声码器模型将所述目标文本对应的声学特征转换为音频信号。

第三方面，本发明实施例提供了一种电子设备，包括总线、收发器、存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述收发器、所述存储器和所述处理器通过所述总线相连，所述计算机程序被所述处理器执行时实现上述任意一项所述的文本转语音的方法中的步骤。

第四方面，本发明实施例还提供了一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现上述任意一项所述的文本转语音的方法中的步骤。

本发明实施例提供的文本转语音的方法、装置、电子设备及计算机可读存储介质，在训练前端基线模型以及微调时，将用户标识一并作为输入，使得训练后的前端基线模型可以适用于合成多个用户的语音，且在之后微调时使用少量的特定音频即可实现自适应训练。将用户标识一并作为输入，使得前端基线模型可以合成多个用户的语音，之后低资源自适应微调训练所得到前端特定模型也具有较好的合成效果，合成的音频与特定用户的音频具有较高的相似度；并且，上述训练方式同时提高了前端基线模型的稳定性，使得前端基线模型具有发音纠错功能，即使特定用户的音频数据发音不够标准，也可自动进行纠正，使得合成语音在保持特定用户音色和韵律的情况下，发音也会更加标准。

附图说明

为了更清楚地说明本发明实施例或背景技术中的技术方案，下面将对本发明实施例或背景技术中所需要使用的附图进行说明。

图1示出了本发明实施例所提供的一种文本转语音的方法的流程图；

图2示出了本发明实施例所提供的文本转语音的方法中，前端模型的一种结构图；

图3示出了本发明实施例所提供的一种文本转语音的装置的结构示意图；

图4示出了本发明实施例所提供的一种用于执行文本转语音的方法的电子设备的结构示意图。

具体实施方式

下面结合本发明实施例中的附图对本发明实施例进行描述。

本发明实施例提供的一种文本转语音的方法，在训练前端基线模型时，将用户标识一并作为输入，使得训练后的前端基线模型可以适用于合成多个用户的语音，使得后续微调时使用少量的特定数据即可自适应训练。图1示出了本发明实施例所提供的一种文本转语音的方法的流程图。如图1所示，该方法包括：

步骤101：获取多个样本用户的样本文本和相应的样本音频，并提取样本音频的声学特征；获取特定用户的特定文本和相应的特定音频，并提取特定音频的声学特征。

与传统方式类似，本发明实施例首先基于大量的样本文本和样本音频训练前端基线模型，之后再基于特定用户少量的特定文本和特定音频微调(finetune)该前端基线模型，从而可以得到适用于该特定用户的模型，即前端特定模型；其中，样本音频的数量或时长大于特定音频的数量或时长。此外，在本发明实施例中，将样本文本对应的样本用户也作为输入的特征进行训练。

具体地，本发明实施例中，用于训练的样本音频来自于相应的用户，即样本用户，故该样本音频对应有样本用户的用户标识。并且，样本音频和相应的样本文本是一种音频文本对(或文本音频对)，故该样本文本也对应有相应样本用户的用户标识。例如，采集到样本用户 A发出的音频“hello”，该音频对应的文本是“hello”，则此时样本文本“hello”的用户标签即为样本用户A的用户标签。同理，与特定音频对应的特定文本也具有相应的用户标识，即特定用户的用户标识。

并且，本发明实施例提取出音频中的声学特征，如样本音频的声学特征、特定音频的声学特征，以使得声码器模型基于该声学特征可以转换成相应的音频信号。该声学特征是用于表征音频的特征，一般采用梅尔语谱图(mel spectrogram)作为声学特征；可选地，本发明实施例中将梅尔语谱图改为Bark尺度频率倒谱系数(Bark-scale FrequencyCepstral Coefficients，BFCC)，以适应推理速度较快的声码器模型，例如LPCNet(LinearPredictive Coding Net，线性预测编码网络)声码器。其中，可采用现有的成熟技术提取出音频中的BFCC等声学特征，此处不做详述。

步骤102：将样本文本和相应样本用户的用户标识作为输入、样本音频的声学特征作为标签进行训练，生成前端基线模型。

本发明实施例中，前端模型用于将文本转换为声学特征。在对前端模型进行训练时，将用户标识也作为输入，以训练得到该前端模型对应的基线模型，即前端基线模型。例如，可以将样本文本和样本用户的用户标识进行拼接，将拼接结果作为前端模型的输入，并将相应的样本音频的声学特征作为输出进行训练，从而可以得到前端模型对应的基线模型，即前端基线模型。

本发明实施例中，前端模型可以为fastpitch模型等，该前端模型至少包括嵌入(Embedding)层、编码层和解码层，该嵌入层用于输入文本和相应的用户标识，例如样本文本和相应样本用户的用户标识，编码层用于对嵌入层的输出进行编码处理，解码层对编码层的输出进行解码处理，以生成声学特征。本发明实施例中，将嵌入层放在编码层之前，使得在特定音频较少的情况下，最终合成的音频相似度相比传统方式更高。

步骤103：将特定文本和特定用户的用户标识作为输入、特定音频的声学特征作为标签，对前端基线模型进行微调训练，生成与特定用户对应的前端特定模型。

本发明实施例中，在确定前端基线模型之后，基于特定用户的样本进行微调训练，从而可以生成前端特定模型。具体地，将特定文本和特定用户的用户标识作为输入、将特定音频的声学特征作为标签，进行微调训练，最终生成的模型即为与该特定用户对应的前端特定模型，基于该前端特定模型可以将文本转换为与该特定用户发音相似的声学特征。

本领域技术人员可以理解，前端基线模型以及前端特定模型均为一种前端模型，只是模型的权重等参数存在区别。前端特定模型可以更好地将文本转换为具有该特定用户音色的声学特征。

步骤104：将待转换的目标文本输入至前端特定模型，确定目标文本对应的声学特征，并根据声码器模型将目标文本对应的声学特征转换为音频信号。

本发明实施例中，在需要将某文本转换为特定用户的音频时，将该文本称为目标文本，并将其输入到训练好的前端特定模型；其中，可以将该目标文本以及特定用户的用户标识输入至该前端特定模型，以确定与该目标文本对应的声学特征，且该声学特征具有特定用户具有的特点。之后，基于预设的声码器模型即可将该声学特征转换为音频信号，该音频信号具有特定用户的特点。

本领域技术人员可以理解，上述的样本文本、特定文本、目标文本均为一种文本，其前缀“样本”、“特定”、“目标”仅用于方便区分；同理，上述的样本音频、特定音频、目标音频与此相似，此处不做详述。

本发明实施例提供的一种文本转语音的方法，在训练前端基线模型以及微调时，将用户标识一并作为输入，使得训练后的前端基线模型可以适用于合成多个用户的语音，且在之后微调时使用少量的特定音频即可实现自适应训练。将用户标识一并作为输入，使得前端基线模型可以合成多个用户的语音，之后低资源自适应微调训练所得到前端特定模型也具有较好的合成效果，合成的音频与特定用户的音频具有较高的相似度；并且，上述训练方式同时提高了前端基线模型的稳定性，使得前端基线模型具有发音纠错功能，即使特定用户的音频数据发音不够标准，也可自动进行纠正，使得合成语音在保持特定用户音色和韵律的情况下，发音也会更加标准。

在上述实施例的基础上，上述步骤102“将样本文本和相应样本用户的用户标识作为输入、样本音频的声学特征作为标签进行训练”包括：

步骤A1：将第一采样率的样本音频转换为与强制对齐工具相匹配的第二采样率的音频。

本发明实施例中，用于训练的样本音频和特定音频均为高质量的音频，即他们的采样率(如第一采样率)一般较高，例如第一采样率可以为22050Hz。而在训练前端模型的过程中，可以使用音频的对齐信息，例如将该对齐信息作为标签的一部分进行训练；本实施例中，采用相应的强制对其工具来确定音频的对齐信息，该对齐信息可以包括开始时间和结束时间等。由于某些强制对其工具只适合应用特定采样率的音频，故本实施例将第一采样率的样本音频转换为适合强制对其工具的第二采样率的音频。

原本fastpitch系统里，需要tacotron2模型来获取对齐信息，其需要大量样本的单说话人数据训练后才能获取该特定用户音频数据的对齐信息，而在特定音频是低资源的情况下，该方式的对齐信息将非常不准确。本发明实施例采用的强制对齐工具为蒙特利尔强制对齐工具 (MFA，montreal forced aligne)，该MFA对齐工具在用大量多说话人数据集训练后，能够获得不同说话人的对齐信息，并且获得的对齐信息更为准确，从而能够提高文本转语音的自然度和整个系统的鲁棒性，具有更好的对齐效果。其中，MFA对齐工具目前只适合应用16khz的音频，故此时可以将第二采样率设为16000Hz。

步骤A2：根据强制对齐工具确定第二采样率的音频和样本文本的音素级别的第二采样率的对齐信息。

本发明实施例中，将第二采样率的音频和样本文本输入至强制对齐工具，可以确定第二采样率的对齐信息；本实施例中，该对齐信息为音素级别的对齐信息，即对齐信息包括每个音素对应的开始时间和结束时间。

在强制对齐工具为蒙特利尔强制对齐工具的情况下，上述步骤A2 “根据强制对齐工具确定第二采样率的音频和样本文本的音素级别的第二采样率的对齐信息”具体可以包括：

步骤A21：获取训练文本和相应的训练音频，训练文本包括蒙特利尔强制对齐工具的词典。

本发明实施例中，训练文本和训练音频也是一种文本音频对，其中包括MFA所需的词典；可选地，该训练文本和训练音频也可以包含上述的样本文本和样本音频。

步骤A22：确定训练文本中每个第一单词的音素序列，将第一单词的音素序列中的字符串拼接得到的音素串替换第一单词。

步骤A23：根据替换后的训练文本和训练音频进行训练，生成蒙特利尔强制对齐工具。

MFA本身的词典为传统词典，左列为单词，右列为单词对应的音素，该词典不支持多音词和OOV(词典外单词)。如果训练文本等语料中同一个单词在不同句子中有不同发音，词典中只能选其一；如果句子中有词典外单词，则无法获得其对应的音素，只能做特殊字符处理；这两点均会影响对齐结果。本发明实施例中，将训练文本(包括词典) 中的单词(即第一单词)用音素串来表示，即使第一单词为多音词，由于其音素不同，所以音素串也不同，从而能够表示多音词；并且，词典外单词也具有音素，也可以用音素串来表示。之后，基于训练音频和包含音素串的训练文本进行训练即可，具体可采用现有训练MFA 对齐工具的方式，此处不做详述。

具体地，可以使用字符转音素(Grapheme-to-Phoneme，G2P)工具获取训练文本中每个第一单词对应的音素序列，然后将该音素序列的字符串拼接起来替换相应的单词。经实验验证，以音素串替换相应的单词，可以解决词典不支持多音词和OOV的问题，并且得到了更好的对齐结果。

步骤A24：确定样本文本中每个第二单词的音素序列，将第二单词的音素序列中的字符串拼接得到的音素串替换第二单词。

步骤A25：将替换后的样本文本和第二采样率的音频输入至蒙特利尔强制对齐工具，确定音素级别的第二采样率的对齐信息。

本发明实施例中，可以基于训练好的MFA对齐工具来确定样本音频的对齐信息。与上述步骤A22类似，将样本文本中的单词(即第二单词)也以音素串的形式表示，从而将音素串形式的样本文本和第二采样率的音频输入到MFA对齐工具，从而能够确定该样本文本和样本音频的音素级别的对齐信息，且该对齐信息是第二采样率的。

步骤A3：将第二采样率的对齐信息模糊映射为第三采样率的对齐信息，第三采样率大于第二采样率。

本发明实施例中，由于第二采样率的合成音频，其音质听感可能较差，故将第二采样率的对齐信息进行模糊映射，以得到具有更高采样率的对齐信息，即第三采样率的对齐信息。其中，可以把MFA获得的16kHz的对齐信息，以语音帧数上的倍数线性映射到22050Hz上，从而使得语音合成的前端模型可以在高采样率的特征上进行训练，能够获得更好的合成音质效果.

步骤A4：将样本文本和相应样本用户的用户标识作为输入、样本音频的声学特征和第三采样率的对齐信息作为标签进行训练；其中，声学特征包括Bark尺度频率倒谱系数。

本发明实施例中，在确定第三采样率的对齐信息后，在训练前端模型时即可将该第三采样率的对齐信息也作为标签进行训练；声学特征采用BFCC，以适应推理速度较快的声码器模型，例如LPCNet声码器等。可选地，为适应MFA对齐工具，本实施例从原本的字符建模，改为音素建模，即样本文本等也以音素串的形式表示。

此外可选地，微调训练的过程与上述步骤A1-A4的过程相似；具体地，上述步骤103“将特定文本和特定用户的用户标识作为输入、特定音频的声学特征作为标签，对前端基线模型进行微调训练”包括：

步骤B1：将第四采样率的特定音频转换为与强制对齐工具相匹配的第二采样率的中间音频。

步骤B2：根据强制对齐工具确定第二采样率的中间音频和特定文本的音素级别的第二采样率的特定对齐信息。

步骤B3：将第二采样率的特定对齐信息模糊映射为第三采样率的特定对齐信息，第三采样率大于第二采样率。

步骤B4：将特定文本和相应特定用户的用户标识作为输入、特定音频的声学特征和第三采样率的特定对齐信息作为标签，对前端基线模型进行微调训练；其中，声学特征包括Bark尺度频率倒谱系数。

本发明实施例中，特定音频与上述样本音频可以具有相同的采样率，即第四采样率与第一采样率相同，也可以具有不同的采样率，本实施例对此不做限定。其余过程与上述步骤A1-A4相似，此处不做详述。

以fastpitch模型作为前端模型为例，该前端模型的一种结构可参见图2所示，本实施例将嵌入(Embedding)层放在编码层之前，且该声学特征还包括pitch(音调)特征，将该pitch特征也作为一种标签。具体地，如图2所示，嵌入层后，是由N个FFT(feed-forwardTransformer) 块组成的编码器部分，即编码层。编码器后，连接Pitch Predictor(音调预测器)和Duration Predictor(时长预测器)。其中，Pitch Predictor由2 层1维Conv(卷积)、1层FC(全链接)和1层1维Conv组成。训练时，该层的输出和数据的pitch特征将计算MSE(Mean Squre Error均方误差)损失，用来更新网络参数。Duration Predictor由2层1维Conv(卷积)和FC(全链接)层组成。训练时，该层的输出和数据的对齐信息将计算MSE(MeanSqure Error均方误差)损失，用来更新网络参数。之后， Repeat层的含义为：通过PitchPredictor得到的张量和编码器输出的张量加和后，根据Duration Predictor预测的时长进行上采样得到与输出特征BFCC时长维度相同长度的张量。最后张量通过由N个FFT块组成的解码器和一层全链接层得到最后的输出特征。训练时，该输出和数据的BFCC特征将计算MSE损失，用来更新网络参数，并最终得到训练好的前端模型。

此外可选地，由于文本(包括样本文本、特定文本以及目标文本等)存在句子间停顿、句中词语的停顿等，导致最终的合成音频的句首可能存在脉冲噪声等异常问题，本发明实施例在训练以及推理(即使用模型的过程)时对文本进行不同的处理，以解决该问题。具体地，在训练时，上述步骤102“将样本文本和相应样本用户的用户标识作为输入”包括：

步骤C1：为样本文本中第一句子的句首和/或句尾增加特殊标识符，并在第一句子中相邻词之间设置空格标识符；将增加标识符的样本文本和相应样本用户的用户标识作为输入。

上述步骤103“将特定文本和特定用户的用户标识作为输入”包括：

步骤C2：为特定文本中第二句子的句首和/或句尾增加特殊标识符，并在第二句子中相邻词之间设置空格标识符；将增加标识符的特定文本和相应特定用户的用户标识作为输入。

本发明实施例中，在训练时，在文本的句子之间以及句中的词之间添加不同的标识符，以进行区分，即在句首和句尾加入特殊标识符，在词之间添加空格标识符；基于不同的标识符可以区分句首可能存在的长停顿和普通停顿的对齐信息。其中，文本中的词之间可能本身就存在空格标识符，如两个英文单词之间存在空格标识符，此时也可以不需要增加额外的空格标识符。在训练基线模型或微调训练时，将增加标识符的文本作为输入进行训练。

此外，在推理时，上述步骤104“将待转换的目标文本输入至前端特定模型”包括：

步骤C3：为待转换的目标文本中第三句子的句首和/或句尾，以及第三句子中相邻词之间设置空格标识符；将设置空格标识符的目标文本输入至前端特定模型。

本发明实施例中，与训练时不同的是，在推理时不使用特殊标识符，即在句子的句首或句尾增加的是空格标识符，即将特殊标识符改为空格标识符，以弱化句首或句尾。经验证，在训练中增加句首和句尾的特殊标识符，但在推理中去掉该特殊标识符，而改为空格标识符，能够保证比较好的合成效果，可以有效避免合成音频会出现句首脉冲噪音的问题，提高了合成语音的自然度和稳定性。

在上述实施例的基础上，在根据声码器模型将目标文本对应的声学特征转换为音频信号之前，该方法还包括生成声码器模型的过程，该声码器模型声码器模型用于将声学特征转换为相应的音频信号，其可以采用已有的声码器；或者，上述生成声码器模型的过程具体可以包括：

步骤D1：按照样本用户的性别将样本音频分为多组。

步骤D2：根据每组的样本音频以及样本音频的声学特征进行训练，生成相应性别的声码器基线模型。

步骤D3：将与特定用户对应相同性别的声码器基线模型作为有效声码器基线模型，并根据特定音频以及特定音频的声学特征对有效声码器基线模型进行微调训练，生成与特定用户对应的声码器模型。

本发明实施例中，按照性别对样本音频进行分组，例如分为男女两组，之后基于每组的样本音频分别进行训练，从而可以得到每一种性别对应的基线模型，即声码器基线模型。之后，若特定用户为女性，则将女性对应的声码器基线模型作为有效声码器基线模型，并进行微调训练；相应地，若特定用户为男性，则基于男性对应的声码器基线模型进行微调训练，使得最终生成的声码器模型与特定用户更加匹配，可以弱化性别上的差异。

上文详细描述了本发明实施例提供的文本转语音的方法，该方法也可以通过相应的装置实现，下面详细描述本发明实施例提供的文本转语音的装置。

图3示出了本发明实施例所提供的一种文本转语音的装置的结构示意图。如图3所示，该文本转语音的装置包括：

获取模块31，用于获取多个样本用户的样本文本和相应的样本音频，并提取所述样本音频的声学特征；获取特定用户的特定文本和相应的特定音频，并提取所述特定音频的声学特征；

基线训练模块32，用于将所述样本文本和相应所述样本用户的用户标识作为输入、所述样本音频的声学特征作为标签进行训练，生成前端基线模型；

微调训练模块33，用于将所述特定文本和所述特定用户的用户标识作为输入、所述特定音频的声学特征作为标签，对所述前端基线模型进行微调训练，生成与所述特定用户对应的前端特定模型；

转换模块34，用于将待转换的目标文本输入至所述前端特定模型，确定所述目标文本对应的声学特征，并根据声码器模型将所述目标文本对应的声学特征转换为音频信号。

在上述实施例的基础上，所述基线训练模块32将所述样本文本和相应所述样本用户的用户标识作为输入包括：

为所述样本文本中第一句子的句首和/或句尾增加特殊标识符，并在所述第一句子中相邻词之间设置空格标识符；将增加标识符的样本文本和相应所述样本用户的用户标识作为输入；

所述微调训练模块33将所述特定文本和所述特定用户的用户标识作为输入包括：

为所述特定文本中第二句子的句首和/或句尾增加所述特殊标识符，并在所述第二句子中相邻词之间设置所述空格标识符；将增加标识符的特定文本和相应所述特定用户的用户标识作为输入；

所述转换模块34将待转换的目标文本输入至所述前端特定模型包括：

为待转换的所述目标文本中第三句子的句首和/或句尾，以及所述第三句子中相邻词之间设置所述空格标识符；将设置所述空格标识符的目标文本输入至所述前端特定模型。

在上述实施例的基础上，所述基线训练模块32将所述样本文本和相应所述样本用户的用户标识作为输入、所述样本音频的声学特征作为标签进行训练，包括：

将第一采样率的所述样本音频转换为与强制对齐工具相匹配的第二采样率的音频；

根据所述强制对齐工具确定所述第二采样率的音频和所述样本文本的音素级别的第二采样率的对齐信息；

将所述第二采样率的对齐信息模糊映射为第三采样率的对齐信息，所述第三采样率大于所述第二采样率；

将所述样本文本和相应所述样本用户的用户标识作为输入、所述样本音频的声学特征和所述第三采样率的对齐信息作为标签进行训练；其中，所述声学特征包括Bark尺度频率倒谱系数。

在上述实施例的基础上，所述强制对齐工具为蒙特利尔强制对齐工具，且所述基线训练模块32根据所述强制对齐工具确定所述第二采样率的音频和所述样本文本的音素级别的第二采样率的对齐信息包括：

获取训练文本和相应的训练音频，所述训练文本包括所述蒙特利尔强制对齐工具的词典；

确定所述训练文本中每个第一单词的音素序列，将所述第一单词的音素序列中的字符串拼接得到的音素串替换所述第一单词；

根据替换后的所述训练文本和所述训练音频进行训练，生成蒙特利尔强制对齐工具；

确定所述样本文本中每个第二单词的音素序列，将所述第二单词的音素序列中的字符串拼接得到的音素串替换所述第二单词；

将替换后的所述样本文本和所述第二采样率的音频输入至所述蒙特利尔强制对齐工具，确定音素级别的第二采样率的对齐信息。

在上述实施例的基础上，所述微调训练模块33将所述特定文本和所述特定用户的用户标识作为输入、所述特定音频的声学特征作为标签，对所述前端基线模型进行微调训练，包括：

将第四采样率的所述特定音频转换为与强制对齐工具相匹配的第二采样率的中间音频；

根据所述强制对齐工具确定所述第二采样率的中间音频和所述特定文本的音素级别的第二采样率的特定对齐信息；

将所述第二采样率的特定对齐信息模糊映射为第三采样率的特定对齐信息，所述第三采样率大于所述第二采样率；

将所述特定文本和相应所述特定用户的用户标识作为输入、所述特定音频的声学特征和所述第三采样率的特定对齐信息作为标签，对所述前端基线模型进行微调训练；其中，所述声学特征包括Bark尺度频率倒谱系数。

在上述实施例的基础上，该装置还包括声码器生成模块；

在所述转换模块34根据声码器模型将所述目标文本对应的声学特征转换为音频信号之前，所述声码器生成模块用于：

按照所述样本用户的性别将所述样本音频分为多组；

根据每组的所述样本音频以及所述样本音频的声学特征进行训练，生成相应性别的声码器基线模型；

将与所述特定用户对应相同性别的声码器基线模型作为有效声码器基线模型，并根据所述特定音频以及所述特定音频的声学特征对所述有效声码器基线模型进行微调训练，生成与所述特定用户对应的声码器模型。

此外，本发明实施例还提供了一种电子设备，包括总线、收发器、存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，该收发器、该存储器和处理器分别通过总线相连，计算机程序被处理器执行时实现上述文本转语音的方法实施例的各个过程，且能达到相同的技术效果，为避免重复，这里不再赘述。

具体的，参见图4所示，本发明实施例还提供了一种电子设备，该电子设备包括总线1110、处理器1120、收发器1130、总线接口1140、存储器1150和用户接口1160。

在本发明实施例中，该电子设备还包括：存储在存储器1150上并可在处理器1120上运行的计算机程序，计算机程序被处理器1120执行时实现上述文本转语音的方法实施例的各个过程。

收发器1130，用于在处理器1120的控制下接收和发送数据。

本发明实施例中，总线架构(用总线1110来代表)，总线1110可以包括任意数量互联的总线和桥，总线1110将包括由处理器1120代表的一个或多个处理器与存储器1150代表的存储器的各种电路连接在一起。

总线1110表示若干类型的总线结构中的任何一种总线结构中的一个或多个，包括存储器总线以及存储器控制器、外围总线、加速图形端口(Accelerate Graphical Port，AGP)、处理器或使用各种总线体系结构中的任意总线结构的局域总线。作为示例而非限制，这样的体系结构包括：工业标准体系结构(Industry Standard Architecture， ISA)总线、微通道体系结构(Micro Channel Architecture，MCA) 总线、扩展ISA(Enhanced ISA，EISA)总线、视频电子标准协会 (Video Electronics Standards Association，VESA)、外围部件互连 (Peripheral Component Interconnect，PCI)总线。

处理器1120可以是一种集成电路芯片，具有信号处理能力。在实现过程中，上述方法实施例的各步骤可以通过处理器中硬件的集成逻辑电路或软件形式的指令完成。上述的处理器包括：通用处理器、中央处理器(Central Processing Unit，CPU)、网络处理器(Network Processor，NP)、数字信号处理器(Digital Signal Processor，DSP)、专用集成电路(Application Specific Integrated Circuit，ASIC)、现场可编程门阵列(FieldProgrammable Gate Array，FPGA)、复杂可编程逻辑器件(Complex Programmable LogicDevice，CPLD)、可编程逻辑阵列(Programmable Logic Array，PLA)、微控制单元(Microcontroller Unit，MCU)或其他可编程逻辑器件、分立门、晶体管逻辑器件、分立硬件组件。可以实现或执行本发明实施例中公开的各方法、步骤及逻辑框图。例如，处理器可以是单核处理器或多核处理器，处理器可以集成于单颗芯片或位于多颗不同的芯片。

处理器1120可以是微处理器或任何常规的处理器。结合本发明实施例所公开的方法步骤可以直接由硬件译码处理器执行完成，或者由译码处理器中的硬件及软件模块组合执行完成。软件模块可以位于随机存取存储器(Random Access Memory，RAM)、闪存(FlashMemory)、只读存储器(Read-Only Memory，ROM)、可编程只读存储器 (Programmable ROM，PROM)、可擦除可编程只读存储器(Erasable PROM，EPROM)、寄存器等本领域公知的可读存储介质中。所述可读存储介质位于存储器中，处理器读取存储器中的信息，结合其硬件完成上述方法的步骤。

总线1110还可以将，例如外围设备、稳压器或功率管理电路等各种其他电路连接在一起，总线接口1140在总线1110和收发器1130之间提供接口，这些都是本领域所公知的。因此，本发明实施例不再对其进行进一步描述。

收发器1130可以是一个元件，也可以是多个元件，例如多个接收器和发送器，提供用于在传输介质上与各种其他装置通信的单元。例如：收发器1130从其他设备接收外部数据，收发器1130用于将处理器1120处理后的数据发送给其他设备。取决于计算机系统的性质，还可以提供用户接口1160，例如：触摸屏、物理键盘、显示器、鼠标、扬声器、麦克风、轨迹球、操纵杆、触控笔。

应理解，在本发明实施例中，存储器1150可进一步包括相对于处理器1120远程设置的存储器，这些远程设置的存储器可以通过网络连接至服务器。上述网络的一个或多个部分可以是自组织网络(ad hoc network)、内联网(intranet)、外联网(extranet)、虚拟专用网(VPN)、局域网(LAN)、无线局域网(WLAN)、广域网(WAN)、无线广域网 (WWAN)、城域网(MAN)、互联网(Internet)、公共交换电话网(PSTN)、普通老式电话业务网(POTS)、蜂窝电话网、无线网络、无线保真(Wi- Fi)网络以及两个或更多个上述网络的组合。例如，蜂窝电话网和无线网络可以是全球移动通信(GSM)系统、码分多址(CDMA)系统、全球微波互联接入(WiMAX)系统、通用分组无线业务(GPRS)系统、宽带码分多址(WCDMA)系统、长期演进(LTE)系统、LTE频分双工(FDD)系统、LTE时分双工(TDD)系统、先进长期演进(LTE- A)系统、通用移动通信(UMTS)系统、增强移动宽带(Enhance Mobile Broadband，eMBB)系统、海量机器类通信(massive Machine Type of Communication，mMTC)系统、超可靠低时延通信(UltraReliable Low Latency Communications，uRLLC)系统等。

应理解，本发明实施例中的存储器1150可以是易失性存储器或非易失性存储器，或可包括易失性存储器和非易失性存储器两者。其中，非易失性存储器包括：只读存储器(Read-Only Memory，ROM)、可编程只读存储器(Programmable ROM，PROM)、可擦除可编程只读存储器(Erasable PROM，EPROM)、电可擦除可编程只读存储器 (Electrically EPROM，EEPROM)或闪存(Flash Memory)。

易失性存储器包括：随机存取存储器(Random Access Memory， RAM)，其用作外部高速缓存。通过示例性但不是限制性说明，许多形式的RAM可用，例如：静态随机存取存储器(Static RAM，SRAM)、动态随机存取存储器(Dynamic RAM，DRAM)、同步动态随机存取存储器(Synchronous DRAM，SDRAM)、双倍数据速率同步动态随机存取存储器(Double Data RateSDRAM，DDRSDRAM)、增强型同步动态随机存取存储器(Enhanced SDRAM，ESDRAM)、同步连接动态随机存取存储器(Synchlink DRAM，SLDRAM)和直接内存总线随机存取存储器(DirectRambus RAM，DRRAM)。本发明实施例描述的电子设备的存储器1150包括但不限于上述和任意其他适合类型的存储器。

在本发明实施例中，存储器1150存储了操作系统1151和应用程序1152的如下元素：可执行模块、数据结构，或者其子集，或者其扩展集。

具体而言，操作系统1151包含各种系统程序，例如：框架层、核心库层、驱动层等，用于实现各种基础业务以及处理基于硬件的任务。应用程序1152包含各种应用程序，例如：媒体播放器(Media Player)、浏览器(Browser)，用于实现各种应用业务。实现本发明实施例方法的程序可以包含在应用程序1152中。应用程序1152包括：小程序、对象、组件、逻辑、数据结构以及其他执行特定任务或实现特定抽象数据类型的计算机系统可执行指令。

此外，本发明实施例还提供了一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现上述文本转语音的方法实施例的各个过程，且能达到相同的技术效果，为避免重复，这里不再赘述。

计算机可读存储介质包括：永久性和非永久性、可移动和非可移动媒体，是可以保留和存储供指令执行设备所使用指令的有形设备。计算机可读存储介质包括：电子存储设备、磁存储设备、光存储设备、电磁存储设备、半导体存储设备以及上述任意合适的组合。计算机可读存储介质包括：相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、非易失性随机存取存储器(NVRAM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带存储、磁带磁盘存储或其他磁性存储设备、记忆棒、机械编码装置(例如在其上记录有指令的凹槽中的穿孔卡或凸起结构)或任何其他非传输介质、可用于存储可以被计算设备访问的信息。按照本发明实施例中的界定，计算机可读存储介质不包括暂时信号本身，例如无线电波或其他自由传播的电磁波、通过波导或其他传输介质传播的电磁波(例如穿过光纤电缆的光脉冲)或通过导线传输的电信号。

在本申请所提供的几个实施例中，应该理解到，所披露的装置、电子设备和方法，可以通过其他的方式实现。例如，以上描述的装置实施例仅仅是示意性的，例如，所述模块或单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或可以集成到另一个系统，或一些特征可以忽略，或不执行。另外，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口、装置或单元的间接耦合或通信连接，也可以是电的、机械的或其他的形式连接。

所述作为分离部件说明的单元可以是或也可以不是物理上分开的，作为单元显示的部件可以是或也可以不是物理单元，既可以位于一个位置，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或全部单元来解决本发明实施例方案要解决的问题。

另外，在本发明各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以是两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读存储介质中。基于这样的理解，本发明实施例的技术方案本质上或者说对现有技术作出贡献的部分，或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(包括：个人计算机、服务器、数据中心或其他网络设备)执行本发明各个实施例所述方法的全部或部分步骤。而上述存储介质包括如前述所列举的各种可以存储程序代码的介质。

在本发明实施例的描述中，所属技术领域的技术人员应当知道，本发明实施例可以实现为方法、装置、电子设备及计算机可读存储介质。因此，本发明实施例可以具体实现为以下形式：完全的硬件、完全的软件(包括固件、驻留软件、微代码等)、硬件和软件结合的形式。此外，在一些实施例中，本发明实施例还可以实现为在一个或多个计算机可读存储介质中的计算机程序产品的形式，该计算机可读存储介质中包含计算机程序代码。

上述计算机可读存储介质可以采用一个或多个计算机可读存储介质的任意组合。计算机可读存储介质包括：电、磁、光、电磁、红外或半导体的系统、装置或器件，或者以上任意的组合。计算机可读存储介质更具体的例子包括：便携式计算机磁盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM)、闪存(Flash Memory)、光纤、光盘只读存储器(CD-ROM)、光存储器件、磁存储器件或以上任意组合。在本发明实施例中，计算机可读存储介质可以是任意包含或存储程序的有形介质，该程序可以被指令执行系统、装置、器件使用或与其结合使用。

上述计算机可读存储介质包含的计算机程序代码可以用任意适当的介质传输，包括：无线、电线、光缆、射频(Radio Frequency， RF)或者以上任意合适的组合。

可以以汇编指令、指令集架构(ISA)指令、机器指令、机器相关指令、微代码、固件指令、状态设置数据、集成电路配置数据或以一种或多种程序设计语言或其组合来编写用于执行本发明实施例操作的计算机程序代码，所述程序设计语言包括面向对象的程序设计语言，例如：Java、Smalltalk、C++，还包括常规的过程式程序设计语言，例如：C语言或类似的程序设计语言。计算机程序代码可以完全的在用户计算机上执行、部分的在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行以及完全在远程计算机或服务器上执行。在涉及远程计算机的情形中，远程计算机可以通过任意种类的网络，包括：局域网(LAN)或广域网(WAN)，可以连接到用户计算机，也可以连接到外部计算机。

本发明实施例通过流程图和/或方框图描述所提供的方法、装置、电子设备。

应当理解，流程图和/或方框图的每个方框以及流程图和/或方框图中各方框的组合，都可以由计算机可读程序指令实现。这些计算机可读程序指令可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器，从而生产出一种机器，这些计算机可读程序指令通过计算机或其他可编程数据处理装置执行，产生了实现流程图和/或方框图中的方框规定的功能/操作的装置。

也可以将这些计算机可读程序指令存储在能使得计算机或其他可编程数据处理装置以特定方式工作的计算机可读存储介质中。这样，存储在计算机可读存储介质中的指令就产生出一个包括实现流程图和 /或方框图中的方框规定的功能/操作的指令装置产品。

也可以将计算机可读程序指令加载到计算机、其他可编程数据处理装置或其他设备上，使得在计算机、其他可编程数据处理装置或其他设备上执行一系列操作步骤，以产生计算机实现的过程，从而使得在计算机或其他可编程数据处理装置上执行的指令能够提供实现流程图和/或方框图中的方框规定的功能/操作的过程。

以上所述，仅为本发明实施例的具体实施方式，但本发明实施例的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明实施例披露的技术范围内，可轻易想到变化或替换，都应涵盖在本发明实施例的保护范围之内。因此，本发明实施例的保护范围应以权利要求的保护范围为准。

Claims

1.一种文本转语音的方法，其特征在于，包括：

2.根据权利要求1所述的方法，其特征在于，

所述将所述样本文本和相应所述样本用户的用户标识作为输入包括：

所述将所述特定文本和所述特定用户的用户标识作为输入包括：

所述将待转换的目标文本输入至所述前端特定模型包括：

3.根据权利要求1所述的方法，其特征在于，所述将所述样本文本和相应所述样本用户的用户标识作为输入、所述样本音频的声学特征作为标签进行训练，包括：

4.根据权利要求3所述的方法，其特征在于，所述强制对齐工具为蒙特利尔强制对齐工具，且所述根据所述强制对齐工具确定所述第二采样率的音频和所述样本文本的音素级别的第二采样率的对齐信息包括：

5.根据权利要求1所述的方法，其特征在于，所述将所述特定文本和所述特定用户的用户标识作为输入、所述特定音频的声学特征作为标签，对所述前端基线模型进行微调训练，包括：

6.根据权利要求1-5任意一项所述的方法，其特征在于，在所述根据声码器模型将所述目标文本对应的声学特征转换为音频信号之前，还包括：

按照所述样本用户的性别将所述样本音频分为多组；

7.一种文本转语音的装置，其特征在于，包括：

8.根据权利要求7所述的装置，其特征在于，还包括声码器生成模块；

在所述转换模块根据声码器模型将所述目标文本对应的声学特征转换为音频信号之前，所述声码器生成模块用于：

按照所述样本用户的性别将所述样本音频分为多组；

9.一种电子设备，包括总线、收发器、存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述收发器、所述存储器和所述处理器通过所述总线相连，其特征在于，所述计算机程序被所述处理器执行时实现如权利要求1至6中任一项所述的文本转语音的方法中的步骤。

10.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1至6中任一项所述的文本转语音的方法中的步骤。