CN114783407B

CN114783407B - 语音合成模型训练方法、装置、计算机设备及存储介质

Info

Publication number: CN114783407B
Application number: CN202210702632.7A
Authority: CN
Inventors: 张旭龙; 王健宗; 程宁
Original assignee: Ping An Technology Shenzhen Co Ltd
Current assignee: Ping An Technology Shenzhen Co Ltd
Priority date: 2022-06-21
Filing date: 2022-06-21
Publication date: 2022-10-21
Anticipated expiration: 2042-06-21
Also published as: CN114783407A

Abstract

本发明涉及人工智能技术领域，本发明公开了一种语音合成模型训练方法、装置、计算机设备及存储介质。通过获取原始文本数据和说话人标识，并对原始文本数据进行处理后，获取原始文本向量及对应的原始音素向量，通过对原始文本向量和原始音素向量进行特征增强处理，以得到向量更为显著目标文本向量和目标音调向量；基于说话人标识，获取对应的目标声纹向量，将目标声纹向量、目标文本向量和目标音调向量进行拼接，利用拼接后的目标隐向量对语音合成模型进行训练，以获取说话人标识对应的目标语音合成模型，从而提高更新后的目标语音合成模型所合成语音数据与说话人的声纹相似度，增加目标语音合成模型的拟人化程度。

Description

语音合成模型训练方法、装置、计算机设备及存储介质

技术领域

本发明涉及人工智能技术领域，尤其涉及一种语音合成模型训练方法、装置、计算机设备及存储介质。

背景技术

语音合成是将输入的文本序列转换成对应的自然语音发音，是人机交互过程中重要的语音处理任务。近些年基于深度神经网络的语音合成技术已经取得了显著的合成效果，随着人工智能产业的飞速发展，语音合成系统也得到了更加广泛的应用，人们从语音合成初期要求的清晰度、可懂度以外，对语音合成的自然度、节奏感以及音质的要求也越来越高。

使用深度模型进行语音合成需要考虑文本和对应的语音，通常在模型训练过程中需要大量的训练数据，覆盖到所有的文本发音可能。而在个性化定制语音合成模型时往往无法提供大量的语音文本配对数据，具有定制化需求的用户通常能够在可接受范围内提供5分钟至30分钟的成对音频数据录制，而在数据量较小的情况下训练深度模型进行语音合成就使得合成的挑战大大增加，很难合成出发音完整且自然地个性化语音。现有技术中，通过尝试采用微调的方法对在大数据集上已经训练好的语音利用语音说话人的少量数据进行参数调优，但合成的音频效果声纹与语音说话人的声纹相似度偏低，语音合成模型所生成语音仍存在拟人化程度较低的问题。

发明内容

本发明实施例提供一种语音合成模型训练方法、装置、计算机设备及存储介质，解决现有语音合成模型所生成语音存在拟人化程度较低的问题。

本发明实施例提供了一种语音合成模型训练方法，包括：

获取原始文本数据和说话人标识；

根据所述原始文本数据，获取原始文本向量和原始音素向量；

对所述原始文本向量进行文本增强处理，获取目标文本向量；

对所述原始音素向量进行音调增强处理，获取目标音调向量；

基于所述说话人标识，获取所述说话人标识对应的目标声纹向量；

对所述目标文本向量、所述目标音调向量和所述目标声纹向量进行拼接处理，获取目标隐向量；

根据所述目标隐向量进行语音合成模型训练，获取所述说话人标识对应的目标语音合成模型。

本发明实施例还提供了一种语音合成模型训练装置，包括：

原始文本数据获取模块，获取原始文本数据和说话人标识；

原始文本数据处理模块，根据所述原始文本数据，获取原始文本向量和原始音素向量；

目标文本向量获取模块，对所述原始文本向量进行文本增强处理，获取目标文本向量；

目标音调向量获取模块，对所述原始音素向量进行音调增强处理，获取目标音调向量；

目标声纹向量获取模块，基于所述说话人标识，获取所述说话人标识对应的目标声纹向量；

目标隐向量获取模块，对所述目标文本向量、所述目标音调向量和所述目标声纹向量进行拼接处理，获取目标隐向量；

音合成模型获取模块，根据所述目标隐向量进行语音合成模型训练，获取所述说话人标识对应的目标语音合成模型。

本发明实施例还提供了一种计算机设备，包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现上述实现语音合成模型训练方法。

本发明实施例还提供了一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，所述计算机程序被处理器执行时实现上述实现语音合成模型训练方法。

上述的语音合成模型训练方法、装置、计算机设备及存储介质，通过获取原始文本数据和说话人标识，并对原始文本数据进行处理后，获取原始文本向量及对应的原始音素向量，通过对原始文本向量和原始音素向量进行特征增强处理，以得到向量更为显著目标文本向量和目标音调向量；基于说话人标识，获取对应的目标声纹向量，将目标声纹向量、目标文本向量和目标音调向量进行拼接，利用拼接后的目标隐向量对语音合成模型进行训练，以获取说话人标识对应的目标语音合成模型，从而提高更新后的目标语音合成模型所合成语音数据与说话人的声纹相似度，增加目标语音合成模型的拟人化程度。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对本发明实施例的描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1是本发明一实施例中语音合成模型训练方法的一应用环境示意图；

图2是本发明一实施例中语音合成模型训练方法的一流程图；

图3是本发明一实施例中语音合成模型训练方法的另一流程图；

图4是本发明一实施例中语音合成模型训练方法的另一流程图；

图5是本发明一实施例中语音合成模型训练方法的另一流程图；

图6是本发明一实施例中语音合成模型训练方法的另一流程图；

图7是本发明一实施例中语音合成模型训练方法的另一流程图；

图8是本发明一实施例中语音合成方法的一流程图；

图9是本发明一实施例中语音合成模型训练装置的一示意图；

图10是本发明一实施例中计算机设备的一示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明实施例提供的语音合成模型训练方法，可应用在如图1示出的应用环境中。如图1所示，客户端（计算机设备）通过网络与服务器进行通信。其中，客户端又称为用户端，是指与服务器相对应，为客户提供本地服务的程序，客户端（计算机设备）包括但不限于为各种个人计算机、笔记本电脑、智能手机、平板电脑、摄像头和便携式可穿戴设备。服务器可以用独立的服务器，也可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、内容分发网络(Content Delivery Network，CDN)、以及大数据和人工智能平台等基础云计算服务的云服务器。

本发明实施例提供的语音合成模型训练方法，该语音合成模型训练方法可应用如图1所示的应用环境中。具体地，该语音合成模型训练方法应用在语音合成系统中，该语音合成系统包括如图1所示的客户端和服务器，客户端与服务器通过网络进行通信，用于实现对原始文本数据进行处理，以训练语音合成模型获取对应的目标语音合成模型，提高语音合成的拟人化程度。

在一实施例中，如图2所示，提供一种语音合成模型训练方法，以该方法应用在图1中的服务器为例进行说明，包括如下步骤：

S201：获取原始文本数据和说话人标识；

S202：根据原始文本数据，获取原始文本向量和原始音素向量；

S203：对原始文本向量进行文本增强处理，获取目标文本向量；

S204：对原始音素向量进行音调增强处理，获取目标音调向量；

S205：基于说话人标识，获取说话人标识对应的目标声纹向量；

S206：对目标文本向量、目标音调向量和目标声纹向量进行拼接处理，获取目标隐向量；

S207：根据目标隐向量进行语音合成模型训练，获取说话人标识对应的目标语音合成模型。

其中，语音合成是通过机械的、电子的方法生成对应的自然人语音，也就是将计算机自己产生的、或外部输入的文字信息转变为可以听得懂的、流利的口语输出的技术。

其中，说话人即声纹，通过赋予合成语音对应的说话人标识，可提高所生成语音的拟人化程度，由于人的发声器官实际上存在着大小、形态及功能上的差异，这些微小差异导致发声气流的改变，造成了音质、音色上的差别。说话人识别是从说话人发出的语音信号中提取声纹信息，并对说话人进行身份验证的生物识别技术。

作为一示例，步骤S201中，服务器获取原始文本数据和说话人标识，用于语音合成模型的训练，原始文本数据为用于训练语音合成模型的文本数据的文本内容，说话人标识为用于训练语音合成模型的语音数据的声纹内容，通常训练语音合成模型从文本数据和语音数据两个维度进行训练。其中，训练语音合成模型通常以监督训练为主，文本数据和语音数据为相互配对的数据，也就是说，语音数据中的内容对应为文本数据。

在本示例中，通过不配对的文本数据和语音数据，分别对语音合成模型进行对应的训练，从而达到对语音合成模型进行无监督训练，可减少对语音数据和文本数据进行筛选和标注操作成本，从而提高训练效率。

作为一示例，步骤S202中，服务器根据所获取的原始文本数据，将原始文本数据进行编码处理，得到机器可识别的原始文本向量，而具有原始音素向量的原始文本向量，是较通常用于对语音合成模型训练的训练数据。

其中，音素（phone），是根据语音的自然属性划分出来的最小语音单位，依据音节里的发音动作来分析，一个动作构成一个音素。音素分为元音与辅音两大类，如汉语音节啊（ā）只有一个音素，爱（ài）有两个音素，代（dài）有三个音素等。

音素向量就是通过信号处理的方法将该音素转化为对应的音素向量，即音素特征表示。

作为一示例，步骤S203中，服务器基于原始文本向量，通过原始文本向量对应的原始音素向量，对原始文本向量进行特征增强处理，提取更多的特征，得到特征更为显著的目标文本向量，以用于对语音合成模型的训练，提高语音合成模型的灵敏度。

作为一示例，步骤S204中，服务器在确认原始音素向量后，对原始音素向量进行音调增强处理，通过对原始音素向量进行分析，预测其在沟通场景中对应的语调，并将预测的目标音调向量进行对应的特征增强，作为一种维度对语音合成模型进行训练，提高语音合成模型所生成语音在音调维度的拟人化程度。

作为一示例，步骤S205中，服务器根据说话人标识，从声纹样本库中，匹配对应的目标声纹向量，以用于生成拟人化的语音。其中，通过采集多个说话人语音，并将说话人语音转化为具有说话人标识的声纹向量存入声纹样本库，以用于后续用户根据说话人标识，选择具有对应说话人特色的合成语音。

作为一示例，步骤S206中，服务器在获取到目标声纹向量、目标文本向量和目标音调向量后，对目标声纹向量、特征增强后的目标文本向量和特征增强后的目标音调向量进行拼接处理，赋予特征增强后的目标文本向量和特征增强后的目标音调向量不同的声纹特征，并将拼接后得到的目标隐向量输入全连接层，进行相应处理后训练语音合成模型。

其中，目标隐向量是在本次应用场景下的所获得的隐向量，隐向量为不可观测的隐变量构成的向量，即通过可观测的特征向量进行特征增强后，所得到的隐向量。

在另一示例中，可将所生成的目标隐向量，利用损失函数计算特征增强后的目标隐向量的音素特征与原有因素特征的距离，以能够完成小循环音素到音素的重构过程。从而通过大量的无监督文本数据进行自监督训练，使得文本编码器对所有音素都有较强的编码表示能力。

作为一示例，步骤S207中，服务器在获取到目标语音向量后，通过目标语音向量，输入语音合成模型进行训练，以更新语音合成模型中的参数，以获取更为灵敏的目标语音合成模型，用于后续的语音生成任务。

在本示例中，通过获取原始文本数据和说话人标识，并对原始文本数据进行处理后，获取原始文本向量及对应的原始音素向量，通过对原始文本向量和原始音素向量进行特征增强处理，以得到向量更为显著目标文本向量和目标音调向量；基于说话人标识，获取对应的目标声纹向量，将目标声纹向量、目标文本向量和目标音调向量进行拼接，利用拼接后的目标隐向量对语音合成模型进行训练，以更新语音合成模型的参数，提高更新后的语音合成模型的灵敏性，保证所合成的语音数据的拟人化程度。

在一实施例中，如图3所示，在步骤S202，根据原始文本数据，获取原始文本向量和原始音素向量，包括：

S301：采用文本编码器，对原始文本数据进行文本编码，获取原始文本向量；

S302：采用音素对照词典，对原始文本向量进行匹配处理，获取原始文本数据对应的原始音素向量。

作为一示例，步骤S301中，服务器在确认原始文本数据后，采用对应的文本编码器对原始文本数据进行文本编码，将原始文本数据转化为对应的特征表示，即转化为对应的原始文本向量。

其中，文本编码器英文名称为Autoencoder，文本编码器为一种无监督的神经网络模型，它可以学习到所输入的文本数据的隐含特征，该功能被称为编码(coding)，同时用学习到的新特征可以重构出原始文本数据，称之为解码(decoding)。文本编码器包括但不限于BERT模型、DAN模型和transformer模型。

作为一示例，步骤S302中，服务器在得到原始文本数据对应的原始文本向量后，通过音素对照词典，根据原始文本向量，将原始文本数据中的各文本内容匹配对应的音素特征，即匹配原始文本数据对应的原始音素向量。

在本示例中，通过文本编码器，将原始文本数据进行编码处理，转化为对应的文本特征，也就是原始文本向量，并采用音素对照词典获取原始文本数据对应的原始音素向量，以为原始文本向量匹配到更准确的原始音素向量，用于后续的特征增强处理。在一实施例中，如图4所示，在步骤S203，对原始文本向量进行文本增强处理，获取目标文本向量，包括：

S401：采用文本时长预测器，对原始文本向量进行时长预测，获取第一时间帧数；

S402：根据第一时间帧数，对原始文本向量进行文本增强，获取目标文本向量。

作为一示例，步骤S401中，服务器根据所获取的原始文本向量，采用文本时长预测器，根据原始文本向量的原始音素向量，进行文本发音时长对应的时长预测，并将所预测的文本发音时长对应的第一时间帧数进行获取。

其中，文本时长预测器根据原始文本向量对应的原始音素向量，进行对应的发音时长预测，例如文本“today”与文本“yesterday”字，根据“today”对应的音素“/təˈdei/”和文本“yesterday”对应的音素“/ˈjestə(r)deɪ/”在发音时长不同，通过文本及对应语音作为样本，所训练后的文本时长预测器，更符合真实的朗读场景，提高文本时长预测器所预测结果的精准度。

作为一示例，步骤S402中，服务器在预测原始文本向量对应的第一时间帧数后，将该第一时间帧数作为一种特征，与原始文本向量相拼接，增加了原始文本向量的发音时长特征，作为目标文本向量。

在本示例中，通过文本时长预测器，根据原始文本向量对应的原始因素向量，预测对应的文本发音时长，获得对应的第一时间帧数，将该第一时间帧数这个特征与原始文本向量进行拼接，增加原始文本向量的发音时长特征，作为目标文本向量，从而达到对原始文本向量的特征进行拓展，提高后续模型训练训练的灵敏性。

在一实施例中，如图5所示，在步骤S204，对原始音素向量进行音调增强处理，获取目标音调向量，包括：

S501：对原始音素向量进行音调特征转换，获取原始音调向量；

S502：对原始音调向量进行时长预测处理，获取第二时间帧数；

S503：根据第二时间帧数，对原始音调向量进行音调增强处理，获取目标音调向量。

作为一示例，步骤S501中，服务器对原始因素向量进行音调特征转换，根据原始音素向量的发音，获取原始音素对应的音调特征，作为原始音调向量。在本示例中，如汉语音节“啊（ā）”的音调为一声，“爱（ài）”的音调为四声，将该音调特征进行提取，转化为对应的音调向量。

其中，通过音素对应音调作为样本，获取在不同音素发音中不同的音调，提高音调特征转换的精准度。

作为一示例，步骤S502中，服务器根据所获取的原始音调向量，根据原始音调向量对应的音调发音时长，进行音调发音时长对应的时长预测，并将所预测的音调发音时长对应的第二时间帧数进行获取。例如，汉字“吧”在不同的情境下，根据音调的不同，其在该音调下的发音时长也会有区别。

作为一示例，步骤S503中，服务器在预测原始音调向量对应的第二时间帧数后，将该第二时间帧数作为一种特征，与原始音调向量相拼接，增加了原始音调向量的发音时长特征，作为目标音调向量。

在本示例中，通过将原始因素向量进行音调特征转换，根据原始音调向量对应的原始因素向量，预测对应的音调发音时长，获得对应的第二时间帧数，将该第二间帧数这个特征与原始音调向量进行拼接，增加原始音调向量的发音时长特征，作为目标音调向量，从而达到对原始音调向量的特征进行拓展，提高后续模型训练训练的灵敏性。

在一实施例中，如图6所示，在步骤S205，基于说话人标识，获取说话人标识对应的目标声纹向量，包括：

S601：根据说话人标识，获取说话人序号；

S602：采用声纹样本库，对说话人序号进行查找，获取说话人序号对应的目标声纹向量。

作为一示例，步骤S601中，服务器对确认的说话人标识，获取该说话人标识对应的标识，以用于从声纹样本库匹配对应的说话人序号。

其中，说话人标识可以为不同的命名，如根据应用场景作为说话人标识，也可以采用简单的序号编码来区分不同的说话人。

作为一示例，步骤S602中，服务器根据匹配到的说话人序号，在对应声纹样本库获取说话人标识对应的说话人特征，也就是说话人标识对应的目标声纹向量。本示例中，通过预先获取多个说话人语音作为样本，提取对应的声纹特征，并转化为对应的声纹向量，预设在对应的声纹样本库，根据用户的去求选取对应的声纹特征进行使用。

其中，声纹向量可以为d-vector和x-vector来表示。d-vector的核心思想是在训练阶段将训练音频的真实说话人身份作为该音频训练帧的标签，它将模型训练转换为分类问题；而X-vector是d-vector的重要演变，它通过pooling过程将帧级别的特征融合成整句的特征。

在另一示例中，可以根据不同的说话人标识，对训练用的目标隐向量进行更新，以提供更多的模型的训练样本，提高语音合成模型的拟人化程度。

在本示例中，通过提前确定的说话人标识，获取对应的说话人序号，并根据说话人序号从声纹样本库中，匹配对应的目标声纹向量，以确定最终合成语音所具有的对应说话人特征，可根据不同的需求确定不同的说话人标识，以满足不同应用场景的需求。

在一实施例中，如图7所示，在步骤S207，根据目标隐向量进行语音合成模型训练，获取说话人标识对应的目标语音合成模型，包括：

S701：对目标隐向量进行梅尔编码增强处理，获取目标梅尔频谱；

S702：基于目标梅尔频谱进行语音合成模型训练，获取说话人标识对应的目标语音合成模型。

其中，梅尔频谱（mel spectrogram）是Hz的非线性变换，以mel scale为单位的信号，可以做到人们对于相同频率差别的信号，也就是相等的音高距离的感知能力相同。

作为一示例，步骤S701中，服务器在获取目标隐向量后，对目标隐向量进行梅尔编码增强处理，其通过特征增强后的目标隐向量，进行梅尔编码处理，以获取对应的合成语音向量，并再经过梅尔解码后，获取对应的目标梅尔频谱。

作为一示例，步骤S702中，服务器根据解码后获得的目标梅尔频谱，更新语音合成模型原有的梅尔频谱参数，从而获取目标隐向量所对应的说话人标识，该说话人标识应用场景下的目标语音合成模型。

在另一示例中，通过原始语音数据，对梅尔编码器进行训练，获取梅尔频谱，该原始语音数据和原始文本数据，可以分别对语音合成模型进行训练，进行无配对数据训练，以达到无需监督的目的。

在本示例中，通过特征增强后的目标隐向量，进行梅尔编码处理，取对应的合成语音向量，并再经过梅尔解码后，获取对应的目标梅尔频谱更新语音合成模型原有的梅尔频谱参数，从而获取拟人化程度更高的目标语音合成模型，提高了语音合成模型的灵敏性。

在另一实施例中，提供一种语音合成方法，以该方法应用在图8中的服务器为例进行说明，包括如下步骤：

S801：获取与说话人标识相对应的待处理文本数据；

S802：采用说话人标识相对应的目标语音合成模型，对待处理文本数据进行语音合成，获取合成语音数据。

作为一示例，步骤S801中，服务器获取用户确定的说话人标识，以及用户所输入的待处理文本数据。其中，客户根据声纹样本库中存在的说话人标识进行选择，并在应用中输入需要转化为合成语音数据的文本数据。

作为一示例，步骤S802中，服务器在接收到说话人标识相对应的待处理文本数据后，根据说话人标识相对应的目标语音合成模型，对待处理文本数据进行语音合成，并获取文本数据对应的，具有说话人特征的合成语音数据。

在本示例中，用户可根据应用需求选定对应的说话人标识，输入待处理文本数据后，服务器可根据目标语音合成模型，生成对应的合成语音数据，相较于现有技术中的语音合成模型所生成的合成语音数据，拟人化程度更高。

应理解，上述实施例中各步骤的序号的大小并不意味着执行顺序的先后，各过程的执行顺序应以其功能和内在逻辑确定，而不应对本发明实施例的实施过程构成任何限定。

在一实施例中，提供一种语音合成模型训练装置，该语音合成模型训练装置与上述实施例中语音合成模型训练方法一一对应。如图9所示，该语音合成模型训练装置包括原始文本数据获取模块801、原始文本数据处理模块802、目标文本向量获取模块803、目标音调向量获取模块804、目标声纹向量获取模块805、目标隐向量获取模块806和目标语音合成模型获取模块807。各功能模块详细说明如下：

原始文本数据获取模块801，获取原始文本数据；

原始文本数据处理模块802，根据原始文本数据，获取原始文本向量和原始音素向量；

目标文本向量获取模块803，对原始文本向量进行文本增强处理，获取目标文本向量；

目标音调向量获取模块804，对原始音素向量进行音调增强处理，获取目标音调向量；

目标声纹向量获取模块805，对目标文本向量、目标音调向量和目标声纹向量进行拼接处理，获取目标隐向量；

目标隐向量获取模块806，对目标文本向量、目标音调向量和目标声纹向量进行拼接处理，获取目标隐向量；

目标语音合成模型获取模块807，根据目标隐向量进行语音合成模型训练，获取说话人标识对应的目标语音合成模型。

在一实施例中，原始文本数据处理模块802，包括：

原始文本向量获取单元，采用文本编码器，对原始文本数据进行文本编码，获取原始文本向量；

原始音素向量获取单元，采用音素对照词典，对原始文本向量进行匹配处理，获取原始文本数据对应的原始音素向量。

在一实施例中，目标文本向量获取模块803，包括：

第一时间帧数获取单元，采用文本时长预测器，对原始文本向量进行时长预测，获取第一时间帧数；

目标文本向量获取单元，根据第一时间帧数，对原始文本向量进行文本增强，获取目标文本向量。

在一实施例中，目标音调向量获取模块804，包括：

原始音调向量获取单元，对原始音素向量进行音调特征转换，获取原始音调向量；

第二时间帧数获取单元，对原始音调向量进行时长预测处理，获取第二时间帧数；

目标音调向量获取单元，根据第二时间帧数，对原始音调向量进行音调增强处理，获取目标音调向量。

在一实施例中，目标声纹向量获取模块805，包括：

说话人序号获取单元，根据说话人标识，获取说话人序号；

目标声纹向量获取单元，采用声纹样本库，对说话人序号进行查找，获取说话人序号对应的目标声纹向量。

在一实施例中，目标语音合成模型获取模块807，包括：

目标梅尔频谱获取单元，对目标隐向量进行梅尔编码增强处理，获取目标梅尔频谱；

目标语音合成模型获取单元，基于目标梅尔频谱进行语音合成模型训练，获取说话人标识对应的目标语音合成模型。

在另一实施例中，提供一种语音合成装置，该语音合成装置与上述实施例中语音合成模型训练方法一一对应，包括：

待处理文本数据获取模块，获取与说话人标识相对应的待处理文本数据；

合成语音数据获取模块，采用说话人标识相对应的目标语音合成模型，对待处理文本数据进行语音合成，获取合成语音数据。

关于语音合成模型训练装置的具体限定可以参见上文中对于语音合成模型训练方法的限定，在此不再赘述。上述语音合成模型训练装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中，也可以以软件形式存储于计算机设备中的存储器中，以便于处理器调用执行以上各个模块对应的操作。

在一个实施例中，提供了一种计算机设备，该计算机设备可以是服务器，其内部结构图可以如图10所示。该计算机设备包括通过系统总线连接的处理器、存储器、网络接口和数据库。其中，该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的数据库用于执行语音合成模型训练方法过程中采用或生成的数据。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种语音合成模型训练方法。

在一实施例中，提供一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，处理器执行计算机程序时实现上述实施例中语音合成模型训练方法，例如图2所示S201-S207，或者图3至图7中所示，为避免重复，这里不再赘述。还可以在处理器上运行的计算机程序，处理器执行计算机程序时实现上述实施例中计算机程序时实现语音合成方法。或者，处理器执行计算机程序时实现语音合成模型训练装置这一实施例中的各模块/单元的功能，例如图9所示的原始文本数据获取模块801、原始文本数据处理模块802、目标文本向量获取模块803、目标音调向量获取模块804、目标声纹向量获取模块805、目标隐向量获取模块806和目标语音合成模型获取模块807的功能，为避免重复，这里不再赘述。

在一实施例中，提供一种计算机可读存储介质，该计算机可读存储介质上存储有计算机程序，该计算机程序被处理器执行时实现上述实施例中语音合成模型训练方法，例如图2所示S201-S207，或者图3至图7中所示，为避免重复，这里不再赘述。该计算机程序还可以被处理器执行时实现上述实施例中计算机程序时实现语音合成方法。或者，该计算机程序被处理器执行时实现上述语音合成模型训练装置这一实施例中的各模块/单元的功能，例如图9所示的原始文本数据获取模块801、原始文本数据处理模块802、目标文本向量获取模块803、目标音调向量获取模块804、目标声纹向量获取模块805、目标隐向量获取模块806和目标语音合成模型获取模块807的功能，为避免重复，这里不再赘述。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，该计算机程序可存储于一非易失性计算机可读取存储介质中，该计算机程序在执行时，可包括如上述各方法的实施例的流程。其中，本发明所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用，均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器（ROM）、可编程ROM（PROM）、电可编程ROM（EPROM）、电可擦除可编程ROM（EEPROM）或闪存。易失性存储器可包括随机存取存储器（RAM）或者外部高速缓冲存储器。作为说明而非局限，RAM以多种形式可得，诸如静态RAM（SRAM）、动态RAM（DRAM）、同步DRAM（SDRAM）、双数据率SDRAM（DDRSDRAM）、增强型SDRAM（ESDRAM）、同步链路（Synchlink） DRAM（SLDRAM）、存储器总线（RambuS）直接RAM（RDRAM）、直接存储器总线动态RAM（DRDRAM）、以及存储器总线动态RAM（RDRAM）等。

所属领域的技术人员可以清楚地了解到，为了描述的方便和简洁，仅以上述各功能单元、模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能单元、模块完成，即将装置的内部结构划分成不同的功能单元或模块，以完成以上描述的全部或者部分功能。

以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围，均应包含在本发明的保护范围之内。

Claims

1.一种语音合成模型训练方法，其特征在于，包括：

获取原始文本数据和说话人标识；

采用文本时长预测器，对所述原始文本向量进行文本发音时长预测，获取第一时间帧数；

将所述第一时间帧数与所述原始文本向量进行向量拼接，获取目标文本向量；

对所述原始音素向量进行音调特征转换，获取原始音调向量；

将所述原始音调向量增加所述原始音调向量的发音时长特征，获取目标音调向量；

2.如权利要求1所述的语音合成模型训练方法，其特征在于，所述根据所述原始文本数据，获取原始文本向量和原始音素向量，包括：

采用文本编码器，对所述原始文本数据进行文本编码，获取原始文本向量；

采用音素对照词典，对所述原始文本向量进行匹配处理，获取所述原始文本数据对应的原始音素向量。

3.如权利要求1所述的语音合成模型训练方法，其特征在于，所述将所述原始音调向量增加所述原始音调向量的发音时长特征，获取目标音调向量，包括：

对所述原始音调向量进行时长预测处理，获取第二时间帧数；

根据所述第二时间帧数，对所述原始音调向量进行音调增强处理，获取目标音调向量。

4.如权利要求1所述的语音合成模型训练方法，其特征在于，所述基于所述说话人标识，获取所述说话人标识对应的目标声纹向量，包括：

根据所述说话人标识，获取说话人序号；

采用声纹样本库，对所述说话人序号进行查找，获取所述说话人序号对应的目标声纹向量。

5.如权利要求1所述的语音合成模型训练方法，其特征在于，所述根据所述目标隐向量进行语音合成模型训练，获取所述说话人标识对应的目标语音合成模型，包括：

对所述目标隐向量进行梅尔编码增强处理，获取目标梅尔频谱；

基于所述目标梅尔频谱进行语音合成模型训练，获取所述说话人标识对应的目标语音合成模型。

6.一种语音合成方法，其特征在于，包括：

获取与说话人标识相对应的待处理文本数据；

采用权利要求1-5任一项所述说话人标识相对应的目标语音合成模型，对所述待处理文本数据进行语音合成，获取合成语音数据。

7.一种语音合成模型训练装置，其特征在于，包括：

原始文本数据获取模块，获取原始文本数据和说话人标识；

目标文本向量获取模块，采用文本时长预测器，对所述原始文本向量进行文本发音时长预测，获取第一时间帧数；将所述第一时间帧数与所述原始文本向量进行向量拼接，获取目标文本向量；

目标音调向量获取模块，对所述原始音素向量进行音调特征转换，获取原始音调向量；将所述原始音调向量增加所述原始音调向量的发音时长特征，获取目标音调向量；

目标语音合成模型获取模块，根据所述目标隐向量进行语音合成模型训练，获取所述说话人标识对应的目标语音合成模型。

8.一种计算机设备，包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现如权利要求1至5任一项所述语音合成模型训练方法，或者所述处理器执行所述计算机程序时实现如权利要求6所述语音合成方法。

9.一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1至5任一项所述语音合成模型训练方法，或者所述处理器执行所述计算机程序时实现如权利要求6所述语音合成方法。