CN116030789B

CN116030789B - 一种生成语音合成训练数据的方法和装置

Info

Publication number: CN116030789B
Application number: CN202211696677.4A
Authority: CN
Inventors: 司马华鹏; 徐冉; 毛志强
Original assignee: Nanjing Silicon Intelligence Technology Co Ltd
Current assignee: Nanjing Silicon Intelligence Technology Co Ltd
Priority date: 2022-12-28
Filing date: 2022-12-28
Publication date: 2024-01-26
Anticipated expiration: 2042-12-28
Also published as: CN116030789A

Abstract

本发明公开了一种生成语音合成训练数据的方法和装置，获取待训练的音频和所述待训练的音频对应的拼音文本；将所述待训练的音频进行处理，得到预处理的音频特征；将拼音文本进行清洗，得到清洗文本；根据待训练的音频和所述清洗文本，基于静音时长决策和规则判定的算法，生成所述清洗文本的韵律层级。本发明还公开了一种生成语音合成训练数据的装置。本发明克服了直接将语音/文字进行训练存在的语音合成真实度低的技术缺陷，实现对人工标注的拼音进行筛检，纠正错误拼音，避免遗漏拼音，提高语音合成真实度。

Description

一种生成语音合成训练数据的方法和装置

技术领域

本发明涉及计算机技术领域，尤其涉及一种生成语音合成训练数据的方法和装置。

背景技术

近年来，随着人工智能技术的进步，语音合成技术也得到了快速发展。语音合成(简称语音合成)是一种将文字转化为语音的一种技术，类似于人类的嘴巴，通过不同的音色说出想表达的内容。语音合成模型的训练，主要包括训练数据预处理、声学模型训练两个模块。

虽然声学模型的理论技术取得了长足进步，但是在实际应用过程中，现有技术着重于算法模型的准确度，几乎没用技术方案对训练数据做改进。

发明内容

有鉴于此，本发明实施例提供一种生成语音合成训练数据的方法和装置，能够避免现有技术存在的直接将语音/文字进行训练存在的语音合成真实度低的技术缺陷，进而可以实现对人工标注的拼音进行筛检，纠正错误拼音，避免遗漏拼音等功能，达到提高语音合成真实度的技术效果。

为实现上述目的，根据本发明实施例的一个方面，提供了一种生成语音合成训练数据的方法，包括：

获取待训练的音频和所述待训练的音频对应的拼音文本；

将所述待训练的音频进行处理，得到预处理的音频特征；

将所述拼音文本进行清洗，得到清洗文本；

根据所述待训练的音频和所述清洗文本，基于静音时长决策和规则判定的算法，生成所述清洗文本的韵律层级；

其中，所述预处理的音频特征和所述清洗文本的韵律层级组成语音合成训练数据。

可选地，将所述待训练的音频进行处理，得到预处理的音频特征，包括：

提取所述待训练的音频的原始特征；

根据所述原始特征，提取正则化特征；

将所述正则化特征，确定为预处理的音频特征。

可选地，提取所述待训练的音频的原始特征之前，包括：

对所述待训练的音频进行标准化处理，生成标准音频；

将所述标准音频进行正则化处理，生成正则音频；

将所述正则音频更新所述待训练的音频，用于提取所述原始特征。

可选地，所述标准化处理的操作，包括如下至少之一：

将所述待训练的音频的采样率进行统一转换；

将所述待训练的音频去除噪声；

将所述待训练的音频进行静音切分。

可选地，将所述拼音文本进行清洗，得到清洗文本，包括：

将拼音文本中的拼音部分和文本部分进行匹配；

当存在不匹配的情况，则使用拼音字典对不匹配的拼音进行修正；

将修正后的结果确定为清洗文本。

可选地，当存在不匹配的情况，则使用拼音字典对不匹配的拼音进行修正，包括：

当所述不匹配的拼音无法与所述拼音字典匹配，则标注所述不匹配的拼音对应的文本为错误；

使用所述拼音字典对所述标注为错误的文本匹配拼音；

根据所述匹配的拼音对所述拼音部分进行修订。

可选地，将所述拼音文本进行清洗，得到清洗文本，还包括：

当所述拼音部分和所述文本部分的数量不统一时，将没有拼音部分对应的所述文本部分确定为漏标文本；

将所述漏标文本进行标注，将标注的结果融合到所述拼音部分；

将所述拼音部分和文本部分的组合，确定为清洗文本。

将所述拼音文本中的语气助词进行统一标注，生成清洗文本。

若所述文本部分存在其他语言文本，则利用其他语言字典查找所述其他语言文本；

将所述其他语言文本对应的文字进行标注，得到清洗文本。

可选地，若所述文本部分存在其他语言文本，则利用其他语言字典查找所述其他语言文本之后，包括：

将利用其他语言字典查找到的所述其他语言文本的标注补充到所述拼音字典。

可选地，根据所述待训练的音频和所述清洗文本，基于静音时长决策和规则判定的算法，生成所述清洗文本的韵律层级，包括：

针对每一段音频，基于静音时长决策和规则判定的算法，划分所述音频的静音时长；

若存在静音时长，则对该段音频的静音时长进行标注；

若不存在静音时长，则对相应的文本进行中文词性分词，输入到自然语言处理韵律预测模型中，得到相应的韵律预测结果。

可选地，若存在静音时长，则对该段音频的静音时长进行标注，包括：

设置用于划分静音时长的标注区间；

根据所述标注区间对所述静音时长进行划分，根据所述静音时长所对应的标注区间进行标注。

可选地，基于静音时长决策和规则判定的算法，划分所述音频的静音时长，包括：

对所述预处理的音频进行VAD静音预测，获取第一静音时长；

根据所述预处理的音频和所述清洗文本进行MFA对齐，获取第二静音时长；

根据所述第一静音时长的概率和所述第二静音时长的概率，通过决策算法确定为所述音频的静音时长。

可选地，计算概率的计算公式如下：

其中：

P_a(C)＝P_a(C/f_a(x_a))P_a(f_a(x_a))

P_t(C)＝P_t(C/f_t(x_t))P_t(f_t(x_t))

f_a(x_a)是VAD模型预测分类器，f_t(x_t)分别是MFA模型预测分类器；P_a(C)表示VAD模型预测的准确率，P_t(C)表示MFA模型预测的准确率；P_a(C/f_a(x_a))表示模型VAD预测分类器的先验概率，P_t(C/f_t(x_t))表示模型MAF预测分类器的先验概率。

本发明实施例的再一个方面，提供了一种生成语音合成训练数据的装置，包括：

音频文本获取模块，用于获取待训练的音频和所述待训练的音频对应的拼音文本；

音频预处理模块，用于将所述待训练的音频进行处理，得到预处理的音频特征；

文本清洗模块，用于将所述拼音文本进行清洗，得到清洗文本；

韵律层级生成模块，用于根据所述待训练的音频和所述清洗文本，基于静音时长决策和规则判定的算法，生成所述清洗文本的韵律层级；

本发明实施例的另一个方面，提供了一种生成语音合成训练数据的电子设备，包括：

一个或多个处理器；

存储装置，用于存储一个或多个程序，

当所述一个或多个程序被所述一个或多个处理器执行，使得所述一个或多个处理器实现本发明提供的生成语音合成训练数据的方法。

根据本发明实施例的还一个方面，提供了一种计算机可读介质，其上存储有计算机程序，所述程序被处理器执行时实现本发明提供的生成语音合成训练数据方法。

上述发明中的一个实施例具有如下优点或有益效果：

本发明提出的自动化韵律标注的语音合成训练数据的方案，避免了现有技术存在的直接将语音/文字进行训练存在的语音合成真实度低的技术缺陷，进而可以实现对人工标注的拼音进行筛检，纠正错误拼音，避免遗漏拼音等功能，达到提高语音合成真实度的技术效果。

上述的非惯用的可选方式所具有的进一步效果将在下文中结合具体实施方式加以说明。

附图说明

附图用于更好地理解本发明，不构成对本发明的不当限定。其中：

图1是根据本发明实施例的生成语音合成训练数据的方法的主要流程的示意图；

图2为本申请可选实施例的韵律标注规则图；

图3是根据本发明一具体实施例的生成语音合成训练数据的方法的主要流程的示意图；

图4是根据本发明实施例的生成语音合成训练数据的装置的主要模块的示意图；

图5是根据本发明实施例的生成语音合成训练数据的系统的主要单元的示意图；

图6是本发明实施例可以应用于其中的示例性系统架构图；

图7是适于用来实现本发明实施例的终端设备或服务器的计算机系统的结构示意图。

具体实施方式

以下结合附图对本发明的示范性实施例做出说明，其中包括本发明实施例的各种细节以助于理解，应当将它们认为仅仅是示范性的。因此，本领域普通技术人员应当认识到，可以对这里描述的实施例做出各种改变和修改，而不会背离本发明的范围和精神。同样，为了清楚和简明，以下的描述中省略了对公知功能和结构的描述。

图1是根据本发明实施例的生成语音合成训练数据的方法的主要流程的示意图。如图1所示，为实现上述目的，根据本发明实施例的一个方面，提供了一种生成语音合成训练数据的方法，包括：

步骤S101、获取待训练的音频和所述待训练的音频对应的拼音文本；

步骤S102、将所述待训练的音频进行处理，得到预处理的音频特征；

步骤S103、将拼音文本进行清洗，得到清洗文本；在S103的清洗过程中，可以实现的步骤包括但不限于如下之一：错误拼音修正、文本与拼音匹配、语气词修正、更新字典。其目的在于针对标注人员标注过程中出现的错误拼音标注，使用拼音字典与标注的拼音进行匹配。若文本对应的拼音不在拼音字典中，则视为标注错误，进行修正。若文本与拼音匹配是文本汉字个数和标注拼音的个数进行匹配，若两者数量不统一，则有可能发生拼音漏标的情况，并进行修正。由于语音合成对于语气有不同于其他文字的生成方式，因此可以将语气词统一进行标注，也就是针对文本中涉及的语气词，如“嗯，啊，哦，噢”等包括呼吸声进行统一规则标注。在清洗过程中还可以对字典进行更新。更新字典是把标注文本中的英文字母/单词补充到拼音字典中。

步骤S104、根据待训练的音频和所述清洗文本，基于静音时长决策和规则判定的算法，生成所述清洗文本的韵律层级；

目前语音合成训练数据主要是针对待训练的音频数据进行人工标注。标注内容主要包括拼音标注，韵律标注。随着训练语料的增加，人工标注的方法往往会出现时间成本增加，错误率增加的情况。另外，人工进行韵律边界的标注除了比较耗时，而且存在一定主观性，不同人乃至同一人在不同状况下的标注结果都会存在不一致性，通常需要多人重复标注并采用投票的方式来保证一致性，进而大大增加了生成训练数据的成本。基于人工的拼音标注，虽然具有一定的标准，客观性较高，但是随着语料增加，标注时间增长，也会出现拼音错标，拼音漏标等情况。这些标注错误和规则的不统一，对声学模型的训练效果有较大的影响。

本发明可选实施例通过采用一种基于决策和时长规则制定的自动化韵律标注方法，获取音频的韵律标注。同时对待标注的音频进行去噪，首尾两端静音切分等处理方法，使训练音频的特征更加规范化，从而达到更大程度的从数据层面上提升语音合成的效果。

上述步骤S102，将所述待训练的音频进行处理，得到预处理的音频特征，可以包括：

提取所述待训练的音频的原始特征；

根据所述原始特征，提取正则化特征；

将所述正则化特征，确定为预处理的音频特征；

其中，所述预处理的音频特征包括Mel谱、Pitch特征、Energy特征。

通过将原始特征进行正则化处理使得用于语音合成时，可以将生成的音频误差率显著降低。

通过上述特征的提取可以实现对音频特征直接用于语音合成训练数据，进而最大程度的减少无关因素对特征的影响。

可选地，在提取所述待训练的音频的原始特征之前，可以对音频本身进行处理，包括：

对所述待训练的音频进行标准化处理，生成标准音频；

将所述标准音频进行正则化处理，生成正则音频；

本发明技术方案通过对音频的处理用于特征提取，可以使得处理得到的音频噪音更小，进而使得特征提取更准确。

可选地，所述标准化处理的操作，包括如下至少之一：

将所述待训练的音频的采样率进行统一转换；在实际应用中，存在一秒钟采样频率不同的情况，为了方便后续的工作，本发明可以采用将采样率转化为相同的技术手段解决了现有技术存在的因采样率不同导致的无法进行后续操作的技术缺陷。

将所述待训练的音频去除噪声；

将所述待训练的音频进行静音切分。

所述静音切分是指将每段音频的前后设置相同的静音长度，实现全部音频对齐的技术效果。

可选地，将拼音文本进行清洗，得到清洗文本，包括：

将拼音文本中的拼音部分和文本部分进行匹配；

将修正后的结果确定为清洗文本。

使用拼音字典对所述标注为错误的文本匹配拼音；

根据所述匹配的拼音对所述拼音部分进行修订。

步骤S103是对拼音文本进行清洗。清洗过程主要是对明显错误进行修正，包括：处理拼音和文本数量不一致得情况、处理漏标拼音的情况、出现个别其他语言词语的情况等。本发明说保护的技术方案不限于保护处理一种或几种技术方案以及其组合，也可以保护涉及清洗的其他过程。

具体地，将拼音文本进行清洗，得到清洗文本，还包括：

将所述拼音部分和文本部分的组合，确定为清洗文本。

由于在语言合成过程中，存在语气助词，且语音合成对于语气助词存在区别于普通文本的算法。因此将拼音文本进行清洗，得到清洗文本，还包括：

将所述拼音文本中的语气助词进行统一标注，生成清洗文本。语气助词例如，嗯，啊，哦，噢、呼吸声等。

当文本中存在其他语言的少量词语时，可选地，将拼音文本进行清洗，得到清洗文本，还包括：

将所述其他语言文本对应的文字进行标注，得到清洗文本。

具体地，当一段中文本中夹杂了一个英文单字，但是该英文单词在中文字典中并无相应的拼音。为了在语音合成过程中也需要读出该英文单词的发音，本发明可选技术方案将该英文单词以及对应的拼音/标注写入到中文的拼音字典中，避免了将整本英文字典与中文字典融合存在的浪费算力、语音合成效果不佳的技术问题，进而达到提高语音合成效率、准确度的技术效果。

在实际应用中，文本可能夹杂少量其他语言的词语，对于这些词语，文本对应的字典并没有这些词语对应的拼音。但是仅因为少量的其他语言的词语而将原本的拼音语言和新的字典合并，会导致生成训练的数据过于离散、训练速度慢、算力消耗大。因此，本发明仅将文本用到的其他语言的词语放在拼音字典中，大大提升了后续训练的技术效果。

因此可选地，若所述文本部分存在其他语言文本，则利用其他语言字典查找所述其他语言文本之后，包括：

自动化韵律标注旨在使用基于静音时长决策和规则判定的方法获取音频的韵律层级，在保证韵律获取准确性的同时，替代人工韵律标注的方法。具体地，在步骤S104根据待训练的音频和所述清洗文本，基于静音时长决策和规则判定的算法，生成所述清洗文本的韵律层级，包括：

若存在静音时长，则对该段音频的静音时长进行标注。具体地，首先对处理后的音频进行VAD静音预测，获取相对粗略的静音时长信息，然后使用拼音处理后的文本和处理后的音频进行MFA对齐，获取拼音在音频中对应的时长和静音部分对应的时长。本专利采用的是模型决策融合的方式，即分别使用VAD模型和MFA模型，在决策层面根据2个模型的输出判别结果概率和模型整体正确率作为决策依据，其决策过程具体计算概率的计算公式如下：

其中：

P_a(C)＝P_a(C/f_a(x_a))P_a(f_a(x_a))

P_t(C)＝P_t(C/f_t(x_t))P_t(f_t(x_t))

设置用于划分静音时长的标注区间；例如静音时长小于等于10为一个区间，静音区间大于10小于等于30为一个区间。

在本专利一具体实施例中，图2为本申请可选实施例的韵律标注规则图。

如图2所示，10，30，50分别为静音时长的标注区间的边界数值。针对训练文本，将具备静音时长的文本设置“SP”静音标识，根据静音时长，分别进行不同韵律层级的标注。

针对不带有SP静音标识的文本，根据中文分词词性，输入到基于自然语言处理(NLP)的韵律预测模型，获得相对应的韵律预测结果。最终整合到训练文本中。

对所述预处理的音频进行VAD静音预测，获取第一静音时长；

综上所述，本发明可选实施例通过对标注后的拼音进行修正，对待训练音频进行去噪，静音切分，正则化等预处理方法，保证了训练数据集标注的精准性。并且通过自动化韵律标注流程，不但解决了标注人员韵律标注的主观性影响，也达到了统一标注准则、缩短标注时间，大大节约了韵律标注的时间成本和人员成本的技术效果，在数据层面最大程度的提高声学模型训练的效果。

图3是根据本发明一具体实施例的生成语音合成训练数据的方法的主要流程的示意图。该生成语音合成训练数据的方法，包括：

步骤S301、输入待训练音频数据和对应的拼音文本。

步骤S302、对音频数据进行采样率转换，音频去噪，静音切分，音频正则化，获取预处理后的音频。

步骤S303、对输入拼音文本，进行错误拼音纠正，文本与拼音匹配，更新字典等，获取清洗后的拼音文本。

步骤S304、对清洗后的文本和预处理后的音频进行MFA训练，获取MFA对齐结果。

步骤S305、对音频进行VAD处理，结合MFA对齐模型，进行决策融合，获取最终的音频静音时长结果。

步骤S306、对含有静音时长的文本按照一定的规则进行韵律层级的标注，获得含有韵律的文本。

步骤S307、提取预处理音频数据对应的Mel谱，Pitch特征，Energy特征。

图4是根据本发明实施例的生成语音合成训练数据的装置的主要模块的示意图。如图4所示，提供了一种生成语音合成训练数据的装置400，包括：

音频文本获取模块401，用于获取待训练的音频和所述待训练的音频对应的拼音文本；

音频预处理模块402，用于将所述待训练的音频进行处理，得到预处理的音频特征；

文本清洗模块403，用于将拼音文本进行清洗，得到清洗文本；

韵律层级生成模块404，用于根据待训练的音频和所述清洗文本，基于静音时长决策和规则判定的算法，生成所述清洗文本的韵律层级；

图5是根据本发明实施例的生成语音合成训练数据的系统的主要单元的示意图。

如图5所示，该系统包括音频处理单元、拼音处理单元以及自动化韵律标注单元。

拼音处理单元主要包括错误拼音修正，文本与拼音匹配，语气词修正，更新字典四个子单元。其中文本与拼音修正主要是针对标注人员标注过程中出现的错误拼音标注，使用拼音字典与标注的拼音进行匹配，若拼音不在拼音字典中，则视为标注错误，进行修正；文本与拼音匹配是文本汉字个数和标注拼音的个数进行匹配，若两者数量不统一，则有可能发生拼音漏标的情况，并进行修正；语气词修正是针对文本中涉及的语气词，如“嗯，啊，哦，噢”等包括呼吸声，进行统一规则标注；更新字典是把标注文本中的英文字母，单词补充道拼音字典中。

音频处理单元主要包括待训练音频的预处理和处理后音频的特征提取两个子单元。待训练音频的预处理主要是对音频进行采样率的统一，对含有噪声的数据进行音频去噪，同时进行音频静音切分，切除音频首尾两端多余的静音，提高音频在VAD和MFA对齐时的准确性。然后进行音频正则化，规范音频的波形数值到统一的区间范围内。音频特征提取单元，是对处理后的音频提取对应的Mel谱，Pitch特征，Energy特征，并对这些特征进行正则化处理，方便之后声学模型的训练，同时也更好的匹配后期声码器模型的输入。

自动化韵律标注单元旨在使用基于静音时长决策和规则判定的方法获取音频的韵律层级，在保证韵律获取准确性的同时，替代人工韵律标注的方法。

首先对处理后的音频进行VAD静音预测，获取相对粗略的静音时长信息，然后使用拼音处理后的文本和处理后的音频进行MFA对齐，获取拼音在音频中对应的时长和静音单元对应的时长。本专利采用的是模型决策融合的方式，即分别使用VAD模型和MFA模型，在决策层面根据2个模型的输出判别结果概率和模型整体正确率作为决策依据，其决策过程具体为：

其中：

P_a(C)＝P_a(C|f_a(x_a))P_a(f_a(x_a))

P_t(C)＝P_t(C|f_t(x_t))P_t(f_t(x_t))

f_a(x_a)和f_t(x_t)分别是VAD和MFA模型预测分类器，P_a(C)，P_t(C)表示两个模型预测的准确率。P_a(C|f_a(x_a))，P_t(C|f_t(x_t))表示模型预测分类器的先验概率，即输出判别概率。决策融合的方式比单独使用VAD和MFA提取静音时长的准确率都有所提高，决策融合的方法由于考虑了各子模型的先验概率，更加易于“取长补短”，在每个标注过程中都综合给出最优的判别结果，从而获得较好的效果。

图6示出了可以应用本发明实施例的生成语音合成训练数据方法或生成语音合成训练数据装置的示例性系统架构600。

如图6所示，系统架构600可以包括终端设备601、602、603，网络604和服务器605。网络604用以在终端设备601、602、603和服务器605之间提供通信链路的介质。网络604可以包括各种连接类型，例如有线、无线通信链路或

者光纤电缆等等。

用户可以使用终端设备601、602、603通过网络604与服务器605交互，以接收或发送消息等。终端设备601、602、603上可以安装有各种通讯客户端应用，例如购物类应用、网页浏览器应用、搜索类应用、即时通信工具、邮箱客户端、社交平台软件等(仅为示例)。

终端设备601、602、603可以是具有显示屏并且支持网页浏览的各种电子设备，包括但不限于智能手机、平板电脑、膝上型便携计算机和台式计算机等等。

服务器605可以是提供各种服务的服务器，例如对用户利用终端设备601、602、603所浏览的购物类网站提供支持的后台管理服务器(仅为示例)。后台管理服务器可以对接收到的产品信息查询请求等数据进行分析等处理，并将处理结果(例如目标推送信息、产品信息--仅为示例)反馈给终端设备。

需要说明的是，本发明实施例所提供的生成语音合成训练数据方法一般由服务器605执行，相应地，生成语音合成训练数据装置一般设置于服务器605中。

应该理解，图6中的终端设备、网络和服务器的数目仅仅是示意性的。根据实现需要，可以具有任意数目的终端设备、网络和服务器。

下面参考图7，其示出了适于用来实现本发明实施例的终端设备的计算机系统700的结构示意图。图7示出的终端设备仅仅是一个示例，不应对本发明实施例的功能和使用范围带来任何限制。

如图7所示，计算机系统700包括中央处理单元(CPU)701，其可以根据存储在只读存储器(ROM)702中的程序或者从存储部分708加载到随机访问存储器(RAM)703中的程序而执行各种适当的动作和处理。在RAM 703中，还存储有系统700操作所需的各种程序和数据。CPU 701、ROM 702以及RAM 703通过总线704彼此相连。输入/输出(I/O)接口705也连接至总线704。

以下部件连接至I/O接口705：包括键盘、鼠标等的输入部分706；包括诸如阴极射线管(CRT)、液晶显示器(LCD)等以及扬声器等的输出部分707；包括硬盘等的存储部分708；以及包括诸如LAN卡、调制解调器等的网络接口卡的通信部分709。通信部分709经由诸如因特网的网络执行通信处理。驱动器710也根据需要连接至I/O接口705。可拆卸介质711，诸如磁盘、光盘、磁光盘、半导体存储器等等，根据需要安装在驱动器710上，以便于从其上读出的计算机程序根据需要被安装入存储部分708。

特别地，根据本发明公开的实施例，上文参考流程图描述的过程可以被实现为计算机软件程序。例如，本发明公开的实施例包括一种计算机程序产品，其包括承载在计算机可读介质上的计算机程序，该计算机程序包含用于执行流程图所示的方法的程序代码。在这样的实施例中，该计算机程序可以通过通信部分709从网络上被下载和安装，和/或从可拆卸介质711被安装。在该计算机程序被中央处理单元(CPU)701执行时，执行本发明的系统中限定的上述功能。

需要说明的是，本发明所示的计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于：具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本发明中，计算机可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。而在本发明中，计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式，包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质，该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输，包括但不限于：无线、电线、光缆、RF等等，或者上述的任意合适的组合。

附图中的流程图和框图，图示了按照本发明各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分，上述模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意，在有些作为替换的实现中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个接连地表示的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图或流程图中的每个方框、以及框图或流程图中的方框的组合，可以用执行规定的功能或操作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。

描述于本发明实施例中所涉及到的模块可以通过软件的方式实现，也可以通过硬件的方式来实现。所描述的模块也可以设置在处理器中，例如，可以描述为：一种处理器包括发送模块、获取模块、确定模块和第一处理模块。其中，这些模块的名称在某种情况下并不构成对该模块本身的限定，例如，发送模块还可以被描述为“向所连接的服务端发送图片获取请求的模块”。

作为另一方面，本发明还提供了一种计算机可读介质，该计算机可读介质可以是上述实施例中描述的设备中所包含的；也可以是单独存在，而未装配入该设备中。上述计算机可读介质承载有一个或者多个程序，当上述一个或者多个程序被一个该设备执行时，使得该设备包括：

获取待训练的音频和所述待训练的音频对应的拼音文本；

将所述待训练的音频进行处理，得到预处理的音频特征；

将拼音文本进行清洗，得到清洗文本；

根据待训练的音频和所述清洗文本，基于静音时长决策和规则判定的算法，生成所述清洗文本的韵律层级；

根据本发明实施例的技术方案，可以实现如下技术效果：

上述具体实施方式，并不构成对本发明保护范围的限制。本领域技术人员应该明白的是，取决于设计要求和其他因素，可以发生各种各样的修改、组合、子组合和替代。任何在本发明的精神和原则之内所作的修改、等同替换和改进等，均应包含在本发明保护范围之内。

Claims

1.一种生成语音合成训练数据的方法，其特征在于，包括：

获取待训练的音频和所述待训练的音频对应的拼音文本；

将所述待训练的音频进行处理，得到预处理的音频特征；

将所述拼音文本进行清洗，得到清洗文本；

其中，所述预处理的音频特征和所述清洗文本的韵律层级组成语音合成训练数据；

所述根据所述待训练的音频和所述清洗文本，基于静音时长决策和规则判定的算法，生成所述清洗文本的韵律层级，包括：针对每一段音频，基于静音时长决策和规则判定的算法，划分所述音频的静音时长；若存在静音时长，则对该段音频的静音时长进行标注；若不存在静音时长，则对相应的文本进行中文词性分词，输入到自然语言处理韵律预测模型中，得到相应的韵律预测结果；

若存在静音时长，则对该段音频的静音时长进行标注，包括：设置用于划分静音时长的标注区间；根据所述标注区间对所述静音时长进行划分，根据所述静音时长所对应的标注区间进行标注；

基于静音时长决策和规则判定的算法，划分所述音频的静音时长，包括：对所述预处理的音频进行VAD静音预测，获取第一静音时长；根据所述预处理的音频和所述清洗文本进行MFA对齐，获取第二静音时长；根据所述第一静音时长的概率和所述第二静音时长的概率，通过决策算法确定为所述音频的静音时长；

计算概率的计算公式如下：

其中：

P_a(C)＝P_a(C/f_a(x_a))P_a(f_a(x_a))

P_t(C)＝P_t(C/f_t(x_t))P_t(f_t(x_t))

f_a(x_a)是VAD模型预测分类器，f_t(x_t)分别是MFA模型预测分类器；P_a(C)表示VAD模型预测的准确率，P_t(C)表示MFA模型预测的准确率；P_a(C|f_a(x_a))表示模型VAD预测分类器的先验概率，P_t(C|f_t(x_t))表示模型MAF预测分类器的先验概率。

2.根据权利要求1所述的方法，其特征在于，将所述待训练的音频进行处理，得到预处理的音频特征，包括：

提取所述待训练的音频的原始特征；

根据所述原始特征，提取正则化特征；

将所述正则化特征，确定为预处理的音频特征。

3.根据权利要求2所述的方法，其特征在于，提取所述待训练的音频的原始特征之前，包括：

对所述待训练的音频进行标准化处理，生成标准音频；

将所述标准音频进行正则化处理，生成正则音频；

4.根据权利要求3所述的方法，其特征在于，所述标准化处理的操作，包括如下至少之一：

将所述待训练的音频的采样率进行统一转换；

将所述待训练的音频去除噪声；

将所述待训练的音频进行静音切分。

5.根据权利要求1所述的方法，其特征在于，将所述拼音文本进行清洗，得到清洗文本，包括：

将所述拼音文本中的拼音部分和文本部分进行匹配；

将修正后的结果确定为清洗文本。

6.根据权利要求5所述的方法，其特征在于，当存在不匹配的情况，则使用拼音字典对不匹配的拼音进行修正，包括：

使用所述拼音字典对所述标注为错误的文本匹配拼音；

根据所述匹配的拼音对所述拼音部分进行修订。

7.根据权利要求5所述的方法，其特征在于，将所述拼音文本进行清洗，得到清洗文本，还包括：

将所述拼音部分和文本部分的组合，确定为清洗文本。

8.根据权利要求4所述的方法，其特征在于，将所述拼音文本进行清洗，得到清洗文本，还包括：

9.根据权利要求4所述的方法，其特征在于，将所述拼音文本进行清洗，得到清洗文本，还包括：

将所述其他语言文本对应的文字进行标注，得到清洗文本。

10.根据权利要求9所述的方法，其特征在于，若所述文本部分存在其他语言文本，则利用其他语言字典查找所述其他语言文本之后，包括：

11.一种生成语音合成训练数据的装置，其特征在于，包括：

计算概率的计算公式如下：

其中：

P_a(C)＝P_a(C/f_a(x_a))P_a(f_a(x_a))

P_t(C)＝P_t(C/f_t(x_t))P_t(f_t(x_t))

12.一种生成语音合成训练数据的电子设备，其特征在于，包括：

一个或多个处理器；

存储装置，用于存储一个或多个程序，

当所述一个或多个程序被所述一个或多个处理器执行，使得所述一个或多个处理器实现如权利要求1-10中任一所述的方法。

13.一种计算机可读介质，其上存储有计算机程序，其特征在于，所述程序被处理器执行时实现如权利要求1-10中任一所述的方法。