CN104103268A

CN104103268A - 一种语料库处理方法、装置及语音合成系统

Info

Publication number: CN104103268A
Application number: CN201310115665.2A
Authority: CN
Inventors: 赵黎; 万鹏; 周崎; 王韬; 朱玉成; 金文龙; 柯晓岚; 黄达志; 吴晓如; 赵志伟
Original assignee: China Mobile Group Anhui Co Ltd
Current assignee: China Mobile Group Anhui Co Ltd
Priority date: 2013-04-03
Filing date: 2013-04-03
Publication date: 2014-10-15
Anticipated expiration: 2033-04-03
Also published as: CN104103268B

Abstract

本发明公开了一种语料库处理方法、装置及语音合成系统。其中该方法包括：采集所有领域的语句，获得第一海量文本；对所述第一海量文本进行语音合成，记录语音合成过程从原始语料库选取的预选单元的编号；统计原始语料库中每个预选单元的使用次数，从所述原始语料库中裁减掉语音合成过程中使用次数低于第一预设阈值的预选单元，得到第一语料库。本发明通过利用设计文本和相关算法检查语料库节点的覆盖情况，对于语料库中没有被挑选或挑选次数极少的节点进行删除，降低决策树和语料库的规模形成特定语料库，从而能够在保证合成效果的前提下提高语音合成效率。

Description

一种语料库处理方法、装置及语音合成系统

技术领域

本发明涉及语音合成技术领域，尤其涉及一种语料库处理方法、装置及语音合成系统。

背景技术

语音合成（Text To Speech，TTS）技术能够自动将任意文字实时转换为连续的自然语音，是语音信息服务的高效便捷手段，非常符合信息时代海量数据、动态更新和个性化查询的需求。

基于单元选择的语音合成技术由于采用真人的发音片段作为语音合成的单元，所以能够产生很高音质的合成语音，是目前应用比较成功的语音合成方法。在此基础上，为了提高语音合成的自然度和可懂度，发展出了基于语料库的语音合成，代表了语音合成的最高水平。

在这种方法中，语音合成问题就转化为对语料库获取、标注、索引和搜索。为了得到自然的合成语音，往往需要大量语音(在实际使用的GB级语料库中,会有几个至十几个小时的语音)。在这样超大规模的音库中进行合成所必需的存储、加载和搜索比较耗时，因此，大语料合成系统对硬件的要求较高。

如果能在保证合成质量的前提下适当减小语料库，将使得大语料库合成方法具有更好的适应性；如果能更进一步，在任何应用环境下给出大小合适的音库，将使得语料库合成方法具有可伸缩性，这些都涉及到语音库去冗余或称语料库的裁剪问题。

现有语料库的裁剪方法主要是利用了最大匹配技术和迭代的方法，通过最大匹配技术找出在训练语料库中匹配程度最大的单元，根据统计原理从中得出使用次数最大的单元，并把该单元添加到基础语料库中，循环迭代得到最终优化后的语料库。

现有技术主要存在以下缺陷：

（1）通过最大匹配技术得到的单元可能不是使用次数最多的单元，这样语料库中保存的单元不是最优的单元组合，而使用频度较高的单元可能会达不到匹配的要求而被裁剪掉，还存在着大量其他因素的影响，这样就会导致合成效果达不到最好。

（2）通过迭代方法在训练语料库中得到最优的单元，实际操作过程中无法设置有效的迭代门限和迭代次数，在保证合成效果可接受的情况下，也就无法有效控制裁剪的规模和设计合理的裁剪策略，从而导致语言模型的规模和裁剪后的合成效果无法得到保证。

发明内容

为了解决现有技术中语音合成效率较低、合成效果差的技术问题，本发明提出一种语料库处理方法、装置及语音合成系统。

本发明的一个方面，提供一种语料库处理方法，包括：

采集所有领域的语句，获得第一海量文本；

对所述第一海量文本进行语音合成，记录语音合成过程从原始语料库选取的预选单元的编号；

统计原始语料库中每个预选单元的使用次数，从所述原始语料库中裁减掉语音合成过程中使用次数低于第一预设阈值的预选单元，得到第一语料库。

本发明的另一个方面，提供一种语料库处理装置，包括：

采集模块，用于采集所有领域的语句，获得第一海量文本；

第一语音合成模块，用于对所述第一海量文本进行语音合成；

第一记录模块，用于记录语音合成过程从原始语料库选取的预选单元的编号；

第一统计模块，用于统计原始语料库中每个预选单元的使用次数；

第一裁剪模块，用于从所述原始语料库中裁减掉语音合成过程中使用次数低于第一预设阈值的预选单元，得到第一语料库。

本发明的另一个方面，提供一种语音合成系统，包括：存储装置，如权利要求5或6所述的语料库处理装置，合成处理装置，

所述存储装置，用于存储原始语料库，存储经所述语料库处理装置处理后得到的第一语料库；

所述语料库处理装置，用于采集所有领域的语句，获得第一海量文本；对所述第一海量文本进行语音合成，记录语音合成过程从原始语料库选取的预选单元的编号；统计原始语料库中每个预选单元的使用次数，从所述原始语料库中裁减掉语音合成过程中使用次数低于第一预设阈值的预选单元，得到第一语料库；

合成处理装置，用于对需要进行语音合成的文本进行韵律分析，得到韵律信息；解析韵律信息，从所述存储装置的第一语料库中选取预选单元；对所述预选单元进行拼接后得到合成语音。

本发明的语料库处理方法、装置及语音合成系统，通过利用设计文本和相关算法检查语料库节点的覆盖情况，对于语料库中没有被挑选或挑选次数极少的节点进行删除，降低决策树和语料库的规模形成特定语料库，从而能够在保证合成效果的前提下提高语音合成效率。

附图说明

图1是本发明语料库处理方法实施例的流程图；

图2是本发明语料库处理方法另一实施例的流程图；

图3是本发明每个结点下预选单元的示意图；

图4是本发明裁剪后每个结点下预选单元的示意图；

图5是本发明语料库处理装置实施例的结构图；

图6是本发明语音合成系统实施例的结构图。

具体实施方式

以下结合附图对本发明进行详细说明。

目前，语音合成主要采用基于波形的拼接技术，根据输入文本分析得到的韵律信息，从预先录制和标注好的语料库中挑选合适的预选单元（每个预选单元用一个编号标识），进行少量的调整（也可以不进行调整），然后拼接得到最终的合成语音。由于最终合成语音中的预选单元都是直接从音库中复制过来的，其最大的优势就是在于保持了原始发音人的音质。

语音合成的主要流程包括：

A、首先通过韵律分析工具对输入文本进行处理，得到相应的韵律信息；

B、解析韵律信息，从预先录制和标注好的语料库中挑选合适的预选单元；

C、对预选单元进行代价计算，挑选出适合合成的单元，将这些单元拼接在一起，得到最终的合成语音。

本发明通过利用设计文本和相关算法检查语料库节点的覆盖情况，对于语料库中没有被挑选或挑选次数极少的节点进行删除，降低决策树和语料库的规模形成特定语料库，从而能够在保证合成效果的前提下提高语音合成效率。

本发明中设计了两种文本：包括所有领域语句的第一海量文本及在预先设定的领域中选择使用频率高于预设阈值的语句组成的第二海量文本，分别利用这两种文本对原始语料库进行裁剪处理。

如图1所示，本发明语料库处理方法实施例包括以下步骤：

步骤102，采集所有领域的语句，获得第一海量文本；

步骤104，对第一海量文本进行语音合成，具体包括：将第一海量文本中的文字信息转换为韵律信息；解析韵律信息，根据韵律信息从原始语料库中挑选预选单元；将所述预选单元拼接在一起，合成语音；

步骤106，记录语音合成过程从原始语料库选取的预选单元的编号；

步骤108，统计原始语料库中每个预选单元的使用次数；

步骤110，从原始语料库中裁减掉语音合成过程中使用次数低于第一预设阈值的预选单元，得到第一语料库。

上述方法实施例，通过对原始语料库中未使用过或使用次数极少的预选单元进行删除，降低语料库的规模，提高语料库中预选单元的有效性，从而能够在保证合成效果的前提下提高合成效率。

另外，由于上述原始语料库和第一语料库包含了所有领域的语句对应的预选单元，如果只是针对某个领域的文本进行语音合成，采用上述原始语料库或第一语料库，合成的效率仍然较低。因此，可以将第一语料库根据用户设定的领域做进一步的裁剪。

如图2所示，本发明语料库处理方法实施例进一步包括以下步骤：

步骤202，对第一语料库进行模型训练，得到第一语料库的决策树；

构建新的决策树后，可以调整预选单元挑选时的回溯深度，提高决策树的聚合程度，在达到音库裁剪要求的情况下，最大程度保证决策树的有效性。不同的回溯深度对应的预选结果个数如下表1所示：

表1

由表1的统计结果看出，回溯深度为12时，调整回溯深度之后的结点个数为9131个；

步骤204，选择预设领域中使用频率高于第二预设阈值的语句，获得第二海量文本；

步骤206，对第二海量文本进行语音合成，记录语音合成过程从第一语料库选取的预选单元的编号；

步骤208，统计第一语料库中每个预选单元的使用次数；

步骤210，根据预先设定的决策树中每个结点下预选单元的保留个数，保留每个结点下使用次数较高的预设单元，裁减掉其他预设单元，得到针对所述预设领域的第二语料库。

如图3所示，每个结点下包含n个预选单元，如每个结点下保留4个预选单元，结点下预选单元裁剪前后的情况如图4所示。

通过上述步骤将第一语料库裁剪为针对某个领域的第二语料库，在进行这个领域文本的语音合成时，只需从该领域对应的第二语料库中进行预选单元的选择。由于第二语料库中预选单元的个数远少于第一语料库，进一步提高了语音合成的效率，同时也不会降低合成的质量。

更进一步地，该方法还包括：当相邻结点下预选单元的个数之和小于或等于上述保留个数，将相邻结点的预选单元合并。从而进一步提高决策树的聚合程度。

基于同一发明构思，本发明还提供一种语料库处理装置，如图5所示，包括：采集模块501，采集所有领域的语句，获得第一海量文本；第一语音合成模块502，对所述第一海量文本进行语音合成；第一记录模块503，记录语音合成过程从原始语料库选取的预选单元的编号；第一统计模块504，统计原始语料库中每个预选单元的使用次数；第一裁剪模块505，从所述原始语料库中裁减掉语音合成过程中使用次数低于第一预设阈值的预选单元，得到第一语料库。

进一步地，该语料库处理装置还包括：决策树生成模块506，对所述第一语料库进行模型训练，得到所述第一语料库的决策树；选择模块507，选择预设领域中使用频率高于第二预设阈值的语句，获得第二海量文本；第二语音合成模块508，对所述第二海量文本进行语音合成；第二记录模块509，记录语音合成过程从第一语料库选取的预选单元的编号；第二统计模块510，统计第一语料库中每个预选单元的使用次数；第二裁剪模块511，根据预先设定的决策树中每个结点下预选单元的保留个数，保留每个结点下使用次数较高的预设单元，裁减掉其他预设单元，得到针对所述预设领域的第二语料库。

基于同一发明构思，本发明还提供一种包含上述的语料库处理装置62的语音合成系统，如图6所示，该系统还包括：存储装置61和合成处理装置63。

存储装置存储原始语料库，存储经所述语料库处理装置处理后得到的第一语料库。

语料库处理装置采集所有领域的语句，获得第一海量文本；对所述第一海量文本进行语音合成，记录语音合成过程从原始语料库选取的预选单元的编号；统计原始语料库中每个预选单元的使用次数，从所述原始语料库中裁减掉语音合成过程中使用次数低于第一预设阈值的预选单元，得到第一语料库。

合成处理装置对需要进行语音合成的文本进行韵律分析，得到韵律信息；解析韵律信息，从所述存储装置的第一语料库中选取预选单元；对所述预选单元进行拼接后得到合成语音。

进一步地，该语料库处理装置还对第一语料库进行模型训练，得到所述第一语料库的决策树；选择预设领域中使用频率高于第二预设阈值的语句，获得第二海量文本；对所述第二海量文本进行语音合成，记录语音合成过程从第一语料库选取的预选单元的编号；统计第一语料库中每个预选单元的使用次数，根据预先设定的决策树中每个结点下预选单元的保留个数，保留每个结点下使用次数较高的预设单元，裁减掉其他预设单元，得到针对所述预设领域的第二语料库。

存储装置存储针对所述预设领域的第二语料库。

合成处理装置在进行所述预设领域的文本的语音合成时，从所述存储装置的第二语料库中选取预选单元。

另外，通过将第一语料库裁剪为针对某个领域的第二语料库，在进行这个领域文本的语音合成时，只需从该领域对应的第二语料库中进行预选单元的选择。由于第二语料库中预选单元的个数远少于第一语料库，进一步提高了语音合成的效率，同时也不会降低合成的质量。

应说明的是：以上实施例仅用以说明本发明而非限制，本发明也并不仅限于上述举例，一切不脱离本发明的精神和范围的技术方案及其改进，其均应涵盖在本发明的权利要求范围中。

Claims

1.一种语料库处理方法，其特征在于，包括：

采集所有领域的语句，获得第一海量文本；

2.根据权利要求1所述的方法，其特征在于，还包括：

对所述第一语料库进行模型训练，得到所述第一语料库的决策树；

选择预设领域中使用频率高于第二预设阈值的语句，获得第二海量文本；

对所述第二海量文本进行语音合成，记录语音合成过程从第一语料库选取的预选单元的编号；

统计第一语料库中每个预选单元的使用次数，根据预先设定的决策树中每个结点下预选单元的保留个数，保留每个结点下使用次数较高的预设单元，裁减掉其他预设单元，得到针对所述预设领域的第二语料库。

3.根据权利要求2所述的方法，其特征在于，对所述第一海量文本或第二海量文本进行语音合成包括：

将所述第一海量文本中或第二海量文本的文字信息转换为韵律信息；

解析所述韵律信息，根据所述韵律信息从所述原始语料库中挑选预选单元；

将所述预选单元拼接在一起，合成语音。

4.根据权利要求2所述的方法，其特征在于，还包括：

当相邻结点下预选单元的个数之和小于或等于所述保留个数，将所述相邻结点的预选单元合并。

5.一种语料库处理装置，其特征在于，包括：

采集模块，用于采集所有领域的语句，获得第一海量文本；

6.根据权利要求5所述的装置，其特征在于，还包括：

决策树生成模块，用于对所述第一语料库进行模型训练，得到所述第一语料库的决策树；

选择模块，用于选择预设领域中使用频率高于第二预设阈值的语句，获得第二海量文本；

第二语音合成模块，用于对所述第二海量文本进行语音合成；

第二记录模块，用于记录语音合成过程从第一语料库选取的预选单元的编号；

第二统计模块，用于统计第一语料库中每个预选单元的使用次数；

第二裁剪模块，用于根据预先设定的决策树中每个结点下预选单元的保留个数，保留每个结点下使用次数较高的预设单元，裁减掉其他预设单元，得到针对所述预设领域的第二语料库。

7.一种语音合成系统，其特征在于，包括：存储装置，如权利要求5或6所述的语料库处理装置，合成处理装置，

8.根据权利要求7所述的系统，其特征在于，所述语料库处理装置，还用于对所述第一语料库进行模型训练，得到所述第一语料库的决策树；选择预设领域中使用频率高于第二预设阈值的语句，获得第二海量文本；对所述第二海量文本进行语音合成，记录语音合成过程从第一语料库选取的预选单元的编号；统计第一语料库中每个预选单元的使用次数，根据预先设定的决策树中每个结点下预选单元的保留个数，保留每个结点下使用次数较高的预设单元，裁减掉其他预设单元，得到针对所述预设领域的第二语料库；

所述存储装置，用于存储针对所述预设领域的第二语料库；

合成处理装置，用于在进行所述预设领域的文本的语音合成时，从所述存储装置的第二语料库中选取预选单元。