CN103942190B

CN103942190B - 语音合成中文本分词方法及系统

Info

Publication number: CN103942190B
Application number: CN201410153908.6A
Authority: CN
Inventors: 叶珲; 王培养; 郜静文; 高毅; 于振华; 赵志伟
Original assignee: iFlytek Co Ltd
Current assignee: iFlytek Co Ltd
Priority date: 2014-04-16
Filing date: 2014-04-16
Publication date: 2017-08-25
Anticipated expiration: 2034-04-16
Also published as: CN103942190A

Abstract

本发明公开了一种文本分词方法及系统，所述方法包括：预先建立与待处理文本相对应的绑定词典，并绑定所述文本和所述绑定词典，所述绑定词典中的词包括所述文本中未收录在通用词典中的未登录词；将所述文本与所述通用词典中的词进行匹配，得到准分词结果；根据所述绑定词典中的词对所述准分词结果进行修正。采用本发明所述的文本分词方法及系统，通过增加绑定词典，为实现给不同的文本定制相应的词典资源提供了很大的自由度，在不需要修改通用词典情况下，实现文本分析结果的优化。

Description

语音合成中文本分词方法及系统

技术领域

本发明涉及计算机应用技术领域，尤其涉及一种语音合成中文本分词方法及系统。

背景技术

当前的语音合成系统，大多数是基于内部通用词典实现文本的分析，对于合成系统来说，其处理过程是：“文本”到“语音”。

然而，“文本”到“语音”方法存在的问题是不能对文本的差异性做很好地处理，因为现实情况中的合成文本除了包含通用词典中的词汇外，还有一些与其内容和题材相关的特有词汇，例如，在小说、散文等各类文学作品中，每篇文本都有该文本中常用而在其他文本中几乎不会出现的词汇(例如武侠招式、虚构人名、地名等)，这些词汇一般很少收录到合成系统的通用词典中。例如，在小说中，可能会出现“王勇飞马来到”，在这一句子中，由于“王勇”这个人名一般不会是词典词，在“飞马”不是词典词的情况下，分词处理中很容易把“王勇飞”作为一个人名合并为一个词，导致分词错误，进而影响合成效果。即便分词正确，人名或其他类型名称的多音字问题也无法得到很好的解决，例如“曾(zeng)飞扬”、“刘禅(shan)”、“聂玢玢(bin)”等。

考虑到合成产品应用的快速响应要求以及资源大小的限制，不可能无限扩充合成系统的通用词典中的词条量，显然不能通过向通用词典中追加词条的方式解决文本差异性问题，因此需要开发一种针对合成文本的优化分析方法来解决这一问题。

发明内容

本发明的目的是解决分析合成文本过程中的文本差异性问题，提供了一种语音合成中文本分词方法及系统，提高文本分析结果的准确性。

为实现上述目的，本发明的技术方案为：

一种语音合成中文本分词方法，包括：

预先建立与待处理文本相对应的绑定词典，并绑定所述文本和所述绑定词典，所述绑定词典中的词包括所述文本中未收录在通用词典中的未登录词；

将所述文本与所述通用词典中的词进行匹配，得到准分词结果；

根据所述绑定词典中的词对所述准分词结果进行修正。

优选的是，所述建立与待处理文本相对应的绑定词典包括：

获取所述文本中未收录在通用词典中的未登录词；

确定所述未登录词在所述文本中出现的频次；

如果所述频次高于设定阈值，则将所述未登录词收录到与所述文本相对应的绑定词典中。

优选的是，所述获取所述文本中未收录在通用词典中的未登录词包括：

通过新词发现方法、热词发现方法和人工标注方法中的一种或多种获取所述文本中未收录在通用词典中的未登录词。

优选的是，所述建立与待处理文本相对应的绑定词典还包括：将对应所述未登录词的词性、字数、拼音和韵律信息保存到所述绑定词典中。

优选的是，所述绑定所述文本和所述绑定词典包括：使所述绑定词典的文件名称包括所述文本的文件名称。

一种语音合成中文本分词系统，包括：

绑定词典构建单元，用于预先建立与待处理文本相对应的绑定词典，所述绑定词典中的词包括所述文本中未收录在通用词典中的未登录词；

绑定单元，用于绑定所述文本和所述绑定词典；

准分词结果获取单元，用于将所述文本与所述通用词典中的词进行匹配，得到准分词结果；

修正单元，用于根据所述绑定词典中的词对所述准分词结果进行修正。

优选的是，所述绑定词典构建单元包括：

未登录词获取单元，用于获取所述文本中未收录在通用词典中的未登录词；

频次确定单元，用于确定所述未登录词在所述文本中出现的频次；

收录单元，用于在所述频次高于设定阈值时，将所述未登录词收录到与所述文本相对应的绑定词典中。

优选的是，所述未登录词获取单元具体用于：

优选的是，所述绑定词典构建单元还用于：将对应所述未登录词的词性、字数、拼音和韵律信息保存到所述绑定词典中。

优选的是，所述绑定单元具体用于：使所述绑定词典的文件名称包括所述文本的文件名称。

本发明的有益效果在于，采用本发明所述的文本分词方法及系统，通过增加绑定词典，为实现给不同的文本定制相应的词典资源提供了很大的自由度，在不需要修改通用词典情况下，实现文本分析结果的优化；另外，除了在绑定词典中收录未登录词之外，本发明还将各个未登录词的词性、字数、拼音和韵律信息保存在所述绑定词典中，从而可以较好地解决文学作品中的多音字问题。

附图说明

图1示出了本发明实施例语音合成中文本分词方法的流程图；

图2示出了本发明实施例中建立与待处理文本相对应的绑定词典的流程图；

图3示出了本发明实施例语音合成中文本分词系统的结构示意图；

图4示出了本发明实施例中绑定词典构建单元的结构示意图。

具体实施方式

下面详细描述本发明的实施例，所述实施例的示例在附图中示出，其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的，仅用于解释本发明，而不能解释为对本发明的限制。

本发明针对现有技术中分析合成文本过程中的文本差异性问题，提供了一种文本分词方法，通过收录有未登录词的绑定词典，对利用通用词典得到的准分词结果进行修正，提高了文本分析结果的准确性。

如图1所示，是本发明实施例语音合成中文本分词方法的流程图，所述文本分词方法包括以下步骤：

步骤101：预先建立与待处理文本相对应的绑定词典，并绑定所述文本和所述绑定词典，所述绑定词典中的词包括所述文本中未收录在通用词典中的未登录词。

具体地，绑定词典的建立方法将在下面结合图2进行详细地说明；另外，可通过使所述绑定词典的文件名称包括所述文本的文件名称的方式，即命名关联的方式，绑定所述文本和所述绑定词典。此种绑定方式比较容易实现，例如以小说《射雕英雄传》为例，该小说的文件名称是“射雕英雄传”，从而将与所述小说相对应的绑定词典命名为“射雕英雄传.dict”，这样在处理每个文本时，就能通过该文本的文件名称推知绑定词典的文件名称，实现对绑定词典的加载。

步骤102：将所述文本与所述通用词典中的词进行匹配，得到准分词结果。

具体地，此步骤中涉及的方法，与现有技术中将文本与通用词典中的词进行匹配，得到准分词结果的方法相同，因此在此不再赘述。

步骤103：根据所述绑定词典中的词对所述准分词结果进行修正。

具体地，根据步骤102得到的准分词结果，由于通用词典中缺少待处理文本中的例如人名、地名这样的特定词，因此在一定程度上会导致分词的错误，而本步骤中，利用所述绑定词典中的词(即未登录词)对所述准分词结果进行修正，使得修正后的分词结果更加准确，提高了文本分析结果的准确性。

以待处理文本《射雕英雄传》里的句子“江南六怪听着暗暗心惊”为例，由于“江南六怪”对于大部分通用词典来说都是未登录词，在通用词典中有“江南”，且不存在绑定词典的时候，现有技术中的文本分词系统只能利用通用词典匹配到句首头两个字，从而将该句错误地分词成“江南/六/怪听着/暗暗/心惊”，而在加载了包含“江南六怪”的绑定词典后，文本分词系统将位于句首的匹配字符串从“江南”扩展至“江南六怪”，从而输出正确的分词结果。

如图2所示，是本发明实施例中建立与待处理文本相对应的绑定词典的流程图，所述建立与待处理文本相对应的绑定词典包括以下步骤：

步骤201：获取所述文本中未收录在通用词典中的未登录词。

具体地，可以通过新词发现方法、热词发现方法和人工标注方法中的一种或多种获取所述文本中未收录在通用词典中的未登录词。由于以上列举的三种方法均为本领域公知的获取未收录在通用词典中的未登录词的方法，因此下面仅对这三种方法做简单的说明：

第一、新词发现方法包括以下步骤：

将文本中所有长度大于2且小于某个固定值(比如5)的字符串视为候选词；

统计在特定文本(例如，射雕英雄传)中每个候选词及其子字符串的出现次数，用候选词本身的出现频次与其各自字符串出现频次乘积的比值作为对候选词进行筛选的一个衡量标准，例如以候选词“穆易”为例，衡量标准将会是“穆易”在文本中的出现次数除以“穆”和“易”两个单字各自出现次数的乘积；

统计每个候选词出现语境的左右邻字及出现每个邻字的出现频次，计算其左右邻字的信息熵作为对候选词筛选的另一个衡量标准；

对上述两个衡量标准各设定一个阈值，将同时满足两个阈值条件的候选词全部提取出来，与现有通用词典进行对比，将通用词典中不存在的词作为新词(即未登录词)进行汇总。

仍以小说《射雕英雄传》为例，在设置两个衡量标准的阈值分别为0.08和0.8时，用新词发现方法可以输出如下新词(即未登录词)：包惜弱、博尔术、程瑶迦、赤老温、翠寒堂、段天德、归云庄、郭靖、黄药师、江南六怪、牛家村、醉仙楼等。

第二、热词发现方法包括以下步骤：

利用可获得的输入法的反馈获得用户输入频率最高的词；

将不影响现有分词结果的词作为热词(即未登录词)进行汇总。

利用上述热词发现方法可以从输入法用户的输入中发现“土豪金”等热词。

第三，人工标注方法就是人工进行语料的阅读，将语料中出现而未收录在通用词典中的未登录词提取出来。例如阅读《射雕英雄传》的人员能很容易地将“穆易”、“越女剑法”等可能是未登录词的词挑选出来，之后再将这些被挑选出来的词与现有的通用词典中的词进行对比，若判断被挑选出来的词未收录在通用词典中，则认为所述被挑选出来的词为未登录词。

步骤202：确定所述未登录词在所述文本中出现的频次。

步骤203：判断所述频次是否高于设定阈值；

步骤204：如果所述频次高于设定阈值，则将所述未登录词收录到与所述文本相对应的绑定词典中。

进一步地，所述建立与待处理文本相对应的绑定词典还包括，将对应所述未登录词的词性、字数、拼音和韵律信息保存到所述绑定词典中，具体地，所述绑定词典可以采用列表的形式，比如，列表每一行第一列为未登录词，从第二列开始分别标注该词的词性、字数、带有韵律的拼音等信息，比如，仍以小说《射雕英雄传》为例，所述绑定词典中具有如下或类似的信息及形式：

包惜弱	名词	3	bao1xi1ruo4
				博尔术	名词	3	bo2er3shu4
程瑶迦	名词	3	cheng2jia1yao2
				赤老温	名词	3	chi4lao3wen1
翠寒堂	名词	3	cui4han2tang2
				段天德	名词	3	duan4tian1de2
归云庄	名词	3	gui1yun2zhuang1
				郭靖	名词	2	guo1jing4
黄药师	名词	3	huang2yao4shi1

当然，在实际应用中，所述绑定词典还可以有其它形式及内容，对此本发明实施例不做限定。

利用上面得到的绑定词典，可以较好地解决文学作品中的多音字问题，能够进一步提高针对特定文本的分词准确性。

综上，与现有技术中的文本分词方法相比，本发明提供的文本分词方法通过增加绑定词典，为实现给不同的文本定制相应的词典资源提供了很大的自由度，在不需要修改通用词典情况下，实现文本分析结果的优化；另外，除了在绑定词典中收录未登录词之外，本发明还将各个未登录词的词性、字数、拼音和韵律信息保存在所述绑定词典中，从而可以较好地解决文学作品中的多音字问题。

相应地，本发明实施例还提供一种语音合成中文本分词系统，如图3所示，是该系统的结构示意图。

在该实施例中，所述文本分词系统包括：

绑定词典构建单元301，用于预先建立与待处理文本相对应的绑定词典，所述绑定词典中的词包括所述文本中未收录在通用词典中的未登录词；

绑定单元302，用于绑定所述文本和所述绑定词典；

准分词结果获取单元303，用于将所述文本与所述通用词典中的词进行匹配，得到准分词结果；

修正单元304，用于根据所述绑定词典中的词对所述准分词结果进行修正。

特别地，所述绑定词典构建单元301还用于：将对应所述未登录词的词性、字数、拼音和韵律信息保存到所述绑定词典中。所述绑定单元302具体用于：使所述绑定词典的文件名称包括所述文本的文件名称。

如图4所示，是所述绑定词典构建单元的结构示意图，所述绑定词典构建单元包括：

未登录词获取单元401，用于获取所述文本中未收录在通用词典中的未登录词；

频次确定单元402，用于确定所述未登录词在所述文本中出现的频次；

收录单元403，用于在所述频次高于设定阈值时，将所述未登录词收录到与所述文本相对应的绑定词典中。

特别地，所述未登录词获取单元401，具体用于通过新词发现方法、热词发现方法和人工标注方法中的一种或多种获取所述文本中未收录在通用词典中的未登录词。

上述各单元的具体处理过程可参照前面本发明实施例的方法中的描述，在此不再赘述。

与现有技术中的文本分词系统相比，本发明提供的文本分词系统通过增加绑定词典，为实现给不同的文本定制相应的词典资源提供了很大的自由度，在不需要修改通用词典情况下，实现文本分析结果的优化；另外，除了在绑定词典中收录未登录词之外，本发明还将各个未登录词的词性、字数、拼音和韵律信息保存在所述绑定词典中，从而可以较好地解决文学作品中的多音字问题。

需要说明的是，以上所描述的系统实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性劳动的情况下，即可以理解并实施。

以上依据图式所示的实施例详细说明了本发明的构造、特征及作用效果，以上所述仅为本发明的较佳实施例，但本发明不以图面所示限定实施范围，凡是依照本发明的构想所作的改变，或修改为等同变化的等效实施例，仍未超出说明书与图示所涵盖的精神时，均应在本发明的保护范围内。

Claims

1.一种语音合成中文本分词方法，其特征在于，包括：

根据所述绑定词典中的词对所述准分词结果进行修正。

2.根据权利要求1所述的方法，其特征在于，所述建立与待处理文本相对应的绑定词典包括：

获取所述文本中未收录在通用词典中的未登录词；

确定所述未登录词在所述文本中出现的频次；

3.根据权利要求2所述的方法，其特征在于，所述获取所述文本中未收录在通用词典中的未登录词包括：

4.根据权利要求1所述的方法，其特征在于，所述建立与待处理文本相对应的绑定词典还包括：将对应所述未登录词的词性、字数、拼音和韵律信息保存到所述绑定词典中。

5.根据权利要求1至4任一项所述的方法，其特征在于，所述绑定所述文本和所述绑定词典包括：使所述绑定词典的文件名称包括所述文本的文件名称。

6.一种语音合成中文本分词系统，其特征在于，包括：

绑定单元，用于绑定所述文本和所述绑定词典；

7.根据权利要求6所述的系统，其特征在于，所述绑定词典构建单元包括：

8.根据权利要求7所述的系统，其特征在于，所述未登录词获取单元具体用于：

9.根据权利要求6所述的系统，其特征在于，所述绑定词典构建单元还用于：将对应所述未登录词的词性、字数、拼音和韵律信息保存到所述绑定词典中。

10.根据权利要求6至9任一项所述的系统，其特征在于，所述绑定单元具体用于：使所述绑定词典的文件名称包括所述文本的文件名称。