CN101082909A

CN101082909A - 一种识别衍生词的中文分词方法及系统

Info

Publication number: CN101082909A
Application number: CN 200710076155
Authority: CN
Inventors: 张会鹏
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2007-06-28
Filing date: 2007-06-28
Publication date: 2007-12-05

Abstract

本发明涉及计算机及中文信息处理领域，提供了一种识别衍生词的中文分词方法及系统。所述方法包括以下步骤：A.对输入文本以传统分词方法进行第一级分词；B.从第一级分词结果中识别出单独出现的前缀字和/或后缀字，并将其与满足合并条件的相邻词合并为一个衍生词；C.利用第二级分词识别出的衍生词更新分词结果，并输出。本发明在利用传统分词方法进行第一级分词之后，再利用预先训练所得的前后缀字库对第一级分词结果进行第二级分词，从而将衍生词识别出来，提高了中文分词的准确率。

Description

一种识别衍生词的中文分词方法及系统

技术领域

本发明涉及计算机及中文信息处理领域，更具体地说，涉及一种识别衍生词的中文分词方法及系统。

背景技术

中文信息处理技术现已在计算机网络、数据库技术、软件工程等计算机领域得到了广泛应用，而中文自动分词是中文信息处理的一项重要的基础性工作，许多中文信息处理项目中都涉及到分词问题，如机器翻译、自动文摘、自动分类、中文文献库全文检索、搜索引擎等。由于中文文本是连写的，词之间没有空格，因而在中文文本处理中，首先遇到的问题是分词的问题，词的正确切分是进行中文文本处理的必要条件。

中文分词算法可分为三大类，即基于字符串匹配的分词方法、基于理解的分词方法和基于统计的分词方法：(1)基于字符串匹配的分词方法又称为机械分词方法，它是按照一定的策略将待分析的汉字串与一个充分大的机器词典中的词条进行匹配，若在词典中找到某个字符串，则匹配成功，从而识别出一个词。(2)基于理解的分词方法是指，在分词的同时进行句法、语义分析，利用句法信息和语义信息来处理歧义现象，它模拟了人对句子的理解过程，需要使用大量的语言知识和信息。由于汉语语言知识的笼统、复杂性，难以将各种语言信息组织成机器可直接读取的形式，因此目前基于理解的分词方法还不够成熟。(3)基于统计的分词方法的理论基础是，从形式上看词是稳定的字的组合，因此在上下文中相邻的字同时出现的次数越多，就越有可能构成一个词。因此可以对文本中相邻共现的各个字的组合的频度进行统计，即计算一个字组中字与字间的相邻共现概率，当该概率高于某一个阈值时，便可认为此字组可能构成了一个词。统计分词方法切分出来的词都是带有概率信息的，最后通过在所有可能的切分结果中选出一种概率最大的分词结果，这种方法具有自动消除歧义的优点，目前这种方法是分词的主流方法。

在一种现有的分词方法中，具体步骤如下：A.将输入文本切分为单个的原子，并利用原子序列建立初始的切分词图；B.从切分得到的原子序列中识别出字典已收录词汇以及规律性词汇(如时间词、数词、人名、地名等)，添加到切分词图中；C.根据切分词图生成最优路径分词结果序列。由上可知，该现有分词方法主要对词典已收录或具规律性的词汇进行识别。

但是由于词典规模的限制，还是有很多词是采用现有技术的方法无法识别出来的，其中有一类词相当常见，那就是衍生词。衍生词是由几个相对比较短的词典词组成的，例如“长跑者”就是由“长跑”和“者”所组成。由于新词不断出现，衍生词的数量也会逐渐增多，若不能在中文分词中对此类词汇进行准确识别，必定会使分词的准确率大打折扣。

因此需要一种能识别出衍生词的中文分词方法，从而进一步提高分词准确率。

发明内容

本发明的目的在于提供一种识别衍生词的中文分词系统，旨在解决现有技术无法识别衍生词，导致分词准确率低的问题。

本发明的目的还在于提供一种识别衍生词的中文分词方法，以更好地解决现有技术中存在的上述问题。

为了实现发明目的，所述识别衍生词的中文分词系统包括用于传统分词的第一级分词单元，所述系统还包括第二级分词单元；

所述第二级分词单元与第一级分词单元相连，用于从第一级分词单元的分词结果中识别出单独出现的前缀字和/或后缀字，并将其与一个满足合并条件的相邻词合并为一个衍生词。

优选地，所述中文分词系统还包括输入输出单元和词汇存储单元；

所述输入输出单元用于输入文本，并将最终的分词结果输出；

所述词汇存储单元存储输入输出单元输入的文本，并保存第一级分词单元发送的第一级分词结果，以及利用第二级分词单元识别的衍生词更新分词结果。

优选地，所述第二级分词单元进一步包括前后缀字库、前后缀识别模块、衍生词合并模块；

所述前后缀字库存储经训练所得的前缀字列表和/或后缀字列表；

所述前后缀识别模块与前后缀字库相连，用于根据所述前后缀字库中的前缀字列表和/或后缀字列表，识别出第一级分词结果中单独出现的前缀字和/或后缀字；

所述衍生词合并模块与前后缀识别模块相连，用于判定所述识别出的前缀字和/或后缀字的相邻词是否满足合并条件，若满足则将所述前缀字和/或后缀字与所述相邻词合并为一个衍生词。

优选地，所述前后缀字库中存储的前缀字列表和/或后缀字列表由所述前后缀识别模块训练所得，或者由所述中文分词系统以外的设备进行训练而获取。

优选地，所述衍生词合并模块设置的合并条件是：若所述前缀字和/或后缀字的相邻词是一个由至少两个单字组成的词典词，则合并。

为了更好地实现发明目的，所述识别衍生词的中文分词方法包括以下步骤：

A.对输入文本以传统分词方法进行第一级分词；

B.从第一级分词结果中识别出单独出现的前缀字和/或后缀字，并将其与满足合并条件的相邻词合并为一个衍生词；

C.利用第二级分词识别出的衍生词更新分词结果，并输出。

优选地，步骤A中的传统分词方法包括：基于字符串匹配的分词方法、基于理解的分词方法、基于统计的分词方法。

优选地，所述步骤B中的合并条件是：所述相邻词是一个由至少两个单字组成的词典词。

优选地，所述步骤B包括：

B1.根据训练所得的前缀字列表，从第一级分词结果中识别出单独出现的前缀字；

B2.判定所述前缀字之后的一个相邻词是否满足合并条件，若是则执行步骤B3，若否则转步骤C；

B3.将所述前缀字与满足合并条件的相邻词合并为一个衍生词。

优选地，所述步骤B包括：

B1’.根据训练所得的后缀字列表，从第一级分词结果中识别出单独出现的后缀字；

B2’.判定所述后缀字之前的一个相邻词是否满足合并条件，若是则执行步骤B3，若否则转步骤C；

B3’.将所述后缀字与满足合并条件的相邻词合并为一个衍生词。

本发明在利用传统分词方法进行第一级分词之后，再利用预先训练所得的前后缀字库对第一级分词结果进行第二级分词，从而将衍生词识别出来，提高了中文分词的准确率。

附图说明

图1是本发明中识别衍生词的中文分词系统结构图；

图2是本发明的一个实施例中识别衍生词的中文分词系统中第二级分词单元结构图；

图3是本发明中识别衍生词的中文分词方法流程图；

图4是本发明的一个实施例中识别衍生词的中文分词方法流程图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

本发明首先利用传统分词方法对输入文本进行第一级分词，然后根据预先训练所得的前后缀字库从第一级分词结果中找出所有单独出现的前缀字或后缀字，并判断其后或其前的词汇是否满足合并条件，若满足则合并为衍生词，最后利用识别出的衍生词更新分词结果并输出。该中文分词方法能够准确识别出衍生词，提高了中文分词的准确率。

图1示出了本发明中识别衍生词的中文分词系统100的结构，该系统可应用于多种终端设备中，例如个人计算机(Personal Computer，PC)、个人数字助理(Personal Digital Assistant，PDA)、移动电话(Mobile Phone，MP)等，因此本发明的中文分词系统100不应限定应用于某种特定类型的终端设备。

该中文分词系统100包括输入输出单元101、词汇存储单元102、第一级分词单元103和第二级分词单元104，各个功能单元之间进行信息交互。应当说明的是，本发明所有图示中各设备之间的连接关系是为了清楚阐释其信息交互及控制过程的需要，因此应当视为逻辑上的连接关系，而不应仅限于物理连接。

其中：

(1)输入输出单元101主要执行以下功能：接收原始中文文本输入，并将其存储到词汇存储单元102中；当第一级分词单元103和第二级分词单元104完成词汇切分之后，则从词汇存储单元102中提取最终的分词结果并输出。

(2)词汇存储单元102与输入输出单元101、第一级分词单元103以及第二级分词单元104相连，用于存储原始的输入文本以及分词结果，具体包括：存储输入输出单元101输入的原始输入文本；当第一级分词单元103完成第一级分词之后，将第一级分词结果保存到词汇存储单元102中；当第二级分词单元104完成第二级分词之后，利用第二级分词过程识别出的衍生词更新其存储的分词结果，并送至输入输出单元101。

(3)第一级分词单元103与词汇存储单元102相连，用于以传统分词方法对词汇存储单元102中存储的原始输入文本进行第一级分词，并将第一级分词结果保存到词汇存储单元102中。第一级分词单元103以传统分词方法进行的第一级分词主要是针对词典词、规律性词(如时间词、数词、人名、地名等)，其将这些类型的词汇切分出来后，剩余部分则以单字出现。在本发明中，第一级分词单元103采取的传统分词方法可以有多种，包括如前所述的基于字符串匹配的分词方法、基于理解的分词方法和基于统计的分词方法等，本发明此处不再赘述。

(4)第二级分词单元104与词汇存储单元102和第一级分词单元103相连，用于对第一级分词结果进行第二级分词，并将分词结果更新到词汇存储单元102中。具体包括：从第一级分词结果中识别出单独出现的前缀字和/或后缀字；判定识别出的前缀字和/或后缀字的相邻词是否满足合并条件；若满足合并条件则将该前缀字和/或后缀字与该相邻词合并为一个衍生词，最后将识别出的衍生词发送至词汇存储单元102中，以更新存储的分词结果。

图2示出了本发明的一个实施例中识别衍生词的中文分词系统100中第二级分词单元104的内部结构，包括前后缀字库1041、前后缀识别模块1042、衍生词合并模块1043，其中：

(1)前后缀字库1041用于存储前缀字列表及后缀字列表，该前缀字列表中是通过训练所得的前缀字，该后缀字列表中是通过训练所得的后缀字。本发明中，前后缀字库1041中存储的前缀字列表及后缀字列表可通过多种方式获得。

在本发明的一个示例方案中，第二级分词单元104利用前后缀识别模块1042对训练语料进行训练，从中获取前缀字及后缀字，所称训练语料是经过分词后的文本。以后缀字为例，一个字作为后缀字须满足以下两个条件：该字作为其他词的词尾出现的概率远大于单独成词出现的概率；大多数以该字为结尾的词去掉该字后的剩余部分仍然是一个词典词。基于以上两个因素，具体训练方式如下：(1)提取语料中每个多字词(词中汉字个数n＞2)的词尾单字，形成候选列表；(2)从候选列表中选择一个候选字，并找出语料中所有以该候选字作为结尾的词，然后去掉该候选字，剩余部分到词典中查找，若查找到则说明该剩余部分是词典词，若语料中有一定比例的以此候选字作为结尾的词均满足该条件，则可将该候选字判定为后缀字。至于比例的具体数值，可根据实际情况和经验设定，例如可设定为80％。通过该训练方式确定的后缀字则存入前后缀字库1041中，前缀字的训练也可采取类似的方式进行。

在本发明的另一示例方案中，第二级分词单元104从该中文分词系统100以外的其他设备中获取前缀字列表及后缀字列表。

当然，本发明并不限定于以上两种获取前缀字列表及后缀字列表的方式。

(2)前后缀识别模块1042与前后缀字库1041相连，其根据前后缀字库1041中存储的前缀字列表和/或后缀字列表，从第一级分词单元103的分词结果中识别出所有前缀字和/或后缀字。

此外，在本发明的一个示例方案中，该前后缀识别模块1042还具有如前所述通过对语料进行训练以获得前缀字列表和/或后缀字列表的功能，具体训练方式不再赘述。

(3)衍生词合并模块1043与前后缀识别模块1042相连，用于对前后缀识别模块1042识别出的前缀字和/或后缀字的相邻词进行判定，以确定该相邻词是否满足衍生词的合并条件，若满足则将该前缀字和/或后缀字与其相邻词合并为一个衍生词。

在本发明的一个示例方案中，该衍生词合并模块1043设置的衍生词的合并条件是：若所述前缀字和/或后缀字的相邻词是一个由至少两个单字组成的词典词，则合并。当然，该衍生词合并模块1043中还可设置其他的合并条件，并不限于以上示例方案。

图3示出了本发明中识别衍生词的中文分词方法流程，该方法流程基于图1和图2所示的系统结构。

在执行本发明的所有步骤之前，须将训练所得的前缀字和后缀字以前缀字列表和后缀字列表的形式存入第二级分词单元104的前后缀字库1041中，本发明中，前缀字列表及后缀字列表可通过多种方式获得。

在本发明的一个示例方案中，第二级分词单元104利用前后缀识别模块1042对训练语料进行训练，从中获取前缀字及后缀字，所称训练语料是经过分词后的文本。以后缀字为例，一个字作为后缀字须满足以下两个条件：该字作为其他词的词尾出现的概率远大于单独成词出现的概率；大多数以该字为结尾的词去掉该字后的剩余部分仍然是一个词典词。基于以上两个因素，具体训练方式如下：(1)提取语料中每个多字词(词中汉字个数n＞2)的词尾单字，形成候选列表；(2)从候选列表中选择一个候选字，并找出语料中所有以该候选字作为结尾的词，然后去掉该候选字，剩余部分到词典中查找，若查找到则说明该剩余部分是词典词，若语料中有一定比例的以此候选字作为结尾的词均满足该条件，则可将该候选字判定为后缀字。至于比例的具体数值，可根据实际情况设定，例如可设定为80％。通过该训练方式确定的后缀字则存入前后缀字库1041中，前缀字的训练也可采取同样的方式进行。

在步骤S301中，第一级分词单元103对输入的文本以传统分词方法进行第一级分词，并将第一级分词结果保存到词汇存储单元102中。步骤S301以传统分词方法进行的第一级分词主要针对词典词、规律性词(如时间词、数词、人名、地名等)，将这些类型的词汇切分出来后，剩余部分则以单字出现。本实施例可以采取前述的多种传统分词方法，例如基于字符串匹配的分词方法、基于理解的分词方法、基于统计的分词方法等等，然后将该分词结果保存到词汇存储单元102中。

在步骤S302中，第二级分词单元104从第一级分词结果中识别出前缀字和/或后缀字，并将其与满足合并条件的相邻词合并为一个衍生词。具体过程包括：(1)第二级分词单元104获取第一级分词结果，该第一级分词结果可从词汇存储单元102中获取，也可由第一级分词单元103直接发送；(2)第二级分词单元104根据前后缀字库1041存储的前缀字列表和后缀字列表，利用前后缀识别模块1042从第一级分词结果中识别出所有单独出现的前缀字和/或后缀字；(3)第二级分词单元104利用衍生词合并模块1043判定识别出的前缀字和/或后缀字的相邻词是否满足合并条件，若满足合并条件，则将该前缀字和/或后缀字与其相邻词合并为一个衍生词。

在步骤S303中，利用第二级分词单元104识别出的衍生词更新词汇存储单元102中的分词结果，并输出。

图4示出了本发明的一个实施例中识别衍生词的中文分词方法流程，该方法流程基于图1和图2所示的系统结构以及图3所示的流程，具体过程如下：

在执行所有步骤之前，须将训练所得的前缀字和后缀字以前缀字列表和后缀字列表的形式存入第二级分词单元104的前后缀字库1041中，本发明中，前缀字列表及后缀字列表可通过多种方式获得，具体如前所述，此处不再赘述。

在步骤S401中，第一级分词单元103对输入的文本以传统分词方法进行第一级分词，并将第一级分词结果保存到刻词汇存储单元102中。该步骤S401以传统分词方法进行的第一级分词主要针对词典词、规律性词(如时间词、数词、人名、地名等)，将这些类型的词汇切分出来后，剩余部分则以单字出现。在本实施例中，若最初输入的文本为“长跑者身披彩带。”，则第一级分词单元103采取任一有效的传统分词算法对其进行分词，可得到第一级分词结果为：“长跑者身披彩带。”

在步骤S402中，第二级分词单元104根据其前后缀字库1041中存储的前缀字列表和/或后缀字列表，利用前后缀识别模块1042从第一级分词结果中找出所有单独出现的前缀字和后缀字。在本实施例中，前述的第一级分词结果中只有“者”字出现在后缀字列表中，则将其识别了出来。

在步骤S403中，第二级分词单元104利用前后缀合并模块1043判定识别出的前缀字和/或后缀字的相邻词是否满足合并条件，若是则转步骤S404，若否则转步骤S405。该步骤包括两种情形：对于前缀字，则判定前缀字之后的第一个相邻词是否满足合并条件；对于后缀字，则判定后缀字之前的第一个相邻词是否满足合并条件。

在本实施例中，前后缀合并模块1043中设置的合并条件是：相邻词是一个词典词，且其词长须不小于2，即由至少两个单字组成。则根据该合并条件对后缀字“者”之前的词语“长跑”进行判定：由于该词的词长不小于2，且可从词典中查找到，因此满足合并条件。此实施例是针对后缀字的情形，而前缀字情形下可作类似处理。

在步骤S404中，第二级分词单元104利用前后缀合并模块1043把前缀字或后缀字与该相邻词合并为一个词，作为衍生词。在本实施例中，则将“长跑者”作为一个衍生词识别了出来。

在步骤S405中，词汇存储单元102根据第二级分词单元104上报的数据更新分词结果，并利用输入输入单元101输出最终分词结果。在本实施例中，最终输出的分词结果为：“长跑者身披彩带。”。

以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明的保护范围之内。

Claims

1、一种识别衍生词的中文分词系统，包括第一级分词单元，用于以传统分词方法进行第一级分词，并获得切分出词典词及规律性词的分词结果，其特征在于，所述系统还包括第二级分词单元；

所述第二级分词单元与第一级分词单元相连，用于从第一级分词单元的分词结果中识别出单独出现的前缀字和/或后缀字，并将其与满足合并条件的相邻词合并为一个衍生词。

2、根据权利要求1所述的识别衍生词的中文分词系统，其特征在于，所述中文分词系统还包括输入输出单元和词汇存储单元；

所述输入输出单元用于接收文本输入，并将最终的分词结果输出；

3、根据权利要求2所述的识别衍生词的中文分词系统，其特征在于，所述第二级分词单元进一步包括前后缀字库、前后缀识别模块、衍生词合并模块；

4、根据权利要求3所述的识别衍生词的中文分词系统，其特征在于，所述前后缀字库中存储的前缀字列表和/或后缀字列表由所述前后缀识别模块训练所得，或者由所述中文分词系统以外的设备进行训练而获取。

5、根据权利要求1至4中任一权利要求所述的识别衍生词的中文分词系统，其特征在于，所述合并条件是：所述前缀字和/或后缀字的相邻词是一个由至少两个单字组成的词典词。

6、一种识别衍生词的中文分词方法，其特征在于，所述方法包括以下步骤：

A.对输入文本以传统分词方法进行第一级分词；

C.利用第二级分词识别出的衍生词更新分词结果，并输出。

7、根据权利要求6所述的识别衍生词的中文分词方法，其特征在于，步骤A中的传统分词方法包括：基于字符串匹配的分词方法、基于理解的分词方法、基于统计的分词方法。

8、根据权利要求6所述的识别衍生词的中文分词方法，其特征在于，所述步骤B中的合并条件是：所述相邻词是一个由至少两个单字组成的词典词。

9、根据权利要求6至8中任一权利要求所述的识别衍生词的中文分词方法，其特征在于，所述步骤B包括：

10、根据权利要求6至8中任一权利要求所述的识别衍生词的中文分词方法，其特征在于，所述步骤B包括：