CN102799676A

CN102799676A - 一种递归多层次中文分词方法

Info

Publication number: CN102799676A
Application number: CN2012102499119A
Authority: CN
Inventors: 吕强; 陶导; 方强
Original assignee: SHANGHAI LAISEEK INFORMATION TECHNOLOGY CO LTD; SHANGHAI YUTIAN INFORMATION TECHNOLOGY CO LTD
Current assignee: SHANGHAI LAISEEK INFORMATION TECHNOLOGY CO LTD; SHANGHAI YUTIAN INFORMATION TECHNOLOGY CO LTD
Priority date: 2012-07-18
Filing date: 2012-07-18
Publication date: 2012-11-28
Anticipated expiration: 2032-07-18
Also published as: CN102799676B

Abstract

本发明公开了一种递归多层次中文分词方法，包括：对输入的中文文本使用最大匹配算法进行中文分词，和在当前字典树中对所生成的分词进行选择性地屏蔽，然后重复进行利用屏蔽后的字典树对输入的中文文本再次使用最大匹配算法进行中文分词，和对所生成的分词进行选择性地屏蔽的步骤，直至所生成的各个分词在当前字典树中都不存在非单字前缀词，结束分词过程，输出分词结果并恢复屏蔽前的字典树。本发明的递归多层次中文分词方法在基于字符串匹配的细粒度切分中文分词算法的基础上，结合递归和多层次分词，实现了保证切分粒度的同时，在各个层次的分词中都消除歧义，提高了分词的准确度。

Description

一种递归多层次中文分词方法

技术领域

本发明涉及自然语言处理技术领域，尤其涉及一种递归多层次中文分词方法。

背景技术

中文分词指的是将一个汉字序列切分成一个一个单独的词，分词就是将连续的汉字序列按照一定的规范重新组合成词序列的过程。现有的中文分词算法大体可分为：基于字符串匹配的分词方法和基于统计的分词方法。基于字符串匹配的分词方法将汉字序列与一个“充分大的”词典中的词条进行匹配，若在词典中找到某个字符串，则匹配成功，即识别出一个词。按照扫描方向的不同，字符串匹配分词方法可以分为正向匹配算法和逆向匹配算法，按照不同长度优先匹配的情况，还可以分为最大匹配算法和最小匹配算法，按照分词的切分粒度还可以分为粗粒度切分和细粒度切分。基于字符串匹配的中文分词方法具有效率高，更新维护灵活，能够附带类型信息，具有一定的歧义消解能力的优点，但是对于未登录词的识别能力差。粗粒度切分可以消除歧义，但是切分粒度大，细粒度切分没有消除歧义的功能，但是切分粒度小。基于统计的分词方法，是从语料中学习字成词的统计信息，从而发现一些成词规则，其对未登录词有较好的识别能力，但是效率低，更新维护麻烦，周期长，同时分词的粒度偏向于细粒度切分。在当前的很多自然语言处理领域的应用和搜索引擎的应用中，考虑到切分粒度和分词效率的双重要求，采用细切分粒度的基于字符串匹配的分词方法，生成的分词包含多个层次但是没有消除歧义的功能。

发明内容

有鉴于现有技术的上述缺陷，本发明所要解决的技术问题是提供一种保证中文分词切分粒度的同时，还能在各个层次的分词中都消除歧义的，能够有效提升全切分的准确度的递归多层次中文分词方法。

为实现上述目的，本发明提供了一种递归多层次中文分词方法，包括如下步骤：

步骤1，利用当前字典树对输入的中文文本使用最大匹配算法进行中文分词，生成当前分词和当前分词层次；

步骤2，在当前字典树中对步骤1中所生成的分词进行选择性地屏蔽；

步骤3，将步骤2中选择性屏蔽后的字典树作为当前字典树；

步骤4，判断上述步骤1中所生成的各个中文分词在所述当前字典树中是否存在非单字前缀词，若有一个分词存在非单字前缀词，则继续进行上述步骤1到步骤3，若各个分词都不存在非单字前缀词，则进入步骤5；

步骤5，在当前字典树中将上述各步骤中屏蔽的中文分词重新插入当前字典树，并输出分词结果。

进一步地，步骤2中所述的选择性屏蔽具体为：对于每个分词，判断在字典树中是否存在该分词的非单字前缀词，若存在该分词的非单字前缀词，则在字典树中屏蔽该分词，并记录被屏蔽的分词，若不存在该分词的非单字前缀词，则不屏蔽该分词。

进一步地，步骤1还包括记录生成的当前分词及当前分词层次。

本发明的有益效果在于：该递归多层次中文分词方法在基于字符串匹配的细粒度切分中文分词算法的基础上，结合递归和多层次分词，实现了保证切分粒度的同时，在各个层次的分词中都消除歧义，提高了分词的准确度。

以下将结合附图对本发明的构思、具体结构及产生的技术效果作进一步说明，以充分地了解本发明的目的、特征和效果。

附图说明

图1是本发明的递归多层次中文分词方法的处理流程图。

具体实施方式

下面结合附图来具体说明本发明的实施例。

一种递归多层次中文分词方法，包括如下步骤：

步骤3，将步骤2中选择性屏蔽后的字典树作为当前字典树；

步骤5，在当前典树中将上述各步骤中屏蔽的中文分词重新插入当前字典树，并输出分词结果。

其中，上述步骤2中所述的选择性屏蔽具体为：对于每个分词，依次判断在字典树中是否存在该分词的非单字前缀词，若存在该分词的非单字前缀词，则在字典树中屏蔽该分词，并记录被屏蔽的该分词，若不存在该分词的非单字前缀词，则不屏蔽该分词。

其中，上述步骤1还包括记录生成的当前分词及当前分词层次，记录形式为（当前分词，当前分词层次）。

下面结合中文文本“浦东新区分中心”的分词过程，详细介绍本发明的递归多层次中文分词方法。如图1所示，首先，利用当前字典树对输入的中文文本使用最大匹配算法进行中文分词，以中文文本“浦东新区分中心”为例，使用最大匹配算法进行分词，假设当前字典树中已有的词条为“浦东新区，浦东，东新，新区，区分，分中心”，则利用最大匹配算法进行第一层中文分词的结果为“浦东新区+分中心”，记录第一层分词的结果。接着进行下一步骤，在当前字典树中对上述生成的分词进行选择性地屏蔽，并记录被屏蔽的分词。在当前字典树中分别查找第一层的分词“浦东新区”和“分中心”的非单字前缀词，分词“浦东新区”存在非单字前缀词“浦东”，所以在字典树中屏蔽分词“浦东新区”，并记录被屏蔽掉的分词“浦东新区”，分词“分中心”在字典树中不存在非单字前缀词，所以对该分词不进行屏蔽。然后将选择性屏蔽后的字典树作为当前字典树。当前层的分词“浦东新区”在字典树中存在非单字前缀词，所以继续进行下一层分词。利用当前字典树对输入的中文文本再次使用最大匹配算法进行中文分词，本实施例使用屏蔽掉“浦东新区”后的字典树对“浦东新区分中心”再次进行最大匹配算法的中文分词，得到第二层中文分词的结果为“浦东+新区+分中心”，然后在当前字典树中对第二层分词结果的每个分词进行选择性屏蔽，并记录被屏蔽的分词。在当前字典树中查找第二层的分词“浦东”、“新区”和“分中心”的非单字前缀词，因为分词“浦东”、“新区”和“分中心”在当前字典树中都不存在非单字前缀词，所以，不进行屏蔽。然后，将选择性屏蔽后的字典树作为当前字典树。因为当前层的分词“浦东”、“新区”和“分中心”在当前字典树中都不存在非单字前缀词，所以结束该中文分词的过程，输出分词结果为：第一层：“浦东新区+分中心”，第二层为：“浦东+新区+分中心”，其中，“分中心”合并到第一层。同时，将上述步骤中屏蔽掉的分词取消屏蔽，重新插入当前字典树中。

通过以上各步骤，在基于字符串匹配的细粒度切分中文分词算法的基础上，结合递归和多层次分词，实现了保证切分粒度的同时，在各个层次的分词中都消除歧义，提高了分词的准确度。

以上详细描述了本发明的较佳具体实施例。应当理解，本领域的普通技术人员无需创造性劳动就可以根据本发明的构思做出诸多修改和变化。因此，凡本技术领域的技术人员依本发明的构思在现有技术的基础上通过逻辑分析、推理或者有限的实验可以得到的技术方案，皆应在由权利要求书所确定的保护范围内。

Claims

1.一种递归多层次中文分词方法，其特征在于，包括如下步骤：

步骤2，在当前字典树中对步骤1中所生成的分词进行选择性屏蔽；

步骤3，将步骤2中选择性屏蔽后的字典树作为当前字典树；

2.如权利要求1所述的递归多层次中文分词方法，其中，步骤2中所述的选择性屏蔽具体为：对于每个分词，判断在当前字典树中是否存在该分词的非单字前缀词，若存在该分词的非单字前缀词，则在当前字典树中屏蔽该分词，并记录被屏蔽的分词，若不存在该分词的非单字前缀词，则不屏蔽该分词。

3.如权利要求2所述的递归多层次中文分词方法，其中，步骤1还包括记录生成的当前分词及当前分词层次。