CN105426539A

CN105426539A - 一种基于词典的lucene中文分词方法

Info

Publication number: CN105426539A
Application number: CN201510977358.4A
Authority: CN
Inventors: 孙健; 张祥
Original assignee: Chengdu Dianke Xintong Jiexin Technology Co Ltd
Current assignee: Chengdu Tianfu cloud number information technology Co., Ltd
Priority date: 2015-12-23
Filing date: 2015-12-23
Publication date: 2016-03-23
Anticipated expiration: 2035-12-23
Also published as: CN105426539B

Abstract

本发明公开了一种基于词典的中文分词方法，首先收集语料，构建专业词典，构建方法为：首先去除停用词，将语料划分为文本片段，从文本片段中提取候选词，统计候选词和每个单字在所有文本片段中的出现概率，计算每个候选词中两个汉字的互信息，互信息大于预设的互信息阈值，则保留该候选词，否则删除该候选词，然后对筛选后的候选词进行合并，将合并处理后的候选词采用通用词典进行匹配过滤，将过滤后的候选词加入专业词典；对待分词文本先采用专业词典进行分词，剩下的文本再采用通用词典进行分词。本发明基于统计的方法从语料中抽取专业术语来构建专业词典，通用性较强，采用该专业词典进行分词可以有效满足专业领域的要求。

Description

一种基于词典的lucene中文分词方法

技术领域

本发明属于中文分词技术领域，更为具体地讲，涉及一种基于词典的lucene中文分词方法。

背景技术

中文信息和英文信息有一个明显的差别，英语单词之间用空格分隔；而在中文文本中，词与词之间没有明显的分隔符，中文词汇大多是由两个或者两个以上的汉字组成的，并且语句是连续书写的。这就意味着在对中文文本进行自动分析前，要先将一整句话切割成小的词汇单元，即中文分词。中文分词是当今中文信息处理和检索的一个难点，是研究搜索领域不可避免的一个问题，现在，中文分词已经有了一些成果，并且在很多方面如信息检索有了广泛的应用。

随着互联网的快速发展，搜索引擎的应用越来越广泛，然而普通的商用搜索引擎无法满足特定领域内的搜索要求，其搜索结果含有大量对于使用者无关的信息，无法显示准确的搜索结果。于是需要更加准确，符合某一特定领域的搜索引擎，其中需使用中文分词技术。中文分词技术在索引的过程中至关重要。

Lucene作为目前世界上最流行的开源全文索引系统，已经在许多搜索引擎技术项目中得到了广泛且深入的应用和研究，而其中的语言分析器已经能够支持世界上大多数语言,当然也包括中文汉字。但目前Lucene中只提供中文单字和双字分词机制，而这两种中文分词模块并不能较好支持Lucene中文分析处理。

发明内容

本发明的目的在于克服现有技术的不足，提供一种基于词典的lucene中文分词方法，构建专业词典，然后使用通用词典和专业词典进行分词，从而满足专业领域要求。

为实现上述发明目的，本发明基于词典的lucene中文分词方法包括以下步骤：

S1：收集语料，构建专业词典，其具体步骤为：

S1.1：对收集到的语料去除停用词，将语料划分成文本片段；

S1.2：对每个文本片段，提取相邻两个字作为候选词，对候选词按顺序进行编号，统计候选词和每个单字在所有文本片段中的出现概率；

S1.3：计算每个候选词中两个汉字X和Y的互信息M(X,Y)：

M (X, Y) = \lg \frac{P (X, Y)}{P (X) P (Y)}

其中P(X,Y)是汉字X和Y的相邻共现概率，P(X)、P(Y)分别是汉字X、Y的出现概率；如果候选词的互信息大于预设的互信息阈值，则保留该候选词，否则删除该候选词；

S1.4：在筛选得到的候选词中，如果两个以上候选词的编号连续，并且前一个候选词的末字与后一个候选词的首字相同，则将这些候选词按照顺序进行合并，其他候选词不作任何操作；

S1.5：将合并处理后的候选词与通用词典进行匹配，如果候选词属于通用词典，则将该候选词删除，否则再将候选词与专业词典进行匹配，如果尚未存在于专业词典中，则加入专业词典，否则不作任何操作；

S2：从待分词文本中去除停用词，然后对待分词文本采用专业词典分词，专业词典分词后剩下的文本再采用通用词典进行分词。

进一步地，步骤S1.5中，还需要维护一个非术语词典，对于经通用词典匹配后保留的候选词，采用非术语词典进行匹配，如果候选词属于非术语词典，则将其删除；然后保留的候选词在加入专业词典之前，进行人工检查，如果有非术语候选词则放入非术语词典中，不再加入专业词典。

进一步地，步骤S2中的采用专业词典或通用词典分词采用双向最大匹配算法，其具体方法为：对待分词文本先分别采用正向最大匹配法和逆向最大匹配法进行分词，当正向最大匹配法和逆向最大匹配法分词结果词数不同时，则取分词数量较少的那个分词结果作为最终结果；当分词结果词数相同时，如果分词结果相同，任意取一个分词结果作为最终结果，如果分词结果不同，则将单字较少的那个分词结果作为最终结果。

本发明基于词典的中文分词方法，首先收集语料，构建专业词典，构建方法为：首先去除停用词，将语料划分为文本片段，从文本片段中提取候选词，统计候选词和每个单字在所有文本片段中的出现概率，计算每个候选词中两个汉字的互信息，互信息大于预设的互信息阈值，则保留该候选词，否则删除该候选词，然后对筛选后的候选词进行合并，将合并处理后的候选词采用通用词典进行匹配过滤，将过滤后的候选词加入专业词典；对待分词文本先采用专业词典进行分词，剩下的文本再采用通用词典进行分词。

本发明基于统计的方法从语料中抽取专业术语来构建专业词典，不需要句法、语义上的信息，不局限于某一专门领域，也不依赖任何资源，通用性较强，采用该专业词典进行分词可以有效满足专业领域的要求，提高lucene索引的有效性，使得搜索结果更符合主题搜索引擎的要求。

附图说明

图1是本发明基于词典的lucene中文分词方法的具体实施方式流程图；

图2是构建专业词典的流程图。

具体实施方式

下面结合附图对本发明的具体实施方式进行描述，以便本领域的技术人员更好地理解本发明。需要特别提醒注意的是，在以下的描述中，当已知功能和设计的详细描述也许会淡化本发明的主要内容时，这些描述在这里将被忽略。

实施例

本发明基于词典的lucene中文分词方法主要包括两大阶段，一是专业词典的构建，二是文本分词。图1是本发明基于词典的lucene中文分词方法的具体实施方式流程图。如图1所示，本发明基于词典的lucene中文分词方法包括以下步骤：

S101：构建专业词典：

本发明首先需要收集语料，构建专业词典。图2是构建专业词典的流程图。如图2所示，本发明中构建专业词典的具体步骤为：

S201：语料预处理：

首先需要对收集到的语料进行预处理，也就是从语料中去除经过人工收集的停用词，将语料中的每一个句子切分成相对较小的文本片段。停用词主要包含标点符号、代词、语气词、助词、连词等。这些停用词一般没有特殊的意义，经常搭配别的词构成词或短语，且术语一般不会包含这些词，可以用于切分句子。停用词示例：“啊”、“它”、“以及”、“并且”、“咦”、“大多数”、“及时”、“几乎”、“什么”、“我”、“我们”等。

本实施例中，假设语料中的一句话为“中文分词使用统计方法进行词典的构造。”由于段落中有出现频率高、构词能力差的单字词——“的”，所以此句话可以分为两个文本片段：“中文分词使用统计方法进行词典”和“构造”。

S202：概率统计：

对于预处理后的得到的每个文本片段，提取相邻两个字作为候选词，对候选词按顺序进行编号，统计候选词和每个单字在所有文本片段中的出现概率。

本实施例中，待分词文本被划分成了两个部分，因此需要统计“中文”，“文分”，“分词”，“词使”，“使用”，“用统”，“统计”，“计方”，“方法”，“法进”，“进行”，“行词”，“词典”，“构造”和各个单字的出现概率。

S203：候选词筛选：

从形式上看，词是稳定的字的组合，因此在上下文中，相邻的字同时出现的次数越多，就越有可能组成一个词，因此字与字相邻出现的频率或概率能够较好的反应词的可信度，对待分词文本中相邻出现的各个字的组合的频度进行统计计算他们的互信息。计算汉字X和Y的互信息M(X,Y)，计算公式为：

M (X, Y) = \lg \frac{P (X, Y)}{P (X) P (Y)}

其中P(X,Y)是汉字X和Y的相邻共现概率，也就是该候选词的出现概率，P(X)、P(Y)分别是汉字X、Y的出现概率。

互信息体现了汉字之间结合关系的紧密程度。当紧密程度高于某一个阈值时，便可以认为此字组构成了一个词。因此根据步骤S202统计得到的概率计算得到各个候选词中两个汉字的互信息，如果互信息大于预设的互信息阈值，则认为该候选词是词语，保留该候选词，否则不是词语，删除该候选词。本实施例中，设置互信息阈值为5。假定筛选得到的候选词有：“中文”，“文分”，“分词”，“使用”，“用统”，“统计”，“计方”，“方法”，“进行”，“词典”，“构造”。

S204：候选词合并：

在筛选得到的候选词中，如果两个以上候选词的编号连续，并且前一个候选词的末字与后一个候选词的首字相同，则将这些候选词按照顺序进行合并，其他候选词不作任何操作。例如“中文文分分词”合并处理为词语“中文分词”，“统计计方方法”合并处理为“统计方法”，可由“中文分词使用统计方法进行词典”这句话得到词语“中文分词”，“使用”，“统计方法”，“进行”，“词典”。

S205：词语过滤：

将合并处理后的候选词与通用词典进行匹配，如果候选词属于通用词典，则将该候选词删除，不加入专业词典当中，否则再将候选词与专业词典进行匹配，如果尚未存在于专业词典中，则加入专业词典，否则不作任何操作。

对于本实施例中的候选词，发现候选词“利用”，“进行”，“词典”，“构造”这几个词是通用词典中的单词，所以将这几个候选词删除，而保留“中文分词”，“统计方法”这两个候选词。假设此时专业词典中不存在这两个候选词，则将它们加入专业词典。

为了提高专业术语词典的正确率，本发明还提出建立一个非术语词典，对于经通用词典匹配后保留的候选词，采用非术语词典进行匹配，如果候选词属于非术语词典，则将其删除；然后保留的候选词在加入专业词典之前，进行人工检查，如果有非术语候选词则放入非术语词典中，不再加入专业词典。这样可以提高专业术语词典的构造速度。

S102：待分词文本预处理：

对于待分词文本，首先也要进行预处理，即去除停用词。

S103：采用专业词典分词：

对待分词文本采用专业词典分词。本实施例在分词时采用双向最大匹配算法。双向最大匹配算法是将正向最大匹配法得到的分词结果和逆向最大匹配法的到的结果进行比较，从而决定正确的分词方法。正向最大匹配法和逆向最大匹配法是常用的分词方法，其具体步骤在此不再赘述。

中文中90.0％左右的句子，正向最大匹配法和逆向最大匹配法完全重合且正确，只有大概9.0％的句子两种切分方法得到的结果不一样，但其中必有一个是正确的(歧义检测成功)，只有不到1.0％的句子，或者正向最大匹配法和逆向最大匹配法的切分虽重合却是错的，或者正向最大匹配法和逆向最大匹配法切分不同但两个都不对(歧义检测失败)。因此在采用双向最大匹配算法时，需要加入一些启发式的规则来对分词结果进行进一步消歧的。

本实施例提出的启发式规则为：当正向最大匹配法和逆向最大匹配法分词结果词数不同时，则取分词数量较少的那个分词结果作为最终结果；当分词结果词数相同时，如果分词结果相同，说明没有歧义，任意取一个分词结果作为最终结果，如果分词结果不同，则将单字较少的那个分词结果作为最终结果。

S104：采用通用词典分词：

对步骤S103中经过专业词典分词后剩下的文本，采用通用词典进行分词，从而得到最终的分词结果。本实施例中，通用词典分词也采用双向最大匹配算法。

尽管上面对本发明说明性的具体实施方式进行了描述，以便于本技术领域的技术人员理解本发明，但应该清楚，本发明不限于具体实施方式的范围，对本技术领域的普通技术人员来讲，只要各种变化在所附的权利要求限定和确定的本发明的精神和范围内，这些变化是显而易见的，一切利用本发明构思的发明创造均在保护之列。

Claims

1.一种基于词典的lucene中文分词方法，其特征在于，包括以下步骤：

S1：收集语料，构建专业词典，其具体步骤为：

S1.1：对收集到的语料去除停用词，将语料划分成文本片段；

S1.3：计算每个候选词中两个汉字X和Y的互信息M(X,Y)：

M (X, Y) = \lg \frac{P (X, Y)}{P (X) P (Y)}

S2：从待分词文本中去除停用词，然后对对待待分词文本采用专业词典分词，专业词典分词后剩下的文本再采用通用词典进行分词。

2.根据权利要求1所述的lucene中文分词方法，其特征在于，所述步骤S1.5中，还需要维护一个非术语词典，对于经通用词典匹配后保留的候选词，采用非术语词典进行匹配，如果候选词属于非术语词典，则将其删除；然后保留的候选词在加入专业词典之前，进行人工检查，如果有非术语候选词则放入非术语词典中，不再加入专业词典。

3.根据权利要求1所述的lucene中文分词方法，其特征在于，所述步骤S2中采用专业词典或通用词典分词采用双向最大匹配算法，其具体方法为：对待分词文本先分别采用正向最大匹配法和逆向最大匹配法进行分词，当正向最大匹配法和逆向最大匹配法分词结果词数不同时，则取分词数量较少的那个分词结果作为最终结果；当分词结果词数相同时，如果分词结果相同，任意取一个分词结果作为最终结果，如果分词结果不同，则将单字较少的那个分词结果作为最终结果。