CN103838794A

CN103838794A - 一种适用于专业搜索引擎的分词方法

Info

Publication number: CN103838794A
Application number: CN201210491416.9A
Authority: CN
Inventors: 郑世明
Original assignee: DALIAN LINGDONG TECHNOLOGY DEVELOPMENT Co Ltd
Current assignee: DALIAN LINGDONG TECHNOLOGY DEVELOPMENT Co Ltd
Priority date: 2012-11-27
Filing date: 2012-11-27
Publication date: 2014-06-04

Abstract

本发明公开了一种适用于专业搜索引擎的分词方法，包括以下步骤：根据专业主词典表和同义词词典表首先建立首字索引视图和首字词条视图；用数组将整个字典的两个视图数据装入内存；循环查找和匹配过程。做为专业搜索引擎其搜索对象通常是专业领域的技术文档，这些文档的特征项都基于专业词典，与通用词典相比专业词典包含的词汇量很少，因此只需匹配专业词条即可，无需像综合搜索引擎那样对句子中所有词条进行全部切分，因此本发明受首字哈希结构的启发，设计了一种可以提高专业分词的效率，避免传统最大匹配分词中频繁查词典的缺陷，以及首字哈希浪费存储空间的弊端的简单实用的分词方法。

Description

一种适用于专业搜索引擎的分词方法

技术领域

本发明涉及一种中文的自动分词技术，特别是一种适用于专业搜索引擎的分词方法。

背景技术

在国内自80年代以来，已陆续开发出一些分词系统，使用的分词方法也有多种。但归纳起来不外乎两类：一类是理解式分词法，即利用汉语的语法知识和语义知识以及心理学知识试图模仿人类的阅读过程来进行分词。这种分词需要建立分词数据库、知识库和推理机，主要包括专家系统分词法、基于语法和规则的分词法、基于神经网络的分词法等；另一类是机械式分词法，这种分词法一般以分词词典为依据，通过文档中的汉字串和词表中的词逐一匹配来完成词的切分。其中分词词典中不涉及太多的词法、语义、句法知识等关于语言自身的信息，主要是个词表。词典中词条的数目、词条的选择直接影响到最后的分词效果。它主要包括正向、逆向最大匹配法、最佳匹配法、逐词遍历法、词频统计法等。相比而言，第一类分词方案的算法复杂度高，其有效性于可行性尚需在实际工作中得到进一步地验证。因为汉语毕竟是缺乏词的标志和严格的构词规则。语言界现有的词法、句法及组合规则仍然是十分笼统的和复杂的，能否有效的、系统地转换成为计算机采用的形式恐怕难以定论。因此这种分词方法仅是处于研究阶段，距离实用化还有很大差距，一般不宜采用。第二类分词方法实现简单，比起第一类来较具体、实用，而且也可以达到较高的准确度。

搜索引擎中常用的分词技术是一种基于分词词典的机械分词法，即正逆向最大匹配法。它不能根据文档上下文的语义特征来切分词语，对词典的依赖性较大，所以在实际使用时，难免会造成一些分词错误。为了提高系统分词的准确度，在搜索引擎的实际应用中通常采用正向最大匹配法和逆向最大匹配法相结合的分词方案。先根据标点对文档进行粗切分，把文档分解成若干个子段，然后再对这些子段用正向最大匹配法和逆向最大匹配法进行扫描切分。如果两种分词方法得到的匹配结果相同，则认为分词正确，否则，按同时包含两部分的最小长度处理。

目前搜索引擎中用到的正逆向最大匹配相结合的分词算法和首字哈希的词典组织结构都是建立在通用词典的基础上的，它要求对词条全部切分直到单字为止。但做为专业搜索引擎其搜索对象通常是专业领域的技术文档，这些文档的特征项都基于专业词典，与通用词典相比专业词典包含的词汇量很少，因此只需匹配专业词条即可，无需像综合搜索引擎那样对句子中所有词条进行全部切分。

发明内容

为解决现有技术存在的上述问题，本发明受首字哈希结构的启发，设计了一种可以提高专业分词的效率，避免传统最大匹配分词中频繁查词典的缺陷，以及首字哈希浪费存储空间的弊端的简单实用的分词方法。

为了实现上述目的，本发明的技术方案如下：一种适用于专业搜索引擎的分词方法：包括以下步骤：

A、根据专业主词典表和同义词词典表首先建立首字索引视图和首字词条视图；

B、初始化时用数组将整个字典的两个视图数据装入内存；

C、根据标点进行粗切分，然后从句子中按顺序取出一个汉字在首字索引视图中用二分法进行查找，若未找到则进入下次循环；

D、否则转到首字词条视图中分别按其中同的“词条长度”截取句子相应长度的字符串；

E、按首字词条视图中的词条顺序取出所有以该字开头的词条名并与相应长度的截取串进行比较，比较次数由首字索引视图中首字词数目决定；

若再匹配成功则对相应词条统计计数，如果词条来源于主词典直接给该词计数，如果词条来源于同义词典则应对该词所对应的主词典词计数；

同时跳过该词条包含的汉字进入下一次循环；否则直接进入下次循环；

F、重复步骤A-E直到文章结束为止。

与现有技术相比，本发明具有以下有益效果：

1.保持了传统最大匹配优先的特点，同时也适合于中英文混合词条(如“甲A”，“Java实例”等)的分词统计。

2.改变传统最大匹配中截取字串匹配词典词条的做法，而采用了词典词条匹配相应长度截取字串的匹配方法。保证了所有的匹配都是有效匹配，避免了传统最大匹配法顺序查字典中大量的无效匹配判断，提高了分词的效率。

3.根据专业词典建立首字索引，避免了传统首字哈希索引方法在专业搜索引擎中浪费存储空间的弊端。

4.方法简单易于实现。无需建立新的索引结构表，仅利用现有的库表结构即可实现，降低了建立索引的复杂度，能有效的适用于专业搜索引擎的使用。

附图说明

本发明共有附图1张，其中：

图1是本发明中适合专业搜索引擎的分词法流结构示意图。

具体实施方式

下面结合附图对本发明进行进一步地描述。本发明的工作流程如图1，根据专业主词典表和同义词词典表首先建立首字索引视图和首字词条视图两个视图。然后初始化时用数组将整个字典的两个视图数据装入内存。在分词时先根据标点进行粗切分，接着从句子中按顺序取出一个汉字在首字索引视图的“词条首字”中用二分法进行查找，若未找到则进入下次循环，否则转到首字词条视图中分别按首字词条视图中不同的“词条长度”截取句子相应长度的字符串，然后按首字词条视图中的词条顺序取出所有以该字开头的词条名并与相应长度的截取串进行比较(比较次数由首字索引视图中“首字词数目”决定)，若再匹配成功则对相应词条统计计数(如果词条来源于主词典直接给该词计数，如果词条来源于同义词典则应对该词所对应的主词典词计数)，同时跳过该词条包含的汉字进入下一次循环。否则直接进入下次循环。如此反复匹配直到文章结束为止。

Claims

1.一种适用于专业搜索引擎的分词方法，其特征在于：包括以下步骤：

B、初始化时用数组将整个字典的两个视图数据装入内存；

F、重复步骤A-E直到文章结束为止。