CN102402502A

CN102402502A - 用于搜索引擎的分词处理方法和装置

Info

Publication number: CN102402502A
Application number: CN2011103784341A
Authority: CN
Inventors: 李理
Original assignee: Beijing Qu Na Information Technology Co Ltd
Current assignee: Beijing Qu Na Information Technology Co Ltd
Priority date: 2011-11-24
Filing date: 2011-11-24
Publication date: 2012-04-04

Abstract

本发明提供一种用于搜索引擎的分词处理方法和装置，该用于搜索引擎的分词处理方法，包括：获取用户输入的目标分词语句；根据预先存储的分词词典对目标分词语句进行分词；在确认出现分词歧义字段时，调用预先建立的分词统计模型，并选择分词歧义字段在所述分词统计模型中具有最高概率的分词方式进行分词。装置包括：第一获取模块，用于获取用户输入的目标分词语句；第一分词模块，用于根据预先存储的分词词典对目标分词语句进行分词；第二分词模块，用于在确认出现分词歧义字段时，调用预先建立的分词统计模型，并选择所述分词歧义字段在所述分词统计模型中具有最高概率的分词方式进行分词。

Description

用于搜索引擎的分词处理方法和装置

技术领域

本发明涉及中文分词技术，尤其涉及一种用于搜索引擎的分词处理方法和装置。

背景技术

搜索引擎中使用的中文分词，是指一个汉字序列切分成一个一个单独的词，分词是一个将连续的子序列按照已规定的规范重新组合成词序列的过程。

现有技术中在进行中文分词时，通常是根据人工或者半人工的方式获取分词词典，该分词词典为一数据库，数据库中定义了大量的词组，在搜索引擎进行分词时，首先根据分词词典，对预搜索的语句按照最大正向匹配方式或最大逆向匹配方式进行分词，其中最大正向匹配方法是指按照从前到后的顺序从预搜索的语句中查询与词典中匹配的词组，最大逆向匹配方法是指按照从后到前的顺序从预搜索的语句中查询与词典中匹配的词组。另外，还可以一种技术方案可以根据图搜索的方法进行分词处理。

上述利用最大正向匹配方法和最大逆向匹配方法进行分词的过程中，可能出现对某一字段存在两种不同的分词结果的情况，无法确认正确的分词结果，即发生分词歧义，对于图搜索模式也会发生上述的分词歧义。

综上所述，对于现有技术中基于词典的分词方法，其无法消除分词歧义。

发明内容

本发明的第一个方面是提供一种用于搜索引擎的分词处理方法，包括：

获取用户输入的目标分词语句；

根据预先存储的分词词典对所述目标分词语句进行分词；

在确认出现分词歧义字段时，所述分词歧义字段被识别为具有两种以上的分词方式，调用预先建立的分词统计模型，并选择所述分词歧义字段在所述分词统计模型中具有最高概率的分词方式进行分词。

本发明的另一个方面是提供一种用于搜索引擎的分词处理装置，包括：

第一获取模块，用于获取用户输入的目标分词语句；

第一分词模块，用于根据预先存储的分词词典对所述目标分词语句进行分词；

第二分词模块，用于在确认出现分词歧义字段时，所述分词歧义字段被识别为具有两种以上的分词方式，调用预先建立的分词统计模型，并选择所述分词歧义字段在所述分词统计模型中具有最高概率的分词方式进行分词。

本发明提供的技术方案，其首先通过利用分词词典对目标分词语句进行分词，并在出现分词歧义字段时，分词歧义字段被识别为具有两种以上的分词方式，调用预先建立的分词统计模型，并选择所述分词歧义字段在所述分词统计模型中具有最高概率的分词方式进行分词。该技术方案能够实现对分词歧义字段进行分词处理，并根据上述消除歧义的分词方法，能够进一步提高利用搜索引擎进行检索的准确率和覆盖率。

附图说明

图1为本发明实施例中用于搜索引擎的分词处理方法的流程示意图；

图2为本发明一具体实施例的流程示意图；

图3为本发明实施例中用于搜索引擎的分词处理装置的结构示意图。

具体实施方式

针对现有技术中，基于词典的分词方法无法消除分词歧义的缺陷，本发明实施例提供了一种用于搜索引擎的分词处理方法。

图1为本发明实施例中用于搜索引擎的分词处理方法的流程示意图，如图1所示，该方法包括如下的步骤：

步骤101、获取用户输入的目标分词语句；

步骤102、根据预先存储的分词词典对所述目标分词语句进行分词；

步骤103、在确认出现分词歧义字段时，所述分词歧义字段被识别为具有两种以上的分词方式，调用预先建立的分词统计模型，并选择所述分词歧义字段在所述分词统计模型中具有最高概率的分词方式进行分词。

本发明上述实施例中提供的用于搜索引擎的分词处理方法，首先按照基于词典的方法进行分词处理，并在出现分词歧义字段时，调用预先建立的分词统计模型，选择分词歧义字段在所述分词统计模型中具有最高概率的分词方式进行分词，进而实现对分词歧义字段进行分词处理，根据上述消除歧义的分词方法，能够进一步提高利用搜索引擎进行检索的准确率和覆盖率。

本发明上述实施例中，其中的词典可以根据人工或者半人工的方式构造，例如可以根据分词统计模块，获取出现概率较高的分词方式，加入到分词词典中，或者是从查询日志(Query Log)中，获取查询次数较多的新词，例外还可以利用互联网上现有的在线词典，例如从维基百科中获取。为了提高召回率(Recall Rate，也称为查全率)，需要对词典中的词进行细粒度切分，主要是按照如下的原则切分：一是人名不切分；二是2字词不切分；三是对于3个字的词，若其中同时还存在2个字的词，或1个字的词，则划分为所有可能的词并索引，例如“游戏机”，可以切分为“游戏机”，则同时索引“游戏机”和“游戏”，对于“双氧水”，可以切分为“双氧水”，则同时索引“双氧水”、“双”、“氧”和“水”，对于有歧义的词，可以同时索引有歧义的词，例如“风景区”，可以切分为“风景区”或者“风景区”，这是同时索引“风景区”、“风景”和“景区”；四是对于4个字的词，先将其切分为2个字的词或3个字的词，随后再将3个字的词切分为2个字的词；且对于大于3个字的词，基本都属于人名、地名等固定词。

如上述图1所示的实施例中，其中的步骤102根据预先存储的分词词典对目标分词语句进行分词，可以包括两种情况，即可以是根据预先存储的分词词典，按照最大正向匹配方法和最大逆向匹配方法对目标分词语句进行分词；或者是根据预先存储的分词词典，按照图搜索方法对所述目标分词语句进行分词，该图搜索方法实际上是一种把分词看作是图的最短路径来进行搜索。

另外，本发明上述实施例中，其中的步骤103中预先建立的分词统计模型中，分词歧义字段的每种分词方式用特征向量标识，该分词统计模型除包括每种分词方式的特征向量外，还包括统计获得到每种分词方式的特征向量对应的概率值。具体的，是在该分词统计模型中，将分词歧义字段中的每个字被定义为单字词类型、词首类型、词尾类型、第二位置词类型、第三位置词类型或其他位置词类型中的一种，而每种分词方式的特征向量包括分词歧义字段中的所有字的类型，以及所有字的排列顺序。例如，用S，B，E，B1，B2，M来表示单字词类型、词首类型、词尾类型、第二位置词类型、第三位置词类型或其他位置词类型，对于“龙凤山”，其最大正向匹配方法的结果为“龙凤山”，而最大逆向匹配方法的结果为“龙风山”，则在分词统计模型中可分别用特征向量“BES”和“SBE”标识，且可以标注特征向量“BES”出现的概率为60％，特征向量“SBE”出现的概率为40％。本发明的技术方案在具体的实施过程中，可以使用条件随机域(Conditional random field，简称：CRF)模型，或者是隐马尔代夫模型(Hidden Markov Model，简称：HMM)，或者是支持向量机(Support Vector Machine，简称：SVM模型)等。

本发明上述实施例中的分词统计模型，需要较大数量的语料来进行统计，以获得分词歧义字段的不同分词方式对应的特征向量的概率，这个概率也就对应着不同的分词方式在较大数量的语料中出现的频率。

图2为本发明一具体实施例的流程示意图，如图2所示，本发明的技术方案包括如下的步骤：

步骤201、获取用户输入的目标分词语句；

步骤202、基于分词词典，利用最大正向匹配方法和最大逆向匹配方法对目标分词语句进行分词；

步骤203、判断上述最大正向匹配方法和最大逆向匹配方法得到的结果是否一致，若一致，则执行步骤206，如果不一致时执行步骤204；

步骤204、在确定上述两种分词方法得到的结果不一致时，获取分词歧义字段；

步骤205、调用预先建立的分词统计模型，对分词歧义字段进行分词处理，具体的按照上述实施例所提供的特征向量的建立方式，建立该分词歧义字段的两种以上的分词方式各自对应的特征向量，获取分词统计模型两种以上的分词方式各自对应的特征向量的概率，选择概率最大的分词方式进行分词；

步骤206、输出分词结果；

步骤207、结束。

本发明的具体实施例中，可以将原分词词典中不具有的，而在分词统计模型中出现概率较高的特征向量对应的分词加入到分词词典中，本领域内技术人员可以理解，在上述概率值取得较高时，获得新的分词的准确率会提高，但是发现新的分词的数目会减少，在上述概率值取得较低时，获得新的分词的准确率会降低，但是发现新的分词的数目会增加，可以根据具体的应用环境或领域而确定。

本发明实施例还提供了一种用于搜索引擎的分词处理装置，图3为本发明实施例中用于搜索引擎的分词处理装置的结构示意图，如图3所示，该用于搜索引擎的分词处理装置包括第一获取模块11、第一分词模块12和第二分词模块13，其中第一获取模块11用于获取用户输入的目标分词语句；第一分词模块12用于根据预先存储的分词词典对所述目标分词语句进行分词；第二分词模块13用于在确认出现分词歧义字段时，所述分词歧义字段被识别为具有两种以上的分词方式，调用预先建立的分词统计模型，并选择所述分词歧义字段在所述分词统计模型中具有最高概率的分词方式进行分词。

本发明上述实施例中提供的用于搜索引擎的分词处理方法，首先按照基于词典的方法进行分词处理，并在出现分词歧义字段时，调用预先建立的分词统计模型，选择分词歧义字段在所述分词统计模型中具有最高概率的分词方式进行分词，进而实现对分词歧义字段进行分词处理，根据上述消除歧义的分词方法，能够提高利用搜索引擎进行检索的准确率和覆盖率。

本发明上述实施例中，其中的第一分词模块12可以包括第一分词单元或第二分词单元，其中的第一分词单元用于根据预先存储的分词词典，按照最大正向匹配方法和最大逆向匹配方法对所述目标分词语句进行分词；第二分词单元用于根据预先存储的分词词典，按照图搜索方法对所述目标分词语句进行分词。

另外，本发明上述实施例中，其中预先建立的分词统计模型包括用于标识分词歧义字段的每种分词方式的特征向量，以及统计获得的所述每种分词方式的特征向量对应的概率值。具体的，在该分词统计模型中，所述分词歧义字段中的每个字被定义为单字词类型、词首类型、词尾类型、第二位置词类型、第三位置词类型或其他位置词类型中的一种，所述每种分词方式的特征向量包括分词歧义字段中的所有字的类型，以及所有字的排列顺序。而其中的第二分词模块13具体用于建立该分词歧义字段的两种以上的分词方式各自对应的特征向量，获取分词统计模型两种以上的分词方式各自对应的特征向量的概率，选择概率最大的分词方式进行分词。

本领域普通技术人员可以理解：实现上述各方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成。前述的程序可以存储于一计算机可读取存储介质中。该程序在执行时，执行包括上述各方法实施例的步骤；而前述的存储介质包括：ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。

最后应说明的是：以上各实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述各实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分或者全部技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的范围。

Claims

1.一种用于搜索引擎的分词处理方法，其特征在于，包括：

获取用户输入的目标分词语句；

根据预先存储的分词词典对所述目标分词语句进行分词；

2.根据权利要求1所述的用于搜索引擎的分词处理方法，其特征在于，所述根据预先存储的分词词典对所述目标分词语句进行分词包括：

根据预先存储的分词词典，按照最大正向匹配方法和最大逆向匹配方法对所述目标分词语句进行分词；或

根据预先存储的分词词典，按照图搜索方法对所述目标分词语句进行分词。

3.根据权利要求1或2所述的用于搜索引擎的分词处理方法，其特征在于，所述预先建立的分词统计模型包括用于标识分词歧义字段的每种分词方式的特征向量，以及统计获得的所述每种分词方式的特征向量对应的概率值。

4.根据权利要求3所述的用于搜索引擎的分词处理方法，其特征在于，在所述分词统计模型中，所述分词歧义字段中的每个字被定义为单字词类型、词首类型、词尾类型、第二位置词类型、第三位置词类型或其他位置词类型中的一种，所述每种分词方式的特征向量包括分词歧义字段中的所有字的类型，以及所有字的排列顺序。

5.根据权利要求4所述的用于搜索引擎的分词处理方法，其特征在于，所述调用预先建立的分词统计模型，并选择所述分词歧义字段在所述分词统计模型中具有最高概率的分词方式进行分词包括：

建立该分词歧义字段的两种以上的分词方式各自对应的特征向量，获取分词统计模型两种以上的分词方式各自对应的特征向量的概率，选择概率最大的分词方式进行分词。

6.一种用于搜索引擎的分词处理装置，其特征在于，包括：

第一获取模块，用于获取用户输入的目标分词语句；

7.根据权利要求6所述的用于搜索引擎的分词处理装置，其特征在于，所述第一分词模块包括：

第一分词单元，用于根据预先存储的分词词典，按照最大正向匹配方法和最大逆向匹配方法对所述目标分词语句进行分词；或

第二分词单元，用于根据预先存储的分词词典，按照图搜索方法对所述目标分词语句进行分词。

8.根据权利要求6或7所述的用于搜索引擎的分词处理装置，其特征在于，所述预先建立的分词统计模型包括用于标识分词歧义字段的每种分词方式的特征向量，以及统计获得的所述每种分词方式的特征向量对应的概率值。

9.根据权利要求8所述的用于搜索引擎的分词处理装置，其特征在于，在所述分词统计模型中，所述分词歧义字段中的每个字被定义为单字词类型、词首类型、词尾类型、第二位置词类型、第三位置词类型或其他位置词类型中的一种，所述每种分词方式的特征向量包括分词歧义字段中的所有字的类型，以及所有字的排列顺序。

10.根据权利要求9所述的用于搜索引擎的分词处理装置，其特征在于，所述第二分词模块具体用于建立该分词歧义字段的两种以上的分词方式各自对应的特征向量，获取分词统计模型两种以上的分词方式各自对应的特征向量的概率，选择概率最大的分词方式进行分词。