CN107193921A

CN107193921A - 面向搜索引擎的中英混合查询纠错的方法及系统

Info

Publication number: CN107193921A
Application number: CN201710340283.8A
Authority: CN
Inventors: 刘玉葆; 占明明; 葛又铭; 戴戈南
Original assignee: Sun Yat Sen University
Current assignee: Sun Yat Sen University
Priority date: 2017-05-15
Filing date: 2017-05-15
Publication date: 2017-09-22
Anticipated expiration: 2037-05-15
Also published as: CN107193921B

Abstract

本发明涉及一种面向搜索引擎的中英混合查询纠错的方法及系统，该方法或系统基于N‑gram语言模型以及多种纠错策略，实现对搜索引擎中带有部分错误的中英文混合查询的纠错。

Description

面向搜索引擎的中英混合查询纠错的方法及系统

技术领域

本发明涉及搜索引擎技术领域，更具体地，涉及一种面向搜索引擎的中英混合查询纠错的方法及系统。

背景技术

对于查询词纠错的需求一开始是源自于搜索引擎的日志分析，搜索日志里发现有大量包含有部分错误的查询词。对带有部分错误的查询词进行查询时，会大大降低搜索引擎的查全率与查准率。因此对查询词进行纠错的技术被引入至搜索引擎系统中，来解决由于用户输入了带有部分错误的查询词而导致无效查询的问题。

查询纠错是针对信息检索系统中查询语句的拼写纠错。查询语句直接影响信息检索系统返回结果的可靠性与准确性，所以现有的很多信息检索系统都会对查询语句进行纠错处理，确保返回的检索信息能够满足用户需要，提高用户检索效率和检索结果命中率。

中文信息检索系统中的查询词类型一般有:中文、拼音、英文等形式。中文查询中会出现同音字错误、近音字错误、形近字错误、拼音转汉字错误、拼音中字母缺失、前后字置换、汉字缺失等现象；英文查询按照错误类型不同，分为非词错误和真词错误。非词错误是指拼写错误的词不存在，例如，将“the”错误拼写为“tha”；真词错误是指那些拼写错误后的词仍然是合法的情况，例如，将“the”错误拼写为“then"。

英文纠错技术仅考虑了英文搜索引擎中查询包含的错误，即英文单词的拼写错误、使用不当和空格的缺失等，中文搜索引擎中包含的错误类型更多，语言的形式更复杂。

现有的中文查询纠错方法多采用将查询词内的中文转换为拼音，然后查找词典中拼音与该查询词拼音字符串相似或相同的候选词条，最后通过词频或语言模型的方式决定候选词条是否为纠错结果。

对于中文信息检索系统中，大部分只支持对纯中文查询词或者纯英文查询词纠错，但对于用户输入的中英混合进行查询时，目前还支持的不够完善。

发明内容

本发明为解决以上现有技术只支持纯中文查询词或者纯英文查询词纠错的技术缺陷，提供了一种面向搜索引擎的中英混合查询纠错的方法。

为实现以上发明目的，采用的技术方案是：

一种面向搜索引擎的中英混合查询纠错的方法，包括以下步骤：

S1.运用爬虫技术爬取互联网网页内容；

S2.将步骤S1爬取的网页内容和搜索日志作为语料构建出语言模型，以及构建基于拼音的字典树、英文索引表和分词词典；

S3.对于用户输入的查询串，首先运用语言模型对其进行评估，计算其合理性概率，若其合理性概率低于设定的阈值A，或者基于查询串得到的搜索结果的数量少于阈值B，则转入步骤S4的纠错处理；

S4.（1）若查询串中只包含有中文，则执行以下纠错过程：

S101.若输入的查询串为单字，则不执行纠错过程或执行步骤S104，否则执行步骤S102；

S102.将查询串转换成拼音，然后利用编辑距离算法、最大模糊匹配算法在字典树中查找匹配的的候选集合，将查找匹配的候选集合作为纠错建议；若在字典树中查到不到匹配的候选集合，则执行步骤S103；

S103.将查询串进行N元切分，将切分得到的所有子串分别利用编辑距离算法、最大模糊匹配算法在字典树中查找匹配的候选集合；若某一子串查找到匹配的候选集合，则将该子串前面部分的字符串和后面部分的字符串分别作为两个查询串执行步骤S101，进入递归搜索；

S104.递归搜索结束后，得到多个候选集合，此时采用语言模型对各个候选集合进行合理性评分，将评分最高的候选集合作为纠错建议；

（2）若输入的查询串包含有中文和字母，则执行以下纠错过程：

S201.首先将字符串按照S101~S103的步骤进行匹配的候选集合的查找，若查找得到匹配的候选集合，则给出相应的纠错建议；否则将查询串分割成中文和字母串，将中文按照（1）进行纠错处理，而至于字母串，则执行以下处理：

S202.将字母串以空格为分隔符进行分割，得到字符串集合，将字符串集合中的每个字符串按照步骤S101~S103的步骤进行候选集合的匹配查找，若某一字符串查找得到匹配的候选集合，则给出相应的纠错建议，否则该字符串进入步骤S203的英文纠错流程；

S203.判断字符串是否为一个正确的英文单词，若是则进行下一字符串是否属于正确的英文单词的判断，否则根据预先建立的英文索引表查找出候选集合，然后利用最小编辑距离算法计算候选集合与字符串的相似度，将相似度最高的单词作为纠错建议；

（3）若输入的查询串值只包含有字母，则执行以下纠错过程：

S301.将查询串以空格为分隔符进行分割，得到字符串集合，将字符串集合中的每个字符串按照步骤S101~S103的步骤进行候选集合的匹配查找，若某一字符串查找得到匹配的候选集合，则给出相应的纠错建议；若某一字符串查找不到匹配的候选集合，则按照步骤S203的内容进行英文纠错的处理；

S302.当字符串集合中所有的字符串采纳纠错建议进行纠错处理后，将经过纠错处理的字符串按照顺序拼接起来，将拼接的结果作为查询串的纠错建议。

优选地，所述步骤S3中，若查询串的长度大于设定的阈值C，则不进行步骤S4的纠错处理。

优选地，所述语言模型为n-gram语言模型。

优选地，所述n-gram语言模型Add-one平滑方法来解决零概率的问题。

同时，本发明还提供了一种应用以上方法的系统，其具体的方案如下：

包括学习模块、纠错模块和训练模块；

其中学习模块用于对语料进行新词的挖掘，并将挖掘出的新词添加至分词词典中，所述分词词典用于步骤S3对查询串的切分；

训练模块用于基于语料构建出语言模型，以及构建基于拼音的字典树、英文索引表和分词词典；

纠错模块用于进行纠错处理。

优选地，所述纠错模块包括中文纠错子模块、中文与字母纠错子模块、英文和拼音纠错子模块，其中中文纠错子模块用于执行步骤S4中的（1），中文与字母纠错子模块用于执行步骤S4中的（2），英文和拼音纠错子模块用于执行步骤S4中的（3）。

优选地，所述学习模块进行新词的挖掘的具体过程如下：

S401.基于分词词典对语料进行分词处理，得到分词碎片；

S402.对分词碎片进行拼接，得到一个由拼接词组成的拼接词库；

S403.计算拼接分词词典中各个拼接词的词频；

S404.若某一拼接词的词频大于所设定的阈值D，则计算其凝固度和自由度；

S405.若某一拼接词的凝固度和自由度大于设定的阈值E和F，则将该拼接词确认为新词，并添加至分词词典中，然后执行步骤S401。

与现有技术相比，本发明的有益效果是：

1.基于N-gram语言模型以及多种纠错策略，实现对搜索引擎中带有部分错误的中英文混合查询的纠错。

2.对于查询纠错的过程中，需要对查询串进行分词处理，基于统计与基于规则的分词方法都需要利用分词词典进行分词，因此分词词典中词语覆盖率对分词的准确性有重要影响。本发明可以自动对语料进行挖掘与分析，发现网络新词并加入分词词典，提高纠错准确率。

附图说明

图1为系统的结构示意图。

图2为查询串中只包含有中文时的纠错过程图。

图3为查询串为纯英文时的纠错过程图。

图4为查询串中只包含有字母时的纠错过程图。

图5为查询串中包含有中文和字符串时的纠错过程图。

图6为学习模块挖掘新词的示意图。

具体实施方式

附图仅用于示例性说明，不能理解为对本专利的限制；

以下结合附图和实施例对本发明做进一步的阐述。

实施例1

如图1所示，如图2~5所示，一种面向搜索引擎的中英混合查询纠错的方法，包括以下步骤：

S1.运用爬虫技术爬取互联网网页内容；

S4.（1）若查询串中只包含有中文，如图2所示，则执行以下纠错过程：

（2）若输入的查询串包含有中文和字母，如图3、4、5所示，则执行以下纠错过程：

（3）若输入的查询串值只包含有字母，如图3、4所示，则执行以下纠错过程：

在具体的实施过程中，所述步骤S3中，若查询串的长度大于设定的阈值C，则不进行步骤S4的纠错处理。

在具体的实施过程中，所述语言模型为n-gram语言模型。

在具体的实施过程中，所述n-gram语言模型Add-one平滑方法来解决零概率的问题。

实施例2

本实施例提供了一种应用实施例1方法的系统，如图1所示，其具体的方案如下：

包括学习模块、纠错模块和训练模块；

纠错模块用于进行纠错处理。

在具体的实施过程中，所述纠错模块包括中文纠错子模块、中文与字母纠错子模块、英文和拼音纠错子模块，其中中文纠错子模块用于执行步骤S4中的（1），中文与字母纠错子模块用于执行步骤S4中的（2），英文和拼音纠错子模块用于执行步骤S4中的（3）。

在具体的实施过程中，如图6所示，所述学习模块进行新词的挖掘的具体过程如下：

S401.基于分词词典对语料进行分词处理，得到分词碎片；

S403.计算拼接分词词典中各个拼接词的词频；

显然，本发明的上述实施例仅仅是为清楚地说明本发明所作的举例，而并非是对本发明的实施方式的限定。对于所属领域的普通技术人员来说，在上述说明的基础上还可以做出其它不同形式的变化或变动。这里无需也无法对所有的实施方式予以穷举。凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明权利要求的保护范围之内。

Claims

1.一种面向搜索引擎的中英混合查询纠错的方法，其特征在于：包括以下步骤：

S1.运用爬虫技术爬取互联网网页内容；

S4.（1）若查询串中只包含有中文，则执行以下纠错过程：

2.根据权利要求1所述的面向搜索引擎的中英混合查询纠错的方法，其特征在于：所述步骤S3中，若查询串的长度大于设定的阈值C，则不进行步骤S4的纠错处理。

3.根据权利要求1所述的面向搜索引擎的中英混合查询纠错的方法，其特征在于：所述语言模型为n-gram语言模型。

4.根据权利要求3所述的面向搜索引擎的中英混合查询纠错的方法，其特征在于：所述n-gram语言模型Add-one平滑方法来解决零概率的问题。

5.一种根据权利要求1~4任一项方法所述的系统，其特征在于：包括学习模块、纠错模块和训练模块；

纠错模块用于进行纠错处理。

6.根据权利要求5所述的系统，其特征在于：所述纠错模块包括中文纠错子模块、中文与字母纠错子模块、英文和拼音纠错子模块，其中中文纠错子模块用于执行步骤S4中的（1），中文与字母纠错子模块用于执行步骤S4中的（2），英文和拼音纠错子模块用于执行步骤S4中的（3）。

7.根据权利要求5所述的系统，其特征在于：所述学习模块进行新词的挖掘的具体过程如下：

S401.基于分词词典对语料进行分词处理，得到分词碎片；

S403.计算拼接分词词典中各个拼接词的词频；