CN105550171B

CN105550171B - 一种垂直搜索引擎的查询信息纠错方法和系统

Info

Publication number: CN105550171B
Application number: CN201511032704.8A
Authority: CN
Inventors: 刘兵; 苗艳军
Original assignee: Beijing QIYI Century Science and Technology Co Ltd
Current assignee: Beijing QIYI Century Science and Technology Co Ltd
Priority date: 2015-12-31
Filing date: 2015-12-31
Publication date: 2018-10-16
Anticipated expiration: 2035-12-31
Also published as: CN105550171A

Abstract

本发明提供了一种垂直搜索引擎的查询信息纠错方法与系统，所述方法包括：将用户输入的查询信息进行分词；初始化游标后按照设定规则以分词为单位移动所述游标，得到子查询信息；从纠错词典中获取子查询信息对应的纠错信息；采用纠错信息替换所述查询信息中的所述子查询信息得到纠错后的查询信息；判断通过移动游标遍历查询信息的操作是否结束；若否，则返回执行通过按照设定规则移动所述游标得到子查询信息的步骤；若是，则将纠错的查询信息作为用户输入的查询信息的纠错结果。本发明提供的垂直搜索引擎的查询信息纠错方法，可适用于任何错误类型的纠错，并且由于是基于纠错词典进行纠错，因此，纠错准确性高。

Description

一种垂直搜索引擎的查询信息纠错方法和系统

技术领域

本发明涉及搜索引擎技术领域，特别是涉及一种垂直搜索引擎的查询信息纠错方法和系统。

背景技术

随着现代社会互联网的迅速发展，搜索引擎已经成为人们从拥有海量数据的互联网获取信息的主要方式之一，而用户与搜索引擎交互的方式来自用户输入的查询，查询内容的正确性是提高搜索结果准确性至关重要的因素。所以，搜索引擎的查询纠错对于提高查询结果准确度和改善用户体验有着十分重要的意义。

对于垂直搜索引擎(例如视频搜索引擎)，常见的中文查询错误类型主要有：1、同音别字错误(如：“盗墓笔记”写成“盗墓笔纪”)；2、模糊拼音错误(如：“北京爱情故事”写成“北金爱情故事”)；3、多字少字错误(如：“快乐大本营”写成“快大本营”)；4、形近字错误(如：“西游记”写成“酉游记”)；5、语义错误(如：“明日边缘”写成“昨日边缘”)。

针对以上错误类型，常见的垂直搜索引擎查询信息纠错方法主要有以下几种：

第一种，基于最小编辑距离的纠错方法，该纠错方法是根据用户输入的查询信息，在词典中找到最相似(即编辑距离最小)的正确查询信息进行纠错。该方法一方面在查找最小编辑距离的候选查询信息时需要大量的计算；另一方面，编辑距离最小的候选查询信息存在多个时，无法很好的解决“歧义”的问题。可见，第一种纠错方法不仅计算量大、且纠错准确性低。

第二种，基于N-Gram和HMM(隐马尔可夫模型，Hidden Markov Model)等模型的查询纠错方法。基于模型的纠错方法需要对大量的数据进行训练才能得到模型，这种方法纠错的准确性很大程度上依赖于训练数据的准确性和规模。可见，若无法保证模型的规模以及训练数据的准确性，则这种基于模型的查询纠错方法的准确性也较低。

第三种，基于纠错词典，该方法在纠错词典中收集所有的错误查询信息和相应的正确查询信息，当用户输入查询信息时，检索查询信息(或者查询的子串)是否在该纠错词典中，如果在纠错词典中则用对应的正确查询信息替换。根据纠错词典条目创建的方式又可以分为：拼音纠错词典，用以解决错误类型1和2的错误；多字少字纠错词典，用以解决错误类型3的错误；其他纠错词典。

基于纠错词典的方法的特点是算法简单、效率高、准确率高；缺点是召回率低(很难保证纠错词典完整，只有出现在纠错词典中的查询信息才能纠错)、纠错词典难构建。拼音纠错词典和多字少字纠错词典相对来说好构建，基于分词词典即可构建出来，能较好的解决错误类型1、2和3。但是，对于错误类型4和5，无法进行有效准确的纠错，纠错准确性低。

可见，现有的垂直搜索引擎的查询信息纠错方案，无法适用于全部错误类型，即便是勉强能够进行纠错但纠错准确性低。

发明内容

鉴于上述问题，提出了本发明以便提供一种克服上述问题或者至少部分地解决上述问题的垂直搜索引擎的查询信息纠错方法和系统。

为了解决上述问题，本发明公开了一种垂直搜索引擎的查询信息纠错方法，包括：将用户输入的查询信息进行分词；初始化游标后按照设定规则以分词为单位移动所述游标，得到子查询信息；其中，所述查询信息包含多个子查询信息，每个子查询信息包含至少一个分词；从纠错词典中获取所述子查询信息对应的纠错信息；其中，所述纠错词典依据初始别字表以及通过分析查询日志得到的扩充别字表创建生成；采用所述纠错信息替换所述查询信息中的所述子查询信息得到纠错后的查询信息；判断通过移动所述游标遍历所述查询信息的操作是否结束；若否，则返回执行所述通过按照设定规则移动所述游标得到子查询信息的步骤；若是，则将所述纠错的查询信息作为用户输入的查询信息的纠错结果。

优选地，所述方法还包括：接收输入的初始别字表；通过对设定时间段内的查询日志进行分析，确定扩充别字表；将所述初始别字表与所述扩充别字表整合为纠错别字表；通过所述纠错别字表以及所述设定时间段内的查询日志中包含的各查询信息生成所述纠错词典。

优选地，所述通过对设定时间段内的查询日志进行分析，确定扩充别字表的步骤包括：从所述设定时间段内的查询日志中确定各查询对应的五元组，其中，五元组包括以下：正确查询信息、正确查询信息输入的频次、错误查询信息、错误查询信息输入的频次以及查询信息的长度；针对每个查询，依据所述查询对应的五元组包含的参数对所述查询进行筛选；分别将筛选后剩余的查询中包含的正确查询信息以及错误查询信息进行比对，以确定别字对；将各别字对组合生成所述扩充别字表。

优选地，所述方法还包括：通过对设定时间段内的查询日志进行分析，确定扩充别字对；将所述扩充别字对与所述纠错别字表进行整合，得到更新后的纠错别字表；通过所述更新后的纠错别字表、以及所述设定时间段内的中包含的各查询信息生成纠错信息对；将所述纠错信息对添加到所述纠错词典中，以实现对所述纠错词典的扩充。

优选地，在所述将用户输入的查询信息进行分词的步骤之前，所述方法还包括：判断用户输入的所述查询信息是否在纠错黑名单中；若在所述纠错黑名单中，则不对用户输入的所述查询信息进行纠错；若不在所述纠错黑名单中，则执行所述将用户输入的查询信息进行分词的操作。

优选地，所述纠错黑名单通过手动输入生成；或者，所述纠错黑名单通过以下步骤生成：获取设定时间段内的全部查询对应的历史点击信息，其中，每个查询对应的点击信息包括：用户输入的查询信息、纠错后查询信息、纠错后用户点击输入的查询信息的点击率、用户点击纠错后的查询信息的点击率；针对每个查询，当所述纠错后用户点击输入的查询信息的点击率大于第一设定阈值、且所述用户点击纠错后的查询信息的点击率小于第二设定阈值时，则将所述查询对应的用户输入的查询信息添加到黑名单中。

优选地，在所述初始化游标后按照设定规则以分词为单位移动所述游标得到子查询信息的步骤之后，所述方法还包括：判断所述子查询信息是否在分词保护表中，其中，所述分词保护表中包括无需进行纠错的子查询信息；若是，则执行所述判断通过移动所述游标遍历所述查询信息的操作是否结束的步骤；若否，则执行所述从纠错词典中获取所述子查询信息对应的纠错信息的步骤。

为了解决上述问题，本发明还公开了一种垂直搜索引擎的查询信息纠错系统，包括：分词模块，用于将用户输入的查询信息进行分词；游标模块，用于初始化游标后按照设定规则以分词为单位移动所述游标，得到子查询信息；其中，所述查询信息包含多个子查询信息，每个子查询信息包含至少一个分词；纠错信息获取模块，用于从纠错词典中获取所述子查询信息对应的纠错信息；其中，所述纠错词典依据初始别字表以及通过分析查询日志得到的扩充别字表创建生成；替换模块，用于采用所述纠错信息替换所述查询信息中的所述子查询信息得到纠错后的查询信息；第一判断模块，用于判断通过移动所述游标遍历所述查询信息的操作是否结束；执行模块，用于若所述第一判断模块的判断结果为否时，则调用所述游标模块；用于若所述第一判断模块的判断结果为是时，则将所述纠错的查询信息作为用户输入的查询信息的纠错结果。

优选地，所述垂直搜索引擎的查询信息纠错系统还包括：接收模块，用于接收输入的初始别字表；第一扩充模块，用于通过对设定时间段内的查询日志进行分析，确定扩充别字表；第一整合模块，用于将所述初始别字表与所述扩充别字表整合为纠错别字表；纠错词典生成模块，用于通过所述纠错别字表以及所述设定时间段内的查询日志中包含的各查询信息生成所述纠错词典。

优选地，所述第一扩充模块具体用于：从所述设定时间段内的查询日志中确定各查询对应的五元组，其中，五元组包括以下：正确查询信息、正确查询信息输入的频次、错误查询信息、错误查询信息输入的频次以及查询信息的长度；针对每个查询，依据所述查询对应的五元组包含的参数对所述查询进行筛选；分别将筛选后剩余的查询中包含的正确查询信息以及错误查询信息进行比对，以确定别字对；将各别字对组合生成所述扩充别字表。

优选地，所述垂直搜索引擎的查询信息纠错系统还包括：第二扩充模块，用于通过对设定时间段内的查询日志进行分析，确定扩充别字对；第二整合模块，用于将所述扩充别字对与所述纠错别字表进行整合，得到更新后的纠错别字表；纠错信息对生成模块，用于通过所述更新后的纠错别字表、以及所述设定时间段内的中包含的各查询信息生成纠错信息对；纠错词典扩充模块，用于将所述纠错信息对添加到所述纠错词典中，以实现对所述纠错词典的扩充。

优选地，所述垂直搜索引擎的查询信息纠错系统还包括：第二判断模块，用于在所述分词模块将用户输入的查询信息进行分词之前，判断用户输入的所述查询信息是否在纠错黑名单中；第二执行模块，用于若在所述纠错黑名单中，则不对用户输入的所述查询信息进行纠错；若不在所述纠错黑名单中，则调用所述分词模块。

优选地，所述垂直搜索引擎的查询信息纠错系统还包括：纠错黑名单接收模块，用于手动输入的所述纠错黑名单；或者，纠错黑名单生成模块，用于获取设定时间段内的全部查询对应的历史点击信息，其中，每个查询对应的点击信息包括：用户输入的查询信息、纠错后查询信息、纠错后用户点击输入的查询信息的点击率、用户点击纠错后的查询信息的点击率；针对每个查询，当所述纠错后用户点击输入的查询信息的点击率大于第一设定阈值、且所述用户点击纠错后的查询信息的点击率小于第二设定阈值时，则将所述查询对应的用户输入的查询信息添加到黑名单中。

优选地，所述垂直搜索引擎的查询信息纠错系统还包括：第三判断模块，用于在所述游标模块按照设定规则以分词为单位移动所述游标得到子查询信息之后，判断所述子查询信息是否在分词保护表中，其中，所述分词保护表中包括无需进行纠错的子查询信息；第三执行模块，用于若所述第三判判断模块的判断结果为是，则调用所述第一判断模块；若所述第三判判断模块的判断结果为否，则执行所述纠错信息获取模块。

与现有技术相比，本发明包括以下优点：

本发明实施例提供的垂直搜索引擎的查询信息纠错方案，采用基于纠错词典的查询信息纠错原则，由于是基于纠错词典的查询信息纠错方案，因此纠错操作简单、效率高。不仅如此，本发明实施例所采用的纠错词典依据初始别字表以及通过分析查询日志得到的扩充别字表创建生成，相较于现有的仅依据初始别字表纠错词典所能够纠错的错误类型更广，不仅能够对同音别字错误、模糊拼音错误、多字少字错误类型的查询信息进行纠错；还可以对形近字错误以及语义错误的查询信息进行纠错。可见，本发明实施例提供的查询信息纠错方案，可适用于任何错误类型的纠错，并且由于是基于纠错词典进行纠错，因此，纠错准确性高。

附图说明

通过阅读下文优选实施方式的详细描述，各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的，而并不认为是对本发明的限制。而且在整个附图中，用相同的参考符号表示相同的部件。在附图中：

图1是本发明实施例一的一种垂直搜索引擎的查询信息纠错方法的步骤流程图；

图2是本发明实施例二的一种垂直搜索引擎的查询信息纠错方法的步骤流程图；

图3是本发明实施例三的一种垂直搜索引擎的查询信息纠错方法的步骤流程图；

图4是本发明实施例四的一种垂直搜索引擎的查询信息纠错系统的结构框图；

图5是本发明实施例五的一种垂直搜索引擎的查询信息纠错系统的结构框图。

具体实施方式

下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了本公开的示例性实施例，然而应当理解，可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反，提供这些实施例是为了能够更透彻地理解本公开，并且能够将本公开的范围完整的传达给本领域的技术人员。

实施例一

参照图1，示出了本发明实施例一的一种垂直搜索引擎的查询信息纠错方法的步骤流程图。

本发明实施例的垂直搜索引擎的查询信息纠错方法可以包括以下步骤：

步骤S102：将用户输入的查询信息进行分词。

例如：用户输入的查询信息为“快东大本营最新一期”，此后的查询信息为“快/东/大本营/最新/一期”。

步骤S104：初始化游标后按照设定规则以分词为单位移动游标，得到子查询信息。

其中，查询信息包含多个子查询信息，每个子查询信息包含至少一个分词。

游标个数可以为两个，两个移动游标分别位于查询信息的左右两端，在移动游标时，可以设置左端的游标不动，将右端的游标以分词为单位依次从左向右移动，每移动一个分词两游标之间的分词即存在一段查询信息，判断游标间的查询信息是否在纠错词典中，若在则将其确定为子查询信息，并对该子查询信息进行纠正，若不在，则继续移动右端游标使两游标间的查询信息得到调整，然后进一步判断游标间的查询信息是否在纠错词典中。

步骤S106：从纠错词典中获取子查询信息对应的纠错信息。

其中，纠错词典依据初始别字表以及通过分析查询日志得到的扩充别字表创建生成。

子查询信息为“快东大本营”，在纠错词典中存储有纠错信息对：(快乐大本营，快东大本营)，因此，通过纠错词典中存储的纠错信息对即可确定子查询信息为“快东大本营”对应的纠错信息为“快乐大本营”。

步骤S108：采用纠错信息替换查询信息中的子查询信息得到纠错后的查询信息。

例如：用户输入的查询信息“快/东/大本营/最新/一期”，子查询信息为“快东大本营”，子查询信息替换后为“快乐大本营/最新/一期”。

步骤S110：判断通过移动游标遍历查询信息的操作是否结束；若是则执行步骤S112，若否则执行步骤S104。

执行本步骤的判断主要目的是判断用户输入的查询信息中的各自查询信息是否均已纠错完成。若没有，则继续移动游标确定子查询信息对其进行替换。

步骤S112：将纠错的查询信息作为用户输入的查询信息的纠错结果。

通过本发明实施例提供的垂直搜索引擎的查询信息纠错方法，采用基于纠错词典的查询信息纠错原则，由于是基于纠错词典的查询信息纠错方案，因此纠错操作简单、效率高。不仅如此，本发明实施例所采用的纠错词典依据初始别字表以及通过分析查询日志得到的扩充别字表创建生成，相较于现有的仅依据初始别字表纠错词典所能够纠错的错误类型更广，不仅能够对同音别字错误、模糊拼音错误、多字少字错误类型的查询信息进行纠错；还可以对形近字错误以及语义错误的查询信息进行纠错。可见，本发明实施例提供的查询信息纠错方法，可适用于任何错误类型的纠错，并且由于是基于纠错词典进行纠错，因此，纠错准确性高。

实施例二

参照图2，示出了本发明实施例二的一种垂直搜索引擎的查询信息纠错方法的步骤流程图。

步骤S202：搜索引擎生成纠错词典。

一种优选的生成纠错词典的方式如下：

S1：接收输入的初始别字表。

初始别字表由人工根据汉字结构和形状以及书写习惯整理出的常见别字对组成的别字表，别字表主要包含形近别字，如：(爱，爰)、(子，孑)、(洒，酒)、(母，毋)、(余，佘)、(母，毌)、(日，曰)、(玫，玖)、(乐，东)等。搜索引擎接收用户输入的初始别字表。

S2：通过对设定时间段内的查询日志进行分析，确定扩充别字表。

其中，设定时间段可以由本领域技术人员根据实际需求进行设置。例如：可以设置成对近半年内的查询日志进行分析，也可以设置成对近一个月内的查询日志进行分析，还可以设置成对一周内的查询日志进行分析。

一种优选的通过对设定时间段内的查询日志进行分析，确定扩充别字表的方式如下：

从所述设定时间段内的查询日志中确定各查询对应的五元组，其中，五元组包括以下：正确查询信息、正确查询信息输入的频次、错误查询信息、错误查询信息输入的频次以及查询信息的长度；针对每个查询，依据所述查询对应的五元组包含的参数对所述查询进行筛选；分别将筛选后剩余的查询中包含的正确查询信息以及错误查询信息进行比对，以确定别字对；将各别字对组合生成所述扩充别字表。

需要说明的是，在依据查询对应的五元组包含的参数对所述查询进行筛选时，可以依据查询信息长度是否大于设定长度值、正确查询信息输入的频次是否大于设定频次、错误查询信息是否能成词以及正确查询信息输入的频次与错误查询信息输入的频次的比值是否小于设定比值，上述五项判断原则中的至少之一对查询进行筛选。

S3：将初始别字表与扩充别字表整合为纠错别字表。

S4：通过纠错别字表以及设定时间段内的查询日志中包含的各查询信息生成纠错词典。

例如：一分词为“快乐大本营”，“乐”字在纠错别字表中有候选别字“东”、“了”、“禾”，对“乐”字替换加入到纠错词典中该分词对应的纠错对有：(快乐大本营，快东大本营)、(快乐大本营，快了大本营)和(快乐大本营，快禾大本营)。

采用相同的方式，参照查询日志中的各查询信息生产纠错词典。

优选地，在生成纠错词典后，搜索引擎还可以按照设定时间间隔或者实时更新纠错词典，更新纠错词典的一种优选方式如下：

步骤a：通过对设定时间段内的查询日志进行分析，确定扩充别字对。

优选地，将设定时间段设置成纠错词典生成后的某一时间段。该时间段内会生成新的查询日志，该查询日志并未被分析过，所以，对该段时间内的查询日志进行分析会的扩充别字对能更有针对性。

步骤b：将所述扩充别字对与所述纠错别字表进行整合，得到更新后的纠错别字表。

步骤c：通过所述更新后的纠错别字表、以及所述设定时间段内的中包含的各查询信息生成纠错信息对。

步骤d：将所述纠错信息对添加到所述纠错词典中，以实现对纠错词典的扩充。

步骤S204：搜索引擎判断用户输入的查询信息是否在纠错黑名单中；若是，则执行设定操作，若否，则执行步骤S206。

在实际应用过程中，有时候对查询信息纠错后的信息反倒并不是用户想要查询的信息，也即进行了多余的纠错。因此，本发实施例中设置一个纠错黑名单，这样，如果是在纠错黑名单中的活，则不对查询信息进行纠错。

设定操作可以设定为不对用户输入的查询信息进行纠错。

其中，纠错黑名单通过手动输入生成；或者，纠错黑名单通过以下方式生成：

S1：获取设定时间段内的全部查询对应的历史点击信息，其中，每个查询对应的点击信息包括：用户输入的查询信息、纠错后查询信息、纠错后用户点击输入的查询信息的点击率、用户点击纠错后的查询信息的点击率；

S2：针对每个查询，当纠错后用户点击输入的查询信息的点击率大于第一设定阈值、且所述用户点击纠错后的查询信息的点击率小于第二设定阈值时，则将所述查询对应的用户输入的查询信息添加到黑名单中。

其中，第一设定阈值、第二设定阈值的设置可以由本领域技术人员根据实际需求进行设置，本发明实施例中对此不作具体限制。步骤S206：若不在纠错黑名单中，搜索引擎则将用户输入的查询信息进行分词的操作。

步骤S208：搜索引擎初始化游标后按照设定规则以分词为单位移动游标，得到子查询信息。

仍以“快/东/大本营/最新/一期”为例，在该查询信息中，子查询信息包括“快东大本营”、“最新”、“一期”，而子查询信息“快东大本营”包括“快”“东”“大本营”三个分词。

游标个数可以为两个，两个移动游标分别位于查询信息的左右两端，在移动游标时，可以设置左端的游标不动，将右端的游标以分成为单位依次从左向右移动，每移动一个分词两游标之间的分词即存在一段查询信息，判断游标间的查询信息是否为一个符合要求的子查询信息，若是，则对该子查询信息进行纠正，若不符合要求，则继续移动右端游标使两游标间的查询信息得到调整，然后进一步判断游标间的查询信息是否为一个符合要求的子查询信息。

步骤S210：搜索引擎判断子查询信息是否在分词保护表中；若否，则执行步骤S212，若是，则执行步骤S216。

其中，分词保护表中包括无需进行纠错的子查询信息。

也就是说，若子查询信息在分析保护表中，则无需对该分子查询信息进行替换，而直接通过移动游标再确定其他的子查询信息。当然，若不在分词保护表中，则需要通过纠错词典对子查询信息进行替换纠错。

在实际应用过程中，并不是所有的查询都能按纠错词典进行纠错替换的，有些特殊的正确查询信息可能会被替换为错误的，例如：纠错词典中有(大卡车，天卡车)，用户查询“天天卡车”会被纠成“天大卡车”。因此，本发明实施例中设置了分词保护表，通过在分词保护表中添加“天卡车”以避免发生上述误纠错的问题。

步骤S212：搜索引擎从纠错词典中获取子查询信息对应的纠错信息。

在纠错词典中有错误的子查询信息与正确的子查询信息对，因此，通过错误的子查询信息即可确定出正确的纠错信息，并获取该正确的纠错信息。

步骤S214：搜索引擎采用所述纠错信息替换所述查询信息中的所述子查询信息得到纠错后的查询信息。

步骤S216：搜索引擎判断通过移动所述游标遍历所述查询信息的操作是否结束；若是，则执行步骤S218，若否，则返回执行步骤S208。

步骤S218：搜索引擎将所述纠错的查询信息作为用户输入的查询信息的纠错结果。

例如：用户输入的查询信息为“快东大本营最新一期”，经过纠错处理后用户输入的查询信息被纠错为“快乐大本营最新一期”，那么，此时搜索引擎搜索“快乐大本营最新一期”相关链接即可。

通过本发明实施例提供的垂直搜索引擎的查询信息纠错方法，除具有实施例一中所述的垂直搜索引擎的查询信息纠错方法所具有的有益效果外，还设置有纠错黑名单，当用户输入查询信息后，首先判断是否在纠错黑名单中，若在，则不对用户输入的查询信息进行纠错，从而避免盲目纠错而影响用户的使用体验。不仅如此，本发明实施例中，在对子查询信息依据纠错词典进行纠错前，还会判断子查询信息是否在分词保护表中，若在，则无需对当前子查询信息进行纠错，避免直接盲目依据纠错词典对子查询信息进行纠错造成的误纠错问题，因此，提升纠错准确性的同时还能够提升用户的使用体验。

实施例三

参照图3，示出了本发明实施例三的一种垂直搜索引擎的查询信息纠错方法的步骤流程图。

本发明实施例的垂直搜索引擎的查询信息纠错方法主要包括两部分，第一部分为纠错词典、分词保护表、纠错黑名单的创建及更新维护，第二部分为搜索引擎通过纠错词典、分词保护表以及纠错黑名单进行纠错时的具体流程。下面，参照图3分别对这两部分内容进行说明。

纠错词典的创建与更新维护包括以下步骤：

步骤1：创建初始别字表。

根据汉字结构和形状以及书写习惯人工整理常见别字对，加入到初始别字表中。此时的初始别字表主要包含形近别字，如：(爱，爰)、(子，孑)、(洒，酒)、(母，毋)、(余，佘)、(母，毌)、(日，曰)、(玫，玖)、(乐，东)等。

步骤2：基于查询日志分析挖掘高频的别字对扩充别字表。

首先，从查询日志中获取正确查询Q_c和正确查询频次F_c，以及相应的错误查询Q_w和频次F_w，得到四元组(Q_c,F_c,Q_w,F_w)。获取的方法为：基于查询日志中所有查询进行编辑距离查询，获取编辑距离为1的查询对，然后结合用户点击反馈数据确定。还要考虑查询的长度因素，假设这里只考虑别字的查询，不考虑多字少字的查询，因此Q_c,Q_w的长度是一样的，记为L，得到五元组(Q_c,F_c,Q_w,F_w,L)，所有的五元组构成候选五元组列表QList。

对QList进行过滤，过滤策略主要包括：

策略一：过滤掉查询长度太短的五元组，即L小于预设阈值L_Th(优选地，将预设阈值设置为3)。因为查询越长，Q_w被认定为错误查询的确信度越高，例如：“春光灿烂猪八戎”被认定为是“春光灿烂猪八戒”的错误形式的确信度较高；反之，Q_w被认定为错误查询的确信度越低，例如：“林振英”被认定为是“朴振英”的错误形式的确信度较低。因此，可以通过过滤掉查询长度不满足设定阈值的查询对应的五元组来提高查询的确信度。

策略二：过滤掉查询频次太低的五元组，即F_c小于预设阈值F_Th(根据样本规模设定)。因为查询频次太低，Q_w被认定为错误查询的确信度越低。

策略三：过滤掉Q_w能成词的五元组，因为Q_w能成词，说明Q_w很有可能是一个正确的term即分词，所以被认定为错误查询的确信度很低。例如：Q_c为“变形记”，Q_w为“变型记”，而Q_w经分词模块判断能独立成词，说明Q_w本身是一种正确形式，所以无法认定为是Q_c的错误形式。

策略四：过滤掉频次F_c和频次F_w比值较小于设定阈值R_Th的五元组，即F_c/F_w小于预设阈值R_Th。因为，查询日志中正确的查询比相应的错误查询的频次要高很多倍。例如：“快乐大本营”查询频次429364，而“快了大本营”查询频次133，F_c/F_w为3228.3；“愤怒的小鸟动画片”查询次数9361，“愤怒的小鸟动画版”查询次数153，F_c/F_w为61.1。

对QList中经过筛选保留下的每个五元组中的Q_c和Q_w提取别字对，前面已经假定Q_c和Q_w的长度是一样的，提取出二元组(Q_c,Q_w)两个查询对应位置不相同的字对(w₁,w₂)加入到别字表中，例如：“春光灿烂猪八戒”被认定为是“春光灿烂猪八戎”提取出(戒，戎)；“快乐大本营”和“快了大本营”提取出(乐，了)等，将提取出的别字对加入到别字表中。

步骤3：创建纠错词典。

首先，准备用作样本的查询日志数据，如果是首次创建纠错词典，可以使用大量的查询日志数据(如最近一个月的)，如果是增量扩充纠错词典，根据增量扩充的周期来使用查询日志数据，例如每天扩充一次纠错词典，则每次可以使用最新一天的查询日志数据。

调用分词模块将样本数据中的各样本数据进行分词，生成包含“所有”正确term的列表(t₁,t₂,……,t_N)，对所有正确term用别字替换的方法反向生成潜在的(有可能出现的)错误term，加入纠错词典。

替换方法描述如下，以t₁为例，如果t₁的字序列为c₁c₂……c_L，对每一个字c_i查询别字表得到c_i有可能出现的别字有c’_i1,c’_i2,……c’_im，依次取每个c’_i替换c_i得到t₁’，将(t₁,t₁’)加入纠错表，每次替换一个字并将结果添加到纠错表。举例说明，分词为“快乐大本营”，“乐”字在纠错表中有候选别字“东”、“了”、“禾”，对“乐”字替换加入到纠错表的term对有：(快乐大本营,快东大本营)、(快乐大本营,快了大本营)和(快乐大本营,快禾大本营)。

通过步骤1、2以及3已生成了纠错词典。需要说明的是，在具体实现过程中，还可以按照设定时间间隔对纠错词典进行更新维护。在对纠错词典进行更新时，通过对设定时间段内的查询日志数据进行分析，得到别字对，然后依据扩充的别字对、以及在设定时间段内的查询扩充纠错词典，以实现对纠错词典的更新。

本发明提供的垂直搜索引擎查询信息纠错方法，基于人工整理和日志挖掘创建高频别字表，对大量样本查询数据分词后基于别字表进行反向替换得到有可能出现的错误查询并创建查询纠错词典，通过本发明实施例提供的纠错词典生成方法生成的错误词典覆盖广、能创建语义方面的纠错对、针对性强能覆盖用户查询中常见的错误。

分词保护表的生成如步骤4所示：

步骤4：创建term即分词保护表。

分词保护表可以通过技术人员手动创建。分析发现，并不是所有的查询都能按纠错词典进行替换的，有些特殊的正确查询可能会被替换为错误的，例如：纠错词典中有(大卡车，天卡车)、(轻骑兵，轻奇兵)，用户查询“天天卡车”会被纠成“天大卡车”，“抗战之铁血轻奇兵”会被纠成“抗战之铁血轻骑兵”，这些错误的情况都是因为正确查询比较特殊导致的。本发明通过term保护表机制解决，手工方式将特殊的term加入到该表中，如果用户输入的查询为term保护表中的查询则不对该查询进行纠错。

步骤5：纠错黑名单的创建与更新。

本发明所应用的搜索引擎系统中有查询点击反馈分析模块，该模块返回所有查询的历史点击信息，例如点击信息四元组(Q_old,Q_new,C_old,CTR_new)，Q_old表示用户原始查询，Q_new表示纠错后的查询(如果没有纠错则为空)，C_old表示纠错后用户仍然点击原始查询的比率，CTR_new表示用户没有点击原始查询的情况下，查询结果的点击率。如果C_old大于预设阈值C_Th，而且CTR_new小于预设阈值CTR_Th，认为本次查询纠错是错误的，将Q_old加入纠错黑名单中。通过上述方式，即可将各无需纠错的查询添加到纠错黑名单中。

以上为纠错词典、分词保护表、纠错黑名单的创建及更新维护的具体方案，下面对第二部分进行纠错的具体流程进行说明。

需要说明的是，本发明是以准确的分词为前提的，垂直搜索引擎会有大量的垂直领域的命名实体词，例如：视频行业会有剧名、人名；音乐行业会有音乐名；电商行业会有商品名等。准确的分词模块能保证通用词语成词以外，也能保证行业命名实体能成词。例如用户查询“快乐大本营最新一期”能正确分为“快乐大本营/最新/一期”，后面讲分词结果中的每一个切分后的“词”称为term。

纠错的具体流程部分主要为附图3中的步骤6所包含的部分。纠错的具体流程如下：

a.初始化Q’为Q，判断用户查询Q是否在纠错黑名单中，是则跳转到h；

b.调用分词模块对Q分词，得到term列表(q₁,q₂,……,q_S)；

c.设置两个游标I_a和I_b(I_a从左往右移动，I_b从右往左移动)；

d.将I_a和I_b之间的所有term连接得到Q_sub；

e.判断Q_sub是否在term保护表中，如果是则跳转；

f.在纠错词典中查询Q_sub，如果找到则用纠正的term替换Q_sub，更新到结果查询串Q’；

g.移动游标，判断I_a是否到达q_S，是则继续，否则跳转到c；

h.结束，返回Q’。

显然，一条查询可能执行多次替换。举例说明，纠错词典中含有(熊出没,能出没)、(熊出没,熊击没)、(熊出没,熊出设)、(雪岭熊风,雪岭能风)、(雪岭熊风,雪岭熊凤)等，用户查询为“能出没之雪岭熊凤”，根据上述过程会执行两次替换，得到结果为“熊出没之雪岭熊风”。

现有的基于纠错词典的查询纠错方法仅能解决同音别字、模糊拼音和多字少字等类型的查询错误，但是不能很好的解决形近别字和语义方面的查询错误，主要是因为创建的纠错词典具有以下局限性：(1)无法保证纠错词典全面(即尽可能多的覆盖错误的查询)；(2)无法创建语义方面的纠错对，例如，“明日边缘”写成“昨日边缘”；(3)纠错词典没有针对性，没有考虑用户查询中的常见错误。

本发明实施例提供的垂直搜索引擎查询信息纠错方法很好的解决了现有的纠错词典存在的不足，本发明实施例中基于人工整理和日志挖掘创建高频别字表，对大量样本查询数据分词后基于别字表进行反向替换得到有可能出现的错误查询并创建查询词典。通过本发明实施例提供的纠错词典生成方法有以下优势：(1)错误词典覆盖广；(2)能创建语义方面的纠错对；(3)有针对性，能覆盖用户查询中常见的错误。而且本发明实施例提供的纠错方法不用很复杂的模型和计算，实现简单并高效。

此外，本发明实施例提供的纠错方法除对纠错词典的生成方式进行改进外，还通过基于点击反馈来创建(或更新)纠错黑名单，通过纠错黑名单屏蔽可能错误的查询纠错。一种优选地的方式为基于点击反馈获取到可能错误的查询纠错后，将纠错黑名单中无需进行纠错的查询反馈到纠错词典中，将相应的可能错误的纠错term对删除，这样可以不断的优化纠错词典，是纠错词典更加准确。

实施例四

参照图4，示出了本发明实施例四的一种垂直搜索引擎的查询信息纠错系统的结构框图。

本发明实施例的垂直搜索引擎的查询信息纠错系统，包括：分词模块401，用于将用户输入的查询信息进行分词；游标模块402，用于初始化游标后按照设定规则以分词为单位移动所述游标，得到子查询信息；其中，所述查询信息包含多个子查询信息，每个子查询信息包含至少一个分词；纠错信息获取模块403，用于从纠错词典中获取所述子查询信息对应的纠错信息；其中，所述纠错词典依据初始别字表以及通过分析查询日志得到的扩充别字表创建生成；替换模块404，用于采用所述纠错信息替换所述查询信息中的所述子查询信息得到纠错后的查询信息；第一判断模块405，用于判断通过移动所述游标遍历所述查询信息的操作是否结束；执行模块406，用于若所述第一判断模块的判断结果为否时，则调用所述游标模块；用于若所述第一判断模块的判断结果为是时，则将所述纠错的查询信息作为用户输入的查询信息的纠错结果。

通过本发明实施例提供的垂直搜索引擎的查询信息纠错系统，采用基于纠错词典的查询信息纠错原理，由于是基于纠错词典的查询信息纠错原理，因此纠错操作简单、效率高。不仅如此，本发明实施例所采用的纠错词典依据初始别字表以及通过分析查询日志得到的扩充别字表创建生成，相较于现有的仅依据初始别字表纠错词典所能够纠错的错误类型更广，不仅能够对同音别字错误、模糊拼音错误、多字少字错误类型的查询信息进行纠错；还可以对形近字错误以及语义错误的查询信息进行纠错。可见，本发明实施例提供的查询信息纠错系统，可适用于任何错误类型的纠错，并且由于是基于纠错词典进行纠错，因此，纠错准确性高。

实施例五

参照图5，示出了本发明实施例五的一种垂直搜索引擎的查询信息纠错系统的结构框图。

本发明实施例的垂直搜索引擎的查询信息纠错系统，包括：分词模块501，用于将用户输入的查询信息进行分词；游标模块502，用于初始化游标后按照设定规则以分词为单位移动所述游标，得到子查询信息；其中，所述查询信息包含多个子查询信息，每个子查询信息包含至少一个分词；纠错信息获取模块503，用于从纠错词典中获取所述子查询信息对应的纠错信息；其中，所述纠错词典依据初始别字表以及通过分析查询日志得到的扩充别字表创建生成；替换模块504，用于采用所述纠错信息替换所述查询信息中的所述子查询信息得到纠错后的查询信息；第一判断模块505，用于判断通过移动所述游标遍历所述查询信息的操作是否结束；执行模块506，用于若所述第一判断模块的判断结果为否时，则调用所述游标模块；用于若所述第一判断模块的判断结果为是时，则将所述纠错的查询信息作为用户输入的查询信息的纠错结果。

优选地，所述垂直搜索引擎的查询信息纠错系统还包括：接收模块507，用于接收输入的初始别字表；第一扩充模块508，用于通过对设定时间段内的查询日志进行分析，确定扩充别字表；第一整合模块509，用于将所述初始别字表与所述扩充别字表整合为纠错别字表；纠错词典生成模块510，用于通过所述纠错别字表以及所述设定时间段内的查询日志中包含的各查询信息生成所述纠错词典。

优选地，所述第一扩充模块508具体用于：从所述设定时间段内的查询日志中确定各查询对应的五元组，其中，五元组包括以下：正确查询信息、正确查询信息输入的频次、错误查询信息、错误查询信息输入的频次以及查询信息的长度；针对每个查询，依据所述查询对应的五元组包含的参数对所述查询进行筛选；分别将筛选后剩余的查询中包含的正确查询信息以及错误查询信息进行比对，以确定别字对；将各别字对组合生成所述扩充别字表。

优选地，所述垂直搜索引擎的查询信息纠错系统还包括：第二扩充模块511，用于通过对设定时间段内的查询日志进行分析，确定扩充别字对；第二整合模块512，用于将所述扩充别字对与所述纠错别字表进行整合，得到更新后的纠错别字表；纠错信息对生成模块513，用于通过所述更新后的纠错别字表、以及所述设定时间段内的中包含的各查询信息生成纠错信息对；纠错词典扩充模块514，用于将所述纠错信息对添加到所述纠错词典中，以实现对所述纠错词典的扩充。

优选地，所述垂直搜索引擎的查询信息纠错系统还包括：第二判断模块515，用于在所述分词模块将用户输入的查询信息进行分词之前，判断用户输入的所述查询信息是否在纠错黑名单中；第二执行模块516，用于若在所述纠错黑名单中，则不对用户输入的所述查询信息进行纠错；若不在所述纠错黑名单中，则调用所述分词模块。

优选地，所述垂直搜索引擎的查询信息纠错系统还包括：纠错黑名单接收模块517，用于手动输入的所述纠错黑名单；或者，纠错黑名单生成模块518，用于获取设定时间段内的全部查询对应的历史点击信息，其中，每个查询对应的点击信息包括：用户输入的查询信息、纠错后查询信息、纠错后用户点击输入的查询信息的点击率、用户点击纠错后的查询信息的点击率；针对每个查询，当所述纠错后用户点击输入的查询信息的点击率大于第一设定阈值、且所述用户点击纠错后的查询信息的点击率小于第二设定阈值时，则将所述查询对应的用户输入的查询信息添加到黑名单中。

优选地，所述垂直搜索引擎的查询信息纠错系统还包括：第三判断模块519，用于在所述游标模块按照设定规则以分词为单位移动所述游标得到子查询信息之后，判断所述子查询信息是否在分词保护表中，其中，所述分词保护表中包括无需进行纠错的子查询信息；第三执行模块520，用于若所述第三判判断模块的判断结果为是，则调用所述第一判断模块；若所述第三判判断模块的判断结果为否，则执行所述纠错信息获取模块。

本发明实施例提供的垂直搜索引擎的查询信息纠错系统用于执行实施例一至实施例三中相应的垂直搜索引擎的查询信息纠错方法，并具有相应有益效果，在此不再赘述。

对于装置实施例而言，由于其与方法实施例基本相似，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

本说明书中的各个实施例均采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似的部分互相参见即可。

本发明可以在由计算机执行的计算机可执行指令的一般上下文中描述，例如程序模块。一般地，程序模块包括执行特定任务或实现特定抽象数据类型的例程、程序、对象、组件、数据结构等等。也可以在分布式计算环境中实践本发明，在这些分布式计算环境中，由通过通信网络而被连接的远程处理设备来执行任务。在分布式计算环境中，程序模块可以位于包括存储设备在内的本地和远程计算机存储介质中。

最后，还需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、商品或者设备中还存在另外的相同要素。

以上对本发明所提供的一种垂直搜索引擎的查询信息纠错方法和系统，进行了详细介绍，本文中应用了具体个例对本发明的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本发明的方法及其核心思想；同时，对于本领域的一般技术人员，依据本发明的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本发明的限制。

Claims

1.一种垂直搜索引擎的查询信息纠错方法，其特征在于，包括：

接收输入的初始别字表；通过对设定时间段内的查询日志进行分析，确定扩充别字表；将所述初始别字表与所述扩充别字表整合为纠错别字表；通过所述纠错别字表以及所述设定时间段内的查询日志中包含的各查询信息生成纠错词典；

将用户输入的查询信息进行分词；

初始化游标后按照设定规则以分词为单位移动所述游标，得到子查询信息；其中，所述查询信息包含多个子查询信息，每个子查询信息包含至少一个分词；

从纠错词典中获取所述子查询信息对应的纠错信息；

采用所述纠错信息替换所述查询信息中的所述子查询信息得到纠错后的查询信息；

判断通过移动所述游标遍历所述查询信息的操作是否结束；

若否，则返回执行所述通过按照设定规则移动所述游标得到子查询信息的步骤；若是，则将纠错的查询信息作为用户输入的查询信息的纠错结果。

2.根据权利要求1所述的方法，其特征在于，所述通过对设定时间段内的查询日志进行分析，确定扩充别字表的步骤包括：

从所述设定时间段内的查询日志中确定各查询对应的五元组，其中，五元组包括以下：正确查询信息、正确查询信息输入的频次、错误查询信息、错误查询信息输入的频次以及查询信息的长度；

针对每个查询，依据所述查询对应的五元组包含的参数对所述查询进行筛选；

分别将筛选后剩余的查询中包含的正确查询信息以及错误查询信息进行比对，以确定别字对；

将各别字对组合生成所述扩充别字表。

3.根据权利要求1所述的方法，其特征在于，所述方法还包括：

通过对设定时间段内的查询日志进行分析，确定扩充别字对；

将所述扩充别字对与所述纠错别字表进行整合，得到更新后的纠错别字表；

通过所述更新后的纠错别字表、以及所述设定时间段内的查询日志中包含的各查询信息生成纠错信息对；

将所述纠错信息对添加到所述纠错词典中，以实现对所述纠错词典的扩充。

4.根据权利要求1所述的方法，其特征在于，在所述将用户输入的查询信息进行分词的步骤之前，所述方法还包括：

判断用户输入的所述查询信息是否在纠错黑名单中；

若在所述纠错黑名单中，则不对用户输入的所述查询信息进行纠错；

若不在所述纠错黑名单中，则执行所述将用户输入的查询信息进行分词的操作。

5.根据权利要求4所述的方法，其特征在于：

所述纠错黑名单通过手动输入生成；或者，所述纠错黑名单通过以下步骤生成：

获取设定时间段内的全部查询对应的历史点击信息，其中，每个查询对应的点击信息包括：用户输入的查询信息、纠错后查询信息、纠错后用户点击输入的查询信息的点击率、用户点击纠错后的查询信息的点击率；

针对每个查询，当所述纠错后用户点击输入的查询信息的点击率大于第一设定阈值、且所述用户点击纠错后的查询信息的点击率小于第二设定阈值时，则将所述查询对应的用户输入的查询信息添加到黑名单中。

6.根据权利要求1所述的方法，其特征在于，在所述初始化游标后按照设定规则以分词为单位移动所述游标得到子查询信息的步骤之后，所述方法还包括：

判断所述子查询信息是否在分词保护表中，其中，所述分词保护表中包括无需进行纠错的子查询信息；

若是，则执行所述判断通过移动所述游标遍历所述查询信息的操作是否结束的步骤；

若否，则执行所述从纠错词典中获取所述子查询信息对应的纠错信息的步骤。

7.一种垂直搜索引擎的查询信息纠错系统，其特征在于，包括：

接收模块，用于接收输入的初始别字表；

第一扩充模块，用于通过对设定时间段内的查询日志进行分析，确定扩充别字表；

第一整合模块，用于将所述初始别字表与所述扩充别字表整合为纠错别字表；

纠错词典生成模块，用于通过所述纠错别字表以及所述设定时间段内的查询日志中包含的各查询信息生成纠错词典；

分词模块，用于将用户输入的查询信息进行分词；

游标模块，用于初始化游标后按照设定规则以分词为单位移动所述游标，得到子查询信息；其中，所述查询信息包含多个子查询信息，每个子查询信息包含至少一个分词；

纠错信息获取模块，用于从纠错词典中获取所述子查询信息对应的纠错信息；

替换模块，用于采用所述纠错信息替换所述查询信息中的所述子查询信息得到纠错后的查询信息；

第一判断模块，用于判断通过移动所述游标遍历所述查询信息的操作是否结束；

执行模块，用于若所述第一判断模块的判断结果为否时，则调用所述游标模块；用于若所述第一判断模块的判断结果为是时，则将纠错的查询信息作为用户输入的查询信息的纠错结果。

8.根据权利要求7所述的系统，其特征在于，所述第一扩充模块具体用于：

将各别字对组合生成所述扩充别字表。

9.根据权利要求7所述的系统，其特征在于，所述垂直搜索引擎的查询信息纠错系统还包括：

第二扩充模块，用于通过对设定时间段内的查询日志进行分析，确定扩充别字对；

第二整合模块，用于将所述扩充别字对与所述纠错别字表进行整合，得到更新后的纠错别字表；

纠错信息对生成模块，用于通过所述更新后的纠错别字表、以及所述设定时间段内的查询日志中包含的各查询信息生成纠错信息对；

纠错词典扩充模块，用于将所述纠错信息对添加到所述纠错词典中，以实现对所述纠错词典的扩充。

10.根据权利要求7所述的系统，其特征在于，所述垂直搜索引擎的查询信息纠错系统还包括：

第二判断模块，用于在所述分词模块将用户输入的查询信息进行分词之前，判断用户输入的所述查询信息是否在纠错黑名单中；

第二执行模块，用于若在所述纠错黑名单中，则不对用户输入的所述查询信息进行纠错；若不在所述纠错黑名单中，则调用所述分词模块。

11.根据权利要求10所述的系统，其特征在于，所述垂直搜索引擎的查询信息纠错系统还包括：

纠错黑名单接收模块，用于手动输入的所述纠错黑名单；或者，

纠错黑名单生成模块，用于获取设定时间段内的全部查询对应的历史点击信息，其中，每个查询对应的点击信息包括：用户输入的查询信息、纠错后查询信息、纠错后用户点击输入的查询信息的点击率、用户点击纠错后的查询信息的点击率；针对每个查询，当所述纠错后用户点击输入的查询信息的点击率大于第一设定阈值、且所述用户点击纠错后的查询信息的点击率小于第二设定阈值时，则将所述查询对应的用户输入的查询信息添加到黑名单中。

12.根据权利要求7所述的系统，其特征在于，所述垂直搜索引擎的查询信息纠错系统还包括：

第三判断模块，用于在所述游标模块按照设定规则以分词为单位移动所述游标得到子查询信息之后，判断所述子查询信息是否在分词保护表中，其中，所述分词保护表中包括无需进行纠错的子查询信息；

第三执行模块，用于若所述第三判断模块的判断结果为是，则调用所述第一判断模块；若所述第三判断模块的判断结果为否，则执行所述纠错信息获取模块。