CN105183913A - 一种查询处理方法、装置及设备 - Google Patents
一种查询处理方法、装置及设备 Download PDFInfo
- Publication number
- CN105183913A CN105183913A CN201510657594.8A CN201510657594A CN105183913A CN 105183913 A CN105183913 A CN 105183913A CN 201510657594 A CN201510657594 A CN 201510657594A CN 105183913 A CN105183913 A CN 105183913A
- Authority
- CN
- China
- Prior art keywords
- chain
- retrieval
- word
- current queries
- files
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/951—Indexing; Web crawling techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/93—Document management systems
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Databases & Information Systems (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Business, Economics & Management (AREA)
- General Business, Economics & Management (AREA)
Abstract
本发明公开一种查询处理方法。该处理方法包括:从与查询词对应的原链中筛选出文档数小于所述原链的文档数的文档以建立与所述查询词对应的至少一条辅链;根据当前查询业务类别及当前查询词选择与所述当前查询词对应的至少一条辅链进行文档检索形成检索结果。相应的,本发明还提供一种查询处理装置和处理设备。本发明提供的技术方案,能减少检索时间,提高查询响应速度,从而提升搜索引擎性能。
Description
技术领域
本发明涉及移动互联网技术领域,具体涉及一种查询处理方法、装置及设备。
背景技术
目前,互联网技术飞速发展,网络信息量不断增长,而搜索引擎通过构建有效的数据索引,能够帮助用户快捷地在海量数据中查询到需要的信息。但是随着用户对信息检索的需求越来越旺盛,对搜索引擎的性能要求也越来越高。
对于搜索引擎的性能优化,可从不同方面考虑,例如对引擎本身进行架构调整,对索引结构进行优化等。目前大多数对搜索引擎的优化是从引擎本身出发来优化引擎的整体性能,与业务的关联小。但是,将业务的需求和特点与搜索引擎结合起来进行优化也能带来很好的优化效果。
对于业务而言,搜索业务的需求一般比较明确:查询满足用户查询词(query)相关的文档,并将排序在前的结果如topk(k一般取值10)个结果展现给用户。一般而言,搜索业务的查询过程包含两个阶段:粗排阶段和精排阶段。粗排阶段,从检索查询词的倒排链取第一设定值(rank_size)个文档进行简单的分值计算(简称算分),挑选算分最高的第二设定值(rerank_size)个文档供下一轮精排使用,其中考虑响应时间因素,rank_size一般取值为几十万个。所谓倒排链,可理解为倒排索引,倒排索引是实现单词(term)-文档(document)矩阵的一种具体存储方式,搜索引擎的索引其实就是实现单词-文档矩阵的具体数据结构,通过倒排索引,可以根据单词快速获取包含这个单词的文档列表;精排阶段,从粗排结果所挑选出的算分最高的rerank_size个文档中,再进行精细的算分操作,其中rerank_size一般取值为几百个;最终,取精排算分最高的第三设定值(n)个文档作为最终返回给用户的查询结果。
但是,上述查询处理方法,所需检索时间仍然比较长,查询响应速度仍有待提高。
发明内容
为解决上述技术问题,本发明提供一种查询处理方法、装置及设备,能减少检索时间,提高查询响应速度,从而提升搜索引擎性能。
根据本发明的一个方面,提供一种查询处理方法,包括:
从与查询词对应的原链中筛选出文档数小于所述原链的文档数的文档以建立与所述查询词对应的至少一条辅链;
根据当前查询业务类别及当前查询词选择与所述当前查询词对应的至少一条辅链进行文档检索形成检索结果。
优选地,所述从与查询词对应的原链中筛选出文档数小于所述原链的文档数的文档以建立与所述查询词对应的至少一条辅链,包括:
根据第n链生成第n+1链,
其中,所述第n+1链对应的文档数小于第n链对应的文档数,n为自然数,其中n等于1时为原链,n大于1时为辅链。
优选地,所述从与查询词对应的原链中筛选出文档数小于所述原链的文档数的文档以建立与所述查询词对应的至少一条辅链,包括:
根据与查询词对应的原链生成文档数减少的第一辅链,根据所述第一辅链生成文档数减少的第二辅链。
优选地,根据与查询词对应的原链生成文档数减少的第一辅链,根据所述第一辅链生成文档数减少的第二辅链,包括:
将与查询词对应的原链中文档质量大于设定质量阈值的文档单独建立文档数减少的第一辅链;
将所述第一辅链中有点击记录的文档单独建立文档数减少的第二辅链。
优选地,所述根据当前查询业务类别及当前查询词选择与所述当前查询词对应的至少一条辅链进行文档检索形成检索结果,包括:
根据当前查询业务类别及当前查询词的点击量大于设定点击阈值,选择与所述当前查询词对应的一条辅链进行文档检索形成检索结果;或,
根据当前查询业务类别及当前查询词的点击量小于或等于设定点击阈值,选择与所述当前查询词对应的另一条辅链进行文档检索形成检索结果。
优选地,所述形成检索结果之后还包括:评估所述检索结果的质量。
优选地,当评估所述检索结果的质量不满足预设检索需求时,选择所述原链进行文档检索形成检索结果。
优选地,所述根据当前查询业务类别及当前查询词选择与所述当前查询词对应的至少一条辅链进行文档检索形成检索结果,包括:
根据当前查询业务类别及当前查询词包括多个单词,将当前查询词中出现频率小于设定频率阈值的单词选择所述辅链进行文档检索形成检索结果,将其他单词选择所述原链进行文档检索形成检索结果。
根据本发明的另一个方面,提供一种查询处理装置,包括:
辅链模块,用于从与查询词对应的原链中筛选出文档数小于所述原链的文档数的文档以建立与所述查询词对应的至少一条辅链;
查询模块,用于根据当前查询业务类别及当前查询词选择所述辅链模块建立的与所述当前查询词对应的至少一条辅链进行文档检索形成检索结果。
优选地,所述辅链模块包括:
生成子模块,用于根据第n链生成第n+1链,其中,所述第n+1链对应的文档数小于第n链对应的文档数,n为自然数,其中n等于1时为原链,n大于1时为辅链;
存储子模块,用于存储所述生成子模块生成的链。
优选地,所述生成子模块包括:
第一生成子模块,用于根据与查询词对应的原链生成文档数减少的第一辅链;
第二生成子模块,用于根据所述第一生成子模块生成的第一辅链生成文档数减少的第二辅链。
优选地,所述查询模块包括:
第一查询子模块,用于根据当前查询业务类别及当前查询词的点击量大于设定点击阈值,选择与所述当前查询词对应的一条辅链进行文档检索形成检索结果;或,
第二查询子模块,用于根据当前查询业务类别及当前查询词的点击量小于或等于设定点击阈值,选择与所述当前查询词对应的另一条辅链进行文档检索形成检索结果。
优选地,所述查询模块还包括:
评估子模块,用于评估所述第一查找子模块或所述第二查询子模块的检索结果的质量。
优选地,所述查询模块还包括:
第三查询子模块,用于当所述评估子模块评估所述检索结果的质量不满足预设检索需求时,选择所述原链进行文档检索形成检索结果。
优选地,所述装置还包括:
频率特征模块,用于记录所述查询词中的单词的出现频率;
所述查询模块根据当前查询业务类别及当前查询词包括多个单词,将所述频率特征模块记录的当前查询词中出现频率小于设定频率阈值的单词选择所述辅链进行文档检索形成检索结果,将其他单词选择所述原链进行文档检索形成检索结果。
根据本发明的另一个方面,提供一种处理设备,包括:
存储器,用于存储程序,
处理器,用于执行所述存储器存储的以下程序:
从与查询词对应的原链中筛选出文档数小于所述原链的文档数的文档以建立与所述查询词对应的至少一条辅链;
根据当前查询业务类别及当前查询词选择与所述当前查询词对应的至少一条辅链进行文档检索形成检索结果。
可以发现,本发明实施例的技术方案,通过从与查询词对应的原链中筛选出文档数小于所述原链的文档数的文档以建立与所述查询词对应的至少一条辅链,那么就可以根据当前查询业务类别及当前查询词选择与所述当前查询词对应的至少一条辅链进行文档检索形成检索结果,由于辅链对应的文档数量比原链对应的文档数量要小,因此就可以减少检索文档数量,从而缩短检索时间,提高查询响应速度,从而提升搜索引擎性能。
附图说明
通过结合附图对本公开示例性实施方式进行更详细的描述,本公开的上述以及其它目的、特征和优势将变得更加明显,其中,在本公开示例性实施方式中,相同的参考标号通常代表相同部件。
图1是根据本发明的一个实施例的查询处理方法的示意性流程图;
图2是根据本发明的一个实施例的查询处理方法的另一示意性流程图;
图3是根据本发明的一个实施例的查询处理方法中建立辅链的示意性图;
图4是本发明的一种查询处理装置的示意性方框图;
图5是本发明的一种处理设备的示意性方框图。
具体实施方式
下面将参照附图更详细地描述本公开的优选实施方式。虽然附图中显示了本公开的优选实施方式,然而应该理解,可以以各种形式实现本公开而不应被这里阐述的实施方式所限制。相反,提供这些实施方式是为了使本公开更加透彻和完整,并且能够将本公开的范围完整地传达给本领域的技术人员。
本发明提供一种查询处理方法,能减少检索时间,提高查询响应速度,从而提升搜索引擎性能。
本发明在不影响检索效果的前提下,主要是通过缩减粗排检索的文档数量(rank_size)来缩短检索时间,从而提升引擎的整体性能。本发明通过建立辅链来实现缩减粗排检索的文档数,并在此基础上进行进一步的优化处理。
一般粗排阶段设是从检索查询词的倒排链取第一设定值(rank_size)个文档进行简单的分值计算(简称算分),而所谓倒排链,可理解为倒排索引,倒排索引其实是实现单词(term)-文档(document)矩阵的一种具体存储方式。通过倒排链,可以根据单词快速获取包含这个单词的文档列表。最初的倒排链,也就是查询词对应的文档数量最多的链,可以称为原链。本发明进一步提出辅链的概念,所谓辅链,即辅助的链,是相对于原链而言存在的其他链。
图1是根据本发明的一个实施例的查询处理方法的示意性流程图。
如图1所示,包括:
步骤101、从与查询词对应的原链中筛选出文档数小于所述原链的文档数的文档以建立与所述查询词对应的至少一条辅链。
该步骤可以包括:根据第n链生成第n+1链,其中,所述第n+1链对应的文档数小于第n链对应的文档数,n为自然数,其中n等于1时为原链,n大于1时为辅链。
该步骤可以根据与查询词对应的原链生成文档数减少的第一辅链,根据所述第一辅链生成文档数减少的第二辅链。
需说明的是,这里以两个辅链举例说明,也可以只生成一个辅链,或生成三个辅链。
具体的,是将与查询词对应的原链中文档质量大于设定质量阈值的文档单独建立文档数减少的第一辅链;将所述第一辅链中有点击记录的文档单独建立文档数减少的第二辅链。
步骤102、根据当前查询业务类别及当前查询词选择与所述当前查询词对应的至少一条辅链进行文档检索形成检索结果。
该步骤可以包括:
根据当前查询业务类别及当前查询词的点击量大于设定点击阈值,选择与所述当前查询词对应的一条辅链进行文档检索形成检索结果;或,
根据当前查询业务类别及当前查询词的点击量小于或等于设定点击阈值,选择与所述当前查询词对应的另一条辅链进行文档检索形成检索结果。
需说明的是,上述形成检索结果之后还可以包括:评估所述检索结果的质量。当评估所述检索结果的质量不满足预设检索需求时,选择所述原链进行文档检索形成检索结果。
还需说明的是,上述还可以根据当前查询业务类别及当前查询词包括多个单词,将当前查询词中出现频率小于设定频率阈值的单词选择所述辅链进行文档检索形成检索结果,将其他单词选择所述原链进行文档检索形成检索结果。通过该处理,可以使得搜索效果不会有损失的情况下,获得较好的搜索性能收益。
可以发现,本发明实施例的技术方案,通过从与查询词对应的原链中筛选出文档数小于所述原链的文档数的文档以建立与所述查询词对应的至少一条辅链,那么就可以根据当前查询业务类别及当前查询词选择与所述当前查询词对应的至少一条辅链进行文档检索形成检索结果,由于辅链对应的文档数量比原链对应的文档数量要小,因此就可以减少检索文档数量,从而缩短检索时间,提高查询响应速度,从而提升搜索引擎性能。
以下进一步更具体介绍本发明的技术方案。
本发明技术方案在查询处理过程中,提出辅链的机制。所谓辅链,是指将文档数量较多的的倒排链通过设定方式筛选出较小的文档子集而建立的倒排链。筛选辅链的条件越严格,筛选出的文档与单词(term)越相关即相关性越大,该辅链的文档数量也越少。
图2是根据本发明的一个实施例的查询处理方法的另一示意性流程图。
如图2所示,包括:
步骤201、根据与查询词对应的原链建立文档数减少的多个辅链。
对于辅链的建立,可以按设定处理方式建立例如金字塔形的辅链。越上层的辅链由于文档数量少而越短,文档的相关性越高;越下层的辅链越长,文档的相关性相对越低。所述的设定处理方式,例如可以是将所有的文档筛选建立的链设为最底层的链即原链,将原链中文档质量大于设定质量阈值的文档筛选建立的链设为次层的辅链,将用户对包含某个单词term的查询词所点击过的文档筛选建立的链设为最高层的辅链。所述的文档质量,一般由搜索系统的离线分析模块进行衡量确定,现有相关技术中可以采用各种方式进行确定,如文档的首页质量等,本发明不加以限定。
图3是根据本发明的一个实施例的查询处理方法中建立辅链的示意性图。如图3所示:通过离线分析模块将原链中文档质量大于某一设定质量阈值的文档单独建立了一条辅链称为高质量链,又将高质量链中有点击的文档单独建立了一条辅链称为点击链。三条链中文档的相对顺序保持不变,其中,点击链是高质量链的子集,高质量链是原链的子集。其中各链对应的文档的数量关系为:点击链<高质量链<原链,即点击链的文档数量小于高质量链的文档数量,高质量链的文档数量小于原链的文档数量;其中各链对应的文档质量关系为:点击链>高质量链>原链,即点击链的文档质量大于高质量链的文档质量,高质量链的文档质量大于原链的文档质量。其中,设定质量阈值一般取经验值,可根据业务需要设置,本发明不加以限定。
需说明的是,上述是以三层链举例说明,根据需要也可以设置两层或四层等,其原理是类似的。例如,建立四层时,可以将筛选点击的文档时展现过的文档再筛选建立一层辅链,那么从下向上分别是最底层链即原链、次层辅链、再次层辅链、最高层辅链。如果是建立两层时,可以是最底层链即原链和高质量链组成的两层,或者是最底层辅链即原链和点击链组成的两层等。
步骤202、根据当前查询业务类别及当前查询词选择与当前查询词对应的一条辅链进行文档检索形成检索结果。
本发明前述内容提到为了保证查询响应时间,查询过程的粗排阶段进行算分的文档数量rank_size一般限制在十几万。当本发明建立了辅链后,rank_size可以根据辅链分为几个部分。例如,因为建立了三层链,因此rank_size可以分为三部分rank_size1、rank_size2、rank_size3,如图3所示,即rank_size1是对应原链的文档数量,rank_size2是对应高质量链的文档数量,rank_size3是对应点击链的文档数量。
本发明根据当前查询业务类别及当前查询词选择与当前查询词对应的一条辅链进行文档检索。当检索到认为部分内容已经符合用户检索需求时就可以停止检索,即相当于进行了查询动态截断处理。选择辅链的不同情况包括:
1)当查询词query的点击量大于设定点击阈值时,选择检索点击链。
该设定点击阈值可以根据经验取值,本发明不加以限定。也就是说,对于点击积累很丰富的查询,一般检索点击链就足够提供可以满足需求的文档了,检索完点击链就可以停止检索,不需要再检索原链。
情况1)中,此时,rank_size1、rank_size2为0,rank_size3为几百到几千,由此可见,该情况下,粗排阶段只需检索的文档数量只有几百到几千,远远小于原来rank_size为几十万的文档的检索数量,因此可以大大减少检索时间,提高检索响应速度。
2)当查询词query的点击量小于或等于设定点击阈值时,选择检索高质量链。
对于一般的查询词,可以检索高质量链,一般就足够提供可以满足需求的文档了。该情况中,在查询词query的点击量小于或等于设定点击阈值时,可以选择检索高质量链。一般检索完高质量链就可以停止检索,不需要再检索原链。
需说明的是,情况2)中也可同时检索点击链和高质量链。至于单独选择检索高质量链,还是选择同时检索点击链和高质量链,根据业务需要可灵活选择。
情况2)中,此时,rank_size1为0,rank_size2为几千到几万,rank_size3为几百到几千。由此可见,该情况下,粗排阶段只需检索的文档数量最多也是几万,也小于原来rank_size为几十万的文档检索数量,因此可以大大减少检索时间,提高检索响应速度。
3)根据检索高质量链返回的检索结果的质量不满足检索需求时,进一步选择检索原链。
上述情况1)和2)选择辅链进行检索,形成检索结果后,还包括评估检索结果的质量。因此,可以根据检索高质量链返回的检索结果的质量结果来决定是否需要再查询原链来补充检索结果。
需说明的是,如果检索完点击链,也可以根据检索结果的质量结果来决定是否需要再查询原链来补充检索结果。
检索返回的检索结果的质量可以根据检索的文档的召回率和/或精确率确定,或者根据检索的文档的分值计算结果确定。文档的精确率是指检索结果中相关文档占检索结果中所有文档的比例,文档的召回率,是指检索结果中相关文档占整个文档集合中所有相关文档的比例。所说的不满足检索需求,是指检索结果的结果质量没有达到设定指标要求,例如,如果检索的文档的召回率和/或精确率都小于阈值时,或者检索的文档的分值计算结果小于阈值时,确定为不满足检索需求,需要进一步选择检索原链进行补充。这里说的阈值,根据经验取值,本发明不加以限定。
举例而言,一般长尾查询词,会属于上述情况3)的情形。长尾查询词的点击量一般小于设定点击阈值,检索高质量链的返回结果一般也不会特别理想。所谓长尾查询词,一般是指网站上非目标关键词但也可以带来搜索流量的关键词。长尾查询词的特征是比较长,往往是2-3个单词组成,甚至是短语,存在于内容页面,除了内容页的标题,还存在于内容中。也就是说,一般对于长尾查询词,一般需要检索原链。
情况3)中,此时,rank_size1为几十万,rank_size2、rank_size3可以为0。由此可见,该情况下,rank_size1等于rank_size,即等于原来rank_size为几十万的检索数量。
需要说明的是,上述rank_size1、rank_size2、rank_size3取值为多少合适,可以根据搜索业务需求和查询词的不同而不同,本发明不加以限定。总体来说,rank_size1+rank_size2+rank_size3<=rank_size,即本发明的上述处理方式,可以减少粗排阶段的文档的检索数量,也即减少算分个数,因此可以减少搜索引擎的检索响应时间,提高搜索引擎的性能。
步骤203、将检索结果输出作为粗排阶段的查询结果供精排阶段使用。
通过步骤201和步骤202,可以通过对文档数量更少的辅链的检索,快速得到粗排阶段的文档检索结果,供下一轮精排阶段使用。
通过精排阶段的处理后,在最终取精排算分最高的设定值(n)个文档作为最终返回给用户的查询结果。
需要说明的是,对于上述实施例的技术方案,本发明还可以进一步进行查询优化。
因为一个查询词query往往由多个单词term组成,如果所有单词都选择辅链的话,有可能回出现召回率不够即达不到阈值的情形,影响检索效果。如果是查询词中高频率出现的单词也选择辅链的话,也可能出现rank_size1+rank_size2+rank_size3与rank_size差异不大的情况,那么检索所花费的时间也相差不大,即搜索的性能收益不大。因此,本发明方案根据上述分析,根据当前查询业务类别及当前查询词包括多个单词,将当前查询词中出现频率小于设定频率阈值的单词选择所述辅链进行文档检索形成检索结果,将其他单词选择所述原链进行文档检索形成检索结果。
具体的,确定挑选查询词中低频率出现的单词才选择辅链,其他单词正常选择原链,也就是说,对于低频率出现的单词,即出现频率小于设定频率阈值的单词,不需要在rank_size为几十万的文档的检索数量中检索,只需在文档数量小的辅链中检索就可以实现检索目的,这样检索效果不会有损失,且搜索性能收益很大。其中,设定频率阈值根据经验取值,本发明不加以限定。
需说明的是,具体挑选哪些单词选择辅链,还可以进一步根据不同搜索业务的需求做相应的效果和性能试验后确定是否满足要求,并不局限于上述提出的只选择低频率出现的单词。
综上所述,本发明先从与查询词对应的原链中筛选出文档数小于所述原链的文档数的文档以建立与所述查询词对应的至少一条辅链,再根据当前查询业务类别及当前查询词选择与所述当前查询词对应的至少一条辅链进行文档检索形成检索结果。由于辅链的文档数量比原链的文档数量要小,因此选取辅链时就可以减少检索文档数量,从而缩短检索时间;进一步的,还可以根据查询词中的单词的出现频率对流程进行优化,即只对于查询词中低频率出现的单词,才选取辅链,其他单词还是选择原链,这样检索效果不会有损失,且性能收益也大。通过上述处理,经测试证明,本发明可以将搜索引擎的查询响应速度提升达20%以上。
上述详细介绍了本发明的查询处理方法,相应的,本发明还提供一种查询处理装置。
图4是本发明的一种查询处理装置的示意性方框图。
如图4所示,查询处理装置包括:辅链模块41、查询模块42。
辅链模块41,用于从与查询词对应的原链中筛选出文档数小于所述原链的文档数的文档以建立与所述查询词对应的至少一条辅链。
查询模块42,用于根据当前查询业务类别及当前查询词选择所述辅链模块41建立的与所述当前查询词对应的至少一条辅链进行文档检索形成检索结果。
其中,辅链是指将文档数量较多的的倒排链通过设定方式筛选出较小的文档子集而建立的倒排链。筛选辅链的条件越严格,筛选出的文档与单词(term)越相关即相关性越大,该辅链的文档数量也越少。
其中,所述辅链模块41包括:生成子模块411、存储子模块412。
生成子模块411,用于根据第n链生成第n+1链,其中,所述第n+1链对应的文档数小于第n链对应的文档数,n为自然数,其中n等于1时为原链,n大于1时为辅链。
存储子模块412,用于存储所述生成子模块411生成的链。
其中,所述生成子模块411可以包括:第一生成子模块4111、第二生成子模块4112。
第一生成子模块4111,用于根据与查询词对应的原链生成文档数减少的第一辅链。
第二生成子模块4112,用于根据所述第一生成子模块4111生成的第一辅链生成文档数减少的第二辅链。
具体的,例如可以将原链中文档质量大于某一设定质量阈值的文档单独建立了一条辅链称为高质量链,又将高质量链中有点击的文档单独建立了一条辅链称为点击链。三条链中文档的相对顺序保持不变,其中,点击链是高质量链的子集,高质量链是原链的子集。其中各链对应的文档的数量关系为:点击链<高质量链<原链,即点击链的文档数量小于高质量链的文档数量,高质量链的文档数量小于原链的文档数量。需说明的是,建立辅链的层数,可以根据需要进行设置,本发明不加以限定。
其中,所述查询模块42可以包括:第一查询子模块421或第二查询子模块422。
第一查询子模块421,用于根据当前查询业务类别及当前查询词的点击量大于设定点击阈值,选择与所述当前查询词对应的一条辅链进行文档检索形成检索结果。
第二查询子模块422,用于根据当前查询业务类别及当前查询词的点击量小于或等于设定点击阈值,选择与所述当前查询词对应的另一条辅链进行文档检索形成检索结果。
所述查询模块42还可以包括:评估子模块423。
评估子模块423,用于评估所述第一查找子模块421或所述第二查询子模块422的检索结果的质量。
所述查询模块42还可以包括:第三查询子模块424。
第三查询子模块424,用于当所述评估子模块423评估所述检索结果的质量不满足预设检索需求时,选择所述原链进行文档检索形成检索结果。
其中,所述装置还可以包括:频率特征模块43。
频率特征模块43,用于记录所述查询词中的单词的出现频率。
所述查询模块42根据当前查询业务类别及当前查询词包括多个单词,将所述频率特征模块43记录的当前查询词中出现频率小于设定频率阈值的单词选择所述辅链进行文档检索形成检索结果,将其他单词选择所述原链进行文档检索形成检索结果。
因为一个查询词往往由多个单词组成,如果所有单词都选择辅链的话,有可能回出现召回率不够即达不到阈值的情形,影响检索效果。如果是查询词中高频率出现的单词也选择辅链的话,也可能出现需检索的文档数量与原需检索的文档数量差异不大的情况,因此,本发明可以选择出现频率小于设定频率阈值的单词才在文档数量小的辅链中检索,其他单词在原链检索,这样检索效果不会有损失,且搜索性能收益很大。
综上所述,本发明实施例的技术方案,通过从与查询词对应的原链中筛选出文档数小于所述原链的文档数的文档以建立与所述查询词对应的至少一条辅链,那么就可以根据当前查询业务类别及当前查询词选择与所述当前查询词对应的至少一条辅链进行文档检索形成检索结果,由于辅链对应的文档数量比原链对应的文档数量要小,因此就可以减少检索文档数量,从而缩短检索时间,提高查询响应速度,从而提升搜索引擎性能。
本发明还提供一种处理设备。
图5是本发明的一种处理设备的示意性方框图。
如图5所示,处理设备50,包括:存储器501和处理器502。
存储器501,用于存储程序,
处理器502,用于执行所述存储器501存储的以下程序:
从与查询词对应的原链中筛选出文档数小于所述原链的文档数的文档以建立与所述查询词对应的至少一条辅链;
根据当前查询业务类别及当前查询词选择与所述当前查询词对应的至少一条辅链进行文档检索形成检索结果。
需说明的是,存储器501存储的其他程序,具体参见前面方法流程中的描述,此处不再赘述,处理器502还用于执行存储器501存储的其他程序。
上文中已经参考附图详细描述了根据本发明的技术方案。
此外,根据本发明的方法还可以实现为一种计算机程序,该计算机程序包括用于执行本发明的上述方法中限定的上述各步骤的计算机程序代码指令。或者,根据本发明的方法还可以实现为一种计算机程序产品,该计算机程序产品包括计算机可读介质,在该计算机可读介质上存储有用于执行本发明的上述方法中限定的上述功能的计算机程序。本领域技术人员还将明白的是,结合这里的公开所描述的各种示例性逻辑块、模块、电路和算法步骤可以被实现为电子硬件、计算机软件或两者的组合。
附图中的流程图和框图显示了根据本发明的多个实施例的系统和方法的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段或代码的一部分,所述模块、程序段或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现中,方框中所标记的功能也可以以不同于附图中所标记的顺序发生。例如,两个连续的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或操作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
以上已经描述了本发明的各实施例,上述说明是示例性的,并非穷尽性的,并且也不限于所披露的各实施例。在不偏离所说明的各实施例的范围和精神的情况下,对于本技术领域的普通技术人员来说许多修改和变更都是显而易见的。本文中所用术语的选择,旨在最好地解释各实施例的原理、实际应用或对市场中的技术的改进,或者使本技术领域的其它普通技术人员能理解本文披露的各实施例。
Claims (16)
1.一种查询处理方法,其特征在于,包括:
从与查询词对应的原链中筛选出文档数小于所述原链的文档数的文档以建立与所述查询词对应的至少一条辅链;
根据当前查询业务类别及当前查询词选择与所述当前查询词对应的至少一条辅链进行文档检索形成检索结果。
2.根据权利要求1所述的方法,其特征在于,所述从与查询词对应的原链中筛选出文档数小于所述原链的文档数的文档以建立与所述查询词对应的至少一条辅链,包括:
根据第n链生成第n+1链,
其中,所述第n+1链对应的文档数小于第n链对应的文档数,n为自然数,其中n等于1时为原链,n大于1时为辅链。
3.根据权利要求2所述的方法,其特征在于,所述从与查询词对应的原链中筛选出文档数小于所述原链的文档数的文档以建立与所述查询词对应的至少一条辅链,包括:
根据与查询词对应的原链生成文档数减少的第一辅链,根据所述第一辅链生成文档数减少的第二辅链。
4.根据权利要求3所述的方法,其特征在于,根据与查询词对应的原链生成文档数减少的第一辅链,根据所述第一辅链生成文档数减少的第二辅链,包括:
将与查询词对应的原链中文档质量大于设定质量阈值的文档单独建立文档数减少的第一辅链;
将所述第一辅链中有点击记录的文档单独建立文档数减少的第二辅链。
5.根据权利要求1所述的方法,其特征在于,所述根据当前查询业务类别及当前查询词选择与所述当前查询词对应的至少一条辅链进行文档检索形成检索结果,包括:
根据当前查询业务类别及当前查询词的点击量大于设定点击阈值,选择与所述当前查询词对应的一条辅链进行文档检索形成检索结果;或,
根据当前查询业务类别及当前查询词的点击量小于或等于设定点击阈值,选择与所述当前查询词对应的另一条辅链进行文档检索形成检索结果。
6.根据权利要求5所述的方法,其特征在于,所述形成检索结果之后还包括:
评估所述检索结果的质量。
7.根据权利要求6所述的方法,其特征在于,当评估所述检索结果的质量不满足预设检索需求时,选择所述原链进行文档检索形成检索结果。
8.根据权利要求1至7任一项所述的方法,其特征在于,所述根据当前查询业务类别及当前查询词选择与所述当前查询词对应的至少一条辅链进行文档检索形成检索结果,包括:
根据当前查询业务类别及当前查询词包括多个单词,将当前查询词中出现频率小于设定频率阈值的单词选择所述辅链进行文档检索形成检索结果,将其他单词选择所述原链进行文档检索形成检索结果。
9.一种查询处理装置,其特征在于,包括:
辅链模块,用于从与查询词对应的原链中筛选出文档数小于所述原链的文档数的文档以建立与所述查询词对应的至少一条辅链;
查询模块,用于根据当前查询业务类别及当前查询词选择所述辅链模块建立的与所述当前查询词对应的至少一条辅链进行文档检索形成检索结果。
10.根据权利要求9所述的装置,其特征在于,所述辅链模块包括:
生成子模块,用于根据第n链生成第n+1链,其中,所述第n+1链对应的文档数小于第n链对应的文档数,n为自然数,其中n等于1时为原链,n大于1时为辅链;
存储子模块,用于存储所述生成子模块生成的链。
11.根据权利要求10所述的装置,其特征在于,所述生成子模块包括:
第一生成子模块,用于根据与查询词对应的原链生成文档数减少的第一辅链;
第二生成子模块,用于根据所述第一生成子模块生成的第一辅链生成文档数减少的第二辅链。
12.根据权利要求9所述的装置,其特征在于,所述查询模块包括:
第一查询子模块,用于根据当前查询业务类别及当前查询词的点击量大于设定点击阈值,选择与所述当前查询词对应的一条辅链进行文档检索形成检索结果;或,
第二查询子模块,用于根据当前查询业务类别及当前查询词的点击量小于或等于设定点击阈值,选择与所述当前查询词对应的另一条辅链进行文档检索形成检索结果。
13.根据权利要求12所述的装置,其特征在于,所述查询模块还包括:
评估子模块,用于评估所述第一查找子模块或所述第二查询子模块的检索结果的质量。
14.根据权利要求13所述的装置,其特征在于,所述查询模块还包括:
第三查询子模块,用于当所述评估子模块评估所述检索结果的质量不满足预设检索需求时,选择所述原链进行文档检索形成检索结果。
15.根据权利要求9至14任一项所述的装置,其特征在于,所述装置还包括:
频率特征模块,用于记录所述查询词中的单词的出现频率;
所述查询模块根据当前查询业务类别及当前查询词包括多个单词,将所述频率特征模块记录的当前查询词中出现频率小于设定频率阈值的单词选择所述辅链进行文档检索形成检索结果,将其他单词选择所述原链进行文档检索形成检索结果。
16.一种处理设备,其特征在于,包括:
存储器,用于存储程序,
处理器,用于执行所述存储器存储的以下程序:
从与查询词对应的原链中筛选出文档数小于所述原链的文档数的文档以建立与所述查询词对应的至少一条辅链;
根据当前查询业务类别及当前查询词选择与所述当前查询词对应的至少一条辅链进行文档检索形成检索结果。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201510657594.8A CN105183913B (zh) | 2015-10-12 | 2015-10-12 | 一种查询处理方法、装置及设备 |
PCT/CN2016/101553 WO2017063525A1 (zh) | 2015-10-12 | 2016-10-09 | 一种查询处理方法、装置及设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201510657594.8A CN105183913B (zh) | 2015-10-12 | 2015-10-12 | 一种查询处理方法、装置及设备 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN105183913A true CN105183913A (zh) | 2015-12-23 |
CN105183913B CN105183913B (zh) | 2019-02-15 |
Family
ID=54905994
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201510657594.8A Active CN105183913B (zh) | 2015-10-12 | 2015-10-12 | 一种查询处理方法、装置及设备 |
Country Status (2)
Country | Link |
---|---|
CN (1) | CN105183913B (zh) |
WO (1) | WO2017063525A1 (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2017063525A1 (zh) * | 2015-10-12 | 2017-04-20 | 广州神马移动信息科技有限公司 | 一种查询处理方法、装置及设备 |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101322125A (zh) * | 2005-12-05 | 2008-12-10 | 微软公司 | 使用多嵌套排序来改善排序结果 |
CN102542012A (zh) * | 2010-12-15 | 2012-07-04 | 微软公司 | 分类搜索查询的结果 |
CN102982137A (zh) * | 2012-11-16 | 2013-03-20 | 北京百度网讯科技有限公司 | 资源的搜索方法、系统和装置 |
CN104021125A (zh) * | 2013-02-28 | 2014-09-03 | 阿里巴巴集团控股有限公司 | 一种搜索引擎排序的方法、系统以及一种搜索引擎 |
CN104182460A (zh) * | 2014-07-18 | 2014-12-03 | 浙江大学 | 基于倒排索引的时间序列相似性查询方法 |
CN104679778A (zh) * | 2013-11-29 | 2015-06-03 | 腾讯科技(深圳)有限公司 | 一种搜索结果的生成方法及装置 |
CN104778233A (zh) * | 2015-03-31 | 2015-07-15 | 北京奇虎科技有限公司 | 一种基于点击量的搜索方法和装置 |
Family Cites Families (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20050154713A1 (en) * | 2004-01-14 | 2005-07-14 | Nec Laboratories America, Inc. | Systems and methods for determining document relationship and automatic query expansion |
CN101620616A (zh) * | 2009-05-07 | 2010-01-06 | 北京理工大学 | 一种基于小世界特性的中文近似网页去重方法 |
CN101989282A (zh) * | 2009-07-31 | 2011-03-23 | 中国移动通信集团公司 | 对中文查询词进行纠错的方法及其装置 |
CN102200984A (zh) * | 2010-03-24 | 2011-09-28 | 深圳市腾讯计算机系统有限公司 | 一种基于复合词的搜索方法和搜索引擎服务器 |
CN105183913B (zh) * | 2015-10-12 | 2019-02-15 | 广州神马移动信息科技有限公司 | 一种查询处理方法、装置及设备 |
-
2015
- 2015-10-12 CN CN201510657594.8A patent/CN105183913B/zh active Active
-
2016
- 2016-10-09 WO PCT/CN2016/101553 patent/WO2017063525A1/zh active Application Filing
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101322125A (zh) * | 2005-12-05 | 2008-12-10 | 微软公司 | 使用多嵌套排序来改善排序结果 |
CN102542012A (zh) * | 2010-12-15 | 2012-07-04 | 微软公司 | 分类搜索查询的结果 |
CN102982137A (zh) * | 2012-11-16 | 2013-03-20 | 北京百度网讯科技有限公司 | 资源的搜索方法、系统和装置 |
CN104021125A (zh) * | 2013-02-28 | 2014-09-03 | 阿里巴巴集团控股有限公司 | 一种搜索引擎排序的方法、系统以及一种搜索引擎 |
CN104679778A (zh) * | 2013-11-29 | 2015-06-03 | 腾讯科技(深圳)有限公司 | 一种搜索结果的生成方法及装置 |
CN104182460A (zh) * | 2014-07-18 | 2014-12-03 | 浙江大学 | 基于倒排索引的时间序列相似性查询方法 |
CN104778233A (zh) * | 2015-03-31 | 2015-07-15 | 北京奇虎科技有限公司 | 一种基于点击量的搜索方法和装置 |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2017063525A1 (zh) * | 2015-10-12 | 2017-04-20 | 广州神马移动信息科技有限公司 | 一种查询处理方法、装置及设备 |
Also Published As
Publication number | Publication date |
---|---|
WO2017063525A1 (zh) | 2017-04-20 |
CN105183913B (zh) | 2019-02-15 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN105701216B (zh) | 一种信息推送方法及装置 | |
US7831595B2 (en) | Predicting and ranking search query results | |
KR101557294B1 (ko) | 편집 거리 및 문서 정보를 이용한 검색 결과 랭킹 | |
US9317613B2 (en) | Large scale entity-specific resource classification | |
KR100898456B1 (ko) | 검색 결과를 제공하는 방법 및 상기 방법을 수행하는시스템 | |
CN103902597B (zh) | 确定目标关键词所对应的搜索相关性类别的方法和设备 | |
US20140101124A1 (en) | System and method for recursively traversing the internet and other sources to identify, gather, curate, adjudicate, and qualify business identity and related data | |
CN101136027B (zh) | 用于数据库索引、搜索和数据检索的系统和方法 | |
WO2007146107A2 (en) | Methods for enhancing efficiency and cost effectiveness of first pass review of documents | |
CN103617241B (zh) | 搜索信息处理方法、浏览器终端与服务器 | |
WO2009085410A1 (en) | Determining quality of tier assignments | |
US9292509B2 (en) | Supplementing search results with information of interest | |
CN110706015B (zh) | 一种面向广告点击率预测的特征选取方法 | |
CN105589929A (zh) | 图像检索方法和装置 | |
JP5844824B2 (ja) | Sparqlクエリ最適化方法 | |
JP6565628B2 (ja) | 検索プログラム、検索装置および検索方法 | |
CN106649800A (zh) | 一种基于Solr的中文检索方法 | |
CN105183913A (zh) | 一种查询处理方法、装置及设备 | |
CN109388690A (zh) | 文本检索方法、用于文本检索的倒排表生成方法以及系统 | |
Silva et al. | Otarios: Optimizing author ranking with insiders/outsiders subnetworks | |
CN104951869A (zh) | 一种基于工作流的舆情监控方法及装置 | |
CN104978483B (zh) | 支持偏好度动态修正的Web服务选择方法 | |
KR101188939B1 (ko) | 검색 결과를 제공하는 방법 및 상기 방법을 수행하는시스템 | |
CN114969486B (zh) | 语料推荐方法、装置、设备及存储介质 | |
US8620902B2 (en) | Computer program products and methods for query collection optimization |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
TR01 | Transfer of patent right | ||
TR01 | Transfer of patent right |
Effective date of registration: 20200810 Address after: 310052 room 508, floor 5, building 4, No. 699, Wangshang Road, Changhe street, Binjiang District, Hangzhou City, Zhejiang Province Patentee after: Alibaba (China) Co.,Ltd. Address before: 510627 Guangdong city of Guangzhou province Whampoa Tianhe District Road No. 163 Xiping Yun Lu Yun Ping square B radio tower 12 layer self unit 01 Patentee before: GUANGZHOU SHENMA MOBILE INFORMATION TECHNOLOGY Co.,Ltd. |