CN102207968A - 一种基于检索结果相关性判断的检索方法及装置 - Google Patents
一种基于检索结果相关性判断的检索方法及装置 Download PDFInfo
- Publication number
- CN102207968A CN102207968A CN2011101519977A CN201110151997A CN102207968A CN 102207968 A CN102207968 A CN 102207968A CN 2011101519977 A CN2011101519977 A CN 2011101519977A CN 201110151997 A CN201110151997 A CN 201110151997A CN 102207968 A CN102207968 A CN 102207968A
- Authority
- CN
- China
- Prior art keywords
- result
- retrieval
- query
- query candidate
- target retrieval
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明提供了一种基于检索结果相关性判断的检索方法及装置,其中所述方法包括:A.利用用户的原始查询生成查询候选序列;B.对查询候选序列中一个尚未检索的查询候选进行检索得到当前检索结果;C.利用当前检索结果得到参与相关性计算的目标检索结果,并计算目标检索结果与原始查询的相关性;D.判断目标检索结果与原始查询是否足够相关或预设的终结条件是否满足;E.将所有已检索的查询候选对应的检索结果作为最终检索结果返回给所述用户。通过上述方式,本发明节约了搜索引擎的系统开销,加快了搜索引擎的响应速度。
Description
【技术领域】
本发明涉及搜索引擎领域,特别涉及一种基于检索结果相关性判断的检索方法及装置。
【背景技术】
目前的搜索引擎,在对用户的查询词进行检索时,通常有两种方式,第一种是完全按照用户的查询词进行检索,如果检索效果不好,由用户修改查询词后再次进行检索,这种方式下,可能存在再次检索效果仍然不佳,造成用户的体验不够理想,同时也浪费了搜索引擎的计算资源的缺陷。为了对上述情况进行改进,有一些搜索引擎采用了查询扩展的策略,对用户输入的检索词进行扩展,以得到更大范围的检索结果,但是在这种方式下,搜索引擎会对所有的用户查询词采用同样的计算方法,即对所有符合扩展逻辑的查询词进行扩展处理,再一次性对用户查询词和所有的扩展查询词都进行检索。然而可能用户查询词和扩展查询词中的某个或某些查询词得到的检索结果已经能够满足用户的需要,显然,现有技术中的检索方法浪费了搜索引擎资源。
【发明内容】
本发明所要解决的技术问题是提供一种基于检索结果相关性判断的检索方法及装置,以解决现有技术中,搜索引擎对用户查询词和所有扩展查询词都进行检索,从而导致搜索引擎计算资源浪费的缺陷。
本发明为解决技术问题而采用的技术方案是提供一种基于检索结果相关性判断的检索方法,包括:A.利用用户的原始查询生成包含一个以上查询候选的查询候选序列;B.对所述查询候选序列中一个尚未检索的查询候选进行检索得到当前检索结果;C.利用所述当前检索结果得到参与相关性计算的目标检索结果,并计算所述目标检索结果与所述原始查询的相关性;D.判断所述目标检索结果与所述原始查询是否足够相关或预设的终结条件是否满足,如果所述目标检索结果与所述原始查询足够相关或所述终结条件满足,则执行步骤E;否则返回执行所述步骤B;E.将所有已检索的查询候选对应的检索结果作为最终检索结果返回给所述用户。
根据本发明之一优选实施例,所述步骤C中,将所述当前检索结果作为所述目标检索结果。
根据本发明之一优选实施例,所述步骤E包括:E1.将所述当前检索结果与先前所有已检索的查询候选得到的检索结果合并得到所述最终检索结果;E2.向所述用户返回所述最终检索结果。
根据本发明之一优选实施例,所述步骤C包括:C1.将所述当前检索结果与先前所有已检索的查询候选得到的检索结果合并,并将合并后的检索结果作为所述目标检索结果;C2.计算所述目标检索结果与所述原始查询的相关性。
根据本发明之一优选实施例,所述步骤A包括:A1.对所述原始查询进行分词处理,得到分词类查询候选;A2.利用所述分词类查询候选对所述原始查询进行扩展处理,得到扩展类查询候选;A3.对所述分词类查询候选和所述扩展类查询候选进行排序得到所述查询候选序列。
根据本发明之一优选实施例,所述相关性的计算依据至少包括所述目标检索结果的权值或所述目标检索结果的数目两者其中之一。
根据本发明之一优选实施例,所述相关性至少体现为下列参数之一:所述目标检索结果的第一页结果的平均权值、所述目标检索结果的最高权值、所述目标检索结果的最低权值、所述目标检索结果中权值满足第一阈值的检索结果的数目或所述目标检索结果的总数目。
根据本发明之一优选实施例,所述终结条件包括所述查询候选序列中的所有查询候选均已检索完毕或所述基于检索结果相关性判断的检索方法的执行时间达到设定的第二阈值。
本发明还提供了一种基于检索结果相关性判断的检索装置,包括:生成单元,用于利用用户的原始查询生成包含一个以上查询候选的查询候选序列;检索单元,用于对所述查询候选序列中一个尚未检索的查询候选进行检索得到当前检索结果;相关性计算单元,用于利用所述当前检索结果得到参与相关性计算的目标检索结果,并计算所述目标检索结果与所述原始查询的相关性;判断单元,用于判断所述目标检索结果与所述原始查询是否足够相关或预设的终结条件是否满足,如果所述目标检索结果与所述原始查询足够相关或所述终结条件满足,则触发结果返回单元;否则触发所述检索单元执行所述检索;结果返回单元,用于受到所述判断单元的触发后,将所有已检索的查询候选对应的检索结果作为最终检索结果返回给所述用户。
根据本发明之一优选实施例,所述相关性计算单元将所述当前检索结果作为所述目标检索结果。
根据本发明之一优选实施例,所述结果返回单元包括:合并子单元,用于将所述当前检索结果与先前所有已检索的查询候选得到的检索结果合并得到所述最终检索结果;发送子单元,用于向所述用户返回所述最终检索结果。
根据本发明之一优选实施例,所述相关性计算单元包括:合并子单元,用于将所述当前检索结果与先前所有已检索的查询候选得到的检索结果合并,并将合并后检索结果作为所述目标检索结果;计算子单元,用于计算所述目标检索结果与所述原始查询的相关性。
根据本发明之一优选实施例,所述生成单元包括:分词子单元,用于对所述原始查询进行分词处理,得到分词类查询候选;扩展子单元,用于利用所述分词类查询候选对所述原始查询进行扩展处理,得到扩展类查询候选;排序子单元,用于对所述分词类查询候选和所述扩展类查询候选进行排序得到所述查询候选序列。
根据本发明之一优选实施例,所述相关性的计算依据至少包括所述目标检索结果的权值或所述目标检索结果的数目两者其中之一。
根据本发明之一优选实施例,所述相关性至少体现为下列参数之一:所述目标检索结果的第一页结果的平均权值、所述目标检索结果的最高权值、所述目标检索结果的最低权值、所述目标检索结果中权值满足第一阈值的检索结果的数目或所述目标检索结果的总数目。
根据本发明之一优选实施例,所述终结条件包括所述查询候选序列中的所有查询候选均已检索完毕或所述基于检索结果相关性判断的检索装置的执行时间达到设定的第二阈值。
由以上方式可以看出,通过在逐一检索过程中对检索结果的相关性进行判断,可以很好地在满足用户需求与降低搜索引擎计算复杂度从而减少搜索引擎计算资源之间取得平衡。当在逐一检索过程中发现检索结果的相关性满足条件或者终结条件满足时,本发明的方法就会停止对扩展查询词进行检索,从而与现有技术相比,在满足用户需求的前提下减小了搜索引擎的系统开销,加快了搜索引擎的响应速度。
【附图说明】
图1为本发明实施例中基于检索结果相关性判断的检索方法的流程示意图;
图2为本发明中基于检索结果相关性判断的检索方法的实施例一的流程示意图;
图3为本发明实施例中生成查询候选序列的方法的流程示意图;
图4为本发明实施例中决策树的示意图;
图5为本发明中基于检索结果相关性判断的检索方法的实施例二的流程示意图;
图6为本发明中基于检索结果相关性判断的检索装置的实施例一的结构示意框图;
图7为本发明中基于检索结果相关性判断的检索装置的实施例二的结构示意框图。
【具体实施方式】
为了使本发明的目的、技术方案和优点更加清楚,下面结合附图和具体实施例对本发明进行详细描述。
请参考图1,图1为本发明实施例中基于检索结果相关性判断的检索方法的流程示意图。如图1所示,所述方法包括:
步骤101:利用用户的原始查询生成包含一个以上查询候选的查询候选序列。
步骤102:对查询候选序列中的一个尚未检索的查询候选进行检索得到当前检索结果。
步骤103:利用当前检索结果得到参与相关性计算的目标检索结果,并计算目标检索结果与原始查询的相关性。
步骤104:判断目标检索结果与原始查询是否足够相关或预设的终结条件是否满足,如果目标检索结果与原始查询足够相关或预设的终结条件满足,则执行步骤105,否则返回执行步骤102。
步骤105:将所有已检索的查询候选对应的检索结果作为最终检索结果返回给用户。
下面结合具体的实施例,对上述方法进行说明。
实施例一:
请一并参考图1与图2,图2为本发明中基于检索结果相关性判断的检索方法的实施例一的流程示意图。如图1、图2所示,步骤1011与步骤101对应,在步骤1011中,利用用户的原始查询生成包含一个以上查询候选的查询候选序列。
用户的原始查询,指的是用户输入的查询语句,例如用户输入“西红柿烧牛腩怎么做才好吃”,这个“西红柿烧牛腩怎么做才好吃”就是用户的原始查询。
请参考图3,图3为本发明实施例中生成查询候选序列的方法的流程示意图。如图3所示,为了利用用户的原始查询生成查询候选序列,步骤1011包括:
步骤1011A:对用户的原始查询进行分词处理,得到分词类查询候选。例如对上面的用户查询“西红柿烧牛腩怎么做才好吃”,经过分词处理后,可以得到“西红柿烧牛腩/怎么做/才/好吃”或“西红柿/烧/牛腩/怎么做/才/好吃”等查询候选,“/”表示关键词的分隔符。对原始查询进行分词处理,可以采用现有分词技术进行,在此不再赘述。
步骤1011B:利用分词类查询候选对用户的原始查询进行扩展处理,得到扩展类查询候选。例如对上面的用户查询“西红柿烧牛腩怎么做才好吃”,经过扩展处理后,可以得到“西红柿/烧/牛腩/好吃/做法”或“番茄/烧/牛腩/做法”等。对原始查询进行扩展处理,也可采用现有技术进行,例如同义词扩展、同范畴扩展、利用省略原始查询中部分词语进行扩展等等,在此不再详述。
步骤1011C:对分词类查询候选和扩展类查询候选进行排序得到查询候选序列。对分词类查询候选和扩展类查询候选进行排序可采用现有技术进行,例如按照分词类查询候选和扩展类查询候选分别与原始查询的相似度进行排序,相似度可用编辑距离进行衡量,所述编辑距离是指两个字串之间,由一个转成另一个所需的最少编辑操作次数,可采用的编辑操作包括将一个字符替换成另一个字符,插入一个字符,或删除一个字符。仍以上面的用户查询“西红柿烧牛腩怎么做才好吃”为例,可以得到查询候选序列:①“西红柿烧牛腩/怎么做/才/好吃”、②“西红柿/烧/牛腩/怎么做/才/好吃”、③“西红柿/烧/牛腩/好吃/做法”、④“番茄/烧/牛腩/做法”等等。
需要说明的是,图3所示的生成查询候选序列的方法只是示意性的描述,如果采用其他方法获取到查询候选序列,并不超出本发明思想。
请继续参考图2。步骤1021与步骤102对应,在步骤1021中,对查询候选序列中一个尚未检索的查询候选进行检索得到当前检索结果。在本发明中,获取到查询候选序列后,不会一次同时对其中所有的查询候选进行检索,而是每次只对其中的一个尚未检索的查询候选进行检索得到与该查询候选有关的检索结果,作为当前检索结果,而是否对其他查询候选进行检索,则依赖后续的操作。对查询候选进行检索的顺序可按照查询候选序列的位置顺序进行,即排在序列前面的查询候选将先被检索。
步骤1031与步骤103对应,在步骤1031中,将当前检索结果作为参与相关性计算的目标检索结果并计算目标检索结果与原始查询的相关性。
所谓目标检索结果指的是参与相关性计算的检索结果,例如对用户查询“西红柿烧牛腩怎么做才好吃”,在步骤1021中从查询候选序列中取出查询候选“西红柿烧牛腩/怎么做/才/好吃”进行检索,得到包含5000条结果的当前检索结果,在步骤1031中,将把这5000条结果的当前检索结果作为目标检索结果参与相关性计算。
相关性指的是目标检索结果与原始查询的相关性,在本实施例中,其计算依据至少包括目标检索结果的权值和目标检索结果的数目两者其中之一。
所谓目标检索结果的权值,指的是目标检索结果中每个结果形成的<query,URL>的得分,该得分描述了检索结果的链接(URL)与原始查询(query)各个维度的匹配程度。例如对上文提到的query:“西红柿烧牛腩怎么做才好吃”,得到了5000条目标检索结果,因此就有5000个URL,可以得到5000个<query,URL>的得分,其分别描述了该条检索结果与原始查询的匹配程度。由于<query,URL>的得分可由现有技术得到,因此在此不再详述。所述目标检索结果的数目,既包括目标检索结果每一页包含的检索结果的数目,也包括目标检索结果的总数目。
在本实施例中,相关性至少体现为下列参数之一:目标检索结果的第一页结果的平均权值、目标检索结果的最高权值、目标检索结果的最低权值、目标检索结果中权值满足设定阈值的检索结果的数目、或目标检索结果的总数目。
第一页结果的平均权值,可由目标检索结果中第一页检索结果的各个条目的权值(即<query,URL>的得分)之和除以该页的条目之和得到,而目标检索结果的最高权值或最低权值,指的是目标检索结果的所有条目的各个权值里的最高或最低值。
需要说明的是,本实施例所举的相关性计算依据以及由此导致的体现相关性的参数,只是示意性的描述,在本发明的其他实施例中,相关性的计算依据还可以是其他的特征,例如检索结果的用户点击数等等,由于采用不同的相关性计算依据而导致体现相关性的参数发生改变,仍在本发明的思想范围之内。
步骤1041和步骤1042与步骤104对应,在步骤1041中,根据步骤1031中计算的相关性判断目标检索结果与原始查询是否足够相关,如果足够相关,则执行步骤1051,否则执行步骤1042。
根据相关性判断目标检索结果与原始查询是否足够相关,可采用现有技术中的预置策略、机器学习或决策树的方法来进行。
当体现相关性的参数比较少时,可采用判断参数是否满足设定阈值的策略来判断目标检索结果与原始查询是否足够相关。例如预置策略为:当目标检索结果的第一页结果的平均权值大于设定阈值时,认为目标检索结果与原始查询足够相关。
当体现相关性的参数较多时,可采用机器学习及决策树的方法。
以机器学习方法为例进行说明,例如采用支持向量机(SVM)的方法对目标检索结果进行分类,将目标检索结果分为与原始查询足够相关和不够相关两类。在本实施例中,SVM方法中采用的特征就是步骤1031中体现相关性的几个参数:目标检索结果的第一页结果的平均权值、目标检索结果的最高权值、目标检索结果的最低权值、目标检索结果中权值满足设定阈值的检索结果的数目、和目标检索结果的总数目。首先用标注好类别(足够相关或不够相关)的训练语料针对上述特征对SVM模型进行训练,得到模型的参数,然后就可以用该参数的模型对目标检索结果进行分类,进而得知目标检索结果与原始查询是否足够相关。
对利用决策树的方法判断目标检索结果与原始查询是否足够相关,实际上就是利用决策树对目标检索结果进行分类,分为足够相关或不够相关。请参考图4,图4为本发明实施例中决策树的示意图。在决策树的方法中采用的特征与机器学习方法中一样,包括目标检索结果的第一页结果的平均权值、目标检索结果的最高权值、目标检索结果的最低权值、目标检索结果中权值满足设定阈值的检索结果的数目、和目标检索结果的总数目。通过用标注好的训练语料进行训练,就可以得到位于每个节点处的特征与相应的参数,再利用这样的决策树,就可以对目标检索结果进行分类,进而得知目标检索结果与原始查询是否足够相关。
请继续参考图2。步骤1042:判断预设的终结条件是否满足,如果满足,则执行步骤1051,否则返回执行步骤1021。终结条件是指结束对查询候选序列中尚未检索的其他查询候选进行检索的条件,其包括查询候选序列中所有的查询候选均已检索完毕或本发明的检索方法的执行时间达到了设定的阈值。
值得注意的是,本实施例的步骤1041、步骤1042描述的相关判断与终结条件判断的顺序仅为示意性描述,在其他实施例中,也可以先判断终结条件是否满足,再判断目标检索结果与原始查询是否足够相关,这两者没有必然的顺序关系。
步骤1051和步骤1052与步骤105对应。在步骤1051中,将当前检索结果与先前所有已检索的查询候选得到的检索结果合并作为最终检索结果。
对首个查询候选得到的当前检索结果而言,先前所有已检索的查询候选得到的检索结果为零,因此合并后的检索结果还是当前检索结果,对非首个查询候选得到的当前检索结果,与先前所有已检索的查询候选得到的检索结果进行合并,其方式包括按权值合并或按位置合并。
按权值合并,就是对当前检索结果与先前所有已检索的查询候选得到的检索结果,按权值的高低进行排序,然后形成总的检索结果即为合并后的最终检索结果。这里权值的概念与步骤1031中描述的相同,指的是每个结果形成的<query,URL>的得分。
按位置合并,就是根据各个已检索的查询候选的检索顺序与各个已检索的查询候选对应的检索结果自身的顺序进行插值处理,例如第一、二、三个查询候选得到的检索结果,其得到的首条检索结果分别位于合并后得到的最终检索结果的第一、二、三个位置,得到的第二条检索结果分别位于合并后得到的最终检索结果的第四、五、六个位置,以此类推。
步骤1052:向用户返回最终的检索结果,也就是将步骤1051中得到的最终检索结果发送到用户界面。
实施例二:
实施例二与实施例一的区别,是将合并操作提前到相关性计算之前进行,然后在计算相关性的时候,将合并的检索结果作为参与相关性计算的目标检索结果,下面对其进行具体说明。
请一并参考图1与图5,图5为本发明中基于检索结果相关性判断的检索方法的实施例二的流程示意图。如图1、图5所示,步骤101a与步骤101对应,在步骤101a中,利用用户的原始查询生成包含一个以上查询候选的查询候选序列,这与所述检索方法实施例一中的步骤1011一致,在此不再重述。
步骤102a与步骤102对应,在步骤102a中,对查询候选序列中一个尚未检索的查询候选进行检索得到当前检索结果。这与所述检索方法实施例一中的步骤1021一致,在此不再重述。
步骤103a、步骤103b与步骤103对应,在步骤103a中,将当前检索结果与先前所有已检索的查询候选得到的检索结果合并,并将合并后的检索结果作为目标检索结果。步骤103a与所述检索方法实施例一的步骤1051中的合并操作类似,对首个查询候选得到的当前检索结果而言,先前所有已检索的查询候选得到的检索结果为零,因此合并后的检索结果还是当前检索结果,对非首个查询候选得到的当前检索结果,与先前所有已检索的查询候选得到的检索结果进行合并,其方式包括按权值合并或按位置合并。按权值合并或按位置合并均与所述检索方法实施例一的步骤1051中介绍的相同,在此不再重述。
步骤103b:计算目标检索结果与原始查询的相关性。相关性的计算依据与所述检索方法实施例一中相同,包括目标检索结果的权值或目标检索结果的数目,由此产生的体现相关性的参数也与所述检索方法实施例一中类似,至少包括下列参数中的一个:目标检索结果的第一页结果的平均权值、目标检索结果的最高权值、目标检索结果的最低权值、目标检索结果中权值满足设定阈值的检索结果的数目、或目标检索结果的总数目。
步骤104a、步骤104b与步骤104对应,在步骤104a中,根据步骤103b中计算的相关性判断目标检索结果与原始查询是否足够相关,如果足够相关,则执行步骤105a,否则执行步骤104b。判断目标检索结果与原始查询是否足够相关的方法,与所述检索方法实施例一的步骤1041中介绍的类似,在此不再重述。
步骤104b:判断终结条件是否满足,如果满足,则执行步骤105a,否则返回执行步骤102a。终结条件与所述检索方法实施例一中相同,包括查询候选序列中所有的查询候选均已检索完毕或本发明的检索方法的执行时间达到了设定的阈值。
值得注意的是,与所述检索方法的实施例一相同,本实施例的步骤104a、步骤104b描述的相关判断与终结条件判断的顺序仅为示意性描述,在其他实施例中,也可以先判断终结条件是否满足,再判断目标检索结果与原始查询是否足够相关,这两者没有必然的顺序关系。
步骤105a与步骤105对应,在步骤105a中,将目标检索结果作为最终检索结果向用户展示,在本实施例中,目标检索结果就是当前检索结果与先前所有已检索的查询候选得到的检索结果合并后的检索结果。
请参考图6,图6为本发明中基于检索结果相关性判断的检索装置的实施例一的结构示意框图。如图6所示,所述装置包括生成单元201、检索单元202、相关性计算单元203、判断单元204及结果返回单元205。
其中生成单元201,用于利用用户的原始查询生成包含一个以上查询候选的查询候选序列。用户的原始查询,指的是用户输入的查询语句,例如用户输入“西红柿烧牛腩怎么做才好吃”,这个“西红柿烧牛腩怎么做才好吃”就是用户的原始查询。
生成单元201包括分词子单元2011、扩展子单元2012及排序子单元2013。其中分词子单元2011,用于对用户的原始查询进行分词处理,得到分词类查询候选。例如对上面的用户查询“西红柿烧牛腩怎么做才好吃”,经过分词处理后,可以得到“西红柿烧牛腩/怎么做/才/好吃”或“西红柿/烧/牛腩/怎么做/才/好吃”等查询候选,“/”表示关键词的分隔符。对原始查询进行分词处理,可以采用现有分词技术进行,在此不再赘述。
扩展子单元2012,用于利用分词类查询候选对用户的原始查询进行扩展处理,得到扩展类查询候选。例如对上面的用户查询“西红柿烧牛腩怎么做才好吃”,经过扩展处理后,可以得到“西红柿/烧/牛腩/好吃/做法”或“番茄/烧/牛腩/做法”等。对原始查询进行扩展处理,也可采用现有技术进行,例如同义词扩展、同范畴扩展、利用省略原始查询中部分词语进行扩展等等,在此不再详述。
排序子单元2013,用于对分词类查询候选和扩展类查询候选进行排序得到查询候选序列。对分词类查询候选和扩展类查询候选进行排序可采用现有技术进行,例如按照分词类查询候选和扩展类查询候选与原始查询的相似度进行排序,相似度可用编辑距离进行衡量,所述编辑距离是指两个字串之间,由一个转成另一个所需的最少编辑操作次数,可采用的编辑操作包括将一个字符替换成另一个字符,插入一个字符,删除一个字符。仍以上面的用户查询“西红柿烧牛腩怎么做才好吃”为例,可以得到查询候选序列:①“西红柿烧牛腩/怎么做/才/好吃”、②“西红柿/烧/牛腩/怎么做/才/好吃”、③“西红柿/烧/牛腩/好吃/做法”、④“番茄/烧/牛腩/做法”等等。
需要说明的是,生成单元201的实施方式并不仅限于上面的方式,如果生成单元201采用了其他方式获取到查询候选序列,并不超出本发明思想。
检索单元202,用于对查询候选序列中一个尚未检索的查询候选进行检索得到当前检索结果。在本发明中,获取到查询候选序列后,不会一次同时对其中所有的查询候选进行检索,而是每次只对其中的一个尚未检索的查询候选进行检索得到与该查询候选有关的检索结果,作为当前检索结果,而是否对其他查询候选进行检索,则依赖后续的操作。对查询候选进行检索的顺序可按照查询候选序列的位置顺序进行,即排在序列前面的查询候选将先被检索。
相关性计算单元203,用于将当前检索结果作为参与相关性计算的目标检索结果并计算目标检索结果与原始查询的相关性。
所谓目标检索结果指的是参与相关性计算的检索结果,例如对用户查询“西红柿烧牛腩怎么做才好吃”,检索单元202从查询候选序列中取出查询候选“西红柿烧牛腩/怎么做/才/好吃”进行检索,得到包含5000条结果的当前检索结果,相关性计算单元203把这5000条结果的当前检索结果作为目标检索结果参与相关性计算。
相关性指的是目标检索结果与原始查询的相关性,在本实施例中,其计算依据至少包括目标检索结果的权值或目标检索结果的数目两者其中之一。
所谓目标检索结果的权值,指的是目标检索结果中每个结果形成的<query,URL>的得分,该得分描述了检索结果的链接(URL)与原始查询(query)各个维度的匹配程度。例如对上文提到的query:“西红柿烧牛腩怎么做才好吃”,得到了5000条目标检索结果,因此就有5000个URL,可以得到5000个<query,URL>的得分,其分别描述了该条检索结果与原始查询的匹配程度。由于<query,URL>的得分可由现有技术得到,因此在此不再详述。所述目标检索结果的数目,既包括目标检索结果每一页包含的检索结果的条数,也包括目标检索结果的总条数。
在本实施例中,相关性至少体现为下列参数之一:目标检索结果的第一页结果的平均权值、目标检索结果的最高权值、目标检索结果的最低权值、目标检索结果中权值满足设定阈值的检索结果的数目、或目标检索结果的总数目。
第一页结果的平均权值,可由目标检索结果中第一页检索结果的各个条目的权值(即<query,URL>的得分)之和除以该页的条目之和得到,而目标检索结果的最高权值或最低权值,指的是目标检索结果的所有条目的各个权值里的最高或最低值。
需要说明的是,本实施例所举的相关性计算依据以及由此导致的体现相关性的参数,只是示意性的描述,在本发明的其他实施例中,相关性的计算依据还可以是其他的特征,例如检索结果的用户点击数等等,由于采用不同的相关性计算依据而导致体现相关性的参数发生改变,仍在本发明的思想范围之内。
判断单元204,用于判断目标检索结果与原始查询是否足够相关或预设的终结条件是否满足,如果目标检索结果与原始查询足够相关或预设的终结条件满足,则触发结果返回单元205;否则触发检索单元202执行检索的操作。判断单元204包括相关判断子单元2041、终结条件判断子单元2042。
其中相关判断子单元2041,用于根据相关性计算单元203计算的相关性判断目标检索结果与原始查询是否足够相关,如果足够相关,则触发结果返回单元205中的合并子单元2051,否则触发终结条件判断子单元2042。
根据相关性判断目标检索结果与原始查询是否足够相关,可采用现有技术中的预置策略、机器学习或决策树的方法来进行。
当体现相关性的参数比较少时,可采用判断参数是否满足设定阈值的策略来判断目标检索结果与原始查询是否足够相关。例如预置策略为:当目标检索结果的第一页结果的平均权值大于设定阈值时,认为目标检索结果与原始查询足够相关。
当体现相关性的参数较多时,可采用机器学习及决策树的方法。
以机器学习方法为例进行说明,例如采用支持向量机(SVM)的方法对目标检索结果进行分类,将目标检索结果分为与原始查询足够相关和不够相关两类。在本实施例中,SVM方法中采用的特征就是相关性计算单元203中所述体现相关性的几个参数:目标检索结果的第一页结果的平均权值、目标检索结果的最高权值、目标检索结果的最低权值、目标检索结果中权值满足设定阈值的检索结果的数目、和目标检索结果的总条数。首先用标注好类别(足够相关或不够相关)的训练语料针对上述特征对SVM模型进行训练,得到模型的参数,然后就可以用该参数的模型对目标检索结果进行分类,进而得知目标检索结果与原始查询是否足够相关。
对利用决策树的方法判断目标检索结果与原始查询是否足够相关,实际上就是利用决策树对目标检索结果进行分类,分为足够相关或不够相关。请参考图4,图4为本发明实施例中决策树的示意图。在决策树的方法中采用的特征与机器学习方法中一样,包括目标检索结果的第一页结果的平均权值、目标检索结果的最高权值、目标检索结果的最低权值、目标检索结果中权值满足设定阈值的检索结果的数目、和目标检索结果的总数目。通过用标注好的训练语料进行训练,就可以得到位于每个节点处的特征与相应的参数,再利用这样的决策树,就可以对目标检索结果进行分类,进而得知目标检索结果与原始查询是否足够相关。
请继续参考图6。终结条件判断子单元2042,用于判断预设的终结条件是否满足,如果满足,则触发结果返回单元205中的合并子单元2051,否则触发检索单元202。终结条件是指结束对查询候选序列中尚未检索的其他查询候选进行检索的条件,其包括查询候选序列中所有的查询候选均已检索完毕或本发明的检索装置的执行时间达到了设定的阈值。
值得注意的是,本实施例的相关判断子单元2041、终结条件判断子单元2042的连接关系仅为示意性描述,在其他实施例中,由于判断目标检索结果与原始查询是否足够相关或终结条件是否满足的顺序可以与本实施例相反,由此导致相关判断子单元2041与终结条件判断子单元2042的连接关系也会发生相应的改变。
结果返回单元205,用于受到判断单元204的触发后,将所有已检索的查询候选对应的检索结果作为最终检索结果返回给用户。结果返回单元205包括合并子单元2051和发送子单元2052。
合并子单元2051,用于受到判断单元204的触发后,将当前检索结果与先前所有已检索的查询候选得到的检索结果合并得到最终检索结果。
对首个查询候选得到的当前检索结果而言,先前所有已检索的查询候选得到的检索结果为零,因此合并后的检索结果还是当前检索结果,对非首个查询候选得到的当前检索结果,与先前所有已检索的查询候选得到的检索结果进行合并,其方式包括按权值合并或按位置合并。
按权值合并,就是对当前检索结果与先前所有已检索的查询候选得到的检索结果,按权值的高低进行排序,然后形成总的检索结果即为合并后的最终检索结果。这里权值的概念与相关性计算单元203中描述的相同,指的是每个结果形成的<query,URL>的得分。
按位置合并,就是根据各个已检索的查询候选的检索顺序与各个已检索的查询候选对应的检索结果自身的顺序进行插值处理,例如第一、二、三个查询候选得到的检索结果,其得到的首条检索结果分别位于合并后得到的最终检索结果的第一、二、三个位置,得到的第二条检索结果分别位于合并后得到的最终检索结果的第四、五、六个位置,以此类推。
发送子单元2052,用于向用户返回最终的检索结果,也就是将合并子单元2051确定的最终检索结果发送到用户界面。
请参考图7,图7为本发明中基于检索结果相关性判断的检索装置的实施例二的结构示意框图。如图7所示,所述装置包括生成单元301、检索单元302、相关性计算单元303、判断单元304及结果返回单元305。
其中生成单元301,用于利用用户的原始查询生成包含一个以上查询候选的查询候选序列,其包括分词子单元3011、扩展子单元3012及排序子单元3013,这与所述检索装置实施例一中的分词子单元2011、扩展子单元2012及排序子单元2013一致,在此不再重述。
检索单元302,用于对查询候选序列中一个尚未检索的查询候选进行检索得到当前检索结果。这与所述检索装置实施例一中的检索单元202一致,在此不再重述。
相关性计算单元303,用于利用当前检索结果得到参与相关性计算的目标检索结果,并计算目标检索结果与原始查询的相关性。相关性计算单元303包括合并子单元3031及计算子单元3032。
其中合并子单元3031,用于将当前检索结果与先前所有已检索的查询候选得到的检索结果合并,并将合并后的检索结果作为目标检索结果。合并子单元3031与所述检索装置实施例一的合并子单元2051中的合并操作类似,对首个查询候选得到的当前检索结果而言,先前所有已检索的查询候选得到的检索结果为零,因此合并后的检索结果还是当前检索结果,对非首个查询候选得到的当前检索结果,与先前所有已检索的查询候选得到的检索结果进行合并,其方式包括按权值合并或按位置合并。按权值合并或按位置合并均与所述检索装置实施例一的合并子单元2051中介绍的相同,在此不再重述。
计算子单元3032,用于计算目标检索结果与原始查询的相关性。相关性的计算依据与所述检索装置实施例一中相同,包括目标检索结果的权值或目标检索结果的数目,由此产生的体现相关性的参数也与所述检索装置实施例一中类似,至少包括下列参数中的一个:目标检索结果的第一页结果的平均权值、目标检索结果的最高权值、目标检索结果的最低权值、目标检索结果中权值满足设定阈值的检索结果的数目、或目标检索结果的总数目。
判断单元304,用于判断目标检索结果与原始查询是否足够相关或预设的终结条件是否满足,如果目标检索结果与原始查询足够相关或终结条件满足,则触发结果返回单元305,否则触发检索单元302执行检索的操作。确定单元304包括相关判断子单元3041、终结条件判断子单元3042。
其中相关判断子单元3041,用于根据计算子单元3032计算的相关性判断目标检索结果与原始查询是否足够相关,如果足够相关,则触发结果返回单元305,否则触发终结条件判断子单元3042。判断目标检索结果与原始查询是否足够相关与所述检索装置实施例一的相关判断子单元2041中介绍的类似,在此不再重述。
终结条件判断子单元3042,用于判断终结条件是否满足,如果满足,则触发结果返回单元305,否则触发检索单元302。终结条件与所述检索装置实施例一中相同,包括查询候选序列中所有的查询候选均已检索完毕或本发明的检索装置的执行时间达到了设定的阈值。
值得注意的是,与所述检索装置的实施例一相同,本实施例的相关判断子单元3041、终结条件判断子单元3042的连接关系仅为示意性描述,在其他实施例中,由于判断目标检索结果与原始查询是否足够相关或终结条件是否满足的顺序可以与本实施例相反,由此导致相关判断子单元3041与终结条件判断子单元3042的连接关系也会发生相应的改变。
结果返回单元305,用于受到判断单元304的触发后,将目标检索结果作为最终检索结果向用户返回。在本实施例中,目标检索结果就是当前检索结果与先前所有已检索的查询候选得到的检索结果合并后的检索结果。
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明保护的范围之内。
Claims (16)
1.一种基于检索结果相关性判断的检索方法,其特征在于,所述方法包括:
A.利用用户的原始查询生成包含一个以上查询候选的查询候选序列;
B.对所述查询候选序列中一个尚未检索的查询候选进行检索得到当前检索结果;
C.利用所述当前检索结果得到参与相关性计算的目标检索结果,并计算所述目标检索结果与所述原始查询的相关性;
D.判断所述目标检索结果与所述原始查询是否足够相关或预设的终结条件是否满足,如果所述目标检索结果与所述原始查询足够相关或所述终结条件满足,则执行步骤E;否则返回执行所述步骤B;
E.将所有已检索的查询候选对应的检索结果作为最终检索结果返回给所述用户。
2.根据权利要求1所述的方法,其特征在于,所述步骤C中,将所述当前检索结果作为所述目标检索结果。
3.根据权利要求2所述的方法,其特征在于,所述步骤E包括:
E1.将所述当前检索结果与先前所有已检索的查询候选得到的检索结果合并得到所述最终检索结果;
E2.向所述用户返回所述最终检索结果。
4.根据权利要求1所述的方法,其特征在于,所述步骤C包括:
C1.将所述当前检索结果与先前所有已检索的查询候选得到的检索结果合并,并将合并后的检索结果作为所述目标检索结果;
C2.计算所述目标检索结果与所述原始查询的相关性。
5.根据权利要求1至4任一权项所述的方法,其特征在于,所述步骤A包括:
A1.对所述原始查询进行分词处理,得到分词类查询候选;
A2.利用所述分词类查询候选对所述原始查询进行扩展处理,得到扩展类查询候选;
A3.对所述分词类查询候选和所述扩展类查询候选进行排序得到所述查询候选序列。
6.根据权利要求1至4任一权项所述的方法,其特征在于,所述相关性的计算依据至少包括所述目标检索结果的权值或所述目标检索结果的数目两者其中之一。
7.根据权利要求1至4任一权项所述的方法,其特征在于,所述相关性至少体现为下列参数之一:所述目标检索结果的第一页结果的平均权值、所述目标检索结果的最高权值、所述目标检索结果的最低权值、所述目标检索结果中权值满足第一阈值的检索结果的数目或所述目标检索结果的总数目。
8.根据权利要求1至4任一权项所述的方法,其特征在于,所述终结条件包括所述查询候选序列中的所有查询候选均已检索完毕或所述基于检索结果相关性判断的检索方法的执行时间达到设定的第二阈值。
9.一种基于检索结果相关性判断的检索装置,其特征在于,所述装置包括:
生成单元,用于利用用户的原始查询生成包含一个以上查询候选的查询候选序列;
检索单元,用于对所述查询候选序列中一个尚未检索的查询候选进行检索得到当前检索结果;
相关性计算单元,用于利用所述当前检索结果得到参与相关性计算的目标检索结果,并计算所述目标检索结果与所述原始查询的相关性;
判断单元,用于判断所述目标检索结果与所述原始查询是否足够相关或预设的终结条件是否满足,如果所述目标检索结果与所述原始查询足够相关或所述终结条件满足,则触发结果返回单元;否则触发所述检索单元执行所述检索;
结果返回单元,用于受到所述判断单元的触发后,将所有已检索的查询候选对应的检索结果作为最终检索结果返回给所述用户。
10.根据权利要求9所述的装置,其特征在于,所述相关性计算单元将所述当前检索结果作为所述目标检索结果。
11.根据权利要求10所述的装置,其特征在于,所述结果返回单元包括:
合并子单元,用于将所述当前检索结果与先前所有已检索的查询候选得到的检索结果合并得到所述最终检索结果;
发送子单元,用于向所述用户返回所述最终检索结果。
12.根据权利要求9所述的装置,其特征在于,所述相关性计算单元包括:
合并子单元,用于将所述当前检索结果与先前所有已检索的查询候选得到的检索结果合并,并将合并后检索结果作为所述目标检索结果;
计算子单元,用于计算所述目标检索结果与所述原始查询的相关性。
13.根据权利要求9至12任一权项所述的装置,其特征在于,所述生成单元包括:
分词子单元,用于对所述原始查询进行分词处理,得到分词类查询候选;
扩展子单元,用于利用所述分词类查询候选对所述原始查询进行扩展处理,得到扩展类查询候选;
排序子单元,用于对所述分词类查询候选和所述扩展类查询候选进行排序得到所述查询候选序列。
14.根据权利要求9至12任一权项所述的装置,其特征在于,所述相关性的计算依据至少包括所述目标检索结果的权值或所述目标检索结果的数目两者其中之一。
15.根据权利要求9至12任一权项所述的装置,其特征在于,所述相关性至少体现为下列参数之一:所述目标检索结果的第一页结果的平均权值、所述目标检索结果的最高权值、所述目标检索结果的最低权值、所述目标检索结果中权值满足第一阈值的检索结果的数目或所述目标检索结果的总数目。
16.根据权利要求9至12任一权项所述的装置,其特征在于,所述终结条件包括所述查询候选序列中的所有查询候选均已检索完毕或所述基于检索结果相关性判断的检索装置的执行时间达到设定的第二阈值。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN2011101519977A CN102207968B (zh) | 2011-06-08 | 2011-06-08 | 一种基于检索结果相关性判断的检索方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN2011101519977A CN102207968B (zh) | 2011-06-08 | 2011-06-08 | 一种基于检索结果相关性判断的检索方法及装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN102207968A true CN102207968A (zh) | 2011-10-05 |
CN102207968B CN102207968B (zh) | 2013-11-20 |
Family
ID=44696802
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN2011101519977A Active CN102207968B (zh) | 2011-06-08 | 2011-06-08 | 一种基于检索结果相关性判断的检索方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN102207968B (zh) |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103186574A (zh) * | 2011-12-29 | 2013-07-03 | 北京百度网讯科技有限公司 | 一种搜索结果的生成方法和装置 |
CN106815262A (zh) * | 2015-12-01 | 2017-06-09 | 北京国双科技有限公司 | 裁判文书的搜索方法及装置 |
CN108733757A (zh) * | 2018-04-11 | 2018-11-02 | 达而观信息科技(上海)有限公司 | 文本搜索方法及系统 |
CN109308299A (zh) * | 2018-09-12 | 2019-02-05 | 北京字节跳动网络技术有限公司 | 用于搜索信息的方法和装置 |
CN111680183A (zh) * | 2020-08-13 | 2020-09-18 | 成都睿沿科技有限公司 | 对象检索方法及装置、存储介质及电子设备 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6167398A (en) * | 1997-01-30 | 2000-12-26 | British Telecommunications Public Limited Company | Information retrieval system and method that generates weighted comparison results to analyze the degree of dissimilarity between a reference corpus and a candidate document |
CN101122909A (zh) * | 2006-08-10 | 2008-02-13 | 株式会社日立制作所 | 文本信息检索装置以及文本信息检索方法 |
CN101140573A (zh) * | 2006-09-05 | 2008-03-12 | 阿里巴巴公司 | 一种实现信息搜索的方法及系统 |
CN101819578A (zh) * | 2010-01-25 | 2010-09-01 | 青岛普加智能信息有限公司 | 检索方法、索引建立方法和装置及检索系统 |
-
2011
- 2011-06-08 CN CN2011101519977A patent/CN102207968B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6167398A (en) * | 1997-01-30 | 2000-12-26 | British Telecommunications Public Limited Company | Information retrieval system and method that generates weighted comparison results to analyze the degree of dissimilarity between a reference corpus and a candidate document |
CN101122909A (zh) * | 2006-08-10 | 2008-02-13 | 株式会社日立制作所 | 文本信息检索装置以及文本信息检索方法 |
CN101140573A (zh) * | 2006-09-05 | 2008-03-12 | 阿里巴巴公司 | 一种实现信息搜索的方法及系统 |
CN101819578A (zh) * | 2010-01-25 | 2010-09-01 | 青岛普加智能信息有限公司 | 检索方法、索引建立方法和装置及检索系统 |
Cited By (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103186574A (zh) * | 2011-12-29 | 2013-07-03 | 北京百度网讯科技有限公司 | 一种搜索结果的生成方法和装置 |
CN103186574B (zh) * | 2011-12-29 | 2016-08-10 | 北京百度网讯科技有限公司 | 一种搜索结果的生成方法和装置 |
CN106815262A (zh) * | 2015-12-01 | 2017-06-09 | 北京国双科技有限公司 | 裁判文书的搜索方法及装置 |
CN106815262B (zh) * | 2015-12-01 | 2020-07-03 | 北京国双科技有限公司 | 裁判文书的搜索方法及装置 |
CN108733757A (zh) * | 2018-04-11 | 2018-11-02 | 达而观信息科技(上海)有限公司 | 文本搜索方法及系统 |
CN108733757B (zh) * | 2018-04-11 | 2022-04-19 | 达而观信息科技(上海)有限公司 | 文本搜索方法及系统 |
CN109308299A (zh) * | 2018-09-12 | 2019-02-05 | 北京字节跳动网络技术有限公司 | 用于搜索信息的方法和装置 |
CN111680183A (zh) * | 2020-08-13 | 2020-09-18 | 成都睿沿科技有限公司 | 对象检索方法及装置、存储介质及电子设备 |
CN111680183B (zh) * | 2020-08-13 | 2020-11-24 | 成都睿沿科技有限公司 | 对象检索方法及装置、存储介质及电子设备 |
Also Published As
Publication number | Publication date |
---|---|
CN102207968B (zh) | 2013-11-20 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN102207968B (zh) | 一种基于检索结果相关性判断的检索方法及装置 | |
CN103646029B (zh) | 一种针对博文的相似度计算方法 | |
CN105608218A (zh) | 智能问答知识库的建立方法、建立装置及建立系统 | |
CN103577423A (zh) | 关键词分类方法及系统 | |
RU2008123604A (ru) | Автоматическое обнаружение онлайнового коммерческого намерения | |
KR20180075674A (ko) | 병렬 탐색 동작을 수행하기 위한 방법 및 장치 | |
WO2008043645B1 (en) | Establishing document relevance by semantic network density | |
CN106951526B (zh) | 一种实体集扩展方法及装置 | |
CN104866572A (zh) | 一种网络短文本聚类方法 | |
CN106445921A (zh) | 利用二次互信息的中文文本术语抽取方法 | |
CN102968419A (zh) | 交互式互联网实体名称的消歧方法 | |
CN101339560B (zh) | 一种搜索系列性数据的方法、装置及一种搜索引擎系统 | |
CN105224690A (zh) | 生成并选择对应含参语句的执行计划的方法及系统 | |
Patil et al. | Web spam detection using SVM classifier | |
CN103377224B (zh) | 识别问题类型的方法及装置、建立识别模型的方法及装置 | |
CN102063497B (zh) | 一种开放式知识共享平台及其词条处理方法 | |
CN110096703B (zh) | 用于意图识别的数据处理方法及装置、服务器、客户端 | |
CN104899262A (zh) | 一种支持用户自定义归类规则的信息归类方法 | |
CN105354264B (zh) | 一种基于局部敏感哈希的主题标签快速赋予方法 | |
CN106209614A (zh) | 一种网包分类方法和装置 | |
CN101183365A (zh) | 基于文档非内容特征的查询结果优化方法及装置 | |
CN105357118A (zh) | 一种基于规则的流量分类方法和系统 | |
CN106407332B (zh) | 基于人工智能的搜索方法和装置 | |
CN103870590A (zh) | 具有报错特征的网页识别方法和装置 | |
CN104572868A (zh) | 基于问答系统的信息匹配的方法和装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C14 | Grant of patent or utility model | ||
GR01 | Patent grant |