CN100433007C - 提供搜索结果的方法 - Google Patents

提供搜索结果的方法 Download PDF

Info

Publication number
CN100433007C
CN100433007C CNB2005101145507A CN200510114550A CN100433007C CN 100433007 C CN100433007 C CN 100433007C CN B2005101145507 A CNB2005101145507 A CN B2005101145507A CN 200510114550 A CN200510114550 A CN 200510114550A CN 100433007 C CN100433007 C CN 100433007C
Authority
CN
China
Prior art keywords
inquiry
user
search results
search
document
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
CNB2005101145507A
Other languages
English (en)
Other versions
CN1750002A (zh
Inventor
孙斌
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Individual
Original Assignee
Individual
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Individual filed Critical Individual
Priority to CNB2005101145507A priority Critical patent/CN100433007C/zh
Publication of CN1750002A publication Critical patent/CN1750002A/zh
Application granted granted Critical
Publication of CN100433007C publication Critical patent/CN100433007C/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

一种提供搜索结果的方法,包括如下步骤:为用户提交的搜索查询构造一批导出查询;将至少一部分导出查询返回给用户,并且为一个或多个被返回的导出查询分别构造其搜索结果集合,该集合中的至少一部分搜索结果也被返回给用户。所述导出查询被赋予一个级别值;具有较高级别的导出查询被优先返回给用户。被返回的导出查询及其搜索结果列表被设置在返回结果显示页面的不同区域中,每个区域可以单独地被打开或者关闭,每个区域中的搜索结果列表可以被单独地翻页浏览。全局性的导出查询与根据局部的关键词相关聚类的结果可以通过调整导出查询和/或聚类的级别值、合并或过滤搜索结果等形式而结合起来,获得更佳的技术效果。

Description

提供搜索结果的方法
技术领域
本发明涉及信息搜索技术,特别是有关依据用户提交的查询而生成和提供搜索结果的方法,例如在联机文档检索系统或者网络搜索引擎中提供搜索结果的方法。
背景技术
目前,基于计算机或者计算机网络的文档检索系统和互联网搜索引擎对于用户查询所返回的搜索结果通常是一个文档表示(例如标题、摘要、文档地址链接)列表,其中各个搜索结果按照文档与查询之间的相关程度由高到低排序。用户在此列表中进一步查找和选取实际相关或有用的文档。对于非常大的文档库,例如大型联机文档检索系统的文档库或互联网搜索引擎的网页库,系统返回给用户的搜索结果通常包含了成百上千的相关文档。在大量的返回结果中查找有用信息对于用户而言是一种很大的负担,而且质量、类别等有很大不同的文档(如网页)线性地罗列在一起容易掩盖用户真正关心的内容。特别是,当前的主流搜索引擎(例如www.Google.com,search.Yahoo.com,search.MSN.com,www.Baidu.com等)都是基于关键词来进行索引和检索的,因此对于包含了多义的或者应用宽泛、搭配多样的关键词的查询(例如“笔记本”、“病毒”、“mp3”等),其返回的搜索结果列表通常包含了很多主题不相关、混杂在一起的文档。
对此,除了进一步提高文档检索技术(例如充分利用网页的超链接特征、文本格式化信息等)、尽量将用户可能感兴趣的文档排列在靠前的位置之外,另外一种方便用户在搜索结果中进行浏览和查找的技术是系统对搜索结果进行自动分组,即将具有相似特征(例如内容主题)的文档(或文档表示)放在同一组之中,以便于用户缩小查找范围、只在感兴趣的少数组中查找和选取所关心的文档。对搜索结果分组的技术可归为两种类型:一种技术是文档分类(Classification),或更准确地称为文档归类(Categorization),即首先在一个预先定义的、固定的类别集合中确定各个文档的一个或者多个类别,然后系统根据搜索结果中每个文档的类别信息完成分类。其优点在于各个文档都预先(即在处理搜索请求之前)已确定了类别,系统对文档的归类过程可以简单高效地完成;其缺点是固定的分类体系不易维护、只适用于很小的领域、缺乏可扩充性和灵活性、兼类现象严重、难于保证分类的准确性和一致性等。另一种对搜索结果分组的技术是文档聚类(Clustering),即将具有相近特征的文档找出来、并为它们动态生成一个类别标记,因此可以避免归类方法的上述困难。由于被聚类的对象是根据查询而获得的文档,搜索结果聚类可以动态地反映文档类别随用户查询的不同而变化的特征。但这类方法的缺点是运行时间效率差、难以满足搜索引擎这类与用户实时在线交互的大规模文档检索系统的性能要求。通常的文档聚类算法的时间复杂性为O(n2)~O(n3),n是被聚类的文档的数目,这对于大规模文档检索系统而言太慢,只能处理比较小的文档、或者比较少的文档内容(例如Web文档摘要片段)。例如Vivisimo公司提出的聚类引擎(参见网址http://Vivisimo.com)就是一种典型的小文档集合上的快速聚类系统、其文档摘要限制在200篇以内、用户端响应时间最长在5秒钟以内。
中国专利公开(公开号1609859,发明人孙斌)提出了一种关键词相关的搜索结果聚类的方法(KeyWord Associated Clustering,简称为KWAC),用以实现对文档数量和内容不作严格限制、对生成的类别数量也不予限定的高效大规模的搜索结果聚类技术。其特征在于预先记录每个被索引文档相对于其索引关键词(或词组)的类别,而且这些局部到单个文档和单个查询的聚类类别可以直接根据索引关键词快速得到。这样就可以把一个无指导的聚类问题转换为一个归类问题,使得聚类过程可以非常高效地完成,同时克服了常规归类方法对每个文档指定一个(或一组)全局的、对于所有查询都一样的类别的缺陷。另外,根据聚类的文档数量、文档权重等信息,还可对得到的类别进行评级(Ranking)和排序,由此以便于浏览的方式将具有较高级别的聚类以及其中较高级别的文档优先呈现给用户。虽然对于多数较短(包含的关键词数目较小)的查询该方法有高效、准确的优点,但对于比较复杂的查询关键词组合(例如由搜索引擎的“高级搜索”方式形成的包含多个短语和条件的查询),该方法依据多个局部的分类信息来准确地确定用户查询的各种可能含义的处理过程将会比较复杂、或者需要很多语言数据资源的支持,并且通常所得到的聚类结果在全面性、可理解性方面也存在不足之处。
发明内容
本发明的一个目的是提出一种直接根据用户的查询来得到其各种导出形式,并利用这些导出的查询来呈现分类方式的搜索结果、从而便于用户浏览和查找搜索结果的方法。
本发明的另一个目的是提出一种对用户查询的上述导出查询进行评级和排序的方法。
本发明的再一个目的是提出一种综合性的方法,将这种根据导出查询来分类和排序搜索结果的方法同已公开中国专利申请(公开号1609859)提出的根据局部于单个文档的聚类类别来分类和排序搜索结果的方法结合起来,以便获得更佳的技术效果。
为达到上述目的,本发明采取的技术方案是:一种提供搜索结果的方法,所述搜索结果是作为对某个搜索请求的响应而从一个被索引的文档集合中选取的一批文档,所述搜索请求来自使用计算机或者计算机网络的用户并且包含一个搜索查询,其特征在于包括如下步骤:
a.为用户提交的搜索查询构造一批新的查询;
b.将至少一部分新的查询返回给用户,并且为一个或多个被返回的新的查询分别构造其搜索结果集合,该集合中的至少一部分搜索结果也被返回给用户。
所述新的查询是与用户提交的查询相关的查询,通过查找预先由小粒度索引项索引的查询集合而得到。每个新的查询依据其与原用户查询的相似程度、使用次数、所对应的搜索结果文档的数量和文档的级别等因素而被赋予一个级别值。新的查询按照其级别数值的大小排序,具有较高级别的新的查询被优先返回给用户。返回给用户的各个新的查询的一部分具有较高文档级别的搜索结果也被返回给用户。被返回的新的查询及其搜索结果列表被设置在返回结果显示页面的不同区域中,每个区域可以单独地被打开或者关闭,每个区域中的搜索结果列表可以被单独地翻页浏览。新的查询与根据局部于单个文档和单个关键词的聚类类别可通过调整查询和/或聚类的级别值、合并或过滤搜索结果等形式而结合起来。
本技术方案具备如下的技术效果:根据用户查询而获得的导出查询集合提供了一种对搜索结果范围进行全局划分和组织的功能,实现了与用户查询关键词相关的搜索结果全局性分类。导出查询可通过小单元索引方式快速检索而得到,适用于大规模的文档检索。同时,这种分类方式又克服了常规的归类方法预先固定文档类别的缺陷。另外,导出查询按照其级别值被排序,应用系统可以将具有较高级别的导出查询以及其中较高级别的文档优先呈现给用户,并以便于用户浏览和查找的方式按区域分别显示这些分类搜索结果。对于复杂的用户查询,导出查询所对应的搜索结果分类具有比局部的关键词相关的聚类类别更好的普遍性、准确性和稳定性,同时这种全局分类的结果还可以同局部聚类的结果结合起来,以获得更佳的技术效果。
附图说明
本说明书包含2个附图。
附图1是本发明一个实施例的流程图。
附图2是本发明实施例生成的一个输出结果样例。
具体实施方式
下面结合附图和实施例对上述技术方案作进一步的说明。
本发明的实施例通过一个互联网搜索引擎系统而实现。搜索引擎系统由文档收集、文档索引和查询处理三个子系统组成,分别实现互联网站点上的文档(HTML文档及其它格式的数据文件)的发现和收集、对收集在文档库中的文档进行索引、对搜索用户提交的查询请求进行处理并返回搜索结果等功能。作为大规模文档检索系统,搜索引擎的文档检索部分通常使用倒排索引的方式,即以关键词来索引包含了该关键词的各个文档,并可记录该关键词在文档中的出现频次、位置和格式等信息。在信息检索领域,“关键词”一般指称用于文档索引和检索的项(term),包括文档中的特征项即“索引项”(index term)和查询中的特征项即“搜索项”(search term)。这些项可以是通常的词、词组,也可以是其它类型的字符串(例如词的二元组bigram等)。除非特别说明,本发明所使用的“关键词”概念遵循这种一般性的含义。
设有文档集合{di|i=1,2,...,I},其中I是被索引文档的总数。文档检索系统使用一个关键词集合(索引词典){kwj|j=1,2,...,J}来索引一批文档。文档检索的过程即系统使用查询中的关键词来搜索文档索引。查询通常为单个关键词或者多个关键词的组合(例如逻辑表达式)。设查询Q包含关键词kw1、kw2、...、kwQ,记为Q(kw1,kw2,...,kwQ)。如果查询中的关键词kwi在索引中出现,则通过索引可以获得所有包含该关键词kwi的文档。以此得到查询中的各个关键词所对应的文档集合,再经过适当的集合运算(交集、并集、差集等),就得到了候选的相关文档集合。系统利用一定的判据(例如关键词频次和位置等)确定查询与各个候选文档的相关程度、据此为每个相关文档设置一个相似度数值(或称为文档级别rank值),从候选文档集合中选取一部分文档作为搜索结果。通常需要将搜索结果中的文档按照相关程度由高到低排序,并为它们生成文档表示(包括标题、摘要、文档编号或者网址等信息)。
对于交互式信息系统例如搜索引擎,用户提交的查询通常比较简短,由数目较少的关键词组成,因而往往包含多种可能的查询意图。例如查询Q=“病毒”是一个高度歧义的查询,不同用户使用该查询词可能表示不同的含义:有可能是指生物病毒(例如肝炎病毒、艾滋病毒等),也可能是指计算机病毒;每一种可能的含义又包含多个不同的用法,例如对于计算机病毒的情况,用户想查询的主题可能包括:病毒的防治、杀病毒软件下载、病毒库升级、计算机病毒的原理等等。
为了较好地处理这种情况,本发明的实施例使用了一个“两次检索”的文档检索模型:首先由用户查询Q得到一批导出查询Q1、Q2、...Qn;然后分别得出各个导出查询Q1,...,n的搜索结果并作适当的排序和组织。由此为用户提供一种选择在某个或某几个导出查询的搜索结果列表中浏览和查找感兴趣结果的功能。
本发明一个优选实施例的流程图如附图1所示,其包含的步骤是:
110:根据用户查询Q构造一批导出查询Q1、Q2、...Qn
120:计算这些导出查询Q1,...,n的级别值,并对级别值较高的m≤n个导出查询Q′1,...,m分别进行常规的文档检索,获得各自的搜索结果列表;
103:将导出查询Q′1,...,m连同各个导出查询的搜索结果列表中文档级别较高的L个文档放置在返回结果显示页面中,输出给用户。
此流程完整地实现本发明的技术方案。下面详细说明各个步骤的内容。
·导出查询的获得:
本发明的导出查询是指与用户提交的查询有密切关联的一组查询。每个导出查询表示用户查询的某种更明确的含义、某种具体的用法、某种引申或者附加的语义、或与其它关联词的某搭配形式。例如对于查询Q=“病毒”,其常用的一组导出查询包括:
Figure C20051011455000061
其中每个导出查询Qi依据其与原用户查询Q=“病毒”的相似程度、被用户使用过的次数等因素而被赋予一个级别QueryRank(Qi|Q),该数值列在每个导出查询的右侧(可使用相对的百分数比例表示)。
为获得各种可能的用户查询的导出查询,本实施例预先构造了一个数量众多的候选查询集合,其中每一个查询都有可能作为某个用户查询的导出查询而被使用。可以从多个来源提取候选查询来构造这个候选查询集合。本实施例的候选查询集合通过综合利用语义词典、短语搭配关系规则以及语料库统计而构造,其方法如下:
·将当前文档集合的所有索引项(即索引词典中的词条)加入候选查询集合,并且当索引词典扩充新的词条时,这些新的词条也被加入候选查询集合;
·通过语义词典,可得到候选查询集合中的各个候选查询词或者词组的各种同义词或近义词,或者有相同或相似的含义但用法不同的词或短语,它们都被加入候选查询集合;
·根据短语搭配关系,将某个候选查询的相似搭配词组、各种衍生词组都加入候选查询集合;
·再通过在某个大型语料库中统计词频、多个词的共现情况、词组和短语结构等信息,可获得以上过程没有包括的更多的查询词或词组,并将其加入候选查询集合;
·另外,从搜索引擎记录用户以往查询的HTTP消息日志中补充一部分候选查询;
·不断进行以上处理,直到没有满足条件的候选查询可以加入、或者候选查询集合达到了特定的规模为止,从而使得该候选查询集合涵盖了其中各个候选查询的各种同义或近义形式、等效的用法、以及多种含义(歧文)情况。
由此,获得一个查询的导出查询的过程就成为从候选查询集合中查找该查询的同义、近义、等效以及歧义的候选查询的过程。有多种字符串查找算法可以实现这种查找过程。由于所使用的候选查询集合包含的查询字符串的数目很大,出于效率的原因,本发明实施例使用一种(小)文档检索的技术实现候选查询的查找过程。其方法是:将候选查询集合中的每个查询当作一个小的文档,为整个候选查询集合建立倒排索引;将用户查询也作为一个小的文档,利用候选查询集合的倒排索引即可检索出所有与用户查询具有一定相似度的候选查询。具体的检索方法可以使用本领域熟知的Boolean模型、向量空间模型(VSM)、概率检索模型等实现。
在此过程中,特别重要的一点是需要使用较小的(细粒度)索引单元作为索引项来索引候选查询集合,因为被索引的文档是候选查询所包含的很短的字符串。本发明实施例建立了一个专门的用于索引候选查询集合的索引词典,其中的词条是一批使用频繁、结合稳定、长度较小的词、语素或短语。候选查询集合中的各个查询通过此细粒度索引词典而被分解为较小的单元,成为小索引单元集合上的文档向量。
同时,为了进行同义和等效用法检索,本发明实施例还进一步将候选查询对应的文档向量变换到一个语义索引单元集合上。该语义索引单元集合是由上述细粒度索引词典中的词条所对应的语义分类标记组成的。本实施例利用语义分类标记作为索引单元为候选查询集合建立倒排索引,其检索方法属于一种基于语义的向量空间模型(Semantic-BasedVSM)。
本发明实施例采用的语义分类体系是WordNet的词汇义项(sense)集合(参见网址http://wordnet.princeton.edu)。WordNet为常用的基本词的诸多义项作了标记和分类,并确定了这些义项之间的多种语义关系。经过多年的开发,WordNet目前已经在信息检索领域中获得了广泛的应用,成为相关工作的事实上的标准。本实施例的义项集合使用WordNet的多语言版本(参见网址http://www.globalwordnet.org)。
例如,单词“bank”的17个义项的代码(称为synset_id)以及各个义项在本实施例所使用的某个语料库中出现的总次数(称为义项频率sf)和包含该义项的文档的数目(称为文档频率df)如下所示:
synse_id/sf/df
                            
“bank”:106227059/20/9;
          106800223/14/6;
          106739355/2/2;
          201093881/1/1;
          106250735/1/1;
          201599940/0/0;
          201599852/0/0;
          201579642/0/1;
          201393302/0/0;
          200841124/0/0;
          200464775/0/2;
          109626760/0/0;
          109616845/0/0;
          106800468/0/0;
          103277560/0/0;
          102247680/0/0;
          100109955/0/0.
候选查询集合的义项空间由这些义项代码(synset_id)作为维度而构成。例如,如果某个候选查询Qi包含“bank”,则Qi在上述17个义项代码对应的维度上将具有非零的分量,而某个分量的具体取值由向量空间模型所使用的项权重衡量(Term Weighting)方式确定。本实施例将常规VSM的项频率·文档频率倒数(tf·idf)方法应用在义项频率sf和义项的文档频率df上,确定各个查询在义项空间各个维度上的分量数值。任意两个查询Qi和Qj之间的相似度sim(Qj,Qj)二者在义项空间上的向量的夹角的余弦来定义:
sim(Qi,Qj)=cos(Qi,Qj).                                (1)
根据本发明的实施例,附图1的步骤110(即由用户查询Q获得其众多导出查询的过程)的具体内容如下:将用户查询Q分解成为小的索引单元;用这些小索引单元检索候选查询集合的倒排索引,获得一批相关的候选查询;按照上述公式(1)分别计算用户查询Q与这些相关候选查询的相似度,从而得到相似度最高的(或者相似度大于某个阈值的)若干个相关候选查询Q1,Q1,...,Qn作为Q的导出查询集合。
本发明实施例通过使用词汇义项作为候选查询集合的索引单元而具备如下特性:同义、近义、等效用法的检索能够直接、高效率地进行(例如容易实现“计算机”→“电脑”的匹配);同时,通过使用多语言版本的义项词典,支持多语言的同义导出查询的检索(例如实现“Windows”→“视窗操作系统”一类的导出查询)。
另外,上述候选查询集合的索引过程是在离线(off-line)状态下进行,可进一步利用倒排索引的各种周知的效率优化技术,使得在处理用户查询的时候尽快地完成步骤110。
本领域普通人员周知的基于VSM的各种文档聚类方法也可同理地应用在候选查询集合的小文档上,以便将相似度很高的候选查询放在同一个分组中,更有效地组织和检索整个候选查询集合。
·导出查询级别的计算:
在附图1的步骤120,在获得了用户查询Q的导出查询Q1,Q2,...,Qn之后,即可按照常规的文档检索流程,分别为这些查询Qi构造一个相关文档集合、将其中的文档按照其与查询Qi的相似度排序而形成Qi的搜索结果列表。但导出查询的数目通常比较大,一般达到上千条的规模,即n~1000,如果逐一构造各个导出查询的搜索结果,则系统需要花费很长的时间。另一方面,搜索引擎的检索系统能够同时处理的并行查询的数量是有限的,因此也不能同时并行(或并发)地构造这n个导出查询的搜索结果,而只能在一次返回结果中提供数量有限的少量导出查询的搜索结果列表。(具体可以提供的最大的并发导出查询的数目由搜索引擎查询处理系统的并行计算容量决定。)本发明实施例通过赋予这些导出查询一个级别值,每次与用户交互时只选取少数级别值较大的导出查询来构造其搜索结果列表,以便满足快速向用户返回结果的要求。
设用户查询Q的导出查询Q1,Q2,...,Qn的级别记为QueryRank(Qi|Q),i=1,2,...,n.QueryRank(Qi|Q)表示用户提交查询为Q的时候系统将导出查询Qi以及Qi的搜索结果列表返回给用户的优先程度。
在简单的情况下,可以将QueryRank(Qi|Q)定义为查询Q与Qi的相似度:
QueryRank1(Qi|Q)=sim(Qi,Q)                                (2)
如果考虑到查询Qi在搜索引擎查询历史纪录中出现的次数fHistroy(Qi),则可以定义一个更全面的导出查询级别:
QueryRank2(Qi|Q)=a·sim(Qi,Q)+b·v(fHistory(Qi))          (3)
其中a和b是两个可以调节的参数,分别表示形似度和查询次数对导出查询级别的重要程度,可在系统实现时根据实际效果设定。函数v(f)可取比较简单的形式v=f.
根据本发明实施例,在获得了用户查询Q的导出查询Q1,...,n之后,根据上述Rank1或者Rank2对这些导出查询作一次排序,从Q1,...,n中选出m≤n个级别较高的导出查询Q′1,Q′2,...,Q′m优先构造其搜索结果集合。根据系统运行效率,本实施例选取的m的大小范围为5~15。
在检索系统运行这些导出查询Q′1,Q′2,...,Q′m并获得各自的搜索结果集合之后,本实施例再对这些导出查询Q′1,...,m进行一次评级和排序,以确定在提供给用户的搜索结果显示页面中这些导出查询Q′1,...,m及其搜索结果列表的最终排序。从提供给用户的搜索结果集合的角度看,这种排序是对以导出查询Q′1,...,m作为类别标记的m个搜索结果分类进行评级和排序。
设导出查询Q′j对应的搜索结果集合(已排序的相关文档列表)由ResultList(Q′j)表示,并且在此集合中文档级别排在第k位的某个文档dk的文档级别由DocRank(dk)表示。用户查询Q的导出查询Q′j在具有了搜索结果列表ResultList(Q′j)之后的级别由ClassRank(Q′j|Q)表示,它代表Q′j的搜索结果集合作为一个类的整体优先程度。
根据搜索结果列表ResultList(Q′j)中各个文档的级别可以为查询Q′,式子一个总体的文档级别,记为QueryDocRank(Q′j),其计算方法可包括如下3种情况:
QueryDocRank 1 ( Q ′ j ) = Σ k = 1 N ( Q ′ j ) DocRank ( d k ) - - - ( 4 )
QueryDocRank 2 ( Q ′ j ) = 1 N ( Q ′ j ) · Σ k = 1 N ( Q ′ j ) DocRank ( d k ) - - - ( 5 )
QueryDocRank 3 ( Q ′ j ) = Σ k = 1 N ( Q ′ j ) f ( k ) · DocRank ( d k ) - - - ( 6 )
其中,N(Q′j)=||ResultList(Q′j)||表示搜索结果列表ResultList(Q′j)所包含的文档数。对于非常大的网页文档库,N(Q′j)可以是某种估计值或者抽样统计,而不必是精确的与Q′j相关的文档数目。上述QueryDocRank1是搜索结果列表中所有文档的级别的总和,表示整个搜索结果(作为一个类别)的重要性,即表示该类搜索结果在总体上是否值得被用户先看到;QueryDocRank2是搜索结果列表中所有文档的级别的算术平均值,表示结果列表中某任选的单个文档的重要程度;而QueryDocRank3是搜索结果列表中所有文档的级别的加权平均值,f(k)是权重因子。根据本实施例,f(k)的取值为:
f ( k ) = 1 k - - - ( 7 )
可根据实际情况选择QueryDocRank的上述3种形式之一。根据本发明实施例,在各个导出查询的搜索结果列表的文档数目差别不是很大时,QueryDocRank1是较好的指标;在各个类别中的文档数目比较接近(或者被强制取舍成为一致)时,QueryDocRank2和QueryDocRank3是较好的指标,前者对于搜索结果列表中文档级别的差异不是非常剧烈时较好,后者对于搜索结果列表中文档级别的差异很大时较好。
根据搜索结果列表ResultList(Q′j)获得了导出查询Q′j的总的文档级别QueryDocRank(Q′j)之后,就可以结合其与用户查询Q相关的级别QueryRank而得到Q′j作为分类排序的级别ClassRank(Q′j|Q)。根据本发明实施例,它包含如下两种情况:
ClassRank1(Q′j|Q)=QueryRank(Q′j|Q)·QueryDocRank(Q′j)        (8)
ClassRank2(Q′j|Q)=c·QueryRank(Q′j|Q)+d·QueryDocRank(Q′j)   (9)
其中c和d是两个可以调节的权重参数。在本实施例中,C1assRank可根据用户对分类效果的偏好而被选取为ClassRank1或者ClassRank2,例如当用户倾向于优先查看少数重要的导出查询及其搜索结果时,系统使用ClassRank1对Q′j进行对排序;当用户倾向于在更多的导出查询及其搜索结果中进行浏览时,系统使用ClassRank2对Q′j进行排序。
另外,根据各个类别中的搜索结果列表被用户点击的次数、往后翻页浏览的次数等统计数据,还可以进一步地调整ClassRank的数值。这类方法已在常规的搜索引擎文档评级技术领域中广为熟知和使用,亦可直接应用于本发明之中。
·分类搜索结果的输出和显示:
在附图1的步骤130,用户查询Q的导出查询Q1,Q2,...,Qn中的前m个级别较高的导出查询Q′1,Q′2,...,Q′m经过上述评级和排序处理之后,这m个导出查询及其搜索结果列表ResultList(Q′1),...,ResultList(Q′m)的每一个之中具有较高文档级别的L个搜索结果被组织为一个显示页面而被返回给用户。在本发明实施例中,L的值取为3。当用户选对所有导出查询Q1,2,...,n的列表进行翻页(即选择后续的m个级别较高的导出查询Q′m+1,...,2m),则后续的m个导出查询及其搜索结果列表ResultList(Q′m+1),...,ResultList(Q′2m)将按相同方式被提供给用户。
附图2是本实施例的一个输出页面样例。用户输入的查询关键词201是Q=“virus”(病毒)。系统在返回的页面上显示了3个分类级别最高的导出查询
Q′1=“antivirus”,
Q′2=“virus scan”,
Q′3=“bacteria”,
并将Q′1,2,3按照ClassRank1级别(由公式8定义)排序。每个类中具有最高级别的前3个文档被首先列出。
如附图2所示,本实施例的上述各个导出查询的搜索结果列表被放置在返回结果显示页面的不同区域203中。每个区域203可以作为主页面窗口的一个嵌入式框架(Frame)子窗口而实现。该导出查询的搜索结果列表通过其分页号超链接204而被单独地翻页和浏览。每个区域203可以通过点击设置在导出查询名称文字202上的超链接(引发一小段标准的HTML JavaScript脚本程序)而单独地被打开或者关闭。由此,用户可以关闭不感兴趣的导出查询的搜索结果列表显示区域,只在感兴趣的导出查询的搜索结果列表中逐页查看相关的搜索结果,从而方便地查阅感兴趣的结果。
通过常规的搜索引擎设置方法,用户还可以指定每个搜索结果显示页面所包含的同时显示的导出查询个数,包括预先打开的导出查询的搜索结果列表个数与初始时为关闭状态的导出查询的个数。用户还可以指定在每个导出查询搜索结果列表区域中的每一页中所列出的搜索结果条数。
根据搜索引擎的检索系统运行效率和用户端网页浏览器软件的交互模式,本发明实施例附图1所示的流程还可作如下的变换,以便实现不同方式的导出查询搜索结果列表的获取:
·在步骤110获得用户查询的导出查询列表Q1,2,...,n之后,可把级别较高的前m个导出查询Q′1,...,m立即返回给用户端浏览器,以便用户尽快看到这些导出查询Q′1,...,m
·然后用户端浏览器通过运行一段常规的HTML JavaScript脚本程序,逐一地把导出查询Q′1,...,m发送给搜索引擎,并通过在搜索请求中设置特别标记,使得搜索引擎按照常规的文档检索模式处理这些查询(即不再对查询Q′1,...,m之中的任意一个查询继续构造其导出查询),返回各自的搜索结果列表的前L项(L~3);
·最后用户端浏览器将每个查询的搜索结果列表在各自的一个嵌入式框架子窗口(例如由HTML<IFRAME>元素设置的框架子窗口)显示出来。
当前主流的网页浏览器可以一边请求和装载网页,一边并发地传送这些导出查询Q′1,...,m,使上述提供分类显示的搜索结果的过程能很快完成。
另外,在附图1的步骤130,还可以将少数(例如2~3个)不带搜索结果的导出查询返回给用户,在用户点击选择它们之后再获取其搜索结果,并插入到显示页面的一个可展开的子窗口区域中。
·与局部的关键词相关的搜索结果聚类的结合:
与中国专利公开(公开号1609859)提出的局部化的关键词相关的搜索结果聚类方法(简称为局部KWAC方法)相比,本发明的所提出的提供搜索结果的方法可以看作是一种与用户查询(关键词)相关的对搜索结果进行全局分类的方法(以下简称为全局KWAC方法)。根据本发明实施例的处理过程,全局KWAC方法的上述结果可以同局部KWAC方法的结果结合起来。
对于简单的搜索查询(例如仅仅包含单个索引关键词的查询),局部KWAC方法具有很好的聚类质量和优化的运行效率(可在单次查询处理中完成对所有搜索结果文档的聚类)。而对于比较复杂的搜索查询,全局KWAC方法的导出查询所对应的搜索结果分类比局部KWAC聚类类别具有更好的可读性、稳定性和准确性。二者的结合可实现各自的优势,在实际应用中获得更佳的技术效果。
根据本发明实施例,可通过调整导出查询和/或聚类的级别值、合并或过滤搜索结果的形式而将二者结合。具体方式包括:用全局KWAC方法的结果对局部KWAC方法的结果进行补充,避免遗漏某些查询关键词的多种含义或用法;用全局KWAC方法的结果来过滤局部KWAC方法的聚类列表,避免出现某些不合惯常用法的“垃圾聚类”结果;用局部KWAC方法的聚类结果来调整全局KWAC方法的导出查询的级别(re-ranking),使其更好地反映该导出查询在具体文档中的权重。
在导出查询的数量较小的情况下,还可以把全局KWAC方法的导出查询列表同局部KWAC方法的聚类列表合并起来,使得用户能够同时浏览和查找更多的搜索结果分类。
当系统的运行效率不高或者受到限制时(例如有大量用户同时提交搜索请求),还可以通过如下简单的方式将全局KWAC和局部KWAC方法结合起来:对用户的搜索查询应用局部KWAC方法进行聚类;同时,获得用户查询的导出查询列表,将其与局部KWAC方法的聚类类别列表合并,但不再进一步获得各个导出查询的搜索结果;当用户查看合并后的类别列表并选择了导出查询所对应的类别时,再对这个被选中的导出查询构造搜索结果列表。
本发明的实施例使用了倒排索引方式的文档检索系统。但是,本领域普通技术人员可清楚地知道本发明的应用范围并不局限于这种方式的系统。
本发明的技术方案还可以用其它不同于上述实施例的方式实现。所附的权利要求书涵盖了对以上所描述的各要素的诸多变形与替换。

Claims (8)

1.一种提供搜索结果的方法,所述搜索结果是作为对某个搜索请求的响应而从一个被索引的文档集合中选取的一批文档,所述搜索请求来自使用计算机或者计算机网络的用户并且包含一个搜索查询,其特征在于包括如下步骤:
a.为用户提交的搜索查询构造一批新的查询;
b.将至少一部分新的查询返回给用户,并且为一个或多个被返回的新的查询分别构造其搜索结果集合,该集合中的至少一部分搜索结果也被返回给用户。
2.根据权利要求1所述的提供搜索结果的方法,其特征在于:所述新的查询是与用户提交的查询相关的查询,通过从一个预先建立的查询集合中查找与所述用户搜索查询相关联的一部分查询而得到。
3.根据权利要求2所述的提供搜索结果的方法,其特征在于:所述预先建立的查询集合使用较小粒度的索引单元作为索引项来索引,所述索引单元包括长度较小的词或短语,或者是这些词或短语的语义分类代码。
4.根据权利要求1至3之一所述的提供搜索结果的方法,其特征在于:所述新的查询被赋予一个级别值。
5.根据权利要求4所述的提供搜索结果的方法,其特征在于:所述新的查询按照其级别数值的大小排序,具有较高级别的查询被优先返回给用户。
6.根据权利要求4所述的提供搜索结果的方法,其特征在于:返回给用户的各个新的查询的搜索结果中具有较高文档级别的搜索结果被优先返回给用户。
7.根据权利要求4所述的提供搜索结果的方法,其特征在于:所述新的查询依据其与用户搜索查询的相似程度、或者在查询历史纪录中出现的次数、或者所对应的搜索结果中的文档数量或文档级别而被赋予一个级别值。
8.根据权利要求1至3之一所述的提供搜索结果的方法,其特征在于:所述新的查询及其搜索结果被放置在返回结果显示页面的不同区域中,每个区域可以单独地被打开或者关闭,每个聚类区域中的文档表示列表可以被单独地翻页浏览。
CNB2005101145507A 2005-10-26 2005-10-26 提供搜索结果的方法 Expired - Fee Related CN100433007C (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CNB2005101145507A CN100433007C (zh) 2005-10-26 2005-10-26 提供搜索结果的方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CNB2005101145507A CN100433007C (zh) 2005-10-26 2005-10-26 提供搜索结果的方法

Publications (2)

Publication Number Publication Date
CN1750002A CN1750002A (zh) 2006-03-22
CN100433007C true CN100433007C (zh) 2008-11-12

Family

ID=36605443

Family Applications (1)

Application Number Title Priority Date Filing Date
CNB2005101145507A Expired - Fee Related CN100433007C (zh) 2005-10-26 2005-10-26 提供搜索结果的方法

Country Status (1)

Country Link
CN (1) CN100433007C (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107203567A (zh) * 2016-03-18 2017-09-26 伊姆西公司 用于搜索字串的方法和设备

Families Citing this family (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN100507915C (zh) * 2006-11-09 2009-07-01 华为技术有限公司 网络搜索方法、网络搜索设备和用户终端
US7630972B2 (en) * 2007-01-05 2009-12-08 Yahoo! Inc. Clustered search processing
CN101599065A (zh) * 2008-06-05 2009-12-09 日电(中国)有限公司 相关查询组织系统和方法
CN101662385B (zh) * 2009-09-27 2012-01-04 杭州华三通信技术有限公司 一种显示接口信息的方法和装置
CN101777074B (zh) * 2010-01-29 2012-09-05 蓝盾信息安全技术股份有限公司 一种通过关键词检索页面的方法及装置
US9336314B2 (en) * 2010-12-29 2016-05-10 Microsoft Technology Licensing, Llc Dynamic facet ordering for faceted search
CN102156733A (zh) * 2011-03-25 2011-08-17 清华大学 一种基于面向服务架构的搜索引擎及搜索方法
CN103324640B (zh) * 2012-03-23 2016-06-08 日电(中国)有限公司 一种确定搜索结果文档的方法、装置和设备
CN103279504B (zh) * 2013-05-10 2019-11-05 百度在线网络技术(北京)有限公司 一种基于歧义消解的搜索方法及装置
US10102288B2 (en) 2013-11-18 2018-10-16 Microsoft Technology Licensing, Llc Techniques for managing writable search results
CN105468627A (zh) * 2014-09-04 2016-04-06 纬创资通股份有限公司 屏蔽与过滤网页内容的方法与系统
US9547690B2 (en) 2014-09-15 2017-01-17 Google Inc. Query rewriting using session information
CN104991962B (zh) * 2015-07-22 2019-01-18 无锡天脉聚源传媒科技有限公司 一种生成推荐信息的方法及装置
CN106022163A (zh) * 2016-05-17 2016-10-12 上海凭安网络科技有限公司 一种基于第三方自动混淆的查询方法及系统
CN107180087B (zh) * 2017-05-09 2019-11-15 北京奇艺世纪科技有限公司 一种搜索方法及装置
CN112434070A (zh) * 2020-12-14 2021-03-02 四川长虹电器股份有限公司 一种基于相似度算法的分页查询方法

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6167397A (en) * 1997-09-23 2000-12-26 At&T Corporation Method of clustering electronic documents in response to a search query
CN1404590A (zh) * 2000-12-22 2003-03-19 皇家菲利浦电子有限公司 元数据分类和信息入口的创建方法
US6654739B1 (en) * 2000-01-31 2003-11-25 International Business Machines Corporation Lightweight document clustering
CN1609859A (zh) * 2004-11-26 2005-04-27 孙斌 搜索结果聚类的方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6167397A (en) * 1997-09-23 2000-12-26 At&T Corporation Method of clustering electronic documents in response to a search query
US6654739B1 (en) * 2000-01-31 2003-11-25 International Business Machines Corporation Lightweight document clustering
CN1404590A (zh) * 2000-12-22 2003-03-19 皇家菲利浦电子有限公司 元数据分类和信息入口的创建方法
CN1609859A (zh) * 2004-11-26 2005-04-27 孙斌 搜索结果聚类的方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
Web document clustering:a feasibility demonstration. O. Zamir & O. Etzioni.Proceedings of ACM SIGIR'98,SIGIR Conference on Research and Development in Information Retrieval. 1998
Web document clustering:a feasibility demonstration. O. Zamir & O. Etzioni.Proceedings of ACM SIGIR98,SIGIR Conference on Research and Development in Information Retrieval. 1998 *

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107203567A (zh) * 2016-03-18 2017-09-26 伊姆西公司 用于搜索字串的方法和设备

Also Published As

Publication number Publication date
CN1750002A (zh) 2006-03-22

Similar Documents

Publication Publication Date Title
CN100433007C (zh) 提供搜索结果的方法
Wei et al. A survey of faceted search
US7809708B2 (en) Information search using knowledge agents
Diligenti et al. Focused Crawling Using Context Graphs.
US6289342B1 (en) Autonomous citation indexing and literature browsing using citation context
US20070192293A1 (en) Method for presenting search results
US20060117002A1 (en) Method for search result clustering
Kato et al. When do people use query suggestion? A query suggestion log analysis
US20080065632A1 (en) Server, method and system for providing information search service by using web page segmented into several inforamtion blocks
Liu et al. Configurable indexing and ranking for XML information retrieval
Shu et al. A neural network-based intelligent metasearch engine
AU2005201682A1 (en) Related term suggestion for multi-sense query
JP2005302043A (ja) 検索語提案のためのマルチ型データオブジェクトの強化されたクラスタリング
Lin et al. ACIRD: intelligent Internet document organization and retrieval
CN102760140A (zh) 一种基于事件本体的查询扩展方法
Chopra et al. A survey on improving the efficiency of different web structure mining algorithms
Yamamoto et al. Rerank-by-example: Efficient browsing of web search results
Lin et al. Incorporating domain knowledge and information retrieval techniques to develop an architectural/engineering/construction online product search engine
Boddu et al. Knowledge discovery and retrieval on World Wide Web using web structure mining
US7490082B2 (en) System and method for searching internet domains
JP4094844B2 (ja) 特定用途向けの文書収集装置、その方法及びコンピュータに実行させるためのプログラム
Zheng et al. Leveraging integrated information to extract query subtopics for search result diversification
Hu et al. Scope-aware code completion with discriminative modeling
Veningston et al. Semantic association ranking schemes for information retrieval applications using term association graph representation
Wang et al. Focused deep web entrance crawling by form feature classification

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20081112

Termination date: 20151026

EXPY Termination of patent right or utility model