CN1898667A - 根据结果与用户查询的相关性增强搜索索引 - Google Patents

根据结果与用户查询的相关性增强搜索索引 Download PDF

Info

Publication number
CN1898667A
CN1898667A CNA2004800383643A CN200480038364A CN1898667A CN 1898667 A CN1898667 A CN 1898667A CN A2004800383643 A CNA2004800383643 A CN A2004800383643A CN 200480038364 A CN200480038364 A CN 200480038364A CN 1898667 A CN1898667 A CN 1898667A
Authority
CN
China
Prior art keywords
document
inquiry
index
user
ordering
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CNA2004800383643A
Other languages
English (en)
Inventor
埃奈特·阿米塔
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
International Business Machines Corp
Original Assignee
International Business Machines Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by International Business Machines Corp filed Critical International Business Machines Corp
Publication of CN1898667A publication Critical patent/CN1898667A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/31Indexing; Data structures therefor; Storage structures
    • G06F16/316Indexing structures
    • G06F16/319Inverted lists

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Software Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

搜索系统包括一个搜索文档的索引的搜索引擎,和用至少一些用户查询增强索引的索引增强器。索引可包括在待标引的文档中和至少在用于查找所述文档的用户查询中找到的术语的列表,和至少列出这些术语在文档和用户查询中的出现频率的列表。

Description

根据结果与用户查询的相关性增强搜索索引
技术领域
本发明一般涉及搜索引擎和标引(indexing)方法。
背景技术
搜索引擎众所周知。它们是每个数据库以及每个索引的一部分。数据库一般把来自一个企业的信息保存到集合记录(set records)中。索引是在多个位置找到的数据的逐条列举。例如,Google.com和Altavista定期标引万维网的网页,以创建web索引。
Google.com已增强他们的搜索引擎,以便既查看网页上的单词,又查看指向该网页的超链接(由其它人构成的)。出现在超链接(通常用蓝色突出显示)上的文本被称为“锚点文本”,并和网页一起保存在索引中。
现在参见图1,图1图解说明了一小部分的简化索引。在被标引的文档或网页中找到的每个术语列举在第一列2中。与每个术语相关的是该术语的总的出现次数(列4),和出现在文档中的何处(在标题中(列6),锚点文本中(列8)或者文本中(列10))。在列4、6、8或10的每个单元中,列举文档编号和出现次数。例如,下述被列举为术语A的总的出现次数:
(doc#1,5000),(doc#4,6),(doc#67,90),(doc#1220,9)...
从而,术语A在文档1中找到5000次,在文档4中找到6次,在文档67中找到90次,在文档1220中找到9次。文档1中的所有5000次出现在锚点文本(列8)中,而文档4中的6次出现在两个位置,4次出现在文本中,2次出现在标题中。
一些索引还列举每个术语出现在文档中的何处。从而,该项目可被列举为(doc#,文档编号内的字符)。这保持了初始文档的结构,并且可在索引中形成另一列。索引还可包含术语如何出现在文本中的更详细参考(例如黑体,加重,文本的颜色,文本的大小等)。每个这样的参考可在索引中具有它自己的计数。
许多人已发现在网络上查找东西容易,但是只有当用户知道用于进行搜索的正确术语时才是如此。正确的术语是网页的设计者所使用的那些术语。这使得找出非特定术语较为困难。例如,一个用户到Amazon.com购买5岁男孩用的音乐玩具,但是该过程需要大量的搜索,才能找到所需的物品。只键入“music toy for 5 year old boy”产生供小男孩用的和关于小男孩的各种东西的列表,而不产生适当的玩具。但是,“Visit Our Musical Instruments Store”包括在该列表中。当被选择时,显现一批孩子的音乐玩具。这些音乐玩具都不合意,从而按下选择“Other Musical Instruments”。该选择较为有用,因为它包括“Marching Band Kit”,所需要的物品。
在另一例子中,用户在查找“IR”(信息检索)书。他在Google上搜索“IR book”。该搜索得到书籍的列表,但是列举的书籍都不是其全名为 Modern Information Retrieval的最新书籍。只有键入“moderninformation retrieval”时,才能检索到最新的IR书。
发明内容
本发明的第一方面提供一种搜索系统,所述搜索系统包括一个搜索文档的索引的搜索引擎和用至少一些用户查询增强索引的索引增强器。索引可包括在待标引的文档中和至少在用于查找所述文档的用户查询中找到的术语的列表,和至少列出这些术语在文档和用户查询中的出现频率的列表。
本发明的第二方面提供一种用至少一些用户查询增强文档的索引的方法。所述方法由计算机程序实现,所述计算机程序包括由数据处理设备执行的程序代码指令。
本发明的第三方面提供一种索引,所述索引包含在待标引的文档中和至少在用于查找所述文档的用户查询中找到的术语的列表,和这些术语在所述文档和用户查询中的出现频率的列表。
本发明的第四方面提供一种查询索引,所述查询索引包括在用户查询中找到的术语的列表,和所述术语被用于检索的文档的列表。
本发明的第五方面提供一种搜索系统,所述搜索系统包括发出用户查询的搜索客户机,和搜索文档的索引的搜索引擎,其中所述索引标引至少初始文本和描述与所述初始文本有关的某些内容的至少一个查询。
附图说明
在说明书的结束部分中特别指出和明确要求保护视为本发明的主题。但是,结合附图,参考例证实施例的下述详细说明,可关于操作组织和操作方法,以及发明目的,特征和优点,更好地理解本发明,其中:
图1是一小部分的简化的现有索引;
图2是图解说明根据本发明构成和操作的搜索系统的方框图;
图3是由图2的系统产生的一小部分的简化的增强索引;
图4是可用在图2的系统中的简化查询索引。
要认识到为了举例说明的简明和清楚,附图中所示的部件不必按比例绘制。例如,为了清楚起见,一些部件的尺寸可相对于其它部件被放大。此外,在认为适当的地方,附图标记可在附图中重复,以指示对应或者类似的部件。
具体实施方式
在下面的详细说明中,陈述了众多的具体细节,以便彻底理解本发明。但是,本领域的技术人员明白可在没有这些具体细节的情况下实践本发明。在其它情况下,没有说明公知的方法,过程和组件,以便不使本发明不分明。
申请人已认识到在用户的查询中存在和用户如何看待他们正搜索的物品有关的大量信息。根据本发明的一个优选实施例,查询单词可被结合到索引中的信息中,从而增加描述物品(item)的方式。
例如在背景技术部分中,“Marching Band Toy”页面将在索引中具有与之相关的单词“music toy for 5 year old boy”,书籍 Modern Information Retrieval将具有与之相关的“IR book”,以致可能使用这些术语的其他搜索者会将这些物品视为其首次搜索的结果的一部分。
现在参见图2,图2图解说明根据本发明构成和操作的搜索系统10。搜索系统10可包含搜索客户机12,搜索引擎14和索引增强器16。
搜索客户机12和搜索引擎14可以是处理多个文档20的索引18的任何搜索客户机和搜索引擎,例如本领域中已知的搜索客户机和搜索引擎。搜索引擎12可把搜索请求发送给搜索引擎14,搜索引擎14又可以和搜索请求匹配的文档20的排序列表的形式提供搜索结果。搜索客户机12可随后从列表中选择文档,或者可请求另一搜索。
标引的文档可以是单个文档、整个网站、不一定由一个人构成或者保存在相同域的一系列的链接网页、或者具有指向其的网页的所有部分(即,出现在指向该网页的链接上的锚点文本,或者甚至环绕锚点文本并被认为引用(refer to)所指向的网页的文本)的单个网页。每个这样的参考也可在索引中描述(例如,某一术语多少次表现为锚点文本)。
类似于任何索引,索引18可保存和每个术语相关的各种信息,例如其在文档中的位置,其功能(例如,出现在标题中,出现在子标题中,作为主体文本,作为锚点文本等),它是否被强调(大写,黑体,斜体,着色等),其出现频率,出现之间的距离等。
根据本发明的一个优选实施例,索引增强器16可根据向搜索引擎14提交的用户查询,把术语和/或其它细节增加到索引18中,或者增加到任意文档20中。索引增强器16可如下参考图3所述那样,或者按照任何其它方式,把术语增加到文档本身中(作为元数据),或者增加到它们在索引18中的表示中。
例如,现在简要参考的图3图解说明图1的例证部分索引的例证增强形式,其中用黑体标记新的信息。增强的索引可具有和现有技术的索引相同的列2、4、6、8和10。它还具有保存查询信息的列9。标题、锚点和文本列6、8和10中的信息没有变化。变化的是总的出现次数列4中的信息。
例如,文档1现在具有术语A的7000次出现,因为从用户的查询中增加了2000次。先前只具有术语A的文档67现在还具有术语B的9000次出现,所有这9000次出现都在查询中,如查询列9中列举的。多个单词查询被保存为完整的短语,或者可按照和文档文本或与之相关的锚点文本相类似的方式保存近似信息。
当搜索引擎14可搜索增强的索引18时,它可使用增强的信息,根据与标引文档相关的新的查询术语输出不同的搜索结果。从而,如果某人关于“toy for 5 year old”搜索增强索引,如背景技术中所述,那么搜索引擎14可返回对Marching Band Set的链接。类似地,如果某人关于“IR book”搜索增强索引,那么搜索引擎14可返回对所有书籍,包括最新的书籍的链接。
索引增强器16可包含用户查询处理器30,查询排序器(ranker)32和索引增强器34。用户查询处理器30可分析由搜索引擎14产生的用户的查询和结果的日志文件。一些搜索引擎还记录用户的最终选择,用户查询处理器30同样可分析这些最终选择。
用户查询处理器30可把用户的查询增加到文档查询索引40中,文档查询索引40可使每个查询和它产生的文档20相关联。它还可使多搜索会话中的所有查询与产生的所有文档相关联,或者只与每个查询的排名在前的结果相关联。另一方面,如果系统能够告诉用户注意哪些文档作为搜索的结果,那么处理器30可使查询只与查看或者点击的文档相关联。可按照任何适当的方式(例如在预定的一段时间内,或者在登录期内)定义会话。
在另一实施例中,如果用户在查询间浏览信息,而不是使用查询的结果,那么查询处理器30也可使查询与浏览的文档相关联。只有当浏览的文档可在初始索引中找到并且可用来把查询加入它们之中时,这才是可行的。
可对在搜索会话结束时选择的文档给予额外的权重,因为该文档通常是所需的内容。该文档可与搜索的每个查询相关联,或者只与初始的搜索术语相关联,因为初始的搜索术语通常是用户的自然语言术语。另一方面或者另外,可对不同的查询分配不同的权重,取决于它们与用户的初始查询有关的计时。
要认识到查询术语可以是任何语言,而与初始文档的语言无关。例如,如果用户用德语查询某物,什么也没得到,随后用英语查询,找到某些内容,那么也可与英语文档相关联地增加德语单词。
在一个备选实施例中,只有选择的文档和初始的搜索术语可被保存,因为选择可能是对用户的初始查询的回答。另一方面,可要求用户指出哪些搜索术语与他最终的选择相关。
用户查询处理器30可和搜索引擎14一起工作,从而它可实时或半实时地接收搜索请求、结果和选择。另一方面,如图2中所示,用户查询处理器30可处理搜索引擎14产生的日志文件42。
可按照任何适当的方式组织文档查询索引40。一种例证方式可以是每个标引文档具有一个查询文档44,每个查询文档44可列举查询和该特定查询在日志文件中被使用了多少次。对于实时或半实时操作来说,查询的频率可被连续更新。类似地,当可以复查(review)多个日志文件42时,查询的频率可被更新。
现在简要参考图4,在图中表示的另一实施例中,查询索引40可列举和文档索引18中相同的术语,并且可列举术语在与文档相关的查询中的出现频率。
在适当的时间,可能希望增强文档索引18。查询排序器32可复查查询索引40,以确定哪些查询增加到文档索引1中。可以采用任何适当的试探法。一种简单的试探法是加入所述查询,并利用它们的使用频率对它们加权。其它试探法可涉及只选择具有较大使用频率的那些查询。另一些试探法可包含消除任何“过时的”查询。后一种试探法可要求用户查询处理器30把与每个查询相关的时间戳记保存在索引40中。另一种试探法可涉及确定哪个术语“成熟”到足以充分并且永久地与文档20相关联。另一种试探法可涉及向术语分配权重,以致它们在索引18中表现为“不确定”,随后把该权重附到术语上用于由搜索引擎14进行的排序计算。
索引增强器34类似于已知的索引更新器,因为它可复查索引和改变其中的信息。增强器34可获得查询排序器32产生的排序的查询,并可在索引18中使它们与它们相关的文档相关联。索引增强器34可作为查询列9或者按照任何其它适当的方式,把查询增加到相关的锚点文本22中、增加到相关的文档20中、增加到另外的文本部分24中。如果适宜的话,索引增强器34还可复查先前增加的查询的时间戳记,更新公共查询的任何时间戳记,和除去其时间戳记“陈旧”的任何查询,这里所述“陈旧”可具有任何适当的定义。
索引增强器34可通过增加查询和通过更新现有查询的使用频率和时间戳记,更新与每个文档20相关联的整个查询列表。索引增强器34可按照任何适当的试探法对查询排序。一种试探法可以是使用频率。另一种可按照上面所述的时间戳记。
一旦索引增强器34完成,搜索引擎14就可用新的查询搜索增强的索引18。
虽然这里举例说明了本发明的一些特征,不过本领域的普通技术人员易于想到多种修改,替换,变化和等同物。于是,附加权利要求意图覆盖落入本发明精神范围内的所有这种修改和变化。

Claims (55)

1、一种搜索系统,包括:搜索文档的索引的搜索引擎;和用至少一些用户查询增强所述索引的索引增强器。
2、按照权利要求1所述的系统,其中所述索引增强器包含使查询与所述搜索引擎检索的文档相关联的查询处理器。
3、按照权利要求2所述的系统,其中所述查询处理器包含确定哪些所述检索的文档与所述查询相关联的装置,和确定哪些查询与所述检索的文档相关联的装置。
4、按照权利要求3所述的系统,其中所述相关联的查询包含在会话中使用的一部分查询。
5、按照权利要求3所述的系统,其中所述相关联的查询包含会话的第一查询。
6、按照权利要求3所述的系统,其中所述确定的检索文档包含所述用户选择的文档。
7、按照权利要求3所述的系统,其中所述确定的检索文档包含作为查询的结果由所述用户浏览的文档。
8、按照权利要求3所述的系统,其中所述确定的检索文档包含从查询产生的排序较高的文档。
9、按照权利要求2所述的系统,其中所述用户查询的语言不同于所选文档的语言。
10、按照权利要求1所述的系统,其中所述索引增强器包括对与文档相关联的查询排序的查询排序器。
11、按照权利要求10所述的系统,其中所述查询排序器包括按照使用频率对所述查询排序的装置。
12、按照权利要求10所述的系统,其中所述查询排序器包括按照使用时间对所述查询排序的装置。
13、按照权利要求10所述的系统,其中所述索引增强器包含用至少一些所述排序的查询增强所述索引的索引更新器。
14、按照权利要求13所述的系统,其中所述索引更新器包括滤出排序较低的查询的装置。
15、一种索引,包括:在待标引的文档中和至少在用于查找所述文档的用户查询中找到的术语的列表;和至少列出这些术语在文档和用户查询中的出现频率的列表。
16、按照权利要求15所述的索引,其中所述用户查询包含在查找所选文档的会话中使用的一部分查询。
17、按照权利要求15所述的索引,其中所述用户查询包含查找所选文档的会话的第一查询。
18、按照权利要求15所述的索引,其中与查询相关联的文档包含所述用户选择的文档。
19、按照权利要求15所述的索引,其中与查询相关联的文档包含作为查询的结果由所述用户浏览的文档。
20、按照权利要求15所述的索引,其中与查询相关联的文档包含从查询产生的排序较高的文档。
21、按照权利要求15所述的索引,其中所述用户查询的语言不同于所选文档的语言。
22、一种查询索引,包括在用户查询中找到的术语的列表;和所述术语被用于检索的文档的列表。
23、按照权利要求22所述的索引,其中所述用户查询包括在查找所选文档的会话中使用的一部分查询。
24、按照权利要求22所述的索引,其中所述用户查询包含查找所选文档的会话的第一查询。
25、按照权利要求22所述的索引,其中与查询相关联的文档包含所述用户选择的文档。
26、按照权利要求22所述的索引,其中与查询相关联的文档包含作为查询的结果由所述用户浏览的文档。
27、按照权利要求22所述的索引,其中与查询相关联的文档包含从查询产生的排序较高的文档。
28、按照权利要求22所述的索引,其中所述用户查询的语言不同于所选文档的语言。
29、一种搜索系统,所述搜索系统包括发出用户查询的搜索客户机;和搜索文档的索引的搜索引擎,其中所述索引标引至少初始文本和描述与所述初始文本有关的某些内容的至少一个查询。
30、按照权利要求29所述的系统,其中所述索引包括:在待标引的文档中和至少在用于查找所述文档的用户查询中找到的术语的列表;和至少列举这些术语在所述文档和用户查询中的出现频率的列表。
31、按照权利要求30所述的系统,其中所述用户查询包括在查找所选文档的会话中使用的一部分查询。
32、按照权利要求30所述的系统,其中所述用户查询包含查找所选文档的会话的第一查询。
33、按照权利要求30所述的系统,其中与查询相关联的文档包含所述用户选择的文档。
34、按照权利要求30所述的系统,其中与查询相关联的文档包含作为查询的结果由所述用户浏览的文档。
35、按照权利要求30所述的系统,其中与查询相关联的文档包含从查询产生的排序较高的文档。
36、按照权利要求30所述的系统,其中所述用户查询的语言不同于所选文档的语言。
37、一种方法,包括用至少一些用户查询增强文档的索引。
38、按照权利要求37所述的方法,其中所述增强包括使查询与由搜索引擎检索的文档相关联。
39、按照权利要求38所述的方法,其中所述增强包含确定哪些所述检索的文档与所述查询相关联,和确定哪些查询与所述检索的文档相关联。
40、按照权利要求38所述的方法,其中所述增强包括列举查询中的术语和该术语与文档相关联的次数。
41、按照权利要求38所述的方法,其中所述增强包括对与文档相关联的查询排序。
42、按照权利要求41所述的方法,其中所述排序包括按照使用频率对所述查询排序。
43、按照权利要求41所述的方法,其中所述排序包括按照使用时间对所述查询排序。
44、按照权利要求41所述的方法,其中所述增强包含用至少一些所述排序的查询更新所述索引。
45、按照权利要求44所述的方法,其中所述更新包括滤出排序较低的查询。
46、一种机器可读的计算机产品,所述计算机产品包含可由机器执行,从而实现增强索引的方法步骤的指令的程序,所述方法包括:用至少一些用户查询增强文档的索引。
47、按照权利要求46所述的产品,其中所述增强包括使查询与由搜索引擎检索的文档相关联。
48、按照权利要求47所述的产品,其中所述增强包含确定哪些所述检索的文档与所述查询相关联,和确定哪些查询与所述检索的文档相关联。
49、按照权利要求47所述的产品,其中所述增强包括列举查询中的术语和该术语在查询中的位置。
50、按照权利要求47所述的产品,其中所述增强包括列举查询中的术语和该术语与文档相关联的次数。
51、按照权利要求47所述的产品,其中所述增强包括对与文档相关联的查询排序。
52、按照权利要求51所述的产品,其中所述排序包括按照使用频率对所述查询排序。
53、按照权利要求51所述的产品,其中所述排序包括按照使用时间对所述查询排序。
54、按照权利要求51所述的产品,其中所述增强包含用至少一些所述排序的查询更新所述索引。
55、按照权利要求54所述的产品,其中所述更新包括滤出排序较低的查询。
CNA2004800383643A 2003-12-22 2004-12-15 根据结果与用户查询的相关性增强搜索索引 Pending CN1898667A (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US10/743,158 US20050138007A1 (en) 2003-12-22 2003-12-22 Document enhancement method
US10/743,158 2003-12-22

Publications (1)

Publication Number Publication Date
CN1898667A true CN1898667A (zh) 2007-01-17

Family

ID=34678584

Family Applications (1)

Application Number Title Priority Date Filing Date
CNA2004800383643A Pending CN1898667A (zh) 2003-12-22 2004-12-15 根据结果与用户查询的相关性增强搜索索引

Country Status (5)

Country Link
US (1) US20050138007A1 (zh)
EP (1) EP1700242A1 (zh)
JP (1) JP2007515721A (zh)
CN (1) CN1898667A (zh)
WO (1) WO2005062204A1 (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101685444B (zh) * 2008-09-27 2012-05-30 国际商业机器公司 用于实现元数据搜索的系统和方法

Families Citing this family (29)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7502773B1 (en) * 2003-12-31 2009-03-10 Microsoft Corporation System and method facilitating page indexing employing reference information
US7769579B2 (en) 2005-05-31 2010-08-03 Google Inc. Learning facts from semi-structured text
US9275052B2 (en) 2005-01-19 2016-03-01 Amazon Technologies, Inc. Providing annotations of a digital work
US9208229B2 (en) * 2005-03-31 2015-12-08 Google Inc. Anchor text summarization for corroboration
US8352449B1 (en) 2006-03-29 2013-01-08 Amazon Technologies, Inc. Reader device content indexing
US8725565B1 (en) 2006-09-29 2014-05-13 Amazon Technologies, Inc. Expedited acquisition of a digital item following a sample presentation of the item
US9672533B1 (en) 2006-09-29 2017-06-06 Amazon Technologies, Inc. Acquisition of an item based on a catalog presentation of items
US8122026B1 (en) 2006-10-20 2012-02-21 Google Inc. Finding and disambiguating references to entities on web pages
US7865817B2 (en) 2006-12-29 2011-01-04 Amazon Technologies, Inc. Invariant referencing in digital works
US7751807B2 (en) 2007-02-12 2010-07-06 Oomble, Inc. Method and system for a hosted mobile management service architecture
US8024400B2 (en) 2007-09-26 2011-09-20 Oomble, Inc. Method and system for transferring content from the web to mobile devices
US8347202B1 (en) 2007-03-14 2013-01-01 Google Inc. Determining geographic locations for place names in a fact repository
US7716224B2 (en) * 2007-03-29 2010-05-11 Amazon Technologies, Inc. Search and indexing on a user device
US9665529B1 (en) 2007-03-29 2017-05-30 Amazon Technologies, Inc. Relative progress and event indicators
US8990215B1 (en) 2007-05-21 2015-03-24 Amazon Technologies, Inc. Obtaining and verifying search indices
US8423889B1 (en) 2008-06-05 2013-04-16 Amazon Technologies, Inc. Device specific presentation control for electronic book reader devices
US9087032B1 (en) 2009-01-26 2015-07-21 Amazon Technologies, Inc. Aggregation of highlights
US8378979B2 (en) 2009-01-27 2013-02-19 Amazon Technologies, Inc. Electronic device with haptic feedback
US8832584B1 (en) 2009-03-31 2014-09-09 Amazon Technologies, Inc. Questions on highlighted passages
US8692763B1 (en) 2009-09-28 2014-04-08 John T. Kim Last screen rendering for electronic book reader
CN101840420B (zh) * 2010-04-02 2011-12-28 清华大学 搜索辅助系统与搜索辅助方法
CN101807213B (zh) * 2010-05-11 2011-08-31 天津大学 一种网页的垂直搜索方法
US9495322B1 (en) 2010-09-21 2016-11-15 Amazon Technologies, Inc. Cover display
US20130086083A1 (en) * 2011-09-30 2013-04-04 Microsoft Corporation Transferring ranking signals from equivalent pages
US9158741B1 (en) 2011-10-28 2015-10-13 Amazon Technologies, Inc. Indicators for navigating digital works
US8965899B1 (en) * 2011-12-30 2015-02-24 Emc Corporation Progressive indexing for improved ad-hoc query performance
JP6310509B2 (ja) * 2016-07-05 2018-04-11 ヤフー株式会社 抽出装置、抽出方法および抽出プログラム
US11238076B2 (en) 2020-04-19 2022-02-01 International Business Machines Corporation Document enrichment with conversation texts, for enhanced information retrieval
CN112783918A (zh) * 2021-03-15 2021-05-11 北京百度网讯科技有限公司 搜索方法、搜索装置、电子设备、存储介质和程序产品

Family Cites Families (29)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5685003A (en) * 1992-12-23 1997-11-04 Microsoft Corporation Method and system for automatically indexing data in a document using a fresh index table
US5920854A (en) * 1996-08-14 1999-07-06 Infoseek Corporation Real-time document collection search engine with phrase indexing
US6182068B1 (en) * 1997-08-01 2001-01-30 Ask Jeeves, Inc. Personalized search methods
US6078916A (en) * 1997-08-01 2000-06-20 Culliss; Gary Method for organizing information
US6421675B1 (en) 1998-03-16 2002-07-16 S. L. I. Systems, Inc. Search engine
US6006225A (en) * 1998-06-15 1999-12-21 Amazon.Com Refining search queries by the suggestion of correlated terms from prior searches
US6701307B2 (en) * 1998-10-28 2004-03-02 Microsoft Corporation Method and apparatus of expanding web searching capabilities
US6338056B1 (en) * 1998-12-14 2002-01-08 International Business Machines Corporation Relational database extender that supports user-defined index types and user-defined search
US6389412B1 (en) * 1998-12-31 2002-05-14 Intel Corporation Method and system for constructing integrated metadata
US6321228B1 (en) * 1999-08-31 2001-11-20 Powercast Media, Inc. Internet search system for retrieving selected results from a previous search
US6999957B1 (en) * 2000-01-11 2006-02-14 The Relegence Corporation System and method for real-time searching
US6571239B1 (en) * 2000-01-31 2003-05-27 International Business Machines Corporation Modifying a key-word listing based on user response
AU2001251736A1 (en) * 2000-03-27 2001-10-08 Documentum, Inc Method and apparatus for generating metadata for a document
US6658406B1 (en) * 2000-03-29 2003-12-02 Microsoft Corporation Method for selecting terms from vocabularies in a category-based system
US6665655B1 (en) * 2000-04-14 2003-12-16 Rightnow Technologies, Inc. Implicit rating of retrieved information in an information search system
US8706747B2 (en) * 2000-07-06 2014-04-22 Google Inc. Systems and methods for searching using queries written in a different character-set and/or language from the target pages
US7171349B1 (en) * 2000-08-11 2007-01-30 Attensity Corporation Relational text index creation and searching
US6785688B2 (en) * 2000-11-21 2004-08-31 America Online, Inc. Internet streaming media workflow architecture
US20020091671A1 (en) * 2000-11-23 2002-07-11 Andreas Prokoph Method and system for data retrieval in large collections of data
US7356530B2 (en) * 2001-01-10 2008-04-08 Looksmart, Ltd. Systems and methods of retrieving relevant information
US7007074B2 (en) * 2001-09-10 2006-02-28 Yahoo! Inc. Targeted advertisements using time-dependent key search terms
US7031009B2 (en) * 2001-12-26 2006-04-18 Xerox Corporation Use of e-mail for capture of document metadata
CA2369912C (en) * 2002-01-31 2012-02-07 Comtext Systems Inc. Computerized information search and indexing method, software and device
US7260570B2 (en) * 2002-02-01 2007-08-21 International Business Machines Corporation Retrieving matching documents by queries in any national language
US7324990B2 (en) * 2002-02-07 2008-01-29 The Relegence Corporation Real time relevancy determination system and a method for calculating relevancy of real time information
US20040098378A1 (en) * 2002-11-19 2004-05-20 Gur Kimchi Distributed client server index update system and method
CN1292371C (zh) * 2003-04-11 2006-12-27 国际商业机器公司 倒排索引存储方法、倒排索引机制以及在线更新的方法
US7308464B2 (en) * 2003-07-23 2007-12-11 America Online, Inc. Method and system for rule based indexing of multiple data structures
US7254580B1 (en) * 2003-07-31 2007-08-07 Google Inc. System and method for selectively searching partitions of a database

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101685444B (zh) * 2008-09-27 2012-05-30 国际商业机器公司 用于实现元数据搜索的系统和方法

Also Published As

Publication number Publication date
WO2005062204A1 (en) 2005-07-07
EP1700242A1 (en) 2006-09-13
JP2007515721A (ja) 2007-06-14
US20050138007A1 (en) 2005-06-23

Similar Documents

Publication Publication Date Title
CN1898667A (zh) 根据结果与用户查询的相关性增强搜索索引
US7383299B1 (en) System and method for providing service for searching web site addresses
US6615209B1 (en) Detecting query-specific duplicate documents
CN102142038B (zh) 用于记号空间资料库的多级查询处理系统与方法
US7072890B2 (en) Method and apparatus for improved web scraping
US9081851B2 (en) Method and system for autocompletion using ranked results
US8868559B2 (en) Representative document selection for a set of duplicate documents
US20090132529A1 (en) Method and System for URL Autocompletion Using Ranked Results
US20070250501A1 (en) Search result delivery engine
US20060253423A1 (en) Information retrieval system and method
CN1758244A (zh) 用于排列搜索结果的文档以改进多样性和信息丰富度的方法和系统
EP1826692A2 (en) Query correction using indexed content on a desktop indexer program.
JP2007293896A (ja) 検索照会改善システムおよび方法
CN1741017A (zh) 用于索引和搜索数据库的方法和装置
CN101114285A (zh) 一种互联网主题文件搜索方法、爬虫系统和搜索引擎
CN101079070A (zh) 用于响应于对信息的查询的计算机和方法
CN1858733A (zh) 信息检索系统和检索方法
CN1728134A (zh) 基于超文本的多语言网络信息搜索方法和系统
CN1818908A (zh) 一种在搜索引擎中应用搜索者反馈信息的方法
CA2713932C (en) Automated boolean expression generation for computerized search and indexing
US20080281811A1 (en) Method of Obtaining a Representation of a Text
US20050114317A1 (en) Ordering of web search results
Yu et al. The design and realization of open-source search engine based on Nutch
CN1430165A (zh) 搜寻引擎关键字的关联建立系统及方法
Chen et al. FEATURES: real-time adaptive feature learning and document learning for web search

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C02 Deemed withdrawal of patent application after publication (patent law 2001)
WD01 Invention patent application deemed withdrawn after publication

Open date: 20070117