CN1112647C - 响应查询以对文档集合中的文档进行分级的系统和方法 - Google Patents
响应查询以对文档集合中的文档进行分级的系统和方法 Download PDFInfo
- Publication number
- CN1112647C CN1112647C CN99804913A CN99804913A CN1112647C CN 1112647 C CN1112647 C CN 1112647C CN 99804913 A CN99804913 A CN 99804913A CN 99804913 A CN99804913 A CN 99804913A CN 1112647 C CN1112647 C CN 1112647C
- Authority
- CN
- China
- Prior art keywords
- document
- interval
- terms
- vocabulary
- query term
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Lifetime
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/953—Querying, e.g. by the use of web search engines
- G06F16/9538—Presentation of query results
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/951—Indexing; Web crawling techniques
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y10—TECHNICAL SUBJECTS COVERED BY FORMER USPC
- Y10S—TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y10S707/00—Data processing: database and file management or data structures
- Y10S707/99931—Database or file accessing
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y10—TECHNICAL SUBJECTS COVERED BY FORMER USPC
- Y10S—TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y10S707/00—Data processing: database and file management or data structures
- Y10S707/99931—Database or file accessing
- Y10S707/99933—Query processing, i.e. searching
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y10—TECHNICAL SUBJECTS COVERED BY FORMER USPC
- Y10S—TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y10S707/00—Data processing: database and file management or data structures
- Y10S707/99931—Database or file accessing
- Y10S707/99933—Query processing, i.e. searching
- Y10S707/99934—Query formulation, input preparation, or translation
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y10—TECHNICAL SUBJECTS COVERED BY FORMER USPC
- Y10S—TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y10S707/00—Data processing: database and file management or data structures
- Y10S707/99931—Database or file accessing
- Y10S707/99933—Query processing, i.e. searching
- Y10S707/99935—Query augmenting and refining, e.g. inexact access
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y10—TECHNICAL SUBJECTS COVERED BY FORMER USPC
- Y10S—TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y10S707/00—Data processing: database and file management or data structures
- Y10S707/99931—Database or file accessing
- Y10S707/99933—Query processing, i.e. searching
- Y10S707/99936—Pattern matching access
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y10—TECHNICAL SUBJECTS COVERED BY FORMER USPC
- Y10S—TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y10S707/00—Data processing: database and file management or data structures
- Y10S707/99931—Database or file accessing
- Y10S707/99937—Sorting
Landscapes
- Engineering & Computer Science (AREA)
- Databases & Information Systems (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
响应查询根据普及性对广域网计算机网络(如万维网)页面进行分级的系统和方法。再有,使用查询和来自搜索引擎的对查询的响应,该系统和方法找出附加的为好的扩展的搜索术语的关键词,尤其在查询时刻实时产生一个本地同义词典。
Description
一般地说,本发明涉及信息检索,更具体地说,涉及在例如万维网上高效率地和有效果地检索超文本文档(document)的方法和装置。
称作因特网的广域计算机网络,特别是称作万维网的因特网部分,使用户能访问大量信息。毫不惊奇,已经提供了若干个搜索引擎,用户能向其中输入查询,而搜索引擎能使用各种方案返回万维网站清单以响应这些查询,从而便于从万维网挖掘信息。这些万维网站一般代表由计算机存储的文档,用户能访问这些文档以得到关于该特定站点主题的信息。
通常,与大多数计算机搜索方法相似,万维网搜索引擎使用某种关键词搜索策略,其中,用户输入查询的一个或多个术语以某种方式与万维网文档中的术语进行匹配,以向查询用户返回一个特定万维网站清单。然而,发生的情况是大多数查询的长度只有一至三个词,这样,通常这些查询的范围很广。这意味着有大量万维网站可能含有一个查询的一个或多个词,而且,如果搜索引擎返回所有可能的候选者,那么用户可能需要筛选成百或数千个文档。
再有,可能发生这样的情况,即响应一个查询时,那些最贴近该查询的万维网站可能根本未被返回。更具体地说,一个查询使用的术语可能在最贴近该查询的万维网站中不出现。例如,在为当今最普及的两个浏览器的万维网站中根本没出现“浏览器”这个术语。相反,这些万维网站使用“浏览器”以外的其他词来说明这些网站的主题。结果,如果一个用户向使用简单的关键词查询策略的搜索引擎输入词“浏览器”,那么这些网站将不会被返回给用户。
然而,如本发明认识到的那样,因特网用户不知不觉地在合作搜索、阅读、评论和判断万维网文档的质量。这种合作大部分通过万维网页的汇编反映在大部分(如果不是全部)万维网页中,这些万维网页通常描述和指向那些被看作是高质量的其他网页。
更具体地说,一个万维网页以超级链接的形式指向其他万维网页,这实质上是在第一文档(即第一万维网页)中参考其他文档(即其他网页)。超级链接使用户能通过利用计算机鼠标或其他指向与点击装置“点击”该超级链接,从而选择立即访问另一个万维网页。如这里所认识到的那样,这种参考万维网页可以是这样一些术语的丰富来源,这些术语已经广泛地与那些被参考万维网页关联,即使那些被参考网页本身并不使用这些术语。结果,这些术语能被用于改善万维网搜索查询结果。本发明进一步认识到,通过对一文档的参考(例如一个超级链接)来有效地扩散特性的这些原理不仅适用于万维网,也能应用于被链接如专利、学术论文、文章、书藉、电子邮件等文档的任何实体。
因此,本发明的一个目的是提供一种通过超级链接扩散特性的方法和系统。本发明的另一目的是提供一种方法和系统,用于响应用户查询,在一组文档中对文档进行分级。本发明的又一目的是提供一种方法和系统,用于在一组文档中找出关键词。本发明的再一个目的是提供一种方法和系统,用于在计算机存储的文档中找出文档术语和由一个或多个查询术语所代表的查询主题之间的关联。本发明的另一目的是提供一种用于万维网搜索的方法和系统,这种万维网搜索便于使用而且节省费用。
WO97 49048A公开一种超文本文档检索系统和方法,在那里使用指向被检索文档内超文本文档的超级链接中指定的术语,对于从被检索文档链接的超文本文档编辑索引和进行分级。
EP 0809197A公开一种超文本文档检索系统,那里当在被检索文档集合内的一父文档中的超级链接指向另一文档而且这两个文档都包括相同的检索查询关键词时,便把这父文档和这另一文档关联起来。每个一体化文档的发生频度被计算出来并用于对被检索文档集合进行分级。
本发明是根据这里所发明的步骤进行编程的通用计算机,以响应查询对一组文档中的文档进行分级。本发明还能实现为一个制造的物品-机器部件-它被一数字处理系统所用并且有形地实现一个指令程序,该程序可由该数据处理装置执行,以在计算机存储的文档中找出文档术语和查询主题之间的关联。本发明在一个关键机器部件中实现,该部件使一数字处理装置完成这里发明的方法步骤。
根据本发明,该计算机包括计算机可读代码装置,用于在第一文档中识别出对第二文档的参考。计算机可读代码装置接收一个定义文档术语个数的词汇间隔(lexical distance)。再有,该计算机包括计算机可读代码装置用于接收包括一个或多个查询术语的查询,以及计算机可读代码装置用于确定在第一文档中出现的位于对第二文档进行参考的词汇间隔范围内的至少一个查询术语的次数,用于据此对文档分级。
在一个实施例中,可通过广域计算机网络访问文档,而参考包括一个统一资源列表(URL)。如果希望的话,根据查询建立词汇间隔。
最好是该计算机还包括计算机可读代码装置用于根据在文档中参考的词汇间隔范围内存在查询术语的相应次数来对多个文档进行分级。此外,该计算机包括计算机可读代码用于接收文档集合“U”。提供的计算机可读代码用于对集合“U”中的至少一个测试文档“u”,把集合“U”中包括至少一个对测试文档“u”的参考的那些文档定义为邻居文档“N(u)”。再有,对于至少一个邻居文档“N(u)”中的至少一个文档术语,计算机可读代码装置确定是否至少有一个文档术语处在测试文档“u”的邻居文档“N(u)”中的一个参考的预先确定的间隔内(即在一预先确定的术语个数范围内)。根据本发明,计算机可读代码装置于是发出一个信号,以响应确定是否至少有一个文档术语处在一个参考的预先确定间隔范围内的那个装置。当这至少一个文档术语处在对测试文档“u”的一个参考的预先确定间隔范围内时,该输出装置使一个与这至少一个文档术语相关联的计数器增量。
除了上面概述的逻辑外,该计算机还能包括计算机可读代码装置用于响应包括一个或多个查询术语的查询,从而接收一个文档集合“U”,其每个文档包含一个或多个文档术语。提供的计算机可读代码装置用于确定在至少一个第一文档和至少一个第一文档术语之间的相关性,如果该第一文档术语和对该第一文档的一个参考二者都处在一个查询术语的一个预先确定的间隔范围内的话。如果希望,该相关性与一权重相关联,而该权重是基于文档集合“U”中第一文档术语和对第一文档的一个参考二者处在一查询术语的一个预先确定间隔范围内的次数。
在另一方面,一个计算机程序装置包括一个可由数字处理装置读出的计算机程序存储装置,以及程序存储装置上的一个程序装置,它包括可由该数字处理装置执行的指令,用于完成在一文档集合中找出关键词的方法步骤,这些方法步骤包含:在第一文档中识别出对第二文档的参考;接收一个词汇间隔,该词汇间隔定义一个文档术语个数;接收包括一个或多个查询术语的查询;以及确定在第一文档中至少一个查询术语出现在对第二文档的参考的词汇间隔范围内的次数,以据此对文档分级。
本发明还提供一种方法,用于响应查询对一文档集合中的文档分级,该方法包含如下步骤:在第一文档中识别出对第二文档的参考;接收一个词汇间隔,该词汇间隔定义一文档术语个数;接收包括一个或多个查询术语的查询;以及确定在第一文档中至少一个查询术语出现在对第二文档的参考的词汇间隔范围内的次数,以据此对文档分级。
现在将参考附图,仅以举例方式描述本发明,这些附图中:
图1是通过超级链接扩散文档特性的本计算机系统略图;
图2是计算机程序产品略图;
图3是一逻辑的流程图,该逻辑用于响应一查询,增长已提供的万维网站列表;
图4是一逻辑的流程图,该逻辑用于响应一查询,从所产生的页面列表中回送“高质量”页面;
图5是一流程图,所显示的逻辑用于通过超级链接找出描述性术语(这里也称作特性);以及
图6是一流程图,所显示的逻辑用于在计算机存储的文档中找出文档术语和由一个或多个查询术语代表的查询主题之间的关联。
发明详述
首先参考图1,图中显示通过超级链接找出描述性术语的系统,总体用10表示。在所示具体结构中,系统10包括一数字处理装置,如计算机12。在一个预定的实施例中,计算机12可以是图中所示由ArmonK,N.Y.的国际商用机器公司(IBM)制造的个人计算机,或者计算机12可以是任何计算机,包括以诸如AS/100为商标出售的计算机,并伴有IBM网络工作站。或者,计算机12可以是一个Unix计算机,或OS/2服务器,或Windows NT服务器,或运行AIX3.2.5的带有128MB主存储器的IBM RS/6000 250工作站,或IBM膝上计算机。(UNIX是Open Group的商标,AS/400、OS/2、RS/6000和AIX是国际商用机器公司的商标,Windos NT是微软公司的商标)。
计算机12访问一个因特网搜索引擎14。在一个实施例中,该搜索引擎14是由Alta Vista制造的,可以理解,其他搜索引擎当然也可使用。搜索引擎14从计算机12接收查询,并响应该查询向计算机12回送一个计算机存储文档列表,更具体地回送一个万维网站列表16,利用这一列表,计算机12能经由称作万维网18的因特网部分进行通信。
此外,计算机12包括一个特性扩散器模块19,它作为一系列计算机可执行的指令,由计算机12内的处理器来执行。这些指令可以驻留在例如计算机12的RAM中。这里的这些流程图说明本发明的模块19承担在计算机程序软件中实现的编程指令结构。本领域技术人员将会理解,这些流程图说明根据本发明实现其功能的逻辑单元(如计算机程序代码单元或电子逻辑电路)的结构。显然地,本发明在其基本实施例中是由机器部件实现的,这些机器部件执行逻辑单元,其执行方式是指示数字处理装置(即计算机)完成与所示逻辑单元对应的一系列功能步骤。
换言之,模块19可以是一计算机程序,它作为一系列计算机可执行的指令由计算机12内的处理器执行。
另一种作法是,这些指令可以存储在具有计算机可读介质的数据存储装置上,如图2中所示软盘20。软盘20可包括计算机可用介质22,它电子存储计算机可读程序代码单元A-D。或者,这些指令可存储在DASD阵列,磁带、传统的硬盘驱动器、电子只读存储器、光存储装置、或其他适当的数据存储装置上。在本发明的一个示例实施例中,计算机可执行指令可以是编译的C++兼容代码行或超文本标记语言(HTML)兼容代码行。
图1还显示出系统10可包括本领域公知的外围计算机设备,包括输入装置,如计算机键盘24和/或计算机鼠标25。可使用除图中所示以外的其他输入装置,如跟踪球、小键盘(Keypad)、触模屏、以及语音识别装置。还提供了一个输出装置,如视频监视器26。其他输出装置可以使用,如打印机和其他计算机等。
现在参考图3,图中可看到由模块19承担的第一过程(这里称作“过程A”)的逻辑。在块28开始,接收一个可能由键盘24输入的用户查询。用户查询由一个或多个查询术语组成,如“高山(highmountains)”。
进到块30,建立了词汇间隔“1”。在一个最佳实施例中,为便于简短地说明,该词汇间隔“1”用术语的整数个数定义一个窗口。词汇间隔“1”可有固定值,或者,作为另一种方式,词汇间隔“1”的值可根据查询中的中个数来建立。例如,词汇间隔“1”的值可与查询术语个数成反比。
在块32,该查询被送到搜索引擎14。根据搜索引擎原理,搜索引擎14返回一个符合该查询的万维网站列表16,该列表在一结果集合“R”中返回,并在块34收到该结果集合“R”。通常,结果集合是作为万维网站名列表返回的,这些万维网站名被称作统一资源定位符(URL)。
进到块36,于是该逻辑按下述方式扩展结果集合“R”。首先,把与结果集合“R”中的一个或多个元素“r”存在超级链接的所有“s”URL加到结果集合“R”中。这样,在块36,在第一文档中识别出了对第二文档的参考。
接下来,在块38,把全部“t”URL加到结果集合“R”中,这“t”URL的特征是存在从结果集合“R”中的任何元素“r”到该URL的超级链接,这一扩展了的集合表示为“S”。这样,在块36和38,通过把由结果集合“R”中的URL中的超级链接所指向的那些URL或者借助超级链接指向R中URL的那些URL添加到结果集合“R”中,使结果集合“R”扩展为扩展集合“S”。
该逻辑从块38移到块40,从而进入对扩展集合“S”中每个文档的“DO”循环。在决策菱形42中,确定是否在该文档的URL“u”的词汇间隔范围内出现任何查询术语,即是否在被测试文档中有任何查询术语出现在指向扩展集合“S”中第u个文档的超级链接的词汇间隔范围内。如果是,则在块44使与扩展集合“S”中的第u个文档关联的一个计数器u增加1,然后在块46检索出下一个文档。这样,该逻辑确定了在第一文档中有至少一个查询术语存在于对第二文档的参考的词汇间隔范围内的次数,用于据此对文档分级(见下述)。
如果在决策菱形42处的测试是否定的,则逻辑直接移到块46。逻辑从块46移到决策菱形48,以确定是否已完成“DO”循环,如果否,则逻辑循环回到决策菱形42。另一方面,一旦完成了“DO”循环,过程则移到块50,返回一个按计数器值递减顺序的URL有序集合。
现在参考图4,可理解“B”过程,它试图根据这里某些术语的重要性对从过程“A”返回的头“N”个URL进行重新排序。在块52开始,接收一组文档。这组文档可以是例如在块50输出的头“N”个(例如20个)URL。对于这一组文档,进入一个“DO”循环,并在块54把索引变量“v”设为等于被测试的URL。
移到块56,在那里确定引用被测试URL“v”(例如,通过包含一个指向被测试URL“v”的超级链接)的所有URL“u”(或其子集)。接下来,进到块58,在那里检索出指向被测试URL“v”的超级链接所属的那些URL中的所有锚入文本。
“锚入文本”是指一个文本中直接与一超级链接或者其他参考或引用相关联的文本。例如,在这样一段话“One of the earliesthigh-energy nuclear accelerators was built at(最高的高能核子加速器之一曾建在)<A HREF=
http://www.CERN.ch>CERN,the European Laboratory for Particle Physics(欧洲粒子物理实验室)</A>,中,超链接是短语
http://www.CERN.ch,而锚入文本是介于“<A>…</A>”之间的材料。利用此例,对于例如为5的词汇间隔,在该锚入文本的词汇间隔范围内的术语是“nuclear accelerators was built at”,而不在该锚入文本的词汇间隔范围内的术语是“One of the earliesthigh-energy”。
然后,对每个查询术语,在块60进入一个嵌入的“DO”循环。进入决策菱形62,确定被测试查询术语在被测试文档中出现的频度是否大于锚入文本的某参考集合中的参考频度,如由各种传统的统计技术之一所确定的那样。
当被测试文档中的被测试查询术语出现的频度大于参考频度时,该过程移到块64,在那里把该被测试文档标注为重要的。否则,被测试文档不被标注为重要的。在每种情况中,每个文档都可与一个计数器或其他值相关联,该计数器或其他值代表由上述测试得到的它的重要性。在上面讨论的“DO”循环结束时,这头“N”个URL按其重要性排序。
现在参考图5,图中显示通过超级链接找出描述性术语的过程“C”。在块68处开始,接收URL“u”的一个集合“U”,并对集合“U”中的每个单个URL“u”,进入一个“DO”循环。在块70,确定URL“u”的近邻“N(u)”集合。“近邻(in-neighbour)”是指URL集合“U”中的含有指向被测试文档“u”的超级链接的文档。换一种说法,可把近邻集合N(u)看作是参考被参考文档“u”的参考文档。
对近邻集合N(u)的每个元素(即文档术语),在块72进入一个嵌入的“DO”循环。移到块74,一个计数器与近邻集合N(u)的每个术语关联。接着,进入一个双嵌入“DO”循环进入决策菱形76,确定被测试术语是否在指向被测试文档“u”的一个参考(例如超级链接)的预先确定间隔范围内。这个预先确定间隔可以是上文讨论的词汇间隔。如果被测试术语处在指向被测试文档的一个参考的预先确定间隔范围内,则在块78对计数器加1。否则,该计数器不加1。当文档集合“U”中所有文档“u”的近邻集合N(u)中的所有近邻的所有术语都已按上述作法测试过时,该逻辑移到块80,按各术语各自的计数器值对这些术语排序,并返回一个排序列表。
如本发明认识到的那样,在块80处的输出是文档集合“U”中术语的分级列表。这一分级列表能用于向用户建议额外的查询术语。而且,它可作为运行中的关联词典。此外,在块80处的输出能用于注释被超级链接接的文档集丛和术语集丛,作为许多搜索引擎的一个后处理步骤。
图6显示过程“D”的逻辑,用于找出计算机存储文档中文档术语和由一个或多个查询术语代表的查询主题之间的关联。在块82处开始,接收一个查询“Q”。该查询“Q”由一个或多个查询术语“q”构成。
在块84处,该查询被送到一搜索引擎,作为响应,从搜索引擎回收到一个文档列表。移到块86,在此处构成一个双枝图G=((T,U),E),其顶点是在块84处返回的术语(T)和文档(U),这里T和U分别代表双枝图的文档术语分支和URL分支,而这里的E代表分枝之间的边缘。
进到块88,对每个文档,进入一个“DO”循环。进到块90,该文档被扫描,寻找URL“u”和查询术语“q”。接下来进到块92,对于在查询术语“q”的一个预先确定间隔范围内找出的每个文档术语“t”和URL“u”,进入一个“DO”循环,其中在块94处对边缘(t,u)E的权重增1。利用这一逻辑,如果在一文档中在一查询术语的预先确定间隔范围内找到一文档术语和一文档名或引用(以超级链接的形式)二者,则输出一个信号,它代表该文档术语和该查询主题之间的关联。
如果希望的话,该“DO”循环能包括进入块96,在这里对边缘E:ai,j定义的矩阵A确定一个单值分解(SVD),这里ai,j是从第i个术语到第i个URL的边缘的权重。如本领域众所周知,在块96处对SVD的确定有效地对A进行了因式分解:A=USV,这里S是含有A的奇异值的对角矩阵,而U和V是用于进行正交交换的正交矩阵。在本领域中称作隐伏语义检索(Latent Semantic Indexing,LSI)的技术,如在美国专利4,839,853号中公开的那种,可用于对全集进行预处理,特别是把文档-术语矩阵A分解为USV,这里U给出从术语空间到可称作LSI或概念空间的线性投影。几百个LSI维数“k”足够了。
然而,LSI搜索并不使用U矩阵,而本发明使用U矩阵,如下述。每个术语被映射到LSI空间,其每个文档由一个K维矢量序列代表。查询本身被变换成这种矢量的一个短序列。然后,这些文档被扫描,该逻辑试图使查询矢量与文档中的一个矢量小窗口匹配。如果存在一个低成本(即“好的”)匹配,则对附近的引用,即超级链接,投一个大的赞成票,可以用一种最小成本匹配策略来对成本进行估计,匹配与术语t1和t2对应的矢量所需的边缘成本就是它们在U中投影之间的距离。作为一例,查询“auto makers(汽车制造商)”可以以小成本匹配于文本序列“companies making cars(制造汽车的公司)”,于是对这种类似短语附近发生的引用投赞成票。
与LSI相反,本发明对每个文档保持一个LSI矢量序列。换言之,与LSI不同,本发明考虑匹配LSI矢量序列和使用评分对邻近的引用投票。
如果希望的话,该过程可在块98向用户返回建议的搜索术语。为确定这些建议的术语,该逻辑按降值顺序对在块96中确定的SVD左矢量(即“U”的第一列)上有投影的那些术语进行排序。然后,在块98将排序列表中的头“k”个术语返回,这里“k”是一个预先确定的整数,例如5。
Claims (16)
1.一种计算机系统,用于响应查询以对一文档集合中的文档进行分级,该计算机系统包括:
用于在第一文档中识别出对第二文档的参考的装置;
用于接收一词汇间隔的装置,该词汇间隔定义文档术语个数;
用于接收包括一个或多个查询术语的查询的装置;以及
用于确定在第一文档中在指向第二文档的参考的词汇间隔范围内存在至少一个查询术语的次数,并据此对文档分组的装置。
2.如权利要求1所述的计算机系统,其中文档可通过广域/计算机网络访问,而且参考包括一个统一资源列表(URL)。
3.如权利要求2所述的计算机系统,其中词汇间隔是根据查询建立的。
4.如权利要求2所述的计算机系统,进一步包含计算机可读代码装置用于根据文档中查询术语出现在参考的词汇间隔范围内的次数来对多个文档分级的装置。
5.如权利要求2所述的计算机系统,进一步包含:
用于接收文档集合“U”的装置;
对于集合“U”中的至少一个测试文档“u”,把集合“U”中包括至少一个对测试文档“u”的参考的那些文档定义为近邻文档“N(u)”的计算机可读代码装置;
对于至少一个近邻文档“N(u)”中的至少一个文档术语,确定是否该至少一个文档术语处在近邻文档“N(u)”中对测试文档“u”的一个参考的预先确定间隔内的装置;以及
响应确定是否该至少一个文档术语处在一参考的预先确定间隔范围内的装置,从而输出一个信号的装置。
6.如权利要求5所述的计算机系统,其中当至少一个文档术语处在对测试文档“u”的参考的预先确定间隔范围内时,该输出装置使与这至少一个文档术语关联的计数器增量。
7.如权利要求2所述的计算机系统,进一步包含:
响应包括一个或多个查询术语的查询,接收文档集合“U”的装置,其中每个文档包含一个或多个文档术语;以及
当至少一个文档术语和对至少一个第一文档的参考二者在这至少一个文档的一个查询术语的预先确定间隔范围内时,在这至少一个第一文档和这至少一个文档术语之间定义相关性的装置。
8.如权利要求7所述的计算机系统,其中相关性与一权重关联,该权重是基于该文档术语和对第一文档的参考处在文档集合“U”中一查询术语的预先确定间隔范围内的次数。
9.一种基于计算机系统的方法,用于响应一个查询以对计算机存储的一个文档集合中的文档进行分级,该方法包含如下步骤:
在第一文档中识别出对第二文档的参考;
接收(30)一词汇间隔,该词汇间隔定义文档术语的个数;
接收(28)包括一个或多个查询术语的查询;以及
确定(40、42、44、46、48)在第一文档中在指向第二文档的参考的词汇间隔范围内存在至少一个查询术语的次数,并据此对文档分级。
10.如权利要求9所述的方法,其中文档可通过广域计算机网络访问,而且参考包括一个统一资源列表(URL)。
11.如权利要求10所述的方法,其中词汇间隔是根据查询建立的。
12.如权利要求10所述的方法,其中方法步骤进一步包含:根据文档中查询术语各自出现在参考的词汇间隔范围内的次数来对多个文档分级(50)。
13.如权利要求10所述的方法,其中方法步骤进一步包含:
接收(52)文档集合“U”,
对于集合“U”中的至少一个测试文档“u”,把集合“U”中包括至少一个对测试文档“u”的参考的那些文档定义(70)为近邻文档“N(u)”,
对于至少一个近邻文档“N(u)”中的至少一个文档术语,确定(76、78)是否该至少一个文档术语处在近邻文档“N(u)”中对测试文档“u”的一个参考的预先确定间隔内;以及
响应确定是否该至少一个文档术语处在一参考的预先确定间隔范围内的装置,从而输出(80)一个信号。
14.如权利要求13所述的方法,其中当该至少一个文档术语处在对测试文档“u”的参考的预先确定间隔范围内时,该输出步骤(80)使与这至少一个文档术语关联的计数器增量。
15.如权利要求10所述的方法,进一步包含:
响应包括一个或多个查询术语的查询,接收文档集合“U”的计算机可读代码装置(52),其中每个文档包含一个或多个文档术语;以及
当至少一个文档术语和对至少一个第一文档的参考二者在这至少一个文档的一个查询术语的预先确定间隔范围内时,定义这至少一个第一文档和这至少一个文档术语之间相关性的计算机可读代码装置(60、62)。
16.如权利要求15所述的方法,其中相关性与一权重关联,该权重基于该文档术语和对第一文档的参考处在文档集合“U”中一查询术语的预先确定间隔范围内的次数。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US09/058,635 | 1998-04-10 | ||
US09/058,635 US6125361A (en) | 1998-04-10 | 1998-04-10 | Feature diffusion across hyperlinks |
Publications (2)
Publication Number | Publication Date |
---|---|
CN1296589A CN1296589A (zh) | 2001-05-23 |
CN1112647C true CN1112647C (zh) | 2003-06-25 |
Family
ID=22018010
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN99804913A Expired - Lifetime CN1112647C (zh) | 1998-04-10 | 1999-03-12 | 响应查询以对文档集合中的文档进行分级的系统和方法 |
Country Status (8)
Country | Link |
---|---|
US (1) | US6125361A (zh) |
EP (1) | EP1070296B1 (zh) |
CN (1) | CN1112647C (zh) |
CA (1) | CA2326153C (zh) |
DE (1) | DE69917250T2 (zh) |
PL (1) | PL343403A1 (zh) |
TW (1) | TW526432B (zh) |
WO (1) | WO1999053418A1 (zh) |
Families Citing this family (81)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6760746B1 (en) | 1999-09-01 | 2004-07-06 | Eric Schneider | Method, product, and apparatus for processing a data request |
US6640224B1 (en) * | 1997-12-15 | 2003-10-28 | International Business Machines Corporation | System and method for dynamic index-probe optimizations for high-dimensional similarity search |
FI981355A (fi) * | 1998-06-11 | 1999-12-12 | Nokia Mobile Phones Ltd | Elektroninen tiedoston noutomenetelmä ja -järjestelmä |
US9141717B2 (en) | 1999-03-22 | 2015-09-22 | Esdr Network Solutions Llc | Methods, systems, products, and devices for processing DNS friendly identifiers |
US6338082B1 (en) | 1999-03-22 | 2002-01-08 | Eric Schneider | Method, product, and apparatus for requesting a network resource |
US7188138B1 (en) | 1999-03-22 | 2007-03-06 | Eric Schneider | Method, product, and apparatus for resource identifier registration and aftermarket services |
US8667051B2 (en) * | 1999-03-22 | 2014-03-04 | Esdr Network Solutions Llc | Real-time communication processing method, product, and apparatus |
US8037168B2 (en) | 1999-07-15 | 2011-10-11 | Esdr Network Solutions Llc | Method, product, and apparatus for enhancing resolution services, registration services, and search services |
USRE43690E1 (en) | 1999-03-22 | 2012-09-25 | Esdr Network Solutions Llc | Search engine request method, product, and apparatus |
US6269361B1 (en) * | 1999-05-28 | 2001-07-31 | Goto.Com | System and method for influencing a position on a search result list generated by a computer network search engine |
US7065500B2 (en) * | 1999-05-28 | 2006-06-20 | Overture Services, Inc. | Automatic advertiser notification for a system for providing place and price protection in a search result list generated by a computer network search engine |
US6430558B1 (en) * | 1999-08-02 | 2002-08-06 | Zen Tech, Inc. | Apparatus and methods for collaboratively searching knowledge databases |
US6321228B1 (en) * | 1999-08-31 | 2001-11-20 | Powercast Media, Inc. | Internet search system for retrieving selected results from a previous search |
USRE44207E1 (en) | 1999-09-01 | 2013-05-07 | Esdr Network Solutions Llc | Network resource access method, product, and apparatus |
US6697799B1 (en) * | 1999-09-10 | 2004-02-24 | Requisite Technology, Inc. | Automated classification of items using cascade searches |
US6324534B1 (en) * | 1999-09-10 | 2001-11-27 | Requisite Technology, Inc. | Sequential subset catalog search engine |
US6907424B1 (en) | 1999-09-10 | 2005-06-14 | Requisite Technology, Inc. | Sequential subset catalog search engine |
US6389467B1 (en) | 2000-01-24 | 2002-05-14 | Friskit, Inc. | Streaming media search and continuous playback system of media resources located by multiple network addresses |
US6883135B1 (en) | 2000-01-28 | 2005-04-19 | Microsoft Corporation | Proxy server using a statistical model |
US7010537B2 (en) * | 2000-04-27 | 2006-03-07 | Friskit, Inc. | Method and system for visual network searching |
US6912525B1 (en) * | 2000-05-08 | 2005-06-28 | Verizon Laboratories, Inc. | Techniques for web site integration |
US6915294B1 (en) | 2000-08-18 | 2005-07-05 | Firstrain, Inc. | Method and apparatus for searching network resources |
US7080073B1 (en) | 2000-08-18 | 2006-07-18 | Firstrain, Inc. | Method and apparatus for focused crawling |
US7103838B1 (en) | 2000-08-18 | 2006-09-05 | Firstrain, Inc. | Method and apparatus for extracting relevant data |
US7308439B2 (en) * | 2001-06-06 | 2007-12-11 | Hyperthink Llc | Methods and systems for user activated automated searching |
US7043492B1 (en) | 2001-07-05 | 2006-05-09 | Requisite Technology, Inc. | Automated classification of items using classification mappings |
US7209913B2 (en) * | 2001-12-28 | 2007-04-24 | International Business Machines Corporation | Method and system for searching and retrieving documents |
US6996268B2 (en) * | 2001-12-28 | 2006-02-07 | International Business Machines Corporation | System and method for gathering, indexing, and supplying publicly available data charts |
US7565402B2 (en) * | 2002-01-05 | 2009-07-21 | Eric Schneider | Sitemap access method, product, and apparatus |
US7149697B2 (en) * | 2002-11-04 | 2006-12-12 | Hewlett-Packard Development Company, L.P. | Printer-based consumables price searching |
US7917483B2 (en) * | 2003-04-24 | 2011-03-29 | Affini, Inc. | Search engine and method with improved relevancy, scope, and timeliness |
US20040220914A1 (en) * | 2003-05-02 | 2004-11-04 | Dominic Cheung | Content performance assessment optimization for search listings in wide area network searches |
US7428700B2 (en) | 2003-07-28 | 2008-09-23 | Microsoft Corporation | Vision-based document segmentation |
US9646082B2 (en) | 2003-12-31 | 2017-05-09 | Thomson Reuters Global Resources | Systems, methods, and software for identifying relevant legal documents |
US7594011B2 (en) * | 2004-02-10 | 2009-09-22 | Narus, Inc. | Network traffic monitoring for search popularity analysis |
US7584221B2 (en) * | 2004-03-18 | 2009-09-01 | Microsoft Corporation | Field weighting in text searching |
US7487145B1 (en) * | 2004-06-22 | 2009-02-03 | Google Inc. | Method and system for autocompletion using ranked results |
US7836044B2 (en) | 2004-06-22 | 2010-11-16 | Google Inc. | Anticipated query generation and processing in a search engine |
US7606793B2 (en) | 2004-09-27 | 2009-10-20 | Microsoft Corporation | System and method for scoping searches using index keys |
US8595225B1 (en) * | 2004-09-30 | 2013-11-26 | Google Inc. | Systems and methods for correlating document topicality and popularity |
US7761448B2 (en) | 2004-09-30 | 2010-07-20 | Microsoft Corporation | System and method for ranking search results using click distance |
US7827181B2 (en) | 2004-09-30 | 2010-11-02 | Microsoft Corporation | Click distance determination |
US7739277B2 (en) * | 2004-09-30 | 2010-06-15 | Microsoft Corporation | System and method for incorporating anchor text into ranking search results |
US7499940B1 (en) * | 2004-11-11 | 2009-03-03 | Google Inc. | Method and system for URL autocompletion using ranked results |
US20060106769A1 (en) | 2004-11-12 | 2006-05-18 | Gibbs Kevin A | Method and system for autocompletion for languages having ideographs and phonetic characters |
US8195693B2 (en) | 2004-12-16 | 2012-06-05 | International Business Machines Corporation | Automatic composition of services through semantic attribute matching |
US7716198B2 (en) | 2004-12-21 | 2010-05-11 | Microsoft Corporation | Ranking search results using feature extraction |
US7792833B2 (en) | 2005-03-03 | 2010-09-07 | Microsoft Corporation | Ranking search results using language types |
US20060253476A1 (en) * | 2005-05-09 | 2006-11-09 | Roth Mary A | Technique for relationship discovery in schemas using semantic name indexing |
CN100338610C (zh) * | 2005-06-22 | 2007-09-19 | 浙江大学 | 基于链接分析的个性化搜索引擎方法 |
US7840438B2 (en) * | 2005-07-29 | 2010-11-23 | Yahoo! Inc. | System and method for discounting of historical click through data for multiple versions of an advertisement |
US7599917B2 (en) | 2005-08-15 | 2009-10-06 | Microsoft Corporation | Ranking search results using biased click distance |
US20070124280A1 (en) * | 2005-11-27 | 2007-05-31 | Tony Tateossian | Search Engine which awards Point per Click |
US8095565B2 (en) * | 2005-12-05 | 2012-01-10 | Microsoft Corporation | Metadata driven user interface |
US8010523B2 (en) | 2005-12-30 | 2011-08-30 | Google Inc. | Dynamic search box for web browser |
US8725729B2 (en) * | 2006-04-03 | 2014-05-13 | Steven G. Lisa | System, methods and applications for embedded internet searching and result display |
US20090055368A1 (en) * | 2007-08-24 | 2009-02-26 | Gaurav Rewari | Content classification and extraction apparatus, systems, and methods |
US20090055242A1 (en) * | 2007-08-24 | 2009-02-26 | Gaurav Rewari | Content identification and classification apparatus, systems, and methods |
US7716228B2 (en) * | 2007-09-25 | 2010-05-11 | Firstrain, Inc. | Content quality apparatus, systems, and methods |
US7840569B2 (en) | 2007-10-18 | 2010-11-23 | Microsoft Corporation | Enterprise relevancy ranking using a neural network |
US9348912B2 (en) | 2007-10-18 | 2016-05-24 | Microsoft Technology Licensing, Llc | Document length as a static relevance feature for ranking search results |
US8099417B2 (en) * | 2007-12-12 | 2012-01-17 | Microsoft Corporation | Semi-supervised part-of-speech tagging |
US8201075B2 (en) * | 2008-02-29 | 2012-06-12 | Research In Motion Limited | Enhanced browser navigation |
US8812493B2 (en) | 2008-04-11 | 2014-08-19 | Microsoft Corporation | Search results ranking using editing distance and document information |
US8312032B2 (en) | 2008-07-10 | 2012-11-13 | Google Inc. | Dictionary suggestions for partial user entries |
CN101639857B (zh) * | 2009-04-30 | 2012-12-05 | 腾讯科技(深圳)有限公司 | 构建知识问答分享平台的方法、装置及系统 |
WO2010139277A1 (en) | 2009-06-03 | 2010-12-09 | Google Inc. | Autocompletion for partially entered query |
US8339094B2 (en) * | 2010-03-11 | 2012-12-25 | GM Global Technology Operations LLC | Methods, systems and apparatus for overmodulation of a five-phase machine |
US11367295B1 (en) | 2010-03-23 | 2022-06-21 | Aurea Software, Inc. | Graphical user interface for presentation of events |
US10546311B1 (en) | 2010-03-23 | 2020-01-28 | Aurea Software, Inc. | Identifying competitors of companies |
US8805840B1 (en) | 2010-03-23 | 2014-08-12 | Firstrain, Inc. | Classification of documents |
US10643227B1 (en) | 2010-03-23 | 2020-05-05 | Aurea Software, Inc. | Business lines |
CA2836700C (en) | 2010-05-25 | 2017-05-30 | Mark F. Mclellan | Active search results page ranking technology |
US8738635B2 (en) | 2010-06-01 | 2014-05-27 | Microsoft Corporation | Detection of junk in search result ranking |
US8793706B2 (en) | 2010-12-16 | 2014-07-29 | Microsoft Corporation | Metadata-based eventing supporting operations on data |
US8782042B1 (en) | 2011-10-14 | 2014-07-15 | Firstrain, Inc. | Method and system for identifying entities |
US8433719B1 (en) * | 2011-12-29 | 2013-04-30 | Google Inc. | Accelerating find in page queries within a web browser |
US9495462B2 (en) | 2012-01-27 | 2016-11-15 | Microsoft Technology Licensing, Llc | Re-ranking search results |
US9292505B1 (en) | 2012-06-12 | 2016-03-22 | Firstrain, Inc. | Graphical user interface for recurring searches |
US10592480B1 (en) | 2012-12-30 | 2020-03-17 | Aurea Software, Inc. | Affinity scoring |
CN104036045B (zh) * | 2014-07-01 | 2018-04-03 | 彩带网络科技(北京)有限公司 | 一种信息分析方法及服务平台 |
Family Cites Families (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP3108015B2 (ja) * | 1996-05-22 | 2000-11-13 | 松下電器産業株式会社 | ハイパーテキスト検索装置 |
US5802515A (en) * | 1996-06-11 | 1998-09-01 | Massachusetts Institute Of Technology | Randomized query generation and document relevance ranking for robust information retrieval from a database |
AU3484897A (en) * | 1996-06-17 | 1998-01-07 | Idd Enterprises, L.P. | Hypertext document retrieval system and method |
US5920859A (en) * | 1997-02-05 | 1999-07-06 | Idd Enterprises, L.P. | Hypertext document retrieval system and method |
US5920854A (en) * | 1996-08-14 | 1999-07-06 | Infoseek Corporation | Real-time document collection search engine with phrase indexing |
US5875446A (en) * | 1997-02-24 | 1999-02-23 | International Business Machines Corporation | System and method for hierarchically grouping and ranking a set of objects in a query context based on one or more relationships |
US5845278A (en) * | 1997-09-12 | 1998-12-01 | Inioseek Corporation | Method for automatically selecting collections to search in full text searches |
US5953718A (en) * | 1997-11-12 | 1999-09-14 | Oracle Corporation | Research mode for a knowledge base search and retrieval system |
-
1998
- 1998-04-10 US US09/058,635 patent/US6125361A/en not_active Expired - Lifetime
-
1999
- 1999-02-09 TW TW088101973A patent/TW526432B/zh not_active IP Right Cessation
- 1999-03-12 CN CN99804913A patent/CN1112647C/zh not_active Expired - Lifetime
- 1999-03-12 CA CA002326153A patent/CA2326153C/en not_active Expired - Lifetime
- 1999-03-12 PL PL99343403A patent/PL343403A1/xx unknown
- 1999-03-12 EP EP99907779A patent/EP1070296B1/en not_active Expired - Lifetime
- 1999-03-12 DE DE69917250T patent/DE69917250T2/de not_active Expired - Lifetime
- 1999-03-12 WO PCT/GB1999/000752 patent/WO1999053418A1/en active IP Right Grant
Also Published As
Publication number | Publication date |
---|---|
TW526432B (en) | 2003-04-01 |
WO1999053418A1 (en) | 1999-10-21 |
EP1070296A1 (en) | 2001-01-24 |
DE69917250T2 (de) | 2006-03-23 |
DE69917250D1 (de) | 2004-06-17 |
CA2326153C (en) | 2003-12-09 |
CA2326153A1 (en) | 1999-10-21 |
US6125361A (en) | 2000-09-26 |
CN1296589A (zh) | 2001-05-23 |
EP1070296B1 (en) | 2004-05-12 |
PL343403A1 (en) | 2001-08-13 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN1112647C (zh) | 响应查询以对文档集合中的文档进行分级的系统和方法 | |
US6418433B1 (en) | System and method for focussed web crawling | |
Agrawal et al. | A detailed study on text mining techniques | |
da Costa et al. | Web structure mining: an introduction | |
Henzinger | Link analysis in web information retrieval | |
Kwon et al. | Text categorization based on k-nearest neighbor approach for web site classification | |
US6289342B1 (en) | Autonomous citation indexing and literature browsing using citation context | |
US7698317B2 (en) | Techniques for detecting duplicate web pages | |
US7680858B2 (en) | Techniques for clustering structurally similar web pages | |
US7676465B2 (en) | Techniques for clustering structurally similar web pages based on page features | |
US7636714B1 (en) | Determining query term synonyms within query context | |
CN100433007C (zh) | 提供搜索结果的方法 | |
Poblete et al. | Query-sets: using implicit feedback and query patterns to organize web documents | |
US7516397B2 (en) | Methods, apparatus and computer programs for characterizing web resources | |
CN102184262A (zh) | 基于web的文本分类挖掘系统及方法 | |
US20050114130A1 (en) | Systems and methods for improving feature ranking using phrasal compensation and acronym detection | |
WO1998016890A1 (en) | Management and analysis of document information text | |
CN1702654A (zh) | 计算显示页面中块的重要度的方法和系统 | |
Tajima et al. | Discovery and Retrieval of Logical Information Units in Web. | |
Bin et al. | Web mining research | |
Diao et al. | Toward learning based web query processing | |
Chen et al. | A unified framework for web link analysis | |
Ye et al. | Learning object models from semistructured web documents | |
US20030018617A1 (en) | Information retrieval using enhanced document vectors | |
Boddu et al. | Knowledge discovery and retrieval on World Wide Web using web structure mining |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C14 | Grant of patent or utility model | ||
GR01 | Patent grant | ||
CX01 | Expiry of patent term | ||
CX01 | Expiry of patent term |
Granted publication date: 20030625 |