CN101990670A - 使用编辑距离和文档信息进行搜索结果排名 - Google Patents

使用编辑距离和文档信息进行搜索结果排名 Download PDF

Info

Publication number
CN101990670A
CN101990670A CN2009801129286A CN200980112928A CN101990670A CN 101990670 A CN101990670 A CN 101990670A CN 2009801129286 A CN2009801129286 A CN 2009801129286A CN 200980112928 A CN200980112928 A CN 200980112928A CN 101990670 A CN101990670 A CN 101990670A
Authority
CN
China
Prior art keywords
document
editing distance
query string
information
string
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN2009801129286A
Other languages
English (en)
Other versions
CN101990670B (zh
Inventor
V·坦科维奇
H·李
D·梅耶泽
J·徐
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Microsoft Technology Licensing LLC
Original Assignee
Microsoft Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Microsoft Corp filed Critical Microsoft Corp
Publication of CN101990670A publication Critical patent/CN101990670A/zh
Application granted granted Critical
Publication of CN101990670B publication Critical patent/CN101990670B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/194Calculation of difference between files
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis

Abstract

一种用于基于查询串从接收到的作为搜索结果的文档中提取文档信息并计算数据串与该查询串之间的编辑距离的体系结构。编辑距离被用来通过检测整个查询或查询的一部分的接近匹配来确定文档的相关性以作为结果排名的一部分。编辑距离评估查询串与包括诸如TAUC(标题、锚文本、URL、点击)信息等文档信息的给定数据流有多接近。该体系结构包括用于允许更高效地发现查询项的、对URL中的混合项进行的索引时间划分。另外,锚文本的索引时间过滤被用来寻找文档结果中的一个或多个的前N个锚。TAUC信息可被输入到神经网络(例如,2层)以改进用于对搜索结果进行排名的相关性度量。

Description

使用编辑距离和文档信息进行搜索结果排名
背景
在典型的搜索引擎服务中,用户可以通过从URL(统一资源定位符)的索引集合中选出与查询相匹配的最相关文档来输入查询。为了快速对查询进行服务,搜索引擎利用将关键字映射到文档的一种或多种方法(例如,倒排索引数据结构)。例如,引擎所执行的第一步骤可以是标识包含用户查询所指定的关键字的候选文档的集合。这些关键字可以位于文档正文或元数据或实际上存储在其他文档或数据存储中的关于该文档的附加元数据(如锚文本)中。
在一大型索引集合中,取决于查询项的共同性,候选文档集合的基数可以很大(例如,可能有数百万)。并非返回整个候选文档集合,搜索引擎根据相关性来执行对候选文档进行排名的第二步骤。通常,搜索引擎利用排名功能来预测文档与特定查询的相关性程度。排名功能从文档取得多个特征作为输入,并且计算允许搜索引擎按照所预测的相关性对文档进行排序的数量。
排名功能相对于该功能有多准确地预测文档的相关性的质量由用户对搜索结果的满意度或用户发现所提问题的答案的平均次数来最终确定。对系统的总体用户满意度可以由单个数字(或度量)来近似,因为该数字可以通过改变排名功能来优化。通常,该度量是在通过对查询日志进行随机采样来预先选择的代表性查询集合上计算的,并且涉及向引擎对于评估查询中的每一个所返回的每一结果分配相关性标记。然而,用于文档排名和相关性的这些过程仍然不足以提供所需结果。
概述
以下提出了简化概述以便提供对在此处描述的某些新颖实施例的基本理解。本概述不是详尽的概览,它不旨在标识关键/重要的元素,也不旨在描绘其范围。其唯一的目的是以简化的形式来介绍一些概念,作为稍后提出的更详细描述的序言。
该体系结构提供用于基于查询串从作为搜索结果接收到的文档中提取文档信息并计算数据串与该查询串之间的编辑距离的机制。数据串可以是从诸如TAUC(标题、锚文本、URL(统一资源定位符)、以及点击)等文档信息获得的文档的简短且准确的描述。编辑距离被用于确定文档的相关性以作为结果排名的一部分。该机制使用一组邻近度相关特征来检测整个查询或查询的一部分的接近匹配以改进搜索结果排名的相关性。
处理编辑距离以评估查询串与包括该文档信息的给定数据流有多接近。该体系结构包括对URL中的混合项进行的索引时间划分,以用于允许更高效地发现查询项。另外,锚文本的索引时间过滤被用来寻找文档结果中的一个或多个的前N个锚。使用TAUC信息可被输入到神经网络(例如,2层)以改进用于对搜索结果进行排名的相关性度量。
为实现上述及相关目的,本文结合下面的描述和附图描述某些说明性方面。然而,这些方面仅指示了可采用此处公开的原理的各种方法中的少数几种,且旨在包括所有这些方面及等效方面。结合附图阅读下面的详细描述,则其他优点和新颖特征将变得清楚。
附图简述
图1示出计算机实现的相关性系统。
图2示出用于计算编辑距离的示例性匹配算法的流程图。
图3示出使用经修改的编辑距离和匹配算法来基于查询串和数据串处理并生成编辑距离值。
图4示出使用经修改的编辑距离和匹配算法来基于查询串和数据串处理并生成编辑距离值的另一示例。
图5示出使用神经网络来帮助生成文档的相关性分数的计算机实现的相关性系统。
图6示出可以在用于确定查询串与数据串之间的编辑距离的文档信息中使用的数据的类型。
图7示出索引时间处理数据流。
图8示出例示来自图7的索引过程的、用于结果排名的对神经网络的输入的框图。
图9示出用于计算生成搜索结果的神经网络、编辑距离输入以及原始特征输入的示例性系统实现。
图10示出确定文档结果集的文档相关性的方法。
图11示出计算文档的相关性的方法。
图12示出根据所公开的体系结构的可用于使用TAUC特征执行编辑距离处理以进行搜索结果排名的计算系统的框图。
详细描述
所公开的体系结构通过实现一组邻近度相关特征来检测整个查询的接近匹配或具有与该文档有关的准确元数据(如,标题、锚、URL、或点击)的匹配以改进搜索结果排名的相关性。例如,考虑查询“company store”、第一文档的文档标题“company store online”和第二文档的文档标题“new NEC LCD monitors in company store”。假定其它特性对第一和第二文档而言相同,则该体系结构基于为使选定流与该查询相匹配要贡献多少编辑努力来向文档分配分数。在该示例中,选择文档标题来进行评估。第一文档的标题只需要一次删除操作(删除项“online”)就能得到完全匹配,而第二文档的标题需要五次删除(删除项“new”、“NEC”、“LCD”、“monitors”以及“in”)。因此,第一文档被计算成较为相关。
标题是TAUC(标题、锚、URL以及点击)文档信息的一个元素,对于TAUC文档信息,可以对一些数据流(例如,URL)应用处理以便可以从混合项中找到查询项的。例如,再次考虑查询“company store”,并且URL是www.companystore.com。结果是该URL被分成四个部分(即,项):“www”、“company”、“store”以及“com”。
现在参照附图,在全部附图中,相同的附图标记用于表示相同的元素。在以下描述中,为解释起见,描绘了众多具体细节以提供对本发明的全面理解。然而,显然,各新颖实施例可以在没有这些具体细节的情况下实现。在其他情况下,以框图形式示出了公知的结构和设备以便于描述它们。
图1示出计算机实现的相关性系统100。系统100包括处理组件102,用于基于查询串110从作为搜索结果108接收到的文档106中提取文档信息104。系统100还可包括邻近度组件112,用于计算从文档信息104导出的数据串116与查询串110之间的编辑距离114。编辑距离114被用于确定作为搜索结果108的一部分的文档106的相关性。
用于生成数据串116的文档信息104可包括例如标题信息(即,字符)、链接信息(例如,URL字符)、点击流信息、和/或锚文本(即,字符)。处理组件102在索引时间划分文档信息104的混合项以计算编辑距离114。处理组件102还便于在索引时间过滤诸如锚文本等文档信息以计算排名最前的一组锚文本。
对编辑距离114的计算基于用于增加数据串116与查询串110之间的邻近度(使之更近)的项插入和项删除。对编辑距离114的计算还可基于与用于增加数据串116与查询串110之间的邻近度(使之更近)项插入和项删除相关联的成本。
考虑基于向查询串110插入和/或从中删除项来生成数据串116(例如,TAUC)的情况。该项处理可以根据四个操作来执行:将非查询字插入查询串110;将查询项插入查询串110;从查询串110删除TAUC项;和/或从查询串110删除非TAUC项。
编辑距离114是基于插入和删除操作的,但不基于置换。对于插入,可以定义两种类型的成本。考虑从查询串110生成数据串116的情况。在生成时,可以将一个字插入查询串110,当该字在原始查询串110中存在时则成本被定义为1;否则成本被定义为w1(≥1)。在此,w1是所调节的加权参数。例如,如果查询串110是AB,则生成数据串ABC的成本高于数据串ABA的成本。直观上,通过将“不相关字”插入数据串116使得整个数据串116(例如,TAUC)更加不相关。
对于删除,可以定义两种类型的成本。同样,考虑从查询串110生成数据串116的情况。在删除查询串110中的项时,当该项存在于原始查询串116中时,则成本被定义为1;否则成本被定义为w2(≥1)。
另一类型的成本是位置成本。如果删除或插入发生在数据串116的第一位置处,则存在附加成本(+w3)。直观上,对在两个串(查询串110和数据串116)的开头处的匹配给出比这些串较后处的匹配更大的重要性。考虑以下示例,其中查询串110是“cnn”并且数据串116是标题=“cnn.com-blur blur”。如果插入和删除发生在第一位置处,则可以显著地降低该解决方案的效率。
图2示出用于计算编辑距离的示例性的经修改的匹配算法200的流程图。尽管出于解释简明的目的,此处例如以流图或流程图形式示出的一个或多个方法被示出并描述为一系列动作,但是可以理解和明白,各方法不受动作的次序的限制,因为根据本发明,某些动作可以按与此处所示并描述的不同的次序和/或与其他动作同时发生。例如,本领域技术人员将会明白并理解,方法可被替换地表示为一系列相互关联的状态或事件,诸如以状态图的形式。此外,并非在一方法中示出的所有动作都是新颖实现所必需的。
在200,枚举查询串和数据(即,目标)串的各元素。这通过设查询串的程度是n(其中查询串中的每一项是s[i])并设目标(即,数据)串的程度是m(其中目标串中的每一项被表示为t[j])来实现。在202,构造包含0…m行和0…n列的矩阵(其中该矩阵中的每一项被表示为d[j,i])。在204,使用依赖于删除的不同成本的值来初始化第一行并且使用依赖于插入的不同成本的值来初始化第一列。在206,如果n=0,则返回d[m,0]并退出,并且如果m=0,则返回d[0,n]并退出,如在208所示。在210,检查查询串的每一字符(i从1到n)。在212,检查目标数据串的每一字符(j从1到m)。在214,如果查询串中的字符串等于数据串中的各字符,则该流程去往216,在那里成本是0并处理下一矩阵单元。换言之,如果s[i]等于t[j],则成本是0并且d[j,i]=d[j-1,i-1]。
如果查询串单元中的字符不等于数据串单元中的字符,则该流程从214至218,在那里将当前单元设成紧靠上方的单元或紧靠左侧的单元,加上插入或删除成本。换言之,如果s[i]不等于t[j],则将该矩阵的单元d[j,i]设成等于紧靠上方的单元加上对应的插入成本(由d[j-1,i]+cost_insertion(插入成本)表示)或紧靠左侧的单元加上对应的删除成本(由d[j-1,i]+cost_deletion(删除成本)表示)的最小值。在220,迭代步骤210、212、214、216以及218以完成。在222,输出在单元d[m,n]中找到的最终成本。注意,在该示例中,cost_insertion和cost_deletion两者都具有两种值;例如,用于插入成本的w1=1、w3=4以及用于删除成本的w2=1、w4=26。
换言之,d[j,i]包含串s[0..i]和t[0...j]之间的编辑距离。根据定义,d[0,0]=0(无需编辑即可使空串等于空串)。d[0,y]=d[0,y-1]+(w2或w4).如果已知使用了多少编辑才产生了串d[0,y-1],则d[0,y]可以计算成d[0,y-1]+从目标串删除当前字符的成本,这一成本可以是w2或w4。如果当前字符存在于s[0…n]、t[0…m]两者中,则使用成本w2;否则使用w4。d[x,0]=d[x-1,0]+(w1或w3)。如果已知使用了多少编辑才产生了串d[x-1,0],则d[x,0]可以计算成d[x-1,0]+从s到t插入当前字符的成本,这一成本可以是w1或w3。如果当前字符存在于s[0…n]、t[0…m]两者中,则使用成本w1;否则使用w3。
对于每一(j,i),如果s[i]=t[j],则d[j,i]可以等于d[j-1,i-1]。可以计算串t[j-1]、s[i-1]之间的编辑距离,并且如果s[i]=t[j],则可以对这两个串附加共同字符以在不造成编辑的情况下使这些串相等。因此,使用了三个移动,其中选择提供当前d[j,i]的最小编辑距离的移动。换言之,
d[j,i]=min(
如果s[i]=t[j],则d[j-1,i-1];
d[j-1,i]+(如果s[j]存在于这两个串中,w1;否则,w3);
d[j,i-1]+(如果t[i]存在于这两个串中,w2;否则,w4)
)
图3示出使用经修改的编辑距离和匹配算法来基于查询串和数据串处理并生成编辑距离值。该过程涉及从左至右、自顶向下、以及对角计算中的一个或多个。相对于项“C B A X”的目标数据串来处理项“A B C”查询串(其中,X表示不存在于查询串中的项)。用于计算编辑距离的过程可以用不同的方式来执行;然而,用于执行编辑距离的修改版本的具体细节在根据所公开的体系结构进行计算时是不同的。基于n×m来构造4×5矩阵300,其中对于查询串n=3且对于数据串m=4。查询串302沿矩阵300的水平轴放置,并且目标数据串304沿着垂直轴。
本描述将使用用四列(0-3)和五行(0-4)来表示的矩阵300。在行0列0开始,从左至右来应用图2中描述的编辑距离匹配算法,交叉单元d[0,0]接收“0”,因为查询串ABC的空单元与目标数据串CBAX的空单元的比较不造成用于使查询串与目标数据串相同的项插入或删除。“项”是相同的,所以编辑距离是0。
向右移动来将查询串302的A项与行0的空单元进行比较,使用一次删除以使这些串相同;因此,单元d[0,1]接收值“1”。再次向右移动至列2,现在进行查询串302的项AB与目标数据串列的空单元之间的比较。因此,使用查询串302中的两次删除来使这些串相同,从而使得编辑距离“2”被置于单元d[0,2]中。同样的过程应用于列3,其中将查询串302的项ABC与目标串列中的空单元相比较,使用三次删除以使得这些串相同,从而产生单元d[0,3]中的编辑距离“3”。
下降到行1并继续从左至右,将查询串行的空单元与目标数据串304的第一项C相比较。使用一次删除以使得这些串相同,其中d[1,0]中的编辑距离是“1”。向右移至列1,进行查询串302的A项与目标数据串304的C项之间的比较。使用一次删除和一次插入来使这些串相同,因此,值“2”被插入单元d[1,1]中。跳到最后单元d[1,3],,用于将ABC与C进行匹配的匹配过程造成使用两次删除来得到单元d[1,3]中的编辑距离“2”。为简明起见,移至行4和列3并找出总体编辑距离,将项ABC与项CBAX进行匹配,造成了单元d[4,3]中的编辑距离“8”,使用目标串的第一项C中的插入/删除得到值“2”、用于B项之间的匹配的值“0”、用于第三项C和A的匹配的插入/删除得到值“2”、项X的插入得到值“1”、以及用于位置成本的值“3”,从而造成了单元d[4,3]中的最终编辑距离值“8”。
图4示出使用经修改的编辑距离和匹配算法来基于查询串和目标数据串处理并生成编辑距离值的另一示例。在此,生成矩阵400以用于基于用于插入成本的cost_insertion w1=1,w3=4以及用于删除成本的w2=1以及w4=26的权重来将查询串ABC 402与目标数据串AB 404进行比较。换言之,从左至右操作行0,将查询串402的项A与目标串404前的空单元进行匹配造成项A在目标串404中的一次插入,得到值“1”单元d[0,1]。将查询串402的项AB与目标串404前的空单元进行匹配造成项AB在目标串404中的两次插入,得到值“2”单元d[0,2],并且将查询串402的项ABC与目标串404前的空单元进行匹配造成项AB在目标串404中的两次插入值加上项C的值w4=26,得到单元d[0,3]中的值“28”,因为项C不在这两个串中。
从左至右操作行1(理解d[1,0]=1),将查询串402的项A与目标串404的项A进行匹配造成目标串404和查询串402中的等同性,得到单元d[1,1]中的值“0”,通过从d[j-1,i-1]=d[0,0]=“0”取得该值。将查询串402的项AB与目标串404的项A进行匹配造成项B在目标串404中的一次插入,得到最小值“1”单元d[1,2]。对于单元d[1,3],将查询串402的项ABC与目标串404的项A进行匹配得到一最小值,该最小值关联于d[j-1,i]=d[0,3]的值加上w3在单元d[1,3]中得到值“28”相比于d[j,i-1]=d[1,2]的值1加上26得到27(因为项C不在这两个串中),从而在d[1,3]中得到最小值“27”。
从左至右操作行2,将查询串402的项A与目标串404的项AB进行匹配造成目标串404中的一次删除,得到单元d[2,1]中的值“1”。对于单元d[2,2]中的距离,将查询串402的项AB与目标串404的项AB进行匹配造成等同性,从而从d[j-1,i-1]=d[1,1]中取出值来作为单元d[2,2]的值“0”。对于单元d[2,3],将查询串402的项ABC与目标串404的项AB进行匹配得到最小值,该最小值关联于d[j-1,i]=d[1,3]=27的值加上w3=1得到值“28”(因为C不在目标串中)相比于同样基于d[i,j-1]=d[2,2]=0的值加上26得到26(因为C不在这两个串中),从而得到d[2,3]中的最小值“26”。
图5示出使用神经网络502来帮助生成文档106的相关性分数504的计算机实现的相关性系统500。系统500包括用于基于查询串110从作为搜索结果108接收到的文档106提取文档信息104的处理组件102和用于计算从文档信息104导出的数据串116与查询串110之间的编辑距离114的邻近度组件112。编辑距离114被用于确定作为搜索结果108的一部分的文档106的相关性。
神经网络502可被用来接收文档信息104作为用于计算文档106的相关性分数的输入。单独地或部分地基于搜索结果108中的一些或全部的相关性分数,可以对搜索结果108中的文档进行排名。系统500使用神经网络502和代码库来生成用于搜索结果108中的相关联文档的排名的相关性分数。
以下是用于计算查询串与数据串中的每一个之间的编辑距离以获得每一对的TAUC分数的编辑距离算法的描述。
因为文档中只有一个标题,所以TAUC分数可以相对于标题如下计算:
                 TAUC(标题)=ED(标题)
其中在应用了变换函数之后,TAUC(标题)随后用作神经网络的输入并且ED(标题)是该标题的编辑距离。
对于一文档,可以存在锚文本以及URL和点击的多个实例(其中点击是先前执行的相对于它该文档被点击的查询)。想法是这一文档对于类似查询更加相关。在索引时间,选择具有最高频率的N个锚文本。随后,为每一选定的锚计算ED分数。最后,为锚确定TAUC分数如下:
TAUC(锚)=Min{ED(锚i)}    i:前N个锚;
直观上,如果对于锚中的每一个都存在良好的匹配,则这是足够的。在应用了变换函数之后,TAUC(锚)被用作神经网络输入。
在计算URL串的ED之前使用特殊处理。使用一组字符作为分隔符将索引时间URL串划分成各部分。随后在每一部分中找出来自标题和锚项的字典中的项。来自字典的项的每一次出现连同以字符为单位从URL串的开头所测量的位置都被存储在索引中。
在查询时,从在索引时间存储的索引中读出查询项的所有出现,并且用“非查询”项来填充间断。在这一处理之后,计算ED。在应用了变换函数之后,ED处理的结果是神经网络输入。
可被处理的另一特性是用户对给定文档内容所输入的“点击”的数量。用户每一次点击该文档,都将一条流输入到数据库中并将该流与该文档进行关联。这一过程还可以应用于文档信息文本中的流数据,如短数据流。
索引时间URL处理算法使用一组字符作为分隔符来将整个URL划分成各部分。划分函数还将urlpart.startpos(url部分.开始位置)设成源串中的部分的位置。划分函数执行对URL的各不重要部分的过滤。
例如,“http://www.companymeeting.com/index.html”被过滤成“companymeeting/index”并被划分成“companymeeting”和“index”。
Startpos:0
Urlparts=split(url,dictionary)
//寻找不同url部分中的项。
For each(字典中的项)
{
    Int pos=0;
    For each(各url部分中的一url部分)
    {
        pos=urlpart.Find(term,pos);
        while(pos>=0)
        {
            //parts_separator(部分_分隔符)被用来在查询时区分不同部
            storeOccurrence(term,pos+urlpart.startpos*parts_separator);
            pos=url.Find(term,pos+term.length);
        }
    }
    setIndexStreamLength(parts_separator*urlparts.Count);
}
假定字典包含“company meeting comp”,则可生成以下钥匙(key):Company:0;Meeting:7;以及Comp:0。串的总长度是parts_separator*2。
相对于ED之前的查询时间处理,在查询时间读取查询项的出现,按源URL串中的出现次序来构造查询项的串,并且用“非查询”字标记来填充各项之间的空间。例如,考虑查询串“company policy”和结果串“company”“non-query term(非查询项)”“non-query term”。
parts_separator、查询项位置、以及流长度被确定为知道原始URL串中有多少部分以及什么部分包含给定查询。不具有项的每一部分被认为包含“非查询项”。如果一部分不以查询项开始,则在该项前插入“non-query term”。查询项之间的所有空间都用“non-query term”来填充。
图6示出可以在用于确定查询串与数据串之间的编辑距离的文档信息中使用的数据的类型。文档信息104可包括供处理组件102处理以及数据(即,目标)串116的生产的TAUC数据602,例如标题文本604、锚文本606、URL 608文本或字符、以及点击信息610。文档信息104还可包括与用户点击文档内容的次数、用户(经由点击)选择的内容的类型、该内容上的点击的数量、文档总体等相关的点击信息610。
图7示出索引时间处理数据流700。在顶部,基于文档分析和提取来接收标题604、文档锚606、点击信息610等形式的文档信息。标题604通过项划分算法704来处理并随后传到字典706。字典706是在标题604、锚606、点击信息610等中找到的不同项的临时存储。字典706被用来经由URL划分算法708来划分URL 608。URL划分算法708的输出被发送到索引过程710以进行相关性和排名处理。文档锚606还可以通过管理器712来处理以得到前N个锚。点击信息610可以经由索引过程710来直接处理。可以相应地处理其他文档信息(例如,项划分、过滤,等等)。
图8示出例示来自图7的索引过程710的、用于结果排名的对神经网络的输入的框图800。索引过程710可被用于计算关于查询串110的URL编辑距离(ED)802、关于查询串110的前N个锚ED 804、关于查询串110的标题ED 806、关于查询串110的点击ED 808、以及与编辑距离不相关的其他特征810,这些(URL ED 802、前N个锚ED 804、标题ED 806、点击ED 808、以及其他特征810)中的一些或全部可以用作神经网络502的输入,最终用于找出相关联文档的相关性分数以及随后找出该文档在其他文档搜索结果之间的排名。神经网络502可以是接收至少TAUC特征作为对标识文档的相关性有贡献的输入特征的2层模型。神经网络确定如何将这些特征组合成可由搜索引擎用来进行排序的单个数字。
可以明白,神经网络502只是可用于相关性和排名处理的数学或计算模型的一个示例。可以使用其他形式的统计回归,如朴素贝叶斯、贝叶斯网络、决策树、模糊逻辑模型,并且可以使用表示不同独立性模式的其他统计分类模型,其中分类包括用于分配排名和/或优先级的各方法。
图9示出用于计算生成搜索结果的神经网络502、编辑距离输入以及原始特征输入的示例性系统900实现。关于神经网络502的输入的原始排名特征810的集合可包括BM25功能902(例如,BM25F)、点击距离904、URL深度906、文件类型908、以及语言匹配910。BM25组件可包括例如正文、标题、锚、锚文本、URL显示名称、以及所提取的标题。
图10示出确定相关性的方法。在1000,作为搜索过程的一部分来接收查询串。在1002,从在搜索过程期间返回的文档中提取文档信息。在1004,根据文档信息生成数据串。在1006,计算数据串与查询串之间的编辑距离。在1008,基于编辑距离来计算相关性分数。
该方法的其他方面可包括使用项插入来作为计算编辑距离的一部分并且评估在查询串中插入一个项以生成数据串的插入成本,该成本被表示成加权参数。该方法还包括使用项删除来作为计算编辑距离的一部分并且评估在查询串中删除一个项以生成数据串的删除成本,该成本被表示成加权参数。可以作为计算编辑距离的一部分来计算位置成本,位置成本与数据串中的项位置的项插入和/或项删除相关联。另外,在数据串的各字符与查询串的各字符之间执行匹配过程以计算用于计算编辑距离的总体成本。
划分数据串的URL的混合项可以在索引时间发生。该方法还可包括基于在文档中的出现频率来过滤数据串的锚文本以找出排名最前的一组锚文本并计算该组中的锚文本的编辑距离分数。在应用变换函数之后,从对编辑距离的计算导出的编辑距离分数可以输入到两层神经网络中,该分数是基于计算与标题信息、锚信息、点击信息、或URL信息中的至少一个相关联的编辑距离来生成的。
图11示出计算文档的相关性的方法。在1100,作为搜索过程的一部分来处理查询串以返回一组结果文档。在1102,基于从这组结果的文档中提取的文档信息生成数据串,文档信息包括来自文档的标题信息、锚文本信息、点击信息、以及URL信息中的一个或多个。在1104,基于项插入、项删除、以及项位置来计算数据串与查询串之间的编辑距离。在1106,基于编辑距离来计算相关性分数,该相关性分数用于对这组结果中的文档进行排名。
该方法还包括计算与项插入、项删除、以及项位置中的每一个相关联的成本,并将该成本包括在相关性分数的计算内,并且在索引时间划分URL信息的混合项并在索引时间基于锚文本在文档中的出现频率来过滤锚文本信息以找出排名最前的一组锚文本。可以执行查询串的各项的出现的读取以按照在源URL串中出现的次序来构造查询项的串并用字标记来填充各项之间的空间。
如在本申请中所使用的,术语“组件”和“系统”旨在表示计算机相关的实体,其可以是硬件、硬件和软件的组合、软件、或者执行中的软件。例如,组件可以是但不限于,在处理器上运行的进程、处理器、硬盘驱动器、多个(光和/或磁存储介质的)存储驱动器、对象、可执行代码、执行的线程、程序、和/或计算机。作为说明,运行在服务器上的应用程序和服务器都可以是组件。一个或多个组件可以驻留在进程和/或执行的线程内,且组件可以位于一台计算机上和/或分布在两台或更多的计算机之间。
现在参考图12,示出了根据所公开的体系结构的可用于使用TAUC特征执行编辑距离处理以进行搜索结果排名的计算系统1200的框图。为了提供用于其各方面的附加上下文,图12及以下讨论旨在提供对其中可实现该各方面的合适的计算系统1200的简要概括描述。尽管以上描述是在可在一个或多个计算机上运行的计算机可执行指令的一般上下文中进行的,但是本领域的技术人员将认识到,新颖实施例也可结合其他程序模块和/或作为硬件和软件的组合来实现。
一般而言,程序模块包括执行特定任务或实现特定抽象数据类型的例程、程序、组件、数据结构等等。此外,本领域的技术人员可以理解,本发明的方法可用其他计算机系统配置来实施,包括单处理器或多处理器计算机系统、小型计算机、大型计算机、以及个人计算机、手持式计算设备、基于微处理器的或可编程消费电子产品等,其每一个都可操作上耦合到一个或多个相关联的设备。
所示各方面也可以在其中某些任务由通过通信网络链接的远程处理设备来执行的分布式计算环境中实施。在分布式计算环境中,程序模块可以位于本地和远程存储器存储设备中。
计算机通常包括各种计算机可读介质。计算机可读介质可以是可由计算机访问的任何可用介质,且包括易失性和非易失性介质、可移动和不可移动介质。作为示例而非限制,计算机可读介质可以包括计算机存储介质和通信介质。计算机存储介质包括以存储如计算机可读指令、数据结构、程序模块或其他数据等信息的任何方法或技术来实现的易失性和非易失性、可移动和不可移动介质。计算机存储介质包括但不限于RAM、ROM、EEPROM、闪存或者其他存储器技术、CD-ROM、数字视频盘(DVD)或其他光盘存储、磁带盒、磁带、磁盘存储或其他磁存储设备、或可以用于存储所需信息并且可以由计算机访问的任何其他介质。
再次参考图12,用于实现各方面的示例性计算系统1200包括具有处理单元1204、系统存储器1206和系统总线1208的计算机1202。系统总线1208向包括但不限于系统存储器1206的各系统组件提供到处理单元1204的接口。处理单元1204可以是市场上可购买到的各种处理器中的任意一种。双微处理器和其他多处理器体系结构也可用作处理单元1204。
系统总线1208可以是若干种总线结构中的任一种,这些总线结构还可互连到存储器总线(带有或没有存储器控制器)、外围总线、以及使用各类市场上可购买到的总线体系结构中的任一种的局部总线。系统存储器1206可包括非易失性存储器(NON-VOL)1210和/或易失性存储器1212(例如,随机存取存储器(RAM))。基本输入/输出系统(BIOS)可被存储在非易失性存储器1210(例如,ROM、EPROM、EEPROM等)中,其中BIOS是帮助诸如在启动期间在计算机1202内的元件之间传输信息的基本例程。易失性存储器1212还可包括诸如静态RAM等高速RAM来用于高速缓存数据。
计算机1202还包括内置硬盘驱动器(HDD)1214(例如,EIDE、SATA),该内置HDD 1214还可被配置成在合适的机壳中外部使用;磁软盘驱动器(FDD)1216(例如,从可移动磁盘1218中读取或向其写入);以及光盘驱动器1220(例如,从CD-ROM盘1222中读取,或从诸如DVD等其他高容量光学介质中读取或向其写入)。HDD 1214、FDD 1216、以及光盘驱动器1220可分别由HDD接口1224、FDD接口1226和光盘驱动器接口1228连接到系统总线1208。用于外置驱动器实现的HDD接口1224可包括通用串行总线(USB)和IEEE 1394接口技术中的至少一种或两者。
驱动器及相关联的计算机可读介质提供了对数据、数据结构、计算机可执行指令等的非易失性存储。对于计算机1202,驱动器和介质容纳适当的数字格式的任何数据的存储。尽管以上对计算机可读介质的描述涉及HDD、可移动磁盘(例如FDD)以及诸如CD或DVD等可移动光学介质,但是本领域的技术人员应当理解,示例性操作环境中也可使用可由计算机读取的任何其他类型的介质,诸如zip驱动器、磁带盒、闪存卡、盒式磁带等等,并且任何这样的介质可包含用于执行所公开的体系结构的新颖方法的计算机可执行指令。
多个程序模块可被存储在驱动器和易失性存储器1212中,包括操作系统1230、一个或多个应用程序1232、其他程序模块1234和程序数据1236。一个或多个应用程序132、其他程序模块1234、以及查询时间1236可包括系统100和相关联的各框、系统500及相关联的各框、文档信息104、TAUC数据602、点击信息610、数据流700(以及算法)、以及框图800(及相关联的各框)。
操作系统、应用程序、模块和/或数据的全部或部分也可被高速缓存在易失性存储器1212中。应该明白,所公开的体系结构可以用市场上可购得的各种操作系统或操作系统的组合来实现。
用户可以通过一个或多个有线/无线输入设备,例如键盘1238和诸如鼠标1240等定点设备将命令和信息输入到计算机1202中。其他输入设备(未示出)可包括话筒、IR遥控器、操纵杆、游戏手柄、指示笔、触摸屏等等。这些和其他输入设备通常通过耦合到系统总线1208的输入设备接口1242连接到处理单元1204,但也可通过诸如并行端口、IEEE 1394串行端口、游戏端口、USB端口、IR接口等其他接口连接。
监视器1244或其他类型的显示设备也经由诸如视频适配器1246等接口连接到系统总线1208。除了监视器1244之外,计算机通常包括诸如扬声器、打印机等其他外围输出设备(未示出)。
计算机1202可使用经由有线和/或无线通信至诸如远程计算机1248等的一个或多个远程计算机的逻辑连接在网络化环境中操作。远程计算机1248可以是工作站、服务器计算机、路由器、个人计算机、便携式计算机、基于微处理器的娱乐设备、对等设备或其他常见的网络节点,并且通常包括相对于计算机1202描述的许多或所有元件,但为简明起见仅示出了存储器/存储设备1250。所描绘的逻辑连接包括到局域网(LAN)1252和/或例如广域网(WAN)1254等更大的网络的有线/无线连接。这一LAN和WAN连网环境常见于办公室和公司,并且方便了诸如内联网等企业范围计算机网络,所有这些都可连接到例如因特网等全球通信网络。
当在LAN连网环境中使用时,计算机1202通过有线和/或无线通信网络接口或适配器1256连接到LAN 1252。适配器1256可以方便到LAN 1252的有线和/或无线通信,并且还可包括其上设置的用于使用适配器1256的无线功能进行通信的无线接入点。
当在WAN联网环境中使用时,计算机1202可包括调制解调器1258,或连接到WAN 1254上的通信服务器,或具有用于诸如通过因特网等通过WAN 1254建立通信的其他装置。或为内置或为外置以及有线和/或无线设备的调制解调器1258经由输入设备接口1242连接到系统总线1208。在联网环境中,相对于计算机1202所描绘的程序模块或其部分可以存储在远程存储器/存储设备1250中。应该理解,所示网络连接是示例性的,并且可以使用在计算机之间建立通信链接的其他手段。
计算机1202可操作来使用IEEE 802标准家族来与有线和无线设备或实体进行通信,这些实体例如是在操作上安置成与例如打印机、扫描仪、台式和/或便携式计算机、个人数字助理(PDA)、通信卫星、任何一件与无线可检测标签相关联的设备或位置(例如,电话亭、报亭、休息室)以及电话进行无线通信(例如,IEEE 802.11空中调制技术)的无线设备。这至少包括Wi-Fi(即无线保真)、WiMax和蓝牙TM无线技术。由此,通信可以如对于常规网络那样是预定义结构,或者仅仅是至少两个设备之间的自组织(ad hoc)通信。Wi-Fi网络使用称为IEEE 802.11x(a、b、g等等)的无线电技术来提供安全、可靠、快速的无线连接。Wi-Fi网络可用于将计算机彼此连接、连接到因特网以及连接到有线网络(使用IEEE 802.3相关介质和功能)。
上面描述的包括所公开的体系结构的各示例。当然,描述每一个可以想到的组件和/或方法的组合是不可能的,但本领域内的普通技术人员应该认识到,许多其他组合和排列都是可能的。因此,该新颖体系结构旨在涵盖所有这些落入所附权利要求书的精神和范围内的更改、修改和变化。此外,就在说明书或权利要求书中使用术语“包括”而言,这一术语旨在以与术语“包含”在被用作权利要求书中的过渡词时所解释的相似的方式为包含性的。

Claims (20)

1.一种计算机实现的相关性系统(100),包括:
处理组件(102),用于基于查询串从接收到的作为搜索结果的文档中提取文档信息;以及
邻近度组件(112),用于计算数据串与所述查询串之间的编辑距离,所述编辑距离被用于确定文档的相关性作为结果排名的一部分。
2.如权利要求1所述的系统,其特征在于,被用来生成所述数据串的所述文档信息包括标题信息、URL信息、点击信息、或锚文本中的至少一个。
3.如权利要求1所述的系统,其特征在于,所述处理组件在索引时间划分所述文档信息的混合项以计算相对于URL的编辑距离。
4.如权利要求1所述的系统,其特征在于,所述处理组件在索引时间过滤所述文档信息的锚文本以计算排名最前的一组锚文本。
5.如权利要求1所述的系统,其特征在于,所述文档信息包括标题字符、锚字符、点击字符、或URL字符中的至少一个,其中文档信息连同BM25F功能、点击距离、文件类型、语言和URL深度等原始输入特征一起被输入到神经网络以计算所述文档的相关性。
6.如权利要求1所述的系统,其特征在于,对所述编辑距离的计算是基于用于增加所述数据串与所述查询串之间的邻近度的项插入和项删除的。
7.如权利要求1所述的系统,其特征在于,对所述编辑距离的计算是基于与用于增加所述数据串与所述查询串之间的邻近度的项插入和项删除相关联的成本的。
8.一种确定相关性的计算机实现的方法,包括:
作为搜索过程的一部分来接收查询串(1000);
从在所述搜索过程期间返回的文档中提取文档信息(1002);
根据所述文档信息生成数据串(1004);
计算所述数据串与所述查询串之间的编辑距离(1006);以及
基于所述编辑距离来计算相关性分数(1008)。
9.如权利要求8所述的方法,其特征在于,还包括使用查询项插入来作为计算所述编辑距离的一部分并且评估在所述查询串中插入一个项以生成所述数据串的插入成本,所述成本被表示成加权参数。
10.如权利要求8所述的方法,其特征在于,还包括使用项删除来作为计算所述编辑距离的一部分并且评估在所述查询串中删除一个项以生成所述数据串的删除成本,所述成本被表示成加权参数。
11.如权利要求8所述的方法,其特征在于,还包括作为计算所述编辑距离的一部分来计算位置成本,所述位置成本与所述数据串中的项位置的项插入和/或项删除相关联。
12.如权利要求8所述的方法,其特征在于,还包括在所述数据串的各字符与所述查询串的各字符之间执行匹配过程以计算用于计算所述编辑距离的总体成本。
13.如权利要求8所述的方法,其特征在于,还包括在索引时间划分所述数据串的URL的混合项。
14.如权利要求8所述的方法,其特征在于,还包括基于在所述文档中的出现频率来过滤所述数据串的锚文本以找出排名最前的一组锚文本。
15.如权利要求14所述的方法,其特征在于,还包括计算所述组中的锚文本的编辑距离分数。
16.如权利要求8所述的方法,其特征在于,还包括在应用变换函数之后,将从对所述编辑距离的计算导出的分数输入到两层神经网络中,所述分数是基于计算与标题信息、锚信息、点击信息、或URL信息、以及其它原始输入特征中的至少一个相关联的编辑距离来生成的。
17.一种计算文档的相关性的计算机实现的方法,包括:
作为搜索过程的一部分来处理查询串以返回一组结果文档(1100);
基于从这组结果的文档中提取的文档信息生成数据串,所述文档信息包括来自所述文档的标题信息、锚文本信息、点击信息、以及URL信息中的一个或多个(1102);
基于项插入、项删除、以及项位置来计算所述数据串与所述查询串之间的编辑距离(1104);以及
基于所述编辑距离来计算相关性分数,所述相关性分数用于对所述结果集中的文档进行排名(1106)。
18.如权利要求17所述的方法,其特征在于,还包括计算与所述项插入、项删除以及项位置中的每一个相关联的成本,并将所述成本包括在所述相关性分数计算内。
19.如权利要求17所述的方法,其特征在于,还包括在索引时间划分所述URL信息的混合项并在索引时间基于所述锚文本在所述文档中的出现频率来过滤所述锚文本信息以找出排名最前的一组锚文本。
20.如权利要求17所述的方法,其特征在于,还包括读取所述查询串的各项的出现以按照在源URL串中出现的次序来构造各查询项的串并用字标记来填充所述各项之间的空间。
CN200980112928.6A 2008-04-11 2009-03-10 使用编辑距离和文档信息进行搜索结果排名 Active CN101990670B (zh)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US12/101,951 2008-04-11
US12/101,951 US8812493B2 (en) 2008-04-11 2008-04-11 Search results ranking using editing distance and document information
PCT/US2009/036597 WO2009126394A1 (en) 2008-04-11 2009-03-10 Search results ranking using editing distance and document information

Publications (2)

Publication Number Publication Date
CN101990670A true CN101990670A (zh) 2011-03-23
CN101990670B CN101990670B (zh) 2013-12-18

Family

ID=41162189

Family Applications (1)

Application Number Title Priority Date Filing Date
CN200980112928.6A Active CN101990670B (zh) 2008-04-11 2009-03-10 使用编辑距离和文档信息进行搜索结果排名

Country Status (12)

Country Link
US (1) US8812493B2 (zh)
EP (1) EP2289007B1 (zh)
JP (1) JP5492187B2 (zh)
KR (1) KR101557294B1 (zh)
CN (1) CN101990670B (zh)
AU (1) AU2009234120B2 (zh)
BR (1) BRPI0909092A2 (zh)
IL (1) IL207830A (zh)
RU (1) RU2501078C2 (zh)
TW (1) TWI486800B (zh)
WO (1) WO2009126394A1 (zh)
ZA (1) ZA201006093B (zh)

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103077163A (zh) * 2012-12-24 2013-05-01 华为技术有限公司 数据预处理方法、装置及系统
CN106815196A (zh) * 2015-11-27 2017-06-09 北京国双科技有限公司 软文展现次数统计方法和装置
CN107430612A (zh) * 2015-02-12 2017-12-01 微软技术许可有限责任公司 查找描述对计算问题的解决方案的文档
CN108475266A (zh) * 2015-06-23 2018-08-31 微软技术许可有限责任公司 用来移除匹配文档的匹配修复
CN109960757A (zh) * 2019-02-27 2019-07-02 北京搜狗科技发展有限公司 网页检索方法及装置
CN110135552A (zh) * 2018-02-09 2019-08-16 微软技术许可有限责任公司 用于搜索的深度神经网络架构
US11392568B2 (en) 2015-06-23 2022-07-19 Microsoft Technology Licensing, Llc Reducing matching documents for a search query

Families Citing this family (37)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7606793B2 (en) 2004-09-27 2009-10-20 Microsoft Corporation System and method for scoping searches using index keys
US9348912B2 (en) 2007-10-18 2016-05-24 Microsoft Technology Licensing, Llc Document length as a static relevance feature for ranking search results
US8065310B2 (en) * 2008-06-25 2011-11-22 Microsoft Corporation Topics in relevance ranking model for web search
US20100312793A1 (en) * 2009-06-08 2010-12-09 International Business Machines Corporation Displaying relevancy of results from multi-dimensional searches using heatmaps
KR101141498B1 (ko) * 2010-01-14 2012-05-04 주식회사 와이즈넛 근접성 언어 모델을 이용한 정보 검색 방법
US10140339B2 (en) * 2010-01-26 2018-11-27 Paypal, Inc. Methods and systems for simulating a search to generate an optimized scoring function
TWI486797B (zh) * 2010-03-09 2015-06-01 Alibaba Group Holding Ltd Methods and devices for sorting search results
US8738635B2 (en) 2010-06-01 2014-05-27 Microsoft Corporation Detection of junk in search result ranking
US9189549B2 (en) * 2010-11-08 2015-11-17 Microsoft Technology Licensing, Llc Presenting actions and providers associated with entities
CA2747153A1 (en) * 2011-07-19 2013-01-19 Suleman Kaheer Natural language processing dialog system for obtaining goods, services or information
US8788436B2 (en) * 2011-07-27 2014-07-22 Microsoft Corporation Utilization of features extracted from structured documents to improve search relevance
US9495462B2 (en) 2012-01-27 2016-11-15 Microsoft Technology Licensing, Llc Re-ranking search results
US9235654B1 (en) * 2012-02-06 2016-01-12 Google Inc. Query rewrites for generating auto-complete suggestions
US9535888B2 (en) * 2012-03-30 2017-01-03 Bmenu As System, method, software arrangement and computer-accessible medium for a generator that automatically identifies regions of interest in electronic documents for transcoding
JP5981386B2 (ja) * 2013-04-18 2016-08-31 日本電信電話株式会社 代表ページ選択装置及び代表ページ選択プログラム
KR101322123B1 (ko) * 2013-06-14 2013-10-28 인하대학교 산학협력단 교환 연산을 포함한 확장편집거리의 계산을 병렬적으로 수행하기 위한 방법
CN104424279B (zh) * 2013-08-30 2018-11-20 腾讯科技(深圳)有限公司 一种文本的相关性计算方法和装置
US9519859B2 (en) 2013-09-06 2016-12-13 Microsoft Technology Licensing, Llc Deep structured semantic model produced using click-through data
US9477654B2 (en) 2014-04-01 2016-10-25 Microsoft Corporation Convolutional latent semantic models and their applications
US9535960B2 (en) 2014-04-14 2017-01-03 Microsoft Corporation Context-sensitive search using a deep learning model
US10089580B2 (en) 2014-08-11 2018-10-02 Microsoft Technology Licensing, Llc Generating and using a knowledge-enhanced model
CN104572825B (zh) * 2014-12-04 2019-03-12 百度在线网络技术(北京)有限公司 信息的推荐方法和装置
BR112017019821B8 (pt) * 2015-03-20 2024-02-15 Fraunhofer Ges Zur Foerderung Der Angewandten Forschung E V Atribuição de pontuação de relevância para redes neurais artificiais
CN105446957B (zh) 2015-12-03 2018-07-20 小米科技有限责任公司 相似性确定方法、装置及终端
CN107203567A (zh) * 2016-03-18 2017-09-26 伊姆西公司 用于搜索字串的方法和设备
US10909450B2 (en) 2016-03-29 2021-02-02 Microsoft Technology Licensing, Llc Multiple-action computational model training and operation
CN106547871B (zh) * 2016-10-31 2020-04-07 北京百度网讯科技有限公司 基于神经网络的搜索结果的召回方法和装置
CN107229701B (zh) * 2017-05-25 2018-07-03 腾讯科技(深圳)有限公司 排名更新方法、装置和计算机设备
US10650191B1 (en) 2018-06-14 2020-05-12 Elementary IP LLC Document term extraction based on multiple metrics
RU2757174C2 (ru) * 2019-09-05 2021-10-11 Общество С Ограниченной Ответственностью «Яндекс» Способ и система для ранжирования цифровых объектов на основе связанной с ними целевой характеристики
CN110941743B (zh) * 2019-10-14 2023-09-15 广西壮族自治区科学技术情报研究所 一种基于深度学习算法自动实现字段权重分配的科技项目查重方法
US10761839B1 (en) * 2019-10-17 2020-09-01 Globant España S.A. Natural language search engine with a predictive writing tool for coding
JP6840293B1 (ja) * 2019-11-28 2021-03-10 三菱電機株式会社 情報処理装置、情報処理方法、及び情報処理プログラム
CN111352549B (zh) * 2020-02-25 2022-01-07 腾讯科技(深圳)有限公司 一种数据对象展示方法、装置、设备及存储介质
US11637937B2 (en) * 2020-11-18 2023-04-25 Canon Kabushiki Kaisha Information processing apparatus, information processing method, and non-transitory storage medium
CN113360178B (zh) * 2021-05-31 2023-05-05 东风商用车有限公司 软件唯一识别码生成方法、装置、设备及可读存储介质
US11409800B1 (en) 2021-07-23 2022-08-09 Bank Of America Corporation Generating search queries for database searching

Family Cites Families (363)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5226161A (en) 1987-08-21 1993-07-06 Wang Laboratories, Inc. Integration of data between typed data structures by mutual direct invocation between data managers corresponding to data types
US5369778A (en) 1987-08-21 1994-11-29 Wang Laboratories, Inc. Data processor that customizes program behavior by using a resource retrieval capability
US5222236A (en) 1988-04-29 1993-06-22 Overdrive Systems, Inc. Multiple integrated document assembly data processing system
US5321833A (en) 1990-08-29 1994-06-14 Gte Laboratories Incorporated Adaptive ranking system for information retrieval
JP2937519B2 (ja) * 1991-03-08 1999-08-23 株式会社東芝 文書検索装置
US5257577A (en) 1991-04-01 1993-11-02 Clark Melvin D Apparatus for assist in recycling of refuse
WO1994012944A1 (en) 1992-11-23 1994-06-09 Paragon Concepts, Inc. Computer filing system with user selected categories to provide file access
US6202058B1 (en) 1994-04-25 2001-03-13 Apple Computer, Inc. System for ranking the relevance of information objects accessed by computer users
US5606609A (en) 1994-09-19 1997-02-25 Scientific-Atlanta Electronic document verification system and method
US5594660A (en) 1994-09-30 1997-01-14 Cirrus Logic, Inc. Programmable audio-video synchronization method and apparatus for multimedia systems
US5642502A (en) 1994-12-06 1997-06-24 University Of Central Florida Method and system for searching for relevant documents from a text database collection, using statistical ranking, relevancy feedback and small pieces of text
US5729730A (en) 1995-03-28 1998-03-17 Dex Information Systems, Inc. Method and apparatus for improved information storage and retrieval system
US5826269A (en) 1995-06-21 1998-10-20 Microsoft Corporation Electronic mail interface for a network server
US5933851A (en) 1995-09-29 1999-08-03 Sony Corporation Time-stamp and hash-based file modification monitor with multi-user notification and method thereof
US5974455A (en) 1995-12-13 1999-10-26 Digital Equipment Corporation System for adding new entry to web page table upon receiving web page including link to another web page not having corresponding entry in web page table
US5855020A (en) 1996-02-21 1998-12-29 Infoseek Corporation Web scan process
US6314420B1 (en) 1996-04-04 2001-11-06 Lycos, Inc. Collaborative/adaptive search engine
JP3113814B2 (ja) 1996-04-17 2000-12-04 インターナショナル・ビジネス・マシーンズ・コーポレ−ション 情報検索方法及び情報検索装置
US5905866A (en) 1996-04-30 1999-05-18 A.I. Soft Corporation Data-update monitoring in communications network
US5828999A (en) 1996-05-06 1998-10-27 Apple Computer, Inc. Method and system for deriving a large-span semantic language model for large-vocabulary recognition systems
US5920859A (en) 1997-02-05 1999-07-06 Idd Enterprises, L.P. Hypertext document retrieval system and method
US6038610A (en) 1996-07-17 2000-03-14 Microsoft Corporation Storage of sitemaps at server sites for holding information regarding content
EP0822502A1 (en) 1996-07-31 1998-02-04 BRITISH TELECOMMUNICATIONS public limited company Data access system
US5745890A (en) 1996-08-09 1998-04-28 Digital Equipment Corporation Sequential searching of a database index using constraints on word-location pairs
US5765150A (en) 1996-08-09 1998-06-09 Digital Equipment Corporation Method for statistically projecting the ranking of information
US5920854A (en) 1996-08-14 1999-07-06 Infoseek Corporation Real-time document collection search engine with phrase indexing
US5870739A (en) 1996-09-20 1999-02-09 Novell, Inc. Hybrid query apparatus and method
US5870740A (en) 1996-09-30 1999-02-09 Apple Computer, Inc. System and method for improving the ranking of information retrieval results for short queries
US5893116A (en) 1996-09-30 1999-04-06 Novell, Inc. Accessing network resources using network resource replicator and captured login script for use when the computer is disconnected from the network
CN1107291C (zh) 1996-10-02 2003-04-30 日本电信电话株式会社 分层结构的图形显示方法及装置
JPH10124524A (ja) * 1996-10-23 1998-05-15 Toshiba Corp 文書検索装置及び文書検索方法
GB2331166B (en) 1997-11-06 2002-09-11 Ibm Database search engine
US5966126A (en) 1996-12-23 1999-10-12 Szabo; Andrew J. Graphic user interface for database system
US6285999B1 (en) 1997-01-10 2001-09-04 The Board Of Trustees Of The Leland Stanford Junior University Method for node ranking in a linked database
US6415319B1 (en) 1997-02-07 2002-07-02 Sun Microsystems, Inc. Intelligent network browser using incremental conceptual indexer
US5960383A (en) 1997-02-25 1999-09-28 Digital Equipment Corporation Extraction of key sections from texts using automatic indexing techniques
US5890147A (en) 1997-03-07 1999-03-30 Microsoft Corporation Scope testing of documents in a search engine using document to folder mapping
US5848404A (en) 1997-03-24 1998-12-08 International Business Machines Corporation Fast query search in large dimension database
US6272507B1 (en) 1997-04-09 2001-08-07 Xerox Corporation System for ranking search results from a collection of documents using spreading activation techniques
US6256675B1 (en) 1997-05-06 2001-07-03 At&T Corp. System and method for allocating requests for objects and managing replicas of objects on a network
AUPO710597A0 (en) 1997-06-02 1997-06-26 Knowledge Horizons Pty. Ltd. Methods and systems for knowledge management
US6029164A (en) 1997-06-16 2000-02-22 Digital Equipment Corporation Method and apparatus for organizing and accessing electronic mail messages using labels and full text and label indexing
US6012053A (en) 1997-06-23 2000-01-04 Lycos, Inc. Computer system with user-controlled relevance ranking of search results
JPH1125119A (ja) 1997-06-30 1999-01-29 Canon Inc ハイパーテキスト閲覧システム
JPH1125104A (ja) 1997-06-30 1999-01-29 Canon Inc 情報処理装置および方法
US5933822A (en) 1997-07-22 1999-08-03 Microsoft Corporation Apparatus and methods for an information retrieval system that employs natural language processing of search results to improve overall precision
US5983216A (en) 1997-09-12 1999-11-09 Infoseek Corporation Performing automated document collection and selection by providing a meta-index with meta-index values indentifying corresponding document collections
US6182113B1 (en) 1997-09-16 2001-01-30 International Business Machines Corporation Dynamic multiplexing of hyperlinks and bookmarks
US5956722A (en) 1997-09-23 1999-09-21 At&T Corp. Method for effective indexing of partially dynamic documents
US6999959B1 (en) 1997-10-10 2006-02-14 Nec Laboratories America, Inc. Meta search engine
US6026398A (en) 1997-10-16 2000-02-15 Imarket, Incorporated System and methods for searching and matching databases
US6070191A (en) 1997-10-17 2000-05-30 Lucent Technologies Inc. Data distribution techniques for load-balanced fault-tolerant web access
US6351467B1 (en) 1997-10-27 2002-02-26 Hughes Electronics Corporation System and method for multicasting multimedia content
US6594682B2 (en) 1997-10-28 2003-07-15 Microsoft Corporation Client-side system for scheduling delivery of web content and locally managing the web content
US6128701A (en) 1997-10-28 2000-10-03 Cache Flow, Inc. Adaptive and predictive cache refresh policy
US5991756A (en) 1997-11-03 1999-11-23 Yahoo, Inc. Information retrieval from hierarchical compound documents
US5943670A (en) 1997-11-21 1999-08-24 International Business Machines Corporation System and method for categorizing objects in combined categories
US5987457A (en) 1997-11-25 1999-11-16 Acceleration Software International Corporation Query refinement method for searching documents
US6473752B1 (en) 1997-12-04 2002-10-29 Micron Technology, Inc. Method and system for locating documents based on previously accessed documents
US6389436B1 (en) 1997-12-15 2002-05-14 International Business Machines Corporation Enhanced hypertext categorization using hyperlinks
US6145003A (en) 1997-12-17 2000-11-07 Microsoft Corporation Method of web crawling utilizing address mapping
US7010532B1 (en) 1997-12-31 2006-03-07 International Business Machines Corporation Low overhead methods and apparatus for shared access storage devices
US6151624A (en) 1998-02-03 2000-11-21 Realnames Corporation Navigating network resources based on metadata
JP3998794B2 (ja) 1998-02-18 2007-10-31 株式会社野村総合研究所 ブラウジングクライアントサーバーシステム
KR100285265B1 (ko) 1998-02-25 2001-04-02 윤덕용 데이터 베이스 관리 시스템과 정보 검색의 밀결합을 위하여 서브 인덱스와 대용량 객체를 이용한 역 인덱스 저장 구조
US6185558B1 (en) 1998-03-03 2001-02-06 Amazon.Com, Inc. Identifying the items most relevant to a current query based on items selected in connection with similar queries
US5913210A (en) 1998-03-27 1999-06-15 Call; Charles G. Methods and apparatus for disseminating product information via the internet
US6125361A (en) 1998-04-10 2000-09-26 International Business Machines Corporation Feature diffusion across hyperlinks
US6151595A (en) 1998-04-17 2000-11-21 Xerox Corporation Methods for interactive visualization of spreading activation using time tubes and disk trees
US6167402A (en) 1998-04-27 2000-12-26 Sun Microsystems, Inc. High performance message store
US6240407B1 (en) 1998-04-29 2001-05-29 International Business Machines Corp. Method and apparatus for creating an index in a database system
US6314421B1 (en) 1998-05-12 2001-11-06 David M. Sharnoff Method and apparatus for indexing documents for message filtering
US6098064A (en) 1998-05-22 2000-08-01 Xerox Corporation Prefetching and caching documents according to probability ranked need S list
US6285367B1 (en) 1998-05-26 2001-09-04 International Business Machines Corporation Method and apparatus for displaying and navigating a graph
US6182085B1 (en) 1998-05-28 2001-01-30 International Business Machines Corporation Collaborative team crawling:Large scale information gathering over the internet
US6208988B1 (en) 1998-06-01 2001-03-27 Bigchalk.Com, Inc. Method for identifying themes associated with a search query using metadata and for organizing documents responsive to the search query in accordance with the themes
DE69916272D1 (de) 1998-06-08 2004-05-13 Kcsl Inc Methode und verfahren um relevante dokumente in einer datenbank zu finden
US6006225A (en) 1998-06-15 1999-12-21 Amazon.Com Refining search queries by the suggestion of correlated terms from prior searches
US6216123B1 (en) 1998-06-24 2001-04-10 Novell, Inc. Method and system for rapid retrieval in a full text indexing system
JP3665480B2 (ja) 1998-06-24 2005-06-29 富士通株式会社 文書整理装置および方法
US6638314B1 (en) 1998-06-26 2003-10-28 Microsoft Corporation Method of web crawling utilizing crawl numbers
US6424966B1 (en) 1998-06-30 2002-07-23 Microsoft Corporation Synchronizing crawler with notification source
US6199081B1 (en) 1998-06-30 2001-03-06 Microsoft Corporation Automatic tagging of documents and exclusion by content
CN1324464A (zh) 1998-08-26 2001-11-28 西姆泰克有限公司 映射数据文件的方法和设备
US6324551B1 (en) 1998-08-31 2001-11-27 Xerox Corporation Self-contained document management based on document properties
RU2138076C1 (ru) 1998-09-14 1999-09-20 Закрытое акционерное общество "МедиаЛингва" Система поиска информации в компьютерной сети
US6115709A (en) 1998-09-18 2000-09-05 Tacit Knowledge Systems, Inc. Method and system for constructing a knowledge profile of a user having unrestricted and restricted access portions according to respective levels of confidence of content of the portions
US6549897B1 (en) 1998-10-09 2003-04-15 Microsoft Corporation Method and system for calculating phrase-document importance
US6385602B1 (en) 1998-11-03 2002-05-07 E-Centives, Inc. Presentation of search results using dynamic categorization
US6360215B1 (en) 1998-11-03 2002-03-19 Inktomi Corporation Method and apparatus for retrieving documents based on information other than document content
US6574632B2 (en) 1998-11-18 2003-06-03 Harris Corporation Multiple engine information retrieval and visualization system
US6628304B2 (en) 1998-12-09 2003-09-30 Cisco Technology, Inc. Method and apparatus providing a graphical user interface for representing and navigating hierarchical networks
US6167369A (en) 1998-12-23 2000-12-26 Xerox Company Automatic language identification using both N-gram and word information
JP2000194713A (ja) 1998-12-25 2000-07-14 Nippon Telegr & Teleph Corp <Ntt> 文字列検索方法及び装置及び文字列検索プログラムを格納した記憶媒体
US6922699B2 (en) 1999-01-26 2005-07-26 Xerox Corporation System and method for quantitatively representing data objects in vector space
US6418433B1 (en) 1999-01-28 2002-07-09 International Business Machines Corporation System and method for focussed web crawling
JP3347088B2 (ja) 1999-02-12 2002-11-20 インターナショナル・ビジネス・マシーンズ・コーポレーション 関連情報検索方法およびシステム
US6862710B1 (en) 1999-03-23 2005-03-01 Insightful Corporation Internet navigation using soft hyperlinks
US6510406B1 (en) 1999-03-23 2003-01-21 Mathsoft, Inc. Inverse inference engine for high performance web search
US6763496B1 (en) 1999-03-31 2004-07-13 Microsoft Corporation Method for promoting contextual information to display pages containing hyperlinks
US6304864B1 (en) 1999-04-20 2001-10-16 Textwise Llc System for retrieving multimedia information from the internet using multiple evolving intelligent agents
US6336117B1 (en) 1999-04-30 2002-01-01 International Business Machines Corporation Content-indexing search system and method providing search results consistent with content filtering and blocking policies implemented in a blocking engine
US6327590B1 (en) 1999-05-05 2001-12-04 Xerox Corporation System and method for collaborative ranking of search results employing user and group profiles derived from document collection content analysis
US7835943B2 (en) 1999-05-28 2010-11-16 Yahoo! Inc. System and method for providing place and price protection in a search result list generated by a computer network search engine
US6990628B1 (en) 1999-06-14 2006-01-24 Yahoo! Inc. Method and apparatus for measuring similarity among electronic documents
US7072888B1 (en) 1999-06-16 2006-07-04 Triogo, Inc. Process for improving search engine efficiency using feedback
US6973490B1 (en) 1999-06-23 2005-12-06 Savvis Communications Corp. Method and system for object-level web performance and analysis
US6631369B1 (en) 1999-06-30 2003-10-07 Microsoft Corporation Method and system for incremental web crawling
US6547829B1 (en) 1999-06-30 2003-04-15 Microsoft Corporation Method and system for detecting duplicate documents in web crawls
US6873982B1 (en) 1999-07-16 2005-03-29 International Business Machines Corporation Ordering of database search results based on user feedback
US6557036B1 (en) 1999-07-20 2003-04-29 Sun Microsystems, Inc. Methods and apparatus for site wide monitoring of electronic mail systems
US7181438B1 (en) 1999-07-21 2007-02-20 Alberti Anemometer, Llc Database access system
US6598047B1 (en) 1999-07-26 2003-07-22 David W. Russell Method and system for searching text
CA2279119C (en) 1999-07-29 2004-10-19 Ibm Canada Limited-Ibm Canada Limitee Heuristic-based conditional data indexing
JP3931496B2 (ja) 1999-08-11 2007-06-13 富士ゼロックス株式会社 ハイパーテキスト解析装置
US6442606B1 (en) 1999-08-12 2002-08-27 Inktomi Corporation Method and apparatus for identifying spoof documents
US6636853B1 (en) 1999-08-30 2003-10-21 Morphism, Llc Method and apparatus for representing and navigating search results
US6381597B1 (en) 1999-10-07 2002-04-30 U-Know Software Corporation Electronic shopping agent which is capable of operating with vendor sites which have disparate formats
US7346604B1 (en) 1999-10-15 2008-03-18 Hewlett-Packard Development Company, L.P. Method for ranking hypertext search results by analysis of hyperlinks from expert documents and keyword scope
US6687698B1 (en) 1999-10-18 2004-02-03 Fisher Rosemount Systems, Inc. Accessing and updating a configuration database from distributed physical locations within a process control system
JP3772606B2 (ja) 1999-10-19 2006-05-10 株式会社日立製作所 電子文書管理方法及びシステム並びに記録媒体
AU1039301A (en) 1999-10-29 2001-05-08 British Telecommunications Public Limited Company Method and apparatus for processing queries
US6263364B1 (en) 1999-11-02 2001-07-17 Alta Vista Company Web crawler system using plurality of parallel priority level queues having distinct associated download priority levels for prioritizing document downloading and maintaining document freshness
US6351755B1 (en) 1999-11-02 2002-02-26 Alta Vista Company System and method for associating an extensible set of data with documents downloaded by a web crawler
US6418453B1 (en) 1999-11-03 2002-07-09 International Business Machines Corporation Network repository service for efficient web crawling
US6418452B1 (en) 1999-11-03 2002-07-09 International Business Machines Corporation Network repository service directory for efficient web crawling
US6539376B1 (en) 1999-11-15 2003-03-25 International Business Machines Corporation System and method for the automatic mining of new relationships
US6886129B1 (en) 1999-11-24 2005-04-26 International Business Machines Corporation Method and system for trawling the World-wide Web to identify implicitly-defined communities of web pages
US7016540B1 (en) 1999-11-24 2006-03-21 Nec Corporation Method and system for segmentation, classification, and summarization of video images
US6772141B1 (en) 1999-12-14 2004-08-03 Novell, Inc. Method and apparatus for organizing and using indexes utilizing a search decision table
US6366907B1 (en) * 1999-12-15 2002-04-02 Napster, Inc. Real-time search engine
US6546388B1 (en) 2000-01-14 2003-04-08 International Business Machines Corporation Metadata search results ranking system
US6883135B1 (en) 2000-01-28 2005-04-19 Microsoft Corporation Proxy server using a statistical model
US7240067B2 (en) 2000-02-08 2007-07-03 Sybase, Inc. System and methodology for extraction and aggregation of data from dynamic content
US6931397B1 (en) 2000-02-11 2005-08-16 International Business Machines Corporation System and method for automatic generation of dynamic search abstracts contain metadata by crawler
US6910029B1 (en) 2000-02-22 2005-06-21 International Business Machines Corporation System for weighted indexing of hierarchical documents
JP2001265774A (ja) 2000-03-16 2001-09-28 Nippon Telegr & Teleph Corp <Ntt> 情報検索方法、装置、および情報検索プログラムを記録した記録媒体、ハイパーテキスト情報検索システム
US6516312B1 (en) 2000-04-04 2003-02-04 International Business Machine Corporation System and method for dynamically associating keywords with domain-specific search engine queries
US6633867B1 (en) 2000-04-05 2003-10-14 International Business Machines Corporation System and method for providing a session query within the context of a dynamic search result set
US6549896B1 (en) 2000-04-07 2003-04-15 Nec Usa, Inc. System and method employing random walks for mining web page associations and usage to optimize user-oriented web page refresh and pre-fetch scheduling
US6718365B1 (en) 2000-04-13 2004-04-06 International Business Machines Corporation Method, system, and program for ordering search results using an importance weighting
US6859800B1 (en) 2000-04-26 2005-02-22 Global Information Research And Technologies Llc System for fulfilling an information need
US6772160B2 (en) 2000-06-08 2004-08-03 Ingenuity Systems, Inc. Techniques for facilitating information acquisition and storage
US6741986B2 (en) 2000-12-08 2004-05-25 Ingenuity Systems, Inc. Method and system for performing information extraction and quality control for a knowledgebase
DE10029644B4 (de) 2000-06-16 2008-02-07 Deutsche Telekom Ag Verfahren zur Relevanzbewertung bei der Indexierung von Hypertext-Dokumenten mittels Suchmaschine
JP3573688B2 (ja) 2000-06-28 2004-10-06 松下電器産業株式会社 類似文書検索装置及び関連キーワード抽出装置
US6678692B1 (en) 2000-07-10 2004-01-13 Northrop Grumman Corporation Hierarchy statistical analysis system and method
US6601075B1 (en) 2000-07-27 2003-07-29 International Business Machines Corporation System and method of ranking and retrieving documents based on authority scores of schemas and documents
US6633868B1 (en) 2000-07-28 2003-10-14 Shermann Loyall Min System and method for context-based document retrieval
US6598040B1 (en) 2000-08-14 2003-07-22 International Business Machines Corporation Method and system for processing electronic search expressions
US7080073B1 (en) 2000-08-18 2006-07-18 Firstrain, Inc. Method and apparatus for focused crawling
KR100378240B1 (ko) 2000-08-23 2003-03-29 학교법인 통진학원 엔트로피와 사용자 프로파일을 적용한 문서순위 조정방법
US20030217052A1 (en) 2000-08-24 2003-11-20 Celebros Ltd. Search engine method and apparatus
US6959326B1 (en) 2000-08-24 2005-10-25 International Business Machines Corporation Method, system, and program for gathering indexable metadata on content at a data repository
WO2002017212A1 (en) 2000-08-25 2002-02-28 Jonas Ulenas Method and apparatus for obtaining consumer product preferences through product selection and evaluation
JP3472540B2 (ja) 2000-09-11 2003-12-02 日本電信電話株式会社 サーバ選択装置、サーバ選択方法、及びサーバ選択プログラムを記録した記録媒体
NO313399B1 (no) 2000-09-14 2002-09-23 Fast Search & Transfer Asa Fremgangsmate til soking og analyse av informasjon i datanettverk
US6598051B1 (en) 2000-09-19 2003-07-22 Altavista Company Web page connectivity server
US6560600B1 (en) 2000-10-25 2003-05-06 Alta Vista Company Method and apparatus for ranking Web page search results
JP3525885B2 (ja) 2000-10-25 2004-05-10 日本電信電話株式会社 多角的検索サービス方法およびそのプログラムを記録した記録媒体
JP2002140365A (ja) 2000-11-01 2002-05-17 Mitsubishi Electric Corp データ検索方法
US7200606B2 (en) 2000-11-07 2007-04-03 The Regents Of The University Of California Method and system for selecting documents by measuring document quality
US6622140B1 (en) 2000-11-15 2003-09-16 Justsystem Corporation Method and apparatus for analyzing affect and emotion in text
JP2002157271A (ja) 2000-11-20 2002-05-31 Yozan Inc ブラウザ装置、サーバ装置、記録媒体、検索システムおよび検索方法
US7925967B2 (en) 2000-11-21 2011-04-12 Aol Inc. Metadata quality improvement
US8402068B2 (en) 2000-12-07 2013-03-19 Half.Com, Inc. System and method for collecting, associating, normalizing and presenting product and vendor information on a distributed network
US20020078045A1 (en) 2000-12-14 2002-06-20 Rabindranath Dutta System, method, and program for ranking search results using user category weighting
US6898592B2 (en) 2000-12-27 2005-05-24 Microsoft Corporation Scoping queries in a search engine
JP2002202992A (ja) 2000-12-28 2002-07-19 Speed System:Kk ホームページ検索システム
US6778997B2 (en) 2001-01-05 2004-08-17 International Business Machines Corporation XML: finding authoritative pages for mining communities based on page structure criteria
US7356530B2 (en) 2001-01-10 2008-04-08 Looksmart, Ltd. Systems and methods of retrieving relevant information
US6766316B2 (en) 2001-01-18 2004-07-20 Science Applications International Corporation Method and system of ranking and clustering for document indexing and retrieval
US6526440B1 (en) 2001-01-30 2003-02-25 Google, Inc. Ranking search results by reranking the results based on local inter-connectivity
US20020103798A1 (en) 2001-02-01 2002-08-01 Abrol Mani S. Adaptive document ranking method based on user behavior
US20020107886A1 (en) 2001-02-07 2002-08-08 Gentner Donald R. Method and apparatus for automatic document electronic versioning system
WO2002063493A1 (en) 2001-02-08 2002-08-15 2028, Inc. Methods and systems for automated semantic knowledge leveraging graph theoretic analysis and the inherent structure of communication
US20040003028A1 (en) 2002-05-08 2004-01-01 David Emmett Automatic display of web content to smaller display devices: improved summarization and navigation
JP2002245089A (ja) 2001-02-19 2002-08-30 Hitachi Eng Co Ltd ウェブページ検索システム、二次情報収集装置、インターフェース装置
US7627596B2 (en) 2001-02-22 2009-12-01 International Business Machines Corporation Retrieving handwritten documents using multiple document recognizers and techniques allowing both typed and handwritten queries
US8001118B2 (en) 2001-03-02 2011-08-16 Google Inc. Methods and apparatus for employing usage statistics in document retrieval
US7269545B2 (en) 2001-03-30 2007-09-11 Nec Laboratories America, Inc. Method for retrieving answers from an information retrieval system
US20020169770A1 (en) 2001-04-27 2002-11-14 Kim Brian Seong-Gon Apparatus and method that categorize a collection of documents into a hierarchy of categories that are defined by the collection of documents
US7188106B2 (en) 2001-05-01 2007-03-06 International Business Machines Corporation System and method for aggregating ranking results from various sources to improve the results of web searching
US20020165860A1 (en) 2001-05-07 2002-11-07 Nec Research Insititute, Inc. Selective retrieval metasearch engine
US6738764B2 (en) 2001-05-08 2004-05-18 Verity, Inc. Apparatus and method for adaptively ranking search results
ATE505760T1 (de) 2001-05-10 2011-04-15 Amdocs Software Systems Ltd Intelligente internet-website mit hierarchischem menü
US6865295B2 (en) 2001-05-11 2005-03-08 Koninklijke Philips Electronics N.V. Palette-based histogram matching with recursive histogram vector generation
US6782383B2 (en) 2001-06-18 2004-08-24 Siebel Systems, Inc. System and method to implement a persistent and dismissible search center frame
US6947920B2 (en) 2001-06-20 2005-09-20 Oracle International Corporation Method and system for response time optimization of data query rankings and retrieval
US7519529B1 (en) 2001-06-29 2009-04-14 Microsoft Corporation System and methods for inferring informational goals and preferred level of detail of results in response to questions posed to an automated information-retrieval or question-answering service
US7039234B2 (en) 2001-07-19 2006-05-02 Microsoft Corporation Electronic ink as a software object
US6868411B2 (en) 2001-08-13 2005-03-15 Xerox Corporation Fuzzy text categorizer
US6928425B2 (en) 2001-08-13 2005-08-09 Xerox Corporation System for propagating enrichment between documents
KR100509276B1 (ko) 2001-08-20 2005-08-22 엔에이치엔(주) 웹페이지별 방문인기도에 기반한 웹페이지 검색방법 및 그장치
US7076483B2 (en) 2001-08-27 2006-07-11 Xyleme Sa Ranking nodes in a graph
US20030046389A1 (en) 2001-09-04 2003-03-06 Thieme Laura M. Method for monitoring a web site's keyword visibility in search engines and directories and resulting traffic from such keyword visibility
US6970863B2 (en) 2001-09-18 2005-11-29 International Business Machines Corporation Front-end weight factor search criteria
US6766422B2 (en) 2001-09-27 2004-07-20 Siemens Information And Communication Networks, Inc. Method and system for web caching based on predictive usage
US6944609B2 (en) 2001-10-18 2005-09-13 Lycos, Inc. Search results using editor feedback
US7428695B2 (en) 2001-10-22 2008-09-23 Hewlett-Packard Development Company, L.P. System for automatic generation of arbitrarily indexed hyperlinked text
JP2003208434A (ja) 2001-11-07 2003-07-25 Nec Corp 情報検索システム及びそれに用いる情報検索方法
US20030101183A1 (en) 2001-11-26 2003-05-29 Navin Kabra Information retrieval index allowing updating while in use
US6763362B2 (en) 2001-11-30 2004-07-13 Micron Technology, Inc. Method and system for updating a search engine
TW530224B (en) * 2001-12-07 2003-05-01 Inst Information Industry Relation establishment system and method for key words in search engine
US7565367B2 (en) 2002-01-15 2009-07-21 Iac Search & Media, Inc. Enhanced popularity ranking
JP3871201B2 (ja) 2002-01-29 2007-01-24 ソニー株式会社 コンテンツ提供取得システム
US6829606B2 (en) 2002-02-14 2004-12-07 Infoglide Software Corporation Similarity search engine for use with relational databases
JP4021681B2 (ja) 2002-02-22 2007-12-12 日本電信電話株式会社 ページレイティング/フィルタリング方法および装置とページレイティング/フィルタリングプログラムおよび該プログラムを記録したコンピュータ読取り可能な記録媒体
US20060004732A1 (en) 2002-02-26 2006-01-05 Odom Paul S Search engine methods and systems for generating relevant search results and advertisements
US6934714B2 (en) 2002-03-04 2005-08-23 Intelesis Engineering, Inc. Method and system for identification and maintenance of families of data records
US7693830B2 (en) 2005-08-10 2010-04-06 Google Inc. Programmable search engine
KR100490748B1 (ko) 2002-04-11 2005-05-24 한국전자통신연구원 유,알,엘 포함관계에 기반한 유사도 재계산을 통한효과적인 홈페이지 검색 방법
US7039631B1 (en) 2002-05-24 2006-05-02 Microsoft Corporation System and method for providing search results with configurable scoring formula
RU2273879C2 (ru) 2002-05-28 2006-04-10 Владимир Владимирович Насыпный Способ синтеза самообучающейся системы извлечения знаний из текстовых документов для поисковых систем
US20040006559A1 (en) 2002-05-29 2004-01-08 Gange David M. System, apparatus, and method for user tunable and selectable searching of a database using a weigthted quantized feature vector
US7246128B2 (en) 2002-06-12 2007-07-17 Jordahl Jena J Data storage, retrieval, manipulation and display tools enabling multiple hierarchical points of view
JP2004054588A (ja) * 2002-07-19 2004-02-19 Just Syst Corp 文書検索装置、文書検索方法およびその方法をコンピュータに実行させるプログラム
CA2395905A1 (en) 2002-07-26 2004-01-26 Teraxion Inc. Multi-grating tunable chromatic dispersion compensator
US7599911B2 (en) 2002-08-05 2009-10-06 Yahoo! Inc. Method and apparatus for search ranking using human input and automated ranking
US7152059B2 (en) 2002-08-30 2006-12-19 Emergency24, Inc. System and method for predicting additional search results of a computerized database search user based on an initial search query
US7013458B2 (en) 2002-09-09 2006-03-14 Sun Microsystems, Inc. Method and apparatus for associating metadata attributes with program elements
JP2004164555A (ja) 2002-09-17 2004-06-10 Fuji Xerox Co Ltd 検索装置および方法ならびにそのインデクス構築装置および方法
US20040064442A1 (en) 2002-09-27 2004-04-01 Popovitch Steven Gregory Incremental search engine
US6886010B2 (en) 2002-09-30 2005-04-26 The United States Of America As Represented By The Secretary Of The Navy Method for data and text mining and literature-based discovery
TW575813B (en) * 2002-10-11 2004-02-11 Intumit Inc System and method using external search engine as foundation for segmentation of word
US7085755B2 (en) 2002-11-07 2006-08-01 Thomson Global Resources Ag Electronic document repository management and access system
US7231379B2 (en) 2002-11-19 2007-06-12 Noema, Inc. Navigation in a hierarchical structured transaction processing system
US7386527B2 (en) 2002-12-06 2008-06-10 Kofax, Inc. Effective multi-class support vector machine classification
US7020648B2 (en) 2002-12-14 2006-03-28 International Business Machines Corporation System and method for identifying and utilizing a secondary index to access a database using a management system without an internal catalogue of online metadata
US7734565B2 (en) * 2003-01-18 2010-06-08 Yahoo! Inc. Query string matching method and apparatus
US20040148278A1 (en) 2003-01-22 2004-07-29 Amir Milo System and method for providing content warehouse
RU2236699C1 (ru) 2003-02-25 2004-09-20 Открытое акционерное общество "Телепортал. Ру" Способ поиска и выборки информации с повышенной релевантностью
JP4299022B2 (ja) 2003-02-28 2009-07-22 トヨタ自動車株式会社 コンテンツ検索用インデックス生成装置
US20040181515A1 (en) 2003-03-13 2004-09-16 International Business Machines Corporation Group administration of universal resource identifiers with members identified in search result
US6947930B2 (en) 2003-03-21 2005-09-20 Overture Services, Inc. Systems and methods for interactive search query refinement
EP1462950B1 (en) 2003-03-27 2007-08-29 Sony Deutschland GmbH Method for language modelling
US7216123B2 (en) 2003-03-28 2007-05-08 Board Of Trustees Of The Leland Stanford Junior University Methods for ranking nodes in large directed graphs
US7028029B2 (en) 2003-03-28 2006-04-11 Google Inc. Adaptive computation of ranking
US7451130B2 (en) 2003-06-16 2008-11-11 Google Inc. System and method for providing preferred country biasing of search results
US7451129B2 (en) 2003-03-31 2008-11-11 Google Inc. System and method for providing preferred language ordering of search results
US7051023B2 (en) 2003-04-04 2006-05-23 Yahoo! Inc. Systems and methods for generating concept units from search queries
US7197497B2 (en) 2003-04-25 2007-03-27 Overture Services, Inc. Method and apparatus for machine learning a document relevance function
US7283997B1 (en) 2003-05-14 2007-10-16 Apple Inc. System and method for ranking the relevance of documents retrieved by a query
US7502779B2 (en) 2003-06-05 2009-03-10 International Business Machines Corporation Semantics-based searching for information in a distributed data processing system
US8239380B2 (en) 2003-06-20 2012-08-07 Microsoft Corporation Systems and methods to tune a general-purpose search engine for a search entry point
US7228301B2 (en) 2003-06-27 2007-06-05 Microsoft Corporation Method for normalizing document metadata to improve search results using an alias relationship directory service
US7630963B2 (en) 2003-06-30 2009-12-08 Microsoft Corporation Fast ranked full-text searching
US7308643B1 (en) 2003-07-03 2007-12-11 Google Inc. Anchor tag indexing in a web crawler system
JP4274533B2 (ja) 2003-07-16 2009-06-10 キヤノン株式会社 固体撮像装置及びその駆動方法
KR100543255B1 (ko) 2003-08-19 2006-01-20 문영섭 용접부 절삭가공장치
US20050060186A1 (en) 2003-08-28 2005-03-17 Blowers Paul A. Prioritized presentation of medical device events
US7454417B2 (en) 2003-09-12 2008-11-18 Google Inc. Methods and systems for improving a search ranking using population information
US7505964B2 (en) 2003-09-12 2009-03-17 Google Inc. Methods and systems for improving a search ranking using related queries
US8589373B2 (en) 2003-09-14 2013-11-19 Yaron Mayer System and method for improved searching on the internet or similar networks and especially improved MetaNews and/or improved automatically generated newspapers
US20050071328A1 (en) 2003-09-30 2005-03-31 Lawrence Stephen R. Personalization of web search
US7346839B2 (en) 2003-09-30 2008-03-18 Google Inc. Information retrieval based on historical data
US7693827B2 (en) 2003-09-30 2010-04-06 Google Inc. Personalization of placed content ordering in search results
US7552109B2 (en) 2003-10-15 2009-06-23 International Business Machines Corporation System, method, and service for collaborative focused crawling of documents on a network
US20050086192A1 (en) 2003-10-16 2005-04-21 Hitach, Ltd. Method and apparatus for improving the integration between a search engine and one or more file servers
US7346208B2 (en) 2003-10-25 2008-03-18 Hewlett-Packard Development Company, L.P. Image artifact reduction using a neural network
US7231399B1 (en) 2003-11-14 2007-06-12 Google Inc. Ranking documents based on large data sets
US7181447B2 (en) 2003-12-08 2007-02-20 Iac Search And Media, Inc. Methods and systems for conceptually organizing and presenting information
US20060047649A1 (en) 2003-12-29 2006-03-02 Ping Liang Internet and computer information retrieval and mining with intelligent conceptual filtering, visualization and automation
CN100495392C (zh) 2003-12-29 2009-06-03 西安迪戈科技有限责任公司 一种智能搜索方法
US7685104B2 (en) 2004-01-08 2010-03-23 International Business Machines Corporation Dynamic bitmap processing, identification and reusability
US7483891B2 (en) 2004-01-09 2009-01-27 Yahoo, Inc. Content presentation and management system associating base content and relevant additional content
US7392278B2 (en) 2004-01-23 2008-06-24 Microsoft Corporation Building and using subwebs for focused search
US7499913B2 (en) 2004-01-26 2009-03-03 International Business Machines Corporation Method for handling anchor text
JP2004192657A (ja) 2004-02-09 2004-07-08 Nec Corp 情報検索システム、情報検索方法および情報検索用プログラムを記録した記録媒体
US7310632B2 (en) 2004-02-12 2007-12-18 Microsoft Corporation Decision-theoretic web-crawling and predicting web-page change
US7281002B2 (en) 2004-03-01 2007-10-09 International Business Machine Corporation Organizing related search results
US9104689B2 (en) 2004-03-17 2015-08-11 International Business Machines Corporation Method for synchronizing documents for disconnected operation
US7584221B2 (en) 2004-03-18 2009-09-01 Microsoft Corporation Field weighting in text searching
JP2005277445A (ja) 2004-03-22 2005-10-06 Fuji Xerox Co Ltd 会議映像処理装置、会議映像処理方法およびプログラム
US7343374B2 (en) 2004-03-29 2008-03-11 Yahoo! Inc. Computation of page authority weights using personalized bookmarks
US7580568B1 (en) 2004-03-31 2009-08-25 Google Inc. Methods and systems for identifying an image as a representative image for an article
US7693825B2 (en) 2004-03-31 2010-04-06 Google Inc. Systems and methods for ranking implicit search results
US20050251499A1 (en) 2004-05-04 2005-11-10 Zezhen Huang Method and system for searching documents using readers valuation
US7257577B2 (en) 2004-05-07 2007-08-14 International Business Machines Corporation System, method and service for ranking search results using a modular scoring system
US7136851B2 (en) 2004-05-14 2006-11-14 Microsoft Corporation Method and system for indexing and searching databases
US7260573B1 (en) 2004-05-17 2007-08-21 Google Inc. Personalizing anchor text scores in a search engine
US7716225B1 (en) 2004-06-17 2010-05-11 Google Inc. Ranking documents based on user behavior and/or feature data
US20050283473A1 (en) 2004-06-17 2005-12-22 Armand Rousso Apparatus, method and system of artificial intelligence for data searching applications
US7730012B2 (en) 2004-06-25 2010-06-01 Apple Inc. Methods and systems for managing data
US8131674B2 (en) 2004-06-25 2012-03-06 Apple Inc. Methods and systems for managing data
US7428530B2 (en) 2004-07-01 2008-09-23 Microsoft Corporation Dispersing search engine results by using page category information
US7363296B1 (en) 2004-07-01 2008-04-22 Microsoft Corporation Generating a subindex with relevant attributes to improve querying
US7634461B2 (en) 2004-08-04 2009-12-15 International Business Machines Corporation System and method for enhancing keyword relevance by user's interest on the search result documents
US7395260B2 (en) 2004-08-04 2008-07-01 International Business Machines Corporation Method for providing graphical representations of search results in multiple related histograms
US20060036598A1 (en) 2004-08-09 2006-02-16 Jie Wu Computerized method for ranking linked information items in distributed sources
US20060047643A1 (en) 2004-08-31 2006-03-02 Chirag Chaman Method and system for a personalized search engine
JP2008513881A (ja) 2004-09-16 2008-05-01 テレノール アーアスアー パーソナルウェブのドキュメントを検索し、ドキュメント間でナビゲートし、ドキュメントをランク付けするための方法、システムおよびコンピュータプログラムプロダクト
US20060064411A1 (en) 2004-09-22 2006-03-23 William Gross Search engine using user intent
US7606793B2 (en) 2004-09-27 2009-10-20 Microsoft Corporation System and method for scoping searches using index keys
US7644107B2 (en) 2004-09-30 2010-01-05 Microsoft Corporation System and method for batched indexing of network documents
US7739277B2 (en) 2004-09-30 2010-06-15 Microsoft Corporation System and method for incorporating anchor text into ranking search results
US7761448B2 (en) 2004-09-30 2010-07-20 Microsoft Corporation System and method for ranking search results using click distance
US7827181B2 (en) 2004-09-30 2010-11-02 Microsoft Corporation Click distance determination
US20060074883A1 (en) 2004-10-05 2006-04-06 Microsoft Corporation Systems, methods, and interfaces for providing personalized search and information access
US20060074781A1 (en) 2004-10-06 2006-04-06 Leano Hector V System for facilitating turnkey real estate investment in Mexico
WO2006042142A2 (en) 2004-10-07 2006-04-20 Bernard Widrow Cognitive memory and auto-associative neural network based pattern recognition and searching
US7533092B2 (en) 2004-10-28 2009-05-12 Yahoo! Inc. Link-based spam detection
US7716198B2 (en) 2004-12-21 2010-05-11 Microsoft Corporation Ranking search results using feature extraction
EP1839124A4 (en) 2005-01-18 2009-12-30 Yahoo Inc COMPARISON AND CLASSIFICATION OF SPONSORED SEARCH LISTS WITH WEB SEARCH TECHNOLOGY AND WEB CONTENT
US20060173828A1 (en) 2005-02-01 2006-08-03 Outland Research, Llc Methods and apparatus for using personal background data to improve the organization of documents retrieved in response to a search query
US7689615B2 (en) 2005-02-25 2010-03-30 Microsoft Corporation Ranking results using multiple nested ranking
US20060200460A1 (en) 2005-03-03 2006-09-07 Microsoft Corporation System and method for ranking search results using file types
US7792833B2 (en) 2005-03-03 2010-09-07 Microsoft Corporation Ranking search results using language types
US7574436B2 (en) 2005-03-10 2009-08-11 Yahoo! Inc. Reranking and increasing the relevance of the results of Internet searches
US20060206460A1 (en) 2005-03-14 2006-09-14 Sanjay Gadkari Biasing search results
US8095487B2 (en) 2005-03-16 2012-01-10 Yahoo! Inc. System and method for biasing search results based on topic familiarity
CN101523338B (zh) 2005-03-18 2016-10-19 搜索引擎科技有限责任公司 应用来自用户的反馈来改进搜索结果的搜索引擎
US7870147B2 (en) 2005-03-29 2011-01-11 Google Inc. Query revision using known highly-ranked queries
US7693829B1 (en) 2005-04-25 2010-04-06 Google Inc. Search engine with fill-the-blanks capability
US7401073B2 (en) 2005-04-28 2008-07-15 International Business Machines Corporation Term-statistics modification for category-based search
US7451124B2 (en) 2005-05-12 2008-11-11 Xerox Corporation Method of analyzing documents
US7962462B1 (en) * 2005-05-31 2011-06-14 Google Inc. Deriving and using document and site quality signals from search query streams
CA2544324A1 (en) 2005-06-10 2006-12-10 Unicru, Inc. Employee selection via adaptive assessment
US20060282455A1 (en) 2005-06-13 2006-12-14 It Interactive Services Inc. System and method for ranking web content
US7627564B2 (en) 2005-06-21 2009-12-01 Microsoft Corporation High scale adaptive search systems and methods
TWI284818B (en) * 2005-07-21 2007-08-01 Bridgewell Inc Database searching engine system
US7599917B2 (en) 2005-08-15 2009-10-06 Microsoft Corporation Ranking search results using biased click distance
US7653617B2 (en) 2005-08-29 2010-01-26 Google Inc. Mobile sitemaps
US7499919B2 (en) 2005-09-21 2009-03-03 Microsoft Corporation Ranking functions using document usage statistics
US7716226B2 (en) 2005-09-27 2010-05-11 Patentratings, Llc Method and system for probabilistically quantifying and visualizing relevance between two or more citationally or contextually related data objects
US7689531B1 (en) 2005-09-28 2010-03-30 Trend Micro Incorporated Automatic charset detection using support vector machines with charset grouping
US20070085716A1 (en) 2005-09-30 2007-04-19 International Business Machines Corporation System and method for detecting matches of small edit distance
US7873624B2 (en) 2005-10-21 2011-01-18 Microsoft Corporation Question answering over structured content on the web
US20070150473A1 (en) 2005-12-22 2007-06-28 Microsoft Corporation Search By Document Type And Relevance
US7689559B2 (en) 2006-02-08 2010-03-30 Telenor Asa Document similarity scoring and ranking method, device and computer program product
US7685091B2 (en) 2006-02-14 2010-03-23 Accenture Global Services Gmbh System and method for online information analysis
US20070260597A1 (en) 2006-05-02 2007-11-08 Mark Cramer Dynamic search engine results employing user behavior
EP1862916A1 (en) 2006-06-01 2007-12-05 Microsoft Corporation Indexing Documents for Information Retrieval based on additional feedback fields
US20080005068A1 (en) 2006-06-28 2008-01-03 Microsoft Corporation Context-based search, retrieval, and awareness
US20080016053A1 (en) 2006-07-14 2008-01-17 Bea Systems, Inc. Administration Console to Select Rank Factors
US8595245B2 (en) 2006-07-26 2013-11-26 Xerox Corporation Reference resolution for text enrichment and normalization in mining mixed data
US7720830B2 (en) 2006-07-31 2010-05-18 Microsoft Corporation Hierarchical conditional random fields for web extraction
US20080140641A1 (en) 2006-12-07 2008-06-12 Yahoo! Inc. Knowledge and interests based search term ranking for search results validation
US7792883B2 (en) 2006-12-11 2010-09-07 Google Inc. Viewport-relative scoring for location search queries
JP4839195B2 (ja) 2006-12-12 2011-12-21 日本電信電話株式会社 Xml文書の適合度の算出方法およびそのプログラムと、情報処理装置
US7685084B2 (en) 2007-02-09 2010-03-23 Yahoo! Inc. Term expansion using associative matching of labeled term pairs
US20090006358A1 (en) 2007-06-27 2009-01-01 Microsoft Corporation Search results
US7996392B2 (en) 2007-06-27 2011-08-09 Oracle International Corporation Changing ranking algorithms based on customer settings
US8122032B2 (en) 2007-07-20 2012-02-21 Google Inc. Identifying and linking similar passages in a digital text corpus
US8201081B2 (en) * 2007-09-07 2012-06-12 Google Inc. Systems and methods for processing inoperative document links
US7840569B2 (en) 2007-10-18 2010-11-23 Microsoft Corporation Enterprise relevancy ranking using a neural network
US9348912B2 (en) 2007-10-18 2016-05-24 Microsoft Technology Licensing, Llc Document length as a static relevance feature for ranking search results
US20090106221A1 (en) 2007-10-18 2009-04-23 Microsoft Corporation Ranking and Providing Search Results Based In Part On A Number Of Click-Through Features
US7707229B2 (en) 2007-12-12 2010-04-27 Yahoo! Inc. Unsupervised detection of web pages corresponding to a similarity class
JP2009146248A (ja) 2007-12-17 2009-07-02 Fujifilm Corp コンテンツ提示システム及びプログラム
US20090164929A1 (en) 2007-12-20 2009-06-25 Microsoft Corporation Customizing Search Results
US8412702B2 (en) 2008-03-12 2013-04-02 Yahoo! Inc. System, method, and/or apparatus for reordering search results
US7974974B2 (en) 2008-03-20 2011-07-05 Microsoft Corporation Techniques to perform relative ranking for search results
JP5328212B2 (ja) 2008-04-10 2013-10-30 株式会社エヌ・ティ・ティ・ドコモ レコメンド情報評価装置およびレコメンド情報評価方法
CN101359331B (zh) 2008-05-04 2014-03-19 索意互动(北京)信息技术有限公司 对搜索结果重新排序的方法和系统
US20090307209A1 (en) 2008-06-10 2009-12-10 David Carmel Term-statistics modification for category-based search
US8326829B2 (en) 2008-10-17 2012-12-04 Centurylink Intellectual Property Llc System and method for displaying publication dates for search results
US8224847B2 (en) 2009-10-29 2012-07-17 Microsoft Corporation Relevant individual searching using managed property and ranking features
US8527507B2 (en) 2009-12-04 2013-09-03 Microsoft Corporation Custom ranking model schema
US8422786B2 (en) 2010-03-26 2013-04-16 International Business Machines Corporation Analyzing documents using stored templates
US8738635B2 (en) 2010-06-01 2014-05-27 Microsoft Corporation Detection of junk in search result ranking
US8370331B2 (en) 2010-07-02 2013-02-05 Business Objects Software Limited Dynamic visualization of search results on a graphical user interface
US9495462B2 (en) 2012-01-27 2016-11-15 Microsoft Technology Licensing, Llc Re-ranking search results

Cited By (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103077163A (zh) * 2012-12-24 2013-05-01 华为技术有限公司 数据预处理方法、装置及系统
CN103077163B (zh) * 2012-12-24 2015-07-08 华为技术有限公司 数据预处理方法、装置及系统
CN107430612A (zh) * 2015-02-12 2017-12-01 微软技术许可有限责任公司 查找描述对计算问题的解决方案的文档
CN107430612B (zh) * 2015-02-12 2020-10-02 微软技术许可有限责任公司 查找描述对计算问题的解决方案的文档
CN108475266A (zh) * 2015-06-23 2018-08-31 微软技术许可有限责任公司 用来移除匹配文档的匹配修复
US11281639B2 (en) 2015-06-23 2022-03-22 Microsoft Technology Licensing, Llc Match fix-up to remove matching documents
CN108475266B (zh) * 2015-06-23 2022-05-13 微软技术许可有限责任公司 用来移除匹配文档的匹配修复
US11392568B2 (en) 2015-06-23 2022-07-19 Microsoft Technology Licensing, Llc Reducing matching documents for a search query
CN106815196A (zh) * 2015-11-27 2017-06-09 北京国双科技有限公司 软文展现次数统计方法和装置
CN106815196B (zh) * 2015-11-27 2020-07-31 北京国双科技有限公司 软文展现次数统计方法和装置
CN110135552A (zh) * 2018-02-09 2019-08-16 微软技术许可有限责任公司 用于搜索的深度神经网络架构
CN109960757A (zh) * 2019-02-27 2019-07-02 北京搜狗科技发展有限公司 网页检索方法及装置

Also Published As

Publication number Publication date
ZA201006093B (en) 2011-10-26
AU2009234120A1 (en) 2009-10-15
EP2289007B1 (en) 2015-04-22
WO2009126394A1 (en) 2009-10-15
CN101990670B (zh) 2013-12-18
KR101557294B1 (ko) 2015-10-06
TW200945079A (en) 2009-11-01
IL207830A (en) 2015-03-31
KR20110009098A (ko) 2011-01-27
EP2289007A4 (en) 2012-10-31
BRPI0909092A2 (pt) 2019-02-26
US8812493B2 (en) 2014-08-19
RU2501078C2 (ru) 2013-12-10
TWI486800B (zh) 2015-06-01
JP5492187B2 (ja) 2014-05-14
RU2010141559A (ru) 2012-04-20
AU2009234120B2 (en) 2014-05-22
JP2011516989A (ja) 2011-05-26
EP2289007A1 (en) 2011-03-02
US20090259651A1 (en) 2009-10-15
IL207830A0 (en) 2010-12-30

Similar Documents

Publication Publication Date Title
CN101990670B (zh) 使用编辑距离和文档信息进行搜索结果排名
CN100511224C (zh) 用于改进文档检索的内容传播的方法和计算设备
National Research Council et al. Frontiers in massive data analysis
CN1713179B (zh) 在对象模型中的影响分析
CN101567011B (zh) 文档处理装置、文档处理方法以及检索系统
CN112231275B (zh) 多媒体文件分类、信息处理与模型训练方法、系统及设备
US20190377818A1 (en) Data visualization platform for event-based behavior clustering
CN111177569A (zh) 基于人工智能的推荐处理方法、装置及设备
CN100504861C (zh) 用于在展平的分层结构中有意义的名字的创建的方法和系统
CN110688553A (zh) 基于数据分析的信息推送方法、装置、计算机设备及存储介质
US10078843B2 (en) Systems and methods for analyzing consumer sentiment with social perspective insight
Olmezogullari et al. Representation of click-stream datasequences for learning user navigational behavior by using embeddings
Akerkar et al. Intelligent techniques for data science
WO2017166944A1 (zh) 一种提供业务访问的方法及装置
US20120143815A1 (en) Inferring influence and authority
CN110348895A (zh) 一种基于用户标签的个性化推荐方法、装置和电子设备
JP7358003B2 (ja) 複数のクエリ解釈に基づくファセットベースのクエリ絞り込み
CN111782644A (zh) 一种基于区块链技术的科研数据管理控制系统及方法
US11809506B1 (en) Multivariant analyzing replicating intelligent ambience evolving system
CN111800289A (zh) 通信网络故障分析方法和装置
US10956914B2 (en) System and method for mapping a customer journey to a category
Huang et al. Technology–function matrix based network analysis of cloud computing
CN103324641A (zh) 信息记录推荐方法和装置
CN111553401B (zh) 一种应用在云服务推荐中基于图模型的QoS预测方法
Lo et al. An emperical study on application of big data analytics to automate service desk business process

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
ASS Succession or assignment of patent right

Owner name: MICROSOFT TECHNOLOGY LICENSING LLC

Free format text: FORMER OWNER: MICROSOFT CORP.

Effective date: 20150514

C41 Transfer of patent application or patent right or utility model
TR01 Transfer of patent right

Effective date of registration: 20150514

Address after: Washington State

Patentee after: Micro soft technique license Co., Ltd

Address before: Washington State

Patentee before: Microsoft Corp.