CN101990670A - 使用编辑距离和文档信息进行搜索结果排名 - Google Patents
使用编辑距离和文档信息进行搜索结果排名 Download PDFInfo
- Publication number
- CN101990670A CN101990670A CN2009801129286A CN200980112928A CN101990670A CN 101990670 A CN101990670 A CN 101990670A CN 2009801129286 A CN2009801129286 A CN 2009801129286A CN 200980112928 A CN200980112928 A CN 200980112928A CN 101990670 A CN101990670 A CN 101990670A
- Authority
- CN
- China
- Prior art keywords
- document
- editing distance
- query string
- information
- string
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/951—Indexing; Web crawling techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
- G06F40/194—Calculation of difference between files
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
Abstract
一种用于基于查询串从接收到的作为搜索结果的文档中提取文档信息并计算数据串与该查询串之间的编辑距离的体系结构。编辑距离被用来通过检测整个查询或查询的一部分的接近匹配来确定文档的相关性以作为结果排名的一部分。编辑距离评估查询串与包括诸如TAUC(标题、锚文本、URL、点击)信息等文档信息的给定数据流有多接近。该体系结构包括用于允许更高效地发现查询项的、对URL中的混合项进行的索引时间划分。另外,锚文本的索引时间过滤被用来寻找文档结果中的一个或多个的前N个锚。TAUC信息可被输入到神经网络(例如,2层)以改进用于对搜索结果进行排名的相关性度量。
Description
背景
在典型的搜索引擎服务中,用户可以通过从URL(统一资源定位符)的索引集合中选出与查询相匹配的最相关文档来输入查询。为了快速对查询进行服务,搜索引擎利用将关键字映射到文档的一种或多种方法(例如,倒排索引数据结构)。例如,引擎所执行的第一步骤可以是标识包含用户查询所指定的关键字的候选文档的集合。这些关键字可以位于文档正文或元数据或实际上存储在其他文档或数据存储中的关于该文档的附加元数据(如锚文本)中。
在一大型索引集合中,取决于查询项的共同性,候选文档集合的基数可以很大(例如,可能有数百万)。并非返回整个候选文档集合,搜索引擎根据相关性来执行对候选文档进行排名的第二步骤。通常,搜索引擎利用排名功能来预测文档与特定查询的相关性程度。排名功能从文档取得多个特征作为输入,并且计算允许搜索引擎按照所预测的相关性对文档进行排序的数量。
排名功能相对于该功能有多准确地预测文档的相关性的质量由用户对搜索结果的满意度或用户发现所提问题的答案的平均次数来最终确定。对系统的总体用户满意度可以由单个数字(或度量)来近似,因为该数字可以通过改变排名功能来优化。通常,该度量是在通过对查询日志进行随机采样来预先选择的代表性查询集合上计算的,并且涉及向引擎对于评估查询中的每一个所返回的每一结果分配相关性标记。然而,用于文档排名和相关性的这些过程仍然不足以提供所需结果。
概述
以下提出了简化概述以便提供对在此处描述的某些新颖实施例的基本理解。本概述不是详尽的概览,它不旨在标识关键/重要的元素,也不旨在描绘其范围。其唯一的目的是以简化的形式来介绍一些概念,作为稍后提出的更详细描述的序言。
该体系结构提供用于基于查询串从作为搜索结果接收到的文档中提取文档信息并计算数据串与该查询串之间的编辑距离的机制。数据串可以是从诸如TAUC(标题、锚文本、URL(统一资源定位符)、以及点击)等文档信息获得的文档的简短且准确的描述。编辑距离被用于确定文档的相关性以作为结果排名的一部分。该机制使用一组邻近度相关特征来检测整个查询或查询的一部分的接近匹配以改进搜索结果排名的相关性。
处理编辑距离以评估查询串与包括该文档信息的给定数据流有多接近。该体系结构包括对URL中的混合项进行的索引时间划分,以用于允许更高效地发现查询项。另外,锚文本的索引时间过滤被用来寻找文档结果中的一个或多个的前N个锚。使用TAUC信息可被输入到神经网络(例如,2层)以改进用于对搜索结果进行排名的相关性度量。
为实现上述及相关目的,本文结合下面的描述和附图描述某些说明性方面。然而,这些方面仅指示了可采用此处公开的原理的各种方法中的少数几种,且旨在包括所有这些方面及等效方面。结合附图阅读下面的详细描述,则其他优点和新颖特征将变得清楚。
附图简述
图1示出计算机实现的相关性系统。
图2示出用于计算编辑距离的示例性匹配算法的流程图。
图3示出使用经修改的编辑距离和匹配算法来基于查询串和数据串处理并生成编辑距离值。
图4示出使用经修改的编辑距离和匹配算法来基于查询串和数据串处理并生成编辑距离值的另一示例。
图5示出使用神经网络来帮助生成文档的相关性分数的计算机实现的相关性系统。
图6示出可以在用于确定查询串与数据串之间的编辑距离的文档信息中使用的数据的类型。
图7示出索引时间处理数据流。
图8示出例示来自图7的索引过程的、用于结果排名的对神经网络的输入的框图。
图9示出用于计算生成搜索结果的神经网络、编辑距离输入以及原始特征输入的示例性系统实现。
图10示出确定文档结果集的文档相关性的方法。
图11示出计算文档的相关性的方法。
图12示出根据所公开的体系结构的可用于使用TAUC特征执行编辑距离处理以进行搜索结果排名的计算系统的框图。
详细描述
所公开的体系结构通过实现一组邻近度相关特征来检测整个查询的接近匹配或具有与该文档有关的准确元数据(如,标题、锚、URL、或点击)的匹配以改进搜索结果排名的相关性。例如,考虑查询“company store”、第一文档的文档标题“company store online”和第二文档的文档标题“new NEC LCD monitors in company store”。假定其它特性对第一和第二文档而言相同,则该体系结构基于为使选定流与该查询相匹配要贡献多少编辑努力来向文档分配分数。在该示例中,选择文档标题来进行评估。第一文档的标题只需要一次删除操作(删除项“online”)就能得到完全匹配,而第二文档的标题需要五次删除(删除项“new”、“NEC”、“LCD”、“monitors”以及“in”)。因此,第一文档被计算成较为相关。
标题是TAUC(标题、锚、URL以及点击)文档信息的一个元素,对于TAUC文档信息,可以对一些数据流(例如,URL)应用处理以便可以从混合项中找到查询项的。例如,再次考虑查询“company store”,并且URL是www.companystore.com。结果是该URL被分成四个部分(即,项):“www”、“company”、“store”以及“com”。
现在参照附图,在全部附图中,相同的附图标记用于表示相同的元素。在以下描述中,为解释起见,描绘了众多具体细节以提供对本发明的全面理解。然而,显然,各新颖实施例可以在没有这些具体细节的情况下实现。在其他情况下,以框图形式示出了公知的结构和设备以便于描述它们。
图1示出计算机实现的相关性系统100。系统100包括处理组件102,用于基于查询串110从作为搜索结果108接收到的文档106中提取文档信息104。系统100还可包括邻近度组件112,用于计算从文档信息104导出的数据串116与查询串110之间的编辑距离114。编辑距离114被用于确定作为搜索结果108的一部分的文档106的相关性。
用于生成数据串116的文档信息104可包括例如标题信息(即,字符)、链接信息(例如,URL字符)、点击流信息、和/或锚文本(即,字符)。处理组件102在索引时间划分文档信息104的混合项以计算编辑距离114。处理组件102还便于在索引时间过滤诸如锚文本等文档信息以计算排名最前的一组锚文本。
对编辑距离114的计算基于用于增加数据串116与查询串110之间的邻近度(使之更近)的项插入和项删除。对编辑距离114的计算还可基于与用于增加数据串116与查询串110之间的邻近度(使之更近)项插入和项删除相关联的成本。
考虑基于向查询串110插入和/或从中删除项来生成数据串116(例如,TAUC)的情况。该项处理可以根据四个操作来执行:将非查询字插入查询串110;将查询项插入查询串110;从查询串110删除TAUC项;和/或从查询串110删除非TAUC项。
编辑距离114是基于插入和删除操作的,但不基于置换。对于插入,可以定义两种类型的成本。考虑从查询串110生成数据串116的情况。在生成时,可以将一个字插入查询串110,当该字在原始查询串110中存在时则成本被定义为1;否则成本被定义为w1(≥1)。在此,w1是所调节的加权参数。例如,如果查询串110是AB,则生成数据串ABC的成本高于数据串ABA的成本。直观上,通过将“不相关字”插入数据串116使得整个数据串116(例如,TAUC)更加不相关。
对于删除,可以定义两种类型的成本。同样,考虑从查询串110生成数据串116的情况。在删除查询串110中的项时,当该项存在于原始查询串116中时,则成本被定义为1;否则成本被定义为w2(≥1)。
另一类型的成本是位置成本。如果删除或插入发生在数据串116的第一位置处,则存在附加成本(+w3)。直观上,对在两个串(查询串110和数据串116)的开头处的匹配给出比这些串较后处的匹配更大的重要性。考虑以下示例,其中查询串110是“cnn”并且数据串116是标题=“cnn.com-blur blur”。如果插入和删除发生在第一位置处,则可以显著地降低该解决方案的效率。
图2示出用于计算编辑距离的示例性的经修改的匹配算法200的流程图。尽管出于解释简明的目的,此处例如以流图或流程图形式示出的一个或多个方法被示出并描述为一系列动作,但是可以理解和明白,各方法不受动作的次序的限制,因为根据本发明,某些动作可以按与此处所示并描述的不同的次序和/或与其他动作同时发生。例如,本领域技术人员将会明白并理解,方法可被替换地表示为一系列相互关联的状态或事件,诸如以状态图的形式。此外,并非在一方法中示出的所有动作都是新颖实现所必需的。
在200,枚举查询串和数据(即,目标)串的各元素。这通过设查询串的程度是n(其中查询串中的每一项是s[i])并设目标(即,数据)串的程度是m(其中目标串中的每一项被表示为t[j])来实现。在202,构造包含0…m行和0…n列的矩阵(其中该矩阵中的每一项被表示为d[j,i])。在204,使用依赖于删除的不同成本的值来初始化第一行并且使用依赖于插入的不同成本的值来初始化第一列。在206,如果n=0,则返回d[m,0]并退出,并且如果m=0,则返回d[0,n]并退出,如在208所示。在210,检查查询串的每一字符(i从1到n)。在212,检查目标数据串的每一字符(j从1到m)。在214,如果查询串中的字符串等于数据串中的各字符,则该流程去往216,在那里成本是0并处理下一矩阵单元。换言之,如果s[i]等于t[j],则成本是0并且d[j,i]=d[j-1,i-1]。
如果查询串单元中的字符不等于数据串单元中的字符,则该流程从214至218,在那里将当前单元设成紧靠上方的单元或紧靠左侧的单元,加上插入或删除成本。换言之,如果s[i]不等于t[j],则将该矩阵的单元d[j,i]设成等于紧靠上方的单元加上对应的插入成本(由d[j-1,i]+cost_insertion(插入成本)表示)或紧靠左侧的单元加上对应的删除成本(由d[j-1,i]+cost_deletion(删除成本)表示)的最小值。在220,迭代步骤210、212、214、216以及218以完成。在222,输出在单元d[m,n]中找到的最终成本。注意,在该示例中,cost_insertion和cost_deletion两者都具有两种值;例如,用于插入成本的w1=1、w3=4以及用于删除成本的w2=1、w4=26。
换言之,d[j,i]包含串s[0..i]和t[0...j]之间的编辑距离。根据定义,d[0,0]=0(无需编辑即可使空串等于空串)。d[0,y]=d[0,y-1]+(w2或w4).如果已知使用了多少编辑才产生了串d[0,y-1],则d[0,y]可以计算成d[0,y-1]+从目标串删除当前字符的成本,这一成本可以是w2或w4。如果当前字符存在于s[0…n]、t[0…m]两者中,则使用成本w2;否则使用w4。d[x,0]=d[x-1,0]+(w1或w3)。如果已知使用了多少编辑才产生了串d[x-1,0],则d[x,0]可以计算成d[x-1,0]+从s到t插入当前字符的成本,这一成本可以是w1或w3。如果当前字符存在于s[0…n]、t[0…m]两者中,则使用成本w1;否则使用w3。
对于每一(j,i),如果s[i]=t[j],则d[j,i]可以等于d[j-1,i-1]。可以计算串t[j-1]、s[i-1]之间的编辑距离,并且如果s[i]=t[j],则可以对这两个串附加共同字符以在不造成编辑的情况下使这些串相等。因此,使用了三个移动,其中选择提供当前d[j,i]的最小编辑距离的移动。换言之,
d[j,i]=min(
如果s[i]=t[j],则d[j-1,i-1];
d[j-1,i]+(如果s[j]存在于这两个串中,w1;否则,w3);
d[j,i-1]+(如果t[i]存在于这两个串中,w2;否则,w4)
)
图3示出使用经修改的编辑距离和匹配算法来基于查询串和数据串处理并生成编辑距离值。该过程涉及从左至右、自顶向下、以及对角计算中的一个或多个。相对于项“C B A X”的目标数据串来处理项“A B C”查询串(其中,X表示不存在于查询串中的项)。用于计算编辑距离的过程可以用不同的方式来执行;然而,用于执行编辑距离的修改版本的具体细节在根据所公开的体系结构进行计算时是不同的。基于n×m来构造4×5矩阵300,其中对于查询串n=3且对于数据串m=4。查询串302沿矩阵300的水平轴放置,并且目标数据串304沿着垂直轴。
本描述将使用用四列(0-3)和五行(0-4)来表示的矩阵300。在行0列0开始,从左至右来应用图2中描述的编辑距离匹配算法,交叉单元d[0,0]接收“0”,因为查询串ABC的空单元与目标数据串CBAX的空单元的比较不造成用于使查询串与目标数据串相同的项插入或删除。“项”是相同的,所以编辑距离是0。
向右移动来将查询串302的A项与行0的空单元进行比较,使用一次删除以使这些串相同;因此,单元d[0,1]接收值“1”。再次向右移动至列2,现在进行查询串302的项AB与目标数据串列的空单元之间的比较。因此,使用查询串302中的两次删除来使这些串相同,从而使得编辑距离“2”被置于单元d[0,2]中。同样的过程应用于列3,其中将查询串302的项ABC与目标串列中的空单元相比较,使用三次删除以使得这些串相同,从而产生单元d[0,3]中的编辑距离“3”。
下降到行1并继续从左至右,将查询串行的空单元与目标数据串304的第一项C相比较。使用一次删除以使得这些串相同,其中d[1,0]中的编辑距离是“1”。向右移至列1,进行查询串302的A项与目标数据串304的C项之间的比较。使用一次删除和一次插入来使这些串相同,因此,值“2”被插入单元d[1,1]中。跳到最后单元d[1,3],,用于将ABC与C进行匹配的匹配过程造成使用两次删除来得到单元d[1,3]中的编辑距离“2”。为简明起见,移至行4和列3并找出总体编辑距离,将项ABC与项CBAX进行匹配,造成了单元d[4,3]中的编辑距离“8”,使用目标串的第一项C中的插入/删除得到值“2”、用于B项之间的匹配的值“0”、用于第三项C和A的匹配的插入/删除得到值“2”、项X的插入得到值“1”、以及用于位置成本的值“3”,从而造成了单元d[4,3]中的最终编辑距离值“8”。
图4示出使用经修改的编辑距离和匹配算法来基于查询串和目标数据串处理并生成编辑距离值的另一示例。在此,生成矩阵400以用于基于用于插入成本的cost_insertion w1=1,w3=4以及用于删除成本的w2=1以及w4=26的权重来将查询串ABC 402与目标数据串AB 404进行比较。换言之,从左至右操作行0,将查询串402的项A与目标串404前的空单元进行匹配造成项A在目标串404中的一次插入,得到值“1”单元d[0,1]。将查询串402的项AB与目标串404前的空单元进行匹配造成项AB在目标串404中的两次插入,得到值“2”单元d[0,2],并且将查询串402的项ABC与目标串404前的空单元进行匹配造成项AB在目标串404中的两次插入值加上项C的值w4=26,得到单元d[0,3]中的值“28”,因为项C不在这两个串中。
从左至右操作行1(理解d[1,0]=1),将查询串402的项A与目标串404的项A进行匹配造成目标串404和查询串402中的等同性,得到单元d[1,1]中的值“0”,通过从d[j-1,i-1]=d[0,0]=“0”取得该值。将查询串402的项AB与目标串404的项A进行匹配造成项B在目标串404中的一次插入,得到最小值“1”单元d[1,2]。对于单元d[1,3],将查询串402的项ABC与目标串404的项A进行匹配得到一最小值,该最小值关联于d[j-1,i]=d[0,3]的值加上w3在单元d[1,3]中得到值“28”相比于d[j,i-1]=d[1,2]的值1加上26得到27(因为项C不在这两个串中),从而在d[1,3]中得到最小值“27”。
从左至右操作行2,将查询串402的项A与目标串404的项AB进行匹配造成目标串404中的一次删除,得到单元d[2,1]中的值“1”。对于单元d[2,2]中的距离,将查询串402的项AB与目标串404的项AB进行匹配造成等同性,从而从d[j-1,i-1]=d[1,1]中取出值来作为单元d[2,2]的值“0”。对于单元d[2,3],将查询串402的项ABC与目标串404的项AB进行匹配得到最小值,该最小值关联于d[j-1,i]=d[1,3]=27的值加上w3=1得到值“28”(因为C不在目标串中)相比于同样基于d[i,j-1]=d[2,2]=0的值加上26得到26(因为C不在这两个串中),从而得到d[2,3]中的最小值“26”。
图5示出使用神经网络502来帮助生成文档106的相关性分数504的计算机实现的相关性系统500。系统500包括用于基于查询串110从作为搜索结果108接收到的文档106提取文档信息104的处理组件102和用于计算从文档信息104导出的数据串116与查询串110之间的编辑距离114的邻近度组件112。编辑距离114被用于确定作为搜索结果108的一部分的文档106的相关性。
神经网络502可被用来接收文档信息104作为用于计算文档106的相关性分数的输入。单独地或部分地基于搜索结果108中的一些或全部的相关性分数,可以对搜索结果108中的文档进行排名。系统500使用神经网络502和代码库来生成用于搜索结果108中的相关联文档的排名的相关性分数。
以下是用于计算查询串与数据串中的每一个之间的编辑距离以获得每一对的TAUC分数的编辑距离算法的描述。
因为文档中只有一个标题,所以TAUC分数可以相对于标题如下计算:
TAUC(标题)=ED(标题)
其中在应用了变换函数之后,TAUC(标题)随后用作神经网络的输入并且ED(标题)是该标题的编辑距离。
对于一文档,可以存在锚文本以及URL和点击的多个实例(其中点击是先前执行的相对于它该文档被点击的查询)。想法是这一文档对于类似查询更加相关。在索引时间,选择具有最高频率的N个锚文本。随后,为每一选定的锚计算ED分数。最后,为锚确定TAUC分数如下:
TAUC(锚)=Min{ED(锚i)} i:前N个锚;
直观上,如果对于锚中的每一个都存在良好的匹配,则这是足够的。在应用了变换函数之后,TAUC(锚)被用作神经网络输入。
在计算URL串的ED之前使用特殊处理。使用一组字符作为分隔符将索引时间URL串划分成各部分。随后在每一部分中找出来自标题和锚项的字典中的项。来自字典的项的每一次出现连同以字符为单位从URL串的开头所测量的位置都被存储在索引中。
在查询时,从在索引时间存储的索引中读出查询项的所有出现,并且用“非查询”项来填充间断。在这一处理之后,计算ED。在应用了变换函数之后,ED处理的结果是神经网络输入。
可被处理的另一特性是用户对给定文档内容所输入的“点击”的数量。用户每一次点击该文档,都将一条流输入到数据库中并将该流与该文档进行关联。这一过程还可以应用于文档信息文本中的流数据,如短数据流。
索引时间URL处理算法使用一组字符作为分隔符来将整个URL划分成各部分。划分函数还将urlpart.startpos(url部分.开始位置)设成源串中的部分的位置。划分函数执行对URL的各不重要部分的过滤。
例如,“http://www.companymeeting.com/index.html”被过滤成“companymeeting/index”并被划分成“companymeeting”和“index”。
Startpos:0
Urlparts=split(url,dictionary)
//寻找不同url部分中的项。
For each(字典中的项)
{
Int pos=0;
For each(各url部分中的一url部分)
{
pos=urlpart.Find(term,pos);
while(pos>=0)
{
//parts_separator(部分_分隔符)被用来在查询时区分不同部
分
storeOccurrence(term,pos+urlpart.startpos*parts_separator);
pos=url.Find(term,pos+term.length);
}
}
setIndexStreamLength(parts_separator*urlparts.Count);
}
假定字典包含“company meeting comp”,则可生成以下钥匙(key):Company:0;Meeting:7;以及Comp:0。串的总长度是parts_separator*2。
相对于ED之前的查询时间处理,在查询时间读取查询项的出现,按源URL串中的出现次序来构造查询项的串,并且用“非查询”字标记来填充各项之间的空间。例如,考虑查询串“company policy”和结果串“company”“non-query term(非查询项)”“non-query term”。
parts_separator、查询项位置、以及流长度被确定为知道原始URL串中有多少部分以及什么部分包含给定查询。不具有项的每一部分被认为包含“非查询项”。如果一部分不以查询项开始,则在该项前插入“non-query term”。查询项之间的所有空间都用“non-query term”来填充。
图6示出可以在用于确定查询串与数据串之间的编辑距离的文档信息中使用的数据的类型。文档信息104可包括供处理组件102处理以及数据(即,目标)串116的生产的TAUC数据602,例如标题文本604、锚文本606、URL 608文本或字符、以及点击信息610。文档信息104还可包括与用户点击文档内容的次数、用户(经由点击)选择的内容的类型、该内容上的点击的数量、文档总体等相关的点击信息610。
图7示出索引时间处理数据流700。在顶部,基于文档分析和提取来接收标题604、文档锚606、点击信息610等形式的文档信息。标题604通过项划分算法704来处理并随后传到字典706。字典706是在标题604、锚606、点击信息610等中找到的不同项的临时存储。字典706被用来经由URL划分算法708来划分URL 608。URL划分算法708的输出被发送到索引过程710以进行相关性和排名处理。文档锚606还可以通过管理器712来处理以得到前N个锚。点击信息610可以经由索引过程710来直接处理。可以相应地处理其他文档信息(例如,项划分、过滤,等等)。
图8示出例示来自图7的索引过程710的、用于结果排名的对神经网络的输入的框图800。索引过程710可被用于计算关于查询串110的URL编辑距离(ED)802、关于查询串110的前N个锚ED 804、关于查询串110的标题ED 806、关于查询串110的点击ED 808、以及与编辑距离不相关的其他特征810,这些(URL ED 802、前N个锚ED 804、标题ED 806、点击ED 808、以及其他特征810)中的一些或全部可以用作神经网络502的输入,最终用于找出相关联文档的相关性分数以及随后找出该文档在其他文档搜索结果之间的排名。神经网络502可以是接收至少TAUC特征作为对标识文档的相关性有贡献的输入特征的2层模型。神经网络确定如何将这些特征组合成可由搜索引擎用来进行排序的单个数字。
可以明白,神经网络502只是可用于相关性和排名处理的数学或计算模型的一个示例。可以使用其他形式的统计回归,如朴素贝叶斯、贝叶斯网络、决策树、模糊逻辑模型,并且可以使用表示不同独立性模式的其他统计分类模型,其中分类包括用于分配排名和/或优先级的各方法。
图9示出用于计算生成搜索结果的神经网络502、编辑距离输入以及原始特征输入的示例性系统900实现。关于神经网络502的输入的原始排名特征810的集合可包括BM25功能902(例如,BM25F)、点击距离904、URL深度906、文件类型908、以及语言匹配910。BM25组件可包括例如正文、标题、锚、锚文本、URL显示名称、以及所提取的标题。
图10示出确定相关性的方法。在1000,作为搜索过程的一部分来接收查询串。在1002,从在搜索过程期间返回的文档中提取文档信息。在1004,根据文档信息生成数据串。在1006,计算数据串与查询串之间的编辑距离。在1008,基于编辑距离来计算相关性分数。
该方法的其他方面可包括使用项插入来作为计算编辑距离的一部分并且评估在查询串中插入一个项以生成数据串的插入成本,该成本被表示成加权参数。该方法还包括使用项删除来作为计算编辑距离的一部分并且评估在查询串中删除一个项以生成数据串的删除成本,该成本被表示成加权参数。可以作为计算编辑距离的一部分来计算位置成本,位置成本与数据串中的项位置的项插入和/或项删除相关联。另外,在数据串的各字符与查询串的各字符之间执行匹配过程以计算用于计算编辑距离的总体成本。
划分数据串的URL的混合项可以在索引时间发生。该方法还可包括基于在文档中的出现频率来过滤数据串的锚文本以找出排名最前的一组锚文本并计算该组中的锚文本的编辑距离分数。在应用变换函数之后,从对编辑距离的计算导出的编辑距离分数可以输入到两层神经网络中,该分数是基于计算与标题信息、锚信息、点击信息、或URL信息中的至少一个相关联的编辑距离来生成的。
图11示出计算文档的相关性的方法。在1100,作为搜索过程的一部分来处理查询串以返回一组结果文档。在1102,基于从这组结果的文档中提取的文档信息生成数据串,文档信息包括来自文档的标题信息、锚文本信息、点击信息、以及URL信息中的一个或多个。在1104,基于项插入、项删除、以及项位置来计算数据串与查询串之间的编辑距离。在1106,基于编辑距离来计算相关性分数,该相关性分数用于对这组结果中的文档进行排名。
该方法还包括计算与项插入、项删除、以及项位置中的每一个相关联的成本,并将该成本包括在相关性分数的计算内,并且在索引时间划分URL信息的混合项并在索引时间基于锚文本在文档中的出现频率来过滤锚文本信息以找出排名最前的一组锚文本。可以执行查询串的各项的出现的读取以按照在源URL串中出现的次序来构造查询项的串并用字标记来填充各项之间的空间。
如在本申请中所使用的,术语“组件”和“系统”旨在表示计算机相关的实体,其可以是硬件、硬件和软件的组合、软件、或者执行中的软件。例如,组件可以是但不限于,在处理器上运行的进程、处理器、硬盘驱动器、多个(光和/或磁存储介质的)存储驱动器、对象、可执行代码、执行的线程、程序、和/或计算机。作为说明,运行在服务器上的应用程序和服务器都可以是组件。一个或多个组件可以驻留在进程和/或执行的线程内,且组件可以位于一台计算机上和/或分布在两台或更多的计算机之间。
现在参考图12,示出了根据所公开的体系结构的可用于使用TAUC特征执行编辑距离处理以进行搜索结果排名的计算系统1200的框图。为了提供用于其各方面的附加上下文,图12及以下讨论旨在提供对其中可实现该各方面的合适的计算系统1200的简要概括描述。尽管以上描述是在可在一个或多个计算机上运行的计算机可执行指令的一般上下文中进行的,但是本领域的技术人员将认识到,新颖实施例也可结合其他程序模块和/或作为硬件和软件的组合来实现。
一般而言,程序模块包括执行特定任务或实现特定抽象数据类型的例程、程序、组件、数据结构等等。此外,本领域的技术人员可以理解,本发明的方法可用其他计算机系统配置来实施,包括单处理器或多处理器计算机系统、小型计算机、大型计算机、以及个人计算机、手持式计算设备、基于微处理器的或可编程消费电子产品等,其每一个都可操作上耦合到一个或多个相关联的设备。
所示各方面也可以在其中某些任务由通过通信网络链接的远程处理设备来执行的分布式计算环境中实施。在分布式计算环境中,程序模块可以位于本地和远程存储器存储设备中。
计算机通常包括各种计算机可读介质。计算机可读介质可以是可由计算机访问的任何可用介质,且包括易失性和非易失性介质、可移动和不可移动介质。作为示例而非限制,计算机可读介质可以包括计算机存储介质和通信介质。计算机存储介质包括以存储如计算机可读指令、数据结构、程序模块或其他数据等信息的任何方法或技术来实现的易失性和非易失性、可移动和不可移动介质。计算机存储介质包括但不限于RAM、ROM、EEPROM、闪存或者其他存储器技术、CD-ROM、数字视频盘(DVD)或其他光盘存储、磁带盒、磁带、磁盘存储或其他磁存储设备、或可以用于存储所需信息并且可以由计算机访问的任何其他介质。
再次参考图12,用于实现各方面的示例性计算系统1200包括具有处理单元1204、系统存储器1206和系统总线1208的计算机1202。系统总线1208向包括但不限于系统存储器1206的各系统组件提供到处理单元1204的接口。处理单元1204可以是市场上可购买到的各种处理器中的任意一种。双微处理器和其他多处理器体系结构也可用作处理单元1204。
系统总线1208可以是若干种总线结构中的任一种,这些总线结构还可互连到存储器总线(带有或没有存储器控制器)、外围总线、以及使用各类市场上可购买到的总线体系结构中的任一种的局部总线。系统存储器1206可包括非易失性存储器(NON-VOL)1210和/或易失性存储器1212(例如,随机存取存储器(RAM))。基本输入/输出系统(BIOS)可被存储在非易失性存储器1210(例如,ROM、EPROM、EEPROM等)中,其中BIOS是帮助诸如在启动期间在计算机1202内的元件之间传输信息的基本例程。易失性存储器1212还可包括诸如静态RAM等高速RAM来用于高速缓存数据。
计算机1202还包括内置硬盘驱动器(HDD)1214(例如,EIDE、SATA),该内置HDD 1214还可被配置成在合适的机壳中外部使用;磁软盘驱动器(FDD)1216(例如,从可移动磁盘1218中读取或向其写入);以及光盘驱动器1220(例如,从CD-ROM盘1222中读取,或从诸如DVD等其他高容量光学介质中读取或向其写入)。HDD 1214、FDD 1216、以及光盘驱动器1220可分别由HDD接口1224、FDD接口1226和光盘驱动器接口1228连接到系统总线1208。用于外置驱动器实现的HDD接口1224可包括通用串行总线(USB)和IEEE 1394接口技术中的至少一种或两者。
驱动器及相关联的计算机可读介质提供了对数据、数据结构、计算机可执行指令等的非易失性存储。对于计算机1202,驱动器和介质容纳适当的数字格式的任何数据的存储。尽管以上对计算机可读介质的描述涉及HDD、可移动磁盘(例如FDD)以及诸如CD或DVD等可移动光学介质,但是本领域的技术人员应当理解,示例性操作环境中也可使用可由计算机读取的任何其他类型的介质,诸如zip驱动器、磁带盒、闪存卡、盒式磁带等等,并且任何这样的介质可包含用于执行所公开的体系结构的新颖方法的计算机可执行指令。
多个程序模块可被存储在驱动器和易失性存储器1212中,包括操作系统1230、一个或多个应用程序1232、其他程序模块1234和程序数据1236。一个或多个应用程序132、其他程序模块1234、以及查询时间1236可包括系统100和相关联的各框、系统500及相关联的各框、文档信息104、TAUC数据602、点击信息610、数据流700(以及算法)、以及框图800(及相关联的各框)。
操作系统、应用程序、模块和/或数据的全部或部分也可被高速缓存在易失性存储器1212中。应该明白,所公开的体系结构可以用市场上可购得的各种操作系统或操作系统的组合来实现。
用户可以通过一个或多个有线/无线输入设备,例如键盘1238和诸如鼠标1240等定点设备将命令和信息输入到计算机1202中。其他输入设备(未示出)可包括话筒、IR遥控器、操纵杆、游戏手柄、指示笔、触摸屏等等。这些和其他输入设备通常通过耦合到系统总线1208的输入设备接口1242连接到处理单元1204,但也可通过诸如并行端口、IEEE 1394串行端口、游戏端口、USB端口、IR接口等其他接口连接。
监视器1244或其他类型的显示设备也经由诸如视频适配器1246等接口连接到系统总线1208。除了监视器1244之外,计算机通常包括诸如扬声器、打印机等其他外围输出设备(未示出)。
计算机1202可使用经由有线和/或无线通信至诸如远程计算机1248等的一个或多个远程计算机的逻辑连接在网络化环境中操作。远程计算机1248可以是工作站、服务器计算机、路由器、个人计算机、便携式计算机、基于微处理器的娱乐设备、对等设备或其他常见的网络节点,并且通常包括相对于计算机1202描述的许多或所有元件,但为简明起见仅示出了存储器/存储设备1250。所描绘的逻辑连接包括到局域网(LAN)1252和/或例如广域网(WAN)1254等更大的网络的有线/无线连接。这一LAN和WAN连网环境常见于办公室和公司,并且方便了诸如内联网等企业范围计算机网络,所有这些都可连接到例如因特网等全球通信网络。
当在LAN连网环境中使用时,计算机1202通过有线和/或无线通信网络接口或适配器1256连接到LAN 1252。适配器1256可以方便到LAN 1252的有线和/或无线通信,并且还可包括其上设置的用于使用适配器1256的无线功能进行通信的无线接入点。
当在WAN联网环境中使用时,计算机1202可包括调制解调器1258,或连接到WAN 1254上的通信服务器,或具有用于诸如通过因特网等通过WAN 1254建立通信的其他装置。或为内置或为外置以及有线和/或无线设备的调制解调器1258经由输入设备接口1242连接到系统总线1208。在联网环境中,相对于计算机1202所描绘的程序模块或其部分可以存储在远程存储器/存储设备1250中。应该理解,所示网络连接是示例性的,并且可以使用在计算机之间建立通信链接的其他手段。
计算机1202可操作来使用IEEE 802标准家族来与有线和无线设备或实体进行通信,这些实体例如是在操作上安置成与例如打印机、扫描仪、台式和/或便携式计算机、个人数字助理(PDA)、通信卫星、任何一件与无线可检测标签相关联的设备或位置(例如,电话亭、报亭、休息室)以及电话进行无线通信(例如,IEEE 802.11空中调制技术)的无线设备。这至少包括Wi-Fi(即无线保真)、WiMax和蓝牙TM无线技术。由此,通信可以如对于常规网络那样是预定义结构,或者仅仅是至少两个设备之间的自组织(ad hoc)通信。Wi-Fi网络使用称为IEEE 802.11x(a、b、g等等)的无线电技术来提供安全、可靠、快速的无线连接。Wi-Fi网络可用于将计算机彼此连接、连接到因特网以及连接到有线网络(使用IEEE 802.3相关介质和功能)。
上面描述的包括所公开的体系结构的各示例。当然,描述每一个可以想到的组件和/或方法的组合是不可能的,但本领域内的普通技术人员应该认识到,许多其他组合和排列都是可能的。因此,该新颖体系结构旨在涵盖所有这些落入所附权利要求书的精神和范围内的更改、修改和变化。此外,就在说明书或权利要求书中使用术语“包括”而言,这一术语旨在以与术语“包含”在被用作权利要求书中的过渡词时所解释的相似的方式为包含性的。
Claims (20)
1.一种计算机实现的相关性系统(100),包括:
处理组件(102),用于基于查询串从接收到的作为搜索结果的文档中提取文档信息;以及
邻近度组件(112),用于计算数据串与所述查询串之间的编辑距离,所述编辑距离被用于确定文档的相关性作为结果排名的一部分。
2.如权利要求1所述的系统,其特征在于,被用来生成所述数据串的所述文档信息包括标题信息、URL信息、点击信息、或锚文本中的至少一个。
3.如权利要求1所述的系统,其特征在于,所述处理组件在索引时间划分所述文档信息的混合项以计算相对于URL的编辑距离。
4.如权利要求1所述的系统,其特征在于,所述处理组件在索引时间过滤所述文档信息的锚文本以计算排名最前的一组锚文本。
5.如权利要求1所述的系统,其特征在于,所述文档信息包括标题字符、锚字符、点击字符、或URL字符中的至少一个,其中文档信息连同BM25F功能、点击距离、文件类型、语言和URL深度等原始输入特征一起被输入到神经网络以计算所述文档的相关性。
6.如权利要求1所述的系统,其特征在于,对所述编辑距离的计算是基于用于增加所述数据串与所述查询串之间的邻近度的项插入和项删除的。
7.如权利要求1所述的系统,其特征在于,对所述编辑距离的计算是基于与用于增加所述数据串与所述查询串之间的邻近度的项插入和项删除相关联的成本的。
8.一种确定相关性的计算机实现的方法,包括:
作为搜索过程的一部分来接收查询串(1000);
从在所述搜索过程期间返回的文档中提取文档信息(1002);
根据所述文档信息生成数据串(1004);
计算所述数据串与所述查询串之间的编辑距离(1006);以及
基于所述编辑距离来计算相关性分数(1008)。
9.如权利要求8所述的方法,其特征在于,还包括使用查询项插入来作为计算所述编辑距离的一部分并且评估在所述查询串中插入一个项以生成所述数据串的插入成本,所述成本被表示成加权参数。
10.如权利要求8所述的方法,其特征在于,还包括使用项删除来作为计算所述编辑距离的一部分并且评估在所述查询串中删除一个项以生成所述数据串的删除成本,所述成本被表示成加权参数。
11.如权利要求8所述的方法,其特征在于,还包括作为计算所述编辑距离的一部分来计算位置成本,所述位置成本与所述数据串中的项位置的项插入和/或项删除相关联。
12.如权利要求8所述的方法,其特征在于,还包括在所述数据串的各字符与所述查询串的各字符之间执行匹配过程以计算用于计算所述编辑距离的总体成本。
13.如权利要求8所述的方法,其特征在于,还包括在索引时间划分所述数据串的URL的混合项。
14.如权利要求8所述的方法,其特征在于,还包括基于在所述文档中的出现频率来过滤所述数据串的锚文本以找出排名最前的一组锚文本。
15.如权利要求14所述的方法,其特征在于,还包括计算所述组中的锚文本的编辑距离分数。
16.如权利要求8所述的方法,其特征在于,还包括在应用变换函数之后,将从对所述编辑距离的计算导出的分数输入到两层神经网络中,所述分数是基于计算与标题信息、锚信息、点击信息、或URL信息、以及其它原始输入特征中的至少一个相关联的编辑距离来生成的。
17.一种计算文档的相关性的计算机实现的方法,包括:
作为搜索过程的一部分来处理查询串以返回一组结果文档(1100);
基于从这组结果的文档中提取的文档信息生成数据串,所述文档信息包括来自所述文档的标题信息、锚文本信息、点击信息、以及URL信息中的一个或多个(1102);
基于项插入、项删除、以及项位置来计算所述数据串与所述查询串之间的编辑距离(1104);以及
基于所述编辑距离来计算相关性分数,所述相关性分数用于对所述结果集中的文档进行排名(1106)。
18.如权利要求17所述的方法,其特征在于,还包括计算与所述项插入、项删除以及项位置中的每一个相关联的成本,并将所述成本包括在所述相关性分数计算内。
19.如权利要求17所述的方法,其特征在于,还包括在索引时间划分所述URL信息的混合项并在索引时间基于所述锚文本在所述文档中的出现频率来过滤所述锚文本信息以找出排名最前的一组锚文本。
20.如权利要求17所述的方法,其特征在于,还包括读取所述查询串的各项的出现以按照在源URL串中出现的次序来构造各查询项的串并用字标记来填充所述各项之间的空间。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US12/101,951 | 2008-04-11 | ||
US12/101,951 US8812493B2 (en) | 2008-04-11 | 2008-04-11 | Search results ranking using editing distance and document information |
PCT/US2009/036597 WO2009126394A1 (en) | 2008-04-11 | 2009-03-10 | Search results ranking using editing distance and document information |
Publications (2)
Publication Number | Publication Date |
---|---|
CN101990670A true CN101990670A (zh) | 2011-03-23 |
CN101990670B CN101990670B (zh) | 2013-12-18 |
Family
ID=41162189
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN200980112928.6A Active CN101990670B (zh) | 2008-04-11 | 2009-03-10 | 使用编辑距离和文档信息进行搜索结果排名 |
Country Status (12)
Country | Link |
---|---|
US (1) | US8812493B2 (zh) |
EP (1) | EP2289007B1 (zh) |
JP (1) | JP5492187B2 (zh) |
KR (1) | KR101557294B1 (zh) |
CN (1) | CN101990670B (zh) |
AU (1) | AU2009234120B2 (zh) |
BR (1) | BRPI0909092A2 (zh) |
IL (1) | IL207830A (zh) |
RU (1) | RU2501078C2 (zh) |
TW (1) | TWI486800B (zh) |
WO (1) | WO2009126394A1 (zh) |
ZA (1) | ZA201006093B (zh) |
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103077163A (zh) * | 2012-12-24 | 2013-05-01 | 华为技术有限公司 | 数据预处理方法、装置及系统 |
CN106815196A (zh) * | 2015-11-27 | 2017-06-09 | 北京国双科技有限公司 | 软文展现次数统计方法和装置 |
CN107430612A (zh) * | 2015-02-12 | 2017-12-01 | 微软技术许可有限责任公司 | 查找描述对计算问题的解决方案的文档 |
CN108475266A (zh) * | 2015-06-23 | 2018-08-31 | 微软技术许可有限责任公司 | 用来移除匹配文档的匹配修复 |
CN109960757A (zh) * | 2019-02-27 | 2019-07-02 | 北京搜狗科技发展有限公司 | 网页检索方法及装置 |
CN110135552A (zh) * | 2018-02-09 | 2019-08-16 | 微软技术许可有限责任公司 | 用于搜索的深度神经网络架构 |
US11392568B2 (en) | 2015-06-23 | 2022-07-19 | Microsoft Technology Licensing, Llc | Reducing matching documents for a search query |
Families Citing this family (37)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7606793B2 (en) | 2004-09-27 | 2009-10-20 | Microsoft Corporation | System and method for scoping searches using index keys |
US9348912B2 (en) | 2007-10-18 | 2016-05-24 | Microsoft Technology Licensing, Llc | Document length as a static relevance feature for ranking search results |
US8065310B2 (en) * | 2008-06-25 | 2011-11-22 | Microsoft Corporation | Topics in relevance ranking model for web search |
US20100312793A1 (en) * | 2009-06-08 | 2010-12-09 | International Business Machines Corporation | Displaying relevancy of results from multi-dimensional searches using heatmaps |
KR101141498B1 (ko) * | 2010-01-14 | 2012-05-04 | 주식회사 와이즈넛 | 근접성 언어 모델을 이용한 정보 검색 방법 |
US10140339B2 (en) * | 2010-01-26 | 2018-11-27 | Paypal, Inc. | Methods and systems for simulating a search to generate an optimized scoring function |
TWI486797B (zh) * | 2010-03-09 | 2015-06-01 | Alibaba Group Holding Ltd | Methods and devices for sorting search results |
US8738635B2 (en) | 2010-06-01 | 2014-05-27 | Microsoft Corporation | Detection of junk in search result ranking |
US9189549B2 (en) * | 2010-11-08 | 2015-11-17 | Microsoft Technology Licensing, Llc | Presenting actions and providers associated with entities |
CA2747153A1 (en) * | 2011-07-19 | 2013-01-19 | Suleman Kaheer | Natural language processing dialog system for obtaining goods, services or information |
US8788436B2 (en) * | 2011-07-27 | 2014-07-22 | Microsoft Corporation | Utilization of features extracted from structured documents to improve search relevance |
US9495462B2 (en) | 2012-01-27 | 2016-11-15 | Microsoft Technology Licensing, Llc | Re-ranking search results |
US9235654B1 (en) * | 2012-02-06 | 2016-01-12 | Google Inc. | Query rewrites for generating auto-complete suggestions |
US9535888B2 (en) * | 2012-03-30 | 2017-01-03 | Bmenu As | System, method, software arrangement and computer-accessible medium for a generator that automatically identifies regions of interest in electronic documents for transcoding |
JP5981386B2 (ja) * | 2013-04-18 | 2016-08-31 | 日本電信電話株式会社 | 代表ページ選択装置及び代表ページ選択プログラム |
KR101322123B1 (ko) * | 2013-06-14 | 2013-10-28 | 인하대학교 산학협력단 | 교환 연산을 포함한 확장편집거리의 계산을 병렬적으로 수행하기 위한 방법 |
CN104424279B (zh) * | 2013-08-30 | 2018-11-20 | 腾讯科技(深圳)有限公司 | 一种文本的相关性计算方法和装置 |
US9519859B2 (en) | 2013-09-06 | 2016-12-13 | Microsoft Technology Licensing, Llc | Deep structured semantic model produced using click-through data |
US9477654B2 (en) | 2014-04-01 | 2016-10-25 | Microsoft Corporation | Convolutional latent semantic models and their applications |
US9535960B2 (en) | 2014-04-14 | 2017-01-03 | Microsoft Corporation | Context-sensitive search using a deep learning model |
US10089580B2 (en) | 2014-08-11 | 2018-10-02 | Microsoft Technology Licensing, Llc | Generating and using a knowledge-enhanced model |
CN104572825B (zh) * | 2014-12-04 | 2019-03-12 | 百度在线网络技术(北京)有限公司 | 信息的推荐方法和装置 |
BR112017019821B8 (pt) * | 2015-03-20 | 2024-02-15 | Fraunhofer Ges Zur Foerderung Der Angewandten Forschung E V | Atribuição de pontuação de relevância para redes neurais artificiais |
CN105446957B (zh) | 2015-12-03 | 2018-07-20 | 小米科技有限责任公司 | 相似性确定方法、装置及终端 |
CN107203567A (zh) * | 2016-03-18 | 2017-09-26 | 伊姆西公司 | 用于搜索字串的方法和设备 |
US10909450B2 (en) | 2016-03-29 | 2021-02-02 | Microsoft Technology Licensing, Llc | Multiple-action computational model training and operation |
CN106547871B (zh) * | 2016-10-31 | 2020-04-07 | 北京百度网讯科技有限公司 | 基于神经网络的搜索结果的召回方法和装置 |
CN107229701B (zh) * | 2017-05-25 | 2018-07-03 | 腾讯科技(深圳)有限公司 | 排名更新方法、装置和计算机设备 |
US10650191B1 (en) | 2018-06-14 | 2020-05-12 | Elementary IP LLC | Document term extraction based on multiple metrics |
RU2757174C2 (ru) * | 2019-09-05 | 2021-10-11 | Общество С Ограниченной Ответственностью «Яндекс» | Способ и система для ранжирования цифровых объектов на основе связанной с ними целевой характеристики |
CN110941743B (zh) * | 2019-10-14 | 2023-09-15 | 广西壮族自治区科学技术情报研究所 | 一种基于深度学习算法自动实现字段权重分配的科技项目查重方法 |
US10761839B1 (en) * | 2019-10-17 | 2020-09-01 | Globant España S.A. | Natural language search engine with a predictive writing tool for coding |
JP6840293B1 (ja) * | 2019-11-28 | 2021-03-10 | 三菱電機株式会社 | 情報処理装置、情報処理方法、及び情報処理プログラム |
CN111352549B (zh) * | 2020-02-25 | 2022-01-07 | 腾讯科技(深圳)有限公司 | 一种数据对象展示方法、装置、设备及存储介质 |
US11637937B2 (en) * | 2020-11-18 | 2023-04-25 | Canon Kabushiki Kaisha | Information processing apparatus, information processing method, and non-transitory storage medium |
CN113360178B (zh) * | 2021-05-31 | 2023-05-05 | 东风商用车有限公司 | 软件唯一识别码生成方法、装置、设备及可读存储介质 |
US11409800B1 (en) | 2021-07-23 | 2022-08-09 | Bank Of America Corporation | Generating search queries for database searching |
Family Cites Families (363)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5226161A (en) | 1987-08-21 | 1993-07-06 | Wang Laboratories, Inc. | Integration of data between typed data structures by mutual direct invocation between data managers corresponding to data types |
US5369778A (en) | 1987-08-21 | 1994-11-29 | Wang Laboratories, Inc. | Data processor that customizes program behavior by using a resource retrieval capability |
US5222236A (en) | 1988-04-29 | 1993-06-22 | Overdrive Systems, Inc. | Multiple integrated document assembly data processing system |
US5321833A (en) | 1990-08-29 | 1994-06-14 | Gte Laboratories Incorporated | Adaptive ranking system for information retrieval |
JP2937519B2 (ja) * | 1991-03-08 | 1999-08-23 | 株式会社東芝 | 文書検索装置 |
US5257577A (en) | 1991-04-01 | 1993-11-02 | Clark Melvin D | Apparatus for assist in recycling of refuse |
WO1994012944A1 (en) | 1992-11-23 | 1994-06-09 | Paragon Concepts, Inc. | Computer filing system with user selected categories to provide file access |
US6202058B1 (en) | 1994-04-25 | 2001-03-13 | Apple Computer, Inc. | System for ranking the relevance of information objects accessed by computer users |
US5606609A (en) | 1994-09-19 | 1997-02-25 | Scientific-Atlanta | Electronic document verification system and method |
US5594660A (en) | 1994-09-30 | 1997-01-14 | Cirrus Logic, Inc. | Programmable audio-video synchronization method and apparatus for multimedia systems |
US5642502A (en) | 1994-12-06 | 1997-06-24 | University Of Central Florida | Method and system for searching for relevant documents from a text database collection, using statistical ranking, relevancy feedback and small pieces of text |
US5729730A (en) | 1995-03-28 | 1998-03-17 | Dex Information Systems, Inc. | Method and apparatus for improved information storage and retrieval system |
US5826269A (en) | 1995-06-21 | 1998-10-20 | Microsoft Corporation | Electronic mail interface for a network server |
US5933851A (en) | 1995-09-29 | 1999-08-03 | Sony Corporation | Time-stamp and hash-based file modification monitor with multi-user notification and method thereof |
US5974455A (en) | 1995-12-13 | 1999-10-26 | Digital Equipment Corporation | System for adding new entry to web page table upon receiving web page including link to another web page not having corresponding entry in web page table |
US5855020A (en) | 1996-02-21 | 1998-12-29 | Infoseek Corporation | Web scan process |
US6314420B1 (en) | 1996-04-04 | 2001-11-06 | Lycos, Inc. | Collaborative/adaptive search engine |
JP3113814B2 (ja) | 1996-04-17 | 2000-12-04 | インターナショナル・ビジネス・マシーンズ・コーポレ−ション | 情報検索方法及び情報検索装置 |
US5905866A (en) | 1996-04-30 | 1999-05-18 | A.I. Soft Corporation | Data-update monitoring in communications network |
US5828999A (en) | 1996-05-06 | 1998-10-27 | Apple Computer, Inc. | Method and system for deriving a large-span semantic language model for large-vocabulary recognition systems |
US5920859A (en) | 1997-02-05 | 1999-07-06 | Idd Enterprises, L.P. | Hypertext document retrieval system and method |
US6038610A (en) | 1996-07-17 | 2000-03-14 | Microsoft Corporation | Storage of sitemaps at server sites for holding information regarding content |
EP0822502A1 (en) | 1996-07-31 | 1998-02-04 | BRITISH TELECOMMUNICATIONS public limited company | Data access system |
US5745890A (en) | 1996-08-09 | 1998-04-28 | Digital Equipment Corporation | Sequential searching of a database index using constraints on word-location pairs |
US5765150A (en) | 1996-08-09 | 1998-06-09 | Digital Equipment Corporation | Method for statistically projecting the ranking of information |
US5920854A (en) | 1996-08-14 | 1999-07-06 | Infoseek Corporation | Real-time document collection search engine with phrase indexing |
US5870739A (en) | 1996-09-20 | 1999-02-09 | Novell, Inc. | Hybrid query apparatus and method |
US5870740A (en) | 1996-09-30 | 1999-02-09 | Apple Computer, Inc. | System and method for improving the ranking of information retrieval results for short queries |
US5893116A (en) | 1996-09-30 | 1999-04-06 | Novell, Inc. | Accessing network resources using network resource replicator and captured login script for use when the computer is disconnected from the network |
CN1107291C (zh) | 1996-10-02 | 2003-04-30 | 日本电信电话株式会社 | 分层结构的图形显示方法及装置 |
JPH10124524A (ja) * | 1996-10-23 | 1998-05-15 | Toshiba Corp | 文書検索装置及び文書検索方法 |
GB2331166B (en) | 1997-11-06 | 2002-09-11 | Ibm | Database search engine |
US5966126A (en) | 1996-12-23 | 1999-10-12 | Szabo; Andrew J. | Graphic user interface for database system |
US6285999B1 (en) | 1997-01-10 | 2001-09-04 | The Board Of Trustees Of The Leland Stanford Junior University | Method for node ranking in a linked database |
US6415319B1 (en) | 1997-02-07 | 2002-07-02 | Sun Microsystems, Inc. | Intelligent network browser using incremental conceptual indexer |
US5960383A (en) | 1997-02-25 | 1999-09-28 | Digital Equipment Corporation | Extraction of key sections from texts using automatic indexing techniques |
US5890147A (en) | 1997-03-07 | 1999-03-30 | Microsoft Corporation | Scope testing of documents in a search engine using document to folder mapping |
US5848404A (en) | 1997-03-24 | 1998-12-08 | International Business Machines Corporation | Fast query search in large dimension database |
US6272507B1 (en) | 1997-04-09 | 2001-08-07 | Xerox Corporation | System for ranking search results from a collection of documents using spreading activation techniques |
US6256675B1 (en) | 1997-05-06 | 2001-07-03 | At&T Corp. | System and method for allocating requests for objects and managing replicas of objects on a network |
AUPO710597A0 (en) | 1997-06-02 | 1997-06-26 | Knowledge Horizons Pty. Ltd. | Methods and systems for knowledge management |
US6029164A (en) | 1997-06-16 | 2000-02-22 | Digital Equipment Corporation | Method and apparatus for organizing and accessing electronic mail messages using labels and full text and label indexing |
US6012053A (en) | 1997-06-23 | 2000-01-04 | Lycos, Inc. | Computer system with user-controlled relevance ranking of search results |
JPH1125119A (ja) | 1997-06-30 | 1999-01-29 | Canon Inc | ハイパーテキスト閲覧システム |
JPH1125104A (ja) | 1997-06-30 | 1999-01-29 | Canon Inc | 情報処理装置および方法 |
US5933822A (en) | 1997-07-22 | 1999-08-03 | Microsoft Corporation | Apparatus and methods for an information retrieval system that employs natural language processing of search results to improve overall precision |
US5983216A (en) | 1997-09-12 | 1999-11-09 | Infoseek Corporation | Performing automated document collection and selection by providing a meta-index with meta-index values indentifying corresponding document collections |
US6182113B1 (en) | 1997-09-16 | 2001-01-30 | International Business Machines Corporation | Dynamic multiplexing of hyperlinks and bookmarks |
US5956722A (en) | 1997-09-23 | 1999-09-21 | At&T Corp. | Method for effective indexing of partially dynamic documents |
US6999959B1 (en) | 1997-10-10 | 2006-02-14 | Nec Laboratories America, Inc. | Meta search engine |
US6026398A (en) | 1997-10-16 | 2000-02-15 | Imarket, Incorporated | System and methods for searching and matching databases |
US6070191A (en) | 1997-10-17 | 2000-05-30 | Lucent Technologies Inc. | Data distribution techniques for load-balanced fault-tolerant web access |
US6351467B1 (en) | 1997-10-27 | 2002-02-26 | Hughes Electronics Corporation | System and method for multicasting multimedia content |
US6594682B2 (en) | 1997-10-28 | 2003-07-15 | Microsoft Corporation | Client-side system for scheduling delivery of web content and locally managing the web content |
US6128701A (en) | 1997-10-28 | 2000-10-03 | Cache Flow, Inc. | Adaptive and predictive cache refresh policy |
US5991756A (en) | 1997-11-03 | 1999-11-23 | Yahoo, Inc. | Information retrieval from hierarchical compound documents |
US5943670A (en) | 1997-11-21 | 1999-08-24 | International Business Machines Corporation | System and method for categorizing objects in combined categories |
US5987457A (en) | 1997-11-25 | 1999-11-16 | Acceleration Software International Corporation | Query refinement method for searching documents |
US6473752B1 (en) | 1997-12-04 | 2002-10-29 | Micron Technology, Inc. | Method and system for locating documents based on previously accessed documents |
US6389436B1 (en) | 1997-12-15 | 2002-05-14 | International Business Machines Corporation | Enhanced hypertext categorization using hyperlinks |
US6145003A (en) | 1997-12-17 | 2000-11-07 | Microsoft Corporation | Method of web crawling utilizing address mapping |
US7010532B1 (en) | 1997-12-31 | 2006-03-07 | International Business Machines Corporation | Low overhead methods and apparatus for shared access storage devices |
US6151624A (en) | 1998-02-03 | 2000-11-21 | Realnames Corporation | Navigating network resources based on metadata |
JP3998794B2 (ja) | 1998-02-18 | 2007-10-31 | 株式会社野村総合研究所 | ブラウジングクライアントサーバーシステム |
KR100285265B1 (ko) | 1998-02-25 | 2001-04-02 | 윤덕용 | 데이터 베이스 관리 시스템과 정보 검색의 밀결합을 위하여 서브 인덱스와 대용량 객체를 이용한 역 인덱스 저장 구조 |
US6185558B1 (en) | 1998-03-03 | 2001-02-06 | Amazon.Com, Inc. | Identifying the items most relevant to a current query based on items selected in connection with similar queries |
US5913210A (en) | 1998-03-27 | 1999-06-15 | Call; Charles G. | Methods and apparatus for disseminating product information via the internet |
US6125361A (en) | 1998-04-10 | 2000-09-26 | International Business Machines Corporation | Feature diffusion across hyperlinks |
US6151595A (en) | 1998-04-17 | 2000-11-21 | Xerox Corporation | Methods for interactive visualization of spreading activation using time tubes and disk trees |
US6167402A (en) | 1998-04-27 | 2000-12-26 | Sun Microsystems, Inc. | High performance message store |
US6240407B1 (en) | 1998-04-29 | 2001-05-29 | International Business Machines Corp. | Method and apparatus for creating an index in a database system |
US6314421B1 (en) | 1998-05-12 | 2001-11-06 | David M. Sharnoff | Method and apparatus for indexing documents for message filtering |
US6098064A (en) | 1998-05-22 | 2000-08-01 | Xerox Corporation | Prefetching and caching documents according to probability ranked need S list |
US6285367B1 (en) | 1998-05-26 | 2001-09-04 | International Business Machines Corporation | Method and apparatus for displaying and navigating a graph |
US6182085B1 (en) | 1998-05-28 | 2001-01-30 | International Business Machines Corporation | Collaborative team crawling:Large scale information gathering over the internet |
US6208988B1 (en) | 1998-06-01 | 2001-03-27 | Bigchalk.Com, Inc. | Method for identifying themes associated with a search query using metadata and for organizing documents responsive to the search query in accordance with the themes |
DE69916272D1 (de) | 1998-06-08 | 2004-05-13 | Kcsl Inc | Methode und verfahren um relevante dokumente in einer datenbank zu finden |
US6006225A (en) | 1998-06-15 | 1999-12-21 | Amazon.Com | Refining search queries by the suggestion of correlated terms from prior searches |
US6216123B1 (en) | 1998-06-24 | 2001-04-10 | Novell, Inc. | Method and system for rapid retrieval in a full text indexing system |
JP3665480B2 (ja) | 1998-06-24 | 2005-06-29 | 富士通株式会社 | 文書整理装置および方法 |
US6638314B1 (en) | 1998-06-26 | 2003-10-28 | Microsoft Corporation | Method of web crawling utilizing crawl numbers |
US6424966B1 (en) | 1998-06-30 | 2002-07-23 | Microsoft Corporation | Synchronizing crawler with notification source |
US6199081B1 (en) | 1998-06-30 | 2001-03-06 | Microsoft Corporation | Automatic tagging of documents and exclusion by content |
CN1324464A (zh) | 1998-08-26 | 2001-11-28 | 西姆泰克有限公司 | 映射数据文件的方法和设备 |
US6324551B1 (en) | 1998-08-31 | 2001-11-27 | Xerox Corporation | Self-contained document management based on document properties |
RU2138076C1 (ru) | 1998-09-14 | 1999-09-20 | Закрытое акционерное общество "МедиаЛингва" | Система поиска информации в компьютерной сети |
US6115709A (en) | 1998-09-18 | 2000-09-05 | Tacit Knowledge Systems, Inc. | Method and system for constructing a knowledge profile of a user having unrestricted and restricted access portions according to respective levels of confidence of content of the portions |
US6549897B1 (en) | 1998-10-09 | 2003-04-15 | Microsoft Corporation | Method and system for calculating phrase-document importance |
US6385602B1 (en) | 1998-11-03 | 2002-05-07 | E-Centives, Inc. | Presentation of search results using dynamic categorization |
US6360215B1 (en) | 1998-11-03 | 2002-03-19 | Inktomi Corporation | Method and apparatus for retrieving documents based on information other than document content |
US6574632B2 (en) | 1998-11-18 | 2003-06-03 | Harris Corporation | Multiple engine information retrieval and visualization system |
US6628304B2 (en) | 1998-12-09 | 2003-09-30 | Cisco Technology, Inc. | Method and apparatus providing a graphical user interface for representing and navigating hierarchical networks |
US6167369A (en) | 1998-12-23 | 2000-12-26 | Xerox Company | Automatic language identification using both N-gram and word information |
JP2000194713A (ja) | 1998-12-25 | 2000-07-14 | Nippon Telegr & Teleph Corp <Ntt> | 文字列検索方法及び装置及び文字列検索プログラムを格納した記憶媒体 |
US6922699B2 (en) | 1999-01-26 | 2005-07-26 | Xerox Corporation | System and method for quantitatively representing data objects in vector space |
US6418433B1 (en) | 1999-01-28 | 2002-07-09 | International Business Machines Corporation | System and method for focussed web crawling |
JP3347088B2 (ja) | 1999-02-12 | 2002-11-20 | インターナショナル・ビジネス・マシーンズ・コーポレーション | 関連情報検索方法およびシステム |
US6862710B1 (en) | 1999-03-23 | 2005-03-01 | Insightful Corporation | Internet navigation using soft hyperlinks |
US6510406B1 (en) | 1999-03-23 | 2003-01-21 | Mathsoft, Inc. | Inverse inference engine for high performance web search |
US6763496B1 (en) | 1999-03-31 | 2004-07-13 | Microsoft Corporation | Method for promoting contextual information to display pages containing hyperlinks |
US6304864B1 (en) | 1999-04-20 | 2001-10-16 | Textwise Llc | System for retrieving multimedia information from the internet using multiple evolving intelligent agents |
US6336117B1 (en) | 1999-04-30 | 2002-01-01 | International Business Machines Corporation | Content-indexing search system and method providing search results consistent with content filtering and blocking policies implemented in a blocking engine |
US6327590B1 (en) | 1999-05-05 | 2001-12-04 | Xerox Corporation | System and method for collaborative ranking of search results employing user and group profiles derived from document collection content analysis |
US7835943B2 (en) | 1999-05-28 | 2010-11-16 | Yahoo! Inc. | System and method for providing place and price protection in a search result list generated by a computer network search engine |
US6990628B1 (en) | 1999-06-14 | 2006-01-24 | Yahoo! Inc. | Method and apparatus for measuring similarity among electronic documents |
US7072888B1 (en) | 1999-06-16 | 2006-07-04 | Triogo, Inc. | Process for improving search engine efficiency using feedback |
US6973490B1 (en) | 1999-06-23 | 2005-12-06 | Savvis Communications Corp. | Method and system for object-level web performance and analysis |
US6631369B1 (en) | 1999-06-30 | 2003-10-07 | Microsoft Corporation | Method and system for incremental web crawling |
US6547829B1 (en) | 1999-06-30 | 2003-04-15 | Microsoft Corporation | Method and system for detecting duplicate documents in web crawls |
US6873982B1 (en) | 1999-07-16 | 2005-03-29 | International Business Machines Corporation | Ordering of database search results based on user feedback |
US6557036B1 (en) | 1999-07-20 | 2003-04-29 | Sun Microsystems, Inc. | Methods and apparatus for site wide monitoring of electronic mail systems |
US7181438B1 (en) | 1999-07-21 | 2007-02-20 | Alberti Anemometer, Llc | Database access system |
US6598047B1 (en) | 1999-07-26 | 2003-07-22 | David W. Russell | Method and system for searching text |
CA2279119C (en) | 1999-07-29 | 2004-10-19 | Ibm Canada Limited-Ibm Canada Limitee | Heuristic-based conditional data indexing |
JP3931496B2 (ja) | 1999-08-11 | 2007-06-13 | 富士ゼロックス株式会社 | ハイパーテキスト解析装置 |
US6442606B1 (en) | 1999-08-12 | 2002-08-27 | Inktomi Corporation | Method and apparatus for identifying spoof documents |
US6636853B1 (en) | 1999-08-30 | 2003-10-21 | Morphism, Llc | Method and apparatus for representing and navigating search results |
US6381597B1 (en) | 1999-10-07 | 2002-04-30 | U-Know Software Corporation | Electronic shopping agent which is capable of operating with vendor sites which have disparate formats |
US7346604B1 (en) | 1999-10-15 | 2008-03-18 | Hewlett-Packard Development Company, L.P. | Method for ranking hypertext search results by analysis of hyperlinks from expert documents and keyword scope |
US6687698B1 (en) | 1999-10-18 | 2004-02-03 | Fisher Rosemount Systems, Inc. | Accessing and updating a configuration database from distributed physical locations within a process control system |
JP3772606B2 (ja) | 1999-10-19 | 2006-05-10 | 株式会社日立製作所 | 電子文書管理方法及びシステム並びに記録媒体 |
AU1039301A (en) | 1999-10-29 | 2001-05-08 | British Telecommunications Public Limited Company | Method and apparatus for processing queries |
US6263364B1 (en) | 1999-11-02 | 2001-07-17 | Alta Vista Company | Web crawler system using plurality of parallel priority level queues having distinct associated download priority levels for prioritizing document downloading and maintaining document freshness |
US6351755B1 (en) | 1999-11-02 | 2002-02-26 | Alta Vista Company | System and method for associating an extensible set of data with documents downloaded by a web crawler |
US6418453B1 (en) | 1999-11-03 | 2002-07-09 | International Business Machines Corporation | Network repository service for efficient web crawling |
US6418452B1 (en) | 1999-11-03 | 2002-07-09 | International Business Machines Corporation | Network repository service directory for efficient web crawling |
US6539376B1 (en) | 1999-11-15 | 2003-03-25 | International Business Machines Corporation | System and method for the automatic mining of new relationships |
US6886129B1 (en) | 1999-11-24 | 2005-04-26 | International Business Machines Corporation | Method and system for trawling the World-wide Web to identify implicitly-defined communities of web pages |
US7016540B1 (en) | 1999-11-24 | 2006-03-21 | Nec Corporation | Method and system for segmentation, classification, and summarization of video images |
US6772141B1 (en) | 1999-12-14 | 2004-08-03 | Novell, Inc. | Method and apparatus for organizing and using indexes utilizing a search decision table |
US6366907B1 (en) * | 1999-12-15 | 2002-04-02 | Napster, Inc. | Real-time search engine |
US6546388B1 (en) | 2000-01-14 | 2003-04-08 | International Business Machines Corporation | Metadata search results ranking system |
US6883135B1 (en) | 2000-01-28 | 2005-04-19 | Microsoft Corporation | Proxy server using a statistical model |
US7240067B2 (en) | 2000-02-08 | 2007-07-03 | Sybase, Inc. | System and methodology for extraction and aggregation of data from dynamic content |
US6931397B1 (en) | 2000-02-11 | 2005-08-16 | International Business Machines Corporation | System and method for automatic generation of dynamic search abstracts contain metadata by crawler |
US6910029B1 (en) | 2000-02-22 | 2005-06-21 | International Business Machines Corporation | System for weighted indexing of hierarchical documents |
JP2001265774A (ja) | 2000-03-16 | 2001-09-28 | Nippon Telegr & Teleph Corp <Ntt> | 情報検索方法、装置、および情報検索プログラムを記録した記録媒体、ハイパーテキスト情報検索システム |
US6516312B1 (en) | 2000-04-04 | 2003-02-04 | International Business Machine Corporation | System and method for dynamically associating keywords with domain-specific search engine queries |
US6633867B1 (en) | 2000-04-05 | 2003-10-14 | International Business Machines Corporation | System and method for providing a session query within the context of a dynamic search result set |
US6549896B1 (en) | 2000-04-07 | 2003-04-15 | Nec Usa, Inc. | System and method employing random walks for mining web page associations and usage to optimize user-oriented web page refresh and pre-fetch scheduling |
US6718365B1 (en) | 2000-04-13 | 2004-04-06 | International Business Machines Corporation | Method, system, and program for ordering search results using an importance weighting |
US6859800B1 (en) | 2000-04-26 | 2005-02-22 | Global Information Research And Technologies Llc | System for fulfilling an information need |
US6772160B2 (en) | 2000-06-08 | 2004-08-03 | Ingenuity Systems, Inc. | Techniques for facilitating information acquisition and storage |
US6741986B2 (en) | 2000-12-08 | 2004-05-25 | Ingenuity Systems, Inc. | Method and system for performing information extraction and quality control for a knowledgebase |
DE10029644B4 (de) | 2000-06-16 | 2008-02-07 | Deutsche Telekom Ag | Verfahren zur Relevanzbewertung bei der Indexierung von Hypertext-Dokumenten mittels Suchmaschine |
JP3573688B2 (ja) | 2000-06-28 | 2004-10-06 | 松下電器産業株式会社 | 類似文書検索装置及び関連キーワード抽出装置 |
US6678692B1 (en) | 2000-07-10 | 2004-01-13 | Northrop Grumman Corporation | Hierarchy statistical analysis system and method |
US6601075B1 (en) | 2000-07-27 | 2003-07-29 | International Business Machines Corporation | System and method of ranking and retrieving documents based on authority scores of schemas and documents |
US6633868B1 (en) | 2000-07-28 | 2003-10-14 | Shermann Loyall Min | System and method for context-based document retrieval |
US6598040B1 (en) | 2000-08-14 | 2003-07-22 | International Business Machines Corporation | Method and system for processing electronic search expressions |
US7080073B1 (en) | 2000-08-18 | 2006-07-18 | Firstrain, Inc. | Method and apparatus for focused crawling |
KR100378240B1 (ko) | 2000-08-23 | 2003-03-29 | 학교법인 통진학원 | 엔트로피와 사용자 프로파일을 적용한 문서순위 조정방법 |
US20030217052A1 (en) | 2000-08-24 | 2003-11-20 | Celebros Ltd. | Search engine method and apparatus |
US6959326B1 (en) | 2000-08-24 | 2005-10-25 | International Business Machines Corporation | Method, system, and program for gathering indexable metadata on content at a data repository |
WO2002017212A1 (en) | 2000-08-25 | 2002-02-28 | Jonas Ulenas | Method and apparatus for obtaining consumer product preferences through product selection and evaluation |
JP3472540B2 (ja) | 2000-09-11 | 2003-12-02 | 日本電信電話株式会社 | サーバ選択装置、サーバ選択方法、及びサーバ選択プログラムを記録した記録媒体 |
NO313399B1 (no) | 2000-09-14 | 2002-09-23 | Fast Search & Transfer Asa | Fremgangsmate til soking og analyse av informasjon i datanettverk |
US6598051B1 (en) | 2000-09-19 | 2003-07-22 | Altavista Company | Web page connectivity server |
US6560600B1 (en) | 2000-10-25 | 2003-05-06 | Alta Vista Company | Method and apparatus for ranking Web page search results |
JP3525885B2 (ja) | 2000-10-25 | 2004-05-10 | 日本電信電話株式会社 | 多角的検索サービス方法およびそのプログラムを記録した記録媒体 |
JP2002140365A (ja) | 2000-11-01 | 2002-05-17 | Mitsubishi Electric Corp | データ検索方法 |
US7200606B2 (en) | 2000-11-07 | 2007-04-03 | The Regents Of The University Of California | Method and system for selecting documents by measuring document quality |
US6622140B1 (en) | 2000-11-15 | 2003-09-16 | Justsystem Corporation | Method and apparatus for analyzing affect and emotion in text |
JP2002157271A (ja) | 2000-11-20 | 2002-05-31 | Yozan Inc | ブラウザ装置、サーバ装置、記録媒体、検索システムおよび検索方法 |
US7925967B2 (en) | 2000-11-21 | 2011-04-12 | Aol Inc. | Metadata quality improvement |
US8402068B2 (en) | 2000-12-07 | 2013-03-19 | Half.Com, Inc. | System and method for collecting, associating, normalizing and presenting product and vendor information on a distributed network |
US20020078045A1 (en) | 2000-12-14 | 2002-06-20 | Rabindranath Dutta | System, method, and program for ranking search results using user category weighting |
US6898592B2 (en) | 2000-12-27 | 2005-05-24 | Microsoft Corporation | Scoping queries in a search engine |
JP2002202992A (ja) | 2000-12-28 | 2002-07-19 | Speed System:Kk | ホームページ検索システム |
US6778997B2 (en) | 2001-01-05 | 2004-08-17 | International Business Machines Corporation | XML: finding authoritative pages for mining communities based on page structure criteria |
US7356530B2 (en) | 2001-01-10 | 2008-04-08 | Looksmart, Ltd. | Systems and methods of retrieving relevant information |
US6766316B2 (en) | 2001-01-18 | 2004-07-20 | Science Applications International Corporation | Method and system of ranking and clustering for document indexing and retrieval |
US6526440B1 (en) | 2001-01-30 | 2003-02-25 | Google, Inc. | Ranking search results by reranking the results based on local inter-connectivity |
US20020103798A1 (en) | 2001-02-01 | 2002-08-01 | Abrol Mani S. | Adaptive document ranking method based on user behavior |
US20020107886A1 (en) | 2001-02-07 | 2002-08-08 | Gentner Donald R. | Method and apparatus for automatic document electronic versioning system |
WO2002063493A1 (en) | 2001-02-08 | 2002-08-15 | 2028, Inc. | Methods and systems for automated semantic knowledge leveraging graph theoretic analysis and the inherent structure of communication |
US20040003028A1 (en) | 2002-05-08 | 2004-01-01 | David Emmett | Automatic display of web content to smaller display devices: improved summarization and navigation |
JP2002245089A (ja) | 2001-02-19 | 2002-08-30 | Hitachi Eng Co Ltd | ウェブページ検索システム、二次情報収集装置、インターフェース装置 |
US7627596B2 (en) | 2001-02-22 | 2009-12-01 | International Business Machines Corporation | Retrieving handwritten documents using multiple document recognizers and techniques allowing both typed and handwritten queries |
US8001118B2 (en) | 2001-03-02 | 2011-08-16 | Google Inc. | Methods and apparatus for employing usage statistics in document retrieval |
US7269545B2 (en) | 2001-03-30 | 2007-09-11 | Nec Laboratories America, Inc. | Method for retrieving answers from an information retrieval system |
US20020169770A1 (en) | 2001-04-27 | 2002-11-14 | Kim Brian Seong-Gon | Apparatus and method that categorize a collection of documents into a hierarchy of categories that are defined by the collection of documents |
US7188106B2 (en) | 2001-05-01 | 2007-03-06 | International Business Machines Corporation | System and method for aggregating ranking results from various sources to improve the results of web searching |
US20020165860A1 (en) | 2001-05-07 | 2002-11-07 | Nec Research Insititute, Inc. | Selective retrieval metasearch engine |
US6738764B2 (en) | 2001-05-08 | 2004-05-18 | Verity, Inc. | Apparatus and method for adaptively ranking search results |
ATE505760T1 (de) | 2001-05-10 | 2011-04-15 | Amdocs Software Systems Ltd | Intelligente internet-website mit hierarchischem menü |
US6865295B2 (en) | 2001-05-11 | 2005-03-08 | Koninklijke Philips Electronics N.V. | Palette-based histogram matching with recursive histogram vector generation |
US6782383B2 (en) | 2001-06-18 | 2004-08-24 | Siebel Systems, Inc. | System and method to implement a persistent and dismissible search center frame |
US6947920B2 (en) | 2001-06-20 | 2005-09-20 | Oracle International Corporation | Method and system for response time optimization of data query rankings and retrieval |
US7519529B1 (en) | 2001-06-29 | 2009-04-14 | Microsoft Corporation | System and methods for inferring informational goals and preferred level of detail of results in response to questions posed to an automated information-retrieval or question-answering service |
US7039234B2 (en) | 2001-07-19 | 2006-05-02 | Microsoft Corporation | Electronic ink as a software object |
US6868411B2 (en) | 2001-08-13 | 2005-03-15 | Xerox Corporation | Fuzzy text categorizer |
US6928425B2 (en) | 2001-08-13 | 2005-08-09 | Xerox Corporation | System for propagating enrichment between documents |
KR100509276B1 (ko) | 2001-08-20 | 2005-08-22 | 엔에이치엔(주) | 웹페이지별 방문인기도에 기반한 웹페이지 검색방법 및 그장치 |
US7076483B2 (en) | 2001-08-27 | 2006-07-11 | Xyleme Sa | Ranking nodes in a graph |
US20030046389A1 (en) | 2001-09-04 | 2003-03-06 | Thieme Laura M. | Method for monitoring a web site's keyword visibility in search engines and directories and resulting traffic from such keyword visibility |
US6970863B2 (en) | 2001-09-18 | 2005-11-29 | International Business Machines Corporation | Front-end weight factor search criteria |
US6766422B2 (en) | 2001-09-27 | 2004-07-20 | Siemens Information And Communication Networks, Inc. | Method and system for web caching based on predictive usage |
US6944609B2 (en) | 2001-10-18 | 2005-09-13 | Lycos, Inc. | Search results using editor feedback |
US7428695B2 (en) | 2001-10-22 | 2008-09-23 | Hewlett-Packard Development Company, L.P. | System for automatic generation of arbitrarily indexed hyperlinked text |
JP2003208434A (ja) | 2001-11-07 | 2003-07-25 | Nec Corp | 情報検索システム及びそれに用いる情報検索方法 |
US20030101183A1 (en) | 2001-11-26 | 2003-05-29 | Navin Kabra | Information retrieval index allowing updating while in use |
US6763362B2 (en) | 2001-11-30 | 2004-07-13 | Micron Technology, Inc. | Method and system for updating a search engine |
TW530224B (en) * | 2001-12-07 | 2003-05-01 | Inst Information Industry | Relation establishment system and method for key words in search engine |
US7565367B2 (en) | 2002-01-15 | 2009-07-21 | Iac Search & Media, Inc. | Enhanced popularity ranking |
JP3871201B2 (ja) | 2002-01-29 | 2007-01-24 | ソニー株式会社 | コンテンツ提供取得システム |
US6829606B2 (en) | 2002-02-14 | 2004-12-07 | Infoglide Software Corporation | Similarity search engine for use with relational databases |
JP4021681B2 (ja) | 2002-02-22 | 2007-12-12 | 日本電信電話株式会社 | ページレイティング/フィルタリング方法および装置とページレイティング/フィルタリングプログラムおよび該プログラムを記録したコンピュータ読取り可能な記録媒体 |
US20060004732A1 (en) | 2002-02-26 | 2006-01-05 | Odom Paul S | Search engine methods and systems for generating relevant search results and advertisements |
US6934714B2 (en) | 2002-03-04 | 2005-08-23 | Intelesis Engineering, Inc. | Method and system for identification and maintenance of families of data records |
US7693830B2 (en) | 2005-08-10 | 2010-04-06 | Google Inc. | Programmable search engine |
KR100490748B1 (ko) | 2002-04-11 | 2005-05-24 | 한국전자통신연구원 | 유,알,엘 포함관계에 기반한 유사도 재계산을 통한효과적인 홈페이지 검색 방법 |
US7039631B1 (en) | 2002-05-24 | 2006-05-02 | Microsoft Corporation | System and method for providing search results with configurable scoring formula |
RU2273879C2 (ru) | 2002-05-28 | 2006-04-10 | Владимир Владимирович Насыпный | Способ синтеза самообучающейся системы извлечения знаний из текстовых документов для поисковых систем |
US20040006559A1 (en) | 2002-05-29 | 2004-01-08 | Gange David M. | System, apparatus, and method for user tunable and selectable searching of a database using a weigthted quantized feature vector |
US7246128B2 (en) | 2002-06-12 | 2007-07-17 | Jordahl Jena J | Data storage, retrieval, manipulation and display tools enabling multiple hierarchical points of view |
JP2004054588A (ja) * | 2002-07-19 | 2004-02-19 | Just Syst Corp | 文書検索装置、文書検索方法およびその方法をコンピュータに実行させるプログラム |
CA2395905A1 (en) | 2002-07-26 | 2004-01-26 | Teraxion Inc. | Multi-grating tunable chromatic dispersion compensator |
US7599911B2 (en) | 2002-08-05 | 2009-10-06 | Yahoo! Inc. | Method and apparatus for search ranking using human input and automated ranking |
US7152059B2 (en) | 2002-08-30 | 2006-12-19 | Emergency24, Inc. | System and method for predicting additional search results of a computerized database search user based on an initial search query |
US7013458B2 (en) | 2002-09-09 | 2006-03-14 | Sun Microsystems, Inc. | Method and apparatus for associating metadata attributes with program elements |
JP2004164555A (ja) | 2002-09-17 | 2004-06-10 | Fuji Xerox Co Ltd | 検索装置および方法ならびにそのインデクス構築装置および方法 |
US20040064442A1 (en) | 2002-09-27 | 2004-04-01 | Popovitch Steven Gregory | Incremental search engine |
US6886010B2 (en) | 2002-09-30 | 2005-04-26 | The United States Of America As Represented By The Secretary Of The Navy | Method for data and text mining and literature-based discovery |
TW575813B (en) * | 2002-10-11 | 2004-02-11 | Intumit Inc | System and method using external search engine as foundation for segmentation of word |
US7085755B2 (en) | 2002-11-07 | 2006-08-01 | Thomson Global Resources Ag | Electronic document repository management and access system |
US7231379B2 (en) | 2002-11-19 | 2007-06-12 | Noema, Inc. | Navigation in a hierarchical structured transaction processing system |
US7386527B2 (en) | 2002-12-06 | 2008-06-10 | Kofax, Inc. | Effective multi-class support vector machine classification |
US7020648B2 (en) | 2002-12-14 | 2006-03-28 | International Business Machines Corporation | System and method for identifying and utilizing a secondary index to access a database using a management system without an internal catalogue of online metadata |
US7734565B2 (en) * | 2003-01-18 | 2010-06-08 | Yahoo! Inc. | Query string matching method and apparatus |
US20040148278A1 (en) | 2003-01-22 | 2004-07-29 | Amir Milo | System and method for providing content warehouse |
RU2236699C1 (ru) | 2003-02-25 | 2004-09-20 | Открытое акционерное общество "Телепортал. Ру" | Способ поиска и выборки информации с повышенной релевантностью |
JP4299022B2 (ja) | 2003-02-28 | 2009-07-22 | トヨタ自動車株式会社 | コンテンツ検索用インデックス生成装置 |
US20040181515A1 (en) | 2003-03-13 | 2004-09-16 | International Business Machines Corporation | Group administration of universal resource identifiers with members identified in search result |
US6947930B2 (en) | 2003-03-21 | 2005-09-20 | Overture Services, Inc. | Systems and methods for interactive search query refinement |
EP1462950B1 (en) | 2003-03-27 | 2007-08-29 | Sony Deutschland GmbH | Method for language modelling |
US7216123B2 (en) | 2003-03-28 | 2007-05-08 | Board Of Trustees Of The Leland Stanford Junior University | Methods for ranking nodes in large directed graphs |
US7028029B2 (en) | 2003-03-28 | 2006-04-11 | Google Inc. | Adaptive computation of ranking |
US7451130B2 (en) | 2003-06-16 | 2008-11-11 | Google Inc. | System and method for providing preferred country biasing of search results |
US7451129B2 (en) | 2003-03-31 | 2008-11-11 | Google Inc. | System and method for providing preferred language ordering of search results |
US7051023B2 (en) | 2003-04-04 | 2006-05-23 | Yahoo! Inc. | Systems and methods for generating concept units from search queries |
US7197497B2 (en) | 2003-04-25 | 2007-03-27 | Overture Services, Inc. | Method and apparatus for machine learning a document relevance function |
US7283997B1 (en) | 2003-05-14 | 2007-10-16 | Apple Inc. | System and method for ranking the relevance of documents retrieved by a query |
US7502779B2 (en) | 2003-06-05 | 2009-03-10 | International Business Machines Corporation | Semantics-based searching for information in a distributed data processing system |
US8239380B2 (en) | 2003-06-20 | 2012-08-07 | Microsoft Corporation | Systems and methods to tune a general-purpose search engine for a search entry point |
US7228301B2 (en) | 2003-06-27 | 2007-06-05 | Microsoft Corporation | Method for normalizing document metadata to improve search results using an alias relationship directory service |
US7630963B2 (en) | 2003-06-30 | 2009-12-08 | Microsoft Corporation | Fast ranked full-text searching |
US7308643B1 (en) | 2003-07-03 | 2007-12-11 | Google Inc. | Anchor tag indexing in a web crawler system |
JP4274533B2 (ja) | 2003-07-16 | 2009-06-10 | キヤノン株式会社 | 固体撮像装置及びその駆動方法 |
KR100543255B1 (ko) | 2003-08-19 | 2006-01-20 | 문영섭 | 용접부 절삭가공장치 |
US20050060186A1 (en) | 2003-08-28 | 2005-03-17 | Blowers Paul A. | Prioritized presentation of medical device events |
US7454417B2 (en) | 2003-09-12 | 2008-11-18 | Google Inc. | Methods and systems for improving a search ranking using population information |
US7505964B2 (en) | 2003-09-12 | 2009-03-17 | Google Inc. | Methods and systems for improving a search ranking using related queries |
US8589373B2 (en) | 2003-09-14 | 2013-11-19 | Yaron Mayer | System and method for improved searching on the internet or similar networks and especially improved MetaNews and/or improved automatically generated newspapers |
US20050071328A1 (en) | 2003-09-30 | 2005-03-31 | Lawrence Stephen R. | Personalization of web search |
US7346839B2 (en) | 2003-09-30 | 2008-03-18 | Google Inc. | Information retrieval based on historical data |
US7693827B2 (en) | 2003-09-30 | 2010-04-06 | Google Inc. | Personalization of placed content ordering in search results |
US7552109B2 (en) | 2003-10-15 | 2009-06-23 | International Business Machines Corporation | System, method, and service for collaborative focused crawling of documents on a network |
US20050086192A1 (en) | 2003-10-16 | 2005-04-21 | Hitach, Ltd. | Method and apparatus for improving the integration between a search engine and one or more file servers |
US7346208B2 (en) | 2003-10-25 | 2008-03-18 | Hewlett-Packard Development Company, L.P. | Image artifact reduction using a neural network |
US7231399B1 (en) | 2003-11-14 | 2007-06-12 | Google Inc. | Ranking documents based on large data sets |
US7181447B2 (en) | 2003-12-08 | 2007-02-20 | Iac Search And Media, Inc. | Methods and systems for conceptually organizing and presenting information |
US20060047649A1 (en) | 2003-12-29 | 2006-03-02 | Ping Liang | Internet and computer information retrieval and mining with intelligent conceptual filtering, visualization and automation |
CN100495392C (zh) | 2003-12-29 | 2009-06-03 | 西安迪戈科技有限责任公司 | 一种智能搜索方法 |
US7685104B2 (en) | 2004-01-08 | 2010-03-23 | International Business Machines Corporation | Dynamic bitmap processing, identification and reusability |
US7483891B2 (en) | 2004-01-09 | 2009-01-27 | Yahoo, Inc. | Content presentation and management system associating base content and relevant additional content |
US7392278B2 (en) | 2004-01-23 | 2008-06-24 | Microsoft Corporation | Building and using subwebs for focused search |
US7499913B2 (en) | 2004-01-26 | 2009-03-03 | International Business Machines Corporation | Method for handling anchor text |
JP2004192657A (ja) | 2004-02-09 | 2004-07-08 | Nec Corp | 情報検索システム、情報検索方法および情報検索用プログラムを記録した記録媒体 |
US7310632B2 (en) | 2004-02-12 | 2007-12-18 | Microsoft Corporation | Decision-theoretic web-crawling and predicting web-page change |
US7281002B2 (en) | 2004-03-01 | 2007-10-09 | International Business Machine Corporation | Organizing related search results |
US9104689B2 (en) | 2004-03-17 | 2015-08-11 | International Business Machines Corporation | Method for synchronizing documents for disconnected operation |
US7584221B2 (en) | 2004-03-18 | 2009-09-01 | Microsoft Corporation | Field weighting in text searching |
JP2005277445A (ja) | 2004-03-22 | 2005-10-06 | Fuji Xerox Co Ltd | 会議映像処理装置、会議映像処理方法およびプログラム |
US7343374B2 (en) | 2004-03-29 | 2008-03-11 | Yahoo! Inc. | Computation of page authority weights using personalized bookmarks |
US7580568B1 (en) | 2004-03-31 | 2009-08-25 | Google Inc. | Methods and systems for identifying an image as a representative image for an article |
US7693825B2 (en) | 2004-03-31 | 2010-04-06 | Google Inc. | Systems and methods for ranking implicit search results |
US20050251499A1 (en) | 2004-05-04 | 2005-11-10 | Zezhen Huang | Method and system for searching documents using readers valuation |
US7257577B2 (en) | 2004-05-07 | 2007-08-14 | International Business Machines Corporation | System, method and service for ranking search results using a modular scoring system |
US7136851B2 (en) | 2004-05-14 | 2006-11-14 | Microsoft Corporation | Method and system for indexing and searching databases |
US7260573B1 (en) | 2004-05-17 | 2007-08-21 | Google Inc. | Personalizing anchor text scores in a search engine |
US7716225B1 (en) | 2004-06-17 | 2010-05-11 | Google Inc. | Ranking documents based on user behavior and/or feature data |
US20050283473A1 (en) | 2004-06-17 | 2005-12-22 | Armand Rousso | Apparatus, method and system of artificial intelligence for data searching applications |
US7730012B2 (en) | 2004-06-25 | 2010-06-01 | Apple Inc. | Methods and systems for managing data |
US8131674B2 (en) | 2004-06-25 | 2012-03-06 | Apple Inc. | Methods and systems for managing data |
US7428530B2 (en) | 2004-07-01 | 2008-09-23 | Microsoft Corporation | Dispersing search engine results by using page category information |
US7363296B1 (en) | 2004-07-01 | 2008-04-22 | Microsoft Corporation | Generating a subindex with relevant attributes to improve querying |
US7634461B2 (en) | 2004-08-04 | 2009-12-15 | International Business Machines Corporation | System and method for enhancing keyword relevance by user's interest on the search result documents |
US7395260B2 (en) | 2004-08-04 | 2008-07-01 | International Business Machines Corporation | Method for providing graphical representations of search results in multiple related histograms |
US20060036598A1 (en) | 2004-08-09 | 2006-02-16 | Jie Wu | Computerized method for ranking linked information items in distributed sources |
US20060047643A1 (en) | 2004-08-31 | 2006-03-02 | Chirag Chaman | Method and system for a personalized search engine |
JP2008513881A (ja) | 2004-09-16 | 2008-05-01 | テレノール アーアスアー | パーソナルウェブのドキュメントを検索し、ドキュメント間でナビゲートし、ドキュメントをランク付けするための方法、システムおよびコンピュータプログラムプロダクト |
US20060064411A1 (en) | 2004-09-22 | 2006-03-23 | William Gross | Search engine using user intent |
US7606793B2 (en) | 2004-09-27 | 2009-10-20 | Microsoft Corporation | System and method for scoping searches using index keys |
US7644107B2 (en) | 2004-09-30 | 2010-01-05 | Microsoft Corporation | System and method for batched indexing of network documents |
US7739277B2 (en) | 2004-09-30 | 2010-06-15 | Microsoft Corporation | System and method for incorporating anchor text into ranking search results |
US7761448B2 (en) | 2004-09-30 | 2010-07-20 | Microsoft Corporation | System and method for ranking search results using click distance |
US7827181B2 (en) | 2004-09-30 | 2010-11-02 | Microsoft Corporation | Click distance determination |
US20060074883A1 (en) | 2004-10-05 | 2006-04-06 | Microsoft Corporation | Systems, methods, and interfaces for providing personalized search and information access |
US20060074781A1 (en) | 2004-10-06 | 2006-04-06 | Leano Hector V | System for facilitating turnkey real estate investment in Mexico |
WO2006042142A2 (en) | 2004-10-07 | 2006-04-20 | Bernard Widrow | Cognitive memory and auto-associative neural network based pattern recognition and searching |
US7533092B2 (en) | 2004-10-28 | 2009-05-12 | Yahoo! Inc. | Link-based spam detection |
US7716198B2 (en) | 2004-12-21 | 2010-05-11 | Microsoft Corporation | Ranking search results using feature extraction |
EP1839124A4 (en) | 2005-01-18 | 2009-12-30 | Yahoo Inc | COMPARISON AND CLASSIFICATION OF SPONSORED SEARCH LISTS WITH WEB SEARCH TECHNOLOGY AND WEB CONTENT |
US20060173828A1 (en) | 2005-02-01 | 2006-08-03 | Outland Research, Llc | Methods and apparatus for using personal background data to improve the organization of documents retrieved in response to a search query |
US7689615B2 (en) | 2005-02-25 | 2010-03-30 | Microsoft Corporation | Ranking results using multiple nested ranking |
US20060200460A1 (en) | 2005-03-03 | 2006-09-07 | Microsoft Corporation | System and method for ranking search results using file types |
US7792833B2 (en) | 2005-03-03 | 2010-09-07 | Microsoft Corporation | Ranking search results using language types |
US7574436B2 (en) | 2005-03-10 | 2009-08-11 | Yahoo! Inc. | Reranking and increasing the relevance of the results of Internet searches |
US20060206460A1 (en) | 2005-03-14 | 2006-09-14 | Sanjay Gadkari | Biasing search results |
US8095487B2 (en) | 2005-03-16 | 2012-01-10 | Yahoo! Inc. | System and method for biasing search results based on topic familiarity |
CN101523338B (zh) | 2005-03-18 | 2016-10-19 | 搜索引擎科技有限责任公司 | 应用来自用户的反馈来改进搜索结果的搜索引擎 |
US7870147B2 (en) | 2005-03-29 | 2011-01-11 | Google Inc. | Query revision using known highly-ranked queries |
US7693829B1 (en) | 2005-04-25 | 2010-04-06 | Google Inc. | Search engine with fill-the-blanks capability |
US7401073B2 (en) | 2005-04-28 | 2008-07-15 | International Business Machines Corporation | Term-statistics modification for category-based search |
US7451124B2 (en) | 2005-05-12 | 2008-11-11 | Xerox Corporation | Method of analyzing documents |
US7962462B1 (en) * | 2005-05-31 | 2011-06-14 | Google Inc. | Deriving and using document and site quality signals from search query streams |
CA2544324A1 (en) | 2005-06-10 | 2006-12-10 | Unicru, Inc. | Employee selection via adaptive assessment |
US20060282455A1 (en) | 2005-06-13 | 2006-12-14 | It Interactive Services Inc. | System and method for ranking web content |
US7627564B2 (en) | 2005-06-21 | 2009-12-01 | Microsoft Corporation | High scale adaptive search systems and methods |
TWI284818B (en) * | 2005-07-21 | 2007-08-01 | Bridgewell Inc | Database searching engine system |
US7599917B2 (en) | 2005-08-15 | 2009-10-06 | Microsoft Corporation | Ranking search results using biased click distance |
US7653617B2 (en) | 2005-08-29 | 2010-01-26 | Google Inc. | Mobile sitemaps |
US7499919B2 (en) | 2005-09-21 | 2009-03-03 | Microsoft Corporation | Ranking functions using document usage statistics |
US7716226B2 (en) | 2005-09-27 | 2010-05-11 | Patentratings, Llc | Method and system for probabilistically quantifying and visualizing relevance between two or more citationally or contextually related data objects |
US7689531B1 (en) | 2005-09-28 | 2010-03-30 | Trend Micro Incorporated | Automatic charset detection using support vector machines with charset grouping |
US20070085716A1 (en) | 2005-09-30 | 2007-04-19 | International Business Machines Corporation | System and method for detecting matches of small edit distance |
US7873624B2 (en) | 2005-10-21 | 2011-01-18 | Microsoft Corporation | Question answering over structured content on the web |
US20070150473A1 (en) | 2005-12-22 | 2007-06-28 | Microsoft Corporation | Search By Document Type And Relevance |
US7689559B2 (en) | 2006-02-08 | 2010-03-30 | Telenor Asa | Document similarity scoring and ranking method, device and computer program product |
US7685091B2 (en) | 2006-02-14 | 2010-03-23 | Accenture Global Services Gmbh | System and method for online information analysis |
US20070260597A1 (en) | 2006-05-02 | 2007-11-08 | Mark Cramer | Dynamic search engine results employing user behavior |
EP1862916A1 (en) | 2006-06-01 | 2007-12-05 | Microsoft Corporation | Indexing Documents for Information Retrieval based on additional feedback fields |
US20080005068A1 (en) | 2006-06-28 | 2008-01-03 | Microsoft Corporation | Context-based search, retrieval, and awareness |
US20080016053A1 (en) | 2006-07-14 | 2008-01-17 | Bea Systems, Inc. | Administration Console to Select Rank Factors |
US8595245B2 (en) | 2006-07-26 | 2013-11-26 | Xerox Corporation | Reference resolution for text enrichment and normalization in mining mixed data |
US7720830B2 (en) | 2006-07-31 | 2010-05-18 | Microsoft Corporation | Hierarchical conditional random fields for web extraction |
US20080140641A1 (en) | 2006-12-07 | 2008-06-12 | Yahoo! Inc. | Knowledge and interests based search term ranking for search results validation |
US7792883B2 (en) | 2006-12-11 | 2010-09-07 | Google Inc. | Viewport-relative scoring for location search queries |
JP4839195B2 (ja) | 2006-12-12 | 2011-12-21 | 日本電信電話株式会社 | Xml文書の適合度の算出方法およびそのプログラムと、情報処理装置 |
US7685084B2 (en) | 2007-02-09 | 2010-03-23 | Yahoo! Inc. | Term expansion using associative matching of labeled term pairs |
US20090006358A1 (en) | 2007-06-27 | 2009-01-01 | Microsoft Corporation | Search results |
US7996392B2 (en) | 2007-06-27 | 2011-08-09 | Oracle International Corporation | Changing ranking algorithms based on customer settings |
US8122032B2 (en) | 2007-07-20 | 2012-02-21 | Google Inc. | Identifying and linking similar passages in a digital text corpus |
US8201081B2 (en) * | 2007-09-07 | 2012-06-12 | Google Inc. | Systems and methods for processing inoperative document links |
US7840569B2 (en) | 2007-10-18 | 2010-11-23 | Microsoft Corporation | Enterprise relevancy ranking using a neural network |
US9348912B2 (en) | 2007-10-18 | 2016-05-24 | Microsoft Technology Licensing, Llc | Document length as a static relevance feature for ranking search results |
US20090106221A1 (en) | 2007-10-18 | 2009-04-23 | Microsoft Corporation | Ranking and Providing Search Results Based In Part On A Number Of Click-Through Features |
US7707229B2 (en) | 2007-12-12 | 2010-04-27 | Yahoo! Inc. | Unsupervised detection of web pages corresponding to a similarity class |
JP2009146248A (ja) | 2007-12-17 | 2009-07-02 | Fujifilm Corp | コンテンツ提示システム及びプログラム |
US20090164929A1 (en) | 2007-12-20 | 2009-06-25 | Microsoft Corporation | Customizing Search Results |
US8412702B2 (en) | 2008-03-12 | 2013-04-02 | Yahoo! Inc. | System, method, and/or apparatus for reordering search results |
US7974974B2 (en) | 2008-03-20 | 2011-07-05 | Microsoft Corporation | Techniques to perform relative ranking for search results |
JP5328212B2 (ja) | 2008-04-10 | 2013-10-30 | 株式会社エヌ・ティ・ティ・ドコモ | レコメンド情報評価装置およびレコメンド情報評価方法 |
CN101359331B (zh) | 2008-05-04 | 2014-03-19 | 索意互动(北京)信息技术有限公司 | 对搜索结果重新排序的方法和系统 |
US20090307209A1 (en) | 2008-06-10 | 2009-12-10 | David Carmel | Term-statistics modification for category-based search |
US8326829B2 (en) | 2008-10-17 | 2012-12-04 | Centurylink Intellectual Property Llc | System and method for displaying publication dates for search results |
US8224847B2 (en) | 2009-10-29 | 2012-07-17 | Microsoft Corporation | Relevant individual searching using managed property and ranking features |
US8527507B2 (en) | 2009-12-04 | 2013-09-03 | Microsoft Corporation | Custom ranking model schema |
US8422786B2 (en) | 2010-03-26 | 2013-04-16 | International Business Machines Corporation | Analyzing documents using stored templates |
US8738635B2 (en) | 2010-06-01 | 2014-05-27 | Microsoft Corporation | Detection of junk in search result ranking |
US8370331B2 (en) | 2010-07-02 | 2013-02-05 | Business Objects Software Limited | Dynamic visualization of search results on a graphical user interface |
US9495462B2 (en) | 2012-01-27 | 2016-11-15 | Microsoft Technology Licensing, Llc | Re-ranking search results |
-
2008
- 2008-04-11 US US12/101,951 patent/US8812493B2/en active Active
-
2009
- 2009-03-02 TW TW098106721A patent/TWI486800B/zh not_active IP Right Cessation
- 2009-03-10 JP JP2011504031A patent/JP5492187B2/ja active Active
- 2009-03-10 AU AU2009234120A patent/AU2009234120B2/en active Active
- 2009-03-10 RU RU2010141559/08A patent/RU2501078C2/ru active
- 2009-03-10 KR KR1020107022177A patent/KR101557294B1/ko active IP Right Grant
- 2009-03-10 BR BRPI0909092-4A patent/BRPI0909092A2/pt not_active IP Right Cessation
- 2009-03-10 WO PCT/US2009/036597 patent/WO2009126394A1/en active Application Filing
- 2009-03-10 CN CN200980112928.6A patent/CN101990670B/zh active Active
- 2009-03-10 EP EP20090730808 patent/EP2289007B1/en active Active
-
2010
- 2010-08-26 ZA ZA2010/06093A patent/ZA201006093B/en unknown
- 2010-08-26 IL IL207830A patent/IL207830A/en active IP Right Grant
Cited By (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103077163A (zh) * | 2012-12-24 | 2013-05-01 | 华为技术有限公司 | 数据预处理方法、装置及系统 |
CN103077163B (zh) * | 2012-12-24 | 2015-07-08 | 华为技术有限公司 | 数据预处理方法、装置及系统 |
CN107430612A (zh) * | 2015-02-12 | 2017-12-01 | 微软技术许可有限责任公司 | 查找描述对计算问题的解决方案的文档 |
CN107430612B (zh) * | 2015-02-12 | 2020-10-02 | 微软技术许可有限责任公司 | 查找描述对计算问题的解决方案的文档 |
CN108475266A (zh) * | 2015-06-23 | 2018-08-31 | 微软技术许可有限责任公司 | 用来移除匹配文档的匹配修复 |
US11281639B2 (en) | 2015-06-23 | 2022-03-22 | Microsoft Technology Licensing, Llc | Match fix-up to remove matching documents |
CN108475266B (zh) * | 2015-06-23 | 2022-05-13 | 微软技术许可有限责任公司 | 用来移除匹配文档的匹配修复 |
US11392568B2 (en) | 2015-06-23 | 2022-07-19 | Microsoft Technology Licensing, Llc | Reducing matching documents for a search query |
CN106815196A (zh) * | 2015-11-27 | 2017-06-09 | 北京国双科技有限公司 | 软文展现次数统计方法和装置 |
CN106815196B (zh) * | 2015-11-27 | 2020-07-31 | 北京国双科技有限公司 | 软文展现次数统计方法和装置 |
CN110135552A (zh) * | 2018-02-09 | 2019-08-16 | 微软技术许可有限责任公司 | 用于搜索的深度神经网络架构 |
CN109960757A (zh) * | 2019-02-27 | 2019-07-02 | 北京搜狗科技发展有限公司 | 网页检索方法及装置 |
Also Published As
Publication number | Publication date |
---|---|
ZA201006093B (en) | 2011-10-26 |
AU2009234120A1 (en) | 2009-10-15 |
EP2289007B1 (en) | 2015-04-22 |
WO2009126394A1 (en) | 2009-10-15 |
CN101990670B (zh) | 2013-12-18 |
KR101557294B1 (ko) | 2015-10-06 |
TW200945079A (en) | 2009-11-01 |
IL207830A (en) | 2015-03-31 |
KR20110009098A (ko) | 2011-01-27 |
EP2289007A4 (en) | 2012-10-31 |
BRPI0909092A2 (pt) | 2019-02-26 |
US8812493B2 (en) | 2014-08-19 |
RU2501078C2 (ru) | 2013-12-10 |
TWI486800B (zh) | 2015-06-01 |
JP5492187B2 (ja) | 2014-05-14 |
RU2010141559A (ru) | 2012-04-20 |
AU2009234120B2 (en) | 2014-05-22 |
JP2011516989A (ja) | 2011-05-26 |
EP2289007A1 (en) | 2011-03-02 |
US20090259651A1 (en) | 2009-10-15 |
IL207830A0 (en) | 2010-12-30 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN101990670B (zh) | 使用编辑距离和文档信息进行搜索结果排名 | |
CN100511224C (zh) | 用于改进文档检索的内容传播的方法和计算设备 | |
National Research Council et al. | Frontiers in massive data analysis | |
CN1713179B (zh) | 在对象模型中的影响分析 | |
CN101567011B (zh) | 文档处理装置、文档处理方法以及检索系统 | |
CN112231275B (zh) | 多媒体文件分类、信息处理与模型训练方法、系统及设备 | |
US20190377818A1 (en) | Data visualization platform for event-based behavior clustering | |
CN111177569A (zh) | 基于人工智能的推荐处理方法、装置及设备 | |
CN100504861C (zh) | 用于在展平的分层结构中有意义的名字的创建的方法和系统 | |
CN110688553A (zh) | 基于数据分析的信息推送方法、装置、计算机设备及存储介质 | |
US10078843B2 (en) | Systems and methods for analyzing consumer sentiment with social perspective insight | |
Olmezogullari et al. | Representation of click-stream datasequences for learning user navigational behavior by using embeddings | |
Akerkar et al. | Intelligent techniques for data science | |
WO2017166944A1 (zh) | 一种提供业务访问的方法及装置 | |
US20120143815A1 (en) | Inferring influence and authority | |
CN110348895A (zh) | 一种基于用户标签的个性化推荐方法、装置和电子设备 | |
JP7358003B2 (ja) | 複数のクエリ解釈に基づくファセットベースのクエリ絞り込み | |
CN111782644A (zh) | 一种基于区块链技术的科研数据管理控制系统及方法 | |
US11809506B1 (en) | Multivariant analyzing replicating intelligent ambience evolving system | |
CN111800289A (zh) | 通信网络故障分析方法和装置 | |
US10956914B2 (en) | System and method for mapping a customer journey to a category | |
Huang et al. | Technology–function matrix based network analysis of cloud computing | |
CN103324641A (zh) | 信息记录推荐方法和装置 | |
CN111553401B (zh) | 一种应用在云服务推荐中基于图模型的QoS预测方法 | |
Lo et al. | An emperical study on application of big data analytics to automate service desk business process |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C14 | Grant of patent or utility model | ||
GR01 | Patent grant | ||
ASS | Succession or assignment of patent right |
Owner name: MICROSOFT TECHNOLOGY LICENSING LLC Free format text: FORMER OWNER: MICROSOFT CORP. Effective date: 20150514 |
|
C41 | Transfer of patent application or patent right or utility model | ||
TR01 | Transfer of patent right |
Effective date of registration: 20150514 Address after: Washington State Patentee after: Micro soft technique license Co., Ltd Address before: Washington State Patentee before: Microsoft Corp. |