Connect public, paid and private patent data with Google Patents Public Datasets

用于识别与Web站点内容相关的项的方法和计算设备

Info

Publication number
CN100476814C
CN100476814C CN 200510078308 CN200510078308A CN100476814C CN 100476814 C CN100476814 C CN 100476814C CN 200510078308 CN200510078308 CN 200510078308 CN 200510078308 A CN200510078308 A CN 200510078308A CN 100476814 C CN100476814 C CN 100476814C
Authority
CN
Grant status
Grant
Patent type
Prior art keywords
relative
computing
device
site
used
Prior art date
Application number
CN 200510078308
Other languages
English (en)
Other versions
CN1691019A (zh )
Inventor
B·张
H-J·曾
L·李
T·纳吉姆
马维英
Y·李
正 陈
Original Assignee
微软公司
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Grant date

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING; COUNTING
    • G06FELECTRICAL DIGITAL DATA PROCESSING
    • G06F17/00Digital computing or data processing equipment or methods, specially adapted for specific functions
    • G06F17/30Information retrieval; Database structures therefor ; File system structures therefor
    • G06F17/3061Information retrieval; Database structures therefor ; File system structures therefor of unstructured textual data
    • G06F17/30634Querying
    • G06F17/30657Query processing
    • G06F17/30675Query execution
    • G06F17/30687Query execution using probabilistic model
    • GPHYSICS
    • G06COMPUTING; CALCULATING; COUNTING
    • G06FELECTRICAL DIGITAL DATA PROCESSING
    • G06F17/00Digital computing or data processing equipment or methods, specially adapted for specific functions
    • G06F17/30Information retrieval; Database structures therefor ; File system structures therefor
    • G06F17/3061Information retrieval; Database structures therefor ; File system structures therefor of unstructured textual data
    • G06F17/30634Querying
    • G06F17/30657Query processing
    • G06F17/3066Query translation
    • G06F17/30663Selection or weighting of terms from queries, including natural language queries
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10TECHNICAL SUBJECTS COVERED BY FORMER USPC
    • Y10STECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10S707/00Data processing: database and file management or data structures
    • Y10S707/99931Database or file accessing
    • Y10S707/99933Query processing, i.e. searching
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10TECHNICAL SUBJECTS COVERED BY FORMER USPC
    • Y10STECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10S707/00Data processing: database and file management or data structures
    • Y10S707/99931Database or file accessing
    • Y10S707/99933Query processing, i.e. searching
    • Y10S707/99934Query formulation, input preparation, or translation
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10TECHNICAL SUBJECTS COVERED BY FORMER USPC
    • Y10STECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10S707/00Data processing: database and file management or data structures
    • Y10S707/99931Database or file accessing
    • Y10S707/99933Query processing, i.e. searching
    • Y10S707/99935Query augmenting and refining, e.g. inexact access

Abstract

本发明描述了用于检验项和Web站点内容之间的相关性的系统和方法。在一个方面中,检索来自投标URL的站点内容。计算在语义上和/或上下文上与投标项相关的扩展项。根据投标项、站点内容和扩展项的各个组合计算内容相似性和扩展相似性度量。考虑到经训练的相似性分类器来确定扩展项和站点内容之间的类别相似性度量。该经训练的相似性分类器已根据挖掘的与目录数据相关联的万维站点内容加以训练了。提供了投标项和站点内容之间的相关性的客观度量的信用度值,是考虑到经训练的相关性分类器模型,根据评估多个相似性得分的内容、扩展和类别相似性度量而确定的。

Description

用于识别与Web站点内容相关的项的方法和计算设备相关申请

本专利申请涉及下列专利申请,它们的每个都共同受让给本申请的受让人,并在此结合作为参考:

04 年 4 月 15 日提交的,题为“Related Term Suggestion for Multi-Sense Query”的,编号为10/825,894的美国专利申请;

04 年 4 月 15 日提交的,题为“Reinforced Clustering of Multi-Type Data Objectsfor Search Terni Suggestion”的,编号为10/826,159的美国专利申请;以及2003 年 5 月 I 日提交的,题为 “Ob ject Clustering Using Inter-Layer Links”的,编号为10/427,548的美国专利申请。

技术领域

本发明的系统和方法是关于数据挖掘(datamining)的。

背景技术

关键字和关键字短语是当在万维网(WWW)上搜索相关的Web网页/站点时,由Web冲浪者提交给搜索引擎的词或项的集合。搜索引擎基于出现在该网页/站点上的关键字和关键字短语来判断Web站点的相关性。由于Web站点相当百分比的业务量都是由使用搜索弓I擎而产生的,因此Web站点赞助商知道,合适的关键词的选择对于增加站点业务量以便获得所希望的站点曝光度是至关重要的。用于搜索弓丨擎结果优化的识别与Web站点相关的关键词的技术包括,例如,Web站点内容的人为评估,目的在于识另_关的关键词。这种评估可以包括关键词普及工具的使用。这种工具确定有多少人向搜索弓丨擎提交了特定的关键词或包括了该关键词的短语。与Web站点相关并被确定为更加经常地用于产生搜索查询的关键词,通常被选择来对该Web站点进行搜索弓I擎结果优化。

在为该Web站点的搜索弓丨擎结果优化而识别一组关键词之后,赞助商也许希望在搜索弓丨擎的结果中将Web站点提髙到一个更高的位置(与其它Web站点搜索引擎结果的显示位置相比)。为此目的,赞助商对关键词进行投标以使用具体的URL,其中投标指的是Web站点冲浪者每点击一次与该关键词关联的该赞助商列表,该赞助商所要付多少钱。换句话说,关键词投标是为具体的URL(Web站点)提升臓行的按点击计费的投标。与同一关键词的其它投标相比的该关键词投标的数量越大,搜索弓丨擎在基于该关键词的搜索结果中显示相关Web站点就越高(意义更显著)ο不幸的是,广告投标项可能与Web站点内容不相关,结果,可能没有匹配由最终用户所使用的项或语言。

看起来,检验关键词与Web站点(即Web站点内容)相关的最简单的方式就是使用传统的检索方法,即仅考虑关键词与Web站点的相似性而不比较任何的额外的麵点。然而,这种技术实质上是受限的。尽管关键词可以与Web站点相关,但Web站点自身可能不包括支持所希望的关键词的阈值标准(例如:直接匹配、出现次数等等),这将导致拒绝了潜在的有价值的投标项。例如,考虑一下具有相关Web站点的在线购物公司对短语“在线购物”进行投标。如果采用传统的检索方法,而在该Web站点中相对较少的关键词“购物”的出现次数以及无关键词“在线”的出现次数被查找到,潜在的有价值的关键词短语“在线购物”就会错误地被取消作为投标项的资格。

另一种传统的技术是对所提交的投标项/短语及Web站点进行分类,以获得两个类另何能性向量,这些向量然后被结合到最后的相关性得分中。这种传统技术的问题是它不对其万维站点的项/短语进行直接评估,这实际上是有问题的。例如,如果广告商对项“意大利鞋”进行投标,而其万维站点卖鞋而不是意大利鞋,那么传统的分类技术将提示该广告商,“意大利鞋”的投标短语与该Web站点不相关。

由上看来,更好地识别与Web站点相关的关键词的系统和方法将受到Web站点赞助商的欢迎。这将使得赞助商能够对更可能被最终用户使用的项进行投标。理想地,这些系统和方法将独立于人们的需求来评估Web站点内容,以便识别用于搜索弓丨擎优化和关键词投标的相关关键词。

发明概述

本发明描述了用于检验项和Web站点内容之间的相关性的系统和方法。在一个方面中,来自一个投标URL的站点内容被检索。计算与投标项在语义上和/或上下文上相关的扩展项。根据投标项、站点内容和扩展项的各个组合计算内容相似性和扩展相似性的度量。扩展项和站点内容之间的类别相似性度量是考虑到经训练的相似性分类器来确定的。已根据所挖掘的万维站点内容来训练了的该经训练的相似性分类器是与目录麵相关的。提供了投标项和站点内容之间的相关性的客观度量的信用度值,是考虑到经训练的相关性分类器模型根据评估多个相似性得分的内容、扩展和类别相似性度量而确定的。根据信用度值将投标项和投标URL缓存到投标数据库中。响应于接收到搜索查询,考虑到搜寻査询的项可能没有与投标项精确地匹配的可能性。确定该搜索查询的项是否与投标项相关;以及如果搜索查询的项确定为与投标项相关,那么就将投标URL腿合最终用户。

附图说明

在图中,组件的附图标记的最左边的数字标识该组件首次出现的特定图。

图I示出了检验项和Web站点内容之间的相关性的示意性系统。

图I示出了检验项和Web站点内容之间的相关性的示意性处理过程。

图3示出了检验项和Web站点内容之间的相关性的示意性处理过程。特别地,图3是图2的示意性操作的延续。

图4示出了一个示意性的合适的计算环境,在该环境中可以完全或部分地实现随后描述的检验项和Web站点内容之间的相关性的系统、装置和方法。

详细说明

下述系统和方法检验项和Web站点内容之间的相关性,以便解决传统的项资格鉴定技术的局限。为此目的,该系统和方法通过经训练的分类器模型将多个相似性度量结合起来,以便提供一个表示投标项是否与特定的Web站点内容相关的信用度值。更特别地,在这种实现方式中,所述多个相似性度量包括内容、类别和合适的名称的相似性得分。

内容的相似性得分包括直接和扩展的内容相似性。直接内容相似性是通过评估投标项的向量模型和所提交的Web站点的站点内容来确定的。扩展相似性是通过评估扩展项的向量模型和站点内容之间的相似性来确定的。扩展项是考虑到较高出现频率历史查询项而由搜索弓丨擎挖掘的,被确定为在语义上和/或上下文上与投标项相似。类别相似性是通过将经训练的相似性归类(分类器)模型应用到扩展项和Web站点内容上来确定的,以便确定这_入之间的类另IJ相关度。合适的名称相似性是通过考虑到合适的名称的数据库来评估投标项和Web站点内容而确定的。这些多个相似性度量是采用组合的相关性分类器模型来组合的,其中该模型是经训练的以便考虑到接受/拒绝阈值地根据这些得分来产生一个相关性信用度值。该信用度值考虑到这些多个不同的相似性度量,提供了投标项与Web站点的相关性的客观度量。

下面将详细描述用于检验项和Web站点内容的相关性的系统和方法的这些和其它方面。

编纖验的示意性系统

转到附图,用于检验项和Web站点内容之间的相关性的系统和方法将像在一种合适的编辑检验计算环境中实现的那样来加以描述和显示,其中相同的附图标记表示相同的组件。尽管不是必需的,但本发明仍以由个人计算机执行的计算机可执行指令(程序模块)的一般上下文来描述。程序模块通常包括完成特定的任务或实现特定的抽象数据类型的例程、程序、对象、组件、数据结构等等。尽管系统和方法是以上述上下文来描述的,但以下所描述的动作和操作也能以硬件来实现。

图I示出了用于检验投标项和投标的Web站点内容之间的相关性的系统100。在这种实现方式中,系统100包括通过网络104稱合到搜索引擎106的编辑检验服务器102。网络104可包括局域网(LAN)和通用广域网(WAN)通信环境的任意组合,例如那些在办公室、企业范围的计算机网络、企业内部互联网和因特网中常见的那些网络。编辑检验服务器102包括许多程序模块108,例如搜索项建议(STS)模块110、相关性检验模块112、分类模块114、项匹配模块116和其它程序模块118,例如用于根据标识Web站点的投标统一资源定位符(URL),检索站点内容的Web网页搜寻程序(crawler)。

一个最终用户(例如广告商、Web站点赞助商等等)向编辑检验服务器102提供投标输入120,用于投标项与投标URL的站点内容的相关性检验。投标输入120包括投标项122和投标URL 124。在一种实现方式中,编辑检验服务器102包括一个或多个用户输入接口(例如,参见图4的用户输入接口 460),诸如键盘、鼠标、语音识别系统等等,用于该最终用户将投标输入120提供给编辑检验服务器102。在另一实现方式中,编辑检验服务器102通过网络104而耦合到客户计算设备(例如图4的远程计算机480),用于该最终用户将投标输入120提供给编辑检验服务器102ο

示意性的搜索项建议

响应于从一个最终用户那里接收投标输入120,搜索项建议模块102产生搜索项建议列表126,以便用在语义上和/或上下文相关的项来扩展项122。如下所述,项122的多个含义或上下文可以提供额外的项意义。表I示出了被确定为与“mail”的项122相关的示意性建议项列表126。与项122相关的项在该表中在第I列中示出了,标题为“建议项”。

表I用于投标项“mail”的示意性建议项列表

参考表1,值得注意的是,对于每个建议项(第I列),搜索项建议列表126还包括各个相似性度量值(见第2列)以表示建议项和项122之间的相关度,以及相应的使用频率的得分(见第3列)以表示第I列的建议项有多频繁地提交给搜索引擎106。在该实例中,第2列的每个相似性值提供了在相应的建议项(第I列)和投标项122之间的相似性度量或得分,投标项122在该实例中是“mail”。每个频率值或得分表示在一个最终用户搜索查询中该建议项被特定的搜索引擎106使用的次数。如果要向最终用户显示出来,建议项列表126按商业目的的功能来排序,例如按建议项、相似性和/或频率得分。

任何给定的项122 (例如mail等等)可以具有多于一个的上下文,其中在该上下文中可以側该投标项。为了证明这一点,搜索项建议模块110通过上下文分离建议项。例如,参考表I,“mail”的投标项122有两个上下文:(I)传统的离线mail和(2)在线e-mail。值得注意的是,为这两个投标项内容的每一个来示出建议项的相应的(分离的或独立的)列表。

建议项列表126的建议项可以多于项122的同义字。例如,参考表1,建议项“usps”是经营邮政业务的组织的首字母缩略语,不是“maU”投标项的同义字。然而,“usps”也是在上下文上与“mail”投标项非常相关的项,因此也在建议项列表126中示出了。在一种实现方式中,搜索项建议模块110将相关项Λ (例如“usps” )和目标项Γ (例如“mail” )之间的关系,确定为一个具有下述结合规贝1J: itr(T)—itr(R)的函数,其中“itr”表示αinterested in” (感兴趣)。也就是,如果一个最终用户(广告商、Web站点赞助商等等)对R感兴趣,SP么该最终用户也可能对T感兴趣。

为了产生搜索项建议列表126,搜索项建议模块110向搜索引擎106提交从查询日志130中挖掘的精选的历史查询。该提交给搜索引擎106的精选的历史查询被搜索项建议模块126识别为与从查询日志130中挖掘的其它历史查询项相比实质上具有较高出现频率(FOO)。在这种实现方式中,可配置的阈值用于确定历史查询是具有相对较高还是较低的出现频率。例如,出现的次数至少是阈值的历史查询项,被认为是具有较高的出现频率。类似地,出现的次数少于阈值的历史查询项被认为是具有较低的出现频率。为便于说明,这种阈值以“其它数据” 132的一个相应的部分来示出。较高和较低的FOO查询项被示为“其它薩” 132的“较高/较低FOO查询”部分。

搜索项建议模块110从用于每个查询项的精选的返回搜索结果(例如一个或多个_陆顶层的搜索结果)中提取一组特征或片断描述。搜索项建议模块HO在所提取的数据上执行文本预处理操作,以产生单独的项令牌。为了降低令牌的维数,搜索项建议模块110移走了任何无用词(例如,“the”、“a”、“is”等等)并移走常见的后缀,从而例如使用公知的Poito词干算法来标准化这些项。搜索项建议模块110将结果项和其它所提取的特征安排到一个或多个搜索项建议(STS)向量中(如项向量134的相应部分所示)。每个STS向量134具有基于项频率的量纲以及反向的文档频率(TFIDF)得分。

第i个向量的第j个项的加权按下式来计算:

W,广 TFtjx\0g(NIDF丨)

其中%表示项频率(在第i条记录中出现项j的数目),#是查询项的总数目,以及DFj是包含项j的记录的数目。搜索项建议模块110使用这些相应的加权对来自STS向量134的相似的项和上下文进行分组,以便产生项簇136。为此目的,在这种实现方式中,给出每个项的向量表示,余弦函数被用于度量一对项(回忆一下,项被标准化了)之间的相似性:

d

= Ywlj-Wik

i=\

这样,两个项之间的距离(相似性度量)由下式来定义:

(Hstiq^qk) = I-sim{q j,qk)

这种搜索项建议(STS)相似_量被作为“其它数据” 132的相应部分来示出。这种示意性的相似性值在上面的示意性建议项列表126的表I中示出了。

搜索项建议模块HO使用经计算的项相似_量,基于项簇136的部分将STS向量134中的项分激分组为较高FOO的历史查询项。更特别地,在这种实现方式中,搜索项建议模块110側公知的基于密度的分簇算法(DBSCAN)来产生这些项簇136。DBSCAN使用两个参数:Eps和MinPts0 Eps表示项簇136中的点之间的最大距离。点是项的一个特征向量。在较高维数空间中,向量等同于点。MinPts表示项簇136中的点的最小数目。为了产生簇136, DBSCAN从任意一点开始,相对于和从/7检索所有密度可达至啲点。如果夕是核点,那么这种操作相关于母^和灿《/^产生项簇136。如果;7是边界点,那么就没有点可以是从P密度可达到的,DBSCAN访问下一个点。

搜索项建议模块110然后将项122与项簇136中的各个项进行比较。由于项簇包括在语义上和/或上下文上互相相关的特征,这就考虑到多个相关的上下文或“含义”来评估项122以便扩展项122,从而产生搜索项建议列表126ο在一种实现方式中,如果搜索项建议模块110确定项122与仅仅一个簇136的项匹配,那么搜索项建议模块HO就从所述一个簇136中产生建议项列表126。在这种实现方式中,匹配可以是精确的匹配,也可以是具有少量变化的匹配,例如取复数形式、拼写错误、标点符号等等。所产生的项列表按一定的标准来排列,例如可以是FOO以及项122和建议项之间的相似性的线性组合,如:

其中σ+卢=1。·

如果搜索项建议模块HO确定项122与多个项簇136中的项相匹配,那么搜索项建议模块HO就从所述多个项簇的项中产生建议项列表126。来自每个簇的建议项采用与在段落

[0031]中所描述的方法相同的方式来列。

用于产生搜索项建议列表126的搜索项建议模块110的示意性系统和方法已在04年4月15日提交的,序列号为10/825,894,题为“Related Term Suggestionfor Multi-sense Query”的美国专利申请中进行了描述。

示意性的相关性检验

相关性检验模块112麵搜索项建议列表126中的建议项(即扩展投标输入120的项122的项)和投标输入120(即项122和来自URL 124的站点内容),来产生信用度值138,该值度量投标项122和投标URL 124的站点内容之间的相关性。为此目的,相关度检验模块112根据多个相似性度量计算信用度值138,为便于说明和讨论,该值被表示为相关性检验(RV)相似性度量140。在这种实现方式中,RV相似性度量140例如包括,内容相似性、分类相似性和合适的名称相似性得分。现在将描述这些RV相似性度量140的每种类型。

RV相似性度量140的内容相似性度量部分包括直接和扩展的相似性度量。为了计算直接相似性,相关性检验模块112度量项122和URL 124的站点内容之间的相似性/相关度,两者都在向量空间中被模型化。为了计算扩展的相似性,URL 124的站点内容,例如通过Web网页搜寻模块来检索,其中该模块是由“其它程序模块” 118的相应部分来表示的。相关性检验模块112确定搜索项建议列表126的建议项和URL 124的站点内容之间的相似性,这两个输入也已在向量空间中模型化。如上所述,搜索项建议列表126的建议项是:(a)考虑到所提交的较高FOO历史查询项从搜索引擎106返回的结果中挖掘的。这样,建议项被确定为在语义上和/或上下文上与投标项122相关。

RV相似性度量140的合适的名称相似性度量部分表示在投标项122中检测的任何合适的名称与URL 124的站点内容之间的相似性/相关度。为了便于讨论,合适的名称的数据库用“其它数据” 132的相应部分来表示。这种合适的名称例如包括国家名、城市名以及著名的商标。更特别地,在投标输入120中检测任何合适的名称时,相关性检验模块112按下式计算合适的名称相似性:

Prop_Sim(项I綠

I-如果项包括一个合适的名称P,并且觅帝包括相符的合适的名称0。

O -如果项包括一个合适的名称P,并且及面只包括不相符的合适的名称2。

0.5-其它。

合适的名称是与其自身和其祖先相符的。例如,下位的地理位置与包括它的上位的地理位置相符,例如,米兰与意大利相符。

RV相似性度量140的分类相似性度量部分度量搜索项建议列表126的建议项和URL 124的站点内容之间的相关度。更特别地,通过将建议项和Web站点内容提交给经训练的相似性分类器(归类)142来产生分类相似性度量。相关性检验模块122以多种不同的分类技术(例如,Naive Bayesian定律(NB)、支持向量机(SVM)、基于统计 η-gram 的 Naive Bayesian (N-Gmm)、;Si£邻域(KNN)、决策树、鮮训练、助推等等)中的任意一种来训练相似性分类器142,下面将进行描述。

示意性的离线相似性分类器训练

相关性检验模块112在目录数据(参见,“其它数据”132)上以Φ: X^l来训练相似性分类器142,其中X是输入(具有从一个项到几个网页内容的规模的串流),并且L是输出(遍及类别的上两层的可能性)。类别分类学是具有分级结构。在这种实现方式中,至于分类,使用LookSmart®目录数据的第2层类别,这些类别的总和是某一数目(例如是74)。相关性检验模块112在目录数据上执行特征提取和特征选择操作。更特另哋,相关性检验模块112从由该目录数据所识别的Web网页中提取片断描述(所提取的数据)。该Web网页例如通过由“其它程序模块” 118的相应部分所表示的Web网页搜寻模块来检索。用于特定Web网页的每个片断描述例如包括,一个或多个标题、元数据、正文、锚文本、字体大小、超链接、图像、原始的HTML (例如概要和网页布局信息)等等。

相关性检验模块112采用简单文本预处理,来从所提取的特征/数据中产生语言令牌(SP令牌化单个项)。为了降低令牌的维数,相关性检验模块112移走任何无用词并移走常见的后缀,以便例如使用公知的Porter词干算法来标准化项。相关性检验模块112将作为结果的所提取的特征安排到一个或多个相关性检验(RV)项向量(即RV向量134)中。同样地,每个Web网页都被表示为一个特征向量,其组成部分是一个具有加权Xi^XiljXi2…Xjn>的字。力口权Xjj是通过长度标准化的log(tf).idf来计算,其具有下述形式: 喊 X上_I_,

I H- log,(avefd) avedlb + 5* x {dlbd - avedlb)

其中d表示原始文档,t表示项,I表示X中项t的频率,咏表示项t的反向文档频率,表示X中唯一的项的数目,αν#;表示X中的项频率的平均值,以及avedlb表示集合中的dlbx的平均值。

相关性检验模块112的特征选择操作还减少RV向量134的特征(太多的特征会降低分类系统的性能和准确性)ο在这种实现方式中,信息增益(IG)选择方法被用于特征选择。项的信息增益按下式在文档中,度量为了预计类别而通过项的出现或不出现获得的信息的位数:

IG{t) = -J^llP(Cl)IogP(Cl) + I Olog^c/ IO + p{c, I OIog^ici 11)

J

其中,t标项,c麵类别,m表示类别的总数。也可以使用其它的特征选择方法,例如交互信息(MI)、文档频率(DF)和线性判别式分析(LDA) ο在这种实现方式中,尽管可以使用其它类型的分类器,但相关性检验模块112的分类器训练操作使用了基于统计n-gram的NaiVe Bayesian分类器(N-Gram)。特别地,与NaiVe Bayesian分类器不同的是,统计η-gram模型没有假设字流的独立。它假设Markov n-gram的独立性,即一个字按下式与前面的n-1个字相关:

对来自训练库的这种可能性的直接评估是由下式所观察到的频率来给出的:

在训练数据中咖Wi,...Wi),#(χν_,...χνμι)的值中的大多数都是零。所以平滑技术就是要if估零的可能性以便处理任意的数据稀疏。后退n-gram模型是处理这种问题的一种方式,如下:

其中,P^i I〜”+,,·..,〜) =—是打折扣的条件可能性,而β (>ν,ϋ..,·νν,:7)是n-gram 到(n-l>gram 的后退因子:

存在着几种计算打折扣的可能性的算法。在这种实现方式中,“绝对平滑”按下式来使用:

其中巧是在训练麵中正好出现〖次的字的数目。这样,我们

可将NB分类器修改为n-gram分类器:

在这种实现方式中,n=3,n-gram分类器被称为3-gram分类器。

相似酿量的专家级组合

相关性检验模块112考虑到组合的相关性分类器144来if估多个RV相似性度量140,以便产生信用度值138,其中该信用度值138表示投标项122与投标URL 124的站点内容的客观相关性。组合的相关性分类器144以监督学习来加以训练,例如作为SVM分类器,以考虑到拒绝/接受项/短语阈值的<项,Web网页(URL),接受/拒绝>格式的数据来加以训练。为便于讨论,拒绝/接受项阈值以“其它数据” 132的相应部分来示出。RV相似性度量140被视为用于投标输入120的特征向量(即,<项,网页>对)O为了便于说明和讨论,作为特征向量的RV相似性度量(SM)被显示为RVSM特征向量140。我们有下列投标输入120和RV相似性度量140的计曾昇、·

•投标输入 120: <1 页 122,URL 124>;

•基于内容的项122,URL 124的RV相似性度量140,其被表示为Sim(项122,URL 124);

•基于扩展内容的RV相似性度量140—Ex_Sim(扩展项126,URL 124);

•基于RV相似性度量140的相关性分类器142—Cate_Sim(扩展项126的类别,URL的类别);以及

基于RV相似性度量140的合适的名称一Proper_Sim(合适的名称,项122,URL 124)0

相关性检验模块112将<项,查询>的RVSM特征向量应用到组合的相关性分类器144中,以便考虑到拒绝/接受相关性阈值来映射多个RV相似性值140,以便计算各个RV相似性类型加权(即:内容,扩展的,类别和合适的相似性度量类型)和最纷言用度值138。

低FOO项的分类

考虑到可配置的阈值,如果信用度值138指出,在与URL 124的站点内容不相关之时项122应该被拒绝,那么分类模决114就基于对于最终用户来说的较低出现频率(FOO)的查询项来产生建议项列表126,以便考虑到URL 124的站点内容进行刑古。在这种实现方式中,建议项列表126被显示为被传达到最终用户以进行评估的消息146。特另哋,分类模块114使用来自项簇136的STS分类器148,如上所述,该分类器是从较高出现频率(FOO)的查询日志项中产生的。分类模块114使用STS分类器148来将基于高FOO的项簇136分组为一个或多个STS类别(见“其它数据” 132),使其作为有关它们各自的项内容的函数。项簇136已经存在于适合于分类操作的向量空间模块中。而且,无用词的移除和词干还原(后缀的移除)已经降低了项簇136内容的维数。在一种实现方式中,可以釆用另夕卜的维数降低技术,例如特征选择或者再参数化。

在这种实现方式中,为了对未知类的项簇136进行分类,分类漠块114使用灸最近邻域分类器算法,来在项向量中对未知类簇的邻域进行排列,并麵灸最相似邻域的类标签来预测未知类的项的类。这些邻域的类采用每个邻域与X相比的相似性来加权,这里的相似性是由两个文档向量之间的欧几里得距离或余弦值来度量的。该余弦相似性按下式计算:

这里X是测试文档,以向量来表示;马是第j个训练文档;是由X和马共享的字;Xi是X中项ti的加权;Ciij是文档Dj中项ti的加权;M2+X32...M2=χ32…是ί的范数’以及

是的范数。截止阈删于将新文档分配给已知类。

在另一种实现方式中,与最近邻域分类技术不同的统计分类和机器学习技术(例如,包括回归模型,Bayesian分类器,决策树,神经网络以及支持向量机)棚于产生经训练的STS分类器。

分类模块114向搜索引擎106—个接一个地提交较低出现频率(FOO)的查询项(见“其它薩” 132的较高/较低查询项部分)。响应于接收每一个提交给搜索弓丨擎的查询的相应搜索结果,并使用已描述过的技术,分类模块114从搜索结果中识别的一个或多个所检索的Web网页中的每一个中,提取诸如片断描述的特征。在这种实现方式中,特征是从第一个排在顶层的Web网页中提取的。这些提取的特征在“其它麵” 132的相应部分中示出了。在另一种实现方式中,特征是从多个排在顶层的Web网页中提取的。对于每个被检索和分析的Web网页,分类模块114在所提取的特征的各个记录中存储下列信息:片断描述,用于获得所检索的Web网页的搜索查询,以及所检索的Web网页的通用资源标识符(URI)。接着,分类模块114对从较低FOO查询项中获得的所提取的特征138令牌化,降低维数并标准化,以便产生另一组项向量(SP,STS向量134)。

分类模块114将STS向量134中的项分簇为项簇136的各个组,它们是基于较低FOO查询项的簇。这种分麵作是使用经训练的STS分类器148来执行的,如上所述,是从较高FOO查询项中产生的。分类模块114考虑到这些项簇来评估项,以便识另拼向最终用户返回包括这些其它项的建议项列表126。

示意性的项匹配

考虑到可配置的阈值,如果信用度值138指出,在与URL 124的站点内容不相关之时应当接受项122,那么投标输入120就被存储在投标麵库150中,用于解答从最终用户接收的随后的查询152。例如,响应于从最终用户搜索Web网页接收查询152,项匹配模块116编辑_ 152中的项和来自投标数据库150的项之间的距离,以便确定查询152中的项与相比投标项122的相关度。特别地,项匹配模块116按下式确定相关性:

其中Common表示常见项的数目,并且ADistance表示投标项122已经与查询152的项交换的次数。

示意性的处理过程

图2示出了一种用于检验项和Web站点内容之间相关性的示意性处理过程 200。为了便于讨论,将讨论与图I的组件有关的该处理过程的操作(所有的附图标记都是用首次出现该组件的图号开始的)。在方块202中,搜索项建议模块HO从搜索引擎106的搜索结果中产生第一组项簇136。为了便于讨论,这种搜索结果被显示为“其它数据” 132的相应部分。为了获得该搜索结果,搜索项建议模块110发送从查询日志130中挖掘的较高出现频率的历史查询。项簇136包括片断描述、相应的搜索查询以及由搜索项建议模块110确定为在语义上和/或上下文上与所提交的较高出现频率的历史查询相关的Web网页。

在方块204中,B向应于编辑检验服务器102接收包括项122和URL 124的投标输入120,搜索项建议模块110根据从较高出现频率的历史查询项中产生的项簇136来识别扩展项。这种扩展项包括在语义上和/或上下文上与项122和/或投标URL 124的站点内容相关的项。扩展项被显示为图I的建议项列表126ο在方块206中,相关性检验模块112分别根据投标项122、投标URL 124、建议的项列表126的扩展项、经训练的相似性分类器142和/或合适的名称麵库的组合,来计算内容、扩展的、分类的以及合适的名称的相似性值(即,RV相似性度量140)。在方块208中,相似性检验模块112考虑到经训练的组合相关性分类器144和接受/拒绝阈值(见“其它数据” 132),将RV相似性度量140进行组合,以便获得信用度值138。信用度值138提供了投标项122和投标URL 124之间的相关性的客观度量。

在方块210中,相关性检验模块112考虑到该接受/拒绝阈值,来确定信用度值138是否太低。如果太低,则处理过程在方块212中继续。在方块212中,分类模块114基于属于较低FOO历史查询的搜索弓丨擎106结果以及第一组项簇136上训练的分类器,从基于对的第二组项簇136中产生建议项列表126。建议项列表126的项被分类模块114确定为,在语义上和/或上下文上与相关于投标URL 124的站点内容相似。为了便于说明,将分类器表示为STS分类器148。在该实例中,建议项列表126被显示为被传达到最终用户以进行评估的消息146。

在方块208中,如果相关性检验模块112确定信用度值138是可接受的(在考虑到接受/拒绝阈值的情况下不太低),处理过程就在图3的方块302中继续,如页面上的标记“A”所示。

图3示出了用于检验项和Web站点内容之间的相关性的示意性处理过程300。特另哋,图3是图2的示意性操作的延续。在方块302中,相关性检验模块112将投标项122和投标URL 124存储/缓存至丨股标麵库150中。在方块304中,响应于编辑检验服务器102接收任何最终用户的查询152,项匹配模块110考虑到查询项可能没有与投标项122精确地匹配的可能性,确定搜索查询152的项是否与存储在投标数据库150中的项122相关。在方块306中,如果确定查询152的项与投标项122相关,编雛验服务器102将相应的投标URL 124发送给最终用户作为搜索结果。

示意性的操作环境

图4示出了合适的计算环境400的一个实例,在该环境下可以完全或部分地实现用于检验项和Web站点内容之间的相关性的图I的系统100和图2和3的方法。示意性计算环境400只是合适的计算环境的一个实例,并不对这里描述的系统和方法的使用或功能性的范围作出任何限制。也不该将计算环境400

解释为具有任何与在该计算环境400中示出的任一组件或其组合相关的依赖或

mm

|Tn>Co

这里描述的方法和系统可以用许多其它通用或专用的计算系统环境或配置来操作。公知的适于使用的计算系统、环境和/或配置的实例包括,但不限制于,个人计算机、月艮务器计算机、多处理器系统、基于微处理器的系统、网络PC、小型机、大型机以及包括上述系统或设备的任一个的分布计算环境等等。框架的紧凑版或子集版也可以在有限资源的客户机中实现,例如手持式计算机或其它计算设备。本发明可在分布计算环境中实现,其任务可由通过通信网络链接的远程处理设备来执行。在分布计算环境中,程序模块可以位于本地和远程存储设备中。

参考图4,用于检验项和Web站点内容之间的相关性的示意性系统包括以计算机410的形式出现的通用计算设备。计算机410的下述部分是客户机计算设备PSS月艮务器102 (图I)和/或客户机计算设备106的示意性实现设备。计算机410的组件可以包括,但不限制于,处理单元420、系统存储器430和系统总线421,该总线将包括该系统存储器在内的各种系统组件稱合到该处理单元420上。系统总线421可以是几种总线结构中的任一种,包括存储器总线或存储器控制器、外围总线和使用各种总线体系结构中的任一种的本地总线。通过举例但不是限制的方式,这种体系结构可以包括工业标准体系结构(ISA)总线、微通道体系结构(MCA)总线、增强ISA(EISA)总线、视频电子标准协会(VESA)本地总线以及也称为小背板总线的周边元件扩展接口(PCI)总线。

计算机410典型地包括各种计算机可读介质。计算机可读介质可以是任何可由计算机410访问的可用介质,包括易失性和非易失性介质,可移动和非可移动的介质。作为实例,但不是限制,计算机可读介质可包括计算机存储介质和通信介质。计算机存储介质包括以任意方式或技术实现的,用于存储诸如计算机可读指令、数据结构、程序模块或其它数据的信息的易失性和非易失性,可移动和非可移动介质。计算机存储介质包括,但不限制于,RAM、ROM、EEPROM、闪存或其它存储技术、CD-ROM.数字化通用光盘(DVD)或其它光盘存储器、磁带盒、磁带、磁盘存储器或其它磁存储设备,或者其它任何用于存储所需信息并能被计算机410访问的介质。

通信介质典型地包括有在诸如载波或其它传输机制的经调制的数据信号中的计算机可读指令、数据结构、程序模块或其它数据,并且包括任意一种信息传递介质。术语“经调制的数据信号”指的是一种信号,它的一个或多个特征被以如此方式来设定或改变,以便在该信号中编码信息。作为实例但不是限制,通信介质包括诸如有线网络或直接线连接的有线介质,以及诸如声波、RF、红外和其它无线介质的无线介质。上述任何一种组合也应包括在计算机可读介质的范围内。

系统存储器430包括易失性和/或非易失性存储器形式的计算机存储介质,例如只读存储器(ROM) 431和随机存取存储器(RAM) 432。基本输入瑜出系统433 (BIOS)典型地存储在ROM 431中,其中该基本输入/输出系统433包含帮助在计算机410的内部各组件之间传输信息的基本例程,例如在启动期间。RAM 432典型地包括可由处理单元420立即访问以及/或者当前正在操作的数据和/或程序模块。作为实例但不是限制,图4示出了操作系统434、应用程序435、其它程序模块430以及程序数据437。在一种实现方式中,应用程序435包括图I的程序模块108。在这种相同的方案中,程序数据437包括图I的程序麵 128。

计算机410也可以包括其它的可移动/非可移动、易失性/非易失性计算机存储介质。仅作为实例,图4示出了读写非可移动、非易失性磁介质的硬盘驱动器441,读写可移动、非易失性磁盘452的磁盘驱动器451,以及读写可移动、非易失性光盘456诸如CD ROM或其它光学介质的光盘驱动器455。其它能够用于该示意性操作环境中的可移动/非可移动、易失性/非易失性计算机存储介质包括,但不限制于,磁带盒、闪存卡、数字化通用光盘、数字视频带,固态RAM、固态ROM等等。硬盘驱动器441典型地经由诸如接口 440的非可移动存储接口连接到系统总线421,磁盘驱动器451和光盘驱动器455典型地由可移动存储接口,例如接口 450连接到系统总线421。

这些驱动器以及与它们关联的在上面讨论了并在图4中示出了的计算机存储介质提供对计算机可读指令、数据结构、程序模块和用于计算机410的其它数据的存储。例如,在图4中,硬盘驱动441被显示为存储操作系统444、应用程序445、其它程序模块446和程序数据447。值得注意的是,这些部分可以与操作系统434、应用程序435、其它程序模块436和程序数据437相同,也可以与它们不同。操作系统444、应用程序445、其它程序模块446和程序数据447在这里具有不同的标记,以便表示它们至少是不同的拷贝。

用户可通过诸如键盘462和定点设备461的输入设备将命令或信息输入到计算机410中,其中定点设备461通常指的是鼠标、轨迹球或触摸垫。其它输入设备(未示出)可包括话筒、操纵杆、游戏垫、圆盘式卫星电视天线、扫描仪等等。这些和其它输入设备通常通过稱合在系统总线421上的用户输入接口460连接到处理单元420上,但也可以通过其它接口或总线结构进行连接,例如并行端口、游戏端口或通用串行总线(USB)。 监视器491或其它类型的显示设备也经由接口,例如视频接口 490连接到系统总线421上。除了监视器以外,计籠也可以包括其它夕圈输出设备,诸如扬声器497和打印机496,它们可通过输出外围接口 495进行连接。

计算机410在删对一个或多个远程计辦几,例如远程计算机480进行本地连接的联网环境中操作。远程计算机480可以是个人计算机、服务器、路由器、网络PC、同级设备或其它常见网络节点,作为其一种特定实现方式,尽管只有存储设备481在图4中示出,但该远程计算机480可以包括多个或全部上述与计算机410相关的部分。在图4中描述的本地连接包括局域网(LAN) 471和广域网(WAN) 473,但也可以包括其它网络。这种联网环境在办公室、企业范围的计算机网络、企业内部互联网和因特网中是常见的。

当用于LAN联网环境中时,计算机410通过网络接口或适配器470连接到LAN 471。当用于WAN联网环境中时,计算机410典型地包括调制解调器472或用于在WAN473上建立通信的其它装置,例如因特网。可以是内置的或外置的调制解调器472,可以经由用户输入接口 460或其它合适的机制连接到系统总线421上。在联网环境中,所描述的与计算机410相关的程序模块,或其部分,可以存储在远程存储设备中。作为实例但不是限制,图4示出了驻留在存储设备481中的远程应用程序485。所示的网络连接是示意性的,可以使用在计算机之间建立通信链路的其它装置。

m

尽管已经以具体于结构特征和/或方法论的操作或动作的语言描述了用于在项和Web站点内容之间检验相关性的系统和方法,但可以理解,在所附权利要求中所定义的实现方式不必限制于所描述的具体特征或动作。因此,具体特征和动作是以实现所要求的主题的示意性方式进行揭示的。

Claims (21)

1、一种用于识别与Web站点内容相关的项的方法,该方法包括: 根据投标URL检索站点内容; 识别在语义上和域上下文上与投标项相关的扩展项; 根据所述投标项的向量模型和站点内容产生直接内容相似性度量,并根据所述扩展项的向量模型和站点内容产生扩展相似性度量,所述直接内容相似性度量指示了在所述投标项和站点内容之间的的相关度,而所述扩展相似性度量指示了在所述扩展项和站点内容之间的相似度; 考虑至U相似性分类器,计算扩展项和站点内容之间的类别相似性度量,该相似性分类器已根据挖掘的与目录数据相关的Web站点内容进行了训练; 根据多个相似性度量的组合来计算信用度值,所述组合包括直接内容、扩展和类别相似性度量,该信用度值提供了投标项和站点内容之间的相关性的客观度量; 根据信用度值觀标项和投标URL缓存到投标麵库中; 响应于接收到搜索查询,考虑到搜寻_的项可能没有与投标项精确地匹配的可能性,确定该搜索查询的项是否与投标项相关;以及 如果搜索查询的项确定为与投标项相关,那么就将投标URL发送给最终用户。
2、如权利要求I所述的方法,其中相似性分类器是基于以NaiVe Bayesian定律为基础的统计n-gram、Naive BayesianNBλ支持向量机SVM、最近邻域KNN.决策树、联合训练、助推分■型为基础的。
3、如权利要求I所述的方法,其中识别扩展项包括从项簇中识别所述扩展项,所述项簇是从较高的出现频率的历史查询项中产生,该项簇包括所述扩展项。
4、如权利要求I所述的方法,其中产生直接内容相似性度量还包括:从投标项和站点内容中产生各个项向量,并计算各个项向量之间的项相似性,以便确定投标项和站点内容之间的直接相似性。
5、如权利要求I所述的方法,其中产生扩展相似性度量还包括: 从投标项、站点内容和扩展项中产生各个项向量;以及计算各个项向量之间的相似性,以便确定投标项和站点内容之间的相似性度量。
6、如权利要求I所述的方法,其中产生类别相似性度量还包括: 从与目录数据相关的Web站点内容中提取特征,该特征包括标题、元数据、正文、超链接、可视特征以及/或网页布局分析信息的概要; 通过特征的选择降低#征的维数; 通分类器MWT征分类’以航生相似性分类器; 从投标项、站点内容和扩展项中产生各个项向量;以及计算各个项向量之间的相似性,来作为该相似性分类器的一个函数以便确定类别相似_量。
7、如权利要求I所述的方法,其中计算信用度值还包括: 考虑到拒绝/接受阈值,以页,Web网页,接受/拒绝>格式的数据来训练组合的相关性分类器; 从内容、扩展和类别相似性度量中产生相关性检验相似性度量RSVM特征向量;以及 、 通过该组合的相关性分类器将来自RSVM特征向量中的多个得分映射到信用度值。
8、如权利要求I所述的方法,其中该方法还包括: 根据投标项和站点内容确定合适的名称相似性度量,该合适的名称相似性度量表示考虑到一组合适的名称,在投标项中检测到的任意合适的名称和站点内容之间的相关度;以及 其中多个相似性度量的组合包括该合适的名称相似性度量。
9、如权利要求8所述的方法,其中确定合适的名称相似性度量还包括: 响应于在投标项和/或站点内容中检测合适的名称,按下式计算合适的名称相似性得分: Prop—Sim(现教点片韵, 其中Prop_Sim(项进点_:在当颂昆括一个合适的名称凡并且热荐包括一个相符的合适的名称2时等于I;在当廣包括一个合适的名称P,并且救点片容R包括不相符的合适的名称时等于O;或者等于0.5ο
10、如权利要求I所述的方法,其中该方法还包括:确定信用度值是否相对较低;以及 响应于确定的结果,产生一个建议的项列表,其中在所述建议的项列表中的项在语XiifP/社下灶与投标URL相关。
11、如权利要求10所述的方法,其中产生所述建议的项列表还包括:从所提交的历史查询的搜索引擎结果中产生一组项簇,每个历史查询与在查询日志中的其它查询项相比,具有相对较低的出现频率;以及 考虑到由项簇指定的项,if估该站点内容,以便识别一个或多个语义上和/或上下文上相关的项,该项是一个或多个其它项。
12、一种用于识别与Web站点内容相关的项的计算设备,该计算设备包括: 根据投标URL获得站点内容的检索装置; 识别装置,用于识别在语义上和/或上下文上与请求项相关的扩展项; 产生装置,用于根据所述投标项和站点内容产生成直接内容相似性度量,并根据所述扩展项和站点内容产生扩展相似性度量,所述直接内容相似性度量指示了在所述投标项和站点内容之间的的相关度,而所述扩展相似性度量指示了在所述扩展项和站点内容之间的相似度; 考虑到相似性分类器地确定扩展项和站点内容之间的类别相似性度量的计算装置,其中该相似性分类器已根据挖掘的与目录数据相关的Web站点内容进行了训练; 从多个相似性度量的组合中产生信用度值的计算装置,该组合包括直接内容、扩展和类别相似性度量,该信用度值提供了投标项和站点内容之间的相关性的客观度量; 根据信用度值機标项和投标URL缓存到投标麵库中的缓响应于接 收到搜索查询,考虑到搜寻顏的项可能没有与投标项精确地匹配的可能性,确定该搜索查询的项是否与投标项相关的确定装置;以及 如果搜索查询的项确定为与投标项相关,那么就将投标URL发送给最终用户的发送装置。
13、如权利要求12所述的计算设备,其中该识别装置还包括:从项簇中识别所述扩展项的装置,所述项簇是从较高的出现频率的历史查询项中产生,该_包括戶;展项。
14、如权利要求12所述的计算设备,其中该产生装置还包括:建立装置,用于从投标项和站点内容中产生各个项向量,并计算各个项向量之间的项相似性,以麵定投标项和站点内容之间的直接相似性。
15、如权利要求12所述的计算设备,其中该产生装置还包括: 建立装置,用于从投标项、站点内容和扩展项中产生各个项向量;以及确定各个项向量之间的相似性,以便确定投标项和站点内容之间的相似性度量的计算装置。
16、如权利要求12所述的计算设备,其中该产生装置还包括: 提取装置,用于从与目录数据相关的Web站点内容中获得特征,该特征包括标题、元雛正文、超链接、可视特征以及/或网页布局分析信息的概要;降低装置,用于通过特征的选择来减少特征的维数; 分类装置,用于通过分类器模1»1#征进擁织,以便产生相似性分类器;从投标项、站点内容和扩展项中建立各个项向量产生装置;以及识别各个项向量之间的相似性,来作为该相似性分类器的一个函数以便确定分类相似性M的计算装置。
17、如权利要求12所述的计算设备,其中该计算还包括: 训练装置,用于考虑到拒绝/接受阈值,以<1 页,Web网页,接受浙绝>格式的数据来训练组合的相关性分类器; 从内容、扩展和类别相似性度量中产生相关性检验相似性度量RSVM特征向量的产生装置;以及 映射装置,用于通过该组合的相关性分类器使来自RSVM特征向量中的多个得分与信用度值相关联。
18、如权利要求12所述的计算设备,其中该计算装置还包括: 确定装置,用于根据投标项和站点内容确定合适的名称相似性度量,该合适的名称相似性度量表示考虑到一组合适的名称,在投标项中检测到的任意合适的名称和站点内容之间的相关度;以及 其中多个相似性度量的组合包括该合适的名称相似性度量。
19、如权利要求18所述的计算设备,其中该用于确定合适的名称相似性度量的确定装置还包括:响应于在投标项和/或站点内容中检测合适的名称,计算合适的名称相似性得分。
20、如权利要求12所述的计算设备,其中该计算设备还包括:确定装置,用于确定信用度值是否相对较低;以及响应于确定的结果,用于创建一个建议的项列表的创建装置,其中所述建议的项列表中的项在语义上和/或上下文上与投标URL相关。
21、如权利要求20所述的计算设备,其中该创建装置还包括: 从所提交的历史查询的搜索引擎结果中产生一组项簇的装置,每个历史查询与在查询日志中的其它查询项相比,具有相对较低的出现频率;以及 if估装置,用于考虑到由项簇表示的项评估该站点内容,以便识别一个或多个语义上和/或上下文上相关的项,该项是一个或多个其它项。
CN 200510078308 2004-04-15 2005-04-13 用于识别与Web站点内容相关的项的方法和计算设备 CN100476814C (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
US10826162 US7260568B2 (en) 2004-04-15 2004-04-15 Verifying relevance between keywords and web site contents
US10/826,162 2004-04-15

Publications (2)

Publication Number Publication Date
CN1691019A true CN1691019A (zh) 2005-11-02
CN100476814C true CN100476814C (zh) 2009-04-08

Family

ID=34939282

Family Applications (1)

Application Number Title Priority Date Filing Date
CN 200510078308 CN100476814C (zh) 2004-04-15 2005-04-13 用于识别与Web站点内容相关的项的方法和计算设备

Country Status (6)

Country Link
US (1) US7260568B2 (zh)
KR (1) KR101201037B1 (zh)
CN (1) CN100476814C (zh)
CA (1) CA2504181C (zh)
EP (1) EP1587010A3 (zh)
RU (1) RU2375747C2 (zh)

Families Citing this family (158)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8065277B1 (en) 2003-01-17 2011-11-22 Daniel John Gardner System and method for a data extraction and backup database
US8630984B1 (en) 2003-01-17 2014-01-14 Renew Data Corp. System and method for data extraction from email files
US8375008B1 (en) 2003-01-17 2013-02-12 Robert Gomes Method and system for enterprise-wide retention of digital or electronic data
US8943024B1 (en) 2003-01-17 2015-01-27 Daniel John Gardner System and method for data de-duplication
US7599938B1 (en) 2003-07-11 2009-10-06 Harrison Jr Shelton E Social news gathering, prioritizing, tagging, searching, and syndication method
CA2574554A1 (en) * 2004-07-21 2006-01-26 Equivio Ltd. A method for determining near duplicate data objects
US8880521B2 (en) * 2004-09-15 2014-11-04 3Degrees Llc Collections of linked databases
US8412706B2 (en) 2004-09-15 2013-04-02 Within3, Inc. Social network analysis
US7801899B1 (en) * 2004-10-01 2010-09-21 Google Inc. Mixing items, such as ad targeting keyword suggestions, from heterogeneous sources
KR100669971B1 (ko) * 2004-11-24 2007-01-16 엔에이치엔(주) 검색 서비스 제공 방법 및 상기 방법을 수행하는 검색시스템
US7428533B2 (en) * 2004-12-06 2008-09-23 Yahoo! Inc. Automatic generation of taxonomies for categorizing queries and search query processing using taxonomies
US7620628B2 (en) * 2004-12-06 2009-11-17 Yahoo! Inc. Search processing with automatic categorization of queries
US8069151B1 (en) 2004-12-08 2011-11-29 Chris Crafford System and method for detecting incongruous or incorrect media in a data recovery process
US7698270B2 (en) * 2004-12-29 2010-04-13 Baynote, Inc. Method and apparatus for identifying, extracting, capturing, and leveraging expertise and knowledge
US8375017B1 (en) * 2005-01-28 2013-02-12 Manta Media, Inc. Automated keyword analysis system and method
US8527468B1 (en) 2005-02-08 2013-09-03 Renew Data Corp. System and method for management of retention periods for content in a computing system
US7685195B2 (en) * 2005-03-24 2010-03-23 Sas Institute Inc. Systems and methods for analyzing web site search terms
US8346757B1 (en) * 2005-03-28 2013-01-01 Google Inc. Determining query terms of little significance
US8453044B2 (en) * 2005-06-29 2013-05-28 Within3, Inc. Collections of linked databases
US20070011020A1 (en) * 2005-07-05 2007-01-11 Martin Anthony G Categorization of locations and documents in a computer network
JPWO2007010836A1 (ja) * 2005-07-15 2009-01-29 ヒューレット−パッカード デベロップメント カンパニー エル.ピー. コミュニティ特有表現検出装置及び方法
US7548929B2 (en) 2005-07-29 2009-06-16 Yahoo! Inc. System and method for determining semantically related terms
US7725485B1 (en) * 2005-08-01 2010-05-25 Google Inc. Generating query suggestions using contextual information
US7711851B2 (en) * 2005-09-16 2010-05-04 Sendori, Inc. Domain name marketplace
US20070094250A1 (en) * 2005-10-20 2007-04-26 Yahoo! Inc. Using matrix representations of search engine operations to make inferences about documents in a search engine corpus
CN1955991A (zh) * 2005-10-25 2007-05-02 国际商业机器公司 在业务模型中集成模型语义和领域语义的方法和装置
US8015065B2 (en) * 2005-10-28 2011-09-06 Yahoo! Inc. Systems and methods for assigning monetary values to search terms
US7472131B2 (en) * 2005-12-12 2008-12-30 Justsystems Evans Research, Inc. Method and apparatus for constructing a compact similarity structure and for using the same in analyzing document relevance
US7660786B2 (en) * 2005-12-14 2010-02-09 Microsoft Corporation Data independent relevance evaluation utilizing cognitive concept relationship
US7949646B1 (en) 2005-12-23 2011-05-24 At&T Intellectual Property Ii, L.P. Method and apparatus for building sales tools by mining data from websites
US20070156654A1 (en) * 2005-12-29 2007-07-05 Kalpana Ravinarayanan Method for displaying search results and contextually related items
US8943039B1 (en) 2006-08-25 2015-01-27 Riosoft Holdings, Inc. Centralized web-based software solution for search engine optimization
US7877392B2 (en) 2006-03-01 2011-01-25 Covario, Inc. Centralized web-based software solutions for search engine optimization
US8972379B1 (en) 2006-08-25 2015-03-03 Riosoft Holdings, Inc. Centralized web-based software solution for search engine optimization
US7698332B2 (en) * 2006-03-13 2010-04-13 Microsoft Corporation Projecting queries and images into a similarity space
US9497314B2 (en) 2006-04-10 2016-11-15 Microsoft Technology Licensing, Llc Mining data for services
US20070244925A1 (en) * 2006-04-12 2007-10-18 Jean-Francois Albouze Intelligent image searching
US7493293B2 (en) * 2006-05-31 2009-02-17 International Business Machines Corporation System and method for extracting entities of interest from text using n-gram models
US8150827B2 (en) * 2006-06-07 2012-04-03 Renew Data Corp. Methods for enhancing efficiency and cost effectiveness of first pass review of documents
US7711736B2 (en) * 2006-06-21 2010-05-04 Microsoft International Holdings B.V. Detection of attributes in unstructured data
US8140267B2 (en) * 2006-06-30 2012-03-20 International Business Machines Corporation System and method for identifying similar molecules
US7970934B1 (en) 2006-07-31 2011-06-28 Google Inc. Detecting events of interest
US7693805B2 (en) * 2006-08-01 2010-04-06 Yahoo, Inc. Automatic identification of distance based event classification errors in a network by comparing to a second classification using event logs
US20080046429A1 (en) * 2006-08-16 2008-02-21 Yahoo! Inc. System and method for hierarchical segmentation of websites by topic
US8838560B2 (en) * 2006-08-25 2014-09-16 Covario, Inc. System and method for measuring the effectiveness of an on-line advertisement campaign
US7752557B2 (en) * 2006-08-29 2010-07-06 University Of Regina Method and apparatus of visual representations of search results
US7774360B2 (en) * 2006-09-08 2010-08-10 Microsoft Corporation Building bridges for web query classification
US7689548B2 (en) * 2006-09-22 2010-03-30 Microsoft Corporation Recommending keywords based on bidding patterns
FI120807B (fi) * 2006-09-26 2010-03-15 Whitevector Oy Tietokohteiden suodatus
US7996393B1 (en) * 2006-09-29 2011-08-09 Google Inc. Keywords associated with document categories
US8943401B2 (en) * 2006-09-29 2015-01-27 Yahoo! Inc. Script-based content-embedding code generation in digital media benefit attachment mechanism
US20080103886A1 (en) * 2006-10-27 2008-05-01 Microsoft Corporation Determining relevance of a term to content using a combined model
US7941436B2 (en) * 2006-11-30 2011-05-10 Yahoo, Inc. Keyword bidding strategy for novel concepts
CA2571172C (en) * 2006-12-14 2012-02-14 University Of Regina Interactive web information retrieval using graphical word indicators
US9582804B2 (en) * 2006-12-22 2017-02-28 Excalibur Ip, Llc Link retrofitting of digital media objects
US7562088B2 (en) * 2006-12-27 2009-07-14 Sap Ag Structure extraction from unstructured documents
US7809718B2 (en) * 2007-01-29 2010-10-05 Siemens Corporation Method and apparatus for incorporating metadata in data clustering
US7685084B2 (en) * 2007-02-09 2010-03-23 Yahoo! Inc. Term expansion using associative matching of labeled term pairs
US8332207B2 (en) * 2007-03-26 2012-12-11 Google Inc. Large language models in machine translation
US8015190B1 (en) * 2007-03-30 2011-09-06 Google Inc. Similarity-based searching
US7856433B2 (en) * 2007-04-06 2010-12-21 Yahoo! Inc. Dynamic bid pricing for sponsored search
US8117137B2 (en) * 2007-04-19 2012-02-14 Microsoft Corporation Field-programmable gate array based accelerator system
US20080270364A1 (en) * 2007-04-30 2008-10-30 Google Inc. Expansion rule evaluation
US20080301096A1 (en) * 2007-05-29 2008-12-04 Microsoft Corporation Techniques to manage metadata fields for a taxonomy system
US9015279B2 (en) * 2007-06-15 2015-04-21 Bryte Computer Technologies Methods, systems, and computer program products for tokenized domain name resolution
US20090037399A1 (en) * 2007-07-31 2009-02-05 Yahoo! Inc. System and Method for Determining Semantically Related Terms
US8005782B2 (en) * 2007-08-10 2011-08-23 Microsoft Corporation Domain name statistical classification using character-based N-grams
US8041662B2 (en) * 2007-08-10 2011-10-18 Microsoft Corporation Domain name geometrical classification using character-based n-grams
KR100910521B1 (ko) * 2007-08-14 2009-02-18 엔에이치엔비즈니스플랫폼 주식회사 광고 키워드 제안 방법 및 그 시스템
KR100936595B1 (ko) * 2007-08-14 2010-01-13 엔에이치엔비즈니스플랫폼 주식회사 단어 연관도를 기반으로 카테고리 연관도를 측정하는 방법및 상기 방법을 수행하는 시스템
US20090070310A1 (en) * 2007-09-07 2009-03-12 Microsoft Corporation Online advertising relevance verification
US9058608B2 (en) * 2007-09-12 2015-06-16 Google Inc. Placement attribute targeting
US8195634B2 (en) * 2007-09-28 2012-06-05 Microsoft Corporation Domain-aware snippets for search results
US8463779B2 (en) * 2007-10-30 2013-06-11 Yahoo! Inc. Representative keyword selection
CN100504881C (zh) 2007-11-12 2009-06-24 浙江大学 一种基于语义查询重写的柔性数据服务组合的方法
US9400843B2 (en) * 2007-12-04 2016-07-26 Yahoo! Inc. Adjusting stored query relevance data based on query term similarity
US8126881B1 (en) 2007-12-12 2012-02-28 Vast.com, Inc. Predictive conversion systems and methods
US8615490B1 (en) 2008-01-31 2013-12-24 Renew Data Corp. Method and system for restoring information from backup storage media
US20090204478A1 (en) * 2008-02-08 2009-08-13 Vertical Acuity, Inc. Systems and Methods for Identifying and Measuring Trends in Consumer Content Demand Within Vertically Associated Websites and Related Content
US20090248534A1 (en) * 2008-03-31 2009-10-01 Yahoo! Inc. System and method for offering an auction bundle in an online advertising auction
CN101571890A (en) * 2008-04-28 2009-11-04 国际商业机器公司 Method and system for automatically evaluating quality of case history
US20120053990A1 (en) * 2008-05-07 2012-03-01 Nice Systems Ltd. System and method for predicting customer churn
US8918369B2 (en) * 2008-06-05 2014-12-23 Craze, Inc. Method and system for classification of venue by analyzing data from venue website
US8171021B2 (en) * 2008-06-23 2012-05-01 Google Inc. Query identification and association
US8290946B2 (en) * 2008-06-24 2012-10-16 Microsoft Corporation Consistent phrase relevance measures
US8065310B2 (en) * 2008-06-25 2011-11-22 Microsoft Corporation Topics in relevance ranking model for web search
JP5387860B2 (ja) * 2008-06-26 2014-01-15 日本電気株式会社 コンテンツ話題性判定システム、その方法及びプログラム
US20090327913A1 (en) * 2008-06-27 2009-12-31 Microsoft Corporation Using web revisitation patterns to support web interaction
US8521731B2 (en) 2008-07-09 2013-08-27 Yahoo! Inc. Systems and methods for query expansion in sponsored search
US8108537B2 (en) * 2008-07-24 2012-01-31 International Business Machines Corporation Method and system for improving content diversification in data driven P2P streaming using source push
US8301638B2 (en) * 2008-09-25 2012-10-30 Microsoft Corporation Automated feature selection based on rankboost for ranking
US8131659B2 (en) * 2008-09-25 2012-03-06 Microsoft Corporation Field-programmable gate array based accelerator system
US8484014B2 (en) * 2008-11-03 2013-07-09 Microsoft Corporation Retrieval using a generalized sentence collocation
US8396742B1 (en) 2008-12-05 2013-03-12 Covario, Inc. System and method for optimizing paid search advertising campaigns based on natural search traffic
US8799279B2 (en) 2008-12-31 2014-08-05 At&T Intellectual Property I, L.P. Method and apparatus for using a discriminative classifier for processing a query
US20100191731A1 (en) * 2009-01-23 2010-07-29 Vasile Rus Methods and systems for automatic clustering of defect reports
US8370119B2 (en) * 2009-02-19 2013-02-05 Microsoft Corporation Website design pattern modeling
US8843476B1 (en) * 2009-03-16 2014-09-23 Guangsheng Zhang System and methods for automated document topic discovery, browsable search and document categorization
US8185432B2 (en) * 2009-05-08 2012-05-22 Sas Institute Inc. Computer-implemented systems and methods for determining future profitability
US20100293184A1 (en) * 2009-05-13 2010-11-18 Yahoo! Inc. Identification of related bid phrases and categories using co-bidding information
US20110040604A1 (en) * 2009-08-13 2011-02-17 Vertical Acuity, Inc. Systems and Methods for Providing Targeted Content
US20110161091A1 (en) * 2009-12-24 2011-06-30 Vertical Acuity, Inc. Systems and Methods for Connecting Entities Through Content
US8612364B2 (en) * 2009-10-29 2013-12-17 Xerox Corporation Method for categorizing linked documents by co-trained label expansion
US20120216107A1 (en) * 2009-10-30 2012-08-23 Rakuten, Inc. Characteristic content determination program, characteristic content determination device, characteristic content determination method, recording medium, content generation device, and related content insertion device
US20150227627A1 (en) * 2009-10-30 2015-08-13 Rakuten, Inc. Characteristic content determination device, characteristic content determination method, and recording medium
KR101252245B1 (ko) * 2009-11-13 2013-04-05 고려대학교 산학협력단 주제 분류 모듈 및 그를 이용한 문맥 광고 시스템
US8738668B2 (en) 2009-12-16 2014-05-27 Renew Data Corp. System and method for creating a de-duplicated data set
WO2011079415A1 (en) * 2009-12-30 2011-07-07 Google Inc. Generating related input suggestions
US8868402B2 (en) 2009-12-30 2014-10-21 Google Inc. Construction of text classifiers
US9336315B2 (en) * 2010-01-19 2016-05-10 Ebay Inc. Personalized recommendation of a volatile item
US8275771B1 (en) * 2010-02-26 2012-09-25 Google Inc. Non-text content item search
US8560466B2 (en) * 2010-02-26 2013-10-15 Trend Micro Incorporated Method and arrangement for automatic charset detection
US9405773B2 (en) * 2010-03-29 2016-08-02 Ebay Inc. Searching for more products like a specified product
US8861844B2 (en) 2010-03-29 2014-10-14 Ebay Inc. Pre-computing digests for image similarity searching of image-based listings in a network-based publication system
JP5339491B2 (ja) * 2010-03-31 2013-11-13 楽天株式会社 検索システム、検索方法、検索プログラム及び記録媒体
US8788260B2 (en) 2010-05-11 2014-07-22 Microsoft Corporation Generating snippets based on content features
US8595207B2 (en) * 2010-06-14 2013-11-26 Salesforce.Com Methods and systems for dynamically suggesting answers to questions submitted to a portal of an online service
US20110314001A1 (en) * 2010-06-18 2011-12-22 Microsoft Corporation Performing query expansion based upon statistical analysis of structured data
WO2012021820A3 (en) * 2010-08-13 2012-05-31 Ii James Duncan Mcrae System and method for utilizing media content to initiate conversations between businesses and consumers
US8650191B2 (en) 2010-08-23 2014-02-11 Vistaprint Schweiz Gmbh Search engine optimization assistant
US20120089456A1 (en) * 2010-10-06 2012-04-12 Yahoo! Inc. System for search bid term selection
US20120158712A1 (en) * 2010-12-16 2012-06-21 Sushrut Karanjkar Inferring Geographic Locations for Entities Appearing in Search Queries
US9342590B2 (en) * 2010-12-23 2016-05-17 Microsoft Technology Licensing, Llc Keywords extraction and enrichment via categorization systems
CN102646103B (zh) * 2011-02-18 2016-03-16 腾讯科技(深圳)有限公司 检索词的聚类方法和装置
US9043358B2 (en) * 2011-03-09 2015-05-26 Microsoft Technology Licensing, Llc Enterprise search over private and public data
US8719192B2 (en) 2011-04-06 2014-05-06 Microsoft Corporation Transfer of learning for query classification
US8983995B2 (en) * 2011-04-15 2015-03-17 Microsoft Corporation Interactive semantic query suggestion for content search
US20120310690A1 (en) * 2011-06-06 2012-12-06 Winshuttle, Llc Erp transaction recording to tables system and method
US20120323627A1 (en) * 2011-06-14 2012-12-20 Microsoft Corporation Real-time Monitoring of Public Sentiment
US9519726B2 (en) 2011-06-16 2016-12-13 Amit Kumar Surfacing applications based on browsing activity
US8417718B1 (en) * 2011-07-11 2013-04-09 Google Inc. Generating word completions based on shared suffix analysis
US8838575B2 (en) * 2011-08-03 2014-09-16 Sap Ag Generic framework for historical analysis of business objects
US20140324573A1 (en) * 2011-10-31 2014-10-30 Simon Raab System and method for click fraud protection
US20130110648A1 (en) * 2011-10-31 2013-05-02 Simon Raab System and method for click fraud protection
WO2013066755A1 (en) * 2011-10-31 2013-05-10 Pureclick Llc System and method for click fraud protection
US20140278947A1 (en) * 2011-10-31 2014-09-18 Pureclick Llc System and method for click fraud protection
US9235565B2 (en) 2012-02-14 2016-01-12 Facebook, Inc. Blending customized user dictionaries
US9330082B2 (en) 2012-02-14 2016-05-03 Facebook, Inc. User experience with customized user dictionary
US20130211915A1 (en) * 2012-02-14 2013-08-15 Erick Tseng Advertising Based on Customized User Dictionary
US9330083B2 (en) 2012-02-14 2016-05-03 Facebook, Inc. Creating customized user dictionary
CN103631769B (zh) * 2012-08-23 2017-10-17 北京音之邦文化科技有限公司 一种判断文件内容与标题间一致性的方法及装置
CN103678320B (zh) * 2012-09-03 2017-10-27 腾讯科技(深圳)有限公司 网络信息的挖掘方法和装置
US9384244B1 (en) * 2012-11-28 2016-07-05 BloomReach Inc. Search with autosuggest and refinements
US8972435B2 (en) 2012-12-14 2015-03-03 Microsoft Corporation Automatic generation of semantically similar queries
US9104718B1 (en) 2013-03-07 2015-08-11 Vast.com, Inc. Systems, methods, and devices for measuring similarity of and generating recommendations for unique items
US9465873B1 (en) 2013-03-07 2016-10-11 Vast.com, Inc. Systems, methods, and devices for identifying and presenting identifications of significant attributes of unique items
US9830635B1 (en) 2013-03-13 2017-11-28 Vast.com, Inc. Systems, methods, and devices for determining and displaying market relative position of unique items
CN103136372B (zh) * 2013-03-21 2016-03-02 陕西通信信息技术有限公司 网络可信性行为管理中url快速定位、分类和过滤方法
US9674132B1 (en) * 2013-03-25 2017-06-06 Guangsheng Zhang System, methods, and user interface for effectively managing message communications
KR101485940B1 (ko) * 2013-08-23 2015-01-27 네이버 주식회사 시멘틱 뎁스 구조 기반의 검색어 제시 시스템 및 방법
US9450953B2 (en) * 2013-11-06 2016-09-20 Blackberry Limited Blacklisting of frequently used gesture passwords
US9569536B2 (en) 2013-12-17 2017-02-14 Microsoft Technology Licensing, Llc Identifying similar applications
CN103870553A (zh) * 2014-03-03 2014-06-18 百度在线网络技术(北京)有限公司 一种输入资源推送方法及系统
US9836765B2 (en) 2014-05-19 2017-12-05 Kibo Software, Inc. System and method for context-aware recommendation through user activity change detection
US9697286B2 (en) * 2015-03-16 2017-07-04 International Business Machines Corporation Shared URL content update to improve search engine optimization
US9836435B2 (en) 2015-03-19 2017-12-05 International Business Machines Corporation Embedded content suitability scoring
US9589237B1 (en) * 2015-11-17 2017-03-07 Spotify Ab Systems, methods and computer products for recommending media suitable for a designated activity
RU2632134C2 (ru) * 2015-12-28 2017-10-02 Общество С Ограниченной Ответственностью "Яндекс" Способ и система обработки поисковых запросов

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5694592A (en) * 1993-11-05 1997-12-02 University Of Central Florida Process for determination of text relevancy
US6003027A (en) * 1997-11-21 1999-12-14 International Business Machines Corporation System and method for determining confidence levels for the results of a categorization system
US6167398A (en) * 1997-01-30 2000-12-26 British Telecommunications Public Limited Company Information retrieval system and method that generates weighted comparison results to analyze the degree of dissimilarity between a reference corpus and a candidate document

Family Cites Families (34)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH03122770A (en) 1989-10-05 1991-05-24 Ricoh Co Ltd Method for retrieving keyword associative document
US5265065A (en) 1991-10-08 1993-11-23 West Publishing Company Method and apparatus for information retrieval from a database by replacing domain specific stemmed phases in a natural language to create a search query
US5488725A (en) 1991-10-08 1996-01-30 West Publishing Company System of document representation retrieval by successive iterated probability sampling
US7251637B1 (en) 1993-09-20 2007-07-31 Fair Isaac Corporation Context vector generation and retrieval
US5812134A (en) 1996-03-28 1998-09-22 Critical Thought, Inc. User interface navigational system & method for interactive representation of information contained within a database
JP3108015B2 (ja) 1996-05-22 2000-11-13 松下電器産業株式会社 ハイパーテキスト検索装置
WO1997049048A1 (en) 1996-06-17 1997-12-24 Idd Enterprises, L.P. Hypertext document retrieval system and method
US5987460A (en) 1996-07-05 1999-11-16 Hitachi, Ltd. Document retrieval-assisting method and system for the same and document retrieval service using the same with document frequency and term frequency
US6457004B1 (en) 1997-07-03 2002-09-24 Hitachi, Ltd. Document retrieval assisting method, system and service using closely displayed areas for titles and topics
US6112202A (en) 1997-03-07 2000-08-29 International Business Machines Corporation Method and system for identifying authoritative information resources in an environment with content-based links between information resources
US6470307B1 (en) 1997-06-23 2002-10-22 National Research Council Of Canada Method and apparatus for automatically identifying keywords within a document
US5845278A (en) 1997-09-12 1998-12-01 Inioseek Corporation Method for automatically selecting collections to search in full text searches
US6421675B1 (en) 1998-03-16 2002-07-16 S. L. I. Systems, Inc. Search engine
JPH11328724A (ja) 1998-05-18 1999-11-30 Fuji Photo Film Co Ltd 3次元光メモリ
US6006225A (en) 1998-06-15 1999-12-21 Amazon.Com Refining search queries by the suggestion of correlated terms from prior searches
US6598054B2 (en) 1999-01-26 2003-07-22 Xerox Corporation System and method for clustering data objects in a collection
US7225182B2 (en) 1999-05-28 2007-05-29 Overture Services, Inc. Recommending search terms using collaborative filtering and web spidering
US6711585B1 (en) 1999-06-15 2004-03-23 Kanisa Inc. System and method for implementing a knowledge management system
US6556983B1 (en) 2000-01-12 2003-04-29 Microsoft Corporation Methods and apparatus for finding semantic information, such as usage logs, similar to a query using a pattern lattice data space
US6615209B1 (en) 2000-02-22 2003-09-02 Google, Inc. Detecting query-specific duplicate documents
DE10029644B4 (de) 2000-06-16 2008-02-07 Deutsche Telekom Ag Verfahren zur Relevanzbewertung bei der Indexierung von Hypertext-Dokumenten mittels Suchmaschine
US7490092B2 (en) 2000-07-06 2009-02-10 Streamsage, Inc. Method and system for indexing and searching timed media information based upon relevance intervals
US7587428B2 (en) 2000-10-13 2009-09-08 Microsoft Corporation Maintaining a relationship between two different items of data
US6560600B1 (en) 2000-10-25 2003-05-06 Alta Vista Company Method and apparatus for ranking Web page search results
US7356530B2 (en) 2001-01-10 2008-04-08 Looksmart, Ltd. Systems and methods of retrieving relevant information
US6742003B2 (en) 2001-04-30 2004-05-25 Microsoft Corporation Apparatus and accompanying methods for visualizing clusters of data and hierarchical cluster classifications
US6892193B2 (en) 2001-05-10 2005-05-10 International Business Machines Corporation Method and apparatus for inducing classifiers for multimedia based on unified representation of features reflecting disparate modalities
US20030065632A1 (en) 2001-05-30 2003-04-03 Haci-Murat Hubey Scalable, parallelizable, fuzzy logic, boolean algebra, and multiplicative neural network based classifier, datamining, association rule finder and visualization software tool
US20030046389A1 (en) 2001-09-04 2003-03-06 Thieme Laura M. Method for monitoring a web site's keyword visibility in search engines and directories and resulting traffic from such keyword visibility
US7167871B2 (en) 2002-05-17 2007-01-23 Xerox Corporation Systems and methods for authoritativeness grading, estimation and sorting of documents in large heterogeneous document collections
JP3918664B2 (ja) 2002-07-10 2007-05-23 ヤマハ株式会社 音響信号処理装置
DE60335472D1 (de) * 2002-07-23 2011-02-03 Quigo Technologies Inc System und verfahren zur automatisierten abbildung von schlüsselwörtern und schlüsselphrasen auf dokumenten
US7225184B2 (en) 2003-07-18 2007-05-29 Overture Services, Inc. Disambiguation of search phrases using interpretation clusters
US7165119B2 (en) 2003-10-14 2007-01-16 America Online, Inc. Search enhancement system and method having rankings, explicitly specified by the user, based upon applicability and validity of search parameters in regard to a subject matter

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5694592A (en) * 1993-11-05 1997-12-02 University Of Central Florida Process for determination of text relevancy
US6167398A (en) * 1997-01-30 2000-12-26 British Telecommunications Public Limited Company Information retrieval system and method that generates weighted comparison results to analyze the degree of dissimilarity between a reference corpus and a candidate document
US6003027A (en) * 1997-11-21 1999-12-14 International Business Machines Corporation System and method for determining confidence levels for the results of a categorization system

Also Published As

Publication number Publication date Type
US7260568B2 (en) 2007-08-21 grant
RU2005111001A (ru) 2006-10-20 application
EP1587010A2 (en) 2005-10-19 application
US20050234953A1 (en) 2005-10-20 application
JP2005302041A (ja) 2005-10-27 application
CN1691019A (zh) 2005-11-02 application
CA2504181A1 (en) 2005-10-15 application
EP1587010A3 (en) 2006-11-02 application
RU2375747C2 (ru) 2009-12-10 grant
KR20060045786A (ko) 2006-05-17 application
CA2504181C (en) 2013-08-06 grant
KR101201037B1 (ko) 2012-11-14 grant

Similar Documents

Publication Publication Date Title
Gravano et al. Text joins in an RDBMS for web data integration
Elmagarmid et al. Duplicate record detection: A survey
Zhong et al. Effective pattern discovery for text mining
McCallum et al. Automating the construction of internet portals with machine learning
Lewis An evaluation of phrasal and clustered representations on a text categorization task
Yang et al. Structured use of external knowledge for event-based open domain question answering
Shen et al. Building bridges for web query classification
Gan et al. Analysis of geographic queries in a search engine log
Mann et al. Unsupervised personal name disambiguation
Chirita et al. P-tag: large scale automatic generation of personalized annotation tags for the web
Becker et al. Learning similarity metrics for event identification in social media
Hai et al. Identifying features in opinion mining via intrinsic and extrinsic domain relevance
US20070094285A1 (en) Question answering over structured content on the web
US20070136256A1 (en) Method and apparatus for representing text using search engine, document collection, and hierarchal taxonomy
US20090006343A1 (en) Machine assisted query formulation
US20060259481A1 (en) Method of analyzing documents
Hiemstra et al. Parsimonious language models for information retrieval
US7287025B2 (en) Systems and methods for query expansion
US20060230033A1 (en) Searching through content which is accessible through web-based forms
US7509313B2 (en) System and method for processing a query
US20040049499A1 (en) Document retrieval system and question answering system
Zaragoza et al. Ranking very many typed entities on wikipedia
Nenkova et al. A compositional context sensitive multi-document summarizer: exploring the factors that influence summarization
US6965900B2 (en) Method and apparatus for electronically extracting application specific multidimensional information from documents selected from a set of documents electronically extracted from a library of electronically searchable documents
Pu et al. Subject categorization of query terms for exploring Web users' search interests

Legal Events

Date Code Title Description
C06 Publication
C10 Entry into substantive examination
C14 Grant of patent or utility model
C41 Transfer of patent application or patent right or utility model
ASS Succession or assignment of patent right

Owner name: MICROSOFT TECHNOLOGY LICENSING LLC

Free format text: FORMER OWNER: MICROSOFT CORP.

Effective date: 20150515

EXPY Termination of patent right or utility model