CN102687137A - 搜索日志中的概念发现 - Google Patents

搜索日志中的概念发现 Download PDF

Info

Publication number
CN102687137A
CN102687137A CN2010800520805A CN201080052080A CN102687137A CN 102687137 A CN102687137 A CN 102687137A CN 2010800520805 A CN2010800520805 A CN 2010800520805A CN 201080052080 A CN201080052080 A CN 201080052080A CN 102687137 A CN102687137 A CN 102687137A
Authority
CN
China
Prior art keywords
inquiry
notion
graph
relation
url
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN2010800520805A
Other languages
English (en)
Inventor
R·阿加瓦
S·戈拉普迪
N·米希拉
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Microsoft Corp
Original Assignee
Microsoft Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Microsoft Corp filed Critical Microsoft Corp
Publication of CN102687137A publication Critical patent/CN102687137A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/338Presentation of query results
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/954Navigation, e.g. using categorised browsing

Abstract

描述了响应于查询返回补充(或替代)传统链接形式的搜索结果的概念的搜索(例如,web搜索)。每个概念通常对应于连接到内容的链接的集合,该链接的集合通常更针对关于该查询的可能的用户意图、或信息需求。如果用户选择了概念,则展示该概念的链接以便于选择用户认为相关的文档。以此方式,可以为查询提供远不止前十个已排序链接,每个其他链接的集合按照概念来排列。还描述了处理查询日志或其他数据存储以便可选地查找相关的查询并查找概念,例如,通过对从查询日志构建的关系图进行聚类来查找表示概念的密集子图。

Description

搜索日志中的概念发现
背景技术
用于用户查询的当代搜索引擎执行通常基于关键词搜索的搜索。搜索引擎依赖于查询内的关键词来查找匹配的文档,并且基于可能的相关性对其排序。随后将连接到一定数量的这些文档的链接(例如,前10个链接)作为搜索结果返回。
即使全部10个链接可能与查询相关,但用户经常无法在那前10个链接中查找到所期望的结果。有时候这是因为用户寻求获得关于想法的概要信息,该想法也许可用多种方式来表达,或者因为该想法具有多个维度。例如,考虑在2008时间框架中提出同样查询“经济危机”的各个用户。每个用户可能对2008危机的不同部分感兴趣,诸如房市危机、银行援救、按揭证券、股票市场、信贷违约、汽车企业等。在诸如存在如此众多可能的用户意图的情形中,不存在能够令人满意地回答全部用户的查询的10个链接的集合。此外,词语“经济危机”甚至可能不会出现在用户可能认为高度相关并想要查看的文档内。
发明内容
提供本概述以便以简化形式介绍将在以下的详细描述中进一步描述的一些代表性概念。本概述不旨在标识出所要求保护的主题的关键特征或必要特征,也不旨在以限制所要求保护的主题的范围的任何方式来使用。
简言之,此处描述的主题的各方面是针对响应于查询返回补充(或替代)传统链接形式的搜索结果的概念的技术。每个概念对应于连接到内容的链接的集合,该链接的集合通常更针对该查询的可能的用户意图。如果用户选择了一概念,则展示该概念的链接以便于选择用户认为相关的文档。
一方面,在离线构建的概念数据存储中维护概念。为此,可以可选地处理诸如查询日志的数据存储以便查找相关的查询,并且将另一个数据源处理成关系图,例如,表达式-URL图。在关系图上执行聚类,使得每个聚类对应于一个概念并且标识查询集合和URL集合。聚类可以通过在关系图中查询密集子图(例如,满足内部密度条件和(可选的)外部稀疏性条件的子图)来操作。
结合附图阅读以下详细描述,本发明的其他优点会变得显而易见。
附图说明
作为示例而非限制,在附图中示出了本发明,附图中相同的附图标记指示相同或相似的元素,附图中:
图1是示出示例浏览器窗口的表示,该示例浏览器窗口示出了如何响应于查询将概念呈现给用户。
图2是示出响应于查询来返回概念的示例组件的框图。
图3是关系图(例如,查询-点击图)的表示,处理该关系图来确定与概念相对应的信息需求聚类。
图4是示出与返回用于查询的概念相关的示例步骤的流程图。
图5示出了可以将本发明的各个方面集成到其中的计算环境的说明性示例。
具体实施方式
此处描述的技术的各方面通常针对搜索引擎,该搜索引擎通过呈现除普通搜索结果以外的(或代替普通搜索结果的)与搜索相关的关键概念来提供丰富的用户体验。为此,基于通常是与概念相关联的查询和URL的集合的(下面描述的)信息需求,当提出用户查询时,返回一定数量的最相关的概念,而不是简单地基于关键词搜索来查找前10个最相关的文档链接。用户随后可选择适合的概念以便基于所选择的概念来查找相关的链接。
作为示例,用诸如“经济危机”的简单表达式来查询的用户可能对任意数量的与经济危机相关的概念感兴趣(由此此类查询可能无法用10个URL来回答)。图1示出了可如何将此类概念(和某些链接)(例如,在浏览器窗口100中)呈现给用户的一个示例。可以容易地理解,图1仅是显示概念的很多可能的方式的一个示例;另外,此类概念可以占据整个浏览器窗口或其他用户界面屏幕,或者可以与诸如前10个传统链接、广告、相关的搜索等其他内容共享窗口/屏幕。
在图1的示例中,用户的查询“经济危机”102被示为被相对更具体的文本/图像所包围,该文本/图像与概念相对应,用户可点击或以其他方式选择(例如,旋转、触摸等)概念以便查看该概念的附加内容链接。此类附加内容链接可包括若用户实际输入了随附每个图像的文本/术语(例如,“对教育的影响”,而不是“经济危机”本身)则获得的预定链接、和/或普通搜索结果,或者可以是术语的另一个集合,例如,“对得到贷款的能力的影响”。注意的是,诸如其他用户最经常选择的概念之类的(由图1中其大小所指示的以及由较深边框110所强调的)一个概念可以“处于焦点”或诸如此类,并且具有为该概念自动显示的某些随附的链接。此外,注意所提供的概念中的一个或多个本质上可以是商业的,例如,“查找住房抵押贷款的优惠利率”,“财政建议”等。此类商业概念可以与非商业概念混和,或者可以是也返回给用户的单独的概念集合。
应当理解,此处的任何示例均是非限制性的示例。例如,虽然此处描述了web搜索,但是诸如关系数据库搜索等其他搜索可以返回概念以帮助用户聚焦所期望的结果。因此,本发明不限于在此描述的任何具体的实施例、方面、概念、结构、功能或示例。相反,此处所描述的实施例、方面、概念、结构、功能或示例中的任一个都是非限制性的,并且本发明可以一般地以在计算和搜索/查询处理方面提供好处和优点的各种方式来使用。
在一个实现中,首先可选地从各个数据源挖掘相关的查询。在一个实施例中,可通过查询-点击图上的随机走查来发现相关的查询。在另一个实施例中,构建图,由此若满足以下之一或以下的若干组合则顶点包括表达式,并且一条边连接两个表达式:(a)一些或许多用户在时间窗口中同时提出两个表达式;(b)一些或许多URL使两个表达式同时出现在标题中;(c)一些或许多URL使两个表达式同时出现在主体中;(d)一些或许多URL使两个表达式同时在锚文本中使用;和/或(e)一些或许多广告商对两个表达式进行投标等。边构建不限于这些资源,而是反映了某些共同的数据源。
一旦这种图被构建,则很多可能的聚类算法中的任一个可用于查找相关的查询。在一个实施例中,被连接的组件可形成相关的查询。在另一个实施例中,谱聚类可用于查找相关的查询。还可以应用很多其他的聚类方法(例如,本领域中已知的)。
从与之前的用户动作和其他信息相对应的数据中挖掘信息需求,其中每个信息需求是由记为(Q,N)的(表达式,需求)对的元组,其中Q是指表达式集合,N是指网页集合。具体而言,对于每个信息需求,挖掘确定了记为Q的表达式的集合,可将该表达式的任一个作为搜索查询来提出以表达特定的需求;对于每个信息需求,获得满足该需求的网页集合N。
如图2中所表示的,如下面所描述的,挖掘机制204挖掘并使用一个或多个搜索日志202等来确定(Q,N)信息需求,该信息需求可在概念数据存储206中来维护。如下面所描述的,在挖掘中,处理搜索日志202以便将其表示为至少一个二分关系图(例如,查询-点击图,锚-点击图和/或标记-点击图),该二分关系图随后被聚类以标识概念。
图2中还表示在线查询处理,在图2中,带圈的数字一(1)到八(8)概括地提供了关于返回概念的在线操作的次序。给定搜索查询208,搜索引擎210访问概念数据存储206,并且若这种概念存在则返回与该查询相关的概念。在一个实现中,将概念结果212与传统的搜索结果(例如,前十个链接)合并到返回给用户的页面中。然而,出于本描述的目的,此时不详细地描述这种传统的文档搜索。
如果用户接收概念并随后选择概念中的一个,则基于所选择的概念214来提供连接到URL/文档(例如,文档集N)的链接。一般而言,这些是按相关性排序的传统链接,并且可以包括图像、广告(例如,至少部分地基于概念来定向的广告)等。注意,给定一个概念,可以执行搜索,或者可以提前知道每个概念的文档集N,该文档集N可在用户选择概念之前经由搜索结果对浏览器可用。在该示例中,搜索引擎210随后访问文档数据存储216以便提供从所选概念中选择的文档218。
转向与挖掘以便获得概念相关的各方面,一般而言,如果Q中的每个查询可用于表达N中每个URL的需求,并且如果不在Q中的查询通常不用于表达N中URL的需求,则每个(Q,N)信息需求是(表达式,需求)对。类似地,响应于Q中的查询,通常不点击不在N中的URL。
如图3中所表示的,挖掘机制204构建二分关系图330,G=(U,V,E),该二分关系图随后由聚类过程332处理以查找与概念相对应的子图334。在一个实现中,例如,图330是查询-点击图,U表示包括查询或表达式的顶点,V表示包括URL的顶点,并且如果提交查询的用户点击了响应于该查询被返回的URL,则该查询和该URL之间存在边E。其它类型的关系图可以使用锚文本的集合作为左边顶点,在右边使用URL,在指向URL的每个锚文本的集合之间存在边。类似的标记-URL图是可以构建并聚类的另一个关系图。还可以通过多种方式来组合关系图,例如,组合来自上面的关系图中的每一个的边,或者对来自关系图中的每一个的边进行加权。
注意,对于解释查询-点击日志和锚-URL日志,由于查询是搜索用户提出的,因此查询-点击日志中可存在很多与点击相关联的“有噪声的”查询。有噪声的查询的某些示例包括拼写错误的查询、色情查询等。因此,从查询-点击图获得的表达式-需求对(E,N)中的一组查询经常被观察到是彼此的较小的变型。对查询点击图与锚URL图进行组合能够用较少噪声的表达式来提高表达式集合。注意,在参考网页中使用的锚文本包括由专家或精选的几个人更加仔细地编辑的“表达式”。
其他类型的关系图仍然是可能的;例如U可再包括带有基于与URL相关的文本而非URL本身(例如,在URL的标题、主体、锚和/或其他文本(例如,URL串的文本)中发现的文本)的顶点V的查询。边表示查询文本与URL文本之间的匹配。
另外,如果执行查找相关表达式的可选的第一个步骤,则二分图可被进一步修饰以包括更多的边。在一个实施例中,如果已知表达式u1和u2是相关的,并且如果表达式u1包含对URL V’的集合的点击,而表达式u2包含对URL V”的集合的点击,则查询点击图中的边可被修饰为包括从u1到V’∪V”以及从u2到V’∪V”的边。
对于聚类,给定这种关系图,信息需求可被认为是查找(表达式,需求)对的问题,该问题可通过查找密集子图来解决。在图术语中,如果(Q,N)是密集二分子图,则(Q,N)是(表达式,需求)对,并且可选地不在Q中的每个q’具有很少的到N的边,并且不在N中的每个n’具有很少的到Q的边。注意,存在很多方式来查找密集子图;在此描述了一个示例,并且概括地在查询-点击图的上下文中来解释该示例,虽然可以按照相同的方式来处理包括上面所描述的那些的任何其他图。
Figure BDA00001650529700061
上面的内部密度条件(1)是针对子图内部的边有多密集,以及可能需要完整的子图,例如其中全部查询具有到该子图的全部URL的边的子图。该条件还可以使得Q中大部分顶点U具有到N中大多数顶点V的边,而非需要全部。一个可能的定义是|E(N,Q)|>=β|N||Q|。另一个可能的放宽是对于N中每个n,|E(n,Q)|>=β|Q|,并且对于Q中每个q,|E(N,q)|>=β|N|。
条件(2)总体与外部稀疏性(alpha,或α)相关,使得聚类外部的查询不会太经常地导致对聚类中的URL的点击。虽然是可选的,但考虑外部稀疏性是出于多种原因的。对于仅限制密度的一个原因,存在生成超多项式上的比图大小多得多的(表达式,需求)对的问题。实际上,生成那么多的信息需求在计算上是昂贵的。对于另一个原因,如果在Q外部存在用于访问N的大部分但小于β|N|的很多表达式,则那些表达式将被包括在Q中,否则甚至不输出这种(表达式,需求)对通常会更好。
转向表达式需求对(E,N)的属性,注意,信息需求会重叠。例如,单个单词的查询将几乎必然出现在很多信息需求中。同样,很多信息需求将满足诸如“msn.com”的流行的URL。因此,很多众所周知的聚类算法无法用于聚类。
一般而言,当确定信息需求时,信息需求的数量未被指定,因为查询-点击图中的数量不是已知的,并且对该数量的信息需求的二分搜索在计算上可能是昂贵的。
对于聚类,在一个实施例中,能够基于冠军顶点及其邻居来发现信息需求。一般而言,冠军顶点是通过使其大部分边到达该聚类来“拥护”该聚类的那个顶点。因此,诸如“经济危机2008”的查询可能是一个好的冠军,因为它针对一个相对窄的概念;诸如“美洲虎(jaguar)”的查询不是一个好的冠军,因为它可能指一种大猫、一种汽车、一支足球队、操作系统等。一个示例算法如下:
Figure BDA00001650529700071
可以为V中的顶点重复类似的过程。上面的算法是对Mishra、Schreiber、Stanton和Tarjan的题为“聚类社交网络(Clustering Social Networks)”(InternetMathematics,2009)的出版物中明示的算法的直接修改。
其他方法可用于查找二分图中的联合聚类,例如,2003年ACM SIGKDD会议的会刊中,Dhillon、Mallela、Modha的“信息论联合聚类(Informationtheoretic co-clustering)”,以及2003年第16届学习理论年会(COLT)会刊中Mishra、Ron和Swaminathan的“关于查找大的联合聚类(On Finding LargeConjunctive Clusters)”所描述的。如果期望,可以使用已知的方法来查找完全二分子图。
图4是对上面步骤和示例的某些进行总结的流程图,在步骤402开始,其中将查询日志或其他数据存储离线处理成关系图。如上面所描述的,在步骤404对图执行聚类以查找信息需求对,包括基于内部密度和(可选的)外部稀疏性条件。聚类被保存到数据存储,如步骤406所表示的。
对查询的在线处理被表示为在步骤408开始,其中接收查询。在该示例中,在步骤410检索在线搜索结果(例如,经由普通搜索发现的文档链接),以供与可为该查询存在的任何概念相合并,如经由步骤412所确定的。如果概念存在,则在步骤414将其与其他搜索结果相合并。注意,替换的实现可在概念存在时仅返回该概念,若概念不存在则返回文档链接,而不是概念与文档链接的混合。步骤416表示返回搜索结果页面。
此时,如由步骤418所表示的,用户可以点击概念或文档链接。注意,可在浏览器代码中、或在浏览器代码和服务器交互的组合中处理步骤418和之前的步骤。还要注意,此处未考虑的其他用户动作是可能的,例如,用户可以相反提交新的或经修改的查询,可点击“相关搜索”中所建议的查询或执行另一个动作(例如,关闭浏览器)。
假设选择了概念或文档链接,步骤420确定是哪一个。如果是文档链接,则步骤422操作以例如从服务器或本地或中间高速缓存,返回与该链接的URL相对应的文档。如果是概念,则步骤424展示所选择的概念的URL。注意,这些URL可被包括在原始搜索结果中,使得“知晓概念”的浏览器可在概念选择时提供链接,或者可以进一步地执行与服务器的交互以获得链接。
以此方式,基于所挖掘的信息需求的概念可被包括在搜索结果中。然而,除返回概念以外,对信息需求的标识可用于其他目的。例如,信息需求可用于训练文档相关性排序功能:如果查询q和q’均属于同一(表达式,需求)对,则q的URL和标记可用于训练q’,反之亦然。更改或建议是其他方面:如果发现(表达式,需求)对中的“中央”表达式,即最准确地表达需求并且产生好的结果的表达式,则当用户在表达式需求对中提出任何查询时,该中央表达式可被更改或建议。
另一个方面仍使用信息需求作为特征。例如,如果查询属于Q且URL属于N,其中(Q,N)是(表达式,需求)对,则可以使用引导查询分数的特征与URL的组合。
示例性操作环境
图5示出其上可实现图1-4的各示例的合适的计算和联网环境500的示例。计算系统环境500只是合适计算环境的一个示例,而非意在暗示对本发明使用范围或功能有任何限制。也不应该将计算环境500解释为对示例性操作环境500中示出的任一组件或其组合有任何依赖性或要求。
本发明可用各种其他通用或专用计算系统环境或配置来操作。适用于本发明的公知计算系统、环境、和/或配置的示例包括但不限于:个人计算机、服务器计算机、手持式或膝上型设备、平板设备、多处理器系统、基于微处理器的系统、机顶盒、可编程消费电子产品、网络PC、微型计算机、大型计算机、包括任何以上系统或设备的分布式计算环境等等。
本发明可在诸如程序模块等由计算机执行的计算机可执行指令的通用上下文中描述。一般而言,程序模块包括执行特定任务或实现特定抽象数据类型的例程、程序、对象、组件、数据结构等等。本发明也可以在其中任务由通过通信网络链接的远程处理设备执行的分布式计算环境中实现。在分布式计算环境中,程序模块可以位于包括存储器存储设备在内的本地和/或远程计算机存储介质中。
参考图5,用于实现本发明的各方面的示例性系统可包括计算机510形式的通用计算设备。计算机510的组件可以包括但不限于:处理单元520、系统存储器530和将包括系统存储器在内的各种系统组件耦合至处理单元521的系统总线520。系统总线521可以是若干类型的总线结构中的任一种,包括使用各种总线体系结构中的任一种的存储器总线或存储器控制器、外围总线、以及局部总线。作为示例而非限制,这样的体系结构包括工业标准体系结构(ISA)总线、微通道体系结构(MCA)总线、增强型ISA(EISA)总线、视频电子标准协会(VESA)局部总线,以及也称为夹层(Mezzanine)总线的外围部件互连(PCI)总线。
计算机510通常包括各种计算机可读介质。计算机可读介质可以是能由计算机510访问的任何可用介质,并包含易失性和非易失性介质以及可移动、不可移动介质。作为示例而非限制,计算机可读介质可包括计算机存储介质和通信介质。计算机存储介质包括以存储诸如计算机可读的指令、数据结构、程序模块或其他数据之类的信息的任何方法或技术实现的易失性和非易失性、可移动和不可移动介质。计算机存储介质包括,但不仅限于,RAM、ROM、EEPROM、闪存或其他存储器技术、CD-ROM、数字多功能盘(DVD)或其他光盘存储、磁带盒、磁带、磁盘存储或其他磁存储设备,或可以用来存储所需信息并可以被计算机510访问的任何其他介质。通信介质通常以诸如载波或其他传输机构之类的已调制数据信号来具体化计算机可读指令、数据结构、程序模块或其他数据,并且包括任何信息传送介质。术语“已调制数据信号”是指具有以在信号中编码信息的方式被设定或改变其一个或多个特征的信号。作为示例而非限制,通信介质包括诸如有线网络或直接线连接之类的有线介质,以及诸如声学、RF、红外及其他无线介质之类的无线介质。上面各项中的任何项的组合也包括在计算机可读介质的范围内。
系统存储器530包括易失性和/或非易失性存储器形式的计算机存储介质,如只读存储器(ROM)531和随机存取存储器(RAM)532。包含诸如在启动期间帮助在计算机510内的元件之间传输信息的基本例程的基本输入/输出系统533(BIOS)通常储存储在ROM 531中。RAM 532通常包含处理单元520可立即访问和/或当前正在操作的数据和/或程序模块。作为示例而非限制,图5示出了操作系统534、应用程序535、其他程序模块536和程序数据537。
计算机510也可以包括其他可移动/不可移动、易失性/非易失性计算机存储介质。仅作为示例,图5示出了从不可移动、非易失性磁介质中读取或向其写入的硬盘驱动器541,从可移动、非易失性磁盘552中读取或向其写入的磁盘驱动器551,以及从诸如CD ROM或其他光学介质等可移动、非易失性光盘556中读取或向其写入的光盘驱动器555。可在示例性操作环境中使用的其他可移动/不可移动、易失性/非易失性计算机存储介质包括但不限于,磁带盒、闪存卡、数字多功能盘、数字录像带、固态RAM、固态ROM等。硬盘驱动器541通常通过诸如接口540之类的不可移动存储器接口连接到系统总线521,并且磁盘驱动器551和光盘驱动器555通常通过诸如接口550之类的可移动存储器接口连接到系统总线521。
以上描述并在图5中示出的驱动器及其相关联的计算机存储介质为计算机510提供了对计算机可读指令、数据结构、程序模块和其他数据的存储。例如,在图5中,硬盘驱动器541被示为存储操作系统544、应用程序545、其他程序模块546和程序数据547。注意,这些组件可与操作系统534、应用程序535、其他程序模块536和程序数据537相同,也可与它们不同。操作系统544、应用程序545、其他程序模块546和程序数据547在这里被标注了不同的附图标记是为了说明至少它们是不同的副本。用户可通过诸如平板或者电子数字化仪564、话筒563、键盘562和定点设备561(通常指的是鼠标、跟踪球或触摸垫)等输入设备向计算机510输入命令和信息。图5中未示出的其他输入设备可以包括操纵杆、游戏手柄、圆盘式卫星天线、扫描仪等。这些以及其他输入设备通常通过耦合到系统总线的用户输入接口560连接到处理单元520,但也可通过诸如并行端口、游戏端口或通用串行总线(USB)之类的其他接口和总线结构来连接。监视器591或其他类型的显示设备也通过诸如视频接口590之类的接口连接至系统总线521。监视器591也可以与触摸屏面板等集成。注意到监视器和/或触摸屏面板可以在物理上耦合至其中包括计算设备510的外壳,诸如在平板型个人计算机中。此外,诸如计算设备510等计算机还可以包括其他外围输出设备,诸如扬声器595和打印机596,它们可以通过输出外围接口594等连接。
计算机510可使用到一个或多个远程计算机(诸如,远程计算机580)的逻辑连接而在联网环境中操作。远程计算机580可以是个人计算机、服务器、路由器、网络PC、对等设备或其他常见网络节点,并且通常包括许多或所有以上相对计算机510所描述的元件,但在图5中仅示出了存储器存储设备581。图5中所示的逻辑连接包括一个或多个局域网(LAN)571和一个或多个广域网(WAN)573,但也可以包括其他网络。此类联网环境在办公室、企业范围的计算机网络、内联网和因特网中是常见的。
当在LAN联网环境中使用时,计算机510通过网络接口或适配器570连接到LAN 571。当在WAN联网环境中使用时,计算机510通常包括调制解调器572或用于通过诸如因特网等WAN 573建立通信的其他手段。可为内置或可为外置的调制解调器572可以经由用户输入接口560或其他合适的机构连接至系统总线521。诸如包括接口和天线的无线联网组件可通过诸如接入点或对等计算机等合适的设备耦合到WAN或LAN。在联网环境中,相对于计算机510所示的程序模块或其部分可被存储在远程存储器存储设备中。作为示例而非限制,图5示出了远程应用程序585驻留在存储器设备581上。可以理解,所示的网络连接是示例性的,也可以使用在计算机之间建立通信链路的其他手段。
辅助子系统599(例如,用于内容的辅助显示)可经由用户接口560连接,从而即使计算机系统的主要部分处于低功率状态中,也允许诸如程序内容、系统状态和事件通知等数据被提供给用户。辅助子系统599可连接至调制解调器572和/或网络接口570,从而在主处理单元520处于低功率状态中时,也允许在这些系统之间进行通信。
结论
尽管本发明易于作出各种修改和替换构造,但其某些说明性实施例在附图中示出并在上面被详细地描述。然而应当了解,这不旨在将本发明限于所公开的具体形式,而是相反地,旨在覆盖落入本发明的精神和范围之内的所有修改、替换构造和等效方案。

Claims (15)

1.一种在计算环境中至少在至少一个处理器上执行的方法,包括:
处理查询,包括返回与所述查询相关的概念的集合,其中每个概念对应于连接到内容的一个或多个链接的集合;
为所选择的概念提供连接到内容的链接的集合;以及
从所选择的概念的链接的集合中返回所选择的链接的内容。
2.如权利要求1所述的方法,其特征在于,返回所述概念的集合包括提供提供网页,所述网页在被呈现时包括用于选择所选择的概念的机制。
3.如权利要求1所述的方法,其特征在于,还包括,在返回所述概念的集合时,返回连接到文档的至少一个链接。
4.如权利要求1所述的方法,其特征在于,还包括访问概念数据存储以确定用于所述查询的概念的集合,包括处理一数据存储以构建所述概念数据存储。
5.如权利要求4所述的方法,其特征在于,处理所述数据存储包括构建相关的查询图和构建关系图。
6.如权利要求5所述的方法,其特征在于,确定相关的查询包括在所述相关的查询图中查询聚类或连接的组件,其中每个聚类对应于相关查询的集合。
7.如权利要求5所述的方法,其特征在于,还包括用相关的查询来扩充所述关系图并且确定所述关系图中的聚类,其中每个聚类对应于一个概念并标识查询集合和URL集合。
8.如权利要求7所述的方法,其特征在于,确定所述聚类包括在所述关系图中查找密集子图。
9.一种在计算环境中的系统,包括:
概念数据存储,包含与概念相对应的信息需求,每个信息需求包括查询集合、URL集合元组;
搜索引擎,访问所述概念数据存储以便确定查询是否具有相关联的概念,并且若是,则响应于所述查询返回与所述查询相关联的概念。
10.如权利要求9所述的系统,其特征在于,所述搜索引擎在返回所述概念时还返回至少一个文档链接,或者其中每个概念的链接在选择概念时是可以访问的,或者其中所述搜索引擎在返回所述概念时还返回至少一个文档链接,并且其中每个概念的链接在选择概念时是可以访问的。
11.如权利要求9所述的系统,其特征在于,还包括挖掘机制,其基于至少一个其他数据存储中的数据来构建所述概念数据存储,其中所述挖掘机制通过将数据存储处理成相关的查询图和表达式URL关系图,以及通过对相关查询聚类以扩充所述表达式URL图并将所述关系图聚类成所述信息需求来构建所述概念数据存储。
12.如权利要求11所述的系统,其特征在于:
a)所述相关表达式图包括同一用户在时间窗口中提出的查询、或同一广告商的关键词投标、或在文档的锚、标题、主体或其他位置出现的表达式,或者同一用户在时间窗口中提出的查询、或同一广告商的关键词投标、或在文档的锚、标题、主体或其他位置出现的表达式的任意组合;或者
b)所述关系图包括查询-点击图,其中顶点的一个集合表示查询,顶点的另一个集合表示URL,并且对于每个查询顶点,若URL在响应于查询被返回之后被点击,则存在从查询顶点到URL顶点的边;或者
c)将所述关系图与锚-URL图或标记-URL图组合;或者
d)(a)、(b)或(c)的任意组合。
13.具有计算机可执行指令的一个或多个计算机可读介质,所述计算机可执行指令在执行时执行以下步骤,包括,构建关系图,其中顶点的第一集合表示搜索查询,顶点的第二集合表示以下信息,所述信息能够基于用户动作而与每个搜索查询产生关系,并将所述关系图聚类成信息需求,每个信息需求包括查询集合、URL集合元组。
14.如权利要求13所述的一个或多个计算机可读介质,其特征在于,还具有计算机可执行指令,包括查找相关的查询,其中构建所述关系图包括利用所述相关的查询。
15.如权利要求13所述的一个或多个计算机可读介质,其特征在于,其中聚类所述关系图包括在所述关系图中查找满足内部密度条件或外部稀疏性条件、或既满足内部密度条件又满足外部稀疏性条件的子图。
CN2010800520805A 2009-11-18 2010-11-16 搜索日志中的概念发现 Pending CN102687137A (zh)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US12/620,600 2009-11-18
US12/620,600 US20110119269A1 (en) 2009-11-18 2009-11-18 Concept Discovery in Search Logs
PCT/US2010/056764 WO2011062877A2 (en) 2009-11-18 2010-11-16 Concept discovery in search logs

Publications (1)

Publication Number Publication Date
CN102687137A true CN102687137A (zh) 2012-09-19

Family

ID=44012097

Family Applications (1)

Application Number Title Priority Date Filing Date
CN2010800520805A Pending CN102687137A (zh) 2009-11-18 2010-11-16 搜索日志中的概念发现

Country Status (4)

Country Link
US (1) US20110119269A1 (zh)
EP (1) EP2502160A4 (zh)
CN (1) CN102687137A (zh)
WO (1) WO2011062877A2 (zh)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106372090A (zh) * 2015-07-23 2017-02-01 苏宁云商集团股份有限公司 一种查询聚类方法及装置
CN107408130A (zh) * 2015-03-10 2017-11-28 微软技术许可有限责任公司 通过间接集群连接来进行搜索的方法
CN110908980A (zh) * 2018-08-28 2020-03-24 北京京东金融科技控股有限公司 用户标识映射关系建立方法、系统、设备及存储介质
CN111435409A (zh) * 2019-01-11 2020-07-21 国际商业机器公司 动态查询处理和文档检索
CN114072788A (zh) * 2019-07-02 2022-02-18 国际商业机器公司 来自搜索引擎的随机采样
CN110908980B (zh) * 2018-08-28 2024-04-12 京东科技控股股份有限公司 用户标识映射关系建立方法、系统、设备及存储介质

Families Citing this family (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8380723B2 (en) * 2010-05-21 2013-02-19 Microsoft Corporation Query intent in information retrieval
US9589056B2 (en) * 2011-04-05 2017-03-07 Microsoft Technology Licensing Llc User information needs based data selection
US8838643B2 (en) 2011-07-26 2014-09-16 Microsoft Corporation Context-aware parameterized action links for search results
US9218422B2 (en) 2011-07-26 2015-12-22 Microsoft Technology Licensing, Llc Personalized deeplinks for search results
US9367638B2 (en) 2011-07-26 2016-06-14 Microsoft Technology Licensing, Llc Surfacing actions from social data
JP5752070B2 (ja) * 2012-02-17 2015-07-22 エヌ・ティ・ティ・コミュニケーションズ株式会社 関連情報表示システム、関連情報表示制御装置、端末装置、プログラム、及び関連情報表示方法
US8799192B2 (en) 2012-02-28 2014-08-05 Hewlett-Packard Development Company, L.P. Deriving a nested chain of densest subgraphs from a graph
US9043302B1 (en) 2012-07-25 2015-05-26 Google Inc. Campaign and competitive analysis and data visualization based on search interest data
CN103914486B (zh) * 2013-01-08 2017-02-15 邓寅生 文档的搜索及展现的系统
US20140201629A1 (en) * 2013-01-17 2014-07-17 Microsoft Corporation Collaborative learning through user generated knowledge
US9286396B2 (en) 2013-07-26 2016-03-15 Microsoft Technology Licensing, Llc Query expansion and query-document matching using path-constrained random walks
US11074266B2 (en) 2018-10-11 2021-07-27 International Business Machines Corporation Semantic concept discovery over event databases

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6978264B2 (en) * 2002-01-03 2005-12-20 Microsoft Corporation System and method for performing a search and a browse on a query
US20080033932A1 (en) * 2006-06-27 2008-02-07 Regents Of The University Of Minnesota Concept-aware ranking of electronic documents within a computer network
CN101364239A (zh) * 2008-10-13 2009-02-11 中国科学院计算技术研究所 一种分类目录自动构建方法及相关系统
CN101566988A (zh) * 2008-04-24 2009-10-28 华为技术有限公司 一种模糊语义搜索方法、系统及设备

Family Cites Families (38)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6043909A (en) * 1996-02-26 2000-03-28 Imagicolor Corporation System for distributing and controlling color reproduction at multiple sites
DE69632835T2 (de) * 1996-04-29 2005-07-14 Scientific Research Institute Of Different Branches "Integral" Verfahren zur automatischen verarbeitung von information über benutzerdaten
US6363378B1 (en) * 1998-10-13 2002-03-26 Oracle Corporation Ranking of query feedback terms in an information retrieval system
KR20010019746A (ko) * 1999-08-30 2001-03-15 정선종 시소러스 개념 추출을 위한 질의 기반 참조 방법
US6732088B1 (en) * 1999-12-14 2004-05-04 Xerox Corporation Collaborative searching by query induction
US6684205B1 (en) * 2000-10-18 2004-01-27 International Business Machines Corporation Clustering hypertext with applications to web searching
US6665662B1 (en) * 2000-11-20 2003-12-16 Cisco Technology, Inc. Query translation system for retrieving business vocabulary terms
US7136845B2 (en) * 2001-07-12 2006-11-14 Microsoft Corporation System and method for query refinement to enable improved searching based on identifying and utilizing popular concepts related to users' queries
US7249117B2 (en) * 2002-05-22 2007-07-24 Estes Timothy W Knowledge discovery agent system and method
US7051023B2 (en) * 2003-04-04 2006-05-23 Yahoo! Inc. Systems and methods for generating concept units from search queries
US7194466B2 (en) * 2003-05-01 2007-03-20 Microsoft Corporation Object clustering using inter-layer links
US20050149510A1 (en) * 2004-01-07 2005-07-07 Uri Shafrir Concept mining and concept discovery-semantic search tool for large digital databases
US7305389B2 (en) * 2004-04-15 2007-12-04 Microsoft Corporation Content propagation for enhanced document retrieval
US20060074980A1 (en) * 2004-09-29 2006-04-06 Sarkar Pte. Ltd. System for semantically disambiguating text information
US7565627B2 (en) * 2004-09-30 2009-07-21 Microsoft Corporation Query graphs indicating related queries
US20060167930A1 (en) * 2004-10-08 2006-07-27 George Witwer Self-organized concept search and data storage method
US7499940B1 (en) * 2004-11-11 2009-03-03 Google Inc. Method and system for URL autocompletion using ranked results
US20060224569A1 (en) * 2005-03-31 2006-10-05 Desanto John A Natural language based search engine and methods of use therefor
US20090327259A1 (en) * 2005-04-27 2009-12-31 The University Of Queensland Automatic concept clustering
US8312034B2 (en) * 2005-06-24 2012-11-13 Purediscovery Corporation Concept bridge and method of operating the same
US7555472B2 (en) * 2005-09-02 2009-06-30 The Board Of Trustees Of The University Of Illinois Identifying conceptual gaps in a knowledge base
US7574379B2 (en) * 2006-01-10 2009-08-11 International Business Machines Corporation Method and system of using artifacts to identify elements of a component business model
US7818279B2 (en) * 2006-03-13 2010-10-19 Microsoft Corporation Event detection based on evolution of click-through data
US7870117B1 (en) * 2006-06-01 2011-01-11 Monster Worldwide, Inc. Constructing a search query to execute a contextual personalized search of a knowledge base
WO2008034057A2 (en) * 2006-09-14 2008-03-20 Veveo, Inc. Methods and systems for dynamically rearranging search results into hierarchically organized concept clusters
US7630972B2 (en) * 2007-01-05 2009-12-08 Yahoo! Inc. Clustered search processing
US7870141B2 (en) * 2007-04-17 2011-01-11 International Business Machines Corporation Method and system for finding a focus of a document
US8041743B2 (en) * 2007-04-17 2011-10-18 Semandex Networks, Inc. Systems and methods for providing semantically enhanced identity management
US7958155B2 (en) * 2007-04-17 2011-06-07 Semandex Networks, Inc. Systems and methods for the management of information to enable the rapid dissemination of actionable information
US7970721B2 (en) * 2007-06-15 2011-06-28 Microsoft Corporation Learning and reasoning from web projections
US20090094210A1 (en) * 2007-10-05 2009-04-09 Fujitsu Limited Intelligently sorted search results
US7895235B2 (en) * 2007-12-19 2011-02-22 Yahoo! Inc. Extracting semantic relations from query logs
US20090259646A1 (en) * 2008-04-09 2009-10-15 Yahoo!, Inc. Method for Calculating Score for Search Query
US8417695B2 (en) * 2008-10-30 2013-04-09 Netseer, Inc. Identifying related concepts of URLs and domain names
US9330165B2 (en) * 2009-02-13 2016-05-03 Microsoft Technology Licensing, Llc Context-aware query suggestion by mining log data
US8176069B2 (en) * 2009-06-01 2012-05-08 Aol Inc. Systems and methods for improved web searching
US8590049B2 (en) * 2009-08-17 2013-11-19 At&T Intellectual Property I, L.P. Method and apparatus for providing anonymization of data
US8880537B2 (en) * 2009-10-19 2014-11-04 Gil Fuchs System and method for use of semantic understanding in storage, searching and providing of data or other content information

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6978264B2 (en) * 2002-01-03 2005-12-20 Microsoft Corporation System and method for performing a search and a browse on a query
US20080033932A1 (en) * 2006-06-27 2008-02-07 Regents Of The University Of Minnesota Concept-aware ranking of electronic documents within a computer network
CN101566988A (zh) * 2008-04-24 2009-10-28 华为技术有限公司 一种模糊语义搜索方法、系统及设备
CN101364239A (zh) * 2008-10-13 2009-02-11 中国科学院计算技术研究所 一种分类目录自动构建方法及相关系统

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107408130A (zh) * 2015-03-10 2017-11-28 微软技术许可有限责任公司 通过间接集群连接来进行搜索的方法
CN107408130B (zh) * 2015-03-10 2021-03-02 微软技术许可有限责任公司 通过间接集群连接来进行搜索的方法
CN106372090A (zh) * 2015-07-23 2017-02-01 苏宁云商集团股份有限公司 一种查询聚类方法及装置
CN106372090B (zh) * 2015-07-23 2021-02-09 江苏苏宁云计算有限公司 一种查询聚类方法及装置
CN110908980A (zh) * 2018-08-28 2020-03-24 北京京东金融科技控股有限公司 用户标识映射关系建立方法、系统、设备及存储介质
CN110908980B (zh) * 2018-08-28 2024-04-12 京东科技控股股份有限公司 用户标识映射关系建立方法、系统、设备及存储介质
CN111435409A (zh) * 2019-01-11 2020-07-21 国际商业机器公司 动态查询处理和文档检索
CN114072788A (zh) * 2019-07-02 2022-02-18 国际商业机器公司 来自搜索引擎的随机采样
CN114072788B (zh) * 2019-07-02 2023-02-03 国际商业机器公司 从搜索引擎进行随机采样的方法和系统
US11797615B2 (en) 2019-07-02 2023-10-24 International Business Machines Corporation Random sampling from a search engine

Also Published As

Publication number Publication date
WO2011062877A2 (en) 2011-05-26
US20110119269A1 (en) 2011-05-19
EP2502160A2 (en) 2012-09-26
EP2502160A4 (en) 2016-12-28
WO2011062877A3 (en) 2011-11-17

Similar Documents

Publication Publication Date Title
CN102687137A (zh) 搜索日志中的概念发现
Frolov et al. Tensor methods and recommender systems
Sullivan Document warehousing and text mining: techniques for improving business operations, marketing, and sales
US8112703B2 (en) Aggregate tag views of website information
JP5571091B2 (ja) サーチ結果の提供
Zhou et al. An unsupervised model for exploring hierarchical semantics from social annotations
CN101268464A (zh) 使用文档使用统计量的排位函数
CN102193973A (zh) 呈现回答
CN102239491A (zh) 用于建议的改进词语和纵向搜索的预览搜索结果技术
US20200134019A1 (en) Method and system for decoding user intent from natural language queries
US20080065602A1 (en) Selecting advertisements for search results
CN101221568A (zh) 用于存取数据的方法和系统
US8626757B1 (en) Systems and methods for detecting network resource interaction and improved search result reporting
US20080275890A1 (en) System and method for smoothing hierarchical data using isotonic regression
CN102393840A (zh) 实体卡的实体检测和提取
CN101496010A (zh) 使用可增量式更新的、经修改的朴素贝叶斯查询分类器的排序功能
CN102999560A (zh) 用社交网络特征提高姓名和其它搜索查询的搜索引擎结果页面的相关性
CN102419768A (zh) 用于文档搜索的搜索高速缓存
CN102591925A (zh) 以多维数据为中心的服务协议
CN101641687A (zh) 使用场景相关信息来定制用户体验
CN101636760A (zh) 管理分类系统的词汇表检索词的技术
CN101317174B (zh) 使用网络地址提供聚焦搜索的方法和系统
US20230388261A1 (en) Determining topic cohesion between posted and linked content
CN104919452A (zh) 使用图像来改善人搜索
Vesselkov et al. Design and governance of mHealth data sharing

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
REG Reference to a national code

Ref country code: HK

Ref legal event code: DE

Ref document number: 1173810

Country of ref document: HK

C02 Deemed withdrawal of patent application after publication (patent law 2001)
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20120919

REG Reference to a national code

Ref country code: HK

Ref legal event code: WD

Ref document number: 1173810

Country of ref document: HK