CN104067273A - 将搜索结果分组为简档页面 - Google Patents

将搜索结果分组为简档页面 Download PDF

Info

Publication number
CN104067273A
CN104067273A CN201380005822.2A CN201380005822A CN104067273A CN 104067273 A CN104067273 A CN 104067273A CN 201380005822 A CN201380005822 A CN 201380005822A CN 104067273 A CN104067273 A CN 104067273A
Authority
CN
China
Prior art keywords
search
search results
profile
results
similarity
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201380005822.2A
Other languages
English (en)
Inventor
A.K.舒克
A.艾沃里
E.J.伯卡特
D.M.斯特克
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
International Business Machines Corp
Original Assignee
International Business Machines Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by International Business Machines Corp filed Critical International Business Machines Corp
Publication of CN104067273A publication Critical patent/CN104067273A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9535Search customisation based on user profiles and personalisation

Abstract

公开了一种用于将搜索结果分组为简档页面的方法。搜索引擎接受用户搜索字符串并且生成第一集合的结果。响应于该第一集合的结果,查询生成器生成与共享共同名称的多个实体的数量对应的多个查询。搜索引擎执行该多个查询,返回多个响应的数据集合。实体分解器合并数据集合以确保每一个唯一实体由单个数据集合代表。可以定义阈值以使得达到特定级别相似性的结果被合并。简档生成器使用在搜索结果的集合中包含的传记数据创建每一个唯一实体的简档页面,并还生成包含到每一个唯一简档的链接的结果页面。该结果页面然后被发送给用户用于在图形用户界面上显示。

Description

将搜索结果分组为简档页面
技术领域
本发明涉及搜索引擎的领域。更具体地,本发明涉及针对与其他实体共享共同名称的每一个唯一实体生成具体简档页面(profile page),并且呈现到每一个简档页面的链接作为响应于指定该共同名称的用户搜索字符串的搜索结果的列表。
背景技术
搜索引擎向计算机用户提供了几秒钟搜索在例如因特网的网络上可用的不断扩大的文档集合的方式。搜索引擎使用复杂的算法来评分并排序各个文档或页面,以响应于用户指定的搜索字符串呈现最相关和精确的结果。当用户搜索在多个实体(人、位置、组织或其他实体)之间共享的名称时,当前方法涉及大量数据集合的密集统计计算来确定用户在寻找多个实体中的哪个并且可能无法提供与该实体对应的完整和有意义的结果。
US20110106807公开了用于通过生成实体简档并且从多个文档提取信息以生成实体简档集合、使用相似性匹配算法确定实体简档集合内的等同(equivalence)并且将信息整合在相关实体中,消除实体的歧义的方法。
发明内容
这里公开的一个实施例包括计算机实现的方法,用于呈现响应于指定由多个实体共享的共同名称的搜索引擎搜索字符串生成的简档页面。操作一般可以包括:从用户接收指定作为由多个实体共享的共同名称的实体名称的第一搜索字符串;基于第一搜索字符串的结果生成多个查询;执行多个所生成查询的每一个来创建搜索结果的相应集合;分解(resolve)搜索结果的相应集合的每一个以使得每一个实体由单个集合的搜索结果代表;生成多个简档,每一个简档与分解后的搜索结果的集合之一对应;并且向输出装置呈现多个简档作为响应于第一搜索字符串的结果的集合。
这里公开的另一实施例提供计算机可读介质,包含当在包括处理器和存储器的系统上执行时进行大体包括如下的操作的程序:从用户接收指定作为由多个实体共享的共同名称的实体名称的第一搜索字符串;基于第一搜索字符串的结果生成多个查询;执行多个所生成查询的每一个来创建搜索结果的相应集合;分解搜索结果的相应集合的每一个以使得每一个实体由单个集合的搜索结果代表;生成多个简档,每一个简档与分解后的搜索结果的集合之一对应;并且向输出装置呈现多个简档作为响应于第一搜索字符串的结果的集合。
这里公开的另一实施例提供系统,该系统从用户接收指定作为由多个实体共享的共同名称的实体名称的第一搜索字符串。该系统基于第一搜索字符串的结果生成多个查询,执行多个所生成查询的每一个来创建搜索结果的相应集合,并且分解搜索结果的相应集合的每一个以使得每一个实体由单个集合的搜索结果代表。该系统生成多个简档,每一个简档与分解后的搜索结果的集合之一对应,并且向输出装置呈现多个简档作为响应于第一搜索字符串的结果的集合。
从第一方面来看,本发明提供用于将搜索结果分组为简档页面的计算机实现的方法,该方法包括:接收指定一个或多个搜索词语的第一搜索字符串,其中一个或多个搜索词语的至少一个是与多个实体对应的共享词语;基于接收到的第一搜索字符串生成多个搜索查询,每一个对应于多个实体中的相应实体;执行所生成的多个搜索查询的每一个来创建搜索结果的相应集合;分解搜索结果的集合,以使得多个实体的每一个由单个集合的搜索结果代表;生成多个简档,每一个简档与分解后的搜索结果的集合之一对应,其中多个简档中的每一个包括从分解后的搜索结果的对应集合中的至少一个文档获得的数据;并且呈现多个简档作为响应于第一搜索字符串的结果的集合。
优选地,本发明提供其中多个实体的每一个包括人、位置或组织中的至少一个的方法。
优选地,本发明提供其中基于响应于第一搜索字符串提供的相关搜索字符串的集合生成多个搜索查询的方法。
优选地,本发明提供该分解包括如下的方法:比较搜索结果的集合的每一个以检测相似性;并且当检测到相似性时合并搜索结果的集合。
优选地,本发明提供其中当检测到的相似性超出了指定相似性阈值时,该合并发生的方法。
优选地,本发明提供其中使用从搜索结果的对应集合检索到的传记信息生成多个简档中的每一个的方法。
优选地,本发明提供包括如下的方法:接收标记简档中的至少一个数据元素为与该简档相关或不相关的用户反馈。
优选地,本发明提供其中至少一个文档包括与该实体相关联的社交网络页面的方法。
从另一方面看,本发明提供用于将搜索结果分组为简档页面的计算机程序产品,该计算机程序产品包括:具有以其体现的计算机可读程序代码的计算机可读存储介质,该计算机可读程序代码包括:配置为接收指定一个或多个搜索词语的第一搜索字符串的计算机可读程序代码,其中一个或多个搜索词语中的至少一个是与多个实体对应的共享词语;配置为基于接收到的第一搜索字符串生成多个搜索查询的计算机可读程序代码,每一个搜索查询对应于多个实体中的相应实体;配置为执行所生成的多个搜索查询的每一个来创建搜索结果的相应集合的计算机可读程序代码;配置为分解搜索结果的集合以使得多个实体的每一个由单个集合的搜索结果代表的计算机可读程序代码;配置为生成多个简档的计算机可读程序代码,每一个简档与分解后的搜索结果的集合之一对应,其中多个简档中的每一个包括从分解后的搜索结果的对应集合中的至少一个文档获得的数据;以及配置为呈现多个简档作为响应于第一搜索字符串的结果的集合的计算机可读程序代码。
优选地,本发明提供其中多个实体的每一个包括人、位置或组织中的至少一个的计算机程序产品。
优选地,本发明提供其中基于响应于第一搜索字符串提供的相关搜索字符串的集合生成多个搜索查询的计算机程序产品。
优选地,本发明提供其中该分解包括如下的计算机程序产品:比较搜索结果的集合的每一个以检测相似性;并且当检测到相似性时合并搜索结果的集合。
优选地,本发明提供其中当所检测的相似性超出了指定相似性阈值时,该合并发生的计算机程序产品。
优选地,本发明提供其中使用从搜索结果的对应集合检索到的传记信息生成多个简档中的每一个的计算机程序产品。
优选地,本发明提供包括如下的计算机程序产品:接收将简档中的至少一个数据元素标记为与该简档相关或不相关的用户反馈。
优选地,本发明提供其中至少一个文档包括与该实体相关联的社交网络页面的计算机程序产品。
从另一方面看,本发明提供用于将搜索结果分组为简档页面的系统,该系统包括:处理器;以及存储器,包含当由处理器执行时配置为进行用于将搜索结果分组为简档页面的操作的程序,该操作包括:接收指定一个或多个搜索词语的第一搜索字符串,其中一个或多个搜索词语的至少一个是与多个实体对应的共享词语;基于接收到的第一搜索字符串生成多个搜索查询,每一个对应于多个实体中的相应实体;执行所生成的多个搜索查询的每一个来创建搜索结果的相应集合;分解搜索结果的集合,以使得多个实体的每一个由单个集合的搜索结果代表;生成多个简档,每一个简档与分解后的搜索结果的集合之一对应,其中多个简档中的每一个包括从分解后的搜索结果的对应集合中的至少一个文档获得的数据;并且呈现多个简档作为响应于第一搜索字符串的结果的集合。
优选地,本发明提供其中多个实体的每一个包括人、位置或组织中的至少一个的系统。
优选地,本发明提供其中基于响应于第一搜索字符串提供的相关搜索字符串的集合生成多个搜索查询的系统。
优选地,本发明提供其中该分解包括如下的系统:比较搜索结果的集合的每一个以检测相似性;并且当检测到相似性时合并搜索结果集合。
优选地,本发明提供其中当所检测的相似性超出了指定相似性阈值时该合并发生的系统。
优选地,本发明提供其中使用从搜索结果的对应集合检索到的传记信息生成多个简档的每一个的系统。
优选地,本发明提供包括如下的系统:接收将简档中的至少一个数据元素标记为与该简档相关或不相关的用户反馈。
优选地,本发明提供其中至少一个文档包括与该实体相关联的社交网络页面的系统。
附图说明
现在将参考附图仅以示例的方式描述本发明的优选实施例,在附图中:
图1是图示根据这里描述的一个实施例用于将搜索结果分组为简档页面集合的示例性系统的框图;
图2是描绘根据这里描述的一个实施例将搜索结果分组为简档页面集合的示例性方法的流程图;
图3是描绘根据这里描述的一个实施例的示例性查询生成器的流程图;
图4是描绘根据这里描述的一个实施例的示例性实体分解器(resolver)的流程图;
图5是描绘根据这里描述的一个实施例的示例性简档生成器的流程图;
图6A图示了根据这里描述的一个实施例的显示对实体生成的示例性简档页面的示例性图形用户界面(GUI)屏幕;
图6B图示了示出根据这里描述的一个实施例的来自简档生成器的结果的示例性GUI屏幕;并且
图7描绘了根据这里描述的一个实施例的示例性系统。
具体实施方式
搜索引擎是极其强大的计算工具,其帮助用户在被搜索的潜在无穷语料库(corpus)中找到相关文档。当用户提交搜索字符串时,搜索引擎进行复杂的系列操作以响应于该字符串生成最相关结果列表。承认搜索可能不响应于用户搜索字符串的现实,现代搜索引擎除了结果之外还提供有关搜索字符串,并且允许用户相应地修改他们的搜索。
当用户搜索由多个单独实体共享的共同名称时出现更大的问题。例如,名称“约翰史密斯”的搜索返回很多不同人的结果。搜索引擎可以返回共享该非常普通的名称的其他唯一个体中的摩门教领袖、探险家和摔跤运动员的结果。使得事情进一步复杂化的是,由现代搜索引擎返回的结果将包含与共享该共同名称的任意数量的唯一实体有关的随机分类链接。简而言之,不以足够有意义的方式呈现结果。此外,在搜索引擎不响应于搜索字符串产生结果的事件中,可以不提供到包含与实体有关的相关传记数据(biographicaldata)的页面的链接。
这里描述的实施例大体提供用于响应于指定由多个实体共享的共同名称的搜索字符串,自动生成并执行多个查询的方法。对相应查询产生的搜索结果的集合然后被分解,以使得共享该名称的每一个实体由单个集合的数据代表。然后对共享该共同名称的每一个单独实体生成简档页面。最终,响应于指定由多个实体共享的共同名称的原始搜索字符串,包含到每一个单独实体的简档页面的链接列表的页面被生成并作为搜索结果的集合返回。因此,在以上“约翰史密斯”示例中,这里描述的一个实施例向用户输出到每一个唯一约翰史密斯的链接列表,该链接列表当被用户点击时,显示包含与每一个唯一约翰史密斯相关联的传记数据的简档。
以下,对本公开的实施例做出参考。然而,应当明白,本公开不限于具体描述的实施例。相反,以下特征和要素的任意组合,无论是否有关不同实施例,都旨在实现和实践本公开。此外,尽管实施例可以通过其他可能解决方案和/或通过现有技术实现优点,但是具体优点是否由给定实施例实现并不限制本公开。因此,以下方面、特征、实施例和优点仅是说明性的并且不认为是所附权利要求的要素或限制,除非在(多个)权利要求中显式陈述。同样地,对“本发明”的参考不应当认为是这里公开的任何发明性主题的总结,并且不应当认为是所附权利要求的要素或限制,除非在(多个)权利要求中显式陈述。
如本领域技术人员将理解,本发明的方法可以实现为系统、方法或计算机程序产品。因此,本发明的方面可以采用完全硬件实施例、完全软件实施例(包括固件、驻留软件、微代码等)或组合软件和硬件方面的实施例的形式,其全部在这里统称为“电路”、“模块”或“系统”。此外,本发明的方面可以采用在具有在其上包含的计算机可读程序代码的一个或多个计算机可读介质中实现的计算机程序产品的形式。
可以利用一个或多个计算机可读介质的任意组合。计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质。计算机可读存储介质例如可以是但不限于电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。计算机可读存储介质的更具体的例子(非穷举的列表)包括以下:具有一个或多个导线的电连接、便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本文件中,计算机可读存储介质可以是任何包含或存储程序的有形存储介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。
计算机可读的信号介质可以包括例如在基带中或者作为载波一部分传播的数据信号,其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁、光或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质,该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。
计算机可读介质上包含的程序代码可以用任何适当的介质传输,包括但不限于无线、有线、光缆、RF等等,或者上述的任意合适的组合。
可以以一种或多种程序设计语言的任意组合来编写用于执行本发明操作的计算机程序代码,所述程序设计语言包括面向对象的程序设计语言—诸如Java、Smalltalk、C++等,还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中,远程计算机可以通过任意种类的网络——包括局域网(LAN)或广域网(WAN)—连接到用户计算机,或者,可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。
下面将参照根据本发明实施例的方法、装置(系统)和计算机程序产品的流程图和/或框图描述本发明。应当理解,流程图和/或框图的每个方框以及流程图和/或框图中各方框的组合,都可以由计算机程序指令实现。这些计算机程序指令可以提供给通用计算机、专用计算机或其它可编程数据处理装置的处理器,从而生产出一种机器,使得这些计算机程序指令在通过计算机或其它可编程数据处理装置的处理器执行时,产生了实现流程图和/或框图中的一个或多个方框中规定的功能/动作的装置。
也可以把这些计算机程序指令存储在计算机可读介质中,这些指令使得计算机、其它可编程数据处理装置、或其他设备以特定方式工作,从而,存储在计算机可读介质中的指令就产生出包括实现流程图和/或框图中的一个或多个方框中规定的功能/动作的指令的制造品(article of manufacture)。
计算机程序指令还可以载入到计算机、其他可编程数据处理设备或其他装置以使得一系列操作步骤在计算机、其他可编程设备或其他装置上进行,以产生计算机实现的处理,以使得在计算机或其他可编程设备上执行的指令提供用于实现在流程图和/或框图块或多个块中规定的功能/动作的处理。
图1是图示根据这里描述的一个实施例将搜索结果分组为简档页面的系统100的框图。通常,联网系统100包括客户端计算机140和服务器150。客户端140和服务器150是以下更详细描述的图7中定义的计算机,并且经由网络130连接。通常,网络130可以是电信网络和/或广域网(WAN)。在具体实施例中,网络130是因特网。
客户端计算机140的存储器包含网络浏览器,其可以用来访问搜索引擎页面。服务器150的存储器包含HTTP服务器105、搜索管理器110、查询生成器160、实体分解器170以及简档生成器170。搜索管理器110与数据库115相关联,该数据库115可以包含在服务器150的存储708中或可以包含在联网计算机的存储中。搜索管理器110是示例性搜索引擎,这是因为其被配置为接收搜索字符串并返回结果。搜索管理器110配置为响应于给定搜索字符串生成有关搜索字符串以向用户提供与给定搜索字符串更相关的搜索字符串。数据库115不论具体物理表示地代表数据的任意收集。以说明的方式,数据库115可以根据关系模式(SQL查询可访问)或根据XML模式(XML查询可访问)组织。然而,实施例不限于特定模式并且意图延伸到当前未知的模式。如这里所用的,术语“模式”通常指数据的特定布置。搜索字符串190是在一些实施例中指人、位置或组织的文本字符串。
图2是概述这里描述的一个实施例的流程图。在步骤210处,用户通过网络浏览器145输入搜索字符串190,其经由网络130传送到服务器150。在步骤220处,搜索管理器110接收搜索字符串190,对数据库115执行对应的搜索,并且返回搜索结果到查询生成器160。在步骤230处,查询生成器160确定搜索字符串190是否对应于共享共同名称的多个实体,并且作为响应,生成与该共同名称有关的多个搜索字符串1611-N。在一个实施例中,可以从由搜索管理器110提供的有关搜索字符串中获取有关搜索字符串。查询生成器160然后将每一个搜索字符串1611-N传递给搜索管理器110,其在步骤240处执行搜索并且对每一个搜索字符串生成结果。在步骤250处,实体分解器170从搜索管理器110接收搜索字符串1611-N的结果,并且分解数据集合,以使得每一个唯一实体由单个集合的搜索结果代表。在步骤260处,实体分解器170将产生的数据集合传递到简档生成器180,其解析每一个数据集合以对每一个唯一实体创建简档页面1811-N以及包含到每一个简档页面1811-N的链接的结果页面650。在步骤270处,由简档生成器生成的页面然后通过网络130返回到客户端计算机140,其中网络浏览器145在输出装置716上显示结果。在步骤280处,用户可以经由输入装置714提供反馈,以将每一个结果标记为与搜索字符串190相关或不相关。
图3是示出与用于根据这里描述的实施例与查询生成器160相关联地生成多个搜索字符串的步骤230对应的方法300的流程图。方法在步骤310处开始,其中查询生成器160从搜索管理器110接收到基于搜索字符串190执行的搜索的结果。在步骤320处,查询生成器160分析接收到的搜索结果以确定搜索字符串190是否包括由多个实体共享的共同名称。在一个实施例中,查询生成器160分析由搜索管理器110返回的有关搜索字符串,以确定搜索字符串190是否包括由多个实体共享的共同名称。例如,如果搜索字符串190包括“约翰史密斯”,则有关搜索结果可以包括“约翰史密斯摩门教”“约翰史密斯摔跤运动员”“约翰史密斯探险家”和“波卡洪塔斯约翰史密斯”。使用这些有关搜索字符串,查询生成器160可以识别由多个不同实体共享的模糊名称。在一个实施例中,查询生成器160分析有关搜索字符串,以识别共同名称以及在该搜索中包括的额外词语。通过比较诸如“探险家”、“摔跤运动员”和“摩门教”之类的额外词语,查询生成器160能够确定词语充分不同,以使得它们代表共享共同名称的多个实体。
如果查询生成器160确定搜索字符串190包括由多个实体共享的共同名称时,则方法前进到步骤330,其中查询生成器160对于在步骤320处识别的每一个实体创建多个搜索字符串1611-N。在一个实施例中,可以从在步骤320处识别的有关搜索字符串获取多个搜索字符串。一旦生成了多个搜索字符串,查询生成器160发送每一个1611-N到搜索管理器110用于执行。
在一个或多个搜索字符串1611-N代表同一不同实体时出现一个问题。例如,如上所述,所生成的字符串“约翰史密斯探险家”和“约翰史密斯波卡洪塔斯”实际上指的是同一个体。在这样的情况下,由搜索管理器110响应于搜索字符串1611-N生成的结果需要被分解,以使得由单个集合的搜索结果代表每一个实体。在一个实施例中,由实体分解器170进行该功能。
图4是示出与用于根据这里描述的实施例分解与实体分解器170相关联的实体的步骤250对应的方法400的流程图。方法在步骤410处开始,其中实体分解器170从搜索管理器110接收从查询生成器160接收到的多个搜索字符串1611-N的搜索结果。方法然后前进到步骤420处,其中实体分解器170将在步骤410处接收的搜索结果的每一个集合与搜索结果的其他集合进行比较,以计算相似性得分,从而确定相似性是否存在。大量方法可以用来确定在搜索结果之间是否存在相似性。在一个实施例中,通过比较结果来计算相似性得分,以确定搜索管理器110是否返回了复制文档(duplicate document)。在搜索结果的集合中复制文档的数量越大,相似性得分越高。在另一实施例中,通过限制比较顶部搜索结果并且在该顶部结果中检测重复结果来计算相似性得分。在另一实施例中,相似性得分与是副本的每一个搜索集合中的文档的百分比相关。在另一实施例中,通过对每一个搜索结果比较由搜索管理器110返回的相关性得分计算相似性得分。
在步骤430处,实体分解器170分析相似性得分以确定相似性是否存在。在一个实施例中,任何正相似性得分的存在都指示相似性。如果未检测到相似性,则方法前进到步骤480。否则,方法前进到步骤440,其中实体分解器170确定是否必须应用相似性阈值。相似性阈值可以用来指定在实体分解器170识别出两个集合的搜索结果与同一唯一实体相关联之前的相似性的特定水平。如果将不应用相似性阈值,则方法前进到步骤470。如果要应用相似性阈值,则方法前进到步骤450,其中,实体分解器170接收相似性阈值。该方法然后前进到步骤460,其中实体分解器确定相似性得分是否超出相似性阈值。如果计算出的相似性得分超出了相似性阈值,则方法前进到步骤470;否则,方法前进到步骤480。
在步骤470处,实体分解器170合并相似的搜索结果,以使得由单个集合的搜索结果171N代表每一个唯一实体N。在一个实施例中,合并根据搜索管理器110进行的计算包括保留最流行的搜索结果的集合。在另一实施例中,由实体分解器170应用用于确定优先级的算法,其中由搜索管理器110返回的相关性得分用来识别最相关的搜索结果。然后合并结果,消除副本,并且根据相关性得分按降序分类产生的列表171N
在该点上,方法前进到步骤480,其中实体分解器470确定是否存在还没有被分解的搜索结果集合1611-N。如果额外集合保留,则方法返回步骤410,否则方法终止。
图5是描绘与用于根据这里描述的实施例与简档生成180相关联地生成简档页面的步骤260对应的方法500的流程图。对于从实体分解器170接收到的每一个集合的搜索结果1711-N,简档生成器180生成相关联的实体的简档页面181N。方法在步骤510处开始,其中,简档生成器从实体分解器170接收到分解后的搜索结果1711-N的集合。方法前进到步骤520处,其中简档生成器从分解后的搜索集合中包含的文档中收集传记简档数据。在一个实施例中,使得社交网络站点页面被优先化,并且从这些源收集传记数据。社交网络站点允许用户创建填充有传记数据、照片和其他条目的个性化页面。诸如Facebook、LinkedIn和Google+之类的站点是社交网络站点的示例。由于在简档中包含的信息的高度可靠性,来自这些社交网络站点的数据被优先化。当检测到时,来自这些站点的简档页面被排序到分解后的数据集合1711-N的顶部。在另一实施例中,仅从由实体分解器170返回的数据集合1711-N中的顶部排序后的搜索结果中收集传记数据。
在步骤530处,简档生成器180对由实体分解器170返回的数据集合171N创建简档页面181N。方法然后前进到步骤540,其中简档生成器180确定简档是否需要对于数据集合171N+1的下一成员创建。如果额外简档需要被创建,则方法返回步骤510用于生成额外简档。否则,方法前进到步骤550,其中简档生成器170创建包含到每一个简档页面1811-N的链接的页面650,其经由网络130返回给客户端140作为响应于搜索字符串190的结果列表,以显示在输出装置114上。
图6A图示了描绘根据这里描述的一个实施例的与由简档生成器180生成的简档页面181N对应的示例性简档页面610的图形用户界面600。本领域技术人员将认识到GUI600是示例性的并不意图限制本公开。简档页面610填充有与共享在搜索字符串190中定义的共同名称的唯一实体有关的传记数据。在一个实施例中,可以显示实体的照片620。简档还包含与实体有关的数据元素6301-N。在此示例中,提供实体名称、位置和URL。当然,在简档页面610中包含的数据元素6301-N可以是任何类型的数据。
图6B图示了描绘根据这里描述的一个实施例的示例性结果页面650的图形用户界面640。本领域技术人员将认识到GUI640是示例性的并不意图限制本公开。结果页面650是与由简档生成器180创建的简档页面1811-N对应的超链接6601-N的文档。例如,图6B示出了超链接6601,其是到针对“约翰史密斯摩门教领袖”生成的简档页面的超链接。超链接6602是到针对“约翰史密斯探险家”生成的简档页面的超链接,而超链接6603是到针对“约翰史密斯摔跤运动员”生成的简档页面的目标。
另外,超链接6601-N与反馈标签6701-N相关联,其允许用户提供关于结果是否与他们的搜索相关的反馈。例如,反馈标签可以是“+”或“-”,用来分别指示结果响应于或者不响应于搜索字符串190。用户反馈在未来的搜索中实现,或可以修改当前搜索的结果。
图7是图示在这里描述的一些实施例中使用的示例性计算机702的框图。计算机702包括经由总线712连接到存储器706的至少一个处理器704、网络接口装置710、存储708、输入装置714以及输出装置716。处理器104可以是用来进行本公开实施例的任何硬件处理器。输入装置714可以是向计算机702给出输入的任何装置。例如,可以使用键盘、小键盘、光笔、触摸屏、轨迹球或语音识别单元、音频/视频播放器等。输出装置716可以是向用户给出输出的任何装置,例如,任何传统的显示屏幕。尽管与输入装置714分离地示出,但是输出装置716和输入装置714可以组合。例如,可以使用具有集成触摸屏的显示屏幕、具有集成键盘的显示器或与文字语音转换器组合的语音识别单元。
计算机702通常在操作系统(未示出)的控制下。操作系统的示例包括UNIX,各版本的Microsoft操作系统,以及操作系统的发行版(注意,Linux是LinusTorvalds在美国和其他国家的注册商标)。更普遍地,可以使用支持这里公开的功能的任何操作系统。
存储器706优选地是对保持这里描述的实施例中的必需编程和数据结构足够大的随机存取存储器。尽管存储器706示出为单个实体,但是应当明白存储器706可以事实上包括多个模块,并且存储器706可以以多级存在,从高速寄存器和高速缓存到较低速但是更大的DRAM芯片
存储708可以是直接存取存储装置(DASD)。尽管存储708示出为单个单元,但是存储708可以是固定和/或可移除存储装置的组合,诸如固定的盘驱动器、软盘驱动器、磁带驱动器、可移除存储器卡或光学存储。存储器706和存储708可以是跨越多个主存储装置和次存储装置的一个虚拟地址空间的一部分。
附图中的流程图和框图显示了根据这里公开的多个实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段或代码的一部分,所述模块、程序段或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个连续的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或动作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
尽管前述指向本公开的实施例,但是在不偏离其范围的情况下,可以设想本公开的其他和进一步实施例,并且其范围由以下的权利要求确定。

Claims (24)

1.一种用于将搜索结果分组为简档页面的计算机实现的方法,该方法包括:
接收指定一个或多个搜索词语的第一搜索字符串,其中所述一个或多个搜索词语的至少一个是与多个实体对应的共享词语;
基于接收到的第一搜索字符串生成多个搜索查询,每一个对应于所述多个实体中的相应实体;
执行所生成的多个搜索查询的每一个来创建搜索结果的相应集合;
分解搜索结果的集合,以使得所述多个实体的每一个由单个集合的搜索结果代表;
生成多个简档,每一个简档与分解后的搜索结果的集合之一对应,其中所述多个简档中的每一个包括从分解后的搜索结果的对应集合中的至少一个文档获得的数据;并且
呈现所述多个简档作为响应于第一搜索字符串的结果的集合。
2.如权利要求1所述的方法,所述多个实体中的每一个包括人、位置或组织中的至少一个。
3.如权利要求1所述的方法,其中基于响应于所述第一搜索字符串提供的相关搜索字符串的集合,生成所述多个搜索查询。
4.如权利要求1所述的方法,其中该分解包括:
比较搜索结果的集合的每一个以检测相似性;并且
当检测到所述相似性时合并搜索结果的集合。
5.如权利要求4所述的方法,其中当检测到的相似性超出了指定相似性阈值时,该合并发生。
6.如权利要求1所述的方法,其中使用从所述搜索结果的对应集合检索到的传记信息生成所述多个简档中的每一个。
7.如权利要求1所述的方法,包括:
接收将简档中的至少一个数据元素标记为与该简档相关或不相关的用户反馈。
8.如权利要求1所述的方法,其中所述至少一个文档包括与所述实体相关联的社交网络页面。
9.一种用于将搜索结果分组为简档页面的计算机程序产品,所述计算机程序产品包括:
具有以其体现的计算机可读程序代码的计算机可读存储介质,该计算机可读程序代码包括:
配置为接收指定一个或多个搜索词语的第一搜索字符串的计算机可读程序代码,其中所述一个或多个搜索词语中的至少一个是与多个实体对应的共享词语;
配置为基于接收到的第一搜索字符串生成多个搜索查询的计算机可读程序代码,每一个搜索查询对应于所述多个实体中的相应实体;
配置为执行所生成的多个搜索查询的每一个来创建搜索结果的相应集合的计算机可读程序代码;
配置为分解搜索结果的集合以使得多个实体的每一个由单个集合的搜索结果代表的计算机可读程序代码;
配置为生成多个简档的计算机可读程序代码,每一个简档与分解后的搜索结果的集合之一对应,其中多个简档中的每一个包括从分解后的搜索结果的对应集合中的至少一个文档获得的数据;以及
配置为呈现多个简档作为响应于第一搜索字符串的结果的集合的计算机可读程序代码。
10.如权利要求9所述的计算机程序产品,其中所述多个实体的每一个包括人、位置或组织中的至少一个。
11.如权利要求9所述的计算机程序产品,其中基于响应于所述第一搜索字符串提供的相关搜索字符串的集合,生成所述多个搜索查询。
12.如权利要求9所述的计算机程序产品,其中该分解包括:
比较搜索结果的集合的每一个以检测相似性;并且
当检测到相似性时,合并搜索结果的集合。
13.如权利要求12所述的计算机程序产品,其中当所检测的相似性超出了指定相似性阈值时,该合并发生。
14.如权利要求9所述的计算机程序产品,其中使用从搜索结果的对应集合检索到的传记信息生成所述多个简档中的每一个。
15.如权利要求9所述的计算机程序产品,包括:
接收将简档中的至少一个数据元素标记为与该简档相关或不相关的用户反馈。
16.如权利要求9所述的计算机程序产品,其中所述至少一个文档包括与该实体相关联的社交网络页面。
17.一种用于将搜索结果分组为简档页面的系统,该系统包括:
处理器;以及
存储器,包含当由所述处理器执行时配置为进行用于将搜索结果分组为简档页面的操作的程序,该操作包括:
接收指定一个或多个搜索词语的第一搜索字符串,其中所述一个或多个搜索词语的至少一个是与多个实体对应的共享词语;
基于接收到的第一搜索字符串生成多个搜索查询,每一个对应于所述多个实体中的相应实体;
执行所生成的多个搜索查询的每一个来创建搜索结果的相应集合;
分解搜索结果的集合,以使得所述多个实体的每一个由单个集合的搜索结果代表;
生成多个简档,每一个简档与分解后的搜索结果的集合之一对应,其中所述多个简档中的每一个包括从分解后的搜索结果的对应集合中的至少一个文档获得的数据;并且
呈现所述多个简档作为响应于第一搜索字符串的结果的集合。
18.如权利要求17所述的系统,其中所述多个实体的每一个包括人、位置或组织中的至少一个。
19.如权利要求17所述的系统,其中基于响应于第一搜索字符串提供的相关搜索字符串的集合,生成多个搜索查询。
20.如权利要求17所述的系统,其中该分解包括:
比较搜索结果的集合的每一个以检测相似性;并且
当检测到相似性时合并搜索结果的集合。
21.如权利要求20所述的系统,其中当所检测的相似性超出了指定相似性阈值时该合并发生。
22.如权利要求17所述的系统,其中使用从搜索结果的对应集合检索到的传记信息生成所述多个简档的每一个。
23.如权利要求17所述的系统,包括:
接收将简档中的至少一个数据元素标记为与该简档相关或不相关的用户反馈。
24.如权利要求17所述的系统,其中所述至少一个文档包括与所述实体相关联的社交网络页面。
CN201380005822.2A 2012-01-17 2013-01-10 将搜索结果分组为简档页面 Pending CN104067273A (zh)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US13/351,623 US9251270B2 (en) 2012-01-17 2012-01-17 Grouping search results into a profile page
US13/351,623 2012-01-17
PCT/IB2013/050214 WO2013108157A1 (en) 2012-01-17 2013-01-10 Grouping search results into a profile page

Publications (1)

Publication Number Publication Date
CN104067273A true CN104067273A (zh) 2014-09-24

Family

ID=48780716

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201380005822.2A Pending CN104067273A (zh) 2012-01-17 2013-01-10 将搜索结果分组为简档页面

Country Status (4)

Country Link
US (2) US9251270B2 (zh)
EP (1) EP2805266A4 (zh)
CN (1) CN104067273A (zh)
WO (1) WO2013108157A1 (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107810497A (zh) * 2015-02-20 2018-03-16 谷歌有限责任公司 呈现搜索结果的方法、系统、和介质
CN109891406A (zh) * 2016-11-04 2019-06-14 微软技术许可有限责任公司 多级数据分页
CN111201524A (zh) * 2018-08-30 2020-05-26 谷歌有限责任公司 百分位链接聚类

Families Citing this family (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20130297582A1 (en) * 2012-04-09 2013-11-07 Eli Zukovsky Peer sharing of personalized views of detected information based on relevancy to a particular user's personal interests
US20130332451A1 (en) * 2012-06-06 2013-12-12 Fliptop, Inc. System and method for correlating personal identifiers with corresponding online presence
US10303723B2 (en) * 2012-06-12 2019-05-28 Excalibur Ip, Llc Systems and methods involving search enhancement features associated with media modules
US20140280084A1 (en) * 2013-03-15 2014-09-18 Google Inc. Using structured data for search result deduplication
US20150193436A1 (en) * 2014-01-08 2015-07-09 Kent D. Slaney Search result processing
US10838995B2 (en) * 2014-05-16 2020-11-17 Microsoft Technology Licensing, Llc Generating distinct entity names to facilitate entity disambiguation
CN104679848B (zh) * 2015-02-13 2019-05-03 百度在线网络技术(北京)有限公司 搜索推荐方法和装置
CN113010154A (zh) * 2019-12-19 2021-06-22 中国科学院沈阳自动化研究所 基于动态加载的二级数据管理界面可视化开发配置方法

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20090240672A1 (en) * 2008-03-18 2009-09-24 Cuill, Inc. Apparatus and method for displaying search results with a variety of display paradigms
CN101743545A (zh) * 2007-07-18 2010-06-16 恩斯沃尔斯有限责任公司 提供动态图像检索服务的方法和装置
CN101782901A (zh) * 2009-01-15 2010-07-21 林玉好 搜索引擎中的互联网广告加载方法及系统
US20110106807A1 (en) * 2009-10-30 2011-05-05 Janya, Inc Systems and methods for information integration through context-based entity disambiguation

Family Cites Families (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6144958A (en) * 1998-07-15 2000-11-07 Amazon.Com, Inc. System and method for correcting spelling errors in search queries
US8418067B2 (en) * 2004-01-15 2013-04-09 Microsoft Corporation Rich profile communication with notifications
US7760917B2 (en) * 2005-05-09 2010-07-20 Like.Com Computer-implemented method for performing similarity searches
US20070136429A1 (en) 2005-12-09 2007-06-14 Fine Leslie R Methods and systems for building participant profiles
US7997987B2 (en) * 2006-01-20 2011-08-16 Microsoft Corporation Computer-based gaming teams
US20070192293A1 (en) 2006-02-13 2007-08-16 Bing Swen Method for presenting search results
US7979411B2 (en) * 2006-05-22 2011-07-12 Microsoft Corporation Relating people finding results by social distance
US20090024614A1 (en) * 2006-09-06 2009-01-22 Sms.Ac Systems and methods for online content searching
US7685201B2 (en) 2006-09-08 2010-03-23 Microsoft Corporation Person disambiguation using name entity extraction-based clustering
US7577644B2 (en) 2006-10-11 2009-08-18 Yahoo! Inc. Augmented search with error detection and replacement
US8594996B2 (en) 2007-10-17 2013-11-26 Evri Inc. NLP-based entity recognition and disambiguation
US8214380B1 (en) * 2009-02-09 2012-07-03 Repio, Inc. System and method for managing search results
US20120191693A1 (en) * 2009-08-25 2012-07-26 Vizibility Inc. Systems and methods of identifying and handling abusive requesters
US8219552B2 (en) 2009-10-07 2012-07-10 International Business Machines Corporation Information theory based result merging for searching hierarchical entities across heterogeneous data sources
US8745134B1 (en) * 2011-03-04 2014-06-03 Zynga Inc. Cross social network data aggregation
US20130060769A1 (en) * 2011-09-01 2013-03-07 Oren Pereg System and method for identifying social media interactions

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101743545A (zh) * 2007-07-18 2010-06-16 恩斯沃尔斯有限责任公司 提供动态图像检索服务的方法和装置
US20090240672A1 (en) * 2008-03-18 2009-09-24 Cuill, Inc. Apparatus and method for displaying search results with a variety of display paradigms
CN101782901A (zh) * 2009-01-15 2010-07-21 林玉好 搜索引擎中的互联网广告加载方法及系统
US20110106807A1 (en) * 2009-10-30 2011-05-05 Janya, Inc Systems and methods for information integration through context-based entity disambiguation

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107810497A (zh) * 2015-02-20 2018-03-16 谷歌有限责任公司 呈现搜索结果的方法、系统、和介质
CN107810497B (zh) * 2015-02-20 2021-12-21 谷歌有限责任公司 呈现搜索结果的方法、系统、和介质
US11829373B2 (en) 2015-02-20 2023-11-28 Google Llc Methods, systems, and media for presenting search results
CN109891406A (zh) * 2016-11-04 2019-06-14 微软技术许可有限责任公司 多级数据分页
CN109891406B (zh) * 2016-11-04 2023-07-21 微软技术许可有限责任公司 多级数据分页
CN111201524A (zh) * 2018-08-30 2020-05-26 谷歌有限责任公司 百分位链接聚类
CN111201524B (zh) * 2018-08-30 2023-08-25 谷歌有限责任公司 百分位链接聚类

Also Published As

Publication number Publication date
US20130185284A1 (en) 2013-07-18
US9251270B2 (en) 2016-02-02
US20130246416A1 (en) 2013-09-19
EP2805266A4 (en) 2015-04-15
WO2013108157A1 (en) 2013-07-25
US9251274B2 (en) 2016-02-02
EP2805266A1 (en) 2014-11-26

Similar Documents

Publication Publication Date Title
CN104067273A (zh) 将搜索结果分组为简档页面
US10387435B2 (en) Computer application query suggestions
CN102693272B (zh) 从统一资源定位符(url)的关键字提取
US10346457B2 (en) Platform support clusters from computer application metadata
CN107145496A (zh) 基于关键词将图像与内容项目匹配的方法
KR20160144384A (ko) 딥 러닝 모델을 이용한 상황 의존 검색 기법
US20150356456A1 (en) Real-Time or Frequent Ingestion by Running Pipeline in Order of Effectiveness
CN105550206B (zh) 结构化查询语句的版本控制方法及装置
CN104933171B (zh) 兴趣点数据关联方法和装置
CN107145497A (zh) 基于图像和内容的元数据选择与内容匹配的图像的方法
CN112115232A (zh) 一种数据纠错方法、装置及服务器
CN107463592A (zh) 用于将内容项目与图像匹配的方法、设备和数据处理系统
CN111611452A (zh) 搜索文本的歧义识别方法、系统、设备及存储介质
JP5497105B2 (ja) 文書検索装置および方法
JP5980520B2 (ja) 効率的にクエリを処理する方法及び装置
US10339148B2 (en) Cross-platform computer application query categories
CN113515589A (zh) 数据推荐方法、装置、设备以及介质
US9195940B2 (en) Jabba-type override for correcting or improving output of a model
CN113657116B (zh) 基于视觉语义关系的社交媒体流行度预测方法及装置
CN114020867A (zh) 一种搜索词的扩展方法、装置、设备及介质
JP2019020939A (ja) 情報処理システム、情報処理方法、およびプログラム
CN112328743A (zh) 代码搜索方法、装置、可读存储介质和电子设备
JP5265610B2 (ja) 関連語抽出装置
JP2010244341A (ja) 属性表現獲得方法及び装置及びプログラム
Adhiya et al. AN EFFICIENT AND NOVEL APPROACH FOR WEB SEARCH PERSONALIZATION USING WEB USAGE MINING.

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
WD01 Invention patent application deemed withdrawn after publication
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20140924