CN102460440B - 搜索方法和设备 - Google Patents
搜索方法和设备 Download PDFInfo
- Publication number
- CN102460440B CN102460440B CN201080034010.7A CN201080034010A CN102460440B CN 102460440 B CN102460440 B CN 102460440B CN 201080034010 A CN201080034010 A CN 201080034010A CN 102460440 B CN102460440 B CN 102460440B
- Authority
- CN
- China
- Prior art keywords
- user
- value
- correct
- degree
- search
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/332—Query formulation
- G06F16/3325—Reformulation based on results of preceding query
- G06F16/3326—Reformulation based on results of preceding query using relevance feedback from the user, e.g. relevance feedback on documents, documents sets, document terms or passages
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/955—Retrieval from the web using information identifiers, e.g. uniform resource locators [URL]
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Databases & Information Systems (AREA)
- General Physics & Mathematics (AREA)
- Mathematical Physics (AREA)
- Data Mining & Analysis (AREA)
- Computational Linguistics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Human Computer Interaction (AREA)
Abstract
用于利用用户校正来改进搜索的方法、系统和装置(包括在计算机存储介质上编码的计算机程序)。在一个方面中,一种由数据处理装置执行的方法包括以下动作:接收值结果集;访问在一个或者多个数据存储设备处存储的用户校正历史记录,该历史记录描述对由值表征的实例属性的用户校正;确定用户校正历史记录描述涉及到值结果集中的第一值的第一用户校正;以及改变置信度参数,该置信度参数体现第一值正确表征实例属性的置信度。值结果集包括一个或者多个值的汇集。该值是用于表征实例属性的候选。在校正中涉及到第一值作为经校正值或者未校正值。
Description
技术领域
本说明书涉及例如通过搜索非结构化电子文档汇集、利用有关实例的分组的用户校正或者标识来改进搜索结果中的排名。
背景技术
搜索通常是用户录入搜索查询并且接收结果集中的响应结果的自动化过程。结果例如在存储于数据存储设备上的机器可读的数字数据汇集中标识与搜索查询相关的内容。
电子文档是机器可读数字数据的汇集。电子文档通常为个别文件并且根据限定的格式(例如PDF、TIFF、HTML、XML、MS Word、PCL、PostScript等)来格式化。电子文档汇集可以在一个或者多个数据存储设备上存储为数字数据。
电子文档汇集可以是非结构化的或者结构化的。在非结构化电子文档汇集中的文档的格式化不限于遵从预定结构并且可以按照经常未预见的方式演变。换言之,在非结构化电子文档汇集中的个别文档的格式化在整个文档汇集中既不是限制性的也不是不变的。另外,在非结构化电子文档汇集中,没有用于保证新文档坚持一种格式或者对格式的改变应用于先前存在文档的机制。因此,无法期望在非结构化电子文档汇集中的文档共享可以在提取信息时利用的共同结构。非结构化电子文档汇集的示例包括因特网上可用的文档、简历汇集、期刊文章汇集和新闻文章汇集。并不禁止一些非结构化电子文档汇集中的文档包括指向汇集以内和以外的其它文档的链接。
对照而言,在结构化电子文档汇集中的文档通常遵从可以是限制性的并且不变的格式。对结构化电子文档汇集中的文档施加的格式可以是限制性的,因为共同格式即使在应用的格式未完全适合时仍然应用于汇集中的所有文档。格式可以是不变的,因为由汇合结构化电子文档汇集的一方对特定格式的在先承诺通常是必需的。另外,汇集的用户—特别是使用汇集中的文档的计算机程序—依赖于文档具有预期的格式。因而,格式改变可能难以实施。结构化电子文档汇集最佳地适合于如下应用,其中信息内容适宜于简单和稳定的分类。因此,在结构化电子文档汇集中的文档通常共享可以在提取信息时利用的共同结构。结构化电子文档汇集的示例包括根据分级和关系数据模型通过数据库管理系统(DBMS)组织和查看的数据库,以及由单个实体为了一致地呈现信息而创建的电子文档汇集。例如,由在线书商为了呈现关于个别书籍的信息而提供的网页汇集可以形成结构化电子文档汇集。作为另一示例,由服务器侧脚本创建的并且通过应用服务器查看的网页汇集可以形成结构化电子文档汇集。因此,一个或者多个结构化电子文档汇集可以各自是非结构化电子文档汇集的子集。
实例是个别可标识实体。可以根据实例的属性来将它们分组。属性是实例的性质、特征或者特性。实例的分组可以由一个或者多个属性限定。属于分组的实例由限定该组的属性确定。例如,实例纽约、芝加哥和东京可以被一起分组为城市,而从北美城市的分组排除东京。
发明内容
本说明书描述涉及利用用户校正来改进搜索的技术,以及涉及标识有关实例的一个或多个分组的技术。在一些实现中,通过搜索非结构化电子文档(例如,在因特网上可获得的电子文档)汇集来标识有关实例标识符的分组。
一般而言,在本说明书中描述的主题内容的一个创新方面可以体现于由数据处理装置执行的如下方法中,该方法包括动作:接收值结果集,该值结果集包括一个或者多个值的汇集,该值是用于表征实例属性的候选;访问在一个或者多个数据存储设备处存储的用户校正历史记录,该历史记录描述对由值表征的实例属性的用户校正;确定用户校正历史记录描述涉及到值结果集中的值的第一用户校正,其中在校正中涉及到该值作为经校正值或者未校正值;以及改变置信度参数,该置信度参数体现涉及到的值正确表征实例属性的置信度。
这一方面的其它实施例包括对应的系统、装置和在计算机存储设备上编码的、配置成执行方法的动作的计算机程序。
这些以及其它实施例可以各自可选地包括以下特征中的一个或者多个特征。该方法可以包括对值结果集中的值排名、以反映改变的置信度参数以及在显示屏上可视地显示值结果集的至少部分。输出值结果集的至少部分可以包括向用户呈现结构化呈现。结构化呈现可以由在值结果集中包括的第一值填充(populate)。第一值是值结果集中的最可能正确表征实例属性的值。可视地显示值结果集的至少部分可以包括显示候选窗,该候选窗包括用于表征实例属性的候选值。改变置信度参数可以包括生成适合于向缩放置信度评级应用的增量值(delta value)。缩放置信度评级可以体现涉及到的值正确表征实例属性的置信度。生成增量值可以包括对涉及到的值的用户校正的分类加权或者对用户校正分类。
在本说明书中描述的主题内容的另一创新方面可以体现于编码有计算机程序的计算机存储介质中。程序可以包括在由数据处理装置执行时使数据处理装置执行操作的指令。操作可以包括:接收对用户校正的描述,该用户校正涉及到表征实例属性的值,其中在校正中涉及到该值作为经校正值或者未校正值;改变置信度参数,该置信度参数反映值正确表征实例属性的似然度;以及根据包括改变的置信度参数的各自的置信度参数对包括该值的候选值汇集排名。
这一方面的其它实施例包括配置成执行由数据处理装置执行的操作的对应的系统、装置和方法。
这些以及其它实施例可以各自可选地包括以下特征中的一个或者多个特征。
操作可以包括响应于接收搜索查询、通过数据通信网络传输对排名的候选值汇集的描述,对该搜索查询的响应包括实例的属性值。
接收对用户校正的描述可以包括接收对用户是否用源确认校正的描述、接收对用户在回顾电子文档之后未改变未校正值的描述以及接收对用户校正之前的未校正值和用户校正之后的经校正值的描述。改变置信度参数可以包括对用户校正分类以及根据用户校正的分类对用户校正对置信度参数的影响加权。
对用户校正的影响加权可以包括对在从源确认之后进行的用户校正比未从源确认而进行的用户校正加权更多,或者对更近期的用户校正比更早期的用户校正加权更多。改变置信度参数可以包括改变反映校正值正确表征实例属性的似然度的置信度参数。
在本说明书中描述的主题内容的另一创新方面可以体现于如下系统中,该系统包括:客户端;校正跟踪器,可操作用于与客户端交互、以跟踪对实例属性的表征进行校正的用户输入,以及在用户校正历史的记录中存储对用户输入的描述;一个或者多个数据存储设备,存储用户校正历史的记录;以及搜索引擎,可操作用于与一个或者多个数据存储设备交互、以访问用户校正历史的记录,以及响应于标识对校正第一实例属性的表征的用户校正进行描述的记录来改变第一值正确表征第一实例属性的置信度。客户端包括:输入设备;显示屏;以及数字数据处理设备,可操作用于在显示屏上显示由值对实例属性的表征,以及通过输入设备接收校正实例属性的表征的用户输入。
这一方面的其它实施例包括对应的方法、装置和在计算机存储设备上编码的、配置成执行系统元件的动作的计算机程序。
这些以及其它实施例可以各自可选地包括以下特征中的一个或者多个特征。显示屏可以在数字数据处理设备的指引之下显示结构化呈现,该结构化呈现可以将实例属性与值进行关联。结构化呈现可以包括可由用户选择用于标识实例属性的交互式元素,由值对该实例属性的表征将被校正。交互式元素可以包括结构化呈现的单元。结构化呈现可以是成套卡(a deck of cards)。显示屏可以在数字数据处理设备的指引之下显示候选窗。候选窗可以呈现用于替换表征实例属性的未校正值的候选校正值。
在本说明书中描述的主题内容的另一创新方面可以体现于由一个或者多个数据处理装置执行的方法,该方法包括以下动作:数据处理装置在数据处理装置处接收搜索查询;数据处理装置用数据处理装置标识非结构化电子文档汇集中的实例标识符的分组;数据处理装置用数据处理装置确定实例标识符的分组与搜索查询的相关度;以及数据处理装置用数据处理装置对实例标识符的分组中的至少一些实例标识符个别计分;以及数据处理装置用数据处理装置根据分数对至少一些实例标识符排名。搜索查询指定由有关实例的分组共享的属性。
这一方面的其它实施例包括对应的系统、装置和在计算机存储设备上编码的、配置成执行方法的动作的计算机程序。
这些以及其它实施例可以各自可选地包括以下特征中的一个或者多个特征。确定实例标识符的分组与搜索查询的相关度可以包括:计算实例标识符的分组与包括实例标识符的分组的源文档的相关度;计算标识的实例标识符的分组实际上是实例标识符的分组的似然度;以及计算包括实例标识符的分组的源文档与搜索查询的相关度。标识实例标识符的分组可以包括:形成偏向于标识分组的第一新查询;形成限于搜索概略源的第二新查询;以及用接收的查询、第一新查询和第二新查询搜索非结构化电子文档汇集。
该方法也可以包括数据处理装置在排名之前对至少一些实例标识符重新计分。对实例标识符的分组中的至少一些实例标识符计分可以包括在点-边图中表现实例标识符的特征,以及根据在点-边图中表现的特征对实例标识符计分。点-边图中的顶点可以代表实例标识符的分组。点-边图中的相应边可以根据在由边连接的顶点之间的重叠来加权。点-边图中的顶点可以代表个别实例标识符。点-边图中的相应边代表由实例标识符共享的特征。点-边图中的第一边可以代表提取器,该提取器标识由第一边接合的顶点配对。点-边图中的第一边可以代表潜在分组中的其它实例标识符,由第一边接合的顶点是在该潜在组中发现的。点-边图中的第一边可以代表标识源文档的查询的类别,由第一边接合的顶点是在该源文档中发现的。对实例标识符计分可以包括标识点-边图中的团。对实例标识符计分可以包括使用预测分析树构建算法对实例标识符计分。使用预测分析树构建算法对实例标识符计分可以包括:使用与搜索查询相关的有确认准确度的实例标识符的分组、已经从非结构化电子文档汇集中标识的潜在的实例标识符的分组的集合以及潜在分组中的实例标识符的特征来训练预测分析树构建算法;以及生成分类和回归树。
在本说明书中描述的主题内容的另一创新方面可以体现于编码有计算机程序的计算机存储介质中。程序可以包括在由数据处理装置执行时使数据处理装置执行操作的指令。操作可以包括:在数据处理装置处接收搜索查询,该搜索查询指定由有关实例的分组共享的属性;搜索电子文档汇集、以标识响应于搜索查询的实例标识符;在点-边图中表现实例标识符的特征;以及根据在点-边图中表现的特征、对实例标识符与搜索查询的相关度计分。
这一方面的其它实施例包括配置成执行操作的动作的对应的系统、装置和方法。
这些以及其它实施例可以各自可选地包括以下特征中的一个或者多个特征。操作也可以包括标识汇集的电子文档中的实例标识符的分组,以及确定实例标识符的分组与搜索查询的相关度。在点-边图中表现的第一特征可以包括这些包括相应实例标识符的分组与搜索查询的相关度。操作也可以包括标识与搜索查询相关的在因特网上可用的电子文档,以及从与搜索查询相关的电子文档提取实例标识符的分组。操作也可以包括计算从其提取实例标识符的分组的电子文档与搜索查询的相关度;计算实例标识符的分组与从其提取实例标识符的分组的电子文档的相关度;以及计算实例标识符的分组是实例标识符的分组的似然度。
标识实例标识符的分组可以包括形成偏向于标识分组的新查询,以及用新查询搜索电子文档汇集。点-边图中的第一边可以代表标识由第一边接合的顶点配对的查询的类别。点-边图中的第一边可以代表潜在分组中的其它实例标识符,由第一边接合的顶点是在该潜在组中发现的。对实例标识符与搜索查询的相关度计分可以包括标识点-边图中的团。
在本说明书中描述的主题内容的另一创新方面可以体现于如下系统中,该系统包括客户端设备以及被编程为与客户端设备和数据存储设备交互的一个或者多个计算机。计算机被编程为执行操作,该操作可以包括:从客户端设备接收搜索查询,该搜索查询明示或者暗示指定实例属性;搜索电子文档汇集、以标识可以具有由搜索查询指定的属性的实例标识符;在点-边图中表现电子文档汇集的搜索的特征;根据在点-边图中表现的特征对可以具有由搜索查询指定的属性的实例标识符计分;以及向客户端设备输出用于可视地呈现至少一些实例标识符的指令。
这一方面的其它实施例包括对应的方法和在计算机存储设备上编码的、配置成执行计算机的操作的计算机程序。
这些以及其它实施例可以各自可选地包括以下特征中的一个或者多个特征。输出指令可以包括输出用于在客户端设备处可视地呈现结构化呈现的指令,并且客户端设备被配置成接收指令并且使结构化呈现被可视地呈现。该系统可以包括存储描述多组实例的数据的数据存储设备。该系统可以包括存储机器可读指令的数据存储设备,这些机器可读指令被编制以从非结构化汇集中的电子文档标识和提取实例标识符的分组。表现特征可以包括在点-边图中表现实例标识符出现于其中的分组的相关度。对实例标识符计分可以包括根据实例标识符出现于其中的分组与搜索查询的相关度对实例标识符个别计分。对实例标识符计分可以包括标识点-边图中的团。对实例标识符计分可以包括根据在点-边图中代表的提取器对实例标识符计分。对实例标识符计分可以包括根据在点-边图中代表的查询类别对实例标识符计分。
在附图和下文描述中阐述了本说明书中描述的主题内容的一个或者多个实现的细节。主题内容的其它特征、方面和优点将根据描述、附图和权利要求书变得显而易见。
附图说明
图1是如下系统的示意表示,在该系统中用户校正历史记录用来为当前用户改进搜索。
图2是在图1的系统中的用户校正历史的补充的示意表示。
图3-5是用值表征实例属性的结构化呈现示例。
图6和图7是用于利用用户校正来改进搜索的过程的流程图。
图8-11是如下结构化呈现的示意表示,在该结构化呈现中可以接收实例属性值的用户校正。
图12是用于利用用户校正来改进搜索的过程的流程图。
图13是用户校正日志的示意表示。
图14是用于利用用户校正来改进搜索的过程的流程图。
图15是汇总反馈数据汇集的示意表示。
图16是加权参数数据汇集的示意表示。
图17是用于利用用户校正来改进搜索的流程图。
图18是加权参数数据汇集的示意表示。
图19是如下系统的示意表示,在该系统中标识有关实例的分组。
图20是用于标识有关实例的分组的过程的流程图。
图21是用于标识有关实例的分组的过程的示意表示。
图22是用于标识与查询相关的电子文档的过程的流程图。
图23是用于标识与查询相关的电子文档的过程的示意表示。
图24是用于确定实例分组与搜索查询的相关度的过程的流程图。
图25是用于根据实例出现于其中的分组的相关度来为实例计分的过程的流程图。
图26是用于根据实例出现于其中的分组的相关度来为实例计分的过程的流程图。
图27是如下点-边图的示意表示,该图像表现潜在分组中的实例的特征。
图28是另一如下点-边图的示意表示,该图像表现潜在分组中的实例的特征。
图29是用于对实例重新计分的过程的流程图。
在各种附图中的相似编号和标示表明相似要素。
具体实施方式
图1是系统100的示意表示,在该系统中用户校正历史记录用来为当前用户改进搜索。用户校正是对由值对实例属性的表征的更改。实例是个别可标识实体。属性是实例的性质、特征或者特性。例如,汤姆(Tom)、迪克(Dick)和哈利(Harry)是个人实例。每个此类个人具有诸如姓名、身高、体重等属性。作为另一示例,城市实例各自具有地理位置、市长和人口。作为又一示例,产品实例可以具有型号名称、制造者和年份。实例的属性可以由值表征。特定实例的特定属性的值表征该特定实例。例如,个人姓名可以具有值“汤姆”,城市人口可以具有值“4百万”,而产品型号名称可以具有值“牧人(Wrangler)”。
用户校正也可以是尝试更改值对实例属性的表征。用户校正由人类用户进行。用户校正通常设计成从进行校正的用户的角度来校正或者改进值。用户校正可以例如通过删除值、通过编辑值、通过精化值、通过将经校正值替换为未校正值、或者通过这些以及其它更改的组合来更改值。尝试更改对实例属性的表征可以包括利用电子文档(例如,因特网上可用的电子文档)对值的可跟踪用户确认。用户校正记录因此可以包括经校正值、未校正值和对是否进行确认的注释中的一项或者多项。包括对一个或者多个值的多个用户校正的记录可以反映多个人类用户的集体智慧和工作。本发明人已经认识到此类记录可以用来改进搜索系统对于后续用户的有用性。
系统100包括搜索引擎105、用户校正历史110和客户端115。当前用户可以与客户端115交互、以录入如下搜索查询,对该搜索查询的响应包括实例的属性值。例如,搜索查询可以询问实例属性值。搜索引擎105可以通过搜索例如文档汇集(诸如因特网、对电子文档进行表征的信息存储库或者通过数据库管理系统(DBMS)组织和查看的结构化数据库)的电子文档来对搜索查询做出响应。搜索引擎105可以与内部或者外部模块一起操作、以例如根据结果集中的结果与搜索查询的相关度来对该结果排名。搜索引擎105可以实施于在一个或者多个地理位置部署的用一个或者多个如下机器可读指令集编程的一个或者多个计算机上,该机器可读指令集用于响应于源于多个客户端设备的请求来搜索。
在某些情况中,搜索引擎105可以进行搜索并且返回响应于搜索查询的一个或者多值的结果集。如下文进一步描述的那样,结果集的内容、在结果集中的结果布置或者二者可以反映用户先前已经进行的并且在用户校正历史110中记录的校正。
用户校正历史110存储如下信息,该信息表征用户先前已经进行的校正。在一些实现中,可以在搜索的背景中从与客户端交互的用户接收校正。例如,如下文进一步描述的那样,用户可以与在客户端115显示的结构化呈现(诸如图3-图5中所示的结构化呈现)交互。
用户校正历史110可以存储于在一个或者多个地理位置部署的一个或者多个数据存储设备上。在用户校正历史110中的信息由搜索引擎105或者由一个或者多个如下中间模块直接可访问,该中间模块可以向搜索引擎105提供如下信息,该信息表征用户校正历史110的信息内容。
客户端115是用于与用户交互的设备并且可以实施于用机器可读指令编程的计算机上。客户端115可以包括一个或者多个输入/输出设备(诸如用于向当前用户显示信息的显示屏120)。例如,客户端115可以在显示屏120上显示呈现125。
呈现125表明实例属性由值130表征(例如,“实例_Y的属性_X为:值_Z。”)。下文更具体地描述表明实例属性由值130表征的其他呈现(即结构化呈现)。
一般而言,将在搜索过程期间显示如下呈现,该呈现表明实例属性由值表征。例如,当前正与客户端115交互的用户可以使用输入设备(诸如鼠标或者键盘)来录入查询。对搜索查询的响应可以包括用于实例的属性值。在一些实现中,搜索查询可以标识实例和该实例的将被表征的属性。例如,搜索查询可以是实例:属性配对(例如“法国:首都”或者“市长:伯明翰(Birmingham)”)。作为另一示例,可以形成搜索查询,从而使得在如下语言模式中发现实例和属性的标识符,该语言模式表明需要对实例属性进行表征的值。此类模式的示例包括“<实例>的<属性>是什么”、“<实例>的<属性>是谁”等。
作为另一示例,用户可以通过与显示于显示屏120上的结构化交互或者引用该结构化呈现来录入搜索查询。例如,如下文进一步描述的那样,用户可以点击结构化呈现中的单元或者人工制定如下查询,该查询引用结构化呈现中的单元作为属性和实例(例如,“单元_1:单元_2”)。
在一些实现中,搜索查询无需标识实例和该实例的将被表征的属性两者。相反地,搜索查询可以例如在如下背景中仅标识属性或者实例,该背景表明将表征一个或者多个实例的一个或者多个属性。例如,可以取得查询“市长”作为如下询问,该询问请求标识城市实例的属性“市长”的值。作为另一示例,可以取得查询“世界上的最富有女人”作为如下询问,该询问请求标识“世界上的最富有女人”实例的属性“姓名”的值。
响应于接收搜索查询,客户端115在消息135中向搜索引擎105传输搜索查询的表示或者搜索查询本身。可以通过数据通信网络传输消息135。搜索引擎105可以接收消息135并且使用消息135的内容来限定用于搜索的参数。例如,消息135的内容可以用来限定用来搜索电子文档的索引化汇集的检索词,以按照DBMS查询语言限定查询,或者这些以及其它方式的组合。
搜索引擎105根据由消息135的内容限定的用于搜索的参数来进行搜索。搜索可以产生响应于在消息135中描述的搜索查询的一个或者多个值的结果集。结果集的内容、在结果集中的结果布置或者这二者可以反映用户先前已经进行的并且在用户校正历史110中记录的校正。例如,在历史110中记录的用户校正可以并入于由搜索引擎105搜索的数据库或者其它数据体中。用户校正因此可以本身是结果集中包括的值的源。作为另一示例,可以在对结果集中的值排名时使用历史110中记录的用户校正。
在值结果集中的值是用于对一个或者多个实例的一个或者多个属性进行表征的候选并且响应于搜索查询。在值结果集中的值的内容和布置可以反映特定值正确表征实例属性的置信度的一个或者多个改变。例如,当用户校正是在结果集中包括的值的源时,该值可以从具有低置信度并且因此被从结果集中被排除变成具有高到足以使包含于结果集中变得合理的置信度。作为另一示例,在结果集中的值的排名可以反映个别值的置信度。特别地,更可能正确表征实例属性的值通常将排名高于更不可能正确表征实例属性的值。
搜索引擎105在消息140中向客户端115传输对反映用户校正的结果集的表示。可以例如通过与传输消息135相同的数据通信网络传输消息140。客户端115可以接收消息140并且使用消息140的内容在显示屏120上显示呈现125。呈现125用值结果集中发现的反映用户校正的值130表征实例属性。在一些实现中,呈现125可以如所示使用文本来表明实例属性由值130表征。在一些实现中,呈现125可以使用属性和实例的标识符布置来表明标识实例的标识属性由值130表征。例如,如下文进一步描述的那样,呈现125可以是如下结构化呈现,该结构化呈现在有组织的、系统的布置中显示实例属性的值和标识符,从而使得由值对实例属性的表征对用户是明显的。在一些实现中,系统(诸如系统100)可以用来补充用户校正历史110。
图2是在系统100中补充用户校正历史110的示意表示。如所示,校正跟踪器205耦合到客户端115。校正跟踪器205是如下部件,该部件用于跟踪在客户端115处由用户进行的对实例属性的表征的校正。例如,校正跟踪器205可以实施于在一个或者多个地理位置部署的用一个或者多个机器可读指令集编程的一个或者多个计算机上。校正跟踪器205可以例如在客户端侧脚本中实施于客户端115中,或者它可以实施于搜索引擎105中,或者校正跟踪器205的元件可以实施于这二者中。
在所示实现中,在客户端115处的用户已经校正了呈现125。特别地,用户已经删除了未校正值130并且将其替换为经校正值205。
校正跟踪器205可以通过记录对由用户进行的更改的表示来跟踪校正。校正跟踪器205也可以在消息210中向搜索引擎105直接或者间接传输代表用户校正的数据,以用于存储于用户校正历史110中。消息210可以是XML文档或者其它形式的数据封装。消息210的内容可以用来创建用户校正的新记录215。新记录215补充在用户校正历史110处的用户校正历史记录。
图3-图5是将实例属性与值关联的结构化呈现的示例。图3是示例表结构化呈现300的示意表示。表300是实例的一个或者多个标识符以及那些实例的特定属性的值的有组织的、系统的布置。在一些实现中,结构化呈现(诸如表300)也可以包括属性的标识符以及在其中表达值的单位的标识符。
可以选择表300中的信息分组、分割和布置以有助于用户理解信息。就这一点而言,表300包括行302的汇集。每行302包括实例标识符306和关联属性值307的汇集。在行302中的属性值307和实例标识符306的布置和定位因此以图形方式表现在它们之间的关联。例如,用户可以辨认在属性值307与在相同行302中发现的实例标识符306之间的关联。
表300还包括列304的汇集。每列304包括属性标识符308和关联属性值307的汇集。列304中的属性值307和属性标识符308的布置和定位因此以图形方式表现在它们之间的关联。例如,用户可以基于属性值307和在相同列304中发现的属性标识符308的对准来辨认在它们之间的关联。
每行302是结构化记录310,因为每行302关联单个实例标识符306与关联属性值307的汇集。另外,用来在一个结构化记录310中表示这些关联的布置和定位在其它结构化记录310中(即,在其它行302中)再现。实际上,在许多情况下,在结构化呈现106中的所有结构化记录310限于具有相同信息布置和定位。例如,属性“ATTR_2”的值307限于在所有行302中出现于相同列304中。作为另一示例,属性标识符308全都承载与出现于相同列304中的值307的相同空间关系。另外,对一个结构化记录310中的信息的布置和定位的改变通常向结构化呈现106中的其它结构化记录310传播。例如,如果向一个结构化记录310添加对新属性(例如“ATTR_”)进行表征的新属性值307,则向结构化呈现106添加新列304,从而使得可以向结构化呈现106添加所有实例的属性“ATTR_”的值。
在一些实现中,可以按某些测量单位呈现表300中的值307。测量单位的示例包括英尺、码、英寸、英里、秒、加仑、升、摄氏度等。在一些实例中,其中呈现值307的测量单位由单位标识符309表明。单位标识符309可以出现于例如值307旁边和/或相关属性标识符308旁边。通过此类定位来向查看者表明在单位标识符309与测量单位被表明的值307之间的关联。在许多情况下,与单个属性关联的所有值307(例如,在单个列304中的所有值307)限于按照相同测量单位来呈现。
在值结果集(诸如在消息140(图1)中描述的值结果集)中的值可以用来按照多种不同方式填充表300或者其它结构化呈现。例如,可以向结构化呈现自动(即无人为干预地)填充从多个如下搜索结果集抽取的值的汇集,每个搜索结果集响应于针对实例属性的查询。例如,最可能正确表征实例属性的个别值可以默认显示于结构化呈现中。用户可以通过例如与结构化呈现交互或者引用结构化呈现来更改或者尝试更改那些值。可以呈现值结果集中的其它值作为用于替换如下值的候选,搜索引擎已经确定该值最可能正确表征实例属性。
图4是结构化呈现(即结构化呈现表400)的另一实现的示意表示。除了包括组织成行302和列304的属性标识符308、实例标识符306、值307、单位标识符309之外,表400还包括用于与用户交互的多个交互式元素。特别地,表400包括实例选择微件(widget)405的汇集、动作触发器410的汇集、列动作触发微件415的汇集和备注列420。
实例选择微件405是如下用户界面部件,该用户界面部件允许用户选择表400中的结构化记录310。例如,实例选择微件405可以是一个或者多个如下可点击复选框的汇集,该复选框借助相对于特定结构化记录310的布置和定位来与该结构化记录310相关联。实例选择微件405“可点击”,因为用户可以使用鼠标(例如,悬停于部件上方并且点击特定鼠标按钮)、触笔(例如,用触笔按压触屏上显示的用户界面部件)、键盘或者用于调用由该部件提供的功能的其他输入设备来与微件405交互。
动作触发器410是如下用户界面部件,该用户界面部件允许用户触发对表400中的使用实例选择微件405来选择的一个或者多个结构化记录310的动作的执行。例如,动作触发器410可以是如下可点击文本短语,每个文本单元可以由用户用来触发在该短语中描述的动作。例如,“保持而去除其它”动作触发器410触发从表400的显示中去除未使用实例选择微件405来选择的结构化记录310。作为另一示例,“去除已选”动作触发器410触发从表400的显示中去除使用实例选择微件405来选择的结构化记录310。作为又一示例,“在地图上示出”动作触发器410触发在地理地图上显示使用实例选择微件405来选择的结构化记录310的位置。例如,如果所选实例是小汽车,则可以在地图上显示销售所选小汽车的小汽车经销商的位置。作为另一示例,如果所选实例是度假目的地,则这些目的地可以显示于地图上。
列动作触发微件415是如下用户界面部件,该用户界面部件允许用户向单个列304内的所有单元施加动作。当用户与可点击‘+’符号交互时,显示又一如下用户接口部件,该用户接口部件向用户赋予待执行的可能动作的集合。在这一集合中的动作可以包括例如从结构化呈现400去除整个列304或者为列304中的当前空白的所有单元搜索以发现值。
备注列420是如下用户界面部件,该用户界面部件允许用户将信息与实例标识符306进行关联。特别地,备注列420包括一个或者多个如下备注425,每个备注425借助相对于结构化记录310的布置和定位来与该结构化记录310相关联。备注425的信息内容不受限制,因为与列304不同,并不要求备注425是任何特定属性的值。在备注425中的信息代之以可以表征在结构化记录310中标识的实例的无关方面。
在一些实现中,表400可以包括除了任何特定属性的值之外的附加信息。例如,表400可以包括如下图像430的汇集,该图像借助相对于结构化记录310的布置和定位来与在该结构化记录310中标识的实例相关联。作为另一示例,表400可以包括从汇集102中的电子文档提取的文本片段(snippet)435的汇集。片段的源可以是在使用实例标识符306作为搜索串来进行的搜索中的高排名结果。文本片段435借助相对于结构化记录310的布置和定位来与在该结构化记录310中标识的实例相关联。
作为另一示例,表400可以包括一个或者多个指向汇集102中的个别电子文档的超文本链接440。例如,链接的文档可以是在使用实例标识符306作为搜索串来进行的搜索中的高排名结果。作为另一示例,链接的文档可以是为了填充表400而提取的值307的源。在一些实例中,与超文本链接440的交互可以基于在超文本链接440中嵌入的信息(例如,网站地址)来触发向源电子文档导航。
图5是结构化呈现(即,卡汇集500)的另一实现的示意表示。卡汇集500是实例的一个或者多个标识符以及那些实例的特定属性的值的有组织的、系统的布置。实例的属性可以由值指定。另外,卡汇集500通常包括属性的标识符以及在适当时包括在其中表达值的单位的标识符。
可以选择卡汇集500中的信息的分组、分割(segmentation)和布置以有助于用户理解信息。就这一点而言,卡汇集500包括卡502的汇集。每个卡502包括实例标识符306和关联属性值307的汇集。在卡502中的属性值307和实例标识符306的布置和定位因此以图形方式表现在它们之间的关联。例如,用户可以辨认在属性值307与在相同卡502中发现的实例标识符306之间的关联。
在所示实现中,在卡汇集500中的卡502还包括属性标识符308的汇集。在列504中组织属性标识符308并且在列506中组织属性值307。列504、506与彼此相邻定位并且对准,从而使得个别属性标识符308定位于对该标识的属性进行表征的属性值307旁边。这一定位和布置允许查看者辨认在属性标识符308与表征那些属性的属性值307之间的关联。
每个卡502是结构化记录310,因为每个卡502关联单个实例标识符306与关联属性值307的汇集。另外,用来在一个卡502中表示这些关联的布置和定位在其它卡502中再现。实际上,在许多情况下,所有卡502限于具有相同信息布置和定位。例如,表征属性“ATTR_1”的值307限于承载与在所有卡502中的实例标识符306的相同空间关系。作为另一示例,在所有卡502中的属性标识符308的顺序和定位相同。另外,对一个卡502中的信息布置和定位的改变通常向卡汇集500中的其它卡502传播。例如,如果表征新属性(例如“ATTR_”)的新属性值307在一个卡502中插入于属性值“值_1_1”与“值_2_1”之间,则同样改变对其它卡502中的对应属性值307的定位。
在一些实现中,在卡汇集500中的卡502可以包括其它特征。例如,卡502可以包括用于与用户交互的诸如实例选择微件、动作触发器、属性选择微件、备注条目等交互式元素。作为另一示例,在卡汇集500中的卡502可以包括除任何特定属性的值之外的附加信息,诸如与标识的实例相关联的图像和/或文本片段。作为另一示例,在卡汇集500中的卡502可以包括一个或者多个指向汇集102中的个别电子文档的超文本链接。此类特征可以借助出现于如下卡502上来与特定实例相关联,该卡502包括标识该实例的实例标识符306。
在操作期间,查看者可以与呈现卡汇集500的系统交互、以改变一个或者多个卡502的显示。例如,查看者可以触发两个或者更多卡502的并列(side-by-side)显示,从而使得有助于比较在那些卡上标识的特定实例。作为另一示例,查看者可以触发对卡502重排名、结束特定卡502的显示等。作为另一示例,查看者可以触发选择、改变、添加和/或删除在卡502中显示的属性和/或实例。作为又一示例,查看者可以根据例如卡中的属性值307的值将卡分类成多个堆。
在一些实现中,卡502将被显示有两“侧”。例如,第一侧可以包括由实例标识符306标识的实例的图形表示,而第二侧可以包括实例标识符306和值307。这可以是很有用的,例如,在用户搜寻卡500的汇集中的特定卡时允许用户粗略回顾在卡502的第一侧上的图形表示来标识特定卡。
图6是用于利用用户校正来改进搜索的过程600的流程图。过程600可以由一个或者多个通过执行一个或者多个机器可读指令集来执行数字数据处理操作的计算机执行。例如,过程600可以由系统100(图1)中的搜索引擎105执行。在一些实现中,可以响应于接收触发(诸如对使用用户校正来改进搜索的用户请求)来执行过程600。可以与其它数字数据处理操作分开或者结合执行过程700。
执行过程600的系统可以接收对实例属性值的用户校正的描述(步骤605)。用户校正是更改或者尝试更改值。可以提交用户校正以防止由错误值对实例属性的错误表征、以使用适当值来正确表征实例属性,或者以精化对实例属性的表征。对实例属性值的示例校正因此可以包括例如删除值、添加新值、改变值,或者用源文档确认值。对值的示例改变包括例如校正值的拼写、向值添加时间约束、增加值的准确度等。
执行过程600的系统还可以改变如下置信度值,该置信度值表明未校正值正确表征实例属性的置信程度(步骤610)。未校正值是在由当前用户校正之前的值。例如,如下文进一步描述的那样,未校正值可以是在文档汇集或者数据库的初始搜索之后返回的值。初始搜索—以及未校正值本身—可以反映其他用户的校正。
置信度是对值正确表征实例属性的可能性的表征。例如,置信度高的值是已经确定为很可能正确表征实例属性的值。另一方面,已经确定置信度低的值不太可能正确表征实例属性。
可以用置信度分数或者其它参数体现值正确表征实例属性的置信度。如下文进一步描述的那样,系统可以响应于接收的对属性值的用户校正来改变或者创建置信度参数。在一些实现中,置信度参数可以是属性值的置信度的缩放评级。例如,置信度参数可以是值正确表征实例属性的百分比确定度(例如,“90%确定”)。在其它实现中,置信度参数可以是如下增值(increment)(即“增量”),该增值可以应用于对属性值的置信度的缩放评级。例如,置信度参数可以是值正确表征实例属性的百分比确定度的增加或者减少(例如,“2%更确定”或者“3%更不确定”)。
图7是用于利用用户校正来改进搜索的过程700的流程图。过程700可以由一个或者多个通过执行一个或者多个机器可读指令集来执行数字数据处理操作的计算机执行。例如,过程700可以由系统100(图1)中的搜索引擎105执行。在一些实现中,可以响应于接收触发(诸如对使用用户校正来改进搜索的用户请求)来执行过程700。可以与其它数字数据处理操作分开或者结合执行过程700。
执行过程700的系统可以接收对实例属性值的用户校正的描述(步骤605),以及改变未校正值正确表征实例属性的置信度(步骤610)。
执行过程700的系统也可以改变经校正值正确表征实例属性的置信度(步骤705)。经校正值是在由当前用户校正之后的值。例如,如下文进一步描述的那样,经校正值可以是从候选值列表、未校正值的改变的版本或者由用户录入的全新值中选择的值。可以用置信度参数(诸如缩放评级或者可以应用于缩放评级的增量)体现置信度的改变。
图8是结构化呈现(在该结构化呈现中可以接收对实例属性值的用户校正)(即结构化呈现800)的示意表示。结构化呈现800可以用来例如在方法600、700(图6、图7)的步骤605接收对实例属性值的用户校正。
结构化呈现800可以是任何形式的结构化呈现,包括上文描述的结构化呈现中的任何结构化呈现。例如,结构化呈现800可以如所示是显示于电子表格框架中的数据表。结构化呈现800的数据表包括行302和列304的汇集。每行302包括相应实例标识符306,并且每列304包括相应属性标识符308。在行302和列304中的实例属性306和属性标识符308的布置和定位关联结构化呈现800显示于其中的电子表格框架的每个单元与实例和属性。例如,在结构化呈现800中的单元805与标识为“特斯拉跑车(Tesla Roadster)”的实例和标识为“mpg”的属性相关联。在结构化呈现1000中的单元810与标识为“雪佛莱(Chevy Volt)”的实例和标识为“里程(range)”的实例相关联。在结构化呈现800中的单元815与标识为“MyersNmG”的实例和标识为“最高速度(top speed)”的属性相关联。在结构化呈现800中的单元1020与标识为“Myers NmG”的实例和标识为“mpg”的属性相关联。
在实例、属性和单元(诸如单元805、810、815、820)之间的关联可以用来标识由用户校正的实例的属性。例如,接收选择单元820的用户交互可以标识被标识为“Myers NmG”的实例的、标识为“mpg”的属性。选择单元的用户交互可以包括例如接收将光标825定位于该单元之上的输入、用户点击该单元等。在一些实现中,可以通过对在单元中或者单元周围的可视标记(诸如周界高亮830)进行定位来表示对该单元的选择。
在所示实现中,所选单元820包括在选择时的未校正值835(即“50mpg”)。例如,可以已经利用例如响应于用户与单元820交互或者响应于用户引用单元820而使用实例:属性配对来执行的搜索的结果来填充结构化呈现800中的单元820。值835是未校正值,因为值835是由系统显示的、标识为“Myers NmG”的实例的、标识为“mpg”的属性的值。
图9是在已经接收了对值835的用户校正之后的结构化呈现800的示意表示。如所示,因此已经从单元820删除了值835。用户可能已经从单元820删除了值835以校正如下内容,即用户将该内容视为由值835对标识为“Myers NmG”的实例的、标识为“mpg”的属性的错误表征。
图10是在已经接收了校正值1005之后的结构化呈现800的示意表示。如所示,通过从单元820删除值835而留下的空白空间已经由用户提供的值1005填充。因此已经校正结构化呈现800以在单元820中包括值1005(即“75mpg”)。用户可能已经进行了这一删除和替换以校正如下内容,即用户将该内容视为由值835对标识为“Myers NmG”的实例的、标识为“mpg”的属性的错误表征,并且以用值1005正确表征标识为“Myers NmG”的实例的、标识为“mpg”的属性。
图11是结构化呈现(在该结构化呈现中可以接收对实例属性值的用户校正)(即结构化呈现1100)的示意表示。结构化呈现1100可以用来例如在方法600、700(图6、图7)的步骤605接收对实例属性值的用户校正。特别地,选择或者引用单元820的用户交互可以用来触发呈现候选窗1105。候选窗1105呈现如下候选经校正值,该候选经校正值被认为很可能适合于替换当前表征实例属性的未校正值。在一些实现中,候选值可以是值结果集(诸如在消息140(图1)中描述的值结果集)中的其它值。因此,在一些实现中,候选经校正值的性质和排名可以反映在用户校正之前的它们本身。
候选窗1105包括标题1110、选择微件1115的汇集、经校正候选值的标识符1120的汇集、源标识符1125的汇集、片段1130的汇集以及搜索交互式元素1135的汇集、选择触发器1140、全搜索触发器1145和取消触发器1150。
标题1110可以包括如下文本或者其它信息,该文本或者其它信息标识由可以被校正的值表征的实例属性。在所示实现中,标识由单元820中的值835表征的属性和实例(即,Myers NmG:mpg)。
选择微件1115是如下交互式显示设备,该交互式显示设备允许用户选择如下值,该值将用来表征在标题1110中标识的属性和实例。在所示实现中,用户可以从未校正值835和由值标识符1120标识的两个候选经校正值之中选择。
值标识符1120包括如下文本或者其它信息,该文本或者其它信息标识用于表征在标题110中标识的属性和实例的候选经校正值。可以例如从电子文档汇集(诸如因特网)中的电子文档抽取由值标识符1120标识的候选经校正值。
源标识符1125包括如下文本或者其它信息,该文本或者其它信息标识值835和由值标识符1625标识的候选经校正值出现于其中的一个或者多个电子文档。在一些实现中,源标识符1125也可以包括如下超链接,该超链接指向值835和由值标识符1125标识的候选经校正值出现于其中的一个或者多个电子文档。用户可以按照此类超链接以直接用一个或者多个源文档确认未校正值835和由值标识符1120标识的经校正值中的相应值。
每个片段1130为如下文本或者其它信息,该文本或者其它信息描述值835和由值标识符1120标识的候选经校正值在电子文档中的背景。片段1130可以允许用户间接(即,从候选窗1105)确认未校正835和由值标识符1120标识的候选经校正值中的相应值,而不链接到源文档。
搜索交互式元素1135是如下超链接,该超链接允许用户向值835或者由值标识符1125标识的值中的相应值出现于其中的电子文档导航。用户可以按照搜索交互式元素1135以直接用链接的电子文档确认未校正值835和由值标识符1120标识的候选经校正值中的各个值。
选择触发器1140是如下交互式元素,该交互式元素允许用户同意使用值来表征在标题1110中标识的属性和实例。特别地,选择触发器1140允许用户同意使用未校正值835或者使用由值标识符1120标识的候选经校正值中的任一值。当用户同意使用任一候选经校正值时,所选值替换单元820中的值835。所选值因此不再是候选经校正值而是校正值。
搜索触发器1145是触发搜索电子文档汇集的交互式元素。搜索触发器1145可以允许用户直接从另一源(诸如web上的电子文档)确认未校正值835以及由值标识符1120标识的两个经校正值。搜索触发器1805触发的搜索可以是“全搜索”,因为它是通过使用通用因特网搜索引擎(诸如在www.google.com可获得的GOOGLETM搜索引擎)使用来进行的。在一些实现中,可以向搜索引擎呈现使用在标题1110中标识的实例属性来自动生成的查询。可以记录用户使用搜索对值的确认。
取消触发器1150是如下交互式元素,该交互式元素允许用户取消对如下值的校正,该值表征在标题1110中标识的实例属性。例如可以在用户错误地标识错误单元时使用取消触发器1150。
图12是用于利用用户校正来改进搜索的过程1200的流程图。过程1200可以由一个或者多个通过执行一个或者多个机器可读指令集来执行数字数据处理操作的计算机执行。例如,过程1200可以由系统100(图1、图2)中的搜索引擎105使用用户校正110的历史记录来执行。在一些实现中,可以响应于接收触发(诸如对使用用户校正来改进搜索的用户请求)来执行过程1200。可以与其它数字数据处理操作分开或者结合执行过程1200。例如,可以执行过程1200作为过程600、700(图6、图7)中的任一过程。
执行过程1200的系统可以接收对实例属性值的用户校正的描述(步骤605)。例如,执行过程1200的系统可以接收在与显示(诸如结构化呈现800、1100(图8-图11))交互时进行的用户校正。
执行过程1200的系统还可以对用户校正进行分类(步骤1205)。可以根据用户在校正值时执行的活动对用户校正进行分类。例如,在一些实现中,可以将用户校正分类成在以下表1中示出的七个不同类别之一。
校正类别
类别1:用户从汇集中选择候选经校正值而未用源直接确认。
类别2:在用户直接用源确认之后,用户从汇集中选择候选经校正值。
类别3:用户将未校正值替换为经校正值而用户未直接用源确认。
类别4:在用户直接用源确认之后,用户将未校正值替换为经校正值。
类别5:在用户直接用源确认之后,用户未改变未校正值(即,尝试更改失败)。
类别6:用户删除未校正值而未替换为经校正值,并且用户未直接用源确认。
类别7:在用户直接用源确认之后,用户删除未校正值而未替换为经校正值。
表1如上文描述的那样,可以在用户与显示(诸如结构化呈现800、1100(图8-图11))交互期间记录用来对用户校正进行分类的活动(包括任何针对确认的搜索)。
执行过程1200的系统可以例如通过在数字数据存储设备中存储用户校正来记下(log)它(步骤1210)。可以记下用户校正作为对被校正的实例属性进行标识的信息、未校正值和任何经校正值的汇集。一般而言,用户校正日志也将包括校正分类的标识。
图13是用户校正日志(即包括用户校正记录1305、1310、1315、1320、1325的数据表1300)的示意表示。数据表1300是存储于数字数据存储设备中的用于由在数字数据处理系统上操作的计算机程序访问的数据结构。表1300包括列1330、1335、1340、1345、1350的汇集。列1330包括对记下的校正中的实例进行标识的实例标识符。列1335包括对记下的校正中的实例属性进行标识的属性标识符。列1340包括对记下的校正的分类进行标识的校正分类标识符。例如,列1340可以包括与在表1中列举的校正类别的编号对应的整数。列1345包括对记下的校正的未校正值进行标识的未校正值标识符。列1345包括对记下的校正的经校正值进行标识的经校正值标识符。在无经校正值的情况下(例如,校正类别5:当用户在从源直接确认之后未改变未校正值时),在列1350中的相应条目则可以保持为空或者包括虚值(dummy value)。
如图12中所示,执行过程1200的系统可以反复地接收、分类和记下用户校正(步骤605、1205、1210)。例如,系统可以形成用户校正数据库,诸如用户校正110的历史记录(图1)。
执行过程1200的系统可以接收如下搜索查询,对该搜索查询的响应包括实例的属性值(步骤1215)。例如,接收的搜索查询可以标识实例和该实例的将在语言模式中或者由于与结构化呈现交互或者引用结构化呈现而表征的属性。
执行过程1200的系统可以访问用户校正日志(步骤1220)。例如,系统可以从一个或者多个数字数据存储设备读取用户校正日志。系统也可以确定响应于接收的搜索查询的结果集的内容是否与对在用户校正日志中记录的实例属性的校正匹配(步骤1225)。例如,系统可以比较实例和实例属性(作为接收的搜索查询的主题)与用户校正日志中的实例和属性的标识符。在用户校正日志(诸如数据表1300(图13))的背景中,系统可以首先比较作为搜索查询主题的实例与列1330的内容、以标识用户校正日志1305、1310、1315、1320、1325中的哪些用户校正日志与接收的搜索查询相关。系统继而可以比较实例属性与相关用户校正日志1305、1310、1315、1320、1325中的列1335的内容。
如果系统确定接收的搜索查询未与记录的对实例属性的用户校正匹配,则系统可以返回以在步骤605接收对用户校正的附加描述。如果系统确定接收的搜索查询与记录的对实例属性的用户校正匹配,则系统可以改变实例属性的未校正值和经校正值之一或者这两者正确表征实例属性的置信度(步骤1230)。可以用一个或者多个置信度参数(诸如缩放评级或者可以向缩放评级应用的增量)体现一个或者多个置信度改变。
图14是用于利用用户校正来改进搜索的过程1400的流程图。过程1400可以由一个或者多个通过执行一个或者多个机器可读指令集来执行数字数据处理操作的计算机执行。例如,过程1400可以由系统100(图1)中的搜索引擎105执行。在一些实现中,可以响应于接收触发(诸如对使用用户校正来改进搜索的用户请求)来执行过程1400。可以与其它数字数据处理操作分开或者结合执行过程1400。例如,可以与过程600、700、1200(图6、图7、图12)中的一个或者多个过程的活动结合执行过程1400。
执行过程1400的系统可以接收对实例属性值的用户校正的描述(步骤605)。系统也可以验证用户校正(步骤1405)。在一些实现中,该验证可以建立值的格式和语法的合适性。例如,可以通过用其它源(例如在因特网上可用的一个或者多个电子文档)证实校正来确认值的大写、拼写和单位(米、英尺、英寸等)。在一些实现中,此类验证可以用作初步阈值筛选、以确定是否将执行后续活动—诸如改变值正确表征实例属性的置信度。例如,用户将对实例“吉萨金字塔(Great Pyramid of Giza)”的“高度(height)”属性的表征从值“455英尺”校正为值“139米”无需造成任一值的置信度改变。实际上,系统可以自动识别和确认例如英尺到米、mpg到升/100km等单位转换。
在一些实现中,验证用户校正的汇集并且将它们汇合成汇总反馈数据汇集。汇总反馈数据汇集可以包括对实例属性进行描述的信息、用于那些实例属性的候选值,以及对用户校正的汇集进行表征的描述信息。如下文描述的那样,此类用户校正汇总可以用来确定候选值的置信度已经被用户校正增加或者减少的程度。
图15是汇总反馈数据汇集(即,汇总反馈数据表1500)的示意表示。数据表1500是存储于数字数据存储设备中的用于由在数字数据处理系统上操作的计算机程序访问的数据结构。数据表1500包括各自包括如下描述信息的记录1505、1510、1515、1520、1525、1530的汇集,该描述信息表征对如下值的一个或者多个用户校正,该值潜在地适合于表征特定实例的特定属性。
表1500包括列1535、1540、1545、1550的汇集。列1535包括如下实例标识符,该实例标识符标识描述信息已经被汇总的实例。列1540包括如下属性标识符,该属性标识符标识实例的根据用户校正导出的信令信息已经被汇总的属性。列1545包括如下值标识符,该值标识符标识描述信息已经被汇总的值。在列1545中标识的值潜在地表征在列1535、1540中标识的实例属性。
列1550包括表征如下用户校正种类的校正信息目录,这些用户校正种类涉及到在列1535、1540中标识的实例属性以及在列1545中标识的值。在所示实现中,在列1550中表征的种类在个别的、逐个校正的基础上由用户校正类别以及在列1545中标识的值是经校正值还是未校正值来界定(delineate)。在所示实现中,使用形式为“w#B”的三单位代码对每个个别用户校正的种类进行分类,其中:
-“w”是如下标识符,该标识符表明对用户校正进行分类;
-编号“#”标识每个个别用户校正的分类(在这里是在一与七之间的、与在表1中描述的七个类别对应的整数);以及
-值“B”为如下值,该值标识在列1545中标识的值在用户校正中是经校正值还是未校正值(在这里“U”表明未校正而“C”表明经校正)。
在其它实现中,也可以基于诸如进行校正的用户的标识、在进行校正时的日期、对由某些用户进行的其它校正的正确性进行表征的加权因子、其中进行校正的背景等信息、在汇总反馈数据汇集中对用户校正进行分类。
如图14中所示,执行过程1400的系统也可以改变实例属性的未校正值和经校正值之一或者这两者正确表征实例属性的置信度(步骤1230)。在汇总反馈数据汇集中对用户校正个别分类的实现中,可以通过加权个别校正种类来改变置信度。例如,可以使用在加权参数数据汇集中收集的加权参数来加权个别校正种类。
图16是加权参数数据汇集(即,加权参数数据表1600)的示意表示。数据表1600是存储于数字数据存储设备中的用于由在数字数据处理系统上操作的计算机程序访问的数据结构。数据表1600包括各自包括如下信息的记录1605、1610、1615、1620、1625、1630、1635、1640的汇集,该信息表征某些用户校正种类的权值。
表1600包括列1645、1650的汇集。列1645包括表征用户校正种类的校正种类标识符。例如,校正种类标识符可以按照与在汇总反馈数据汇集中(诸如在汇总反馈数据表1500(图15)的列1550中)表征用户校正种类相同的方式标识用户校正种类。
列1650包括如下加权参数,该加权参数体现与对应种类的用户校正相关联的置信度改变的量值。例如,在所示实现中,在记录1615中的权值0.9可以表明用户在回顾和从源直接确认之后从汇集中选择的经校正值(即类别2)比在用户选择相同值(作为“经校正值”)而未回顾和从源直接确认时对置信度具有更大影响。
由于对不同用户校正种类的加权不同,所以可以进行对值正确表征实例属性的置信度的适当改变。例如,在搜索之后进行的校正可以比未搜索就进行的校正对置信度具有更大影响。作为另一示例,尝试通过用源直接确认值来更改该值可以比用户删除未校正值而未从源直接确认对置信度具有更大影响。
在其它实现中,可以在对用户校正进行分类和/或加权时考虑用户校正的其它特性。例如,可以对具有进行适当校正的历史的个人进行的用户校正比其他个人进行的用户校正进行更多加权。作为另一示例,可以对更近期的用户校正比更老旧的用户校正进行更多加权。
如图14中所示,执行过程1400的系统也可以对响应于搜索查询的结果集中的实例属性的未校正值和经校正值之一或者这两者排名(步骤1410)。就这一点而言,更可能正确表征实例属性的值通常排名高于不太可能正确表征实例属性的值。
排名可以反映值正确表征实例属性的置信度改变。例如,可以例如使用诸如加权参数数据表1600(图16)中所示加权参数对不同种类的校正不同加权、以生成向缩放评级应用的增量。
例如,在一些实现中,可以在数据库或者电子文档汇集中进行针对值的属性的搜索。数据库可以包括如下信息,该信息表征例如先前为其他用户显示的结构化呈现的汇集。搜索可以产生各自具有如下个别初始置信度分数的候选值,该初始置信度分数体现候选值正确表征实例属性的似然度。此类初始置信度分数可以基于诸如关键词匹配、字体、细分、每个词的精确位置、邻近网页的内容等测量。初始置信度分数可以是按照缩放评级(例如,在最低可能值(例如,“0”)与最高可能值(例如,“1”)之间缩放的评级)的形式。
继而,可以向初始置信度分数应用如下增量,该增量体现值正确表征实例属性的置信度改变。向初始置信度分数应用增量可以产生如下改变的置信度分数,该置信度分数可以用来例如改变结果集的内容或者对结果集中的内容重新排名。例如,如果包含于结果集中需要某一最小置信度水平,则向值的初始置信度分数应用增量增加该值的置信度至最小置信度水平以上,从而使得结果集的内容改变。作为另一示例,向一个值的初始置信度分数应用增量可以增加该值的置信度至另一个值的置信度水平以上(或者减少该值的置信度至另一值的置信度水平以下)。如果对结果集中的结果排名,则此类置信度水平改变可以改变结果集中的结果的排名。如果在结果集中的结果限于某一数目(例如,限于四个最可能结果),则此类结果置信度水平改变可以改变结果集的内容。
在一些实现中,向初始置信度分数应用增量包括将每个用户校正种类的出现次数乘以如下加权参数,该加权参数体现与该种类相关联的置信度改变的量值(并且可能体现改变的方向)。乘积继而可以与相应初始置信度分数相加。在一些实现中,可以确定加权参数的量值以及例如为了保证根据初始置信度分数的比例来缩放加权而应用的标量值的量值、以最大化在应用置信度分数之后正确的值的总数。
可以基于求和对结果集中的结果排名。可以例如在通过数据传输网络传输的消息(例如消息140(图1))中向用户提供具有一个或者多个排名值的结果集。
图17是用于利用用户校正来改进搜索的过程1700的流程图。过程1700可以由一个或者多个通过执行一个或者多个机器可读指令集来执行数字数据处理操作的计算机执行。例如,过程1700可以由系统100(图1)中的搜索引擎105执行。在一些实现中,可以响应于接收触发(诸如对使用用户校正来改进搜索的用户请求)来执行过程1700。可以与其它数字数据处理操作分开或者结合执行过程1700。例如,可以与过程600、700、1200、1400(图6、图7、图12、图14)中的一个或者多个过程的活动结合执行过程1700。
执行过程1700的系统可以接收对搜索查询(对该搜索查询的响应包括用于实例的属性值)的描述、用于表征实例属性的候选值的结果集,以及那些值正确表征实例属性的初始置信度(步骤1705)。系统也可以访问用户校正日志(诸如用户校正历史110(图1))、以搜寻对结果集中的候选值的用户校正(步骤1710)。
执行过程1700的系统也可以确定是否在用户校正日志中发现对结果集中的候选值的校正(步骤1715)。如果系统确定未发现对结果集中的候选值的校正,则系统可以保持那些值正确表征实例属性的初始置信度不变(步骤1717)。如果系统确定发现对结果集中的候选值的校正,则系统可以对不同用户校正种类加权(步骤1720)。例如,在一些实现中,系统可以使用加权参数数据表1600(图16)中的加权参数对不同用户校正种类加权。
图18是另一加权参数数据表1800的示意表示。数据表1800是存储于数字数据存储设备中的用于由在数字数据处理系统上操作的计算机程序访问的数据结构。数据表1800包括各自包括如下信息的记录1805、1810、1815、1820、1825、1830、1835、1840、1845、1850、1855、1860、1865、1870的汇集,该信息表征某些用户校正种类的权值。
表1800包括列1875、1880的汇集。列1875包括表征用户校正种类的校正种类标识符。例如,校正种类标识符可以按照与在汇总反馈数据汇集中(诸如在汇总反馈数据表1500(图15)的列1550中)表征用户校正种类相同的方式标识用户校正种类。
列1880包括如下加权参数,该加权参数体现与对应种类的用户校正相关联的置信度改变的量值和方向。例如,在所示实现中,在记录1805、1810、1815、1820、1830、1835中的负权值表明受对应种类的用户校正制约的值的置信度已经减小。作为另一示例,在所示实现中,在记录1825、1840、1845、1850、1855中的正权值表明受对应种类的用户校正制约的值的置信度已经增加。权值的绝对值表明置信度改变的量值。
如图17中所示,执行过程1700的系统可以汇总对各种候选值的校正的权值(步骤1725)。在一些实现中,系统可以将权值求和以便汇总它们。例如,在数据表1800(图18)中的加权参数的背景中,系统可以在已经进行对种类W5U的五次用户校正时达到求和“10”。作为另一示例,系统可以在已经进行对种类W4U的五次用户校正时达到求和“-10”。
执行过程1700的系统也可以向汇总权值将对结果集中的值的置信度具有的影响赋值(步骤1730)。汇总权值的赋值影响无需随着权值的汇总量值线性缩放。例如,在一些实现中,汇总权值的影响是权值的汇总量值的S形(sigmoid)函数。例如,可以使用等式1来向汇总权值的影响赋值,
其中F(s)是汇总权值的影响“s”而k是如下形式参数,该形式参数帮助确定在汇总权值的影响与汇总权值的量值之间的关系。在通过求和来汇总权值(诸如数据表1800(图18)的列1880中的权值)的实现中,k可以具有近似为二的值。
执行过程1700的系统也可以改变结果集中的一个或者多个值正确表征实例属性的置信度(步骤1735)。例如,系统可以将在步骤1705接收的个别置信度与在步骤1730赋值的汇总权值的相应影响相乘。系统也可以根据结果集中的值的相应置信度对这些值排名(步骤1740)。
图19是其中标识有关实例的分组的系统1900的示意表示。有关实例是共享一个或者多个共同属性的实例。在系统1900中,响应于搜索查询来标识有关实例的分组。搜索查询指定由有关实例共享的属性。由有关实例的分组共享的属性可以由搜索查询明示、暗示或者明示和暗示地指定。例如,搜索查询“城市”暗示指定离散人口密集城区的实例。作为另一示例,搜索查询“位于北美的城市”明示标识此类城区将位于北美。
系统1900包括搜索引擎1905、实例标识符的分组的汇集1910和客户端1915。客户端1915是用于与用户交互的设备并且可以实施为用机器可读指令编程的计算机。客户机的1915可以包括一个或者多个输入/输出设备并且可以从用户接收如下搜索查询,该搜索查询指定由有关实例的分组共享的属性。例如,当前与客户端1915交互的用户可以使用输入设备(诸如鼠标或者键盘)来录入搜索查询。搜索查询可以包括文本。文本搜索查询的示例包括“美国总统”和“北美城市”。作为另一示例,用户可以通过与显示于显示屏1920上的图形元素交互或者引用该图形元素来录入搜索查询。例如,用户可以点击结构化呈现中的单元或者制定如下搜索查询,该搜索查询引用出现于结构化呈现中的特征(例如“行_1”)。下文更具体地描述结构化呈现。
客户端1915也可以呈现如下有关实例的标识符的分组,这些实例共享由搜索查询指定的属性。在所示示例中,客户端1915包括显示呈现1925的显示屏1920。呈现1925表明分组(即,种类_X)包括有关实例(即,由标识符“实例_A”、“实例_B”和“实例_C”标识的实例)的汇集。在所示实现中,呈现1925是文本。例如,结构化呈现可以标识列标题中的分组和在该标题之下的列中的单元中的有关实例的汇集。
响应于接收搜索查询,客户端1915在消息1935中向搜索引擎1905传输搜索查询的表示或者搜索查询本身。可以通过数据通信网络传输消息1935。搜索引擎1905可以接收消息1935并且使用消息1935的内容来限定用于搜索的参数。
搜索引擎1095可以实施于在一个或者多个地理位置部署的用一个或者多个如下机器可读指令集编程的一个或者多个计算机上,该机器可读指令集用于从汇集1910中的实例的分组中标识有关实例的相关分组。在一些实现中,其它功能—即,除了搜索引擎1905的功能之外的功能—可以实施于该一个或者多个计算机上。搜索引擎1905根据由消息1935的内容限定的用于搜索的参数来标识有关实例的相关分组。搜索可以产生响应于在消息1935中描述的搜索查询的相关实例的结果集。结果集的内容、在结果集中的实例布置或者这二者可以反映组成实例与搜索查询相关的似然性。在一些实现中,在结果集中的实例布置或者内容也可以反映其它因子,诸如实例的相对重要度或者实例确实响应于搜索查询的置信度。
可以在非结构化电子文档汇集的电子文档中发现或者从这些电子文档抽取汇集1910中的实例标识符的分组。例如,汇集1910可以是可以在因特网上可用的电子文档中发现的实例标识符的分组。实例标识符的分组的源文档因此未必限于遵从可以用于提取信息的预定结构。出于这一原因,一个或者多个计算机可以执行编制成从非结构化电子文档汇集中标识和提取实例标识符的分组的一个或者多个机器可读指令集。按照这一方式编制的机器可读指令可以称为“提取器”。
汇集1910可以包括例如实例标识符列表1945、实例标识符表1950和包括实例标识符的结构化文本1955。实例标识符列表1945是有序连串词或者数。实例标识符列表可以在文本中被发现并且例如可由语法惯例或者标记标签标识。例如,在列表中的实例标识符可以由文本中的逗号或者分号界定。实例标识符表1950是实例标识符的系统的布置。例如,可以在行或者列中布置实例标识符。在电子文档中,表可以例如由界定行和列的线或者空格或者由标记标签标识。结构化文本1955包括实例标识符的其它结构化布置,诸如连串段落标题中的按照项目符号(bullet point)或者实例排名的实例标识符。在电子文档中,结构化文本1955可以例如由实例布置的结构特征或者由标记标签标识。
在一些实现中,汇集1910也可以包括使用文本提取技术来形成的一个或者多个实例标识符的分组。特别地,明示或者暗示表明标识的实例具有某些属性的文本模式可以用来形成一个或者多个实例标识符的分组。例如,可以使用模式标识技术来标识文本,诸如“纽约,北美最大城市,…”和“魁北克是指定为UNESCO世界遗产的第一个北美城市”。例如,可以使用如下文本提取技术,这些文本提取技术使用赫斯特(Hearst)模式或者在例如M.Pasca、B.Van Durme和N.Garera的″The Role of Documents vs.Queries in Extracting ClassAttributes from Text″(CIKM07,2007年11月24-8,葡萄牙里斯本)和M.Pasca,B.Van Durme的″Weakly-Supervised Acquisition ofOpen-Domain Classes and Class Attributes from Web Documents andQuery Logs″(Proceedings of ACL-08:HLT,第19-27页,美国俄亥俄州哥伦布,2008年6月)中描述的方式。可以从文本提取实例标识符并且组合实例标识符以形成具有明示和暗示地相关联的属性的实例标识符的分组,例如,北美城市。提取器可以使用此类特性以从非结构化电子文档汇集中标识和提取实例的分组。
搜索引擎1905可以在消息1940中向客户端1915传输对结果集的表示。可以例如通过与传输消息1935相同的数据通信网络传输消息1940。客户端1915可以接收消息1940并且使用消息1940的内容以在显示屏1920上显示呈现1925。呈现1925表明一个或者多个共同属性由实例的分组(即,在消息1935中描述的结果集中的至少一些实例)共享。在一些实现中,呈现1925可以使用文本来标识共享属性和实例标识符。例如,在所示实现中,呈现1925描述标识为“实例_A”、“实例_B”和“实例_C”的实例共享属于种类“种类_X”的属性。种类“种类_X”可以明示或者暗示指定由标识为“实例_A”、“实例_B”和“实例_C”的实例共享的属性。
在一些实现中,呈现1925可以使用对信息的空间布置和定位来标识实例的分组共享一个或者多个共同属性。例如,如下文进一步描述的那样,呈现1925可以是结构化呈现。
图20是用于标识有关实例标识符的分组的过程2000的流程图。过程2000可以由一个或者多个通过执行一个或者多个机器可读指令集来执行操作的计算机执行。例如,过程2000可以由系统1900中的搜索引擎1905执行。
执行过程2000的系统接收查询(步骤2005)。例如,在系统1900(图19)的背景中,系统可以通过数据通信网络在消息1935中接收搜索查询的表示或者搜索查询本身。
执行过程2000的系统标识该查询询问有关实例的分组(步骤2010)。可以将查询标识为询问来自查询内容的有关实例的分组、查询的背景或者这二者。例如,由于文本搜索查询“在加州的城市”中的复数检索词“城市”由有关实例的共同属性(即“在加州”)表征,可以将该查询中的检索词标识为询问那些实例,诸如“圣地亚哥”、“洛杉矶”和“贝克尔斯菲”。作为另一示例,由于搜索查询“常春藤联盟学校”中国的复数检索词“学校”由共同属性“常春藤联盟”表征,可以将搜索查询“常春藤联盟学校”中的检索词标识为询问有关实例的分组,诸如“康奈尔”、“哥伦比亚”和“布朗”)。搜索查询的接收背景也可以用来标识查询询问有关实例的分组。例如,用户的明确指示或者先前查询历史可以用来标识搜索查询询问有关实例的分组。
执行过程2000的系统标识与搜索查询相关的电子文档(步骤2015)。可以通过匹配文本、概念或者这二者与在电子文档的索引化数据库中的条目来标识电子文档。在电子文档中的文本或者概念之间的匹配可以用来确定体现电子文档与搜索查询的相关度的页面排名以及其它因子。这些其它因子的示例包括例如该电子文档的年龄、从其它电子文档指向该电子文档的链接的数目、该电子文档是“垃圾文档”的似然度等。
执行过程2000的系统标识相关电子文档中的实例标识符的分组(步骤2020)。例如,实例标识符的分组可以由相关电子文档中的实例标识符布置的界定、标记标签或者其它特性标识。在一些实现中,可以从实例标识符的分组的相应源电子文档提取它们并且将它们汇合成汇集,例如,系统1900(图19)中的汇集1910。
执行过程2000的系统确定实例标识符的每个分组与搜索查询的相关度(步骤2025)。一般而言,实例标识符的分组与搜索查询的相关度将不同于它的源电子文档与该相同查询的相关度或者页面排名。例如,出现于源电子文档中的至少一些文本和概念通常将从该文档中的实例标识符的分组中省略。在一些实现中,如下文进一步描述的那样,实例标识符的分组的相关度可以根据它的源电子文档的相关度或者页面排名以及其它因子来确定。
执行过程2000的系统对出现于分组中的实例的相关度个别计分(步骤2030)。个别实例标识符的分数可以体现每个个别实例与搜索查询相关的似然度。在一些实现中,根据实例标识符出现于其中的分组的相关度、在出现于不同组中的实例标识符之间的重叠、搜索的对实例标识符出现于其中的分组进行标识的其它特征或者这些以及其它因子的组合对个别实例标识符计分。来自单个源电子文档的实例标识符的单个分组因此可以包括不同计分的实例标识符的汇集。下文进一步描述用于对分组的相关度进行计分的不同方式的示例,
执行过程2000的系统根据个别实例标识符的分数对它们排名(步骤2035)。排名可以表征个别实例与搜索查询相关的似然度。例如,排名高的实例是很可能是如下实体的实例,该实体具有在搜索查询中明示或者暗示标识的属性。另一方面,排名低的实例是不太可能是如下实体的实例,该实体具有在搜索查询中明示或者暗示标识的属性。排名的实例标识符可以是例如在通过数据传输网络传输的消息(例如,消息1940(图19))中向用户提供的结果集中的输出。
图21是用于标识有关实例标识符的分组的过程的示意表示2100。该过程可以由一个或者多个通过执行一个或者多个机器可读指令集来执行操作的计算机执行。例如,表示2100可以代表在系统(诸如系统1900(图19))中使用过程(诸如过程2000(图20))来标识有关实例标识符。
可以搜索电子文档汇集2105以产生实例标识符的分组的汇集2110。汇集2105可以是非结构化电子文档汇集2105。可以响应于用来限定用于搜索的参数的搜索查询来执行搜索。搜索可以标识包括实例标识符的分组的相关文档。可以从这些实例标识符的分组的相应源文档提取它们以产生汇集2110。
继而,可以根据与搜索查询的相关度对在汇集2110内的实例的分组内的个别实例标识符排名。实例因此可以是共享在搜索查询中暗示或者明示标识的一个或者多个属性的实体。排名的实例标识符可以是向用户提供的结果集中的输出。在一些实现中,可以在汇集2110中的实例标识符的不同分组中发现最高排名的实例标识符。例如,可以在实例标识符的第一分组中发现最高排名的实例标识符,而第二最高排名的实例标识符可能不存在于所述实例标识符的第一分组中。
图22是用于标识与查询相关的电子文档的过程2200的流程图。过程2200可以由一个或者多个通过执行一个或者多个机器可读指令集来执行数字数据处理操作的计算机执行。例如,过程2200可以由系统1900(图19)中的搜索引擎1905执行。可以与其它数字数据处理操作分开或者结合执行过程2200。例如,可以例如在步骤2015(图20)与过程2000的活动结合执行过程2200。
执行过程2200的系统接收搜索查询(步骤2205)。例如,在系统1900(图19)的背景中,系统可以通过数据通信网络在消息1935中接收搜索查询的表示或者搜索查询本身。
执行过程2200的系统形成一个或者多个偏向于标识实例标识符的分组的新搜索查询(步骤2210)。可以通过组合在接收的搜索查询中代表的文本或者概念与偏向于标识实例标识符的分组的文本或者概念来形成此类有偏向查询。例如,从接收的搜索查询抽取的文本(例如“过山车”或者“混合动力车辆”)可以与偏向于分组的标识的文本(例如“[查询文本]列表”、“这一年的[查询文本]”、“我最喜欢的[查询文本]”、“[查询文本]的分组”、“最佳[查询文本]”、“[查询文本]诸如”、“包括……的[查询文本]”等)组合。
在一些实现中,有偏向查询可以包括旨在防止实例标识符的某些分组由有偏向查询标识的文本或者概念。例如,在一些实现中,可以形成有偏向查询的汇集而每个查询包括如下文本,该文本指定由查询文本指定的更广义种类的子类。此类有偏向查询的示例包括“[子类_1][查询文本]诸如”、“[子类_2][查询文本]诸如”和“[子类_3][查询文本]诸如”。
举例而言,假设接收搜索查询“餐馆”。如上文讨论的那样,可以形成偏向于标识实例标识符的分组(诸如“包括……的[餐馆]”)的查询。然而,除了标识个别餐馆(例如实例标识符“Bodo的百吉饼”、“Point Loma海鲜”和“Pat的披萨”)之外,这一有偏向查询也可以标识餐馆烹饪子类的实例标识符(例如,“法国餐馆”、“意大利餐馆”、“泰国餐馆”和“快餐餐馆”)。在此类实例中,可以在有偏向查询的汇集中包括如下文本,该文本指定更广义种类的此类子类。例如,可以形成有偏向查询,诸如“包括……的[法国][餐馆]”、“包括……的[意大利][餐馆]”和“包括……的[泰国][餐馆]”、“包括……的[快餐][餐馆]”。
执行过程2200的系统还形成一个或者多个限于搜索某些源的新搜索查询(步骤2215)。在一些实现中,搜索可以限于一个或者多个概略,诸如百科全书(例如,www.wikipedia.org)或者词典。在一些实现中,根据查询的主题内容来限制搜索的源。例如,针对“混合动力车辆”的搜索可以限于搜索涉及机动车辆的新闻媒体和消费者代理商。
执行过程2200的系统使用接收的搜索查询、偏向于标识实例标识符的分组的搜索查询以及限于搜索某些源的搜索查询来进行搜索(步骤2220)。可以串行或者并行运行搜索。可以对相同非结构化电子文档(例如,在因特网上可用的电子文档)汇集进行如下搜索,这些搜索使用接收的搜索查询和有偏向搜索查询。每个搜索可以产生如下单独搜索结果集,该搜索结果集标识与相应搜索查询相关的电子文档。可以例如根据与相应搜索查询的相关度以及其它因子对每个搜索结果集中的个别文档进行计分和排名。
执行过程2200的系统将由不同搜索产生的搜索结果集组合成组合的搜索结果集(步骤2225)。可以例如根据在个别搜索中确定的相关度分数或者页面排名对在组合的搜索结果集中标识的电子文档排名。在一些实现中,例如按照标准规范化在个别搜索中确定的相关度分数或者与页面排名,从而使得在每个搜索结果集中的最高排名的电子文档是组合的搜索结果集中的三个最高排名的电子文档。在其它实现中,对相关度分数或者页面排名加权以偏好于在多个搜索结果集中发现的电子文档或者在由某个搜索产生的搜索结果集中发现的电子文档。例如,可以对由限于搜索某些源的查询所产生的搜索结果集中的电子文档的相关度分数或者页面排名优先加权,以更高地出现于组合的搜索结果集的排名中。
图23是用于标识与查询相关的电子文档的过程的示意表示2300。该过程可以由一个或者多个通过执行一个或者多个机器可读指令集来执行操作的计算机执行。例如,表示2300可以代表在系统(诸如系统1900(图19))中使用过程(诸如过程2200(图22))来标识电子文档。
可以多次搜索非结构化电子文档(例如,在因特网上可用的文档)汇集2305、以产生源受限的查询结果集合2310、由偏向于标识分组的查询所产生的结果集2315和查询结果集2320。结果集2310、2315和2320可以标识汇集2305中的相同或者不同电子文档。结果集2310、2315、2320可以组合在一起以形成组合的结果集2325。组合的结果集2325标识出现于非结构化汇集2305中的电子文档。
图24是用于确定实例标识符的分组与搜索查询的相关度的过程2400的流程图。过程2400可以由一个或者多个通过执行一个或者多个机器可读指令集来执行数字数据处理操作的计算机执行。例如,过程2400可以由系统1900(图19)中的搜索引擎1905执行。可以与其它数字数据处理操作分开或者结合执行过程2400。例如,可以例如在步骤2025(图20)与过程2000的活动结合执行过程2400。
执行过程2400的系统接收搜索查询(步骤2405)。例如,在系统1900(图19)的背景中,系统可以通过数据通信网络在消息1935中接收搜索查询的表示或者搜索查询本身。
执行过程2400的系统计算源文档汇集中的每个源文档与查询的相关度(步骤2410)。可以例如通过匹配查询与电子文档中的文本、概念或者这二者来计算相关度。在电子文档中的文本或者概念之间的匹配可以用来确定体现电子文档与搜索查询的相关度的页面排名并且潜在地确定其它因子。
执行过程2400的系统计算源文档中的实例标识符的潜在分组实际上是实例标识符的分组的似然度(步骤2415)。如上文描述的那样,在相关电子文档中的实例标识符布置的界定、标记标签或者其它特性可以用来标识实例标识符的潜在分组。在一些情况中,未完全确定事实上已经标识了实例标识符的分组。例如,虽然逗号通常用来界定文本中的列表成员,但是有时可能从列表中不经意地或者以别的方式省略逗号。在这样的情况下,连串实例标识符事实上是列表的确定性减少。作为另一示例,不同文本模式可以更可能或者更不可能排他地标识具有某些属性的实例标识符。可以根据所用文本模式的准确度来计算使用此类文本模式来汇合的实例标识符的潜在分组实际上包括正确实例标识符的似然度。
作为另一示例,诸如<b>、<li>、<td>、<a>等标记HTML标签可以用来标识实例标识符的潜在分组。然而,此类HTML标签并不总是界定项目列表。HTML作者代之以可以将它们用于其它目的。例如,HTML标签<li>—设计成限定列表项目—也可以用于其它格式化目的或者包含未标识实例标识符的分组的辅助文本。因此,未完全确定甚至设计成限定实例标识符的分组的标记标签也可以实际上用来标识实例标识符的分组。
可以将已经标识了实例标识符的分组的似然度计算和表达为在已经标识了实例标识符的分组的绝对确定度(例如,“1”)与尚未标识实例标识符的分组的绝对确定度(例如,“0”)之间的正规化值。
执行过程2400的系统计算实例标识符的每个潜在分组与包括该潜在分组的源文档的相关度(步骤2420)。在一些情况中,实例标识符的分组与包括实例标识符的该分组的电子文档的其它内容无关。例如,公司时事通讯的封面可以包括如下表,该表阐述公司具有的办事处的地址。虽然该表是实例标识符的分组,但是此表的内容(例如,办事处地址)可以与时事通讯的其它内容无关。系统可以通过比较实例标识符的潜在分组中的文本、概念或者这二者与源文档中的文本、概念或者这二者来计算实例标识符的每个潜在分组与包括该潜在分组的源文档的相关度。
执行过程2400的系统根据源文档与查询的相关度、实例标识符的潜在分组是分组的似然度以及潜在分组与源文档的相关度、对潜在分组排名(步骤2420)。例如,可以针对实例标识符的每个潜在分组根据依赖于乘法、加法、求幂的公式或者如下其它计算来计算考核分数“SG”,该计算使用实例标识符的潜在分组的源文档与查询的相关度、实例标识符的潜在分组事实上是分组的似然度以及实例标识符的潜在分组与包括实例标识符的潜在分组的源文档的相关度。例如,在一些实现中,针对实例的每个潜在分组根据以下公式计算考核分数“SG”:
SG=RDQLGRGD 等式1其中“RDG”是实例标识符的潜在分组的源文档与查询的相关度,“LG”是实例标识符的潜在分组事实上是分组的似然度,而“RGD”是实例标识符的潜在分组与包括它的源文档的相关度。实例标识符的每个潜在分组的考核分数“SG”因此可以体现那些潜在分组与搜索查询的相关度。
作为另一示例,可以针对实例标识符的每个潜在分组使用机器学习技术来计算考核分数“SG”。例如,可以向已经使用与搜索查询的相关度已知的分组来训练的预测分析树构建算法中输入源文档与查询的相关度、实例标识符的潜在分组是分组的似然度以及潜在分组与源文档的相关度作为特征。由预测分析树构建算法产生的考核分数“SG”可以体现已经针对分组表决的判决树的百分比。这一百分比可以表达为在0与1之间的数。在一些实现中,可以调节已经针对分组表决的判决树的百分比以考虑诸如分组出现的次数、分组成员已经被精化的程度以及其它因子之类的因子。
图25是用于根据实例标识符出现于其中的分组的相关度对实例标识符计分的过程2500的流程图。过程2500可以由一个或者多个通过执行一个或者多个机器可读指令集来执行数字数据处理操作的计算机执行。例如,过程2500可以由系统1900(图19)中的搜索引擎1905执行。可以与其它数字数据处理操作分开或者结合执行过程2500。例如,可以例如在步骤2030(图20)与过程2000的活动结合执行过程2500。
执行过程2500的系统接收描述潜在分组的描述信息(包括潜在分组中的实例标识符的标识)以及这些潜在分组与搜索查询的相关度(步骤2505)。例如,系统可以接收每个潜在分组中的实例标识符的列表以及用于每个潜在分组的考核分数SG。
执行过程2500的系统根据实例标识符出现于其中的潜在分组的相关度来估计每个实例标识符出现于相关分组中的似然度(步骤2510)。实例标识符的分组在该分组包括如下实例标识符时与搜索查询相关,该实例标识符共享在搜索查询中暗示或者明示指定的属性。每个实例标识符在相关分组中出现的似然度因此可以体现实例标识符与搜索查询的相关度。
在一些实现中,根据依赖于期望最大化算法的方法来估计每个实例标识符出现于相关分组中的似然度。期望最大化算法根据不完整的数据集和遗漏变量来进行对分布的一个或者多个参数的最大似然估计。期望最大化算法可以挑选在模型给定时最佳描述数据集的参数集。
在本文上下文中,数据集是潜在分组。模型假设一些潜在组与查询相关(分组“R”)而其它潜在组不与查询相关(分组“N”)。另外,给定项(i)具有出现于相关分组中的概率“P(i|R)”和出现于无关分组中的概率“P(i|N)”。可以起初基于例如分组的源文档与搜索查询的相关度、实例的分组实际上是分组的似然度以及分组与它的源文档的相关度来估计概率P(i|R)、P(i|N)。继而,可以使用期望最大化算法来最大化概率P(i|R)、P(i|N)。
期望最大化算法可以实施为在期望步骤与最大化步骤之间交替的迭代过程。在期望步骤中,根据观测数据和对分布参数的当前估计来估计遗漏变量。在最大化步骤中,在遗漏变量已知(即,具有在先前期望步骤中估计的值)的假设之下最大化对分布参数的估计。随着迭代地重复步骤,对分布参数的估计收敛。例如,在A.P.Dempster、N.M.Laird、D.B.Rubin的″Maximum Likelihood fromIncomplete Data via the EM Algorithm″(Journal of the Royal StatisticalSociety,Series B(Methodological)39(1)第1-38页(1977))中更具体地描述了期望最大化算法。
图26是用于根据实例标识符出现于其中的分组的相关度对实例标识符计分的过程2600的流程图。过程2600可以由一个或者多个通过执行一个或者多个机器可读指令集来执行数字数据处理操作的计算机执行。例如,过程2600可以由系统1900(图19)中的搜索引擎1905执行。可以与其它数字数据处理操作分开或者结合执行过程2600。例如,可以例如在步骤2030(图20)与过程2000的活动结合执行过程2600。
执行过程2600的系统接收描述潜在分组的描述信息(包括潜在分组中的实例标识符的标识)以及这些潜在组与搜索查询的相关度(步骤2605)。例如,系统可以接收每个潜在分组中的实例标识符的列表以及用于每个潜在分组的考核分数SG。
执行过程2600的系统在一个或者多个点-边图中表现潜在分组中的实例标识符的特征(步骤2610)。点-边图是对象集的表示,其中一些成对对象由链接连接。互连的对象由顶点代表,而连接一些成对顶点的链接称为边。
图27是点-边图2700的示意表示,该点-边图表现潜在分组中的实例标识符的特征。点-边图2700包括由一个或者多个边2735、2740、2745、2750、2755、2760、2765的分组按对连接的顶点2705、2710、2715、2720、2725、2730。点-边图2700是无向图。
每个顶点2705、2710、2715、2720、2725、2730代表在一个或者多个搜索中标识的潜在分组中发现的实例标识符。例如,顶点2720代表实例标识符“乔治·华盛顿”,顶点2720代表实例标识符“富兰克林D.罗斯福”,而顶点2730代表实例标识符“玛莎·华盛顿”。从其抽取顶点2705、2710、2715、2720、2725、2730的潜在分组可以限于具有与搜索查询的至少一些阈值水平的相关度。例如,可以使用过程2400(图24)来确定潜在分组与搜索查询的相关度。
边2735、2740、2745、2750、2755、2760、2765的每个分组代表潜在分组中的由边连接的顶点共同出现。例如,在边分组2755中的四个不同边可以代表在也包括“富兰克林D.罗斯福”的四个潜在分组中发现“乔治·华盛顿”顶点2720。在一些实现中,其它特征可以由边代表。表1是此类特征的示例列表。
示例特征
-对包括顶点配对的源文档进行标识的查询;
-对包括顶点配对的源文档进行标识的查询类别(例如,有偏向查询、源受限的查询);
-由对包括顶点配对的源文档进行标识的查询所标识的潜在分组的数目;
-源文档的相关度;
-顶点配对的源文档;
-标识顶点配对的提取器;
-其中发现顶点配对的潜在分组中的其它实例;
表1
在一些实现中,可以根据邻近项的特性来确定可以由边代表的其它特征。
图28是另一点-边图2800的示意表示,该点-边图表现潜在分组中的实例标识符的特征。点-边图2800包括由个别边2835、2840、2845、2850、2855、2860、2865按对连接的顶点2805、2810、2815、2820、2825、2830。每个边2835、2840、2845、2850、2855、2860、2865由相应权值2870、2875、2880、2885、2890、2895、2899加权。点-边图2800因此是加权无向图。
每个顶点2805、2810、2815、2820、2825、2830代表实例标识符的潜在分组。例如,顶点2815代表六个实例标识符的分组,顶点2820代表三个实例标识符的分组,而顶点2825代表三个实例标识符的分组。在顶点2805、2810、2815、2820、2825、2830中代表的潜在分组可以限于具有与搜索查询的至少某一阈值水平的相关度。可以例如使用过程2400(图24)来确定潜在分组与搜索查询的相关度。
每个边2735、2740、2745、2750、2755、2760、2765代表在它连接的成对顶点之间的“重叠”。在两个顶点之间的“重叠”是由那些顶点代表的潜在分组共有的实例标识符的数目。重叠可以由与每个边2735、2740、2745、2750、2755、2760、2765相关联的相应权值2870、2875、2880、2885、2890、2895、2899表示。例如,权值2880代表不存在由顶点2815、2820代表的潜在分组共有的实例标识符,并且权值2885代表存在由顶点2815、2825代表的潜在分组共有的三个实例标识符。为求简洁,已经从点-边图2800省略了其它零权值边。点-边图2800因此表现在其中发现实例标识符的潜在分组之间的重叠。
无需如图所示按照图示形式显示图2700、2800的顶点和边。实际上,图2700、2800可以例如在执行数字数据处理操作的计算机中保持抽象表示。
回到图26,执行过程2600的系统根据由点-边图中的边代表的特征对潜在分组中的实例标识符计分(步骤2615)。计分的性质可以依赖于在点-边图中表现的特征以及实例标识符本身在点-边图中的作用。
在一些实现中,可以使用由执行一个或者多个机器可读指令集的计算机执行的机器学习技术的结果对潜在分组中的实例标识符计分。训练数据集可以首先用来允许机器建立用于对实例标识符计分的规则集。这一用于计分的规则集继而可以应用于其它数据集。
例如,在点-边图2700(图27)的背景中,预测分析树构建算法(诸如分类和回归树分析)可以根据实例属于相关分组的似然度对它们计分、关于实例标识符是否属于相关分组对它们分类,或者二者兼有。树构建算法确定用于对允许准确的范例预测或者分类的实例标识符计分的如果-则逻辑规则集。通过规则汇集基于建模数据集中的变量值来构建树。可以基于以不同变量的值为基础的拆分可以多么好地区分观测来选择规则。例如,在Breiman等人的″Classification and Regression Trees″(Chapman & Hall(Wadsworth,Inc.)纽约(1984))、Steinberg等人的″CART:Tree-structuredNon-parametric Data Analysis″(Salford Systems,美国加州圣地亚哥(1995))和Breiman的″Random Forests″(Machine Learning第45:1卷(2001)第5-32页)中描述了树构建算法的示例。
可以使用与搜索查询相关的有确认准确度的实例标识符的分组、已经从非结构化电子文档汇集中标识的实例标识符的潜在分组的集合以及潜在分组中的实例标识符的特征来训练此类预测分析树构建算法。判决树可以基于特征(例如,在表1中列举的特征)来进行它们的判决。例如,美国总统的穷举列表、已经响应于询问美国总统的搜索查询来标识的实例标识符的潜在分组的集合以及在这些潜在分组中的实例标识符的特征可以由机器用来建立分类和回归树。用于在这一分类和回归树中计分的如果-则逻辑规则集继而可以应用于已经响应于其它搜索查询来标识的实例标识符的潜在分组的其它集合以及在这些其它潜在分组中的实例标识符的特征。应用这些逻辑条件可以根据对这些其它潜在分组中的实例标识符属于相关分组的似然度对这些其它潜在分组中的实例标识符计分、关于实例是否属于相关分组而对它们分类,或者这二者兼有。
在一些实现中,可以通过标识点-边图中的团对潜在分组中的实例标识符计分。团是按对相邻顶点集或者换言之是作为完整图的诱导子图。团的大小是该团中的顶点的数目。在点-边图2800(图28)的背景中,顶点2815、2830形成如下完整二分图(或者“二分团”),在该图中在顶点2830中还发现顶点2815中的每个实例标识符。这一高程度重叠由权值2890的相对高的值(即,值为六)代表。顶点2815、2825具有中程度重叠并且共享仅三个组成实例标识符。这一中程度重叠由权值2885的中间值(即,值为三)代表。顶点2820、2830完全不重叠,并且这一无重叠由权值2899的零值代表。
团的标识和在顶点之间的重叠可以用来对由这些顶点代表的潜在分组中的实例标识符计分。例如,在大团中的和/或具有高程度重叠的实例标识符可以视为更可能具有由搜索查询指定的属性,而在小团中的和/或具有低程度重叠的实例标识符可以视为不太可能具有由搜索查询指定的属性。在一些实现中,团的尺寸可以在计分时比更小团中的重叠程度更多地加权。例如,顶点2815、2825、2830形成三顶点的如下团边,该边具有最小权值为三的边,而顶点2815、2830形成两顶点的如下团边,该边具有最小权值为六的边。可以取更大的三顶点团作为如下独立源的汇集,该独立源确认三个共同实例标识符很可能具有由搜索查询指定的属性。在一些实现中,继而可以向客户端(例如系统1900(图19)中的客户端1915)发送计分的实例标识符的集合的表示。
图29是用于对实例标识符重新计分的过程2900的流程图。过程2900可以由一个或者多个通过执行一个或者多个机器可读指令集来执行数字数据处理操作的计算机执行。例如,过程2900可以由系统1900(图19)中的搜索引擎1905执行。可以与其它数字数据处理操作分开或者结合执行过程2900。例如,可以例如在步骤2510(图25)之后与过程2500的活动结合或者例如在步骤2615(图26)之后与过程2600的活动结合执行过程2900。
执行过程2900的系统接收描述搜索查询的描述信息和计分的实例标识符的汇集(步骤2905)。可以根据实例标识符具有由接收的搜索查询指定的属性的似然度对它们计分。
执行过程2900的系统可以去除与接收的搜索查询的文本匹配的实例标识符或者接收的搜索查询的文本的置换(步骤2910)。例如,如果搜索查询询问“美国总统”,则可以从计分的实例标识符的集合去除诸如“总统”、“美国总统”等实例标识符。在一些实现中,可以从计分的实例标识符的集合去除其它实例标识符(诸如俗语)。
执行过程2900的系统可以改变计分的实例标识符的集合中的有关或者相似实例标识符的分数(步骤2915)。有关或者相似实例标识符的示例包括如下实例标识符,该实例标识符使用源于不同拼法的词(例如,defense/defence、behavior/behaviour)、作为外来词的不同音译的词(例如,tsar/czar/csar)、作为缩写词或者小词的词(Robert Kennedy/Bobby Kennedy/R.F.Kennedy)以及作为另一实例标识符的子串的词(例如,乔治·华盛顿/乔治·华盛顿传记)来标识相同实例。在一些实现中,相似或者有关实例标识符可以组合成单个实例标识符。
执行过程2900的系统也可以根据实例标识符出现于非结构化电子文档汇集的电子文档中的频率对实例标识符的分数加权(步骤2920)。例如,在对电子文档的分组编索引时,可以确定出现于电子文档中的不同检索词(包括实例标识符检索词)的出现次数。继而可以例如通过将用于不同实例标识符的分数乘以近似为出现次数的倒数的值来缩放该分数。因而,经常出现于电子文档中的实例标识符的分数可以相对于仅很少出现于电子文档中的实例标识符的分数而言减少。
在一些实现中,其它活动可以用来对实例汇集重新计分。例如,在一些实现中,可以从汇集中将与固定黑名单匹配的实例标识符一起去除,从而在效果上将它们的分数减少至零。黑名单可以包括个别实例标识符或者标识符/搜索查询对。
在一些实现中,可以改变实例标识符的分数、以反映标识符表征实例种类的似然度。在一些实现中,可以根据由不同人类用户提交的搜索查询日志来确定标识符表征实例种类的似然度。例如,响应于用户在利用一个标识计分的实例的搜索查询(例如,搜索查询“小汽车”)进行查询到利用一个使用该标识符来标识种类的搜索查询(例如,搜索查询“小汽车类型”和”小汽车列表”)进行搜索之间切换,可以减少该实例标识符的分数。作为另一示例中,响应于用户在利用一个标识计分的实例的搜索查询(例如,搜索查询“小汽车”)进行查询到利用该种类内的更具体实例的标识符进行搜索(例如,在种类“小汽车”内的搜索查询“普锐斯(prius)”)之间切换,可以增加更具体的实例标识符的分数。
在一些实现中,可以向客户端(例如,系统1900(图19)中的客户端1915)传输重新计分的实例标识符的集合的表示。
图3-图5是向用户呈现有关实例标识符的分组的结构化呈现300、400、500的示例。结构化呈现300、400、500可以例如由客户端1915在显示屏1920(图19)上的呈现1925中呈现给用户。结构化呈现300、400、500使用对信息的空间布置和定位来标识实例的分组共享一个或者多个共同属性。
在本说明书中描述的主题内容的实施例和操作可以实施于数字电子电路中或者计算机软件、固件或者硬件(包括在本说明书中公开的结构及其结构等效物)中或者它们中的一项或者多项的组合中。在本说明书中描述的主题内容的实施例可以实施为在计算机存储介质上编码的、用于由数据处理装置执行或者用于控制数据处理装置的操作的一个或者多个计算机程序(即,一个或者多个计算机程序指令模块)。备选地或者附加地,程序指令可以编码于如下人为生成的传播信号(例如,机器生成的电、光学、电磁信号)上,该信号被生成为对信息进行编码以用于向适当接收器装置传输以供数据处理装置执行。计算机存储介质可以是机器可读存储设备、机器可读存储衬底、随机或者串行存取存储器阵列或者设备或者它们中的一项或者多项的组合或者包含于上述其中。另外,尽管计算机存储介质并非传播信号,但是计算机存储介质可以是在人为生成的传播信号中编码的计算机程序指令的源或者目的地。计算机存储介质也可以是一个或者多个单独物理部件或者介质(例如,多个CD、盘或者其它存储设备)或者包含于该部件或者介质中。
在本说明书中描述的操作可以实施为数据处理装置对存储于一个或者多个计算机可读存储设备上的或者从其它源接收的数据执行的操作。
术语“数据处理装置”涵盖所有种类的用于处理数据的装置、设备和机器,举例而言,包括可编程处理器、计算机、片上系统或者前述各例的多个或者组合。装置可以包括专用逻辑电路,例如,FPGA(现场可编程门阵列)或者ASIC(专用集成电路)。装置除了硬件之外也可以包括为讨论的计算机程序创建执行环境的代码,例如,构成处理器固件、协议栈、数据库管理系统、操作系统、交叉平台运行时环境、虚拟机或者它们中的一项或者多项的组合的代码。装置和执行环境可以实现各种不同计算模型基础设施,诸如web服务、分布式计算和网格计算基础设施。
可以按照任何形式的编程语言(包括编译或者解译语言、说明或者过程语言)编写计算机程序(也称为程序、软件、软件应用、脚本或者代码),并且可以按照任何形式(包括独立程序或者适合于在计算环境中使用的模块、部件、子例程、对象或者其它单元)部署它。计算机程序可以但是无需对应于文件系统中的文件。程序可以存储于保持其它程序或者数据的文件(例如,存储于标记语言文档中的一个或者多个脚本)的部分中、专用于讨论的程序的单个文件中或者多个协同文件(例如,存储一个或者多个模块、子程序或者代码部分的文件)中。计算机程序可以被部署成在一个计算机上或者在位于一个地点或者分布于多个地点并且由通信网络互连的多个计算机上执行。
在本说明书中描述的过程和逻辑流程可以由一个或者多个执行一个或者多个计算机程序以通过对输入数据进行操作并且生成输出来执行动作的可编程处理器执行。过程和逻辑流程也可以由专用逻辑电路(例如,FPGA(现场可编程门阵列)或者ASIC(专用集成电路))执行,并且装置也可以实施为该专用逻辑电路。
举例而言,适合于执行计算机程序的处理器包括通用和专用微处理器以及任何种类的数字计算机的任何一个或者多个处理器。一般而言,处理器将从只读存储器或者随机存取存储器或者这二者接收指令和数据。计算机的基本元件是用于根据指令来执行动作的处理器以及用于存储指令和数据的一个或者多个存储器设备。一般而言,计算机也将包括用于存储数据的一个或者多个海量存储设备(例如磁盘、磁光盘或者光盘)或者操作地耦合成从该海量存储设备接收数据或者向该海量存储设备传送数据或者这二者。然而,计算机无需具有此类设备。另外,计算机可以嵌入于另一设备(聊举数例,例如,移动电话、个人数字助理(PDA)、移动音频或者视频播放器、游戏控制台、全球定位系统(GPS)接收器或者便携存储设备(例如,通用串行总线(USB)快闪驱动器))中。适合于存储计算机程序指令和数据的设备包括所有形式的非易失性存储器、介质和存储器设备(举例而言,包括半导体存储器设备(例如,EPROM、EEPROM和闪存设备);磁盘(例如,内部硬盘或者可拆卸盘);磁光盘;以及CD-ROM和DVD-ROM盘)。处理器和存储器可以由专用逻辑电路补充或者并入于专用逻辑电路中。
为了提供与用户的交互,在本说明书中描述的主题内容的实施例可以实施于如下计算机上,该计算机具有用于向用户显示信息的显示设备(例如,CRT(阴极射线管)或者LCD(液晶显示器)监视器)以及用户可以用来向计算机提供输入的键盘和指点设备(例如,鼠标或者跟踪球)。其它种类的设备也可以用来提供与用户的交互;例如,向用户提供的反馈可以是任何形式的感测反馈(例如,视觉反馈、听觉反馈或者触觉反馈);并且可以按照包括声音、语音或者触觉输入的任何形式接收来自用户的输入。此外,计算机可以通过向用户使用的设备发送文档以及从该设备接收文档(例如,通过响应于从用户的客户端设备上的web浏览器接收的请求向该web浏览器发送网页)来与用户交互。
在本说明书中描述的主题内容的实施例可以实施于如下计算系统中,该计算系统包括后台部件(例如,数据服务器)或者包括中间件部件(例如,应用服务器)或者包括前台部件(例如,具有图形用户界面或者Web浏览器(用户可以通过该图形用户界面或者Web浏览器来与在本说明书中描述的主题内容的实现交互)的客户端计算机)或者一个或者多个此类后台、中间件或者前台部件的任何组合。系统的部件可以由任何数字数据通信形式或者介质(例如,通信网络)互连。通信网络的示例包括局域网(“LAN”)和广域网(“WAN”)、互联网(例如,因特网)和对等网络(例如,自组织对等网络)。
计算系统可以包括客户端和服务器、客户端和服务器通常相互远离并且通常通过通信网络交互。客户端和服务器的关系借助在相应计算机上运行并且相互具有客户端-服务器关系的计算机程序来产生。在一些实施例中,服务器向客户端设备传输数据(例如,HTML页面)(例如,用于向与客户端设备交互的用户显示数据以及从该用户接收用户输入)。可以在服务器从客户端设备接收在客户端设备生成的数据(例如,用户交互结果)。
尽管本说明书包含许多具体实现细节,但是这些不应解释为限制任何发明的或者可以要求保护的内容的范围,而实际上描述特定发明的特定实施例特有的特征。在本说明书中在单独实施例的背景中描述的某些特征也可以在单个实施例中组合实施。反言之,在单个实施例的背景中描述的各种特征也可以在多个实施例中单独或者在任何适当子组合中实施。另外,虽然上文可以将特征描述为在某些组合中动作并且甚至起初这样要求保护,但是来自要求保护的组合的一个或者多个特征可以在一些情况下从该组合中删除,并且要求保护的组合可以涉及子组合或者子组合的变型。
类似地,尽管在附图中按照特定顺序描绘操作,但是这不应理解为要求按照所示特定顺序或者以依次顺序执行此类操作或者执行所有所示操作以实现期望的结果。在某些情况中,多任务和并行处理可以是有利的。另外,在上文描述的实施例中的各种系统部件的分离不应理解为在所有实施例中要求此类分离,并且应当理解,描述的程序部件和系统通常可以一起集成于单个软件产品中或者封装成多个软件产品。
因此,已经描述了主题内容的特定实施例。其它实施例在所附权利要求的范围内。例如,在一些实现中,系统(诸如系统100)包括用于从用户校正历史110排除由非人类用户进行的校正的机制。在一些情况下,在权利要求中记载的动作可以按照不同顺序执行而仍然实现期望的结果。此外,在附图中描绘的过程未必需要所示具体顺序或者依次顺序以实现期望的结果。在某些实现中,多任务和并行处理可以是有利的。
这些技术也可以实施于以下实施例中的一个或者多个实施例中。
实施例1.一种由一个或者多个数据处理装置执行的方法,该方法包括:数据处理装置在数据处理装置处接收搜索查询,该搜索查询指定由有关实例的分组共享的属性;数据处理装置用数据处理装置标识非结构化电子文档汇集中的实例标识符的分组;数据处理装置用数据处理装置确定实例标识符的分组与搜索查询的相关度;数据处理装置用数据处理装置对实例标识符的分组中的至少一些示例标识符个别计分;以及数据处理装置用数据处理装置根据分数对至少一些实例标识符排名。
实施例2.根据实施例1的方法,其中确定实例标识符的分组与搜索查询的相关度包括:计算实例标识符的分组与包括实例标识符的分组的源文档的相关度;计算实例标识符的标识的分组实际上是实例标识符的分组的似然度;以及计算包括实例标识符的分组的源文档与搜索查询的相关度。
实施例3.根据实施例1的方法,其中标识实例标识符的分组包括:形成偏向于标识分组的第一新查询;形成限于搜索概略源的第二新查询;以及用接收的查询、第一新查询和第二新查询搜索非结构化电子文档汇集。
实施例4.根据实施例1的方法,还包括数据处理装置在排名之前对至少一些实例标识符重新计分。
实施例5.根据实施例1的方法,其中对实例标识符的分组中的至少一些实例标识符计分包括:在点-边图中表现实例标识符的特征;以及根据在点-边图中表现的特征对实例标识符计分。
实施例6.根据实施例5的方法,其中:点-边图中的顶点代表实例标识符的分组;并且点-边图中的相应边根据在由边连接的顶点之间的重叠来加权。
实施例7.根据实施例5的方法,其中:点-边图中的顶点代表个别实例标识符;并且点-边图中的相应边代表由实例标识符共享的特征。
实施例8.根据实施例6的方法,其中点-边图中的第一边代表提取器,该提取器标识由第一边接合的成对顶点。
实施例9.根据实施例6的方法,其中点-边图中的第一边代表潜在分组中的其它实例标识符,由第一边接合的顶点是在这些潜在分组中发现的。
实施例10.根据实施例6的方法,其中点-边图中的第一边代表标识的源文档的查询的类别,由第一边接合的顶点是在该源文档中发现的。
实施例11.根据实施例5的方法,其中对实例标识符计分包括标识点-边图中的团。
实施例12.根据实施例1的方法,其中对实例标识符计分包括使用预测分析树构建算法对实例标识符计分。
实施例13.根据实施例1的方法,其中使用预测分析树构建算法对实例标识符计分包括:使用与搜索查询相关的有确认准确度的实例标识符的分组、已经从非结构化电子文档汇集中标识的实例标识符的潜在分组的集合以及潜在分组中的实例标识符的特征来训练预测分析树构建算法;以及生成分类和回归树。
实施例14.一种或者多种编码有计算机程序的计算机存储介质,该程序包括在由一个或者多个数据处理装置执行时使数据处理装置执行操作的指令,该操作包括:在数据处理装置接收搜索查询,该搜索查询指定由有关实例的分组共享的属性;搜索电子文档汇集以标识响应于搜索查询的实例标识符;在点-边图中表现实例标识符的特征;以及根据在点-边图中表现的特征对实例标识符与搜索查询的相关度计分。
实施例15.根据实施例14的计算机存储介质,其中操作还包括:标识汇集的电子文档中的实例标识符的分组;以及确定实例标识符的分组与搜索查询的相关度;以及在点-边图中表现的第一特征包括这些包括相应实例标识符的分组与搜索查询的相关度。
实施例16.根据实施例14的计算机存储介质,操作还包括:标识与搜索查询相关的在因特网上可用的电子文档;以及从与搜索查询相关的电子文档提取实例标识符的分组。
实施例17.根据实施例16的计算机存储介质,操作还包括:计算从其提取实例标识符的分组的电子文档与搜索查询的相关度;计算实例标识符的分组与从其提取实例标识符的分组的电子文档的相关度;以及计算实例标识符的分组是实例标识符的分组的似然度。
实施例18.根据实施例15的计算机存储介质,其中标识实例标识符的分组包括:形成偏向于标识分组的新查询;以及用新查询搜索电子文档汇集。
实施例19.根据实施例14的计算机存储介质,其中点-边图中的第一边代表标识由第一边接合的成对顶点的查询的类别。
实施例20.根据实施例14的计算机存储介质,其中点-边图中的第一边代表潜在分组中的其它实例标识符,由第一边接合的顶点是在这些潜在分组中发现的。
实施例21.根据实施例14的计算机存储介质,其中对实例标识符与搜索查询的相关度计分包括标识点-边图中的团。
实施例22.一种系统,包括:客户端设备;以及一个或者多个计算机,编程为与客户端设备和数据存储设备交互,计算机被编程为执行操作,该操作包括:从客户端设备接收搜索查询,该搜索查询明示或者暗示指定实例属性;搜索电子文档汇集以标识可以具有由搜索查询指定的属性的实例标识符;在点-边图中表现电子文档汇集的搜索的特征;根据在点-边图中表现的特征对可以具有由搜索查询指定的属性的实例标识符计分;以及向客户端设备输出用于可视地呈现至少一些实例标识符的指令。
实施例23.根据实施例22的系统,其中:输出指令包括输出用于在客户端设备可视地呈现结构化呈现的指令;以及客户端设备被配置成接收指令并且使结构化呈现被可视地呈现。
实施例24.根据实施例22的系统,还包括存储描述多个分组的实例的数据的数据存储设备。
实施例25.根据实施例22的系统,还包括存储机器可读指令的数据存储设备,该机器可读指令被编制以从非结构化汇集中的电子文档标识和提取实例标识符的分组。
实施例26.根据实施例22的系统,其中:表现特征包括在点-边图中表现实例标识符出现于其中的分组的相关度;以及对实例标识符计分包括根据实例标识符出现于其中的分组与搜索查询的相关度对实例标识符个别计分。
实施例27.根据实施例22的系统,其中对实例标识符计分包括标识点-边图中的团。
实施例28.根据实施例22的系统,其中对实例标识符计分包括根据在点-边图中表现的提取器对实例标识符计分。
实施例29.根据实施例22的系统,其中对实例标识符计分包括根据在点-边图中表现的查询类别对实例标识符计分。
Claims (28)
1.一种由一个或者多个数据处理装置执行的方法,所述方法包括:
在所述数据处理装置处接收值结果集,所述值结果集包括多个不同值的汇集,所述多个值中的每个值是用于表征实例属性的候选;
访问在一个或者多个数据存储设备处存储的用户校正历史记录,所述历史记录描述对由值表征的所述实例属性的用户校正,所述用户校正由多个不同用户进行,每个用户校正由与表征所述实例的所述属性的信息的呈现交互的各自的用户进行;
确定所述用户校正历史记录包括各自参考表征所述实例的所述属性的各自的值进行的用户校正;
基于参考所述实例的所述属性进行的所述用户校正改变置信度参数,所述置信度参数体现第一值正确表征所述实例的所述属性的置信度;
根据所述实例的相应的置信度参数对表征所述实例的所述属性的所述值结果集中的所述值排名,所述相应的置信度参数体现表征所述实例的所述属性的相应的值正确表征所述实例的所述属性的置信度,所述相应的置信度参数包括体现所述第一值正确表征所述实例的所述属性的置信度的改变的所述置信度参数;以及
生成用于可视地显示根据所述排名排序的所述值结果集的至少一部分的指令。
2.根据权利要求1所述的方法,其中:
可视地显示所述值结果集的至少所述部分包括向用户呈现结构化呈现;
用在所述值结果集中包括的第一值填充所述结构化呈现;并且
所述第一值具有置信度参数,所述置信度参数表明所述第一值是所述值结果集中的最可能正确表征所述实例属性的值。
3.根据权利要求1所述的方法,其中可视地显示所述值结果集的至少部分包括显示候选窗,所述候选窗包括用于表征实例属性的候选值。
4.根据权利要求1所述的方法,其中改变所述置信度参数包括应用适合于缩放置信度评级的增量值,所述缩放置信度评级体现所述第一值正确表征所述实例的所述属性的所述置信度。
5.根据权利要求4所述的方法,其中改变所述置信度参数包括生成所述增量值,其中生成所述增量值包括对所述涉及到的值的用户校正的分类加权。
6.根据权利要求4所述的方法,其中改变所述置信度参数包括生成所述增量值,其中生成所述增量值包括对所述用户校正分类。
7.一种数据处理装置,包括:
用于接收对用户校正的描述的装置,所述用户校正涉及到表征实例属性的值,其中所述用户校正指示所述值不正确;
用于改变置信度参数的装置,所述置信度参数反映所述值正确表征所述实例属性的似然度;
用于根据包括所述改变的置信度参数的各自的置信度参数对包括所述值的表征所述实例属性的候选值汇集排名的装置;以及
用于响应于搜索查询传输排名的所述汇集的描述的装置。
8.根据权利要求7所述的数据处理装置,其中用于接收对所述用户校正的所述描述的装置包括用于接收对所述用户是否用源确认所述校正的描述的装置。
9.根据权利要求7所述的数据处理装置,其中用于接收对所述用户校正的所述描述的装置包括用于接收对所述用户在回顾电子文档之后未改变未校正值的描述的装置。
10.根据权利要求7所述的数据处理装置,其中用于接收对所述用户校正的所述描述的装置包括用于接收对所述用户校正之前的所述未校正值和所述用户校正之后的所述经校正值的描述的装置。
11.根据权利要求7所述的数据处理装置,其中用于改变所述置信度参数的装置包括:
用于对所述用户校正分类的装置;以及
用于根据所述用户校正的所述分类对所述用户校正对所述置信度参数的影响加权的装置。
12.根据权利要求11所述的数据处理装置,其中用于对所述用户校正的所述影响加权的装置包括用于对在从源确认之后进行的用户校正比未从源确认而进行的用户校正加权更多的装置。
13.根据权利要求11所述的数据处理装置,其中用于对所述用户校正的所述影响加权的装置包括用于对更近期的用户校正比更早期的用户校正加权更多的装置。
14.根据权利要求7所述的数据处理装置,其中用于改变所述置信度参数的装置包括用于改变反映经校正值正确表征所述实例属性的所述似然度的所述置信度参数的装置。
15.一种数据处理系统,包括:
多个客户端设备,每个客户端设备包括:
输入设备,
显示屏,以及
数字数据处理设备,可操作用于在所述显示屏上显示包括对实例属性的表征的搜索结果,以及通过所述输入设备接收校正所述搜索结果中的对实例属性的表征的用户输入;
校正跟踪器,可操作用于与所述客户端设备交互、以跟踪来自多个相异用户的对所述实例属性的表征进行校正的所述用户输入,并且在用户校正历史中存储对来自所述多个相异用户的所述用户输入的描述;
一个或者多个数据存储设备,存储所述用户校正历史的记录;以及
搜索引擎,可操作用于与所述一个或者多个数据存储设备交互、以访问所述用户校正历史,进行搜索并且响应于搜索查询返回多个值的结果集,使用包括来自多个相异用户的用户输入的所述用户校正历史,确定所述结果集中的所述值以及所述结果集中的值的排名,以及生成对客户端设备的用于可视地显示根据所述排名排序的所述值结果集的至少一部分的指令。
16.根据权利要求15所述的数据处理系统,其中所述显示屏在所述数字数据处理设备的指引之下显示结构化呈现,所述结构化呈现将实例属性与值进行关联。
17.根据权利要求16所述的数据处理系统,其中所述结构化呈现包括可由用户选择用于标识实例属性的交互式元素,由值对所述实例属性的表征将被校正。
18.根据权利要求17所述的数据处理系统,其中所述交互式元素包括所述结构化呈现的单元。
19.根据权利要求16所述的数据处理系统,其中所述结构化呈现包括成套卡。
20.根据权利要求15所述的数据处理系统,其中所述显示屏在所述数字数据处理设备的指引之下显示候选窗,所述候选窗呈现用于替换表征实例属性的未校正值的候选经校正值。
21.一种由一个或者多个数据处理装置执行的方法,所述方法包括:
在所述数据处理装置接收对用户校正的描述,所述用户校正涉及到表征实例属性的值,其中所述用户校正指示所述值不正确;
由所述数据处理装置改变置信度参数,所述置信度参数反映所述值正确表征所述实例属性的似然度;
由所述数据处理装置根据包括所述改变的置信度参数的各自的置信度参数对包括所述值的表征所述实例属性的候选值汇集排名;以及
由所述一个或者多个数据处理装置响应于搜索查询传输排名的所述汇集的描述。
22.根据权利要求21所述的方法,其中接收对所述用户校正的所述描述包括接收对所述用户是否用源确认所述校正的描述。
23.根据权利要求21所述的方法,其中接收对所述用户校正的所述描述包括接收对所述用户在回顾电子文档之后未改变未校正值的描述。
24.根据权利要求21所述的方法,其中接收对所述用户校正的所述描述包括接收对所述用户校正之前的所述未校正值和所述用户校正之后的所述经校正值的描述。
25.根据权利要求21所述的方法,其中改变所述置信度参数包括:
对所述用户校正分类;以及
根据所述用户校正的所述分类对所述用户校正对所述置信度参数的影响加权。
26.根据权利要求25所述的方法,其中对所述用户校正的所述影响加权包括对在从源确认之后进行的用户校正比未从源确认而进行的用户校正加权更多。
27.根据权利要求25所述的方法,其中对所述用户校正的所述影响加权包括对更近期的用户校正比更早期的用户校正加权更多。
28.根据权利要求21所述的方法,其中改变所述置信度参数包括改变反映经校正值正确表征所述实例属性的所述似然度的所述置信度参数。
Applications Claiming Priority (5)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US12/476,110 US20100306223A1 (en) | 2009-06-01 | 2009-06-01 | Rankings in Search Results with User Corrections |
US12/476,110 | 2009-06-01 | ||
US12/608,395 | 2009-10-29 | ||
US12/608,395 US20110106819A1 (en) | 2009-10-29 | 2009-10-29 | Identifying a group of related instances |
PCT/US2010/036949 WO2010141502A2 (en) | 2009-06-01 | 2010-06-01 | Searching methods and devices |
Publications (2)
Publication Number | Publication Date |
---|---|
CN102460440A CN102460440A (zh) | 2012-05-16 |
CN102460440B true CN102460440B (zh) | 2014-10-08 |
Family
ID=43298451
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201080034010.7A Expired - Fee Related CN102460440B (zh) | 2009-06-01 | 2010-06-01 | 搜索方法和设备 |
Country Status (6)
Country | Link |
---|---|
EP (1) | EP2438544A2 (zh) |
KR (1) | KR20120038418A (zh) |
CN (1) | CN102460440B (zh) |
AU (1) | AU2010256777A1 (zh) |
CA (1) | CA2764157A1 (zh) |
WO (1) | WO2010141502A2 (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10108700B2 (en) | 2013-03-15 | 2018-10-23 | Google Llc | Question answering to populate knowledge base |
Families Citing this family (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10255319B2 (en) * | 2014-05-02 | 2019-04-09 | Google Llc | Searchable index |
CN107544972B (zh) * | 2016-06-23 | 2019-09-13 | 腾讯科技(深圳)有限公司 | 地图编辑方法和装置 |
EP3641275A1 (de) * | 2018-10-18 | 2020-04-22 | Siemens Aktiengesellschaft | Verfahren, vorrichtung und computerprogramm zur automatischen verarbeitung von datenbezeichnern |
CN110427553B (zh) * | 2019-07-26 | 2022-05-17 | 百度在线网络技术(北京)有限公司 | 智能音箱的搜索方法、装置、服务器及存储介质 |
Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1171873A (zh) * | 1994-12-30 | 1998-01-28 | 诺基亚电信公司 | 网络单元中比较可控对象表示式属性值的方法 |
Family Cites Families (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2001019160A2 (en) * | 1999-09-15 | 2001-03-22 | Siemens Corporate Research, Inc. | Method and system for selecting and automatically updating arbitrary elements from structured documents |
US6687696B2 (en) * | 2000-07-26 | 2004-02-03 | Recommind Inc. | System and method for personalized search, information filtering, and for generating recommendations utilizing statistical latent class models |
US20040006559A1 (en) * | 2002-05-29 | 2004-01-08 | Gange David M. | System, apparatus, and method for user tunable and selectable searching of a database using a weigthted quantized feature vector |
US6944612B2 (en) * | 2002-11-13 | 2005-09-13 | Xerox Corporation | Structured contextual clustering method and system in a federated search engine |
US7624143B2 (en) * | 2002-12-12 | 2009-11-24 | Xerox Corporation | Methods, apparatus, and program products for utilizing contextual property metadata in networked computing environments |
US20050076015A1 (en) * | 2003-10-02 | 2005-04-07 | International Business Machines Corporation | Dynamic query building based on the desired number of results |
US7752194B2 (en) * | 2007-05-31 | 2010-07-06 | Red Hat, Inc. | LDAP revision history |
-
2010
- 2010-06-01 AU AU2010256777A patent/AU2010256777A1/en not_active Abandoned
- 2010-06-01 CA CA2764157A patent/CA2764157A1/en not_active Abandoned
- 2010-06-01 WO PCT/US2010/036949 patent/WO2010141502A2/en active Application Filing
- 2010-06-01 KR KR1020117031688A patent/KR20120038418A/ko not_active Application Discontinuation
- 2010-06-01 EP EP10783951A patent/EP2438544A2/en not_active Withdrawn
- 2010-06-01 CN CN201080034010.7A patent/CN102460440B/zh not_active Expired - Fee Related
Patent Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1171873A (zh) * | 1994-12-30 | 1998-01-28 | 诺基亚电信公司 | 网络单元中比较可控对象表示式属性值的方法 |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10108700B2 (en) | 2013-03-15 | 2018-10-23 | Google Llc | Question answering to populate knowledge base |
Also Published As
Publication number | Publication date |
---|---|
KR20120038418A (ko) | 2012-04-23 |
CN102460440A (zh) | 2012-05-16 |
WO2010141502A2 (en) | 2010-12-09 |
CA2764157A1 (en) | 2010-12-09 |
EP2438544A2 (en) | 2012-04-11 |
AU2010256777A1 (en) | 2011-12-22 |
WO2010141502A3 (en) | 2011-03-24 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110609902B (zh) | 一种基于融合知识图谱的文本处理方法及装置 | |
US8935197B2 (en) | Systems and methods for facilitating open source intelligence gathering | |
CN102395965B (zh) | 用于在数据库中搜索对象的方法 | |
CN109446341A (zh) | 知识图谱的构建方法及装置 | |
CN103491205B (zh) | 一种基于视频搜索的关联资源地址的推送方法和装置 | |
CN102402604B (zh) | 搜索引擎的有效前向排序 | |
CN101408886B (zh) | 通过分析文档的段落来选择该文档的标签 | |
US20100306223A1 (en) | Rankings in Search Results with User Corrections | |
CN103425687A (zh) | 一种基于关键词的检索方法和系统 | |
US20110106819A1 (en) | Identifying a group of related instances | |
CN105518661B (zh) | 经由挖掘的超链接文本的片段来浏览图像 | |
CN102023989A (zh) | 一种信息检索方法及其系统 | |
CN102456016B (zh) | 一种对搜索结果进行排序的方法及装置 | |
CN102663129A (zh) | 医疗领域深度问答方法及医学检索系统 | |
CN105393264A (zh) | 人机交互学习中的交互区段提取 | |
CN104011712A (zh) | 对跨语言查询建议的查询翻译进行评价 | |
CN105518658A (zh) | 用于将数据记录分组的设备、系统以及方法 | |
US20150006528A1 (en) | Hierarchical data structure of documents | |
CN106663117A (zh) | 构造支持提供探索性建议的图 | |
CN102460440B (zh) | 搜索方法和设备 | |
CN112749265B (zh) | 一种基于多信息源的智能问答系统 | |
JP2019149145A (ja) | 情報検索システム | |
JP2022532451A (ja) | 百科知識ベースと単語の埋め込みに基づく中国語地名語義の曖昧性解消方法 | |
CN106484797A (zh) | 基于稀疏学习的突发事件摘要抽取方法 | |
CN105512285A (zh) | 基于机器学习的自适应网络爬虫方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C14 | Grant of patent or utility model | ||
GR01 | Patent grant | ||
CF01 | Termination of patent right due to non-payment of annual fee | ||
CF01 | Termination of patent right due to non-payment of annual fee |
Granted publication date: 20141008 Termination date: 20170601 |