CN102393840A - 实体卡的实体检测和提取 - Google Patents

实体卡的实体检测和提取 Download PDF

Info

Publication number
CN102393840A
CN102393840A CN 201110164789 CN201110164789A CN102393840A CN 102393840 A CN102393840 A CN 102393840A CN 201110164789 CN201110164789 CN 201110164789 CN 201110164789 A CN201110164789 A CN 201110164789A CN 102393840 A CN102393840 A CN 102393840A
Authority
CN
Grant status
Application
Patent type
Prior art keywords
entity
information
results
search
used
Prior art date
Application number
CN 201110164789
Other languages
English (en)
Other versions
CN102393840B (zh )
Inventor
B·比勒贝克
F·拉德林斯基
M·A·阿万
M·绍库希
N·克拉斯韦尔
N·阿格拉沃尔
S·周
S·阿哈里
T·霍德
Original Assignee
微软公司
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING; COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F17/00Digital computing or data processing equipment or methods, specially adapted for specific functions
    • G06F17/30Information retrieval; Database structures therefor ; File system structures therefor
    • G06F17/30286Information retrieval; Database structures therefor ; File system structures therefor in structured data stores
    • G06F17/30386Retrieval requests
    • G06F17/30424Query processing
    • G06F17/30522Query processing with adaptation to user needs
    • G06F17/3053Query processing with adaptation to user needs using ranking
    • GPHYSICS
    • G06COMPUTING; CALCULATING; COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F17/00Digital computing or data processing equipment or methods, specially adapted for specific functions
    • G06F17/30Information retrieval; Database structures therefor ; File system structures therefor
    • G06F17/30286Information retrieval; Database structures therefor ; File system structures therefor in structured data stores
    • G06F17/30386Retrieval requests
    • G06F17/30424Query processing
    • G06F17/30477Query execution
    • GPHYSICS
    • G06COMPUTING; CALCULATING; COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F17/00Digital computing or data processing equipment or methods, specially adapted for specific functions
    • G06F17/30Information retrieval; Database structures therefor ; File system structures therefor
    • G06F17/30286Information retrieval; Database structures therefor ; File system structures therefor in structured data stores
    • G06F17/30386Retrieval requests
    • G06F17/30554Query result display and visualisation
    • GPHYSICS
    • G06COMPUTING; CALCULATING; COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F17/00Digital computing or data processing equipment or methods, specially adapted for specific functions
    • G06F17/30Information retrieval; Database structures therefor ; File system structures therefor
    • G06F17/30861Retrieval from the Internet, e.g. browsers
    • G06F17/30864Retrieval from the Internet, e.g. browsers by querying, e.g. search engines or meta-search engines, crawling techniques, push systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING; COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F17/00Digital computing or data processing equipment or methods, specially adapted for specific functions
    • G06F17/30Information retrieval; Database structures therefor ; File system structures therefor
    • G06F17/30861Retrieval from the Internet, e.g. browsers
    • G06F17/30864Retrieval from the Internet, e.g. browsers by querying, e.g. search engines or meta-search engines, crawling techniques, push systems
    • G06F17/30867Retrieval from the Internet, e.g. browsers by querying, e.g. search engines or meta-search engines, crawling techniques, push systems with filtering and personalisation

Abstract

本发明涉及实体卡的实体检测和提取。提供了用于检测包含在搜索结果内的实体信息的系统和方法。可使用所检测的实体信息来确定搜索结果内的实体类别以及具体实体。可从与搜索结果相关联的文档中提取实体信息。这一信息可被用作实体卡的信息的一部分,可向用户显示该信息结合搜索结果和/或代替搜索结果。

Description

实体卡的实体检测和提取

技术领域

[0001] 本发明涉及网络技术领域,尤其涉及网络技术中搜索查询技术。 背景技术

[0002] 搜索引擎被用于查找各种类型的信息。尽管将链接列表返回给相关文档如今是一种熟悉的格式,但这并不一定是方便的格式。为了找到特定的某条信息,用户通常必需点进链接来查看对应的文档。如果所需信息不在用户所访问的第一篇文档中,则用户可能需要多次重复这一过程。

发明内容

[0003] 在各实施例中,提供了用于检测包含在搜索结果内的实体信息的系统和方法。可使用所检测的实体信息来确定搜索结果内的实体类别以及具体实体。可从与搜索结果相关联的文档中提取实体信息。这一信息可被用作实体卡的信息的一部分,可向用户显示该信息结合搜索结果和/或代替搜索结果。

[0004] 提供本发明内容以便以简化形式介绍将在以下的具体实施方式中进一步描述的一些概念。该发明内容不旨在标识所要求保护的主题的关键特征或本质特征,也不旨在独立地用于帮助确定所要求保护的主题的范围。

附图说明

[0005] 下面将参考附图详细描述本发明,其中:

[0006] 图1是适用于实现本发明的各实施例的示例性计算环境的框图。

[0007] 图2示意性地示出适用于执行本发明的实施例的系统的示例。

[0008] 图3描绘了根据本发明的实施例的方法的流程图。

[0009] 图4描绘了根据本发明的实施例的方法的流程图。

[0010] 图5描绘了根据本发明的实施例的方法的流程图。

具体实施方式

[0011]腿

[0012] 在各实施例中,当接收到搜索查询,搜索引擎可生成多个搜索结果。随后可分析由搜索引擎生成的结果,以标识由该结果指示的实体类别。这一标识可部分地基于该结果中一个或多个面向类别的站点的标识。可进一步分析该结果,以确定意图实体。基于意图实体,可准备对应于该实体的实体卡并与搜索结果一起显示。可任选地,可基于期望实体来排除对所生成的搜索结果中的一个或多个的显示、或将其合并到实体卡中。

[0013] 在以下讨论中,实体卡是指增强的实体专用的信息呈现。实体卡可包括关于实体的各种类型的信息。实体卡可允许响应于搜索查询来向用户呈现这些信息,使得用户不需要筛选文档链接来获得该信息。[0014] 类别樽板

[0015] 确定与搜索查询相关联的用户意图可引起各种问题。一种用于标识用户意图的方法可以是确定搜索查询是否与实体相关。实体可以指代诸如作者、政治家或运动员等类型的个人;诸如电影、书、或消费品等类型的产品;或诸如餐厅、旅馆、娱乐区或零售商店等类型的地方。然而,标识与搜索查询相关的实体也造成了困难。许多常规方法试图建立可与搜索查询中的项进行匹配的实体列表。将这些列表保持最新可能是困难的且耗时的。另外, 与搜索查询相关的实体可能没有被包括在搜索项中。

[0016] 在各实施例中,实体信息可基于响应于搜索查询的搜索结果来动态地确定。可部分地基于标识来自已知与特定类别对应的文档的搜索结果来标识实体。存在试图跟踪各种实体的当前状态的许多网站。例如,跟踪电影、旅馆、消费电子产品或书的多个web位置是可用的。这些站点可被称为面向类别的站点。面向类别的站点通常跟踪感兴趣的具体类别中的当前发展,并可由此提供关于类别内的实体的当前信息。面向类别的站点的数量和 /或身份通常随时间缓慢改变,因此将适当的站点标识为与类别相关可能是可管理的任务。 与统一资源定位符(URL)相关联且来自这些站点中的一个站点的文档与类别相关联的可能性可能增加。

[0017] 对于来自面向类别的站点的文档,可构造一个或多个类别模板。位于面向类别的站点的文档结构在站点上所描述的实体之间常常是一致的。可使用呈现的一致性来构造用于从站点提取信息的模板。例如,提供关于电影的信息的面向类别的站点通常将具有一致的呈现格式。电影导演将按特定方式来标注,诸如标注在文档中的特定地方、或使用与导演姓名相邻的和/或在其上面的标题“导演”来标注。可使用期望的呈现格式来构造用于从文档提取信息的模板。注意,站点可被认为是超过一个类别的面向类型的站点。例如,在线零售商可出售包括消费电子产品、DVD以及计算机游戏等产品。该在线零售商可具有与这些领域中的每一领域对应的一个或多个URL组件。由此,取决于搜索查询,来自在线零售商的文档的外观可与电影类别、游戏类别或消费品类别对应。

[0018] 可以为每一面向类别的站点构造模板。模板可包括至少两个组件。模板的一部分可以是URL组件。URL组件表示URL的初始部分。与URL模板的初始部分匹配的文档可以是来自已知的面向类别的站点的文档。模板的第二组件可以是提取格式组件。提取格式组件提供多个数据字段的规范,包括可针对每一数据字段提取的信息的类型,以及如何提取该信息的规范。可使用任何方便的类型的规范。例如,规范可标识文档中的具体位置,以检索信息,诸如从文档第五行中的第二字段取得一值。或者,规范可以是标签驱动,诸如指定首先标识诸如“标题”或“电影标题”的头部,并且随后取得看上去与头部有某种相关的信息或单词。

[0019] 除了基于面向类别的站点的类别模板以外,可以为类别构造具有开放格式的一个或多个类别模板。可构造开放格式类别模板,以提取与面向类别的站点的模板相同的信息。 开放格式模块可与面向类别的站点的标签驱动的模板相似,因为开放格式模板将被应用于与URL组件不匹配的页面。

[0020] 注意,可将每一开放格式模板应用于每一响应结果、或应用于被标识成与所标识的实体对应的每一响应结果。这可导致从相同文档中提取每一数据字段的多个值。为了使这一数据对每一文档更有用,可执行一致性检测以确定哪个开放格式模板对于提取给定数据字段的数据是成功的。例如,对于给定文档,可将每一字段的多个值与从来自面向类别的站点的文档提取的值作比较。因为偶然匹配的可能性较低,所以匹配值有可能是正确提取的值。另一类型的检查可以是对使用来自其他文档的开放格式模板所提取的值的一致性检查。同样,偶然匹配的可能性较低,因此匹配有可能指示该字段的成功提取。

[0021] 可通过任何方便的方法来确定面向类别的站点。可以手动地标识面向类别的站点。或者,可通过提交应返回类别专用结果的已知搜索来确定面向类别的站点。最频繁地出现的站点可被认为是面向类别的站点。

[0022] 类别以及实体标识

[0023] 当接收到搜索查询时,可使用常规搜索引擎来生成多个响应结果或文档。在以下各实施例中,可分析响应文档的一部分来确定类别或实体信息。该部分可与前10个、或前 20个、或前50个或任何常规数量的响应结果对应。可分析响应文档以确定实体类别。分析的一部分可以是将文档与类别模板的URL组件进行匹配。在一个实施例中,可能需要至少一个URL组件匹配,以便进行实体类别的标识。分析的另一部分可以是将来自搜索结果的元数据与已知项进行匹配。例如,可将诸如“电影”、“零售商”或“影片”等元数据项与电影站点相关联。元数据可与文档的元标签、或与作为搜索结果来显示的文档的字幕、或当文档作为搜索结果来返回时可用的且与文档相关联的任何其他信息相对应。

[0024] 对类别模板或元数据的匹配可随后被加权,以确定针对搜索查询是否与类别相对应的分数。例如,与URL组件匹配的每一文档可对该类别的分数作出贡献。可将额外的权重或分数分配给与URL组件匹配的第一文档。相对于与URL组件匹配的排名较低的搜索结果,可将额外的权重或分数分配给排名较高的搜索结果。相似类型的加权可被用于元数据分析。

[0025] 基于分数可确定搜索的意图类别。例如,如果检测到单个类别的三个或更多URL 组件,则可将查询分配给该类别。如果基于URL组件的匹配而检测到多个类别,则可分配排名最高的类别。在某些实施例中,如果没有检测到URL组件匹配,则可能不存在类别的选择。或者,如果存在一个或更少的URL组件匹配,则可不进行类别的选择。

[0026] 还可分析结果以确定实体是否与搜索查询相关联。在一个实施例中,可首先标识类别,并随后可分析结果以确定实体。在这一实施例中,仅考虑属于所标识的类别的实体。 在另一实施例中,如果没有检测到实体类别,则没有与搜索查询相关联的实体。

[0027] 实体分析的一部分可以是将类别模板应用于来自面向类别的站点的文档。由于文档来自面向类别的站点,所以文档的提取格式有可能是已知的。由此,有可能与实体对应的文档的一部分也有可能是已知的,并且实体可被直接提取。实体分析的另一部分可以是将开放格式类别模板的一个或多个应用于响应结果中不是来自面向类别的站点的文档。例如,许多餐厅评论网站列出餐厅名称连同地址。开放格式模板将试图通过找到与地址对应的一组文本来从未知文档格式中提取餐厅名称。随后可提取紧跟在地址前面的名称作为可能的实体。在分析开放格式文档以检测实体之前类别不被确定的各实施例中,所使用的开放格式模板可与搜索结果中任何面向类别的站点的类别对应。

[0028] 随后可分析从文档中提取的实体数据,以确定与搜索查询相关联的实体是否可被标识。该分析可比较所提取的信息,以确定是否仅存在一个可能的实体、或是否可从若干实体中选择一个实体、或是否存在阻止对实体的确定的歧义。[0029] 某些实体确定可以是相对简单的。例如,类别选择可以已经基于多个面向类别的站点的存在,而面向类别的站点文档中的每一个指示相同的实体。在这一情况中,来自面向类别的站点文档的实体可被选作该实体。

[0030] 在另一示例中,一个或多个文档可来自面向类别的站点,但实体信息的提取产生多个可能的实体。这可按各种方式来解决。一个选项可以是选择在最大数量的面向类别的文档中出现的实体。另一选项可以是选择从最大数量的文档中提取的实体,而不考虑源。这一选项将包括基于开放格式模板来定义的实体。又一选项可以是至少部分地基于从中提取每一实体的文档的排名来选择实体。又一些选项可基于将各权重给予从文档中提取的数据来使用,包括与以上选项中的任一个的组合。

[0031] 再一示例可涉及两个或更多类别由搜索结果来标识的情况。在某些实施例中,可首先确定类别,并随后仅考虑在所选择的类别内的实体。在另一选项中,可根据每一潜在类别来分析每一文档。随后可使用如上所述的用于在多个实体之间进行区分的方法来选择实体。这将导致对应的类别选择。注意,在这一类型的实施例中,类别权重可被包括,作为在决定哪个实体对于搜索查询是最佳匹配时的另一因素。

[0032] 又一选项可涉及在实体之间进行区分需要超过一条信息的情况。例如,许多餐厅是仅有一个位置的本地企业。结果,超过一个城市可能有具有相同名称的餐厅,尽管各餐厅是不同的实体。具有相同名称的多个餐厅实体可被称为具有相同主标识的实体。

[0033] 以上情况可导致具有基于相同主标识的餐厅的评论的多个餐厅评论站点,但每一评论针对不同的餐厅实体。在此情况中,若干URL组件匹配以及其他元数据的存在可清楚地指示餐厅类别,但可能需要进一步确定以选择与搜索查询对应的实体。一个选项是查看类别的附加提取的数据字段。在餐厅的示例中,用于提取的典型附加信息可包括地址和电话号码信息。可对这些字段进行比较以标识共享相同名称的不同餐厅实体。这可被称为比较各实体的次级信息。在基于次级信息在各实体之间进行区分之后,对应于每一不同实体的结果可被分类成对应于每一不同实体的组。可以应用如上所述的方法来确定与搜索查询相关联的实体,诸如通过选择最常发生的实体、选择具有排名最高的文档的实体、或其他方法。

[0034] 在某些实施例中,实体分析可导致没有与查询相关联的实体。例如,如果由于缺乏 URL组件匹配而没有分配类别,则可在该点停止实体分析过程。作为另一选项,可使用评分系统来确定实体,以及对于作出分配而言,没有实体可具有足够高的分数和/或与其他潜在实体足够不同的分数。在以上餐厅示例中,每一餐厅可仅出现在一个文档中。评分系统可能需要在不止一个文档中的出现,以获取对于分配为实体而言足够的分数。或者,两个餐厅可出现在相当数量的文档中,导致两个餐厅具有相似的分数。由于分数不够不同,因此没有实体可被分配给搜索查询。

[0035] 在又一些实施例中,可选择多个实体。在这些实施例中,超过一个实体可满足被选作实体的准则。例如,可选择所有所标识的实体,或可选择具有高于阈值的分数的实体。在这些实施例中,可为所选择的每一实体提取实体信息。多个所选择的实体可来自单个类别, 或者也可标识多个实体类别。例如,可选择对应于书的实体以及对应于电影的实体。可任选地,可为所选择的每一实体显示实体卡。

[0036] 实体卡提取[0037] 在标识实体之后,可从作为搜索结果而返回的文档中提取关于该实体的信息。可使用所提取的信息来生成实体卡。实体卡允许关于意图实体的信息被显示成结果页面的一部分,而无需用户进一步点击或其他动作以寻找该信息。

[0038] 在搜索结果中的至少一个与面向类别的站点对应的各实施例中,可使用适当的类别模板来提取实体卡的信息。所提取的信息的类型可基于类别而变化。可被提取的信息的示例包括位置信息、联系信息以及针对给定实体类型通常被请求的其他信息。例如,电影的实体卡可包括影片长度、导演姓名、以及影片是否为喜剧、戏剧或另一类型的电影。餐厅实体卡可包括食品类型以及价格范围的一般指示。关于运动队的实体卡可包括下一场安排的比赛以及先前比赛的结果。

[0039] 可包括在实体卡中的另一类型的信息是到其他类型的相关内容的一个或多个链接。在某些实施例中,呈现在实体卡中的附加信息可对应于与搜索查询的次级意图相关的信息。例如,与当前影院放映的电影相关的搜索查询有可能提供诸如电影评论和影院位置等结果。相反,影院中不再放映的电影将有可能具有与可购买该电影的副本的商店相关的结果。搜索结果的类型的这一差别可表示搜索查询的次级意图的差别。可使用该次级意图信息来包括与次级意图相关的链接作为实体卡的一部分。包括在实体卡中的链接可与作为来自搜索引擎的结果的一部分的链接对应或不对应。附加链接的性质可取决于实体而变化。对于餐厅,可将链接提供给处理预订的在线站点。对于诸如电影或乐队等体育或娱乐实体,可将链接提供给具有可获得的门票的站点。还可将链接提供给已知为处理该类别的评论的一个或多个第三方评论站点。

[0040] 基于搜索结果来形成实体卡的优点中的一个是信息可被动态地生成。由此,搜索结果中所反映的信息的任何改变也可在实体卡中被自动地更新。然而,动态构造的实体卡可与包含先前获得的信息的静态实体卡结合使用。在无法从搜索结果中提取所需信息的情况中,使用先前获得的信息是有帮助的。

[0041] 在又一实施例中,可标识实体,并且可提供包括所存储的信息的实体卡。在这一实施例中,可使用以上描述的实体标识方法来标识并选择实体。随后可使用对应于所选择的实体的所存储的信息来形成实体卡。

[0042] 基于实体检测的信息放置

[0043] 可使用与实体相关的搜索结果的意图来修改对结果以及相关联的信息的放置和/ 或显示。在确定搜索查询的意图实体之后,结果可被查看以标识与实体有关的任何结果。这些可包括对应于面向类别的站点的结果、包括所标识的实体的名称的结果、或关于所标识的实体没有被成功地提取的附加信息。

[0044] 实体的标识可按各种方式来修改信息的放置。在一个实施例中,实体的标识可导致对与实体相关的广告的选择。可将所选择的广告放置在页面上接近对应于实体的搜索结果的位置。例如,如果对应于所标识的实体的排名最高的搜索结果是七至九,则可将广告放置在接近示出前十个搜索结果的页面的底部。类似地,如果生成了实体卡,则可将实体卡放置在与实体相关的排名最高的搜索结果附近、或接近与实体相关的排名第二高的结果。

[0045] 实体检测另一影响可以是将某些项从搜索结果的显示中移除。例如,可将来自搜索结果的一个或多个文档合并到实体卡。可任选地,可从所显示的搜索结果列表中移除这些结果,因为替代地可经由实体卡对这些文档进行访问。修改结果显示的另一方式可以是显示响应结果的一部分,诸如仅显示与实体或与实体的类别相关的响应结果。在这一实施例中,一旦进行了类别和实体的分配,与类别和/或实体不匹配的结果可从结果显示中被省略。相反,可显示在附加用户动作之后允许用户访问所排除的结果的对象。例如,可提供链接以指示更多与所标识的实体不相关的结果是可用的。这一链接可通过用户点进或通过将指针或光标移动到链接位置上方来访问。另外,可提供具有附加结果的下拉菜单。

[0046] 实体检测的示例

[0047] 在这一假想示例中,用户首先将搜索项“教父”键入搜索引擎中。由这一搜索生成的结果包括来自与电影相关的至少一个面向类别的站点的多个结果。与零售销售和/或视频游戏相关的附加的面向类别的结果也可在搜索结果中。因为面向类别的站点是排名最高的搜索结果,所以类别选择是基于排名最高的面向类别的站点来作出的。结果,类别“电影” 被选择。

[0048] 在选择类别之后,使用面向类别的站点来检测实体。这导致检测到多个实体,因为电影“教父”和电影“教父II”两者都被包括在搜索结果中。基于与“教父II”相比,“教父” 在更多响应结果中被检测到的事实,电影“教父”被选作适当的实体。随后将响应结果连同对应于该电影的实体卡一起呈现给用户。实体卡是基于从响应结果中列出的文档中提取的信息来形成的。

[0049] 在查看所呈现的结果之后,用户将搜索项修改为“教父餐厅”。一组新的搜索结果被生成。在新结果中,评级最前的与一般评论站点对应,该一般评论站点可以是面向类别的但针对许多类别的。许多附加的潜在面向类别的站点被包括在前20个结果内,对应于其他已知评论站点。基于来自评论站点文档的元标签,选择了类别“餐厅”。

[0050] 基于该类别选择,可选择适当的类别模板以分析这两个面向类别的评论站点。还可使用开放格式类别模板来分析其他文档。搜索结果包括位于美国周围的若干不同餐厅、 以及连锁匹萨餐厅。然而,位置数据的唯一重复出现是针对加利福尼亚州的圣地亚哥。列出加利福尼亚州的圣地亚哥地址的文档被分组在一起,并且该实体被选作对应于搜索查询的实体。注意,如果餐厅的每一实例仅出现了一次,则在某些实施例中没有实体将被标识, 因为意图会不清楚。随后可从对应于实体的响应结果中提取关于该实体的附加信息。

[0051] 在简要描述了本发明的各实施例的概览后,现在描述适于执行本发明的示例性操作环境。概括地参考附图,并首先具体参考图1,示出了用于实现本发明的各实施例的示例性操作环境,并将其概括地指定为计算设备100。计算设备100只是合适的计算环境的一个示例,并且不旨在对本发明的使用范围或功能提出任何限制。也不应该将计算设备100解释为对所示出的任一组件或其组合有任何依赖性或要求。

[0052] 本发明的各实施例可以在由计算机或诸如个人数据助理或其它手持式设备之类的其它机器执行的计算机代码或机器可使用指令(包括诸如程序模块之类的计算机可执行指令)的一般上下文中描述。一般而言,包括例程、程序、对象、组件、数据结构等的程序模块指的是执行特定任务或实现特定抽象数据类型的代码。本发明可以在各种系统配置中实施,这些系统配置包括手持式设备、消费电子产品、通用计算机、更专用计算设备等等。本发明也可以在其中任务由通过通信网络链接的远程处理设备执行的分布式计算环境中实施。

[0053] 继续参考图1,计算设备100包括直接或间接耦合以下设备的总线110 :存储器112、一个或多个处理器114、一个或多个呈现组件116、输入/输出(I/O)端口 118、I/O组件120、和说明性电源122。总线110可表示一条或多条总线(诸如地址总线、数据总线、或其组合)。虽然为了清楚起见利用线条示出了图1的各框,但是实际上,各组件的轮廓并不是那样清楚,并且比喻性地来说,线条更精确地将是灰色的和模糊的。例如,可以认为诸如显示设备的呈现组件是I/O组件。另外,许多处理器具有存储器。发明人关于此点认识到这是本领域的特性,并重申,图1的图示只是可以结合本发明的一个或多个实施例来使用的示例性计算设备的例示。诸如“工作站”、“服务器”、“膝上型计算机”、“手持式设备”等分类之间没有区别,它们全部都被认为是在图1的范围之内的并且被称为“计算设备”。

[0054] 计算设备100通常包括各种计算机可读介质。计算机可读介质可以是可由计算设备100访问的任何可用介质,而且包含易失性和非易失性介质、可移动和不可移动介质。作为示例而非限制,计算机可读介质可以包括计算机存储介质和通信介质。计算机存储介质包括以用于存储诸如计算机可读指令、数据结构、程序模块之类的信息或其他数据的任何方法或技术实现的易失性和非易失性、可移动和不可移动介质。计算机存储介质包括,但不限于,随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、闪存或其它存储器技术、CD-ROM、数字多功能盘(DVD)或其它全息存储器、磁带盒、磁带、磁盘存储或其它磁性存储设备、载波或可用于编码所需信息且可以由计算设备100访问的任何其它介质。在一个实施例中,计算机可读介质可以是有形计算机可读介质。在另一实施例中,计算机可读介质可以是非瞬态计算机可读介质。

[0055] 存储器112包括易失性和/或非易失性存储器形式的计算机存储介质。存储器可以是可移动的,不可移动的,或两者的组合。示例性硬件设备包括固态存储器、硬盘驱动器、 光盘驱动器等等。计算设备100包括从诸如存储器112或I/O组件120之类的各种实体读取数据的一个或多个处理器。呈现组件116向用户或其他设备呈现数据指示。示例性呈现组件包括显示设备、扬声器、打印组件、振动组件等等。

[0056] I/O端口 118可允许计算设备100在逻辑上耦合到包括I/O组件120在内的其他设备,这些设备中的一些可以是内置的。说明性组件包括话筒、操纵杆、游戏垫、碟形卫星天线、扫描仪、打印机、无线设备等等。

[0057] 现在转向图2,示出了例示根据本发明的一实施例的示例性计算系统200的框图。 本领域普通技术人员将理解和明白,图2所示的计算系统200仅仅是一个合适的计算系统环境的示例,并且不旨在对本发明的各实施例的使用范围或功能提出任何限制。也不应该将计算系统200解释为对其中所示出的任何单个组件或各组件的组合有任何依赖性或要求。此外,计算系统200可作为独立产品、作为软件开发环境的一部分或其任何组合来提 {共。

[0058] 计算系统200包括经由网络204彼此通信的用户设备206和搜索服务208。搜索服务208可包括搜索引擎212、实体标识组件214、模板存储216以及结果呈现组件218。搜索引擎212可以是用于基于搜索查询来生成响应结果的常规搜索引擎。实体标识组件214 可分析搜索结果以确定类别以及对应于搜索查询的实体。这一分析可部分地通过使用存储在模板存储216中的类别模板来执行。结果呈现组件218可使用由实体标识组件214提供的实体信息来修改响应结果的显示。基于所标识的实体,可将基于实体的标识的广告包括在与关于所标识的实体的结果对应的位置。还可基于所标识的实体来呈现实体卡。[0059] 图3描绘了示出根据本发明的一实施例的方法的流程图。在图3所示的实施例中,获得响应于搜索查询的多个结果310。可从远程搜索引擎中获得结果,或结果可基于接收搜索查询以及生成一组响应结果。可将一个或多个响应结果与对应于一个或多个面向类别的站点的类别模板进行匹配320。在各实施例中,响应结果可都与一个类别模板匹配, 或结果可与来自单个实体类别的各类别模板匹配,或结果可与来自多个实体类别的类别模板匹配。基于一个或多个匹配的响应结果来选择实体类别330。还基于响应结果来标识实体340。在各实施例中,可在选择实体类别330之后标识实体340。随后检索对应于所标识的实体的存储的实体信息350。将所检索的实体信息连同至少一个响应结果合并到实体卡 360。显示不包括所合并的响应结果的响应结果列表370。实体卡也被显示380。注意,在该实施例中,基于合并到所显示的实体卡,所合并的响应结果被排除在响应结果列表以外。

[0060] 图4描绘了示出根据本发明的一实施例的方法的流程图。在图4所示的实施例中, 获得410响应于搜索查询的多个结果。可从远程搜索引擎中获得结果,或结果可基于接收搜索查询以及生成一组响应结果。可将一个或多个响应结果与对应于一个或多个面向类别的站点的类别模板进行匹配420。在各实施例中,响应结果可都与一个类别模板匹配,或结果可与来自单个实体类别的各类别模板匹配,或结果可与来自多个实体类别的类别模板匹配。基于一个或多个匹配的响应结果来选择实体类别430。基于响应结果来标识多个实体 440。在各实施例中,可在选择实体类别430之后标识多个实体440。多个实体各自具有相同的主标识。从响应结果中提取多个实体中的每一个的次级信息450。基于所提取的次级信息来将所标识的实体分类到各实体组460。这一分类可允许是相同实体的所标识的实体被分组在一起,而每一不同实体具有分开的组。随后可选择与搜索查询对应的实体组470。 对于所选择的实体组,可确定对应于该实体组的响应结果。将所选择的实体组的次级信息合并到实体卡中490。显示实体卡以及响应结果的一部分495。响应结果的一部分可排除被确定为对应于实体组的响应结果。

[0061] 图5描绘了示出根据本发明的一实施例的方法的流程图。在图5所示的实施例中,获得响应于搜索查询的多个结果510。可从远程搜索引擎中获得结果,或结果可基于接收搜索查询以及生成一组响应结果。可将一个或多个响应结果与对应于一个或多个面向类别的站点的类别模板进行匹配520。在各实施例中,响应结果可都与一个类别模板匹配,或结果可与来自单个实体类别的各类别模板匹配,或结果可与来自多个实体类别的类别模板匹配。基于一个或多个匹配的响应结果来选择实体类别530。还基于响应结果来标识实体 5400在各实施例中,可在选择实体类别530之后标识实体M0。随后可从响应结果中提取实体信息阳0。可将各实体中的每一个实体的所提取的实体信息合并到实体卡560。可显示多个实体卡570。

[0062] 附加实施例

[0063] 在一个实施例中,提供了存储计算机可使用指令的一个或多个计算机存储介质, 当这些指令由计算机设备执行时,执行用于确定与搜索查询相关联的实体的方法。该方法包括获得响应于搜索查询的多个结果。将多个响应结果匹配到对应于面向类别的站点的多个类别模板。可基于该多个所匹配的响应结果来选择实体类别。基于多个所匹配的响应结果来标识实体。检索关于所标识的实体的存储的实体信息。将所检索的实体信息以及至少一个响应结果合并到实体卡。在搜索结果列表中显示响应结果,该列表不包括该至少一个所合并的响应结果。实体卡也被显示。

[0064] 在另一个实施例中,提供了存储计算机可使用指令的一个或多个计算机存储介质,当这些指令由计算机设备执行时,执行用于确定与搜索查询相关联的实体的方法。该方法包括获得响应于搜索查询的多个结果。将一个或多个响应结果匹配到对应于面向类别的站点的至少一个类别模板。基于一个或多个匹配的响应结果来选择实体类别。标识对应于多个响应结果中所选择的实体类别的多个实体,所标识的每一实体具有相同的主标识。从多个响应结果中提取对应于所标识的每一实体的次级标识信息。基于所提取的次级标识信息来将所标识的实体分类成一个或多个实体组。将实体组选为与搜索查询对应。确定对应于所选择的实体组的一个或多个响应结果。将所选择的实体组的所提取的次级标识信息合并到实体卡中。显示实体卡以及响应结果的一部分,响应结果的该部分排除了所确定的对应于所选择的实体组的实体的一个或多个响应结果。

[0065] 在又一实施例中,提供了用于确定与搜索查询相关联的实体的方法。该方法包括获得响应于搜索查询的多个结果。将一个或多个响应结果匹配到对应于面向类别的站点的至少一个类别模板。基于一个或多个匹配的响应结果来选择一个或多个实体类别。基于多个响应结果来标识多个实体。从多个响应结果中提取对应于多个所标识的实体的实体信息。将多个所标识的实体中的每一个的所提取的实体信息合并到多个实体卡中。显示多个实体卡。

[0066] 参考各具体实施例描述了本发明的各实施例,各具体实施例在所有方面都旨在是说明性的而非限制性的。不偏离本发明范围的情况下,各替换实施例对于本发明所属领域的技术人员将变得显而易见。

[0067] 从前面的描述可以看出,本发明很好地适用于实现上文所阐述的所有目的和目标,并且具有对于该结构是显而易见且固有的其他优点。也可理解特定的特征和子组合是有用的,并且可以加以利用而无需参考其他特征和子组合。这由权利要求所构想的,并在权利要求的范围内。

Claims (15)

1. 一个或多个存储计算机可使用指令的计算机存储介质,当所述指令由计算机设备执行时执行一种用于确定与搜索查询相关联的实体的方法,所述方法包括:获得响应于搜索查询的多个结果(310);将多个响应结果匹配到对应于面向类别的站点的多个类别模板(320); 基于多个所匹配的响应结果来选择实体类别(330); 基于多个所匹配的响应结果来标识实体(340); 检索存储的关于所标识的实体的实体信息(350); 将所检索的实体信息以及至少一个响应结果合并到实体卡中(360); 在搜索结果列表中显示所述响应结果(370),所述列表不包括至少一个所合并的响应结果;以及显示所述实体卡(380)。
2.如权利要求1所述的一个或多个计算机存储介质,其特征在于,选择实体类别包括: 基于多个所匹配的响应结果来选择多个类别的类别分数;以及选择具有最高类别分数的类别。
3.如权利要求1所述的一个或多个计算机存储介质,其特征在于,将多个响应结果匹配到对应于面向类别的站点的多个类别模板包括将文档的统一资源定位符的一部分与类别模板的统一资源定位符组件相匹配。
4.如权利要求1所述的一个或多个计算机存储介质,其特征在于,还包括用从响应结果中提取的附加实体信息来补充所存储的实体信息。
5.如权利要求1所述的一个或多个计算机存储介质,其特征在于,合并至少一个响应结果包括合并至少一个所匹配响应结果。
6.如权利要求1所述的一个或多个计算机存储介质,其特征在于,标识实体包括: 基于所述一个或多个响应结果来生成多个实体的实体分数;以及标识具有最高实体分数的实体。
7. 一个或多个存储计算机可使用指令的计算机存储介质,当所述指令由计算机设备执行时执行一种用于确定与搜索查询相关联的实体的方法,所述方法包括:获得G10)响应于搜索查询的多个结果;将一个或多个响应结果匹配到对应于面向类别的站点的至少一个类别模板G20); 基于一个或多个所匹配的响应结果来选择实体类别G30);标识对应于所述多个响应结果中所选择的实体类别的多个实体G40),每一所标识的实体具有相同的主标识;从所述多个响应结果中提取对应于每一所标识的实体的次级标识信息G50); 基于所提取的次级标识信息来将所标识的实体分类到一个或多个实体组G60); 将实体组选作与所述搜索结果对应G70); 确定对应于所选择的实体组的一个或多个响应结果G80); 将所选择的实体组的所提取的次级标识信息合并到实体卡中G90);以及显示所述实体卡以及所述响应结果的一部分095),所述响应结果的该部分排除了所确定的对应于所选择的实体组的实体的一个或多个响应结果。
8.如权利要求7所述的一个或多个计算机存储介质,其特征在于,确定对应于所选择的实体组的实体的一个或多个响应结果包括标识从其中提取所选择的实体组的次级标识信息的响应结果。
9.如权利要求7所述的一个或多个计算机存储介质,其特征在于,将一个或多个响应结果匹配到对应于面向类别的站点的至少一个类别模板包括将文档的统一资源定位符的一部分与类别模板的统一资源定位符组件相匹配。
10.如权利要求7所述的一个或多个计算机可读介质,其特征在于,还包括:为所选择的实体组标识从多个结果中所提取的具有冲突的所提取的值的至少一个次级标识信息字段;将所存储的值分配给在所提取的实体信息中具有冲突的所提取的值的信息字段。
11.如权利要求7所述的一个或多个计算机可读介质,其特征在于,选择实体组包括从最高数量的响应结果中选择包含所提取的次级信息的实体组、和/或从至少多个文档中选择包含所提取的次级信息的实体组。
12.如权利要求7所述的一个或多个计算机可读介质,其特征在于,从所述一个或多个响应结果中提取次级信息包括基于开放形式类别模板来从一个或多个文档中提取数据字段。
13. 一种用于确定与搜索查询相关联的实体的方法,包括:获得响应于搜索查询的多个结果(510);将一个或多个响应结果匹配到对应于面向类别的站点的至少一个类别模板(520);基于一个或多个匹配的响应结果来选择一个或多个实体类别(530);基于多个响应结果来标识多个实体(540);从多个响应结果中提取对应于多个所标识的实体的实体信息(550);将多个所标识的实体中的每一个的所提取的实体信息合并到多个实体卡中(560);以及显示所述多个实体卡(570)。
14.如权利要求13所述的方法,其特征在于,还包括排除对至少一个不匹配的响应结果的显示。
15.如权利要求14所述的方法,其特征在于,排除对至少一个不匹配的响应结果的显示包括提供至少一个不匹配的响应结果的压缩表示,所述压缩表示需要至少一个附加用户动作以显示所述至少一个不匹配的响应结果,所述至少一个附加用户动作包括点击所显示的对象。
CN 201110164789 2010-06-10 2011-06-09 实体卡的实体检测和提取 CN102393840B (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
US12813390 US9158846B2 (en) 2010-06-10 2010-06-10 Entity detection and extraction for entity cards
US12/813,390 2010-06-10

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN 201610943349 CN107103018A (zh) 2010-06-10 2011-06-09 实体卡的实体检测和提取

Publications (2)

Publication Number Publication Date
CN102393840A true true CN102393840A (zh) 2012-03-28
CN102393840B CN102393840B (zh) 2017-01-18

Family

ID=45097081

Family Applications (2)

Application Number Title Priority Date Filing Date
CN 201610943349 CN107103018A (zh) 2010-06-10 2011-06-09 实体卡的实体检测和提取
CN 201110164789 CN102393840B (zh) 2010-06-10 2011-06-09 实体卡的实体检测和提取

Family Applications Before (1)

Application Number Title Priority Date Filing Date
CN 201610943349 CN107103018A (zh) 2010-06-10 2011-06-09 实体卡的实体检测和提取

Country Status (2)

Country Link
US (2) US9158846B2 (zh)
CN (2) CN107103018A (zh)

Families Citing this family (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20120246154A1 (en) * 2011-03-23 2012-09-27 International Business Machines Corporation Aggregating search results based on associating data instances with knowledge base entities
US9959326B2 (en) 2011-03-23 2018-05-01 International Business Machines Corporation Annotating schema elements based on associating data instances with knowledge base entities
US8504561B2 (en) * 2011-09-02 2013-08-06 Microsoft Corporation Using domain intent to provide more search results that correspond to a domain
US8856109B2 (en) * 2012-06-21 2014-10-07 Microsoft Corporation Topical affinity badges in information retrieval
US9727545B1 (en) * 2013-12-04 2017-08-08 Google Inc. Selecting textual representations for entity attribute values
US20150317945A1 (en) * 2014-04-30 2015-11-05 Yahoo! Inc. Systems and methods for generating tinted glass effect for interface controls and elements
US9582482B1 (en) 2014-07-11 2017-02-28 Google Inc. Providing an annotation linking related entities in onscreen content
US9965559B2 (en) 2014-08-21 2018-05-08 Google Llc Providing automatic actions for mobile onscreen content
US20160092082A1 (en) * 2014-09-29 2016-03-31 Apple Inc. Visualizing Relationships Between Entities in Content Items
US9965474B2 (en) 2014-10-02 2018-05-08 Google Llc Dynamic summary generator
US9703541B2 (en) 2015-04-28 2017-07-11 Google Inc. Entity action suggestion on a mobile device

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20030177132A1 (en) * 2002-03-16 2003-09-18 Thomas Denise Marie Healthcare organization central record and record identifier management system
US6735585B1 (en) * 1998-08-17 2004-05-11 Altavista Company Method for search engine generating supplemented search not included in conventional search result identifying entity data related to portion of located web page
US20080065597A1 (en) * 2006-08-25 2008-03-13 Oracle International Corporation Updating content index for content searches on networks
US20080263022A1 (en) * 2007-04-19 2008-10-23 Blueshift Innovations, Inc. System and method for searching and displaying text-based information contained within documents on a database
CN101454750A (zh) * 2006-03-31 2009-06-10 谷歌公司 命名实体的消歧
US20090187553A1 (en) * 2008-01-21 2009-07-23 Suman Kumar Sarkar Method and system for facilitating verification of an entity based on business requirements

Family Cites Families (25)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6144958A (en) 1998-07-15 2000-11-07 Amazon.Com, Inc. System and method for correcting spelling errors in search queries
US7096218B2 (en) 2002-01-14 2006-08-22 International Business Machines Corporation Search refinement graphical user interface
US20040049514A1 (en) * 2002-09-11 2004-03-11 Sergei Burkov System and method of searching data utilizing automatic categorization
US7613687B2 (en) * 2003-05-30 2009-11-03 Truelocal Inc. Systems and methods for enhancing web-based searching
US7536382B2 (en) 2004-03-31 2009-05-19 Google Inc. Query rewriting with entity detection
US7949642B2 (en) 2004-10-12 2011-05-24 Wendy W Yang System and method for managing and presenting entity information
US8719244B1 (en) * 2005-03-23 2014-05-06 Google Inc. Methods and systems for retrieval of information items and associated sentence fragments
US20070100650A1 (en) 2005-09-14 2007-05-03 Jorey Ramer Action functionality for mobile content search results
US20100121705A1 (en) * 2005-11-14 2010-05-13 Jumptap, Inc. Presentation of Sponsored Content Based on Device Characteristics
US7822762B2 (en) 2006-06-28 2010-10-26 Microsoft Corporation Entity-specific search model
US7685201B2 (en) 2006-09-08 2010-03-23 Microsoft Corporation Person disambiguation using name entity extraction-based clustering
US7698259B2 (en) 2006-11-22 2010-04-13 Sap Ag Semantic search in a database
US7555478B2 (en) * 2006-12-05 2009-06-30 Yahoo! Inc. Search results presented as visually illustrative concepts
US20080222105A1 (en) 2007-03-09 2008-09-11 Joseph Matheny Entity recommendation system using restricted information tagged to selected entities
US7917489B2 (en) * 2007-03-14 2011-03-29 Yahoo! Inc. Implicit name searching
US7698261B1 (en) 2007-03-30 2010-04-13 A9.Com, Inc. Dynamic selection and ordering of search categories based on relevancy information
GB0921614D0 (en) 2007-06-28 2010-01-27 Taptu Ltd Interactive web scraping of onine content for search and display on mobile dev ices
KR20090012467A (ko) 2007-07-30 2009-02-04 한국과학기술정보연구원 Uri 데이터베이스를 이용한 통합 검색 시스템 및 방법
CN101494617B (zh) 2008-01-23 2010-12-15 华为技术有限公司 一种内容分类的方法、系统及装置
US20090192983A1 (en) 2008-01-28 2009-07-30 Yahoo! Inc. Method and system for mining, ranking and visualizing lexically similar search queries for advertisers
US8135707B2 (en) 2008-03-27 2012-03-13 Yahoo! Inc. Using embedded metadata to improve search result presentation
US20090327223A1 (en) 2008-06-26 2009-12-31 Microsoft Corporation Query-driven web portals
US8484211B2 (en) 2008-07-02 2013-07-09 Lexisnexis Risk Solutions Fl Inc. Batch entity representation identification using field match templates
US20100121842A1 (en) 2008-11-13 2010-05-13 Dennis Klinkott Method, apparatus and computer program product for presenting categorized search results
US8458171B2 (en) 2009-01-30 2013-06-04 Google Inc. Identifying query aspects

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6735585B1 (en) * 1998-08-17 2004-05-11 Altavista Company Method for search engine generating supplemented search not included in conventional search result identifying entity data related to portion of located web page
US20030177132A1 (en) * 2002-03-16 2003-09-18 Thomas Denise Marie Healthcare organization central record and record identifier management system
CN101454750A (zh) * 2006-03-31 2009-06-10 谷歌公司 命名实体的消歧
US20080065597A1 (en) * 2006-08-25 2008-03-13 Oracle International Corporation Updating content index for content searches on networks
US20080263022A1 (en) * 2007-04-19 2008-10-23 Blueshift Innovations, Inc. System and method for searching and displaying text-based information contained within documents on a database
US20090187553A1 (en) * 2008-01-21 2009-07-23 Suman Kumar Sarkar Method and system for facilitating verification of an entity based on business requirements

Also Published As

Publication number Publication date Type
CN102393840B (zh) 2017-01-18 grant
US20160034471A1 (en) 2016-02-04 application
US20110307483A1 (en) 2011-12-15 application
CN107103018A (zh) 2017-08-29 application
US9158846B2 (en) 2015-10-13 grant

Similar Documents

Publication Publication Date Title
Gupta et al. Survey on social tagging techniques
US20110213655A1 (en) Hybrid contextual advertising and related content analysis and display techniques
US20110282860A1 (en) Data collection, tracking, and analysis for multiple media including impact analysis and influence tracking
Lacerda et al. Learning to advertise
US7568148B1 (en) Methods and apparatus for clustering news content
Liu et al. Tiara: Interactive, topic-based visual text summarization and analysis
US8438163B1 (en) Automatic learning of logos for visual recognition
US20050251496A1 (en) Method and apparatus for categorizing and presenting documents of a distributed database
Dai et al. Detecting online commercial intention (OCI)
US8356248B1 (en) Generating context-based timelines
US20120150850A1 (en) Search result relevance by determining query intent
US7542610B2 (en) System and method for use of images with recognition analysis
US20090208116A1 (en) System and method for use of images with recognition analysis
US20090148045A1 (en) Applying image-based contextual advertisements to images
US20130191723A1 (en) Web Browser Device for Structured Data Extraction and Sharing via a Social Network
US20090204598A1 (en) Ad retrieval for user search on social network sites
US8065611B1 (en) Method and system for mining image searches to associate images with concepts
US20120259882A1 (en) Mining for Product Classification Structures for Intenet-Based Product Searching
US20120290910A1 (en) Ranking sentiment-related content using sentiment and factor-based analysis of contextually-relevant user-generated data
US20120158693A1 (en) Method and system for generating web pages for topics unassociated with a dominant url
US20100125502A1 (en) Method and system for identifying web documents for advertisements
CN101364239A (zh) 一种分类目录自动构建方法及相关系统
US20100211551A1 (en) Method, system, and computer readable recording medium for filtering obscene contents
US20100125531A1 (en) System and method for the automated filtering of reviews for marketability
CN101963966A (zh) 一种为搜索结果添加标签的搜索结果分类方法

Legal Events

Date Code Title Description
C06 Publication
C10 Entry into substantive examination
C41 Transfer of patent application or patent right or utility model
ASS Succession or assignment of patent right

Owner name: MICROSOFT TECHNOLOGY LICENSING LLC

Free format text: FORMER OWNER: MICROSOFT CORP.

Effective date: 20150803

C14 Grant of patent or utility model