CN103488663A

CN103488663A - 自动检测和交互显示来自多模态自然语言源的关于实体、活动和事件的信息的系统和方法

Info

Publication number: CN103488663A
Application number: CN201310122395.8A
Authority: CN
Inventors: V·卡斯泰利; R·弗洛利安; 罗小强; H·拉格哈万
Original assignee: International Business Machines Corp
Current assignee: International Business Machines Corp
Priority date: 2012-06-11
Filing date: 2013-04-10
Publication date: 2014-01-01
Also published as: US20130332450A1; US20170140057A1; US10698964B2

Abstract

提供了一种用于由处理装置从多个数据源自动提取和组织信息的方法。把包括自动实体检测的自然语言处理信息提取流水线施加到数据源。通过分析自然语言处理流水线的产物来识别有关检测的实体的信息。把识别的信息分组到包含等价信息的等价类。创建等价类的至少一个可显示表示。计算至少一个可显示表示被显示的顺序。生成考虑了可显示表示被显示的顺序的等价类组合显示。

Description

自动检测和交互显示来自多模态自然语言源的关于实体、活动和事件的信息的系统和方法

关于联邦赞助研发的声明

利用政府资助做出了本发明，其受到（由国防部高级研究计划局（DARPA）授予的）第HR0011-08-C-0110号合同的约束。政府在此发明中有一定权利。

技术领域

本公开涉及信息技术，尤其涉及自然语言处理（NLP）系统。

背景技术

新闻机构、博客、twitter、科学期刊和会议全都产生文本、音频和视频形式的极大量的非结构化数据。可以从多种语言的多种模态（例如互联网文本、音频和视频源）收集大量的这种非结构化数据和信息。需要分析信息并生成以下各项的简洁表示：1）诸如特定实体（比如人，组织，国家）的行动的信息；2）活动（例如总统选举运动）；以及3）事件（例如名人的去世）。目前，可以手动生成这些表示，但是此解决方法不经济，并且尤其是从多种语言收集信息时它需要有技能的工作人员。这些手动生成的表示一般也不是可伸缩的。

发明内容

本公开的示范性实施例提供了自动提取和组织数据的方法，使用户能够交互查看有关实体、活动和事件的信息。

根据示范性实施例，信息可以从多种模态和多种语言实时地自动提取，并显示为检索到的信息的可导航且简洁的表示形式。

示范性实施例可采用自然语言处理技术来自动分析来自多种模态和多种语言的多个源的信息，这些源包括但不限于网页、博客、新闻组、无线电馈送、视频和电视。

示范性实施例可使用把外语源翻译成用户的语言的自动机器翻译系统的输出，以及可使用来自把视频和音频馈送转换成文本的自动语音转录系统的输出。

示范性实施例可采用包括信息提取工具、问答工具和提炼（distillation）工具的自然语言处理技术来自动分析如上所述生成的文本，并提取可搜索且可概括的信息。系统可执行名称实体检测、跨文档共指消解（co-reference resolution）、关系检测以及事件检测和跟踪。

示范性实施例可采用自动相关性检测技术和冗余减少方法来向用户提供相关且非冗余的信息。

示范性实施例可通过为用户提供用来指定感兴趣的实体、活动或事件（例如：通过键入自然语言查询，通过从自动生成的满足用户指定要求的实体（例如，用户指定的时间段内在数据源中突出记载的实体）的列表中选择实体，通过浏览文章来选择文本段，或者通过从在指定的时间段内自动检测的事件/话题的表示来选择事件或话题）的装置来把期望的信息显示为简洁且可导航的表示形式。

示范性实施例可通过适应性地构建与推断的用户意图最佳匹配的模板来响应于用户查询而自动生成页面（例如，如果用户选择作为政治家的人，则系统会检测此事实，搜索关于该人的选举运动、公开露面、声明和公共服务历史的信息；如果用户选择公司，则系统会搜索有关该公司的近期新闻，有关该公司的高级官员的信息，新闻发布稿，等等）。

根据示范性实施例，如果用户选择事件，则系统可以搜索有关该事件的新闻项目、对事件的反应、事件的结果以及相关事件。系统可自动检测事件中牵涉的实体，例如人、国家、地方政府、公司和组织，并检索与这些实体有关的相关信息。

示范性实施例可允许用户跟踪在生成的页面上出现的实体，包括根据可获得的数据自动生成人的简历，以及列出从可获得的数据自动提取的组织的近期行动。

示范性实施例可允许使用户查看出现在页面上的事件或活动，包括自动建立正在进行的事件中的重要时刻的时间表。

示范性实施例可允许用户查看实体和事件之间的联系（例如，提供关于公司在事件中的角色的信息，列出个人关于话题的语录，描述两个公司间的关系，总结两人之间的会面或接触以及可选地检索所需实体的图像）。

根据示范性实施例，提供了一种用于由处理装置从多个数据源自动提取和组织信息的方法。包括实体的自动检测的自然语言处理信息提取流水线被施加到数据源。通过分析自然语言处理流水线的产物来识别关于所检测的实体的信息。识别的信息分组成包含等价信息的等价类。创建等价类的至少一种可显示表示。计算至少一种可显示表示被显示的顺序。生成考虑了可显示表示被显示的顺序的等价类组合表示。

每个等价类都可包括项的集合。每项都可包括从文档提取的一段文本和有关从该段文本导出的所需实体的信息的规范（specification）。

计算可显示表示被显示的顺序可以包括随机计算顺序。

把识别的信息分组成等价类可以包括把各识别的信息分配到单独的等价类。

把识别的信息分组成等价类可以包括计算每个等价类的代表性实例，确保不同类的代表性实例相互不是冗余的，以及确保每个等价类的实例相对于该等价类的代表性实例是冗余的。

根据示范性实施例，提供了一种用于由处理装置处理信息的方法。接收到用户查询。根据用户查询推断出用户查询意图，以形成推断的用户意图。通过利用包括文本、音频和视频中的至少一个的多种模态的自然处理适应性地构建与推断的用户意图对应的模板，响应于用户查询而自动生成页面。

当用户查询选择具有政治身份的人时，可搜索该政治身份，可搜索关于选举运动、公开露面、声明和公共服务历史中的至少一个的信息，以及可自动生成响应于用户查询的页面。

当用户查询选择公司时，可搜索有关该公司的近期新闻、该公司的高级官员的信息和公司的新闻发布稿中的至少一个的信息，以及可自动生成响应于用户查询的页面。

当用户查询选择事件时，可以搜索有关该事件的新闻项目和对事件的反应中至少一个的信息，以及可自动生成响应于用户查询的页面。

可识别和搜索事件中的实体和关于这些实体的检索的相关信息。

根据示范性实施例，提供了一种由处理装置从具有多个语言的多种信息模态的文档语料库自动提取和组织信息以供显示给用户的方法。浏览文档语料库，以识别和增量地（incrementally）检索包含音频/视频文件的文档。来自音频/视频文件的文本被转录，以提供文本表示。外语的文本表示的文本被翻译。关于实体、活动和事件中的至少一个的所需信息被增量地提取。组织提取的信息。组织好的提取信息被转换成可展示给用户的可导航显示。

增量地提取所需信息可包括：把自然语言处理流水线施加到各文档，以遍历语料库中检测的所有实体，以及识别牵涉到选择的实体的关系表述（mention）和事件表述，其中实体是下面各项的至少一个：物理生命体、物理无生命体、具有专有名称的事物、具有可度量的物理属性的事物、法人实体和抽象概念，表述是提到实体的一段文字，关系是两个实体间的联系，关系表述是描述关系的一段文字，以及事件是牵涉一个或多个行动的两个或更多个实体之间的关系集合。

组织提取的信息可包括：遍历语料库中识别的所有实体，把提取的关于实体的信息分成包含等价信息的所选等价类，遍历所有等价类，选择每个等价类中的一项来代表该等价类中的所有项，以及记录有关该等价类和有关选择用来生成可导航显示的代表的信息，其中每个等价类都可包括项的集合，每项都具有从文档提取的一段文本和有关从该段文本导出的所需实体的信息的规范。

把组织好的提取信息转换成可展示给用户的可导航显示可以包括：通过向等价类分配该类中各条信息的最高分数、它的成员的平均分数、它的成员的中值分数和它的成员的分数之和中的至少一个来给信息的各等价类评分，按分数降序排序各等价类，以安排等价类显示给用户的顺序的优先次序，对每一等价类进行遍历，构建选择的实例的可显示表示，以及把可显示表示进行组合来生成等价类的可显示表示。

可显示表示可以包括包含用可视化高亮标记的提取信息的段落。

根据示范性实施例，提供了一种包含可由处理器执行以便交互显示来自多模态自然语言源的有关实体、活动和事件的信息的指令的非暂时性计算机程序存储装置。信息提取模块包括用于从文本和音频/视频下载文档内容、用于对文档内容进行分析、用于检测表述、用于共指（co-reference）、用于跨文档共指以及用于提取关系的指令代码。信息收集模块包括用于从信息提取模块提取熟人、简历和事件介入的指令代码。信息显示模块包括用于显示来自信息收集模块的信息的指令代码。

信息提取模块还可包括用于转录来自视频源的音频和用于把非英语的转录音频翻译成英语文本的指令代码。

信息提取模块可包括用于把同一实体下的表述聚类以及用于跨文档链接实体聚类的指令代码。

信息收集模块可包括用于输入句子和实体以及从该句子提取有关该实体的特定信息的指令代码。

信息显示模块可包括用于把结果分组成非冗余的集合、排序各集合、生成每个集合的简要说明、为每个集合选择代表性片断（snippet）、高亮显示该片断的包含有关特定选项卡（tab）的信息的部分、构建到其他页面的导航超级链接以及生成用来图形化表现选项卡内容的数据的指令代码。

根据示范性实施例，提供了一种包含可由处理器执行以便自动提取和组织来自多个数据源的信息的指令的非暂时性计算机程序存储装置。提供了用于向数据源施加包括实体的自动检测的自然语言处理信息提取流水线的指令代码。提供了用于通过分析自然语言处理流水线的产物来识别有关检测的实体的信息的指令代码。提供了用于把识别的信息分组成包含等价信息的等价类的指令代码。提供了用于建立等价类的至少一个可显示表示的指令代码。提供了计算至少一个可显示表示被显示的顺序的指令代码。提供了用于生成考虑了所述可显示表示被显示的顺序的等价类组合显示的指令代码。

附图说明

根据下面结合附图进行的详细说明，将更清楚地理解示范性实施例，其中：

图1示出了根据示范性实施例的操作步骤序列；

图2示出了根据图1的操作步骤的一部分的操作步骤序列；

图3示出了根据图2的操作步骤的一部分的操作步骤序列；

图4示出了根据图1的操作步骤的一部分的操作步骤序列；

图5示出了根据图1的操作步骤的一部分的操作步骤序列；

图6示出了根据示范性实施例的示范性实体页面；

图7(a)和7(b)示出了用于新闻广播应用的示范性实体页面；以及

图8示出了根据示范性实施例的用于执行操作步骤序列的程序存储装置和处理器。

具体实施方式

现在将更详细地提到示范性实施例，在附图中示出了示范性实施例的例子，其中类似的附图标记始终指代类似的元件。

示范性实施例中，术语“文档”可指不考虑格式的文本文档、包括流式音频和视频的媒体文件以及上面的混合（例如嵌有视频和音频流的网页）。

示范性实施例中，术语“语料库”指多媒体文档的正式或非正式集合，多媒体文档例如是科学期刊中发表的所有论文或者由讲阿拉伯语的国家中的新闻机构发表的所有英语网页。

示范性实施例中，术语“实体”可指物理生命体（比如人）、物理无生命体（比如建筑物）、有专有名称的事物（比如珠穆朗玛峰）、具有可度量的物理属性的事物（比如，时间点或时间段、公司、镇、国土）、法人实体（比如国家）和抽象概念（比如度量单位和物理属性的度量）。

示范性实施例中，术语“表述”表示提到实体的一段文字。给定大的结构化文档集，实体可与在该结构化文档集中出现的所有它的表述的集合相关联，因此术语实体也可用来表示此集合。

示范性实施例中，术语“关系”指两个实体间的联系（例如，巴拉克·奥巴马是美国总统；米歇尔·奥巴马和巴拉克·奥巴马结婚了）。关系表述是明确描述关系的一段文字。因此，关系表述涉及到两个实体表述。

示范性实施例中，术语“事件”指牵涉一种或多种行动的、两个或更多个实体之间的关系集合。

图1示出了可应用于由新闻机构创建的网页组成的并包含多个语言的多种信息模态的新闻文档语料库的一个示范性实施例的概观。在步骤110中以有条理的自动方式浏览（即爬行）多模态语料库100，其中语料库中的多模态文档被识别和增量地检索。这种爬行可以增量的方式进行，这种情况下，它会仅检索在此前的爬行操作期间不可获得的文档。接着在步骤120，通过转录分析包含音频信息的文档，例如音频文件或带音频的视频文件。步骤120后，可获得所有多模态文档的文本表示。在翻译步骤130，外语的文本被翻译。结果是包含所需语言的文档以及其源语言中的其原始版本的多模态语料库的文本表示140。

在步骤150中增量地分析语料库的文本表示140，该步骤提取有关实体、活动和事件的所需信息（信息提取（IE））。步骤160中组织所提取的信息，并且把组织好的信息转换成呈现给用户的可导航显示形式。

图2示出了根据示范性实施例、增量地提取有关实体、活动和事件的信息的步骤150的IE过程。步骤210包括把自然语言处理流水线施加到集合的各文档。可随着新文档添加到语料库增量地施加流水线。步骤220遍历语料库中检测的所有实体。可通过随着新文档被添加到语料库遍历仅仅新文档中检测的实体来增量地应用步骤220。步骤230识别牵涉由步骤220选择的实体的由步骤210提取的关系表述。步骤240识别牵涉由步骤220选择的实体的表述的事件表述。步骤250提取关于由步骤220选择的实体的信息。

图3示出了图2中描绘的自然语言处理流水线步骤210的例子。文本清理步骤310从文本清除无关的字符，例如格式字符、超文本标记语言（HTML）标签等。分词（tokenization）步骤320分析清理过的文本并识别词和句子的边界。词性标记步骤330把每个词与描述其语法功能的标签联系起来。表述检测步骤340识别分词的文本中的实体表述和指示事件存在的词语（称为事件锚）。分析步骤350提取每个句子的层级语法结构，且通常把它表示成一颗树。语义角色标记步骤360识别由分析步骤350提取的树中每个节点如何与该句中的每个动词语义上关联。共指消解步骤370识别由表述检测340生成的表述所属的实体。关系提取步骤380检测实体表述对之间以及实体表述与事件锚之间的关系。本领域普通技术人员会理解，这些步骤可采用公知的统计方法、规则或其组合来实施。

图4示出了根据图1的步骤160的组织有关实体的信息的示范性实施例。

步骤410遍历语料库中识别的所有实体。步骤410的增量实施例包括随着新文档添加到语料库遍历新文档中识别的所有实体。

步骤420把提取的有关由遍历步骤410选择的实体的信息分成包含等价或冗余信息的等价类。在示范性实施例中，每个等价类将包括项的集合，其中每项包括从文档提取的一段文本和有关从该段文本导出的所需实体的信息的规范。本领域普通技术人员会理解，这些等价类可以是互不相交的，或者可能是重叠的，其中同一项可属于一个或多个等价类。

步骤430遍历由步骤420生成的等价类。

步骤440将在类中选择最能代表该类中所有项的一项。选择步骤440采用的选择标准可包括但不限于：选择在等价类中出现的最常见的文本段（例如，段“美国总统巴拉克·欧巴马”比“巴拉克·欧巴马，美国总统”更常见，且根据此选择标准，会被选取为描述“巴拉克·欧巴马”与“美国”的关系的代表段），选择传达了最大量的信息的文本段（例如，“巴拉克·欧巴马是美国的第44届且在任的总统”比“美国总统巴拉克·欧巴马”传达了更多有关“巴拉克·欧巴马”与“美国”之间关系的信息，且根据此标准会被选取为代表），以及选择具有由提取步骤150生成的最高分数的文本段（如果该步骤把分数与其结果联系）。

步骤450记录有关等价类和有关由步骤440选择的代表的信息，使得该信息可被图1的后续步骤170利用。图4中示出的方法可适应于这种情形：等价类可重叠，而仍然需要例如通过优化过程来选择用于不同类的不同代表，该优化过程会组合上面列举的选择标准或者具有会有利于选择重叠等价类的不同代表的差异性度量的等价选择标准中的一个或多个。

在步骤420的一个示范性实施例中，提取的信息的各个实例可包括来自文档的段（等效于段落）以及有关从该段提取的所需实体的信息的规范。此规范可包括属性值对的集合、研究描述框架（RDF）三元组的集合、关系数据库中的关系集合等。规范可采用诸如可扩展标记语言（XML）的描述语言、采用RDF表示语言、采用数据库等来表示。

步骤420可包括识别满足两个条件的提取信息的实例组：第一个条件是每组都包含至少一个实例（主实例），在给定该实例的情况下该组中所有其他实例是冗余的；第二个条件是不同组的主实例彼此不是冗余的。可采用传统的聚类算法或增量聚类算法来实现该结果。

图5示出了用于构建关于实体的且根据图4中描绘的方法收集的信息的可显示表示的图1的步骤170的方法的一个示范性实施例。

步骤510中，例如，通过把等价类中各条信息的最高分数分配给该等价类，给步骤420生成的信息的等价类评分。或者，其他量可用作等价类的分数，例如：其成员的平均分，其成员的中值分，其成员的分数之和，等等。根据图5中描绘的方法，分数被用来安排等价类显示给用户的顺序的优先次序。

步骤520把等价类按分数降序排序。

步骤530选择每个等价类。针对选择的等价类的所有实例（步骤540），步骤550构建从等价类选择的实例的可显示表示。在一个示范性实施例中，这种可显示表示包括含有用可视化高亮适当标记的提取的信息的段落。这种可视化高亮可包括用来区分提取的信息的颜色。此外，可显示表示可能包括可视化提示，以容易地识别存在信息页的其他实体。

步骤560把步骤550生成的表示组合起来，以生成等价类的可显示表示。在一个示范性实施例中，此步骤包括显示等价类的代表实例和提供用于显示其他成员的手段（例如，通过提供至这些成员的表示的链接）。

现在参考图6，示出了描绘个人Leon Panetta的实体的一个示范性页面（即实体页（EP））。页面划分成左右部分。左部分的两个框包含从维基百科因特网百科全书或者其他可靠信息源分别自动提取的图片和简历信息。右部分包含按照其传达的信息的种类组织文本的相关小段（片断）的一组选项卡。各选项卡中的内容是下面进一步详述的一系列信息提取模块的输出。各选项卡还示出了其内容的内容图形概要。

下面示出的表1概括了由各选项卡中的文本片断传达的信息。

表1在按照实体类型组织的GUI选项卡中包含的信息的说明

由在配置文件中指定的信息收集模块（IGM）的集合选择这些片断。典型的IGM基于机器学习模型，这在下面进一步说明。各IGM还把相关性分数与各片断关联。

为了组装选项卡内容，由IGM选择且评分的片断由配置文件中指定的合适的信息显示模块（IDM）分析。IDM把用于选项卡的具有相同信息的片断分组到同一等价类中。IDM把分数与各等价类关联，并根据分数来对类进行排序。

为了可视化每个等价类，IDM生成标题（是其传达的信息的简短表示），并选择代表性片断。它们高亮显示代表性片断的含有对选项卡来说感兴趣的信息的部分，并创建到片断中提到的其他实体的页面的链接。通过点击标记为“附加支持结果…”的链接，显示等价类中的附加句子。由于新闻机构经常过段时间重复使用相同的句子，因此通过点击“其他相同结果”，可获得这些句子。

IDM生成用来产生所选选项卡中的内容的可视化概要的数据，如GUI的上半部的最右侧框所示。对于图6中描绘的“有关的人”选项卡，该可视化是关系的网络。对于其他选项卡，它是选项卡中的实词的云。

该界面不仅可用于新闻中实体的分析跟踪，而且可用于有关公司的新闻之后财经分析，或者web用户获取每日新闻更新。信息的冗余检测和系统组织使内容易于消化吸收。

在新闻浏览应用中，可在文章中高亮显示实体，如图7(a)所示，并且存在EP（即，存在用于至少一个选项卡的相关片断）的那些实体被超文本链接到EP。用户还可通过查看可搜索的实体列表来到达该EP，所述这实体列表是按字母表顺序或者如图7(b)所示按在新闻中出现的频率排列的。

图8示出了程序存储装置600的一个示范性实施例的概况，其中示出了装置中包含的用于IE、IGM和IDM的指令代码。处理器700执行在程序存储装置600中存储的指令代码。

如前所述的爬行器（crawler）可以从文档610中的一组英语文本、阿拉伯语文本及视频站点周期性地下载新的内容。来自视频源的音频可分段成2分钟时段的区块，然后被转录。可采用最先进的机器翻译系统把阿拉伯语翻译成英语。表2列出了基于每日的、来自各模态-语言对的平均文档数量。

表2不同模态的每天由爬行器下载的文章的数量

流水线中的后续部件运行在英语文本文档上，且该框架可容易地扩展到存在翻译和转录系统的任何语言。

可由IE流水线620分析每个新的文本文档610。分词后的第一个步骤是分析，然后是表述检测。每个文档内，通过文档内共指消解算法来对表述进行聚类。因此，在适当的上下文中，“华盛顿”和“白宫”分组为同一实体（美国），以及“Leon Edward Panetta”和“Leon Panetta”分组为同一人（国防部长）。名词性和代词性表述也被添加到聚类。然后跨文档共指（co-reference）系统跨文档链接实体聚类。这是通过把每个聚类链接到由维基百科因特网百科全书的子集导出的文本分析会议（TAC）实体链接任务中所采用的知识库（KB）完成的。如果在KB中找到匹配，则把匹配的KB ID分配给该聚类，这使得能够进行跨文档的实体共指。除了与KB中的标题精确匹配外，跨文档共指系统采用软匹配特征和上下文信息来进行匹配，以免受到拼写变化和替代名称的影响。系统还进行名称相同的实体之间的消歧（disambiguate）。下一IE部件提取文档中实体之间的关系，例如由某某雇佣，某某的儿子等。在根据出自语言理解和提取的知识（KLUE）2本体论所标记的1301个文档的内部注释集上训练表述检测、共指和关系提取模块。在33个文档的开发集（development set）上，这些部件分别实现了71.6%、83.7%和65%的F1。实体链接部件是无监督的，且在TAC-2009人查询上实现了73%的准确度。

然后，由上述的IGM630和IDM640分析注释的文档。在其基本的形式下，IGM把句子和实体作为输入，且从该句子提取有关该实体的特定信息。例如，特定的IGM可检测输入的句子中是否记载了给定人的家庭关系。表1中示出了IGM的部分列表和提取内容的描述。接着，由IDM分析IGM的输出，它把GUI选项卡的内容进行组装。这些选项卡或者对应于来自试点项目的问题模板，或者根据上述关系导出。对于每个实体，IDM选择性地挑选由IGM生成的注释，把它们分组成等价类，对等价类排序来安排显示给用户的信息的优先次序，以及组装选项卡的内容。下面，更进详细地描述IGM和IDM。

IGM分两步从特定的句子提取关于给定实体的特定信息：首先，它们检测是否片断包含相关信息。然后，它们识别信息含金量（nugget）。

片断相关性检测依赖于统计分类器，它是在作为试点项目的一部分而生成的三个语料库上被训练的：i）在项目的早年期间由语言数据联盟(LDC)提供给试点项目团队的数据；ii)由BAE系统提供的数据；以及iii）内部注释的数据。数据包括查询和带二元相关性注释的片断。LDC和内部注释的数据是为训练和测试目的特别开发的，而BAE数据还包括根据年度评估的查询、由参与评估的团队提供的回答以及回答的官方判断。统计模型是最大熵分类器或基于实验性能选择的平均感知器。它们采用包括词法、结构、句法、依存和语义特征的宽的特征阵列。表3总结了运行在内部生成的开发集上的、第4年非隔离（unsequestered）查询上使用的模型的性能。“TN”列表示模板号。

表3：IGM模型的性能

IGM分析由模板模型选择的片断并提取IDM使用的信息，以便组装结果和使其可视化。此步骤称为“信息含金量提取”，其中信息含金量是对特定问题的原子（atomic）回答。提取的含金量包括：回答的焦点（例如，人访问的地点），支持文本（片断的子集），回答的概要（从片断取得或自动生成）。不同的模块提取特定类型的含金量。这些模型可以是简单的基于规则的系统或全统计模型。每个选项卡采用一组不同的含金量提取器，这些含金量提取器可易于组装和配置，以产生系统的定制版本。

IDM采用由IGM生成的信息，以使结果可视化。这涉及到：把结果分组成非冗余的集合，对集合进行排序，生成每个集合的简要说明，选择用于每个集合的代表性片断，把片断的含有有关特定选项卡的信息的部分高亮显示，建立至其他页面的导航超级链接，以及生成用来图形地表示选项卡内容的数据。

IGM产生采取支持良好定义的应用程序接口（API）的通用格式的结果。IDM查询此API，以检索选择的IGM产物。对于每个选项卡，配置文件指定哪些IGM产物是用于冗余检测。例如，从自动内容提取（ACE）式的关系来构建用于人的“隶属关系”选项卡的内容（见表1）。配置文件指示IDM使用隶属实体的关系类型和KB-ID以用于冗余消减。因此，如果一个片断描述Sam Palmisano是“IBM”的管理者，以及另一片断描述SamPalmisano是“国际商业机器”的管理者，且“IBM”和“国际商业机器”具有同一KB-ID，则为“隶属关系”选项卡的目的，这些片断被标记为冗余。

冗余检测把结果分组成等价类。每一类都包含在配置文件中指定的IGM产物的唯一值。IDM可以根据IGM产物的值进一步把类分组成超类，或者拆分等价类。例如，它们可以根据含有信息的文档的日期来划分等价类。得到的文档组构成显示单位。IDM为这些组中的每个分配分数，例如，通过使用各个片断的分数和该组中或该等价类中结果的数量的函数。按照分数对组进行排序，以及把最高分数的片断选为该组的代表。然后，每个组被可视化成选项卡中的一个部分，带有使用选择的IGM产物构建的标题。组的分数也可选地被显示。含有相关性信息的证据的代表性片断的文本被高亮显示成黄色。命名的表述被链接到相应的页面（如果可获得的话），以及提供了到文本的不同视图的链接。

每个选项卡都与概括其内容且在图6的GUI的上半部的最右侧部分中示出的图形化表示相关联。通过在选项卡可视化时调用服务器上的应用来动态地产生此可视化。

系统的示范性实施例可以支持三种不同的可视化：词语云，以及示出实体间关系的两种风格的图。配置文件指示IDM哪些IGM产物包含要在图形显示中示出的信息。此信息然后被格式化，以符合动态构建可视化的程序的API。

以上描述的示范性实施例可以利用本领域公知的自然语言处理方法。基础参考是Manning和Schutze的书“Foundation of statistical NaturalLanguage Processing”（统计自然语言处理基础），其涵盖了形成这些方法的主要技术。第6章中讲授了基于共指构建语言模型（n-gram模型）。第7章讲授了采用其上下文识别词语的含义，称为语义消歧。第9章讲授了识别句子中词语的语法类型，称为词性标注。第11章节讲授了识别句子的语法结构，称为分析。第13章节讲授了从源语言自动翻译成目标语言。第15章节讲授了信息检索的主要议题。第16章节讲授了用于文本分类的自动方法。

假设因特网上的很大一部分新材料是以人、组织和地缘政治实体（GPE）为中心的新闻，则命名实体形成新闻文档的关键方面，且人们常常有兴趣跟踪关于人（例如Leon Panetta）、组织（例如苹果公司）或GPE（例如美国）的报道。上述的示范性实施例提供了一种从新闻数据自动构建命名实体的概况页面的系统。描述实体的EP页面被组织成各部分，所述部分回答了关于该实体的特定问题，例如简历信息、做出的声明、熟人、行动等等。每个部分都包含支持从语料库自动提取的事实的文本片断。冗余检测产生简历的概况，仅仅新的和有用的片断在缺省显示中呈现。该系统可采用各种源来实施，且该系统示出不仅从英语新闻专线文本提取的信息，而且从机器翻译的文本和自动转录的音频提取的信息。

尽管诸如谷歌新闻的公开可获得的新闻聚合器显示新闻中的顶层实体，在这些实体上点击通常导致关键词搜索（也许带某种冗余检测）。另一方面，上述示范性实施例提供了以系统的方式组织和概括对用户有用的内容的一种系统。该系统不限于词袋（bag-of-words）搜索，而是采用更深的NLP技术来检测命名实体的表述，以便消解共指（文档内和跨文档两者中的），以及从文本挖掘诸如雇佣、配偶、附属等关系。该系统是高度可伸缩的，且可以为新闻中出现的每个实体实时地生成概况。系统灵活的体系结构使得它能够快速适应于除新闻外的领域，例如科学论文的集合，其中感兴趣的实体是作者、机构和国家。

本公开的示范性实施例的方法可尤其很好地适用于电子设备或替代系统。因此，示例性实施例可采取这种实施例的形式，其组合了软件和硬件方面，一般都被称为“处理器”、“电路”、“模块”或“系统”。此外，示范性实施例可采用被包含在一个或多个计算机可读媒体（其上存储有计算机可读程序代码）中的计算机程序产品的形式。

可利用一种或多种计算机可用或计算机可读媒体的任意组合。计算机可用或计算机可读媒体可以是计算机可读存储媒体。计算机可读存储媒体可以是，举例来说但不限于，电子、磁性、光学、电磁性、红外或者半导体系统、设备、器件，或者前述各项的任意适当组合。计算机可读存储媒体的更具体例子（非穷举性列举）会包括下面各项：便携式计算机磁盘，硬盘，随机存取存储器（RAM），只读存储器（ROM），可擦可编程只读存储器（EPROM或闪存），光纤，便携式CD只读存储器（CD-ROM），光学存储器件，磁性存储器件，或者前述各项的任何合适组合。在本文的上下文中，计算机可读存储媒体可以是可含有或存储由指令执行系统、设备或器件使用或与指令执行系统、设备或器件关联的程序的任何有形媒体。

用于执行示范性实施例的操作的计算机程序代码可以用一种或多种编程语言的任意组合来编写，包括：面向对象的编程语言，例如Java,Smalltalk,C++等，和传统的过程编程语言，例如“C”编程语言或类似的编程语言。程序代码可完全在用户的计算机上执行、部分在用户的计算机上执行，作为独立的软件包执行、部分在用户的计算机执行且部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。后一场景中，远程计算机可以通过包括局域网（LAN）或广域网（WAN）的任何类型的网络连接到用户的计算机，或者可（例如，通过因特网使用因特网服务提供商）进行与外部计算机的连接。

本文中参考流程图和/或框图描述了示例性实施例。应理解，可通过计算机程序指令实施流程图和/或框图的各块以及流程图和/或框图中的各块的组合。

计算机程序指令可以被存储在可以引导计算机、其他的可编程数据处理装置或其他装置以特定的方式发挥功能的计算机可读媒体中，使得在计算机可读媒体中存储的指令生成包括实施在流程图和/或框图的一个或多个块中指定的功能/行动的指令的制品。

要理解，本文中使用的术语“处理器”意在包括任何处理器件，例如，包括中央处理单元（CPU）和/或其他处理电路（例如，数字信号处理器（DSP），微处理器，等）的器件。另外要理解，术语“处理器”可以指超过一个的处理器件，且与处理器件关联的各种元件可以由其他处理器件共享。本文中使用的术语“存储器”意在包括与处理器或CPU关联的存储器和其他计算机可读媒体，例如，随机存取存储器（RAM），只读存储器（ROM），固定存储媒体（例如硬盘），可拆卸存储媒体（例如软盘），闪存，等等。此外，本文中使用的术语“I/O电路”意在包括例如：用于输入数据到处理器的一个或多个输入器件，和/或用于呈现与处理器相关的结果的一个或多个输出器件（例如，打印机，监控器，等）。

附图中的流程和框图示出了根据各种实施例的系统、方法和计算机程序产品的可能实施方式的体系结构、功能和操作。这方面，流程或框图中的各块可表示代码的模块、段或者部分，其包括用于实现特定的逻辑功能的一个或多个可执行指令。也应当注意，在一些替代性实施中，块中提到的功能可能没有按图中提到的次序发生。例如，事实上，可以基本上同时执行相继示出的两个块，或者有时可以按相反的次序执行所述块，这取决于所涉及的功能。还应注意，可通过执行特定功能或动作的特定用途的基于硬件的系统或者特定用途的硬件和计算机指令的组合，来实施框图和/或流程图的各块以及框图和/或流程图的各块的组合。

尽管本文中已经参考附图描述了本公开的说明性实施例，但是要理解，本公开不限于这些特定的实施例，本领域技术人员在不脱离所附权利要求的范围的情况下可以在其中做出各种其他的变化和修改。

Claims

1.一种用于由处理装置从多个数据源自动提取和组织信息的方法，包括：

把包括自动实体检测的自然语言处理信息提取流水线施加到数据源；

通过分析自然语言处理流水线的产物来识别有关所检测的实体的信息；

把识别的信息分组到包含等价信息的等价类；

创建等价类的至少一个可显示表示；

计算至少一个可显示表示被显示的顺序；以及

生成考虑了可显示表示被显示的顺序的等价类组合显示。

2.权利要求1的方法，其中每个等价类包括项的集合，每项包括从文档提取的一段文本和有关从该段文本导出的所需实体的信息的规范。

3.权利要求1的方法，其中计算可显示表示被显示的顺序还包括随机计算顺序。

4.权利要求1的方法，其中把识别的信息分组到等价类还包括把每个识别的信息分配到单独的等价类。

5.权利要求1的方法，其中把识别的信息分组到等价类还包括：

计算每个等价类的代表性实例；

确保不同类的代表性实例相互不是冗余的；

确保每个等价类的实例相对于该等价类的代表性实例是冗余的。

6.一种用于由处理装置处理信息的方法，包括：

接收用户查询；

从用户查询推断用户查询意图，以形成推+断的用户意图；以及

通过利用包括文本、音频和视频中至少一个的多种模态的自然处理来适应性地构建与推断的用户意图对应的模板，响应于用户查询而自动生成页面。

7.权利要求6的方法，还包括：当用户查询选择具有政治身份的人时，

检测该政治身份，

搜索关于选举运动、公开露面、声明和公共服务历史中至少一个的信息，以及

自动生成响应于用户查询的页面。

8.权利要求6的方法，还包括：当用户查询选择公司时，

搜索有关该公司的近期新闻、该公司的高级官员的信息和该公司的新闻发布稿中至少一个的信息；以及

自动生成响应于用户查询的页面。

9.权利要求6的方法，还包括：当用户查询选择事件时，

搜索有关该事件的新闻项目和对事件的反应中至少一个的信息；以及

自动生成响应于用户查询的页面。

10.权利要求9的方法，其中识别事件中的实体和搜索有关这些实体的所检索的相关信息。

11.一种用于由处理装置从具有多种语言的的多种信息模态的文档语料库自动提取和组织信息以便显示给用户的方法，该方法包括：

浏览文档语料库，以识别和增量地检索包含音频/视频文件的文档；

转录来自音频/视频文件的文本，以提供文本表示；

翻译外语的文本表示的文本；

增量地提取关于实体、活动和事件中至少一个的所需信息；

组织提取的信息；以及

把组织好的所提取信息转换成可展示给用户的可导航显示。

12.权利要求11的方法，其中增量地提取所需信息包括：

把自然语言处理流水线施加到各文档，以遍历所述语料库中检测的所有实体；

识别牵涉到选择的实体的关系表述和事件表述，

其中实体是下面各项的至少一个：物理生命体、物理无生命体、有专用名称的事物、具有可度量的物理属性的事物、法人实体和抽象概念，

其中表述是提到实体的一段文字，

其中关系是两个实体间的联系，

其中关系表述是描述关系的一段文字，以及

其中事件是牵涉一个或多个行动的两个或更多个实体之间的关系集合。

13.权利要求11的方法，其中组织提取的信息包括：

遍历所述语料库中识别的所有实体；

把提取的关于实体的信息分成包含等价信息的被选等价类；

遍历所有等价类；

选择每个等价类中的一项来代表该等价类中的所有项；以及

记录有关该等价类和有关选择用来生成可导航显示的代表的信息，

其中每个等价类包括项的集合，每项具有从文档提取的一段文本和有关从该段文本导出的所需实体的信息的规范。

14.权利要求11的方法，其中把组织好的所提取信息转换成可展示给用户的可导航显示包括：

通过为等价类分配该类中各条信息的最高分数、它的成员的平均分数、它的成员的中值分数和它的成员的分数之和中的至少一个来给信息的等价类评分；

按分数降序排序等价类，以安排等价类被显示给用户的顺序的优先次序；

对每一等价类进行遍历，构建选择的实例的可显示表示；以及

把可显示表示进行组合，以生成等价类的可显示表示。

15.权利要求14的方法，其中可显示表示包括包含用可视化高亮标记的提取信息的段落。

16.一种包含能够由处理器执行以便交互显示来自多模态自然语言源的有关实体、活动和事件的信息的指令的非暂时性计算机程序存储装置，所述非暂时性计算机程序存储装置包括配置成存储以下各项的存储器：

信息提取模块，具有用于从文本和音频/视频下载文档内容、用于对文档内容进行分析、用于检测表述、用于共指、用于跨文档共指以及用于提取关系的指令代码；

信息收集模块，具有用于从所述信息提取模块提取熟人、简历和事件介入的指令代码；

信息显示模块，具有用于显示来自所述信息收集模块的信息的指令代码。

17.权利要求16的非暂时性计算机程序存储装置，其中所述信息提取模块还包括用于从视频源转录音频和用于把非英语的转录音频翻译成英语文本的指令代码。

18.权利要求16的非暂时性计算机程序存储装置，其中所述信息提取模块还包括用于把同一实体下的表述聚类以及用于跨文档链接实体聚类的指令代码。

19.权利要求16的非暂时性计算机程序存储装置，其中所述信息收集模块还包括用于输入句子和实体以及从该句子提取有关该实体的特定信息的指令代码。

20.权利要求16的非暂时性计算机程序存储装置，其中所述信息显示模块还包括用于把结果分组成非冗余的集合、排序所述非冗余的集合、生成每个集合的简要说明、为每个集合选择代表性片断、高亮显示该片断的包含有关特定选项卡的信息的部分、构建到其他页面的导航超级链接以及生成用来图形化表示选项卡内容的数据的指令代码。

21.一种包含能够由处理器执行以便自动提取和组织来自多个数据源的信息的指令的非暂时性计算机程序存储装置，所述非暂时性计算机程序存储装置包括配置成存储以下各项的存储器：

用于向数据源施加包括实体自动检测的自然语言处理信息提取流水线的指令代码；

用于通过分析所述自然语言处理流水线的产物来识别有关检测的实体的信息的指令代码；

用于把识别的信息分组到包含等价信息的等价类的指令代码

用于创建等价类的至少一个可显示表示的指令代码；

用于计算至少一个可显示表示被显示的顺序的指令代码；

用于生成考虑了所述可显示表示被显示的顺序的等价类组合显示的指令代码。

22.权利要求21的非暂时性计算机程序存储装置，其中每个等价类包括项的集合，每项包括从文档提取的一段文本和有关从该段文本导出的所需实体的信息的规范。

23.权利要求21的非暂时性计算机程序存储装置，其中计算所述可显示表示被显示的顺序还包括随机计算顺序。

24.权利要求21的非暂时性计算机程序存储装置，其中把识别的信息分组到等价类还包括把各识别的信息分配到单独的等价类。

25.权利要求21的非暂时性计算机程序存储装置，其中把识别的信息分组到等价类还包括：

计算每个等价类的代表性实例；

确保不同类的代表性实例相互不是冗余的；以及