CN111539193A

CN111539193A - 基于本体的文档分析和注释生成

Info

Publication number: CN111539193A
Application number: CN202010080072.7A
Authority: CN
Inventors: B·布尔; P·L·费尔特; A·希克斯
Original assignee: International Business Machines Corp
Current assignee: Maredif Usa
Priority date: 2019-02-07
Filing date: 2020-02-04
Publication date: 2020-08-14
Also published as: US20200257761A1; US10909320B2

Abstract

提供了用于认知注释的技术。接收包括文本数据的电子文档。通过使用经训练的段落编码器处理电子文档来为电子文档中包括的多个单词生成多个重要性得分。基于多个重要性得分来标识重要单词。生成一个或多个单词集群，其中一个或多个单词集群中的每个包括多个重要单词中的至少一个。为第一集群选择代表性单词，并且将代表性单词映射到来自预定义概念列表的一个或多个概念。对一个或多个概念进行消歧以标识电子文档的相关概念集合。至少部分基于相关概念集合来生成电子文档的带注释的版本。

Description

基于本体的文档分析和注释生成

背景技术

本公开涉及文档分析，并且更具体地涉及认知地注释电子文档以改善搜索功能。

在各种各样的领域中，收集和评估文档和文献，以便研究新的或旧的问题并且扩大理解。例如，在法律领域，经常收集包括法院意见、论文、文章等在内的文档，以允许用户搜索可用文献以确定如何继续进行。类似地，医疗领域的用户经常利用医疗语料库来标识潜在的治疗选项。为了改善这些语料库的功能和可用性，主题专家可以花时间阅读文档并且编写标记、标题、注释、标签等。但是，该过程昂贵且费时。考虑到新文档变为可用的速度，为整个语料库维护这些注释是不切实际的。此外，这些注释本质上是主观的，并且经常包括错误。这些不完整或不准确的标题使文档的搜索和索引效率和准确性大大降低。

发明内容

根据本公开的一个实施例，提供了一种方法。该方法包括接收包括文本数据的电子文档。该方法还包括通过使用经训练的段落编码器处理电子文档来为电子文档中包括的多个单词生成多个重要性得分。另外，该方法包括基于多个重要性得分来从多个单词中标识多个重要单词。该方法还包括根据多个重要单词生成一个或多个单词集群，其中一个或多个单词集群中的每个包括多个重要单词中的至少一个。为一个或多个单词集群中的第一集群选择代表性单词，并且将第一集群的代表性单词映射到来自预定义概念列表的一个或多个概念。该方法还包括通过一个或多个计算机处理器的操作来对一个或多个概念进行消歧以标识电子文档的相关概念集合。最后，该方法包括至少部分基于相关概念集合来生成电子文档的带注释的版本。

根据本公开的第二实施例，提供了一种计算机可读存储介质。该计算机可读存储介质具有利用其实施的计算机可读程序代码，该计算机可读程序代码由一个或多个计算机处理器可执行以执行操作。该操作包括接收包括文本数据的电子文档。该操作还包括通过使用经训练的段落编码器处理电子文档来为电子文档中包括的多个单词生成多个重要性得分。另外，该操作包括基于多个重要性得分来从多个单词中标识多个重要单词。该操作还包括根据多个重要单词生成一个或多个单词集群，其中一个或多个单词集群中的每个包括多个重要单词中的至少一个。为一个或多个单词集群中的第一集群选择代表性单词，并且将第一集群的代表性单词映射到来自预定义概念列表的一个或多个概念。该操作还包括对一个或多个概念进行消歧以标识电子文档的相关概念集合。最后，该操作包括至少部分基于相关概念集合来生成电子文档的带注释的版本。

根据本公开的第二实施例，提供了一种系统。该系统包括存储器，该存储器包含程序，该程序在由一个或多个计算机处理器执行时执行操作。该操作包括接收包括文本数据的电子文档。该操作还包括通过使用经训练的段落编码器处理电子文档来为电子文档中包括的多个单词生成多个重要性得分。另外，该操作包括基于多个重要性得分来从多个单词中标识多个重要单词。该操作还包括根据多个重要单词生成一个或多个单词集群，其中一个或多个单词集群中的每个包括多个重要单词中的至少一个。为一个或多个单词集群中的第一集群选择代表性单词，并且将第一集群的代表性单词映射到来自预定义概念列表的一个或多个概念。该操作还包括对一个或多个概念进行消歧以标识电子文档的相关概念集合。最后，该操作包括至少部分基于相关概念集合来生成电子文档的带注释的版本。

附图说明

图1示出了根据本文中公开的一个实施例的用于动态地分析和生成电子文档的注释的工作流；

图2是示出根据本文中公开的一个实施例的被配置为分析和分类电子文档的文档分析器的框图；

图3是示出根据本文中公开的一个实施例的用于注释电子文档以实现改进的搜索功能的方法的流程图；

图4是示出根据本文中公开的一个实施例的用于标识电子文档中的重要单词的方法的流程图；

图5是示出根据本文中公开的一个实施例的用于基于基础概念对单词进行聚类的方法的流程图；以及

图6是示出根据本文中公开的一个实施例的用于分析电子文档以改善语料库的功能的方法的流程图。

具体实施方式

在本公开的实施例中，提供了用于自动注释电子文档的技术。在一个实施例中，在本体的上下文中分析文档以标识文档中的重要概念，对具有重叠含义的概念进行聚类，并且对具有多个含义的概念进行消歧。有利地，注释的这种智能生成允许高效地分析、标记和分类文本文档。这些注释极大地改善了语料库的功能，因为标记允许对其进行有效地索引和搜索。继而，依赖于带注释的语料库的系统也得到了改进。例如，在训练期间摄取数据的机器学习系统严重依赖于输入的准确标记。通过利用本公开的实施例，可以使用更准确的数据来更快速地训练这些系统，这改善了它们的功能。

图1示出了根据本文中公开的一个实施例的用于动态地分析和生成电子文档的注释的工作流100。在所示实施例中，由重要性组件110访问电子文档的语料库105，重要性组件110依次处理每个文档。在一个实施例中，语料库105包括包含文本的电子文档。在一些实施例中，语料库105属于特定文档域、领域或类型。在本文中描述的一些实施例中，医疗文档被用作示例。然而，这些示例不限制本公开，并且本公开的实施例适用于任何域或领域。

如图所示，重要性组件110为语料库105中的每个文档生成一组重要性单词115。在一个实施例中，重要性组件110为在相应文档的文本中找到的每个单词分配重要性得分。在一些实施例中，重要性组件110利用基于经训练的递归神经网络(RNN)的段落编码器来标识提供文档的粗略摘要的重要单词。在一个实施例中，段落编码器被训练以标识关于特定文档相对频繁地但是关于整体文献相对较少地(例如，在特定领域内)被发现的单词。在一些实施例中，重要性得分的范围在0到1内，得分越高指示对应单词相对于文档的重要性越高。

在所示实施例中，除了为文档中的每个单词生成重要性得分，重要性组件110还基于这些得分来标识一组重要单词115。例如，在一个实施例中，重要性组件110基于单词的重要性得分对单词进行排序，并且将前N个单词(或前M％的单词)分类为重要。在实施例中，可以由用户调节被分类为“重要”的单词的数目或百分比。在另一实施例中，重要性组件110利用预定义阈值(可以是用户可配置的)，并且将重要性得分超过该阈值的所有单词分类为重要单词115。在又一实施例中，重要性组件110确定文档中的每个单词的预期得分(例如，基于文档中的单词的总数)，并且标识所生成的得分超过该预期得分的任何单词。然后，可以将这些标识出的单词分类为对文档是“重要的”。

在所示实施例中，一旦重要性组件110已经对文档中的每个单词评分(并且可选地确定了一组重要单词115)，则聚类组件120分析单词以生成一个或多个概念集群125。在一些实施例中，聚类组件120仅对已经被分类为重要单词115的单词进行聚类。在一个实施例中，聚类组件120处理所有单词，而不管它们是否被认为是“重要的”。在一个实施例中，聚类组件120为每个单词生成矢量表示，并且基于单词在嵌入空间中的相对位置将单词聚类为一个或多个组。例如，在一个实施例中，聚类组件120为每对单词计算相似性度量(例如，余弦相似性)，并且基于该相似性来对单词进行聚类。在一些实施例中，聚类组件120对相似性超过预定义阈值(例如，0.85)的单词进行聚类。

在一些实施例中，聚类组件120访问本体以确定每个单词的语义含义。在实施例中，本体指示单词或概念之间的关系，并且可以用于标识在含义上相关或重叠的单词或概念。在一些实施例中，聚类组件120基于单词的语义含义对单词进行分组。例如，在一个实施例中，聚类组件120可以确定第一单词是指药物类型，并且第二单词是药物的特定品牌名称。因此，在一个实施例中，聚类组件120可以将两个单词聚类为单个组。在实施例中，在生成概念集群125时，集群组件120可以利用单词的基于矢量的相似性、它们的语义含义、和/或任何其他因素。

在一个实施例中，一旦概念集群125已经生成，聚类组件120为每个集群选择代表性单词，并且调节其重要性得分。例如，在一个实施例中，聚类组件120为每个概念集群125选择集群中具有最高重要性得分115的单词，并且将该单词用作集群的代表。在一个实施例中，修改该代表性单词的重要性得分包括对群集中包括的所有单词的重要性得分求和，并且将该总和用作代表性单词的新得分(并且因此用作概念集群125的新得分)。

在所示实施例中，这些概念集群125(或与每个集群相关联的代表性单词)然后被提供给消歧组件130，消歧组件130解决与每个代表性单词相关联的潜在歧义以便确定正确的概念。例如，假定一个代表性单词是“低落(depression)”。根据使用该单词的上下文，这可以是指抑郁症(例如，精神状况)、经济衰落或衰退、或物理上的凹陷或凹部。在一个实施例中，对于任何潜在的有歧义的代表性单词(例如，对于与本体中的两个或更多个概念相关联的任何单词)，消歧组件130基于本体来分析对应文档的其余文本，以确定意图在于哪个概念或基本含义。

如图所示，一旦概念被消歧，则可以用作对应文档的注释、标签、标记或标题。有利地，这些注释允许文档被有效地索引。该索引允许被注释的语料库105被有效地存储和维护。此外，基于这些注释，可以将文档放置在嵌入空间中，以了解它们的相关性。该附加信息通过提供更多的理解和深度改善了语料库105的功能。此外，这些注释使得能够对带注释的语料库105进行有效的关键字搜索，这可以显著改善用户与文献的交互方式。

在一些实施例中，工作流100还包括用于将单词或概念映射到一个或多个预定义词典或定义的操作。在一个实施例中，在聚类组件120生成概念聚类125之后，代表性单词被映射到预定义概念列表。例如，在一个实施例中，单词被映射到统一医学语言系统(UMLS)概念唯一标识符(CUI)。在一些实施例中，消歧组件130用于部分地基于由UMLS CUI定义的本体来对这些CUI进行消歧。此外，在至少一个实施例中，在概念已经被消歧之后，将概念映射到能够进行文本搜索的预定义术语、单词或短语。例如，在一个实施例中，如果使用CUI来定义概念，则将这些CUI映射到用作注释135的医学主题(MeSH)项。

图2是示出根据本文中公开的一个实施例的被配置为分析和分类电子文档的文档分析器205的框图。如图所示，文档分析器205包括处理器210、存储器215、存储装置220和网络接口225。在所示实施例中，处理器210检索并且执行存储在存储器215中的编程指令以及存储和检索驻留在存储装置220中的应用数据。处理器210代表单个CPU、多个CPU、具有多个处理核心的单个CPU等。存储器215通常被包括以代表随机存取存储器。存储装置220可以是磁盘驱动器或基于闪存的存储设备，并且可以包括固定和/或可移动存储设备，诸如固定磁盘驱动器、可移动存储卡或光学存储装置、网络附加存储装置(NAS)、或存储区域网络(SAN)。经由网络接口225，文档分析器205可以与包括客户端或用户设备、一个或多个语料库105等的其他设备通信地耦合。

在所示实施例中，文档分析器205经由网络240通信地耦合到语料库105。在实施例中，该连接可以是有线、无线或有线和无线链路的组合。在一个实施例中，网络240是互联网。尽管示出了单个语料库105，但是在实施例中，文档分析器205可以与任何数目的语料库交互。另外，尽管被示出为远离文档分析器205，但是在实施例中，语料库105可以被本地存储(例如，在存储装置220中)。此外，尽管未包括在所示实施例中，但是在实施例中，文档分析器205也可以与一个或多个用户设备通信地耦合(例如，经由网络240)。

如图所示，存储装置220包括一组文档235，每个文档235具有对应的(多个)注释135。在一个实施例中，这些带注释的文档235共同构成一个或多个带注释的语料库，该语料库易于被索引和搜索。在一个实施例中，从语料库105中检索文档235，并且由文档分析器205分析文档235以生成注释135。尽管被示出为驻留在存储装置220中，但是在实施例中，文档235可以存储在任何合适的位置。例如，在一个实施例中，文档分析器205生成注释135，并且将注释135与其对应文档235一起存储在语料库105中。在实施例中，注释135是术语、短语、单词、标记、概念、标题、标签、或者概括对应文档并且可以进行高效搜索的其他类似的数据。

在所示实施例中，存储器215包括分析应用230，分析应用230包括重要性组件110，聚类组件120和消歧组件130。尽管被示出为驻留在存储器215中的程序，但是在实施例中，分析应用230的功能可以使用软件、硬件或软件和硬件的组合来实现。此外，尽管为了说明而被描绘为离散的组件，但是在实施例中，重要性组件110、群集组件120和消歧组件130的功能和操作可以在任何数目的组件之间被组合或分布，每个组件可以经由软件、硬件或软件和硬件的组合来实现。

在一个实施例中，如上所述，重要性组件110为所选择的文档235中的每个单词生成重要性得分，并且标识一个或多个单词以分类为“重要”。此外，在一个实施例中，聚类组件120基于单词嵌入、每个单词的语义含义、或两者的组合将这些重要单词分组为集群。另外，在所示实施例中，消歧组件130确定任何单词或概念是否具有多个潜在含义。如果是，则消歧组件130基于在文档的其余文本和定义本体的上下文中分析单词来对单词进行消歧，以便生成最终注释135。

图3是示出根据本文中公开的一个实施例的用于注释电子文档以实现改进的搜索功能的方法300的流程图。方法300开始于框305，在框305，分析应用230接收要注释的一个或多个文档(例如，从语料库105)。在一些实施例中，用户可以提供一个或多个文档以进行处理。然后，方法300进行到框310，在框310，分析应用230从所接收的(多个)文档集合中选择文档。在框315，分析应用230为所选择的文档的文本中的每个单词生成重要性得分。如上所述，在一个实施例中，分析应用230使用经训练的基于RNN的段落编码器来处理文档的文本以为每个相应单词生成相应重要性得分。然后，方法300进行到框320。

在框320，分析应用230至少部分基于重要性得分来标识文本文档中的一个或多个重要单词。在一个实施例中，然后丢弃其余单词。在框325，分析应用230基于单词的相似性(例如，它们的矢量相似性和/或它们的语义相似性)根据一组重要单词生成一个或多个单词集群。然后，方法300进行到框330，在框330，分析应用230确定由每个集群或单词表示的(多个)相关概念，并且对所标识的概念进行消歧。例如，如上所述，如果重要单词之一(或群集的代表性单词)与两个或更多个概念或含义相关联(如通过访问本体所确定的)，则分析应用230利用自然语言处理(NLP)来分析所选择的文档的其余文本以确定哪个概念或含义是正确的。

然后，方法300进行到框335，在框335，分析应用230用消歧的重要单词或概念来标记所选择的文档。以这种方式，可以有效地索引和搜索文档。在框340，分析应用230确定是否存在至少一个其他文档要处理。如果是，则方法300返回到框310。否则，方法300进行到框345。在框345，分析应用230提供带注释的语料库作为索引和可搜索的文档集合。在一个实施例中，这包括将所确定的注释与相应文档相关联地存储在语料库105中，并且允许用户访问和搜索语料库105。

图4是示出根据本文中公开的一个实施例的用于标识电子文档中的重要单词的方法400的流程图。在所示实施例中，方法400为图3的框320提供附加细节。方法400开始于框405，在框405，重要性组件110确定所选择的文档中的每个单词的预期得分。在一个实施例中，预期得分基于待分析的文本中的单词的数目。例如，如果有一百个单词，则每个单词的平均或预期重要性得分将是1除以100(0.01)。也就是说，如果每个单词都同样重要，则每个单词将具有相同的重要性得分，并且重要性得分将等于1除以文本中的单词的数目。然后，方法400进行到框410。

在框410，重要性组件110选择文本中的第一单词。在框415，重要性组件110确定为所选择的单词生成的重要性得分是否大于文档中的单词的预期或平均重要性得分。如果是，则方法400进行到框420，在框420，重要性组件110将单词分类为关于所选择的文档是“重要的”。然后，该方法进行到框430。如果所生成的重要性得分小于预期得分或平均得分，则方法400进行到框425，在框425，重要性组件110丢弃所选择的单词。也就是说，重要性组件110不再进一步处理该单词(除了潜在地提供上下文以对其他单词进行消歧，如上所述)，并且不使用该单词作为文档的注释。然后，方法400进行到框430。在框430，重要性组件110确定是否存在至少一个附加单词要评估。如果是，则方法400返回到框410，在框410，重要性组件110选择下一单词用于评估。否则，方法400终止。

图5是示出根据本文中公开的一个实施例的用于基于基础概念对单词进行聚类的方法500的流程图。在所示实施例中，方法500为图3的框325提供附加细节。方法500开始于框505，在框505，聚类组件120在所选择的文档的文本中选择单词。在一个实施例中，聚类组件120仅评估已经由重要性组件110分类为“重要”的单词。在其他实施例中，聚类组件120分析所有单词，即使它们没有被标记为重要。在一个实施例中，这可以确保分配给给定集群的代表性单词的得分包括这些不重要但仍然被包括在组中的单词的重要性得分。

在框510，聚类组件120可选地基于一个或多个字典或本体来确定所选择的单词的语义含义。然后，方法500进行到框515，在框515，聚类组件120为所选择的单词生成矢量表示。在框520，聚类组件120确定是否存在至少一个附加单词要评估。如果是，则方法500返回到框505。否则，方法500进行到框525。在框525，聚类组件120基于单词的语义含义和/或矢量相似性来生成一个或多个单词的集群或组。

然后，方法500进行到框530，在框530，群集组件120选择所生成的群集之一。在框535，聚类组件120为所选择的集群选择代表性单词。在一个实施例中，聚类组件120选择具有最高重要性得分的单词以用作代表性单词。在一个实施例中，聚类组件120在选择代表性单词时考虑单词的语义含义。例如，在一个实施例中，如果得分最高的单词是药物的商标名称，则聚类组件120可以选择通用名称或科学名称作为集群的代表性单词。然后，方法500进行到框540。

在框540，聚类组件120增加代表性单词的重要性得分。在一个实施例中，这种增加是基于所选择的集群中其余单词的重要性得分。例如，在一个实施例中，聚类组件120对集群中的每个单词的重要性得分求和，并且使用该合计值作为代表性单词的重要性得分(并且因此用作集群的重要性得分)。方法500进行到框545，在框545，聚类组件120确定是否存在至少一个其余集群待处理。如果是，则方法500返回到框530以选择下一集群。否则，方法500终止。

图6是示出根据本文中公开的一个实施例的用于分析电子文档以改善语料库的功能的方法600的流程图。方法600开始于框605，在框605，分析应用230接收包括文本数据的电子文档。在框610，分析应用230通过使用经训练的段落编码器处理电子文档来为电子文档中包括的多个单词生成多个重要性得分。然后，方法600进行到框615，在框615，分析应用230基于多个重要性得分来从多个单词中标识多个重要单词。此外，在框620，分析应用230根据多个重要单词生成一个或多个单词集群，其中一个或多个单词集群中的每个包括多个重要单词中的至少一个。方法600进行到框625，在框625，分析应用230为一个或多个单词集群中的第一集群选择代表性单词。在框630，分析应用230将第一集群的代表性单词映射到来自预定义概念列表的一个或多个概念。另外，在框635，分析应用230对一个或多个概念进行消歧以标识电子文档的相关概念集合。最终，在框640，分析应用230至少部分基于相关概念集合来生成电子文档的带注释的版本。

已经出于说明的目的给出了本公开的各种实施例的描述，但是这些描述并不旨在是穷举的或限于所公开的实施例。在不脱离所描述的实施例的范围和精神的情况下，很多修改和变化对于本领域普通技术人员将是很清楚的。选择本文中使用的术语是为了最好地解释实施例的原理、对市场上发现的技术的实际应用或技术上的改进，或者使得本领域其他普通技术人员能够理解本文中公开的实施例。

在前面，参考了在本公开中提出的实施例。然而，本公开的范围不限于特定描述的实施例。取而代之，考虑前述特征和元素的任何组合(无论是否与不同的实施例相关)，以实现和实践所预期的实施例。此外，尽管本文中公开的实施例可以实现优于其他可能的解决方案或优于现有技术的优点，但是给定实施例是否实现特定优点并不限制本公开的范围。因此，除非在(多个)权利要求中明确记载，否则前述方面、特征、实施例和优点仅是说明性的，而不被认为是所附权利要求的要素或限制。同样，除非在(多个)权利要求中明确记载，对“本发明”的引用不应当被解释为本文中公开的任何发明主题的概括，并且不应当被视为所附权利要求的要素或限制。

本公开的各方面可以采取完全硬件实施例、完全软件实施例(包括固件、常驻软件、微代码等)或组合了软件和硬件方面的实施例的形式，所有这些在本文中可以称为“电路”、“模块”或“系统”。

在任何可能的技术细节结合层面，本发明可以是系统、方法和/或计算机程序产品。计算机程序产品可以包括计算机可读存储介质，其上载有用于使处理器实现本发明的各个方面的计算机可读程序指令。

计算机可读存储介质可以是可以保持和存储由指令执行设备使用的指令的有形设备。计算机可读存储介质例如可以是――但不限于――电存储设备、磁存储设备、光存储设备、电磁存储设备、半导体存储设备或者上述的任意合适的组合。计算机可读存储介质的更具体的例子(非穷举的列表)包括：便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、静态随机存取存储器(SRAM)、便携式压缩盘只读存储器(CD-ROM)、数字多功能盘(DVD)、记忆棒、软盘、机械编码设备、例如其上存储有指令的打孔卡或凹槽内凸起结构、以及上述的任意合适的组合。这里所使用的计算机可读存储介质不被解释为瞬时信号本身，诸如无线电波或者其他自由传播的电磁波、通过波导或其他传输媒介传播的电磁波(例如，通过光纤电缆的光脉冲)、或者通过电线传输的电信号。

这里所描述的计算机可读程序指令可以从计算机可读存储介质下载到各个计算/处理设备，或者通过网络、例如因特网、局域网、广域网和/或无线网下载到外部计算机或外部存储设备。网络可以包括铜传输电缆、光纤传输、无线传输、路由器、防火墙、交换机、网关计算机和/或边缘服务器。每个计算/处理设备中的网络适配卡或者网络接口从网络接收计算机可读程序指令，并转发该计算机可读程序指令，以供存储在各个计算/处理设备中的计算机可读存储介质中。

用于执行本发明操作的计算机程序指令可以是汇编指令、指令集架构(ISA)指令、机器指令、机器相关指令、微代码、固件指令、状态设置数据、集成电路配置数据或者以一种或多种编程语言的任意组合编写的源代码或目标代码，所述编程语言包括面向对象的编程语言—诸如Smalltalk、C++等，以及过程式编程语言—诸如“C”语言或类似的编程语言。计算机可读程序指令可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中，远程计算机可以通过任意种类的网络—包括局域网(LAN)或广域网(WAN)—连接到用户计算机，或者，可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。在一些实施例中，通过利用计算机可读程序指令的状态信息来个性化定制电子电路，例如可编程逻辑电路、现场可编程门阵列(FPGA)或可编程逻辑阵列(PLA)，该电子电路可以执行计算机可读程序指令，从而实现本发明的各个方面。

这里参照根据本发明实施例的方法、装置(系统)和计算机程序产品的流程图和/或框图描述了本发明的各个方面。应当理解，流程图和/或框图的每个方框以及流程图和/或框图中各方框的组合，都可以由计算机可读程序指令实现。

这些计算机可读程序指令可以提供给通用计算机、专用计算机或其它可编程数据处理装置的处理器，从而生产出一种机器，使得这些指令在通过计算机或其它可编程数据处理装置的处理器执行时，产生了实现流程图和/或框图中的一个或多个方框中规定的功能/动作的装置。也可以把这些计算机可读程序指令存储在计算机可读存储介质中，这些指令使得计算机、可编程数据处理装置和/或其他设备以特定方式工作，从而，存储有指令的计算机可读介质则包括一个制造品，其包括实现流程图和/或框图中的一个或多个方框中规定的功能/动作的各个方面的指令。

也可以把计算机可读程序指令加载到计算机、其它可编程数据处理装置、或其它设备上，使得在计算机、其它可编程数据处理装置或其它设备上执行一系列操作步骤，以产生计算机实现的过程，从而使得在计算机、其它可编程数据处理装置、或其它设备上执行的指令实现流程图和/或框图中的一个或多个方框中规定的功能/动作。

附图中的流程图和框图显示了根据本发明的多个实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段或指令的一部分，所述模块、程序段或指令的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。在有些作为替换的实现中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个连续的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合，可以用执行规定的功能或动作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。

本发明的实施例可以通过云计算基础设施提供给最终用户。云计算通常是指通过网络提供可伸缩计算资源作为服务。更正式地，云计算可以定义为一种计算能力，其提供计算资源与其基础技术架构(例如，服务器、存储、网络)之间的抽象，从而实现对可以通过最少的管理工作或服务提供商交互快速地配置和释放的可配置计算资源共享池的方便的按需网络访问。因此，云计算允许用户访问“云”中的虚拟计算资源(例如，存储、数据、应用、甚至完整的虚拟化计算系统)，而无需考虑用于提供计算资源的基础物理系统(或这些系统的位置)。

通常，基于按使用付费向用户提供云计算资源，其中仅针对实际使用的计算资源(例如，用户或由用户实例化的多个虚拟化系统消耗的存储空间量)向用户收费。用户可以随时随地从互联网的任何位置访问驻留在云中的任何资源。在本发明的上下文中，用户可以访问云中可用的应用(例如，分析应用230)或相关数据。例如，分析应用230可以在云中的计算系统上执行并且评估文档以生成智能注释。在这种情况下，分析应用230可以检索和分析文档并且将所得到的注释存储在云中的存储位置。这样做允许用户从附接到连接到云的网络(例如，互联网)的任何计算系统访问该信息。

尽管前述内容涉及本发明的实施例，但是在不脱离本发明的基本范围的情况下，可以设计本发明的其他和另外的实施例，并且本发明的范围由所附权利要求书确定。

Claims

1.一种方法，包括：

接收包括文本数据的电子文档；

通过使用经训练的段落编码器处理所述电子文档来为所述电子文档中包括的多个单词生成多个重要性得分；

基于所述多个重要性得分来从所述多个单词中标识多个重要单词；

根据所述多个重要单词生成一个或多个单词集群，其中所述一个或多个单词集群中的每个单词集群包括所述多个重要单词中的至少一个重要单词；

为所述一个或多个单词集群中的第一集群选择代表性单词；

将针对所述第一集群的所述代表性单词映射到来自预定义概念列表的一个或多个概念；

通过一个或多个计算机处理器的操作来对所述一个或多个概念进行消歧以标识针对所述电子文档的相关概念集合；以及

至少部分基于所述相关概念集合来生成所述电子文档的带注释的版本。

2.根据权利要求1所述的方法，其中标识所述多个重要单词包括：

为所述电子文档中的每个单词生成重要性得分；以及

确定针对所述电子文档的预期重要性得分；以及

从所述电子文档中选择重要性得分超过所述预期重要性得分的单词。

3.根据权利要求1所述的方法，其中生成所述一个或多个单词集群包括：

为所述多个重要单词中的每个相应单词生成相应矢量；以及

对超过预定义相似性阈值的矢量进行聚类。

4.根据权利要求1所述的方法，所述方法还包括：

基于将所述相关概念集合映射到预定义搜索项集合来生成概括所述电子文档的多个项。

5.根据权利要求4所述的方法，其中所述预定义搜索项集合包括医学主题(MeSH)项。

6.根据权利要求1所述的方法，其中所述段落编码器是递归神经网络(RNN)。

7.根据权利要求1所述的方法，其中所述预定义概念列表包括统一医学语言系统(UMLS)概念唯一标识符(CUI)。

8.一种计算机可读存储介质，具有利用其实施的计算机可读程序代码，所述计算机可读程序代码由一个或多个计算机处理器可执行以执行根据权利要求1至7中任一项所述的方法。

9.一种系统，包括：

一个或多个计算机处理器；以及

包含程序的存储器，所述程序在由所述一个或多个计算机处理器执行时执行根据权利要求1至7中任一项所述的方法。

10.一种计算机程序产品，包括计算机可读存储介质，所述计算机可读存储介质具有利用其实施的计算机可读程序代码，所述计算机可读程序代码由一个或多个计算机处理器可执行以执行根据权利要求1至7中任一项所述的方法。