CN111656453A

CN111656453A - 用于信息提取的层次实体识别和语义建模框架

Info

Publication number: CN111656453A
Application number: CN201880087730.6A
Authority: CN
Inventors: 胡意仪; 欧阳恩; 李作峰
Original assignee: Koninklijke Philips NV
Current assignee: Koninklijke Philips NV
Priority date: 2017-12-25
Filing date: 2018-12-24
Publication date: 2020-09-11
Anticipated expiration: 2038-12-24
Also published as: US20210174025A1; US11537797B2; WO2019129775A1; CN111656453B

Abstract

从具有实体的层次实体图的文档提取实体。实体定义和实体识别定义由用户定制并且被提供。所述配置信息被用于生成(905)实体图，其然后被用于解析一个或多个文档。在一些实施方式中，得到的解析树可以结合用户反馈被用于生成被分配给定制节点中的一个或多个的机器学习模型的一个或多个训练实例作为实体识别定义。得到的树的解析可以利用懒惰解析方法执行，其中，只有用户感兴趣的部分在所述文档中被识别。

Description

用于信息提取的层次实体识别和语义建模框架

背景技术

信息提取(特别地在临床文档中)常常要求采集对临床医师感兴趣的键值对。为了完成该任务，实体识别被用于识别键，并且其次，关系可以从所识别的实体提取以便识别文档中的有意义的实体。在提取有意义的相关实体的常规方法中，通常采用两种方法：即，实体提取(即，NER)和实体关系提取(即，ER)。现有方法要求一组手工(例如，用户策展)规则或启发法，常常以正则表达式的形式，以识别文档中的实体。正则表达式在许多方面中是有用的，因为其快速创建并且需要用于运行和测试样本的很少数据，并且还因为其在生成和呈现中是简明的。然而，当用于识别实体时的正则表达式在其简单性方面仍然是有限的。另一方面，机器学习方法是更鲁棒的，但是遭受确定经训练的机器模型是否实际上提取“真实”数据并且要求验证来验证给定模型是否适当地识别文档中的实体中的困难。

此外，在临床文档中，一些信息可能难以单独利用基于规则或者基于机器学习的方法提取。例如，文档可以包括关于针对患者的多个肿瘤的信息，但是可以不包括特定数量的肿瘤。语义提取可能单独利用规则或机器学习方法证明是困难的，因为语义地，每个肿瘤可以语义地不同地描述，并且任何特定规则或经训练的机器学习模型可能不能单独识别语义变化。

因此，已经识别先前方法中的多个缺陷。特别地，当前实体提取工具不能够由用户手工制作以适合特定类型的文档然而能够利用机器学习方法。此外，当前方法使将临床医师的知识并入到提取任务困难，并且临床医师专业知识和理解技术未适当地应用于机器学习方案。如果临时医师理解和专业知识适当地应用于机器学习模型或者结合机器学习模型应用，则可以提高性能，从而导致更好的结果和更好的性能。

发明内容

本说明书总体上涉及用于利用由用户提供的实体和实体识别定义解析用户的文档的方法。所述用户可以定义实体的层次，每个具有用于识别文档中的实体的方法。实体定义被编译并且实体图针对所述定义生成。所述用户可以随后调用解析器来识别来自文档的信息，其根据所述实体图和所识别的文档在运行时生成。所请求的实体和所请求的实体的子实体从所述文档解析，因此允许通过消除基于所述实体图建模整个文件的要求的大量的运行时间降低，而不管所述用户是否对所有所请求的实体具有兴趣。针对来自文档的实体的后续请求可以导致已经识别的实体被提供和/或可能导致基于所述实体图的文档的额外建模。在一些实施方式中，实体中的一个或多个(例如，经由其相应图节点)可以与用于识别所述实体的机器学习模型相关联。来自解析树的结果可以由所述用户注释并且还被用于生成针对一个或多个机器学习模型的训练实例，因此允许反馈回路改进实体识别定义的后续调用。

在一些实施方式中，由一个或多个处理器执行的方法被提供并且包括：接收包括一个或多个定制实体定义的配置文件，并且每个定制实体定义包括实体识别定义；基于定制实体定义来生成实体图，所述实体图定义所述定制实体定义之间的关系；识别感兴趣文档；利用所述实体图来解析所述感兴趣文档以生成文档树；并且将所述文档树提供给用户。解析所述感兴趣文档可以包括：识别所述感兴趣文档中的多个令牌；针对所述令牌中的每个令牌确定文档实体，其中，所述文档实体匹配所述定制实体定义中的一个；并且基于所述文档实体、所述定制实体定义、所述定制实体定义之间的所述关系和所述感兴趣文档来生成文档树，其中，所述文档树包括所述文档实体和所述文档实体之间的关系。

在一些实施方式中，所述方法还可以包括：识别针对所述文档树的解析器；接收来自所述用户的解析请求；解析所述文档树以识别对所述解析请求进行响应的一个或多个实体；并且将指示响应实体的输出提供给所述用户。在那些实施方式中的一些中，只有对解析请求做出响应的实体可以包括在所述文档树中。在那些版本中的一些中，所述方法还可以包括以下步骤：接收来自所述用户的第二解析请求；解析所述文档树以识别对所述第二解析请求进行响应的一个或多个额外实体；并且提供指示所述额外实体的输出，其中，只有所述一个或多个实体和所述一个或多个额外实体被包括在解析树中。

在一些实施方式中，所述方法还可以包括以下步骤：接收与所述文档树相关联的注释信息；基于所述文档树和所述注释信息来生成一个或多个训练实例；并且基于所述训练实例来更新所述实体识别定义中的一个或多个。在一些实施方式中，所述实体识别定义中的至少一个可以是机器学习模型。

在一些实施方式中，解析所述感兴趣文档可以包括并行解析所述感兴趣文档的多个拷贝并且融合所解析的拷贝。在那些实施方式中的一些中，并行解析和融合可以根据映射和减少范式执行。在那些实施方式中的一些中，所解析的拷贝之间的冲突可以通过截断在所解析的拷贝中的至少一个中冲突的一个或多个实体来解决。在那些实施方式中的一些中，所解析的拷贝之间的冲突可以通过扩展父实体以包括所述父实体的所有一个或多个子实体来解决。

在另一方面中，一种非瞬态计算机可读介质被提供并且包括指令，所述指令响应于由一个或多个处理器对指令的执行而使所述一个或多个处理器执行以下操作：接收配置文件，其中，所述配置文件包括一个或多个定制实体定义，并且其中，每个定制实体定义包括实体识别定义；基于所述定制实体定义来生成实体图，其中，所述实体图定义所述定制实体定义之间的关系；识别感兴趣文档；利用所述实体图来解析所述感兴趣文档，其中，解析所述感兴趣文档包括：识别所述感兴趣文档中的多个令牌；针对所述令牌中的每个确定文档实体，其中，所述文档实体匹配所述定制实体定义之一；并且基于所述文档实体、所述定制实体定义、所述定制实体定义之间的关系和所述感兴趣文档来生成文档树，其中，所述文档树包括所述文档实体和所述文档实体之间的关系；并且将所述文档树提供给用户。

应当意识到，前述概念和在本文中更详细描述的额外概念的所有组合不被预期为本文所公开的主题的部分。例如，在本公开的末尾出现的要求保护的主题的所有组合被预期为本文所公开的主题的部分。

附图说明

图1是可以实施本文所公开的实施例的范例环境的框图。

图2是实体和层次结构中的实体之间的关系的范例实体图的图示。

图3是实体和定制实体识别定义的样本配置文件。

图4图示了并行运行器和执行样本文本的模式分解器。

图5图示了分解来自模式分解器的注释文本的多个实例的并行运行器。

图6是基于图2的实体图完整注释的文本的图示。。

图7是父实体与子实体之间的冲突的图示。

图8是基于解析器命令在运行时间处分解的实体图中的实体的图示。

图9是图示本文所描述的方法的范例实施方式的流程图。

图10图示了计算系统的范例架构。

具体实施方式

从文档提取有意义的实体(特别地当实体以嵌套的方式分布在文档内时)常常可以证明是自动执行的困难任务。在一些实例中，可以采用基于规则的系统，其容易提供但是常常在可以由任何特定规则提取的实体中是过度严格的。例如，尽管用户可以识别用于提取特定域中的实体的一系列规则，但是用户将常常不具有用于可以描述实体的术语的每个可能变型的或有规则。因此，基于规则的方法常常未按比例。机器学习方法可以用作提取实体的备选方法。然而，机器学习方法要求“真实情况(ground truth)”；即，可以被用于训练并且稍后验证机器学习模型的性能的已知正确答案。

当单独采用时，基于规则的系统和机器学习模型提取系统两者除提取实体和实体之间的一些关系外在获得语义水平意识中存在弱点。第一，利用机器学习方法，大量注释由策展人要求以识别实体并验证机器学习技术具有适当识别的实体。第二，并且特别地在非英语文档中，语法不完全常见和/或在不同作者之间具有变化。因此，规则不总是针对特定类型的文档的所有作者相同。最后，现有方法具有提取以嵌套方式存在的实体的困难，诸如当实体包括子实体并且父实体可由其构成子部件识别(其自身可以是额外实体的子部件)。因此，在本文中描述了解决这些缺陷的技术。

现在转到图1，图示了可以实施本文公开的技术的范例环境。范例环境包括客户端设备106和语义应用系统110。客户端设备106可以是例如独立语音激活扬声器设备、台式计算设备、膝上型计算设备、平板计算设备、移动电话计算设备、用户的车辆的计算设备、和/或包括计算设备的用户的可穿戴装置(例如，具有计算设备的用户的手表、具有计算设备、虚拟或增强现实计算设备的用户的眼镜)。可以提供额外和/或备选客户端设备。

尽管语义应用系统110在图1中被图示为与客户端设备106分离，但是在一些实施方式中，语义应用系统110的所有或方面可以由客户端设备106实施。例如，在一些实施方式中，语义应用系统110的部件中的一个或多个可以由客户端设备106实施。在语义应用系统110的一个或多个(例如，所有)方面由远程于客户端设备106的一个或多个计算设备实施的情况下，客户端设备106和语义应用系统110的那些方面经由一个或多个网络通信，诸如广域网(WAN)(例如，因特网)。

尽管仅一个客户端设备106组合语义应用系统110图示，但是在许多实施方式中，语义应用系统110可以远程并且可以与多个用户的多个客户端设备中的每一个进行接口。例如，语义应用系统110可以经由不同的会话管理与多个设备中的每一个的通信并且可以并行管理多个会话。例如，在一些实施例中语义应用系统110可以被实施为采用云基础设施的基于云的服务，例如，使用运行适于处理来自多个用户的大量的请求的软件的高性能计算机的服务器群或集群。出于简单性的缘故，本文中的许多范例相对于单个客户端设备106描述。

语义应用系统110包括模型配置引擎112、语义建模引擎120、模型运行器114、解析器116和注释器118。在一些实施方式中，语义应用系统110的部件中的一个或多个可以在与语义应用系统110分离的部件中省略、组合和/或实施。此外，语义应用系统110可以包括出于简单性的缘故在本文中未图示的额外引擎。

语义应用系统110接收来自客户端设备106的用户输入的实例。用户输入可以包括例如用户生成的实体建模信息(例如，用户配置文件)的一个或多个实例，和/或用户输入可以包括要由编译语义建模器解析的一个或多个文档。在一些实施方式中，用户输入还可以包括与一个或多个所提供的文档相关联的注释。在一些实施方式中，一个或多个文档可以从文档的数据库获得，诸如文档数据库158。例如，文档数据库158可以包括在检查患者之后由临床医师准备的临床文档，例如以记录患者的临床状态的(一个或多个)方面，诸如检测的肿瘤的数量、肿瘤的类型、肿瘤的大小等。

通常，语义应用系统110提供接口以允许用户提交一个或多个文档并且基于由用户所提供的先前配置信息来执行编译语义模型。模型配置引擎112接收来自客户端设备106的配置信息并且利用配置信息来生成实体识别信息的层次树。在可以由在客户端设备106上运行的一个或多个应用促进的配置期间，用户能够定义一个或多个目标实体并且还定义针对每个实体的模式识别算法和/或方案。例如，用户可以被提供有图形用户接口，其直观允许用户创建、拖曳、放下和以其他方式操纵对应于感兴趣实体的节点。

模型配置引擎112接收实体定义和识别定义(例如，识别方案和/或算法)并且创建配置文件以使实体定义标准化。例如，用户可以利用在客户端设备106上运行的一个或多个接口来定义实体和/或识别定义，并且接口可以将实体和/或其他定义提供给模型配置引擎112，其然后可以将信息标准化为单个配置文件。因此，模型配置引擎112可以接收配置文件、图形用户接口(“GUI”)输入、和/或创建配置文件的其他脚本。

如本文所描述的，实体是在一个或多个文档中可识别的语义单位。实体是与语义意思相关联的有意义的文本令牌或令牌的系列。在一些实施方式中，实体可以基于文本的字符串内的上下文布置来识别。例如，<肿瘤>的实体可以基于字符串中的一个或多个上下文标记来识别，诸如<大小>实体、<类型>实体、和/或字符串中的一个或多个令牌定义和/或引用<肿瘤>的其他指示器的放置。

语义建模引擎120接收来自模型配置引擎112的配置文件并且基于配置文件来生成编译实体图。编译实体图基于经由配置文件、GUI、和/或其他所提供的脚本由用户指定的定制实体定义。编译实体图定义定制实体定义之间的关系并且可以被用于解析感兴趣文档。为了构建图，语义建模引擎120从下到上遍历编译树中的每个实体节点，并且为每个实体创建图实体和链接。此外，针对每个实体，语义建模引擎120将指定的实体识别定义与每个实体相关联，如生成和/或提供给模型配置引擎112的配置文件中指定的。

在一些实施方式中，为了创建实体节点，实体模板由语义应用110生成并且经由客户端设备106提供给用户。用户然后可以提供模板实施细节，诸如实体名和/或指定针对特定实体的特定实体识别定义。例如，语义模型数据库156可以包括先前已经由用户定义的多个实体识别定义和/或可以包括识别定义的标准化库。这些可以包括例如正则表达式、条件随机场(“CRF”)、递归神经网络(“RNN”)，例如，长短期记忆(“LSTM”)和组合LSTM-CRF。用户可以指定来自语义模型数据库156的特定识别定义以利用在识别实体中，经由所提供的模板提供定义的指示，并且还提供可以被用于识别一个或多个文档中的实体的额外信息。具有包括的用户信息的模板然后可以由模型配置引擎112和/或语义建模引擎120处理以生成实体图。所生成的图形然后可以存储在语义模型数据库156和/或一个或多个额外或者备选数据库中。

作为工作范例，临床文档可以包括以下文本：“两个肿瘤，一个占据在腹腔内的胆囊的右侧大小为1.5x1.5x1.5 cm”并且“另一肿瘤占据在肝的Ⅶ段与右肾之间大小为2x2x2cm，在门静脉处无血栓”。为了从给定字符串自动识别并且提取有意义的信息，对于临床医师而言需要首先生成包括针对<肿瘤>的层次结构的配置文件。参考图2，提供了针对<肿瘤>实体的范例模型。图2中所图示的模型可以经由在客户端设备106上运行的一个或多个映射(例如，GUI)应用由用户定义，可以定义在一个或多个文件中，和/或可以利用一个或多个备选方法生成。

如所图示的，根节点是所有其他节点的父节点，其包括<肿瘤_数>节点、<单个_列举>节点、和<癌症_血栓>节点作为子元素。在树的第二水平上，<肿瘤>节点和<N_UQT>节点被提供为<肿瘤_数>节点的子元素、<直径>节点和<seg_inter>节点作为<单个_列举>节点的子元素，并且<癌症_血栓>节点的<？血栓>。以相同的方式提供树的第三和第四水平。

如所图示的，具有掩模<N>、<U>和<N_UQT>的实体分别定义针对数、单位和数量的实体。通常，<ant>标签被用于定义针对解剖位置的实体，利用<seg>实体来定义肝段。此外，<肿瘤>实体定义肿瘤，并且<？血栓>实体定义血栓是否存在(因此问题标记，其指示实体可能不存在或者可能存在为否定)。在定义这些基本实体之后，包括子实体的较大实体可以被定义为那些实体的组合。例如，<v>实体是体积实体并且被定义为<n>，即，数。类似地，<直径>实体被定义为数<n>和单位<u>。额外定义实体包括定义肿瘤在何处被描述为在段之间的<seg_inter>实体、描述单个肿瘤的<单个_列举>实体、以及描述癌栓的全部描述的<癌症_血栓>实体。

针对图2中所描述的实体中的每个，引擎和/或识别描述可以被分配并且被用于识别文档中的给定实体。例如并且参考图2，范例配置文件的部分被提供并且包括针对图2中的实体中的一些的定义。配置文件可以由语义建模引擎120生成和/或可以经由客户端设备106由用户提供。例如，图2中所图示的图形可以经由在客户端设备106上运行的一个或多个应用由用户生成和/或由语义建模引擎120由提供给用户的一个或多个模板生成，并且语义建模引擎120可以响应于被提供定制实体定义和定制实体识别定义而生成图3的配置文件。

图3的配置文件包括针对<单个_列举>节点305的定义，以及定制实体识别定义310的进一步的定义。此外，<单个_列举>节点定制实体定义305包括针对子实体<直径>315的定义。<直径>实体定义315额外地包括定制实体识别定义320。在图3中引用的定制实体识别定义可以是定制识别模型，诸如存储在一个或多个数据库(诸如语义模型数据库156)中的机器学习模型(例如，CNN、LSTM等)。在一些实施方式中，定制实体识别定义可以对用户而言是个人的和/或可以是公开可用模型和/或定义。实体识别定义的其他范例先前地被提到，并且可以包括例如正则表达式、条件随机场、递归神经网络，诸如长短期记忆和组合长短期记忆网络、和/或用于实体识别方案的其他方法。

例如，条件随机场(CRF)是一类序列建模方法，其与离散分类器不同，在序列标记任务期间考虑上下文。CRF常常被用于应用，诸如语音标记、浅解析和命名实体识别(NER)的部分。具有标签以及特别设计的特征模板的注释文本序列被要求以便训练针对特定序列标记任务的CRF。因此，必须开发任务特异性知识以创建语言特征模板用于训练。具有固定窗口大小的前馈神经网络和递归神经网络可以被用于序列标签分类和实现巨大的成功。长短期记忆网络或者“LSTM”被设计为避免长相关性问题，其中，长时间段的记忆信息是默认行为。作为结果，其适于按顺序获悉长相关性上下文特征。

在一些实施方式中，一个或多个实体可以仅基于配置文件中所提供的信息来生成。例如，针对<单个_列举>实体，提供了定义。在一些实施方式中，可能已经定义一个或多个实体，要么在配置文件中其他地方要么在不同配置文件中。例如，<单个_列举>实体定义包括<v>和<ant>的子元素作为定义中的“加载”子元素，这指示那些实体在其他地方定义，并且已经定义的定义(包括识别定义)仅需要加载到该配置文件中。因此，用户可以定义实体一次并且在稍后时间重新使用实体定义而不必重新定义实体和其识别定义。例如，一个或多个数据库可以包括预定义实体并且用户可以仅仅指定实体的标识符以在稍后配置中调用该实体。

如先前地所描述的，配置文件由模型配置引擎112生成并且实体图由语义建模引擎120编译。在这样做时，语义建模引擎120遍历实体图的节点并且生成针对实体中的每个的类，要么通过加载现有类要么通过为新定制实体创建新类。实体类中的每一个包括掩模，即，由模型运行器用于替换文档中的实体信息的图2中的项。

模型运行器114然后从客户端设备106接收输入文档(例如，临床评论或者报告)或者从文档数据库158获得输入文档，并且运行编译实体图以解析来自所识别的文档的实体。结果是表示文档中所识别的实体的层次结构的文档树。在一些实施例中，模型运行器114跟随映射-降低范式，利用并行运行器114a以执行映射并且利用模式分解器114b以执行降低。在映射步骤中，并行运行器114a并行运行实体图的给定水平中的图中的每个实体节点(即，解析针对图的水平中的每个实体的输入文档的拷贝)并且标记文本的每个拷贝中的所识别的实体。一旦输入文档的多个拷贝已经标记，模式分解器114b将标记文本融合为输入文档的单个表示，所有实体被标记。此外，模式分解器114b分解文本的拷贝之间的潜在冲突，诸如当两个实体被识别为在文本的相同部分中发生时。一旦具有标记的所有实体的文本的标准版本已经针对图形的水平确定，标记文本以相同方式与实体的下一水平一起利用。模型运行器114继续解析文本直到到达实体图的根节点。

参考图4，提供了文档的映射-降低的图示。图示包括在实体图中定义的实体并且包括一般实体E1、E2、E3等。针对图形的底部水平中的实体中的每个(即，E6-E10)，文档利用文档的拷贝来扫描。因此，并行运行器114a的5个实例实例化(即，R1-R5)，其中每个利用针对该实体的分配的定制实体识别定义针对相应实体之一扫描文档。结果是五个注释字符串(S1-S5)，其中每个包括针对实体之一的注释。利用由模式分解器114b解决的任何冲突，模式分解器114b然后将S1-S5组合到单个输出空间中作为模式树。当所得组合文本的跨度包括多个嵌套实体时，模式分解器114b调节所得模式树以反映实体图中的实体的层次结构。

参考图5，提供了利用来自文档的范例短语的模式分解器114b的范例。短语“另一肿瘤占据在肝的Ⅶ段与右肾之间大小为2x2x2cm，在门静脉处无血栓”已经被识别，并且实体的最低水平已经被识别。例如，短语中的“2”已经被识别为<n>实体(即，数)，“cm”作为<u>单位实体，“在门静脉处无血栓”作为<？血栓>，“Ⅶ”作为<nrom>，并且“肝”、“肾”和“门静脉”作为<ant>。并行运行器114a生成相同文本中的每个并且识别文本中的每个中的实体之一。模式分解器114b将个体文本组合为单个注释文本。参考图6，完整的范例文本以相同方式被图示并且注释为模式树。

在一些实施方式中，冲突情况可以当识别实体时存在。例如，文本字符串可以被识别为<直径>实体和<seg_inter>实体两者，在一些实施方式中，用户可以在配置文件中和/或当生成配置文件时经由接口定义用于当实体在实体图的同一水平时解决这样的冲突的优先级。例如，用户可以利用“1.0”的优先级定义<seg_inter>并且利用“0.5”的优先级定义<直径>，这指示当两个实体两者针对给定字符串或子字符串识别时，<seg_inter>具有优先级。作为与<seg_inter>实体冲突的<直径>实体的一部分的部分可以从<直径>实体截断以便解决冲突。在一些实施方式中，一个或多个额外方法可以被用于解决这样的冲突。例如，启发式方法可以包括识别实体中的哪一个已经与过往文档中的交叠信息相关联并且为实体中的每个分配评分。然后，具有较高评分的实体然后可以被分配较低评分实体上的交叠文本。在一些实施方式中，分配给字符串的第一实体可以是最后实体并且任何后续实体可以截断，因此保留第一实体作为针对字符串的“正确”实体。

在一些实施方式中，冲突可能存在于实体图的各层之间。例如，参考图7，提供了字符串的两个不同识别的图示，一个具有父实体并且一个具有三个子实体。例如，实体可以包括<ant>实体、<seg_inter>实体、和<直径>实体，如图7中所图示。<单个_列举>实体已经被识别为<ant>实体的跨越部分、所有<seg_inter>实体、和字符串中的<直径>实体的部分。模式分解器114b可以重新调节<单个_列举>的边界以包括所有<ant>实体和所有<直径>实体以保留实体之间的层次关系并且防止所得模式树中的任何信息的不必要的截断。

解析器116允许在处理产生于模型运行器114的文档树中的用户额外功能。在一些实施例中，解析器116提供一个或多个操作符(例如，可以调用的预定义函数)以经由在客户端设备106上运行的一个或多个应用允许用户迭代、查询、和/或其他执行从文档提取的信息。例如，一旦模型运行器114已经执行模型并且为给定文档创建文档树，文档树可以被存储在一个或多个数据库中。当用户经由在客户端设备106上运行的应用对利用文档中的标记实体感兴趣时，解析器116可以向客户端设备106提供接口(诸如API)以允许有意义的信息从文档树提取。

在一些实施方式中，模型运行器114经由懒惰设计范式运行。模型运行器114仅被提供关于要执行的实体图的部分的来自解析器的信息。因此，可以执行实体图的仅特定部分，而图形的剩余物保持静态图表示，如由模型配置引擎112产生的。

例如，参考图8，提供了执行懒惰方法的模型运行器114的范例。解析器116可以将命令提供给“获得下一<单个_列举>”，其指示利用解析器116的应用仅对<单个_列举>具有兴趣。当执行命令时，模型运行器114仅访问包括<单个_列举>实体的子实体的树的部分而非模式树的其他部分(即，利用虚线图示的实体和关系)。模式树的任何其他节点保持未分解，因此防止在运行时在构建整个树时防止不必要的计算时间。当额外实体由解析器16请求时，模型运行器114然后可以利用并行运行器114a和模式分解器114b来分解并且识别稍后请求的实体。语义模型可以被存储在语义模型数据库156中作为部分分解树，当额外实体被请求时在稍后时间处访问，并且新树然后可以被存在其在数据库156中的位置。

注释器118允许真实状况注释从语义应用系统110输出。由于实体识别定义中的一个或多个可以是机器学习模型(如本文所描述的)，经由注释器118提供的注释可以被用于验证识别算法下层的模型在可接受的准确度的情况下识别实体。例如，用户可以经由注释器118利用对实体识别的校正来策展来自语义应用系统110的输出。所得校正可以被用于进一步训练用作实体识别定义的机器学习模型中的一个或多个和/或可以被用于验证来自实体识别中利用的一个或多个模型的未来结果。

例如，再参考图3，<直径>实体利用“机器_学习_模型_1”的定制实体识别定义创建，其可以是已经基于先前训练数据训练的机器学习模型。一旦模型运行器114识别<直径>实体并且解析器116将实体提供给用户，用户可以识别<直径>实体不正确(或者备选地，确认实体被正确识别)。用户可以利用注释器118注释结果并且一个或多个部件可以更新“机器_学习_模型_1”以反映由用户提供的真实信息。因此，注释的结果可以用作用于机器学习模型的训练实例和/或可以在未来用于验证识别为<直径>的实体“正确”。在一些实施方式中，多个机器学习模型可以基于单个注释来更新。例如，<直径>实体可以是一个或多个其他实体的子实体，并且与父实体相关联的机器学习模型还可以基于结果的用户注释来更新和/或重新训练。

参考图9。提供了图示本文所描述的方法的范例实施方式的流程图。在一些实施方式中，可以包括额外步骤和/或可以省略一个或多个步骤。

在步骤900处，接收配置文件。配置文件可以由与设备106共享一个或多个特性的部件提供。配置文件可以包括一个或多个定制实体定义以及用于识别文本中的实体的方法的定义。例如，用户可以利用在设备106上执行的一个或多个工具来定义实体，并且将识别算法分配给实体中的每个。

在步骤905处，实体图基于配置文件中的定制实体定义来生成。实体图基于配置文件来确定定制实体如何相关，诸如当实体包括其他实体时的实例。例如，“体积”实体可以包括三个“数”实体和“单位”实体。基于定制实体定义，生成反映实体之间的关系的实体图。

在步骤910处，识别感兴趣文档。感兴趣文档可以由设备106提供和/或一个或多个部件可以识别存储在一个或多个数据库中的文档。感兴趣文档可以是例如文本文档并且包括用户对解析以识别定制实体具有兴趣的一个或多个字符串，如配置文件中所定义的。

在步骤915处，在感兴趣文档中识别多个令牌。令牌可以是变化长度的文本的字符串并且可以基于一个或多个标记化技术来识别。在步骤920处，针对令牌中的每个，确定文档实体。文档实体基于配置文件中的定制实体定义以及配置文件中所提供的定制识别定义来确定。在步骤925处，文档树基于所识别的文档实体来生成。文档树包括文档中所识别的令牌，每个令牌利用如配置文件中所描述的定制实体标记。

在步骤930处，将文档树提供给用户。文档树然后可以由解析器用于从文档提取实体并且给用户提供来自文档的实体信息。例如，用户可以利用解析器从文档提取所有“肿瘤”实体。

图10是可以任选地被用于执行本文所描述的技术的一个或多个方面的范例计算设备1010的框图。在一些实施方式中，设备106、语义应用系统110和/或(一个或多个)其他部件中的一个或多个可以包括范例计算设备1010的一个或多个部件。

计算设备1010典型地包括至少一个处理器1014，其经由总线子系统1012与多个外围设备通信。这些外围设备可以包括：存储子系统1024，包括例如存储器子系统1025和文件存储子系统1026；用户接口输出设备1020；用户接口输入设备1022；以及网络接口子系统1016。输入设备和输出设备允许与计算设备1010的用户交互。网络接口子系统1016向外部网络提供接口并且被耦合到其它计算设备中的对应的接口设备。

用户接口输入设备1022可以包括：键盘；指点设备，诸如鼠标、跟踪球、触摸板或图形输入板；扫描器；并入到显示器中的触摸屏；音频输入设备，诸如语音识别系统，麦克风；和/或其他类型的输入设备。通常，术语“输入设备”的使用旨在包括所有可能类型的设备和将信息输入到计算设备1010中或通信网络上的方式。

用户接口输出设备1020可以包括显示子系统、打印机、传真机或诸如音频输出设备的非视觉显示器。显示子系统可包括阴极射线管(CRT)、诸如液晶显示器(LCD)的平板设备、投影设备或用于产生可见图像的一些其他机构。显示子系统还可以提供非视觉显示，诸如经由音频输出设备。通常，术语“输出设备”的使用旨在包括所有可能类型的设备以及将信息从计算设备1010输出到用户或另一机器或计算设备的方式。

存储子系统1024存储提供在本文中所描述的模块中的一些或全部的功能的编程和数据结构。例如，存储子系统1024可以包括逻辑以执行本文所描述的(一个或多个)方法的选定的方面。

这些软件模块通常由处理器1014单独地或者组合其他处理器执行。被使用在存储子系统1024中的存储器1025可以包括多个存储器，包括用于在程序执行期间指令和数据的存储的主随机存取存储器(RAM)1030和固定指令被存储的只读存储器(ROM)1032。文件存储子系统1026可以为程序和数据文件提供永久存储，并且可以包括硬盘驱动器、软盘驱动器连同相关联的可移除介质、CD-ROM驱动器、光盘驱动器或可移除介质盒。实施特定实施方式的功能性的模块可以由存储子系统1024中或由(一个或多个)处理器1014可访问的其它机器中的文件存储子系统1026存储。

总线子系统1012提供用于让计算设备1010的各种部件和子系统根据预期彼此通信的机构。尽管总线子系统1012示意性地被示出为单个总线，但是总线子系统的备选实施方式可以使用多个总线。

计算设备1010可以具有变化类型，包括工作站、服务器、计算集群、刀片服务器、服务器群或任何其他数据处理系统或计算设备。由于计算机和网络的不断改变的性质，出于图示一些实施方式的目的，图10中所描绘的计算设备1010的描述仅被预期为特定范例。具有比图10中所描绘的计算设备更多或更少的部件的计算设备1010的许多其他配置是可能的。

Claims

1.一种由一个或多个处理器实施的方法，包括：

接收(900)配置文件，其中，所述配置文件包括一个或多个定制实体定义，并且其中，每个定制实体定义包括实体识别定义；

基于所述定制实体定义来生成(905)实体图，其中，所述实体图定义所述定制实体定义之间的关系；

识别(910)感兴趣文档；

利用所述实体图来解析所述感兴趣文档，其中，解析所述感兴趣文档包括：

识别(915)所述感兴趣文档中的多个令牌，

针对所述令牌中的每个令牌确定(920)文档实体，其中，所述文档实体匹配所述定制实体定义中的一个，并且

基于所述文档实体、所述定制实体定义、所述定制实体定义之间的所述关系和所述感兴趣文档来生成(925)文档树，其中，所述文档树包括所述文档实体和所述文档实体之间的关系；并且

将所述文档树提供(930)给用户。

2.根据权利要求1所述的方法，还包括：

识别针对所述文档树的解析器(116)；

接收来自所述用户的解析请求；

解析所述文档树以识别对所述解析请求进行响应的一个或多个实体；并且

将指示响应实体的输出提供给所述用户。

3.根据权利要求2所述的方法，其中，只有对所述解析请求进行响应的所述实体被包括在所述文档树中。

4.根据权利要求3所述的方法，还包括：

接收来自所述用户的第二解析请求；

解析所述文档树以识别对所述第二解析请求进行响应的一个或多个额外实体；并且

提供指示所述额外实体的输出，其中，只有所述一个或多个实体和所述一个或多个额外实体被包括在所述文档树中。

5.根据权利要求1所述的方法，还包括：

接收与所述文档树相关联的注释信息；

基于所述文档树和所述注释信息来生成一个或多个训练实例；并且

基于所述训练实例来更新所述实体识别定义中的一个或多个。

6.根据权利要求1所述的方法，其中，所述实体识别定义中的至少一个是机器学习模型。

7.根据权利要求1所述的方法，其中，解析所述感兴趣文档包括并行解析所述感兴趣文档的多个拷贝并且融合所解析的拷贝。

8.根据权利要求7所述的方法，其中，所述并行解析和所述融合是根据映射和减少范式来执行的。

9.根据权利要求7所述的方法，其中，通过截断在所解析的拷贝中的至少一个拷贝中冲突的一个或多个实体来解决所解析的拷贝之间的冲突。

10.根据权利要求7所述的方法，其中，通过扩展父实体以包括所述父实体的一个或多个子实体中的全部来解决所解析的拷贝之间的冲突。

11.一种包括指令的至少一个非瞬态计算机可读介质，响应于由一个或多个处理器对所述指令的运行，所述指令使所述一个或多个处理器执行以下操作：

识别(910)感兴趣文档；

识别(915)所述感兴趣文档中的多个令牌，

将所述文档树提供(930)给用户。

12.根据权利要求11所述的非瞬态计算机可读介质，还包括：

识别用于所述文档树的解析器(116)；

接收来自所述用户的解析请求；

将指示响应实体的输出提供给所述用户。

13.根据权利要求12所述的非瞬态计算机可读介质，其中，只有对所述解析请求进行响应的所述实体被包括在所述文档树中。

14.根据权利要求13所述的非瞬态计算机可读介质，还包括：

接收来自所述用户的第二解析请求；

15.根据权利要求11所述的非瞬态计算机可读介质，还包括：

接收与所述文档树相关联的注释信息；

16.根据权利要求11所述的非瞬态计算机可读介质，其中，所述实体识别定义中的至少一个是机器学习模型。

17.根据权利要求11所述的非瞬态计算机可读介质，其中，解析所述感兴趣文档包括并行解析所述感兴趣文档的多个拷贝并且融合所解析的拷贝。

18.根据权利要求17所述的非瞬态计算机可读介质，其中，所述并行解析和所述融合是根据映射和减少范式来执行的。

19.根据权利要求17所述的非瞬态计算机可读介质，其中，通过截断在所解析的拷贝中的至少一个拷贝中冲突的一个或多个实体来解决所解析的拷贝之间的冲突。

20.一种包括一个或多个处理器和能够与所述一个或多个处理器耦合的存储器的系统，其中，所述存储器存储指令，所述指令响应于由一个或多个处理器对所述指令的运行而使所述一个或多个处理器执行以下操作：

识别(910)感兴趣文档；

识别(915)所述感兴趣文档中的多个令牌，

将所述文档树提供(930)给用户。