CN109213870B

CN109213870B - 文档处理

Info

Publication number: CN109213870B
Application number: CN201810691975.1A
Authority: CN
Inventors: J·R·普里斯塔斯; T·L·奥加拉; B·萨卡莱努; U·博万; M·考克兰; P·萨里斯丹; J·弗德; T·D·佩里; T·M·加夫尼; M·H·福托普洛斯
Original assignee: Accenture Global Solutions Ltd
Current assignee: Accenture Global Solutions Ltd
Priority date: 2017-06-30
Filing date: 2018-06-28
Publication date: 2022-04-29
Anticipated expiration: 2038-06-28
Also published as: US10796080B2; US20190005012A1; US10489502B2; US20190087395A1; CN109213870A; AU2018203570B1; EP3422202A1

Abstract

一种文档处理系统接收电子文档，该电子文档包括从各种源生成的具有不同格式的组件文档。除了格式化信息和结构化信息之外，还可以从电子文档中提取纯文本数据。纯文本数据被划分为区段，并从这些区段中提取和链接各种实体。根据样式信息对显示包括纯文本数据的内容的交互式图形用户界面(GUI)进行格式化，并且从所链接的实体确定注释实体关系。GUI使得能够对注释实体关系进行用户编辑。

Description

文档处理

相关申请的交叉引用

本申请是于2018年1月24日提交的美国非临时专利申请序列号15/879,031的部分继续申请，其又要求于2017年6月30日提交的美国临时专利申请序列号62/527,441的优先权，这些申请的公开内容明确地通过引用整体并入本文。

背景技术

各种类型的表单或文档被广泛用于收集用于各种目的的信息。医疗、商业、教育和政府组织使用各种格式的文档来收集信息和用于保存记录的目的。计算机和通讯网络的出现导致文档被移到网上，使得人们不再需要在纸张上填写表单。另外，现在包括纸质文档的电子副本和经扫描副本在内的数字化记录使用计算机生成。这些电子文档通过通信网络共享，从而节省了生成和交换纸质文档可能所需的时间和资源。

这些文档可以包含结构化和非结构化格式的数据。结构化文档可以具有嵌入代码，其使得能够以指定格式安排信息。非结构化文档包括自由形式的布置，其中原始文档中的信息的结构、样式和内容可能无法得以保留。对于保存记录的实体来说，创建并存储可能包括来自多个源的内容的大型非结构化电子文档并不少见。

通常，各种企业系统希望利用来自电子文档的信息以执行操作。以编程方式从具有明确定义或组织的数据模型的结构化文档中提取信息相对容易，诸如从表单中的字段提取数据(例如，表格式布置中的数据)，其中这些字段位于表单中的已知位置中。然而，当电子文档包括大型非结构化文档(诸如上文所讨论的非结构化文档的类型)时，提取执行企业系统或其他类型系统的操作可能需要的信息在技术上很困难。这种类型的非结构化文档通常没有明确定义的数据模型，因此难以可靠地以编程方式解析并从文档中提取所需的信息。

附图说明

通过以下附图中所示的示例对本公开的特征进行说明。在以下附图中，相同的数字指示相同的元件，其中

图1是示出了按照本文中所描述的示例的文档处理系统的框图。

图2是示出了按照本文中所描述的示例的文档处理器的细节的框图。

图3示出了按照本文中所公开的示例的实体处理器的框图。

图4是详述了按照本文中所公开的示例的导出实体关系的方法的流程图。

图5示出了详述了按照本文中所描述的示例的将非结构化文档转换为标记文档的方法的流程图。

图6是详述了按照本文中所描述的示例的处理文档并从所处理的文档中提取信息的方法的流程图。

图7示出了详述了按照本文中所描述的示例的生成经过滤的分段文档的方法的流程图。

图8至图10示出了按照本文中所描述的示例的文档处理系统的图形用户界面(GUI)。

图11示出了按照本文中所描述的示例的可以用于实现文档处理系统的计算机系统。

具体实施方式

出于简单和说明的目的，本公开主要参照其示例来进行描述。在以下描述中，阐述了许多具体细节以提供对本公开的透彻理解。然而，显而易见的是，可以实践本公开而不限于这些具体细节。在其他实例中，一些方法和结构尚未被详细描述以免不必要地模糊本公开。贯穿本公开，术语“一”和“一个”旨在表示特定元件中的至少一个。如本文中所使用的，术语“包括(includes)”意指包括但不限于，术语“包括(including)”意指包括但不限于。术语“基于”意指至少部分地基于。

根据本文中所描述的一个或多个示例，描述了一种文档处理系统，其处理电子文档，诸如但不限于包括一个或多个组件文档的结构化和非结构化文档，以提取期望的信息并且以具有根据最初从中提取信息的组件文档的样式的用户可编辑格式来显示信息。由系统处理的文档可以包括结构化文档、非结构化文档和/或组合成单个电子文档的多个组件文档。形成电子文档的多个组件文档可以包括非结构化文档、结构化文档或者非结构化文档和结构化文档的组合，其中结构化文档可以具有定义的数据模型。多个组件文档可以从多个源获得和/或可以具有不同的格式。不同的格式可能包括但不限于不可编辑图像格式，诸如.pdf、.jpeg、.png等，或其他类型文档的格式。非结构化文档可能没有定义的数据模型，因此难以编程方式从文档中解析和提取期望的信息。

文档处理系统可以包括文档处理器子系统，该文档处理器子系统访问电子文档，该电子文档可以包括由组件文档组成的单个电子文档，以生成包括来自电子文档的信息的经过滤的分段文档。根据示例，文档处理系统可以接收文档，该文档可以包括如上文所描述的结构化文档和/或非结构化文档，以从数据存储装置或通过通信网络进行处理。光学字符识别可以用来标识接收的电子文档中的文本数据的文本特征和样式特征。确定与样式细节(诸如但不限于字体、样式、尺寸、颜色等)相关联的标记标签。另外，如果电子文档包括数据表示结构，诸如列表或表格，则还提取与这种数据表示结构相关联的标记标签。这样确定的标记标签被应用于识别的字符以生成标记文件。从标记文件中提取的纯文本数据基于边界而被进一步划分，并且使用训练过的分类器进行过滤以移除不相关的页面。产生经过滤的分段文档，其可以具有多个页面，其中每个页面在两个连续边界之间延伸；并且，该经过滤的分段文档包括用来自经处理的文档的样式细节注释的文本。

实体处理器可以分析经过滤的分段文档的每个页面，以在多个知识源上使用自然语言处理(NLP)和实体识别(ER)技术来标识和提取各种实体。实体可以是表示预先确定的主题的单词或短语。在示例中，页面内的实体中的每个实体可以被分类为表示要验证的状态或条件的条件实体或提供对条件实体的支持的证据实体中的一个。可以使用领域特定的准则、词法规则和语言规则进一步过滤实体以移除不相关的实体。可以查询知识库来发现不同类型实体之间的新候选链接。另外，可以采用用户反馈来添加新链接或使实体之间的现有链接无效。

可以经由交互式GUI来显示从经处理的文档提取的信息以供用户审核，该交互式GUI经由注释显示实体关系。所提取的信息可以使用从经处理的文档中标识的格式进行注释，并在交互式GUI上显示。交互式GUI可以准许用户编辑页面之间的边界，建立新链接或移除实体之间的现有链接。与经处理的文档相关联的知识库可以根据用户输入或反馈来修改，以便实体的后续分析可以基于用户输入。

文档处理系统可以被配置为不仅用于经由反馈自动学习和改进，而且还可以支持性能监视。例如，反馈可以包括正反馈，其强化文档处理系统的输出。反馈还可以包括上文所提及的对注释、实体关系和边界中的一个或多个的用户编辑。如果响应于经由GUI显示的信息而未接收到用户编辑，则可以意味着强化文档处理系统的输出的隐式正反馈。在示例中，如果来自文档处理系统的输出包括结论或诸如健康相关文档的情况下的诊断，则隐式正反馈可以指示提供结论的源的更高准确性。源可以是文档处理系统，其使用知识库和/或领域本体论提供结论，或者源可以是人类用户，其在生成GUI的过程期间审核信息。因而，文档处理系统记录用于提供结论的源的更高准确性或更高排名。基于由此获得的反馈，可以确定文档处理系统可能需要进一步的配置改变或者提供结论的用户需要进一步的训练。因此，文档处理系统可以被配置为从所接收的电子文档收集对所显示的信息的反馈并且自动从反馈中学习，从而随使用而不断地改善输出。

文档处理系统的技术改进可以包括提高从文档中提取的期望的信息的准确性。此外，经处理的文档可以包括不同格式的结构化文档和非结构化文档中的一个或多个，其中一些可以包括键入的文本数据，而另一些可以包括手写文本，一些数据可以以表格、图或其他非文本格式呈现。文档处理系统可以分析这些大量格式的异构文档以标识和评估其中呈现的信息。此外，在处理文档期间执行的文本数据变换表示了技术改进，因为它们允许以原始文档的样式来动态呈现来自不可编辑图像文件的数据。由于使用基于机器的文档处理方法被用于从一个或多个电子文档中提取信息，所以可以帮助提高文档审核过程的速度和准确性。当文档被GUI显示时，人类用户可以审核从该文档中提取的要点或重要信息，而不是检查组件文档中的每个组件文档用于筛选细节以标识重要信息。此外，机器在日常数据挖掘过程中可以更加准确和快速，因此文档处理系统也可以提高准确性。然而，文档处理系统经由交互式GUI同时提供用户参与，该交互式GUI准许用户编辑从经处理的文档导出的数据或信息，从而利用用户反馈改善知识库。

图1是示出了按照示例的文档处理系统100的框图。文档处理系统100接收电子文档作为图像文件，并且处理电子文档以显示来自每个电子文档的注释信息。与文档处理系统100相关联的GUI生成器108生成GUI 160，其显示来自非结构化文档的信息，该非结构化文档按照构成非结构化文档的原始组件文档111中所呈现的信息的样式而被注释和格式化。GUI 160可以被进一步配置为显示从如本文中所详述的非结构化文档中的信息导出的结论。因此，文档处理系统100不仅通过使得能够显示来自非结构化文档的注释信息，而且还能够通过向检查添加功能、准确可靠地解密并从非结构化文档中的信息中得出结论，从而自动执行用于非结构化文档的大量任务(诸如验证、路由、紧急性检测等)，来改善信息处理系统。

文档处理系统100包括文档处理器子系统102、实体处理器104、文档验证器106、GUI生成器108和性能估计器114。提供给文档处理系统100的电子文档110可以是各种格式的多个组件文档111的单个不可编辑图像文件，这些组件文档包括一个或多个(例如，数十各或数千个)页面，其包含领域特定的信息。电子文档的示例可以包括但不限于结构化文档和非结构化文档，诸如合同、抵押文档、索赔、客户信件、保健利益的解释(EOB)、建议书、社交媒体消息、电子健康记录(EHR)等。电子文档可以从多种源(诸如扫描的手写笔记、自动生成的话音文件的转录等)产生。电子文档110因此可以包括从诸如扫描仪之类的光学设备生成的各种文档或从数据存储库或经由通信网络的传输获得的诸如逗号分隔值(CSV)文件、电子表格、演示文稿等之类的数据文件。包括在电子文档110中的图像可以具有各种格式，诸如.pdf、.png、.jpeg等。

文档处理系统100可以被配置为执行各种数据相关功能，诸如但不限于从电子文档110中的不可编辑图像文件提取信息，在GUI上以可编辑格式呈现所提取的信息，验证在电子文档110中呈现的信息的准确性并呈现对电子文档110中所呈现的信息的备选物。

文档处理器子系统102最初将电子文档110处理成包括诸如超文本标记语言(HTML)文件之类的标记的文件，该文件保留电子文档110中原始文档的结构、样式和文本。标记文件132还可以包括标签，其保留电子文档110中的文本的格式细节。从标记文件132中提取纯文本以及格式和样式信息。可以基于不同准则将纯文本数据进一步处理成多个页面。

在示例中，从标记文件132中提取的纯文本可以基于电子文档110中的日期被分解或自动划分成区段。可替代地或附加地，可以基于文档类型(诸如文档是合同、社交媒体通信的集合还是EHR等)来分解页面。与文档处理系统100相关联的数据存储库180存储规则122，其可以与机器学习(ML)技术一起由文档处理器子系统102采用，以便将纯文本数据分解成较小的组成页面。

文档划分采用问题分解途径来将电子文档110分解成更小的、更容易解析的页面，其提供更好或更紧密聚焦的上下文，用于从电子文档110提取相关信息。在示例中，相关信息可以包括实体的名称，并且这种类型的信息的提取被称为实体提取。首先，更好的文本内容使得能够标识、消歧和链接实体，其中实体周围的语义依据文档类型而不同。

例如，在EHR的情况下，当与在实验室报告中的实体相关联的上下文相比较时，医嘱内的实体上下文可能不同。其次，通过标识文档类型来划分从电子文档110获得的纯文本文档将可以在各种类型的实体之间建立的关系的范围限制到实体发生的文档上下文，而不是消歧整个电子文档110的上下文。更进一步地，文档处理器子系统102还编辑电子文档110以移除不相关的部分。因此，文档处理器子系统102接收包括多个页面的电子文档110作为输入，提取并提供经过滤的分段文档112。经过滤的分段文档112保留来自电子文档110的原始结构和文本格式，同时不相关页面可以被删除。

文档处理系统100还包括实体处理器104，其从文档处理器子系统102接收经过滤的分段文档112，并且自动标识各种类型的实体并确定各种类型的实体之间的关系。实体142可以是与基于电子文档110的类别的某些条件和支持性证据的发生相关联的关键词。例如，在合同中所遇到的实体可以与在电子健康记录(EHR)中所遇到的实体或在社交媒体消息的集合中的实体不同。

实体142中的一个或多个实体可以被分类为各种实体类型，其可以至少包括条件实体和证据实体。条件实体可以是与文档处理系统100正在证实、验证或批准的条件相关联的那些实体。每个条件实体可以链接到一个或多个证据实体。证据实体是那些支持条件实体验证或实现的实体。从电子文档110提取的条件实体和证据实体也取决于电子文档110的类别。例如，如果当前任务涉及处理健康相关条件，则条件实体可以是与身体所经历的各种健康条件相关联的那些实体，这些健康条件可以包括疾病、受伤、感染等。证据实体可以包括以下各项中的一项或多项：药物、症状、治疗、测试、健康或身体指标、以及与其相关的数值范围或数值。基于条件实体和相关证据实体之间的关联或链接的强度，文档处理系统100可以被配置为确定电子文档110中关于特定条件的结论的准确性。实体处理器104被配置为针对每个条件实体的证据实体进行评分和排名，以便估计进一步导致建立该特定条件的存在的相关程度。因此，文档处理系统100被配置为证实、反驳或者提出针对在电子文档110中提出的条件的备选条件。

文档处理系统100还可以包括文档验证器106，其进行验证检查以确保输出的准确性和质量。验证检查为了完整性、正确性和有意义性而验证经过滤的分段文档112。完整性检查需要验证电子文档110中的表单内的必要字段被填写。在任何必需字段为空的情况下，文档处理系统100可以标记字段以供人类操作员填写。在正确性检查中，基于手动反馈来建议输出，并且如果字段与输出没有对齐，则提示用户改变字段。例如，如果要为电子文档110中的事项提供授权，但是满足必要准则的策略未被填写，则可以在电子文档110被进一步处理以批准该策略之前提示文档处理系统100内的电子文档110的人类审核员验证该策略。有意义性要求电子文档110对其中包括的所有建议具有足够的支持。例如，如果电子文档110(其可能是EHR)的人类审核员想要添加用于风险调整的诊断代码并且不提供必要的支持，则在继续之前，审核员将被提示添加支持。例如，在验证检查期间可能会显示消息，例如，“E11.6-具有并发症的糖尿病必须有足够的临床支持才能成为证实的代码”。

GUI生成器108使得能够生成GUI 160，其显示由文档处理系统100提取的信息和链接。连同从标记文件132提取的样式标记一起，GUI 160产生所提取的实体和实体关系的可视化作为在电子文档110的纯文本上的注释。诸如标题、粗体或斜体文本、下划线、字体颜色等之类的样式信息通常在OCR到纯文本提取之后丢失，但是将该信息保存为单独的标记提供了在GUI 160中的非结构化文档文本的顶部显示原始样式信息的灵活方式。

更进一步地，在GUI 160中分开处理注释和所提取的文本允许连续学习，其中用于文档处理系统100的用户反馈162可以从与GUI 160的用户交互中捕获。因此，文档处理系统100被配置有反馈组件，其经由接收和实现用户反馈162来实现功能的持续学习和改进。诸如验证有效或使提取的实体和实体关系无效的用户交互基于置信度水平来在知识库170中建模并捕获，该知识库170可以包括关于关系和关联的信息。知识库170可以用于指导由文档处理系统100做出的未来选择。知识库170可以被存储在数据存储库180或远程数据存储库上。由GUI 160提供的可视化还支持捕获提供反馈的用户交互，从而向文档处理系统100提供连续学习。

上文所描述的反馈组件允许确定人类用户中的一个或多个人类用户和文档处理系统100的性能。性能估计器114被包括在文档处理系统100中，以基于由人类用户和/或文档处理系统100所提供的预测或结论的准确性来确定性能。例如，在GUI 160中的一个GUI160输出诸如诊断之类的结论的情况下，证实或改变诊断的用户反馈162可以使得性能估计器114能够确定导致结论的输入的准确性。证实结论的用户反馈162使得性能估计器114能够确定诸如另一人类用户和/或文档处理系统100之类的结论的源是准确的。相反，改变结论或诊断的用户反馈162允许性能估计器114指示向结论提供输入的文档处理系统100和人类用户中的一个或多个是不准确的。可以建议进一步的配置改变，其包括对实体处理器104的进一步训练。类似地，可以为人类用户建议关于该领域的进一步训练。性能估计器114还可以被配置为记录和比较不同人类用户之间的关于他们对于结论的输入的准确性的性能。因此，性能估计器114可以允许基于结论的相应准确性来对人类用户和文档处理系统100进行排名。

图2是示出了按照本文中所描述的示例的文档处理器子系统102的细节的框图。在下文的整个描述中可以使用诸如EHR之类的某些示例文档，用于解释文档处理系统100的元件时具有一致性。然而，应当理解，诸如合同、社交媒体消息、抵押文档、建议书等之类的其他文档可以按照本文中所公开的示例由文档处理系统100进行类似地处理。

文档处理器子系统102包括标记文档生成器202、边界生成器204、页面过滤器206和文本提取器208。标记文档生成器202接收电子文档110并生成标记文件132，该标记文件132可以进一步被处理以从构成电子文档110的组件文档111中提取文本以及格式和结构元数据。构成电子文档110的各种组件文档111由光学字符识别器222处理，用于标识文本数据以及格式和文档结构信息或元数据。

光学字符识别器222可以包括经训练的人工智能(AI)元件，诸如神经网络，其能够针对大部分常用字体高度准确地识别字符并且可以支持各种图像格式。更进一步地，人工智能元件还可以被训练，以不仅标识特定文本字符，还可以重新产生格式化的输出，该格式化的输出可以根据格式、结构、表格和其他非文本元件来模仿原始文档。

在示例中，文档处理器子系统102可以被编程为基于包含该信息的表单来标识信息。光学字符识别器222可以被配置为检测所使用的表单的类型并且使用关键词、格式和表单布局中的一个或多个来提取信息。例如，页面上的复选框的状态可以指示两个可能状态之间的实体的状态。光学字符识别器222可以对图像进行预处理以用于去偏斜等，并且实现诸如但不限于模式匹配、特征提取、以及使用诸如KNN(k最近邻)之类的算法进行文本字符与所存储的字形的比较等之类的技术，用于为每个提取的字符特征选择最近匹配。

由光学字符识别器222标识的文本数据连同对应的字体、格式和其他非文本元数据一起被提供给标记标签提供器224。标记标签提供器224可以标识要被应用于特定文本数据的标记标签，以便按照被包括在电子文档110中的原始组件文档111来再现标记版本。在示例中，标记标签可以包括HTML标签。对诸如粗体、下划线、斜体、字体属性(诸如大小、颜色、类型)、文本数据组织(诸如行和段落中断)、数据表示结构(诸如列表、表格等)等之类的文本数据的效果可以使用由标记标签提供器224标识的标签来实现。文本和标签组织器226将由标记标签提供器224获得的标签应用于由光学字符识别器222标识的文本数据，以产生标记文件132。

标记文件132可以由文本提取器208处理以获得文本和格式信息。文本提取器208可以采用模式匹配、NLP等来提取标记文件132的纯文本数据。通过从标记文件132获得格式标签来提取格式元数据。按照示例，纯文本数据和格式标签可以被分开存储。因此，来自文本提取器208的输出包括纯文本数据的单个连续页面和表示构成电子文档110的组件文档111中的格式样式的格式元数据的标记标签的集合。

被配置为用于自动文档划分的边界生成器204处理单张连续纯文本数据表，使得纯文本数据基于各种因素被划分为多个区段。文本分析器242分析标记文件132中的文本以逐页地计算页面的特征。功能集合可以是灵活的，并且可能是领域特定的。该特征集合可以包括页面上的词法特征，诸如行数、单词、名词、动词等；语言特征，诸如但不限于领域语言或电子文档110的语言(诸如英语)中的单词的百分比、在该页面中检测到的语言的数目等；以及实体特征，诸如领域特定的术语的数目，如名称、页面上的日期等。

可以经由ML技术训练边界模型244，以基于某些边界规则252来预测纯文本数据内的具有连续次序的每个区段是否表示文档边界。在示例中，经训练的边界模型244可以被训练以标识诸如纯文本数据中的日期之类的特定文本数据类型，使得不同日期可以有助于标识电子文档110的不同组件文档111，这些组件文档111与标记文件132的不同页面相对应。日期可以基于在图表上的日期的布置来进行标识。例如，区段的前两行内的日期通常是图表的“打印”日期。

在示例中，出现在日期附近的关键词可以用于标识日期。如果非结构化文档与EHR有关，则“实验室(Lab)”或“按…排序(Ordered by)”单词旁边的日期可能是实验室报告，其中“病情记录(Progress notes)”可能是医疗接触(encounter)/咨询日期。更进一步地，日期部分附近的诸如疾病、药物、症状和测试之类的医疗实体可以进一步并入边界规则252中，用于标识纯文本数据中的日期。经训练的边界模型244可以被进一步训练以基于电子文档110的可能已经从中生成区段的初始文档来对纯文本数据的各区段进行分类。

再次参照EHR示例，基于纯文本数据的各个区段所相对应的电子文档110的各个组成文档，这些区段可以被标识为特定文档类型，诸如实验室报告、处方、订单等。在示例中，边界插入器246可以在纯文本数据内的各区段之间插入分页符。应当领会，在一些示例中，划分或将分页符插入纯文本数据可以与电子文档110或标记文件132的页面相对应。

在其他示例中，将纯文本数据划分成区段不一定与标记文件132的页面一致，而是可以由可以施加一个或多个分组约束的边界规则252支配。例如，边界规则252可能需要设置特定于日期的边界，使得在一天中生成的各种类型的文档可以被分组在一起。在另一示例中，纯文本数据可以基于特定于日期和文档类型的边界被进一步划分。

页面过滤器206从电子文档110的组件文档111中滤出或删除与进一步的数据收集和处理过程无关的页面。例如，页面过滤器206可以采用相关性阈值来确定哪个组件文档111是相关的或者是不相关的。例如，页面过滤器206可以包括ML模型，其包括经训练的分类器262，该经训练的分类器262采用相关性规则254来确定页面是否相关。这里，相关性规则254被用来实现相关性阈值。

在示例中，经训练的分类器262可以是回归分类器。页面过滤器206通过使用诸如逻辑回归分类器之类的经训练的分类器262来确定页面是垃圾的概率。相关性规则254可以包括词法规则，其确定行数、令牌、标点、单词、词法类型(名词、形容词、动词)和字符；确定英语单词百分比的语言规则、在标记文件132中检测到的语言、英语停用单词的百分比等。相关规则254也可以基于领域特定的术语等。

页面过滤器206为每个页面输出相关性判定和相关联的预测分数。在示例中，分类器262可以用来自各种EHR的相关页面和不相关页面的示例进行训练。因此，不相关页面被文档编辑器264从进一步处理中移除。例如，诸如实验室报告之类的医疗记录的封面页面可能被页面过滤器206过滤为不相关。基于边界规则252而被划分为区段的纯文本数据的过滤版本被文档处理器子系统102产生为经过滤的分段文档112。应当领会，根据本文中所公开的示例，由边界生成器204执行的划分纯文本数据的过程以及掉由页面过滤器206执行的过滤掉不相关页面的过程，可以一个接一个地顺序地发生或者同时发生。

如果电子文档110是结构化文档，则应当领会，可能不需要上文所概述的某些过程。例如，如果结构化文档包括标记，则结构化文档可能不需要标记文档生成器202的处理。结构化文档可以由文本提取器208、边界生成器204和页面过滤器206直接处理，用于经由GUI 160显示注释信息。在另一情况下，其中电子文档110的某些组件文档可以是结构化的而其他组件文档可以是非结构化的，如上文所概述的单个图像文件可以被生成并且被如本文中所描述的标记文档生成器202、文本提取器208、边界生成器204和页面过滤器206进一步处理。

图3示出了按照本文中所公开的示例的实体处理器104的框图。实体处理器104处理经过滤的分段文档112以标识各种类型的实体。文档处理系统100被配置为标识两个实体类型，即，条件实体342和证据实体344。各种类型的实体及其关系可以被表达为可以在GUI160内显示的、在文档文本上的注释。

实体标识符302使用NLP结合知识库170和领域特定的本体论来标识经过滤的分段文档112内的实体142。例如，如果正在处理医疗EOB或EHR，则可以使用诸如医疗本体论(其包括但不限于临床文本分析和知识提取系统(cTakes)和统一医疗语言系统(UMLS))之类的领域本体论172。实体标识符302可以采用诸如Meta Map之类的程序，其将来自经过滤的分段文档112的文本映射到UMLS元词表(Metathesaurus)。

在示例中，可以经由将经过滤的分段文档112的文本数据与专有领域特定的库进行比较来标识出现在经过滤的分段文档112的文本中的关键词。例如，具有跨条件、药物、实验室测试的超过5亿种组合的临床库可以用于评估和解释EHR中临床信息的含义。

实体提取器304解析由实体标识器302识别的实体142。各种领域特定的关键词、名词、日期等可以通过实体标识器302被识别为实体。实体分类器和过滤器306基于实体的语义类型来对这些实体进行分类。例如，EHR的语义类型可能包括临床疾病/条件和证据，诸如药物、治疗、症状、实验室结果、所订购的测试和评估。实体的分类可以通过采用诸如UMLS之类的领域本体论172而被执行。

实体可以被分类为条件实体342和证据实体344。条件实体342与条件有关。例如，条件实体342可以与患者所经历的条件有关。条件实体342的示例可以包括但不限于患者所经历的条件、症状或疾病。条件实体342从经过滤的分段文档112中标识。证据实体344可以包括支持条件的结论的证据。证据实体344可以从经过滤的分段文档112中提取。

例如，如果结论是患者被诊断患有糖尿病，则证据实体344可以包括从经过滤的分段文档112中提取的测试结果和症状，其可以支持诊断。实体分类器和过滤器306可以包括训练的AI元件，诸如将实体142分类为条件实体342或证据实体344的分类器。更进一步地，实体分类器和过滤器306过滤或移除不相关的实体。

评估相关性可以包括领域特定的评估并且取决于诸如词法标签之类的相关性指标。例如，可以移除是介词、连词等的实体。可以滤除非常短的术语，其可以是1至2个字符长，包括在知识库170或领域本体论172中可能未找到并且未被扩展或澄清的不相关的缩写。实体也可能基于周围的文本上下文而被移除。例如，可以忽略以否定的‘否’或‘拒绝’引导的条件实体。

实体链接预测器308采用来自知识库170和领域本体论172的数据来标识或预测条件实体342和证据实体344之间的链接或关系。支持或拒绝在电子文档110中概述的对应策略或条件的各种类型的证据实体344可以基于领域特定的库、先前的注释和单词嵌入而被标识。

在示例中，知识图可以用来从知识库170创建图形引用，以确定两个实体类型之间是否存在任何附加链接。阈值分析可以应用于条件实体342和证据实体344之间的链接，使得指示可忽略的相关性的弱链接可以被丢弃。推理引擎382被包括在实体链接预测器308中，用于采用条件实体342和证据实体344之间的已知链接来概括和学习新关系。推理引擎382可以被配置为查询知识库170以使用对知识图的论证或推理来发现条件实体342和证据实体344之间的新候选链接/关系，这些知识图对领域知识和用户与文档处理系统100的交互进行建模。因此，实体链接预测器308被配置为用于连续发现来自由文档处理系统100所处理的非结构化文档的新链接。

在示例中，实体链接预测器308可以包括实体评分器384，其基于与条件实体有关的特征/属性或证据实体来为条件实体342中的每个条件实体指派分数，并且对条件实体342进行排名以选择最有代表性的条件子集。用于对条件实体342进行排名的特征中的一个特征可以包括文档内的上下文。例如，该文档可以是在患者的医生来访期间产生的医生笔记。文档可以是实体出现附近的临床代码，也可以是文档中出现的条件实体等周围的其他条件实体。

在示例中，证据实体的质量与特定条件(诸如支持条件实体的证据实体的数目、支持条件实体的证据实体集合中的、从电子文档110中所提取的证据实体的百分比、链接的证据实体与电子文档110中的条件实体的接近度等)有联系。实体评分器384可以进一步被配置为对用于每个条件实体的证据实体进行评分和排名，以为每个条件实体选择最有代表性的证据实体子集。因此，来自电子文档110的组成文档的条件实体342可以被提取、评分、排名并链接到所提取的证据实体。GUI 160被配置为：在显示经过滤的分段文档112的同时，在文本上显示实体和实体关系作为注释。

在示例中，实体处理器104可以被配置为执行附加任务，诸如但不限于紧急性检测、策略推荐等。条件实体342和证据实体344可以具有特定属性，其可以用于紧急性检测。当文档处理系统100被配置为用于紧急性检测时，可以对条件实体342和证据实体344进行处理，以标识诸如‘尽快’之类的关键词，其指示在电子文档110内的组件文档111上出现的紧急性。文档中出现的特定日期(诸如法定时限)、与可操作项目相关联的日期等可以用于确定与待完成任务相关联的紧急性。

在其中正在处理EHR的另一示例中，特定过程代码可以与紧急性处理自动相关联。标志紧急性的特定代码可能与疾病、药物、症状和测试以及其他实体相关联。也可以从电子文档110中标识明确的指令，使得当处理“这是紧急的并且立即需要”的记录时，可以标识单词‘紧急’和‘立即’，可能导致包含记录的电子文档110被带到处理队列的开始处。

图4是显示从电子文档110导出的实体关系并基于用户反馈来编辑实体关系的方法的流程图。该方法在402处开始，其中接收电子文档110。电子文档110可以包括具有不同数据和文档结构的多个组件文档111，其具有各种格式。在404处，确定电子文档110是否是包括与电子文档110中的信息有关的格式或其他结构数据的结构化文档。在示例中，如果所有的组件文档111都是结构化文档，则电子文档110也可以被认为是结构化文档，使得可以省略转换为标记文件的步骤。然而，如果组件文档111包括至少一个非结构化文档，则电子文档110可以被认为是非结构化文档。如果在404处确定电子文档110是非结构化文档，则所接收的电子文档110在406处被转换为标记文件132，例如，HTML文档。标记文件132包括来自电子文档110的各种组件文档111的文本数据。

如果在404处确定电子文档是结构化文档，则该方法直接转到框408，其中可以在标记文件132内对来自电子文档110的文本数据进行样式化以及格式化，使得标记文件132保留来自电子文档110的原始样式、呈现和文档结构信息。在408处，为了获得标记文件132的纯文本版本，从标记文件132中提取文本。另外，在408处，还获得了标记文件132的元数据。如标记文件132中所表示的，元数据可以包括文本的样式和格式信息、标记文件132内的数据呈现结构以及来自电子文档110的组件文档111的结构信息。

在410处，基于特定边界规则252来标识纯文本的各个区段之间的边界。在示例中，边界规则252可以标识纯文本数据内的边界，其与从中提取纯文本的电子文档110中的对应组件文档111内的边界相同。边界规则252可以使得基于各种准则来对从电子文档110的各种文档提取的信息进行分组。准则可以是领域特定的，使得可以为不同的文档类别选择不同的边界规则252。

通过说明而非限制，如果电子文档110与EHR有关，则边界规则252可以基于诸如医疗接触日期之类的准则来标识边界，使得在一天/一周/一个月内与EHR相关联的患者和各种提供者之间的各种医疗接触或咨询内生成的所有文档在两个边界之间被归为一组。

类似地，在另一示例中，边界规则252可以基于领域特定的准则(诸如条件/疾病)来标识边界，使得在与EHR相关联的患者和各种提供者的各种医疗接触内生成的所有文档对于不同的天/周/月的单个条件在两个边界之间被归为一组。通常，边界规则252还可以基于可以经由GUI 160被明确提供的用户输入或隐式地基于文档处理系统100正在执行的特定过程所寻求的信息的类型来设置边界。边界规则252可以进一步包括词法规则，其基于但不限于行数、令牌、标点、单词、词法类型(诸如但不限于名词、形容词、动词和字符)。

边界规则252可以进一步基于语言规则(诸如英语单词的百分比、在页面中检测到的语言、停用单词的百分比等)来标识边界。更进一步地，包括命名实体(诸如在页面上出现的名称和日期)的领域特定的关键词也可以被用于标识所提取的纯文本内的边界。在示例中，分页符可以被包括在所标识的边界处，使得信息在不同的页面下被示出。

在标识边界时，至少包括用于分析实体周围的上下文的规则的相关性规则254被用来确定包含与要在GUI 160上生成的显示相关的信息的区段，使得可以在412处删除包含不相关的信息的区段。页面过滤器206使用相关性规则254来通过从页面中排除实体来确定HTML内的页面是‘垃圾’或不相关的概率。此外，在确定页面相关性的概率的同时，还可以将词法、语言和临床元素作为考虑的因素。

在示例中，在步骤412处，医疗记录的封面页面可以使用相关性规则254被滤除或删除。因而，在414处，生成经划分和过滤的文档234，其包括从标记文档132中提取的纯文本的经划分和过滤的版本。在416处，提取和处理经过滤的分段文档234中的一对相邻或连续边界内的实体。

在416处，诸如文本匹配和命名实体提取之类的技术可以与用于提取实体的领域本体论172和知识库170结合使用。可以在416处处理实体以用于标识和分类到条件实体342和证据实体344中的一个，并且用于滤除被确定为不相关的实体。例如，关于既往病史所提及的实体也可能基于上下文和规则而被删除。在418处，条件实体342与一对连续边界内的相应证据实体集合链接。

从领域本体论172，可以获得在一对连续边界之间发生的从条件实体342到一个或多个证据实体344的链接或关系。链接可以从领域特定的数据源(诸如在电子文档110中找到的图表、表格、代码和各种类型的其他证据)中标识，以基于领域本体论172、先前注释和单词嵌入来支持或拒绝对应条件。在420处，可以生成具有注释和链接的实体的显示。因此，可以通过应用适当的边界规则来基于用户输入来划分纯文本数据，在GUI 160上生成来自电子文档110的数据的各种可视化。因此，可以使得用户能够在其中根据日期设置边界的可视化与其中根据一个或多个条件设置边界的可视化之间进行动态切换。

在示例中，实体和实体关系可以被表达为GUI 160中的文档文本上的注释。在418处生成的显示可以有助于确定在电子文档110中呈现的关于某些条件的诊断的准确性。如果文档处理系统100针对与电子文档110中的结论相关联的条件实体获得高分，则可以确定结论是准确的。否则，如果文档处理系统100标识出电子文档110中呈现的最高分数的条件实体以外的不同条件实体，则电子文档110可以被标记用于进一步调查。

在422处，获得关于实体注释和链接的用户反馈。在示例中，用户可以验证实体注释和链接或使其无效。例如，用户可以明确地在条件实体和一个或多个证据实体之间添加链接。相反，用户可以删除条件实体342和证据实体344之间的已建立的链接。在任一情况下，在424处，用户提供的反馈可以被存储到知识库，使得对知识库424的后续查询接收包括用户编辑的响应。所生成的进一步显示可以基于被明确提供的用户反馈。

在示例中，文档处理系统100可以将更高优先级指派给来自用户反馈162的条件实体342和证据实体344之间创建的关联或链接。用户的资格可以作为被指派给链接的优先级中的额外的因素。例如，较高优先级可以给予由高级程序员所创建的链接，而不是由较初级或较少经验的程序员所创建的链接。另外，用户可以使用原因代码来验证他们的反馈。回到EHR的示例，如果测试由于违反文档处理系统100的推荐而被拒绝，则拒绝测试的用户可以提供与测试被拒绝用于该条件的原因相对应的原因代码。

图5示出了按照示例的详述将电子文档110转换为标记文档的方法的流程图500。在502处，要转换的电子文档110被处理，以供进行光学字符识别以标识字符。如上文所提及的，在带标签的样本上训练的AI元件可以用于识别各种字符。在504处，获得其他元数据细节，其包括文本数据的属性，诸如从电子文档110的组件文档111中标识的字符的字体属性，诸如字体样式、大小、颜色、效果等。

在506处，还获得电子文档110内的文档的非文本细节，诸如间隔、分页符、数据呈现结构等。在508处，使用诸如经训练的分类器之类的AI元件来标识与各种字体属性和非文本细节相关联的标记标签。在510处，通过将所标识的标签应用于对应文本以及通过根据来自电子文档110的组件文档111的结构来布置与非文本细节相对应的标签，生成标记文档132。例如，与间隔、分页符和段落中断、以及数据结构(诸如列表、表格等)相对应的标签可以用于生成标记文件132。

图6是详述了按照本文中所公开的示例的处理实体的方法的流程图。该方法在602处开始，其中使用诸如文本匹配、名称实体标识等技术来标识经过滤的分段文档112中的各种实体。在604处，从经过滤的分段文档234中标识出的实体被分类为条件实体和证据实体。将实体分类成条件实体342和证据实体344可以基于NLP结合领域特定的词汇表来发生，使得领域中的特定术语或关键词可以被分类为条件实体342，并且其他术语或关键词可以被分类为与特定条件实体相关联的证据实体344。在606处，对实体进行过滤以使用词法规则、语言规则来移除无关实体或标识具有少量出现的无关实体或在电子文档110中被简要提及的实体。

在608处，从领域本体论172中标识从表明电子文档110中包括的特定条件的条件实体342到支持这些条件的证据实体344的链接/关联/关系。在608处，可以链接两个连续边界之间的相同分段或页面内出现的条件实体和证据实体。评估相同分段上的条件实体和证据实体之间的链接简化了链接标识的过程。

在610处，选择条件实体，并且在612处，评估与条件实体相关联的证据实体。可以经由使用证据实体的特征或属性(诸如例如，文档内的证据实体的上下文)进行排名和评分来评估证据实体。评估证据实体的准则可以基于证据实体在电子文档110内所出现的位置。

参照EHR的示例，可以基于以下各项来评估证据实体：证据实体是否出现在医生的记录上，或临床代码是否出现在证据实体附近，正在被评估的证据实体附近的其他证据实体的存在等。在614处，基于对证据实体的评估，选择针对所选择的条件实体的最具代表性的子集的证据实体。例如，在614处，可以选择具有最高分数的前N(N是自然数)个证据实体作为最具有指示性的条件。在616处，确定是否存在另一条件实体，针对其需要收集和评估证据实体。如果是，则该方法返回到612以选择下一条件实体并且评估针对下一条件实体的证据实体。

如果不存在其他条件实体，则该方法进行到618，其中基于条件实体的相应特征或属性来为条件实体指派分数。可以采用各种统计评分方法，诸如平均、获得标准偏差、计算针对每个条件实体的证据实体分数的中位数等，用于获得条件实体342的分数。

条件特征可以包括但不限于两个连续边界之间的分段内的上下文、被链接到条件的支持证据实体的质量、文档中经链接的证据实体与条件实体的位置接近度、支持条件实体的证据实体的平均分数等。比较如此获得的条件实体的分数，使得在620处，对条件实体进行排名，并且在622处，选择最高分数的N(N是自然数)个条件实体作为由证据实体支持的条件实体。

应当领会，条件实体的处理仅通过说明的方式被示出为连续发生，并且当前在计算设备中使用的处理器能够并行地处理大量的条件实体以实现更高的处理速度。

图7示出了详述了按照本文中所描述的示例的生成经过滤的分段文档112的方法的流程图700。该方法在702处开始，其中获得来自标记文件132的纯文本数据。纯文本数据的区段可以基于来自从中提取各区段的标记文件132的对应页面而被最初分析。在704处，分析区段的文本并获得该区段中的特征。如本文中所提及的，诸如但不限于模式匹配和NLP之类的技术可以用于获得该区段的特征，该特征可以包括但不是仅限于词法特征、语言特征和实体特征。

使用经训练的ML模型和/或诸如相关性规则254之类的业务规则，在706处，确定所选择的区段是否与当前由文档处理系统100执行的分析相关。在708处，如果该区段被确定为不相关的，则该区段被删除，并且该方法移动到708以确定是否还有区段用于分析。如果在706处确定该区段是相关的，则该方法进行到710，其中确定该区段是否与边界页面相对应。

如本文提及的，电子文档110是包括多个组件文档111的多文档记录，其被转换为多页标记文件132。边界页面可以是电子文档110内的组件文档的最后页面，使得电子文档110中的下一页将属于另一组件文档。同前，ML技术和边界规则252可以被用来确定纯文本数据的区段是否与经预测的边界或边界页面相对应。

基于特征的分析来为该区段提供预测分数。预测分数可以例如与边界判定阈值进行比较，使得高于边界判定阈值的预测分数可以使页面被确定为边界页面。如果在710处确定该区段不与边界页面相对应，则方法进行到712，其中在716处确定是否仍有更多区段待分析之前，该区段被包括在经过滤的分段文档中。如果在710处确定该区段与边界页面相对应，则在716处确定是否存在更多区段用于分析之前，在714处，在区段之后设置纯文本数据内的边界。如果是，则该方法返回到702以选择下一区段进行处理，否则该方法在结束框上终止。

出于说明的目的，下文对医疗保健领域中的文档处理系统100的使用情况进行讨论。下文所讨论的用户界面也与医疗保健领域有关并且参考作为电子文档110的示例的电子健康记录来说明文档处理系统100的功能。然而，应当领会，本文中所讨论的类似的使用情况、系统和方法可以使用文档处理系统100在诸如金融、制造、法律、石油和天然气、供应链、零售等各种其他领域中实现，以处理被数字化为用于提取和验证数据的不可编辑格式的其他电子文档，诸如发票、合同、贷款文档、社交媒体消息、建议书、声明等。按照本文中所公开的示例，随着使得能够提高各种过程(诸如但不限于简单搜索/定位、分析和商业智能、客户服务和情绪分析、案例管理、法律发现、报告生成等)的速度和准确性，文档处理系统100发现跨各个领域的应用。

图8图示了用于审核患者802的EHR的文档处理系统100的GUI 800。按照本文中所公开的方法来处理EHR以提取关于患者的细节804，该细节可以与实体142相对应，诸如被包括在GUI 800的左手侧(LHS)上的患者姓名附近的出生日期和性别。LHS包括与条件实体342相对应的情况概要806、过去的医疗历史808、以及正在被显示以供审核的EHR中包括的诸如医疗接触的文档的数目等之类的各种医疗接触或患者咨询的细节的列表810。在示例中，LHS可以是领域特定的，使得与不同领域相关联的不同电子文档可以具有在针对领域的相关信息定制的GUI上所显示的信息。GUI 800的右手侧(RHS)部分812包括从EHR的各种组件文档中提取的文本(没有注释)，这些组件文档包括实体，诸如患者姓名814、医疗接触的日期和时间816、提供者身份818等。

图9示出了两个GUI 900和950，其中GUI 900包括从EHR生成的标记文档中提取的纯文本，而GUI 950包括文本信息以及结构和格式细节。GUI 950显示样式文本信息，诸如如EHR的原始文档中包括的粗体文本954或中心对齐956以及诸如表格952之类的数据呈现结构。

GUI 950中示出的样式注释与来自构成EHR的原始组件文档的样式和格式相对应。因此，GUI 950向审核者提供EHR的原始组件文档的显示，同时从EHR提取信息以使得能够分析证据、确认条件、提出可能存在的其他可能的同时或备选条件等。这种信息功能不适用于从中生成EHR的不同的信息资源，诸如纸质文档、数据库文件、设备日志等，其可能需要知识丰富的人类用户进行审核。

按照示例，可以采用条件实体的评分和排名来验证诊断。图10示出了GUI 1000，其显示其中置信度水平被指派给由文档处理系统100从EHR提取的不同诊断的使用情况的。作为说明，可以经由本文中所公开的实体处理方法对EHR中提出的诊断的准确性进行审核。例如，与除了在EHR中提出的条件之外的、不同的条件相关联的条件实体可以被文档处理系统100排名为在患者的条件中最具代表性的。可替代地，条件实体内的实质分数接近于最高分数的一个或多个次要条件也可以通过文档处理系统100从EHR的分析中被标识。因此，文档处理系统100可以用于证实或验证EHR中的结论。另外，由文档处理系统100获得的信息可以有助于紧急性检测，其中某些代码与紧急性条件相关联，使得包括那些代码的非结构化文档被自动地移动到EHR队列的顶部用于处理。类似地，与不同条件、测试、服务提供者等相关联的代码可以被自动路由到特定团队或部门以进行处理。

临床医生在GUI 1000中示出的EHR内提供诊断，即，没有并发症的糖尿病。在没有并发症的糖尿病和具有并发症的糖尿病之间存在症状、治疗和药物的重叠。在使用知识库170和各种医学本体论分析EHR内的各种实体以及它们的链接时，文档处理系统100可以将特定置信度值指派给诊断中的每个诊断。因而，置信度值100％被指派给没有并发症的糖尿病。另外，文档处理系统100还提出了可疑的高血压诊断，其整体置信度值为85％。

通过在条件实体(诊断)和证据实体(支持诊断中的每个诊断的证据)之间创建关联并且估计每个的分数，由文档处理系统100使用EHR中的信息自动导出置信度值。基于相应分数，最佳或最高评分的诊断被显示给文档处理系统100的用户。因此，文档处理系统100基于文档编制、测试、症状、药物等来确定在电子文档110中提出的诊断的准确性。如果所提出的诊断不是最高分数的条件实体中的一个，则可能提出最高分数的条件实体作为备选或可疑诊断，其保证了进一步的研究和/或文档编制。

按照本文中所描述的示例的文档处理系统100提供了对现有文档处理系统和方法的技术改进。虽然数字化表单、信件和其他文档有利于存储到数字硬件，但是必须手动审核文档以验证任何结论或获得某些事实。虽然由计算设备提供的关键词搜索和其他滚动或文档跳跃特征使审核过程变得容易，但是找到条件和支持证据需要人类审核者阅读并理解电子文档110的每个组件文档内的信息。

例如，当保险公司的用户审核索赔文档时，不仅需要审核者标识索赔的条件和支持证据，还需要审核该患者的保险利益、医疗政策、患者病史等。由于任务的复杂性，人工审核耗时且容易出错，因为可能会遗漏条件/证据。使这些任务自动化需要计算机分析EHR的异构集合、利益的解释(EOB)和其他文档。来自各种服务提供者的不同患者的EHR可以包括不同格式的文档，其中一些可以包括键入的文本数据，而另一些可以包括手写文本，一些数据可以以表格、图表或其他非文本格式呈现。文档处理系统100通过分析大量格式的异构文档来标识和评估其中呈现的信息，节省了时间和精力。此外，交互式GUI准许用户编辑从静态EHR导出的数据或信息，从而利用用户反馈改进知识库。

除了上述任务之外，可以使用文档处理系统100来实现健康护理平台的其他功能，诸如政策推荐过程。例如，可以采用实体链接预测器308基于程序代码、诊断代码和支持文档编制来标识可适用的政策并且区分其优先次序。文档处理系统100还使得能够执行任务，诸如但不限于自动授权的推荐、标记临床审核、获得正确推理文档等。

例如，如果与测试相关联的代码具有与其相关联的三个不同策略，则实体链路预测器308可以被配置为基于使用从中提取代码的非结构化文档找到的支持文档的类型，来选择策略中的一个策略以供审核。用于将正确医疗策略路由到CPT代码和诊断代码组合的规则可以由实体链路预测器308实现。还可以实现基于用户反馈将病例路由到提供者、客户端、QA等的工作流规则。例如，如果授权没有填写必要信息，则表单可以被路由到有关的提供者以供完成。

图11示出了可以用于实现文档处理系统100的计算机系统1100。更具体地，可以用于生成或访问与非结构化文档及其组件文档111相对应的图像文件的计算机器(诸如台式计算机、膝上型计算机、智能手机、平板电脑、可穿戴式设备)可以具有计算机系统1100的结构。计算机系统1100可以包括未示出的附加组件，并且所描述的组件中的一些组件可以被移除和/或修改。

计算机系统1100包括一个或多个处理器1102，诸如中央处理单元、ASIC或其他类型的处理电路，诸如显示器、鼠标键盘等的输入/输出设备1112，诸如局域网(LAN)、无线802.11x LAN、3G或4G移动WAN或WiMax WAN之类的网络接口1104，以及计算机可读存储介质1106。这些组件中的每个组件都可以可操作地耦合到总线1108。计算机可读存储介质1106可以是参与向一个或多个处理器1102提供指令以供执行的任何合适的介质。例如，计算机可读存储介质1106可以是诸如磁盘或固态非易失性存储器之类的非暂态或非易失性介质、或诸如RAM之类的易失性介质。存储在计算机可读介质1106上的指令或模块可以包括机器可读指令1164，其由一个或多个处理器1102执行以执行文档处理系统100的方法和功能。

文档处理系统100可以被实现为存储在非暂态计算机可读介质上并由一个或多个处理器执行的软件。例如，计算机可读介质1106可以存储操作系统1162，诸如MAC OS、MSWINDOWS、UNIX或LINUX、以及用于文档处理系统100的代码或机器可读指令1164。操作系统1162可以是多用户、多处理、多任务、多线程、实时等。例如，在运行时，操作系统1162正在运行，并且文档处理系统100的代码由一个或多个处理器1102执行。

计算机系统1100可以包括数据存储库1110，其可以包括非易失性数据存储库。数据存储库1110存储由文档处理系统100使用的任何数据。数据存储库1110可以用来存储来自非结构化文档过程的实时数据以自动提取实体、对实体进行评分和排名、证实诊断等。

网络接口1104例如经由LAN将计算机系统1100连接到内部系统。而且，网络接口1104可以将计算机系统1100连接到互联网。例如，计算机系统1100可以经由网络接口1104连接到网页浏览器和其他外部应用和系统。

本文已经对示例及其一些变型进行了描述和说明。本文中所使用的术语、描述和附图仅仅是为了说明，并不意指限制。在本主题的精神和范围内可以做出许多变型，其旨在要由以下权利要求及其等同物限定。

Claims

1.一种从电子文档提取可编辑数据的文档处理系统，所述系统包括：

一个或多个处理器；以及

非暂态数据存储装置，其包括机器可执行指令，所述机器可执行指令使得所述一个或多个处理器执行以下操作：

将不可编辑图像文件转换为标记文件，

所述不可编辑图像文件与电子文档有关，以及

所述电子文档包括至少一个组件文档，以及

所述标记文件保留来自所述图像文件的所述组件文档的格式和结构；

解析所述标记文件以提取所述不可编辑图像文件的纯文本数据；

从所述标记文件中确定所述不可编辑图像文件的样式信息；

通过根据边界规则来分析所述标记文件的内容，自动地将所述纯文本数据划分成区段；

从所述纯文本数据的所划分的所述区段自动标识和提取实体，

所述标识使用自然语言处理(NLP)来执行；

使用以下至少一项来链接所述实体：

领域特定的本体论，

知识库，以及

图形推理；

生成交互式图形用户界面(GUI)，

所述GUI显示内容，

所述内容包括根据所述样式信息而被格式化的所述纯文本数据，

所述GUI包括从所链接的所述实体确定的注释实体关系，以及

所述GUI使得能够进行用于编辑所述内容和所述注释实体关系中的一个或多个的用户交互；以及

向所述知识库传送对以下一项或多项的用户编辑：所述实体关系、所述内容、所述结构、以及所述格式。

2.根据权利要求1所述的系统，其中将所述不可编辑图像文件转换为所述标记文件的所述指令还包括使得所述一个或多个处理器执行以下操作的指令：

使用光学字符识别来标识所述不可编辑图像文件内的文本数据的特征；

确定非文本细节，所述非文本细节包括所述组件文档的文档结构；

获得与所述文本数据的特征和所述非文本细节相关联的标记标签；以及

通过依照所述文档结构将所述标记标签应用于所述文本数据来生成所述标记文件。

3.根据权利要求1所述的系统，其中用于自动划分所述纯文本数据的所述指令还使得所述一个或多个处理器执行以下操作：

预测与所述标记文件的页面相对应的所述纯文本数据的每个区段是否表示文档边界，

所述预测使用经训练的机器学习(ML)边界模型和所述边界规则而被执行。

4.根据权利要求3所述的系统，其中用于自动划分所述纯文本数据的所述指令还使得所述一个或多个处理器执行以下操作：

在所述区段之间的预测边界处创建分页符。

5.根据权利要求3所述的系统，其中用于自动划分所述纯文本数据的所述指令还使得所述一个或多个处理器执行以下操作：

使用相关性规则来预测所述纯文本数据的区段与当前任务相关还是不相关；以及

从所述纯文本数据中移除不相关区段。

6.根据权利要求1所述的系统，其中用于自动标识和提取实体的所述指令还使得所述一个或多个处理器执行以下操作：

使用所述领域特定的本体论和所述知识库来标识所述纯文本数据中的所述实体；以及

基于所述实体的相应语义类型，来将所述实体分类为条件实体和证据实体。

7.根据权利要求1所述的系统，其中用于自动标识和提取实体的所述指令还使得所述一个或多个处理器执行以下操作：

基于相关性规则来评估所述实体的相关性，所述相关性规则包括至少分析所述纯文本数据中的所述实体周围的上下文；以及

基于相关性规则来从进一步处理中移除所述实体的子集。

8.根据权利要求1所述的系统，其中链接所述实体的所述指令还使得所述一个或多个处理器执行以下操作：

使用领域特定的本体论来标识从证据实体到条件实体的所述链接；以及

通过采用被存储在所述知识库中的知识图，来发现所述条件实体和所述证据实体之间的新候选链接。

9.根据权利要求8所述的系统，其中所述非暂态数据存储装置包括还使得所述一个或多个处理器进行以下操作的指令：

基于由所述条件实体所表示的条件的特征来为每个条件实体指派分数；以及

基于相应的分数来对所述条件实体进行排名。

10.根据权利要求9所述的系统，其中用于对所述条件实体进行排名的所述指令还使得所述一个或多个处理器执行以下操作：

对于每个条件实体：

基于与所述条件实体中的每个条件实体相对应的证据实体的属性来对所述证据实体进行评分；

基于相应的分数来对所述证据实体进行排名；以及

选择前N个最高分数的证据实体作为用于所述条件实体的最具指示性的证据。

11.根据权利要求1所述的系统，其中链接实体的所述指令还使得所述一个或多个处理器执行以下操作：

使所述领域特定的本体论中的证据实体和条件实体之间的链接的子集无效，其中所述链接的所述子集被删除。

12.根据权利要求1所述的系统，其中所述电子文档是非结构化文档。

13.一种处理电子文档的计算机实现的方法，包括：

接收所述电子文档，所述电子文档包括组件文档，

所述组件文档从不同的数据源产生；

提取所述组件文档的纯文本数据；

从所述组件文档中获得所述电子文档的文档结构信息和样式信息；将所述纯文本数据自动划分成区段，

所述自动划分通过使用边界规则分析所述组件文档的内容来执行，以及

所述边界规则指定对所述纯文本数据的分组约束；

使用机器学习(ML)、自然语言处理(NLP)和实体识别(ER)从所述纯文本数据中自动提取实体；

基于实体类型来将所述实体分类为条件实体或证据实体中的一个，所述证据实体支持所述条件实体；

在所述纯文本数据内将支持性的所述证据实体链接到所述条件实体；

如果与所述电子文档中所呈现的条件相关联的所述条件实体中的一个条件实体的分数是存在于所述电子文档中的所述条件实体的分数之中的最高分数，则确认所述条件的准确性；以及

如果与所述条件相关联的所述条件实体的所述分数在存在于所述电子文档中的所述条件实体的分数中不是最高，则使得在交互式GUI上显示在所述条件实体的所述分数中具有最高分数的所述条件实体中的另一条件实体，作为精确条件的指示符。

14.根据权利要求13所述的方法，还包括：

使用来自知识库的领域特定的本体论和推理对所述条件实体进行评分；以及

基于所述条件实体的所述分数来对所述条件实体进行排名。

15.根据权利要求13所述的方法，其中使用机器学习从所述纯文本数据中自动提取实体还包括：

标识所述纯文本数据中的日期；以及

至少基于所述日期来确定所述纯文本数据的所述区段之间的边界。

16.根据权利要求13所述的方法，其中所述电子文档是非结构化文档，并且从所述组件文档中提取所述纯文本数据还包括：

从所述非结构化文档生成标记文件，

所述标记文件包括来自所述非结构化文档的信息，以及

所述信息依照所述组件文档中所呈现的那样被样式化和格式化；以及

解析所述标记文件以提取所述纯文本数据。

17.根据权利要求13所述的方法，其中所述电子文档是结构化文档。

18.根据权利要求13所述的方法，还包括：

使得能够进行用于编辑所述区段之间的边界、所述条件实体、所述证据实体、以及它们之间的关系的用户交互；

向知识库传送对以下一项或多项的用户编辑：内容、结构、以及格式；以及

使得能够进行对所述知识库内的知识图的更新，以使对所述知识库的未来查询接收包括所述用户编辑的响应。

19.一种非暂态存储介质，包括机器可读指令，所述机器可读指令使得至少一个处理器执行以下操作：

将与包括至少一个组件文档的电子文档有关的不可编辑图像文件转换为标记文件，其中所述标记文件保留来自所述图像文件的所述组件文档的格式和结构；

解析所述标记文件，以提取所述图像文件的纯文本数据和与所述图像文件的所述格式和文档结构信息有关的样式信息；

通过至少使用边界规则分析所述标记文件的内容，来自动地将所述纯文本数据划分成区段；

使用自然语言处理(NLP)从所述纯文本数据中自动标识和提取实体；

使用领域特定的本体论、知识库和图形推理，来链接所述纯文本内的所述实体；

生成交互式GUI，所述交互式GUI显示包括根据所述样式信息而被格式化的所述纯文本数据的内容，

所述GUI包括从所述电子文档导出的注释实体关系，以及

所述GUI使得能够进行用于编辑所述边界、条件实体、证据实体、以及它们之间的关系的用户交互；以及

向所述知识库传送对以下一项或多项的用户编辑：所述内容、结构、以及格式。

20.根据权利要求19所述的非暂态存储介质，其中用于链接实体的所述指令还包括用于执行以下操作的指令：

基于实体类型来将所述实体分类为条件实体或证据实体中的一个；以及

在所述纯文本内使用领域特定的本体论、知识库和图形推理，将所述条件实体中的每个条件实体链接到所述证据实体中的一个或多个证据实体。