CN114945911A

CN114945911A - 使用自然语言处理从非结构化文档中提取信息并将非结构化文档转换为结构化文档

Info

Publication number: CN114945911A
Application number: CN202180008087.5A
Authority: CN
Inventors: J·斯兰吉穆尔地; R·李特维克; 王辉; J·兰德; S·凯瑞尔
Original assignee: International Business Machines Corp
Current assignee: International Business Machines Corp
Priority date: 2020-02-07
Filing date: 2021-01-08
Publication date: 2022-08-26
Also published as: WO2021156684A1; US11423042B2; GB2607833A; JP2023513886A; GB202213058D0; US20210248153A1

Abstract

一种用于从文本内容中提取信息的方法，其涉及机器学习模型生成领域。该方法一般包括接收包括具有相关文本串的多个文档的训练数据集。从训练数据集生成相关性模型。相关性模型通常被配置为从多个文档中提取的多个词生成相关性得分。从训练数据集生成示出从多个文档提取的多个词之间的关系的知识图模型。所述相关度模型和所述知识图模型被聚集成补充模型，所述补充模型包括来自所述知识图模型的多个节点和与在连接的节点之间的边相关联的权重，其中所述权重包括从所述相关度模型生成的相关性得分，并且所述补充模型被部署用于分析文档。

Description

使用自然语言处理从非结构化文档中提取信息并将非结构化文档转换为结构化文档

背景技术

本公开的方面涉及使用自然语言处理技术从非结构化文档中提取内容，并且更具体地，涉及用于从非结构化文档生成结构化文档并且使用自然语言处理技术处理结构化文档的技术。

许多现实世界操作是根据复杂的、冗长的文档或文档集合来定义的。这些文档通常可以是非结构化的或半结构化的，其中相关信息被包括在文本内容的段落中或被包括在将相似信息组合在一起的表格或其他组织结构中。例如，在医疗保健场景中，雇主可以向其雇员提供不同健康保险计划，并且不同健康保险计划可以总结在概述计划文档中，该文档在表格或其他组织结构中标识向雇员提供的健康保险计划的不同特征。汇总计划文档还可包括可应用于提供给雇员的所有计划或提供给雇员的某些计划的附加信息，并且该附加信息可在非结构化文本(例如，段落、项目符号列表等)中维护。在另一示例中，退休计划还可以在概述计划文档中总结，这些概述计划文档以表格和未结构化文本的组合概述了关于提供给雇员的不同退休计划的相关信息。在又一些示例中，工业环境中的不同文档可包括对要生产的实物商品的要求(诸如尺寸、材料、公差等)的概述，以及包括在非结构化文本中的更详细的信息。

通常，上面讨论的文档可以包括大量特定领域的信息。例如，医疗保健概要计划文档可以包括特定于健康保险计划领域的信息，诸如共付额信息、网络内/网络外定义等。退休概要计划文档可以包括退休计划的领域特有的信息，诸如参与的最低年龄要求、归属信息等。虽然这些文档包括大量领域特定信息，但是这些文档可能难以解释和从中提取信息。

发明内容

本公开的一方面提供了一种用于从非结构化文档中提取信息的方法。该方法一般包括接收要从中提取信息的源文档。源文档被转换成文本文档文件。信息是从文本文档文件中提取的基于特定领域的自然语言处理引擎和特定领域的本体。所提取的信息被链接到源文档中的位置信息，并且生成结构化文档。结构化文档通常包括所提取的信息和链接的位置信息。

本公开的另一方面提供了一种用于从非结构化文档提取信息的系统。该系统一般包括处理器和具有指令的存储器，这些指令在由处理器执行时执行用于从非结构化文档中提取信息的操作。操作一般包括接收要从中提取信息的源文档。源文档被转换成文本文档文件。基于特定领域自然语言处理引擎和特定领域本体从文本文档文件中提取信息。所提取的信息被链接到源文档中的位置信息，并且生成结构化文档。结构化文档通常包括所提取的信息和链接的位置信息。

本公开的又一方面提供了一种计算机可读介质，该计算机可读介质上存储有指令，当由处理器执行时，该指令执行用于从非结构化文档提取信息的操作。操作一般包括接收要从中提取信息的源文档。源文档被转换成文本文档文件。基于特定领域自然语言处理引擎和特定领域本体从文本文档文件中提取信息。所提取的信息被链接到源文档中的位置信息，并且生成结构化文档。结构化文档通常包括所提取的信息和链接的位置信息。

本公开的一方面提供了一种用于在图形用户界面中渲染从非结构化文档提取的信息的方法。该方法一般包括接收非结构化文档和结构化文档，该结构化文档包括从非结构化文档提取的信息以及与所提取的信息相关的位置信息。在第一窗格中渲染非结构化文档，并且在第二窗格中渲染结构化文档的图形呈现。图形渲染通常可以是其中来自结构化文档的内容以分级格式显示的结构。基于结构化文档中包括的位置信息，将结构化文档中的每个元素链接至所渲染的非结构化文档。

本公开的另一方面提供了一种系统。该系统一般包括处理器和其上存储有指令的存储器，这些指令在由处理器执行时执行用于在图形用户界面中渲染从非结构化文档提取的信息的操作。该方法一般包括接收非结构化文档和结构化文档，该结构化文档包括从非结构化文档提取的信息以及与所提取的信息相关的位置信息。在第一窗格中渲染非结构化文档，并且在第二窗格中渲染结构化文档的图形呈现。图形渲染通常可以是其中以分级格式显示来自结构化文档的内容的结构。基于结构化文档中包括的位置信息，将结构化文档中的每个元素链接至所渲染的非结构化文档。

本公开的又一方面提供了一种计算机可读介质，该计算机可读介质上存储有指令，当由处理器执行时，该指令执行用于在图形用户界面中渲染从非结构化文档提取的信息的操作。操作通常包括接收非结构化文档和结构化文档，该结构化文档包括从非结构化文档提取的信息以及与所提取的信息相关的位置信息。在第一窗格中渲染非结构化文档，并且在第二窗格中渲染结构化文档的图形呈现。图形渲染通常可以是其中以分级格式显示来自结构化文档的内容的结构。基于结构化文档中包括的位置信息，将结构化文档中的每个元素链接至所渲染的非结构化文档。

附图说明

图1示出了根据一个实施方式的示例性联网计算环境，其中使用从非结构化文档生成的结构化文档和对非结构化和结构化文档的自然语言处理从非结构化文档提取信息。

图2示出了根据一个实施例的用于使用结构化文档和自然语言处理从非结构化文档中提取信息的示例性操作。

图3示出了根据一个实施例的用于在图形用户界面中渲染从非结构化文档提取的信息的示例性操作。

图4示出了根据一个实施例的显示非结构化文档和包括从非结构化文档提取的信息的结构化文档的示例性图形用户界面。

图5示出了根据一个实施例的渲染与从非结构化文档提取的信息相关的视觉效果的示例性图形用户界面。

图6示出了其中可执行本公开的各方面的示例系统。

具体实施方式

非结构化文档通常是信息以自由格式方式存储在其中的文档，该自由格式方式不受存储在文档中的信息之间的底层结构或关系的支配。诸如概要计划描述文档、技术规范文档等的非结构化领域专用文档通常是难以理解并且包括大量领域专用信息的大型文档。为了从这些特定领域的文档提取信息，可以将文档从基于图像的格式(例如，便携式文档格式)转换成纯文本文件，并且可以通过自然语言处理引擎和/或其他分析引擎来处理纯文本文件以从该文档提取相关信息。然而，将文档转换成纯文本文件可能导致一些信息的丢失。例如，可能与文档中的内容相关的位置信息(诸如表格中单元格的位置和每个单元格中的相关联文本)，可能会在基于图像的格式的文档转换成纯文本文件时丢失。因为位置信息和其他相关信息在文档从基于图像的格式到纯文本文件的转换中可能丢失，所以难以将从纯文本文件提取的信息映射回原始文档并且生成可用于遍历文档的导航结构。

本公开的各方面提供了用于通过生成结构化文档来从非结构化文档中提取信息的技术，该结构化文档被自然语言处理引擎和其他分析服务进行分析以提取相关信息。如下面进一步详细讨论的，可以将非结构化文档转换为结构化文档，该结构化文档维护与非结构化文档中的文本内容相关联的上下文信息。上下文信息可以结合自然语言处理和/或其他分析引擎对相关文本的识别来使用，以生成将提取的相关文本链接到此类文本在非结构化文档中的位置的结构化文档。本公开的各方面进一步提供用于使用结构化文档和从结构化文档提取的信息来渲染和导航在非结构化文档中的技术。可在由从结构化文档提取的信息生成的导航结构旁边渲染非结构化文档，并且用户与导航结构的交互可以允许导航至非结构化文档中的各个元素的位置。通过这样做，用户可以快速导航到文档中相关信息的位置，并且可以验证该信息是正确地从非结构化文档中提取的。

图1示出了根据本公开的实施方式的示例性联网计算环境，其中，使用从非结构化文档生成的结构化文档从非结构化文档提取信息。如图所示，计算环境100包括客户端设备120、应用服务器130、文档分析器140、训练数据存储150和本体数据存储160。

客户端设备120通常代表计算设备，在该计算设备上用户可访问在应用服务器130上执行的服务以通过非结构化文档查看、导航并访问在文档分析器140上执行的服务以发起从非结构化文档中提取信息。如图所示，客户端设备包括软件应用122。

软件应用122通常提供界面，用户可以通过该界面调用文档分析器140处的信息提取操作，并通过在应用服务器130上执行的服务来查看非结构化文档。在一些实施例中，软件应用程序122可以是网络浏览器或允许用户与远程托管在应用程序服务器130上的应用程序交互的其他应用程序。通常，为了调用在文档分析器140处信息提取操作，软件应用122可将命令发送至文档分析器140，以发起从非结构化文档生成结构化文档和从结构化文档提取信息的过程。通常，命令可以包括待分析的文档或者标识了待分析文档存储位置的信息，并且文档可以是从中提取信息的非结构化文档(例如，基于图像的格式的文档)。

软件应用122可进一步提供界面，通过该界面可查看非结构化文档和从非结构化文档的分析生成的导航窗格。导航窗格的内容可以包括到非结构化文档中所提取的信息的位置的一个或多个链接，使得当用户选择导航窗格中的链接时，非结构化文档的位于与所选择的链接相关联的位置处的部分可以在第一窗格中查看。软件应用122还可以提供一种机制，通过该机制，用户能够校正在导航窗格中显示的提取信息并且识别要包括在导航窗格中的附加相关信息。校正信息和额外识别的信息可被添加到指定提取信息和提取信息的位置的结构化文档(例如，存储在文档数据存储器150中)，并且更新的结构化文档可以用于将来查看被提取信息的非结构化文档的源文件。

应用服务器130通常包括文档查看器132。文档查看器132通常提供界面，用户可通过该界面查看非结构化文档并在非结构化文档中导航。界面可包括第一窗格和第二窗格，在第一窗格中，渲染非结构化文档，在第二窗格中，渲染导航结构。第一窗格可集成文档查看器，该文档查看器响应于导航至文档的指定部分的命令而滚动至非结构化文档的指定部分。导航到文档的指定部分的命令可包括例如导航到非结构化文档中指定的锚的命令(例如，包括锚标签的统一资源定位符(URL))、导航到非结构化文档的特定页面或区段的命令等。

在第二窗格中渲染的导航结构可以是例如导航树或其他分级结构，上述结构链接到非结构化文档的指定部分，非结构文档包含与导航树中显示的链接相关联的信息。如下面进一步详细讨论的，导航结构中的每个链接可与边界框相关联，该边界框指示在非结构化文档中找到的与该链接相关联信息的位置。例如，边界框可例如通过从由非结构化文档生成的一个或多个中间文档向后工作到非结构化文档本身来确定。例如，边界框可通过首先识别被文档分析器140用来从非结构化文档提取信息的中间纯文本文档中的一组字符来生成。字符集合可被定义为例如从中间文档中的文本元素(例如，段落、表格中的单元格等)的起始字符的偏移，并且一个中间文档中的所标识的偏移信息可被链接到从非结构化文档生成的其他中间文档中的位置信息。该位置信息可以包括例如表格中的单元格的名称、文档中的命名锚点、非结构化文档的页面上的绝对或相对位置信息(例如，绝对像素位置、给定文档中页面的假定分辨率、或作为文档中页面的高度和宽度的百分比的相对像素位置)等。基于结构化文档和一个或多个中间文档中的位置信息，可在非结构化文档中识别所提取的信息的位置，并且可相对于所提取信息的位置渲染一个或多个视觉效果。例如，在选择导航结构中的链接时，可以使用对与链接内容唯一相关的的颜色来突出显示与链接相关联的内容。在另一示例中，可以在与链接相关的内容周围绘制彩色框。

在一些实施例中，导航结构可为用户提供校正从非结构化文档提取的内容的机制。由于文本识别系统(例如，光学字符识别系统)出于不同原因(例如，图像质量、文档分辨率等)可能不总是将图像中的文本准确地转换成正确的文本内容，从文档提取的文本可能不准确。由此，在验证过程中，可以允许用户在所提取的信息被链接的位置处检查文档，并且如果所提取的信息不准确，则用户可以用准确的数据来手动地重写机器提取的信息。可将准确数据写入存储从非结构化文档提取的数据的结构化文档以供将来使用。

在一些实施例中，文档分析器140可能没有从非结构化文档提取所有相关数据。例如，文档分析器140可在分析整个非结构化文档之前超时，或者文档内容可在分析期间简单地被遗漏。当用户正在查看看非结构化文档时，用户可选择非结构化文档中的相关内容。文档查看器132可解析非结构化文档的选定部分以识别选定文本内容和选定部分的位置。基于非结构化文档的识别部分，文档查看器132可将信息添加到结构化文档以在一个或多个结构化文本元素中包括文档查看器132的用户认为相关的指定信息的一个或多个引用。在一些实施例中，文档查看器132可搜索一个或多个中间文档以识别中间文档中其他位置指针，以与非结构化文档的识别部分和从中提取的文本相关联，并且将识别的位置指针与关联于识别位置指针的中间文档的识别一起写入结构化文档。

文档分析器140通常接收非结构化文档以用于分析，并且使用自然语言处理引擎和特定领域的本体(例如，本体162₁-162_n中的一个或多个)将来自非结构化文档的信息提取到结构化文档中。可基于文档类型来先验地定义特定领域的本体，文档类型将由文档分析器140进行分析。在将文档分析器140配置为从特定领域中的文档(例如，医疗概要计划文档、退休计划文档等)提取信息的情况下，可以在文档分析器140中硬编码特定领域本体。在文档分析器140是可用于分析来自不同领域的非结构化文档的通用文档分析器的情况下，文档分析器140可基于用户输入(例如，提供给文档分析器140的文档类型的明确指示)或基于非结构化文档的自然语言分析确定要使用的特定领域本体，以基于文档中的关键词识别文档的领域(例如，其中像“住院”或“医疗”之类的词可能与医疗保健文档领域相关联，而像“退休”或“最小分布”之类的词可能与退休文档领域相关联)。如图所示，文档分析器140包括文档转换器142和结构化文档生成器144。

文档转换器142由接收的用于分析的非结构化文档生成一个或多个中间文档。为了从非结构化文档生成一个或多个中间文档，文档转换器142可首先使用光学字符识别引擎或其他文本识别引擎将非结构化文档转换为纯文本文件。光学字符识别引擎可以集成到文档转换器142或响应于从输入文档生成纯文本文件的请求而返回纯文本文件的远程服务。纯文本文件可以是由文档转换器142生成的用于从非结构化文档提取信息的多个中间文档中的中间文档的第一个。光学字符识别引擎的输出可以是纯文本文件，其包括指示文本内容位于非结构化文档中的位置的一个或多个注释。例如，光学字符识别引擎可生成具有一个或多个文本元素的纯文本文件，并且纯文本文件中的每个文本元素可以包括标识每个文本元素位于非结构化文档中的位置信息。在一些实施例中，识别与文本元素相关联的非结构化文档中的位置信息可以是由光学字符识别引擎基于例如非结构化文档中的格式化信息生成的唯一标识符。例如，新的位置指示符可以基于生成位置标记的预定规则进行添加，其中位置标记是字体或类型格式化指示节中断、文档中存在分页中断等位置。

由通过光学字符识别引擎处理非结构化文档而产生的纯文本文件可以是非结构化文档的超文本标记语言(HTML)表示。HTML表示中的每个文本元素可以包括关联于非结构化文档的文本元素的位置的位置信息。该位置信息可以是例如非结构化文档的坐标系内的区域，其中从非结构化文档提取的文本被提取。通常，纯文本文件可包括结构化文本，该结构化文本包括来自表格或从非结构化文档解析的其他组织结构的文本内容。结构化文本可以被格式化为Javascript对象表示法(JSON)格式，可以通过存储表格的列标题、行标题和单元格内容来保留从表格中提取的文本的表格格式。HTML表示中的位置信息可以通过所提取的文本在HTML字符串内的开始和结束偏移量来表示。例如，给定一HTML串，它可表示为具有索引为0(i-1)的i个字符的阵列，字符串可由阵列中的起始和结束索引表示，从串中的起始字符的正偏移，或者从串中的第i-1个字符的负偏移。

纯文本文件还可被处理成第一中间文档以将一个或多个文本元素以结构化格式添加到中间文档。这些文本元素可以包括例如尚未包括在纯文本文件表中的文本元素。文本可以连接成一系列扁平化的文本元素，并且每个文本元素可以关联于纯文本文件内容的文本阵列位置中的位置。通常，位置信息可包括非结构化文档中的边界框坐标和纯文本文件中的字符串的字符偏移。

第一中间文档可被处理以重新组织存储在结构化文本构造中的表格内容。通常而言，结构化文本可被重组以添加包括在文档中的行标题、区段标题和其他信息标题信息，该信息标志关于文档的一部分中的内容的信息。

最后，第一中间文档可被处理成第二中间文档，该第二中间文档将扁平化的文本元素添加到包括表内容的结构化文本构造的主体单元格。可以将节标题、行标题、列标题和主体单元文本串接成一系列扁平化的文本元素。可以针对通过将章节标题、行标题、列标题和主体单元文本连接成扁平化文本元素而生成的每个扁平化文本元素来存储位置数据。如上所述，位置信息可包括非结构化文档中的边界框坐标和纯文本文件中的字符串的字符偏移。

结构化文档生成器144使用文档转换器142生成的中间文档来生成结构化文档，该结构化文档包括非结构化文档中的相关信息。通常，为了识别非结构化文档中的相关信息，结构化文档生成器144可使用在特定领域的信息语料库上训练的自然语言处理引擎来处理由文档转换器142生成的中间文档。例如，用于从医疗保健概要计划文档中提取信息的结构化文档生成器144可以使用自然语言处理引擎，该自然语言处理引擎被训练成从其他医疗保健计划描述文档中识别相关信息；用于从退休计划文档中提取信息的结构化文档生成器144可使用自然语言处理引擎，该自然语言处理引擎被训练成从其他退休计划文档中识别相关信息，等等。自然语言处理引擎可与识别文档中的特定领域特定概念之间关系的领域特定本体相关联。例如，医疗概要计划描述的本体可以包括医疗特定构造之间的关系，例如网络内与网络外覆盖、免赔额、共付额等等。

在提取过程期间，结构化文档生成器144可记录与中间文档中的扁平化文本元素相关联的位置信息并且将所提取的文本和相关联的位置信息保存在结构化文档中。在一些实施例中，结构化文档还可包括与非结构化文档中的文本源相关联的边界框。一旦结构化文档生成器144根据特定领域本体生成结构化文档，则结构化文档生成器144可将结构化文档提交至文档数据存储150。在一些实施例中，结构化文档生成器144可将结构化文档生成为可解析文本文件(例如，以JSON格式)。在一些实施例中，结构化文档生成器144可将结构化文档生成为一个或多个数据库记录，这些记录在组合时形成从非结构化文档识别提取的相关信息和从关联于所识别的相关信息的位置信息的结构化文档(例如，图形渲染的非结构化文档中的文本字符偏移和边界框)。

文档数据存储库150通常表示数据存储库，其中可以存储非结构化文档、包括从非结构化文档提取的信息的结构化文档和用于训练自然语言处理引擎的其他文本内容。文档数据存储150可包括多个单独的存储库，其中非结构化和结构化可被存储。这些储存库可以是例如用于不同领域的文档(诸如技术要求文档、医学诊断文档和可以使用文档分析器140来分析的其他类别的文档)的储存库。文档数据存储150可被构造为关系或非关系数据库、平面文件存储、分层文件存储、或其中可存储用于训练相关性和知识图模型的文档的任何其他存储系统。

本体数据存储器160通常表示存储库，在该存储库中可以存储领域特定的本体，以供文档分析器140用于从非结构化文档中提取相关数据。如图所示，本体数据存储器160可以存储多个本体162₁-162_n。每个本体162可以对应于可以由文档分析器140分析的文档的特定领域。例如，一个本体162可以与医疗计划概述文档相关联，另一个本体162可以与退休计划概述文档相关联，等等。

图2示出了示例操作200，其可以由系统执行以使用自然语言处理技术从非结构化文档中提取信息，该自然语言处理技术保留与提取的信息相关联的位置信息。如所讨论的，与所提取的信息相关的位置信息的保留可用于渲染具有导航结构的非结构化文档，该导航结构允许用户跳转到非结构化文档中的存储提取信息的位置。

如图所示，操作200在框210处开始，其中系统接收将从中提取信息的源文档。例如，源文档可以是由文字处理程序使用的文件格式的文档(例如，开放文件格式(OpenDocumentFormat)文件、办公开放XML(OfficeOpenXML)文件等)、基于图像的文件格式的文档(例如，便携式文档格式(Portable Document Format)文件)等。通常，源文档可以与特定的知识领域相关联，该领域指示可能与文档(或文档类型)相关的信息类型。

在框220，系统将源文档转换成文本文档文件。为了将源文档转换成文本文档文件，可通过将未结构化的源文档传递到光学字符识别引擎来生成第一中间文件。光学字符识别引擎可以生成纯文本文件，其包括从源文档提取的文本内容和定义了包括在源文档中的表格数据特征的结构。第一中间文件可包括系统可用于识别源文档中的相关文本位置的位置信息(例如，使用源文档的坐标系的垂直/水平位置信息)。可生成一个或多个其他中间文件以将非结构化文本内容转换成结构化文本内容，该结构化文本内容可被自然语言处理引擎分析以从文本文档中提取信息。所得到的文件可以是表示非结构化源文档的结构化文本文档，其包括源文档中包括的每个文本元素的位置信息。

在框230，系统基于特定领域自然语言处理引擎和特定领域本体从文本文档文件提取信息。特定领域自然语言处理引擎可以被训练来识别特定类型的文档(例如，医疗保健概要计划描述、退休概要计划描述、工业规范文档等)中的相关性的信息，并且特定领域本体可以指定特定类型的文档中的不同词语或概念之间的关系。

在框240，系统将所提取的信息链接到源文档中的位置信息。如所讨论的，所提取的信息可以与文本文档文件中的特定字符集和/或从源文档生成的一个或多个中间文档相关联。字符集合可通过包括在一个或多个中间文档上的定位信息(例如，表格小区标识符)链接到非结构化文档中的坐标位置信息，其中字符集合可通过文档中的字符偏移或字符索引进行识别。

在框250，系统生成包括所提取的信息和所链接的位置信息的结构化文档。如所讨论的，结构化文档可以是根据分级模式编写的文档，在该分级模式中存储从文档提取的信息。在一些实施例中，结构文档可以作为一系列数据库记录存储在数据仓库中，当汇总时，数据库记录可以构成单个结构文档，该结构文档可以用于生成文档的导航结构。

图3示出了可被执行以渲染非结构化文档和从结构化文档生成的导航结构的示例操作300，该结构化文档包括从非结构化文档提取的信息。

操作300开始于框310，其中，系统接收非结构化文档和相关联的结构化文档，该结构化文档包括从非结构化文档提取的信息以及与所提取的信息相关的位置信息。可以使用能够被转换成分级导航结构的分级模式来格式化结构化文档。一般而言，分级化模式可以被结构化成使得元素在其他元素内的嵌套，其指示从结构化文档提取的不同数据片段之间的父子关系。

在框320，系统在图形用户界面的第一窗格中渲染非结构化文档。第一窗格可以包括支持通常用于非结构化文档的一组文档文件格式的文档的文档查看器。例如，文档查看器可以是用于以HTML文件格式显示文档的HTML渲染引擎、PDF渲染引擎等。在一些情况下，文档查看器可允许用户选择文档中的信息，但可能不包括允许用户改变非结构化文档的内容的编辑功能。

在框330，系统在图形用户界面的第二窗格中生成结构文档的图形渲染。结构文档的图形渲染可以是例如导航树或可以用于表示结构文档中的分级数据(例如，作为数据的嵌套列表)的其他分级结构。如所讨论的，结构化文档可包括在结构化文档中的文本元素的分级结构中的提取信息，其中，不同级别的信息表示较高级别和较低级别信息之间的父子关系。

在框340，系统基于包括在结构化文档中的位置信息将结构化文档的图形渲染中的每个元素链接到非结构化文档。通过将结构化文档的图形渲染元素链接到非结构化文档，系统可允许基于与结构化文档的图形渲染中元素的交互导航非结构化文档。如所讨论的，位置信息可以基于被包括在从结构化文档生成的一个或多个中间文档中的位置信息来确定，该位置信息可以是相对于中间文档中的字符串的字符偏移。这些字符偏移可被映射回非结构化文档中的坐标位置信息。结构文档图形渲染中的每个元素因此可链接到提取文本所在的非结构化文档中的坐标，并且用户选择结构文档图形渲染中的元素可以使文档查看器在与所选择的元素相关联的坐标位置处渲染非结构化文档。

图4图示了显示非结构化文档的图形用户界面和基于结构化文档填充的非结构化文档的导航窗格，该结构化文档包括从非结构化文档中提取的信息。如图所示，图形用户界面400包括第一窗格410和第二窗格420。

第一窗格410通常包括允许用户查看非结构化文档的文档查看器，并且第二窗格420通常包括分级结构查看器，在该分级结构查看器中渲染结构化文档。显示在第二窗格420的分级结构查看器中的来自结构化文档的每个元素可以是用户可选的。当用户选择第二窗格420中的元素422(对应于从在第一窗格410中渲染的非结构化文档中提取的元素)时，系统可以在第二窗格420中的信息查看器424中显示关于所选择的元素的附加信息。为此，系统可以从与所选择的元素相关联的结构文档中检索信息。检索到的信息可以包括例如与所选择的元素相关联的位置信息和与所选择的元素相关联的其他相关信息。例如，如图所示，所选择的元素422与位于在第一窗格410中显示的非结构化文档的页面11处的信息相关联，引用非结构化文档中描述的计划的“寿命限制个人”属性，并且具有“2500美元”的价值。该信息可以基于第二窗格420中的用户选择以只读格式或可编辑格式在信息查看器424中显示。

系统还可在第一窗格410中显示所选元素所在的非结构化文档的部分。在一些实施例中，系统可以另外渲染关于所选元素所位于的文档的部分的一个或多个视觉效果。例如，边界框412可以在文档的所选元素422所位于的部分周围在第一窗格410中画出，文档的所选元素所位于的部分中的文本可以被高亮，等等。这些视觉效果可基于与从显示在第一窗格410中的非结构化文档生成的结构化文档中的所选元素422相关联的位置信息来渲染。如所讨论的，该位置信息可包括一个或多个中间文档中的文本偏移和显示在第一窗格410中的非结构化文档中的坐标。

第二窗格420通常还包括一个或多个可选图标或按钮，其允许用户将从非结构化文档提取的现有信息编辑或删除到结构化文档中和/或将信息添加到来自非结构化文档的结构化文档中。例如，包括在结构化文档中和从非结构化文档中提取的每个项目可与编辑按钮426和删除按钮428相关联。如果用户选择与结构文档中的项目相关联的编辑按钮426，则系统可以用与结构文档中的项目相关联的信息填充信息查看器424并使信息查看器424中的一个或多个用户界面元素可编辑。当用户指示编辑完成时，系统可以将编辑的信息写回到结构化文档。如果用户选择与结构文档中的项目相关联的删除按钮428，则系统可以从结构文档移除项目并且重新渲染显示在第二窗格420中的分级结构。

为了添加值，用户可以通过与显示在第二窗格420中的添加值按钮430交互来发起该过程。在发起该过程之后，用户可以选择第一窗格410中的非结构化文档的一部分。系统可基于非结构化文档的选定部分的位置来识别要添加信息的结构化文档的该部分。在结构化文档所识别部分处，系统可添加表示非结构化文档的选定部分的一个或多个文本元素和非结构化文档中的位置信息，使得当在第二窗格420中渲染时，文档的选定部分可显示在第一窗格410中。

图5示出了显示非结构化文档和用于非结构化文档的导航窗格的图形用户界面。类似于图4，图形用户界面500包括第一窗格410和第二窗格420。

如图所示，可以通过点击在第二窗格420中提供的用于查看关于所提取的文本528的扩展信息(例如，位置和关系信息)的按钮来选择所提取的文本528以供用户进行分析。在一些实施例中，通过选择所提取的文本528，系统可以渲染结构化文档中对应于所选择的所提取的文本528的父元素的元素的一个或多个视觉效果。在该示例中，所提取的文本528可为所提取的文本526的直接子代，其可为所提取的文本524的直接子代，其可为所提取的文本522的直接子代。所提取的文本522可以表示所提取的文本528的分级导航结构中的最终父文本对象。在该示例中，用户已经选择了涉及急诊室就诊的货币金额，该货币金额又与用户负责的共付额相关，其最终关联于第一窗格410中渲染的非结构化文档中的“低免赔额PPO”的信息。

基于用户对所提取的文本528的选择，系统可以检查从渲染在第一窗格410中的非结构化文档生成的结构化文档中的位置信息，以标识所提取的文本522、524、526和528中的每一个在非结构化文档中的位置。如所讨论的，所提取的文本中的每个的所识别的位置可包括字符串中的文本偏移以及所提取的文本在非结构化文档中的坐标位置。基于所提取的文本的所识别的位置，系统可以在第一窗格410中所渲染的非结构化文档中的相关文本周围渲染一个或多个视觉效果，并且在第二窗格420中所提取的文本周围渲染对应的视觉效果。例如，不同颜色的边界框可以针对与用户选择的被提取文本相关(即，与提取文本528相关)的每个被提取文本被渲染在第一窗格410和第二窗格420中。如图所示，边界框512可以对应于所提取的文本522；边界框514可以对应于所提取的文本524；边界框516可以对应于所提取的文本526；以及边界框518可以对应于所提取的文本528。为了允许对在第二窗格420中所提取的文本元素和在第一窗格410中所渲染的非结构化文档中的对应的相关文本的快速识别，系统可以将相同或相似的视觉效果渲染到第一窗格410中的边界框和第二窗格420中的相关联的相关文本。在该示例中，边界框512和在相关联的所提取的文本522周围渲染的框可以具有第一颜色的边界；边界框512和在相关联的所提取的文本524周围渲染的框可以具有第二颜色的边界；边界框516和在相关联的所提取的文本526周围渲染的框可以具有第三颜色的边界；并且边界框518和在相关联的所提取的文本528周围渲染的框可以具有第四颜色的边界。在其他示例中，可以针对所提取的文本522、524、526和528中的每个在第一窗格410中显示的非结构化文档中渲染不同的视觉效果。例如，不同颜色的突出显示可基于上述边界框的坐标被应用于在第一窗格410中显示的非结构化文档中的相关文本；在第一窗格410中显示的非结构化文档中的相关文本的颜色可被改变；等等。

图6示出了根据一实施例的从非结构化文档提取信息到结构化文档中的示例系统600，该结构化文档可用于使用自然语言处理技术和与非结构化文档的类型相关联的本体来导航非结构化文档。如图所示，系统600包括但不限于中央处理单元602、可允许不同I/O设备614(例如，键盘、显示器、鼠标设备、笔输入等)连接到系统600的一个或多个I/O设备接口604、网络接口606、存储器608、存储设备610和互连612。

CPU602可以检索并执行存储在存储器608中的编程指令。类似地，CPU602可以检索并存储驻留在存储器608中的应用。互连612在CPU602、I/O设备接口604、网络接口606、存储器608和存储设备610之间传输编程指令和应用数据。包括CPU602以表示单个CPU、多个CPU、具有多个处理核的单个CPU等。此外，存储器608被包括以表示随机存取存储器。此外，存储器610可以是盘驱动器、固态驱动器、相变存储器设备等。虽然示出为单个单元，但是存储设备610可以是固定和/或可移除存储设备的组合，诸如固定盘驱动器、固态驱动器、可移除存储卡或光学存储设备、网络附接存储设备(NAS)或存储区域网络(SAN)。

如图所示，存储器608包括文档转换器620、结构化文档生成器630和文档查看器640。文档转换器620通常接收用于分析的文档并且生成结构化文档生成器630可用于生成结构化文档的一个或多个中间纯文本文档。所接收的文档可以是例如基于图像的文件格式(例如，便携式文档格式)或可以在屏幕上渲染的其他文档文件格式。使用光学字符识别引擎，文档转换器620可将非结构化文档转换成纯文本文档，该纯文本文档可用作生成结构化文档的多个中间文档中的第一中间文档。表格中的文本内容可以保留关于表格的每个单元的信息的方式在第一中间文档中被格式化，并且连续的中间文档可以在非结构化文档中的文本元素周围添加结构，这些文本元素不包括在非结构化文档的表格中。每个文本元素还可包括位置信息，诸如非结构化文档中的字符偏移和边界框坐标，其可由文档查看器640用于渲染非结构化文档和将视觉效果应用于非结构化文档的各部分。

结构化文档生成器630通常使用中间文档来生成包括从非结构化文档提取的相关信息的结构化文档。为了生成结构化文档，结构化文档生成器630使用领域特定的自然语言处理引擎和领域特定的本体，训练该领域特定的本体以识别对一类文档具有特定重要性的单词或短语。由结构化文档生成器630生成的结构化文档可以是分级文档，文档查看器640可以使用该分级文档来渲染导航结构，该导航结构保留分级以及从该文档提取的数据之间的关系。

文档查看器640通常提供图形用户界面，其中，在图形用户界面的第一窗格中渲染非结构化文档，并且在第二窗格中显示从结构化文档生成的导航结构，导航结构包括从非结构化文档中提取的信息。通常，当用户与导航结构中的元素交互时，文档查看器640可跳转至包括所选择的文本元素的非结构化文档的一部分并且将一个或多个视觉效果应用于包括所选的文本元素的非结构化文档的该部分。文档查看器640还可允许用户从与在第一窗格中显示的非结构化文档相关联的结构化文档编辑和移除现有内容并将来自非结构化文档的信息添加到结构化文档。

如图所示，存储装置610包括文档数据存储650和本体数据存储660。文档数据存储器650一般用作存储库，其中可以存储包括从一个或多个非结构化文档提取的信息的结构化文档。本体数据存储器660通常包括可以由系统600处理的文档的不同域中的数据之间的在先定义的关系。文档数据存储650和本体数据存储660可以是关系数据库、非关系数据库、平面文件存储或其中可以存储和检索加密数据的任何其他数据存储库。

已经出于说明的目的呈现了本发明的各种实施方式的描述，但并不旨在是详尽的或者限于所公开的实施方式。在不脱离所描述的实施例的范围和精神的情况下，许多修改和变化对本领域普通技术人员将是显而易见的。这里使用的术语被选择来最好地解释实施例的原理、实际应用或对在市场中找到的技术的技术改进，或者使得本领域普通技术人员能够理解这里公开的实施例。

在下文中，参考本公开中提出的实施方式。然而，本公开的范围不限于具体描述的实施例。相反，以下特征和元件的任何组合(无论是否涉及不同实施例)被考虑来实现和实践所考虑的实施例。此外，尽管本文所公开的实施例可实现优于其他可能的解决方案或优于现有技术的优点，但特定优点是否由给定实施例实现并不限制本公开的范围。因此，以下方面、特征、实施例和优点仅仅是说明性的并且不被认为是所附权利要求的元素或限制，除非在权利要求中明确陈述。同样，对“本发明”的引用不应被解释为在此所披露的任何发明主题的概括，并且不应被认为是所附权利要求的元素或限制，除非在权利要求中明确陈述。

本发明的各个方面可以具体实现为以下形式，即：完全的硬件实施例、完全的软件实施例(包括固件、驻留软件、微代码等)，或硬件和软件方面结合的实施例，这里可以统称为“电路”、“模块”或“系统”。

本发明可以是系统、方法和/或计算机程序产品。计算机程序产品可包括其上具有用于使处理器执行本发明的各方面的计算机可读程序指令的计算机可读存储介质(或多个介质)。

计算机可读存储介质可为可保留和存储供指令执行装置使用的指令的有形装置。计算机可读存储介质可以是，例如但不限于，电子存储设备、磁存储设备、光存储设备、电磁存储设备、半导体存储设备、或者上述的任意合适的组合。计算机可读存储介质的更具体示例的非穷尽列表包括以下各项：便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、静态随机存取存储器(SRAM)、便携式紧凑盘只读存储器(CD-ROM)、数字通用盘(DVD)、记忆棒、软盘、诸如穿孔卡之类的机械编码设备或具有记录在其上的指令的槽中的凸出结构、以及上述各项的任何合适的组合。如本文所使用的计算机可读存储介质不应被解释为暂时性信号本身，例如无线电波或其他自由传播的电磁波、通过波导或其他传输介质传播的电磁波(例如，穿过光纤电缆的光脉冲)或通过电线发射的电信号。

本文中所描述的计算机可读程序指令可以经由网络(例如，互联网、局域网、广域网和/或无线网络)从计算机可读存储介质下载到相应的计算/处理设备，或者下载到外部计算机或外部存储设备。网络可以包括铜传输电缆、光传输纤维、无线传输、路由器、防火墙、交换机、网关计算机和/或边缘服务器。每个计算/处理设备中的网络适配器卡或网络接口接收来自网络的计算机可读程序指令，并转发计算机可读程序指令以存储在相应计算/处理设备内的计算机可读存储介质中。

用于执行本发明的操作的计算机可读程序指令可以是汇编指令、指令集架构(ISA)指令、机器指令、机器相关指令、微代码、固件指令、状态设置数据、或以一种或多种程序设计语言的任何组合编写的源代码或目标代码，这些程序设计语言包括面向对象的程序设计语言(诸如Smalltalk、C++等)、以及常规的过程式程序设计语言(诸如“C”程序设计语言或类似程序设计语言)。计算机可读程序指令可以完全地在用户计算机上执行、部分在用户计算机上执行、作为独立软件包执行、部分在用户计算机上部分在远程计算机上执行或者完全在远程计算机或服务器上执行。在后一种情况下，远程计算机可通过任何类型的网络(包括局域网(LAN)或广域网(WAN))连接至用户计算机，或者可连接至外部计算机(例如，使用互联网服务提供商通过互联网)。在一些实施例中，包括例如可编程逻辑电路、现场可编程门阵列(FPGA)或可编程逻辑阵列(PLA)的电子电路可以通过利用计算机可读程序指令的状态信息来使电子电路个性化来执行计算机可读程序指令，以便执行本发明的各方面。

下面将参照根据本发明实施例的方法、装置(系统)和计算机程序产品的流程图和/或框图描述本发明。应当理解，流程图和/或框图的每个方框以及流程图和/或框图中各方框的组合，都可以由计算机可读程序指令实现。

这些计算机可读程序指令可被提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器以产生机器，使得经由计算机或其他可编程数据处理装置的处理器执行的指令创建用于实现在流程图和/或框图的或多个框中指定的功能/动作的装置。也可以把这些计算机可读程序指令存储在计算机可读存储介质中，这些指令使得计算机、可编程数据处理装置、和/或其他设备以特定方式工作，从而，其中存储有指令的计算机可读存储介质包括包含实现流程图和/或框图中的或多个方框中规定的功能/动作的方面的指令的制造品。

也可以把计算机可读程序指令加载到计算机、其他可编程数据处理装置、或其他设备上，使得在计算机、其他可编程装置或其他设备上执行一系列操作步骤，以产生计算机实现的处理，使得在计算机、其他可编程装置或其他设备上执行的指令实现流程图和/或框图中的或多个方框中规定的功能/动作。

附图中的流程图和框图示出了根据本发明的不同实施例的系统、方法和计算机程序产品的可能实现方式的架构、功能和操作。对此，流程图或框图中的每个框可表示指令的模块、段或部分，其包括用于实现指定的逻辑功能的一个或多个可执行指令。在一些备选实现中，框中标注的功能可以不按照图中标注的顺序发生。例如，取决于所涉及的功能，连续示出的两个块实际上可以基本上同时执行，或者这些块有时可以以相反的顺序执行。也要注意的是，框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合，可以用执行规定的功能或动作或执行专用硬件与计算机指令的组合的专用的基于硬件的系统来实现。

虽然前述内容针对本发明的实施例，但是可以在不偏离本发明的基本范围的情况下设计本发明的其他和进一步的实施例，并且本发明的范围由所附权利要求确定。

Claims

1.一种用于从非结构化文档中提取信息的方法，包括：

接收将从中提取信息的源文档；

将所述源文档转换成文本文档文件；

基于特定领域自然语言处理引擎和特定领域本体从文本文档文件提取信息；

将提取的信息链接到所述源文档中的位置信息；以及

生成包括提取信息和链接的位置信息的结构化文档。

2.根据权利要求1所述的方法，其中：

所述源文档包括多个文本元素，以及

转换所述源文档包括：

生成用于所述源文档中的多个文本元素的位置指示符，以及

生成第一中间文本文档，所述第一中间文本文档包括所述多个文本元素中的每个的内容以及用于每个所述多个文本元素中的关联的位置指示符。

3.根据权利要求2所述的方法，其中，所述生成的第一中间文本文档包括根据预定模式格式化的结构化文档。

4.根据权利要求2所述的方法，其中：

所述多个文本元素包括表格中的单元，并且

所述第一中间文本文档用结构化表示来代替所述表格，其中所述表格中的每个单元由所述结构化表示中的单独的元素集合来表示，并且与所述源文档中的位置指示符相关联。

5.根据权利要求4所述的方法，进一步包括：

通过将未包括在所述表格中的文本内容串接到一个或多个扁平文本元素来从所述第一中间文本文档中生成第二中间文本文档，所述一个或多个扁平文本元素中的每个包括表示源文档中的每个相应扁平文本元素位置的位置阵列。

6.根据权利要求4所述的方法，其中，所述一个或多个扁平文本元素包括所述源文档中的非表格元素的结构化表示。

7.根据权利要求4所述的方法，进一步包括：

将表格单元的表头部和内容连接成扁平化文本元素，所述扁平化文本元素包括定义所述表格单元在所述源文档中的位置以及所述扁平化文本元素中的开始和结束偏移的边界框。

8.根据权利要求4所述的方法，其中，从所述源文档提取信息包括：

识别所述文本文档文件中的相关文本信息以及与识别的相关文本信息相关联的位置偏移信息；以及

基于所述位置偏移信息在所述源文档中生成边界框。

9.一种系统，包括：

处理器；以及

存储器，具有存储在其上的指令，所述指令在由处理器执行时执行用于从非结构化文档提取信息的操作，所述操作包括：

接收将从中提取信息的源文档；

将所述源文档转换成文本文档文件；

将提取的信息链接到所述源文档中的位置信息；以及

生成包括提取信息和链接的位置信息的结构化文档。

10.根据权利要求9所述的系统，其中：

所述源文档包括多个文本元素，以及

转换所述源文档包括：

生成用于所述源文档中的多个文本元素的位置指示符，以及

11.根据权利要求10所述的系统，其中，所述生成的第一中间文本文档包括根据预定模式格式化的结构化文档。

12.根据权利要求10所述的系统，其中：

所述多个文本元素包括表格中的单元，并且

13.根据权利要求12所述的方法，其中，所述操作进一步包括：

14.根据权利要求12所述的方法，其中，所述一个或多个扁平文本元素包括所述源文档中的非表格元素的结构化表示。

15.根据权利要求12所述的方法，其中，所述操作进一步包括：

16.根据权利要求12所述的方法，其中，从所述源文档提取信息包括：

基于所述位置偏移信息在所述源文档中生成边界框。

17.一种计算机可读介质，具有存储在其上的指令，所述指令在由处理器执行时执行用于从非结构化文档提取信息的操作，包括：

接收将从中提取信息的源文档；

将所述源文档转换成文本文档文件；

将所提取的信息链接到所述源文档中的位置信息；以及

生成包括提取信息和链接的位置信息的结构化文档。

18.根据权利要求17所述的计算机可读介质，其中：

所述源文档包括多个文本元素，以及

转换所述源文档包括：

生成用于所述源文档中的多个文本元素的位置指示符，以及

19.根据权利要求18所述的计算机可读介质，其中：

所述多个文本元素包括表格中的单元，并且

20.根据权利要求19所述的计算机可读介质，进一步包括：