CN116635844A

CN116635844A - 非结构化医疗文档的动态在途结构化

Info

Publication number: CN116635844A
Application number: CN202180077563.9A
Authority: CN
Inventors: 马克·A·夏皮罗; 布莱恩·J·费德罗维奇; 格伦·A·克雷默
Original assignee: Aikekuls Co
Current assignee: Aikekuls Co
Priority date: 2020-09-18
Filing date: 2021-09-16
Publication date: 2023-08-22
Also published as: WO2022060965A1; US20230325582A1; EP4214614A1; EP4214614A4

Abstract

提供了在通过非结构化文档传输信息之前、期间或之后将非结构化文档动态地转换为结构化文档的系统和方法。转换可以基于处理各种因素，例如非结构化文档的内容、来自传输文档的第一方的请求、第一方的身份或特征、来自请求文档的第二方的请求以及第二方的身份或特征。

Description

非结构化医疗文档的动态在途结构化

相关申请的交叉引用

本申请要求于2021年9月18日提交的美国临时专利申请第63/080,591号的权益，该申请的全部内容通过引用并入本文。

背景技术

在美国和其他一些国家，医疗保健可能通过大量各方提供：初级保健提供者、医院、保险公司、专科提供者、药房等。所有这些方都可能需要彼此通信。由于历史原因，这些各方所使用的各种电子系统的演变可能是以一种偶然的方式发生的，导致了非互操作的系统以及纸质和电子系统的混合。

发明内容

《健康保险流通与责任法案》(HIPAA)中提出的保护患者隐私的需要，可能会阻碍使用电子邮件作为在各方之间移动医疗信息的方法。因此，通过普通老式电话服务(POTS线路)上使用传真机(FAX)可能是在各方之间移动信息的常见或标准方法。

例如，A方(例如，医院或医生办公室)可通过传真向B方(例如，保险公司)发送大型非结构化文档(例如便携式文档文件或PDF文件)，以响应信息请求。在医疗领域，该请求可以涉及对关于医疗程序的信息的需要，例如，以确定索赔报销的资格。由于A方可能并不知道B方需要哪些信息，因此A方传真的信息可能比所需信息多得多。A方可将与潜在索赔相关的所有文档以一个大文档包的形式发送给B方。例如，这个大文档可以包括几个级联的文档：几个MRI解释报告、病理报告、基因组学报告和几个临床记录。单个大型文档可能长达数百页。作为扫描页面，它可能根本没有索引，也可能无法搜索。这种方法可以减少A方和B方之间为批准该特定程序而往返的次数；通过发送200页非结构化数据，A方可以确保B方在大型文档的某处具有正确的数据元素。因此，尽管B方的人员必须筛选和查看文档，但所花费的时间可能更短，因为消除了多次传真往返的等待时间。

矛盾的是，这种行为可能会减慢整个医疗系统的速度，因为每笔交易中的每一方都可能以相同的方式行事。这可能会使整个系统变得混乱，因为需要通过传真发送更多数量级的文档页面，需要更多的人查看更多的页面才能找到有用的数据元素。

每年可能在医疗保健机构之间定期传真数亿至数十亿份此类文档。该过程可能效率低下，导致无数个小时的时间和生产力损失。

鉴于这些挑战，本文认识到需要更有效的系统和方法，用于至少可以解决上述问题的信息传递和获取。

本公开提供了在通过非结构化文档传输信息之前、期间或之后将非结构化文档动态地转换为结构化文档的系统和方法。该转换可以至少部分地基于处理各种因素，例如非结构化文档的内容、来自传输文档的第一方的请求、第一方的身份或特征、来自请求文档的第二方的请求、第二方的身份或特征，或其组合。这种处理可以按需或实时执行。这种处理可以是自动化的。

在一个方面，提供了一种用于从非结构化文档创建结构化文档以从第一方传输到第二方的方法，包括：(a)解析非结构化文档以为非结构化文档内的多个单独的子文档中的每一个创建分类标签；(b)对于每个子文档：(i)根据基于第一方和第二方的属性确定的第一方和第二方的需要提取元数据信息；(ii)基于第二方的属性转换元数据信息和分类标签，以及；(iii)将元数据信息、分类标签和目录打包到清单中；(c)将清单和多个单独的子文档打包到结构化文档包中。

在一些实施方式中，(c)还包括将非结构化文档打包到结构化文档包中。

在另一方面，本公开提供了一种用于从非结构化文档准备结构化文档以从第一方传输到第二方的方法，其中该非结构化文档包括多个子文档，该方法包括：(a)解析非结构化文档以确定多个子文档中的每一个的分类标签；(b)对于多个子文档中的每个单独的子文档：(i)至少部分地基于第一方的属性和第二方的属性中的至少一个从单独的子文档中提取元数据信息；(ii)至少将单独的子文档的元数据信息和分类标签打包到清单中；和(c)至少将清单和所述多个子文档打包到结构化文档包中。

在一些实施方式中，该方法还包括，在(a)之前，从远程服务器获得非结构化文档。在一些实施方式中，(a)还包括将非结构化文档分段成多个子文档。在一些实施方式中，分段包括确定多个子文档的开始部分和结束部分。在一些实施方式中，(a)还包括使用选自文本识别算法、正则表达式算法、模式识别算法、图像识别算法、自然语言处理算法、光学字符识别算法、词频-逆文档频率(TF-IDF)算法和词袋算法的一种或多种算法来解析非结构化文档。

在一些实施方式中，为多个子文档中的每一个确定分类标签包括确定多个子文档中的每一个是否是成像报告、病理报告、临床记录、进展记录、基因组学报告、化验报告、诊断报告或预后报告。在一些实施方式中，为多个子文档中的每一个确定分类标签包括使用选自非结构化文档的内容、报告标题、传真号码、电子邮件地址、来自第一方的请求、第一方的身份或特征、来自第二方的请求以及第二方的身份或特征中的至少一个特征。在一些实施方式中，为多个子文档中的每一个确定分类标签包括使用经过训练的机器学习分类器处理至少一个特征。在一些实施方式中，经过训练的机器学习分类器包括选自支持向量机、神经网络、深度神经网络、随机森林和XGBoost的算法。

在一些实施方式中，元数据信息包括单独的子文档的关键字和/或结构。在一些实施方式中，元数据信息包括手术日期、对象信息或治疗医师信息。在一些实施方式中，元数据信息包括单独的子文档的报告类型或对象的疾病类型。在一些实施方式中，元数据信息包括至少部分地使用疾病类型特定的本体提取的疾病类型特定的信息。

在一些实施方式中，(b)还包括至少部分地基于第二方的属性来转换用于单独的子文档的元数据信息和分类标签。在一些实施方式中，(b)还包括在打包之前将所提取的元数据信息存储在元数据存储器中。在一些实施方式中，(b)还包括将目录打包到清单中。

在一些实施方式中，该方法还包括至少部分地基于元数据信息来索引多个单独的子文档，并且清单包括索引格式的元数据信息。在一些实施方式中，索引格式是可搜索的。在一些实施方式中，索引格式包括逗号分隔值(CSV)格式或SQLite数据库格式。在一些实施方式中，结构化文档包包括选自文本文件、PDF文件、zip文件或gzip文件的文件格式。在一些实施方式中，结构化文档包包括至少部分由所述第二方的属性确定的文件格式。在一些实施方式中，该方法还包括使用ISO/TS 21526:2019、B树、哈希表或文档嵌入对元数据信息进行编码。在一些实施方式中，(c)还包括至少将非结构化文档打包到结构化文档包中。

在一些实施方式中，该方法还包括将结构化文档从第一方传输到第二方。在一些实施方式中，该方法还包括将结构化文档从第一方传输到中间人，以及将结构化文档从中间人传输到第二方。在一些实施方式中，该方法还包括将结构化文档传输到第二方可访问的远程服务器。在一些实施方式中，传输包括使用电子邮件。在一些实施方式中，传输包括使用传真传输。

在一些实施方式中，非结构化文档包括便携式文档文件(PDF)。

另一方面，本公开提供了一种用于从非结构化文档准备结构化文档以从第一方传输到第二方的系统，包括：数据库，其被配置为存储非结构化文档，其中该非结构化文档包括多个子文档；以及可操作地耦合到数据库的一个或多个计算机处理器，其中一个或多个计算机处理器被单独或共同编程为：(a)解析非结构化文档以确定多个子文档中的每一个的分类标签；(b)对于多个子文档中的每个单独的子文档：(i)至少部分地基于第一方的属性和第二方的属性中的至少一个从单独的子文档中提取元数据信息；(ii)至少将单独的子文档的元数据信息和分类标签打包到清单中；(c)至少将清单和多个子文档打包到结构化文档包中。

在一些实施方式中，一个或多个计算机处理器被单独或共同编程以进一步在(a)之前从远程服务器获得的非结构化文档。在一些实施方式中，(a)还包括将非结构化文档分段成多个子文档。在一些实施方式中，分段包括确定多个子文档的开始部分和结束部分。在一些实施方式中，(a)还包括使用选自文本识别算法、正则表达式算法、模式识别算法、图像识别算法、自然语言处理算法、光学字符识别算法、词频-逆文档频率(TF-IDF)算法和词袋算法的一种或多种算法来解析非结构化文档。

在一些实施方式中，为多个子文档中的每一个确定分类标签包括确定多个子文档中的每一个是否是成像报告、病理报告、临床记录、进展记录、基因组学报告、化验报告、诊断报告或预后报告。在一些实施方式中，为多个子文档中的每一个确定所述分类标签包括使用选自非结构化文档的内容、报告标题、传真号码、电子邮件地址、来自第一方的请求、第一方的身份或特征、来自第二方的请求以及第二方的身份或特征中的至少一个特征。在一些实施方式中，为多个子文档中的每一个确定分类标签包括使用经过训练的机器学习分类器处理至少一个特征。在一些实施方式中，经过训练的机器学习分类器包括选自支持向量机、神经网络、深度神经网络、随机森林和XGBoost的算法。

在一些实施方式中，一个或多个计算机处理器被单独地或共同地编程以至少部分地基于元数据信息来索引多个单独的子文档，并且其中清单包括索引格式的元数据信息。在一些实施方式中，索引格式是可搜索的。在一些实施方式中，索引格式包括逗号分隔值(CSV)格式或SQLite数据库格式。在一些实施方式中，结构化文档包包括选自文本文件、PDF文件、zip文件或gzip文件的文件格式。在一些实施方式中，结构化文档包包括至少部分由第二方的属性确定的文件格式。在一些实施方式中，一个或多个计算机处理器被单独地或共同地编程以进一步使用ISO/TS 21526:2019、B树、哈希表或文档嵌入对所述元数据信息进行编码。在一些实施方式中，(c)还包括至少将非结构化文档打包到结构化文档包中。

在一些实施方式中，一个或多个计算机处理器被单独地或共同地编程以进一步将结构化文档从第一方传输到第二方。在一些实施方式中，一个或多个计算机处理器被单独地或共同地编程以进一步将结构化文档从第一方传输到中间人，以及将结构化文档从中间人传输到第二方。在一些实施方式中，一个或多个计算机处理器被单独地或共同地编程以进一步将结构化文档传输到第二方可访问的远程服务器。在一些实施方式中，传输包括使用电子邮件。在一些实施方式中，传输包括使用传真传输。

在另一方面，本公开提供了一种包括机器可执行代码的非暂时性计算机可读介质，该机器可执行代码在被一个或多个计算机处理器执行时实施用于从非结构化文档准备结构化文档以从第一方传输到第二方的方法，其中该非结构化文档包括多个子文档，该方法包括：(a)解析非结构化文档以确定多个子文档中的每一个的分类标签；(b)对于多个子文档中的每个单独的子文档：(i)至少部分地基于第一方的属性和第二方的属性中的至少一个从单独的子文档中提取元数据信息；(ii)至少将单独的子文档的元数据信息和分类标签打包到清单中；(c)至少将清单和多个子文档打包到结构化文档包中。

在一些实施方式中，方法还包括，在(a)之前，从远程服务器获得非结构化文档。在一些实施方式中，(a)还包括将非结构化文档分段成多个子文档。在一些实施方式中，分段包括确定多个子文档的开始部分和结束部分。在一些实施方式中，(a)还包括使用选自文本识别算法、正则表达式算法、模式识别算法、图像识别算法、自然语言处理算法、光学字符识别算法、词频-逆文档频率(TF-IDF)算法和词袋算法的一种或多种算法来解析非结构化文档。

在一些实施方式中，为多个子文档中的每一个确分类标签包括确定多个子文档中的每一个是否是成像报告、病理报告、临床记录、进展记录、基因组学报告、化验报告、诊断报告或预后报告。在一些实施方式中，为多个子文档中的每一个确定分类标签包括使用选自非结构化文档的内容、报告标题、传真号码、电子邮件地址、来自第一方的请求、第一方的身份或特征、来自第二方的请求以及第二方的身份或特征中的至少一个特征。在一些实施方式中，为多个子文档中的每一个确定分类标签包括使用经过训练的机器学习分类器处理至少一个特征。在一些实施方式中，经过训练的机器学习分类器包括选自支持向量机、神经网络、深度神经网络、随机森林和XGBoost的算法。

在一些实施方式中，元数据信息包括所述单独的子文档的关键字和/或结构。在一些实施方式中，元数据信息包括手术日期、对象信息或治疗医师信息。在一些实施方式中，元数据信息包括单独的子文档的报告类型或对象的疾病类型。在一些实施方式中，元数据信息包括至少部分地使用疾病类型特定的本体提取的疾病类型特定的信息。

在一些实施方式中，方法还包括至少部分地基于元数据信息来索引多个单独的子文档，并且清单包括索引格式的元数据信息。在一些实施方式中，索引格式是可搜索的。在一些实施方式中，索引格式包括逗号分隔值(CSV)格式或SQLite数据库格式。在一些实施方式中，结构化文档包包括选自文本文件、PDF文件、zip文件或gzip文件的文件格式。在一些实施方式中，所述结构化文档包包括至少部分由第二方的属性确定的文件格式。在一些实施方式中，方法还包括使用ISO/TS 21526:2019、B树、哈希表或文档嵌入对元数据信息进行编码。在一些实施方式中，(c)还包括至少将非结构化文档打包到结构化文档包中。

在一些实施方式中，方法还包括将结构化文档从第一方传输到第二方。在一些实施方式中，方法还包括将结构化文档从第一方传输到中间人，以及将结构化文档从中间人传输到第二方。在一些实施方式中，方法还包括将结构化文档传输到第二方可访问的远程服务器。在一些实施方式中，传输包括使用电子邮件。在一些实施方式中，传输包括使用传真传输。

本公开的另一方面提供了一种包括机器可执行代码的非暂时性计算机可读介质，该机器可执行代码在由一个或多个计算机处理器执行时实施以上或本文别处的任何方法。

本公开的另一方面提供了一种系统，包括一个或多个计算机处理器和与其耦合的计算机存储器。计算机存储器包括机器可执行代码，其在由一个或多个计算机处理器执行时实施上述或本文别处的任何方法。

根据以下详细描述，本公开的其他方面和优点对于本领域技术人员来说将变得容易理解，其中仅示出和描述了本公开的说明性实施方式。如将认识到的，本公开能够具有其他和不同的实施方式，并且其若干细节能够在各种明显的方面进行修改，所有这些都没有背离本公开。因此，附图和描述应被视为本质上是说明性的，而不是限制性的。

援引并入

本说明书中提及的所有出版物、专利和专利申请均通过引用并入本文，其程度如同每个单独的出版物、专利或专利申请都具体且单独地指明通过引用并入。在通过引用并入的出版物和专利或专利申请与说明书中包含的公开内容相矛盾的情况下，说明书旨在取代和/或优先于任何此类矛盾的材料。

附图说明

图1图示了被配置为将非结构化文档转换为结构化文档包的文档引擎的示例。

图2图示了将非结构化文档解析和打包到不同的子文档中的示意性概览的示例。

图3图示了文档转换操作的示意性流程图的示例。

图4图示了将组成子文档和元数据打包到结构化文档包的示意性概览的示例。

图5图示了创建用于传输到接收者的输出包的示意性数据流的示例。

图6A和图6B示意性地图示了文档引擎的布置的示例。

图7示意性地图示了实现文档引擎的中间人的示例。

图8图示了被编程以实现本公开的方法和系统的计算机系统的示例。

具体实施方式

本发明虽然本文已经显示和描述了本发明的各种实施方式，但是对于本领域技术人员来说容易理解的是，这些实施方式仅作为示例提供。在不脱离本发明的情况下，本领域技术人员可以想到许多变化、改变和替换。应当理解，可以采用这里描述的本发明实施方式的各种替代方案。

本文提供了用于将从第一方(例如，发送方)传递到需要接收信息(例如，医疗信息)的第二方(例如，接收者)的非结构化文档转换成结构形式的方法和系统。可以根据第二方的需要并基于第二方的身份和/或特征来定制结构化形式。本文提供的是用于打包该转换后的结构以便其可以通过计算机网络或其他介质传输的方法和系统。

这个系统和方法可以实现文档引擎，该文档引擎可以位于发送方、接收者或服务提供商的场所，例如可以访问在发送方和接收者之间传输的文档的中间人方。文档引擎可位于一个或多个远程服务器上，和/或可从一个或多个远程服务器访问。文档引擎可以位于一个或多个本地服务器上，和/或可从一个或多个本地服务器访问，例如在发送方、接收方和/或服务提供商站点。文档引擎可以读取非结构化文档的页面(或其他组件)，充分解析和理解它们以确定其中包含的单独报告的开始和结束。例如，文档引擎可以实施任何文本、模式和/或图像识别算法或其任何组合，以读取在非结构化文档中中继的信息。文档引擎可以实现自然语言处理算法。

在这样做之后，文档引擎可将原始的非结构化文档拆分为组成的子文档。然后，文档引擎可以进一步分析每个组成子文档以确定文档的分类。例如，文档引擎可以确定文档是否是成像报告、病理报告、临床记录、基因组学报告等。

在分类之后，文档引擎可以进一步从子文档中提取显著的关键字和结构(例如，作为元数据)。这些元数据中的一些可以是通用的，例如手术日期、对象(例如，患者)的姓名、治疗医师的姓名等。这些元数据中的一些可能是特定于领域的—即，特定于报告类型，并且特定于对象或患者所患疾病的类型。例如，如果一种报告类型是“患者摘要”，它表明对象的疾病状况是“中线神经胶质瘤”，则可以使用特定于癌症的本体来为其他报告提取特定于癌症的术语。

在文档或其子文档的分类过程中，可以使用非结构化文档中包含的或除此之外提供的任何信息，例如非结构化文档的内容、来自传输文档的第一方的请求、第一方的身份或特征、来自请求文档的第二方的请求、第二方的身份或特征，或其组合。

在对子文档进行分类之后，可以提取元数据。然后，文档引擎可以组装包括原始非结构化文档、子文档和清单的结构化文档包。除了已提取的索引元数据之外，清单还可以包括结构化文档包中的文档的目录。通过这个，结构化文档包的接收者可以很容易地找到所需的确切子文档—例如，2016年7月12日的磁共振成像(MRI)解释报告，或引用表皮生长因子受体(EGFR)突变的最新基因组学报告—而无需搜索整个数百页甚至数千页的非结构化文档。

图1描绘了在将非结构化文档110从A方101移动和翻译为交付给B方102的结构化文档包120的上下文中，体现在文档引擎100中的本公开的系统的工作的高级概览。

本公开的系统可以包括文档引擎100，其可以将单个扫描的非结构化文档110(例如扫描的PDF文档)作为输入，该单个扫描的非结构化文档110可以包含可以从A方101接收的连接在一起的多个报告。

文档引擎可以通过任何机制接收来自A方的非结构化文档。例如，传输可以通过电子邮件或传真。传输可以通过直接扫描。文档引擎可以接收任何数字格式的文档。尽管本公开的示例描述了最初“非结构化”文档的操作，但相同的系统和方法可以将第一形式的结构化文档(例如，以第一格式编制索引和/或打包)转换为第二形式的结构化文档(例如，以第二格式编制索引和/或打包)。在一些示例中，可以首先将第一形式的结构化文档扁平化为非结构化文档，以进一步处理为第二格式。

文档引擎可以读取该文档的页面，充分解析和理解它们以确定其中包含的单个报告的开始和结束。它可以将原始文档拆分成组成的子文档，在这种情况下，确定存在三个子文档122、123和124。可以通过本文描述的方法执行子文档分类，并且可以提取子文档元数据。

文档引擎100可以创建结构化文档包120，包括单独的分类子文档122、123和124，以及清单125。清单可以包括标识每个标记的分类子文档以及从子文档中提取的关键字的索引的目录。在一些情况下，文档引擎还包括包中的原始非结构化文档121的副本。或者，可以省略副本。文档引擎可以使用诸如gzip或zip的压缩算法来压缩结构化文档包。

然后可以将结构化文档包从文档引擎100传输到接收者B 102。与从A方到文档引擎的传输一样，可以使用任何传输方法。

B方可以通过查询清单来访问适当的文档，然后访问清单所指向的适当文档，而不需要连续搜索整个原始文件。有利地，这可以节省大量时间。

可以向文档引擎提供关于接收者的能力和/或身份的信息，因此可以根据接收者计算机系统的需要定制结构化文档包。例如，根据接收者的能力，结构化文档包可以是PDF文件，而清单可以在PDF查看器中被结构化为带注释的缩略图。例如，根据接收者的能力，结构化文档包和清单可以被结构化为插入到非结构化文档中的PDF章节标题和子段落。例如，根据接收者的能力，结构化文档包可以是zip文件，而清单可以被结构化为目录结构，其在zip存档中具有零个或多个附加文件。

图2描述了在将非结构化文档初始解析和打包到不同的子文档中时执行的操作。初始非结构化文档210可以通过转换系统230被馈送以生成子文档。通常，可以找到任意数量的子文档。在此示例中，找到了三个子文档：子文档222、223和224。转换过程可以分解为几个操作。首先，文档可通过光学字符识别软件231馈送，然后进入分类器系统232。在一些实施方式中，支持向量机、神经网络、深度神经网络、随机森林、XGBoost或其他算法可用于分类器系统。这可以与其他算法结合使用，例如词频-逆文档频率(TF-IDF)或词袋。算法的具体选择可能取决于确切的领域，例如，急性疾病和精确肿瘤学的表现可能与慢性疾病不同。

肿瘤学解析和命名实体提取233可能需要深入了解特定领域，例如肿瘤学。它还可能需要重要的知识，例如仿制药、常见的拼写错误、给药途径等。这些知识中的一些可能特定于传输文档的各方。例如，发送A方称为“临床笔记”，接收B方可能称为“进展笔记”。这些翻译可以通过查阅各方数据库240中的翻译表自动提供。

随着元数据被积累，它可以被存储在元数据存储225中，直到它准备好稍后被打包。

图3更详细地概述了转换操作的流程图。当非结构化文档310被分析时，它首先可以由光学字符识别331处理，然后分类器332可以将它分成不同的子文档322、323和324。注释模块可以与各方数据库340协同工作，以将元数据添加到存储在元数据存储325中的每个子文档。这在这里被描述为数据库，但可以实现为文件、内存数据库或传统数据库。其内容一旦完成，就可以与目录组合以形成清单文件。示例的元数据项显示在列表326中。注意一些元数据项，例如“目标格式”，可能不是文档本身的功能，而是文档加上最终接收者的属性。

图4图示了组成子文档和元数据如何打包以运送给接收者。这种打包可能取决于接收者处理元数据的能力。在此示例中，假设接收者的能力最低，但可能希望对元数据进行一些复杂的查询，因此最终数据可能会被打包为gzip文件，其目录结构包含元数据作为逗号分隔值(CSV)文件和SQLite数据库文件。

初始非结构化文档410可以通过转换过程411分解为组成子文档422、423和424，并且可以与临时元数据数据库425中的元数据一起驻留在文档引擎420中。文档引擎可以之前通过图3的各方数据库340确定接收者更喜欢包含SQLite版本元数据的gzip文件。

因此，对于打包操作412，文档引擎可以CSV和SQLite两种形式从元数据数据库425中提取元数据，并且可以将它们通过管道传输到要被gzip压缩的目标目录的元数据目录。它还可以添加子文档422、423和424的文件，以及原始非结构化文档410的副本。此时要被gzip压缩的目录可能如下所示：

./manifest/manifest.csv

./manifest/manifest.db

./in/Unstructured_Document.pdf

./out/MRI_Interpretation_Report.pdf

./out/Laboratory_Report.pdf

./out/Clinic_Note.pdf

这个目录然后可以被gzip压缩成一个文件430并且可以准备好传输给接收者。它可以包括非结构化文档431、MRI解释报告432、化验报告433和临床记录434。清单435在这种情况下可以是由两个文件组成的目录。

这个示例仅用于说明目的，并不旨在限制本公开的范围。例如，可以使用诸如ISO/TS 21526:2019的标准对元数据进行编码。备选地，可以使用B树、哈希表或其他机制进行编码。例如，如果元数据量足够小，则可以使用Adobe的编辑工具直接嵌入到PDF文档中。

图5示出了创建发送给接收方的单个输出文档的数据流。原始非结构化文档510加上在图4的转换过程411中提取的任何子文档(在这个示例中，三个子文档522、523和524)可以流入决策逻辑528，在那里它们可以被组合以创建输出文档530。该文档的确切形式(它是否是PDF文件、zip文件、gzip文件等)可能取决于如存储在各方数据库540中的接收者的偏好。

基于各方数据库中的查找，决策逻辑可以使用存储在交付选项数据库542中的一组默认值和配置选项来决定如何打包输出文档530。

例如，默认规则可以规定：

“如果各方数据库中没有有关接收者的数据，则使用zip文档进行交付，清单数据存储在CSV文件中”

其他规则可能适用于特定机构或机构类型(例如，医疗设施)。通过交付选项数据库和各方数据库数据的组合，可以保证决策逻辑可以具有用于创建输出文档的前进路径。

请注意，虽然文档引擎可能不知道文档的交付模式(电子邮件、传真、信鸽等)，但当意识到要发送文档的功能属性时(接收者可以阅读zip文件吗？他们可以阅读带有丰富标记的PDF吗？)或者有时他们来自哪里，系统和方法可能会变得更加高效。因此，文档引擎可以包括或提供目录服务或邮件服务，其中标题可以提供发件人和预期接收者的身份。

虽然已经在其输入和/或输出行为的上下文中描述了本公开的系统和方法，但是实现文档引擎的实际装置可以放置在物理位置。对这个位置的考虑可能会影响文档引擎的操作员如何考虑目录服务的使用。

图6A示出了与非结构化文档的发送者共存的文档引擎的放置。在此位置，A方601可以利用文档引擎610向任意数量的第三方发送文档。一个这样的第三方可以被示为B方602。A方可能希望所有第三方都接收结构化文档。因此，A方可以维护接收方的属性的注册表，以便根据他们的需要定制输出文档。因此，本发明的系统和方法可以将注册表用于这种目录服务。

图6B示出了与非结构化文档的接收者共存的文档引擎的放置。在此位置，B方622可以利用文档引擎630从任何数量的第三方接收文档。一个这样的第三方可能是A方621。B方可能知道它具有读取格式和理解元数据的能力；然而，确保它能够解析尽可能最大数量的输入格式可能是非常大的负担，因此这可能是维护成本很高的配置。

图7描绘了可以由中间人711运行的文档引擎710，中间人711是文档结构化服务的提供者。中间人可以从任意数量的来源接收非结构化文档(在这个示例中，示出了三个：A方720、B方721和C方722)，结构化文档，并将结构化文档包发送到任意接收者(在此示例中，示出了三个：X方730、Y方731和Z方732)。在一些实施方式中，在一个交易中作为发送者的一方可以在另一交易中作为接收者。

中间人可能具有能够更快地构建更健壮的目录服务的优势，并且可以分摊在更大的参与者组中适应不同格式的成本，从而使该配置更经济。

计算机系统

本公开提供了被编程为实施本公开的方法的计算机系统。图8示出了被编程或以其他方式配置为实施本公开的系统和方法的计算机系统801。计算机系统801可以实施和调节本公开的例如文档引擎的各个方面。计算机系统801可以是用户的电子设备或相对于电子设备位于远程的计算机系统。电子设备可以是移动电子设备。例如，计算机系统可以是发送者或接收者的电子设备，或者是相对于发送者或接收者位于远程的计算机系统。

计算机系统801包括中央处理单元(CPU，这里也称为“处理器”、“计算机处理器”)805，其可以是单核或多核处理器，也可以是多个并行处理的处理器。计算机系统801还包括存储器或存储器位置810(例如，随机存取存储器、只读存储器、闪存)、电子存储单元815(例如，硬盘)、用于与一个或多个其他系统通信的通信接口820(例如，网络适配器)和外围设备825，例如高速缓存、其他存储器、数据存储和/或电子显示适配器。存储器810、存储单元815、接口820和外围设备825通过诸如主板的通信总线(实线)与CPU 805通信。存储单元815可以是用于存储数据的数据存储单元(或数据存储库)。计算机系统801可以在通信接口820的帮助下可操作地耦合到计算机网络(“网络”)830。网络830可以是因特网、内联网和/或外联网，或者与因特网通信的内联网和/或外联网。在一些情况下网络830是电信和/或数据网络。网络830可以包括一个或多个计算机服务器，其可以实现分布式计算，例如云计算。在一些情况下借助于计算机系统801，网络830可以实现对等网络，这可以使耦合到计算机系统801的设备能够充当客户端或服务器。

CPU 805可以执行一系列机器可读指令，这些指令可以包含在程序或软件中。指令可以存储在存储器位置中，例如存储器810。指令可以被引导至CPU 805，CPU 805随后可以编程或以其他方式配置CPU 805以实现本公开的方法。CPU 805执行的操作示例可以包括获取、解码、执行和写回。

CPU 805可以是电路的一部分，例如集成电路。系统801的一个或多个其他组件可以包括在电路中。在一些情况下，电路是专用集成电路(ASIC)。

存储单元815可以存储文件，例如驱动程序、库和保存的程序。存储单元815可以存储用户数据，例如用户偏好和用户程序。在一些情况下，计算机系统801可以包括在计算机系统801外部的一个或多个附加数据存储单元，例如位于通过内联网或因特网与计算机系统801通信的远程服务器上。

计算机系统801可以通过网络830与一个或多个远程计算机系统通信。例如，计算机系统801可以与用户(例如，发送者、接收者等)的远程计算机系统通信。远程计算机系统的示例包括个人计算机(例如，便携式PC)、平板计算机或平板PC(例如，iPad、Galaxy Tab)、电话、智能电话(例如，/>iPhone、启用Android的设备、)或个人数字助理。用户可以通过网络830访问计算机系统801。

本文描述的方法可以通过存储在计算机系统801的电子存储位置(例如存储器810或电子存储单元815)上的机器(例如，计算机处理器)可执行代码来实现。机器可执行代码或机器可读代码可以以软件的形式提供。在使用期间，代码可以由处理器805执行。在一些情况下，代码可以从存储单元815中检索并存储在存储器810上以供处理器805随时访问。在一些情况下，电子存储单元815可以被排除，并且机器可执行指令存储在存储器810上。

代码可以被预编译和配置以用于具有适于执行代码的处理器的机器，或者可以在运行时被编译。代码可以以编程语言提供，该语言可以被选择以使代码能够以预编译或编译后的方式执行。

本文提供的系统和方法的各方面，例如计算机系统801，可以在编程中体现。该技术的各个方面可以被认为是“产品”或“制造品”，其通常采用机器(或处理器)可执行代码和/或相关数据的形式，这些数据承载或包含在一种机器可读介质中。机器可执行代码可以存储在电子存储单元上，例如存储器(例如，只读存储器、随机存取存储器、闪存)或硬盘。“存储”类型的介质可以包括计算机、处理器等的任何或所有有形存储器，或其相关模块，例如各种半导体存储器、磁带驱动器、磁盘驱动器等，它们可以随时为软件编程提供非暂时性存储。有时可能会通过因特网或各种其他电信网络传送全部或部分软件。这样的通信例如可以使得能够将软件从一个计算机或处理器加载到另一个计算机或处理器中，例如从管理服务器或主计算机加载到应用服务器的计算机平台中。因此，可以承载软件元素的另一种类型的介质包括光波、电波和电磁波，例如在本地设备之间的物理接口上使用，通过有线和光陆线网络以及在各种空中链路上使用。承载这种波的物理元件，例如有线或无线链路、光链路等，也可以被认为是承载软件的介质。如本文所用，除非限于非暂时性、有形“存储”介质，诸如计算机或机器“可读介质”的术语是指参与向处理器提供指令以供执行的任何介质。

因此，诸如计算机可执行代码的机器可读介质可以采用多种形式，包括但不限于有形存储介质、载波介质或物理传输介质。非易失性存储介质包括例如光盘或磁盘，例如任何计算机中的任何存储设备等，例如可用于实现图中所示的数据库等。易失性存储介质包括动态存储器，例如这种计算机平台的主存储器。有形传输介质包括同轴电缆；铜线和光纤，包括构成计算机系统内总线的电线。载波传输介质可以采用电信号或电磁信号的形式，也可以采用声波或光波的形式，例如在射频(RF)和红外(IR)数据通信期间产生的那些。因此，计算机可读介质的常见形式包括例如：软盘、软磁盘、硬盘、磁带、任何其他磁性介质、CD-ROM、DVD或DVD-ROM、任何其他光学介质、穿孔卡纸磁带、任何其他带有孔图案的物理存储介质、RAM、ROM、PROM和EPROM、FLASH-EPROM、任何其他存储器芯片或盒式磁带、传输数据或指令的载波、传输此类载波的电缆或链路或计算机可以从中读取程序代码和/或数据的任何其他介质。这些形式的计算机可读介质中的许多可以涉及将一个或多个指令的一个或多个序列携带到处理器以供执行。

计算机系统801可以包括电子显示器835或与其通信，电子显示器835包括用于提供例如文档重构、输入/输出预览等的指令面板的用户界面(UI)840。UI的示例包括但不限于图形用户界面(GUI)和基于Web的用户界面。

本公开的方法和系统可以通过一种或多种算法来实现。中央处理单元805执行时可以通过软件的方式实现算法。

虽然本文已经显示和描述了本发明的优选实施方式，但是对于本领域技术人员来说容易理解的是，这些实施方式仅作为示例提供。并非旨在本发明受说明书内提供的具体示例的限制。尽管已经参考前述说明书描述了本发明，但是本文的实施方式的描述和图示不意味着以限制意义来解释。在不脱离本发明的情况下，本领域技术人员现在将想到许多变化、改变和替换。此外，应当理解，本发明的所有方面并不局限于本文所述的取决于各种条件和变量的具体描述、配置或相对比例。应当理解，在实施本发明时可以采用本文描述的本发明实施方式的各种替代方案。因此，预期本发明还应涵盖任何此类替代、修改、变化或等同物。所附权利要求旨在限定本发明的范围，并且这些权利要求及其等同物范围内的方法和结构由此被覆盖。

Claims

1.一种用于从非结构化文档准备结构化文档以从第一方传输到第二方的方法，其中所述非结构化文档包括多个子文档，所述方法包括：

(a)解析所述非结构化文档以确定所述多个子文档中的每一个的分类标签；

(b)对于所述多个子文档中的每个单独的子文档：

(i)至少部分地基于所述第一方的属性和所述第二方的属性中的至少一个从所述单独的子文档中提取元数据信息；以及

(ii)至少将所述单独的子文档的所述元数据信息和所述分类标签打包到清单中；以及

(c)至少将所述清单和所述多个子文档打包到所述结构化文档包中。

2.根据权利要求1所述的方法，还包括，在(a)之前，从远程服务器获得所述非结构化文档。

3.根据权利要求1所述的方法，其中(a)还包括将所述非结构化文档分段成所述多个子文档。

4.根据权利要求3所述的方法，其中所述分段包括确定所述多个子文档的开始部分和结束部分。

5.根据权利要求1所述的方法，其中(a)还包括使用选自文本识别算法、正则表达式算法、模式识别算法、图像识别算法、自然语言处理算法、光学字符识别算法、词频-逆文档频率(TF-IDF)算法和词袋算法的一种或多种算法来解析所述非结构化文档。

6.根据权利要求1所述的方法，其中为所述多个子文档中的每一个确定所述分类标签包括确定所述多个子文档中的每一个是否是成像报告、病理报告、临床记录、进展记录、基因组学报告、化验报告、诊断报告或预后报告。

7.根据权利要求1所述的方法，其中为所述多个子文档中的每一个确定所述分类标签包括使用选自所述非结构化文档的内容、报告标题、传真号码、电子邮件地址、来自所述第一方的请求、所述第一方的身份或特征、来自所述第二方的请求以及所述第二方的身份或特征中的至少一个特征。

8.根据权利要求1所述的方法，其中为所述多个子文档中的每一个确定所述分类标签包括使用经过训练的机器学习分类器处理所述至少一个特征。

9.根据权利要求8所述的方法，其中所述经过训练的机器学习分类器包括选自支持向量机、神经网络、深度神经网络、随机森林和XGBoost的算法。

10.根据权利要求1所述的方法，其中所述元数据信息包括所述单独的子文档的关键字和/或结构。

11.根据权利要求1所述的方法，其中所述元数据信息包括手术日期、对象信息或治疗医师信息。

12.根据权利要求1所述的方法，其中所述元数据信息包括所述单独的子文档的报告类型或对象的疾病类型。

13.根据权利要求12所述的方法，其中所述元数据信息包括至少部分地使用所述疾病类型特定的本体提取的所述疾病类型特定的信息。

14.根据权利要求1所述的方法，其中(b)还包括至少部分地基于所述第二方的所述属性来转换用于所述单独的子文档的所述元数据信息和所述分类标签。

15.根据权利要求1所述的方法，其中(b)还包括在所述打包之前将所提取的元数据信息存储在元数据存储器中。

16.根据权利要求1所述的方法，其中(b)还包括将目录打包到所述清单中。

17.根据权利要求1所述的方法，还包括至少部分地基于所述元数据信息来索引所述多个单独的子文档，并且其中所述清单包括索引格式的所述元数据信息。

18.根据权利要求17所述的方法，其中所述索引格式是可搜索的。

19.根据权利要求17所述的方法，其中所述索引格式包括逗号分隔值(CSV)格式或SQLite数据库格式。

20.根据权利要求1所述的方法，其中所述结构化文档包包括选自文本文件、PDF文件、zip文件或gzip文件的文件格式。

21.根据权利要求1所述的方法，其中所述结构化文档包包括至少部分由所述第二方的所述属性确定的文件格式。

22.根据权利要求1所述的方法，还包括使用ISO/TS 21526:2019、B树、哈希表或文档嵌入对所述元数据信息进行编码。

23.根据权利要求1所述的方法，其中(c)还包括至少将所述非结构化文档打包到所述结构化文档包中。

24.根据权利要求1所述的方法，还包括将所述结构化文档从所述第一方传输到所述第二方。

25.根据权利要求24所述的方法，还包括将所述结构化文档从所述第一方传输到中间人，以及将所述结构化文档从所述中间人传输到所述第二方。

26.根据权利要求24或25所述的方法，还包括将所述结构化文档传输到所述第二方可访问的远程服务器。

27.根据权利要求24所述的方法，其中所述传输包括使用电子邮件。

28.根据权利要求24所述的方法，其中所述传输包括使用传真传输。

29.根据权利要求1所述的方法，其中所述非结构化文档包括便携式文档文件(PDF)。

30.一种用于从非结构化文档准备结构化文档以从第一方传输到第二方的系统，包括：

数据库，其被配置为存储所述非结构化文档，其中所述非结构化文档包括多个子文档；以及可操作地耦合到所述数据库的一个或多个计算机处理器，其中所述一个或多个计算机处理器被单独或共同编程为：

(b)对于所述多个子文档中的每个单独的子文档：

31.根据权利要求30所述的系统，其中所述一个或多个计算机处理器被单独或共同编程以进一步在(a)之前从远程服务器获得所述非结构化文档。

32.根据权利要求30所述的系统，其中(a)还包括将所述非结构化文档分段成所述多个子文档。

33.根据权利要求32所述的系统，其中所述分段包括确定所述多个子文档的开始部分和结束部分。

34.根据权利要求30所述的系统，其中(a)还包括使用选自文本识别算法、正则表达式算法、模式识别算法、图像识别算法、自然语言处理算法、光学字符识别算法、词频-逆文档频率(TF-IDF)算法和词袋算法的一种或多种算法来解析所述非结构化文档。

35.根据权利要求30所述的系统，其中为所述多个子文档中的每一个确定所述分类标签包括确定所述多个子文档中的每一个是否是成像报告、病理报告、临床记录、进展记录、基因组学报告、化验报告、诊断报告或预后报告。

36.根据权利要求30所述的系统，其中为所述多个子文档中的每一个确定所述分类标签包括使用选自所述非结构化文档的内容、报告标题、传真号码、电子邮件地址、来自所述第一方的请求、所述第一方的身份或特征、来自所述第二方的请求以及所述第二方的身份或特征中的至少一个特征。

37.根据权利要求30所述的系统，其中为所述多个子文档中的每一个确定所述分类标签包括使用经过训练的机器学习分类器处理所述至少一个特征。

38.根据权利要求37所述的方法，其中所述经过训练的机器学习分类器包括选自支持向量机、神经网络、深度神经网络、随机森林和XGBoost的算法。

39.根据权利要求30所述的系统，其中所述元数据信息包括所述单独的子文档的关键字和/或结构。

40.根据权利要求30所述的系统，其中所述元数据信息包括手术日期、对象信息或治疗医师信息。

41.根据权利要求30所述的系统，其中所述元数据信息包括所述单独的子文档的报告类型或对象的疾病类型。

42.根据权利要求41所述的系统，其中所述元数据信息包括至少部分地使用所述疾病类型特定的本体提取的所述疾病类型特定的信息。

43.根据权利要求30所述的系统，其中(b)还包括至少部分地基于所述第二方的所述属性来转换用于所述单独的子文档的所述元数据信息和所述分类标签。

44.根据权利要求30所述的系统，其中(b)还包括在所述打包之前将所提取的元数据信息存储在元数据存储器中。

45.根据权利要求30所述的系统，其中(b)还包括将目录打包到所述清单中。

46.根据权利要求30所述的系统，其中所述一个或多个计算机处理器被单独地或共同地编程以至少部分地基于所述元数据信息来索引所述多个单独的子文档，并且其中所述清单包括索引格式的所述元数据信息。

47.根据权利要求46所述的系统，其中所述索引格式是可搜索的。

48.根据权利要求46所述的系统，其中所述索引格式包括逗号分隔值(CSV)格式或SQLite数据库格式。

49.根据权利要求30所述的系统，其中所述结构化文档包包括选自文本文件、PDF文件、zip文件或gzip文件的文件格式。

50.根据权利要求30所述的系统，其中所述结构化文档包包括至少部分由所述第二方的属性确定的文件格式。

51.根据权利要求30所述的系统，其中所述一个或多个计算机处理器被单独地或共同地编程以进一步使用ISO/TS 21526:2019、B树、哈希表或文档嵌入对所述元数据信息进行编码。

52.根据权利要求30所述的系统，其中(c)还包括至少将所述非结构化文档打包到所述结构化文档包中。

53.根据权利要求30所述的系统，其中所述一个或多个计算机处理器被单独地或共同地编程以进一步将所述结构化文档从所述第一方传输到所述第二方。

54.根据权利要求53所述的系统，其中所述一个或多个计算机处理器被单独地或共同地编程以进一步将所述结构化文档从所述第一方传输到中间人，以及将所述结构化文档从所述中间人传输到所述第二方。

55.根据权利要求53或54所述的系统，其中所述一个或多个计算机处理器被单独地或共同地编程以进一步将所述结构化文档传输到所述第二方可访问的远程服务器。

56.根据权利要求53所述的系统，其中所述传输包括使用电子邮件。

57.根据权利要求53所述的系统，其中所述传输包括使用传真传输。

58.根据权利要求30所述的系统，其中所述非结构化文档包括便携式文档文件(PDF)。

59.一种包括机器可执行代码的非暂时性计算机可读介质，该机器可执行代码在被一个或多个计算机处理器执行时实施用于从非结构化文档准备结构化文档以从第一方传输到第二方的方法，其中所述非结构化文档包括多个子文档，所述方法包括：

(b)对于所述多个子文档中的每个单独的子文档：

60.根据权利要求59所述的非暂时性计算机可读介质，其中所述方法还包括，在(a)之前，从远程服务器获得所述非结构化文档。

61.根据权利要求59所述的非暂时性计算机可读介质，其中(a)还包括将所述非结构化文档分段成所述多个子文档。

62.根据权利要求61所述的非暂时性计算机可读介质，其中所述分段包括确定所述多个子文档的开始部分和结束部分。

63.根据权利要求59所述的非暂时性计算机可读介质，其中(a)还包括使用选自文本识别算法、正则表达式算法、模式识别算法、图像识别算法、自然语言处理算法、光学字符识别算法、词频-逆文档频率(TF-IDF)算法和词袋算法的一种或多种算法来解析所述非结构化文档。

64.根据权利要求59所述的非暂时性计算机可读介质，其中为所述多个子文档中的每一个确定所述分类标签包括确定所述多个子文档中的每一个是否是成像报告、病理报告、临床记录、进展记录、基因组学报告、化验报告、诊断报告或预后报告。

65.根据权利要求59所述的非暂时性计算机可读介质，其中为所述多个子文档中的每一个确定所述分类标签包括使用选自所述非结构化文档的内容、报告标题、传真号码、电子邮件地址、来自所述第一方的请求、所述第一方的身份或特征、来自所述第二方的请求以及所述第二方的身份或特征中的至少一个特征。

66.根据权利要求59所述的非暂时性计算机可读介质，其中为所述多个子文档中的每一个确定所述分类标签包括使用经过训练的机器学习分类器处理所述至少一个特征。

67.根据权利要求66所述的非暂时性计算机可读介质，其中所述经过训练的机器学习分类器包括选自支持向量机、神经网络、深度神经网络、随机森林和XGBoost的算法。

68.根据权利要求59所述的非暂时性计算机可读介质，其中所述元数据信息包括所述单独的子文档的关键字和/或结构。

69.根据权利要求59所述的非暂时性计算机可读介质，其中所述元数据信息包括手术日期、对象信息或治疗医师信息。

70.根据权利要求59所述的非暂时性计算机可读介质，其中所述元数据信息包括所述单独的子文档的报告类型或对象的疾病类型。

71.根据权利要求70所述的非暂时性计算机可读介质，其中所述元数据信息包括至少部分地使用所述疾病类型特定的本体提取的所述疾病类型特定的信息。

72.根据权利要求59所述的非暂时性计算机可读介质，其中(b)还包括至少部分地基于所述第二方的属性来转换用于所述单独的子文档的所述元数据信息和所述分类标签。

73.根据权利要求59所述的非暂时性计算机可读介质，其中(b)还包括在所述打包之前将所提取的元数据信息存储在元数据存储器中。

74.根据权利要求59所述的非暂时性计算机可读介质，其中(b)还包括将目录打包到所述清单中。

75.根据权利要求59所述的非暂时性计算机可读介质，其中所述方法还包括至少部分地基于所述元数据信息来索引所述多个单独的子文档，并且其中所述清单包括索引格式的所述元数据信息。

76.根据权利要求75所述的非暂时性计算机可读介质，其中所述索引格式是可搜索的。

77.根据权利要求75所述的非暂时性计算机可读介质，其中所述索引格式包括逗号分隔值(CSV)格式或SQLite数据库格式。

78.根据权利要求59所述的非暂时性计算机可读介质，其中所述结构化文档包包括选自文本文件、PDF文件、zip文件或gzip文件的文件格式。

79.根据权利要求59所述的非暂时性计算机可读介质，其中所述结构化文档包包括至少部分由所述第二方的属性确定的文件格式。

80.根据权利要求59所述的非暂时性计算机可读介质，其中所述方法还包括使用ISO/TS 21526:2019、B树、哈希表或文档嵌入对所述元数据信息进行编码。

81.根据权利要求59所述的非暂时性计算机可读介质，其中(c)还包括至少将所述非结构化文档打包到所述结构化文档包中。

82.根据权利要求59所述的非暂时性计算机可读介质，其中所述方法还包括将所述结构化文档从所述第一方传输到所述第二方。

83.根据权利要求82所述的非暂时性计算机可读介质，其中所述方法还包括将所述结构化文档从所述第一方传输到中间人，以及将所述结构化文档从所述中间人传输到所述第二方。

84.根据权利要求82或83所述的非暂时性计算机可读介质，其中所述方法还包括将所述结构化文档传输到所述第二方可访问的远程服务器。

85.根据权利要求82所述的非暂时性计算机可读介质，其中所述传输包括使用电子邮件。

86.根据权利要求82所述的非暂时性计算机可读介质，其中所述传输包括使用传真传输。

87.根据权利要求59所述的非暂时性计算机可读介质，其中所述非结构化文档包括便携式文档文件(PDF)。