CN114341838A

CN114341838A - 病理报告中的使用自然语言处理的自动信息提取与扩展

Info

Publication number: CN114341838A
Application number: CN202080062284.0A
Authority: CN
Inventors: V·沙尔马; Y·潘迪特; R·巴拉苏布拉马尼恩
Original assignee: F Hoffmann La Roche AG
Current assignee: F Hoffmann La Roche AG
Priority date: 2019-09-06
Filing date: 2020-09-08
Publication date: 2022-04-12
Also published as: WO2021046536A1; EP4026047A1; US20220301670A1; JP7392120B2; JP2024012659A; JP2022546593A

Abstract

在一个示例中，计算机系统执行的方法包括：接收包含病理报告的图像文件；对图像文件执行图像识别操作以提取输入文本字符串；使用自然语言处理(NLP)模型从输入文本字符串检测实体，每个实体包括标签和值；使用NLP模型从输入文本字符串中提取实体的值；基于将实体和值映射到预定术语的映射表，将实体中的至少一些实体的值转换为相对应的预定术语；以及生成处理后病理报告，该处理后病理报告包括从输入文本字符串中检测到的实体和相对应的预定术语。

Description

病理报告中的使用自然语言处理的自动信息提取与扩展

相关申请的交叉引用

本申请要求享有2019年9月6日提交的美国临时专利申请第62/897,252号的优先权权益，该美国临时专利申请的内容出于所有目的通过引用以其整体合并于此。

背景技术

每天，医院都会在全球范围内创建大量的临床数据。医务人员，诸如临床医生和临床工作人员，需要分析临床数据以向患者实施护理。对这些数据的分析对于医疗服务供给和护理质量的详细洞察、以及提供改善医疗保健的基础十分关键。

不幸的是，临床数据中的很大一部分十分难以获取和分析，因为大部分数据不是纸质形式就是扫描图像的形式。这些数据可能包括，例如，病理报告或者任何其他既不与结构性数据模型相关联也不以预定义的方式组织以定义数据的上下文和/或含义的数据。因为数据的物理形式，以及数据是非结构化的这一事实，临床医生和临床工作人员一般需要花费大量的时间通读患者的病理报告以获取关键的临床数据，诸如诊断、治疗历史等，同时所花费的时间将会积累增加以阅读大量患者的病理报告。此外，手动提取也是十分费力、缓慢、昂贵以及容易出错的。从病理报告中手动处理和提取临床数据会给医务人员造成巨大的负担并且影响他们给患者实施护理的能力。由于费用和时间限制，对病理报告进行大规模手动处理以提供对医疗服务供给和护理质量的详细洞察也是不可行的。

发明内容

本发明公开了用于在病理报告中自动进行信息提取和扩展(enrichment)的技术。病理报告可以包括来自各种主要来源(在一个或多个医疗机构处)的电子报告，包括例如EMR(电子医疗记录)数据库、PACS(图片存档和通信系统)、数字病理(DP)系统、包括基因组数据的LIS(实验室信息系统)、RIS(放射信息系统)、患者报告的结果数据库、可穿戴和/或数字技术以及社交媒体。病理报告也可以是纸质形式并源于临床医生/临床工作人员。病理报告可以是通过扫描纸质病理报告获得的图像文件的形式(例如，可移植文档格式(pdf)和位图图像文件(BMP文件))。

在一些示例中，提供了从病理报告的图像中提取病理实体的工作流程。此工作流程以从病理报告的图像文件中提取文本字符串开始。从图像文件中提取文本字符串可以基于图像识别过程，以从图像中识别字符和/或文本字符串，所述图像识别过程诸如光学字符识别(OCR)、光学单词识别等。此工作流程可进一步包括：使用自然语言处理器(NLP)从输入文本字符串中识别实体，每个实体包括标签和值；以及从文本字符串确定实体的值。此实体可通常指预定义的医学的类别和分类，诸如医疗诊断、手术、药物、患者身体内的特定位置/器官等。每个实体可以有指示类别/分类的标签，以及与被分类/归类的数据对应的值。在一些示例中，此工作流程进一步包括将实体中的至少一些实体的值映射到标准术语，所述标准术语诸如，在系统化医学命名法(SNOMED)标准下定义的临床术语和编码。此工作流程可以随后基于映射生成结构化的医疗数据，该结构化的医疗数据将实体的标签与实体的值或标准化术语中的至少一个进行关联。

可以提供结构化医疗数据以用于各种应用。例如，结构化医疗数据可以存储在可检索的数据库中，基于搜索查询可以从该可检索的数据库检取出实体以及它们的值(标准化或者非标准化)。可检索的数据库以及结构化医疗数据也可以用于各种应用，诸如临床决策支持应用、分析应用等，以进行处理。例如，临床决策支持应用可以从数据库中检取与临床决策(例如，诊断、手术历史、药物历史)相关的实体以及它们的值，并处理这些实体以生成输出以支持临床决策。分析应用可以从大量患者的病理报告中获取与例如治疗历史和诊断相关的实体并执行分析，以获得对医疗服务供给和护理质量的洞察。在其他示例中，可以提供临床门户应用以显示结构化医疗数据，和/或显示带有覆盖在图像上的提取的实体信息的病理报告的图像。

NLP模型可以被训练为识别包含实体和值的文本字符串序列，并基于识别提取实体和值。NLP可以分两步过程进行训练。作为第一步，NLP模型可以基于包括常见医疗术语的文档来进行训练，以构建基线NLP子模型。作为第二步，基线NLP子模型可以使用来自病理报告的文本字符串来进行训练，以扩展模型来涵盖特定的病理术语。训练操作的第二步可以使用CoNLL(自然语言学习会议)文件来执行。

此外，各种技术可以确定图像识别操作的各种参数，以提升NLP的提取准确度。在一些示例中，可执行参数掠扫(sweep)操作以获得参数值的不同组合。然后可以迭代地执行图像识别操作，其中每一次迭代操作都基于参数值的不同组合来执行。随后可以测量每次迭代的文本识别准确度，并且可以使用导致最高文本识别准确度的参数值的特定组合来配置工作流程的图像识别操作。作为另一示例，图像识别操作的参数值的确定可以基于NLP输出。具体来说，可以基于第一组参数值来预先配置图像识别操作。可以对病理报告的图像执行预先配置的图像识别操作，以提取文本字符串，并且文本字符串可以输入到NLP以提取病理实体。可以基于由NLP进行提取的准确度来调整图像识别操作的参数。

在下面详细描述本发明的这些和其他实施例。例如，其他实施例涉及与本文所描述的方法相关联的系统、设备和计算机可读介质。

参考以下具体实施方式和附图，可以获得对本发明的实施例的本质和优点的更好的理解。

附图的简要说明

参照附图阐述具体实施方式。

图1示出了常规病理报告的示例。

图2A和图2B示出了可以通过本公开的示例实现的常规病理报告的处理后示例。

图3示出了执行对病理报告的自动信息提取和扩展的系统的示例。

图4A、图4B、图4C、图4D和图4E示出了图3的系统的示例内部部件及其操作。

图5A、图5B、图5C、图5D和图5E示出图3的系统自然语言操作处理模型的训练操作示例。

图6示出了用于确定图3系统中图像识别操作的参数的示例操作。

图7示出了图3系统的输出所支持的示例应用。

图8示出了执行对病理报告的自动信息提取和扩展的方法。

图9示出了可用于实现本文公开的技术的示例计算机系统。

详细描述

本文公开了用于在病理报告中进行自动信息提取和扩展的技术。病理报告可以源于来自各种主要来源(一个或多个医疗机构)的电子报告，包括例如EMR(电子医疗记录)数据库、PACS(图片存档和通信系统)、数字病理(DP)系统、包括基因组数据的LIS(实验室信息系统)、RIS(放射信息系统)、患者报告的结果数据库、可穿戴和/或数字技术以及社交媒体。病理报告也可以是纸质形式并源于临床医生或临床工作人员。病理报告可以是图像文件的形式(例如，通过扫描纸质形式病理报告获得的可移植文档格式(pdf)和位图图像文件(BMP文件))。

在一些实施例中，提供了从病理报告的图像中提取病理实体的工作流程。此工作流程以从病理报告的图像文件中提取文本字符串开始。从图像文件中提取文本字符串可以基于图像识别过程以从图像中识别字符和/或文本字符串，所述图像识别过程诸如光学字符识别(OCR)、光学单词识别等。此工作流程进一步包括：使用自然语言处理器(NLP)从文本字符串中识别实体，每个实体包括标签和值；以及从文本字符串确定实体的值。此实体通常指预定义的医学的类别和分类，诸如医疗诊断、手术、药物、患者身体内的特殊位置/器官等。每个实体有指示类别/分类的标签，以及指示数据被分类/归类的值。在一些示例中，此工作流程包括将实体中的至少一些实体的值映射到标准术语。映射可以作为扩展过程的一部分，在扩展过程中可能将可能是分类/归类数据的非标准化表示的实体中的至少一些实体的值转换为标准化数据，诸如在系统化医学命名法(SNOMED)下定义的临床术语和编码。此工作流程可以随后生成结构化的医疗数据，该结构化的医疗数据将实体的标签与实体的值中或标准化术语中的至少一个进行关联。

可以提供结构化医疗数据以用于各种应用。例如，结构化医疗数据可以存储在可检索的数据库中，基于搜索查询可以从该可检索的数据库检取出实体以及它们的值(标准化或者非标准化)。可检索的数据库以及结构化医疗数据也可以用于各种应用，诸如，临床决策支持应用、分析应用等，以进行处理。例如，临床决策支持应用可以从数据库中检取与临床决策(例如，诊断、手术历史、药物历史)相关的实体以及它们的值，并处理这些实体以生成输出以支持临床决策。分析应用可以从大量患者的病理报告中获取与例如治疗历史和诊断相关的实体，并执行分析以获得对医疗服务供给和护理质量的洞察。

作为另一示例，可以提供实现端对端的扩展工作流程操作的临床门户应用。临床门户应用可以接收来自于患者数据库的病理报告的图像，并对图像执行光学字符识别操作(OCR)，以生成包括提取的文本字符串和它们在此图像中的图像位置的第一数据。临床门户应用随后可以使用NLP以从提取出的文本字符串提取病理实体(包括标签和值)。临床门户应用随后可以将实体组成结构化医疗数据，并将此结构化医疗数据存储回患者数据库。临床门户应用还可以显示结构化医疗数据。在一些示例中，临床门户应用可以以结构化的形式(例如，以表的形式、填充表格的形式)显示结构化医疗数据，以使此门户使用者(例如，临床医生和临床工作人员)能够有效地识别他们寻找的医疗信息。在一些示例中，临床门户应用可以包括用于显示图像的显示界面，以及覆盖在文本字符串(NLP确认为该文本字符串表示病理实体)上的可选强调标记。显示界面也可以在一组文本字符串上检测对强调标记的选择并显示弹出窗口，该弹出窗口包括实体标签和值，以及所选择的文本字符串的其他扩展信息(例如，基于SNOMED的标准化数据)。

NLP模型可以被训练为识别包含实体和值的文本字符串序列，并基于识别提取实体和值。NLP可以分两步过程进行训练。作为第一步，NLP模型可以基于包括常见医疗术语的文档进行训练，以构建基线NLP子模型。基线NLP子模型可以用于为识别包括常规医疗术语、可能(也可能不)包括病理实体的文本字符串序列提供主要的上下文。基线NLP子模型可以基于来自各种主要来源的生物医学的文章被训练/构建，所述各种主要来源诸如PubMed

这是在美国国立卫生研究院国家医学图书馆的生物医学和生命科学期刊文献的免费全文存档。作为第二步，基线NLP子模型随后使用来自病理报告的文本字符串来训练，以扩展子模型来涵盖病理实体。训练操作的第二步可以通过使用CoNLL(自然语言学习会议)文件来执行。CoNLL文件可以包括从其他病理报告中提取的文本字符串，每个文本标记有实体标签或标记有作为非实体的指示。NLP可以基于来自大量病理报告的CoNLL文件被训练。在一些示例中，训练可以特定于医院、临床组织、或个体临床医生，使得NLP可以被训练来学习医院/临床组织/临床医生的单词偏好，这可以最大化提取实体和它们的值的准确度。在一些实施例中，提取实体的准确度的统计信息可以被维护。如果统计信息指示NLP在从输入的文本字符串中提取实体时有低提取准确度，则输入的文本字符串可以被标记以生成新的CoNLL文件，并且NLP可以使用新的CoNLL文件进行再训练以提升提取准确度。

此外，各种技术被提出以确定图像识别操作的各种参数，以提升NLP的提取准确度。这些参数可以包括，例如，侵蚀(erosion)值、页面迭代器等级、页面分割模式或缩放因子。侵蚀值可以指示是否执行模糊线平滑操作。页面迭代器等级可以指图像识别操作的颗粒度-无论是否通过将整个页面视为块、或通过将页面内的部分(段落、行、单词、字符等)视为块以增加图像识别操作的颗粒度来执行图像识别操作。页面分割模式可以检测正在被处理的页面的倾斜方向，并调整图像识别操作以纠正倾斜方向。缩放因子可以设置缩放级别，以放大和缩小要处理的图像。

在一些示例中，可执行参数扫描操作以获得参数值的不同组合。然后可以对一组病理报告迭代执行图像识别操作，每一次迭代都基于参数值的一组合来执行。随后可以测量每次迭代的文本识别准确度，并且可以使用导致最高文本识别准确度的特定参数值组合来配置用于工作流程的图像识别操作。

在另一个示例中，图像识别操作的参数的确定可以基于NLP输出。具体而言，可以基于第一组参数值对图像识别操作进行预先配置。可以对在病理报告的图像执行预先配置的图像识别操作，以提取文本字符串，并且文本字符串可以被输入到NLP以提取病理实体。随后可以基于由NLP进行提取的准确度来调整图像识别操作的参数。

基于NLP输出调整图像识别操作的参数可以是有利的，尤其是在图像文件包含特定医生的注释的情形下，该注释可能包含非标准的编码和短语。如果OCR输出与标准化短语进行比较以确定文本识别准确度，则该比较可能在该文本字符串包含非标准的编码和短语时，导致关于针对一组特定的OCR参数的文本识别准确度的错误结论。另一方面，由于NLP模型已经被训练成识别非标准编码和短语以及标准化术语，因此使用NLP输出来确定文本识别准确度可以确保该文本识别准确度测量受OCR输出中存在非标准编码和短语的影响较小。

所公开的技术可以实现自动化工作流程，该工作流程开始于处理病理报告的图像以提取文本字符串，接着利用NLP从文本字符串中提取实体和它们的值，通过将它们映射到标准术语来扩展所提取的实体和值，并然后生成包含所提取的值或标准术语中的至少一个和所提取的实体的结构化医疗数据。与临床医生和临床工作人员需要手动通读病理报告来提取相关信息的情形相比，所公开的技术可以大大地加快提取过程并减少临床医生和临床工作人员需要从病理报告中获取所需信息的时间/资源，这进而允许他们分配更多的时间/资源以找到正确的治疗并向患者实施治疗。此外，通过让其他应用(诸如临床支持应用、分析应用等)可以访问此结构化医疗数据，对大量患者群体的病理报告的大规模分析可以被执行以提供对医疗服务供给和护理质量的洞察，以提供相关数据来支持临床医生作出的临床决策等。随着数据流整体速度的提高，以及医疗数据提取的正确性和完整性的提高，可以为临床和研究目的提供更广泛、更快速的高质量患者数据访问，这可以促进治疗和医疗技术的发展，以及提高提供给患者的护理质量。

I.从病理报告中进行信息提取与扩展的示例

图1示出了常规病理报告100的示例。病理报告是由病理学家撰写的医疗文件，并且可以基于病理学家对取自患者肿瘤的组织样本的检查提供组织学诊断。从该肿瘤组织，病理学家可以发现，例如，此组织是癌性还是非癌性的，以及其他具体的关于此肿瘤特征的细节。所有的这些信息都可以作为病理报告的一部分。基于这些信息，可以制定治疗方案。

参照图1，病理报告100可以包括诊断信息的多个部分。例如，病理报告100可以包括，指示肿瘤位置(例如，右肺/中叶)的部分102、指示多个病变(例如，肺鳞状细胞癌)的部分104、指示肿瘤大小(例如，5.3x 4.0x3.0厘米)的部分106、指示组织学诊断(例如，高分化至中度分化角质化鳞状细胞癌)的部分108、指示淋巴结状态(例如，N2(8/28))的部分110、指示TNM(肿瘤淋巴结转移)出现(例如，pT3(心包浸润)N2(8/28)G2 R0)的部分112。病理报告100可以是纸质形式，或存储为通过扫描包含病理报告100的页面而生成的图像文件(例如，pdf文件，BMP文件)。

临床医生和/或临床工作人员可以通读病理报告100并手动提取他们寻找的医疗信息。然而这样的安排是费力、缓慢、昂贵且容易出错的。具体来说，病理报告可能没有以统一格式和结构进行组织，尤其是从不同医院和团体生成的报告。结果是，读者需要通读整个病理报告100以搜寻特定的医疗信息，这尤其是当读者需要通读大量患者群体的大量病理报告时是十分耗时且费力的。

手动提取过程可能还容易出错。错误的一个来源可以归因于费力的提取过程，因为读者可能只有非常有限的时间来通读病理报告以找到他或她需要的信息，并且读者可能在阅读和/或抄录从病理报告中获取的信息时出现错误。错误的另一来源可以归因于不同临床医生可以有不同的方式去记录诊断结果，这将可能导致混淆和不正确的解释。例如，对于部分110，读者可能难以理解“淋巴结状态”以及相关联的值“N2 8/28”的意思。结果是，读者可能对部分110有错误的解释。错误的另一来源可能是将关键实体映射到标准术语。默认情况下，标准术语可能存在大量的冗余，仅仅查找它可能无法帮助将提取的实体解析为标准化术语。例如，单词“肺”可以与超过20种标准化概念相关联。手动识别单词“肺”所映射的概念是十分具有挑战的。

图2A和图2B示出了可以通过本公开的技术实现的处理后病理报告100的示例结果。如图2A所示，病理报告100中的部分102-112中的诊断信息可以映射到各种医疗实体。医疗实体指可以指预定义的医疗类别和分类。医疗实体可以包括，例如，医疗诊断、手术、药物以及患者身体内的特定位置/器官。医疗实体可以基于通用标准来定义，诸如SNOMED，使得每个临床医生和医疗服务提供方都对该医疗实体赋予相同的含义。典型病理报告的医疗实体清单，以及它们的含义可以是如下所示：

表1

参照图2A，病理报告100的部分102-112中的诊断信息可以映射到表1的各种医疗实体，以生成数字病理报告200，该数字病理报告200包含基于医疗实体而组织的结构化数据。例如，部分102的信息可以被划分和映射到实体“样本偏侧性”(具有值“右”)和实体“肿瘤部位”(具有值“中叶”)两者。部分104的信息可以被映射到实体“组织学”，具有值“鳞状细胞癌”。部分106的信息可以被映射到实体肿瘤尺寸，具有值“5.3x 4.0x 3.0cm”。部分108的信息可以被映射到实体“组织学级别”，具有值“高分化至中度分化角质化鳞状细胞癌”。部分110的信息可以被映射到实体“区域淋巴结/分类(pN)”，具有值N2，然而部分112的信息可以被划分和映射到实体“原发性肿瘤(pT)”(具有值pT3)和实体“总级别”(具有值G2)。由于数字病理报告200的每个医疗实体是基于通用标准进行定义，并具有明确的含义，因此读者错误解释医疗实体和其相关联值的含义的风险可以被降低。

在一些示例中，数字病理报告200可以为纯文本文件，其中实体和其相关联的值以文本字符串的形式存储并可以由其他应用便利地解析/检索。此外，在数字病理报告200中实体和它们的相关联的值的布置可以是结构化的，并且遵循标准化顺序，使得在数字病理报告200中每个实体都具有其自己的预定位置。通过这种布置，应用(或是熟悉此标准化顺序的人类读者)可以在病理报告200中基于此预定的实体位置查找特定的实体和其值，而不是通过检索完整的病理报告去查找该实体，这可以大大地加快从病理报告200中提取医疗信息的速度。

作为扩展过程的一部分，数字病理报告200的实体和值的组合可以被映射到基于通用标准(诸如SNOMED)定义的预定医疗术语。这样的布置允许实体和值的组合所表示的诊断结果依照通用标准，这可以进一步降低误解和歧义的风险。例如，参照回图2A，部分210指示组织学肿瘤部位具有值为“中叶”，但是此器官并未指定，这可能会造成关于肿瘤部位的确切位置的歧义和潜在混淆。但是如果部分210被转换成为标准化和通用接受的形式，则可以避免关于肿瘤部位的确切位置的歧义/混淆。

图2B示出了映射表250，其示出了一对实体和值与SNOMED概念之间的映射示例，其可以消除误解和歧义的风险。例如，具有值“鳞状细胞癌”的实体“组织学”可以被映射至具有概念ID为59529006的SNOMED概念“原位鳞状细胞癌”。此外，具有值“下叶”的实体“肿瘤部位”可以被映射至具有概念ID为90572001的SNOMED概念“肺下叶结构”。这种映射可以基于实体“肿瘤部位”和值“下叶”之间的配对，以及部分102中包含的信息，这些信息不是实体的一部分但是被提取出来作为上下文信息，诸如文本“肺”。类似地，具有值“左”的实体“样本偏侧性”可以被映射到具有概念ID为44029006的SNOMED概念“左肺结构”，也是基于实体-值配对以及上下文信息。在所有这些情况中，SNOMED概念可以阐明准确的肿瘤部位位置以消除潜在的混淆/歧义。

作为扩展过程的一部分，数字病理报告200的可以映射(匹配)到SNOMED概念的每个实体-值配对都可以用SNOMED概念替换。例如，在部分210中的实体-值配对(肿瘤部位-下叶)可以用SNOMED概念中的“肺下叶结构”和/或SNOMED概念ID90572001替换。另一方面来说，在数字病理报告中的不具有对应的SNOMED概念的实体-值配对不会被替换。如果不存在匹配，则报告可以包含此实体-值配对。NLP可以被训练以在适用的情况下提供SNOMED概念。

对实体-值配对利用其SNOMED概念进行替换可以通过将标准术语包括在报告中来扩展数字病理报告200，对于人类读者来说，这可以减少与实体的非标准值相关联的误解和歧义风险。在一些示例中，数字病理报告200中的实体-值配对也可以用SNOMED概念ID进行替换，以减少数字病理报告200的数据大小。这样的布置也可以促进应用对数字病理报告200的处理。具体来说，由于实体-值配对可以有表示同一概念的多个可替换版本的值，因此提取和解释实体-值配对的应用需要具有识别多个替代版本的值以识别相关概念的内置功能。另一方面来说，应用可以解析SNOMED概念ID，并将概念与概念ID无歧义地链接，这可以减少应用的复杂性。

II.病理实体提取和扩展系统

如上所述，诸如病理报告100之类的常规病理报告，不论是以纸质的形式还是以扫描图像的形式，都是十分难以获取和分析数据的。由于数据的物理形式，以及数据是非结构化这一事实，临床医生和临床工作人员通常需要花费大量时间来通读病理报告，以获取重要的医疗数据，这是费力、缓慢、昂贵且容易出错的。此外，因为报告中的临床数据可能包含非标准化的术语，因此，当临床医生解释报告中的非标准化的术语时会出现潜在的歧义和混淆，这会在从病理报告中提取临床数据过程中引入错误。

A.系统架构

图3示出了可以执行病理报告中的信息自动化提取和扩展以解决上述问题中的至少一些问题的系统300。系统300可以作为实现端到端扩展工作流程操作的临床门户应用的一部分。参照图3，系统300可以从患者数据库301接收病理报告图像文件302(例如，病理报告100的病理报告图像文件302)作为输入。系统300可以生成处理后病理报告数据304(例如，病理报告200的处理后病理报告数据304)作为输出。如下所述，处理后病理报告数据304可以包含从病理报告图像文件302中提取的信息，包括：病理实体，诸如在图2A和上述表1中所描述的那些；以及从病理报告图像文件302识别的相关值。此外，处理后病理报告数据304还包括扩展信息，诸如标准化病理实体值(例如，SNOMED概念)。处理后病理报告数据304可以作为患者的结构化医疗数据写回到患者数据库301(或者其他临床数据库)。在一些示例中，系统300还包含以结构化形式(例如，以表格的形式、填充表格的形式)显示处理后病理报告数据304的显示界面305。在一些示例中，显示界面305还可以显示覆盖有基于处理后病理报告数据304的文本和图形信息的病理报告图像文件302。

系统300包含光学处理模块306、实体提取模块308、扩展模块310以执行信息的提取和扩展。每个模块可以包括可以在计算机系统(例如，服务器，或在包含多台服务器的云计算环境中)上执行的软件指令。在一些示例中，系统300可以是临床软件平台(未在图3中示出)的一部分。系统300的每个模块可以包含应用编程接口(API)以和软件平台通信从而访问不同的数据库，诸如患者数据库301。

参照图3，光学处理模块306可以接收图像文件302。图像文件302可以从各种主要来源(在一个或多个医疗机构处)被接收，包括例如EMR(电子医疗记录)数据库、PACS(图片存档和通信系统)、数字病理(DP)系统、包括基因组数据的LIS(实验室信息系统)、RIS(放射信息系统)、患者报告的结果数据库、可穿戴和/或数字技术以及社交媒体。图像文件可以是各种格式，诸如，可移植文档格式(pdf)，或位图图像文件(BMP文件)。在一些示例中，图像文件可以通过扫描纸质病理报告获得。

在接收到图像文件302后，光学处理模块306可以执行图像识别操作以识别来自图像文件302的文本图像，从该文本图像生成文本数据，并生成包含文本数据的中间文本文件312。图像识别操作可以包括，例如，光学字符识别(OCR)或光学单词识别。在两种操作中，光学处理模块306可以提取字符的像素模式(例如，通过识别具有深色的像素的模式)，将每个像素模式与字符的预定义像素模式进行比较，并基于此比较确定每个像素模式表示的是哪个字符(或哪个单词/短语)。光学处理模块306随后可以将此字符/单词/短语存储在文本文件312中。光学处理模块306可以按照预先确定的模式(例如，光栅式扫描)扫描图像文件312，从而从左到右提取和处理一行中的像素模式并对每行重复进行扫描。基于扫描模式，光学处理模块306可以生成文本字符串(例如，字符、单词、短语)序列，并将此文本字符串序列存储在文本文件312中。在一些示例中，还可以由光学处理模块306生成指示每个文本字符串序列的像素位置的元数据文件314。元数据文件314可以被其他应用使用，如下将描述的。在图4D中示出元数据文件314的示例。

实体提取模块308可以处理文本文件312，从文本文件312中识别实体(例如，表1中列出的那些实体)，并提取与实体相关联的值。实体提取模块308可以生成实体-值配对320，其中每个配对都包含提取的实体和对应值。实体提取模块309可以包含自然语言处理(NLP)模块328以执行对实体的识别和值的提取。NLP模块328可以处理来自文本文件312的文本序列，并基于识别特定的文本字符串序列，确定该序列的文本子集是特定的实体的值，并为子集确定实体-值配对。

B.自然语言处理器模型

图4A示出了NLP模型328的示例。如图4A中示出，NLP模型328包括包含节点的图，诸如节点402、404a、404b、406a、406b、406c和408。每个节点可以与文本字符串相对应。节点通过图中弧线相连接，弧线的方向定义了要由NLP模块328检测的文本字符串序列。例如，节点402和404a通过弧线410连接，节点404a和406b通过弧线412连接，而节点406b和节点408b通过弧线414连接。这些节点和弧线可以定义文本序列“右肺中叶”。这些节点还被组织成层级，并且可以从每一层级生成检测输出，此检测输出可以是实体-值配对、上下文等。在图4A的示例中，节点402可以处于第一层级以检测实体“样本偏侧性”，节点404a和404b可以处于第二层级以检测上下文，节点406a-406c和408可以处于第三层级以检测实体“肿瘤部位”。检测可以基于，例如，参数化方程，该参数化方程可以基于输入的文本字符串序列和节点所表示的文本字符串之间的相似度来计算分数，并可以基于此分数输出预定的实体-对和/或上下文信息。

NLP模型328可以处理文本字符串序列，例如来自文本文件312的序列420。NLP模型328可以从图中查找匹配(精确匹配或与阈值接近程度匹配)序列420的节点序列，同时跳过没有在图中找到的文本字符串(如，单词、标点、符号)。在一些示例中，节点的文本字符串可以由向量表示，并且阈值接近程度可以由节点序列中的文本字符串和序列420中的文本字符串之间的聚合欧式距离的阈值来定义。在一些示例中，接近程度也可以由节点序列和序列420之间匹配单词的阈值数量来定义。在图4A的示例中，NLP模型328可以通过从图中查找与序列420最接近的节点序列来处理序列420“位置：右肺/中叶”，并可以识别最接近于序列420的节点402、404a、406b和408的序列，同时忽略单词“位置”和标点符号“：”和“/”。从所识别的序列，NLP模型328可以从节点402输出实体-值配对422(样本偏侧性，右)并从节点404a输出上下文424(肺)。此外，基于指示此实体与肺相关的上下文424，NLP模型328可进一步从来自序列420的节点406b和408输出实体-值配对426(肿瘤部位，肺部中叶)。在一些示例中，即使文本字符串“叶”在序列420中丢失，NLP模型328也可以基于检测到文本字符串序列“右”、“肺”和“中”的序列来输出实体-值配对426，并由这样的序列得到实体-值配对426。所提取的实体和值可以被组合成结构化医疗数据，并可以存储回患者数据库301。

在一些示例中，NLP模型328可以包括子模型的层级，诸如基线NLP子模型，以及对病理实体特定的病理学NLP子模型。基线NLP子模型可以用于为识别包括常规医疗术语(可能(也可能不)包括病理实体)的文本字符串序列提供主要的上下文。主要的上下文可以指导对包含病理实体的文本字符串序列的识别。

图4B示出了NLP模型328的另一个示例。如图4B所示，NLP模型328包括基线NLP子模型430和病理学NLP子模型440。基线NLP子模型430可以包括，例如，节点430a、430b和430c。节点430a和430b可以与和组织学相关的通用医疗术语相关联，诸如病变、组织等，而节点430c与和组织学无关的通用医疗术语相关联，诸如手术。此外，病理学NLP子模型440可以包括节点440a、440b、440c、440d、440e和440f。节点440a、440b、440c和440d可以由边缘442、444和446链接起来以形成序列“肺部鳞状细胞癌”。另一方面，节点440e和440f与接受手术的不同器官相关联，诸如心脏和乳腺。

基线NLP子模型430可以提供上下文/指导，以用于选择病理学NLP子模型440的哪一部分来处理文本字符串序列，诸如示于图4B的序列450。具体来说，从文本字符串序列450中的文本字符串“病变数量”，基线NLP子模型430可以选择病理子模型440的节点440a-440d来处理文本字符串序列450的其余部分。病理子模型440随后可以将与节点440a-440d相关联的序列(“肺部鳞状细胞癌”)与文本字符串序列450的其余部分进行比较。基于序列匹配的结果，NLP子模型430可以输出实体-值配对452(组织学，肺鳞状细胞癌)。

注意图4A和图4B中的NLP模型拓扑结构作为示例提供。可以理解，NLP模型328可以采取其他形式，诸如作为线性链-序列模型的CRF(条件随机场)分类器、CNN Bi-LSTM(卷积神经网络双向长期短期存储器)等。

C.扩展操作

参照回图3，扩展模块310可以执行扩展操作，以提高从病理报告图像文件302中提取的医疗信息的质量。例如，一个示例扩展操作可以包括将病理报告中的实体值转换为标准化值，诸如SNOMED概念，如图2B中所示。系统300可以进一步包括术语映射数据库37，以支持扩展模块310进行的扩展操作。

图4C示出了由扩展模块310使用术语映射数据库370来执行的示例扩展操作，所述术语映射数据库370可以包括实体-值配对到标准术语(诸如SNOMED概念和概念ID)之间的映射。在图4中，映射可以是映射表的形式，映射表包括实体列454、值列456和SNOMED概念列458。对每一个实体-值配对，扩展模块310可以分别在实体列454和值列456中搜索实体和值，并在SNOMED概念列458中搜索相关联的SNOMED概念和概念ID。在图4C的示例中，对于“肿瘤部位，下叶”的实体-值配对452，扩展模块310可以识别在实体列中的“肿瘤部位”、在值列456中的“下叶”、以及来自SNOMED概念列458370的“肺部下叶结构”的SNOMED概念和概念ID90572001。

在一些示例中，作为扩展过程的部分，扩展模块310可以用实体-SNOMED概念配对替换实体提取模块308提取的、具有到SNOMED概念的映射的每个实体-值配对，并将实体-SNOMED概念配对存储在处理后病理报告数据304中。对实体-值配对用其SNOMED概念进行的替换可以通过将标准术语包括进报告中来扩展处理后病理报告数据304，这对于人类读者来说可以减少产生与实体的非标准值相关的误解和歧义的风险。在一些示例中，实体-值配对也可以用SNOMED概念ID进行替换，以减少处理后病理报告数据304的数据大小。这样的布置还可以促进应用对处理后病理报告304的处理。具体来说，由于实体-值配对可以有表示同一概念的多个可替换版本的值，因此提取和解释实体-值配对的应用需要具有识别多个替代版本的值以识别相关概念的内置功能。另一方面来说，应用可以解析SNOMED概念ID，并将概念与概念ID无歧义地链接，这可以减少应用的复杂性。

D.用于支持扩展操作的显示界面

参照回图3，系统300可以包括显示界面305，用于显示处理后病理报告数据304。在一些示例中，显示界面305可以以结构化的形式(例如，以表的形式、填充表格的形式)显示处理后病理报告数据304的结构化医疗数据，以使此门户使用者(例如，临床医生、临床工作人员)能够有效地识别他们寻找的医疗信息。在一些示例中，显示界面305可以显示病理报告图像文件302，以及覆盖在文本字符串(NLP328确定其表示病理实体)上的强调标记(文本)。此强调标记是可以选择的。显示界面305还可以检测对在一组文本字符串上强调标记的选择，并显示一个弹出窗口，包括实体的标签和值，以及所选择文本字符串的其他扩展信息(例如，基于SNOMED的标准化数据)。

显示界面305的操作可以基于元数据文件314，元数据文件314指示每个文本字符串序列的像素位置也可以由光学处理模块306生成。图4D示出了元数据文件314的示例。如图4D中所示，从病例报告100，元数据462、464和466可以基于分别从部分108、110和112中提取的实体-值配对来生成。每个元数据集可以指示从提取实体-值配对的文本字符串的开始像素位置和结束像素位置(“起始_偏移量”和“结束_偏移量”)、实体的标签和实体的值(“提及”)。在一些示例中，开始像素位置和结束像素位置可以由从图像左上方开始并以光栅化方式计数的像素数来表示。在一些示例中，开始像素位置和结束像素位置也可以用图像中的二维像素坐标来表示。

图4E示出了显示界面305的示例。如图4E中示出，显示界面305可以显示病理报告的图像470，以及诸如强调标记472、474、476和480之类的强调标记。每个强调标记是覆盖在图像470上、在从中提取实体-值配对的文本字符串的元数据中指示的开始位置和像素位置。此外，每个强调标记是可以选择的(例如，通过将鼠标光标移动到强调标记上)，以显示下层的元数据。例如，在图4E中，显示界面305可以检测到鼠标光标在文本字符串“切除活组织检查”的强调标记476上移动。基于鼠标光标的像素位置，显示界面305可以从所有针对图像470生成的元数据中识别具有覆盖鼠标光标的像素位置的一系列像素位置(由开始偏_移量和结束_偏移量表示)的元数据。显示界面305随后可以从已识别的元数据中提取SNOMED信息、文本字符串、实体的标签以及提取的置信水平(分数)，并在弹出窗口482中显示所提取的信息。

E.对自然语言处理器的训练

参照回图3，NLP模型328可以是经过训练的机器学习模型。如图3所示，系统300可以包含可以训练NLP模型328的训练模块340。训练模块340可以基于带标签的常规医疗文档348和带标签的病理报告350训练NLP模型328。常规医疗文件348可以包含各种类别的生物医学文献、报告等。训练创建表示医疗术语单词的节点，以及表示单词之间顺序关系的边缘，诸如图4A中NLP模型328的那些边缘。.作为训练操作的一部分，带有特定标签(例如，带标签的实体、带标签实体值、带标签的上下文)的文本字符串序列可以输入给NLP模型，以确定NLP是否输出正确的实体-值配对和/或上下文信息。如果训练模块340确定NLP模型328没有输出正确的实体-值配对和/或上下文信息(例如，基于将文本字符串序列的带标签的实体/标记的值与NLP模型针对文本字符串序列输出的实体-值配对进行比较)，则训练模块340可以通过创建表示新单词的新节点、新增现有节点间的边缘等方式来修改NLP模型328。输出实体-值配对的决策机制(例如，参数化方程)也可以被更新(例如，通过更新参数)，以提高输出正确的实体-对和/或上下文信息的可能性。

图5A、图5B、图5C、图5D和图5E示出NLP模型328的训练操作示例。如图5A所示，NLP模型328的训练操作500可以以两步过程执行。在步骤502中，可以基于带标签的常规医疗文档建立基线NLP子模型，诸如基线NLP子模型430。如上所述，基线NLP子模型430可以用于为识别包括常规医疗术语(其可能(也可能不)包括病理报告术语)的文本字符串序列提供主要的上下文。基线NLP子模型430可以基于从来自各种主要来源的生物医学文章导出的训练数据被训练，所述各种主要来源诸如PubMed

这是美国国立卫生研究院国家医学图书馆关于生物医学和生命科学期刊文献的免费全文存档。此训练数据可以包括带有从生物医学文章提取的特定标签(例如，带标签的实体、带标签的实体值、带标签的上下文)的文本字符串序列。

在步骤504中，可以用来自病理报告的文本字符串的带标签序列来训练基线NLP子模型，从而扩展基线NLP子模型以包含可以检测病理术语序列的病理学NLP子模型(例如，病理学NLP子模型440)。可以使用CoNLL(自然语言学习会议)文件来执行步骤504。CoNLL文件可以包括从其他病理报告中提取的文本，其中可以利用实体标签或作为非实体的指示来标记每个文本。NLP可以基于来自大量病理报告的CoNLL文件被训练。在一些示例中，训练可以特定于医院、临床组织、个体临床医生等，使得NLP就可以被训练来学习医院/临床组织/临床医生的单词偏好，这可以最大化提取实体和它们的值的准确度。

图5B示出了带标签的病理报告350(其可以是以CoNLL格式)的示例。带标签的病理报告350包括要输入到NLP模型328中的文本字符串，以及指示文本字符串实体的标签，训练模块340可以使用这些实体来指导NLP模型328的输出以执行训练。标签可以表示要由NLP模型328针对文本字符串序列输出的参考实体。训练模块340随后可以基于参考实体和NLP模型328针对文本字符串序列实际输出实体之间的差异来更新NLP模型328的参数。带标签的病理报告350可以由可以识别包含在病理报告中的信息并将该信息和标签相关联的人(例如，临床医生、临床工作人员)生成。信息的识别和与标签的关联可以基于通用标准(例如，SNOMED)，也可以特定于特定临床医生、医疗团体、医疗服务提供方等的习惯/实践。例如，临床医生可能有特定的方式来报告肿瘤部位位置，并且来自此临床医生的病理报告可以被标记以指示这种情况来训练NLP328。

如图5B中所示，带标签的病理报告350的每一行可以包括文本字符/字符串/短语，诸如文本字符串510a、512a、514a、516a、518a等。每个文本字符串和标签链接，标签可以指示上下文、实体、跳过的单词以及它们在序列中的位置。例如，单词“肺”的标签512b是“I-定位”，其指示单词“肺”属于上下文“定位”，而“I”指在上下文“定位”将被识别的序列的起始处找到单词“肺”。作为另一示例，标签514b是“I-偏侧性”，这指示单词“右”属于实体“偏侧性”，而“I”指在实体“偏侧性”将被识别的序列的起始处找到单词“右”。进一步，标签516b和518b分别是“I-肿瘤_部位”和“B-肿瘤_部位”。此标签可以指示单词“中”和“叶”属于实体“肿瘤_部位”，其中在实体的序列的起始处将找到单词“中间”，而“B”指示在该实体序列的中间将找到单词“叶”。进而，标签510b指示单词“4”是NLP模型328将不会处理的被跳过的文本。

图5C示出了带标签的文本字符串序列如何被NLP模型328处理。对于序列中的每个文本，训练模块340可以确定此文本是否在NLP模型328的节点中，并且如果此文本字符串没有被找到，则可以将节点和/或边缘添加到模型。此外，训练模块340可以将标签(如，实体“偏侧性”)与NLP模型328的输出进行比较，并且如果输出不匹配，则更新决策机制。

图5D示出了用于训练NLP 328的带标签的文本字符串序列中的不同实体的示例分布520，而图5E示出了在测量NLP 328提取实体的准确度时的各种度量。如图5D中所示，相当大的一部分文本字符串序列被标记为“B-等级”、“B-偏侧性”、“B-尺寸”、“B-类型”和“B-定位”(6％-11％)，因为这些文本字符串更常见于序列的中间。此外，相当小的一部分文本字符串序列被标记为“B-结果”、“I-血管”、“I-支气管”和“I-切缘”(0.003％–0.275％)，因为这些文本字符串更为罕见。分布520可以基于来自PubMed

的文档语料库，并可以包含大约200万个单词。

图5E示出了在对来自PubMed

的文档的语料库进行训练之后，输出的实体提取准确度指标的表530，该文档集具有520个实体的分布。提取准确度度量包括每个实体的真阳性(tp)计数、假阳性(fp)计数、假阴性(fn)计数、精度(prec)、召回率(rec)和F1分数(f1)。真阳性计数对NLP328正确检测为包含特定实体的文本字符串序列的数量进行计数。假阳性计数对不包含特定实体但NLP 328不正确地检测为包含该实体的文本字符串序列的数量进行计数。假阴性计数对包含特定实体但NLP328不正确地检测为不包含该实体的文本字符串序列的数量进行计数。精度，也称为正预测值，是指所有阳性检测(正确和错误检测)中正确阳性检测(标记为包含实体的序列)的分数占比。召回率，也称为灵敏度，指的是所有检测结果(真阳性和假阴性检测)中正确阳性检测的分数占比。精度和召回率可以基于下列公式进行计算：

计算F1分数以提供检测的置信水平。好的F1分数是好的准确度和好的召回率的总体反映。由于NLP模型用于医疗服务领域，因此较高精度比较高召回率更有利。

如图5E中所示，平均F1分数是大约0.85，其中大部分实体的F1分数在0.9以上。诸如I-切缘(0.4)之类的具有较低F1分数的实体通常是图5D中没有很好地表示出来的实体，这使得NLP模型难以准确检测这些实体。

NLP模型328的训练可以线下执行，或是在处理病理报告图像文件时执行以动态更新NLP模型328。例如，NLP模型328的训练可以作为在NLP模型328被用于处理病理报告图像文件之前的维护操作的一部分来执行。作为另一个示例，系统300可以包括分析模块360，分析模块360可以分析NLP模型328从处理病理报告图像文件得到的输出(例如，实体-值配对、上下文)的正确性，并且如果输出是不正确的(或如果不正确的输出的数量超过阈值)，则分析模块360可以触发训练模块340对NLP模型328进行再训练。作为再训练的一部分，从中生成不正确输出的病理报告图像文件中的、附有正确标签的文本序列可以被添加到带标签的病理报告350中，用于再训练NLP模型328。

III.图像识别操作的调整

此外，各种技术可以确定图像识别操作的各种参数，以提升NLP的提取准确度。用于光学字符识别(OCR)操作的参数可以包括侵蚀值、页面迭代器等级、页面分割模式或缩放因子。侵蚀值可以指示是否执行模糊线平滑操作。页面迭代器等级可以指图像识别操作的颗粒度-无论是否通过将整个页面视为块、或通过将页面内的部分(段落、行、单词、字符等)视为块以增加图像识别操作的颗粒度来执行图像识别操作。页面分割模式可以检测正在被处理页面的倾斜方向，并调整图像识别操作以纠正倾斜方向。缩放因子可以设置缩放级别，以放大和缩小要处理的图像。

在一些示例中，这些OCR参数的调整可以基于NLP 328的输出。具体来说，可以基于第一组参数值对图像识别操作进行预先配置。可以对病理报告的图像执行预先配置的OCR操作以提取文本字符串，并且文本字符串可以输入到NLP以提取病理实体。随后可以基于NLP提取的准确度来调整OCR参数。

图6示出了基于NLP 328的输出调整OCR参数的调整操作600的示例。

在步骤602中，可以确定一组OCR参数，诸如侵蚀值、页面迭代器等级、页面分割模式、缩放因子等。这些参数可以设置为默认值或是设置为从参数掠扫(sweep)操作确定的值。可以对病理报告的同一组图像执行图像识别操作的参数掠扫操作，其中图像识别操作可以迭代地执行，每次迭代基于参数值的不同组合来执行。随后可以测量每次迭代的文本识别准确度，并且可以使用导致最高文本识别准确度的参数值的组合来配置工作流程的图像识别操作。

在步骤604中，可以通过对病理报告应用具有OCR参数的OCR模型来生成病理报告文本数据312。

在步骤606中，可以使用NLP处理病理报告文本数据，以提取实体-值配对。

在步骤608中，确定NLP提取实体-值配对的准确度。可以基于，例如根据上述公式1-3确定F1分数，来确定准确度。

在步骤610中，确定提取准确度是否超过阈值。例如，确定F1分是否超过0.75。

如果提取准确度超过阈值，则可以在步骤612中存储OCR参数调整操作。但是如果提取准确度在阈值之下，则可以在步骤614中调整OCR参数，然后重复步骤604。可以基于识别具有最低精度的实体-值配对来选择被调整的参数。作为说明性示例，可以确定病理报告中属于具有低精度的实体-值配对的某些单词有很小的图像大小。在此示例中，可以增加OCR操作的缩放因子。

除了提供实体-值配对的准确度测量以精准确定需要调整的具体的OCR参数之外，基于NLP输出调整OCR参数在其他情景下是有优势的。例如，在图像文件包含由特定临床医生作出的、可能包括非标准编码和短语的注释的情况下，如果将OCR输出与标准化短语进行比较以确定文本识别准确度，此比较可能导致关于文本识别准确度的不正确的结论。例如，包含非标准编码和短语的文本字符串可能会在OCR操作实际上正确地提取文本字符串的情况下不正确地被标记为错误。另一方面，由于NLP模型已经被训练成识别非标准编码和短语以及标准化术语，因此使用NLP输出来确定文本识别准确度可以确保该文本识别准确度测量受OCR输出中存在非标准编码和短语的影响较小。

IV.处理后病理报告数据的示例应用

图7示出了处理后病理报告数据304和元数据文件314的示例应用。如图7所示，处理后病理报告数据304可以被提供给临床医生门户702，该临床医生门户702可以包括图4E的显示界面305。在一些示例中，临床医生门户702可以以预定的结构化形式(例如，以表、填充表的形式)向使用者显示实体-值配对(和/或SNOMED概念)，以使得门户的使用者(例如，临床医生、临床工作人员)能够有效地识别他们寻找的医疗信息。作为另一示例，临床医生门户702也可以显示原始病理报告的图像，但是用实体-值配对和/或SNOMED概念替换其中一些或全部文本字符串，或文本字符串被强调并用实体-值配对/SNOMED概念进行标记。临床门户702可以基于元数据文件314中指示的文本字符串的像素位置来执行对图像中文本字符串的强调显示，如图4E所述。

作为另一个示例，处理后病理报告数据304可以被提供给可检索的数据库704，可以基于搜索查询从此数据库中检取实体和它们的值(标准或非标准)。可检索的数据库以及结构化医疗数据也可以可用于各种应用，诸如临床决策支持应用706、分析应用708等，以进行处理。例如，临床决策支持应用可以从数据库中检取与临床决策(例如，诊断、手术历史、药物历史)相关的实体以及它们的值，并处理这些实体以生成输出以支持临床决策。分析应用也可以从大量患者的病理报告中获取与例如治疗历史和诊断相关的实体，并执行分析以获得对医疗服务供给和护理质量的洞察。

V.方法

图8示出了自动信息提取和扩展的方法800。方法800可以由例如图3的系统300来执行。

在步骤802，光学处理模块306接收包含病理报告的图像文件(例如，图像文件302)。此图像文件可以从各种主要来源(在一个或多个医疗机构处)被接收，所述各种主要来源包括例如EMR(电子医疗记录)数据库、PACS(图片存档和通信系统)、数字病理(DP)系统、包括基因组数据的LIS(实验室信息系统)、RIS(放射信息系统)、患者报告的结果数据库、可穿戴和/或数字技术以及社交媒体。图像文件可以是各种格式，诸如，可移植文档格式(pdf)，或位图图像文件(BMP文件)，并可以通过扫描纸质病理报告获得图像文件。

在步骤804中，在接收到图像文件之后，光学处理模块306可以执行图像识别操作以从图像文件信息输入文本字符串。提取可以包括从图像文件中识别文本图像、生成文本图像表示的文本数据并生成包含文本数据的中间文本文件(例如，文本文件312)。图像识别操作可以包括，例如，光学字符识别(OCR)或光学单词识别。在两种操作中，光学处理模块306可以提取字符的像素模式(例如，通过识别具有深色的像素的模式)，将每个像素模式与字符的预定义像素模式进行比较，并基于此比较确定每个像素模式表示的是哪个字符(或哪个单词/短语)。光学处理模块306随后可以将字符/单词/短语存储在文本文件312中。光学处理模块306可以按照预先确定的模式(例如，光栅式扫描)扫描图像文件312，以从左到右提取和处理一行中的像素模式，并对每行重复进行扫描。基于扫描模式，光学处理模块306可以生成文本字符串(例如，字符、单词、短语)序列，并将此文本字符串序列存储在文本文件312中。

在步骤806中，实体提取模块308可以使用自然语言处理(NLP)模型(例如，NLP模型328)从输入的文本字符串检测实体，其中每个实体包括标签和值。

在步骤808中，实体提取模块308还可以使用NLP模型从输入的文本字符串提取实体的值。具体来说，NLP模型328可以处理来自文本文件312的文本序列，并基于识别特定的文本字符串序列来确定序列的文本的子集为实体的值，并确定子集的实体-值配对。如上所述，NLP模型328包括含节点的图。每个节点可以与文本字符串相对应，并可以经由弧线连接到另一节点。节点和弧线可以定义文本序列。这些节点还被组织成层级，并且可以从每一层级生成检测输出，此检测输出可以是实体-值配对、上下文等。检测可以基于例如参数化方程，该参数化方程可以基于输入的文本字符串序列和节点所表示的文本字符串之间的相似度来计算分数，并可以基于此分数输出预定的实体-对和/或上下文信息。NLP模型328可以通过从图中搜索与序列匹配(精确匹配或与预定接近程度匹配)的节点的序列来处理文本字符串序列。从识别出的序列，NLP模型328可以输出实体-值配对。在一些示例中，NLP模型328可以包括基线NLP子模型430和病理学NLP子模型440，并且NLP模型328可以以两步过程进行训练：首先利用来自常规医疗文档的文本字符串序列进行训练，然后利用来自病理报告的文本字符串序列进行训练，如图5A-图5D所述。

在一些示例中，还可以基于NLP模型328的输出准确度来调整图像识别操作的参数。具体来说，如图6中所述，可以基于第一组参数值对光学处理模块306处的图像识别操作进行预先配置。可以对病理报告的图像执行预先配置的图像识别操作，以提取文本字符串，并且文本字符串可以输入到NLP以提取病理实体。随后可以基于由NLP进行提取的准确度来调整图像识别操作的参数。

在步骤810中，扩展模块310可以使用将实体和值映射到预先确定的术语的映射表将至少一些实体的值转换到相对应的预先确定的术语。预先确定的术语可以包括基于通用标准(诸如SNOMED)定义的标准术语。映射表可以基于存储在术语映射数据库中的数据，术语映射数据库可以包括实体-值配对到标准术语(诸如SNOMED概念和概念ID)之间的映射。对于每一个实体-值配对和相关联的上下文，扩展模块310可以在术语映射数据库370中搜索相关联的SNOMED值和概念ID。

在步骤812中，扩展模块310可以生成处理后病理报告，该处理后病理报告包括从输入文本字符串检测到的实体和相应的预线确定的术语。具体来说，扩展模块310可以将来自NLP模型328的、映射到SNOMED概念的每个实体-值配对替换为SNOMED概念，并将SNOMED概念存储在处理后的病理报告文本文件中。在一些示例中，还可以用SNOMED概念ID替换实体-值配对，以减少处理后的病理报告文本文件的数据大小。然后，可以提供处理后的病理报告以支持各种应用，诸如用于显示在临床医生门户中、存储在可检索的数据库中、被临床决策支持应用处理、被分析应用处理等。

VI.计算机系统

本文提到的计算机系统中的任一个可利用任何合适数量的子系统。此类子系统的示例在图9中在计算机系统10中示出。在一些实施例中，计算机系统包括单个计算机设备，其中子系统可以是计算机装置的部件。在其他实施例中，计算机系统可包括多个计算机装置，其中每一个计算机装置作为带有内部部件的子系统。计算机系统可以包括台式计算机和便携计算机、平板电脑、移动电话和其他移动设备。在一些实施例中，云基础设施(例如，亚马逊网络服务)、图形处理单元(GPU)等可用于实现所公开的技术。

图9所示的子系统经由系统总线75互连。示出了耦合到显示适配器82的附加子系统(诸如，打印机74、键盘78、存储设备(多个)79、显示器76)，以及其他子系统。可以通过任何数量的本领域中已知的装置(诸如，输入/输出(I/O)端口77(例如，USB、

))将耦合到I/O控制器71的外围设备和输入/输出(I/O)设备连接到计算机系统。例如，I/O端口77或外部接口81(例如，以太网，Wi-Fi)可以用于将计算机系统10连接到诸如因特网之类的广域网、鼠标输入设备、或扫描仪。经由系统总线75的互连允许中央处理器73：与每个子系统通信，并且控制来自系统存储器72或存储设备(多个)79(例如，固定硬盘，诸如硬盘驱动器、或光盘)的多个指令的执行、以及各子系统之间的信息交换。系统存储器72和/或存储设备(多个)79可以包含计算机可读介质。另一子系统是数据收集设备85，诸如相机、麦克风、加速度计等。这里提到的数据中的任何数据可以从一个部件输出到另一部件并且可以输出给用户。

计算机系统可包括多个相同的部件或子系统，这些多个相同的部件或子系统例如通过外部接口81或通过内部接口连接在一起。在一些实施例中，计算机系统、子系统或设备可以通过网络进行通信。在此类情况下，一个计算机可被视为客户端，并且另一计算机可被视为服务器，其中每一个计算机可以作为同一计算机系统的一部分。客户端和服务器可各自包括多个系统、子系统或部件。

可以使用硬件(例如，专用集成电路或现场可编程门阵列)和/或使用具有以模块或集成方式的一般可编程处理器的计算机软件以控制逻辑的形式来实现实施例的各方面。如本文所用，处理器包括单核处理器、在同一集成芯片上的多核处理器或单个电路板或网络上的多个处理单元。基于本公开以及本文所提供的教导，本领域的普通技术人员将知道和理解使用硬件以及硬件和软件的组合来实现本发明的实施例的其他方式和/或方法。

本申请中所描述的软件部件或功能中的任何一个都可以被实现为软件代码，这些软件代码由处理器使用任何合适的使用例如常规的或面向对象的技术的计算机语言(诸如，例如，Java、C、C++、C#、Objective-C、Swift、或诸如Perl或Python之类的脚本语言)来执行。软件代码可以作为一系列指令或命令存储在计算机可读介质上，用于存储和/或传输。合适的非瞬态计算机可读介质包括随机存取存储器(RAM)、只读存储器(ROM)、磁介质(诸如硬盘驱动器或软盘)、或诸如光盘(CD)或DVD(数字通用盘)之类的光学介质、和闪存等。计算机可读介质可以是此类存储或传输设备的任何组合。

也可使用针对经由有线、光、和/或符合各种协议的无线网络(包括互联网)传输而适配的载波信号对此类程序进行编码和传输。因此，可以使用利用这样的程序编码的数据信号来创建计算机可读介质。可使用兼容设备来封装使用该程序编码进行编码的计算机可读介质，或与其他设备分开地提供该计算机可读介质(例如，经由互联网下载)。任何此类计算机可读介质可驻留在单个计算机产品(例如，硬盘、CD或整个计算机系统)之上或之内，并且可存在于系统或网络内的不同的计算机产品之上或之内。计算机系统可包括监测器、打印机或用于向用户提供本文提到的结果中的任一个的其他适合的显示器。

本文描述的方法中的任一个可以全部地或部分地使用包括一个或多个处理器的计算机系统执行，该一个或多个处理器可被配置成用于执行步骤。因此，实施例可以涉及计算机系统，该计算机系统被配置为可能利用执行相应步骤或相应一组步骤的不同部件来执行本文描述的任何方法的步骤。尽管呈现为编号步骤，但是可同时执行或以不同的顺序执行本文方法的步骤。附加地，这些步骤中的多个部分可与来自其他方法的其他步骤的多个部分一同使用。同样，步骤的全部或多个部分可以是可选的。此外，任何方法的任何步骤可以利用模块、单元、电路或用于执行这些步骤的其他装置来执行。

可以以任何合适的方式组合具体实施例的特定细节，而不偏离本发明的实施例的精神和范围。然而，本发明的其他实施例可以涉及与每一个单独方面、或这些单独方面的特定组合相关的特定实施例。

本发明的示例实施例的以上描述出于说明和描述的目的而被呈现。其不旨在是穷尽的，也不旨在将本发明限制至所描述的精确形式，并且鉴于上文的教导，许多修改和变型是可能的。

对“一(a/an)”或“所述”的记载，除非特别指示为相反的情况，旨在表示“一个或多个”。使用“或”旨在表示“包容性的或”，而不是“排他性的或”，除非具体地指示为相反的情况。对“第一”部件的引用不一定要求提供第二部件。此外，对“第一”或“第二”部件的引用不会将所引用的部件限定在特定位置，除非明确说明。术语“基于”旨在表示“至少部分基于”。

本文中所提及的所有专利、专利申请、公开和描述出于所有目的以引用的方式整体被纳入。其中任何内容均不被认为是现有技术。

Claims

1.一种由计算机系统执行的方法，包括：

接收包括病理报告的图像文件；

对所述图像文件执行图像识别操作，以提取输入文本字符串；

使用自然语言处理(NLP)模型从所述输入文本字符串检测实体，每个实体包括标签和值；

使用所述NLP模型从所述输入文本字符串提取所述实体的所述值；

基于将实体和值映射到预先确定的术语的映射表，将所述实体中的至少一些实体的所述值转换为相对应的预先确定的术语；以及

生成处理后病理报告，所述处理后病理报告包括从所述输入文本字符串检测到的所述实体和所述相对应的预先确定的术语。

2.如权利要求2所述的方法，其特征在于，所述图像识别操作包括下列各项中的至少一项：光学字符识别(OCR)过程或光学单词识别过程。

3.如权利要求1所述的方法，其特征在于，所述图像文件是可移植文档格式(pdf)格式。

4.如权利要求1所述的方法，其特征在于，所述NLP模型包括图，所述图包括节点和边缘；

其中每个节点与文本字符串相对应；

其中两个节点之间的边缘指示所述两个节点所表示的两个文本字符串之间的顺序关系；并且

其中检测所述实体包括将所述输入文本字符串的文本字符串序列与所述图中表示的文本字符串序列进行匹配。

5.如权利要求4所述的方法，其特征在于，进一步包括：基于对标记有实体的名称的文本字符串的训练，更新所述图。

6.如权利要求4所述的方法，其中所述NLP模型包括基线NLP子模型和病理学NLP子模型；

其中所述基线NLP子模型是基于来自常规医疗文档的第一训练文本字符串而被训练的；并且

其中所述病理学NLP子模型是基于来自病理报告的第二训练文本字符串而被训练的。

7.如权利要求5所述的方法，其特征在于，进一步包括：

由所述NLP模型确定从所述输入文本字符串识别所述实体的准确度；

基于所述准确度，基于所述输入文本字符串更新训练文本字符串；以及

基于更新的训练文本字符串来更新所述图。

8.如权利要求1所述的方法，其特征在于，从所述输入文本的一组相邻文本字符串识别多个实体。

9.如权利要求1所述的方法，其特征在于，所述输入文本字符串是第一输入文本字符串；并且

其中所述图像识别操作的参数是基于由所述NLP模型从第二输入文本字符串识别实体的准确度来确定的，所述第二输入文本符串是通过所述图像识别操作使用所述参数来生成的。

10.如权利要求1所述的方法，其特征在于，所述标准术语基于系统化医学命名法(SNOMED)标准；并且

其中所述标准术语包括以下各项中的至少一者：SNOMED概念，或SNOMED概念标识符(ID)。

11.如权利要求10所述的方法，其特征在于，所述映射基于多个实体。

12.如权利要求1所述的方法，其特征在于，进一步包括：将结构化医疗数据提供给以下各项中的至少一项：临床决策支持工具、医务人员门户、或能检索的医疗数据库。

13.如权利要求12所述的方法，其特征在于，所述图像识别操作输出所述图像文件中的所述输入文本字符串的图像位置；并且

其中所述方法进一步包括：

在显示界面上显示所述图像文件；

基于所述图像位置，在实体被检测到的所述输入文本字符串的子集上显示强调标记；

检测对所述强调标记中的至少一个强调标记的选择；以及

响应于检测到所述选择，在所选择的强调标记上显示弹出窗口，所述弹出窗口包括从所选择的强调标记的所述输入文本字符串检测到的所述实体的所述标准术语。

14.如权利要求1所述的方法，其特征在于，所述图像文件是从一个或多个来源接收到的，所述一个或多个源包括以下各项中的至少一项：EMR(电子医疗记录)数据库、PACS(图片存档和通信系统)、数字病理(DP)系统、LIS(实验室信息系统)、RIS(放射信息系统)、患者报告的结果数据库、可穿戴设备或社交媒体网站。

15.一种计算机产品，包括存储多个指令的计算机可读介质，所述多个指令用于控制计算机系统执行上述方法中任一项的操作。

16.一种系统，所述系统包括：

如权利要求15所述的计算机产品；以及

一个或多个处理器，用于执行存储在所述计算机可读介质上的指令。

17.一种系统，包括用于执行上述方法中任一项的装置。

18.一种系统，被配置成执行上述方法中的任一项。

19.一种系统，包括分别执行上述方法中的任一项的各步骤的模块。