CN112655047A

CN112655047A - 对医学记录分类的方法

Info

Publication number: CN112655047A
Application number: CN201980058049.3A
Authority: CN
Inventors: 李作峰; 文栋
Original assignee: Koninklijke Philips NV
Current assignee: Koninklijke Philips NV
Priority date: 2018-09-05
Filing date: 2019-09-03
Publication date: 2021-04-13
Anticipated expiration: 2039-09-03
Also published as: EP3847655A1; CN112655047B; US20210202111A1; WO2020048952A1; JP2021536636A; JP7437386B2

Abstract

一种用于根据与医学介入相关联的针对每个记录识别的索引介入事件基于一组医学记录的分类来组织医学记录数据的方法。所述方法基于针对多个医学记录中的每个来提取一个或多个候选介入事件，并且然后将这些映射到标准介入事件名称(索引介入事件)的数据集(或本体)，以便识别每个提取的介入事件的最接近匹配索引事件。映射基于将每个提取的介入事件分解为特定域或类型的一组表征属性，并且然后将这些与数据集中的索引事件中的每个索引事件的对应属性组进行比较。找到最接近匹配项，并根据最接近匹配索引事件对每个医学记录进行分类。然后，基于分类并且还基于关于用户的信息(例如，特定的临床专业领域)对数据进行聚合。

Description

对医学记录分类的方法

技术领域

本发明涉及一种对医学记录进行分类的方法。

背景技术

现在在医学信息系统中累积了越来越多的数据量。系统通常很差地集成，使得对患者信息的查看既困难又效率低下。

通常，例如，医院中的患者数据主要根据数据源进行组织，例如影像归档和通信系统(PACS)、医院信息系统(HIS)、放射学信息系统(RIS)和实验室信息系统(LIS)。与常规纸质医学记录相比，信息系统显著改进了数据的组织和可访问性。

然而，系统内信息的组织常常很差地构成，使得临床医师很难找到他们需要的信息。

例如，寻求评估患者的当前状况的医师必须访问多个不同的信息系统，并手动整理数据，这效率低下。此外在缺乏背景信息(例如与患者记录中的其他记录的链接)的情况下，医师难以以直观的方式了解患者的状态。

此外，非常大量的患者数据的增加的可用性导致信息过载的问题，其中，临床医师不能够在大量可用数据中间识别所需的特定信息。这能够对患者的结果具有潜在的负面结果，例如错误或遗漏、延迟以及对患者安全的整体风险。

当前已知的患者信息和显示系统不能满足临床医师作为用户的需求。例如，使用的一个示例系统是患者全息视图。其被广泛采用，并允许整合来自各种来源的数据，并且在一页中显示与单个患者有关的所有信息。

这通过连接来自不同医院信息系统的源，解决了多个完全隔离的信息源的问题。

然而，此类系统仍然存在缺陷。特别是，由于链接了多个信息源，现在向医师呈现了太多信息以至于不能有效地进行搜索和评价。因此，仍然存在信息过载的问题。

此外，通常，不同的医师在他们所需的特定信息类别方面具有不同的特定要求。而且，在不同情况下可能需要不同种类的信息。

例如，在患者第一次入院处置时，医师可能需要检查和用药史信息。此时，其他信息(例如人口统计学信息)不使用或相关。

因此，通常需要一种组织医学记录数据的改进的方法。

发明内容

本发明由权利要求书限定。

根据本发明的一个方面的示例，提供了一种对医学记录进行分类的方法，包括：

获得多个医学记录；

根据数据提取模型来处理所述医学记录，以从每个记录中提取一个或多个介入事件，每个介入事件表示医学介入；

根据算法来处理所导出的介入事件中的每个介入事件，以导出依据一组表征属性的所述事件的表示，所述属性包括定义的一组属性域中的每个属性域中的至少一个属性；

访问索引介入事件的数据集，并且基于所提取的介入事件与所存储的索引介入事件的所述属性的比较来识别与每个导出的介入事件最接近匹配的索引事件，其中，在所述数据集中每个索引介入事件与依据一组属性的对应的表示相关联，所述一组属性包括落入到所述定义的一组属性域中的每个属性域中的至少一个属性；并且

根据针对该记录识别的一个或多个索引事件对所述医学记录中的每个医学记录进行分类；

选择多个索引介入事件中的一个索引介入事件以用作聚合所述多个医学记录的基础，所述选择基于与用户有关的信息；并且

基于所选择的索引介入事件来聚合获得的多个医学记录。

本发明的实施例基于根据不同记录所属的不同驱动医学事件(介入事件)的医学记录的聚合或组织。

介入事件可以指例如主要医学介入或处置，和/或介入或处置之后的随访事件。通常，介入事件可以指的是与多个记录有关的主要医学事件。各种医学记录可能与相同医学介入事件相关联。

例如，这些可以包括例如诊断出病理的初始咨询以及为治愈该病理而进行的特定治愈性介入的转诊。在这种情况下，治愈性介入可能是介入事件。此后，可以依据不同的介入事件来对监测状况的后续咨询进行分类，例如，门诊随访。如果是病理的复发，则可以依据不同的介入事件将与此有关的记录重新分类。因此，介入事件可以是表征记录指向或相关的总体医疗保健目标或目的的事件。

通过特定的示例，可以首先诊断出患者患有肝癌。此后，其被转诊为肝切除术形式的治愈性处置。肝切除术是介入事件。转诊后，他被注册为门诊患者并进行了治疗。所有这些事件可以根据同一介入事件(肝切除)进行分类。在此之后，可能会有若干后续门诊咨询以监测患者的状况。这些可以不同地分类，例如作为随访门诊。

本发明的实施例基于例如基于语言学分析技术从每个医学记录中提取一个或多个候选介入事件，并且然后将这映射到定义的一组索引事件(索引介入事件)之一。这可以理解为将提取的事件映射到定义的介入事件本体。

为了执行映射，首先将每个提取的(导出的)介入事件分解或离解为一组表征属性，这些落入定义的一组属性域中的每个中。然后，该映射基于每个提取的介入事件的属性与为索引介入事件存储的属性的比较，以便为每个提取的介入事件找到最接近匹配索引事件。因此，这有效地将每个提取的事件映射到已定义的一组索引事件之一。

然后根据识别的最接近匹配索引介入事件对每个导出的介入事件进行分类。

然后基于所选择的索引介入事件之一来聚合(例如，排序或组织)分类的记录。选择执行聚合所基于的索引事件基于与用户有关的信息。因此，这将聚合定制到给定用户的特定需要。例如，用户信息可以是用户的临床专业知识或专业背景，其可以指示与他或她的实践领域最相关的介入事件中的特定一个。

在示例中，数据提取模型可以使用语言分析技术来提取索引事件。可以使用训练流程在要求保护的方法之前训练数据提取模型，该训练流程包括从每个医学记录中选择医学数据的相关子集，将数据输入到模型，以及训练模型以识别来自数据的一组不同的索引事件。

例如，可以使用条件随机场(CRF)或卷积神经网络(CNN)来建立数据提取模型。

在示例中，分类可以包括标记所涉及的介入事件。

例如，聚合可能意味着分组。例如，可以将与所选索引介入事件分类在一起的所有提取的介入事件组合在一起(聚合)，以供用户以有组织的方式查看。因此，聚合可能意味着基于分类进行组织或排序。

聚合还可以包括：根据所选择的索引介入事件来过滤所提取的介入事件，即，从所提取的介入事件中过滤尚未根据所选择的索引介入事件而被分类的任何事件。

在某些示例中，定义的该组属性域可以至少包括：所述介入事件所属的解剖区域、所述介入事件所属的介入流程、以及所述介入事件所属的所述介入流程的子类型或类别。

已经发现，属性域的这种选择已经发现在以强大的方式组织数据方面特别有效。

索引介入事件的数据集可以包括索引介入事件的本体，本体定义索引介入事件中每个与相关联的属性组之间的链接。本体是计算机信息技术领域中的技术术语。例如，其涵盖某些类别、属性以及形成某个域的部分的概念之间的关系的表示和形式命名。例如，在当前情况下，本体可以用于基于存储在本体中的标准事件的属性来定义从医学记录中提取的候选事件可以映射到的一组标准介入事件(索引介入事件)(以上讨论)。定义的链接可能仅意味着存储于本体数据集中的相应的一组属性，所述属性与数据集中的各种索引介入事件名称中的每一个相关联或链接。

医学记录的聚合可以包括将医学记录构造成分层数据结构，该分层数据结构包括根据应用于记录中的每个的索引事件分类而分组或排序的所获得的多个医学记录。

根据一个或多个示例，该方法可以包括另一步骤：针对每个医学记录的每个索引事件分类确定子分类，该子分类基于所涉及的医学记录的另一属性。

通过示例，在适当的示例中，根据医学记录的另一个属性，上面提到的分层数据结构可以使获得的医学记录在附属于索引事件分类的水平的水平下进一步排序。附属排序水平可以基于如根据以上确定的子分类。

例如，在某些示例中，另外的属性可以包括以下各项中的至少一项：每个医学记录的时间戳和索引事件分类的子类别。

在这种情况下，或根据任何其他示例，可以使用自然语言处理工具从每个医学记录中提取另外的属性。

该方法可以根据一个或多个示例，还包括用于训练所述数据提取模型的训练流程，并且所述训练流程包括从所获得的多个医学记录中选择所述医学记录的子集，并且将所选择的医学记录的子集输入到所述模型，并且根据被包含在记录的所述子集中的数据来训练所述模型以用于识别一组不同的索引事件。

训练流程可以例如在处理医学记录的步骤之前执行。

根据某些示例，训练流程可以包括使用条件随机场(CRF)或卷积神经网络(CNN)。这样的工具可以例如用于构建数据提取模型。条件随机场和卷积神经网络是数据处理领域中的公知工具，并且熟练的读者将认识到这些术语所涉及的方法。

所述医学记录可以包括基于文本的内容，所述基于文本的内容在语言学上表示一个或多个介入事件，并且其中，所述数据提取模型被配置为应用语言学分析方法来提取所述一个或多个介入事件。

语言学分析技术可以包括自然语言处理技术。

在某些示例中，与用户有关的信息(上文中提及)可以包括与用户有关的识别信息，或指示用户的感兴趣临床领域的信息。

基于指示感兴趣临床领域的信息，可以选择最适当或相关的索引介入事件作为对数据进行聚合(即，分组或排序)的基础。例如，可以选择索引介入事件作为与该感兴趣临床领域在临床上最相关的事件。

在该信息是识别信息的情况下，此处的识别信息可以用于搜索或查询已为每个用户存储了某些优选索引介入事件(链接到其各自的识别信息)的数据库，或者简单地可能已经存储了每个患者的感兴趣临床领域。从用户视角，该方法可能更有效，因为他们仅需要输入识别信息，而不描述他们的感兴趣临床领域。

因此，如所指出的，在某些示例中，用于执行聚合的索引介入事件的选择可以包括查询用户数据库，该用户数据库包含多个用户之间的链接以及每个用户的优选索引介入事件。

根据一个或多个示例，该方法可以包括：选择多个存储的数据提取模型之一，以执行提取一个或多个介入事件的步骤，该数据提取模型是基于与用户有关的信息来选择的。

关于用户的信息例如可以是指示感兴趣临床领域和/或一个或多个优选的索引介入事件的信息。基于此，该方法可以选择数据提取模型，该数据提取模型被配置用于从医学记录(候选)介入事件中提取与优选索引事件的该临床领域最相关的介入事件。在某些示例中，可能存在一种数据结构，该数据结构为每个可用的数据提取模型存储其被配置用于提取的介入事件的列表和/或其被配置用于提取的索引事件的列表。

根据本发明的另一方面的示例提供了一种计算机程序，该计算机程序包括代码模块，当所述程序在计算机上运行时，该代码模块用于实施根据以上概述或以下描述的任何示例或实施例的方法。

根据本发明的另一方面的示例提供一种处理单元，所述处理单元被配置为：

获得多个医学记录；

根据算法来处理所提取的介入事件中的每个介入事件，以导出依据一组表征属性的所述事件的表示，所述属性包括定义的一组属性域中的每个属性域中的至少一个属性；

访问索引介入事件的数据集，并且基于所提取的介入事件与所存储的索引介入事件的所述属性的比较来识别与每个提取的介入事件的最接近匹配索引介入事件，其中，在所述数据集中每个索引介入事件与依据一组属性的对应的表示相关联，所述一组属性包括落入到所述定义的一组属性域中的每个属性域中的至少一个属性；以及

根据针对该记录识别的一个或多个索引介入事件对所述医学记录中的每个医学记录进行分类；

选择所述数据集中的所述索引介入事件中的一个索引介入事件以用作聚合所述多个医学记录的基础，所述选择基于与用户有关的信息；并且

基于所选择的索引介入事件来聚合获得的多个医学记录。

上文关于本发明的方法方面描述的示例、选项或实施例中的任何的特征可以以相同的优势应用于本发明的上述装置方面。

参考下文描述的(一个或多个)实施例，本发明的这些和其他方面将变得显而易见并且得到阐述。

附图说明

为了更好地理解本发明，并更清楚地示出本发明能够如何实现，现在仅以示例的方式参考附图，其中

图1示出了根据本发明的一个或多个实施例的示例方法的框图；

图2示意性地描绘了根据一个或多个实施例的一种示例方法的示例工作流程；并且

图3示出了根据一个或多个实施例的用于实施示例处理单元的示例计算机的框图。

具体实施方式

将参考附图描述本发明。

应当理解，详细说明和特定示例尽管指示装置、系统和方法的示例性实施例，但是仅旨在用于说明的目的，而不旨在限制本发明的范围。根据以下描述、所附权利要求书和附图，本发明的装置、系统和方法的这些特征和其他特征、方面和优点将变得更好理解。应当理解，附图仅是示意性的，而没有按比例绘制。还应当理解，贯穿附图使用相同的附图标记指示相同或相似的部分。

本发明提供一种用于根据与医学介入相关联的针对每个记录识别的索引介入事件基于一组医学记录的分类来组织医学记录数据的方法。本发明基于为多个医学记录中的每个提取一个或多个候选介入事件，并且然后将这些映射到标准介入事件名称(索引介入事件)的数据集(或本体)以便识别每个提取的介入事件的最接近匹配索引事件。映射基于将每个提取的介入事件分解为特定域或类型的一组表征属性，并且然后将这些与数据集中索引事件中的每个的对应属性组进行比较。找到最接近匹配项，并根据最接近匹配索引事件对每个医学记录进行分类。然后，基于分类并且还基于关于用户的信息(例如，特定的临床专业领域)对数据进行聚合。

本发明的实施例旨在以智能地考虑不同特定医师的需求的方式来提供一种更有效的方式来聚合和组合来自多个不同数据源的数据。

特别地，本发明的实施例可以被理解为解决当前医学数据系统的至少两个显著问题。

首先，对于临床医师而言基于手动搜索散布在多个数据源上的多个断开医学记录来找到与他们的实践相关的特定临床信息是非常低效的。

医学记录通常散布在不同的信息系统中。不管最近在医院信息管理数据可访问性领域的改进，记录仍然脱节且组织不善。因此，特别是由于相关联的记录之间的不良链接，医师识别相关信息仍然不便且效率低下。

此外，由于不同的医院信息系统通常以不同的协议运行，具有不同的特定目的，因此系统之间的直接通信或集成是困难的。例如，需要低效的手动介入来将特定患者的记录分组在一起。

尽管医师可能通过对系统的长期使用和经验(致使数据搜索更快)随着时间减少特定系统的这些问题，但是当他们来查看其他医院的病例时，有必要学习如何使用新系统。

第二个主要问题是，具有不同角色或不同临床专业的临床人员可能各自具有不同的特定数据组织需要。

例如，医师常常需要对相关的临床记录进行分类以执行病例查看。在已知的电子医学记录(EMR)系统中，临床文件通常简单地按年代顺序进行排序。然后，医师必须使用手动搜索和过滤功能来采集所选择的患者的记录，这效率低下。

在不同的临床情形中，医师可能有特定的信息需要。因此，临床文件的灵活分类将很有价值。通常，医师需要比较和关联不同的记录以分析患者的状态。

为了解决上述问题，本发明提出了一种基于可以与每个记录相关联的特定“驱动事件”对医学记录(例如临床文件)进行分类和聚合的方法。这些驱动事件用作索引事件，因为它们用于对不同的记录进行索引或分类以进行链接或聚合。

驱动事件或索引事件全部与一些临床介入或动作或事件发生有关。出于该原因，它们将被称为索引介入事件。

索引介入事件或驱动事件通常表示每项医学记录背后的一些动作或目标，或下层“驱动”目的。例如，索引介入事件可以表示主要的介入(例如手术)，并且可以将与诊断、医院入院以及与操作本身的报告有关的记录索引到该介入事件。操作后，随访事件(例如定期的患者监测和临床医师咨询)可能与不同索引介入事件有关，因为驱动目标不再是操作，而是监测稳定性和改进。

通过特定的示例，患者能够首先被诊断出患有肝癌。在它们适合治愈性处置(例如肝切除)的情况下，此类处置将表示导致处置的记录的索引事件。例如，在诊断之后，可以将患者登记并入院，并且然后执行处置。导致处置的所有活动以及处置本身与切除索引介入事件有关。

在出院后，后续医学记录的相关索引(驱动)事件可能更改为门诊随访。

在将来，如果患者经历病理学的任何复发，则相关的索引事件可能改变为TACE(经导管动脉化疗栓塞)或另一介入。

与这些不同的索引事件中的每个有关的所有医学记录可以在索引事件周围聚合或聚类，如将在下面解释的。

应指出，对什么构成索引介入事件的具体一般定义在技术意义上并不关键，因为将哪些事件分类为索引介入事件可能是由使用的特定的本体或索引介入事件数据集固有地定义的(如下面将解释的)。根据实施例的方法涉及将所有提取的候选事件匹配或映射到在该数据集或本体中定义的索引介入事件之一，并且因此该数据集有效地定义了索引介入事件组。

基于这些关键介入事件对记录进行分类的优势在于，来自不同学科领域并且具有不同临床兴趣的临床医师可以根据与他们相关的特定种类的介入事件轻松地对数据进行排序或聚合。

例如，在多学科团队(MDT)的情况下，来自各个部门的专家可能希望从不同角度查看一位患者的记录。例如，对于患有高血压的肝癌患者，心脏病专家可能需要查看与心血管介入事件相关的记录。例如，患者的慢性病史和异常生命体征可能是该用户的重要因子。

然而，肝脏专家可能相反要求关于肝脏切除流程的操作细节的信息，以及例如实验室测试结果的进展。

利用在本发明的实施例中应用的基于驱动事件的分类，每个用户能够根据与他们相关的特定介入事件分类容易地对记录进行排序或聚合。

图1图示了根据本发明一个或多个实施例的示例方法。总之首先将概述该方法，以指示步骤的进展，并且然后将依次进一步解释和阐明每个特定步骤。

该示例方法包括首先获得12多个医学记录。例如，可以从远程计算机接收医学记录作为数据消息，或者该方法例如可以包括主动访问一个或多个数据源并检索或提取医学记录。也可以使用获得记录的其他方式，如本领域技术人员将显而易见的。

该方法还包括根据数据提取模型来处理14医学记录，以从每个记录中提取一个或多个介入事件，每个表示医学介入。这些介入事件可以例如被理解为候选介入事件。提取可以基于自然语言处理(NLP)技术。例如，医学记录可以各自包括语言上表示一个或多个介入事件的基于文本的内容(例如，自由文本)，并且其中，数据提取模型被配置为应用语言学分析方法来提取一个或多个介入事件。

该方法还包括根据算法处理16提取的介入事件中的每个，以导出依据一组表征属性的事件的表示，该属性包括定义的一组属性域中的每个属性域中的至少一个属性。该算法可以是预先确定和预先存储的，并且被配置为执行该提取。该步骤涉及将每个提取的介入事件分解或离解为落入到特定域中的一组属性。通过定义所需的域，这使得事件与标准索引事件的数据集中的事件的比较更加容易且更加高效，因为其可以基于公共域中它们各自的属性来完成。

所述方法还包括访问索引介入事件的数据集，在数据集中每个介入事件与依据一组属性的对应的表示相关联，包括落入到所述定义的一组属性域中的每个属性域中的至少一个属性，并且基于提取的介入事件的属性与存储的索引介入事件的属性的比较18，识别20与每个提取的介入事件最接近匹配的索引事件。因此，该步骤表示每个提取的事件到数据集中的标准索引事件组的映射，该映射基于相应事件的属性表示。索引介入事件的数据集可以表示索引介入事件的本体。

在识别最接近匹配索引介入事件之后，该方法包括根据针对该记录识别的一个或多个最接近匹配索引介入事件对医学记录中的每个进行分类22。可以用一个以上的索引介入事件对每个记录进行分类，例如如果为给定记录提取了多个介入事件，则可能存在为每个记录事件识别的最接近匹配索引事件。因此，可以根据所有最接近匹配索引介入事件对记录进行分类。

该方法还包括选择24多个索引介入事件中之一以用作聚合多个医学记录的基础，该选择是基于与用户有关的信息。此处，选择医学记录将被组织或分组(即聚合)的特定基础。这基于用户特异性信息，例如该信息可能与临床医师的临床专科有关。以这种方式，数据被组织或聚合，使得所述记录根据与相关用户最相关的索引介入事件而被分组或排序。

因此，该方法还包括基于所选的索引介入事件来聚合26经分类的多个医学记录。聚合可以例如包括通过选择的索引介入事件对记录进行分组和/或排序。聚合可以包括过滤记录，以仅选择利用所选索引介入事件被分类的那些记录。

现在将在下面更详细地解释该方法的这些步骤。

如所讨论的，本发明的实施例基于根据每个记录所属的关键驱动事件(索引介入事件)对医学记录进行分类，其中，在标准存储的数据集或本体中定义了执行分类的索引事件。

如所讨论的，可以根据每个记录所属的不同下层或核心医学目标来定义索引介入事件。例如，在门诊阶段进行初步咨询的情况下，在一些示例中，核心(索引)介入事件可被视为诊断。在外科手术住院患者事件的情况下，核心介入事件可以被认为是正被执行的操作。

对于不同的住院事件，例如内科医学住院事件，核心介入事件可以被认为是所施用的药物治疗。

此外，由于通常总体介入事件可以与多个更具体的处置或诊断目标或事件相关，因此根据该方法的一个或多个实施例，每个索引介入事件还可以分为不同的事件子类型。

这允许在对于应用于每个医学记录的每个索引事件分类确定子分类的方法中的另外步骤，该子分类例如基于所涉及的医学记录的另外的属性。

通过示例，子分类可以简单地基于特定记录的时间戳或标签。

然而在另外的示例中，子分类可以涉及所涉及的介入事件的更详细或具体的分类。

通过特定示例，可以将肺切除术介入事件细分为以下之一：完全切除、不完全切除、不确定切除以及打开和关闭操作。可以基于涉及的医学记录的语义或语言学分析来执行子类别。

在聚合步骤中，还可以根据指定的子分类，在索引介入事件的水平的附属水平处对记录进行排序。

为了使子分类标准化，索引介入事件的数据集(在其他情况下称为索引介入事件的本体)可以包括或包含或定义针对数据集中包括的一些或全部索引介入事件的多个子类别。

如所讨论的，本发明基于索引介入事件的数据集的使用，其中，基于事件的一组属性的比较，将来自每个医学记录中的每个提取的介入事件映射或关联到数据集中的索引介入事件。

索引介入事件的数据集可以表示或包含或包括介入事件的本体。该数据集或本体有效地定义了一组标准介入事件(索引介入事件)，从每个医学记录中提取的每个介入事件可以映射到其。这确保可以按标准的事件名称组对记录进行排序。

在某些示例中，该方法可以包括建立索引介入事件的数据集的步骤。该数据集可以构成索引介入事件本体。这可以有效地用作种子库。本体是计算机信息科学领域中的公知概念，并且其通常表示以树形结构组织的一组概念。

索引介入事件的数据集或本体可以包括例如一组种子词，其中，这些是基于临床词典预先定义的，从而根据临床专业术语的标准使用。这些种子词可以表示索引介入事件中每个的名称。

对于数据集中的每个索引介入事件，存储针对索引介入事件的一组表征属性。

在一组有利示例中，该属性集包括来自定义的一组属性域中的每个属性域的至少一个属性。

有利地，该组属性可以包括在三个特定属性域的每个中的一个属性，这些域包括：介入事件所属的解剖区域；介入事件所属的介入流程；以及介入事件所属的所述介入流程的子类型或类别。这三个域可以以其他方式称为：特征域、实体域和值域。实体是指介入事件所属的解剖区域；特征可能指的是关键流程，例如切除或其他医学动作或介入；值可以指事件的详细性质或描述，即子类别或类型。

通过具体的示例，存在一种称为经导管动脉化学栓塞的疾病。其可以依据上述属性域表示如下：

实体域：动脉；

特征域：化学栓塞；

值域：操作。

例如，可以由临床专家手动确定用于存储在数据集或本体中的依据这样的一组属性的索引介入事件中每个的表示。备选地，可以例如基于从课本或其他资源中提取关键属性来自动确定其。然后，任选地，随后由临床专家进行查看。

利用对本体中每个索引事件的实体-特征-值属性分解，一个概念可以分为三个部分，从而允许以不同方式组合三个属性。允许以非常具体和灵活的方式对不同介入事件进行广泛的归类。以这种方式，通过三个属性域的组合，可以极大地扩展临床概念知识的表达，以对未知的医学记录进行分类和排序，如下面将解释的。

根据实施例的方法涉及从每个医学记录中提取一个或多个介入事件的步骤。这在其他情况下称为解析医学记录。这是基于数据提取模型的使用执行的。

在某些示例中，可以执行建立或训练数据提取模型的过程。这可以在执行本发明的方法之前完成，或者根据本发明的一个或多个实施例，可以作为本发明的方法中的额外的预备步骤来执行。

在任一种情况下，可以相应地执行用于训练一个或多个数据提取模型的训练流程。例如，这可以基于：从获得的多个医学记录中选择医学记录的子集，将所选的记录的子集输入到模型，并训练模型以从包含在记录的所述子集中的数据中识别出一组不同的介入事件。

根据一个示例，可以训练若干数据提取模型以提取候选介入事件，即，识别该记录至少部分属于的介入事件的名称。例如，这可以包括操作名称或治疗。

对于所建立的每个模型，首先，选择多个医学记录的关键子集或医学记录的数据。这可以基于选择关键数据，其与(一个或多个)特定介入事件相关或最表示(一个或多个)特定介入事件，涉及的模型要被配置用于识别和提取所述特定介入事件。

关键数据可以例如包括表示每次发生事件的目标的数据，例如给定访问顾问或临床医师的目标。可以从例如在对临床医师或医院的给定访问期间生成的整组医学记录中选择关键数据。通过以这种方式过滤医学记录，可以仅使用最相关的数据执行训练，其改进效率，而且改进训练的准确性。

例如，在提取或识别外科手术事件的情况下操作注释和病理注释很重要。进展注释和医学命令对于检测住院处置事件可能很重要。然后，将选定的数据子集用于训练数据提取模型以提取一个或多个介入事件。

在该训练流程中，输入数据是选定的医学记录。输出是介入事件名称。

通过示例，条件随机场(CRF)或卷积神经网络(CNN)可用于构建数据提取模型。可以从单个医学记录或一组记录中提取若干介入事件。例如，对于全部与临床医师或医学中心的特定访问有关的一组记录，可以从记录中提取多个介入事件。

例如，患有冠心病的患者可能去医院进行肝切除操作。考虑到由该流程在心脏上放置的压力，医生可以在主要操作之前施用冠状动脉扩张治疗。因此，将存在属于冠状动脉扩张治疗和主要肿瘤切除治疗的记录。对于对临床兴趣领域或专业是肝脏的医师，相关的介入事件是肝肿瘤切除。然而，对于其临床兴趣领域或专长是心脏病的医师，最相关的介入事件相反是冠状动脉扩张。

一旦已经建立和/或训练了一个或多个数据提取模型(无论是在本发明的方法之前还是作为其部分)，就可以将(一个或多个)模型应用于执行从多个医学记录中提取介入事件的步骤。

如所讨论的，一旦已经从获得的多个医学记录中提取了一个或多个介入事件名称(例如，操作名称或药物治疗名称)，有必要将提取的介入事件中的每个映射到在通用数据集或本体中列出的标准索引介入事件。

这基于将操作名称或药物治疗名称转换为依据一组表征特征的表示，每个属于特定一组特征域之一。域可以是上面讨论的实体域、特征域、值域。因此，在这种情况下，提取的介入事件中的每个将离解或分解为对应的“实体-特征-值”属性模式或表示。因此，例如，对于每个介入事件，可以导出包括元组或三元组的表示，其由介入事件的三个属性组成。

如所指出的，实体属性例如是指事件所属的解剖部位，特征属性可以对应于特定治疗或流程类型。值属性可能与不同的事物有关，并且通常对应于介入事件的一些更详细性质。例如，在一些情况下，其可能是指使用的特定材料。

例如，存在称为经皮乙醇注射的操作。经皮将解剖部位指示为实体属性；注射将流程类型指示为特征属性；并且乙醇将治疗材料指示为“值”属性。因此，介入事件可以映射为三个属性的一般模式。

上面已经讨论过，在表征属性方面，例如在属性的实体-特征-值模式方面，数据集或本体中的每个索引介入事件也与关联的表示一起存储。这允许基于提取事件的属性组与索引事件的属性组的比较或映射，将每个提取的介入事件映射到数据集的最接近匹配标准索引介入事件。这确保使用公共词典来引用特定的介入事件类型，使得基于一组通用概念执行记录的分类和聚合。

例如，可以通过此过程合并相同解剖部位的不同名称。

根据某些示例，可以根据一个或多个示例来确定或提取每个介入事件的子类别。例如，这可以基于对每个医学记录的NLP工具的应用来确定。以这种方式，对记录执行语言学或语义分析，并基于此确定子类别。通过具体示例，在例如右叶肝切除和胆管切除的情况下，可以导出肝胆切除操作的特定索引介入事件子分类。

为了在提取的介入事件的属性组和存储在数据集中的索引介入事件的属性组之间执行比较，在某些示例中，可以使用Levenshtein距离算法。这允许在任意两组属性之间计算相似度，每个例如属于公共的一组属性域。

Levenshtein距离也称为最小编辑距离。通常，这允许测量两个字符串之间的相似度。该距离对应于将一个字符串转换为另一个字符串所需的删除、插入或替换的数量。

例如，将最接近匹配索引介入事件确定为其关联的属性组与提取的介入事件的属性组呈现最高相似度水平的事件。在Levenshtein距离算法的情况下，最高相似度水平对应于最短的Levenshtein距离。

然后可以根据(一个或多个)最接近匹配索引介入事件对已经从中提取了相关介入事件的医学记录进行分类。

如所讨论的，此后，基于索引事件分类聚合分类的医学记录。更具体地，可以基于与用户有关的信息来确定通过其聚合事件的特定索引介入事件。

因此，索引介入事件分类提供了一种非常有效的方式来以高水平组织患者的病史。

例如，医学记录的聚合可以包括将医学记录构造成分层数据结构，该分层数据结构包括根据应用于记录中每个的索引事件分类而分组或排序的所获得的多个医学记录。

分层数据结构可以使所获得的医学记录根据医学记录的另外的属性，在附属于索引事件分类的水平的水平上进一步排序。例如，可以进一步对医学记录进行排序，从而遵循患者的处置时间线(即时间顺序)。

可以根据与用户有关的信息来选择对记录进行聚合或排序的基础。

在一些示例中，与用户有关的信息可以包括与用户有关的识别信息、或者指示用户的感兴趣临床领域的信息。例如，其可以是与用户的临床专业有关的信息。其可以是与用户的专业(例如临床)背景有关的信息。以这种方式，可以基于关于用户的背景信息来选择对记录进行排序或聚合所基于的特定索引介入事件。

通过示例，用于执行聚合的索引介入事件的选择可以包括查询用户数据库，该用户数据库包含多个用户与每个用户的优选索引介入事件之间的链接。

例如，在给定的医学中心中，具有不同专业背景和不同的感兴趣临床领域的用户(例如医师)可能需要以不同方式对患者医学记录进行聚合和排序。

例如，不同的临床医师可能偏好基于不同的特定索引介入事件，即与他们的实践最相关的那些事件，对数据进行分组、排序或聚合。

在一些示例中，可以为多个用户(例如，临床医师)中的每个维护简档，简档例如指示用户的特定感兴趣临床领域或专业，和/或用户最感兴趣的一个或多个特定索引介入事件。基于这些因子中的任一个，该方法可以基于应该执行哪些医学记录聚合来选择特定的索引介入事件。

在一些示例中，可以维持考虑了医师职称、角色、医学部门和/或关于患者的细节的简档。可以基于此选择聚合应基于的索引介入事件。

例如，对于来自心脏病学部门的在患者病房中执业的医师，可以选择与心血管治疗有关的索引介入事件。

在任何示例中，用户简档可以以一定间隔更新。例如，这可以通过用户与在给定系统上运行的其他应用程序之间的交互来触发。

如上所述，可以在运行该方法之前建立多个数据提取模型。根据一个或多个实施例，该方法可以包括：选择多个存储的数据提取模型之一，以执行(从医学记录中)提取一个或多个介入事件的步骤，该数据提取模型是基于与用户有关的信息来选择的。与用户有关的信息可以例如涉及用户的感兴趣临床领域和/或用于聚合数据的一个或多个优选索引介入事件。

为了进一步说明该方法，图2示意性地描绘了该方法的示例工作流程，现在将对其进行简要概述。

首先获得源自多个数据源32a、32b的多个医学记录。然后在数据提取步骤14中通过数据提取模型对这些进行处理，以便提取每个医学记录所属的一个或多个介入事件。

此后，对于每个提取的介入事件，将其分解为依据一组表征属性36的表示，这些属性包括定义的一组属性域40a、40b、40c中每个属性域中的至少一个属性。在这种情况下，存在三个属性域。例如，这些可以对应于上面讨论的实体-特征-值域。

三个属性的单个元组42或组(一个来自三个域中的每个)被导出为每个提取的介入事件的表示。然后基于导出的属性组42和针对不同的索引介入事件的、在数据集中存储的属性组的比较，将这映射到存储在数据集或本体48中的最接近匹配索引介入事件。

优选地，除了识别最接近匹配索引介入事件并基于此对提取的事件进行分类之外，还导出介入事件的子分类，这表示所识别的最接近匹配索引介入事件的更详细或更窄的子类别。

然后基于所应用的类别和子类别来执行所提取的介入事件(未示出)的聚合。

根据本发明的另一方面的示例提供一种处理单元，该处理单元被配置为：

获得多个医学记录；

根据数据提取模型处理医学记录，以从每个记录中提取一个或多个介入事件，每个介入事件表示医学介入；

根据算法处理每个提取的介入事件，以导出依据一组表征属性的该事件的表示，该属性包括定义的一组属性域中每个的至少一个属性；

访问索引介入事件的数据集，在该数据集中每个索引介入事件与依据一组属性的对应的表示相关联，包括落入所述定义的一组属性域中每个属性域中的至少一个属性，并且基于提取的介入事件的属性与所存储的索引介入事件的属性的比较来识别与每个提取的介入事件最接近匹配的索引介入事件；并且

根据针对该记录识别的一个或多个索引介入事件对医学记录中的每个进行分类；

选择数据集中的索引介入事件之一，以用作聚合多个医学记录的基础，该选择基于与用户有关的信息；并且

基于所选的索引介入事件聚合经分类的多个医学记录。

通过示例的方式，图3图示了用于实施上述处理单元的计算机52的示例。

计算机52包括但不限于PC、工作站、膝上型计算机、PDA、掌上设备、服务器、存储设备等。通常，就硬件架构而言，计算机52可以包括一个或多个处理器54、存储器56、以及经由本地接口(未示出)通信地耦合的一个或多个I/O设备58。本地接口可以例如是但不限于一个或多个总线或其他有线或无线连接，如本领域中已知的。本地接口可以具有额外的元件，例如控制器、缓冲器(高速缓存)、驱动器、中继器和接收器，以实现通信。此外，本地接口可以包括地址、控制和/或数据连接，以实现上述部件之间的适当通信。

处理器54是用于执行可以存储在存储器56中的软件的硬件设备。处理器54实际上可以是任何定制或商业上可用的处理器、中央处理单元(CPU)、数字信号处理器(DSP)或在与计算机52相关联的若干处理器中间的辅助处理器，并且处理器54可以是基于半导体的微处理器(采取微芯片的形式)或微处理器。

存储器56可以包括易失性存储器元件(例如，随机存取存储器(RAM)，诸如动态随机存取存储器(DRAM)、静态随机存取存储器(SRAM)等)和非易失性存储器元件(例如，ROM、可擦可编程只读存储器(EPROM)、电子可擦可编程只读存储器(EEPROM)、可编程只读存储器(PROM)、磁带、光盘只读存储器(CD-ROM)、磁盘、软盘、盒式磁带、磁带盒等)中的任何一个或组合。此外，存储器56可以包含电子、磁性、光学和/或其他类型的存储介质。注意，存储器56可以具有分布式架构，其中，各种部件彼此远离设置，但是可以由处理器54访问。

存储器56中的软件可以包括一个或多个单独的程序，其中每个包括用于实施逻辑功能的可执行指令的有序列表。根据示例性实施例，存储器56包括：合适的操作系统(O/S)60、编译器62、源代码64以及一个或多个应用66。

应用66包括许多功能部件，诸如计算单元、逻辑、功能单元、过程、操作、虚拟实体和/或模块。

操作系统60控制计算机程序的执行，并且提供调度、输入-输出控制、文件和数据管理、存储器管理以及通信控制和相关服务。

应用66可以是源程序、可执行程序(目标代码)、脚本或包括要执行的一组指令的任何其他实体。当源程序时，然后程序通常经由编译器(诸如，编译器62)、汇编器、解释器等翻译，其可以被包括于或不被包括于存储器52中，从而结合操作系统60正确地操作。此外，应用66可以被编写为面向对象的编程语言(其具有数据和方法的类)，或过程性编程语言(其具有例程、子例程和/或函数)，例如但不限于，C、C++、C#、Pascal、BASIC、API调用、HTML、XHTML、XML、ASP脚本、JavaScript、FORTRAN、COBOL、Perl、Java、ADA、.NET等。

I/O设备58可以包括输入设备，例如但不限于鼠标、键盘、扫描器、麦克风、相机等。此外，I/O设备58还可以包括输出设备，例如但不限于打印机、显示器等。最后，I/O设备58还可以包括与输入和输出两者通信的设备，例如但不限于网络接口控制器(NIC)或调制器/解调器(用于访问远程设备、其他文件、设备、系统或网络)，射频(RF)或其他收发器、电话接口、桥、路由器等。I/O设备58还包括用于通过各种网络(诸如因特网或内联网)通信的部件。

当计算机52在操作中时，处理器54被配置为执行存储在存储器56内的软件，以将数据传递到存储器56和从存储器56传递数据，并且通常根据软件控制计算机52的操作。应用66和操作系统60全部或部分地由处理器54读取，可能在处理器54内缓冲，并且然后执行。

当应用66以软件实施时，应该注意，应用66实际上可以存储在任何计算机可读介质上，以供任何计算机相关系统或方法使用或与之结合使用。在该文档的背景下，计算机可读介质可以是电子、磁性、光学或其他物理设备或模块，其可以包含或存储计算机程序以供计算机相关系统或方法使用或与之结合使用。

通过研究附图、公开内容和所附权利要求，本领域技术人员在实践所要求保护的发明时可以理解和实现所公开的实施例的变型。在权利要求中，“包括”一词不排除其他元件或步骤，并且词语“一”或“一个”不排除多个。单个处理器或其他单元可以履行权利要求中记载的若干项的功能。尽管在互不相同的从属权利要求中记载了某些措施，但是这并不指示不能有利地使用这些措施的组合。计算机程序可以存储在/分布在适当的介质上，例如与其他硬件一起提供或作为其部分提供的光学存储介质或固态介质上，但是计算机程序也可以以其他形式分布，例如经由因特网或其他有线或无线电信系统分布。权利要求中的任何附图标记都不应被解释为对范围的限制。

Claims

1.一种对医学记录进行分类的方法，包括：

获得(12)多个医学记录；

根据数据提取模型来处理(14)所述医学记录，以从每个记录中提取一个或多个介入事件，每个介入事件表示医学介入；

根据算法来处理(16)所提取的介入事件中的每个介入事件，以导出依据一组表征属性的所述事件的表示，所述属性包括定义的一组属性域中的每个属性域中的至少一个属性；

访问索引介入事件的数据集，并且基于所提取的介入事件与所存储的索引介入事件的所述属性的比较(18)来识别(20)与每个提取的介入事件的最接近匹配索引介入事件，其中，在所述数据集中每个索引介入事件与依据一组属性的对应的表示相关联，所述一组属性包括落入到所述定义的一组属性域中的每个属性域中的至少一个属性；并且

根据针对该记录识别的一个或多个索引介入事件对所述医学记录中的每个医学记录进行分类(22)；

选择(24)多个索引介入事件中的一个索引介入事件以用作聚合所述多个医学记录的基础，所述选择基于与用户有关的信息；并且

基于所选择的索引介入事件来聚合(26)经分类的多个医学记录。

2.根据权利要求1所述的方法，其中，所述定义的一组属性域至少包括：所述介入事件所属的解剖区域、所述介入事件所属的介入流程、以及所述介入事件所属的所述介入流程的子类型或类别。

3.根据权利要求1所述的方法，其中，索引介入事件的所述数据集包括所述索引介入事件的本体，所述本体定义所述索引介入事件中的每个索引介入事件与相关联的属性组之间的链接。

4.根据权利要求1所述的方法，其中，所述医学记录的所述聚合包括将所述医学记录构造成分层数据结构，所述分层数据结构包括根据被应用于所述记录中的每个记录的索引事件分类所分组或排序的所获得的多个医学记录。

5.根据权利要求4所述的方法，其中，所述分层数据结构具有根据所述医学记录的另外的属性在附属于所述索引事件分类的水平的水平处进一步排序的所获得的医学记录。

6.根据权利要求5所述的方法，其中，所述另外的属性包括以下各项中的至少一项：每个医学记录的时间戳和所述索引事件分类的子类别。

7.根据权利要求5所述的方法，其中，使用自然语言处理工具从每个医学记录中提取所述另外的属性。

8.根据权利要求1所述的方法，其中，所述方法还包括用于训练所述数据提取模型的训练流程，并且所述训练流程包括从所获得的多个医学记录中选择所述医学记录的子集，并且将所选择的医学记录的子集输入到所述模型，并且根据被包含在记录的所述子集中的数据来训练所述模型以用于识别一组不同的索引介入事件。

9.根据权利要求8所述的方法，其中，所述训练流程包括对条件随机场或卷积神经网络的使用。

10.根据权利要求1所述的方法，其中，所述医学记录包括基于文本的内容，所述基于文本的内容在语言学上表示一个或多个介入事件，并且其中，所述数据提取模型被配置为应用语言学分析方法来提取所述一个或多个介入事件。

11.根据权利要求1所述的方法，其中，与所述用户有关的所述信息包括与所述用户有关的识别信息或者指示所述用户的感兴趣临床区的信息。

12.根据权利要求1或11所述的方法，其中，对用于执行所述聚合的所述索引介入事件的所述选择包括：查询用户数据库，所述用户数据库包含多个用户与针对每个用户的一个或多个优选索引介入事件之间的链接。

13.根据权利要求1所述的方法，其中，所述方法包括：选择多个存储的数据提取模型中的一个数据提取模型以执行提取所述一个或多个介入事件的步骤，所述数据提取模型是基于与用户有关的信息来选择的。

14.一种包括代码模块的计算机程序，所述代码模块用于当所述程序在计算机上运行时实施根据权利要求1所述的方法。

15.一种处理单元，所述处理单元被配置为：

获得多个医学记录；

基于所选择的索引介入事件来聚合经分类的多个医学记录。