CN110459287B

CN110459287B - 来自医学文本报告的结构化报告数据

Info

Publication number: CN110459287B
Application number: CN201910379559.2A
Authority: CN
Inventors: 许娟; P.沙马
Original assignee: Siemens Healthineers AG
Current assignee: Siemens Medical Ag
Priority date: 2018-05-08
Filing date: 2019-05-08
Publication date: 2024-03-22
Anticipated expiration: 2039-05-08
Also published as: EP3567605C0; US20190347269A1; US10929420B2; CN110459287A; EP3567605B1; EP3567605A1

Abstract

来自医学文本报告的结构化报告数据。公开了一种用于从医学文本报告生成结构化报告数据的方法和装置。该方法包括：获取包括一个或多个自然语言语句的医学文本报告；使用计算机实现的文本分析过程分析医学文本报告，以针对每个自然语言语句确定针对自然语言语句的一个或多个标签；以及生成包括确定的一个或多个标签的结构化报告数据，每个标签与来自标签所对应的自然语言语句的自然语言数据相关联。对于每个自然语言语句，计算机实现的文本分析过程包括：针对自然语言语句的一个或多个词中的每个，并且使用词嵌入，来确定表示词的矢量；以及基于确定的一个或多个矢量，并且使用文本分类模型，来确定与自然语言语句相关联的一个或多个标签。

Description

来自医学文本报告的结构化报告数据

技术领域

本发明涉及结构化报告数据，并且更具体地，涉及从医学文本报告（诸如放射学报告）生成结构化报告数据。

背景技术

医学文本报告，例如放射学报告，在医学领域中用于在医学专业人员之间传送信息。例如，患者的医生可以将患者转诊（refer）以进行某些医学成像，例如计算断层摄影术血管造影术（CTA）。然后，放射线技师对患者执行医学成像，并且然后放射科医师读取或解释所得到的图像，以产生他们的发现的基于文本的放射学报告。医学发现可以被定义为例如由医生对患者进行的观察，例如作为对患者的检查、成像或其他测试的结果。然后将放射学报告提供给转诊医生。然后，转诊医生可以基于放射学报告对患者的疾病进行诊断。

放射学报告以叙述性文本形式创建，其中放射科医师基于视觉、定性或定量图像解释来口述发现。归因于以其来创建放射学报告的方式，不同的放射科医师可能以不同的方式产生放射学报告，导致不同的报告范围内容和/或格式。

放射学报告的自由形式和/或不同性质可能使得难以获得其中包含的关键知识。例如，基于此进行高效诊断对转诊医生来说可能是困难的，并且其中包含的关键信息可能被遗漏，这在原则上可能导致误诊。

大量的这样的医学文本报告可以被存储在医疗保健数据库中。报告的自由形式和/或不同性质可能使得跨数据库更新、集成和或共享信息困难和/或低效。此外，这可能使得执行进一步的分析（即，对包含在医学文本报告内的信息进行计算机实现的分析和/或搜索）困难和/或低效（例如，计算上昂贵的）。例如，基于自由形式的医学文本报告，执行特定的患者的组中的或单个患者的定量分析，或针对人口健康分析，或横断面分析以识别高风险患者和/或提高人口健康洞察力，可能是困难和/或低效的。

因此，期望的是提供一种使得能够以高效和准确的方式自动生成这样的结构化报告数据的方法。

发明内容

根据本发明的第一方面，提供了一种从医学文本报告生成结构化报告数据的方法，所述方法包括：获取医学文本报告，所述医学文本报告包括一个或多个自然语言语句，每个自然语言语句包括一个或多个词；使用计算机实现的文本分析过程分析所述医学文本报告，以针对每个自然语言语句确定针对所述自然语言语句的一个或多个标签；以及

生成结构化报告数据，所述结构化报告数据包括确定的一个或多个标签，每个标签与自然语言数据相关联，所述自然语言数据包括自然语言语句或从所述标签所对应的所述自然语言语句导出的数据；其中，对于每个自然语言语句，计算机实现的文本分析过程包括：针对自然语言语句的一个或多个词中的每个词，并且使用词嵌入，来确定表示词的矢量；以及基于确定的一个或多个矢量，并且使用文本分类模型，来确定与自然语言语句相关联的所述一个或多个标签。

可选地，所述方法包括将生成的结构化报告数据存储在结构化数据库中，使得确定的一个或多个标签各自与标签所对应的自然语言数据相关联地存储。

可选地，所述方法包括基于生成的结构化报告数据，输出结构化报告，所述结构化报告被结构化，使得确定的一个或多个标签各自与标签所对应的自然语言数据相关联地呈现。

可选地，所述结构化报告数据被结构化，使得所述一个或多个标签处于分层结构的第一级中，并且对应的自然语言数据处于分层结构的第二级中，在分层结构中，第二级低于第一级。

可选地，所述方法包括至少部分地基于存储在所述结构化数据库中的所述标签，针对存储在所述结构化数据库中的所述自然语言数据执行计算机实现的搜索过程。

可选地，针对每个自然语言语句，计算机实现的文本分析过程包括：针对多个预定义标签中的每个，确定指示自然语言语句与预定义标签相关联所到的程度的相关联参数；其中，确定与自然语言语句相关联的所述一个或多个标签基于所确定的相关联参数。

可选地，所述方法包括：使用文本分类模型，针对每个自然语言语句，确定关于医学发现的自然语言语句的一个或多个分类；其中，对于每个自然语言语句，所述自然语言数据包括所述一个或多个分类。

可选地，获取医学文本报告包括当已经产生第一自然语言语句时并且在已经产生医学文本报告的自然语言语句的第二个之前，获取医学文本报告的自然语言语句的第一个。

可选地，所述方法包括训练文本分析过程。

可选地，所述训练包括基于多个另外的医学文本报告的自然语言语句的数据库来训练文本分类模型，每个语句用对应于所述标签的地面实情（ground-truth）来注释。

可选地，所述多个另外的医学文本报告是结构化的医学文本报告，所述结构化的医学文本报告包括一个或多个所述标签，每个标签与所述标签所对应的自然语言语句相关联，并且其中，针对每个自然语言语句的地面实情包括标签。

可选地，所述训练包括构建词汇表并从多个另外的医学文本报告或多个另外的医学文本报告生成词嵌入，并且其中，使用生成的词嵌入来确定所述确定的一个或多个矢量。

可选地，使用神经网络架构来实现训练。

根据本发明的第二方面，提供了用于从医学文本报告生成结构化报告数据的装置，所述装置被配置成执行根据第一方面的方法。

根据本发明的第三方面，提供了一种计算机程序，所述计算机程序包括指令，当在计算机上执行时，所述指令使得计算机执行根据第一方面的方法。

本发明的另外的特征和优点将从以下仅通过示例的方式给出的、参考附图所做出的本发明的示例的描述而变得明显。

附图说明

图1示意性地图示了根据本发明的示例的方法的流程图；

图2示意性地图示了根据示例的医学文本报告和结构化报告；

图3示意性地图示了根据示例的结构化报告数据；

图4示意性地图示了根据示例的图示功能单元的图；以及

图5示意性地图示了根据示例的装置。

具体实施方式

图1示意性地图示了根据示例的从医学文本报告生成结构化报告数据的方法的步骤的流程图。

参考图1，该方法包括，在步骤102中，获取包括一个或多个自然语言语句的医学文本报告，每个自然语言语句包括一个或多个词。

医学文本报告可以是放射学报告。例如，放射线技师可以对患者执行医学成像，并且放射科医师可以读取或解释所得到的一个或多个图像，并产生他们的发现的文本放射学报告。

医学成像可以包括例如计算断层摄影术（CT）扫描，例如计算断层摄影术血管造影术（CTA），或者可以包括例如磁共振成像（MRI），例如应力灌注心脏MRI。

放射学报告可以包括由放射科医师或其他用户经由键盘或者诸如此类直接输入计算机中的文本，或者由放射科医师口述的文本，并且计算机的语音到文本软件可以被用于例如将口述的词转换成文本。图2中图示了示例医学文本报告202。医学文本报告202是放射学报告202。医学文本报告202包括自然语言语句204（图2中示出了三个）。

医学文本报告包括一个或多个自然语言语句。自然语言语句可以是例如自然语言中的句子，所述自然语言例如英语。自然语言语句中的一个或多个可以是句子。例如，图2的示例医学文本报告202的自然语言语句是“在整个右肺中存在多个亚段肺栓塞”。

自然语言语句可以包括放射科医师的医学发现。医学发现可以被定义为由医生（例如放射科医师）对患者进行的观察，例如作为对患者的检查、成像或其他测试（例如放射线照相术）的结果。例如，放射科医师的医学发现可以是基于患者的医学成像或其他检查对患者进行的临床重要观察，例如患者的特定疾病状态或其他医学特征。例如，医学发现可以包括如由放射科医师调查的疾病状态、临床异常或患者的其他医学特征的存在或不存在、类型、位置和/或严重性。例如，自然语言语句“在整个右肺中存在多个亚段肺栓塞”的医学发现可以是肺栓塞的存在，和/或肺栓塞的类型是亚段和/或肺栓塞的位置是右肺。

获取医学文本报告可以包括获取完整的医学文本报告。例如，放射科医师可以完成医学文本报告，并且医学文本报告可以被电子地存储在合适的存储设备中。医学文本报告可以被存储为文本文件，使得报告的文本是计算机可读的。获取医学文本报告可以包括从存储设备获取医学文本报告，例如文本文件。获取医学文本报告可以包括通过通信网络例如从数据库接收医学文本报告。

在一些示例中，可以从数据库或预先存在的医学文本报告中获取一个或多个医学文本报告。例如，数据库可以是电子病历（EMR）数据库、电子健康记录（HER）数据库、放射学信息系统（RIS）数据库和/或另一形式的数据库。

在一些示例中，获取医学文本报告可以包括逐个语句地获取医学文本报告的自然语言语句。例如，可以在创建自然语言语句时和/或当创建自然语言语句时获取自然语言语句。例如，获取医学文本报告可以包括当已经产生第一自然语言语句时以及在已经产生医学文本报告的第二自然语言语句之前获取医学文本报告的第一自然语言语句。作为另一示例，每当放射科医师输入报告的自然语言语句时，可以获取自然语言语句。作为另一示例，每当放射科医师在口述放射学报告时完成句子时，可以从语音到文本软件获取新句子。以这样的方式，可以在运行中（on-the-fly）获取和/或处理自然语言语句。这可以允许在放射科医师解释和读取扫描图像时产生结构化报告。这可以允许结构化报告是更快地可获得的，和/或可以减少将医学文本报告预处理成句子。

该方法包括，在步骤104中，使用计算机实现的文本分析过程分析医学文本报告，以针对每个自然语言语句确定针对自然语言语句的一个或多个标签。

计算机实现的分析过程可以包括自然语言处理。文本分析过程可以包括医学文本报告的文本的预处理。预处理可以包括将医学文本报告的文本分割成自然语言语句。预处理可以包括对每个自然语言语句的每个词分段。

该方法的步骤104的计算机实现的文本分析过程包括针对所获取的医学文本报告的每个自然语言语句的每个词，并使用词嵌入，确定表示该词的矢量。

可以将词嵌入描述为词汇表的各个词或短语到矢量空间中表示其的实值矢量上的映射。每个矢量可以是矢量空间中的词的密集分布式表示。可以学习/生成词嵌入以提供具有相似含义的词或短语在矢量空间中具有类似的表示。

可以使用机器学习技术来学习词嵌入。可以针对文本的语料库（corpus）的词汇表的词来学习/生成词嵌入。可以使用对文本的语料库应用的训练过程来学习/生成词嵌入。

训练过程可以由深度学习网络实现，所述深度学习网络例如基于神经网络。例如，可以使用递归神经网络（RNN）架构来实现训练，其中内部存储器可以被用于处理任意的输入的序列。例如，可以使用基于长短期存储器（LSTM）的递归神经网络架构来实现训练，所述递归神经网络架构例如包括用于在任意时间间隔内记住值的一个或多个LSTM单元，和/或例如包括门控递归单元（GRU）。可以使用卷积神经网络（CNN）来实现训练。可以使用其他合适的神经网络。

可以采用各种模型用于学习/生成词嵌入的训练过程。例如，可以使用在神经网络上实现的skip-gram模型来学习词嵌入。skip-gram模型可以在给定词的本地使用上下文的情况下学习用于词的词嵌入，其中上下文由相邻词的窗口来定义。该窗口是模型的可配置参数。skip-gram模型可以通过预测围绕给定词的词来学习词嵌入。例如，可以使用文本的语料库的所有词来构建词汇表。词嵌入可以最初将每个词映射到给定维度的矢量上，该矢量用随机生成的数字填充。skip-gram模型可以获取词汇表的词并使用与该词相关联的词嵌入来尝试预测在给定窗口中围绕该词的词。然后，skip-gram模型可以将预测与在文本的语料库中实际围绕该词的词进行比较，并相应地基于其调整词嵌入。可以递归地应用该过程，直到生成准确的词嵌入。可以应用用于学习词嵌入的其他合适模型。例如在与稀疏词表示相比时，由词嵌入映射的矢量可以是密集的，即具有相对低的维度。这可以允许相对高效地实现计算机实现的文本分析过程。

在一些示例中，在计算机实现的文本分析过程中使用的用于确定医学文本报告的自然语言语句的词的矢量的词嵌入可以从合适的词嵌入数据库（例如，已经基于不一定与医学文本报告相关联的通用文本语料库建立的词嵌入数据库）获得。

在一些示例中，可以从医学文本报告的语料库（例如从放射学报告的语料库）训练/生成词嵌入。例如，可以预先收集许多放射学报告作为训练数据集。每个报告可以被分割成句子和词，例如如上所述。训练数据集中的所有词可以被用于建立用于词嵌入训练模型的词汇表。然后可以例如使用上述训练技术从训练数据集生成/学习词嵌入。然后可以使用生成/学习的词嵌入来确定在文本分析过程中针对医学文本报告的自然语言语句的词确定的矢量。基于医学文本报告（例如放射学报告）构建词汇表并学习词嵌入可以允许为分析提供更完整的词汇表和更准确的词嵌入，并因此为所获取的医学文本报告的每个词确定更可靠的矢量。

该方法的步骤104的计算机实现的文本分析过程包括基于所确定的一个或多个矢量，并使用文本分类模型，确定与自然语言语句相关联的一个或多个标签。

文本分类模型可以是用于基于自然语言语句的词的矢量表示来确定用于自然语言语句的标签的模型。文本分类模型可以将函数应用于来自要分析的医学文本报告的自然语言语句的词或短语的词嵌入的矢量，并且基于该函数的输出确定与该自然语言语句相关联的一个或多个标签。例如，该函数可以将来自用于医学文本报告的自然语言语句的词或短语的词嵌入的矢量映射到一个或多个标签上。例如，文本分类模型可以例如使用神经网络将句子的每个词的矢量编码成表示句子的矢量，并且文本分类模型可以将表示句子的矢量映射到一个或多个标签上。文本分类模型可以基于深度学习网络或使用深度学习网络实现，所述深度学习网络例如神经网络，用于递归神经网络（RNN）架构，其中内部存储器可以被用于处理任意的输入的序列，例如基于长短期存储器（LSTM）的递归神经网络架构，例如包括用于在任意时间间隔内记住值的一个或多个LSTM单元，和/或例如包括门控递归单元（GRU）。可以使用卷积神经网络（CNN）来实现文本分类模型。神经网络可以包括注意模型，其可以允许文本分类模型不同地注意输入句子的不同部分（例如，不同的词）。可以使用其他合适的神经网络。

在一些示例中，文本分类模型可以将给定的自然语言语句对应于多个预定义标签中的哪个进行分类。例如，文本分类模型可以针对多个预定义标签中的每个确定相关联参数，该相关联参数指示自然语言语句与预定义标签相关联所到的程度。然后可以基于所确定的相关联参数来确定与自然语言语句相关联的一个或多个标签。例如，多个预定义标签可以是“肺动脉”、“肺和气道”和“胸膜”，并且该模型可以确定自然语言语句“在整个右肺中存在多个亚段肺栓塞”对于标签“肺动脉”具有比对于标签“肺和气道”或“胸膜”更大的相关联参数，并且因此文本分类模型可以相应地确定该标签。在一些示例中，文本分类算法可以被布置成使得具有高于预定义阈值的与给定自然语言语句的相关联参数的多个预定义标签中的任何一个可以被确定为针对该自然语言语句的标签。

在一些示例中，文本分类模型可以确定针对给定自然语言语句的第一标签和针对给定自然语言语句的第二标签。例如，第二标签可以是从自然语言语句确定的子标签。可以以与上述标签基本相同的方式确定子标签。例如，可以以与上述基本相同的方式从多个预定义的子标签确定针对给定自然语言语句的子标签。子标签可以比标签精确。例如，所确定的子标签可以以与标签不同和/或更具体的方式与自然语言语句相关。在一些示例中，第二标签可以指示自然语言语句的医学发现，例如根据文本分类模型，自然语言语句最密切相关联的医学发现的预定义列表的医学发现。例如，对于自然语言语句“在整个右肺中存在多个亚段肺栓塞”，第一标签可以被确定为“肺动脉”，标签第二标签可以被确定为“肺栓塞”。

可以使用训练过程来训练文本分类模型，以确定针对给定自然语言语句的适当标签。例如，可以训练该函数以将来自给定自然语言语句的词或短语的词嵌入的矢量映射到针对该自然语言语句的适当标签上。

训练过程可以使用深度学习网络来实现，例如基于神经网络，例如上述示例神经网络中的任何一个或多个。

文本分类模型训练过程可以包括机器学习技术。

在一些示例中，训练过程可以包括监督学习。监督学习可以包括从包括训练示例的注释训练数据推断函数。例如，训练可以基于自然语言语句的数据库，每个语句用对应于标签（即，由文本分析过程给出的标签）的地面实情来注释。例如，监督学习可以基于医学文本报告的语料库的自然语言语句的数据库，每个语句用对应于所述标签的地面实情来注释（例如由放射科医师或其他医生）。所述语句可以来自预先收集的多个放射学报告，作为用于训练过程的训练数据集和语料库。训练数据的每个语句可以表示输入对象，并且相应的地面实情是监督信号，用于训练过程。训练过程可以分析训练数据以产生推断的函数，该推断的函数然后可以被用于确定针对要分析的医学文本报告的给定输入自然语言语句的标签。

例如，训练过程可以包括获取多个医学文本报告作为训练数据（例如预先存在的相关放射学报告），将报告分割成句子，以及将每个句子的词分段。然后可以由临床专家使用预定义标准手动注释每个句子。然后注释的句子被用作用于训练过程的训练样本。例如，训练可以包括使用来自给定注释句子的词中的每个词的词嵌入的矢量作为输入对象，并且使用每个句子的相应标签注释作为监督信号，用于训练文本分类模型以产生推断的函数。

在一些示例中，文本分类模型的训练过程可以是自我监督的。例如，训练数据集可以不包括用相应的标签地面实情手动注释的句子，而是可以从训练数据集本身确定地面实情。例如，训练数据集可以包括预先收集的结构化医学文本报告。结构化医学文本报告可以包括一个或多个所述标签，每个标签与标签所对应的自然语言语句相关联。训练过程中使用的每个自然语言语句的地面实情可能包括来自结构化报告的标签。例如，结构化医学文本报告可以包括在标题下写的自然语言语句，或者在报告的命名部分中给出。因此，训练过程可以使用报告的部分的标题或名称，在该部分或名称下，给定的自然语言语句作为针对该语句的地面实情标签。

在文本分类模型训练过程中使用的词嵌入可以与在计算机实现的文本分析过程本身中使用的词嵌入相同或不同。

在文本分类模型训练过程中使用的词嵌入可以从合适的词嵌入数据库（例如，已经基于不一定与医学文本报告相关联的通用文本语料库建立的词嵌入数据库）获得，或者可以从医学文本报告的语料库（例如，从如上所述的放射学报告的语料库）训练/生成。

文本分类模型和词嵌入可以一起或单独训练。在一些示例中，用于文本分类模型的训练的医学文本报告的语料库可以与用于词嵌入的训练/生成的医学文本报告的语料库相同。例如，可以基于与文本分类模型在其上训练的训练数据相同的训练数据来训练/生成词汇表和/或词嵌入。

在一些示例中，可以与文本分类模型的训练一起训练词嵌入。例如，可以首先针对给定的训练数据集（例如，医学文本报告的语料库）生成词汇表和词嵌入，并且然后基于给定的训练数据集在文本分类模型的训练中使用那些生成的词嵌入。

该方法包括，在步骤106中，生成结构化报告数据，该结构化报告数据包括所确定的一个或多个标签，每个标签与自然语言数据相关联。自然语言数据包括自然语言语句或从标签所对应的自然语言语句导出的数据。例如，结构化报告数据可以包括文本串，该文本串包括标签和标签所对应的自然语言数据。作为另一示例，所生成的结构化报告数据可以包括表，该表包括标签和在表的公共行中标签所对应的自然语言数据。

生成的结构化报告数据的第一示例在图2中图示的第一示例结构化报告206中示出。从医学文本报告202生成第一示例报告206的结构化报告数据。第一示例结构化报告206的所生成的结构化报告数据包括确定的标签208（示出了三个），每个标签与标签所对应的自然语言语句210相关联。作为一个示例，自然语言语句210“在整个右肺中存在多个亚段肺栓塞”具有标签208“肺动脉”。生成的结构化报告数据的第二示例在图2中图示的第二示例结构化报告212中示出。第二示例结构化报告212的结构化报告数据包括确定的标签214、216（示出总共八个），每个标签与从标签所对应的自然语言语句导出的数据218相关联。作为一个示例，标签214、216“肺动脉”和“肺栓塞”与从医学文本报告202的语句“在整个右肺中存在多个亚段肺栓塞”导出的数据218“存在：是；类型：多个亚段栓塞；位置：右肺”相关联地呈现。

生成的结构化报告数据可以是预定格式，例如，可以用标签和相关联的自然语言数据填充预定字段结构。生成的结构化数据可以分层结构化。例如，结构化报告数据可以被结构化，使得一个或多个标签处于分层结构的第一级中，并且对应的自然语言数据处于分层结构的第二级中，在分层结构中，第二级低于第一级。例如，生成的结构化报告数据可以包括对应于包括与第一自然语言语句相关联的标签的第一标题或部分或字段下的第一自然语言语句的自然语言数据，并且可以包括对应于包括与第二自然语言语句相关联的标签的第二标题或部分或字段下的第二自然语言语句的自然语言数据。例如，如图2中图示的那样，结构化报告206包括结构化报告数据，该结构化报告数据包括标题（即标签）“肺动脉”下的第一自然语言语句“在整个右肺中存在多个亚段肺栓塞”，以及标题（即标签）“肺和气道”下的第二自然语言语句“肺未表现出局灶性实变、结节或肿块”。

如上面提到的那样，在一些示例中，自然语言数据包括标签和自然语言语句。例如，根据图2的第一示例结构化报告206，所生成的结构化报告数据可以包括与标签所对应的自然语言语句210“在整个右肺中存在多个亚段肺栓塞”相关联的标签208“肺动脉”。

在一些示例中，自然语言数据包括从自然语言语句导出的数据。在一些示例中，从自然语言语句导出的数据可以包括自然语言语句的一个或多个分类。分类可以关于自然语言语句的医学发现。例如，该方法（例如，上述计算机实现的文本分析过程）可以包括使用文本分类模型针对每个自然语言语句确定关于医学发现的自然语言语句的一个或多个分类。类似于上面针对标签所描述的那样，模型可以通过使用推断的函数（学习的或以其他方式）来确定关于自然语言语句的医学发现的一个或多个分类，该函数将来自自然语言语句的每个词的词嵌入的矢量映射到关于一个或多个（例如预定义的）医学发现的一个或多个分类上。关于医学发现的分类的确定可以与标签的确定同时发生。

可以训练文本分类模型以确定关于医学发现的给定自然语言语句的适当分类，类似于如上面针对标签的确定描述的那样。具体地，可以基于在如上所述的基于神经网络的架构上实现的机器学习技术来训练文本分类模型。例如，可以使用基于文本语句的数据库的监督学习来训练模型，每个文本语句用对应于关于第一医学发现的分类的地面实情来注释，或者使用基于预先收集的医学文本报告的自我监督学习来训练模型，该医学文本报告已经被结构化为包括关于医学发现的给定自然语言语句的分类，其可以被用作语句的地面实情。如上，训练可以包括使用来自给定句子的词中的每个词的词嵌入的矢量作为输入对象，并且使用每个句子的相应医学发现分类地面实情作为监督信号，用于训练文本分类模型以产生推断的函数。词嵌入可以与上面用于确定标签的那些相同。

一个或多个分类可以包括医学发现的存在分类、类型分类和/或位置分类中的一个或多个。例如，文本分类模型可以被训练或以其他方式配置成如果模型确定自然语言语句肯定地指示医学发现的存在，则将该语句分类为关于医学发现的阳性。例如，文本分类模型可以关于医学发现“肺栓塞”将语句“在整个右肺中存在多个亚段肺栓塞”分类为阳性，并因此针对该语句的医学发现“肺栓塞”确定存在分类“是”。类似地，文本分类模型可以将该语句中的医学发现“肺栓塞”的类型分类确定为“多个亚段栓塞”，并将该语句中的医学发现“肺栓塞”的位置分类确定为“右肺”。例如，图2的第二示例结构化报告212（在图中也称为“定量分析”）基于生成的结构化报告数据，该结构化报告数据包括确定的标签214、216，具体为“肺动脉”和“肺栓塞”，其与从标签所对应的自然语言语句210导出的数据218相关联。具体地，从自然语言语句导出的数据包括关于医学发现“肺栓塞”（即子标签216）的自然语言语句的确定的分类218，具体为“存在：是//类型：多个亚段栓塞//位置：右肺”。

还可以确定关于给定医学发现的给定自然语言语句的其他分类。例如，图3示意性地图示了表示示例可能分类的表302，该示例可能分类可以由文本分类模型针对给定的自然语言语句确定，并且因此从给定自然语句导出的数据可以包括该示例可能分类。左侧栏304列出医学发现，并且右侧栏306列出可以关于医学发现进行的分类。例如，对于给定的自然语言语句，关于“肺栓塞”的分类可以被确定为“Y/N/不确定”（即，是的它存在，或者不，它不存在，或者该语句关于其存在是不确定的）之一；关于“LV-to-RV（LV与RV）比”（即，左心室与右心室直径比，肺CTA的参数）可以被确定为“<1/>1”（小于1或大于1）之一；关于“主PA直径”（即主肺动脉直径）可以被确定为以厘米为单位的大小；关于“胸腔积液（Pluraleffusion）”可以被确定为“Y/N/不确定”之一；关于“淋巴结病”可以被确定为“Y/N/不确定”之一；关于动脉粥样硬化（冠状动脉、主动脉）可以被确定为“Y/N/不确定”之一；关于“骨病变”可以被确定为“Y/N/不确定”之一；和/或关于“肺结节”可以被确定为“Y/N/不确定”之一。

从给定的自然语言语句导出的数据本身可以以预定格式结构化，例如，预定字段结构可以用从自然语言语句导出的数据填充。例如，从给定的自然语言语句导出的数据可以分层结构化，例如，通过医学发现来结构化输出信息，或者通过关于一个或多个医学发现的一个或多个分类来结构化输出信息。例如，从给定的自然语言语句导出的数据可以包括在关于第一医学发现的第一标题或部分或字段分类数据之下，以及在关于第二医学发现的第二标题或部分或字段分类数据之下。例如，根据图2的第二示例结构化报告212，从自然语言语句导出的数据的第一标题或部分或字段可以是“结节”，并且在该标题或部分或字段之下可以是与结节相关的分类数据，例如“存在：否”，并且第二标题或部分或字段可以是“肿块”，并且在该标题或字段的部分之下可以是与“肿块”相关的分类，例如“存在：否”。

结构化报告数据可以作为结构化报告被输出，例如作为文本文件或打印报告。结构化报告数据可以例如通过合适的通信网络被传输，例如以供一个或多个计算机和/或合适的存储装置接收。生成的结构化报告数据可以被存储在例如合适的数据库中，例如作为合适结构化的文本文件或其他格式。

生成的结构化报告数据被结构化以便包括标签，每个标签与相应的自然语言数据相关联，这可以允许生成结构化报告，其中可以更容易地识别和访问关键信息，因此减少基于其的误诊的可能性。结构化报告数据的结构可以允许使用数据模型高效地传输数据和/或将数据存储在数据模型中，这可以允许改进访问或共享数据的系统之间的互操作性，和/或可以允许数据的高效搜索和/或数据模型内不同记录之间的比较。

在一些示例中，如上所述，可以基于生成的结构化报告数据来输出结构化报告。如图2中图示的那样，输出结构化报告206、212可以被结构化使得所确定的一个或多个标签208、214、216各自与标签所对应的自然语言数据210、218相关联地呈现。如上所述，图2的第一示例结构化报告206包括从医学文本报告202生成的结构化报告数据。该示例中的结构化报告数据包括确定的标签208，具体为“肺动脉”，其与标签所对应的自然语言语句210相关联，具体为“在整个右肺中存在多个亚段肺栓塞”。标签206与自然语言语句210相关联地呈现。具体地，标签206紧接在自然语言语句210之前。标签被加下划线，并充当标签与其对应的报告206中的自然语言语句210的标题。在结构化报告206中以这种方式标记每个自然语言语句。

第二示例结构化报告212（图中也称为“定量分析”）包括从医学文本报告202生成的结构化报告数据。第二示例结构化报告212与标签所对应的自然语言语句的数据218相关联地呈现所确定的标签214，具体为“肺动脉”，以及所确定的标签216，具体为“肺栓塞”，具体为关于肺栓塞的第一医学发现的分类：“存在：是//类型：多个亚段栓塞//位置：右肺”。标签214、216与从自然语言语句210导出的数据218相关联地呈现。具体地，标签216呈现在紧接在从自然语言语句210导出的数据218之前的行上，并且标签214呈现在紧接在标签216之前的行上。标签214、216用作从自然语言语句210导出的数据218的标题。

在与输出报告206、208所基于的医学文本报告202相比时，输出报告206、208的结构可以允许例如由转诊医生更容易地识别和访问关键信息。这可以允许结构化报告更容易阅读，并且因此可以帮助防止例如基于其的误诊。

在一些示例中，可以基于结构化报告数据直接输出包括从自然语言语句导出的数据的第二示例结构化报告212，该结构化报告数据基于医学文本报告202生成。在一些示例中（如由图2中图示的箭头所示），例如通过基于第一示例结构化报告206的自然语言语句确定如上所述的关于医学发现的分类，可以基于第一示例结构化报告206来输出包括从自然语言语句导出的数据的第二示例结构化报告212。

在一些示例中，生成的结构化报告数据可以被存储在数据库中。具体地，该方法可以包括将生成的结构化报告数据存储在结构化数据库中。结构化数据库可以被结构化以便镜像所生成的结构化报告数据的结构。例如，结构化数据库可以被结构化，使得所确定的一个或多个标签各自与标签所对应的自然语言数据相关联地存储。例如，数据库可以包括表，该表包括包含标签的第一列和包含自然语言数据的第二列，并且给定标签和该给定标签所对应的自然语言数据可以在表的公共行中。数据库可以包括用标签和相关联的自然语言数据填充的预定字段结构，其可以被分层结构化，例如使得标签处于分层结构的第一级中并且相关联的自然语言数据处于分层结构的第二、较低级中。此外，数据库可以被结构化成提供从给定自然语言语句导出的该数据被分层存储，例如，通过医学发现结构化，例如如上所述。

被存储在如上所述的结构化数据库中的生成的结构化报告数据可以允许系统之间的改进的互操作性或数据交换，所述系统可以访问或共享数据和/或将来自结构化报告数据的源的数据集成到例如一个或多个集中位置中。替代地或附加地，这可以允许例如响应于要进行的给定的搜索查询来高效搜索数据。例如，可以在标签之间进行对与肺动脉相关的医学文本报告的搜索，而不是对所有医学文本报告的所有的文本进行全文搜索。

在一些示例中，可以至少部分地基于数据库的一个或多个标签例如经由数据库的标签来执行或引导对自然语言数据的搜索。例如，在其中数据库具有上述分层结构的示例中，对具有正在被呈现的“肺栓塞”的发现的医学文本报告的搜索可以首先包括对具有标签“肺动脉”的记录的搜索，之后是对与该标签相关联的自然语言数据的搜索，而不是对所有医学文本报告的所有的文本的全文搜索或对所有自然语言数据的所有文本的全文搜索。作为另一个示例，对具有正在被呈现的“肺栓塞”的发现的医学文本报告的搜索可以包括对具有“肺栓塞”的医学发现子标签的记录的搜索。在其中标签包括关于医学发现的分类的示例中，可以在分类字段中进行针对指示医学发现的特定分类（例如，存在、类型、位置）的医学文本报告的搜索，而不是对所有医学文本报告的所有的文本进行全文搜索。例如，对指示“肺栓塞”的发现的记录的搜索可以被减少到对具有关于医学发现标签“肺栓塞”的指示“是”的存在分类字段的记录的搜索。

以这样的结构存储的生成的结构化报告数据还可以促进和/或提高记录之间的比较的效率。例如，单个患者可能在不同的时间点处多次经历CTA，导致在不同时间点处的针对患者的多个不同的放射学报告，所述报告可以各自如上所述进行分析以生成以相同方式（即根据预定义格式）结构化的生成的结构化报告数据的多个集合。这可以允许例如针对给定患者的报告信息的高效比较，这可以允许例如对随时间的报告信息中的变化的跟踪。作为另一示例，结构化报告数据可以允许两个或更多个患者的放射学报告中的信息的高效比较。例如，结构化报告数据可以允许对特定患者的组的特定信息的高效识别和提取，所述特定患者的组例如具有肯定地指示特定医学发现的存在的放射学报告的所有患者。作为另一示例，结构化报告数据中的特定标签或分类或字段可以被用于执行聚类分析（例如，使用合适的数据聚类算法），例如以将患者分组为聚类。结构化报告数据中的特定标签或分类或字段也可以被用于对患者进行分类，例如根据某种疾病的严重性。作为另一示例，结构化报告数据，例如结构化报告数据中的特定标签或分类或字段，可以被用于识别特定种类的后续医学检查和/或治疗的特定患者或患者的组。

以这样的结构存储的生成的报告数据还可以提供高效的文本挖掘和/或解释，和/或用于挖掘和/或解释给定自然语言数据所相关联的医学文本报告的图像。

该方法提供了从医学文本报告生成的结构化报告数据。这样的结构化报告数据可以允许产生结构化报告，这可以允许更容易地访问其中包含的关键信息。这样的结构化报告数据可以允许跨数据库更容易和/或更高效地更新、集成和/或共享医学文本报告的信息。这样的结构化报告数据可以允许更高效地执行对医学文本报告的信息的进一步分析，即计算机实现的分析和/或搜索。例如，在与使用基于语法规则的自然语言处理技术相比时，使用词嵌入来确定标签可以允许更高效和准确地确定标签，并因此确定结构化报告数据。

图4示意性地图示了用于实现上面参考图1描述的方法的功能单元的示例布置400。布置400包括预处理单元404、自然语言处理（NLP）单元406和深度学习网络408。预处理单元可以实现图1的步骤102，并且获取或以其他方式接收医学文本报告402（也指代附图中的自由形式报告）。预处理单元404可以将医学文本报告403的文本分割成n个句子（句子₁、句子₂……句子_n）。预处理单元404可以将每个句子分段成词（词₁₁……词_1s）。NLP单元406可以从预处理单元404获取包括句子的每个分段的词（词₁₁……词_1s）的每个句子（句子₁、句子₂……句子_n），例如每次一个。NLP 406单元已经将根据上述示例中的任何示例的词汇表和词嵌入存储在其中或以其他方式具有对根据上述示例中的任何示例的词汇表和词嵌入的访问权。NLP单元406使用词汇表和词嵌入，例如如上所述，来确定表示给定输入句子的每个词的矢量。深度学习网络408可以包括如上所述的一个或多个神经网络，例如递归神经网络（RNN）；基于长短期存储器（LSTM）的递归神经网络，例如包括门控递归单元（GRU），例如包括注意模型；卷积神经网络（CNN）中的一个或多个。文本分类模型可以在深度学习网络408上实现。深度学习网络408基于所确定的一个或多个矢量，并使用文本分类模型，确定与输入句子相关联的一个或多个标签410。例如，如上所述，文本分类模型可以包括将表示输入句子的词的矢量（来自词嵌入）映射到表示句子的标签410上的函数。例如，文本分类模型可以使用神经网络将每个词的矢量编码成表示句子的矢量，并且该句子矢量可以被用于确定标签410。文本分类模型可以被例如如上所述地训练。然后，标签410可以被用于生成报告412，所述报告412包括与自然语言数据相关联的标签410，所述自然语言数据包括自然语言语句或者从自然语言语句导出的数据，如上所述。

图5示意性地图示了系统500，该系统500包括示例装置502，在该示例装置502上可以执行上面参考图1描述的方法，或者在该示例装置502上可以实现上面参考图4描述的功能单元。装置502包括处理器504和存储器506。存储器506可以存储指令，所述指令在由处理器504执行时使得装置502执行根据上面参考图1描述的示例中的任何一个或组合的方法，和/或执行上面参考图4描述的功能单元的功能。例如，装置502可以被布置成实现上面参考图4描述的预处理单元404、自然语言处理单元406和/或深度学习网络408。系统500包括外部存储设备510，例如集中式数据库510，诸如医院或医疗保健数据库。装置502可以与外部存储设备/数据库510通信。在一些示例中，装置502可以被布置成从数据库510获取医学文本报告和/或将结构化报告数据存储到数据库510中。存储器506和/或数据库510可以是如上所述的结构化数据库的示例。系统500可以包括另外的一个计算机512或多个计算机（在图5中示出了一个计算机）。外部存储器510可以由另外的计算机512可访问。另外的计算机512可以例如从数据库510提取结构化报告数据，和/或对结构化报告数据执行进一步处理，例如如上所述。

上述示例方法和装置可以为放射学报告分析提供人工智能，其自动地将自由形式放射学报告的非结构化发现转换成结构化和定量报告。如上所述，在从医学文本报告生成结构化报告数据时，该方法和装置可以允许例如跨数据库和/或分析更高效更新、集成和/或共享信息，所述分析例如特定患者的组中的或单个患者的定量分析，或者针对人口健康分析，或者横断面分析，以识别高风险患者和/或提高人口健康洞察力。例如在与使用基于语法规则的自然语言处理技术相比时，基于词嵌入生成结构化报告数据使得能够以准确且高效的方式自动生成结构化报告数据。此外，使用词嵌入允许使用基于矢量（即，词嵌入将自然语言语句的词映射到其上的实数的矢量）的文本分类模型来确定标签。这可以允许文本分析过程特别适合于计算机实现，因为计算机可以比基于文本串更高效地基于实数的矢量执行计算。例如，基于神经网络架构的深度学习网络可以比文本的串更高效地处理矢量。

以上示例要被理解为说明性示例。要理解，关于任何一个示例描述的任何特征可以单独使用，或者与所描述的其他特征组合地使用，并且还可以与示例中的任何其他示例中的一个或多个特征或者示例中的任何其他示例的任何组合组合地使用。此外，在不脱离在所附权利要求中限定的本发明的范围的情况下，也可以采用上面未描述的等同物和修改。

Claims

1.一种从医学文本报告生成结构化报告数据的方法，所述方法包括：

获取医学文本报告，所述医学文本报告包括一个或多个自然语言语句，每个自然语言语句包括一个或多个词；

使用计算机实现的文本分析过程分析所述医学文本报告，以针对每个自然语言语句确定针对所述自然语言语句的一个或多个标签；以及

生成结构化报告数据，所述结构化报告数据包括确定的一个或多个标签，每个标签与自然语言数据相关联，所述自然语言数据包括所述自然语言语句或从所述标签所对应的所述自然语言语句导出的数据；

将生成的结构化报告数据存储在结构化数据库中，使得确定的一个或多个标签各自与所述标签所对应的所述自然语言数据相关联地存储；

其中，对于每个自然语言语句，所述计算机实现的文本分析过程包括：

针对自然语言语句的一个或多个词中的每个词，并且使用词嵌入，来确定表示所述词的矢量；

由文本分类模型将一个或多个矢量中的每一个编码成表示所述自然语言语句的矢量；以及

由所述文本分类模型将表示所述自然语言语句的矢量映射到一个或多个标签上，由此确定与所述自然语言语句相关联的所述一个或多个标签。

2.根据权利要求1所述的方法，其中，所述方法包括基于所述生成的结构化报告数据，输出结构化报告，所述结构化报告被结构化，使得确定的一个或多个标签各自与所述标签所对应的所述自然语言数据相关联地呈现。

3.根据权利要求1或权利要求2所述的方法，其中，所述结构化报告数据被结构化，使得所述一个或多个标签处于分层结构的第一级中，并且对应的自然语言数据处于所述分层结构的第二级中，在所述分层结构中，所述第二级低于所述第一级。

4.根据权利要求1或权利要求2所述的方法，其中，所述方法包括至少部分地基于存储在所述结构化数据库中的所述标签，针对存储在所述结构化数据库中的所述自然语言数据执行计算机实现的搜索过程。

5.根据权利要求1或权利要求2所述的方法，其中，针对每个自然语言语句，所述计算机实现的文本分析过程包括：

针对多个预定义标签中的每个预定义标签，确定指示所述自然语言语句与所述预定义标签相关联所到的程度的相关联参数；

其中，所述确定与所述自然语言语句相关联的所述一个或多个标签基于所确定的相关联参数。

6.根据权利要求1或权利要求2所述的方法，其中，所述方法包括：

使用所述文本分类模型，针对每个自然语言语句，确定关于医学发现的所述自然语言语句的一个或多个分类；

其中，对于每个自然语言语句，所述自然语言数据包括所述一个或多个分类。

7.根据权利要求1或权利要求2所述的方法，其中，获取所述医学文本报告包括当已经产生所述自然语言语句的第一个时并且在已经产生所述医学文本报告的所述自然语言语句的第二个之前，获取所述医学文本报告的所述自然语言语句的第一个。

8.根据权利要求1所述的方法，其中，所述方法包括训练所述文本分析过程。

9.根据权利要求8所述的方法，其中，所述训练包括基于多个另外的医学文本报告的自然语言语句的数据库来训练所述文本分类模型，每个语句用对应于所述标签的地面实情来注释。

10.根据权利要求9所述的方法，其中，所述多个另外的医学文本报告是结构化的医学文本报告，所述结构化的医学文本报告包括一个或多个所述标签，每个标签与所述标签所对应的自然语言语句相关联，并且其中，针对每个自然语言语句的地面实情包括所述标签。

11.根据权利要求8至权利要求10中的任一项所述的方法，其中，所述训练包括构建词汇表并从多个另外的医学文本报告或所述多个另外的医学文本报告生成词嵌入，并且其中，使用生成的词嵌入来确定所述确定的一个或多个矢量。

12.根据权利要求8至权利要求10中的任一项所述的方法，其中，使用神经网络架构来实现所述训练。

13.用于从医学文本报告生成结构化报告数据的装置，所述装置被配置成执行根据权利要求1至权利要求12中的任一项所述的方法。

14.一种计算机可读介质，其上存储有计算机程序，所述计算机程序包括指令，当在计算机上执行时，所述指令使得计算机执行根据权利要求1至权利要求12中的任一项所述的方法。