CN113903422A

CN113903422A - 医疗影像诊断报告实体提取方法、装置及设备

Info

Publication number: CN113903422A
Application number: CN202111058362.2A
Authority: CN
Inventors: 王红熳; 敖文喆; 杨放春
Original assignee: Beijing University of Posts and Telecommunications
Current assignee: Beijing University of Posts and Telecommunications
Priority date: 2021-09-09
Filing date: 2021-09-09
Publication date: 2022-01-07

Abstract

本说明书实施例公开了一种医疗影像诊断报告实体提取方法、装置及设备，所述方法将医疗影像诊断报告中的非结构化文本利用离线训练的命名实体识别模型，可以得到能够表征医疗影像诊断报告文本中各个实体的标签。命名实体识别模型使用了郑码编码作为汉字特征，提升了医疗影像诊断报告中文本的特征表示的准确性，进而提升了医疗影像诊断报告的实体提取结果的准确性。并且，通过对命名实体识别模型输出的带标签的文本进行影像诊断报告复杂实体后处理，获得医疗影像诊断报告的实体提取结果，使提升了医疗影像诊断报告实体提取结果的统一性和准确性。

Description

医疗影像诊断报告实体提取方法、装置及设备

技术领域

本说明书属于计算机技术领域，尤其涉及一种医疗影像诊断报告实体提取方法、装置及设备。

背景技术

在医疗领域中，近年来，随着科技的不断发展，医学影像学得到了快速发展，影像检查对于疾病的发现与定位有着越来越重要的价值，能为临床对疾病的诊断和治疗方案的选择提供准确的依据。医学影像作为辅助诊断疾病最有效的手段之一每年会产生大量的图像和诊断文本数据，应用人工智能和数据挖掘技术分析医学影像数据也是一大热点问题。以往医生对疾病的预防和诊断都来自经验，但以往的经验不一定完全正确，在某种程度上这也不利于医学的发展和研究，如果能从大量的诊断数据中得出一些规则，挖掘出一些隐含的信息，辅以医生的经验，一方面对于疾病的预防和诊断有很高的参考价值，另一方面也能充分地将医疗大数据技术应用到临床实际中，从一定程度上促进医学研究的发展。

目前，基本上所有的医疗影像诊断数据都是非结构化的，从大量非结构化数据中准确识别提取相关有用实体对后续的诊断数据挖掘分析工作十分重要。一般的，医疗影像诊断报告实体提取的关键步骤是进行文本识别，命名文本识别是自然语言处理中一个的基础且重要的问题，传统的基于规则的命名文本识别方法往往需要词表、词汇和领域知识，通过较为简单的匹配的方式进行。这种方法对于复杂文本和新词缺乏发现能力，并且往往需要领域专家帮忙维护知识库，准确性可能会比较低。

因此，如何提供一种方案能够准确提取医疗影像诊断报告是本领域亟需解决的技术问题。

发明内容

本说明书实施例的目的在于提供一种医疗影像诊断报告实体提取方法、装置及设备，提高了医疗影像诊断报告实体提取的准确性。

一方面，本说明书实施例提供了一种医疗影像诊断报告实体提取方法，所述方法包括：

获取待处理医疗影像诊断报告中的非结构化文本；

将所述非结构化文本输入到命名实体识别模型中，利用所述命名实体识别模型获得所述非结构化文本中各个字词对应的标签；其中，所述命名实体识别模型采用郑码编码技术提取文本特征进行模型训练获得；

根据所述非结构化文本中各个字词对应的标签，从带标签的非结构化文本中提取出实体文本，并基于所述实体文本获得所述待处理医疗影像诊断报告的实体提取结果。

进一步地，所述命名实体识别模型的训练方法包括：

使用郑码编码技术提取已标记的训练文本样本中的字特征和词特征，获得已标记的训练文本样本的郑码编码特征向量；

对未标记的训练文本样本使用双向编码语言预训练模型对未标记的训练文本样本进行训练，获得未标记的训练文本样本的增强特征向量；

将所述郑码编码特征向量和所述增强特征向量进行拼接，获得合并特征向量；

利用所述合并特征向量进行模型训练得到所述命名实体识别模型。

进一步地，所述使用郑码编码技术提取已标记的训练文本样本中的字特征和词特征，包括：

获取中文的郑码编码表，所述郑码编码表包括字的郑码编码和词的郑码编码；

根据所述郑码编码表和所述已标记的训练文本样本构建医疗影像诊断的频繁字词典，所述频繁字词典包括出现频率大于预设阈值的频繁字词、所述频繁字词的词根以及所述频繁字词对应的标注位置；

根据所述频繁字词典和预先配置的不同标注位置对应的权重，将所述已标记的训练文本样本中的各个字、词的郑码编码转换为对应的特征向量，获得所述已标记的训练文本样本的郑码编码特征向量。

进一步地，所述频繁字词包括与疾病或部位相关联的字或词语。

进一步地，所述根据所述非结构化文本中各个字词对应的标签，从带标签的非结构化文本中提取出实体文本，并基于所述实体文本获得所述待处理医疗影像诊断报告的实体提取结果，包括：

根据所述带标签的非结构化文本中各个字词对应的标注标签，将所述非结构化文本中的无用字词删除，获得剩余文本；其中，所述标注标签用于表征字词在实体中的位置和作用；

根据所述剩余文本中各个字词对应的属性标签，提取出所述非结构化文本中的疾病实体和所述部位实体；

将所述疾病实体和所述部位实体进行组合，获得所述待处理医疗影像诊断报告的实体提取结果。

进一步地，所述将所述疾病实体和所述部位实体进行组合，获得所述待处理医疗影像诊断报告的实体提取结果，包括：

若提取出的部位实体为一个，则将所述部位实体和所述疾病实体直接组合，获得所述待处理医疗影像诊断报告的实体提取结果。

若提取出的部位实体为多个，则将各个所述部位实体分别与所述疾病实体进行组合，获得所述待处理医疗影像诊断报告的实体提取结果。

进一步地，所述获取待处理医疗影像诊断报告中的非结构化文本，包括：

将所述待处理医疗影像诊断报告转换为指定格式，获得所述待处理医疗影像诊断报告的指定格式文本；

提取所述指定格式文本中的影像所见和影像诊断，获得所述待处理医疗影像诊断报告中的非结构化文本。

另一方面，本说明书提供了一种医疗影像诊断报告实体提取装置，所述装置包括：

所述装置包括：

文本获取模块，用于获取待处理医疗影像诊断报告中的非结构化文本；

标签生成模块，用于将所述非结构化文本输入到命名实体识别模型中，利用所述命名实体识别模型获得所述非结构化文本中各个字词对应的标签；其中，所述命名实体识别模型采用郑码编码技术提取文本特征进行模型训练获得；

识别处理模块，用于根据所述非结构化文本中各个字词对应的标签，从带标签的非结构化文本中提取出实体文本，并基于所述实体文本获得所述待处理医疗影像诊断报告的实体提取结果。

再一方面，本说明书实施例提供了一种医疗影像诊断报告实体提取设备，应用于服务器，设备包括至少一个处理器及用于存储处理器可执行指令的存储器，指令被处理器执行时实现包括上述医疗影像诊断报告实体提取方法。

本说明书提供的医疗影像诊断报告实体提取方法、装置及设备，将医疗影像诊断报告中的非结构化文本利用离线训练的命名实体识别模型，可以得到能够表征医疗影像诊断报告文本中各个实体的标签。命名实体识别模型使用了郑码编码作为汉字特征，提升了医疗影像诊断报告中文本的特征表示的准确性，进而提升了医疗影像诊断报告的实体提取结果的准确性。并且，通过对命名实体识别模型输出的带标签的文本进行影像诊断报告复杂实体后处理，获得医疗影像诊断报告的实体提取结果，使提升了医疗影像诊断报告实体提取结果的统一性和准确性。本说明书实施例提供的医疗影像诊断报告的实体提取结果可以辅助医生快速进行疾病的诊断和治疗，同时，可以帮助患者直观、明了的看到自己的医疗影像的诊断结果。

附图说明

为了更清楚地说明本说明书实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本说明书中记载的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1是本说明书实施例提供的医疗影像诊断报告实体提取方法实施例的流程示意图；

图2是本说明书一个场景示例中利用命名实体识别模型输出的带标签的非结构化文本的示意图；

图3是本说明书一个实施例中命名实体识别模型的训练原理示意图；

图4是本说明书又一个实施例中医疗影像诊断报告实体提取方法的流程示意图；

图5是本说明书一个实施例中医疗影像诊断报告实体提取装置的结构示意图；

图6是本说明书又一个实施例提供的医疗影像诊断报告实体提取装置的框架示意图；

图7是本说明书一个实施例中影像诊断报告实体识别模型离线训练模块的结构示意图；

图8是本说明书一个实施例中像诊断报告实体在线提取模块的结构示意图；

图9是本说明书一个实施例中医疗影像诊断报告实体提取服务器的硬件结构框图。

具体实施方式

为了使本技术领域的人员更好地理解本说明书中的技术方案，下面将结合本说明书实施例中的附图，对本说明书实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本说明书一部分实施例，而不是全部的实施例。基于本说明书中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都应当属于本说明书保护的范围。

医疗影像诊断报告一般可以理解为第三方医疗影像诊断云平台产生的影像诊断报告，医院会预先制定影像诊断报告的模板，诊断医生按照模板填入内容。不同医院产生的报告格式不同、报告模板不同报告。其中格式包括doc、pdf或docx，报告中的内容包括结构化内容和非结构化内容，结构化内容包括姓名、性别、年龄、身高、体重等，非结构化内容包括简要病史、影像所见和影像诊断等。一般的医疗影像诊断报告中的影像诊断是医生基于影像所见给出的医学诊断，文本内容可能会比较多，并且专业性比较强，病患可能无法理解。本说明书实施例主要提取非结构化内容中的实体，以方便快速的辅助医生进行疾病的诊断以及帮助病患了解自己的病情。其中，医疗影像诊断报告中的实体可以包括检查部位、影像描述、疾病和程度等。

本说明书实施例主要针对中文医疗影像诊断报告，采用离线模型训练和线上实体提取协同，提出了有效的方案解决其疾病相关实体提取困难的问题，提高了医疗影像诊断文本实体提取的准确性，能够简便快速地从影像诊断报告文件中提取各种相关实体，为更准确和充分地分析医疗影像诊断报告中蕴含的知识提供了便利。

本说明书实施例提供的一个场景示例中，医疗影像诊断报告实体提取方法可以应用于执行医疗影像诊断报告实体提取的设备，设备可以包括一个服务器，也可以包括多个服务器组成的服务器集群。

图1是本说明书实施例提供的医疗影像诊断报告实体提取方法实施例的流程示意图。虽然本说明书提供了如下述实施例或附图所示的方法操作步骤或装置结构，但基于常规或者无需创造性的劳动在方法或装置中可以包括更多或者部分合并后更少的操作步骤或模块单元。在逻辑性上不存在必要因果关系的步骤或结构中，这些步骤的执行顺序或装置的模块结构不限于本说明书实施例或附图所示的执行顺序或模块结构。的方法或模块结构的在实际中的装置、服务器或终端产品应用时，可以按照实施例或者附图所示的方法或模块结构进行顺序执行或者并行执行(例如并行处理器或者多线程处理的环境、甚至包括分布式处理、服务器集群的实施环境)。

具体的一个实施例如图1所示，本说明书提供的医疗影像诊断报告实体提取方法的一个实施例中，方法可以应用于服务器、计算机、智能手机、平板电脑等设备中，所述方法可以包括如下步骤：

步骤102、获取待处理医疗影像诊断报告中的非结构化文本。

在具体的实施过程中，参见上述实施例的记载，可以知道待处理医疗影像诊断报告包括结构化内容和非结构化内容，结构化内容包括姓名、性别、年龄、身高、体重等，非结构化内容包括简要病史、影像所见和影像诊断等，本说明书实施例中，可以提取待处理医疗影像诊断报告中的非结构化文本部分，进而对非结构文本部分提取出对应的实体提取结果，辅助医生进行疾病的诊断和治疗。

本说明书一些实施例中，所述获取待处理医疗影像诊断报告中的非结构化文本，包括：

在具体的实施过程中，一般的医疗影像诊断报告文件一共包含三种格式：pdf、docx、doc，其中pdf可能占大多数。可以先将影像诊断报告文件格式统一化，即将待处理医疗影像诊断报告转换为指定格式获得指定格式文本，如：可以将pdf和doc文件转换为docx格式文件。若医疗影像诊断报告是图片格式，可以先将图片转换为pdf格式，再转换为所需要的指定格式。再将医疗影像诊断报告文件中的简要病史、影像所见和影像诊断三部分内容分别提取出来，获得待处理医疗影像诊断报告中的非结构化文本。如：可以根据模版标题名和段落格式将影像所见和影像诊断提取出来，其中模板标题即为“影像所见”、“影像诊断”，还可以包括“简要病史”，段落格式为“Body Text”“Heading 1”或“List Paragragh”。

通过对医疗影像诊断报告进行文本格式的处理，提出了模版化诊断报告文件处理方法，使得能够直接对原始文件进行实体提取，更加方便非本领域专业人员按需要提取影像诊断报告。

步骤104、将所述非结构化文本输入到命名实体识别模型中，利用所述命名实体识别模型获得所述非结构化文本中各个字词对应的标签；其中，所述命名实体识别模型采用郑码编码技术提取文本特征进行模型训练获得。

在具体的实施过程中，可以预先训练构建命名实体识别模型，该命名实体识别模型可以对医疗影像诊断报告的非结构化文本进行标注，得到非结构化文本中各个字词对应的标签，该标签可以表征非结构化文本中各个字词的标注位置(实体中间、实体结尾等)以及属性(如：是否是部位、是否是疾病等)。本说明书实施例采用命名实体识别技术对中文的医疗影像诊断文本进行信息提取，命名实体识别是信息提取、问答系统、句法分析、机器翻译、面向Semantic Web的元数据标注等应用领域的重要基础工具，在自然语言处理技术走向实用化的过程中占有重要地位。图2是本说明书一个场景示例中利用命名实体识别模型输出的带标签的非结构化文本的示意图，如图2所示，本说明书实施例中，利用命名实体识别模型可以对医疗影像诊断报告的非结构化文本中的各个字词进行标注，输出一个带标签的非结构化文本。如图2所示，各个字词对应的标签可以包括两个部分，一个是字词对应的实体位置和作用，一个是字词对应的属性如：部位或疾病等。其中，关于位置和作用的标注采用BIOE标注法，如图2所示，B表示实体开始，I表示实体中间，E表示实体结尾，O表示无用字，有实际意义的字词还会对应有属性标签如：部位、疾病等。

此外，一个医疗影像诊断报告可以对应有多个标签，如：一个医疗影像中拍摄了多个部位，那么多个部位可能有不同的疾病，利用命名实体识别模型即获得该医疗影像诊断报告的不同部位对应的标签。还可以根据非结构化文本中各个字词对应的标注位置即B、I、E、O，将文本以及对应的标签进行分类，如：一个完整的B、I、E、O可以作为一个文本标签，将一个完整的BIEO以及对应的文本划分在一起，或者按照其他方式进行分类，如：按照部位对文本以及对应的标签进行分类，按照不同类别的标签进行医疗诊断报告的实体提取。

本说明书实施例中的命名实体识别模型可以采用郑码编码技术提取文本特征进行模型训练获得，其中，郑码又称字根通用码，按照汉字字根和笔画进行编码，以单字为基础，词语为主导，用2-4个英文字母便能编码2字词、多字词和30个字以内的短语。

本说明书一些实施例中，所述命名实体识别模型的训练方法包括：

在具体的实施过程中，命名实体识别模型可以通过离线预先训练构建获得，以同时能够提高影像诊断报告实体提取交互的实时性，图3是本说明书一个实施例中命名实体识别模型的训练原理示意图，如图3所示，命名实体识别模型的训练方法可以包括：

针对已标记标签的训练文本样本使用郑码编码表达医疗影像诊断报告文本的字特征及词特征，获得已标记的训练文本样本的郑码编码特征向量。中文由象形文字发展而来，同种类型的汉字在字形上可能具有相同的字根，同种类型的词语可能具有一样的开头或结尾，观察医疗影像诊断文本，发现可以通过中文的以上特征提取医疗影像诊断文本的字特征及词特征。例如，肺(QALI)、肝(QAED)、脾(QNED)、肠(QYOD)都用相同的部首“月”，它们的郑码编码也很相似；疾病词语大多以相同的字结尾，如“癌”“炎”等，因此肺癌(QATJ)、肝癌(QATJ)、肠癌(QYTJ)、肺炎(QAUU)、肠炎(QYUU)、肝炎(QAUU)等这些疾病的词尾都一样，郑码编码的后两位也一致。影像特征类的词也是类似，如糖代谢异常(UNHSNYEKW)、异常密度影(YEKWWWTVKSKP)、透亮影(WMSJKSKP)等具有几位一致的郑码编码。采用郑码编码表达中文汉字特征，既可以表示字的字根特征、笔画特征，也可以表示词的组词特征以及在词中字的频率特征，相比以往的采用五笔或其他中文汉字编码能够融入更丰富的信息，更好地表达中文汉字的字词特征。

再针对未标记标签的训练文本样本采用双向编码语言预训练模型BERT(Bidirectional Encoder Representations from Transformer)对进行语言预训练，增强词向量的语义表示，得到增强特征向量。本说明书实施例中BERT使用层Transformer结构，抛弃了传统的RNN和CNN，通过Attention机制将任意位置的两个单词的距离转换成1，有效的解决了长期依赖的问题。本发明引入了BERT语言预训练模型对未标签数据进行训练，生成语义增强的特征向量，可以弥补标签不准确的问题，进而提高命名实体识别模型的准确率，保证医疗影像诊断实体提取的准确率。其中，增强特征向量的获得步骤可以参考如下：

步骤1：加载BERT-base-Chinese模型。BERT-base-Chinese，其结构为L＝12，H＝768，A＝12，其中L表示的是transformer的层数，H表示输出的维度，A表示多头注意力机制的个数。

步骤2：对BERT-base-Chinese模型参数进行微调，设定batch size为16，epochs为4，learning rate为2e-5。将标记文本根据BERT-base-Chinese模型进行调整，根据“；”和“。”断句，在每句话前增加“[CLS]”标签。将处理好的医疗影像诊断文本送入微调的BERT-base-Chinese模型进行训练，得到词向量，即获得增强特征向量。

将上述郑码编码特征向量和增强特征向量进行合并，得到合并特征向量，设定上述得到郑码特征向量为v₁，增强特征向量为v₂，对两个特征向量进行拼接合并，得到合并特征向量v＝[v₁，v₂]。

再使用合并特征向量进行模型训练获得命名实体识别模型，其中，在使用合并特征向量进行模型训练时，可以选择双向长短期记忆网络—条件随机场模型(Bi-directional Long Short-term Memory and Conditional Random Field，BiLSTM-CRF)，该模型用于获取上下文语义依赖，学习状态序列的特点，得到影像诊断报告生成标签。BiLSTM-CRF模型由三层组成。第一层是字符表示层，它负责将中文句子中的字符和单词映射到低维向量中，作为BiLSTM层的输入。第二层是BiLSTM层，它是一个双向的长短期记忆网络。它可以根据单词或字符的上下文模拟单词之间的依赖性，并获得每个单词的隐藏表示。最后一层是CRF输出层，它以隐藏层的表示顺序为输入，输出每个字符的预测标签，并学习相应的约束规则。将合并特征向量输入BiLSTM-CRF模型，对模型进行训练、评估并进行参数调整，得到效果最优的BiLSTM-CRF模型，即获得上述实施例中记载的命名实体识别模型。

本说明书实施例可以通过预先离线训练获得命名实体识别模型，以提升医疗影像诊断报告的处理速度，并引入中文郑码编码作为汉字特征，既可以表示字的字根特征、笔画特征，也可以表示词的词根特征以及在词中字的频率特征。相比以往的采用五笔或其他中文汉字编码能够融入更丰富的汉字字形、组词信息，能在更短的编码内更好地表达中文汉字的字词特征。

此外，本说明书一些实施例中，所述使用郑码编码技术提取已标记的训练文本样本中的字特征和词特征，包括：

在具体的实施过程中，可以针对医疗影像诊断文本做一些特定处理，将和部位、疾病相关的编码的权重增加，比如以“QA”或“Q”开头，以“TJ”“UU”或“KSKP”结尾的编码的权重相对增大。具体实施过程可以参考如下：

步骤1：从网络中获取中文汉字的郑码编码表，包括每个字的郑码编码和组词的郑码编码；

步骤2：通过标记好的训练文本样本建立医疗影像诊断文本的频繁字词典，频繁字词典中可以包括出现频率大于预设阈值的频繁字词和所述频繁字词在郑码编码中对应的位置。

其中，标记好的训练文本样本可以从第三方影像诊断中心的医疗影像诊断报告中获得，并预先经过处理、标注，其中标注采用BIOE标注法，B表示实体开始，I表示实体中间，E表示实体结尾，O表示无用字。影像诊断文本一共设定3个实体：部位(body)、疾病(disease)、影像特征(image feature)。出现频率大于预设阈值可以理解为出现比较频繁的字或词语，预设阈值的取值可以基于实际需要进行设置，本说明书实施例不做具体限定。本说明书一个场景示例中，医疗影像诊断文本的频繁字词典如下表所示：

频繁字词	郑码编码	常出现位置	词根
				肺	QALI	B	QA
癌	TJJL	E	TJ
				炎	UOUO	E	UU

如上述表格所示，本说明书一个实施例中，所述频繁字词可以包括与疾病或部位相关联的字或词语，如表格中的肺、癌、炎等，或其他的如：结石、肝、心脏等。此外，可以根据样本数据，获取各个频繁字词常常出现的标注位置，如上述表格所示，标注位置主要可以理解为上述实施例中BIEO标注时字词对应于B、I、E、O中的哪一个位置，标注位置可以表征文本中字词在实体中的位置以及作用。

步骤3：根据频繁字词典中频繁字词的郑码编码以及对应的位置，将词根和位置加入权重计算，将字以及词语的郑码编码特征转换为郑码编码特征向量。

可以预先设置不同词根对应的权重，将与部位、疾病相关的频繁字词的编码的权重增加，并设置郑码编码不同位置对应的权重，如：B、E位置处的权重增加，再基于已标记的训练文本样本各个字或词语对应的郑码编码以及词根或位置，将已标记的训练文本样本的郑码编码特征转换为郑码编码特征向量。其中，权重的设置可以根据实际需要进行配置，本说明书实施例不做具体限定。

本说明书实施例中，在特征中融入郑码编码作为文本的字特征和词特征，并增加影像诊断报告特有的字词的特征权重，相比以往的采用五笔或其他中文汉字编码能够融入更丰富的汉字字形、组词信息，能在更短的编码内更好地表达中文汉字的字词特征，同时增大医疗影像诊断文本中频繁出现的字及词缀的对应编码的权重，能够更准确地识别医疗影像诊断相关实体。

步骤106、根据所述非结构化文本中各个字词对应的标签，从带标签的非结构化文本中提取出实体文本，并基于所述实体文本获得所述待处理医疗影像诊断报告的实体提取结果。

在具体的实施过程中，利用命名实体识别模型得到的非结构化文本中各个字词的标签后，可以基于各个字词对应的标签，获取非结构化文本中与实体相关的实体文本，如：疾病实体和部位实体，当然，根据实际需要提取出的实体还可以包括影像特征和程度等对应的实体文本。本说明书一个实施例中，可以针对疾病复杂实体可以基于非结构化文本中各个字词对应的标签，提取出其中的疾病实体或部位实体，并进行影像诊断报告复杂实体后处理。其中，疾病实体可以理解为疾病的名称，部位实体可以理解为身体部位或身体器官等，基于提取出的疾病实体和部位实体获得待处理医疗影像诊断报告的实体提取结果，该实体提取结果可以包括检查部位、影像描述、疾病和程度等，如：肺囊肿。该实体提取结果可以辅助医生快速诊断病人的病情，也可以辅助病患快速、直观的了解自己的病情。

需要说明的是，若待处理医疗影像诊断报告的非结构化文本对应有多个类别的标签，则分别对各个标签对应的文本进行实体提取，如若待处理医疗影像诊断报告有多个部位的影像，那么待处理医疗影像诊断报告的实体提取结果可能也对应有多个。

本说明书一些实施例中，所述从带标签的非结构化文本中提取疾病实体和部位实体，并基于所述疾病实体和所述部位实体获得所述待处理医疗影像诊断报告的实体提取结果，包括：

根据所述剩余文本中各个字词对应的属性标签，提取出所述疾病实体和所述部位实体；将所述疾病实体和所述部位实体进行组合，获得所述待处理医疗影像诊断报告的实体提取结果。

在具体的实施过程中，一般的利用命名实体识别模型得到的医疗影像诊断报告的文本标签只能表征文本中各个字词的含义，本说明书实施例中可以根据嵌套实体处理规则，对影像诊断报告实体中的疾病实体进行实体二次提取，通过将带标签的非结构化文本与部位疾病词典匹配，提取出部位实体和疾病实体。其中嵌套实体处理规则负责将相互嵌套的两个不同实体分别抽取出来。例如“肝脏多发囊肿”提取出“肝脏(部位)”和“囊肿(疾病)”。部位疾病词典可以根据医学知识进行构建，其中可以包括身体部位以及常见的疾病。其中，在对带标签的非结构化文本进行实体提取时，可以基于非结构化文本中各个字词对应的标注标签即BIEO标签将非结构化文本中的无用字词删除，获得剩余文本，如图2所示，可以将O对应的字词删除，获得非结构化文本的剩余文本。再将剩余文本与部位疾病词典匹配，提取出部位实体和疾病实体。

本说明书实施例在命名实体识别模型之后加入后处理规则，对模型输出的带标签的非结构化文本进行处理，用以处理影像诊断报告中表述复杂的实体嵌套、表述不一、多部位合并问题，有效提高了医疗影像诊断相关实体提取准确性，有利于后续对实体进行数据分析等工作。

本说明书一些实施例中，在提取出疾病实体和部位实体后，可以基于一些数据处理规则对疾病实体和部位实体进行组合获得待处理医疗影像诊断报告的实体提取结果，如上述示例中的：“肝脏(部位)”和“囊肿(疾病)”，组合后可以获得肝囊肿，即为实体提取结果。

本说明书一些实施例中，所述将所述疾病实体和所述部位实体进行组合，获得所述待处理医疗影像诊断报告的实体提取结果，包括：

在具体的实施过程中，若提取出的部位实体唯一时，则可以将部位实体和疾病实体直接组合，获得实体提取结果。此外，还可以根据预先指定的规则对部位实体唯一时，实体组合进行表述的调整，使得同一疾病的实体提取结果能够统一。如：可以根据多表述实体统一化规则，将对应的疾病实体保存为统一部位加疾病表示的疾病实体，得到多表述统一实体；其中多表述实体统一化规则负责将同一含义不同表述的实体处理为同样表述的实体，例如“肝脏多发囊肿”和“肝内多发囊肿”，提取出的实体均为：“肝脏(部位)”和“囊肿(疾病)”，将部位实体和疾病实体直接组合后获得的是“肝脏囊肿”，可以使用多表述实体统一化规则统一为“肝囊肿”。

在具体的实施过程中，若提取出的部位不唯一时，将各个部位实体分别与疾病实体进行组合，得到待处理医疗影像诊断报告的多个实体提取结果。如：可以根据复合实体处理规则将部位加疾病得到的实体分别进行保存，得到复合实体，其中复合实体处理规则负责将揉杂在一起的同种实体分别抽取出来。例如“肝肾多发囊肿”先提取出“肝脏(部位)”、“肾脏(部位)”、“囊肿(疾病)”，使用复合实体处理规则进行组合后获得实体提取结果为：“肝囊肿(疾病)”和“肾囊肿(疾病)”。

此外，需要说明的是，本说明书实施例中主要记载了针对疾病复杂实体是提取部位和疾病的方法，在实际应用中在基于命名实体识别模型输出的带标签的非结构化文本进行实体提取时，还可以提取到其他实体对应的实体文本如：影像特征和程度等，具体可以根据非结构化文本中各个字词对应的标签来进行提取，本说明书实施例不作具体限定。

本说明书实施例中，针对医疗影像诊断实体的复杂性设计后处理规则加在命名实体识别模型之后，将复合在一起的实体词拆分出来，将表述不一的实体统一起来，能够更准确地提取医疗影像诊断相关实体，有利于后续对实体进行数据分析等工作。

本说明书实施例提供的医疗影像诊断报告实体提取方法，将医疗影像诊断报告中的非结构化文本利用离线训练的命名实体识别模型，可以得到能够表征医疗影像诊断报告文本中各个实体的标签。命名实体识别模型使用了郑码编码作为汉字特征，提升了医疗影像诊断报告中文本的特征表示的准确性，进而提升了医疗影像诊断报告的实体提取结果的准确性。并且，通过对命名实体识别模型输出的带标签的文本进行影像诊断报告复杂实体后处理，获得医疗影像诊断报告的实体提取结果，使提升了医疗影像诊断报告实体提取结果的统一性和准确性。本说明书实施例提供的医疗影像诊断报告的实体提取结果可以辅助医生快速进行疾病的诊断和治疗，同时，可以帮助患者直观、明了的看到自己的医疗影像的诊断结果。

图4是本说明书又一个实施例中医疗影像诊断报告实体提取方法的流程示意图，如图4所示，本说明书实施例提供的医疗影像诊断报告实体提取方法主要是基于字词特征的医疗影像诊断报告实体提取，其目的是提取影像报告中影像所见和影像诊断相关实体，包括检查部位、影像描述、疾病和程度。如图4所示，本说明书实施例中的医疗影像诊断报告实体提取过程可以包括：

针对医疗影像诊断文本领域性强、专业术语描述复杂等问题，本说明书实施例提供了一种影像诊断报告实体识别模型离线训练方法和影像诊断报告实体在线提取方法两部分协同工作的医疗影像诊断报告实体提取方法，影像诊断报告实体识别模型离线训练方法使用从影像诊断报告文件中处理标记好的数据对命名实体识别模型进行离线训练，得到命名实体识别模型用于影像诊断报告实体在线提取方法；影像诊断报告实体在线提取方法对影像诊断报告进行处理，使用离线训练模块训练好的模型得到实体实体提取结果。

其中，影像诊断报告实体识别模型离线训练方法具体包括：针对已标记标签的训练文本使用郑码编码表达医疗影像诊断的字特征及词特征，根据医疗影像诊断频繁字词典的常见字词权重将字词特征转换为郑码特征向量；针对未标记标签的训练文本采用BERT模型对文本进行语言预训练，增强词向量的语义表示，得到增强特征向量；将上述郑码特征向量和增强特征向量进行合并，得到合并特征向量，输入BiLSTM-CRF模型对模型进行训练，该模型可以获取上下文语义依赖，学习状态序列的特点，得到生成标签。影像诊断报告实体在线提取方法包括：通过文本及文本格式规则处理，提取单份影像诊断报告文件中的影像所见和影像诊断内容；加载影像诊断报告实体识别模型离线训练方法训练好的命名实体识别模型，输入提取的影像所见和影像诊断，得到影像诊断报告实体生成标签；最后根据生成标签提取影像诊断报告实体，并且采用针对医学影像诊断报告文本的复杂性提出的影像诊断报告复杂实体后处理规则，处理嵌套实体、复合实体等，最终得到提取出的影像诊断报告实体结果即上述实施例中的实体提取结果。如图4所示，模型文件即为离线训练的命名实体识别模型，影像诊断复杂实体处理规则可以为上述记载的多表述实体统一化规则、嵌套实体处理规则和复合实体处理规则，最后获得的影像诊断报告实体即为上述实施例中的实体提取结果，可以包括：检查部位、影像描述、疾病和程度等。

本说明书实施例引入中文郑码编码作为汉字特征，既可以表示字的字根特征、笔画特征，也可以表示词的词根特征以及在词中字的频率特征。相比以往的采用五笔或其他中文汉字编码能够融入更丰富的汉字字形、组词信息，能在更短的编码内更好地表达中文汉字的字词特征。并且在使用郑码编码作为汉字特征时，为了能够体现医疗影像诊断实体特征，在计算特征向量时加入编码权重，增大医疗影像诊断文本中频繁出现的字及词缀的对应编码的权重，能够更准确地识别医疗影像诊断相关实体。此外，本说明书实施例使用微调的BERT模型生成词向量，相比与传统的word2vec具有更有意义的语义表达。本说明书实施例还针对医疗影像诊断实体的复杂性设计后处理规则加在命名实体识别模型之后，将复合在一起的实体词拆分出来，将表述不一的实体统一起来，能够更准确地提取医疗影像诊断相关实体，有利于后续对实体进行数据分析等工作。

本说明书中上述方法的各个实施例均采用递进的方式描述，各个实施例之间相同相似的部分互相参考即可，每个实施例重点说明的都是与其他实施例的不同之处。相关之处参考方法实施例的部分说明即可。

基于上述的医疗影像诊断报告实体提取方法，本说明书一个或多个实施例还提供一种用于医疗影像诊断报告实体提取的装置。装置可以包括使用了本说明书实施例方法的系统(包括分布式系统)、软件(应用)、模块、组件、服务器、客户端等并结合必要的实施硬件的装置。基于同一创新构思，本说明书实施例提供的一个或多个实施例中的装置如下面的实施例。由于装置解决问题的实现方案与方法相似，因此本说明书实施例具体的装置的实施可以参考前述方法的实施，重复之处不再赘述。以下所使用的，术语“单元”或者“模块”可以实现预定功能的软件和/或硬件的组合。尽管以下实施例所描述的系统、装置较佳地以软件来实现，但是硬件，或者软件和硬件的组合的实现也是可能并被构想的。

图5是本说明书一个实施例中医疗影像诊断报告实体提取装置的结构示意图，如图5所示，本说明书一些实施例中提供的医疗影像诊断报告实体提取装置具体可以包括：

文本获取模块51，用于获取待处理医疗影像诊断报告中的非结构化文本；

标签生成模块52，用于将所述非结构化文本输入到命名实体识别模型中，利用所述命名实体识别模型获得所述非结构化文本中各个字词对应的标签；其中，所述命名实体识别模型采用郑码编码技术提取文本特征进行模型训练获得；

识别处理模块53，用于根据所述非结构化文本中各个字词对应的标签，从带标签的非结构化文本中提取出实体文本，并基于所述实体文本获得所述待处理医疗影像诊断报告的实体提取结果。

图6是本说明书又一个实施例提供的医疗影像诊断报告实体提取装置的框架示意图，如图6所示，本说明书实施例提供的医疗影像诊断报告实体提取装置主要包括：影像诊断报告实体识别模型离线训练模块和影像诊断报告实体在线提取模块。其中影像诊断报告实体识别模型离线训练模块采用上述模型离线训练方法训练命名实体识别模型，得到模型文件，影像诊断报告实体在线提取模块采用上述影像诊断报告实体在线提取方法，加载影像诊断报告实体识别模型离线训练模块训练的模型文件，进行实体提取。

图7是本说明书一个实施例中影像诊断报告实体识别模型离线训练模块的结构示意图，如图7所示，其中，影像诊断报告实体识别模型离线训练模块对标记好的影像诊断报告数据进行特征提取，使用处理好的特征数据进行命名实体识别模型训练，得到效果最好的影像诊断报告实体识别模型，将训练好的影像诊断报告实体识别模型以文件的形式存储下来。影像诊断报告实体识别模型主要由5个子模块组成：影像诊断报告郑码特征向量处理模块、影像诊断报告BERT增强特征向量处理模块、影像诊断报告合并特征向量处理模块、命名实体识别模型训练模块和命名实体识别模型保存模块。其中：

子模块1、影像诊断报告郑码特征向量处理模块：负责提取已标记训练数据源的郑码字特征和词特征，并生成郑码特征向量送入影像诊断报告合并特征向量处理模块。

子模块2、影像诊断报告BERT增强特征向量处理模块：负责将未标记训练数据源输入BERT模型得到增强特征向量，并将增强特征向量送入影像诊断报告合并特征向量处理模块。

子模块3、影像诊断报告合并特征向量处理模块：负责将郑码特征向量和增强特征向量合并生成合并特征向量，并输送到命名实体识别模型训练模块。

子模块4、命名实体识别模型训练模块：负责语言预训练模型BERT和命名实体模型BiLSTM-CRF的训练和评估。

子模块4、命名实体识别模型保存模块；负责存储训练好的模型。

上述各个子模块的具体实现过程可以参见上述实施例的记载，此处不再赘述。

图8是本说明书一个实施例中像诊断报告实体在线提取模块的结构示意图，如图8所示，其中，影像诊断报告实体在线提取模块负责处理输入的影像诊断报告文件，将需要实体提取的内容输入命名实体识别模型，得到命名实体实体提取结果，通过后处理规则处理处理所述结果，得到最终提取结果并输出。如图8所示，像诊断报告实体在线提取模块主要由3个子模块组成：影像诊断报告文件处理模块、命名实体识别模型调用模块、影像诊断报告复杂实体后处理模块。

子模块1、影像诊断报告文件处理模块：负责处理输入的影像诊断文件，初步将文件中的非格式化文本内容提取出来。

子模块2、命名实体识别模型调用模块：负责调用上述训练好的命名实体识别模型并将提取出的影像所见和影像诊断输入模型，得到标注文本。

子模块3、影像诊断报告复杂实体后处理模块：负责处理标注文本，提取出影像诊断报告实体，并通过影像诊断报告复杂实体后处理规则对复杂实体进行处理。

本说明书实施例提供的医疗影像诊断报告实体提取装置，将医疗影像诊断报告中的非结构化文本利用离线训练的命名实体识别模型，可以得到能够表征医疗影像诊断报告的疾病诊断报告文本中各个实体的标签。命名实体识别模型使用了郑码编码作为汉字特征，提升了医疗影像诊断报告中文本的特征表示的准确性，进而提升了医疗影像诊断报告的命名结果的准确性，为以后续确定医疗诊断报告的实体提取结果奠定了基础。并且，通过对命名实体识别模型输出的带标签的文本进行影像诊断报告复杂实体后处理，获得医疗影像诊断报告的实体提取结果，使提升了医疗影像诊断报告实体提取结果的统一性和准确性。本说明书实施例提供的医疗影像诊断报告的实体提取结果可以辅助医生快速进行疾病的诊断和治疗，同时，可以帮助患者直观、明了的看到自己的医疗影像的诊断结果。

需要说明的，上述的装置根据对应方法实施例的描述还可以包括其他的实施方式。具体的实现方式可以参照上述对应的方法实施例的描述，在此不作一一赘述。

本说明书实施例还提供一种医疗影像诊断报告实体提取设备，设备包括至少一个处理器及用于存储处理器可执行指令的存储器，指令被处理器执行时实现包括上述实施例中的医疗影像诊断报告实体提取方法，如：

获取待处理医疗影像诊断报告中的非结构化文本；

需要说明的，上述的设备根据方法实施例的描述还可以包括其他的实施方式。具体的实现方式可以参照相关方法实施例的描述，在此不作一一赘述。

本说明书提供的上述实施例的方法或装置可以通过计算机程序实现业务逻辑并记录在存储介质上，的存储介质可以计算机读取并执行，实现本说明书实施例所描述方案的效果。

本说明书实施例所提供的方法实施例可以在移动终端、计算机终端、服务器或者类似的运算装置中执行。以运行在服务器上为例，图9是本说明书一个实施例中医疗影像诊断报告实体提取服务器的硬件结构框图，该计算机终端可以是上述实施例中的医疗影像诊断报告实体提取服务器或医疗影像诊断报告实体提取处理装置。如图9所示服务器10可以包括一个或多个(图中仅示出一个)处理器100(处理器100可以包括但不限于微处理器MCU或可编程逻辑器件FPGA等的处理装置)、用于存储数据的非易失性存储器200、以及用于通信功能的传输模块300。本领域普通技术人员可以理解，图9所示的结构仅为示意，其并不对上述电子装置的结构造成限定。例如，服务器10还可包括比图9中所示更多或者更少的组件，例如还可以包括其他的处理硬件，如数据库或多级缓存、GPU，或者具有与图9所示不同的配置。

非易失性存储器200可用于存储应用软件的软件程序以及模块，如本说明书实施例中的打车数据处理方法对应的程序指令/模块，处理器100通过运行存储在非易失性存储器200内的软件程序以及模块，从而执行各种功能应用以及资源数据更新。非易失性存储器200可包括高速随机存储器，还可包括非易失性存储器，如一个或者多个磁性存储装置、闪存、或者其他非易失性固态存储器。在一些实例中，非易失性存储器200可进一步包括相对于处理器100远程设置的存储器，这些远程存储器可以通过网络连接至计算机终端。上述网络的实例包括但不限于互联网、企业内部网、局与网、移动通信网及其组合。

传输模块300用于经由一个网络接收或者发送数据。上述的网络具体实例可包括计算机终端的通信供应商提供的无线网络。在一个实例中，传输模块300包括一个网络适配器(Network Interface Controller，NIC)，其可通过基站与其他网络设备相连从而可与互联网进行通讯。在一个实例中，传输模块300可以为射频(Radio Frequency，RF)模块，其用于通过无线方式与互联网进行通讯。

上述对本说明书特定实施例进行了描述。其它实施例在所附权利要求书的范围内。在一些情况下，在权利要求书中记载的动作或步骤可以按照不同于实施例中的顺序来执行并且仍然可以实现期望的结果。另外，在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中，多任务处理和并行处理也是可以的或者可能是有利的。

本说明书实施例提供的上述医疗影像诊断报告实体提取方法或装置可以在计算机中由处理器执行相应的程序指令来实现，如使用windows操作系统的c++语言在PC端实现、linux系统实现，或其他例如使用android、iOS系统程序设计语言在智能终端实现，以及基于量子计算机的处理逻辑实现等。

本说明书中的各个实施例均采用递进的方式描述，各个实施例之间相同相似的部分互相参考即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于硬件+程序类实施例而言，由于其基本相似于方法实施例，所以描述的比较简单，相关之处参考方法实施例的部分说明即可。

虽然本说明书一个或多个实施例提供了如实施例或流程图的方法操作步骤，但基于常规或者无创造性的手段可以包括更多或者更少的操作步骤。实施例中列举的步骤顺序仅仅为众多步骤执行顺序中的一种方式，不代表唯一的执行顺序。在实际中的装置或终端产品执行时，可以按照实施例或者附图所示的方法顺序执行或者并行执行(例如并行处理器或者多线程处理的环境，甚至为分布式资源数据更新环境)。术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、产品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、产品或者设备所固有的要素。在没有更多限制的情况下，并不排除在包括要素的过程、方法、产品或者设备中还存在另外的相同或等同要素。第一，第二等词语用来表示名称，而并不表示任何特定的顺序。

为了描述的方便，描述以上装置时以功能分为各种模块分别描述。当然，在实施本说明书一个或多个时可以把各模块的功能在同一个或多个软件和/或硬件中实现，也可以将实现同一功能的模块由多个子模块或子单元的组合实现等。以上所描述的装置实施例仅仅是示意性的，例如，单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

本说明书中的各个实施例均采用递进的方式描述，各个实施例之间相同相似的部分互相参考即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于系统实施例而言，由于其基本相似于方法实施例，所以描述的比较简单，相关之处参考方法实施例的部分说明即可。在本说明书的描述中，参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本说明书的至少一个实施例或示例中。在本说明书中，对上述术语的示意性表述不必须针对的是相同的实施例或示例。而且，描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外，在不相互矛盾的情况下，本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。

以上仅为本说明书一个或多个实施例的实施例而已，并不用于限制本说明书一个或多个实施例。对于本领域技术人员来说，本说明书一个或多个实施例可以有各种更改和变化。凡在本说明书的精神和原理之内所作的任何修改、等同替换、改进等，均应包含在权利要求范围之内。

Claims

1.一种医疗影像诊断报告实体提取方法，其特征在于，所述方法包括：

获取待处理医疗影像诊断报告中的非结构化文本；

2.如权利要求1所述的方法，其特征在于，所述命名实体识别模型的训练方法包括：

3.如权利要求2所述的方法，其特征在于，所述使用郑码编码技术提取已标记的训练文本样本中的字特征和词特征，包括：

4.如权利要求3所述的方法，其特征在于，所述频繁字词包括与疾病或部位相关联的字或词语。

5.如权利要求1所述的方法，其特征在于，所述根据所述非结构化文本中各个字词对应的标签，从带标签的非结构化文本中提取出实体文本，并基于所述实体文本获得所述待处理医疗影像诊断报告的实体提取结果，包括：

根据所述剩余文本中各个字词对应的属性标签，提取出所述非结构化文本中的疾病实体和部位实体；

6.如权利要求5所述的方法，其特征在于，所述将所述疾病实体和所述部位实体进行组合，获得所述待处理医疗影像诊断报告的实体提取结果，包括：

7.如权利要求5所述的方法，其特征在于，所述将所述疾病实体和所述部位实体进行组合，获得所述待处理医疗影像诊断报告的实体提取结果，包括：

8.如权利要求1所述的方法，其特征在于，所述获取待处理医疗影像诊断报告中的非结构化文本，包括：

9.一种医疗影像诊断报告实体提取装置，其特征在于，所述装置包括：

10.一种医疗影像诊断报告实体提取设备，其特征在于，应用于服务器，设备包括至少一个处理器及用于存储处理器可执行指令的存储器，指令被处理器执行时实现包括上述权利要求1-8任一项方法的步骤。