CN114328938A

CN114328938A - 一种影像报告结构化提取方法

Info

Publication number: CN114328938A
Application number: CN202210256198.4A
Authority: CN
Inventors: 金倍建; 叶金德; 陈集房; 麻元兴
Original assignee: Zhejiang Keyi Intelligent Medical Technology Co ltd
Current assignee: Zhejiang Keyi Intelligent Medical Technology Co ltd
Priority date: 2022-03-16
Filing date: 2022-03-16
Publication date: 2022-04-12
Anticipated expiration: 2042-03-16
Also published as: CN114328938B

Abstract

本发明公开了一种影像报告结构化提取方法，包括以下步骤：获取非结构化的放射影像文本并进行预处理；将预处理后的文本进行分词后进行归一化处理；采用attention focal loss作为优化函数进行bert模型优化，基于优化后的bert模型将归一化后的文本进行实体识别；基于entity‑extent bert模型进行实体结构化关系提取，形成结构化报告；本发明提取出attention‑focal loss的损失函数，针对在同一实体出现的个别字标签预测错误的情况增大其惩罚，并且能够增大错误分类的标签的损失，减小易分类错误的损失，从而达到模型加速收敛，提升准确率的目的。

Description

一种影像报告结构化提取方法

技术领域

本发明涉及文本识别提取技术领域，尤其涉及一种影像报告结构化提取方法。

背景技术

如今医疗影像进入数据驱动时代，影像数据占据医疗信息化数据的90%以上，中国的数据量又几乎占据了全球的20%。一家普通的三甲医院一天的影像检查量大概有3000左右，则一年会有110万的影像报告生成，这个检查量在医院规模变大时还会增加，能否有效挖掘这世界上最大的数据资源宝藏，对影像学科、智能医疗甚至健康产业的发展都有极高价值。在2007 - 2008年，ACR和RSNA通过发布一系列报告质量相关指南，鼓励构建结构式报告，提高影像报告的质量，并为进一步的数据挖掘和研究提供结构式信息。

现有技术通过对文本进行分词，之后统计各个字或者各个词的词频，通过计算文本与模板之间的相似度来达到提取结构化报告的目的，该方法对于复杂的中文语境中准确率较低，并且搭建词库和模板的难度也较大。现有技术中，实体识别模型的收敛速度以及识别准确率较差。

例如，中国专利CN201911232525.7公开了非结构化医疗文本无监督症状自动识别方法、系统、装置。实现医学症状实体的无监督自动抽取，同时以症状为线索可以强有力地支持医学智能辅助诊断服务以及医学知识图谱的自动构建，不需要专家和手工的管理，可以自动地对训练数据进行标注；但是，该方法的模型收敛速度慢，且模型识别准确率低。

发明内容

本发明主要解决现有的技术中影像报告实体文本提取的模型收敛速度慢以及识别准确率低的问题；提供一种影像报告结构化提取方法，加快模型的收敛速度以及提升模型预测的准确率，获得准确的影像报告结构化关系路径图。

本发明的上述技术问题主要是通过下述技术方案得以解决的：一种影像报告结构化提取方法，包括以下步骤：获取非结构化的放射影像文本并进行预处理；将预处理后的文本进行分词后进行归一化处理；采用attention focal loss作为优化函数进行bert模型优化，基于优化后的bert模型将归一化后的文本进行实体识别；基于entity-extent bert模型进行实体结构化关系提取，形成结构化报告。通过基于深度学习的自然语言处理技术实现对医疗报告的实体识别与关系提取，保证了后结构化报告的信息准确性；提取出Attention-focal_loss的损失函数，针对在同一实体出现的个别字标签预测错误的情况增大其惩罚，并且能够增大错误分类的标签的损失，减小易分类错误的损失，从而达到模型加速收敛，提升准确率的目的。

作为优选，还包括设置随机森林分类器，对结构化报告的指标项的指标值进行异常判断，并将判断结果传递给前端界面。通过设置随机森林分类器进行异常判断，减少医生在输入时输入错误情况的影响，达到对影像报告的质量监控。

作为优选，对放射影像文本进行预处理的方法为：去除文本中的空格；去除括号以及括号内的内容；统一中英文标点符号和全角半角数字字母，并删除重复的标点符号；去除转义符；将文字向量化，映射进向量空间中。通过多余信息的处理，使得文本更好的识别。

作为优选，进行归一化处理的方法为：从分好词的列表中循环取出每个词记为A，在图数据库中查询以A为节点的关系节点B，从原始文本中将A替换为B，实现文本归一化。将文本归一化后，方便实体进行训练识别。

作为优选，采用attention focal loss作为优化函数进行模型优化的方法为：

C1：设置自适应权重，计算损失值；

C2：遍历标签，获取实体的起始位置和终止位置信息；

C3：根据实体的起始位置和终止位置信息比较每个实体的每个字符是否正确，计算预测错误的字符数FN和预测正确的字符数TP；

C4：根据预测错误的字符数FN和预测正确的字符数TP更新权重，重新计算损失值，重复步骤C2到步骤C4，直到bert模型输出全部的实体标签。对于错误分类的样本，且在实体中出现较多字符预测错误的实体增大其损失，对易分类的样本降低其损失，从而加快模型的收敛速度以及提升模型预测的准确率。

作为优选，基于entity-extent bert模型进行实体结构化关系提取的具体方法为：

通过entity-extent模块对实体标签进行随机实体标注，若被标注的实体与上一实体和下一实体均有对应关系，则保留实体，否则替换为其他实体，进行实体替换，形成替换后的句子级别特征向量；

输入句子级别特征向量，通过两个全连接层将输入的特征向量分别映射为头实体矩阵和尾实体矩阵；

通过矩阵变换将头实体矩阵和尾实体矩阵组合成为关系矩阵；

通过一个全连接层调整维度后结合实体识别结果输出不同实体的对应关系二元组；

根据实体的对应关系二元组建立由节点和边组成的关系路径图。引入entity-extent模块，与传统的bert预处理算法相比，结合放射影像报告的特殊性，本发明会针对输入的文本，对随机的个别实体进行mask，替换为其他实体，通过对整个实体的替换，让模型学习到更强的表达能力，使模型联系更多的上下文来进行判断，从而提升关系提取的准确率。

作为优选，将预处理后的文本进行分词的方法为：将预处理后的文本输入jieba分词库，得到实体分词列表。通过jieba分词库进行分词，提高分词准确率。

本发明的有益效果是：通过基于深度学习的自然语言处理技术实现对医疗报告的实体识别与关系提取，保证了后结构化报告的信息准确性；提取出attention-focal_loss的损失函数，针对在同一实体出现的个别字标签预测错误的情况增大其惩罚，并且能够增大错误分类的标签的损失，减小易分类错误的损失，从而达到模型加速收敛，提升准确率的目的；提出了entity-extent的模块，通过mask随机的实体文本token来提升基于放射影像文本的关系提取准确率；通过引入随机森林分类器，对指标值是否异常进行检测，减少医生在输入时输入错误情况的影响，达到对影像报告的质量监控。

附图说明

图1是本发明实施例的结构化提取方法的流程示意图。

图2是本发明实施例的bert识别示意图。

图3是本发明实施例的实体标签识别示意图。

图4是本发明实施例的实体标签标注示意图。

图5是本发明实施例的关系矩阵示意图。

具体实施方式

以下通过特定的具体实例说明本发明的实施方式，本领域技术人员可由本说明书所揭露的内容轻易地了解本发明的其他优点与功效。本发明还可以通过另外不同的具体实施方式加以实施或应用，本说明书中的各项细节也可以基于不同观点与应用，在没有背离本发明的精神下进行各种修饰或改变。需说明的是，在不冲突的情况下，以下实施例及实施例中的特征可以相互组合。

为了使本发明的目的、技术方案及优点更加清楚明白，通过下述实施例并结合附图，对本发明实施例中的技术方案的进一步详细说明。应当理解，此处所描述的具体实施例仅用以解释本发明，并不用于限定发明。

实施例：一种影像报告结构化提取方法，如图1所示，包括以下步骤：

S1：获取非结构化的放射影像文本并进行预处理；通过院内RIS系统或者其他数据来源来获取非结构化的放射影像报告描述，将得到的长文本进行数据预处理：

1、去除文本中的空格；

2、去除括号以及括号内的内容，括号中的内容大多数是一些不需要进行结构化提取的内容；

3、统一中英文标点符号和全角半角数字字母，并删除重复的标点符号；

4、去除转义符（如换行符，缩进符等）；

5、将文字向量化，映射进向量空间中。

S2：将预处理后的文本进行分词后进行归一化处理；对预处理后的文本进行分词，分词采用开源的jieba分词库，加载本项目构建的医学实体名词，提高jieba分词的准确率。

将进行纠正后的文本归一化，将不同描述的同一实体统一为一个描述，此处为了减少算法耗时，采用了图数据库作为数据结构的存储，通过对放射医疗影像报告的统计分析，找出各个医学实体可能存在的描述，构造出不同实体描述与实体的包含关系，具体操作为从分好词的列表中循环取出每个词记为

，在图数据库中查询以

为节点的关系节点

，从原始文本中将

替换为

即可完成归一化的工作。通过对文本数据的归一化，能够减少输入变量的类型，降低模型所需词向量的维度，从而提高模型性能，减少误判。

S3：采用attention focal loss作为优化函数进行bert模型优化，基于优化后的bert模型将归一化后的文本进行实体识别，此处是本发明的第一bert模型，结果如图2所示；由于本发明的医学实体标签识别结构采用B-LABEL，I-LABEL的形式，当一个实体词跨度较长时，极容易出现一个医学实体的个别字的标签出现错误的情况（如图3所示）而导致在后续的实体标签生成时会产生错误，针对这一问题，本发明提出一种注意力损失函数attention-focal loss。focal loss 起初被运用于目标检测领域，主要用来解决样本类别不均衡的问题，本发明将其运用于nlp领域中用来提高模型准确率。attention-focal loss针对在同一实体出现的个别字标签预测错误的情况增大其惩罚，从而达到模型加速收敛，提升准确率的目的，算法具体实现如下：

对bert模型的输出结合真实标签计算其final loss的损失值，final loss的计算方式为

其中：

P为样本为1的概率；

为调制系数，通过调制系数可以减少易分类样本的权重。

为自适应权重，其计算方式如下：

为注意力因子，通过调整

的大小可以放大对错误较多的实体预测的损失，从而使模型更加关注到这些难以识别的实体。

1）遍历标签，获取实体的起始位置和终止位置信息：

(…，未，见，明，显，骨，皮，质，连，续，性，中，段，征，象，…)

（…，B-SYMPTOMS，I-SYMPTOMS，I-SYMPTOMS，…，I-SYMPTOMS，… ）

↓

{…，text: 未见明显骨皮质连续性中段征象，label:(B-SYMPTOMS，I-SYMPTOMS，I-SYMPTOMS，…，I-SYMPTOMS),start:10,end:23}。

2）比较每个实体的每个字符是否正确，计算FN和TP：

FN、TP仅针对单个实体而言，如图3的例子，TP为预测正确的字符数，例中为13，FN为预测错误的字符数，例中为1，假设

，则

，当实体中被预测错误的字符数较多，如TP为7，FN为7，则

，因此其惩罚权重上升，反之若预测错误的字符数较少，则自适应系数

的权重也会随之降低。

3）对预测标签的相对应的起始位置到终止位置的字符损失均乘上自适应系数

，得到更新的自适应损失权重，对梯度进行回传，重新计算损失值，直到bert模型输出全部的实体标签。

本发明通过加入attention-focal_loss损失函数进行模型优化，更关注于难分类样本，更多的考虑到实体的完整性而非只关注单个字符，对于错误分类的样本，且在实体中出现较多字符预测错误的实体增大其损失，对易分类的样本降低其损失，从而加快模型的收敛速度以及提升模型预测的准确率。

如表1所示：

表1 Corss entity与Attention-focal_loss损失函数对比

	Corss entity	Attention-focal loss
			收敛时的准确率(%)	95.3	98.2
收敛所需时间(h)	1.5	1

从表中可以看出，本发明采用attention-focal loss损失函数作为bert模型的优化函数后，bert模型的收敛时间大大降低，收敛时的准确率得到了有效提高。

将归一化后的文本向量化传入bert模型中，得到如图2所示的实体识别结果，其具体的bert模型本发明不多做阐述，本发明主要改进的部分在于：在传统的bert模型中加入了attention-focal loss损失函数。

S4：基于entity-extent bert模型进行实体结构化关系提取，进行错误预警并形成结构化报告；设置错误预警模块，内部设置有随机森林分类器，对结构化报告的指标项的指标值进行异常判断，并将判断结果传递给前端界面，通过随机森林判断指标项的数值是否异常，若存在异常数值的指标项，则将结果返回前端给予医生提示，实现错误预警。

基于entity-extent bert模型进行实体结构化关系提取的具体方法为：通过entity-extent模块对实体标签进行随机实体标注，若被标注的实体与上一实体和下一实体均有对应关系，则保留实体，否则替换为其他实体，进行实体替换，形成替换后的句子级别特征向量；设计第二bert模型，输入句子级别特征向量，通过两个全连接层将输入的特征向量分别映射为头实体矩阵和尾实体矩阵；通过矩阵变换将头实体矩阵和尾实体矩阵组合成为关系矩阵；通过一个全连接层调整维度后结合实体识别结果输出不同实体的对应关系二元组；根据实体的对应关系二元组建立由节点和边组成的关系路径图。

如图4所示，entity-extent模块会随机将个别实体进行mask，替换为其他部位的实体，并且将标签中关系矩阵的相应元素值进行修改。

例：如句子“实性结节大小约为4mm×3mm”，其句子中的实体关系有（实性，结节）（结节，大小）、（大小，4mm×3mm），生成如图5所示的关系矩阵，关系矩阵为512*512的矩阵，这里只截取部分，其中1代表两个实体之间有关系，0则表示没有关系。从上述关系中知道实性和结节两个实体有关系，则将两个实体的首字对应的关系设为1（矩阵的三行一列的元素）。

本发明提出了一种面向放射医疗影像报告信息结构化提取及错误预警的方法和装置，本发明针对非结构化的放射影像医疗报告构建了一种包含实体识别、关系提取的结构化方法以及对于异常指标值的监控预警，通过基于深度学习的自然语言处理技术实现对医疗报告的实体识别与关系提取，保证了后结构化报告的信息准确性。本发明提取出Attention-focal_loss的损失函数，针对在同一实体出现的个别字标签预测错误的情况增大其惩罚，并且能够增大错误分类的标签的损失，减小易分类错误的损失，从而达到模型加速收敛，提升准确率的目的；提出了entity-extent的模块，通过mask随机的实体文本token来提升基于放射影像文本的关系提取准确率；通过引入错误预警模块，对指标值是否异常进行检测，减少医生在输入时输入错误情况的影响，达到对影像报告的质量监控。

本发明可以从非结构化的放射影像医疗报告中有效提取实体，并建立各实体之间的联系，提取放射影像报告中的描述信息，生成结构化报告，并对可能存在的异常指标值进行预警，达到对影像报告的质量监控。

以上所述的实施例只是本发明的一种较佳的方案，并非对本发明作任何形式上的限制，在不超出权利要求所记载的技术方案的前提下还有其它的变体及改型。

Claims

1.一种影像报告结构化提取方法，其特征在于，包括以下步骤：

获取非结构化的放射影像文本并进行预处理；

将预处理后的文本进行分词后进行归一化处理；

采用attention focal loss作为优化函数进行bert模型优化，基于优化后的bert模型将归一化后的文本进行实体识别；

基于entity-extent bert模型进行实体结构化关系提取，形成结构化报告。

2.根据权利要求1所述的一种影像报告结构化提取方法，其特征在于，

还包括设置随机森林分类器，对结构化报告的指标项的指标值进行异常判断，并将判断结果传递给前端界面。

3.根据权利要求1所述的一种影像报告结构化提取方法，其特征在于，

对放射影像文本进行预处理的方法为：

去除文本中的空格；

去除括号以及括号内的内容；

统一中英文标点符号和全角半角数字字母，并删除重复的标点符号；

去除转义符；

将文字向量化，映射进向量空间中。

4.根据权利要求1所述的一种影像报告结构化提取方法，其特征在于，

进行归一化处理的方法为：

从分好词的列表中循环取出每个词记为A，在图数据库中查询以A为节点的关系节点B，从原始文本中将A替换为B，实现文本归一化。

5.根据权利要求1或2或3或4所述的一种影像报告结构化提取方法，其特征在于，

采用attention focal loss作为优化函数进行模型优化的方法为：

C1：设置自适应权重，计算损失值；

C2：遍历标签，获取实体的起始位置和终止位置信息；

C4：根据预测错误的字符数FN和预测正确的字符数TP更新权重，重新计算损失值，重复步骤C2到步骤C4，直到bert模型输出全部的实体标签。

6.根据权利要求1所述的一种影像报告结构化提取方法，其特征在于，

基于entity-extent bert模型进行实体结构化关系提取的具体方法为：

根据实体的对应关系二元组建立由节点和边组成的关系路径图。

7.根据权利要求1所述的一种影像报告结构化提取方法，其特征在于，

将预处理后的文本进行分词的方法为：将预处理后的文本输入jieba分词库，得到实体分词列表。