CN111832306A

CN111832306A - 基于多特征融合的影像诊断报告命名实体识别方法

Info

Publication number: CN111832306A
Application number: CN202010656318.0A
Authority: CN
Inventors: 黄青松; 唐志豪; 尤诚诚; 刘利军; 冯旭鹏
Original assignee: Kunming University of Science and Technology
Current assignee: Kunming University of Science and Technology
Priority date: 2020-07-09
Filing date: 2020-07-09
Publication date: 2020-10-27

Abstract

本发明涉及基于多特征融合的影像诊断报告命名实体识别方法，属于自然语言处理技术领域。本发明包括步骤：首先从医院信息管理系统拷取胸部X光片影像报告作为实验语料，并对语料进行预处理；然后预处理过后的诊断报告文本数据输入到BI‑LSTM网络中，输出最优的分词结果；获取最优的分词结果的特征向量，接着将特征向量送入CRF模型对诊断报告文本进行命名实体识别，训练得到基于多特征融合的影像诊断报告命名实体识别模型；对得到的影像诊断报告命名实体识别模型进行评估，根据测试结果选择最优的模型，依据此模型进行影像诊断报告命名实体识别。本发明有效的识别影像报告中的命名实体，最终总的F₁值达到了88.03％。

Description

基于多特征融合的影像诊断报告命名实体识别方法

技术领域

本发明涉及基于多特征融合的影像诊断报告命名实体识别方法，属于自然语言处理技术领域。

背景技术

命名实体识别(NER)任务非常的重要，它对于问答系统、结构化数据库构建、检索等工作都有重要的意义。命名实体识别过去常用的方法有：采用以手工建立的规则和词典为标准，通过字符串匹配实现命名实体的识别工作。这种方法容易受到人工干预，对词典有很强的依赖性。采用机器学习的策略是目前处理该类问题的主流方法，主要包括最大熵模型，应用最广泛的条件随机场，支持向量机模型，还有比较常见的隐马尔科夫模型等等。该方法有较好的识别效果，在很多场合的实体识别任务中都有出现。这类方法需要人工选择特征，如果能针对处理对象的特性，选择合适的特征，往往有很好的识别效果。

发明内容

本发明提供了基于多特征融合的影像诊断报告命名实体识别方法，相比于传统的命名实体识别方法，充分地考虑了影像诊断报告的特点，本发明能更加全面和准确地对影像诊断报告进行实体抽取。

本发明的技术方案是：基于多特征融合的影像诊断报告命名实体识别方法，所述方法的具体步骤如下：

Step1、首先从医院信息管理系统拷取胸部X光片影像报告作为实验语料，并对语料进行预处理；

Step2、然后预处理过后的诊断报告文本数据输入到BI-LSTM网络中，输出最优的分词结果；

Step3、获取最优的分词结果的特征向量，接着将特征向量送入CRF模型对诊断报告文本进行命名实体识别，训练得到基于多特征融合的影像诊断报告命名实体识别模型；

Step4、对得到的影像诊断报告命名实体识别模型进行评估，根据测试结果选择最优的模型，依据此模型进行影像诊断报告命名实体识别。

进一步地，所述步骤Step1的具体步骤为：

Step1.1、首先从医院信息管理系统拷取胸部X光片影像报告得到实验语料；

Step1.2、在得到的实验语料中选取胸部正片诊断报告,经过手动标注，完成了对诊断报告的标注工作。

进一步地，所述步骤Step2的具体步骤为：

Step2.1、将预处理好的诊断报告文本数据，输入到BI-LSTM网络中；

Step2.2、将各个字符对应的标签进行组合，利用维特比解码得到概率最大的标签序列，输出最优的分词结果。

对本发明做进一步阐述的，所述步骤Step2、Step3中：

1)提到的BI-LSTM网络：

BI-LSTM网络是在LSTM网络基础上扩展而来。BI-LSTM网络采用前后两个方向建模，可以更好的结合前后的信息。

LSTM网络相较于传统的网络模型增加了特殊的门结构，即遗忘门，输入门，输出门。这样的结构很好的弥补了传统模型的不足，是一项针对RNN(regression nerualnetwork)很好的创新工作。LSTM网络公式如下所示：

f_t＝σ(W_f[h_t-1,x_t]+b_f) (1)

i_t＝σ(W_i[h_t-1,x_t]+b_i) (2)

o_t＝σ(W_o[h_t-1,x_t]+b_o) (3)

g_t＝tanh(W_c[h_t-1,x_t]+b_c) (4)

C_t＝f_tC_t-1+i_tg_t (5)

h_t＝o_ttanh(C_t) (6)

上述公式中σ是激活函数，x_t是单元输入i_t，f_t，o_t，它们各自代表着网络单元中在t时刻的输入门、忘记门、和输出门。W，b是各个门结构对应的的权重以及偏置。g_t是t时刻当前所处的状态。h_t表示t时刻的输出。

2)提到的CRF模型：

CRF即条件随机场，它提供了一种概率计算框架，目前比较普遍的用来计算已知的数据序列X＝(x₁,x₂,...,x_n)的条件下，该序列所对应标签序列Y＝(y₁,y₂,...,y_n)整体出现的概率，公式如下所示θ代表模型参数，

是任意定义的θ_k为参数关于观察序列X和标签序列Y的特征函数，Z(X；θ)是归一化因子。

目前常见的CRF网络，是线性链条件随机场，这样的网络应用在很多的方面，因为他的网络组成不复杂，学者很容易掌握它的工作流程，如图3所示为给出的其具体的结构示意图。条件随机场融合了其他模型如最大熵模型的优势，也克服了最大熵模型的标注偏见。在很多场景中都有应用，并且都取得了很好的效果。

本发明的有益效果是：

1、本发明的基于多特征融合的影像诊断报告命名实体识别方法，针对诊断报告文本，利用BI-LSTM很好的完成了诊断报告的分词工作，解决了诊断报告中未登录词过多的问题。

2、本发明的基于多特征融合的影像诊断报告命名实体识别方法，综合分析医疗影像报告的特点，考虑融合符号，词性，后缀等特征，通过CRF模型对诊断报告中的正常描述实体，异常描述实体和疾病实体进行实体识别。

附图说明

图1为本发明中的总的诊断报告实体识别流程图；

图2为本发明中的诊断报告实体识别总框架图；

图3为本发明中的链式CRF结构示意图；

图4为本发明中添加不同特征的F₁值变化示意图。

具体实施方式

实施例1：如图1-4所示，基于多特征融合的影像诊断报告命名实体识别方法，所述方法的具体步骤如下：

Step3、获取最优的分词结果的特征向量，接着将特征向量送入CRF模型对诊断报告文本进行命名实体识别，训练得到基于多特征融合的影像诊断报告命名实体识别模型；在获取最优的粉刺结果的特征向量的时候，可以先进行特征选择，再进行特征计算，从而选择出特征向量，其中进行特征计算其实是将文本特征转化为特征向量的过程，也可以理解为用一个矩阵来表示诊断报告里面的文本特征；本发明选择的文本特征可以为：符号特征(word)，词性特征(pos)、数字特征(number)、字母特征(letter)或后缀特征(suffix)；

进一步地，所述步骤Step1的具体步骤为：

本发明对大量诊断报告进行分析并与有关专家进行讨论，了解到医疗影像描述中出现的特定医疗实体，对检查部位是否正常的判断和疑似某种疾病的判断都起到了至关重要的作用。这些医疗实体大多是专有医疗用语和医疗共识用语。获得的胸部x光诊断报告中句子分布用标点符号划分的句子数量为24199，不同字词数量为326。影像诊断报告类别标注示例如表1所示。

表1实体类别划分及标注

诊断报告的实体包括疾病(标记符号为DI)，正常描述实体(标记符号为NE)和异常描述实体(标记符号为AE)三类实体。选择采用BIO的标注策略，应用到诊断报告的三类实体，数据标注示例如下所示。B定义为实体的开始位置，I定义为实体的中间，O定义为非实体。诊断报告实验数据标注如表2所示。

表2数据标注示例

进一步地，所述步骤Step2的具体步骤为：

本文实验采用准确率、召回率和F1值这些基本性能指标来检测模型的识别效果，这些也是数据挖掘中经常用到的评价指标。TP为准确识别出的标注实体；FP为错误识别出的非标注实体；FN为未识别出的标注实体。各个指标具体的计算公式为：

实验一：为了验证针对诊断报告文本采用BI-LSTM模型分词的有效性和对实体识别结果的影响。

第一组实验，首先利用BI-LSTM对诊断报告进行分词处理，再利用jieba分词添加各种医疗词典(如搜狗医学词典)对诊断报告进行分词。将所有4000份诊断分词，对比不同的分词策略对分词结果的影响。随机选取400份诊断报告，以实验中只采用字符特征作为唯一的基础特征，不同分词方式的分词结果如表3所示。实体识别结果如表4，表5所示。

表3不同方式的分词结果

分词方式	Precision％	Recall％	F1％
				BI-LSTM	95.49	94.80	95.14
Jieba	91.33	90.16	90.74

表4以BI-LSTM分词实体抽取结果

实体类别	Precision％	Recall％	F1％
				正常描述	84.15	72.62	77.96
异常描述	84.06	71.86	77.48
				疾病实体	82.26	70.94	76.18

表5以分词工具分词实体抽取结果

实体类别	Precision％	Recall％	F1％
				正常描述	80.36	71.21	75.51
异常描述	80.01	70.91	75.18
				疾病实体	80.13	70.36	74.93

诊断报告文本进行分词的效果在很大程度上会对最终的实体识别产生影响，实验表明，诊断报告是一种相对特殊的文本且书写自由，采用BI-LSTM分词后，分词效果更好，同时实体识别的结果要好于用添加医学词典的分词软件。在随机挑选的较小的样本实体识别实验中，采用BI-LSTM分词方式后，症状实体抽取实验的F值提高了，疾病实体抽取实验的F值提高了。

实验二：为了验证不同的特征对实验结果的影响。

第二组实验，依次添加选择的特征，符号特征(word)，词性特征(pos)，数字特征(number)，字母特征(letter)，后缀特征(suffix)，判断添加不同特征对实体识别结果的影响。

依次添加不同的特征，对诊断报告中出现的较长的正常描述的实体和异常描述的实体进行抽取，实验结果如表6，表7所示。

表6正常描述实体抽取

特征	Precision％	Recall％	F<sub>1</sub>％
				word	89.65	74.84	81.58
+pos	89.13	83.69	86.32
				+number/le	88.91	83.32	86.02
+suffix	90.46	86.47	88.42

表7异常描述实体抽取

特征	Precision％	Recall％	F<sub>1</sub>％
				word	89.03	74.08	80.87
+pos	88.96	82.98	85.87
				+number/le	88.34	82.89	85.53
+suffix	89.86	86.05	87.91

依次添加不同的特征，对诊断报告结论中出现的疾病名称进行实体抽取，实验结果如下表8所示。

表8疾病实体抽取结果

特征	Precision％	Recall％	F<sub>1</sub>％
				word	88.16	72.75	79.72
+pos	86.63	82.68	84.61
				+number/le	86.97	82.21	84.52
+suffix	89.71	86.94	88.30

依次添加不同的特征，比较各类实体F₁值的变化如图4所示。

实验结果表明，第一，在字符特征的基础上一次添加词性特征和数字、字母特征，识别的准确性有所下降，但是加入后缀特征后，无论症状描述实体还是疾病实体的准确度，都有所提高。第二，在字符特征基础上，随着特征的增加，召回率有了明显的提高。第三，添加所有特征相较于单一的字符特征，症状实体识别的F值提高了，疾病实体识别的F值提高了。根据实验，通过BI-LSTM分词并且综合考虑所有特征达到了最好的识别结果，最终所有实体较好的完成了实体识别任务，总的p值为89.81％,R值为86.32％，F值为88.03。

基于BI-LSTM分词与特征融合的模型对诊断报告中描述的症状和诊断结论中的疾病名称进行实体抽取，取得了较好的实验效果。结果较好有以下的原因：一诊断报告文本，描述虽然自由但是有一定的相似性和规律性。二针对诊断报告未登录词过多的特点，采用BI-LSTM进行分词，效果很好。三针对诊断报告文本特点选取出了有效的模型，并且综合考虑采用了各个特征。

上面结合附图对本发明的具体实施方式作了详细说明，但是本发明并不限于上述实施方式，在本领域普通技术人员所具备的知识范围内，还可以在不脱离本发明宗旨的前提下作出各种变化。

Claims

1.基于多特征融合的影像诊断报告命名实体识别方法，其特征在于：所述方法的具体步骤如下：

2.根据权利要求1所述的基于多特征融合的影像诊断报告命名实体识别方法，其特征在于：所述步骤Step1的具体步骤为：

3.根据权利要求1所述的基于多特征融合的影像诊断报告命名实体识别方法，其特征在于：所述步骤Step2的具体步骤为：