CN110444259A

CN110444259A - 基于实体关系标注策略的中医电子病历实体关系提取方法

Info

Publication number: CN110444259A
Application number: CN201910490550.9A
Authority: CN
Inventors: 黄青松; 陈尧文; 谢先章; 刘利军; 冯旭鹏
Original assignee: Kunming University of Science and Technology
Current assignee: Kunming University of Science and Technology
Priority date: 2019-06-06
Filing date: 2019-06-06
Publication date: 2019-11-12
Anticipated expiration: 2039-06-06
Also published as: CN110444259B

Abstract

本发明涉及基于实体关系标注策略的中医电子病历实体关系提取方法，属于计算机自然语言处理技术领域。本发明首先使用基于新的标注策略进行实体关系联合标注的方法来获取所需要的实体关系语料，再利用Bi‑lstm模型对标注好的实体关系进行处理，最后使用爬虫补全不完整的实体关系。最终模型避免了传统串联方法产生错误传递、误差累积、关系分类不准确等问题。

Description

基于实体关系标注策略的中医电子病历实体关系提取方法

技术领域

本发明涉及一种基于实体关系标注策略的中医电子病历实体关系提取方法，属于计算机自然语言处理技术领域。

背景技术

中医电子病历作为电子病历的一部分，是数字化中医医疗服务的工作记录，其中包含了大量的中医领域的相关知识，构建一个中医领域的知识图谱将更易于中医电子病历的这些知识在计算机之间和计算机与人之间流通，能带来更高效精准的医疗服务，但目前针对中医电子病历知识挖掘和利用方面的研究还处于初级阶段。中医电子病历作为承载着重要医疗知识的半结构化文本，不像数据库一样有严格的理论模型、数据结构，还具有口语化、专业化的特点，并且中医术语大多为古汉语。因此想要利用这些中医领域的相关知识就变得十分麻烦。作为构建知识图谱的基础技术，实体关系提取的研究尤为重要。现有的实体关系提取多以串联方式进行提取，即先进行命名实体识别，再进一步得到实体关系。这种方式有利于整个任务的处理，每个部分更加的灵活便捷，但是却会忽视子任务之间的关系，命名实体识别的结果会影响下一步的关系分类，造成累积，还会产生一些冗余信息。联合实体关系提取方法则不同，使用一个模型整体来提取实体关系，能很好的提取实体和关系，并且能取得很好的效果。

发明内容

本发明提供了一种基于实体关系标注策略的中医电子病历实体关系提取方法，能很容易地将提取问题转化为标注任务，又能避免传统串联方法产生错误传递、误差累积、关系分类不准确等问题。

本发明的技术方案是：一种基于实体关系标注策略的中医电子病历实体关系提取方法，所述方法具体步骤如下：

Step1、先对中医骨科电子病历进行信息脱敏，然后对中医电子病历进行预处理，将病历原先具有的结构转化为计算机可处理的数据结构，去除病人隐私及其他与实体关系提取无关的信息；

Step2、使用实体关系标注策略，进行实体关系联合标注，来获取训练所需要的实体关系语料，由于获得的实体关系不一定完整，需要爬虫进行补全；

Step3、使用Bi-lstm模型对标注好的实体关系进行处理，输入已标注的语料训练好模型，然后输出抽取到的实体关系；

Step4、以获得的实体关系中疾病实体作为种子爬虫进行补充得到相对完整的实体关系。

进一步地，所述步骤Step1的具体步骤如下：

Step1.1、先对中医骨科电子病历进行信息脱敏，然后去除病人隐私，隐私包括：姓名、床号、住院号、地址等易被他人识别的关键隐私信息；

Step1.2、电子病历为半结构化文本，中医电子病历具有一定的结构性，但又没有严格理论模型和数据结构，因此需要进行预处理；

预处理包括进行医疗文本分词，然后去除无用、不规则的文本，即去除对提取实体和关系无用的信息，将不规则无参考价值的文本全部去除。

进一步地，所述步骤Step2中实体关系标注策略的具体步骤如下：

Step2.1、每个词被分配一个标签，这样讲有助于提取结果，标签“O”表示“其他”标签，这意味着相应的单词与实体关系无关；

其他标签由三部分组成：在实体中的位置、关系类型、实体的顺序；

Step2.2、使用“BIES”符号来表示一个单词在实体中的位置信息，用“1”和“2” 来表示实体关系三元组中的实体顺序。

进一步地，所述步骤Step3的具体步骤如下：

Step3.1、标注文本中，词和标签分开来存储；

Step3.2、词向量输入到Bi-lstm模型进行迭代训练，模型根据标签自动调整参数使之拟合相关特征；

Step3.3、将训练好的模型用于实体关系自动提取。

进一步地，所述步骤Step4的具体步骤如下：

Step4.1、以实体关系中疾病实体为种子爬取对应的症状信息，对爬取的内容进行处理，将所有标点以及连词都替换为“、”；

Step4.2、再将Step4.1中新爬取到的症状信息与Step3提取到的实体关系中症状实体进行匹配，如果有则删除Step4.1中新爬取到的症状信息，没有就将Step4.1中新爬取到的症状信息作为新的症状加入到Step3中得到的实体关系中以此来补全实体关系。

在标注时对文本中的每个词都进行标注，将文本中的实体关系和不相关的词以不同的标签区分开来，以便更好的提取实体关系，但是文本中与实体关系无关的词统一都标注为“O”，实体关系的标签如表1所示：

表1实体关系标签表

SOD疾病的症状	DAWD疾病伴随的疾病	AOD疾病的别名
			S-SOD-1	S-DAWD-1	S-AOD-1
S-SOD-2	S-DAWD-2	S-AOD-2
			B-SOD-1	B-DAWD-1	B-AOD-1
I-SOD-1	I-DAWD-1	I-AOD-1
			E-SOD-1	E-DAWD-1	E-AOD-1
B-SOD-2	B-DAWD-2	B-AOD-2
			I-SOD-2	I-DAWD-2	I-AOD-2
E-SOD-2	E-DAWD-2	E-AOD-2

标签由实体中的位置、关系类型和实体的顺序组成。标签中的“S”代表单个词作为一个实体，“B”表示该词是这个实体的第一个词，“I”表示该词是实体的内部， “E”表示该次是这个实体的最后一个词；定义了三种关系的类型：SOD疾病的症状 (Symptoms ofdisease)、DAWD疾病伴随的疾病(Diseases associated with diseases)、 AOD疾病的等价关系(Alias of diseases)；数字“1”实体关系三元组中的第一个实体，“2”分别表示实体关系三元组的中的第二个实体。

在标注时，根据医院专家的指导使用上述标签来对电子病历进行标注。对“患者自诉伤后即感腰部疼痛，未做特殊处理，……初步诊断：气滞血瘀证”这句话进行标注时，“腰部疼痛”是“气滞血瘀证”的一个症状，因此文中的需要提取的实体为“腰部疼痛”和“气滞血瘀证”这两个实体，而他们之间的关系属于疾病对应的症状，“腰部”作为第一个实体的开始部分，因此“腰部”的标签为“B-SOD-1”；“疼痛”作为第一个实体的结尾部分，标签为“E-SOD-2”，“气滞血瘀证”在分词时分为一个单独的词，作为第二个单独的实体，标签为“S-SOD-2”；其他不相关的词如“患者”或者标点，都标记为“O”。

所述的Bi-lstm模型作用为：输入已标注好的语料，可以输出抽取到的实体关系。读入数据、将语料和标注分别存入两个series、将词转换为1-hot特征的embedding (词嵌入)模型便于计算、构建前向后向lstm、分别进行前向后向计算、将反向层翻转后与前向层拼接、优化求解，进行梯度下降计算、计算的最优的状态序列以输出结果。

首先将标注后的文本生成词向量，送入Bi-LSTM模型分别开始向前层和向后层的编码，然后将两个LSTM层所得到的隐向量进行拼接得到一个向量，接着通过一个Softmax层将Bi-LSTM层得到的向量归一化处理，使之处于0-1之间；最后再维特比算法来预测其标签概率，选择值最高的标签作为该词的标签输出。

Bi-LSTM由一个正向计算的LSTM(f)层和一个反向计算的LSTM(b)组成，每个词的词向量{W₀，W₁，W₂，W₃}分别对输入进行编码之后得到向量 {h_f0，h_f1，h_f2，h_f3}和{h_b0，h_b1，h_b2，h_b3}，通过将两个不同方向计算的向量拼接得到隐向量h_i作为输出向量即{h₀，h₁，h₂，h₃}，这样在能保持上文特征信息的基础上也获得了下文的特征信息，这就使得模型在处理病历文本信息上有了更大的优势。

遗忘门：通过sigmoid函数来决定丢弃什么信息f_t＝σ(w_f·[h_t-1,x_t]+b_f)输入门：Sigmoid层决定哪些信息需要更新i_t＝σ(w_i·[h_t-1,x_t]+b_i)一个tanh层生成一个向量(备选的用来更新的内容)

生成新的候选值输出门：运行一个sigmoid层决定细胞状态的哪个部分将输出o_t＝σ(w_o·[h_t-1,x_t]+b_o)将细胞状态tanh处理并与sigmoid输出相乘，得到最终输出h_t＝o_t*tanh(C_t)

所述的爬去补充为以‘心悸’为种子构建url开始爬取相关的症状

url＝‘https://baike.baidu.com/item/’+‘心悸’+‘/102232？fr＝aladdin’

res＝request.get(url)

用pquery框架对返回的html内容解析得到对应的症状

发作性心慌不安，心跳剧烈，不能自主，常兼有胸闷气短、神疲乏力、头晕喘促，不能平卧，以至晕厥

对爬取的内容进行处理，将所有标点以及连词都替换为“、”

再将新获取到的症状与提取到的进行匹配，如果有则删除，没有就作为新的症状加入。

本发明的有益效果是：

1、当前的实体关系提取主要是以串联提取方式(也称为流水线方式)，及先对文本进行命名实体识别，然后在依据关系类型将实体组合起来完成关系分类，达到实体关系提取的目的。但是这种方法会造成：1、错误传播，将命名实体识别产生的错误传递下去，影响最后的实体关系正确性；2、忽视实体组合分类子任务之间的关系，即组合后的实体对之间也可能存在关系，但这一步却忽略了这种可能存在的关系；3、产生冗余、错误信息，若两个实体之间并无关系却仍然组合在一起，得到了不正确的实体关系；4、提取到的实体关系并不完整。针对目前这种实体关系串联提取方式存在的问题，提出了一种基于实体关系标注策略的实体关系联合提取方法，克服这些问题。

2、本发明提出的方法能够更准确、高效的从中医骨科电子病历中提取实体关系，作为构建中医骨科疾病知识图谱的基础数据；

3、以爬虫的方式对不完整的实体关系进行数据补齐，解决传统方法的错误传播、忽视子任务关系和实体关系不完整等问题；

综上所述，这种基于改进标注策略的中医电子病历实体关系提取方法，首先使用基于新的标注策略进行实体关系联合抽取的方法来获取所需要的实体关系，再利用Bi-lstm模型对标注好的序列进行处理，最后使用爬虫补全不完整的实体关系。最终模型避免了传统串联方法产生错误传递、误差累积、关系分类不准确等问题。

附图说明

图1为本发明提取的实体关系框架图；其中，第一排为输入实体关系语料到 Bi-lstm模型，第2-6排为在Bi-lstm模型中进行相关的处理，最后一排为输出抽取到的实体关系。

图2为本发明实体关系标注方式实例图；

图3为本发明训练迭代次数对模型的影响图。

具体实施方式

实施例1：如图1-3所示，一种基于实体关系标注策略的中医电子病历实体关系提取方法，所述方法具体步骤如下：

进一步地，所述步骤Step1的具体步骤如下：

Step1.2、本发明使用中医电子病历，中医电子病历作为承载着重要医疗知识的半结构化文本，不像数据库一样有严格的理论模型、数据结构，还具有口语化、专业化的特点，并且中医术语大多为古汉语；

中医电子病历作为电子病历的一部分，是数字化中医医疗服务的工作记录，其中包含了大量的中医领域的相关知识，构建一个中医领域的知识图谱将更易于中医电子病历的这些知识在计算机之间和计算机与人之间流通，能带来更高效精准的医疗服务，但目前针对中医电子病历知识挖掘和利用方面的研究还处于初级阶段。中医电子病历作为承载着重要医疗知识的半结构化文本，不像数据库一样有严格的理论模型、数据结构，还具有口语化、专业化的特点，并且中医术语大多为古汉语。想要利用这些中医领域的相关知识就变得十分麻烦，因此需要进行预处理；

进一步地，所述步骤Step3的具体步骤如下：

Step3.1、标注文本中，词和标签分开来存储；

Step3.3、将训练好的模型用于实体关系自动提取。

进一步地，所述步骤Step4的具体步骤如下：

表1实体关系标签表

标签由实体中的位置、关系类型和实体的顺序组成。标签中的“S”代表单个词作为一个实体，“B”表示该词是这个实体的第一个词，“I”表示该词是实体的内部， “E”表示该次是这个实体的最后一个词；定义了三种关系的类型：SOD疾病的症状(Symptoms ofdisease)、DAWD疾病伴随的疾病(Diseases associated with diseases)、 AOD疾病的等价关系(Alias of diseases)；数字“1”实体关系三元组中的第一个实体，“2”分别表示实体关系三元组的中的第二个实体。

遗忘门：通过sigmoid函数来决定丢弃什么信息f_t＝σ(w_f·[h_t-1,x_t]+b_f)输入门：Sigmoid层决定哪些信息需要更新i_t＝σ(w_i·[h_t-1,x_t]+b_i)一个tanh层生成一个向量(备选的用来更新的内容)生成新的候选值输出门：运行一个sigmoid层决定细胞状态的哪个部分将输出o_t＝σ(w_o·[h_t-1,x_t]+b_o)将细胞状态tanh处理并与sigmoid输出相乘，得到最终输出h_t＝o_t*tanh(C_t)

res＝request.get(url)

用pquery框架对返回的html内容解析得到对应的症状

本发明的实验数据是采用昆明市中医院的骨科电子病历，分多次从昆明市中医院拷贝电子病历，涵盖了各个季节、节气的骨科病人。在经过预处理工作后，以上述介绍的实体关系标注策略为标准对电子病历进行标注，作为实验的训练数据和测试数据。本发明共设计了3个实验来对基于实体关系标注策略的实体关系联合提取模型的参数设置、提取结果进行验证和对比，证明模型的模型参数设置的合理性以及实体关系提取的有效性。

1、设计第1个实验，在同等条件下只改变用于模型的数据量，验证模型在当前数据量下的训练是否有效；

2、设计第2个实验，在同等数据量、相同参数的情况下，只改变模型训练的迭代次数，观察损失函数值以及准确率的变化，以寻求最佳的迭代次数；

3、设计第3个实验，在数据量、迭代次数等参数均保持不变的情况下，同其他的模型进行对比实验，对比训练计算的时间、准确率、召回率以及F1等指标。

实验1：进行训练数据量的实验，即验证本方法在不同数据量下性能如何，使用用相同的测试数据，分别记录数据量为200，400,800,1600,2000,2400时的P(查准率)、 R(召回率)以及F1值，实验结果如下：

表2

从上表的实验数据可以看出，在数据量较少(200-400)的情况下无论是准确率还是召回率都较低，这是由于训练数据量较少，模型特征学习不够造成的欠拟合导致了准确率和召回率都比较低，在数据量增加至800以后准确率和召回率都开始逐步增加，在达到2000-2400的时候准确率和召回率趋于稳定变化不大，因此该数据量在当前阶段的研究工作中是足够的。

实验2

在深度学习模型(本发明采用Bi-lstm模型)的训练中，需要对训练数据进行多次的迭代训练以求能拟合数据中需要的特征，但目前对于深度学习模型的训练次数还没有一个明确的标准，不同的模型不同的数据所要训练的次数也不同，训练次数少不能很好的拟合数据中的特征，但是训练次数过多又会过分拟合了数据中的无用特征，为寻求本模型的最佳训练次数进行相应的实验来调整模型的训练次数达到最佳，实验结果如图3所示。

图3的实验都是在数据量为2000的条件下，其他条件不改变仅调整训练次数得到的，左图为损失函数值随着训练次数的增加的变化，图中的实验结果震荡是由于模型的数据处理是以批次的形式进行的，所以造成了震荡。可以看到迭代次数从 0-300，损失值呈递减的状态，但是在迭代次数达到250次以上时，损失值的降低开始减少，变得不那么明显，在达到300次以后的时候趋于一个稳定的状态，几乎不下降。

右图是训练集和测试集分别在不同训练次数下的准确率对比，每个点分别取区间的平均值。可以看到一开始的时候由于模型的迭代次数较少，不能很好的拟合数据中的特征，准确率都较低，但是随着模型训练次数的增加准确率开始急速上升，在达到200次以后增幅降低，开始趋于稳定，达到300次时测试集的准确率达到峰值。在随着训练次数的继续增加训练集数据的准确率持续走高，测试集的准确率却开始降低，可以判断此时模型开始过拟合了，过分的拟合了训练集数据中没用的特征和噪音，对于测试集中所需要的特征无法拟合了。综合左图中的损失函数走势，在250次以后损失值开始趋于稳定，在300次时准确率达到最高，因此迭代次数为 300次最佳。

实验3

为了验证模型的性能，还与其他的模型做了训练时间以及测试实体关系提取在相同的训练数据和测试数据下所耗费时间以及准确率、召回率、F1进行对比：

表3

	训练时间(s)	提取时间(ms)	P	R	F1
						FCM	/	661	0.55	0.15	0.24
RNN	8614	681	0.50	0.36	0.41
						LSTM+CRF	9048	703	0.52	0.31	0.39
Bi-LSTM	11554	821	0.61	0.43	0.5
						Bi-LSTM+Viterb	17704	894	0.59	0.46	0.52

从上表数据中得到，本文所提出的方法在实验中的召回率和F1值最好，这是由于Bi-lstm网络和维特比算法其本身的特性，Bi-lstm能选择性的向下传递所需要的信息，并且能获取上下文信息的特征，而维特比算法以动态规划的方式预测出最优的标签，但是维特比算法本身的特性导致其时间复杂度和空间复杂度较高，这也就造成了在训练时间上要高于其他的模型。FCM方法是手工制作的特征和学习过的单词嵌入结合起来用于关系分类，但是需要先完成命名实体识别，属于串联方式的实体关系提取，存在的误差传递等问题。

上面结合附图对本发明的具体实施方式作了详细说明，但是本发明并不限于上述实施方式，在本领域普通技术人员所具备的知识范围内，还可以在不脱离本发明宗旨的前提下作出各种变化。

Claims

1.基于实体关系标注策略的中医电子病历实体关系提取方法，其特征在于：所述方法具体步骤如下：

2.根据权利要求1所述的基于实体关系标注策略的中医电子病历实体关系提取方法，其特征在于：所述步骤Step1的具体步骤如下：

3.根据权利要求1所述的基于实体关系标注策略的中医电子病历实体关系提取方法，其特征在于：所述步骤Step2中实体关系标注策略的具体步骤如下：

Step2.2、使用“BIES”符号来表示一个单词在实体中的位置信息，用“1”和“2”来表示实体关系三元组中的实体顺序。

4.根据权利要求1所述的基于实体关系标注策略的中医电子病历实体关系提取方法，其特征在于：所述步骤Step3的具体步骤如下：

Step3.1、标注文本中，词和标签分开来存储；

Step3.3、将训练好的模型用于实体关系自动提取。

5.根据权利要求1所述的基于实体关系标注策略的中医电子病历实体关系提取方法，其特征在于：所述步骤Step4的具体步骤如下：