CN107527073A

CN107527073A - 电子病历中命名实体的识别方法

Info

Publication number: CN107527073A
Application number: CN201710789885.1A
Authority: CN
Inventors: 李芳芳; 段昱; 毛星亮; 尹垚; 张帆
Original assignee: Central South University
Current assignee: Central South University
Priority date: 2017-09-05
Filing date: 2017-09-05
Publication date: 2017-12-29
Anticipated expiration: 2037-09-05
Also published as: CN107527073B

Abstract

本发明公开了一种电子病历中命名实体的识别方法，包括构建电子病历的专业领域词典；将电子病历中的文本分类；对包含命名实体的文本进行实体标注，同时将标注后的文本作为训练集，未标注的文本作为测试集；初步设定条件随机场模型中的特征模板窗口的大小和特征模板内容，并对测试集进行测试；迭代调整特征模板窗口的大小和特征模板内容，直至得到最终的特征模板窗口的大小和特征模板内容；采用条件随机场模型对所有的电子病历进行命名实体的识别。本发明方法能够自动识别电子病历的命名实体，大大提高了识别效率，而且能够不断改善条件随机场模型的精度和模型识别度，能够更加精确和快速的进行实体识别。

Description

电子病历中命名实体的识别方法

技术领域

本发明具体涉及一种电子病历中命名实体的识别方法。

背景技术

随着国家经济技术的发展和人们生活水平的提高，大数据的运用已经得到了长足的发展。特别是在医疗卫生领域，其应用和作用已经初步显现。

在医疗卫生领域，我国有着海量的病例和对应的病历。虽然大部分的病历都已经电子化，但是其发挥的作用依然非常有限。当医生需要根据某类特征词或者关键词查看某一类特殊病历时，一般都需要医生本人耗费大量的时间和精力，从医院的海量电子病历数据库中，逐份病历的查阅，这样不仅费时费力，而且极易产生差错。此外，我国有着海量的电子病历，而海量的电子病历就意味着有海量的病人信息，如何挖掘其中的有用信息，一直是我国学者的研究方向。

面对海量的电子病历，需要采用数据挖掘技术从中提取出有用的信息，对电子病历中的命名实体进行识别是重中之重，也是数据挖掘等后续工作的前提。但是，目前尚没有一种高效、快速且可靠的方法来对电子病历中的命名实体进行识别。

发明内容

本发明的目的在于提供一种能够快速有效针对电子病历中的命名实体进行识别的电子病历中命名实体的识别方法。

本发明提供的这种电子病历中命名实体的识别方法，包括如下步骤：

S1.构建某科室电子病历的专业领域词典；

S2.将某科室电子病历中的文本分类：分为包含命名实体的文本和不包含命名实体的文本；

S3.根据步骤S1得到的专业领域词典，对步骤S2得到的包含命名实体的文本进行实体标注，同时将标注后的文本作为训练集，未标注的文本作为测试集；

S4.根据步骤S1构建的专业领域词典以及步骤S3得到的训练集，初步设定条件随机场模型中特征模板窗口的大小；

S5.根据步骤S4设定的特征模板窗口的大小，以及实体本身的特征和实体上下文特征，初步设定条件随机场模型中特征模板的内容，并对步骤S3中的测试集进行测试；

S6.根据步骤S5得到的测试结果，重复步骤S4和步骤S5，迭代调整特征模板窗口的大小和特征模板的内容，直至得到最终的特征模板窗口的大小和特征模板的内容；

S7.根据步骤S6得到的最终的特征模板窗口的大小和特征模板的内容，采用条件随机场模型对所有的电子病历进行命名实体的识别。

步骤S1所述的构建某科室电子病历的专业领域词典，具体为提取与该科室相关的文献中的主题词和关键词，并对提取的主题词和关键词进行去重，最后再人工复查一遍，从而构建与该科室的症状相关、病因相关和治疗方法相关的专业领域词典。

步骤S2所述的将电子病历中的文本分类，具体为采用如下方法分类：

A.对电子病历进行预处理：提取电子病历中的患者住院号，并去除患者的基本信息，并将电子病历中的文本信息段落合并，从而将所有电子病历全文结构化为住院号+文本段落的形式；

B.对步骤A得到的电子病历进行语句分割及特征提取：对结构化的文本进行短语或语句的分割，并将所有病历的分词结果构造成词表，并对词表按照词频进行排序得到新词表，并以新词表的长度作为向量维度构建支持向量机算法的向量空间模型；

C.文本分类：根据病历中语句特征的提取结果，使用支持向量机算法训练文本分类模型，从而将病历中的语句分为包含该科室命名实体类别和不包含该科室命名实体类别。

步骤S3所述的对包含命名实体的文本进行实体标注，具体为采用如下规则进行实体标注：

规则1：标注的实体分为三类：症状相关的实体，病因相关的实体，以及治疗方法相关的实体；

规则2：对于每一个词语，用第一标记标注词语的第一个字符，第二标记标注词语的最后一个字符，第三标记标注词语的中间字符，并用第四标记标注单字字符；

规则3：针对症状相关的实体，病因相关的实体，以及治疗方法相关的实体，分别根据下述原则进行进一步标注：

症状相关的实体的进一步标注：若该词语是与症状相关的实体，则在规则2中已经标注的词语上增加第五标记；

病因相关的实体的进一步标注：若该词语是与病因相关的实体，则在规则2中已经标注的词语上增加第六标记；

治疗方法相关的实体的进一步标注：若该词语是与治疗方法相关的实体，则在规则2中已经标注的词语上增加第七标记。

步骤S4所述的初步设定条件随机场模型中特征模板窗口的大小，具体为根据步骤S1得到的专业领域词典中实体的字符长度分布情况，以及步骤S3得到的训练集，采用加权求和的方式设定特征模板窗口的大小。

步骤S5所述的对条件随机场模型中的特征模板内容进行初步设定，具体为根据实体本身的特征和实体上下文特征对条件随机场模型中的特征模板内容进行设定。

步骤S6所述的根据步骤S5得到的测试结果，重复步骤S4和步骤S5，迭代调整特征模板窗口的大小和特征模板的内容，直至得到最终的特征模板窗口的大小和特征模板的内容，具体为采用如下步骤得到最终的特征模板窗口的大小和特征模板的内容：

a.统计专业领域词典、训练集和测试集结果中，各类实体长度的分布情况；

b.在步骤S4的专业领域词典和训练集加权基础上，引入测试集结果，重新加权求和，调整特征模板窗口的大小；

c.根据步骤b调整的特征模板窗口的大小和上一次的识别结果，重新调整特征模板的内容；

d.根据步骤b调整的特征模板窗口的大小和步骤c调整的特征模板的内容，再次对测试集进行测试得到各类实体识别的结果；

e.采用如下公式计算准确率、召回率和F值，作为识别结果的度量标准：

准确率＝模型正确识别的个数/模型总共识别的个数

召回率＝模型正确识别的个数/训练集中的总个数

式中F为准确率，R为召回率，β为精度的偏重度量，若β＞1则表明F值中召回率所占的比重高于准确率所占的比重，若β＝1则表明F值中召回率和准确率所占的比重相等，若β＜1则表明F值中召回率所占的比重低于准确率所占的比重；

f.若本次识别结果的准确率、召回率以及F值均比上次识别结果高，则得到最终的特征模板窗口的大小和特征模板内容；否则，重复上述步骤，迭代调整特征模板窗口的大小和特征模板的内容。

本发明提供的这种电子病历中命名实体的识别方法，通过采用条件随机场模型对电子病历进行识别，从而达到了自动识别电子病历中命名实体的目的，大大提高了识别效率，而且通过迭代调整条件随机场的特征模板窗口的大小和内容对语料进行训练和测试，从而能够不断改善条件随机场模型的精度和模型识别度，能够更加精确和快速的进行实体识别。

附图说明

图1为本发明方法的方法流程图。

具体实施方式

如图1所示为本发明方法的方法流程图：本发明提供的这种电子病历中命名实体的识别方法，包括如下步骤：

S1.构建某科室电子病历的专业领域词典；

以眼科为例：在中国生物医学文献服务系统中使用分类检索，在分类导航中选择R77眼科学，查找相关眼科文献，提取相关文献中的主题词和关键词，并对提取出来的词语进行去重，最后人工去除一些和眼科完全不相关的词语，例如：人民、国家等，从而分别构建症状相关、病因相关、治疗方法相关的眼科领域词典；

S2.将某科室电子病历中的文本分类：分为包含命名实体的文本和不包含命名实体的文本；具体为采用如下方法分类：

A.对电子病历进行预处理：使用正则表达式(？<＝住院号：)[\s\S]*？(？＝(\r|\n|$))提取电子病历中的患者住院号，并去除患者的基本信息，并将电子病历中的文本信息段落合并，从而将所有电子病历全文结构化为住院号+文本段落的形式；

B.对步骤A得到的电子病历进行语句分割及特征提取：使用正则表达式(？<＝^|：|，|；|。|\.|\？|！|\n)[\s\S]*？(？＝(：|，|；|。|\.|\？|！|\n|$))对结构化的文本进行短语或语句的分割(可以采用中科院的分词工具NLPIR)，并对词表按照词频进行排序，去除低频词语得到新词表，并以新词表的长度作为向量维度构建支持向量机算法的向量空间模型，每个短语或语句将标示如下(同样以眼科为例)：

S_n＝(W_1,n,W_2,n,W_3,n,......,W_m,n)，其中，n为短语或者语句的序号，m为词表的维度，每一维代表一个词语，如果某个词语在该语句中出现，则相应的W_i,n为非零值，否则，W_i,n为零。每个语句有不同的S_n，因此，可以为每条语句构建不同的特征；再者，在每条语句后面添加一项眼科实体特征，该特征依据自定义的眼科专业领域词典来构建，如果该语句的某个词在自定义的眼科领域词典中出现，则该维的值为1，否则该维的值为0；

C.文本分类：根据病历中语句特征的提取结果，使用支持向量机算法训练文本分类模型，从而将病历中的语句分为包含命名实体类别和不包含命名实体类别；

S3.根据步骤S1得到的专业领域词典，对步骤S2得到的包含命名实体的文本进行实体标注，同时将标注后的文本构建训练集，未标注的文本作为测试集，具体为采用如下规则进行实体标注：

治疗方法相关的实体的进一步标注：若该词语是与治疗方法相关的实体，则在规则2中已经标注的词语上增加第七标记；

以眼科的标注为例：用B标注词语(词语包含的字符个数大于等于2)的第一个字符，E标注词语的最后一个字符，M标注词语的中间字符；用S标注单字字符；

症状相关的实体标注如下：在描述的标注符后面加上SY，即BSY标注症状的第一个字符，ESY标注症状的最后一个字符，MSY标注症状的中间字符；用SSY标注症状的单字字符；

病因相关的实体标注如下：在描述的标注符后面加上CD，即BCD标注病因的第一个字符，ECD标注病因的最后一个字符，MCD标注病因的中间字符；用SCD标注病因的单字字符；

治疗方法相关的实体标注如下：无论是药物治疗还是手术治疗，在描述的标注符后面加上TR，即BTR标注治疗方法的第一个字符，ETR标注治疗方法的最后一个字符，MTR标注病因的中间字符；用STR标注治疗方法的单字字符；

S4.根据步骤S3得到的训练集和步骤S1得到的专业领域词典中实体的字符长度的分布情况，采用加权求和的方式初步设定条件随机场模型中的特征模板窗口的大小；

例如：对于症状相关实体识别的特征模板窗口大小是这样确定的：1.统计症状相关实体训练集中实体长度的分布情况，假设总共得到1000个症状相关的实体，其中2字长，4字长，6字长的实体分别占20％，60％，20％；2.统计症状相关领域词典中实体长度的分布情况，假设总共有5000个症状相关的实体，其中2字长，3字长，4字长，5字长，6字长的实体分别占20％，5％，50％，5％，20％，则症状相关实体识别初步设定的特征模板窗口大小为：a*(2*20％+4*60％+6*20％)+b*(2*20％+3*5％+4*50％+5*5％+6*20％)，其中a+b＝1。病因相关实体、治疗方法相关实体的特征模板窗口大小的初步确定类似；

S5.根据步骤S4设定的特征模板窗口的大小，根据实体本身的特征和实体上下文特征对条件随机场模型中的特征模板内容进行初步设定，并对步骤S3中的测试集进行测试；

例如：根据步骤S4设定的特征模板窗口大小为5，假设w₀表示当前字，那么w_-1，w_-2分别表示当前字的前两个字，w₁，w₂分别表示当前字的后两个字，则利用领域知识构建的特征模板内容如下表1所示：

表1特征模板内容示意表

特征	特征值表示	特征	特征值表示	特征	特征值表示
						F1	f(w_-2)	F4	f(w₁)	F7	f(w_-1,w₀)
F2	f(w_-1)	F5	f(w₂)	F8	f(w₀,w₁)
						F3	f(w₀)	F6	f(w_-2,w_-1)	F9	f(w₁,w₂)

其中，f为特征函数，它考虑当前字以及当前字的上下文作为条件随机场训练的特征。

S6.根据步骤S5得到的测试结果，重复步骤S4和步骤S5，迭代调整特征模板窗口的大小和特征模板的内容，直至得到最终的特征模板窗口的大小和特征模板的内容。具体为采用如下步骤得到最终的条件随机场模型中的特征模板窗口的大小和特征模板内容：

b.在步骤S4的专业领域词典和训练集加权基础上，引入测试集结果，重新加权求和，调整特征模板窗口的大小；例如：症状相关领域词典中词长分布分别为：2字长，3字长，4字长，5字长，6字长的实体分别占20％，5％，50％，5％，20％，在训练集中词长分布分别为：2字长，4字长，6字长的实体分别占20％，60％，20％，在测试集结果中词长分布分别为：2字长，4字长，6字长的实体分别占20％，60％，20％，则重新调整的特征模板窗口大小为：a*(2*20％+4*60％+6*20％)+b*(2*20％+3*5％+4*50％+5*5％+6*20％)+c*(2*20％+4*60％+6*20％)，其中a+b+c＝1；

准确率＝模型正确识别的个数/模型总共识别的个数

召回率＝模型正确识别的个数/训练集中的总个数

f.若本次识别结果的准确率、召回率以及F值均比上次识别结果高，则得到最终的特征模板窗口的大小和特征模板内容；否则，重复上述步骤，迭代调整特征模板窗口的大小和特征模板的内容；

Claims

1.一种电子病历中命名实体的识别方法，包括如下步骤：

S1.构建某科室电子病历的专业领域词典；

2.根据权利要求1所述的电子病历中命名实体的识别方法，其特征在于步骤S1所述的构建某科室电子病历的专业领域词典，具体为提取与该科室相关的文献中的主题词和关键词，并对提取的主题词和关键词进行去重，最后再人工复查一遍，从而构建与该科室的症状相关、病因相关和治疗方法相关的专业领域词典。

3.根据权利要求2所述的电子病历中命名实体的识别方法，其特征在于步骤S2所述的将电子病历中的文本分类，具体为采用如下方法分类：

4.根据权利要求3所述的电子病历中命名实体的识别方法，其特征在于步骤S3所述的对包含命名实体的文本进行实体标注，具体为采用如下规则进行实体标注：

5.根据权利要求4所述的电子病历中命名实体的识别方法，其特征在于步骤S4所述的初步设定条件随机场模型中特征模板窗口的大小，具体为根据步骤S1得到的专业领域词典中实体的字符长度分布情况，以及步骤S3得到的训练集，采用加权求和的方式初步设定特征模板窗口的大小。

6.根据权利要求5所述的电子病历中命名实体的识别方法，其特征在于步骤S5所述的对条件随机场模型中的特征模板内容进行初步设定，具体为根据实体本身的特征和实体上下文特征对条件随机场模型中的特征模板内容进行设定。

7.根据权利要求6所述的电子病历中命名实体的识别方法，其特征在于步骤S6所述的根据步骤S5得到的测试结果，重复步骤S4和步骤S5，迭代调整特征模板窗口的大小和特征模板的内容，直至得到最终的特征模板窗口的大小和特征模板的内容，具体为采用如下步骤得到最终的特征模板窗口的大小和特征模板的内容：

d.根据步骤b调整的特征模板窗口的大小和步骤c设定调整的特征模板的内容，再次对测试集进行测试得到各类实体识别的结果；

准确率＝模型正确识别的个数/模型总共识别的个数

召回率＝模型正确识别的个数/训练集中的总个数

<mrow> <mi>F</mi> <mo>=</mo> <mfrac> <mrow> <mo>(</mo> <msup> <mi>&beta;</mi> <mn>2</mn> </msup> <mo>+</mo> <mn>1</mn> <mo>)</mo> <mo>&CenterDot;</mo> <mi>P</mi> <mo>&CenterDot;</mo> <mi>R</mi> </mrow> <mrow> <mo>(</mo> <msup> <mi>&beta;</mi> <mn>2</mn> </msup> <mo>&CenterDot;</mo> <mi>P</mi> <mo>)</mo> <mo>+</mo> <mi>R</mi> </mrow> </mfrac> </mrow>