CN111079377B - 一种面向中文医疗文本命名实体识别的方法 - Google Patents

一种面向中文医疗文本命名实体识别的方法 Download PDF

Info

Publication number
CN111079377B
CN111079377B CN201911223532.0A CN201911223532A CN111079377B CN 111079377 B CN111079377 B CN 111079377B CN 201911223532 A CN201911223532 A CN 201911223532A CN 111079377 B CN111079377 B CN 111079377B
Authority
CN
China
Prior art keywords
word
vector
medical
character
model
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201911223532.0A
Other languages
English (en)
Other versions
CN111079377A (zh
Inventor
黄少滨
张柏嘉
申林山
李熔盛
李轶
余日昌
颜伟
邹长明
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Harbin Engineering University
Original Assignee
Harbin Engineering University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Harbin Engineering University filed Critical Harbin Engineering University
Priority to CN201911223532.0A priority Critical patent/CN111079377B/zh
Publication of CN111079377A publication Critical patent/CN111079377A/zh
Application granted granted Critical
Publication of CN111079377B publication Critical patent/CN111079377B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Medical Treatment And Welfare Office Work (AREA)

Abstract

本发明属于医学文本标注技术领域,具体涉及一种面向中文医疗文本命名实体识别的方法。本发明通过自定义多个实体类别并依此构建医疗术语标注词典实现了对原始医疗文本中实体的自动标注,在此基础上提出了一种多粒度特征融合的模型,首次将汉字的部首作为实体识别和分类的特征应用到医疗实体识别的任务中,通过对医疗文本中的词、字、字的部首三个不同粒度上的特征进行提取、表示和融合,并利用ID‑CNN‑CRF算法训练模型,以实现对各类医疗文本中医疗实体的识别工作。该方法的优势在于能应用在电子病历、医学期刊等各类医疗文本中,同时能较好地解决医疗领域中不同实体之间长度差异较大的问题,并且对于未登录实体的识别有着很好的效果。

Description

一种面向中文医疗文本命名实体识别的方法
技术领域
本发明属于医学文本标注技术领域,具体涉及一种面向中文医疗文本命名实体识别的方法。
背景技术
医学文本的标注问题是自然语言处理在医学领域应用的一个热点问题。医学文本主要包括医学类的期刊和患者就医过程中所形成的电子病历,医学文本被认为是医疗信息系统的核心数据,因此使用计算机程序从这些文本中自动挖掘出这些知识就显得十分重要,该项技术主要涉及使用程序代码在医疗文本上应用自然语言处理(NLP)、信息抽取(包括实体和关系等)等相关技术进行分析和挖掘。
医疗命名实体识别是自然语言处理应用在医疗领域中的重要任务之一,传统的命名实体识别方法主要有基于规则匹配的算法和基于机器学习的算法两大类。然而传统的机器学习模型都存在着一个共同的缺点——对于特征提取的要求很高,需要事先对预处理的数据进行大量的人工标注才能训练出较好的效果,因此建模的成本很高。近年来,神经网络在通用领域的命名实体识别中展现出了很大的优势,主要表现在基于神经网络的深度学习方法具有很强的泛化性,本发明将利用卷积神经网络实现对医疗实体的识别工作。
相比于一般领域的命名实体,医学领域的NER任务通常面临着以下几个困难:
(1)医学领域通常包含更多的实体类别
(2)待识别和抽取的实体上下文中往往会存在很多不同的修饰和限定词,从而导致实体的边界难以划分和确定
(3)医学领域统一的命名规范,即待识别的实体可能存在很多种不同的表述方式
(4)不同实体间的长度可能存在巨大的差异,对于一些疾病名称和药品名称,实体的长度可能会很长,甚至某些实体可能包含10个以上的字符,而又存在部分实体仅包含2-3个字符,这显然加大了标注任务的难度。
发明内容
本发明的目的在于提供一种面向中文医疗文本命名实体识别的方法。
本发明的目的通过如下技术方案来实现:包括以下步骤:
步骤1:输入待识别的中文医疗文本,进行预处理;
步骤1.1:根据标注词典对待识别的中文医疗文本数据中的每个句子S进行分词和标注,S=(w1,w2,…wi,…wn),wi表示对S进行分词之后,该句子中的第i个词语;
步骤1.2:对每个句子进行分字处理,S=(c1,c2…ci…cm),其中ci表示对句子S进行分字处理后的第i个字符;
步骤2:对于每一个句子S,对组成它的字、词、部首三个粒度的特征分别进行提取;
步骤2.1:词语特征的提取及向量表示;
对于分词和标注之后的每个句子中的每个词语wi,将该词语的第一个字符用1表示,最后一个字符用3表示,出现在中间位置的字符统一编码为2;如果一个词语的长度小于2,则其所对应的向量在终止位置之后统一用0补齐;对于只由单个汉字独立构成的词,统一用全为0的20维向量来表示,得到词语的向量
Figure GDA0003902778700000021
k=20;
步骤2.2:字特征的提取和向量表示;
利用现有的Word2Vec模型中的Skip-Gram算法对文本中的每一个字符进行训练,将每个字符用100维的数值向量进行表示,得到字向量
Figure GDA0003902778700000022
t=100;
步骤2.3:部首特征的提取和向量表示;
将文本中每个单字的部首拆分出来,设其部首所对应的会意字为P,则通过检索字向量字典可以得到该会意字所对应的100维字向量,将该100维向量看作是该字的部首向量,记为
Figure GDA0003902778700000023
l=100;
步骤3:将提取出的三种特征进行特征融合,得到用于实体识别和分类的特征的联合向量表示;
步骤3.1:字向量和部首向量的融合;
使用逐点相加法对二者进行特征融合,将两个向量的对应分量逐个进行相加,用相加之后的分量作为融合之后新的特征向量的分量,记将字向量和部首向量融合之后的特征向量为x=(x1,x2,…xl),该过程可以用如下的公式表示:
x=(x1,x2,…xl)=(μ11,μ22,…μtl)
步骤3.2:词语特征的融合;
对于字+部首的特征向量与词语特征向量进行融合,由于二者的维度不相同,这里使用维度拼接的方法进行特征融合,记融合之后的最终特征向量为Y=(y1…yd),其中d表示融合之后特征的维度,则维度拼接的过程由如下的公式表示:
Figure GDA0003902778700000024
其中,d=k+l,通过前面的条件可知,这里的d=120,即最终得到的融合之后的特征向量为120维。
本发明的有益效果在于:
本发明通过自定义多个实体类别并依此构建医疗术语标注词典实现了对原始医疗文本中实体的自动标注,在此基础上提出了一种多粒度特征融合的模型,首次将汉字的部首作为实体识别和分类的特征应用到医疗实体识别的任务中,通过对医疗文本中的词、字、字的部首三个不同粒度上的特征进行提取、表示和融合,并利用ID-CNN-CRF算法训练模型,以实现对各类医疗文本中医疗实体的识别工作。该方法的优势在于能应用在电子病历、医学期刊等各类医疗文本中,同时能较好地解决医疗领域中不同实体之间长度差异较大的问题,并且对于未登录实体的识别有着很好的效果。
附图说明
图1为本发明中对原始医疗文本进行分词和标注等预处理的流程图。
图2为本发明中对语料数据集中的字、词、部首三个粒度的不同特征进行抽取并进行特征融合的流程图。
图3是本发明在模型训练阶段使用的膨胀卷积神经网络(ID-CNN)计算层的示意图。
图4是本发明实施例中模型训练阶段的流程图。
图5是本发明实施例中设定的12类不同类型的实体的类型、标记与备注信息表。
图6是本发明实施例中实验软件环境表。
图7是本发明实施例中模型的配置参数表。
具体实施方式
下面结合附图对本发明做进一步描述。
本发明提供了一种面向中文医疗文本命名实体识别的方法,涉及医疗实体识别技术领域。该实体识别方法包括:通过自定义多个实体类别并依此构建医疗术语标注词典实现了对原始医疗文本中实体的自动标注,在此基础上提出了一种多粒度特征融合的模型,首次将汉字的部首作为实体识别和分类的特征应用到医疗实体识别的任务中,通过对医疗文本中的词、字、字的部首三个不同粒度上的特征进行提取、表示和融合,并利用ID-CNN-CRF算法训练模型,以实现对各类医疗文本中医疗实体的识别工作。该方法的优势在于能应用在电子病历、医学期刊等各类医疗文本中,同时能较好地解决医疗领域中不同实体之间长度差异较大的问题,并且对于未登录实体的识别有着很好的效果。
一种面向中文医疗文本命名实体识别的方法,包括以下步骤:
步骤1:输入待识别的中文医疗文本,进行预处理;
步骤1.1:根据标注词典对待识别的中文医疗文本数据中的每个句子S进行分词和标注,S=(w1,w2,…wi,…wn),wi表示对S进行分词之后,该句子中的第i个词语;
步骤1.2:对每个句子进行分字处理,S=(c1,c2…ci…cm),其中ci表示对句子S进行分字处理后的第i个字符;
步骤2:对于每一个句子S,对组成它的字、词、部首三个粒度的特征分别进行提取;
步骤2.1:词语特征的提取及向量表示;
对于分词和标注之后的每个句子中的每个词语wi,将该词语的第一个字符用1表示,最后一个字符用3表示,出现在中间位置的字符统一编码为2;如果一个词语的长度小于2,则其所对应的向量在终止位置之后统一用0补齐;对于只由单个汉字独立构成的词,统一用全为0的20维向量来表示,得到词语的向量
Figure GDA0003902778700000041
k=20;
步骤2.2:字特征的提取和向量表示;
利用现有的Word2Vec模型中的Skip-Gram算法对文本中的每一个字符进行训练,将每个字符用100维的数值向量进行表示,得到字向量
Figure GDA0003902778700000042
t=100;
步骤2.3:部首特征的提取和向量表示;
将文本中每个单字的部首拆分出来,设其部首所对应的会意字为P,则通过检索字向量字典可以得到该会意字所对应的100维字向量,将该100维向量看作是该字的部首向量,记为
Figure GDA0003902778700000043
l=100;
步骤3:将提取出的三种特征进行特征融合,得到用于实体识别和分类的特征的联合向量表示;
步骤3.1:字向量和部首向量的融合;
使用逐点相加法对二者进行特征融合,将两个向量的对应分量逐个进行相加,用相加之后的分量作为融合之后新的特征向量的分量,记将字向量和部首向量融合之后的特征向量为x=(x1,x2,…xl),该过程可以用如下的公式表示:
x=(x1,x2,…xl)=(μ11,μ22,…μtl)
步骤3.2:词语特征的融合;
对于字+部首的特征向量与词语特征向量进行融合,由于二者的维度不相同,这里使用维度拼接的方法进行特征融合,记融合之后的最终特征向量为Y=(y1…yd),其中d表示融合之后特征的维度,则维度拼接的过程由如下的公式表示:
Figure GDA0003902778700000044
其中,d=k+l,通过前面的条件可知,这里的d=120,即最终得到的融合之后的特征向量为120维。
实施例1:
一种基于多粒度特征融合的中文医疗文本命名实体识别的方法,其特征可以归纳为:
1)医疗实体类别的定义以及实体标注词典的构建;
借助标注词典,对原始的医疗文本(待识别文本)进行分词和实体类别的标注等文本预处理工作;
通过爬取权威的在线医疗服务网站,将获取到的医学术语按照1)中人工预先定义好的12个类别(包括疾病实体、症状实体、检查实体、药品实体、手术实体、器官实体、部位实体、体征实体、既往信息实体、条件词实体、频率词实体、程度词实体)进行类别标注从而构建出医疗术语分词和标注词典。
2)在标注好的语料上,利用不同的算法和模型分别对医疗术语中的词、字、部首三个不同粒度特征进行提取和向量表示;
利用构建好的词典并借助Jieba分词工具和最大匹配算法对原始的医疗本进行分词和类别标记,本发明所用的语料包括多个真实的电子病历以及多篇医学杂志和论文。将标注好类别的词语切分为单个的汉字,并根据其实体类别以及在实体词中出现的位置进行进一步的BIO实体边界标记,之后按照10∶3∶2的比例将标记好的字与其标记作为数据分别存入训练集、验证集与测试集。
3)针对提取出的多种不同的特征进行特征融合,得到用于实体识别和分类的特征的联合向量表示;
所述的多粒度特征提取方法,包括:
词粒度特征的提取和表示,本发明中提到的词特征包括词语的词性特征、词语的长度特征及其在句子中的位置特征,本发明通过定义了一种新的向量编码方式对以上特征进行提取并用数值向量表示。
字粒度的特征提取和表示,通过Word2Vec模型对医疗文本中的字符特征进行提取,并训练成字向量表示。
部首特征的提取和表示:通过检索拆字字典并使用卷积神经网络(CNN)模型对组成每个汉字的部首进行特征提取和训练,得到部首的向量表示。
4)基于ID-CNN-CRF算法训练出可以识别出各类医疗文本中的医疗实体的模型并进行测试和评估;
通过使用逐点相加的方法对已经提取的字向量和部首向量进行融合,之后使用维度拼接的算法再对词语特征向量进行融合,最终得到每个医疗实体的字、词、部首三个不同粒度上的特征的联合向量表示。
利用膨胀卷积网络(ID-CNN)和条件随机场(CRF)模型对得到的用于实体识别和分类的融合后的联合特征向量进行训练,最终得到可以实现医疗实体识别的模型,并对得到的模型的准确率、召回率和F值分别进行评估测试,并应用在真实的医疗文本中进行性能测试。
下面进行具体阐述:
步骤1原始文本数据的预处理
步骤1.1利用构建好的分词和标注好的词典对医疗文本数据集中的每个句子S进行分词和标注,S=(w1,w2,…wi,…wn),wi表示对S进行分词之后,该句子中的第i个词语;
步骤1.2对每个句子进行分字处理,S=(c1,c2…ci…cm),其中ci表示对句子S进行分字处理后的第i个字符;
步骤2对于每一个句子S,对组成它的字、词、部首三个粒度的特征分别进行提取;
步骤2.1词语特征的提取及向量表示:对于分词和标注之后的每个句子中的每个词语wi,分别用一个20维的数值向量来表示,具体的算法为:将该词语的第一个字符(即起始位置)用1表示,最后一个字符(终止位置)用3表示,出现在中间位置的字符统一编码为2。如果一个词语的长度小于2,则其所对应的向量在终止位置之后统一用0补齐;对于只由单个汉字独立构成的词,统一用全为0的20维向量来表示,词语的向量
Figure GDA0003902778700000061
这里k=20
步骤2.2字特征的提取和向量表示:利用现有的Word2Vec模型中的Skip-Gram算法对文本中的每一个字符进行训练,将每个字符用100维的数值向量进行表示,字向量
Figure GDA0003902778700000062
这里t=100;
步骤2.3部首特征的提取和向量表示:通过查阅网上拆字字典,将文本中每个单字的部首拆分出来,设其部首所对应的会意字为P,则通过检索字向量字典可以得到该会意字所对应的100维字向量,将该100维向量看作是该字的部首向量,记为
Figure GDA0003902778700000063
其中l=100;
步骤3特征融合
步骤3.1字向量和部首向量的融合:使用逐点相加法对二者进行特征融合,也就是将两个向量的对应分量逐个进行相加,用相加之后的分量作为融合之后新的特征向量的分量,记将字向量和部首向量融合之后的特征向量为x=(x1,x2,…xl),则该过程可以用如下的公式表示:
x=(x1,x2,…xl)=(μ11,μ22,…μtl)
步骤3.2词语特征的融合:对于字+部首的特征向量与词语特征向量进行融合,由于二者的维度不相同,这里使用维度拼接的方法进行特征融合,记融合之后的最终特征向量为Y=(y1…yd),其中d表示融合之后特征的维度,则维度拼接的过程由如下的公式表示:
Figure GDA0003902778700000071
其中,d=k+l,通过前面的条件可知,这里的d=120,即最终得到的融合之后的特征向量为120维。
下面将结合附图对本发明中的所涉及的技术方案的各个步骤进行具体和详细的阐述。
步骤1、定义医疗实体类别并构建用于医疗实体标注的词典。
步骤2、借助标注词典,对原始的医疗文本进行分词和实体类别的标注等文本预处理工作。
步骤3、在标注好的语料上,利用不同的算法和模型分别对医疗术语中的词、字、部首三个不同粒度特征进行提取。
步骤4、针对提取出的多种不同的特征进行特征融合,得到用于实体识别和分类的特征的联合向量表示。
步骤5、使用ID-CNN-CRF算法训练出可以识别出各类医疗文本中的医疗实体的模型并进行测试和评估。
如附图1所示,步骤1主要涉及中文的医学实体词典的构建,方便后续对原始的医疗文本进行分词、标注等数据预处理工作。本文所用的语料为中文医疗文本,包括3000个来自哈尔滨医科大学第一附属医院的真实的电子病历以及从中国知网上获取的3000篇医疗领域的学术期刊文本。通过分析大量的医疗文本,可以发现出现在整个医疗中频率最高的为以下几类实体:症状、检查、疾病和治疗,并且这四大类信息在统一医学语言系统(UMLS)中也具有明确对应的语义类型。本发明同样使用UMLS语义类型界定每一类实体所涵盖的范围,所涉及到的语义类型也同时参照了I2B2选用的语义类型。采用语义类型来确定实体类型的范围可以看成是采用医疗领域的惯例对实体类型进行划分,从而使得实体识别任务的规范性更强,更具操作性,除了这四大类基本的实体以外,对于一些修饰、限定这些实体的信息,我们也应该关注。修饰信息的识别是中文电子病历命名实体识别所独有的任务。本发明中所定义的命名实体遵循以下三个原则:实体间不重叠、不嵌套、实体内部不含有表示停顿的标点符号和特殊字符(例如逗号、顿号、句号等)。基于以上原则,本实施例共设定了12类不同类型的实体,它们的类型、标记与备注信息,具体的见下图5所示。
如附图1所示,步骤2主要是利用已经构建好的医疗实体标注词典对原始的电子病历进行文本预处理工作。具体地,将步骤1中建立的医学词典中的词以及其所对应的标签加入到Jieba分词器中,并默认将加入的各个实体的频率值设为1,Jieba分词工具在分词和词性标注的任务中已经能达到很高的准确率,但是就本发明所涉及的任务而言,由于待识别实体的专业性和领域性特点,所以需要将自己建立的医学词典加入Jieba分词工具的用户词典中,以提高分词和词性标注的准确率。利用Jieba分词工具对原始文本进行分词和词性标注,并利用正则表达式匹配文本中的一些特殊符号(例如。!?)用来标识文本中一个句子的结束,以便之后利用句子的特征进行训练。对于切分完的词的词性,如果出现在我们自定义的词典中,则将该词按字符再次进行切分并将该词的词性属性赋予到每一个单字上,并根据该字符出现在词中的位置加上对应的位置标记信息,如果是开头则标记为“B-”,否则标记为“I-”。而对于词性标注不在新加入词典标注中的词,则将其每个单字统一用字符“O”进行标识。之后将每个单字和其对应的标注作为数据并按照10∶3∶2的比例分别写入到训练集、验证集和测试集中。
附图2涉及步骤3和步骤4,在步骤2已经完成了文本预处理的工作之后,在步骤3中分别从词语、组成词语的汉字以及构成字的部首三个粒度提取相应的特征并使用向量化表示,之后在步骤4中利用特征融合的方法得到每个实体的联合特征向量表示方式,具体的方法为:
部首特征的提取和表示:对于英文而言,每个英语单词是由单个的字母所组成的,通过将单词拆分为单个的字母作为某些自然语言处理任务中的特征可以取得不错的效果。而在汉语中,汉字是一种象形文字,都是由单个的部首组成的,而部首往往代表着某种含义,具有相同部首的汉字通常所表示的事物都具有一些共同的特征。而在医疗领域的实体识别中,由于主要识别的实体类别包括疾病、药品、器官、部位、症状等。通过观察和总结发现,(1)构成疾病类的实体的单个汉字在拆分之后通常包含“疒”,而“疒”在汉语中所对应的会意字就是“病”,表示疾病的意思;(2)构成器官和部位类实体的汉字在拆分之后通常包含“月”,而“月”在汉语中所对应的会意字为“肉”,表示身体的某个部位或者某个器官;(3)构成药品类实体的汉字在进行拆分之后通常包含“艹”、“木”、“酉”等部分,这些部首通常表示和植物相关的事物,因此也具有一定的共性。通过以上几个例子的介绍,我们可以发现,汉字作为典型的象形文字,将其拆开后,具有相近意思的字往往包含相同的部首,因此可以把汉字拆分后的部首作为不同类别的实体进行识别的特征进行抽取。具体地,本发明通过获取和查阅网上权威的拆字字典,该字典共包含17951个不同汉字与其拆分后各部分所对应的会意字。通过查询该拆字字典将训练集中每个汉字进行拆分处理,并同时查询出其主要部首所对应的会意字,会意字往往可以表示该部首所具有的实际含义,从而可以根据会意字所对应的字向量来表示该汉字的部首特征,之后利用卷积神经网络(CNN)对各部首进行训练,得到表示部首特征的向量。
字特征的提取和表示:本发明中所使用的训练集数据就是以单个的字以及其对应的标签为主要特征进行模型训练的。每个训练样本除了包含字与其所属词的词性之外,还包含了该字符在所属词(实体)中的位置信息,本发明通过在训练时将原本标注好的BIO标记方式转换为信息更丰富的BIOES标记方式,也是对单字进行这样的标记方式,使得字特征在整个命名实体过程中的作用更加明显,也使得最终抽取出的实体能包含更加丰富的信息。具体地,将组成实体的汉字通过Word2Vec算法进行训练,得到1每个字的字向量表示。
词语特征的提取和表示:本发明为了从词语粒度获取更多的特征信息作为实体分类识别的依据,将从以下几个不同的方面对词语的不同特征进行提取:
(1)词性特征:对于处于某个位置的词语的标注,通常会与这个词的词性相关。由于命名实体以名词居多,因此会和该实体所在的上下文中的词语的词性有一定的关联性,例如在表示疾病类的实体之前通常会出现“患”、“诊断”等动词,可以将这些动词看作是疾病类实体的左边界;此外,在表示身体某个器官或者部位的实体后边通常会出现“疼”、“痛”、“难受”等形容词,可以将这些形容词看作是器官或者部位类实体的右边界,将实体上下文中出现的词的词性作为特征,可以更好地识别出医疗实体的类别。
(2)表示词语长度的特征:由于医疗实体存在着长度差异较大的特点,即有些实体的长度较大,识别难度也相对较大。为了更好地识别出此类长度较大的实体,需要对实体的长度和构成该实体词的每个字所在的位置特征进行抽取。为此,本文提出了一种全新的词语长度的向量表示方法。具体地,对于分词和标注之后的每个句子中的每个词语,分别用一个20维的数值向量来表示,数值表示的规则为:将该词语的第一个字符(即起始位置)用1表示,最后一个字符(终止位置)用3表示,出现在中间位置的字符统一编码为2,如果一个词语的长度小于2,则其所对应的向量在终止位置之后统一用0补齐,从而构成一个完整的20维的词向量表示;而对于只由单个汉字独立构成的词,如“因”、“患”等,统一用全为0的20维向量来表示,说明它们的长度都为1;通过这样的向量表示方式,就可以提取出每个词语的长度特征,相同长度的词语具有相同的向量表示。至此,我们已经从词语粒度提取出了词性和长度特征。
特征融合:步骤4主要是特征融合的过程。因为预先提取的汉字部首向量和字向量维度相同,因此可以利用point-wise addition的特征融合方法将两个粒度的特征向量按点逐位相加,得到的融合后的向量维度数不变。之后,再将部首+汉字的联合向量与词语向量利用特征向量维度拼接的方式进行特征融合,最终得到维度为二者特征向量维度之和的部首+字+词的联合向量表示,即为融合后的特征向量。
步骤5为具体模型的训练,本发明使用ID-CNN-CRF网络来训练医疗实体识别的模型。卷积神经网络中的卷积层能很好地描述数据的局部特征,而通过池化层又可以进一步提取出这些局部特征中最具代表性的部分。但是普通的卷积网络又具有局部感受野的特点,即可扩张范围的范围较小,所以在处理文本数据时,通常会出现无法捕捉到更宽广的上下文信息。解决此问题最初的做法是增加网络的深度以达到扩张视野的目的,然后这样做势必会引入更多的参数以及超参数,它们都是呈指数级增长的。为了解决此类问题,本发明采取了膨胀卷积网络(ID-CNN)模型,将融合后的特征向量作为ID-CNN网络的输入进行模型训练过程,最后将输出向量再次利用CRF模型进行序列标注,从而生成最终的模型。膨胀卷积网络模型如附图3所示,它是在标准的卷积网络上加入了空洞,以此来增加感受野的范围,与原始的卷积神经网络相比,膨胀卷积网络多了多了一个超参数dilation rate,它指的是卷积核之间间隔的数量。
模型训练阶段:模型训练使用ID-CNN-CRF模型,具体的流程如附图4所示。模型训练阶段需要初始化模型参数,详细的实验软件环境以及模型的配置参数如下图6和图7所示。训练的第一步需要在每个批次输入60个句子,并将之前得到的不同粒度的特征向量作为输入送入到模型的embedding层进行特征融合得到句子中每个字的联合特征表示。之后将这些向量作为输入向量首先输入到普通的卷积网络中进行一次训练,之后在分别输入到膨胀系数不同的膨胀卷积网络中进行训练,将得到的结果进行维度拼接得到新的输出向量,最后输入到条件随机场(CRF)模型中进行训练。本发明在网络训练阶段选取adam函数作为优化器进行迭代训练,每轮训练通过不断降低误差,提高准确率训练模型的参数,从而得到训练模型,之后再利用条件随机场作为解码器对模型进行解码,即通过转移概率来获得实体中每个字被标记为某个标签的最大的可能性,从而为实体打上类别标签,实现实体识别和分类。通过模型训练,最终可以得到该模型的准确率可达到89.8%,召回率为83.5%,F值为85.1%,在准确率这一项评价指标上明显优于未采用汉字的部首作为特征的模型。
模型测试阶段:用户通过输入待测试的句子,可以返回给用户json格式的结果,其中包含以下几个信息:识别并抽取出的实体(word)、实体的起始位置(start)、实体的终止位置(end)、实体的类别标签(type),每个类别标签所表示的实际含义可以参见图5。
例如用户在控制台输入的待测试语句为“据患者既往脑梗死病史3年,遗留有左上肢无力,故诊断脑梗死后遗症成立”。识别的结果为:{′entities′:[{′word′:′既往′,′start′:3,′end′:5,′type′:′PT′},{′word′:′脑梗死′,′start′:5,′end′:8,′type′:′DIS′},{′word′:′左上肢′,′start′:16,′end′:19,′type′:′REG′},{′word′:′无力′,′start′:19,′end′:21,′type′:′SYM′},{′word′:′脑梗死后遗症′,′start′:25,′end′:31,′type′:′DIS′}]}
再例如,输入待测试句子为“据患者头颅CT示:双侧基底节区及右侧半卵圆中心腔隙性脑梗死。故诊断腔隙性脑梗死成立。”识别的结果为:entities′:[{′word′:′头颅CT′,′start′:3,′end′:7,′type′:′TES′},{′word′:′双侧′,′start′:9,′end′:11,′type′:′REG′},{′word′:′基底节区′,′start′:11,′end′:15,′type′:′REG′},{′word′:′右侧′,′start′:16,′end′:18,′type′:′REG′},{′word′:′腔隙性脑梗死′,′start′:23,′end′:29,′type′:′DIS′},{′word′:′腔隙性脑梗死′,′start′:33,′end′:39,′type′:′DIS′}]}。
以上结合发明内容和附图详细说明了本发明的具体实施方案,但是,本发明并不局限于上述实施例中的具体细节。
本发明的创新点在于:
1、通过预先建立医学词典和定义医疗实体类别,并对词典中的实体进行标记,利用Jieba分词工具以及相关算法可以实现对原始的医疗文本进行自动标注,从而得到一定规模的标注语料库,减少了人工进行数据标记的成本。
2、在特征提取方面,首次将汉字的部首作为分类特征进行提取并将其进行向量化表示,并分别从词、字、字的部首三个粒度进行特征提取,尤其是加入了中文汉字的部首作为特征进行模型的训练,使得模型的特征更加丰富。此外,在词粒度级别,选取了词的词性、在句子中的位置以及词语的长度三个信息作为特征;而在字粒度级别,选取了字本身的信息及其对应的标签信息作为模型的基本特征,这些特征均有益于医疗实体的识别和分类,将其进行融合可以得到更加丰富的实体特征信息,从而可以在一定程度上提高模型的准确率。
3、在模型上,本发明提出了CNN-ID-CNN-CRF网络模型,利用CNN提取并训练出组成实体的单个汉字的部首的特征向量表示,之后将部首向量与字向量和词向量进行特征融合得到实体的多粒度特征联合的向量表示,而对于膨胀卷积网络(ID-CNN)而言,它既有传统卷积神经网络(CNN)可以更好地捕获上下文特征的优势,又可以解决传统的CNN感受野受限的劣势。ID-CNN通过在卷积核之间加入空洞,可以扩大网络覆盖上下文的范围,在医学实体识别任务中可以更好地解决不同实体之间长度差异较大的问题,识别出长度较长的实体,同时该方法适用于各类医疗文本。
以上所述仅为本发明的优选实施例而已,并不用于限制本发明,对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (1)

1.一种面向中文医疗文本命名实体识别的方法,其特征在于,包括以下步骤:
步骤1:输入待识别的中文医疗文本,进行预处理;
步骤1.1:根据标注词典对待识别的中文医疗文本数据中的每个句子S进行分词和标注,S=(w1,w2,…wi,…wn),wi表示对S进行分词之后,该句子中的第i个词语;
步骤1.2:对每个句子进行分字处理,S=(c1,c2…ci…cm),其中ci表示对句子S进行分字处理后的第i个字符;
步骤2:对于每一个句子S,对组成它的字、词、部首三个粒度的特征分别进行提取;
步骤2.1:词语特征的提取及向量表示;
对于分词和标注之后的每个句子中的每个词语wi,将该词语的第一个字符用1表示,最后一个字符用3表示,出现在中间位置的字符统一编码为2;当一个词语的长度小于2,则其所对应的向量在终止位置之后统一用0补齐;对于只由单个汉字独立构成的词,统一用全为0的20维向量来表示,得到词语的向量Vi w=(η1,η2…ηk),k=20;
步骤2.2:字特征的提取和向量表示;
利用现有的Word2Vec模型中的Skip-Gram算法对文本中的每一个字符进行训练,将每个字符用100维的数值向量进行表示,得到字向量
Figure FDA0003891580270000011
t=100;
步骤2.3:部首特征的提取和向量表示;
将文本中每个单字的部首拆分出来,设其部首所对应的会意字为P,则通过检索字向量字典得到该会意字所对应的100维字向量,将该100维向量看作是该字的部首向量,记为
Figure FDA0003891580270000012
l=100;
步骤3:将提取出的三种特征进行特征融合,得到用于实体识别和分类的特征的联合向量表示;
步骤3.1:字向量和部首向量的融合;
使用逐点相加法对二者进行特征融合,将两个向量的对应分量逐个进行相加,用相加之后的分量作为融合之后新的特征向量的分量,记将字向量和部首向量融合之后的特征向量为x=(x1,x2,…xl),用如下的公式表示:
x=(x1,x2,…xl)=(μ11,μ22,…μtl)
步骤3.2:词语特征的融合;
对于字+部首的特征向量与词语特征向量进行融合,由于二者的维度不相同,这里使用维度拼接的方法进行特征融合,记融合之后的最终特征向量为Y=(y1 … yd),其中d表示融合之后特征的维度,则维度拼接的过程由如下的公式表示:
Figure FDA0003891580270000021
其中,d=k+l,通过前面的条件可知,这里的d=120,即最终得到的融合之后的特征向量为120维;
步骤4:使用ID-CNN-CRF网络来训练医疗实体识别的模型,将融合后的特征向量作为ID-CNN网络的输入进行模型训练过程,将输出向量再次利用CRF模型进行序列标注,从而生成最终的模型;
模型训练阶段需要初始化模型参数,训练的第一步需要将不同粒度的特征向量作为输入送入到模型的embedding层进行特征融合得到句子中每个字的联合特征表示,之后将这些向量作为输入向量首先输入到普通的卷积网络中进行一次训练,之后在分别输入到膨胀系数不同的膨胀卷积网络中进行训练,将得到的结果进行维度拼接得到新的输出向量,最后输入到条件随机场CRF模型中进行训练;在网络训练阶段选取adam函数作为优化器进行迭代训练,每轮训练通过不断降低误差,提高准确率训练模型的参数,从而得到训练模型,之后再利用条件随机场作为解码器对模型进行解码,即通过转移概率来获得实体中每个字被标记为某个标签的最大的可能性,从而为实体打上类别标签,实现实体识别和分类。
CN201911223532.0A 2019-12-03 2019-12-03 一种面向中文医疗文本命名实体识别的方法 Active CN111079377B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911223532.0A CN111079377B (zh) 2019-12-03 2019-12-03 一种面向中文医疗文本命名实体识别的方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911223532.0A CN111079377B (zh) 2019-12-03 2019-12-03 一种面向中文医疗文本命名实体识别的方法

Publications (2)

Publication Number Publication Date
CN111079377A CN111079377A (zh) 2020-04-28
CN111079377B true CN111079377B (zh) 2022-12-13

Family

ID=70312662

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911223532.0A Active CN111079377B (zh) 2019-12-03 2019-12-03 一种面向中文医疗文本命名实体识别的方法

Country Status (1)

Country Link
CN (1) CN111079377B (zh)

Families Citing this family (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112035675A (zh) * 2020-08-31 2020-12-04 康键信息技术(深圳)有限公司 医疗文本标注方法、装置、设备及存储介质
CN112242185A (zh) * 2020-09-09 2021-01-19 山东大学 基于深度学习的医学图像报告自动生成方法及系统
CN112331332A (zh) * 2020-10-14 2021-02-05 北京工业大学 一种基于多粒度特征融合的疾病预测方法及系统
CN112270180A (zh) * 2020-11-03 2021-01-26 北京阳光云视科技有限公司 一种实体识别训练数据bio自动标注系统及方法
CN113808752A (zh) * 2020-12-04 2021-12-17 四川医枢科技股份有限公司 一种医学文档识别方法、装置及设备
CN112836046A (zh) * 2021-01-13 2021-05-25 哈尔滨工程大学 一种四险一金领域政策法规文本实体识别方法
CN113779993B (zh) * 2021-06-09 2023-02-28 北京理工大学 一种基于多粒度文本嵌入的医学实体识别方法
CN113408289B (zh) * 2021-06-29 2024-04-16 广东工业大学 一种多特征融合的供应链管理实体知识抽取的方法及系统
CN113627172A (zh) * 2021-07-26 2021-11-09 重庆邮电大学 基于多粒度特征融合和不确定去噪的实体识别方法及系统
CN113536799B (zh) * 2021-08-10 2023-04-07 西南交通大学 基于融合注意力的医疗命名实体识别建模方法
CN113889281B (zh) * 2021-11-17 2024-05-03 华美浩联医疗科技(北京)有限公司 一种中文医疗智能实体识别方法、装置及计算机设备
CN114692644A (zh) * 2022-03-11 2022-07-01 粤港澳大湾区数字经济研究院(福田) 一种文本实体标注方法、装置、设备及存储介质
CN114328938B (zh) * 2022-03-16 2022-06-24 浙江卡易智慧医疗科技有限公司 一种影像报告结构化提取方法
CN114648029A (zh) * 2022-03-31 2022-06-21 河海大学 一种基于BiLSTM-CRF模型的电力领域命名实体识别方法
CN116205235B (zh) * 2023-05-05 2023-08-01 北京脉络洞察科技有限公司 一种数据集划分方法、装置及电子设备
CN117423470B (zh) * 2023-10-30 2024-04-23 盐城市第三人民医院 一种慢性病临床决策支持系统及构建方法
CN117316372B (zh) * 2023-11-30 2024-04-09 天津大学 一种基于深度学习的耳疾电子病历解析方法

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2001002984A2 (en) * 1999-07-02 2001-01-11 Iharvest Corporation System and method for capturing and managing information from digital source
RU2619193C1 (ru) * 2016-06-17 2017-05-12 Общество с ограниченной ответственностью "Аби ИнфоПоиск" Многоэтапное распознавание именованных сущностей в текстах на естественном языке на основе морфологических и семантических признаков
CN108460089A (zh) * 2018-01-23 2018-08-28 哈尔滨理工大学 基于Attention神经网络的多元特征融合中文文本分类方法
CN108509520A (zh) * 2018-03-09 2018-09-07 中山大学 基于词性和多重cnn的多通道文本分类模型的构建方法
CN109388795A (zh) * 2017-08-07 2019-02-26 芋头科技(杭州)有限公司 一种命名实体识别方法、语言识别方法及系统
CN109670179A (zh) * 2018-12-20 2019-04-23 中山大学 基于迭代膨胀卷积神经网络的病历文本命名实体识别方法
CN109871538A (zh) * 2019-02-18 2019-06-11 华南理工大学 一种中文电子病历命名实体识别方法
CN109977413A (zh) * 2019-03-29 2019-07-05 南京邮电大学 一种基于改进cnn-lda的情感分析方法

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP6900190B2 (ja) * 2016-01-14 2021-07-07 キヤノン株式会社 認識学習装置、認識学習方法及びプログラム
CN108549639A (zh) * 2018-04-20 2018-09-18 山东管理学院 基于多特征模板修正的中医医案命名识别方法及系统
CN109062983A (zh) * 2018-07-02 2018-12-21 北京妙医佳信息技术有限公司 用于医学健康知识图谱的命名实体识别方法及系统
CN109471946B (zh) * 2018-11-16 2021-10-01 中国科学技术大学 一种中文文本的分类方法及系统
CN109992783B (zh) * 2019-04-03 2020-10-30 同济大学 中文词向量建模方法

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2001002984A2 (en) * 1999-07-02 2001-01-11 Iharvest Corporation System and method for capturing and managing information from digital source
RU2619193C1 (ru) * 2016-06-17 2017-05-12 Общество с ограниченной ответственностью "Аби ИнфоПоиск" Многоэтапное распознавание именованных сущностей в текстах на естественном языке на основе морфологических и семантических признаков
CN109388795A (zh) * 2017-08-07 2019-02-26 芋头科技(杭州)有限公司 一种命名实体识别方法、语言识别方法及系统
CN108460089A (zh) * 2018-01-23 2018-08-28 哈尔滨理工大学 基于Attention神经网络的多元特征融合中文文本分类方法
CN108509520A (zh) * 2018-03-09 2018-09-07 中山大学 基于词性和多重cnn的多通道文本分类模型的构建方法
CN109670179A (zh) * 2018-12-20 2019-04-23 中山大学 基于迭代膨胀卷积神经网络的病历文本命名实体识别方法
CN109871538A (zh) * 2019-02-18 2019-06-11 华南理工大学 一种中文电子病历命名实体识别方法
CN109977413A (zh) * 2019-03-29 2019-07-05 南京邮电大学 一种基于改进cnn-lda的情感分析方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
面向移动端的用户检索实体抽取系统设计与实现;曹圣明;《中国优秀硕士学位论文全文数据库信息科技辑》;20190515(第05期);I138-1911 *

Also Published As

Publication number Publication date
CN111079377A (zh) 2020-04-28

Similar Documents

Publication Publication Date Title
CN111079377B (zh) 一种面向中文医疗文本命名实体识别的方法
CN112242187B (zh) 基于知识图谱表征学习的医疗方案推荐系统及方法
CN109670179B (zh) 基于迭代膨胀卷积神经网络的病历文本命名实体识别方法
CN106776711B (zh) 一种基于深度学习的中文医学知识图谱构建方法
CN106844351B (zh) 一种面向多数据源的医疗机构组织类实体识别方法及装置
CN110851599B (zh) 一种中文作文自动评分方法及教辅系统
CN111538845A (zh) 一种构建肾病专科医学知识图谱的方法、模型及系统
CN112597774B (zh) 中文医疗命名实体识别方法、系统、存储介质和设备
US11989518B2 (en) Normalized processing method and apparatus of named entity, and electronic device
CN106980609A (zh) 一种基于词向量表示的条件随机场的命名实体识别方法
CN110931137B (zh) 机器辅助对话系统、方法及装置
CN111611775B (zh) 一种实体识别模型生成方法、实体识别方法及装置、设备
CN112151183A (zh) 一种基于Lattice LSTM模型的中文电子病历的实体识别方法
WO2023029502A1 (zh) 基于问诊会话构建用户画像的方法、装置、设备和介质
CN112154509A (zh) 具有用于文本注释的演变领域特异性词典特征的机器学习模型
CN108491515B (zh) 一种用于校园心理咨询的句对匹配度预测方法
CN112487202A (zh) 融合知识图谱与bert的中文医学命名实体识别方法、装置
CN114528919A (zh) 自然语言处理方法、装置及计算机设备
CN110675962A (zh) 一种基于机器学习和文本规则的中药药理作用识别方法及系统
CN113469163B (zh) 一种基于智能纸笔的医疗信息记录方法和装置
CN116092699A (zh) 一种基于预训练模型的癌症问答交互方法
Pichel et al. A methodology to measure the diachronic language distance between three languages based on perplexity
CN113130025A (zh) 一种实体关系抽取方法、终端设备及计算机可读存储介质
CN114139531A (zh) 一种基于深度学习的医疗实体预测方法及系统
Sarwar et al. AGI-P: A Gender Identification Framework for Authorship Analysis Using Customized Fine-Tuning of Multilingual Language Model

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant