CN111859938A - 基于位置向量降噪和丰富语义的电子病历实体关系抽取方法 - Google Patents
基于位置向量降噪和丰富语义的电子病历实体关系抽取方法 Download PDFInfo
- Publication number
- CN111859938A CN111859938A CN202010711245.0A CN202010711245A CN111859938A CN 111859938 A CN111859938 A CN 111859938A CN 202010711245 A CN202010711245 A CN 202010711245A CN 111859938 A CN111859938 A CN 111859938A
- Authority
- CN
- China
- Prior art keywords
- word
- vector
- entity
- electronic medical
- embedding
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 239000013598 vector Substances 0.000 title claims abstract description 138
- 238000000605 extraction Methods 0.000 title claims abstract description 33
- 230000009467 reduction Effects 0.000 title claims abstract description 23
- 230000007246 mechanism Effects 0.000 claims abstract description 13
- 238000000034 method Methods 0.000 claims description 22
- 238000012549 training Methods 0.000 claims description 14
- 230000006870 function Effects 0.000 claims description 9
- 230000004913 activation Effects 0.000 claims description 6
- 239000011159 matrix material Substances 0.000 claims description 6
- 238000012545 processing Methods 0.000 claims description 5
- 238000004364 calculation method Methods 0.000 claims description 4
- 239000000284 extract Substances 0.000 claims description 4
- 238000011176 pooling Methods 0.000 claims description 3
- 238000012937 correction Methods 0.000 claims description 2
- 230000008569 process Effects 0.000 claims description 2
- 230000009286 beneficial effect Effects 0.000 abstract description 3
- 238000003058 natural language processing Methods 0.000 abstract description 3
- 230000002950 deficient Effects 0.000 abstract description 2
- 238000013527 convolutional neural network Methods 0.000 description 12
- 238000012360 testing method Methods 0.000 description 8
- 230000000694 effects Effects 0.000 description 6
- 238000010801 machine learning Methods 0.000 description 4
- 238000011160 research Methods 0.000 description 4
- 238000012216 screening Methods 0.000 description 4
- 238000011282 treatment Methods 0.000 description 4
- 238000013135 deep learning Methods 0.000 description 3
- 238000010276 construction Methods 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 238000011156 evaluation Methods 0.000 description 2
- 238000002679 ablation Methods 0.000 description 1
- 208000026802 afebrile Diseases 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 150000001875 compounds Chemical class 0.000 description 1
- 238000013136 deep learning model Methods 0.000 description 1
- 230000007812 deficiency Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000003745 diagnosis Methods 0.000 description 1
- 201000010099 disease Diseases 0.000 description 1
- 208000037265 diseases, disorders, signs and symptoms Diseases 0.000 description 1
- 229940079593 drug Drugs 0.000 description 1
- 239000003814 drug Substances 0.000 description 1
- 230000008030 elimination Effects 0.000 description 1
- 238000003379 elimination reaction Methods 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 238000004880 explosion Methods 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 230000015654 memory Effects 0.000 description 1
- 238000007781 pre-processing Methods 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 230000006403 short-term memory Effects 0.000 description 1
- 230000002123 temporal effect Effects 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/049—Temporal neural networks, e.g. delay elements, oscillating neurons or pulsed inputs
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16H—HEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
- G16H10/00—ICT specially adapted for the handling or processing of patient-related medical or healthcare data
- G16H10/60—ICT specially adapted for the handling or processing of patient-related medical or healthcare data for patient-specific data, e.g. for electronic patient records
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Computing Systems (AREA)
- Software Systems (AREA)
- Molecular Biology (AREA)
- Data Mining & Analysis (AREA)
- Biophysics (AREA)
- Biomedical Technology (AREA)
- Mathematical Physics (AREA)
- Evolutionary Computation (AREA)
- Life Sciences & Earth Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Epidemiology (AREA)
- Medical Informatics (AREA)
- Primary Health Care (AREA)
- Public Health (AREA)
- Machine Translation (AREA)
Abstract
本发明属于自然语言处理技术领域,提出了一种基于位置向量降噪和丰富语义的电子病历实体关系抽取方法,主要由三部分组成:(1)电子病历文本嵌入;(2)基于注意力机制的位置向量降噪和语义引入;(3)基于CNN的特征提取。本发明提出一种基于位置向量降噪和丰富语义的电子病历实体关系抽取模型,从以下两个方面提高了电子病历领域实体关系抽取模型的性能,(1)位置向量有助于实体关系类别的判断,但也包含噪声信息,本文提出一种位置向量降噪方法,在利用位置信息的同时能有效降低位置向量噪声对模型的影响。(2)对于一些专业领域语料,词语义表示匮乏,本文提出了一种语义引入的方式,可以有效利用通用领域语料的丰富语义。
Description
技术领域
本发明属于自然语言处理技术领域,涉及一种对电子病历(EMR,ElectronicMedical Record)文本中的实体进行实体间关系抽取的方法,具体是指基于位置向量降噪和丰富语义的电子病历实体关系抽取。
背景技术
电子病历是一种电子化的病人诊疗记录,其中含有丰富的临床医学信息,从中抽取实体之间的关系是一项重要任务。目前,电子病历文本中实体关系抽取的研究大多数是针对句子级任务,主要研究从电子病历中抽取疾病、检查和治疗这几类实体间的关系。
电子病历实体关系抽取方法主要使用基于词典、基于统计机器学习和基于深度学习的方法。早期,研究者使用的是基于规则的方法。例如,Harkema等(ConText:Analgorithm for determining negation, experiencer,and temporal status fromclinical reports[J].Journal of Biomedical Informatics,2009) 提出一种上下文算法,该算法首先获取出现在上下文中的词法线索,然后依据此词法线索推断临床报告中提到的临床条件状态,对于包含给定条件的临床报告,该算法取得了很好的效果。基于规则的方法主要依赖专业人员制定的规则抽取信息,但实际运用中研究人员往往难以归纳出所有的语法和规则,所以结果一般较差。随着机器学习技术的不断发展,利用浅层机器学习技术进行电子病历文本实体关系抽取的方法逐渐增多。这些方法主要依赖于手工构建的一些特征,如词汇、语境、词位置信息、块标记等。例如,Rink and Harabagiu等(UTD:ClassifyingSemantic Relations by Combining Lexical and Semantic Resources[J].Proceedingsof the 5th International Workshop on Semantic Evaluation,2010)采用 SVM的方法,首先利用词汇、标记和相关领域的语料资源构建特征,然后将构建的特征用SVM进行实体关系分类,该方法在2010年i2b2/VA关系分类的挑战赛中取得了最好成绩。基于浅层机器学习的方法,过于依赖人工构建的特征,且这些特征需要外部自然语言处理工具生成,如词性标注和句法分析工具等,因此,模型性能受外部因素影响较大。相比之下,基于深度学习的方法可以利用模型自动学习特征的构建,且在电子病历关系抽取任务中取得了较好的结果。例如,He and Guan等(Classifying medical relations in clinical text viaconvolutional neural networks[J].Artificial Intelligence in Medicine,2019) 先利用电子病历领域语料训练得到词向量,然后将词向量送入多窗口的卷积神经网络(Convolutional Neural Networks,CNN)提取特征,最后结合添加了类别约束的损失函数训练模型,在2010年i2b2/VA关系抽取语料上F1值达到了69.7%。Raj等(Learning localand global contexts using a convolutional recurrent network model forrelation classification in biomedical text[C].Proceedings of the 21stConference on Computational Natural Language Learning,2017)提出了一种基于双向长短时记忆 (Bi-directional Long-Short Term Memory,BILSTM)和多层池化的模型,模型首先利用BILSTM编码句子信息,对编码后的信息以最大池化的方式抽取实体相关词特征,然后将池化后特征送入CNN模型抽象出更高维特征,并对此高维特征再次以最大池化的方式过滤,最后将过滤后的特征送入全连接层做分类,在2010 年i2b2/VA关系抽取语料上F1值为64.38%。
近年来,电子病历领域实体关系抽取的研究取得了一定的进展,但是相对于通用领域实体关系抽取任务,其模型性能仍然普遍较低。主要原因是电子病历领域由于可用训练语料不充足、独有的领域特性等问题,导致病历文本的语义不能被有效表达。此外,位置向量可以提高基于深度学习的实体关系抽取方法性能,但是当前模型在引入位置向量时忽略了其中的噪声信息。位置向量的作用没有被充分挖掘。
发明内容
本发明提出一种基于位置向量降噪和丰富语义的电子病历实体关系抽取模型。在利用位置信息的同时可以有效降低位置向量噪声对模型的影响,并引入通用领域语料的丰富语义,解决了电子病历领域语义表示匮乏问题。
本发明的技术方案:
主要由三部分组成:(1)电子病历文本嵌入;(2)基于注意力机制的位置向量降噪和语义引入;(3)基于CNN的特征提取。具体步骤如下:
(1)电子病历文本嵌入
文本嵌入是将电子病历语料转换为向量表示,一个好的嵌入方式是模型取得高性能表现的基础。本发明的文本嵌入方式有两种,分别是专业领域语料嵌入和通用领域语料嵌入。
1)专业领域语料嵌入
专业领域语料嵌入是由电子病历领域语料训练得到的词向量和词与实体相对位置向量拼接组成,用于词的注意力权重计算。词向量的训练采用word2vec(Tomas Mikolovand Kai Chen and Gregory S.Corrado and Jeffrey Dean.Efficient Estimation ofWord Representations in Vector Space[J].Computing Research Repository2013)的方法,位置向量由不同频率的正弦和余弦函数生成(Ashish Vaswani et al.Attention isAll you Need[J].ArXiv,2017),公式如下:
PE(pos,2l)=sin(pos/100002l/p) (1)
PE(pos,2l+1)=cos(pos/100002l/p) (2)
其中,PE为位置向量编码矩阵,pos表示词与实体相对位置,p为位置向量的维度,l表示位置向量的位置,奇数位置添加余弦变量,偶数位置添加正弦变量。虽然领域语料训练得到的词向量语义表示不够丰富,但是词向量之间的语义关联性更高,更容易获取词之间的依赖关系。这里将位置向量和词向量结合是为了学习得到词在位置上与实体的关联信息。设原句子序列中词的嵌入向量表示分别为 X={x1,x2,…,xg,…,xn},xg∈Rd+2p为句子中第g个词的嵌入向量表示(g∈[1,n]),n为句子长度,d表示词向量的维度。
2)通用领域语料嵌入
通用领域嵌入向量表示方式是采用来自网络爬虫获得的通用领域语料训练的词向量(840B标记,2.2M 词汇),用于词特征提取。设原句子序列中的词向量分别表示为S={s1,s2,…,sg,…,sn},sg∈Rq为句子中第 g个词的向量表示(g∈[1,n]),q表示词向量维度,n表示句子长度。
(2)基于注意力机制的位置向量降噪和丰富语义引入
1)注意力机制
首先计算词对应的隐藏层输出向量与实体对应隐藏层输出向量的余弦相似度,并用词对应隐藏层输出向量的模乘以此余弦相似度获得词到实体的投影向量,然后将此投影向量与实体对应向量模的比值作为词与实体的相关分数,最后将词与两个实体的相关分数做乘积得到该词的最终权重,通过此权重实现位置向量降噪和通用领域语料丰富语义的引入。
首先将专业领域语料嵌入送入BILSTM(Bi-directional Long-Short TermMemory),编码句子信息。 BILSTM由三个门控单元组成可以有效减弱长序列的梯度消失和爆炸,学习长距离词之间的依赖信息。ht (f)和ht (b)表示t时刻BILSTM的前向和后向输出,ht=[ht (f),ht (b)]作为最终输出。
ht=BILSTM(ht-1,xt) (3)
然后对BILSTM的隐藏层输出通过注意力机制计算词与实体的相关度。衡量两个向量相关度的计算方式有余弦相似度、皮尔逊相关系数等,本文基于余弦相似度先计算出词与实体隐层输出向量的余弦夹角,并在此基础上考虑向量的模大小,使用词对应的隐层输出向量到实体对应隐层输出向量的投影与后者模的比值作为词与实体的相关分数,总体计算公式如下:
αt=ft (1)*ft (2) (5)
其中,*表示两个数值相乘,·表示向量相乘,he (1)表示实体1的隐层输出,|he (1)|表示其模长,ft (1)表示第t个位置的词与实体1的相关度,ft (2)表示第t个位置的词与实体2的相关度,计算公式同ft (1),αt表示该词最终的权重分数。
2)位置向量降噪
实体在句子中的位置信息对实体关系的判断至关重要。目前,对实体位置信息的利用方法主要有两种:①根据实体位置找到实体边界对句子分段。②构造每个词与实体的相对位置向量。根据实体位置对句子分段的方法使用实体位置信息的粒度过粗,不能在词粒度上使用;第二种方法实现了更细粒度上实体位置信息的利用,但词相对位置向量引入了自身所包含的噪声信息。位置向量由多维特征组成,它与词向量的生成是独立的,直接与词向量结合后会产生噪声,影响模型对词语义的识别。一个词的位置向量是衡量该词在距离上与实体的相关程度,因此位置向量可以由词向量线性表示,即可以将位置向量转化为词向量的权重分数,从而降低位置向量噪声对词向量的影响。然而,在一句话中,距实体相同位置的词因为其本身词义和上下文环境的不同,与实体的相关程度是不同的,距离信息不能直接转为词权重。
本文先通过注意力机制综合考虑词语义信息和词与实体相对位置信息,将之转化为权重,再将权重与去除位置向量的专业领域语料嵌入结合,以权重的方式实现位置向量降噪。模型只对添加权重后的词向量做语义识别,不会受位置向量噪声的影响,即使权重存在一定的偏差,但不会改变词向量的语义特征分布,而且后续词特征提取的模型可以减弱权重偏差带来的影响,因此模型可以取得更好的结果。
3)丰富语义引入
电子病历领域由于可用训练语料缺少、文本半结构化,文本所含专业词汇较多等领域特性,使病历文本的语义不能有效表达。例如,“ID-afebrile,no wbc,started onAzithromycin for COPD flare”,类似的病历文本会使词向量训练难度增大,过多的专业词汇也使得通用领域的词向量不能直接被使用,因此,当前的深度学习模型应用在电子病历领域的效果并不是很好。Li和Luo等通过引入MIMIC-III临床医学数据扩充词向量的训练语料,在一定程度上缓解了语料不足问题,但是由于医学领域知识的丰富性,病历文本中的医学实体仍不能被有效的表示。事实上,实体之间关系的判断往往不依赖于某些专业词汇及实体本身的语义,而是取决于实体所在上下文中与实体相关的常用词。例如,“Her painwas under good control with PO pain medications and she was deemed suitablefor discharge”。其中“her pain”是“problem”类型的实体,“PO pain medications”是“treatment”类型的实体,实体之间的关系类型是TIP(treatment改善了problem),通过关键词“was under good control”就可准确判断出上述实体之间的关系。如何找出与实体相关的常用词,从而引入通用领域语料的丰富语义是解决电子病历领域词表示匮乏的更好方法。
本文首先通过注意力机制计算得到词与实体之间的相关度分数,然后将此相关度分数与通用领域语料嵌入结合,在实现位置向量降噪的基础上,引入通用领域语料的丰富语义,最终词表示如下所示:
U=S·α (6)
其中,α为词权重向量,·表示词向量与对应词权重相乘,S为通用领域语料嵌入,U即为特征提取部分的最终输入。
(3)基于CNN的特征提取
特征编码部分提取用于实体关系判断的词特征。CNN具有强大的提取局部特征的能力,本文模型在通过注意力机制对词向量加权后,突出一些重要词汇,使CNN提取词特征的效果更加精确。首先,将得到的输入U送入CNN,然后将CNN输出经最大池化得到跟关系类别判断最相关的特征。假设其中一个窗口第j 个通道的过滤器权重为Wj,m×k为Wj形状大小,即表示卷积窗口大小。卷积层公式如下:
其中i∈[1,n-m+1],表示向量对应位置元素相乘,bj为卷积偏差,sum(·)表示对矩阵中的每个元素求和,f(x)=max(0,x)为激活函数,o为卷积层输出,γ为最大池化后的特征向量。为了提升模型结果的精度和稳定性,本文在池化后的特征层和输出层之间加了一层隐藏层,然后对隐藏层做批正则化处理,以加快模型训练速度,增强模型的鲁棒性。隐藏层相关公式如下:
z=Wγ·γ+bγ (9)
其中,表示向量对应位置元素相乘,Wγ和bγ分别表示池化层输出到隐藏层的权重和偏差,z表示中间输出,和sz是中间输出的批均值和方差,是正则化处理后的输出,和是修正参数,对批正则化处理做修正,σ为Sigmoid激活函数,β为隐藏层最终表示。
最后将批正则化后的隐藏层β作为最终特征表示送入全连接层做分类。输出结果y属于c(c∈C)种类型的概率P(y=c),
P(y=c)=soft max(Wβ·β+bβ) (12)
其中,Wβ和bβ为权重矩阵和偏置,全连接层的激活函数为softmax,C为实体关系类别的集合,之后取最大概率的标签c作为最终类别。
本发明的有益效果是:本发明提出一种基于位置向量降噪和丰富语义的电子病历实体关系抽取模型,从以下两个方面提高了电子病历领域实体关系抽取模型的性能,(1)位置向量有助于实体关系类别的判断,但也包含噪声信息,本文提出一种位置向量降噪方法,在利用位置信息的同时能有效降低位置向量噪声对模型的影响。(2)对于一些专业领域语料,词语义表示匮乏,本文提出了一种语义引入的方式,可以有效利用通用领域语料的丰富语义。
附图说明
图1基于位置向量降噪和丰富语义的电子病历实体关系抽取模型框架图。
具体实施方式
本发明基于位置向量降噪和引入丰富语义的方式对电子病历中的实体进行关系抽取,可以有效提高电子病历实体关系抽取的性能,为临床数据库的构建、医学知识图谱生成和临床辅助决策等提供数据支持。如图1所示为模型框架图。
1、病历文本预处理
输入为预处理后的电子病历文本语料,下面以2010i2b2/VA语料为例。在病历文本中,一句话可能包含多个实体,每个实体可能参与多个关系,比如“cxr no focalconsolidation or edema,old biapical scarring ABG 7.34/79/74U/A negative”,其中“cxr”和“ABG”是“test”类型的实体,“edema”和“old biapical scarring”是“problem”类型的实体,实体“cxr”与实体“edema”的关系是“TeRP”(测试显示出医疗问题)。为了能够更准确的判断每一个实体可能与其它实体存在的关系,本文在实体类型的约束下将实体两两配对,分别对每一组实体进行关系识别。进一步考虑,电子病历中的实体大部分是由多个单词组成,且实体语义对实体关系的判断影响不大,因此本文将实体直接替换成实体类型,这样也便于计算跟实体相关的词的权重。例如,上句话替换“cxr”与“edema”后为“Test nofocal consolidation or problem,old biapical scarring ABG 7.34/79/74U/Anegative”,将替换后的句子作为模型的训练语料输入。
2、将预处理后的文本输入模型解析
(1)词嵌入
对处理后的输入文本,需要将文本中的词转化为向量表示,本文以两种方式对病历文本做词嵌入,分别是专业领域语料嵌入和通用领域语料嵌入,专业领域语料嵌入用于词与实体相关度计算的模型输入,通用领域语料嵌入用于引入词的丰富语义信息,作为特征抽取部分的模型输入。例如,对于“Test no focal consolidation or problem,oldbiapical scarring ABG 7.34/79/74U/A negative”中的词“no”,将对应两个向量表示,分别为X2、U2代表专业领域语料嵌入向量和通用领域语料嵌入向量。
(2)词与实体相关度计算
将得到的专业领域语料嵌入先送入BILSTM模型得到隐藏层输出,此隐藏层输出包含词与实体相对位置信息和词上下文信息,同时也包含位置向量噪声,模型通过注意力的方式将每个词的隐藏层输出转化为词与实体相关度大小。此时是分别计算句子中的每一个词与实体1“Test”和实体2“problem”的相关度分数,然后将两个分数的乘积作为当前词的最终权重。在一句话中权重较大的词汇对实体之间关系的判断起到更大的作用,比如“Testno focal consolidation or problem,old biapical scarring ABG 7.34/79/74U/Anegative”中,对于实体1“Test”和实体2“problem”,“no”将被赋予更高的权重分数。
(3)特征抽取
将注意力得到的注意力权重与通用领域语料对应词嵌入结合,再送入CNN提取词与实体相关特征;然后用批正则化处理卷积层输出,增强模型稳定性;最后将抽取到的特征经一层神经网络映射并softmax,得到每个关系类别的概率。
3、实体关系抽取效果展示
通过模型解析后,我们可以得到每个实体组对应的关系类别,输入一句话,模型会输出这句话中实体对可能对应的关系类别的概率,以“Test no focal consolidation orproblem,old biapical scarring ABG 7.34/79/74 U/A negative”为例,模型对应输出如下:
Table 1:模型输出结果
关系类型 | TrNAP | TrAP | TrCP | TrIP | TrWP | TeRP | TeCP | PIP |
分数 | 0.0228 | 0.0125 | 0.0031 | 0.0015 | 0.0076 | 0.9235 | 0.0279 | 0.0010 |
如Table 1所示,“TeRP”的输出概率最大,可以判定上句话中实体之间的关系类型为“TeRP”。
以2010年i2b2/VA关系抽取数据集为例,将模型的输出经过F1评估方法评估,可以得到实体关系抽取结果如下表所示:
Table 2:模型消融实验结果
Table2中,模型基线是将专业领域语料训练的词向量拼接位置向量做输入,然后将BILSTM的输出直接送入CNN提取特征,与之相比,添加了位置向量降噪的模型最终效果提升2.5%,添加了位置向量降噪和语义引入的模型最终效果提升5.97%。
Claims (1)
1.一种基于位置向量降噪和丰富语义的电子病历实体关系抽取方法,其特征在于,步骤如下:
(1)电子病历文本嵌入
电子病历文本嵌入是将电子病历语料转换为向量表示,电子病历文本嵌入方式有两种,分别是专业领域语料嵌入和通用领域语料嵌入;
1)专业领域语料嵌入
专业领域语料嵌入是由电子病历领域语料训练得到的词向量和词与实体相对位置向量拼接组成,用于词的注意力权重计算;词向量的训练采用word2vec的方法,位置向量由不同频率的正弦和余弦函数生成,公式如下:
PE(pos,2l)=sin(pos/100002l/p) (1)
PE(pos,2l+1)=cos(pos/100002l/p) (2)
其中,PE为位置向量编码矩阵,pos表示词与实体相对位置,p为位置向量的维度,l表示位置向量的位置,奇数位置添加余弦变量,偶数位置添加正弦变量;设原句子序列中词的嵌入向量表示分别为X={x1,x2,…,xg,…,xn},xg∈Rd+2p为句子中第g个词的嵌入向量表示,g∈[1,n];n为句子长度;d表示词向量的维度;
2)通用领域语料嵌入
通用领域嵌入向量表示方式是采用来自网络爬虫获得的通用领域语料训练的词向量,用于词特征提取;设原句子序列中的词向量分别表示为S={s1,s2,…,sg,…,sn},sg∈Rq为句子中第g个词的向量表示(g∈[1,n]),q表示词向量维度,n表示句子长度;
(2)基于注意力机制的位置向量降噪和丰富语义引入
1)注意力机制
首先计算词对应的隐藏层输出向量与实体对应隐藏层输出向量的余弦相似度,并用词对应隐藏层输出向量的模乘以此余弦相似度获得词到实体的投影向量,然后将此投影向量与实体对应向量模的比值作为词与实体的相关分数,最后将词与两个实体的相关分数做乘积得到该词的最终权重,通过最终权重实现位置向量降噪和通用领域语料丰富语义的引入;
首先将专业领域语料嵌入送入BILSTM,编码句子信息;ht (f)和ht (b)表示t时刻BILSTM的前向和后向输出,ht=[ht (f),ht (b)]作为最终输出;
ht=BILSTM(ht-1,xt) (3)
然后对BILSTM的隐藏层输出通过注意力机制计算词与实体的相关度;基于余弦相似度先计算出词与实体隐层输出向量的余弦夹角,并在此基础上考虑向量的模大小,使用词对应的隐藏层输出向量到实体对应隐藏层输出向量的投影与后者模的比值作为词与实体的相关分数,总体计算公式如下:
αt=ft (1)*ft (2) (5)
其中,*表示两个数值相乘,·表示向量相乘,he (1)表示实体1的隐藏层输出,|he (1)|表示其模长,ft (1)表示第t个位置的词与实体1的相关度,ft (2)表示第t个位置的词与实体2的相关度,计算公式同ft (1),αt表示该词最终的权重分数;
2)位置向量降噪
先通过注意力机制综合考虑词语义信息和词与实体相对位置信息,将之转化为权重,再将权重与去除位置向量的专业领域语料嵌入结合,以权重的方式实现位置向量降噪;模型只对添加权重后的词向量做语义识别,不会受位置向量噪声的影响,即使权重存在一定的偏差,但不会改变词向量的语义特征分布,而且后续词特征提取的模型可以减弱权重偏差带来的影响,因此模型取得更好的结果;
3)丰富语义引入
首先通过注意力机制计算得到词与实体之间的相关度分数,然后将此相关度分数与通用领域语料嵌入结合,在实现位置向量降噪的基础上,引入通用领域语料的丰富语义,最终词表示如下所示:
U=S·α (6)
其中,α为词权重向量,·表示词向量与对应词权重相乘,S为通用领域语料嵌入,U即为特征提取部分的最终输入;
(3)基于CNN的特征提取
特征编码部分提取用于实体关系判断的词特征;首先,将得到的输入U送入CNN,然后将CNN输出经最大池化得到跟关系类别判断最相关的特征;假设其中一个窗口第j个通道的过滤器权重为Wj,m×k为Wj形状大小,即表示卷积窗口大小;卷积层公式如下:
其中i∈[1,n-m+1],表示向量对应位置元素相乘,bj为卷积偏差,sum(·)表示对矩阵中的每个元素求和,f(x)=max(0,x)为激活函数,o为卷积层输出,γ为最大池化后的特征向量;为了提升模型结果的精度和稳定性,在池化后的特征层和输出层之间加一层隐藏层,然后对隐藏层做批正则化处理,以加快模型训练速度,增强模型的鲁棒性;隐藏层相关公式如下:
z=Wγ·γ+bγ (9)
其中,表示向量对应位置元素相乘,Wγ和bγ分别表示池化层输出到隐藏层的权重和偏差,z表示中间输出,和sz是中间输出的批均值和方差,是正则化处理后的输出,和是修正参数,对批正则化处理做修正,σ为Sigmoid激活函数,β为隐藏层最终表示;
最后将批正则化后的隐藏层β作为最终特征表示送入全连接层做分类;输出结果y属于c(c∈C)种类型的概率P(y=c),
P(y=c)=softmax(Wβ·β+bβ) (12)
其中,Wβ和bβ为权重矩阵和偏置,全连接层的激活函数为softmax,C为实体关系类别的集合,之后取最大概率的标签c作为最终类别。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010711245.0A CN111859938B (zh) | 2020-07-22 | 2020-07-22 | 基于位置向量降噪和丰富语义的电子病历实体关系抽取方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010711245.0A CN111859938B (zh) | 2020-07-22 | 2020-07-22 | 基于位置向量降噪和丰富语义的电子病历实体关系抽取方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111859938A true CN111859938A (zh) | 2020-10-30 |
CN111859938B CN111859938B (zh) | 2022-10-21 |
Family
ID=72949189
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010711245.0A Active CN111859938B (zh) | 2020-07-22 | 2020-07-22 | 基于位置向量降噪和丰富语义的电子病历实体关系抽取方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111859938B (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112233798A (zh) * | 2020-12-16 | 2021-01-15 | 杭州智策略科技有限公司 | 基于病理模式与注意力机制的可解释疾病风险分析系统 |
CN112507719A (zh) * | 2020-12-18 | 2021-03-16 | 北京百度网讯科技有限公司 | 命名实体识别方法、装置、电子设备及存储介质 |
CN113064999A (zh) * | 2021-03-19 | 2021-07-02 | 南方电网调峰调频发电有限公司信息通信分公司 | 基于it设备运维的知识图谱构建算法、系统、设备及介质 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108536754A (zh) * | 2018-03-14 | 2018-09-14 | 四川大学 | 基于blstm和注意力机制的电子病历实体关系抽取方法 |
CN109918671A (zh) * | 2019-03-12 | 2019-06-21 | 西南交通大学 | 基于卷积循环神经网络的电子病历实体关系抽取方法 |
CN110060749A (zh) * | 2019-04-10 | 2019-07-26 | 华侨大学 | 基于sev-sdg-cnn的电子病历智能诊断方法 |
CN110188193A (zh) * | 2019-04-19 | 2019-08-30 | 四川大学 | 一种基于最短依存子树的电子病历实体关系抽取方法 |
-
2020
- 2020-07-22 CN CN202010711245.0A patent/CN111859938B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108536754A (zh) * | 2018-03-14 | 2018-09-14 | 四川大学 | 基于blstm和注意力机制的电子病历实体关系抽取方法 |
CN109918671A (zh) * | 2019-03-12 | 2019-06-21 | 西南交通大学 | 基于卷积循环神经网络的电子病历实体关系抽取方法 |
CN110060749A (zh) * | 2019-04-10 | 2019-07-26 | 华侨大学 | 基于sev-sdg-cnn的电子病历智能诊断方法 |
CN110188193A (zh) * | 2019-04-19 | 2019-08-30 | 四川大学 | 一种基于最短依存子树的电子病历实体关系抽取方法 |
Non-Patent Citations (1)
Title |
---|
宁尚明等: "基于多通道自注意力机制的电子病历实体关系抽取", 《计算机学报》 * |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112233798A (zh) * | 2020-12-16 | 2021-01-15 | 杭州智策略科技有限公司 | 基于病理模式与注意力机制的可解释疾病风险分析系统 |
CN112507719A (zh) * | 2020-12-18 | 2021-03-16 | 北京百度网讯科技有限公司 | 命名实体识别方法、装置、电子设备及存储介质 |
CN113064999A (zh) * | 2021-03-19 | 2021-07-02 | 南方电网调峰调频发电有限公司信息通信分公司 | 基于it设备运维的知识图谱构建算法、系统、设备及介质 |
CN113064999B (zh) * | 2021-03-19 | 2023-12-15 | 南方电网调峰调频发电有限公司信息通信分公司 | 基于it设备运维的知识图谱构建算法、系统、设备及介质 |
Also Published As
Publication number | Publication date |
---|---|
CN111859938B (zh) | 2022-10-21 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112307218B (zh) | 基于知识图谱的智能电厂典型设备故障诊断知识库构建方法 | |
CN111192680B (zh) | 一种基于深度学习和集成分类的智能辅助诊断方法 | |
CN111382565B (zh) | 基于多标签的情绪-原因对抽取方法及系统 | |
CN111859938B (zh) | 基于位置向量降噪和丰富语义的电子病历实体关系抽取方法 | |
CN109508459B (zh) | 一种从新闻中提取主题和关键信息的方法 | |
WO2019080863A1 (zh) | 文本情感分类方法、存储介质及计算机 | |
CN110287323B (zh) | 一种面向目标的情感分类方法 | |
CN111949759A (zh) | 病历文本相似度的检索方法、系统及计算机设备 | |
CN106980608A (zh) | 一种中文电子病历分词和命名实体识别方法及系统 | |
CN112232053B (zh) | 一种基于多关键词对匹配的文本相似度计算系统、方法、及存储介质 | |
CN112148832B (zh) | 一种基于标签感知的双重自注意力网络的事件检测方法 | |
CN111414461A (zh) | 一种融合知识库与用户建模的智能问答方法及系统 | |
CN112735597A (zh) | 半监督自学习驱动的医学文本病症辨识方法 | |
CN112257449A (zh) | 命名实体识别方法、装置、计算机设备和存储介质 | |
CN111581364B (zh) | 一种面向医疗领域的中文智能问答短文本相似度计算方法 | |
CN111858940A (zh) | 一种基于多头注意力的法律案例相似度计算方法及系统 | |
CN111476024A (zh) | 一种文本分词方法、装置及模型训练方法 | |
CN112989830B (zh) | 一种基于多元特征和机器学习的命名实体识别方法 | |
CN112037909A (zh) | 诊断信息复核系统 | |
CN116341546A (zh) | 一种基于预训练模型的医学自然语言处理方法 | |
CN112100212A (zh) | 一种基于机器学习和规则匹配的案件情节抽取方法 | |
CN117891958B (zh) | 一种基于知识图谱的标准数据处理方法 | |
CN116775812A (zh) | 一种基于自然语音处理的中医药专利分析与挖掘工具 | |
CN115510230A (zh) | 一种基于多维特征融合与比较增强学习机制的蒙古语情感分析方法 | |
CN114997331A (zh) | 基于度量学习的小样本关系分类方法及系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |