CN114036934A - 一种中文医学实体关系联合抽取方法和系统 - Google Patents
一种中文医学实体关系联合抽取方法和系统 Download PDFInfo
- Publication number
- CN114036934A CN114036934A CN202111203313.3A CN202111203313A CN114036934A CN 114036934 A CN114036934 A CN 114036934A CN 202111203313 A CN202111203313 A CN 202111203313A CN 114036934 A CN114036934 A CN 114036934A
- Authority
- CN
- China
- Prior art keywords
- relation
- entity
- head
- word
- tail
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000605 extraction Methods 0.000 title claims abstract description 70
- 239000013598 vector Substances 0.000 claims abstract description 88
- 239000011159 matrix material Substances 0.000 claims abstract description 16
- 238000012549 training Methods 0.000 claims abstract description 15
- 238000004364 calculation method Methods 0.000 claims abstract description 8
- 125000004122 cyclic group Chemical group 0.000 claims abstract description 4
- 230000007246 mechanism Effects 0.000 claims description 27
- 230000004913 activation Effects 0.000 claims description 24
- 238000000034 method Methods 0.000 claims description 21
- 230000008569 process Effects 0.000 claims description 9
- 230000004927 fusion Effects 0.000 claims description 5
- 238000007781 pre-processing Methods 0.000 claims description 4
- 238000012795 verification Methods 0.000 claims description 4
- 239000000126 substance Substances 0.000 claims description 3
- 230000006870 function Effects 0.000 description 22
- 230000003993 interaction Effects 0.000 description 5
- 230000009286 beneficial effect Effects 0.000 description 3
- 238000009825 accumulation Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 229940079593 drug Drugs 0.000 description 1
- 239000003814 drug Substances 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 230000002452 interceptive effect Effects 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
- 230000008447 perception Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/28—Databases characterised by their database models, e.g. relational or object models
- G06F16/284—Relational databases
- G06F16/288—Entity relationship models
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
- G06F40/216—Parsing using statistical methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Databases & Information Systems (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Data Mining & Analysis (AREA)
- Probability & Statistics with Applications (AREA)
- Medical Treatment And Welfare Office Work (AREA)
Abstract
一种中文医学实体关系联合抽取方法,包括:医疗关系嵌入表示模块、医疗文本中头实体和尾实体的头尾位置获取模块、医疗文本字词向量及其相对距离计算模块、词汇增强后的字向量输出模块、医疗文本的关系预测模块、医疗文本的字符对向量生成模块、主谓宾三元组输出模块、联合抽取模型训练模块、联合抽取模型的F1分数计算模块、循环训练联合抽取模型模块、医疗文本实体关系获取模块。本发明还包括一种中文医学实体关系联合抽取系统。本发明解决了中文医疗文本中复杂语句的实体嵌套和关系重叠问题,缓解了TPLinker解码矩阵的稀疏,提升了联合抽取模型的收敛速度,通过词汇增强编码单元缓解了中文医疗文本中存在许多专业词汇即使结合上下文也无法准确识别的难题。
Description
技术领域
本专利涉及自然语言处理领域,特别是一种中文医学实体关系联合抽取方法。
背景技术
构建医疗领域的知识图谱,首先需要从大量的非结构化数据(比如文本)中获得实体、关系、属性等有用的信息,即信息抽取。实体和关系抽取是信息抽取任务中两个重要的子任务。根据两个子任务完成先后顺序的不同,实体关系抽取方法可以分为串联(pipeline)抽取和联合(joint)抽取2种方法。
pipeline抽取,即先抽取实体,再抽取关系,是比较传统的抽取方式。这种抽取方法会导致以下3种问题:1)误差累积:实体抽取的错误会影响关系抽取的准确性;2)实体冗余:对抽取得到的实体两两配对,然后再进行关系分类,如果实体对之间没有关系,就会出现冗余信息;3)交互缺失:没有考虑实体和关系抽取之间的内在联系和依赖关系。
联合抽取方法一定程度上弥补了以上3个缺点。联合抽取,即关系三元组抽取(Relational Triple Extraction,RTE),三元组以(头实体,关系,尾实体)的形式表示。联合抽取又可以分为基于参数共享的联合抽取和基于联合解码的联合抽取。基于共享参数的联合抽取模型只是共享了实体关系抽取两个模型的参数,如隐层状态等,实体模型和关系模型之间交互并不强。2017年,Zheng等人首次提出将实体和关系统一标注,而且实体模型和关系模型使用同一个解码器,即联合解码。但是,Zheng等人直接将关系作为标签,导致一个实体或一对实体不能有多种关系,即不能解决关系重叠问题。
2020年,Yu等人提出的TPLinker联合抽取框架取得了实体关系抽取的SOTA,它不仅解决了关系重叠问题,还解决了实体嵌套和曝光偏差等问题。但是 TPLinker框架仍存在一些缺点。TPLinker更适用于英文文本,对于中文文本,尤其是中文医疗文本上的抽取性能欠佳。谷歌提供的中文BERT预处理模型可以做到上下文感知,一定程度上提高了中文实体识别的效果。但是中文医疗文本中还存在许多专业词汇,即使结合上下文也无法准确识别。另外,TPLinker框架的解码器比较复杂,存在解码矩阵稀疏、收敛速度慢、关系冗余等问题。
发明内容
本发明要克服现有技术的上述缺点,提供一种中文医学实体关系联合抽取方法。
针对中文医疗文本,基于Transformer-XL编码器和TPLinker联合解码框架,本发明加入词汇增强和关系注意力机制,通过词汇增强引入医疗专业词汇以有利于实体类型和实体边界的识别,同时通过关系注意力机制进行关系预测,解决解码矩阵稀疏、关系冗余的问题,提升中文医疗文本中实体识别和关系抽取的准确性。
本发明解决其技术问题所采用的技术方案是:
一种中文医学实体关系联合抽取方法,包括如下步骤:
步骤一:准备待抽取实体关系的中文医疗文本Text,根据给定的本体约束集合(包括关系名称、头实体类型和尾实体类型),使用中文BERT模型,将每个关系名称表示成嵌入向量,得到关系的语义信息,即关系嵌入C={c1,c2,...,cl},其中l为关系总数;
步骤二:获取已标注的中文医疗信息抽取数据集Data(包括各个医疗文本的关系名称、头实体和尾实体的名称及类型),对Data进行预处理,得到每个医疗文本中头实体和尾实体的头尾位置;
步骤三:基于Flat_Lattice结构对Text和Data进行词汇增强,计算它们各个医疗文本任意两个字(或者词)向量的4个相对距离以表示字(或者词)向量之间可能存在的交叉、包含或分离的关系,得到各个医疗文本字(或者词)向量及其相对距离矩阵,具体过程如下:
3.1对Text和Data的各个医疗文本分别使用中文的BERT模型得到各自的字向量;
3.2获取预训练好的中文生物医学词向量,将Text和Data的各个医疗文本分别与中文生物医学词向量的词表进行匹配,识别出与词表有交集的词语进行词汇增强,得到Text和Data的各个医疗文本的词语向量;
3.3对Text和Data中每个医疗文本的字向量、词语向量进行头尾位置编码,得到字、词的开始及结束位置,使用Flat_Lattice中的相对位置编码技术得到任意两个字(或者词)向量xi和xj之间的4个相对距离和放入相对距离矩阵:
其中head[i]和tail[i]表示第i个字(或者词)向量xi的头尾位置,用head[j]和tail[j] 表示第j个字(或者词)向量xj的头尾位置,表示xi的开始位置到xj的开始位置的距离,表示xi的开始位置到xj的结束位置的距离,表示xi的结束位置到xj的开始位置的距离,表示xi的结束位置到xj的结束位置的距离;
步骤四:从Data中取一批训练数据集,将其医疗文本的字(或者词)向量Z 和位置编码向量R输入Transformer-XL编码器,输出医疗文本词汇增强后的字向量H={h1,h2,…,hn},n为医疗文本的长度,Transformer-XL编码器由自注意力层和前馈层2个子层组成,每个子层之后接残差连接和层标准化,任意两个字(或者词)向量xi和xj之间的位置编码Rij由4个相对距离和以绝对位置编码形式拼接后经过一个激活函数为ReLU的全连接得到:
其中,Wr是待训练的参数,Pd采用绝对位置编码:
基于位置编码向量R的自注意力机制如下:
Attention(A*,V)=Softmax(A*)V,
[Q,K,V]=Ex[Wq,Wk,Wv],
其中,Wq,Wk,Z,Wk,R,u,v,Wk,Wv都是待训练的参数,A*的前两项分别是两个字(或者词)之间的语义交互和位置交互,后两项为全局内容偏置和全局位置偏置;
步骤五:根据关系嵌入C和Transformer-XL编码器输出的医疗文本字向量 H预测关系,得到预测关系列表,具体过程包括自注意力机制、关系注意力机制、注意力融合机制和关系预测:
5.1将医疗文本字向量H输入两个全连接得到自注意力值A(s),其中第一个全连接使用tanh激活函数,第二个全连接使用softmax激活函数,根据A(s)计算医疗文本表示M(s):
A(s)=softmax(W2tanh(W1H)),
M(s)=A(s)HT,
其中,W1和W2是待训练的参数;
5.2根据关系嵌入C和医疗文本字向量H计算关系注意力值A(l)和基于关系注意力机制的医疗文本表示M(l):
A(l)=CH,
M(l)=A(l)HT;
5.3通过注意力融合机制,将M(s)和M(l)分别输入一个使用sigmoid激活函数的全连接得到α和β,由α+β=1对α和β进行约束,融合得到M:
α=sigmoid(M(s)W3),
β=sigmoid(M(l)W4),
M=αM(s)+βM(l),
其中W3和W4是待训练的参数;
步骤六:将Transformer-XL编码器输出的医疗文本的每两个字向量hi和hj拼接后作一个全连接,得到字符对向量hij:
其中激活函数使用的是tanh,Wh和bh是待训练的参数;
步骤七:通过融合特定关系嵌入的TPLinker解码器解码得到主谓宾三元组,用EH-to-ET标记实体的头尾字符,用SH-to-OH标记关系头尾实体的头字符,用ST-to-OT标记关系头尾实体的尾字符,其中,EH-to-ET、SH-to-OH和ST-to-OT 解码器由一个相同的全连接实现:
7.1)解码EH-to-ET得到医疗文本中的所有实体及其头字符;
7.2)对于预测关系列表中的每个关系,解码ST-to-OT得到头尾实体的尾字符对,将尾字符对和关系存入集合O中,同时解码SH-to-OH得到头尾实体的头字符对,将头字符对和所有实体的头字符进行匹配,找到头字符对对应的头尾实体存入集合S中;
7.3)判断S中每对头尾实体的尾字符对是否在O中,如果是,那么确定该三元组为(头实体,关系,尾实体);
步骤八:计算总的损失函数L,并通过反向传播算法进行联合训练,得到联合抽取模型:
L=Lrel+Ltp,
其中Lrel是关系预测的损失函数,第q个关系的真实值第q个关系的预测值Ltp是加入关系预测后的损失函数,E、H和T分别表示EH-to-ET、SH-to-OH和ST-to-OT,表示字符对hij被标记的预测值,yijq表示字符对hij被标记的真实值,表示解码第q个关系时字符对hij被标记为yijq的概率,表示预测得到的关系数,是根据给定的本体约束集合找到的预测关系对应的头尾实体类型数,即预测得到的实体类型数;
步骤九:从Data中取一批验证数据集,将其医疗文本的字(或者词)向量及其相对距离矩阵输入联合抽取模型,计算联合抽取模型的F1分数:
其中precision为精确率,recall为召回率;
步骤十:重复步骤四到九,直到超过预定的F1分数,保存联合抽取模型;
步骤十一:将Text的各个医疗文本词汇增强后的字(或者词)向量及其相对距离矩阵输入联合抽取模型,得到实体关系三元组。
本发明的技术构思为:通过词汇增强编码、基于关系注意力机制的关系预测和融合特定关系嵌入的TPLinker联合解码框架完成中文医疗实体关系的联合抽取。词汇增强编码使用Flat_Lattice结构和Transformer-XL中提出的基于相对位置编码的自注意力机制,融合了字符和词汇信息。关系预测主要采用关系注意力机制,结合医疗文本和关系的语义信息来预测医疗关系。TPLinker联合解码将 Transformer-XL输出的字符向量表示成字符对向量,融合特定关系嵌入,通过 EH-to-ET解码得到实体的头尾字符,即所有实体,根据预测关系列表中的每一个关系,通过ST-to-OT解码得到头尾实体的所有尾字符,通过SH-to-OH解码得到头尾实体的所有头字符,从而抽取出(头实体,关系,尾实体)三元组。
一种中文医学实体关系联合抽取方法,由词汇增强编码单元、基于关系注意力机制的关系预测单元和TPLinker联合解码单元3个部分组成。词汇增强编码单元使用Flat_Lattice结构和Transformer-XL中提出的基于相对位置编码的自注意力机制,融合了字符和专业词汇信息,有利于中文医疗实体的识别。关系预测单元主要采用关系注意力机制,结合医疗文本和关系标签的语义信息来预测医疗关系。TPLinker联合解码单元将Transformer-XL输出的字向量表示成字符对向量,融合特定关系嵌入,通过EH-to-ET解码得到实体的头尾字符,根据关系预测单元得到的关系列表中的每一个关系,通过ST-to-OT解码得到头尾实体的所有尾字符,通过SH-to-OH解码得到头尾实体的所有头字符,从而抽取出(头实体,关系,尾实体)三元组。本发明利用TPLinker联合解码单元解决了中文医疗文本中复杂语句的实体嵌套和关系重叠问题,引入基于关系注意力机制的关系预测和特定关系嵌入缓解了TPLinker解码矩阵的稀疏,提升了联合抽取模型的收敛速度,通过词汇增强编码单元缓解了中文医疗文本中存在许多专业词汇即使结合上下文也无法准确识别的难题。
本发明还包括实施本发明的一种中文医学实体关系联合抽取方法的系统,包括:医疗关系嵌入表示模块、医疗文本中头实体和尾实体的头尾位置获取模块、医疗文本字词向量及其相对距离计算模块、词汇增强后的字向量输出模块、医疗文本的关系预测模块、医疗文本的字符对向量生成模块、主谓宾三元组输出模块、联合抽取模型训练模块、联合抽取模型的F1分数计算模块、循环训练联合抽取模型模块、医疗文本实体关系获取模块。上述各模块依次分别对应本发明方法的步骤一~步骤十一的内容。
本发明的有益效果为:本发明利用TPLinker联合解码解决了中文医疗文本中复杂语句的实体嵌套和关系重叠问题,即实体对重叠和单实体重叠,加入基于关系注意力机制的关系预测,只对预测得到的关系列表中的关系进行解码,缓解了TPLinker解码矩阵的稀疏,增加模型收敛的速度,在编码部分加入词汇增强更加有利于中文医疗实体的识别,缓解了中文医疗文本中存在许多专业词汇即使结合上下文也无法准确识别的难题。
附图说明
图1为本发明的算法框图。
图2为本发明的流程图。
具体实施方式
下面结合附图对本发明做进一步说明。
参照图1和图2,以中文医疗信息咨询系统及中文医疗信息抽取数据集 CMeIE为例,应用本发明的基于词汇增强和关系注意力机制的中文医学实体关系联合抽取方法,形成一种构建中文医疗信息咨询系统的方法,包括如下步骤:
步骤一:准备待抽取实体关系的中文医疗文本Text,根据给定的本体约束集合(包括关系名称、头实体类型和尾实体类型),例如CMeIE的本体约束集合,使用中文BERT模型,将每个关系名称表示成嵌入向量,得到关系的语义信息,即关系嵌入C={c1,c2,…,cl},其中l为关系总数;
步骤二:获取已标注的中文医疗信息抽取数据集CMeIE(包括各个医疗文本的关系名称、头实体和尾实体的名称及类型,如表2所示,“text”指代医疗文本,“predicate”指代关系名称,“subject”和“subject_type”分别指代头实体的名称及类型,“object”和“object_type”分别指代尾实体的名称及类型,)作为Data,对 Data进行预处理,得到每个医疗文本中头实体和尾实体的头尾位置;
表2
表2示意已标注的中文医疗信息抽取数据。
步骤三:基于Flat_Lattice结构对Text和Data进行词汇增强,计算它们各个医疗文本任意两个字(或者词)向量的4个相对距离以表示字(或者词)向量之间可能存在的交叉、包含或分离的关系,得到各个医疗文本字(或者词)向量及其相对距离矩阵,具体过程如下:
3.1对Text和Data的各个医疗文本分别使用中文的BERT模型得到各自的字向量;
3.2获取预训练好的中文生物医学词向量,例如Word2Vec训练得到的包含 278256个生物医学相关词汇、维度为512的中文生物医学词向量 (Chinese-Word2vec-Medicine),将Text和Data的各个医疗文本分别与中文生物医学词向量的词表进行匹配,识别出与词表有交集的词语进行词汇增强,得到 Text和Data的各个医疗文本的词语向量;
3.3对Text和Data中每个医疗文本的字向量、词语向量进行头尾位置编码,得到字、词的开始及结束位置,使用Flat_Lattice中的相对位置编码技术得到任意两个字(或者词)向量xi和xj之间的4个相对距离和放入相对距离矩阵:
其中head[i]和tail[i]表示第i个字(或者词)向量xi的头尾位置,用head[j]和tail[j] 表示第j个字(或者词)向量xj的头尾位置,表示xi的开始位置到xj的开始位置的距离,表示xi的开始位置到xj的结束位置的距离,表示xi的结束位置到xi的开始位置的距离,表示xi的结束位置到xj的结束位置的距离;
步骤四:从Data中取一批训练数据集,将其医疗文本的字(或者词)向量Z 和位置编码向量R输入Transformer-XL编码器,输出医疗文本词汇增强后的字向量H={h1,h2,…,hn},n为医疗文本的长度,Transformer-XL编码器由自注意力层和前馈层2个子层组成,每个子层之后接残差连接和层标准化,任意两个字(或者词)向量xi和xi之间的位置编码Rij由4个相对距离和以绝对位置编码形式拼接后经过一个激活函数为ReLU的全连接得到:
其中,Wr是待训练的参数,Pd采用绝对位置编码:
基于位置编码向量R的自注意力机制如下:
Attention(A*,V)=Softmax(A*)V,
[Q,K,V]=Ex[Wq,Wk,Wv],
其中,Wq,Wk,Z,Wk,R,u,v,Wk,Wv都是待训练的参数,A*的前两项分别是两个字(或者词)之间的语义交互和位置交互,后两项为全局内容偏置和全局位置偏置;
步骤五:根据关系嵌入C和Transformer-XL编码器输出的医疗文本字向量 H预测关系,得到预测关系列表,具体过程包括自注意力机制、关系注意力机制、注意力融合机制和关系预测:
5.1将医疗文本字向量H输入两个全连接得到自注意力值A(s),其中第一个全连接使用激活函数,第二个全连接使用softmax激活函数,根据A(s)计算医疗文本表示M(s):
A(s)=softmax(W2tanh(W1H)),
M(s)=A(s)HT,
其中,W1和W2是待训练的参数;
5.2根据C和H计算关系注意力值A(l)和基于关系注意力机制的医疗文本表示M(l):
A(l)=CH,
M(l)=A(l)HT;
5.3通过注意力融合机制,将M(s)和M(l)分别输入一个使用sigmoid激活函数的全连接得到α和β,由α+β=1对α和β进行约束,融合得到M:
α=sigmoid(M(s)W3),
β=sigmoid(M(l)W4),
M=αM(s)+βM(l),
其中W3和W4是待训练的参数;
步骤六:将Transformer-XL编码器输出的医疗文本的每两个字向量hi和hj拼接后作一个全连接,得到字符对向量hij:
其中激活函数使用的是tanh,Wh和bh是待训练的参数;
步骤七:通过融合特定关系嵌入的TPLinker解码器解码得到主谓宾三元组,用EH-to-ET标记实体的头尾字符,用SH-to-OH标记关系头尾实体的头字符,用ST-to-OT标记关系头尾实体的尾字符,其中,EH-to-ET、SH-to-OH和ST-to-OT 解码器由一个相同的全连接实现:
7.1)解码EH-to-ET得到医疗文本中的所有实体及其头字符;
7.2)对于预测关系列表中的每个关系,解码ST-to-OT得到头尾实体的尾字符对,将尾字符对和关系存入集合O中,同时解码SH-to-OH得到头尾实体的头字符对,将头字符对和所有实体的头字符进行匹配,找到头字符对对应的头尾实体存入集合S中;
7.3)判断S中每对头尾实体的尾字符对是否在O中,如果是,那么确定该三元组为(头实体,关系,尾实体);
步骤八:计算总的损失函数L,并通过反向传播算法进行联合训练,得到联合抽取模型:
L=Lrel+Ltp,
其中Lrel是关系预测的损失函数,第q个关系的真实值第q个关系的预测值Ltp是加入关系预测后的损失函数,E、H和T分别表示 EH-to-ET、SH-to-OH和ST-to-OT,表示字符对hij被标记的预测值,yijq表示字符对hij被标记的真实值,表示解码第q个关系时字符对hij被标记为yijq的概率,表示预测得到的关系数,是根据给定的本体约束集合找到的预测关系对应的头尾实体类型数,即预测得到的实体类型数;
步骤九:从Data中取一批验证数据集,将其医疗文本的字(或者词)向量及其相对距离矩阵输入联合抽取模型,计算联合抽取模型的F1分数:
其中precision为精确率,recall为召回率;
步骤十:重复步骤四到九,直到超过预定的F1分数,例如预定的CMeIE的验证数据集的F1分数可设为0.65,保存联合抽取模型;
步骤十一:将Text的各个医疗文本词汇增强后的字(或者词)向量及其相对距离矩阵输入联合抽取模型,得到实体关系三元组(如表1所示),存储到图数据库Neo4j,作为中文医疗信息咨询系统的知识图谱。
表1
表1表示中文医疗文本中正常关系和重叠关系(SEO和EPO)的三元组示意图
步骤十二:将用户的问题输入中文医疗信息咨询系统,对问题进行解析和关键词匹配后,使用cypher的match去匹配查询中文医疗知识图谱,根据返回知识组装答案,给出问题的查询结果。
本发明还包括实施本发明的一种中文医学实体关系联合抽取方法的系统,包括:医疗关系嵌入表示模块、医疗文本中头实体和尾实体的头尾位置获取模块、医疗文本字词向量及其相对距离计算模块、词汇增强后的字向量输出模块、医疗文本的关系预测模块、医疗文本的字符对向量生成模块、主谓宾三元组输出模块、联合抽取模型训练模块、联合抽取模型的F1分数计算模块、循环训练联合抽取模型模块、医疗文本实体关系获取模块。上述各模块依次分别对应本发明方法的步骤一~步骤十一的内容。
如上所述,本专利实施的具体实现步骤使本发明更加清晰。在本发明的精神和权利要求的保护范围内,对本发明做出的任何修改和改变,都落入本发明的保护范围。
Claims (2)
1.一种中文医学实体关系联合抽取方法,其特征在于:包括如下步骤:
步骤一:准备待抽取实体关系的中文医疗文本Text,根据给定的本体约束集合(包括关系名称、头实体类型和尾实体类型),使用中文BERT模型,将每个关系名称表示成嵌入向量,得到关系的语义信息,即关系嵌入C={c1,c2,...,cl},其中l为关系总数;
步骤二:获取已标注的中文医疗信息抽取数据集Data(包括各个医疗文本的关系名称、头实体和尾实体的名称及类型),对Data进行预处理,得到每个医疗文本中头实体和尾实体的头尾位置;
步骤三:基于Flat_Lattice结构对Text和Data进行词汇增强,计算它们各个医疗文本中任意两个字(或者词)向量的4个相对距离,得到各个医疗文本字(或者词)向量及其相对距离矩阵,具体过程如下:
3.1)对Text和Data的各个医疗文本分别使用中文的BERT模型得到各自的字向量;
3.2)获取预训练好的中文生物医学词向量,将Text和Data的各个医疗文本分别与中文生物医学词向量的词表进行匹配,识别出与词表有交集的词语进行词汇增强,得到Text和Data的各个医疗文本的词语向量;
3.3)对Text和Data中每个医疗文本的字向量、词语向量进行头尾位置编码,得到字、词的开始及结束位置,使用Flat_Lattice中的相对位置编码技术得到任意两个字(或者词)向量xi和xj之间的4个相对距离和放入相对距离矩阵,其中表示xi的开始位置到xj的开始位置的距离,表示xi的开始位置到xj的结束位置的距离,表示xi的结束位置到xj的开始位置的距离,表示xi的结束位置到xj的结束位置的距离;
步骤四:从Data中取一批训练数据集,将其医疗文本的字(或者词)向量Z和位置编码向量R输入Transformer-XL编码器得到医疗文本词汇增强后的字向量H={h1,h2,…,hn},n为医疗文本的长度,Transformer-XL编码器由自注意力层和前馈层2个子层组成,每个子层之后接残差连接和层标准化,任意两个字(或者词)向量xi和xj之间的位置编码Rij由4个相对距离和以绝对位置编码形式拼接后经过一个激活函数为ReLU的全连接得到:
Attention(A*,V)=Softmax(A*)V,
[Q,K,V]=Ex[Wq,Wk,Wv],
其中Wq,Wk,Z,Wk,R,u,v,Wk,Wv都是待训练的参数;
步骤五:根据关系嵌入C和Transformer-XL编码器输出的医疗文本字向量H预测关系,得到预测关系列表,具体过程如下:
5.1将H输入两个全连接得到自注意力值A(s),其中第一个全连接使用tanh激活函数,第二个全连接使用softmax激活函数,根据A(s)计算基于自注意力机制的医疗文本表示M(s):
A(s)=softmax(W2tanh(W1H)),
M(s)=A(s)HT,
其中W1和W2是待训练的参数;
5.2根据C和H计算关系注意力值A(l)和基于关系注意力机制的医疗文本表示M(l):
A(l)=CH,
M(l)=A(l)HT;
5.3通过注意力融合机制,将M(s)和M(l)分别输入一个使用sigmoid激活函数的全连接得到α和β,由α+β=1对α和β进行约束,融合得到M:
α=sigmoid(M(s)W3),
β=sigmoid(M(l)W4),
M=αM(s)+βM(l),
其中W3和W4是待训练的参数;
步骤六:将Transformer-XL编码器输出的医疗文本的每两个字向量hi和hj拼接后作一个全连接,得到字符对向量hij:
其中激活函数使用的是tanh,Wh和bh是待训练的参数;
步骤七:通过融合特定关系嵌入的TPLinker解码器解码得到主谓宾三元组,用EH-to-ET标记实体的头尾字符,用SH-to-OH标记关系头尾实体的头字符,用ST-to-OT标记关系头尾实体的尾字符,其中,EH-to-ET、SH-to-OH和ST-to-OT解码器由一个相同的全连接实现:
7.1)解码EH-to-ET得到医疗文本中的所有实体及其头字符;
7.2)对于预测关系列表中的每个关系,解码ST-to-OT得到头尾实体的尾字符对,将尾字符对和关系存入集合O中,同时解码SH-to-OH得到头尾实体的头字符对,将头字符对和所有实体的头字符进行匹配,找到头字符对对应的头尾实体存入集合S中;
7.3)判断S中每对头尾实体的尾字符对是否在O中,如果是,那么确定该三元组为(头实体,关系,尾实体);
步骤八:计算总的损失函数L,并通过反向传播算法进行联合训练,得到联合抽取模型:
L=Lrel+Ltp,
其中Lrel是关系预测的损失函数,第q个关系的真实值第q个关系的预测值ltp是加入关系预测后的损失函数,E、H和T分别表示EH-to-ET、SH-to-OH和ST-to-OT,表示字符对hij被标记的预测值,yijq表示字符对hij被标记的真实值,表示解码第q个关系时,字符对hij被标记为yijq的概率,表示预测得到的关系数,是根据给定的本体约束集合,找到的预测关系对应的头尾实体类型数,即预测得到的实体类型数;
步骤九:从Data中取一批验证数据集,将其医疗文本的字(或者词)向量及其相对距离矩阵输入联合抽取模型,计算联合抽取模型的F1分数:
其中precision为精确率,recall为召回率;
步骤十:重复步骤四到九,直到超过预定的F1分数,保存联合抽取模型;
步骤十一:将Text的各个医疗文本词汇增强后的字(或者词)向量及其相对距离矩阵输入联合抽取模型,得到实体关系三元组。
2.实施权利要求1所述的一种中文医学实体关系联合抽取方法的系统,其特征在于包括:医疗关系嵌入表示模块、医疗文本中头实体和尾实体的头尾位置获取模块、医疗文本字词向量及其相对距离计算模块、词汇增强后的字向量输出模块、医疗文本的关系预测模块、医疗文本的字符对向量生成模块、主谓宾三元组输出模块、联合抽取模型训练模块、联合抽取模型的F1分数计算模块、循环训练联合抽取模型模块、医疗文本实体关系获取模块。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111203313.3A CN114036934A (zh) | 2021-10-15 | 2021-10-15 | 一种中文医学实体关系联合抽取方法和系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111203313.3A CN114036934A (zh) | 2021-10-15 | 2021-10-15 | 一种中文医学实体关系联合抽取方法和系统 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN114036934A true CN114036934A (zh) | 2022-02-11 |
Family
ID=80135025
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202111203313.3A Pending CN114036934A (zh) | 2021-10-15 | 2021-10-15 | 一种中文医学实体关系联合抽取方法和系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114036934A (zh) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114596931A (zh) * | 2022-05-10 | 2022-06-07 | 上海柯林布瑞信息技术有限公司 | 基于病历的医学实体和关系联合提取方法和装置 |
CN115759098A (zh) * | 2022-11-14 | 2023-03-07 | 中国科学院空间应用工程与技术中心 | 一种航天文本数据的中文实体和关系联合抽取方法、系统 |
CN116737924A (zh) * | 2023-04-27 | 2023-09-12 | 百洋智能科技集团股份有限公司 | 一种医疗文本数据处理方法及装置 |
CN116775801A (zh) * | 2023-06-26 | 2023-09-19 | 中山大学 | 一种面向中文医学文本的实体关系抽取方法及系统 |
-
2021
- 2021-10-15 CN CN202111203313.3A patent/CN114036934A/zh active Pending
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114596931A (zh) * | 2022-05-10 | 2022-06-07 | 上海柯林布瑞信息技术有限公司 | 基于病历的医学实体和关系联合提取方法和装置 |
CN114596931B (zh) * | 2022-05-10 | 2022-08-02 | 上海柯林布瑞信息技术有限公司 | 基于病历的医学实体和关系联合提取方法和装置 |
CN115759098A (zh) * | 2022-11-14 | 2023-03-07 | 中国科学院空间应用工程与技术中心 | 一种航天文本数据的中文实体和关系联合抽取方法、系统 |
CN116737924A (zh) * | 2023-04-27 | 2023-09-12 | 百洋智能科技集团股份有限公司 | 一种医疗文本数据处理方法及装置 |
CN116775801A (zh) * | 2023-06-26 | 2023-09-19 | 中山大学 | 一种面向中文医学文本的实体关系抽取方法及系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110781683B (zh) | 一种实体关系联合抽取方法 | |
CN114036934A (zh) | 一种中文医学实体关系联合抽取方法和系统 | |
CN111428443B (zh) | 一种基于实体上下文语义交互的实体链接方法 | |
CN115048447B (zh) | 一种基于智能语义补全的数据库自然语言接口系统 | |
CN115080766B (zh) | 基于预训练模型的多模态知识图谱表征系统及方法 | |
CN111858940A (zh) | 一种基于多头注意力的法律案例相似度计算方法及系统 | |
CN116204674B (zh) | 一种基于视觉概念词关联结构化建模的图像描述方法 | |
CN113704437A (zh) | 一种融合多头注意力机制和相对位置编码的知识库问答方法 | |
CN114818717A (zh) | 融合词汇和句法信息的中文命名实体识别方法及系统 | |
CN115293161A (zh) | 基于自然语言处理和药品知识图谱的合理用药系统及方法 | |
CN114077673A (zh) | 一种基于btbc模型的知识图谱构建方法 | |
CN114429122A (zh) | 一种基于循环注意力的方面级情感分析系统和方法 | |
CN114781382A (zh) | 基于rwlstm模型融合的医疗命名实体识别系统及方法 | |
CN112925918A (zh) | 一种基于疾病领域知识图谱的问答匹配系统 | |
CN112036189A (zh) | 一种金文语义识别方法和系统 | |
CN115563314A (zh) | 多源信息融合增强的知识图谱表示学习方法 | |
CN115879546A (zh) | 一种复合神经网络心理医学知识图谱构建方法及系统 | |
CN116049422A (zh) | 基于联合抽取模型的包虫病知识图谱构建方法及其应用 | |
CN117423470B (zh) | 一种慢性病临床决策支持系统及构建方法 | |
CN114020900A (zh) | 基于融合空间位置注意力机制的图表英语摘要生成方法 | |
CN117648984A (zh) | 一种基于领域知识图谱的智能问答方法及系统 | |
CN117033423A (zh) | 一种注入最优模式项和历史交互信息的sql生成方法 | |
CN112507717A (zh) | 融合实体关键字特征的医疗领域实体分类方法 | |
CN116432637A (zh) | 一种基于强化学习的多粒度抽取-生成混合式文摘方法 | |
CN116109980A (zh) | 一种基于视频文本匹配的动作识别方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |