CN111368528A - 一种面向医学文本的实体关系联合抽取方法 - Google Patents

一种面向医学文本的实体关系联合抽取方法 Download PDF

Info

Publication number
CN111368528A
CN111368528A CN202010156316.5A CN202010156316A CN111368528A CN 111368528 A CN111368528 A CN 111368528A CN 202010156316 A CN202010156316 A CN 202010156316A CN 111368528 A CN111368528 A CN 111368528A
Authority
CN
China
Prior art keywords
entity
vector
medical
text
medical text
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202010156316.5A
Other languages
English (en)
Other versions
CN111368528B (zh
Inventor
滕飞
马敏博
李双庆
姚远
曾嵛
刘赟
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Southwest Jiaotong University
Original Assignee
Southwest Jiaotong University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Southwest Jiaotong University filed Critical Southwest Jiaotong University
Priority to CN202010156316.5A priority Critical patent/CN111368528B/zh
Publication of CN111368528A publication Critical patent/CN111368528A/zh
Application granted granted Critical
Publication of CN111368528B publication Critical patent/CN111368528B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2411Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on the proximity to a decision surface, e.g. support vector machines
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/047Probabilistic or stochastic networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Evolutionary Computation (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Computing Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computational Linguistics (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Probability & Statistics with Applications (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Databases & Information Systems (AREA)
  • Machine Translation (AREA)
  • Medical Treatment And Welfare Office Work (AREA)

Abstract

本发明公开了一种面向医学文本的实体关系联合抽取方法,该方法包括对医学文本实体关系数据集按照三元组方式进行重组,将医学文本语句向量化表示,采用双向长短期记忆网络加自注意力机制构建参数共享层,采用softmax函数预测头实体标签,采用CNN‑softmax进行关系‑尾实体联合解码,结合头实体预测结果增强联合解码表示,采用联合损失函数优化方式训练参数共享层和联合解码层。本发明解决了医学文本中实体和关系类别和位置分布不均匀、多对关系同时出现在同一句的问题,能够提高医学文本实体关系抽取的质量和效率。

Description

一种面向医学文本的实体关系联合抽取方法
技术领域
本发明属于医学文本实体识别技术领域,具体涉及一种面向医学文本的实体关系联合抽取方法。
背景技术
随着自然语言处理技术的快速发展,特别是在垂直领域的不断落地应用,极大促进了我国医疗服务从“信息化”向“智慧化”的过渡。从自由医学文本如电子病历、生物医学文献抽取结构化知识是智能导诊、问诊、临床辅助决策等智慧医疗应用的基础,同时也是构建医学知识图谱的重要研究内容。实体和关系联合抽取是信息抽取核心任务之一,具体指从给定的医学文本中自动识别出实体所在位置范围、类别,并同时对不同实体之间的语义关系进行判别。
大多数研究者独立地研究命名实体识别和实体抽取任务,或是将其视为序列流水线任务,即先识别出文本中的命名实体,再对实体对进行关系分类。由于该方法不需要对实体和关系联合标注,可以分别使用不同的模型和数据集学习,具有较高的灵活性。基于词,有学者提出了一种乳腺电子病历医疗实体与关系抽取系统,先通过训练词向量和字向量获取句子高维空间表示,然后使用 CNN和LSTM抽取句子级别特征向量,识别疾病、症状、检查和治疗实体,最后使用CNN-Softmax对所有实体对进行关系判别。
然而,命名实体类别往往和关系类别是相互影响。已知实体类别可以减少关系类型的搜索空间,反之亦然,如医学文本中定义“表现为”关系类别,可知实体1为疾病,实体2为症状。此外,分阶段识别任务易受错误传递的影响,故有许多学者开始从实体关系隐式联合抽取进行建模研究。如有研究者提出了一种中医电子病历实体关系抽取方法,将实体对与其关系看作三元组,通过联合标签同时识别关系类别与两个实体的位置,序列标签沿用常用的BIOES方式,模型结构采用双层BiLSTM-Softmax实现多标签分类学习。
基于深度学习的医学文本实体关系联合抽取方法隐式地降低了任务之间的错误传递,但仍然面临不同网络之间联合表示弱化的现象,这影响了两者的信息共享。医学文本由于其领域的特殊性,存在实体和关系类别和位置分布不均匀、多对关系同时出现在同一句的特点,即一句话中可能出现多个实体以及多个关系,且多个关系中第一个实体是相同的现象。
综上所述,现有的医学文本实体关系联合抽取主要存在以下问题:
(1)流水线实体和关系抽取方法带来的错误传递问题;
(2)同一语句多实体、多关系的信息稀疏问题;
(3)联合抽取框架中实体抽取模块和关系抽取模块交互能力不足的问题。
发明内容
为了解决现有技术中存在的以上问题,本发明提供了一种面向医学文本的实体关系联合抽取方法,有效提高医学文本实体关系抽取的质量和效率。
为了达到上述发明目的,本发明采用的技术方案为:
一种面向医学文本的实体关系联合抽取方法,包括以下步骤:
S1、获取带有标签的医学文本实体关系数据集,并按照三元组方式进行重组;
S2、采用序列化文本嵌入方法将医学文本语句向量化表示;
S3、采用双向长短期记忆网络加自注意力机制,从医学文本语句向量表示中学习文本序列的潜在语义信息,同时构建参数共享层;
S4、采用softmax函数预测头实体标签,得到基于输入语句预测的头实体集合;
S5、采用CNN-softmax进行关系-尾实体联合解码,并结合头实体预测结果,得到关系-尾实体标签预测;
S6、采用联合损失函数优化方式训练步骤S3中的参数共享层和步骤S5中的联合解码层。
进一步地,所述步骤S1中对医学文本实体关系数据集按照三元组方式进行重组具体为:
设定实体1为ent1,开始位置为
Figure BDA0002404175320000031
结束位置为
Figure BDA0002404175320000032
实体类别为l1,相应实体2为ent2
Figure BDA0002404175320000033
l2,关系为rel,n为实体总个数,重新组织与实体1具有相同头实体的三元组,重构形式表示为
Figure BDA0002404175320000034
进一步地,所述步骤S2采用序列化文本嵌入方法将医学文本语句向量化表示具体为:
将医学文本语句中每个单词映射为低维向量,通过向量拼接形成整个句子,表示为 X=(x1,x2,x3,…,xn)
其中,X为医学文本语句向量化表示,xi为单词ωi的向量表示,
Figure BDA0002404175320000035
wi为词向量,ci为单词基于字符的向量表示。
进一步地,所述步骤S3中采用双向长短期记忆网络加自注意力机制,从医学文本语句向量表示中学习文本序列的潜在语义信息具体为:
采用前向LSTM从左到右为句子中每个单词收集从开始到当前位置i的信息,并且采用后向LSTM从右到左为句子中每个单词收集结束到当前位置i的信息,表示为
Figure BDA0002404175320000041
Figure BDA0002404175320000042
Figure BDA0002404175320000043
采用自注意力机制获取不同单词在文本中所占权重向量,表示为α=softmax(Watt⊙HT)
其中,
Figure BDA0002404175320000044
分别表示前向LSTM的参数权重和后向LSTM的参数权重, softmax(·)为归一化指数函数,⊙为哈达玛积,Watt为待学习权重矩阵, HT=(h1,h2,…,hn)。
进一步地,所述步骤S3中构建参数共享层具体为:
将BiLSTM每一时刻的隐层向量与注意力向量拼接,作为两个识别模块的参数共享层,表示为
Figure BDA0002404175320000045
其中,,
Figure BDA0002404175320000046
表示与注意力向量拼接后的隐层向量。
进一步地,所述步骤S4中采用softmax函数预测头实体标签,得到其后验概率分布,表示为
Figure BDA0002404175320000047
其中,
Figure BDA0002404175320000048
为头实体标签,S为输入语句,θshr为共享参数层的权重参数集合,WE为词向量嵌入矩阵。
进一步地,所述步骤S4对输入语句S和真实标签e,通过最小化交叉熵损失函数
Figure BDA0002404175320000051
获取头实体标签概率的最大化,其中最小化交叉熵损失函数
Figure BDA0002404175320000052
表示为
Figure BDA0002404175320000053
其中,ei表示第i个位置的预测实体标签。
进一步地,所述步骤S5根据头实体位置定义启发特征向量,采用 CNN-softmax进行关系-尾实体联合解码,并结合头实体预测结果,得到关系-尾实体标签预测,其后验概率分布,表示为
Figure BDA0002404175320000054
其中,
Figure BDA0002404175320000055
为预测标签,θrt表示关系-尾实体的参数权重,ui为启发特征向量。
进一步地,所述步骤S5对输入语句S和真实标签r,通过最小化交叉熵损失函数
Figure BDA0002404175320000056
获取关系-尾实体标签标签概率的最大化,其中最小化交叉熵损失函数
Figure BDA0002404175320000057
表示为
Figure BDA0002404175320000058
其中,ri表示第i个位置的真实关系-尾实体标签。
进一步地,所述步骤S6采用联合损失函数优化方式训练步骤S3中的参数共享层和步骤S5中的联合解码层,表示为
Figure BDA0002404175320000059
其中,τ1,τ2为损失权重系数。
本发明具有以下有益效果:
(1)本发明采用头实体识别和关系-尾实体识别组成两阶段联合抽取框架,解决了同一语句中多对实体关系三元组带来的信息价值密度低的问题;
(2)本发明采用参数共享和联合编码的方式,能够提高联合抽取子模块之间的交互能力,增加潜在语义信息的利用率;
(3)本发明不依赖特定的文本以及通过大量文本分析得到的人工特征,提高了本发明的通用性,避免了繁琐的特征工程,进一步提高了医学文本的实体关系联合抽取效率。
附图说明
图1是本发明面向医学文本的实体关系联合抽取方法流程图;
图2是本发明的医学文本实体关系联合抽取网络结构图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅用以解释本发明,并不用于限定本发明。
如图1和图2所示,为本发明面向医学文本的实体关系联合抽取方法流程图和网络结构图。本发明根据实体关系组成的三元组,制作两阶段联合抽取数据集,利用双向长短期记忆网络建模长距离依赖的能力,以及卷积神经网络对局部上下文的表征能力,采用注意力机制捕获上下文之间的相关性,使得模型充分拟合文本潜在语义信息,解决医学文本中实体和关系类别和位置分布不均匀、多对关系同时出现在同一句的问题。
本发明提供了一种面向医学文本的实体关系联合抽取方法,包括以下步骤 S1至S6:
S1、获取带有标签的医学文本实体关系数据集,并按照三元组方式进行重组;
在本实施例中,本发明对医学文本实体关系数据集按照三元组方式进行重组,即(实体1,关系,实体2),具体为:
设定实体1为ent1,开始位置为
Figure BDA0002404175320000071
结束位置为
Figure BDA0002404175320000072
实体类别为l1,相应实体2为ent2
Figure BDA0002404175320000073
l2,关系为rel,n为实体总个数,重新组织与实体1具有相同头实体的三元组,重构形式表示为
Figure BDA0002404175320000074
以医学文本“支气管哮喘是一种常见病,多表现为喘息、胸闷或咳嗽等。”为例,重构形式为(0,4,疾病):[(16,17,疾病表现症状),(19,20,疾病表现症状),(22,23,疾病表现症状)]。
S2、采用序列化文本嵌入方法将医学文本语句向量化表示;
在本实施例中,本发明采用序列化文本嵌入方法,对输入的医学文本语句S,获取其向量化表示,具体为:
将医学文本语句中每个单词映射为低维向量,通过向量拼接形成整个句子,表示为 X=(x1,x2,x3,…,xn)
其中,X为医学文本语句向量化表示,xi为单词ωi的向量表示,
Figure BDA0002404175320000075
Figure BDA0002404175320000076
向量拼接符号,wi为词向量,ci为单词基于字符的向量表示。具体地,wi属于词向量嵌入矩阵
Figure BDA0002404175320000077
第i行向量,m表示整个词汇表大小,dim表示词向量的维度;ci是以单词ωi所有字符输入到CNN得到,ci=CNN(c ar(ωi);θC),θC表示CNN的参数权重。
S3、采用双向长短期记忆网络加自注意力机制,从医学文本语句向量表示中学习文本序列的潜在语义信息,同时构建参数共享层;
在本实施例中,本发明采用双向长短期记忆网络加自注意力机制,从医学文本语句向量表示中学习文本序列的潜在语义信息,具体为:
采用前向LSTM从左到右为句子中每个单词收集从开始到当前位置i的信息,并且采用后向LSTM从右到左为句子中每个单词收集结束到当前位置i的信息,表示为
Figure BDA0002404175320000081
Figure BDA0002404175320000082
Figure BDA0002404175320000083
其中,
Figure BDA0002404175320000084
分别表示前向LSTM的参数权重和后向LSTM的参数权重;
采用自注意力机制获取不同单词在文本中所占权重向量
Figure BDA0002404175320000085
其中 dimh表示LSTM输出维度,表示为α=softmax(Watt⊙HT)
其中,softmax(·)为归一化指数函数,⊙为哈达玛积,Watt为待学习权重矩阵,HT=(h1,h2,…,hn)。
进一步地,本发明通过将BiLSTM每一时刻的隐层向量与注意力向量拼接,作为两个识别模块的参数共享层,表示为
Figure BDA0002404175320000086
其中,
Figure BDA0002404175320000087
表示与注意力向量拼接后的隐层向量。
S4、采用softmax函数预测头实体标签,得到基于输入语句预测的头实体集合;
在本实施例中,本发明采用softmax函数预测头实体标签
Figure BDA0002404175320000091
得到其后验概率分布,表示为
Figure BDA0002404175320000092
其中,
Figure BDA0002404175320000093
为头实体标签,S为输入语句,θshr为共享参数层的权重参数集合,WE为词向量嵌入矩阵。
对给定的输入语句S和真实标签e,本发明通过最小化交叉熵损失函数
Figure BDA0002404175320000094
获取头实体标签概率的最大化,其中最小化交叉熵损失函数
Figure BDA0002404175320000095
表示为
Figure BDA0002404175320000096
其中,ei表示第i个位置的预测实体标签。
本发明通过预测标签序列
Figure BDA0002404175320000097
可以得到基于输入语句预测的头实体集合。
S5、采用CNN-softmax进行关系-尾实体联合解码,并结合头实体预测结果,得到关系-尾实体标签预测;
在本实施例中,本发明根据头实体位置定义启发特征向量u,采用 CNN-softmax进行关系-尾实体联合解码,并结合头实体预测结果,得到关系-尾实体标签预测
Figure BDA0002404175320000098
其后验概率分布,表示为
Figure BDA0002404175320000099
其中,
Figure BDA00024041753200000910
为预测标签,θrt表示关系-尾实体的参数权重,θrt={θhe,Wcnn}, ui为启发特征向量,
Figure BDA00024041753200000911
对给定的输入语句S和真实标签r,本发明通过最小化交叉熵损失函数
Figure BDA00024041753200000912
获取关系-尾实体标签标签概率的最大化,其中最小化交叉熵损失函数
Figure BDA00024041753200000913
表示为
Figure BDA0002404175320000101
其中,ri表示第i个位置的真实关系-尾实体标签。
S6、采用联合损失函数优化方式训练步骤S3中的参数共享层和步骤S5中的联合解码层。
在本实施例中,本发明采用联合损失函数优化方式训练步骤S3中的参数共享层和步骤S5中的联合解码层,表示为
Figure BDA0002404175320000102
其中,τ1,τ2为损失权重系数,通过交叉验证搜索调优确定。
在预测阶段,根据训练后的联合解码层得到关系-尾实体预测结果,并结合步骤S4得到的头实体预测结果,输出实体关系联合抽取集合。
本领域的普通技术人员将会意识到,这里所述的实施例是为了帮助读者理解本发明的原理,应被理解为本发明的保护范围并不局限于这样的特别陈述和实施例。本领域的普通技术人员可以根据本发明公开的这些技术启示做出各种不脱离本发明实质的其它各种具体变形和组合,这些变形和组合仍然在本发明的保护范围内。

Claims (10)

1.一种面向医学文本的实体关系联合抽取方法,其特征在于,包括以下步骤:
S1、获取带有标签的医学文本实体关系数据集,并按照三元组方式进行重组;
S2、采用序列化文本嵌入方法将医学文本语句向量化表示;
S3、采用双向长短期记忆网络加自注意力机制,从医学文本语句向量表示中学习文本序列的潜在语义信息,同时构建参数共享层;
S4、采用softmax函数预测头实体标签,得到基于输入语句预测的头实体集合;
S5、采用CNN-softmax进行关系-尾实体联合解码,并结合头实体预测结果,得到关系-尾实体标签预测;
S6、采用联合损失函数优化方式训练步骤S3中的参数共享层和步骤S5中的联合解码层。
2.如权利要求1所述的面向医学文本的实体关系联合抽取方法,其特征在于,所述步骤S1中对医学文本实体关系数据集按照三元组方式进行重组具体为:
设定实体1为ent1,开始位置为
Figure FDA0002404175310000011
结束位置为
Figure FDA0002404175310000012
实体类别为l1,相应实体2为ent2
Figure FDA0002404175310000013
l2,关系为rel,n为实体总个数,重新组织与实体1具有相同头实体的三元组,重构形式表示为
Figure FDA0002404175310000014
3.如权利要求2所述的面向医学文本的实体关系联合抽取方法,其特征在于,所述步骤S2采用序列化文本嵌入方法将医学文本语句向量化表示具体为:
将医学文本语句中每个单词映射为低维向量,通过向量拼接形成整个句子,表示为
X=(x1,x2,x3,...,xn)
其中,X为医学文本语句向量化表示,xi为单词ωi的向量表示,
Figure FDA0002404175310000021
wi为词向量,ci为单词基于字符的向量表示。
4.如权利要求3所述的面向医学文本的实体关系联合抽取方法,其特征在于,所述步骤S3中采用双向长短期记忆网络加自注意力机制,从医学文本语句向量表示中学习文本序列的潜在语义信息具体为:
采用前向LSTM从左到右为句子中每个单词收集从开始到当前位置i的信息,并且采用后向LSTM从右到左为句子中每个单词收集结束到当前位置i的信息,表示为
Figure FDA0002404175310000022
Figure FDA0002404175310000023
Figure FDA0002404175310000024
采用自注意力机制获取不同单词在文本中所占权重向量,表示为
α=softmax(Watt⊙HT)
其中,
Figure FDA0002404175310000025
分别表示前向LSTM的参数权重和后向LSTM的参数权重,softmax(·)为归一化指数函数,⊙为哈达玛积,Watt为待学习权重矩阵,HT=(h1,h2,...,hn)。
5.如权利要求4所述的面向医学文本的实体关系联合抽取方法,其特征在于,所述步骤S3中构建参数共享层具体为:
将BiLSTM每一时刻的隐层向量与注意力向量拼接,作为两个识别模块的参数共享层,表示为
Figure FDA0002404175310000031
其中,,
Figure FDA0002404175310000032
表示与注意力向量拼接后的隐层向量。
6.如权利要求5所述的面向医学文本的实体关系联合抽取方法,其特征在于,所述步骤S4中采用softmax函数预测头实体标签,得到其后验概率分布,表示为
Figure FDA0002404175310000033
其中,
Figure FDA0002404175310000034
为头实体标签,S为输入语句,θshr为共享参数层的权重参数集合,WE为词向量嵌入矩阵。
7.如权利要求6所述的面向医学文本的实体关系联合抽取方法,其特征在于,所述步骤S4对输入语句S和真实标签e,通过最小化交叉熵损失函数
Figure FDA0002404175310000035
获取头实体标签概率的最大化,其中最小化交叉熵损失函数
Figure FDA0002404175310000036
表示为
Figure FDA0002404175310000037
其中,ei表示第i个位置的预测实体标签。
8.如权利要求7所述的面向医学文本的实体关系联合抽取方法,其特征在于,所述步骤S5根据头实体位置定义启发特征向量,采用CNN-softmax进行关系-尾实体联合解码,并结合头实体预测结果,得到关系-尾实体标签预测,其后验概率分布,表示为
Figure FDA0002404175310000038
其中,
Figure FDA0002404175310000041
为预测标签,θrt表示关系-尾实体的参数权重,ui为启发特征向量。
9.如权利要求8所述的面向医学文本的实体关系联合抽取方法,其特征在于,所述步骤S5对输入语句S和真实标签r,通过最小化交叉熵损失函数
Figure FDA0002404175310000042
获取关系-尾实体标签标签概率的最大化,其中最小化交叉熵损失函数
Figure FDA0002404175310000043
表示为
Figure FDA0002404175310000044
其中,ri表示第i个位置的真实关系-尾实体标签。
10.如权利要求9所述的面向医学文本的实体关系联合抽取方法,其特征在于,所述步骤S6采用联合损失函数优化方式训练步骤S3中的参数共享层和步骤S5中的联合解码层,表示为
Figure FDA0002404175310000045
其中,τ1,τ2为损失权重系数。
CN202010156316.5A 2020-03-09 2020-03-09 一种面向医学文本的实体关系联合抽取方法 Expired - Fee Related CN111368528B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010156316.5A CN111368528B (zh) 2020-03-09 2020-03-09 一种面向医学文本的实体关系联合抽取方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010156316.5A CN111368528B (zh) 2020-03-09 2020-03-09 一种面向医学文本的实体关系联合抽取方法

Publications (2)

Publication Number Publication Date
CN111368528A true CN111368528A (zh) 2020-07-03
CN111368528B CN111368528B (zh) 2022-07-08

Family

ID=71211722

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010156316.5A Expired - Fee Related CN111368528B (zh) 2020-03-09 2020-03-09 一种面向医学文本的实体关系联合抽取方法

Country Status (1)

Country Link
CN (1) CN111368528B (zh)

Cited By (26)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111949802A (zh) * 2020-08-06 2020-11-17 平安科技(深圳)有限公司 医学领域知识图谱的构建方法、装置、设备及存储介质
CN111950297A (zh) * 2020-08-26 2020-11-17 桂林电子科技大学 一种面向异常事件的关系抽取方法
CN112115687A (zh) * 2020-08-26 2020-12-22 华南理工大学 一种结合知识库中的三元组和实体类型的生成问题方法
CN112463982A (zh) * 2020-11-27 2021-03-09 华东师范大学 一种基于显隐式实体约束的关系抽取方法
CN112487211A (zh) * 2020-12-15 2021-03-12 交控科技股份有限公司 一种轨道交通知识库构建方法及系统
CN112487109A (zh) * 2020-12-01 2021-03-12 朱胜青 实体关系抽取方法、终端和计算机可读存储介质
CN112542222A (zh) * 2020-12-21 2021-03-23 中南大学 基于深度学习的中文电子病历实体及关系联合抽取方法
CN112560475A (zh) * 2020-11-16 2021-03-26 和美(深圳)信息技术股份有限公司 三元组抽取方法及系统
CN112711949A (zh) * 2021-01-05 2021-04-27 山东众阳健康科技集团有限公司 一种命名实体识别和实体关系抽取的联合方法
CN112818676A (zh) * 2021-02-02 2021-05-18 东北大学 一种医学实体关系联合抽取方法
CN113033203A (zh) * 2021-02-05 2021-06-25 浙江大学 一种面向医药说明书文本的结构化信息抽取方法
CN113051929A (zh) * 2021-03-23 2021-06-29 电子科技大学 一种基于细粒度语义信息增强的实体关系抽取的方法
CN113221571A (zh) * 2021-05-31 2021-08-06 重庆交通大学 基于实体相关注意力机制的实体关系联合抽取方法
CN113779260A (zh) * 2021-08-12 2021-12-10 华东师范大学 一种基于预训练模型的领域图谱实体和关系联合抽取方法及系统
CN113806493A (zh) * 2021-10-09 2021-12-17 中国人民解放军国防科技大学 一种用于互联网文本数据的实体关系联合抽取方法、装置
US20220046206A1 (en) * 2020-08-04 2022-02-10 Vingroup Joint Stock Company Image caption apparatus
CN114330323A (zh) * 2022-03-08 2022-04-12 成都数联云算科技有限公司 实体关系联合抽取方法、装置、计算机终端及存储介质
CN114596931A (zh) * 2022-05-10 2022-06-07 上海柯林布瑞信息技术有限公司 基于病历的医学实体和关系联合提取方法和装置
CN114841151A (zh) * 2022-07-04 2022-08-02 武汉纺织大学 基于分解-重组策略的医学文本实体关系联合抽取方法
CN114925678A (zh) * 2022-04-21 2022-08-19 电子科技大学 一种基于高层交互机制的药物实体和关系联合抽取方法
CN115130466A (zh) * 2022-09-02 2022-09-30 杭州火石数智科技有限公司 分类和实体识别联合抽取方法、计算机设备及存储介质
CN115270801A (zh) * 2022-09-28 2022-11-01 浙江太美医疗科技股份有限公司 文本信息抽取模型的训练方法、文本信息抽取方法和应用
CN115659986A (zh) * 2022-12-13 2023-01-31 南京邮电大学 一种面向糖尿病文本的实体关系抽取方法
CN117290510A (zh) * 2023-11-27 2023-12-26 浙江太美医疗科技股份有限公司 文档信息抽取方法、模型、电子设备及可读介质
CN117332785A (zh) * 2023-10-10 2024-01-02 山东省计算中心(国家超级计算济南中心) 一种从网络安全威胁情报联合抽取实体与关系的方法
WO2024000966A1 (zh) * 2022-06-29 2024-01-04 苏州思萃人工智能研究所有限公司 用于自然语言模型的优化方法

Citations (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109165385A (zh) * 2018-08-29 2019-01-08 中国人民解放军国防科技大学 一种基于实体关系联合抽取模型的多三元组抽取方法
CN109408812A (zh) * 2018-09-30 2019-03-01 北京工业大学 一种基于注意力机制的序列标注联合抽取实体关系的方法
CN109800411A (zh) * 2018-12-03 2019-05-24 哈尔滨工业大学(深圳) 临床医疗实体及其属性抽取方法
CN109918671A (zh) * 2019-03-12 2019-06-21 西南交通大学 基于卷积循环神经网络的电子病历实体关系抽取方法
CN110046252A (zh) * 2019-03-29 2019-07-23 北京工业大学 一种基于注意力机制神经网络与知识图谱的医疗文本分级方法
CN110196978A (zh) * 2019-06-04 2019-09-03 重庆大学 一种关注关联词的实体关系抽取方法
CN110210037A (zh) * 2019-06-12 2019-09-06 四川大学 面向循证医学领域的类别检测方法
US20190354885A1 (en) * 2018-05-18 2019-11-21 Deepmind Technologies Limited Reinforcement learning using a relational network for generating data encoding relationships between entities in an environment
CN110570920A (zh) * 2019-08-20 2019-12-13 华东理工大学 一种基于集中注意力模型的实体、关系联合学习方法
CN110705299A (zh) * 2019-09-26 2020-01-17 北京明略软件系统有限公司 实体和关系的联合抽取方法、模型、电子设备及存储介质
CN110781683A (zh) * 2019-11-04 2020-02-11 河海大学 一种实体关系联合抽取方法
CN110866124A (zh) * 2019-11-06 2020-03-06 北京诺道认知医学科技有限公司 基于多数据源的医学知识图谱融合方法及装置

Patent Citations (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20190354885A1 (en) * 2018-05-18 2019-11-21 Deepmind Technologies Limited Reinforcement learning using a relational network for generating data encoding relationships between entities in an environment
CN109165385A (zh) * 2018-08-29 2019-01-08 中国人民解放军国防科技大学 一种基于实体关系联合抽取模型的多三元组抽取方法
CN109408812A (zh) * 2018-09-30 2019-03-01 北京工业大学 一种基于注意力机制的序列标注联合抽取实体关系的方法
CN109800411A (zh) * 2018-12-03 2019-05-24 哈尔滨工业大学(深圳) 临床医疗实体及其属性抽取方法
CN109918671A (zh) * 2019-03-12 2019-06-21 西南交通大学 基于卷积循环神经网络的电子病历实体关系抽取方法
CN110046252A (zh) * 2019-03-29 2019-07-23 北京工业大学 一种基于注意力机制神经网络与知识图谱的医疗文本分级方法
CN110196978A (zh) * 2019-06-04 2019-09-03 重庆大学 一种关注关联词的实体关系抽取方法
CN110210037A (zh) * 2019-06-12 2019-09-06 四川大学 面向循证医学领域的类别检测方法
CN110570920A (zh) * 2019-08-20 2019-12-13 华东理工大学 一种基于集中注意力模型的实体、关系联合学习方法
CN110705299A (zh) * 2019-09-26 2020-01-17 北京明略软件系统有限公司 实体和关系的联合抽取方法、模型、电子设备及存储介质
CN110781683A (zh) * 2019-11-04 2020-02-11 河海大学 一种实体关系联合抽取方法
CN110866124A (zh) * 2019-11-06 2020-03-06 北京诺道认知医学科技有限公司 基于多数据源的医学知识图谱融合方法及装置

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
BOWEN YU等: "Joint Extraction of Entities and Relations Based on a Novel Decomposition Strategy", 《HTTPS://ARXIV.ORG/ABS/1909.04273》 *
刘康等: "基于表示学习的知识库问答研究进展与展望", 《自动化学报》 *

Cited By (42)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20220046206A1 (en) * 2020-08-04 2022-02-10 Vingroup Joint Stock Company Image caption apparatus
CN111949802A (zh) * 2020-08-06 2020-11-17 平安科技(深圳)有限公司 医学领域知识图谱的构建方法、装置、设备及存储介质
CN112115687B (zh) * 2020-08-26 2024-04-26 华南理工大学 一种结合知识库中的三元组和实体类型的生成问题方法
CN111950297A (zh) * 2020-08-26 2020-11-17 桂林电子科技大学 一种面向异常事件的关系抽取方法
CN112115687A (zh) * 2020-08-26 2020-12-22 华南理工大学 一种结合知识库中的三元组和实体类型的生成问题方法
WO2022041294A1 (zh) * 2020-08-26 2022-03-03 华南理工大学 一种结合知识库中的三元组和实体类型的生成问题方法
CN112560475B (zh) * 2020-11-16 2023-05-12 和美(深圳)信息技术股份有限公司 三元组抽取方法及系统
CN112560475A (zh) * 2020-11-16 2021-03-26 和美(深圳)信息技术股份有限公司 三元组抽取方法及系统
CN112463982A (zh) * 2020-11-27 2021-03-09 华东师范大学 一种基于显隐式实体约束的关系抽取方法
CN112487109A (zh) * 2020-12-01 2021-03-12 朱胜青 实体关系抽取方法、终端和计算机可读存储介质
CN112487211B (zh) * 2020-12-15 2024-04-26 交控科技股份有限公司 一种轨道交通知识库构建方法及系统
CN112487211A (zh) * 2020-12-15 2021-03-12 交控科技股份有限公司 一种轨道交通知识库构建方法及系统
CN112542222B (zh) * 2020-12-21 2024-02-02 中南大学 基于深度学习的中文电子病历实体及关系联合抽取方法
CN112542222A (zh) * 2020-12-21 2021-03-23 中南大学 基于深度学习的中文电子病历实体及关系联合抽取方法
CN112711949A (zh) * 2021-01-05 2021-04-27 山东众阳健康科技集团有限公司 一种命名实体识别和实体关系抽取的联合方法
CN112711949B (zh) * 2021-01-05 2022-04-22 山东众阳健康科技集团有限公司 一种命名实体识别和实体关系抽取的联合方法
CN112818676A (zh) * 2021-02-02 2021-05-18 东北大学 一种医学实体关系联合抽取方法
CN112818676B (zh) * 2021-02-02 2023-09-26 东北大学 一种医学实体关系联合抽取方法
CN113033203A (zh) * 2021-02-05 2021-06-25 浙江大学 一种面向医药说明书文本的结构化信息抽取方法
CN113051929A (zh) * 2021-03-23 2021-06-29 电子科技大学 一种基于细粒度语义信息增强的实体关系抽取的方法
CN113221571B (zh) * 2021-05-31 2022-07-01 重庆交通大学 基于实体相关注意力机制的实体关系联合抽取方法
CN113221571A (zh) * 2021-05-31 2021-08-06 重庆交通大学 基于实体相关注意力机制的实体关系联合抽取方法
CN113779260B (zh) * 2021-08-12 2023-07-18 华东师范大学 一种基于预训练模型的领域图谱实体和关系联合抽取方法及系统
CN113779260A (zh) * 2021-08-12 2021-12-10 华东师范大学 一种基于预训练模型的领域图谱实体和关系联合抽取方法及系统
CN113806493A (zh) * 2021-10-09 2021-12-17 中国人民解放军国防科技大学 一种用于互联网文本数据的实体关系联合抽取方法、装置
CN113806493B (zh) * 2021-10-09 2023-08-29 中国人民解放军国防科技大学 一种用于互联网文本数据的实体关系联合抽取方法、装置
CN114330323A (zh) * 2022-03-08 2022-04-12 成都数联云算科技有限公司 实体关系联合抽取方法、装置、计算机终端及存储介质
CN114925678A (zh) * 2022-04-21 2022-08-19 电子科技大学 一种基于高层交互机制的药物实体和关系联合抽取方法
CN114925678B (zh) * 2022-04-21 2023-05-26 电子科技大学 一种基于高层交互机制的药物实体和关系联合抽取方法
CN114596931B (zh) * 2022-05-10 2022-08-02 上海柯林布瑞信息技术有限公司 基于病历的医学实体和关系联合提取方法和装置
CN114596931A (zh) * 2022-05-10 2022-06-07 上海柯林布瑞信息技术有限公司 基于病历的医学实体和关系联合提取方法和装置
WO2024000966A1 (zh) * 2022-06-29 2024-01-04 苏州思萃人工智能研究所有限公司 用于自然语言模型的优化方法
CN114841151A (zh) * 2022-07-04 2022-08-02 武汉纺织大学 基于分解-重组策略的医学文本实体关系联合抽取方法
CN115130466B (zh) * 2022-09-02 2022-12-02 杭州火石数智科技有限公司 分类和实体识别联合抽取方法、计算机设备及存储介质
CN115130466A (zh) * 2022-09-02 2022-09-30 杭州火石数智科技有限公司 分类和实体识别联合抽取方法、计算机设备及存储介质
CN115270801B (zh) * 2022-09-28 2022-12-30 浙江太美医疗科技股份有限公司 文本信息抽取模型的训练方法、文本信息抽取方法和应用
CN115270801A (zh) * 2022-09-28 2022-11-01 浙江太美医疗科技股份有限公司 文本信息抽取模型的训练方法、文本信息抽取方法和应用
CN115659986A (zh) * 2022-12-13 2023-01-31 南京邮电大学 一种面向糖尿病文本的实体关系抽取方法
CN117332785A (zh) * 2023-10-10 2024-01-02 山东省计算中心(国家超级计算济南中心) 一种从网络安全威胁情报联合抽取实体与关系的方法
CN117332785B (zh) * 2023-10-10 2024-03-01 山东省计算中心(国家超级计算济南中心) 一种从网络安全威胁情报联合抽取实体与关系的方法
CN117290510A (zh) * 2023-11-27 2023-12-26 浙江太美医疗科技股份有限公司 文档信息抽取方法、模型、电子设备及可读介质
CN117290510B (zh) * 2023-11-27 2024-01-30 浙江太美医疗科技股份有限公司 文档信息抽取方法、模型、电子设备及可读介质

Also Published As

Publication number Publication date
CN111368528B (zh) 2022-07-08

Similar Documents

Publication Publication Date Title
CN111368528B (zh) 一种面向医学文本的实体关系联合抽取方法
CN111444305B (zh) 一种基于知识图谱嵌入的多三元组联合抽取方法
WO2022022163A1 (zh) 文本分类模型的训练方法、装置、设备及存储介质
CN112214995B (zh) 用于同义词预测的分层多任务术语嵌入学习
CN113177124B (zh) 一种垂直领域知识图谱构建方法及系统
CN110210037B (zh) 面向循证医学领域的类别检测方法
CN111046179B (zh) 一种面向特定领域开放网络问句的文本分类方法
CN111930942A (zh) 文本分类方法、语言模型训练方法、装置及设备
Zhang et al. Aspect-based sentiment analysis for user reviews
CN109101490B (zh) 一种基于融合特征表示的事实型隐式情感识别方法和系统
Yan et al. Sentiment analysis of student texts using the CNN-BiGRU-AT model
Liu et al. Emotion-semantic-aware dual contrastive learning for epistemic emotion identification of learner-generated reviews in MOOCs
CN111881292B (zh) 一种文本分类方法及装置
CN112732872B (zh) 面向生物医学文本的基于主题注意机制的多标签分类方法
CN110598022B (zh) 一种基于鲁棒深度哈希网络的图像检索系统与方法
CN113849653B (zh) 一种文本分类方法及装置
Zhang et al. Sentiment classification for chinese text based on interactive multitask learning
Peng et al. BG-SAC: Entity relationship classification model based on Self-Attention supported Capsule Networks
Lin et al. Multi-label emotion classification based on adversarial multi-task learning
CN112668633B (zh) 一种基于细粒度领域自适应的图迁移学习方法
Ding et al. Chinese keyword extraction model with distributed computing
CN116662924A (zh) 基于双通道与注意力机制的方面级多模态情感分析方法
CN116049394A (zh) 一种基于图神经网络长文本相似度对比方法
Hsiao et al. Construction of an artificial intelligence writing model for English based on fusion neural network model
CN114781356A (zh) 一种基于输入共享的文本摘要生成方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20220708