CN115034221A - 基于BiLSTM结合全局指针的重叠关系抽取系统 - Google Patents

基于BiLSTM结合全局指针的重叠关系抽取系统 Download PDF

Info

Publication number
CN115034221A
CN115034221A CN202210593426.7A CN202210593426A CN115034221A CN 115034221 A CN115034221 A CN 115034221A CN 202210593426 A CN202210593426 A CN 202210593426A CN 115034221 A CN115034221 A CN 115034221A
Authority
CN
China
Prior art keywords
entity
bert
extractor
relation
bilstm
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202210593426.7A
Other languages
English (en)
Other versions
CN115034221B (zh
Inventor
甘玲
刘晓彬
刘菊
胡柳慧
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Chongqing University of Post and Telecommunications
Original Assignee
Chongqing University of Post and Telecommunications
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Chongqing University of Post and Telecommunications filed Critical Chongqing University of Post and Telecommunications
Priority to CN202210593426.7A priority Critical patent/CN115034221B/zh
Publication of CN115034221A publication Critical patent/CN115034221A/zh
Application granted granted Critical
Publication of CN115034221B publication Critical patent/CN115034221B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • G06F40/295Named entity recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • G06F16/355Class or cluster creation or modification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/211Syntactic parsing, e.g. based on context-free grammar [CFG] or unification grammars
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Data Mining & Analysis (AREA)
  • Biomedical Technology (AREA)
  • Computing Systems (AREA)
  • Molecular Biology (AREA)
  • Evolutionary Computation (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Biophysics (AREA)
  • Databases & Information Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Machine Translation (AREA)

Abstract

本发明涉及一种基于BiLSTM结合全局指针的重叠关系抽取系统,属于计算机技术领域。该系统包括依次连接的共享的Bert编码器、关系类型提取器、头实体提取器和尾实体提取器;所述Bert编码器通过所有层中联合调节左右上下文来预训练来自未标记文本的深层双向表示;设置的输出层,对预训练的BERT模型进行调整;采用预训练模型bert编码文本信息,具有丰富的文本信息;在实体提取模块,本发明提出了利用关系类型和多头注意力结合来引导实体提取,可以充分利用关系类型外部知识,避免隔离关系和实体之间的联系,并且通过多头注意力来给重要信息分配更高的注意力得分。

Description

基于BiLSTM结合全局指针的重叠关系抽取系统
技术领域
本发明属于计算机技术领域,涉及基于BiLSTM结合全局指针的重叠关系抽取系统。
背景技术
随着大数据的发展,海量的信息以半结构或纯原始文本的形式展现给信息使用者,信息抽取技术因此得到了很大的发展,关系抽取是信息抽取中重要的子任务之一,目的是在命名实体识别的基础上从文本中抽取实体之间存在的各类关系类别,构成〈实体1,关系类型,实体2〉的结构化形式,实现语义关系的自动抽取和查询匹配。
然而关系抽取领域中的数据集中的句子包含了更为复杂的事实关系,不同的关系三元组在一个句子中可能有重叠。
对于重叠实体关系抽取研究中,采用的是联合抽取模型方法。Wei等人设计了级联二进制标记框架CaseRel,使模型学习给定关系下HE到TE之间的映射函数,从而达到对三元组整体建模的效果;Zeng等人提出了一种基于复制机制的端到端模型CopyRe,该模型先提取关系再提取实体,通过复制实体让实体参与到不同的三元组;Bai等人通过多层神经网络进行编码并结合自注意力机制,设计了双指针网络结构分别识别实体的开始位置和实体的结束位置,从而让完整的实体参与到复制过程中;Wang等人为了解决重叠实体关系抽取任务,提出了基于图结构的联合抽取模型等。
现有技术存在以下不足:
(1)重叠实体抽取常包括隐含关系数据,联合抽取虽然能避免误差传播问题,但是仍然存在对于模块之间信息利用不足,并且无法准确提取隐含关系等缺点。
(2)对于重叠实体预测,通常使用指针网络模块分别识别实体的开始位置和结束位置,这会带来训练和预测时的不一致,可能影响预测的准确性。
本发明主要解决重叠实体关系抽取中,无法准确提取重叠实体和关系中的隐含关系的缺点,以及重叠实体预测开始位置和结束位置信息割裂和预测不一致性,即问题(1)和问题(2).
发明内容
有鉴于此,本发明的目的在于提供一种基于BiLSTM结合全局指针的重叠关系抽取系统。
针对问题(1)中模块信息利用不足和无法准确提取隐含关系的问题,本发明采用关系提取模块提前将句子存在的关系类型先预测出来,将关系向量和多头注意力结合,通过关系作为外部知识来引导实体抽取。
针对问题(2)中开始位置和结束位置信息割裂,容易存在训练和预测不一致的问题,本发明根据常规的指针网络进行改进,提出采用类似多头计算矩阵得分方式获取全局得分,通过全局指针网络运用在该实体抽取模块。
为达到上述目的,本发明提供如下技术方案:
基于BiLSTM结合全局指针的重叠关系抽取系统,该系统包括依次连接的共享的Bert编码器、关系类型提取器、头实体提取器和尾实体提取器;
所述Bert编码器通过所有层中联合调节左右上下文来预训练来自未标记文本的深层双向表示;设置的输出层,对预训练的BERT模型进行调整;采用预训练模型bert编码文本信息,具有丰富的文本信息;
所述关系类型提取器基于Bert编码后,采用输出最后一层的CLS表示作为句子的表示,经过池化操作,在全连接层操作后,通过sigmoid函数来作多标签分类,通过设置阈值来确定句子中所存在的关系类型;
关系类型提取器通过优化如下概率来检测关系r:
Figure BDA0003666609410000021
其中
Figure BDA0003666609410000022
是第i个关系的真实标签,Pi r是指第i个关系存在的概率,K表示总的关系类型数,X表示文本输入;
所述头实体提取器将Bert输出的token向量表示作为实体提取器的输入,通过BiLSTM提取长距离的特征,再通过结合关系类型向量,进行多头注意力得分计算,得到不同词语中的不同重要程度得分,最后通过计算得到一个全局矩阵得分,通过全局矩阵得分来整体获得头实体所在位置;
所述尾实体提取器在获取头实体位置之后,将头实体向量表示和位置信息嵌入到BiLSTM之后,经过和头实体提取器类似的操作,得到尾实体所在的位置。
可选的,所述Bert编码器中,使用预先训练好的Bert模型对文本表示进行编码,以捕获文本的语义;输入文本中让c代表Bert中的特殊标记CLS,s是Bert中的分隔符SEP,输入一个包含n个标记的文本X,如公式(1)所示:
X=[c,x1,x2,...,xn,s] (1)
通过Bert模型后输出为公式(2)所示:
H=[h0,h1,h2,...,hm,hm+1] (2)。
可选的,所述关系类型提取器中,给定一组预定义的关系集合R={r1,r2,r3,r4…,rk},k是R的大小,通过对于Bert的池化操作得到的向量表示作为关系类型提取器的输入,经过线性层和sigmoid激活函数,得到关系的概率分布,如公式(3)所示:
Figure BDA0003666609410000031
其中h'0是Bert层池化操作后的向量表示,设置阈值δ,当Pi r>δ时,表示该句子文本存在第i种关系。
可选的,所述头实体提取器中,将Bert的token输出,作为实体提取器的输入,通过BiLSTM编码器提取长距离依赖特征,如公式(4)所示:
Figure BDA0003666609410000032
获得BiLSTM输出后,将与关系向量表示Vi r进行拼接,再经过多头注意力机制得到更细粒度的词语的重点信息得分,如公式(5)所示:
Figure BDA0003666609410000033
接着通过两个全连接层和计算全局得分机制获得矩阵得分,将得分最高的所在位置的m,n取出即是实体在句子中所在位置;计算如公式(6)~(8)所示:
Figure BDA0003666609410000034
Figure BDA0003666609410000035
Figure BDA0003666609410000036
可选的,所述尾实体提取器中,在获得头实体向量表示后,与头实体提取器的输入进行拼接,类似的操作经过公式(9)~(13)所示:
Figure BDA0003666609410000037
Figure BDA0003666609410000038
Figure BDA0003666609410000039
Figure BDA00036666094100000310
Figure BDA00036666094100000311
最后将关系提取模块采用BCEWithLogitsLoss方法进行损失计算,实体提取模块采用BCELoss进行损失计算,经过模型训练和预测后,获得<subject,relation,object>三元组形式;
采用部分匹配和精确匹配两个评价指标,其中部分匹配指预测的实体复制最后一个单词去测试,则为部分匹配;精确匹配是指完整实体名都正确时,为精确匹配;其中采用精确率、召回率、F1值来评价结果,计算如公式(14)~(16)所示:
Figure BDA0003666609410000041
Figure BDA0003666609410000042
Figure BDA0003666609410000043
其中,TP表示将正类预测为正类的数量,FN表示将正类预测为负类的数目,FP表示将负类预测为正类数的数目。
本发明的有益效果在于:
1)在实体提取模块,本发明提出了利用关系类型和多头注意力结合来引导实体提取,可以充分利用关系类型外部知识,避免隔离关系和实体之间的联系,并且通过多头注意力来给重要信息分配更高的注意力得分。
2)考虑到以往常规指针网络通过分别预测实体的开始和结束位置,会导致训练和预测不一致的问题,因此本发明采用全局指针得分的方法,通过将实体首尾作为一个整体进行提取,可以提高效率和降低模块间的误差传播。
本发明的其他优点、目标和特征在某种程度上将在随后的说明书中进行阐述,并且在某种程度上,基于对下文的考察研究对本领域技术人员而言将是显而易见的,或者可以从本发明的实践中得到教导。本发明的目标和其他优点可以通过下面的说明书来实现和获得。
附图说明
为了使本发明的目的、技术方案和优点更加清楚,下面将结合附图对本发明作优选的详细描述,其中:
图1为本发明原理图。
具体实施方式
以下通过特定的具体实例说明本发明的实施方式,本领域技术人员可由本说明书所揭露的内容轻易地了解本发明的其他优点与功效。本发明还可以通过另外不同的具体实施方式加以实施或应用,本说明书中的各项细节也可以基于不同观点与应用,在没有背离本发明的精神下进行各种修饰或改变。需要说明的是,以下实施例中所提供的图示仅以示意方式说明本发明的基本构想,在不冲突的情况下,以下实施例及实施例中的特征可以相互组合。
其中,附图仅用于示例性说明,表示的仅是示意图,而非实物图,不能理解为对本发明的限制;为了更好地说明本发明的实施例,附图某些部件会有省略、放大或缩小,并不代表实际产品的尺寸;对本领域技术人员来说,附图中某些公知结构及其说明可能省略是可以理解的。
本发明实施例的附图中相同或相似的标号对应相同或相似的部件;在本发明的描述中,需要理解的是,若有术语“上”、“下”、“左”、“右”、“前”、“后”等指示的方位或位置关系为基于附图所示的方位或位置关系,仅是为了便于描述本发明和简化描述,而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作,因此附图中描述位置关系的用语仅用于示例性说明,不能理解为对本发明的限制,对于本领域的普通技术人员而言,可以根据具体情况理解上述术语的具体含义。
本发明设计一种基于改进的级联的重叠关系实体抽取模型,主要分四个子模型,包括一个共享的Bert编码器,一个关系类型提取器、一个头实体提取器、一个尾实体提取器。其结构如图1所示。
1)Bert编码器
BERT通过所有层中联合调节左右上下文来预训练来自未标记文本的深层双向表示。因此,只需一个额外的输出层,就可以对预训练的BERT模型进行微调,从而为各种任务创建最先进的模型,而无需对特定任务的体系结构进行大量修改。因此采用预训练模型bert编码文本信息,具有丰富的文本信息。
2)关系类型提取器
基于Bert编码后,采用输出最后一层的CLS表示作为句子的表示,经过池化操作,在全连接层操作后,通过sigmoid函数来作多标签分类,通过设置阈值来确定句子中所存在的关系类型。
关系类型提取器通过优化如下概率来检测关系r:
Figure BDA0003666609410000051
其中
Figure BDA0003666609410000052
是第i个关系的真实标签,Pi r是指第i个关系存在的概率,K表示总的关系类型数,X表示文本输入。
3)头实体提取器
Bert输出的token向量表示作为实体提取器的输入,通过BiLSTM提取长距离的特征,再通过结合关系类型向量,进行多头注意力得分计算,得到不同词语中的不同重要程度得分,最后通过计算得到一个全局矩阵得分,通过全局矩阵得分来整体获得头实体所在位置。
4)尾实体提取器
在获取头实体位置之后,将头实体向量表示和位置信息嵌入到BiLSTM之后,经过和头实体提取器类似的操作,同样可以得到尾实体所在的位置。
本发明的具体实施步骤如下:
步骤一:Bert编码器。本发明首先使用预先训练好的Bert模型对文本表示进行编码,以捕获文本的语义。输入文本中让c代表Bert中的特殊标记CLS,s是Bert中的分隔符SEP,输入一个包含n个标记的文本X,如公式(1)所示:
X=[c,x1,x2,...,xn,s] (1)
通过Bert模型后输出为公式(2)所示:
H=[h0,h1,h2,...,hm,hm+1] (2)
步骤二:关系类型提取器。本发明首先给定一组预定义的关系集合R={r1,r2,r3,r4…,rk}(k是R的大小),通过对于Bert的池化操作得到的向量表示作为关系类型提取器的输入,经过线性层和sigmoid激活函数,得到关系的概率分布,如公式(3)所示:
Figure BDA0003666609410000061
其中h'0是Bert层池化操作后的向量表示,设置阈值δ,当Pi r>δ时,表示该句子文本存在第i种关系。
步骤三:头实体提取器。将Bert的token输出,作为实体提取器的输入,通过BiLSTM编码器提取长距离依赖特征,如公式(4)所示:
Figure BDA0003666609410000062
获得BiLSTM输出后,将与关系向量表示Vi r进行拼接,再经过多头注意力机制得到更细粒度的词语的重点信息得分,如公式(5)所示:
Figure BDA0003666609410000063
接着通过两个全连接层和计算全局得分机制获得矩阵得分,将得分最高的所在位置的m,n取出即是实体在句子中所在位置。计算如公式(6)~(8)所示:
Figure BDA0003666609410000064
Figure BDA0003666609410000065
Figure BDA0003666609410000066
步骤四:尾实体提取器。在获得头实体向量表示后,与头实体提取器的输入进行拼接,类似的操作经过公式(9)~(13)所示:
Figure BDA0003666609410000071
Figure BDA0003666609410000072
Figure BDA0003666609410000073
Figure BDA0003666609410000074
Figure BDA0003666609410000075
最后将关系提取模块采用BCEWithLogitsLoss方法进行损失计算,实体提取模块采用BCELoss进行损失计算,经过模型训练和预测后,获得<subject,relation,object>三元组形式。
本发明的数据集是在NYT数据集和WebNLG数据集上进行的,其中NYT数据集中文本来自于纽约时报New York Times所标注的预料,命名实体是通过Standford NER工具并结合Freebase知识库进行标注的,命名实体对之间的关系是链接和参考外部的Freebase知识库中的关系,结合远程监督方法所得到的。WebNLG数据集最初为了自然语言生成任务而构建,使用了DBPedia中的三元组,包括六个类别(宇航员、建筑、纪念碑、大学、运动队、著作),两个数据集详细数据量和关系类型数量如表1所示:
表1重叠关系提取常见数据集
Figure BDA0003666609410000076
本发明采用部分匹配和精确匹配两个评价指标,其中部分匹配指预测的实体复制最后一个单词去测试,则为部分匹配,精确匹配是指完整实体名都正确时,才认为是精确匹配。其中采用精确率、召回率、F1值来评价结果,计算如公式(14)~(16)所示:
Figure BDA0003666609410000077
Figure BDA0003666609410000078
Figure BDA0003666609410000079
其中,TP表示将正类预测为正类的数量,FN表示将正类预测为负类的数目,FP表示将负类预测为正类数的数目。
本发明的实验环境是基于Pytorch框架,采用NVIDIA TESLA P100 GPU训练模型,使用英文Bert-Base-Cased预训练模型作为文本编码器,运用Adam优化器来训练模型。各种方法中的超参数如表2所示:
表2超参数设置
Figure BDA0003666609410000081
最后说明的是,以上实施例仅用以说明本发明的技术方案而非限制,尽管参照较佳实施例对本发明进行了详细说明,本领域的普通技术人员应当理解,可以对本发明的技术方案进行修改或者等同替换,而不脱离本技术方案的宗旨和范围,其均应涵盖在本发明的权利要求范围当中。

Claims (5)

1.基于BiLSTM结合全局指针的重叠关系抽取系统,其特征在于:该系统包括依次连接的共享的Bert编码器、关系类型提取器、头实体提取器和尾实体提取器;
所述Bert编码器通过所有层中联合调节左右上下文来预训练来自未标记文本的深层双向表示;设置的输出层,对预训练的BERT模型进行调整;采用预训练模型bert编码文本信息,具有丰富的文本信息;
所述关系类型提取器基于Bert编码后,采用输出最后一层的CLS表示作为句子的表示,经过池化操作,在全连接层操作后,通过sigmoid函数来作多标签分类,通过设置阈值来确定句子中所存在的关系类型;
关系类型提取器通过优化如下概率来检测关系r:
Figure FDA0003666609400000011
其中
Figure FDA0003666609400000012
是第i个关系的真实标签,
Figure FDA0003666609400000013
是指第i个关系存在的概率,K表示总的关系类型数,X表示文本输入;
所述头实体提取器将Bert输出的token向量表示作为实体提取器的输入,通过BiLSTM提取长距离的特征,再通过结合关系类型向量,进行多头注意力得分计算,得到不同词语中的不同重要程度得分,最后通过计算得到一个全局矩阵得分,通过全局矩阵得分来整体获得头实体所在位置;
所述尾实体提取器在获取头实体位置之后,将头实体向量表示和位置信息嵌入到BiLSTM之后,经过和头实体提取器类似的操作,得到尾实体所在的位置。
2.根据权利要求1所述的基于BiLSTM结合全局指针的重叠关系抽取系统,其特征在于:所述Bert编码器中,使用预先训练好的Bert模型对文本表示进行编码,以捕获文本的语义;输入文本中让c代表Bert中的特殊标记CLS,s是Bert中的分隔符SEP,输入一个包含n个标记的文本X,如公式(1)所示:
X=[c,x1,x2,...,xn,s] (1)
通过Bert模型后输出为公式(2)所示:
H=[h0,h1,h2,...,hm,hm+1] (2)。
3.根据权利要求2所述的基于BiLSTM结合全局指针的重叠关系抽取系统,其特征在于:所述关系类型提取器中,给定一组预定义的关系集合R={r1,r2,r3,r4…,rk},k是R的大小,通过对于Bert的池化操作得到的向量表示作为关系类型提取器的输入,经过线性层和sigmoid激活函数,得到关系的概率分布,如公式(3)所示:
Figure FDA0003666609400000021
其中h'0是Bert层池化操作后的向量表示,设置阈值δ,当Pi r>δ时,表示该句子文本存在第i种关系。
4.根据权利要求3所述的基于BiLSTM结合全局指针的重叠关系抽取系统,其特征在于:所述头实体提取器中,将Bert的token输出,作为实体提取器的输入,通过BiLSTM编码器提取长距离依赖特征,如公式(4)所示:
Figure FDA0003666609400000022
获得BiLSTM输出后,将与关系向量表示Vi r进行拼接,再经过多头注意力机制得到更细粒度的词语的重点信息得分,如公式(5)所示:
Figure FDA0003666609400000023
接着通过两个全连接层和计算全局得分机制获得矩阵得分,将得分最高的所在位置的m,n取出即是实体在句子中所在位置;计算如公式(6)~(8)所示:
Figure FDA0003666609400000024
Figure FDA0003666609400000025
Figure FDA0003666609400000026
5.根据权利要求4所述的基于BiLSTM结合全局指针的重叠关系抽取系统,其特征在于:所述尾实体提取器中,在获得头实体向量表示后,与头实体提取器的输入进行拼接,类似的操作经过公式(9)~(13)所示:
Figure FDA0003666609400000027
Figure FDA0003666609400000028
Figure FDA0003666609400000029
Figure FDA00036666094000000210
Figure FDA00036666094000000211
最后将关系提取模块采用BCEWithLogitsLoss方法进行损失计算,实体提取模块采用BCELoss进行损失计算,经过模型训练和预测后,获得<subject,relation,object>三元组形式;
采用部分匹配和精确匹配两个评价指标,其中部分匹配指预测的实体复制最后一个单词去测试,则为部分匹配;精确匹配是指完整实体名都正确时,为精确匹配;其中采用精确率、召回率、F1值来评价结果,计算如公式(14)~(16)所示:
Figure FDA0003666609400000031
Figure FDA0003666609400000032
Figure FDA0003666609400000033
其中,TP表示将正类预测为正类的数量,FN表示将正类预测为负类的数目,FP表示将负类预测为正类数的数目。
CN202210593426.7A 2022-05-27 2022-05-27 基于BiLSTM结合全局指针的重叠关系抽取系统 Active CN115034221B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210593426.7A CN115034221B (zh) 2022-05-27 2022-05-27 基于BiLSTM结合全局指针的重叠关系抽取系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210593426.7A CN115034221B (zh) 2022-05-27 2022-05-27 基于BiLSTM结合全局指针的重叠关系抽取系统

Publications (2)

Publication Number Publication Date
CN115034221A true CN115034221A (zh) 2022-09-09
CN115034221B CN115034221B (zh) 2024-06-28

Family

ID=83121731

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210593426.7A Active CN115034221B (zh) 2022-05-27 2022-05-27 基于BiLSTM结合全局指针的重叠关系抽取系统

Country Status (1)

Country Link
CN (1) CN115034221B (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116501830A (zh) * 2023-06-29 2023-07-28 中南大学 一种生物医学文本的重叠关系联合抽取方法及相关设备
CN116629387A (zh) * 2023-07-24 2023-08-22 湖南视觉伟业智能科技有限公司 一种用于训练缺失条件下的文本处理方法及处理系统
CN117971990A (zh) * 2024-01-09 2024-05-03 重庆理工大学 一种基于关系感知的实体关系提取方法

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20120124060A1 (en) * 2010-11-11 2012-05-17 Semantinet Ltd. Method and system of identifying adjacency data, method and system of generating a dataset for mapping adjacency data, and an adjacency data set
CN108536754A (zh) * 2018-03-14 2018-09-14 四川大学 基于blstm和注意力机制的电子病历实体关系抽取方法
CN110852066A (zh) * 2018-07-25 2020-02-28 清华大学 一种基于对抗训练机制的多语言实体关系抽取方法及系统
CN111914558A (zh) * 2020-07-31 2020-11-10 湖北工业大学 基于句袋注意力远程监督的课程知识关系抽取方法及系统
CN112307764A (zh) * 2019-07-30 2021-02-02 百度(美国)有限责任公司 用于神经命名实体识别的共指感知表示学习
CN113127623A (zh) * 2021-05-06 2021-07-16 东南大学 一种基于混合专家模型和联合学习的知识库问题生成方法
CN114417839A (zh) * 2022-01-19 2022-04-29 北京工业大学 基于全局指针网络的实体关系联合抽取方法

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20120124060A1 (en) * 2010-11-11 2012-05-17 Semantinet Ltd. Method and system of identifying adjacency data, method and system of generating a dataset for mapping adjacency data, and an adjacency data set
CN108536754A (zh) * 2018-03-14 2018-09-14 四川大学 基于blstm和注意力机制的电子病历实体关系抽取方法
CN110852066A (zh) * 2018-07-25 2020-02-28 清华大学 一种基于对抗训练机制的多语言实体关系抽取方法及系统
CN112307764A (zh) * 2019-07-30 2021-02-02 百度(美国)有限责任公司 用于神经命名实体识别的共指感知表示学习
CN111914558A (zh) * 2020-07-31 2020-11-10 湖北工业大学 基于句袋注意力远程监督的课程知识关系抽取方法及系统
CN113127623A (zh) * 2021-05-06 2021-07-16 东南大学 一种基于混合专家模型和联合学习的知识库问题生成方法
CN114417839A (zh) * 2022-01-19 2022-04-29 北京工业大学 基于全局指针网络的实体关系联合抽取方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
ZIHENG CHENG: "Chinese Open Relation Extraction with Pointer-Generator Networks", 《2020 IEEE FIFTH INTERNATIONAL CONFERENCE ON DATA SCIENCE IN CYBERSPACE (DSC)》, 21 August 2020 (2020-08-21), pages 1 - 11 *
柳先辉等: "基于指针级联标注的中文实体关系联合抽取模型", 《 武汉大学学报(理学版) 》, vol. 68, no. 3, 7 May 2022 (2022-05-07), pages 304 - 310 *

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116501830A (zh) * 2023-06-29 2023-07-28 中南大学 一种生物医学文本的重叠关系联合抽取方法及相关设备
CN116501830B (zh) * 2023-06-29 2023-09-05 中南大学 一种生物医学文本的重叠关系联合抽取方法及相关设备
CN116629387A (zh) * 2023-07-24 2023-08-22 湖南视觉伟业智能科技有限公司 一种用于训练缺失条件下的文本处理方法及处理系统
CN116629387B (zh) * 2023-07-24 2023-10-27 湖南视觉伟业智能科技有限公司 一种用于训练缺失条件下的文本处理方法及处理系统
CN117971990A (zh) * 2024-01-09 2024-05-03 重庆理工大学 一种基于关系感知的实体关系提取方法

Also Published As

Publication number Publication date
CN115034221B (zh) 2024-06-28

Similar Documents

Publication Publication Date Title
CN115033670B (zh) 多粒度特征融合的跨模态图文检索方法
CN117076653B (zh) 基于思维链及可视化提升上下文学习知识库问答方法
CN111931506B (zh) 一种基于图信息增强的实体关系抽取方法
CN113377897B (zh) 基于深度对抗学习的多语言医疗术语规范标准化系统及方法
CN115034221A (zh) 基于BiLSTM结合全局指针的重叠关系抽取系统
CN114020862A (zh) 一种面向煤矿安全规程的检索式智能问答系统及方法
CN114492441A (zh) 基于机器阅读理解的BiLSTM-BiDAF命名实体识别方法
CN111832293A (zh) 基于头实体预测的实体和关系联合抽取方法
CN115048447A (zh) 一种基于智能语义补全的数据库自然语言接口系统
CN116342167B (zh) 基于序列标注命名实体识别的智能成本度量方法和装置
CN112364132A (zh) 基于依存句法的相似度计算模型和系统及搭建系统的方法
CN112163089A (zh) 一种融合命名实体识别的军事高技术文本分类方法及系统
CN113076421A (zh) 一种社交噪音文本实体关系抽取优化方法及系统
CN116881457A (zh) 一种基于知识对比增强提示的小样本文本分类方法
CN115510230A (zh) 一种基于多维特征融合与比较增强学习机制的蒙古语情感分析方法
CN113065324A (zh) 一种基于结构化三元组和锚定模板的文本生成方法及装置
CN114943216B (zh) 基于图注意力网络的案件微博属性级观点挖掘方法
CN116561594A (zh) 一种基于Word2vec的法律文件相似度分析方法
Wang et al. Improving relation extraction by multi-task learning
CN115964486A (zh) 一种基于数据增强的小样本意图识别方法
CN113434698B (zh) 基于全层级注意力的关系抽取模型建立方法及其应用
Hu et al. Corpus of Carbonate Platforms with Lexical Annotations for Named Entity Recognition.
CN114676708A (zh) 基于多策略原型生成的低资源神经机器翻译方法
Yao et al. Study of sign segmentation in the text of Chinese sign language
CN110909547A (zh) 一种基于改进深度学习的司法实体识别方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant