CN111767409A - 一种基于多头自注意力机制的实体关系抽取方法 - Google Patents
一种基于多头自注意力机制的实体关系抽取方法 Download PDFInfo
- Publication number
- CN111767409A CN111767409A CN202010539229.8A CN202010539229A CN111767409A CN 111767409 A CN111767409 A CN 111767409A CN 202010539229 A CN202010539229 A CN 202010539229A CN 111767409 A CN111767409 A CN 111767409A
- Authority
- CN
- China
- Prior art keywords
- entity
- word
- relationship
- attention mechanism
- representation
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000605 extraction Methods 0.000 title claims abstract description 42
- 230000007246 mechanism Effects 0.000 title claims abstract description 31
- 238000001514 detection method Methods 0.000 claims abstract description 25
- 238000000034 method Methods 0.000 claims abstract description 18
- 230000003993 interaction Effects 0.000 claims abstract description 7
- 239000011159 matrix material Substances 0.000 claims description 13
- 230000002457 bidirectional effect Effects 0.000 claims description 7
- 230000006870 function Effects 0.000 claims description 7
- 238000005457 optimization Methods 0.000 claims description 6
- 238000012545 processing Methods 0.000 claims description 6
- 238000002372 labelling Methods 0.000 claims description 5
- 230000015654 memory Effects 0.000 claims description 5
- 230000008569 process Effects 0.000 claims description 5
- 230000011218 segmentation Effects 0.000 claims description 4
- 238000004364 calculation method Methods 0.000 claims description 3
- 230000007787 long-term memory Effects 0.000 claims description 3
- 230000006403 short-term memory Effects 0.000 claims description 3
- 238000005516 engineering process Methods 0.000 abstract description 6
- 238000003058 natural language processing Methods 0.000 abstract description 4
- 238000004883 computer application Methods 0.000 abstract description 2
- 238000013135 deep learning Methods 0.000 abstract description 2
- 238000011160 research Methods 0.000 description 5
- 238000006243 chemical reaction Methods 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 230000002787 reinforcement Effects 0.000 description 2
- 238000012549 training Methods 0.000 description 2
- 230000001131 transforming effect Effects 0.000 description 2
- 230000007704 transition Effects 0.000 description 2
- 238000013528 artificial neural network Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 238000004422 calculation algorithm Methods 0.000 description 1
- 238000013527 convolutional neural network Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000007717 exclusion Effects 0.000 description 1
- 230000002452 interceptive effect Effects 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/36—Creation of semantic tools, e.g. ontology or thesauri
- G06F16/367—Ontology
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/213—Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
- G06F18/2415—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
- G06F40/12—Use of codes for handling textual entities
- G06F40/126—Character encoding
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
- G06F40/216—Parsing using statistical methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/049—Temporal neural networks, e.g. delay elements, oscillating neurons or pulsed inputs
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Artificial Intelligence (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Life Sciences & Earth Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Evolutionary Computation (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Probability & Statistics with Applications (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Evolutionary Biology (AREA)
- Databases & Information Systems (AREA)
- Animal Behavior & Ethology (AREA)
- Machine Translation (AREA)
Abstract
一种基于多头自注意力机制的实体关系抽取方法,涉及计算机应用技术。本发明主要采用深度学习技术以及自然语言处理相关的理论方法对文本进行实体关系抽取,将关系检测转化为一个多标签分类问题,并提出词级别有监督的多头自注意力机制来检测文本中词之间的语义关联,通过将不同的关系类别转化为多头注意力机制中不同的特征子空间,本发明可以独立学习不同关系类别下词之间的语义交互,并独立建模不同关系类别下词之间的关联程度,进而可以灵活地识别重叠的关系三元组。
Description
技术领域
本发明涉及计算机应用技术。
背景技术
随着信息技术的发展,互联网中积累了大量的文本数据,例如新闻文本数据、社交文本数据等。这些数据背后通常蕴含着大量的知识,基于这些知识构建的大型知识图谱被广泛应用于搜索引擎、问答系统等自然语言处理任务中。为了自动化地从海量文本数据中构建知识图谱,实体关系抽取逐渐成为一个热门的研究任务。实体关系抽取任务旨在识别文本中存在的(实体,关系类型,实体)三元组,而文本中存在的三元组又可以分为三类,即普通三元组、单实体重叠三元组、以及实体对重叠三元组。其中,单实体重叠三元组是指两个关系三元组共享同一个实体;实体对重叠三元组是指两个实体间存在多重关系。
传统的实体关系抽取方法[1-7]通常构建管道式的模型,这类模型将实体关系抽取任务拆解为实体抽取和关系分类两个相互独立的子任务,首先识别句子中存在的实体集合,随后预测任意两个实体之间存在的关系。虽然这类方法可以灵活地对实体抽取和关系分类进行独立优化,但是存在错误传递问题。
为了有效地考虑实体抽取和关系分类两个子任务之间的交互关系,许多研究工作[8-11]构建了统一的框架进行实体和关系的联合抽取。但是这些方法通常假定一个实体仅属于一个关系三元组,因此无法准确抽取上述的两类重叠关系三元组。
近年来,最新的研究工作主要关注于如何有效预测重叠的关系三元组。例如,Fu等人[12]提出一个基于图卷积神经网络(Graph Convolutional Network,GCN)的两阶段联合模型,通过在第二阶段构建关系加权GCN可以有效学习关系三元组之间的交互关系。Takanobu等人[13]提出了一个层次强化学习框架,该框架设计了一个低层策略进行实体抽取,并构建了一个高层策略进行关系检测。 Dai等人[14]设计了一种新的标注规则,并提出了一个位置感知的注意力机制来识别重叠的关系三元组。此外,序列到序列模型[15-18]也被广泛用于识别重叠的关系三元组,但是这类方法通常存在难以预测完整的实体边界、实体边界识别准确率较低等问题。
为了提升重叠关系三元组的识别效果,现有的研究工作通常采用图神经网络、强化学习、序列到序列模型等技术。虽然现有工作取得了突出的研究成果,但是它们均将关系分类转化为普通的多分类问题,并构建一个简单的分类器来预测任意两个实体之间可能存在的关系类别。这类做法存在以下两个问题:
第一,无法学习不同关系类别下实体之间不同的交互特征。例如,若在给定文本中,实体对(柬埔寨,金边)存在“包含”和“首都”两类关系,那么在预测“包含”关系时,应考虑地理位置上的语义,而当预测“首都”关系时,则应考虑行政功能上的语义。
第二,无法独立计算不同关系类别下实体之间的关联程度。例如,当两个实体之间存在三种关系时,两个实体在三个关系类别下都应具有较高的关联强度。但是如果简单地采用一个分类器来进行关系预测,则会导致三个关系类别之间发生互斥,进而使得三个关系对应的概率分别仅为0.3左右。
以上两个问题在一定程度上限制了现有模型的性能。
发明内容
本发明目的是解决现有实体关系抽取工作中存在的重叠关系三元组识别问题,并提供一种基于多头自注意力机制的实体关系抽取方法。
为了有效解决上述问题,本发明提供一种基于多头自注意力机制的实体关系抽取方法。为了同步识别文本中的实体集合以及实体之间的关系,本发明构建了一个实体抽取模块和一个关系检测模块。在实体抽取模块,本发明采用条件随机场(CRF)来识别实体的边界。在关系检测模块,为了灵活识别重叠的关系三元组,本发明将关系检测转化为一个多标签分类问题,并提出词级别有监督的多头自注意力机制来检测文本中词之间的语义关联。特别地,在关系检测模块,为了独立建模不同关系类型下的交互特征与关联程度,本发明将不同的关系类别映射到多头自注意力机制中不同的特征子空间,并学习不同特征子空间下词之间的语义关联。基于两个模块的识别结果,本发明提出一个推理层来得到最终的关系三元组集合。
一种基于多头自注意力机制的实体关系抽取方法,包括以下步骤:
步骤1)编码层:基于双向长短期记忆网络学习文本中词的上下文语义表示;
步骤2)实体抽取模块:基于步骤1)编码的词的上下文语义表示,利用条件随机场识别文本中的实体边界;
步骤3)关系检测模块:基于步骤1)编码的词的上下文语义表示,利用词级别有监督的多头自注意力机制检测文本中任意两个词之间存在的关系;
步骤4)联合学习:构建联合损失函数对步骤1)、步骤2)和步骤3)中的参数进行联合优化;
步骤5)推理层:对步骤2)和步骤3)的识别结果进行整合,得到最终预测的意见三元组。
本发明的有益效果是:
1、实体关系联合抽取:本发明主要包含一个实体抽取模块和一个关系检测模块,通过共享相同的编码层以及联合学习的方式可以实现两个模块的联合学习,进而有效避免传统方法中存在的错误传递问题。2、重叠关系三元组的识别:考虑到两个实体之间可能存在多重关系,本发明将关系检测转化为一个多标签分类任务,并提出一个词级别有监督的多头自注意力机制。通过将不同的关系类别转化为多头注意力机制中不同的特征子空间,本发明可以独立学习不同关系类别下词之间的语义交互,并独立建模不同关系类别下词之间的关联程度,进而可以灵活地识别重叠的关系三元组。
附图说明
附图1是本发明的整体系统结构示意图。
附图2是基于多头注意力机制的实体关系抽取方法的示意图。
具体实施方式
下面结合附图和具体实施对本发明提供的基于多头自注意力机制的实体关系抽取方法进行详细说明。
本发明主要采用深度学习技术以及自然语言处理相关的理论方法对文本进行实体关系抽取,为了保证系统的正常运行,在具体实施中,要求所使用的计算机平台配备不低于8G的内存,CPU核心数不低于4个且主频不低2.6GHz、 GPU环境、Linux操作系统,并安装Python 3.6及以上版本、pytorch0.4及以上版本等必备软件环境。
如图1所示,本发明提供的基于多头自注意力机制的实体关系组抽取方法包括按顺序执行的下列步骤:
步骤1)编码层:基于双向长短期记忆网络学习文本中词的上下文语义表示。
步骤1.1)采用Stanford NLP工具包对输入文本进行分词处理,得到对应的词序列。
步骤1.2)对词序列中的每个词,构建词嵌入表示和字符级特征表示,并将两者进行拼接得到每个词的初始特征表示。
步骤1.3)使用双向长短期记忆网络(BLSTM)作为编码层,输入步骤1.2) 得到的词初始特征表示,输出每个词的上下文语义表示。
步骤2)实体抽取模块:基于步骤1)编码的词的上下文语义表示,利用条件随机场识别文本中的实体边界。
步骤2.1)采用全连接层对步骤1)编码的上下文语义表示进行变换,得到实体抽取模块的输入特征表示序列。
步骤2.2)将实体抽取任务转化为序列标注任务,并基于步骤2.1)得到的输入特征表示序列,采用条件随机场(CRF)进行实体边界的识别。
步骤3)关系检测模块:基于步骤1)编码的词的上下文语义表示,利用词级别有监督的多头自注意力机制检测文本中任意两个词之间存在的关系。
步骤3.1)采用全连接层对步骤1)编码的上下文语义表示进行变换,得到关系检测模块的输入特征表示序列。
步骤3.2)将关系检测任务转化为多标签分类任务,并基于步骤3.1)得到的输入特征表示序列,采用词级别有监督的多头自注意力机制进行词级别的关系检测。
步骤4)联合学习:构建联合损失函数对步骤1)、步骤2)和步骤3)中的参数进行联合优化。
步骤5)推理层:对步骤2)和步骤3)的识别结果进行整合,得到最终预测的意见三元组。
步骤5.1)基于步骤2)预测的标签序列,抽取文本中存在的实体集合。
步骤5.2)基于步骤5.1)得到的实体集合和步骤3)预测的词级别自注意力权重矩阵,抽取关系三元组。
参见附图2,本发明详细步骤如下:
步骤1)编码层:基于双向长短期记忆网络学习文本中词的上下文语义表示。
步骤1.1)采用StanfordNLP工具包对输入文本进行分词处理,得到对应的词序列X={x1,x2,…,xN}。
例如,给定文本“北京是中国的首都。”,经过分词处理,可以得到词序列X= {"北京","是","中国","的","首都","。"}。
步骤1.2)对词序列中的每个词xi,构建其对应的词嵌入表示和字符级特征表示这里,字符级的特征表示是由一个BLSTM结构得到, dw和dc分别表示词嵌入表示维度和字符级特征表示维度。通过将上述两个表示进行拼接,可以得到每个词的初始特征表示ei。
例如,对于词序列中的第一个词“北京”,其对应的词嵌入表示可为 其对应的字符级特征表示可为通过拼接,可以得到其初始特征表示e1=[0.44,0.82,…,0.78,0.55,0.68,…,-0.89]。
步骤1.3)使用双向长短期记忆网络(BLSTM)作为编码层,输入步骤1.2) 得到的词初始特征表示序列
E={e1,e2,…,eN},输出每个词的上下文语义表示序列H={h1,h2,…,hN}。具体的计算过程如下:
其中,LSTMf和LSTMb分别表示前向和后向的LSTM结构。
例如,对于词序列中的第一个词“北京”,其经过BLSTM编码后的语义表示可为h1=[0.99,0.14,…,0.57]。
步骤2)实体抽取模块:基于步骤1)编码的词的上下文语义表示,利用条件随机场识别文本中的实体边界。
步骤2.1)采用全连接层对步骤1)编码的上下文语义表示序列H= {h1,h2,…,hN}进行全连接层变换,得到实体抽取模块的输入特征表示序列U= {u1,u2,…,uN}:
U=HWu+bu
例如,对于词序列中的第一个词“北京”,其实体抽取模块输入特征表示可为u1=[0.02,0.56,…,0.12]。
步骤2.2)将实体抽取任务转化为序列标注任务,并基于步骤2.1)得到的输入特征表示序列U={u1,u2,…,uN},采用条件随机场(CRF)进行实体边界的识别。
具体地,CRF主要包含一个状态特征矩阵和一个转移特征矩阵 这里,状态特征矩阵主要用于建模词与标签之间的映射关系,而转移特征矩阵主要建模相邻标签之间的转移关系。此外,K表示标签空间的维度,本发明采用BIO的标注规则,由此标签空间的维度是3。对于任意一个可能的标签序列其对应的分值可通过如下公式进行计算:
P=UWp+bp
在模型训练过程中,本发明最大化标准标签序列对应的概率P(Y|X)。因此,本发明采用最小化如下负对数似然函数的方式对参数进行优化:
在测试过程中,本发明采用维特比算法搜索最优的标签序列。
步骤3)关系检测模块:基于步骤1)编码的词的上下文语义表示序列,利用词级别有监督的多头自注意力机制检测文本中任意两个词之间存在的关系。
步骤3.1)采用全连接层对步骤1)编码的上下文语义表示序列H= {h1,h2,…,hN}进行全连接层变换,得到关系检测模块的输入特征表示序列A= {a1,a2,…,aN}:
A=HWa+ba
例如,对于词序列中的第一个词“北京”,其关系检测模块输入特征表示可为a1=[0.8,0.1,…,0.98]。
步骤3.2)将关系检测任务转化为多标签分类任务,并基于步骤3.1)得到的输入特征表示序列A={a1,a2,…,aN},采用词级别有监督的多头自注意力机制进行词级别的关系检测。
具体地,为了独立建模词在不同关系类别下的交互信息和关联强度,本步骤首先将不同的关系类别映射到多头自注意力机制的不同的特征子空间:
例如,文本中第一个词“北京”和第三个词“中国”在“首都”的关系类别下的关联程度为0.8。
为了指导本步骤进行关系检测,本发明进一步引入了监督信息,并最大化标准关系对应的似然概率:
步骤4)联合学习:构建联合损失函数对步骤1)、步骤2)和步骤3)中的参数进行联合优化。
为了对步骤1)、步骤2)和步骤3)中的参数进行联合学习,本发明将步骤 2)和步骤3)中介绍的两个损失函数进行加和作为最终的损失,并采用RMSprop 优化器对参数进行优化:
步骤5)推理层:对步骤2)和步骤3)的识别结果进行整合,得到最终预测的意见三元组。
步骤5.2)基于步骤5.1)得到的实体集合ε和步骤3)预测的词级别注意力权重矩阵G,抽取关系三元组。
参考文献:
[1]Dmitry Zelenko,Chinatsu Aone,and Anthony Richardella.Kernelmethods for relation extraction.J.Mach.Learn.Res.,3:1083–1106,2003.
[2]Makoto Miwa,Rune Yusuke Miyao,and Jun’ichi Tsujii.A richfeature vector for protein-protein interaction extraction from multiplecorpora.In EMNLP 2009,pages 121–130,2009.
[3]Mike Mintz,Steven Bills,Rion Snow,and Daniel Jurafsky.Distantsupervision for relation extraction without labeled data.In ACL 2009,Singapore, pages 1003–1011,2009.
[4]Yee Seng Chan and Dan Roth.Exploiting syntactico-semanticstructures for relation extraction.In ACL 2011,Portland,Oregon,USA,pages 551–560,2011.
[5]Raphael Hoffmann,Congle Zhang,Xiao Ling,Luke S.Zettlemoyer,andDaniel S.Weld.Knowledge-based weak supervision for information extraction ofoverlapping relations.In ACL 2011,Portland,Oregon,USA,pages 541–550,2011.
[6]Daojian Zeng,Kang Liu,YuboChen,and Jun Zhao.Distant supervisionfor relation extraction via piecewise convolutional neuralnetworks.EMNLP2015, Lisbon,Portugal,September 17-21,2015,pages 1753–1762,2015.
[7]Yatian Shen and Xuanjing Huang.Attention-based convolutionalneural network for semantic relation extraction.In COLING 2016,December 11-16,2016, Osaka,Japan,pages 2526–2536,2016.
[8]Makoto Miwa and Mohit Bansal.End-to-end relation extraction usinglstms on sequences and tree structures.In ACL 2016,2016.
[9]Meishan Zhang,Yue Zhang,and Guohong Fu.End-to-end neural relationextraction with global optimization.In EMNLP 2017,pages 1730–1740,2017.
[10]Suncong Zheng,Feng Wang,Hongyun Bao,Yuexing Hao,Peng Zhou,and BoXu.Joint extraction of entities and relations based on a novel taggingscheme.In ACL 2017,pages 1227–1236,2017.
[11]Changzhi Sun,Yeyun Gong,Yuanbin Wu,Ming Gong,Daxin Jiang,Man Lan,Shiliang Sun,and Nan Duan.Joint type inference on entities and relations viagraph convolutional networks.In ACL 2019,pages 1361–1370,2019.
[12]Tsu-Jui Fu,Peng-Hsuan Li,and Wei-Yun Ma.Graphrel:Modeling text asrelational graphs for joint entity and relation extraction.In ACL 2019,pages1409–1418,2019.
[13]Ryuichi Takanobu,Tianyang Zhang,Jiexi Liu,and Minlie Huang.Ahierarchical framework for relation extraction with reinforcement learning.InAAAI 2019,pages 7072–7079,2019.
[14]Dai Dai,Xinyan Xiao,Yajuan Lyu,Shan Dou,Qiaoqiao She,and HaifengWang.Joint extraction of entities and overlapping relations using position-attentive sequence labeling.In AAAI 2019,pages 6300–6308,2019.
[15]Xiangrong Zeng,Daojian Zeng,Shizhu He,Kang Liu,and Jun Zhao.Extracting relational facts by an end-to-end neural model with copymechanism.In ACL 2018,pages 506–514,2018.
[16]Daojian Zeng,Haoran Zhang,and Qianying Liu.Copymtl:Copy mechanismfor joint extraction of entities and relations with multi-task learning.CoRR,abs/1911.10438,2019.
[17]Xiangrong Zeng,Shizhu He,Daojian Zeng,Kang Liu,Shengping Liu,andJun Zhao.Learning the extraction order of multiple relational facts in asentence with reinforcement learning.In EMNLP 2019,pages 367–377,2019.
[18]Tapas Nayak and Hwee Tou Ng.Effective modeling of encoder-decoderarchitecture for joint entity and relation extraction.CoRR,abs/1911.09886,2019. 。
Claims (8)
1.一种基于多头自注意力机制的实体关系抽取方法,其特征是包括以下步骤:
步骤1)编码层:基于双向长短期记忆网络学习文本中词的上下文语义表示;
步骤2)实体抽取模块:基于步骤1)编码的词的上下文语义表示,利用条件随机场识别文本中的实体边界;
步骤3)关系检测模块:基于步骤1)编码的词的上下文语义表示,利用词级别有监督的多头自注意力机制检测文本中任意两个词之间存在的关系;
步骤4)联合学习:构建联合损失函数对步骤1)、步骤2)和步骤3)中的参数进行联合优化;
步骤5)推理层:对步骤2)和步骤3)的识别结果进行整合,得到最终预测的意见三元组。
2.根据权利要求1所述的基于多头自注意力机制的实体关系抽取方法,其特征是步骤1)包括以下步骤:
步骤1.1)采用Stanford NLP工具包对输入文本进行分词处理,得到对应的词序列;
步骤1.2)对词序列中的每个词,构建词嵌入表示和字符级特征表示,并将两者进行拼接得到每个词的初始特征表示;
步骤1.3)使用双向长短期记忆网络作为编码层,输入步骤1.2)得到的词初始特征表示,输出每个词的上下文语义表示。
3.根据权利要求1所述的基于多头自注意力机制的实体关系抽取方法,其特征是步骤2)包括以下步骤:
步骤2.1)采用全连接层对步骤1)编码的上下文语义表示进行变换,得到实体抽取模块的输入特征表示序列;
步骤2.2)将实体抽取任务转化为序列标注任务,并基于步骤2.1)得到的输入特征表示序列,采用条件随机场进行实体边界的识别。
4.根据权利要求1所述的基于多头自注意力机制的实体关系抽取方法,其特征是步骤3)包括以下步骤:
步骤3.1)采用全连接层对步骤1)编码的上下文语义表示进行变换,得到关系检测模块的输入特征表示序列;
步骤3.2)将关系检测任务转化为多标签分类任务,并基于步骤3.1)得到的输入特征表示序列,采用词级别有监督的多头自注意力机制进行词级别的关系检测。
5.根据权利要求1所述的基于多头自注意力机制的实体关系抽取方法,其特征是步骤5)包括以下步骤:
步骤5.1)基于步骤2)预测的标签序列,抽取文本中存在的实体集合;
步骤5.2)基于步骤5.1)得到的实体集合和步骤3)预测的词级别自注意力权重矩阵,抽取关系三元组。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010539229.8A CN111767409B (zh) | 2020-06-14 | 2020-06-14 | 一种基于多头自注意力机制的实体关系抽取方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010539229.8A CN111767409B (zh) | 2020-06-14 | 2020-06-14 | 一种基于多头自注意力机制的实体关系抽取方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111767409A true CN111767409A (zh) | 2020-10-13 |
CN111767409B CN111767409B (zh) | 2022-08-30 |
Family
ID=72720924
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010539229.8A Active CN111767409B (zh) | 2020-06-14 | 2020-06-14 | 一种基于多头自注意力机制的实体关系抽取方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111767409B (zh) |
Cited By (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112270179A (zh) * | 2020-10-15 | 2021-01-26 | 和美(深圳)信息技术股份有限公司 | 一种实体识别方法、装置及电子设备 |
CN112307761A (zh) * | 2020-11-19 | 2021-02-02 | 新华智云科技有限公司 | 基于注意力机制的事件抽取方法及系统 |
CN112380863A (zh) * | 2020-10-29 | 2021-02-19 | 国网天津市电力公司 | 一种基于多头自注意力机制的序列标注方法 |
CN112487812A (zh) * | 2020-10-21 | 2021-03-12 | 上海旻浦科技有限公司 | 一种基于边界识别的嵌套实体识别方法及系统 |
CN112507826A (zh) * | 2020-11-27 | 2021-03-16 | 西安电子科技大学 | 一种端到端生态变化监测方法、终端、计算机设备及介质 |
CN112836482A (zh) * | 2021-02-09 | 2021-05-25 | 浙江工商大学 | 一种基于模板的序列生成模型生成问题的方法及装置 |
CN112905713A (zh) * | 2020-11-13 | 2021-06-04 | 昆明理工大学 | 联合罪名预测的涉案新闻重叠实体关系抽取方法 |
CN112966527A (zh) * | 2021-04-21 | 2021-06-15 | 吉林大学 | 一种基于自然语言推理的关系抽取模型 |
CN113064995A (zh) * | 2021-03-31 | 2021-07-02 | 上海金融期货信息技术有限公司 | 一种基于图深度学习的文本多标签分类方法和系统 |
CN113220844A (zh) * | 2021-05-25 | 2021-08-06 | 广西师范大学 | 基于实体特征的远程监督关系抽取方法 |
CN113553385A (zh) * | 2021-07-08 | 2021-10-26 | 北京计算机技术及应用研究所 | 一种司法文书中法律要素的关系抽取方法 |
CN113806493A (zh) * | 2021-10-09 | 2021-12-17 | 中国人民解放军国防科技大学 | 一种用于互联网文本数据的实体关系联合抽取方法、装置 |
CN115759098A (zh) * | 2022-11-14 | 2023-03-07 | 中国科学院空间应用工程与技术中心 | 一种航天文本数据的中文实体和关系联合抽取方法、系统 |
CN118246453A (zh) * | 2024-05-20 | 2024-06-25 | 昆明理工大学 | 基于图卷积的嵌套实体识别模型及其构建方法、存储介质 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109408812A (zh) * | 2018-09-30 | 2019-03-01 | 北京工业大学 | 一种基于注意力机制的序列标注联合抽取实体关系的方法 |
CN109902145A (zh) * | 2019-01-18 | 2019-06-18 | 中国科学院信息工程研究所 | 一种基于注意力机制的实体关系联合抽取方法和系统 |
CN110781683A (zh) * | 2019-11-04 | 2020-02-11 | 河海大学 | 一种实体关系联合抽取方法 |
-
2020
- 2020-06-14 CN CN202010539229.8A patent/CN111767409B/zh active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109408812A (zh) * | 2018-09-30 | 2019-03-01 | 北京工业大学 | 一种基于注意力机制的序列标注联合抽取实体关系的方法 |
CN109902145A (zh) * | 2019-01-18 | 2019-06-18 | 中国科学院信息工程研究所 | 一种基于注意力机制的实体关系联合抽取方法和系统 |
CN110781683A (zh) * | 2019-11-04 | 2020-02-11 | 河海大学 | 一种实体关系联合抽取方法 |
Cited By (25)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112270179A (zh) * | 2020-10-15 | 2021-01-26 | 和美(深圳)信息技术股份有限公司 | 一种实体识别方法、装置及电子设备 |
CN112270179B (zh) * | 2020-10-15 | 2021-11-09 | 和美(深圳)信息技术股份有限公司 | 一种实体识别方法、装置及电子设备 |
CN112487812A (zh) * | 2020-10-21 | 2021-03-12 | 上海旻浦科技有限公司 | 一种基于边界识别的嵌套实体识别方法及系统 |
CN112487812B (zh) * | 2020-10-21 | 2021-07-06 | 上海旻浦科技有限公司 | 一种基于边界识别的嵌套实体识别方法及系统 |
CN112380863A (zh) * | 2020-10-29 | 2021-02-19 | 国网天津市电力公司 | 一种基于多头自注意力机制的序列标注方法 |
CN112905713A (zh) * | 2020-11-13 | 2021-06-04 | 昆明理工大学 | 联合罪名预测的涉案新闻重叠实体关系抽取方法 |
CN112905713B (zh) * | 2020-11-13 | 2022-06-14 | 昆明理工大学 | 联合罪名预测的涉案新闻重叠实体关系抽取方法 |
CN112307761A (zh) * | 2020-11-19 | 2021-02-02 | 新华智云科技有限公司 | 基于注意力机制的事件抽取方法及系统 |
CN112507826A (zh) * | 2020-11-27 | 2021-03-16 | 西安电子科技大学 | 一种端到端生态变化监测方法、终端、计算机设备及介质 |
CN112507826B (zh) * | 2020-11-27 | 2024-02-06 | 西安电子科技大学 | 一种端到端生态变化监测方法、终端、计算机设备及介质 |
CN112836482A (zh) * | 2021-02-09 | 2021-05-25 | 浙江工商大学 | 一种基于模板的序列生成模型生成问题的方法及装置 |
CN112836482B (zh) * | 2021-02-09 | 2024-02-23 | 浙江工商大学 | 一种基于模板的序列生成模型生成问题的方法及装置 |
CN113064995A (zh) * | 2021-03-31 | 2021-07-02 | 上海金融期货信息技术有限公司 | 一种基于图深度学习的文本多标签分类方法和系统 |
CN112966527B (zh) * | 2021-04-21 | 2022-12-30 | 吉林大学 | 一种基于自然语言推理的关系抽取模型的生成方法 |
CN112966527A (zh) * | 2021-04-21 | 2021-06-15 | 吉林大学 | 一种基于自然语言推理的关系抽取模型 |
CN113220844A (zh) * | 2021-05-25 | 2021-08-06 | 广西师范大学 | 基于实体特征的远程监督关系抽取方法 |
CN113220844B (zh) * | 2021-05-25 | 2023-01-24 | 广东省环境权益交易所有限公司 | 基于实体特征的远程监督关系抽取方法 |
CN113553385B (zh) * | 2021-07-08 | 2023-08-25 | 北京计算机技术及应用研究所 | 一种司法文书中法律要素的关系抽取方法 |
CN113553385A (zh) * | 2021-07-08 | 2021-10-26 | 北京计算机技术及应用研究所 | 一种司法文书中法律要素的关系抽取方法 |
CN113806493B (zh) * | 2021-10-09 | 2023-08-29 | 中国人民解放军国防科技大学 | 一种用于互联网文本数据的实体关系联合抽取方法、装置 |
CN113806493A (zh) * | 2021-10-09 | 2021-12-17 | 中国人民解放军国防科技大学 | 一种用于互联网文本数据的实体关系联合抽取方法、装置 |
CN115759098A (zh) * | 2022-11-14 | 2023-03-07 | 中国科学院空间应用工程与技术中心 | 一种航天文本数据的中文实体和关系联合抽取方法、系统 |
CN115759098B (zh) * | 2022-11-14 | 2023-07-18 | 中国科学院空间应用工程与技术中心 | 一种航天文本数据的中文实体和关系联合抽取方法、系统 |
CN118246453A (zh) * | 2024-05-20 | 2024-06-25 | 昆明理工大学 | 基于图卷积的嵌套实体识别模型及其构建方法、存储介质 |
CN118246453B (zh) * | 2024-05-20 | 2024-07-26 | 昆明理工大学 | 基于图卷积的嵌套实体识别模型及其构建方法、存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN111767409B (zh) | 2022-08-30 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111767409B (zh) | 一种基于多头自注意力机制的实体关系抽取方法 | |
CN109902145B (zh) | 一种基于注意力机制的实体关系联合抽取方法和系统 | |
CN109033068B (zh) | 基于注意力机制的用于阅读理解的方法、装置和电子设备 | |
CN112214995B (zh) | 用于同义词预测的分层多任务术语嵌入学习 | |
CN111523119B (zh) | 漏洞检测的方法和装置、电子设备及计算机可读存储介质 | |
CN116010713A (zh) | 基于云计算的创新创业平台服务数据处理方法及系统 | |
CN113688631B (zh) | 一种嵌套命名实体识别方法、系统、计算机和存储介质 | |
CN112380863A (zh) | 一种基于多头自注意力机制的序列标注方法 | |
WO2021208727A1 (zh) | 基于人工智能的文本错误检测方法、装置、计算机设备 | |
CN113486178B (zh) | 文本识别模型训练方法、文本识别方法、装置以及介质 | |
CN113392651A (zh) | 训练词权重模型及提取核心词的方法、装置、设备和介质 | |
CN117114063A (zh) | 用于训练生成式大语言模型和用于处理图像任务的方法 | |
CN115438215A (zh) | 图文双向搜索及匹配模型训练方法、装置、设备及介质 | |
CN116932722A (zh) | 一种基于跨模态数据融合的医学视觉问答方法及系统 | |
CN116383399A (zh) | 一种事件舆情风险预测方法及系统 | |
Zhang et al. | Hierarchical representation and deep learning–based method for automatically transforming textual building codes into semantic computable requirements | |
CN117807482B (zh) | 海关报关单的分类方法、装置、设备及存储介质 | |
CN113312920A (zh) | 基于图对比学习的验证方法、系统、设备和存储介质 | |
CN111581377B (zh) | 文本分类方法、装置、存储介质及计算机设备 | |
CN116933774A (zh) | 长文本摘要方法及其装置、设备、介质 | |
CN112084783A (zh) | 基于民航不文明旅客的实体识别方法及系统 | |
CN113627197B (zh) | 文本的意图识别方法、装置、设备及存储介质 | |
Li et al. | A multimodal entity linking approach incorporating topic concepts | |
CN114996407B (zh) | 基于包重构的远程监督关系抽取方法及系统 | |
CN117725928B (zh) | 基于关键词异构图和语义匹配的金融文本摘要方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |