CN112579792B - 一种基于pgat和ftatt的远程监督关系抽取方法 - Google Patents
一种基于pgat和ftatt的远程监督关系抽取方法 Download PDFInfo
- Publication number
- CN112579792B CN112579792B CN202011528527.3A CN202011528527A CN112579792B CN 112579792 B CN112579792 B CN 112579792B CN 202011528527 A CN202011528527 A CN 202011528527A CN 112579792 B CN112579792 B CN 112579792B
- Authority
- CN
- China
- Prior art keywords
- sentences
- sentence
- pgat
- packet
- ftatt
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000605 extraction Methods 0.000 title claims abstract description 48
- 239000013598 vector Substances 0.000 claims abstract description 78
- 238000000034 method Methods 0.000 claims abstract description 33
- 230000007246 mechanism Effects 0.000 claims abstract description 21
- 239000011159 matrix material Substances 0.000 claims description 27
- 238000013528 artificial neural network Methods 0.000 claims description 11
- 230000011218 segmentation Effects 0.000 claims description 3
- 230000006870 function Effects 0.000 description 10
- 230000008569 process Effects 0.000 description 7
- 208000024891 symptom Diseases 0.000 description 7
- 238000002372 labelling Methods 0.000 description 5
- 229940079593 drug Drugs 0.000 description 4
- 239000003814 drug Substances 0.000 description 4
- 238000012549 training Methods 0.000 description 4
- 208000018737 Parkinson disease Diseases 0.000 description 3
- 230000004913 activation Effects 0.000 description 3
- 238000010276 construction Methods 0.000 description 3
- JRURYQJSLYLRLN-BJMVGYQFSA-N entacapone Chemical compound CCN(CC)C(=O)C(\C#N)=C\C1=CC(O)=C(O)C([N+]([O-])=O)=C1 JRURYQJSLYLRLN-BJMVGYQFSA-N 0.000 description 3
- 229960003337 entacapone Drugs 0.000 description 3
- 239000000284 extract Substances 0.000 description 3
- 238000011160 research Methods 0.000 description 3
- 238000004364 calculation method Methods 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 201000010099 disease Diseases 0.000 description 2
- 208000037265 diseases, disorders, signs and symptoms Diseases 0.000 description 2
- 238000003058 natural language processing Methods 0.000 description 2
- 206010006100 Bradykinesia Diseases 0.000 description 1
- 206010012289 Dementia Diseases 0.000 description 1
- 208000006083 Hypokinesia Diseases 0.000 description 1
- 208000032023 Signs and Symptoms Diseases 0.000 description 1
- 230000004075 alteration Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000013527 convolutional neural network Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000003745 diagnosis Methods 0.000 description 1
- 238000002651 drug therapy Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 230000007787 long-term memory Effects 0.000 description 1
- 230000015654 memory Effects 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000007781 pre-processing Methods 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 238000012216 screening Methods 0.000 description 1
- 230000006403 short-term memory Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/36—Creation of semantic tools, e.g. ontology or thesauri
- G06F16/367—Ontology
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/28—Databases characterised by their database models, e.g. relational or object models
- G06F16/284—Relational databases
- G06F16/288—Entity relationship models
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
- G06F16/355—Class or cluster creation or modification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
- G06F40/211—Syntactic parsing, e.g. based on context-free grammar [CFG] or unification grammars
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/253—Grammatical analysis; Style critique
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/284—Lexical analysis, e.g. tokenisation or collocates
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/049—Temporal neural networks, e.g. delay elements, oscillating neurons or pulsed inputs
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16H—HEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
- G16H50/00—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
- G16H50/70—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for mining of medical data, e.g. analysing previous cases of other patients
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Databases & Information Systems (AREA)
- Data Mining & Analysis (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Biomedical Technology (AREA)
- Public Health (AREA)
- Life Sciences & Earth Sciences (AREA)
- Medical Informatics (AREA)
- Primary Health Care (AREA)
- Pathology (AREA)
- Epidemiology (AREA)
- Animal Behavior & Ethology (AREA)
- Biophysics (AREA)
- Evolutionary Computation (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Machine Translation (AREA)
Abstract
本发明公开一种基于PGAT和FTATT的远程监督关系抽取方法,涉及远程监督关系抽取技术领域。该方法包括:获取NYT数据集,将数据集中包含相同实体对的句子划分在一个包中;获取每个包中句子的词语向量表示;基于Bi‑LSTM抽取句子的序列特征;基于PGAT抽取句子的句法结构特征;利用FTATT对包中不同句子分配权重;将包中各句子的特征向量与句子的权重系数加权求和,获得包的特征向量;根据包的特征向量,对包中实体对进行关系分类。利用PGAT能够捕获句子的句法结构信息,使得抽取的句子特征包含语义和语法方面的丰富信息,同时采用FTATT对注意力机制进行微调,动态地丢弃尽可能多的噪音数据,提高关系抽取准确性。
Description
技术领域
本发明涉及远程监督关系抽取技术领域,具体涉及一种基于PGAT(PiecewiseGraph Attention Network,分段图注意力网络)和FTATT(Fine-tuning AttentionMechanism,微调注意力机制)的远程监督关系抽取方法。
背景技术
知识图谱近些年在医疗领域应用广泛,根据患者症状从医疗知识图谱中匹配症状的实体,实体之间以关系作为边相连接,例如药物治疗、注意事项、相关症状等关系,可以深层次地挖掘患者症状所对应的疾病以及相应的治疗措施。例如,一名患者存在运动迟缓、动作变慢、痉挛、乏力、痴呆、抑郁症等症状及体征,在医疗知识图谱中,这些症状实体对应的疾病实体正是帕金森病。图谱中由(实体,关系,实体)构成实体关系三元组,例如(帕金森病,药物治疗,恩他卡朋)和(恩他卡朋,注意事项,不可突然停用本品)。根据三元组及患者症状,可以挖掘出该患者可能身患帕金森病,需要使用恩他卡朋进行药物治疗,并叮嘱该患者不能随意停用药物,需要缓慢减量停药。
关系抽取是知识图谱构建过程的核心任务。关系抽取是指在实体识别的基础之上从非结构化文本句子中抽取预先定义的实体对之间的关系,也称为实体关系抽取。对一个句子进行关系抽取的结果可以形式化为一个关系三元组(e1,r,e2),e1、e2表示实体,r表示两个实体之间的关系。关系抽取的大量研究工作都集中在有监督学习方法中。有监督的关系抽取需要大量具有特定标注关系的训练数据进行训练,训练数据的标注非常耗时同时人力耗费巨大。在这种情况下,采用远程监督方法进行关系抽取应运而生,其中关系特征设计对远程监督关系抽取的后续错误句子标签的筛选具有重要的作用。现有的研究工作通常使用卷积神经网络对文本句子进行编码,仅是在文本序列上进行特征抽取、关系抽取的效果并不理想,在关系抽取中没有将在依存句法树上体现的语法信息与文本序列中的语义信息有效地融合。
远程监督方法通过自动对齐远程知识库代替人工标注生成训练数据。但是存在一个强假设条件,即如果两个实体在某一个知识库中存在某种关系,那么所有包含这两个实体的文本句子都视为这个关系的正实例。这样会导致大量的标签标注错误,产生噪声数据。为了解决错误标注问题,现有的研究工作采用多实例学习、注意力机制解决噪声问题。尽管如此,噪声数据对关系抽取性能影响仍然较大。当同一实体对包含的噪声数据越多,性能影响就越明显。
发明内容
在现有的远程监督关系抽取方法中,考虑抽取句子的序列特征信息作为句子的特征表示,这样无法充分地表示句子的语义和语法信息,同时现有的方法在面对句子标签错误标注问题上采用多实例学习和注意力机制处理,但是噪声句子的影响依旧很大,需要进一步优化解决。针对现有技术的不足,本发明提出一种基于分段图注意力网络和微调注意力机制的远程监督关系抽取方法,旨在抽取丰富的句子特征的同时尽可能多地丢弃噪声句子,从而提高关系抽取的准确性。
为解决上述技术问题,本发明的基于PGAT和FTATT的远程监督关系抽取方法,包括以下步骤:
步骤1:获取NYT数据集,根据远程监督关系抽取条件假设,将NYT数据集中包含相同实体对的句子划分在一个包中;
步骤2:获取每个包中句子的词语向量表示;
步骤3:根据词语向量表示,抽取包中每个句子的特征向量表示;
步骤3-1:基于Bi-LSTM抽取句子的序列特征,将句子的词语向量表示w送入Bi-LSTM网络,获取句子的序列特征;
步骤3-2:融合句子的序列特征,基于分段图注意力网络PGAT抽取句子的句法结构特征;
步骤4:采用微调注意力机制FTATT对同一包中的不同句子分配权重;
步骤4-1:利用注意力机制ATT求出各包中不同句子的初始的权重系数;
步骤4-2:对初始的权重系数进行微调,得到新的权重系数;
步骤5:将包中各句子的特征向量与句子的权重系数加权求和,获得该包的特征向量;
步骤6:根据包的特征向量,对包中实体对进行关系分类。
进一步地,根据所述的基于PGAT和FTATT的远程监督关系抽取方法,所述步骤2中所述词语向量表示的获取方法为:
通过Word2vec模型获取句子中词语的词嵌入;
将从当前单词到实体对中两个实体的相对距离的组合作为当前单词的位置嵌入;
将词嵌入和位置嵌入结合,作为当前词的词语向量表示。
进一步地,根据所述的基于PGAT和FTATT的远程监督关系抽取方法,所述步骤3-2包括以下步骤:
步骤3-2-1:对输入的句子进行句法依存分析,得到该句子中词与词之间具有依存关系的依存句法树;
步骤3-2-2:根据句子中标注的实体,将依存句法树截为三段:实体之间的最短依存路径树及两个实体各自的子树;
步骤3-2-3:将步骤3-2-2得到的三段依存句法树分别用依存矩阵表示,其中依存矩阵主对角线上的值均为1,除此之外,句子中的词与该词以外的其他词在树结构上有依存关系的,在依存矩阵上对应的值记为1,否则记为0;
步骤3-2-4:将三段依存句法树的依存矩阵分别送入图注意力网络,抽取句子的句法结构特征,分别得到实体最短依存路径特征向量和两个实体子树特征向量;
步骤3-2-5:将三个子树特征向量结合送入前馈神经网络FFNN,得到句子的最终特征向量。
进一步地,根据所述的基于PGAT和FTATT的远程监督关系抽取方法,所述步骤3-2-4中图注意力网络对送入其中的依存矩阵执行如下步骤:
首先,计算词与词之间相互影响的重要程度;
然后,根据词与词之间相互影响的重要程度,计算词与词之间的注意力权重系数;
最后,将词在依存矩阵中所有相邻词的序列特征向量与对应的相邻词的权重系数进行加权求和,得到该词的最终特征向量;所述相邻词为矩阵中值为1对应的词。
进一步地,根据所述的基于PGAT和FTATT的远程监督关系抽取方法,所述步骤4-1包括以下步骤:
计算输入的句子和关系之间匹配的分数;
根据句子和关系的匹配分数,求得注意力机制下用于加权求和的句子权重系数。
进一步地,根据所述的基于PGAT和FTATT的远程监督关系抽取方法,所述步骤4-2中通过阈值θ对初始的权重系数αi进行微调得到新的权重系数αi_new,微调公式如下:
其中n为包中句子总个数,k代表包中第k个句子。
进一步地,根据所述的基于PGAT和FTATT的远程监督关系抽取方法,所述阈值θ为超参数,设置为0.100。
进一步地,根据所述的基于PGAT和FTATT的远程监督关系抽取方法,所述步骤6包括如下步骤:
步骤6-1:将包的特征向量hbag扩维到数据集中预定义的关系个数维度;
步骤6-2:将扩维后包的特征向量转换为概率值p;
步骤6-3:利用概率值p对包中的实体对进行关系分类,将概率值p中最大值对应的关系确定为包的最终关系,从而得到包的最终的实体关系三元组。
进一步地,根据所述的基于PGAT和FTATT的远程监督关系抽取方法,所述步骤6-1中利用全连接神经网络将包的特征向量hbag扩维到数据集中预定义的关系个数维度。
进一步地,根据所述的基于PGAT和FTATT的远程监督关系抽取方法,所述步骤6-2中通过softmax函数将扩维后包的特征向量转换为概率值p。
本发明提出的基于PGAT和FTATT的远程监督关系抽取方具有如下有益效果:
首先,由于依存句法树能够帮助远程监督关系抽取捕获长范围实体对之间的关系,实体对之间的语义关系不仅可以从文本序列中抽取,也可以在文本句子的依存句法树中判断,基于此,在句子序列上通过Bi-LSTM抽取句子的序列特征,在依存句法树上提出基于PGAT(Piecewise Graph Attention Network,分段图注意力网络)的句子特征表示,即在序列信息的语义特征基础上,融合依存结构信息的语法特征,作为文本句子的编码结果,丰富句子的语义和语法信息,更加全面地表达句子的语义和语法信息。
其次,远程监督不可避免地伴随着错误标签问题,产生的噪声数据损害了关系抽取的性能。为了缓解此问题,对包含同一实体对的包中的句子实例采用FTATT(Fine-tuningAttention Mechanism,微调注意力机制)对注意力机制进行微调,动态地丢弃尽可能多的噪音数据,充分利用正实例句子,提高关系抽取准确性。
采用本发明的基于分段图注意力网络和微调注意力机制的远程监督关系抽取方法,可以抽取到的关系三元组数量更多,构建的知识图谱实体间的关系更密切,应用在医疗系统上可以更准确地挖掘和诊断患者病症,从而更精准地进行诊疗。
附图说明
图1为本发明基于PGAT和FTATT的远程监督关系抽取方法的流程图;
图2为本发明基于PGAT和FTATT的远程监督关系抽取方法中词语向量表示和特征抽取过程示意图;
图3为本发明方法中基于分段图注意力网络PGAT抽取句子的句法结构特征的流程图;
图4为发明方法中步骤6对包中实体对进行关系分类的流程图;
图5为本发明方法中从最终句子特征向量到对包中实体对进行关系分类的过程示意图;
图6为本发明基于PGAT和FTATT的远程监督关系抽取方法与现有关系抽取方法进行实验对比的P曲线图。
具体实施方式
为了便于理解本申请,下面将参照相关附图对本申请进行更全面的描述。附图中给出了本申请的较佳实施方式。但是,本申请可以以许多不同的形式来实现,并不限于本文所描述的实施方式。相反地,提供这些实施方式的目的是使对本申请的公开内容理解的更加透彻全面。
本实施方式的基于PGAT和FTATT的远程监督关系抽取方法,如图1所示,包括以下步骤:
步骤1:获取NYT数据集并对NYT数据集进行预处理。
将NYT数据集中包含相同实体对的句子划分在一个包中,并从NYT数据集中获取该实体对的关系并将其作为包标签对包进行标注,按照该方法将NYT数据集中的全部句子划分为z个包,得到包集合其中Bl={S1,S2,…,Sm},表示第l个包中包含m个句子S1,S2,…,Sm。
例如,给定实体对(New Orleans,Dillard University),根据远程监督关系抽取条件假设,对NYT数据集中的所有句子进行查找,将包含该实体对的句子都划分到包B1中,包B1中含有的句子及包标签如表1所示。
表1包B1中含有的句子及包标签
步骤2:获取每个包中句子的词语向量表示。
词语向量表示由两部分组成:词嵌入和位置嵌入。词嵌入中每一维的值代表一个具有一定的语义和语法上解释的特征,每一维称为一个词语特征;位置嵌入中每一维的值代表词到实体对的相对距离,用位置嵌入描述实体与词的位置信息。
本实施方式中通过Word2vec模型获取句子中词语的词嵌入,可以捕获单词的句法和语义信息。位置嵌入描述位置关系,靠近实体的词通常可以为确定实体之间的关系提供信息,将从当前单词到实体对中两个实体的相对距离的组合作为位置嵌入。如图2所示,将词嵌入和位置嵌入结合,作为词语向量表示w={w1,w2,…,wn},wx为句子中第x个词语的向量表示,其中x代表1,2,…,n。
以表1中的句子1为例,通过Word2vec模型获取的词嵌入向量为:
获取的位置嵌入向量为:
最终获得句子1的词语向量表示为:
步骤3:如图2所示,根据词语向量表示,抽取包中每个句子的特征向量表示。
步骤3-1:基于Bi-LSTM抽取句子的序列特征,将句子的词语向量表示w送入Bi-LSTM网络,获取句子的序列特征。
Bi-LSTM(Bi-directional Long and short term memory,双向长短时记忆神经网络)由前向的LSTM与后向的LSTM组合而成,相较于其他类型的神经网络,它可以更好地提取出序列化输入过程中前面输入的内容传递下来的信息,前向的LSTM与后向的LSTM一同构成的Bi-LSTM就可以提取出序列化输入信息的前向内容与后向内容传递过来的信息,可以更好地把握住句子中各部分的上下文信息,所以它在自然语言处理中有着广泛的应用。
LSTM由t时刻的输入词向量表示wt、细胞状态Ct、临时细胞状态隐层状态ht、遗忘门ft、输入门it、输出门ot组成。
LSTM第一步构建用于细胞状态选择丢弃信息的遗忘门ft。
ft=σ(Wf·[ht-1,wt]+bf) (1)
其中,Wf代表构建遗忘门时的权重矩阵,ht-1代表t-1时刻的隐层状态,bf代表构建遗忘门时的偏置值,σ代表sigmoid激活函数。
LSTM第二步构建用于选择更新信息的输入门it。
it=σ(Wi·[ht-1,wt]+bi) (2)
其中,Wi代表构建输入门时的权重矩阵,bi代表构建输入门时的偏置值。
LSTM第三步生成临时细胞状态用于捕获需要添加到细胞状态Ct的新的信息。
其中,WC代表生成临时细胞状态时的权重矩阵,bC代表生成临时细胞状态时的偏置值,tanh为激活函数,取值为[-1,1]。
LSTM第四步通过遗忘门ft忘记旧细胞信息Ct-1的一部分结合通过输入门it选择添加临时细胞信息的一部分得到新的细胞状态信息Ct。
LSTM第五步构建用于细胞状态Ct选择输出状态特征的输出门ot。
ot=σ(Wo·[ht-1,wt]+bo) (5)
其中,Wo代表构建输出门时的权重矩阵,bo代表构建输出门时的偏置值。
LSTM第六步通过输出门ot选择细胞状态Ct输出t时刻的隐层状态ht。
ht=ot*tanh(Ct) (6)
通过Bi-LSTM网络得到句子的序列特征向量h为:
hx=[hxL,hxR] (8)
其中hxL和hxR分别表示前向LSTM和后向LSTM得到的隐层状态向量。
本实施例中将句子1的词语向量表示w送入Bi-LSTM网络,根据公式(1)-(8)获取该句子1的序列特征向量h为:
步骤3-2:基于分段图注意力网络PGAT抽取句子的句法结构特征。
句子的句法结构特征包括实体间的依存关系路径和实体依存句法树结构。步骤3-2如图3所示,包括以下步骤:
步骤3-2-1:对输入的句子进行句法依存分析,得到该句子中词与词之间具有依存关系的依存句法树。
本实施方式中利用自然语言处理技术工具Stanfordnlp对输入的句子进行句法依存分析,得到该句子中词与词之间具有依存关系的依存句法树。
步骤3-2-2:根据句子中标注的实体,将依存句法树截为三段:实体之间的最短依存路径树及两个实体各自的子树。
步骤3-2-3:将步骤3-2-2得到的三段依存句法树分别用依存矩阵表示,其中依存矩阵主对角线上的值均为1,除此之外,句子中的词与该词以外的其他词在树结构上有依存关系的,在依存矩阵上对应的值记为1,否则记为0。
步骤3-2-4:将三段依存句法树的依存矩阵分别送入图注意力网络,抽取句子的句法结构特征,分别得到实体最短依存路径特征向量实体子树特征向量
图注意力网络对送入的依存矩阵执行如下步骤:
首先,计算词与词之间相互影响的重要程度。
bxyr=LeakyRelu(W2(W1[hx,hy,gr])) (9)
其中gr表示关系r的向量表示,hx、hy表示词x、y的序列特征向量,W1、W2表示计算bxyr过程的权重矩阵,LeakyRelu函数为激活函数,bxyr表示在关系r下的词y对词x的重要程度。
然后,根据bxyr计算词与词之间的注意力权重系数αxyr。
其中softmax函数将数值转化为相对概率,Nx表示与词x相邻的词集合,Rxc表示词x与相邻词c间的关系集合,exp函数是以自然常数e为底的指数函数,αxyr是用于图注意力网络中的图卷积过程进行加权求和的注意力权重系数。
接下来,将词x在依存矩阵中所有相邻词y的序列特征向量hy与对应的权重系数αxyr进行加权求和,得到词x的最终特征向量所述相邻词为矩阵中值为1对应的词。
其中W3表示计算过程的权重矩阵。
步骤3-2-5:将三个子树特征向量结合送入前馈神经网络FFNN,得到句子的最终特征向量hs。
此时得到的句子特征向量融合了词特征、句子序列特征、句法结构特征等丰富信息。
在本实施例中对输入的文本句子1执行步骤3-2-1至3-2-5得出句子1的最终的特征向量hs为:
步骤4:采用微调注意力机制FTATT对同一包中的不同句子分配权重。
步骤4-1:利用注意力机制ATT求出各包中不同句子的权重系数αi。
对一个包中不同的句子赋予不同的权重,权重值高的句子对该包的关系分类的正面影响较大,应该加以利用,同时权重低的句子负面影响较大,应予以摒弃。
首先,计算输入的句子si和关系r之间匹配的分数scorei。
其中W4为注意力机制中的权重矩阵;为句子si的特征向量表示。
其次,根据scorei,求得注意力机制下用于加权求和的句子权重系数αi。
其中n表示包中包含的句子个数。
表2包B1中各句子的初始权重αi
步骤4-2:对上述的初始权重αi进行微调。通过阈值θ微调句子的权重,得到新的权重系数αi_new。
在上述初始化权重后,再次对权重值进行调整,充分利用正实例句子的同时尽可能多地丢弃噪声句子。
微调公式如下:
本实例中阈值θ为超参数,设置为0.100。由表2可以看出,包B1中句子4的初始权重α4=0.086<θ,包B1中句子1、2、3、5的初始权重α1、α2、α3、α5值均大于θ,故而由公式(15)可以求得包B1中五个句子的新的权重系数:
α4_new=0
微调后包B1中各句子新的权重系数αi_new如表3所示。
表3包B1中各句子新的权重αi_new
步骤5:将包中各句子的特征向量与对应的调整后的句子的权重系数加权求和,获得该包的特征向量hbag。
在同一个包下,充分利用包中权重值调整后的句子,结合所有句子的特征表示,作为整个实体对的包级特征表示。
本实施例中将包B1中各句子的特征向量与相对应的调整后的权重系数αinew加权求和,根据公式(16)获得包的特征向量hbag为:
步骤6:对包中实体对进行关系分类。
如图4所示,步骤6包括如下步骤:
步骤6-1:利用全连接神经网络将包的特征向量hbag扩维到数据集中预定义的关系个数维度。
hfinal=WBhbag+bB (17)
其中hfinal表示扩维后包的特征向量表示,WB表示全连接神经网络中的权重矩阵,bB表示全连接神经网络中的偏置值。
步骤6-2:如图5所示,通过softmax函数将扩维后包的特征向量转换为概率值p。
p(r|B,ω)=softmax(hfinal) (18)
其中ω集合包括参数W1、W2、W3、W4、W5、WB、bB,p(ri|B,ω)表示关系r对应的概率值。
步骤6-3:利用概率值p对包中的实体对进行关系分类,将概率值p中最大值对应的关系确定为包的最终关系,从而得到包的最终的实体关系三元组。
本实施例中,由于数据集中预定义了53个关系,因此通过全连接神经网络将包的特征向量hbag扩维到53个维度,再通过softmax函数计算出实体对(New Orleans,DillardUniversity)对应的53维的概率,再利用这53个概率值对包B1中的实体对进行关系分类。由公式(17)-(18)可以得出实体对(New Orleans,Dillard University)对应的53维的概率如下:
由得到的概率值可以推断出,53个概率值中最大值0.983所对应的关系/location/location/contains是包B1最终关系分类的结果,从而包B1最终的实体关系三元组为(New Orleans,/location/location/contains,Dillard University)。
本实例中,通过实验对比验证了本发明的基于PGAT和FTATT的远程监督关系抽取方法的有效性和可行性,对比实验的PR(Precision/Recall,精确率/召回率)曲线图如图6所示,从图中曲线可以看出,本发明基于PGAT和FTATT的远程监督关系抽取方法明显优于使用序列特征信息和多实例学习、注意力机制方法解决噪声问题的Mintz、MultiR、MIMLRE方法,主要原因是本发明中PGAT能够捕获句子的句法结构信息,使得抽取的句子特征包含语义和语法方面的丰富信息,同时使用FTATT过滤影响较大的噪声句子,缓解了噪声问题对关系抽取造成的严重影响。
应当理解的是,本领域技术人员在本发明技术构思的启发下,在不脱离本发明内容的基础上,还可以根据上述内容作出各种改进或变换,这仍落在本发明的保护范围之内。
Claims (9)
1.一种基于PGAT和FTATT的远程监督关系抽取方法,其特征在于,所述PGAT为Piecewise Graph Attention Network,分段图注意力网络;所述FTATT为Fine-tuningAttention Mechanism,微调注意力机制;该方法包括以下步骤:
步骤1:获取NYT数据集,根据远程监督关系抽取条件假设,将NYT数据集中包含相同实体对的句子划分在一个包中;
步骤2:获取每个包中句子的词语向量表示;
步骤3:根据词语向量表示,抽取包中每个句子的特征向量表示;
步骤3-1:基于Bi-LSTM抽取句子的序列特征,将句子的词语向量表示w送入Bi-LSTM网络,获取句子的序列特征;
步骤3-2:融合句子的序列特征,基于分段图注意力网络PGAT抽取句子的句法结构特征;
步骤4:采用微调注意力机制FTATT对同一包中的不同句子分配权重;
步骤4-1:利用注意力机制ATT求出各包中不同句子的初始的权重系数;
步骤4-2:对初始的权重系数进行微调,得到新的权重系数;
步骤5:将包中各句子的特征向量与句子的权重系数加权求和,获得该包的特征向量;
步骤6:根据包的特征向量,对包中实体对进行关系分类;
所述步骤3-2包括以下步骤:
步骤3-2-1:对输入的句子进行句法依存分析,得到该句子中词与词之间具有依存关系的依存句法树;
步骤3-2-2:根据句子中标注的实体,将依存句法树截为三段:实体之间的最短依存路径树及两个实体各自的子树;
步骤3-2-3:将步骤3-2-2得到的三段依存句法树分别用依存矩阵表示,其中依存矩阵主对角线上的值均为1,除此之外,句子中的词与该词以外的其他词在树结构上有依存关系的,在依存矩阵上对应的值记为1,否则记为0;
步骤3-2-4:将三段依存句法树的依存矩阵分别送入图注意力网络,抽取句子的句法结构特征,分别得到实体最短依存路径特征向量和两个实体子树特征向量;
步骤3-2-5:将三个子树特征向量结合送入前馈神经网络FFNN,得到句子的最终特征向量。
2.根据权利要求1所述的基于PGAT和FTATT的远程监督关系抽取方法,其特征在于,所述步骤2中所述词语向量表示的获取方法为:
通过Word2vec模型获取句子中词语的词嵌入;
将从当前单词到实体对中两个实体的相对距离的组合作为当前单词的位置嵌入;
将词嵌入和位置嵌入结合,作为当前词的词语向量表示。
3.根据权利要求1所述的基于PGAT和FTATT的远程监督关系抽取方法,其特征在于,所述步骤3-2-4中图注意力网络对送入其中的依存矩阵执行如下步骤:
首先,计算词与词之间相互影响的重要程度;
然后,根据词与词之间相互影响的重要程度,计算词与词之间的注意力权重系数;
最后,将词在依存矩阵中所有相邻词的序列特征向量与对应的相邻词的权重系数进行加权求和,得到该词的最终特征向量;所述相邻词为矩阵中值为1对应的词。
4.根据权利要求1所述的基于PGAT和FTATT的远程监督关系抽取方法,其特征在于,所述步骤4-1包括以下步骤:
计算输入的句子和关系之间匹配的分数;
根据句子和关系的匹配分数,求得注意力机制下用于加权求和的句子权重系数。
5.根据权利要求1所述的基于PGAT和FTATT的远程监督关系抽取方法,其特征在于,所述步骤4-2中通过阈值θ对初始的权重系数αi进行微调得到新的权重系数αi_new,微调公式如下:
其中n为包中句子总个数,k代表包中第k个句子。
6.根据权利要求5所述的基于PGAT和FTATT的远程监督关系抽取方法,其特征在于,所述阈值θ为超参数,设置为0.100。
7.根据权利要求1所述的基于PGAT和FTATT的远程监督关系抽取方法,其特征在于,所述步骤6包括如下步骤:
步骤6-1:将包的特征向量扩维到数据集中预定义的关系个数维度;
步骤6-2:将扩维后的包的特征向量转换为概率值;
步骤6-3:利用概率值对包中的实体对进行关系分类,将概率值中最大值对应的关系确定为包的最终关系,从而得到包的最终的实体关系三元组。
8.根据权利要求7所述的基于PGAT和FTATT的远程监督关系抽取方法,其特征在于,所述步骤6-1中利用全连接神经网络将包的特征向量扩维到数据集中预定义的关系个数维度。
9.根据权利要求7所述的基于PGAT和FTATT的远程监督关系抽取方法,其特征在于,所述步骤6-2中通过softmax函数将扩维后包的特征向量转换为概率值。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011528527.3A CN112579792B (zh) | 2020-12-22 | 2020-12-22 | 一种基于pgat和ftatt的远程监督关系抽取方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011528527.3A CN112579792B (zh) | 2020-12-22 | 2020-12-22 | 一种基于pgat和ftatt的远程监督关系抽取方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112579792A CN112579792A (zh) | 2021-03-30 |
CN112579792B true CN112579792B (zh) | 2023-08-04 |
Family
ID=75138920
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011528527.3A Active CN112579792B (zh) | 2020-12-22 | 2020-12-22 | 一种基于pgat和ftatt的远程监督关系抽取方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112579792B (zh) |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113255320A (zh) * | 2021-05-13 | 2021-08-13 | 北京熙紫智数科技有限公司 | 基于句法树和图注意力机制的实体关系抽取方法及装置 |
CN113377997A (zh) * | 2021-06-30 | 2021-09-10 | 腾讯音乐娱乐科技(深圳)有限公司 | 一种歌曲检索方法、电子设备及计算机可读存储介质 |
CN113641767B (zh) * | 2021-07-16 | 2024-04-19 | 中南民族大学 | 实体关系抽取方法、装置、设备及存储介质 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108280058A (zh) * | 2018-01-02 | 2018-07-13 | 中国科学院自动化研究所 | 基于强化学习的关系抽取方法和装置 |
CN108829722A (zh) * | 2018-05-08 | 2018-11-16 | 国家计算机网络与信息安全管理中心 | 一种远程监督的Dual-Attention关系分类方法及系统 |
CN109635124A (zh) * | 2018-11-30 | 2019-04-16 | 北京大学 | 一种结合背景知识的远程监督关系抽取方法 |
CN110134757A (zh) * | 2019-04-19 | 2019-08-16 | 杭州电子科技大学 | 一种基于多头注意力机制的事件论元角色抽取方法 |
CN111241234A (zh) * | 2019-12-27 | 2020-06-05 | 北京百度网讯科技有限公司 | 文本分类方法及装置 |
CN111914558A (zh) * | 2020-07-31 | 2020-11-10 | 湖北工业大学 | 基于句袋注意力远程监督的课程知识关系抽取方法及系统 |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US11520992B2 (en) * | 2018-03-23 | 2022-12-06 | Servicenow, Inc. | Hybrid learning system for natural language understanding |
US10726207B2 (en) * | 2018-11-27 | 2020-07-28 | Sap Se | Exploiting document knowledge for aspect-level sentiment classification |
-
2020
- 2020-12-22 CN CN202011528527.3A patent/CN112579792B/zh active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108280058A (zh) * | 2018-01-02 | 2018-07-13 | 中国科学院自动化研究所 | 基于强化学习的关系抽取方法和装置 |
CN108829722A (zh) * | 2018-05-08 | 2018-11-16 | 国家计算机网络与信息安全管理中心 | 一种远程监督的Dual-Attention关系分类方法及系统 |
CN109635124A (zh) * | 2018-11-30 | 2019-04-16 | 北京大学 | 一种结合背景知识的远程监督关系抽取方法 |
CN110134757A (zh) * | 2019-04-19 | 2019-08-16 | 杭州电子科技大学 | 一种基于多头注意力机制的事件论元角色抽取方法 |
CN111241234A (zh) * | 2019-12-27 | 2020-06-05 | 北京百度网讯科技有限公司 | 文本分类方法及装置 |
CN111914558A (zh) * | 2020-07-31 | 2020-11-10 | 湖北工业大学 | 基于句袋注意力远程监督的课程知识关系抽取方法及系统 |
Non-Patent Citations (5)
Title |
---|
BGSGA: Combining Bi-GRU and Syntactic Graph Attention for Improving Distant Supervision Relation Extraction;Chengcheng Peng 等;《ICSCA 2020: Proceedings of the 2020 9th International Conference on Software and Computer Applications》;269-275 * |
EBSN中基于潜在好友关系的活动推荐算法;于亚新 等;《计算机科学》;第45卷(第03期);198-205 * |
Mengxue Song.Research on Entity Relation Extraction in Education Field Based on Multi-feature Deep Learning.《ICBDT '20: Proceedings of the 3rd International Conference on Big Data Technologies》.2020,102-106. * |
The Method of Construction Knowledge Triples Under Joint Extraction of Entity Relations Based on Distant Supervision;Cheng Jiamin 等;《2019 International Conference on Virtual Reality and Intelligent Systems (ICVRIS)》;136-140 * |
基于超图的EBSN个性化推荐及优化算法;于亚新 等;《计算机研究与发展》;第57卷(第12期);2556-2570 * |
Also Published As
Publication number | Publication date |
---|---|
CN112579792A (zh) | 2021-03-30 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112579792B (zh) | 一种基于pgat和ftatt的远程监督关系抽取方法 | |
CN107330032B (zh) | 一种基于递归神经网络的隐式篇章关系分析方法 | |
CN111241294B (zh) | 基于依赖解析和关键词的图卷积网络的关系抽取方法 | |
CN111782768B (zh) | 基于双曲空间表示和标签文本互动的细粒度实体识别方法 | |
CN113255755A (zh) | 一种基于异质融合网络的多模态情感分类方法 | |
CN111444367B (zh) | 一种基于全局与局部注意力机制的图像标题生成方法 | |
CN113051399B (zh) | 一种基于关系型图卷积网络的小样本细粒度实体分类方法 | |
Xue et al. | A better way to attend: Attention with trees for video question answering | |
CN110033008A (zh) | 一种基于模态变换与文本归纳的图像描述生成方法 | |
CN112733866A (zh) | 一种提高可控图像文本描述正确性的网络构建方法 | |
CN111027595A (zh) | 双阶段语义词向量生成方法 | |
CN114490953B (zh) | 训练事件抽取模型的方法、事件抽取的方法、装置及介质 | |
CN109783645A (zh) | 一种基于变分自编码的文本分类方法 | |
CN115409018B (zh) | 基于大数据的公司舆情监测系统及其方法 | |
CN114925195A (zh) | 一种融合词汇编码与结构编码的标准内容文本摘要生成方法 | |
CN111160027A (zh) | 基于语义注意力的循环神经网络事件时序关系识别方法 | |
CN111460142A (zh) | 一种基于自注意力卷积神经网络的短文本分类方法及系统 | |
CN111368142A (zh) | 一种基于生成对抗网络的视频密集事件描述方法 | |
CN110245349A (zh) | 一种句法依存分析方法、装置及一种电子设备 | |
CN112784065A (zh) | 基于多阶邻域注意力网络的无监督知识图谱融合方法及装置 | |
CN115658898A (zh) | 一种中英文本实体关系抽取方法、系统及设备 | |
CN115906857A (zh) | 一种基于词汇增强的中医文本命名实体识别方法 | |
CN117236335B (zh) | 基于提示学习的两阶段命名实体识别方法 | |
CN114490954A (zh) | 一种基于任务调节的文档级生成式事件抽取方法 | |
Chau et al. | A conceptlink graph for text structure mining |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |