CN115630164A - 基于正负向联合学习和原型表示的远程监督关系抽取方法 - Google Patents
基于正负向联合学习和原型表示的远程监督关系抽取方法 Download PDFInfo
- Publication number
- CN115630164A CN115630164A CN202211258264.8A CN202211258264A CN115630164A CN 115630164 A CN115630164 A CN 115630164A CN 202211258264 A CN202211258264 A CN 202211258264A CN 115630164 A CN115630164 A CN 115630164A
- Authority
- CN
- China
- Prior art keywords
- sentence
- relation
- relationship
- learning
- embedding
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/36—Creation of semantic tools, e.g. ontology or thesauri
- G06F16/367—Ontology
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Computational Linguistics (AREA)
- Databases & Information Systems (AREA)
- Health & Medical Sciences (AREA)
- Animal Behavior & Ethology (AREA)
- Artificial Intelligence (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Evolutionary Computation (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Machine Translation (AREA)
Abstract
基于正负向联合学习和原型表示的远程监督关系抽取方法,属于关系提取领域。该方法通过正负向联合学习训练句子级别的远程监督关系抽取模型,在分离噪声数据的同时加快收敛。此外,本发明将关系标签和实体类型之间的语义依赖关系构造为约束图,并使用面向关系原型的辅助损失进行优化,促进不同关系之间的信息传递,使得模型可以学习本质的、可解释的句子表示。除了识别噪声数据,本发明还对噪声数据的关系标签进行修正,在迭代中改进数据集的质量,进一步提高模型性能。实验结果表明,该方法在句子级关系抽取和降噪方面都比之前的方法有显著的改进。
Description
技术领域
本发明属于关系抽取领域,具体涉及一种基于正负向联合学习和原型表示的远程监督关系抽取方法。
背景技术
关系抽取(Relation Extraction,RE)旨在从非结构化文本中预测出已标记的实体对之间的语义关系。由于关系抽取数据集标起来注十分耗费人力和时间成本,不能满足有监督学习对数据集规模的要求,因此远程监督关系抽取(Distant SupervisionRelation Extraction,DSRE)方法应运而生。远程监督假设“如果两个实体在知识库中存在某种关系,那么这两个实体共现的所有句子都表达了这个关系”,根据这个假设将语料文本与已有的知识库进行对齐,能够在短时间内完成大规模数据的自动标注,如图1所示。图1中语料库中的三个句子与知识库对齐,只有一个句子标记正确,其余两个句子标记错误。
然而,远程监督的强假设会导致错误标注,可能会将一个句子中的实体对错误标记成某种关系,也可能会出现因为知识库的不完整而导致错误标记为“无关系”类别的情况。如图1所示,知识图谱中记录了(McCormick,place_of_birth,Lakewood)这样一个三元组知识,语料库的前两个句子自动对齐到这条知识上从而被标注为“place_of_birth”,其中,第一个句子正确标注,但是第二个句子并没有表达这个关系而被错误地标注,第三个句子表达了(Naguib Mahfouz,place_of_birth,Cairo)这个关系三元组但由于知识库中不存在而被错误标记为无关系。这样的情况在远程监督标注过程中非常普遍,从而导致远程监督数据集中存在大量噪声,严重影响了关系抽取模型的表现,因此噪声问题成为研究人员关心的重点问题。
大量的工作基于多示例学习(Multi-instance Learning,MIL)框架进行降噪。在多示例学习中,数据集根据实体对被分成若干个句包,一个句包内的句子实例共同包含了某个实体对,句包标签是这个实体对在知识库中存在的关系,模型在句包的级别上做关系分类。为了有效降噪,Zeng等人只选取每个包中预测概率最大的句子作为包的表示[Zeng,D.,Liu,K.,Chen,Y.,Zhao,J.:Distant supervision for relation extraction viapiecewise convolutional neural networks.In:Proceedings of the 2015conferenceon empirical methods in natural language processing.pp.1753–1762.Associationfor Computational Linguistics,Lisbon,Portugal(2015)],Lin等人通过句子级别的注意力机制给句包中的每个句子分配不同的权重[Lin,Y.,Shen,S.,Liu,Z.,Luan,H.,Sun,M.:Neural relation extraction with selective attention over instances.In:Proceedings of the 54th annual meeting of the association for computationallinguistics(volume 1:Long papers).pp.2124–2133.Association for ComputationalLinguistics,Berlin,Germany(2016)],Ye等人分别在句子层面(包内)和句包层面(包间)使用注意力机制[Ye,Z.-X.,Ling,Z.-H.:Distant supervision relation extractionwith intra-bag and inter-bag attentions.In:Proceedings of the 2019conferenceof the north American chapter of the association for computationallinguistics:Human language technologies,volume 1(long and short papers).pp.2810–2819.Association for Computational Linguistics,Minneapolis,Minnesota(2019)]。作为远程监督关系抽取的主流框架,许多基于MIL框架的关系抽取模型在降噪方面取得了不错的效果。
基于MIL在句包级别上进行关系抽取,虽然起到了降噪的作用,但不能识别出句子和关系的一对一映射。也就是说,模型不能在句子级别上进行分类,不能满足许多需要句子关系标签的下游任务的要求。为了缓解句子级别预测的噪声,研究人员利用强化学习和对抗训练来选择可信数据。Jia等人则致力于让模型关注关系模式本身,使用初始关系模式集合通过bootstrap的方式不断发掘更多有效的关系模式[Jia,W.,Dai,D.,Xiao,X.,Wu,H.:ARNOR:Attention regularization based noise reduction for distant supervisionrelation classification.In:Proceedings of the 57th annual meeting of theassociation for computational linguistics.pp.1399–1408.Association forComputational Linguistics,Florence,Italy(2019)]。然而,这些方法忽视了噪声问题来源于缺乏正确的关系标签。
发明内容
本发明关注在远程监督数据集上的句子级别关系抽取,提出了一个基于正负向联合学习和原型表示的远程监督关系抽取方法——PNPRE(Jointly Positive and NegativeLearning with Prototypical Representation for Sentence-level DSRE),致力于识别出数据集中的噪声实例并对其标签进行更正,在降噪的同时提高数据利用率,避免大量数据资源的浪费。本发明使用正负向联合学习的训练方式在保证收敛速度的同时使得模型具有分离可靠实例和噪音数据的能力,设计了噪声过滤策略和重新标注策略来识别噪音并将其转化为可利用的实例,在迭代中不断提高数据集的质量。针对长尾问题,本发明通过“实体-关系”约束构造约束图并编码,然后设计了一个辅助损失来促使模型面向关系原型优化,一方面促使信息在头部关系和尾部关系之间的传递,另一方面提高了模型的可解释性。
本发明的技术方案:
基于正负向联合学习和原型表示的远程监督关系抽取方法,构建PNPRE模型,首先初始化句子编码器、约束图编码器和关系分类器,然后使用正负向联合学习和面向关系原型的学习进行训练,再使用噪声过滤策略和重新标记策略修正原始数据集;具体步骤如下:
1)统计训练集中的关系和实体类型对应关系,构建约束图;
2)向模型中输入数据集,记为D,数据集中的每个实例包含句子、实体对和实体类型以及远程监督标签y,设输入的句子为s={w1,w2,...,wn},头实体位置为p1,尾实体位置为p2,头实体类型为t1,尾实体类型为t2;
3)对单词进行Embedding编码;
4)对单词与头尾实体的相对位置进行Embedding编码;
5)将步骤3)和步骤4)的Embedding编码进行拼接得到句子Embedding编码;
6)将步骤5)得到的句子Embedding作为输入,使用PCNN提取句子特征,得到句子表示;
7)使用两层GCN对步骤1)中的约束图进行编码,得到约束图Embedding,约束图节点的Embedding即为关系和实体类型的Embedding;
8)根据约束图Embedding得到头尾实体类型的Embedding,并使用ReLU激活;
9)将步骤6)的句子表示和步骤8)的实体类型表示进行拼接;
10)将步骤9)得到的表示输入两层全连接层和最后的softmax函数,得到各个类别的概率分布预测,最大概率对应的类别即为分类结果;
11)使用正负向联合学习损失函数对步骤10)的预测值与真实值计算损失;
12)根据约束图Embedding得到标签y对应的关系的Embedding,对步骤6)得到的句子表示,以及标签y对应的关系的Embedding,通过面向关系原型的学习损失函数计算损失;
13)通过Adam优化器,使用步骤11)和步骤12)计算的损失训练模型;
14)使用噪声过滤策略将数据集中可能的噪声实例过滤出来,组成噪声实例集合,记为N,其余实例组成可靠实例集合D-N;
15)使用重新标注策略对步骤14)过滤出的噪声实例重新分配标签,记为N’;
16)步骤14)中的D-N与步骤15)中的N’共同组成新的数据集D’;
17)将步骤16)得到的新数据集作为输入,重复步骤2)~步骤16),直至达到训练停止条件。
本发明的有益效果如下:
(1)本发明使用正负向联合学习的方式训练模型,在提高模型对噪声数据鲁棒性的同时加快收敛,通过噪声过滤策略和重新标注策略迭代地提升数据集质量和模型表现;
(2)本发明使用GCN来编码实体类型和关系之间的约束,促进了信息在不同关系之间的传递,一定程度上缓解了长尾问题;
(3)本发明设计了一个辅助损失来使模型面向原型学习,促使模型学习句子的本质语义,提高了句子编码器的可解释性;
(4)在远程监督关系抽取的基准数据集NYT10上的实验证明,本发明提出的方法超过了之前的SOTA方法。
附图说明
图1:远程监督标注过程。
图2:PNPRE框架。
图3:约束图部分示例。
图4:训练集上一次迭代中的交叉熵损失。
图5:在长尾关系(左)和头部关系(右)上本发明方法和SENT方法的阈值比较。
具体实施方式
远程监督关系抽取
为了解决传统有监督关系抽取方法数据集标注太过昂贵的问题,Mintz等人于2009年提出了远程监督关系抽取方法,基于“如果一对实体之间具有某种关系,那么所包含这对实体的句子都将表达这个关系的含义”的假设借助已有知识库完成对大规模语料的自动标注。但是,由于假设过于强烈,远程监督数据集往往存在大量噪声,因此如何降噪成为研究人员关心的重点。
Riedel对Mintz提出的假设作出改进,提出至少一次假设,指出“若两个实体之间存在某种关系,那么在所有这两个实体共现的句子中,至少有一句表达了这种关系”,并将多实例学习应用于远程监督关系抽取,将含有相同实体对的句子集合定义为一个句包,在句包级别上做关系分类。Zeng等人首次将分段卷积神经网络用于远程监督关系抽取方法中句子特征的提取,在计算损失时只选取句包中置信度最高的实例,丢弃了其他实例[Zeng,D.,Liu,K.,Chen,Y.,Zhao,J.:Distant supervision for relation extraction viapiecewise convolutional neural networks.In:Proceedings of the 2015conferenceon empirical methods in natural language processing.pp.1753–1762.Associationfor Computational Linguistics,Lisbon,Portugal(2015)]。Lin等人在Zeng的基础上引入了注意力机制,根据句子语义与关系语义之间的相似性对句包内的句子赋予不同的权重,相对于Zeng的hard方法,选择了一种soft方法来处理噪声[Lin,Y.,Shen,S.,Liu,Z.,Luan,H.,Sun,M.:Neural relation extraction with selective attention overinstances.In:Proceedings of the 54th annual meeting of the association forcomputational linguistics(volume 1:Long papers).pp.2124–2133.Association forComputational Linguistics,Berlin,Germany(2016)]。为使多实例学习框架能够有效利用所有实例,Chen等人将对比实例学习的方法应用到远程监督关系抽取任务里,将主流多实例学习框架作为句包的编码器,然后通过对比实例学习以无监督的方式利用每个句子实例[Chen,T.,Shi,H.,Tang,S.,Chen,Z.,Wu,F.,Zhuang,Y.:CIL:Contrastive instancelearning framework for distantly supervised relation extraction.In:Proceedings of the 59th annual meeting of the association for computationallinguistics and the11th international joint conference on natural languageprocessing(volume 1:Long papers).pp.6191–6200.Association for ComputationalLinguistics,Online(2021)]。Shang等人提出了基于深度聚类的关系抽取,根据注意力分数过滤出句包中的噪音数据后,通过深度聚类的方法对噪声样本的关系标签进行纠正,并提出一种缩放损失函数使得聚类得到的标签对于模型的影响正比于其聚类置信度[Shang,Y.,Huang,H.-Y.,Mao,X.-L.,Sun,X.,Wei,W.:Are noisy sentences useless fordistant supervised relation extraction?Proceedings of the AAAI Conference onArtificial Intelligence.34,8799–8806(2020).https://doi.org/10.1609/aaai.v34i05.6407]。
大多数关于远程监督关系抽取的研究基于多实例学习框架展开,也有学者探索了一些其他的方法。Feng尝试通过强化学习来解决远程监督语料中的大量噪声,使用实例选择器为后续句子级别关系分类器的训练提供高质量的样本[Feng,J.,Huang,M.,Zhao,L.,Yang,Y.,Zhu,X.:Reinforcement learning for relation classification from noisydata.Proceedings of the AAAI Conference on Artificial Intelligence.32,(2018).https://doi.org/10.1609/aaai.v32i1.12063]。Jia等人提出一个基于注意力正则化的降噪框架,来使模型关注能够解释关系标签的模式[Jia,W.,Dai,D.,Xiao,X.,Wu,H.:ARNOR:Attention regularization based noise reduction for distant supervisionrelation classification.In:Proceedings of the 57th annual meeting of theassociation for computational linguistics.pp.1399–1408.Association forComputational Linguistics,Florence,Italy(2019)]。
负向学习
为了应对模型在噪声数据中记忆受污染的标签的风险,负向学习作为一种间接学习的方法被提出,用于训练CNN。负向学习使用随机选择的补标签训练模型,补标签意味着“实例不属于这个标签”,由于错误地选择补标签的概率远远低于标签为噪声的概率,因此减少了提供错误信息的风险。这种训练方式不仅能避免对噪声数据的过拟合,还可以在训练过程中将噪声数据和干净数据分离开来。Ma等人首次将负向学习引入了远程监督关系抽取,并证明了该方法的有效性[Ma,R.,Gui,T.,Li,L.,Zhang,Q.,Huang,X.,Zhou,Y.:SENT:Sentence-level distant relation extraction via negative training.In:Proceedings of the 59th annual meeting of the association for computationallinguistics and the 11th international joint conference on natural languageprocessing(volume 1:Long papers).pp.6201–6213.Association for ComputationalLinguistics,Online(2021)]。
原型表示学习
在远程监督关系抽取中,原型是在表示空间中的嵌入,捕获了给定关系的不同语句陈述的本质语义,在空间中充当数据表示簇的中心,被表达了相同关系的语句所包围。Ding等人在大规模的远程标注数据中使用原型级分类鲁棒地学习关系表示[Ding,N.,Wang,X.,Fu,Y.,Xu,G.,Wang,R.,Xie,P.,Shen,Y.,Huang,F.,Zheng,H.-T.,Zhang,R.:Prototypical Representation Learning for Relation Extraction.arXiv e-prints.arXiv:2103.11647(2021)],不同于ProtoNet将原型计算为所有实例嵌入的平均值,他们使用三个损失函数来训练句子编码器,包括陈述之间的对比损失、原型和陈述之间的对比损失,以及原型级别的分类损失,从而生成有意义的、可解释的关系表示。
长尾问题
相比于噪声问题,远程监督关系抽取存在的另一个问题——长尾问题,受到的关注较少。早期研究基于规则来增加长尾关系的信息,需要大量的时间成本。由于关系类别之间存在一定的语义依赖关系,因此Han等人根据关系之间的层次关系提出了关系层次树结构[Han,X.,Liu,Z.,Sun,M.:Denoising Distant Supervision for Relation Extractionvia Instance-Level Adversarial Training.arXiv e-prints.arXiv:1805.10959(2018)]。Zhang等人使用图卷积神经网络来对关系层次树进行编码,试图通过图卷积网络(Graph Convolutional Network,GCN)的邻居聚合机制促进关系节点之间的信息传播[Zhang,N.,Deng,S.,Sun,Z.,Wang,G.,Chen,X.,Zhang,W.,Chen,H.:Long-tail relationextraction via knowledge graph embeddings and graph convolution networks.In:Proceedings of the 2019conference of the north American chapter of theassociation for computational linguistics:Human language technologies,volume1(long and short papers).pp.3016–3025.Association for ComputationalLinguistics,Minneapolis,Minnesota(2019)]。Liang等人认为关系层次树不应该是研究长尾问题的唯一选择,他们通过约束图来实现信息到长尾关系的转移,为处理长尾问题提供了新的思路。
基于正负向联合学习和原型表示的远程监督关系抽取方法
本发明提出了一个句子级别的远程监督关系抽取框架,如图2所示,该框架由句子编码器、约束图编码器以及关系分类器组成,并通过正负向联合学习和面向原型的学习进行优化。此外,该框架还配备了噪声过滤机制和重新标注机制来迭代地生成更干净的数据集。
PNPRE框架:在每次迭代中,首先初始化句子编码器、约束图编码器和关系分类器,然后使用正负向联合学习和面向关系原型的学习进行训练,再使用噪声过滤策略和重新标记策略修正原始数据集
任务定义和符号说明
句子级别关系抽取旨在从标记了头实体e1和尾实体e2的词序列si={w1,w2,...,wn}中抽取出语义关系yi∈R,R={r1,r2,...,rk}是预定义的关系标签集合。本发明将关系抽取视为分类任务。
句子编码器
句子编码器的作用是将句子转化为蕴含了输入文本特征的嵌入表示。与Zeng等人一样[Zeng,D.,Liu,K.,Chen,Y.,Zhao,J.:Distant supervision for relationextraction via piecewise convolutional neural networks.In:Proceedings of the2015conference on empirical methods in natural language processing.pp.1753-1762.Association for Computational Linguistics,Lisbon,Portugal(2015)],本发明由词嵌入和位置嵌入进行拼接作为输入,然后使用PCNN对其进行编码。句子si由句子编码器SEφ(·)转换成特征向量
xi=SEφ(si) (1)
值得一提的是,任何网络架构都可以作为本框架中的句子编码器,因为PNPRE是模型无关的。本发明使用最常用的PCNN来实现,因为PCNN使用较少参数就可以实现令人满意的精确率。
约束图编码器
考虑到实体类型和关系标签之间的限制,比如关系“子女”限制了其头实体类型和尾实体类型应该是“人”(如图3所示),本发明使用约束图建模不同关系标签之间存在的语义依赖。约束图由实体类型集合T={t1,t2,...,tl}、关系集合R和约束集合C组成,约束集合C中的每一条约束表示关系r的头实体类型为尾实体类型为其中约束图可以通过知识库给出的约束信息得到,也可以通过统计训练实例的关系标签和实体类型得到,本发明使用后者来构建约束图。约束图部分:头实体类型和尾实体类型分别是对应关系的前继和后继。
至此,约束图可以用一个嵌入矩阵V={v1,v2,...,vm}和一个邻近矩阵A来表示。接下来,通过一个两层的GCN,可以得到关系表示R=[r1,r2,...,rk]和实体类型表示T=[t1,t2,...,tl],其中
R,T=CGEσ(V,E) (3)
σ为约束图编码器CGEσ(·)的参数集合。
关系分类器
研究证明,实体类型信息在关系抽取中起到了重要的作用。因此,本发明将实体类型t经过线性变换得到然后将其与句子编码器输出的句子向量进行拼接作为输入,通过两层的全连接层分类器预测句子在每个关系上的概率分布:
正负向联合学习
正向学习
用y表示由远程监督获得的标签,y∈{0,1}k为y的k维独热向量。正向学习作为一种面向目标标签的学习方式被广泛应用于训练模型中,目标标签即“输入实例属于这个关系标签”:
其中pi为关系ri的概率分数。
负向学习
正负向联合学习
本发明通过正负向联合学习来训练模型,同时受益于正向学习更快地收敛速度和负向学习在噪声中良好的学习能力。本发明使用LNT为每个实例计算负向学习的损失,考虑到噪声实例对于训练的巨大影响,只选取了期望可靠的实例作为有效实例为其计算正向学习的损失。选取有效实例的标准为:(1)最大概率pmax>0.5,(2)除最大概率的关系类别外,其余类别的概率k为关系标签数目。本发明没有直接选择远程监督标签判断是否满足(1)的原因是远程监督标签可能是噪音。综上,正负向联合学习的损失函数为:
LJPNL=λ1LPL++LNL (7)
其中λ1是一个用来缩放正向学习范围的系数,使其不会压倒负向学习的幅度。在本发明的实验中令λ1=0.1。
面向原型学习
根据Ding等人所述[Ding,N.,Wang,X.,Fu,Y.,Xu,G.,Wang,R.,Xie,P.,Shen,Y.,Huang,F.,Zheng,H.-T.,Zhang,R.:Prototypical Representation Learning forRelation Extraction.arXiv e-prints.arXiv:2103.11647(2021)],关系原型z∈Z抽取了关系r最本质的语义,并且z的嵌入z与表达了该关系的句子的嵌入处于同样的语义空间。在本发明中,关系原型的嵌入由CGEσ(·)对关系进行编码后通过一个线性映射得到:
z=MAP1(r) (8)
同样地,由句子编码器输出的句子嵌入x也通过一个线性变换映射到与z一致的空间:
s=MAP2(x) (9)
表达了关系r的句子也被称为关系r的陈述,基于“关系r的陈述应该尽可能地靠近r的原型,并且尽可能地远离其他关系原型”这样的观点,在训练过程中,本发明向式(7)中加入了一个辅助损失来训练面向原型的模型:
Lproto=Lz+Lz′+βLz_cls (10)
其中Lz和Lz′反映了陈述和原型之间的偏差,通过下式计算:
Lz=logd(z,s) (11)
式(12)中的相似性度量定义为:
为了进一步规范原型的语义,本发明在原型级别使用了一个额外的分类器,其参数γ通过下式优化:
总体而言,最终的损失函数由两部分组成:
L=LJPNL+λ2·Lproto (15)
其中λ2决定了Lproto的比重,在本发明的实验中将其设置为0.1。
值得注意的是,由于原型对噪声数据十分敏感,如正向学习一样,本发明只对有效实例计算面向关系原型的损失。
噪声过滤机制和重标注机制
噪声过滤机制
经过数轮训练,模型将会为噪音数据的远程监督标签分配较低的概率分数,而干净数据的远程监督标签通常会被分配中等以上的概率分数。本发明没有设置一个特定的阈值来将噪声数据从训练数据中分离,而是根据OTSU算法[Otsu,N.:A threshold selectionmethod from gray-level histograms.IEEE Transactions on Systems,Man,andCybernetics.9,62-66(1979).https://doi.org/10.1109/TSMC.1979.4310076]能够最大化类间方差的特点给每个关系r的训练样本计算其独特的阈值Thr。这种噪声过滤策略避免了人为设置固定阈值带来的麻烦,并能够根据每个关系类别的概率分数分布动态变化。这种方法计算的阈值不仅能够自适应于每个关系类别的收敛程度,还能自动进行动态的变化,避免了手工设置固定阈值带来的麻烦,并且对长尾数据友好。
重标注机制
本发明认为,噪声问题的根本原因不是缺乏有用的信息,而是确实正确的关系标签。因此,本发明对噪声过滤机制分离出来的噪声实例重新标注。如果一个句子被预测为关系r*,且对应的概率P(r*|s)大于关系r*的重新标注阈值那么该实例将被重新标注为r*,否则重新标注为“NA”类别。本发明将重新标注阈值设置为噪声过滤阈值一样的值。
模型训练算法
为了尽可能地发挥出每个部分的优势,本发明迭代地训练模型,逐步成成一个干净的数据集,最终以验证集上的最佳F1分数停止迭代。模型训练的算法步骤如算法1所示。
实验
数据集和评价指标
在广泛使用的远程监督关系抽取数据集上评估本发明提出的方法,即最初由Riedel等人实现的NYT数据集[Riedel,S.,Yao,L.,McCallum,A.:Modeling relations andtheir mentions without labeled text.In:Balcázar,J.L.,Bonchi,F.,Gionis,A.,andSebag,M.(eds.)Machine learning and knowledge discovery in databases.pp.148–163.Springer Berlin Heidelberg,Berlin,Heidelberg(2010)]。在句子级别关系抽取的训练阶段,本发明遵循Jia等人的设置[Jia,W.,Dai,D.,Xiao,X.,Wu,H.:ARNOR:Attentionregularization based noise reduction for distant supervision relationclassification.In:Proceedings of the 57th annual meeting of the associationfor computational linguistics.pp.1399–1408.Association for ComputationalLinguistics,Florence,Italy(2019)],并在他们发布的人工标记句子级别测试集和用于评估算法去噪能力的测试集上进行测试。本实验所用数据集的情况如表1所示。
表1:数据集统计数据,引用自[Jia,W.,Dai,D.,Xiao,X.,Wu,H.:ARNOR:Attentionregularization based noise reduction for distant supervision relationclassification.In:Proceedings of the 57th annual meeting of the associationfor computational linguistics.pp.1399–1408.Association for ComputationalLinguistics,Florence,Italy(2019)].“正实例”表示未标记为“NA”的阳性实例。
遵循以往的文献,本发明直接在所有实例上计算了精度(PREC)、召回率(rec)和F1分数,以进行句子级别的评估。
基线模型
实验将本发明的框架与远程监督关系抽取的几个强大基线模型的性能进行了比较,包括:
CNN[Zeng,D.,Liu,K.,Lai,S.,Zhou,G.,Zhao,J.:Relation classification viaconvolutional deep neural network.In:Proceedings of COLING 2014,the 25thinternational conference on computational linguistics:Technicalpapers.pp.2335–2344.Dublin City University;Association for ComputationalLinguistics,Dublin,Ireland(2014)]是用于关系抽取的经典模型,引入位置嵌入来表示单词和实体对之间的相对位置。
PCNN[Zeng,D.,Liu,K.,Chen,Y.,Zhao,J.:Distant supervision for relationextraction via piecewise convolutional neural networks.In:Proceedings of the2015conference on empirical methods in natural language processing.pp.1753–1762.Association for Computational Linguistics,Lisbon,Portugal(2015)]是对CNN的改进,使用分段最大池化操作来提取更多的关系特征,被广泛应用于关系抽取任务。
PCNN+SelATT[Lin,Y.,Shen,S.,Liu,Z.,Luan,H.,Sun,M.:Neural relationextraction with selective attention over instances.In:Proceedings of the 54thannual meeting of the association for computational linguistics(volume 1:Longpapers).pp.2124–2133.Association for Computational Linguistics,Berlin,Germany(2016)]是句包级别的关系抽取模型,使用句子级别的注意力机制以减少噪声实例的权重。
PCNN+ATT_RA+BAG_ATT[Ye,Z.-X.,Ling,Z.-H.:Distant supervision relationextraction with intra-bag and inter-bag attentions.In:Proceedings of the2019conference of the north American chapter of the association forcomputational linguistics:Human language technologies,volume 1(long and shortpapers).pp.2810–2819.Association for Computational Linguistics,Minneapolis,Minnesota(2019)]作为句包级别的关系抽取模型,通过包内和包间注意力机制来处理噪声。
CNN+RL1[Qin,P.,Xu,W.,Wang,W.Y.:Robust distant supervision relationextraction via deep reinforcement learning.In:Proceedings of the 56th annualmeeting of the association for computational linguistics(volume 1:Longpapers).pp.2137–2147.Association for Computational Linguistics,Melbourne,Australia(2018)]是基于强化学习的句包级别的关系抽取方法,识别假阳性实例并将其重新分配到负样本中去。
CNN+RL2[Feng,J.,Huang,M.,Zhao,L.,Yang,Y.,Zhu,X.:Reinforcementlearning for relation classification from noisy data.Proceedings of the AAAIConference on Artificial Intelligence.32,(2018).https://doi.org/10.1609/aaai.v32i1.12063]是一个句级关系抽取模型,它联合训练CNN分类器和实例选择器来去除无效样本。
ARNOR[Jia,W.,Dai,D.,Xiao,X.,Wu,H.:ARNOR:Attention regularizationbased noise reduction for distant supervision relation classification.In:Proceedings of the 57th annual meeting of the association for computationallinguistics.pp.1399–1408.Association for Computational Linguistics,Florence,Italy(2019)]设计了注意力正则化使模型关注关系的模式,根据注意力分数选择置信度高的实例,训练句子级别的远程监督关系抽取模型。
SENT[Ma,R.,Gui,T.,Li,L.,Zhang,Q.,Huang,X.,Zhou,Y.:SENT:Sentence-leveldistant relation extraction via negative training.In:Proceedings of the 59thannual meeting of the association for computational linguistics and the 11thinternational joint conference on natural language processing(volume 1:Longpapers).pp.6201–6213.Association for Computational Linguistics,Online(2021)]基于负向学习迭代地执行噪声过滤和重新标注操作,是目前句子级别关系抽取的SOTA模型。
参数设置
由于本发明提出的基于正负向联合学习和原型表示的远程监督关系抽取方法与模型无关,在考虑了训练所需的时间的算力消耗后,本实验选择使用PCNN来实现模型。与ARNOR一样,本实验随机初始化50维的词嵌入和50维的位置嵌入。参照之前的工作,将PCNN中的卷积核个数设为230,窗口尺寸设置为3。使用一个两层的图卷积网络对约束图进行编码,网络的输入设置为50维。对于正负向联合学习,令λ1=0.1,与SENT一样,为每个实例随机选取10个补标签。对于面向关系原型的学习,在实验中使用一个批次中可靠实例占所有实例的比例对原型级别的分类损失进行缩放。训练时,通过Adam优化器进行优化,在分类器之前采用dropout策略以避免过拟合。表2展示了本实验中使用的所有超参数。
表2:超参数设置
实验结果
将PNPRE的结果与其他基线模型在句子级别的评估进行比较,如表3所示,本发明的方法在精度和F1分数方面明显优于基线模型。从结果中可以观察到:(1)所有的基线模型在句子级别评估上均表现欠佳,这表明噪声数据对于句子级别关系抽取模型训练中的破坏是巨大的。(2)句包级别的模型,包括PCNN+SelATT、PCNN+ATT_RA+Bag_ATT和CNN+RL1,在句子级别关系抽取方面效果不佳,表明句包级别的去噪方法不适用于句子级别的评估。(3)本发明提出的PNPRE方法在保持召回率几乎持平的同时,在精确度上取得了显著提高,从而使得F1分数高于以往的去噪方法,这表明本发明的方法可以有效地减少噪声数据的影响。
为了进一步证明PNPRE的去噪能力,参照SENT在ARNOR发布的噪声标注测试集上进行了实验。如表4所示,本发明提出的方法在F1分数方面优于其他测试方法,并且在保持与SENT相似的精度的情况下,显著改进了召回率。值得注意的是,尽管SENT中的噪声过滤策略可以适应不同的关系,但它仍然需要设置全局数据过滤阈值和重新标记阈值,而阈值的设置十分麻烦。相比之下,本发明统一了噪声过滤阈值和重新标注阈值,由OTSU算法自动计算,并保持了对不同关系的适应性。此外,ARNOR在三种方法中表现最差,这可能是因为其构造的初始模式集合会阻碍模型对各式各样正确数据的归纳。
表3:所有比较模型在句子级别评估中的表现。除PNPRE外,先前模型的结果引用自[Zeng,X.,He,S.,Liu,K.,Zhao,J.:Large scaled relation extraction withreinforcement learning.In:AAAI(2018)]。
表4:在标注了噪声的NYT-10测试集上去噪能力的比较。
消融实验
本发明还进行了消融实验,以展示不同组件在PNPRE中起到的作用:(1)在“-CGE”中,删除了约束图编码器并替换为随机的实体类型嵌入和关系嵌入。(2)在“-Lproto”中,没有使用Lproto,也就是说,在训练阶段没有使用面向原型的学习。(3)“-CGE-Lproto”意味着约束图编码器和Lproto均未被使用。(4)在“PL”中,将正向学习从正负向联合学习中去除,与SENT一样只用负向学习来优化关系分类器。(5)在“-OTSU”中,将噪声过滤策略和重新标注策略替换为SENT论文中的设置,具体来说,过滤数据的全局阈值设置为0.25,重新标注阈值设置为0.7。
实验结果如表5所示。显然,删除约束图编码器和Lproto会损害模型的最终性能,因为信息可以通过约束图中的节点和边进行有效地传播,而Lproto能够使模型更容易理解关系的本质语义。然而,同时删除约束图编码器和Lproto的表现优于独立删除每个部分。对于这个结果,一种猜测是没有LProto的约束图编码器不能被充分优化,不使用约束图编码器可能使关系原型嵌入偏向于存在噪声的句子嵌入。
表5:在NYT-10测试集上的消融实验。
实验结果如表5所示。显然,删除约束图编码器和Lproto会损害模型的最终性能,因为信息可以通过约束图中的节点和边进行有效地传播,而Lproto能够使模型更容易理解关系的本质语义。然而,同时删除约束图编码器和Lproto的表现优于独立删除每个部分。对于这个结果,一种猜测是没有LProto的约束图编码器不能被充分优化,不使用约束图编码器可能使关系原型嵌入偏向于存在噪声的句子嵌入。
当删除了正向学习后,模型的训练主要依赖于SENT中使用的补标签,性能大大降低。图4绘制了在训练集上分别使用正负向联合学习和负向学习训练的交叉熵损失,可以看到,移除正向学习的方法表现出较差的收敛性,从而证明了正负向联合学习的优越性。
当使用SENT的替换OTSU算法决定噪声过滤阈值时,模型最终的分类性能和去噪能力都大大降低(如表5和表6所示)。此外,图5在一个长尾关系和一个头部关系的数据上比较了两个不同阈值设置方法的有效性,即SENT的方法和本发明提出的方法。显然,本发明的过滤阈值要比SENT更严格,这解释了PNPRE在召回率上表现优异的原因,因为相比于错误地将干净的数据视为噪声,它更倾向于过滤尽可能多的噪声数据。
表6:在噪声标注测试集上的消融实验。
结论
本发明提出了一个句子级别远程监督关系抽取框架——PNPRE。一方面,使用正负向联合学习训练模型,不仅缓解了噪声的影响,并将噪音从干净的数据中分离出来,提高了收敛性和训练速度,进而提高了模型性能。另一方面,本发明使用约束图通过实体类型和关系标签之间的限制来对关系标签之间的依赖关系进行建模,促进了不同关系之间信息的传播。此外,本发明设计了面向原型的学习为学习句子本质表示提供辅助。PNPRE通过迭代地执行噪声过滤并修正标签,有助于提高远程监督数据的质量和模型的性能。在NYT-10数据集上的实验证明了PNPRE在句子级别关系抽取和降噪方面的优势。
Claims (7)
1.基于正负向联合学习和原型表示的远程监督关系抽取方法,其特征在于,构建PNPRE模型,首先初始化句子编码器、约束图编码器和关系分类器,然后使用正负向联合学习和面向关系原型的学习进行训练,再使用噪声过滤策略和重新标记策略修正原始数据集;具体步骤如下:
1)统计训练集中的关系和实体类型对应关系,构建约束图;
2)向模型中输入数据集,记为D,数据集中的每个实例包含句子、实体对和实体类型以及远程监督标签y,设输入的句子为s={w1,w2,…,wn},头实体位置为p1,尾实体位置为p2,头实体类型为t1,尾实体类型为t2;
3)对单词进行Embedding编码;
4)对单词与头尾实体的相对位置进行Embedding编码;
5)将步骤3)和步骤4)的Embedding编码进行拼接得到句子Embedding编码;
6)将步骤5)得到的句子Embedding作为输入,使用PCNN提取句子特征,得到句子表示;
7)使用两层GCN对步骤1)中的约束图进行编码,得到约束图Embedding,约束图节点的Embedding即为关系和实体类型的Embedding;
8)根据约束图Embedding得到头尾实体类型的Embedding,并使用ReLU激活;
9)将步骤6)的句子表示和步骤8)的实体类型表示进行拼接;
10)将步骤9)得到的表示输入两层全连接层和最后的softmax函数,得到各个类别的概率分布预测,最大概率对应的类别即为分类结果;
11)使用正负向联合学习损失函数对步骤10)的预测值与真实值计算损失;
12)根据约束图Embedding得到标签y对应的关系的Embedding,对步骤6)得到的句子表示,以及标签y对应的关系的Embedding,通过面向关系原型的学习损失函数计算损失;
13)通过Adam优化器,使用步骤11)和步骤12)计算的损失训练模型;
14)使用噪声过滤策略将数据集中可能的噪声实例过滤出来,组成噪声实例集合,记为N,其余实例组成可靠实例集合D-N;
15)使用重新标注策略对步骤14)过滤出的噪声实例重新分配标签,记为N’;
16)步骤14)中的D-N与步骤15)中的N’共同组成新的数据集D’;
17)将步骤16)得到的新数据集作为输入,重复步骤2)~步骤16),直至达到训练停止条件。
2.根据权利要求1所述的基于正负向联合学习和原型表示的远程监督关系抽取方法,其特征在于,所述约束图由实体类型集合T={t1,t2,...,tl}、关系集合R和约束集合C组成,约束集合C中的每一条约束表示关系r的头实体类型为尾实体类型为其中
至此,约束图可以用一个嵌入矩阵V={v1,v2,...,vm}和一个邻近矩阵A来表示;
R,T=CGEσ(V,E) (2)
σ为约束图编码器CGEσ(·)的参数集合。
5.根据权利要求1所述的基于正负向联合学习和原型表示的远程监督关系抽取方法,其特征在于,所述的正负向联合学习:
1)正向学习
用y表示由远程监督获得的标签,y∈{0,1}k为y的k维独热向量;目标标签即“输入实例属于这个关系标签”:
其中pi为关系ri的概率分数;
2)负向学习
远程监督关系抽取方法中使用LNT为每个实例计算负向学习的损失,只选取了期望可靠的实例作为有效实例为其计算正向学习的损失;
选取有效实例的标准为:
(1)最大概率Pmax>0.5,
远程监督关系抽取方法中没有直接选择远程监督标签判断是否满足(1)的原因是远程监督标签可能是噪音;综上,正负向联合学习的损失函数为:
LJPNL=λ1LPL++LNL (7)
其中λ1是一个用来缩放正向学习范围的系数,使其不会压倒负向学习的幅度。
6.根据权利要求1所述的基于正负向联合学习和原型表示的远程监督关系抽取方法,其特征在于,所述的面向关系原型的学习:关系原型z∈Z抽取了关系r最本质的语义,并且z的嵌入z与表达了该关系的句子的嵌入处于同样的语义空间;在远程监督关系抽取方法中,关系原型的嵌入由CGEσ(·)对关系进行编码后通过一个线性映射得到:
z=MAP1(r) (8)
同样地,由句子编码器输出的句子嵌入x也通过一个线性变换映射到与z一致的空间:
s=MAP2(x) (9)
表达了关系r的句子也被称为关系r的陈述,基于“关系r的陈述应该尽可能地靠近r的原型,并且尽可能地远离其他关系原型”这样的观点,在训练过程中,远程监督关系抽取方法中向式(7)中加入了一个辅助损失来训练面向原型的模型:
Lproto=Lz+Lz′+βLz_cls (10)
其中Lz和Lz′反映了陈述和原型之间的偏差,通过下式计算:
Lz=logd(z,s) (11)
式(12)中的相似性度量定义为:
远程监督关系抽取方法中在原型级别使用了一个额外的分类器,其参数γ通过下式优化:
总体而言,最终的损失函数由两部分组成:
L=LJPNL+λ2·Lproto (15)
其中λ2决定了Lproto的比重。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211258264.8A CN115630164A (zh) | 2022-10-14 | 2022-10-14 | 基于正负向联合学习和原型表示的远程监督关系抽取方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211258264.8A CN115630164A (zh) | 2022-10-14 | 2022-10-14 | 基于正负向联合学习和原型表示的远程监督关系抽取方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN115630164A true CN115630164A (zh) | 2023-01-20 |
Family
ID=84904489
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202211258264.8A Pending CN115630164A (zh) | 2022-10-14 | 2022-10-14 | 基于正负向联合学习和原型表示的远程监督关系抽取方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115630164A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116431831A (zh) * | 2023-04-18 | 2023-07-14 | 延边大学 | 基于标签对比学习的有监督关系抽取方法 |
CN117523213A (zh) * | 2024-01-04 | 2024-02-06 | 南京航空航天大学 | 一种基于元去噪和负学习的噪声标签识别方法 |
-
2022
- 2022-10-14 CN CN202211258264.8A patent/CN115630164A/zh active Pending
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116431831A (zh) * | 2023-04-18 | 2023-07-14 | 延边大学 | 基于标签对比学习的有监督关系抽取方法 |
CN116431831B (zh) * | 2023-04-18 | 2023-09-22 | 延边大学 | 基于标签对比学习的有监督关系抽取方法 |
CN117523213A (zh) * | 2024-01-04 | 2024-02-06 | 南京航空航天大学 | 一种基于元去噪和负学习的噪声标签识别方法 |
CN117523213B (zh) * | 2024-01-04 | 2024-03-29 | 南京航空航天大学 | 一种基于元去噪和负学习的噪声标签识别方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN114169330B (zh) | 融合时序卷积与Transformer编码器的中文命名实体识别方法 | |
CN106484674B (zh) | 一种基于深度学习的中文电子病历概念抽取方法 | |
Gasmi et al. | LSTM recurrent neural networks for cybersecurity named entity recognition | |
CN111027595B (zh) | 双阶段语义词向量生成方法 | |
CN110263325B (zh) | 中文分词系统 | |
CN115630164A (zh) | 基于正负向联合学习和原型表示的远程监督关系抽取方法 | |
CN112487143A (zh) | 一种基于舆情大数据分析的多标签文本分类方法 | |
CN111914091A (zh) | 一种基于强化学习的实体和关系联合抽取方法 | |
CN114896388A (zh) | 一种基于混合注意力的层级多标签文本分类方法 | |
CN109446326B (zh) | 基于复制机制的生物医学事件联合抽取方法 | |
CN113806547B (zh) | 一种基于图模型的深度学习多标签文本分类方法 | |
CN114742071B (zh) | 基于图神经网络的汉越跨语言观点对象识别分析方法 | |
CN114036303A (zh) | 一种基于双粒度注意力和对抗训练的远程监督关系抽取方法 | |
CN113065349A (zh) | 基于条件随机场的命名实体识别方法 | |
CN116150361A (zh) | 一种财务报表附注的事件抽取方法、系统及存储介质 | |
CN112925918A (zh) | 一种基于疾病领域知识图谱的问答匹配系统 | |
CN116127099A (zh) | 基于图卷积网络的联合文本增强的表实体与类型注释方法 | |
CN113158659B (zh) | 一种基于司法文本的涉案财物计算方法 | |
CN110765781A (zh) | 一种领域术语语义知识库人机协同构建方法 | |
CN114417872A (zh) | 一种合同文本命名实体识别方法及系统 | |
CN114021584A (zh) | 基于图卷积网络和翻译模型的知识表示学习方法 | |
CN112069825B (zh) | 面向警情笔录数据的实体关系联合抽取方法 | |
CN112925907A (zh) | 基于事件图卷积神经网络的微博评论观点对象分类方法 | |
CN116578708A (zh) | 一种基于图神经网络的论文数据姓名消歧算法 | |
CN116431789A (zh) | 一种基于因果事件抽取模型的因果事件抽取方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |