CN112395393A - 一种基于多任务多示例的远程监督关系抽取方法 - Google Patents

一种基于多任务多示例的远程监督关系抽取方法 Download PDF

Info

Publication number
CN112395393A
CN112395393A CN202011362711.5A CN202011362711A CN112395393A CN 112395393 A CN112395393 A CN 112395393A CN 202011362711 A CN202011362711 A CN 202011362711A CN 112395393 A CN112395393 A CN 112395393A
Authority
CN
China
Prior art keywords
sentence
entity
representation
vector
characterization
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202011362711.5A
Other languages
English (en)
Other versions
CN112395393B (zh
Inventor
高明
王嘉宁
蔡文渊
徐林昊
周傲英
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shanghai Honglu Data Technology Co ltd
East China Normal University
Original Assignee
Shanghai Honglu Data Technology Co ltd
East China Normal University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shanghai Honglu Data Technology Co ltd, East China Normal University filed Critical Shanghai Honglu Data Technology Co ltd
Priority to CN202011362711.5A priority Critical patent/CN112395393B/zh
Publication of CN112395393A publication Critical patent/CN112395393A/zh
Application granted granted Critical
Publication of CN112395393B publication Critical patent/CN112395393B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3344Query execution using natural language analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/048Activation functions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Data Mining & Analysis (AREA)
  • Biomedical Technology (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Evolutionary Computation (AREA)
  • Biophysics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Databases & Information Systems (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Machine Translation (AREA)

Abstract

本发明公开了一种基于多任务多示例的远程监督关系抽取方法,其特点是采用多任务和多示例的学习架构,以及Word2vec词向量预训练和多示例的句子级别注意力机制方法进行远程监督关系抽取,具体包括:数据预处理、输入表征、抽象语义表示、实体类型表征和多任务多示例关系抽取等步骤。本发明与现有技术相比具有方法简便,有效解决了噪声、训练不充分和数据的类不均衡问题,有效降低噪声对分类的影响,提高真实句子对分类的贡献,对缓解噪声和NA对分类的影响,具有一定的实用价值。

Description

一种基于多任务多示例的远程监督关系抽取方法
技术领域
本发明涉及知识图谱的自然语言处理与信息抽取技术领域,尤其是一种基于多任务多示例的远程监督关系抽取方法。
背景技术
目前,包括文本摘要、机器翻译、问答和推荐等领域均离不开信息抽取构建好的结构化知识库。信息抽取作为一种人工智能下的自然语言处理技术,以其能够高效地从非结构化数据中提取结构化知识的优势,已然成为知识图谱构建的必要过程。随着计算机互联网的快速发展以及移动端的普及,非结构化的海量数据日益激增,例如每日的聊天信息、新闻推送、网站的日志数据等,这些非结构化的数据构成了一个个大大小小的知识,大量的知识被存储在云端,因为这些信息绝大多数都是以非结构化的文本形式存在,如何快速自动地从这些非结构的文本中提取有价值的信息,进一步缓解信息迷航问题,是近年来逐渐吸引研究者们的关注。
关系抽取是信息抽取重要的步骤,其目标通过对从非结构化的文本进行语义提取和表征,根据相应的实体对来预测其语义关系。关系抽取可以分为三大类,第一类以无监督为主,即通常在没有关系标签的条件下,根据语料的句法或语义结构自动地从文本中提取可以描述对应关系的词汇或短语。这一类方法可以通过对依存关系树进行分析,根据对依存关系的模式匹配和规则设计来提取句子中的成分,其优点在于可以免于人工标注数据,且可以保留原生态的关系描述,缺点在于泛化能力不足,提取能力有限;第二类以有监督为主,对实体和文本通过特征工程或表征学习来提取句法或语义信息,并通过分类器完成对关系的分类。该方法通过学习一个映射函数,使得每个实体对及文本描述通过特征映射方式获取每个类的概率分布,具有一定的泛化能力,但需要大量的人工标注数据;第三类则以远程监督方法为主,将文本与现有知识库进行启发式地标注构建大规模语料后,再采用有监督的方法进行学习。其中第三类为目前最为常用的方法,它可以解决第一类传统方法泛化能力差的问题,也可以缓解第二类方法中大量人工标注消耗问题,虽然远程监督关系抽取作为一个新的研究点,在带来价值的同时也存在着许多的挑战,主要有以下三个方面的问题:
1)噪声问题:远程监督方法基于一种过强的假设,即如果两个实体在知识库中具有某种关系,任意一个包含这两个实体的文本都描述了这种关系,显然这个假设不一定成立,因此可能会引入许多错误标注的数据,因此需要考虑如何准确的识别出噪声,或间接地降低噪声对分类的影响。
2)训练不充分问题:在现实世界中,只有很少部分的实体对经常出现在语料中,而大多数的实体对出现频率很低,导致这些出现频率低的实体训练语料少,训练不充分。
3)数据的类不均衡:在远程监督的关系抽取数据集中,普遍存在类不均衡问题,尤其是NYT数据集,无关(NA)类对应的数据量占总数据量的90%以上,在训练和测试时,很容易被直接预测为NA类,因此需要考虑如何避免NA对分类的影响。
对于上述问题,Mintz在“International Joint Conference on NaturalLanguage Processing”(AACL-IJCNLP,2009)提出了一种远程监督方法用于启发式标注大规模的监督语料,该方法将大量文本通过与Freebase等开源知识库进行对齐,并通过传统的机器学习或深度学习方法进行分类。Riedel在“European Conference on MachineLearning”(ECLM,2010)提出一种基于概率图的方法实现关系抽取,在处理噪声的问题上,其为每个句子分配一个隐变量来预测该句子是否是噪声。在此基础上,Fan在“Meeting ofthe Association for Computational Linguistics”(ACL,2014)采用矩阵补全的方法,首先根据训练集和测试集划分一个包含4个矩阵块的矩阵,其中左上角矩阵块表示训练集的特征,右上角矩阵块表示训练集的标签,左下角矩阵块表示测试集的特征,而右下角为测试集的标签,其为未知值,因此其通过矩阵秩最小化和核范数最小化目标预测未知标签。随着深度学习的发展,Zeng在“Empirical Methods in Natural Language Processing”(EMNLP,2015)上采用分段卷积神经网络,其先使用传统的卷积神经网络对长文本进行特征提取,其次根据两个实体在文本中的位置,将句子划分为三段,并在每一段上进行最大池化,当时用230个不相同的卷积核时,最终可形成690维度的句子向量。基于此,Lin在“Meeting of the Association forComputational Linguistics”(ACL,2016)提出一种句子级别注意力机制,在PCNN基础上,对每个句子进行加权求和,为真实的句子分配较高的权重以突显其重要性,为可能是噪声的句子分配较低的权重以弱化其对分类的影响,该方法有效地通过端到端的方式缓解噪声问题。在多任务方面,Ye在首次在“Meeting of theAssociation forComputational Linguistics”(ACL,2019)将多任务应用到了关系抽取,其定义了关系识别(Relation Identification)和关系分类(Relation Classification)两个任务,并通过多任务缓解NA对分类的影响;
虽然现如今诸多工作能够在远程监督关系抽取上达到较好效果,但他们忽略了部分实体对数据稀疏和非均衡问题,例如大量的无关(NA)标签使得语料出现严重不均匀的长尾分布情况,同时在实际预测过程中,也忽略了实体的语义信息。另外先前工作有基于依存语法树来对句子进行特征提取,但是依存语法树只能够表示句子包含实体在内的各个成分之间的语法和结构关系,在语义层面上有所欠缺,因此急需要寻找一种新的语义表征方法来提升关系抽取的性能。
发明内容
发明的目的是针对现有技术的不足而设计的一种基于多任务多示例的远程监督关系抽取方法,采用多任务和多示例的学习架构,以及Word2vec词向量预训练和多示例的句子级别注意力机制方法,使得远程监督关系抽取达到较好效果,它通过Word2vec进行词向量的预训练,将单词映射到低维度连续的向量空间,语义层面上相近的词往往在向量空间中更加靠近,有利于将先验知识引入到模型中,提升泛化能力,根据每个句子的词向量和位置表征向量组成的矩阵,通过卷积核进行滑动卷积;第二步则是根据句子中的两个实体,将句子划分为三段,并在每一段上应用最大池化,因此每个卷积核都可以获得三个元素组成的向量。通过PCNN可以有效缓解长文本任务上的梯度消失问题,且由于卷积神经网络可并行的优点,进一步降低时间消耗,利用现阶段常用的图卷积网络进行表征,获得句子词法结构以及语义层面上的信息,对句子的原生态表达更加契合,结合多任务和多示例联合训练包括关系识别和关系预测两个任务,基于多示例的句子级别注意力机制,降低噪声对分类的影响,提高真实句子对分类的贡献,方法简便,有效解决了噪声、训练不充分和数据的类不均衡问题,对缓解噪声和NA对分类的影响,具有一定的实用价值。
本发明的目的是这样实现的:一种基于多任务多示例的远程监督关系抽取方法,具特点是采用多任务和多示例的学习架构,以及Word2vec词向量预训练和多示例的句子级别注意力机制方法进行远程监督关系抽取,其具体步骤如下:
步骤1:数据预处理
选取通过远程监督启发式标注的大规模数据集,然后每个句子进行分词,并使用Word2vec模型对词向量进行预训练,根据实体相对位置获得每个词的位置表征信息,其次根据相同实体对对齐的句子组合为包,最终每个包可以得到一个三维度的张量。
步骤2:输入表征
远程监督语料中大多数句子为长文本,为了能够有效地处理长文本,并能够体现句子中实体的相对位置,使用分段卷积神经网络(PCNN模型),并将实体相对位置表征与词向量拼接起来作为PCNN模型的输入。每个句子通过PCNN模型表征后将会形成一个向量,通过注意力机制对包内句子进行加权求和,最终形成包的表征向量。
步骤3:抽象语义表示
利用现有工具,对句子提取出抽象语义表示(Abstract MeaningRepresentation,AMR),AMR是一个单根有向无环图结构,其相比传统的依存句法树更能够提取出语义层面上句子各个成分之间的关系,基于AMR,使用图卷积网络(GCN)进行预训练,并生成整个图的表征向量。
步骤4:实体类型表征
实体类型对关系抽取具有一定的约束作用,两个实体的类型配对则可以作为一种额外信息用于辅助增强关系抽取,使用注意力机制对所有可能的实体类型对进行表征,从而获得相应的实体类型表征向量。
步骤5:多任务多示例关系抽取
主要包括关系识别(RI)和关系预测(RP)两个任务,该步骤则采用软共享的多任务学习架构,输入部分为参数共享的PCNN,对相同的句子进行表征;对于两个任务主线,分别将上述的三个表征向量按照不同权重进行拼接,最后通过参数不共享的注意力机制,分别对包进行表征,并进行相应的分类。
所述数据预处理过程中,对于远程监督启发式标注的数据集的获取,可以是常用的公开数据集New York Times(NYT)以及Google-IISc Distant Supervision(GIDS);对每个数据集,由于均为英文语料,因此可以分别对每个句子根据空格进行分词形成token,并过滤掉停用词,然后使用Word2vec进行预训练,得到每个词的预训练词向量。在预训练时,选择n-gram模型的CBOW方法,即根据中心词预测周围的词。另外,定义位置表征,为每个token添加其与两个实体的相对位置信息,每个数据集均提供了每个句子对应的实体对,因此可以将相同的实体对对齐的句子组合为包。
所述输入表征过程中,将每个句子的分词后的token对应的词向量和位置表征向量拼接起来输入的分段卷积网络(PCNN模型)中,最终每个句子将形成相同长度的向量。考虑到有些句子可能是噪声,因此采用句子级别注意力机制对包内句子进行加权求和,形成最终的包表征。
所述抽象语义表征过程中,首先使用开源的AMR工具对每个句子构建抽象语义表示图,其次对所有句子构建的图作为输入,使用图卷积神经网络进行预训练,获得每个结点(相当于句子中的各个成分)的表征向量,并通过聚集函数获得每个图的最终表征,该表征作为本方法的输入,且在后期不进行微调。
所述实体类型表征过程中,对每个实体列出其所有可能的类型,针对每个实体对形成实体对类型表,并使用实体类型注意力机制提取实体对类型信息。
所述多任务多示例关系抽取过程中,分别对两个任务使用参数不共享的注意力机制,分别对包内每个句子的三个拼接起来的表征信息(句子表征、AMR表征以及实体类型表)进行加权求和,获得包级别的表征后,在每个任务中进行分类。其中,关系识别(RI)为基于交叉信息熵的二分类任务;关系预测(RP)为基于排序损失函数的多类分类任务。
所述使用Word2vec进行预训练可以将单词映射到低维度连续的向量空间,语义层面上相近的词往往在向量空间中更加靠近,有利于将先验知识引入到模型中,具有良好的扩展能力,提升泛化能力。
所述PCNN模型处理长文本句子的表征为两个步骤,首先根据每个句子的词向量和位置表征向量组成的矩阵,通过卷积核进行滑动卷积;第二步则是根据句子中的两个实体,将句子划分为三段,并在每一段上应用最大池化。因此,每个卷积核都可以获得三个元素组成的向量,通过PCNN可以有效缓解长文本任务上的梯度消失问题,且由于卷积神经网络可并行的优点,进一步降低时间消耗。
所述AMR对句子进行语义表征不仅可以获得句子词法结构方面的信息,也能够获得语义层面上的信息,对句子的原生态表达更加契合。因为AMR是以图的结构表示,本发明利用现阶段常用的图卷积网络进行表征。
本发明与现有技术相比具有下述有益技术效果和显著进步:
1)较好解决了现阶段基于传统有监督学习存在的语料不足、人工标注带来的成本问题,通过远程监督可以获得大规模监督语料。在缓解噪声的问题上,采用多示例学习和基于句子级别注意力的方法。
2)首次将AMR引入到关系抽取任务中,通过AMR,可以进一步挖掘实体对句子描述的语义结构,通过分析各个成分,并使用图卷积神经网络进行表征,最终获得AMR的表征信息。其相比PCNN从顺序层面上的特征提取来说,更加扩充了句子的语义结构。
3)本发明提出一种结合多任务和多示例的学习架构,通过定义两个不同的任务来实现对关系的识别和预测。关系识别可以直接过滤掉不存在关系的实体对,而存在关系的实体对则被进一步进行关系预测,该方法可以避免大量无关标签对分类的影响。
4)降低噪声对分类的影响,提高真实句子对分类的贡献,方法简便,有效解决了噪声、训练不充分和数据的类不均衡问题。
附图说明
图1为本发明框架示意图;
图2为抽象语义表示的示例图。
具体实施方式
本发明通过远程监督启发式方法,将FreeBase知识库与互联网数据进行对齐。例如与New York Times新闻语料进行对齐形成NYT数据集;与谷歌搜索进行对齐形成GIDS数据集。其次,使用PCNN模型对句子进行表征。然后将每个句子使用AMR工具形成抽象语义表示图,并利用GCN进行预训练,并将每个图中的每个实体的表征进行聚集。为了引入实体类型信息,采用实体类型注意力机制对两个实体的所有可能的类进行加权求和。我们得到三个表征向量后,将其按照相应的权值,分别作为关系识别和关系预测两个任务的输入,并分别学习注意力机制学习到包表征向量。对于关系识别任务,采用交叉信息熵损失函数进行二分类;对于关系预测任务,采用排序损失函数进行多类分类任务。
以下结合具体实施例对本发明作进一步的详细描述。
实施例1
参阅附图1,本发明按下述步骤进行远程监督关系抽取:
(一)数据预处理
选取通过远程监督启发式标注的大规模数据集,并将根据相同实体对对齐的句子组合为包,其次对包内每个句子进行分词,并使用Word2vec的CBOW模型对词向量进行预训练,每个句子都将对应一个词向量组成的矩阵。
1)Word2vec词向量
由于数据集以英文为准,由于英文天然的空格分词特性,因此每个单词作为一个token。其次,使用Word2vec中的CBOW模型预训练词向量。具体的讲,Word2vec是基于词袋模型的预训练方法,根据一个句子,选择合适大小的窗口,在每个窗口内,CBOW模型是根据窗口中心的词来预测其他未知的词,预测过程中则选择hierarchicalsoftmax方法获得预测的词。最终提取的是神经网络中的权重矩阵,其中矩阵的行表示输入的词,矩阵的列表示词性量的维度大小。例如给定一个已经预训练后句子记做S=[w1,w2,...,wn],其中wi表示第i个单词的预训练词向量。
2)位置表征信息
由于使用卷积神经网络来进行特征提取,因此需要显式地提供实体的结构信息,因此本发明引入实体位置表征信息。假设在句子
Figure BDA0002804464910000061
中,
Figure BDA0002804464910000062
Figure BDA0002804464910000063
分别为两个实体(假设实体作为整个token),因此每个tokenwi相对于两个实体的位置可表示为h-i和t-i。因此从位置表征矩阵中对应的行向量取出即可作为位置表征向量,两个位置表征向量通常直接拼接即可。
3)包划分
根据相同实体对对齐的句子,将其组合为包单位。最终形成B={(B1,r1),(B2,r2),...,(BN,rN)},其中
Figure BDA0002804464910000064
称之为包(Bag)。
(二)输入表征
远程监督语料中大多数句子为长文本,为了能够有效地处理长文本,并能够体现句子中实体的相对位置,使用分段卷积神经网络(PCNN模型),并将实体相对位置表征与词向量拼接起来作为PCNN模型的输入。每个句子通过PCNN模型表征后将会形成一个向量,通过注意力机制对包内句子进行加权求和,最终形成包的表征向量。卷积神经网络主要包括两个主要层,一个是卷积层,一个是池化层。对于卷积层在分段卷积神经网络中,定义K个大小为l×d卷积核C,其中l表示卷积核覆盖的词的个数,d表示词向量与位置表征向量的维度和。因此,对于每个卷积核,均可以得到一个卷积后的向量,记做
Figure BDA0002804464910000071
其中n表示句子的长度,卷积层的输出记作L=[L(1),L(2),...,L(K)]。其中
Figure BDA0002804464910000072
对于池化层,根据两个实体,可将句子分为三段,每一段上对卷积层得到的特征进行最大池化,并记作下述a式:
Figure BDA0002804464910000073
其中:p1,p2表示两个实体的位置。
最终PCNN的输出为:c=[c1,c2,...,cK]。
(三)抽象语义表示
参阅附图2,每个句子都可以构建为抽象语义表示图,假设给定一个句子“NorthKorean frozen its nuclear actions in exchange for two nuclear reactors”,其可以转换为对应的抽象语义表示图,不同于传统的依存路径,其可以适当添加一些结点和边以充实句子中不同成分之间的关系。
1)AMR构建方法
AMR可以通过单根有向图来表示一个句子的语义结构,其中每一个结点表示句子中的语义成分,或新增的抽象成分(例如“name”是抽象出来的新的结点),边则表示成分之间的关系,这与传统的依存关系树中的边是一样的。现阶段有基于规则的方法生成AMR,且与人工构建的AMR相比可以达到超过90%的准确率。本发明采用对应开源的基于规则的AMR生成工具,即在训练初期事先为每个句子生成AMR图结构。
2)图卷积网络表示
图神经网络是当前深度学习非常热门的技术,相比传统的卷积神经网络和循环神经网络,可以有效地处理拓扑结构的数据,挖掘图中每个结点的拓扑关系。图神经网络的特点在于,每一轮迭代过程中,均从每一个结点作为中心点,向周围进行梯度传播。AMR作为一种图结构,因此可以使用图神经网络。本发明采用目前较为常用的图卷积神经网络,假设给定一个AMR图,首先初始化每一个图结点v的向量,记做
Figure BDA0002804464910000074
其次定义一个度矩阵D,表示该图中的度,是一个对角矩阵,对角线代表对应结点的度。因此有
Figure BDA0002804464910000075
其中:
Figure BDA0002804464910000076
表示邻接矩阵,由此可以通过下述b式进行训练:
Figure BDA0002804464910000081
其中:W(l)表示第l轮迭代的参数,
Figure BDA0002804464910000082
为sigmoid函数。
在迭代的最后一轮之后,将所有结点的向量取均值作为整个图的嵌入表示,并记作下述c式:
Figure BDA0002804464910000083
其中:Nv表示该图结点数量;L为迭代层数。
(四)实体类型表征
实体类型对关系抽取具有一定的约束作用,两个实体的类型配对则可以作为一种额外信息用于辅助增强关系抽取,因此使用注意力机制对所有可能的实体类型对进行表征,从而获得相应的实体类型表征。
1)实体对类型表
首先根据整个数据集,列出所有可能的实体类型种类,并保存在实体表ET中,种类数记为ntype,定义每个实体类型的表征维度dtype。对每个实体,如果该实体拥有某一个类型,则对应的实体类标记为1,否则为0,而对于一个实体对,则当且仅当两个实体都同时拥有同一个类型时,其标记为1,否则标记为0,即可根据实体对构建一个实体对类型表T。
2)实体类型注意力机制
实体对类型表T的行表示头实体的实体类型记录,列表示尾实体的实体类型记录。定义一个参数共享的注意力机制,其对非0行或列进行加权求和。每一个元素则可以从ET表中提取对应的实体类型表征,因此,对于头实体的实体类型注意力定义为:αhi=softmax(WTETi),尾实体则表示为:αtk=softmax(WTETk),其中:W为可训练的参数,softmax为激活函数。最终可以得到当前句子的实体对约束表征,记做
Figure BDA0002804464910000084
3)句子级别注意力机制
同上述步骤(二),采用句子级别注意力,对每个句子的实体对类型约束信息进行加权求和,得到包对应的实体对约束信息,该约束信息则富含具体的句子语义。
(五)多任务多示例关系抽取
主要包括关系识别(RI)和关系预测(RP)两个任务。该步骤则采用软共享的多任务学习架构,输入部分为参数共享的PCNN,对相同的句子进行表征,其次对于两个任务主线,分别将上述的三个表征向量按照不同权重进行拼接,最后通过参数不共享的注意力机制,分别对包进行表征,并进行相应的分类。
1)表征聚合
由于不同的任务对三个表征信息的关注度有所不同,因此对于每个任务都选择不同的权重进行聚合。如附图1所示,首先将句子表征与AMR表征进行拼接,得到向量
Figure BDA0002804464910000091
其次分别对于两个任务,定义两个权重,分别为α,β,其可由网络自主学习。因此,对于RI任务,可以得到相应的表征向量记做
Figure BDA0002804464910000092
Figure BDA0002804464910000093
采用多示例学习的方法,因此对于一个包,所有句子都可以得到相应的两个表征。
2)关系识别任务(Relation Identification,RI)
关系识别任务主要目标是识别当前实体对是否存在关系,即二分类任务。对于一个包内的所有句子,为每个句子学习一个权重
Figure BDA0002804464910000094
权重可通过模型参数学习得到,最终得到包表征
Figure BDA0002804464910000095
迭代训练过程中:通过上述步骤,对于第j个包,我们可以获得三种表征信息的融合信息
Figure BDA0002804464910000096
并通过前馈神经网络进行分类。本任务采用最大似然估计的原则最大化对数似然函数,即是最小化交叉信息熵,即由下述d式表示:
Figure BDA0002804464910000097
其中:N表示包的个数;M表示类的个数,此处为二分类,因此M=2,μ为正则化参数,对应的是正则化项,用于降低模型参数复杂度,防止过拟合。
3)关系预测任务(Relation Prediction,RP)
关系预测任务主要目标是预测当前实体对具体的关系,不包含对无关(NA)的预测。对于一个包内的所有句子,为每个句子学习一个权重
Figure BDA0002804464910000098
权重可通过模型参数学习得到,最终得到包表征
Figure BDA0002804464910000099
迭代训练过程中:通过上述步骤,对于第j个包,我们可以获得三种表征信息的融合信息
Figure BDA00028044649100000910
并通过前馈神经网络进行分类。因为是多类任务,本发明采用基于排序损失函数作为目标函数。首先定义当前样本属于关系r的得分为sr=σ(xrWsT),其中W为可训练的参数,其损失函数分别由下述e式和f式表示:
Figure BDA00028044649100000911
Figure BDA00028044649100000912
其中:m+和m-分别表示正样本和负样本对应的间距(margin);
Figure BDA00028044649100000913
Figure BDA00028044649100000914
分别代表正样本和负样本对于某一个关系标签的得分,且
Figure BDA00028044649100000915
;为比例系数,用于等比例放缩;
Figure BDA00028044649100000916
Figure BDA00028044649100000917
则分别表示正样本和负样本对应的损失。在对RP任务进行训练时,将正样本和负样本损失进行累加,即
Figure BDA0002804464910000101
M′为预测类的个数。两个任务联合训练,最终的损失为Loss=LRI+LRP
在迭代训练过程中,使用Adam优化方法,学习率设置为0.01,衰减因子为0.9,批处理数量batch_size设置为64,PCNN的核数为230,AMR和实体类型表征向量维度dtype=damr=50,正则化系数μ=1.0,比例系数γ=2,间距m+和m-分别设置2.5和0.5。
本发明结合多任务和多示例联合训练包括关系识别和关系预测两个任务,所述关系识别任务主要目标是对当前的实体对判断是否存在关系,属于一个二分类任务,如果不存在则直接被标记为NA;如果存在,则对实体对进行关系预测任务,其属于多类分类任务。在对包表征时,统一采用基于多示例的句子级别注意力机制方法,主要目标是降低噪声对分类的影响,提高真实句子对分类的贡献。在具体的实验中,本发明采用Word2vec中的CBOW方法进行训练,即在n-gram内,根据中心词来预测周围的词,在诸多任务中,其相比Skip-gram方法要好。对比现有的多任务学习方法,包括“Meeting of the Association forComputational Linguistics”(ACL,2019),本发明首次将AMR应用到关系抽取,并使用最新的图卷积神经网络对AMR进行表征,同时使用多示例学习的句子级别注意力机制来避免噪声带来的影响,并充分挖掘实体对类型信息。实验结果表明本发明优于现有的方法,通过消融实验表明,AMR、实体类型信息的引入均可以对现有的关系抽取方法得到有效的提升,同时结合关系识别和关系预测两个任务可以有效过滤掉不存在关系的实体对,同时避免噪声对分类产生的影响。
以上只是对本发明作进一步的说明,并非用以限制本专利,在不背离本发明构思的精神和范围下的等效实施,均应包含于本专利的权利要求范围之内。

Claims (6)

1.一种基于多任务多示例的远程监督关系抽取方法,其特征在于采用多任务和多示例的学习架构,以及Word2vec词向量预训练和多示例的句子级别注意力机制方法进行远程监督关系抽取,其具体步骤如下:
步骤1:数据预处理
将获取大规模远程监督关系抽取数据集,根据相同实体对对齐的句子组合为包,对包内每个句子进行分词,并使用Word2vec模型对词向量进行预训练,使每个句子都将对应一个词向量组成的矩阵;
步骤2:输入表征
使用分段卷积神经网络,将实体相对位置表征与词向量拼接起来作为PCNN模型的输入,使每个句子通过PCNN模型表征后将会形成一个向量,通过注意力机制对包内句子进行加权求和,最终形成包的表征向量;
步骤3,抽象语义表示
使用图卷积网络对句子提取的抽象语义表示进行预训练,并生成整个图的表征向量;
步骤4:实体类型表征
使用注意力机制对所有可能的实体类型对进行表征,从而获得相应的实体类型表征向量;
步骤5:多任务多示例关系抽取
采用软共享的多任务学习架构,对相同的句子进行表征;对于关系识别和关系预测两个任务主线,分别将上述步骤2~4中得到的三个表征向量按不同权重进行拼接,并通过参数不共享的注意力机制,分别对包进行表征和相应的分类。
2.根据权利要求1所述基于多任务多示例的远程监督关系抽取方法,其特征在于所述数据预处理步骤中,对于远程监督启发式标注的数据集的获取,可以是常用的公开数据集New York Times(NYT)以及Google-IISc Distant Supervision(GIDS),对每个数据集,分别对每个句子进行分词形成token,并过滤停用词,然后使用Word2vec进行预训练,得到每个词的预训练词向量,所述每个数据集均提供了每个句子对应的实体对,并将相同的实体对对齐的句子组合为包。
3.根据权利要求1所述基于多任务多示例的远程监督关系抽取方法,其特征在于所述输入表征步骤中,将每个句子的分词后的token对应的词向量和位置表征向量拼接起来输入的分段卷积网络中,最终每个句子将形成相同长度的向量,并采用句子级别注意力机制对包内句子进行加权求和,形成最终的包表征。
4.根据权利要求1所述基于多任务多示例的远程监督关系抽取方法,其特征在于所述抽象语义表征步骤中,使用开源的AMR工具对每个句子构建抽象语义表示图,并对所有句子构建的图作为输入,使用图卷积神经网络进行预训练,将获得的每个结点的表征向量通过聚集函数得到每个图的最终表征。
5.根据权利要求1所述基于多任务多示例的远程监督关系抽取方法,其特征在于所述实体类型表征步骤中,对每个实体列出其所有可能的类型,针对每个实体对形成实体对类型表,并使用实体类型注意力机制提取实体对类型信息。
6.根据权利要求1所述基于多任务多示例的远程监督关系抽取方法,其特征在所述多任务多示例关系抽取步骤中,分别对关系识别和关系预测两个任务使用参数不共享的注意力机制,并对包内每个句子的句子表征、AMR表征和实体类型表拼接起来的表征信息进行加权求和,获得包级别的表征后,在每个任务中进行分类,所述关系识别为基于交叉信息熵的二分类任务;所述关系预测为基于排序损失函数的多类分类任务。
CN202011362711.5A 2020-11-27 2020-11-27 一种基于多任务多示例的远程监督关系抽取方法 Active CN112395393B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011362711.5A CN112395393B (zh) 2020-11-27 2020-11-27 一种基于多任务多示例的远程监督关系抽取方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011362711.5A CN112395393B (zh) 2020-11-27 2020-11-27 一种基于多任务多示例的远程监督关系抽取方法

Publications (2)

Publication Number Publication Date
CN112395393A true CN112395393A (zh) 2021-02-23
CN112395393B CN112395393B (zh) 2022-09-30

Family

ID=74604692

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011362711.5A Active CN112395393B (zh) 2020-11-27 2020-11-27 一种基于多任务多示例的远程监督关系抽取方法

Country Status (1)

Country Link
CN (1) CN112395393B (zh)

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112860903A (zh) * 2021-04-06 2021-05-28 哈尔滨工业大学 一种融入约束信息的远程监督关系抽取方法
CN113111184A (zh) * 2021-04-27 2021-07-13 清华大学深圳国际研究生院 基于显式事件结构知识增强的事件检测方法及终端设备
CN113268561A (zh) * 2021-04-25 2021-08-17 中国科学技术大学 一种基于多任务联合训练的问题生成方法
CN113516182A (zh) * 2021-07-02 2021-10-19 文思海辉元辉科技(大连)有限公司 视觉问答模型训练、视觉问答方法和装置
CN113609868A (zh) * 2021-09-01 2021-11-05 首都医科大学宣武医院 一种多任务问答驱动的医疗实体关系抽取方法
CN113641819A (zh) * 2021-08-10 2021-11-12 福州大学 基于多任务稀疏共享学习的论辩挖掘系统及方法
CN115756788A (zh) * 2022-11-18 2023-03-07 北京华如科技股份有限公司 一种多任务并行执行关系设置方法及装置

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109992629A (zh) * 2019-02-28 2019-07-09 中国科学院计算技术研究所 一种融合实体类型约束的神经网络关系抽取方法及系统
CN110472235A (zh) * 2019-07-22 2019-11-19 北京航天云路有限公司 一种面向中文文本的端到端实体关系联合抽取方法
US20200159863A1 (en) * 2018-11-20 2020-05-21 Sap Se Memory networks for fine-grain opinion mining
CN111241279A (zh) * 2020-01-07 2020-06-05 华东师范大学 一种基于多任务学习机制的自然语言关系抽取方法
CN111695392A (zh) * 2019-03-15 2020-09-22 北京嘉楠捷思信息技术有限公司 基于级联的深层卷积神经网络的人脸识别方法及系统
CN111859912A (zh) * 2020-07-28 2020-10-30 广西师范大学 基于pcnn模型的带有实体感知的远程监督关系抽取方法
CN111950298A (zh) * 2020-08-31 2020-11-17 苏州思必驰信息科技有限公司 Bert模型的优化方法及系统

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20200159863A1 (en) * 2018-11-20 2020-05-21 Sap Se Memory networks for fine-grain opinion mining
CN109992629A (zh) * 2019-02-28 2019-07-09 中国科学院计算技术研究所 一种融合实体类型约束的神经网络关系抽取方法及系统
CN111695392A (zh) * 2019-03-15 2020-09-22 北京嘉楠捷思信息技术有限公司 基于级联的深层卷积神经网络的人脸识别方法及系统
CN110472235A (zh) * 2019-07-22 2019-11-19 北京航天云路有限公司 一种面向中文文本的端到端实体关系联合抽取方法
CN111241279A (zh) * 2020-01-07 2020-06-05 华东师范大学 一种基于多任务学习机制的自然语言关系抽取方法
CN111859912A (zh) * 2020-07-28 2020-10-30 广西师范大学 基于pcnn模型的带有实体感知的远程监督关系抽取方法
CN111950298A (zh) * 2020-08-31 2020-11-17 苏州思必驰信息科技有限公司 Bert模型的优化方法及系统

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
TONG HE 等: "Text-Attentional Convolutional Neural Network", 《IEEE TRANSACTIONS ON IMAGE PROCESSING》 *
王嘉宁 等: "基于远程监督的关系抽取技术", 《华东师范大学学报(自然科学版)》 *

Cited By (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112860903A (zh) * 2021-04-06 2021-05-28 哈尔滨工业大学 一种融入约束信息的远程监督关系抽取方法
CN112860903B (zh) * 2021-04-06 2022-02-22 哈尔滨工业大学 一种融入约束信息的远程监督关系抽取方法
CN113268561A (zh) * 2021-04-25 2021-08-17 中国科学技术大学 一种基于多任务联合训练的问题生成方法
CN113268561B (zh) * 2021-04-25 2021-12-14 中国科学技术大学 一种基于多任务联合训练的问题生成方法
CN113111184A (zh) * 2021-04-27 2021-07-13 清华大学深圳国际研究生院 基于显式事件结构知识增强的事件检测方法及终端设备
CN113516182A (zh) * 2021-07-02 2021-10-19 文思海辉元辉科技(大连)有限公司 视觉问答模型训练、视觉问答方法和装置
CN113516182B (zh) * 2021-07-02 2024-04-23 文思海辉元辉科技(大连)有限公司 视觉问答模型训练、视觉问答方法和装置
CN113641819A (zh) * 2021-08-10 2021-11-12 福州大学 基于多任务稀疏共享学习的论辩挖掘系统及方法
CN113641819B (zh) * 2021-08-10 2023-08-22 福州大学 基于多任务稀疏共享学习的论辩挖掘系统及方法
CN113609868A (zh) * 2021-09-01 2021-11-05 首都医科大学宣武医院 一种多任务问答驱动的医疗实体关系抽取方法
CN115756788A (zh) * 2022-11-18 2023-03-07 北京华如科技股份有限公司 一种多任务并行执行关系设置方法及装置

Also Published As

Publication number Publication date
CN112395393B (zh) 2022-09-30

Similar Documents

Publication Publication Date Title
CN112395393B (zh) 一种基于多任务多示例的远程监督关系抽取方法
CN113011533B (zh) 文本分类方法、装置、计算机设备和存储介质
CN109992783B (zh) 中文词向量建模方法
CN107133213B (zh) 一种基于算法的文本摘要自动提取方法与系统
CN111738003B (zh) 命名实体识别模型训练方法、命名实体识别方法和介质
Le et al. The forest convolutional network: Compositional distributional semantics with a neural chart and without binarization
CN115952292B (zh) 多标签分类方法、装置及计算机可读介质
Ren et al. Detecting the scope of negation and speculation in biomedical texts by using recursive neural network
CN116521882A (zh) 基于知识图谱的领域长文本分类方法及系统
CN116467443A (zh) 基于主题识别的网络舆情文本分类方法
CN112463982B (zh) 一种基于显隐式实体约束的关系抽取方法
CN114881043A (zh) 基于深度学习模型的法律文书语义相似度评估方法及系统
CN115146062A (zh) 融合专家推荐与文本聚类的智能事件分析方法和系统
Chen et al. Learning a general clause-to-clause relationships for enhancing emotion-cause pair extraction
CN112231476B (zh) 一种改进的图神经网络科技文献大数据分类方法
CN113065350A (zh) 一种基于注意力神经网络的生物医学文本词义消岐方法
Ludwig et al. Deep embedding for spatial role labeling
CN113688621A (zh) 一种长短不一的文本在不同粒度下的文本匹配方法及装置
Li et al. Text sentiment analysis based on glove model and united network
CN116680407A (zh) 一种知识图谱的构建方法及装置
CN115758244A (zh) 一种基于sbert的中文专利ipc分类方法
CN113821571B (zh) 基于bert和改进pcnn的食品安全关系抽取方法
CN115600595A (zh) 一种实体关系抽取方法、系统、设备及可读存储介质
Kim et al. CNN based sentence classification with semantic features using word clustering
CN114996455A (zh) 一种基于双知识图谱的新闻标题短文本分类方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant