CN112507699B - 一种基于图卷积网络的远程监督关系抽取方法 - Google Patents

一种基于图卷积网络的远程监督关系抽取方法 Download PDF

Info

Publication number
CN112507699B
CN112507699B CN202010972885.7A CN202010972885A CN112507699B CN 112507699 B CN112507699 B CN 112507699B CN 202010972885 A CN202010972885 A CN 202010972885A CN 112507699 B CN112507699 B CN 112507699B
Authority
CN
China
Prior art keywords
entity
entities
text
information
node
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010972885.7A
Other languages
English (en)
Other versions
CN112507699A (zh
Inventor
申时荣
漆桂林
段尚甫
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Southeast University
Original Assignee
Southeast University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Southeast University filed Critical Southeast University
Priority to CN202010972885.7A priority Critical patent/CN112507699B/zh
Publication of CN112507699A publication Critical patent/CN112507699A/zh
Application granted granted Critical
Publication of CN112507699B publication Critical patent/CN112507699B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • G06F16/367Ontology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/211Syntactic parsing, e.g. based on context-free grammar [CFG] or unification grammars
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/049Temporal neural networks, e.g. delay elements, oscillating neurons or pulsed inputs
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • General Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Data Mining & Analysis (AREA)
  • Biomedical Technology (AREA)
  • Computing Systems (AREA)
  • Molecular Biology (AREA)
  • Evolutionary Computation (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Biophysics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Animal Behavior & Ethology (AREA)
  • Databases & Information Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Machine Translation (AREA)

Abstract

本专利公开了一种远程监督关系抽取方法,主要用于解决远程监督关系抽取中信息不充分和监督信息存在噪声的问题。本专利构建了引入多源额外信息的异构图,并以图卷积网络的方式进行建模。本专利首先对所有的信息进行编码,包括待抽取的文本、知识图谱中的实体信息、启发式的文本路径等。然后,本专利把每种信息构建成一个节点,将信息之间的关联性表示为边。接着,通过图卷积网络对所有节点进行特征抽取,然后通过注意力机制对噪声信息进行过滤。最后,通过监督学习的方式对整个框架中的参数进行更新,最后学习到一种灵活性高、表达能力强的关系抽取模型。

Description

一种基于图卷积网络的远程监督关系抽取方法
技术领域
本发明涉及一种基于图卷积网络的远程监督关系抽取方法,属于信息抽取技术领域。
背景技术
随着计算机和互联网的快速发展和普及,人类创造的数据量呈现高速增长趋势。在这个信息爆炸的时代,如何快速地分析和处理信息,从文本中抽取出有价值的信息成为了研究的热点和急需解决的问题。为了应对这样的挑战,迫切需要开发出一批自动化的信息处理工具,自动、快速地从海量的信息中提取出有价值的知识。在这样的背景下,信息抽取(Information Extraction,IE)技术成为了学术界和工业界研究的热点内容,信息抽取的目的是从半结构化和非结构化的文本,以及结构化的数据中抽取出特定、有价值的信息,并处理成计算机易于存储与计算的结构化数据,信息抽取包括实体识别(EntityRecognition)、关系抽取(Relation Extraction)和事件抽取(Event Extraction)。
作为信息抽取的重要任务之一,关系抽取旨在从文本中抽取出两个实体之间包含的语义关系,在海量数据处理、知识库的自动构建、自动问答等领域上有着广泛的应用价值;如通过关系抽取技术自动处理大规模Web文本构建的大规模知识库系统,这些系统可以应用于搜索引擎优化,如Google构建了超过16亿事实数据的Knowledge Vault应用于对搜索结果的改善,提高了用户体验效果。同时,关系抽取技术在自然语言领域中的其他任务,如实体链接、自动摘要、情感分析等任务中提供基础设施。
使用已有知识库来自动化生成关系抽取的数据这一思想,最早由Craven andKumlien提出,通过利用一个蛋白质相关的知识库来抽取生物相关的关系。Mintz在前任基础上正式确认了远程监督的假设。根据解决问题角度的不同,我们将远程监督关系抽取的方法分为三个范畴,基于噪声过滤的方法,基于嵌入的方法以及引入额外信息的方法。基于噪声过滤的方法主要解决远程监督固有的问题,即由于知识库监督信息中的噪声问题。基于嵌入的方法主要是构建向量表示来解决关系抽取问题,如深度学习的卷积神经网络利用预先训练好的词的向量表示来对文本进行编码。引入额外信息的方法侧重于探索额外的信息来提升关系抽取,包括引入人工标注的信息,或者实体中包含的额外信息,如实体类别等。值得注意的是,以上三种类型的方式并不互斥,有许多方法通过引入额外信息来过滤噪声。
发明内容
本发明正是针对现有技术中存在的技术问题,提供一种基于图卷积网络的远程监督关系抽取方法,通过引入额外的信息,构建出以实体为中心的图谱,然后利用图卷积网络来挖掘图中节点的高阶特征,最后通过注意力机制来抑制引入信息中的噪声和筛选有用的特征。
本方案公开了一种基于图卷积网络的远程监督关系抽取方法,主要用于远程监督的关系抽取领域。本方案提供了一种监督学习的方法,能够从文本中挖掘出<实体h,关系,实体t>的三元组。对于每一段文本,首先通过实体识别工具找到文本中的实体h和实体t,然后通过将实体对齐到知识图谱中,或者实体h和t在知识图谱中的信息,包括实体的类别、实体的上下文等。同时,对于大量的远程监督的数据集,也可以挖掘每个实体的共现关系,找到多个实体之间的一条路径。通过将上述的信息构建为图,然后通过图卷积网络的框架,获得文本中实体对之间的关系的概率分布。
为了实现上述目的,本发明的技术方案如下:一种基于图卷积网络的远程监督关系抽取方法,具体步骤如下:
步骤1)预处理阶段准备所需要的信息。包括文本信息的处理,实体到知识图谱的链接,上下文的发掘。
步骤2)构建图,并且将图中每个节点编码为统一维度的分布式向量表示。
步骤3)运行图卷积网络,对编码后的信息在同一个空间进行卷积操作,将图中有边相连的信息以卷积的方式进行进一步的抽取。
步骤4)对步骤3)中的信息通过注意力机制的方式进行特征压缩和过滤。将过滤后的特征映射到预先定义好的关系集上,得到该文本的概率分布。
步骤5)运行大量的数据,通过mini-batch梯度下降的方式来训练网络,更新参数。
其中,步骤1)中需要通过不同的方式来获得额外的信息。
1-1)首先对文本中的实体h和实体t,分别获得对应的实体ID,然后在知识图谱中,通过ID对齐到特定的实体,然后获得h和t的所有关联的边和属性。包括实体的类别、实体的描述、所有与该实体相关的三元组。
1-2)然后对文本进行选择。首先遍历所有的数据集,每一条文本都包含两个实体,以及两者之间的关系。对于每一个实体,都找到所有包含该实体的文本。通过这样的方式,找到实体h和实体t在文本中的路径,实体h->实体e->实体t。
1-3)对包含实体对的文本进行分词,词性标注和依存句法分析。在依存句法分析产生的依存句法树中,找到两个实体之间最短的联通路。这个最短联通路上的词和边将作为文本中实体对的最短依存路径。
1-4)预训练词向量模型。预先使用GloVe或者word2vec等方式训练好数据集中的词向量。如果没有预先训练,可以在本专利的方法中与模型参数保持同步训练。但效果而言,预先在大规模预料上训练的词向量能够保存更多的语义和语法信息。
1-5)知识图谱表示学习模型。同词向量模型一致,该模型是保存了所有知识图谱中的实体的向量模型。
1-6)遍历数据集中的所有句子,识别出文本中所有的实体,找到实体对应的实体ID。然后遍历知识图谱的备份(或者通过知识图谱提供的查询API),对训练数据中涉及的实体,以及后续模型的需求,备份这些实体的类别和所有相关的实体。
1-7)遍历数据集中的句子,识别所有的实体,然后通过HashMap<String,Set>结构存储每个实体和在整体数据集中,和该实体出现在同一个句子中的其余实体。然后第二次遍历数据集中的句子,对每个句子的实体h和实体t,分别找到HashMap中两个实体的共现实体集,取交集。这样就得到若干h到t的路径;
步骤2)将相关的额外信息通过边相连,构建图,并且为每个节点编码具有同一纬度的分布式向量表示。其包含以下步骤:
2-1)预训练一个TransE模型来获得知识图谱中所有实体的向量化表示。通过TransE可以得到每个实体的向量化表达。知识图谱可以表示为三元组的集合,每个三元组表示为<实体h,关系r,实体t>。知识表示就是一种将知识图谱中所有实体和关系都映射到同一向量空间中的向量。TransE基于这样一个假设:如果将一个三元组的h,r,t分别表示为向量
Figure BDA0002684746450000031
那么这三者之间近似满足
Figure BDA0002684746450000032
2-2)实体类别表示。实体类别的数量为40。首先随机初始化一个参数矩阵,将输入的实体类别映射到实数的分布式表达上。
2-3)最短依存路径节点表示。对于实体相关的所有文本的最短依存路径,都将加入到整体的图结构中,这部分信息均以实体h作为头部节点,实体e作为尾部节点,之间的节点按照最短依存路径中的顺序依次相连。两个实体中的节点使用预训练词嵌入表示其特征。
2-4)文本路径编码。文本路径同样表示为序列。对于文本s来说,其中有两个实体h和t,通过步骤1-b)可以找到若干条h->e1->e2..->t的路径。路径上任意两个节点(实体)之间,都存在一条文本同时包含两个实体。这样将实体之间的文本表示也作为序列的一部分,同样适用Bi-LSTM进行编码。
2-5)实体上下文编码。实体的上下文主要从每个实体周围的上下文实体来表示该实体。同样是通过步骤1-2)得到所有与该实体出现在一句话中的其余实体,然后用这些实体在知识图谱中的表示的均值来表示实体的上下文信息。
步骤3)通过步骤2)可以获得两个矩阵,分别是输入的特征矩阵X和表示节点之间是否关联的邻接矩阵A。其中,X是输入的所有节点的特征向量表示,维度是N*D,N是节点的数量,D是每个节点的向量表示的维度,A是邻接矩阵,维度N*N。
GCN通过卷积的方式获得每个节点的新的向量输出Z,维度是N*F,F是输出的每个节点的维度。典型是GCN可以表示为公式:
H(l+1)=f(H(l),A)
其中,H(0)是X,H(L)是Z。L是GCN的层数。
在每一层,GCN可以表示为以下函数:
f(H(l),A)=σ(AH(l)Wl)
这个函数可以看做是每个节点与和它有关联的节点进行一个卷积操作,卷积的参数树初始化的。但是直接用邻接函数和输入矩阵相乘,会导致卷积操作的时候忽略自己节点的向量。因此对上述的公式进行改进:
Figure BDA0002684746450000041
其中
Figure BDA0002684746450000042
是原始的邻接矩阵A加上I,而
Figure BDA0002684746450000043
是度矩阵。
步骤4)步骤三的输出是N*F的矩阵Z。可以将Z表示为节点的序列Z={Z0,Z1,...,ZN},每一个节点都是维度为F的向量。然后,根据加权平均的方式将每个节点的向量表示计算,得到最终的向量表示。
Figure BDA0002684746450000044
其中,权重是通过知识图谱中的实体的表示作为监督信息,通过注意力机制来生成的。具体计算公式如下
rh,t=t-h
uj=tanh(rhtZj+b)
Figure BDA0002684746450000045
然后通过一层全连接层映射到输出层,然后通过softmax函数对输出的节点值进行归一化,得到文本对关系的概率分布。
o=Mr
Figure BDA0002684746450000046
步骤5)最后通过mini-batch梯度下降的方式,以最小化函数的方式,更新所有的参数。
lθ(r|h,t;θ)=log(P(r|h,t))
Figure BDA0002684746450000051
相对于现有技术,本发明的优点如下:
1)本专利的方法引入了额外的知识图谱中的实体类别、实体表示、实体上下文以及文本路径等信息,相比于传统的基于表示的方法和基于规则的方法,能够通过参考更多的知识来做出正确的决定,具备更大的搜索空间。
2)相比于同样引入额外信息的方法,本专利的方法通过构建异构图,将各种额外信息图中的节点,并以信息之间的关系作为图中的边。这种基于图的方式非常的灵活,可以针对不同的领域,添加或者删除节点信息,具备非常好的适应性。其次,多种额外信息同时作用,可以避免单一信息覆盖率不足的问题。
3)本专利为所有额外信息定制了合理的初始化方法,在实体和关系嵌入上使用了基于知识图谱的预训练方案,在实体路径上使用了基于LSTM的编码方式,而在文本信息编码上使用了基于双向LSTM的编码方法,这些方法可以将这些额外信息编码为语义空间中的向量,进而适配各种神经网络模型。
4)本专利使用了文本的SDP(最短依存路径)与其他信息一同构成图,创新型的将文本的语义编码和其他附加信息编码整合为统一的图模型。这种做法首先保留了文本的原始语义,并加入了依存句法特征,同时可以在进行文本语义编码的时候借鉴其他信息,这是传统文本编码方式不能做到的。
5)本专利通过在图上使用图卷积网络的方式来对信息进行压缩和筛选,这种方法具备效率高、表达能力强的特点。图卷积网络可以有效挖掘实体与实体之间的关联,能够将推理链这种高阶逻辑表达融入到特征表示中,可以很好的将人类的总结经验利用起来。
6)本专利引入了注意力机制来进行进一步的特这提取以及针对噪声问题进行过滤。预处理阶段引入的各种信息可能存在很多的噪声,比如实体类别识别错误,或者文本路径引入无关的文本等,这些信息对于抽取相关的实体并没有太大的作用,因此我们采用注意力机制的方式,通过知识图谱表示来作为监督信息,对每一个节点信息计算相关性,将低相关性的节点特征赋予较小的权重,将高相关性的节点特征赋予较大的权重,这样加权过后,可以对特征进行进一步的压缩,同时也对噪声进行了过滤。
7)本专利中考虑了不同实体对和不同额外信息对关系抽取任务有不同的贡献度,使用全局注意机制对这些信息进行自动加权。这种方法的好处是避免部分信息带来的语义偏差,让模型自动选择对当前实体对最有利的信息进行关系分类。
附图说明
图1是本专利的整体框架示意图;
图2是本专利中文本路径编码的框架图。
具体实施方式:
以下结合实施例和说明书附图,详细说明本发明的实施过程。
实施例1:本发明是一种基于基于图卷积网络的远程监督关系抽取方法,包括以下几个步骤:
步骤1)预处理阶段主要是准备模型训练所需要的资源,具体包含:
1-1)首先对文本中的实体h和实体t,分别获得对应的实体ID,然后在知识图谱中,通过ID对齐到特定的实体,然后获得h和t的所有关联的边和属性。包括实体的类别、实体的描述、所有与该实体相关的三元组;
1-2)然后对文本进行选择。首先遍历所有的数据集,每一条文本都包含两个实体,以及两者之间的关系。对于每一个实体,都找到所有包含该实体的文本。通过这样的方式,找到实体h和实体t在文本中的路径,实体h->实体e->实体t,
1-3)对包含实体对的文本进行分词,词性标注和依存句法分析。在依存句法分析产生的依存句法树中,找到两个实体之间最短的联通路。这个最短联通路上的词和边将作为文本中实体对的最短依存路径。
1-4)预训练词向量模型。预先使用GloVe或者word2vec等方式训练好数据集中的词向量,如果没有预先训练,可以在本专利的方法中与模型参数保持同步训练。但效果而言,预先在大规模预料上训练的词向量能够保存更多的语义和语法信息,
1-5)知识图谱表示学习模型。同词向量模型一致,该模型是保存了所有知识图谱中的实体的向量模型;
1-6)遍历数据集中的所有句子,识别出文本中所有的实体,找到实体对应的实体ID。然后遍历知识图谱的备份(或者通过知识图谱提供的查询API),对训练数据中涉及的实体,以及后续模型的需求,备份这些实体的类别和所有相关的实体。
1-7)遍历数据集中的句子,识别所有的实体,然后通过HashMap<String,Set>结构存储每个实体和在整体数据集中,和该实体出现在同一个句子中的其余实体。然后第二次遍历数据集中的句子,对每个句子的实体h和实体t,分别找到HashMap中两个实体的共现实体集,取交集。这样就得到若干h到t的路径;
步骤2)准备输入的资源到实数向量的编码。
首先准备实体类别的编码。实体类别是不需要预训练的,只需要在模型训练开始前初始化每个类别到一个向量的映射,然后在训练中保持更新即可。
词节点的向量表示。我们的图结构中,部分节点是文本中的词,为了将离散的词转换为连续语义空间中的向量,我们通过预训练语言模型在无监督语料上训练了词的嵌入,每个词对应一个固定维度的实数向量。这些向量将作为最短依存路径中节点的特征,以及文本路径编码的基础。
文本路径编码。首先,文本路径中的对象是一个独立的句子,于是,我们首先对这些句子对应的文本进行编码,本专利采用Bi-LSTM,输入的序列是文本的单词。在某一个时刻t,Bi-LSTM输出前向和后向的隐状态h。如下公式所示(前向):
Figure BDA0002684746450000071
Figure BDA0002684746450000072
通过前后和后向两次建模,得到综合的输出:
Figure BDA0002684746450000073
我们取Bi-LSTM双向的最后一维特征进行拼接作为文本的整体表示,并采用一个新的Bi-LSTM对文本路径进行建模,此时文本路径的输入序列是路径上的实体表示和对应的文本编码。参考图2,每个实体和实体参与的一条文本拼接作为一个输入的单元,然后通过模型进行特征的传递,最终得到的是路径的编码。
步骤3)图卷积神经网络模型构建。本实施中,输入的节点的数量是固定的。X={X0,X1,...,X7},分别表示的是实体h,实体t,句子s(h,t),路径p(h,t),实体h的类别,实体t的类别,实体h的上下文,实体t的上下文对应的编码向量。然后由于特征之间的关联性是固定的,所以邻接矩阵的形式也是固定的:
Figure BDA0002684746450000074
具体的连接方式是,最短依存路径中的节点按照顺序与h,t进行连接,文本路径p(h,t)分别和h和t相连接。h还和h的类别以及h的上下文连接,t和t的类别以及t的上下文连接。然后初始化参数矩阵W,并且根据A计算度矩阵D。则根据以下公式计算图卷积网络的输出Z。
Figure BDA0002684746450000075
步骤4)注意力机制。Z的维度是N*F,经过注意力机制后Z有N*F的矩阵转变为维度为F的向量,该向量则包含了压缩筛选后的与需要抽取的关系相关的特征。如下公式所示:
Figure BDA0002684746450000081
o=Mr
步骤5)模型的训练以及优化。通过编码层-图卷积网络-注意力机制-输出层这样的结构,我们得到了该文本在所有关系上的得分,或者说,条件概率。
lθ(r|h,t;θ)=log(P(r|h,t))
之后,我们通过mini-batch随机梯度下降的方式来更新模型的参数:
Figure BDA0002684746450000083
传统的梯度下降,每次梯度下降都是对所有的训练数据进行计算平均梯度,这种梯度下降法叫做full-batch梯度下降法。考虑一种情况,当训练数据量在千万级别时,一次迭代需要等待多长时间,会极大的降低训练速度。如果选择介于合适的bath size数据量进行训练,称为mini-batch梯度下降。
随机梯度下降的劣势每次训练的不能保证使用的是同一份数据,所以每一个batch不能保证都下降,整体训练loss变化会有很多噪声,但是整体趋势是下降的,随后会在最优值附近波动,不会收敛。
在训练过程中,我们需要一个指标来标示训练是否收敛。这里我们需要一个数据集,称为验证集,用来在每轮训练结束后观察,当前训练的模型是否已经收敛。由于验证集上的数据没有在训练中出现,所以模型在验证集上的效果可以衡量模型是否收敛。这样可以有效的进行合适的训练,避免训练时间过长导致的模型过拟合。
在训练的过程中,可以选择不同的超参数,比如词向量的维度,实体向量的维度。本实施采用如下的参数设计:词向量维度{50,100,200,300},实体向量的维度{50,100,200,300},学习速率{0.001,0.01,0.02,0.1}。batch的大小B={30,40,50,100,200},同样我们采用dropout=0.5的设置来避免过拟合。
本实施例使用了如下指标进行评估:
Held-out通过自动化地比较预测的关系和知识库中对应的事实来近似的衡量模型的性能。对于一个测试实例,通过比较模型预测得到两个实体之间的关系类别r和两个实体在对应知识库中的真实关系类别r来测试模型的性能。由于知识库中的关系存在部分误差,已经某些关系在知识库中缺失,所以held-out方法只能近似的评估模型的性能。
F1:在这样远程监督关系抽取数据集上,通过使用precision和recall以及f1来测试分类器的性能。precision是指分类器判断为正例的数据中真正属于正例的数据的比例,反应了分类器在判断正例时是否准确。recall是指真实的全部正例数据中分类器判断为正例数据的比例,反应了分类器能够将全部正例数据检索到的能力。f1得分同时兼顾了precision和recall,其计算公式是
Figure BDA0002684746450000091
在测试数据上抽取三元组,并进行相关指标的验证。模型训练完成后可以保存到本地,模型包含所有的参数等。之后再测试数据上进行指标的评测,和其它方法进行比较。或者在真实场景中,使用模型对自然语言文本进行关系抽取,得到若干三元组。
需要说明的是上述实施例,并非用来限定本发明的保护范围,在上述技术方案的基础上所作出的等同变换或替代均落入本发明权利要求所保护的范围。

Claims (6)

1.一种基于图卷积网络的远程监督关系抽取方法,其特征在于,该方法包括以下步骤:
步骤1)预处理阶段,构建异构图谱,用来表示文本中实体等相关的信息,通过文本来链接知识图谱中的额外信息,主要包含如下节点:
a)实体类别信息,实体的类别,包括粗粒度的人物、地点、组织等以及更细粒度的类别信息;
b)知识图谱中的实体表示信息,预先采用TransE的方法获得知识图谱中的所有实体的分布式表示,该节点与a)中的实体类别直接相连;
c)实体相关文本的SDP(shortest dependency path,最短依存路径),通过对包含目标实体的文本进行分词,词性标注和依存句法分析,找到实体之间的最短依存路径,最短依存路径蕴含了文本中实体之间的所有语义信息;
d)关系路径信息,挖掘文本中的关联路径,遍历数据集中每一条文本,对每一个出现的实体e,找到所有和他出现在同一句话中的实体集合context(e),然后对于待抽取文本中出现的两个实体h和t,找到context(h)和context(t)中的交集p,将交集中实体作为中间实体,构建一条包含三个实体的路径;
e)实体上下文信息,对于每个实体e,将context(e)中的实体表示作为e的上下文特征;
步骤2)对图谱中的节点进行编码,对于实体类别信息,先随机初始化向量表达,然后在训练过程中更新参数,对于实体表示和实体上下文信息,通过预先在知识图谱上使用TransE训练好的实体编码信息初始化,对于文本编码和关系路径,使用Bi-LSTM方法对待抽取关系的句子进行建模;
步骤3)图卷积网络(GCN)进行建模,经过预处理和节点编码后,获得两个矩阵,分别是输入的特征矩阵X和表示节点之间是否关联的邻接矩阵A,其中,X是输入的所有节点的特征向量表示,维度是N*D,N是节点的数量,D是每个节点的向量表示的维度,A是邻接矩阵,维度N*N;
GCN通过卷积的方式获得每个节点的新的向量输出Z,维度是N*F,F是输出的每个节点的维度,典型是GCN可以表示为公式:
H(l+1)=f(H(l),A)
其中,H0是X,HL是Z。L是GCN的层数;
在每一层,GCN可以表示为以下函数:
f(H(l),A)=σ(AH(l)Wl);
步骤4)引入注意力机制抑制噪声并且筛选重要特征,经过GCN的输出是一个N*F的矩阵Z,不同的文本上下的N也不同,这一步骤主要通过一个注意力层对不同的节点赋予不同的权重,这一步的目的是避免引入噪声信息,同时也是对信息的筛选,可以将Z表示为节点的序列Z={Z0,Z1,...,ZN},每一个节点都是维度为F的向量,然后,根据加权平均的方式将每个节点的向量表示计算,得到最终的向量表示;
Figure RE-FDA0002915191570000021
步骤5)优化参数,通过上述步骤得到了该文本的分布式表示,然后通过一层全连接层映射到输出层,然后通过softmax函数对输出的节点值进行归一化,得到文本对关系的概率分布;
Figure RE-FDA0002915191570000022
2.根据权利要求1所述的基于图卷积网络的远程监督关系抽取方法,其特征在于,其中,步骤1)中需要通过不同的方式来获得额外的信息:
1-1)首先对文本中的实体h和实体t,分别获得对应的实体ID,然后在知识图谱中,通过ID对齐到特定的实体,然后获得h和t的所有关联的边和属性,包括实体的类别、实体的描述、所有与该实体相关的三元组;
1-2)然后对文本进行选择,首先遍历所有的数据集,每一条文本都包含两个实体,以及两者之间的关系,对于每一个实体,都找到所有包含该实体的文本,通过这样的方式,找到实体h和实体t在文本中的路径,实体h->实体e->实体t;
1-3)对包含实体对的文本进行分词,词性标注和依存句法分析,在依存句法分析产生的依存句法树中,找到两个实体之间最短的联通路,这个最短联通路上的词和边将作为文本中实体对的最短依存路径;
1-4)预训练词向量模型,预先使用GloVe或者word2vec等方式训练好数据集中的词向量,如果没有预先训练,可以在本专利的方法中与模型参数保持同步训练。但效果而言,预先在大规模预料上训练的词向量能够保存更多的语义和语法信息;
1-5)知识图谱表示学习模型,同词向量模型一致,该模型是保存了所有知识图谱中的实体的向量模型;
1-6)遍历数据集中的所有句子,识别出文本中所有的实体,找到实体对应的实体ID;然后遍历知识图谱的备份(或者通过知识图谱提供的查询API),对训练数据中涉及的实体,以及后续模型的需求,备份这些实体的类别和所有相关的实体;
1-7)遍历数据集中的句子,识别所有的实体,然后通过HashMap<String,Set>结构存储每个实体和在整体数据集中,和该实体出现在同一个句子中的其余实体,然后第二次遍历数据集中的句子,对每个句子的实体h和实体t,分别找到HashMap中两个实体的共现实体集,取交集,这样就得到若干h到t的路径。
3.根据权利要求1所述的基于图卷积网络的远程监督关系抽取方法,其特征在于,其中,步骤2)对图谱中的节点进行编码,具体如下:
2-1)预训练一个TransE模型来获得知识图谱中所有实体的向量化表示,通过TransE得到每个实体的向量化表达,知识图谱可以表示为三元组的集合,每个三元组表示为<实体h,关系r,实体t>,知识表示就是一种将知识图谱中所有实体和关系都映射到同一向量空间中的向量,TransE基于这样一个假设:如果将一个三元组的h,r,t分别表示为向量
Figure RE-FDA0002915191570000031
Figure RE-FDA0002915191570000032
那么这三者之间近似满足
Figure RE-FDA0002915191570000033
2-2)实体类别表示,实体类别的数量为40,首先随机初始化一个参数矩阵,将输入的实体类别映射到实数的分布式表达上;
2-3)最短依存路径节点表示。对于实体相关的所有文本的最短依存路径,都将加入到整体的图结构中,这部分信息均以实体h作为头部节点,实体e作为尾部节点,之间的节点按照最短依存路径中的顺序依次相连。两个实体中的节点使用预训练词嵌入表示其特征。这可以在确保反应实体之间关系的文本语义可以完整保留。
2-4)文本路径编码,文本路径同样表示为序列,对于文本s来说,其中有两个实体h和t,通过步骤1-2)可以找到若干条h->e1->e2..->t的路径,路径上任意两个节点(实体)之间,都存在一条文本同时包含两个实体,这样将实体之间的文本表示也作为序列的一部分,同样适用Bi-LSTM进行编码;
2-5)实体上下文编码。实体的上下文主要从每个实体周围的上下文实体来表示该实体,同样是通过步骤1-2)得到所有与该实体出现在一句话中的其余实体,然后用这些实体在知识图谱中的表示的均值来表示实体的上下文信息。
4.根据权利要求1所述的基于图卷积网络的远程监督关系抽取方法,其特征在于,步骤3)图卷积网络(GCN)进行建模,具体如下:
通过步骤2)获得两个矩阵,分别是输入的特征矩阵X和表示节点之间是否关联的邻接矩阵A,其中,X是输入的所有节点的特征向量表示,维度是N*D,N是节点的数量,D是每个节点的向量表示的维度,A是邻接矩阵,维度N*N;
GCN通过卷积的方式获得每个节点的新的向量输出Z,维度是N*F,F是输出的每个节点的维度,典型是GCN可以表示为公式:
H(l+1)=f(H(l),A)
其中,H(0)是X,H(L)是Z,L是GCN的层数;
在每一层,GCN可以表示为以下函数:
f(H(l),A)=σ(AH(l)Wl)
这个函数可以看做是每个节点与和它有关联的节点进行一个卷积操作,卷积的参数树初始化的,但是直接用邻接函数和输入矩阵相乘,会导致卷积操作的时候忽略自己节点的向量,因此对上述的公式进行改进:
Figure RE-FDA0002915191570000041
其中
Figure RE-FDA0002915191570000042
是原始的邻接矩阵A加上I,而
Figure RE-FDA0002915191570000043
是度矩阵。
5.根据权利要求1所述的基于图卷积网络的远程监督关系抽取方法,其特征在于,步骤4)具体如下:步骤三的输出是N*F的矩阵Z,将Z表示为节点的序列Z={Z0,Z1,...,ZN},每一个节点都是维度为F的向量,然后,根据加权平均的方式将每个节点的向量表示计算,得到最终的向量表示;
Figure RE-FDA0002915191570000044
其中,权重是通过知识图谱中的实体的表示作为监督信息,通过注意力机制来生成的,具体计算公式如下
rh,t=t-h
uj=tanh(rhtZj+b)
Figure RE-FDA0002915191570000045
然后通过一层全连接层映射到输出层,然后通过softmax函数对输出的节点值进行归一化,得到文本对关系的概率分布;
o=Mr;
Figure RE-FDA0002915191570000046
6.根据权利要求1所述的基于图卷积网络的远程监督关系抽取方法,其特征在于,所述步骤5)优化参数具体如下:
步骤5)最后通过mini-batch梯度下降的方式,以最小化函数的方式,更新所有的参数;
Figure RE-FDA0002915191570000051
Figure RE-FDA0002915191570000052
CN202010972885.7A 2020-09-16 2020-09-16 一种基于图卷积网络的远程监督关系抽取方法 Active CN112507699B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010972885.7A CN112507699B (zh) 2020-09-16 2020-09-16 一种基于图卷积网络的远程监督关系抽取方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010972885.7A CN112507699B (zh) 2020-09-16 2020-09-16 一种基于图卷积网络的远程监督关系抽取方法

Publications (2)

Publication Number Publication Date
CN112507699A CN112507699A (zh) 2021-03-16
CN112507699B true CN112507699B (zh) 2022-11-18

Family

ID=74953487

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010972885.7A Active CN112507699B (zh) 2020-09-16 2020-09-16 一种基于图卷积网络的远程监督关系抽取方法

Country Status (1)

Country Link
CN (1) CN112507699B (zh)

Families Citing this family (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112988917B (zh) * 2021-03-31 2022-11-18 东南大学 一种基于多种实体上下文的实体对齐方法
CN113157859B (zh) * 2021-04-06 2023-04-18 北京理工大学 一种基于上位概念信息的事件检测方法
CN112860903B (zh) * 2021-04-06 2022-02-22 哈尔滨工业大学 一种融入约束信息的远程监督关系抽取方法
CN113536795B (zh) * 2021-07-05 2022-02-15 杭州远传新业科技有限公司 实体关系抽取的方法、系统、电子装置和存储介质
CN113641830B (zh) * 2021-07-19 2024-03-29 北京百度网讯科技有限公司 模型预训练方法、装置、电子设备和存储介质
CN113590799B (zh) * 2021-08-16 2022-11-18 东南大学 一种基于多视角推理的弱监督知识图谱问答方法
CN114021584B (zh) * 2021-10-25 2024-05-10 大连理工大学 基于图卷积网络和翻译模型的知识表示学习方法
CN113761893B (zh) * 2021-11-11 2022-02-11 深圳航天科创实业有限公司 一种基于模式预训练的关系抽取方法
CN114091450B (zh) * 2021-11-19 2022-11-18 南京通达海科技股份有限公司 一种基于图卷积网络的司法领域关系抽取方法和系统
CN117556363B (zh) * 2024-01-11 2024-04-09 中电科大数据研究院有限公司 基于多源数据联合检测的数据集异常识别方法

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110019839B (zh) * 2018-01-03 2021-11-05 中国科学院计算技术研究所 基于神经网络和远程监督的医学知识图谱构建方法和系统
CN110826303A (zh) * 2019-11-12 2020-02-21 中国石油大学(华东) 一种基于弱监督学习的联合信息抽取方法
CN111078895B (zh) * 2019-12-18 2023-04-18 江南大学 基于去噪卷积神经网络的远程监督实体关系抽取方法

Also Published As

Publication number Publication date
CN112507699A (zh) 2021-03-16

Similar Documents

Publication Publication Date Title
CN112507699B (zh) 一种基于图卷积网络的远程监督关系抽取方法
US11341330B1 (en) Applied artificial intelligence technology for adaptive natural language understanding with term discovery
CN110083705B (zh) 一种用于目标情感分类的多跳注意力深度模型、方法、存储介质和终端
CN113239186B (zh) 一种基于多依存关系表示机制的图卷积网络关系抽取方法
US20220050967A1 (en) Extracting definitions from documents utilizing definition-labeling-dependent machine learning background
Potash et al. Here's my point: Joint pointer architecture for argument mining
CN111597314B (zh) 推理问答方法、装置以及设备
CN108132927B (zh) 一种融合图结构与节点关联的关键词提取方法
CN111143576A (zh) 一种面向事件的动态知识图谱构建方法和装置
CN112579477A (zh) 一种缺陷检测方法、装置以及存储介质
CN108874878A (zh) 一种知识图谱的构建系统及方法
CN109918505B (zh) 一种基于文本处理的网络安全事件可视化方法
CN109325231A (zh) 一种多任务模型生成词向量的方法
CN113761893B (zh) 一种基于模式预训练的关系抽取方法
CN109857457B (zh) 一种在双曲空间中学习源代码中的函数层次嵌入表示方法
US12019982B2 (en) Event understanding with deep learning
CN105740227A (zh) 一种求解中文分词中新词的遗传模拟退火方法
CN111368529B (zh) 基于边缘计算的移动终端敏感词识别方法、装置及系统
CN115952292B (zh) 多标签分类方法、装置及计算机可读介质
CN112765961A (zh) 一种基于实体图神经网络推理的事实验证方法及其系统
US20230014904A1 (en) Searchable data structure for electronic documents
CN114265935A (zh) 一种基于文本挖掘的科技项目立项管理辅助决策方法及系统
CN114692605A (zh) 一种融合句法结构信息的关键词生成方法及装置
CN116108191A (zh) 一种基于知识图谱的深度学习模型推荐方法
Jeyakarthic et al. Optimal bidirectional long short term memory based sentiment analysis with sarcasm detection and classification on twitter data

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant