CN113239186B - 一种基于多依存关系表示机制的图卷积网络关系抽取方法 - Google Patents

一种基于多依存关系表示机制的图卷积网络关系抽取方法 Download PDF

Info

Publication number
CN113239186B
CN113239186B CN202110218087.XA CN202110218087A CN113239186B CN 113239186 B CN113239186 B CN 113239186B CN 202110218087 A CN202110218087 A CN 202110218087A CN 113239186 B CN113239186 B CN 113239186B
Authority
CN
China
Prior art keywords
adjacency matrix
dependency
relationship
sentence
matrix
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110218087.XA
Other languages
English (en)
Other versions
CN113239186A (zh
Inventor
沈红
刘欣
刘午凌
罗晋
彭晨
闵飞
乔雪
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Suzhou Research Institute Institute Of Electronics Chinese Academy Of Sciences
Original Assignee
Suzhou Research Institute Institute Of Electronics Chinese Academy Of Sciences
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Suzhou Research Institute Institute Of Electronics Chinese Academy Of Sciences filed Critical Suzhou Research Institute Institute Of Electronics Chinese Academy Of Sciences
Priority to CN202110218087.XA priority Critical patent/CN113239186B/zh
Publication of CN113239186A publication Critical patent/CN113239186A/zh
Application granted granted Critical
Publication of CN113239186B publication Critical patent/CN113239186B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • G06F16/355Class or cluster creation or modification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/211Syntactic parsing, e.g. based on context-free grammar [CFG] or unification grammars
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • G06F40/295Named entity recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Biomedical Technology (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Evolutionary Computation (AREA)
  • Biophysics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Databases & Information Systems (AREA)
  • Machine Translation (AREA)

Abstract

本发明提出了一种基于多依存关系表示机制的图卷积网络关系抽取方法,对采集到的非结构化文本开展预处理,包括分句、分词、词性标注、实体类型标注、关系类型标注,生成每个分词的语义嵌入向量,对句子进行依存关系分析,生成依存关系树;基于双向长短期记忆循环神经网络捕捉句子的上下文语义特征;根据依存关系树生成全邻接矩阵、集中邻接矩阵和距离权重邻接矩阵,结合句子的上下文语义特征,对邻接矩阵、集中邻接矩阵和距离权重邻接矩阵进行卷积运算,再对卷积运算后的结果进行最大池化处理,获得句子表示向量;基于前馈神经网络获取实体关系特征信息,进行实体关系分类。本发明能够更好地辅助关系抽取,提升了识别精度。

Description

一种基于多依存关系表示机制的图卷积网络关系抽取方法
技术领域
本发明涉及自然语言处理领域,具体涉及一种基于多依存关系表示机制的图卷积网络关系抽取方法。
背景技术
大数据时代,互联网信息激增,如何有效地从海量非结构化文本中挖掘出高质量、结构化的知识信息,是自然语言处理技术研究的难点。关系抽取是信息抽取的一项重要环节,其目的是对文本中的实体进行语义关系分类。关系分类分为有监督分类法、无监督分类法、半监督分类法以及开放域分类法。目前,基于深度神经网络的有监督式抽取方式是关系抽取的主流。
深度神经网络可习得文本的语义特征。近年来,由于图卷积网络(GraphConvolutional Network,GCN)在表征句子结构及语义依存关系方面的强大优势,被广泛应用于关系抽取、文本分类、情感分类。并且,其并行式的运算框架,使模型在运算效率上得到大幅提升。关系抽取中,句子通常含有指示实体关系的特征词,如“马云创建阿里巴巴”中的“创建”。通过句法分析构建句子依存关系树(图),并通过一定方式筛选出依存关系树(图)上的关系指示词,可帮助关系抽取模型提升分类效果。因此,有些学者通过抽取最短依存路径上节点作为关系关键词辅助关系抽取;有些则将最短依存路径上的节点信息扩展到其所连接的子树;还有则是通过设定依存关系树的层数来控制输入节点数量。以上方法都是基于预定义的依存路径方式来获取表征实体关系的关键词,它潜在假设关系关键词一定会在预先设定的依存路径上出现,但由于语言的多样性以及句式结构的复杂性,使得这种预定义的筛选方式适用性不强,导致模型容易忽略掉分散在句子某处的重要关系指示词,限制了关系模型的识别精度和识别范围。
发明内容
本发明的目的在于提出了一种基于多依存关系表示机制的图卷积网络关系抽取方法,以解决现有基于图卷积网络的关系抽取模型需依赖预定义方式抽取关系关键词,导致模型的句式兼容性差、筛选方式不灵活、容易忽略分散于句子非主干路径上的关系指示词的问题。
实现本发明目的的技术解决方案为:一种基于多依存关系表示机制的图卷积网络关系抽取方法,包括如下步骤:
步骤1,对采集到的非结构化文本开展预处理,包括分句、分词、词性标注、实体类型标注、关系类型标注,生成每个分词的语义嵌入向量,对句子进行依存关系分析,生成依存关系树;
步骤2,基于双向长短期记忆循环神经网络捕捉句子的上下文语义特征;
步骤3,根据依存关系树生成全邻接矩阵、集中邻接矩阵和距离权重邻接矩阵,结合句子的上下文语义特征,对全邻接矩阵、集中邻接矩阵和距离权重邻接矩阵进行卷积运算,再对卷积运算后的结果进行最大池化处理,获得句子表示向量;
步骤4,基于前馈神经网络获取实体关系特征信息,进行实体关系分类。
进一步的,步骤1中,对采集到的非结构化文本开展预处理,包括分词、词性标注、实体类型标注、关系类型标注,并将这些词转化为计算机可处理的嵌入向量编码,具体方法为:
步骤1.1,首先,以句号为分隔符,对文本开展分句;其次,对句子进行分词、词性分析、依存关系分析;然后,以句子为单位,标注实体对和实体关系类型,形成有标注的句子语料;
步骤1.2,将经过预处理的语句分词映射到语义向量空间中的一个d维子空间,即语义嵌入,具体过程按照以下公式进行:
Figure GDA0003834907150000021
其中,et是嵌入后对应于每个分词的语义嵌入向量,
Figure GDA0003834907150000022
分别为词嵌入向量、实体类别嵌入向量、词性嵌入向量,
Figure GDA0003834907150000023
为向量连接运算,词嵌入向量由语言模型生成的编码库表生成,实体类型嵌入向量和词性嵌入向量则是根据文本预处理中实体识别和词性分析的结果进行编码而得。
进一步的,步骤2中,基于双向长短期记忆循环神经网络捕捉句子的上下文语义特征,具体方法为:
双向长短期记忆循环神经网络分别由一个正向LSTM网络传播层和一个反向LSTM网络传播层叠加而成,其各自网络的隐藏层状态向量计算如下:
Figure GDA0003834907150000024
Figure GDA0003834907150000025
Figure GDA0003834907150000026
其中,LSTM(·)为长短期记忆单元运算,et是每个分词的语义嵌入向量,
Figure GDA0003834907150000031
Figure GDA0003834907150000032
分别为对应于各分词的正向和反向循环神经网络隐藏层状态向量,ht为对应于各分词在双向长短期记忆循环神经网络中的输出向量,也即句子的上下文语义特征。
进一步的,步骤3中,基于依存关系树生成全邻接矩阵、集中邻接矩阵和距离权重邻接矩阵,结合句子的上下文语义特征,对全邻接矩阵、集中邻接矩阵和距离权重邻接矩阵进行卷积运算,再对卷积运算后的结果进行最大池化处理,获得句子表示向量,具体方法为:
1)依存关系结构的矩阵表示
a)构建全邻接矩阵
全邻接矩阵用于表征依存关系树上所有节点之间的邻接关系,具体地,具有n个节点的图或树的全邻接矩阵定义为n阶方阵A=(aij)n×n,其中:
Figure GDA0003834907150000033
b)构建集中邻接矩阵
将最短依存路径上的节点信息作为反映实体关系的强特征信息,将最短依存路径提供的节点信息用集中邻接矩阵表示,具体地,集中邻接矩阵定义为n阶方阵Ac=(cij)n×n,其中:
Figure GDA0003834907150000034
即在全邻接矩阵中将不属于最短依存路径的边所对应的元素设为0,换句话说,这也等价于将完整的原句依存关系树修剪为仅保留最短依存路径的子树;
c)构建距离权重邻接矩阵
与集中邻接矩阵相反,基于节点间的距离,也就是节点间路径包含边的数量,构造保留更多依存关系结构信息的距离权重矩阵,具体地,距离权重邻接矩阵定义为n阶方阵Aw=(wij)n×n,其中:
Figure GDA0003834907150000035
式中,dij为节点i,j之间的距离,这也等价于将原句依存关系树转换为一个由节点距离决定权中的带权完全图,距离权重邻接矩阵比原本的全邻接矩阵更完整地表示了节点间直接或间接关联关系;
2)图卷积网络运算
图卷积运算GCN(·)定义为:
Figure GDA0003834907150000041
Figure GDA0003834907150000042
为全邻接矩阵A的再标准化形式,σ(·)为激活函数,选用ReLU函数,H(m)为图卷积网络第m层的输出及第m+1层的输入,
Figure GDA0003834907150000043
Figure GDA0003834907150000044
分别为与A对应的图卷积参数矩阵和仿射偏置矩阵;
将步骤2捕获的句子的上下文语义特征作为三个并行图卷积网络的输入,结合上述三种依存关系表示方式,采用图卷积网络按照下列公式进行运算:
Figure GDA0003834907150000045
Figure GDA0003834907150000046
Figure GDA0003834907150000047
式中,h1,…,hs为双向长短期记忆循环神经网络模型输出表示所有分词的状态向量,s为句子中分词的总数,l为图卷积网络总层数,
Figure GDA0003834907150000048
分别为对应于全邻接矩阵、集中邻接矩阵、距离权重邻接矩阵的图卷积子网络最终层输出,H(l)为并行图卷积网络的最终综合输出;
3)最大值池化处理
使用最大池化函数fmax对图卷积网络的最终综合H(l)进行降维处理:
hsent=fmax(h(l)) (12)
式中,hsent均为H(l)经最大值集中化处理后得到的句子表示向量。
进一步的,步骤4中,基于模型获取的实体关系特征信息辅助句子实体关系分类,具体方法为:
将步骤3得到的句子表示向量输入到一个前馈神经网络关系分类器,并用softmax函数获得每种关系分类的预测概率,具体公式如下所示:
hf=FFNN(hsent) (13)
P=softmax(Whf+b) (14)
其中,hf为用于关系分类的语句最终表示,hsent为句子表示向量,W和b是softmax分类层的线性变换矩阵和仿射偏置向量,P是关系分类器最后输出的概率向量。
一种基于多依存关系表示机制的图卷积网络关系抽取系统,基于所述的方法实现基于多依存关系表示机制的图卷积网络关系抽取。
一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述计算机程序时,基于所述的方法实现基于多依存关系表示机制的图卷积网络关系抽取。
一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时,基于所述的方法实现基于多依存关系表示机制的图卷积网络关系抽取。
本发明与现有技术相比,其显著优点为:基于多依存关系表示机制的图卷积网络方法实现句子实体关系的自动分类,能够灵活地结合句子本身语义特征信息开展实体关系的挖掘和预测,既结合了最短依存路径上的重要特征词,又最大限度地兼顾了可能零散分布于最短依存路径之外的关系指示词,从而能够更好地辅助关系抽取,提升识别精度。
附图说明
图1为本发明关系抽取方法的流程示意图;
图2为本发明引入多依存关系表示机制的图卷积网络结构示意图;
图3为本发明实施例生成的依存关系树示意图;
图4为本发明实施例关系抽取的流程示意图。
具体实施方式
为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。
本发明提出一种基于多依存关系表示机制的图卷积网络关系抽取方法,包括以下步骤:
步骤1:对采集的非结构化文本进行预处理
首先,以句号为分隔符,对文本开展分句;其次,对句子进行分词、词性分析、依存关系分析;然后,以句子为单位,标注实体对和实体关系类型,形成有标注的句子语料5000余条。之后,将预处理后的文本语料划分为训练集、验证集和测试集,划分比例分别为65%、20%和15%。
然后,将经过预处理的语句分词映射到语义向量空间中的一个d维子空间,即语义嵌入。具体过程按照以下公式进行:
Figure GDA0003834907150000061
其中,et是嵌入后对应于每个分词的语义嵌入向量,
Figure GDA0003834907150000062
分别为词嵌入向量、实体类别嵌入向量、词性嵌入向量,
Figure GDA0003834907150000063
为向量连接运算。词嵌入向量由语言模型生成的编码库表生成,实体类型嵌入向量和词性嵌入向量则是根据文本预处理中实体识别和词性分析的结果进行编码而得。
步骤2:捕捉句子上下文语义特征
由于循环神经网络对于句子序列特征有很好的捕捉效果,这里将步骤1获得的语义嵌入向量输入至一个双向长短期记忆循环神经网络(Bi-LSTM),用于捕捉句子上下文语义信息。双向长短期记忆循环神经网络分别由一个正向LSTM网络传播层和一个反向LSTM网络传播层叠加而成,其各自网络的隐藏层状态向量计算如下:
Figure GDA0003834907150000064
Figure GDA0003834907150000065
Figure GDA0003834907150000066
其中,LSTM(·)为长短期记忆单元运算,
Figure GDA0003834907150000067
Figure GDA0003834907150000068
分别为对应于各分词的正向和反向循环神经网络隐藏层状态向量,ht为对应于各分词的双向长短期记忆循环神经网络输出向量。
步骤3:构建基于图卷积网络的依存关系传播模型
本发明将步骤2中双向长短期记忆循环神经网络模型输出的分词隐藏状态向量作为三个并行图卷积网络的输入,使用三个网络的输出综合表示原语句,此模型结合依存关系结构对原语句中分词进行编码,是本方法采用模型的前向传播过程的核心部分,因此称作依存关系传播模型。该步骤可进一步分为3个环节:
1)依存关系结构的矩阵表示
根据步骤1的句法分析结果,将句子生成一棵依存关系树:树上的节点表示分词,边表示分词之间的依存关系类型。给定实体对,定义连接依存关系树两实体之间的路径为最短依存路径。最短依存路径上的节点信息可被视为反应实体关系类型的强特征词;最短依存路径以外的节点信息也对关系抽取起到辅助效果。本发明提出了三种表示依存关系树结构及特征的方式,包括:全邻接矩阵、集中邻接矩阵和距离权重邻接矩阵,利用它们不同程度地捕捉依存关系树上能够反映关系类型的特征信息。
a)构建全邻接矩阵
邻接矩阵是图的常见代数表示,可以直接表示图或树的节点间相邻关系。本发明采用输入语句完整依存关系树的全部节点和边所对应的全邻接矩阵作为依存关系结构的基本表示。具有n个节点的图或树的全邻接矩阵可定义为n阶方阵A=(aij)n×n,其中:
Figure GDA0003834907150000071
全邻接矩阵可用于表征依存关系树上所有节点之间的邻接关系。
b)构建集中邻接矩阵
最短依存路径上的节点信息可作为反映实体关系的强特征信息。最短依存路径提供的节点信息可用集中邻接矩阵表示。集中邻接矩阵可定义为n阶方阵Ac=(cij)n×n,其中:
Figure GDA0003834907150000072
即在全邻接矩阵中将不属于最短依存路径的边所对应的元素设为0,换句话说,这也等价于将完整的原句依存关系树修剪为仅保留最短依存路径的子树。
c)构建距离权重邻接矩阵
与集中邻接矩阵相反,基于节点间的距离,也就是节点间路径包含边的数量,可以构造保留更多依存关系结构信息的距离权重矩阵。具体地,距离权重邻接矩阵可定义为n阶方阵Aw=(wij)n×n,其中:
Figure GDA0003834907150000073
式中,dij为节点i,j之间的距离。这也等价于将原句依存关系树转换为一个由节点距离决定权中的带权完全图。距离权重邻接矩阵比原本的全邻接矩阵更完整地表示了节点间直接或间接关联关系。
2)图卷积网络运算
图卷积运算GCN(·)定义为:
Figure GDA0003834907150000074
Figure GDA0003834907150000081
为全邻接矩阵A的再标准化形式,σ(·)为激活函数,选用ReLU函数,h1,…,hs为双向长短期记忆循环神经网络模型输出表示所有分词的状态向量,H(m)为图卷积网络第m层的输出及第m+1层的输入,
Figure GDA0003834907150000082
Figure GDA0003834907150000083
分别为与A对应的第m层图卷积参数矩阵和仿射偏置矩阵。
结合上述三种依存关系表示方式,将步骤2中双向长短期记忆循环神经网络输出的分词隐藏状态向量作为三个并行图卷积网络的输入,采用的图卷积网络按照下列公式进行运算:
Figure GDA0003834907150000084
Figure GDA0003834907150000085
Figure GDA0003834907150000086
式中,l为图卷积网络总层数,
Figure GDA0003834907150000087
分别为对应于全邻接矩阵、集中邻接矩阵、距离权重邻接矩阵的图卷积子网络最终层输出,H(l)为并行图卷积网络的最终综合输出。
3)最大值池化处理
由于使用了三通道并行图卷积网络,致使图卷积网路的最终综合H(l)的维度比原来翻了三倍,本发明使用最大池化函数fmax对其进行降维处理:
hsent=fmax(h(l)) (12)
式中,hsent均为H(l)经最大值集中化处理后得到的句子表示向量。
步骤4:预测关系类型
将依存关系传播层输出的语句综合表示向量输入到一个前馈神经网络关系分类器,并用softmax函数获得每种关系分类的预测概率,具体公式如下所示:
hf=FFNN(hsent) (13)
P=softmax(Whf+b) (14)
其中,hf为用于关系分类的语句最终表示,W和b是softmax分类层的线性变换矩阵和仿射偏置向量,P是关系分类器最后输出的概率向量。
步骤5:训练最优关系抽取模型
将训练集中的语句样本按批次输入步骤1进行预处理,之后依次通过步骤2构建的双向长短期记忆循环神经网络模型、步骤3构建的图卷积网络模型和步骤4构建的关系分类器,最终输出为语句中的二元实体对属于各个实体关系类别的概率向量,在训练集上使用交叉熵损失函数衡量预测概率与真实关系类别的差距,通过随机梯度下降优化器反向传播更新层级神经网络中的参数,每次更新参数后计算验证集上损失函数的值以及准确率、召回率、F1值;重复上述过程,每轮结束后如果验证集F1值下降,就按一定衰减系数减小学习率,在一定训练轮数后保存验证集F1值最高的神经网络模型的参数,即为训练得到的最优关系抽取模型。
本发明还提出一种基于多依存关系表示机制的图卷积网络关系抽取系统,基于所述的方法实现基于多依存关系表示机制的图卷积网络关系抽取。
一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述计算机程序时,基于所述的方法实现基于多依存关系表示机制的图卷积网络关系抽取。
一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时,基于所述的方法实现基于多依存关系表示机制的图卷积网络关系抽取。
实施例
为了验证本发明的有效性,下面结合图3对本发明的步骤进行详细说明。该说明基于已训练得到最优关系抽取模型,利用测试集中的语料开展关系预测。
步骤1:从测试集中选择一条输入例句“There were rumors that Sean Preston’s real name was Christian Michael.”
步骤1.1:对句子进行分词,结果为:
“There/were/rumors/that/Sean/Preston/’s/real/name/was/Christian/Michael”
步骤1.2:对句子分词进行词性标注,结果为:
“RB/VBD/NNS/IN/NNP/NNP/POS/JJ/NN/VBD/JJ/NNP/”
步骤1.3:利用句法分析工具对句子进行依存关系分析,生成依存关系树(见图4)。
步骤1.4:句子的实体对标注为{Sean Preston,Christian Michael},实体类型为“Person”,关系类型为“alternate_names”。
步骤1.5:获得最短依存路径上的节点信息“Sean Preston name ChristianMichael”。
步骤1.6:利用训练好的词向量映射库表,获取句子中所有分词、词性标注以及实体类型标注的语义嵌入向量,分别为
Figure GDA0003834907150000101
将三种嵌入向量根据公式(1)进行拼接,每个分词获得其对应的语义嵌入向量et
步骤2:捕捉句子整体上下文语义特征
步骤2.1:将步骤1.6获得的语义嵌入向量et输入至双向长短期记忆循环神经网络(Bi-LSTM),根据网络的正向传播公式(2)和反向传播公式(3),计算得到正/反向网络隐藏层状态的向量
Figure GDA0003834907150000102
Figure GDA0003834907150000103
步骤2.2:将
Figure GDA0003834907150000104
Figure GDA0003834907150000105
根据公式(4)进行拼接,获得对应于各分词的双向长短期记忆循环神经网络输出向量ht
步骤3:利用基于多依存关系表示机制的图卷积网络关系抽取模型最大限度地捕捉句子所包含的关系特征词。首先,根据句子的依存关系树构建三种表示矩阵:
步骤3.1:根据图4和公式(5)所示,X3与X1、X2及X12存在边连接,设置为1,与剩下的其他节点无边连接,设置为0。同理,可生成全邻接矩阵A,如图3所示。
步骤3.2:根据图4和公式(6)所示,X6与X9在最短依存路径上有边连接,设置为1,而X6与X7、X8在最短依存路径上无边连接,设置为0。同理,可生成完整的集中邻接矩阵Ac,如图3所示。
步骤3.3:根据图4和公式(7)所示,X3与X4相距2条边,d34=d43=2,w34=w43=e-1。同理,可生成完整的距离权重邻接矩阵Aw,如图3所示。
步骤3.4:将步骤3中输出的隐藏状态向量ht以及步骤4.1-4.3生成的三种依存关系矩阵A、Ac和Aw作为三个并行图卷积网络的输入,代入到GCN图卷积网络公式(9-10)进行运算,可获得对应于全邻接矩阵、集中邻接矩阵、距离权重邻接矩阵的图卷积子网络最终层输出
Figure GDA0003834907150000106
将三种输出利用公式(11)进行合并,获得图卷积网络的最终综合输出H(l)
步骤3.5:利用公式(12)对H(l)进行最大值降维处理,获得句子的表示向量hsent
步骤4:预测例句的关系类型
将步骤3.5生成的句子的表示向量hsent带入公式(13)和(14),获得概率向量P,取概率最大值对应的关系类型作为本实施例的关系预测结果——“alternate_names”。
以上实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
以上所述实施例仅表达了本申请的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本申请构思的前提下,还可以做出若干变形和改进,这些都属于本申请的保护范围。因此,本申请专利的保护范围应以所附权利要求为准。

Claims (8)

1.一种基于多依存关系表示机制的图卷积网络关系抽取方法,其特征在于,包括如下步骤:
步骤1,对采集到的非结构化文本开展预处理,包括分句、分词、词性标注、实体类型标注、关系类型标注,生成每个分词的语义嵌入向量,对句子进行依存关系分析,生成依存关系树;
步骤2,基于双向长短期记忆循环神经网络捕捉句子的上下文语义特征;
步骤3,根据依存关系树生成全邻接矩阵、集中邻接矩阵和距离权重邻接矩阵,结合句子的上下文语义特征,对全邻接矩阵、集中邻接矩阵和距离权重邻接矩阵进行卷积运算,再对卷积运算后的结果进行最大池化处理,获得句子表示向量;
步骤4,基于前馈神经网络获取实体关系特征信息,进行实体关系分类。
2.根据权利要求1所述的基于多依存关系表示机制的图卷积网络关系抽取方法,其特征在于,步骤1中,对采集到的非结构化文本开展预处理,包括分词、词性标注、实体类型标注、关系类型标注,并将这些词转化为计算机可处理的嵌入向量编码,具体方法为:
步骤1.1,首先,以句号为分隔符,对文本开展分句;其次,对句子进行分词、词性分析、依存关系分析;然后,以句子为单位,标注实体对和实体关系类型,形成有标注的句子语料;
步骤1.2,将经过预处理的语句分词映射到语义向量空间中的一个d维子空间,即语义嵌入,具体过程按照以下公式进行:
Figure FDA0003834907140000011
其中,et是嵌入后对应于每个分词的语义嵌入向量,
Figure FDA0003834907140000012
分别为词嵌入向量、实体类型嵌入向量、词性嵌入向量,
Figure FDA0003834907140000013
为向量连接运算,词嵌入向量由语言模型生成的编码库表生成,实体类型嵌入向量和词性嵌入向量则是根据文本预处理中实体识别和词性分析的结果进行编码而得。
3.根据权利要求1所述的基于多依存关系表示机制的图卷积网络关系抽取方法,其特征在于,步骤2中,基于双向长短期记忆循环神经网络捕捉句子的上下文语义特征,具体方法为:
双向长短期记忆循环神经网络分别由一个正向LSTM网络传播层和一个反向LSTM网络传播层叠加而成,其各自网络的隐藏层状态向量计算如下:
Figure FDA0003834907140000021
Figure FDA0003834907140000022
Figure FDA0003834907140000023
其中,LSTM(·)为长短期记忆单元运算,et是每个分词的语义嵌入向量,
Figure FDA0003834907140000024
Figure FDA0003834907140000025
分别为对应于各分词的正向和反向循环神经网络隐藏层状态向量,ht为对应于各分词在双向长短期记忆循环神经网络中的输出向量,也即句子的上下文语义特征。
4.根据权利要求1所述的基于多依存关系表示机制的图卷积网络关系抽取方法,其特征在于,步骤3中,根据依存关系树生成全邻接矩阵、集中邻接矩阵和距离权重邻接矩阵,结合句子的上下文语义特征,对全邻接矩阵、集中邻接矩阵和距离权重邻接矩阵进行卷积运算,再对卷积运算后的结果进行最大池化处理,获得句子表示向量,具体方法为:
1)依存关系结构的矩阵表示
a)构建全邻接矩阵
全邻接矩阵用于表征依存关系树上所有节点之间的邻接关系,具体地,具有n个节点的图或树的全邻接矩阵定义为n阶方阵A=(aij)n×n,其中:
Figure FDA0003834907140000026
b)构建集中邻接矩阵
将最短依存路径上的节点信息作为反映实体关系的强特征信息,将最短依存路径提供的节点信息用集中邻接矩阵表示,具体地,集中邻接矩阵定义为n阶方阵Ac=(cij)n×n,其中:
Figure FDA0003834907140000027
即在全邻接矩阵中将不属于最短依存路径的边所对应的元素设为0,换句话说,这也等价于将完整的原句依存关系树修剪为仅保留最短依存路径的子树;
c)构建距离权重邻接矩阵
与集中邻接矩阵相反,基于节点间的距离,也就是节点间路径包含边的数量,构造保留更多依存关系结构信息的距离权重矩阵,具体地,距离权重邻接矩阵定义为n阶方阵Aw=(wij)n×n,其中:
Figure FDA0003834907140000031
式中,dij为节点i,j之间的距离,这也等价于将原句依存关系树转换为一个由节点距离决定权中的带权完全图,距离权重邻接矩阵比原本的全邻接矩阵更完整地表示了节点间直接或间接关联关系;
2)图卷积网络运算
图卷积运算GCN(·)定义为:
Figure FDA0003834907140000032
Figure FDA0003834907140000033
为全邻接矩阵A的再标准化形式,σ(·)为激活函数,选用ReLU函数,H(m)为图卷积网络第m层的输出及第m+1层的输入,
Figure FDA0003834907140000034
Figure FDA0003834907140000035
分别为与A对应的图卷积参数矩阵和仿射偏置矩阵;
将步骤2捕获的句子的上下文语义特征作为三个并行图卷积网络的输入,结合上述三种依存关系表示方式,采用图卷积网络按照下列公式进行运算:
Figure FDA0003834907140000036
Figure FDA0003834907140000037
Figure FDA0003834907140000038
式中,h1,…,hs为双向长短期记忆循环神经网络的输出,表示所有分词的状态向量,s为句子中分词的总数,l为图卷积网络总层数,
Figure FDA0003834907140000039
分别为对应于全邻接矩阵、集中邻接矩阵、距离权重邻接矩阵的图卷积子网络最终层输出,H(l)为并行图卷积网络的最终综合输出;
3)最大值池化处理
使用最大池化函数fmax对图卷积网络的最终综合H(l)进行降维处理:
hsent=fmax(H(l)) (12)
式中,hsent均为H(l)经最大值集中化处理后得到的句子表示向量。
5.根据权利要求1所述的基于多依存关系表示机制的图卷积网络关系抽取方法,其特征在于,步骤4中,基于前馈神经网络获取实体关系特征信息,进行实体关系分类,具体方法为:
将步骤3得到的句子表示向量输入到一个前馈神经网络关系分类器,并用softmax函数获得每种关系分类的预测概率,具体公式如下所示:
hf=FFNN(hsent) (13)
P=softmax(Whf+b) (14)
其中,hf为用于关系分类的语句最终表示,hsent为句子表示向量,W和b是softmax分类层的线性变换矩阵和仿射偏置向量,P是关系分类器最后输出的概率向量。
6.一种基于多依存关系表示机制的图卷积网络关系抽取系统,其特征在于,基于权利要求1-5任一项所述的方法实现基于多依存关系表示机制的图卷积网络关系抽取。
7.一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述计算机程序时,基于权利要求1-5任一项所述的方法实现基于多依存关系表示机制的图卷积网络关系抽取。
8.一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时,基于权利要求1-5任一项所述的方法实现基于多依存关系表示机制的图卷积网络关系抽取。
CN202110218087.XA 2021-02-26 2021-02-26 一种基于多依存关系表示机制的图卷积网络关系抽取方法 Active CN113239186B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110218087.XA CN113239186B (zh) 2021-02-26 2021-02-26 一种基于多依存关系表示机制的图卷积网络关系抽取方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110218087.XA CN113239186B (zh) 2021-02-26 2021-02-26 一种基于多依存关系表示机制的图卷积网络关系抽取方法

Publications (2)

Publication Number Publication Date
CN113239186A CN113239186A (zh) 2021-08-10
CN113239186B true CN113239186B (zh) 2022-11-29

Family

ID=77130244

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110218087.XA Active CN113239186B (zh) 2021-02-26 2021-02-26 一种基于多依存关系表示机制的图卷积网络关系抽取方法

Country Status (1)

Country Link
CN (1) CN113239186B (zh)

Families Citing this family (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113449084A (zh) * 2021-09-01 2021-09-28 中国科学院自动化研究所 基于图卷积的关系抽取方法
CN113886522B (zh) * 2021-09-13 2022-12-02 苏州空天信息研究院 一种基于路径扩展的非连续实体识别方法
CN113626608B (zh) * 2021-10-12 2022-02-15 深圳前海环融联易信息科技服务有限公司 增强语义的关系抽取方法、装置、计算机设备及存储介质
CN114091450B (zh) * 2021-11-19 2022-11-18 南京通达海科技股份有限公司 一种基于图卷积网络的司法领域关系抽取方法和系统
CN114357156B (zh) * 2021-12-02 2023-02-28 北京邮电大学 一种多特征多通道图卷积网络模型训练方法及属性情感三元组抽取方法
CN114444472B (zh) * 2022-04-02 2022-07-12 北京百度网讯科技有限公司 文本处理方法、装置、电子设备和存储介质
CN114491085B (zh) * 2022-04-15 2022-08-09 支付宝(杭州)信息技术有限公司 一种图数据存储方法和分布式图数据计算方法
CN115688776B (zh) * 2022-09-27 2023-05-05 北京邮电大学 面向中文金融文本的关系抽取方法
CN115906863B (zh) * 2022-10-25 2023-09-12 华南师范大学 基于对比学习的情感分析方法、装置、设备以及存储介质
CN117879907A (zh) * 2023-12-26 2024-04-12 中国人民解放军61660部队 一种基于图卷积行为特征提取的网络环境异常检测方法

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20160148111A1 (en) * 2014-11-26 2016-05-26 Yokogawa Electric Corporation Event analysis apparatus, event analysis method and computer program product
US20190228286A1 (en) * 2018-01-19 2019-07-25 Fujitsu Limited Computer-readable recording medium, learning method, and learning device
CN111160008A (zh) * 2019-12-18 2020-05-15 华南理工大学 一种实体关系联合抽取方法及系统
CN111241295A (zh) * 2020-01-03 2020-06-05 浙江大学 基于语义句法交互网络的知识图谱关系数据抽取方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20160148111A1 (en) * 2014-11-26 2016-05-26 Yokogawa Electric Corporation Event analysis apparatus, event analysis method and computer program product
US20190228286A1 (en) * 2018-01-19 2019-07-25 Fujitsu Limited Computer-readable recording medium, learning method, and learning device
CN111160008A (zh) * 2019-12-18 2020-05-15 华南理工大学 一种实体关系联合抽取方法及系统
CN111241295A (zh) * 2020-01-03 2020-06-05 浙江大学 基于语义句法交互网络的知识图谱关系数据抽取方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
基于图注意力网络的因果关系抽取;许晶航等;《计算机研究与发展》;20200115;第159-174页 *

Also Published As

Publication number Publication date
CN113239186A (zh) 2021-08-10

Similar Documents

Publication Publication Date Title
CN113239186B (zh) 一种基于多依存关系表示机制的图卷积网络关系抽取方法
CN107609009B (zh) 文本情感分析方法、装置、存储介质和计算机设备
CN107203511B (zh) 一种基于神经网络概率消歧的网络文本命名实体识别方法
CN108415953B (zh) 一种基于自然语言处理技术的不良资产经营知识管理方法
CN112507699B (zh) 一种基于图卷积网络的远程监督关系抽取方法
CN111914067B (zh) 中文文本匹配方法及系统
CN110750640B (zh) 基于神经网络模型的文本数据分类方法、装置及存储介质
WO2019080863A1 (zh) 文本情感分类方法、存储介质及计算机
CN111914185B (zh) 一种基于图注意力网络的社交网络中文本情感分析方法
CN108038205B (zh) 针对中文微博的观点分析原型系统
CN108108354B (zh) 一种基于深度学习的微博用户性别预测方法
CN111368086A (zh) 一种基于CNN-BiLSTM+attention模型的涉案新闻观点句情感分类方法
Benzebouchi et al. Multi-classifier system for authorship verification task using word embeddings
CN109614611B (zh) 一种融合生成非对抗网络与卷积神经网络的情感分析方法
CN113449204B (zh) 基于局部聚合图注意力网络的社会事件分类方法、装置
CN114722820A (zh) 基于门控机制和图注意力网络的中文实体关系抽取方法
CN115952292B (zh) 多标签分类方法、装置及计算机可读介质
CN114492423A (zh) 基于特征融合及筛选的虚假评论检测方法、系统及介质
CN113449084A (zh) 基于图卷积的关系抽取方法
CN114036298B (zh) 一种基于图卷积神经网络与词向量的节点分类方法
Ayata et al. Busem at semeval-2017 task 4a sentiment analysis with word embedding and long short term memory rnn approaches
Jeyakarthic et al. Optimal bidirectional long short term memory based sentiment analysis with sarcasm detection and classification on twitter data
CN114373554A (zh) 利用药物知识和句法依存关系的药物相互作用关系抽取方法
CN117094291B (zh) 基于智能写作的自动新闻生成系统
CN110705279A (zh) 一种词汇表的选择方法、装置及计算机可读存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant