CN115204171A - 基于超图神经网络的文档级事件抽取方法及系统 - Google Patents

基于超图神经网络的文档级事件抽取方法及系统 Download PDF

Info

Publication number
CN115204171A
CN115204171A CN202210932880.0A CN202210932880A CN115204171A CN 115204171 A CN115204171 A CN 115204171A CN 202210932880 A CN202210932880 A CN 202210932880A CN 115204171 A CN115204171 A CN 115204171A
Authority
CN
China
Prior art keywords
document
word
matrix
sentence
embedding
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210932880.0A
Other languages
English (en)
Inventor
刘嵩
巩京昊
来庆涵
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Qilu University of Technology
Original Assignee
Qilu University of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Qilu University of Technology filed Critical Qilu University of Technology
Priority to CN202210932880.0A priority Critical patent/CN115204171A/zh
Publication of CN115204171A publication Critical patent/CN115204171A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/211Syntactic parsing, e.g. based on context-free grammar [CFG] or unification grammars
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/253Grammatical analysis; Style critique
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/049Temporal neural networks, e.g. delay elements, oscillating neurons or pulsed inputs
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Machine Translation (AREA)

Abstract

本发明属于文档级事件抽取领域,提供了一种基于超图神经网络的文档级事件抽取方法及系统,包括获取文档的文本数据;基于文档的文本数据,利用训练好的文档级联合抽取模型进行文档级事件抽取;模型通过设计一种改进的仿射图解析器可以更丰富的获取语法依赖信息以及更长距离的依赖语法信息在局部特征抽取中。另外,还引入了超图卷积网络并用于全局特征抽取,同时构造了句子和单词的关联矩阵并且设计了一种有效的局部特征和关联矩阵的融合机制来增强超图卷积网络的特征抽取能力。

Description

基于超图神经网络的文档级事件抽取方法及系统
技术领域
本发明属于文档级事件抽取技术领域,具体涉及一种基于超图神经网络的文档级事件抽取方法及系统。
背景技术
本部分的陈述仅仅是提供了与本发明相关的背景技术信息,不必然构成在先技术。
事件抽取是文本挖掘领域的重要任务,是从非结构化的文本中构建知识的有效方法。近年来,事件提取技术已广泛应用于众多领域,如生物医学领域蛋白质、基因和染色体等信息的提取。但是又因为文档中存在大量的嵌套事件,其事件的抽取更需要考虑多个句子之间存在的信息传递,因此很难有效的从文档级中抽取所涉及到的事件信息。
在早期,事件提取模型大多应用在句子层面,例如,Zhang等人设计了一个基于概率语法森林的提取模型,该模型能够充分使用句子的依赖语法信息。但是相比于句子层面的事件抽取,文档级事件抽取可以更好地获取句子之间的信息传递和文本的潜在语义。现如今,文档级事件提取模型主要分为传统的机器学习模型和深度学习模型两类。大多数传统的机器学习模型需要依赖量的人工设计特征,其模型算法本身并不能有效的对内部特征信息进行提取利用。随后研究者将深度学习模型引入文档级事件提取任务中,如CNN、RNN和LSTM等。虽然深度学习模型在提取词序列信息和依赖的语法信息是表现出了更强的能力,但其仍不能有效地获取文档中句子之间的全局上下文信息。
近年来,图卷积网络(GCN)受到了研究者的关注。然而,GCN中的简单图只能表示成对的关系,这意味着一条边只能连接两个顶点。因此,超图表示的学习方法被提出,它可以有效地建模两个以上对象之间的复杂关系。为了获取文档中的全局上下文信息,Zhao等人利用超图的概念提出了一个联合提取模型HANN,该模型分别采用GCN和超图聚合来提取局部特征和全局特征。HANN虽然以相对准确的结果丰富了全局上下文信息,但局部抽取层使用单一的GCN模型无法充分学习局部特征,并且也可能导致特征稀疏问题。此外,HANN的多重超图聚合容易导致节点特征的过平滑问题。
发明内容
为了解决上述问题,随着海量文本的出现,人工进行文档级事件抽取将变的越来越费力,本发明提出了一种基于超图神经网络的文档级事件抽取方法及系统,本发明能够自动抽取事件和相关参数信息,极大减少人工成本。
根据一些实施例,本发明的第一方案提供了一种基于超图神经网络的文档级事件抽取方法,采用如下技术方案:
基于超图神经网络的文档级事件抽取方法,包括:
获取文档的文本数据;
基于文档的文本数据,利用训练好的文档级联合抽取模型进行文档级事件抽取;
其中,所述利用训练好的文档级联合抽取模型进行文档级事件抽取,包括:
通过词向量嵌入获取文本数据的单词向量表示,并利用BiLSTM网络识别单词向量表示的单词序列特征;
对文本数据中每个句子的依赖语法信息进行解析得到软邻接矩阵;
基于利用图卷积网络学习单词序列特征和软邻接矩阵生成局部特征信息;
基于局部特征信息,得到句子向量表示,基于单词向量表示和句子向量表示,构建关联矩阵;
利用超图卷积网路将关联矩阵和局部特征矩阵进行融合,得到融合特征矩阵,并基于融合特征矩阵进行顶点卷积和超边卷积,得到单词在句子中的概念表示,实现文档级事件抽取。
进一步地,所述通过词向量嵌入获取文本数据的单词向量表示,包括:
通过嵌入以下向量表示,将每个单词转换为一个包括词嵌入、位置嵌入和实体类型嵌入的实值向量xki,所述实值向量xki的表示如下:
Figure BDA0003782417970000031
其中,xw,xp和xt分别表示词嵌入、位置嵌入和实体类型嵌入。
进一步地,所述利用BiLSTM网络识别单词向量表示的单词序列特征,包括:
所述BiLSTM网络通过模拟记忆单元和遗忘单元之间的长期依赖关系来学习单词序列信息,得到单词的编码序列表示,即单词序列特征。
进一步地,所述对文本数据中每个句子的依赖语法信息进行解析得到软邻接矩阵是利用改进的双仿射图解析器得到的,具体包括:
将每个句子中的单词嵌入到向量表示中,得到包括单词嵌入和依赖嵌入的单词嵌入向量表示;
基于单词嵌入向量表示,进行语法解析,得到强依赖和弱依赖语法信息存储在软邻接矩阵中;
通过自循环运算操作获取句子中单词本身的语法信息,以填充软邻接矩阵的对角线元素,得到最终的软邻接矩阵。
进一步地,基于局部特征信息,得到句子向量表示,基于单词向量表示和句子向量表示,构建关联矩阵,包括:
基于局部特征矩阵,利用图卷积网络的最大池化层将局部特征表示映射到句子向量中;
将单词向量表示和句子向量表示为超图的顶点和超边,根据同一单词在不同句子中的特征表示的关系,构建关联矩阵。
进一步地,所述利用超图卷积网路将关联矩阵和局部特征矩阵进行融合,得到融合特征矩阵,包括:
根据节点一致的原则,将关联矩阵与局部特征矩阵融合,构造融合特征矩阵;
融合矩阵的输出Ih如下:
Ih=join(H,IT)
其中,H表示图卷积网络的局部特征,IT表示关联矩阵的转置,join()是一个融合函数。
进一步地,所述基于融合特征矩阵进行顶点卷积和超边卷积,得到单词在句子中的概念表示,实现文档级事件抽取,包括:
基于融合特征矩阵,通过顶点卷积,将融合特征信息聚合成超边缘特征;
超边卷积采用注意机制将超边缘特征信息聚合到相应的顶点中,得到顶点特征的表示;
将每个顶点特征的表示连接到相应的句子中,得到单词在句子中的概念表示;
基于单词在句子中的概念表示,通过相应的得分,来选取最大的分数,从而抽取得到事件类型和参数,实现文档级事件抽取。
根据一些实施例,本发明的第二方案提供了一种基于超图神经网络的文档级事件抽取系统,采用如下技术方案:
基于超图神经网络的文档级事件抽取系统,包括:
数据获取模块,被配置为获取文档的文本数据;
文档级事件抽取模块,被配置为基于文档的文本数据,利用训练好的文档级联合抽取模型进行文档级事件抽取;
其中,所述利用训练好的文档级联合抽取模型进行文档级事件抽取,包括:
通过词向量嵌入获取文本数据的单词向量表示,并利用BiLSTM网络识别单词向量表示的单词序列特征;
对文本数据中每个句子的依赖语法信息进行解析得到软邻接矩阵;
基于利用图卷积网络学习单词序列特征和软邻接矩阵生成局部特征信息;
基于局部特征信息,得到句子向量表示,基于单词向量表示和句子向量表示,构建关联矩阵;
利用超图卷积网路将关联矩阵和局部特征矩阵进行融合,得到融合特征矩阵,并基于融合特征矩阵进行顶点卷积和超边卷积,得到单词在句子中的概念表示,实现文档级事件抽取。
根据一些实施例,本发明的第三方案提供了一种计算机可读存储介质。
一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现如上述第一个方面所述的基于超图神经网络的文档级事件抽取方法中的步骤。
根据一些实施例,本发明的第四方案提供了一种计算机设备。
一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现如上述第一个方面所述的基于超图神经网络的文档级事件抽取方法中的步骤。
与现有技术相比,本发明的有益效果为:
本发明通过利用一种改进的双仿射图解析器来充分获取文本的语法信息。同时利用BiLSTM(双向长短期记忆网络)网络和GCN(图卷积神经网络)网络增强文本的局部上下文特征抽取能力,在全局上下文特征抽取时引入超图卷积网络,并通过局部特征和关联矩阵的有效融合机制对其进行改进,使其可以提取到超边特征,从而获取单词和句子之间的交互信息,并且超图卷积操作可以缓解超图聚合带来的节点特征过平滑的问题。
附图说明
构成本发明的一部分的说明书附图用来提供对本发明的进一步理解,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。
图1是本发明实施例所述的基于超图神经网络的文档级事件抽取方法的流程图;
图2是本发明实施例所述的改进的双仿射图解析器的结构图;
图3是本发明实施例所述的关联矩阵和融合矩阵的构造过程示意图;
图4是本发明实施例所述的超图卷积的过程示意图。
具体实施方式
下面结合附图与实施例对本发明作进一步说明。
应该指出,以下详细说明都是例示性的,旨在对本发明提供进一步的说明。除非另有指明,本文使用的所有技术和科学术语具有与本发明所属技术领域的普通技术人员通常理解的相同含义。
需要注意的是,这里所使用的术语仅是为了描述具体实施方式,而非意图限制根据本发明的示例性实施方式。如在这里所使用的,除非上下文另外明确指出,否则单数形式也意图包括复数形式,此外,还应当理解的是,当在本说明书中使用术语“包含”和/或“包括”时,其指明存在特征、步骤、操作、器件、组件和/或它们的组合。
在不冲突的情况下,本发明中的实施例及实施例中的特征可以相互组合。
实施例一
如图1所示,本实施例提供了一种基于超图神经网络的文档级事件抽取方法,本实施例以该方法应用于服务器进行举例说明,可以理解的是,该方法也可以应用于终端,还可以应用于包括终端和服务器和系统,并通过终端和服务器的交互实现。服务器可以是独立的物理服务器,也可以是多个物理服务器构成的服务器集群或者分布式系统,还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务器、云通信、中间件服务、域名服务、安全服务CDN、以及大数据和人工智能平台等基础云计算服务的云服务器。终端可以是智能手机、平板电脑、笔记本电脑、台式计算机、智能音箱、智能手表等,但并不局限于此。终端以及服务器可以通过有线或无线通信方式进行直接或间接地连接,本申请在此不做限制。本实施例中,该方法包括以下步骤:
获取文档的文本数据;
基于文档的文本数据,利用训练好的文档级联合抽取模型进行文档级事件抽取;
其中,所述利用训练好的文档级联合抽取模型进行文档级事件抽取,包括:
通过词向量嵌入获取文本数据的单词向量表示,并利用BiLSTM网络识别单词向量表示的单词序列特征;
对文本数据中每个句子的依赖语法信息进行解析得到软邻接矩阵;
基于利用图卷积网络学习单词序列特征和软邻接矩阵生成局部特征信息;
基于局部特征信息,得到句子向量表示,基于单词向量表示和句子向量表示,构建关联矩阵;
利用超图卷积网路将关联矩阵和局部特征矩阵进行融合,得到融合特征矩阵,并基于融合特征矩阵进行顶点卷积和超边卷积,得到单词在句子中的概念表示,实现文档级事件抽取。
本实施例提出了基于超图卷积网络的文档级联合事件抽取模型BGHGCN,该模型算法的流程图如图1所示。
数据处理只在嵌入层之前进行处理,整个流程框架图从嵌入层之后都是进行特征抽取操作的,最终结果是通过联合抽取层中计算概率进行选取的。也就是联合抽取层之前都是抽取的特征,联合抽取层通过计算特征的得分,来选取最大的分数,从而抽取得到事件类型和参数。
整个模型主要包括7个模块:词向量嵌入、词序列信息识别、依赖语法嵌入、GCN抽取词序列和依赖语法信息、关联矩阵嵌入、HGCN提取局部和全局上下文信息、触发器和参数的联合抽取层。
首先,文本数据需要通过词向量嵌入层获得单词向量表示,然后输入到BiLSTM层来识别单词序列特征。
同时,利用改进的仿射图解析器(improved BiAffine Graph Parser)对每个句子的依赖语法信息进行解析并输出软邻接矩阵。
然后,将BiLSTM的单词序列特征和改进的仿射图解析器解析生成的软邻接矩阵一起输入到GCN层,GCN层通过卷积运算提取局部特征信息,同时通过池化运算输出句子向量。此外,本实施例的模型使用单词和句子的表示来构造一个关联矩阵来学习单词和句子之间的信息交互。
关联矩阵是在图卷积神经网络池化操作获取句子向量之后构建的,通过句子向量和词向量来构建的。
图卷积神经网络并不能学习到单词和句子之间的信息交互,其句子和单词之间的关系通过构造关联矩阵来表现,并且其两者之间的信息交互是超图神经网络学习后学习得到的。
然后,将局部特征矩阵和关联矩阵输入到超图卷积层。通过融合机制和超图卷积操作,模型可以提取出全局特征和更细粒度的局部特征。最后,本实施例可以通过联合提取层来识别触发器和参数。
具体实现过程:
词嵌入模块(Embedding Layer)
本实施例假设一个文档D由L个句子组成D={s1,s2,...,sL},每个句子S由n个单词组成,sk={xk1,xk2,...,xkn},其中,第k个句子中的第i个单词用xki表示,sk表示第k个句子。在输入层本实施例首先通过嵌入以下向量表示,将每个单词转换为一个包括词嵌入、位置嵌入和实体类型嵌入的实值向量xki,其实值向量xki的表示如下。
Figure BDA0003782417970000101
其中,xw,xp和xt分别表示词嵌入、位置嵌入和实体类型嵌入。
可以理解的是,实值向量就是单词向量表示,其中,xki的意思是文本中第k个句子中第i个单词的向量表示。后面的单词向量xi表示该句子中的第i个单词的向量表示。(对于BiLSTM获取序列信息只针对当前句子,并无法跨句,所以没有写成xki的形式。)
词序列识别层(BiLstm Layer)
BGHGCN在局部特征提取中使用BiLSTM来提取序列特征并丰富的局部特征。对于单词向量xi,BiLSTM通过模拟记忆单元和遗忘单元之间的长期依赖关系来学习单词序列信息。
双向LSTM定义如下:
Figure BDA0003782417970000102
Figure BDA0003782417970000103
其中,xi表示第i个词的向量表示,
Figure BDA0003782417970000111
表示第i-1个词的词序列信息。随后本实施例将正向的LSTM和反向的LSTM表示连接起来,来获得一个双向的特征表示:
Figure BDA0003782417970000112
然后得到单词的编码序列表示为:
Figure BDA0003782417970000113
其中,hd表示隐藏层大小。
改进的仿射图解析器(improved BiAffine Graph Parser)
为了充分利用相关的语法信息,本实施例设计了一个改进的双仿射图解析器(IBGP),在语法解析过程中生成软邻接矩阵。
改进的双仿射图解析器是用来进行语法解析的,改进的双仿射图解析器里面包括Embedding、BiGRU、MLP和Decode四部分,与传统的双仿射图解析器相比,本实施例通过引入BiGRU来代替双仿射图解析器中的BiLSTM,放弃了注意机制,并且增加了自循环操作来改进仿射图解析器。BiGRU可以处理较长的依赖语法信息,从而在解析较长句子的过程中获得更完整的依赖语法信息。同时,BiGRU还具有复杂度低、响应时间快的优点。此外,在句法解析的过程中,本实施例没有使用注意机制。因此,通过解析得到的强依赖和弱依赖语法信息可以更好地同时存储在软邻接矩阵中,其中元素用概率值表示,并以0.5为界限被划分为强依赖信息和弱依赖信息。此外,自循环运算还可以获得单词本身的语法信息,以填充软邻接矩阵的对角线元素。通过上述改进,本实施例可以充分利用强依赖和弱依赖的语法信息来丰富局部特征。通过IBGP解析生成软邻接矩阵
Figure BDA0003782417970000114
的过程如图2所示。
对于句子si={x1,x2,...,xn},改进的仿射图解析器将单词嵌入到向量表示中,其中包括单词嵌入和依赖嵌入。然后利用BiGRU获得较长的单词序列特征,并通过MLP对BiGRU输出的向量进行重新编码。接下来,通过仿射矩阵U的运算生成软邻接矩阵,计算过程如下:
{h’1,h’2,...,h’n}=BiGRU({x1,x2,...,xn}) (5)
{y1,y2,...,yn}=MLP({h’1,h’2,...h’n}) (6)
Figure BDA0003782417970000121
其中,Y={y1,y2,...,yn},
Figure BDA0003782417970000122
表示从第i个词到第j个词的概率得分,是矩阵中的元素(概率分数)。
大多数关于依赖语法信息的研究只使用概率分数Ai,j>0.5来得到硬邻接矩阵,而忽略了弱依赖信息。相反,为了将强依赖和弱依赖语法信息结合使用,使用方程(7)在局部特征提取中建立软邻接矩阵
Figure BDA0003782417970000123
相比于词序列识别层识别的单词序列特征,这里获取的序列信息相差不大。使用的网络不同,BiGRU能够学习得到更长句子的序列信息,相比于BiLSTM,这样该仿射图解析器在一定程度上可以解析得到更长距离的语法信息。
图神经网络(GCN Layer)
GCN是一种基于图数据结构的特征提取神经网络,可用于提取邻接矩阵中的相关语法信息。由于GCN的层数限制了学习图信息的能力,因此将BiLSTM的词序列特征和IBGP(改进的仿射图解析器)生成的软邻接矩阵一起输入到GCN层中,以丰富局部特征提取。在输入GCN之前,软邻接矩阵
Figure BDA0003782417970000124
应该通过应用softmax函数进行归一化:
Figure BDA0003782417970000131
然后,通过GCN的多层卷积得到局部特征表示。在GCN中的第l层的输出如下:
Figure BDA0003782417970000132
其中,ReLU为非线性激活函数,Hl-1表示l-1层的特征输出,W为权重矩阵。
为了建立一个关联矩阵来供超图卷积网络HGCN更好的学习全局信息,需要从GCN中推导出一个句子向量。句子向量如下:
sk=MAXpool(Hl) (9)
其中,MAXpool是GCN中的最大池化层,它将单词信息映射到一个句子向量sk中。
图卷积神经网络学习词序列和软邻接矩阵特征信息生成局部特征矩阵。通过图卷积神经网络的池化操作生成句子向量之后,才可以利用句子向量和词向量才能构建关联矩阵。
关联矩阵嵌入(Incidence Embedding)
对于文档中的每个句子,通过GCN层得到每个句子向量的局部特征表示。为了更好地学习词与句子之间的关系,本实施例利用超图中的超边的概念,建立了一个关联矩阵。与简单图不同,超图定义了可以连接两个以上顶点的超边,并使用关联矩阵来表示顶点和超边之间的配对关系。因此,本实施例可以将文档中的单词和句子表示为超图的顶点和超边。
为了描述文献中单词和句子之间的复杂关系,本实施例定义了一个超图结构G=(V,E)来表示文档中的单词和句子信息,其中,V表示由N个单词组成的顶点集,E表示由L个句子组成的超边集。句子和词的关联矩阵反映了同一词在不同句子中的特征表示,从而可以学习句子之间的信息传递。关联矩阵的构造过程如图3左侧所示。
对于句子向量sk和单词向量xi,本实施例定义了如果超边sk∈E连接到顶点vi∈V,则为Ik,i=1,否则为Ik,i=0。请注意,单词向量xi不包括位置嵌入。关联矩阵I的计算过程如下:
Figure BDA0003782417970000141
超图卷积网络层(HGCN layer)
为了有效地提取全局上下文信息,缓解节点特征过平滑的问题,本实施例在事件提取中引入了超图卷积网络。在BGHGCN的超图卷积层中,利用超图卷积可以获取多跳邻居节点的信息和超边信息,从而更有效地提取全局特征。
为了在HGCN层中获取具有局部信息和全局信息的节点表示,本实施例设计了一种融合局部特征矩阵和关联矩阵的融合机制。融合过程如图3的右侧所示。
根据节点一致的原则,本实施例将相应的关联矩阵与局部特征矩阵融合,构造了一个新的特征矩阵供超图卷积层使用,如句子s3所示。在融合过程中,存在一个空坐标填充的问题。对于这个问题,本实施例使用0来填充空的坐标,原因有两个原因。首先,0表示句子和单词之间的真实连接情况。其次,0可以防止模型因矩阵特征密集而引起过拟合问题。融合矩阵的输出Ih如下:
Ih=join(H,IT) (11)
其中,H表示GCN的局部特征,IT表示关联矩阵的转置,join()是一个融合函数。
在超图卷积层中,超图卷积过程分为顶点卷积和超边卷积两部分。超图卷积的过程如图4所示。
顶点卷积:将融合矩阵中的顶点特征通过卷积的操作,将顶点特征信息聚合成超边特征。为了更好地学习顶点间的特征表示,本实施例通过MLP从顶点特征中获得顶点变换矩阵T来表示顶点特征的权重。使用一维卷积进行特征提取,并且也可以获得多跳邻居节点特征通过增加卷积层的深度,如图4所示。
计算过程如下:
T=MLP(Ih) (12)
xe=conv(T·Ih) (13)
其中,xe表示超边缘特征,Ih表示融合矩阵。
超边卷积:将超边特征信息聚合到相应的顶点中,丰富输出节点表示,如图4所示。超边卷积采用注意机制来聚合超边特征,并使用MLP来生成超边的权值得分。顶点特征的表示由超边特征和权重分数联合计算。计算过程如下:
w=softmax(xeW+b) (14)
其中,W和b表示权重矩阵和偏置向量。
Figure BDA0003782417970000151
其中,L表示相邻的超边集的大小,xv表示顶点特征,w表示每个超边的权重得分。
经过超边卷积后,需要将每个顶点特征连接到相应的句子中,得到单词在句子中的概念表示。其计算如下:
Figure BDA0003782417970000161
其中,
Figure BDA0003782417970000162
表示连接,W和b分别表示权重矩阵和偏置向量。
上述这个过程只是完成了特征抽取,经过公式(16)得到可以进行后续识别的特征向量,最后的抽取分类是在联合抽取层进行的。
联合抽取层
为了训练BGHGCN网络并减少误差传播,本实施例共同学习触发器和参数的损失函数,并将其最小化。
触发器识别(Trigger recognition):
对于句子sk中的每个单词xk,i,候选触发器的上下文向量表示为
Figure BDA0003782417970000163
其中,K表示第K层超图卷积层。然后将Ck,i输入一个全连接网络,预测单词xk,i的触发标签,如下:
Ok,i=softmax(WtCk,i+bt) (17)
其中,Wt和bt分别为softmax函数中的权重矩阵和偏置向量。
参数检测(Parameter detection):
本实施例将候选触发器t和候选参数a分别表示为
Figure BDA0003782417970000164
Figure BDA0003782417970000165
然后,本实施例将它们的表示连接为
Figure BDA0003782417970000166
并将其输入一个全连接层,以预测参数角色,如下:
Ot,a=softmax(WaCt,a+ba) (18)
其中,Wa和ba分别表示权重矩阵和偏置向量。Ot,a表示候选参数a在候选触发t触发的事件中所扮演角色的概率。
联合损失函数:
本实施例最小化触发器和参数的联合负对数似然损失函数来训练BGHGCN。最终损失函数如下:
Figure BDA0003782417970000171
其中,D表示包括N个文档在内的训练集,Td和Ad分别表示触发器集和参数集。sd表示句子数,xdi表示句子sd中的单词数。f是一个指示器函数。当其参数为真时,它输出一个大于1的数字,否则输出1。β为调整关节损失函数的超参数。
实施例二
本实施例提供了一种基于超图神经网络的文档级事件抽取系统,包括:
数据获取模块,被配置为获取文档的文本数据;
文档级事件抽取模块,被配置为基于文档的文本数据,利用训练好的文档级联合抽取模型进行文档级事件抽取;
其中,所述利用训练好的文档级联合抽取模型进行文档级事件抽取,包括:
通过词向量嵌入获取文本数据的单词向量表示,并利用BiLSTM网络识别单词向量表示的单词序列特征;
对文本数据中每个句子的依赖语法信息进行解析得到软邻接矩阵;
基于利用图卷积网络学习单词序列特征和软邻接矩阵生成局部特征信息;
基于局部特征信息,得到句子向量表示,基于单词向量表示和句子向量表示,构建关联矩阵;
利用超图卷积网路将关联矩阵和局部特征矩阵进行融合,得到融合特征矩阵,并基于融合特征矩阵进行顶点卷积和超边卷积,得到单词在句子中的概念表示,实现文档级事件抽取。
上述模块与对应的步骤所实现的示例和应用场景相同,但不限于上述实施例一所公开的内容。需要说明的是,上述模块作为系统的一部分可以在诸如一组计算机可执行指令的计算机系统中执行。
上述实施例中对各个实施例的描述各有侧重,某个实施例中没有详述的部分可以参见其他实施例的相关描述。
所提出的系统,可以通过其他的方式实现。例如以上所描述的系统实施例仅仅是示意性的,例如上述模块的划分,仅仅为一种逻辑功能划分,实际实现时,可以有另外的划分方式,例如多个模块可以结合或者可以集成到另外一个系统,或一些特征可以忽略,或不执行。
实施例三
本实施例提供了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现如上述实施例一所述的基于超图神经网络的文档级事件抽取方法中的步骤。
实施例四
本实施例提供了一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现如上述实施例一所述的基于超图神经网络的文档级事件抽取方法中的步骤。
本领域内的技术人员应明白,本发明的实施例可提供为方法、系统、或计算机程序产品。因此,本发明可采用硬件实施例、软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器和光学存储器等)上实施的计算机程序产品的形式。
本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的程序可存储于一计算机可读取存储介质中,该程序在执行时,可包括如上述各方法的实施例的流程。其中,所述的存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory,ROM)或随机存储记忆体(Random AccessMemory,RAM)等。
上述虽然结合附图对本发明的具体实施方式进行了描述,但并非对本发明保护范围的限制,所属领域技术人员应该明白,在本发明的技术方案的基础上,本领域技术人员不需要付出创造性劳动即可做出的各种修改或变形仍在本发明的保护范围以内。

Claims (10)

1.基于超图神经网络的文档级事件抽取方法,其特征在于,包括:
获取文档的文本数据;
基于文档的文本数据,利用训练好的文档级联合抽取模型进行文档级事件抽取;
其中,所述利用训练好的文档级联合抽取模型进行文档级事件抽取,包括:
通过词向量嵌入获取文本数据的单词向量表示,并利用BiLSTM网络识别单词向量表示的单词序列特征;
对文本数据中每个句子的依赖语法信息进行解析得到软邻接矩阵;
基于利用图卷积网络学习单词序列特征和软邻接矩阵生成局部特征信息;
基于局部特征信息,得到句子向量表示,基于单词向量表示和句子向量表示,构建关联矩阵;
利用超图卷积网路将关联矩阵和局部特征矩阵进行融合,得到融合特征矩阵,并基于融合特征矩阵进行顶点卷积和超边卷积,得到单词在句子中的概念表示,实现文档级事件抽取。
2.如权利要求1所述的基于超图神经网络的文档级事件抽取方法,其特征在于,所述通过词向量嵌入获取文本数据的单词向量表示,包括:
通过嵌入以下向量表示,将每个单词转换为一个包括词嵌入、位置嵌入和实体类型嵌入的实值向量xki,所述实值向量xki的表示如下:
Figure FDA0003782417960000011
其中,xw,xp和xt分别表示词嵌入、位置嵌入和实体类型嵌入。
3.如权利要求1所述的基于超图神经网络的文档级事件抽取方法,其特征在于,所述利用BiLSTM网络识别单词向量表示的单词序列特征,包括:
所述BiLSTM网络通过模拟记忆单元和遗忘单元之间的长期依赖关系来学习单词序列信息,得到单词的编码序列表示,即单词序列特征。
4.如权利要求1所述的基于超图神经网络的文档级事件抽取方法,其特征在于,所述对文本数据中每个句子的依赖语法信息进行解析得到软邻接矩阵是利用改进的双仿射图解析器得到的,具体包括:
将每个句子中的单词嵌入到向量表示中,得到包括单词嵌入和依赖嵌入的单词嵌入向量表示;
基于单词嵌入向量表示,进行语法解析,得到强依赖和弱依赖语法信息存储在软邻接矩阵中;
通过自循环运算操作获取句子中单词本身的语法信息,以填充软邻接矩阵的对角线元素,得到最终的软邻接矩阵。
5.如权利要求1所述的基于超图神经网络的文档级事件抽取方法,其特征在于,基于局部特征信息,得到句子向量表示,基于单词向量表示和句子向量表示,构建关联矩阵,包括:
基于局部特征矩阵,利用图卷积网络的最大池化层将局部特征表示映射到句子向量中;
将单词向量表示和句子向量表示为超图的顶点和超边,根据同一单词在不同句子中的特征表示的关系,构建关联矩阵。
6.如权利要求1所述的基于超图神经网络的文档级事件抽取方法,其特征在于,所述利用超图卷积网路将关联矩阵和局部特征矩阵进行融合,得到融合特征矩阵,包括:
根据节点一致的原则,将关联矩阵与局部特征矩阵融合,构造融合特征矩阵;
融合矩阵的输出Ih如下:
Ih=join(H,IT)
其中,H表示图卷积网络的局部特征,IT表示关联矩阵的转置,join()是一个融合函数。
7.如权利要求1所述的基于超图神经网络的文档级事件抽取方法,其特征在于,所述基于融合特征矩阵进行顶点卷积和超边卷积,得到单词在句子中的概念表示,实现文档级事件抽取,包括:
基于融合特征矩阵,通过顶点卷积,将融合特征信息聚合成超边缘特征;
超边卷积采用注意机制将超边缘特征信息聚合到相应的顶点中,得到顶点特征的表示;
将每个顶点特征的表示连接到相应的句子中,得到单词在句子中的概念表示;
基于单词在句子中的概念表示,通过相应的得分,来选取最大的分数,从而抽取得到事件类型和参数,实现文档级事件抽取。
8.基于超图神经网络的文档级事件抽取系统,其特征在于,包括:
数据获取模块,被配置为获取文档的文本数据;
文档级事件抽取模块,被配置为基于文档的文本数据,利用训练好的文档级联合抽取模型进行文档级事件抽取;
其中,所述利用训练好的文档级联合抽取模型进行文档级事件抽取,包括:
通过词向量嵌入获取文本数据的单词向量表示,并利用BiLSTM网络识别单词向量表示的单词序列特征;
对文本数据中每个句子的依赖语法信息进行解析得到软邻接矩阵;
基于利用图卷积网络学习单词序列特征和软邻接矩阵生成局部特征信息;
基于局部特征信息,得到句子向量表示,基于单词向量表示和句子向量表示,构建关联矩阵;
利用超图卷积网路将关联矩阵和局部特征矩阵进行融合,得到融合特征矩阵,并基于融合特征矩阵进行顶点卷积和超边卷积,得到单词在句子中的概念表示,实现文档级事件抽取。
9.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现如权利要求1-7中任一项所述的基于超图神经网络的文档级事件抽取方法中的步骤。
10.一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现如权利要求1-7中任一项所述的基于超图神经网络的文档级事件抽取方法中的步骤。
CN202210932880.0A 2022-08-04 2022-08-04 基于超图神经网络的文档级事件抽取方法及系统 Pending CN115204171A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210932880.0A CN115204171A (zh) 2022-08-04 2022-08-04 基于超图神经网络的文档级事件抽取方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210932880.0A CN115204171A (zh) 2022-08-04 2022-08-04 基于超图神经网络的文档级事件抽取方法及系统

Publications (1)

Publication Number Publication Date
CN115204171A true CN115204171A (zh) 2022-10-18

Family

ID=83586680

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210932880.0A Pending CN115204171A (zh) 2022-08-04 2022-08-04 基于超图神经网络的文档级事件抽取方法及系统

Country Status (1)

Country Link
CN (1) CN115204171A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116521899A (zh) * 2023-05-08 2023-08-01 中国传媒大学 一种基于改进的图神经网络的文档级关系抽取算法及系统

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116521899A (zh) * 2023-05-08 2023-08-01 中国传媒大学 一种基于改进的图神经网络的文档级关系抽取算法及系统
CN116521899B (zh) * 2023-05-08 2024-03-26 中国传媒大学 一种基于改进的图神经网络的文档级关系抽取方法及系统

Similar Documents

Publication Publication Date Title
Hui et al. Linguistic structure guided context modeling for referring image segmentation
CN110263324B (zh) 文本处理方法、模型训练方法和装置
CN112364880B (zh) 基于图神经网络的组学数据处理方法、装置、设备及介质
CN112084331A (zh) 文本处理、模型训练方法、装置、计算机设备和存储介质
CN112819023B (zh) 样本集的获取方法、装置、计算机设备和存储介质
Quilodrán-Casas et al. Digital twins based on bidirectional LSTM and GAN for modelling the COVID-19 pandemic
CN112396106B (zh) 内容识别方法、内容识别模型训练方法及存储介质
CN112417289B (zh) 一种基于深度聚类的资讯信息智能推荐方法
Hou et al. BERT-based Chinese relation extraction for public security
CN108763376A (zh) 融合关系路径、类型、实体描述信息的知识表示学习方法
CN116664719B (zh) 一种图像重绘模型训练方法、图像重绘方法及装置
Luo et al. A novel dataset-specific feature extractor for zero-shot learning
CN112860904A (zh) 一种融入外部知识的生物医疗关系抽取方法
CN115204171A (zh) 基于超图神经网络的文档级事件抽取方法及系统
CN111783688B (zh) 一种基于卷积神经网络的遥感图像场景分类方法
CN110852066B (zh) 一种基于对抗训练机制的多语言实体关系抽取方法及系统
CN116629361A (zh) 基于本体学习和注意力机制的知识推理方法
Li et al. Evaluating BERT on cloud-edge time series forecasting and sentiment analysis via prompt learning
CN116258147A (zh) 一种基于异构图卷积的多模态评论情感分析方法及系统
CN115033700A (zh) 基于相互学习网络的跨领域情感分析方法、装置以及设备
CN113486180A (zh) 一种基于关系层级交互的远程监督关系抽取方法及系统
CN113821610A (zh) 信息匹配方法、装置、设备及存储介质
Zhao et al. Fusion with GCN and SE-ResNeXt network for aspect based multimodal sentiment analysis
Rathee et al. A machine learning approach to predict the next word in a statement
Wei et al. Runge-Kutta Guided Feature Augmentation for Few-Sample Learning

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination