CN116049446B - 一种事件抽取方法、装置、设备及计算机可读存储介质 - Google Patents

一种事件抽取方法、装置、设备及计算机可读存储介质 Download PDF

Info

Publication number
CN116049446B
CN116049446B CN202310212003.0A CN202310212003A CN116049446B CN 116049446 B CN116049446 B CN 116049446B CN 202310212003 A CN202310212003 A CN 202310212003A CN 116049446 B CN116049446 B CN 116049446B
Authority
CN
China
Prior art keywords
representing
event
word
vector
argument
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202310212003.0A
Other languages
English (en)
Other versions
CN116049446A (zh
Inventor
何霆
刘立旻
龚雄辉
王华珍
李弼程
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Huaqiao University
Fuwai Hospital of CAMS and PUMC
Original Assignee
Huaqiao University
Fuwai Hospital of CAMS and PUMC
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Huaqiao University, Fuwai Hospital of CAMS and PUMC filed Critical Huaqiao University
Priority to CN202310212003.0A priority Critical patent/CN116049446B/zh
Publication of CN116049446A publication Critical patent/CN116049446A/zh
Application granted granted Critical
Publication of CN116049446B publication Critical patent/CN116049446B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • G06F16/367Ontology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/211Syntactic parsing, e.g. based on context-free grammar [CFG] or unification grammars
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • G06F40/295Named entity recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Data Mining & Analysis (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Databases & Information Systems (AREA)
  • Animal Behavior & Ethology (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Evolutionary Computation (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Machine Translation (AREA)

Abstract

本发明提供了一种事件抽取方法、装置、设备及计算机可读存储介质,包括:获取句子文本,并将所述句子文本构建成图结构数据;对所述图结构数据中的每个节点进行初始化向量编码,并基于图注意网络模型对节点向量编码进行更新;调用二进制标记网络对更新后的节点向量编码及句子文本进行事件提取,其中,事件提取包括事件类型识别,事件触发词识别和事件论元识别,旨在解决无法捕获长距离依赖信息以及重叠事件问题。

Description

一种事件抽取方法、装置、设备及计算机可读存储介质
技术领域
本发明涉及信息抽取领域,特别涉及一种事件抽取方法、装置、设备及计算机可读存储介质。
背景技术
事件抽取是自然语言处理中的一项十分重要且非常具有挑战性的任务,其目的是抽取文本中的事件信息。虽然目前事件抽取已经有了大量的研究,但大多数方法都假设句子中没有重叠事件的情况,使得这些方法并不适合处理具有重叠事件问题的场景。并且,现有的大多数事件抽取方法并不能有效的捕获到句子中与重叠事件有关的信息,比如触发词和论元在句子中的间距太远,这种长距离依赖信息就难以被捕获。
有鉴于此,提出本申请。
发明内容
本发明公开了一种事件抽取方法、装置、设备及计算机可读存储介质,旨在解决无法捕获长距离依赖信息以及重叠事件问题;
本发明第一实施例提供了一种事件抽取方法,包括:
获取句子文本,并将所述句子文本构建成图结构数据;
对所述图结构数据中的每个节点进行初始化向量编码,并基于图注意网络模型对节点向量编码进行更新;
调用二进制标记网络对更新后的节点向量编码及句子文本进行事件提取,其中,事件提取包括事件类型识别,事件触发词识别和事件论元识别。
优选地,所述将所述句子文本构建成图结构数据具体为:
对句子进行依存句法分析,构建以字为节点,以依存关系为连接边的依存图结构数据;
对句子进行命名实体识别,构建以命名实体为节点,以实体与实体首尾字的映射关系为连接,以及构成实体的字序列之间双向连接的实体图结构数据;
构建以字自身为起点和终点的自连接图结构数据;
将所述依存图结构数据、所述实体图结构数据和所述自连接图结构数据的节点特征进行加权求和、边进行合并,构建句子所对应的图结构数据。
优选地,所述对所述图结构数据中的每个节点进行初始化向量编码,并基于图注意网络模型对节点向量编码进行更新具体为:
对句子文本
Figure SMS_3
中任一字
Figure SMS_5
进行向量编码,得到
Figure SMS_6
对应的特征向量
Figure SMS_1
Figure SMS_4
,维度
Figure SMS_7
包括利用BERT获取的预训练特征、查找随机初始化的词性矩阵获取的词性特征和利用绝对位置获取的位置特征,使用BERT对实体进行向量编码,得到任一实体
Figure SMS_8
对应的特征向量
Figure SMS_2
由句子文本中的字向量和命名实体词向量构成得到融合图结构数据中的节点向量集合对应的初始化向量编码为
Figure SMS_9
,其中
Figure SMS_10
对图结构数据中的任意两个节点之间进行注意力系数eij的计算,如公式(1)所示:
Figure SMS_11
(1)
其中,
Figure SMS_12
代表第
Figure SMS_13
个节点的邻居集合,
Figure SMS_14
代表维度为
Figure SMS_15
的权重矩阵,
Figure SMS_16
代表两个向量拼接的方法,
Figure SMS_17
代表单层前馈神经网络
Figure SMS_18
;注意力系数归一化处理如公式(2)所示:
Figure SMS_19
(2)
其中,
Figure SMS_20
代表第
Figure SMS_21
个节点的邻居集合,k表示第i个节点的第k个邻居节点,LeakyReLU代表非线性激活函数,LeakyReLU函数的输出值定义为
Figure SMS_22
,score小于0的值置为-0.2,score大于0则保持原值,如公式(3)所示:
Figure SMS_23
(3)
根据计算结果,对节点
Figure SMS_24
的向量编码进行加权求和,如公式(4)所示:
Figure SMS_25
(4)
其中,
Figure SMS_26
代表学习到的向量编码,
Figure SMS_27
代表sigmoid函数。
优选地,所述调用二进制标记网络对更新后的节点向量编码及句子文本进行事件提取,其中,事件提取包括事件类型识别,事件触发词识别和事件论元识别具体为:
建立事件类型集合
Figure SMS_28
的初始化事件类型向量矩阵
Figure SMS_29
;利用注意力机制来计算事件类型与句子文本对应的字节点
Figure SMS_30
中每个
Figure SMS_31
之间的相关性
Figure SMS_32
,如公式(5)~(6)所示:
Figure SMS_33
(5)
Figure SMS_34
(6)
其中
Figure SMS_37
为事件类型的个数,
Figure SMS_38
为句子文本的长度,
Figure SMS_42
Figure SMS_35
代表权重矩阵,
Figure SMS_39
代表事件类型
Figure SMS_41
的向量编码,
Figure SMS_43
代表绝对值运算操作,
Figure SMS_36
代表向量编码点乘操作,
Figure SMS_40
代表向量编码串联拼接操作;每个事件类型被预测的概率如公式(7)所示:
Figure SMS_44
(7)
其中,σ代表sigmoid函数,
Figure SMS_45
阈值的事件类型为事件类型预测的结果,
Figure SMS_46
利用条件层标准化模块(condition layer normalization, CLN)将预测的事件类型与字信息进行融合,如公式(8)~(10)所示:
Figure SMS_47
(8)
Figure SMS_48
(9)
Figure SMS_49
(10)
其中,
Figure SMS_51
()为条件层标准化模块,
Figure SMS_54
Figure SMS_57
代表可训练的权重矩阵,
Figure SMS_52
Figure SMS_53
分别代表
Figure SMS_56
的均值和标准差;
Figure SMS_59
代表条件获得项,
Figure SMS_50
代表偏置项,
Figure SMS_55
代表字
Figure SMS_58
的向量编码,计算得到字向量集合
Figure SMS_60
;再将其输入自注意力层;如公式(11)所示:
Figure SMS_61
(11)
其中,
Figure SMS_62
()为自注意力层,将
Figure SMS_63
输入二进制标记网络中识别触发词的起始位置和结束位置,如公式(12)~(13)所示:
Figure SMS_64
(12)
Figure SMS_65
(13)
其中,
Figure SMS_77
代表句子文本,
Figure SMS_67
代表预测到的事件类型,
Figure SMS_73
代表sigmoid函数,
Figure SMS_81
代表触发词的起始位置,
Figure SMS_82
代表触发词的终止位置;
Figure SMS_80
Figure SMS_83
代表维度为
Figure SMS_76
的权重矩阵,
Figure SMS_78
Figure SMS_66
代表偏置项;
Figure SMS_71
代表句子文本中第
Figure SMS_68
个字的向量编码;得到触发词起始位置和终止位置的标注概率序列,起始位置
Figure SMS_70
,终止位置
Figure SMS_75
,其中,
Figure SMS_79
代表句子文本的长度;将任一
Figure SMS_69
阈值的字作为触发词的起始位置,将任一
Figure SMS_72
阈值的字作为触发词的终止位置,得到事件的触发词,其中
Figure SMS_74
继续利用CLN模块将触发词与
Figure SMS_84
进行融合,触发词
Figure SMS_85
的向量编码为其包含的字向量编码累加取平均,再将结果输入到自注意力网络中,如公式(14)~(15)所示:
Figure SMS_86
(14)
Figure SMS_87
(15)
其中
Figure SMS_88
代表触发词词语的长度,
Figure SMS_89
代表文本句子的长度,将
Figure SMS_90
输入事件论元
Figure SMS_91
对应的对组二进制标记网络中识别论元的起始位置和结束位置;如公式(16)~(17)所示:
Figure SMS_92
(16)
Figure SMS_93
(17)
其中,
Figure SMS_94
为指示函数,
Figure SMS_95
代表论元的起始位置,
Figure SMS_96
代表可训练的权重举证,
Figure SMS_97
为偏移项,
Figure SMS_98
代表乱云的结束位置,
Figure SMS_99
代表可训练的权重举证,
Figure SMS_100
为偏移项。判断当前所识别的论元是否属于该事件类型,如公式(18)所示:
Figure SMS_101
(18)
其中,
Figure SMS_103
为sigmoid函数,
Figure SMS_107
代表句子文本中第
Figure SMS_109
个字的向量编码;
Figure SMS_102
Figure SMS_105
为论元角色
Figure SMS_108
的权重矩阵和偏置项;每个论元角色会得到一组论元起始位置和终止位置的标注概率序列,对于任意论元的标注概率序列起始位置
Figure SMS_111
,终止位置
Figure SMS_104
,将任一
Figure SMS_106
阈值的字作为触发词的起始位置,将任一
Figure SMS_110
阈值的字作为触发词的终止位置,得到该事件的论元角色集合
Figure SMS_112
根据上述操作,基于图注意力网络和二进制标记网络的事件抽取的损失函数如下式(19):
Figure SMS_113
(19)
其中,rl的含义是预测到的事件论元,
Figure SMS_115
代表训练数据集,X代表代表训练集
Figure SMS_118
中第X条训练样例,
Figure SMS_120
代表当前句子文本事件类型的集合,
Figure SMS_116
代表当前句子文本在给定事件类型时的触发词的集合,
Figure SMS_117
代表当前句子文本在给定事件类型和事件触发词时的论元角色的集合,其中
Figure SMS_119
,
Figure SMS_121
,
Figure SMS_114
分别对应的公式如下式(20)~(22):
Figure SMS_122
(20)
Figure SMS_123
(21)
Figure SMS_124
(22)
其中,
Figure SMS_127
代表当前输入句子的长度,
Figure SMS_131
代表事件类型的预测概率,
Figure SMS_134
代表触发词起始位置的预测概率,
Figure SMS_126
代表触发词终止位置的预测概率,
Figure SMS_130
代表事件论元起始位置的预测概率,
Figure SMS_133
代表事件论元终止位置预测的概率,
Figure SMS_136
代表训练数据中事件类型的真实0/1标签,
Figure SMS_125
代表训练数据中触发词起始位置的真实0/1标签,
Figure SMS_129
代表训练数据中触发词终止位置的真实0/1标签,
Figure SMS_132
代表训练数据中事件论元起始位置的真实0/1标签,
Figure SMS_135
代表训练数据中事件论元终止位置的真实0/1标签;之后针对损失函数Loss使用梯度下降算法在训练集
Figure SMS_128
上更新网络参数,保存固定训练轮次中Loss最低的模型。
将测试句子文本送入训练好的事件抽取联合模型中,输出对应的事件类型信息,事件类型信息包括:事件类型、事件触发词和事件论元。
本发明第二实施例提供了一种事件抽取装置,包括:
图结构数据构建单元,用于获取句子文本,并将所述句子文本构建成图结构数据;
节点向量编码更新单元,用于对所述图结构数据中的每个节点进行初始化向量编码,并基于图注意网络模型对节点向量编码进行更新;
事件提取单元,用于调用二进制标记网络对更新后的节点向量编码及句子文本进行事件提取,其中,事件提取包括事件类型识别,事件触发词识别和事件论元识别。
本发明第三实施例提供了一种事件抽取设备,包括存储器以及处理器,所述存储器内存储有计算机程序,所述计算机程序能够被所述处理器执行,以实现如上任意一项所述的一种事件抽取方法。
本发明第四实施例提供了一种计算机可读存储介质,存储有计算机程序,所述计算机程序能够被所述计算机可读存储介质所在设备的处理器执行,以实现如上任意一项所述的一种事件抽取方法。
基于本发明提供的一种事件抽取方法、装置、设备及计算机可读存储介质,通过先将所述句子文本构建成图结构数据,接着对所述图结构数据中的每个节点进行初始化向量编码,并基于图注意网络模型对节点向量编码进行更新;调用二进制标记网络对更新后的节点向量编码及句子文本进行事件提取,其中,事件提取包括事件类型识别,事件触发词识别和事件论元识别,可以看出:以依存句法关系为理论基础构建图结果数据,利用命名实体识别技术(NER)为图结构数据融入实体信息,通过图注意力网络学习到句子中元素的相互依赖性。该模型不但可以有效的抽取事件,而且通过二进制标记网络解决了重叠事件问题。
附图说明
图1是本发明第一实施例提供的一种事件抽取方法的流程示意图;
图2是本发明提供的基于图注意力网络和二进制标记网络的事件抽取模型示意图;
图3是本发明第一实施例提供的一种事件抽取装置的模块示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
为了更好的理解本发明的技术方案,下面结合附图对本发明实施例进行详细描述。
应当明确,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其它实施例,都属于本发明保护的范围。
在本发明实施例中使用的术语是仅仅出于描述特定实施例的目的,而非旨在限制本发明。在本发明实施例和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式,除非上下文清楚地表示其他含义。
应当理解,本文中使用的术语“和/或”仅仅是一种描述关联对象的关联关系,表示可以存在三种关系,例如,A和/或B,可以表示:单独存在A,同时存在A和B,单独存在B这三种情况。另外,本文中字符“/”,一般表示前后关联对象是一种“或”的关系。
取决于语境,如在此所使用的词语“如果”可以被解释成为“在……时”或“当……时”或“响应于确定”或“响应于检测”。类似地,取决于语境,短语“如果确定”或“如果检测(陈述的条件或事件)”可以被解释成为“当确定时”或“响应于确定”或“当检测(陈述的条件或事件)时”或“响应于检测(陈述的条件或事件)”。
实施例中提及的“第一\第二”仅仅是是区别类似的对象,不代表针对对象的特定排序,可以理解地,“第一\第二”在允许的情况下可以互换特定的顺序或先后次序。应该理解“第一\第二”区分的对象在适当情况下可以互换,以使这里描述的实施例能够以除了在这里图示或描述的那些以外的顺序实施。
以下结合附图对本发明的具体实施例做详细说明。
本发明公开了一种事件抽取方法、装置、设备及计算机可读存储介质,旨在解决无法捕获长距离依赖信息以及重叠事件问题;
请参阅图1图2,本发明第一实施例提供了一种事件抽取方法,其可由事件抽取设备(以下简称抽取设备)来执行,特别的,由所述抽取设备内的一个或者多个处理器来执行,以至少实现如下步骤:
S101,获取句子文本,并将所述句子文本构建成图结构数据;
在本实施例中,所述抽取设备可为台式电脑、笔记本电脑、服务器、工作站等具有数据处理分析能力的终端,其中,所述抽取设备内可安装有相应的操作系统以及应用软件,并通过操作系统以及应用软件的结合来实现本实施例所需的功能。
具体地,在本实施例中,将所述句子文本构建成图结构数据具体可以包括:
对句子进行依存句法分析,构建以字为节点,以依存关系为连接边的依存图结构数据;
对句子进行命名实体识别,构建以命名实体为节点,以实体与实体首尾字的映射关系为连接,以及构成实体的字序列之间双向连接的实体图结构数据;
构建以字自身为起点和终点的自连接图结构数据;
将所述依存图结构数据、所述实体图结构数据和所述自连接图结构数据的节点特征进行加权求和、边进行合并,构建句子所对应的图结构数据。
更具体地:
步骤 1.1、给定样本量为
Figure SMS_138
的事件样本数据集
Figure SMS_144
,其中,任一事件样本为
Figure SMS_148
Figure SMS_137
表示事件样本数据集的数量;每个事件样本包含句子文本
Figure SMS_143
,其中,任一字为
Figure SMS_145
Figure SMS_150
代表句子的长度;事件类型集合
Figure SMS_140
,其中,任一事件类型为
Figure SMS_141
Figure SMS_146
代表事件类型集合的长度;
Figure SMS_151
对应的触发词集合为
Figure SMS_155
,其中,任一触发词为
Figure SMS_160
Figure SMS_162
代表触发词
Figure SMS_165
的中的任一字,
Figure SMS_154
代表触发词的长度,
Figure SMS_159
代表触发词集合的长度;事件论元集合
Figure SMS_163
,其中,任一事件论元为
Figure SMS_166
Figure SMS_139
代表事件论元集合的长度;将事件数据集
Figure SMS_142
按比例划分为训练集
Figure SMS_147
,其中任一训练集样本为
Figure SMS_152
Figure SMS_149
代表训练事件样本数据集的数量;验证集
Figure SMS_153
,其中任一验证集样本为
Figure SMS_158
Figure SMS_164
代表测试事件样本数据集的数量;测试集
Figure SMS_156
,其中任一测试集样本为
Figure SMS_157
Figure SMS_161
代表测试事件样本数据集的数量。
步骤 1.2、根据步骤1.1所述,对句子文本
Figure SMS_184
进行依存句法分析。依据句法分析结果构建出依存图结构数据
Figure SMS_188
,其中
Figure SMS_192
代表依存图结构数据的节点,
Figure SMS_170
对应句子文本中的字
Figure SMS_172
Figure SMS_177
代表依存图结构数据的依存关系边集合,
Figure SMS_182
代表其中的第
Figure SMS_195
条边,
Figure SMS_198
代表
Figure SMS_202
边集合的长度。通过命名实体识别技术(NER)抽取实体,构建以实体为节点,实体与实体首尾字的映射关系为边,以及构成实体的字序列之间双向连接边的实体图结构数据
Figure SMS_204
,其中
Figure SMS_197
代表实体图结构数据的实体节点集合,
Figure SMS_201
代表其中第
Figure SMS_205
节点,
Figure SMS_207
代表
Figure SMS_183
节点集合的长度,
Figure SMS_187
代表实体图结构数据中实体与实体首尾字的映射关系为连接及构成实体的字序列之间双向连接的集合,
Figure SMS_190
代表其中第
Figure SMS_196
条边,
Figure SMS_169
代表依存图结构数据的
Figure SMS_171
边集合的长度。通过连接字自身,构建以字自身为起点和终点的自连接图结构数据
Figure SMS_176
,其中
Figure SMS_179
代表自连接图结构数据的节点,
Figure SMS_168
对应句子文本中的字
Figure SMS_174
Figure SMS_175
代表自连接图结构数据的依存关系边集合,
Figure SMS_181
代表其中第
Figure SMS_186
一条边,
Figure SMS_191
代表
Figure SMS_193
边集合的长度。将
Figure SMS_199
进行融合,包括,字节点向量的加权求和,相同边的合并,以此构建融合图结构数据
Figure SMS_178
,其中
Figure SMS_180
代表融合图结构数据的节点,
Figure SMS_185
代表其中第
Figure SMS_189
节点,
Figure SMS_194
Figure SMS_200
代表融合图结构数据的边集合,
Figure SMS_203
代表其中第
Figure SMS_206
一条边,
Figure SMS_167
代表
Figure SMS_173
边集合的长度。
S102,对所述图结构数据中的每个节点进行初始化向量编码,并基于图注意网络模型对节点向量编码进行更新;
具体地,在本实施例中:
对句子文本
Figure SMS_210
中任一字
Figure SMS_212
进行向量编码,得到
Figure SMS_213
对应的特征向量
Figure SMS_209
Figure SMS_211
,维度
Figure SMS_214
包括利用BERT获取的预训练特征、查找随机初始化的词性矩阵获取的词性特征和利用绝对位置获取的位置特征,使用BERT对实体进行向量编码,得到任一实体
Figure SMS_215
对应的特征向量
Figure SMS_208
由句子文本中的字向量和命名实体词向量构成得到融合图结构数据中的节点向量集合对应的初始化向量编码为
Figure SMS_216
,其中
Figure SMS_217
对图结构数据中的任意两个节点之间进行注意力系数
Figure SMS_218
的计算,如公式(1)所示:
Figure SMS_219
(1)
其中,
Figure SMS_220
代表第
Figure SMS_221
个节点的邻居集合,
Figure SMS_222
代表维度为
Figure SMS_223
的权重矩阵,
Figure SMS_224
代表两个向量拼接的方法,
Figure SMS_225
代表单层前馈神经网络
Figure SMS_226
;注意力系数归一化处理如公式(2)所示:
Figure SMS_227
(2)
其中,
Figure SMS_228
代表第
Figure SMS_229
个节点的邻居集合,k表示第i个节点的第k个邻居节点,LeakyReLU代表非线性激活函数,LeakyReLU函数的输出值定义为
Figure SMS_230
,score小于0的值置为-0.2,score大于0则保持原值,如公式(3)所示:
Figure SMS_231
(3)
根据计算结果,对节点
Figure SMS_232
的向量编码进行加权求和,如公式(4)所示:
Figure SMS_233
(4)
其中,
Figure SMS_234
代表学习到的向量编码,
Figure SMS_235
代表sigmoid函数。
S103,调用二进制标记网络对更新后的节点向量编码及句子文本进行事件提取,其中,事件提取包括事件类型识别,事件触发词识别和事件论元识别。
具体地:在本实施例中:
建立事件类型集合
Figure SMS_236
的初始化事件类型向量矩阵
Figure SMS_237
;利用注意力机制来计算事件类型与句子文本对应的字节点
Figure SMS_238
中每个
Figure SMS_239
之间的相关性
Figure SMS_240
,如公式(5)~(6)所示:
Figure SMS_241
(5)
Figure SMS_242
(6)
其中
Figure SMS_243
为事件类型的个数,
Figure SMS_246
为句子文本的长度,
Figure SMS_250
Figure SMS_245
代表权重矩阵,
Figure SMS_247
代表事件类型
Figure SMS_249
的向量编码,
Figure SMS_251
代表绝对值运算操作,
Figure SMS_244
代表向量编码点乘操作,
Figure SMS_248
代表向量编码串联拼接操作;每个事件类型被预测的概率如公式(7)所示:
Figure SMS_252
(7)
其中,σ代表sigmoid函数,
Figure SMS_253
阈值的事件类型为事件类型预测的结果,
Figure SMS_254
利用条件层标准化模块(condition layer normalization, CLN)将预测的事件类型与字信息进行融合,如公式(8)~(10)所示:
Figure SMS_255
(8)
Figure SMS_256
(9)
Figure SMS_257
(10)
其中,
Figure SMS_258
()为条件层标准化模块,
Figure SMS_261
Figure SMS_262
代表可训练的权重矩阵,
Figure SMS_259
Figure SMS_263
分别代表
Figure SMS_265
的均值和标准差;
Figure SMS_267
代表条件获得项,
Figure SMS_260
代表偏置项,
Figure SMS_264
代表字
Figure SMS_266
的向量编码,计算得到字向量集合
Figure SMS_268
;再将其输入自注意力层;如公式(11)所示:
Figure SMS_269
(11)
其中,
Figure SMS_270
()为自注意力层,将
Figure SMS_271
输入二进制标记网络中识别触发词的起始位置和结束位置,如公式(12)~(13)所示:
Figure SMS_272
(12)
Figure SMS_273
(13)
其中,
Figure SMS_286
代表句子文本,
Figure SMS_276
代表预测到的事件类型,
Figure SMS_280
代表sigmoid函数,
Figure SMS_285
代表触发词的起始位置,
Figure SMS_290
代表触发词的终止位置;
Figure SMS_288
Figure SMS_291
代表维度为
Figure SMS_282
的权重矩阵,
Figure SMS_287
Figure SMS_274
代表偏置项;
Figure SMS_279
代表句子文本中第
Figure SMS_277
个字的向量编码;得到触发词起始位置和终止位置的标注概率序列,起始位置
Figure SMS_281
,终止位置
Figure SMS_284
,其中,
Figure SMS_289
代表句子文本的长度;将任一
Figure SMS_275
阈值的字作为触发词的起始位置,将任一
Figure SMS_278
阈值的字作为触发词的终止位置,得到事件的触发词,其中
Figure SMS_283
继续利用CLN模块将触发词与
Figure SMS_292
进行融合,触发词
Figure SMS_293
的向量编码为其包含的字向量编码累加取平均,再将结果输入到自注意力网络中,如公式(14)~(15)所示:
Figure SMS_294
(14)
Figure SMS_295
(15)
其中
Figure SMS_296
代表触发词词语的长度,
Figure SMS_297
代表文本句子的长度,将
Figure SMS_298
输入事件论元
Figure SMS_299
对应的对组二进制标记网络中识别论元的起始位置和结束位置;如公式(16)~(17)所示:
Figure SMS_300
(16)
Figure SMS_301
(17)
其中,
Figure SMS_303
为指示函数,其中,
Figure SMS_306
为指示函数,
Figure SMS_309
代表论元的起始位置,
Figure SMS_304
代表可训练的权重举证,
Figure SMS_305
为偏移项,
Figure SMS_307
代表乱云的结束位置,
Figure SMS_308
代表可训练的权重举证,
Figure SMS_302
为偏移项。判断当前所识别的论元是否属于该事件类型,如公式(18)所示:
Figure SMS_310
(18)
其中,
Figure SMS_312
为sigmoid函数,
Figure SMS_316
代表句子文本中第
Figure SMS_319
个字的向量编码;
Figure SMS_313
Figure SMS_315
为论元角色
Figure SMS_318
的权重矩阵和偏置项;每个论元角色会得到一组论元起始位置和终止位置的标注概率序列,对于任意论元的标注概率序列起始位置
Figure SMS_321
,终止位置
Figure SMS_311
,将任一
Figure SMS_314
阈值的字作为触发词的起始位置,将任一
Figure SMS_317
阈值的字作为触发词的终止位置,得到该事件的论元角色集合
Figure SMS_320
根据上述操作,基于图注意力网络和二进制标记网络的事件抽取的损失函数如下式(19):
Figure SMS_322
(19)
其中,rl的含义是预测到的事件论元,
Figure SMS_324
代表训练数据集,X代表代表训练集
Figure SMS_326
中第X条训练样例,
Figure SMS_327
代表当前句子文本事件类型的集合,
Figure SMS_325
代表当前句子文本在给定事件类型时的触发词的集合,
Figure SMS_328
代表当前句子文本在给定事件类型和事件触发词时的论元角色的集合,其中
Figure SMS_329
,
Figure SMS_330
,
Figure SMS_323
分别对应的公式如下式(20)~(22):
Figure SMS_331
(20)
Figure SMS_332
(21)
Figure SMS_333
(22)
其中,
Figure SMS_335
代表当前输入句子的长度,
Figure SMS_339
代表事件类型的预测概率,
Figure SMS_341
代表触发词起始位置的预测概率,
Figure SMS_338
代表触发词终止位置的预测概率,
Figure SMS_343
代表事件论元起始位置的预测概率,
Figure SMS_344
代表事件论元终止位置预测的概率,
Figure SMS_345
代表训练数据中事件类型的真实0/1标签,
Figure SMS_334
代表训练数据中触发词起始位置的真实0/1标签,
Figure SMS_337
代表训练数据中触发词终止位置的真实0/1标签,
Figure SMS_340
代表训练数据中事件论元起始位置的真实0/1标签,
Figure SMS_342
代表训练数据中事件论元终止位置的真实0/1标签;之后针对损失函数Loss使用梯度下降算法在训练集
Figure SMS_336
上更新网络参数,保存固定训练轮次中Loss最低的模型;
将测试句子文本送入训练好的事件抽取联合模型中,输出对应的事件类型信息,事件类型信息包括:事件类型、事件触发词和事件论元。
以下通过一个例子对上述实施例做进一步描述:
实验数据来自国内知名金融事件数据集FewFC数据。该数据集包含8982个事件样本数据,事件类型集
Figure SMS_346
,共9类事件,事件论元集合
Figure SMS_347
,共18种事件论元。
输入测试事件数据示例如下,content代表句子文本,events代表事件集,type代表事件的类型,trigger代表触发词,args代表论元:
{"content": "一般情况下,上市公司获得重要股东净增持,尽管增持的表现各异,比如新奥股份的增持是“左右口袋倒腾”性质,三泰控股的增持带有利益捆绑式,万达信息的增持是纾困式+举牌式,都是彰显了股东对公司未来发展和业绩预期的坚定信心。",
"events": [
{"type": "投资", "trigger": {"span": [37, 39], "word": "增持"}, "args": {"obj": [{"span": [32, 36], "word": "新奥股份"}]}},
{"type": "投资", "trigger": {"span": [56, 58], "word": "增持"}, "args": {"obj": [{"span": [51, 55], "word": "三泰控股"}]}},
{"type": "股份股权转让", "trigger": {"span": [37, 39], "word": "增持"}, "args": {"obj-org": [{"span": [32, 36], "word": "新奥股份"}]}},
]}
将该数据集划分为训练集
Figure SMS_348
,训练集包含7185个事件样本数据;验证集
Figure SMS_349
,验证集包含899个事件样本数据;测试集
Figure SMS_350
,测试集包含898个事件样本数据。
将给定的句子文本“一般情况下,上市公司获得重要股东净增持,尽管增持的表现各异,比如新奥股份的增持......”按照句号、分号和感叹号进行切分。切分后的任一句子文本记作
Figure SMS_368
Figure SMS_372
代表句子的长度。依据句法分析结果构建出依存图结构数据
Figure SMS_375
,其中
Figure SMS_352
代表依存图结构数据的节点,
Figure SMS_356
对应句子文本中的字
Figure SMS_359
Figure SMS_364
代表依存图结构数据的依存关系边集合,
Figure SMS_354
代表其中的第
Figure SMS_360
条边,
Figure SMS_361
代表
Figure SMS_365
边集合的长度。通过命名实体识别技术(NER)抽取实体,构建以实体为节点,实体与实体首尾字的映射关系为边,以及构成实体的字序列之间双向连接边的实体图结构数据
Figure SMS_369
,其中
Figure SMS_376
代表实体图结构数据的实体节点集合,
Figure SMS_377
代表其中第
Figure SMS_384
节点,
Figure SMS_366
代表
Figure SMS_370
节点集合的长度,
Figure SMS_373
代表实体图结构数据中实体与实体首尾字的映射关系为连接及构成实体的字序列之间双向连接的集合,
Figure SMS_380
代表其中第
Figure SMS_351
条边,
Figure SMS_355
代表依存图结构数据的
Figure SMS_357
边集合的长度。通过连接字自身,构建以字自身为起点和终点的自连接图结构数据
Figure SMS_362
,其中
Figure SMS_378
代表自连接图结构数据的节点,
Figure SMS_382
对应句子文本中的字
Figure SMS_386
Figure SMS_388
代表自连接图结构数据的依存关系边集合,
Figure SMS_383
代表其中第
Figure SMS_387
一条边,
Figure SMS_390
代表
Figure SMS_391
边集合的长度。将
Figure SMS_367
进行融合,包括,字节点向量的加权求和,相同边的合并,以此构建融合图结构数据
Figure SMS_371
,其中
Figure SMS_374
代表融合图结构数据的节点,
Figure SMS_379
代表其中第
Figure SMS_381
节点,
Figure SMS_385
Figure SMS_389
代表融合图结构数据的边集合,
Figure SMS_392
代表其中第
Figure SMS_353
一条边,
Figure SMS_358
代表
Figure SMS_363
边集合的长度。
建立事件类型集合
Figure SMS_393
的初始化事件类型向量矩阵
Figure SMS_394
。将图结构数据中句子文本对应的字节点向量输入到事件类型识别模块来预测事件类型,该模块的阈值
Figure SMS_395
设置为0.5,可得到事件类型集合{投资,股份股权转让}。
利用CLN模块将事件类型信息与文本的字节点进行融合,并将融合后的字向量输入到事件触发词识别模块来识别事件的触发词,该模块的阈值
Figure SMS_396
设置为0.5,阈值
Figure SMS_397
设置为0.5。可得到在已知事件类型的条件下的抽取结果为{{"type": "投资", "trigger": {"span": [37, 39], "word": "增持"}},{"type": "投资", "trigger": {"span": [56,58], "word": "增持"}},{"type": "股份股权转让", "trigger": {"span": [37, 39],"word": "增持"}},......}。
继续利用CLN模块将触发词信息与文本的字节点进行融合,并将融合后的字向量输入到事件论元识别模块来识别事件的论元,该模块的阈值
Figure SMS_398
设置为0.5,阈值
Figure SMS_399
设置为0.5。可得到已知事件类型和触发词的条件下的抽取结果为{{"type": "投资", "trigger": {"span": [37, 39], "word": "增持"}, "args": {"obj": [{"span": [32,36], "word": "新奥股份"}]}}, {"type": "投资", "trigger": {"span": [56, 58], "word": "增持"}, "args": {"obj": [{"span": [51, 55], "word": "三泰控股"}]}},{"type": "股份股权转让", "trigger": {"span": [37, 39], "word": "增持"}, "args": {"obj-org": [{"span": [32, 36], "word": "新奥股份"}]}}, ......}
至此,图注意力网络和二进制标记网络的事件抽取方法与系统全部结束。
请参阅图3,本发明第二实施例提供了一种事件抽取装置,包括:
图结构数据构建单元201,用于获取句子文本,并将所述句子文本构建成图结构数据;
节点向量编码更新单元202,用于对所述图结构数据中的每个节点进行初始化向量编码,并基于图注意网络模型对节点向量编码进行更新;
事件提取单元203,用于调用二进制标记网络对更新后的节点向量编码及句子文本进行事件提取,其中,事件提取包括事件类型识别,事件触发词识别和事件论元识别。
本发明第三实施例提供了一种事件抽取设备,包括存储器以及处理器,所述存储器内存储有计算机程序,所述计算机程序能够被所述处理器执行,以实现如上任意一项所述的一种事件抽取方法。
本发明第四实施例提供了一种计算机可读存储介质,存储有计算机程序,所述计算机程序能够被所述计算机可读存储介质所在设备的处理器执行,以实现如上任意一项所述的一种事件抽取方法。
基于本发明提供的一种事件抽取方法、装置、设备及计算机可读存储介质,通过先将所述句子文本构建成图结构数据,接着对所述图结构数据中的每个节点进行初始化向量编码,并基于图注意网络模型对节点向量编码进行更新;调用二进制标记网络对更新后的节点向量编码及句子文本进行事件提取,其中,事件提取包括事件类型识别,事件触发词识别和事件论元识别,可以看出:以依存句法关系为理论基础构建图结果数据,利用命名实体识别技术(NER)为图结构数据融入实体信息,通过图注意力网络学习到句子中元素的相互依赖性。该模型不但可以有效的抽取事件,而且通过二进制标记网络解决了重叠事件问题。
示例性地,本发明第三实施例和第四实施例中所述的计算机程序可以被分割成一个或多个模块,所述一个或者多个模块被存储在所述存储器中,并由所述处理器执行,以完成本发明。所述一个或多个模块可以是能够完成特定功能的一系列计算机程序指令段,该指令段用于描述所述计算机程序在所述实现一种事件抽取设备中的执行过程。例如,本发明第二实施例中所述的装置。
所称处理器可以是中央处理单元(Central Processing Unit,CPU),还可以是其他通用处理器、数字信号处理器 (Digital Signal Processor,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现成可编程门阵列 (Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等,所述处理器是所述一种事件抽取方法的控制中心,利用各种接口和线路连接整个所述实现对基于一种事件抽取方法的各个部分。
所述存储器可用于存储所述计算机程序和/或模块,所述处理器通过运行或执行存储在所述存储器内的计算机程序和/或模块,以及调用存储在存储器内的数据,实现一种事件抽取方法的各种功能。所述存储器可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需的应用程序(比如声音播放功能、文字转换功能等)等;存储数据区可存储根据手机的使用所创建的数据(比如音频数据、文字消息数据等)等。此外,存储器可以包括高速随机存取存储器,还可以包括非易失性存储器,例如硬盘、内存、插接式硬盘、智能存储卡(Smart Media Card, SMC)、安全数字(Secure Digital, SD)卡、闪存卡(Flash Card)、至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。
其中,所述实现的模块如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明实现上述实施例方法中的全部或部分流程,也可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一个计算机可读存储介质中,该计算机程序在被处理器执行时,可实现上述各个方法实施例的步骤。其中,所述计算机程序包括计算机程序代码,所述计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。所述计算机可读介质可以包括:能够携带所述计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、电载波信号、电信信号以及软件分发介质等。需要说明的是,所述计算机可读介质包含的内容可以根据司法管辖区内立法和专利实践的要求进行适当的增减,例如在某些司法管辖区,根据立法和专利实践,计算机可读介质不包括电载波信号和电信信号。
需说明的是,以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。另外,本发明提供的装置实施例附图中,模块之间的连接关系表示它们之间具有通信连接,具体可以实现为一条或多条通信总线或信号线。本领域普通技术人员在不付出创造性劳动的情况下,即可以理解并实施。
以上所述,仅为本发明较佳的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到的变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应该以权利要求的保护范围为准。

Claims (5)

1.一种事件抽取方法,其特征在于,包括:
获取句子文本,并将所述句子文本构建成图结构数据;
对所述图结构数据中的每个节点进行初始化向量编码,并基于图注意力网络模型对节点向量编码进行更新,具体为:
对句子文本
Figure QLYQS_2
中任一字
Figure QLYQS_4
进行向量编码,得到
Figure QLYQS_6
对应的特征向量
Figure QLYQS_3
Figure QLYQS_5
,维度
Figure QLYQS_7
包括利用BERT获取的预训练特征、查找随机初始化的词性矩阵获取的词性特征和利用绝对位置获取的位置特征,使用BERT对实体进行向量编码,得到任一实体
Figure QLYQS_8
对应的特征向量
Figure QLYQS_1
由句子文本中的字向量和命名实体词向量构成得到融合图结构数据中的节点向量集合对应的初始化向量编码为
Figure QLYQS_9
,其中
Figure QLYQS_10
对图结构数据中的任意两个节点之间进行注意力系数eij的计算,如公式(1)所示:
Figure QLYQS_11
(1)
其中,
Figure QLYQS_12
代表第
Figure QLYQS_13
个节点的邻居集合,
Figure QLYQS_14
代表维度为
Figure QLYQS_15
的权重矩阵,
Figure QLYQS_16
代表两个向量拼接的方法,
Figure QLYQS_17
代表单层前馈神经网络
Figure QLYQS_18
;注意力系数归一化处理如公式(2)所示:
Figure QLYQS_19
(2)
其中,
Figure QLYQS_20
代表第
Figure QLYQS_21
个节点的邻居集合,k表示第i个节点的第k个邻居节点,LeakyReLU代表非线性激活函数,LeakyReLU函数的输出值定义为
Figure QLYQS_22
,score小于0的值置为-0.2,score大于0则保持原值,如公式(3)所示:
Figure QLYQS_23
(3)
根据计算结果,对节点
Figure QLYQS_24
的向量编码进行加权求和,如公式(4)所示:
Figure QLYQS_25
(4)
其中,
Figure QLYQS_26
代表学习到的向量编码,
Figure QLYQS_27
代表sigmoid函数;
调用二进制标记网络对更新后的节点向量编码及句子文本进行事件提取,其中,事件提取包括事件类型识别,事件触发词识别和事件论元识别,具体为:建立事件类型集合
Figure QLYQS_28
的初始化事件类型向量矩阵
Figure QLYQS_29
;利用注意力机制来计算事件类型与句子文本对应的字节点
Figure QLYQS_30
中每个
Figure QLYQS_31
之间的相关性
Figure QLYQS_32
,如公式(5)~(6)所示:
Figure QLYQS_33
(5)
Figure QLYQS_34
(6)
其中
Figure QLYQS_36
为事件类型的个数,
Figure QLYQS_40
为句子文本的长度,
Figure QLYQS_42
Figure QLYQS_37
代表权重矩阵,
Figure QLYQS_39
代表事件类型
Figure QLYQS_41
的向量编码,
Figure QLYQS_43
代表绝对值运算操作,
Figure QLYQS_35
代表向量编码点乘操作,
Figure QLYQS_38
代表向量编码串联拼接操作;每个事件类型被预测的概率如公式(7)所示:
Figure QLYQS_44
(7)
其中,σ代表sigmoid函数,
Figure QLYQS_45
阈值的事件类型为事件类型预测的结果,
Figure QLYQS_46
利用条件层标准化模块CLN将预测的事件类型与字信息进行融合,如公式(8)~(10)所示:
Figure QLYQS_47
(8)
Figure QLYQS_48
(9)
Figure QLYQS_49
(10)
其中,
Figure QLYQS_50
()为条件层标准化模块,
Figure QLYQS_53
Figure QLYQS_57
代表可训练的权重矩阵,
Figure QLYQS_51
Figure QLYQS_55
分别代表
Figure QLYQS_58
的均值和标准差;
Figure QLYQS_60
代表条件获得项,
Figure QLYQS_52
代表偏置项,
Figure QLYQS_54
代表字
Figure QLYQS_56
的向量编码,计算得到字向量集合
Figure QLYQS_59
;再将其输入自注意力层;如公式(11)所示:
Figure QLYQS_61
(11)
其中,
Figure QLYQS_62
()为自注意力层,将
Figure QLYQS_63
输入二进制标记网络中识别触发词的起始位置和结束位置,如公式(12)~(13)所示:
Figure QLYQS_64
(12)
Figure QLYQS_65
(13)
其中,
Figure QLYQS_77
代表句子文本,
Figure QLYQS_68
代表预测到的事件类型,
Figure QLYQS_73
代表sigmoid函数,
Figure QLYQS_80
代表触发词的起始位置,
Figure QLYQS_82
代表触发词的终止位置;
Figure QLYQS_81
Figure QLYQS_83
代表维度为
Figure QLYQS_75
的权重矩阵,
Figure QLYQS_79
Figure QLYQS_66
代表偏置项;
Figure QLYQS_70
代表句子文本中第
Figure QLYQS_69
个字的向量编码;得到触发词起始位置和终止位置的标注概率序列,起始位置
Figure QLYQS_71
,终止位置
Figure QLYQS_74
,其中,
Figure QLYQS_78
代表句子文本的长度;将任一
Figure QLYQS_67
阈值的字作为触发词的起始位置,将任一
Figure QLYQS_72
阈值的字作为触发词的终止位置,得到事件的触发词,其中
Figure QLYQS_76
继续利用CLN模块将触发词与
Figure QLYQS_84
进行融合,触发词
Figure QLYQS_85
的向量编码为其包含的字向量编码累加取平均,再将结果输入到自注意力网络中,如公式(14)~(15)所示:
Figure QLYQS_86
(14)
Figure QLYQS_87
(15)
其中
Figure QLYQS_88
代表触发词词语的长度,
Figure QLYQS_89
代表文本句子的长度,将
Figure QLYQS_90
输入事件论元
Figure QLYQS_91
对应的对组二进制标记网络中识别论元的起始位置和结束位置;如公式(16)~(17)所示:
Figure QLYQS_92
(16)
Figure QLYQS_93
(17)
其中,
Figure QLYQS_94
为指示函数,
Figure QLYQS_95
代表论元的起始位置,
Figure QLYQS_96
代表可训练的权重矩阵,
Figure QLYQS_97
为偏移项,
Figure QLYQS_98
代表论元的结束位置,
Figure QLYQS_99
代表可训练的权重矩阵,
Figure QLYQS_100
为偏移项;判断当前所识别的论元是否属于该事件类型,如公式(18)所示:
Figure QLYQS_101
(18)
其中,
Figure QLYQS_103
为sigmoid函数,
Figure QLYQS_107
代表句子文本中第
Figure QLYQS_108
个字的向量编码;
Figure QLYQS_102
Figure QLYQS_106
为论元角色
Figure QLYQS_110
的权重矩阵和偏置项;每个论元角色会得到一组论元起始位置和终止位置的标注概率序列,对于任意论元的标注概率序列起始位置
Figure QLYQS_111
,终止位置
Figure QLYQS_104
,将任一
Figure QLYQS_105
阈值的字作为触发词的起始位置,将任一
Figure QLYQS_109
阈值的字作为触发词的终止位置,得到该事件的论元角色集合
Figure QLYQS_112
根据上述操作,基于图注意力网络和二进制标记网络的事件抽取的损失函数如下式(19):
Figure QLYQS_113
(19)
其中,rl的含义是预测到的事件论元,
Figure QLYQS_116
代表训练数据集,X代表训练集
Figure QLYQS_117
中第X条训练样例,
Figure QLYQS_120
代表当前句子文本事件类型的集合,
Figure QLYQS_115
代表当前句子文本在给定事件类型时的触发词的集合,
Figure QLYQS_118
代表当前句子文本在给定事件类型和事件触发词时的论元角色的集合,其中
Figure QLYQS_119
,
Figure QLYQS_121
,
Figure QLYQS_114
分别对应的公式如下式(20)~(22):
Figure QLYQS_122
(20)
Figure QLYQS_123
(21)
Figure QLYQS_124
(22)
其中,
Figure QLYQS_128
代表当前输入句子的长度,
Figure QLYQS_129
代表事件类型的预测概率,
Figure QLYQS_133
代表触发词起始位置的预测概率,
Figure QLYQS_125
代表触发词终止位置的预测概率,
Figure QLYQS_130
代表事件论元起始位置的预测概率,
Figure QLYQS_132
代表事件论元终止位置预测的概率,
Figure QLYQS_135
代表训练数据中事件类型的真实0/1标签,
Figure QLYQS_127
代表训练数据中触发词起始位置的真实0/1标签,
Figure QLYQS_131
代表训练数据中触发词终止位置的真实0/1标签,
Figure QLYQS_134
代表训练数据中事件论元起始位置的真实0/1标签,
Figure QLYQS_136
代表训练数据中事件论元终止位置的真实0/1标签;之后针对损失函数Loss使用梯度下降算法在训练集
Figure QLYQS_126
上更新网络参数,保存固定训练轮次中Loss最低的模型;
将测试句子文本送入训练好的事件抽取联合模型中,输出对应的事件类型信息,事件类型信息包括:事件类型、事件触发词和事件论元。
2.根据权利要求1所述的一种事件抽取方法,其特征在于,所述将所述句子文本构建成图结构数据具体为:
对句子进行依存句法分析,构建以字为节点,以依存关系为连接边的依存图结构数据;
对句子进行命名实体识别,构建以命名实体为节点,以实体与实体首尾字的映射关系为连接,以及构成实体的字序列之间双向连接的实体图结构数据;
构建以字自身为起点和终点的自连接图结构数据;
将所述依存图结构数据、所述实体图结构数据和所述自连接图结构数据的节点特征进行加权求和、边进行合并,构建句子所对应的图结构数据。
3.一种事件抽取装置,其特征在于,包括:
图结构数据构建单元,用于获取句子文本,并将所述句子文本构建成图结构数据;
节点向量编码更新单元,用于对所述图结构数据中的每个节点进行初始化向量编码,并基于图注意力网络模型对节点向量编码进行更新,具体用于:
对句子文本
Figure QLYQS_138
中任一字
Figure QLYQS_142
进行向量编码,得到
Figure QLYQS_143
对应的特征向量
Figure QLYQS_139
Figure QLYQS_140
,维度
Figure QLYQS_141
包括利用BERT获取的预训练特征、查找随机初始化的词性矩阵获取的词性特征和利用绝对位置获取的位置特征,使用BERT对实体进行向量编码,得到任一实体
Figure QLYQS_144
对应的特征向量
Figure QLYQS_137
由句子文本中的字向量和命名实体词向量构成得到融合图结构数据中的节点向量集合对应的初始化向量编码为
Figure QLYQS_145
,其中
Figure QLYQS_146
对图结构数据中的任意两个节点之间进行注意力系数eij的计算,如公式(1)所示:
Figure QLYQS_147
(1)
其中,
Figure QLYQS_148
代表第
Figure QLYQS_149
个节点的邻居集合,
Figure QLYQS_150
代表维度为
Figure QLYQS_151
的权重矩阵,
Figure QLYQS_152
代表两个向量拼接的方法,
Figure QLYQS_153
代表单层前馈神经网络
Figure QLYQS_154
;注意力系数归一化处理如公式(2)所示:
Figure QLYQS_155
(2)
其中,
Figure QLYQS_156
代表第
Figure QLYQS_157
个节点的邻居集合,k表示第i个节点的第k个邻居节点,LeakyReLU代表非线性激活函数,LeakyReLU函数的输出值定义为
Figure QLYQS_158
,score小于0的值置为-0.2,score大于0则保持原值,如公式(3)所示:
Figure QLYQS_159
(3)
根据计算结果,对节点
Figure QLYQS_160
的向量编码进行加权求和,如公式(4)所示:
Figure QLYQS_161
(4)
其中,
Figure QLYQS_162
代表学习到的向量编码,
Figure QLYQS_163
代表sigmoid函数;
事件提取单元,用于调用二进制标记网络对更新后的节点向量编码及句子文本进行事件提取,其中,事件提取包括事件类型识别,事件触发词识别和事件论元识别,具体用于:建立事件类型集合
Figure QLYQS_164
的初始化事件类型向量矩阵
Figure QLYQS_165
;利用注意力机制来计算事件类型与句子文本对应的字节点
Figure QLYQS_166
中每个
Figure QLYQS_167
之间的相关性
Figure QLYQS_168
,如公式(5)~(6)所示:
Figure QLYQS_169
(5)
Figure QLYQS_170
(6)
其中
Figure QLYQS_172
为事件类型的个数,
Figure QLYQS_175
为句子文本的长度,
Figure QLYQS_177
Figure QLYQS_171
代表权重矩阵,
Figure QLYQS_174
代表事件类型
Figure QLYQS_176
的向量编码,
Figure QLYQS_179
代表绝对值运算操作,
Figure QLYQS_173
代表向量编码点乘操作,
Figure QLYQS_178
代表向量编码串联拼接操作;每个事件类型被预测的概率如公式(7)所示:
Figure QLYQS_180
(7)
其中,σ代表sigmoid函数,
Figure QLYQS_181
阈值的事件类型为事件类型预测的结果,
Figure QLYQS_182
利用条件层标准化模块CLN将预测的事件类型与字信息进行融合,如公式(8)~(10)所示:
Figure QLYQS_183
(8)
Figure QLYQS_184
(9)
Figure QLYQS_185
(10)
其中,
Figure QLYQS_188
()为条件层标准化模块,
Figure QLYQS_189
Figure QLYQS_194
代表可训练的权重矩阵,
Figure QLYQS_186
Figure QLYQS_190
分别代表
Figure QLYQS_193
的均值和标准差;
Figure QLYQS_195
代表条件获得项,
Figure QLYQS_187
代表偏置项,
Figure QLYQS_191
代表字
Figure QLYQS_192
的向量编码,计算得到字向量集合
Figure QLYQS_196
;再将其输入自注意力层;如公式(11)所示:
Figure QLYQS_197
(11)
其中,
Figure QLYQS_198
()为自注意力层,将
Figure QLYQS_199
输入二进制标记网络中识别触发词的起始位置和结束位置,如公式(12)~(13)所示:
Figure QLYQS_200
(12)
Figure QLYQS_201
(13)
其中,
Figure QLYQS_211
代表句子文本,
Figure QLYQS_202
代表预测到的事件类型,
Figure QLYQS_208
代表sigmoid函数,
Figure QLYQS_212
代表触发词的起始位置,
Figure QLYQS_215
代表触发词的终止位置;
Figure QLYQS_213
Figure QLYQS_217
代表维度为
Figure QLYQS_210
的权重矩阵,
Figure QLYQS_214
Figure QLYQS_203
代表偏置项;
Figure QLYQS_206
代表句子文本中第
Figure QLYQS_207
个字的向量编码;得到触发词起始位置和终止位置的标注概率序列,起始位置
Figure QLYQS_216
,终止位置
Figure QLYQS_218
,其中,
Figure QLYQS_219
代表句子文本的长度;将任一
Figure QLYQS_204
阈值的字作为触发词的起始位置,将任一
Figure QLYQS_209
阈值的字作为触发词的终止位置,得到事件的触发词,其中
Figure QLYQS_205
继续利用CLN模块将触发词与
Figure QLYQS_220
进行融合,触发词
Figure QLYQS_221
的向量编码为其包含的字向量编码累加取平均,再将结果输入到自注意力网络中,如公式(14)~(15)所示:
Figure QLYQS_222
(14)
Figure QLYQS_223
(15)
其中
Figure QLYQS_224
代表触发词词语的长度,
Figure QLYQS_225
代表文本句子的长度,将
Figure QLYQS_226
输入事件论元
Figure QLYQS_227
对应的对组二进制标记网络中识别论元的起始位置和结束位置;如公式(16)~(17)所示:
Figure QLYQS_228
(16)
Figure QLYQS_229
(17)
其中,
Figure QLYQS_230
为指示函数,
Figure QLYQS_231
代表论元的起始位置,
Figure QLYQS_232
代表可训练的权重矩阵,
Figure QLYQS_233
为偏移项,
Figure QLYQS_234
代表论元的结束位置,
Figure QLYQS_235
代表可训练的权重矩阵,
Figure QLYQS_236
为偏移项;判断当前所识别的论元是否属于该事件类型,如公式(18)所示:
Figure QLYQS_237
(18)
其中,
Figure QLYQS_238
为sigmoid函数,
Figure QLYQS_241
代表句子文本中第
Figure QLYQS_242
个字的向量编码;
Figure QLYQS_239
Figure QLYQS_243
为论元角色
Figure QLYQS_245
的权重矩阵和偏置项;每个论元角色会得到一组论元起始位置和终止位置的标注概率序列,对于任意论元的标注概率序列起始位置
Figure QLYQS_247
,终止位置
Figure QLYQS_240
,将任一
Figure QLYQS_244
阈值的字作为触发词的起始位置,将任一
Figure QLYQS_246
阈值的字作为触发词的终止位置,得到该事件的论元角色集合
Figure QLYQS_248
根据上述操作,基于图注意力网络和二进制标记网络的事件抽取的损失函数如下式(19):
Figure QLYQS_249
(19)
其中,rl的含义是预测到的事件论元,
Figure QLYQS_250
代表训练数据集,X代表训练集
Figure QLYQS_253
中第X条训练样例,
Figure QLYQS_256
代表当前句子文本事件类型的集合,
Figure QLYQS_251
代表当前句子文本在给定事件类型时的触发词的集合,
Figure QLYQS_254
代表当前句子文本在给定事件类型和事件触发词时的论元角色的集合,其中
Figure QLYQS_255
,
Figure QLYQS_257
,
Figure QLYQS_252
分别对应的公式如下式(20)~(22):
Figure QLYQS_258
(20)
Figure QLYQS_259
(21)
Figure QLYQS_260
(22)
其中,
Figure QLYQS_261
代表当前输入句子的长度,
Figure QLYQS_265
代表事件类型的预测概率,
Figure QLYQS_268
代表触发词起始位置的预测概率,
Figure QLYQS_264
代表触发词终止位置的预测概率,
Figure QLYQS_269
代表事件论元起始位置的预测概率,
Figure QLYQS_270
代表事件论元终止位置预测的概率,
Figure QLYQS_272
代表训练数据中事件类型的真实0/1标签,
Figure QLYQS_263
代表训练数据中触发词起始位置的真实0/1标签,
Figure QLYQS_266
代表训练数据中触发词终止位置的真实0/1标签,
Figure QLYQS_267
代表训练数据中事件论元起始位置的真实0/1标签,
Figure QLYQS_271
代表训练数据中事件论元终止位置的真实0/1标签;之后针对损失函数Loss使用梯度下降算法在训练集
Figure QLYQS_262
上更新网络参数,保存固定训练轮次中Loss最低的模型;
将测试句子文本送入训练好的事件抽取联合模型中,输出对应的事件类型信息,事件类型信息包括:事件类型、事件触发词和事件论元。
4.一种事件抽取设备,其特征在于,包括存储器以及处理器,所述存储器内存储有计算机程序,所述计算机程序能够被所述处理器执行,以实现如权利要求1至2任意一项所述的一种事件抽取方法。
5.一种计算机可读存储介质,其特征在于,存储有计算机程序,所述计算机程序能够被所述计算机可读存储介质所在设备的处理器执行,以实现如权利要求1至2任意一项所述的一种事件抽取方法。
CN202310212003.0A 2023-03-07 2023-03-07 一种事件抽取方法、装置、设备及计算机可读存储介质 Active CN116049446B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310212003.0A CN116049446B (zh) 2023-03-07 2023-03-07 一种事件抽取方法、装置、设备及计算机可读存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310212003.0A CN116049446B (zh) 2023-03-07 2023-03-07 一种事件抽取方法、装置、设备及计算机可读存储介质

Publications (2)

Publication Number Publication Date
CN116049446A CN116049446A (zh) 2023-05-02
CN116049446B true CN116049446B (zh) 2023-06-06

Family

ID=86133341

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310212003.0A Active CN116049446B (zh) 2023-03-07 2023-03-07 一种事件抽取方法、装置、设备及计算机可读存储介质

Country Status (1)

Country Link
CN (1) CN116049446B (zh)

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110134757A (zh) * 2019-04-19 2019-08-16 杭州电子科技大学 一种基于多头注意力机制的事件论元角色抽取方法
CN114444484A (zh) * 2022-01-13 2022-05-06 重庆邮电大学 一种基于双层图的文档级事件抽取方法及系统

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20220398384A1 (en) * 2020-12-25 2022-12-15 Boe Technology Group Co., Ltd. Text extraction method and device, computer readable storage medium and electronic device
CN114201583A (zh) * 2021-12-10 2022-03-18 北京工商大学 一种基于图注意力网络的中文金融事件自动抽取方法及系统
CN114841140A (zh) * 2022-04-27 2022-08-02 迈容智能科技(上海)有限公司 依存分析模型及基于依存分析的中文联合事件抽取方法
CN115392248A (zh) * 2022-06-22 2022-11-25 北京航空航天大学 一种基于上下文和图注意力的事件抽取方法

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110134757A (zh) * 2019-04-19 2019-08-16 杭州电子科技大学 一种基于多头注意力机制的事件论元角色抽取方法
CN114444484A (zh) * 2022-01-13 2022-05-06 重庆邮电大学 一种基于双层图的文档级事件抽取方法及系统

Also Published As

Publication number Publication date
CN116049446A (zh) 2023-05-02

Similar Documents

Publication Publication Date Title
EP3926531B1 (en) Method and system for visio-linguistic understanding using contextual language model reasoners
CN111949802B (zh) 医学领域知识图谱的构建方法、装置、设备及存储介质
CN113204952A (zh) 一种基于聚类预分析的多意图与语义槽联合识别方法
CN113158656B (zh) 讽刺内容识别方法、装置、电子设备以及存储介质
CN113536784B (zh) 文本处理方法、装置、计算机设备和存储介质
US20210004603A1 (en) Method and apparatus for determining (raw) video materials for news
CN114140673A (zh) 一种违规图像识别方法、系统及设备
CN113239702A (zh) 意图识别方法、装置、电子设备
CN111967253A (zh) 一种实体消歧方法、装置、计算机设备及存储介质
CN117558270B (zh) 语音识别方法、装置、关键词检测模型的训练方法和装置
WO2022262080A1 (zh) 一种对话关系处理方法、计算机及可读存储介质
CN117235605B (zh) 一种基于多模态注意力融合的敏感信息分类方法及装置
CN113051384B (zh) 基于对话的用户画像抽取方法及相关装置
CN114692624A (zh) 一种基于多任务迁移的信息抽取方法、装置及电子设备
CN114385812A (zh) 用于文本的关系抽取方法及系统
CN114266252A (zh) 命名实体识别方法、装置、设备及存储介质
CN112417874A (zh) 命名实体的识别方法和装置、存储介质、电子装置
CN116049446B (zh) 一种事件抽取方法、装置、设备及计算机可读存储介质
CN114330350B (zh) 一种命名实体识别方法、装置、电子设备及存储介质
CN114238587A (zh) 阅读理解方法、装置、存储介质及计算机设备
CN113704466A (zh) 基于迭代网络的文本多标签分类方法、装置及电子设备
CN113111855A (zh) 一种多模态情感识别方法、装置、电子设备及存储介质
CN111159339A (zh) 一种文本匹配处理方法和装置
CN111860662B (zh) 一种相似性检测模型的训练方法及装置、应用方法及装置
CN113762998B (zh) 类别分析方法、装置、设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant