CN116049446B

CN116049446B - 一种事件抽取方法、装置、设备及计算机可读存储介质

Info

Publication number: CN116049446B
Application number: CN202310212003.0A
Authority: CN
Inventors: 何霆; 刘立旻; 龚雄辉; 王华珍; 李弼程
Original assignee: Huaqiao University; Fuwai Hospital of CAMS and PUMC
Current assignee: Huaqiao University; Fuwai Hospital of CAMS and PUMC
Priority date: 2023-03-07
Filing date: 2023-03-07
Publication date: 2023-06-06
Anticipated expiration: 2043-03-07
Also published as: CN116049446A

Abstract

本发明提供了一种事件抽取方法、装置、设备及计算机可读存储介质，包括：获取句子文本，并将所述句子文本构建成图结构数据；对所述图结构数据中的每个节点进行初始化向量编码，并基于图注意网络模型对节点向量编码进行更新；调用二进制标记网络对更新后的节点向量编码及句子文本进行事件提取，其中，事件提取包括事件类型识别，事件触发词识别和事件论元识别，旨在解决无法捕获长距离依赖信息以及重叠事件问题。

Description

一种事件抽取方法、装置、设备及计算机可读存储介质

技术领域

本发明涉及信息抽取领域，特别涉及一种事件抽取方法、装置、设备及计算机可读存储介质。

背景技术

事件抽取是自然语言处理中的一项十分重要且非常具有挑战性的任务，其目的是抽取文本中的事件信息。虽然目前事件抽取已经有了大量的研究，但大多数方法都假设句子中没有重叠事件的情况，使得这些方法并不适合处理具有重叠事件问题的场景。并且，现有的大多数事件抽取方法并不能有效的捕获到句子中与重叠事件有关的信息，比如触发词和论元在句子中的间距太远，这种长距离依赖信息就难以被捕获。

有鉴于此，提出本申请。

发明内容

本发明公开了一种事件抽取方法、装置、设备及计算机可读存储介质，旨在解决无法捕获长距离依赖信息以及重叠事件问题；

本发明第一实施例提供了一种事件抽取方法，包括：

获取句子文本，并将所述句子文本构建成图结构数据；

对所述图结构数据中的每个节点进行初始化向量编码，并基于图注意网络模型对节点向量编码进行更新；

调用二进制标记网络对更新后的节点向量编码及句子文本进行事件提取，其中，事件提取包括事件类型识别，事件触发词识别和事件论元识别。

优选地，所述将所述句子文本构建成图结构数据具体为：

对句子进行依存句法分析，构建以字为节点，以依存关系为连接边的依存图结构数据；

对句子进行命名实体识别，构建以命名实体为节点，以实体与实体首尾字的映射关系为连接，以及构成实体的字序列之间双向连接的实体图结构数据；

构建以字自身为起点和终点的自连接图结构数据；

将所述依存图结构数据、所述实体图结构数据和所述自连接图结构数据的节点特征进行加权求和、边进行合并，构建句子所对应的图结构数据。

优选地，所述对所述图结构数据中的每个节点进行初始化向量编码，并基于图注意网络模型对节点向量编码进行更新具体为：

对句子文本

中任一字

进行向量编码，得到

对应的特征向量

，

，维度

包括利用BERT获取的预训练特征、查找随机初始化的词性矩阵获取的词性特征和利用绝对位置获取的位置特征，使用BERT对实体进行向量编码，得到任一实体

对应的特征向量

；

由句子文本中的字向量和命名实体词向量构成得到融合图结构数据中的节点向量集合对应的初始化向量编码为

，其中

对图结构数据中的任意两个节点之间进行注意力系数e_ij的计算，如公式（1）所示：

(1)

其中，

代表第

个节点的邻居集合，

代表维度为

的权重矩阵，

代表两个向量拼接的方法，

代表单层前馈神经网络

；注意力系数归一化处理如公式（2）所示：

(2)

其中，

代表第

个节点的邻居集合，k表示第i个节点的第k个邻居节点，LeakyReLU代表非线性激活函数，LeakyReLU函数的输出值定义为

，score小于0的值置为-0.2，score大于0则保持原值，如公式（3）所示：

(3)

根据计算结果，对节点

的向量编码进行加权求和，如公式（4）所示：

(4)

其中，

代表学习到的向量编码，

代表sigmoid函数。

优选地，所述调用二进制标记网络对更新后的节点向量编码及句子文本进行事件提取，其中，事件提取包括事件类型识别，事件触发词识别和事件论元识别具体为：

建立事件类型集合

的初始化事件类型向量矩阵

；利用注意力机制来计算事件类型与句子文本对应的字节点

中每个

之间的相关性

，如公式（5）~（6）所示：

(5)

(6)

其中

为事件类型的个数，

为句子文本的长度，

和

代表权重矩阵，

代表事件类型

的向量编码，

代表绝对值运算操作，

代表向量编码点乘操作，

代表向量编码串联拼接操作；每个事件类型被预测的概率如公式（7）所示：

(7)

其中，σ代表sigmoid函数，

阈值的事件类型为事件类型预测的结果，

；

利用条件层标准化模块（condition layer normalization, CLN）将预测的事件类型与字信息进行融合，如公式（8）~（10）所示：

（8）

（9）

（10）

其中，

()为条件层标准化模块，

与

代表可训练的权重矩阵，

与

分别代表

的均值和标准差；

代表条件获得项，

代表偏置项，

代表字

的向量编码，计算得到字向量集合

；再将其输入自注意力层；如公式（11）所示：

（11）

其中，

()为自注意力层，将

输入二进制标记网络中识别触发词的起始位置和结束位置，如公式（12）~(13)所示：

（12）

（13）

其中，

代表句子文本，

代表预测到的事件类型，

代表sigmoid函数，

代表触发词的起始位置，

代表触发词的终止位置；

和

代表维度为

的权重矩阵，

和

代表偏置项；

代表句子文本中第

个字的向量编码；得到触发词起始位置和终止位置的标注概率序列，起始位置

，终止位置

，其中，

代表句子文本的长度；将任一

阈值的字作为触发词的起始位置，将任一

阈值的字作为触发词的终止位置，得到事件的触发词，其中

；

继续利用CLN模块将触发词与

进行融合，触发词

的向量编码为其包含的字向量编码累加取平均，再将结果输入到自注意力网络中，如公式（14）~（15）所示：

（14）

（15）

其中

代表触发词词语的长度，

代表文本句子的长度，将

输入事件论元

对应的对组二进制标记网络中识别论元的起始位置和结束位置；如公式（16）~（17）所示：

（16）

（17）

其中，

为指示函数，

代表论元的起始位置，

代表可训练的权重举证，

为偏移项,

代表乱云的结束位置,

代表可训练的权重举证,

为偏移项。判断当前所识别的论元是否属于该事件类型，如公式（18）所示：

（18）

其中，

为sigmoid函数，

代表句子文本中第

个字的向量编码；

与

为论元角色

的权重矩阵和偏置项；每个论元角色会得到一组论元起始位置和终止位置的标注概率序列，对于任意论元的标注概率序列起始位置

，终止位置

，将任一

阈值的字作为触发词的起始位置，将任一

阈值的字作为触发词的终止位置，得到该事件的论元角色集合

；

根据上述操作，基于图注意力网络和二进制标记网络的事件抽取的损失函数如下式（19）：

（19）

其中，rl的含义是预测到的事件论元，

代表训练数据集，X代表代表训练集

中第X条训练样例，

代表当前句子文本事件类型的集合，

代表当前句子文本在给定事件类型时的触发词的集合，

代表当前句子文本在给定事件类型和事件触发词时的论元角色的集合，其中

,

,

分别对应的公式如下式（20）~（22）：

（20）

（21）

(22)

其中，

代表当前输入句子的长度，

代表事件类型的预测概率，

代表触发词起始位置的预测概率，

代表触发词终止位置的预测概率，

代表事件论元起始位置的预测概率，

代表事件论元终止位置预测的概率，

代表训练数据中事件类型的真实0/1标签，

代表训练数据中触发词起始位置的真实0/1标签，

代表训练数据中触发词终止位置的真实0/1标签，

代表训练数据中事件论元起始位置的真实0/1标签，

代表训练数据中事件论元终止位置的真实0/1标签；之后针对损失函数Loss使用梯度下降算法在训练集

上更新网络参数，保存固定训练轮次中Loss最低的模型。

将测试句子文本送入训练好的事件抽取联合模型中，输出对应的事件类型信息，事件类型信息包括：事件类型、事件触发词和事件论元。

本发明第二实施例提供了一种事件抽取装置，包括：

图结构数据构建单元，用于获取句子文本，并将所述句子文本构建成图结构数据；

节点向量编码更新单元，用于对所述图结构数据中的每个节点进行初始化向量编码，并基于图注意网络模型对节点向量编码进行更新；

事件提取单元，用于调用二进制标记网络对更新后的节点向量编码及句子文本进行事件提取，其中，事件提取包括事件类型识别，事件触发词识别和事件论元识别。

本发明第三实施例提供了一种事件抽取设备，包括存储器以及处理器，所述存储器内存储有计算机程序，所述计算机程序能够被所述处理器执行，以实现如上任意一项所述的一种事件抽取方法。

本发明第四实施例提供了一种计算机可读存储介质，存储有计算机程序，所述计算机程序能够被所述计算机可读存储介质所在设备的处理器执行，以实现如上任意一项所述的一种事件抽取方法。

基于本发明提供的一种事件抽取方法、装置、设备及计算机可读存储介质，通过先将所述句子文本构建成图结构数据，接着对所述图结构数据中的每个节点进行初始化向量编码，并基于图注意网络模型对节点向量编码进行更新；调用二进制标记网络对更新后的节点向量编码及句子文本进行事件提取，其中，事件提取包括事件类型识别，事件触发词识别和事件论元识别，可以看出：以依存句法关系为理论基础构建图结果数据，利用命名实体识别技术（NER）为图结构数据融入实体信息，通过图注意力网络学习到句子中元素的相互依赖性。该模型不但可以有效的抽取事件，而且通过二进制标记网络解决了重叠事件问题。

附图说明

图1是本发明第一实施例提供的一种事件抽取方法的流程示意图；

图2是本发明提供的基于图注意力网络和二进制标记网络的事件抽取模型示意图；

图3是本发明第一实施例提供的一种事件抽取装置的模块示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

为了更好的理解本发明的技术方案，下面结合附图对本发明实施例进行详细描述。

应当明确，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其它实施例，都属于本发明保护的范围。

在本发明实施例中使用的术语是仅仅出于描述特定实施例的目的，而非旨在限制本发明。在本发明实施例和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式，除非上下文清楚地表示其他含义。

应当理解，本文中使用的术语“和/或”仅仅是一种描述关联对象的关联关系，表示可以存在三种关系，例如，A和/或B，可以表示：单独存在A，同时存在A和B，单独存在B这三种情况。另外，本文中字符“/”，一般表示前后关联对象是一种“或”的关系。

取决于语境，如在此所使用的词语“如果”可以被解释成为“在……时”或“当……时”或“响应于确定”或“响应于检测”。类似地，取决于语境，短语“如果确定”或“如果检测（陈述的条件或事件）”可以被解释成为“当确定时”或“响应于确定”或“当检测（陈述的条件或事件）时”或“响应于检测（陈述的条件或事件）”。

实施例中提及的“第一\第二”仅仅是是区别类似的对象，不代表针对对象的特定排序，可以理解地，“第一\第二”在允许的情况下可以互换特定的顺序或先后次序。应该理解“第一\第二”区分的对象在适当情况下可以互换，以使这里描述的实施例能够以除了在这里图示或描述的那些以外的顺序实施。

以下结合附图对本发明的具体实施例做详细说明。

请参阅图1图2，本发明第一实施例提供了一种事件抽取方法，其可由事件抽取设备（以下简称抽取设备）来执行，特别的，由所述抽取设备内的一个或者多个处理器来执行，以至少实现如下步骤：

S101，获取句子文本，并将所述句子文本构建成图结构数据；

在本实施例中，所述抽取设备可为台式电脑、笔记本电脑、服务器、工作站等具有数据处理分析能力的终端，其中，所述抽取设备内可安装有相应的操作系统以及应用软件，并通过操作系统以及应用软件的结合来实现本实施例所需的功能。

具体地，在本实施例中，将所述句子文本构建成图结构数据具体可以包括：

构建以字自身为起点和终点的自连接图结构数据；

更具体地：

步骤 1.1、给定样本量为

的事件样本数据集

，其中，任一事件样本为

，

表示事件样本数据集的数量；每个事件样本包含句子文本

，其中，任一字为

，

代表句子的长度；事件类型集合

,其中，任一事件类型为

，

代表事件类型集合的长度；

对应的触发词集合为

，其中，任一触发词为

，

代表触发词

的中的任一字，

代表触发词的长度，

代表触发词集合的长度;事件论元集合

，其中，任一事件论元为

，

代表事件论元集合的长度；将事件数据集

按比例划分为训练集

，其中任一训练集样本为

，

代表训练事件样本数据集的数量；验证集

，其中任一验证集样本为

，

代表测试事件样本数据集的数量；测试集

，其中任一测试集样本为

，

代表测试事件样本数据集的数量。

步骤 1.2、根据步骤1.1所述，对句子文本

进行依存句法分析。依据句法分析结果构建出依存图结构数据

，其中

代表依存图结构数据的节点，

对应句子文本中的字

，

代表依存图结构数据的依存关系边集合，

代表其中的第

条边，

代表

边集合的长度。通过命名实体识别技术（NER）抽取实体，构建以实体为节点，实体与实体首尾字的映射关系为边，以及构成实体的字序列之间双向连接边的实体图结构数据

，其中

代表实体图结构数据的实体节点集合，

代表其中第

节点，

代表

节点集合的长度，

代表实体图结构数据中实体与实体首尾字的映射关系为连接及构成实体的字序列之间双向连接的集合,

代表其中第

条边，

代表依存图结构数据的

边集合的长度。通过连接字自身，构建以字自身为起点和终点的自连接图结构数据

，其中

代表自连接图结构数据的节点，

对应句子文本中的字

，

代表自连接图结构数据的依存关系边集合，

代表其中第

一条边，

代表

边集合的长度。将

进行融合，包括，字节点向量的加权求和，相同边的合并，以此构建融合图结构数据

，其中

代表融合图结构数据的节点，

代表其中第

节点，

，

代表融合图结构数据的边集合，

代表其中第

一条边，

代表

边集合的长度。

S102，对所述图结构数据中的每个节点进行初始化向量编码，并基于图注意网络模型对节点向量编码进行更新；

具体地，在本实施例中：

对句子文本

中任一字

进行向量编码，得到

对应的特征向量

，

，维度

对应的特征向量

；

，其中

；

对图结构数据中的任意两个节点之间进行注意力系数

的计算，如公式（1）所示：

(1)

其中，

代表第

个节点的邻居集合，

代表维度为

的权重矩阵，

代表两个向量拼接的方法，

代表单层前馈神经网络

；注意力系数归一化处理如公式（2）所示：

(2)

其中，

代表第

(3)

根据计算结果，对节点

的向量编码进行加权求和，如公式（4）所示：

(4)

其中，

代表学习到的向量编码，

代表sigmoid函数。

S103，调用二进制标记网络对更新后的节点向量编码及句子文本进行事件提取，其中，事件提取包括事件类型识别，事件触发词识别和事件论元识别。

具体地：在本实施例中：

建立事件类型集合

的初始化事件类型向量矩阵

；利用注意力机制来计算事件类型与句子文本对应的字节点

中每个

之间的相关性

，如公式（5）~（6）所示：

(5)

(6)

其中

为事件类型的个数，

为句子文本的长度，

和

代表权重矩阵，

代表事件类型

的向量编码，

代表绝对值运算操作，

代表向量编码点乘操作，

(7)

其中，σ代表sigmoid函数，

阈值的事件类型为事件类型预测的结果，

；

（8）

（9）

（10）

其中，

()为条件层标准化模块，

与

代表可训练的权重矩阵，

与

分别代表

的均值和标准差；

代表条件获得项，

代表偏置项，

代表字

的向量编码，计算得到字向量集合

；再将其输入自注意力层；如公式（11）所示：

（11）

其中，

()为自注意力层，将

（12）

（13）

其中，

代表句子文本，

代表预测到的事件类型，

代表sigmoid函数，

代表触发词的起始位置，

代表触发词的终止位置；

和

代表维度为

的权重矩阵，

和

代表偏置项；

代表句子文本中第

，终止位置

，其中，

代表句子文本的长度；将任一

阈值的字作为触发词的起始位置，将任一

阈值的字作为触发词的终止位置，得到事件的触发词，其中

；

继续利用CLN模块将触发词与

进行融合，触发词

（14）

（15）

其中

代表触发词词语的长度，

代表文本句子的长度，将

输入事件论元

（16）

（17）

其中，

为指示函数，其中，

为指示函数，

代表论元的起始位置，

代表可训练的权重举证，

为偏移项,

代表乱云的结束位置,

代表可训练的权重举证,

（18）

其中，

为sigmoid函数，

代表句子文本中第

个字的向量编码；

与

为论元角色

，终止位置

，将任一

阈值的字作为触发词的起始位置，将任一

；

（19）

其中，rl的含义是预测到的事件论元，

代表训练数据集，X代表代表训练集

中第X条训练样例，

代表当前句子文本事件类型的集合，

代表当前句子文本在给定事件类型时的触发词的集合，

,

,

分别对应的公式如下式（20）~（22）：

（20）

（21）

(22)

其中，

代表当前输入句子的长度，

代表事件类型的预测概率，

代表触发词起始位置的预测概率，

代表触发词终止位置的预测概率，

代表事件论元起始位置的预测概率，

代表事件论元终止位置预测的概率，

代表训练数据中事件类型的真实0/1标签，

代表训练数据中触发词起始位置的真实0/1标签，

代表训练数据中触发词终止位置的真实0/1标签，

代表训练数据中事件论元起始位置的真实0/1标签，

上更新网络参数，保存固定训练轮次中Loss最低的模型；

以下通过一个例子对上述实施例做进一步描述：

实验数据来自国内知名金融事件数据集FewFC数据。该数据集包含8982个事件样本数据，事件类型集

，共9类事件,事件论元集合

，共18种事件论元。

输入测试事件数据示例如下，content代表句子文本，events代表事件集，type代表事件的类型，trigger代表触发词，args代表论元：

{"content": "一般情况下,上市公司获得重要股东净增持,尽管增持的表现各异,比如新奥股份的增持是“左右口袋倒腾”性质,三泰控股的增持带有利益捆绑式,万达信息的增持是纾困式+举牌式,都是彰显了股东对公司未来发展和业绩预期的坚定信心。",

"events": [

{"type": "投资", "trigger": {"span": [37, 39], "word": "增持"}, "args": {"obj": [{"span": [32, 36], "word": "新奥股份"}]}},

{"type": "投资", "trigger": {"span": [56, 58], "word": "增持"}, "args": {"obj": [{"span": [51, 55], "word": "三泰控股"}]}},

{"type": "股份股权转让", "trigger": {"span": [37, 39], "word": "增持"}, "args": {"obj-org": [{"span": [32, 36], "word": "新奥股份"}]}},

]}

将该数据集划分为训练集

，训练集包含7185个事件样本数据；验证集

，验证集包含899个事件样本数据；测试集

，测试集包含898个事件样本数据。

将给定的句子文本“一般情况下,上市公司获得重要股东净增持,尽管增持的表现各异,比如新奥股份的增持......”按照句号、分号和感叹号进行切分。切分后的任一句子文本记作

，

代表句子的长度。依据句法分析结果构建出依存图结构数据

，其中

代表依存图结构数据的节点，

对应句子文本中的字

，

代表依存图结构数据的依存关系边集合，

代表其中的第

条边，

代表

，其中

代表实体图结构数据的实体节点集合，

代表其中第

节点，

代表

节点集合的长度，

代表其中第

条边，

代表依存图结构数据的

，其中

代表自连接图结构数据的节点，

对应句子文本中的字

，

代表自连接图结构数据的依存关系边集合，

代表其中第

一条边，

代表

边集合的长度。将

，其中

代表融合图结构数据的节点，

代表其中第

节点，

，

代表融合图结构数据的边集合，

代表其中第

一条边，

代表

边集合的长度。

建立事件类型集合

的初始化事件类型向量矩阵

。将图结构数据中句子文本对应的字节点向量输入到事件类型识别模块来预测事件类型，该模块的阈值

设置为0.5，可得到事件类型集合{投资，股份股权转让}。

利用CLN模块将事件类型信息与文本的字节点进行融合，并将融合后的字向量输入到事件触发词识别模块来识别事件的触发词，该模块的阈值

设置为0.5，阈值

设置为0.5。可得到在已知事件类型的条件下的抽取结果为{{"type": "投资", "trigger": {"span": [37, 39], "word": "增持"}}，{"type": "投资", "trigger": {"span": [56,58], "word": "增持"}}，{"type": "股份股权转让", "trigger": {"span": [37, 39],"word": "增持"}}，......}。

继续利用CLN模块将触发词信息与文本的字节点进行融合，并将融合后的字向量输入到事件论元识别模块来识别事件的论元，该模块的阈值

设置为0.5，阈值

设置为0.5。可得到已知事件类型和触发词的条件下的抽取结果为{{"type": "投资", "trigger": {"span": [37, 39], "word": "增持"}, "args": {"obj": [{"span": [32,36], "word": "新奥股份"}]}}, {"type": "投资", "trigger": {"span": [56, 58], "word": "增持"}, "args": {"obj": [{"span": [51, 55], "word": "三泰控股"}]}},{"type": "股份股权转让", "trigger": {"span": [37, 39], "word": "增持"}, "args": {"obj-org": [{"span": [32, 36], "word": "新奥股份"}]}}, ......}

至此，图注意力网络和二进制标记网络的事件抽取方法与系统全部结束。

请参阅图3，本发明第二实施例提供了一种事件抽取装置，包括：

图结构数据构建单元201，用于获取句子文本，并将所述句子文本构建成图结构数据；

节点向量编码更新单元202，用于对所述图结构数据中的每个节点进行初始化向量编码，并基于图注意网络模型对节点向量编码进行更新；

事件提取单元203，用于调用二进制标记网络对更新后的节点向量编码及句子文本进行事件提取，其中，事件提取包括事件类型识别，事件触发词识别和事件论元识别。

示例性地，本发明第三实施例和第四实施例中所述的计算机程序可以被分割成一个或多个模块，所述一个或者多个模块被存储在所述存储器中，并由所述处理器执行，以完成本发明。所述一个或多个模块可以是能够完成特定功能的一系列计算机程序指令段，该指令段用于描述所述计算机程序在所述实现一种事件抽取设备中的执行过程。例如，本发明第二实施例中所述的装置。

所称处理器可以是中央处理单元(Central Processing Unit，CPU)，还可以是其他通用处理器、数字信号处理器 (Digital Signal Processor，DSP)、专用集成电路(Application Specific Integrated Circuit，ASIC)、现成可编程门阵列 (Field-Programmable Gate Array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等，所述处理器是所述一种事件抽取方法的控制中心，利用各种接口和线路连接整个所述实现对基于一种事件抽取方法的各个部分。

所述存储器可用于存储所述计算机程序和/或模块，所述处理器通过运行或执行存储在所述存储器内的计算机程序和/或模块，以及调用存储在存储器内的数据，实现一种事件抽取方法的各种功能。所述存储器可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需的应用程序（比如声音播放功能、文字转换功能等）等；存储数据区可存储根据手机的使用所创建的数据（比如音频数据、文字消息数据等）等。此外，存储器可以包括高速随机存取存储器，还可以包括非易失性存储器，例如硬盘、内存、插接式硬盘、智能存储卡（Smart Media Card, SMC）、安全数字（Secure Digital, SD）卡、闪存卡（Flash Card）、至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。

其中，所述实现的模块如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明实现上述实施例方法中的全部或部分流程，也可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储于一个计算机可读存储介质中，该计算机程序在被处理器执行时，可实现上述各个方法实施例的步骤。其中，所述计算机程序包括计算机程序代码，所述计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。所述计算机可读介质可以包括：能够携带所述计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器（ROM，Read-Only Memory）、随机存取存储器（RAM，Random Access Memory）、电载波信号、电信信号以及软件分发介质等。需要说明的是，所述计算机可读介质包含的内容可以根据司法管辖区内立法和专利实践的要求进行适当的增减，例如在某些司法管辖区，根据立法和专利实践，计算机可读介质不包括电载波信号和电信信号。

需说明的是，以上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。另外，本发明提供的装置实施例附图中，模块之间的连接关系表示它们之间具有通信连接，具体可以实现为一条或多条通信总线或信号线。本领域普通技术人员在不付出创造性劳动的情况下，即可以理解并实施。

以上所述，仅为本发明较佳的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到的变化或替换，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应该以权利要求的保护范围为准。

Claims

1.一种事件抽取方法，其特征在于，包括：

获取句子文本，并将所述句子文本构建成图结构数据；

对所述图结构数据中的每个节点进行初始化向量编码，并基于图注意力网络模型对节点向量编码进行更新，具体为：

对句子文本

中任一字

进行向量编码，得到

对应的特征向量

，

，维度

对应的特征向量

；

，其中

(1)

其中，

代表第

个节点的邻居集合，

代表维度为

的权重矩阵，

代表两个向量拼接的方法，

代表单层前馈神经网络

；注意力系数归一化处理如公式（2）所示：

(2)

其中，

代表第

(3)

根据计算结果，对节点

的向量编码进行加权求和，如公式（4）所示：

(4)

其中，

代表学习到的向量编码，

代表sigmoid函数；

调用二进制标记网络对更新后的节点向量编码及句子文本进行事件提取，其中，事件提取包括事件类型识别，事件触发词识别和事件论元识别，具体为：建立事件类型集合

的初始化事件类型向量矩阵

；利用注意力机制来计算事件类型与句子文本对应的字节点

中每个

之间的相关性

，如公式（5）~（6）所示：

(5)

(6)

其中

为事件类型的个数，

为句子文本的长度，

和

代表权重矩阵，

代表事件类型

的向量编码，

代表绝对值运算操作，

代表向量编码点乘操作，

(7)

其中，σ代表sigmoid函数，

阈值的事件类型为事件类型预测的结果，

；

利用条件层标准化模块CLN将预测的事件类型与字信息进行融合，如公式（8）~（10）所示：

（8）

（9）

（10）

其中，

()为条件层标准化模块，

与

代表可训练的权重矩阵，

与

分别代表

的均值和标准差；

代表条件获得项，

代表偏置项，

代表字

的向量编码，计算得到字向量集合

；再将其输入自注意力层；如公式（11）所示：

（11）

其中，

()为自注意力层，将

（12）

（13）

其中，

代表句子文本，

代表预测到的事件类型，

代表sigmoid函数，

代表触发词的起始位置，

代表触发词的终止位置；

和

代表维度为

的权重矩阵，

和

代表偏置项；

代表句子文本中第

，终止位置

，其中，

代表句子文本的长度；将任一

阈值的字作为触发词的起始位置，将任一

阈值的字作为触发词的终止位置，得到事件的触发词，其中

；

继续利用CLN模块将触发词与

进行融合，触发词

（14）

（15）

其中

代表触发词词语的长度，

代表文本句子的长度，将

输入事件论元

（16）

（17）

其中，

为指示函数，

代表论元的起始位置，

代表可训练的权重矩阵，

为偏移项,

代表论元的结束位置,

代表可训练的权重矩阵,

为偏移项；判断当前所识别的论元是否属于该事件类型，如公式（18）所示：

（18）

其中，

为sigmoid函数，

代表句子文本中第

个字的向量编码；

与

为论元角色

，终止位置

，将任一

阈值的字作为触发词的起始位置，将任一

；

（19）

其中，rl的含义是预测到的事件论元，

代表训练数据集，X代表训练集

中第X条训练样例，

代表当前句子文本事件类型的集合，

代表当前句子文本在给定事件类型时的触发词的集合，

,

,

分别对应的公式如下式（20）~（22）：

（20）

（21）

(22)

其中，

代表当前输入句子的长度，

代表事件类型的预测概率，

代表触发词起始位置的预测概率，

代表触发词终止位置的预测概率，

代表事件论元起始位置的预测概率，

代表事件论元终止位置预测的概率，

代表训练数据中事件类型的真实0/1标签，

代表训练数据中触发词起始位置的真实0/1标签，

代表训练数据中触发词终止位置的真实0/1标签，

代表训练数据中事件论元起始位置的真实0/1标签，

上更新网络参数，保存固定训练轮次中Loss最低的模型；

2.根据权利要求1所述的一种事件抽取方法，其特征在于，所述将所述句子文本构建成图结构数据具体为：

构建以字自身为起点和终点的自连接图结构数据；

3.一种事件抽取装置，其特征在于，包括：

节点向量编码更新单元，用于对所述图结构数据中的每个节点进行初始化向量编码，并基于图注意力网络模型对节点向量编码进行更新，具体用于：

对句子文本

中任一字

进行向量编码，得到

对应的特征向量

，

，维度

对应的特征向量

；

，其中

(1)

其中，

代表第

个节点的邻居集合，

代表维度为

的权重矩阵，

代表两个向量拼接的方法，

代表单层前馈神经网络

；注意力系数归一化处理如公式（2）所示：

(2)

其中，

代表第

(3)

根据计算结果，对节点

的向量编码进行加权求和，如公式（4）所示：

(4)

其中，

代表学习到的向量编码，

代表sigmoid函数；

事件提取单元，用于调用二进制标记网络对更新后的节点向量编码及句子文本进行事件提取，其中，事件提取包括事件类型识别，事件触发词识别和事件论元识别，具体用于：建立事件类型集合

的初始化事件类型向量矩阵

；利用注意力机制来计算事件类型与句子文本对应的字节点

中每个

之间的相关性

，如公式（5）~（6）所示：

(5)

(6)

其中

为事件类型的个数，

为句子文本的长度，

和

代表权重矩阵，

代表事件类型

的向量编码，

代表绝对值运算操作，

代表向量编码点乘操作，

(7)

其中，σ代表sigmoid函数，

阈值的事件类型为事件类型预测的结果，

；

（8）

（9）

（10）

其中，

()为条件层标准化模块，

与

代表可训练的权重矩阵，

与

分别代表

的均值和标准差；

代表条件获得项，

代表偏置项，

代表字

的向量编码，计算得到字向量集合

；再将其输入自注意力层；如公式（11）所示：

（11）

其中，

()为自注意力层，将

（12）

（13）

其中，

代表句子文本，

代表预测到的事件类型，

代表sigmoid函数，

代表触发词的起始位置，

代表触发词的终止位置；

和

代表维度为

的权重矩阵，

和

代表偏置项；

代表句子文本中第

，终止位置

，其中，

代表句子文本的长度；将任一

阈值的字作为触发词的起始位置，将任一

阈值的字作为触发词的终止位置，得到事件的触发词，其中

；

继续利用CLN模块将触发词与

进行融合，触发词

（14）

（15）

其中

代表触发词词语的长度，

代表文本句子的长度，将

输入事件论元

（16）

（17）

其中，

为指示函数，

代表论元的起始位置，

代表可训练的权重矩阵，

为偏移项,

代表论元的结束位置,

代表可训练的权重矩阵,

（18）

其中，

为sigmoid函数，

代表句子文本中第

个字的向量编码；

与

为论元角色

，终止位置

，将任一

阈值的字作为触发词的起始位置，将任一

；

（19）

其中，rl的含义是预测到的事件论元，

代表训练数据集，X代表训练集

中第X条训练样例，

代表当前句子文本事件类型的集合，

代表当前句子文本在给定事件类型时的触发词的集合，

,

,

分别对应的公式如下式（20）~（22）：

（20）

（21）

(22)

其中，

代表当前输入句子的长度，

代表事件类型的预测概率，

代表触发词起始位置的预测概率，

代表触发词终止位置的预测概率，

代表事件论元起始位置的预测概率，

代表事件论元终止位置预测的概率，

代表训练数据中事件类型的真实0/1标签，

代表训练数据中触发词起始位置的真实0/1标签，

代表训练数据中触发词终止位置的真实0/1标签，

代表训练数据中事件论元起始位置的真实0/1标签，

上更新网络参数，保存固定训练轮次中Loss最低的模型；

4.一种事件抽取设备，其特征在于，包括存储器以及处理器，所述存储器内存储有计算机程序，所述计算机程序能够被所述处理器执行，以实现如权利要求1至2任意一项所述的一种事件抽取方法。

5.一种计算机可读存储介质，其特征在于，存储有计算机程序，所述计算机程序能够被所述计算机可读存储介质所在设备的处理器执行，以实现如权利要求1至2任意一项所述的一种事件抽取方法。