CN116245139A

CN116245139A - 图神经网络模型训练方法和装置、事件检测方法和装置

Info

Publication number: CN116245139A
Application number: CN202310436199.1A
Authority: CN
Inventors: 吴继冰; 王腾云; 李璇; 陈海文; 韦晖; 孙皎; 肖开明
Original assignee: National University of Defense Technology
Current assignee: National University of Defense Technology
Priority date: 2023-04-23
Filing date: 2023-04-23
Publication date: 2023-06-09
Anticipated expiration: 2043-04-23
Also published as: CN116245139B

Abstract

本申请公开一种图神经网络模型训练方法和装置、事件检测方法和装置、电子设备及计算机存储介质，能够提高事件检测模型的性能。图神经网络模型训练方法包括：获取训练数据集，训练数据集包括训练文本和训练文本对应的标签事件类型；进行至少一次迭代，以得到事件检测模型，迭代包括：利用第一图神经网络模型和第二图神经网络模型，分别对训练文本进行事件检测，以得到第一预测事件类型和第二预测事件类型；根据第一预测事件类型、第二预测事件类型以及标签事件类型，计算损失值；在第一预测事件类型和第二预测事件类型之间的第三差异满足预设条件的情况下，调整第一图神经网络模型和第二图神经网络模型的参数，以最小化损失值。

Description

图神经网络模型训练方法和装置、事件检测方法和装置

技术领域

本申请涉及人工智能的技术领域，具体地涉及一种图神经网络模型训练方法和装置、事件检测方法和装置、电子设备及计算机存储介质。

背景技术

事件是描述性语料库的核心信息元素。事件检测(event detection，ED)技术已经取得了很大的进展，利用图神经网络模型可以从海量的非结构化文本中检测和提取关键事件信息。

但是，在训练图神经网络模型的过程中，需要利用大量的标记样本。标记样本的标记一般是人工标注的。在大量标记样本的人工标注过程中，难免出现错误，使得训练图神经网络模型所使用的大量标记样本存在噪声，训练得到的图神经网络模型受到噪声影响性能较差。

本背景技术描述的内容仅为了便于了解本领域的相关技术，不视作对现有技术的承认。

发明内容

因此，本发明实施例意图提供一种图神经网络模型训练方法和装置、事件检测方法和装置、电子设备及计算机存储介质。

在第一方面，本发明实施例提供了一种图神经网络模型训练方法，包括：

获取训练数据集，所述训练数据集包括训练文本和所述训练文本对应的标签事件类型；

进行至少一次迭代，最后一次迭代得到的调整后的第一图神经网络模型为训练得到的事件检测模型，所述迭代包括：

利用第一图神经网络模型和第二图神经网络模型，分别对所述训练文本进行事件检测，以得到第一预测事件类型和第二预测事件类型；

根据所述第一预测事件类型、所述第二预测事件类型以及所述标签事件类型，计算损失值；

在所述第一预测事件类型和所述第二预测事件类型之间的第三差异满足预设条件的情况下，调整所述第一图神经网络模型和所述第二图神经网络模型的参数，以最小化所述损失值；

其中，在所述迭代的次数为1的情况下，所述第一图神经网络模型是第一初始图神经网络模型，所述第二图神经网络模型是第二初始图神经网络模型；在所述迭代的次数大于1的情况下，所述第一图神经网络模型是经过上一次迭代调整后的第一图神经网络模型，所述第二图神经网络模型是经过上一次迭代调整后的第二图神经网络模型，所述第一初始图神经网络模型的参数与所述第二初始图神经网络模型的参数不同。

可选地，所述利用第一图神经网络模型和第二图神经网络模型，分别对所述训练文本进行事件检测，以得到第一预测事件类型和第二预测事件类型，包括：利用所述第一图神经网络模型和所述第二图神经网络模型，分别对多个所述训练文本进行事件检测，以得到所述多个训练文本中每个训练文本对应的所述第一预测事件类型和所述第二预测事件类型；

所述根据所述第一预测事件类型、所述第二预测事件类型以及所述标签事件类型，计算损失值，包括：计算所述多个训练文本中每个训练文本对应的损失值；

所述在所述第一预测事件类型和所述第二预测事件类型之间的第三差异满足预设条件的情况下，调整所述第一初始图神经网络模型和所述第二初始图神经网络模型的参数，以最小化所述损失值，包括：利用小于或等于损失阈值的损失值调整所述第一初始图神经网络模型和所述第二初始图神经网络模型的参数，以最小化所述损失值，小于或等于所述损失阈值的损失值的数量与所述多个训练文本的数量之间的比例与所述迭代的次数负相关，所述损失值与所述第三差异正相关。

可选地，所述损失值是根据所述第一预测事件类型与所述标签事件类型的第一差异、所述第二预测事件类型与所述标签事件类型的第二差异、所述第一预测事件类型与所述第二预测事件类型的第三差异确定的，所述第三差异为所述第一预测事件类型相对所述第二预测事件类型的相对熵与所述第二预测事件类型相对所述第一预测事件类型的相对熵之和。

可选地，所述第一初始图神经网络模型与所述第二初始图神经网络模型均为边缘增强的图卷积模型。

可选地，所述训练数据集中所述训练文本的数量为多个，部分所述训练文本对应的标签事件类型是标注错误的。

在第二方面，本发明实施例提供了一种事件检测方法，包括：

获取待处理文本；

利用事件检测模型对所述待处理文本进行事件检测，以得到目标事件类型，其中，所述事件检测模型是利用第一方面所述的方法训练得到的。

在第三方面，本发明实施例提供了一种图神经网络模型训练装置，包括：

获取单元，用于获取训练数据集，所述训练数据集包括训练文本和所述训练文本对应的标签事件类型；

迭代单元，用于进行至少一次迭代，最后一次迭代得到的调整后的第一图神经网络模型为训练得到的事件检测模型，所述迭代包括：

调整所述第一图神经网络模型和所述第二图神经网络模型的参数，以最小化所述损失值；

在第四方面，本发明实施例提供了一种事件检测装置，包括：

获取单元，用于获取文本信息；

处理单元，用于利用事件检测模型对所述文本信息进行处理，以得到目标事件类型，其中，所述事件检测模型是利用第一方面所述的方法训练得到的。

在第五方面，本发明实施例提供一种计算机可读存储介质，其上存储有计算机程序，其中，所述程序被处理器执行时实现第一方面或第二方面所述的方法。

在第六方面，本发明实施例提供一种电子设备，包括：处理器和存储有计算机程序的存储器，所述处理器被配置为在运行计算机程序时执行第一方面或第二方面所述的方法。

本发明实施例中使用的图神经网络模型训练方法，在迭代过程中，根据标签事件类型，以及第一图神经网络模型对训练文本进行事件检测得到的第一预测事件类型、第二图神经网络模型对训练文本进行事件检测得到的第二预测事件类型，并在第一预测事件类型与第二预测事件类型之间的第三差异满足预设条件的情况下对第一图神经网络模型和第二图神经网络模型的参数进行调整。第三差异能够反映第一图神经网络模型和第二图神经网络模型对训练文本的处理结果的一致程度。在第三差异较小，满足预设条件的情况下，对第一图神经网络模型和第二图神经网络模型的参数进行调整，提高训练的鲁棒性，降低标签噪声对事件检测模型性能的影响，使得训练得到的事件检测模型具有更好的性能。

本发明实施例的其他可选特征和技术效果一部分在下文描述，一部分可通过阅读本文而明白。

附图说明

以下，结合附图来详细说明本发明的实施例，所示出的元件不受附图所显示的比例限制，附图中相同或相似的附图标记表示相同或类似的元件，其中：

图1示出了本申请实施例提供的一种图神经网络模型的训练方法的示意性流程图；

图2示出了本申请实施例提供的一种图卷积网络模型联合训练装置的示意性结构图；

图3示出了EE-GCN模型和本申请实施例提供的JT-GCN模型F1分数；

图4示出了本申请实施例提供的一种事件检测方法的示意性流程图；

图5示出了本申请实施例提供的一种图神经网络模型训练装置的示意性结构；

图6示出了本申请实施例提供的一种事件检测装置的示意性结构图；

图7示出了能实施根据本发明实施例的方法的电子设备的示例性结构图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚明白，下面结合具体实施方式和附图，对本发明做进一步详细说明。在此，本发明的示意性具体实施方式及其说明用于解释本发明，但并不作为对本发明的限定。

在本文中使用的术语“包括”及其变形表示开放性包括，即“包括但不限于”。除非特别申明，术语“或”表示“和/或”。术语“基于”表示“至少部分地基于”。术语“一个示例实施例”和“一个实施例”表示“至少一个示例实施例”。术语“另一实施例”表示“至少一个另外的实施例”。术语“第一”、“第二”等等可以指代不同的或相同的对象。下文还可能包括其他明确的和隐含的定义。

人工智能（artificial intelligence, AI）是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说，人工智能是计算机科学的一个分支，它企图了解智能的实质，并生产出一种新的能以人类智能相似的方式作出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法，使机器具有感知、推理与决策的功能。人工智能领域的研究包括机器人，自然语言处理，计算机视觉，决策与推理，人机交互，推荐与搜索，AI基础理论等。

随着人工智能技术的不断发展，让人机之间能够通过自然语言进行交互的自然语言人机交互系统变的越来越重要。人机之间能够通过自然语言进行交互，就需要系统能够识别出人类自然语言的具体含义。通常，系统通过采用对自然语言的句子进行关键信息提取来识别句子的具体含义。

事件作为多异构文本数据的核心要素之一，在大规模开源知识的检测、提取和利用中发挥着不可忽视的作用。为了推动人工智能（artificial intelligence，AI）在开源信息检测领域的应用，迫切需要自动化、智能化地处理各种语料库中的相关事件，如报告、新闻、社交媒体文本等。

事件检测(event detection，ED)是一种从纯文本中检测触发词并识别事件类型的信息抽取过程，在自然语言处理(natural language processing，NLP)中起着至关重要的作用。通过ED可以获得有价值的结构化信息，以支持各种任务，如自动文本摘要、问题回答、信息检索等。

利用神经网络模型的事件检测的方式已经提出，但研究大多集中在标签清晰准确的ED任务上，忽略了不可避免的噪声标签带来的挑战。

众所周知，收集和标注具有完全精确标注的大规模数据集是昂贵且耗时的。人工标注通常会遭遇不可避免的噪声标签，尤其是需要自然语言理解的任务。而且，之前关于深度学习的研究已经显示了标签噪声对学习模型性能的负面影响。遗憾的是，很少有研究关注ED任务对噪声标签的鲁棒性。

为了说明带有噪音标签的ED任务，我们给出了两个示例。

语料库样本S1为：航空公司开除工作失误的飞行员。

在语料库样本S1中，ED任务的目标是找出在此上下文中触发的事件触发词并识别事件类型作为。作为一个事件提及，S1包含三个参数，即两个参与者(航空公司、飞行员)和原因(工作失误)。事件触发词为（开除），根据事件触发词。语料库样本S1的人工标识的标签事件类型为“终点位置”。

语料库样本S2为：一艘正在维修的驱逐舰在海军造船厂爆炸，造成3人死亡，11人受伤。

在语料库样本S2中，事件触发词为爆炸。由于人工标注的不确定性，语料库样本S2对应的事件类型可能被错误地标识为“攻击”，而不是真实准确的事件类型“事故”。

由于未考虑标签噪声，利用带有标签噪声的训练数据进行模型现有的ED模型容易受到标签污染而导致ED模型性能下降。

为了解决上述问题，本申请实施例提供一种图神经网络模型的训练方法，能够提高图神经网络模型对噪声标签的鲁棒性，在训练数据的标签存在错误的情况下，训练得到性能较强的ED模型。

图1是本申请实施例提供的一种图神经网络模型的训练方法的示意性流程图。

在S110，获取训练数据集，所述训练数据集包括训练文本和所述训练文本对应的标签事件类型。

训练数据集中，训练文本的数量可以是一个或多个。不同训练文本对应的标签事件类型可以相同或不同。

在训练数据集中训练文本的数量为多个的情况下，训练数据集可以包括全部或部分训练文本对应的标签事件类型。

在S120，进行至少一次迭代，最后一次迭代得到的调整后的第一图神经网络模型为训练得到的事件检测模型，每次迭代包括：

第一初始图神经网络模型、第二初始图神经网络模型可以理解为经过初始化的图神经网络模型。在初始化过程中，为第一初始图神经网络模型、第二初始图神经网络模型设置的参数是不同的。

图是一种数据结构，它对一组对象（节点）及其关系（边）进行建模。近年来，由于图结构的强大表现力，用机器学习方法分析图的研究越来越受到重视。图神经网络模型（graph neural networks，GNN）是一类基于深度学习的处理图域信息的方法。由于其较好的性能和可解释性，GNN已成为一种广泛应用的图分析方法。

事件检测(event detection，ED)也可理解为事件提取（event extraction，EE），目标是在纯文本中识别特定类型的事件实例。

第一训练事件和第二训练事件分别是第一图神经网络模型和第二图神经网络模型对同一个训练文本进行事件检测得到的结果。

图神经网络模型可以是边缘增强的图卷积神经网络（edge-enhanced graphconvolution networks，EE-GCN），也可以是其他图卷积神经网络（graph convolutionnetworks，GCN）模型。

在对文本的事件检测过程中，可以对文本进行处理，以确定文本的实体、事件提及、事件触发词、事件角色、事件参数等中的一个或多个。实体是一个或一组语义分类的对象，包括人、组织、地点、时间等，可以理解为在兴趣的语义范畴之一中的对象。事件提及:描述一个事件的短语或句子，其中包含事件触发词及其相应的参数。事件触发词:触发词是事件识别的核心，这个词最清楚地表达了事件的提及，通常为动词或名词。事件角色对应于事件表的预定义字段。事件参数是一个扮演预定义事件角色的实体，通常指的是事件的时间、地点和参与者。之后，根据事件触发词可以确定该文本的事件类型。

在一些实施例中，损失值可以包括第一损失值和第二损失值，其中，第一损失值可以是根据所述第一预测事件类型与所述标签事件类型的第一差异，以及所述第一预测事件类型与所述第二预测事件类型的第三差异确定的；第二损失值可以是根据所述第二预测事件类型与所述标签事件类型的第二差异，以及所述第一预测事件类型与所述第二预测事件类型的第三差异确定的。

在调整第一图神经网络模型和第二图神经网络模型的参数的过程中，可以利用第一损失值调整第一图神经网络模型的参数，利用第二损失值调整第二图神经网络模型的参数。

在另一些实施例中，损失值可以是根据所述第一预测事件类型与所述标签事件类型的第一差异、所述第二预测事件类型与所述标签事件类型的第二差异、所述第一预测事件类型与所述第二预测事件类型的第三差异确定的。下面以损失值是根据第一差异、第二差异和第三差异确定的为例进行说明。

在计算损失值的过程中，第一差异与第二差异对应的权重可以是相同的，第三差异对应的权重可以与第一差异与第二差异对应的权重不同。

第一差异可以是利用损失函数分别对第一预测事件类型和标签训练类型进行计算得到的。第二差异可以是利用损失函数分别对第二预测事件类型和标签训练类型进行计算得到的。

第三差异可以利用相对熵（relative entropy）计算得到。示例性地，第三差异可以是第一预测事件类型相对第二预测事件类型的相对熵与第二预测事件类型相对第一预测事件类型的相对熵之和。

相对熵也可以称为库尔贝克·莱布勒（Kullback-Leibler，KL）散度或信息散度。相对熵可以衡量两个随机分布之间的距离，当两个随机分布相同时，它们的相对熵为零，当两个随机分布的差别增大时，它们的相对熵也会增大。

在进行多次迭代的情况下，可以设置小损失选择机制。小损失选择机制的设置，用于减轻网络中错误标记样本的对模型训练的影响。

第三差异需要满足的预设条件可以是第三差异小于或等于差异阈值。通过小损失选择机制，在每次迭代过程中，可以判断第三差异是否大于差异阈值。在第三差异小于或等于差异阈值的情况下，可以调整第一初始图神经网络模型和第二初始图神经网络模型的参数，以最小化损失值。差异阈值可以与迭代的次数负相关。

或者，第三差异需要满足的预设条件可以是损失值是否小于或等于损失阈值。通过小损失选择机制，每次迭代过程中，可以判断损失值是否小于或等于损失阈值。在损失值小于或等于损失阈值的情况下，可以调整第一初始图神经网络模型和第二初始图神经网络模型的参数，以最小化所述损失值，损失阈值可以与迭代的次数负相关。

再或者，损失阈值可以是根据一次迭代过程中输入图神经网络模型的多个训练文本的数量确定的，该多个训练文本中小于或等于损失阈值的损失值的数量与该多个训练文本的数量之间的比例与所述迭代的次数负相关。

在每次迭代过程中，可以利用所述第一图神经网络模型和所述第二图神经网络模型，分别对多个所述训练文本进行事件检测，以得到所述多个训练文本中每个训练文本对应的所述第一预测事件类型和所述第二预测事件类型。

然后，计算所述多个训练文本中每个训练文本对应的损失值。每个训练文本对应的损失值是根据该训练文本对应的第一预测事件类型、该训练文本对应的第二预测事件类型，以及该训练文本对应的标签事件类型计算得到的。

最后，利用该多个训练文本对应的损失值中小于或等于损失阈值的损失值调整所述第一初始图神经网络模型和所述第二初始图神经网络模型的参数，以最小化所述损失值。其中，小于或等于所述损失阈值的损失值的数量与所述多个训练文本的数量之间的比例与所述迭代的次数负相关，所述损失值与所述第三差异正相关。

所述多个训练文本的数量即所述多个训练文本对应的损失值的数量。

也就是说，在计算得到该多个训练文本对应的多个损失值之后，可以对该多个损失值从小到大排列，按照与迭代次数负相关的比例，选取部分损失值，进行图神经网络模型的参数调整。随着迭代次数的增加，根据数量占比越来越小的损失值进行图神经网络模型的参数调整，该部分损失值小于其他未被选中的损失值。

由于损失阈值是根据该次迭代过程中得到的多个损失值确定的，不同迭代次数对应的损失阈值可以是不同的。

在计算损失值的过程中，第一差异与第二差异对应的权重、第三差异对应的权重可以是预设值。在不同的迭代过程中，各个权重值可以保持不变。或者，随着迭代次数增加，第三差异对应的权重可以增加。

S120得到的第一图神经网络模型即事件检测模型可以用于事件检测。

或者，在进行S120之后，还可以进行至少一次迭代。S120之后进行的迭代过程与S120基本相同，但在计算得到该多个训练文本对应的多个损失值之后，在确定损失阈值时，每次迭代得到的多个损失值中小于或等于损失阈值的损失值占该次迭代得到的该多个损失值的比例可以保持不变。

经过S110和S120，以及S120之后的至少一次迭代，得到的第一图神经网络模型可以用于事件检测。

在S110中获取的训练数据集中，训练文本的数量为多个的情况下，部分训练文本对应的标签事件类型可以是标注错误的。

通过S110和S120，在迭代过程中，根据标签事件类型，以及第一图神经网络模型对训练文本进行事件检测得到的第一预测事件类型、第二图神经网络模型对训练文本进行事件检测得到的第二预测事件类型，并在第一预测事件类型与第二预测事件类型之间的第三差异满足预设条件的情况下对第一图神经网络模型和第二图神经网络模型的参数进行调整。第三差异能够反映第一图神经网络模型和第二图神经网络模型对训练文本的处理结果的一致程度。在第三差异较小，满足预设条件的情况下，对第一图神经网络模型和第二图神经网络模型的参数进行调整，提高训练的鲁棒性，降低标签噪声对事件检测模型性能的影响，使得训练得到的事件检测模型具有更好的性能。

本申请的方法可以应用在鲁棒的联合训练图卷积网络（joint-training graphconvolution networks，JT-GCN）模型中。JT-GCN模型的结构可以参见图2的说明。图2以第一图神经网络模型、第二图神经网络模型均为EE-GCN为例进行说明。

图2是本申请实施例提供的一种图卷积网络模型联合训练装置的示意性结构图。图2所示的图卷积网络模型联合训练装置包括第一EE-GCN模型210、第二EE-GCN模型220、联合损失计算模块230、小损失选择模块240、反向传播模块250。

在进行迭代之前，第一EE-GCN 模型210为第一初始EE-GCN模型，第二EE-GCN 模型220为第二初始EE-GCN 模型。第一初始EE-GCN模型与第二初始EE-GCN 模型的参数不同，即第一初始EE-GCN模型与第二初始EE-GCN模型的初始条件不同，因此第一初始EE-GCN模型与第二初始EE-GCN模型具有不同的学习能力。

第一EE-GCN模型210和第二EE-GCN模型220用于，在每次迭代过程中，对输入的训练文本进行事件检测，得到第一预测事件类型为p₁和第一预测事件类型为p₂。

EE-GCN包括输入层、双向长短记忆网路（bi-directional long short-termmemory，BiLSTM）层、GCN、池化层、激活函数和分类层等。

输入层用于对输入EE-GCN的文本进行处理。输入EE-GCN的文本可以表示为输入序列

，其中，每个向量/>

可以向量化为/>

，其中，表示/>

词嵌入向量的维度，/>

表示，R表示实体类型嵌入向量的维度。

BiLSTM层用于根据嵌入向量获得每个单词的上下文信息

。BiLSTM层的输出更符合实际的词表示。BiLSTM层利用每个序列中的句法依存分析，以词为节点，依存关系为边，生成邻接矩阵形式的句法依存图。

句法依存分析并不关注短语成分，而是直接关注词本身以及词之间的二元依存关系。

例如，对于语料库样本S1“航空公司开除工作失误的飞行员”，句子的中心词是动词“开除”，它依赖于一个主语“航空公司”和一个直接宾语“飞行员”。名词修饰词“工作失误的”依赖于“飞行员”。没有任何词依赖prefer，但是习惯上构造一个特殊的词即关键词“root”，它依赖于“开除”。

GCN层用于利用依存句法分析信息中隐含的有用的语言知识，提出了一个边表示张量

，其中，/>

为句法依存图中对应边的向量表示。节点表示张量为

，其中，/>

是每个节点(词)表示的维度。然后在EE-GCN的每一层上采用两个模块l，通过H和E相互更新和信息聚合：

池化层用于进行平均池化等池化操作，从而压缩来自所有通道和ReLU激活函数

的信息。/>

通过相邻张量聚合来自其相邻节点的信息，

更新操作为在每一层/>

可以表示为：

具体来说，对于每个频道

的聚合为具体来说，对于每个频道的聚合/>

为

其中，

是要调整的参数，/>

表示频道/>

的/>

在i、j两个维度的取值为全量。根据节点上下文，层中每个边的边表示/>

可以更新为：

其中，

表示一个可学习的变换矩阵，⊕表示连接操作。

分类层用于在在获得每个词(节点)的最终表示

后，采用具有softmax函数的全连接网络来计算所有事件类型(t∈T)的概率分布：

其中，

和/>

是一个可调整的映射矩阵和一个偏置项。

对于第一EE-GCN模型210和第二EE-GCN模型220，分别选择概率最大的事件标签，第一EE-GCN模型210得到的分类结果为p₁，第二EE-GCN模型220得到的分类结果为p₂，其中，p₁，

。也就是说，第一EE-GCN模型210输出的第一预测事件类型为p₁，第二EE-GCN模型220输出的第二预测事件类型为p₂。在每次迭代后，第一EE-GCN模型210的参数可以表示为/>

，第二EE-GCN模型220的参数可以表示为/>

。

联合损失计算模块230用于，在每次迭代过程中，根据第一EE-GCN模型210输出的p₁、第二图神经网络模型220输出的p₂和标签事件类型，计算损失值。该损失值可以理解为第一EE-GCN模型210和第二图神经网络模型220的联合损失。

对于第一EE-GCN模型210和第二EE-GCN模型220中的每个EE-GCN模型，可以使用偏差损失函数来增强标签事件类型的影响力。

事件中有各类事件，各类事件的数量不同，其中非事件类型占据比较大的部分，通过增加偏置权重，降低非事件类型的权重，使得标签事件类型的影响力得到增强。

对于每个EE-GCN模型，输出的预测事件类型

与标签事件类型检测损失，检测损失可以表示为：

其中，

，/>

为进行一次迭代过程中输入EE-GCN模型的训练文本的数量，/>

为训练文本/>

的字数，/>

为事件t的标签事件类型，/>

为偏置权重，/>

大于1。每个训练文本可以理解为一个句子。在每次迭代过程中，输入EE-GCN模型的训练文本的数量可以是一个或多个。训练集合中包含了单词的实体类型、标签事件类型等信息，训练集合采用开头-中间-结尾（begin-inside-outside，BIO）标注，在训练文本的关键词等位置标注了标签事件类型。如果单词标注有标签事件类型，则该单词的/>

等于1；反之，/>

等于0。

通过第一EE-GCN模型210和第二EE-GCN模型220对相同训练文本的处理结果，可以计算联合损失。在次数不同的迭代中，输入EE-GCN模型的一个或多个训练文本可以相同或不同。每次迭代所使用的一个或多个训练文本可以理解为训练数据集合中的小批量数据。

第一EE-GCN模型210和第二EE-GCN模型220之间的损失值可以表示为：

其中，

是共正则化的一个参数，/>

；/>

为第一EE-GCN模型210与第二EE-GCN模型220的对比度损失，也可以理解为第三差异；/>

为常规检测损失。

常规检测损失

可以表示为

其中，

为第一EE-GCN模型210的检测损失，也可以理解为第一差异；/>

为第二EE-GCN模型220的检测损失，也可以理解为第二差异；

对比度损失

可以表示为

其中，

表示/>

相对/>

的KL散度，可以表示为

表示/>

相对/>

的KL散度，可以表示为

小损失选择模块240用于实现小损失选择机制。

如果联合损失计算模块230计算得到的损失值较小，说明该训练文本的标签事件类型很可能是准确的，即该标签事件类型为真实标签。

小损失选择模块240用于，在每次迭代过程中，在损失值满足预设条件的情况下，输出该损失值。预设条件可以是：

其中，

，/>

表示小批量训练集，/>

表示训练数据中的全部训练文本，

表示迭代时小损失样本的比例，也就是该次迭代过程中小于或等于损失阈值的损失值的数量占该次迭代得到的多个损失值的总数量的比例，可以表示为

其中，

是一个取决于噪声标签率的参数，迭代参数/>

随着迭代次数增加从/>

开始逐渐增大，迭代参数/>

决定了/>

从1下降到/>

的速度。

反向传播模块250用于，在每次迭代过程中，根据小损失选择模块240输出的损失值，调整第一图神经网络模型210和第二图神经网络模型220的参数，以最小化损失值。

随着迭代的不断进行，两个EE-GCN模型的输出逐渐达成一致。经过多次迭代，可以得到事件检测模型。事件检测模型是经过多次迭代得到的第一EE-GCN模型210或第二EE-GCN模型220。

图卷积网络模型联合训练装置在每次迭代过程中，利用两个EE-GCN模型进行事件检测，结合该两个模型的检测损失和对比度损失，对该两个模型进行参数调整，通过多次迭代，实现事件检测模型的训练。

通过在图卷积网络模型联合训练装置中设置小损失选择模块，从而训练过程中引入小损失选择机制，在损失值较大的情况下，将该损失值排出在反向传播过程之外。损失值较大可以认为是高概率的标注错误，将该损失值排出在反向传播之外，可以减小训练过程中噪声标签的影响，提高训练的鲁棒性。

利用基准数据集，可以对训练得到的事件检测模型的鲁棒性进行验证。基准数据集可以是ACE 2005多语言培训语料库（ACE 2005 multilingual training corpus，ACE2005数据集）。

ACE 2005是ED的标准监督数据集。在ACE 2005数据集中，标签事件类型是准确的，不存在噪声标签。使用工具包CoreNLP1可以进行依赖分析。

利用标签转移矩阵，可以将ACE 2005数据集进行处理，得到包括噪声标签的训练数据。标签转移矩阵可以表示为

。噪音标签/>

是从干净的标签/>

翻转过来的。标签转移矩阵代表性结构可以是对称翻转或非对称翻转。也就是说，标签转移矩阵可以是对称矩阵或非对称矩阵。下面，以标签转移矩阵为对称矩阵为例进行说明。

如表1所示，标签转移矩阵每一行列都代表一类，每个元素代表该行代表的事件转换成该列代表的事件的概率。每一个事件类型转换成其他事件类型的总概率也可以称为噪声比。对于表1所示的标签转移矩阵，每一个事件类型的噪声比为0.3。

表1 标签转移矩阵

训练过程中，采用的超参数如表2所示。在NVIDIA Tesla V100 GP上，所有代码都可以由带有默认参数的PyTorch实现。

表2 超参数取值表

超参数	值
		词向量的维数（dimension of word vectors，dw）	100
实体类向量的维数（dimension of entity types vectors，de）	50
		边标签向量的维数（dimension of edge labels vectors，p）	50
Bi-LSTM 的维数（dimension of Bi-LSTM，dl/2）	100
		GCN 的维数（dimension of GCN，dg）GCN 的层数（layers of GCN，L）	1502
学习率learning rate	0.001
		优化器optimizer	Adam
损失函数的偏置权重（bias weight of loss function，α）	5
		批尺寸（batch size）	64
运算次数epoch	50
		最大文本长度maximum text length	50
共正则化参数（parameter of co-regularization，λ）	0.5
		迭代参数（iteration parameter，Tk）	10

利用包括噪声标签的训练数据，按照本申请实施例提供的图神经网络模型的训练方法进行训练，得到事件检测模型，该事件检测模型可以称为JT-GCN模型。

将包括噪声标签的训练数据中的训练文本输入初始EE-GCN模型，根据初始EE-GCN模型对训练文本处理得到的训练事件与训练文本对应的标签训练事件之间的差异，调整初始EE-GCN模型的参数，以得到EE-GCN模型。

图3中的（a）至（c）示出了训练数据的噪声标签的比例分别为20%、40%和80%情况下利用包括噪声标签的训练数据训练得到的JT-GCN模型和EE-GCN模型的F1分数（F1 Score）随运算次数（epoch）的变化情况。

F1分数（F1 Score），是统计学中用来衡量二分类模型精确度的一种指标。它同时兼顾了分类模型的精确率和召回率。F1分数可以看作是模型精确率和召回率的一种调和平均，它的最大值是1，最小值是0。

随着标签污染程度的增加，JT-GCN的优势持续扩大。

随着运算次数增加，EE-GCN模型的F1分数先达到较高水平，然后逐渐减小，噪声标签导致EE-GCN模型过度拟合。

JT-GCN模型随着运算次数的增加，没有出现由于导致的过度拟合，并表现出鲁棒的性能，能够停止或缓解运算次数的减少过程。

表3示出了JT-GCN模型和EE-GCN模型在最后10个epoch的平均测试性能（%）。

表3平均测试性能(%)

在训练数据和验证数据上均无标签噪声时，EE-GCN的测试性能略高于JT-GCN。然而，很明显，在训练数据的噪声比为（20%~80%）的情况下，JT-GCN模型在所有指标（准确率P、召回率R、F1分数），上都优于EE-GCN模型。当噪声比为20%时，JT-GCN在F1分数上的报告率为74.92%，F1分数高于EE-GCN的报告率70.86%。当噪声比为80%时JT-GCN模型的性能比EE-GCN模型的性能高14%以上。

图4是本申请实施例提供的一种事件检测方法的示意性流程图。该方法包括S410至S420。

在S410，获取待处理文本。

在S420，利用事件检测模型对所述待处理文本进行事件检测，以得到目标事件类型。

所述事件检测模型是利用图2所示的图神经网络模型训练方法得到的。

上文结合图1至图4描述了本申请实施例提供的图神经网络模型训练方法和事件检测方法，下面结合图5至图7，描述本申请实施例的图神经网络模型训练装置、事件检测装置和电子设备。应理解，图神经网络模型训练装置、事件检测装置和电子设备的描述与上文方法实施例的描述相互对应，因此，未详细描述的部分可以参见上文的描述。

图5是本申请实施例提供的一种图神经网络模型训练装置的示意性结构。

图神经网络模型训练装置包括获取单元510和迭代单元520。

获取单元510用于，获取训练数据集，所述训练数据集包括训练文本和所述训练文本对应的标签事件类型。

迭代单元520用于，进行至少一次迭代，最后一次迭代得到的调整后的第一图神经网络模型为训练得到的事件检测模型。

每次迭代包括：利用第一图神经网络模型和第二图神经网络模型，分别对所述训练文本进行事件检测，以得到第一预测事件类型和第二预测事件类型；根据所述第一预测事件类型、所述第二预测事件类型以及所述标签事件类型，计算损失值；在所述第一预测事件类型和所述第二预测事件类型之间的第三差异满足预设条件的情况下，调整所述第一图神经网络模型和所述第二图神经网络模型的参数，以最小化所述损失值。

在所述迭代的次数为1的情况下，所述第一图神经网络模型是第一初始图神经网络模型，所述第二图神经网络模型是第二初始图神经网络模型；在所述迭代的次数大于1的情况下，所述第一图神经网络模型是经过上一次迭代调整后的第一图神经网络模型，所述第二图神经网络模型是经过上一次迭代调整后的第二图神经网络模型，所述第一初始图神经网络模型的参数与所述第二初始图神经网络模型的参数不同。

可选地，所述在所述第一预测事件类型和所述第二预测事件类型之间的第三差异满足预设条件的情况下，调整所述第一初始图神经网络模型和所述第二初始图神经网络模型的参数，以最小化所述损失值，包括：在所述损失值小于或等于损失阈值的情况下，调整所述第一初始图神经网络模型和所述第二初始图神经网络模型的参数，以最小化所述损失值，所述损失阈值与所述迭代的次数负相关。

所述在所述第一预测事件类型和所述第二预测事件类型之间的第三差异满足预设条件的情况下，调整所述第一初始图神经网络模型和所述第二初始图神经网络模型的参数，以最小化所述损失值，包括：利用小于或等于损失阈值的所述损失值调整所述第一初始图神经网络模型和所述第二初始图神经网络模型的参数，以最小化所述损失值，小于或等于所述损失阈值的所述损失值的数量与所述多个训练文本的数量之间的比例与所述迭代的次数负相关，所述损失值与所述第三差异正相关。

图6是本申请实施例提供的一种事件检测装置的示意性结构图。

事件检测装置包括获取单元610和处理单元620。

获取单元610用于，获取待处理文本。

处理单元620用于，利用事件检测模型对所述待处理文本进行事件检测，以得到目标事件类型，其中，所述事件检测模型是利用图1所述的方法训练得到的。

在本发明实施例中，提供一种电子设备，包括：处理器和存储有计算机程序的存储器，所述处理器被配置为在运行计算机程序时执行任一本申请实施例的方法。

图7示出了一种可以实施本申请实施例的方法或实现本申请实施例的电子设备700的示意图，在一些实施例中可以包括比图示更多或更少的电子设备。在一些实施例中，可以利用单个或多个电子设备实施。在一些实施例中，可以利用云端或分布式的电子设备实施。

如图7所示，电子设备700包括处理器701，其可以根据存储在只读存储器（ROM）702中的程序和/或数据或者从存储部分708加载到随机访问存储器（RAM）703中的程序和/或数据而执行各种适当的操作和处理。处理器701可以是一个多核的处理器，也可以包含多个处理器。在一些实施例中，处理器701可以包含一个通用的主处理器以及一个或多个特殊的协处理器，例如，中央处理器（CPU）、图形处理器（GPU）、神经网络处理器（NPU）、数字信号处理器（DSP）等等。在RAM 703中，还存储有电子设备700操作所需的各种程序和数据。处理器701、ROM 702以及RAM 703通过总线704彼此相连。输入/输出（I/O）接口705也连接至总线704。

上述处理器与存储器共同用于执行存储在存储器中的程序，所述程序被计算机执行时能够实现上述各实施例描述的方法、步骤或功能。

以下部件连接至I/O接口705：包括键盘、鼠标、触摸屏等的输入部分706；包括诸如阴极射线管（CRT）、液晶显示器（LCD）等以及扬声器等的输出部分707；包括硬盘等的存储部分708；以及包括诸如LAN卡、调制解调器等的网络接口卡的通信部分709。通信部分709经由诸如因特网的网络执行通信处理。驱动器710也根据需要连接至I/O接口705。可拆卸介质711，诸如磁盘、光盘、磁光盘、半导体存储器等等，根据需要安装在驱动器710上，以便于从其上读出的计算机程序根据需要被安装入存储部分708。图7中仅示意性示出部分组件，并不意味着计算机系统700只包括图7所示组件。

上述实施例阐明的系统、装置、模块或单元，可以由计算机或其关联部件实现。计算机例如可以为移动终端、智能电话、个人计算机、膝上型计算机、车载人机交互设备、个人数字助理、媒体播放器、导航设备、游戏控制台、平板电脑、可穿戴设备、智能电视、物联网系统、智能家居、工业计算机、服务器或者其组合。

尽管未示出，在本发明实施例中，提供一种存储介质，所述存储介质存储有计算机程序，所述计算机程序配置成被运行时执行任一本发明实施例的图神经网络模型训练方法或事件检测方法。

在本发明的实施例的存储介质包括永久性和非永久性、可移动和非可移动的可以由任何方法或技术来实现信息存储的物品。存储介质的例子包括，但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带，磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质，可用于存储可以被计算设备访问的信息。

在本发明的实施例的方法、程序、系统、装置等，可以在单个或多个连网的计算机中执行或实现，也可以在分布式计算环境中实践。在本说明书实施例中，在这些分布式计算环境中，可以由通过通信网络而被连接的远程处理设备来执行任务。

本领域技术人员应明白，本说明书的实施例可提供为方法、系统或计算机程序产品。因此，本领域技术人员可想到，上述实施例阐明的功能模块/单元或控制器以及相关方法步骤的实现，可以用软件、硬件和软/硬件结合的方式实现。

除非明确指出，根据本发明实施例记载的方法、程序的动作或步骤并不必须按照特定的顺序来执行并且仍然可以实现期望的结果。在某些具体实施方式中，多任务处理和并行处理也是可以的或者可能是有利的。

在本文中，针对本发明的多个实施例进行了描述，但为简明起见，各实施例的描述并不是详尽的，各个实施例之间相同或相似的特征或部分可能会被省略。在本文中， “一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”意指适用于根据本发明的至少一个实施例或示例中，而非所有实施例。上述术语并不必然意味着指代相同的实施例或示例。在不相互矛盾的情况下，本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。

已参考上述实施例具体示出并描述了本发明的示例性系统及方法，其仅为实施本系统及方法的最佳模式的示例。本领域的技术人员可以理解的是可以在实施本系统及/或方法时对这里描述的系统及方法的实施例做各种改变而不脱离界定在所附权利要求中的本发明的精神及范围。

Claims

1.一种图神经网络模型训练方法，其特征在于，所述方法包括：

根据所述第一预测事件类型、所述第二预测事件类型以及所述标签事件类型相互之间的差异，计算损失值；

2.根据权利要求1所述的方法，其特征在于，所述利用第一图神经网络模型和第二图神经网络模型，分别对所述训练文本进行事件检测，以得到第一预测事件类型和第二预测事件类型，包括：利用所述第一图神经网络模型和所述第二图神经网络模型，分别对多个所述训练文本进行事件检测，以得到所述多个训练文本中每个训练文本对应的所述第一预测事件类型和所述第二预测事件类型；

所述根据所述第一预测事件类型、所述第二预测事件类型以及所述标签事件类型相互之间的差异，计算损失值，包括：计算所述多个训练文本中每个训练文本对应的损失值；

所述在所述第一预测事件类型和所述第二预测事件类型之间的第三差异满足预设条件的情况下，调整所述第一初始图神经网络模型和所述第二初始图神经网络模型的参数，以最小化所述损失值，包括：利用小于或等于损失阈值的所述损失值调整所述第一初始图神经网络模型和所述第二初始图神经网络模型的参数，以最小化所述损失值；小于或等于所述损失阈值的损失值的数量与所述多个训练文本的数量之间的比例与所述迭代的次数负相关，所述损失值与所述第三差异正相关。

3.根据权利要求1或2所述的方法，其特征在于，所述损失值是根据所述第一预测事件类型与所述标签事件类型的第一差异、所述第二预测事件类型与所述标签事件类型的第二差异、所述第一预测事件类型与所述第二预测事件类型的第三差异确定的，所述第三差异为所述第一预测事件类型相对所述第二预测事件类型的相对熵与所述第二预测事件类型相对所述第一预测事件类型的相对熵之和。

4.根据权利要求1或2所述的方法，其特征在于，所述第一初始图神经网络模型与所述第二初始图神经网络模型均为边缘增强的图卷积模型。

5.根据权利要求1或2所述的方法，其特征在于，所述训练数据集中所述训练文本的数量为多个，部分所述训练文本对应的标签事件类型是标注错误的。

6.一种事件检测方法，其特征在于，所述方法包括：

获取待处理文本；

利用事件检测模型对所述待处理文本进行事件检测，以得到目标事件类型，其中，所述事件检测模型是利用权利要求1-5中任一项所述的方法训练得到的。

7.一种图神经网络模型训练装置，其特征在于，包括：

8.一种事件检测装置，其特征在于，包括：

获取单元，用于获取文本信息；

处理单元，用于利用事件检测模型对所述文本信息进行处理，以得到目标事件类型，其中，所述事件检测模型是利用权利要求1-5中任一项所述的方法训练得到的。

9.一种存储介质，其特征在于，其上存储有计算机程序，其中，所述程序被处理器运行时实现如权利要求1-6中任一所述的方法。

10.一种电子设备，其特征在于，包括：处理器和存储有计算机程序的存储器，所述处理器被配置为在运行计算机程序时实现权利要求1-6中任一所述的方法。