CN115329088A

CN115329088A - 图神经网络事件检测模型的鲁棒性分析方法

Info

Publication number: CN115329088A
Application number: CN202211245739.XA
Authority: CN
Inventors: 王懋; 韦晖; 刘丽华; 吴继冰; 肖开明; 朱汉卿; 杨皓宇
Original assignee: National University of Defense Technology
Current assignee: National University of Defense Technology
Priority date: 2022-10-12
Filing date: 2022-10-12
Publication date: 2022-11-11
Anticipated expiration: 2042-10-12
Also published as: CN115329088B

Abstract

本发明公开了图神经网络事件检测模型的鲁棒性分析方法，包括：通过通用文本变换和亚种群变换将原始文本数据转换为对抗数据，将词向量化为

并输入Bi‑LSTM网络中，对输入序列进行句法依存分析，得到句法依存图；将句法依存图中的边嵌入向量空间，得到一个边表示张量；将每个节点的表示变换到d_g维后，每层中每个节点的向量通过边表示张量聚合邻居节点更新；将各个节点的最终表示输入全连接网络，计算所有事件类型的概率分布，将概率最大的事件标签作为分类结果并输出。本发明在存在对抗数据时性能优于现有模型。

Description

图神经网络事件检测模型的鲁棒性分析方法

技术领域

本发明属于图神经网络技术领域，尤其涉及图神经网络事件检测模型的鲁棒性分析方法。

背景技术

事件检测（ED）是自然语言处理（NLP）领域的一个重要任务，其旨在从给定的文本中识别能代表事件的触发词并将它们分类为正确的事件类型。如图1所示，一个ED模型旨在将S1中的“被破坏”识别为“攻击”的触发词，将S2中的“被解雇”识别为“失去工作”的触发词。ED促进了事件关系抽取，并且对现实世界的应用有益，如自动文本摘要、信息检索和问答。

传统的ED模型主要基于机器学习方法，但它们的性能严重依赖于人工选择的特征。随着近年深度学习理论与技术的发展，越来越多的研究者采用深度学习方法来完成ED任务。最近，更多的研究集中于如何将文本序列转化为图结构数据，以融入更丰富的语义信息，进而将图神经网络（GNN）引入ED任务。目前最先进的事件检测模型都是基于GNN的。

上述模型大多基于一个默认且完美的数据集假设，即标签质量高、噪音少且分布均衡。并期望从这样的数据集中学到的模式是可以推广到其他数据集的。然而，不满足这一完备性的真实数据集会导致模型包含与训练数据相同的偏差。大多数关于ED的研究主要关注模型的构建，并根据高质量数据集上的指标如Precision、Recall和F1分数来评估模型的性能，这会导致对模型能力的有过高的评价。

在NLP领域中，模型的鲁棒性显然是必不可少的指标。现实世界中的应用接收的输入通常不是高质量的，因此需要对不同输入文本都有很强适应性的模型。尽管已有研究开始关注NLP模型的鲁棒性，但其中关注ED模型的甚少。

Lu等人在非专利文献“Distilling discrimination and generalizationknowledge for event detection via delta-representation learning[C]//Proceedings of the 57th Annual Meeting of the Association for ComputationalLinguistics. 2019: 4366-4376”中提出一个Δ-learning方法以提取区分歧义触发词的判别知识以及检测未见/稀疏触发词的泛化知识，但他们忽略了精心设计的对抗文本。Liu等人在非专利文献“How Does Context Matter On the Robustness of Event Detectionwith Context-Selective Mask Generalization[C]//Proceedings of the 2020Conference on Empirical Methods in Natural Language Processing: Findings.2020: 2523-2532”中提出一种新的训练范式，名为context-selective maskgeneralization for ED，并通过实验证明了该范式在防御对抗攻击、探索未见触发词和处理歧义情况的有效性。然而，他们仅仅考虑了词级别的对抗攻击，而没有考虑字符级别的对抗攻击以及亚种群。此外，据本发明所知，尚未有关于GNN模型在事件检测问题上的鲁棒性的研究。

早期，关于ED的研究主要采用传统的机器学习方法，以N-gram语言模型和自然语法语义解析工具提取的语言特征为主要特征。这些所选择的特征的质量直接影响ED模型的整体性能，同时，这种方法对人力资源投入和专业知识都有较高要求。

深度学习最突出的优势就是通过多层神经网络自动地从原始数据中学习出有效的特征，因此，随着近年来深度学习理论和技术的逐步完善，越来越多的研究者采用深度学习方法来解决ED问题。Nguyen等人在非专利文献“Modeling skip-grams for eventdetection with convolutional neural networks[C]//Proceedings of the 2016Conference on Empirical Methods in Natural Language Processing. 2016: 886-891”首次将卷积神经网络（CNN）引入到事件抽取（EE）中，通过卷积运算将候选词的相邻词的语义聚合在一起，从而增强了词向量的语义表示；动态多池化策略被用来将更多信息引入 CNN，他们认为传统卷积无法提取长距离词之间的关联，因此提出了skip-grams方法来捕捉不连续词之间的语义关联。Ghaeini等人在非专利文献“Event nugget detectionwith forward-backward recurrent neural networks[C]// Proceedings of the 54thAnnual Meeting of the Association for Computational Linguistics (Volume 2:Short Papers). 2016: 369-373”首次将循环神经网络（RNN）引入ED中，以检测多词事件。

最近，更多的研究关注如何将文本序列转化成图结构数据，以融入更丰富的语义信息，进而GNN被引入了ED任务。Nguyen等人在非专利文献“Graph convolutionalnetworks with argument-aware pooling for event detection[C]//Thirty-secondAAAI conference on artificial intelligence, Menlo Park:AAAI, 2018”中第一次通过句法依存树将图卷积网络（GCN）引入到ED中，并取得了显着的效果；Liu等人在非专利文献“Jointly multiple events extraction via attention-based graph informationaggregation[C]//Proceedings of the 2018 Conference on Empirical Methods inNatural Language Processing: Findings. 2018”中用自注意力和高速网络增强了GCN，进而提升了GCN在ED任务上的性能；多阶距离和多层词向量注意力聚合机制被引入GCN，进一步提升了GCN的性能；Cui等人在非专利文献“Edge-enhanced graph convolutionnetworks for event detection with syntactic relation[C]//Findings of theAssociation for Computational Linguistics: EMNLP 2020. 2020: 2329-2339”中提出通过节点更新模块和边更新模块学习句法依存图中的边的嵌入向量，实现了GCN的SOTA效果；Lai等人在非专利文献“Event detection: Gate diversity and syntacticimportance scoresfor graph convolution neural networks[C]//Proceedings of the2020 Conference on Empirical Methods in Natural Language Processing (EMNLP).2020: 5405-5411”中使用触发词过滤器来减少相邻词之间无关噪声的影响，实现了GCN效果的提升。

Papernot 等人在非专利文献“Crafting adversarial input sequences forrecurrent neural networks[C]//MILCOM 2016-2016 IEEE Military CommunicationsConference. IEEE, 2016: 49-54”中首先研究了如何针对RNN设计对抗性的文本序列；Alzantot 等人在非专利文献“Generating Natural Language Adversarial Examples[C]// Proceedings of the 2018 Conference on Empirical Methods in NaturalLanguage Processing. 2018:2890–2896”中设计了一种启发式优化算法生成语义和句法相似的对抗性文本样本；一种名为PWWS的贪婪算法被提出用于生成保持词汇正确性、语法正确性和语义相似性的对抗性文本样本；Morris等人在非专利文献“A framework foradversarial attacks, data augmentation, and adversarial training in nlp[C]//Proceedings of the 2020 Conference on Empirical Methods in Natural LanguageProcessing: System Demonstrations. 2020: 119-126”中开发了一个可在NLP任务中使用对抗攻击、数据增强和对抗训练的平台TextAttack，它仅需定义一个目标函数、一组约束、一个文本变换和一个搜索方法便可复现前人提出的或个性化定制的文本攻击算法，以生成高质量的对抗性文本；OpenAttack与TextAttack的区别和对其的补充在于支持所有攻击、多语言和并行处理；TextFlint是一个用于NLP任务的多语言鲁棒性评估平台，该平台不但整合了通用文本变换、特定于任务的文本变换、对抗攻击、亚种群以及它们的组合，还能自动生成可视化报告，有助于进行全面的鲁棒性分析。

ED模型的鲁棒性问题具有重要的现实意义且亟待解决，关于该问题的研究较少。Lu等人在非专利文献“Distilling discrimination and generalization knowledge forevent detection via delta-representation learning[C]//Proceedings of the 57thAnnual Meeting of the Association for Computational Linguistics. 2019: 4366-4376”中提出一种Δ-representation learning方法，通过有效解耦、学习和融合事件表示的可变增量部分，而不是学习单一的综合表示，来提取区分歧义触发词的判别知识以及检测未见/稀疏触发词的泛化知识。尽管Lu等考虑了输入文本的歧义性和稀疏性，但他们忽略了精心设计的对抗文本，使得ED模型不是非常鲁棒。Liu等人在非专利文献“How DoesContext Matter On the Robustness of Event Detection with Context-SelectiveMask Generalization[C]//Proceedings of the 2020 Conference on EmpiricalMethods in Natural Language Processing: Findings. 2020: 2523-2532”中提出一种名为context-selective mask generalization for ED的训练范式，它有效地提升了模型在对抗攻击、词表外（OOV）触发词以及歧义触发词三个方面的鲁棒性。然而，Liu等仅仅使用Alzantot的算法生成仅扰动触发词和扰动所有词的对抗样本，以评估ED模型的鲁棒性，而没有考虑不同类型的文本变换和亚种群，这使得模型的鲁棒性分析并不够全面。

发明内容

为了研究ED模型的鲁棒性，本发明首先提出了一个事件检测模型鲁棒性分析框架，以评估ED模型在面对各种文本变换和亚种群的性能，基于评估结果本发明可以全面地分析ED模型的鲁棒性。为了提升图神经网络事件检测模型的鲁棒性，本发明提出了一种新的多阶距离表示方法以更好地捕捉长距离词之间的关联，还提出了一种基于注意力权重的边表示更新方法，能够在边更新中更好地区分不同类型边的重要性。大量实验证实了所提出的框架以及新模型的有效性。

本发明公开的图神经网络事件检测模型的鲁棒性分析方法，包括以下步骤：

获取原始文本数据；

通过通用文本变换和亚种群变换，将原始文本数据转换为对抗数据，将对抗数据作为输入序列

，其中

为第i个token的向量，n为序列中token的数量；

将

向量化为

，其中

和

分别表示

的词嵌入向量和实体类型嵌入向量，d _w、d _e分别是所述词嵌入向量和实体类型嵌入向量的维度；

将

输入隐藏层维度为d _l/2的Bi-LSTM网络中，

分别为

的正向隐层状态和反向隐层状态，用

来表示每个token的

；同时对输入序列进行句法依存分析，即将单词作为节点，依存关系作为边，得到句法依存图；

将句法依存图中的边嵌入向量空间，得到一个边表示张量；

将每个节点的表示变换到d_g维后，

作为EE-GCN神经网络中第1层的输入状态，层

中每个节点的向量通过边表示张量聚合邻居节点更新，L为EE-GCN神经网络的层数；

将各个节点的最终表示

输入全连接网络，使用Softmax函数计算所有事件类型的概率分布，将概率最大的事件标签作为分类结果并输出，使用有偏损失函数来增强事件标签对训练过程的影响。

进一步的，层

中每个节点的向量通过边表示张量聚合邻居节点更新，层l(

)的输出状态如下：

分别是第l层中各个通道的节点表示，p是通道数；

具体而言，聚合是在边表示张量中逐通道进行的，如下所示：

其中，Pool表示平均池化操作，用于压缩所有通道的信息，

是一个可学习的参数，

是ReLU激活函数。

进一步的，层中各边的向量更新如下所示：

其中，

是一个可学习的参数，

表示连接操作，

是第l层中第i个节点的表示，

是第l层中第j个节点的表示。

进一步的，所述使用Softmax函数计算所有事件类型的概率分布的公式如下：

其中，

为各个节点的最终表示，

将最终表示

映射为在各个事件类型上的特征得分，b _C是偏置项。

进一步的，所述有偏损失函数如下：

其中，N _S是句子个数，n _i是句子s _i的单词个数，

是单词的真实事件标签；若单词的事件类型是‘O’则I(O)等于1，否则等于0；

是大于1的权重系数。

进一步的，所述通用文本变换包括Keyboard、Ocr、SpellingError、Tense、Typos、SwapSyn和EntTypos。

进一步的，选择Length-subpopulation来基于文本长度对原始数据进行过滤，以生成亚种群，并选择GPT-2语言模型的Perplexity函数或算法来筛选原始数据，以生成亚种群，其公式如下所示：

其中

是GPT-2语言模型生成文本序列

的概率。

进一步的，引入多阶距离表示方法，以捕捉长距离词之间的关联，增强触发词上下文感知能力，并使用基于注意力权重的边表示更新方法，在引入多阶距离的情况下更好地在边更新中区分不同类型边的重要性。

进一步的，所述多阶距离表示方法将所有距离为2和3的边的标签分别设置为”distance:2”和”distance:3”，只有这些边的嵌入向量参与后续节点更新和边更新的计算。

进一步的，所述基于注意力权重的边表示更新方法，将每个边的向量表示根据边两端节点计算的权重分数进行更新，其在数学上的定义如下：

其在数学上的定义如下：

其中，

是一个可学习的参数。

本发明的有益效果如下：

在目前对ED模型鲁棒性的研究较少的情况下，提出了一个事件检测鲁棒性分析框架，有助于全面地分析ED模型的鲁棒性。

提出了一种新的多阶距离表示方法和一种基于注意力权重的边表示更新方法以增强EE-GCN，进而设计了一个名为A-MDL-EEGCN的新模型。实验表明该模型在ACE2005数据集上的性能优于之前提出的图神经网络事件检测模型，尤其是存在对抗数据的情况。

使用事件检测模型鲁棒性分析框架，进行了大量实验评估几个图神经网络事件检测模型的性能，并基于实验结果进行了全面的鲁棒性分析，对评估和设计鲁棒的事件检测模型提供了新的方法。

附图说明

图1事件检测示例图；

图2事件检测模型鲁棒性分析框架；

图3本发明的A-MDL-EEGCN模型的输入层结构图；

图4本发明的A-MDL-EEGCN模型的图网络层结构图。

具体实施方式

下面结合附图对本发明作进一步的说明，但不以任何方式对本发明加以限制，基于本发明教导所作的任何变换或替换，均属于本发明的保护范围。

本发明将ED视为序列标注任务。任务的输入是一个自然文本序列，文本中的每个单词都被视为一个token（词）。形式化地，给定一个包含n个token的输入序列

，相应的事件类型序列为

，其中事件类型本文采用”BIO”模式标注。

TextFlint平台仅能对命名实体识别（NER）、关系抽取（RE）、词性标注（POST）和情感分析（SA）等特定NLP任务的进行鲁棒性分析。因此，本发明利用TextFlint平台提供的功能构建了一个ED模型鲁棒性分析框架，如图2所示。该框架利用TextFlint从原始数据生成对抗数据，包括经文本变换后的数据和亚种群，然后评估模型在这些对抗数据集上的性能，并与在原始数据集上的性能进行比较，基于此本发明可以全面地分析模型的鲁棒性。所用的文本变换和亚种群的描述如下。

文本变换：首先，从通用文本变换中选择了Keyboard、Ocr、SpellingError、Tense、Typos和SwapSyn。其次，由于A-MDL-EEGCN、EE-GCN和MOGAND均将实体类型考虑到了输入中，因此从NER任务文本转换中选择EntTypos。上述七种文本变换及对应的描述见表1。

表1

亚种群：由于各个输入文本的长度不完全一致，序列标注模型中通常设置一个最大文本长度，对短文本进行填充(用占位符)，对长文本进行截断，以输出长度一致的预测序列。因此，选择Length-subpopulation来基于文本长度对原始数据进行过滤，以生成亚种群。

此外，还选择GPT-2语言模型的Perplexity来筛选原始数据，以生成亚种群，其公式如下所示：

（1）

其中

是GPT-2语言模型生成文本序列

的概率。

简而言之，Perplexity可以大致评估S的合理性。

本发明的A-MDL-EEGCN模型如下：

对于给定的输入序列

，本发明将每个

向量化为

，其中

（在NYT语料库上用skip-gram方法预训练）和

（实体类型采用”BIO”标注）分别表示

的词嵌入向量和实体类型嵌入向量，d _w,d _e是上述向量的维度。然后本发明将

输入隐藏层维度为d _l/2的Bi-LSTM ，

分别为

的正向隐层状态和反向隐层状态，最后本发明用

来表示每个token的

。

同时本发明对输入序列S进行句法依存分析。将单词作为节点，依存关系作为边，则得到句法依存图（邻接矩阵），作为图神经网络事件检测模型输入的一部分。

由于之前的图神经网络事件检测模型通常忽略依存标签信息，而这些信息通常可以传递对ED有用的丰富语言知识，本发明使用边增强图卷积网络（EE-GCN，本领域的现有技术），将句法依存图中的边嵌入向量空间，进而得到一个边表示张量

，其中

是句法依存图中对应边的向量表示，相比于传统邻接矩阵中的0或1，它包含了更多的语义信息。

记

。将每个节点（token）的表示变换到d_g维后，H⁰作为EE-GCN中第1层的输入状态。层

中每个节点的向量通过边表示张量聚合邻居节点更新，因此，层l(

)的输出状态如下：

（2）

分别是第l层中各个通道的节点表示，p是通道数；

(3)

其中，Pool表示平均池化操作，用于压缩所有通道的信息，

是一个可学习的参数，

是ReLU激活函数。

层中各边的向量更新如下所示：

(4)

其中，

是一个可学习的参数，

表示连接操作。

本发明将各个词（节点）的最终表示

输入全连接网络，然后使用Softmax函数计算所有事件类型的概率分布，公式如下：

(5)

其中

将词表示

映射为在各个事件类型上的特征得分，b _C是偏置项。概率最大的事件标签作为分类结果。

使用有偏损失函数来增强事件标签对训练过程的影响：

(6)

其中，N _S是句子个数，n _i是句子s _i的单词个数，

是单词的真实事件标签。若单词的事件类型是‘O’则I(O)等于1，否则等于0。

是大于1的权重系数。

EE-GCN的增强：根据ACE2005数据集上的统计结果，大约51%的事件相关词和相应触发词在句法依存图中的距离至少为2跳，本发明提出一种新的多阶距离表示方法即引入多阶距离标签，这有助于更好地捕捉长距离词之间的关联，进而增强触发词上下文感知能力，尤其是在长句中。”nsubj”（名词性主语）、”dobj”（直接宾语）和”nmod”（名词复合修饰语）占触发词相关依存标签的32.2%，本发明提出一个基于注意力权重的边表示更新方法，在引入多阶距离的情况下更好地在边更新中区分不同类型边的重要性。

由此本发明设计了一个新的模型A-MDL-EEGCN，使用上述两种方法来增强EE-GCN，它弥补了EE-GCN不考虑多阶距离的缺陷和MOGAND忽略依存标签信息的缺陷。A-MDL-EEGCN的架构如图3和图4所示。

多阶距离表示方法的具体实现如下：

距离指两个单词在句法依存图中的语义距离。由一条边相连的两个单词之间的距离为1，而多阶距离意味着两个单词不直接相连，其等于中间节点数+1。如”解雇”和”工作”之间的距离为2，”解雇”和”出错”之间的距离为3。

MOGAND以分层的方式引入了多阶距离，即对每一阶距离形成一个独立的邻接矩阵，每个邻接矩阵在单独的GCN层中计算，最后聚合作为最终结果。但是这种方法需要相当大的计算量。因此，本发明提出了一种新的多阶距离表示方法，即将所有距离为2和3的边的标签分别设置为”distance:2”和”distance:3”。这样，这些边的嵌入向量就可以参与后续节点更新和边更新的计算，进而EE-GCN能够更好地捕捉长距离词之间的关联。

基于注意力权重的边表示更新方法的具体实现如下：

单独地将新的多阶距离表示方法引入EE-GCN会导致性能下降，本发明认为这是因为当引入多阶距离标签时，EE-GCN的边表示更新方法难以区分不同类型边的重要性。例如，”被解雇”和”飞行员”之间的边”dobj”应该比”飞行员”和”那个”之间的边”det”传递更多的信息，因此”dobj”应该在边更新中获得更大的权重。

总之，不同的边在更新时应该有不同的权重，权重与边两端的节点有关。因此，本发明提出了一种新的基于注意力权重的更新方法。每个边的向量表示根据边两端节点计算的权重分数进行更新，该方法在数学上可以定义如下：

(7)

其中，

是一个可学习的参数。

本发明在ACE2005数据集上进行实验，采用与EE-GCN和MOGAND相同的数据划分进行训练，以精确率（P）、召回率（R）和F1值（F1）作为评价指标。为了公平比较各个模型的性能，所用超参数均为对应模型在原始数据上取得最佳性能的参数，其中A-MDL-EEGCN的超参数如表2所示。

表2 A-MDL-EEGCN的超参数

原始数据上的实验结果如表3所示，其中MDL-EEGCN表示单独将多阶距离表示方法（即多阶距离标签，MDL）引入EE-GCN。

表3 各模型在原始数据上的性能

结果显示本发明提出的A-MDL-EEGCN在R和F1上优于MOGAND和GatedGCN，在所有指标上优于GCN-ED、JMEE和EE-GCN，这表明A-MDL-EEGCN能取得比之前提出的图神经网络事件检测模型更好的性能。

尽管在R和F1上MDL-EEGCN优于MOGAND，但却劣于EE-GCN。通过分析MDL-EEGCN的预测结果，本发明发现这是因为模型将许多非”O”标签预测为”O”，因此本发明认为当新的边类型”distance:2”和”distance:3”引入EE-GCN时，它的边表示更新方法难以在边更新中区分不同类型边的重要性，反而稀释了原始语义，进而导致性能下降。

A-MDL-EEGCN在R和F1上优于MDL-EEGCN，证明了基于注意力权重的边表示更新方法的有效性，以及本发明提出的两种方法结合的必要性。

在本部分将全面地评估A-MDL-EEGCN、EE-GCN和MOGAND模型在对抗数据上的鲁棒性。

对于文本变换，本发明设置Tense变换输入文本中所有动词的时态， SwapSyn对输入文本中的每个单词以0.5的概率替换为同义词，其他文本变换对输入文本中的每个单词都以0.3的概率执行变换。

对于亚种群，由于A-MDL-EEGCN最佳参数中最大文本长度为50，因此本发明筛选文本长度小于等于50和大于50的原始数据，生成亚种群length<=50和length>50，以评估填充和截断输入文本对模型性能的影响。同时，本发明以GPT-2语言模型的困惑度为指标，筛选出困惑度最高的前50%和前20%的原始数据，生成亚种群Perplexity-0-50%和Perplexity-0-20%,以评估模型对高困惑度输入文本的性能。

由文本变换和亚种群生成的数据统称为对抗数据，表4展示了A-MDL-EEGCN、EE-GCN和MOGAND在各个对抗数据上的性能，即图神经网络事件检测模型的鲁棒性评估结果。由于F1是P和R的综合指标，因此本发明将F1和它的变化值ΔF1在表中列出。

表4 鲁棒性评估结果。

模型对字符级别变换的鲁棒性

Keyboard、Ocr、SpellingError、Typos、EntTypos都是对单词中的一个或若干个字符进行变换，属于字符级的变换。实验结果显示，在字符级变换上，模型对EntTypos的鲁棒性明显比其他四种更强。显然，这是因为EntTypos仅针对有实体标签的词，所以它对原始句子的扰动比其他字符级变换要小。进一步，本发明逐一分析模型对其他四种变换的鲁棒性：

1. Typos对单词的扰动毫无规律，几乎一定会将被变换单词变换为OOV词，因此模型对Typos的鲁棒性很弱；

2. Ocr虽然模拟了现实中可能出现的错误，但模型对其的鲁棒性也较差，本发明认为这可能是因为训练词向量的语料由人工输入而不是从图片中识别，因此语料中很少出现Ocr导致的错误；

3. SpellingError和Keyboard模拟了人可能导致的错误，这些错误或许在训练词向量的语料中出现，因此模型对这两种文本变换的鲁棒性比以上两种稍强。

由以上分析可知，图神经网络事件检测模型对字符级变换的鲁棒性与训练语料有关。尽管这些模型使用相同的预训练词向量，A-MDL-EEGCN和EE-GCN对字符级变换的鲁棒性要强于MOGAND。本发明推测这是因为MOGAND仅考虑邻接关系而忽略了依存标签，所以它对被变换的词带来的噪声更敏感。

模型对词级别变换的鲁棒性：

Tense和SwapSyn都属于词级的变换，以为它们将某个词变换为另一个词。实验结果显示，模型对Tense的鲁棒性和对SwapSyn的鲁棒性都较强，前者略强于后者，本发明进行了如下分析：

1. 变换所有动词的时态基本不会改变句子的含义，且动词的不同时态之间语义差异较小，相应的词向量也应十分相似，因此Tense对原句子造成的扰动很小；

2. 将单词替换为同义词会轻微改变句子的含义（如情感程度），尽管同义词的词向量也十分相似，SwapSyn对原句子造成的扰动略强于Tense。

由以上分析可知，图神经网络事件检测模型能够较好地应对词汇特征轻微变化的情况，即模型能较好地处理表述不同但含义相同的句子。且A-MDL-EEGCN对词级变换的鲁棒性强于EE-GCN和MOGAND。

模型对组合文本变换的鲁棒性

本发明将字符级变换中对模型性能影响最大的Typos和词级变换进行组合，由于单词形态上的变换会影响单词的识别，本发明对输入文本先执行SwapSyn(Tense)，再执行Typos，称为SwapSyn+Typos(Tense+Typos)。实验结果显示，组合文本变换会使模型的性能进一步降低，这启示本发明可以设计更多类型的文本变换组合，以更全面地评估模型的鲁棒性。

模型对亚种群的鲁棒性

实验结果显示，模型在亚种群length<=50上的性能上升了，而在length>50上的性能下降了。原因是显而易见的：

1. 尽管短句子被填充，但它仍保留了完整的信息；

2. 将长句子截断影响了句子结构和语义的完整性，导致模型可能失去模型识别触发词和事件类型的重要信息。

原始数据中的大多数文本是短句子，因此各个模型在length<=50上的性能与在原始数据上的性能几乎一致。然而，长句子中存在很多长距离词之间的关联。A-MDL-EEGCN和MOGAND在length>50上的性能显著优于EE-GCN，这表明对ED而言在长句子中捕获这种关联至关重要。此外，MOGAND的训练耗时（约1000s每epoch）远远大于A-MDL-EEGCN和EE-GCN，这说明A-MDL-EEGCN兼具效率和效能。

模型在Perplexity-0-20%上的性能比在Perplexity-0-50%上差，且在Perplexity-0-50%上的性能比在原始数据上差，说明GPT-2的困惑度指标能有效地衡量输入文本的质量。从以上分析可知图神经网络事件检测模型对高困惑度文本的鲁棒性较强。此外，需要更多的指标而不仅仅是Perplexity来衡量输入文本的质量，以评估ED模型检测由低质量文本表示的事件的能力。

本发明的有益效果如下：

本文所使用的词语“优选的”意指用作实例、示例或例证。本文描述为“优选的”任意方面或设计不必被解释为比其他方面或设计更有利。相反，词语“优选的”的使用旨在以具体方式提出概念。如本申请中所使用的术语“或”旨在意指包含的“或”而非排除的“或”。即，除非另外指定或从上下文中清楚，“X使用A或B”意指自然包括排列的任意一个。即，如果X使用A；X使用B；或X使用A和B二者，则“X使用A或B”在前述任一示例中得到满足。

而且，尽管已经相对于一个或实现方式示出并描述了本公开，但是本领域技术人员基于对本说明书和附图的阅读和理解将会想到等价变型和修改。本公开包括所有这样的修改和变型，并且仅由所附权利要求的范围限制。特别地关于由上述组件(例如元件等)执行的各种功能，用于描述这样的组件的术语旨在对应于执行所述组件的指定功能(例如其在功能上是等价的)的任意组件(除非另外指示)，即使在结构上与执行本文所示的本公开的示范性实现方式中的功能的公开结构不等同。此外，尽管本公开的特定特征已经相对于若干实现方式中的仅一个被公开，但是这种特征可以与如可以对给定或特定应用而言是期望和有利的其他实现方式的一个或其他特征组合。而且，就术语“包括”、“具有”、“含有”或其变形被用在具体实施方式或权利要求中而言，这样的术语旨在以与术语“包含”相似的方式包括。

本发明实施例中的各功能单元可以集成在一个处理模块中，也可以是各个单元单独物理存在，也可以多个或多个以上单元集成在一个模块中。上述集成的模块既可以采用硬件的形式实现，也可以采用软件功能模块的形式实现。所述集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时，也可以存储在一个计算机可读取存储介质中。上述提到的存储介质可以是只读存储器，磁盘或光盘等。上述的各装置或系统，可以执行相应方法实施例中的存储方法。

综上所述，上述实施例为本发明的一种实施方式，但本发明的实施方式并不受所述实施例的限制，其他的任何背离本发明的精神实质与原理下所做的改变、修饰、代替、组合、简化，均应为等效的置换方式，都包含在本发明的保护范围之内。