CN115329088A - 图神经网络事件检测模型的鲁棒性分析方法 - Google Patents
图神经网络事件检测模型的鲁棒性分析方法 Download PDFInfo
- Publication number
- CN115329088A CN115329088A CN202211245739.XA CN202211245739A CN115329088A CN 115329088 A CN115329088 A CN 115329088A CN 202211245739 A CN202211245739 A CN 202211245739A CN 115329088 A CN115329088 A CN 115329088A
- Authority
- CN
- China
- Prior art keywords
- representation
- edge
- event detection
- vector
- event
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
- G06F40/295—Named entity recognition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Complex Calculations (AREA)
- Machine Translation (AREA)
Abstract
Description
技术领域
本发明属于图神经网络技术领域,尤其涉及图神经网络事件检测模型的鲁棒性分析方法。
背景技术
事件检测(ED)是自然语言处理(NLP)领域的一个重要任务,其旨在从给定的文本中识别能代表事件的触发词并将它们分类为正确的事件类型。如图1所示,一个ED模型旨在将S1中的“被破坏”识别为“攻击”的触发词,将S2中的“被解雇”识别为“失去工作”的触发词。ED促进了事件关系抽取,并且对现实世界的应用有益,如自动文本摘要、信息检索和问答。
传统的ED模型主要基于机器学习方法,但它们的性能严重依赖于人工选择的特征。随着近年深度学习理论与技术的发展,越来越多的研究者采用深度学习方法来完成ED任务。最近,更多的研究集中于如何将文本序列转化为图结构数据,以融入更丰富的语义信息,进而将图神经网络(GNN)引入ED任务。目前最先进的事件检测模型都是基于GNN的。
上述模型大多基于一个默认且完美的数据集假设,即标签质量高、噪音少且分布均衡。并期望从这样的数据集中学到的模式是可以推广到其他数据集的。然而,不满足这一完备性的真实数据集会导致模型包含与训练数据相同的偏差。大多数关于ED的研究主要关注模型的构建,并根据高质量数据集上的指标如Precision、Recall和F1分数来评估模型的性能,这会导致对模型能力的有过高的评价。
在NLP领域中,模型的鲁棒性显然是必不可少的指标。现实世界中的应用接收的输入通常不是高质量的,因此需要对不同输入文本都有很强适应性的模型。尽管已有研究开始关注NLP模型的鲁棒性,但其中关注ED模型的甚少。
Lu等人在非专利文献“Distilling discrimination and generalizationknowledge for event detection via delta-representation learning[C]//Proceedings of the 57th Annual Meeting of the Association for ComputationalLinguistics. 2019: 4366-4376”中提出一个Δ-learning方法以提取区分歧义触发词的判别知识以及检测未见/稀疏触发词的泛化知识,但他们忽略了精心设计的对抗文本。Liu等人在非专利文献“How Does Context Matter On the Robustness of Event Detectionwith Context-Selective Mask Generalization[C]//Proceedings of the 2020Conference on Empirical Methods in Natural Language Processing: Findings.2020: 2523-2532”中提出一种新的训练范式,名为context-selective maskgeneralization for ED,并通过实验证明了该范式在防御对抗攻击、探索未见触发词和处理歧义情况的有效性。然而,他们仅仅考虑了词级别的对抗攻击,而没有考虑字符级别的对抗攻击以及亚种群。此外,据本发明所知,尚未有关于GNN模型在事件检测问题上的鲁棒性的研究。
早期,关于ED的研究主要采用传统的机器学习方法,以N-gram语言模型和自然语法语义解析工具提取的语言特征为主要特征。这些所选择的特征的质量直接影响ED模型的整体性能,同时,这种方法对人力资源投入和专业知识都有较高要求。
深度学习最突出的优势就是通过多层神经网络自动地从原始数据中学习出有效的特征,因此,随着近年来深度学习理论和技术的逐步完善,越来越多的研究者采用深度学习方法来解决ED问题。Nguyen等人在非专利文献“Modeling skip-grams for eventdetection with convolutional neural networks[C]//Proceedings of the 2016Conference on Empirical Methods in Natural Language Processing. 2016: 886-891”首次将卷积神经网络(CNN)引入到事件抽取(EE)中,通过卷积运算将候选词的相邻词的语义聚合在一起,从而增强了词向量的语义表示;动态多池化策略被用来将更多信息引入 CNN,他们认为传统卷积无法提取长距离词之间的关联,因此提出了skip-grams方法来捕捉不连续词之间的语义关联。Ghaeini等人在非专利文献“Event nugget detectionwith forward-backward recurrent neural networks[C]// Proceedings of the 54thAnnual Meeting of the Association for Computational Linguistics (Volume 2:Short Papers). 2016: 369-373”首次将循环神经网络(RNN) 引入ED中,以检测多词事件。
最近,更多的研究关注如何将文本序列转化成图结构数据,以融入更丰富的语义信息,进而GNN被引入了ED任务。Nguyen等人在非专利文献“Graph convolutionalnetworks with argument-aware pooling for event detection[C]//Thirty-secondAAAI conference on artificial intelligence, Menlo Park:AAAI, 2018”中第一次通过句法依存树将图卷积网络(GCN)引入到ED中,并取得了显着的效果;Liu等人在非专利文献“Jointly multiple events extraction via attention-based graph informationaggregation[C]//Proceedings of the 2018 Conference on Empirical Methods inNatural Language Processing: Findings. 2018”中用自注意力和高速网络增强了GCN,进而提升了GCN在ED任务上的性能;多阶距离和多层词向量注意力聚合机制被引入GCN,进一步提升了GCN的性能;Cui等人在非专利文献“Edge-enhanced graph convolutionnetworks for event detection with syntactic relation[C]//Findings of theAssociation for Computational Linguistics: EMNLP 2020. 2020: 2329-2339”中提出通过节点更新模块和边更新模块学习句法依存图中的边的嵌入向量,实现了GCN的SOTA效果;Lai等人在非专利文献“Event detection: Gate diversity and syntacticimportance scoresfor graph convolution neural networks[C]//Proceedings of the2020 Conference on Empirical Methods in Natural Language Processing (EMNLP).2020: 5405-5411”中使用触发词过滤器来减少相邻词之间无关噪声的影响,实现了GCN效果的提升。
Papernot 等人在非专利文献“Crafting adversarial input sequences forrecurrent neural networks[C]//MILCOM 2016-2016 IEEE Military CommunicationsConference. IEEE, 2016: 49-54”中首先研究了如何针对RNN设计对抗性的文本序列;Alzantot 等人在非专利文献“Generating Natural Language Adversarial Examples[C]// Proceedings of the 2018 Conference on Empirical Methods in NaturalLanguage Processing. 2018:2890–2896”中设计了一种启发式优化算法生成语义和句法相似的对抗性文本样本;一种名为PWWS的贪婪算法被提出用于生成保持词汇正确性、语法正确性和语义相似性的对抗性文本样本;Morris等人在非专利文献“A framework foradversarial attacks, data augmentation, and adversarial training in nlp[C]//Proceedings of the 2020 Conference on Empirical Methods in Natural LanguageProcessing: System Demonstrations. 2020: 119-126”中开发了一个可在NLP任务中使用对抗攻击、数据增强和对抗训练的平台TextAttack,它仅需定义一个目标函数、一组约束、一个文本变换和一个搜索方法便可复现前人提出的或个性化定制的文本攻击算法,以生成高质量的对抗性文本;OpenAttack与TextAttack的区别和对其的补充在于支持所有攻击、多语言和并行处理;TextFlint是一个用于NLP任务的多语言鲁棒性评估平台,该平台不但整合了通用文本变换、特定于任务的文本变换、对抗攻击、亚种群以及它们的组合,还能自动生成可视化报告,有助于进行全面的鲁棒性分析。
ED模型的鲁棒性问题具有重要的现实意义且亟待解决,关于该问题的研究较少。Lu等人在非专利文献“Distilling discrimination and generalization knowledge forevent detection via delta-representation learning[C]//Proceedings of the 57thAnnual Meeting of the Association for Computational Linguistics. 2019: 4366-4376”中提出一种Δ-representation learning方法,通过有效解耦、学习和融合事件表示的可变增量部分,而不是学习单一的综合表示,来提取区分歧义触发词的判别知识以及检测未见/稀疏触发词的泛化知识。尽管Lu等考虑了输入文本的歧义性和稀疏性,但他们忽略了精心设计的对抗文本,使得ED模型不是非常鲁棒。Liu等人在非专利文献“How DoesContext Matter On the Robustness of Event Detection with Context-SelectiveMask Generalization[C]//Proceedings of the 2020 Conference on EmpiricalMethods in Natural Language Processing: Findings. 2020: 2523-2532”中提出一种名为context-selective mask generalization for ED的训练范式,它有效地提升了模型在对抗攻击、词表外(OOV)触发词以及歧义触发词三个方面的鲁棒性。然而,Liu等仅仅使用Alzantot的算法生成仅扰动触发词和扰动所有词的对抗样本,以评估ED模型的鲁棒性,而没有考虑不同类型的文本变换和亚种群,这使得模型的鲁棒性分析并不够全面。
发明内容
为了研究ED模型的鲁棒性,本发明首先提出了一个事件检测模型鲁棒性分析框架,以评估ED模型在面对各种文本变换和亚种群的性能,基于评估结果本发明可以全面地分析ED模型的鲁棒性。为了提升图神经网络事件检测模型的鲁棒性,本发明提出了一种新的多阶距离表示方法以更好地捕捉长距离词之间的关联,还提出了一种基于注意力权重的边表示更新方法,能够在边更新中更好地区分不同类型边的重要性。大量实验证实了所提出的框架以及新模型的有效性。
本发明公开的图神经网络事件检测模型的鲁棒性分析方法,包括以下步骤:
获取原始文本数据;
将句法依存图中的边嵌入向量空间,得到一个边表示张量;
具体而言,聚合是在边表示张量中逐通道进行的,如下所示:
进一步的,层中各边的向量更新如下所示:
进一步的,所述使用Softmax函数计算所有事件类型的概率分布的公式如下:
进一步的,所述有偏损失函数如下:
进一步的,所述通用文本变换包括Keyboard、Ocr、SpellingError、Tense、Typos、SwapSyn和EntTypos。
进一步的,选择Length-subpopulation来基于文本长度对原始数据进行过滤,以生成亚种群,并选择GPT-2语言模型的Perplexity函数或算法来筛选原始数据,以生成亚种群,其公式如下所示:
进一步的,引入多阶距离表示方法,以捕捉长距离词之间的关联,增强触发词上下文感知能力,并使用基于注意力权重的边表示更新方法,在引入多阶距离的情况下更好地在边更新中区分不同类型边的重要性。
进一步的,所述多阶距离表示方法将所有距离为2和3的边的标签分别设置为”distance:2”和”distance:3”,只有这些边的嵌入向量参与后续节点更新和边更新的计算。
进一步的,所述基于注意力权重的边表示更新方法,将每个边的向量表示根据边两端节点计算的权重分数进行更新,其在数学上的定义如下:
其在数学上的定义如下:
本发明的有益效果如下:
在目前对ED模型鲁棒性的研究较少的情况下,提出了一个事件检测鲁棒性分析框架,有助于全面地分析ED模型的鲁棒性。
提出了一种新的多阶距离表示方法和一种基于注意力权重的边表示更新方法以增强EE-GCN,进而设计了一个名为A-MDL-EEGCN的新模型。实验表明该模型在ACE2005数据集上的性能优于之前提出的图神经网络事件检测模型,尤其是存在对抗数据的情况。
使用事件检测模型鲁棒性分析框架,进行了大量实验评估几个图神经网络事件检测模型的性能,并基于实验结果进行了全面的鲁棒性分析,对评估和设计鲁棒的事件检测模型提供了新的方法。
附图说明
图1事件检测示例图;
图2事件检测模型鲁棒性分析框架;
图3本发明的A-MDL-EEGCN模型的输入层结构图;
图4本发明的A-MDL-EEGCN模型的图网络层结构图。
具体实施方式
下面结合附图对本发明作进一步的说明,但不以任何方式对本发明加以限制,基于本发明教导所作的任何变换或替换,均属于本发明的保护范围。
本发明将ED视为序列标注任务。任务的输入是一个自然文本序列,文本中的每个单词都被视为一个token(词)。形式化地,给定一个包含n个token的输入序列 ,相应的事件类型序列为,其中事件类型本文采用”BIO”模式标注。
TextFlint平台仅能对命名实体识别(NER)、关系抽取(RE)、词性标注(POST)和情感分析(SA)等特定NLP任务的进行鲁棒性分析。因此,本发明利用TextFlint平台提供的功能构建了一个ED模型鲁棒性分析框架,如图2所示。该框架利用TextFlint从原始数据生成对抗数据,包括经文本变换后的数据和亚种群,然后评估模型在这些对抗数据集上的性能,并与在原始数据集上的性能进行比较,基于此本发明可以全面地分析模型的鲁棒性。所用的文本变换和亚种群的描述如下。
文本变换:首先,从通用文本变换中选择了Keyboard、Ocr、SpellingError、Tense、Typos和SwapSyn。其次,由于A-MDL-EEGCN、EE-GCN和MOGAND均将实体类型考虑到了输入中,因此从NER任务文本转换中选择EntTypos。上述七种文本变换及对应的描述见表1。
表1
亚种群:由于各个输入文本的长度不完全一致,序列标注模型中通常设置一个最大文本长度,对短文本进行填充(用占位符),对长文本进行截断,以输出长度一致的预测序列。因此,选择Length-subpopulation来基于文本长度对原始数据进行过滤,以生成亚种群。
此外,还选择GPT-2语言模型的Perplexity来筛选原始数据,以生成亚种群,其公式如下所示:
简而言之,Perplexity可以大致评估S的合理性。
本发明的A-MDL-EEGCN模型如下:
对于给定的输入序列,本发明将每个向量化为,其中(在NYT语料库上用skip-gram方法预训练)和(实体类型采用”BIO”标注)分别表示的词嵌入向量和实体类型嵌入向量,d w ,d e 是上述向量的维度。然后本发明将输入隐藏层维度为d l /2的Bi-LSTM ,分别为的正向隐层状态和反向隐层状态,最后本发明用来表示每个token的。
同时本发明对输入序列S进行句法依存分析。将单词作为节点,依存关系作为边,则得到句法依存图(邻接矩阵),作为图神经网络事件检测模型输入的一部分。
由于之前的图神经网络事件检测模型通常忽略依存标签信息,而这些信息通常可以传递对ED有用的丰富语言知识,本发明使用边增强图卷积网络(EE-GCN,本领域的现有技术),将句法依存图中的边嵌入向量空间,进而得到一个边表示张量,其中是句法依存图中对应边的向量表示,相比于传统邻接矩阵中的0或1,它包含了更多的语义信息。
具体而言,聚合是在边表示张量中逐通道进行的,如下所示:
层中各边的向量更新如下所示:
使用有偏损失函数来增强事件标签对训练过程的影响:
EE-GCN的增强:根据ACE2005数据集上的统计结果,大约51%的事件相关词和相应触发词在句法依存图中的距离至少为2跳,本发明提出一种新的多阶距离表示方法即引入多阶距离标签,这有助于更好地捕捉长距离词之间的关联,进而增强触发词上下文感知能力,尤其是在长句中。”nsubj”(名词性主语)、”dobj”(直接宾语)和”nmod”(名词复合修饰语)占触发词相关依存标签的32.2%,本发明提出一个基于注意力权重的边表示更新方法,在引入多阶距离的情况下更好地在边更新中区分不同类型边的重要性。
由此本发明设计了一个新的模型A-MDL-EEGCN,使用上述两种方法来增强EE-GCN,它弥补了EE-GCN不考虑多阶距离的缺陷和MOGAND忽略依存标签信息的缺陷。A-MDL-EEGCN的架构如图3和图4所示。
多阶距离表示方法的具体实现如下:
距离指两个单词在句法依存图中的语义距离。由一条边相连的两个单词之间的距离为1,而多阶距离意味着两个单词不直接相连,其等于中间节点数+1。如”解雇”和”工作”之间的距离为2,”解雇”和”出错”之间的距离为3。
MOGAND以分层的方式引入了多阶距离,即对每一阶距离形成一个独立的邻接矩阵,每个邻接矩阵在单独的GCN层中计算,最后聚合作为最终结果。但是这种方法需要相当大的计算量。因此,本发明提出了一种新的多阶距离表示方法,即将所有距离为2和3的边的标签分别设置为”distance:2”和”distance:3”。这样,这些边的嵌入向量就可以参与后续节点更新和边更新的计算,进而EE-GCN能够更好地捕捉长距离词之间的关联。
基于注意力权重的边表示更新方法的具体实现如下:
单独地将新的多阶距离表示方法引入EE-GCN会导致性能下降,本发明认为这是因为当引入多阶距离标签时,EE-GCN的边表示更新方法难以区分不同类型边的重要性。例如,”被解雇”和”飞行员”之间的边”dobj”应该比”飞行员”和”那个”之间的边”det”传递更多的信息,因此”dobj”应该在边更新中获得更大的权重。
总之,不同的边在更新时应该有不同的权重,权重与边两端的节点有关。因此,本发明提出了一种新的基于注意力权重的更新方法。每个边的向量表示根据边两端节点计算的权重分数进行更新,该方法在数学上可以定义如下:
本发明在ACE2005数据集上进行实验,采用与EE-GCN和MOGAND相同的数据划分进行训练,以精确率(P)、召回率(R)和F1值(F1)作为评价指标。为了公平比较各个模型的性能,所用超参数均为对应模型在原始数据上取得最佳性能的参数,其中A-MDL-EEGCN的超参数如表2所示。
表2 A-MDL-EEGCN的超参数
原始数据上的实验结果如表3所示,其中MDL-EEGCN表示单独将多阶距离表示方法(即多阶距离标签,MDL)引入EE-GCN。
表3 各模型在原始数据上的性能
结果显示本发明提出的A-MDL-EEGCN在R和F1上优于MOGAND和GatedGCN,在所有指标上优于GCN-ED、JMEE和EE-GCN,这表明A-MDL-EEGCN能取得比之前提出的图神经网络事件检测模型更好的性能。
尽管在R和F1上MDL-EEGCN优于MOGAND,但却劣于EE-GCN。通过分析MDL-EEGCN的预测结果,本发明发现这是因为模型将许多非”O”标签预测为”O”,因此本发明认为当新的边类型”distance:2”和”distance:3”引入EE-GCN时,它的边表示更新方法难以在边更新中区分不同类型边的重要性,反而稀释了原始语义,进而导致性能下降。
A-MDL-EEGCN在R和F1上优于MDL-EEGCN,证明了基于注意力权重的边表示更新方法的有效性,以及本发明提出的两种方法结合的必要性。
在本部分将全面地评估A-MDL-EEGCN、EE-GCN和MOGAND模型在对抗数据上的鲁棒性。
对于文本变换,本发明设置Tense变换输入文本中所有动词的时态, SwapSyn对输入文本中的每个单词以0.5的概率替换为同义词,其他文本变换对输入文本中的每个单词都以0.3的概率执行变换。
对于亚种群,由于A-MDL-EEGCN最佳参数中最大文本长度为50,因此本发明筛选文本长度小于等于50和大于50的原始数据,生成亚种群length<=50和length>50,以评估填充和截断输入文本对模型性能的影响。同时,本发明以GPT-2语言模型的困惑度为指标,筛选出困惑度最高的前50%和前20%的原始数据,生成亚种群Perplexity-0-50%和Perplexity-0-20%,以评估模型对高困惑度输入文本的性能。
由文本变换和亚种群生成的数据统称为对抗数据,表4展示了A-MDL-EEGCN、EE-GCN和MOGAND在各个对抗数据上的性能,即图神经网络事件检测模型的鲁棒性评估结果。由于F1是P和R的综合指标,因此本发明将F1和它的变化值ΔF1在表中列出。
表4 鲁棒性评估结果。
模型对字符级别变换的鲁棒性
Keyboard、Ocr、SpellingError、Typos、EntTypos都是对单词中的一个或若干个字符进行变换,属于字符级的变换。实验结果显示,在字符级变换上,模型对EntTypos的鲁棒性明显比其他四种更强。显然,这是因为EntTypos仅针对有实体标签的词,所以它对原始句子的扰动比其他字符级变换要小。进一步,本发明逐一分析模型对其他四种变换的鲁棒性:
1. Typos对单词的扰动毫无规律,几乎一定会将被变换单词变换为OOV词,因此模型对Typos的鲁棒性很弱;
2. Ocr虽然模拟了现实中可能出现的错误,但模型对其的鲁棒性也较差,本发明认为这可能是因为训练词向量的语料由人工输入而不是从图片中识别,因此语料中很少出现Ocr导致的错误;
3. SpellingError和Keyboard模拟了人可能导致的错误,这些错误或许在训练词向量的语料中出现,因此模型对这两种文本变换的鲁棒性比以上两种稍强。
由以上分析可知,图神经网络事件检测模型对字符级变换的鲁棒性与训练语料有关。尽管这些模型使用相同的预训练词向量,A-MDL-EEGCN和EE-GCN对字符级变换的鲁棒性要强于MOGAND。本发明推测这是因为MOGAND仅考虑邻接关系而忽略了依存标签,所以它对被变换的词带来的噪声更敏感。
模型对词级别变换的鲁棒性:
Tense和SwapSyn都属于词级的变换,以为它们将某个词变换为另一个词。实验结果显示,模型对Tense的鲁棒性和对SwapSyn的鲁棒性都较强,前者略强于后者,本发明进行了如下分析:
1. 变换所有动词的时态基本不会改变句子的含义,且动词的不同时态之间语义差异较小,相应的词向量也应十分相似,因此Tense对原句子造成的扰动很小;
2. 将单词替换为同义词会轻微改变句子的含义(如情感程度),尽管同义词的词向量也十分相似,SwapSyn对原句子造成的扰动略强于Tense。
由以上分析可知,图神经网络事件检测模型能够较好地应对词汇特征轻微变化的情况,即模型能较好地处理表述不同但含义相同的句子。且A-MDL-EEGCN对词级变换的鲁棒性强于EE-GCN和MOGAND。
模型对组合文本变换的鲁棒性
本发明将字符级变换中对模型性能影响最大的Typos和词级变换进行组合,由于单词形态上的变换会影响单词的识别,本发明对输入文本先执行SwapSyn(Tense),再执行Typos,称为SwapSyn+Typos(Tense+Typos)。实验结果显示,组合文本变换会使模型的性能进一步降低,这启示本发明可以设计更多类型的文本变换组合,以更全面地评估模型的鲁棒性。
模型对亚种群的鲁棒性
实验结果显示,模型在亚种群length<=50上的性能上升了,而在length>50上的性能下降了。原因是显而易见的:
1. 尽管短句子被填充,但它仍保留了完整的信息;
2. 将长句子截断影响了句子结构和语义的完整性,导致模型可能失去模型识别触发词和事件类型的重要信息。
原始数据中的大多数文本是短句子,因此各个模型在length<=50上的性能与在原始数据上的性能几乎一致。然而,长句子中存在很多长距离词之间的关联。A-MDL-EEGCN和MOGAND在length>50上的性能显著优于EE-GCN,这表明对ED而言在长句子中捕获这种关联至关重要。此外,MOGAND的训练耗时(约1000s每epoch)远远大于A-MDL-EEGCN和EE-GCN,这说明A-MDL-EEGCN兼具效率和效能。
模型在Perplexity-0-20%上的性能比在Perplexity-0-50%上差,且在Perplexity-0-50%上的性能比在原始数据上差,说明GPT-2的困惑度指标能有效地衡量输入文本的质量。从以上分析可知图神经网络事件检测模型对高困惑度文本的鲁棒性较强。此外,需要更多的指标而不仅仅是Perplexity来衡量输入文本的质量,以评估ED模型检测由低质量文本表示的事件的能力。
本发明的有益效果如下:
在目前对ED模型鲁棒性的研究较少的情况下,提出了一个事件检测鲁棒性分析框架,有助于全面地分析ED模型的鲁棒性。
提出了一种新的多阶距离表示方法和一种基于注意力权重的边表示更新方法以增强EE-GCN,进而设计了一个名为A-MDL-EEGCN的新模型。实验表明该模型在ACE2005数据集上的性能优于之前提出的图神经网络事件检测模型,尤其是存在对抗数据的情况。
使用事件检测模型鲁棒性分析框架,进行了大量实验评估几个图神经网络事件检测模型的性能,并基于实验结果进行了全面的鲁棒性分析,对评估和设计鲁棒的事件检测模型提供了新的方法。
本文所使用的词语“优选的”意指用作实例、示例或例证。本文描述为“优选的”任意方面或设计不必被解释为比其他方面或设计更有利。相反,词语“优选的”的使用旨在以具体方式提出概念。如本申请中所使用的术语“或”旨在意指包含的“或”而非排除的“或”。即,除非另外指定或从上下文中清楚,“X使用A或B”意指自然包括排列的任意一个。即,如果X使用A;X使用B;或X使用A和B二者,则“X使用A或B”在前述任一示例中得到满足。
而且,尽管已经相对于一个或实现方式示出并描述了本公开,但是本领域技术人员基于对本说明书和附图的阅读和理解将会想到等价变型和修改。本公开包括所有这样的修改和变型,并且仅由所附权利要求的范围限制。特别地关于由上述组件(例如元件等)执行的各种功能,用于描述这样的组件的术语旨在对应于执行所述组件的指定功能(例如其在功能上是等价的)的任意组件(除非另外指示),即使在结构上与执行本文所示的本公开的示范性实现方式中的功能的公开结构不等同。此外,尽管本公开的特定特征已经相对于若干实现方式中的仅一个被公开,但是这种特征可以与如可以对给定或特定应用而言是期望和有利的其他实现方式的一个或其他特征组合。而且,就术语“包括”、“具有”、“含有”或其变形被用在具体实施方式或权利要求中而言,这样的术语旨在以与术语“包含”相似的方式包括。
本发明实施例中的各功能单元可以集成在一个处理模块中,也可以是各个单元单独物理存在,也可以多个或多个以上单元集成在一个模块中。上述集成的模块既可以采用硬件的形式实现,也可以采用软件功能模块的形式实现。所述集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时,也可以存储在一个计算机可读取存储介质中。上述提到的存储介质可以是只读存储器,磁盘或光盘等。上述的各装置或系统,可以执行相应方法实施例中的存储方法。
综上所述,上述实施例为本发明的一种实施方式,但本发明的实施方式并不受所述实施例的限制,其他的任何背离本发明的精神实质与原理下所做的改变、修饰、代替、组合、简化,均应为等效的置换方式,都包含在本发明的保护范围之内。
Claims (10)
1.图神经网络事件检测模型的鲁棒性分析方法,其特征在于,包括以下步骤:
获取原始文本数据;
将句法依存图中的边嵌入向量空间,得到一个边表示张量;
6.根据权利要求1所述的图神经网络事件检测模型的鲁棒性分析方法,其特征在于,所述通用文本变换包括Keyboard、Ocr、SpellingError、Tense、Typos、SwapSyn和EntTypos。
8.根据权利要求3所述的图神经网络事件检测模型的鲁棒性分析方法,其特征在于,引入多阶距离表示方法,以捕捉长距离词之间的关联,增强触发词上下文感知能力,并使用基于注意力权重的边表示更新方法,在引入多阶距离的情况下更好地在边更新中区分不同类型边的重要性。
9.根据权利要求8所述的图神经网络事件检测模型的鲁棒性分析方法,其特征在于,所述多阶距离表示方法将所有距离为2和3的边的标签分别设置为“distance:2”和“distance:3”,只有这些边的嵌入向量参与后续节点更新和边更新的计算。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211245739.XA CN115329088B (zh) | 2022-10-12 | 2022-10-12 | 图神经网络事件检测模型的鲁棒性分析方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211245739.XA CN115329088B (zh) | 2022-10-12 | 2022-10-12 | 图神经网络事件检测模型的鲁棒性分析方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN115329088A true CN115329088A (zh) | 2022-11-11 |
CN115329088B CN115329088B (zh) | 2023-01-10 |
Family
ID=83913351
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202211245739.XA Active CN115329088B (zh) | 2022-10-12 | 2022-10-12 | 图神经网络事件检测模型的鲁棒性分析方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115329088B (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116245139A (zh) * | 2023-04-23 | 2023-06-09 | 中国人民解放军国防科技大学 | 图神经网络模型训练方法和装置、事件检测方法和装置 |
CN116719974A (zh) * | 2023-08-11 | 2023-09-08 | 江西财经大学 | 基于依存关系结构增强的事件检测方法及系统 |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112597296A (zh) * | 2020-12-17 | 2021-04-02 | 中山大学 | 一种基于计划机制和知识图谱引导的摘要生成方法 |
CN112906869A (zh) * | 2021-03-09 | 2021-06-04 | 中南大学 | 一种基于时空稀疏学习的鲁棒图卷积神经网络方法 |
WO2022063057A1 (en) * | 2020-09-23 | 2022-03-31 | Jingdong Technology Holding Co., Ltd. | Method and system for aspect-level sentiment classification by graph diffusion transformer |
CN114707508A (zh) * | 2022-04-13 | 2022-07-05 | 西安邮电大学 | 基于图结构的多跳邻居信息融合的事件检测方法 |
CN114912419A (zh) * | 2022-04-19 | 2022-08-16 | 中国人民解放军国防科技大学 | 基于重组对抗的统一机器阅读理解方法 |
CN115018057A (zh) * | 2022-06-28 | 2022-09-06 | 之江实验室 | 面向图神经网络的鲁棒神经架构搜索方法及其系统 |
CN115034224A (zh) * | 2022-01-26 | 2022-09-09 | 华东师范大学 | 一种融合多种文本语义结构图表示的新闻事件检测方法和系统 |
-
2022
- 2022-10-12 CN CN202211245739.XA patent/CN115329088B/zh active Active
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2022063057A1 (en) * | 2020-09-23 | 2022-03-31 | Jingdong Technology Holding Co., Ltd. | Method and system for aspect-level sentiment classification by graph diffusion transformer |
CN112597296A (zh) * | 2020-12-17 | 2021-04-02 | 中山大学 | 一种基于计划机制和知识图谱引导的摘要生成方法 |
CN112906869A (zh) * | 2021-03-09 | 2021-06-04 | 中南大学 | 一种基于时空稀疏学习的鲁棒图卷积神经网络方法 |
CN115034224A (zh) * | 2022-01-26 | 2022-09-09 | 华东师范大学 | 一种融合多种文本语义结构图表示的新闻事件检测方法和系统 |
CN114707508A (zh) * | 2022-04-13 | 2022-07-05 | 西安邮电大学 | 基于图结构的多跳邻居信息融合的事件检测方法 |
CN114912419A (zh) * | 2022-04-19 | 2022-08-16 | 中国人民解放军国防科技大学 | 基于重组对抗的统一机器阅读理解方法 |
CN115018057A (zh) * | 2022-06-28 | 2022-09-06 | 之江实验室 | 面向图神经网络的鲁棒神经架构搜索方法及其系统 |
Non-Patent Citations (1)
Title |
---|
陈晋音 等: "面向图神经网络的对抗攻击与防御综述", 《网络与信息安全学报》 * |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116245139A (zh) * | 2023-04-23 | 2023-06-09 | 中国人民解放军国防科技大学 | 图神经网络模型训练方法和装置、事件检测方法和装置 |
CN116245139B (zh) * | 2023-04-23 | 2023-07-07 | 中国人民解放军国防科技大学 | 图神经网络模型训练方法和装置、事件检测方法和装置 |
CN116719974A (zh) * | 2023-08-11 | 2023-09-08 | 江西财经大学 | 基于依存关系结构增强的事件检测方法及系统 |
CN116719974B (zh) * | 2023-08-11 | 2023-10-31 | 江西财经大学 | 基于依存关系结构增强的事件检测方法及系统 |
Also Published As
Publication number | Publication date |
---|---|
CN115329088B (zh) | 2023-01-10 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110321563B (zh) | 基于混合监督模型的文本情感分析方法 | |
CN115329088B (zh) | 图神经网络事件检测模型的鲁棒性分析方法 | |
CN113255321A (zh) | 基于文章实体词依赖关系的金融领域篇章级事件抽取方法 | |
CN112926337B (zh) | 一种结合重构句法信息的端到端方面级情感分析方法 | |
Bokka et al. | Deep Learning for Natural Language Processing: Solve your natural language processing problems with smart deep neural networks | |
CN114969304A (zh) | 基于要素图注意力的案件舆情多文档生成式摘要方法 | |
CN115017299A (zh) | 一种基于去噪图自编码器的无监督社交媒体摘要方法 | |
CN114818717A (zh) | 融合词汇和句法信息的中文命名实体识别方法及系统 | |
Alsmadi et al. | Adversarial machine learning in text processing: a literature survey | |
CN116244446A (zh) | 社交媒体认知威胁检测方法及系统 | |
Mezghanni et al. | Deriving ontological semantic relations between Arabic compound nouns concepts | |
CN113901813A (zh) | 一种基于主题特征和隐式句子结构的事件抽取方法 | |
CN112287119B (zh) | 一种在线资源相关信息抽取的知识图谱生成方法 | |
Lee et al. | Detecting suicidality with a contextual graph neural network | |
Zhang et al. | A contrastive learning framework with tree-LSTMs for aspect-based sentiment analysis | |
Pang et al. | Domain relation extraction from noisy Chinese texts | |
Hathout | Acquisition of morphological families and derivational series from a machine readable dictionary | |
CN113792144B (zh) | 基于半监督的图卷积神经网络的文本分类方法 | |
Ehsan et al. | Statistical Parser for Urdu | |
CN114330350A (zh) | 一种命名实体识别方法、装置、电子设备及存储介质 | |
Shen et al. | Knowledge-based reasoning network for relation detection | |
Feng et al. | A simple and effective usage of word clusters for CBOW model | |
Chawla et al. | Pre-trained affective word representations | |
Mai et al. | Nested relation extraction via self-contrastive learning guided by structure and semantic similarity | |
Zhang et al. | Integrated Syntactic and Semantic Tree for Targeted Sentiment Classification Using Dual-Channel Graph Convolutional Network |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |