CN115329088B - 图神经网络事件检测模型的鲁棒性分析方法 - Google Patents

图神经网络事件检测模型的鲁棒性分析方法 Download PDF

Info

Publication number
CN115329088B
CN115329088B CN202211245739.XA CN202211245739A CN115329088B CN 115329088 B CN115329088 B CN 115329088B CN 202211245739 A CN202211245739 A CN 202211245739A CN 115329088 B CN115329088 B CN 115329088B
Authority
CN
China
Prior art keywords
representation
edge
node
vector
event detection
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202211245739.XA
Other languages
English (en)
Other versions
CN115329088A (zh
Inventor
王懋
韦晖
刘丽华
吴继冰
肖开明
朱汉卿
杨皓宇
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
National University of Defense Technology
Original Assignee
National University of Defense Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by National University of Defense Technology filed Critical National University of Defense Technology
Priority to CN202211245739.XA priority Critical patent/CN115329088B/zh
Publication of CN115329088A publication Critical patent/CN115329088A/zh
Application granted granted Critical
Publication of CN115329088B publication Critical patent/CN115329088B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • G06F40/295Named entity recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Complex Calculations (AREA)
  • Machine Translation (AREA)

Abstract

本发明公开了图神经网络事件检测模型的鲁棒性分析方法,包括:通过通用文本变换和亚种群变换将原始文本数据转换为对抗数据,将词向量化为
Figure DEST_PATH_IMAGE001
并输入Bi‑LSTM网络中,对输入序列进行句法依存分析,得到句法依存图;将句法依存图中的边嵌入向量空间,得到一个边表示张量;将每个节点的表示变换到dg维后,每层中每个节点的向量通过边表示张量聚合邻居节点更新;将各个节点的最终表示输入全连接网络,计算所有事件类型的概率分布,将概率最大的事件标签作为分类结果并输出。本发明在存在对抗数据时性能优于现有模型。

Description

图神经网络事件检测模型的鲁棒性分析方法
技术领域
本发明属于图神经网络技术领域,尤其涉及图神经网络事件检测模型的鲁棒性分析方法。
背景技术
事件检测(ED)是自然语言处理(NLP)领域的一个重要任务,其旨在从给定的文本中识别能代表事件的触发词并将它们分类为正确的事件类型。如图1所示,一个ED模型旨在将S1中的“被破坏”识别为“攻击”的触发词,将S2中的“被解雇”识别为“失去工作”的触发词。ED促进了事件关系抽取,并且对现实世界的应用有益,如自动文本摘要、信息检索和问答。
传统的ED模型主要基于机器学习方法,但它们的性能严重依赖于人工选择的特征。随着近年深度学习理论与技术的发展,越来越多的研究者采用深度学习方法来完成ED任务。最近,更多的研究集中于如何将文本序列转化为图结构数据,以融入更丰富的语义信息,进而将图神经网络(GNN)引入ED任务。目前最先进的事件检测模型都是基于GNN的。
上述模型大多基于一个默认且完美的数据集假设,即标签质量高、噪音少且分布均衡。并期望从这样的数据集中学到的模式是可以推广到其他数据集的。然而,不满足这一完备性的真实数据集会导致模型包含与训练数据相同的偏差。大多数关于ED的研究主要关注模型的构建,并根据高质量数据集上的指标如Precision、Recall和F1分数来评估模型的性能,这会导致对模型能力的有过高的评价。
在NLP领域中,模型的鲁棒性显然是必不可少的指标。现实世界中的应用接收的输入通常不是高质量的,因此需要对不同输入文本都有很强适应性的模型。尽管已有研究开始关注NLP模型的鲁棒性,但其中关注ED模型的甚少。
Lu等人在非专利文献“Distilling discrimination and generalizationknowledge for event detection via delta-representation learning[C]//Proceedings of the 57th Annual Meeting of the Association for ComputationalLinguistics.2019:4366-4376”中提出一个Δ-learning方法以提取区分歧义触发词的判别知识以及检测未见/稀疏触发词的泛化知识,但他们忽略了精心设计的对抗文本。Liu等人在非专利文献“How Does Context Matter On the Robustness of Event Detectionwith Context-Selective Mask Generalization[C]//Proceedings of the 2020Conference on Empirical Methods in Natural Language Processing:Findings.2020:2523-2532”中提出一种新的训练范式,名为context-selective mask generalizationfor ED,并通过实验证明了该范式在防御对抗攻击、探索未见触发词和处理歧义情况的有效性。然而,他们仅仅考虑了词级别的对抗攻击,而没有考虑字符级别的对抗攻击以及亚种群。此外,据本发明所知,尚未有关于GNN模型在事件检测问题上的鲁棒性的研究。
早期,关于ED的研究主要采用传统的机器学习方法,以N-gram语言模型和自然语法语义解析工具提取的语言特征为主要特征。这些所选择的特征的质量直接影响ED模型的整体性能,同时,这种方法对人力资源投入和专业知识都有较高要求。
深度学习最突出的优势就是通过多层神经网络自动地从原始数据中学习出有效的特征,因此,随着近年来深度学习理论和技术的逐步完善,越来越多的研究者采用深度学习方法来解决ED问题。Nguyen等人在非专利文献“Modeling skip-grams for eventdetection with convolutional neural networks[C]//Proceedings of the2016Conference on Empirical Methods in Natural Language Processing.2016:886-891”首次将卷积神经网络(CNN)引入到事件抽取(EE)中,通过卷积运算将候选词的相邻词的语义聚合在一起,从而增强了词向量的语义表示;动态多池化策略被用来将更多信息引入CNN,他们认为传统卷积无法提取长距离词之间的关联,因此提出了skip-grams方法来捕捉不连续词之间的语义关联。Ghaeini等人在非专利文献“Event nugget detection withforward-backward recurrent neural networks[C]//Proceedings of the 54th AnnualMeeting of the Association for Computational Linguistics(Volume2:ShortPapers).2016:369-373”首次将循环神经网络(RNN)引入ED中,以检测多词事件。
最近,更多的研究关注如何将文本序列转化成图结构数据,以融入更丰富的语义信息,进而GNN被引入了ED任务。Nguyen等人在非专利文献“Graph convolutionalnetworks with argument-aware pooling for event detection[C]//Thirty-secondAAAI conference on artificial intelligence,Menlo Park:AAAI,2018”中第一次通过句法依存树将图卷积网络(GCN)引入到ED中,并取得了显着的效果;Liu等人在非专利文献“Jointly multiple events extraction via attention-based graph informationaggregation[C]//Proceedings of the 2018Conference on Empirical Methods inNatural Language Processing:Findings.2018”中用自注意力和高速网络增强了GCN,进而提升了GCN在ED任务上的性能;多阶距离和多层词向量注意力聚合机制被引入GCN,进一步提升了GCN的性能;Cui等人在非专利文献“Edge-enhanced graph convolutionnetworks for event detection with syntactic relation[C]//Findings of theAssociation for Computational Linguistics:EMNLP 2020.2020:2329-2339”中提出通过节点更新模块和边更新模块学习句法依存图中的边的嵌入向量,实现了GCN的SOTA效果;Lai等人在非专利文献“Event detection:Gate diversity and syntactic importancescoresfor graph convolution neural networks[C]//Proceedings of the 2020Conference on Empirical Methods in Natural Language Processing(EMNLP).2020:5405-5411”中使用触发词过滤器来减少相邻词之间无关噪声的影响,实现了GCN效果的提升。
Papernot等人在非专利文献“Crafting adversarial input sequences forrecurrent neural networks[C]//MILCOM 2016-2016IEEE Military CommunicationsConference.IEEE,2016:49-54”中首先研究了如何针对RNN设计对抗性的文本序列;Alzantot等人在非专利文献“Generating Natural Language Adversarial Examples[C]//Proceedings of the 2018Conference on Empirical Methods in NaturalLanguage Processing.2018:2890–2896”中设计了一种启发式优化算法生成语义和句法相似的对抗性文本样本;一种名为PWWS的贪婪算法被提出用于生成保持词汇正确性、语法正确性和语义相似性的对抗性文本样本;Morris等人在非专利文献“A framework foradversarial attacks,data augmentation,and adversarial training in nlp[C]//Proceedings of the 2020 Conference on Empirical Methods in Natural LanguageProcessing:System Demonstrations.2020:119-126”中开发了一个可在NLP任务中使用对抗攻击、数据增强和对抗训练的平台TextAttack,它仅需定义一个目标函数、一组约束、一个文本变换和一个搜索方法便可复现前人提出的或个性化定制的文本攻击算法,以生成高质量的对抗性文本;OpenAttack与TextAttack的区别和对其的补充在于支持所有攻击、多语言和并行处理;TextFlint是一个用于NLP任务的多语言鲁棒性评估平台,该平台不但整合了通用文本变换、特定于任务的文本变换、对抗攻击、亚种群以及它们的组合,还能自动生成可视化报告,有助于进行全面的鲁棒性分析。
ED模型的鲁棒性问题具有重要的现实意义且亟待解决,关于该问题的研究较少。Lu等人在非专利文献“Distilling discrimination and generalization knowledge forevent detection via delta-representation learning[C]//Proceedings of the 57thAnnual Meeting of the Association for Computational Linguistics.2019:4366-4376”中提出一种Δ-representation learning方法,通过有效解耦、学习和融合事件表示的可变增量部分,而不是学习单一的综合表示,来提取区分歧义触发词的判别知识以及检测未见/稀疏触发词的泛化知识。尽管Lu等考虑了输入文本的歧义性和稀疏性,但他们忽略了精心设计的对抗文本,使得ED模型不是非常鲁棒。Liu等人在非专利文献“How DoesContext Matter On the Robustness of Event Detection with Context-SelectiveMask Genera1ization[C]//Proceedings of the 2020 Conference on EmpiricalMethods in Natural Language Processing:Findings.2020:2523-2532”中提出一种名为context-selective mask generalization for ED的训练范式,它有效地提升了模型在对抗攻击、词表外(OOV)触发词以及歧义触发词三个方面的鲁棒性。然而,Liu等仅仅使用Alzantot的算法生成仅扰动触发词和扰动所有词的对抗样本,以评估ED模型的鲁棒性,而没有考虑不同类型的文本变换和亚种群,这使得模型的鲁棒性分析并不够全面。
发明内容
为了研究ED模型的鲁棒性,本发明首先提出了一个事件检测模型鲁棒性分析框架,以评估ED模型在面对各种文本变换和亚种群的性能,基于评估结果本发明可以全面地分析ED模型的鲁棒性。为了提升图神经网络事件检测模型的鲁棒性,本发明提出了一种新的多阶距离表示方法以更好地捕捉长距离词之间的关联,还提出了一种基于注意力权重的边表示更新方法,能够在边更新中更好地区分不同类型边的重要性。大量实验证实了所提出的框架以及新模型的有效性。
本发明公开的图神经网络事件检测模型的鲁棒性分析方法,包括以下步骤:
获取原始文本数据;
通过通用文本变换和亚种群变换,将原始文本数据转换为对抗数据,将对抗数据作为输入序列S=(w1,w2,...wi,...,wn),其中wi为第i个token的向量,n为序列中token的数量;其中,选择Length-subpopulation来基于文本长度对原始数据进行过滤,以生成亚种群,或选择GPT-2语言模型的Perplexity函数或算法来筛选原始数据,以生成亚种群,其公式如下所示:
Figure GDA0003960423370000041
其中p(w1,w2,...wn)是GPT-2语言模型生成文本序列S=(w1,w2,...,wn)的概率;将wi向量化为
Figure GDA0003960423370000042
其中wi和ei分别表示wi的词嵌入向量和实体类型嵌入向量,dw、de分别是所述词嵌入向量和实体类型嵌入向量的维度;将
Figure GDA0003960423370000051
输入隐藏层维度为dl/2的Bi-LSTM网络中,
Figure GDA0003960423370000052
分别为xi的正向隐层状态和反向隐层状态,用
Figure GDA0003960423370000053
来表示每个token的wi;同时对输入序列进行句法依存分析,即将单词作为节点,依存关系作为边,得到句法依存图;
将句法依存图中的边嵌入向量空间,得到一个边表示张量;
将每个节点的表示变换到dg维后,
Figure GDA0003960423370000054
作为EE-GCN神经网络中第1层的输入状态,层l∈[1,L]中每个节点的向量通过边表示张量聚合邻居节点更新,L为EE-GCN神经网络的层数;
将各个节点的最终表示
Figure GDA0003960423370000055
输入全连接网络,使用Softmax函数计算所有事件类型的概率分布,将概率最大的事件标签作为分类结果并输出,使用有偏损失函数来增强事件标签对训练过程的影响。
进一步的,层l∈[1,L]中每个节点的向量通过边表示张量聚合邻居节点更新,层
Figure GDA0003960423370000056
的输出状态如下:
Figure GDA0003960423370000057
Figure GDA0003960423370000058
分别是第l层中各个通道的节点表示,p是通道数;
具体而言,聚合是在边表示张量中逐通道进行的,如下所示:
Figure GDA0003960423370000059
其中,Pool表示平均池化操作,用于压缩所有通道的信息,
Figure GDA00039604233700000510
是一个可学习的参数,σ是ReLU激活函数。
进一步的,层中各边的向量更新如下所示:
Figure GDA00039604233700000511
其中,
Figure GDA0003960423370000061
是一个可学习的参数,
Figure GDA0003960423370000062
表示连接操作,
Figure GDA0003960423370000063
是第l层中第i个节点的表示,
Figure GDA0003960423370000064
是第l层中第j个节点的表示。
进一步的,所述使用Softmax函数计算所有事件类型的概率分布的公式如下:
Figure GDA0003960423370000065
其中,
Figure GDA0003960423370000066
为各个节点的最终表示,WC将最终表示
Figure GDA0003960423370000067
映射为在各个事件类型上的特征得分,bC是偏置项。
进一步的,所述有偏损失函数如下:
Figure GDA0003960423370000068
其中,NS是句子个数,ni是句子si的单词个数,
Figure GDA0003960423370000069
是单词的真实事件标签;若单词的事件类型是‘O’则I(O)等于1,否则等于0;α是大于1的权重系数。
进一步的,所述通用文本变换包括Keyboard、Ocr、SpellingError、Tense、Typos、SwapSyn和EntTypos。
进一步的,引入多阶距离表示方法,以捕捉长距离词之间的关联,增强触发词上下文感知能力,并使用基于注意力权重的边表示更新方法,在引入多阶距离的情况下更好地在边更新中区分不同类型边的重要性。
进一步的,所述多阶距离表示方法将所有距离为2和3的边的标签分别设置为”distance:2”和”distance:3”,只有这些边的嵌入向量参与后续节点更新和边更新的计算。
进一步的,所述基于注意力权重的边表示更新方法,将每个边的向量表示根据边两端节点计算的权重分数进行更新,其在数学上的定义如下:
其在数学上的定义如下:
Figure GDA0003960423370000071
其中,
Figure GDA0003960423370000072
是一个可学习的参数。
本发明的有益效果如下:
在目前对ED模型鲁棒性的研究较少的情况下,提出了一个事件检测鲁棒性分析框架,有助于全面地分析ED模型的鲁棒性。
提出了一种新的多阶距离表示方法和一种基于注意力权重的边表示更新方法以增强EE-GCN,进而设计了一个名为A-MDL-EEGCN的新模型。实验表明该模型在ACE2005数据集上的性能优于之前提出的图神经网络事件检测模型,尤其是存在对抗数据的情况。
使用事件检测模型鲁棒性分析框架,进行了大量实验评估几个图神经网络事件检测模型的性能,并基于实验结果进行了全面的鲁棒性分析,对评估和设计鲁棒的事件检测模型提供了新的方法。
附图说明
图1事件检测示例图;
图2事件检测模型鲁棒性分析框架;
图3本发明的A-MDL-EEGCN模型的输入层结构图;
图4本发明的A-MDL-EEGCN模型的图网络层结构图。
具体实施方式
下面结合附图对本发明作进一步的说明,但不以任何方式对本发明加以限制,基于本发明教导所作的任何变换或替换,均属于本发明的保护范围。
本发明将ED视为序列标注任务。任务的输入是一个自然文本序列,文本中的每个单词都被视为一个token(词)。形式化地,给定一个包含n个token的输入序列S=(w1,w2,...wi,...,wn),相应的事件类型序列为ET=(et1,et2,...,etn),其中事件类型本文采用”BIO”模式标注。
TextFlint平台仅能对命名实体识别(NER)、关系抽取(RE)、词性标注(POST)和情感分析(SA)等特定NLP任务的进行鲁棒性分析。因此,本发明利用TextFlint平台提供的功能构建了一个ED模型鲁棒性分析框架,如图2所示。该框架利用TextFlint从原始数据生成对抗数据,包括经文本变换后的数据和亚种群,然后评估模型在这些对抗数据集上的性能,并与在原始数据集上的性能进行比较,基于此本发明可以全面地分析模型的鲁棒性。所用的文本变换和亚种群的描述如下。
文本变换:首先,从通用文本变换中选择了Keyboard、Ocr、SpellingError、Tense、Typos和SwapSyn。其次,由于A-MDL-EEGCN、EE-GCN和MOGAND均将实体类型考虑到了输入中,因此从NER任务文本转换中选择EntTypos。上述七种文本变换及对应的描述见表1。
表1
Figure GDA0003960423370000081
亚种群:由于各个输入文本的长度不完全一致,序列标注模型中通常设置一个最大文本长度,对短文本进行填充(用占位符),对长文本进行截断,以输出长度一致的预测序列。因此,选择Length-subpopulation来基于文本长度对原始数据进行过滤,以生成亚种群。
此外,还选择GPT-2语言模型的Perplexity来筛选原始数据,以生成亚种群,其公式如下所示:
Figure GDA0003960423370000082
其中p(w1,w2,...wn)是GPT-2语言模型生成文本序列S=(w1,w2,...,wn)的概率。
简而言之,Perplexity可以大致评估S的合理性。
本发明的A-MDL-EEGCN模型如下:
对于给定的输入序列S=(w1,w2,...wi,...,wn),本发明将每个wi向量化为
Figure GDA0003960423370000091
其中wi(在NYT语料库上用skip-gram方法预训练)和ei(实体类型采用”BIO”标注)分别表示wi的词嵌入向量和实体类型嵌入向量,dw,de是上述向量的维度。然后本发明将
Figure GDA0003960423370000092
输入隐藏层维度为dl/2的Bi-LSTM,
Figure GDA0003960423370000093
分别为xi的正向隐层状态和反向隐层状态,最后本发明用
Figure GDA0003960423370000094
来表示每个token的wi
同时本发明对输入序列S进行句法依存分析。将单词作为节点,依存关系作为边,则得到句法依存图(邻接矩阵),作为图神经网络事件检测模型输入的一部分。
由于之前的图神经网络事件检测模型通常忽略依存标签信息,而这些信息通常可以传递对ED有用的丰富语言知识,本发明使用边增强图卷积网络(EE-GCN,本领域的现有技术),将句法依存图中的边嵌入向量空间,进而得到一个边表示张量EM=[emi,j,k]∈Rn×n×p,其中emi,j∈Rp是句法依存图中对应边的向量表示,相比于传统邻接矩阵中的0或1,它包含了更多的语义信息。
Figure GDA0003960423370000095
将每个节点(token)的表示变换到dg维后,H0作为EE-GCN中第1层的输入状态。层l∈[1,L]中每个节点的向量通过边表示张量聚合邻居节点更新,因此,层
Figure GDA0003960423370000096
的输出状态如下:
Figure GDA0003960423370000097
Figure GDA0003960423370000098
分别是第l层中各个通道的节点表示,p是通道数;
具体而言,聚合是在边表示张量中逐通道进行的,如下所示:
Figure GDA0003960423370000101
其中,Pool表示平均池化操作,用于压缩所有通道的信息,
Figure GDA0003960423370000102
是一个可学习的参数,σ是ReLU激活函数。
层中各边的向量更新如下所示:
Figure GDA0003960423370000103
其中,
Figure GDA0003960423370000104
是一个可学习的参数,
Figure GDA0003960423370000105
表示连接操作。
本发明将各个词(节点)的最终表示
Figure GDA0003960423370000106
输入全连接网络,然后使用Softmax函数计算所有事件类型的概率分布,公式如下:
Figure GDA0003960423370000107
其中WC将词表示
Figure GDA0003960423370000108
映射为在各个事件类型上的特征得分,bC是偏置项。概率最大的事件标签作为分类结果。
使用有偏损失函数来增强事件标签对训练过程的影响:
Figure GDA0003960423370000109
其中,NS是句子个数,ni是句子si的单词个数,
Figure GDA00039604233700001010
是单词的真实事件标签。若单词的事件类型是‘O’则I(O)等于1,否则等于0。α是大于1的权重系数。
EE-GCN的增强:根据ACE2005数据集上的统计结果,大约51%的事件相关词和相应触发词在句法依存图中的距离至少为2跳,本发明提出一种新的多阶距离表示方法即引入多阶距离标签,这有助于更好地捕捉长距离词之间的关联,进而增强触发词上下文感知能力,尤其是在长句中。”nsubj”(名词性主语)、”dobj”(直接宾语)和”nmod”(名词复合修饰语)占触发词相关依存标签的32.2%,本发明提出一个基于注意力权重的边表示更新方法,在引入多阶距离的情况下更好地在边更新中区分不同类型边的重要性。
由此本发明设计了一个新的模型A-MDL-EEGCN,使用上述两种方法来增强EE-GCN,它弥补了EE-GCN不考虑多阶距离的缺陷和MOGAND忽略依存标签信息的缺陷。A-MDL-EEGCN的架构如图3和图4所示。
多阶距离表示方法的具体实现如下:
距离指两个单词在句法依存图中的语义距离。由一条边相连的两个单词之间的距离为1,而多阶距离意味着两个单词不直接相连,其等于中间节点数+1。如”解雇”和”工作”之间的距离为2,”解雇”和”出错”之间的距离为3。
MOGAND以分层的方式引入了多阶距离,即对每一阶距离形成一个独立的邻接矩阵,每个邻接矩阵在单独的GCN层中计算,最后聚合作为最终结果。但是这种方法需要相当大的计算量。因此,本发明提出了一种新的多阶距离表示方法,即将所有距离为2和3的边的标签分别设置为”distance:2”和”distance:3”。这样,这些边的嵌入向量就可以参与后续节点更新和边更新的计算,进而EE-GCN能够更好地捕捉长距离词之间的关联。
基于注意力权重的边表示更新方法的具体实现如下:
单独地将新的多阶距离表示方法引入EE-GCN会导致性能下降,本发明认为这是因为当引入多阶距离标签时,EE-GCN的边表示更新方法难以区分不同类型边的重要性。例如,”被解雇”和”飞行员”之间的边”dobj”应该比”飞行员”和”那个”之间的边”det”传递更多的信息,因此”dobj”应该在边更新中获得更大的权重。
总之,不同的边在更新时应该有不同的权重,权重与边两端的节点有关。因此,本发明提出了一种新的基于注意力权重的更新方法。每个边的向量表示根据边两端节点计算的权重分数进行更新,该方法在数学上可以定义如下:
Figure GDA0003960423370000111
其中,
Figure GDA0003960423370000112
是一个可学习的参数。
本发明在ACE2005数据集上进行实验,采用与EE-GCN和MOGAND相同的数据划分进行训练,以精确率(P)、召回率(R)和F1值(F1)作为评价指标。为了公平比较各个模型的性能,所用超参数均为对应模型在原始数据上取得最佳性能的参数,其中A-MDL-EEGCN的超参数如表2所示。
表2 A-MDL-EEGCN的超参数
超参数
词向量维度(d<sub>w</sub>) 100
实体类型嵌入向量维度(d<sub>e</sub>) 50
边标签嵌入向量维度(p) 50
BiLSTM维度(d<sub>l</sub>/2) 100
GCN维度(d<sub>g</sub>) 150
GCN层数(L) 2
学习率 0.001
优化器 Adam
批大小 30
训练轮次 100
最大文本长度 50
随机种子 1023
原始数据上的实验结果如表3所示,其中MDL-EEGCN表示单独将多阶距离表示方法(即多阶距离标签,MDL)引入EE-GCN。
表3各模型在原始数据上的性能
模型 P R F1
GCN-ED 77.9 68.8 73.1
JMEE 76.3 71.3 73.7
MOGANED 79.5 72.3 75.7
GatedGCN 78.8 76.3 77.6
EE-GCN 76.7 78.6 77.6
MDL-EEGCN 78.9 75.6 77.2
A-MDL-EEGCN 78.2 78.7 78.4
结果显示本发明提出的A-MDL-EEGCN在R和F1上优于MOGAND和GatedGCN,在所有指标上优于GCN-ED、JMEE和EE-GCN,这表明A-MDL-EEGCN能取得比之前提出的图神经网络事件检测模型更好的性能。
尽管在R和F1上MDL-EEGCN优于MOGAND,但却劣于EE-GCN。通过分析MDL-EEGCN的预测结果,本发明发现这是因为模型将许多非”O”标签预测为”O”,因此本发明认为当新的边类型”distance:2”和”distance:3”引入EE-GCN时,它的边表示更新方法难以在边更新中区分不同类型边的重要性,反而稀释了原始语义,进而导致性能下降。
A-MDL-EEGCN在R和F1上优于MDL-EEGCN,证明了基于注意力权重的边表示更新方法的有效性,以及本发明提出的两种方法结合的必要性。
在本部分将全面地评估A-MDL-EEGCN、EE-GCN和MOGAND模型在对抗数据上的鲁棒性。
对于文本变换,本发明设置Tense变换输入文本中所有动词的时态,SwapSyn对输入文本中的每个单词以0.5的概率替换为同义词,其他文本变换对输入文本中的每个单词都以0.3的概率执行变换。
对于亚种群,由于A-MDL-EEGCN最佳参数中最大文本长度为50,因此本发明筛选文本长度小于等于50和大于50的原始数据,生成亚种群length<=50和length>50,以评估填充和截断输入文本对模型性能的影响。同时,本发明以GPT-2语言模型的困惑度为指标,筛选出困惑度最高的前50%和前20%的原始数据,生成亚种群Perplexity-0-50%和Perplexity-0-20%,以评估模型对高困惑度输入文本的性能。
由文本变换和亚种群生成的数据统称为对抗数据,表4展示了A-MDL-EEGCN、EE-GCN和MOGAND在各个对抗数据上的性能,即图神经网络事件检测模型的鲁棒性评估结果。由于F1是P和R的综合指标,因此本发明将F1和它的变化值ΔF1在表中列出。
表4鲁棒性评估结果。
Figure GDA0003960423370000141
模型对字符级别变换的鲁棒性
Keyboard、Ocr、SpellingError、Typos、EntTypos都是对单词中的一个或若干个字符进行变换,属于字符级的变换。实验结果显示,在字符级变换上,模型对EntTypos的鲁棒性明显比其他四种更强。显然,这是因为EntTypos仅针对有实体标签的词,所以它对原始句子的扰动比其他字符级变换要小。进一步,本发明逐一分析模型对其他四种变换的鲁棒性:
1.Typos对单词的扰动毫无规律,几乎一定会将被变换单词变换为OOV词,因此模型对Typos的鲁棒性很弱;
2.Ocr虽然模拟了现实中可能出现的错误,但模型对其的鲁棒性也较差,本发明认为这可能是因为训练词向量的语料由人工输入而不是从图片中识别,因此语料中很少出现Ocr导致的错误;
3.SpellingError和Keyboard模拟了人可能导致的错误,这些错误或许在训练词向量的语料中出现,因此模型对这两种文本变换的鲁棒性比以上两种稍强。
由以上分析可知,图神经网络事件检测模型对字符级变换的鲁棒性与训练语料有关。尽管这些模型使用相同的预训练词向量,A-MDL-EEGCN和EE-GCN对字符级变换的鲁棒性要强于MOGAND。本发明推测这是因为MOGAND仅考虑邻接关系而忽略了依存标签,所以它对被变换的词带来的噪声更敏感。
模型对词级别变换的鲁棒性:
Tense和SwapSyn都属于词级的变换,以为它们将某个词变换为另一个词。实验结果显示,模型对Tense的鲁棒性和对SwapSyn的鲁棒性都较强,前者略强于后者,本发明进行了如下分析:
1.变换所有动词的时态基本不会改变句子的含义,且动词的不同时态之间语义差异较小,相应的词向量也应十分相似,因此Tense对原句子造成的扰动很小;
2.将单词替换为同义词会轻微改变句子的含义(如情感程度),尽管同义词的词向量也十分相似,SwapSyn对原句子造成的扰动略强于Tense。
由以上分析可知,图神经网络事件检测模型能够较好地应对词汇特征轻微变化的情况,即模型能较好地处理表述不同但含义相同的句子。且A-MDL-EEGCN对词级变换的鲁棒性强于EE-GCN和MOGAND。
模型对组合文本变换的鲁棒性
本发明将字符级变换中对模型性能影响最大的Typos和词级变换进行组合,由于单词形态上的变换会影响单词的识别,本发明对输入文本先执行SwapSyn(Tense),再执行Typos,称为SwapSyn+Typos(Tense+Typos)。实验结果显示,组合文本变换会使模型的性能进一步降低,这启示本发明可以设计更多类型的文本变换组合,以更全面地评估模型的鲁棒性。
模型对亚种群的鲁棒性
实验结果显示,模型在亚种群length<=50上的性能上升了,而在length>50上的性能下降了。原因是显而易见的:
1.尽管短句子被填充,但它仍保留了完整的信息;
2.将长句子截断影响了句子结构和语义的完整性,导致模型可能失去模型识别触发词和事件类型的重要信息。
原始数据中的大多数文本是短句子,因此各个模型在length<=50上的性能与在原始数据上的性能几乎一致。然而,长句子中存在很多长距离词之间的关联。A-MDL-EEGCN和MOGAND在length>50上的性能显著优于EE-GCN,这表明对ED而言在长句子中捕获这种关联至关重要。此外,MOGAND的训练耗时(约1000s每epoch)远远大于A-MDL-EEGCN和EE-GCN,这说明A-MDL-EEGCN兼具效率和效能。
模型在Perplexity-0-20%上的性能比在Perplexity-0-50%上差,且在Perplexity-0-50%上的性能比在原始数据上差,说明GPT-2的困惑度指标能有效地衡量输入文本的质量。从以上分析可知图神经网络事件检测模型对高困惑度文本的鲁棒性较强。此外,需要更多的指标而不仅仅是Perplexity来衡量输入文本的质量,以评估ED模型检测由低质量文本表示的事件的能力。
本发明的有益效果如下:
在目前对ED模型鲁棒性的研究较少的情况下,提出了一个事件检测鲁棒性分析框架,有助于全面地分析ED模型的鲁棒性。
提出了一种新的多阶距离表示方法和一种基于注意力权重的边表示更新方法以增强EE-GCN,进而设计了一个名为A-MDL-EEGCN的新模型。实验表明该模型在ACE2005数据集上的性能优于之前提出的图神经网络事件检测模型,尤其是存在对抗数据的情况。
使用事件检测模型鲁棒性分析框架,进行了大量实验评估几个图神经网络事件检测模型的性能,并基于实验结果进行了全面的鲁棒性分析,对评估和设计鲁棒的事件检测模型提供了新的方法。
本文所使用的词语“优选的”意指用作实例、示例或例证。本文描述为“优选的”任意方面或设计不必被解释为比其他方面或设计更有利。相反,词语“优选的”的使用旨在以具体方式提出概念。如本申请中所使用的术语“或”旨在意指包含的“或”而非排除的“或”。即,除非另外指定或从上下文中清楚,“X使用A或B”意指自然包括排列的任意一个。即,如果X使用A;X使用B;或X使用A和B二者,则“X使用A或B”在前述任一示例中得到满足。
而且,尽管已经相对于一个或实现方式示出并描述了本公开,但是本领域技术人员基于对本说明书和附图的阅读和理解将会想到等价变型和修改。本公开包括所有这样的修改和变型,并且仅由所附权利要求的范围限制。特别地关于由上述组件(例如元件等)执行的各种功能,用于描述这样的组件的术语旨在对应于执行所述组件的指定功能(例如其在功能上是等价的)的任意组件(除非另外指示),即使在结构上与执行本文所示的本公开的示范性实现方式中的功能的公开结构不等同。此外,尽管本公开的特定特征已经相对于若干实现方式中的仅一个被公开,但是这种特征可以与如可以对给定或特定应用而言是期望和有利的其他实现方式的一个或其他特征组合。而且,就术语“包括”、“具有”、“含有”或其变形被用在具体实施方式或权利要求中而言,这样的术语旨在以与术语“包含”相似的方式包括。
本发明实施例中的各功能单元可以集成在一个处理模块中,也可以是各个单元单独物理存在,也可以多个或多个以上单元集成在一个模块中。上述集成的模块既可以采用硬件的形式实现,也可以采用软件功能模块的形式实现。所述集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时,也可以存储在一个计算机可读取存储介质中。上述提到的存储介质可以是只读存储器,磁盘或光盘等。上述的各装置或系统,可以执行相应方法实施例中的存储方法。
综上所述,上述实施例为本发明的一种实施方式,但本发明的实施方式并不受所述实施例的限制,其他的任何背离本发明的精神实质与原理下所做的改变、修饰、代替、组合、简化,均应为等效的置换方式,都包含在本发明的保护范围之内。

Claims (9)

1.图神经网络事件检测模型的鲁棒性分析方法,其特征在于,包括以下步骤:
获取原始文本数据;
通过通用文本变换和亚种群变换,将原始文本数据转换为对抗数据,将对抗数据作为输入序列S=(w1,w2,...wi,...,wn),其中wi为第i个token的向量,n为序列中token的数量;其中,选择Length-subpopulation来基于文本长度对原始数据进行过滤,以生成亚种群,或选择GPT-2语言模型的Perplexity函数或算法来筛选原始数据,以生成亚种群,其公式如下所示:
Figure FDA0003960423360000011
其中p(w1,w2,...wn)是GPT-2语言模型生成文本序列S=(w1,w2,...,wn)的概率;
将wi向量化为
Figure FDA0003960423360000012
其中wi和ei分别表示wi的词嵌入向量和实体类型嵌入向量,dw、de分别是所述词嵌入向量和实体类型嵌入向量的维度;
Figure FDA0003960423360000013
输入隐藏层维度为dl/2的Bi-LSTM网络中,
Figure FDA0003960423360000014
分别为xi的正向隐层状态和反向隐层状态,用
Figure FDA0003960423360000015
来表示每个token的wi;同时对输入序列进行句法依存分析,即将单词作为节点,依存关系作为边,得到句法依存图;
将句法依存图中的边嵌入向量空间,得到一个边表示张量;
将每个节点的表示变换到dg维后,
Figure FDA0003960423360000016
作为EE-GCN神经网络中第1层的输入状态,层l∈[1,L]中每个节点的向量通过边表示张量聚合邻居节点更新,L为EE-GCN神经网络的层数;
将各个节点的最终表示
Figure FDA0003960423360000017
输入全连接网络,使用Softmax函数计算所有事件类型的概率分布,将概率最大的事件标签作为分类结果并输出,使用有偏损失函数来增强事件标签对训练过程的影响。
2.根据权利要求1所述的图神经网络事件检测模型的鲁棒性分析方法,其特征在于,层l∈[1,L]中每个节点的向量通过边表示张量聚合邻居节点更新,层l的输出状态如下:
Figure FDA0003960423360000021
Figure FDA0003960423360000022
分别是第l层中各个通道的节点表示,p是通道数;
具体而言,聚合是在边表示张量中逐通道进行的,如下所示:
Figure FDA0003960423360000023
其中,Pool表示平均池化操作,用于压缩所有通道的信息,
Figure FDA0003960423360000024
是一个可学习的参数,σ是ReLU激活函数。
3.根据权利要求2所述的图神经网络事件检测模型的鲁棒性分析方法,其特征在于,层中各边的向量更新如下所示:
Figure FDA0003960423360000025
其中,
Figure FDA0003960423360000026
是一个可学习的参数,
Figure FDA0003960423360000027
表示连接操作,
Figure FDA0003960423360000028
是第l层中第i个节点的表示,
Figure FDA0003960423360000029
是第l层中第j个节点的表示,n是节点数量。
4.根据权利要求1所述的图神经网络事件检测模型的鲁棒性分析方法,其特征在于,所述使用Softmax函数计算所有事件类型的概率分布的公式如下:
Figure FDA00039604233600000210
其中,
Figure FDA00039604233600000211
为各个节点的最终表示,WC将最终表示
Figure FDA00039604233600000212
映射为在各个事件类型上的特征得分,bC是偏置项。
5.根据权利要求4所述的图神经网络事件检测模型的鲁棒性分析方法,其特征在于,所述有偏损失函数如下:
Figure FDA0003960423360000031
其中,NS是句子个数,ni是句子si的单词个数,
Figure FDA0003960423360000032
是单词的真实事件标签;若单词的事件类型是‘O’则I(O)等于1,否则等于0;α是大于1的权重系数,θ是使损失函数值最小时的估计值。
6.根据权利要求1所述的图神经网络事件检测模型的鲁棒性分析方法,其特征在于,所述通用文本变换包括Keyboard、Ocr、SpellingError、Tense、Typos、SwapSyn和EntTypos。
7.根据权利要求3所述的图神经网络事件检测模型的鲁棒性分析方法,其特征在于,引入多阶距离表示方法,以捕捉长距离词之间的关联,增强触发词上下文感知能力,并使用基于注意力权重的边表示更新方法,在引入多阶距离的情况下更好地在边更新中区分不同类型边的重要性。
8.根据权利要求7所述的图神经网络事件检测模型的鲁棒性分析方法,其特征在于,所述多阶距离表示方法将所有距离为2和3的边的标签分别设置为“distance:2”和“distance:3”,只有这些边的嵌入向量参与后续节点更新和边更新的计算。
9.根据权利要求7所述的图神经网络事件检测模型的鲁棒性分析方法,其特征在于,所述基于注意力权重的边表示更新方法,将每个边的向量表示根据边两端节点计算的权重分数进行更新,其在数学上的定义如下:
Figure FDA0003960423360000033
其中,
Figure FDA0003960423360000034
是一个可学习的参数,EM张量中l层中边i、j的向量表示。
CN202211245739.XA 2022-10-12 2022-10-12 图神经网络事件检测模型的鲁棒性分析方法 Active CN115329088B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211245739.XA CN115329088B (zh) 2022-10-12 2022-10-12 图神经网络事件检测模型的鲁棒性分析方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211245739.XA CN115329088B (zh) 2022-10-12 2022-10-12 图神经网络事件检测模型的鲁棒性分析方法

Publications (2)

Publication Number Publication Date
CN115329088A CN115329088A (zh) 2022-11-11
CN115329088B true CN115329088B (zh) 2023-01-10

Family

ID=83913351

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211245739.XA Active CN115329088B (zh) 2022-10-12 2022-10-12 图神经网络事件检测模型的鲁棒性分析方法

Country Status (1)

Country Link
CN (1) CN115329088B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116245139B (zh) * 2023-04-23 2023-07-07 中国人民解放军国防科技大学 图神经网络模型训练方法和装置、事件检测方法和装置
CN116719974B (zh) * 2023-08-11 2023-10-31 江西财经大学 基于依存关系结构增强的事件检测方法及系统

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11868730B2 (en) * 2020-09-23 2024-01-09 Jingdong Digits Technology Holding Co., Ltd. Method and system for aspect-level sentiment classification by graph diffusion transformer
CN112597296B (zh) * 2020-12-17 2022-11-08 中山大学 一种基于计划机制和知识图谱引导的摘要生成方法
CN112906869A (zh) * 2021-03-09 2021-06-04 中南大学 一种基于时空稀疏学习的鲁棒图卷积神经网络方法
CN115034224A (zh) * 2022-01-26 2022-09-09 华东师范大学 一种融合多种文本语义结构图表示的新闻事件检测方法和系统
CN114707508A (zh) * 2022-04-13 2022-07-05 西安邮电大学 基于图结构的多跳邻居信息融合的事件检测方法
CN114912419A (zh) * 2022-04-19 2022-08-16 中国人民解放军国防科技大学 基于重组对抗的统一机器阅读理解方法
CN115018057A (zh) * 2022-06-28 2022-09-06 之江实验室 面向图神经网络的鲁棒神经架构搜索方法及其系统

Also Published As

Publication number Publication date
CN115329088A (zh) 2022-11-11

Similar Documents

Publication Publication Date Title
CN115329088B (zh) 图神经网络事件检测模型的鲁棒性分析方法
Fu et al. Listening to the investors: A novel framework for online lending default prediction using deep learning neural networks
CN112784532B (zh) 用于短文本情感分类的多头注意力记忆系统
CN115017299A (zh) 一种基于去噪图自编码器的无监督社交媒体摘要方法
CN112232087A (zh) 一种基于Transformer的多粒度注意力模型的特定方面情感分析方法
CN113255321A (zh) 基于文章实体词依赖关系的金融领域篇章级事件抽取方法
CN113657123A (zh) 基于目标模板指导和关系头编码的蒙语方面级情感分析方法
CN114818717A (zh) 融合词汇和句法信息的中文命名实体识别方法及系统
CN113869055A (zh) 基于深度学习的电网项目特征属性识别方法
Lin et al. Multi-label emotion classification based on adversarial multi-task learning
Narayanaswamy Exploiting BERT and RoBERTa to improve performance for aspect based sentiment analysis
Xiong et al. Transferable natural language interface to structured queries aided by adversarial generation
Alsmadi et al. Adversarial machine learning in text processing: a literature survey
Chen et al. Research on automatic essay scoring of composition based on CNN and OR
He et al. Syntax-aware entity representations for neural relation extraction
Xiao et al. FusionSum: Abstractive summarization with sentence fusion and cooperative reinforcement learning
CN114742069A (zh) 一种代码相似度检测方法及装置
CN113792144B (zh) 基于半监督的图卷积神经网络的文本分类方法
CN111767388B (zh) 一种候选池生成方法
Tang et al. Text semantic understanding based on knowledge enhancement and multi-granular feature extraction
CN114330350A (zh) 一种命名实体识别方法、装置、电子设备及存储介质
Dai et al. A syntactic distance sensitive neural network for event argument extraction
Mai et al. Nested relation extraction via self-contrastive learning guided by structure and semantic similarity
Cui et al. Aspect level sentiment classification based on double attention mechanism
Zhu English Lexical Analysis System of Machine Translation Based on Simple Recurrent Neural Network

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant