CN115470772A - 一种用于事件检测的语义感知方法 - Google Patents

一种用于事件检测的语义感知方法 Download PDF

Info

Publication number
CN115470772A
CN115470772A CN202211027619.2A CN202211027619A CN115470772A CN 115470772 A CN115470772 A CN 115470772A CN 202211027619 A CN202211027619 A CN 202211027619A CN 115470772 A CN115470772 A CN 115470772A
Authority
CN
China
Prior art keywords
semantic
mask
model
follows
trigger
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202211027619.2A
Other languages
English (en)
Inventor
余正涛
严海宁
黄于欣
张亚飞
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Kunming University of Science and Technology
Original Assignee
Kunming University of Science and Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Kunming University of Science and Technology filed Critical Kunming University of Science and Technology
Priority to CN202211027619.2A priority Critical patent/CN115470772A/zh
Publication of CN115470772A publication Critical patent/CN115470772A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3344Query execution using natural language analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3346Query execution using probabilistic model
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/211Syntactic parsing, e.g. based on context-free grammar [CFG] or unification grammars
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Health & Medical Sciences (AREA)
  • Data Mining & Analysis (AREA)
  • General Health & Medical Sciences (AREA)
  • Databases & Information Systems (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Biomedical Technology (AREA)
  • Computing Systems (AREA)
  • Molecular Biology (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Evolutionary Computation (AREA)
  • Biophysics (AREA)
  • Probability & Statistics with Applications (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Machine Translation (AREA)

Abstract

本发明涉及用于事件检测的语义感知方法。由于高频事件触发词往往主导ED模型的预测,且ED模型不能很好地理解上下文信息,导致在某些情况下无法识别事件类型,本发明能更加关注上下文来改变事件触发器的主导地位。提出的新颖的语义表征,以深入挖掘事件触发器和上下文之间的潜在联系,使ED模型更好地理解上下文信息。只需要在验证集上进行轻量级的训练,就能搭载在在任何训练好的模型上,无需昂贵的再训练和微调。在公共ACE2005数据集上的大量实验结果表明了该方法的有效性和可移植性。本发明优于之前12个最先进的(SOTA)事件检测模型,对于F1值和F0.5值分别提升了5.1%和2.2%。

Description

一种用于事件检测的语义感知方法
技术领域
本发明涉及一种用于事件检测的语义感知方法,属于自然语言处理领域。
背景技术
事件检测(ED)是事件抽取(EE)的关键步骤之一,是自然语言处理(NLP)领域的一项关键任务。它旨在识别事件触发词并且分类到预定义的事件类型中。ED任务有助于计算机理解人类语言和许多应用程序,例如自动内容提取、问答和知识库人口。
以前的工作通常将ED视为基于触发词的分类问题。他们首先使用事件触发词识别器在给定句子中找到事件触发词,然后使用事件触发词分类器来确定触发词的事件类型。然而上述ED模型会陷入触发词偏差,仅仅学习到词汇模式(即单词-触发的映射),因此不能很好地理解给定句子的语义。所以其他工作引入了不同的上下文语义信息来理解给定文本的内容,以提高ED的性能。一些研究引入了结构化信息来理解文本内容,例如利用事件参数来表示上下文信息。另一些研究通过图卷积神经网络、注意力机制或语言模型引入非结构化信息来作为上下文语义信息。
事实上,以前的ED模型存在以下缺点。首先,ACE2005数据集中数据分布不平衡,每种事件类型的事件触发词数量比例失衡。对于已经训练好的模型,高频率事件触发词往往会主导事件类型的识别,例如战争、攻击、战斗、射击和炸弹几个触发词覆盖了大约78%攻击事件类型。一旦给定句子包含这样的主导事件触发词,它就会被分类到对应的事件类型。这种现象本质上是由于以前的ED模型过度依赖事件触发词并受到词汇模式问题的影响。其次,当事件触发词模棱两可时,ED模型只能从上下文中获取有用的信息。但是在以往的方法中,ED模型经常无法通过其上下文信息,正确识别具有模棱两可事件触发词的句子的事件类型。本质上,当前的ED模型并没有真正学习到上下文信息。为了解决这些问题,通常有两种解决方案。第一是标注大量数据构建新的平衡数据集;第二是提高学习上下文信息的能力。但是标注数据成本过高,并且现有研究都需要设计复杂的模型级策略来学习上下文信息,过程比较冗长。
为此,提出一种用于事件检测的语义感知方法,它不需要标注数据,也不需要复杂的模型级策略,只需要在验证集上进行轻量级训练就可以更加关注上下文来改变事件触发词的主导地位并且可以深入挖掘事件触发词和上下文之间的潜在联系,更好理解上下文信息。此外,提出的插件具有很好的便携性,无需更新大量模型参数和微调就能搭载在任何已经训练好的事件检测模型上。
发明内容
本发明提供了一种用于事件检测的语义感知方法,本发明通过轻量级训练,不需要复杂的模型级策略就可以缓解以往事件检测中主导触发词的影响和不能很好理解上下文信息的缺点,提高了事件检测的性能。
本发明的技术方案是:一种用于事件检测的语义感知方法,所述方法包括对公共数据集的处理;处理好的数据输入基线模型中,获得触发词和预测概率分布;将处理好的数据和已获得的触发词以及预测概率输入插件,来干预基线模型的预测,使结果更加符合语义;最后使用相似性度量,决定最终结果使用基线模型的结果还是插件的预测结果。
作为本发明的进一步方案,所述方法的具体步骤如下:
Step1:准备数据集,对公共数据集ACE2005数据进行预处理,将处理好的数据准备输入到模型中;
Step2:将处理好的数据输入基线模型(DMBERT)中,获得触发词和预测的概率分布;
Step3:将处理好的数据和已获得的触发词以及概率,输入到语义感知插件(SAP)。插件包括:语义表征模块和语义感知交互层。
Step4:利用相似性度量,决定最终的预测结果。
作为本发明的进一步方案,所述Step1的具体步骤为:
Step1.1:通过下载网上公开数据集ACE2005。该数据集包含599个文档,其中训练集、验证集和测试集的文档数量分别为529、30和40,并定义了34种事件类型。随后插入分隔符记号(即[CLS]、[SEP])到文本中,用符号Sw表示。最后将处理好的数据准备输入到模型中。
作为本发明的进一步方案,所述Step2的具体步骤为:
Step2.1:将处理好的数据输入到基线模型(DMBERT)中,先经过BERT编码,表示如下:
{h1,...,ht,...,hm}=BERT{Sw}
其中{h1,...,ht,...,hm}是BERT编码的隐状态,ht表示触发词t的隐状态。
Step2.2:当给定序列中有n个触发词,上下文被划分为n+1个部分,利用最大池化层对每个部分进行操作得到上下文特征,表示如下:
c=[c1;...;cn+1]
Figure BDA0003816370510000031
Figure BDA0003816370510000032
其中c是上下文特征,[;]表示拼接操作,max(·)表示最大池化层操作,jn,(n=1,2,...,n)表示触发词t所在的位置。
Step2.3:对上下文特征c经过线性变换和层归一化得到概率分布,以及定义损失函数,表示如下:
Figure BDA0003816370510000033
Figure BDA0003816370510000034
其中f(·)表示线性变换和层归一化操作,
Figure BDA0003816370510000035
表示预测的概率分布,pi,y真实标签的分布,
Figure BDA0003816370510000036
是定义的损失函数。
作为本发明的进一步方案,所述Step4的具体步骤为:
Step3.1:给定序列Sw中,将触发词t对应位置替换为占位符[MASK],可以得到:
Smark=([CLS],w1,...,[MASK],...,wm,[SEP])
其中Smark表示掩码后的文本;
Step3.2:掩码文本Smark经过掩码语言模型,来预测可能会出现在掩码位置的单词,表示如下:
Hmask=BERT(Smask)
pmask=softmax(f(Hmask))
其中Hmask是掩码文本Smark的隐状态,f(·)表示线性变换和层归一化操作,pmask表示预测单词的概率;
Step3.3:根据预测单词的概率选取得到Top-K1候选触发词
Figure BDA0003816370510000041
并对Top-K1候选触发词和经过基线模型(DMBERT)得到的触发词t进行编码得到语义特征和触发词特征,表示如下:
Ki=LargestK(pmask,K1)
Figure BDA0003816370510000042
其中LargestK(pmask,K1)返回对应于预测单词概率pmask中最大的K1个元素的候选词,g(·)表示glove embedding将每个候选触发词转变成50维向量,
Figure BDA0003816370510000043
表示语义特征,
Figure BDA0003816370510000044
表示触发词特征;
Step3.4:将语义特征
Figure BDA0003816370510000045
和触发词特征
Figure BDA0003816370510000046
拼接后,得到语义表征,表示如下:
Figure BDA0003816370510000047
其中
Figure BDA0003816370510000048
表示语义表征,[;]表示拼接操作;
Step3.5:对基线模型对每个事件类型的预测概率进行排序,最后选取Top-K2事件类型
Figure BDA0003816370510000049
及其预测概率
Figure BDA00038163705100000410
然后通过语义感知交互层(SAInt),语义信息融入基线模型(DMBERT)中,来干预基线模型的预测结果,最终可以得到插件的预测结果,表示如下:
Figure BDA00038163705100000411
Figure BDA00038163705100000412
其中
Figure BDA00038163705100000413
是可学习参数,语义感知交互层(SAInt)是由5层多层感知机组成。
作为本发明的进一步方案,所述Step4的具体步骤为:
Step4.1:考虑到基线模型(DMBERT)的预测并非都错误,所以使用相似性度量来决定最终的结果,是采用基线模型的结果还是插件的结果,表示如下:
Figure BDA00038163705100000414
Figure BDA00038163705100000415
其中Eold是基线模型的预测结果,ESAInt是语义感知插件的预测结果,δ∈(0,1)表示决定采用哪个结果的相似度阈值。
本发明的有益效果是:
1.提出了一个用于事件检测的语义感知方法,他可以更加关注上下文来改变事件触发词的主导地位,而无需更新大量模型参数或重新训练模型。同时,本发明具有良好的便携性,只需要在验证集上进行简单的训练,就可用于任何事件检测范式。
2.提出了一种新颖的上下文语义表征,使得ED模型的预测更加符合语义。本发明可以挖掘事件触发词和上下文之间的潜在联系,并学习事件在文本中是如何描述的。此外,本发明为不需要再训练ED范式提供了更合适的语义表示,从而提高ED的性能。
3.提出的一种用于事件检测的语义感知方法在动态多池BERT(DMBERT)中的应用有效地超过了ACE2005数据集上的12个强基线,在F1值上提高了5.1%,在F0.5值上提高了2.2%,并实现了SOTA。
附图说明
图1是本发明提出的一种用于事件检测的语义感知方法流程示意图;
图2是不同的语义表示在本发明SAP上的性能;
图3是ACE2005测试集中的案例研究。
具体实施方式
实施例1,一种用于事件检测的语义感知方法,以ACE2005数据集为例训练模型,方法结构如图1所示,具体步骤如下:
Step1:通过下载网上公开数据集ACE2005。该数据集包含599个文档,其中训练集、验证集和测试集的文档数量分别为529、30和40,并定义了34种事件类型。随后插入分隔符记号(即[CLS]、[SEP])到文本中,用符号Sw表示。最后将处理好的数据准备输入到模型中;
Step2:将处理好的数据输入基线模型(DMBERT)中,获得触发词和预测的概率分布;
作为本发明的进一步方案,所述Step2的具体步骤为:
Step2.1:将处理好的数据输入到基线模型(DMBERT)中,先经过BERT编码,表示如下:
{h1,...,ht,...,hm}=BERT{Sw}
其中{h1,...,ht,...,hm}是BERT编码的隐状态,ht表示触发词t的隐状态。
Step2.2:当给定序列中有n个触发词,上下文被划分为n+1个部分,利用最大池化层对每个部分进行操作得到上下文特征,表示如下:
c=[c1;...;cn+1]
Figure BDA0003816370510000061
Figure BDA0003816370510000062
其中c是上下文特征,[;]表示拼接操作,max(·)表示最大池化层操作,jn,(n=1,2,...,n)表示触发词t所在的位置。
Step2.3:对上下文特征c经过线性变换和层归一化得到概率分布,以及定义损失函数,表示如下:
Figure BDA0003816370510000063
Figure BDA0003816370510000064
其中f(·)表示线性变换和层归一化操作,
Figure BDA0003816370510000065
表示预测的概率分布,pi,y真实标签的分布,
Figure BDA0003816370510000066
是定义的损失函数。
Step3:将处理好的数据和已获得的触发词以及概率,输入到语义感知插件(SAP);插件包括:语义表征模块和语义感知交互层;
作为本发明的进一步方案,所述Step3的具体步骤为:
Step3.1:给定序列Sw中,将触发词t对应位置替换为占位符[MASK],可以得到:
Smark=([CLS],w1,...,[MASK],...,wm,[SEP])
其中Smark表示掩码后的文本。
Step3.2:掩码文本Smark经过掩码语言模型,来预测可能会出现在掩码位置的单词,表示如下:
Hmask=BERT(Smask)
pmask=softmax(f(Hmask))
其中Hmask是掩码文本Smark的隐状态,f(·)表示线性变换和层归一化操作,pmask表示预测单词的概率。
Step3.3:根据预测单词的概率选取得到Top-K1候选触发词
Figure BDA00038163705100000715
并对Top-K1候选触发词和经过基线模型(DMBERT)得到的触发词t进行编码得到语义特征和触发词特征,表示如下:
Ki=LargestK(pmask,K1)
Figure BDA0003816370510000071
其中LargestK(pmask,K1)返回对应于预测单词概率pmask中最大的K1个元素的候选词,g(·)表示glove embedding将每个候选触发词转变成50维向量,
Figure BDA0003816370510000072
表示语义特征,
Figure BDA0003816370510000073
表示触发词特征。
Step3.4:将语义特征
Figure BDA0003816370510000074
和触发词特征
Figure BDA0003816370510000075
拼接后,得到语义表征,表示如下:
Figure BDA0003816370510000076
其中
Figure BDA0003816370510000077
表示语义表征,[;]表示拼接操作。
Step3.5:对基线模型对每个事件类型的预测概率进行排序,最后选取Top-K2事件类型
Figure BDA0003816370510000078
及其预测概率
Figure BDA0003816370510000079
然后通过语义感知交互层(SAInt),语义信息融入基线模型(DMBERT)中,来干预基线模型的预测结果,最终可以得到插件的预测结果,表示如下:
Figure BDA00038163705100000710
Figure BDA00038163705100000711
其中
Figure BDA00038163705100000712
是可学习参数,语义感知交互层(SAInt)是由5层多层感知机组成。
Step4:利用相似性度量,决定最终的预测结果。
作为本发明的进一步方案,所述Step4的具体步骤为:
Step4.1:考虑到基线模型(DMBERT)的预测并非都错误,所以使用相似性度量来决定最终的结果,是采用基线模型的结果还是插件的结果,表示如下:
Figure BDA00038163705100000713
Figure BDA00038163705100000714
其中Eold是基线模型的预测结果,ESAInt是语义感知插件的预测结果,δ∈(0,1)表示决定采用哪个结果的相似度阈值。
为了说明本发明的效果,设置了6组对比实验,第1组是主试验,和以前的工作尽心比较;第2组实验,是以前的ED模型搭载插件前后的对比;第3组实验是不同的语义特征的对比;第4组实验,对比所使用的语义特征在本发明和需要重新训练的ED模型中的表现;第5组实验是消融实验,验证插件中各个部件的重要性;第6组实验是实例分析,用实例分型本发明的性能。
(1)主试验结果
选取12个以前最先进的事件检测模型,在ACE2005数据集上进行对比。
表1:模型在AC2005数据集上的表现
Figure BDA0003816370510000081
如表1所示,SAP的性能优于所有基线模型并达到了SOTA F1分数。由于提出的SAP使用训练好的模型预测的事件类型概率来干预最终的预测结果,因此使用SAP后模型的Recall指数会更高。为了公平起见,除了选择三个权威的评估指标Precision(P)、Recall(R)和F1外,增加了一个F0.5指标来全面评估我们的方法。F0.5分数认为R和P一样重要,这样可以增加对P的重视程度,相对降低R的比例。这样F0.5更符合评估SAP的性能。本发明在P、R、F1和F0.5方面分别超过SOTA模型EDGP/SSJDN 0.4%/3.9%、10.3%/10.5%、5.1%/7%、2.2%/5.1%在ACE2005数据集上。这可以归因于本发明的语义表示和后处理方式的引入。在训练过程中很难增加上下文语义信息的权重,因此本发明使用后处理的方法来有效地实现它。本发明的语义表示关注的是整个句子的上下文信息,而不是事件触发词附近单词的上下文信息,它学习了事件触发词和上下文之间的潜在联系,这提高了理解上下文信息的能力。
(2)语义感知插件对不同模型的影响
选择具有四种不同策略的基线模型,并在验证集上进行轻度训练并在测试集上测试。从而验证本发明可以很容易地搭载在任何经过训练的不同策略的事件检测模型上,并且验证它能对训练过的模型的预测产生影响,使训练过的ED模型的预测更有语义,缓解了以前的ED模型的缺点。
表2使用语义感知插件前后基线模型的性能
Figure BDA0003816370510000091
如表2所示,对于总体性能来说,本发明在四个基线模型上的所有四个评估指标上都取得了显着改进。这表明本发明对之前的基线模型的预测结果产生了积极的影响,并提高了它们的识别准确率。F0.5值分别增加了2.6%、3.5%、1.9%和4.2%,它将P和R以合理的比例结合起来,全面衡量了四个基线模型在搭载了本发明之前和之后的性能。对于参数量来说,根据计算,FSED和MOGANED的数量分别为109.48M和2.76M。由于BERT作为基础编码器,SSJDN和DMBERT的数量参数分别为341.48M和335.17M。这意味着如果需要重新训练模型,将会消耗大量的时间和空间资源。相比之下,本发明只需要学习0.028M的参数,大大降低了时间成本,还可以提高性能。
整体来说,实验结果直接证实了本发明的有效性和便携性。
(3)不同语义特征对SAP的影响
为了验证使用Top-K词作为语义特征的必要性,选择了三种语义特征V1-V3来比较它们之间的性能差距。V0代表Top-K词;V1表示上下文所有单词表征的拼接;V2是事件参数;V3代表没有任何语义特征。
如图2所示,V1/V2/V3在F0.5上分别比V0低2.0%/1.2%/2.8%,这表明ED模型通过使用Top-K词作为本发明的语义特征才能达到最佳结果。
(4)语义表征在再训练模型和训练好模型上的性能
为了证明本发明的语义表征更适用于插件策略,将其合并到DMBERT中进行重新训练。C1表示本发明的语义表征用于SAP中;C2表示本发明的语义表征融入DMBERT中再训练。
表3语义表征再SAP和DMBERT中的性能
Figure BDA0003816370510000101
如表3所示,C1在P、R、F1和F0.5上分别比C2高1.4%、7.4%、4.2%和2.4%。证明了本发明的语义表征更适用于插件策略。
(5)消融实验
特征消融:为了探索触发词特征和语义特征的必要性,对其进行消融。
决策消融:为了探索相似性度量的必要性,对其进行消融。
表4消融实验
Figure BDA0003816370510000102
如表4所示,去除触发词特征或上下文特征,都会使本发明性能降低,表明两个特征对于本发明来说都是必要的。去除相似性决策也会使本发明性能降低,这是因为训练好的模型的预测结果也不是全错的,本发明只是干预了主导事件触发词的情况和对上下文理解不好的情况。因此,有必要加入相似性决策。
(6)实例分析
选择了四个案例来更好地说明本发明的有效性。
如图3所示,事件触发器在句子中用红色标记。打勾和交叉表示检测到的事件是正确还是错误。对于(a)和(b),模棱两可的事件触发词“release”和“offer”具有多重含义,可能对应于几种不同的事件类型。然而,基线模型通常将模棱两可的事件触发词分类为它们常常属于的事件类型。在(a)中,根据本发明的语义特征可以看出,很多线索表明该句子属于“Transaction:Transfer-Money”类型。在(b)中,语义特征中没有足够的线索来解释该句子是“Transaction:Transaction-Ownership”类型。在本发明对训练好的模型进行干预后,句子被归类为“None”类型。对于(c),本发明的语义特征包含一些不相关的词,不能表明句子是“Justice:Sue”类型,因此虽然事件触发词“Bankrupt”是“Declare-Bankrupt”类型的主导触发词,但是更符合上下文,所以本发明选择“Declare-Bankrupt”类型。对于(d),“detonated”是“Conflict:Attack”类型的高频事件触发词。在本发明的语义特征中,任何词放在句子中都是流利的,这证明了这句话的上下文信息不足以支持基线模型的预测。因此,放弃了对基线模型的预测,并相信本发明的结果。这四种情况说明本发明在这些条件下表现不错,可以减少主导事件触发词和无法很好理解上下文导致的错误
总之,为了缓解主导触发词和不能很好理解上下文信息的缺点,提出了一种用于事件检测的语义感知方法。更加关注上下文来改变触发词的主导地位,并深入挖掘触发词和上下文之间的潜在联系,更好理解上下文信息,并使预测结果更加语义化。并且具有良好的便携性,不需要重新训练和微调,只需要在验证集上进行轻量级训练就能搭载在任何训练好的事件检测模型上。大量的实验验证了提出模型的有效性和合理性。
上面结合附图对本发明的具体实施方式作了详细说明,但是本发明并不限于上述实施方式,在本领域普通技术人员所具备的知识范围内,还可以在不脱离本发明宗旨的前提下做出各种变化。

Claims (5)

1.一种用于事件检测的语义感知方法,其特征在于:所述方法具体如下:
Step1:准备数据集,对公共数据集ACE2005数据进行预处理,将处理好的数据准备输入到模型中;
Step2:将处理好的数据输入基线模型DMBERT中,获得触发词和预测的概率分布;
Step3:将处理好的数据和已获得的触发词以及概率,输入到语义感知插件SAP,插件包括:语义表征模块和语义感知交互层;
Step4:利用相似性度量,决定最终的预测结果。
2.根据权利要求1的用于事件检测的语义感知方法,其特征在于:所述Step1的具体步骤为:
Step1.1:通过下载网上公开数据集ACE2005,该数据集包含599个文档,其中训练集、验证集和测试集的文档数量分别为529、30和40,并定义了34种事件类型;随后插入分隔符记号到文本中,用符号Sw表示;最后将处理好的数据准备输入到模型中。
3.根据权利要求1的用于事件检测的语义感知方法,其特征在于:所述Step2的具体步骤为:
Step2.1:将处理好的数据输入到基线模型DMBERT中,先经过BERT编码,表示如下:
{h1,...,ht,...,hm}=BERT{Sw}
其中{h1,...,ht,...,hm}是BERT编码的隐状态,ht表示触发词t的隐状态;
Step2.2:当给定序列中有n个触发词,上下文被划分为n+1个部分,利用最大池化层对每个部分进行操作得到上下文特征,表示如下:
c=[c1;...;cn+1]
Figure FDA0003816370500000011
Figure FDA0003816370500000012
其中c是上下文特征,[;]表示拼接操作,max(·)表示最大池化层操作,jn,(n=1,2,...,n)表示触发词t所在的位置;
Step2.3:对上下文特征c经过线性变换和层归一化得到概率分布,以及定义损失函数,表示如下:
Figure FDA0003816370500000021
Figure FDA0003816370500000022
其中f(·)表示线性变换和层归一化操作,
Figure FDA0003816370500000023
表示预测的概率分布,pi,y真实标签的分布,
Figure FDA0003816370500000024
是定义的损失函数。
4.根据权利要求1的用于事件检测的语义感知方法,其特征在于:所述Step3的具体步骤为:
Step3.1:给定序列Sw中,将触发词t对应位置替换为占位符[MASK],得到:
Smark=([CLS],w1,...,[MASK],...,wm,[SEP])
其中Smark表示掩码后的文本;
Step3.2:掩码文本Smark经过掩码语言模型,来预测可能会出现在掩码位置的单词,表示如下:
Hmask=BERT(Smask)
pmask=softmax(f(Hmask))
其中Hmask是掩码文本Smark的隐状态,f(·)表示线性变换和层归一化操作,pmask表示预测单词的概率;
Step3.3:根据预测单词的概率选取得到Top-K1候选触发词
Figure FDA00038163705000000210
并对Top-K1候选触发词和经过基线模型DMBERT得到的触发词t进行编码得到语义特征和触发词特征,表示如下:
Ki=LargestK(pmask,K1)
Figure FDA0003816370500000025
其中LargestK(pmask,K1)返回对应于预测单词概率pmask中最大的K1个元素的候选词,g(·)表示glove embedding将每个候选触发词转变成50维向量,
Figure FDA0003816370500000026
表示语义特征,
Figure FDA0003816370500000027
表示触发词特征;
Step3.4:将语义特征
Figure FDA0003816370500000028
和触发词特征
Figure FDA0003816370500000029
拼接后,得到语义表征,表示如下:
Figure FDA0003816370500000031
其中
Figure FDA0003816370500000032
表示语义表征,[;]表示拼接操作;
Step3.5:对基线模型对每个事件类型的预测概率进行排序,最后选取Top-K2事件类型
Figure FDA0003816370500000033
及其预测概率
Figure FDA0003816370500000034
然后通过语义感知交互层SAInt,语义信息融入基线模型DMBERT中,来干预基线模型的预测结果,最终得到插件的预测结果,表示如下:
Figure FDA0003816370500000035
Figure FDA0003816370500000036
其中
Figure FDA0003816370500000037
是可学习参数,语义感知交互层SAInt是由5层多层感知机组成。
5.根据权利要求1的用于事件检测的语义感知方法,其特征在于:所述Step4的具体步骤为:
Step4.1:考虑到基线模型DMBERT的预测并非都错误,所以使用相似性度量来决定最终的结果,是采用基线模型的结果还是插件的结果,表示如下:
Figure FDA0003816370500000038
Figure FDA0003816370500000039
其中Eold是基线模型的预测结果,ESAInt是语义感知插件的预测结果,δ∈(0,1)表示决定采用哪个结果的相似度阈值,
Figure FDA00038163705000000310
是语义特征,
Figure FDA00038163705000000311
是触发词特征。
CN202211027619.2A 2022-08-26 2022-08-26 一种用于事件检测的语义感知方法 Pending CN115470772A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211027619.2A CN115470772A (zh) 2022-08-26 2022-08-26 一种用于事件检测的语义感知方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211027619.2A CN115470772A (zh) 2022-08-26 2022-08-26 一种用于事件检测的语义感知方法

Publications (1)

Publication Number Publication Date
CN115470772A true CN115470772A (zh) 2022-12-13

Family

ID=84371138

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211027619.2A Pending CN115470772A (zh) 2022-08-26 2022-08-26 一种用于事件检测的语义感知方法

Country Status (1)

Country Link
CN (1) CN115470772A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116701576A (zh) * 2023-08-04 2023-09-05 华东交通大学 无触发词的事件检测方法和系统

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116701576A (zh) * 2023-08-04 2023-09-05 华东交通大学 无触发词的事件检测方法和系统
CN116701576B (zh) * 2023-08-04 2023-10-10 华东交通大学 无触发词的事件检测方法和系统

Similar Documents

Publication Publication Date Title
CN109657947B (zh) 一种面向企业行业分类的异常检测方法
CN109302410B (zh) 一种内部用户异常行为检测方法、系统及计算机存储介质
CN112614538A (zh) 一种基于蛋白质预训练表征学习的抗菌肽预测方法和装置
CN107368542B (zh) 一种涉密数据的涉密等级评定方法
CN111831824B (zh) 一种舆情正负面分类方法
CN113383316B (zh) 用于学习程序语义的方法和设备
CN113742733B (zh) 阅读理解漏洞事件触发词抽取和漏洞类型识别方法及装置
CN113609488B (zh) 基于自监督学习及多通道超图神经网络的漏洞检测方法与系统
Nowotny Two challenges of correct validation in pattern recognition
CN111274494B (zh) 结合深度学习和协同过滤技术的复合标签推荐方法
CN115470772A (zh) 一种用于事件检测的语义感知方法
CN115952292A (zh) 多标签分类方法、装置及计算机可读介质
CN113536760A (zh) 引述句和辟谣模式句引导的“谣言-辟谣文章”匹配方法及系统
Alshahrani et al. Hunter Prey Optimization with Hybrid Deep Learning for Fake News Detection on Arabic Corpus.
CN116882402A (zh) 基于多任务的电力营销小样本命名实体识别方法
Das et al. A cost efficient approach to correct OCR errors in large document collections
CN111144453A (zh) 构建多模型融合计算模型的方法及设备、网站数据识别方法及设备
CN115759043A (zh) 一种文档级敏感信息检测模型训练及预测方法
US20230134218A1 (en) Continuous learning for document processing and analysis
Essatouti et al. Arabic sentiment analysis using a levenshtein distance based representation approach
CN114579761A (zh) 信息安全知识实体关系连接预测方法、系统及介质
Stanczyk RELIEF-based selection of decision rules
CN114610882A (zh) 一种基于电力短文本分类的异常设备编码检测方法和系统
Bi et al. CASA-Net: a context-aware correlation convolutional network for scale-adaptive crack detection
Abd Elminaam et al. AraFake: A deep learning approach for Arabic fake news detection

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination