CN114548101A - 基于可回溯序列生成方法的事件检测方法和系统 - Google Patents

基于可回溯序列生成方法的事件检测方法和系统 Download PDF

Info

Publication number
CN114548101A
CN114548101A CN202210436226.0A CN202210436226A CN114548101A CN 114548101 A CN114548101 A CN 114548101A CN 202210436226 A CN202210436226 A CN 202210436226A CN 114548101 A CN114548101 A CN 114548101A
Authority
CN
China
Prior art keywords
input sentence
event
attention
word
time
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202210436226.0A
Other languages
English (en)
Other versions
CN114548101B (zh
Inventor
谢睿
张世琨
叶蔚
习翔宇
杨洋
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Peking University
Original Assignee
Peking University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Peking University filed Critical Peking University
Priority to CN202210436226.0A priority Critical patent/CN114548101B/zh
Publication of CN114548101A publication Critical patent/CN114548101A/zh
Application granted granted Critical
Publication of CN114548101B publication Critical patent/CN114548101B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Computational Linguistics (AREA)
  • Evolutionary Computation (AREA)
  • General Health & Medical Sciences (AREA)
  • Computing Systems (AREA)
  • Molecular Biology (AREA)
  • Biophysics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Biomedical Technology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Databases & Information Systems (AREA)
  • Machine Translation (AREA)

Abstract

本发明涉及软件检测技术领域,提出一种基于可回溯序列生成方法的事件检测方法和系统,其中方法包括:对作为训练文本的输入句子进行编码;对编码后的输入句子计算Luong注意力,并根据计算出的注意力权重定位出输入句子中权重最大的单词;对计算Luong注意力后的输入句子计算其中上下文向量;根据所述上下文向量,对输入句子进行解码,每时刻解码出一个事件类型的名称;根据解码结果、输入句子中包含的事件触发词、触发词触发的事件类型和预先定义的目标函数训练模型,得到事件监测模型;将作为待测文本的输入句子输入所述事件监测模型得到事件检测结果。根据本发明的方案,事件检测效率高,准确度高。

Description

基于可回溯序列生成方法的事件检测方法和系统
技术领域
本发明涉及信息检测技术领域,尤其涉及一种基于可回溯序列生成方法的事件检测方法、系统、电子设备和计算机可读存储介质。
背景技术
事件抽取是信息抽取领域一个重要且富有挑战性的子任务,旨在从非结构化的文本中抽取出结构化的事件信息,主要包括事件类别、事件参与者和事件属性等。事件抽取在自动文摘、自动问答、信息检索、知识图谱构建等领域有着广泛的应用。事件检测旨在从非结构化的数据中识别特定类型的事件及其触发词,是事件提取的关键步骤。
在过去的几年中,深度学习模型包括卷积神经网络 (CNN),循环神经网络 (RNN)和Transformer,已广泛应用于事件检测,并取得了重大进展。从问题的定义方式来看,可以将大多数工作分为两类。第一类工作将事件检测定义为对候选触发词的分类问题,第二类将事件检测定义为序列标注问题。
近年来,研究者们普遍地将序列到序列的结构应用到下游的NLP任务中。例如,T5将所有基于文本的问题都转换为文本到文本的生成问题。所涉及的任务,如分类、问答和翻译,都被定义为将文本输入到模型中,并训练其生成目标文本。
直观地说,事件检测可以表述为将一个句子映射到一个包含事件触发词和事件类型的事件序列。与普通文本序列不同,事件序列包含单词和标签的混合信息。一个最简单的策略就是直接将事件类型和触发词连在一起,模型的目标就是生成一个同时包含事件类型和触发词的序列。然而,这要求解码器必须在同一个语义空间中处理两种异构信息(即事件类型和触发词)。此外,在解码触发词时,包含所有触发词的词典很大,而触发词的密度稀疏。这些问题在有足够多的训练数据时可能并不严重。但是现有的事件抽取语料库通常缺乏训练数据,并且存在长尾问题,这给训练这种网络结构带来了重大挑战。
发明内容
本发明的目的在于解决背景技术中的至少一个技术问题,提供一种基于可回溯序列生成方法的事件检测方法、系统、电子设备和计算机可读存储介质。
为实现上述发明目的,本发明提供一种基于可回溯序列生成方法的事件检测方法,包括:
对作为训练文本的输入句子进行编码;
对编码后的输入句子计算Luong注意力,并根据计算出的注意力权重定位出输入句子中权重最大的单词;
对计算Luong注意力后的输入句子计算其中上下文向量;
根据所述上下文向量,对输入句子进行解码,每时刻解码出一个事件类型的名称;
根据解码结果、输入句子中包含的事件触发词、触发词触发的事件类型和预先定义的目标函数训练模型,得到事件监测模型;
将作为待测文本的输入句子输入所述事件监测模型得到事件检测结果。
根据本发明的一个方面,对作为训练文本的输入句子进行编码为:使用基于BERT和双向LSTM的编码器对输入句子进行编码。
根据本发明的一个方面,对编码后的输入句子计算Luong注意力,并根据计算出的注意力权重定位出输入句子中权重最大的单词为:
Luong注意力机制计算出t时刻对输入句子中第i个单词的初始注意力权重
Figure 100002_DEST_PATH_IMAGE001
Figure 150039DEST_PATH_IMAGE002
其中,
Figure 100002_DEST_PATH_IMAGE003
是输入句子中第i个单词经过编码器输出的隐状态,
Figure 12953DEST_PATH_IMAGE004
是输入句子中第j个单词经过编码器输出的隐状态,i代表第i个单词,j代表第j个单词,
Figure 100002_DEST_PATH_IMAGE005
是输入句子中第t个解码时刻的隐状态,t表示解码器输出的第t个时刻,
Figure 112627DEST_PATH_IMAGE006
是一个可学习的参数构成的矩阵;
通过遍历输入句子中每个单词的初始注意力权重,得到注意力权重最大的单词,通过掩码操作将这个单词的注意力权重设置为1,对其他单词的权重设置为0,具体计算如下:
Figure 100002_DEST_PATH_IMAGE007
其中,
Figure 111807DEST_PATH_IMAGE008
是初始注意力权重,
Figure 100002_DEST_PATH_IMAGE009
是最终的注意力权重,
Figure 333841DEST_PATH_IMAGE010
是一个独热掩码向 量,用于选择权重最大的单词并过滤其余单词,
Figure 100002_DEST_PATH_IMAGE011
是逐元素乘法。
根据本发明的一个方面,对计算Luong注意力后的输入句子计算其中上下文向量为:
对于解码器的每个时刻,基于伯努利分布采样一个采样结果m∈{0,1},并执行以下计算:
Figure 684051DEST_PATH_IMAGE012
其中,
Figure 100002_DEST_PATH_IMAGE013
表示真实触发词对应的维度为1的独热向量,
Figure 587416DEST_PATH_IMAGE014
表示初始注意力权重最大的单词对应的维度为1的独热向量;在时刻t传递给解码器的最终的上下文向量
Figure 100002_DEST_PATH_IMAGE015
计算为:
Figure 706682DEST_PATH_IMAGE016
其中,
Figure 100002_DEST_PATH_IMAGE017
为解码器在t时刻对输入句子中第i个单词的注意力权重。
根据本发明的一个方面,根据所述上下文向量,对输入句子进行解码,每时刻解码出一个事件类型的名称为:
使用LSTM作为解码器,解码器在时刻t的隐藏状态
Figure 834038DEST_PATH_IMAGE018
的计算过程如下:
Figure 100002_DEST_PATH_IMAGE019
其中,
Figure 671544DEST_PATH_IMAGE020
是t-1时刻所有事件类型上的概率分布,
Figure 100002_DEST_PATH_IMAGE021
是概率分布
Figure 113020DEST_PATH_IMAGE020
中具有最大概率的事件类型,
Figure 414689DEST_PATH_IMAGE022
是解码器t-1时刻的隐状态,
Figure 100002_DEST_PATH_IMAGE023
是t-1时刻传递给解码器的上下文向量;在得到t时刻解码器的隐藏状态
Figure 650629DEST_PATH_IMAGE024
和上下文向量
Figure 37748DEST_PATH_IMAGE015
后,按照如下公式计算时刻t输出的概率分布:
Figure 100002_DEST_PATH_IMAGE025
Figure 345233DEST_PATH_IMAGE026
其中
Figure 100002_DEST_PATH_IMAGE027
是可学习的参数;
Figure 111195DEST_PATH_IMAGE028
是时刻t下各个事件类型的预测评分,评分越大,是该事件类型的可能性越大;
Figure 100002_DEST_PATH_IMAGE029
是t时刻所有事件类型上的概率分布,在t时刻的解码出的事件类型的名称为概率分布
Figure 845932DEST_PATH_IMAGE029
中概率最大的事件类型的名称。
根据本发明的一个方面,所述目标函数训练模型为:
Figure 392451DEST_PATH_IMAGE030
其中,
Figure 100002_DEST_PATH_IMAGE031
为有监督注意损失函数,其基于KL散度进行计算,计算过程如下:
Figure 503627DEST_PATH_IMAGE032
其中,
Figure 100002_DEST_PATH_IMAGE033
表示KL散度函数,
Figure 451991DEST_PATH_IMAGE034
是t时刻注意力的事件类型,即t时刻解码出的事件类型对应的触发词的位置为1,其余位置为0;
Figure 100002_DEST_PATH_IMAGE035
是初始注意力权重;
Figure 295313DEST_PATH_IMAGE036
为用于生成的目标函数,计算公式为:
Figure 100002_DEST_PATH_IMAGE037
给定时刻t的事件类型
Figure 329129DEST_PATH_IMAGE038
Figure 100002_DEST_PATH_IMAGE039
表示时刻t的交叉熵损失,其中
Figure 990134DEST_PATH_IMAGE040
表示 t时刻之前生成的事件类型,S表示输入句子,D表示所有训练输入句子,p表示条件概率函 数;;
Figure 100002_DEST_PATH_IMAGE041
为用于惩罚错误的目标函数,计算公式为:
Figure 730689DEST_PATH_IMAGE042
其中,
Figure 100002_DEST_PATH_IMAGE043
为维度等于总事件类型数的向量,其每个维度的值代表每个事件类型出现在输入句子中的概率,
Figure 807229DEST_PATH_IMAGE044
计算公式为:
Figure 100002_DEST_PATH_IMAGE045
Figure 328340DEST_PATH_IMAGE046
是Sigmoid函数;
Figure 515739DEST_PATH_IMAGE047
表示输入句子中标注的事件类型,如果某些事件类型出现在该输入句子中则该事件类型对应的维度为1,否则为0;
Figure 100002_DEST_PATH_IMAGE048
Figure 438696DEST_PATH_IMAGE049
分别是有监督注意损失函数
Figure 686137DEST_PATH_IMAGE031
和用于惩罚错误的目标函数
Figure 100002_DEST_PATH_IMAGE050
的权重。
根据本发明的一个方面,将作为待测文本的输入句子输入所述事件监测模型得到事件检测结果包括:
将作为待测文本的输入句子输入训练得到的所述事件监测模型中,采用集束搜索算法确定输入句子中排名最高的预测路径;
通过可回溯注意力分数定位预测路径中出现的事件类型对应的触发词在输入句子中的位置;
将构成一个单词的子单词的注意得分之和作为该单词的注意得分;
设置一个阈值,将每个时刻注意力分数大于阈值的单词作为该时刻解码出的事件类型的候选触发词,从而得到事件检测结果。
为实现上述发明目的,本发明还提供一种基于可回溯序列生成方法的事件检测系统,包括:
编码模块,对作为训练文本的输入句子进行编码;
权重计算模块,对编码后的输入句子计算Luong注意力,并根据计算出的注意力权重定位出输入句子中权重最大的单词;
上下文向量计算模块,对计算Luong注意力后的输入句子计算其中上下文向量;
解码模块,根据所述上下文向量,对输入句子进行解码,每时刻解码出一个事件类型的名称;
模型训练模块,根据解码结果、输入句子中包含的事件触发词、触发词触发的事件类型和预先定义的目标函数训练模型,得到事件监测模型;
检测模块,将作为待测文本的输入句子输入所述事件监测模型得到事件检测结果。
为实现上述发明目的,本发明还提供一种电子设备,包括处理器、存储器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述计算机程序被所述处理器执行时实现上述基于可回溯序列生成方法的事件检测方法。
为实现上述发明目的,本发明还提供一种计算机可读存储介质,所述计算机可读存储介质上存储计算机程序,所述计算机程序被处理器执行时实现上述基于可回溯序列生成方法的事件检测方法。
根据本发明的技术方案,本发明设计了一种新颖的追踪注意力机制,与传统的注意力机制相比,它在生成事件类型和定位触发器的目标之间实现了更好的协作,并提出了一种动态教师强制策略来加速训练收敛并解决暴露偏差问题,最终,基于可回溯序列生成方法的事件检测方法取得了比传统事件检测方法更好的准确率与召回率。
附图说明
图1示意性表示根据发明的基于可回溯序列生成方法的事件检测方法的流程图;
图2示意性表示根据本发明的可回溯注意力机制架构图;
图3示意性表示根据发明的基于可回溯序列生成方法的事件检测系统的结构框图。
具体实施方式
现在将参照示例性实施例来论述本发明的内容。应当理解,论述的实施例仅是为了使得本领域普通技术人员能够更好地理解且因此实现本发明的内容,而不是暗示对本发明的范围的任何限制。
如本文中所使用的,术语“包括”及其变体要被解读为意味着“包括但不限于”的开放式术语。术语“基于”要被解读为“至少部分地基于”。术语“一个实施例”和“一种实施例”要被解读为“至少一个实施例”。
图1示意性表示根据发明的基于可回溯序列生成方法的事件检测方法的流程图;图2示意性表示根据本发明的可回溯注意力机制架构图。结合图1和图2所示,根据本发明的基于可回溯序列生成方法的事件检测方法,包括以下步骤:
a. 对作为训练文本的输入句子进行编码;
b. 对编码后的输入句子计算Luong注意力,并根据计算出的注意力权重定位出输入句子中权重最大的单词;
c. 对计算Luong注意力后的输入句子计算其中上下文向量;
d. 根据所述上下文向量,对输入句子进行解码,每时刻解码出一个事件类型的名称;
e. 根据解码结果、输入句子中包含的事件触发词、触发词触发的事件类型和预先定义的目标函数训练模型,得到事件监测模型;
f. 将作为待测文本的输入句子输入所述事件监测模型得到事件检测结果。
根据本发明的一种实施方式,在上述a步骤中,对作为训练文本的输入句子进行编码为:使用基于BERT和双向LSTM的编码器对输入句子进行编码。
具体地,在输入句子的头部和尾部分别添加一个“[CLS]”和“[SEP]”标记,然后将该句子输入编码器进行编码,编码器由BERT模块后接BiLSTM模块组成,具体计算如下:
Figure 694545DEST_PATH_IMAGE051
Figure DEST_PATH_IMAGE052
其中,
Figure 685634DEST_PATH_IMAGE053
表示输入句子中第i个单词对应的词向量;
Figure DEST_PATH_IMAGE054
表示输入句子中第i个单词经过BERT模块得到的中间隐状态;
Figure 400781DEST_PATH_IMAGE055
表示所有
Figure 881441DEST_PATH_IMAGE054
的集合;
Figure 111565DEST_PATH_IMAGE003
表示输入句子中第i个单词经过BiLSTM模块得到的隐状态;
Figure DEST_PATH_IMAGE056
表示所有
Figure 906345DEST_PATH_IMAGE003
的集合,其中i=1,···,n。
根据本发明的一种实施方式,在上述b步骤中,对编码后的输入句子计算Luong注意力,并根据计算出的注意力权重定位出输入句子中权重最大的单词为:
Luong注意力机制计算出t时刻对输入句子中第i个单词的初始注意力权重
Figure 538315DEST_PATH_IMAGE001
Figure 127559DEST_PATH_IMAGE002
其中,
Figure 172876DEST_PATH_IMAGE003
是输入句子中第i个单词经过编码器输出的隐状态,
Figure 505768DEST_PATH_IMAGE004
是输入句子中第j个单词经过编码器输出的隐状态,i代表第i个单词,j代表第j个单词,
Figure 54561DEST_PATH_IMAGE005
是输入句子中第t个解码时刻的隐状态,t表示解码器输出的第t个时刻,
Figure 80286DEST_PATH_IMAGE006
是一个可学习的参数构成的矩阵;
通过遍历输入句子中每个单词的初始注意力权重,得到注意力权重最大的单词,通过掩码操作将这个单词的注意力权重设置为1,对其他单词的权重设置为0,具体计算如下:
Figure 285002DEST_PATH_IMAGE007
其中,
Figure 483902DEST_PATH_IMAGE008
是初始注意力权重,
Figure 824885DEST_PATH_IMAGE057
是最终的注意力权重,
Figure 21511DEST_PATH_IMAGE010
是一个独热掩码向 量,用于选择权重最大的单词并过滤其余单词,
Figure 775841DEST_PATH_IMAGE011
是逐元素乘法。
根据本发明的一种实施方式,在训练的早期阶段,训练不足的注意机制不可避免地导致错误传播,影响训练的收敛。为了解决这一问题,本发明使用教师强制策略,用独热掩模向量
Figure DEST_PATH_IMAGE058
选择真实标注的触发词。如果触发器由多个单词组成,则选择信息最丰富的单词,通常是动词或名词。此外,为了缓解暴露偏差问题,本发明采用了一种动态的教师强制策略。具体地,在上述c步骤中,对计算Luong注意力后的输入句子根据动态的教师强制策略(教师强制策略teacher forcing)计算其中上下文向量为:
对于解码器的每个时刻,基于伯努利分布采样(为0或者1的随机采样)一个采样结果m∈{0,1},并执行以下计算:
Figure 388219DEST_PATH_IMAGE012
其中,
Figure 911604DEST_PATH_IMAGE013
表示真实触发词对应的维度为1的独热向量,
Figure 279131DEST_PATH_IMAGE014
表示初始注意力权重最大的单词对应的维度为1的独热向量;在时刻t传递给解码器的最终的上下文向量
Figure 192861DEST_PATH_IMAGE015
计算为:
Figure 733563DEST_PATH_IMAGE016
其中,
Figure 314717DEST_PATH_IMAGE017
为解码器在t时刻对输入句子中第i个单词的注意力权重。
根据本发明的一种实施方式,在上述d步骤中,根据上下文向量,对输入句子进行解码,每时刻解码出一个事件类型的名称为:
使用LSTM作为解码器,解码器在时刻t的隐藏状态
Figure 649884DEST_PATH_IMAGE018
的计算过程如下:
Figure 316489DEST_PATH_IMAGE019
其中,
Figure 332986DEST_PATH_IMAGE020
是t-1时刻所有事件类型上的概率分布,
Figure 830964DEST_PATH_IMAGE059
是概率分布
Figure 274714DEST_PATH_IMAGE020
中具有最大概率的事件类型,
Figure 428615DEST_PATH_IMAGE022
是解码器t-1时刻的隐状态,
Figure 311121DEST_PATH_IMAGE023
是t-1时刻传递给解码器的上下文向量;在得到t时刻解码器的隐藏状态
Figure DEST_PATH_IMAGE060
和上下文向量
Figure 538971DEST_PATH_IMAGE015
后,按照如下公式计算时刻t输出的概率分布:
Figure 481519DEST_PATH_IMAGE025
Figure 845418DEST_PATH_IMAGE061
其中
Figure 141401DEST_PATH_IMAGE027
是可学习的参数;
Figure 551654DEST_PATH_IMAGE028
是时刻t下各个事件类型的预测评分,评分越大,是该事件类型的可能性越大;
Figure 399524DEST_PATH_IMAGE029
是t时刻所有事件类型上的概率分布,在t时刻的解码出的事件类型的名称为概率分布
Figure 262438DEST_PATH_IMAGE029
中概率最大的事件类型的名称。
在本实施方式中,对于没有事件的句子,本发明使用一个特殊的标签None作为解码目标来帮助模型识别这些句子。对没有事件的句子,本发明设置其真实标注注意力集中在输入句子的尾部单词“SEP”上。
根据本发明的一种实施方式,在上述e步骤中,目标函数训练模型为:
Figure 424429DEST_PATH_IMAGE030
该目标函数训练模型为模型总的优化目标函数,即由
Figure 751505DEST_PATH_IMAGE031
Figure 973539DEST_PATH_IMAGE036
Figure 323749DEST_PATH_IMAGE050
三个 目标函数训练优化后得到的。
其中,
Figure 86169DEST_PATH_IMAGE031
为有监督注意损失函数,其基于KL散度进行计算,计算过程如下:
Figure 205434DEST_PATH_IMAGE032
其中,
Figure 598369DEST_PATH_IMAGE033
表示KL散度函数,
Figure 498192DEST_PATH_IMAGE034
是t时刻注意力的事件类型,即t时刻解码出的事件类型对应的触发词的位置为1,其余位置为0;
Figure 1986DEST_PATH_IMAGE035
是初始注意力权重;此外,为了防止其余单词可能竞争触发词的注意力权重,本发明禁止用于生成的目标函数在反向传播时更新注意力机制中的参数。
Figure 38075DEST_PATH_IMAGE036
为用于生成的目标函数,计算公式为:
Figure 601912DEST_PATH_IMAGE037
给定时刻t的事件类型
Figure 926714DEST_PATH_IMAGE038
Figure 30936DEST_PATH_IMAGE039
表示时刻t的交叉熵损失,其中
Figure 124794DEST_PATH_IMAGE040
表示 t时刻之前生成的事件类型,S表示输入句子,D表示所有训练输入句子,p表示条件概率函 数;
Figure 859532DEST_PATH_IMAGE041
为用于惩罚错误的目标函数,计算公式为:
Figure 468368DEST_PATH_IMAGE042
其中,
Figure 579543DEST_PATH_IMAGE043
为维度等于总事件类型数的向量,其每个维度的值代表每个事件类型出现在该句子中的概率,
Figure 527908DEST_PATH_IMAGE044
计算公式为:
Figure 495864DEST_PATH_IMAGE045
Figure 529679DEST_PATH_IMAGE046
是Sigmoid函数;
Figure 913387DEST_PATH_IMAGE047
表示该输入句子标注的事件类型,如果某些事件类型出现在该句子中则该事件类型对应的维度为1,否则为0;
Figure 44154DEST_PATH_IMAGE048
Figure 120694DEST_PATH_IMAGE049
分别是有监督注意损失函数
Figure 641805DEST_PATH_IMAGE031
和用于惩罚错误的目标函数
Figure 891521DEST_PATH_IMAGE050
的权重。
本发明没有在每个时刻上单独进行最大似然估计,而是还引入了一个句子级别的约束作为优化目标,它用于惩罚模型生成出正确的事件类型之外事件类型的现象。
根据本发明的一种实施方式,在上述f步骤中,将作为待测文本的输入句子输入事件监测模型得到事件检测结果包括:
将作为待测文本的输入句子输入训练得到的所述事件监测模型中,采用集束搜索算法确定输入句子中排名最高的预测路径;
通过可回溯注意力分数定位预测路径中出现的事件类型对应的触发词在输入句子中的位置;
将构成一个单词的子单词的注意得分之和作为该单词的注意得分;
设置一个阈值,将每个时刻注意力分数大于阈值的单词作为该时刻解码出的事件类型的候选触发词。
在本实施方式中,在事件类型序列生成后,本发明通过可回溯注意力分数来定位触发词的位置。虽然单个单词的触发词占了绝大多数(95.6%),但注意到在数据集中有一些多个单词构成的触发词(4.4%)。本发明将注意力分数大于阈值的单词作为候选触发词。由于BERT使用WordPiece作为最小单位,本发明将构成一个单词的所有单位的注意得分之和作为该单词的注意得分。本发明从不连续的单位中提取出概率最高的连续子序列作为多个单词构成的触发词。
根据本发明的上述方案,本发明设计了一种新颖的追踪注意力机制,与传统的注意力机制相比,它在生成事件类型和定位触发器的目标之间实现了更好的协作,并提出了一种动态教师强制策略来加速训练收敛并解决暴露偏差问题,最终,基于可回溯序列生成方法的事件检测方法取得了比传统事件检测方法更好的准确率与召回率。
进一步地,为实现上述发明目的,本发明还提供一种基于可回溯序列生成方法的事件检测系统,其结构框图如图3所示,具体包括:
编码模块,对作为训练文本的输入句子进行编码;
权重计算模块,对编码后的输入句子计算Luong注意力,并根据计算出的注意力权重定位出输入句子中权重最大的单词;
上下文向量计算模块,对计算Luong注意力后的输入句子计算其中上下文向量;
解码模块,根据上下文向量,对输入句子进行解码,每时刻解码出一个事件类型的名称;
模型训练模块,根据解码结果、输入句子中包含的事件触发词、触发词触发的事件类型和预先定义的目标函数训练模型,得到事件监测模型;
检测模块,将作为待测文本的输入句子输入事件监测模型得到事件检测结果。
根据本发明的一种实施方式,在编码模块中,对作为训练文本的输入句子进行编码为:使用基于BERT和双向LSTM的编码器对输入句子进行编码。
具体地,在输入句子的头部和尾部分别添加一个“[CLS]”和“[SEP]”标记,然后将该句子输入编码器进行编码,编码器由BERT后接双向LSTM组成,具体计算如下:
Figure 814478DEST_PATH_IMAGE051
Figure 61919DEST_PATH_IMAGE052
其中,
Figure 132644DEST_PATH_IMAGE053
表示输入句子中第i个单词对应的词向量;
Figure 123733DEST_PATH_IMAGE054
表示输入句子中第i个单词经过BERT模块得到的中间隐状态;
Figure 963513DEST_PATH_IMAGE055
表示所有
Figure 381856DEST_PATH_IMAGE054
的集合;
Figure 611980DEST_PATH_IMAGE003
表示输入句子中第i个单词经过BiLSTM模块得到的隐状态;
Figure 469078DEST_PATH_IMAGE056
表示所有
Figure 101048DEST_PATH_IMAGE003
的集合,其中i=1,···,n。
根据本发明的一种实施方式,在权重计算模块中,对编码后的输入句子计算Luong注意力,并根据计算出的注意力权重定位出输入句子中权重最大的单词为:
Luong注意力机制计算出t时刻对输入句子中第i个单词的初始注意力权重
Figure 690292DEST_PATH_IMAGE001
Figure 735608DEST_PATH_IMAGE002
其中,
Figure 68501DEST_PATH_IMAGE003
是输入句子中第i个单词经过编码器输出的隐状态,
Figure 554977DEST_PATH_IMAGE004
是输入句子中第j个单词经过编码器输出的隐状态,i代表第i个单词,j代表第j个单词,
Figure 643019DEST_PATH_IMAGE005
是输入句子中第t个解码时刻的隐状态,t表示解码器输出的第t个时刻,
Figure 847735DEST_PATH_IMAGE006
是一个可学习的参数构成的矩阵;
通过遍历输入句子中每个单词的初始注意力权重,得到注意力权重最大的单词,通过掩码操作将这个单词的注意力权重设置为1,对其他单词的权重设置为0,具体计算如下:
Figure 718739DEST_PATH_IMAGE007
其中,
Figure 387618DEST_PATH_IMAGE008
是初始注意力权重,
Figure 595963DEST_PATH_IMAGE057
是最终的注意力权重,
Figure 84713DEST_PATH_IMAGE010
是一个独热掩码向 量,用于选择权重最大的单词并过滤其余单词,
Figure 24987DEST_PATH_IMAGE011
是逐元素乘法。
根据本发明的一种实施方式,在训练的早期阶段,训练不足的注意机制不可避免地导致错误传播,影响训练的收敛。为了解决这一问题,本发明使用教师强制策略,用独热掩模向量
Figure DEST_PATH_IMAGE062
选择真实标注的触发词。如果触发器由多个单词组成,则选择信息最丰富的单词,通常是动词或名词。此外,为了缓解暴露偏差问题,本发明采用了一种动态的教师强制策略。具体地,在上下文向量计算模块中,对计算Luong注意力后的输入句子根据动态教师强制策略计算其中上下文向量为:
对于解码器的每个时刻,基于伯努利分布采样一个采样结果m∈{0,1},并执行以下计算:
Figure 486055DEST_PATH_IMAGE012
其中,
Figure 588004DEST_PATH_IMAGE013
表示真实触发词对应的维度为1的独热向量,
Figure 767312DEST_PATH_IMAGE014
表示初始注意力权重最大的单词对应的维度为1的独热向量;在时刻t传递给解码器的最终的上下文向量
Figure 308015DEST_PATH_IMAGE015
计算为:
Figure 623590DEST_PATH_IMAGE016
其中,
Figure 162018DEST_PATH_IMAGE017
为解码器在t时刻对输入句子中第i个单词的注意力权重。
根据本发明的一种实施方式,在解码模块中,根据上下文向量,对输入句子进行解码,每时刻解码出一个事件类型的名称为:
使用LSTM作为解码器,解码器在时刻t的隐藏状态
Figure 625361DEST_PATH_IMAGE018
的计算过程如下:
Figure 907438DEST_PATH_IMAGE019
其中,
Figure 343098DEST_PATH_IMAGE020
是t-1时刻所有事件类型上的概率分布,
Figure 849166DEST_PATH_IMAGE059
是概率分布
Figure 3067DEST_PATH_IMAGE020
中具有最大概率的事件类型,
Figure 557676DEST_PATH_IMAGE022
是解码器t-1时刻的隐状态,
Figure 910160DEST_PATH_IMAGE023
是t-1时刻传递给解码器的上下文向量;在得到t时刻解码器的隐藏状态
Figure 790391DEST_PATH_IMAGE060
和上下文向量
Figure 228326DEST_PATH_IMAGE015
后,按照如下公式计算时刻t输出的概率分布:
Figure 852205DEST_PATH_IMAGE025
Figure 996879DEST_PATH_IMAGE061
其中
Figure 110328DEST_PATH_IMAGE027
是可学习的参数;
Figure 973242DEST_PATH_IMAGE028
是时刻t下各个事件类型的预测评分,评分越大,是该事件类型的可能性越大;
Figure 135233DEST_PATH_IMAGE029
是t时刻所有事件类型上的概率分布,在t时刻的解码出的事件类型的名称为概率分布
Figure 462309DEST_PATH_IMAGE029
中概率最大的事件类型的名称。
在本实施方式中,对于没有事件的句子,本发明使用一个特殊的标签None作为解码目标来帮助模型识别这些句子。对没有事件的句子,本发明设置其真实标注注意力集中在输入句子的尾部单词“SEP”上。
根据本发明的一种实施方式,在模型训练模块中,目标函数训练模型为:
Figure 684343DEST_PATH_IMAGE030
该目标函数训练模型为模型总的优化目标函数,即由
Figure 768974DEST_PATH_IMAGE031
Figure 796973DEST_PATH_IMAGE036
Figure 650659DEST_PATH_IMAGE050
三个 目标函数训练优化后得到的。
其中,
Figure 105911DEST_PATH_IMAGE031
为有监督注意损失函数,其基于KL散度进行计算,计算过程如下:
Figure 208996DEST_PATH_IMAGE032
其中,
Figure 712790DEST_PATH_IMAGE033
表示KL散度函数,
Figure 748879DEST_PATH_IMAGE034
是t时刻注意力的事件类型,即t时刻解码出的事件类型对应的触发词的位置为1,其余位置为0;
Figure 312716DEST_PATH_IMAGE035
是初始注意力权重;此外,为了防止其余单词可能竞争触发词的注意力权重,本发明禁止用于生成的目标函数在反向传播时更新注意力机制中的参数。
Figure 371939DEST_PATH_IMAGE036
为用于生成的目标函数,计算公式为:
Figure 741740DEST_PATH_IMAGE037
给定时刻t的事件类型
Figure 835598DEST_PATH_IMAGE038
Figure 632653DEST_PATH_IMAGE039
表示时刻t的交叉熵损失,其中
Figure 179172DEST_PATH_IMAGE040
表示 t时刻之前生成的事件类型,S表示输入句子,D表示所有训练输入句子,p表示条件概率函 数;
Figure 24768DEST_PATH_IMAGE041
为用于惩罚错误的目标函数,计算公式为:
Figure 35449DEST_PATH_IMAGE042
其中,
Figure 675509DEST_PATH_IMAGE043
为维度等于总事件类型数的向量,其每个维度的值代表每个事件类型出现在该句子中的概率,
Figure 974903DEST_PATH_IMAGE044
计算公式为:
Figure 686507DEST_PATH_IMAGE045
Figure 754958DEST_PATH_IMAGE046
是Sigmoid函数;
Figure 831498DEST_PATH_IMAGE047
表示该输入句子标注的事件类型,如果某些事件类型出现在该句子中则该事件类型对应的维度为1,否则为0;
Figure 149347DEST_PATH_IMAGE048
Figure 602325DEST_PATH_IMAGE049
分别是有监督注意损失函数
Figure 525282DEST_PATH_IMAGE031
和用于惩罚错误的目标函数
Figure 835040DEST_PATH_IMAGE050
的权重。
本发明没有在每个时刻上单独进行最大似然估计,而是还引入了一个句子级别的约束作为优化目标,它用于惩罚模型生成出正确的事件类型之外事件类型的现象。
根据本发明的一种实施方式,在检测模块中,将作为待测文本的输入句子输入事件监测模型得到事件检测结果包括:
将作为待测文本的输入句子输入训练得到的所述事件监测模型中,采用集束搜索算法确定输入句子中排名最高的预测路径;
通过可回溯注意力分数定位预测路径中出现的事件类型对应的触发词在输入句子中的位置;
将构成一个单词的子单词的注意得分之和作为该单词的注意得分;
设置一个阈值,将每个时刻注意力分数大于阈值的单词作为该时刻解码出的事件类型的候选触发词,从而得到事件检测结果(事件检测结果由事件类型和触发词组成)。
在本实施方式中,在事件类型序列生成后,本发明通过可回溯注意力分数来定位触发词的位置。虽然单个单词的触发词占了绝大多数(95.6%),但注意到在数据集中有一些多个单词构成的触发词(4.4%)。本发明将注意力分数大于阈值的单词作为候选触发词。由于BERT使用WordPiece作为最小单位,本发明将构成一个单词的所有单位的注意得分之和作为该单词的注意得分。本发明从不连续的单位中提取出概率最高的连续子序列作为多个单词构成的触发词。
根据本发明的上述方案,本发明设计了一种新颖的追踪注意力机制,与传统的注意力机制相比,它在生成事件类型和定位触发器的目标之间实现了更好的协作,并提出了一种动态教师强制策略来加速训练收敛并解决暴露偏差问题,最终,基于可回溯序列生成方法的事件检测方法取得了比传统事件检测方法更好的准确率与召回率。
为实现上述发明目的,本发明还提供一种电子设备,包括处理器、存储器及存储在存储器上并可在处理器上运行的计算机程序,计算机程序被处理器执行时实现如上所述的基于可回溯序列生成方法的事件检测方法。
为实现上述发明目的,本发明还提供一种计算机可读存储介质,计算机可读存储介质上存储计算机程序,计算机程序被处理器执行时实现如上所述的基于可回溯序列生成方法的事件检测方法。
基于以上本发明的技术方案,为了为了验证本发明的效果,在ACE 2005和Litbank两个数据集上做了实验。对于ACE2005数据集,使用与现有的工作完全相同的数据分割方法,即分别将569、64和64个文档作为训练集、开发集和测试集。对于Litbank数据集,使用Sims等人发布的官方数据分割方法。训练集按照具体实施方式中的训练过程(步骤a-e)进行实施,训练完成后,在测试集上进行评测。
为了更好的验证生成事件的效果,选取精确率、召回率和F1值作为评价指标,仅当触发词抽取正确且事件类型也抽取正确时才认为抽取正确。
精确率:精确率=(抽取正确的事件个数/抽取出的总的事件数)x100%
召回率:召回率=(抽取正确的事件个数/总的真实事件数)x100%
F1值:为了能够评价不同算法的优劣,在精确率和召回率的基础上提出了F1值的概念,来对精确率和召回率进行整体评价:F1值= 正确率*召回率* 2/(正确率 + 召回率)。
为了验证本发明提出方法的有效性,选取一些基准模型作为比较。在ACE 2005数据集上,选取了以下三类方法的中的模型作为基准模型。
基于特征的方法使用人工设计的特征来做事件检测。MaxEnt使用最大熵分类器,Cross-Entity使用跨实体的信息来做事件检测。
基于神经网络的方法使用基于神经网络的判别分类器直接对候选触发词进行分类或者标记整个句子。DMCNN通过构建一个动态多池化卷积模型来学习句子的特征;JRNN使用双向RNN和额外的依存关系特征;dbRNN为BiLSTM添加了带有权重的依存弧,以同时利用树状结构和序列结构;HBTNGMA应用分层和偏差标记网络来同时检测一个句子中的多个事件;∆-learning提取了用于事件检测的识别和泛化知识;EE-GCN同时利用了语法结构和标签依赖信息。GatedGCN将一种具有上下文多样性和重要性评分一致性的门控机制集成到GCN中。
基于生成的方法使用基于神经网络的Seq2Seq结构来生成事件信息。TANL使用T5-base生成一个在原始句子中的触发词后插入事件类型的序列;Multi-task TANL通过从其他任务中转移结构知识来扩展TANL;TEXT2EVENT使用T5-large来生成一个包括事件类型、触发词和论元的序列。
在Litbank数据集上,选取了以下两类方法的中的模型作为基准模型。
基于特征的方法:Verbsonly选取并只选取动词,Featurized使用L2正则化的二元逻辑回归和手工特征。
基于神经网络的方法:LSTM-based Models使用LSTM及其变种,DMBERT使用BERT作为编码器并使用动态多池化,GatedGCN。
实验结果如下表1和表2:
Figure 566150DEST_PATH_IMAGE063
表1
Figure DEST_PATH_IMAGE064
表2
由以上表1和表2可知,本发明的模型在两个数据集中均取得了最佳的效果,表明了本发明提出的方法的优越性。
本领域普通技术人员可以意识到,结合本文中所公开的实施例描述的模块及算法步骤,能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本发明的范围。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的装置和设备的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
在本申请所提供的实施例中,应该理解到,所揭露的装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述模块的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个模块或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或模块的间接耦合或通信连接,可以是电性,机械或其它的形式。
所述作为分离部件说明的模块可以是或者也可以不是物理上分开的,作为模块显示的部件可以是或者也可以不是物理模块,即可以位于一个地方,或者也可以分布到多个网络模块上。可以根据实际的需要选择其中的部分或者全部模块来实现本发明实施例方案的目的。
另外,在本发明实施例中的各功能模块可以集成在一个处理模块中,也可以是各个模块单独物理存在,也可以两个或两个以上模块集成在一个模块中。
所述功能如果以软件功能模块的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例节能信号发送/接收的方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。
以上描述仅为本申请的较佳实施例以及对所运用技术原理的说明。本领域技术人员应当理解,本申请中所涉及的发明范围,并不限于上述技术特征的特定组合而成的技术方案,同时也应涵盖在不脱离所述发明构思的情况下,由上述技术特征或其等同特征进行任意组合而形成的其它技术方案。例如上述特征与本申请中公开的(但不限于)具有类似功能的技术特征进行互相替换而形成的技术方案。
应理解,本发明的发明内容及实施例中各步骤的序号的大小并不绝对意味着执行顺序的先后,各过程的执行顺序应以其功能和内在逻辑确定,而不应对本发明实施例的实施过程构成任何限定。

Claims (10)

1.基于可回溯序列生成方法的事件检测方法,其特征在于,包括:
对作为训练文本的输入句子进行编码;
对编码后的输入句子计算Luong注意力,并根据计算出的注意力权重定位出输入句子中权重最大的单词;
对计算Luong注意力后的输入句子计算其中上下文向量;
根据所述上下文向量,对输入句子进行解码,每时刻解码出一个事件类型的名称;
根据解码结果、输入句子中包含的事件触发词、触发词触发的事件类型和预先定义的目标函数训练模型,得到事件监测模型;
将作为待测文本的输入句子输入所述事件监测模型得到事件检测结果。
2.根据权利要求1所述的基于可回溯序列生成方法的事件检测方法,其特征在于,对作为训练文本的输入句子进行编码为:使用基于BERT和双向LSTM的编码器对输入句子进行编码。
3.根据权利要求2所述的基于可回溯序列生成方法的事件检测方法,其特征在于,对编码后的输入句子计算Luong注意力,并根据计算出的注意力权重定位出输入句子中权重最大的单词为:
Luong注意力机制计算出t时刻对输入句子中第i个单词的初始注意力权重
Figure DEST_PATH_IMAGE001
Figure 640270DEST_PATH_IMAGE002
其中,
Figure DEST_PATH_IMAGE003
是输入句子中第i个单词经过编码器输出的隐状态,
Figure 495094DEST_PATH_IMAGE004
是输入句子中第j个单词经过编码器输出的隐状态,i代表第i个单词,j代表第j个单词,
Figure DEST_PATH_IMAGE005
是输入句子中第t个解码时刻的隐状态,t表示解码器输出的第t个时刻,
Figure 212514DEST_PATH_IMAGE006
是一个可学习的参数构成的矩阵;
通过遍历输入句子中每个单词的初始注意力权重,得到注意力权重最大的单词,通过掩码操作将这个单词的注意力权重设置为1,对其他单词的权重设置为0,具体计算如下:
Figure DEST_PATH_IMAGE007
其中,
Figure 483090DEST_PATH_IMAGE008
是初始注意力权重,
Figure DEST_PATH_IMAGE009
是最终的注意力权重,
Figure 246864DEST_PATH_IMAGE010
是一个独热掩码向量,用于 选择权重最大的单词并过滤其余单词,
Figure DEST_PATH_IMAGE011
是逐元素乘法。
4.根据权利要求3所述的基于可回溯序列生成方法的事件检测方法,其特征在于,对计算Luong注意力后的输入句子计算其中上下文向量为:
对于解码器的每个时刻,基于伯努利分布采样一个采样结果m∈{0,1},并执行以下计算:
Figure 944692DEST_PATH_IMAGE012
其中,
Figure DEST_PATH_IMAGE013
表示真实触发词对应的维度为1的独热向量,
Figure 149409DEST_PATH_IMAGE014
表示初始注意力权重最大的单词对应的维度为1的独热向量;在时刻t传递给解码器的最终的上下文向量
Figure DEST_PATH_IMAGE015
计算为:
Figure 285992DEST_PATH_IMAGE016
其中,
Figure DEST_PATH_IMAGE017
为解码器在t时刻对输入句子中第i个单词的注意力权重。
5.根据权利要求4所述的基于可回溯序列生成方法的事件检测方法,其特征在于,根据所述上下文向量,对输入句子进行解码,每时刻解码出一个事件类型的名称为:
使用LSTM作为解码器,解码器在时刻t的隐藏状态
Figure 892554DEST_PATH_IMAGE018
的计算过程如下:
Figure DEST_PATH_IMAGE019
其中,
Figure 761284DEST_PATH_IMAGE020
是t-1时刻所有事件类型上的概率分布,
Figure DEST_PATH_IMAGE021
是概率分布
Figure 453296DEST_PATH_IMAGE020
中具有最大概率的事件类型,
Figure 127991DEST_PATH_IMAGE022
是解码器t-1时刻的隐状态,
Figure DEST_PATH_IMAGE023
是t-1时刻传递给解码器的上下文向量;在得到t时刻解码器的隐藏状态
Figure 589060DEST_PATH_IMAGE024
和上下文向量
Figure 956587DEST_PATH_IMAGE015
后,按照如下公式计算时刻t输出的概率分布:
Figure DEST_PATH_IMAGE025
Figure 135896DEST_PATH_IMAGE026
其中
Figure DEST_PATH_IMAGE027
是可学习的参数;
Figure 286386DEST_PATH_IMAGE028
是时刻t下各个事件类型的预测评分,评分越大,是该事件类型的可能性越大;
Figure DEST_PATH_IMAGE029
是t时刻所有事件类型上的概率分布,在t时刻的解码出的事件类型的名称为概率分布
Figure 867540DEST_PATH_IMAGE029
中概率最大的事件类型的名称。
6.根据权利要求5所述的基于可回溯序列生成方法的事件检测方法,其特征在于,所述目标函数训练模型为:
Figure 140389DEST_PATH_IMAGE030
其中,
Figure DEST_PATH_IMAGE031
为有监督注意损失函数,其基于KL散度进行计算,计算过程如下:
Figure 744677DEST_PATH_IMAGE032
其中,
Figure DEST_PATH_IMAGE033
表示KL散度函数,
Figure 761174DEST_PATH_IMAGE034
是t时刻注意力的事件类型,即t时刻解码出的事件类型对应的触发词的位置为1,其余位置为0;
Figure DEST_PATH_IMAGE035
是初始注意力权重;
Figure 275464DEST_PATH_IMAGE036
为用于生成的目标函数,计算公式为:
Figure DEST_PATH_IMAGE037
给定时刻t的事件类型
Figure 984794DEST_PATH_IMAGE038
Figure DEST_PATH_IMAGE039
表示时刻t的交叉熵损失,其中
Figure 889427DEST_PATH_IMAGE040
表示t时 刻之前生成的事件类型,S表示输入句子,D表示所有训练输入句子,p表示条件概率函数;
Figure DEST_PATH_IMAGE041
为用于惩罚错误的目标函数,计算公式为:
Figure 709615DEST_PATH_IMAGE042
其中,
Figure DEST_PATH_IMAGE043
为维度等于总事件类型数的向量,其每个维度的值代表每个事件类型出现在输入句子中的概率,
Figure 937465DEST_PATH_IMAGE044
计算公式为:
Figure DEST_PATH_IMAGE045
Figure 743661DEST_PATH_IMAGE046
是Sigmoid函数;
Figure 56962DEST_PATH_IMAGE047
表示输入句子中标注的事件类型,如果某些事件类型出现在输入句子中则该事件类型对应的维度为1,否则为0;
Figure DEST_PATH_IMAGE048
Figure 415262DEST_PATH_IMAGE049
分别是有监督注意损失函数
Figure 825515DEST_PATH_IMAGE031
和用于惩罚错误的目标函数
Figure DEST_PATH_IMAGE050
的权重。
7.根据权利要求6所述的基于可回溯序列生成方法的事件检测方法,其特征在于,将作为待测文本的输入句子输入所述事件监测模型得到事件检测结果包括:
将作为待测文本的输入句子输入训练得到的所述事件监测模型中,采用集束搜索算法确定输入句子中排名最高的预测路径;
通过可回溯注意力分数定位预测路径中出现的事件类型对应的触发词在输入句子中的位置;
将构成一个单词的子单词的注意得分之和作为该单词的注意得分;
设置一个阈值,将每个时刻注意力分数大于阈值的单词作为该时刻解码出的事件类型对应的触发词,从而得到事件检测结果。
8.基于可回溯序列生成方法的事件检测系统,其特征在于,包括:
编码模块,对作为训练文本的输入句子进行编码;
权重计算模块,对编码后的输入句子计算Luong注意力,并根据计算出的注意力权重定位出输入句子中权重最大的单词;
上下文向量计算模块,对计算Luong注意力后的输入句子计算其中上下文向量;
解码模块,根据所述上下文向量,对输入句子进行解码,每时刻解码出一个事件类型的名称;
模型训练模块,根据解码结果、输入句子中包含的事件触发词、触发词触发的事件类型和预先定义的目标函数训练模型,得到事件监测模型;
检测模块,将作为待测文本的输入句子输入所述事件监测模型得到事件检测结果。
9.一种电子设备,其特征在于,包括处理器、存储器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述计算机程序被所述处理器执行时实现如权利要求1至7中任一项所述的基于可回溯序列生成方法的事件检测方法。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储计算机程序,所述计算机程序被处理器执行时实现如权利要求1至7中任一项所述的基于可回溯序列生成方法的事件检测方法。
CN202210436226.0A 2022-04-25 2022-04-25 基于可回溯序列生成方法的事件检测方法和系统 Active CN114548101B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210436226.0A CN114548101B (zh) 2022-04-25 2022-04-25 基于可回溯序列生成方法的事件检测方法和系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210436226.0A CN114548101B (zh) 2022-04-25 2022-04-25 基于可回溯序列生成方法的事件检测方法和系统

Publications (2)

Publication Number Publication Date
CN114548101A true CN114548101A (zh) 2022-05-27
CN114548101B CN114548101B (zh) 2022-08-02

Family

ID=81667283

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210436226.0A Active CN114548101B (zh) 2022-04-25 2022-04-25 基于可回溯序列生成方法的事件检测方法和系统

Country Status (1)

Country Link
CN (1) CN114548101B (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114757154A (zh) * 2022-06-13 2022-07-15 深圳市承儒科技有限公司 基于深度学习的作业生成方法、装置、设备及存储介质
CN115759036A (zh) * 2022-10-28 2023-03-07 中国矿业大学(北京) 基于推荐的事件检测模型的构建方法及利用模型进行事件检测的方法
CN116245139A (zh) * 2023-04-23 2023-06-09 中国人民解放军国防科技大学 图神经网络模型训练方法和装置、事件检测方法和装置
CN116701576A (zh) * 2023-08-04 2023-09-05 华东交通大学 无触发词的事件检测方法和系统

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110008339A (zh) * 2019-03-22 2019-07-12 武汉大学 一种用于目标情感分类的深度记忆网络模型及其分类方法
CN110135457A (zh) * 2019-04-11 2019-08-16 中国科学院计算技术研究所 基于自编码器融合文档信息的事件触发词抽取方法及系统
US20200117856A1 (en) * 2017-04-03 2020-04-16 Siemens Aktiengesellschaft A method and apparatus for performing hierarchiacal entity classification
CN112800774A (zh) * 2021-01-15 2021-05-14 华南理工大学 基于注意力机制的实体关系抽取方法、装置、介质和设备
CN112836017A (zh) * 2021-02-09 2021-05-25 天津大学 一种基于分层主题驱动的自注意力机制的事件检测方法
CN113158667A (zh) * 2021-04-09 2021-07-23 杭州电子科技大学 基于实体关系级别注意力机制的事件检测方法
CN113312470A (zh) * 2021-05-28 2021-08-27 北京航空航天大学 一种基于匿名化隐私保护技术的医疗事件抽取方法
CN113761936A (zh) * 2021-08-19 2021-12-07 哈尔滨工业大学(威海) 一种基于多头自注意力机制的多任务篇章级事件抽取方法

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20200117856A1 (en) * 2017-04-03 2020-04-16 Siemens Aktiengesellschaft A method and apparatus for performing hierarchiacal entity classification
CN110008339A (zh) * 2019-03-22 2019-07-12 武汉大学 一种用于目标情感分类的深度记忆网络模型及其分类方法
CN110135457A (zh) * 2019-04-11 2019-08-16 中国科学院计算技术研究所 基于自编码器融合文档信息的事件触发词抽取方法及系统
CN112800774A (zh) * 2021-01-15 2021-05-14 华南理工大学 基于注意力机制的实体关系抽取方法、装置、介质和设备
CN112836017A (zh) * 2021-02-09 2021-05-25 天津大学 一种基于分层主题驱动的自注意力机制的事件检测方法
CN113158667A (zh) * 2021-04-09 2021-07-23 杭州电子科技大学 基于实体关系级别注意力机制的事件检测方法
CN113312470A (zh) * 2021-05-28 2021-08-27 北京航空航天大学 一种基于匿名化隐私保护技术的医疗事件抽取方法
CN113761936A (zh) * 2021-08-19 2021-12-07 哈尔滨工业大学(威海) 一种基于多头自注意力机制的多任务篇章级事件抽取方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
王晓浪等: "基于序列标注的事件联合抽取方法", 《重庆邮电大学学报(自然科学版)》 *

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114757154A (zh) * 2022-06-13 2022-07-15 深圳市承儒科技有限公司 基于深度学习的作业生成方法、装置、设备及存储介质
CN115759036A (zh) * 2022-10-28 2023-03-07 中国矿业大学(北京) 基于推荐的事件检测模型的构建方法及利用模型进行事件检测的方法
CN116245139A (zh) * 2023-04-23 2023-06-09 中国人民解放军国防科技大学 图神经网络模型训练方法和装置、事件检测方法和装置
CN116245139B (zh) * 2023-04-23 2023-07-07 中国人民解放军国防科技大学 图神经网络模型训练方法和装置、事件检测方法和装置
CN116701576A (zh) * 2023-08-04 2023-09-05 华东交通大学 无触发词的事件检测方法和系统
CN116701576B (zh) * 2023-08-04 2023-10-10 华东交通大学 无触发词的事件检测方法和系统

Also Published As

Publication number Publication date
CN114548101B (zh) 2022-08-02

Similar Documents

Publication Publication Date Title
Shen et al. Disan: Directional self-attention network for rnn/cnn-free language understanding
Young et al. Recent trends in deep learning based natural language processing
CN114548101B (zh) 基于可回溯序列生成方法的事件检测方法和系统
Tang et al. Aspect level sentiment classification with deep memory network
US11893345B2 (en) Inducing rich interaction structures between words for document-level event argument extraction
CN111738003B (zh) 命名实体识别模型训练方法、命名实体识别方法和介质
CN113239700A (zh) 改进bert的文本语义匹配设备、系统、方法及存储介质
Zhou et al. Modelling sentence pairs with tree-structured attentive encoder
CN111797241B (zh) 基于强化学习的事件论元抽取方法及装置
CN116662582B (zh) 基于自然语言的特定领域业务知识检索方法及检索装置
CN113743099A (zh) 基于自注意力机制方面术语提取系统、方法、介质、终端
CN114610866B (zh) 基于全局事件类型的序列到序列联合事件抽取方法和系统
CN114510946B (zh) 基于深度神经网络的中文命名实体识别方法及系统
CN111581365B (zh) 一种谓词抽取方法
CN111767388B (zh) 一种候选池生成方法
Arora et al. A hybrid model for combining neural image caption and k-nearest neighbor approach for image captioning
Rath Word and relation embedding for sentence representation
Ahmed Combining neural networks with knowledge for spoken dialogue systems
Zhang et al. A multi-granularity neural network for answer sentence selection
CN116610791B (zh) 针对结构化信息的基于语义分析的问答方法、系统及设备
Ma et al. Concept-based embeddings for natural language processing
Achlatis Structured pruning for deep learning language models
Hasan Automatic emotion detection in text messages using supervised learning
Tissier Improving methods to learn word representations for efficient semantic similarites computations
Vázquez Representation learning in multilingual neural machine translation

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant