CN114548101A - 基于可回溯序列生成方法的事件检测方法和系统 - Google Patents
基于可回溯序列生成方法的事件检测方法和系统 Download PDFInfo
- Publication number
- CN114548101A CN114548101A CN202210436226.0A CN202210436226A CN114548101A CN 114548101 A CN114548101 A CN 114548101A CN 202210436226 A CN202210436226 A CN 202210436226A CN 114548101 A CN114548101 A CN 114548101A
- Authority
- CN
- China
- Prior art keywords
- input sentence
- event
- attention
- word
- time
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/044—Recurrent networks, e.g. Hopfield networks
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Engineering & Computer Science (AREA)
- Artificial Intelligence (AREA)
- Health & Medical Sciences (AREA)
- Life Sciences & Earth Sciences (AREA)
- Computational Linguistics (AREA)
- Evolutionary Computation (AREA)
- General Health & Medical Sciences (AREA)
- Computing Systems (AREA)
- Molecular Biology (AREA)
- Biophysics (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Biomedical Technology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Databases & Information Systems (AREA)
- Machine Translation (AREA)
Abstract
本发明涉及软件检测技术领域,提出一种基于可回溯序列生成方法的事件检测方法和系统,其中方法包括:对作为训练文本的输入句子进行编码;对编码后的输入句子计算Luong注意力,并根据计算出的注意力权重定位出输入句子中权重最大的单词;对计算Luong注意力后的输入句子计算其中上下文向量;根据所述上下文向量,对输入句子进行解码,每时刻解码出一个事件类型的名称;根据解码结果、输入句子中包含的事件触发词、触发词触发的事件类型和预先定义的目标函数训练模型,得到事件监测模型;将作为待测文本的输入句子输入所述事件监测模型得到事件检测结果。根据本发明的方案,事件检测效率高,准确度高。
Description
技术领域
本发明涉及信息检测技术领域,尤其涉及一种基于可回溯序列生成方法的事件检测方法、系统、电子设备和计算机可读存储介质。
背景技术
事件抽取是信息抽取领域一个重要且富有挑战性的子任务,旨在从非结构化的文本中抽取出结构化的事件信息,主要包括事件类别、事件参与者和事件属性等。事件抽取在自动文摘、自动问答、信息检索、知识图谱构建等领域有着广泛的应用。事件检测旨在从非结构化的数据中识别特定类型的事件及其触发词,是事件提取的关键步骤。
在过去的几年中,深度学习模型包括卷积神经网络 (CNN),循环神经网络 (RNN)和Transformer,已广泛应用于事件检测,并取得了重大进展。从问题的定义方式来看,可以将大多数工作分为两类。第一类工作将事件检测定义为对候选触发词的分类问题,第二类将事件检测定义为序列标注问题。
近年来,研究者们普遍地将序列到序列的结构应用到下游的NLP任务中。例如,T5将所有基于文本的问题都转换为文本到文本的生成问题。所涉及的任务,如分类、问答和翻译,都被定义为将文本输入到模型中,并训练其生成目标文本。
直观地说,事件检测可以表述为将一个句子映射到一个包含事件触发词和事件类型的事件序列。与普通文本序列不同,事件序列包含单词和标签的混合信息。一个最简单的策略就是直接将事件类型和触发词连在一起,模型的目标就是生成一个同时包含事件类型和触发词的序列。然而,这要求解码器必须在同一个语义空间中处理两种异构信息(即事件类型和触发词)。此外,在解码触发词时,包含所有触发词的词典很大,而触发词的密度稀疏。这些问题在有足够多的训练数据时可能并不严重。但是现有的事件抽取语料库通常缺乏训练数据,并且存在长尾问题,这给训练这种网络结构带来了重大挑战。
发明内容
本发明的目的在于解决背景技术中的至少一个技术问题,提供一种基于可回溯序列生成方法的事件检测方法、系统、电子设备和计算机可读存储介质。
为实现上述发明目的,本发明提供一种基于可回溯序列生成方法的事件检测方法,包括:
对作为训练文本的输入句子进行编码;
对编码后的输入句子计算Luong注意力,并根据计算出的注意力权重定位出输入句子中权重最大的单词;
对计算Luong注意力后的输入句子计算其中上下文向量;
根据所述上下文向量,对输入句子进行解码,每时刻解码出一个事件类型的名称;
根据解码结果、输入句子中包含的事件触发词、触发词触发的事件类型和预先定义的目标函数训练模型,得到事件监测模型;
将作为待测文本的输入句子输入所述事件监测模型得到事件检测结果。
根据本发明的一个方面,对作为训练文本的输入句子进行编码为:使用基于BERT和双向LSTM的编码器对输入句子进行编码。
根据本发明的一个方面,对编码后的输入句子计算Luong注意力,并根据计算出的注意力权重定位出输入句子中权重最大的单词为:
其中,是输入句子中第i个单词经过编码器输出的隐状态,是输入句子中第j个单词经过编码器输出的隐状态,i代表第i个单词,j代表第j个单词,是输入句子中第t个解码时刻的隐状态,t表示解码器输出的第t个时刻,是一个可学习的参数构成的矩阵;
通过遍历输入句子中每个单词的初始注意力权重,得到注意力权重最大的单词,通过掩码操作将这个单词的注意力权重设置为1,对其他单词的权重设置为0,具体计算如下:
根据本发明的一个方面,对计算Luong注意力后的输入句子计算其中上下文向量为:
对于解码器的每个时刻,基于伯努利分布采样一个采样结果m∈{0,1},并执行以下计算:
根据本发明的一个方面,根据所述上下文向量,对输入句子进行解码,每时刻解码出一个事件类型的名称为:
其中,是t-1时刻所有事件类型上的概率分布,是概率分布中具有最大概率的事件类型,是解码器t-1时刻的隐状态,是t-1时刻传递给解码器的上下文向量;在得到t时刻解码器的隐藏状态和上下文向量后,按照如下公式计算时刻t输出的概率分布:
根据本发明的一个方面,所述目标函数训练模型为:
根据本发明的一个方面,将作为待测文本的输入句子输入所述事件监测模型得到事件检测结果包括:
将作为待测文本的输入句子输入训练得到的所述事件监测模型中,采用集束搜索算法确定输入句子中排名最高的预测路径;
通过可回溯注意力分数定位预测路径中出现的事件类型对应的触发词在输入句子中的位置;
将构成一个单词的子单词的注意得分之和作为该单词的注意得分;
设置一个阈值,将每个时刻注意力分数大于阈值的单词作为该时刻解码出的事件类型的候选触发词,从而得到事件检测结果。
为实现上述发明目的,本发明还提供一种基于可回溯序列生成方法的事件检测系统,包括:
编码模块,对作为训练文本的输入句子进行编码;
权重计算模块,对编码后的输入句子计算Luong注意力,并根据计算出的注意力权重定位出输入句子中权重最大的单词;
上下文向量计算模块,对计算Luong注意力后的输入句子计算其中上下文向量;
解码模块,根据所述上下文向量,对输入句子进行解码,每时刻解码出一个事件类型的名称;
模型训练模块,根据解码结果、输入句子中包含的事件触发词、触发词触发的事件类型和预先定义的目标函数训练模型,得到事件监测模型;
检测模块,将作为待测文本的输入句子输入所述事件监测模型得到事件检测结果。
为实现上述发明目的,本发明还提供一种电子设备,包括处理器、存储器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述计算机程序被所述处理器执行时实现上述基于可回溯序列生成方法的事件检测方法。
为实现上述发明目的,本发明还提供一种计算机可读存储介质,所述计算机可读存储介质上存储计算机程序,所述计算机程序被处理器执行时实现上述基于可回溯序列生成方法的事件检测方法。
根据本发明的技术方案,本发明设计了一种新颖的追踪注意力机制,与传统的注意力机制相比,它在生成事件类型和定位触发器的目标之间实现了更好的协作,并提出了一种动态教师强制策略来加速训练收敛并解决暴露偏差问题,最终,基于可回溯序列生成方法的事件检测方法取得了比传统事件检测方法更好的准确率与召回率。
附图说明
图1示意性表示根据发明的基于可回溯序列生成方法的事件检测方法的流程图;
图2示意性表示根据本发明的可回溯注意力机制架构图;
图3示意性表示根据发明的基于可回溯序列生成方法的事件检测系统的结构框图。
具体实施方式
现在将参照示例性实施例来论述本发明的内容。应当理解,论述的实施例仅是为了使得本领域普通技术人员能够更好地理解且因此实现本发明的内容,而不是暗示对本发明的范围的任何限制。
如本文中所使用的,术语“包括”及其变体要被解读为意味着“包括但不限于”的开放式术语。术语“基于”要被解读为“至少部分地基于”。术语“一个实施例”和“一种实施例”要被解读为“至少一个实施例”。
图1示意性表示根据发明的基于可回溯序列生成方法的事件检测方法的流程图;图2示意性表示根据本发明的可回溯注意力机制架构图。结合图1和图2所示,根据本发明的基于可回溯序列生成方法的事件检测方法,包括以下步骤:
a. 对作为训练文本的输入句子进行编码;
b. 对编码后的输入句子计算Luong注意力,并根据计算出的注意力权重定位出输入句子中权重最大的单词;
c. 对计算Luong注意力后的输入句子计算其中上下文向量;
d. 根据所述上下文向量,对输入句子进行解码,每时刻解码出一个事件类型的名称;
e. 根据解码结果、输入句子中包含的事件触发词、触发词触发的事件类型和预先定义的目标函数训练模型,得到事件监测模型;
f. 将作为待测文本的输入句子输入所述事件监测模型得到事件检测结果。
根据本发明的一种实施方式,在上述a步骤中,对作为训练文本的输入句子进行编码为:使用基于BERT和双向LSTM的编码器对输入句子进行编码。
具体地,在输入句子的头部和尾部分别添加一个“[CLS]”和“[SEP]”标记,然后将该句子输入编码器进行编码,编码器由BERT模块后接BiLSTM模块组成,具体计算如下:
其中,表示输入句子中第i个单词对应的词向量;表示输入句子中第i个单词经过BERT模块得到的中间隐状态;表示所有的集合;表示输入句子中第i个单词经过BiLSTM模块得到的隐状态;表示所有的集合,其中i=1,···,n。
根据本发明的一种实施方式,在上述b步骤中,对编码后的输入句子计算Luong注意力,并根据计算出的注意力权重定位出输入句子中权重最大的单词为:
其中,是输入句子中第i个单词经过编码器输出的隐状态,是输入句子中第j个单词经过编码器输出的隐状态,i代表第i个单词,j代表第j个单词,是输入句子中第t个解码时刻的隐状态,t表示解码器输出的第t个时刻,是一个可学习的参数构成的矩阵;
通过遍历输入句子中每个单词的初始注意力权重,得到注意力权重最大的单词,通过掩码操作将这个单词的注意力权重设置为1,对其他单词的权重设置为0,具体计算如下:
根据本发明的一种实施方式,在训练的早期阶段,训练不足的注意机制不可避免地导致错误传播,影响训练的收敛。为了解决这一问题,本发明使用教师强制策略,用独热掩模向量选择真实标注的触发词。如果触发器由多个单词组成,则选择信息最丰富的单词,通常是动词或名词。此外,为了缓解暴露偏差问题,本发明采用了一种动态的教师强制策略。具体地,在上述c步骤中,对计算Luong注意力后的输入句子根据动态的教师强制策略(教师强制策略teacher forcing)计算其中上下文向量为:
对于解码器的每个时刻,基于伯努利分布采样(为0或者1的随机采样)一个采样结果m∈{0,1},并执行以下计算:
根据本发明的一种实施方式,在上述d步骤中,根据上下文向量,对输入句子进行解码,每时刻解码出一个事件类型的名称为:
其中,是t-1时刻所有事件类型上的概率分布,是概率分布中具有最大概率的事件类型,是解码器t-1时刻的隐状态,是t-1时刻传递给解码器的上下文向量;在得到t时刻解码器的隐藏状态和上下文向量后,按照如下公式计算时刻t输出的概率分布:
在本实施方式中,对于没有事件的句子,本发明使用一个特殊的标签None作为解码目标来帮助模型识别这些句子。对没有事件的句子,本发明设置其真实标注注意力集中在输入句子的尾部单词“SEP”上。
根据本发明的一种实施方式,在上述e步骤中,目标函数训练模型为:
其中,表示KL散度函数,是t时刻注意力的事件类型,即t时刻解码出的事件类型对应的触发词的位置为1,其余位置为0;是初始注意力权重;此外,为了防止其余单词可能竞争触发词的注意力权重,本发明禁止用于生成的目标函数在反向传播时更新注意力机制中的参数。
本发明没有在每个时刻上单独进行最大似然估计,而是还引入了一个句子级别的约束作为优化目标,它用于惩罚模型生成出正确的事件类型之外事件类型的现象。
根据本发明的一种实施方式,在上述f步骤中,将作为待测文本的输入句子输入事件监测模型得到事件检测结果包括:
将作为待测文本的输入句子输入训练得到的所述事件监测模型中,采用集束搜索算法确定输入句子中排名最高的预测路径;
通过可回溯注意力分数定位预测路径中出现的事件类型对应的触发词在输入句子中的位置;
将构成一个单词的子单词的注意得分之和作为该单词的注意得分;
设置一个阈值,将每个时刻注意力分数大于阈值的单词作为该时刻解码出的事件类型的候选触发词。
在本实施方式中,在事件类型序列生成后,本发明通过可回溯注意力分数来定位触发词的位置。虽然单个单词的触发词占了绝大多数(95.6%),但注意到在数据集中有一些多个单词构成的触发词(4.4%)。本发明将注意力分数大于阈值的单词作为候选触发词。由于BERT使用WordPiece作为最小单位,本发明将构成一个单词的所有单位的注意得分之和作为该单词的注意得分。本发明从不连续的单位中提取出概率最高的连续子序列作为多个单词构成的触发词。
根据本发明的上述方案,本发明设计了一种新颖的追踪注意力机制,与传统的注意力机制相比,它在生成事件类型和定位触发器的目标之间实现了更好的协作,并提出了一种动态教师强制策略来加速训练收敛并解决暴露偏差问题,最终,基于可回溯序列生成方法的事件检测方法取得了比传统事件检测方法更好的准确率与召回率。
进一步地,为实现上述发明目的,本发明还提供一种基于可回溯序列生成方法的事件检测系统,其结构框图如图3所示,具体包括:
编码模块,对作为训练文本的输入句子进行编码;
权重计算模块,对编码后的输入句子计算Luong注意力,并根据计算出的注意力权重定位出输入句子中权重最大的单词;
上下文向量计算模块,对计算Luong注意力后的输入句子计算其中上下文向量;
解码模块,根据上下文向量,对输入句子进行解码,每时刻解码出一个事件类型的名称;
模型训练模块,根据解码结果、输入句子中包含的事件触发词、触发词触发的事件类型和预先定义的目标函数训练模型,得到事件监测模型;
检测模块,将作为待测文本的输入句子输入事件监测模型得到事件检测结果。
根据本发明的一种实施方式,在编码模块中,对作为训练文本的输入句子进行编码为:使用基于BERT和双向LSTM的编码器对输入句子进行编码。
具体地,在输入句子的头部和尾部分别添加一个“[CLS]”和“[SEP]”标记,然后将该句子输入编码器进行编码,编码器由BERT后接双向LSTM组成,具体计算如下:
其中,表示输入句子中第i个单词对应的词向量;表示输入句子中第i个单词经过BERT模块得到的中间隐状态;表示所有的集合;表示输入句子中第i个单词经过BiLSTM模块得到的隐状态;表示所有的集合,其中i=1,···,n。
根据本发明的一种实施方式,在权重计算模块中,对编码后的输入句子计算Luong注意力,并根据计算出的注意力权重定位出输入句子中权重最大的单词为:
其中,是输入句子中第i个单词经过编码器输出的隐状态,是输入句子中第j个单词经过编码器输出的隐状态,i代表第i个单词,j代表第j个单词,是输入句子中第t个解码时刻的隐状态,t表示解码器输出的第t个时刻,是一个可学习的参数构成的矩阵;
通过遍历输入句子中每个单词的初始注意力权重,得到注意力权重最大的单词,通过掩码操作将这个单词的注意力权重设置为1,对其他单词的权重设置为0,具体计算如下:
根据本发明的一种实施方式,在训练的早期阶段,训练不足的注意机制不可避免地导致错误传播,影响训练的收敛。为了解决这一问题,本发明使用教师强制策略,用独热掩模向量选择真实标注的触发词。如果触发器由多个单词组成,则选择信息最丰富的单词,通常是动词或名词。此外,为了缓解暴露偏差问题,本发明采用了一种动态的教师强制策略。具体地,在上下文向量计算模块中,对计算Luong注意力后的输入句子根据动态教师强制策略计算其中上下文向量为:
对于解码器的每个时刻,基于伯努利分布采样一个采样结果m∈{0,1},并执行以下计算:
根据本发明的一种实施方式,在解码模块中,根据上下文向量,对输入句子进行解码,每时刻解码出一个事件类型的名称为:
其中,是t-1时刻所有事件类型上的概率分布,是概率分布中具有最大概率的事件类型,是解码器t-1时刻的隐状态,是t-1时刻传递给解码器的上下文向量;在得到t时刻解码器的隐藏状态和上下文向量后,按照如下公式计算时刻t输出的概率分布:
在本实施方式中,对于没有事件的句子,本发明使用一个特殊的标签None作为解码目标来帮助模型识别这些句子。对没有事件的句子,本发明设置其真实标注注意力集中在输入句子的尾部单词“SEP”上。
根据本发明的一种实施方式,在模型训练模块中,目标函数训练模型为:
其中,表示KL散度函数,是t时刻注意力的事件类型,即t时刻解码出的事件类型对应的触发词的位置为1,其余位置为0;是初始注意力权重;此外,为了防止其余单词可能竞争触发词的注意力权重,本发明禁止用于生成的目标函数在反向传播时更新注意力机制中的参数。
本发明没有在每个时刻上单独进行最大似然估计,而是还引入了一个句子级别的约束作为优化目标,它用于惩罚模型生成出正确的事件类型之外事件类型的现象。
根据本发明的一种实施方式,在检测模块中,将作为待测文本的输入句子输入事件监测模型得到事件检测结果包括:
将作为待测文本的输入句子输入训练得到的所述事件监测模型中,采用集束搜索算法确定输入句子中排名最高的预测路径;
通过可回溯注意力分数定位预测路径中出现的事件类型对应的触发词在输入句子中的位置;
将构成一个单词的子单词的注意得分之和作为该单词的注意得分;
设置一个阈值,将每个时刻注意力分数大于阈值的单词作为该时刻解码出的事件类型的候选触发词,从而得到事件检测结果(事件检测结果由事件类型和触发词组成)。
在本实施方式中,在事件类型序列生成后,本发明通过可回溯注意力分数来定位触发词的位置。虽然单个单词的触发词占了绝大多数(95.6%),但注意到在数据集中有一些多个单词构成的触发词(4.4%)。本发明将注意力分数大于阈值的单词作为候选触发词。由于BERT使用WordPiece作为最小单位,本发明将构成一个单词的所有单位的注意得分之和作为该单词的注意得分。本发明从不连续的单位中提取出概率最高的连续子序列作为多个单词构成的触发词。
根据本发明的上述方案,本发明设计了一种新颖的追踪注意力机制,与传统的注意力机制相比,它在生成事件类型和定位触发器的目标之间实现了更好的协作,并提出了一种动态教师强制策略来加速训练收敛并解决暴露偏差问题,最终,基于可回溯序列生成方法的事件检测方法取得了比传统事件检测方法更好的准确率与召回率。
为实现上述发明目的,本发明还提供一种电子设备,包括处理器、存储器及存储在存储器上并可在处理器上运行的计算机程序,计算机程序被处理器执行时实现如上所述的基于可回溯序列生成方法的事件检测方法。
为实现上述发明目的,本发明还提供一种计算机可读存储介质,计算机可读存储介质上存储计算机程序,计算机程序被处理器执行时实现如上所述的基于可回溯序列生成方法的事件检测方法。
基于以上本发明的技术方案,为了为了验证本发明的效果,在ACE 2005和Litbank两个数据集上做了实验。对于ACE2005数据集,使用与现有的工作完全相同的数据分割方法,即分别将569、64和64个文档作为训练集、开发集和测试集。对于Litbank数据集,使用Sims等人发布的官方数据分割方法。训练集按照具体实施方式中的训练过程(步骤a-e)进行实施,训练完成后,在测试集上进行评测。
为了更好的验证生成事件的效果,选取精确率、召回率和F1值作为评价指标,仅当触发词抽取正确且事件类型也抽取正确时才认为抽取正确。
精确率:精确率=(抽取正确的事件个数/抽取出的总的事件数)x100%
召回率:召回率=(抽取正确的事件个数/总的真实事件数)x100%
F1值:为了能够评价不同算法的优劣,在精确率和召回率的基础上提出了F1值的概念,来对精确率和召回率进行整体评价:F1值= 正确率*召回率* 2/(正确率 + 召回率)。
为了验证本发明提出方法的有效性,选取一些基准模型作为比较。在ACE 2005数据集上,选取了以下三类方法的中的模型作为基准模型。
基于特征的方法使用人工设计的特征来做事件检测。MaxEnt使用最大熵分类器,Cross-Entity使用跨实体的信息来做事件检测。
基于神经网络的方法使用基于神经网络的判别分类器直接对候选触发词进行分类或者标记整个句子。DMCNN通过构建一个动态多池化卷积模型来学习句子的特征;JRNN使用双向RNN和额外的依存关系特征;dbRNN为BiLSTM添加了带有权重的依存弧,以同时利用树状结构和序列结构;HBTNGMA应用分层和偏差标记网络来同时检测一个句子中的多个事件;∆-learning提取了用于事件检测的识别和泛化知识;EE-GCN同时利用了语法结构和标签依赖信息。GatedGCN将一种具有上下文多样性和重要性评分一致性的门控机制集成到GCN中。
基于生成的方法使用基于神经网络的Seq2Seq结构来生成事件信息。TANL使用T5-base生成一个在原始句子中的触发词后插入事件类型的序列;Multi-task TANL通过从其他任务中转移结构知识来扩展TANL;TEXT2EVENT使用T5-large来生成一个包括事件类型、触发词和论元的序列。
在Litbank数据集上,选取了以下两类方法的中的模型作为基准模型。
基于特征的方法:Verbsonly选取并只选取动词,Featurized使用L2正则化的二元逻辑回归和手工特征。
基于神经网络的方法:LSTM-based Models使用LSTM及其变种,DMBERT使用BERT作为编码器并使用动态多池化,GatedGCN。
实验结果如下表1和表2:
由以上表1和表2可知,本发明的模型在两个数据集中均取得了最佳的效果,表明了本发明提出的方法的优越性。
本领域普通技术人员可以意识到,结合本文中所公开的实施例描述的模块及算法步骤,能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本发明的范围。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的装置和设备的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
在本申请所提供的实施例中,应该理解到,所揭露的装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述模块的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个模块或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或模块的间接耦合或通信连接,可以是电性,机械或其它的形式。
所述作为分离部件说明的模块可以是或者也可以不是物理上分开的,作为模块显示的部件可以是或者也可以不是物理模块,即可以位于一个地方,或者也可以分布到多个网络模块上。可以根据实际的需要选择其中的部分或者全部模块来实现本发明实施例方案的目的。
另外,在本发明实施例中的各功能模块可以集成在一个处理模块中,也可以是各个模块单独物理存在,也可以两个或两个以上模块集成在一个模块中。
所述功能如果以软件功能模块的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例节能信号发送/接收的方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。
以上描述仅为本申请的较佳实施例以及对所运用技术原理的说明。本领域技术人员应当理解,本申请中所涉及的发明范围,并不限于上述技术特征的特定组合而成的技术方案,同时也应涵盖在不脱离所述发明构思的情况下,由上述技术特征或其等同特征进行任意组合而形成的其它技术方案。例如上述特征与本申请中公开的(但不限于)具有类似功能的技术特征进行互相替换而形成的技术方案。
应理解,本发明的发明内容及实施例中各步骤的序号的大小并不绝对意味着执行顺序的先后,各过程的执行顺序应以其功能和内在逻辑确定,而不应对本发明实施例的实施过程构成任何限定。
Claims (10)
1.基于可回溯序列生成方法的事件检测方法,其特征在于,包括:
对作为训练文本的输入句子进行编码;
对编码后的输入句子计算Luong注意力,并根据计算出的注意力权重定位出输入句子中权重最大的单词;
对计算Luong注意力后的输入句子计算其中上下文向量;
根据所述上下文向量,对输入句子进行解码,每时刻解码出一个事件类型的名称;
根据解码结果、输入句子中包含的事件触发词、触发词触发的事件类型和预先定义的目标函数训练模型,得到事件监测模型;
将作为待测文本的输入句子输入所述事件监测模型得到事件检测结果。
2.根据权利要求1所述的基于可回溯序列生成方法的事件检测方法,其特征在于,对作为训练文本的输入句子进行编码为:使用基于BERT和双向LSTM的编码器对输入句子进行编码。
3.根据权利要求2所述的基于可回溯序列生成方法的事件检测方法,其特征在于,对编码后的输入句子计算Luong注意力,并根据计算出的注意力权重定位出输入句子中权重最大的单词为:
其中,是输入句子中第i个单词经过编码器输出的隐状态,是输入句子中第j个单词经过编码器输出的隐状态,i代表第i个单词,j代表第j个单词,是输入句子中第t个解码时刻的隐状态,t表示解码器输出的第t个时刻,是一个可学习的参数构成的矩阵;
通过遍历输入句子中每个单词的初始注意力权重,得到注意力权重最大的单词,通过掩码操作将这个单词的注意力权重设置为1,对其他单词的权重设置为0,具体计算如下:
5.根据权利要求4所述的基于可回溯序列生成方法的事件检测方法,其特征在于,根据所述上下文向量,对输入句子进行解码,每时刻解码出一个事件类型的名称为:
其中,是t-1时刻所有事件类型上的概率分布,是概率分布中具有最大概率的事件类型,是解码器t-1时刻的隐状态,是t-1时刻传递给解码器的上下文向量;在得到t时刻解码器的隐藏状态和上下文向量后,按照如下公式计算时刻t输出的概率分布:
6.根据权利要求5所述的基于可回溯序列生成方法的事件检测方法,其特征在于,所述目标函数训练模型为:
7.根据权利要求6所述的基于可回溯序列生成方法的事件检测方法,其特征在于,将作为待测文本的输入句子输入所述事件监测模型得到事件检测结果包括:
将作为待测文本的输入句子输入训练得到的所述事件监测模型中,采用集束搜索算法确定输入句子中排名最高的预测路径;
通过可回溯注意力分数定位预测路径中出现的事件类型对应的触发词在输入句子中的位置;
将构成一个单词的子单词的注意得分之和作为该单词的注意得分;
设置一个阈值,将每个时刻注意力分数大于阈值的单词作为该时刻解码出的事件类型对应的触发词,从而得到事件检测结果。
8.基于可回溯序列生成方法的事件检测系统,其特征在于,包括:
编码模块,对作为训练文本的输入句子进行编码;
权重计算模块,对编码后的输入句子计算Luong注意力,并根据计算出的注意力权重定位出输入句子中权重最大的单词;
上下文向量计算模块,对计算Luong注意力后的输入句子计算其中上下文向量;
解码模块,根据所述上下文向量,对输入句子进行解码,每时刻解码出一个事件类型的名称;
模型训练模块,根据解码结果、输入句子中包含的事件触发词、触发词触发的事件类型和预先定义的目标函数训练模型,得到事件监测模型;
检测模块,将作为待测文本的输入句子输入所述事件监测模型得到事件检测结果。
9.一种电子设备,其特征在于,包括处理器、存储器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述计算机程序被所述处理器执行时实现如权利要求1至7中任一项所述的基于可回溯序列生成方法的事件检测方法。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储计算机程序,所述计算机程序被处理器执行时实现如权利要求1至7中任一项所述的基于可回溯序列生成方法的事件检测方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210436226.0A CN114548101B (zh) | 2022-04-25 | 2022-04-25 | 基于可回溯序列生成方法的事件检测方法和系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210436226.0A CN114548101B (zh) | 2022-04-25 | 2022-04-25 | 基于可回溯序列生成方法的事件检测方法和系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN114548101A true CN114548101A (zh) | 2022-05-27 |
CN114548101B CN114548101B (zh) | 2022-08-02 |
Family
ID=81667283
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210436226.0A Active CN114548101B (zh) | 2022-04-25 | 2022-04-25 | 基于可回溯序列生成方法的事件检测方法和系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114548101B (zh) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114757154A (zh) * | 2022-06-13 | 2022-07-15 | 深圳市承儒科技有限公司 | 基于深度学习的作业生成方法、装置、设备及存储介质 |
CN115759036A (zh) * | 2022-10-28 | 2023-03-07 | 中国矿业大学(北京) | 基于推荐的事件检测模型的构建方法及利用模型进行事件检测的方法 |
CN116245139A (zh) * | 2023-04-23 | 2023-06-09 | 中国人民解放军国防科技大学 | 图神经网络模型训练方法和装置、事件检测方法和装置 |
CN116701576A (zh) * | 2023-08-04 | 2023-09-05 | 华东交通大学 | 无触发词的事件检测方法和系统 |
Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110008339A (zh) * | 2019-03-22 | 2019-07-12 | 武汉大学 | 一种用于目标情感分类的深度记忆网络模型及其分类方法 |
CN110135457A (zh) * | 2019-04-11 | 2019-08-16 | 中国科学院计算技术研究所 | 基于自编码器融合文档信息的事件触发词抽取方法及系统 |
US20200117856A1 (en) * | 2017-04-03 | 2020-04-16 | Siemens Aktiengesellschaft | A method and apparatus for performing hierarchiacal entity classification |
CN112800774A (zh) * | 2021-01-15 | 2021-05-14 | 华南理工大学 | 基于注意力机制的实体关系抽取方法、装置、介质和设备 |
CN112836017A (zh) * | 2021-02-09 | 2021-05-25 | 天津大学 | 一种基于分层主题驱动的自注意力机制的事件检测方法 |
CN113158667A (zh) * | 2021-04-09 | 2021-07-23 | 杭州电子科技大学 | 基于实体关系级别注意力机制的事件检测方法 |
CN113312470A (zh) * | 2021-05-28 | 2021-08-27 | 北京航空航天大学 | 一种基于匿名化隐私保护技术的医疗事件抽取方法 |
CN113761936A (zh) * | 2021-08-19 | 2021-12-07 | 哈尔滨工业大学(威海) | 一种基于多头自注意力机制的多任务篇章级事件抽取方法 |
-
2022
- 2022-04-25 CN CN202210436226.0A patent/CN114548101B/zh active Active
Patent Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20200117856A1 (en) * | 2017-04-03 | 2020-04-16 | Siemens Aktiengesellschaft | A method and apparatus for performing hierarchiacal entity classification |
CN110008339A (zh) * | 2019-03-22 | 2019-07-12 | 武汉大学 | 一种用于目标情感分类的深度记忆网络模型及其分类方法 |
CN110135457A (zh) * | 2019-04-11 | 2019-08-16 | 中国科学院计算技术研究所 | 基于自编码器融合文档信息的事件触发词抽取方法及系统 |
CN112800774A (zh) * | 2021-01-15 | 2021-05-14 | 华南理工大学 | 基于注意力机制的实体关系抽取方法、装置、介质和设备 |
CN112836017A (zh) * | 2021-02-09 | 2021-05-25 | 天津大学 | 一种基于分层主题驱动的自注意力机制的事件检测方法 |
CN113158667A (zh) * | 2021-04-09 | 2021-07-23 | 杭州电子科技大学 | 基于实体关系级别注意力机制的事件检测方法 |
CN113312470A (zh) * | 2021-05-28 | 2021-08-27 | 北京航空航天大学 | 一种基于匿名化隐私保护技术的医疗事件抽取方法 |
CN113761936A (zh) * | 2021-08-19 | 2021-12-07 | 哈尔滨工业大学(威海) | 一种基于多头自注意力机制的多任务篇章级事件抽取方法 |
Non-Patent Citations (1)
Title |
---|
王晓浪等: "基于序列标注的事件联合抽取方法", 《重庆邮电大学学报(自然科学版)》 * |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114757154A (zh) * | 2022-06-13 | 2022-07-15 | 深圳市承儒科技有限公司 | 基于深度学习的作业生成方法、装置、设备及存储介质 |
CN115759036A (zh) * | 2022-10-28 | 2023-03-07 | 中国矿业大学(北京) | 基于推荐的事件检测模型的构建方法及利用模型进行事件检测的方法 |
CN116245139A (zh) * | 2023-04-23 | 2023-06-09 | 中国人民解放军国防科技大学 | 图神经网络模型训练方法和装置、事件检测方法和装置 |
CN116245139B (zh) * | 2023-04-23 | 2023-07-07 | 中国人民解放军国防科技大学 | 图神经网络模型训练方法和装置、事件检测方法和装置 |
CN116701576A (zh) * | 2023-08-04 | 2023-09-05 | 华东交通大学 | 无触发词的事件检测方法和系统 |
CN116701576B (zh) * | 2023-08-04 | 2023-10-10 | 华东交通大学 | 无触发词的事件检测方法和系统 |
Also Published As
Publication number | Publication date |
---|---|
CN114548101B (zh) | 2022-08-02 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Shen et al. | Disan: Directional self-attention network for rnn/cnn-free language understanding | |
Young et al. | Recent trends in deep learning based natural language processing | |
CN114548101B (zh) | 基于可回溯序列生成方法的事件检测方法和系统 | |
Tang et al. | Aspect level sentiment classification with deep memory network | |
US11893345B2 (en) | Inducing rich interaction structures between words for document-level event argument extraction | |
CN111738003B (zh) | 命名实体识别模型训练方法、命名实体识别方法和介质 | |
CN113239700A (zh) | 改进bert的文本语义匹配设备、系统、方法及存储介质 | |
Zhou et al. | Modelling sentence pairs with tree-structured attentive encoder | |
CN111797241B (zh) | 基于强化学习的事件论元抽取方法及装置 | |
CN116662582B (zh) | 基于自然语言的特定领域业务知识检索方法及检索装置 | |
CN113743099A (zh) | 基于自注意力机制方面术语提取系统、方法、介质、终端 | |
CN114610866B (zh) | 基于全局事件类型的序列到序列联合事件抽取方法和系统 | |
CN114510946B (zh) | 基于深度神经网络的中文命名实体识别方法及系统 | |
CN111581365B (zh) | 一种谓词抽取方法 | |
CN111767388B (zh) | 一种候选池生成方法 | |
Arora et al. | A hybrid model for combining neural image caption and k-nearest neighbor approach for image captioning | |
Rath | Word and relation embedding for sentence representation | |
Ahmed | Combining neural networks with knowledge for spoken dialogue systems | |
Zhang et al. | A multi-granularity neural network for answer sentence selection | |
CN116610791B (zh) | 针对结构化信息的基于语义分析的问答方法、系统及设备 | |
Ma et al. | Concept-based embeddings for natural language processing | |
Achlatis | Structured pruning for deep learning language models | |
Hasan | Automatic emotion detection in text messages using supervised learning | |
Tissier | Improving methods to learn word representations for efficient semantic similarites computations | |
Vázquez | Representation learning in multilingual neural machine translation |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |