CN114462418A

CN114462418A - 事件检测方法、系统、智能终端及计算机可读存储介质

Info

Publication number: CN114462418A
Application number: CN202111674973.XA
Authority: CN
Inventors: 杨海钦; 赵嘉晨
Original assignee: International Digital Economy Academy IDEA
Current assignee: International Digital Economy Academy IDEA
Priority date: 2021-12-31
Filing date: 2021-12-31
Publication date: 2022-05-10
Anticipated expiration: 2041-12-31
Also published as: CN114462418B

Abstract

本发明公开了事件检测方法、系统、智能终端及计算机可读存储介质，其中，所述事件检测方法是基于自注意力模型和多层感知器进行事件检测，包括：获取待检测语句和事件类别序列；将上述待检测语句结合上述事件类别序列生成待检测数据；获取上述自注意力模型和上述多层感知器，基于上述自注意力模型和上述多层感知器获取上述待检测语句对应的事件类别概率，其中，上述自注意力模型用于对上述待检测数据进行检测并输出待检测数据的语义向量，上述多层感知器用于基于上述事件类别序列对应的语义向量获取上述待检测语句对应的上述事件类别序列中各事件类别的概率。与现有技术相比，本发明方案无需使用关键词，有利于提升事件检测的效率和准确性。

Description

事件检测方法、系统、智能终端及计算机可读存储介质

技术领域

本发明涉及自然语言处理技术领域，尤其涉及的是一种事件检测方法、系统、智能终端及计算机可读存储介质。

背景技术

随着科学技术的发展，尤其是人工智能和深度神经网络等的迅速发展，自然语言处理技术得到了广泛的应用，事件检测也受到了越来越多的关注。事件检测的目的是判断语句对应的事件类别，具体的，可以用于对自然语言数据进行分类，并提取有用信息。

现有技术中的事件检测依赖于关键词识别技术，具体的，进行事件检测时(无论是基于需要检测的语句进行事件检测时，还是对事件检测过程中需要使用的模型进行训练的过程中)，需要先提取输入的语句中的关键词，然后基于关键词进行事件检测。现有技术的问题在于，基于关键词进行事件检测时，需要识别和提取关键词，而关键词的提取过程复杂、计算量大、耗费的时间长且准确性低，影响事件检测的效率和准确性，不利于进行事件检测。

因此，现有技术还有待改进和发展。

发明内容

本发明的主要目的在于提供一种事件检测方法、系统、智能终端及计算机可读存储介质，旨在解决现有技术中基于关键词进行事件检测时，需要识别和提取关键词，而关键词的提取过程复杂、计算量大、耗费的时间长且准确性低，影响事件检测的效率和准确性，不利于进行事件检测的问题。

为了实现上述目的，本发明第一方面提供一种事件检测方法，其中，上述方法基于自注意力模型和多层感知器进行事件检测，上述事件检测方法包括：

获取待检测语句和事件类别序列，其中，上述事件类别序列中包括至少一种事件类别；

将上述待检测语句结合上述事件类别序列生成待检测数据；

获取上述自注意力模型和上述多层感知器，基于上述自注意力模型和上述多层感知器获取上述待检测语句对应的事件类别概率，其中，上述自注意力模型用于对上述待检测数据进行检测并输出待检测数据的语义向量，上述多层感知器用于基于上述事件类别序列对应的语义向量获取上述待检测语句对应的上述事件类别序列中各事件类别的概率。

可选的，上述自注意力模型是需要进行训练的自注意力模型，上述多层感知器是需要进行训练的多层感知器，在上述基于上述自注意力模型和上述多层感知器获取上述待检测语句对应的各事件类别的概率之后，上述方法还包括：

获取上述待检测语句对应的标注事件类别；

基于上述事件类别概率和上述标注事件类别对上述自注意力模型和上述多层感知器进行参数调整。

可选的，上述自注意力模型是已经训练完成的自注意力模型，上述多层感知器是已经完成训练的多层感知器，在上述基于上述自注意力模型和上述多层感知器获取上述待检测语句对应的各事件类别的概率之后，上述方法还包括：

基于上述事件类别概率获取上述待检测语句对应的目标事件类别。

可选的，上述获取待检测语句和事件类别序列，包括：

获取待检测语句；

获取所有事件类别，基于所有上述事件类别获取事件类别序列，其中，上述事件类别序列中的所有事件类别按照随机顺序排列。

可选的，上述事件类别序列中的每一个事件类别的两边设置有预设标记符号。

可选的，上述将上述待检测语句结合上述事件类别序列生成待检测数据，包括：

将上述事件类别序列拼接在上述待检测语句之后；

对上述待检测语句中的每一个词以及上述事件类别序列中的每一个事件类别进行位置编码和词编码，获得上述待检测数据。

将上述事件类别序列拼接在上述待检测语句之前；

可选的，上述基于上述自注意力模型和上述多层感知器获取上述待检测语句对应的事件类别概率，包括：

将上述待检测数据输入上述自注意力模型，获取上述自注意力模型输出的语义向量，其中，上述语义向量是上述自注意力模型的输出数据中与各上述事件类别对应的语义向量，上述语义向量体现上述待检测语句与各上述事件类别之间的关系；

将上述语义向量输入上述多层感知器，获取上述多层感知器输出的各个事件类别概率，其中，上述事件类别概率与上述事件类别一一对应。

可选的，上述基于上述事件类别概率获取上述待检测语句对应的目标事件类别，包括：

基于上述事件类别概率和预设的概率阈值获取上述目标事件类别，其中，上述目标事件类别对应的事件类别概率大于上述概率阈值。

本发明第二方面提供一种事件检测系统，其中，上述事件检测系统基于自注意力模型和多层感知器进行事件检测，上述事件检测系统包括：

待检测语句获取模块，用于获取待检测语句和事件类别序列，其中，上述事件类别序列中包括至少一种事件类别；

待检测数据获取模块，用于将上述待检测语句结合上述事件类别序列生成待检测数据；

检测模块，用于获取上述自注意力模型和上述多层感知器，基于上述自注意力模型和上述多层感知器获取上述待检测语句对应的事件类别概率，其中，上述自注意力模型用于对上述待检测数据进行检测并输出待检测数据的语义向量，上述多层感知器用于基于上述事件类别序列对应的语义向量获取上述待检测语句对应的上述事件类别序列中各事件类别的概率。

本发明第三方面提供一种智能终端，上述智能终端包括存储器、处理器以及存储在上述存储器上并可在上述处理器上运行的事件检测程序，上述事件检测程序被上述处理器执行时实现任意一项上述事件检测方法的步骤。

本发明第四方面提供一种计算机可读存储介质，上述计算机可读存储介质上存储有事件检测程序，上述事件检测程序被处理器执行时实现任意一项上述事件检测方法的步骤。

由上可见，本发明方案中，获取待检测语句和事件类别序列，其中，上述事件类别序列中包括至少一种事件类别；将上述待检测语句结合上述事件类别序列生成待检测数据；获取上述自注意力模型和上述多层感知器，基于上述自注意力模型和上述多层感知器获取上述待检测语句对应的事件类别概率，其中，上述自注意力模型用于对上述待检测数据进行检测并输出待检测数据的语义向量，上述多层感知器用于基于上述事件类别序列对应的语义向量获取上述待检测语句对应的上述事件类别序列中各事件类别的概率。与现有技术中基于关键词进行事件检测的方案相比，本发明中，直接基于根据待检测语句和事件类别序列拼接并获得的待检测数据进行事件检测。具体的，利用自注意力模型可以对待检测语句进行上下文关系的检测，获取体现待检测数据和事件类别序列之间的对应关系的语义向量，从而使得多层感知器可以基于语义向量确定待检测语句对应的事件类别概率。可见，本发明方案无需使用关键词，在检测时也不需要识别和提取关键词，可以降低事件检测过程的复杂度和计算量，减少处理时间，有利于提升事件检测的效率和准确性。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其它的附图。

图1是本发明实施例提供的一种事件检测方法的流程示意图；

图2是本发明实施例图1中步骤S100的具体流程示意图；

图3是本发明实施例图1中步骤S200的具体流程示意图；

图4是本发明实施例图1中步骤S200的另一种具体流程示意图；

图5是本发明实施例图1中步骤S300的具体流程示意图；

图6是本发明实施例提供的一种事件检测的具体流程示意图；

图7是本发明实施例提供的一种事件类别的梯度图；

图8是本发明实施例提供的一种事件检测系统的结构示意图；

图9是本发明实施例提供的一种智能终端的内部结构原理框图。

具体实施方式

以下描述中，为了说明而不是为了限定，提出了诸如特定系统结构、技术之类的具体细节，以便透彻理解本发明实施例。然而，本领域的技术人员应当清楚，在没有这些具体细节的其它实施例中也可以实现本发明。在其它情况下，省略对众所周知的系统、装置、电路以及方法的详细说明，以免不必要的细节妨碍本发明的描述。

应当理解，当在本说明书和所附权利要求书中使用时，术语“包括”指示所描述特征、整体、步骤、操作、元素和/或组件的存在，但并不排除一个或多个其它特征、整体、步骤、操作、元素、组件和/或其集合的存在或添加。

还应当理解，在本发明说明书中所使用的术语仅仅是出于描述特定实施例的目的而并不意在限制本发明。如在本发明说明书和所附权利要求书中所使用的那样，除非上下文清楚地指明其它情况，否则单数形式的“一”、“一个”及“该”意在包括复数形式。

还应当进一步理解，在本发明说明书和所附权利要求书中使用的术语“和/或”是指相关联列出的项中的一个或多个的任何组合以及所有可能组合，并且包括这些组合。

如在本说明书和所附权利要求书中所使用的那样，术语“如果”可以依据上下文被解释为“当…时”或“一旦”或“响应于确定”或“响应于检测到”。类似的，短语“如果确定”或“如果检测到[所描述条件或事件]”可以依据上下文被解释为意指“一旦确定”或“响应于确定”或“一旦检测到[所描述的条件或事件]”或“响应于检测到[所描述条件或事件]”。

下面结合本发明实施例的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明的一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例，都属于本发明保护的范围。

在下面的描述中阐述了很多具体细节以便于充分理解本发明，但是本发明还可以采用其它不同于在此描述的其它方式来实施，本领域技术人员可以在不违背本发明内涵的情况下做类似推广，因此本发明不受下面公开的具体实施例的限制。

随着科学技术的发展，尤其是人工智能和深度神经网络等的迅速发展，自然语言处理技术得到了广泛的应用，事件检测也受到了越来越多的关注。事件检测的目的是判断语句对应的事件类别，具体的，可以用于对自然语言数据进行分类，并提取有用信息。例如，通过事件检测可以自动对网络媒体上每日生成的大量自然语言数据进行分类，提取有用信息，供用户进行决策参考。

现有技术中的事件检测依赖于关键词识别技术，具体的，进行事件检测时，需要先提取输入的语句中的关键词，然后基于关键词进行事件检测。其中，关键词代表原句中能够明确表明事件类型的词语。现有技术的问题在于，基于关键词进行事件检测时，需要识别和提取关键词，而关键词的提取过程复杂、计算量大、耗费的时间长且准确性低，影响事件检测的效率和准确性，不利于进行事件检测。

具体的，现有的事件检测技术中需要先训练模型完成关键词识别(TiggerIdentification)，基于关键词再训练模型完成事件检测。在模型训练过程中，需要进行关键词标注，关键词标注难度大，且需要人工执行复杂的标注操作，标注精度影响最后的识别和检测结果。关键词标注过程中，需要标注者对句子有透彻的理解后提取关键词，需要大量人力与时间，使得事件检测的成本高、效率低。同时，上述检测过程中涉及多个复杂的模型，事件检测过程并不是由一个端到端(end-to-end)模型实现的，训练与应用时会更加耗时且会有错误传递问题(error propagation)。具体的，需要先训练一个模型完成关键词识别，再训练另一个模型基于关键词完成事件检测，涉及多个复杂的模型，容易受中间结果的影响，耗时大且数据传输过程中容易出错，不利于提升事件检测的效率和准确性。

在一种应用场景中，事件检测模型可以将每个输入语句中的关键词与所有事件类别分别形成组(Pair)，利用注意力机制训练模型对事件类型的感知(Aware)。但计算量很大且计算过程复杂，需要分别将单一类别与所有输入语句形成组(pair)再作为模型输入，极大的影响了模型处理时间。且事件类别的数据量会形成长尾分布，尾部事件难以被模型所学习识别，在模型训练中会出现在主要事件上过拟合(over-fitting)而对尾部事件检测能力较弱的情况。

为了解决上述多个问题中的至少一个问题，本发明方案中，获取待检测语句和事件类别序列，其中，上述事件类别序列中包括至少一种事件类别；将上述待检测语句结合上述事件类别序列生成待检测数据；获取上述自注意力模型和上述多层感知器，基于上述自注意力模型和上述多层感知器获取上述待检测语句对应的事件类别概率，其中，上述自注意力模型用于对上述待检测数据进行检测并输出待检测数据的语义向量，上述多层感知器用于基于上述事件类别序列对应的语义向量获取上述待检测语句对应的上述事件类别序列中各事件类别的概率。

与现有技术中基于关键词进行事件检测的方案相比，本发明中，直接基于根据待检测语句和事件类别序列拼接并获得的待检测数据进行事件检测。具体的，利用自注意力模型可以对待检测语句进行上下文关系的检测，获取体现待检测数据和事件类别序列之间的对应关系的语义向量，从而使得多层感知器可以基于语义向量确定待检测语句对应的事件类别概率。可见，本发明方案无需使用关键词，在检测时也不需要识别和提取关键词，可以降低事件检测过程的复杂度和计算量，减少处理时间，有利于提升事件检测的效率和准确性。

示例性方法

如图1所示，本发明实施例提供一种事件检测方法，具体的，上述方法包括如下步骤：

步骤S100，获取待检测语句和事件类别序列，其中，上述事件类别序列中包括至少一种事件类别。

其中，待检测语句是需要进行事件检测的语句(或用于进行模型训练时使用的训练语句)，事件类别序列是所有事件类别构成的序列。需要说明的是，基于本实施例的事件检测方法，可以检测待检测语句对应的一种或多种事件类别的概率。具体的，上述所有事件类别可以根据实际需求进行预先设定和调整。当上述事件类别序列中仅包括一种事件类别时，可以基于本实施例的事件检测方法检测当前的待检测语句与该事件类别的概率。当上述事件类别序列中包括多种事件类别时，可以基于本实施例的事件检测方法检测当前的待检测语句与事件类别序列中的各个事件类别对应的概率。

本实施例中，如图2所示，上述步骤S100具体包括以下步骤：

步骤S101，获取待检测语句。

步骤S102，获取所有事件类别，基于所有上述事件类别获取事件类别序列，其中，上述事件类别序列中的所有事件类别按照随机顺序排列。

本实施例中，预先设置多种事件类别，因此构成的事件类别序列中包括多种事件类别。将所有的事件类别随机排布之后，构成对应的事件类别序列，如此，可以避免事件类别的某种固定排布顺序对检测结果的影响。在一种应用场景中，根据所有的事件类别随机生成一个事件类别的排布序列，并将该序列作为标准，作为模型训练和测试时输入输出对应的标准事件类别序列。即事件类别的排布序列是标准输入和输出的排布顺序，例如自注意力模型训练输入的事件类别序列对应的输出语义向量中，第一个值对应为自注意力模型对设定的事件类别序列中的第一个事件类别对应的语义向量。在另一种应用场景中，在生成事件类别的排序序列之后，还对其进行位置编码，事件类别序列中的每一个事件类别都具有一个位置编码，事件类别的个数是确定的(如预先已经设置好)，则可以根据位置编码确定经过自注意力模型输出的哪些语义向量是事件类别对应的语义向量，从而将事件类别对应的语义向量输入到多层感知器中。

需要说明的是，本实施例中，自注意力模型可以是需要进行训练的预训练自注意力模型，也可以是训练完成的预训练自注意力模型，预训练模型(pretrained model)是预先经过初步训练，但还需要根据实际需求进行进一步训练的模型。具体的，预训练自注意力模型在实现经过大量语料进行训练以提高语义理解，可以作为本实施例中事件检测方法的基础模型。在此之上，用事件检测的数据对该预训练自注意力模型进行进一步训练，获得对应的训练完成的预训练自注意力模型。且本实施例中在训练和检测过程中对于模型的操作是基本一致的，区别在于训练过程中使用的是标注了事件类别的语句。进一步的，在训练过程中，是基于已经标注了事件类别的语句对预训练自注意力模型(和多层感知器)进行训练，在事件检测过程中，则是根据已经训练完成的预训练自注意力模型(和已经训练完成的多层感知器)进行检测。

在一种应用场景中，上述自注意力模型是需要进行训练的自注意力模型，上述多层感知器是需要进行训练的多层感知器，在上述基于上述自注意力模型和上述多层感知器获取上述待检测语句对应的各事件类别的概率之后，上述方法还包括：获取上述待检测语句对应的标注事件类别；基于上述事件类别概率和上述标注事件类别对上述自注意力模型和上述多层感知器进行参数调整。

具体的，当上述自注意力模型是需要进行训练的自注意力模型且上述多层感知器是需要进行训练的多层感知器时，基于上述事件检测方法获取待检测语句对应的事件类别概率，从而完成对自注意力模型和多层感知器的训练。具体的，上述待检测语句是用于进行训练的语句，上述待检测语句有对应的标注事件类别，即预先经过事件类别标注。当获得事件类别概率后，将事件类别概率和对应的标注事件类别进行比较，从而对上述自注意力模型和上述多层感知器中的预设参数进行调整，使得经过上述自注意力模型和上述多层感知器处理后输出的结果与待检测语句预先标注的事件类别更为接近，其中，具体需要进行调整的参数可以预先设置。

训练结束的条件可以是预先挑选的参数达到预设阈值，也可以是达到预设的训练次数，或者使用完所有的训练数据，在此不做具体限定。具体的，对预训练自注意力模型和多层感知器(MLP)一同进行端到端的训练，以实现端到端的事件检测，从而使得事件检测过程中无需关心或传输中间结果，可以根据输入的待检测数据直接获得最终的结果，避免中间结果在传输过程中出错而影响检测结果，有利于提高事件检测的准确性。

本实施例中，基于预设的遍历次数进行训练，遍历次数可以根据实际需求进行设置和调整，例如，对所有用于训练的数据进行10次遍历，在一种应用场景中，进行10个epoch的训练，一个epoch指对所有的用于训练的数据进行一次遍历。在对自注意力模型和多层感知器的训练过程中，基于交叉熵损失函数来学习自注意力模型和多层感知器中的所有参数，使用自注意力模型和多层感知器进行检测时则由多层感知器输出所有事件类别对应的概率。

在另一种应用场景中，上述自注意力模型是已经训练完成的自注意力模型，上述多层感知器是已经完成训练的多层感知器，在上述基于上述自注意力模型和上述多层感知器获取上述待检测语句对应的各事件类别的概率之后，上述方法还包括：基于上述事件类别概率获取上述待检测语句对应的目标事件类别。

具体的，基于端到端训练好的自注意力模型和多层感知器对待检测数据进行检测，获取待检测语句对应的目标事件类别。其中，目标事件类别是事件序列类别中包括的所有事件类别中与待检测语句对应的事件类别。需要说明的是，一个待检测语句可以不对应任何一个事件类别(或对应“其它事件”类别)，也可以对应一个或多个具体的事件类别，例如，同时对应“死亡”和“攻击”这两个事件类别。

可见，本实施例中的事件检测方法既可用于对自注意力模型和多层感知器进行训练，也可以基于上述事件检测方法，使用已经训练好的自注意力模型和多层感知器进行事件检测，且整个过程中无需进行关键词标注或识别，有利于提升事件检测的效率和准确性。

需要说明的是，对于自注意力模型进行训练和使用自注意力模型进行检测过程中使用的事件类别序列是相同的，可以提高模型使用时的准确性。在训练样本中，每个语句都有标注的类别，选取所有的类别，进行随机排序，获得上述事件类别序列。具体的，在使用自注意力模型进行事件检测时无需识别关键词，在训练自注意力模型的过程中也无需标注关键词，而只需要标注正确的事件类别(现有技术中需要同时标注关键词和正确的事件类别)，可以节约人力，同时节省标注时间，且可以提高检测效率。

具体的，本实施例中，上述事件类别序列中的每一个事件类别的两边设置有预设标记符号。

需要说明的是，对于本方案的事件检测模型来说，输入自注意力模型的都是自然语言的词组，因此为了便于自注意力模型在机器学习过程中区分事件类别和需要检测的待检测语句中的词组，本实施例中在每一个事件类别的名称两边加上特殊符号(即预设标记符号)进行标记，以便自注意力模型知晓这是事件类别而不是待检测语句的一部分。其中，上述预设标记符号是预先设置的用于进行标记的符号，可以根据实际需求进行设置和调整，本实施例中以括号作为预设标记符号，但不作为具体限定。如此，在每一个事件类别的具体名称两边加上括号作为“回答”，而将需要检测的待检测语句作为“问题”，通过训练好的自注意力模型进行检测，有利于模型区分“问题”和“回答”，提高检测的效率和准确性。

其中，上述事件类别名称是具体的事件类别的名称，例如死亡、旅行、攻击等，其具体表达形式不受限制(例如，可以是中文、英文等表达形式)。需要说明的是，上述事件类别序列中还包括一个表示“其它事件”的类别，用于表示不属于其它任何既定事件类别的情况，以使得用户可以根据与“其它事件”的类别对应的结果获知当前的待检测语句不属于其它任何既定事件类别。

步骤S200，将上述待检测语句结合上述事件类别序列生成待检测数据。

其中，上述待检测数据是用于输入到自注意力模型中进行事件类别检测的数据，由上述待检测语句和上述事件类别序列拼接并进行位置编码和词编码后获得。

本实施例中，如图3所示，上述步骤S200具体包括如下步骤：

步骤S201，将上述事件类别序列拼接在上述待检测语句之后。

步骤S202，对上述待检测语句中的每一个词以及上述事件类别序列中的每一个事件类别进行位置编码和词编码，获得上述待检测数据。

具体的，本实施例中，将自注意力模型的输入改写成两句话，第一句话为需要检测的待检测语句(作为“问题”)，第二句话为事件类别序列(作为“回答”)，将两者进行拼接，整体的格式依照预训练自注意力模型(例如BERT模型)的要求，即将“问题”和“回答”拼接成一个序列，序列包含两部分：待检测语句和事件类别序列。本方案使得自注意力模型可以建立自注意力机制(self-attention)并学习待检测语句中的词和事件类别的联系。需要说明的是，本实施例中，以将上述事件类别序列拼接在上述待检测语句之后为例进行说明，实际使用过程中，还可以将上述事件类别序列拼接在上述待检测语句之前，在此不作为具体限定。

具体的，如图4所示，上述步骤S200还可以具体包括如下步骤：

步骤A201，将上述事件类别序列拼接在上述待检测语句之前。

步骤A202，对上述待检测语句中的每一个词以及上述事件类别序列中的每一个事件类别进行位置编码和词编码，获得上述待检测数据。

进一步的，对于拼接后的待检测语句和事件类别序列进行位置编码和词编码，以便自注意力模型快速理解其含义。具体的，对待检测语句中的每一个词(token)按照词的出现的从左到右顺序加上位置编码(positional embedding)，并作为“问题”；对事件类别序列中的每一个词按照词的出现的从左到右顺序加上位置编码，并作为“回答”。其中，事件类别序列中的每一个词的两边是设置有标记符号的，将进行编码后的每一个词加入词表(vocabulary)中，使得自注意力模型能够学习获取对应的向量化表示(即语义向量)。其中，词表中会包括未添加特殊标记符号的待检测语句词组和添加了特殊符号的事件类别词组。对应一个自然语言中的词a，进行词编码后表示为E(a)。

需要说明的是，本实施例中，对于拼接后的待检测语句和事件类别序列进行位置编码时，编码的顺序是按照从左到右的先后顺序连续的，即总体上“问题”与“回答”的位置编码连续，以使得自注意力模型能更好的进行识别，且减小需要存储的位置编码的数值。具体的，本实施例中上述预训练自注意力模型为BERT(Bidirectional EncoderRepresentations from Transformers)模型，BERT模型对输入的每一个token按照顺序进行连续编码。在一种应用场景中，位置编码也可以不连续，但需要保证先后顺序不变。本实施例中，对事件类别进行位置编码以提供额外的位置信息，使得自注意力模型能够借助位置信息，而不单单是语义信息，从而可以提高自注意力模型对次要事件(即数据量少的事件类别)的检测效率和准确性。如此，可以避免自注意力模型在主要事件上过拟合，从而避免出现长尾分布的问题。

进一步的，为了方便自注意力模型理解语义，对上述待检测语句中的每一个词以及上述事件类别序列中的每一个事件类别进行词编码，即将自然语音转化成机器可以识别的机器语言。在一种应用场景中，上述词编码获得的是一个向量，对于一个词，如果该词出现在预训练自注意力模型的词库中，则直接使用该词库中该词对应的起始向量作为该词的词编码，反之则为该词随机输出一个向量作为词编码。

将待检测语句、所有事件类别以及待检测语句和事件类别对应的位置编码(position embedding)和词编码(word embedding)一起作为待检测数据。例如，将“Andthey sent him to Baghdad and killed，[elect][transport][convict]…[injure][attack][negative]”及其位置编码和词编码一同作为待检测数据。其中，“And they senthim to Baghdad and killed”是待检测语句，“[elect][transport][convict]…[injure][attack][negative]”是事件类别序列。

步骤S300，获取自注意力模型和多层感知器，基于上述自注意力模型和上述多层感知器获取上述待检测语句对应的事件类别概率，其中，上述自注意力模型用于对上述待检测数据进行检测并输出待检测数据的语义向量，上述多层感知器用于基于上述事件类别序列对应的语义向量获取上述待检测语句对应的上述事件类别序列中各事件类别的概率。

本实施例中，使用BERT模型作为自注意力模型，实际使用过程中，还可以使用其它自注意力模型，在此不作具体限定。上述多层感知器作为分类器，实际使用过程中，还可以使用其它分类器替代上述多层感知器，在此不作具体限定。

本实施例中，如图5所示，上述步骤S300具体包括如下步骤：

步骤S301，将上述待检测数据输入上述自注意力模型，获取上述自注意力模型输出的语义向量，其中，上述语义向量是上述自注意力模型的输出数据中与各上述事件类别对应的语义向量，上述语义向量体现上述待检测语句与各上述事件类别之间的关系。

步骤S302，将上述语义向量输入上述多层感知器，获取上述多层感知器输出的各个事件类别概率，其中，上述事件类别概率与上述事件类别一一对应。

具体的，将上述待检测数据输入自注意力模型之后，得到所有事件类别对应的语义向量。具体的，上述自注意力模型会输出待检测数据中所有的词汇对应的语义向量contextualized representations(或者可以称为语境化表达或向量化表达)。在一种应用场景中，所有的词汇对应的语义向量可以表示为：

其中，

代表待检测语句中每一个词对应的语义向量，

代表事件类别序列中每一个事件类别对应的语义向量，CLS和SEP是预训练自注意力模型自带的特殊词，h_[CLS]和h_[SEP]分别代表这两个特殊词对应的语义向量。CLS表示classification，该特殊词旨在学习输入语句的总体意义，SEP表示separate，放于两句话之间用于区分前后两句话。x代表待检测语句包括的词的个数，n代表事件类别的个数，w代表待检测语句，e代表事件类别。需要说明的是，语义向量contextualized representation是模型通过注意力机制将输入数据映射到同一纬度空间后的结果。

进一步的，本实施例中，上述基于上述事件类别概率获取上述待检测语句对应的目标事件类别，包括：基于上述事件类别概率和预设的概率阈值获取上述目标事件类别，其中，上述目标事件类别对应的事件类别概率大于上述概率阈值。

本实施例中，获取自注意力模型输出的事件类别语义向量并输入多层感知器中，具体的，将

输入到多层感知器(MLP)中，多层感知器会输出所有事件类别对应的概率(即事件类别概率)，上述事件类别概率是各个事件类别与上述待检测语句关联的概率。

需要说明的是，自注意力模型的输出又被称为contextualizedrepresentations，自注意力模型输出的向量化表达是包含上下文信息的。自注意力模型会关注词与事件之间的联系，将输入的词与事件在同一个高维空间内进行encode从而得到向量化表达(即语义向量)。MLP的角色是分类器，将语义向量进行一种映射得到对应的输出结果。

其中，上述预设的概率阈值是预先设置的概率阈值，可以根据实际需求进行设置和调整，当某事件类别对应的事件类别概率大于概率阈值时，可以认为该事件类别与待检测语句是关联的。在一种应用场景中，设置上述概率阈值为0.5。在另一种应用场景中，将获得的事件类别概率进行四舍五入的取整，即小于0.5的设置为0，大于或等于0.5的设置为1，将概率为1的事件类别作为目标事件类别。

本实施例中，还基于一种具体应用场景对上述事件检测方法进行具体描述，具体的，图6是本发明实施例提供的一种事件检测的具体流程示意图，如图6所示，将待检测语句和所有的事件类别进行拼接，然后进行词编码和位置编码，获得对应的待检测数据并输入BERT模型中，检测获得对应的语义向量。本实施例中基于公开数据集ACE2005进行说明，获取的待检测语句为“And they sent him to Baghdad and killed”，对应的事件类别也是公开数据集ACE2005中的事件类别。图6中，E_they代表单词“they”的词编码，E₁代表单词“they”的位置编码，获得的h₁代表单词“they”的语义向量，其它同理，在此不一一赘述。将BERT模型输出的与事件类别对应的语义向量输入MLP中，通过MLP预测各个事件类别的概率，将获得的事件类别概率进行四舍五入的取整，即小于0.5的设置为0，大于或等于0.5的设置为1，则最终输出的结果中[transport]和[attack]的位置的输出将为1，而其他位置的概率为0，即目标事件类别为transport和attack。图7是本发明实施例提供的一种事件类别的梯度图，梯度越大，表明模型对其关注越大，对模型输出结果的影响也更大。结合图7和模型测试的结果可知，虽然[transport]和[attack]并不是模型最为关注的事件类别，但基于本实施例中的事件检测方法还是可以准确地检测识别出来。

具体的，现有使用关键词的事件检测模型只将需检测的语句作为输入，本实施例中同时将需检测的语句和事件类别作为输入，使得模型的自注意力机制(self-attention)学习输入语句中的词和事件类别的联系，从而弥补因为不使用关键词带来的信息缺失。根据图7可知，本实施例中的模型能够自动关注到需检测语句中的关键词及相关论据(argument)。且由于本实施例中的模型不需要注明关键词，所以在训练时模型不会过于单一地关注关键词，而会自主去学习应该关注语句中的部分。同时，本实施例中的模型对事件类别采用了不同的位置编码，这使得模型能够不单纯靠词意去进行事件检测，而能同时依靠位置的区别来识别不同事件，这能有效提高模型对数据量少的事件类别的检测能力，解决数据量少的时候模型难以学习到深层语意的问题。可见，本实施例中，不使用也无需标注传统事件检测所需要的关键词，可将事件检测转换为问答任务，实现事件分类，且可以直接输出多类别(Multi-label)预测结果，可以不依赖关键词且实现端到端的事件检测。同时，对事件类别加入位置编码以提供额外的信息，使得模型能够借助位置信息，而不单单是语义信息，来进行对次要事件的检测，避免现有技术中由于次要事件的数据不足导致模型难以有效学习次要事件的语义的问题。使得本实施例中的事件检测方法的检测效率更高且检测准确性更高。

由上可见，本发明实施例提供的事件检测方法中，获取待检测语句和事件类别序列，其中，上述事件类别序列中包括至少一种事件类别；将上述待检测语句结合上述事件类别序列生成待检测数据；获取上述自注意力模型和上述多层感知器，基于上述自注意力模型和上述多层感知器获取上述待检测语句对应的事件类别概率，其中，上述自注意力模型用于对上述待检测数据进行检测并输出待检测数据的语义向量，上述多层感知器用于基于上述事件类别序列对应的语义向量获取上述待检测语句对应的上述事件类别序列中各事件类别的概率。与现有技术中基于关键词进行事件检测的方案相比，本发明中，直接基于根据待检测语句和事件类别序列拼接并获得的待检测数据进行事件检测。具体的，利用自注意力模型可以对待检测语句进行上下文关系的检测，获取体现待检测数据和事件类别序列之间的对应关系的语义向量，从而使得多层感知器可以基于语义向量确定待检测语句对应的事件类别概率。可见，本发明方案无需使用关键词，在检测时也不需要识别和提取关键词，可以降低事件检测过程的复杂度和计算量，减少处理时间，有利于提升事件检测的效率和准确性。

需要说明的是，上述实施例中以对一个待检测语句进行检测为例进行说明，实际使用过程中，也可以基于上述事件检测方法同时对多个待检测语句进行事件检测，例如，将多个待检测语句进行拼接，并在语句中间设置用于区分不同待检测语句的特殊标记符号，在此不作具体限制。

示例性设备

如图8中所示，对应于上述事件检测方法，本发明实施例还提供一种事件检测系统，上述事件检测系统包括：

待检测语句获取模块410，用于获取待检测语句和事件类别序列，其中，上述事件类别序列中包括至少一种事件类别。

待检测数据获取模块420，用于将上述待检测语句结合上述事件类别序列生成待检测数据。

其中，上述待检测数据是用于输入到自注意力模型中进行事件类别检测的数据，由上述待检测语句和上述事件类别序列拼接并进行位置编码和词编码后获得。本实施例中，将上述事件类别序列拼接在上述待检测语句之后，对上述待检测语句中的每一个词以及上述事件类别序列中的每一个事件类别进行位置编码和词编码，获得上述待检测数据。上述待检测数据包括待检测语句、所有事件类别以及待检测语句和事件类别对应的位置编码和词编码。

检测模块430，用于获取上述自注意力模型和上述多层感知器，基于上述自注意力模型和上述多层感知器获取上述待检测语句对应的事件类别概率，其中，上述自注意力模型用于对上述待检测数据进行检测并输出待检测数据的语义向量，上述多层感知器用于基于上述事件类别序列对应的语义向量获取上述待检测语句对应的上述事件类别序列中各事件类别的概率。

具体的，本实施例中，上述事件检测系统及其各模块的具体功能可以参照上述事件检测方法中的对应描述，在此不再赘述。

需要说明的是，上述事件检测系统的各个模块的划分方式并不唯一，在此也不作为具体限定。

基于上述实施例，本发明还提供了一种智能终端，其原理框图可以如图9所示。上述智能终端包括通过系统总线连接的处理器、存储器、网络接口以及显示屏。其中，该智能终端的处理器用于提供计算和控制能力。该智能终端的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统和事件检测程序。该内存储器为非易失性存储介质中的操作系统和事件检测程序的运行提供环境。该智能终端的网络接口用于与外部的终端通过网络连接通信。该事件检测程序被处理器执行时实现上述任意一种事件检测方法的步骤。该智能终端的显示屏可以是液晶显示屏或者电子墨水显示屏。

本领域技术人员可以理解，图9中示出的原理框图，仅仅是与本发明方案相关的部分结构的框图，并不构成对本发明方案所应用于其上的智能终端的限定，具体的智能终端可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。

在一个实施例中，提供了一种智能终端，上述智能终端包括存储器、处理器以及存储在上述存储器上并可在上述处理器上运行的事件检测程序，上述事件检测程序被上述处理器执行时进行以下操作指令：

将上述待检测语句结合上述事件类别序列生成待检测数据；

本发明实施例还提供一种计算机可读存储介质，上述计算机可读存储介质上存储有事件检测程序，上述事件检测程序被处理器执行时实现本发明实施例提供的任意一种事件检测方法的步骤。

综上所述，本发明可以带来如下有益效果：首先，本发明提供的事件检测方法中，直接基于根据待检测语句和事件类别序列拼接并获得的待检测数据进行事件检测。具体的，利用自注意力模型可以对待检测语句进行上下文关系的检测，获取体现待检测数据和事件类别序列之间的对应关系的语义向量，从而使得多层感知器可以基于语义向量确定待检测语句对应的事件类别概率。可见，本发明方案无需使用关键词，在对自注意力模型和多层感知器进行训练时无需标注关键词，在使用训练好的自注意力模型和多层感知器进行事件检测时也不需要识别和提取关键词，可以降低事件检测过程的复杂度和计算量，减少处理时间，有利于提升事件检测的效率和准确性。其次，本发明提供的事件检测方法中，使用的自注意力模型和多层感知器是通过端到端的训练获得的，在使用时也可以端到端的直接获得最终输出结果，无需进行中间数据的传输，有利于提高事件检测的准确性。进一步的，本发明方案中，对事件类别加入位置编码以提供额外的信息，使得模型能够借助位置信息，而不单单是语义信息，来进行对次要事件的检测，避免现有技术中由于次要事件的数据不足导致模型难以有效学习次要事件的语义的问题。使得本实施例中的事件检测方法的检测效率更高且检测准确性更高。

应理解，上述实施例中各步骤的序号大小并不意味着执行顺序的先后，各过程的执行顺序应以其功能和内在逻辑确定，而不应对本发明实施例的实施过程构成任何限定。

所属领域的技术人员可以清楚地了解到，为了描述的方便和简洁，仅以上述各功能单元、模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能单元、模块完成，即将上述系统的内部结构划分成不同的功能单元或模块，以完成以上描述的全部或者部分功能。实施例中的各功能单元、模块可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中，上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。另外，各功能单元、模块的具体名称也只是为了便于相互区分，并不用于限制本发明的保护范围。上述系统中单元、模块的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

在上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述或记载的部分，可以参见其它实施例的相关描述。

本领域普通技术人员可以意识到，结合本文中所公开的实施例描述的各实例的单元及算法步骤，能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟是以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同法来实现所描述的功能，但是这种实现不应认为超出本发明的范围。

在本发明所提供的实施例中，应该理解到，所揭露的系统/终端设备和方法，可以通过其它的方式实现。例如，以上所描述的系统/终端设备实施例仅仅是示意性的，例如，上述模块或单元的划分，仅仅为一种逻辑功能划分，实际实现时可以由另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。

上述集成的模块/单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读存储介质中。基于这样的理解，本发明实现上述实施例方法中的全部或部分流程，也可以通过计算机程序来指令相关的硬件来完成，上述计算机程序可存储于一计算机可读存储介质中，该计算机程序在被处理器执行时，可实现上述各个方法实施例的步骤。其中，上述计算机程序包括计算机程序代码，上述计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。上述计算机可读介质可以包括：能够携带上述计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，RandomAccess Memory)、电载波信号、电信信号以及软件分发介质等。需要说明的是，上述计算机可读存储介质包含的内容可以根据司法管辖区内立法和专利实践的要求进行适当的增减。

以上所述实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解；其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不是相应技术方案的本质脱离本发明各实施例技术方案的精神和范围，均应包含在本发明的保护范围之内。

Claims

1.一种事件检测方法，其特征在于，基于自注意力模型和多层感知器进行事件检测，所述事件检测方法包括：

获取待检测语句和事件类别序列，其中，所述事件类别序列中包括至少一种事件类别；

将所述待检测语句结合所述事件类别序列生成待检测数据；

获取所述自注意力模型和所述多层感知器，基于所述自注意力模型和所述多层感知器获取所述待检测语句对应的事件类别概率，其中，所述自注意力模型用于对所述待检测数据进行检测并输出待检测数据的语义向量，所述多层感知器用于基于所述事件类别序列对应的语义向量获取所述待检测语句对应的所述事件类别序列中各事件类别的概率。

2.根据权利要求1所述的事件检测方法，其特征在于，所述自注意力模型是需要进行训练的自注意力模型，所述多层感知器是需要进行训练的多层感知器，在所述基于所述自注意力模型和所述多层感知器获取所述待检测语句对应的各事件类别的概率之后，所述方法还包括：

获取所述待检测语句对应的标注事件类别；

基于所述事件类别概率和所述标注事件类别对所述自注意力模型和所述多层感知器进行参数调整。

3.根据权利要求1所述的事件检测方法，其特征在于，所述自注意力模型是已经训练完成的自注意力模型，所述多层感知器是已经完成训练的多层感知器，在所述基于所述自注意力模型和所述多层感知器获取所述待检测语句对应的各事件类别的概率之后，所述方法还包括：

基于所述事件类别概率获取所述待检测语句对应的目标事件类别。

4.根据权利要求2或3所述的事件检测方法，其特征在于，所述获取待检测语句和事件类别序列，包括：

获取待检测语句；

获取所有事件类别，基于所有所述事件类别获取事件类别序列，其中，所述事件类别序列中的所有事件类别按照随机顺序排列。

5.根据权利要求1所述的事件检测方法，其特征在于，所述事件类别序列中的每一个事件类别的两边设置有预设标记符号。

6.根据权利要求4所述的事件检测方法，其特征在于，所述将所述待检测语句结合所述事件类别序列生成待检测数据，包括：

将所述事件类别序列拼接在所述待检测语句之后；

对所述待检测语句中的每一个词以及所述事件类别序列中的每一个事件类别进行位置编码和词编码，获得所述待检测数据。

7.根据权利要求4所述的事件检测方法，其特征在于，所述将所述待检测语句结合所述事件类别序列生成待检测数据，包括：

将所述事件类别序列拼接在所述待检测语句之前；

8.根据权利要求6或7所述的事件检测方法，其特征在于，所述基于所述自注意力模型和所述多层感知器获取所述待检测语句对应的事件类别概率，包括：

将所述待检测数据输入所述自注意力模型，获取所述自注意力模型输出的语义向量，其中，所述语义向量是所述自注意力模型的输出数据中与各所述事件类别对应的语义向量，所述语义向量体现所述待检测语句与各所述事件类别之间的关系；

将所述语义向量输入所述多层感知器，获取所述多层感知器输出的各个事件类别概率，其中，所述事件类别概率与所述事件类别一一对应。

9.根据权利要求3所述的事件检测方法，其特征在于，所述基于所述事件类别概率获取所述待检测语句对应的目标事件类别，包括：

基于所述事件类别概率和预设的概率阈值获取所述目标事件类别，其中，所述目标事件类别对应的事件类别概率大于所述概率阈值。

10.一种事件检测系统，其特征在于，所述事件检测系统基于自注意力模型和多层感知器进行事件检测，所述事件检测系统包括：

待检测语句获取模块，用于获取待检测语句和事件类别序列，其中，所述事件类别序列中包括至少一种事件类别；

待检测数据获取模块，用于将所述待检测语句结合所述事件类别序列生成待检测数据；

检测模块，用于获取所述自注意力模型和所述多层感知器，基于所述自注意力模型和所述多层感知器获取所述待检测语句对应的事件类别概率，其中，所述自注意力模型用于对所述待检测数据进行检测并输出待检测数据的语义向量，所述多层感知器用于基于所述事件类别序列对应的语义向量获取所述待检测语句对应的所述事件类别序列中各事件类别的概率。

11.一种智能终端，其特征在于，所述智能终端包括存储器、处理器以及存储在所述存储器上并可在所述处理器上运行的事件检测程序，所述事件检测程序被所述处理器执行时实现如权利要求1-9任意一项所述事件检测方法的步骤。

12.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质上存储有事件检测程序，所述事件检测程序被处理器执行时实现如权利要求1-9任意一项所述事件检测方法的步骤。