CN111428511A

CN111428511A - 一种事件检测方法和装置

Info

Publication number: CN111428511A
Application number: CN202010169229.3A
Authority: CN
Inventors: 徐猛; 付骁弈
Original assignee: Beijing Mininglamp Software System Co ltd
Current assignee: Beijing Mininglamp Software System Co ltd
Priority date: 2020-03-12
Filing date: 2020-03-12
Publication date: 2020-07-17
Anticipated expiration: 2040-03-12
Also published as: CN111428511B

Abstract

本申请公开了一种事件检测方法和装置，包括：获得语句的向量化语义表示W1；对向量化语义表示W1进行span划分，得到多个语义片段；对多个语义片段进行平均池化，得到每个span的表示W2；使用自注意力机制对获得的每个span的表示W2进行计算，得到每个span的新的语义表示W3；对新的语义表示W3进行span分类，确定每个span是否为一个事件的触发词或事件主体。通过该实施例方案，能够获取更加有用的信息，具有较强的实际应用价值；不使用现有的自然语言处理工具，操作简单，避免了因使用自然语言处理工具而导致的误差累积的问题，通过划分span的方式完美解决了序列标注存在的问题，效率更高，适用性更强。

Description

一种事件检测方法和装置

技术领域

本文涉及事件数据处理技术，尤指一种事件检测方法和装置。

背景技术

互联网上每天都会产生大量的新闻数据，描述许多已经发生的事件。但由于事件种类繁多，无法快速而且准确地分辨事件的类型以及事件中的主体。

对发生的公共事件或者特定行业内所发生的事件进行区分和主体识别，不仅有助于实时把握事件的发展趋势以及整个行业的发展方向，也可辅助高层决策，降低风险，具有重要的实际应用价值和研究意义。

现有进行事件检测的方法大都辅助使用已有的自然语言处理工具，但是在实际应用中并不能通过这些工具预先处理好。

事件的类型往往可以从一些关键词中获取，比如”枪杀”，“袭击”等，这类词就被称为触发词。因此快速准确地识别出这些触发词就极其重要。

现有的识别方法：[1]基于图神经网络的模型；[2]基于深度学习、注意力机制、序列标注的模型等。

现有方法存在以下缺点：

1、现有方法只进行事件类型检测即事件触发词，并没有进行事件主体抽取，任务单一，不具备较强的实际应用价值。

2、现有方法大都使用特定的自然语言处理工具，如Jieba,ltp,standfordNLP等首先对句子进行分词，建立依存树，然后再将这些特征输入模型。缺点在于：首先处理繁琐，其次这些工具在处理的过程中本身具有一定的误差，因此在后续建模分析的过程中会存在误差累积的问题。

3、基于序列标注的一系列模型很难解决事件主体存在交叉的情况，比如“北京的法院”为一个事件主体(机构)，但是“北京”本身也是一种主体/实体(地名)。

发明内容

本申请提供了一种事件检测方法和装置，能够获取更加有用的信息，具有较强的实际应用价值；在数据处理和建模的过程中操作简单，避免了因使用自然语言处理工具而导致的误差累积的问题；通过划分span的方式，完美解决了序列标注存在的问题，效率更高，适用性更强。

本申请提供了一种事件检测方法，所述方法可以包括：

获得语句的向量化语义表示W1；

对所述向量化语义表示W1进行span划分，得到多个语义片段；

对多个语义片段进行平均池化，得到每个span的表示W2；

使用自注意力机制对获得的每个span的表示W2进行计算，得到每个span的新的语义表示W3；

对所述新的语义表示W3进行span分类，确定每个span是否为一个事件的触发词或事件主体。

在本申请的示例性实施例中，所述获得语句的向量化语义表示W1可以包括：通过双向LSTM网络模型或BERT模型获得语句的向量化语义表示W1。

在本申请的示例性实施例中，在通过双向LSTM网络获得语句的向量化语义表示W1之前，所述方法还可以包括：

将语句中的m个字符随机初始化为一个维度为[m，n]的n维向量D，其中，对于从0到m-1的索引id，每个id对应一个不同的字符；

对于长度为S的语句，该语句中每一个字符能够在向量D中找到对应的id，从而获得维度为[S，D]的向量。

在本申请的示例性实施例中，通过双向lstm网络获得语句的向量化语义表示W1可以包括：

将维度为[S，D]的向量输入预设的双向LSTM神经网络，将所述双向LSTM神经网络的输出作为语句的向量化语义表示W1。

在本申请的示例性实施例中，通过BERT模型获得语句的向量化语义表示W1可以包括：

将语句直接输入所述BERT模型，将所述BERT模型的输出作为语句的向量化语义表示W1。

在本申请的示例性实施例中，所述向量化语义表示W1的维度可以为[S，D1]；

其中，当通过双向LSTM网络获得语句的向量化语义表示W1时，D1为2*LSTM隐层节点数；当通过BERT模型获得语句的向量化语义表示W1时，D1＝768。

在本申请的示例性实施例中，所述方法还可以包括：

预先将触发词的类型划分为x种，将事件主体的类型划分为y种，其中，x、y均为正整数；

在获得语句的向量化语义表示W1之前，根据设定的span宽度，对语句进行span划分，以将语句划分为多个span，并对每个span进行标记；其中，每个标记表示x+y+1种类型中的任意一种，1表示所述触发词的类型和所述事件主体的类型以外的其他类型。

在本申请的示例性实施例中，所述对所述向量化语义表示W1进行span划分，得到多个语义片段可以包括：

获取设定的span的最大宽度max_span_width；

根据span的宽度从1到max_span_width依次在所述向量化语义表示W1上进行选取，获得多个span的语义表示span_embedding。

在本申请的示例性实施例中，所述对所述新的语义表示W3进行span分类可以包括：使用两层全连接神经网络和softmax层对每个span进行分类；

其中，在训练阶段，将分类结果与带有标记的span进行误差计算和反向传播。

本申请还提供了一种事件检测装置，可以包括处理器和计算机可读存储介质，所述计算机可读存储介质中存储有指令，当所述指令被所述处理器执行时，实现上述任意一项所述的事件检测方法。

与相关技术相比，本申请可以包括：获得语句的向量化语义表示W1；对所述向量化语义表示W1进行span划分，得到多个语义片段；对多个语义片段进行平均池化，得到每个span的表示W2；使用自注意力机制对获得的每个span的表示W2进行计算，得到每个span的新的语义表示W3；对所述新的语义表示W3进行span分类，确定每个span是否为一个事件的触发词或事件主体。通过该实施例方案，能够同时抽取事件触发词和事件的主体，可获取更加有用的信息，具有较强的实际应用价值；在数据处理和建模的过程中不使用现有的自然语言处理工具，使得操作简单，也避免了因使用自然语言处理工具而导致的误差累积的问题，同时也更加符合真实应用场景；通过划分span的方式，完美解决了序列标注存在的问题，效率更高，适用性更强。

本申请的其它特征和优点将在随后的说明书中阐述，并且，部分地从说明书中变得显而易见，或者通过实施本申请而了解。本申请的其他优点可通过在说明书以及附图中所描述的方案来实现和获得。

附图说明

附图用来提供对本申请技术方案的理解，并且构成说明书的一部分，与本申请的实施例一起用于解释本申请的技术方案，并不构成对本申请技术方案的限制。

图1为本申请实施例的事件检测方法流程图；

图2为本申请实施例的事件检测装置组成框图。

具体实施方式

本申请描述了多个实施例，但是该描述是示例性的，而不是限制性的，并且对于本领域的普通技术人员来说显而易见的是，在本申请所描述的实施例包含的范围内可以有更多的实施例和实现方案。尽管在附图中示出了许多可能的特征组合，并在具体实施方式中进行了讨论，但是所公开的特征的许多其它组合方式也是可能的。除非特意加以限制的情况以外，任何实施例的任何特征或元件可以与任何其它实施例中的任何其他特征或元件结合使用，或可以替代任何其它实施例中的任何其他特征或元件。

本申请包括并设想了与本领域普通技术人员已知的特征和元件的组合。本申请已经公开的实施例、特征和元件也可以与任何常规特征或元件组合，以形成由权利要求限定的独特的发明方案。任何实施例的任何特征或元件也可以与来自其它发明方案的特征或元件组合，以形成另一个由权利要求限定的独特的发明方案。因此，应当理解，在本申请中示出和/或讨论的任何特征可以单独地或以任何适当的组合来实现。因此，除了根据所附权利要求及其等同替换所做的限制以外，实施例不受其它限制。此外，可以在所附权利要求的保护范围内进行各种修改和改变。

此外，在描述具有代表性的实施例时，说明书可能已经将方法和/或过程呈现为特定的步骤序列。然而，在该方法或过程不依赖于本文所述步骤的特定顺序的程度上，该方法或过程不应限于所述的特定顺序的步骤。如本领域普通技术人员将理解的，其它的步骤顺序也是可能的。因此，说明书中阐述的步骤的特定顺序不应被解释为对权利要求的限制。此外，针对该方法和/或过程的权利要求不应限于按照所写顺序执行它们的步骤，本领域技术人员可以容易地理解，这些顺序可以变化，并且仍然保持在本申请实施例的精神和范围内。

在本申请的示例性实施例中，在介绍本申请实施例方案之前，可以首先对本申请实施例涉及的术语进行介绍：

1、事件类型及定义：

事件类型是指不同的事件所属的类别，比如在金融领域有“实控人股东变更”、“信批违规”、“财务造假”等事件类型。事件类型的定义一般由该领域的专家或经验人士来确定。

2、触发词：

触发词是指能够清楚的表明事件类型的一些词汇，比如“枪杀”、“袭击”、“见面”等。

3、事件主体以及定义：

事件主体是指事件发生的主要参与方，也是与该事件联系最为紧密的一方，定义为实体。如：“XX科技实际控制人变更YY集团”、“ZZ集团已经资不抵债将进行破产重整”，这些事件中，“XX科技”即为该事件的主体，类型为“机构”，事件主体可以定义为多种实体类型，比如人名、地名、组织机构名、时间等。

4、事件检测与主体抽取：

事件检测与主体抽取即为同时抽取事件的触发词和事件的主体。

5、注意力机制：

注意力机制的本质来自于人类视觉注意力机制。当人们发现一个场景经常在某部分出现自己想观察的东西时，人们会进行学习在将来再出现类似场景时把注意力放到该部分上。在计算某一序列表示时，注意力机制可以获得权重和序列位置的相关性。

6、自注意力机制：

自注意力机制是对注意力机制的改进，减少了对外部信息的依赖，更擅长捕捉数据或特征的内部相关性，无视词之间的距离直接计算依赖关系，能够学习一个句子的内部结构。

7、span：

span可认为是“一段区域，每个span具有一定的宽度”，就是对一段话进行固定长度的选取，比如一句话“我今天吃了面包，喝了牛奶”，如果span的宽度为2，则可以得到片段“我今”、“今天”、“天吃”等。

8、span的划分：

span的划分是指根据设定的span的最大宽度，从小到大依次进行划分。比如span最大宽度为8，则span的宽度为1-8，分别进行划分，可以得到多个span。

9、span的分类：

span的分类是指通过模型或特定的方法判断一条数据所属的类型即标签，一般而言，分类任务中的每条数据只属于一个类别。

本申请提供了一种事件检测方法，如图1所示，所述方法可以包括S101-S105：

S101、获得语句的向量化语义表示W1。

在本申请的示例性实施例中，在获得语句的向量化语义表示W1之前，可以首先对要进行事件抽取的数据进行预处理。

在本申请的示例性实施例中，所述方法还可以包括：

在本申请的示例性实施例中，假设触发词的类型(可以称为事件类型)数为n_event＝10，即x＝10，事件主体的类型(可以称为实体类型)数为n_entity＝20，即y＝20，则一共有10+20＝30种类型。

在本申请的示例性实施例中，可以首先对数据进行span的划分。以单个句子为例，假如设定span的最大宽度max_span_width＝8，则可以得到多个span，需要对每个span进行标记，即确定每个span是否是触发词、事件主体还是其他类型(other类型)。在进行分类时，一共有30种类型，加上other类型一共31种，每种类型与某一数字对应，以便于计算机的处理，则可以分别标记为[0,1,2,3,4,...,29,30]。

在本申请的示例性实施例中，因计算机无法直接处理中文，因此可以将句子(语句)中每一个单词转化为数字的映射。即，获得语句的向量化语义表示W1。

在本申请的示例性实施例中，假设语料中一共有20000个不同的字符(汉字和/或单词，可以包括其他常用符号)，每个字符可以随机初始化为一个300维的向量，则可以得到一个维度为[20000,300]的向量D，其中对于索引id从0至19999，每个id对应一个不同的汉字。那么对于一句话(长度为S)中的每一个字符，都可以在D中找到对应的id，从而获取对应的向量，因此可以得到一个维度为[S,300]的向量。然后可以使用双向LSTM神经网络得到句子的语义表示向量W1。

在本申请的示例性实施例中，使用BERT模型时，可以将句子直接输入至BERT模型，BERT模型的输出即可以作为句子的向量化语义表示W1。

在本申请的示例性实施例中，设以上两种方法得到的语义表示为W1，则,1的维度为[S,D1]，其中S为句子长度；如果使用双向LSTM网络获得语句的向量化语义表示W1，则D1为2*LSTM隐层节点数，如果使用BERT模型获得语句的向量化语义表示W1，则D1＝768。

S102、对所述向量化语义表示W1进行span划分，得到多个语义片段。

获取设定的span的最大宽度max_span_width；

在本申请的示例性实施例中，可以根据设定的span的最大宽度max_span_width＝8对步骤S101得到的语义表示W1进行划分。划分方法可以包括：span的宽度从1至max_span_width依次在向量W1上进行选取，得到N个span的语义表示，即span_embedding。

S103、对多个语义片段进行平均池化，得到每个span的表示W2。

在本申请的示例性实施例中，因每个span的宽度不一样(span_embedding的维度可以为[sw,D1],其中sw取值为1～max_span_width)，因此可以对这N个span的语义表示进行平均池化处理，从而得到这N个span的表示W2，W2的维度可以为[N,D1]。

S104、使用自注意力机制对获得的每个span的表示W2进行计算，得到每个span的新的语义表示W3。

在本申请的示例性实施例中，该自注意力机制可以为自注意力加权计算。

在本申请的示例性实施例中，可以将步骤S103所得的span的表示W2通过自注意力机制(自注意力加权计算)计算得到新的表示W4，将W2与W4进行横向拼接得到最终的语义表示W3，W3的维度可以为[N,2*D1]。

在本申请的示例性实施例中，自注意力机制计算具体可以包括：将W2分别进行多次(如三次)线性变换得到W21、W22、W23,然后可以执行矩阵相乘运算得到W4＝(W22*W23T)*W21，W3＝W2||W4。

S105、对所述新的语义表示W3进行span分类，确定每个span是否为一个事件的触发词或事件主体。

在本申请的示例性实施例中，得到步骤S104的span的表示W3后，可以使用两层全连接神经网络和softmax层对span进行分类。

在本申请的示例性实施例中，如果如步骤S101中所述，预先对数据进行了预处理，即预先对数据进行了span分类和标记，则在训练阶段，可以将分类结果与预处理过程所得的带有标记的span进行误差计算和反向传播，并进行参数更新操作完成训练过程。

在本申请的示例性实施例中，在预测阶段，根据分类的结果即可得到每个span的类型。softmax的输出是每个span所属对应类型(预处理过程获得的带类型标记的span)的概率，可以获取概率最大值的索引所对应的类型即可。

本申请实施例通过双向lstm网络或者bert得到句子的向量化语义表示，然后进行span的划分从而得到多个语义片段，然后对每个语义片段进行平均池化得到每个span的表示，使用自注意力机制获取不同span之间的关系从而得到深层的语义表示，最后使用两层全连接网络进行分类操作从而确定每个span是否为某一事件的触发词或者是事件主体。本申请实施例公开了一种采用span划分方式，同时抽取事件触发词和事件主体的事件检测方法，至少具有以下优势：

1、同时抽取事件触发词和事件的主体，可获取更加有用的信息，具有较强的实际应用价值。

2、在数据处理和建模的过程中不使用现有的自然语言处理工具，使得操作简单，也避免了因使用自然语言处理工具而导致的误差累积的问题，同时也更加符合真实应用场景。

3、通过划分span的方式，完美解决了序列标注存在的问题，效率更高，适用性更强。

本申请还提供了一种事件检测装置1，如图2所示，可以包括处理器11和计算机可读存储介质12，所述计算机可读存储介质12中存储有指令，当所述指令被所述处理器11执行时，实现上述任意一项所述的事件检测方法。

本领域普通技术人员可以理解，上文中所公开方法中的全部或某些步骤、系统、装置中的功能模块/单元可以被实施为软件、固件、硬件及其适当的组合。在硬件实施方式中，在以上描述中提及的功能模块/单元之间的划分不一定对应于物理组件的划分；例如，一个物理组件可以具有多个功能，或者一个功能或步骤可以由若干物理组件合作执行。某些组件或所有组件可以被实施为由处理器，如数字信号处理器或微处理器执行的软件，或者被实施为硬件，或者被实施为集成电路，如专用集成电路。这样的软件可以分布在计算机可读介质上，计算机可读介质可以包括计算机存储介质(或非暂时性介质)和通信介质(或暂时性介质)。如本领域普通技术人员公知的，术语计算机存储介质包括在用于存储信息(诸如计算机可读指令、数据结构、程序模块或其他数据)的任何方法或技术中实施的易失性和非易失性、可移除和不可移除介质。计算机存储介质包括但不限于RAM、ROM、EEPROM、闪存或其他存储器技术、CD-ROM、数字多功能盘(DVD)或其他光盘存储、磁盒、磁带、磁盘存储或其他磁存储装置、或者可以用于存储期望的信息并且可以被计算机访问的任何其他的介质。此外，本领域普通技术人员公知的是，通信介质通常包含计算机可读指令、数据结构、程序模块或者诸如载波或其他传输机制之类的调制数据信号中的其他数据，并且可包括任何信息递送介质。

Claims

1.一种事件检测方法，其特征在于，所述方法包括：

获得语句的向量化语义表示W1；

对所述向量化语义表示W1进行span划分，得到多个语义片段；

对多个语义片段进行平均池化，得到每个span的表示W2；

2.根据权利要求1所述的事件检测方法，其特征在于，所述获得语句的向量化语义表示W1包括：通过双向LSTM网络模型或BERT模型获得语句的向量化语义表示W1。

3.根据权利要求2所述的事件检测方法，其特征在于，在通过双向LSTM网络获得语句的向量化语义表示W1之前，所述方法还包括：

4.根据权利要求3所述的事件检测方法，其特征在于，通过双向lstm网络获得语句的向量化语义表示W1包括：

5.根据权利要求2所述的事件检测方法，其特征在于，通过BERT模型获得语句的向量化语义表示W1包括：

6.根据权利要求4或5所述的事件检测方法，其特征在于，所述向量化语义表示W1的维度为[S，D1]；

7.根据权利要求1所述的事件检测方法，其特征在于，所述方法还包括：

8.根据权利要求1所述的事件检测方法，其特征在于，所述对所述向量化语义表示W1进行span划分，得到多个语义片段包括：

获取设定的span的最大宽度max_span_width；

9.根据权利要求7所述的事件检测方法，其特征在于，所述对所述新的语义表示W3进行span分类包括：使用两层全连接神经网络和softmax层对每个span进行分类；

10.一种事件检测装置，包括处理器和计算机可读存储介质，所述计算机可读存储介质中存储有指令，其特征在于，当所述指令被所述处理器执行时，实现如权利要求1-9任意一项所述的事件检测方法。