CN111368175A

CN111368175A - 一种事件抽取方法和系统及实体分类模型

Info

Publication number: CN111368175A
Application number: CN202010461711.4A
Authority: CN
Inventors: 黄伟鹏; 徐军; 王峰
Original assignee: Alipay Hangzhou Information Technology Co Ltd
Current assignee: Alipay Hangzhou Information Technology Co Ltd
Priority date: 2020-05-27
Filing date: 2020-05-27
Publication date: 2020-07-03
Anticipated expiration: 2040-05-27
Also published as: CN111368175B

Abstract

本说明书实施例提供一种事件抽取方法和系统及实体分类模型。所述方法包括：获取待处理文本中的一个或多个实体，所述待处理文本为包含两个或以上句子的篇章级文本；确定所述一个或多个实体中每个实体的局部特征，所述局部特征反映实体与所述待处理文本中至少一个句子之间的关联关系；基于所述一个或多个实体的所述局部特征，确定每个实体的全局特征，所述全局特征反映实体与所述待处理文本的整体关联关系；对于所述一个或多个实体中每个实体，基于该实体的全局特征确定该实体的事件要素类型；基于所述一个或多个实体的事件要素类型，抽取所述待处理文本中的一个或多个事件以及对应的实体。

Description

一种事件抽取方法和系统及实体分类模型

技术领域

本说明书涉及自然语言处理领域，特别涉及一种事件抽取方法和系统及实体分类模型。

背景技术

为了快速获知文本涉及的主题或事件，可以通过计算机技术自动抽取相关主题的新闻报道、官方公告、研究报告等文章中的关键内容获得。但是，一篇文章中可能包含多个事件，且构成事件的要素（如时间、地点、人物等）可能分散在同一文章的不同句子中。

因此，期望提供一种篇章级的事件抽取方法和系统。

发明内容

本说明书的一个方面提供一种事件抽取方法。所述方法包括：获取待处理文本中的一个或多个实体，所述待处理文本为包含两个或以上句子的篇章级文本；确定所述一个或多个实体中每个实体的局部特征，所述局部特征反映实体与所述待处理文本中至少一个句子之间的关联关系；基于所述一个或多个实体的所述局部特征，确定每个实体的全局特征，所述全局特征反映实体与所述待处理文本的整体关联关系；对于所述一个或多个实体中每个实体，基于该实体的全局特征确定该实体的事件要素类型；基于所述一个或多个实体的事件要素类型，抽取所述待处理文本中的一个或多个事件以及对应的实体。

本说明书的另一方面提供一种事件抽取系统。所述系统包括：获取模块，用于获取待处理文本中的一个或多个实体，所述待处理文本为包含两个或以上句子的篇章级文本；第一确定模块，用于确定所述一个或多个实体中每个实体的局部特征，所述局部特征反映实体与所述待处理文本中至少一个句子之间的关联关系；第二确定模块，用于基于所述一个或多个实体的所述局部特征，确定每个实体的全局特征，所述全局特征反映实体与所述待处理文本的整体关联关系；分类模块，用于对于所述一个或多个实体中每个实体，基于该实体的全局特征确定该实体的事件要素类型；抽取模块，用于基于所述一个或多个实体的事件要素类型，抽取所述待处理文本中的一个或多个事件以及对应的实体。

本说明书的另一方面提供一种事件抽取装置，包括处理器，所述处理器用于执行如前所述的方法。

本说明书的另一方面提供一种计算机可读存储介质，所述存储介质存储计算机指令，当计算机读取存储介质中的计算机指令后，计算机执行如前所述的方法。

本说明书的另一方面提供一种实体分类模型。所述模型包括：前处理层，用于获取待处理文本及其中的一个或多个实体，所述待处理文本为包含两个或以上句子的篇章级文本；句子级注意力网络，用于确定所述一个或多个实体中每个实体的局部特征，所述局部特征反映实体与所述待处理文本中至少一个句子之间的关联关系；篇章级注意力网络，用于基于所述一个或多个实体的所述局部特征，确定每个实体的全局特征，所述全局特征反映实体与所述待处理文本的整体关联关系；分类层，用于对于所述一个或多个实体中每个实体，基于该实体的全局特征确定该实体的事件要素类型。

附图说明

本说明书将以示例性实施例的方式进一步说明，这些示例性实施例将通过附图进行详细描述。这些实施例并非限制性的，在这些实施例中，相同的编号表示相同的结构，其中：

图1是根据本说明书的一些实施例所示的事件抽取系统的应用场景示意图；

图2是根据本说明书的一些实施例所示的事件抽取方法的示例性流程图；

图3是根据本说明书的一些实施例所示的实体分类模型的示意图；

图4是根据本说明书的一些实施例所示的事件抽取系统的模块图。

具体实施方式

为了更清楚地说明本说明书实施例的技术方案，下面将对实施例描述中所需要使用的附图作简单的介绍。显而易见地，下面描述中的附图仅仅是本说明书的一些示例或实施例，对于本领域的普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图将本说明书应用于其它类似情景。除非从语言环境中显而易见或另做说明，图中相同标号代表相同结构或操作。

应当理解，本文使用的“系统”、“装置”、“单元”和/或“模组”是用于区分不同级别的不同组件、元件、部件、部分或装配的一种方法。然而，如果其他词语可实现相同的目的，则可通过其他表达来替换所述词语。

如本说明书和权利要求书中所示，除非上下文明确提示例外情形，“一”、“一个”、“一种”和/或“该”等词并非特指单数，也可包括复数。一般说来，术语“包括”与“包含”仅提示包括已明确标识的步骤和元素，而这些步骤和元素不构成一个排它性的罗列，方法或者设备也可能包含其它的步骤或元素。

虽然本说明书对根据本说明书的实施例的系统中的某些模块或单元做出了各种引用，然而，任何数量的不同模块或单元可以被使用并运行在客户端和/或服务器上。所述模块仅是说明性的，并且所述系统和方法的不同方面可以使用不同模块。

本说明书中使用了流程图用来说明根据本说明书的实施例的系统所执行的操作。应当理解的是，前面或后面操作不一定按照顺序来精确地执行。相反，可以按照倒序或同时处理各个步骤。同时，也可以将其他操作添加到这些过程中，或从这些过程移除某一步或数步操作。

本说明书实施例提供一种篇章级的事件抽取方法。在一些实施例中，该事件抽取方法可以对待处理文本进行整体分析，抽取文章中涉及的事件以及事件对应的实体，以便快速获取待处理文本涉及的主题内容，或者基于抽取的事件及其实体构成事理图谱，为事件演化规律和发展逻辑的研究提供知识依据。不同于句子级事件抽取方法仅对待处理文本中单一句子涉及的事件进行抽取，篇章级事件抽取方法可以获取待处理文本中单一句子特征的同时，额外考虑跨句子或跨文档的特征，不仅能提高单一事件内容抽取的全面性，还能实现多事件抽取。在本说明书一些实施例中，可以利用层次注意力机制网络结构获取待处理文本中实体的局部特征（即句子特征）和全局特征（即跨句子特征），以实现篇章级的事件抽取。

图1是根据本说明书的一些实施例所示的事件抽取系统的应用场景示意图。

事件抽取系统100可以用于抽取出篇章中涉及的事件实例。在一些实施例中，事件抽取系统100可以基于层次注意力机制的网络结构抽取篇章中的事件实例。事件抽取系统100可以是一个线上平台，其可以包括服务器110、网络120、用户终端130、数据库140以及其他数据源150。

服务器110可以用于管理资源以及处理来自本系统至少一个组件或外部数据源（例如，云数据中心）的数据和/或信息。例如，服务器110可以获取来自用户终端130上传的篇章级待处理文本，并通过网络120将抽取结果返回给用户终端130。在一些实施例中，服务器110可以是一个单个的服务器或者一个服务器群。服务器群可以是集中式的或分布式的(例如，服务器110可以是一分布式的系统)。在一些实施例中，服务器110可以是本地的或远程的。在一些实施例中，服务器110可以在一个云端平台上实现，或者以虚拟方式提供。仅仅作为示例，云端平台可以包括私有云、公共云、混合云、社区云、分布云、跨云、多云等或上述举例的任意组合。在一些实施例中，服务器110可以在一个计算设备上实现，该计算设备可以包括一个或多个部件。

在一些实施例中，服务器110可以包括处理设备112。处理设备112可以处理与事件抽取相关的信息和/或数据以执行本说明书中描述的一个或多个功能。例如，处理设备112可以基于从用户终端130获取的新闻报道、公众号文章、官方数据等篇章，通过层次级注意力网络抽取篇章中可能涉及的事件实例。在一些实施例中，处理设备112可以包括一个或多个处理器(例如，单晶片处理器或多晶片处理器)。仅仅作为示例，处理设备112可以包括一个或多个硬件处理器，例如中央处理器(CPU)、专用积体电路(ASIC)、专用指令集处理器(ASIP)、图像处理单元(GPU)、物理运算处理单元(PPU)、数位讯号处理器(DSP)、现场可编程门阵列(FPGA)、可编程逻辑装置(PLD)、控制器、微控制器单元、精简指令集电脑(RISC)、微处理器等或上述举例的任意组合。

网络120可以连接系统100的各组成部分和/或连接系统100与外部资源部分。网络120使得各组成部分之间，以及与系统100之外其他部分之间可以进行通讯，促进数据和/或信息的交换。在一些实施例中，网络120可以是有线网络或无线网络中的任意一种，或其组合。仅仅作为示例，网络120可以包括电缆网络、有线网络、光纤网络、远端通信网络、内联网、互联网、局域网(LAN)、广域网(WAN)、无线局域网(WLAN)、城域网(MAN)、广域网(WAN)、公共开关电话网络(PSTN)、蓝牙网络、ZigBee网络、近场通信(NFC)网络等或上述举例的任意组合。在一些实施例中，网络120可以包括一个或多个网络交换点。例如，网络120可以包括有线或无线网络交换点，如基站和/或互联网交换点120-1、120-2、……，通过交换点，事件抽取系统100的一个或多个部件可以连接到网络120以交换数据和/或信息。

用户终端130可以用于输入和/或获取数据和/或信息。例如，用户可以通过用户终端130输入要公告的文章或信息等。在一些实施例中，用户终端130可以包括移动装置130-1、平板电脑130-2、膝上型电脑130-3等或上述举例的任意组合。

数据库140可以用于储存数据和/或指令。例如，可以存储本说明书相关模型的训练数据，或者存储训练好的模型参数，又或者可以存储抽取得到的事件及其相关实体。在一些实施例中，数据库140可以在单个中央服务器、通过通信链路连接的多个服务器或多个个人设备中实现。在一些实施例中，数据库140可以包括大容量存储器、可移动存储器、挥发性读写存储器（例如，随机存取存储器（RAM）、只读存储器(ROM)等或上述举例的任意组合。示例性的大容量存储器可以包括磁盘、光盘、固态磁盘等。在一些实施例中，数据库140可以在一个云端平台上实现。仅仅作为示例，云端平台可以包括私有云、公共云、混合云、社区云、分布云、跨云、多云等或上述举例的任意组合。

其他数据源150可以用于为系统100提供其他信息的一个或多个来源。在一些实施例中，其他数据源150可以包括一个或多个设备、一个或多个应用程序接口、一个或多个数据库查询接口、一个或多个基于协议的信息获取接口、或其他可获取信息的方式等，或上述方式中两种或多种的组合。在一些实施例中，数据源提供的信息可以包括在提取信息时已存在的、在提取信息时临时生成的，或上述方式的组合。在一些实施例中，其他数据源150可以用于为系统100提供实事文章等数据。

在一些实施例中，服务器110、用户终端130以及其他可能的系统组成部分中可以包括数据库140。在一些实施例中，服务器110、用户终端130以及其他可能的系统组成部分中可以包括处理设备112。

图2是根据本说明书的一些实施例所示的事件抽取方法的示例性流程图。

如图2所示，事件抽取方法200可以由处理设备112实现，其包括：

步骤210，获取待处理文本中的一个或多个实体。在一些实施例中，步骤210可以由获取模块410执行。

待处理文本可以为包含两个或以上句子的篇章级文本。句子是指由词、词组（短语）构成的，可以表达一个完整意思的文本。在一些实施例中，句子可以包括但不限于汉字、字符、符号、数字等一种或多种。在一些实施例中，待处理文本可以包括由多个句子组成的金融类文章。例如，待处理文本可以为与股市行情、物价上涨、通货膨胀、市场经济等主题相关的文章。在一些实施例中，待处理文本可以为其他行业或专业领域的文章，本说明书对此不做限制。在一些实施例中，待处理文本可以包括新闻资讯、官方通知/公告、研究报告等类型的文章。在一些实施例中，处理设备可以从用户终端130、和/或数据库140、和/或其他数据源150获取待处理文本。在一些实施例中，处理设备可以从开源数据库中获取待处理文本。例如，处理设备可以从公众号、期刊、报纸、杂志、新闻播报、博客、数据库等渠道获取待处理文本。

实体可以用于反映待处理文本中包含的事件要素。例如，实体可以包括但不限于待处理文本中包含的人物、时间、地点等中的一种或多种。在一些实施例中，实体可以包括数字、词、词组等一种或多种。在一些实施例中，处理设备可以通过序列标注方法获取待处理文本中的一个或多个实体。例如，处理设备可以将待处理文本的一个或多个句子作为输入数据，利用序列标注网络获取待处理文本中包含的实体。在一些实施例中，序列标注网络可以包括但不限于LSTM-CRF网络、BERT-CRF网络、BERT-Softmax网络等。更多关于序列标注方法的内容可以参见本说明书其他部分（如图3及其相关描述），在此不再赘述。在一些替代性实施例中，处理设备可以通过其他方法获取待处理文本中的实体，本说明书对此不做限制。

步骤220，确定每个实体的局部特征。在一些实施例中，步骤220可以由第一确定模块420执行。

局部特征可以反映实体与待处理文本中至少一个句子之间的关联关系。对于待处理文本一个或多个实体中的每个实体，处理设备可以基于实体、以及待处理文本中与实体相关的一个或多个句子，确定该实体的局部特征。具体地，处理设备可以将实体、以及与该实体相关的待处理文本中的一个或多个句子作为输入数据，通过文本嵌入处理确定该实体的一个或多个句子关联特征，基于所述一个或多个句子关联特征，确定该实体的局部特征。在一些实施例中，待处理文本中与实体相关的一个或多个句子可以为待处理文本中包含该实体的句子。在一些实施例中，在通过序列标注方法获取待处理文本中的一个或多个实体时，可以将出现该实体的句子进行标记，又或者将获取到的实体与待处理文本中的各句子进行匹配，确定包含该实体的句子，例如，图2中215所示。待处理文本中与实体相关的一个或多个句子可以通过任意可行的方式获得，本说明书对此不做限制。在一些实施例中，句子关联特征可以反映实体与该句子之间的关联关系。在一些实施例中，文本嵌入处理可以通过BERT模型、Doc2vec模型等实现。

在一些实施例中，处理设备可以将实体、以及与该实体相关的待处理文本中的一个或多个句子，分别组合，将一个或多个组合结果依次输入到文本嵌入网络，得到一个或多个句子关联特征。在一些实施例中，处理设备可以将实体、以及与该实体相关的待处理文本中的一个或多个句子，同时输入到文本嵌入网络，得到一个或多个句子关联特征。在一些实施例中，文本嵌入网络可以包括BERT模型。在一些实施例中，处理设备可以通过将实体对应的一个或多个句子关联特征进行最大池化处理，得到该实体的局部特征。例如，处理设备可以将实体对应的一个或多个句子关联特征输入最大池化网络，得到该实体的局部特征。

在一些实施例中，处理设备可以利用句子级注意力网络确定每个实体的局部特征。在一些实施例中，句子级注意力网络可以包括文本嵌入层和最大池化层。关于句子级注意力网络的更多内容可以参见本说明书其他部分（例如，图3及其相关描述），在此不再赘述。

步骤230，确定每个实体的全局特征。在一些实施例中，步骤230可以由第二确定模块430执行。

全局特征可以反映实体与待处理文本的整体关联关系。例如，全局特征可以为某个实体与待处理文本中包含该实体的句子、以及待处理文本中其他实体和/或包含其他实体的句子之间的依存关系等。对于待处理文本的一个或多个实体中的每个实体，处理设备可以基于该实体的局部特征、以及该实体与其他至少一个实体之间的相关性，确定该实体的全局特征。

在一些实施例中，处理设备可以通过循环神经网络和/或图卷积神经网络，确定实体的全局特征。例如，处理设备可以将多个实体的局部特征作为输入数据，通过循环神经网络提取每个实体与位于其前面的实体之间的相关性，从而获得各实体的全局特征。又例如，处理设备可以将多个实体的局部特征作为输入数据，通过图卷积神经网络提取每个实体彼此之间的邻接关系，进而获得每个实体的全局特征。在一些实施例中，循环神经网络可以包括Transformer网络，图卷积神经网络可以包括GAT网络。关于循环神经网络和图卷积神经网络的更多内容可以参见本说明书其他部分（例如，图3及其相关描述），在此不再赘述。

在一些替代性实施例中，处理设备可以通过其他可行的方式获得每个实体的全局特征，本说明书对此不做限制。

步骤240，对于每个实体，确定该实体的事件要素类型。在一些实施例中，步骤240可以由分类模块440执行。

事件可以包括字、词、词组、数值等一种或多种组成的，可以表达一个完整意思的文本，其可以包含人物、时间、地点、发生了什么等关键信息。事件要素类型可以反映实体在事件中的信息类型。例如，事件要素类型可以反映实体是属于事件中的名称、或公告时间、或受理法院、或标的金额等。在一些实施例中，针对某一特定的领域，如金融领域，可以预先确定若干事件以及每个事件下面的事件要素类型。仅作为示例，预先确定的事件可以包括“股权质押”、“破产清算”等。对于“股权质押”事件，其又可以具有“质押人”、“质押股份”、“质权人”等事件要素类型。对于“破产清算”事件，其进一步可以包括“受理法院”、“公司名称”、“公告事件”等事件要素类型。

对于每个实体，处理设备可以基于该实体的全局特征确定该实体的事件要素类型。在一些实施例中，处理设备可以通过分类网络确定实体的事件要素类型。例如，对于一个或多个实体中的每个实体，处理设备可以将该实体的全局特征作为输入数据，通过分类网络获得该实体属于各事件要素类型的概率值，进而基于概率值的阈值条件确定该实体的事件要素类型。例如，可以将概率值最大的事件要素类型确定为该实体的事件要素类型。在一些实施例中，分类网络可以由全连接层等实现。更多关于分类网络的内容可以参见本说明书其他部分（例如，图3及其相关描述），在此不再赘述。

在一些替代性实施例中，处理设备可以通过其他可行的方式确定实体的事件要素类型，本说明书对此不做限制。

步骤250，抽取待处理文本中的一个或多个事件以及对应的实体。在一些实施例中，步骤250可以由抽取模块450执行。

处理设备可以基于待处理文本中每个实体的事件要素类型，抽取待处理文本中的事件实例以及对应的实体。例如，处理设备可以基于实体的事件要素类型，抽取属于同一事件的事件要素类型对应的实体为一个事件实例。在一些实施例中，待处理文本中的实体可能属于不同的事件，由此，可以同时得到多个事件实例。

应当注意的是，上述有关方法200的描述仅仅是为了示例和说明，而不限定本说明书的适用范围。对于本领域技术人员来说，在本说明书的指导下可以对方法200进行各种修正和改变。然而，这些修正和改变仍在本说明书的范围之内。例如，步骤240与步骤250可合并。

在一些实施例中，方法200可以通过一个端到端的机器学习模型，如实体分类模型，实现。即，实体分类模型直接接收待处理文本，输出待处理文本中的实体以及其分属的事件要素类型。

图3是根据本说明书的一些实施例所示的实体分类模型的示意图。

如图3所示，实体分类模型300可以包括前处理层310、句子级注意力网络320、篇章级注意力网络330以及分类层340。在一些实施例中，实体分类模型300可以用于对待处理文本进行分析，抽取待处理文本中的实体以及实体所属的事件要素类型。具体地：

前处理层310可以用于获取待处理文本及其中的一个或多个实体。

在一些实施例中，前处理层310可以接收来自数据库（例如，数据库140、其他数据源150等）或用户终端（如用户终端130）的待处理文本。在一些实施例中，前处理层310可以提取待处理文本中的一个或多个句子，基于一个或多个句子获取其中的一个或多个实体，例如，实体e₁、e₂、…、e_n等。在一些实施例中，前处理层310可以包括序列标注网络。在一些实施例中，序列标注网络的输入可以为待处理文本的一个或多个句子，输出可以为句子中包含的一个或多个实体。在一些实施例中，序列标注网络可以包括但不限于LSTM-CRF网络、BERT-CRF网络、BERT-Softmax网络等。

句子级注意力网络320可以用于确定实体的局部特征。

在一些实施例中，句子级注意力网络320可以包括文本嵌入层SAN和最大池化层M。SAN可以对输入的实体以及与实体相关的一个或多个句子进行编码，获得表示该实体与句子之间关系的句子关联特征；基于一个或多个句子关联特征，通过最大池化层M可以获得实体的局部特征。文本嵌入层可以为BERT模型、Doc2vec模型等任何能够将文本转化为向量的网络结构，本说明书对此不做限制。利用最大池化层，可以通过分析实体对应的一个或多个句子关联特征，获得最能够体现实体与待处理文本中句子之间关联关系的特征表示向量。

在一些实施例中，SAN的输入可以为实体以及待处理文本中与实体相关的句子，输出可以为实体的句子关联特征表示向量。具体地，对于一个或多个实体中的每个实体，可以将实体、以及与该实体相关的待处理文本中的一个或多个句子，分别组合，将一个或多个组合结果依次输入到SAN中，获得该实体的一个或多个句子关联特征表示向量。例如，可以将实体e₁、以及多个与e₁相关的待处理文本中的句子

、…、

分别组合并依次输入SAN，通过SAN获得实体e₁对应的多个句子关联特征向量

、…、

，然后通过最大池化层M获得实体e₁的局部特征表示向量

。其中，

和

中的上标1表示第1个实体，下标k表示待处理文本中与实体e₁相关的第k个句子；

中1表示第1个实体，s表示句子。

每个实体以及待处理文本中与其相关的一个或多个句子可以输入具有相同参数的句子级注意力网络，或者使用同一个句子级注意力网络依次处理待处理文本中的每个实体及其相关的句子，以简化实体分类模型的网络结构，以及减少模型的参数。

篇章级注意力网络330可以用于确定每个实体的全局特征。

在一些实施例中，篇章级注意力网络330可以包括循环神经网络335和/或图卷积神经网络337。为方便理解，将以篇章级注意力网络330同时包括循环神经网络335和图卷积神经网络337（如图3中所示）为例进行说明。

循环神经网络DAN的输入可以为实体的局部特征，输出可以为实体的全局特征。具体地，待处理文本中一个或多个实体的局部特征表示向量作为输入数据，循环神经网络基于每个实体的局部特征表示向量，通过分析每个实体与在其前面输入的实体之间的相关性，输出每个实体对应的全局特征表示向量。例如，实体e₁、e₂、…、e_n对应的局部特征表示向量

、

、…、

依次输入循环神经网络后，循环神经网络可以依次输出实体e₁、e₂、…、e_n对应的第一全局特征表示向量

、

、…、

。其中，

中d即document，对应待处理文本。可以理解，对于第一全局特征表示向量

，其除了包含局部特征表示向量

携带的信息外，还携带有其前面n-1个局部特征表示向量

、

、…、

携带的信息。在一些实施例中，循环神经网络可以包括Transformer网络、长短期记忆网络（LSTM，Long Short-Term Memory）等。

图卷积神经网络GAN可以基于循环神经网络输出的第一全局特征表示向量

、

、…、

，结合实体之间的邻接图，通过学习实体之间的邻接关系，生成每个实体的第二全局特征表示向量。所述邻接图中的节点为待处理文本中的多个实体，当某两个实体在待处理文本中的至少一个句子中同时存在时，可以将这两个实体对应的节点的边权设为1，否则为0。在一些实施例中，当某两个实体在待处理文本中的m个句子中同时存在时，可以将这两个实体对应的节点的边权设为m，m可以取0、1、…K，K为待处理文本中句子的总数。图卷积神经网络的输入可以为实体的第一全局特征表示向量以及基于实体邻接图生成的邻接矩阵，输出可以为实体的第二全局特征表示向量，即实体最终的全局特征表示向量。邻接矩阵可以是n×n的方阵，其中任意元素

表示实体i与实体j之间的边权。例如，实体e₁、e₂、…、e_n对应的第一全局特征表示向量

、

、…、

输入图卷积神经网络后，图卷积神经网络可以基于邻接矩阵获得实体之间的邻接关系，从而输出实体e₁、e₂、…、e_n对应的第二全局特征表示向量

、

、…、

，其中g即graph。在一些实施例中，图卷积神经网络可以包括但不限于图注意力网络（Graph Attention Network，GAT）、node2vec网络等。

在一些实施例中，对于不同待处理文本可能包含不同数量的实体的情况，可以设置图卷积神经网络的最大节点数，结合对邻接图的padding操作，使得图卷积神经网络可以处理任意待处理文本中的实体，提高实体分类模型的处理效率。例如，可以设置图卷积神经网络的最大节点数，如32，当输入的邻接图中节点（或待处理文本中的实体）个数不足最大节点数时，如25，可以通过padding操作在邻接图中添加0或其他无效字符使其达到最大节点数，处理之后的邻接图对应的邻接矩阵便可由所述图卷积神经网络处理。

在一些实施例中，篇章级注意力网络仅包括循环神经网络时，可以将每个实体对应的第一全局特征表示向量直接作为所述全局特征；当篇章级注意力网络仅包括图卷积神经网络时，输入图卷积神经网络的第一全局特征表示向量可以替换为对应实体的局部特征表示向量，将图卷积神经网络输出的表示向量作为所述全局特征。

分类层340可以用于确定实体的事件要素类型。

对于一个或多个实体中每个实体，分类层340可以基于该实体的全局特征确定该实体的事件要素类型。分类层的输入可以为实体的全局特征，输出可以为实体属于一个或多个事件要素类型的概率值。在一些实施例中，分类层输出为实体属于多个事件要素类型的概率值时，可以选择最大概率值对应的事件要素类型为该实体的事件要素类型。在一些实施例中，分类层可以包括任意能够将向量转换为概率值的网络。例如，分类层可以包括但不限于全连接层或多层感知机等。分类层的输出节点与预先设置的事件要素类型一一对应。

在一些实施例中，处理设备可以基于事件和要素之间的关系，针对每一个事件，将其要素对应的实体组合在一起，获得待处理文本中涉及的事件及其实体内容。更多关于事件要素的内容可以参见本说明书其他部分（例如，图2及其相关描述），在此不再赘述。

在一些实施例中，实体分类模型可以基于训练数据训练获得。例如，可以获取多个样本篇章，对篇章中实体以及实体的事件要素类型进行标注，生成训练数据。可以将训练数据中的样本篇章作为输入数据，样本篇章中的实体及实体的事件要素类型作为参考标准，对初始实体分类模型进行有监督训练，获得训练好的实体分类模型。

应当注意的是，上述有关模型300的描述仅仅是为了示例和说明，而不限定本说明书的适用范围。对于本领域技术人员来说，在本说明书的指导下可以对模型300进行各种修正和改变。然而，这些修正和改变仍在本申请的范围之内。

如图4所示，事件抽取系统400可以包括获取模块410、第一确定模块420、第二确定模块430、分类模块440以及抽取模块450。

获取模块410可以用于获取待处理文本中的一个或多个实体。在一些实施例中，待处理文本可以为包含两个或以上句子的篇章级文本。

第一确定模块420可以用于确定一个或多个实体中每个实体的局部特征。局部特征可以反映实体与待处理文本中至少一个句子之间的关联关系。

第二确定模块430可以用于基于一个或多个实体的局部特征，确定每个实体的全局特征。全局特征可以反映实体与待处理文本的整体关联关系。

分类模块440可以用于对于一个或多个实体中每个实体，基于该实体的全局特征确定该实体的事件要素类型。

抽取模块450可以用于基于一个或多个实体的事件要素类型，抽取待处理文本中的一个或多个事件以及对应的实体。

更多关于获取模块410、第一确定模块420、第二确定模块430、分类模块440以及抽取模块450的内容，可以参见本说明书其他部分（例如，图2及其相关描述），在此不再赘述。

应当理解，图4所示的系统及其模块可以利用各种方式来实现。例如，在一些实施例中，系统及其模块可以通过硬件、软件或者软件和硬件的结合来实现。其中，硬件部分可以利用专用逻辑来实现；软件部分则可以存储在存储器中，由适当的指令执行系统，例如微处理器或者专用设计硬件来执行。本领域技术人员可以理解上述的方法和系统可以使用计算机可执行指令和/或包含在处理器控制代码中来实现，例如在诸如磁盘、CD或DVD-ROM的载体介质、诸如只读存储器（固件）的可编程的存储器或者诸如光学或电子信号载体的数据载体上提供了这样的代码。本说明书的系统及其模块不仅可以有诸如超大规模集成电路或门阵列、诸如逻辑芯片、晶体管等的半导体、或者诸如现场可编程门阵列、可编程逻辑设备等的可编程硬件设备的硬件电路实现，也可以用例如由各种类型的处理器所执行的软件实现，还可以由上述硬件电路和软件的结合（例如，固件）来实现。

需要注意的是，以上对于系统400及其模块的描述，仅为描述方便，并不能把本说明书限制在所举实施例范围之内。可以理解，对于本领域的技术人员来说，在了解该系统的原理后，可能在不背离这一原理的情况下，对各个模块进行任意组合，或者构成子系统与其他模块连接。例如，在一些实施例中，图4中披露的各个模块可以是一个系统中的不同模块，也可以是一个模块实现上述的两个或两个以上模块的功能。又例如，系统400还可以包括通信模块，用来与其他部件通信，例如将抽取的事件实例发送至服务端或用户终端。各个模块可以共用一个存储模块，各个模块也可以分别具有各自的存储模块。诸如此类的变形，均在本说明书的保护范围之内。

本说明书实施例可能带来的有益效果包括但不限于：（1）通过对实体进行全局的上下文特征提取，将多个实体在篇章中整体上下文关系考虑进去，可以提升实体事件要素类型的分类准确性；（2）可以同时提取出篇章中的多个事件，提高提取效率；（3）通过构造实体邻接图，可以将属于同一事件的多个要素映射到更加接近的特征空间，进而提高实体全局特征提取的准确性。需要说明的是，不同实施例可能产生的有益效果不同，在不同的实施例里，可能产生的有益效果可以是以上任意一种或几种的组合，也可以是其他任何可能获得的有益效果。

上文已对基本概念做了描述，显然，对于本领域技术人员来说，上述详细披露仅仅作为示例，而并不构成对本说明书的限定。虽然此处并没有明确说明，本领域技术人员可能会对本说明书进行各种修改、改进和修正。该类修改、改进和修正在本说明书中被建议，所以该类修改、改进、修正仍属于本说明书示范实施例的精神和范围。

同时，本说明书使用了特定词语来描述本说明书的实施例。如“一个实施例”、“一实施例”、和/或“一些实施例”意指与本说明书至少一个实施例相关的某一特征、结构或特点。因此，应强调并注意的是，本说明书中在不同位置两次或多次提及的“一实施例”或“一个实施例”或“一个替代性实施例”并不一定是指同一实施例。此外，本说明书的一个或多个实施例中的某些特征、结构或特点可以进行适当的组合。

此外，本领域技术人员可以理解，本说明书的各方面可以通过若干具有可专利性的种类或情况进行说明和描述，包括任何新的和有用的工序、机器、产品或物质的组合，或对他们的任何新的和有用的改进。相应地，本说明书的各个方面可以完全由硬件执行、可以完全由软件（包括固件、常驻软件、微码等）执行、也可以由硬件和软件组合执行。以上硬件或软件均可被称为“数据块”、“模块”、“引擎”、“单元”、“组件”或“系统”。此外，本说明书的各方面可能表现为位于一个或多个计算机可读介质中的计算机产品，该产品包括计算机可读程序编码。

计算机存储介质可能包含一个内含有计算机程序编码的传播数据信号，例如在基带上或作为载波的一部分。该传播信号可能有多种表现形式，包括电磁形式、光形式等，或合适的组合形式。计算机存储介质可以是除计算机可读存储介质之外的任何计算机可读介质，该介质可以通过连接至一个指令执行系统、装置或设备以实现通讯、传播或传输供使用的程序。位于计算机存储介质上的程序编码可以通过任何合适的介质进行传播，包括无线电、电缆、光纤电缆、RF、或类似介质，或任何上述介质的组合。

本说明书各部分操作所需的计算机程序编码可以用任意一种或多种程序语言编写，包括面向对象编程语言如Java、Scala、Smalltalk、Eiffel、JADE、Emerald、C++、C#、VB.NET、Python等，常规程序化编程语言如C语言、VisualBasic、Fortran2003、Perl、COBOL2002、PHP、ABAP，动态编程语言如Python、Ruby和Groovy，或其他编程语言等。该程序编码可以完全在用户计算机上运行、或作为独立的软件包在用户计算机上运行、或部分在用户计算机上运行部分在远程计算机运行、或完全在远程计算机或处理设备上运行。在后种情况下，远程计算机可以通过任何网络形式与用户计算机连接，比如局域网（LAN）或广域网（WAN），或连接至外部计算机（例如通过因特网），或在云计算环境中，或作为服务使用如软件即服务（SaaS）。

此外，除非权利要求中明确说明，本说明书所述处理元素和序列的顺序、数字字母的使用、或其他名称的使用，并非用于限定本说明书流程和方法的顺序。尽管上述披露中通过各种示例讨论了一些目前认为有用的发明实施例，但应当理解的是，该类细节仅起到说明的目的，附加的权利要求并不仅限于披露的实施例，相反，权利要求旨在覆盖所有符合本说明书实施例实质和范围的修正和等价组合。例如，虽然以上所描述的系统组件可以通过硬件设备实现，但是也可以只通过软件的解决方案得以实现，如在现有的处理设备或移动设备上安装所描述的系统。

同理，应当注意的是，为了简化本说明书披露的表述，从而帮助对一个或多个发明实施例的理解，前文对本说明书实施例的描述中，有时会将多种特征归并至一个实施例、附图或对其的描述中。但是，这种披露方法并不意味着本说明书对象所需要的特征比权利要求中提及的特征多。实际上，实施例的特征要少于上述披露的单个实施例的全部特征。

一些实施例中使用了描述成分、属性数量的数字，应当理解的是，此类用于实施例描述的数字，在一些示例中使用了修饰词“大约”、“近似”或“大体上”来修饰。除非另外说明，“大约”、“近似”或“大体上”表明所述数字允许有±20%的变化。相应地，在一些实施例中，说明书和权利要求中使用的数值参数均为近似值，该近似值根据个别实施例所需特点可以发生改变。在一些实施例中，数值参数应考虑规定的有效数位并采用一般位数保留的方法。尽管本说明书一些实施例中用于确认其范围广度的数值域和参数为近似值，在具体实施例中，此类数值的设定在可行范围内尽可能精确。

针对本说明书引用的每个专利、专利申请、专利申请公开物和其他材料，如文章、书籍、说明书、出版物、文档等，特此将其全部内容并入本说明书作为参考。与本说明书内容不一致或产生冲突的申请历史文件除外，对本说明书权利要求最广范围有限制的文件（当前或之后附加于本说明书中的）也除外。需要说明的是，如果本说明书附属材料中的描述、定义、和/或术语的使用与本说明书所述内容有不一致或冲突的地方，以本说明书的描述、定义和/或术语的使用为准。

最后，应当理解的是，本说明书中所述实施例仅用以说明本说明书实施例的原则。其他的变形也可能属于本说明书的范围。因此，作为示例而非限制，本说明书实施例的替代配置可视为与本说明书的教导一致。相应地，本说明书的实施例不仅限于本说明书明确介绍和描述的实施例。

Claims

1.一种事件抽取方法，包括：

获取待处理文本中的一个或多个实体，所述待处理文本为包含两个或以上句子的篇章级文本；

确定所述一个或多个实体中每个实体的局部特征，所述局部特征反映实体与所述待处理文本中至少一个句子之间的关联关系；

基于所述一个或多个实体的所述局部特征，确定每个实体的全局特征，所述全局特征反映实体与所述待处理文本的整体关联关系；

对于所述一个或多个实体中每个实体，基于该实体的全局特征确定该实体的事件要素类型；

基于所述一个或多个实体的事件要素类型，抽取所述待处理文本中的一个或多个事件以及对应的实体。

2.如权利要求1所述的方法，所述获取待处理文本中的一个或多个实体包括：通过序列标注方法获取所述待处理文本中的一个或多个实体。

3.如权利要求1所述的方法，所述确定所述一个或多个实体中每个实体的局部特征包括，对于所述一个或多个实体中的每个实体：

将实体，以及与所述实体相关的所述待处理文本中的一个或多个句子作为输入数据，进行文本嵌入处理，确定所述实体的一个或多个句子关联特征；

基于所述一个或多个句子关联特征，确定该实体的局部特征。

4.如权利要求3所述的方法，所述与所述实体相关的所述待处理文本中的一个或多个句子包括，在所述待处理文本中包含所述实体的一个或多个句子；

所述将实体，以及与所述实体相关的所述待处理文本中的一个或多个句子作为输入数据，进行文本嵌入处理，确定所述实体的一个或多个句子关联特征，包括：

将所述实体与所述一个或多个句子分别组合；

将一个或多个组合结果依次输入到文本嵌入网络，得到所述一个或多个句子关联特征。

5.如权利要求4所述的方法，所述文本嵌入网络包括BERT模型。

6.如权利要求3所述的方法，所述基于所述一个或多个句子关联特征，确定该实体的局部特征，包括：

将所述一个或多个句子关联特征进行最大池化处理，得到所述局部特征。

7.如权利要求1所述的方法，所述基于所述一个或多个实体的所述局部特征，确定每个实体的全局特征包括，对于所述一个或多个实体中的每个实体：

基于该实体的所述局部特征，以及该实体与其他至少一个实体之间的相关性，确定该实体的全局特征。

8.如权利要求1所述的方法，所述基于所述一个或多个实体的所述局部特征，确定每个实体的全局特征包括：

通过循环神经网络和/或图卷积神经网络处理所述一个或多个实体的局部特征，获得所述一个或多个实体的全局特征。

9.如权利要求8所述的方法，所述循环神经网络包括Transformer网络，所述图卷积神经网络包括GAT网络。

10.一种事件抽取系统，所述系统包括：

获取模块，用于获取待处理文本中的一个或多个实体，所述待处理文本为包含两个或以上句子的篇章级文本；

第一确定模块，用于确定所述一个或多个实体中每个实体的局部特征，所述局部特征反映实体与所述待处理文本中至少一个句子之间的关联关系；

第二确定模块，用于基于所述一个或多个实体的所述局部特征，确定每个实体的全局特征，所述全局特征反映实体与所述待处理文本的整体关联关系；

分类模块，用于对于所述一个或多个实体中每个实体，基于该实体的全局特征确定该实体的事件要素类型；

抽取模块，用于基于所述一个或多个实体的事件要素类型，抽取所述待处理文本中的一个或多个事件以及对应的实体。

11.一种事件抽取装置，包括处理器，所述处理器用于执行如权利要求1~9中任一项所述的方法。

12.一种计算机可读存储介质，所述存储介质存储计算机指令，当计算机读取存储介质中的计算机指令后，计算机执行如权利要求1~9中任一项所述的方法。

13.一种实体分类模型，包括：

前处理层，用于获取待处理文本及其中的一个或多个实体，所述待处理文本为包含两个或以上句子的篇章级文本；

句子级注意力网络，用于确定所述一个或多个实体中每个实体的局部特征，所述局部特征反映实体与所述待处理文本中至少一个句子之间的关联关系；

篇章级注意力网络，用于基于所述一个或多个实体的所述局部特征，确定每个实体的全局特征，所述全局特征反映实体与所述待处理文本的整体关联关系；

分类层，用于对于所述一个或多个实体中每个实体，基于该实体的全局特征确定该实体的事件要素类型。

14.如权利要求13所述的模型，其中，所述句子级注意力网络包括BERT模型。

15.如权利要求13所述的模型，其中，所述篇章级注意力网络包括循环神经网络和/或图卷积神经网络。