CN113553424A

CN113553424A - 数据处理方法、装置及设备及事件抽取模型的生成方法

Info

Publication number: CN113553424A
Application number: CN202010340500.5A
Authority: CN
Inventors: 赵鹏; 刘少博; 陈漠沙; 仇伟; 黄非
Original assignee: Alibaba Group Holding Ltd
Current assignee: Alibaba Group Holding Ltd
Priority date: 2020-04-26
Filing date: 2020-04-26
Publication date: 2021-10-26

Abstract

本申请公开了一种数据处理方法，包括：获得目标自然语言文本；获得所述目标自然语言文本包含的实体对应的摘要文本；根据所述目标自然语言文本包含的实体对应的摘要文本生成目标自然语言文本的摘要嵌入向量；根据所述目标自然语言文本的摘要嵌入向量，对所述目标自然语言文本进行事件抽取处理。采用上述方法，以解决现有技术存在的事件抽取系统的性能较低的问题。

Description

数据处理方法、装置及设备及事件抽取模型的生成方法

技术领域

本申请涉及计算机技术领域，具体涉及一种数据处理方法，本申请同时涉及一种数据处理装置、电子设备及存储设备，本申请同时涉及一种事件抽取模型的生成方法和一种训练集的生成方法。

背景技术

近年来计算机与互联网技术持续高速发展，互联网沉淀了并持续产生着数量巨大的自然语言文本信息，如不断更新的新闻报道，自媒体发布的观点以及个人发布的社交状态信息等。这些大量的自然语言文本信息背后蕴藏着巨大的价值，但目前大多数计算机应用难以直接处理非结构化的自然语言文本信息，因此就需要发展能够将非结构化的自然语言文本转化为结构化信息的技术。

现有技术下，在将非结构化的自然语言文本转化为结构化信息的技术中，通常采用人工标注的方法获得样本对事件抽取系统进行训练，存在着样本量较小的问题，在一定程度上影响了事件抽取系统的性能。

发明内容

本申请提供一种数据处理方法，以解决现有技术存在的事件抽取系统的性能较低的问题。

本申请提供一种数据处理方法，包括：

获得目标自然语言文本；

获得所述目标自然语言文本包含的实体对应的摘要文本；

根据所述目标自然语言文本包含的实体对应的摘要文本生成目标自然语言文本的摘要嵌入向量；

根据所述目标自然语言文本的摘要嵌入向量，对所述目标自然语言文本进行事件抽取处理。

可选的，还包括：

从第二知识库中获得所述目标自然语言文本包含的实体对应的三元组信息；所述三元组信息包括头实体、实体之间关系和尾实体；

对所述三元组信息进行嵌入式表示，获得所述实体的嵌入式表达式；

根据所述目标自然语言文本的摘要嵌入向量，对所述目标自然语言文本进行事件抽取处理，包括：

根据所述目标自然语言文本的摘要嵌入向量和所述实体的嵌入式表达式，对所述目标自然语言文本进行事件抽取处理。

可选的，对所述三元组信息进行嵌入式表示，获得所述实体的嵌入式表达式，包括：

采用知识表示学习模型，对所述三元组信息进行嵌入式表示，获得所述实体的嵌入式表达式。

可选的，所述第二知识库为记录有三元组信息的知识库。

可选的，所述获得所述目标自然语言文本包含的实体对应的摘要文本，包括：

获取所述目标自然语言文本中包含的实体；

根据所述目标自然语言文本中包含的实体，获得所述目标自然语言文本中包含的实体的摘要信息。

可选的，所述根据所述目标自然语言文本包含的实体的摘要信息生成目标自然语言文本的摘要嵌入向量，包括：

根据目标自然语言文本包含的实体的摘要信息，获得目标自然语言文本包含的实体的嵌入向量；

对目标自然语言文本包含的所有实体的嵌入向量进行摘要注意力处理，生成目标自然语言文本的摘要嵌入向量。

可选的，所述根据目标自然语言文本包含的实体的摘要信息，获得目标自然语言文本包含的实体的嵌入向量，包括：

对目标自然语言文本包含的实体的摘要信息中的每一个句子进行编码，生成每一个句子的句子向量；

对所有句子向量进行编码处理，生成所述目标自然语言文本包含的实体的嵌入向量。

可选的，所述根据所述目标自然语言文本包含的实体的摘要文本生成目标自然语言文本的摘要嵌入向量，包括：

采用下述至少一种网络，对所述目标自然语言文本包含的实体的摘要信息进行编码生成目标自然语言文本的摘要嵌入向量：

GRU网络；

LSTM网络；

CNN网络；

Transformer网络。

本申请还提供一种数据处理装置，包括：

目标自然语言文本获得单元，用于获得目标自然语言文本；

摘要文本获得单元，用于获得所述目标自然语言文本包含的实体对应的摘要文本；

摘要嵌入向量生成单元，用于根据所述目标自然语言文本包含的实体对应的摘要文本生成目标自然语言文本的摘要嵌入向量；

事件抽取处理单元，用于根据所述目标自然语言文本的摘要嵌入向量，对所述目标自然语言文本进行事件抽取处理。

本申请还提供一种电子设备，包括：

处理器；以及

存储器，用于存储数据处理方法的程序，该设备通电并通过所述处理器运行该数据处理方法的程序后，执行下述步骤：

获得目标自然语言文本；

获得所述目标自然语言文本包含的实体对应的摘要文本；

本申请还提供一种存储设备，存储有数据处理方法的程序，该程序被处理器运行，执行下述步骤：包括：

获得目标自然语言文本；

获得所述目标自然语言文本包含的实体对应的摘要文本；

本申请提供一种事件抽取模型的生成方法，包括：

构建初始事件抽取模型，其中，所述初始事件抽取模型的参数为初始化数据；

获得用于训练所述初始事件抽取模型的训练数据，其中，所述训练数据根据如前述任意一项方法获取；

利用所述训练数据，对所述初始事件抽取模型进行训练，获得所述初始事件抽取模型的目标参数；

根据所述目标参数，生成目标事件抽取模型。

可选的，所述生成方法，还包括：

获得包括目标自然语言文本的测试数据；

将所述测试数据输入所述目标事件抽取模型，获得测试数据的事件抽取信息。

本申请提供一种训练集的生成方法，包括：

获得三元组知识库中的实体对象；

根据所述实体对象，在知识库中进行检索，获得所述实体对象对应的触发词；

利用远程监督算法对所述触发词进行处理，获得标注训练集。

可选的，所述方法，还包括：

获得三元组知识库中的更新后实体对象；

根据所述更新后实体对象，在知识库中进行检索，获得所述实体对象对应的更新后触发词；

利用远程监督算法对所述更新后触发词进行处理，获得更新后的标注训练集。

与现有技术相比，本申请具有以下优点：

本申请提出了一种利用大规模知识库数据生成目标自然语言文本的摘要嵌入向量，并将摘要嵌入向量用于对目标自然语言文本进行事件抽取处理的方法，本申请在有限的训练集场景下引入大量的外部信息的知识，用于扩展有限训练集所能表示的信息，解决了标注数据匮乏带来的事件抽取系统性能受限的问题。

附图说明

图1a是本申请提供的一种数据处理方法应用场景实施例的示意图。

图1b是本申请提供的一种数据处理方法应用场景的新闻事件提取的示意图。

图1是本申请第一实施例提供的一种数据处理方法的流程图。

图2是本申请第一实施例提供的一种采用维基百科嵌入模块将一个句子包含的实体的摘要信息生成该句子的摘要嵌入向量的过程的示意图。

图3是本申请第一实施例提供的一种采用GRU网络对目标自然语言文本包含的实体的摘要信息进行编码生成目标自然语言文本的摘要嵌入向量示意图。

图4是本申请第一实施例提供的一种根据目标自然语言文本的摘要嵌入向量和实体的嵌入式表达，对目标自然语言文本进行事件抽取处理的示意图。

图5是本申请第一实施例提供的一种数据处理装置的示意图。

图6是本申请第一实施例提供的一种电子设备的示意图。

具体实施方式

在下面的描述中阐述了很多具体细节以便于充分理解本发明。但是本发明能够以很多不同于在此描述的其它方式来实施，本领域技术人员可以在不违背本发明内涵的情况下做类似推广，因此本发明不受下面公开的具体实施的限制。

为了使本领域的技术人员更好的理解本申请方案，首先对本申请的一个具体应用场景实施例进行详细描述。如图1a所示，其为本申请提供的一种数据处理方法的应用场景的实施例示意图。在具体实施过程中，可以由用户108-1通过客户端设备106-1上的客户端应用107-1，利用网络105向新闻数据服务器109 发送获取新闻数据的指令。如图1b所示，该新闻数据可以是AB边界对峙事件的新闻数据。新闻数据服务器109根据该指令向客户端应用107-1返回新闻数据，客户端应用107-1将所述新闻数据通过网络105发送到事件提取生成服务器100。所述事件提取生成服务器100收到新闻数据后，将所述新闻数据发送到目标自然语言文本获得单元101，所述目标自然语言文本获得单元。然后，通过摘要文本获得单元102，获得所述目标自然语言文本包含的实体对应的摘要文本。接着，通过摘要嵌入向量生成单元103，根据所述目标自然语言文本包含的实体对应的摘要文本生成目标自然语言文本的摘要嵌入向量。进而，通过事件抽取处理单元104，根据所述目标自然语言文本的摘要嵌入向量，对所述目标自然语言文本进行事件抽取处理，获得事件抽取结果。最后，事件提取生成服务器100将生成的事件抽取结果返回到客户端应用107-1。事件抽取结果请参考图1b所示，为AB边界对峙事件新闻的追踪事件提取结果。

采用本实施例提供的数据处理方法，利用大规模知识库数据生成目标自然语言文本的摘要嵌入向量，并将摘要嵌入向量用于对目标自然语言文本进行事件抽取处理的方法，从而在有限的训练集场景下引入大量的外部信息的知识，扩展了有限训练集所能表示的信息。

本申请第一实施例提供一种数据处理方法，下面结合图1至图4进行说明。

如图1所示，在步骤S101中，获得目标自然语言文本。

所述目标自然语言文本，可以包括目标句子，或目标短语。例如，句子“他因一名士兵的手榴弹袭击而受伤”为一个目标自然语言文本。

如图1所示，在步骤S102中，从第一知识库中获得所述目标自然语言文本包含的实体对应的摘要文本。

所述第一知识库为记录有摘要文本的知识库。例如，第一知识库可以为Wikipedia(维基百科)，Wikipedia为一个大型的百科知识编辑站点，存储有大量以自然语言文字表示的知识，其可以不断地自动更新。例如，图2中的“A hand Grenade is anysmall bomb…”为Wikipedia记录的Grenade的摘要文本。

所述实体，指自然语言中用于指代人名、地名与机构名等概念的词语，例如：中国、总统A、火山等。实体可以包括头实体和尾实体，例如，句子“总统A与总统夫人B是夫妻关系”，头实体为总统A，尾实体为总统夫人B。

所述从第一知识库中获得所述目标自然语言文本包含的实体对应的摘要文本，包括：

获取所述目标自然语言文本中包含的实体；

根据所述目标自然语言文本中包含的实体，获得所述目标自然语言文本中包含的实体在所述第一知识库中的摘要信息。

例如，自然语言文本为句子“...attack…fellow”,从第一知识库中获得所上述句子包含的实体对应的摘要文本的过程为：首先获取上述句子包含的实体为“grenade”和“soldier”，然后获得实体“grenade”和“soldier”在第一知识库中的摘要信息。

如图1所示，在步骤S103中，根据所述目标自然语言文本包含的实体对应的摘要文本生成目标自然语言文本的摘要嵌入向量。

所述摘要嵌入向量，指由目标自然语言文本包含的实体对应的摘要文本最终生成的一个向量。

所述根据所述目标自然语言文本包含的实体的摘要信息生成目标自然语言文本的摘要嵌入向量，包括：

所述根据目标自然语言文本包含的实体的摘要信息，获得目标自然语言文本包含的实体的嵌入向量，包括：

如图2所示，其为一个采用维基百科嵌入模块将一个句子包含的实体的摘要信息生成该句子的摘要嵌入向量的过程的示意图。维基百科嵌入模块的目标是以句子为单位，将句子包含的所有实体对应的摘要文本，最终对于每一个句子生成一个对应的摘要嵌入向量。

采用维基百科嵌入模块将一个句子包含的实体的摘要信息生成该句子的摘要嵌入向量的具体步骤如下：在步骤S201中，根据句子包含的实体，获得维基百科中句子包含的实体对应的摘要文本，图2中获得了实体“grenade”和“soldier” 在维基百科中的摘要信息。在步骤S202中，对于获取得到的维基百科摘要中的每一句话，该模块通过词汇编码步骤将一个句子中的所有词汇编码成一个句子向量，图2中实体“grenade”和“soldier”在维基百科中的摘要信息分别为两句话，因此通过词汇编码步骤将实体“grenade”在维基百科中的摘要信息编码成两个句子向量201和句子向量202；通过词汇编码步骤将实体“soldier”在维基百科中的摘要信息编码成两个句子向量203和句子向量204；在步骤S203中，维基百科嵌入模块通过句子编码步骤将一个摘要中的所有句子向量编码成实体嵌入向量，图2中将句子向量201和句子向量202编码成实体嵌入向量205，将句子向量203和句子向量204编码成实体嵌入向量206。在步骤S204中，对于一个句子中在先前步骤中生成的所有实体嵌入向量，维基百科嵌入模块通过摘要注意力步骤生成一个摘要嵌入向量，图2中通过摘要注意力步骤根据实体嵌入向量205和实体嵌入向量206生成摘要嵌入向量。

所述根据所述目标自然语言文本包含的实体的摘要文本生成目标自然语言文本的摘要嵌入向量，包括：

GRU网络；

LSTM网络；

CNN网络；

Transformer网络。

如图3所示，其为采用GRU网络对目标自然语言文本包含的实体的摘要信息进行编码生成目标自然语言文本的摘要嵌入向量示意图。如图3所示，在输入为单个句子的情况下，输入的维度为3，即第一个维度为该句子中包含有多少实体，第二个维度为实体的摘要中包含有多少句子，第三个维度为每一个句子中包含有多少词汇，图3中以3个数字下标指代词汇，2个数字下标指代句子，1个数字下标指代实体。图3中仅展示一个句子含有两个实体的情况。

图3中采用了GRU网络对目标自然语言文本包含的实体的摘要信息进行编码生成目标自然语言文本的摘要嵌入向量，在具体实施时，GRU网络也可以换成LSTM、CNN或者Transformer结构，针对不同的数据和运行环境可以根据算法效果与执行效率选择适合的网络结构。

如图1所示，在步骤S104中，根据所述目标自然语言文本的摘要嵌入向量，对所述目标自然语言文本进行事件抽取处理。

所述事件抽取，指从非结构化的自然语言文本中，抽取出事件并转为结构化的信息。主要包含触发词和要素的抽取。其中触发词为表示事件发生的核心词，多为动词或名词，要素指组成事件的要素，组成事件的角色。

根据所述目标自然语言文本的摘要嵌入向量，对所述目标自然语言文本进行事件抽取处理，可以提高事件抽取系统的性能。

为了进一步提高事件抽取系统的性能，本申请第一实施例的方法还可以包括：

对所述三元组信息进行嵌入式表示，获得所述实体的嵌入式表达式。

所述第二知识库为记录有三元组信息的知识库。例如，Freebase知识库。

根据所述目标自然语言文本的摘要嵌入向量和所述实体的嵌入式表达，对所述目标自然语言文本进行事件抽取处理。

所述三元组信息的基本形式主要包括(实体1-关系-实体2)和(实体-属性-属性值)等。每个实体(概念的外延)可用一个全局唯一确定的pair，AVP)可用来刻画实体的内在特性，而关系可用来连接两个实体，刻画它们之间的关联。

如下图1的知识图谱例子所示，中国是一个实体，北京是一个实体，中国- 首都-北京是一个(实体-关系-实体)的三元组。

在具体实施时，对三元组信息进行嵌入式表示，获得实体的嵌入式表达式，可以采用知识表示学习模型，对三元组信息进行嵌入式表示，获得所述实体的嵌入式表达式。例如，可以采用OpenKE等知识嵌入库对三元组进行嵌入式表示，获得实体的嵌入式表达。OpenKE是一个开源的知识表示学习平台，包括普遍使用的知识表示学习(knowledgerepresentation learning，KRL)方法。

根据所述目标自然语言文本的摘要嵌入向量和所述实体的嵌入式表达，对所述目标自然语言文本进行事件抽取处理，包括：

根据目标自然语言文本的摘要嵌入向量中的实体的摘要嵌入向量和实体的嵌入式表达，得到实体的词向量；

根据所述实体的词向量，对所述目标自然语言文本进行事件抽取处理。

例如，如图4所示，实体“Grenade”的摘要文本通过摘要嵌入模块生成实体“Grenade”的摘要嵌入向量401，实体“Grenade”的三元组信息，通过Freebase 知识嵌入模块生成实体“Grenade”的嵌入式表达402，将摘要嵌入向量401和嵌入式表达402组合生成实体“Grenade”的词向量403，根据实体的词向量，对所述目标自然语言文本进行事件抽取处理。

这里需要指出，对于大规模知识库的事件抽取，可以应用于电商网站中的商品评论，也可以应用于视频网站中的视频评论，还可以应用于电子票务平台的票务评论。例如，在电商网站的促销活动中，可以从热点的商品评论中，获得诸如“XX商品是YY同款”等抽取的事件。

至此，对本申请第一实施例进行了详细介绍，本申请第一实施例提供的数据处理方法，通过引入源自第一知识库以及第二知识库的知识对原有训练集信息进行扩充，以弥补人工有标记数据成本较高的问题以及降低事件抽取系统性能的问题。例如，在新闻事件抽取场景下，人工标注训练集包含“总统A访问中国”事件的标注，但受限于人工标注的成本，很可能会漏标“总统A访问捷克”等事件。如果使用来自Wikipedia以及Freebase知识库的信息，捷克则被标注为一个国家，就能提高事件抽取系统检出该事件的概率。此外，利用Wikipedia 以及Freebase知识库的信息也能提高事件抽取系统的信息利用率，譬如在以下句子中：他因一名士兵的手榴弹袭击而受伤。训练数据无法提供关于士兵以及手榴弹这两个名词的详细解释，但是在Wikipedia以及Freebase知识库中，士兵与手榴弹的解释分别为：一种小型的投掷炸弹与一种有组织有纪律的武装力量。因此，引入Wikipedia以及Freebase知识库能够向事件抽取系统提供更全面的信息。再如，在自然灾害事件抽取场景下，人工标注训练集中包含“佛罗里达州出现龙卷风”，但同样人工标注受限于高昂成本，可能会漏标“俄克拉荷马州出现龙卷风”，但如果利用知识库来进行辅助事件抽取，俄克拉荷马州会被识别为一个州名，进而提高该事件被检出的概率。本申请在有限的训练集场景下引入大量的外部信息的知识，用于扩展有限训练集所能表示的信息；同时本申请首次利用Freebase知识嵌入表示模块将Freebase中的知识以离散化向量的形式引入到了事件抽取领域；此外本申请提出的维基百科摘要嵌入模块将维基百科中的知识运用至事件抽取任务上，取得了较好的效果。

与本申请第一实施例提供的一种数据处理方法相对应的，本申请第二实施例还提供了一种数据处理装置。

如图5所示，所述数据处理装置，包括：

目标自然语言文本获得单元501，用于获得目标自然语言文本；

摘要文本获得单元502，用于获得所述目标自然语言文本包含的实体对应的摘要文本；

摘要嵌入向量生成单元503，用于根据所述目标自然语言文本包含的实体对应的摘要文本生成目标自然语言文本的摘要嵌入向量；

事件抽取处理单元504，用于根据所述目标自然语言文本的摘要嵌入向量，对所述目标自然语言文本进行事件抽取处理。

可选的，所述数据处理装置还包括：

三元组信息获得单元，用于从第二知识库中获得所述目标自然语言文本包含的实体对应的三元组信息；所述三元组信息包括头实体、实体之间关系和尾实体；

嵌入式表达式获得单元，用于对所述三元组信息进行嵌入式表示，获得所述实体的嵌入式表达式；

所述事件抽取处理单元，具体用于：

可选的，所述嵌入式表达式获得单元，具体用于：

可选的，所述第二知识库为记录有三元组信息的知识库。

可选的，所述摘要文本获得单元具体用于：

获取所述目标自然语言文本中包含的实体；

可选的，所述摘要嵌入向量生成单元具体用于：

GRU网络；

LSTM网络；

CNN网络；

Transformer网络。

需要说明的是，对于本申请第二实施例提供的装置的详细描述可以参考对本申请第一实施例的相关描述，这里不再赘述。

与本申请第一实施例提供的一种数据处理方法相对应的，本申请第三实施例还提供了一种电子设备。

如图6所示，所述电子设备，包括：

处理器601；以及

存储器602，用于存储数据处理方法的程序，该设备通电并通过所述处理器运行该数据处理方法的程序后，执行下述步骤：

获得目标自然语言文本；

获得所述目标自然语言文本包含的实体对应的摘要文本；

可选的，所述电子设备还执行下述步骤：

可选的，所述第二知识库为记录有三元组信息的知识库。

获取所述目标自然语言文本中包含的实体；

GRU网络；

LSTM网络；

CNN网络；

Transformer网络。

需要说明的是，对于本申请第三实施例提供的电子设备的详细描述可以参考对本申请第一实施例的相关描述，这里不再赘述。

与本申请第一实施例提供的一种数据处理方法相对应的，本申请第四实施例还提供了一种存储设备，存储有数据处理方法的程序，该程序被处理器运行，执行下述步骤：包括：

获得目标自然语言文本；

获得所述目标自然语言文本包含的实体对应的摘要文本；

需要说明的是，对于本申请第四实施例提供的存储设备的详细描述可以参考对本申请第一实施例的相关描述，这里不再赘述。

本申请第五实施例提供一种事件抽取模型的生成方法，包括：

构建初始事件抽取模型，其中，所述初始事件抽取模型的参数为初始化数据。

例如，可以构建DMCNN(Dynamic Multi-Pooling Convolutional NeuralNetworks)模型，作为事件抽取模型。获得用于训练所述初始事件抽取模型的训练数据，其中，所述训练数据根据如本申请第一实施例提供的任意一项方法获取。

例如，可以利用训练数据训练所述DMCNN模型。

利用所述训练数据，对所述初始事件抽取模型进行训练，获得所述初始事件抽取模型的目标参数。

例如，利用后向传播算法，对该DMCNN模型进行训练，获得所述初始事件抽取模型的目标参数。

根据所述目标参数，生成目标事件抽取模型。

例如，获得所述目标参数后，可以根据该目标参数，生成目标事件抽取模型。

本实施例中，所述生成方法，还包括：

获得包括目标自然语言文本的测试数据；

例如，在获得目标事件抽取模型后，可以利用该模型进行测试数据的处理，获得测试结果。

本申请第六实施例提供一种训练集的生成方法，包括：

获得三元组知识库中的实体对象。

根据所述实体对象，在知识库中进行检索，获得所述实体对象对应的触发词。

首先对Freebase中的核心实体进行检测，根据角色显著性(role saliency)、事件相关性(event relevance)和核心率(key rate)对实体进行优先级排序，接着利用所有的核心实体去Wikipeida中回标，根据触发率(trigger rate)、触发词频率(triggercandidate frequency)、触发词事件频率(trigger event type frequency)来进行触发词检测，这一阶段得到的触发词表中只有动词，缺少名词，也存在噪声，于是再利用FrameNet过滤动词性触发词中的噪声，同时扩展名词性触发词，最后利用远程监督算法(SoftDistant Supervision)来自动生成标注训练集数据。

本实施例中，所述方法，还包括：

获得三元组知识库中的更新后实体对象。

根据所述更新后实体对象，在知识库中进行检索，获得所述实体对象对应的更新后触发词。

类似的，当三元组知识库，例如Freebase更新后，可以根据所述更新后实体对象，在知识库中进行检索，获得所述实体对象对应的更新后触发词。利用远程监督算法对所述更新后触发词进行处理，获得更新后的标注训练集。

本申请虽然以较佳实施例公开如上，但其并不是用来限定本申请，任何本领域技术人员在不脱离本申请的精神和范围内，都可以做出可能的变动和修改，因此本申请的保护范围应当以本申请权利要求所界定的范围为准。

在一个典型的配置中，计算设备包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存。

内存可能包括计算机可读介质中的非永久性存储器，随机存取存储器 (RAM)和/或非易失性内存等形式，如只读存储器(ROM)或闪存(flash RAM)。内存是计算机可读介质的示例。

计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括，但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器 (EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带，磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质，可用于存储可以被计算设备访问的信息。按照本文中的界定，计算机可读介质不包括非暂存电脑可读媒体(transitory media)，如调制的数据信号和载波。

本领域技术人员应明白，本申请的实施例可提供为方法、系统或计算机程序产品。因此，本申请可采用完全硬件实施例、完全软件实施例或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

Claims

1.一种数据处理方法，其特征在于，包括：

获得目标自然语言文本；

获得所述目标自然语言文本包含的实体对应的摘要文本；

2.根据权利要求1所述的方法，其特征在于，还包括：

3.根据权利要求2所述的方法，其特征在于，对所述三元组信息进行嵌入式表示，获得所述实体的嵌入式表达式，包括：

4.根据权利要求2所述的方法，其特征在于，所述第二知识库为记录有三元组信息的知识库。

5.根据权利要求1所述的方法，其特征在于，所述获得所述目标自然语言文本包含的实体对应的摘要文本，包括：

获取所述目标自然语言文本中包含的实体；

6.根据权利要求1所述的方法，其特征在于，所述根据所述目标自然语言文本包含的实体的摘要信息生成目标自然语言文本的摘要嵌入向量，包括：

7.根据权利要求6所述的方法，其特征在于，所述根据目标自然语言文本包含的实体的摘要信息，获得目标自然语言文本包含的实体的嵌入向量，包括：

8.根据权利要求1所述的方法，其特征在于，所述根据所述目标自然语言文本包含的实体的摘要文本生成目标自然语言文本的摘要嵌入向量，包括：

GRU网络；

LSTM网络；

CNN网络；

Transformer网络。

9.一种数据处理装置，其特征在于，包括：

目标自然语言文本获得单元，用于获得目标自然语言文本；

10.一种电子设备，其特征在于，包括：

处理器；以及

获得目标自然语言文本；

获得所述目标自然语言文本包含的实体对应的摘要文本；

11.一种存储设备，其特征在于，存储有数据处理方法的程序，该程序被处理器运行，执行下述步骤：包括：

获得目标自然语言文本；

获得所述目标自然语言文本包含的实体对应的摘要文本；

12.一种事件抽取模型的生成方法，其特征在于，包括：

获得用于训练所述初始事件抽取模型的训练数据，其中，所述训练数据根据权利要求1-8中的任意一项方法获取；

根据所述目标参数，生成目标事件抽取模型。

13.根据权利要求12所述的生成方法，其特征在于，还包括：

获得包括目标自然语言文本的测试数据；

14.一种训练集的生成方法，其特征在于，包括：

获得三元组知识库中的实体对象；

15.根据权利要求14所述的方法，其特征在于，还包括：

获得三元组知识库中的更新后实体对象；