CN110704598B

CN110704598B - 一种语句信息的抽取方法、抽取装置及可读存储介质

Info

Publication number: CN110704598B
Application number: CN201910935752.XA
Authority: CN
Inventors: 付骁弈
Original assignee: Beijing Mininglamp Software System Co ltd
Current assignee: Beijing Mininglamp Software System Co ltd
Priority date: 2019-09-29
Filing date: 2019-09-29
Publication date: 2023-01-17
Anticipated expiration: 2039-09-29
Also published as: CN110704598A

Abstract

本申请提供了一种语句信息的抽取方法、抽取装置及可读存储介质，所述抽取方法包括：从待分析语句中确定出至少一个分词，并根据预先训练好的词向量矩阵确定出每个分词对应的分词信息向量；将待分析语句输入预先训练好的依存句法分析模型中，得到待分析语句中各个分词之间的依存句法关系树图；基于每个分词信息向量以及依存句法关系树图，构成待分析语句的整体信息向量；将整体信息向量输入至训练好的前馈神经网络集中，确定待分析语句中的至少一个触发词和至少一个论元，以及每个触发词所属的事件类型和每个论元在每个事件类型下所属的角色类型。能够准确的从大量的网络信息中进行不良信息事件抽取，有效地提高了事件信息抽取的效率及准确性。

Description

一种语句信息的抽取方法、抽取装置及可读存储介质

技术领域

本申请涉及信息处理技术领域，尤其是涉及一种语句信息的抽取方法、抽取装置及可读存储介质。

背景技术

事件信息抽取为一种从语句中抽取出句子的结构化信息的信息抽取形式，能够快速的从网络信息中确定出事件的主要信息，在互联网舆情分析、风险监控、重大事件预警等领域有着十分广泛的实际用途。

随着互联网的蓬勃发展，互联网中的用户迅速增加，使得互联网中的信息数量不断地上升，随着信息量的上升，导致网络中的不良信息等越来越多，造成了极大的网络危害，因此，需要通过事件信息抽取的方式来对互联网中的不良信息进行筛选，对互联网进行进一步整顿，而如何准确的从大量网络信息中进行不良信息的事件信息抽取，以进行信息过滤和筛选成为了亟待解决的问题。

发明内容

有鉴于此，本申请的目的在于提供一种语句信息的抽取方法、抽取装置及可读存储介质，根据待分析语句中各个分词的分词信息向量以及各个分词之间的关联关系，将待分析语句中的分词之间的依存关系与神经网络相结合，能够准确的从大量的网络信息中进行不良信息事件抽取，有效地提高了事件信息抽取的效率及准确性。

本申请实施例提供了一种语句信息的抽取方法，所述抽取方法包括：

从待分析语句中确定出至少一个分词，并根据预先训练好的词向量矩阵确定出每个所述分词对应的分词信息向量；

将所述待分析语句输入预先训练好的依存句法分析模型中，得到所述待分析语句中各个分词之间的依存句法关系树图；

基于每个分词信息向量以及所述依存句法关系树图，构成所述待分析语句的整体信息向量；

将所述整体信息向量输入至训练好的前馈神经网络集中，确定所述待分析语句中的至少一个触发词和至少一个论元，以及每个所述触发词所属的事件类型和每个所述论元在每个事件类型下所属的角色类型。

进一步的，所述从待分析语句中确定出至少一个分词，并根据预先训练好的词向量矩阵确定出每个所述分词对应的分词信息向量，包括：

从所述待分析语句中确定出至少一个分词，针对于每个所述分词，确定所述分词对应的词性标签、所述分词对应的实体标签以及所述分词对应的实体类型标签；

根据所述词向量矩阵确定每个所述分词的分词向量；

将所述分词向量、所述词性标签、所述实体标签以及所述实体类型标签进行向量拼接，形成所述待分析语句中每个分词对应的分词信息向量。

进一步的，所述基于每个分词信息向量以及所述依存句法关系树图，构成所述待分析语句的整体信息向量，包括：

将每个分词信息向量以及所述依存句法关系树图输入图网络中，得到所述待分析语句中每个分词对应的中间分词信息向量；

通过注意力机制对每个中间分词信息向量进行二次编码，获得所述待分析语句的整体信息向量。

进一步的，所述将所述整体信息向量输入至训练好的前馈神经网络集中，确定所述待分析语句中的至少一个触发词和至少一个论元，以及每个所述触发词所属的事件类型和每个所述论元在每个事件类型下所属的角色类型，包括：

将所述整体信息向量输入至所述前馈神经网络集中的第一前馈神经网络，确定所述待分析语句中的至少一个触发词以及每个所述触发词所属的事件类型；

对每个事件类型进行编码，得到至少一个事件类型向量；

将所述整体信息向量以及所述至少一个事件类型向量输入所述前馈神经网络集中的第二前馈神经网络，确定所述待分析语句中的至少一个论元以及每个所述论元在每个事件类型下所属的角色类型。

进一步的，所述将所述整体信息向量输入至所述前馈神经网络集中的第一前馈神经网络，确定所述待分析语句中的至少一个触发词以及每个所述触发词所属的事件类型，包括：

根据所述整体信息向量中包括的所述待分析语句的每一个分词对应的词性标签，确定所述待分析语句中的至少一个触发词；

确定每个所述触发词所属的事件类型。

进一步的，所述将所述整体信息向量以及所述至少一个事件类型向量输入所述前馈神经网络集中的第二前馈神经网络，确定所述待分析语句中的至少一个论元以及每个所述论元在每个事件类型下所属的角色类型，包括：

根据所述整体信息向量中包括的所述待分析语句的每个分词对应的实体标签，确定所述待分析语句的至少一个论元；

根据所述至少一个事件类型向量，确定在每个所述事件类型向量下，每个所述论元所属的角色类型。

本申请实施例还提供了一种语句信息的抽取装置，所述抽取装置包括：

第一确定模块，用于从待分析语句中确定出至少一个分词，并根据预先训练好的词向量矩阵确定出每个所述分词对应的分词信息向量；

关系获取模块，用于将所述待分析语句输入预先训练好的依存句法分析模型中，得到所述待分析语句中各个分词之间的依存句法关系树图；

向量构成模块，用于基于每个分词信息向量以及所述依存句法关系树图，构成所述待分析语句的整体信息向量；

第二确定模块，用于将所述整体信息向量输入至训练好的前馈神经网络集中，确定所述待分析语句中的至少一个触发词和至少一个论元，以及每个所述触发词所属的事件类型和每个所述论元在每个事件类型下所属的角色类型。

进一步的，所述第一确定模块在用于从待分析语句中确定出至少一个分词，并根据预先训练好的词向量矩阵确定出每个所述分词对应的分词信息向量时，所述第一确定模块用于：

根据所述词向量矩阵确定每个所述分词的分词向量；

进一步的，所述向量构成模块在用于基于每个分词信息向量以及所述依存句法关系树图，构成所述待分析语句的整体信息向量时，所述向量构成模块用于：

进一步的，所述第二确定模块包括：

第一确定单元，用于将所述整体信息向量输入至所述前馈神经网络集中的第一前馈神经网络，确定所述待分析语句中的至少一个触发词以及每个所述触发词所属的事件类型；

向量确定单元，用于对每个事件类型进行编码，得到至少一个事件类型向量；

第二确定单元，用于将所述整体信息向量以及所述至少一个事件类型向量输入所述前馈神经网络集中的第二前馈神经网络，确定所述待分析语句中的至少一个论元以及每个所述论元在每个事件类型下所属的角色类型。

进一步的，所述第一确定单元在用于将所述整体信息向量输入至所述前馈神经网络集中的第一前馈神经网络，确定所述待分析语句中的至少一个触发词以及每个所述触发词所属的事件类型时，所述第一确定单元还用于：

确定每个所述触发词所属的事件类型。

进一步的，所述第二确定单元在用于将所述整体信息向量以及所述至少一个事件类型向量输入所述前馈神经网络集中的第二前馈神经网络，确定所述待分析语句中的至少一个论元以及每个所述论元在每个事件类型下所属的角色类型时，所述第二确定单元用于：

本申请实施例还提供一种电子设备，包括：处理器、存储器和总线，所述存储器存储有所述处理器可执行的机器可读指令，当电子设备运行时，所述处理器与所述存储器之间通过总线通信，所述机器可读指令被所述处理器执行时执行如上述的语句信息的抽取方法的步骤。

本申请实施例还提供一种计算机可读存储介质，该计算机可读存储介质上存储有计算机程序，该计算机程序被处理器运行时执行如上述的语句信息的抽取方法的步骤。

本申请实施例提供的语句信息的抽取方法、抽取装置及可读存储介质，从待分析语句中确定出至少一个分词，并根据预先训练好的词向量矩阵确定出每个所述分词对应的分词信息向量；将所述待分析语句输入预先训练好的依存句法分析模型中，得到所述待分析语句中各个分词之间的依存句法关系树图；基于每个分词信息向量以及所述依存句法关系树图，构成所述待分析语句的整体信息向量；将所述整体信息向量输入至训练好的前馈神经网络集中，确定所述待分析语句中的至少一个触发词和至少一个论元，以及每个所述触发词所属的事件类型和每个所述论元在每个事件类型下所属的角色类型。

与现有的语句信息的抽取方法相比，本申请能够根据从待分析语句中确定出的至少一个分词，通过预先训练好的词向量矩阵确定出每个所述分词对应的分词信息向量，同时通过预先训练好的依存句法分析模型，确定所述待分析语句中各个分词之间的依存句法关系树图，将每个分词信息向量与所述依存句法关系树图结合，通过前馈神经网络集确定所述待分析语句中的至少一个触发词和至少一个论元，以及每个所述触发词所属的事件类型和每个所述论元在每个事件类型下所属的角色类型。能够准确的从大量的网络信息中进行不良信息事件抽取，有效地提高了事件信息抽取的效率及准确性。

为使本申请的上述目的、特征和优点能更明显易懂，下文特举较佳实施例，并配合所附附图，作详细说明如下。

附图说明

为了更清楚地说明本申请实施例的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，应当理解，以下附图仅示出了本申请的某些实施例，因此不应被看作是对范围的限定，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他相关的附图。

图1为本申请实施例所提供的一种语句信息的抽取方法的流程图；

图2为本申请另一实施例所提供的一种语句信息的抽取方法的流程图；

图3为本申请实施例所提供的一种语句信息的抽取装置的结构示意图；

图4为图3中第二确定模块的结构示意图；

图5为本申请实施例所提供的一种电子设备的结构示意图。

具体实施方式

为使本申请实施例的目的、技术方案和优点更加清楚，下面将结合本申请实施例中附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。通常在此处附图中描述和示出的本申请实施例的组件可以以各种不同的配置来布置和设计。因此，以下对在附图中提供的本申请的实施例的详细描述并非旨在限制要求保护的本申请的范围，而是仅仅表示本申请的选定实施例。基于本申请的实施例，本领域技术人员在没有做出创造性劳动的前提下所获得的每个其他实施例，都属于本申请保护的范围。

首先，对本申请可适用的应用场景进行介绍。本申请可应用于信息处理技术领域，通过从获取到的待分析语句中，确定出至少一个分词所对应的分词信息向量以及各个分词之间的关联关系，通过前馈神经网络集，确定出待分析语句中的触发词和论元，以及每个触发词所属的事件类型和每个论元在每个事件类型下所属的角色类型。

随着互联网的蓬勃发展，互联网中的用户迅速增加，使得互联网中的信息数量不断地上升，随着信息量的上升，导致网络中的不良信息等越来越多，造成了极大的网络危害，因此，需要通过事件信息抽取的方式来对互联网中的不良信息进行筛选以进一步整顿，而如何准确的从大量网络信息中进行不良信息的事件信息抽取，以进行信息过滤和筛选成为了亟待解决的问题。

基于此，本申请实施例提供了一种语句信息的抽取方法，根据待分析语句中各个分词的分词信息向量以及各个分词之间的关联关系，将待分析语句中的分词之间的依存关系与神经网络相结合，能够准确的从大量的网络信息中进行不良信息事件抽取，有效地提高了事件信息抽取的效率及准确性。

请参阅图1，图1为本申请实施例所提供的一种语句信息的抽取方法的流程图。如图1中所示，本申请实施例提供的语句信息的抽取方法，包括：

S101、从待分析语句中确定出至少一个分词，并根据预先训练好的词向量矩阵确定出每个所述分词对应的分词信息向量。

该步骤中，获取待分析语句，从待分析语句中确定出至少一个分词，将确定出的所述至少一个分词，根据预先训练好的词向量矩阵，对每个分词进行向量编码，确定出每个分词所对应的分词信息向量。

S102、将所述待分析语句输入预先训练好的依存句法分析模型中，得到所述待分析语句中各个分词之间的依存句法关系树图。

该步骤中，在分析所述待分析语句的各个分词之间的依存关系时，将所述待分析语句输入预先训练好的依存句法分析模型中，通过所述依存句法分析模型得到表示所述待分析语句中各个分词之间关系的所述待分析语句的依存句法关系树图。

其中，所述依存句法关系树是由法国语言学家L.Tesniere最先提出。它根据语句中每个词语之间的关系将该语句分析成一棵依存句法关系树，描述出各个词语之间的依存关系。即指出了词语之间在句法上的搭配关系，这种搭配关系是和语义相关联的。依存句法关系树是一种具有层次关系的特殊的图结构。

举例来说，一个待分析语句“那个孩子很漂亮”中，“漂亮”与“孩子”之间的关系为，“漂亮”是形容“孩子”的。

S103、基于每个分词信息向量以及所述依存句法关系树图，构成所述待分析语句的整体信息向量。

该步骤中，基于步骤S101得到的每个分词信息向量以及步骤S102得到的所述待分析句子的依存句法关系树，确定所述待分析语句的整体信息向量。

其中，所述整体信息向量中包括所述待分析语句的各个分词的分词向量、每个分词所对应的词性标签、实体标签、实体类型标签以及各个分词之间的关联关系。

S104、将所述整体信息向量输入至训练好的前馈神经网络集中，确定所述待分析语句中的至少一个触发词和至少一个论元，以及每个所述触发词所属的事件类型和每个所述论元在每个事件类型下所属的角色类型。

该步骤中，将得到的所述待分析语句的整体信息向量输入至训练好的前馈神经网络集中，通过所述前馈神经网络集中的多个前馈神经网络，确定出所述待分析语句中的至少一个触发词和至少一个论元，并确定每个所述触发词所对应的事件类型；同时确定每个所述论元在每个事件类型下所属的角色类型。

其中，所述触发词为能够表示事件发生的核心词，用于标识事件的谓语，多为动词或名词；所述事件类型：中文标注语料库(ACE2005)定义了8种事件类型和33种子类型。其中，大多数事件抽取均采用33种事件类型。事件识别是基于词的34类(33类事件类型+None)多元分类任务，角色分类是基于词对的36类(35类角色类型+None)多元分类任务；所述论元：事件的参与者，主要由实体、值、时间组成(值是一种非实体的事件参与者，例如工作岗位)；所述角色类型为事件论元在事件中充当的角色。共有35类角色，例如，攻击者、受害者等。

本申请实施例提供的语句信息的抽取方法，从待分析语句中确定出至少一个分词，并根据预先训练好的词向量矩阵确定出每个所述分词对应的分词信息向量；将所述待分析语句输入预先训练好的依存句法分析模型中，得到所述待分析语句中各个分词之间的依存句法关系树图；基于每个分词信息向量以及所述依存句法关系树图，构成所述待分析语句的整体信息向量；将所述整体信息向量输入至训练好的前馈神经网络集中，确定所述待分析语句中的至少一个触发词和至少一个论元，以及每个所述触发词所属的事件类型和每个所述论元在每个事件类型下所属的角色类型。

与现有技术中的语句信息的抽取方法相比，本申请能够根据从待分析语句中确定出的至少一个分词，通过预先训练好的词向量矩阵确定出每个所述分词对应的分词信息向量，同时通过预先训练好的依存句法分析模型，确定所述待分析语句中各个分词之间的依存句法关系树图，将所述至少一个分词信息向量与所述依存句法关系树图结合，通过前馈神经网络集确定所述待分析语句中的至少一个触发词和至少一个论元，以及每个所述触发词所属的事件类型和每个所述论元在每个事件类型下所属的角色类型。能够准确的从大量的网络信息中进行不良信息事件抽取，有效地提高了事件信息抽取的效率及准确性。

请参阅图2，图2为本申请另一实施例提供的语句信息的抽取方法的流程图。如图2中所示，本申请实施例提供的语句信息的抽取方法，包括：

S201、从待分析语句中确定出至少一个分词，并根据预先训练好的词向量矩阵确定出每个所述分词对应的分词信息向量。

S202、将所述待分析语句输入预先训练好的依存句法分析模型中，得到所述待分析语句中各个分词之间的依存句法关系树图。

S203、基于每个分词信息向量以及所述依存句法关系树图，构成所述待分析语句的整体信息向量。

S204、将所述整体信息向量输入至所述前馈神经网络集中的第一前馈神经网络，确定所述待分析语句中的至少一个触发词以及每个所述触发词所属的事件类型。

该步骤中，将所述待分析语句的整体信息向量输入至训练好的前馈神经网络集中的第一前馈神经网络中，通过所述第一前馈神经网络从所述待分析语句中的至少一个分词中确定出至少一个触发词，并确定每个触发词所属的事件类型。

其中，所述第一前馈神经网络为预先训练好的，能够根据输入的待分析语句的整体信息向量确定出在该待分析语句中能够为触发词的分词，同时根据确定出的触发词，确定出触发词所属的事件类型。

S205、对每个事件类型进行编码，得到至少一个事件类型向量。

该步骤中，将步骤S204中确定出的每个事件类型进行编码，得到所述至少一个事件类型对应的事件类型向量。

其中，第一前馈神经网络能够对确定出的事件类型进行编码，将确定出的事件类型以向量的形式输出。

S206、将所述整体信息向量以及所述至少一个事件类型向量输入所述前馈神经网络集中的第二前馈神经网络，确定所述待分析语句中的至少一个论元以及每个所述论元在每个事件类型下所属的角色类型。

该步骤中，将所述待分析句子的整体信息向量以及步骤S205得到的至少一个事件类型向量输入所述前馈神经网络集中的第二前馈神经网络，通过所述第二前馈神经网络，确定在所述待分析语句的至少一个分词中的至少一个论元，同时根据所述论元以及所述至少一个事件类型向量，确定每个所述论元在每个事件类型下所属的角色类型。

其中，所述第二前馈神经网络为预先训练好的，能够根据输入的待分析语句的整体信息向量确定出在该待分析语句中能够为论元的分词，并根据确定出的论元以及输入的事件类型向量，确定在每一个事件类型下每一个论元的角色类型。

其中，S201至S203的描述可以参照S101至S103的描述，并且能达到相同的技术效果，对此不做赘述。

进一步的，步骤S201包括：从所述待分析语句中确定出至少一个分词，针对于每个所述分词，确定所述分词对应的词性标签、所述分词对应的实体标签以及所述分词对应的实体类型标签；根据所述词向量矩阵确定每个所述分词的分词向量；将所述分词向量、所述词性标签、所述实体标签以及所述实体类型标签进行向量拼接，形成所述待分析语句中每个分词对应的分词信息向量。

该步骤中，从所述待分析语句中确定出至少一个分词之后，针对于每一个确定出的分词，确定该分词所对应的词性标签、该分词所对应的实体标签以及该分词所对应的实体类型标签；同时根据预先训练好的词向量矩阵，确定每个分词的分词向量，并将所述分词向量与该分词所对应的词性标签、实体标签以及所述实体类型标签进行向量拼接，得到每一个分词所对应的分词信息向量。

其中，进行拼接后的分词信息向量可以为列向量也可以为行向量在此不做限制。

所述词向量(Word embedding)，就是将来自词汇表的单词或短语映射到实数的向量。

其中，确定所述分词所对应的词性标签、该分词所对应的实体标签以及该分词所对应的实体类型标签，又被称为序列标注对于一个一维线性输入序列I(x1，x2，x3…)，给线性序列中的每个元素打上标签集合中的某个标签：O(L1，L2，L3…)。

进一步的，步骤S203包括：将每个分词信息向量以及所述依存句法关系树图输入图网络中，得到所述待分析语句中每个分词对应的中间分词信息向量；通过注意力机制对每个中间分词信息向量进行二次编码，获得所述待分析语句的整体信息向量。

该步骤中，将得到的所述待分析语句的每个分词所对应的分词信息向量以及能够表明所述待分析语句中各个分词之间的关联关系的所述依存句法关系树图输入图网络中，得到所述待分析语句中每个分词对应的中间分词信息向量；而后通过注意力机制对每个分词对应的中间分词信息向量进行二次编码，得到所述待分析语句的整体信息向量。

其中，图网络是一种神经网络结构。它由相互连接的图网络块(GN block)组成，在神经网络中也被称为“节点(node)”。节点间的连接被称为“边(edge)”，表示了节点间的依赖关系。图网络接受一个图结构以及该图上每个点的特征向量作为输入，通过在图上迭代式地对节点特征向量进行传播，最终输出每个节点的新特征向量。新特征向量中编码了由输入图中的节点间依赖关系所决定的图结构信息。

注意力(attention)机制是一种神经网络结构。其本质可以被描述为一个查询(query)到一系列(键key-值value)对的映射。在计算attention时主要分为三步，第一步是将query和每个key进行相似度计算得到权重，常用的相似度函数有点积，拼接，感知机等；然后第二步一般是使用一个softmax函数对这些权重进行归一化；最后将权重和相应的键值value进行加权求和得到最后的attention。

进一步的，步骤S204包括：根据所述整体信息向量中包括的所述待分析语句的每一个分词对应的词性标签，确定所述待分析语句中的至少一个触发词；确定每个所述触发词所属的事件类型。

该步骤在中，将所述整体信息向量输入至第一前馈神经网络中后，所述第一前馈神经网络能够根据所述整体信息向量中包括的所述待分析语句的每一个分词所对应的词性标签，确定出所述待分析语句中的至少一个分词中能够成为触发词的至少一个触发词；所述第一前馈神经网络在确定出所述至少一个触发词后，能够通过预先训练好的参数确定出每个触发词所属的事件类型。

示例性的，“当商场开业时，一个女孩拿钱去购买衣服”，其中，“开业”可以为触发词，其所对应的事件类型可以为“销售”；“购买”可以为触发词，其所对应的事件类型可以为“消费”。在本实施例中仅为举例说明，确定出的触发词以及每个触发词所属的事件类型皆可以根据实际情况进行更改。

进一步的，步骤S206包括：根据所述整体信息向量中包括的所述待分析语句的每个分词对应的实体标签，确定所述待分析语句的至少一个论元；根据所述至少一个事件类型向量，确定在每个所述事件类型向量下，每个所述论元所属的角色类型。

该步骤中，将所述整体信息向量以及所述至少一个事件类型向量输入至第二前馈神经网络中后，所述第二前馈神经网络能够根据所述整体信息向量中包括的所述待分析语句中的每个分词所对应的实体标签，将所述待分析语句中的至少一个分词中为实体的分词确定为论元，并根据所述至少一个事件类型向量，确定出在每个事件类型下每个论元所属的角色类型。

对应于上述实施例，“商场”、“女孩”、“衣服”、“钱”可以为论元，在“销售”这个事件类型下，“商场”所属的角色类型为“地点”，“女孩”所属的角色类型为“目标”，“衣服”所属的角色类型为“物品”，“钱”所属的角色类型为“工具”；相应的，在“消费”这个事件类型下，“商场”所属的角色类型为“地点”，“女孩”所属的角色类型为“消费者”，“衣服”所属的角色类型为“物品”，“钱”所属的角色类型为“工具”。在本实施例中仅为举例说明，确定出的触发词以及每个触发词所属的事件类型皆可以根据实际情况进行更改。

本申请实施例提供的语句信息的抽取方法，从待分析语句中确定出至少一个分词，并根据预先训练好的词向量矩阵确定出每个所述分词对应的分词信息向量；将所述待分析语句输入预先训练好的依存句法分析模型中，得到所述待分析语句中各个分词之间的依存句法关系树图；基于每个分词信息向量以及所述依存句法关系树图，构成所述待分析语句的整体信息向量；将所述整体信息向量输入至所述前馈神经网络集中的第一前馈神经网络，确定所述待分析语句中的至少一个触发词以及每个所述触发词所属的事件类型；对每个事件类型进行编码，得到至少一个事件类型向量；将所述整体信息向量以及所述至少一个事件类型向量输入所述前馈神经网络集中的第二前馈神经网络，确定所述待分析语句中的至少一个论元以及每个所述论元在每个事件类型下所属的角色类型。

与现有技术中的语句信息的抽取方法相比，本申请能够根据从待分析语句中确定出的至少一个分词，通过预先训练好的词向量矩阵确定出每个所述分词对应的分词信息向量，同时通过预先训练好的依存句法分析模型，确定所述待分析语句中各个分词之间的依存句法关系树图，将所述至少一个分词信息向量与所述依存句法关系树图结合，通过前馈神经网络集中的第一前馈神经网络以及第二神经网络，确定所述待分析语句中的至少一个触发词和至少一个论元，以及每个所述触发词所属的事件类型和每个所述论元在每个事件类型下所属的角色类型。能够准确的从大量的网络信息中进行不良信息事件抽取，有效地提高了事件信息抽取的效率及准确性。

请参阅图3、图4，图3为本申请实施例所提供的一种语句信息的抽取装置的结构示意图，图4为图3中第二确定模块的结构示意图。如图3中所示，所述抽取装置300包括：

第一确定模块310，用于从待分析语句中确定出至少一个分词，并根据预先训练好的词向量矩阵确定出每个所述分词对应的分词信息向量；

关系获取模块320，用于将所述待分析语句输入预先训练好的依存句法分析模型中，得到所述待分析语句中各个分词之间的依存句法关系树图；

向量构成模块330，用于基于每个分词信息向量以及所述依存句法关系树图，构成所述待分析语句的整体信息向量；

第二确定模块340，用于将所述整体信息向量输入至训练好的前馈神经网络集中，确定所述待分析语句中的至少一个触发词和至少一个论元，以及每个所述触发词所属的事件类型和每个所述论元在每个事件类型下所属的角色类型。

进一步的，如图4所示，所述第二确定模块340包括：

第一确定单元341，用于将所述整体信息向量输入至所述前馈神经网络集中的第一前馈神经网络，确定所述待分析语句中的至少一个触发词以及每个所述触发词所属的事件类型；

向量确定单元342，用于对每个事件类型进行编码，得到至少一个事件类型向量；

第二确定单元343，用于将所述整体信息向量以及所述至少一个事件类型向量输入所述前馈神经网络集中的第二前馈神经网络，确定所述待分析语句中的至少一个论元以及每个所述论元在每个事件类型下所属的角色类型。

进一步的，所述第一确定模块310在从待分析语句中确定出至少一个分词，并根据预先训练好的词向量矩阵确定出每个所述分词对应的分词信息向量时，所述第一确定模块310用于：

根据所述词向量矩阵确定每个所述分词的分词向量；

进一步的，所述向量构成模块330在基于每个分词信息向量以及所述依存句法关系树图，构成所述待分析语句的整体信息向量时，所述向量构成模块330用于：

进一步的，所述第一确定单元341在将所述整体信息向量输入至所述前馈神经网络集中的第一前馈神经网络，确定所述待分析语句中的至少一个触发词以及每个所述触发词所属的事件类型时，所述第一确定单元341还用于：

确定每个所述触发词所属的事件类型。

进一步的，所述第二确定单元343在将所述整体信息向量以及所述至少一个事件类型向量输入所述前馈神经网络集中的第二前馈神经网络，确定所述待分析语句中的至少一个论元以及每个所述论元在每个事件类型下所属的角色类型时，所述第二确定单元343用于：

本申请实施例提供的语句信息的抽取装置，从待分析语句中确定出至少一个分词，并根据预先训练好的词向量矩阵确定出每个所述分词对应的分词信息向量；将所述待分析语句输入预先训练好的依存句法分析模型中，得到所述待分析语句中各个分词之间的依存句法关系树图；基于每个分词信息向量以及所述依存句法关系树图，构成所述待分析语句的整体信息向量；将所述整体信息向量输入至训练好的前馈神经网络集中，确定所述待分析语句中的至少一个触发词和至少一个论元，以及每个所述触发词所属的事件类型和每个所述论元在每个事件类型下所属的角色类型。

请参阅图5，图5为本申请实施例所提供的一种电子设备的结构示意图。如图5中所示，所述电子设备500包括处理器510、存储器520和总线530。

所述存储器520存储有所述处理器510可执行的机器可读指令，当电子设备500运行时，所述处理器510与所述存储器520之间通过总线530通信，所述机器可读指令被所述处理器510执行时，可以执行如上述图1以及图2所示方法实施例中的语句信息的抽取方法的步骤，具体实现方式可参见方法实施例，在此不再赘述。

本申请实施例还提供一种计算机可读存储介质，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器运行时可以执行如上述图1以及图2所示方法实施例中的语句信息的抽取方法的步骤，具体实现方式可参见方法实施例，在此不再赘述。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的系统、装置和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

在本申请所提供的几个实施例中，应该理解到，所揭露的系统、装置和方法，可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，又例如，多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些通信接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本申请各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。

所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个处理器可执行的非易失的计算机可读取存储介质中。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(Read-OnlyMemory，ROM)、随机存取存储器(Random Access Memory，RAM)、磁碟或者光盘等各种可以存储程序代码的介质。

最后应说明的是：以上所述实施例，仅为本申请的具体实施方式，用以说明本申请的技术方案，而非对其限制，本申请的保护范围并不局限于此，尽管参照前述实施例对本申请进行了详细的说明，本领域的普通技术人员应当理解：任何熟悉本技术领域的技术人员在本申请揭露的技术范围内，其依然可以对前述实施例所记载的技术方案进行修改或可轻易想到变化，或者对其中部分技术特征进行等同替换；而这些修改、变化或者替换，并不使相应技术方案的本质脱离本申请实施例技术方案的精神和范围，都应涵盖在本申请的保护范围之内。因此，本申请的保护范围应以权利要求的保护范围为准。

Claims

1.一种语句信息的抽取方法，其特征在于，所述抽取方法包括：

将所述整体信息向量输入至训练好的前馈神经网络集中，确定所述待分析语句中的至少一个触发词和至少一个论元，以及每个所述触发词所属的事件类型和每个所述论元在每个事件类型下所属的角色类型；其中，所述角色类型为论元在事件类型中充当的角色；

其中，所述训练好的前馈神经网络集包括第一前馈神经网络和第二前馈神经网络；所述第一前馈神经网络用于确定出所述待分析语句中每个触发词所属的事件类型以及每个事件类型的事件类型向量；所述第二前馈神经网络用于确定每个论元在每个事件类型下所属的角色类型。

2.根据权利要求1所述的抽取方法，其特征在于，所述从待分析语句中确定出至少一个分词，并根据预先训练好的词向量矩阵确定出每个所述分词对应的分词信息向量，包括：

根据所述词向量矩阵确定每个所述分词的分词向量；

3.根据权利要求1所述的抽取方法，其特征在于，所述基于每个分词信息向量以及所述依存句法关系树图，构成所述待分析语句的整体信息向量，包括：

4.根据权利要求1所述的抽取方法，其特征在于，所述将所述整体信息向量输入至训练好的前馈神经网络集中，确定所述待分析语句中的至少一个触发词和至少一个论元，以及每个所述触发词所属的事件类型和每个所述论元在每个事件类型下所属的角色类型，包括：

对每个事件类型进行编码，得到至少一个事件类型向量；

5.根据权利要求4所述的抽取方法，其特征在于，所述将所述整体信息向量输入至所述前馈神经网络集中的第一前馈神经网络，确定所述待分析语句中的至少一个触发词以及每个所述触发词所属的事件类型，包括：

确定每个所述触发词所属的事件类型。

6.根据权利要求5所述的抽取方法，其特征在于，所述将所述整体信息向量以及所述至少一个事件类型向量输入所述前馈神经网络集中的第二前馈神经网络，确定所述待分析语句中的至少一个论元以及每个所述论元在每个事件类型下所属的角色类型，包括：

7.一种语句信息的抽取装置，其特征在于，所述抽取装置包括：

第二确定模块，用于将所述整体信息向量输入至训练好的前馈神经网络集中，确定所述待分析语句中的至少一个触发词和至少一个论元，以及每个所述触发词所属的事件类型和每个所述论元在每个事件类型下所属的角色类型；其中，所述角色类型为论元在事件类型中充当的角色；

8.根据权利要求7所述的抽取装置，其特征在于，所述第二确定模块包括：

9.一种电子设备，其特征在于，包括：处理器、存储器和总线，所述存储器存储有所述处理器可执行的机器可读指令，当电子设备运行时，所述处理器与所述存储器之间通过所述总线通信，所述机器可读指令被所述处理器执行时执行如权利要求1至6中任一所述的语句信息的抽取方法的步骤。

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器运行时执行如权利要求1至6中任一所述的语句信息的抽取方法的步骤。