CN110377756A

CN110377756A - 海量数据集事件关系抽取方法

Info

Publication number: CN110377756A
Application number: CN201910600030.9A
Authority: CN
Inventors: 陈泽勇; 张治同; 张莉; 姚松
Original assignee: Chengdu Dippmann Information Technology Co Ltd
Current assignee: Chengdu Dippmann Information Technology Co Ltd
Priority date: 2019-07-04
Filing date: 2019-07-04
Publication date: 2019-10-25
Anticipated expiration: 2039-07-04
Also published as: CN110377756B

Abstract

本发明公开了一种海量数据集事件关系抽取方法，包括：S1：三元组之间按照关联规则建立关联关系和关联强度，组成无向网；S2：连接三元组中的前项词向量、后项词向量和实体类型，作为无向网中节点的特征；S3：对无向网中每个节点进行分类处理，抽取事件中的实体关系。解决了大数据集或海量数据集中事件关系的抽取精度和速度问题，由于使用了卷积网路，可以进行并行运算，由此解决了抽取速度问题；同时由于是在图数据结构上使用了卷积网络提取特征，因此利用卷积网路提取特征强的优势，解决了传统方法由于提取特征弱造成的精度低的缺陷。

Description

海量数据集事件关系抽取方法

技术领域

本发明涉及事件关系抽取领域，尤其涉及海量数据集事件关系抽取方法。

背景技术

目前在知识图谱系统的开发中，对于事件关系的抽取，主流算法都是基于远程监督的算法，该种算法对小数据量的数据集比较实用，一旦数据集中的实体数量达到千万级别以上，就面临计算缓慢，事件关系抽取精度不高，需要海量人工标注的训练样本等缺点。传统的远程监督训练的算法在大数据集和海量数据集上很难达到60%，传统方式所需人工标注的样本数量基本要到10万级别甚至更高。

发明内容

为了解决上述问题，本发明提出一种海量数据集事件关系抽取方法，包括以下步骤：

S1：三元组之间按照关联规则建立关联关系和关联强度，组成无向网；

S2：连接三元组中的前项词向量、后项词向量和实体类型，作为无向网中节点的特征；

S3：对无向网中每个节点进行分类处理，抽取事件中的实体关系。

优选的，以FP-树频集算法为基础建立关联规则。

优选的，无向网的组成过程包括以下步骤：

S11：将事件描述成包括主语、谓语和宾语的三元组，所述三元组作为一个节点；

S12：节点和节点之间进行连接，连接线上标记关联关系与关联强度。

优选的，所述步骤S2包括：

S21：分别抽取三元组中的前项和后项，合并成前项词向量和后项词向量；

S22：抽取三元组中的实体类型；

S23：将前项词向量、后项词向量和实体类型通过one-hot方式编码，作为节点的特征。

优选的，前项、后项是词组时，将词组中的词向量按照element wise连加，合并成一个词向量。

优选的，步骤S3中的对节点进行分类的过程，包括以下步骤：

S31：每一个节点将自身的特征信息经过变换后发送给邻居节点；

S32：每个节点将邻居节点的特征信息聚集起来；

S33：将前面的信息聚集之后进行非线性变换；

S34：对样本数据进行分类训练。

优选的，步骤S34包括以下步骤：

S41：构造一个带有池化层结构的标准卷积网络，最后一层为一个全连接层输出；

S42：将每一对节点的关系类别作为样本标签进行分类训练。

本发明的有益效果在于：解决了大数据集或海量数据集中事件关系的抽取精度和速度问题，由于使用了卷积网路，可以进行并行运算，由此解决了抽取速度问题；同时由于是在图数据结构上使用了卷积网络提取特征，因此利用卷积网路提取特征强的优势，解决了传统方法由于提取特征弱造成的精度低的缺陷。

附图说明

图1是无向网示意图；

图2是无向网节点分类过程示意图。

具体实施方式

为了使本领域的技术人员更好地理解本发明的技术方案，下面结合附图和具体实施例对本发明作进一步的详细说明。

本发明提出一种海量数据集事件关系抽取方法，包括以下步骤：

优选的，以FP-树频集算法为基础建立关联规则。

无向网示意图如图1所示，优选的，无向网的组成过程包括以下步骤：

在训练语料里的句子全部用手工方式将每一个事件都可以被描述成一个由主语+谓语+宾语的形式，形成三元组，每一个分解成这种形式的句子就构成一个样本。而主语与宾语都是由名词或名词性词组构成，而谓语则由动词或动词性词组构成。连接两个名词或名词性词组的谓语代表关联关系，每一个关联关系的权重代表了关联强度。

优选的，所述步骤S2包括：

S22：抽取三元组中的实体类型；

在无向网中，基于图论的方式，将事件中涉及的实体表示成图的节点，实体属性表示成节点属性，每个节点有输入属性也有输出属性。

如图2所示，步骤S3中的对节点进行分类的过程，包括以下步骤：

S31：每一个节点将自身的特征信息经过变换后发送给邻居节点；这一步是在对节点的特征信息进行抽取变换；

S32：每个节点将邻居节点的特征信息聚集起来；这一步是在对节点的局部结构信息进行融合；

S33：将前面的信息聚集之后进行非线性变换，增加模型的表达能力

S34：使用与卷积神经网络相同的方法对样本数据进行分类训练。

优选的，步骤S34包括以下步骤：

S42：将每一对节点的关系类别作为样本标签进行分类训练。

需要说明的是，对于前述的各个方法实施例，为了简单描述，故将其都表述为一系列的动作组合，但是本领域技术人员应该知悉，本申请并不受所描述的动作顺序的限制，因为依据本申请，某一些步骤可以采用其他顺序或者同时进行。其次，本领域技术人员也应该知悉，说明书中所描述的实施例均属于优选实施例，所涉及的动作和单元并不一定是本申请所必须的。

在上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详细描述的部分，可以参见其他实施例的相关描述。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的程序可存储于计算机可读取存储介质中，该程序在执行时，可包括如上述各方法的实施例的流程。其中，所述的存储介质可为磁碟、光盘、ROM、RAM等。

以上所揭露的仅为本发明较佳实施例而已，当然不能以此来限定本发明之权利范围，因此依本发明权利要求所作的等同变化，仍属本发明所涵盖的范围。

Claims

1.海量数据集事件关系抽取方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的海量数据集事件关系抽取方法，其特征在于，以FP-树频集算法为基础建立关联规则。

3.根据权利要求1所述的海量数据集事件关系抽取方法，其特征在于，无向网的组成过程包括以下步骤：

4.根据权利要求1所述的海量数据集事件关系抽取方法，其特征在于，所述步骤S2包括：

S22：抽取三元组中的实体类型；

5.根据权利要求3所述的海量数据集事件关系抽取方法，其特征在于，前项、后项是词组时，将词组中的词向量按照element wise连加，合并成一个词向量。

6.根据权利要求1所述的海量数据集事件关系抽取方法，其特征在于，步骤S3中的对节点进行分类的过程，包括以下步骤：

S32：每个节点将邻居节点的特征信息聚集起来；

S33：将前面的信息聚集之后进行非线性变换；

7.根据权利要求6所述的海量数据集事件关系抽取方法，其特征在于，步骤S34包括以下步骤：

S42：将每一对节点的关系类别作为样本标签进行分类训练。