CN109063159A

CN109063159A - 一种基于神经网络的实体关系抽取方法

Info

Publication number: CN109063159A
Application number: CN201810914450.XA
Authority: CN
Inventors: 钟艳如; 赵蕾先; 姜超豪; 谢庆博; 罗笑南
Original assignee: Guilin University of Electronic Technology
Current assignee: Guilin University of Electronic Technology
Priority date: 2018-08-13
Filing date: 2018-08-13
Publication date: 2018-12-21
Anticipated expiration: 2038-08-13
Also published as: CN109063159B

Abstract

本发明公开了一种基于神经网络的实体关系抽取方法，采用机器学习方面的算法并且结合神经网络模型，将一段中文语句输入到程序模型，模型会给其中的实体单词或者语句打上特别的标签，即可以将文本中的实体提取出来，再通过一个分类算法为提取出来得到实体做关系分类，完成实体关系分类。具体是将中文文本中出现的每一个字都分配一个ID，然后把这组句子所对应的ID转换成神经网络模型的输入向量，经过bilstm以及CRF层得到的结果映射到相应的实体标签，完成实体抽取,最后将从文本中的实体使用机器学习分类的算法进行分类，最后得实体‑‑关系‑‑实体这样的三元组形式。该方法仅需要训练文本以及输入语句就可以完成关系实体抽取，是一种灵活方便的方法。

Description

一种基于神经网络的实体关系抽取方法

技术领域

本发明涉及机器学习、深度学习方面的算法应用，以及相关的中文语言处理的方式，具体是一种基于神经网络的实体关系抽取方法。

背景技术

随着互联网的蓬勃发展，用户迅速增加，用户上网所产生信息不断增长,传统的返回检索页面的信息检索方式已经难以满足用户全面快速获取信息和知识资源的需求。实体关系抽取作为信息抽取重要组成部分,自动化地从自然语言中抽取实体关系元组的结构化信息,从而为用户提供更加智能的信息检索方式,其可帮助用户快速理解、掌握互联网中日益增长的信息，也对一些计算机的研究方向提供帮助，可以为中文自然语言提供语料数据，也可以为知识图谱的构建提供相关帮助。

发明内容

本发明的目的在于克服现有技术的不足，而提供一种基于神经网络的实体关系抽取方法，该方法与现有技术相比，可以通过训练，得到一组权重模型，灵活计算每次进入的输入文本，不受固定的格式限制，容易实现，且开发成本低，模型判断速度快。

实现本发明目的的技术方案是：

一种基于神经网络的实体关系抽取方法，通过构建神经网络模型抽取实体，再用分类算法对模型抽取的实体进行分类，完成实体关系的抽取，具体包括如下步骤：

1）对训练集预处理：

1-1）将训练集的文本以及文字进行分割，达到字与字之间分开的效果；

1-2）将分开的字转换成字典，每个字都有对应的数字ID；

1-3）将训练集的句子每个字都转换成相应的字典ID，形成句子向量；

1-4）经过上述步骤处理后得到的数据输入模型的编码层；

2）训练实体抽取模型：

2-1）将步骤1）得到的句子向量送入神经网络的Embedding层进行编码；

2-2）接收来自步骤1-3）的处理数据，将其置入bilstm层完成双向长短记忆特征训练，经过反复timestep后的训练得到一组数据权重；

2-3）将步骤2-2）得到的数据，转送到CRF层对数据进行约束，提高分类精度；

2-4）重复进行上述步骤将模型训练到精确度最高的情况，得到实体抽取模型；

2-5）将文本输入实体抽取模型中，抽取实体；

3）关系分类：

3-1）将步骤2-5）抽取到的实体进行向量转化操作，将其变成可以被计算机识别的特征向量；

3-2）接收步骤3-1）后处理的特征向量，对接收到的特征向量进行PCA降维，转化成空间坐标（a，b）的形式；

3-3）对空间坐标做KNN分类，找到最近的关系点；

经过上述步骤，完成实体关系的抽取。

步骤1-1）中，所述分割，是将文本转化为相应的标签文本：B-PER I-PER B-ORG I-ORG B-LOC I-LOC；其中B-PER表示人名开始符号，I-PER表示人名后缀符号，B-ORG表示组织名开始符号，I-ORG表示组织名后缀符号，B-LOC表示位置开始符号，I-LOC表示位置后缀符号。

步骤2-1）中，所述的神经网络为循环神经网络。

所述步骤2），需要满足以下环境：

a、python环境python>=3.5），

b、keras神经网络模块>=2.14，

c、tensorflow>=1.40，

d、numpy以及py5d模块组件。

步骤2-4中，所述的实体抽取模型，输入的为中文txt样本，输出的为标签块。

有益效果：本发明提供的一种基于神经网络的实体关系抽取方法，该方法是将输入文本转化为实体标签，有助于相关文本识别方面产品的开发，例如知识图谱构建、智能识别语义网等的研究。

附图说明

图1为实体抽取流程图；

图2为文本输入转化标签图。

具体实施方式

下面结合附图和实施例对本发明做进一步阐述，但不是对本发明的限定。

如图1所示，一种基于神经网络的实体关系抽取方法，通过构建神经网络模型抽取实体，再用分类算法对模型抽取的实体进行分类，完成实体关系的抽取，具体包括如下步骤：

1）对训练集预处理：

1-1）将训练集的文本以及文字进行分割，达到字与字之间分开的效果；例如将“德国总理高克访问中国”分割成“德 B-ORG 国 I-ORG 总O理 O高B-PER 克 I-PER访O问P中B-ORG国I-ORG”打上标签的训练文本，如图2所示。

1-2）将分开的字转换成字典，每个字都有对应的数字ID。

1-3）将训练集的句子每个字都转换成相应的字典ID，，第一个出现的字分配ID 号码为1，第二出现的字分配ID号码为2，依此类推，整段句子形成一段数字串，该数字串形成被计算机识别的句子向量。

1-4）经过上述步骤处理后得到的数据输入模型的编码层。

2）训练实体抽取模型，需要满足以下环境：

a、python环境python>=3.5），

b、keras神经网络模块>=2.14，

c、tensorflow>=1.40，

d、numpy以及py5d模块组件。

2-1）将步骤1）得到的句子向量送入循环神经网络的Embedding层进行编码；

循环神经网络因其网络结构能够很好的反映出文本序列之间的输入输出，但是也是因为这一特殊的结构，使得其无法拥有记忆上下文的能力，所以这个时候就必须是通道长短记忆（LSTM），LSTM就如同一个门阀，将重要的信息记录下来，而过滤掉在神经网络中影响权值较低的信息；

Embedding层在处理中文文本所对应的向量上有优势，其可以接受向量的每一个字ID，并将这个ID转化成一段新的向量，在此我们称其为字向量。拥有了字向量便可以更好的从中提取相应的特征。

2-2）接收来自步骤1-3）的处理数据，将其置入Bilstm层完成双向长短记忆特征训练，经过反复timestep后的训练得到一组数据权重；Bilstm可以实现双向的LSTM层权值学习，结合语义学习输入的文本特征，这种方法比单向的LSTM层要好。Bilstm层与RNN组合起来的网络名称为BIRNN即Bi-directional Recurrent Neural Network (BRNN)。

2-3）将步骤2-2）得到的数据，转送到CRF层对数据进行约束，提高分类精度；只经历过Bilstm层的输入虽然也可以训练出很好的文本模型，但是仍有不足，这样会造成一些约束丧失，例如“德国”的正确标签是B-ORG I-ORG ，在某些神经的输出下则会输出下列的形式“B-ORG I-PER”，即约束缺失；CRF层接收Bilstm层传递下来的权值，并且通过CRF得到新的权值向量，这次的权值向量上的每一个值代表着的是当全部输入完成以及通过大量样本训练完成之后，就可以得到一个识别自然语言的模型。

2-4）重复进行上述步骤将模型训练到精确度最高的情况，得到实体抽取模型。

2-5）将文本输入实体抽取模型中，抽取实体；该模型的输入为中文txt样本，输出为标签块，实体抽取的问题就转化为字符串处理，将成块的字符串转化成固定的实体，有了实体就为后续的关系分类做出了铺垫。

3）关系分类：

3-1）将步骤2-5）抽取到的实体进行向量转化操作，将其变成可以被计算机识别的特征向量，由于单独的实体无法转化为空间向量，采用word2vec来训练词向量，word2vec 是一群产生词向量的神经网络模型，拥有两层神经网络层来训练词语，word2vec采用的是词袋模型，其可以将词转化成空间向量，词向量的特征值都代表着某一方面的语义特征。

3-3）对空间坐标做KNN分类，通过计算欧式距离找到空间上最近的几个分类点，找到最近的关系点，完成分类；KNN分类是采用KNN算法为样本空间找出K个离样本最近的样本，并记录其分类情况，假设某一分类情况占据绝大多数，那么就可以断定这个样本点属于这一分类。

经过上述步骤，完成实体关系的抽取。

Claims

1.一种基于神经网络的实体关系抽取方法，其特征在于，通过构建神经网络模型抽取实体，再用分类算法对模型抽取的实体进行分类，完成实体关系的抽取，具体包括如下步骤：

1）对训练集预处理：

1-2）将分开的字转换成字典，每个字都有对应的数字ID；

1-4）经过上述步骤处理后得到的数据输入模型的编码层；

2）训练实体抽取模型：

2-5）将文本输入实体抽取模型中，抽取实体；

3）关系分类：

3-3）对空间坐标做KNN分类，找到最近的关系点；

经过上述步骤，完成实体关系的抽取。

2. 根据权利要求1所述的一种基于神经网络的实体关系抽取方法，其特征在于，步骤1-1）中，所述分割，是将文本转化为相应的标签文本：B-PER I-PER B-ORG I-ORG B-LOC I-LOC；其中B-PER表示人名开始符号，I-PER表示人名后缀符号，B-ORG表示组织名开始符号，I-ORG表示组织名后缀符号，B-LOC表示位置开始符号，I-LOC表示位置后缀符号。

3.根据权利要求1所述的一种基于神经网络的实体关系抽取方法，其特征在于，步骤2-1）中，所述的神经网络为循环神经网络。

4.根据权利要求1所述的一种基于神经网络的实体关系抽取方法，其特征在于，所述步骤2），需要满足以下环境：

a、python环境python>=3.5），

b、keras神经网络模块>=2.14，

c、tensorflow>=1.40，

d、numpy以及py5d模块组件。

5.根据权利要求1所述的一种基于神经网络的实体关系抽取方法，其特征在于，步骤2-4中，所述的实体抽取模型，输入的为中文txt样本，输出的为标签块。