CN106649275A

CN106649275A - 基于词性信息和卷积神经网络的关系抽取方法

Info

Publication number: CN106649275A
Application number: CN201611232744.1A
Authority: CN
Inventors: 罗强; 刘世林; 丁国栋; 练睿; 罗镇权; 闫俊杰
Original assignee: Chengdu Business Big Data Technology Co Ltd
Current assignee: Chengdu Business Big Data Technology Co Ltd
Priority date: 2016-12-28
Filing date: 2016-12-28
Publication date: 2017-05-10

Abstract

本发明涉及自然语言处理领域，特别涉及基于词性信息和卷积神经网络的关系抽取方法；将词性纳入特征信息输入到卷积神经网络中，由卷积神经网络来完成对包括词、词性和相对于待抽取关系的实体位置的信息的自动特征提取，进行实体间关系的自动分类。本发明方法使用卷积神经网络完成了待处理文本特征的自动提取，在进行特征提取时，将词性向量和词向量结合，使卷积神经网络能够自动学习到更多有助于关系分类的特征，分类判断的准确率更高。本发明方法与基于规则的关系抽取方法相比，不用人工编写大量的规则，减少了工作量，节省人力和时间成本；且具有更好的领域扩展性。与基于传统机器学习方法相比；不用做繁琐的特征工程工作，关系抽取效率更高。

Description

基于词性信息和卷积神经网络的关系抽取方法

技术领域

本发明涉及自然语言处理领域，特别涉及基于词性信息和卷积神经网络的关系抽取方法。

背景技术

随着互联网的快速发展，互联网已经成为了人们获取信息的主要渠道，互联网上的文本数据内容也呈现出指数级增长的趋势。互联网上的文本数据中包含了丰富的信息，对于我们构建知识库或知识图谱非常有用；但是人工进行相关知识提取工作量极其巨大，如果计算机能够理解并提取出有用的信息，那将具有非常重要的意义。但互联网上的文本数据几乎都是以自然语言的形式存在，即无结构化的，计算机无法直接进行处理。为了解决这个问题，信息抽取技术应运而生，信息抽取技术从无结构化的文本数据中抽取出结构化数据，包括实体、实体间关系、事件等。

关系抽取是信息抽取技术里的一项关键技术，通常通过命名实体识别技术识别出句子或语篇中的实体，再由关系抽取技术识别实体对之间的关系。关系抽取常用的方法包括：基于规则的抽取方法，基于无监督学习的抽取方法和基于监督学习的抽取方法。基于规则的关系抽取方法是人工编写规则来识别句子或者语篇中两个实体之间的关系。基于无监督学习的关系抽取方法将包括实体的句子或者语篇进行聚类，基于聚类结果进行关系识别。基于监督学习的关系抽取方法，通常将关系抽取问题转化为一个分类问题，再基于传统机器学习技术或深度学习技术进行关系分类。

目前关系抽取方法中，基于规则的方法存在明显的不足，该方法需要人工编写大量的规则，工作量非常大，不易维护，而且必须对每个领域都编写规则，不能很好的扩展到其他领域。基于无监督学习的方法，将句子或语篇进行聚类时，往往效果不是很好，存在召回率和准备率都不高的问题，而且需要很多的人工干预。基于监督学习的关系抽取算法中，基于传统的机器学习算法进行关系分类时，需要人工提炼大量的特征，通常会基于分词、词性标注及句法分析等自然语言处理工具的结果提取特征，而且需要具备特定的领域知识，工作量大。

基于深度学习进行关系分类时，不用人工做大量的特征提取，如利用卷积神经网络进行关系分类，但目前利用卷积神经网络进行关系分类时没有利用句子中词的词性信息，词性是词法分析的重要成果，对理解句子含义非常有意义，为关系分类提供非常重要的信息，能够提高关系分类的准确率，优化关系提取的效果。

发明内容

本发明的目的在于克服现有技术中所存在的上述不足，提供基于词性信息和卷积神经网络的关系抽取方法，将词性纳入特征信息输入到卷积神经网络中，由卷积神经网络来完成对包括词、词性和相对于待抽取关系的实体位置的信息的自动特征提取，进行实体关系的自动分类；无需手动进行特征提取，预测的效率和准确率更高。

为了实现上述发明目的，本发明提供了以下技术方案：基于词性信息和卷积神经网络的关系抽取方法，将待处理文本分词后，将由各个词的词信息向量依次排列成的矩阵，输入卷积神经网络中，由卷积神经网络进行特征抽取，进而成对待处理文本中实体关系的判断；所述词信息向量由对应词的词向量Vector1、词性向量Vector2、相对于待抽取关系第一实体的位置向量Vector3和相对于第二实体的位置向量Vector4拼接而成。

具体的，本发明基于词性信息和卷积神经网络的关系抽取方法包含以下实现步骤：

(1)对待处理文本进行分词，形成词序列，并对序列中的各个词进行对应的词性标注：

(2)建立各个词与向量之间的映射关系；

建立各个词性与向量之间的映射关系；

(3)计算序列中各个词相对于第一实体的位置，生成第一位置向量Vector3；计算句子中各个词相对于第二实体的位置，生成第二位置向量Vector4；

(4)将词序列中各个词的词向量Vector1、词性向量Vector2，第一位置向量Vector3和第二位置向量Vector4，拼接成词信息向量Vector5；并将各个词对应的词信息向量依序排列，形成词信息矩阵；

(5)将词信息矩阵输入到卷积神经网络中，进而实现实体关系分类判断。进一步的，所述步骤(2)包含以下实现过程：

(2-1)构建一个语料库；

(2-2)对语料库中的文本进行分词，并进行对应词性标注；

(2-3)对分词后形成词的进行向量转化，同一个词对应一个向量；

(2-4)将各个词性进行向量转化，同一词性对应一个向量。

作为一种优选，所述步骤(2)采用Word Embedding技术来进行词和词性的向量转化。

作为一种优选，所述步骤(2)中采用word2vec来实现词和词性的向量化。

进一步的，所述步骤(2)与所述步骤(1)的顺序可以调换。

进一步的，所述卷积神经网络将提取到的特征信息输入到maxpooling层中，进行降维处理。

进一步的，所述maxpooling层将经过降维处理后的特征信息输入到softmax层中进行对实体关系的分类预测。

与现有技术相比，本发明的有益效果：本发明提供基于词性信息和卷积神经网络的关系抽取方法，将词性纳入特征信息输入到卷积神经网络中，由卷积神经网络来完成对包括词，词性和相对于待抽取关系的实体位置的信息的自动特征提取，进行实体关系的自动分类；在采用卷积神经网络进行关系抽取时，除了利用词信息和相对于实体的位置信息以外，还充分利用了词的词性信息，有助于更好的理解句子语义。将词性向量和词向量结合成一个信息含量更大的向量；当词向量信息不足的时候词性向量信息会作为补充，使卷积神经网络能够自动学习到更多有助于关系分类的特征，准确率更高。当句子中的词语表示存在歧义时，加入词性信息后，可以一定程度上消除歧义，使关系抽取的鲁棒性更好。

与基于规则的关系抽取方法相比，本发明方法不用人工编写大量的规则，减少了工作量；而且能够比较好的扩展到不同的领域。本发明方法省略了人工规则编写的步骤，特征的提取由卷积神经网络来完成提取，与基于传统机器学习方法相比，本发明不用做繁琐的特征工程工作，使提升了实体关系的判断效率。

附图说明：

图1为本基于词性信息和卷积神经网络的关系抽取方法的实现步骤图。

图2为实施例1总本基于词性信息和卷积神经网络的关系抽取方法实现步骤示意图。

图3为本基于词性信息和卷积神经网络的关系抽取方法的工作原理示意图。

具体实施方式

下面结合试验例及具体实施方式对本发明作进一步的详细描述。但不应将此理解为本发明上述主题的范围仅限于以下的实施例，凡基于本发明内容所实现的技术均属于本发明的范围。

提供基于词性信息和卷积神经网络的关系抽取方法：将待处理文本分词后，将由各个词的词信息向量依次排列成的矩阵，输入卷积神经网络中，由卷积神经网络进行特征抽取，进而完成对待处理文本中实体关系的判断；所述词信息向量由对应的词向量Vector1、词性向量Vector2、相对于待抽取关系第一实体的位置向量Vector3和相对于第二实体的位置向量Vector4拼接而成。本发明方法将词性信息作为输入信息，输入到卷积神经网络中，有助于更好的理解句子语义，提高关系类型判断的准确性。

具体的，本基于词性信息和卷积神经网络的关系抽取方法包含如图1所示的以下实现步骤：

(2)建立各个词与向量之间的映射关系；建立各个词性与向量之间的映射关系；

(4)将词序列中，各个词的词向量Vector1、词性向量Vector2，第一位置向量Vector3和第二位置向量Vector4，拼接成词信息向量Vector5；由序列中各个词的词信息向量依次排列形成词信息矩阵；

(5)将词信息矩阵输入到卷积神经网络中，进行实体关系分类判断。

进一步的，所述步骤(2)包含以下实现过程：

(2-1)构建一个语料库；

(2-2)对语料库中的文本进行分词，并进行对应词性标注；

(2-4)将各个词性进行向量转化，同一词性对应一个向量。

作为一种优选，所述步骤(2)采用Word Embedding来进行词和词性的向量转化。

进一步的，所述步骤(2)与所述步骤(1)的顺序可以调换。

进一步的，所述卷积神经网络将提取到的特征信息输入到池化层(优选maxpooling层作为池化层)中，进行降维处理。

进一步的，所述池化层将经过降维处理后的特征信息输入到softmax层中进行对实体关系的分类预测。

实施例1：

如图2所示：选择一个较大的语料库，使用分词工具对语料库中的所有句子进行分词，得到分词结果。对语料库的分词结果，采用Word Embedding技术来生成每个词的N维词向量(N纬度的大小根据语料库中包含词的多少，即语料的规模来设定；在语料库规模较大的情况下，为了避免编码稀疏的问题，可以进行降维，例如使用向量来表示每个词，向量中使用连续的变化的数字)，进而得到语料库所包含词的词向量矩阵Matrix1，其中矩阵的每个行向量对应语料库中一个词的词向量。本步骤中语料库中的同一个词对应同一个向量，比如说：“中国”一词，在语料库中可能多次出现，但“中国”一词在向量标注结果中仅对应同一个向量。作为优选，可选择word2vec来实现每个词的向量转化，word2vec可以实现词的向量转化，可以更好的理解词义和语义，所生成的向量中，向量越近，对应的词义也越近。

在分词的基础上，基于语料库的分词结果，使用词性标注工具对语料库中每个句子中的词进行词性标注。得到的词性标注结果后，将句子中的词性作为一个序列；采用WordEmbedding技术生成每个词性的M维词性向量，进而得到语料库的词性向量矩Matrix2，其中矩阵的每一行对应语料库中一个词性的词性向量。

上述过程建立了词与词向量的映射关系，建立了词性与词性向量的映射关系；为卷积神经网络的使用进行了准备。

对于包含待抽取关系实体对的待处理文本(句子或语篇)，使用分词工具进行分词，得到分词后的序列，并使用词性标注工具进行词性标注。确定待分类句子两个实体(第一实体Entity1和第二实体Entity2)的位置，并计算序列中各个词相对于第一实体Entity1的位置，对每一个位置随机生成一个K维的位置向量Vector3，进而得到位置向量矩阵Matrix3。计算序列中各个词相对于第二实体Entity2的位置，对每一个位置随机生成一个K维的位置向量Vector4，进而得到位置向量矩阵Matrix4。

对于句子或语篇分词结果序列里的每一个词，依次从词向量矩阵Matrix1中取出对应的N维词向量Vector1；对于句子或语篇的词性标注结果序列里的每一个词，依次从词性向量矩阵Matrix2中取出对应的M维词性向量Vector2。基于词相对于Entity1和Entity2的位置，从Matrix3中取出对应的K维位置向量Vector3，从Matrix4中取出对应的K维位置向量Vector4，将Vector1、Vector2、Vector3和Vector4拼接到一起得到N+M+2K维的向量Vector5。

得到句子或语篇中的每个词的N+M+2K维向量后，按序组合到一起得到句子或语篇的向量矩阵Matrix5，假设序列的长度为C。

将Matrix5作为卷积神经网络的输入，首先通过卷积层做卷积操作，卷积核大小为w×(N+M+2K)；卷积核每次滑动位置为1，因此每个卷积核可以得到一个长度为C-w+1维的向量。将卷积层采集的向量输入到池化层，通过池化层来降低向量的纬度，可以才采用maxpooling层作为池化层来对每一个卷积核做Max Pooling操作：采用max pooling函数，即取出C-w+1维向量中值最大的那一个；一个卷积核对应一个值，通过池化层后每个句子或者语篇会得到一个向量Vector6，向量Vector6的维数等于网络中卷积核的个数。最后在池化层的基础上，将向量Vector6输入到softmax层中，用softmax层进行实体关系的分类，计算出待处理文本中实体关系的分类概率，取概率最大的关系类型作为分类结果。

应该理解，运行神经网络进行分类识别时，需要对模型进行训练，训练时将人工标注后的训练样本输入到神经网络中，通过神经网络的正反向传播和自动权重调节，来进行模型的训练，当达到预先设置识别准确率阈值时，停止训练，认为模型已经训练完成。本发明方法亦是如此，在进行正式的分类识别之前，需要对包括卷积层、maxpooling层和softmax层的神经网络进行训练，训练过程与识别过程类似；构建好神经网络后，将一定数量的(比如说300件)人工标注好实体关系类型的训练样本，进行文本分词和词性标注，形成序列，对序列中的每个词在Matrix1查找对应词向量，在Matrix2中抽取对应的词性向量，生成相对于第一实体的第一位置向量，生成相当于第二实体的第二位置向量，将每个词的上述向量拼接成一个对应的词信息向量，并根据分词序列，将各个词的向量依序排列形成矩阵，将矩阵作为卷积神经网络的输入，经过神经网络正反向传播和自动权重调节，直到设置的准确率阈值时，停止训练，当模型训练结束后，根据上述的识别过程，完成对待抽取实体关系的文本的实体关系识别。

如图3所示：本实施例以“A公司总裁张三出席XX会议”为例来说明本发明方法实体关系的抽取过程：首席对“A公司总裁张三出席XX会议”进行分词，得到：“A公司总裁张三出席XX会议”分词序列，对分词后的序列进行词性标注；词性标注结果为“A公司/NN总裁/NN张三/NR出席/VVXX/NN会议/NN”。将(由“A公司/NN总裁/NN张三/NR出席/VVXX/NN会议/NN”对应的词信息矩阵)输入到卷积层中，由卷积神经网络完成特征的提取，输入到max pooling层中，进行降维处理，最后由softmax层输出“A公司总裁张三出席XX会议”的实体关系类别的判断结果。

Claims

1.基于词性信息和卷积神经网络的关系抽取方法，其特征在于，将待处理文本分词后，将由各个词的词信息向量依次排列成的矩阵，输入卷积神经网络中，由卷积神经网络进行特征抽取，进而完成对待处理文本中实体关系的判断；所述词信息向量由对应词向量、词性向量、相对于待抽取关系第一实体的位置向量和相对于第二实体的位置向量拼接而成。

2.如权利要求1所述的方法，其特征在于，所述方法包含以下实现步骤：

(1)对待处理文本进行分词，形成词序列，并对序列中的各个词进行对应的词性标注；

(2)建立各个词与向量之间的映射关系；

建立各个词性与向量之间的映射关系；

(3)计算句子中各个词相对于第一实体的位置，生成第一位置向量；计算句子中各个词相对于第二实体的位置，生成第二位置向量；

(4)将词序列中各个词的词向量、词性向量，第一位置向量和第二位置向量，拼接成对应的词信息向量；并将各个词对应的词信息向量依序排列，形成词信息矩阵；

(5)通过卷积神经网络对词信息矩阵进行采样；进而实现实体关系分类判断。

3.如权利要求2所述的方法，其特征在于：所述步骤(2)包含以下实现过程：

(2-1)构建一个语料库；

(2-2)对语料库中的文本进行分词，并进行对应词性标注；

(2-4)将各个词性进行向量转化，同一词性对应一个向量。

4.如权利要求3所述的方法，其特征在于：所述步骤(2)采用Word Embedding技术来进行词和词性的向量转化。

5.如权利要求3所述的方法，其特征在于：所述步骤(2)中采用word2vec来实现词和词性的向量化。

6.如权利要求1至5之一所述的方法，其特征在于：所述卷积神经网络将提取到的特征信息输入到maxpooling层中，进行降维处理。

7.如权利要求6所述的方法，其特征在于，所述maxpooling层将经过降维处理后的特征信息输入到softmax层中进行对实体关系的分类预测。