CN112148888A

CN112148888A - 基于图神经网络的知识图谱构建方法

Info

Publication number: CN112148888A
Application number: CN202010984868.5A
Authority: CN
Inventors: 孙雁飞; 刘鹏涛; 亓晋; 许斌
Original assignee: Nanjing University of Posts and Telecommunications
Current assignee: Nanjing University of Posts and Telecommunications
Priority date: 2020-09-18
Filing date: 2020-09-18
Publication date: 2020-12-29

Abstract

本发明提出了一种基于图神经网络的知识图谱构建方法，包括以下步骤：步骤1）目标实体识别：给定目标文本语句，使用双向长短时记忆循环神经网络模型和条件随机场模型识别目标文本语句中的目标实体；步骤2）实体关系抽取：使用基于文本的卷积神经网络模型抽取两个目标实体之间的关系；步骤3）知识图谱的构建及更新：使用图卷积神经网络模型对实体及实体关系进行学习，根据学习到的结果对知识图谱进行构建及更新，本发明提高了实体关系抽取的准确性，使知识图谱的表达能力更加精准；此外，将图神经网络模型用于学习图数据，对结点进行有效的分类，扩展知识图谱的应用性。

Description

基于图神经网络的知识图谱构建方法

技术领域

本发明涉及一种知识图谱，具体的说是一种知识图谱的构件方法，属于神经网络技术领域。

背景技术

知识图谱是以图的形式表现客观世界中的实体及其之间关系的知识库，实体可以是真实世界中的物体或抽象的概念，关系则表示了实体间的联系。因此，知识图谱能够以结构化的形式表示人类知识，通过知识表示和推理技术，可以给人工智能系统提供可处理的先验知识，让其具有与人类一样的解决复杂任务的能力。如何更好地构建、表示、补全、应用知识图谱，已经成为认知和人工智能领域重要的研究方向之一。目前，知识图谱的构建主要是基于深度学习，而深度学习在欧几里得数据上有着优异的效果，但是在非欧几里得的图数据上表现并不理想。

图数据的复杂性对现有机器学习算法提出了重大挑战，因为图数据是不规则的，每张图大小不同、结点无序，一张图中的每个结点都有不同数目的邻居结点，使得一些在图像中容易计算的重要运算(如卷积)不能再直接应用于图计算。此外，现有机器学习算法的核心假设是实例彼此独立，然而，图数据中的每个实例都与周围的其它实例相关，包含一些复杂的连接信息，用于捕获数据之间的依赖关系，包括引用、朋友关系和相互作用等。

现如今越来越多的研究开始将深度学习方法应用到图数据领域，受到深度学习领域进展的驱动，研究人员在设计图神经网络的架构时借鉴了卷积网络、循环网络和深度自编码器的思想。顺势而生的图神经网络(Graph Neural Network，GNN)是一种连接模型，它通过图的结点之间的消息传递来捕捉图的依赖关系，是处理图数据的利器。

现有技术中公开了：一种基于深度学习的知识图谱构建方法，其公开号为：CN107526799A，申请号：201710713735.2，该发明将深度学习技术应用到知识图谱的构建中，采用双向循环神经网络和条件随机场的实体识别模型对目标文本语句中的目标实体进行识别，减少实体识别和关系抽取过程中的特征工程，减轻人工设计和调节特征带来的负担和麻烦，精准挖掘文本中的知识。该发明是针对知识图谱构建的一个基础性专利，对于给定目标文本语句，进行目标实体的识别和目标实体间关系的抽取，并对目标实体概念化，根据目标实体、目标实体关系和概念构建知识图谱。其不足之处在于：在处理非欧几里得的实体关系数据时采用常规的深度学习方法；对于识别到的实体和抽取的实体关系没有进行更深层次的挖掘和处理，仅仅是规范化、概念化后直接构建知识图谱，限制了知识图谱的应用场景。

发明内容

本发明的目的是提供一种基于图神经网络的知识图谱构建方法，提高实体关系抽取的准确性，使知识图谱的表达能力更加精准；此外，将图神经网络模型用于学习图数据，对结点进行有效的分类，扩展知识图谱的应用性。

本发明的目的是这样实现的：一种基于图神经网络的知识图谱构建方法，包括以下步骤：

步骤1)目标实体识别：给定目标文本语句，使用双向长短时记忆循环神经网络模型和条件随机场模型识别目标文本语句中的目标实体；

步骤2)实体关系抽取：使用基于文本的卷积神经网络模型抽取两个目标实体之间的关系；

步骤3)知识图谱的构建及更新：使用图卷积神经网络模型对实体及实体关系进行学习，根据学习到的结果对知识图谱进行构建及更新。

作为本发明的进一步改进，步骤1)具体包括：

步骤1.1)采用双向长短时记忆循环神经网络模型计算目标文本语句中每个词X_i对应的所有可能标签的概率Z_i；

步骤1.2)采用条件随机场对目标文本语句中的每一个词X_i进行标注，计算出最优标注序列Y^*，并根据最优标注序列Y^*获取目标文本语句中的目标实体。

作为本发明的进一步改进，步骤1.1)具体包括：

步骤1.1.1)采用双向长短时记忆循环神经网络模型在预设查找表中查找目标文本语句X＝X₁,X₂,…,X_N中的每一个词X_i对应的词向量E_i；

步骤1.1.2)将词向量E_i作为Bi-LSTM模型的输入，分别从右至左和从左至右扫描，得到两个第一输出序列

步骤1.1.3)将第一输出序列

和

进行串接，抽取

和

的特征，并计算每个词X_i对应的所有可能标签的概率Z_i，计算公式如下：

公式(1)中，W₁表示隐藏层参数矩阵，b₁表示隐藏层偏置，h_i'表示第一输出序列中第i个值的隐藏层输出，W₂表示输出层参数矩阵。

作为本发明的进一步改进，步骤1.2)具体包括：

步骤1.2.1)将目标文本语句X＝X₁,X₂,…,X_N作为条件随机场模型的输入计算得到第二输出序列，并计算第二输出序列对应的标签序列Y＝Y₁,Y₂,…,Y_N；

步骤1.2.2)根据每个词X_i对应的所有可能标签的概率Z_i计算标签序列Y＝Y₁,Y₂,…,Y_N的得分S(X,Y)，并将得分最高的标签作为最优标签序列

标签序列的得分S(X,Y)计算具体如下：

公式(2)中，

表示第i个词X_i获得标签Y_i的概率，

表示标签Y_i-1与标签Y_i之间的转移概率。

作为本发明的进一步改进，步骤2)具体包括：

步骤2.1)将词向量E_i作为基于文本的卷积神经网络模型的输入，每个单词均为K维的词向量，因此对于长度为N的一句话可用维度为N×K的矩阵X表示；

步骤2.2)预训练的词向量矩阵维度为N×K，设计一个过滤器窗口W，其维度为T×K，其中K为词向量的长度，T表示窗口所含的单词个数；之后不断地滑动该窗口，每次滑动一个位置，进行如下计算：

c_i＝f(W·X_i:i+T-1+b) (3)

公式(3)中，f表示非线性激活函数，x_i:i+T-1表示该句子中第i到i+T-1的单词组成的词向量矩阵，c_i表示当前窗口位置的取值，b表示偏置；

因此对于长度为N的句子，维度为T×K的过滤器窗口可以产生由N-T+1个值组成的集合：

c＝{c₁,c₂…c_N-T+1} (4)

公式(4)中，c是N-T+1个过滤器窗口产生值的集合；

步骤2.3)提取集合c中最大的特征，对集合c进行max-over-time操作，即取出集合c中的最大值

步骤2.4)M个过滤器窗口，将产生由M个值组成的向量

Text-CNN模型通过设置一个全相连层，将向量z映射为长度为l的向量，l即为待预测的关系类型的个数，设置softmax激活函数即可转换为各个关系类型的概率值，输出最大概率，即为两个目标实体之间的关系。

作为本发明的进一步改进，步骤3)具体包括：

步骤3.1)根据步骤1和步骤2抽取出实体和实体关系构建图数据库，并对一小部分实体添加标签，用于区分实体类别；

步骤3.2)图数据库中的各个结点有着不同的D维特征向量，假设有N个结点，这N个结点的特征组成一个N×D维的矩阵X，各个结点之间的关系也会形成一个N×N维的矩阵A，也称为邻接矩阵；将X矩阵和A矩阵作为图卷积神经网络模型GCN的输入，GCN也是一个神经网络层，它的层与层之间的传播公式为：

公式(5)中，

I是单位矩阵，

H是每一层的特征，对于输入层，H就是X，σ是非线性激活函数；

步骤3.3)原图数据经过几层GCN计算后每个结点的特征从X变成了Z，即

Z＝f(X,A) (6)

公式(6)中，X是由N个结点的特征向量组成的特征矩阵，A是邻接矩阵，f是GCN计算函数，Z是GCN变换后的特征；

步骤3.4：针对所有结点计算交叉熵(cross entropy)损失函数：

公式(7)中，Y_L是结点类别数目，Y_l是属于某一类的概率，Z_l是某个结点经过GCN变换后的特征值；

步骤3.5)根据训练的模型对结点进行分类，并添加相对应的标签在图数据库中更新。

本发明采用以上技术方案与现有技术相比，具有以下技术效果：本发明在实体关系抽取时采用基于文本的卷积神经网络模型，提高了实体关系抽取的准确性；在构建知识图谱时，采用图卷积神经网络模型对结点进行分类，使知识图谱的应用场景得到了拓展。

附图说明

图1为本发明原理框图。

具体实施方式

下面结合附图对本发明的技术方案做进一步的详细说明：

本发明采用双向长短时记忆循环神经网络模型(Bi-LSTM)和条件随机场模型(CRF)识别目标文本语句中的目标实体，采用基于文本的卷积神经网络模型(Text-CNN)抽取两个目标实体之间的关系；在目标文本数据经过有效提取后，根据提取出的实体信息和实体关系信息构建图数据库；借助于图卷积神经网络模型对图数据库中的图数据进行分类、更新标签，天然的数据经过加工后重新进入知识图谱，丰富了知识图谱的应用场景。具体如下：

如图1所示，一种基于图神经网络的知识图谱构建方法，包括以下步骤：

Step 1)：给定目标文本语句，使用双向长短时记忆循环神经网络模型(Bi-directional Long-Short Term Memory,Bi-LSTM)和条件随机场模型(ConditionalRandom Field,CRF)识别目标文本语句中的目标实体；

Step 2)：使用基于文本的卷积神经网络模型(Text Convolutional NeuralNetwork,Text-CNN)抽取两个目标实体之间的关系；

Step(3)：使用图卷积神经网络模型(GCN)对实体及实体关系进行学习，根据学习到的结果对知识图谱进行构建及更新。

针对以上三个层面，具体发明内容阐述如下：

Step1：目标实体识别。

Step1.1：采用双向长短时记忆循环神经网络模型计算目标文本语句中每个词X_i对应的所有可能标签的概率Z_i。

Step1.1.1：采用双向长短时记忆循环神经网络模型在预设查找表中查找目标文本语句X＝X₁,X₂,…,X_N中的每一个词X_i对应的词向量E_i。

Step1.1.2：将词向量E_i作为Bi-LSTM模型的输入，分别从右至左和从左至右扫描，得到两个第一输出序列

Step1.1.3：将第一输出序列

和

进行串接，抽取

和

Step1.2：采用条件随机场对目标文本语句中的每一个词X_i进行标注，计算出最优标注序列Y^*，并根据最优标注序列Y^*获取目标文本语句中的目标实体。

Step1.2.1：将目标文本语句X＝X₁,X₂,…,X_N作为条件随机场模型的输入计算得到第二输出序列，并计算第二输出序列对应的标签序列Y＝Y₁,Y₂,…,Y_N。

Step1.2.2：根据每个词X_i对应的所有可能标签的概率Z_i计算标签序列Y＝Y₁,Y₂,…,Y_N的得分S(X,Y)，并将得分最高的标签作为最优标签序列

标签序列的得分S(X,Y)计算具体如下：

公式(2)中，

表示第i个词X_i获得标签Y_i的概率，

表示标签Y_i-1与标签Y_i之间的转移概率。

Step2：实体关系抽取。

Step2.1：将词向量E_i作为基于文本的卷积神经网络模型的输入，每个单词均为K维的词向量，因此对于长度为N的一句话可用维度为N×K的矩阵X表示。

Step2.2：预训练的词向量矩阵维度为N×K，设计一个过滤器窗口W，其维度为T×K，其中K为词向量的长度，T表示窗口所含的单词个数。之后不断地滑动该窗口，每次滑动一个位置，进行如下计算：

c_i＝f(W·X_i:i+T-1+b) (3)

公式(3)中，f表示非线性激活函数，x_i:i+T-1表示该句子中第i到i+T-1的单词组成的词向量矩阵，c_i表示当前窗口位置的取值，b表示偏置。

c＝{c₁,c₂…c_N-T+1} (4)

公式(4)中，c是N-T+1个过滤器窗口产生值的集合。

Step2.3：提取集合c中最大的特征，对集合c进行max-over-time操作，即取出集合c中的最大值

Step2.4：M个过滤器窗口，将产生由M个值组成的向量

Step3：知识图谱的构建及更新。

Step3.1：根据Step1和Step2抽取出实体和实体关系构建图数据库，并对一小部分结点(实体)添加标签，用于区分实体类别。

Step3.2：图数据库中的各个结点有着不同的D维特征向量，假设有N个结点，这N个结点的特征组成一个N×D维的矩阵X，各个结点之间的关系也会形成一个N×N维的矩阵A，也称为邻接矩阵。将X矩阵和A矩阵作为图卷积神经网络模型(GCN)的输入，GCN也是一个神经网络层，它的层与层之间的传播公式为：

公式(5)中，

I是单位矩阵，

H是每一层的特征，对于输入层，H就是X，σ是非线性激活函数。

Step3.3：原图数据经过几层GCN计算后每个结点的特征从X变成了Z，即

Z＝f(X,A) (6)

公式(6)中，X是由N个结点的特征向量组成的特征矩阵，A是邻接矩阵，f是GCN计算函数，Z是GCN变换后的特征。

Step3.4：针对所有结点计算交叉熵(cross entropy)损失函数：

公式(7)中，Y_L是结点类别数目，Y_l是属于某一类的概率，Z_l是某个结点经过GCN变换后的特征值。

Step3.5：根据训练的模型对结点进行分类，并添加相对应的标签在图数据库中更新。

本发明在实体关系抽取时采用基于文本的卷积神经网络模型，与原技术方案相比，提高了实体关系抽取的准确性。在构建知识图谱时，采用图卷积神经网络模型对结点进行分类，使知识图谱的应用场景得到了拓展。

以上所述，仅为本发明中的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉该技术的人在本发明所揭露的技术范围内，可理解想到的变换或替换，都应涵盖在本发明的包含范围之内，因此，本发明的保护范围应该以权利要求书的保护范围为准。

Claims

1.一种基于图神经网络的知识图谱构建方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的基于图神经网络的知识图谱构建方法，其特征在于，步骤1)具体包括：

3.根据权利要求2所述的基于图神经网络的知识图谱构建方法，其特征在于，步骤1.1)具体包括：

步骤1.1.3)将第一输出序列

和

进行串接，抽取

和

Z_i＝W₂·h_i'

4.根据权利要求2所述的基于图神经网络的知识图谱构建方法，其特征在于，步骤1.2)具体包括：

标签序列的得分S(X,Y)计算具体如下：

公式(2)中，

表示第i个词X_i获得标签Y_i的概率，

表示标签Y_i-1与标签Y_i之间的转移概率。

5.根据权利要求3或4所述的基于图神经网络的知识图谱构建方法，其特征在于，步骤2)具体包括：

c_i＝f(W·X_i:i+T-1+b) (3)

c＝{c₁,c₂…c_N-T+1} (4)

公式(4)中，c是N-T+1个过滤器窗口产生值的集合；

步骤2.4)M个过滤器窗口，将产生由M个值组成的向量

6.根据权利要求5所述的基于图神经网络的知识图谱构建方法，其特征在于，步骤3)具体包括：

公式(5)中，

I是单位矩阵，

Z＝f(X,A) (6)

步骤3.4：针对所有结点计算交叉熵(cross entropy)损失函数：