CN109389151B

CN109389151B - 一种基于半监督嵌入表示模型的知识图谱处理方法和装置

Info

Publication number: CN109389151B
Application number: CN201810999830.8A
Authority: CN
Inventors: 朱佳; 赵美华; 郑泽涛; 伦家琪; 黄昌勤
Original assignee: South China Normal University
Current assignee: South China Normal University
Priority date: 2018-08-30
Filing date: 2018-08-30
Publication date: 2022-01-18
Anticipated expiration: 2038-08-30
Also published as: CN109389151A

Abstract

本发明公开了一种基于半监督嵌入表示模型的知识图谱处理方法和装置，所述方法包括计算知识图谱的一阶邻近度和二阶邻近度，计算一阶邻近度的监督损失和二阶邻近度的监督损失，建立一阶邻近度的监督损失和二阶邻近度的监督损失的线性组合，在所述线性组合最小化的条件下对知识图谱进行优化等步骤。通过计算知识图谱中任两个顶点之间的一阶邻近度，以及根据知识图谱中任两个顶点的邻域结构计算二阶邻近度，同时考虑一阶邻近度和二阶邻近度而对知识图谱进行联合优化，从而保留知识图谱的局部和全局结构信息，克服了现有技术中知识图谱因对每个顶点的特征的依赖以及各顶点之间关系信息的缺乏所带来的缺陷。本发明广泛应用于图像识别领域。

Description

一种基于半监督嵌入表示模型的知识图谱处理方法和装置

技术领域

本发明涉及信息处理技术领域，尤其是一种基于半监督嵌入表示模型的知识图谱处理方法和装置。

背景技术

知识图谱(KnowledgeGraph，知识图谱)不仅可以将互联网的信息表达成更接近人类认知世界的形式，而且提供了一种更好地组织、管理、利用和融合跨信息源的海量信息的方式。目前知识图谱技术主要被用于支撑自动问答、智能语义搜索和推荐系统等高级应用。典型的知识图谱以符号形式描述物理世界中的实体及其关系，其基本组成单元通常用表示成三元组(头实体，关系，尾实体)，即(h,r,t)。实体间通过关系相互联结，构成网状的知识结构。

近年来，尤其以机器学习为代表的知识图谱嵌入表示技术异军突起，取得了重大进展，已被证明可以进一步改善基于知识图谱的应用的性能。它旨在将图谱的语义信息表示为稠密低维实值向量，用来捕获和保留图谱结构，有效解决数据稀疏问题，使知识获取、融合和推理的性能得到显著提升。

然而，现有的大多数知识图谱嵌入表示方法严重依赖于图中每个顶点的特征，没有考虑两个顶点之间的关系信息，这是知识图谱的典型特征。因此，最近提出的一些知识图谱嵌入表示的方法在处理几乎没有三元组事例的实体时仍然捉襟见肘。究其根本是这些方法的主要问题是它们实际上关注头部和尾部的结构信息，这意味着它们只考虑局部结构而不考虑全局结构。但是，好的实体嵌入表示应需共同考虑局部和全局结构的信息。也就是说，以往这些方法并不完全适用于知识图谱嵌入表示，因此该方向仍然面临着极大的挑战。

图1是电影《SleeplessinSeattle》的一些资料所构成的知识图谱。图1中，实体“TomHanks”在电影《SleeplessinSeattle》中扮演的角色，实体“MegRyan”实际上也是这部电影中的演员，但是，按照现有的知识图谱技术很难预测“MegRyan”和《SleeplessinSeattle》之间是否存在联系，因为现有知识图谱嵌入表示方法无法充分利用此知识图谱中“TomHanks”的全局结构信息，因为他们只考虑“TomHanks”的邻域实体。根据图1这个示例，可以得出结论，现有的知识图谱技术中，由于仅使用邻域实体的信息来学习知识图谱的嵌入表示，其性能受到限制，尤其是在应对链路预测等特定任务时缺点更加明显。

发明内容

为了解决上述技术问题，本发明的目在于提供一种基于半监督嵌入表示模型的知识图谱处理方法和装置。

本发明所采取的第一技术方案是：

一种基于半监督嵌入表示模型的知识图谱处理方法，所述知识图谱包括多个顶点以及其中至少部分顶点之间形成的边，包括以下步骤：

计算知识图谱的一阶邻近度；

计算知识图谱的二阶邻近度；

计算一阶邻近度的监督损失；

计算二阶邻近度的监督损失；所述一阶邻近度的监督损失和二阶邻近度的监督损失之间存在一交易因子；

以所述交易因子为参数，建立一阶邻近度的监督损失和二阶邻近度的监督损失的线性组合；

在所述线性组合最小化的条件下对知识图谱进行优化。

进一步地，所述线性组合具体为L_overall＝L_first+λL_second，其中L_first为一阶邻近度的监督损失，L_second为二阶邻近度的监督损失，λ为一阶邻近度的监督损失和二阶邻近度的监督损失之间的交易因子。

进一步地，所述计算知识图谱的一阶邻近度这一步骤，具体包括：

计算与知识图谱上各顶点对应的实体向量组；

计算实体向量组中各实体向量对应的邻域实体，从而得到邻域实体集合；

计算实体向量组与邻域实体集合中具有对应关系的各实体向量与邻域实体之间的欧几里得度量，从而得到知识图谱上各对应顶点之间的紧密度得分；

计算所有紧密度得分之间的平均值，将大于平均值的紧密度得分所对应的邻域实体作为邻域实体集合的局部结构特征；

计算邻域实体集合的全体结构特征；

连接所述局部结构特征和全体结构特征，从而得到一阶邻近度。

进一步地，所述计算与知识图谱上各顶点对应的实体向量组这一步骤，是通过Deepwalk算法进行的。

进一步地，所述计算知识图谱的二阶邻近度这一步骤，具体包括：

将知识图谱重构为无向二分图；

计算与知识图谱上各顶点对应的实体向量组；

为知识图谱分配关系顶点，并计算关系顶点的独热向量；

将实体向量组和独热向量输入到图卷积神经网络中，从而输出二阶邻近度。

进一步地，所述图卷积神经网络包括多个网络层，所述各网络层对应的非线性函数为H^(l+1)＝f(H^(l),M)，所述图卷积神经网络的传播规则为f(H^(l),M)＝ReLU(MH^(l)W^(l))，其中，H^(l)为第l个网络层的输出值，M为知识图谱的邻接矩阵，ReLU为激活函数，W^(l)为第l个网络层的权重函数。

进一步地，所述传播规则中，与M有关的乘法包括对邻域实体的特征求和，不包括对知识图谱上各顶点本身的特征求和；所述传播规则具体为

其中，

I为单位矩阵，D为

的对角顶点度矩阵。

进一步地，所述一阶邻近度的监督损失，其计算公式为：

式中L_first为一阶邻近度的监督损失，(v_i,v_j)为知识图谱上的两个顶点，y_i为与v_i对应的实体向量，y_j为与v_j对应的实体向量，

进一步地，所述二阶邻近度的监督损失，其计算公式为：

式中L_second为二阶邻近度的监督损失，L为网络层的总层数。

本发明所采取的第二技术方案是：

一种基于半监督嵌入表示模型的知识图谱处理装置，包括存储器和处理器，所述存储器用于存储至少一个程序，所述处理器用于加载所述至少一个程序以执行第一技术方案所述方法。

本发明的有益效果是：通过计算知识图谱中任两个顶点之间的一阶邻近度，以及根据知识图谱中任两个顶点的邻域结构计算二阶邻近度，同时考虑一阶邻近度和二阶邻近度而对知识图谱进行联合优化，从而保留知识图谱的局部和全局结构信息，克服了现有技术中知识图谱因对每个顶点的特征的依赖以及各顶点之间关系信息的缺乏所带来的缺陷。

附图说明

图1为电影《SleeplessinSeattle》的一些资料所构成的知识图谱结构图；

图2为本发明方法流程图；

图3为实施例1所用图卷积神经网络的原理图；

图4为本发明方法用于实体分类的性能表现示意图；

图5为本发明方法用于链路预测的性能表现示意图。

具体实施方式

实施例1

在图论角度，知识图谱本质是一个图，可以表达为G＝(V,E)，其中V代表图中的顶点集合，且V＝v₁,...,v_n，E表示图中的边集合，E＝e₁,....,e_n。对于知识图谱，每个顶点v表示一个实体，每条边e表示两个实体之间的关系。

本发明中所述一阶邻近度和二阶邻近度的几何意义如下：

一阶邻近度：一级邻近度描述了一对实体之间的相似性。对于任何一对实体，如果在v_i和v_j之间存在边，这意味着在v_i和v_j之间存在关系，则在v_i和v_j之间一阶邻近度为正的。否则，v_i和v_j之间的一阶邻近度为0。

根据上述定义，可以很容易知道，计算一阶邻近度的关键是计算一对实体之间的相似度。与其他类型的图不同的是，由于知识图谱中的每个顶点都附加了一个实体描述，因此需要设计一个特定的方法来执行计算。

另外，还定义了二阶邻近度，它可以被用来特定地表征知识图谱的全局结构，如定义2所示。

二阶邻近度：二阶邻近度描述了一对实体的邻域实体集合之间的相似性。设N_i和N_j分别表示v_i和v_j的邻域顶点集合，然后二阶邻近度由N_i和N_j的相似性确定。

从上述定义，知道如果一对实体共享许多共同邻域实体，则一对实体之间的二阶邻近度很高。即使一对实体没有被边连接，但二阶邻近度已被证明是一个很好的度量被用来定义这对顶点的相似性，因此它可以高度丰富顶点之间的关系。

参照图2，本发明处理方法包括以下步骤：

计算知识图谱的一阶邻近度；

计算知识图谱的二阶邻近度；

计算一阶邻近度的监督损失；

在所述线性组合最小化的条件下对知识图谱进行优化。

所得的线性组合为L_overall＝L_first+λL_second，其中L_first为一阶邻近度的监督损失，L_second为二阶邻近度的监督损失，λ为一阶邻近度的监督损失和二阶邻近度的监督损失之间的交易因子。通过求解L_overall最小化时的条件来对知识图谱进行调整，从而实现知识图谱的优化。由于实际上L_overall是根据知识图谱的一阶邻近度和二阶邻近度计算出来的，因此知识图谱的优化过程考虑了知识图谱局部和全局结构的信息，克服了现有知识图谱的缺陷。

进一步作为优选的实施方式，所述计算知识图谱的一阶邻近度这一步骤，具体包括：

计算与知识图谱上各顶点对应的实体向量组；

计算邻域实体集合的全体结构特征；

以一个由文本信息构成的知识图谱为例，对一阶邻近度的计算进行说明。

知识图谱中的每个实体都附有文本描述，因此，为了计算一对实体之间的相似性，不仅需要考虑局部结构，还需要考虑一对实体之间文本描述的字符串的相似性。

显然，为了正确获取某实体的局部结构信息，需要知道它的哪些邻域实体是重要的或与它类似的。由于DeepWalk已经在社交网络和图分析中得到了成功验证，因此可以使用基于DeepWalk算法生成的实体向量方法，从每个实体的邻域实体中选择重要的实体。DeepWalk采用短随机游走流学习实体的向量表示，并对其编码映射到低维的连续向量空间中。

设G＝(V,E)为一个图，v∈V表示实体。H是v的邻域实体的集合，h_i∈H，n是v的邻域实体的数量。基于DeepWalk生成的v的向量，计算v和h_i之间的欧几里德度量，得到两个顶点的紧密度得分

最后，将具有紧密度得分高于全部邻域顶点的平均紧密度得分的邻域实体保持为表示实体v的局部结构的特征O_ne。

关于文本描述信息，可以从原始文本中删除所有停用词，并采用经典TF-IDF的词袋(BOW)模型来选择前n个关键词作为每个实体的特征O_t。然后，将O_t和O_ne连接在一起，以获得每个实体顶点的特征O_e＝O_ne∪O_t。使用O_e来表示一阶邻近度并且在向量空间中重新表示一对顶点的相似性。此外，O_ne可以为二阶邻近度计算提供监督信息，因为可以将每个实体中的一个视为实体的标签。

本实施例这种计算一阶邻近度的方法，具备以下优点：采用基于DeepWalk邻域实体选择算法，以选择具有高紧密度特征分数的邻域实体。选择好邻域实体后，基于头实体和尾实体的向量，将这些邻域实体与文本描述相结合以获得局部结构和描述信息。此外，由于邻域实体可以充当该实体的标签，邻域实体选择算法的结果可以提供计算二阶邻近度的监督信息。

进一步作为优选的实施方式，所述计算知识图谱的二阶邻近度这一步骤，具体包括：

将知识图谱重构为无向二分图；

计算与知识图谱上各顶点对应的实体向量组；

为知识图谱分配关系顶点，并计算关系顶点的独热向量；

二阶邻近度是指一对顶点的邻域结构有多相似。因此，为了模拟二阶邻近度，需要对每个顶点的邻域建模。给定图G＝(V,E)，可以得到它的邻接矩阵M，它包含n个实例m₁,...,m_n。对于每个实例

当且仅当v_i和v_j之间存在链接时，m_i,j>0。m_i描述了顶点v_i的邻域结构，M提供了每个顶点的邻域结构的信息。本发明中，可以使用基于图卷积神经网络的自动编码器计算G的二阶邻近度。

图卷积神经网络可以利用隐藏变量，并且能够学习图的解释性的隐藏表示。但是，现有的图卷积神经网络模型仅适用于无向图，不适用于知识图谱。因此，在的图卷积神经网络模型中，将知识图谱设置为无向二分图，其中附加节点表示原图中的关系。换句话说，即重构原知识图谱的结构。

例如，假设三元组(e₁,r,e₂)，为这个三元组分配单独的关系顶点r₁和r₂为(e₁,r₁)和(e₂,r₂)，每个实体顶点由稀疏特征向量表示，每个关系顶点由唯一的独热(one-hot)表示。将每个实体和关系的文本描述信息的所有单词都放入表T中。T中的每个单词都有一个数字i∈1,...,|T|，然后每个单词表示成一个|T|长度的独热向量，这个向量的第i个元素是1，其他是0。定义每个关系顶点的描述文本表示是它的描述文本加上直接连接实体的描述文本。如果以图1中的<“TomHanks”，“Actedin”，“SleeplessinSeattle”>为例，那么关系顶点r₁的描述文本表示是“TomHanksActedin”，关系顶点r₂的描述文本表示是“ActedinSleeplessinSeattle”。由于每个实体名称在知识图谱中都是唯一的，可以很容易从T中获得每个关系顶点对应的唯一独热表示。

对于这个重构的图，使用每个实体顶点的特征向量表示，以及每个关系顶点的唯一独热表示作为图卷积神经网络的输入。关系顶点可以表示在两个实体顶点之间具有相同关系信息的邻域的数量。在l卷积层编码之后，可以得到从图中学习包括实体顶点和关系顶点的信息的嵌入表示。

本实施例中所用的预处理架构，即图卷积神经网络的原理如图3所示。图中空心的圆形表示实体顶点，实心的圆形表示关系顶点，内部标有交叉线的圆形表示特定范围内具有最高等级的顶点，且这些特定范围内具有最高等级的顶点用作质心来构造邻域图。首先将实体顶点特征读取为通道，然后使用Weisfeiler-Lehman算法构造一组邻域图来对每个实体顶点进行排名。归一化后，可以得到每个邻域图的接受域列表作为卷积网络的输入。

整个图卷积神经网络可以使用以下方法来建模。

给定一个图G＝(V,E)，包含N＝|V|顶点。有一个G的邻接矩阵M和一个N×D矩阵X作为输入。利用随机隐藏变量z_i，可以得出一个N×F输出矩阵Z，其中F是输出特征的数量。

在这个定义中，D是每个顶点的特征数。由于特征是基于所选择的邻域顶点和每个实体顶点的文本描述，并且每个关系顶点只有一个唯一的单一表示，因此每个顶点的特征数量是不同的。对所有顶点的特征执行并集操作，然后将此并集中的元素数设置为D的值。构造X时，如果顶点没有特征，对于这些特征则为零值，以完成矩阵构造。然后可以将每个网络层写为非线性函数：

H^(l+1)＝f(H^(l),M) (1)

其中H⁽⁰⁾＝X且H^(L)＝Z，L是层数。然后设置以下传播规则：

f(H^(l),M)＝ReLU(MH^(l)W^(l)) (2)

其中W^(l)是第l个网络层的权重矩阵，ReLU是激活函数。注意，与M的乘法仅对所有邻域顶点的所有特征求和，而不是顶点本身。因此，需要向M添加单位矩阵l.然后，等式(2)变为：

其中

D是

的对角顶点度矩阵。例如，如果设置L＝3，则意味着网络有三个卷积层来重构M的结构以获得Z.如果想要保留当前层上前一层的一半接收域，在三个卷积层之后，可以很容易得到

本实施例这种计算二阶邻近度的方法，具备以下优点：基于图卷积神经网络的自动编码器，可以根据两个实体顶点的邻域结构对全局图谱结构进行编码。与其他只能处理无向图的类似方法不同，本实施例方法也可以使用结构重构过程处理有向图，比如知识图谱。另外，由于本实施例方法可以从一阶邻近度的计算过程中获得监督信息，因此自动编码器可以更正确有效地学习知识图谱全局结构的隐藏表示。

本发明的目标之一是需要保留知识图谱的局部和全局结构，即需要同时优化一阶和二阶邻近度。

可以采用图的Laplacianregularizationtermlossfunction来进行联合优化：

L_overall＝L_first+λL_second (4)

其中L_first表示一阶邻近度的监督损失，这是图的标记部分。L_second表示二阶邻近度的无监督损失，较小的L_second是基于图卷积神经网络从图的全局结构中学习到更好的解释性的隐藏表示。λ是L_first和L_second之间的交易因子。

对于损失函数L_first，只是根据LaplacianEigenmaps[1]的思想来定义它，当相似的顶点向量被映射到向量空间中距离很远时会产生惩罚：

对于L_second，可以将其定义为：

式中L_second为二阶邻近度的监督损失，L为网络层的总层数。

其中H⁽⁰⁾＝N×D，并且如果想要在每层之后仅保留一半特征，则

显然，H⁽⁰⁾和H^(l)的维数是不同的，因此，通过使用0元素进行填充来将较小矩阵H^(l)的大小增加到和H⁽⁰⁾的大小相同，确保可以在两个矩阵之间执行的减法。

的目标是将L_overall最小化，θ是整体参数。根据等式(3)，等式(5)和等式(6)，知道关键步骤是计算偏导数

对于

可以写成如下：

其中Y＝σ(Y^l-1)W^(l)+b^(l)，Y^l-1是第(l-1)层隐藏表示，σ是S形非线性激活函数，b^l是l层偏置。对于等式(7)的第一项，有：

其中Loss是模型重构误差的损失函数。类似地，有

其中X是输入数据，

是重构的数据。对于第一项

有：

其中B是

的矩阵的数学形式。如果s_i,j＝0，则b_i,j＝1，否则b_i,j>β，β>1.在的模型中，β是在联合优化的参数之一。因为L_overall可以简单地看作

为了找到一个好的参数空间区域，可以使用

通过反向网络传播以获得更新的参数θ直到收敛。

对于超参数优化，将所有层的损失率，每层的L2正则化因子和隐藏单元的数量都设置为0.2。最后，使用Adamoptimizer[10]训练模型并在尝试许多不同的设置后尽快停止，最多是100个训练次数，学习率设为0.01，窗口大小设为10。

实施例2

本实施例中，使用实施例1所述方法来实现知识图谱的一个典型应用——实体分类，应用的对象为FB15K和WIN18这两个流行语料库。首先对这两个流行语料库进行预处理，从中剔除掉所有没有关联三元组描述的实体。经过预处理后的语料库的参数如表1所示。

表1

语料库	#Rel	#Ent	#Train	#Valid	#Test
						FB15K	1336	14885	472860	50000	57800
WIN18	18	40100	140975	5000	5000

为了形成对比，本实施例中选择了目前几种最先进的方法进行比较：包括TransE、TransD、DKRL(CNN)、Jointly(LSTM)和Jointly(ALSTM)。所有模型进行训练使用的参数都是获得最佳性能时使用的参数设置。

实体分类的任务是旨在预测实体类型的多标签分类任务。几乎每个实体都有一个知识图谱类型。本实施例中，根据实体类型频率高低从FB15K和WIN18中选择前50种分类类型。前50种类型分别覆盖FB15K的13,306个实体和WIN18的38158个实体。然后，使用10字交叉验证来进行评估。

由于它是一个多标签分类任务，使用Softmax函数作为分类器，并使用平均精度均值(MAP)作为评估指标。从表2中可以观察到在两个数据集上，实施例1方法的效果优于所有其他方法。实施例1方法实现了比第二最佳模型Jointly(A-LSTM)高约5％的MAP值，并且比TransE至少高25％。结果表明，实施例1方法生成的特征更能捕获实体信息，并具有更好的鲁棒性。原因在于，为了更好地理解实体，图卷积神经网络在描述KGs时编码了结构信息和文本描述信息。一些模型也利用这两种信息，但仅仅考虑局部结构信息，或者不能对描述文本信息进行编码嵌入表示，比如TransE就只关注局部结构信息。

表2

算法	FB15K	WIN18
			TransE	61.5	70
TransD	68.2	75.6
			DKRL(CNN)	73.5	80.1
Jointly(LSTM)	75	83
			Jointly(A-LSTM)	76.8	84.5
本发明方法	80.4	88.8

实施例3

本实施例中，使用实施例1所述方法来实现知识图谱的另一个典型应用——链路预测，应用的对象仍然是FB15K和WIN18这两个流行语料库，并且同实施例2一样对这两个流行语料库进行预处理，预处理后这两个流行语料库的参数如表1所示。

链接预测是完善知识图谱的三元组(h,r,t)的典型任务，其中h或t缺失，即给定(h,r)预测t。此任务更多地强调从知识图谱中对一组候选实体进行排名。本实施例使用两个度量作为评估指标，即MeanRank和Hits@10，其中MeanRank为正确的实体或关系排序数的平均，Hits@10为在预测中排名前p个的有效实体或关系的比例。在本实施例中，为实体设置p＝10，为关系设置p＝1。一个好的嵌入表示模型应该达到较低的MeanRank和较高的Hits@10，评估结果报告在表3中。

从结果中，观察到对于链路预测任务，实施例1方法比现有方法在所有度量标准上都要好。例如，在FB15K上，实施例1方法实现的Hits@10值比TransE高出至少60％。这个实验也表明实施例1方法在MeanRank和Hits@10上实现了实质性的改进，因为实施例1方法，特别是二阶邻近计算的设计，非常适合KGs嵌入表示。在WIN18上，Jointly(LSTM)比联合(A-LSTM)表现更好，因为该数据集中的关系数量相对较少。因此，Jointly(A-LSTM)的注意机制没有明显的优势。

表3

实施例4

在知识图谱的实际应用中，知识图谱所要处理的数据通常是缺少标记的，这为知识图谱的应用带来的困难，而本发明所要解决的技术问题之一便是利用半监督学习方法使得知识图谱可以处理缺少标记的数据。本实施例中，使用具有不同百分比的标记数据来对知识图谱进行训练，这意味着只将特征分配给特定百分比的顶点，以生成实体分类和链接预测任务的监督信息，以评估通过本发明方法在这种环境下的性能，测试结果分别如图4和图5所示。图4为仅部分数据被标记的情况下，本发明方法用于实体分类的性能表现(MAP)，图5为仅部分数据被标记的情况下，本发明方法用于链路预测的性能表现(Hits@10)。

从图4和图5中可以看到，即使标记数据为1％，本发明方法也能很好地完成实体分类和链路预测这两项任务。在FB15K和WIN18数据集上，对于实体分类任务，本发明方法仍然可以达到大约60MAP值，对于链接预测任务至少达到50的Hits@10值，这几乎与TransE相媲美。图4和图5所示数据表明了本发明方法在实际应用中的鲁棒性和实用性。

实施例5

本实施例一种基于半监督嵌入表示模型的知识图谱处理装置，包括存储器和处理器，所述存储器用于存储至少一个程序，所述处理器用于加载所述至少一个程序以执行所述处理方法。

综上，本发明的有益效果是：

通过计算知识图谱中任两个顶点之间的一阶邻近度，以及根据知识图谱中任两个顶点的邻域结构计算二阶邻近度，同时考虑一阶邻近度和二阶邻近度而对知识图谱进行联合优化，从而保留知识图谱的局部和全局结构信息，克服了现有技术中知识图谱因对每个顶点的特征的依赖以及各顶点之间关系信息的缺乏所带来的缺陷。

以上是对本发明的较佳实施进行了具体说明，但对本发明创造并不限于所述实施例，熟悉本领域的技术人员在不违背本发明精神的前提下还可做作出种种的等同变形或替换，这些等同的变形或替换均包含在本申请权利要求所限定的范围内。