CN110717617A

CN110717617A - 一种基于深度图网络自编码器的无监督关系预测方法

Info

Publication number: CN110717617A
Application number: CN201910849178.6A
Authority: CN
Inventors: 蔡瑞初; 陈学信; 郝志峰; 温雯; 吴迪
Original assignee: Guangdong University of Technology
Current assignee: Guangdong University of Technology
Priority date: 2019-09-09
Filing date: 2019-09-09
Publication date: 2020-01-21

Abstract

本发明公开一种基于深度图网络自编码器的无监督关系预测方法，包括采集具有目标关系m对、实体数量为n的实体对数据集X；对实体对数据进行预处理，将实体对数据划分K份测试集和训练集的组合；将测试集转换成测试矩阵A_test，将训练集转换成训练矩阵A_train；对训练集矩阵A_test规范化处理为邻接矩阵

定义编码器和解码器，搭建预测模型；将预测模型遍历k份测试集和训练集进行训练并关系重构，得到k个训练后的预测模型；遍历k个训练后的预测模型，获取目标关系的预测。本发明采用图卷积神经网络完成目标关系预测，在图的边预测时完成节点嵌入向量由转导问题变为归纳问题。

Description

一种基于深度图网络自编码器的无监督关系预测方法

技术领域

本发明涉及大数据分析领域，尤其涉及一种基于深度图网络自编码器的无监督关系预测方法。

背景技术

使用基于计算的关系预测算法是机器学习一个很重要的应用。目前的主要方法是把推荐问题的矩阵分解算法迁移到了这个问题上。然而，当这方法被迁移到求图上的节点表示的时候，会变成是一种直接编码的方法，独立地为每个节点训练出一个唯一嵌入向量，有以下不足的地方：

(1)编码器内部节点之间没有参数共享(i.e.,编码器只是关于任意节点标识号的嵌入向量查询)。由于参数共享可以作为一种强大的正则化形式，这会产生统计学的有效性变低的问题，又由于每个节点的嵌入向量的计算都是独立，又导致了计算上的效率变低，这意味着参数数量必然随着

的增加而增加。

(2)直接编码方法在编码期间无法利用节点的属性。在许多规模很大的图上，节点都是有属性的，例如社交网络上的用户简介中的信息，这往往与节点在图中的位置以及扮演的角色高度关联。

(3)直接编码方法存在固有的转导问题，即无法生成在训练集中没有见到的节点的嵌入向量。

为解决以上全部问题，本文引入了新颖的图卷积神经网络完成目标关系预测。图是一种普遍存在的数据结构，近年来图神经网络快速发展，与传统的神经网络相比，图神经网络的优势在于能把图作为输入，而不是形态必须规整的数据结构，然后学习推理和预测对象及其关系如何随时间演变。但是一般的图神经网络边预测模型，只能解决上述问题的前两个，而无法完成在边预测时也能完成节点嵌入向量由转导问题变成归纳问题。

发明内容

本发明为克服上述现有技术所述的至少一种缺陷(不足)，提供一种基于深度图网络自编码器的无监督关系预测方法。

本发明旨在至少在一定程度上解决上述技术问题。

为了达到上述技术效果，本发明的技术方案如下：

一种基于深度图网络自编码器的无监督关系预测方法，包括如下步骤：

S10采集具有目标关系m对、实体数量为n的实体对数据集X；

S20对实体对数据进行预处理，将实体对数据划分K份测试集和训练集的组合；

S30将测试集转换成测试矩阵A_test，将训练集转换成训练矩阵A_train；

S40对训练集矩阵A_test规范化处理为邻接矩阵

S50定义编码器和解码器，搭建预测模型；

S60将预测模型遍历k份测试集和训练集进行训练并关系重构，得到k个训练后的预测模型；

S70遍历k个训练后的预测模型，获取目标关系的预测。

优选地，所述S20具体方法为：

对实体对数据进行K折交叉验证，所述K折交叉验证是指将实体对数据集平均分成k份，假设实体对数据集为X，实体对数据集的总样本数为s，那么X被平均分成k份后，得到{X¹，X²，...，X^k}，且

表示第i个数据集的样本数，依次把Xⁱ作为评价模型的测试集，其余的X^j(j≠i，1≤j≤k)并成一个集合，作为训练集，以此将实体对数据划分成K个不同测试集和训练集的组合以供训练。

优选地，所述S30具体方法为：

将测试集转换成测试矩阵A_test：假设测试集的样本数为p，训练集的样本数是t，则每个测试集和训练集组合的总样本数s＝p+t，每个样本集共有n个节点，那么测试矩阵A_test＝{{x_i，x_j}|x≠j，x，j＝1，...，n}，其中{x_i，x_j}代表节点x_i与节点x_j连接而成的无向边，建立一个其中元素全为0的n×n的矩阵A_test，那么对于测试集中的任意一{x_i，x_j}，令A_test中第x_i行第x_j列和第x_j行，第x_i列均取1；

将训练集转换成训练矩阵A_train：训练集＝{{x_i，x_j}|x≠j，x，j＝1，...，n}，建立一个元素全为0的n×n矩阵Atrain，那么，对于训练集中任意一{x_i，x_j}，我们令A_train中第x_i行，第x_i列和第x_i行，第x_i列均取1。

优选地，所述S40对训练集矩阵A_test规范化处理为邻接矩阵

的计算式如下：

其中，I是n×n的单位矩阵，即除了对角线元素是1之外，其他位置的元素均是0，

是

矩阵的度矩阵，它是一个对角矩阵，其对角线上的元素被定义为

表示

矩阵的第i行第j列的元素，d_ii表示度矩阵

第i行第i列的元素。

优选地，所述S50中的编码器定义如下：

编码器最后的输出是

把

用于解码器，

解码器定义如下：

其中，Y∈{I，A}，当Y＝A时，

和HY去除边，当Y＝I时，

和HY去除节点，Dropout(Y，p)是随机失活函数，它将以概率p对矩阵的每一个元素独立地进行置0，Y是n×n的节点特征矩阵，W₁，W₂是可训练的参数矩阵，W₁的维度为n×d₁，W₂的维度为n×d₂，d₁、d₂是预定值，

是节点特征矩阵Y经过Dropout后的n×n节点特征矩阵，ReLu和Sigmoid是激活函数，具体的表达式如下：

ReLu(x)＝max(x，0)

H_Y是经过第一层编码器

映射后的n×d₁的矩阵输出，该矩阵的每一行是相应节点特征在d₁维隐空间内的隐藏表示，故H_Y是一个节点隐藏表示矩阵，是H_Y经过Dropout作用后的n×d₁节点隐藏表示矩阵，Z_Y是经过编码器

映射后n×d₂的矩阵输出，该矩阵的每一行是相应节点特征在d₂维隐空间内的隐藏表示，故Z_Y是一个节点隐藏表示矩阵，

是Z_Y经过Dropout作用后得到的n×d₂节点隐藏表示矩阵，的意思是矩阵

的转置，

是n×n的重构邻接矩阵。

优选地，所述S60预测模型遍历k份测试集和训练集进行训练中每份测试集和训练集组合的训练具体为：

S601将n×n的单位矩阵I和测试矩阵A_test分别输入到编码器中，先令Y＝I，编码器输出再令Y＝A_test，编码器输出

将

和

输入解码器中，得到两个重构邻接矩阵

和

并将重构邻接矩阵

与A_train计算负对数似然得到Loss_I，将重构邻接矩阵

与A_train计算负对数似然得到Loss_A，负对数似然计算公式如下：

Loss_Total＝Loss_I+ρ·Loss_A，

采用ρ代表Loss_I与Loss_A间的重要性衡量，取预定阈值，若ρ＞1，说明Loss_A比Loss_I重要；反之，则Loss_I比Loss_A重要；

计算Loss_I与Loss_A的和为Loss_Total；

S602对Loss_Total采用梯度反向传播算法极小化负对数似然，设定最大训练轮数T，迭代训练，模型训练完成，获取训练后预测模型；

S603计算预测模型最终重构的邻接矩阵。

优选地，所述S603具体为：

S6031令编码器和解码器的Dropout的概率为0，停止Dropout；

S6032把单位矩阵I和A分别输入到编码器中，先令Y＝I，得到编码器的输出

后，再令Y＝A，又得到编码器的输出

把编码器的两个节点隐藏表示矩阵：

和再输入到解码器中，得到的两个重构邻接矩阵和

求两个重构邻接矩阵

和的几何平均，得到模型最终的重构邻接矩阵

即：

优选地，所述S70的具体方法为：

设置矩阵A对角线右侧元素中所有0的位置用集合C表示，然后对重构邻接矩阵

中所有属于集合C的位置上的元素进行降序排序，获取排序靠前的节点位置关系，将其视为预测的目标关系。

优选地，所述S20之后，所述S30之前还包括：

S80为实体对数据集中每个实体赋予唯一的标识号。

与现有技术相比，本发明技术方案的有益效果是：本发明采用图卷积神经网络完成目标关系预测，图是一种普遍存在的数据结构，图神经网络的优势在于能把图作为输入，而不是形态必须规整的数据结构，然后学习推理和预测对象及其关系如何随时间演变，特别是在图的边预测时完成节点嵌入向量由转导问题变成归纳问题，在对边极度稀疏的图进行目标关系预测(即边预测)时，如果缺乏节点特征数据，一般的图卷积神经网络(GCN)会令节点特征矩阵为单位矩阵，然后进行预测。实质上，由于GCN内部具有Dropout，模型在训练时，如果单位矩阵的第i行的非0元素被随机地置0，那么

中的第i行全为0，即第i个节点的特征向量上的元素全为0。由GCN的空间卷积原理可知，此时等价于第i个节点在训练期间被随机地去除了。但是，因为去除节点的时候会连同其邻接的全部边一并去除，这对于边极度稀疏的图来说是非常激进的，容易让模型陷入过拟合效应。为了弥补这个不足，本文提供一种在去除节点的时候，加入只去除边的技术。不仅有效地、系统地强迫模型执行节点级别的随机去除，而且进一步微调边级别上的随机去除。所以，本发明在结构上，又与一般单路径的图卷积神经网络不同，本发明采用双路径结构(双路径结构是指当Y＝A时，

和HY去除边，当Y＝I时，和HY去除节点)对模型进行训练。每一个路径对应上述的节点级别和边级别上的随机去除。这样做带来的直接有益效果是目标关系预测的准确率提升了，说明基于节点和边级别的去除技术使得能够最小化由于边稀疏而带来的模型过拟合效应，预测出来的目标关系更可信。

附图说明

图1为本发明的方法流程图。

图2为本发明的模型搭建的原理图。

具体实施方式

附图仅用于示例性说明，不能理解为对本专利的限制；

为了更好说明本实施例，附图某些部件会有省略、放大或缩小，并不代表实际产品的尺寸；

对于本领域技术人员来说，附图中某些公知结构及其说明可能省略是可以理解的。

下面结合附图和实施例对本发明的技术方案做进一步的说明。

S10采集具有目标关系m对、实体数量为n的实体对数据集X；

S40对训练集矩阵A_test规范化处理为邻接矩阵

S50定义编码器和解码器，搭建预测模型；

S70遍历k个训练后的预测模型，获取目标关系的预测。

优选地，所述S20具体方法为：

对实体对数据进行K折交叉验证，所述K折交叉验证是指将实体对数据集平均分成k份，假设实体对数据集为X，实体对数据集的总样本数为s，那么X被平均分成k份后，得到{X¹，X²，...，Xk}，且

|Xⁱ|，表示第i个数据集的样本数，依次把Xⁱ作为评价模型的测试集，其余的X^j(j≠i，1≤j≤k)并成一个集合，作为训练集，以此将实体对数据划分成K个不同测试集和训练集的组合以供训练。

优选地，所述S30具体方法为：

将训练集转换成训练矩阵A_train：训练集＝{{x_i，x_j}|x≠j，x，j＝1，...，n}，建立一个元素全为0的n×n矩阵A_train，那么，对于训练集中任意一{x_i，x_j}，我们令A_train中第x_i行，第x_j列和第x_j行，第x_i列均取1。

优选地，所述S40对训练集矩阵A_test规范化处理为邻接矩阵

的计算式如下：

是

矩阵的度矩阵，它是一个对角矩阵，其对角线上的元素被定义为表示

矩阵的第i行第j列的元素，d_ii表示度矩阵第i行第i列的元素。

优选地，所述S50中的编码器定义如下：

编码器最后的输出是

把

用于解码器，

解码器定义如下：

其中，Y∈{I，A}，当Y＝A时，

和H_Y去除边，当Y＝I时，

和H_Y去除节点，Dropout(Y，p)是随机失活函数，它将以概率p对矩阵的每一个元素独立地进行置0，Y是n×n的节点特征矩阵，W₁，W₂是可训练的参数矩阵，W₁的维度为n×d₁，W₂的维度为n×d₂，d₁、d₂是预定值，

ReLu(x)＝max(x，0)

H_Y是经过第一层编码器映射后的n×d₁的矩阵输出，该矩阵的每一行是相应节点特征在d₁维隐空间内的隐藏表示，故H_Y是一个节点隐藏表示矩阵，

是H_Y经过Dropout作用后的n×d₁节点隐藏表示矩阵，Z_Y是经过编码器

是Z_Y经过Dropout作用后得到的n×d₂节点隐藏表示矩阵，

的意思是矩阵

的转置，

是n×n的重构邻接矩阵。

将和

输入解码器中，得到两个重构邻接矩阵

和

并将重构邻接矩阵

与A_train计算负对数似然得到Loss_I，将重构邻接矩阵

Loss_Total＝Loss_I+ρ·Loss_A，

计算Loss_I与Loss_A的和为Loss_Total；

S603计算预测模型最终重构的邻接矩阵。

优选地，所述S603具体为：

S6031令编码器和解码器的Dropout的概率为0，停止Dropout；

后，再令Y＝A，又得到编码器的输出

把编码器的两个节点隐藏表示矩阵：

和

再输入到解码器中，得到的两个重构邻接矩阵

和

求两个重构邻接矩阵

和

的几何平均，得到模型最终的重构邻接矩阵即：

优选地，所述S70的具体方法为：

优选地，所述S20之后，所述S30之前还包括：

S80为实体对数据集中每个实体赋予唯一的标识号。

实操实例：

步骤1：首先从某个关系数据库收下载构成协同致死(即目标关系就是协同致死)的基因对(实体对)数据集文件和数据集中包含的基因(实体)文件，涉及6375个实体，共19677个已知能构成目标关系的实体对。实体对数据集的局部如表格2所示：

所涉及的实体数据集文件的局部如表1所示：

A2M
	A2ML1
AADAT
	AAR2
AATF

表1

文件中的每一行(共19667行)的两个字符串表示能够构成目标关系的两个实体。为了使得后面的步骤描述更加简洁易懂，这里在讲述预处理部分时，只针对其中前5个实体对的变化：

BTG2	SESN1
		EGR1	FOSB
MYOF	PINK1
		DNAJB6	GLUD1
GLUD1	TMEM126B

表2

步骤2：对6375个实体进行排列(排列的原则可以是任意的，这里直接是使用Python语言调用集合函数后返回的排列结果)，其中，用数字0表示排在首位的实体，用数字1表示排在第二位的实体，……，排在最后一位的实体用数字6374表示，表格2中，用对应的数字替换，得到的结果如表格3所示：

表3

上述实施例和说明书中描述的只是说明本发明的原理和最佳实施例，在不脱离本发明精神和范围的前提下，本发明还会有各种变化和改进，这些变化和改进都落入要求保护的本发明范围内。

步骤3：对经过数字化(又叫令牌化)的实体对，进行5折交叉验证，具体地，我们把19677个实体对X，平均分成5个部分X₁∪X₂∪X₃∪X₄∪X₅＝X，每部分有19677/5≈3936个实体对。然后按照交叉验证的原则，我们构造出5个(训练集，测试集)组合，即(X₁∪X₂∪X₃∪X₄，X₅)，(X₁∪X₂∪X₃∪X₅，X₄)，(X₁∪X₂∪X₄∪X₅，X₃)，(X₁∪X₃∪X₄∪X₅，X₂)，(X₂∪X₃∪X₄∪X₅，X₁)。

步骤4：对每个(训练集，测试集)组合矩阵化，例如对于(X₁∪X₂∪X₃∪X₄，X₅)，我们要分别把训练集(X₁∪X₂∪X₃∪X₄，X₅)和验证集X₅矩阵化。

矩阵化的具体操作如下：

分别初始化两个6375×6375全零矩阵A_train和A_test；根据训练集X₁∪X₂∪X₃∪X₄任意一个元素，如(557，4868)，那么令A_train第557行，第4868列的位置和第4868行，第557列的位置分别置1。，

这样将会得到5个(A_train，A_test)组合。

步骤5：对每个组合中的A_train进行规范化，式子如下：

这样将会得到5个

组合。A_train将作为节点的特征矩阵使用。

步骤6：准备另外一个节点特征矩阵：6375×6375的单位矩阵I，即只有矩阵对角线上的元素为1，其余位置为0的矩阵。

步骤7：选定第i个

组合(i＝1，2，...，5)

步骤8：单位矩阵I进入自编码器，过程如下：

其中，Dropout是随机失活函数。

步骤9：单位矩阵A_train进入自编码器，过程如下：

步骤10：计算损失：

Loss_Total＝Loss_I+ρ·Loss_A

ρ＝1

步骤11：重复步骤7～102000轮(即训练模型)，又或者1000轮之后：

Loss_Total＜10^-5

可以提前终止训练模型。

步骤12：评价模型：

对模型的两个输出和

求几何平均作为模型的最终输出：

调用Python的第三方库Scikit-learn，计算

和Atest中指定位置的AUC、AUPR、F₁。

在计算F₁指标时，需要事先对

进行如下的转换：

对于

中的每个元素，如果大于0.987，则置1；否则，则置0。

步骤13：回到步骤7，当i＞5，跳转到步骤14。

步骤14：计算AUC、AUPR、F₁的平均值以及95％的置信区间，得到结果如表四下：

AUC	AUC	F<sub>1</sub>
			0.8788±0.0068	0.3440±0.0299	0.5520±0.01282

表四

步骤15：目标关系预测，设A中所有位置记为C，所有为1的位置集合记为C₁，此时我们只评价

和A_test中关于C-C₁的位置。如果

则判断该实体对{x，y}能构成目标关系，否则，不能构成目标关系。

相同或相似的标号对应相同或相似的部件；

附图中描述位置关系的用于仅用于示例性说明，不能理解为对本专利的限制；

显然，本发明的上述实施例仅仅是为清楚地说明本发明所作的举例，而并非是对本发明的实施方式的限定。对于所属领域的普通技术人员来说，在上述说明的基础上还可以做出其它不同形式的变化或变动。这里无需也无法对所有的实施方式予以穷举。凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明权利要求的保护范围之内。

Claims

1.一种基于深度图网络自编码器的无监督关系预测方法，其特征在于，包括如下步骤：

S10 采集具有目标关系m对、实体数量为n的实体对数据集X；

S20 对实体对数据进行预处理，将实体对数据划分K份测试集和训练集的组合；

S30 将测试集转换成测试矩阵A_test，将训练集转换成训练矩阵A_train；

S40 对训练集矩阵A_test规范化处理为邻接矩阵

S50 定义编码器和解码器，搭建预测模型；

S60 将预测模型遍历k份测试集和训练集进行训练并关系重构，得到k个训练后的预测模型；

S70 遍历k个训练后的预测模型，获取目标关系的预测。

2.如权利要求1所述的基于深度图网络自编码器的无监督关系预测方法，其特征在于，所述S20具体方法为：

对实体对数据进行K折交叉验证，所述K折交叉验证是指将实体对数据集平均分成k份，假设实体对数据集为X，实体对数据集的总样本数为s，那么X被平均分成k份后，得到{X¹，X²，...，X^k}，且|Xⁱ|’表示第i个数据集的样本数，依次把Xⁱ作为评价模型的测试集，其余的X^j(j≠i，1≤j≤k)并成一个集合，作为训练集，以此将实体对数据划分成K个不同测试集和训练集的组合以供训练。

3.如权利要求2所述的基于深度图网络自编码器的无监督关系预测方法，其特征在于，所述S30具体方法为：

4.如权利要求2所述的基于深度图网络自编码器的无监督关系预测方法，其特征在于，所述S40对训练集矩阵A_test规范化处理为邻接矩阵

的计算式如下：

是

表示

5.如权利要求2所述的基于深度图网络自编码器的无监督关系预测方法，其特征在于，所述S50中的编码器定义如下：

编码器最后的输出是

把

用于解码器，

解码器定义如下：

其中，Y∈{I，A}，当Y＝A时，

和H_Y去除边，当Y＝I时，和H_Y去除节点，Dropout(Y，p)是随机失活函数，它将以概率p对矩阵的每一个元素独立地进行置0，Y是n×n的节点特征矩阵，W₁、W₂是可训练的参数矩阵，W₁的维度为n×d₁，W₂的维度为n×d₂，d₁、d₂是预定值，是节点特征矩阵Y经过Dropout后的n×n节点特征矩阵，ReLu和Sigmoid是激活函数，具体的表达式如下：

ReLu(x)＝max(x，0)