CN109165743A

CN109165743A - 一种基于深度压缩自编码器的半监督网络表示学习算法

Info

Publication number: CN109165743A
Application number: CN201810786674.7A
Authority: CN
Inventors: 何洁月; 武文茂
Original assignee: Southeast University
Current assignee: Southeast University
Priority date: 2018-07-17
Filing date: 2018-07-17
Publication date: 2019-01-08

Abstract

本发明公开了一种基于深度压缩自编码器的半监督网络表示学习算法LSDNE(LabeledStructural Deep Network Embedding)，包含如下步骤：搭建模型，使用深度信念网络(DBN)对输入数据进行预训练，得到模型参数的初值，用网络的邻接矩阵以及拉普拉斯矩阵作为输入；使用深度压缩自编码器编码网络，获得节点的全局结构特征；使用拉普拉斯特征映射，获得节点的局部结构特征；使用SVM分类器对已知标签节点进行分类，对整个模型进行调优；使用Adam优化模型，获得节点的表示。本发明能够同时利用网络的结构信息以及节点的标签信息进行网络表示学习，并且使用了深度学习模型，使得节点的表示在标签分类任务上的表现优于目前已存在的算法。利用深度压缩自编码器能降低过拟合现象，使模型拥有更好的泛化性能。

Description

一种基于深度压缩自编码器的半监督网络表示学习算法

技术领域

本发明涉及网络表示学习，具体涉及一种利用标签数据并且基于深度学习模型的半监督网络表示学习算法LSDNE(LabeledStructural Deep Network Embedding)。

背景技术

网络表示学习是将高维的网络在低维的向量空间中进行表示，旨在获取和保留网络的结构信息。一个网络，它的结构可以应用于各种各样的任务，如社团发现、边预测、节点分类等。但是，传统的网络分析技术存在它的局限性。首先，传统方法的复杂度太高，很难应用于现代的大规模网络；第二，现代大规模网络中，节点之间的链接关系非常复杂而且不易观察，这就导致了传统的分析的方法很难给出一种量化节点之间关系的解决方案；第三，传统网络分析技术无法很好地与现今数据挖掘、机器学习任务相结合。网络表示学习很好地解决了上述问题。

网络表示学习算法大致可以分为以下几类：①基于谱因子分解的网络表示学习。②基于最优化的网络表示学习。③基于自然语言模型的网络表示学习。④基于深度学习模型的网络表示学习。然而，这些算法或模型均具有各自的局限性。基于谱因子分解的网络表示学习专注于还原邻接矩阵，易产生过拟合现象，在将结果运用于机器学习任务上时效果普遍不好；基于最优化的网络表示学习以及自然语言处理模型均属于浅层模型，无法更好地获取和保留网络结构中复杂的特征；基于深度学习的网络表示学习仅仅使用了网络结构进行无监督学习，没用使用已知的标签信息，模型训练缺乏标签的指示。

发明内容

为了克服现有技术中存在的不足，本发明提供一种基于深度压缩自编码器的半监督网络表示学习算法，用于解决现有的网络表示学习算法存在的局限性问题。

为实现上述目的，本发明所述的一种基于深度压缩自编码器的半监督网络表示学习算法，依次包括以下顺序执行的步骤：

步骤1、获得拓扑图G的邻接矩阵A，并且通过计算获得A的拉普拉斯矩阵L (L＝D-A,D是图G的度数矩阵，它是一个对角矩阵)，设定已知标签节点的比例(从10％到90％)，将矩阵A中带标签的节点划分成训练数据X_train以及验证数据X_validation，比例为9:1，将A和L以及X_train对应的标签Y_train作为模型输入。

步骤2、搭建模型，初始化各个参数，使用深度信念网络(DBN)预训练自编码器的参数矩阵。

步骤3、将A与L、Y_train输入至模型中，计算出模型的总误差(详见具体实施方式)；

步骤4、使用adam优化方式对模型进行优化，更新各个参数；

步骤5、若模型收敛，则算法结束；若不收敛，计算模型对X_validation的分类误差，如果验证集分类误差开始上升，则算法结束；如果验证集分类误差继续减小，则返回步骤3；

步骤6、根据步骤5训练完成的模型，获得网络的节点表示Z；

步骤7、根据步骤6获得的节点表示Z，将Z看作是节点的特征，将设定带标签的节点作为训练集，设定的未知标签节点作为测试集，进行标签预测任务，使用Liblinear 工具计算预测精度。

进一步的，所述步骤2的中模型如下：搭建两个隐层的深度压缩自编码器作为无监督部分的模型，用于训练所有节点；使用拉普拉斯特征变换设计目标函数，使得学到的特征能够保留网络节点的局部结构；搭建SVM分类器作为有监督部分的模型，用于训练已知标签的节点，将中间隐层Z作为分类器的输入。

进一步的，所述步骤3中的模型误差包含如下几项：

(1)深度压缩自编码器的最小化重构误差L_2nd，此项作为网络的全局结构误差。

(2)相邻节点的隐层Z相似度最小化误差L_1st，此项作为网络的布局结构误差。

(3)已知标签节点的分类误差L_svm，此项作为网络的有监督分类误差。

(4)规格化项L_reg，此项用于规格化自编码器以及分类器的参数矩阵，防止过拟合。

相对于现有技术，本发明的效果如下：本发明提出了一种基于深度压缩自编码器的半监督网络表示学习算法，该算法使用到了深度学习模型获取网络的复杂结构特征，与此同时，利用了已知标签融入模型使得网络表示学习在进行标签预测任务时更具有优势，具体包括以下优点：

1)使用深度自编码器，以邻接矩阵为输入数据，中间层学习到网络的表示，相比于浅层模型而言，能够更好地获取节点的全局结构特征；

2)使用拉普拉斯特征映射，使得相邻节点的表示更接近，获取节点的局部结构特征；

3)使用SVM(支持向量机)作为分类器，以节点表示作为输入，将已知标签的信

息融入了模型，使得模型能更好地处理标签预测问题；

4)使用压缩自编码器代替普通自编码器，使得模型能够抵抗输入数据中的微小扰动 (噪声)，提高了模型的泛化能力。

附图说明

图1为本发明的模型示意图；

图2为模型运行示意图；

图3为本发明中模型使用压缩自编码器与普通自编码器的标签预测精度对比图；

图4为参数β和bal在数据集Citeseer上的参数敏感度实验结果图；

图5为本发明提出的模型在数据集Citeseer上的训练误差与泛化误差随训练变化图；

图6为本发明在数据集Citeseer上进行的参数α和参数γ的组合敏感度实验结果图。

具体实施方式

下面对本发明技术方案进行详细说明，因技术方案中的大部分步骤都描述地很清晰，具体实施方式主要描述步骤3中构建模型的过程以及各项误差公式推导，本发明的保护范围不局限于所述实施例。

下文中所涉及符号和参数的定义如表1：

表1符号说明

根据图1的模型和图2的算法流程，对于LSDNE的无监督部分，目标函数分为两个部分——first-order部分和second-order部分。second-order部分采用了深度压缩自编码器(Deep Contrative Autoencoder)，由编码器和解码器组成，编码器通过多个隐藏层将输入的邻接向量非线性映射到隐空间，解码器也通过多个隐藏层还原，对于给定的输入，隐藏层的计算如下：

y_i ⁽¹⁾＝σ(W⁽¹⁾x_i+b⁽¹⁾) (1)

y_i ^(k)＝σ(W^(k)y_i ^(k-1)+b^(k)),k＝2,...,K (2)

其中σ是激活函数，使用relu激活函数，W和b是参数矩阵和偏置，在获得中间层y_i ^(k)之后，就可以进行解码过程，要求解码得到的与输入x_i的重构误差最小。同时，考虑到网络的稀疏性，邻接向量中0的数量远远多于1的数量，这将直接导致输出趋向于重构出0元素。为了解决这一问题，我们对于非0元素增加权重，损失函数如下：

式(3)中的⊙表示哈夫曼乘积，bi是对输入数据的一个加权，邻接向量中值为0的bi 中相对位置是1，邻接向量中值为1的bi中相对位置大于1(设置为bal)，不同网络取值不同。

first-order部分的目标函数就直观很多，要求相邻的节点学出的隐向量平方误可差最小即，根据拉普拉斯特征映射，如下式(s_i,j为邻接向量,L为网络的拉普拉斯矩阵)：

对于有标签的节点，使用SVM分类器，将已知标签融入到模型的学习中去，假设有标签节点为m个，总共有k类，其损失函数如下：

(5)

与使用了普通自编码器的SDNE不同，本发明使用了压缩自编码器(CAE)，这个模型通过雅格比矩阵的F范式进行惩罚来对微小的扰动具有健壮性，从而使得模型比使用普通自编码器有更好的泛化能力，损失函数如下

综上所述，式(3)、(4)、(5)综合起来就是最终的目标函数：

其中的γL_reg是所有规格化项的和，定义如下：

神经网络的非线性激活函数采用了Relu激活函数，优化方式使用了Adam，在模型收敛或者验证集误差开始升高的时候模型训练结束(如图5所示，在1500次循环时泛化误差达到最小，因此在此时停止实验)，Z为最终输出。

实施例1：

本实施例在Windows平台上运行的，操作系统为64位windows10，CPU使用E3 1231V3，内存32G，使用的GPU为英伟达GTX970，显存容量3.5G，所有的算法均用python 语言编写，基本配置如下表2：

表2实验环境配置

使用到的数据集如下表3：

表3数据集

本次实施例实验了测试集占总数据集10％到90％的情况，在得到网络的节点表示向量之后，使用这个向量作为输入数据，使用多分类逻辑斯蒂回归对节点进行分类。实验指标采用微平均Micro-F1，实验结果是进行10次分类结果进行平均之后得到的，baseline 则是其各自论文中的实验结果最好值。用于对比的baseline算法如下：

●Deepwalk:采用随机游走和自然语言处理中的skip-gram模型去进行网络表示学习。●LINE:该算法分别为first-order和second-order设计了目标函数，通过负采样和随机梯度下降优化目标函数进行网络表示学习。

●SDNE:使用深度学习模型提取网络特征，将first-order和second-order通过深度学习联系在一起，是一种无监督模型。

●TLINE:该算法是一种半监督的算法，在LINE模型的基础上加入了SVM目标函数，使得标签数据得以利用，是一种半监督模型。

●MMDW:该算法将Deepwalk看作是矩阵分解，从矩阵分解的角度设计目标函数，加入标签信息以获得更高的准确度，是一种半监督模型。

本发明提出的模型使用了压缩自编码器(CAE)，为了证明其在泛化能力上优于普通自编码器(AE)，本次实施例在数据集Citeseer上分别使用了CAE和AE，实验了测试集占总数据集10％到90％的情况下多分类逻辑斯蒂回归对节点的分类微平均 Micro-F1，实验结果如图3所示。从图上可以看出，在已知标签小于50％时，使用CAE 能够获得更高的分类精度，这说明了在已知较少样本时，本发明提出的模型在标签预测任务上表现更好，更具备泛化能力。

如图5所示，本发明对提出的模型进行了模型收敛实验，可以看到在1500次循环之后，模型的误差损失依旧在逐渐降低，但是泛化误差却不再减少，模型使用 earlystopping以确保不会过拟合。

如图4、图6所示，本发明对提出的模型进行了参数敏感度实验，从图4中可以看出，在其他参数不变的情况下自编码器重构加权参数bal在值过大时，分类的微平均Micro-F1会显著降低，而分类误差平衡范数β的值在1到50时并不敏感，过大或过小都会使分类精度降低。从图6可以看出，参数α和参数Y存在一定相关性，当两个参数取值均小于0.1的时候相互不敏感。

表4Citeseer数据集上节点分类的微平均Micro-F1(％)

表5Cora数据集上节点分类的微平均Micro-F1(％)

本发明提出的算法在标签预测的任务上表现优于其他的对比baseline算法，实验结果如表4、表5所示。其中，在citeseer数据集和cora数据及上均有1％到2％的提高，说明本发明提出的算法在标签预测任务上更具优势。

需要说明的是，上述实施例仅仅是本发明的较佳实施例，并没有用来限定本发明的保护范围，在上述技术方案的基础上做出的等同替换或者替代均属于本发明的保护范围。

Claims

1.一种基于深度压缩自编码器的半监督网络表示学习算法，其特征在于：依次包括以下顺序执行的步骤：

步骤1、获得拓扑图G的邻接矩阵A，并且通过计算获得A的拉普拉斯矩阵L，设定已知标签节点的比例，将矩阵A中带标签的节点划分成训练数据X_train以及验证数据X_validation，比例为9:1，将A和L以及X_train对应的标签Y_train作为模型输入，执行步骤2；

步骤2、搭建模型，初始化各个参数，使用深度信念网络即DBN预训练自编码器的参数矩阵，执行步骤3；

步骤3、将A与L、Y_train输入至模型中，计算出模型的总误差，执行步骤4；

步骤4、使用adam优化方式对模型进行优化，更新各个参数，执行步骤5；

步骤5、若模型收敛，则执行步骤6；若不收敛，计算模型对X_validation的分类误差，如果验证集分类误差开始上升，则执行步骤6；如果验证集分类误差继续减小，则返回步骤3；

步骤6、根据步骤5训练完成的模型，获得网络的节点表示Z，执行步骤7；

步骤7、根据步骤6获得的节点表示Z，将Z看作是节点的特征，将设定带标签的节点作为训练集，设定的未知标签节点作为测试集，进行标签预测任务，使用Liblinear工具计算预测精度。

2.根据权利要求1所述的基于深度压缩自编码器的半监督网络表示学习算法，其特征在于：所述步骤2的中模型如下：搭建两个隐层的深度压缩自编码器作为无监督部分的模型，用于训练所有节点；使用拉普拉斯特征变换设计目标函数，使得学到的特征能够保留网络节点的局部结构；搭建SVM分类器作为有监督部分的模型，用于训练已知标签的节点，将中间隐层Z作为分类器的输入。

3.根据权利要求1所述的基于深度压缩自编码器的半监督网络表示学习算法，其特征在于：所述步骤3中的模型误差包含如下几项：

(1)深度压缩自编码器的最小化重构误差L_2nd，此项作为网络的全局结构误差；

(2)相邻节点的隐层Z相似度最小化误差L_1st，此项作为网络的布局结构误差；

(3)已知标签节点的分类误差L_svm，此项作为网络的有监督分类误差；

4.根据权利要求1所述的基于深度压缩自编码器的半监督网络表示学习算法，其特征在于：所述使用adam优化方式对模型进行优化，即利用梯度的一阶矩估计和二阶矩估计动态调整每个参数的学习率。