CN113656665A

CN113656665A - 一种基于哈希的半监督离散网络表示方法

Info

Publication number: CN113656665A
Application number: CN202110848848.XA
Authority: CN
Inventors: 毛振; 沈肖波; 王瑞; 尹康华
Original assignee: Nanjing University of Science and Technology
Current assignee: Nanjing University of Science and Technology
Priority date: 2021-07-27
Filing date: 2021-07-27
Publication date: 2021-11-16
Anticipated expiration: 2041-07-27
Also published as: CN113656665B

Abstract

本发明公开了一种基于哈希的半监督离散网络表示方法，网络包括节点自身的特征信息，节点之间的关联信息，节点的类别标签信息，得到表示过程如下：根据所述的节点之间的关联信息构建滤波矩阵；根据所述的滤波矩阵构建图自编码器，包括解码器和编码器，输出低维特征表示和重构特征，计算重构误差；二值激活低维特征表示，生成离散网络表示；使用分类器将离散网络表示分类，计算分类误差；构造总目标函数，优化编码器、解码器和分类器的参数，得到最终模型与离散网络表示。本发明方法获得的离散网络表示所需的存储空间极小，表达能力更强，在节点分类任务中表现出色，且在推荐系统、社区发现等任务上都有重要意义。

Description

一种基于哈希的半监督离散网络表示方法

技术领域

本发明涉及机器学习技术领域，特别是一种基于哈希的半监督离散网络表示方法。

背景技术

真实世界中的实体之间通常会交互，形成大规模的复杂网络，比如：社交网络、文献引用网络等，有效提取网络中的信息成为了现在的热点问题。网络表示学习的目标是提取网络节点的低维潜在表示，其中的关键是保持节点自身的特性，网络的结构关系。

目前已有的算法难以兼顾潜在表示的表达能力和信息存储的开销。这些方法中，哈希表示虽然在大规模图像检索中非常的有效，但忽略了网络的结构关系，表达能力较弱；传统网络表示学习方法得到的实值表示虽然能有较强的表达能力，但是存储的开销上难以做到哈希码的轻量；现有的离散网络表示的方法，通过相对简单的变换获得网络表示，表达能力有限。

发明内容

本发明的目的在于提供一种基于哈希的半监督离散网络表示方法，将节网络点的高维特征映射到低维的汉明空间，并且保持网络相邻节点间的相似性结构。

实现本发明目的的解决方案为：一种基于哈希的半监督离散网络表示方法，网络包括节点自身的特征信息，节点之间的关联信息，节点的类别标签信息，得到表示过程如下：

步骤1、根据所述的节点之间的关联信息构建滤波矩阵；

步骤2、根据所述的滤波矩阵构建图自编码器，包括解码器和编码器，输出低维特征表示和重构特征，计算重构误差；

步骤3、二值激活低维特征表示，生成离散网络表示；

步骤4、使用分类器将离散网络表示分类，计算分类误差；

步骤5、构造总目标函数，优化编码器、解码器和分类器的参数，得到最终模型与离散网络表示。

本发明与现有技术相比，其显著优点为：(1)利用节点之间的关联信息构建滤波矩阵；利用滤波矩阵构建的网络模型，网络表示的表达能力更强；(2)根据节点自身特征信息，图自编码器输出的重构的特征，节点的类别标签信息，分类器输出的类别预测，构造目标函数，包含重构误差以及分类误差两部分，通过端到端联合学习，优化网络参数，得到离散网络表示，存储占用空间明显更少，在下游任务中拥有更好的表现。

附图说明

图1是本发明基于哈希的半监督离散网络表示方法的流程图。

图2是储存网络的表示所需空间柱状图。

具体实施方式

结合图1，本发明一种基于哈希的半监督离散网络表示方法，网络包括节点自身的特征信息，节点之间的关联信息，节点的类别标签信息，得到表示过程如下：

步骤1、根据所述的节点之间的关联信息构建滤波矩阵；

步骤3、二值激活低维特征表示，生成离散网络表示；

步骤4、使用分类器将离散网络表示分类，计算分类误差；

进一步地，所述网络为社交网络或文献引用网络。

进一步地，步骤1中节点之间的关联信息，使用邻接矩阵A，

表示，其中N表示节点数量，计算对称归一化拉普拉斯矩阵

其中，I是单位矩阵；D是节点的度矩阵，第i行第i列的元素

A_ij是邻接矩阵第i行第j列的元素，且D为对角阵；

计算低通滤波矩阵F_L,高通滤波矩阵F_H：

其中,δ_L、∈_L是低通滤波矩阵控制平滑程度和增益的参数，δ_H、∈_H是高通滤波矩阵控制锐化程度和增益的参数。

进一步地，步骤2所述根据所述的滤波矩阵构建图自编码器，包括解码器和编码器，输出低维特征表示和重构特征，计算重构误差，具体如下：

(1)使用多层的编码器网络Encoder(·，F_L；θ_encoder)，其中F_L是所述的低通滤波矩阵，θ_encoder为编码器网络参数，层间的传播规则使用如下公式：

其中，

是编码器第t层的激活矩阵的可训练权重矩阵；σ(·)表示激活函数，H^t是编码器第t层的激活矩阵，编码器第0层的激活矩阵，即编码器的输入H⁽⁰⁾,H⁽⁰⁾＝X,X是节点的特征矩阵；编码器输出X的低维表示Z＝Encoder(X，F_L；θ_encoder)；

(2)使用多层的解码器网络Decoder(·，F_H；θ_decoder)，其中F_H是所述的低通滤波矩阵，θ_decoder为解码器网络参数，层间的传播规则使用如下公式：

其中，

是解码器第t层的可训练权重矩阵；H^t+l是解码器第t层的激活矩阵，其中l表示编码器层数，解码器第0层的激活矩阵，即编码器的输出H^(l)，H^(l)＝Z，Z为编码器输出的低维表示；解码器输出X的重构特征

(3)使用均方差评估重构误差L_X：

其中，m为节点的个数。

进一步地，步骤3所述二值激活低维特征表示，生成离散网络表示，具体如下：

在节点的关联信息辅助下，将低维表示Z进行如下激活，得到离散表示B：

其中，sign(·)表示符号函数；V(·)表示第号节点；N(·)表示与相邻的节点的集合；V(i)表示第i号节点；N(V(i))表示与第i号节点相邻的节点的集合；V(k)表示第k号节点。

进一步地，步骤4中使用分类器将离散网络表示分类，计算分类误差，具体如下：

使用分类器Classifier(·；θ_classifier)，其中θ_clssifier为分类器网络参数，将离散表示B分类，得到结果

使用交叉熵函数评估有标签节点的分类误差L_Y：

其中，

是有标签节点的编号的集合；l是

的元素；F是类别数；Y是节点的标签矩阵，使用独热码表示，Y_lf是Y的第l行第f列元素；

是

的第l行第f列元素。

进一步地，步骤5所述构造总目标函数，优化编码器、解码器和分类器的参数，得到最终模型与离散网络表示具体如下：

L＝λL_X+(1-λ)L_Y

其中，L是总损失，λ是平衡两个损失的因子；根据总损失L，使用Adam算法优化θ_encoder、θ_decoder、θ_classifier，得到最终模型和离散网络嵌入。

下面结合附图及具体实施例对本发明做进一步详细说明。

实施例

本实施例结合一个文本分类任务来对本发明做进一步说明：

(1)本实施例采用标准的文献引用网络数据集——cora数据集来测试数据集。

cora数据集共2708个节点，每个节点都是一篇论文，论文被分为7类。每个节点都有1433个特征，每个特征都对应一个词，且该元素只有0或1这两个取值。取0表示该元素对应的词不在论文中，取1表示在论文中。如果两篇论文之间有引用的关系，则两篇论文之间有一条边。数据以邻接矩阵A和特征矩阵X，标签向量Y形式表示。

(2)根据公式

计算对称归一化拉普拉斯矩阵，由公式

计算低通滤波矩阵F_L,高通滤波矩阵F_H,其中δ_L取1.5，δ_H取1，∈_L取1.5，∈_H取1；

(3)多层的编码器网络的层间的传播规则使用如下公式

H^t+1＝ReLU(F_LH^tθ^t)

其中，ReLU(·)表示线性整流单元。H⁽⁰⁾＝X。编码器输出X的低维表示Z。多层的解码器网络的层间的传播规则使用如下公式

其中，H⁽⁰⁾＝Z。解码器输出X的重构特征

使用均方差评估重构误差。

(4)将所述的低维表示Z进行如下激活，得到离散表示B

(5)将离散表示B输入分类器，分类器采用softmax回归分类，得到分类结果

使用交叉熵函数评估有标签节点的分类误差

(6)以L＝λL_x+(1-λ)L_Y作为总损失

其中，L是总损失。λ是平衡两个损失的因子，取0.3。使用Adam算法优化总损失L，学习率取0.002，得到模型，获得最终离散表示。

实验控制测试集中有标签节点比例从10％到90％变化，分别进行训练。最终分类结果，如表1所示。与经典的网络表示方法DeepWalk、Node2vec、TADW、HSCA，以及其他的离散网络表示方法，如NetHash、LQANR、BANE相比，可以看出本发明在该任务上，分类的评价指标micro-F1，macro-F1都优于其他方法。部分方法存储网络表示所需的空间，如图2所示，相比DeepWalk，Node2vec等的实值方法，本方法存储网络表示所需的空间明显更小。

表1本方法与其他方法节点分类结果的比较表格

注：横轴百分比值表示有标签的节点的比例

综上所述，本发明利用节点之间的关联信息构建滤波矩阵；利用滤波矩阵构建的网络模型，网络表示的表达能力更强；根据节点自身特征信息，图自编码器输出的重构的特征，节点的类别标签信息，分类器输出的类别预测，构造目标函数，包含重构误差以及分类误差两部分，通过端到端联合学习，优化网络参数，得到离散网络表示，存储占用空间明显更少，在下游任务中拥有更好的表现。