CN109948242A

CN109948242A - 基于特征哈希的网络表示学习方法

Info

Publication number: CN109948242A
Application number: CN201910201107.5A
Authority: CN
Inventors: 公茂果; 王善峰; 王麒翔; 张明阳; 李豪; 武越; 张天乐
Original assignee: Xidian University
Current assignee: Xidian University
Priority date: 2019-03-18
Filing date: 2019-03-18
Publication date: 2019-06-28

Abstract

本发明公开了一种基于特征哈希的网络表示学习方法。其实现步骤为：构建网络数据；生成随机游走路径集合；通过计算任意节点对之间的邻近度测量值从而构建高维邻近矩阵；利用特征哈希降维生成低维稠密的节点特征向量。不同于其他基于神经网络的网络表示学习方法，本发明使用特征哈希在无须额外训练的情况下可以直接学习到节点的向量表示，并较现有方法可以获得近似甚至更好的节点表示。本发明具有实际的应用价值，可以利用其得到网络中的节点表示从而解决实际生活中的各种问题，例如节点分类，链路预测，社区发现以及推荐系统等任务。

Description

基于特征哈希的网络表示学习方法

技术领域

本发明属于复杂网络技术领域，涉及网络表示学习的方法，具体是一种基于特征哈希的网络表示学习方法，用于将网络结构信息转化为低纬稠密的向量表示。

背景技术

日常生活中个体及其之间的相互关系可以抽象地构造为网络，举例来说社交网络、引用网络和电力网络等，其中网络节点代表个体，网络中的边可以代表个体之间的关系。随着网络复杂度不断地提升，其作为信息的载体具有更多值得探索的价值。现在已有大量的研究工作关注如何将机器学习算法应用在网络问题中，例如节点分类、链路预测、推荐系统和社区检测等。然而，由于网络其结构化数据的稀疏性从而导致使其应用到机器学习算法中存在很大的局限性。因此，研究将网络中节点嵌入到连续地低维特征空间具有重要的意义，其可以反映出节点在其原网络中的邻近结构信息。

网络表示学习问题近年来已经成为网络分析领域的研究热点，问题可以简单地描述为：网络表示学习是从给定的原始网络数据中学习结构信息从而得到每个节点的向量表示。

可以有效地通过从网络中学习到的节点表示特征分析网络节点在网络中与其他各个节点的联系和扮演的角色。所以基于网络表示学习的研究是十分有必要的。

发明内容

本发明的目的在于提出一种基于特征哈希的网络表示学习方法。通过该方法可以有效地将网络的结构信息嵌入到低维稠密的特征向量中。

本发明是一种基于特征哈希的网络表示学习方法，其特征在于，包括有如下步骤：

(1)构建复杂网络数据：用图结构来表示网络数据，G＝(V,E)，其中，G表示一个网络拓扑图，V＝{v₁,v₂,…,v_i,…,v_|V|}表示节点的集合，|V|表示节点数目，v_i表示第i个节点，E＝{e_ij|v_i,v_j∈V}表示网络中边的集合，e_ij表示节点v_i到v_j的一条边；

(2)生成随机游走路径集合：随机游走路径集合被用来作为一种探索图结构的工具，给定固定随机游走路径长度l和起始节点v∈V，生成随机游走路径的过程如下。让c_i代表路径中第i个被采样到的节点，路径的起始节点c₀＝v，第i个被采样节点c_i是从c_i-1节点的一阶邻居节点集N(c_i-1)中随机选择的，当路径长度满足要求时，该采样过程将会停止。当给定采样次数n时，通过上述随机游走方法对每一个节点v∈V分别执行n次从而获得路径集合Walks，该集合的大小为n·|V|。

(3)构建邻近矩阵：通过将随机游走路径中任意两节点的出现概率和距离结合成一个邻近度测量值，称为期望距离ed(u,v)。让path_u＝{v₁,v₂,...,v_w+1}代表一个以节点u为中心的路径，其中w为滑动窗口大小，ed(u,v)代表节点u和v在路径中的期望距离，计算公式如下：

其中c是节点v在路径中出现的次数，p_v代表节点v在以节点u为中心的路径中出现的概率，代表节点v在第i次出现时与节点u在路径中的距离，max_dis代表所有中最长的距离，公式中第一项的目的是使与ed(u,v)成正相关，其原因是如果两节点距离越近则两节点越相近。

通过计算任意两节点之间的期望距离构建邻近矩阵，即其中，S_ij为网络中节点对之间邻近度。通过映射字典D：V→{1,2,3...,|V|}可以将网络中离散的节点映射到矩阵中唯一元素对应的下标，即D(u)＝i，D(v)＝j，S_ij计算如下：

其中，O_u,v是同时包含节点u和v的路径总数。

(4)构造低维稠密节点特征向量：让代表节点向量矩阵，其中的d代表节点向量的维度。矩阵中每一行代表一个节点的向量表示让H代表一个具有T个不同的哈希函数的集合H＝{h₁,h₂,...,h_T}，其中h_t是一个映射哈希函数h_t：{1,2,...,|V|}→{1,2,...,d}，ζ是一个符号哈希函数ζ：V→{-1,1}。该矩阵中元素定义如下

为了解决在特征哈希中的哈希冲突问题，本发明利用多个不同的哈希函数将一个低维向量T。可以将T个不同的哈希函数合并成一个哈希函数，即h:{1,2,..,|V|}→{1,2,..,d^T}。随着哈希集合规模的增加，碰撞概率可以明显的降低。假设一个哈希函数等概率随机选择向量中的一个位置。当n个特征通过该哈希函数插入到d维的向量中，碰撞概率可以根据如下公式计算

然而，随着T的增加，低维向量中的每位元素都会有更大地概率拥有至少一个高维特征，因此其需要根据不同的情况适当地设置不同的参数以达到较好的性能。其计算公式如下

本发明基于特征哈希学习网络节点特征表示，其与现有技术相比具有如下优点：

第一，本发明提出了一个基于特征哈希的网络表示学习方法，该方法服从encoder-decoder框架，它能够在不需要训练的情况下可以直接获得每个节点的向量表示；

第二，本发明设计了一种新的邻近度测量方法，其量化了原始图中两个节点的近似度。该方法结合了任意两节点在采样路径中的位置分布与共现概率分布。在encoder中，利用该方法构建高维邻近矩阵。相较于图邻接矩阵，该矩阵更加稠密并具有更加丰富的结构特征信息；

第三，本发明通过设计新的哈希核函数，其可以在降维过程中有效地降低哈希碰撞的概率，并通过公式及实验验证。在decoder中，利用该函数可以直接获得有效地节点向量表示；

第四，在不同大小规模的网络中进行模拟实验，结果表明本发明可以学习到有意义的节点向量表示。

附图说明

图1为本发明的实现流程图；

图2为本发明计算邻近度示意图；

图3为本发明设计的哈希核函数；

图4位本发明关于参数T的敏感性实验；

图1中Encoder是指通过计算期望距离构造S_i，Decoder是指通过哈希核函数将S_i降维从而得到节点实数向量表示

具体实施方式

参考图1，本发明的实现步骤如下：

步骤1，构建网络数据G＝(V,E)。

用图结构来表示网络数据，G＝(V,E)，其中，G表示一个网络拓扑图，V＝{v₁,v₂,…,v_i,…,v_|V|}表示节点的集合，|V|表示节点数目，v_i表示第i个节点，E＝{e_ij|v_i,v_j∈V}表示网络中边的集合，e_ij表示节点v_i到v_j的一条边；

步骤2，生成随机游走路径集合。

随机游走路径集合被用来作为一种探索图结构的工具，给定固定随机游走路径长度l和起始节点v∈V，生成随机游走路径的过程如下：

让c_i代表路径中第i个被采样到的节点，路径的起始节点c₀＝v，第i个被采样节点c_i是从c_i-1节点的一阶邻居节点集N(c_i-1)中随机选择的，当路径长度满足要求时，该采样过程将会停止；

随机生成游走路径具体的实现步骤如下：

(2a)设定随机游走路径的长度l；

(2b)选择起始节点c₀＝v，初始化路径队列walk＝{c₀}；

(2c)采样操作：

(2c1)随机选择一个节点u∈N(c_i-1)，令c_i＝u；

(2c2)将c_i添加到walk中；

(2d)重复步骤(2c)，直至路径长度达到l；

(2e)返回路径walk；

当给定采样次数n时，通过上述随机游走方法对每一个节点v∈V分别执行n次从而获得路径集合Walks，该集合的大小为n·|V|；

步骤3，构建邻近矩阵。

通过将随机游走路径中任意两节点的出现概率和距离结合成一个邻近度测量值，称为期望距离ed(u,v)。让path_u＝{v₁,v₂,...,v_w+1}代表一个以节点u为中心的路径，其中w为滑动窗口大小，ed(u,v)代表节点u和v在路径中的期望距离，计算公式如下：

其中c是节点v在路径中出现的次数，p_v代表节点v在以节点u为中心的路径中出现的概率，代表节点v在第i次出现时与节点u在路径中的距离，max_dis代表所有中最长的距离，公式中第一项的目的是使与ed(u,v)成正相关，其原因是如果两节点距离越近则两节点越相近。其计算过程如图2所示。

其中，O_u,v是同时包含节点u和v的路径总数。

具体实现步骤如下：

(3a)初始化邻近矩阵设定滑动窗口w，采样次数n，路径长度l；

(3b)将步骤2中得到的每个元素walk∈Walks以w+1长度进行划分从而组成大小的集合，记作Paths；

(3c)遍历Paths：

(3c1)获得Paths集合中的元素，记作path＝{v₁,v₂,...,v_w+1}；

(3c2)初始化其每个元素代表节点出现的概率；

(3c3)初始化dis＝Array(w+1)，其每个元素代表节点间距离；

(3c4)选择节点即路径的中心节点；

(3c5)遍历整个路径并计算每个节点v∈path的出现概率p(v)；

(3c6)将路径从中心位置到起点和终点的子路径分别称为左半路径和右半路径。分别以中心位置为起点遍历这两个路径中的节点并记录其与节点u的距离，令k为当前节点与u的距离间隔。当遍历路径中第i个节点时，若该节点不是节点u，则k++否则k＝0，并令dis[i]＝k；

(3c7)得到dis数组中的最大值，记作max_dis＝max(dis)；

(3c8)遍历v∈path，其下标记作i，S_D(u),D(v)+＝(max_dis-dis[i])·p(v)；

(3d)返回邻近矩阵S。

步骤4，构造低维稠密节点特征向量。

让代表节点向量矩阵，其中的d代表节点向量的维度。矩阵中每一行代表一个节点的向量表示让H代表一个具有T个不同的哈希函数的集合H＝{h₁,h₂,...,h_T}，其中h_t是一个映射哈希函数h_t：{1,2,...,|V|}→{1,2,...,d}，ζ是一个符号哈希函数ζ：V→{-1,1}。该矩阵中元素定义如下

参考图3，具体的实现步骤如下：

(4a)从步骤3中获得邻近矩阵并且初始化节点向量矩阵

(4b)构造Φ：

(4b1)遍历S中的元素，下标分别记作i和j；

(4b2)分配符号，记作sign＝ζ(j)；

(4b3)从哈希集合H中遍历选择哈希函数h_t，计算元素值

(4c)返回节点向量矩阵Φ。

本发明的效果可以通过以下仿真进一步说明：

1.仿真条件

本实例在Intel(R)Xeon(R)CPU E5-2620v3@2.40GHz 24个核心，128G内存，Python3.6运行平台上，完成本发明方法的仿真实验。

2.仿真实验内容

1、选取现实世界中2个不同规模大小的网络作为实验对象。Citeseer是一个引用网络，其由3,312节点和2,708条边组成。其节点代表科学出版文章，边代表文章之间的引用关系。该网络中的节点可以分成6组。Cora也是一个引用网络，其由4,732节点和5,429边组成。该网络中的节点可以分成7组。

2、在仿真实验中，本发明具体参数设置如下表所示：

表1.本发明参数设置

参数	设置
		T：哈希集合大小	2
n:随机路径采样次数	10
		l：随机路径长度	200
w：滑动窗口大小	50
		d：节点向量表示维度	256

3、仿真实验内容

本发明的基于特征哈希的网络节点表示学习方法简称node2hash，与现有最先进的模型node2vec和DeepWalk作对比。为了验证本发明的有效性，分别在节点分类以及链路预测任务上进行试验。

在链路预测任务中，随机隐藏10％链路从而用剩余的网络进行训练。通过训练可以获得网络中各个节点的向量表示。通过sigmod函数将任意两节点向量表示的内积归一化作为相似度。相似度越高代表两节点之间存在链路的概率越大，反之亦然。为了验证各个模型学习的节点的向量表示的有效性，将隐藏的10％链路作为正样本并且随机选择等数量的不存在的链路作为负样本。通过准确率和Macro-F1两项指标来评价各个模型在链路预测任务中的表现。

表2.链路预测在Citeseer和Wiki上的结果。

表3是本发明与现有方法在Citeseer和Cora网络上的链路预测的结果。在两个网络中，node2hash分别在准确率和Macro-F1两项指标中都有最好的表现。在Citeseer网络中，node2hash与node2vec有着近似的表现，并且node2hash在两项指标中分别比DeepWalk高出37％和82％。在Cora网络中，node2hash较node2vec和DeepWalk有着明显的优势。

在网络节点分类任务中，一部分带有标签的节点被随机选择作为训练集，其余的节点作为测试集。分别测试当训练集比例从10％到90％变化时，各个算法的节点分类的准确率。

表3.节点分类在Citeseer上的预测结果

模型	10％	20％	30％	40％	50％	60％	70％	80％	90％
										node2hash	38.65	49.26	54.00	57.13	59.32	61.06	62.59	64.12	64.82
node2vec	45.37	53.56	54.56	55.48	56.44	57.12	57.42	58.05	59.16
										DeepWalk	43.79	47.86	50.44	52.52	53.99	54.97	56.56	58.01	59.10

表4是本发明与现有方法在Citeseer网络上的节点预测实验结果。在训练集比例为小于30％时，node2vec有着最好的预测结果。在训练集比例大于30％时，node2hash较node2vec和DeepWalk具有明显的优势，分别平均高出了7.3％和10.0％。特别地，当训练集比例为50％时，node2hash性能优于其他两个模型在90％训练集比例时的结果。

表4.节点分类在Cora上的预测结果。

模型	10％	20％	30％	40％	50％	60％	70％	80％	90％
										node2hash	50.89	63.52	69.26	72.51	75.42	77.08	78.51	79.32	80.55
node2vec	47.69	67.02	73.46	75.88	77.64	78.74	79.19	79.21	80.22
										DeepWalk	63.65	69.88	72.59	74.19	75.02	76.07	77.04	77.92	78.23

表5是本发明与现有方法在Cora网络上的节点预测实验结果。在10％和20％训练集比例时，DeepWalk有着最好的性能表现。随着训练集比例的逐渐增加，node2vec有着较好的性能，node2hash可以保持与其近似的表现。并且在80％和90％训练集比例时，node2hash甚至比node2vec表现优异。在训练集比例大于50％时，node2hash比DeepWalk效果更好。

为了验证本发明关于参数T的敏感性，固定参数(n＝10,l＝200,w＝50)并主要测试本发明在不同T情况下在Citeseer和Cora网络上节点分类任务的性能表现差异。

图4是本发明关于参数T的参数敏感性实验。x轴代表参数T的取值范围，y轴代表节点分类的实验结果。当训练集比例分别为10％，20％和30％时，改变T从1到5从而验证其在节点分类任务上的表现。可以从图4a，4b中可以轻松地发现在不同的训练集比例的情况下有一个近似的准确率趋势。从图中可以发现，随着参数T的逐步增加，准确率会较大地提升。随着T过度地增加，准确率趋势会稍微下降并保持稳定。这个结果可以验证，当参数T设置适当时该发明在节点分类任务上会得到明显地提升。

简而言之，本发明公开的基于特征哈希的网络表示学习方法，解决了将网络节点嵌入到低维连续向量中的问题。其实现步骤为：(1)构建复杂网络数据；(2)生成随机游走路径集合；(3)构建高维邻近矩阵；(4)构造低维稠密节点特征向量。本发明不同于其他基于神经网络学习网络表示的方法，本发明使用特征哈希方法在无须额外训练的情况下可以直接学习到节点的向量表示。并较现有方法可以获得近似甚至更好的节点表示。本发明首先生成了一个邻近矩阵从而保存网络中的结构信息并利用特征哈希来得到每个节点的低维向量表示。此外，该发明利用多个哈希函数来解决特征哈希的碰撞问题。本发明具有实际的应用价值，可以利用其得到网络中的节点表示从而解决实际生活中的各种问题，例如节点分类，链路预测，社区发现以及推荐系统等任务。

Claims

1.一种基于特征哈希的网络表示学习方法，其特征在于，包括如下步骤：

(1)构建网络数据：用图结构来表示网络数据，G＝(V,E)，其中，G表示一个网络拓扑图，V＝{v₁,v₂,…,v_i,…,v_|V|}表示节点的集合，|V|表示节点数目，v_i表示第i个节点，E＝{e_ij|v_i,v_j∈V}表示网络中边的集合，e_ij表示节点v_i到v_j的一条边；

(2)生成随机游走路径集合：随机游走路径集合被用来作为一种探索图结构的工具，给定固定随机游走路径长度l和起始节点v∈V，生成随机游走路径的过程如下：

随机生成游走路径具体的实现步骤如下：

(2a)设定随机游走路径的长度l；

(2b)选择起始节点c₀＝v，初始化路径队列walk＝{c₀}；

(2c)采样操作：

(2c1)随机选择一个节点u∈N(c_i-1)，令c_i＝u；

(2c2)将c_i添加到walk中；

(2d)重复步骤(2c)，直至路径长度达到l；

(2e)返回路径walk；

(3)构建邻近矩阵：通过将随机游走路径中任意两节点的出现概率和距离结合成一个邻近度测量值，称为期望距离ed(u,v)。通过计算任意两节点之间的期望距离，可以构造出一个高维邻近矩阵该矩阵中的任意元素S_ij为网络中节点对之间邻近度，该元素通过累计随机游走路径中节点u,v之间的期望距离来构建，其中通过映射字典D：V→{1,2,3...,|V|}将网络中各节点依次映射到矩阵中唯一元素的下标，即D(u)＝i；

(4)构造低维稠密节点特征向量：通过哈希核函数将矩阵S降维得到低维稠密的节点特征向量矩阵其中d代表节点向量的维度，矩阵中每一行代表每个节点v∈V的实数向量。

2.根据权利要求1所述的基于特征哈希的网络表示学习方法，其特征在于，步骤3具体包括：

让path_u＝{v₁,v₂,...,v_w+1}代表一个以节点u为中心的路径，其中w为滑动窗口大小，ed(u,v)代表节点u和v在路径中的期望距离，计算公式如下：

其中c是节点v在路径中出现的次数，p_v代表节点v在以节点u为中心的路径中出现的概率，代表节点v在第i次出现时与节点u在路径中的距离，max_dis代表所有中最长的距离，公式中第一项的目的是使与ed(u,v)成正相关，其原因是如果两节点距离越近则两节点越相近；

其中，O_u,v是同时包含节点u和v的路径总数。

具体实现步骤如下：

(3a)初始化邻近矩阵设定滑动窗口w，采样次数n，路径长度l；

(3c)遍历Paths：

(3c1)获得Paths集合中的元素，记作path＝{v₁,v₂,...,v_w+1}；

(3c2)初始化其每个元素代表节点出现的概率；

(3c3)初始化dis＝Array(w+1)，其每个元素代表节点间距离；

(3c4)选择节点即路径的中心节点；

(3c5)遍历整个路径并计算每个节点v∈path的出现概率p(v)；

(3c7)得到dis数组中的最大值，记作max_dis＝max(dis)；

(3d)返回邻近矩阵S。

3.根据权利要求1所述的基于特征哈希的网络表示学习方法，其特征在于，步骤4中所述的通过哈希核函数构造低维稠密节点特征向量。

让代表一个节点向量矩阵，其中的d代表节点向量的维度。矩阵中每一行代表一个节点的向量表示让H代表一个具有T个不同的哈希函数的集合H＝{h₁,h₂,...,h_T}，其中h_t是一个映射哈希函数h_t：{1,2,...,|V|}→{1,2,...,d}，ζ是一个符号哈希函数ζ：V→{-1,1}。该矩阵中元素定义如下

具体的实现步骤如下：

(4a)从步骤3中获得邻近矩阵并且初始化节点向量矩阵(4b)构造Φ：

(4b1)遍历S中的元素，下标分别记作i和j；

(4b2)分配符号，记作sign＝ζ(j)；

(4b3)从哈希集合H中遍历选择哈希函数h_t，计算元素值(4c)返回节点向量矩阵Φ。