CN111292197A

CN111292197A - 基于卷积神经网络和自编码器的社区发现方法

Info

Publication number: CN111292197A
Application number: CN202010056692.7A
Authority: CN
Inventors: 吴伶; 陈志华; 张岐山
Original assignee: Fuzhou University
Current assignee: Fuzhou University
Priority date: 2020-01-17
Filing date: 2020-01-17
Publication date: 2020-06-16

Abstract

本发明涉及一种基于卷积神经网络和自编码器的社区发现方法。该方法：首先，通过网络空间结构重构策略对邻接矩阵进行重构得到空间邻近矩阵，空间邻近矩阵保留了节点连接情况的同时还能把节点网络拓扑结构上的邻近性映射到空间邻近矩阵，有利于卷积神经网络对网络拓扑空间邻近性的特征学习；其次，构建了基于卷积神经网络和自编码器的组合模型，自主学习网络拓扑空间特征，得到网络空间特征向量，以便能够应用于社区发现等具体网络分析应用服务；接着，在上述研究得到的网络空间特征向量基础上，应用K‑means聚类算法实现社交网络上的社区发现。本发明方法能够探测社区结构，从而揭示真实网络的拓扑结构等，进而有效地预测网络用户行为和信息传播等。

Description

基于卷积神经网络和自编码器的社区发现方法

技术领域

本发明属于机器学习研究领域，具体涉及一种基于卷积神经网络和自编码器的社区发现方法，实现对社交网络图的空间特征学习，进而基于网络图空间特征向量实现社交网络上的社区发现。

背景技术

随着互联网，特别是移动互联网的发展，以交友、信息共享等为目的的社交网络平台迅速发展。以新浪微博、微信、淘宝、Twitter和Facebook为代表的国内外社交网络平台上人们可以发表观点、交友互动、传播信息和推销商品等。根据Facebook在2018年第1季度的报告显示，平均每月有22亿的用户使用Facebook，每日的活跃用户量高达14亿并且平均每秒钟就有5个新的账号被创建。此外，国内流行社交软件Wechat的每月活跃用户数也于2018年首次突破了 10亿大关。

在线社交网络已经成为连接网络信息空间与人类物理世界的桥梁，深刻地改变着人们的行为模式和社会形态。在线社交网络使得人们的面对面的沟通交流不受时间、空间、距离和成本的限制，极大地改变了人们的生活方式，改善了人们生活质量的同时给人们的经济生活乃至国家的安全稳定带来负面的隐患。因此，近年来社交网络上的大数据分析已经成为数据挖掘领域的一个重要研究分支。

社区结构是指在一个网络中组成社区的节点间距离比较近或相似度比较高，即一般而言，社区内部节点联系的紧密程度要远高于社区之间节点联系的紧密程度。社区发现在现实世界中的典型应用包括发现人群共同的兴趣或行为模式、从社交网络寻找朋友圈或属于同一组织机构的群体等。社区发现是从中观视角揭示真实网络的拓扑结构和功能、信息在网络上的宏观现象和微观行为，以便能够帮助信息管理者理解网络的动力学及演化机制，进而有效地预测网络用户行为和控制信息在网络的传播。目前，社区发现是社交网络数据挖掘领域一个快速发展的热点研究领域分支。

复杂社交网络的节点海量性、结构复杂性和多维演化性等复杂特性使社交网络中的社区发现面临许多挑战。

首先，节点海量性对复杂社交网络社区发现算法的性能提出了极为严格的要求，只有具有线性时间复杂度的算法才能够运行在真实的社交网络并切实进行相关的分析应用，目前只有极少数算法满足线性或近线性的时间复杂度要求。

其次，结构复杂性同样对复杂社交网络社区发现算法的性能提出了挑战，真实的网络结构是同时包含重叠性、层次性和多重性的，即要求算法能够发现的社区结构要同时具有重叠和层次结构，而且同时能表达节点的多重信息。

最后，多维演化性对复杂社交网络社区发现算法的性能提出了更高阶的挑战，真实的网络结构都是随着时间的演变而演变，往往是呈现膨胀增长的趋势，即要求算法发现的社区结构不仅能够探测到社区结构，还能够捕捉和跟踪随着时间维度的变化社区结构的演变规律。

实质上，复杂社交网络上的社区发现是一个与时空相关的复杂网络图特征挖掘问题。而深度学习作为能够自主学习数据特征的优秀机器学习方法近年已被学者成功延伸到网络图数据的时空特征学习。

发明内容

本发明的目的在于提供一种基于卷积神经网络和自编码器的社区发现方法，该方法方法能够探测社区结构，从而揭示真实网络的拓扑结构等，进而有效地预测网络用户行为和信息传播等。

为实现上述目的，本发明的技术方案是：一种基于卷积神经网络和自编码器的社区发现方法，通过网络空间结构重构策略对邻接矩阵进行重构得到空间邻近矩阵，构建基于卷积神经网络的网络空间特征学习模型，学习网络的空间拓扑特征得到网络空间特征向量，最后，在网络空间特征向量基础上进行社区发现。

在本发明一实施例中，所述通过网络空间结构重构策略对邻接矩阵进行重构得到空间邻近矩阵的具体过程如下：

1)意见领袖选取：将网络拓扑结构变换获得网络的邻接矩阵，基于邻接矩阵分析网络拓扑结构，找出群体中最具影响力的意见领袖节点；

根据数据集的网络空间结构中节点之间是否存在连接来建构邻接矩阵A，E为网络空间结构中节点之间连接的边的集合；若节点i与节点j之间存在连接e_i,j的话，则变量a_i,j为1；若节点i与节点j之间不存在连接e_i,j的话，变量a_i,j为0，邻接矩阵变换方法见公式(1)：

根据邻接矩阵A，建构节点和节点之间的转态概率矩阵C；若节点对其他节点的连接数越多时，则每个连接的转态概率越低；若节点对其他节点的连接数越少时，则每个连接的转态概率越高；也就是若节点i只连接到节点j，并且再无连接到其他节点，则节点j对节点i来说是重要的节点，故转态概率c_i，j的值越大，转态概率矩阵C的计算见公式(2)：

在初始阶段，将为每一个节点的影响力分数设置为1，节点影响力分数矩阵定义为S，S矩阵及其初始化见公式(3)；再根据转态概率矩阵C计算节点影响力分数矩阵的极限化矩阵，节点影响力分数极限化矩阵为S^*，S^*的计算见公式(4)；最后，再根据节点影响力分数极限化矩阵，找出影响力分数最高的节点i，即意见领袖节点i_leader，其计算见公式(5)：

S＝[s₁ s₂ … s_n]，其中，初始值s_i＝1 (3)

2)邻近节点选取：当找出意见领袖节点后，找出与意见领袖高度邻近的节点，以便根据节点间的非直连邻近性来重构数据集的网络空间结构；

当找出的意见节点i，采用欧式距离r(i，j)来计算节点i和节点j之间的非直连接近性，计算公式见(6)；计算和比较节点i和其他节点的距离后，取得与节点i距离最短的节点j，即获得与意见领袖节点i_leader最近邻节点j_neighbor，计算公式见(7)；

3)矩阵变换：根据找出的与意见领袖节点i_leader最近邻节点j_neighbor，以意见领袖节点i_leader为重构的邻接矩阵的第一列，最近邻节点j_neighbor为第二列；若最近邻节点超过一个时，则重复步骤1)从剩余未变换列位置的节点中选取意见领袖节点，而后重复2)-3)的过程；循环往复，以此重构邻接矩阵X'，X'的计算见公式(8)：

在本发明一实施例中，所述构建基于卷积神经网络的网络空间特征学习模型，学习网络的空间拓扑特征得到网络空间特征向量的具体过程如下：构建卷积神经网络和自编码器的组合模型，即网络空间特征学习模型，其神经网络包括具有n个神经元的输入层、具有q个神经元的卷积层、具有n个神经元的输出层；而后，将重构邻接矩阵X'分为n个1*n的数据作为网络空间特征学习模型的神经网络的输入，得到网络空间特征向量。

在本发明一实施例中，在网络空间特征向量基础上进行社区发现采用的算法为K-means算法，通过K-means算法对网络空间特征向量进行分群，即可实现社区发现，探测社区结构。

在本发明一实施例中，该方法应用于分析社交网络。

相较于现有技术，本发明具有以下有益效果：本发明方法能够探测社区结构，从而揭示真实网络的拓扑结构等，进而有效地预测网络用户行为和信息传播等。

附图说明

图1为基于卷积自编码的社区发现模型图。

图2为自编码器的三层结构示意图。

图3为卷积处理示意图。

图4为卷积神经网络结合自编码器的神经网络结构。

图5为一般化的卷积神经网络结合自编码器的神经网络结构。

图6为network19和football数据集网络空间结构重构结果。

图7为4个真实数据集上4种方法在精度的比较。

具体实施方式

下面结合附图，对本发明的技术方案进行具体说明。

本发明提供了一种基于卷积神经网络和自编码器的社区发现方法，通过网络空间结构重构策略对邻接矩阵进行重构得到空间邻近矩阵，构建基于卷积神经网络的网络空间特征学习模型，学习网络的空间拓扑特征得到网络空间特征向量，最后，在网络空间特征向量基础上进行社区发现。

以下为本发明的具体实现过程。

本发明基于卷积神经网络和自编码器的社区发现方法的基于卷积自编码的社区发现模型图如图1所示，在本章实验中采用4个公开的真实社交网络数据集，实现基于自编码器的K-means 社区发现算法和本发明所提出DCAER方法，开展实验验证本研究所提出的DCAER方法的性能。

本发明基于卷积神经网络和自编码器的社区发现方法主要包含：(1)网络空间结构重构策略；(2)网络空间特征提取模型；(3)静态非重叠社区发现算法。

1、本发明设计了一种新颖的矩阵重构策略，使得重构后的矩阵能表达节点间的空间邻近信息，即拓扑空间上临近的节点在矩阵表达中也是邻近的，网络空间结构重构策略包含了意见领袖的选取、邻近节点选取和矩阵变换3个步骤，并对应3个子方法。

在本发明中，根据数据集的网络空间结构中节点之间是否存在连接来建构邻接矩阵A，E为网络空间结构中节点之间连接的边的集合；若节点i与节点j之间存在连接e_i,j的话，则变量a_i,j为1；若节点i与节点j之间不存在连接e_i,j的话，变量a_i,j为0，邻接矩阵变换方法见公式(1)：

根据邻接矩阵A，建构节点和节点之间的转态概率矩阵C；若节点对其他节点的连接数越多时，则每个连接的转态概率越低；若节点对其他节点的连接数越少时，则每个连接的转态概率越高；也就是若节点i只连接到节点j，并且再无连接到其他节点，则节点j对节点i来说是重要的节点，故转态概率c_i,j的值越大，转态概率矩阵C的计算见公式(2)：

S＝[s₁ s₂ … s_n]，其中，初始值s_i＝1 (3)

3)矩阵变换：根据找出的与意见领袖节点i_leader最近邻节点j_neighbor，以意见领袖节点i_leader为重构的邻接矩阵的第一列，最近邻节点j_neighbor为第二列；若最近邻节点超过一个时，则重复步骤1)从剩余未变换列位置的节点中选取意见领袖节点，而后重复2)-3)的过程；循环往复，以此重构邻接矩阵X′，X′的计算见公式(8)：

2、本发明构建了网络空间特征提取模型，即构建卷积神经网络和自编码器的组合模型，自主学习网络空间特征。首先，构建该模型的神经网络，设置输入层和输出层神经元数目相同，并且包含多个隐藏层。其次，将卷积层作为输入层后的第一个隐藏层。该模型通过卷积运算提取空间特征，而且自编码器还可以再还原为原始变量，模型中采用卷积运算后的空间特征向量代替原始的输入变量作为网络空间特征向量。

1)原理说明

本节将以输入层4个神经元和卷积层过滤器(1x3)进行原理说明，意即社区矩阵为4个节点的重构邻接矩阵变量。其中，卷积层(隐藏层)具有2个神经元，以及输出层为4个神经元(变量) 与输入层相同，融合卷积神经网络(图3)和自编码器(图2)的深度神经网络简单示意结构见图4。

在本例中，卷积层过滤器(1x3)之权重为{α₁，α₂，α₃}、隐藏层2个神经元之调整变量分别为 {b_1，1，b_1，2}、隐藏层与输出层间之权重为{β_1，1，β_1，2，β_1，3，β_1，4，β_2，1，β_2，2，β_2，3，β_2，4}、输出层4个神经元之调整变量分别为{b_2，1，b_2，2，b_2，3，b_2，4}。其中，隐藏层2个神经元(即{h₁，h₂})的计算方式，分别见公式(9)与公式(10)；输出层4个神经元(即{x₁′，x₂′，x₃′，x₄′})的计算方式，分别见公式(11) 至公式(14)；以及损失函数的计算见公式(15)。

h₁＝α₁×x₁+α₂×x₂+α₃×x₃+b_1，1 (9)

h₂＝α₁×x₂+α₂×x₃+α₃×x₄+b_1，2 (10)

本研究采用梯度下降(Gradient Descent，GD)方法进行优化，各个权重和调整变量的修正方式见公式(16)至公式(21)。当训练完成后，在运行阶段主要将输入之重构邻接矩阵卷积运算为 {h₁，h₂}，该向量即为网络空间特征。

(2)一般化说明

本发明将把重构邻接矩阵X'分为n个1*n的数据作为神经网络的输入。构建卷积神经网络结合自编码器之神经网络，包含输入层n个神经元、一个卷积层(隐藏层)具有q个神经元，以及输出层n个神经元，网络结构见图5。在优化过程中，损失函数将计算输出层和输入层之间的最小平方误差，并运用梯度下降方法修正权重。在运行阶段，可运用训练完成的卷积神经网络结合自编码器之神经网络，提取网络空间特征H，H的表达见公式(22)。

H＝[h₁ h₂ … h_q] (22)

3、社区发现方法

本发明采用K-means算法对数据进行分群，实现社区发现。通过对邻接矩阵进行矩阵重构得到空间邻近矩阵，在空间邻近矩阵上，通过CNN和AE组合模型提取网络空间特征后，共可以得到n个具有q个维度的特征向量，运用K-means算法将此n个数据进行聚类分群。

本发明基于4个真实数据集与自编码器的K-means社区发现算法进行了对比。

实验从网络空间结构重构策略和卷积神经网络的网络空间特征提取模型创新点出发，分别和相应的自编码器的K-means聚类算法比较，验证算法的有效性。具体的实验方案见表1，实验共4组，每组实验都在4个真实的社交网络数据集上开展，共计开展16个实验测试，其中 AE是自编码器Auto-Encoder的缩写，RM是矩阵重构ReconstructiveMatrix的缩写，CNN是卷积神经网络ConvolutionalNeuralNetwork的缩写。表1中第一行的“AE”代表基于自编码器的 K-means聚类算法，“RM+AE”代表加入重构策略的自编码器的K-means聚类算法，“AE+CNN”代表加入了的基于卷积自编码器的K-means聚类算法，“RM+AE+CNN”代表加入重构策略和 CNN模型的基于卷积自编码器的K-means聚类算法。

表1 实验方案

本小节的实验严格按照实验准备中的表1的实验安排开展与基准算法各类基于自编码器的 K-means聚类算法进行对比，评估社区发现精度的指标为扩展模块度EQ。

表2 RM+AE+CNN算法与相应的基准AE算法的模块度比较

从矩阵重构策略有效性分析、基于CNN的网络空间特征学习模型有效性分析和矩阵重构策略与基于CNN的网络空间特征学习模型性能比较。

(1)矩阵重构策略有效性分析。从图6可知重构的策略确实能将邻接矩阵中的节点有效聚集，重构出具有较好的空间子结构的空间邻近矩阵，空间邻近矩阵不仅有利于卷积神经网络学习空间相依特性，而且便于社区发现聚类。从表2中AE算法和RM+AE算法的对照组实验结果，验证了矩阵重构策略对于社区发现精度提升的有效性。AE+CNN算法和RM+AE+CNN算法结果比较分析，不仅再次验证了矩阵重构策略对于社区发现精度提升的有效性，而且也验证了矩阵重构策略加入AE+CNN算法中对于社区发现精度提升仍然有效。

(2)基于CNN的网络空间特征学习模型有效性分析。从表2中AE算法和AE+CNN算法结果分析比较，AE+CNN算法所在第4列前3个数据集模块度均高于或等于AE算法，而football 数据集上两个模型的模块度非常的接近，从AE算法和AE+CNN算法的对照组实验结果，验证了引入CNN的网络空间特征学习模型能有效提升社区发现精度。从表2中RM+AE算法和 RM+AE+CNN算法结果分析比较，RM+AE+CNN算法所在第5列前4个数据集模块度均高于或等于RM+AE算法，从RM+AE算法和RM+AE+CNN算法的对照组实验结果，不仅再次验证了引入CNN的网络空间特征学习模型能有效提升社区发现精度，而且也验证了矩阵重构策略加入CNN的网络空间特征学习模型中也能有效提升社区发现精度。

(3)矩阵重构策略和基于CNN的网络空间特征学习模型性能比较。从表2可见，第3列 RM+AE算法和第4列AE+CNN算法的比较，分析矩阵重构策略和基于CNN的网络空间特征学习模型对于算法性能提升的影响，dolphins和football数据集上算法的模块度AE+CNN算法优于RM+AE算法，network19和karate数据集上两个算法计算精度相当，实验结果证明了，与引入矩阵重构策略相比，引入基于CNN的网络空间特征学习模型对于算法精度提升更加明显。

特别是在karate和dolphins这2个社区结构不清晰的数据集上，算法能提取出了有效的空间特征，算法精度提升明显。在karate上，与AE相比，RM+AE和AE+CNN，模块度都提升了4.2倍；与AE相比，RM+AE+CNN提升了7.4倍。在dolphins上，与AE相比，RM+AE模块度提升了1.2倍，AE+CNN模块度提升了1.4倍，RM+AE+CNN提升了1.5倍。因此，该模型可以有效提取社区结构不清晰的网络的空间特征。

为了清晰对比AE，RM+AE，AE+CNN和RM+AE+CNN算法的性能，在network19、karate、dolphins和football数据集上4种算法的模块度柱状图见图7。

总之，从图7可知，矩阵重构策略和基于CNN的网络空间特征学习模型能有效提升社区质量，而且基于CNN的网络空间特征学习模型比矩阵重构策略对算法精度的提升更明显，真实社交网络数据集上的算法模块度的对比实验可知，本研究所提出融合了矩阵重构策略和CNN的网络空间特征学习模型的DCAER方法，可提取出社交网络空间特征，进而提升社区结构的模块度系数。

以上是本发明的较佳实施例，凡依本发明技术方案所作的改变，所产生的功能作用未超出本发明技术方案的范围时，均属于本发明的保护范围。

Claims

1.一种基于卷积神经网络和自编码器的社区发现方法，其特征在于，通过网络空间结构重构策略对邻接矩阵进行重构得到空间邻近矩阵，构建基于卷积神经网络的网络空间特征学习模型，学习网络的空间拓扑特征得到网络空间特征向量，最后，在网络空间特征向量基础上进行社区发现。

2.根据权利要求1所述的基于卷积神经网络和自编码器的社区发现方法，其特征在于，所述通过网络空间结构重构策略对邻接矩阵进行重构得到空间邻近矩阵的具体过程如下：

s＝[s₁ s₂ … s_n]，其中，初始值s_i＝1 (3)

当找出的意见节点i，采用欧式距离r(i,j)来计算节点i和节点j之间的非直连接近性，计算公式见(6)；计算和比较节点i和其他节点的距离后，取得与节点i距离最短的节点j，即获得与意见领袖节点i_leader最近邻节点j_neighbor，计算公式见(7)；

3.根据权利要求2所述的基于卷积神经网络和自编码器的社区发现方法，其特征在于，所述构建基于卷积神经网络的网络空间特征学习模型，学习网络的空间拓扑特征得到网络空间特征向量的具体过程如下：构建卷积神经网络和自编码器的组合模型，即网络空间特征学习模型，其神经网络包括具有n个神经元的输入层、具有q个神经元的卷积层、具有n个神经元的输出层；而后，将重构邻接矩阵X'分为n个1*n的数据作为网络空间特征学习模型的神经网络的输入，得到网络空间特征向量。

4.根据权利要求1所述的基于卷积神经网络和自编码器的社区发现方法，其特征在于，在网络空间特征向量基础上进行社区发现采用的算法为K-means算法，通过K-means算法对网络空间特征向量进行分群，即可实现社区发现，探测社区结构。

5.根据权利要求1所述的基于卷积神经网络和自编码器的社区发现方法，其特征在于，该方法应用于分析社交网络。