CN112445939A

CN112445939A - 一种社交网络群体发现系统、方法及存储介质

Info

Publication number: CN112445939A
Application number: CN202010224848.8A
Authority: CN
Inventors: 沈超; 刘笑子; 刘晓明; 周亚东; 管晓宏
Original assignee: Xian Jiaotong University
Current assignee: Xian Jiaotong University
Priority date: 2020-03-26
Filing date: 2020-03-26
Publication date: 2021-03-05

Abstract

本发明公开了一种社交网络群体发现系统、方法及存储介质，首先获取在线社交网络数据集，建立在线社交网络拓扑图；根据在线社交网络拓扑图建立邻接矩阵，利用深度栈式自编码器对邻接矩阵进行降维处理，得到降维矩阵；利用图嵌入方法获取节点嵌入向量；最后对节点嵌入向量进行聚类，得到聚类结果，即为社交网络群体发现结果；本发明通过获取在线社交网络数据集，提取邻接矩阵，实现了对在线社交网络用户之间关系的描述；通过利用深度栈式自编码器及图嵌入，有效保留在线社交网络结构的完整性，确保了群体发现结果的准确性；通过对降维嵌入后的节点嵌入向量进行聚类，获取发现结果，降低了时间复杂度，实现了更加快速准确的获取发现结果。

Description

一种社交网络群体发现系统、方法及存储介质

技术领域

本发明社交网络分析技术领域，特别涉及一种社交网络群体发现系统、方法及存储介质。

背景技术

随着互联网的普及和在线社交平台的发展，各种社交网络已经在在线社交平台里得到飞速发展，例如微信的社交群、QQ群体网络、微博热点关注网络或Twitter发推网络；对于上述社交网络而言，在线社交网络的发现已经成为学术界和产业界的热点话题。

传统的社交网络发现方法是根据网络中用户与用户之间的邻接关系进行聚类，采用较为复杂的算法，将用户进行划分社区，比如谱聚类等方法；如果在线社交网络规模过大，谱聚类计算时间复杂度过高，效果又不理想。

针对上述时间复杂度缺陷，对于大规模在线社交网络而言，如何确保进行社交网络发现的时间复杂度低，寻找提高社交网络发现效率已经成为一种发展趋势，同时能够满足对各类社交网络进行通用，对各类社交网络都具有适用性。

发明内容

针对现有技术中存在的不足，本发明的目的在于提供了一种社交网络群体发现系统、方法及存储介质，以解决现有技术中计算时间复杂度过高，计算结果不理想的技术问题。

为实现上述目的，本发明的技术方案是：

本发明提供了一种社交网络群体发现方法，包括以下步骤：

步骤1、获取在线社交网络数据集，建立在线社交网络拓扑图；

步骤2、对在线社交网络拓扑图进行预处理，剔除孤立节点，得到预处理后的在线社交网络拓扑图；利用预处理后的在线社交网络拓扑图中各个节点对应的邻接节点，建立在线社交网络的邻接矩阵；

步骤3、利用深度栈式自编码器，对在线社交网络的邻接矩阵进行降维处理，得到降维矩阵；利用图嵌入方法，将降维矩阵中的某一行向量作为社交网络拓扑图中对应节点的表示向量，得到节点嵌入向量；

步骤4、利用K-means方法对节点嵌入向量进行聚类，得到聚类结果，即为社交网络群体发现结果。

进一步的，还包括步骤5，具体为，利用NMI指数对社交网络群体发现结果进行评估。

进一步的，步骤1中，采用线上爬虫或直接查找公开数据集方式获取在线社交网络数据集；其中，线上爬虫时，利用社交平台的应用程序接口，采用爬虫框架爬取用户信息、关注信息及转发信息；

在线社交网络拓扑图的表达式如下：

G＝(V,E)

其中，G为社交网络拓扑图，其节点个数为n；V为拓扑图G中节点的集合；E为拓扑图G中边的集合。

进一步的，步骤2中，当在线社交网络拓扑图G中的节点个数为n时，邻接矩阵A的数学表达式为：

其中，若A_i,j＝1,i∈[0,n-1],j∈[0,n-1]，则社交网络拓扑图G中第i个节点与第j个节点为相邻节点，若A_i,j＝0,i∈[0,n-1],j∈[0,n-1]，则社交网络拓扑图G中第i个节点与第j个节点为不相邻节点。

进一步的，步骤3中，对邻接矩阵进行降维处理时，通过深度栈式自编码器，进行学习邻接矩阵，对邻接矩阵中的每一行向量进行降维处理，得到降维矩阵；

具体包括以下步骤：

步骤31、利用深度栈式自编码器，建立神经网络模型；其中，深度栈式自编码器包括若干栈式自编码器，若干栈式自编码器依次连接，且将前一个栈式自编码器的输出作为后一个栈式自编码器的输入；

步骤32、将邻接矩阵带入步骤31中的神经网络模型中，进行神经网络编码计算，输出压缩模型；其中，神经网络模型的编码计算公式为：

a^(l)＝f(z^(l))

z^(l+1)＝W^(l,1)a^(l)+b^(l,1)

步骤33、将步骤32中的压缩模型带入神经网络模型中，进行进行网络解码计算，输出降维矩阵：其中，神经网络模型的解码计算公式为：

a^(n+l)＝f(z^(n+l))

z^(n+l+1)＝W^(n-l,2)a^(n+l)+b^(n-l,2)

其中，W^(l,1)及W^(n-l,2)分别为对应栈式自编码器的权重；b^(l,1)及b^(n-l,2)是对应栈式自编码器的偏置：a^l,a^(n+l)均是栈式编码器中的隐藏单元的激活值；z^l,z^l+1,z^n+l+1是栈式自编码器中的中间变量；

f(·；θ₁)为特征提取函数，x_i为邻接矩阵A的第i行向量，i＝1,2,…,n；f(x_i；θ₁)为编码后的特征函数；g(·；θ₂)为映射函数映射；l(·)为层级的损失函数。

进一步的，步骤3中，图嵌入过程，具体为：

首先，捕捉在线社交网络拓扑图中的拓扑结构、顶点及顶点之间的关系；然后，在向量空间中，保持连接的节点彼此靠近，采用拉普拉斯特征映射和局部线性嵌入，将降维矩阵中的某一行向量作为社交网络拓扑图中对应节点的表示向量，得到所述的节点嵌入向量。

进一步的，步骤5中，利用NMI指数对社交网络群体发现结果进行评估时，采用如下公式：

其中，C_A为节点真实类别的标签集，C_B为发现结果中的节点类别标签集；C_ij为节点真实数据集节点标签为i而发现结果中节点标签为j的节点数量；C_i·为真实数据集标签为i的节点数量；C_·j为发现结果中节点标签为j的节点数量。

本发明还提供了一种社交网络群体发现系统，包括社交网络数据获取模块、数据预处理模块、自编码器降维与图嵌入模块及在线社交网络发现模块；

社交网络数据获取模块，用于获取在线社交网络数据集，建立社交网络拓扑图；

数据预处理模块，用于对在线社交网络拓扑图进行预处理，剔除孤立节点，得到预处理后的在线社交网络拓扑图；利用预处理后的在线社交网络拓扑图中各个节点对应的邻接节点，建立在线社交网络的邻接矩阵；

自编码器降维与图嵌入模块，利用深度栈式自编码器，对在线社交网络的邻接矩阵进行降维处理，得到降维矩阵；利用图嵌入方法，将降维矩阵中的某一行向量作为社交网络拓扑图中对应节点的表示向量，得到节点嵌入向量；

在线社交网络发现模块，利用K-means方法对节点嵌入向量进行聚类，得到聚类结果，即为社交网络群体发现结果。

进一步的，还包括社交网络相似度比对模块；社交网络相似度比对模块，用于利用NMI指数对社交网络群体发现结果进行评估。

本发明还提供了一种计算机存储介质，所述计算机存储介质上存储有计算机程序，所述计算机程序被处理器执行时实现上述发现方法的步骤。

与现有技术相比，本发明的有益效果是：

本发明提供了一种社交网络群体发现方法，通过获取在线社交网络数据集，根据网络用户之间的关系，提取网络用户之间的邻接矩阵，实现了对在线社交网络用户之间关系的描述；通过利用深度栈式自编码器及图嵌入，实现了对邻接矩阵的降维嵌入，有效保留在线社交网络结构的完整性，确保了群体发现结果的准确性；通过对降维嵌入后的节点嵌入向量进行聚类，获取发现结果，降低了时间复杂度，实现了更加快速准确的获取发现结果。

进一步的，采用NMI指数对在线社交网络群体发现结果进行评价，实现了对发现结果的检验，确保了发现结果的准确性，评价过程简单，操作方便，准确度较高。

进一步的，通过采用爬虫或直接查找公开数据集的方式获取在线社交网络数据集，操作规范，安全性强，获取的数据信息准确度较高。

进一步的，通过采用邻接矩阵对社交网络拓扑图的抽象描述，采用邻接关系为基础，对在线社交网络群体进行发现，确保了发现过程的有效性。

进一步的，采用深度栈式自编码器对邻接矩阵进行降维，能够获得邻接矩阵的低维表示，邻接矩阵维度的降低，实现了对社交网络群体发现的时间复杂度的优化；同时，采用深度栈式自编码器的深度学习方式，有效的保持原来社交网络的特性，确保了群体发现结果的准确性。

进一步的，利用图嵌入，获取每个节点的嵌入表达，便于利用聚类算法进行群体发现，图嵌入过程操作简单，准确度高。

本发明还提供了一种社交网络群体发现系统，其中各个模块相互独立，独立开发，松耦合，不仅开发容易，在出错误的情况下可以方便调试，方便后期的改进。

附图说明

图1为本发明所述的社交网络群体发现方法的工作原理流程图；

图2为本发明所述的社交网络群体发现方法中的深度栈式自编码器的工作原理示意图；

图3为本发明所述的社交网络群体发现方法中的深度栈式自编码器的降维过程流程图；

图4为本发明所述的一种社交网络群体发现系统框架示意图；

图5为实施例所述的社交网络群体发现方法中的NMI评定在线社交网络发现结果图；

图6为实施例所述的基于B/S架构的社交网络群体发现系统示意图。

具体实施方式

下面结合附图及具体实施方式对本发明作进一步描述：

如附图1-6所示，本发明提供了一种社交网络群体发现方法，包括以下步骤：

步骤1、在线社交网络数据采集

采用线上爬虫或直接查找公开数据集，获取在线社交网络数据集，实现在线社交网络数据集的采集，将采集的在线社交网络数据集储存在数据库中，供后续调用；

其中，采用线上爬虫获取在线社交网络数据集采集过程，利用在线社交网络平台的应用程序接口，采用爬虫框架爬取用户信息、关注信息及转发信息；所述在线社交网络平台例如Twitter、Facebook或微博；优选的，爬虫框架采用scrapy爬虫框架，在某一在线社交网络平台冲获取某用户的账号信息，并通过关注信息及转发信息获得社交网络群体；

采用直接查找在线社交网络平台的公开数据集，实现在线社交网络数据集的采集；其中，在线社交网络平台的公开数据集例如DIP、Wine或BioGrid等公开数据集。

步骤2、建立社交网络拓扑图

根据获取的在线社交网络数据集，建立在线社交网络拓扑图；其中，在线社交网络拓扑图的表达式为：

G＝(V,E)

步骤3、数据预处理及邻接矩阵获取

对在线社交网络拓扑图进行预处理，剔除在线社交网络拓扑图中的孤立节点，得到预处理后的在线社交网络拓扑图；预处理过程用于去除在线社交网络拓扑图中连接数较少的数据节点，例如：当在对应一个社交网络群体中的存在单个用户，其邻接用户数较少，属于孤立用户；则该用户在在线社交网络拓扑图中对应节点的邻接节点较少，对应的节点为孤立节点，因此需将孤立节点去除；完成预处理后的在线社交网络拓扑图中，对每个节点进行标号，从而得到每个节点的编号以及确定各节点之间有无联系。

利用预处理后的在线社交网络拓扑图中，每个节点v均包括多个相邻的邻接节点，例如节点v₁,v₂等；利用各个节点v对应的邻接节点，建立在线社交网络的邻接矩阵A，具体过程如下：

由处理后的在线社交网络拓扑图中，可以获得任意两个节点之间有无邻接关系，当在线社交网络拓扑图G中的节点个数为n时，构建一个n×n的矩阵，作为邻接矩阵A，邻接矩阵A的每个元素代表两个节点之间有无邻接关系；

其中，邻接矩阵A的数学表达式为：

步骤4、深度栈式自编码器降维及图嵌入

深度栈式自编码器降维阶段

利用深度栈式自编码器降维通过学习邻接矩阵，对邻接矩阵中的每一行向量进行降维处理，压缩邻接矩阵A，将n×n的邻接矩阵A降维处理后，得到n×d的降维矩阵Y；其中，d为压缩维度且d<<n；具体包括以下步骤：

步骤32、编码

将邻接矩阵带入步骤31中的神经网络模型中；进行神经网络编码计算，输出压缩模型；其中，神经网络模型的编码计算公式为：

a^(l)＝f(z^(l))

z^(l+1)＝W^(l,1)a^(l)+b^(l,1)

步骤33、解码

将步骤32中的压缩模型带入神经网络模型中，进行进行网络解码计算，输出降维矩阵Y：其中，神经网络模型的解码计算公式为：

a^(n+l)＝f(z^(n+l))

z^(n+l+1)＝W^(n-l,2)a^(n+l)+b^(n-l,2)

其中，W^(l,1)及W^(n-l,2)分别为对应栈式自编码器的权重；b^(l,1)及b^(n-l,2)是对应栈式自编码器的偏置；a^l,a^(n+l)均是栈式编码器中的隐藏单元的激活值；z^l,z^l+1,z^n+l+1是栈式自编码器中的中间变量；

图嵌入阶段：

将降维矩阵Y的某一行向量作为在线社交网络拓扑图中的对应节点的表示向量，得到节点嵌入向量；例如，将降维矩阵Y中的第i行向量作为社交网络拓扑图中第i个节点的降维表示，并对其进行图嵌入，得到节点嵌入向量；具体为：

首先，捕捉社交网络拓扑图的拓扑结构、顶点及顶点之间的关系；然后，在向量空间中，保持连接的节点彼此靠近，采用拉普拉斯特征映射和局部线性嵌入，将降维矩阵中的某一行向量作为社交网络拓扑图中对应节点的表示向量，得到所述的节点嵌入向量。

步骤5、在线社交网络拓扑图中，对于n个节点而言，每个节点都用d维节点嵌入向量表示，利用K-means对n个节点的节点嵌入向量表示进行聚类，得到聚类结果，即为社交网络群体发现结果。

步骤6、发现结果评估

分别利用本发明上述步骤1-5所述的社交网络群体发现方法和采用传统的谱聚类方法进行社交网络发现，利用NMI指数对不同发现方法得到的发现结果进行评估；

利用NMI指数对本发明所述的社交网络群体发现结果进行评估时，采用如下公式：

其中，C_A为节点真实类别的标签集，C_B为发现结果中的节点类别标签集；C_ij为节点真实数据集节点标签为i而发现结果中节点标签为j的节点数量；C_i·为真实数据集标签为i的节点数量；C_·j为发现结果中节点标签为j的节点数量；i和j均为节点编号，i∈[0,n-1],j∈[0,n-1]，n是节点总数。

本发明还提供了一种社交网络群体发现系统，包括社交网络数据获取模块、数据预处理模块、自编码器降维与图嵌入模块、在线社交网络发现模块及社交网络相似度比对模块。

其中，社交网络数据获取模块，用于获取在线社交网络数据集，建立社交网络拓扑图；数据预处理模块，用于对在线社交网络拓扑图进行预处理，剔除孤立节点，得到预处理后的在线社交网络拓扑图；利用预处理后的在线社交网络拓扑图中各个节点对应的邻接节点，建立在线社交网络的邻接矩阵；自编码器降维与图嵌入模块，利用深度栈式自编码器，对在线社交网络的邻接矩阵进行降维处理，得到降维矩阵；利用图嵌入方法，将降维矩阵中的某一行向量作为社交网络拓扑图中对应节点的表示向量，得到节点嵌入向量；在线社交网络发现模块，利用K-means方法对节点嵌入向量进行聚类，得到聚类结果，即为社交网络群体发现结果；社交网络相似度比对模块，用于利用NMI指数对社交网络群体发现结果进行评估。

本发明所述的一种社交网络群体发现方法，通过获取在线社交网络数据集，根据网络用户之间的关系，提取网络用户之间的邻接矩阵，从而可以描述网络用户之间的关系，并对邻接矩阵降维处理，然后在将降维结果进行节点嵌入，即把邻接矩阵进行降维嵌入，之前的社交网络群体发现都是基于全群体完整的邻接关系，那么本方法相当于对完整的邻接矩阵的降维，可以降低时间复杂度，由于采用了基于深度学习的栈式自编码器，相当于保留了社交网络的完整结构，群体发现结果相对于其他更改了社交网络结构的情况下更为准确，低维嵌入之后可以得到每个节点的d维表示向量，对这些低维表示向量进行K-means聚类，得到群体发现结果；总体上优化了时间复杂度，能够得到更加准确的发现结果。

本发明中从社交网络发现原理分析-深度栈式自编码器降维-构建图嵌入中的节点嵌入向量-聚类发现-发现结果评估的完整识别方案；通过深度栈式自编码器对邻接矩阵进行降维，降低了邻接矩阵的复杂度；将降维后的降维矩阵中的某一行向量，进行局部线性嵌入，作为社交网络拓扑图中一个节点的嵌入表示，降维之后，时间复杂度得到很大的降低，对节点嵌入向量进行K-means聚类，计算结果能够达到预期理想，效果经检验，相比于传统方法更好。

实施例

本实施例中提供了一种社交网络群体发现方法，包括以下步骤：

步骤1、采集在线社交网络数据集及建立社交网络拓扑图

采集过程，本实施例利用直接查表方式，获得了在线网络公开数据集DIP、Wine及BioGrid三个数据集，上述数据集均来源于UCI机器学习库及在线网络的相关论文；采用爬虫获取到若干twitter数据；根据上述数据集建立在线社交网络拓扑图，并对在线社交网络拓扑图进行预处理，剔除掉连接度不高的数据点；上述所有数据集都是带标签的，数据集的具体情况如下表1；

表1采集的在线社交网络数据集

步骤2、邻接矩阵获取

根据在线社交网络拓扑图中节点之间的关系，获得对应的邻接矩阵，对于度较低的节点，已经在上述步骤中给予筛选。

步骤3、深度栈式自编码器降维及图嵌入

利用深度栈式自编码器，建立神经网络模型；深度栈式自编码器包括若干栈式自编码器，若干栈式自编码器依次连接，且将前一个栈式自编码器的输出作为后一个栈式自编码器的输入；

在构建深度栈式自编码器的过程中，每层节点的个数如下表2。

表2在线社交网络数据集自编码器每层节点数

数据集	每层节点数
		Wine	178-131-64
DIP	4531-2048-1024-256-128
		BioGrid	5904-2048-1024-256-128
Twitter	3732-1024-256-128

通过深度栈式自编码器进行降维，对于已经降维成64维或128维的数据集，对每个节点考虑高维邻接节点，从而构建降维矩阵；捕捉在线社交网络拓扑图中的拓扑结构、顶点及顶点之间的关系；在向量空间中，保持连接的节点彼此靠近，采用拉普拉斯特征映射和局部线性嵌入，将降维矩阵中的某一行向量作为社交网络拓扑图中对应节点的表示向量，得到所述的节点嵌入向量。

步骤4、在线社交网络发现

利用K-means方法对节点嵌入向量进行聚类，得到聚类结果，聚类结果即为社交网络发现结果。

步骤5、在线社交网络发现结果评估

由于上述在线社交网络数据集Twitter、Wine、DIP及BioGrid都是标定数据集，通过本实施例所述的发现方法进行预测便可以和标定结果进行对比，通过NMI指数将社交网络发现结果与标定结果进行对比，并比较结果；通过实验对本实施例提出的方法进行验证，表3列出了本发明方法的结果。

表3在线社交网络发现结果(本实施例方法与传统方法的对比)

NMI指数	Wine	DIP	BioGrid	Twitter
					实施例发现方法	0.821	0.791	0.813	0.771
LPA标签传播算法	0.696	0.787	0.802	0.756
					谱聚类	0.701	0.764	0.792	0.760

如附图5所示，附图5给出了实施例所述的社交网络群体发现方法中的NMI评定在线社交网络发现结果图；从附图5中可以看出在Wine数据集上，利用本实施例所述发现方法所得的发现结果的NMI指数明显高于利用现有的LPA标签传播算法和谱聚类算法所得的发现结果的NMI指数；对于DIP、BioGrid及Twitter数据集，利用本实施例所述发现方法所得的发现结果的NMI指数略高于利用现有的LPA标签传播算法和谱聚类算法所得的发现结果的NMI指数；而NMI指数越高，则表明发现结果和真实正确标签结果越相似，因此说明本实施例中所述的发现方法优于传统的LPA标签传播算法和谱聚类算法。

如附图6所示，本实施例还提供了一种社交网络群体发现系统，所述社交网络群体发现系统基于B/S架构设置，包括数据集的展示模块、在线社交网络展示模块、在线社交网络发现模块及社交网络相似度比对模块；

数据集的展示模块用于通过爬虫框架对Twitter社交网络数据集的采集，以及获得的公开数据集，将这些数据保存在MySQL数据库中，从前台可视化模块读取数据，在界面上显示相关信息；在线社交网络展示模块用于从MySQL数据库中读取数据，并且获得社交网络中各个节点之间的边关系，从而获得整体网络的拓扑结构，根据网络的拓扑结构展示社交网络；在线社交网络群体发现模块用于系统后端获取模型，对在线社交网络进行发现，得到发现结果；社交网络相似度比对模块用于对发现结果进行评估，并和其他方法模型的结果进行对比。

本发明实施例还提供了一种计算机存储介质，所述计算机存储介质上存储有计算机程序，所述计算机程序被处理器执行时实现上述社交网络群体发现方法所述的步骤；所述计算机存储介质可以包括：能够携带所述计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器、随机存取存储器、电载波信号、电信信号以及软件分发介质等。

尽管结合优选实施方案具体展示和介绍了本发明，但所属领域的技术人员应该明白，在不脱离所附权利要求书所限定的本发明的精神和范围内，在形式上和细节上可以对本发明做出各种变化，均为本发明的保护范围。

Claims

1.一种社交网络群体发现方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的一种社交网络群体发现方法，其特征在于，还包括步骤5，具体为，利用NMI指数对社交网络群体发现结果进行评估。

3.根据权利要求1所述的一种社交网络群体发现方法，其特征在于，步骤1中，采用线上爬虫或直接查找公开数据集方式获取在线社交网络数据集；其中，线上爬虫时，利用社交平台的应用程序接口，采用爬虫框架爬取用户信息、关注信息及转发信息；

在线社交网络拓扑图的表达式如下：

G＝(V,E)

4.根据权利要求1所述的一种社交网络群体发现方法，其特征在于，步骤2中，当在线社交网络拓扑图G中的节点个数为n时，邻接矩阵A的数学表达式为：

5.根据权利要求1所述的一种社交网络群体发现方法，其特征在于，步骤3中，对邻接矩阵进行降维处理时，通过深度栈式自编码器，进行学习邻接矩阵，对邻接矩阵中的每一行向量进行降维处理，得到降维矩阵；

具体包括以下步骤：

a^(l)＝f(z^(l))

z^(l+1)＝W^(l,1)a^(l)+b^(l,1)

a^(n+l)＝f(z^(n+l))

z^(n+l+1)＝W^(n-l,2)a^(n+l)+b^(n-l,2)

6.根据权利要求1所述的一种社交网络群体发现方法，其特征在于，步骤3中，图嵌入过程，具体为：

7.根据权利要求2所述的一种社交网络群体发现方法，其特征在于，步骤5中，利用NMI指数对社交网络群体发现结果进行评估时，采用如下公式：

8.一种社交网络群体发现系统，其特征在于，包括社交网络数据获取模块、数据预处理模块、自编码器降维与图嵌入模块及在线社交网络发现模块；

9.根据权利要求8所述的一种社交网络群体发现系统，其特征在于，还包括社交网络相似度比对模块；社交网络相似度比对模块，用于利用NMI指数对社交网络群体发现结果进行评估。

10.一种计算机存储介质，所述计算机存储介质上存储有计算机程序，所述计算机程序被处理器执行时实现如权利要求1-7中任一项所述方法的步骤。