CN110727836A

CN110727836A - 基于Spark GraphX的社交网络分析系统及其实现方法

Info

Publication number: CN110727836A
Application number: CN201911297714.2A
Authority: CN
Inventors: 阎星娥; 杨昆; 严荣明; 张�林; 袁勇斌; 余祥慧; 张明星; 谢俊
Original assignee: Nanjing Fly Data Technology Co Ltd
Current assignee: Nanjing Fly Data Technology Co Ltd
Priority date: 2019-12-17
Filing date: 2019-12-17
Publication date: 2020-01-24
Anticipated expiration: 2039-12-17
Also published as: CN110727836B

Abstract

本发明基于Spark GraphX的社交网络分析系统及其实现方法，尤其涉及一种基于Spark GraphX实现对指定数据进行社交网络关系图计算系统。模型，包括依次相连的数据存储模块、分析请求解析模块、图计算模块和图数据库存储模块。整个算法实现流程包括对输入数据以自定义的文件格式入库存储到Hdfs；客户端提交分析请求，服务端解析后提交到图计算模块；最终分析结果存储到图数据库。该算法适用于社交网络分析模型的开发；基于Spark GraphX通过复杂图计算，可以描绘出社交网络关系的部分特征，挖掘出指定特征的社团。解决了海量数据图计算的问题。

Description

基于Spark GraphX的社交网络分析系统及其实现方法

技术领域

本发明基于Spark GraphX的社交网络分析系统及其实现方法，尤其涉及一种基于Spark GraphX实现对指定数据进行社交网络关系图计算系统。

背景技术

众所周知，社交网络中人与人之间有很多关系链，例如Twitter、Facebook、微博以及微信等，这些都是大数据产生的地方，想要理清社交网络关系的部分特征，都需要通过复杂的网络图计算。

传统的python、R进行图计算处理无法支持海量数据情况下的社交网络关系模型的开发。

现有的图库Neo4j，应用图形理论，存储实体之间的关系信息，有自己的查询语言，目前支持几十种图查询语言，但数据库的接口比较弱，只支持简单的查询，无法真正地进行图计算，它的核心还是数据库，并不是真正的计算引擎。现在的图计算处理基本都是分布式的图处理，而并非单机处理。

Spark GraphX是一个分布式图处理框架，它是基于Spark平台提供对图计算和图挖掘简洁易用而丰富的接口，极大的方便了对分布式图处理的需求，由于底层是基于Spark来处理的，所以天然就是一个分布式的图计算处理系统。图的分布式或者并行处理其实是把图拆分成很多的子图，然后分别对这些子图进行计算，计算的时候可以分别迭代进行分阶段的计算，即对图进行并行计算。

很多模型实现上的图计算算法中不能自带Spark GraphX，但可以基于它原生态接口进行二次开发，生成可用的算法接口，满足社交网络模型的开发。

发明内容

本发明的目的是针对传统的单机图计算处理的不足之处，提供一种基于SparkGraphX的社交网络分析系统及其实现方法，通过该模型及提供的算法可以描绘出社交网络关系的部分特征，挖掘出指定特征的社团。

本发明是采取以下技术方案实现的：

基于Spark GraphX的社交网络分析系统，包括依次相连的数据存储模块、分析请求解析模块、图计算模块和图数据库存储模块；

所述数据存储模块，用于将外部接入的海量数据通过数据存储模块中设定的入库程序以预先设定的存储方式存储到Hadoop分布式文件系统中；

分析请求解析模块，用于分析用户从客户端提交的计算请求；

图计算模块，用于计算图的各项指标,所述指标包括最大连通图、连通图的局部聚类系数、度中心性、紧密中心性、节点介数中心性、边介数中心性、自选中心度、密度、和最短路径等；用于对图中点、边等进行全面衡量；

图数据库存储模块，用于将图计算模块分析计算的结果数据存储到图数据库，进行展示。

基于Spark GraphX的社交网络分析系统的实现方法，包括如下步骤：

1）数据存储模块进行数据存储；

从外部接入的海量数据通过数据存储模块中设定的入库程序以预先设定的存储方式存储到Hadoop分布式文件系统（Hdfs）中；

2）分析请求解析模块对客户端输入提交分析请求；所述分析请求为用户通过输入设备输入的图计算指标，服务端解析后提交到图计算模块。

3）图计算模块从步骤1）的数据存储模块中获取数据，通过图计算接口实现,对图中点、边等进行全面衡量，计算图的各项指标算法及进行模型分析。

4）图数据库存储模块将步骤3）图计算模块分析计算的结果数据存储到图数据库，进行展示。

所述图计算接口的实现过程，包括如下步骤：

3-1）获取指定节点所属连通图，即输入一个连通图的集合S，指定节点M，算法接口即可返回节点M所属的连通图；

3-2）获取最大连通图，即输入一个连通图的集合S，算法接口即可返回该集合S中的最大连通图；

3-3）获取连通图的局部聚类系数、度中心性、紧密中心性、节点介数中心性、边介数中心性和自选中心度，即输入一个指定的连通图，计算返回节点以及节点间的各种量化指标，可获取图中的核心节点，关键边，关联到社交网络里即可获取社交团体中的核心人物，关键的联络人等；

3-4）获取连通图密度，即输入一个指定的连通图，算法接口返回该连通图的节点聚集程序的系数；

3-5）获取连通图任意两点最短路径、或指定的部分节点两两之间的最短路径，即输入一个指定的连通图，算法接口返回图中任意两个节点之间的最短路径。

3-6）获取连通图偏心距，其核心是求多源点的最短路径；

3-7）获取连通图任意节点的N阶邻居节点，即输入一个指定的连通图，参数N，算法接口返回连通图中每个节点的N阶邻居节点；

3-8）获取社团的模块度，通过公式：，计算得出社团模块度，其中，m取值为图中的总边数；

取值为社团c中所有内部边的条数，即两个端点都在一个社团里面相关联的边；

取值为社团c中所有端点的度之和，也可以通过公式

算出，其中

取值为社团c与其他社团之间相关联的边的条数。

也可以通过公式算出，即社团c里的每一条内部边都有两端，为两个端点各贡献一个度，这样内部边贡献的度数和为，其中

取值为社团c与其他社团之间相关联的边的条数，每一条与其他社团关联的边都为社团c内与之连接的端点贡献一个度，这样

算出的

值也就是社团中所有端点的度之和。

步骤3-1）中所述节点所属连通图是基于连通的概念。在一个无向图G中，若从顶点i到顶点j有路径相连（当然j到i也一定有路径）,则称i和j是连通的。如果G是有向图，那么连接i和j的路径中所有的边都必须是同向的。如果图任意两点都是连通的，那么图被称作连通图。如果此图是有向的则称为强连通图。其中i和j为顶点的名称，现实数据分析中为代表个体的账号值。

步骤3-2）中所述的最大连通图即在一个连通图集合中包含最多节点与边的连通图。

步骤3-3）中所述的聚类系数表示一个图形中节点聚集程度的系数，现实网络中尤其是特定网络中，由于相对高密度连接点的关系，节点总是趋向于建立一组严密的组织关系，在现实世界的网络中，这种可能性往往比两个节点之间随机设立了一个连接的平均概率更大，这种关系由聚类系数进行量化。

步骤3-3）中所述的度中心性是在社交网络分析中刻画节点中心性的直接度量指标，一个节点的节点度越大就意味着这个节点的度中心性越高，该节点在网络中就越重要。

步骤3-3）中所述的紧密中心性是指某个节点到达其他节点的难易程度。

步骤3-3）中所述的节点介数中心性是节点在本步骤中的该连通图中中心性的度量，出现在许多其它节点最短路径中的节点有更高的介数值，该指标的思想是：如果一个成员位于其他成员的多条最短路径上，那么该成员即为核心成员，就具有较大的核心性。

所述的边介数中心性与节点的介数中心性思想类似，边的介数是指一条边在网络图中所有最短路径包含该条边的数量，其中心性可作为衡量图中关键边的重要指标。

步骤3-3）中所述的自选中心度指中心性的波动性，节点所处位置中心性的波动性是指在网络图G中，节点v (v∈G)与其它所有节点最短路径的标准差。

步骤3-4）中所述的连通图密度是体现一个图的密集程度。

步骤3-5）中所述的最短路径即体现了连通图中任意两个节点连通可达的最短路径。

步骤3-6）中所述的连通图的偏心距指图中任意一个节点到其他n-1个节点的最短路径的最大值称之为某一节点的偏心距。主要用最短路径算法，求某一点到其他可达节点的最短路径，其中n的取值为图中所有的点的个数。

步骤3-7）中所述的邻居节点指指定节点的相邻节点。

本发明对比现有背景技术有如下的有益效果：

本发明解决了海量数据图计算的问题，若是少量的数据，单机版用任何语言利用动态规划的方法也能求解，但如果是海量数据，形成较大的连通图则无法运行实现了。相比较图库，图库可以对图进行简单操作和查询,也能计算指定两点之间的最短路径。但这并不算是真正的图计算，严格来说还是查询。基于Spark GraphX的社交网络分析算法，该算法适用于社交网络分析模型的开发；基于Spark GraphX通过复杂图计算，可以描绘出社交网络关系的部分特征，挖掘出指定特征的社团。

附图说明

以下将结合附图对本发明作进一步说明：

图1是本发明模型的实现架构图；

图2是本发明所述的连通图集合S；

图3是本发明所述的M节点的连通图；

图4是本发明所述的连通图集合S中的最大连通图；

图5是本发明获取的单源点最短路径的结果样例；

图6是本发明获取的多源点最短路径的结果样例。

具体实施方式

参照附图1～6，在使用本发明方法前，需要搭建hadoop集群以及spark集群，启动数据入库程序，以及分析请求模块。

图1中整个实现流程包括对输入数据以自定义的文件格式入库存储到Hdfs；客户端提交分析请求，服务端解析后提交到图计算模块；最终分析结果存储到图数据库。具体包括如下步骤：

1）数据存储模块

从外部接入的海量数据通过自定义开发的入库程序以自定义的存储方式存储到Hdfs中；

2）分析请求解析模块

客户端提交分析请求；所述分析请求为用户通过输入设备输入的图计算指标，服务端解析后提交到图计算模块。

3）图计算模块

由图计算模块从1）数据存储模块中获取数据，通过以下图计算接口实现算法及模型分析：

3-1）获取指定节点所属连通图，即输入一个连通图的集合S，指定节点M，算法接口即可返回节点M所属的连通图，图2是一个连通图集合的示意图，图3即是获取指定节点M的连通图。

3-2）获取最大连通图，即输入一个连通图的集合S，算法接口即可返回该集合中的最大连通图，如图4所示即为图的集合S的最大连通图；

3-3）获取连通图的局部聚类系数、度中心性、紧密中心性、节点介数中心性、边介数中心性、自选中心度，即输入一个指定的连通图，计算返回节点以及节点间的各种量化指标，可获取图中的核心节点，关键边，关联到社交网络里即可获取社交团体中的核心人物，关键的联络人等；

3-5）获取连通图任意两点最短路径、或指定的部分节点两两之间的最短路径，所述获取连通图任意两点最短路径即输入一个指定的连通图，算法接口返回图中任意两个节点之间的最短路径；

图5即是算出单源点最短路径结果示意图。

图6即是算出多源点最短路径结果示意图。

3-6）获取连通图偏心距，其核心是求多源点的最短路径；

3-8）获取社团模块度，通过公式：

，计算得出社团模块度，其中，m取值为图中的总边数；

取值为社团c中所有端点的度之和，

也可以通过公式

算出，其中

取值为社团c与其他社团之间相关联的边的条数。

4）图数据库存储

通过3）图计算模块分析计算的结果数据存储到图数据库，进行展示。

本发明解决了海量数据图计算的问题，若是少量的数据，单机版用任何语言利用动态规划的方法也能求解，但如果是海量数据，形成较大的连通图则无法运行实现了。相比较图库，图库可以对图进行简单操作和查询,也能计算指定两点之间的最短路径。但这并不算是真正的图计算，严格来说还是查询。基于Spark GraphX通过复杂图计算，可以描绘出社交网络关系的部分特征，挖掘出指定特征的社团。

Claims

1.一种基于Spark GraphX的社交网络分析系统，其特征在于：包括依次相连的数据存储模块、分析请求解析模块、图计算模块和图数据库存储模块；

图计算模块，用于计算图的各项指标,所述指标包括最大连通图、连通图的局部聚类系数、度中心性、紧密中心性、节点介数中心性、边介数中心性、自选中心度、密度、和最短路径；用于对图中点、边进行全面衡量；

2.一种用于权利要求1所述的基于Spark GraphX的社交网络分析系统的实现方法，其特征在于，包括如下步骤：

1）数据存储模块进行数据存储；

从外部接入的海量数据通过数据存储模块中设定的入库程序以预先设定的存储方式存储到Hadoop分布式文件系统中；

2）分析请求解析模块对客户端输入提交分析请求；所述分析请求为用户通过输入设备输入的图计算指标，服务端解析后提交到图计算模块；

3）图计算模块从步骤1）的数据存储模块中获取数据，通过图计算接口实现,对图中点、边进行全面衡量，计算图的各项指标算法及进行模型分析；

3.根据权利要求2所述的基于Spark GraphX的社交网络分析模型的实现方法，其特征在于，所述图计算接口的实现过程，包括如下步骤：

3-3）获取连通图的局部聚类系数、度中心性、紧密中心性、节点介数中心性、边介数中心性和自选中心度，即输入一个指定的连通图，计算返回节点以及节点间的各种量化指标，可获取图中的核心节点，关键边，关联到社交网络里即可获取社交团体中的核心人物，关键的联络人；

3-4）获取连通图密度，即输入一个指定的连通图，算法接口返回该连通图的聚类系数；

3-6）获取连通图偏心距，获取连通图偏心距的核心是求多源点的最短路径；

3-8）获取社团的模块度，通过公式：

，计算得出社团模块度，其中，m取值为图中的总边数；

取值为社团c中所有内部边的条数，即两个端点都在一个社团里面相关联的边；取值为社团c中所有端点的度之和。

4.根据权利要求3所述的基于Spark GraphX的社交网络分析模型的实现方法，其特征在于，步骤3-1）中所述节点所属连通图是基于连通的概念，在一个无向图G中，若从顶点i到顶点j有路径相连,则称i和j是连通的；如果G是有向图，那么连接i和j的路径中所有的边都必须是同向的；如果图任意两点都是连通的，那么图被称作连通图；如果此图是有向的则称为强连通图；其中i和j为顶点的名称，现实数据分析中为代表个体的账号值。

5.根据权利要求3所述的基于Spark GraphX的社交网络分析模型的实现方法，其特征在于，步骤3-2）中所述的最大连通图即在一个连通图集合中包含最多节点与边的连通图。

6.根据权利要求3所述的基于Spark GraphX的社交网络分析模型的实现方法，其特征在于，步骤3-3）中所述的聚类系数指表示一个图形中节点聚集程度的系数。

7.根据权利要求3所述的基于Spark GraphX的社交网络分析模型的实现方法，其特征在于，步骤3-3）中所述的度中心性是在社交网络分析中刻画节点中心性的直接度量指标，一个节点的节点度越大就意味着这个节点的度中心性越高，该节点在网络中就越重要。

8.根据权利要求3所述的基于Spark GraphX的社交网络分析模型的实现方法，其特征在于，步骤3-3）中所述的紧密中心性是指某个节点到达其他节点的难易程度。

9.根据权利要求3所述的基于Spark GraphX的社交网络分析模型的实现方法，其特征在于，步骤3-3）中所述的节点介数中心性是节点在本步骤中的该连通图中中心性的度量。

10.根据权利要求3所述的基于Spark GraphX的社交网络分析模型的实现方法，其特征在于，步骤3-3）中所述的自选中心度指中心性的波动性，节点所处位置中心性的波动性是指在网络图G中，节点v 与其它所有节点最短路径的标准差，其中，v∈G。