CN108320234A

CN108320234A - 一种数据处理方法、装置、及计算机可读存储介质

Info

Publication number: CN108320234A
Application number: CN201711277234.0A
Authority: CN
Inventors: 姜雅文; 徐海; 张博; 李博文; 袁苏文; 孙昊; 超木日力格; 江逸楠
Original assignee: China Electronics Technology Group Corp CETC
Current assignee: China Electronics Technology Group Corp CETC
Priority date: 2017-12-06
Filing date: 2017-12-06
Publication date: 2018-07-24

Abstract

本发明提供了一种数据处理方法，包括以下步骤：将网络划分成多个社区；分别计算每个社区中内部节点间的相似度；确定每个社区的中心节点，将隶属不同社区的节点间的相似度表示为节点对应的社区的中心节点间的相似度。基于上述数据处理方法，本发明还提供了一种数据处理装置、及计算机可读存储介质。本发明的技术方案将网络划分成多个社区，降低了数据处理的规模，位于不同社区的节点间的相似度用各自社区的中心节点间的相似度进行近似，精度不受太大的影响，算法的效率大大提升。

Description

一种数据处理方法、装置、及计算机可读存储介质

技术领域

本发明涉及通讯技术领域，特别涉及一种数据处理方法、装置、及计算机可读存储介质。

背景技术

目前，网络中两用户之间的相似度计算方法有多种，典型的方法包括基于节点局部信息的方法和基于网络拓扑结构信息的方法。

基于节点局部信息的方法考虑节点的邻居信息。一般来说，如果网络中的两个节点有着相同或者相近的邻居节点，那么这两个节点被认为是相似的，基于该思想的相似度构造方法大致有以下三种：

假设Γ_i表示节点i的邻居集合，|Γ_i|表示该集合的势，|Γ_i∩Γ_j|表示节点i和节点j共有的邻居个数。可以定义如下三种相似度：

基于信号传递思想将网络拓扑结构信息转化为空间向量信息，它的基本思想是将网络中的节点当作具有接收和发射信号的节点，首先从网络中任选一个节点v，给v赋一个信号值，然后v向自己和自己的邻居节点发射该信号值，接到信号的节点记录并保存相应的信号值，同理，其它的节点也进行同样的接收和发送信号的过程，如此传递下去，经过T次传递之后，位于同一个社区里的节点对网络中其它节点传递的信号量是接近的。信号传递的过程可以用数学公式表示，即V＝(I+A)^T，I表示单位矩阵，A表示网络的邻接矩阵，T表示信号传递的次数。信号传递T次后，包含n个节点的网络中的每一个节点的信号量是一个n维向量，它表示的是该节点对网络其它节点的影响程度，这样n个节点就有n个n维向量，从而将网络空间拓扑结构的信息转化为了向量空间信息，再对其进行标准化之后就可以运用各种空间距离计算相应的相似度矩阵对其进行聚类。

如果一个节点相似于另一个节点的邻居节点，那么也认为这两个节点是相似的，基于这个思想，Leicht E.A.等人提出了另一种基于网络拓扑结构的节点相似度构造方法，简称为regular方法:

该方法采用一种迭代的思想，假设A为网络的邻接矩阵，T(i)表示中间矩阵，

S_regular＝D^-1*T(t)*D^-1 (6)

其中，I_n表示n*n的单位矩阵，a是一个收敛参数，λ₁是邻接矩阵的最大特征值，D是对角矩阵，对角线的元素依次是每个节点的度，t表示最大的迭代次数。

但是，在上述的数据处理方法中，由于需要计算大量的位于不同社区节点之间的相似度，导致数据处理规模大、计算量大。

发明内容

为了解决现有技术中用户相似度计算时数据处理规模大、计算量大的问题，本发明提供了一种数据处理方法、装置、及计算机可读存储介质。

本发明提供的数据处理方法，包括：

将网络划分成多个社区；

分别计算每个社区中内部节点间的相似度；

确定每个社区的中心节点，将隶属不同社区的节点间的相似度表示为所述节点对应的社区的中心节点间的相似度。

可选的，在本发明所述的数据处理方法中，所述将网络划分成多个社区包括：采用预设的模块度优化算法将所述网络划分成多个社区。

可选的，在本发明所述的数据处理方法中，所述确定每个社区的中心节点包括：对每个社区中的多个内部节点采用预设的算法按照重要性进行排序，得到每个社区的中心节点。

可选的，在本发明所述的数据处理方法中，所述预设的算法包括page-rank算法。

可选的，在本发明所述的数据处理方法中，在将隶属不同社区的节点间的相似度表示为所述节点对应的社区的中心节点间的相似度之前，还包括：确定中心节点间的相似度。

本发明还提供了一种数据处理装置，包括社区划分模块、第一处理模块、第二处理模块；

所述社区划分模块，用于将网络划分成多个社区；

所述第一处理模块，用于分别计算每个社区中内部节点间的相似度；

所述第二处理模块，用于确定每个社区的中心节点，将隶属不同社区的节点间的相似度表示为所述节点对应的社区的中心节点间的相似度。

可选的，在本发明所述的数据处理装置中，所述社区划分模块具体用于：采用预设的模块度优化算法将所述网络划分成多个社区。

可选的，在本发明所述的数据处理装置中，所述第二处理模块具体用于：对每个社区中的多个内部节点采用预设的算法按照重要性进行排序，得到每个社区的中心节点。

可选的，在本发明所述的数据处理装置中，所述第二处理模块具体用于：在将隶属不同社区的节点间的相似度表示为所述节点对应的社区的中心节点间的相似度之前，确定中心节点间的相似度。

本发明还提供了一种计算机可读存储介质，所述计算机可读存储介质上存储有数据处理程序，所述数据处理程序被处理器执行时实现如上所述的数据处理方法的步骤。

本发明的有益效果如下：

本发明实施例提供的数据处理方法、装置、及计算机可读存储介质，将网络划分成多个社区，降低了数据处理的规模，位于不同社区的节点间的相似度用各自社区的中心节点间的相似度进行近似，精度不受太大的影响，算法的效率大大提升。

附图说明

图1为本发明方法实施例中数据处理方法的流程示意图；

图2为本发明装置实施例中数据处理装置的结构示意图；

图3为本发明实例1中将网络划分为社区的示意图。

具体实施方式

下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了本公开的示例性实施例，然而应当理解，可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反，提供这些实施例是为了能够更透彻地理解本公开，并且能够将本公开的范围完整的传达给本领域的技术人员。

为了解决现有技术中用户相似度计算时数据处理规模大、计算量大的问题，本发明提供了一种数据处理方法、装置、及计算机可读存储介质。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不限定本发明。

网络中存在社区结构，同一个社区的内部节点之间的相似度很高，位于不同社区的节点之间的相似度低。本发明借助上述复杂网络社区发现的基本思路，将网络划分为多个社区，从而将大网络划分为多个小网络，在每个小网络内部，节点之间的相似度计算方法采用已有的背景技术方案，隶属不同社区的节点间相似度将近似表示成对应社区中心点间的相似度，从而大大减少整个算法的计算量，降低整个算法的时间复杂度。

根据本发明的方法实施例，提供了一种数据处理方法，图1为本发明方法实施例中数据处理方法的流程示意图，如图1所示，本发明方法实施例的数据处理方法，包括以下步骤：

S101：将网络划分成多个社区。

可选的，在本发明方法实施例所述的数据处理方法中，所述将网络划分成多个社区包括：采用预设的模块度优化算法将所述网络划分成多个社区。其中所述模块度优化算法为已有的经典社区发现算法。

S102：分别计算每个社区中内部节点间的相似度。

具体的，每个社区中多个内部节点之间的相似度可以用现有技术中的任意相似度计算方法进行计算，本发明对此不做限定。

S103：确定每个社区的中心节点，将隶属不同社区的节点间的相似度表示为所述节点对应的社区的中心节点间的相似度。

可选的，在本发明方法实施例所述的数据处理方法中，所述确定每个社区的中心节点包括：对每个社区中的多个内部节点采用预设的算法按照重要性进行排序，得到每个社区的中心节点。

可选的，所述预设的算法包括page-rank算法。

可选的，在本发明方法实施例所述的数据处理方法中，在将隶属不同社区的节点间的相似度表示为所述节点对应的社区的中心节点间的相似度之前，还包括：确定中心节点间的相似度。

可选的，在本发明方法实施例所述的数据处理方法中，所述任意两个中心节点间的相似度包括：以两个中心节点间最短路径长度的倒数作为两个节点间的相似度。

本发明实施例提供的数据处理方法，将网络划分成多个社区，降低了数据处理的规模，位于不同社区的节点间的相似度用各自社区的中心节点间的相似度进行近似，精度不受太大的影响，算法的效率大大提升。

基于本发明的方法实施例，提供了一种数据处理装置，图2为本发明装置实施例中数据处理装置的结构示意图，如图2所示，本发明装置实施例的数据处理装置，包括社区划分模块20、第一处理模块22、及第二处理模块24。

具体的，所述社区划分模块20，用于将网络划分成多个社区。

可选的，在本发明装置实施例所述的数据处理装置中，所述社区划分模块20具体用于：采用预设的模块度优化算法将所述网络划分成多个社区。

所述第一处理模块22，用于分别计算每个社区中内部节点间的相似度。

所述第二处理模块24，用于确定每个社区的中心节点，将隶属不同社区的节点间的相似度表示为所述节点对应的社区的中心节点间的相似度。

可选的，在本发明装置实施例所述的数据处理装置中，所述第二处理模块24具体用于：对每个社区中的多个内部节点采用预设的算法按照重要性进行排序，得到每个社区的中心节点。

所述预设的算法包括page-rank算法。

可选的，在本发明装置实施例所述的数据处理装置中，所述第二处理模块24具体用于：在将隶属不同社区的节点间的相似度表示为所述节点对应的社区的中心节点间的相似度之前，确定中心节点间的相似度。

可选的，在本发明装置实施例所述的数据处理装置中，所述第二处理模块24具体用于：以两个中心节点间最短路径长度的倒数作为两个节点间的相似度。

本发明实施例提供的数据处理装置，将网络划分成多个社区，降低了数据处理的规模，位于不同社区的节点间的相似度用各自社区的中心节点间的相似度进行近似，精度不受太大的影响，算法的效率大大提升。

本发明还提供了一种计算机可读存储介质，所述计算机可读存储介质上存储有数据处理程序，所述数据处理程序被处理器执行时实现如下步骤：

步骤11：将网络划分成多个社区。

可选的，所述将网络划分成多个社区包括：采用预设的模块度优化算法将所述网络划分成多个社区。其中所述模块度优化算法为已有的经典社区发现算法。

步骤12：分别计算每个社区中内部节点间的相似度。

步骤13：确定每个社区的中心节点，将隶属不同社区的两个节点间的相似度表示为所述两个节点对应的两个社区的中心节点间的相似度。

可选的，所述确定每个社区的中心节点包括：对每个社区中的多个内部节点采用预设的算法按照重要性进行排序，得到每个社区的中心节点。

可选的，所述预设的算法包括page-rank算法。

可选的，在将隶属不同社区的两个节点间的相似度表示为所述两个节点对应的两个社区的中心节点间的相似度之前，所述数据处理程序被处理器执行时还实现如下步骤：确定任意两个中心节点间的相似度。

可选的，所述确定两个中心节点间的相似度包括：以两个中心节点间最短路径长度的倒数作为两个节点间的相似度。

本发明实施例提供的计算机可读存储介质，将网络划分成多个社区，降低了数据处理的规模，位于不同社区的节点间的相似度用各自社区的中心节点间的相似度进行近似，精度不受太大的影响，算法的效率大大提升。

为了更加详细的说明本发明的方法实施例、装置实施例及计算机可读存储介质，给出实例1。

第一步，采用模块度优化算法(已有的经典社区发现算法)将网络划分为n个小网络，每个小网络是一个社区，图3为本发明实例1中将网络划分为社区的示意图，在图3中，将网络划分成了a、b、c三个社区。

第二步，对每一个社区中的节点进行重要性排序，采用page-rank算法(已有的经典网页排序算法)找到排在第一位的节点，该节点是该社区的中心节点(图3中实心圆圈)。

第三步，对上述n个中心节点进行两两间的相似度计算，方法采用最短路径的方法，任意两个中心节点间的相似度为两点间最短路径长度的倒数。

第四步，社区内部节点间的相似度为该社区内两点间最短路径长度的倒数。

第五步，隶属不同社区的节点间相似度近似表示成各自社区中心节点间的相似度，即采用第三步的计算结果；例如，将a社区中某一节点与b社区中某一节点之间的相似度表示为a社区的中心节点与b社区的中心节点之间的相似度。

本发明将大网络划分成小网络，采用“分而治之”的思想，降低了数据处理的规模，提高算法的效率；位于不同社区节点间的相似度用各自社区中心节点间的相似度进行近似，精度不受太大的影响，然而由于减少了大量社区间节点之间相似度的计算量，使得算法的效率大大提升。

以上所述仅为本发明的实施例而已，并不用于限制本发明，对于本领域的技术人员来说，本发明可以有各种更改和变化。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的权利要求范围之内。

Claims

1.一种数据处理方法，其特征在于，包括：

将网络划分成多个社区；

分别计算每个社区中内部节点间的相似度；

2.如权利要求1所述的数据处理方法，其特征在于，所述将网络划分成多个社区包括：

采用预设的模块度优化算法将所述网络划分成多个社区。

3.如权利要求1所述的数据处理方法，其特征在于，所述确定每个社区的中心节点包括：

对每个社区中的多个内部节点采用预设的算法按照重要性进行排序，得到每个社区的中心节点。

4.如权利要求3所述的数据处理方法，其特征在于，所述预设的算法包括page-rank算法。

5.如权利要求1所述的数据处理方法，其特征在于，在将隶属不同社区的节点间的相似度表示为所述节点对应的社区的中心节点间的相似度之前，还包括：确定中心节点间的相似度。

6.一种数据处理装置，其特征在于，包括社区划分模块、第一处理模块、第二处理模块；

所述社区划分模块，用于将网络划分成多个社区；

7.如权利要求6所述的数据处理装置，其特征在于，所述社区划分模块具体用于：

采用预设的模块度优化算法将所述网络划分成多个社区。

8.如权利要求6所述的数据处理装置，其特征在于，所述第二处理模块具体用于：

9.如权利要求6所述的数据处理装置，其特征在于，所述第二处理模块具体用于：

在将隶属不同社区的节点间的相似度表示为所述节点对应的社区的中心节点间的相似度之前，确定中心节点间的相似度。

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质上存储有数据处理程序，所述数据处理程序被处理器执行时实现如权利要求1至5中任一项所述的数据处理方法的步骤。