CN110765320A

CN110765320A - 数据处理方法、装置、存储介质和计算机设备

Info

Publication number: CN110765320A
Application number: CN201911013295.5A
Authority: CN
Inventors: 石志林; 胡彬; 应秋芳; 郑巧玲; 张纪红
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2019-10-23
Filing date: 2019-10-23
Publication date: 2020-02-07
Anticipated expiration: 2039-10-23
Also published as: CN110765320B

Abstract

本申请涉及一种数据处理方法、装置、存储介质和计算机设备，该方法基于参数服务器和SPARK服务器的架构，在进行社区划分时，根据节点标识从参数服务器获取每次对节点重新分配时模块度增量所需的节点参数和社区参数，并在完成每轮社区划分时，将节点参数和社区参数推送至参数服务器，在参数服务器上更新参数，从而能够实现参数的局部更新，无需全局更新参数，相对节省了全局参数更新所需的等待时间，提高了社区划分数据处理的效率。

Description

数据处理方法、装置、存储介质和计算机设备

技术领域

本申请涉及互联网技术领域，特别是涉及一种数据处理方法、装置、存储介质和计算机设备。

背景技术

社区，指的是已知节点的某种关系，如兴趣关系、支付关系、好友关系、设备关联关系等。社区划分是指基于这种关系，将网络进行划分，使具有相同关系的节点聚类。

传统的社区划分方法，是一种迭代算法。在每一轮迭代时，均需要更新相关参数，以用于下一轮迭代。并在社区划分结束时，根据参数确定各节点的所属社区，因此，参数更新在社区划分的数据处理过程中，扮演着非常重要的角色。

但传统的社区划分方法，需要在每一轮迭代计算后，更新全部参数，导致数据处理的效率低。

发明内容

基于此，有必要针对数据处理效率低的技术问题，提供一种数据处理方法、装置、存储介质和计算机设备。

一种数据处理方法，包括：

获取网络拓扑结构图；

为所述网络拓扑结构图的各节点分配节点标识；

将所述节点标识和所述网络拓扑结构图发送至参数服务器，由所述参数服务器根据所述节点标识和所述网络拓扑结构图初始化节点参数和社区参数；

将所述网络拓扑图中的每个节点作为一个社区；

对各节点，根据节点标识从参数服务器中获取对应的节点参数和社区参数，计算每个节点划分到各邻居节点所在社区的模块度增量，并根据所述模块度增量重新进行社区划分直至所有节点的所属社区不再变化，其中，若最大模块度增量大于0，则将所述节点划分到邻居节点所属社区；若所述最大模块度增量小于或等于0，则保持所述节点归属原社区；

根据社区划分结果对所述网络拓扑结构图进行压缩重构，得到更新的节点参数和社区参数；

根据所述节点标识，将重构后的网络拓扑结构图的节点参数和社区参数发送至参数服务器，由参数服务器根据所述网络节点标识进行对应参数更新；

返回所述对各节点，根据节点标识从参数服务器中获取对应的节点参数，计算每个节点划分到邻居节点所在社区的模块度增量，并根据模块度增量重新进行社区划分直至所有节点的所属不再变化的步骤继续社区划分以及压缩重构处理，直至重构后的所述网络拓扑结构图的模块度不再变化，得到最终社区划分结果。

一种数据处理装置，所述装置包括：

拓扑图模块，用于获取网络拓扑结构图；

分配模块，用于为所述网络拓扑结构图的各节点分配节点标识；

推送模块，用于将所述节点标识和所述网络拓扑结构图发送至参数服务器，由所述参数服务器根据所述节点标识和所述网络拓扑结构图初始化节点参数和社区参数；

节点处理模块，用于将所述网络拓扑图中的每个节点作为一个社区；

划分模块，用于对各节点，根据节点标识从参数服务器中获取对应的节点参数和社区参数，计算每个节点划分到各邻居节点所在社区的模块度增量，并根据所述模块度增量重新进行社区划分直至所有节点的所属社区不再变化，其中，若最大模块度增量大于0，则将所述节点划分到邻居节点所属社区；若所述最大模块度增量小于或等于0，则保持所述节点归属原社区；

重构模块，用于根据社区划分结果对所述网络拓扑结构图进行压缩重构，得到更新的节点参数和社区参数；

推送模块，用于根据所述节点标识，将重构后的网络拓扑结构图的节点参数和社区参数发送至参数服务器，由参数服务器根据所述网络节点标识进行对应参数更新；

控制模块，用于控制划分模块、重构模块和推送模块的数据流转，直至所述网络拓扑结构图的模块度不再变化，得到最终社区划分结果。

一种计算机可读存储介质，存储有计算机程序，所述计算机程序被处理器执行时，使得所述处理器执行上述各实施例所述方法的步骤。

一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，所述计算机程序被所述处理器执行时，使得所述处理器执行述各实施例所述方法的步骤。

上述数据处理方法、装置、存储介质和计算机设备，基于参数服务器和执行服务器的架构，在进行社区划分时，根据节点标识从参数服务器获取每次对节点重新分配时模块度增量所需的节点参数和社区参数，并在完成每轮社区划分时，将节点参数和社区参数推送至参数服务器，在参数服务器上更新参数，从而能够实现参数的局部更新，无需全局更新参数，相对节省了全局参数更新所需的等待时间，提高了社区划分数据处理的效率。

附图说明

图1为一个实施例中数据处理方法的应用环境图；

图2为一个实施例中数据处理方法的流程示意图；

图3为一个实施例中资金网络的局部拓扑结构图；

图4为另一个实施例社区划分结果的示意图；

图5为另一个实施例中数据处理装置的结构框图；

图6为一个实施例中计算机设备的结构框图。

具体实施方式

为了使本申请的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本申请进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本申请，并不用于限定本申请。

图1为一个实施例中数据处理方法的应用环境图。参照图1，该数据处理方法应用于数据处理系统。该数据处理系统是一种分布式系统，包括参数服务器110和执行服务器130。参数服务器110和执行服务器130通过网络连接。执行服务器130获取网络拓扑结构图，为网络拓扑结构图的各节点分配节点标识，将节点标识和网络拓扑结构图发送至参数服务器。参数服务器根据节点标识和网络拓扑结构图初始化节点参数和社区参数。执行服务器130对各节点，根据节点标识从参数服务器中获取对应的节点参数和社区参数，计算每个节点划分到各邻居节点所在社区的模块度增量，并根据模块度增量重新进行社区划分直至所有节点的所属社区不再变化，其中，若最大模块度增量大于0，则将节点划分到邻居节点所属社区；若最大模块度增量小于或等于0，则保持节点归属原社区；根据社区划分结果对网络拓扑结构图进行压缩重构，得到更新的节点参数和社区参数；根据节点标识，将重构后的网络拓扑结构图的节点参数和社区参数发送至参数服务器。参数服务器根据网络节点标识进行对应参数更新。执行服务器重复划分和重构的过程，直至网络拓扑结构图的模块度不再变化，得到最终社区划分结果。

参数服务器110和执行服务器130可以用独立的服务器或者是多个服务器组成的服务器集群来实现。

人工智能(Artificial Intelligence,AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说，人工智能是计算机科学的一个综合技术，它企图了解智能的实质，并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法，使机器具有感知、推理与决策的功能。

人工智能技术是一门综合学科，涉及领域广泛，既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。

其中，机器学习(Machine Learning,ML)是一门多领域交叉学科，涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为，以获取新的知识或技能，重新组织已有的知识结构使之不断改善自身的性能。机器学习是人工智能的核心，是使计算机具有智能的根本途径，其应用遍及人工智能的各个领域。机器学习和深度学习通常包括人工神经网络、置信网络、强化学习、迁移学习、归纳学习、式教学习等技术。

随着人工智能技术研究和进步，人工智能技术在多个领域展开研究和应用，例如常见的智能家居、智能穿戴设备、虚拟助理、智能音箱、智能营销、无人驾驶、自动驾驶、无人机、机器人、智能医疗、智能客服等，相信随着技术的发展，人工智能技术将在更多的领域得到应用，并发挥越来越重要的价值。

本申请实施例提供的方案涉及人工智能的机器学习等技术，具体通过如下实施例进行说明：

如图2所示，在一个实施例中，提供了一种数据处理方法。本实施例主要以该方法应用于上述图1中的处理服务器130来举例说明。其中，SPARK(一种引擎，是加州大学伯克利分校的AMP实验室所开源的通用并行框架，可用来构建大型的、低延迟的数据分析应用程序)具有更快的处理速度。为提高数据处理效率，本实施例中，处理服务器可采用SPARK服务器。

参照图2，该数据处理方法具体包括如下步骤：

S202，获取网络拓扑结构图。

网络拓扑结构图是指社区划分对象的网络结构，记录了各节点之间的关系。其中，社区划分对象为具有关系的各对象组成的网络。对象可以为用户账号，如社交网络用户账号，手机号码，资金账户等，从而社区划分对象可以为社交网络，资金网络，交易网络，通话网络等等。网络拓扑结构图中，各节点为不同的用户，各节点的边为用户之间的关系。

如图3所示，为一个资金网络的局部拓扑结构图，以资金账户为节点，具有转账关系为边产生资金网络拓扑结构图。其中，资金账号A1与资金账号A4具有直接转账行为，资金账号A2与资金账号A3具有直接转账行为，资金账号A2与资金账号A4具有直接转账行为，资金账号A3与资金账号A5具有直接转账行为，资金账号A4与资金账号A5具有直接转账行为，资金账号A4与资金账号A6具有直接转账行为，转账行为产生转账关系，基于转账关系生成资金网络拓扑结构图。采用本申请的数据处理方法，能够将处于同一个社区的用户作为一个用户类别。

S204，为网络拓扑结构图的各节点分配节点标识。

具体地，对网络拓扑结构图的各节点，根据节点数量分配节点标识，将节点的序号映射到0到节点最大数量的一个连续区间中，保存在SPARK RDD(Resilient DistributedDatasets，弹性分布式数据集)中。例如，一个资金网络的拓扑结构图中包括了1万个节点，则分别为各节点分配节点标识，如节点0，节点1，节点2，……，节点9999。

在具体的实施方式中，为网络拓扑结构图的各节点分配节点标识，包括：将边的数量超出预设值的节点进行切分；对切分后的网络拓扑结构图的各节点分配节点标识。

具体地，获取各节点的边的数量，将边的数量超出预设值的节点进行切分。如将边的数量超出预设值的节点切分为两个节点，分别记录切分后的节点与其它节点的连接关系，及切分后的节点的边的数量。对于边的数量更多的节点，还可以将其切分为更多的节点。此处不对节点的切分数量进行限定，只需切分后的节点满足计算需求即可。本实施方式中，通过对于边特别多的超级节点，进行节点切分，能够防止单节点过大造成严重的数据倾斜问题。

S206，将节点标识和网络拓扑结构图发送至参数服务器，由参数服务器根据节点标识和网络拓扑结构图初始化节点参数和社区参数。

具体地，参数服务器是分布式的存放参数的存储机器，用于存放分布式任务的参数，接收SPARK服务器的请求，对参数进行更新。如图1所示，数据处理系统框架，包括了参数服务器和SPARK服务器，将SPARK服务器作为客户端。参数服务器的主要功能是存放分布式任务的参数，接收客户端的请求，对参数进行更新。客户端(本申请为SPARK服务器)的主要功能有两点，一是从参数服务器端获取当前最新的参数；二是，使用本地或者远程节点的数据和从参数服务器端获取参数。本发明中使用的参数服务器是开源版本的Angel。

本实施例中，参数服务器利用矩阵存储节点参数和社区参数。其中，节点参数包括节点对应的社区编号，社区参数包括社区内部的边权重，社区连接所有其他节点的边权重等。每一项参数是Vertices*dim的矩阵，其中Vertices是图网络顶点的数目，dim是嵌入向量的维度。

SPARK服务器将节点标识发送至参数服务器，参数服务器根据节点标识初始化节点标识初始化节点参数和社区参数。初始化时，参数服务器根据网络拓扑结构图，分析各节点的边权重，得到节点参数。节点参数包括节点对应的社区编号，节点的边权重等。

初始化时，将每个节点作为一个社区，因此，初始化后，节点参数和社区参数相同。社区参数包括社区编号内部的边权重，社区连接所有其他节点的边权重等。

S208，将网络拓扑图中的每个节点作为一个社区。

具体地，在首次进行社区划分时，将网络拓扑图的每个节点看成一个独立的社区，此时，社区的数目与节点个数相同。

S210，对各节点，根据节点标识从参数服务器中获取对应的节点参数和社区参数，计算每个节点划分到各邻居节点所在社区的模块度增量，并根据模块度增量重新进行社区划分直至所有节点的所属社区不再变化，其中，若最大模块度增量大于0，则将所述节点划分到邻居节点所属社区；若所述最大模块度增量小于或等于0，则保持所述节点归属原社区所在社区的模块度增量。

具体地，模块度是社区划分的指标之一。对于社区划分的效果来说，划分的社区内的边尽可能多，而社区之间的边尽量的少。因此，模块度可以理解为社区内部边的权重减去所有与社区节点相连的边的权重和，即社区内部边的度数减去社区内节点的总度数。模块度越大则表明社区划分效果越好。

对每个节点i，依次尝试把节点i分配到其每个邻居节点j所在的社区，计算分配前与分配后的模块度增量ΔQ。若节点对应的最大模块度增量大于0，则将节点划分到邻居节点所属社区；若节点对应的最大模块度增量小于或等于0，则保持节点归属原社区。

模块度增量ΔQ为分配前和分配后社区模块度的变化。对应的，能够得到将该节点划分到各邻居节点的多个社区的模块度增量，记录最大模块度增量对应的邻居节点所在的社区。如果最大模块度增量大于零，则把节点i分配至最大模块度增量的邻居节点所在的社区。否则，如果最大模块度增量小于或等于0，则对节点i不进行分配，即保持该节点归属原社区，从而得到这一轮的社区划分结果。

其中，在计算模块度增量时，根据节点标识，从参数服务器中获取模块度增量计算所需的节点参数和社区参数，即节点参数和社区参数存储在参数服务器中。

本步骤，通过模块度增量进行社区划分，依次把节点i分配到与其每个连接节点j所在的社区，根据模块度增量得到社区划分结果。实现根据节点之间的关系，将具有较大相似性的节点聚类为一个社区，从而形成的一种内部连接紧密，而外部稀疏的群体结构。

本申请的技术方案中，通过在模块度增量计算时，引入社区密度参数，能够调节社区大小，避免超级社区的生成。

具体地，计算每个节点划分到邻居节点所在社区的模块度增量的方式，包括：根据社区密度参数，计算每个节点划分到邻居节点所在社区的模块度增量。

通过引入社区密度参数作为模块度增量计算权重，而社区密度参数与社区内节点总数量呈负相关，社区内节点总数量越大时，社区密度参数越小，计算得到的模块度增量也越小。在根据模块度增量重新进行社区划分时，是根据最大模块度增量进行划分，若最大模块度增量大于0，则将节点划分到邻居节点所属社区，从而社区规模越小，即节点数量越小的社区对应的模块度增量越大，越容易加入新的节点。而当社区规模，即节点数量达到一定程度时，对应的模块度增量越小，能够避免新的节点的加入，从而在模块度更新时能够抑制超级社区的生成。

具体地，模块度增量计算公式为：

其中，K_i,j为j节点所在社区内所有节点与节点i的边权重之和，K_i表示所有与i相连的边权重之和，d为社区密度参数，m边的数目(所有边的权重之和)，n为社区内节点数量。

S212，根据社区划分结果对网络拓扑结构图进行重构，得到更新的节点参数和社区参数。

重构是指对基于原网络拓扑结构图，根据社区划分结果，将属于同一个社区的节点组成一个新社区，构建新的网络拓扑结构图，得到更新的节点参数和社区参数。

具体地，根据社区划分结果对网络拓扑结构图进行重构，得到更新的节点参数和社区参数，包括：根据社区划分结果，将网络拓扑结构图中属于同一个社区的节点组合成一个新的社区；根据社区划分结果得到更新的节点参数，根据新社区内的各节点参数得到更新的社区参数。

具体地，更新的节点参数包括节点所属的社区编号。将社区内节点之间的边的权重更新为新社区的内部权重，将社区间的边权重更新为新社区间的边权重。

S214，根据节点标识，将重构后的网络拓扑结构图的节点参数和社区参数发送至参数服务器，由参数服务器根据网络节点标识进行对应参数更新。

本申请中实现数据处理方法采用分布式的架构，利用参数服务器存储参数，利用SPARK服务器进行社区划分。当一轮社区划分结束时，根据节点标识，将节点参数和社区参数推送至参数服务器存储，更新矩阵中对应节点标识的参数和社区参数，即能够实现局部参数更新，从而避免单机处理时，需要全局参数更新所需的等待时间，提高了社区划分数据处理的效率。

重复步骤S210至S214，直至网络拓扑结构图的模块度不再变化，得到最终社区划分结果。

具体地，当将每个节点划分到各邻居节点所在社区，对应的模块度增量为零时，可认为网络拓扑结构图的模块度不再变化。此时，停止迭代，即停止社区划分和压缩重构，得到最终的社区划分结果。最终的社区划分结果包括每个节点对应的社区编号，在相同社区内的节点的社区编号相同。其中，每一轮迭代的过程，即社区划分和压缩重构的过程，SPARK服务器均从参数服务器中获取节点参数和社区参数，并在压缩重构后，将重构后的节点参数和社区参数发送至参数服务器，在参数服务器在更新参数。

其中，模块度的计算公式如下：

其中，m表示边的数目(所有边的权重之和)，∑_in为社区C内的边权重和，∑_tot表示与社区C内的节点相连的边的权重和,d为社区密度参数，

n为社区内节点数量。采用本申请的数据处理方法，能够对网络进行划分，一个实施例的社区划分结果如图4所示，分别包括四个社区。

上述的数据处理方法，基于参数服务器和SPARK服务器的架构，在进行社区划分时，根据节点标识从参数服务器获取每次对节点重新分配时模块度增量所需的节点参数和社区参数，并在完成每轮社区划分时，将节点参数和社区参数推送至参数服务器，在参数服务器上更新参数，从而能够实现参数的局部更新，无需全局更新参数，相对节省了全局参数更新所需的等待时间，提高了社区划分数据处理的效率。

在另一个实施例中，获取网络拓扑结构图的步骤，包括：从预设数据库中提取用户账号以及各用户账号的行为信息，以用户账号为节点，根据行为信息将具有行为关系为边，得到网络拓扑结构图。

其中，预设数据库可以为社区划分对象的应用服务器所对应的数据库。如，若社区划分对象为社交网络，则预设数据库为社交网络应用的数据库。如社区划分对象为资金网络，则预设数据库中资金应用的数据库。

用户账号即用户在相应应用中的ID号，如社交网络中的社交账号，资金网络中的资金账号。各用户账号的行为信息，即用户在相关应用中的行为，如社交应用中的聊天行为，资金应用中的转账行为，购物应用中的购物行为等等。通过对行为信息进行分析，获取用户间的行为关系。

其中，行为关系是指在相关应用中两个用户行为之间的关联关系。如，在社交应用中，互为好友的两个用户进行聊天，则用户之间的聊天行为使这两个用户产生行为关系。又如，在资金应用中，一个用户账号向另一个用户账号转账，则转账行为使这两个用户产生行为关系。需要注意的是，在不同的应用中，应用场景不同，行为信息不同，产生行为关系的方式也不相同，本申请的技术方案并不限定某一种应用，也并不限定某一种行为关系，对于具体的应用，可根据应用的主要应用场景，抽象其中的行为关系。如，购物应用的行为关系为购物行为，社交应用的行为关系为社交行为，游戏应用中的行为为游戏行为。

该方法通过获取各应用的用户数据，通过以用户账号为节点，行为关系为边，得到该应用的网络拓扑结构图。

在另一个实施例中，数据处理方法还包括：获取参照用户账号列表，确定参照用户账号列表中用户账号所属社区的比例，根据比例确定与参照用户列表对应的匹配社区。

其中，参照用户账号列表是已知标签的用户账号列表。标签表明用户账号列表的共有属性。例如，一个参照用户账号列表的标签为异常用户，则参照用户账号列表为一个异常用户列表。又例如，一个参照用户账号列表的标签为重要用户，则参照用户账号列表为一个重要用户列表。

将参照用户账号列表的用户账号匹配社区划分结果，确定参照用户账号列表中用户账号所属社区的比例，根据比例确定与参照用户列表对应的匹配社区，即通过参照用户账号列表中用户账号所属社区的比例，确定对应的匹配社区。匹配社区表明，该社区与参照用户账号列表中各用户账号的匹配度最高。

具体地，根据比例确定与参照用户列表对应的匹配社区，包括：当参照用户账号例表中属于同一个社区的比例超过阈值时，将对应的社区作为参照用户列表对应的匹配社区。

例如，社区划分结果划分出N个社区，如果在某个社区内，参照用户账号列表的比例很高，可将该社区作为参照用户列表用户的匹配社区。由于参照用户账号列表中用户账号的标签是已知的，而参照用户账号列表中的用户账号在匹配社区的比例很高，因此，可以将参照用户账号列表的标签作为匹配社区的标签。

一种实施方式中，将网络拓扑结构图中该匹配社区的全部用户账号作为目标用户。

具体地，由于参照用户账号列表的标签作为匹配社区的标签，因而可以将该匹配社区内的所有用户作为标签对应的目标用户。即，目标用户是指根据参照用户列表推测的具有相同标签的用户账号。

如一个应用场景中，需要找到资金网络中的异常用户，则参照用户账号列表可以为一定数量的已经异常用户。其中，异常用户为资金交易异常的用户，如赌博用户和欺诈用户等。在社区结果中划分出了N个社区，通过其他渠道获取到了一批异常用户，如果在这个社区内，异常用户的比例很高，那么这个社区就是异常社区，可以认为异常社区内的所有用户为异常用户。

又如在一个应用场景中，需要找到游戏网络中的异常用户，则参照用户账号列表可以为一定数量的已经异常用户。其中，异常用户为在游戏中作弊，使用外挂的用户等。在社区结果中划分出了N个社区，通过其他渠道获取到了一批异常用户，如果在这个社区内，异常用户的比例很高，那么这个社区就是异常社区，可以认为异常社区内的所有用户为异常用户。

采用该方法，结合社区划分结果，利用一定数量的参照用户账号，就可以匹配社区，进而将社区内的全部用户作为目标用户。该方法无需额外的用户属性特征和模型训练，就能够找到目标用户，相比传统的需要利用用户属性进行模型训练确定目标用户的方法而言，例如根据用户属性进行聚类训练，该方法是一种无监督的模型，无需模型训练，提高了数据处理效率，同时目标用户确定的有效性得到了大幅度提高。

进一步的，采用该方法找到的目标用户，可以用于产品推荐，如向目标用户进行产品推荐。

在另一个实施例中，基于参照用户账号列表找到的匹配社区，还能够用于用户标签的设置。

具体地，获取参照用户账号列表的用户属性，根据用户属性为匹配社区设置用户标签。

本实施例中，参照用户账号列表可以为已知的具有共同属性的用户账号。根据参照用户账号列表的用户属性，确定用户标签，并将该标签作为匹配社区全部用户的标签。该方法可以利用多个不同属性的参照用户账号列表，为全部的用户设置标签。由于参照用户账号列表的用户数量基数小，使得标签确定的计算量减少，提高了标签设置的效率。

图2为一个实施例中数据处理方法的流程示意图。应该理解的是，虽然图2的流程图中的各个步骤按照箭头的指示依次显示，但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明，这些步骤的执行并没有严格的顺序限制，这些步骤可以以其它的顺序执行。而且，图2中的至少一部分步骤可以包括多个子步骤或者多个阶段，这些子步骤或者阶段并不必然是在同一时刻执行完成，而是可以在不同的时刻执行，这些子步骤或者阶段的执行顺序也不必然是依次进行，而是可以与其它步骤或者其它步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。

一种数据处理装置，如图5所示，所述装置包括：

拓扑图模块502，用于获取网络拓扑结构图；

分配模块504，用于为所述网络拓扑结构图的各节点分配节点标识；

推送模块506，用于将所述节点标识和所述网络拓扑结构图发送至参数服务器，由参数服务器根据所述节点标识和所述网络拓扑结构图初始化节点参数和社区参数；

节点处理模块508，用于将所述网络拓扑图中的每个节点作为一个社区；

划分模块510，用于对各节点，根据节点标识从参数服务器中获取对应的节点参数和社区参数，计算每个节点划分到各邻居节点所在社区的模块度增量，并根据模块度增量重新进行社区划分直至所有节点的所属社区不再变化，其中，若最大模块度增量大于0，则将所述节点划分到邻居节点所属社区；若所述最大模块度增量小于或等于0，则保持所述节点归属原社区；

重构模块512，用于根据社区划分结果对网络拓扑结构图进行压缩重构，得到更新的节点参数和社区参数；

推送模块514，用于根据节点标识，将重构后的网络拓扑结构图的节点参数和社区参数发送至参数服务器，由参数服务器根据所述网络节点标识进行对应参数更新；

控制模块516，用于控制划分模块、重构模块和推送模块的数据流转，直至所述网络拓扑结构图的模块度不再变化，得到最终社区划分结果。

上述数据处理装置，基于参数服务器和SPARK服务器的架构，在进行社区划分时，根据节点标识从参数服务器获取每次对节点重新分配时模块度增量所需的节点参数和社区参数，并在完成每轮社区划分时，将节点参数和社区参数推送至参数服务器，在参数服务器上更新参数，从而能够实现参数的局部更新，无需全局更新参数，相对节省了全局参数更新所需的等待时间，提高了社区划分数据处理的效率。

在另一个实施例中，所述划分模块，根据社区密度参数，计算每个节点划分到邻居节点所在社区的模块度增量，其中，所述社区密度参数与社区内节点总数量成负相关，所述社区密度参数与模块度增量呈正相关。

在另一个实施例中，所述重构模块，用于根据社区划分结果，将网络拓扑结构图中属于同一个社区的节点组合成一个新的社区；根据社区划分结果得到更新的节点参数；根据新社区内的各节点参数得到更新的社区参数。

在另一个实施例中，所述分配模块，用于将边的数量超出预设值的节点进行切分；对切分后的网络拓扑结构图的各节点分配节点标识

在另一个实施例中，数据处理装置还包括：

账号信息获取模块，用于从预设数据库中提取用户账号以及各用户账号的行为信息。

构建模块，用于以所述用户账号为节点，根据所述行为信息将具有行为关系为边，得到网络拓扑结构图。

在另一个实施例中，数据处理装置还包括：

参照获取模块，用于获取参照用户账号列表。

比例计算模块，用于确定所述参照用户账号列表中用户账号所属社区的比例。

匹配模块，用于根据所述比例确定与所述参照用户列表对应的匹配社区。

在另一个实施例中，匹配模块，用于当所述参照用户账号例表中属于同一个社区的比例超过阈值时，将对应的社区作为所述参照用户列表对应的匹配社区。

在另一个实施例中，数据处理模块，还包括目标用户确定模块，用于将所述网络拓扑结构图中所述匹配社区的全部用户账号作为目标用户。

在另一个实施例中，数据处理装置还包括：

属性获取模块，用于获取所述参照用户账号列表的用户属性。

标签设置模块，用于根据所述用户属性为所述匹配社区设置用户标签。

图6示出了一个实施例中计算机设备的内部结构图。该计算机设备具体可以是图1中的SPARK服务器。如图6所示，该计算机设备包括该计算机设备包括通过系统总线连接的处理器、存储器和网络接口。其中，存储器包括非易失性存储介质和内存储器。该计算机设备的非易失性存储介质存储有操作系统，还可存储有计算机程序，该计算机程序被处理器执行时，可使得处理器实现数据处理方法。该内存储器中也可储存有计算机程序，该计算机程序被处理器执行时，可使得处理器执行数据处理方法。

本领域技术人员可以理解，图6中示出的结构，仅仅是与本申请方案相关的部分结构的框图，并不构成对本申请方案所应用于其上的计算机设备的限定，具体的计算机设备可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。

在一个实施例中，本申请提供的数据处理装置可以实现为一种计算机程序的形式，计算机程序可在如图6所示的计算机设备上运行。计算机设备的存储器中可存储组成该数据处理装置的各个程序模块，比如，图5所示的拓扑图模块、分配模块和推送模块。各个程序模块构成的计算机程序使得处理器执行本说明书中描述的本申请各个实施例的数据处理方法中的步骤。

例如，图6所示的计算机设备可以通过如图5所示的数据处理装置中的拓扑图模块执行获取网络拓扑结构图的步骤。计算机设备可通过分配模块执行为所述网络拓扑结构图的各节点分配节点标识的步骤。计算机设备可通过推送模块执行将所述节点标识和所述网络拓扑结构图发送至参数服务器，由参数服务器根据所述节点标识和所述网络拓扑结构图初始化节点参数和社区参数的步骤。

在一个实施例中，提供了一种计算机设备，包括存储器和处理器，存储器存储有计算机程序，计算机程序被处理器执行时，使得处理器执行以下步骤：

获取网络拓扑结构图；

为所述网络拓扑结构图的各节点分配节点标识；

将所述网络拓扑图中的每个节点作为一个社区；

根据社区划分结果对网络拓扑结构图进行压缩重构，得到更新的节点参数和社区参数；

根据节点标识，将重构后的网络拓扑结构图的节点参数和社区参数发送至参数服务器，由参数服务器根据所述网络节点标识进行对应参数更新；

在另一个实施例中，计算每个节点划分到邻居节点所在社区的模块度增量的方式，包括：

根据社区密度参数，计算每个节点划分到邻居节点所在社区的模块度增量，其中，所述社区密度参数与社区内节点总数量成负相关，所述社区密度参数与模块度增量呈正相关。

在另一个实施例中，所述根据社区划分结果对网络拓扑结构图进行重构，得到更新的节点参数和社区参数，包括：

根据社区划分结果，将网络拓扑结构图中属于同一个社区的节点组合成一个新的社区；

根据社区划分结果得到更新的节点参数；

根据新社区内的各节点参数得到更新的社区参数。

在另一个实施例中，为所述网络拓扑结构图的各节点分配节点标识，包括：

将边的数量超出预设值的节点进行切分；

对切分后的网络拓扑结构图的各节点分配节点标识。

在另一个实施例中，所述获取网络拓扑结构图的步骤，包括：

从预设数据库中提取用户账号以及各用户账号的行为信息；

以所述用户账号为节点，根据所述行为信息将具有行为关系为边，得到网络拓扑结构图。

在另一个实施例中，计算机程序被处理器执行时，使得处理器还执行以下步骤：

获取参照用户账号列表；

确定所述参照用户账号列表中用户账号所属社区的比例；

根据所述比例确定与所述参照用户列表对应的匹配社区。

在另一个实施例中，根据所述比例确定与所述参照用户列表对应的匹配社区，包括：

当所述参照用户账号例表中属于同一个社区的比例超过阈值时，将对应的社区作为所述参照用户列表对应的匹配社区。

在另一个实施例中，计算机程序被处理器执行时，使得处理器还执行以下步骤：将所述网络拓扑结构图中所述匹配社区的全部用户账号作为目标用户。

获取所述参照用户账号列表的用户属性；

根据所述用户属性为所述匹配社区设置用户标签。

在一个实施例中，提供了一种计算机可读存储介质，存储有计算机程序，计算机程序被处理器执行时，使得处理器执行以下步骤：

获取网络拓扑结构图；

为所述网络拓扑结构图的各节点分配节点标识；

将所述网络拓扑图中的每个节点作为一个社区；

根据社区划分结果得到更新的节点参数；

根据新社区内的各节点参数得到更新的社区参数。

将边的数量超出预设值的节点进行切分；

对切分后的网络拓扑结构图的各节点分配节点标识。

从预设数据库中提取用户账号以及各用户账号的行为信息；

获取参照用户账号列表；

确定所述参照用户账号列表中用户账号所属社区的比例；

根据所述比例确定与所述参照用户列表对应的匹配社区。

获取所述参照用户账号列表的用户属性；

根据所述用户属性为所述匹配社区设置用户标签。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的程序可存储于一非易失性计算机可读取存储介质中，该程序在执行时，可包括如上述各方法的实施例的流程。其中，本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用，均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限，RAM以多种形式可得，诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。

以上实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

以上所述实施例仅表达了本申请的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对本申请专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本申请构思的前提下，还可以做出若干变形和改进，这些都属于本申请的保护范围。因此，本申请专利的保护范围应以所附权利要求为准。

Claims

1.一种数据处理方法，包括：

获取网络拓扑结构图；

为所述网络拓扑结构图的各节点分配节点标识；

将所述网络拓扑图中的每个节点作为一个社区；

2.根据权利要求1所述的方法，其特征在于，计算每个节点划分到邻居节点所在社区的模块度增量的方式，包括：

3.根据权利要求1所述的方法，其特征在于，所述根据社区划分结果对网络拓扑结构图进行重构，得到更新的节点参数和社区参数，包括：

根据社区划分结果得到更新的节点参数；

根据新社区内的各节点参数得到更新的社区参数。

4.根据权利要求1所述的方法，其特征在于，为所述网络拓扑结构图的各节点分配节点标识，包括：

将边的数量超出预设值的节点进行切分；

对切分后的网络拓扑结构图的各节点分配节点标识。

5.根据权利要求1所述的方法，其特征在于，所述获取网络拓扑结构图的步骤，包括：

从预设数据库中提取用户账号以及各用户账号的行为信息；

6.根据权利要求1所述的方法，其特征在于，所述方法还包括：

获取参照用户账号列表；

确定所述参照用户账号列表中用户账号所属社区的比例；

根据所述比例确定与所述参照用户列表对应的匹配社区。

7.根据权利要求6所述的方法，其特征在于，根据所述比例确定与所述参照用户列表对应的匹配社区，包括：

8.根据权利要求6所述的方法，其特征在于，所述方法还包括：将所述网络拓扑结构图中所述匹配社区的全部用户账号作为目标用户。

9.根据权利要求6所述的方法，其特征在于，所述方法还包括：

获取所述参照用户账号列表的用户属性；

根据所述用户属性为所述匹配社区设置用户标签。

10.一种数据处理装置，其特征在于，所述装置包括：

拓扑图模块，用于获取网络拓扑结构图；

重构模块，用于根据所述社区划分结果对网络拓扑结构图进行压缩重构，得到更新的节点参数和社区参数；

11.根据权利要求10所述的装置，其特征在于，所述划分模块，根据社区密度参数，计算每个节点划分到邻居节点所在社区的模块度增量，其中，所述社区密度参数与社区内节点总数量成负相关，所述社区密度参数与模块度增量呈正相关。

12.根据权利要求10所述的装置，其特征在于，所述重构模块，用于根据社区划分结果，将网络拓扑结构图中属于同一个社区的节点组合成一个新的社区；根据社区划分结果得到更新的节点参数；根据新社区内的各节点参数得到更新的社区参数。

13.根据权利要求10所述的装置，其特征在于，所述分配模块，用于将边的数量超出预设值的节点进行切分；对切分后的网络拓扑结构图的各节点分配节点标识。

14.一种计算机可读存储介质，存储有计算机程序，所述计算机程序被处理器执行时，使得所述处理器执行如权利要求1至9中任一项所述方法的步骤。

15.一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，所述计算机程序被所述处理器执行时，使得所述处理器执行如权利要求1至9中任一项所述方法的步骤。