CN107743070A

CN107743070A - 一种双属性网络的社群划分方法及装置

Info

Publication number: CN107743070A
Application number: CN201610662465.2A
Authority: CN
Inventors: 潘璐伽; 褚令洋; 裴健
Original assignee: Huawei Technologies Co Ltd
Current assignee: Huawei Technologies Co Ltd
Priority date: 2016-08-12
Filing date: 2016-08-12
Publication date: 2018-02-27
Anticipated expiration: 2036-08-12
Also published as: CN107743070B

Abstract

本发明实施例公开了一种双属性网络的社群划分方法，包括：从双属性网络数据中确定第一种子节点以及第二种子节点，第二种子节点与第一种子节点存在第一关联关系，根据第一种子节点以及第二种子节点分别确定第一社群的节点集合与第二社群的节点集合，其中，第一社群的节点集合中节点之间存在第二关联关系，第二社群的节点集合中节点之间存在第二关联关系，输出各个社群的节点集合。这样，在选择不同社群的种子节点时，种子节点之间首先存在第一关联关系，那么社群之间必然也会存在该第一关联关系，使得社群之间的关联关系更为精确，避免了系统做无谓的划分，提高了系统资源的利用率。

Description

一种双属性网络的社群划分方法及装置

技术领域

本发明涉及网络结构领域，尤其涉及一种双属性网络的社群划分方法及装置。

背景技术

双属性网络是指节点之间存在两种关联关系的网络结构，节点可以是终端，也可以是服务器等具备网络连接的智能设备。双属性网络广泛存在于网络应用中，下面以两个应用场景进行举例说明。

1、在互联网场景下对网络病毒传播监控：计算机病毒的经典传播模式包括两种：1)近邻感染；2)远程传播。病毒在局域网中的近邻感染特性会导致受感染的终端在网络结构中呈现出自然的社群化模式，而病毒在不同局域网之间的远程传播会使得不同受感染社群之间具有较为紧密的关联关系。由于病毒在近邻感染和远程传播这两种状态下会呈现两种不同的网络行为，所以计算机病毒的传播网络是一种天然的双属性网络。快速有效的划分出双属性网络中的多社群关联结构能够有效监测网络病毒的传染趋势，从而进一步提升网络安全性。

2、在社交网络场景下对社交网络舆情分析：随着移动互联网和社交网络的高速发展，人人都能发表个人观点并评论他人观点的自媒体时代已经悄然来临。社会热点话题的多面性导致现有社交网络呈现出天然的双属性网络结构，即：人和人之间具有“友好”和“敌对”两种关系类型。在这种双属性网络中检测多社群关联结构能够有效挖掘社会热点话题以及参与热点话题讨论的相关人群，从而有效监控社会舆情动向。

在现有的双属性网络的社群划分方法中，是根据一种关联关系将整个双属性网络划分为多个不重合的类簇(cluster)，即社群，比如在整个双属性网络中随机选多个种子节点，再根据多个种子节点将周围与该种子节点存在同样关联关系的节点划分为同一社群。这种划分方式有可能使得多个社群之间的关联关系与社群内节点之间的关联关系相同，比如，均为“友好”关系，这样导致划分没有太大意义，浪费了系统资源。

发明内容

本发明提供了一种双属性网络的社群划分方法及装置，用于划分出关联程度更为有效紧密的社群，提高系统的资源利用率。

本发明第一方面提供一种双属性网络的社群划分方法，包括：

获取双属性网络数据，从双属性网络数据中确定存在第一关联关系的第一种子节点与第二种子节点，根据第一种子节点以及第二种子节点分别确定第一社群的节点集合与第二社群的节点集合，其中，每个社群的节点集合中节点之间存在第二关联关系，输出第一社群与第二社群的节点集合。根据该输出结果进行控制网络节点的通信或者控制网络节点的信息发送。

这样，在选择不同社群的种子节点时，种子节点之间首先存在第一关联关系，那么社群之间必然也会存在该第一关联关系，使得社群之间的关联关系更为精确，避免了系统做无谓的划分，提高了系统资源的利用率。在选择集合中的节点时，节点之间的关联关系已经确定，避免了后续多次进行节点之间关联关系的调整，减少了社群更新的次数，提高了社群划分的速率。

在一种可能的实现方式中，根据第一种子节点以及第二种子节点分别确定第一社群的节点集合与第二社群的节点集合具体可以为：

以第一种子节点作为第一关联节点，将与第一种子节点存在第二关联关系的第一候选节点增加至第一社群的节点集合中，以第二种子节点作为第二关联节点，将与第二种子节点存在第二关联关系的第二候选节点增加至第二社群的节点集合中，完成一次社群的更新，再继续以每个社群中新增的节点作为关联节点，继续添加与新增的节点存在第二关联关系的其它节点到社群的节点集合中。

这样，每一轮为社群添加新的节点，均是多个社群同步添加，使得社群内的节点数目比较均衡，使得社群划分更为合理。

在另一种可能的实现方式中，该方法还包括：

每增加一次候选节点后计算一次关联程度值，关联程度值用于指示社群与社群之间的关联程度以及社群的节点集合中节点与节点之间的关联程度；

比较每次关联程度值的增幅值，当增幅值小于预设阈值时，停止给第一社群的节点集合以及第二社群的节点集合增加候选节点。

当整个双属性网络中的节点数比较多时，若将所有的节点都加入到社群中，则会消耗很大的资源，且有的节点可能无法被划分到社群中。因此，可以通过设置更新社群的停止条件，该条件可以为判断当前的社群更新是否稳定，当关联程度的增幅比较小时，则可以确定此次的社群更新比较稳定，则不需要继续更新社群，这样，节省了系统资源。

在另一种可能的实现方式中，在从双属性网络数据中确定第一种子节点以及第二种子节点之前，该方法还包括：

获取社群参考数k，k大于2；

以第一种子节点作为第1个种子节点，以第二种子节点作为第2个种子节点，依次确定k-2个种子节点，其中，任意一个种子节点与其它所有种子节点均存在第一关联关系，以第一社群作为第1个社群，以第二社群作为第2个社群，根据k-2个种子节点依次确定k-2个社群的节点集合，具体确定社群的方式与上述方式相同，均可以确定每个社群更新时为稳定状态时的节点集合。

这样，可以实现进行两个以上的社群划分，提高了社群划分的实用性。

在另一种可能的实现方式中，方法还包括：

获取社群比较参考数m，m大于2，以第一社群作为第1个社群，以第二社群作为第2个社群，将第1个社群的节点集合与第2个社群的节点集合作为第一划分结果，确定第一划分结果所对应的第一关联程度值，第一划分结果的社群数为2，以增量为1依次调整社群数，并依次重新确定社群数为3至社群数为m的多个划分结果，依次计算出多个划分结果所对应的多个关联程度值，从多个关联程度值以及第一关联程度值中确定最大的关联程度值；确定最大的关联程度值所对应的目标社群数，输出目标社群数所对应的划分结果。

由于将整个双属性网络划分的社群数的不同，其对应的整体关联程度也不同，整体关联程度值越高，则表示划分的结果越好，因此，可以将整个双属性网络进行多次划分，并分别计算每次划分的关联程度值，确定出哪种划分方式的关联程度值更高，则输出相对应的结果。比如整个双属性网络划分为2个社群，计算得到整体划分的关联程度值，再重新将该双属性网络划分为3个社群，计算得到整个划分的关联程度值，比较这两个划分方式所对应的关联程度值哪个更高，若是划分为3个社群的关联程度值更高，则输出该划分方式的划分结果，即，所输出的社群的节点集合包括3个社群的节点集合。

本发明实施例第二方面提供一种双属性网络的社群划分装置，包括：

确定单元，用于从双属性网络数据中确定第一种子节点以及第二种子节点，第二种子节点与第一种子节点存在第一关联关系；

确定单元还用于，根据第一种子节点以及第二种子节点分别确定第一社群的节点集合与第二社群的节点集合，其中，第一社群的节点集合包含第一种子节点，第一社群的节点集合中节点之间存在第二关联关系；第二社群的节点集合中包含第二种子节点，第二社群的节点集合中节点之间存在第二关联关系；

输出单元，用于输出至少两个社群的节点集合，其中至少两个社群中包括第一社群与第二社群。

本发明实施例第三方面提供一种双属性网络的社群划分装置，包括：存储器、收发器以及处理器，存储器、收发器以及处理器通过总线进行连接，该存储器中存储有计算机指令，该处理器通过执行该计算机指令用于实现如下方法：

从双属性网络数据中确定第一种子节点以及第二种子节点，第二种子节点与第一种子节点存在第一关联关系；

从双属性网络数据中确定第一种子节点以及第二种子节点，所述第二种子节点与所述第一种子节点存在第一关联关系；

根据所述第一种子节点以及所述第二种子节点分别确定第一社群的节点集合与第二社群的节点集合，其中，所述第一社群的节点集合包含所述第一种子节点，所述第一社群的节点集合中节点之间存在第二关联关系；所述第二社群的节点集合中包含所述第二种子节点，所述第二社群的节点集合中节点之间存在所述第二关联关系；

输出至少两个社群的节点集合，其中所述至少两个社群包括所述第一社群与所述第二社群。

附图说明

图1为本发明实施例中双属性网络的一个结构示意图；

图2为本发明实施例中双属性网络的社群划分方法的一个流程示意图；

图3为本发明实施例中双属性网络的另一个结构示意图；

图4为本发明实施例中双属性网络的社群划分装置的一个示意图；

图5为本发明实施例中双属性网络的社群划分装置的另一示意图。

具体实施方式

本发明实施例提供了一种双属性网络的社群划分方法及装置，用于划分出关联程度更为有效紧密的社群，提高系统的资源利用率。

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”、“第三”、“第四”等(如果存在)是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的实施例能够以除了在这里图示或描述的内容以外的顺序实施。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

参照图1所示，图1为本发明实施例中双属性网络的一个结构示意图，该结构由多个节点组成，节点可以指代终端或者服务器等具有网络连接功能的智能设备，节点之间存在第一关联关系与第二关联关系。

以社交网络场景为例，我们定义某一社交网络中人与人之间的第二关联关系，即“友好”，关系用实线边连接(I-型边)；第一关联关系，即“敌对”，关系用虚线边连接(II-型边)。为了便于后面的描述，我们对图做如下定义：

双属性网络G＝{U,V,E,A}

节点的下标集合：U＝{1,2,3,…,n}

节点集：V＝{v₁,v₂,v₃,…,v_n}

边集：E＝{(v_i,v_j)|i,j∈[1,n]}

通常，我们会在每条边上添加权值标识节点与节点间的“友好”或“敌对”的程度，通过边的权重矩阵A表示：

I-型边A_ij>0

II-型边A_ij<0

I-型边组成正权值网络A⁺，其中：

II-型边组成负权值网络A^-，其中：A_i,j ^-＝|min(A_i,j,0)|

原始网络A与正权值网络A⁺和负权值网络A^-之间的关系：A＝A⁺-A^-。

关于社群的表示：

我们可以定义矩阵X用于表示具有k个社群的关联关系。矩阵X的维度为n行k列。X_j表示第j列，用于表示第j个社群S_j。X_ij为第i行第j列，对应第i个节点v_i在第j个社群S_j中的权重。X_ij>0表示v_i属于社群S_j。X_ij<0表示v_i不属于社群S_j。矩阵X每列的约束条件为：X_j∈Δⁿ，Δⁿ＝{x|∑_(i＝1) ⁿx_i＝1,x_i≥0}。S_j为社群节点集合，表示为：S_j＝{i∈U|X_ij>0}。需要说明的是，图1所示的双属性网络结构同样适用于网络病毒传播的网络场景以及其它具有双属性网络的场景，上述距离并非对本发明应用场景的限定。

参照图2所示，本发明实施例中双属性网络的社群划分方法的一个实施例包括：

101、从双属性网络数据中确定第一种子节点以及第二种子节点，所述第二种子节点与所述第一种子节点存在第一关联关系。

在对双属性网络的社群划分中，应该至少划分出两个社群，而两个社群之间的关联关系应该与单个社群内部节点之间的关联关系不同，这样划分才有意义，因此，首先需要确定两个节点分别作为两个社群的种子节点，而这两个种子节点之间需要存在第一关联关系，即“敌对”关系。

可选地，从双属性网络数据中确定第一种子节点以及第二种子节点，具体可以为：

根据双属性网络数据中每个节点的第一关联度计算出每个节点的第一选择概率，其中，所述第一关联度为节点之间存在所述第二关联关系的关联度。

无论节点之间是存在“友好”关联关系还是“敌对”关联关系，使其连接的边都存在一个关联度，关联度通过权值A表示，我们会在每条边上添加权值标识节点与节点间的“友好”或“敌对”的关联程度，可以分别通过权值A⁺和A^-表示。

参照图3所示，图3为一个双属性网络结构示意图，包括6个节点，节点的下标序号分别从1-6，节点之间的每条连接边都生成有关联度，整数表示其为“友好”关系，数值越大，则表示两个节点之间的“友好度”越高；负数表示其为“敌对”关系，数值越小，则表示两个节点之间的“敌对度”越高。

对于每个节点的选择概率计算可以具体为：先计算正权值网络A+中的节点的度d⁺＝[d₁ ⁺,…,d_n ⁺]，其中d_i ⁺＝∑_(j＝1) ⁿA_(i,j) ⁺。

举例：在图3中，d₁ ⁺＝6+2＝8，d₂ ⁺＝15，…,d⁺＝[8,15,11,11,8,9]。

使用Roulette方法选择种子节点h₁＝Roul(d⁺)，并加入η。

Roulette方法为：

对节点集合{v_h|h∈[1,n]}中的任意节点，以概率p_h＝(d_h ⁺)/(∑_(i＝1) ⁿd_h ⁺)，进行一次采样，并返回采样得到的一个节点作为结果。以图3为例，对应于节点集合V＝{v₁,v₂,v₃,v₄,v₅,v₆}的采样概率分布为p＝[0.129,0.242,0.177,0.177,0.129,0.145]。

根据所述第一选择概率选择出第一种子节点；

以该分布概率作为选择概率对节点集合V进行单次随机采样，并返回被抽中的节点下标作为结果。比如，选中了该分部概率中最高的第2个节点。

根据与所述第一种子节点存在所述第一关联关系的每个节点的第二关联度计算出第二选择概率；

根据所述第二选择概率选择出第二种子节点。

在确定第一种子节点之后，则可以根据第一种子节点确定第二种子节点，由于第一种子节点与第二种子节点分属不同的社群，所以第二种子节点必须与第一种子节点存在第一关联关系，即“敌对”关系。具体选择如下：

利用负权值网络A^-计算特征向量O^-＝[o₁ ^-,…,o_n ^-]，其中

o_i ^-＝{1/(|η|)}∑(j∈η)A_(i,j) ^-。

如图3所示，为便于计算，设图3中所有的虚线边权重均为-1，且已选择第一种子节点h₁＝Roul(d+)时所选节点为v₂,则此时有η＝{2}，且|η|＝1。然后，依据公式o_i ^-＝{1/(|η|)}∑(j∈η)A_(i,j) ^-进行计算可得O^-＝[0,0,0,1,1,1]。

选择种子节点h_l＝Roul(O^-)，并加入η；

按照O^-＝[0,0,0,1,1,1]计算出的对应于节点集合V＝{v₁,v₂,v₃,v₄,v₅,v₆}的概率分布为p＝[0,0,0,0.333,0.333,0.333]。根据公式hl＝Roul(O^-)，此时将按照概率分布p对节点集合V进行单次随机采样，并返回抽中的节点下标作为结果。

这样，根据上述的选择概率来选择种子节点提高了种子节点的选择合理性，提高普适性。

102、根据所述第一种子节点以及所述第二种子节点分别确定第一社群的节点集合与第二社群的节点集合，其中，所述第一社群的节点集合包含所述第一种子节点，所述第一社群的节点集合中节点之间存在第二关联关系；所述第二社群的节点集合中包含所述第二种子节点，所述第二社群的节点集合中节点之间存在所述第二关联关系；

在确定了两个社群的种子节点之后，则可以将各自社群中与种子节点存在第二关联关系的候选节点加入到社群中，即，将种子节点周围的“友好”候选节点加入到社群当中，并组成社群的节点集合。

可选地，根据所述第一种子节点以及所述第二种子节点分别确定第一社群的节点集合与第二社群的节点集合具体可以为：

以所述第一种子节点作为第一关联节点，将第一候选节点增加至包含所述第一种子节点的第一社群的节点集合中，所述第一候选节点与所述第一关联节点存在所述第二关联关系；

以所述第二种子节点作为第二关联节点，将第二候选节点增加至包含所述第二种子节点的第二社群的节点集合中，所述第二候选节点与所述第二关联节点存在所述第二关联关系；

以所述第一候选节点作为所述第一关联节点，将与所述第一关联节点存在所述第二关联关系的其它候选节点增加至所述第一社群的节点集合中；

以所述第二候选节点作为所述第二关联节点，将与所述第二关联节点存在所述第二关联关系的其它候选节点增加至所述第二社群的节点集合中。

以上增加候选节点的方式为一个循环增加方式，即先以每个社群中的种子节点作为关联节点，将与该关联节点存在“友好”关系的候选节点加入到社群中，再以该候选节点作为关联节点，将与该候选节点存在“友好”关系的其它节点加入到社群中，当双属性网络中所有的节点都增加划分到社群中，后，则停止更新社群。

需要说明的是，为了使得社群的划分更为合理均衡，每次增加候选节点均是所有社群同时增加，并非一个社群增加多次候选节点后，再开始另一个社群增加候选节点。

在实际应用中，双属性网络中可能存在很多个节点，若将所有的节点都划分到社群中，这样会消耗很大的系统资源，而且，其中有的节点的关联程度并不大，比如，某节点只与另一个节点存在敌对关系，而与其它节点不存在友好关系，那么，该节点则无法被划分到任意一个社群当中，所以该节点则不需要被划分到社群当中。因此，在另一种实现方式中，本发明实施例还提供了控制社群更新的方法，具体如下：

每增加一次候选节点后计算社群的节点集合的关联程度值；

比较每次关联程度值的增幅值，当所述增幅值小于预设阈值时，停止给所述第一社群的节点集合以及所述第二社群的节点集合增加候选节点。

我们在进行社群划分时，需要获得较好的效果，即社群内友好程度最大，社群间敌对程度最大。因此我们定义了一些指标对其进行描述。

k个社群的集合表示为：S＝{S₁，S₂，S₃，…,S_k}。k为预定义需要划分的社群数量。

社群内部I-型边连接密度表示为：g⁺(S)＝∑_(j＝1) ^kg⁺(Xj)＝tr(X^TA⁺X)。

社群间II-型边连接密度表示为：g^-(S)＝∑_(h≠j)g^-(X_h,X_j)＝(tr)(X^TA^-X)。

多社群总体关联关系表示为：F(X)＝g⁺(S)+αg^-(S)-β(tr)(X^TX)＝tr(X^TA⁺X)+(tr)(X^THX)，H＝(αA^--βI)。

评价一个双属性网络的社群划分有关联程度值F(X)来衡量，F(X)的值越大，表示划分得越好。

另外F(X)的增幅还可以表示该社群的更新是否稳定，若增幅小于预设阈值，比如10^-7，则表示此次对社群的候选节点的增加处于比较稳定状态，则无需再继续增加候选节点，更新社群。其中，10^-7并非是对该预设阈值的限定，具体的值可以根据实际应用来确定，若系统的性能比较好，或者实际要求单个社群内的节点数较多，则可以将该阈值设置的比较小，但是可能时间消耗比较多；若系统的性能比较差，或者实际要求单个社群内的节点数较少，则可以将该预设阈值设置的比较大，这样，所消耗的时间则比较少。可选的，该阈值的取值范围可以为10^-5～10^-9。

103、输出各个社群的节点集合。

在确定了各个社群中的节点集合后，则输出该划分结果，则可以根据该结果对双属性网络中进行病毒防护，或者网络信息的推送。

在本发明实施例中，从双属性网络数据中确定第一种子节点以及第二种子节点，第二种子节点与第一种子节点存在第一关联关系；根据第一种子节点以及第二种子节点分别确定第一社群的节点集合与第二社群的节点集合，其中，第一社群的节点集合包含第一种子节点，第一社群的节点集合中节点之间存在第二关联关系；第二社群的节点集合中包含第二种子节点，第二社群的节点集合中节点之间存在第二关联关系；输出第一社群的节点集合以及第二社群的节点集合。这样，在选择不同社群的种子节点时，种子节点之间首先存在第一关联关系，那么社群之间必然也会存在该第一关联关系，使得社群之间的关联关系更为精确，避免了系统做无谓的划分，提高了系统资源的利用率。在选择集合中的节点时，节点之间的关联关系已经确定，避免了后续多次进行节点之间关联关系的调整，减少了社群更新的次数，提高了社群划分的速率。

图2实施例描述了对双属性网络进行两个社群的划分，可选地，本发明所提供的方法还能够进行两个以上社群的划分，具体如下：

在从双属性网络数据中确定第一种子节点以及第二种子节点之前，所述方法还包括：

获取社群参考数k，所述k大于2。

不同社群数目的划分，所得到的划分结果也不同，而其划分效果也不同，具体的可以根据实际需要而定。

在所述从双属性网络数据中确定第一种子节点以及第二种子节点之后，所述方法还包括：

以所述第一种子节点作为第1个种子节点，以所述第二种子节点作为第2个种子节点，依次确定k-2个种子节点，其中，任意一个种子节点与其它所有种子节点均存在所述第一关联关系，所述任意一个种子节点包含所述第1个种子节点以及所述第2个种子节点；

以所述第一社群作为第1个社群，以所述第二社群作为第2个社群，根据所述k-2个种子节点依次确定k-2个社群的节点集合。

由于社群与社群之间必然存在有“敌对”关系，因此每个社群中的种子节点必须与其它社群的种子节点均存在“敌对”关系。比如，k为3，那么在确定了两个社群的种子节点后，先确定第3个社群的种子节点，第3个社群的种子节点与所确定了的两个种子节点均存在“敌对”关系。若k为4，那么在确定了三个社群的种子节点后，先确定第4个社群的种子节点，第4个社群的种子节点与所确定了三个种子节点均存在“敌对”关系。然后按照上述增加方式为每个社群增加候选节点。

上述实施例描述了通过关联关系函数F(X)的值可以表示所划分的社群的效果，那么具体划分多少个社群使得划分效果更佳也尤为重要。结合上述实施例，在另一可选实施例中，本发明所提供的方法还可以包括：

获取社群比较参考数m，所述m大于2；

以所述第一社群作为第1个社群，以所述第二社群作为第2个社群，将所述第1个社群的节点集合与所述第2个社群的节点集合作为第一划分结果，确定所述第一划分结果所对应的第一关联程度值，所述第一划分结果的社群数为2；

以增量为1依次调整社群数，并依次重新确定社群数为3至社群数为m的多个划分结果；

依次计算出所述多个划分结果所对应的多个关联程度值；

从所述多个关联程度值以及所述第一关联程度值中确定最大的关联程度值；

确定所述最大的关联程度值所对应的目标社群数；

本发明实施例中，可以通过预先设置一个社群比较参考数m，分别计算出划分为2个社群、3个社群…直到k个社群的划分结果，再计算每种划分方式所得到的结果的关联程度F(X)的值，选出其中最大的F(X)的值，确定该最大的F(X)的值所对应的划分方式为目标社群数的划分方式，那么则输出以该社群数目划分方式所得到的结果。

比如，m为4，先计算出划分2个社群所得到的第一划分结果，将该第一划分结果代入F(X)中计算得到第一F(X)的值；再重新将双属性网络划分为3个社群，计算出划分3个社群所得到的第二划分结果，将该第二划分结果代入F(X)中计算得到第二F(X)的值；再重新将双属性网络划分为4个社群，计算出划分4个社群所得到的第三划分结果，将该第三划分结果代入F(X)中计算得到第三F(X)的值。比较出第一F(X)的值、第二F(X)的值、第三F(X)的值中最大那个，确定最大的F(X)的值的社群数的划分方式，以该划分方式作为优选划分方式，并输出该划分方式的结果。比如第二F(X)的值最大，那么所对应的是划分3个社群时所得到的划分结果，则输出划分3个社群时每个社群中的节点集合。这样，进行多种划分方式的相互比较，选出效果更优的划分方式，提高了社群划分的结果的优秀率，也使得后续使用该划分结果更为精准。

参照图4所示，本发明实施例中双属性网络的社群划分装置的一个实施例包括：

确定单元201，用于从双属性网络数据中确定第一种子节点以及第二种子节点，所述第二种子节点与所述第一种子节点存在第一关联关系；

所述确定单元201还用于，根据所述第一种子节点以及所述第二种子节点分别确定第一社群的节点集合与第二社群的节点集合，其中，所述第一社群的节点集合包含所述第一种子节点，所述第一社群的节点集合中节点之间存在第二关联关系；所述第二社群的节点集合中包含所述第二种子节点，所述第二社群的节点集合中节点之间存在所述第二关联关系；

输出单元202，用于输出至少两个社群的节点集合，其中所述至少两个社群包括所述第一社群与所述第二社群。

可选地，所述确定单元201具体用于：

以所述第一种子节点作为第一关联节点，将第一候选节点增加至所述第一社群的节点集合中，所述第一候选节点与所述第一关联节点存在所述第二关联关系；

以所述第二种子节点作为第二关联节点，将第二候选节点增加至所述第二社群的节点集合中，所述第二候选节点与所述第二关联节点存在所述第二关联关系；

可选地，所述装置还包括：

计算单元203，用于每增加一次候选节点后计算一次关联程度值，所述关联程度值用于指示社群与社群之间的关联程度以及社群的节点集合中节点与节点之间的关联程度；

控制单元204，用于比较每次关联程度值的增幅值，当所述增幅值小于预设阈值时，停止给所述第一社群的节点集合以及所述第二社群的节点集合增加候选节点。

可选地，所述装置还包括：

获取单元205，用于在所述确定单元从双属性网络数据中确定第一种子节点以及第二种子节点之前，获取社群参考数k，所述k大于2；

所述确当单元201具体还用于，以所述第一种子节点作为第1个种子节点，以所述第二种子节点作为第2个种子节点，依次确定k-2个种子节点，其中，任意一个种子节点均与其它所有种子节点均存在所述第一关联关系，所述任意一个种子节点包含所述第1个种子节点以及所述第2个种子节点；

确当单元201具体还用于：

以所述第一社群作为第1个社群，以所述第二社群作为第2个社群，根据所述k-2个种子节点依次确定k-2个社群的节点集合；

所述输出单元202具体用于：

输出第1个社群至第k个社群的节点集合。

可选地，所述获取单元205，还用于获取社群比较参考数m，所述m大于2；

所述确当单元201具体还用于，以所述第一社群作为第1个社群，以所述第二社群作为第2个社群，将所述第1个社群的节点集合与所述第2个社群的节点集合作为第一划分结果，确定所述第一划分结果所对应的第一关联程度值，所述第一划分结果的社群数为2；

所述确当单元201具体还用于，以增量为1依次调整社群数，并依次重新确定社群数为3至社群数为m的多个划分结果；

所述计算单元203具体还用于，依次计算出所述多个划分结果所对应的多个关联程度值；

所述确当单元201具体还用于，从所述多个关联程度值以及所述第一关联程度值中确定最大的关联程度值；

所述确当单元201具体还用于，确定所述最大的关联程度值所对应的目标社群数；

所述输出单元202具体还用于：

输出所述目标社群数所对应的划分结果。

可选地，所述确定单元201具体还用于：

根据每个节点的第一关联度计算出每个节点的第一选择概率，其中，所述第一关联度为节点之间存在所述第二关联关系的关联度；

根据所述第一选择概率选择出第一种子节点；

根据所述第二选择概率选择出第二种子节点。

图4的装置实施例的具体描述可以参照图2实施例以及图2的可选实施例的方法部分的描述，此处不做赘述。

参照图5所示，图4的双属性网络的社群划分装置的另一种实现方式包括：存储器301、收发器302以及处理器303，存储器301、收发器302以及处理器303通过总线304进行连接，该存储器301中存储有计算机指令，该处理器303通过执行该计算机指令用于实现图2实施例以及图2的可选实施例中所示的方法步骤。其中，收发器302可以包括发送器与接收器，存储器301、收发器302以及处理器303可以实现图4实施例中各个单元的功能。

本发明实施例还提供了一种存储介质，该存储介质存储有计算机指令，该计算机指令被执行时用于实现图2实施例以及图2的可选实施例中所示的方法步骤。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的系统，装置和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

在本申请所提供的几个实施例中，应该理解到，所揭露的系统，装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本发明各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-OnlyMemory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述，以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种双属性网络的社群划分方法，其特征在于，所述方法包括：

2.根据权利要求1所述的方法，其特征在于，所述根据所述第一种子节点以及所述第二种子节点分别确定第一社群的节点集合与第二社群的节点集合具体包括：

3.根据权利要求2所述的方法，其特征在于，所述方法还包括：

每增加一次候选节点后计算一次关联程度值，所述关联程度值用于指示社群与社群之间的关联程度以及社群的节点集合中节点与节点之间的关联程度；

4.根据权利要求1至3其中任意一项所述的方法，其特征在于，在所述从双属性网络数据中确定第一种子节点以及第二种子节点之前，所述方法还包括：

获取社群参考数k，所述k大于2；

在根据所述第一种子节点以及所述第二种子节点分别确定第一社群的节点集合与第二社群的节点集合之后，所述方法还包括：

所述输出至少两个社群的节点集合，包括：

输出第1个社群至第k个社群的节点集合。

5.根据权利要求3所述的方法，其特征在于，所述方法还包括：

获取社群比较参考数m，所述m大于2；

依次计算出所述多个划分结果所对应的多个关联程度值；

确定所述最大的关联程度值所对应的目标社群数；

所述输出至少两个社群的节点集合，包括：

输出所述目标社群数所对应的划分结果。

6.根据权利要求1至5其中任意一项所述的方法，其特征在于，所述从双属性网络数据中确定第一种子节点以及第二种子节点，包括：

根据所述第一选择概率选择出第一种子节点；

根据所述第二选择概率选择出第二种子节点。

7.一种双属性网络的社群划分装置，其特征在于，所述装置包括：

确定单元，用于从双属性网络数据中确定第一种子节点以及第二种子节点，所述第二种子节点与所述第一种子节点存在第一关联关系；

所述确定单元还用于，根据所述第一种子节点以及所述第二种子节点分别确定第一社群的节点集合与第二社群的节点集合，其中，所述第一社群的节点集合包含所述第一种子节点，所述第一社群的节点集合中节点之间存在第二关联关系；所述第二社群的节点集合中包含所述第二种子节点，所述第二社群的节点集合中节点之间存在所述第二关联关系；

输出单元，用于输出至少两个社群的节点集合，其中所述至少两个社群包括所述第一社群与所述第二社群。

8.根据权利要求7所述的装置，其特征在于，所述确定单元具体用于：

9.根据权利要求8所述的装置，其特征在于，所述装置还包括：

计算单元，用于每增加一次候选节点后计算一次关联程度值，所述关联程度值用于指示社群与社群之间的关联程度以及社群的节点集合中节点与节点之间的关联程度；

控制单元，用于比较每次关联程度值的增幅值，当所述增幅值小于预设阈值时，停止给所述第一社群的节点集合以及所述第二社群的节点集合增加候选节点。

10.根据权利要求7至9其中任意一项所述的装置，其特征在于，所述装置还包括：

获取单元，用于在所述确定单元从双属性网络数据中确定第一种子节点以及第二种子节点之前，获取社群参考数k，所述k大于2；

所述确当单元具体还用于，以所述第一种子节点作为第1个种子节点，以所述第二种子节点作为第2个种子节点，依次确定k-2个种子节点，其中，任意一个种子节点均与其它所有种子节点均存在所述第一关联关系，所述任意一个种子节点包含所述第1个种子节点以及所述第2个种子节点；

确当单元具体还用于：

所述输出单元具体用于：

输出第1个社群至第k个社群的节点集合。

11.根据权利要求9所述的装置，其特征在于，所述装置还包括：

获取单元，用于获取社群比较参考数m，所述m大于2；

所述确当单元具体还用于，以所述第一社群作为第1个社群，以所述第二社群作为第2个社群，将所述第1个社群的节点集合与所述第2个社群的节点集合作为第一划分结果，确定所述第一划分结果所对应的第一关联程度值，所述第一划分结果的社群数为2；

所述确当单元具体还用于，以增量为1依次调整社群数，并依次重新确定社群数为3至社群数为m的多个划分结果；

所述计算单元具体还用于，依次计算出所述多个划分结果所对应的多个关联程度值；

所述确当单元具体还用于，从所述多个关联程度值以及所述第一关联程度值中确定最大的关联程度值；

所述确当单元具体还用于，确定所述最大的关联程度值所对应的目标社群数；

所述输出单元具体还用于：

输出所述目标社群数所对应的划分结果。

12.根据权利要求7至11其中任意一项所述的装置，其特征在于，所述确定单元具体还用于：

根据所述第一选择概率选择出第一种子节点；

根据所述第二选择概率选择出第二种子节点。