CN111444454B

CN111444454B - 一种基于谱方法的动态社团划分方法

Info

Publication number: CN111444454B
Application number: CN202010214082.5A
Authority: CN
Inventors: 张泽
Original assignee: Harbin Engineering University
Current assignee: Harbin Engineering University
Priority date: 2020-03-24
Filing date: 2020-03-24
Publication date: 2023-05-05
Anticipated expiration: 2040-03-24
Also published as: CN111444454A

Abstract

本发明属于社团划分技术领域，具体涉及一种基于谱方法的动态社团划分方法。本发明针对基于结构的划分方法和基于用户的划分方法的不足，提出了采用谱方法进行信息聚合后，再采用三支决策划分模式对社交网络中用户进行社团划分的方式。这样的思路保证了能够充分利用社交网络中结构信息和用户属性信息，能够在一定程度上发现潜在新社团群体，以此划分出更为合理的社团，从而提高社团划分精度。本发明充分利用社交网络中结构信息和用户属性信息，采用三支决策划分策略对用户进行归属划分，能够发掘社交网络中潜在新社团，以此提升社团划分准确度。

Description

一种基于谱方法的动态社团划分方法

技术领域

本发明属于社团划分技术领域，具体涉及一种基于谱方法的动态社团划分方法。

背景技术

随着互联网的发展，社交网络的规模越来越庞大。在社交网络中，用户相当于节点，用户与用户之间的关系相当于边，每个用户有着各自的属性。随着对网络的深入研究，人们发现许多实际网络中都存在着社团结构。近年来，人们发现社团划分不仅仅需要根据拓扑结构，同时也需要用户自身属性信息。实际上，有效利用拓扑结构信息和用户属性信息更有助于发现社团的存在规律。

目前，常用的传统的社团划分方法主要分为基于结构的划分方和基于用户的划分方法，其中应用较多的划分方法有基于节点相似的的划分法、基于节点动态连接度的社团划分方法、基于邻域结构洞的划分方法等。但是这些算法不能够同时利用社交网络中拓扑结构信息和用户信息，造成社团划分结果精度不高的技术问题。

但是绝大多数社团划分方法均采用二支决策划分策略，即对待划分用户做出非此即彼决定，并没有考虑到边缘用户单独成团的可能性。在实际决策中，采用三支决策划分策略更符合人类认知的决策模式，此策略对具有充分把握拒绝或者接受的用户能够有立即做出快速的判断；对于边缘用户不能立即作出决策，采用推迟决策方式。在划分策略上直接采用二支决策划分模式，会导致社交网络中潜在新社团无法被发现的技术问题。

发明内容

本发明的目的在于提供将社交网络中的结构信息和用户兴趣信息进行融合，采用三支决策划分策略，用以解决社团划分结果准确度差问题和不能发现潜在新社团问题的一种基于谱方法的动态社团划分方法。

本发明的目的通过如下技术方案来实现：包括以下步骤：

步骤1：获取社交网络的网络拓补图G＝(V,E,A)，表示社交网络中用户的社交关系，并采用人工标注的方式对预设定K个社团标注种子用户；

所述的网络拓补图G＝(V,E,A)中V代表用户节点集合，|V|＝n表示图上共有n个节点，即用户数量；E代表边集合；A代表用户-用户邻接矩阵；A_ij＝1表示用户i与用户j互为好友且用户i与用户j的步长为1，A_ij＝0表示用户i与用户j非好友关系切用户i与用户j的步长为0；

所述的采用人工标注的方式对预设定K个社团标注种子用户具体为：每个社团中应至少设定一个种子用户，作为初始社团中心，并且在用户-用户邻接矩阵A中加入自环，计算公式为：A＝A+I，其中I是与A同大小的单位矩阵；所述的社团中心表示为：

其中，C_k表示第k个社团的特征向量，即此社团的均值；

表示第k个社团成员第i个特征值的均值；w表示第k个社团成员数量；i代表此社团的第i个用户,i＝1,2,3,…,w；

步骤2：获取社交网络中用户的兴趣标签，构成用户特征u＝{u₁,u₂,…,u_i…,u_M}；将所有的用户兴趣特征构成用户-兴趣评分矩阵X，并对用户兴趣矩阵进行预处理；

所述的用户特征中u代表一个用户的兴趣特征向量，u_i代表用户u对第i个兴趣特征的评分；M为一个用户兴趣特征的个数；所述的用户-兴趣评分矩阵X中X_ij代表第i个用户对第j个兴趣的评分值，i＝1,2,3,…,M；

步骤3：采用谱方法对社交网络中的用户节点进行H阶信息聚合，节点可以融合步长不超过H的节点信息，得到融合邻居信息的用户-兴趣矩阵，即用户特征矩阵；

步骤4：对用户特征矩阵使用三支决策动态阈值K-means聚类算法进行社团划分；用户与社团心中的距离采用的是余弦距离，用户与社团中心余弦距离表示为：

在三支动态阈值K-means聚类过程中引入一个决策阈值α，即社团中心的领域范围，利用K-means聚类算法对用户集进行聚类，并在算法执行的过程中采用余弦距离作为相似性评价指标，引入决策阈值α可以有效的将离群用户对象单独成团，并将其作为新的社团中心参与社团划分，具体步骤如下：

步骤4.1：计算剩余用户数据对象

到各社团中心C_k的余弦距离d(u_i,C_k)，并把他们归类到最近的簇C_j＝{u_i|d(u_i,C_k)≤d(u_i,C_l),j！＝l,,j！＝l,0＜l,j≤k}；

步骤4.2：由函数

得出决策阈值α；

步骤4.3：遍历用户集U中所有对象

当(d(u_i,C_l))＜α，将u_i归类到最近的簇中；当

时，令C_k+1＝{u_i}，更新社团中心点集C，即将u_i当都作为一个新的社团中心并加入到已标记用户集UC中，社团数量更新为k`；

步骤4.4：重新计算每个社团中心中用户对象的均值，作为社团中心的新中心点；

步骤4.5：继续执行步骤4.1～4.4，依据目标函数

设置终止条件和设置最大迭代次数，避免陷入无限循环，输出二支划分结果集C`＝{C₁,C₂,…,C_k`}；

步骤4.6：取所有类样本数量均值的

作为领域大小，由函数

得出q的预测值；

步骤4.7：遍历二支聚类结果集C`＝{C₁,C₂,…,C_k`}中所有类C`_j，取

考虑u_i的q邻域Neig_q(u_i)，即距离该用户最近的q个数据点组成的集合；若

则

步骤4.8：对每一类C`_j，取u_i∈C`_j，考虑u_i的q邻域Neig_q(u_i)；若

则

否则

步骤4.9：通过步骤4.7和步骤4.8得到

和

返回

令

步骤4.10：令

执行步骤4.1～步骤4.5，得到对边界外区域用户的二次聚类结果集C_B＝{C`₁，C`₂，...C`_k`}；

步骤4.11：输出最终社团划分结果集C＝{C_P,C_B}，最终结果集由C_P和C_B构成，结果集C_P中包含了所有经过确定划分的核心区域用户对象，结果集C_B包含了被划分至不确定性边界之外的用户，经过二次确定性划分处理的用户，由此得出最终社团划分结果集C。

本发明还可以包括：

所述的步骤2中需对用户-兴趣评分矩阵进行预处理，对缺失过多兴趣评分项的用户进行舍弃并将此用户从网络拓补图中舍弃，对其他缺失数据进行邻居用户的同兴趣评分均值补全，并且对用户-兴趣评分矩阵进行归一化，矩阵中每一行代表一个用户的兴趣特征向量。

所述的步骤3中，采用谱方法对社交网络中的用户节点信息聚合，信息聚合方程表示如下：

f(X,A)＝σ(aggregate(A,X))

此公式表示一次信息传播过程，经过一次信息聚合，节点可以聚合邻居节点的属性特征，经过非线性激活函数σ(·)变换后，结果为新的用户特征矩阵；经过H次聚合后，用户可以融合步长不超过H的邻居节点的信息；根据六度分离理论和计算量的考虑，H的值不应该超过6；当H＝0时，则此方式变为基于用户属性的社团划分方法；H值越大，节点更能吸收远距离邻居信息，但是会一定程度上忽视近距离邻居信息；

σ(·)为一个非线性函数，可以选择Relu，Tanh函数等，aggregate(·)为聚合函数，表示如下：

aggregate(A,X)＝D^-0.5AD^-0.5X

其中，D是自环邻接矩阵A的度矩阵，其为一个对角矩阵，对角线上元素为：

D_i,i表示度矩阵对角线上元素，

表示A上第i行的元素和，N为A的行数，i＝1,2,3,…,N，j＝1,2,3,…,N，X为用户特征矩阵；D^-0.5表示度矩阵D的每个元素的-0.5次幂，在信息传播的过程中，为了保持聚合特征表示与输入特征保持相同的尺度，故而度矩阵D的每个元素需为-0.5次幂；在计算特征时，在邻接矩阵A左右两侧乘D^-0.5。

本发明的有益效果在于：

本发明针对基于结构的划分方法和基于用户的划分方法的不足，提出了采用谱方法进行信息聚合后，再采用三支决策划分模式对社交网络中用户进行社团划分的方式。这样的思路保证了能够充分利用社交网络中结构信息和用户属性信息，能够在一定程度上发现潜在新社团群体，以此划分出更为合理的社团，从而提高社团划分精度。

附图说明

图1为本发明提供的一种基于谱方法的动态社团划分方法的流程示意图。

图2为社交网络划分拓扑图示例图。

图3为在社交网络拓扑图中使用谱方法进行一阶信息聚合过程实例图。

图4为在社交网络拓扑图中使用谱方法进行二阶信息聚合过程实例图。

具体实施方式

下面结合附图对本发明做进一步描述。

本发明提供一种基于谱方法的动态社团划分方法，方法包括：1)、获取待划分社交网络的拓补结构和节点用户的兴趣评分，分别为用户-用户关系矩阵与用户-兴趣矩阵；2)、采用谱方法对社交网络中的节点进行H阶信息聚合得到用户最终特征矩阵；3)采用基于三支决策划分策略的K-means算法对社团进行聚类划分，最终得到社团划分结果集。本方法充分利用社交网络中结构信息和用户属性信息，采用三支决策划分策略对用户进行归属划分，能够发掘社交网络中潜在新社团，以此提升社团划分准确度。

图3为在社交网络拓扑图中使用谱方法进行一阶信息聚合过程实例图；一阶信息聚合过程中，节点0吸收步长为1邻居节点1、5和17的信息。图4为在社交网络拓扑图中使用谱方法进行二阶信息聚合过程实例图；二阶信息聚合过程中，节点0完成一阶信息聚合后，进行二阶信息聚合能够吸收步长为2的邻居节点2、4、6、8、12和16的信息。

基于社交网络和三支决策的社团划分方法，主要流程为基于谱方法的信息聚合过程，基于三支决策划分模式的K-means算法聚类过程，以此进行社交网络中社团的划分。本方法主要步骤如下：

步骤S1、获取社交网络的网络拓补图G＝(V,E,A)，表示社交网络中用户的社交关系。其中V代表用户节点集合，|V|＝n表示图上共有n个节点，即用户数量，E代表边集合，定义节点之间的链接，即用户与用户之间的直接关系，A代表用户-用户邻接矩阵，A_i,j＝1表示用户i与用户j互为好友且用户i与用户j的步长为1，A_i,j＝0表示用户i与用户j非好友关系切用户i与用户j的步长为0，并采用人工标注的方式对预设定K个社团标注种子用户；

步骤S2、获取社交网络中用户的兴趣标签，构成用户特征u＝{u₁,u₂,…,u_i…,u_M},其中u代表一个用户的兴趣特征向量，u_i代表用户u对第i个兴趣的评分，M为兴趣的个数。将所有的用户兴趣特征构成用户-兴趣评分矩阵X，X_i,j代表第i个用户对第j个兴趣的评分值，i＝1,2,3,…,M，并对用户兴趣矩阵进行预处理；

步骤S3、采用谱方法对社交网络中的用户节点进行H阶信息聚合，节点可以融合步长不超过H的节点信息，最终得到融合邻居信息的用户-兴趣矩阵，即用户特征矩阵；

步骤S4、采用步骤S3中生成的用户特征矩阵，使用三支决策动态阈值K-means聚类算法进行社团划分。该算法中划分用户策略采用三支决策划分模式，通过设定决策阈值α，即社团中心的领域范围，可以实现对社团数量的动态调整，利用社团中心的领域范围对不确定的用户进行二次划分(延迟决策)，算法采用K-means算法为主体，在算法执行的过程中采用余弦距离作为用户与社团中心距离评价指标；

步骤S5、获取社团划分结果集。

在步骤S1中采用人工标注的方式对预设定K个社团，每个社团中应至少设定一个种子用户，作为初始社团中心，社团中心表示为：

其中C_k表示第k个社团的特征向量，即此社团的均值(中心)，

表示第k个社团成员第i个特征值的均值，w表示第k个社团成员数量，i代表此社团的第i个用户,i＝1,2,3,…,w，并且在用户-用户邻接矩阵A中加入自环，计算公式为：A＝A+I，其中I是与A同大小的单位矩阵。。

在步骤S2中需对用户-兴趣评分矩阵进行预处理，对缺失过多兴趣评分项的用户进行舍弃并将此用户从网络拓补图中舍弃，对其他缺失数据进行邻居用户的同兴趣评分均值补全，并且对用户-兴趣评分矩阵进行归一化，矩阵中每一行代表一个用户的兴趣特征向量。

在步骤S3中，采用谱方法对社交网络中的用户节点信息聚合，信息聚合方程表示如下：

f(X,A)＝σ(aggregate(A,X))

此公式表示一次信息传播过程，经过一次信息聚合，节点可以聚合邻居节点的属性特征，经过非线性激活函数σ(·)变换后，结果为新的用户特征矩阵。经过H次聚合后，用户可以融合步长不超过H的邻居节点的信息。根据六度分离理论和计算量的考虑，H的值不应该超过6。当H＝0时，则此方式变为基于用户属性的社团划分方法；H值越大，节点更能吸收远距离邻居信息，但是会一定程度上忽视近距离邻居信息。

aggregate(A,X)＝D^-0.5AD^-0.5X

其中D是自环邻接矩阵A的度矩阵，其为一个对角矩阵，对角线上元素为：

D_i,i表示度矩阵对角线上元素，

表示A上第i行的元素和，N为A的行数，i＝1,2,3,…,N，j＝1,2,3,…,N，X为用户特征矩阵。

其中D^-0.5表示度矩阵D的每个元素的-0.5次幂，在信息传播的过程中，为了保持聚合特征表示与输入特征保持相同的尺度，故而度矩阵D的每个元素需为-0.5次幂。在计算特征时，在邻接矩阵A左右两侧乘D^-0.5，此方法对低度邻居给予较高权，大度邻居以较低权重，在低度邻居比大度邻居能提供更多信息时，此方法更为合理。

在步骤S4中，使用三支动态阈值K-means算法进行社团划分，用户与社团心中的距离采用的是余弦距离，用户与社团中心余弦距离表示为：

用户向量为：u＝{u₁,u₂,…,u_M}，其中u代表一个用户的特征向量，u_i代表用户u对第i个特征的评分，M为一个用户特征数,i＝1,2,3,…,M，其中C_k代表第k个社团中心。

(1)使用已标记用户集UC计算个社团中心集

M为单个用户的特征数,w为第k个社团的成员数量；

(2)计算剩余用户数据对象

到个社团中心C_k的余弦距离d(u_i,C_k)，并把他们归类到最近的簇C_j＝{u_i|d(u_i,C_k)≤d(u_i,C_l),j！＝l,,j！＝l,0＜l,j≤k}；

(3)由函数

得出决策阈值α；

(4)遍历用户集U中所有对象

当(d(u_i,C_l))＜α，将u_i归类到最近的簇中，当

(5)重新计算每个社团中心中用户对象的均值，作为社团中心的新中心点；

(6)继续执行步骤(1)～(5)，依据目标函数

(7)取所有类样本数量均值的

作为领域大小，由函数

得出q的预测值；

(8)遍历二支聚类结果集C`＝{C₁,C₂,…,C_k`}中所有类C`_j，取

考虑u_i的q邻域Neig_q(u_i)，即距离该用户最近的q个数据点组成的集合，若

则

(9)对每一类C`_j，取u_i∈C`_j，考虑u_i的q邻域Neig_q(u_i)，若

则

否则

(10)通过步骤(8)和步骤(9)得到

和

返回

令

(11)令

执行步骤(1)～(6)，得到对边界外区域用户的二次聚类结果集C_B＝{C`₁,C`₂,…,C`_k`}；

(12)输出最终社团划分结果集C＝{C_P,C_B}，最终结果集由C_P和C_B构成，结果集C_P中包含了所有经过确定划分的核心区域用户对象，结果集C_B包含了被划分至不确定性边界之外的用户，经过二次确定性划分处理的用户，由此得出最终社团划分结果集C。

本发明对于基于结构的划分方法和基于用户的划分方法的不足，提出了采用谱方法进行信息聚合后，再采用三支决策划分模式对社交网络中用户进行社团划分的方式。这样的思路保证了能够充分利用社交网络中结构信息和用户属性信息，能够在一定程度上发现潜在新社团群体，以此划分出更为合理的社团，从而提高社团划分精度。

以上所述仅为本发明的优选实施例而已，并不用于限制本发明，对于本领域的技术人员来说，本发明可以有各种更改和变化。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于谱方法的动态社团划分方法，其特征在于，包括以下步骤：

其中，C_k表示第k个社团的特征向量，即此社团的均值；

信息聚合方程为：

f(X,A)＝σ(aggregate(A,X))

此公式表示一次信息传播过程，经过一次信息聚合，节点聚合邻居节点的属性特征，经过非线性激活函数σ(·)变换后，结果为新的用户特征矩阵；经过H次聚合后，用户融合步长不超过H的邻居节点的信息，H的值不超过6；aggregate(·)为聚合函数，表示如下：

aggregate(A,X)＝D^-0.5AD^-0.5X

其中，D是自环邻接矩阵A的度矩阵，其为一个对角矩阵，对角线上元素为

D_i,i表示度矩阵对角线上元素，

表示A上第i行的元素和，N为A的行数，i＝1,2,3,…,N，j＝1,2,3,…,N，X为用户特征矩阵；D^-0.5表示度矩阵D的每个元素的-0.5次幂；

步骤4.1：计算剩余用户数据对象

到各社团中心C_k的余弦距离d(u_i,C_k)，并把他们归类到最近的簇C_j＝{u_i|d(u_i,C_k)≤d(u_i,C_l),j！＝l,0<l,j≤k}；

步骤4.2：由函数

得出决策阈值α；

步骤4.3：遍历用户集U中所有对象

当

将u_i归类到最近的簇中；当

步骤4.5：继续执行步骤4.1～4.4，依据目标函数

步骤4.6：取所有类样本数量均值的

作为领域大小，由函数

得出q的预测值；

则

则

否则

步骤4.9：通过步骤4.7和步骤4.8得到

和

返回

令

步骤4.10：令

执行步骤4.1～步骤4.5，得到对边界外区域用户的二次聚类结果集C_B＝{C`₁,C`₂,…,C`_k`}；

2.根据权利要求1所述的一种基于谱方法的动态社团划分方法，其特征在于：所述的步骤2中需对用户-兴趣评分矩阵进行预处理，对缺失过多兴趣评分项的用户进行舍弃并将此用户从网络拓补图中舍弃，对其他缺失数据进行邻居用户的同兴趣评分均值补全，并且对用户-兴趣评分矩阵进行归一化，矩阵中每一行代表一个用户的兴趣特征向量。