CN114861450A

CN114861450A - 基于潜在表示和图正则非负矩阵分解的属性社区检测方法

Info

Publication number: CN114861450A
Application number: CN202210556524.3A
Authority: CN
Inventors: 尚荣华; 李志远; 王超; 张玮桐; 任晋弘; 焦李成; 赵柯佳; 马文萍
Original assignee: Xidian University; Zhejiang Lab
Current assignee: Xidian University; Zhejiang Lab
Priority date: 2022-05-19
Filing date: 2022-05-19
Publication date: 2022-08-05

Abstract

本发明提出了一种基于潜在表示和图正则非负矩阵分解的属性社区检测方法，主要解决现有方法对于网络中丰富的属性信息利用不充分的问题。方案包括：1)输入网络数据；2)对数据进行处理，计算属性信息的亲和矩阵；3)定义并初始化两个转移矩阵；4)定义并初始化与拓扑图和属性图相关的三个非负矩阵分解因子矩阵；5)设置迭代，获取三个非负矩阵分解因子矩阵和两个转移矩阵的更新公式；6)循环迭代得到更新后的最终节点成员分布矩阵和最终属性类分布矩阵7)根据迭代更新得到的最终矩阵判别节点所属社区，得到社区检测结果并输出。本发明能够充分利用网络中丰富的属性信息，有效提高了社区分布检测的准确度。

Description

基于潜在表示和图正则非负矩阵分解的属性社区检测方法

技术领域

本发明属于计算机技术领域，进一步涉及社区检测方法，具体为一种基于潜在表示和图正则非负矩阵分解的属性社区检测方法，可用于传染病社区传播防控和推荐系统等。

背景技术

随着科学技术的不断进展，对于复杂网络的研究在各个学科的领域受到了广大学者的关注，无论是神经生物学还是统计物理学等，都在研究复杂网络的实际意义。生活中常见的诸如通信网络、交通网络、电力网络和社交网络，类似这样的复杂网络结构已经充斥了我们的生活的各个方面，不仅如此每个网络中的节点都涵盖了许多复杂的信息表述，因此对于复杂网络的属性社区检测已成为当前的一个热门话题。复杂网络的社区结构是指在网络中社区里面的节点是紧密连接的，而社区与社区之间的节点则是稀疏连接的。属性网络的社区检测对于揭示网络的结构、功能和语义有着十分重要的意义。常用的社区检测算法有非负矩阵分解的方法，标签传播的方法，谱聚类的方法，层次聚类的方法，进化计算的方法和深度学习的方法。

与其他用于解决社区检测的模型相比，基于非负矩阵分解的方法(Non-negativeMatrix Factorization，NMF)展示了一些独特的优点：对社区检测结果有更高的可解释性以及更灵活的利用先验信息。比如，给定一个复杂的网络，可以将其表示为一个非负的特征矩阵(邻接矩阵)。通过NMF对该特征矩阵进行分解，得到节点的隶属度矩阵。由于矩阵具有非负约束，因此可以自然地将该矩阵中的每一个元素视为对应社团中对应节点的强度。社区检测本质上是一个聚类问题，其聚类对象是复杂网络中的节点。k-means和谱聚类模型在处理节点聚类问题方面都表现出了较好的效果。因此，NMF可以很自然地用于检测社区。事实上，大多数现有的基于NMF的社区检测方法都是通过提高NMF的聚类能力来获得更好的性能。

然而对于属性网络而言，其网络节点一般包含丰富的信息，例如对于社交网络中，用户一般包含许多属性，比如年龄、性别、职业等等。传统的NMF算法只利用网络的拓扑结构，并不能很好的解决属性网络的复杂属性信息。因此如何有效地融合拓扑结构和属性信息，成为许多研究人员所关注的问题，并且提出了一些解决方法。2018年金第等人在计算机学报的第41卷第7期第1476～1489页发表的文章“面向带属性复杂网络的鲁棒、强解释性社团发现方法”中提出了一种鲁棒、强解释性的社团发现模型RSECD，该模型创新地采用一个带先验的转移概率矩阵来刻画网络社团与内容类簇之间的内在关联，利用非负矩阵分解模型将网络拓扑与节点内容两类信息融入到一个统一的框架。但是，该方法仍然存在不足之处，对于丰富的属性信息，并没有很好的挖掘其中的潜在结构，因此社区检测效果不好。

2021年，Meng Qin等人在Information Sciences第551卷第146～167页发表的文章“Dual-channel hybrid community detection in attributed networks”中也提出了一种属性网络社区检测算法，即双通道混合社区检测(DHCD)，该算法基于分离聚类结构的新视角，融合了网络结构和语义信息，对于不同的网络，采用两种通道来处理社区检测问题。然而这种方法对属性信息也没有深入的探索，仅将其利用非负矩阵分解的方法得到分布结构，没有考虑到属性信息中的节点的潜在关联。

发明内容

本发明的目的在于解决上述现有方法存在的问题，提出一种基于潜在表示和图正则非负矩阵分解的属性社区检测方法，用于解决现有方法中属性网络的节点属性信息丰富程度不一、节点的拓扑信息与属性信息匹配不一致，从而对于网络中丰富的属性信息不能充分利用，导致检测效果不佳的问题。现有方法中通常仅将属性信息作为社区检测中的辅助信息，无法衡量不同网络中拓扑信息和属性信息之间的权重。

实现本发明目的的思路是：首先，将属性网络中的拓扑信息和属性信息分别用非负矩阵分解的模型进行分解，得到节点的成员分布矩阵和节点属性分布矩阵。其次，对属性矩阵构建一个亲和矩阵，利用潜在表示学习的方法得到属性信息的潜在表示。另外，根据马尔可夫转移概率构建一个转移矩阵，将节点成员分布矩阵和属性分布矩阵联系起来。最后，构建以拓扑结构为主导的模型和以属性信息为主导的模型，同时引入图正则项用以引导模型得到更为精确的社区检测。

为实现上述目的，本发明采取的技术方案包括如下步骤：

(1)输入属性网络的相关数据，该数据包括拓扑结构和节点属性信息；令n表示网络的节点数，m表示网络的属性数。属性网络的相关数据集一般包括网络节点的拓扑结构和节点的属性信息，属性网络的基本信息主要包括网络的节点数、网络的边数、节点的属性数以及社区数；

(2)对属性网络中的相关数据进行处理：

根据拓扑结构中网络节点的边信息得到的拓扑矩阵A∈R^n×n，根据节点属性信息得到属性矩阵Z∈R^n×m，并利用属性矩阵Z构建亲和矩阵B∈R^n×n，亲和矩阵中第i行第j列的元素为b_ij：

其中，i,j＝1,2,…,n；z_i和z_j分别表示属性矩阵中的第i行和第j行，即属性矩阵中的第i个节点和第j个节点，σ表示高斯函数的带宽参数，exp(·)表示指数操作；

(3)定义三个非负矩阵分解因子矩阵，并对其进行初始化：

定义与拓扑图相关的非负矩阵分解因子矩阵：节点成员分布矩阵U，并随机初始化为n×k维矩阵；定义与属性图相关的非负矩阵分解因子矩阵：属性类分布矩阵X和属性类描述矩阵Y，并分别随机初始化为n×k维、m×k维的矩阵；

(4)建立节点成员分布矩阵U和属性类分布矩阵X的映射关系：

该步需要建立一种拓扑结构和属性信息之间的映射关系，参考马尔可夫链中的转移概率，定义两个转移矩阵，即第一转移矩阵P和第二转移矩阵Q；将属性类分布矩阵X转化为第一转移矩阵P和节点成员分布矩阵U，即X＝UP，或者将节点成员分布矩阵U转化为第二转移矩阵Q和属性类分布矩阵X，即U＝XQ；并将这两个转移矩阵均随机初始化为k×k维的矩阵，其中k表示网络的社区数；

(5)设定最大迭代次数Max_iter＝100，当前迭代次数为it，并初始化it＝1；

(6)获取三个非负矩阵分解因子矩阵和两个转移矩阵的更新公式：

(6a)定义潜在表示和图正则非负矩阵分解的目标函数公式，即以拓扑结构为主导的目标函数O(U,Y,P)_{LRL_GNMFT}和以属性信息为主导的目标函数O(X,Y,Q)_{LRL_GNMFA}：

其中，α表示O(U,Y,P)_{LRL_GNMFT}目标函数中属性信息的参数，β表示O(X,Y,Q)_{LRL_GNMFA}目标函数中拓扑结构的参数，λ表示潜在表示的影响参数，θ表示图正则参数，

表示为矩阵·的F范数的平方，通过计算两个矩阵差的F范数的平方，以求得两个矩阵的欧氏距离；Tr(·)表示矩阵·的迹，T表示转置操作；L₁＝D₁-A表示拓扑矩阵的拉普拉斯矩阵，D₁表示拓扑矩阵的对角矩阵，L₂＝D₂-B表示亲和矩阵的拉普拉斯矩阵，D₂表示亲和矩阵的对角矩阵，

并且

中的所有元素均为1；

(6b)利用步骤(6a)中定义的目标函数公式，得到节点成员分布矩阵更新公式、属性类分布矩阵更新公式、属性类描述矩阵更新公式和转移矩阵更新公式，具体如下：

拓扑结构为主导的目标函数中的节点成员分布矩阵更新公式：

其中，

和

分别表示第it+1次和第it次迭代下节点成员分布矩阵U的第i行第j列的元素值；

拓扑结构为主导的目标函数中的属性类描述矩阵更新公式：

其中，d＝1,2,…,m，

和

分别表示第it+1次和第it次迭代下属性类描述矩阵Y的第i行第d列的元素值；

拓扑结构为主导的目标函数中的第一转移矩阵更新公式：

其中l,r＝1,2,…,k，

和

分别表示第it+1次和第it次迭代下第一转移矩阵P的第l行第r列的元素值；

属性信息为主导的目标函数中的属性类分布矩阵更新公式：

其中，

和

分别表示第it+1次和第it次迭代下属性类分布矩阵X的第i行第j列的元素值；

属性信息为主导的目标函数中的属性类描述矩阵更新公式：

其中，

和

属性信息为主导的目标函数中的第二转移矩阵更新公式：

其中，

和

分别表示第it+1次和第it次迭代下第二转移矩阵Q的第l行第r列的元素值；

(7)在第it次迭代下，利用步骤(6)中得到的更新公式对三个非负矩阵分解因子矩阵和两个转移矩阵分别进行更新，得到更新后的节点成员分布矩阵、属性类描述矩、第一转移矩阵、属性类分布矩阵、属性类描述矩阵、第二转移矩阵；

(8)判断当前迭代次数it是否达到预先设定的最大迭代次数Max_iter，若是，得到迭代更新后的最终节点成员分布矩阵U'和最终属性类分布矩阵X'，执行步骤(9)；否则，对it加1后返回执行步骤(7)；

(9)社区检测并输出检测结果：

根据迭代更新后的最终节点成员分布矩阵U'或最终属性类分布矩阵X'判别节点所属社区，得到社区检测结果并输出。

本发明与现有方法相比，具有以下优点：

第一、由于本发明对属性信息构建亲和矩阵，用以表示属性信息中的节点关联，然后利用非负矩阵分解的方法对亲和矩阵建立模型，得到属性矩阵的潜在表示；从而充分挖掘节点属性中的潜在信息，有效提高了属性社区检测的准确度。

第二、本发明通过设计转移矩阵建立一种映射关系，可以将节点拓扑信息得到的社区结果分解为节点的属性社区结果和转移矩阵；同理，也可以将节点的属性社区转化为拓扑社区结果和转移矩阵；因此很好的对拓扑信息和属性信息进行融合，进一步提高了社区检测的准确度；

第三、由于本发明对拓扑信息和属性信息分开建立模型，再利用转移矩阵，将两者之间联系起来，分别建立以拓扑结构为主导和以属性信息为主导的两种模型，最后对得到的社区检测结果引入正则化，从而指导模型学习更为准确的社区分配结果。

附图说明

图1是本发明的实现流程图；

图2是本发明与现有方法的社区检测节点分布图以及真实社区的分布图，其中图2(a)为选取的网络Texas的真实社区节点分布图，图2(b)为采用DHCD方法得到的节点的社区分布图，图2(c)为采用本发明得到的节点的社区分布图。

具体实施方式

下面结合附图和具体实施例，对本发明作进一步详细描述。

参照图1，本发明提供的基于潜在表示和图正则非负矩阵分解的属性社区检测方法，具体包括如下步骤：

步骤1：输入属性网络的相关数据，该数据包括拓扑结构和节点属性信息；令n表示网络的节点数，m表示网络的属性数；

步骤2：对属性网络中的相关数据进行处理：

根据拓扑结构中网络节点的边信息得到的拓扑矩阵(即邻接矩阵)A∈R^n×n，根据节点属性信息得到属性矩阵Z∈R^n×m，并利用属性矩阵Z构建亲和矩阵B∈R^n×n；本发明中的亲和矩阵是利用属性矩阵的相关信息来构建的，其目的主要是为了充分挖掘属性信息中的节点的潜在关联，提高社区检测的准确度。

亲和矩阵中第i行第j列的元素为b_ij：

步骤3：定义三个非负矩阵分解因子矩阵，并对其进行初始化：

步骤4：建立节点成员分布矩阵U和属性类分布矩阵X的映射关系：

定义两个转移矩阵，即第一转移矩阵P和第二转移矩阵Q；将属性类分布矩阵X转化为第一转移矩阵P和节点成员分布矩阵U，即X＝UP，或者将节点成员分布矩阵U转化为第二转移矩阵Q和属性类分布矩阵X，即U＝XQ；并将这两个转移矩阵均随机初始化为k×k维的矩阵，其中k表示网络的社区数；

这里根据马尔可夫链中的转移概率概念，第一转移矩阵P和第二转移矩阵Q中的每个元素均非负，且每行的元素之和为1，即存在如下约束条件：

步骤5：设定最大迭代次数Max_iter＝100，当前迭代次数为it，并初始化it＝1；

步骤6：获取三个非负矩阵分解因子矩阵和两个转移矩阵的更新公式：

(6a)定义潜在表示和图正则非负矩阵分解的目标函数公式：

因为属性网络中的属性信息和拓扑结构中的信息是不同的，有的属性网络中属性信息远高于拓扑结构中的信息，有的则相反；因此本发明提出以拓扑结构为主导的目标函数和以属性信息为主导的目标函数。以拓扑结构为主导的目标函数O(U,Y,P)_{LRL_GNMFT}和以属性信息为主导的目标函数O(X,Y,Q)_{LRL_GNMFA}表达式如下：

并且

中的所有元素均为1；

此处定义潜在表示和图正则非负矩阵分解的目标函数公式，首先利用非负矩阵分解公式，得到节点成员分布矩阵和拓扑矩阵之间函数关系

属性类分布矩阵、属性类描述矩阵和属性矩阵之间的函数关系

根据潜在表示学习的方法，得到属性类分布矩阵和亲和矩阵之间的函数关系

然后，对节点成员分布矩阵和属性类分布矩阵分别加上图正则化项Tr(U^TL₁U)和Tr(XTL₂X)，从而得到以拓扑结构为主导的目标函数O(U,Y,P)_{LRL_GNMFT}和以属性信息为主导的目标函数O(X,Y,Q)_{LRL_GNMFA}。

本发明中对不同的网络采取不同的目标函数，比如对属性信息丰富的网络一般通过O(X,Y,Q)_{LRL_GNMFA}可以得到较好的社区检测效果，而对一些属性信息不如拓扑结构的网络采用O(U,Y,P)_{LRL_GNMFT}可以得到较好的社区检测效果。同时，对分布矩阵加以图正则约束，能够指导模型学习更为准确的社区分布状况。

(6b)利用步骤6a中定义的目标函数公式，得到节点成员分布矩阵更新公式、属性类分布矩阵更新公式、属性类描述矩阵更新公式和转移矩阵更新公式：

(6b1)将

用Tr(MMT)来表示，得到O(U,Y,P)_{LRL_GNMFT}和O(X,Y,Q)_{LRL_GNMFA}新的表达式：

(6b2)利用函数O(U,Y,P)_{LRL_GNMFT}对节点成员分布矩阵、属性类描述矩阵和第一转移矩阵求偏导，并根据Karush-Kuhn-Tucker条件获取节点成员分布矩阵更新公式、属性类描述矩阵更新公式和第一转移矩阵更新公式；

利用函数O(X,Y,Q)_{LRL_GNMFA}对属性类分布矩阵、属性类描述矩阵和第二转移矩阵求偏导，并用Karush-Kuhn-Tucker条件获取属性类分布矩阵更新公式、属性类描述矩阵更新公式和第二转移矩阵更新公式；具体如下：

其中，

和

拓扑结构为主导的目标函数中的属性类描述矩阵更新公式：

其中，d＝1,2,…,m，

和

拓扑结构为主导的目标函数中的第一转移矩阵更新公式：

其中l,r＝1,2,…,k，

和

属性信息为主导的目标函数中的属性类分布矩阵更新公式：

其中，

和

属性信息为主导的目标函数中的属性类描述矩阵更新公式：

其中，

和

属性信息为主导的目标函数中的第二转移矩阵更新公式：

其中，

和

步骤7：在第it次迭代下，利用步骤6中得到的更新公式对三个非负矩阵分解因子矩阵和两个转移矩阵分别进行更新，得到更新后的节点成员分布矩阵、属性类描述矩、第一转移矩阵、属性类分布矩阵、属性类描述矩阵、第二转移矩阵。具体是利用节点成员分布矩阵更新公式对节点成员分布矩阵进行更新，得到更新的节点成员分布矩阵；利用拓扑结构为主导模型中的属性类描述矩阵更新公式对属性类描述矩阵进行更新，得到更新的属性类描述矩阵；利用拓扑结构为主导模型中的转移矩阵更新公式对转移矩阵进行更新，得到更新的转移矩阵；利用属性类分布矩阵更新公式对属性类分布矩阵进行更新，得到更新的属性类分布矩阵；利用属性信息为主导模型中的属性类描述矩阵更新公式对属性类描述矩阵进行更新，得到更新的属性类描述矩阵；利用属性信息为主导模型中的转移矩阵更新公式对转移矩阵进行更新，得到更新的转移矩阵。

步骤8：判断当前迭代次数it是否达到预先设定的最大迭代次数Max_iter，若是，得到迭代更新后的最终节点成员分布矩阵U'和最终属性类分布矩阵X'，执行步骤9；否则，对it加1后返回执行步骤7；

步骤9：社区检测并输出检测结果：

对于以拓扑结构为主导的目标函数中，可以通过迭代更新得到最终的节点成员分布矩阵，以属性信息为主导的目标函数中，可以通过迭代更新得到最终的属性类分布矩阵；根据迭代更新后的最终节点成员分布矩阵U'或最终属性类分布矩阵X'判别节点所属社区，具体是根据最终的节点成员分布矩阵U'中第i行的最大值或者最终的属性类分布矩阵X'中第i行的最大值，判别节点i所属社区；对于不同的网络而言，通过这两个矩阵得到的社区结果一般是不同的，因此，需要根据实际的网络来选择具体社区检测结果。针对不同网络，通过两个矩阵U'和X'得到的节点i所述社区若不相同，则对于属性信息高于拓扑结构中信息的网络，选择矩阵X'得到的社区检测结果；反正，则选择矩阵U'得到的社区检测结果。

本发明采用非负矩阵分解算法，对属性网络建立了两个模型，分别为以拓扑结构为主导属性信息为辅助的模型和以属性信息为主导的拓扑结构为辅助的模型。对属性网络中属性信息丰富程度不一的网络，使用不同的模型，有利于社区检测的准确度。同时，对社区的分布矩阵加上图正则约束可以加强社区检测的效果。

下面结合仿真实验，对本发明的技术效果作进一步详细描述。

1.仿真条件和内容：

本发明仿真实验是采用Matlab R2018b软件在配置为Intel(R)Core(TM)i5-9300HCPU@2.40GHz、内存16GB、WINDOWS 10系统的计算机上进行的。

2.仿真结果分析：

本发明仿真实验以Texas网络图作为输入网络，Texas网络图是美国一所大学计算机科学系的网页中的内容，包含超链接关系和页面文本内容。Texas网络的下载网址是http://www.cs.cmu.edu/afs/cs/project/theo-20/www/data/。该网络共有187个节点，各个节点之间的连线有310条，每个节点的属性数有1703项，节点所属的社区数为5个。如图2所示，图2中的1～187编号分别表示Texas网络图中的节点序号，从图2中可以明显看出节点分为五个聚集部分，这代表Texas网络的5个社区。

图2(a)为网络的真实节点社区分布图。图2(b)为采用DHCD方法得到的节点的社区分布图，图2(c)为采用本发明通过仿真实验得到的节点的社区分布图。

由图2可以看出，本发明得到的社区分布图的效果更好，更接近真实的社区分布情况。因此，本发明具有良好的社区检测效果，为精确的社区检测奠定了基础，是一种合理有效的基于潜在表示和图正则非负矩阵分解的属性社区检测方法。

上述仿真分析证明了本发明所提方法的正确性与有效性。

本发明未详细说明部分属于本领域技术人员公知常识。

以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，显然对于本领域的专业人员来说，在了解了本发明内容和原理后，都可能在不背离本发明原理、结构的情况下，进行形式和细节上的各种修正和改变，但是这些基于本发明思想的修正和改变仍在本发明的权利要求保护范围之内。

Claims

1.一种基于潜在表示和图正则非负矩阵分解的属性社区检测方法，其特征在于，包括如下步骤：

(1)输入属性网络的相关数据，该数据包括拓扑结构和节点属性信息；令n表示网络的节点数，m表示网络的属性数；

(2)对属性网络中的相关数据进行处理：

(3)定义三个非负矩阵分解因子矩阵，并对其进行初始化：

(4)建立节点成员分布矩阵U和属性类分布矩阵X的映射关系：

并且

中的所有元素均为1；

其中，

和

拓扑结构为主导的目标函数中的属性类描述矩阵更新公式：

其中，d＝1,2,…,m，

和

拓扑结构为主导的目标函数中的第一转移矩阵更新公式：

其中l,r＝1,2,…,k，

和

属性信息为主导的目标函数中的属性类分布矩阵更新公式：

其中，

和

属性信息为主导的目标函数中的属性类描述矩阵更新公式：

其中，

和

属性信息为主导的目标函数中的第二转移矩阵更新公式：

其中，

和

(9)社区检测并输出检测结果：

2.根据权利要求1所述的方法，其特征在于：步骤(4)中所述两个转移矩阵，根据马尔可夫链中的转移概率概念，第一转移矩阵P和第二转移矩阵Q中的每个元素均非负，且每行的元素之和为1，即存在如下约束条件：

3.根据权利要求1所述的方法，其特征在于：步骤(6a)中定义潜在表示和图正则非负矩阵分解的目标函数公式，具体如下：

(6a1)利用非负矩阵分解公式，得到节点成员分布矩阵和拓扑矩阵之间函数关系

(6a2)对节点成员分布矩阵和属性类分布矩阵分别加上图正则化项Tr(U^TL₁U)和Tr(X^TL₂X)，得到以拓扑结构为主导的目标函数O(U,Y,P)_{LRL_GNMFT}和以属性信息为主导的目标函数O(X,Y,Q)_{LRL_GNMFA}。

4.根据权利要求1所述的方法，其特征在于：步骤(6b)中利用步骤(6a)中定义的目标函数公式，得到节点成员分布矩阵更新公式、属性类分布矩阵更新公式、属性类描述矩阵更新公式和转移矩阵更新公式，实现步骤如下：

(6b1)将

用Tr(MM^T)来表示，得到O(U,Y,P)_{LRL_GNMFT}和O(X,Y,Q)_{LRL_GNMFA}新的表达式：

利用函数O(X,Y,Q)_{LRL_GNMFA}对属性类分布矩阵、属性类描述矩阵和第二转移矩阵求偏导，并用Karush-Kuhn-Tucker条件获取属性类分布矩阵更新公式、属性类描述矩阵更新公式和第二转移矩阵更新公式。

5.根据权利要求1所述的方法，其特征在于：步骤(9)中根据迭代更新后的最终节点成员分布矩阵U'或最终属性类分布矩阵X'判别节点所属社区，具体是根据最终的节点成员分布矩阵U'中第i行的最大值或者最终的属性类分布矩阵X'中第i行的最大值，判别节点i所属社区；针对不同网络，通过两个矩阵U'和X'得到的节点i所述社区若不相同，则对于属性信息高于拓扑结构中信息的网络，选择矩阵X'得到的社区检测结果；反正，则选择矩阵U'得到的社区检测结果。