CN114861450A - 基于潜在表示和图正则非负矩阵分解的属性社区检测方法 - Google Patents

基于潜在表示和图正则非负矩阵分解的属性社区检测方法 Download PDF

Info

Publication number
CN114861450A
CN114861450A CN202210556524.3A CN202210556524A CN114861450A CN 114861450 A CN114861450 A CN 114861450A CN 202210556524 A CN202210556524 A CN 202210556524A CN 114861450 A CN114861450 A CN 114861450A
Authority
CN
China
Prior art keywords
matrix
attribute
ith
updating
formula
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210556524.3A
Other languages
English (en)
Inventor
尚荣华
李志远
王超
张玮桐
任晋弘
焦李成
赵柯佳
马文萍
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Xidian University
Zhejiang Lab
Original Assignee
Xidian University
Zhejiang Lab
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Xidian University, Zhejiang Lab filed Critical Xidian University
Priority to CN202210556524.3A priority Critical patent/CN114861450A/zh
Publication of CN114861450A publication Critical patent/CN114861450A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F30/00Computer-aided design [CAD]
    • G06F30/20Design optimisation, verification or simulation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F17/00Digital computing or data processing equipment or methods, specially adapted for specific functions
    • G06F17/10Complex mathematical operations
    • G06F17/16Matrix or vector computation, e.g. matrix-matrix or matrix-vector multiplication, matrix factorization
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F30/00Computer-aided design [CAD]
    • G06F30/10Geometric CAD
    • G06F30/18Network design, e.g. design based on topological or interconnect aspects of utility systems, piping, heating ventilation air conditioning [HVAC] or cabling
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2119/00Details relating to the type or aim of the analysis or the optimisation
    • G06F2119/02Reliability analysis or reliability optimisation; Failure analysis, e.g. worst case scenario performance, failure mode and effects analysis [FMEA]
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D30/00Reducing energy consumption in communication networks
    • Y02D30/50Reducing energy consumption in communication networks in wire-line communication networks, e.g. low power modes or reduced link rate

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • General Engineering & Computer Science (AREA)
  • Computational Mathematics (AREA)
  • Geometry (AREA)
  • Mathematical Analysis (AREA)
  • Mathematical Optimization (AREA)
  • Mathematical Physics (AREA)
  • Pure & Applied Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Computer Hardware Design (AREA)
  • Evolutionary Computation (AREA)
  • Software Systems (AREA)
  • Databases & Information Systems (AREA)
  • Algebra (AREA)
  • Computing Systems (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提出了一种基于潜在表示和图正则非负矩阵分解的属性社区检测方法,主要解决现有方法对于网络中丰富的属性信息利用不充分的问题。方案包括:1)输入网络数据;2)对数据进行处理,计算属性信息的亲和矩阵;3)定义并初始化两个转移矩阵;4)定义并初始化与拓扑图和属性图相关的三个非负矩阵分解因子矩阵;5)设置迭代,获取三个非负矩阵分解因子矩阵和两个转移矩阵的更新公式;6)循环迭代得到更新后的最终节点成员分布矩阵和最终属性类分布矩阵7)根据迭代更新得到的最终矩阵判别节点所属社区,得到社区检测结果并输出。本发明能够充分利用网络中丰富的属性信息,有效提高了社区分布检测的准确度。

Description

基于潜在表示和图正则非负矩阵分解的属性社区检测方法
技术领域
本发明属于计算机技术领域,进一步涉及社区检测方法,具体为一种基于潜在表示和图正则非负矩阵分解的属性社区检测方法,可用于传染病社区传播防控和推荐系统等。
背景技术
随着科学技术的不断进展,对于复杂网络的研究在各个学科的领域受到了广大学者的关注,无论是神经生物学还是统计物理学等,都在研究复杂网络的实际意义。生活中常见的诸如通信网络、交通网络、电力网络和社交网络,类似这样的复杂网络结构已经充斥了我们的生活的各个方面,不仅如此每个网络中的节点都涵盖了许多复杂的信息表述,因此对于复杂网络的属性社区检测已成为当前的一个热门话题。复杂网络的社区结构是指在网络中社区里面的节点是紧密连接的,而社区与社区之间的节点则是稀疏连接的。属性网络的社区检测对于揭示网络的结构、功能和语义有着十分重要的意义。常用的社区检测算法有非负矩阵分解的方法,标签传播的方法,谱聚类的方法,层次聚类的方法,进化计算的方法和深度学习的方法。
与其他用于解决社区检测的模型相比,基于非负矩阵分解的方法(Non-negativeMatrix Factorization,NMF)展示了一些独特的优点:对社区检测结果有更高的可解释性以及更灵活的利用先验信息。比如,给定一个复杂的网络,可以将其表示为一个非负的特征矩阵(邻接矩阵)。通过NMF对该特征矩阵进行分解,得到节点的隶属度矩阵。由于矩阵具有非负约束,因此可以自然地将该矩阵中的每一个元素视为对应社团中对应节点的强度。社区检测本质上是一个聚类问题,其聚类对象是复杂网络中的节点。k-means和谱聚类模型在处理节点聚类问题方面都表现出了较好的效果。因此,NMF可以很自然地用于检测社区。事实上,大多数现有的基于NMF的社区检测方法都是通过提高NMF的聚类能力来获得更好的性能。
然而对于属性网络而言,其网络节点一般包含丰富的信息,例如对于社交网络中,用户一般包含许多属性,比如年龄、性别、职业等等。传统的NMF算法只利用网络的拓扑结构,并不能很好的解决属性网络的复杂属性信息。因此如何有效地融合拓扑结构和属性信息,成为许多研究人员所关注的问题,并且提出了一些解决方法。2018年金第等人在计算机学报的第41卷第7期第1476~1489页发表的文章“面向带属性复杂网络的鲁棒、强解释性社团发现方法”中提出了一种鲁棒、强解释性的社团发现模型RSECD,该模型创新地采用一个带先验的转移概率矩阵来刻画网络社团与内容类簇之间的内在关联,利用非负矩阵分解模型将网络拓扑与节点内容两类信息融入到一个统一的框架。但是,该方法仍然存在不足之处,对于丰富的属性信息,并没有很好的挖掘其中的潜在结构,因此社区检测效果不好。
2021年,Meng Qin等人在Information Sciences第551卷第146~167页发表的文章“Dual-channel hybrid community detection in attributed networks”中也提出了一种属性网络社区检测算法,即双通道混合社区检测(DHCD),该算法基于分离聚类结构的新视角,融合了网络结构和语义信息,对于不同的网络,采用两种通道来处理社区检测问题。然而这种方法对属性信息也没有深入的探索,仅将其利用非负矩阵分解的方法得到分布结构,没有考虑到属性信息中的节点的潜在关联。
发明内容
本发明的目的在于解决上述现有方法存在的问题,提出一种基于潜在表示和图正则非负矩阵分解的属性社区检测方法,用于解决现有方法中属性网络的节点属性信息丰富程度不一、节点的拓扑信息与属性信息匹配不一致,从而对于网络中丰富的属性信息不能充分利用,导致检测效果不佳的问题。现有方法中通常仅将属性信息作为社区检测中的辅助信息,无法衡量不同网络中拓扑信息和属性信息之间的权重。
实现本发明目的的思路是:首先,将属性网络中的拓扑信息和属性信息分别用非负矩阵分解的模型进行分解,得到节点的成员分布矩阵和节点属性分布矩阵。其次,对属性矩阵构建一个亲和矩阵,利用潜在表示学习的方法得到属性信息的潜在表示。另外,根据马尔可夫转移概率构建一个转移矩阵,将节点成员分布矩阵和属性分布矩阵联系起来。最后,构建以拓扑结构为主导的模型和以属性信息为主导的模型,同时引入图正则项用以引导模型得到更为精确的社区检测。
为实现上述目的,本发明采取的技术方案包括如下步骤:
(1)输入属性网络的相关数据,该数据包括拓扑结构和节点属性信息;令n表示网络的节点数,m表示网络的属性数。属性网络的相关数据集一般包括网络节点的拓扑结构和节点的属性信息,属性网络的基本信息主要包括网络的节点数、网络的边数、节点的属性数以及社区数;
(2)对属性网络中的相关数据进行处理:
根据拓扑结构中网络节点的边信息得到的拓扑矩阵A∈Rn×n,根据节点属性信息得到属性矩阵Z∈Rn×m,并利用属性矩阵Z构建亲和矩阵B∈Rn×n,亲和矩阵中第i行第j列的元素为bij
Figure BDA0003652488450000031
其中,i,j=1,2,…,n;zi和zj分别表示属性矩阵中的第i行和第j行,即属性矩阵中的第i个节点和第j个节点,σ表示高斯函数的带宽参数,exp(·)表示指数操作;
(3)定义三个非负矩阵分解因子矩阵,并对其进行初始化:
定义与拓扑图相关的非负矩阵分解因子矩阵:节点成员分布矩阵U,并随机初始化为n×k维矩阵;定义与属性图相关的非负矩阵分解因子矩阵:属性类分布矩阵X和属性类描述矩阵Y,并分别随机初始化为n×k维、m×k维的矩阵;
(4)建立节点成员分布矩阵U和属性类分布矩阵X的映射关系:
该步需要建立一种拓扑结构和属性信息之间的映射关系,参考马尔可夫链中的转移概率,定义两个转移矩阵,即第一转移矩阵P和第二转移矩阵Q;将属性类分布矩阵X转化为第一转移矩阵P和节点成员分布矩阵U,即X=UP,或者将节点成员分布矩阵U转化为第二转移矩阵Q和属性类分布矩阵X,即U=XQ;并将这两个转移矩阵均随机初始化为k×k维的矩阵,其中k表示网络的社区数;
(5)设定最大迭代次数Max_iter=100,当前迭代次数为it,并初始化it=1;
(6)获取三个非负矩阵分解因子矩阵和两个转移矩阵的更新公式:
(6a)定义潜在表示和图正则非负矩阵分解的目标函数公式,即以拓扑结构为主导的目标函数O(U,Y,P)LRL_GNMFT和以属性信息为主导的目标函数O(X,Y,Q)LRL_GNMFA
Figure BDA0003652488450000032
Figure BDA0003652488450000041
其中,α表示O(U,Y,P)LRL_GNMFT目标函数中属性信息的参数,β表示O(X,Y,Q)LRL_GNMFA目标函数中拓扑结构的参数,λ表示潜在表示的影响参数,θ表示图正则参数,
Figure BDA0003652488450000042
表示为矩阵·的F范数的平方,通过计算两个矩阵差的F范数的平方,以求得两个矩阵的欧氏距离;Tr(·)表示矩阵·的迹,T表示转置操作;L1=D1-A表示拓扑矩阵的拉普拉斯矩阵,D1表示拓扑矩阵的对角矩阵,L2=D2-B表示亲和矩阵的拉普拉斯矩阵,D2表示亲和矩阵的对角矩阵,
Figure BDA0003652488450000043
并且
Figure BDA0003652488450000044
中的所有元素均为1;
(6b)利用步骤(6a)中定义的目标函数公式,得到节点成员分布矩阵更新公式、属性类分布矩阵更新公式、属性类描述矩阵更新公式和转移矩阵更新公式,具体如下:
拓扑结构为主导的目标函数中的节点成员分布矩阵更新公式:
Figure BDA0003652488450000045
其中,
Figure BDA0003652488450000046
Figure BDA0003652488450000047
分别表示第it+1次和第it次迭代下节点成员分布矩阵U的第i行第j列的元素值;
拓扑结构为主导的目标函数中的属性类描述矩阵更新公式:
Figure BDA0003652488450000048
其中,d=1,2,…,m,
Figure BDA0003652488450000049
Figure BDA00036524884500000410
分别表示第it+1次和第it次迭代下属性类描述矩阵Y的第i行第d列的元素值;
拓扑结构为主导的目标函数中的第一转移矩阵更新公式:
Figure BDA00036524884500000411
其中l,r=1,2,…,k,
Figure BDA00036524884500000412
Figure BDA00036524884500000413
分别表示第it+1次和第it次迭代下第一转移矩阵P的第l行第r列的元素值;
属性信息为主导的目标函数中的属性类分布矩阵更新公式:
Figure BDA0003652488450000051
其中,
Figure BDA0003652488450000052
Figure BDA0003652488450000053
分别表示第it+1次和第it次迭代下属性类分布矩阵X的第i行第j列的元素值;
属性信息为主导的目标函数中的属性类描述矩阵更新公式:
Figure BDA0003652488450000054
其中,
Figure BDA0003652488450000055
Figure BDA0003652488450000056
分别表示第it+1次和第it次迭代下属性类描述矩阵Y的第i行第d列的元素值;
属性信息为主导的目标函数中的第二转移矩阵更新公式:
Figure BDA0003652488450000057
其中,
Figure BDA0003652488450000058
Figure BDA0003652488450000059
分别表示第it+1次和第it次迭代下第二转移矩阵Q的第l行第r列的元素值;
(7)在第it次迭代下,利用步骤(6)中得到的更新公式对三个非负矩阵分解因子矩阵和两个转移矩阵分别进行更新,得到更新后的节点成员分布矩阵、属性类描述矩、第一转移矩阵、属性类分布矩阵、属性类描述矩阵、第二转移矩阵;
(8)判断当前迭代次数it是否达到预先设定的最大迭代次数Max_iter,若是,得到迭代更新后的最终节点成员分布矩阵U'和最终属性类分布矩阵X',执行步骤(9);否则,对it加1后返回执行步骤(7);
(9)社区检测并输出检测结果:
根据迭代更新后的最终节点成员分布矩阵U'或最终属性类分布矩阵X'判别节点所属社区,得到社区检测结果并输出。
本发明与现有方法相比,具有以下优点:
第一、由于本发明对属性信息构建亲和矩阵,用以表示属性信息中的节点关联,然后利用非负矩阵分解的方法对亲和矩阵建立模型,得到属性矩阵的潜在表示;从而充分挖掘节点属性中的潜在信息,有效提高了属性社区检测的准确度。
第二、本发明通过设计转移矩阵建立一种映射关系,可以将节点拓扑信息得到的社区结果分解为节点的属性社区结果和转移矩阵;同理,也可以将节点的属性社区转化为拓扑社区结果和转移矩阵;因此很好的对拓扑信息和属性信息进行融合,进一步提高了社区检测的准确度;
第三、由于本发明对拓扑信息和属性信息分开建立模型,再利用转移矩阵,将两者之间联系起来,分别建立以拓扑结构为主导和以属性信息为主导的两种模型,最后对得到的社区检测结果引入正则化,从而指导模型学习更为准确的社区分配结果。
附图说明
图1是本发明的实现流程图;
图2是本发明与现有方法的社区检测节点分布图以及真实社区的分布图,其中图2(a)为选取的网络Texas的真实社区节点分布图,图2(b)为采用DHCD方法得到的节点的社区分布图,图2(c)为采用本发明得到的节点的社区分布图。
具体实施方式
下面结合附图和具体实施例,对本发明作进一步详细描述。
参照图1,本发明提供的基于潜在表示和图正则非负矩阵分解的属性社区检测方法,具体包括如下步骤:
步骤1:输入属性网络的相关数据,该数据包括拓扑结构和节点属性信息;令n表示网络的节点数,m表示网络的属性数;
步骤2:对属性网络中的相关数据进行处理:
根据拓扑结构中网络节点的边信息得到的拓扑矩阵(即邻接矩阵)A∈Rn×n,根据节点属性信息得到属性矩阵Z∈Rn×m,并利用属性矩阵Z构建亲和矩阵B∈Rn×n;本发明中的亲和矩阵是利用属性矩阵的相关信息来构建的,其目的主要是为了充分挖掘属性信息中的节点的潜在关联,提高社区检测的准确度。
亲和矩阵中第i行第j列的元素为bij
Figure BDA0003652488450000061
其中,i,j=1,2,…,n;zi和zj分别表示属性矩阵中的第i行和第j行,即属性矩阵中的第i个节点和第j个节点,σ表示高斯函数的带宽参数,exp(·)表示指数操作;
步骤3:定义三个非负矩阵分解因子矩阵,并对其进行初始化:
定义与拓扑图相关的非负矩阵分解因子矩阵:节点成员分布矩阵U,并随机初始化为n×k维矩阵;定义与属性图相关的非负矩阵分解因子矩阵:属性类分布矩阵X和属性类描述矩阵Y,并分别随机初始化为n×k维、m×k维的矩阵;
步骤4:建立节点成员分布矩阵U和属性类分布矩阵X的映射关系:
定义两个转移矩阵,即第一转移矩阵P和第二转移矩阵Q;将属性类分布矩阵X转化为第一转移矩阵P和节点成员分布矩阵U,即X=UP,或者将节点成员分布矩阵U转化为第二转移矩阵Q和属性类分布矩阵X,即U=XQ;并将这两个转移矩阵均随机初始化为k×k维的矩阵,其中k表示网络的社区数;
这里根据马尔可夫链中的转移概率概念,第一转移矩阵P和第二转移矩阵Q中的每个元素均非负,且每行的元素之和为1,即存在如下约束条件:
Figure BDA0003652488450000071
步骤5:设定最大迭代次数Max_iter=100,当前迭代次数为it,并初始化it=1;
步骤6:获取三个非负矩阵分解因子矩阵和两个转移矩阵的更新公式:
(6a)定义潜在表示和图正则非负矩阵分解的目标函数公式:
因为属性网络中的属性信息和拓扑结构中的信息是不同的,有的属性网络中属性信息远高于拓扑结构中的信息,有的则相反;因此本发明提出以拓扑结构为主导的目标函数和以属性信息为主导的目标函数。以拓扑结构为主导的目标函数O(U,Y,P)LRL_GNMFT和以属性信息为主导的目标函数O(X,Y,Q)LRL_GNMFA表达式如下:
Figure BDA0003652488450000072
Figure BDA0003652488450000081
其中,α表示O(U,Y,P)LRL_GNMFT目标函数中属性信息的参数,β表示O(X,Y,Q)LRL_GNMFA目标函数中拓扑结构的参数,λ表示潜在表示的影响参数,θ表示图正则参数,
Figure BDA0003652488450000082
表示为矩阵·的F范数的平方,通过计算两个矩阵差的F范数的平方,以求得两个矩阵的欧氏距离;Tr(·)表示矩阵·的迹,T表示转置操作;L1=D1-A表示拓扑矩阵的拉普拉斯矩阵,D1表示拓扑矩阵的对角矩阵,L2=D2-B表示亲和矩阵的拉普拉斯矩阵,D2表示亲和矩阵的对角矩阵,
Figure BDA0003652488450000083
并且
Figure BDA0003652488450000084
中的所有元素均为1;
此处定义潜在表示和图正则非负矩阵分解的目标函数公式,首先利用非负矩阵分解公式,得到节点成员分布矩阵和拓扑矩阵之间函数关系
Figure BDA0003652488450000085
属性类分布矩阵、属性类描述矩阵和属性矩阵之间的函数关系
Figure BDA0003652488450000086
根据潜在表示学习的方法,得到属性类分布矩阵和亲和矩阵之间的函数关系
Figure BDA0003652488450000087
然后,对节点成员分布矩阵和属性类分布矩阵分别加上图正则化项Tr(UTL1U)和Tr(XTL2X),从而得到以拓扑结构为主导的目标函数O(U,Y,P)LRL_GNMFT和以属性信息为主导的目标函数O(X,Y,Q)LRL_GNMFA
本发明中对不同的网络采取不同的目标函数,比如对属性信息丰富的网络一般通过O(X,Y,Q)LRL_GNMFA可以得到较好的社区检测效果,而对一些属性信息不如拓扑结构的网络采用O(U,Y,P)LRL_GNMFT可以得到较好的社区检测效果。同时,对分布矩阵加以图正则约束,能够指导模型学习更为准确的社区分布状况。
(6b)利用步骤6a中定义的目标函数公式,得到节点成员分布矩阵更新公式、属性类分布矩阵更新公式、属性类描述矩阵更新公式和转移矩阵更新公式:
(6b1)将
Figure BDA0003652488450000088
用Tr(MMT)来表示,得到O(U,Y,P)LRL_GNMFT和O(X,Y,Q)LRL_GNMFA新的表达式:
Figure BDA0003652488450000091
Figure BDA0003652488450000092
(6b2)利用函数O(U,Y,P)LRL_GNMFT对节点成员分布矩阵、属性类描述矩阵和第一转移矩阵求偏导,并根据Karush-Kuhn-Tucker条件获取节点成员分布矩阵更新公式、属性类描述矩阵更新公式和第一转移矩阵更新公式;
利用函数O(X,Y,Q)LRL_GNMFA对属性类分布矩阵、属性类描述矩阵和第二转移矩阵求偏导,并用Karush-Kuhn-Tucker条件获取属性类分布矩阵更新公式、属性类描述矩阵更新公式和第二转移矩阵更新公式;具体如下:
拓扑结构为主导的目标函数中的节点成员分布矩阵更新公式:
Figure BDA0003652488450000093
其中,
Figure BDA0003652488450000094
Figure BDA0003652488450000095
分别表示第it+1次和第it次迭代下节点成员分布矩阵U的第i行第j列的元素值;
拓扑结构为主导的目标函数中的属性类描述矩阵更新公式:
Figure BDA0003652488450000096
其中,d=1,2,…,m,
Figure BDA0003652488450000097
Figure BDA0003652488450000098
分别表示第it+1次和第it次迭代下属性类描述矩阵Y的第i行第d列的元素值;
拓扑结构为主导的目标函数中的第一转移矩阵更新公式:
Figure BDA0003652488450000099
其中l,r=1,2,…,k,
Figure BDA00036524884500000910
Figure BDA00036524884500000911
分别表示第it+1次和第it次迭代下第一转移矩阵P的第l行第r列的元素值;
属性信息为主导的目标函数中的属性类分布矩阵更新公式:
Figure BDA0003652488450000101
其中,
Figure BDA0003652488450000102
Figure BDA0003652488450000103
分别表示第it+1次和第it次迭代下属性类分布矩阵X的第i行第j列的元素值;
属性信息为主导的目标函数中的属性类描述矩阵更新公式:
Figure BDA0003652488450000104
其中,
Figure BDA0003652488450000105
Figure BDA0003652488450000106
分别表示第it+1次和第it次迭代下属性类描述矩阵Y的第i行第d列的元素值;
属性信息为主导的目标函数中的第二转移矩阵更新公式:
Figure BDA0003652488450000107
其中,
Figure BDA0003652488450000108
Figure BDA0003652488450000109
分别表示第it+1次和第it次迭代下第二转移矩阵Q的第l行第r列的元素值;
步骤7:在第it次迭代下,利用步骤6中得到的更新公式对三个非负矩阵分解因子矩阵和两个转移矩阵分别进行更新,得到更新后的节点成员分布矩阵、属性类描述矩、第一转移矩阵、属性类分布矩阵、属性类描述矩阵、第二转移矩阵。具体是利用节点成员分布矩阵更新公式对节点成员分布矩阵进行更新,得到更新的节点成员分布矩阵;利用拓扑结构为主导模型中的属性类描述矩阵更新公式对属性类描述矩阵进行更新,得到更新的属性类描述矩阵;利用拓扑结构为主导模型中的转移矩阵更新公式对转移矩阵进行更新,得到更新的转移矩阵;利用属性类分布矩阵更新公式对属性类分布矩阵进行更新,得到更新的属性类分布矩阵;利用属性信息为主导模型中的属性类描述矩阵更新公式对属性类描述矩阵进行更新,得到更新的属性类描述矩阵;利用属性信息为主导模型中的转移矩阵更新公式对转移矩阵进行更新,得到更新的转移矩阵。
步骤8:判断当前迭代次数it是否达到预先设定的最大迭代次数Max_iter,若是,得到迭代更新后的最终节点成员分布矩阵U'和最终属性类分布矩阵X',执行步骤9;否则,对it加1后返回执行步骤7;
步骤9:社区检测并输出检测结果:
根据迭代更新后的最终节点成员分布矩阵U'或最终属性类分布矩阵X'判别节点所属社区,得到社区检测结果并输出。
对于以拓扑结构为主导的目标函数中,可以通过迭代更新得到最终的节点成员分布矩阵,以属性信息为主导的目标函数中,可以通过迭代更新得到最终的属性类分布矩阵;根据迭代更新后的最终节点成员分布矩阵U'或最终属性类分布矩阵X'判别节点所属社区,具体是根据最终的节点成员分布矩阵U'中第i行的最大值或者最终的属性类分布矩阵X'中第i行的最大值,判别节点i所属社区;对于不同的网络而言,通过这两个矩阵得到的社区结果一般是不同的,因此,需要根据实际的网络来选择具体社区检测结果。针对不同网络,通过两个矩阵U'和X'得到的节点i所述社区若不相同,则对于属性信息高于拓扑结构中信息的网络,选择矩阵X'得到的社区检测结果;反正,则选择矩阵U'得到的社区检测结果。
本发明采用非负矩阵分解算法,对属性网络建立了两个模型,分别为以拓扑结构为主导属性信息为辅助的模型和以属性信息为主导的拓扑结构为辅助的模型。对属性网络中属性信息丰富程度不一的网络,使用不同的模型,有利于社区检测的准确度。同时,对社区的分布矩阵加上图正则约束可以加强社区检测的效果。
下面结合仿真实验,对本发明的技术效果作进一步详细描述。
1.仿真条件和内容:
本发明仿真实验是采用Matlab R2018b软件在配置为Intel(R)Core(TM)i5-9300HCPU@2.40GHz、内存16GB、WINDOWS 10系统的计算机上进行的。
2.仿真结果分析:
本发明仿真实验以Texas网络图作为输入网络,Texas网络图是美国一所大学计算机科学系的网页中的内容,包含超链接关系和页面文本内容。Texas网络的下载网址是http://www.cs.cmu.edu/afs/cs/project/theo-20/www/data/。该网络共有187个节点,各个节点之间的连线有310条,每个节点的属性数有1703项,节点所属的社区数为5个。如图2所示,图2中的1~187编号分别表示Texas网络图中的节点序号,从图2中可以明显看出节点分为五个聚集部分,这代表Texas网络的5个社区。
图2(a)为网络的真实节点社区分布图。图2(b)为采用DHCD方法得到的节点的社区分布图,图2(c)为采用本发明通过仿真实验得到的节点的社区分布图。
由图2可以看出,本发明得到的社区分布图的效果更好,更接近真实的社区分布情况。因此,本发明具有良好的社区检测效果,为精确的社区检测奠定了基础,是一种合理有效的基于潜在表示和图正则非负矩阵分解的属性社区检测方法。
上述仿真分析证明了本发明所提方法的正确性与有效性。
本发明未详细说明部分属于本领域技术人员公知常识。
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,显然对于本领域的专业人员来说,在了解了本发明内容和原理后,都可能在不背离本发明原理、结构的情况下,进行形式和细节上的各种修正和改变,但是这些基于本发明思想的修正和改变仍在本发明的权利要求保护范围之内。

Claims (5)

1.一种基于潜在表示和图正则非负矩阵分解的属性社区检测方法,其特征在于,包括如下步骤:
(1)输入属性网络的相关数据,该数据包括拓扑结构和节点属性信息;令n表示网络的节点数,m表示网络的属性数;
(2)对属性网络中的相关数据进行处理:
根据拓扑结构中网络节点的边信息得到的拓扑矩阵A∈Rn×n,根据节点属性信息得到属性矩阵Z∈Rn×m,并利用属性矩阵Z构建亲和矩阵B∈Rn×n,亲和矩阵中第i行第j列的元素为bij
Figure FDA0003652488440000011
其中,i,j=1,2,…,n;zi和zj分别表示属性矩阵中的第i行和第j行,即属性矩阵中的第i个节点和第j个节点,σ表示高斯函数的带宽参数,exp(·)表示指数操作;
(3)定义三个非负矩阵分解因子矩阵,并对其进行初始化:
定义与拓扑图相关的非负矩阵分解因子矩阵:节点成员分布矩阵U,并随机初始化为n×k维矩阵;定义与属性图相关的非负矩阵分解因子矩阵:属性类分布矩阵X和属性类描述矩阵Y,并分别随机初始化为n×k维、m×k维的矩阵;
(4)建立节点成员分布矩阵U和属性类分布矩阵X的映射关系:
定义两个转移矩阵,即第一转移矩阵P和第二转移矩阵Q;将属性类分布矩阵X转化为第一转移矩阵P和节点成员分布矩阵U,即X=UP,或者将节点成员分布矩阵U转化为第二转移矩阵Q和属性类分布矩阵X,即U=XQ;并将这两个转移矩阵均随机初始化为k×k维的矩阵,其中k表示网络的社区数;
(5)设定最大迭代次数Max_iter=100,当前迭代次数为it,并初始化it=1;
(6)获取三个非负矩阵分解因子矩阵和两个转移矩阵的更新公式:
(6a)定义潜在表示和图正则非负矩阵分解的目标函数公式,即以拓扑结构为主导的目标函数O(U,Y,P)LRL_GNMFT和以属性信息为主导的目标函数O(X,Y,Q)LRL_GNMFA
Figure FDA0003652488440000021
Figure FDA0003652488440000022
其中,α表示O(U,Y,P)LRL_GNMFT目标函数中属性信息的参数,β表示O(X,Y,Q)LRL_GNMFA目标函数中拓扑结构的参数,λ表示潜在表示的影响参数,θ表示图正则参数,
Figure FDA0003652488440000023
表示为矩阵·的F范数的平方,通过计算两个矩阵差的F范数的平方,以求得两个矩阵的欧氏距离;Tr(·)表示矩阵·的迹,T表示转置操作;L1=D1-A表示拓扑矩阵的拉普拉斯矩阵,D1表示拓扑矩阵的对角矩阵,L2=D2-B表示亲和矩阵的拉普拉斯矩阵,D2表示亲和矩阵的对角矩阵,
Figure FDA0003652488440000024
并且
Figure FDA0003652488440000025
中的所有元素均为1;
(6b)利用步骤(6a)中定义的目标函数公式,得到节点成员分布矩阵更新公式、属性类分布矩阵更新公式、属性类描述矩阵更新公式和转移矩阵更新公式,具体如下:
拓扑结构为主导的目标函数中的节点成员分布矩阵更新公式:
Figure FDA0003652488440000026
其中,
Figure FDA0003652488440000027
Figure FDA0003652488440000028
分别表示第it+1次和第it次迭代下节点成员分布矩阵U的第i行第j列的元素值;
拓扑结构为主导的目标函数中的属性类描述矩阵更新公式:
Figure FDA0003652488440000029
其中,d=1,2,…,m,
Figure FDA00036524884400000210
Figure FDA00036524884400000211
分别表示第it+1次和第it次迭代下属性类描述矩阵Y的第i行第d列的元素值;
拓扑结构为主导的目标函数中的第一转移矩阵更新公式:
Figure FDA0003652488440000031
其中l,r=1,2,…,k,
Figure FDA0003652488440000032
Figure FDA0003652488440000033
分别表示第it+1次和第it次迭代下第一转移矩阵P的第l行第r列的元素值;
属性信息为主导的目标函数中的属性类分布矩阵更新公式:
Figure FDA0003652488440000034
其中,
Figure FDA0003652488440000035
Figure FDA0003652488440000036
分别表示第it+1次和第it次迭代下属性类分布矩阵X的第i行第j列的元素值;
属性信息为主导的目标函数中的属性类描述矩阵更新公式:
Figure FDA0003652488440000037
其中,
Figure FDA0003652488440000038
Figure FDA0003652488440000039
分别表示第it+1次和第it次迭代下属性类描述矩阵Y的第i行第d列的元素值;
属性信息为主导的目标函数中的第二转移矩阵更新公式:
Figure FDA00036524884400000310
其中,
Figure FDA00036524884400000311
Figure FDA00036524884400000312
分别表示第it+1次和第it次迭代下第二转移矩阵Q的第l行第r列的元素值;
(7)在第it次迭代下,利用步骤(6)中得到的更新公式对三个非负矩阵分解因子矩阵和两个转移矩阵分别进行更新,得到更新后的节点成员分布矩阵、属性类描述矩、第一转移矩阵、属性类分布矩阵、属性类描述矩阵、第二转移矩阵;
(8)判断当前迭代次数it是否达到预先设定的最大迭代次数Max_iter,若是,得到迭代更新后的最终节点成员分布矩阵U'和最终属性类分布矩阵X',执行步骤(9);否则,对it加1后返回执行步骤(7);
(9)社区检测并输出检测结果:
根据迭代更新后的最终节点成员分布矩阵U'或最终属性类分布矩阵X'判别节点所属社区,得到社区检测结果并输出。
2.根据权利要求1所述的方法,其特征在于:步骤(4)中所述两个转移矩阵,根据马尔可夫链中的转移概率概念,第一转移矩阵P和第二转移矩阵Q中的每个元素均非负,且每行的元素之和为1,即存在如下约束条件:
Figure FDA0003652488440000041
3.根据权利要求1所述的方法,其特征在于:步骤(6a)中定义潜在表示和图正则非负矩阵分解的目标函数公式,具体如下:
(6a1)利用非负矩阵分解公式,得到节点成员分布矩阵和拓扑矩阵之间函数关系
Figure FDA0003652488440000042
属性类分布矩阵、属性类描述矩阵和属性矩阵之间的函数关系
Figure FDA0003652488440000043
根据潜在表示学习的方法,得到属性类分布矩阵和亲和矩阵之间的函数关系
Figure FDA0003652488440000044
(6a2)对节点成员分布矩阵和属性类分布矩阵分别加上图正则化项Tr(UTL1U)和Tr(XTL2X),得到以拓扑结构为主导的目标函数O(U,Y,P)LRL_GNMFT和以属性信息为主导的目标函数O(X,Y,Q)LRL_GNMFA
4.根据权利要求1所述的方法,其特征在于:步骤(6b)中利用步骤(6a)中定义的目标函数公式,得到节点成员分布矩阵更新公式、属性类分布矩阵更新公式、属性类描述矩阵更新公式和转移矩阵更新公式,实现步骤如下:
(6b1)将
Figure FDA0003652488440000045
用Tr(MMT)来表示,得到O(U,Y,P)LRL_GNMFT和O(X,Y,Q)LRL_GNMFA新的表达式:
Figure FDA0003652488440000051
Figure FDA0003652488440000052
(6b2)利用函数O(U,Y,P)LRL_GNMFT对节点成员分布矩阵、属性类描述矩阵和第一转移矩阵求偏导,并根据Karush-Kuhn-Tucker条件获取节点成员分布矩阵更新公式、属性类描述矩阵更新公式和第一转移矩阵更新公式;
利用函数O(X,Y,Q)LRL_GNMFA对属性类分布矩阵、属性类描述矩阵和第二转移矩阵求偏导,并用Karush-Kuhn-Tucker条件获取属性类分布矩阵更新公式、属性类描述矩阵更新公式和第二转移矩阵更新公式。
5.根据权利要求1所述的方法,其特征在于:步骤(9)中根据迭代更新后的最终节点成员分布矩阵U'或最终属性类分布矩阵X'判别节点所属社区,具体是根据最终的节点成员分布矩阵U'中第i行的最大值或者最终的属性类分布矩阵X'中第i行的最大值,判别节点i所属社区;针对不同网络,通过两个矩阵U'和X'得到的节点i所述社区若不相同,则对于属性信息高于拓扑结构中信息的网络,选择矩阵X'得到的社区检测结果;反正,则选择矩阵U'得到的社区检测结果。
CN202210556524.3A 2022-05-19 2022-05-19 基于潜在表示和图正则非负矩阵分解的属性社区检测方法 Pending CN114861450A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210556524.3A CN114861450A (zh) 2022-05-19 2022-05-19 基于潜在表示和图正则非负矩阵分解的属性社区检测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210556524.3A CN114861450A (zh) 2022-05-19 2022-05-19 基于潜在表示和图正则非负矩阵分解的属性社区检测方法

Publications (1)

Publication Number Publication Date
CN114861450A true CN114861450A (zh) 2022-08-05

Family

ID=82639860

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210556524.3A Pending CN114861450A (zh) 2022-05-19 2022-05-19 基于潜在表示和图正则非负矩阵分解的属性社区检测方法

Country Status (1)

Country Link
CN (1) CN114861450A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115995011A (zh) * 2022-12-07 2023-04-21 湖南工商大学 基于图正则化的非线性正交非负矩阵分解图像聚类方法

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115995011A (zh) * 2022-12-07 2023-04-21 湖南工商大学 基于图正则化的非线性正交非负矩阵分解图像聚类方法

Similar Documents

Publication Publication Date Title
Li et al. Research on the natural language recognition method based on cluster analysis using neural network
Sadeghian et al. Drum: End-to-end differentiable rule mining on knowledge graphs
Hu et al. A fast fuzzy clustering algorithm for complex networks via a generalized momentum method
Wang et al. Community preserving network embedding
Wu et al. Interpretable graph convolutional network for multi-view semi-supervised learning
Jo NTSO (neural text self organizer): a new neural network for text clustering
Chen et al. An efficient network behavior anomaly detection using a hybrid DBN-LSTM network
Peng et al. Dynamic network embedding via incremental skip-gram with negative sampling
Castiglia et al. Multi-level local SGD: Distributed SGD for heterogeneous hierarchical networks
CN113051927B (zh) 基于多模态图卷积神经网络的社交网络突发事件检测方法
Xue et al. Optimizing ontology alignment through memetic algorithm based on partial reference alignment
CN112749757B (zh) 基于门控图注意力网络的论文分类模型构建方法及系统
Fawzy et al. The evolution of data mining techniques to big data analytics: An extensive study with application to renewable energy data analytics
Zhang et al. Optimization and improvement of data mining algorithm based on efficient incremental kernel fuzzy clustering for large data
CN115834433A (zh) 基于物联网技术的数据处理方法及系统
Wang et al. A data‐driven probabilistic power flow method based on convolutional neural networks
CN114861450A (zh) 基于潜在表示和图正则非负矩阵分解的属性社区检测方法
Qin et al. Towards a Better Tradeoff between quality and efficiency of community detection: An inductive embedding method across graphs
CN111209611A (zh) 一种基于双曲几何的有向网络空间嵌入方法
Yu et al. Kernel‐based low‐rank tensorized multiview spectral clustering
CN105335499A (zh) 一种基于分布-收敛模型的文献聚类方法
CN116450938A (zh) 一种基于图谱的工单推荐实现方法及系统
Chen et al. Feature selection based on BP neural network and adaptive particle swarm algorithm
CN113704570B (zh) 基于自监督学习式进化的大规模复杂网络社区检测方法
CN114881172A (zh) 一种基于加权词向量和神经网络的软件漏洞自动分类方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination