CN111371611B - 一种基于深度学习的加权网络社区发现方法及装置 - Google Patents

一种基于深度学习的加权网络社区发现方法及装置 Download PDF

Info

Publication number
CN111371611B
CN111371611B CN202010133626.5A CN202010133626A CN111371611B CN 111371611 B CN111371611 B CN 111371611B CN 202010133626 A CN202010133626 A CN 202010133626A CN 111371611 B CN111371611 B CN 111371611B
Authority
CN
China
Prior art keywords
matrix
weighted
node
order
encoder
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010133626.5A
Other languages
English (en)
Other versions
CN111371611A (zh
Inventor
蒋来源
李树栋
吴晓波
韩伟红
方滨兴
田志宏
殷丽华
顾钊铨
仇晶
王乐
李默涵
唐可可
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Guangzhou University
Original Assignee
Guangzhou University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Guangzhou University filed Critical Guangzhou University
Priority to CN202010133626.5A priority Critical patent/CN111371611B/zh
Publication of CN111371611A publication Critical patent/CN111371611A/zh
Application granted granted Critical
Publication of CN111371611B publication Critical patent/CN111371611B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/12Discovery or management of network topologies
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/088Non-supervised learning, e.g. competitive learning

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Computing Systems (AREA)
  • Software Systems (AREA)
  • Molecular Biology (AREA)
  • Computational Linguistics (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Mathematical Physics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种基于深度学习的加权网络社区发现方法及装置。所述方法包括:对给定的加权网络图进行预处理,得到二阶邻相似度矩阵;通过深度稀疏自编码器提取所述二阶邻相似度矩阵的低维特征,得到低维特征矩阵;根据聚类算法对所述低维特征矩阵进行聚类,得到社区发现结果。本发明能够综合考虑节点与邻居节点,及与邻居节点的邻居节点之间的联系,提高社区发现的准确度。

Description

一种基于深度学习的加权网络社区发现方法及装置
技术领域
本发明涉及社区发现技术领域,尤其涉及一种基于深度学习的加权网络社区发现方法及装置。
背景技术
复杂网络是由大量节点以及节点之间错综复杂的关系共同构成的网络结构,除了小世界和无标度等特性外,复杂网络还呈现出明显的社区结构。给定一个网络,社区发现根据网络中节点间的相互关系,将所有节点聚合成一系列子结构,即社区。与不同社区间节点之间的连接关系相比,同一社区内的节点之问通常具有较强的连接关系。目前,主流的社区发现方法大都是针对无权网络,可分为基于图分割的方法(Kernighan-Liu算法),基于层次聚类的算法(GN,FN),基于标签传播的方法(LPA),基于相似度聚类的算法(K-Means)。由于无权网络尚不足以反映现实世界中大量对象之间的联系,且现有的社区发现方法仅考虑节点与邻居节点之间的联系,忽略节点与邻居节点的邻居节点之间的联系,难以提高社区发现的准确度。
发明内容
本发明提供一种基于深度学习的加权网络社区发现方法及装置,以克服现有技术的缺陷,本发明能够综合考虑节点与邻居节点,及与邻居节点的邻居节点之间的联系,提高社区发现的准确度。
为了解决上述技术问题,本发明一实施例提供一种基于深度学习的加权网络社区发现方法,包括:
对给定的加权网络图进行预处理,得到二阶邻相似度矩阵;
通过深度稀疏自编码器提取所述二阶邻相似度矩阵的低维特征,得到低维特征矩阵;
根据聚类算法对所述低维特征矩阵进行聚类,得到社区发现结果。
进一步地,所述对给定的加权网络图进行预处理,得到二阶邻相似度矩阵,具体为:
分析所述加权网络图中节点间的联系,获取加权邻接矩阵和无权邻接矩阵;
根据所述加权邻接矩阵和所述无权邻接矩阵,得到所述二阶邻相似度矩阵。
进一步地,在所述对给定的加权网络图进行预处理,得到二阶邻相似度矩阵之后,在所述通过深度稀疏自编码器提取所述二阶邻相似度矩阵的低维特征,得到低维特征矩阵之前,还包括:
训练所述深度稀疏自编码器。
进一步地,所述训练所述深层稀疏自编码器,具体为:
分析所述加权网络图中节点间的联系,获取加权邻接矩阵和无权邻接矩阵;
根据所述加权邻接矩阵和所述无权邻接矩阵,得到模块度矩阵和无权二阶邻邻接矩阵;
使用所述二阶邻相似度矩阵、所述模块度矩阵和所述无权二阶邻邻接矩阵训练所述深度稀疏自编码器。
进一步地,所述聚类算法包括K-means聚类算法。
本发明另一实施例提供一种基于深度学习的加权网络社区发现装置,包括:
预处理模块,用于对给定的加权网络图进行预处理,得到二阶邻相似度矩阵;
特征提取模块,用于通过深度稀疏自编码器提取所述二阶邻相似度矩阵的低维特征,得到低维特征矩阵;
聚类模块,用于根据聚类算法对所述低维特征矩阵进行聚类,得到社区发现结果。
进一步地,所述对给定的加权网络图进行预处理,得到二阶邻相似度矩阵,具体为:
分析所述加权网络图中节点间的联系,获取加权邻接矩阵和无权邻接矩阵;
根据所述加权邻接矩阵和所述无权邻接矩阵,得到所述二阶邻相似度矩阵。
进一步地,所述基于深度学习的加权网络社区发现装置,还包括:
训练模块,用于在所述对给定的加权网络图进行预处理,得到二阶邻相似度矩阵之后,在所述通过深度稀疏自编码器提取所述二阶邻相似度矩阵的低维特征,得到低维特征矩阵之前,训练所述深度稀疏自编码器。
进一步地,所述训练所述深层稀疏自编码器,具体为:
分析所述加权网络图中节点间的联系,获取加权邻接矩阵和无权邻接矩阵;
根据所述加权邻接矩阵和所述无权邻接矩阵,得到模块度矩阵和无权二阶邻邻接矩阵;
使用所述二阶邻相似度矩阵、所述模块度矩阵和所述无权二阶邻邻接矩阵训练所述深度稀疏自编码器。
进一步地,所述聚类算法包括K-means聚类算法。
本发明的实施例,具有如下有益效果:
通过对给定的加权网络图进行预处理,得到二阶邻相似度矩阵,进而通过深度稀疏自编码器提取二阶邻相似度矩阵的低维特征,得到低维特征矩阵,从而根据聚类算法对低维特征矩阵进行聚类,得到社区发现结果。相比于现有技术,本发明针对加权网络图,综合考虑节点与邻居节点,及与邻居节点的邻居节点之间的联系,并利用深度稀疏自编码器提取二阶邻相似度矩阵的低维特征,使得对低维特征矩阵进行聚类而得到的社区发现结果更加准确。本发明能够综合考虑节点与邻居节点,及与邻居节点的邻居节点之间的联系,提高社区发现的准确度。
附图说明
图1为本发明第一实施例中的一种基于深度学习的加权网络社区发现方法的流程示意图;
图2为本发明第二实施例中的一种基于深度学习的加权网络社区发现装置的结构示意图。
具体实施方式
下面将结合本发明中的附图,对本发明中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
需要说明的是,文中的步骤编号,仅为了方便具体实施例的解释,不作为限定步骤执行先后顺序的作用。本实施例提供的方法可以由相关的服务器执行,且下文均以服务器作为执行主体为例进行说明。
请参阅图1。
如图1所示,第一实施例提供一种基于深度学习的加权网络社区发现方法,包括步骤S1~S3:
S1、对给定的加权网络图进行预处理,得到二阶邻相似度矩阵。
S2、通过深度稀疏自编码器提取二阶邻相似度矩阵的低维特征,得到低维特征矩阵。
S3、根据聚类算法对低维特征矩阵进行聚类,得到社区发现结果。
在步骤S1当中,给定一个加权网络图G=(V,E),其中,V={v1,v2,…,vn}表示网络中节点的集合,E={e1,e2,…,em}表示网络中边的集合。
定义节点v的邻居节点的集合为N(v),N(v)内所有节点的邻居节点(不包括节点v)称为节点v的二阶邻居节点。二阶邻居节点i与节点v的所有路径长度为2的路径权重之和为
Figure BDA0002395743760000041
定义节点u和节点v的相似度为Sim(u,v)=αwuv+β∑j∈(N(u)∩N(v)(wuj+wju),其中,wuv表示节点u和节点v直接相连的边的权重,∑j∈(N(u)∩N(v)(wuj+wju)表示节点u与节点v经过公共邻居的路径的权重之和,α和β表示预设的两个参数,用于控制邻居节点和二阶邻居节点相似度的影响,α和β的取值范围均为(0,1),且α+β=1。与加权网络图G=(V,E)对应的相似度矩阵为X=[xij]n×n,其中,xij=Sim(vi,vj),vi,vj∈V。
分析加权网络图G=(V,E)中节点间的联系,获取网络的加权邻接矩阵W=[wij]n×n和无权邻接矩阵A=[aij]n×n。对于加权邻接矩阵W=[wij]n×n,wij表示节点i和节点j的连接边的权重,若wij=0,则说明节点i和节点j无边相连。对于无权邻接矩阵A=[aij]n×n,若aij=1,则说明节点i和节点j有边相连,若aij=0,则说明节点i和节点j无边相连。
当获取到网络的加权邻接矩阵W=[wij]n×n和无权邻接矩阵A=[aij]n×n,将无权邻接矩阵A=[aij]n×n与A=[aij]n×n相乘,得到B=[bij]n×n,其中,bij表示节点i到节点j路径长度为2的路径条数,即节点i和节点j公共邻居的个数。根据加权邻接矩阵W=[wij]n×n和B=[bij]n×n,得到节点的二阶邻居权重矩阵WN=[wnij]n×n,则二阶邻相似度矩阵为X=αW+βWN。
当得到二阶邻相似度矩阵,需要应用
Figure BDA0002395743760000051
对矩阵元素进行最小-最大规范化,即对矩阵元素进行线性变换,将矩阵元素的值映射到[0,1]之间。
在步骤S2当中,通过堆叠多个稀疏自编码器组成深度稀疏自编码器。稀疏自编码器作为一种利用反向传播算法使得输出值等于输入值的无监督深度学习方法,先将输入压缩成潜在空间表征,再通过潜在空间表征来重构输出。
稀疏自编码器包括编码器和解码器,编码器能将输入压缩成潜在空间表征,解码器能重构来自潜在空间表征的输入。通过将二阶邻相似度矩阵X={x1,x2,…,xn}中的一个向量xi∈Rn*1作为输入向量输入稀疏自动编码器,经编码器得到一个低维向量hi,低维向量hi经解码器得到一个和xi维度相同的输出向量xi’,若输出向量xi’和输入向量xi极其相近,则认为低维向量hi能够很好表征输入向量xi的特征信息。
为使重构误差达到最小值,需要通过反向传播算法来训练稀疏自编码器,调整编码器和解码器的参数。当重构误差达到最小值,可认为输出向量xi’与输入向量xi是相等的。稀疏自动编码器的训练过程具体如下:
(1)将二阶邻相似度矩阵X作为自动编码器的输入向量,X的每一个列向量xi∈Rn*1是节点i与网络所有节点的相似度向量,将xi输入到一个具有k个神经元的编码器中,通过hi=S(Wxi+b)得到编码层的编码结果hi∈Rk*1,其中,S(x)是编码层的一个激活函数,一般选用sigmoid函数、Relu函数等,本实施例选用sigmoid函数,
Figure BDA0002395743760000061
W∈Rk*n是编码层的权重矩阵,b∈Rk*1是编码层的偏置向量。
(2)当得到编码结果hi∈Rk*1,hi是节点i对应的低维向量,将hi输入到解码层,通过hi’=S(W’hi+b’)得到解码层的输出向量xi’∈Rn*1,其中,S(x)是编码层的一个激活函数,一般选用sigmoid函数、Relu函数等,本实施例选用sigmoid函数,W’∈Rn*k是解码层的权重矩阵,b’∈Rk*1是解码层的偏置向量。
(3)经过训练,自编码器将通过反向传播算法自动调整编码层权重矩阵W∈Rk*n,编码层偏置向量b∈Rk*1,解码层权重矩阵W’∈Rn*k,解码层偏置向量b’∈Rk*1这四个参数,从而使输出向量xi’和输入向量xi的重构误差最小,相当于使
Figure BDA0002395743760000062
取值最小。
(4)为使输出更好地还原输入,可对隐层单元添加一些稀疏性约束。在选用Sigmoid函数作为神经元的激活函数的情况下,若神经元的输出为1,则表示该神经元被激活,否则表示该神经元未被激活。稀疏性是指在大多数情况下神经元都是未被激活的,可以使用神经元的输出作为神经元的激活度,使用KL散度为自编码器添加稀疏性限制
Figure BDA0002395743760000063
对于n个样本,隐藏层的平均激活度为
Figure BDA0002395743760000064
其中,KL(ρ‖ρj)表示以ρ和ρ为均值的两个变量的相对熵,KL散度的计算公式为:
Figure BDA0002395743760000065
因此自动编码器的重构误差为:
Figure BDA0002395743760000066
稀疏自编码器大大减少了需要训练的参数量,降低了训练难度,同时克服了自编码器容易陷入局部及小值和存在过拟合的问题。
深度稀疏自编码器是由多个稀疏自编码器堆叠组成,深度稀疏自编码器比自动编码器多了很多隐藏层。深度学习的优势在于能够逐层学习原始数据的多种表达方式,每一层都以前一层学习来的特征作为基础,继续学习具有更好表达能力的特征。
在单个自编码器训练xi→hi→xi’的三层网络的过程中,获取低维特征向量hi,在此采用逐层训练的方式,将上一个稀疏自编码器的低维特征向量hi作为下一个自动编码器的输入向量,直到训练深度稀疏自编码器预定的层数。深度稀疏自编码器的逐层训练过程具体如下:
(1)设定深度稀疏自动编码器的结构:共P层,每层都是一个自解码器,每层节点数{k(1),k(2),...,k(P)},其中第一层的输入k(1)=n。
(2)将二阶邻相似度矩阵X=X(1)输入到有k(2)个节点的自编码器,提取训练得到的编码结果X(2),然后将矩阵X(2)输入到有k(3)节点的自动编码器,提取训练得到的编码结果X(3),直到从最后一个自动编码器中提取出训练得到的编码层结果X(P)。
在步骤S3当中,根据聚类算法对低维特征矩阵进行聚类,将相似度较高的节点归为同一社区,得到社区发现结果。
通过对给定的加权网络图进行预处理,得到二阶邻相似度矩阵,进而通过深度稀疏自编码器提取二阶邻相似度矩阵的低维特征,得到低维特征矩阵,从而根据聚类算法对低维特征矩阵进行聚类,得到社区发现结果。本实施例针对加权网络图,综合考虑节点与邻居节点,及与邻居节点的邻居节点之间的联系,并利用深度稀疏自编码器提取二阶邻相似度矩阵的低维特征,使得对低维特征矩阵进行聚类而得到的社区发现结果更加准确。本实施例能够综合考虑节点与邻居节点,及与邻居节点的邻居节点之间的联系,提高社区发现的准确度。
在优选的实施例当中,步骤S1,具体为:分析加权网络图中节点间的联系,获取加权邻接矩阵和无权邻接矩阵;根据加权邻接矩阵和无权邻接矩阵,得到二阶邻相似度矩阵。
在本实施例中,分析加权网络图G=(V,E)中节点间的联系,获取网络的加权邻接矩阵W=[wij]n×n和无权邻接矩阵A=[aij]n×n。对于加权邻接矩阵W=[wij]n×n,wij表示节点i和节点j的连接边的权重,若wij=0,则说明节点i和节点j无边相连。对于无权邻接矩阵A=[aij]n×n,若aij=1,则说明节点i和节点j有边相连,若aij=0,则说明节点i和节点j无边相连。
当获取到网络的加权邻接矩阵W=[wij]n×n和无权邻接矩阵A=[aij]n×n,将无权邻接矩阵A=[aij]n×n与A=[aij]n×n相乘,得到B=[bij]n×n,其中,bij表示节点i到节点j路径长度为2的路径条数,即节点i和节点j公共邻居的个数。根据加权邻接矩阵W=[wij]n×n和B=[bij]n×n,得到节点的二阶邻居权重矩阵WN=[wnij]n×n,则二阶邻相似度矩阵为X=αW+βWN。
当得到二阶邻相似度矩阵,需要应用
Figure BDA0002395743760000081
对矩阵元素进行最小-最大规范化,即对矩阵元素进行线性变换,将矩阵元素的值映射到[0,1]之间。
在优选的实施例当中,在步骤S1之后,在步骤S2之前,还包括:训练深度稀疏自编码器。
其中,训练深层稀疏自编码器,具体为:分析加权网络图中节点间的联系,获取加权邻接矩阵和无权邻接矩阵;根据加权邻接矩阵和无权邻接矩阵,得到模块度矩阵和无权二阶邻邻接矩阵;使用二阶邻相似度矩阵、模块度矩阵和无权二阶邻邻接矩阵训练深度稀疏自编码器。
由于只将二阶邻相似度矩阵X作为训练集,并随机抽取二阶邻相似度矩阵X的部分列向量作为测试集,并不能可靠且充分地反映节点之间的相似关系,需要改进训练集和测试集。改进过程具体如下:
(1)加权网络中节点的关系是复杂的,能反映节点之间的相似性关系的矩阵也有不少。受模块度函数
Figure BDA0002395743760000082
(其中,m表示网络中边的总数目,ki表示节点i的度数,kj表示节点j的度数,aij表示节点i与节点j是否有边相连,若有,则aij=1,否则aij=0,δ(ci,cj)表示节点i与节点j是否在同一社区,若在,则δ(ci,cj)=1,否则δ(ci,cj)=0)的启发,用模块度矩阵Q=[qij]∈RNxN(其中,
Figure BDA0002395743760000091
Figure BDA0002395743760000092
表示节点i和节点j的期望权重,wj表示与节点i相连接的边的权重之和,W表示加权网络中的总权重,wij表示节点i与节点j的连接边的权重)来表示节点之间的相似性关系。
(2)除了模块度矩阵之外,将加权网络的无权二阶邻邻接矩阵Z也作为训练集的一部分。在预处理中得到网络的无权邻接矩阵A=[aij]n×n,和A=[aij]n×n的平方B=[bij]n×n,bij表示的是节点i到节点j路径长度为2的路径条数。考虑到无权邻接矩阵,故路径权重都为1,因此2*bij表示的是节点i到节点j的路径长度。加权网络的无权二阶邻邻接矩阵Z为Zij=0.5×aij+0.5×2*bij,其中,无权二阶邻邻接矩阵Z对角线元素表示节点i与其自身的相似性,全部置0。
(3)通过预处理和上述操作,得到加权网络的二阶邻相似度矩阵、模块度矩阵和无权二阶邻邻接矩阵。将上述操作获取的模块度矩阵和无权二阶邻邻接矩阵分别应用
Figure BDA0002395743760000093
对矩阵元素进行最小-最大规范化,即对矩阵元素进行线性变换,将矩阵元素的值映射到[0,1]之间。使用二阶邻相似度矩阵、模块度矩阵和无权二阶邻邻接矩阵训练深度稀疏自编码器。
在优选的实施例当中,聚类算法包括K-means聚类算法。
本实施例根据K-means聚类算法对低维特征矩阵进行聚类,有利于提高社区发现结果的准确度。
请参阅图2。
如图2所示,第二实施例提供一种基于深度学习的加权网络社区发现装置,包括:预处理模块21,用于对给定的加权网络图进行预处理,得到二阶邻相似度矩阵;特征提取模块22,用于通过深度稀疏自编码器提取二阶邻相似度矩阵的低维特征,得到低维特征矩阵;聚类模块23,用于根据聚类算法对低维特征矩阵进行聚类,得到社区发现结果。
通过预处理模块21,给定一个加权网络图G=(V,E),其中,V={v1,v2,…,vn}表示网络中节点的集合,E={e1,e2,…,em}表示网络中边的集合。
定义节点v的邻居节点的集合为N(v),N(v)内所有节点的邻居节点(不包括节点v)称为节点v的二阶邻居节点。二阶邻居节点i与节点v的所有路径长度为2的路径权重之和为
Figure BDA0002395743760000101
定义节点u和节点v的相似度为Sim(u,v)=αwuv+β∑j∈(N(u)∩N(v)(wuj+wju),其中,wuv表示节点u和节点v直接相连的边的权重,∑j∈(N(u)∩N(v)(wuj+wju)表示节点u与节点v经过公共邻居的路径的权重之和,α和β表示预设的两个参数,用于控制邻居节点和二阶邻居节点相似度的影响,α和β的取值范围均为(0,1),且α+β=1。与加权网络图G=(V,E)对应的相似度矩阵为X=[xij]n×n,其中,xij=Sim(vi,vj),vi,vj∈V。
分析加权网络图G=(V,E)中节点间的联系,获取网络的加权邻接矩阵W=[wij]n×n和无权邻接矩阵A=[aij]n×n。对于加权邻接矩阵W=[wij]n×n,wij表示节点i和节点j的连接边的权重,若wij=0,则说明节点i和节点j无边相连。对于无权邻接矩阵A=[aij]n×n,若aij=1,则说明节点i和节点j有边相连,若aij=0,则说明节点i和节点j无边相连。
当获取到网络的加权邻接矩阵W=[wij]n×n和无权邻接矩阵A=[aij]n×n,将无权邻接矩阵A=[aij]n×n与A=[aij]n×n相乘,得到B=[bij]n×n,其中,bij表示节点i到节点j路径长度为2的路径条数,即节点i和节点j公共邻居的个数。根据加权邻接矩阵W=[wij]n×n和B=[bij]n×n,得到节点的二阶邻居权重矩阵WN=[wnij]n×n,则二阶邻相似度矩阵为X=αW+βWN。
当得到二阶邻相似度矩阵,需要应用
Figure BDA0002395743760000102
对矩阵元素进行最小-最大规范化,即对矩阵元素进行线性变换,将矩阵元素的值映射到[0,1]之间。
通过特征提取模块22,堆叠多个稀疏自编码器组成深度稀疏自编码器。稀疏自编码器作为一种利用反向传播算法使得输出值等于输入值的无监督深度学习方法,先将输入压缩成潜在空间表征,再通过潜在空间表征来重构输出。
稀疏自编码器包括编码器和解码器,编码器能将输入压缩成潜在空间表征,解码器能重构来自潜在空间表征的输入。通过将二阶邻相似度矩阵X={x1,x2,…,xn}中的一个向量xi∈Rn*1作为输入向量输入稀疏自动编码器,经编码器得到一个低维向量hi,低维向量hi经解码器得到一个和xi维度相同的输出向量xi’,若输出向量xi’和输入向量xi极其相近,则认为低维向量hi能够很好表征输入向量xi的特征信息。
为使重构误差达到最小值,需要通过反向传播算法来训练稀疏自编码器,调整编码器和解码器的参数。当重构误差达到最小值,可认为输出向量xi’与输入向量xi是相等的。稀疏自动编码器的训练过程具体如下:
(1)将二阶邻相似度矩阵X作为自动编码器的输入向量,X的每一个列向量xi∈Rn*1是节点i与网络所有节点的相似度向量,将xi输入到一个具有k个神经元的编码器中,通过hi=S(Wxi+b)得到编码层的编码结果hi∈Rk*1,其中,S(x)是编码层的一个激活函数,一般选用sigmoid函数、Relu函数等,本实施例选用sigmoid函数,
Figure BDA0002395743760000111
W∈Rk*n是编码层的权重矩阵,b∈Rk*1是编码层的偏置向量。
(2)当得到编码结果hi∈Rk*1,hi是节点i对应的低维向量,将hi输入到解码层,通过hi’=S(W’hi+b’)得到解码层的输出向量xi’∈Rn*1,其中,S(x)是编码层的一个激活函数,一般选用sigmoid函数、Relu函数等,本实施例选用sigmoid函数,W’∈Rn*k是解码层的权重矩阵,b’∈Rk*1是解码层的偏置向量。
(3)经过训练,自编码器将通过反向传播算法自动调整编码层权重矩阵W∈Rk*n,编码层偏置向量b∈Rk*1,解码层权重矩阵W’∈Rn*k,解码层偏置向量b’∈Rk*1这四个参数,从而使输出向量xi’和输入向量xi的重构误差最小,相当于使
Figure BDA0002395743760000112
取值最小。
(4)为使输出更好地还原输入,可对隐层单元添加一些稀疏性约束。在选用Sigmoid函数作为神经元的激活函数的情况下,若神经元的输出为1,则表示该神经元被激活,否则表示该神经元未被激活。稀疏性是指在大多数情况下神经元都是未被激活的,可以使用神经元的输出作为神经元的激活度,使用KL散度为自编码器添加稀疏性限制
Figure BDA0002395743760000121
对于n个样本,隐藏层的平均激活度为
Figure BDA0002395743760000122
其中,KL(ρ‖ρj)表示以ρ和ρ为均值的两个变量的相对熵,KL散度的计算公式为:
Figure BDA0002395743760000123
因此自动编码器的重构误差为:
Figure BDA0002395743760000124
稀疏自编码器大大减少了需要训练的参数量,降低了训练难度,同时克服了自编码器容易陷入局部及小值和存在过拟合的问题。
深度稀疏自编码器是由多个稀疏自编码器堆叠组成,深度稀疏自编码器比自动编码器多了很多隐藏层。深度学习的优势在于能够逐层学习原始数据的多种表达方式,每一层都以前一层学习来的特征作为基础,继续学习具有更好表达能力的特征。
在单个自编码器训练xi→hi→xi’的三层网络的过程中,获取低维特征向量hi,在此采用逐层训练的方式,将上一个稀疏自编码器的低维特征向量hi作为下一个自动编码器的输入向量,直到训练深度稀疏自编码器预定的层数。深度稀疏自编码器的逐层训练过程具体如下:
(1)设定深度稀疏自动编码器的结构:共P层,每层都是一个自解码器,每层节点数{k(1),k(2),...,k(P)},其中第一层的输入k(1)=n。
(2)将二阶邻相似度矩阵X=X(1)输入到有k(2)个节点的自编码器,提取训练得到的编码结果X(2),然后将矩阵X(2)输入到有k(3)节点的自动编码器,提取训练得到的编码结果X(3),直到从最后一个自动编码器中提取出训练得到的编码层结果X(P)。
通过聚类模块23,根据聚类算法对低维特征矩阵进行聚类,将相似度较高的节点归为同一社区,得到社区发现结果。
通过预处理模块21,对给定的加权网络图进行预处理,得到二阶邻相似度矩阵,进而通过特征提取模块22,由深度稀疏自编码器提取二阶邻相似度矩阵的低维特征,得到低维特征矩阵,从而通过聚类模块23,根据聚类算法对低维特征矩阵进行聚类,得到社区发现结果。本实施例针对加权网络图,综合考虑节点与邻居节点,及与邻居节点的邻居节点之间的联系,并利用深度稀疏自编码器提取二阶邻相似度矩阵的低维特征,使得对低维特征矩阵进行聚类而得到的社区发现结果更加准确。本实施例能够综合考虑节点与邻居节点,及与邻居节点的邻居节点之间的联系,提高社区发现的准确度。
在本实施例当中,所述对给定的加权网络图进行预处理,得到二阶邻相似度矩阵,具体为:分析加权网络图中节点间的联系,获取加权邻接矩阵和无权邻接矩阵;根据加权邻接矩阵和无权邻接矩阵,得到二阶邻相似度矩阵。
通过预处理模块21,分析加权网络图G=(V,E)中节点间的联系,获取网络的加权邻接矩阵W=[wij]n×n和无权邻接矩阵A=[aij]n×n。对于加权邻接矩阵W=[wij]n×n,wij表示节点i和节点j的连接边的权重,若wij=0,则说明节点i和节点j无边相连。对于无权邻接矩阵A=[aij]n×n,若aij=1,则说明节点i和节点j有边相连,若aij=0,则说明节点i和节点j无边相连。
当获取到网络的加权邻接矩阵W=[wij]n×n和无权邻接矩阵A=[aij]n×n,将无权邻接矩阵A=[aij]n×n与A=[aij]n×n相乘,得到B=[bij]n×n,其中,bij表示节点i到节点j路径长度为2的路径条数,即节点i和节点j公共邻居的个数。根据加权邻接矩阵W=[wij]n×n和B=[bij]n×n,得到节点的二阶邻居权重矩阵WN=[wnij]n×n,则二阶邻相似度矩阵为X=αW+βWN。
当得到二阶邻相似度矩阵,需要应用
Figure BDA0002395743760000131
对矩阵元素进行最小-最大规范化,即对矩阵元素进行线性变换,将矩阵元素的值映射到[0,1]之间。
在本实施例当中,所述基于深度学习的加权网络社区发现装置,还包括:训练模块24,用于在对给定的加权网络图进行预处理,得到二阶邻相似度矩阵之后,在通过深度稀疏自编码器提取二阶邻相似度矩阵的低维特征,得到低维特征矩阵之前,训练深度稀疏自编码器。
在本实施例当中,所述训练所述深层稀疏自编码器,具体为:分析加权网络图中节点间的联系,获取加权邻接矩阵和无权邻接矩阵;根据加权邻接矩阵和无权邻接矩阵,得到模块度矩阵和无权二阶邻邻接矩阵;使用二阶邻相似度矩阵、模块度矩阵和无权二阶邻邻接矩阵训练深度稀疏自编码器。
由于只将二阶邻相似度矩阵X作为训练集,并随机抽取二阶邻相似度矩阵X的部分列向量作为测试集,并不能可靠且充分地反映节点之间的相似关系,需要改进训练集和测试集。改进过程具体如下:
(1)加权网络中节点的关系是复杂的,能反映节点之间的相似性关系的矩阵也有不少。受模块度函数
Figure BDA0002395743760000141
(其中,m表示网络中边的总数目,ki表示节点i的度数,kj表示节点j的度数,aij表示节点i与节点j是否有边相连,若有,则aij=1,否则aij=0,δ(ci,cj)表示节点i与节点j是否在同一社区,若在,则δ(ci,cj)=1,否则δ(ci,cj)=0)的启发,用模块度矩阵Q=[qij]∈RNxN(其中,
Figure BDA0002395743760000142
Figure BDA0002395743760000143
表示节点i和节点j的期望权重,wj表示与节点i相连接的边的权重之和,W表示加权网络中的总权重,wij表示节点i与节点j的连接边的权重)来表示节点之间的相似性关系。
(2)除了模块度矩阵之外,将加权网络的无权二阶邻邻接矩阵Z也作为训练集的一部分。在预处理中得到网络的无权邻接矩阵A=[aij]n×n,和A=[aij]n×n的平方B=[bij]n×n,bij表示的是节点i到节点j路径长度为2的路径条数。考虑到无权邻接矩阵,故路径权重都为1,因此2*bij表示的是节点i到节点j的路径长度。加权网络的无权二阶邻邻接矩阵Z为Zij=0.5×aij+0.5×2*bij,其中,无权二阶邻邻接矩阵Z对角线元素表示节点i与其自身的相似性,全部置0。
(3)通过训练模块24完成预处理和上述操作,得到加权网络的二阶邻相似度矩阵、模块度矩阵和无权二阶邻邻接矩阵。将上述操作获取的模块度矩阵和无权二阶邻邻接矩阵分别应用
Figure BDA0002395743760000151
对矩阵元素进行最小-最大规范化,即对矩阵元素进行线性变换,将矩阵元素的值映射到[0,1]之间。使用二阶邻相似度矩阵、模块度矩阵和无权二阶邻邻接矩阵训练深度稀疏自编码器。
在本实施例当中,所述聚类算法包括K-means聚类算法。
本实施例通过聚类模块23,根据K-means聚类算法对低维特征矩阵进行聚类,有利于提高社区发现结果的准确度。
综上所述,实施本发明的实施例,具有如下有益效果:
通过对给定的加权网络图进行预处理,得到二阶邻相似度矩阵,进而通过深度稀疏自编码器提取二阶邻相似度矩阵的低维特征,得到低维特征矩阵,从而根据聚类算法对低维特征矩阵进行聚类,得到社区发现结果。本实施例针对加权网络图,综合考虑节点与邻居节点,及与邻居节点的邻居节点之间的联系,并利用深度稀疏自编码器提取二阶邻相似度矩阵的低维特征,使得对低维特征矩阵进行聚类而得到的社区发现结果更加准确。本实施例能够综合考虑节点与邻居节点,及与邻居节点的邻居节点之间的联系,提高社区发现的准确度。
以上所述是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也视为本发明的保护范围。
本领域普通技术人员可以理解实现上述实施例中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的程序可存储于一计算机可读取存储介质中,该程序在执行时,可包括如上述各实施例的流程。其中,所述的存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory,ROM)或随机存储记忆体(Random Access Memory,RAM)等。

Claims (4)

1.一种基于深度学习的加权网络社区发现方法,其特征在于,包括:
对给定的加权网络图进行预处理,得到二阶邻相似度矩阵;所述对给定的加权网络图进行预处理,得到二阶邻相似度矩阵,具体为:分析所述加权网络图中节点间的联系,获取加权邻接矩阵和无权邻接矩阵;根据所述加权邻接矩阵和所述无权邻接矩阵的平方,得到二阶邻居权重矩阵;根据所述加权邻接矩阵和所述二阶邻居权重矩阵,得到所述二阶邻相似度矩阵;
训练深度稀疏自编码器;所述训练深度稀疏自编码器,具体为:分析所述加权网络图中节点间的联系,获取加权邻接矩阵和无权邻接矩阵;根据所述加权邻接矩阵和所述无权邻接矩阵,得到模块度矩阵和无权二阶邻邻接矩阵;使用所述二阶邻相似度矩阵、所述模块度矩阵和所述无权二阶邻邻接矩阵训练所述深度稀疏自编码器;
通过所述深度稀疏自编码器提取所述二阶邻相似度矩阵的低维特征,得到低维特征矩阵;
根据聚类算法对所述低维特征矩阵进行聚类,得到社区发现结果。
2.如权利要求1所述的基于深度学习的加权网络社区发现方法,其特征在于,所述聚类算法包括K-means聚类算法。
3.一种基于深度学习的加权网络社区发现装置,其特征在于,包括:
预处理模块,用于对给定的加权网络图进行预处理,得到二阶邻相似度矩阵;所述对给定的加权网络图进行预处理,得到二阶邻相似度矩阵,具体为:分析所述加权网络图中节点间的联系,获取加权邻接矩阵和无权邻接矩阵;根据所述加权邻接矩阵和所述无权邻接矩阵的平方,得到二阶邻居权重矩阵;根据所述加权邻接矩阵和所述二阶邻居权重矩阵,得到所述二阶邻相似度矩阵;
训练模块,用于训练深度稀疏自编码器;所述训练深度稀疏自编码器,具体为:分析所述加权网络图中节点间的联系,获取加权邻接矩阵和无权邻接矩阵;根据所述加权邻接矩阵和所述无权邻接矩阵,得到模块度矩阵和无权二阶邻邻接矩阵;使用所述二阶邻相似度矩阵、所述模块度矩阵和所述无权二阶邻邻接矩阵训练所述深度稀疏自编码器;
特征提取模块,用于通过所述深度稀疏自编码器提取所述二阶邻相似度矩阵的低维特征,得到低维特征矩阵;
聚类模块,用于根据聚类算法对所述低维特征矩阵进行聚类,得到社区发现结果。
4.如权利要求3所述的基于深度学习的加权网络社区发现装置,其特征在于,所述聚类算法包括K-means聚类算法。
CN202010133626.5A 2020-02-28 2020-02-28 一种基于深度学习的加权网络社区发现方法及装置 Active CN111371611B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010133626.5A CN111371611B (zh) 2020-02-28 2020-02-28 一种基于深度学习的加权网络社区发现方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010133626.5A CN111371611B (zh) 2020-02-28 2020-02-28 一种基于深度学习的加权网络社区发现方法及装置

Publications (2)

Publication Number Publication Date
CN111371611A CN111371611A (zh) 2020-07-03
CN111371611B true CN111371611B (zh) 2021-06-25

Family

ID=71210258

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010133626.5A Active CN111371611B (zh) 2020-02-28 2020-02-28 一种基于深度学习的加权网络社区发现方法及装置

Country Status (1)

Country Link
CN (1) CN111371611B (zh)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113114677B (zh) * 2021-04-13 2022-09-27 中国互联网络信息中心 一种僵尸网络检测方法及装置
CN113407784B (zh) * 2021-05-28 2022-08-12 桂林电子科技大学 一种基于社交网络的社团划分方法、系统及存储介质
CN113536907B (zh) * 2021-06-06 2024-09-06 南京理工大学 基于深度有监督特征选择的社会关系识别方法及系统

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104268271B (zh) * 2014-10-13 2017-09-22 北京建筑大学 一种兴趣和网络结构双内聚的社交网络社区发现方法
CN104537126B (zh) * 2015-01-29 2017-12-01 中南大学 一种基于边图随机游走的重叠社区发现方法
CN106027507B (zh) * 2016-05-11 2019-03-26 浙江大学软件学院(宁波)管理中心(宁波软件教育中心) 一种社交网络中匿名用户身份的识别方法
US10917415B2 (en) * 2018-01-10 2021-02-09 Intel Corporation Machine learning-based determination of program code characteristics
CN108596264A (zh) * 2018-04-26 2018-09-28 南京大学 一种基于深度学习的社区发现方法
CN109859062A (zh) * 2019-01-08 2019-06-07 西安理工大学 一种结合深度稀疏编码器和拟牛顿法的社区发现分析方法
CN110533545A (zh) * 2019-07-12 2019-12-03 长春工业大学 基于深度稀疏自编码器的边社区发现算法

Also Published As

Publication number Publication date
CN111371611A (zh) 2020-07-03

Similar Documents

Publication Publication Date Title
CN107622182B (zh) 蛋白质局部结构特征的预测方法及系统
CN111371611B (zh) 一种基于深度学习的加权网络社区发现方法及装置
CN103605972B (zh) 一种基于分块深度神经网络的非限制环境人脸验证方法
CN110232341B (zh) 基于卷积-堆叠降噪编码网络的半监督学习图像识别方法
US20190087726A1 (en) Hypercomplex deep learning methods, architectures, and apparatus for multimodal small, medium, and large-scale data representation, analysis, and applications
CN109711426B (zh) 一种基于gan和迁移学习的病理图片分类装置及方法
CN112036513B (zh) 基于内存增强潜在空间自回归的图像异常检测方法
CN108932705B (zh) 一种基于矩阵变量变分自编码器的图像处理方法
Chen et al. Dictionary learning from ambiguously labeled data
CN112905894B (zh) 一种基于增强图学习的协同过滤推荐方法
CN114048468A (zh) 入侵检测的方法、入侵检测模型训练的方法、装置及介质
CN115131558B (zh) 一种少样本环境下的语义分割方法
CN114330650A (zh) 基于进化元学习模型训练的小样本特征分析方法及装置
Alldrin et al. Clustering with EM and K-means
CN114943862B (zh) 一种基于结构性解析字典学习的两阶段图像分类方法
CN113435488B (zh) 一种图像采样概率提升方法及其应用
CN115359281A (zh) 基于深度子空间聚类顺序集成的图像聚类方法及系统
Kalkan et al. Online feature selection and classification
CN114238852A (zh) 运营数据的分析方法、装置、存储介质及电子设备
Xu et al. Steganography algorithms recognition based on match image and deep features verification
CN109145132B (zh) 从图像中提取哈希码的方法、装置及图像检索方法、装置
CN111598119A (zh) 一种基于残差网络的图像聚类方法
Rolon et al. A multi-class structured dictionary learning method using discriminant atom selection
Cheng The cross-field DBN for image recognition
CN112084960B (zh) 一种基于稀疏图的人脸表情识别方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant