CN114202035B

CN114202035B - 一种多特征融合的大规模网络社区检测算法

Info

Publication number: CN114202035B
Application number: CN202111543300.0A
Authority: CN
Inventors: 王明越; 蔡彪
Original assignee: Chengdu Univeristy of Technology
Current assignee: Hefei Minglong Electronic Technology Co ltd
Priority date: 2021-12-16
Filing date: 2021-12-16
Publication date: 2023-04-07
Anticipated expiration: 2041-12-16
Also published as: CN114202035A

Abstract

本发明公开了一种多特征融合的大规模网络社区检测算法，主要解决现有检测方法难以获得最优的特征来表示网络的内在本质，影响识别的准确性和社区检测结果的问题。检测算法，包括如下步骤：(S1)计算网络社区节点中的任意节点之间的相似值，获得相似性；(S2)获取边的局部特征表示；(S3)获取边的非局部特征表示；(S4)对边的局部特征和非局部特征在潜在特征空间进行融合，对融合后的视觉信息进行分类的方式来区分社区间的边和社区内的边；(S5)采用模块度优化对融合形成的初步社区进行合并来优化社区划分结果。通过上述方法，本发明提高了社区检测算法在复杂的现实网络中的综合性能和鲁棒性，更好地利用社区检测分类现实网络来做后续的应用。

Description

一种多特征融合的大规模网络社区检测算法

技术领域

本发明属于网络社区检测技术领域，具体地说，是涉及一种多特征融合的大规模网络社区检测算法。

背景技术

社区是由具有相似特性的节点组成的。现实生活中存在着很多大规模节点构成的网络，像社交关系网络、疾病传播网络和蛋白质交互网络等。利用社区结构可以展开很多应用，例如在社交网络中，通过社区检测可以根据兴趣、职业或地区形成不同的社会群组。然后就可以对特定人群进行职业推荐、朋友推荐和准确的广告投放等。因此，对复杂网络的社区检测具有重要的现实意义，通过对真实网络进行关键特征检测来更好地理解现实世界和促进行业发展。

传统的社区检测方法如谱聚类、统计推断，花费很大的时间和空间成本，因此它们不适合用于现实世界网络中的非线性结构信息。基于深度学习的社区检测算法提供了一个更灵活的解决方案，它可以学习非线性网络属性，如节点之间的关系并提供低维表示，以保持复杂网络的结构特征，所以更适合现实网络。其中基于卷积神经网络(CNN)的社区检测方法在这一领域表现出了优越的性能，它可以处理拓扑结构数据如图像数据，这有利于提高特征表示的鲁棒性。目前，这一类社区检测方法可以大致概括为两个主流，第一类是基于节点做分类，具有相同标签的节点被划分到同一社区中。第二类考虑的是对边做类别，即区分出社区内的边和社区间的边。基于边的图嵌入方法是一种具有代表性的基于边的社区检测方法，它将边结构转换为图像结构，然后基于CNN做边的分类。它首先去除社区之间的边，形成初始社区。然后，利用局部模块度优化的方法对初始社区进行合并得到最终的社区。但是上述方法存在一些问题，首先，手动定义节点之间的关系，在复杂的现实情况下可能难以获得最优的特征来表示网络的内在本质，然而边特征表示的退化最终会严重影响识别的准确性和社区检测的结果。其次，现有的边特征严重依赖于边的一阶邻居节点之间的关系，导致缺乏更全面的特征嵌入，如非局部特征。

发明内容

本发明的目的在于提供一种多特征融合的大规模网络社区检测算法，主要解决现有检测方法难以获得最优的特征来表示网络的内在本质，影响识别的准确性和社区检测结果的问题。

为实现上述目的，本发明采用的技术方案如下：

一种多特征融合的大规模网络社区检测算法，包括如下步骤：

(S1)计算网络社区节点中的任意节点之间的相似值，获得节点之间的相似性；

(S2)根据两个节点构成的边的一阶邻居节点的相似性获取边的局部特征表示；

(S3)采用定制化的随机游走策略获取边的非局部特征表示；

(S4)采用将一条边的局部和非局部特征融合为潜在特征空间中的一个综合融合特征，然后对融合后的视觉信息进行分类的方式来区分社区间的边和社区内的边；

(S5)采用模块度优化对融合形成的初步社区进行合并来优化社区划分结果。

在本发明中，所述任意节点之间的相似值采用k步邻接矩阵算法获得，根据公式：

其中，

表示在k步内节点v_i和节点v_j之间的定量相似性，β是每一步间接近邻的衰减因子，m表示节点v_i和节点v_j的中间节点数；进而得到反映节点v_i和其他邻居节点在预定义的k步内的关系的紧密程度的相似矩阵：

进一步地，在本发明中，获取边的局部特征表示的具体过程如下：

定义网络社区节点图G＝(V，E)是无向无权图，其中V＝{v₁，...，v_n}表示节点的集合，E＝{e_(1，2)，...，e_(n，m)}表示边的集合；

首先得到每条边的两个节点v_i、v_j的一阶邻居

用节点的一阶邻居表示网络社区的局部结构；

其中，节点v_i的p个一阶邻居节点可以表示为：

节点v_j的q个一阶邻居节点可以表示为：

由于边的局部特征是一个矩阵，其每个元素都是节点之间的相似性，因此通过查询公式(1)中对应的节点相似度矩阵得到边e_(i，j)的局部特征矩阵

其中

为预定义的运算符，通过查询对应的节点相似矩阵

和

可以计算两组元素的相似度，最后，整个图G的所有边的局部特征矩阵可以表示为：

进一步地，在本发明中，获取边的非局部特征表示的具体过程如下：

定义游走策略中游走的步数为T，则节点v_i的游走序列可被表示为：

节点v_j的游走序列可被表示为：

其中，一条边的两个节点在游走时不能通过自身的边；且在游走过程中去除设定数量的两点的共同一阶邻居；

计算两个游走序列RandomWalk(v_i)和RandomWalk(v_j)中的每个节点分别与节点v_i和v_j的相似性值可得：

其中

为预定义的运算符，通过查询对应的节点相似矩阵

和

可以计算两组元素的相似值，从而得到整个图G的所有边的非局部特征矩阵：

进一步地，在本发明中，局部特征和非局部特征融合的具体过程如下：

首先把局部特征和非局部的特征表示为两个灰度图像；

通过预训练用VGG19网络作为提取器将局部特征和非局部特征嵌入到一个统一的特征空间中，产生局部特征和非局部特征在潜在特征空间中的表示；

将局部特征与非局部特征图按通道连接，并使用1×1卷积层对所得到的特征进行融合；

最后将融合的特征输入两个全连接层做边分类。

进一步地，在本发明中，合并优化社区划分结果的具体过程如下：

(S51)：输入网络社区图G＝(V，E)；

(S52)：融合形成初始社区FC＝{C₁，C₂，…，C_p}；

(S53)：输入标准社区数量M；

输出最终社区EC＝{Ec₁，Ec₂，...，Ec_M}；

(S54)：定义局部模块度最大的前M个社区为真实社区：

RC＝{Rcom₁，Rcom₂，…，Rcom_M}；

(S55)：定义其他社区为虚拟社区VC＝{Vcom₁，Vcom₂，…，Vcom_P}；

(S56)：循环：i从1到p；

(S57)：对每一个虚拟社区Vcomi获得他的最邻近社区：

C_i＝{Ncom₁，Ncom₂，…，Ncom_Q}，i∈[1，P]，Q∈[1，M]

(S58)：计算NCi的模块度作为R_j，j∈|NC_i|forVcom_i；

(S59)：将Vcom_i和它的NC_i进行随机合并，然后计算所有合并了的社区的局部模块度作为MER_j，j∈|NC_i|；

(S510)：计算ΔR＝MER_j-R_j，选择Ncom，跟Vcom_i进行合并；

(S511)：更新真实社区RC；

(S512)：循环结束；

(S513)：输出合并结果EC＝RC。

与现有技术相比，本发明具有以下有益效果：

本发明克服了人工定义节点之间的关系和单方面特征表示带来的严重局限性，采用提出的基于边分类的深度神经网络多特征融合社区检测模型MFF-Net可以获得对大型现实网络的表示能力。通过引入节点间的定量邻居关系，采用特征自动生成策略，并同时考虑了表示边的局部特征和非局部特征。提高了社区检测算法在复杂的现实网络中的综合性能和鲁棒性，更好地利用社区检测分类现实网络来做后续的应用。

附图说明

图1为本发明方法的流程示意图。

具体实施方式

下面结合附图说明和实施例对本发明作进一步说明，本发明的方式包括但不仅限于以下实施例。

实施例

如图1所示，本发明公开的一种多特征融合的大规模网络社区检测算法，首先为了描述网络社区边的特征，需要评估网络社区节点之间的关系，这种关系可以通过定量上的相似性来进一步描述，这能很好地反映图的内在结构和节点之间的潜在相关性。

在本实施例中，利用k步邻接矩阵算法来评价两个节点定量的邻域关系，也就是相似性。其计算过程如下：

在式(1)中，

表示在k步内节点v_i和节点v_j之间的定量相似性，β是每一步间接近邻的衰减因子，max(·，·)是两个值之间的最大运算符，m表示节点v_i和节点v_j的中间节点数(如果v_m是一个中间节点，那么

)。如果在预定义的k步中，从i到j存在路径，那么

将大于0，路径越短

的值越大。特别地，如果节点v_i和节点v_j是直接通过边e_(i，j)连接的，则

为1，如果在预定义的k步内，i到j没有路径，那么

为0。通过这样做，能够得到节点的相似矩阵

来表示节点v_i和其他节点之间的相似性值。

在式(2)中，

能反映节点v_i和其他邻居节点在预定义的k步内的关系的紧密程度，依照此方法可以计算任意节点之间的节点相似性。注意，预定义的参数k应根据网络的实际情况进行选择。

在接下来的步骤中，将利用在这里获得的相似性来量化边的两个节点的局部和非局部关系来表示边的特征。

为了获取边的局部特征表示，首先假设G＝(V，E)是无向无权图，其中V＝{v₁，...，v_n}表示节点的集合，E＝{e_(1，2)，...，e_(n，m)}表示边的集合。比如e_(1，2)表示节点v₁和节点v₂之间的边。由于节点的一阶邻居可以很好地表示网络的局部结构，首先需要得到每条边的两个节点的一阶邻居。

假设节点v_i的p个一阶邻居节点可以表示为：

节点v_j的q个一阶邻居节点可以表示为：

然后，计算一阶邻居节点集之间的相似性值以反映每条边的局部特征，注意，边的局部特征是一个矩阵，其每个元素都是节点之间的相似性，通过查询式(1)中对应的节点相似度矩阵得到。所以边e_(i，j)的局部特征矩阵

可以表示为：

其中

为预定义的运算符，通过查询对应的节点相似矩阵

和

可以计算两组元素的相似度。最后，整个图G的所有边的局部特征矩阵可以表示为：

除了局部特征外，本实施例进一步提出了一种新的非局部特征表示方法，该方法通过采样于一种定制化随机游走策略的非局部节点来刻画。

首先提出了两个关于边的非局部特征的合理假设：

假设1：社区内的边的非局部特征应该是：一条社区内的边的两个节点与一些相同的节点具有很强的量化邻居关系，而与社区外的其他节点的关系较弱。

假设2：社区间的边的非局部特征应该是：对于一条社区间的边的两个节点，(一条边有两个节点，源节点和目标节点)。如果源节点与一些节点的量化邻居关系较强，则目标节点与这些节点的关系可能相对较弱。

因此，通过对边的非局部观察，可以更好地探索网络的整体结构。在本实施例中，采用了一种定制化的双向游走策略方法来学习非局部特征。具体来说，一条边的两个节点在整个网络上分别从两个不同的方向进行随机游走，以充分探索网络的内在结构。显然，随机游走可以实现非局部优化，而不容易陷入局部最小值的问题，这很好地满足了本实施例的要求。

首先定义游走的步数为T，节点v_i的游走序列可被表示为：

节点v_j的游走序列可被表示为：

另外，为了获得更好的非局部特征表示，需要对双向游走策略施加了两条限制：

限制1：一条边的两个节点在游走时不能通过自身的边(如果是社区间的边，经过限制后源节点很难到达目标节点或游走到目标节点附近)，这样得到的游走序列可以更好地反映网络的连接程度。

限制2：当网络的混合参数相对较高时，意味着网络结构更加复杂，这个时候网络中的许多边都是连接在一起的。无论是在社区内还是在社区间，目标节点都会很容易地游走到源节点附近，这种不确定性可能会导致模糊的特征产生。因此，规定在游走过程中去除一定数量的两点的共同一阶邻居。其优点是避免源节点通过其邻居很容易地到达目标节点，而是只有在非常紧密的结构中，源节点才能到达目标节点。网络的混合程度越高，社区中节点可能存在更多的共同邻居，那么可以灵活地将被删除节点的数量设置得稍微高一些。

当得到一条边的两个游走序列RandomWalk(v_i)和RandomWalk(v_j)后，计算两个序列中的每个节点分别与节点v_i和v_j的相似性值，然后得到矩阵：

其中

为预定义的运算符，通过查询对应的节点相似矩阵

和

可以计算两组元素的相似值。所得到的矩阵(由四个行向量组成)可以反映上述两个假设。具体来说，如果是社区间的边，根据假设2，前两行的相似性值将同时较低。相反，如果是社区内的边，根据假设1，前两行相似性值会同时很高。毫无疑问这有助于获得更好的分类性能。由于其随机性和混合性，这在现实网络中可能并不总是成立。因此，本实施例进一步利用两个额外的关系(最后两个行向量)将非局部表示扩展为更全面的版本。最后，整个图G的所有边的非局部特征矩阵可以表示为：

在得到了网络社区间的边的局部和非局部特征后。在此，融合这两个特征以获得更全面的特征表示。不同于之前的方法将一条边的特征转换为一个RGB图像，并将该图像输入一个基于CNN的分类器以区分社区间的边和社区内的边。本实施例首先将一条边的局部和非局部特征融合为潜在特征空间中的一个综合融合特征，然后对融合后的视觉信息进行分类。与单一特征相比，本实施例提出的融合方案，充分利用局部和非局部特征，将有助于在现实的复杂网络中更好的分类表现。

首先把局部和非局部的特征表示为两个灰度图像，然后就可以利用基于CNN的模型对视觉信息(如RGB和灰度图像)的良好处理能力。注意，从[0，1]重新调整映射到[0，255]的灰度版本是很容易实现的。由于基于CNN的分类模型使用全连接层，图像大小通常要被填充到一个统一的大小(如128×128)。如果将非局部特征图和局部特征图直接融合在一起(如原始灰度图像空间中的连接操作和通道)，由于填充的不确定性，这两幅图像的对应像素位置的信息可能不相关，因此不能很好地反映该边的特征信息。所以，在潜在特征空间中融合这两个特征是一个可行的选择。本实施例通过预训练用VGG19网络作为提取器将局部特征和非局部特征嵌入到一个统一的特征空间中。在特征融合阶段，将随机的非局部和局部特征映射输入到标准的VGG19网络进行边分类。(需要注意的是，输入是训练前过程中的单一灰度。)经过预训练过程后，利用VGG19模型的卷积部分作为特征提取器，可以将原始特征嵌入到潜在特征中。这里是局部与非局部特征图按通道连接(从两个4×4×128特征图到一个4×4×512特征图)。然后使用1×1卷积层对所得到的特征进行融合，这是一种简单而有效的融合方法。同时，融合特征的大小可以恢复到原来的大小，以缓解后续全连接层的内存消耗。最后，将融合的特征输入两个全连接层(它们都是1024个神经元)做边分类。

最后通过上述方法区分社区内的边和社区间的边，可以得到网络社区的初始结构。然而，由于在复杂的现实网络中可能有一定数量的社区内的边被误分为社区间的边，导致社区又被分为几个小社区(又称初步社区)。在这种情况下，模块度优化是一个合适的策略来将分类模型形成的初步社区进行合并来优化社区划分结果。本实施例提出了初始社区合并方法的时间高效版本。具体来说，两个子社区只有在它们有连接的边时才能合并。因此，在本实施例的局部模块化方法中，只计算与虚拟社区有关联的特定Q个真实社区(称为最近的社区)的局部模块度。由于在实际中，Q往往远小于M，M表示在标准社区中的所有社区数，真实社区是M个初始社区中模块度最大的，其他称为虚拟社区。所以本实施例的优化的社区合并方法无疑可节约很多时间。优化版本的整体算法流程如下：

(S51)：输入网络社区图G＝(V，E)；

(S52)：融合形成初始社区FC＝{C₁，C₂，…，C_p}；

(S53)：输入标准社区数量M；

输出最终社区EC＝{Ec₁，Ec₂，...，Ec_M}；

(S54)：定义局部模块度最大的前M个社区为真实社区：

RC＝{Rcom₁，Rcom₂，…，Rcom_M}；

(S56)：循环：i从1到p；

(S57)：对每一个虚拟社区Vcomi获得他的最邻近社区：

C_i＝{Ncom₁，Ncom₂，…，Ncom_Q}，i∈[1，P]，Q∈[1，M]

(S58)：计算NC_i的模块度作为R_j，j∈|NC_i|forVcom_i；

(S510)：计算ΔR＝MER_j-R_j，选择Ncom，跟Vcom_i进行合并；

(S511)：更新真实社区RC；

(S512)：循环结束；

(S513)：输出合并结果EC＝RC。

上述实施例仅为本发明的优选实施方式之一，不应当用于限制本发明的保护范围，但凡在本发明的主体设计思想和精神上作出的毫无实质意义的改动或润色，其所解决的技术问题仍然与本发明一致的，均应当包含在本发明的保护范围之内。