CN113989544A

CN113989544A - 一种基于深度图卷积网络的群体发现方法

Info

Publication number: CN113989544A
Application number: CN202111153366.9A
Authority: CN
Inventors: 汪晓锋; 赵本香; 沈国栋; 王栽胜; 张增杰; 全大英
Original assignee: China Jiliang University
Current assignee: China Jiliang University
Priority date: 2021-09-29
Filing date: 2021-09-29
Publication date: 2022-01-28

Abstract

本发明公共了一种基于深度图卷积网络的群体发现方法，用于解决现有方法对属性网络中的群体结构识别率低的问题。它具体包括：获取属性网络用户交互行为数据；通过对属性网络数据进行预处理以建模属性网络拓扑并确定少量节点标签；利用标签传播算法对现有的节点标签进行预训练以扩展标签集合；通过构建深度图卷积模型同时对结构信息和节点属性进行深度融合并自动识别完整的群体结构。采用本发明的技术方案，有利于挖掘大规模属性网络中群体特征，同时有效提高群体识别的准确性。

Description

一种基于深度图卷积网络的群体发现方法

技术领域

本发明属于网络数据挖掘领域。具体地，涉及一种基于深度图卷积网络的群体发现方法。

背景技术

近年来，随着信息技术和互联网的快速发展，人与人之间以及人与环境之间的联系与交互变得普遍而又复杂，从而形成了各种各样的复杂系统。这些复杂系统通常可以用复杂网络来进行抽象描述，如在线社交网络、移动通信网络等。复杂网络涉及物理、生物、社会科学、系统科学、网络科学等众多交叉领域，逐渐成为解决复杂问题的一个强有力的工具，在如社交网络分析、生物工程、电力与交通、人类行为分析、大数据分析等众多领域有着广泛的应用。这些复杂网络系统中相互关联的个体形成的网络拓扑结构具有随机性和自组织性，并且表现出明显的群体聚集特征。近年来研究表明群体结构是复杂网络中普遍存在的一种重要中观结构特征，通常与网络中相应的功能模块及群体属性有着紧密联系。群体发现从中观视角揭示复杂网络的群体聚集特征和功能结构特性，对于分析复杂网络的节点特征、结构属性、群体交互模式等问题起着关键作用，并为研究复杂网络结构演化机制、信息传播规律、群体行为等提供重要支撑。

群体结构在复杂网络系统中对应不同的功能模块和结构单元，其内部节点相对于群体之间有着更紧密的连接。例如，在社交网络中，由于社会交互不断增强，基于不同兴趣、主题、职业、地域等特征形成的大量紧密群体，社区结构特征尤为明显；通信网络中的群体代表了通信群或个人关系网络。因此，挖掘网络中紧密联系的群体结构对理解和分析网络结构属性、信息传播规律、人类社会组织结构等有重要的应用价值。构建复杂关系网络的拓扑结构并将其划分为不同的紧密连接的群体或模块，是目前常用的方法。典型方法如通过模块度最大化将复杂网络尽可能地划分为不同的群体结构。然而，复杂网络结构在整体上呈现稀疏性，使得这类方法对于解决该优化问题存在一定的挑战(Fortunato S,HricD.Community detection in networks:A user guide.Phys Rep,2016,659:1-44)。实验表明，这类方法在较小规模的关系网络上表现较好，但在大规模的复杂网络无法获得最优的群体发现结果(Hoffmann T,Peel L,Lambiotte R et al.Community detection innetworks without observing edges.Science Advances,2020,6(4):eaav1478)。同时，随着大数据技术的发展，除了拓扑结构外，复杂网络中积累了大量多源属性信息，并且对群体结构的形成与演变产生重要影响，如金融交易网络中，可基于用户间的交互信息和属性特征挖掘出潜在的诈骗、洗钱等异常行为。而上述方法通常无法利用这些信息，导致了较低的群体发现精度和准确度。因此，属性网络中的群体发现是亟待解决且具有重要应用价值的问题。最近，一些基于深度学习的群体发现方法相继被提出(Su X,Xue S,Liu F et al.AComprehensive Survey on Community Detection with Deep Learning,2021.https://arxiv.org/pdf/2105.12584.pdf)，其中图卷积网络因能很好地融合网络结构和节点属性信息而被引入到网络群体发现任务中。然而，这类方法在模型结构和可扩展性方面存在不足。一方面，这类方法通常以有监督或半监督的方式来识别未知节点，在模型训练过程中需要大量的节点标签来进行模型优化，而在实际应用中难以获得大量的先验标记节点，或者仅存在少量的带标签节点。另一方面，由于图卷积容易导致过度平滑的问题，目前所采用的图卷积网络模型实际上包含2到3个卷积层的浅层结构，在节点标签推断过程中无法利用网络的全局信息。因此，如何利用少量标签并有效加深图卷积网络层次来实现群体划分是一个亟待解决的问题。

发明内容

鉴于上述，本发明提供一种基于深度图卷积网络的群体发现方法，在该方法基于少量节点标签以自监督的方式在群体发现过程中对网络结构和节点属性信息充分融合，并有效利用网络残差连接来缓解深度模型带来的过度平滑问题，从而在降低计算复杂度的同时，提高群体发现的准确性。具体地，在获取属性网络用户交互行为数据后，通过对属性网络数据进行预处理以建模属性网络拓扑并确定少量节点标签，然后利用标签传播算法对现有的节点标签进行自监督学习以获得扩展的标签集合，最后通过构建深度图卷积模型对网络结构和节点属性进行深度融合并以自动识别完整的群体结构。

为达到上述目的，本发明采用以下的技术方案予以实现；

本发明第一方面，提供了一种基于深度图卷积的群体发现方法，包括以下步骤：

S1：针对特定的属性网络，获取网络中所有用户间的复杂关系或交互行为数据；

S2：对所获取数据进行清洗及预处理，根据用户节点之间的交互关系构建复杂网络结构，并提取各节点的属性信息；

S3：基于网络拓扑结构和节点属性信息，将网络邻接矩阵转换成权重矩阵，并将节点属性合成属性矩阵；

S4：将少量已知节点标签作为初始训练集，利用标签传播策略进行预训练以扩展训练集；

S5：基于权重矩阵及节点属性矩阵，以特定的规则构建深度图卷积模型以避免过度平滑的问题；

S6：利用扩展的标签训练集来训练该图卷积网络模型以预测未标记节点的群体标签，从而识别属性网络中潜在的群体结构；

S7；利用聚类精确度和标准互信息度量对得到群体发现结果进行评价；

在一种可能的实施方式中，所述步骤S3权重矩阵转换和节点属性矩阵合成，进一步包括：

S31:对于属性网络G＝(V,E,X)(其中V表示所有节点的集合，包括带标签节点和无标签节点，E为节点间连边的集合，X代表网络属性集合)，利用如下权重公式来计算各边的权重w_ij，得到网络各节点间的权重矩阵W。节点v_i和节点v_j之间的权重计算公式为：

公式中x_i和x_j分别表示节点v_i和节点v_j在X中对应的属性特征向量，α为超参数；

S32：将节点属性信息转换成属性矩阵形式X＝{x_i}，其中x_i为节点v_i对应的属性特征向量；

在一种可能的实施方式中，所述步骤S4利用标签传播策略来扩展标签训练集，进一步包括：

S41：初始化节点标签，将少量具有先验标签的节点作为初始标签集，在标签传播过程中固定其标签不变；对于未标记节点，给每个节点分配一个唯一的标签；

S42:根据节点间的权重w_ij，计算节点v_i的标签向节点v_j传播的概率p_ij；

S43:构建标签矩阵Y_i，C指示节点v_i与群体C之间的隶属关系；

S44:每进行一次标签同步传播后，无标记节点以其接收到的邻居节点的标签中最多的标签来更新自身的标签；

S45：反复执行步骤S44，直到每个节点的标签都不再发生变化为止；

S46：针对每类群体标签，选取前k未标记节点的标签加入到初始标签集合中作为扩展的训练集；

在一种可能的实施方式中，所述步骤S5构建深度图卷积模型，进一步包括：

S51：基于网络邻接矩阵A和特征向量矩阵X，构建一个多层图卷积网络模型，其中第l层卷积操作定义为：

其中α_l为调节权重的超参数，σ(·)代表激活函数ReLU(·)(满足ReLU(x)＝max(0,x)，

为增加了自环后的形式

为

对应的度对角矩阵(满足

)。H⁽⁰⁾表示深度图卷积网络输入层的属性特征矩阵(在此有H⁽⁰⁾＝X)，H^(l)表示第l层各节点的嵌入向量，W^(l)为该层可训练的权重矩阵，H^(l+1)为该层以H^(l)为输入经过卷积操作后的输出；

S52：基于深度图卷积网络的输出，采用softmax分类器将学习到的节点向量表示映射为节点对应的标签，该过程可以形式化为：

Z＝softmax(H^(l))

其中，H^(l)表示通过图卷积网络学习到的节点表示矩阵，softmax函数定义为

(其中Z＝∑_iexp(x_i))，各层的权重矩阵Θ在随机初始化后在训练过程获得自动更新；

在一种可能的实施方式中，所述步骤S6利用扩展的训练集来训练图卷积网络模型以预测未标记节点的群体标签从而完成群体识别任务，进一步包括：

S61；将由S4得到的扩展的标签集作为训练集，和属性矩阵同时输入上述模型进行训练；

S62；在模型参数不再更新后结束训练，根据模型softmax层的输出将未标记节点划分到不同群体，最终得到属性网络的群体识别结果。

在一种可能的实施方式中，所述属性网络类型包括以下中的至少一种：社交媒体领域中的社交网络；金融风控领域的交易网络；通信系统中的用户关系网络；科学研究领域的引文网络。

在一种可能的实施方式中，所述群体类型包括以下中的至少一种：社交网络中不同兴趣倾向的用户群体；风控领域中潜在的欺诈群体；通信网络中特定的用户群体；引文网络中不同研究方向学者群体。

本发明第二方面，一种基于深度图卷积网络的群体发现系统，包括以下模块：

属性网络数据获取模块，用于获取属性网络中不同用户间的交互行为数据；

数据预处理模块，基于属性网络数据，利用所有用户节点及节点间的关系连接以构建网络拓扑，选择用户属性特征获得节点属性集合及矩阵，并确定已知的节点标签；

预训练模块，基于已知的少量节点标签信息，通过标签传播模型进行预训练以获取扩展的标签节点集合；

图卷积网络模块，基于网络拓扑结构和节点属性矩阵，构建深度图卷积网络模型，并基于输入信息完成训练过程；

群体识别与评价模块，基于深层图卷积模型的特征向量输出，通过分类器推断节点的标签信息以实现群体发现，并对所获得的群体发现结果进行评价。

与现有技术相比，本发明具有如下的有益效果：

高效性：本发明所提供的方法通过构建深度图卷积网络对网络拓扑和属性信息进行深度融合，从而构建了高效的群体识别模型。一方面，浅层图卷积模型无法有效利用网络的全局属性，而深度图卷积模型的引入使得在图卷积操作过程中可有效利用网络全局信息从而提高了群体发现的效率，同时避免了因模型加深带来的过度平滑问题。另一方面，在基于少量的先验节点标签条件下，利用基于标签传播机制的预训练过程有效扩展了节点标签，并结合深度图卷积网络可以高效地识别潜在的群体结构，提高了群体发现的性能。

准确性：本发明基于属性网络的固有信息进行建模，充分利用了少量先验知识，通过网络拓扑和节点属性以弱监督的方式对群体结构进行挖掘，建立了端对端的群体发现模型，可用来处理大规模属性网络，对于真实的复杂网络实用性强。相比于当前代表性方法如LPA+、MGAE、GCN等在准确性上有了很大提升。

附图说明

通过阅读参照以下附图对非限制性实施例所作的详细描述，本发明的其它特征、目的和优点将会变得更明显：

图1为本发明实施例的基于深度图卷积网络的群体发现方法流程图；

图2为本发明实施例的基于标签传播机制的预训练示意图；

图3为本发明提供一种基于深度图卷积网络的群体发现方法的示意图；

图4为本发明提供的一种深度图卷积网络的群体发现系统结构图；

如下具体实施例将结合上述附图进一步说明本发明。

具体实施方式

下面结合具体实施例对本发明进行详细说明。以下实施例将有助于本领域的技术人员进一步理解本发明，但不以任何形式限制本发明。应当指出的是，对本领域的普通技术人员来说，在不脱离本发明构思的前提下，还可以做出若干变化和改进。这些都属于本发明的保护范围。

下面结合附图对本发明做进一步详细描述：

参见附图1-4，本发明实施例中提供了一种深度图卷积网络的群体发现方法。该方法针对以往方法对大量标签数据的依赖和因过平滑问题网络结构无法加深的问题，提出了结合预训练和深层图卷积网络的弱监督学习模型，同时利用网络拓扑和节点属性信息以揭示属性网络中潜在的群体结构。所提供方法基于获取的属性网络数据构建用户之间的交互关系网络、节点属性集合以及少量节点标签，通过基于标签传播机制的预训练过程扩展现有标签节点，同时将网络邻接矩阵转换为权重矩阵作为后续的模型的初始值；最后利用残差结构构建深度图卷积网络实现高效的群体发现。该方法利用基于深度学习的非线性模型融合网络拓扑和节点属性两方面信息并挖掘出更加合理的群体结构，能够在大规模属性网络中获得较好效果。

图1所示为本发明提供的一种基于深度图卷积网络的群体发现方法的详细流程图，其包括以下步骤：

S1：获取属性网络中所有用户间的交互行为数据。具体地，从属性网络中提取所有用户信息，对用户行为数据进行统计分析以获得用户间的交互关系；

S2：对所获取数据进行清洗及预处理，根据用户间的交互关系构建复杂网络结构，并提取各节点的属性信息。具体地，将属性网络中的各用户抽象为不同的节点，将用户之间的交互联系抽象为连边，从而构建一个复杂的属性网络G＝(V,E,X)，其中，V代表所有用户节点的集合，E代表用户节点间的连边集合，X代表每个节点的属性构成的集合。同时需对节点的属性进行去重、特征选择、数值编码、归一化等操作，以获得结构化的节点属性集合；

S3：基于网络拓扑结构和属性信息，将网络邻接矩阵转换成权重矩阵，并将节点属性合成属性矩阵，具体包括如下步骤；

S31:基于网络G＝(V,E,X)，利用权重公式来计算每条边的权重w_ij，得到网络节点间的权重矩阵。节点v_i和节点v_j之间的权重计算公式为：

其中，x_i和x_j分别表示节点v_i和节点v_j在X中对应的属性特征向量，α为超参数；

S32：将全部节点属性合成矩阵形式X＝{x_i}，其中x_i为节点v_i对应的属性向量；

S4：将少量已知节点标签作为初始训练集，利用标签传播模型进行预训练以扩展标签训练集。

图2所示为本发明提供的一种基于深度图卷积网络的群体发现方法所示步骤S4的示意图，其进一步包括如下步骤：

S41：将已知标签节点作为初始训练集，其标签集合L＝{l₁,...,l_k}∈{1,...,C}包括来自各群体类别的少量标签，C为群体类别数,k＜＜|V|。在标签传播过程中固定初始标签l_k∈L不变，初始化t＝0时无标签节点v_i的标签为

，并设置最大迭代次数T；

S43:构建标签矩阵Y_i,c指示节点v_i与群体c之间的隶属关系。定义Y_i,c＝δ(v_i,c度量节点v_i对群体c∈{1,…,C}的隶属关系，其通过标签传播过程来进行迭代更新；

S44:执行标签传播过程，每进行一次标签同步传播后，无标记节点以其接收到的邻居节点的标签中最多的标签来更新自身的标签。对于t时刻标签更新规则为：

l_i(t)＝f(l_i1(t-1),…,l_ik(t-1))

其中l_i(t)为t时刻节点v_i的标签，l_ik(t-1)表示节点v_i的第k个邻居节点在t-1时刻的标签,f为映射函数返回邻居节点中数量最多的标签；

S45：重复执行步骤S44，直到各节点的标签都不再发生变化或标签传播过程达到最大迭代次数T为止；

S5：基于网络邻接矩阵A和特征向量矩阵X，以特定的规则构建深度图卷积网络模型以避免过平滑问题，具体包括如下步骤：

S51:构建一个深层图卷积网络模型，其中第l层卷积操作定义为：

其中α_l为调节权重的超参数，σ(·)代表激活函数ReLU(·)，

为增加了自环后的归一化形式

为

对应的度对角矩阵。H⁽⁰⁾表示深度图卷积网络输入层的属性特征矩阵(在此有H⁽⁰⁾＝X)，H^(l)表示第l层各节点的嵌入向量，W^(l)为该层可训练的权重矩阵，H^(l+1)为该层以H^(l)为输入经过卷积操作后的输出；

Z＝softmax(H^(l))

S6：利用扩展的标签集来训练该图卷积网络模型以预测未标记节点的群体标签，从而揭示属性网络中潜在的群体结构,

图3所示为本发明提供的一种基于深度图卷积网络的群体发现方法所示步骤S6的框架图，其进一步包括如下步骤：

S61；将由S4得到的扩展的标签集作为训练集，输入上述图卷积网络模型进行特征学习，利用图卷积过程来学习各节点的向量表示；

S62；将学习到的节点表示向量输入到softmax分类器，以扩展的标签集作为监督信息来进行训练并更新模型参数，采用Adam优化器来优化整个训练过程。在模型参数不再更新后结束训练，根据模型softmax层的输出将未标记节点划分为不同群体，最终得到属性网络的群体识别结果。

S7；利用聚类精确度和标准互信息度量对得到群体发现结果进行评价。其中，聚类精确度衡量群发现结果中标签正确的数量占整个节点标签的比例，而标准互信息从信息熵的角度度量预测结果与真实标签之间的相近程度，其值越大表示越接近真实的群体结构划分。

本发明所述属性网络类型包括但不限于社交媒体领域中的社交网络、金融风控领域的交易网络、通信系统中的用户关系网络及科学研究领域的引文网络。所述群体类型包括但不限于通信网络中的用户群体、社交网络中的兴趣群体、风控领域的欺诈群体及引文网络中的学者群体。

本发明还公开了一种深度图卷积网络的群体发现系统。图4所示为该系统的结构框图，具体包括以下模块：

网络数据获取模块，用于获取属性网络中不同用户间的交互行为数据；

作为进一步的改进方案，属性网络数据获取模块还包括，从属性网络中提取所有用户的相关信息，包括反映用户间的交互行为的数据和用户本身的属性数据；

作为进一步的改进方案，数据预处理模块具体包括网络拓扑结构建模和节点属性特征提取两个子模块。其中，网络拓扑结构建模模块通过将属性网络中各用户识别为节点并根据用户间的交互关系建立链接，最后获得整个属性网络的拓扑结构；节点属性特征提取模块通过数据整合、清洗、特征选择、数值编码、归一化等过程，以获取所有用户节点的属性集合；

作为进一步的改进方案，预训练模块具体实现了权重矩阵计算和本发明所提供方法中所述步骤S4，包括权重矩阵转换和标签训练两部分。其中，权重矩阵转换根据相邻节点的属性向量来计算对各边的权重；标签训练基于标签传播过程将现有的少量标签信息进行扩展以获取更多的标签节点；

作为进一步的改进方案，图卷积模型创建模块根据邻接矩阵、属性矩阵构建了一个多层图卷积模型。其中，邻接矩阵和属性矩阵的维度决定了该模型的输入层神经元数量。该模型利用深度神经网络对节点拓扑结构和节点属性进行联合学习，同时对节点特征进行局部聚合；

作为进一步的改进方案，群体识别与评价模块具体实现了本发明所提供方法中所述步骤S6和S7的两个子模块。群体识别模块利用图卷积操作和神经网络的反向传播算法对图卷积模型进行训练，获得各节点的特征向量表示，然后通过softmax分类器来推断未标记节点的群体标签；评价模块采用聚类准确度和标注互信息两种指标来评价群体发现结果，直接反映了所提供方法的有效性，并对群体发现模块提供反馈以进一步改进系统性能。

为验证本发明的技术效果，将通过算法对比实验验证本发明的有效性。

本发明中实施例中所用属性网络数据集为从真实世界中收集的网络数据，实验采用了7种规模不同的属性网络数据集。这些数据集被随机划分为训练集和测试集，其中训练集占总节点规模的5％，使用30％的网络节点作为验证集，剩余数据作为测试集。本发明中实施例中所构建深度图卷积网络模型的深度为8层，即包括8个卷积层。实验运行在CPUIntel Pentium Dual-Core 2.0GHz，RAM 8.00GB的windows 7操作系统环境下，采用了Tensorflow深度学习框架并用Python软件编程实现。为了提高计算效率和准确性，实验采用了科学计算包Numpy和Scipy。

本发明所提供方法分别与三个代表性方法进行了对比，具体包括：一种传统群体发现方法LPA⁺，其基于网络拓扑信息通过标签传播过程来识别群体结构，在同类算法中表现较好；一种图嵌入方法MGAE，其通过自编码器来学习节点结构和属性特征表示，并用k-means实现群体划分，在小数据集上表现较好；一种半监督式的图神经网络方法GCN,其同时考虑了网络拓扑和节点属性信息，通过卷积操作聚合节点特征并推断节点标签，在训练标签足够的情况下表现较好。表1所示为本发明所提供方法与三种代表性方法在群体发现准确度上的实验数据对比。

表1本发明方法与3个代表性算法的群体发现准确度比较

通过对比发现，本发明所提供方法与LPA+、MGAE及GCN相比，在识别准确率上相应地平均提高了33.0％、8.6％和4.8％。本发明方法能够获得较好性能，其原因在于：一方面，本方法在群体发现过程中充分考虑了网络拓扑和节点属性信息，有效保证了群体发现的准确性。属性信息的加入带来性能上的提升，可以从MGAE和GCN实验结果中得到体现；另一方面，本方法采用了预训练策略扩展了节点标签，使得图卷积模型在训练过程中能更快收敛，并得到更优的结果。GCN同样基于图卷积操作来识别节点的群体标签，但实际上需要大量的先验标签来进行训练，并且很难保证这些标签在网络中均匀分布而有效地向全局网络传递标签信息。

下述为本发明的系统实施例，可以用于执行本发明方法实施例。对于系统实施例中未说明的细节，请参照本发明方法实施例。

本发明再一个实施例中，提供了一种基于深度图卷积网络的群体发现系统。该群体发现系统用于实现上述基于深度图卷积网络的群体发现方法。具体地，该基于深度图卷积网络的群体发现系统，包括属性网络数据获取模块、数据预处理模块、图卷积网络模块、群体识别与评价模块。

其中，数据预处理模块包括网络拓扑结构建模和节点属性特征提取两个部分。其中，网络拓扑结构建模通过将属性网络中各用户识别为节点并根据用户间的交互关系建立链接，最后获得整个属性网络的拓扑结构；节点属性特征提取通过数据整合、清洗、特征选择、数值编码、归一化等过程获取所有用户节点的属性集合和少量先验节点标签；预训练模块基于先验标签信息，根据边权重和标签传播过程以扩展标签训练集；图卷积网络模块基于网络拓扑结构和节点属性构建多层图卷积模型；群体发现于评价模块基于图卷积模型的输出用softmax分类器实现群体发现，同时评价所获得的群体发现结果并反馈以提升模型性能。

以上对本发明的具体实施例进行了描述。需要理解的是，本发明并不局限于上述特定实施方式，本领域技术人员可以在权利要求的范围内做出各种变化或修改，这并不影响本发明的实质内容。在不冲突的情况下，本申请的实施例和实施例中的特征可以任意相互组合。