CN111985623A

CN111985623A - 基于最大化互信息和图神经网络的属性图群组发现方法

Info

Publication number: CN111985623A
Application number: CN202010882758.8A
Authority: CN
Inventors: 熊贇; 张天奇; 张尧; 朱扬勇
Original assignee: Fudan University
Current assignee: Fudan University
Priority date: 2020-08-28
Filing date: 2020-08-28
Publication date: 2020-11-24

Abstract

本发明提供了基于最大化互信息和图神经网络的属性图群组发现方法，其特征在于，包括步骤：利用预先训练好的图神经网络对待处理矩阵进行表征学习得到初步节点表征，并对待处理属性图进行互信息计算得到全局互信息值；利用软聚类将初步节点表征划分到多个群组的中心得到分配矩阵；根据分配矩阵对原始群组进行模块度以及待处理属性图内的互信息计算得到模块度值以及群组互信息；根据模块度值、群组互信息以及全局互信息值计算总损失，并根据该总损失通过梯度回传对图神经网络进行迭代更新直到得到群组发现结果。本方法可以实现端到端的更新图神经网络不需要分步实现，并且能更好地捕捉节点属性关系，得到准确性更高的群组发现结果。

Description

基于最大化互信息和图神经网络的属性图群组发现方法

技术领域

本发明属于大数据技术领域，具体涉及一种基于最大化互信息和图神经网络的属性图群组发现方法。

背景技术

网络图由若干个节点和连接这些节点的链路构成，它广泛存在于现实生活中，可以用来表示物体与物体之间的联系。以向量的数据形式表现网络图的结构以及节点属性引起许多研究人员的关注，尤其是将复杂且不规则的网络图中包含的节点表示为长度相等且维度较低的向量是研究的重点，将该向量作为机器学习的基础可以令机器学习中类似于节点分类、节点聚类、异常检测和链接预测等任务表现出更好的效果。

目前，群组发现(Community Detection)被广泛用于节点聚类任务之中。其中，群组结构表现为内部节点连接紧密而外部节点连接稀疏的多个子图形式。群组结构在社交网络、蛋白质网络、引文网络等多种网络图中均有应用。关于群组发现方法研究经历了从简单考虑链路的基于模块度方法到基于深度游走的表征学习方法。利用群组发现实现属性图的节点聚类成为最新的研究热点。

目前，大多数属性图群组发现算法都是“节点表征学习+聚类”，这类方法虽然可以完成属性图的节点聚类任务，但是缺乏捕捉群组结构从而更新之前的节点表示的能力。还有属性图群组发现算法利用图神经网络来进行节点表征学习，它主要借助图神经网络每次迭代中学习到的节点属性重构邻接矩阵，并以重构的邻接矩阵和原有的邻接矩阵之间的距离作为优化目标，进行群组发现的训练。但这种方法重构时只以边相关信息作为优化目标，缺乏对于属性图本身属性特征的建模。并且图神经网络的迭代更新一般需要监督信息，设定合适的训练目标来处理群组发现这样的无监督问题十分困难。

发明内容

为解决上述问题，本发明提供了一种考虑到属性图的结构与属性目标的图神经网络模型从而实现属性图群组发现的方法，本发明采用了如下技术方案：

本发明提供了一种基于最大化互信息和图神经网络的属性图群组发现方法，用于对待处理属性图中的各个节点进行群组发现得到包含所有节点对应群组的群组发现结果，其特征在于，包括：步骤S1，获取待处理属性图中各个节点的节点信息，并将所有节点信息进行处理得到包含邻接矩阵和属性矩阵的待处理矩阵；步骤S2，利用预先训练好的图神经网络对待处理矩阵进行表征学习得到初步节点表征，并对待处理属性图进行互信息计算得到全局互信息值；步骤S3，利用软聚类将初步节点表征划分到多个群组的中心得到分配矩阵；步骤S4，根据分配矩阵对原始群组进行模块度以及待处理属性图内的互信息计算得到模块度值以及群组互信息；步骤S5，根据模块度值、群组互信息以及全局互信息值计算总损失，并根据该总损失通过梯度回传对图神经网络进行迭代更新直到得到群组发现结果。

本发明提供的基于最大化互信息和图神经网络的属性图群组发现方法，还可以具有这样的技术特征，其中，步骤S2包括如下子步骤：步骤S2-1，将待处理矩阵输入图神经网络得到初步节点表征H：

式中，X为属性矩阵，A为邻接矩阵，

为邻接矩阵A与单位对角矩阵相加得到，

矩阵对角线上的每个位置代表了节点的度，σ为激活函数，θ为网络参数；步骤S2-2，对属性矩阵进行负采样得到负采样属性矩阵

步骤S2-3，根据公式(2)对初步节点表征求平均，得到属性图的平均向量S；

S＝R(ε(X，A)) 公式(2)

式中，X为属性矩阵，A为邻接矩阵，R为平均池化函数；步骤S2-4，基于属性矩阵、邻接矩阵、负采样属性矩阵根据公式(3)求得全局互信息L_graph：

式中，N为待处理属性图的所有节点的数量，M为负采样节点个数，D为交叉熵函数，h_i为待处理属性图第i个节点的初步节点表征，i＝1，2，3...N，j＝1,2,3...M。

本发明提供的基于最大化互信息和图神经网络的属性图群组发现方法，还可以具有这样的技术特征，其中，步骤S3还包括如下子步骤：步骤S3-1，利用软聚类将初步节点表征划分到多个群组的中心得到初始群组中心；步骤S3-2，根据初始群组中心通过公式(5)进行初始群组中心所在的群组的其它节点的获取，得到新的群组中心μ_k：

式中，K为群组的总数量，h_i属于初步节点表征H，i＝1，2，3...N，k＝1，2，3...K，z＝1，2，3...K，r_ik为分配矩阵R中的第i行第k列位置的值，δ是代表聚类松弛程度的系数。

本发明提供的基于最大化互信息和图神经网络的属性图群组发现方法，还可以具有这样的技术特征，其中，模块度Q以及待处理属性图内的互信息L_community计算为：

式中，m为节点相连接的边的数量，d为节点的度数，R为分配矩阵，Tr为矩阵迹运算，A_ij为邻接矩阵中第i个节点和第j个节点之间是否有边相连接，d_id_j是第i个节点以及第j个节点之间的度数，D为交叉熵函数。

本发明提供的基于最大化互信息和图神经网络的属性图群组发现方法，还可以具有这样的技术特征，其中，模块度值Q、群组互信息L_community以及全局互信息值L_graph计算总损失L：

L＝αL_graph+βL_community+Q 公式(6)

式中，α和β为超参数。

本发明提供的基于最大化互信息和图神经网络的属性图群组发现方法，还可以具有这样的技术特征，其中，分配矩阵R中的第i行第k列位置的值。其中，群组发现结果c_i为：

式中，i＝1，2，3...N，k＝1，2，3...K，N为待处理属性图的所有节点的数量，K为群组的总数量，r_ik为分配矩阵R中的第i行第k列位置的值。

发明作用与效果

根据本发明的基于最大化互信息和图神经网络的属性图群组发现方法，由于利用图神经网络对待处理矩阵进行互信息计算得到全局互信息，进而将该全局互信息作为后续更新图神经网络的总损失的组成部分，因此为图神经网络的迭代更新提供了一定的监督信息，使得群组发现这样的无监督任务取得更好的效果。又由于利用软聚类将初步节点表征划分到多个群组的中心得到分配矩阵，进而根据分配矩阵对原始群组进行模块度以及待处理属性图内的互信息计算得到模块度值以及群组互信息，达到约束图神经网络以及群组，因此保证了整个过程可微，便于图神经网络的迭代更新。再由于根据模块度值、群组互信息以及全局互信息值组成的总损失对图神经网络进行迭代更新直到找到最佳的群组发现结果，因此实现了端到端的学习迭代更新图神经网络，相比于传统的“节点表征学习+聚类”两步法属性图群组发现算法不仅不需要分步实现，而且还能更好地捕捉属性图里的节点属性关系。还由于根据该总损失通过梯度回传对图神经网络进行迭代更新，因此，得到的群组发现结果具有更高的准确性。

本发明的基于最大化互信息和图神经网络的属性图群组发现方法通过将待处理属性图中获得的异质信息输入到图神经网路，经过层次搜索、计算矩阵以及邻居信息聚合最后得到群组发现结果。因此，本发明可以在复杂的属性图中发现具有内聚性的子群组，在实际的产业领域也具有广泛的应用前景。例如，在社交网站的用户推荐场景中，可以帮助用户查找到本身所在的在关系网络中的邻近节点，为群组中的用户进行推荐有助于提高推荐响应度；在安全风控领域，可以将安全风控中涉及到的网络关系划分为多个子群体，结合已知的异常线索信息(例如：黑名单)可以找到异常群组，比如对于公安部门追查犯罪团伙，可以利用已知的犯罪人信息找到该犯罪人对应的群组从而实现该犯罪人员所在的整个犯罪团伙的搜查；在生物网络中，可以找到类似的蛋白质结构。

附图说明

图1为本发明实施例的基于最大化互信息和图神经网络的属性图群组发现方法的流程图；以及

图2为本发明实施例的图神经网络训练过程的流程示意图。

具体实施方式

为了使本发明实现的技术手段、创造特征、达成目的与功效易于明白了解，以下结合实施例及附图对本发明的基于最大化互信息和图神经网络的属性图群组发现方法作具体阐述。

<实施例>

图1是本发明实施例的基于最大化互信息和图神经网络的属性图群组发现方法的流程图。

如图1所示，基于最大化互信息和图神经网络的属性图群组发现方法的过程包括如下步骤：

步骤S1，获取待处理属性图中各个节点的节点信息，并将所有节点信息进行处理得到包含邻接矩阵和属性矩阵的待处理矩阵。

其中，将待处理属性图中每个节点的特征记录为属性矩阵，将节点间的连边关系记录为邻接矩阵。

本实施例中，给定一个带有节点属性的属性图

其中，

代表所有节点的集合，ε代表所有边的集合，X为属性矩阵，X＝{x₁，x₂，x₃…x_n}，N是整张图中节点的个数，

p代表了每个节点初始属性的维度。根据

ε可以得到邻接矩阵A∈{0，1}^N×N，其中有边的两个节点对应的A_ij＝1，反之则A_ij＝0。

步骤S2，利用预先训练好的图神经网络对待处理矩阵进行表征学习得到初步节点表征，并对待处理属性图进行互信息计算得到全局互信息值。

图2为本发明实施例的图神经网络训练过程的流程示意图。

其中，图神经网络的训练过程包括如下步骤：

步骤T1，准备数据集，并通过数据集中的节点连边以及节点属性信息生成一个属性图。

本实施例中，图神经网络训练时使用的数据集为引文网络数据集Cora，该数据集由机器学习论文组成，属于图深度学习相关研究领域被广泛使用的数据集，它共分为以下七类群组：基于案例、遗传算法、神经网络、概率方法、强化学习、规则学习以及理论。其中，论文的选择标准是每篇论文引用或至少被一篇其他论文引用。整个Cora中共有2708篇论文，在对所有论文完成词干堵塞和去除词尾后，再删除文档频率小于10的所有单词，最终Cora只剩下1433个独特的单词(即Cora数据集的特征维度为1433维)。

步骤T2，根据属性图生成邻接矩阵以及属性矩阵。

如图2中的(a)部分所示，根据属性图得到邻接矩阵A以及属性矩阵X。

步骤T3，搭建初始图神经网络，并设置初始图神经网络参数。

步骤T4，打乱属性矩阵中每个节点的内部属性完成对属性矩阵的负采样得到负采样属性矩阵。

其中，负采样是指在每个节点的特征向量里随机交换某些维度上的属性值，从而形成一个新的伪节点特征及负采样属性矩阵。

步骤T5，将属性矩阵、邻接矩阵以及负采样属性矩阵输入初始图神经网络得到节点表征。

步骤T6，根据公式(3)分别计算属性矩阵与整张属性图的交叉熵以及负采样属性矩阵与整张属性图的交叉熵，并加和得到所有节点与整张图的互信息(即为全局互信息)。

如图2中的(b)部分所示，将属性矩阵作为正样本、负采样属性矩阵作为负样本，通过图神经网络对正样本以及负样本进行互信计算得到节点与整张图的互信息(即为全局互信息)。

步骤T7，利用K-means++算法确定K个初始群组中心，然后根据公式(4)计算每个节点与各个群组中心的余弦距离，再利用SoftMax函数计算出每个节点属于各个群组的概率，按照概率将各个节点的属性加权到初始群组中心，从而得到分配矩阵。

如图2中的(c)部分所示，通过K-means++算法以及SoftMax函数得到分配矩阵。

步骤T8，根据分配矩阵以及邻接矩阵通过公式(5)进行模块度计算得到模块度值，根据分配矩阵、群组中心矩阵以及节点表征通过公式(5)进行群组互信息计算得到群组互信息。

步骤T9，根据全局互信息、模块度值以及群组互信息通过公式(6)计算总损失值，并根据总损失值通过梯度反向传播算法对节点表征、群组中心矩阵、分配矩阵以及图神经网络参数进行更新，最后得到收敛的图神经网络。

如图2中(d)部分所示，通过对图神经网络的迭代优化最后得到群组发现结果。

本实施例中，根据总损失值利用Adam优化器进行优化，学习率设为0.001，迭代次数设为1000，最后得到收敛后的图神经网络。

本实施例中，Cora数据集中的每篇论文被划分到不同的7个群组中，每个群组包含的论文都对应到“基于案例”、“遗传算法”、“神经网络”、“概率方法”、“强化学习”、“规则学习”以及“理论”群组名称下。

其中，步骤S2包括如下子步骤：

步骤S2-1，将待处理矩阵输入图神经网络得到初步节点表征H：

式中，X为属性矩阵，A为邻接矩阵，

为邻接矩阵A与单位对角矩阵相加得到，

矩阵对角线上的每个位置代表了节点的度，σ为激活函数，θ为网络参数。

其中，σ为激活函数PReLU。

其中，先由图神经网络中的卷积层对待处理矩阵进行卷积操作，然后通过PReLU函数对卷积结果进行激活得到初步节点表征。

为了更好地理解基于最大化互信息和图神经网络的属性图群组发现方法整个计算过程，进行如下举例说明：假设输入的待处理属性图包含6个节点，且每个节点的属性维度为5，则将图神经网络的输入维度以及输出维度设为5，初始图神经网络的dropout值设为0.2，当网络聚合时，所有节点的权重均为1。此时，属性图的邻接矩阵A为：

其中，0表示为两个节点之间没有边，1表示为两个节点之间有边。

对应6个节点的属性矩阵X为：

其中，每个节点采用01编码(one-hot编码)，0表示该节点不具有某种特定属性，1表示该节点具有某种特定属性。

通过公式(1)对邻接矩阵A以及属性矩阵X进行计算，得到初步节点表征H：

步骤S2-2，对属性矩阵进行负采样得到负采样属性矩阵

其中，负采样是指对属性矩阵中各个节点的各个维度随机打乱，并通过图神经网络的卷积层与激活函数PReLU进行卷积和激活，最后得到负采样属性矩阵

以步骤S2-1中举例的属性矩阵X为例，与之对应的负采样属性矩阵

为：

步骤S2-3，根据公式(2)对初步节点表征求平均，得到属性图的平均向量S：

S＝R(ε(X，A)) 公式(2)

式中，X为属性矩阵，A为邻接矩阵，R为平均池化函数。

步骤S2-4，述属性矩阵、邻接矩阵、负采样属性矩阵根据公式(3)求得全局互信息L_graph：

式中，式中，N为待处理属性图的所有节点的数量，M为负采样节点个数，D为交叉熵函数，h_i为待处理属性图第i个节点的初步节点表征，i＝1，2，3...N，j＝1,2,3...M。

其中，在之后的操作中最大化属性矩阵与整张图的互信息，最小化负采样属性矩阵与整张图的互信息。

步骤S3，利用软聚类将初步节点表征划分到多个群组的中心得到分配矩阵。

其中，步骤S3还包括如下子步骤：

步骤S3-1，利用软聚类将初步节点表征划分到多个群组的中心得到初始群组中心。

其中，软聚类是指先利用K-means++算法确定K个初始群组中心，初始群组中心选取依据是：假设已经选定了x个初始群组中心(0<x<K)，则在选取第x+1个初始群组中心时，距离当前第x个初始群组中心越远的节点会有更高的概率被选上，而第一个初始群组中心通过随机方法选取。

步骤S3-2，根据初始群组中心通过公式(5)进行初始群组中心所在的群组的其它节点的获取，得到新的群组中心μ_k：

其中，根据K个初始群组中心计算每个节点与各个初始群组中心的余弦距离，再利用SoftMax函数计算出每个节点属于各个初始群组的概率，按概率将各个节点的属性加权到初始群组中心得到群组中心μ_k。

最后得到分配矩阵

和群组中心矩阵

其中y是初始节点表征的维数。

其中，δ取30，标准化步骤||·||为余弦相似度计算。

本实施例中，为了更好地说明群组中心矩阵，假设要找到2个群组中心，则先利用K-means++算法初始化两个群组中心，从而得到群组中心矩阵μ：

本实施例中，以根据步骤S2-1举例得到的节点表征H以及公式(4)为例计算得到分配矩阵R：

步骤S4，根据分配矩阵对原始群组进行模块度以及待处理属性图内的互信息计算得到模块度值以及群组互信息。

其中，模块度Q以及待处理属性图内的互信息L_community计算为：

式中，m为节点相连接的边的数量，d为节点的度数，R为分配矩阵，Tr为矩阵迹运算(即为对主对角线元素求和)，A_ij为邻接矩阵中第i个节点和第j个节点之间是否有边相连接，d_id_j是第i个节点以及第j个节点之间的度数，D为交叉熵函数。

步骤S5，根据模块度值、群组互信息以及全局互信息值计算总损失，并根据该总损失通过梯度回传对图神经网络进行迭代更新直到得到群组发现结果。

其中，模块度值Q、群组互信息L_community以及全局互信息值L_graph计算总损失L：

L＝αL_graph+βL_community+Q 公式(6)

式中，α和β为超参数，一般设为1到5之间的数字。

根据总损失L通过反向传播算法对分配矩阵、图神经网络参数、初始节点表征、群组中心等数据进行迭代更新，直到总损失L收敛为止。

利用训练好的图神经网络可以在实际应用中进行较少的迭代，从而尽快得到群组发现结果。

其中，群组发现结果为c_i根据公式(7)计算得到：

在图神经网络收敛后得到的分配矩阵R每行中最大的概率r值代表了节点v_i最终所属的群组。

本实施例中，以步骤2-1举例的属性矩阵X以及邻接矩阵A为基础根据公式(6)计算得到L为-3.9262.根据L值通过梯度反向传播算法进行更新，经过100次迭代后得到最终分配矩阵R^final：

当无重叠群组发现时，保留最大概率对应的群组作为每个节点的最终群组发现结果，根据R^final中每个节点属于各个群组的概率，最终得到节点节点1、2、3属于同一个社区群组，节点4、5、6单独为一个社区群组。

实施例作用与效果

根据上述实施例提供的基于最大化互信息和图神经网络的属性图群组发现方法，由于利用图神经网络对待处理矩阵进行互信息计算得到全局互信息，进而将该全局互信息作为后续更新图神经网络的总损失的组成部分，因此为图神经网络的迭代更新提供了一定的监督信息，使得群组发现这样的无监督任务取得更好的效果。

又由于利用软聚类将初步节点表征划分到多个群组的中心得到分配矩阵，进而根据分配矩阵对原始群组进行模块度以及待处理属性图内的互信息计算得到模块度值以及群组互信息，达到约束图神经网络以及群组，因此保证了整个过程可微，便于图神经网络的迭代更新。

再由于根据模块度值、群组互信息以及全局互信息值组成的总损失对图神经网络进行迭代更新直到找到最佳的群组发现结果，因此实现了端到端的学习迭代更新图神经网络，相比于传统的“节点表征学习+聚类”两步法属性图群组发现算法不仅不需要分步实现，而且还能更好地捕捉属性图里的节点属性关系。

还有于根据该总损失通过梯度回传对图神经网络进行迭代更新，因此，得到的群组发现结果具有更高的准确性。

上述实施例仅用于举例说明本发明的具体实施方式，而本发明不限于上述实施例的描述范围。

在上述实施例中，图神经网络训练时使用的数据集是Cora数据集，本发明也可以将论文网站、社交网站、视频网站等等公开的数据集中的论文的共同作者、作者共同参会、朋友相互关系等数据和关系信息组织成属性图，还可以是金融机构等商业数据分析人员通过金融产品的数据接口获得的需要分析的网络对象的信息，例如购买金融产品的用户、用户的社交关系、用户是否毕业于共同的学校等等信息组成属性图。