CN114357312A

CN114357312A - 基于图神经网络自动建模的社区发现方法及个性推荐方法

Info

Publication number: CN114357312A
Application number: CN202210254385.9A
Authority: CN
Inventors: 高建良; 陈家民
Original assignee: Central South University
Current assignee: Central South University
Priority date: 2022-03-16
Filing date: 2022-03-16
Publication date: 2022-04-15
Anticipated expiration: 2042-03-16
Also published as: CN114357312B

Abstract

本发明公开了一种基于图神经网络自动建模的社区发现方法，包括获取图神经网络结构组件并构建图神经网络搜索空间；采样图神经网络搜索空间得到图神经网络结构化初始种群；计算各图神经网络模型的适应度并选取若干作为父代图神经网络结构群体；进行子代图神经网络结构搜索、计算各子代图神经网络结构的适应度并更新父代图神经网络结构群体；选取父代图神经网络结构群体中最优的图神经网络结构建模并得到图数据的系数矩阵；对图数据的系数矩阵分解得到图数据的相似度矩阵并进行聚类实现社区发现。本发明还公开了一种包括所述基于图神经网络自动建模的社区发现方法的个性推荐方法。本发明方法的可靠性高，精确性高，且更加科学合理。

Description

基于图神经网络自动建模的社区发现方法及个性推荐方法

技术领域

本发明属于计算机技术领域，具体涉及一种基于图神经网络自动建模的社区发现方法及个性推荐方法。

背景技术

随着经济技术的发展和人们生活水平的提高，社区发现技术已经广泛应用于人们的生产和生活当中，给人们的生产和生活带来了无尽的便利。基于社区发现技术，人们可以应用于向系统用户推送用户潜在感兴趣的文章、产品、知识或其他用户等，从而使用用户的体检更好。

传统社区发现方法大部分是基于统计推断与机器学习理论构建的，典型的社区发现方法包括：基于图的划分算法、层次聚类算法、边聚类算法、随机游走算法、种子扩散算法等。然而，随着网络图数据的复杂度与规模的增加，传统的社区发现方法将面临节点表现能力欠佳，算法效率低下等许多问题。

与传统社区发现方法相比，基于图神经网络的深度学习方法能够更好的处理复杂网络中的社区结构识别过程。一层图神经网络模型由不同的组件组成，例如，节点聚合函数，注意力机制函数，激活函数等。面对复杂网络，图神经网络通过注意力机制函数计算网络中心节点与邻居节点的相关性系数，使用聚合函数对邻居节点信息进行聚合并得到中心节点的表示，再利用激活函数对节点表示进行非线性变换增强其表示能力，最后基于节点表达使用不同的聚类算法实现社区发现任务。但由于图神经网络结构复杂，且不同的网络节点特征分布不同，导致需要耗费大量的时间针对不同特征分布的图网络构建图神经网络模型，这无疑限制了使用图神经网络实现社区发现的效率。

随着图神经网络自动建模的兴起，越来越多的社区发现研究开始使用该技术；例如，节点分类，链路预测，图分类等。图神经网络自动建模过程包含以下几个步骤：（1）使用图神经网络结构组件构建图神经网络搜索空间；（2）构建搜索算法从图神经网络搜索空间中采样图神经网络结构（3）使用评估策略评估采样的图神经网络结构并产生反馈信号；（4）使用反馈信号对搜索算法进行迭代，改进搜索算法采样图神经网络结构的能力。

传统的图神经网络自动建模面向的是有监督学习问题：在传统的图神经网络自动建模过程中使用有监督评估策略，面向的图数据是有标签数据。但是，社区发现是一个无监督学习问题，即图网络中节点没有标签。这使得传统的图神经网络建模已经无法完成社区发现的任务。

发明内容

本发明的目的之一在于提供一种可靠性高、精确性高且科学合理的基于图神经网络自动建模的社区发现方法。

本发明的目的之二在于提供一种包括了所述基于图神经网络自动建模的社区发现方法的个性推荐方法。

本发明提供的这种基于图神经网络自动建模的社区发现方法，包括如下步骤：

S1. 获取图神经网络的结构组件，从而构建图神经网络搜索空间；

S2. 在步骤S1构建的图神经网络搜索空间中进行采样，从而构建若干图神经网络模型作为图神经网络结构化初始种群；

S3. 计算步骤S2构建的图神经网络结构化初始种群中各个图神经网络模型的适应度；

S4. 根据步骤S3得到的各个图神经网络模型的适应度，选取若干个图神经网络结构作为父代图神经网络结构群体；

S5. 基于步骤S4得到的父代图神经网络结构群体，进行子代图神经网络结构搜索，计算各个子代图神经网络结构的适应度，并对父代图神经网络结构群体进行更新；

S6. 更新完毕后，选取父代图神经网络结构群体中最优的图神经网络结构进行建模，从而得到图数据的系数矩阵；

S7. 对步骤S6得到的图数据的系数矩阵进行矩阵分解得到图数据的相似度矩阵，并基于相似度矩阵进行聚类操作，从而实现社区发现。

所述的步骤S1，具体包括如下步骤：

图神经网络的结构组件包括注意力机制函数组件，聚合函数组件，输出层隐藏单元维度组件，激活函数组件和注意力机制头数组件；

注意力机制函数组件包括如下函数：

第一注意力机制函数：名称为const；函数表示为

；

第二注意力机制函数：名称为gcn；函数表示为

；d _i为中心节点i的度；d _j为邻居节点j的度；

第三注意力机制函数：名称为gat；函数表示为

；

为gat函数中节点i与节点j之间相关系数；

为激活函数；W _c和W _n为矩阵权重；h _i为节点i的隐层状态；h _j为节点j的隐层状态；

第四注意力机制函数：名称为sym-gat；函数表示为

；

第五注意力机制函数：名称为cos；函数表示为

；W _c和W _n为矩阵权重；h _i为节点i的隐层状态；h _j为节点j的隐层状态；< >为向量的乘积；

第六注意力机制函数：名称为linear；函数表示为

；sum( )为向量元素求和函数；

第七注意力机制函数：名称为gene-linear；函数表示为

；W _b为矩阵权重；

聚合函数组件包括如下函数：

第一聚合函数：函数名为mean；函数功能为：中心节点i的隐层表示为邻居节点j的隐层表示乘以相关系数r _ij后求和再求均值；

第二聚合函数：函数名为max；函数功能为：中心节点i的隐层表示为邻居节点j的隐层表示乘以相关系数r _ij后向量对应元素求最大值；

第三聚合函数：函数名为sum；函数功能为：中心节点i的隐层表示为邻居节点j的隐层表示乘以相关系数r _ij后求和；

输出层隐藏单元维度组件的取值范围包括：8、16、32、64、128和256；

激活函数组件包括如下函数：

softplus函数、reaky_relu函数、relu6函数、elu函数、tanh函数、sigmiod函数、relu函数和linear函数；

注意力机制头数组件的取值范围包括：1、2、4和8。

所述的步骤S2，具体包括如下步骤：

在步骤S1构建的图神经网络搜索空间中，采用随机采样的方式进行采样，第i次采样得到的图神经网络机构表示为

；n为图神经网络的层数；att _i表示第i层图神经网络的注意力机制函数；agg _i为第i层图神经网络的注聚合函数；dim _i为第i层图神经网络的输出层隐藏单元维度的取值；act _i为第i层图神经网络的激活函数；head _i二维第i层图神经网络的注意力机制头数的取值；

一共随机采样m次，从而得到m个图神经网络结构作为图神经网络结构化初始种群；m为设定的正整数。

所述的步骤S3，具体包括如下步骤：

A. 基于图自监督学习与图自表示学习，构建下游节点表示与图系数矩阵学习任务，采用图数据与节点表示学习任务对待计算的图神经网络模型进行训练，并使用节点编码矩阵与图系数矩阵学习任务对图表示学习模型进行训练；

B. 计算步骤A中图自监督学习与图自表示学习中产生的损失值变化量的乘积，从而得到待计算的图神经网络结构的适应度；

C. 重复步骤A~B，直至计算得到所有的待计算的图神经网络模型的适应度。

所述的步骤A，具体包括图自监督学习和图自表示学习：

图自监督学习包括如下步骤：

a1. 对需要进行社区发现的图数据G进行两轮处理，两轮处理分别得到两张不同的预处理图数据G ₁和G ₂；所述的处理包括第一处理过程和第二过程：第一处理过程为按照设定的比例随机选择图数据G上的节点，并使用全零向量代替选中节点的原始特征向量；第二处理过程为在第一处理过程的基础上按照设定的比例随机删除图数据G上节点之间的边关系；

a2. 根据步骤a1得到的预处理图数据G ₁和G ₂，得到对应的节点特征矩阵X ₁和X ₂；将节点特征矩阵X ₁和X ₂输入到待计算的图神经网络模型g中，得到对应的节点编码矩阵Z ₁和Z ₂；

a3. 根据步骤a2得到节点编码矩阵Z ₁和Z ₂，采用如下方式构建待计算的图神经网络模型g的训练数据集：

在节点编码矩阵Z ₁和Z ₂中，任意选取第i ₁行数据和第i ₂行数据，从而构成一个样本例；其中，若选取的第i ₁行数据来自于矩阵Z ₁、第i ₂行数据来自于Z ₂且i ₁= i ₂，则判定该样本例为正样本例；若选取的第i ₁行数据来自于矩阵Z ₁、第i ₂行数据来自于Z ₂且

，则判定该样本例为负样本例；若选取的第i ₁行数据和第i ₂行数据来自于同一个节点编码矩阵且

，则判定该样本例为负样本例；

重复选取若干次，并保证正样本例与负样本例的数量相同，从而得到待计算的图神经网络模型g的训练数据集；

a4. 基于步骤a3得到的训练数据集，采用如下损失函数计算得到待计算的图神经网络模型g在本次编码的节点特征矩阵X ₁和X ₂产生的损失值L _SS：

式中V为需要进行社区发现的图数据G的节点数；log( )为求以e为底数的对数；

为温度参数，用于控制余弦相似的强度；

为求正样本例编码向量z _1,i和z _2,j的余弦相似度；

为求负样本例编码向量z _1,i和z _1,j的余弦相似度；

为求负样本例编码向量z _1,i和z _2,j的余弦相似度；

a5. 基于步骤a4得到的损失值，采用Adam算法优化待计算的图神经网络模型g的参数，并在优化过程中采用如下算式计算得到图自监督学习损失值变换量SSLC：

式中

为第一轮优化时产生的损失值；

为最后一轮优化时产生的损失值；

a6. 优化完成后，待计算的图神经网络模型g的图自监督学习完成；采用需要进行社区发现的图数据G所对应的节点特征矩阵X输入到待计算的图神经网络模型g中，得到节点编码矩阵Z；

图自表示学习包括如下步骤：

b1. 初始化大小为V*V的系数矩阵C；系数矩阵C的对角线元素为0，

为系数矩阵C中第i行第j列的元素；

b2. 计算节点编码矩阵Z中每一个节点i的编码向量z _i的自表示向量

，并采用如下算式计算系数矩阵C中的元素

：

式中z _j为节点编码矩阵Z中每一个节点j的编码向量；

b3. 采用如下损失函数计算得到自表示学习模型基于节点编码矩阵Z的损失值L _SR：

式中

为正则化强度参数，用于控制自表示学习模型参数正则化的强度；

为矩阵C的F范数的平方；

b4. 基于步骤b3计算得到的损失值，使用Adam算法优化图自表示学习模型的系数矩阵C，在优化过程中采用如下算式计算得到图自表示学习损失值变换量SSLR：

式中

为第一轮优化时产生的损失值；

为最后一轮优化时产生的损失值；

b5. 优化完成后，输出系数矩阵C。

所述的步骤B，具体包括如下步骤：

采用如下算式计算得到待计算的图神经网络模型g的适应度fitness：

式中SSLC为步骤A得到的图自监督学习损失值变换量；SSLR为步骤A得到的图自表示学习损失值变换量。

所述的步骤S5，具体为基于步骤S4得到的父代图神经网络结构群体，采用受信息熵约束的自适应遗传搜索算法对子代图神经网络结构进行搜索，计算各个子代图神经网络结构的适应度，并将适应度大于设定阈值的子代图神经网络结构加入父代图神经网络结构群体，从而完成对父代图神经网络结构群体的更新。

所述的步骤S5，具体包括如下步骤：

（1）统计父代图神经网络结构群体中各个图神经网络组件的分布数据，得到每个图神经网络组件的出现频率，并采用如下算式计算得到信息熵向量

：

式中h(c _i)为图神经网络结构组件中第i个组件的信息熵，

，n为图神经网络的层数，

，v _j为父代图神经网络结构群体中第i个组件出现在对应取值集合中的第j个值，f(v _j)为第i个组件取值为v _j的频率；

（2）计算图神经网络结构组件的变异选择概率向量

为

其中p _i为第i个结构组件的变异选择概率，且

，

；

（3）基于步骤（2）得到的变异选择概率向量

，在父代图神经网络结构群体中选择M个组件进行随机变异操作，得到子代图神经网络结构群体，并计算子代图神经网络结构群体中各个图神经网络结构的适应度；

（4）当子代图神经网络结构群体中任意图神经网络结构的适应度大于设定的阈值时，将该图神经网络结构加入到父代群体中；

（5）重复步骤（1）~（4）直至满足设定的条件，完成对父代图神经网络结构群体的更新。

在步骤（3）的计算过程中，M的值随着搜索轮次的增加而递减，递减规则为：若搜索轮次能够整除M，则将M的值减少1，直至M=1，此时M的值不再变化，直至搜索结束。

所述的步骤S6，具体为更新完毕后，选取父代图神经网络结构群体中适应度最优的图神经网络结构进行建模，并基于图自监督学习与自表示学习过程得到图数据的系数矩阵。

所述的步骤S7，具体包括如下步骤：

1）对步骤S6得到的图数据的系数矩阵C进行处理，得到处理矩阵C*为

；

2）采用SVD算法对处理矩阵C*进行分解，分解后的处理矩阵C*表示为

，其中U为m*m的方阵，A为除主对角线外其余元素都为0的特征矩阵，V为n*n的方阵；

3）计算第一中间矩阵R为

，并对中间矩阵R进行归一化，得到第二中间矩阵

；

4）将第二中间矩阵

中所有的负值元素以0代替，从而得到第三中间矩阵R*；

5）采用如下算式计算得到需要进行社区发现的图数据G的相似度矩阵S：

式中

表示第二中间矩阵

的无穷范数；

6）基于步骤5）得到的相似度矩阵S进行聚类操作，从而实现需要进行社区发现的图数据G的社区发现。

本发明还公开了一种包括了所述基于图神经网络自动建模的社区发现方法的个性推荐方法，包括如下步骤：

S1. 使用用户购物数据构建用户商品二分图；

S2. 采用上述基于图神经网络自动建模的社区发现方法对步骤S1得到的用户商品二分图进行处理，构建用户画像后实现社区发现；

S3. 根据步骤S2得到的社区发现的结果，将属于同一社区用户购买的商品进行统计；

S4. 将不同的高频商品推荐给属于同一社区且没有购买该高频商品的用户，从而实现个性推荐。

本发明提供的这种基于图神经网络自动建模的社区发现方法及个性推荐方法，基于不同数据分布的图网络自动地搜索出合适的图神经网络结构构建图神经网络模型，并基于图自监督学习与图自表示学习实现社区发现和个性推荐；因此本发明方法的可靠性高，精确性高，且更加科学合理。

附图说明

图1为本发明的社区发现方法的方法流程示意图。

图2为本发明的个性推荐方法的方法流程示意图。

具体实施方式

如图1所示为本发明的社区发现方法的方法流程示意图：本发明提供的这种基于图神经网络自动建模的社区发现方法，包括如下步骤：

S1. 获取图神经网络的结构组件，从而构建图神经网络搜索空间；具体包括如下步骤：

注意力机制函数组件包括如下函数：

第一注意力机制函数：名称为const；函数表示为

；

第二注意力机制函数：名称为gcn；函数表示为

；d _i为中心节点i的度；d _j为邻居节点j的度；

第三注意力机制函数：名称为gat；函数表示为

；

为gat函数中节点i与节点j之间相关系数；

第四注意力机制函数：名称为sym-gat；函数表示为

；

第五注意力机制函数：名称为cos；函数表示为

第六注意力机制函数：名称为linear；函数表示为

；sum( )为向量元素求和函数；

第七注意力机制函数：名称为gene-linear；函数表示为

；W _b为矩阵权重；

聚合函数组件包括如下函数：

激活函数组件包括如下函数：

注意力机制头数组件的取值范围包括：1、2、4和8；

S2. 在步骤S1构建的图神经网络搜索空间中进行采样，从而构建若干图神经网络模型作为图神经网络结构化初始种群；具体包括如下步骤：

一共随机采样m次，从而得到m个图神经网络结构作为图神经网络结构化初始种群；m为设定的正整数；

S3. 计算步骤S2构建的图神经网络结构化初始种群中各个图神经网络模型的适应度；具体包括如下步骤：

具体实施时，具体包括图自监督学习和图自表示学习：

图自监督学习包括如下步骤：

，则判定该样本例为负样本例；

为温度参数，用于控制余弦相似的强度；

为求正样本例编码向量z _1,i和z _2,j的余弦相似度；

为求负样本例编码向量z _1,i和z _1,j的余弦相似度；

为求负样本例编码向量z _1,i和z _2,j的余弦相似度；

式中

为第一轮优化时产生的损失值；

为最后一轮优化时产生的损失值；

图自表示学习包括如下步骤：

为系数矩阵C中第i行第j列的元素；

，并采用如下算式计算系数矩阵C中的元素

：

式中z _j为节点编码矩阵Z中每一个节点j的编码向量；

式中

为矩阵C的F范数的平方；

式中

为第一轮优化时产生的损失值；

为最后一轮优化时产生的损失值；

b5. 优化完成后，输出系数矩阵C；

B. 计算步骤A中图自监督学习与图自表示学习中产生的损失值变化量的乘积，从而得到待计算的图神经网络结构的适应度；具体包括如下步骤：

式中SSLC为步骤A得到的图自监督学习损失值变换量；SSLR为步骤A得到的图自表示学习损失值变换量；

C. 重复步骤A~B，直至计算得到所有的待计算的图神经网络模型的适应度；

S5. 基于步骤S4得到的父代图神经网络结构群体，进行子代图神经网络结构搜索，计算各个子代图神经网络结构的适应度，并对父代图神经网络结构群体进行更新；具体为基于步骤S4得到的父代图神经网络结构群体，采用受信息熵约束的自适应遗传搜索算法对子代图神经网络结构进行搜索，计算各个子代图神经网络结构的适应度，并将适应度大于设定阈值的子代图神经网络结构加入父代图神经网络结构群体，从而完成对父代图神经网络结构群体的更新；

具体实施时，具体包括如下步骤：

：

式中h(c _i)为图神经网络结构组件中第i个组件的信息熵，

，n为图神经网络的层数，

（2）计算图神经网络结构组件的变异选择概率向量

为

其中p _i为第i个结构组件的变异选择概率，且

，

；

（3）基于步骤（2）得到的变异选择概率向量

，在父代图神经网络结构群体中选择M个组件进行随机变异操作，得到子代图神经网络结构群体，并计算子代图神经网络结构群体中各个图神经网络结构的适应度；在本步骤的计算过程中，M的值随着搜索轮次的增加而递减，递减规则为：若搜索轮次能够整除M，则将M的值减少1，直至M=1，此时M的值不再变化，直至搜索结束；

（5）重复步骤（1）~（4）直至满足设定的条件，完成对父代图神经网络结构群体的更新；

S6. 更新完毕后，选取父代图神经网络结构群体中最优的图神经网络结构进行建模，从而得到图数据的系数矩阵；具体为更新完毕后，选取父代图神经网络结构群体中适应度最优的图神经网络结构进行建模，并基于图自监督学习与自表示学习过程得到图数据的系数矩阵；

S7. 对步骤S6得到的图数据的系数矩阵进行矩阵分解得到图数据的相似度矩阵，并基于相似度矩阵进行聚类操作，从而实现社区发现；具体包括如下步骤：

；

3）计算第一中间矩阵R为

，并对中间矩阵R进行归一化，得到第二中间矩阵

；

4）将第二中间矩阵

中所有的负值元素以0代替，从而得到第三中间矩阵R*；

式中

表示第二中间矩阵

的无穷范数；

以下结合一个实施例，对本发明方法进行进一步说明：

实验图数据说明如下表1所示：

表1 实验图数据说明示意表

Cora、CiteSeer是标准的引用网络图数据集，每个节点单标论文，每条边连接的两个节点表示两篇论文之间存在引用关系，每个节分别由1433、3703维度的特征向量表示，Wiki数据集每个节点代表一个Wiki网页，每条边连接的两个节点表示两个Wiki网页之间存在链接关系，每个节点由4973维特征向量表示；

使用本发明提出的基于图神经网络自动建模的社区发现对上述3个图数据集进行社区发现并使用三个社区发现常用性能评估指标F1分数、归一化互信息、准确度评估本发明方法与其他方法的性能，性能评估结果如下表2所示：

表2 性能评估结果示意表

由上表可以看出，本发明方法相较于其他方法能在不同图数据上三个评价指标都能获得最优的社区发现性能，这是因为本发明提出了一种无监督图神经网络结构评估方法，此方法利用图自监督学习与自表示学习过程中损失函数的变化量衡量采样的图神经网络结构的有效性，并基于图神经网络自动建模过程，为具有不同特征分布的图数据设计合适的图神经网络结构，对图数据进行编码实现下游社区发现任务，因此本发明对不同分布的图数据进行社区发现实现个性化推荐具有广泛的普适性。

如图2所述为本发明的个性推荐方法的方法流程示意图：本发明公开的这种包括了所述基于图神经网络自动建模的社区发现方法的个性推荐方法，包括如下步骤：

S1. 使用用户购物数据构建用户商品二分图；

Claims

1.一种基于图神经网络自动建模的社区发现方法，其特征在于包括如下步骤：

C. 重复步骤A~B，直至得到所有的待计算的图神经网络模型的适应度；

2.根据权利要求1所述的基于图神经网络自动建模的社区发现方法，其特征在于所述的步骤S1，具体包括如下步骤：

注意力机制函数组件包括如下函数：

第一注意力机制函数：名称为const；函数表示为

；

第二注意力机制函数：名称为gcn；函数表示为

；d _i为中心节点i的度；d _j为邻居节点j的度；

第三注意力机制函数：名称为gat；函数表示为

；

为gat函数中节点i与节点j之间相关系数；

第四注意力机制函数：名称为sym-gat；函数表示为

；

第五注意力机制函数：名称为cos；函数表示为

第六注意力机制函数：名称为linear；函数表示为

；sum( )为向量元素求和函数；

第七注意力机制函数：名称为gene-linear；函数表示为

；W _b为矩阵权重；

聚合函数组件包括如下函数：

激活函数组件包括如下函数：

注意力机制头数组件的取值范围包括：1、2、4和8。

3.根据权利要求2所述的基于图神经网络自动建模的社区发现方法，其特征在于所述的步骤S2，具体包括如下步骤：

4.根据权利要求3所述的基于图神经网络自动建模的社区发现方法，其特征在于所述的步骤A，具体包括图自监督学习和图自表示学习：

图自监督学习包括如下步骤：

，则判定该样本例为负样本例；

为温度参数，用于控制余弦相似的强度；

为求正样本例编码向量z _1,i和z _2,j的余弦相似度；

为求负样本例编码向量z _1,i和z _1,j的余弦相似度；

为求负样本例编码向量z _1,i和z _2,j的余弦相似度；

式中

为第一轮优化时产生的损失值；

为最后一轮优化时产生的损失值；

图自表示学习包括如下步骤：

为系数矩阵C中第i行第j列的元素；

，并采用如下算式计算系数矩阵C中的元素

：

式中z _j为节点编码矩阵Z中每一个节点j的编码向量；

式中

为矩阵C的F范数的平方；

式中

为第一轮优化时产生的损失值；

为最后一轮优化时产生的损失值；

b5. 优化完成后，输出系数矩阵C。

5.根据权利要求4所述的基于图神经网络自动建模的社区发现方法，其特征在于所述的步骤S5，具体为基于步骤S4得到的父代图神经网络结构群体，采用受信息熵约束的自适应遗传搜索算法对子代图神经网络结构进行搜索，计算各个子代图神经网络结构的适应度，并将适应度大于设定阈值的子代图神经网络结构加入父代图神经网络结构群体，从而完成对父代图神经网络结构群体的更新。

6.根据权利要求5所述的基于图神经网络自动建模的社区发现方法，其特征在于所述的步骤S5，具体包括如下步骤：