CN112668700A - 一种基于分组注意的宽度图卷积网络模型及其训练方法 - Google Patents
一种基于分组注意的宽度图卷积网络模型及其训练方法 Download PDFInfo
- Publication number
- CN112668700A CN112668700A CN202011610968.8A CN202011610968A CN112668700A CN 112668700 A CN112668700 A CN 112668700A CN 202011610968 A CN202011610968 A CN 202011610968A CN 112668700 A CN112668700 A CN 112668700A
- Authority
- CN
- China
- Prior art keywords
- attention
- order
- graph
- network model
- model
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000012549 training Methods 0.000 title claims abstract description 92
- 238000000034 method Methods 0.000 title claims abstract description 52
- 230000004927 fusion Effects 0.000 claims abstract description 59
- 230000006870 function Effects 0.000 claims abstract description 43
- 230000007246 mechanism Effects 0.000 claims abstract description 35
- 238000007781 pre-processing Methods 0.000 claims abstract description 25
- 238000011176 pooling Methods 0.000 claims abstract description 21
- 239000011159 matrix material Substances 0.000 claims description 65
- 230000004913 activation Effects 0.000 claims description 17
- 238000011478 gradient descent method Methods 0.000 claims description 4
- 238000005457 optimization Methods 0.000 claims description 4
- 238000002347 injection Methods 0.000 claims description 3
- 239000007924 injection Substances 0.000 claims description 3
- 238000001994 activation Methods 0.000 description 16
- 238000004364 calculation method Methods 0.000 description 11
- 241000689227 Cora <basidiomycete fungus> Species 0.000 description 7
- 238000004590 computer program Methods 0.000 description 7
- 238000010586 diagram Methods 0.000 description 7
- 230000000694 effects Effects 0.000 description 7
- 230000008569 process Effects 0.000 description 7
- 230000002829 reductive effect Effects 0.000 description 7
- 238000012360 testing method Methods 0.000 description 6
- 241000282414 Homo sapiens Species 0.000 description 5
- 238000012545 processing Methods 0.000 description 5
- 230000000007 visual effect Effects 0.000 description 5
- 238000013528 artificial neural network Methods 0.000 description 3
- 238000004422 calculation algorithm Methods 0.000 description 3
- 238000013527 convolutional neural network Methods 0.000 description 3
- 239000000203 mixture Substances 0.000 description 3
- 238000010276 construction Methods 0.000 description 2
- 238000013135 deep learning Methods 0.000 description 2
- 230000010365 information processing Effects 0.000 description 2
- 230000000670 limiting effect Effects 0.000 description 2
- 238000003062 neural network model Methods 0.000 description 2
- 238000011160 research Methods 0.000 description 2
- 101001013832 Homo sapiens Mitochondrial peptide methionine sulfoxide reductase Proteins 0.000 description 1
- 102100031767 Mitochondrial peptide methionine sulfoxide reductase Human genes 0.000 description 1
- 230000004931 aggregating effect Effects 0.000 description 1
- 230000001149 cognitive effect Effects 0.000 description 1
- 239000002131 composite material Substances 0.000 description 1
- 239000012141 concentrate Substances 0.000 description 1
- 238000007796 conventional method Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000009826 distribution Methods 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 238000007499 fusion processing Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 230000002452 interceptive effect Effects 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 238000012821 model calculation Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- QVRVXSZKCXFBTE-UHFFFAOYSA-N n-[4-(6,7-dimethoxy-3,4-dihydro-1h-isoquinolin-2-yl)butyl]-2-(2-fluoroethoxy)-5-methylbenzamide Chemical compound C1C=2C=C(OC)C(OC)=CC=2CCN1CCCCNC(=O)C1=CC(C)=CC=C1OCCF QVRVXSZKCXFBTE-UHFFFAOYSA-N 0.000 description 1
- 230000001537 neural effect Effects 0.000 description 1
- 230000036961 partial effect Effects 0.000 description 1
- 230000000750 progressive effect Effects 0.000 description 1
- 230000000717 retained effect Effects 0.000 description 1
- 239000000243 solution Substances 0.000 description 1
- 239000000126 substance Substances 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
- 238000009827 uniform distribution Methods 0.000 description 1
Images
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明提供了一种基于分组注意的宽度图卷积网络模型及其训练方法,所述模型依次包括输入层、同时捕捉多阶邻域信息、引入自连接和分组注意机制的高阶图卷积层、融合多阶邻域信息的SP信息融合池化层和softmax函数多分类输出层,所述模型对应的训练方法为先预处理得到预处理特征后,将其输入模型训练的高效训练方法。本实施例采用分组注意高阶图卷积层增加模型宽度、降低模型深度、减少参数量和复杂度的同时,还能聚集更丰富的节点信息、赋予自身节点更高权重,且采用简单分组注意机制结合注意力分数调整不同邻域节点的分类贡献度,进而在扩宽模型感受野、避免过拟合风险的同时,进一步提升模型的学习能力、稳定性、有效性和分类精度。
Description
技术领域
本发明涉及图像处理及深度学习技术领域,特别是涉及一种基于分组注意的宽度图卷积网络模型及其训练方法。
背景技术
随着图卷积神经网络机器学习研究地不断加深,能够聚集更丰富节点信息且能扩宽模型感受野、提升分类表现的高阶图卷积网络模型和高低阶图卷积网络模型先后被不同的研究者提出。现有的高阶图卷积网络模型和高低阶图卷积网络模型的分类表现在一定程度上都达到了研究者的预期,但它们仍有不足之处:高阶图卷积网络模型设计了一种包括一阶图卷积到P阶图卷积,不同阶卷积使用不同权重参数,利用两个高阶图卷积层学习高阶节点之间的关系和聚集不同距离邻域节点信息的高阶图卷积,且在每个高阶图卷积聚集了不同距离的邻域信息后,利用列连接将这些邻域信息进行拼接,最后通过一个全连接层融合这些邻域信息的网络架构,由于其采用不同阶卷积不同的权重参数、堆叠多个高阶图卷积层,及全连接融合不同距离邻域信息的技术必要会造成复杂度增大,参数量成倍增加,进而增加了过拟合风险;虽然高低阶图卷积网络模型采用权重共享机制一定程度上较少了参数量,但其同样堆叠了多层高低阶图卷积层使得模型的参数量和复杂度并没有显著减少,同样不能避免过拟合风险。此外,高阶图卷积网络模型和高低阶图卷积网络模型都未对不同距离邻域节点对于分类预测的重要性加以区分,而是同等重要的考虑不同距离邻域节点的贡献度,与现实信息有一定的偏差,一定程度上会影响分类预测的效果。
因此,如何基于现有高阶图卷积网络和高低阶图卷积网络的研究,区分不同距离邻域节点对分类预测的重要性,在保证现有模型的分类表现、减少计算复杂度和参数量及避免过拟合风险的基础上,使得模型的构建和应用更贴近现实、更有效是非常有意义的。
发明内容
本发明的目的是减少现有高阶图卷积网络和高低阶图卷积网络的计算复杂度和参数量,避免过拟合风险的同时,基于相邻邻域节点的类别和贡献度相似、不相邻邻域节点的类别和贡献度不同的原则区分不同邻域节点的分类贡献度,使得模型的构建和应用更贴合实际、更有效,进一步提高分类表现。
为了实现上述目的,有必要针对上述技术问题,提供一种基于分组注意的宽度图卷积网络模型及其训练方法。
第一方面,本发明实施例提供了一种基于分组注意的宽度图卷积网络模型,所述宽度图卷积网络模型模型依次包括输入层、分组注意高阶图卷积层、信息融合池化层和输出层;
所述输入层,用于接收训练数据集的图特征;
所述分组注意高阶图卷积层,用于根据所述图特征进行零阶到k阶的分组注意图卷积运算,得到图卷积数据;
所述信息融合池化层,用于根据所述图卷积数据进行零阶到k阶的特征融合,得到融合数据;
所述输出层,用于根据所述融合数据输出模型结果。
进一步地,所述分组注意高阶图卷积层通过如下方式产生:
对不同阶数图卷积进行分组;
组内图卷积采用注意机制进行注意融合,组间图卷积采用注意力分数调整权重。
进一步地,在所述分组注意高阶图卷积层的任一阶数图卷积引入新的自连接。
进一步地,所述分组注意高阶图卷积层包括基于权重共享的零阶图卷积到k阶图卷积,表示为:
进一步地,所述宽度图卷积网络模型模型的输出层的输出HGCNSA表示为:
或
其中,σ(·)为激活函数,SP(·)为信息融合函数,softmax(·)为多分类输出函数。
进一步地,所述简单注意机制融合函数SA的注意融合公式为:
其中,Hi(i+1)为第i阶图卷积和第i+1阶图卷积的注意融合输出。
进一步地,所述σ激活函数为ReLU非线性激活函数。
进一步地,所述信息融合池化层采用SP求和信息融合池化,其计算公式如下:
或
第二方面,本发明实施例提供了一种基于分组注意的宽度图卷积网络模型的训练方法,所述训练方法的步骤包括:
获取所述训练数据集,并根据所述训练数据集的类型得到所述训练数据集的图特征,所述图特征包括图的输入矩阵和正则化邻接矩阵;
将所有不同阶数的所述图的正则化邻接矩阵采用组内注意融合和组间加权作和的方法,得到预处理邻接矩阵,并将所述预处理邻接矩阵与所述图的输入矩阵作积,得到预处理特征;
将所述预处理特征输入所述宽度图卷积网络模型,进行特征训练,得到训练结果。
进一步地,所述将所述预处理特征输入所述宽度图卷积网络模型,进行特征训练,得到训练结果的步骤包括:
将所述宽度图卷积网络模型的参数矩阵进行随机初始化,并将所述注意力分数初始化为特定值;
将所述预处理特征输入所述宽度图卷积网络模型,根据学习率优化结合所述训练数据集属性调整所述注意力分数,并采用损失函数和梯度下降法进行训练,得到收敛的参数矩阵。
上述本申请提供了一种基于分组注意的宽度图卷积网络模型及其训练方法,通过所述模型及其训练方法,实现了采用仅有输入层、分组注意高阶图卷积层、SP求和信息融合池化层及softmax函数输出层的基于分组注意的宽度图卷积网络模型,结合该模型训练前的特征预处理方法,并依此得到精准分类的效果。与现有技术相比,该模型及其训练方法在实际分类应用上,不仅通过采用引入自连接赋予自身节点更高权重来聚集更多阶邻域间的更丰富节点信息,且基于分组注意机制区分不同邻域节点的分类贡献度的高阶图卷积,很好地提升了模型的学习能力和分类精度,还通过设计一层分组注意高阶图卷积,并在不同阶图卷积间采用权重共享机制,有效的减少了参数量、降低了模型的复杂度和训练难度、避免了过拟合风险、增加了稳定性。
附图说明
图1是本发明实施例中基于分组注意的宽度图卷积网络模型及其训练方法的应用场景示意图;
图2是基于分组注意的宽度图卷积网络模型的示意图;
图3是采用SP信息融合池化层的基于分组注意的宽度图卷积网络模型(k为奇数)的示意图;
图4是图3基于分组注意的宽度图卷积网络模型的训练方法的流程示意图;
图5是图4中步骤S13将预处理特征输入基于分组注意的宽度图卷积网络模型进行特征训练的流程示意图;
图6是本发明实施例中计算机设备的内部结构图。
具体实施方式
为了使本申请的目的、技术方案和有益效果更加清楚明白,下面结合附图及实施例,对本发明作进一步详细说明,显然,以下所描述的实施例是本发明实施例的一部分,仅用于说明本发明,但不用来限制本发明的范围。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明提供的基于分组注意的宽度图卷积神经网络是对现有高阶图卷积神经网络和高低阶图卷积神经网络的改进,该模型及其训练方法,可以应用于如图1所示的终端或服务器上。其中,终端可以但不限于是各种个人计算机、笔记本电脑、智能手机、平板电脑和便携式可穿戴设备,服务器可以用独立的服务器或者是多个服务器组成的服务器集群来实现。服务器可采用基于分组注意的宽度图卷积网络模型(HGCNSA)及对其对应的训练方法完成现有高阶图卷积神经网络模型和高低阶图卷积神经网络模型能够完成的分类任务,并将模型的分类预测结果发送至终端,供终端的使用者查看分析。
在一个实施例中,如图2所示,提供了一种基于分组注意的宽度图卷积网络模型包括输入层1、分组注意高阶图卷积层2、信息融合池化层3和输出层4;
所述输入层1,用于接收训练数据集的图特征;
所述分组注意高阶图卷积层2,用于根据所述图特征进行零阶到k阶的分组注意图卷积运算,得到图卷积数据;
所述信息融合池化层3,用于根据所述图卷积数据进行零阶到k阶的特征融合,得到融合数据;
所述输出层4,用于根据所述融合数据输出模型结果。
其中,基于分组注意高阶图卷积层2和信息融合池化层3都只有1个,即基于分组注意的宽度图卷积网络模型的结构为:输入层1与分组注意高阶图卷积层2相连,分组注意高阶图卷积层2与信息融合池化层3相连,信息融合池化层3再与采用softmax函数进行多分类输出的输出层4相连。
注意力机制源于对人类视觉的研究。在认知科学中,由于信息处理的瓶颈,人类往往根据需求忽略部分可见信息,只关注信息特定的一部分。为了合理利用有限的视觉信息处理资源,人类需要选择视觉区域中的特定部分,然后集中关注它,从而筛选出有价值的信息,视觉注意力机制极大的提高了人类处理视觉信息的效率。深度学习中的注意力机制借鉴了人类视觉注意力机制的思维方式,以期从大量数据中快速筛选出高价值的信息。
本实施例中的分组注意高阶图卷积层由对不同阶数图卷积进行分组,组内图卷积采用注意机制进行注意融合,组间图卷积采用注意力分数调整权重,且在任一阶数图卷积引入新的自连接得到一种新的高阶图卷积。其引入新的自连接是指将任一阶数的图的正则化邻接矩阵都加上同维数的单位矩阵作为新的图的正则化邻接矩阵输入模型。需要注意的是,考虑到自身节点不存在自连接(即自身节点与自身节点有一条边)的邻接矩阵的对角线位置的元素值为0,将该邻接矩阵输入模型训练时可能会因忽略掉自身节点信息而影响模型的分类效果的情况,本实施例中原有的图的正则化邻接矩阵就是含自连接的,而本申请强调的自连接是指在原有的自连接正则化邻接矩阵基础上再次引入自连接,进一步增加自身节点的权重,即:
其中,为第i阶含自连接的正则化邻接矩阵,为零阶含自连接的正则化邻接矩阵,I为与同维数的单位矩阵。如在二阶图卷积引入新的自连接时的效果为当然也可以选择在其他阶数图卷积引入自连接,其他阶情况依此类推可以得到,在此不详述。其对引入自连接的不同阶数图卷积进行分组的原则是相邻邻域节点类别趋向一致且贡献度可能相似,而不相邻邻域节点类别不同且贡献度可能不一样,将除0阶以外的偶数阶图卷积与它相邻的低阶图卷积分为一组代替该偶数阶图卷积,则最高阶数k为偶数的分组和奇数的分组分别为:
得到基于注意力机制的分组后,采用SA简单注意机制对组内的不同图卷积进行注意融合得到新的融合图卷积,并利用一系列注意力分数a12,a34,…,a(k-1)k来调整不同组图卷积的权重,通过这些注意分数给予分类更重要的组更高的权重,不重要的组较小的权重的方法调整不同组的邻域节点对于预测目标分类的贡献度,则最高阶数k为偶数和奇数的分组注意高阶图卷积分别表示为:
其中,简单注意机制融合函数SA的注意融合选用累计池化,且公式为:
其Hi(i+1)为第i阶图卷积和第i+1阶图卷积的注意融合输出。
上述分组注意高阶图卷积包括包括基于权重共享的零阶图卷积到k阶图卷积,使得分组注意高阶图卷积的参数量与一阶图卷积的参数量保持一致,不仅通过在任一阶数图卷积引入新的自连接赋予自身节点更高的权重,还通过一阶到k阶分组图卷积捕捉节点的高阶邻域信息和区分了不同组图卷积邻域节点的贡献度差异。为了弥补一层架构的学习能力,在实际应用中可以根据需求将选取较大的k值即设置较大的宽度,即通过增加宽度(增加阶数)来代替增加深度(增加层数)的方式增加模型的感受野,进而增强模型的学习能力。其中,分组注意高阶图卷积层的阶数k可以为二阶及其以上阶数中的一种,或者任意复数种阶数的组合。假设上述基于分组注意的宽度图卷积网络模型的输出层的输出为HGCNSA,则表示为:
或
其中,X是图的输入矩阵,w是参数矩阵,是图的正则化邻接矩阵,k是图卷积的最高阶数,SA(·)为简单注意机制融合函数,a12,a34,…,a(k-1)k为对应不同组图卷积的注意力分数,σ(·)为激活函数,SP(·)为信息融合函数,softmax(·)为多分类输出函数。
上述图卷积最高阶数k=2时,即采用0阶、1阶和2阶邻域混合的HGCNSA-2,公式如下:
当k=3时,即采用0阶、1阶、2阶和3阶邻域混合的HGCNSA-3,公式如下:
k为更高阶数时的模型可以参照上述模型依此类推得到。本实施例中模型的同一图卷积层的各阶邻域均采用相同权重参数,来实现权重共享和降低参数量,具体体现在模型公式中参数W的选择。
本实施例中通过构建只有一层且同时引入分组注意机制和自连接的高阶图卷积层的网络架构,不仅减少了参数量和模型的计算量,有效的提升了模型训练效率,而且基于自身节点特征对分类影响更大和不同组图卷积的分类贡献度有差异的考虑,通过引入自连接加大自身节点信息权重的方式提高了模型的分类效果,还采用对不同阶数图卷积先分组,再对组内图卷积采用注意机制融合,组间图卷积基于给更重要的图卷积组更高权重,不重要的图卷积组较小权重的注意力分数打分原则来调整不同组的邻域节点对于预测目标分类的贡献度,使得模型的构建和应用更贴合实际、更有效,达到进一步提高分类精度的目的。
在实际应用于大规模的分类训练时,需要先计算出由于通常是一个具有m个非零元素的稀疏矩阵,且分组注意高阶图卷积均采用权重共享机制,采用从右到左的乘法来计算如,当k=2,用相乘来求同理,依此类推通过左乘k-1阶图卷积来计算k阶图卷积,即这一计算方法有效的降低了计算复杂度。此外,由于不同阶图卷积采用权重共享机制,分组注意高阶图卷积的参数量和一阶图卷积的参数量是相同的,在一定程度上保证了分组注意高阶图卷积计算的高效性。
优选地,σ激活函数为ReLU(·)非线性激活函数。
其中,ReLU激活函数是用来进行非线性处理的。由于线性模型的表达力不够,且有些数据特征不一定是线性可分的,为了解决这一问题就在信息融合池化层之后采用激活函数进行非线性处理,常用的非线性激活函数包括sigmoid、tanh和ReLU、ElU、PReLU等,上述激活函数都可使用,但各有优劣,而本实施例中采用神经网络中用的最多的ReLU函数,它的公式定义如下:
f(x)=max(0,x),
即,保留大于等于0的值,其余所有小于0的数值直接改写为0。通过这种方法对卷积后产生的特征图中的值进行映射,就可以在特征提取时直接舍弃掉那些不相关联的数据,操作更方便。
由于非线性激活函数可以提高模型的表达能力,但对图分类任务用处不是很大,尤其是对于本实施例中只有一层分组注意高阶图卷积层的宽度图卷积网络模型而言,是可以省略非线性激活的处理,进一步减少模型计算的复杂度,但可以能会损失一点精度,总体来说对模型的分类精度影响不大,因此,在该模型的实际应用中可以根据分类任务的具体情况决定是否需要使用非线性激活函数,若对精度上要求比较高可以选择使用非线性激活函数,若希望减少模型的计算复杂度提升模型的性能,可以省略非线性激活的处理。
优选地,信息融合池化层采用SP求和信息融合池化来融合从零阶到k阶的不同阶邻域的节点信息,k为偶数时的计算公式为:
k为奇数时的计算公式为:
对应的采用SP信息融合的分组注意高阶图卷积能聚集更多更丰富的邻域信息获得全局图结构信息的同时,还考虑了自身节点在分类预测时更加重要,及不同组的邻域节点对于预测目标分类的贡献度差异的因素,k为偶数时的模型表达式为:
如图3所示,k为奇数时的模型表达式为:
其中,H为分组注意高阶图卷积层的输出值,即为该模型的softmax函数输出层的输入值。
以一个具体的三阶实施例来说明上述本实施例中的信息融合方式,高阶的情况类似。假设邻域的阶数k=3,假设其零阶邻域为H0,一阶邻域为H1,二阶邻域为H2,三阶邻域为H3,a12为对应图卷积组的注意力分数,则SP求和信息融合过程为:
本实施例采用SP信息融合的分组注意高阶图卷积算法实现过程如下:
本实施例中图网络先输入到分组注意高阶图卷积进行上述的算法处理,再使用SP求和信息融合池化层来混合不同邻域的零阶到高阶的特征,经过非线性激活后输入softmax函数输出层得到分类概率结果的方法,能够在学习过程中保留更多更丰富的特征信息进行全局图拓扑的学习的同时,还考虑了预测时自身节点更重要的作用,且区分了不同组邻域节点的分类贡献度差异,进而很好地提升了模型的有效性及学习效果。
在一个实施例中,如图4所示,任一上述基于分组注意的宽度图卷积网络模型的训练方法的步骤包括:
S11、获取所述训练数据集,并根据所述训练数据集的类型得到所述训练数据集的图特征,所述图特征包括图的输入矩阵和正则化邻接矩阵;
其中,训练数据集根据实际的分类需求进行选择,比如文本分类数据集、半监督分类数据集、多视图分类3D数据集等。每一种分类任务的数据集内容不相同,其类型也就不同,对应的预处理后得到图特征矩阵(即模型的图的输入矩阵)和正则化邻接矩阵的方法也是不同的,如当需要进行文本分类时,就需要将包括文档和标题的语料集数据进行处理构建对应的语料文本图网络,根据语料文本图网络得到模型训练使用的图的输入矩阵和图的正则化邻接矩阵。对于其它情形的数据集,如半监督数据集或多视图分类数据集等都有对应类型的预处理方法,在使用本实例中的模型进行分类时只需按照分类任务类型对应的常规方法将该任务对应的数据集转换为图的输入矩阵和图的正则化邻接矩阵即可。本申请后续实施例中,均以如表1所示的半监督数据集为例进行相关说明。
表1 半监督分类经典数据集信息表
数据集 | Cora | Citeseer | Pubmed |
节点数 | 2708 | 3327 | 19717 |
边数 | 5429 | 4732 | 44338 |
特征词 | 1433 | 3703 | 500 |
分类数 | 7 | 6 | 3 |
训练节点 | 140 | 120 | 60 |
验证节点 | 500 | 500 | 500 |
测试节点 | 1000 | 1000 | 1000 |
标签率 | 0.052 | 0.036 | 0.003 |
S12、将所有不同阶数的所述图的正则化邻接矩阵采用组内注意融合和组间加权作和的方法,得到预处理邻接矩阵,并将所述预处理邻接矩阵与所述图的输入矩阵作积,得到预处理特征;
其中,由于本申请构建的是只有一层分组注意高阶图卷积层,没有多层图高阶卷积层,模型训练之前,可按照零阶到k阶图卷积的分组,结合组内图卷积SA注意融合,及组间使用注意力分数加权的方法对特征进行预处理,得到预处理邻接矩阵,则上述对应的SP求和信息融合计算式分别优化为:
当k为偶数时,
当k为奇数时,
由于在模型训练之前正则化邻接矩阵(即I)和a12,a34,…,a(k-1)k都已知,则由矩阵乘法易得则由矩阵数乘及加法易得可见是通过逐元素运算得到的,其每个元素的空间位置和是相同的,是保留了图拓扑的算子,即可将当做一个预处理后的图的邻接矩阵用于后续的模型训练使用。在经过上述预处理得到预处理邻接矩阵后,由于输入矩阵X已知的,可以直接把线性变换得到的作为预处理特征矩阵送入模型进行训练,一定程度上减少了机器训练的复杂度和难度,从而保证了模型训练的高效性。
S13、将所述预处理特征输入所述宽度图卷积网络模型,进行特征训练,得到训练结果。
其中,如图5所示,所述将所述预处理特征输入所述宽度图卷积网络模型,进行特征训练,得到训练结果的步骤S13包括:
S131、将所述宽度图卷积网络模型的参数矩阵进行随机初始化,并将所述注意力分数初始化为特定值;
其中,对模型参数矩阵进行随机初始化的方法有:权重服从高斯分布的Gaussian初始化、权重为均匀分布的Xavier初始化,及均值为0、方差为2/n的MSRA初始化。本实施例中的基于分组注意的宽度图卷积网络模型参数矩阵的随机初始化时,可以根据实际分类需求结合上述三种初始化的特点进行选择,不会影响模型的应用效果。需要注意的是模型注意力分数的初始化值都设为1,后续在训练的过程中根据学习率优化结合所述训练数据集属性调整所述注意力分数,不同数据集对应的最大图卷积阶数不相同、各阶图卷积的注意力分数也不同的。本实施例中要先确定Pubmed、Cora和Citeseer数据集对应的最大图卷积阶数后,在不同数据集的训练过程中以分类精度为依据分别在对应阶数的模型上进行注意力乘数的调整。
S132、将所述预处理特征输入所述宽度图卷积网络模型,根据学习率优化结合所述训练数据集属性调整所述注意力分数,并采用损失函数和梯度下降法进行训练,得到收敛的参数矩阵。
其中,基于分组注意的宽度图卷积网络模型训练的过程为:(1)对选用的训练数据集中的有效特征数据进行预处理得到的预处理特征并输入不同阶数的模型,使用初始化注意力分数和初始化参数矩阵及最大学习率进行正向传播得到分类结果,选取分类精度最高的阶数的模型作为该训练数据集后续训练的基准模型,如表2所示,Pubmed、Cora和Citeseer数据集上,基于分组注意的宽度图卷积网络模型的最大阶数分别为21、8和4;(2)确定基于分组注意的宽度图卷积网络模型的宽度值(最高阶数)后,依据低阶邻域节点比更高阶节点更重要的原则,对不同阶邻域节点的注意力分数值依次进行调整,并将调整后的注意力分数输入模型进行训练,经过正向传播得到分类结果,再通过损失函数计算交叉熵使用反向传播更新参数矩阵的梯度下降算法进行训练直至收敛,得到当前注意力分数下的收敛时的参数矩阵,并记录对应的分类精度;(3)重复步骤2的操作,不断调整注意力分数进行训练,直至得到分类精度更高的参数矩阵,作为该模型对应注意力分数下的收敛的参数矩阵,用作后续的分类测试使用,基于Pubmed、Cora和Citeseer数据集最大阶数的HGCNSA模型对应的注意力分数如表2所示。
表2HGCNSA基于Pubmed、Cora和Citeseer数据集的测试精度比对表
表2说明:表中k是图卷积的最大阶数,模型的准确率以百分比表示,且该数字是10次运行的平均值。
本实施例中,模型训练时根据该类训练数据集的特点,选用的损失函数为:
xl为带有标签的顶点(节点)的集合,M是类的数目,Ylm表示标签节点的实标签,Zlm并表示softmax(输入标签节点)预测的0到1之间的概率值。当初始化参数矩阵后,基于所有的训练数据集得到初始的损失函数值,若损失函数较大,则说明神经网络性能不好,需要使用梯度下降法,即通过计算上述损失函数关于该神经网络模型参数的偏导数,再不断地调整更新权值参数再训练,直至损失函数缩小至一个可接受范围,结束模型的整个训练过程,即可达到收敛的参数矩阵。
本申请实施例中,设计了只有一层图卷积的基于分组注意高阶图卷积的宽度图卷积网络模型及其特征预处理的模型训练方法,采用分组注意宽度图卷积代替深度图卷积,在没有多层图卷积层的情况下,既减少了模型的复杂度、模型的参数量及训练难度,还能学习到多邻域节点之间的交互关系、突出自身节点邻域信息重要性及区分不同组邻域节点的贡献度差异,再结合模型训练时的特征预处理方法,使得模型的构建和应用更贴合实际,不仅扩宽了感受野,提高了训练效率和分类精度,避免了过拟合风险,还增加了模型的稳定性。
本申请实施例中模型基于半监督分类数据集分别进行分类训练,并分别与现有的图卷积神经模型的测试效果进行比对,结果如下表3所示:
表3HGCNSA与现有图卷积模型基于相同半监督数据集的测试精度比对表
表3说明:表中的准确率以百分比表示,且该数字是10次运行的平均值。
基于上述实验结果表3可知,本实施例提出了一种只具有一层既能同时聚集不同阶邻域节点信息,又能考虑自身节点对分类预测重要作用,且区分不同组邻域节点的分类贡献度的高阶图卷积,和混合不同邻域的零阶到高阶特征的SP信息融合层的基于分组注意的宽度图卷积网络模型HGCNSA,不仅在分类学习中保留更多更丰富的邻域特征信息,学习了全局图拓扑,扩宽了感受野,还简化了现有高阶图卷积模型,降低了模型的复杂度,减少了模型的参数量和训练难度,进一步提升了模型训练效率,避免了模型的过拟合风险,还通过引入新的自连接加大自身节点权重,和对不同阶图卷积引入分组注意机制区分不同组邻域节点贡献度差异的方法,进一步提高了模型表达能力和学习能力,基于三组基准半监督分类数据集上的实验结果表明应用基于分组注意的宽度图卷积网络模型与采用现有的其他基线方法相比,在分类精度、参数量、复杂度及稳定性等方面都有着较大的优势。
为了确定自身节点对分类预测的重要性,及引入分组注意机制的意义,本申请还基于Pubmed、Cora和Citeseer数据集分别做了保持其他条件不变的情况下是否引入自连接,及保持其他条件不变的情况下是否引入分组注意机制的两组对比实验,如表4-5所示,研究结果都表明同时引入自连接和分组注意机制的HGCNSA模型的稳定性和分类精度最好。
表4 无自连接的HGCNSA与HGCNSA基于半监督数据集的分类精度比对
表4说明:表中的准确率以百分比表示,且该数字是10次运行的平均值,基于Citeseer、Pubmed和Cora数据集上,有自连接的HGCNSA模型的分类精度比无自连HGCNSA模型的分类精度分别提升1.7%、1.1%和0.7%。
表5 无分组注意机制的HGCNSA与HGCNSA基于半监督数据集的分类精度比对
表5说明:表中的准确率以百分比表示,且该数字是10次运行的平均值。
在本申请上述实施例的实际应用中,根据实际需求,可以对模型的分组注意机制和自连接进行合理的取舍,若只想引入分组注意机制,即通过SA简单注意机制融合组内图卷积,以及设置注意力分数调整不同组邻域节点的分类贡献度的方法来区分不同阶邻域节点的分类贡献度,而不需要引入自连接进一步增加自身节点的权重时,可以将本申请上述各实施例中引入自连接的部分去掉,只保留其他部分的技术方案及可以实现,此处不再赘述。
需要说明的是,虽然上述流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,这些步骤可以以其它的顺序执行。而且,上述流程图中的至少一部分步骤可以包括多个子步骤或者多个阶段,这些子步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,这些子步骤或者阶段的执行顺序也不必然是依次进行,而是可以与其它步骤或者其它步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。
图6示出一个实施例中计算机设备的内部结构图,该计算机设备具体可以是终端或服务器。如图6所示,该计算机设备包括通过系统总线连接的处理器、存储器、网络接口、显示器和输入装置。其中,该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统和计算机程序。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种基于分组注意的宽度图卷积网络模型的训练方法。该计算机设备的显示屏可以是液晶显示屏或者电子墨水显示屏,该计算机设备的输入装置可以是显示屏上覆盖的触摸层,也可以是计算机设备外壳上设置的按键、轨迹球或触控板,还可以是外接的键盘、触控板或鼠标等。
本领域普通技术人员可以理解,图6中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的计算机设备的限定,具体的计算设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有同的部件布置。
在一个实施例中,提供了一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,处理器执行计算机程序时实现上述基于分组注意的宽度图卷积网络模型的训练方法的步骤。
在一个实施例中,提供了一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现上述基于分组注意的宽度图卷积网络模型的训练方法的步骤。
综上,本发明实施例提供的一种基于分组注意的宽度图卷积网络模型及其训练方法,其基于充分考虑现有高阶图卷积神经网络模型及高低阶图卷积神经网络模型的参数过多、复杂度大、训练效率低、过拟合风险,及未区分不同距离邻域节点对于预测目标分类的贡献度等多方面问题的基础上,提出了一种包括能捕捉多阶邻域信息、加大自身节点权重和引入分组注意机制的高阶图卷积层、混合不同阶邻域特征的SP信息融合层及softmax分类输出层的宽度图卷积网络模型,及与该模型对应的先进行特征预处理再进行训练的高效模型训练方法。该模型及其训练方法应用于实际分类测试时,采用基于分组注意的高阶图卷积层增加模型宽度、降低模型深度、减少参数量的同时,还能同时聚集多阶邻域信息、赋予自身节点更高的权重,且采用简单分组注意机制结合注意力分数调整不同邻域节点的分类贡献度,进而在扩宽模型感受野、避免了模型过拟合风险的同时,使得模型的构建和应用更贴合实际,进一步提升了模型的学习能力、稳定性、有效性和分类精度。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。
本说明书中的各个实施例均采用递进的方式描述,各个实施例直接相同或相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。需要说明的是,上述实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
以上所述实施例仅表达了本申请的几种优选实施方式,其描述较为具体和详细,但并不能因此而理解为对发明专利范围的限制。应当指出的是,对于本技术领域的普通技术人员来说,在不脱离本发明技术原理的前提下,还可以做出若干改进和替换,这些改进和替换也应视为本申请的保护范围。因此,本申请专利的保护范围应以所述权利要求的保护范围为准。
Claims (10)
1.一种基于分组注意的宽度图卷积网络模型,其特征在于,所述宽度图卷积网络模型模型依次包括输入层、分组注意高阶图卷积层、信息融合池化层和输出层;
所述输入层,用于接收训练数据集的图特征;
所述分组注意高阶图卷积层,用于根据所述图特征进行零阶到k阶的分组注意图卷积运算,得到图卷积数据;
所述信息融合池化层,用于根据所述图卷积数据进行零阶到k阶的特征融合,得到融合数据;
所述输出层,用于根据所述融合数据输出模型结果。
2.如权利要求1所述的基于分组注意的宽度图卷积网络模型,其特征在于,所述分组注意高阶图卷积层通过如下方式产生:
对不同阶数图卷积进行分组;
组内图卷积采用注意机制进行注意融合,组间图卷积采用注意力分数调整权重。
3.如权利要求2所述的基于分组注意的宽度图卷积网络模型,其特征在于,在所述分组注意高阶图卷积层的任一阶数图卷积引入新的自连接。
7.如权利要求5所述的基于分组注意的宽度图卷积网络模型,其特征在于,所述σ激活函数为ReLU非线性激活函数。
9.如权利要求1-8任一项所述的基于分组注意的宽度图卷积网络模型的训练方法,其特征在于,所述训练方法的步骤包括:
获取所述训练数据集,并根据所述训练数据集的类型得到所述训练数据集的图特征,所述图特征包括图的输入矩阵和正则化邻接矩阵;
将所有不同阶数的所述图的正则化邻接矩阵采用组内注意融合和组间加权作和的方法,得到预处理邻接矩阵,并将所述预处理邻接矩阵与所述图的输入矩阵作积,得到预处理特征;
将所述预处理特征输入所述宽度图卷积网络模型,进行特征训练,得到训练结果。
10.如权利要求9所述的基于分组注意的宽度图卷积网络模型的训练方法,其特征在于,所述将所述预处理特征输入所述宽度图卷积网络模型,进行特征训练,得到训练结果的步骤包括:
将所述宽度图卷积网络模型的参数矩阵进行随机初始化,并将所述注意力分数初始化为特定值;
将所述预处理特征输入所述宽度图卷积网络模型,根据学习率优化结合所述训练数据集属性调整所述注意力分数,并采用损失函数和梯度下降法进行训练,得到收敛的参数矩阵。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011610968.8A CN112668700B (zh) | 2020-12-30 | 2020-12-30 | 一种基于分组注意的宽度图卷积网络模型系统及训练方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011610968.8A CN112668700B (zh) | 2020-12-30 | 2020-12-30 | 一种基于分组注意的宽度图卷积网络模型系统及训练方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112668700A true CN112668700A (zh) | 2021-04-16 |
CN112668700B CN112668700B (zh) | 2023-11-28 |
Family
ID=75411116
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011610968.8A Active CN112668700B (zh) | 2020-12-30 | 2020-12-30 | 一种基于分组注意的宽度图卷积网络模型系统及训练方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112668700B (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113487856A (zh) * | 2021-06-04 | 2021-10-08 | 兰州理工大学 | 基于图卷积网络及注意力机制的交通流组合预测模型 |
CN115033400A (zh) * | 2022-06-15 | 2022-09-09 | 北京智源人工智能研究院 | 中间数据传输方法、树突模块、神经网络模型及相关方法 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20190236440A1 (en) * | 2018-01-31 | 2019-08-01 | Pin-Han Ho | Deep convolutional neural network architecture and system and method for building the deep convolutional neural network architecture |
CN110473592A (zh) * | 2019-07-31 | 2019-11-19 | 广东工业大学 | 基于图卷积网络的有监督的多视角人类协同致死基因预测方法 |
CN111159425A (zh) * | 2019-12-30 | 2020-05-15 | 浙江大学 | 一种基于历史关系和双图卷积网络的时态知识图谱表示方法 |
CN111863244A (zh) * | 2020-07-28 | 2020-10-30 | 中国人民解放军国防科技大学 | 基于稀疏池化图卷积的功能连接精神疾病分类方法和系统 |
-
2020
- 2020-12-30 CN CN202011610968.8A patent/CN112668700B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20190236440A1 (en) * | 2018-01-31 | 2019-08-01 | Pin-Han Ho | Deep convolutional neural network architecture and system and method for building the deep convolutional neural network architecture |
CN110473592A (zh) * | 2019-07-31 | 2019-11-19 | 广东工业大学 | 基于图卷积网络的有监督的多视角人类协同致死基因预测方法 |
CN111159425A (zh) * | 2019-12-30 | 2020-05-15 | 浙江大学 | 一种基于历史关系和双图卷积网络的时态知识图谱表示方法 |
CN111863244A (zh) * | 2020-07-28 | 2020-10-30 | 中国人民解放军国防科技大学 | 基于稀疏池化图卷积的功能连接精神疾病分类方法和系统 |
Non-Patent Citations (2)
Title |
---|
MENG JOO ER 等: "Attention pooling-based convolutional neural network for sentence modelling", 《ELSEVIER SCIENCE》, pages 1 - 16 * |
周恒晟: "基于多层次图注意力卷积神经网络的节点分类模型研究", 《万方数据知识服务平台学位论文库》, pages 1 - 68 * |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113487856A (zh) * | 2021-06-04 | 2021-10-08 | 兰州理工大学 | 基于图卷积网络及注意力机制的交通流组合预测模型 |
CN115033400A (zh) * | 2022-06-15 | 2022-09-09 | 北京智源人工智能研究院 | 中间数据传输方法、树突模块、神经网络模型及相关方法 |
Also Published As
Publication number | Publication date |
---|---|
CN112668700B (zh) | 2023-11-28 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112598080A (zh) | 一种基于注意力的宽度图卷积神经网络模型及其训练方法 | |
Sun et al. | What and how: generalized lifelong spectral clustering via dual memory | |
CN112529168B (zh) | 一种基于gcn的属性多层网络表示学习方法 | |
Panagant et al. | Truss topology, shape and sizing optimization by fully stressed design based on hybrid grey wolf optimization and adaptive differential evolution | |
CN104951425B (zh) | 一种基于深度学习的云服务性能自适应动作类型选择方法 | |
Mostafa et al. | Boosting chameleon swarm algorithm with consumption AEO operator for global optimization and feature selection | |
CN112633481B (zh) | 一种多跳图卷积神经网络模型系统及训练方法 | |
CN111523051A (zh) | 基于图卷积矩阵分解的社交兴趣推荐方法及系统 | |
Zhang et al. | Collective classification via discriminative matrix factorization on sparsely labeled networks | |
CN112529069B (zh) | 一种半监督节点分类方法、系统、计算机设备和存储介质 | |
WO2023065859A1 (zh) | 物品推荐方法、装置及存储介质 | |
CN112633482B (zh) | 一种高效宽度图卷积神经网络模型系统及训练方法 | |
CN114637923B (zh) | 基于层次注意力图神经网络的数据信息推荐方法和装置 | |
Miller et al. | Preference construction, sequential decision making, and trade space exploration | |
CN112529071B (zh) | 一种文本分类方法、系统、计算机设备和存储介质 | |
CN112668700A (zh) | 一种基于分组注意的宽度图卷积网络模型及其训练方法 | |
Jiang et al. | Convolutional neural network pruning based on multi-objective feature map selection for image classification | |
Sun et al. | Graph force learning | |
Choi et al. | GREAD: Graph neural reaction-diffusion networks | |
Reimann et al. | Neural logic rule layers | |
CN115828160A (zh) | 基于大数据和云计算的数据挖掘方法和平台 | |
Zheng et al. | Multi-class indoor semantic segmentation with deep structured model | |
CN112651492B (zh) | 一种自连接宽度图卷积神经网络模型系统及训练方法 | |
Chen et al. | A hybrid tensor factorization approach for QoS prediction in time-aware mobile edge computing | |
CN112734519B (zh) | 一种基于卷积自编码器网络的商品推荐方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |