CN112598080B - 基于注意力的宽度图卷积神经网络模型系统及训练方法 - Google Patents

基于注意力的宽度图卷积神经网络模型系统及训练方法 Download PDF

Info

Publication number
CN112598080B
CN112598080B CN202011642705.5A CN202011642705A CN112598080B CN 112598080 B CN112598080 B CN 112598080B CN 202011642705 A CN202011642705 A CN 202011642705A CN 112598080 B CN112598080 B CN 112598080B
Authority
CN
China
Prior art keywords
attention
graph
order
training
neural network
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202011642705.5A
Other languages
English (en)
Other versions
CN112598080A (zh
Inventor
刘勋
宗建华
夏国清
叶和忠
刘强
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
South China Institute Of Software Engineering Gu
Original Assignee
South China Institute Of Software Engineering Gu
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by South China Institute Of Software Engineering Gu filed Critical South China Institute Of Software Engineering Gu
Priority to CN202011642705.5A priority Critical patent/CN112598080B/zh
Publication of CN112598080A publication Critical patent/CN112598080A/zh
Application granted granted Critical
Publication of CN112598080B publication Critical patent/CN112598080B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2415Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • G06F18/253Fusion techniques of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Engineering & Computer Science (AREA)
  • Evolutionary Computation (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Evolutionary Biology (AREA)
  • Biophysics (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Molecular Biology (AREA)
  • General Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Biomedical Technology (AREA)
  • Health & Medical Sciences (AREA)
  • Probability & Statistics with Applications (AREA)
  • Image Analysis (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提供了一种基于注意力的宽度图卷积神经网络模型及其训练方法,所述模型依次包括输入层、注意力高阶图卷积层、融合多阶邻域信息的SP信息融合池化层和softmax函数多分类输出层,所述模型对应的训练方法为先预处理得到预处理特征后,将其输入模型训练的高效训练方法。本实施例采用注意力高阶图卷积层增加模型宽度、降低模型深度、减少参数量和复杂度的同时,还能聚集更丰富的节点信息、赋予自身节点更高权重,及区分不同邻域节点的分类贡献度,进而在扩宽模型感受野、避免过拟合风险的同时,使得模型的构建和应用更贴合实际,进一步提升模型的学习能力、稳定性和分类精度。

Description

基于注意力的宽度图卷积神经网络模型系统及训练方法
技术领域
本发明涉及图像处理及深度学习技术领域,特别是涉及一种基于注意力的宽度图卷积神经网络模型及其训练方法。
背景技术
随着图卷积神经网络机器学习研究地不断加深,能够聚集更丰富节点信息且能扩宽模型感受野、提升分类表现的高阶图卷积网络模型和高低阶图卷积网络模型先后被不同的研究者提出。现有的高阶图卷积网络模型和高低阶图卷积网络模型的分类表现在一定程度上都达到了研究者的预期,但它们仍有不足之处:高阶图卷积网络模型设计了一种包括一阶图卷积到P阶图卷积,不同阶卷积使用不同权重参数,利用两个高阶图卷积层学习高阶节点之间的关系和聚集不同距离邻域节点信息的高阶图卷积,且在每个高阶图卷积聚集了不同距离的邻域信息后,利用列连接将这些邻域信息进行拼接,最后通过一个全连接层融合这些邻域信息的网络架构,由于其采用不同阶卷积不同的权重参数、堆叠多个高阶图卷积层,及全连接融合不同距离邻域信息的技术必要会造成复杂度增大,参数量成倍增加,进而增加了过拟合风险;虽然高低阶图卷积网络模型采用权重共享机制一定程度上较少了参数量,但其同样堆叠了多层高低阶图卷积层使得模型的参数量和复杂度并没有显著减少,同样不能避免过拟合风险。此外,高阶图卷积网络模型和高低阶图卷积网络模型都未对不同距离邻域节点对于分类预测的重要性加以区分,而是同等重要的考虑不同距离邻域节点的贡献度,与现实信息有一定的偏差,一定程度上会影响分类预测的效果。
因此,如何基于现有高阶图卷积网络和高低阶图卷积网络的研究,区分不同距离邻域节点对分类预测的重要性,在保证现有模型的分类表现、减少计算复杂度和参数量及避免过拟合风险的基础上,使得模型的构建和应用更贴近现实是非常有意义的。
发明内容
本发明的目的是减少现有高阶图卷积网络和高低阶图卷积网络的计算复杂度和参数量,避免过拟合风险的同时,区分不同距离邻域节点对于预测任务的重要性,使得模型的构建和应用更贴近现实,进而提高分类表现。
为了实现上述目的,有必要针对上述技术问题,提供了一种基于注意力的宽度图卷积神经网络模型及其训练方法。
第一方面,本发明实施例提供了一种基于注意力的宽度图卷积神经网络模型,所述宽度图卷积神经网络模型模型依次包括、注意力高阶图卷积层、信息融合池化层和输出层;
所述输入层,用于接收训练数据集的图特征;
所述注意力高阶图卷积层,用于根据所述图特征进行零阶到k阶的注意力图卷积运算,得到图卷积数据;
所述信息融合池化层,用于根据所述图卷积数据进行零阶到k阶的特征融合,得到融合数据;
所述输出层,用于根据所述融合数据输出模型结果。
进一步地,所述注意力高阶图卷积层由在不同阶数的图卷积都引入注意力机制得到。
进一步地,在所述注意力高阶图卷积层的任一阶数图卷积引入新的自连接。
进一步地,所述注意力高阶图卷积层包括基于权重共享的零阶图卷积到k阶图卷积,表示为:
其中,X是图的输入矩阵,是参数矩阵,/>是图的正则化邻接矩阵,k是图卷积的最高阶数,/>,/>为对应阶图卷积的注意力分数。
进一步地,所述宽度图卷积神经网络模型模型的输出层HGCNCM表示为:
其中,为激活函数,/>为信息融合函数,/>为多分类输出函数。
进一步地,所述激活函数为ReLU非线性激活函数。
进一步地,所述信息融合池化层采用SP求和信息融合池化,其计算公式如下:
第二方面,本发明实施例提供了一种基于注意力的宽度图卷积神经网络模型的训练方法,所述训练方法的步骤包括:
根据训练数据集进行预处理,得到预处理特征;
将所述预处理特征输入所述宽度图卷积神经网络模型,进行特征训练,得到训练结果。
进一步地,所述根据训练数据集进行预处理,得到预处理特征的步骤包括:
获取所述训练数据集,并确定所述训练数据集的类型;
根据所述训练数据集的类型,选取特定方法得到所述图的输入矩阵和正则化邻接矩阵;
将所有不同阶数的所述图的正则化邻接矩阵加权作和,得到预处理邻接矩阵;
将所述预处理邻接矩阵和所述图的输入矩阵作积,得到预处理特征。
进一步地,所述将所述预处理特征输入所述宽度图卷积神经网络模型,进行特征训练,得到训练结果的步骤包括:
将所述宽度图卷积神经网络模型的参数矩阵进行随机初始化,并将所述注意力分数初始化为特定值;
将所述预处理特征输入所述宽度图卷积神经网络模型,根据学习率优化结合所述训练数据集属性调整所述注意力分数,并采用损失函数和梯度下降法进行训练,得到收敛的参数矩阵。
上述本申请提供了一种基于注意力的宽度图卷积神经网络模型及其训练方法,通过所述模型及其训练方法,实现了采用仅有输入层、注意力高阶图卷积层、SP求和信息融合池化层及softmax函数输出层的基于注意力的宽度图卷积神经网络模型,结合该模型训练前的特征预处理方法,并依此得到精准分类的效果。与现有技术相比,该模型及其训练方法在实际分类应用上,不仅通过采用引入自连接赋予自身节点更高权重来聚集更多阶邻域间的更丰富的节点信息,且区分不同距离邻域节点对分类预测的贡献度的高阶图卷积,很好的提升了模型的学习能力和分类精度,还通过设计一层注意力高阶图卷积层,并在不同阶图卷积间采用权重共享机制,有效的减少了参数量、降低了模型的复杂度和训练难度,避免了过拟合的风险。
附图说明
图1是本发明实施例中基于注意力的宽度图卷积神经网络模型及其训练方法的应用场景示意图;
图2是基于注意力的宽度图卷积神经网络模型的示意图;
图3是采用SP信息融合池化层的基于注意力的高效宽度图卷积神经网络模型的示意图;
图4是图3基于注意力的宽度图卷积神经网络模型的训练方法的流程示意图;
图5是图4中步骤S11获取训练集数据预处理,得到预处理特征的流程示意图;
图6是图4中步骤S12将预处理特征输入基于注意力的宽度图卷积神经网络模型进行特征训练的流程示意图;
图7是本发明实施例中计算机设备的内部结构图。
具体实施方式
为了使本申请的目的、技术方案和有益效果更加清楚明白,下面结合附图及实施例,对本发明作进一步详细说明,显然,以下所描述的实施例是本发明实施例的一部分,仅用于说明本发明,但不用来限制本发明的范围。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明提供的基于注意力的宽度图卷积神经网络是对现有高阶图卷积神经网络和高低阶图卷积神经网络的改进,该模型及其训练方法,可以应用于如图1所示的终端或服务器上。其中,终端可以但不限于是各种个人计算机、笔记本电脑、智能手机、平板电脑和便携式可穿戴设备,服务器可以用独立的服务器或者是多个服务器组成的服务器集群来实现。服务器可采用基于注意力的宽度图卷积神经网络模型(HGCNCM)及对其对应的训练方法完成现有高阶图卷积神经网络模型和高低阶图卷积神经网络模型能够完成的分类任务,并将模型的分类预测结果发送至终端,供终端的使用者查看分析。
在一个实施例中,如图2所示,提供了一种基于注意力的宽度图卷积神经网络模型包括输入层1、注意力高阶图卷积层2、信息融合池化层3和输出层4;所述输入层1,用于接收训练数据集的图特征;所述注意力高阶图卷积层2,用于根据所述图特征进行零阶到k阶的注意力图卷积运算,得到图卷积数据;所述信息融合池化层3,用于根据所述图卷积数据进行零阶到k阶的特征融合,得到融合数据;所述输出层4,用于根据所述融合数据输出模型结果。
其中,注意力高阶图卷积层和信息融合池化层都只有1个,即基于注意力的宽度图卷积神经网络模型的结构为:输入层1与注意力高阶图卷积层2相连,注意力高阶图卷积层2与信息融合池化层3相连,信息融合池化层3再与采用softmax函数进行多分类输出的输出层4相连。
注意力机制源于对人类视觉的研究。在认知科学中,由于信息处理的瓶颈,人类往往根据需求忽略部分可见信息,只关注信息特定的一部分。为了合理利用有限的视觉信息处理资源,人类需要选择视觉区域中的特定部分,然后集中关注它,从而筛选出有价值的信息,视觉注意力机制极大的提高了人类处理视觉信息的效率。深度学习中的注意力机制借鉴了人类视觉注意力机制的思维方式,以期从大量数据中快速筛选出高价值的信息。
本实施例中的注意力高阶图卷积层是在不同阶图卷积都引入注意力机制,且在任一阶数图卷积引入新的自连接的高阶图卷积层。其中,引入注意力机制是指利用一系列的注意力分数来调整不同阶图卷积的权重,从而调整不同距离的邻域节点对于预测目标分类的贡献度;引入新的自连接是指将任一阶数的图的正则化邻接矩阵都加上同维数的单位矩阵作为新的图的正则化邻接矩阵输入模型。需要注意的是,考虑到自身节点不存在自连接(即自身节点与自身节点有一条边)的邻接矩阵的对角线位置的元素值为0,将该邻接矩阵输入模型训练时可能会因忽略掉自身节点信息而影响模型的分类效果的情况,本实施例中原有的图的正则化邻接矩阵就是含自连接的,而本申请强调的自连接是指在原有的自连接正则化邻接矩阵基础上再次引入自连接,进一步增加自身节点的权重,即:
其中,为第i阶含自连接的正则化邻接矩阵,/>为零阶含自连接的正则化邻接矩阵,/>为与/>同维数的单位矩阵。如在二阶图卷积引入新的自连接时的效果为,当然也可以选择在其他阶数图卷积引入自连接,其他阶情况依此类推可以得到,在此不详述。对应的注意力高阶图卷积为:
其中,X是图的输入矩阵,是参数矩阵,/>是图的正则化邻接矩阵,k是图卷积的最高阶数,/>,/>为对应阶图卷积的注意力分数。此外,本实施例中引入自连接和注意力的方法原则上也同样适用于其他高阶图卷积模型。
上述注意力高阶图卷积包括包括基于权重共享的零阶图卷积到k阶图卷积,使得注意力高阶图卷积的参数量与一阶图卷积的参数量保持一致,不仅通过在任一阶数图卷积引入新的自连接赋予自身节点更高的权重,还通过一阶到k阶图卷积捕捉节点的高阶邻域信息的同时,也区分了不同距离邻域节点的贡献度。为了弥补一层架构的学习能力,在实际应用中可以根据需求将选取较大的k值即设置较大的宽度,即通过增加宽度(增加阶数)来代替增加深度(增加层数)的方式增加模型的感受野,进而增强模型的学习能力。其中,注意力高阶图卷积层的阶数k可以为二阶及其以上阶数中的一种,或者任意复数种阶数的组合。假设上述基于注意力的宽度图卷积神经网络模型的输出层为HGCNCM,则表示为:
(1)
其中,X是图的输入矩阵,是参数矩阵,/>是图的正则化邻接矩阵,k是图卷积的最高阶数,/>,/>为对应阶图卷积的注意力分数,/>为激活函数,为信息融合函数,/>为多分类输出函数。
上述图卷积最高阶数k=2时,即采用0阶、1阶和2阶邻域混合的HGCNCM-2,公式如下:
;(2)
当k=3时,即采用0阶、1阶、2阶和3阶邻域混合的HGCNCM-3,公式如下:
;(3)
当k=n时,即采用0阶到n阶邻域混合的HGCNCM-n,公式如下:
;(4)
在上述模型中同一图卷积层的各阶邻域均采用相同权重参数,来实现权重共享和降低参数量,具体体现在公式(1)-(4)中参数W的选择。
本实施例中通过构建只有一层且同时引入注意力机制和自连接的高阶图卷积层的网络架构,不仅减少了参数量和模型的计算量,有效的提升了模型训练效率,而且基于自身节点特征对分类预测的影响更大的考虑,通过引入自连接加大自身节点信息的权重的方式提高了模型的分类效果,还采用给更重要的图卷积更高的权重,不重要的图卷积较小的权重的注意力分数打分原则来调整不同距离的邻域节点对于预测目标分类的贡献度,使得模型的构建和应用更贴合实际信息,达到进一步提高分类精度的目的。
在实际应用于大规模的分类训练时,需要先计算出,由于/>通常是一个具有m个非零元素的稀疏矩阵,且注意力高阶图卷积均采用权重共享机制,采用从右到左的乘法来计算/>,如,当k=2,用/>相乘来求/>,同理,/>,依此类推通过/>左乘k-1阶图卷积来计算k阶图卷积,即/>,这一计算方法有效的降低了计算复杂度。此外,由于不同阶图卷积采用权重共享机制,注意力高阶图卷积的参数量和一阶图卷积的参数量是相同的,在一定程度上保证了注意力高阶图卷积计算的高效性。
优选地,激活函数为/>非线性激活函数。
其中,ReLU激活函数是用来进行非线性处理的。由于线性模型的表达力不够,且有些数据特征不一定是线性可分的,为了解决这一问题就在信息融合层之后采用激活函数进行非线性处理,常用的非线性激活函数包括sigmoid、tanh和ReLU、ElU、PReLU等,上述激活函数都可使用,但各有优劣,而本实施例中采用神经网络中用的最多的ReLU函数,它的公式定义如下:
即,保留大于等于0的值,其余所有小于0的数值直接改写为0。通过这种方法对卷积后产生的特征图中的值进行映射,就可以在特征提取时直接舍弃掉那些不相关联的数据,操作更方便。
由于非线性激活函数可以提高模型的表达能力,但对图分类任务用处不是很大,尤其是对于本实施例中只有一层注意力高阶图卷积层的宽度图卷积神经网络模型而言,是可以省略非线性激活的处理,进一步减少模型计算的复杂度,但可以能会损失一点精度,总体来说对模型的分类精度影响不大,因此,在该模型的实际应用中可以根据分类任务的具体情况决定是否需要使用非线性激活函数,若对精度上要求比较高可以选择使用非线性激活函数,若希望减少模型的计算复杂度提升模型的性能,可以省略非线性激活的处理。
优选地,信息融合池化层采用SP求和信息融合池化来融合从零阶到k阶的不同阶邻域的节点信息,其具体计算公式如下:
(5)
对应的采用SP信息融合的注意力高阶图卷积能聚集更多更丰富的邻域信息获得全局图结构信息的同时,还考虑了自身节点在分类预测时更加重要,及不同距离的邻域节点对于预测目标分类的贡献度不同的因素,如图3所示,模型的表达式如下:
其中,H为注意力高阶图卷积层的输出值,即为该模型的softmax函数输出层的输入值。
以一个具体的三阶实施例来说明上述本实施例中的信息融合方式,高阶的情况类似。假设邻域的阶数k=3,假设其零阶邻域为,一阶邻域为/>,二阶邻域为/>,三阶邻域为/>,/>为对应阶数图卷积的注意力分数,则SP求和信息融合池化过程为:
,/>,/>,/>,/>
,/>,/>,则
本实施例采用基于SP信息融合的注意力高阶图卷积算法实现过程如下:
输入:
卷积运算:
信息融合:
非线性激活:
本实施例中图网络先输入到注意力高阶图卷积进行上述的算法处理,再使用SP求和信息融合池化层来混合不同邻域的零阶到高阶的特征,经过非线性激活后输入softmax函数输出层得到分类概率结果的方法,能够在学习过程中保留更多更丰富的特征信息进行全局图拓扑的学习的同时,还区分了不同距离的邻域节点对于预测目标分类的贡献度,且考虑了预测时自身节点更重要的作用,进而很好地提升了学习效果。
在一个实施例中,如图4所示,任一上述基于注意力的宽度图卷积神经网络模型的训练方法的步骤包括:
S11、根据训练数据集进行预处理,得到预处理特征;
其中,如图5所示,所述获取训练数据集进行预处理,得到预处理特征的步骤S11包括:
S111、获取所述训练数据集,并确定所述训练数据集的类型;
其中,训练数据集根据实际的分类需求进行选择,比如文本分类的数据集可选取Reuters21578的R52和R8、20-Newsgroups(20NG)、Ohsumed(OH)以及Movie Review(MR),半监督分类可选取Cora、Citeseer、Pubmed,多视图分类可选取Modelnet10和Modelnet40等,每一种分类任务的数据集的内容都不相同,其类型也就不同。
S112、根据所述训练数据集的类型,选取特定方法得到所述自连接宽度图卷积神经网络模型的图的输入矩阵和正则化邻接矩阵。
其中,训练数据集的类型有上述文本数据集、半监督分类数据集、多视图分类数据集等多种类型,对于每种训练集数据在使用本实施的自连接宽度图卷积神经网络模型时,都要进行对应的预处理,得到模型的图的输入矩阵和图的正则化邻接矩阵。如当需要进行文本分类时,就需要将包括文档和标题的语料集数据进行处理构建对应的语料文本图网络,根据语料文本图网络得到模型训练使用的图的输入矩阵和图的正则化邻接矩阵。对于其它情形的数据集,如半监督数据集或多视图分类数据集等都有对应的预处理方法,在使用本实例中的模型进行分类时只需按照分类任务类型对应的常规方法将该任务对应的数据集转换为图的输入矩阵和图的正则化邻接矩阵即可。本申请后续实施例中,均以如表1所示的半监督数据集为例进行相关说明。
表1 半监督分类经典数据集信息表
S113、将所有不同阶数的所述图的正则化邻接矩阵加权作和,得到预处理邻接矩阵;
其中,由于本申请构建的是只有一层注意力高阶图卷积层,没有多层图高阶卷积层,模型训练之前,可采用零阶到k阶图卷积注意力分数加权的方法对特征进行预处理,得到预处理邻接矩阵,则SP求和信息融合计算(5)式可以优化为:
且由于正则化邻接矩阵、/>(即/>)和/>都已知,则由矩阵乘法易得/>,则由矩阵数乘及加法易得/>,可见/>是通过逐元素运算得到的,其每个元素的空间位置和/>是相同的,是保留了图拓扑的算子,即可将/>当做一个预处理后的图的邻接矩阵用于后续的模型训练使用。
S114、将所述预处理邻接矩阵和所述图的输入矩阵作积,得到预处理特征。
在经过上述预处理得到预处理邻接矩阵后,由于输入矩阵X已知的,就可以直接把/>作为预处理特征矩阵送入模型进行训练,一定程度上减少了机器训练的复杂度和难度,从而保证了模型训练的高效性。
S12、将所述预处理特征输入所述宽度图卷积神经网络模型,进行特征训练,得到训练结果。
其中,如图6所示,将所述预处理特征输入所述宽度图卷积神经网络模型,进行特征训练,得到训练结果的步骤S12包括:
S121、将所述宽度图卷积神经网络模型的参数矩阵进行随机初始化,并将所述注意力分数初始化为特定值;
其中,对模型参数矩阵进行随机初始化的方法有:权重服从高斯分布的Gaussian初始化、权重为均匀分布的Xavier初始化,及均值为0、方差为2/n的MSRA初始化。本实施例中的基于注意力的宽度图卷积神经网络模型参数矩阵的随机初始化时,可以根据实际分类需求结合上述三种初始化的特点进行选择,不会影响模型的应用效果。需要注意的是模型注意力分数的初始化值都设为1,后续在训练的过程中根据学习率优化结合所述训练数据集属性调整所述注意力分数,不同数据集对应的最大图卷积阶数不相同、各阶图卷积的注意力分数也不同。本实施例中要先确定Pubmed、Cora和Citeseer数据集对应的最大图卷积阶数后,在不同数据集的训练过程中以分类精度为依据分别在对应阶数的模型上进行注意力分数的调整。
S122、将所述预处理特征输入所述宽度图卷积神经网络模型,根据学习率优化结合所述训练数据集属性调整所述注意力分数,并采用损失函数和梯度下降法进行训练,得到收敛的参数矩阵。
其中,基于注意力的宽度图卷积神经网络模型训练的过程为:(1)对选用的训练数据集中的有效特征数据进行预处理得到的预处理特征并输入不同阶数的模型,使用初始化注意力分数和初始化参数矩阵及最大学习率进行正向传播得到分类结果,选取分类精度最高的阶数的模型作为该训练数据集后续训练的基准模型,如表2所示,基于Pubmed、Cora和Citeseer数据集上,基于注意力的宽度图卷积神经网络模型的最大阶数分别为21、8和4;(2)确定基于注意力的宽度图卷积神经网络模型的宽度值(最高阶数)后,依据低阶邻域节点比更高阶节点的重要性更大些,即近距离节点在预测分类时更重要的原则,对不同阶邻域节点的注意力分数值依次进行调整,并将调整后的注意力分数输入模型进行训练,经过正向传播得到分类结果,再通过损失函数计算交叉熵使用反向传播更新参数矩阵的梯度下降算法进行训练直至收敛,得到当前注意力分数下的收敛时的参数矩阵,并记录对应的分类精度;(3)重复步骤2的操作,不断调整注意力分数进行训练,直至得到分类精度更高的参数矩阵,作为该模型对应注意力分数下的收敛的参数矩阵,用作后续的分类测试使用,基于Pubmed、Cora和Citeseer数据集最大阶数的HGCNCM模型对应的注意力分数如表2所示。
表2 HGCNCM基于Pubmed、Cora和Citeseer数据集的测试精度比对表
表2说明:表中k是图卷积的最大阶数,模型的准确率以百分比表示,且该数字是10次运行的平均值。
本实施例中,模型训练使用的训练数据集为半监督分类节点的训练数据集Cora、Citeseer、Pubmed,根据该类训练数据集的特点,选用的损失函数为:
为带有标签的顶点(节点)的集合,M是类的数目,/>表示标签节点的实标签,并表示softmax(输入标签节点)预测的0到1之间的概率值。当初始化参数矩阵后,基于所有的训练数据集得到初始的损失函数值,若损失函数较大,则说明神经网络性能不好,需要使用梯度下降法,即通过计算上述损失函数关于该神经网络模型参数的偏导数,再不断地调整更新权值参数再训练,直至损失函数缩小至一个可接受范围,结束模型的整个训练过程,即可达到收敛的参数矩阵。本申请实施例中,设计了只有一层注意力高阶图卷积的宽度图卷积神经网络模型及其特征预处理的模型训练方法,采用基于注意力的宽度图卷积代替深度图卷积,在没有多层图卷积层的情况下,既减少了模型的复杂度、模型的参数量及训练难度,还能学习到多邻域节点之间的交互关系、突出自身节点邻域信息重要性及区分不同距离邻域节点对于预测目标分类的贡献度,再结合模型训练时的特征预处理方法,使得模型的构建和应用更贴合实际,不仅扩宽了模型的感受野,提高了模型的训练效率和分类精度,避免了过平滑风险,还提升了模型的稳定性。
本申请实施例中模型基于半监督分类数据集进行分类训练,并分别与现有的图卷积神经模型的测试效果进行比对,结果如下表3所示:
表3 HGCNCM与现有图卷积模型基于相同半监督数据集的测试精度比对表
表3说明:表中的准确率以百分比表示,且该数字是10次运行的平均值。
基于上述实验结果表3可知,本实施例提出了一种只具有一层既能同时聚集不同阶邻域节点信息,又能考虑自身节点对分类预测重要作用,且区分不同距离邻域节点对于预测目标分类的贡献度的高阶图卷积,和混合零阶到高阶不同邻域特征的SP信息融合池化层的基于注意力的宽度图卷积网络模型HGCNCM,不仅在分类学习中保留更多更丰富的邻域特征信息,学习了全局图拓扑,扩宽了感受野,还简化了现有高阶图卷积模型,降低了模型的复杂度,减少了模型的参数量和训练难度,进一步提升了模型训练效率,避免了模型的过拟合风险,还通过引入新的自连接加大自身节点的权重和区分不同距离邻域节点对于预测目标分类的贡献度的方法,进一步提高了模型表达能力和学习能力,基于三组基准半监督分类数据集上的实验结果表明应用基于注意力的宽度图卷积网络模型与采用现有的高阶图卷积网络模型和高低阶图卷积模型进行分类训练相比,在分类精度、参数量、复杂度及稳定性等方面都有着较大的优势。
在本申请上述实施例的实际应用中,若只想引入注意力机制,通过设置注意力分数的方法对不同距离邻域节点的分类贡献度进行区分,而不需要引入自连接进一步增加自身节点的权重时,可以将本申请上述各实施例中引入自连接的部分去掉,只保留其他部分的技术方案及可以实现,此处不再赘述。
需要说明的是,虽然上述流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,这些步骤可以以其它的顺序执行。而且,上述流程图中的至少一部分步骤可以包括多个子步骤或者多个阶段,这些子步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,这些子步骤或者阶段的执行顺序也不必然是依次进行,而是可以与其它步骤或者其它步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。
图7示出一个实施例中计算机设备的内部结构图,该计算机设备具体可以是终端或服务器。如图7所示,该计算机设备包括通过系统总线连接的处理器、存储器、网络接口、显示器和输入装置。其中,该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统和计算机程序。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种基于注意力的宽度图卷积神经网络模型的训练方法。该计算机设备的显示屏可以是液晶显示屏或者电子墨水显示屏,该计算机设备的输入装置可以是显示屏上覆盖的触摸层,也可以是计算机设备外壳上设置的按键、轨迹球或触控板,还可以是外接的键盘、触控板或鼠标等。
本领域普通技术人员可以理解,图7中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的计算机设备的限定,具体的计算设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有同的部件布置。
在一个实施例中,提供了一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,处理器执行计算机程序时实现上述基于注意力的宽度图卷积神经网络模型的训练方法的步骤。
在一个实施例中,提供了一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现上述基于注意力的宽度图卷积神经网络模型的训练方法的步骤。
综上,本发明实施例提供的一种基于注意力的宽度图卷积神经网络模型及其训练方法,其基于充分考虑现有高阶图卷积神经网络模型及高低阶图卷积神经网络模型的参数过多、复杂度大、训练效率低、过拟合风险,及未区分不同距离邻域节点对于预测目标分类的贡献度等多方面问题的基础上,提出了一种包括能捕捉多阶邻域信息、加大自身节点权重和区分不同距离邻域节点贡献度的注意力高阶图卷积层、混合不同阶邻域特征的SP信息融合池化层及softmax分类输出层的宽度图卷积神经网络模型,及与该模型对应的先进行特征预处理再进行训练的高效模型训练方法。该模型及其训练方法应用于实际分类测试时,采用注意力高阶图卷积层增加模型宽度、降低模型深度、减少参数量的同时,还能同时聚集多阶邻域信息、赋予自身节点更高的权重,且通过引入注意力分数区分不同距离邻域节点的分类贡献度,进而在扩宽模型感受野、避免了模型过拟合风险的同时,使得模型的构建和应用更贴合实际信息,进一步提升了模型的学习能力、稳定性和分类精度。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。
本说明书中的各个实施例均采用递进的方式描述,各个实施例直接相同或相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。需要说明的是,上述实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
以上所述实施例仅表达了本申请的几种优选实施方式,其描述较为具体和详细,但并不能因此而理解为对发明专利范围的限制。应当指出的是,对于本技术领域的普通技术人员来说,在不脱离本发明技术原理的前提下,还可以做出若干改进和替换,这些改进和替换也应视为本申请的保护范围。因此,本申请专利的保护范围应以所述权利要求的保护范围为准。

Claims (5)

1.一种基于注意力的宽度图卷积神经网络模型系统,其特征在于,所述系统包括基于注意力的宽度图卷积神经网络模型;所述宽度图卷积神经网络模型依次包括输入层、注意力高阶图卷积层、信息融合池化层和输出层;
所述输入层,用于接收训练数据集的图特征;
所述注意力高阶图卷积层,用于根据所述图特征进行零阶到k阶的注意力图卷积运算,得到图卷积数据;
所述信息融合池化层,用于根据所述图卷积数据进行零阶到k阶的特征融合,得到融合数据;
所述输出层,用于根据所述融合数据输出模型结果;
其中,所述注意力高阶图卷积层由在不同阶数图卷积都引入注意力机制得到;在所述注意力高阶图卷积层的任一阶数图卷积引入新的自连接;
所述注意力高阶图卷积层包括基于权重共享的零阶图卷积到k阶图卷积,表示为:
其中,X是图的输入矩阵,是参数矩阵,/>是图的正则化邻接矩阵,k是图卷积的最高阶数,/>,/>为对应阶图卷积的注意力分数;
所述宽度图卷积神经网络模型的输出层HGCNCM表示为:
其中,为激活函数,/>为信息融合函数,/>为多分类输出函数;
所述信息融合池化层采用SP求和信息融合池化,其计算公式如下:
2.如权利要求1所述的基于注意力的宽度图卷积神经网络模型系统,其特征在于,所述激活函数为ReLU非线性激活函数。
3.如权利要求1-2任一所述的基于注意力的宽度图卷积神经网络模型系统中基于注意力的宽度图卷积神经网络模型的训练方法,其特征在于,所述训练方法的步骤包括:
根据训练数据集进行预处理,得到预处理特征;
将所述预处理特征输入所述宽度图卷积神经网络模型,进行特征训练,得到训练结果。
4.如权利要求3所述的基于注意力的宽度图卷积神经网络模型的训练方法,其特征在于,所述根据训练数据集进行预处理,得到预处理特征的步骤包括:
获取所述训练数据集,并确定所述训练数据集的类型;
根据所述训练数据集的类型,选取预设方法得到所述图的输入矩阵和正则化邻接矩阵;
将所有不同阶数的所述图的正则化邻接矩阵加权作和,得到预处理邻接矩阵;
将所述预处理邻接矩阵和所述图的输入矩阵作积,得到预处理特征。
5.如权利要求3所述的基于注意力的宽度图卷积神经网络模型的训练方法,其特征在于,所述将所述预处理特征输入所述宽度图卷积神经网络模型,进行特征训练,得到训练结果的步骤包括:
将所述宽度图卷积神经网络模型的参数矩阵进行随机初始化,并将所述注意力分数初始化为特定值;
将所述预处理特征输入所述宽度图卷积神经网络模型,根据学习率优化结合所述训练数据集属性调整各个阶图卷积的注意力分数,并采用损失函数和梯度下降法进行训练,得到收敛的参数矩阵。
CN202011642705.5A 2020-12-30 2020-12-30 基于注意力的宽度图卷积神经网络模型系统及训练方法 Active CN112598080B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011642705.5A CN112598080B (zh) 2020-12-30 2020-12-30 基于注意力的宽度图卷积神经网络模型系统及训练方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011642705.5A CN112598080B (zh) 2020-12-30 2020-12-30 基于注意力的宽度图卷积神经网络模型系统及训练方法

Publications (2)

Publication Number Publication Date
CN112598080A CN112598080A (zh) 2021-04-02
CN112598080B true CN112598080B (zh) 2023-10-13

Family

ID=75206748

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011642705.5A Active CN112598080B (zh) 2020-12-30 2020-12-30 基于注意力的宽度图卷积神经网络模型系统及训练方法

Country Status (1)

Country Link
CN (1) CN112598080B (zh)

Families Citing this family (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113365298B (zh) * 2021-04-22 2022-08-02 山东师范大学 基于高阶模糊认知图的mr网络信号强度预测方法及系统
CN113129873B (zh) * 2021-04-27 2022-07-08 思必驰科技股份有限公司 堆叠式一维卷积网络唤醒声学模型的优化方法及系统
CN112883948B (zh) * 2021-05-06 2021-09-03 深圳市城市交通规划设计研究中心股份有限公司 一种语义分割与边缘检测模型建立及护栏异常监测方法
CN113269239B (zh) * 2021-05-13 2024-04-19 河南大学 一种基于多通道卷积神经网络的关系网络节点分类方法
CN113469415B (zh) * 2021-06-07 2023-04-07 湖北工业大学 一种网络流量预测方法和计算机设备
CN113657479B (zh) * 2021-08-12 2022-12-06 广东省人民医院 一种新型多尺度深宽结合的病理图片分类方法、系统及介质
CN113673451A (zh) * 2021-08-25 2021-11-19 上海鹏冠生物医药科技有限公司 一种用于组织细胞学病理片图像特征抽取的图卷积模块
CN113743280B (zh) * 2021-08-30 2024-03-01 广西师范大学 一种脑神经元电子显微镜图像卷分割方法、装置以及存储介质
CN113936743B (zh) * 2021-11-12 2024-04-26 大连海事大学 一种基于异质ppi网络的蛋白质复合物识别方法
CN114169504B (zh) * 2021-12-10 2024-04-16 河北工业大学 基于自适应滤波的图卷积神经网络池化方法
CN115294402B (zh) * 2022-08-24 2023-08-11 合肥市正茂科技有限公司 一种基于去冗余多阶混合训练的半监督车辆分类方法

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110674869A (zh) * 2019-09-23 2020-01-10 腾讯科技(深圳)有限公司 分类处理、图卷积神经网络模型的训练方法和装置
CN111046664A (zh) * 2019-11-26 2020-04-21 哈尔滨工业大学(深圳) 基于多粒度的图卷积神经网络的假新闻检测方法及系统
CN112036511A (zh) * 2020-09-30 2020-12-04 上海美迪索科电子科技有限公司 基于注意力机制图卷积神经网络的图像检索方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109711481B (zh) * 2019-01-02 2021-09-10 京东方艺云科技有限公司 用于画作多标签识别的神经网络、相关方法、介质和设备

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110674869A (zh) * 2019-09-23 2020-01-10 腾讯科技(深圳)有限公司 分类处理、图卷积神经网络模型的训练方法和装置
CN111046664A (zh) * 2019-11-26 2020-04-21 哈尔滨工业大学(深圳) 基于多粒度的图卷积神经网络的假新闻检测方法及系统
CN112036511A (zh) * 2020-09-30 2020-12-04 上海美迪索科电子科技有限公司 基于注意力机制图卷积神经网络的图像检索方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
基于多层次图注意力卷积神经网络的节点分类模型研究;周恒晟;《万方数据知识服务平台学位论文库》;第1-68页 *

Also Published As

Publication number Publication date
CN112598080A (zh) 2021-04-02

Similar Documents

Publication Publication Date Title
CN112598080B (zh) 基于注意力的宽度图卷积神经网络模型系统及训练方法
Hassib et al. WOA+ BRNN: An imbalanced big data classification framework using Whale optimization and deep neural network
US11652497B2 (en) Neural network-based quantum error correction decoding method and apparatus, and chip
Sun et al. What and how: generalized lifelong spectral clustering via dual memory
Ricci et al. Monocular depth estimation using multi-scale continuous CRFs as sequential deep networks
CN112633481B (zh) 一种多跳图卷积神经网络模型系统及训练方法
Panagant et al. Truss topology, shape and sizing optimization by fully stressed design based on hybrid grey wolf optimization and adaptive differential evolution
WO2015062209A1 (zh) 随机森林分类模型的可视化优化处理方法及装置
CN112633482B (zh) 一种高效宽度图卷积神经网络模型系统及训练方法
CN112529069B (zh) 一种半监督节点分类方法、系统、计算机设备和存储介质
CN109685204B (zh) 图像处理方法及装置、存储介质及电子设备
CN112668700B (zh) 一种基于分组注意的宽度图卷积网络模型系统及训练方法
CN114637923B (zh) 基于层次注意力图神经网络的数据信息推荐方法和装置
CN112232164A (zh) 一种视频分类方法和装置
CN110909867A (zh) 一种基于力导图的图神经网络可视分析方法
CN112529068B (zh) 一种多视图图像分类方法、系统、计算机设备和存储介质
CN113158391B (zh) 多维网络节点分类的可视化方法、系统、设备和存储介质
Concolato et al. Data science: A new paradigm in the age of big-data science and analytics
Salazar-Castro et al. Interactive interface for efficient data visualization via a geometric approach
Sun et al. Graph force learning
Zhenhua et al. FTCF: Full temporal cross fusion network for violence detection in videos
Zheng et al. Multi-class indoor semantic segmentation with deep structured model
CN112651492B (zh) 一种自连接宽度图卷积神经网络模型系统及训练方法
Zeng et al. Identifying vital nodes through augmented random walks on higher-order networks
Guo et al. Efficient convolutional networks learning through irregular convolutional kernels

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant