CN112633482B - 一种高效宽度图卷积神经网络模型系统及训练方法 - Google Patents
一种高效宽度图卷积神经网络模型系统及训练方法 Download PDFInfo
- Publication number
- CN112633482B CN112633482B CN202011642718.2A CN202011642718A CN112633482B CN 112633482 B CN112633482 B CN 112633482B CN 202011642718 A CN202011642718 A CN 202011642718A CN 112633482 B CN112633482 B CN 112633482B
- Authority
- CN
- China
- Prior art keywords
- graph
- neural network
- network model
- training
- matrix
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000012549 training Methods 0.000 title claims abstract description 107
- 238000000034 method Methods 0.000 title claims abstract description 49
- 238000003062 neural network model Methods 0.000 title claims abstract description 44
- 239000011159 matrix material Substances 0.000 claims description 93
- 238000007781 pre-processing Methods 0.000 claims description 43
- 230000004927 fusion Effects 0.000 claims description 36
- 238000013527 convolutional neural network Methods 0.000 claims description 29
- 238000011176 pooling Methods 0.000 claims description 21
- 230000004913 activation Effects 0.000 claims description 12
- 238000004364 calculation method Methods 0.000 claims description 10
- 238000011478 gradient descent method Methods 0.000 claims description 4
- 241001235534 Graphis <ascomycete fungus> Species 0.000 claims description 2
- 238000012360 testing method Methods 0.000 abstract description 12
- 238000005096 rolling process Methods 0.000 abstract description 3
- 230000006870 function Effects 0.000 description 27
- 238000001994 activation Methods 0.000 description 12
- 238000010586 diagram Methods 0.000 description 9
- 230000000694 effects Effects 0.000 description 8
- 238000013528 artificial neural network Methods 0.000 description 6
- 238000004590 computer program Methods 0.000 description 6
- 230000008901 benefit Effects 0.000 description 5
- 238000012545 processing Methods 0.000 description 5
- 238000003860 storage Methods 0.000 description 5
- 230000008569 process Effects 0.000 description 4
- 241000689227 Cora <basidiomycete fungus> Species 0.000 description 3
- 238000004422 calculation algorithm Methods 0.000 description 3
- 230000007246 mechanism Effects 0.000 description 3
- 238000013145 classification model Methods 0.000 description 2
- 239000000203 mixture Substances 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 239000000047 product Substances 0.000 description 2
- 238000006467 substitution reaction Methods 0.000 description 2
- 238000012795 verification Methods 0.000 description 2
- 230000002776 aggregation Effects 0.000 description 1
- 238000004220 aggregation Methods 0.000 description 1
- 238000007796 conventional method Methods 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 238000009826 distribution Methods 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 238000007499 fusion processing Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 230000010354 integration Effects 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 238000012821 model calculation Methods 0.000 description 1
- 230000001537 neural effect Effects 0.000 description 1
- 238000007500 overflow downdraw method Methods 0.000 description 1
- 230000000750 progressive effect Effects 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 230000000717 retained effect Effects 0.000 description 1
- 238000012552 review Methods 0.000 description 1
- 239000013589 supplement Substances 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
- G06F16/353—Clustering; Classification into predefined classes
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/25—Fusion techniques
- G06F18/253—Fusion techniques of extracted features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/048—Activation functions
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Evolutionary Computation (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- Computing Systems (AREA)
- Software Systems (AREA)
- Molecular Biology (AREA)
- Computational Linguistics (AREA)
- Biophysics (AREA)
- Biomedical Technology (AREA)
- Mathematical Physics (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Databases & Information Systems (AREA)
- Image Analysis (AREA)
Abstract
本发明提供了一种高效宽度图卷积神经网络模型及其训练方法,所述高效宽度图卷积神经网络模型依次包括输入层、同时捕捉节点的多阶邻域信息的高阶图卷积层、融合多阶邻域信息的SP信息融合池化层和softmax函数多分类输出层,所述高效宽度图卷积神经网络模型对应的训练方法为先进行预处理得到预处理特征,再将预处理特征输入训练的高效模型训练方法。该模型及其训练方法应用于实际分类测试时,采用一层高阶图卷积层增加模型宽度、降低模型深度、减少参数量的同时,还能同时聚集多阶邻域信息,进而扩宽了模型的感受野、避免了模型的过拟合风险、提升了模型的学习能力和分类精度。
Description
技术领域
本发明涉及图像处理及深度学习技术领域,特别是涉及一种基于高效宽度图卷积神经网络模型及其训练方法。
背景技术
随着图像处理及深度机器学习研究的不断加深,一种能够同时对节点特征信息和结构信息进行端到端学习,适用于任意拓扑结构的节点与图,且在公开经典数据集上的测试效果都优于其他方法的图卷积神经网络逐渐成为学者们研究文本分类、图像分类等优选方法,并不断改进以提高分类效果。但由于现有的图卷积神经网络的每个卷积仅执行一跳邻域信息聚集,对应的图卷积神经网络模型要么采用浅层机制限制了获取全局信息能力,要么通过堆叠多个卷积层聚集多跳邻域信息来扩大感受野的规模,却导致参数量过多、模型太复杂,从而加大训练难度,还增加了过拟合的风险。
因此,现有图卷积神经网络模型的感受野和学习能力受限,从而影响测试精度的问题,亟需进一步解决。
发明内容
本发明的目的是为了解决现有图卷积神经网络的感受野和学习能力受限问题,通过增加卷积的邻域阶数来加宽模型宽度,进而扩大模型的感受野,提高模型的学习能力,提高测试精度。
为了实现上述目的,有必要针对上述技术问题,提供了一种高效宽度图卷积神经网络模型及其训练方法。
第一方面,本发明实施例提供了一种高效宽度图卷积神经网络模型,所述高效宽度图卷积神经网络模型依次包括输入层、高阶图卷积层、信息融合池化层和输出层;
所述输入层,用于接收训练数据集的图特征;
所述高阶图卷积层,用于根据所述图特征进行一阶到k阶的图卷积运算,得到图卷积数据;
所述信息融合池化层,用于根据所述图卷积数据进行一阶到k阶的特征融合,得到融合数据;
所述输出层,用于根据所述融合数据输出模型结果。
进一步地,所述高效宽度图卷积神经网络模型的输出层的输出HGCNSP可表示为:
其中,X是图的输入矩阵,是参数矩阵,/>是图的正则化邻接矩阵,k是图卷积的最高阶数,/>,/>为激活函数,/>为信息融合函数,/>为多分类输出函数。
进一步地,所述图的正则化邻接矩阵是含自连接的正则化邻接矩阵。
进一步地,所述激活函数为/>非线性激活函数。
进一步地,所述高阶图卷积层包括基于权重共享的一阶图卷积到k阶图卷积,即。
进一步地,所述信息融合池化层采用SP求和信息融合池化,其计算公式如下:
。
第二方面,本发明实施例提供了一种高效宽度图卷积神经网络模型的训练方法,所述训练方法的步骤包括:
根据训练数据集,得到所述高效宽度图卷积神经网络模型的图的输入矩阵和正则化邻接矩阵;
根据所述图的输入矩阵和正则化邻接矩阵进行特征预处理,得到预处理特征;
将所述预处理特征输入所述高效宽度图卷积神经网络模型,进行特征训练,得到训练结果。
进一步地,所述根据训练数据集,得到所述高效宽度图卷积神经网络模型的图的输入矩阵和正则化邻接矩阵的步骤包括:
获取所述训练数据集,并确定所述训练数据集的类型;
根据所述训练数据集的类型,选取特定方法得到所述高效宽度图卷积神经网络模型的图的输入矩阵和正则化邻接矩阵。
进一步地,所述根据所述图的输入矩阵和正则化邻接矩阵进行特征预处理,得到预处理特征的步骤包括:
将所有不同阶数的所述图的正则化邻接矩阵作和,得到预处理邻接矩阵;
将所述预处理邻接矩阵和所述图的输入矩阵作积,得到预处理特征。
进一步地,所述将所述预处理特征输入所述高效宽度图卷积神经网络模型,进行特征训练,得到训练结果的步骤包括:
将所述高效宽度图卷积神经网络模型的参数矩阵进行随机初始化;
将所述预处理特征输入所述高效宽度图卷积神经网络模型,采用损失函数和梯度下降法进行训练,得到收敛的参数矩阵。
上述本申请提供了一种高效宽度图卷积神经网络模型及其训练方法,通过所述高效宽度图卷积神经网络模型及其训练方法,实现了采用仅有输入层、高阶图卷积层、SP信息融合池化层及softmax函数输出层的一层高效宽度图卷积神经网络模型,结合该模型训练前的特征预处理方法,并依此得到精准分类的效果。与现有技术相比,该模型及其训练方法在实际分类应用上,采用仅有一层的高阶图卷积来聚集更多阶邻域间的更丰富的节点信息,通过增加模型宽度代替模型深度的方法扩大了感受野同时,还减少了参数量、降低了模型的复杂度和训练难度,提升了模型训练效率,避免了过拟合的风险,提升了模型的学习能力,进而大幅度提高分类精度。
附图说明
图1是本发明实施例中高效宽度图卷积神经网络模型及其训练方法的应用场景示意图;
图2是高效宽度图卷积神经网络模型的示意图;
图3是基于SP信息融合池化层的高效宽度图卷积神经网络模型的示意图;
图4是图3基于SP信息融合池化层的高效宽度图卷积神经网络模型的训练方法的流程示意图;
图5是图4中步骤S11获取训练集数据预处理,得到图的输入矩阵和正则化邻接矩阵的流程示意图;
图6是图5中步骤S12根据图的输入矩阵和正则化邻接矩阵得到预处理特征的流程示意图;
图7是图4中步骤S13将预处理特征输入高效图卷积神经网络模型进行特征训练的的流程示意图;
图8是本发明实施例中计算机设备的内部结构图。
具体实施方式
为了使本申请的目的、技术方案和有益效果更加清楚明白,下面结合附图及实施例,对本发明作进一步详细说明,显然,以下所描述的实施例是本发明实施例的一部分,仅用于说明本发明,但不用来限制本发明的范围。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明提供的高效宽度图卷积神经网络是对现有图卷积神经网络的改进,该模型及其训练方法,可以应用于如图1所示的终端或服务器上。其中,终端可以但不限于是各种个人计算机、笔记本电脑、智能手机、平板电脑和便携式可穿戴设备,服务器可以用独立的服务器或者是多个服务器组成的服务器集群来实现。服务器可采用高效宽度图卷积神经网络模型(HGCNSP)及对其对应的训练方法完成现有图卷积神经网络模型能够完成的分类任务,并将模型的分类预测结果发送至终端,供终端的使用者查看分析。
在一个实施例中,如图2所示,提供了一种高效宽度图卷积神经网络模型依次包括输入层1、高阶图卷积层2、信息融合池化层3和输出层4;所述输入层1,用于接收训练数据集的图特征;所述高阶图卷积层2,用于根据所述图特征进行一阶到k阶的图卷积运算,得到图卷积数据;所述信息融合池化层3,用于根据所述图卷积数据进行一阶到k阶的特征融合,得到融合数据;所述输出层4,用于根据所述融合数据输出模型结果。
其中,高阶图卷积层2和信息融合池化层3都只有1个,即高效宽度图卷积神经网络模型的结构为:输入层1与高阶图卷积层2相连,高阶图卷积层2与信息融合池化层3相连,信息融合池化层3再与采用softmax函数进行多分类输出的输出层4相连。可见,本实施例中构建的是只有一层高阶图卷积层的网络架构,参数量是最少的,也极大的减少了模型的计算量,进而提升了模型的训练效率。
假设上述高效宽度图卷积神经网络模型的输出层的输出为HGCNSP,则可表示为:
(1)
其中,X是图的输入矩阵,是参数矩阵,/>是图的正则化邻接矩阵,k是图卷积的最高阶数,/>,/>为激活函数,/>为信息融合函数,/>为多分类输出函数。
优选地,图的正则化邻接矩阵采用含自连接的正则化邻接矩阵,用于补充自身节点的重要性,即该均值的对角元素值均为1。考虑到自身节点不存在自连接(即自身节点与自身节点有一条边)的邻接矩阵的对角线位置的元素值为0,将该邻接矩阵输入模型训练时可能会因忽略掉自身节点信息而影响模型的分类效果的情况,本实施例中采用含有自连接的图的正则化邻接矩阵,即采用/>作为模型训练输入的图的正则化邻接矩阵。
本实施例中的高阶图卷积层包括基于权重共享的一阶图卷积到k阶图卷积,即。该高阶图卷积能够聚集节点的不同阶邻域信息,通过一阶图卷积/>捕捉节点的一阶邻域信息,通过二阶到k阶图卷积/>捕捉节点的高阶邻域信息。为了弥补一层架构的学习能力,在实际应用中可以根据需求将选取较大的k值即设置较大的宽度,来增加了模型的感受野,进而增强了模型的学习能力。其中,高阶图卷积层的阶数k可以为二阶及其以上阶数中的一种,或者任意复数种阶数的组合。当k=2时,即采用的模型为1阶和2阶邻域混合的高效宽度图卷积神经网络模型HGCNSP-2,公式如下:
;(2)
当k=3时,即采用的模型为1阶、2阶和3阶邻域混合的高效宽度图卷积神经网络模型HGCNSP-3,公式如下:
;(3)
当k=n时,即采用的模型为1阶到n阶邻域混合的高效宽度图卷积神经网络模型HGCNSP-n,公式如下:
;(4)
在上述模型中同一图卷积层的各阶邻域均采用相同权重参数,来实现权重共享和降低参数量,具体体现在公式(1)-(4)中参数W的选择。
在实际应用于大规模的分类训练时,需要先计算出,由于/>通常是一个具有m个非零元素的稀疏矩阵,且基于高阶图卷积均采用权重共享机制,采用从右到左的乘法来计算/>,如,当k=2,用/>相乘来求/>,同理,/>,依此类推通过/>左乘k-1阶图卷积来计算k阶图卷积,即/>,这一计算方法有效的降低了计算复杂度。此外,由于不同阶图卷积采用权重共享机制,高阶图卷积的参数量和一阶图卷积的参数量是相同的,在一定程度上保证了高阶图卷积计算的高效性。
优选地,所述激活函数可以为/>非线性激活函数。
其中,ReLU激活函数是用来进行非线性处理的。由于线性模型的表达力不够,且有些数据特征不一定是线性可分的,为了解决这一问题就在信息融合池化层之后采用激活函数进行非线性处理,常用的非线性激活函数包括sigmoid、tanh和ReLU、ElU、PReLU等,上述激活函数都可使用,但各有优劣,实际应用时可以根据待处理数据的特点进行选取,而本实施例中采用神经网络中用的最多的ReLU函数,它的公式定义如下:
即,保留大于等于0的值,其余所有小于0的数值直接改写为0。通过这种方法对卷积后产生的特征图中的值进行映射,就可以在特征提取时直接舍弃掉那些不相关联的数据,操作更方便。
由于非线性激活函数可以提高模型的表达能力,但对图分类任务用处不是很大,尤其是对于本实施例中只有一层高阶图卷积层的高效宽度图卷积神经网络模型而言,是可以省略非线性激活的处理,进一步减少模型计算的复杂度,但可以能会损失一点精度,总体来说对模型的分类精度影响不大,因此,在该模型的实际应用中可以根据分类任务的具体情况决定是否需要使用非线性激活函数,若对精度上要求比较高可以选择使用非线性激活函数,若希望减少模型的计算复杂度提升模型的性能,可以省略非线性激活的处理。
优选地,本发明(1)式中的信息融合池化层采用SP求和信息融合池化来融合一阶到k阶的不同阶邻域的节点信息,其具体计算公式如下:
,(5)
对应的基于SP的高阶图卷积能聚集更多更丰富的邻域信息,获得全局图结构信息,如图3所示,模型的表达式如下:
,
其中,H为高阶图卷积层的输出值,即为该模型的softmax函数输出层的输入值。
以一个具体的三阶实施例来说明上述本实施例中的信息融合方式,高阶的情况类似。假设邻域的阶数k=3,假设其一阶邻域为,二阶邻域为/>,三阶邻域为/>,则SP求和信息融合过程为:
设 则。
本实施例基于SP的高阶图卷积算法实现过程如下:
输入:
卷积运算:
信息融合:
非线性激活:
本实施例中图网络先输入到高阶图卷积进行上述的算法处理,再使用SP求和信息融合来混合不同邻域的一阶到高阶特征,经过非线性激活后输入softmax函数输出层得到分类概率结果的方法,能够在学习过程中保留更多更丰富的特征信息进行全局图拓扑的学习,进而很好地提升学习的效果。
在一个实施例中,如图4所示,任一上述高效宽度图卷积神经网络模型的训练方法的步骤包括:
S11、根据训练数据集,得到所述高效宽度图卷积神经网络模型的图的输入矩阵和正则化邻接矩阵;
其中,如图5所示,所述根据训练数据集,得到所述高效宽度图卷积神经网络模型的图的输入矩阵和正则化邻接矩阵的步骤S11包括:
S111、获取所述训练数据集,并确定所述训练数据集的类型;
其中,训练数据集根据实际的分类需求进行选择,比如文本分类的数据集可选取Reuters21578的R52和R8、20-Newsgroups (20NG)、Ohsumed(OH)以及Movie Review (MR),半监督分类可选取Cora、Citeseer、Pubmed,多视图分类可选取Modelnet10和Modelnet40等,每一种分类任务的数据集的内容都不相同,其类型也就不同。
S112、根据所述训练数据集的类型,选取特定方法得到所述高效宽度图卷积神经网络模型的图的输入矩阵和正则化邻接矩阵。
其中,训练数据集的类型有上述文本数据集、半监督分类数据集、多视图分类数据集等多种类型,对于每种训练集数据在使用本实施的高效宽度图卷积神经网络模型时,都要进行对应的预处理,得到模型的图的输入矩阵和图的正则化邻接矩阵。如当需要进行文本分类时,就需要将包括文档和标题的语料集数据进行处理构建对应的语料文本图网络,根据语料文本图网络得到模型训练使用的图的输入矩阵和图的正则化邻接矩阵。对于其它情形的数据集,如半监督数据集或多视图分类数据集等都有对应的预处理方法,在使用本实例中的模型进行分类时只需按照分类任务类型对应的常规方法将该任务对应的数据集转换为图的输入矩阵和图的正则化邻接矩阵即可。
S12、根据所述图的输入矩阵和正则化邻接矩阵进行特征预处理,得到预处理特征;
其中,如图6所示,所述根据所述图的输入矩阵和正则化邻接矩阵进行特征预处理,得到预处理特征的步骤S12包括:
S121、将所有不同阶数的所述图的正则化邻接矩阵作和,得到预处理邻接矩阵;
其中,预处理邻接矩阵,是高效宽度图卷积神经网络模型在计算中的一大优势,由于本申请构建的是只有一层高阶图卷积的网络框架,则SP求和信息融合的计算(5)式可以优化为:
。
且由于在模型训练之前正则化邻居矩阵已知,则由矩阵乘法易得,则由矩阵加法易得/>,即可将/>当做一个预处理后的图的邻接矩阵用于后续的模型训练使用。
S122、将所述预处理邻接矩阵和所述图的输入矩阵作积,得到预处理特征。
在经过上述预处理得到预处理邻接矩阵后,由于输入矩阵X已知的,就可以直接把/>作为预处理特征矩阵送入模型进行训练,一定程度上减少了机器训练的复杂度和难度,从而保证了模型训练的高效性。
S13、将所述预处理特征输入所述高效宽度图卷积神经网络模型,进行特征训练,得到训练结果。
其中,如图7所示,所述将所述预处理特征输入所述高效宽度图卷积神经网络模型,进行特征训练,得到训练结果的步骤S13包括:
S131、将所述高效宽度图卷积神经网络模型的参数矩阵进行随机初始化;
其中,对模型参数矩阵进行随机初始化的方法有:权重服从高斯分布的Gaussian初始化、权重为均匀分布的Xavier初始化,及均值为0、方差为的MSRA初始化。本实施例中的高效宽度图卷积神经网络模型参数矩阵的随机初始化时,可以根据实际分类需求结合上述三种初始化的特点进行选择,不会影响模型的应用效果。
S132、将所述预处理特征输入所述高效宽度图卷积神经网络模型,采用损失函数和梯度下降法进行训练,得到收敛的参数矩阵;
其中,高效宽度图卷积神经网络模型训练的过程为:对由训练数据集中的有效特征数据预处理得到的预处理特征进行训练,经过正向传播得到分类结果,再通过损失函数计算交叉熵使用反向传播更新参数矩阵的梯度下降算法进行训练直至收敛,得到收敛时的参数矩阵。
本实施例中,如表1所示,模型训练使用的训练数据集为半监督分类节点的训练数据集Cora、Citeseer、Pubmed,根据该类训练数据集的特点,选用的损失函数为:
,
为带有标签的顶点(节点)的集合,M是类的数目,/>表示标签节点的实标签,并表示softmax(输入标签节点)预测的0到1之间的概率值。当初始化参数矩阵后,基于所有的训练数据集得到初始的损失函数值,若损失函数较大,则说明神经网络性能不好,需要使用梯度下降法,即通过计算上述损失函数关于该神经网络模型参数的偏导数,再不断地调整更新权值参数再训练,直至损失函数缩小至一个可接受范围,结束模型的整个训练过程,得到收敛的参数矩阵,即得到了比较稳定的神经网络模型,保存当前获得的收敛参数矩阵用作后续的分类测试使用。
表1 半监督分类经典数据集信息表
上述每一个数据集都分为训练集、验证集和测试集三类,三类数据集中都是既包含有标记数据也包含未标记数据。半监督分类模型中的参数矩阵在最开始训练采用的是随机赋值初始化,使用训练集对半监督分类模型的参数矩阵进行训练,验证集用于对训练得到参数矩阵进行进一步的修正,测试集用于模型的分类测试。
本申请实施例中,首先基于模型的泛化能力考虑,在模型训练时采用的公开的基准数据集进行参数训练,且由于该数据集不具有重复数据,一定程度上能够减少模型训练的工作量,提高模型训练的效率;其次,设计了只有一层高阶图卷积的高效宽度图卷积神经网络模型及其特征预处理的模型训练方法,采用宽度图卷积代替深度图卷积,在没有多层图卷积层的情况下,既减少了模型的复杂度、模型的参数量及训练难度,还能学习到多邻域节点之间的交互关系,结合模型训练时的特征预处理方法,不仅提高了模型的训练效率,分类精度,还减少了训练模型的过平滑现象,从而提高了模型的普适性。
本申请实施例中基于半监督分类数据集Cora、Citeseer、Pubmed进行分类训练,得到对应模型的最大阶数分别为5、4、21,并将该模型与现有的图卷积神经模型的测试效果进行比对,结果如下表2所示:
表2 HGCNSP与现有图卷积模型基于相同半监督数据集的测试精度比对表
表2说明:表中的准确率以百分比表示,且该数字是10次运行的平均值。
基于上述实验结果可知,本实施例提出了一种只具有一层能同时学习不同阶邻域之间的相互关系的高阶图卷积,和混合不同邻域的一阶到高阶特征的SP信息融合池化层的高效宽度图卷积网络模型HGCNSP,在简化了图卷积模型,降低了模型的复杂度,减少了模型的参数量和训练难度,进而提升了模型训练效率的同时,还在分类学习中保留更多更丰富的特征信息,学习了全局图拓扑,不仅扩宽了感受野,提高了模型表达能力,还避免了模型的过拟合,基于三组基准半监督分类数据集上的实验结果表明应用高效宽度图卷积网络模型与采用现有的图卷积网络进行分类训练相比,在分类精度、分类性能等方面都有着明显优势。
需要说明的是,虽然上述流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,这些步骤可以以其它的顺序执行。而且,上述流程图中的至少一部分步骤可以包括多个子步骤或者多个阶段,这些子步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,这些子步骤或者阶段的执行顺序也不必然是依次进行,而是可以与其它步骤或者其它步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。
图8示出一个实施例中计算机设备的内部结构图,该计算机设备具体可以是终端或服务器。如图8所示,该计算机设备包括通过系统总线连接的处理器、存储器、网络接口、显示器和输入装置。其中,该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统和计算机程序。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种高效宽度图卷积神经网络模型的训练方法。该计算机设备的显示屏可以是液晶显示屏或者电子墨水显示屏,该计算机设备的输入装置可以是显示屏上覆盖的触摸层,也可以是计算机设备外壳上设置的按键、轨迹球或触控板,还可以是外接的键盘、触控板或鼠标等。
本领域普通技术人员可以理解,图8中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的计算机设备的限定,具体的计算设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有同的部件布置。
在一个实施例中,提供了一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,处理器执行计算机程序时实现上述高效宽度图卷积神经网络模型的训练方法的步骤。
在一个实施例中,提供了一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现上述高效宽度图卷积神经网络模型的训练方法的步骤。
综上,本发明实施例提供的一种高效宽度图卷积神经网络模型及其训练方法,其基于充分考虑现有图卷积神经网络模型的感受野、学习能力及测试精度受限等多方面问题的基础上,提出了一种包括捕捉节点的多阶邻域信息的高阶图卷积层、混合不同阶邻域特征的SP信息融合池化层及softmax分类输出层的一层高效宽度图卷积神经网络模型,及与该模型对应的先进行特征预处理再进行训练的高效模型训练方法。该模型及其训练方法应用于实际分类测试时,采用高阶图卷积层增加模型宽度、降低模型深度、减少参数量的同时,还能同时聚集多阶邻域信息,进而扩宽了感受野、避免了模型的过拟合风险、提升了模型的学习能力和分类精度。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。
本说明书中的各个实施例均采用递进的方式描述,各个实施例直接相同或相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。需要说明的是,上述实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
以上所述实施例仅表达了本申请的几种优选实施方式,其描述较为具体和详细,但并不能因此而理解为对发明专利范围的限制。应当指出的是,对于本技术领域的普通技术人员来说,在不脱离本发明技术原理的前提下,还可以做出若干改进和替换,这些改进和替换也应视为本申请的保护范围。因此,本申请专利的保护范围应以所述权利要求的保护范围为准。
Claims (8)
1.一种高效宽度图卷积神经网络模型系统,其特征在于,所述系统包括高效宽度图卷积神经网络模型;所述高效宽度图卷积神经网络模型依次包括输入层、高阶图卷积层、信息融合池化层和输出层;
所述输入层,用于接收训练数据集的图特征;
所述高阶图卷积层,用于根据所述图特征进行一阶到k阶的图卷积运算,得到图卷积数据;
所述信息融合池化层,用于根据所述图卷积数据进行一阶到k阶的特征融合,得到融合数据;
所述输出层,用于根据所述融合数据输出模型结果;
所述高效宽度图卷积神经网络模型的输出层的输出HGCNSP表示为:
其中,X是图的输入矩阵,是参数矩阵,/>是图的正则化邻接矩阵,k是图卷积的最高阶数,/>,/>为激活函数,/>为信息融合函数,/>为多分类输出函数;
所述信息融合池化层采用SP求和信息融合池化,其计算公式如下:
。
2.如权利要求1所述的高效宽度图卷积神经网络模型系统,其特征在于,所述图的正则化邻接矩阵是含自连接的正则化邻接矩阵。
3.如权利要求1所述的高效宽度图卷积神经网络模型系统,其特征在于,所激活函数为非线性激活函数。
4.如权利要求1所述的高效宽度图卷积神经网络模型系统,其特征在于,所述高阶图卷积层包括基于权重共享的一阶图卷积到k阶图卷积,即。
5.如权利要求1-4任一所述的高效宽度图卷积神经网络模型系统中高效宽度图卷积神经网络模型的训练方法,其特征在于,所述训练方法的步骤包括:
根据训练数据集,得到所述高效宽度图卷积神经网络模型的图的输入矩阵和正则化邻接矩阵;
根据所述图的输入矩阵和正则化邻接矩阵进行特征预处理,得到预处理特征;
将所述预处理特征输入所述高效宽度图卷积神经网络模型,进行特征训练,得到训练结果。
6.如权利要求5所述的高效宽度图卷积神经网络模型的训练方法,其特征在于,所述根据训练数据集,得到所述高效宽度图卷积神经网络模型的图的输入矩阵和正则化邻接矩阵的步骤包括:
获取所述训练数据集,并确定所述训练数据集的类型;
根据所述训练数据集的类型,选取预设方法得到所述高效宽度图卷积神经网络模型的图的输入矩阵和正则化邻接矩阵。
7.如权利要求5所述的高效宽度图卷积神经网络模型的训练方法,其特征在于,所述根据所述图的输入矩阵和正则化邻接矩阵进行特征预处理,得到预处理特征的步骤包括:
将所有不同阶数的所述图的正则化邻接矩阵作和,得到预处理邻接矩阵;
将所述预处理邻接矩阵和所述图的输入矩阵作积,得到预处理特征。
8.如权利要求5所述的高效宽度图卷积神经网络模型的训练方法,其特征在于,所述将所述预处理特征输入所述高效宽度图卷积神经网络模型,进行特征训练,得到训练结果的步骤包括:
将所述高效宽度图卷积神经网络模型的参数矩阵进行随机初始化;
将所述预处理特征输入所述高效宽度图卷积神经网络模型,采用损失函数和梯度下降法进行训练,得到收敛的参数矩阵。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011642718.2A CN112633482B (zh) | 2020-12-30 | 2020-12-30 | 一种高效宽度图卷积神经网络模型系统及训练方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011642718.2A CN112633482B (zh) | 2020-12-30 | 2020-12-30 | 一种高效宽度图卷积神经网络模型系统及训练方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112633482A CN112633482A (zh) | 2021-04-09 |
CN112633482B true CN112633482B (zh) | 2023-11-28 |
Family
ID=75290603
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011642718.2A Active CN112633482B (zh) | 2020-12-30 | 2020-12-30 | 一种高效宽度图卷积神经网络模型系统及训练方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112633482B (zh) |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113657479B (zh) * | 2021-08-12 | 2022-12-06 | 广东省人民医院 | 一种新型多尺度深宽结合的病理图片分类方法、系统及介质 |
CN116010684A (zh) * | 2021-10-20 | 2023-04-25 | 华为技术有限公司 | 物品推荐方法、装置及存储介质 |
CN114943324B (zh) * | 2022-05-26 | 2023-10-13 | 中国科学院深圳先进技术研究院 | 神经网络训练方法、人体运动识别方法及设备、存储介质 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107220506A (zh) * | 2017-06-05 | 2017-09-29 | 东华大学 | 基于深度卷积神经网络的乳腺癌风险评估分析系统 |
CN109859106A (zh) * | 2019-01-28 | 2019-06-07 | 桂林电子科技大学 | 一种基于自注意力的高阶融合网络的图像超分辨率重建方法 |
CN110674869A (zh) * | 2019-09-23 | 2020-01-10 | 腾讯科技(深圳)有限公司 | 分类处理、图卷积神经网络模型的训练方法和装置 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109711481B (zh) * | 2019-01-02 | 2021-09-10 | 京东方艺云科技有限公司 | 用于画作多标签识别的神经网络、相关方法、介质和设备 |
-
2020
- 2020-12-30 CN CN202011642718.2A patent/CN112633482B/zh active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107220506A (zh) * | 2017-06-05 | 2017-09-29 | 东华大学 | 基于深度卷积神经网络的乳腺癌风险评估分析系统 |
CN109859106A (zh) * | 2019-01-28 | 2019-06-07 | 桂林电子科技大学 | 一种基于自注意力的高阶融合网络的图像超分辨率重建方法 |
CN110674869A (zh) * | 2019-09-23 | 2020-01-10 | 腾讯科技(深圳)有限公司 | 分类处理、图卷积神经网络模型的训练方法和装置 |
Non-Patent Citations (2)
Title |
---|
DGCNN: A convolutional neural network over large-scale labeled graphs;Anh Viet Phan等;Elsevier Science;第 1-11页 * |
基于时空神经网络的动态情感识别研究;张桐;《万方数据知识服务平台学位论文库》;第 1-118页 * |
Also Published As
Publication number | Publication date |
---|---|
CN112633482A (zh) | 2021-04-09 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112633482B (zh) | 一种高效宽度图卷积神经网络模型系统及训练方法 | |
CN112598080B (zh) | 基于注意力的宽度图卷积神经网络模型系统及训练方法 | |
CN112633481B (zh) | 一种多跳图卷积神经网络模型系统及训练方法 | |
EP3564866A1 (en) | Computation method | |
CN111213160A (zh) | 高效卷积神经网络 | |
EP3637258A1 (en) | Data processing apparatus and method | |
CN111176820B (zh) | 一种基于深度神经网络的边缘计算任务的分配方法及装置 | |
CN112529069B (zh) | 一种半监督节点分类方法、系统、计算机设备和存储介质 | |
JP2019032808A (ja) | 機械学習方法および装置 | |
CN114637923B (zh) | 基于层次注意力图神经网络的数据信息推荐方法和装置 | |
CN112668700B (zh) | 一种基于分组注意的宽度图卷积网络模型系统及训练方法 | |
Fang et al. | LASSO isotone for high-dimensional additive isotonic regression | |
Chen et al. | Hrnet: Hamiltonian rescaling network for image downscaling | |
CN112651492B (zh) | 一种自连接宽度图卷积神经网络模型系统及训练方法 | |
CN113052712B (zh) | 社交数据的分析方法、系统及存储介质 | |
CN112734519B (zh) | 一种基于卷积自编码器网络的商品推荐方法 | |
CN111091475B (zh) | 一种基于非负矩阵分解的社交网络特征提取方法 | |
Vettam et al. | Regularized deep learning with nonconvex penalties | |
US11086634B2 (en) | Data processing apparatus and method | |
WO2021120036A1 (zh) | 数据处理装置和数据处理方法 | |
CN117235533B (zh) | 对象变量分析方法、装置、计算机设备和存储介质 | |
CN108875928B (zh) | 多输出回归网络及学习方法 | |
CN111598189B (zh) | 产生式模型的训练方法、数据生成方法、装置、介质和设备 | |
US20220121926A1 (en) | Tensor ring decomposition for neural networks | |
CN116503241A (zh) | 图像超分方法、装置、设备和可读存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |