CN112529068A - 一种多视图图像分类方法、系统、计算机设备和存储介质 - Google Patents
一种多视图图像分类方法、系统、计算机设备和存储介质 Download PDFInfo
- Publication number
- CN112529068A CN112529068A CN202011424449.2A CN202011424449A CN112529068A CN 112529068 A CN112529068 A CN 112529068A CN 202011424449 A CN202011424449 A CN 202011424449A CN 112529068 A CN112529068 A CN 112529068A
- Authority
- CN
- China
- Prior art keywords
- classification
- view
- layer
- training
- model
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 61
- 238000013145 classification model Methods 0.000 claims abstract description 66
- 238000012549 training Methods 0.000 claims abstract description 66
- 238000011176 pooling Methods 0.000 claims abstract description 49
- 238000013528 artificial neural network Methods 0.000 claims abstract description 22
- 239000011159 matrix material Substances 0.000 claims description 18
- 238000004590 computer program Methods 0.000 claims description 15
- 238000001914 filtration Methods 0.000 claims description 9
- 238000012360 testing method Methods 0.000 claims description 8
- 230000004913 activation Effects 0.000 claims description 7
- 230000006870 function Effects 0.000 claims description 5
- 238000001228 spectrum Methods 0.000 claims description 4
- 210000002569 neuron Anatomy 0.000 claims description 3
- 238000012545 processing Methods 0.000 abstract description 3
- 239000010410 layer Substances 0.000 description 73
- 230000008569 process Effects 0.000 description 11
- 238000004422 calculation algorithm Methods 0.000 description 6
- 238000010586 diagram Methods 0.000 description 6
- 230000008901 benefit Effects 0.000 description 4
- 238000004364 calculation method Methods 0.000 description 4
- 238000005457 optimization Methods 0.000 description 4
- 230000000007 visual effect Effects 0.000 description 4
- 230000000694 effects Effects 0.000 description 3
- 238000010606 normalization Methods 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 2
- 230000002708 enhancing effect Effects 0.000 description 2
- 238000007670 refining Methods 0.000 description 2
- 241001229889 Metis Species 0.000 description 1
- 238000013527 convolutional neural network Methods 0.000 description 1
- 238000012937 correction Methods 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 230000002452 interceptive effect Effects 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000001537 neural effect Effects 0.000 description 1
- 238000003062 neural network model Methods 0.000 description 1
- 230000000750 progressive effect Effects 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 238000011946 reduction process Methods 0.000 description 1
- 238000012163 sequencing technique Methods 0.000 description 1
- 239000002356 single layer Substances 0.000 description 1
- 238000000638 solvent extraction Methods 0.000 description 1
- 239000000126 substance Substances 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
- G06F18/2413—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on distances to training or reference patterns
- G06F18/24133—Distances to prototypes
- G06F18/24137—Distances to cluster centroïds
- G06F18/2414—Smoothing the distance, e.g. radial basis function networks [RBFN]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/23—Clustering techniques
- G06F18/232—Non-hierarchical techniques
- G06F18/2321—Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions
- G06F18/23213—Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions with fixed number of clusters, e.g. K-means clustering
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/084—Backpropagation, e.g. using gradient descent
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02T—CLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
- Y02T10/00—Road transport of goods or passengers
- Y02T10/10—Internal combustion engine [ICE] based vehicles
- Y02T10/40—Engine management systems
Abstract
本发明提供了一种多视图图像分类分类方法、系统、计算机设备和存储介质,所述方法包括获取多视图图像分类数据集;根据所述分类数据集构建基于图卷积神经网络的多视图分类模型;所述多视图分类模型包括输入层、频谱图卷积、批量正则化层、图池化层、全连接层和softmax函数多分类输出层;根据所述分类数据集对所述多视图分类模型进行分类训练,得到分类结果。本发明实施例在多视图图像分类的应用上,不仅支持任意数据结构的处理,提升了模型的普适性,还保证了训练数据的低维性减少了存储空间和计算资源,且在不需要预训练的情况下,提升了模型的收敛速度和分类精度。
Description
技术领域
本发明涉及图深度学习技术领域,特别是涉及一种基于图卷积神经网络的多视图图像分类方法、系统、计算机设备和存储介质。
背景技术
多视图图像就是由同一目标对象的不同视角图像构成的能够更形象描述目标对象的图像组,且通常把图像组中最能够表征多视图图像目标的视角称为最优视角。多视图图像由于其对目标对象的表述比传统的单视图图像更加形象,而得以广泛应用,如购物平台的商品在线展示等,自然也就成为学者们热衷研究的对象。
目前,多视图描述符可以分为四类:基于二维图像的多视图描述符、基于体素的多视图描述符、基于三维点云的多视图描述符和基于图卷积神经网络的多视图描述符。但这四种多视图描述符都有自身的局限,其中,基于二维图像的多视图描述符利用了经典的卷积神经网络技术融合了目标图像下的不同视图图像二维特征,这种描述符虽然在时间复杂度方面具有优势,但是分类精度需要进一步提高;基于体素的多视图描述符直接学习三维多视图图像的特征并通过三维卷积提取特征,但这种方法具有高维的输入数据;基于三维点云的多视图描述符直接处理无序的三维点云,但难以提取点云的局部特征和无结构约束;基于图卷积神经网络的多视图描述符可以处理任意图结构的数据,且可以更好描述数据的局部特征,但分类精度需要进一步提高。
发明内容
本发明的目的是为了提供一种新的可以进行多视图图像分类的图卷积神经网络模型,来提升现有基于图卷积神经网络的多视图描述符的分类精度。
为了实现上述目的,有必要针对上述技术问题,提供了一种多视图图像分类方法、系统、计算机设备和存储介质。
第一方面,本发明实施例提供了一种多视图图像分类方法,所述方法包括以下步骤:
获取多视图图像的分类数据集;所述分类数据集包括不同视角的目标图像和目标图像标签;
根据所述分类数据集构建基于图卷积神经网络的多视图分类模型;所述多视图分类模型包括输入层、频谱图卷积、批量正则化层、图池化层、全连接层和输出层;
根据所述分类数据集对所述多视图分类模型进行分类训练,得到分类结果。
进一步地,所述频谱图卷积、批量正则化层、图池化层、全连接层的数目分别为2、2、2、1,所述多视图分类模型依次包括输入层、第一频谱图卷积池化层、第二频谱图卷积池化层、全连接层和softmax函数多分类输出层。
进一步地,所述第一频谱图卷积池化层依次包括第一频谱图卷积、批量正则化层、ReLU非线性激活层以及第一图池化层;
所述第二频谱图卷积池化层依次包括第二频谱图卷积、批量正则化层、ReLU非线性激活层以及第二图池化层。
进一步地,所述第一频谱图卷积和第二频谱图卷积均采用切比雪夫图卷积,且所述第一频谱图卷积的滤波数目为32,所述第二频谱图卷积的滤波个数为64;
所述第一图池化层和第二图池化层的滤波数目均为4;
所述所述全连接层的神经元数为1280。
进一步地,所述图池化层的池化步骤包括:
采用多层聚类图粗化方法将多视图图像粗化为不同分辨率,得到粗化图;
根据所述粗化图,创造一个平衡二叉树;
根据所述平衡二叉树,重新安排所述多视图图像的顶点排序。
进一步地,所述根据所述分类数据集对所述多视图分类模型进行分类训练,得到分类结果的步骤包括:
将所述分类数据集划分为训练集和测试集;
将所述训练集输入所述多视图分类模型进行训练,得到多视图训练模型;
将所述测试集输入所述多视图训练模型,得到分类结果。
进一步地,所述将所述训练集输入所述多视图分类模型进行训练,得到多视图训练模型的步骤包括:
随机初始化所述多视图分类模型的参数;
将所述训练集的目标图像和目标图像标签输入所述多视图分类模型,对所述参数进行训练,得到类别似然矩阵;
根据所述类别似然矩阵确定最能体现所述目标图像的视角变量;
根据所述视角变量优化更新所述多视图分类模型的参数,得到所述多视图训练模型。
第二方面,本发明实施例提供了一种多视图图像分类系统,所述系统包括:
获取多视图图像数据集模块,用于获取多视图图像的分类数据集;所述分类数据集包括不同视角的目标图像和目标图像标签;
建立分类模型模块,用于根据所述分类数据集构建基于图卷积神经网络的多视图分类模型;所述多视图分类模型包括输入层、频谱图卷积、批量正则化层、图池化层、全连接层和输出层;
模型训练分类模块,用于根据所述分类数据集对所述多视图分类模型进行分类训练,得到分类结果。
第三方面,本发明实施例还提供了一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现上述方法的步骤。
第四方面,本发明实施例还提供了一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现上述方法的步骤。
上述本申请提供了一种多视图图像分类方法、系统、计算机设备和存储介质,通过所述方法,实现了提供一种包括两个频谱图卷积层、两个批量正则化层、两个图池化层、一个全连接层和softmax函数多分类输出层的基于图卷积神经网络的多视图分类模型,并用其进行多视图图像精准分类的效果。与现有技术相比,该方法在多视图图像分类的应用上,采用频谱图卷积、图池化,并结合批量归一化技术,不仅支持任意数据结构的处理,提升了模型的普适性,还保证了训练数据的低维性减少了存储空间和计算资源,且在不需要预训练的情况下,提升了模型收敛速度和分类精度。
附图说明
图1是本发明实施例中多视图图像分类方法的流程示意图;
图2是图1中基于图卷积神经网络的多视图分类模型结构示意图;
图3是图1中步骤S12中使用的图池化计算步骤流程示意图;
图4是图3对应的图池化过程的示意图;
图5是图1中步骤S13采用基于图卷积神经网络的多视图分类模型进行分类训练,得到多视图分类结果的流程示意图;
图6是图5中步骤S132对基于图卷积神经网络的多视图分类模型进行训练的流程示意图;
图7是本发明实施例中多视图图像分类系统的结构示意图;
图8是本发明实施例中计算机设备的内部结构图。
具体实施方式
为了使本申请的目的、技术方案和有益效果更加清楚明白,下面结合附图及实施例,对本发明作进一步详细说明,显然,以下所描述的实施例是本发明实施例的一部分,仅用于说明本发明,但不用来限制本发明的范围。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明提供的多视图图像分类方法,可以应用于终端或服务器上,且终端可以但不限于是各种个人计算机、笔记本电脑、智能手机、平板电脑和便携式可穿戴设备,服务器可以用独立的服务器或者是多个服务器组成的服务器集群来实现。其所采用的基于图卷积神经网络的多视图分类模型(BSGCN)是对现有的图卷积神经网络的多视图描述符的改进,可以在服务器上完成多视图图像分类预测,将生成分类预测结果发送至终端,终端接收到分类预测结果后,供终端的使用者查看分析。
在一个实施例中,如图1所示,提供了一种多视图图像分类方法方法,包括以下步骤:
S11、获取多视图图像的分类数据集;所述分类数据集包括不同视角的目标图像和目标图像标签;
其中,多视图图像分类数据集采用的是多视图图像分类的基准数据集Modelnet10和Modelnet40,便于后续分类效果的比对。。
S12、根据所述分类数据集构建基于图卷积神经网络的多视图分类模型;所述多视图分类模型包括输入层、频谱图卷积、批量正则化层、图池化层、全连接层和输出层;
其中,频谱图卷积、批量正则化层、图池化层、全连接层的数目分别为2、2、2、1,且如图2所示的基于图卷积神经网络的多视图分类模型依次包括输入层、第一频谱图卷积池化层、第二频谱图卷积池化层、全连接层和softmax函数多分类输出层。
第一频谱图卷积池化层和第一频谱图卷积池化层均设计为依次包括频谱图卷积、批量正则化层、ReLU非线性激活层以及图池化,且所使用的频谱图卷积均为切比雪夫图卷积,使用的图池化也相同。不同之处在于,二者使用的切比雪夫图卷积的滤波数目并不相同,第一频谱图卷积层使用的切比雪夫图卷积的滤波数目为32,第二频谱图卷积层使用的切比雪夫图卷积的滤波数目为64。
切比雪夫图卷积是通过图的拉普拉斯矩阵的特征值所构成的对角矩阵的契比雪夫多项式所组成的,其定义式如下:
其中,k是切比雪夫阶数,即模型感受野的大小;Tk(x)=2xTk-1(x)-Tk-2(x),T0(x)=1,T1(x)=x,为切比雪夫多项式,为卷积滤波器,其中,In为n阶单位矩阵,A是图的拉普拉斯矩阵,D是A的度矩阵,是正则化的拉普拉斯矩阵,λmax为L的最大特征根,θk,k=0,...,K-1为切比雪夫多项式参数,即为频谱图卷积模型需要训练优化的参数。本实施例采用的切比雪夫图卷积不需要计算拉普拉斯特征矩阵的傅里叶基矩阵,可以有效降低计算的复杂度,且该卷积只针对单个节点的局部卷积操作,也提升了数值的稳定性和卷积计算的高效性,进而在保证提升模型训练效率的同时也保证了模型的稳定性。
第一频谱图卷积池化层和第一频谱图卷积池化层中的图池化层均是滤波数量为4的快速图池化,如图3所示,具体池化步骤包括:
S121、采用多层聚类图粗化方法将多视图图像粗化为不同分辨率,得到粗化图;
其中,多层次聚类算法是相对于传统的单层聚类算法而言的,其包括三个步骤:将大规模数据集缩小到规模合适的数据集并保持元数据的重要特征和性质的粗化过程、对规模减小后的数据集进行聚类的划分过程,及通过还原方法及还原过程改善划分实现对原数据集的聚类的细化过程,实现过程如图4所示。具体应用时,其聚类效果也会因三个步骤中的具体方法不同而有差异。常见的方法有METIS图划分算法、Graclus算法和FAP算法,本实施例中采用了Graclus算法进行多层次聚类,其主要使用加权的K-means方法对数据进行分层,细化,实现了高效的聚类过程,得到了一个较理想的粗化图。
S122、根据所述粗化图,创造一个平衡二叉树;
其中,在创建平衡二叉树时,会在粗化图上添加一些辅助节点使得粗化图中的每个顶点都有两个孩子节点。
S123、根据所述平衡二叉树,重新安排所述多视图图像的顶点排序。
其中,平衡二叉树的节点都是多视图图像的顶点,将多视图图像的顶点摊平构成一维信号进行排序。
本实施例中,多视图分类数据输入模型后,先由输入层进入第一个频谱图卷积池化层,经过滤波数目为32的切比雪夫频谱图卷积后,进行批量正则化和ReLU非线性激活,通过大小为4的快速图化池进行融合得到图特征矩阵后,再进入第二个频谱图卷积池化层,经过滤波64的切比雪夫频谱图卷积后,进行批量正则化和ReLU非线性激活,通过大小为4的快速图化池进行融合得到图特征矩阵后,传入神经元数为1280的全连接层后采用softmax函数多分类输出得到分类结果,即完成了模型的正向传播。
S13、根据所述分类数据集对所述多视图分类模型进行分类训练,得到分类结果。
其中,如图5所示,所述根据所述分类数据集对所述多视图分类模型进行分类训练,得到分类结果的步骤S13包括:
S131、将所述分类数据集划分为训练集和测试集;
其中,多视图图像分类数据集应用于多视图图像分类时,一般都需要事先对图像数据进行去噪声、归一化和规范化的预处理,然后再将预处理后的数据输入到分类模型使用,由于后续本申请中使用的分类模型训练方法仅将图像的视角标签作为潜在变量,能够使用未对齐的对象数据集来无监督地学习对象特征,所以本实施例中无需对图像数据进行预处理,进而简化了训练的流程。
S132、将所述训练集输入所述多视图分类模型进行训练,得到多视图训练模型;
其中,如图6所示,所述将所述训练集输入所述多视图分类模型进行训练,得到多视图训练模型的步骤包括:
S1321、随机初始化所述多视图分类模型的参数;
其中,基于图卷积神经网络的多视图分类模型主要使用是切比雪夫频谱图卷积,其模型的参数的介绍可见上述切比雪夫频谱图卷积的介绍,本实施例中使用的模型不需要进行预训练,只需训练开始时将参数随机初始化即可,一定程度上提升了模型训练的效率。
S1322、将所述训练集的目标图像和目标图像标签输入所述多视图分类模型,对所述参数进行训练,得到类别似然矩阵;
其中,多视图分类模型参数的训练,是基于每个训练对象的多视图图像都是从所有预定义的视角观察得到的假设上,对下式的优化:
其中,S表示基于图卷积神经网络的多视图分类模型,表示来自M个视角的目标图像,y∈{1,2,...,N}表示上述目标图像对应的标签,N+1是为增强模型稳定性而引入的,用于表示不正确视角的类标签,vk∈{1,2,...,M}表示视角变量并将其附加在每个图像xk上,表示被预测标签和真实标签y在第vk个视角相等的概率,则表示来自不正确视角的被预测标签和不正确视角标签N+1相同的可能性。模型训练时,只需传入目标图像和目标图像标签,视角变量是未知的,即视角变量作为模型训练过程中进行优化的隐形变量,即在目标图像的类别标签后又加入一个背景类,方便实现类内和类间的对齐。
模型的输出是与每个图像对应于预定义离散视角的类别似然,即其中,表示图像xk类别标签的预测值,j∈{1,2,...,M}用于对应每个图像xk的标签,k=1,...,M,通过类别似然概率值来评估预测视角的正确性。
S1323、根据所述类别似然矩阵确定最能体现所述目标图像的视角变量;
其中,类别似然矩阵的每个元素值是用来描述预测某个图像在某个视角捕获的正确率。若预测值视角vk正确时,类别似然概率就接近1,即图像xk是从视角vk捕获的,反之,类似似然概率就会比较低意味着图像xk不是从视角vk捕获的。此外,为了保证模型的稳定性,在训练中引入了“不正确的视角类N+1”,并将其附加到目标类别标签中,这里的“不正确的视角类”属于“非目标类”的样本,对目标图像的检测任务起着与“背景类”类似的作用。对应的似然概率标识估计视角变量vk不正确的可能性大小,从而找出最能体现所述目标图像的视角变量。上述模型训练得到的表示所有M个视角对应与N+1类的似然矩阵由组成,且可表示为:
S1324、根据所述视角变量优化更新所述多视图分类模型的参数,得到所述多视图训练模型。
其中,视角变量不是常量,是在模型训练时需要优化的潜在变量,本实施例中使用的是模型参数和视角变量交替优化的方法,通过反向传播迭代对(1)式进行交叉熵优化来更新模型参数,得到稳定的多视图分类模型。
S133、将所述测试集输入所述多视图分类模型,得到分类结果。
其中,测试集同上述训练集的内容一样,也包括目标图像和目标图像标签,即以此作为多视图分类模型的输入,即可以得到多视图图像的分类结果,及最能体现每个目标图像的视角。
本申请实施例中,在多视图分类时,建立了一种包括频谱图卷积、批量正则化和快速图池化的新的基于图卷积神经网络的多视图分类模型,且在基于经典3D数据集ModelNet10和ModelNet40的进行模型训练时,引入视角变量作为潜在变量,采用视角变量和模型参数交互优化的方式确定最终的分类模型,不仅能够处理任意结构数据保证输入数据的低维性,从而大大减少了存储空间和计算资源,而且在不需要预训练的情况下,提升了模型收敛速度和分类精度。具体本申请实例中BSGCN和现有多视图图像分类模型基于ModelNet10和ModelNet40的进行多视图分类测试的分类精度的比对结果,如下表1所示:
表1BSGCN与现有模型基于相同经典数据集的分类精度比对表
模型 | ModelNet10 | ModelNet40 |
MVCNN | - | 90.1% |
Zanuttigh and Minto | 91.5% | 87.8% |
Soltani et al. | - | 82.1% |
3D-GAN | 91.0% | 83.3% |
Xu and Todorovic | 88% | 81.26% |
Arvind et al. | - | 86.5% |
binVoxNetPlus | 92.32% | 85.47% |
VSL | 91.0% | 84.5% |
PointNet | 77.6% | - |
PointNet | - | 89.2% |
Dominguez et al. | 74.3% | - |
ECC | 90.0% | 83.2% |
BSGCN | 92.84% | 90.44% |
基于上述实验结果可知,本实施例的基于图卷积神经网络的多视图分类模型(BSGCN)在ModelNet10和ModelNet40数据的分类上都有着很好的表现,其与现有多视图分类模型基于同样数据集上的分类精度和普适性都有着明显优势。
需要说明的是,虽然上述流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,这些步骤可以以其它的顺序执行。而且,上述流程图中的至少一部分步骤可以包括多个子步骤或者多个阶段,这些子步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,这些子步骤或者阶段的执行顺序也不必然是依次进行,而是可以与其它步骤或者其它步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。
在一个实施例中,如图7所示,提供了一种多视图图像分类系统,所述系统包括:
获取多视图图像数据集模块71,用于获取多视图图像的分类数据集;所述分类数据集包括不同视角的目标图像和目标图像标签;
建立分类模型模块72,用于根据所述分类数据集构建基于图卷积神经网络的多视图分类模型;所述多视图分类模型包括输入层、频谱图卷积、批量正则化层、图池化层、全连接层和输出层;
模型训练分类模块73,用于根据所述分类数据集对所述多视图分类模型进行分类训练,得到分类结果。
关于多视图图像分类系统的具体限定可以参见上文中对于多视图图像分类方法的限定,在此不再赘述。上述多视图图像分类系统中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中,也可以以软件形式存储于计算机设备中的存储器中,以便于处理器调用执行以上各个模块对应的操作。
图8示出一个实施例中计算机设备的内部结构图,该计算机设备具体可以是终端或服务器。如图8所示,该计算机设备包括通过系统总线连接的处理器、存储器、网络接口、显示器和输入装置。其中,该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统和计算机程序。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种电价概率预测方法。该计算机设备的显示屏可以是液晶显示屏或者电子墨水显示屏,该计算机设备的输入装置可以是显示屏上覆盖的触摸层,也可以是计算机设备外壳上设置的按键、轨迹球或触控板,还可以是外接的键盘、触控板或鼠标等。
本领域普通技术人员可以理解,图8中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的计算机设备的限定,具体的计算设备可以包括比途中所示更多或更少的部件,或者组合某些部件,或者具有同的部件布置。
在一个实施例中,提供了一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,处理器执行计算机程序时实现上述方法的步骤。
在一个实施例中,提供了一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现上述方法的步骤。
综上,本发明实施例提供的一种多视图图像分类方法、系统、计算机设备和存储介质,其基于图卷积神经网络的多视图分类模型的多视图图像分类方法提出了一种包括两个频谱图卷积、两个批量正则化层、两个快速图池化层、一个全连接层及softmax分类输出层的新的多视图图像分类模型,并结合视角变量与模型参数交互优化进行训练分类的方法。该方法应用于实际的多视图图像分类时,在延续现有多视图图像分类优势的基础上,不仅支持任意数据结构的数据处理,提升了分类模型的普适性,还保证了训练数据的低维性,大大减少了存储空间和计算资源,更重要的是,在不需要预训练的情况下,提升了模型收敛速度和分类精度。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。
本说明书中的各个实施例均采用递进的方式描述,各个实施例直接相同或相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于系统、计算机设备和存储介质的实施例而言,由于其基本相似于方法实施例,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。需要说明的是,上述实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
以上所述实施例仅表达了本申请的几种优选实施方式,其描述较为具体和详细,但并不能因此而理解为对发明专利范围的限制。应当指出的是,对于本技术领域的普通技术人员来说,在不脱离本发明技术原理的前提下,还可以做出若干改进和替换,这些改进和替换也应视为本申请的保护范围。因此,本申请专利的保护范围应以所述权利要求的保护范围为准。
Claims (10)
1.一种多视图图像分类方法,其特征在于,所述方法包括以下步骤:
获取多视图图像的分类数据集;所述分类数据集包括不同视角的目标图像和目标图像标签;
根据所述分类数据集构建基于图卷积神经网络的多视图分类模型;所述多视图分类模型包括输入层、频谱图卷积、批量正则化层、图池化层、全连接层和输出层;
根据所述分类数据集对所述多视图分类模型进行分类训练,得到分类结果。
2.如权利要求1所述的多视图图像分类方法,其特征在于,所述频谱图卷积、批量正则化层、图池化层、全连接层的数目分别为2、2、2、1,所述多视图分类模型依次包括输入层、第一频谱图卷积池化层、第二频谱图卷积池化层、全连接层和softmax函数多分类输出层。
3.如权利要求2所述的多视图图像分类方法,其特征在于,
所述第一频谱图卷积池化层依次包括第一频谱图卷积、批量正则化层、ReLU非线性激活层以及第一图池化层;
所述第二频谱图卷积池化层依次包括第二频谱图卷积、批量正则化层、ReLU非线性激活层以及第二图池化层。
4.如权利要求3所述的多视图图像分类方法,其特征在于,
所述第一频谱图卷积和第二频谱图卷积均采用切比雪夫图卷积,且所述第一频谱图卷积的滤波数目为32,所述第二频谱图卷积的滤波个数为64;
所述第一图池化层和第二图池化层的滤波数目均为4;
所述所述全连接层的神经元数为1280。
5.如权利要求4所述的多视图图像分类方法,其特征在于,所述图池化层的池化步骤包括:
采用多层聚类图粗化方法将多视图图像粗化为不同分辨率,得到粗化图;
根据所述粗化图,创造一个平衡二叉树;
根据所述平衡二叉树,重新安排所述多视图图像的顶点排序。
6.如权利要求1所述的多视图图像分类方法,其特征在于,所述根据所述分类数据集对所述多视图分类模型进行分类训练,得到分类结果的步骤包括:
将所述分类数据集划分为训练集和测试集;
将所述训练集输入所述多视图分类模型进行训练,得到多视图训练模型;
将所述测试集输入所述多视图训练模型,得到分类结果。
7.如权利要求6所述的多视图图像分类方法,其特征在于,所述将所述训练集输入所述多视图分类模型进行训练,得到多视图训练模型的步骤包括:
随机初始化所述多视图分类模型的参数;
将所述训练集的目标图像和目标图像标签输入所述多视图分类模型,对所述参数进行训练,得到类别似然矩阵;
根据所述类别似然矩阵确定最能体现所述目标图像的视角变量;
根据所述视角变量优化更新所述多视图分类模型的参数,得到所述多视图训练模型。
8.一种多视图图像分类系统,其特征在于,所述系统包括:
获取多视图图像数据集模块,用于获取多视图图像的分类数据集;所述分类数据集包括不同视角的目标图像和目标图像标签;
建立分类模型模块,用于根据所述分类数据集构建基于图卷积神经网络的多视图分类模型;所述多视图分类模型包括输入层、频谱图卷积、批量正则化层、图池化层、全连接层和输出层;
模型训练分类模块,用于根据所述分类数据集对所述多视图分类模型进行分类训练,得到分类结果。
9.一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至7中任一项所述方法的步骤。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至7中任一项所述的方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011424449.2A CN112529068B (zh) | 2020-12-08 | 2020-12-08 | 一种多视图图像分类方法、系统、计算机设备和存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011424449.2A CN112529068B (zh) | 2020-12-08 | 2020-12-08 | 一种多视图图像分类方法、系统、计算机设备和存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112529068A true CN112529068A (zh) | 2021-03-19 |
CN112529068B CN112529068B (zh) | 2023-11-28 |
Family
ID=74998307
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011424449.2A Active CN112529068B (zh) | 2020-12-08 | 2020-12-08 | 一种多视图图像分类方法、系统、计算机设备和存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112529068B (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113312838A (zh) * | 2021-05-24 | 2021-08-27 | 哈尔滨理工大学 | 一种基于数据重建的可靠多视图学习方法及装置 |
CN113642674A (zh) * | 2021-09-03 | 2021-11-12 | 贵州电网有限责任公司 | 一种基于图卷积神经网络的多轮对话分类方法 |
CN115968087A (zh) * | 2023-03-16 | 2023-04-14 | 中建八局发展建设有限公司 | 一种会展中心交互式灯光控制装置 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110929029A (zh) * | 2019-11-04 | 2020-03-27 | 中国科学院信息工程研究所 | 一种基于图卷积神经网络的文本分类方法及系统 |
CN111339847A (zh) * | 2020-02-14 | 2020-06-26 | 福建帝视信息科技有限公司 | 一种基于图卷积神经网络的人脸情绪识别方法 |
US20200210773A1 (en) * | 2019-01-02 | 2020-07-02 | Boe Technology Group Co., Ltd. | Neural network for image multi-label identification, related method, medium and device |
CN111598130A (zh) * | 2020-04-08 | 2020-08-28 | 天津大学 | 基于多视图卷积神经网络的中药识别方法 |
-
2020
- 2020-12-08 CN CN202011424449.2A patent/CN112529068B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20200210773A1 (en) * | 2019-01-02 | 2020-07-02 | Boe Technology Group Co., Ltd. | Neural network for image multi-label identification, related method, medium and device |
CN110929029A (zh) * | 2019-11-04 | 2020-03-27 | 中国科学院信息工程研究所 | 一种基于图卷积神经网络的文本分类方法及系统 |
CN111339847A (zh) * | 2020-02-14 | 2020-06-26 | 福建帝视信息科技有限公司 | 一种基于图卷积神经网络的人脸情绪识别方法 |
CN111598130A (zh) * | 2020-04-08 | 2020-08-28 | 天津大学 | 基于多视图卷积神经网络的中药识别方法 |
Non-Patent Citations (2)
Title |
---|
MICHAEL EDWARDS等: "Graph convolutional neural network for multi-scale feature learning", 《ELSEVIER SCIENCE》, pages 1 - 12 * |
孙智伟: "基于机器学习的频谱监测算法研究与FPGA实现", 《万方数据知识服务平台学位论文库》, pages 1 - 93 * |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113312838A (zh) * | 2021-05-24 | 2021-08-27 | 哈尔滨理工大学 | 一种基于数据重建的可靠多视图学习方法及装置 |
CN113312838B (zh) * | 2021-05-24 | 2022-08-23 | 哈尔滨理工大学 | 一种基于数据重建的可靠多视图学习方法及装置 |
CN113642674A (zh) * | 2021-09-03 | 2021-11-12 | 贵州电网有限责任公司 | 一种基于图卷积神经网络的多轮对话分类方法 |
CN115968087A (zh) * | 2023-03-16 | 2023-04-14 | 中建八局发展建设有限公司 | 一种会展中心交互式灯光控制装置 |
Also Published As
Publication number | Publication date |
---|---|
CN112529068B (zh) | 2023-11-28 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Hu et al. | Learning supervised scoring ensemble for emotion recognition in the wild | |
CN109522942B (zh) | 一种图像分类方法、装置、终端设备和存储介质 | |
CN111797893B (zh) | 一种神经网络的训练方法、图像分类系统及相关设备 | |
US20210158023A1 (en) | System and Method for Generating Image Landmarks | |
Yuan et al. | Factorization-based texture segmentation | |
WO2020119527A1 (zh) | 人体动作识别方法、装置、终端设备及存储介质 | |
WO2022105125A1 (zh) | 图像分割方法、装置、计算机设备及存储介质 | |
EP4030348A1 (en) | Neural network training method, data processing method, and related apparatuses | |
CN112529068B (zh) | 一种多视图图像分类方法、系统、计算机设备和存储介质 | |
CN110659723B (zh) | 基于人工智能的数据处理方法、装置、介质及电子设备 | |
EP4283520A1 (en) | Pruning processing method for convolutional neural network, data processing method and devices | |
CN113822209B (zh) | 高光谱图像识别方法、装置、电子设备及可读存储介质 | |
CN110765860A (zh) | 摔倒判定方法、装置、计算机设备及存储介质 | |
CN112613581A (zh) | 一种图像识别方法、系统、计算机设备和存储介质 | |
CN110222718B (zh) | 图像处理的方法及装置 | |
WO2022193335A1 (zh) | 点云数据处理方法、装置、计算机设备和存储介质 | |
EP4322056A1 (en) | Model training method and apparatus | |
Wang et al. | A novel GCN-based point cloud classification model robust to pose variances | |
CN111553215A (zh) | 人员关联方法及其装置、图卷积网络训练方法及其装置 | |
CN112395979A (zh) | 基于图像的健康状态识别方法、装置、设备及存储介质 | |
US20210042613A1 (en) | Techniques for understanding how trained neural networks operate | |
CN113065997B (zh) | 一种图像处理方法、神经网络的训练方法以及相关设备 | |
Ye et al. | Efficient point cloud segmentation with geometry-aware sparse networks | |
CN113095333A (zh) | 无监督特征点检测方法及装置 | |
Qin et al. | Depth estimation by parameter transfer with a lightweight model for single still images |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |