CN114882288A - 基于分层图增强堆叠自编码器的多视图图像分类方法 - Google Patents
基于分层图增强堆叠自编码器的多视图图像分类方法 Download PDFInfo
- Publication number
- CN114882288A CN114882288A CN202210578371.2A CN202210578371A CN114882288A CN 114882288 A CN114882288 A CN 114882288A CN 202210578371 A CN202210578371 A CN 202210578371A CN 114882288 A CN114882288 A CN 114882288A
- Authority
- CN
- China
- Prior art keywords
- view
- encoder
- representation
- self
- layer
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 50
- 238000013528 artificial neural network Methods 0.000 claims abstract description 71
- 239000011159 matrix material Substances 0.000 claims description 43
- 238000012549 training Methods 0.000 claims description 42
- 230000006870 function Effects 0.000 claims description 32
- 238000010606 normalization Methods 0.000 claims description 8
- 238000004590 computer program Methods 0.000 claims description 6
- 230000002708 enhancing effect Effects 0.000 claims description 4
- 238000009966 trimming Methods 0.000 claims description 3
- 230000001537 neural effect Effects 0.000 claims 1
- 238000005457 optimization Methods 0.000 claims 1
- 238000012545 processing Methods 0.000 description 4
- 238000013459 approach Methods 0.000 description 3
- 238000010586 diagram Methods 0.000 description 3
- 238000013135 deep learning Methods 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 238000012360 testing method Methods 0.000 description 2
- 230000000007 visual effect Effects 0.000 description 2
- 238000004458 analytical method Methods 0.000 description 1
- 230000006399 behavior Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 230000014509 gene expression Effects 0.000 description 1
- 238000003709 image segmentation Methods 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/764—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/80—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
- G06V10/806—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of extracted features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02T—CLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
- Y02T10/00—Road transport of goods or passengers
- Y02T10/10—Internal combustion engine [ICE] based vehicles
- Y02T10/40—Engine management systems
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- General Physics & Mathematics (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Computing Systems (AREA)
- Software Systems (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Multimedia (AREA)
- Medical Informatics (AREA)
- Databases & Information Systems (AREA)
- Biomedical Technology (AREA)
- Mathematical Physics (AREA)
- General Engineering & Computer Science (AREA)
- Molecular Biology (AREA)
- Data Mining & Analysis (AREA)
- Computational Linguistics (AREA)
- Biophysics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Image Analysis (AREA)
Abstract
本发明公开了一种基于分层图增强堆叠自编码器的多视图图像分类方法,涉及基于图增强的多视图图像分类方法及系统,其目的在于解决上述现有技术存在的无法提取多视图图像的各个视图的特征并将学习到的特征进行融合的技术问题。本发明提出一种基于分层图增强堆叠自编码器的多视图图像分类方法及系统,考虑到多视图数据的几何结构以及不同视图之间的互补性和一致性;一个分层的图结构被引入到自编码器中去学习特定视图的表示,保持了多视图数据的局部和非局部的几何结构;在学习到具有几何结构特性的各个视图的特征表示后,通过使用全连接神经网络重构出每个单一视图,公共表示能够被学习;还能自动平衡多个视图之间的互补性和一致性。
Description
技术领域
本发明属于图像分类技术领域,尤其涉及多视图图像分类技术领域,更具体的是涉及一种基于图增强的多视图图像分类方法。
背景技术
随着深度学习的快速发展,各种各样的深度模型被提出。自编码器(AE)作为最具代表性的深度学习算法之一,已成功应用于计算机视觉、语音识别和自然语言处理等诸多领域。自编码器是一种无监督学习的方法,其目的是最小化输入和相应的重构输出之间的重构误差。基于原始数据的几何结构在特征表示中的重要作用,一些流形学习算法被引入到自编码器中。例如,NLSP-SAE考虑到数据的非局部和局部的几何结构,确保了在原始空间中相邻的样本在重构空间中离得更近,不相邻的样本离得更远。然而,在视觉任务中,有时仅使用单个视图是不能满足需求的。因此,多视图的概念被引出,即对于同一事物可以从不同的途径或不同的角度对其进行描述。例如,同一个物体从不同角度拍摄的图片;同一语义的不同语言的表达;即使是对于同一张图片,也可以采取不同的特征提取方式构成多个视图。近年来,随着多视图数据在实际中的广泛应用,多视图表示学习受到了广泛的关注。与单视图表示学习不同,多视图表示学习的关键是从不同的视图中学习一个公共表示。其中,自编码器也被引入到多视图表示学习中。AE2-Nets考虑多视图表示学习过程中多视图数据的相关性和互补性,通过使用嵌套的自编码器框架将来自异构数据源的信息集成到完整的表示中,并且自动地平衡了不同视图之间的一致性和互补性。
随着科技的不断进步,图像分类在很多领域有广泛应用。包括安防领域的人脸识别和智能视频分析,以及医学领域的图像识别等。图像分类是计算机视觉中重要的基本问题,也是图像检测、图像分割、物体跟踪、行为识别等其他高层视觉任务的基础。然而,传统的单一视图的数据已经不能满足当前图像分类的需求,需要一种适用于多视图图像分类的方法。所谓的多视图图像,是指由同一目标对象的不同视角图像构成的,其对目标对象的表述比传统的单视图图像更加形象。多视图图像分类是从多个视角对整个图像进行描述,然后使用分类器判别物体类别。因此如何提取各个视图的特征以及将学习到的各个视图的特征加以融合是至关重要的。
发明内容
本发明的目的在于:为了解决上述现有技术存在的无法提取多视图图像的各个视图的特征并将学习到的特征进行融合的技术问题,本发明提供一种基于分层图增强堆叠自编码器的多视图图像分类方法。
本发明为了实现上述目的具体采用以下技术方案:
一种基于分层图增强堆叠自编码器的多视图图像分类方法,包括如下步骤:
步骤S1,样本采集
采集多视图样本χ={X(1),X(2),...,X(V)},并进行归一化处理;
步骤S2,构建模型
构建用于自编码器网络模型,自编码器网络模型包括自编码器和全连接神经网络;令第v个视图在自编码器的参数为在全连接神经网络中的参数为初始化所有视图在自编码器中的参数以及在全连接神经网络中的参数和公共表示H;
其中l表示自编码器的第l层,L表示自编码器的总层数;m表示全连接神经网络的第m层,M表示全连接神经网络的总层数;v表示第v个视图,V表示视图个数;表示第v个视图在自编码器的第I层编码部分的权重和偏置,表示第v个视图在自编码器的第I层解码部分的权重和偏置;表示第v个视图在全连接神经网络第m层中的权重和偏置;
步骤S3,模型训练
将步骤S1归一化处理后的样本数据输入到自编码器网络模型中,样本数据输入自编码器并获取到每个视图的表示Z,全连接神经网络从初始化的公共表示H中重构出每个视图的表示C,全连接神经网络计算表示Z和表示C之间的损失,并优化、更新全连接神经网络的参数以及公共表示H,直至自编码器网络模型收敛;
步骤S4,实时分类
将实时多视图数据输入经步骤S3训练后的自编码器网络模型中,得到实时的公共表示H,将公共表示H输入到分类器中,对实时多视图数据进行分类,得到分类结果。
作为优选,步骤S3包括:
步骤S3.1,自编码器网络模型中的编码器为图增强堆叠自编码器,图增强堆叠自编码器包括多个图增强编码-解码结构并以分层的方式堆叠而成,将步骤S1归一化处理后的样本数据输入到图增强堆叠自编码器中进行训练,获取到每个视图的表示Z(L,v);
步骤S3.2,随机初始化公共表示H,令全连接神经网络的输入为C(0,v)=H,从公共表示H中重构出每个单一视图的表示C(M,v),再根据图增强堆叠自编码器网络中学习到的表示Z(L,v)、和表示C(M,v),通过最小化目标函数Jc,分别对全连接神经网络的参数公共表示H进行更新;
其中最小化目标函数Jc为:
步骤S3.3,重复步骤S3.1-S3.2,直至图增强堆叠自编码器网络收敛。
作为优选,步骤S3.1中,具体步骤为:
步骤S3.1.1,将步骤S1归一化处理后的样本数据输入到图增强堆叠自编码器进行分层预训练,直到最后一层预训练完成;
步骤S3.1.2,基于步骤S3.1.1预训练获得的参数,通过最小化微调目标函数,微调图增强堆叠自编码器的参数。
作为优选,步骤S3.1.1中,步骤S3.1.1中,对于第v个视图来说,第l一1层学习到的表示Z(l-1,v)作为第l层的输入;第一层的输入为原始数据,即Z(0,v)=X(v);记第v个视图的第l层参数为Θae (l,v)={W* (l,v),b* (l,v)}*∈{e,d},其中表示第v个视图在自编码器的第I层编码部分的权重和偏置,表示第v个视图在自编码器的第I层解码部分的权重和偏置;;通过最小化目标函数,每个视图的第l层被预训练,直到最后一层预训练完成;
最小化目标函数为:
其中,第一项为重构损失,第二项为局部图正则化项,第三步为非局部图正则化项;Θae (l,v)为第v个视图在自编码器第l层的参数,λL和λN分别是局部和非局部正则化项的调节参数;tr()为矩阵的迹;Z(l-1,v)、Z(l,v)分别为第l-1、l层学习到的表示,Z(l-1,v)作为第l层的输入,为第l层输入Z(l-1,v)的重构,L+(l,v)=D+(l,v)-W+(l,v)是第v个视图第l层的局部结构拉普拉斯矩阵,D+(l,v)是第v个视图第l层的局部结构对角矩阵,该对角矩阵中的每个元素可表示为W+(l,v)是第v个视图第l层的局部结构权重矩阵,该权重矩阵中的每个元素可以表示为L-(l,v)=D-(l,v)-W-(l,v)是第v个视图第l层的非局部结构拉普拉斯矩阵,D-(l,v)是第v个视图第l层的非局部结构对角矩阵,该对角矩阵中的每个元素可以表示为W-(l,v)是第v个视图第l层的非局部结构权重矩阵,该权重矩阵中的每个元素可以表示为给定第v个视图的第l层的输入Z(l-1,v),对于每个视图来说,我们使用K近邻方法构造样本表示点的局部邻接图;也就是说,对于每个表示点,通过计算欧氏距离来选择最近的K个表示点作为它的邻居点去构造邻接图。
5.如权利要求4所述的一种基于分层图增强堆叠自编码器的多视图图像分类方法,其特征在于,第v个视图的第l层输入的第i个表示点zi (l-1,v)(i=1,...N,N为总样本数)和它的邻居点zj (l-1,v)之间的权重通过热核函数计算:
关于邻居点与非邻居点都采用了Zj (l-1,v)进行表示,在Zj (l-1,v)中j的范围为1-N,N为总样本数,当分别表示邻居点和非邻居点时,j的取值是不同的;当j的值为1-k(k为邻居节点的个数)时,表示的是邻居节点;当j的值为k+1-N时,表示的是非邻居节点。
作为优选,步骤S3.1.2中,最小化微调目标函数为:
其中,λ是平衡参数,X(v)是输入的第v个视图,是第v个视图原始输入数据的重构,V表示视图个数,Z(L,v)是学习到的每个视图的最终表示,C(M,v)是从公共表示中重构出来的视图表示;第一项为原始输入和重构输出的重构损失,第二项为最深层的表示和从公共表示中重构出来的表示之间的重构损失;值得注意的是,最深层的表示和从公共表示中重构出来的表示之间的重构损失也被用于去约束图增强堆叠自编码器的微调过程;当全连接神经网络的参数和公共表示被训练后,也被反过来去约束图增强堆叠自编码器的参数的优化。
一种基于分层图增强堆叠自编码器的多视图图像分类系统,包括:
样本采集模块,用于采集多视图样本χ={X(1),X(2),...,X(V)},并进行归一化处理;
构建模型模块,用于构建自编码器网络模型,自编码器网络模型包括自编码器和全连接神经网络;令第v个视图在自编码器的参数为在全连接神经网络中的参数为初始化所有视图在自编码器中的参数以及在全连接神经网络中的参数和公共表示H;
其中l表示自编码器的第l层,L表示自编码器的总层数;m表示全连接神经网络的第m层,M表示全连接神经网络的总层数;v表示第v个视图,V表示视图个数;表示第v个视图在自编码器的第I层编码部分的权重和偏置,表示第v个视图在自编码器的第I层解码部分的权重和偏置;表示第v个视图在全连接神经网络第m层中的权重和偏置;
模型训练模块,用于将样本采集模块归一化处理后的样本数据输入到自编码器网络模型中,样本数据输入自编码器并获取到每个视图的表示Z,全连接神经网络从初始化的公共表示H中重构出每个视图的表示C,全连接神经网络计算表示Z和表示C之间的损失,并优化、更新全连接神经网络的参数以及公共表示H,直至自编码器网络模型收敛;
实时分类模块,用于将实时多视图数据输入经模型训练模块训练后的自编码器网络模型中,得到实时的公共表示H,将公共表示H输入到分类器中,对实时多视图数据进行分类,得到分类结果。
一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,所述计算机程序被所述处理器执行时,使得所述处理器执行上述基于分层图增强堆叠自编码器的多视图图像分类方法的步骤。
一种计算机可读存储介质,存储有计算机程序,所述计算机程序被处理器执行时,使得所述处理器执行上述基于分层图增强堆叠自编码器的多视图图像分类方法的步骤。
本发明的有益效果如下:
本发明提出了一种基于分层图增强堆叠自编码器的多视图图像分类方法,考虑到多视图数据的几何结构以及不同视图之间的互补性和一致性;一个分层的图结构被引入到自编码器中去学习特定视图的表示,保持了多视图数据的局部和非局部的几何结构;在学习到具有几何结构特性的各个视图的特征表示后,通过使用全连接神经网络重构出每个单一视图,公共表示能够被学习;因此,针对多视图图像分类问题发明的分层图增强堆叠自编码器不仅能够保持多视图数据的几何结构,还能自动平衡多个视图之间的互补性和一致性。
附图说明
图1是本发明的流程示意图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。通常在此处附图中描述和示出的本发明实施例的组件可以以各种不同的配置来布置和设计。
因此,以下对在附图中提供的本发明的实施例的详细描述并非旨在限制要求保护的本发明的范围,而是仅仅表示本发明的选定实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
实施例1
如图1所示,本实施例提供了一种基于分层图增强堆叠自编码器的多视图图像分类方法,包括如下步骤:
步骤S1,样本采集
采集多视图样本χ={X(1),X(2),...,X(V)},并进行归一化处理;
步骤S2,构建模型
其中l表示自编码器的第l层,L表示自编码器的总层数;m表示全连接神经网络的第m层,M表示全连接神经网络的总层数;v表示第v个视图,V表示视图个数;表示第v个视图在自编码器的第I层编码部分的权重和偏置,表示第v个视图在自编码器的第I层解码部分的权重和偏置;表示第v个视图在全连接神经网络第m层中的权重和偏置;
步骤S3,模型训练
将步骤S1归一化处理后的样本数据输入到自编码器网络模型中,样本数据输入自编码器并获取到每个视图的表示Z,全连接神经网络从初始化的公共表示H中重构出每个视图的表示C,全连接神经网络计算表示Z和表示C之间的损失,并优化、更新全连接神经网络的参数以及公共表示H,直至自编码器网络模型收敛;
该模型训练分为图增强特定视图的表示学习和公共表示学习两个步骤,具体如下:
步骤S3.1,为了能够在保持数据的局部和非局部几何结构的同时,获取多视图数据深层结构的特性,本实施例设计了图增强堆叠自编码器。即该自编码器网络模型中的编码器为图增强堆叠自编码器,图增强堆叠自编码器包括多个图增强编码-解码结构并以分层的方式堆叠而成,将步骤S1归一化处理后的样本数据输入到图增强堆叠自编码器中进行训练,获取到每个视图的表示Z(L,v);
图增强特定视图的表示学习包括层层预训练阶段和微调阶段,具体如下:
步骤S3.1.1,将步骤S1归一化处理后的样本数据输入到图增强堆叠自编码器进行分层预训练,直到最后一层预训练完成;
步骤S3.1.1中,预训练阶段,将给定的多视图数据输入到图增强堆叠自编码器中进行分层预训练。对于第v个视图来说,第l-1层学习到的表示Z(l-1,v)作为第l层的输入;第一层的输入为原始数据,即Z(0,v)=X(v);记第v个视图的第l层参数为Θae (l,v)={W* (l,v),b* (l,v)},*∈{e,d},其中表示第v个视图在自编码器的第I层编码部分的权重和偏置,表示第v个视图在自编码器的第I层解码部分的权重和偏置;;通过最小化目标函数,每个视图的第l层被预训练,直到最后一层预训练完成;
最小化目标函数为:
其中,第一项为重构损失,第二项为局部图正则化项,第三步为非局部图正则化项;Θae (l,v)为第v个视图在自编码器第l层的参数,λL和λN分别是局部和非局部正则化项的调节参数;tr()为矩阵的迹;Z(l-1,v)、Z(l,v)分别为第l-1、l层学习到的表示,Z(l-1,v)作为第l层的输入,为第l层输入Z(l-1,v)的重构,L+(l,v)=D+(l,v)-W+(l,v)是第v个视图第l层的局部结构拉普拉斯矩阵,D+(l,v)是第v个视图第l层的局部结构对角矩阵,该对角矩阵中的每个元素可表示为W+(l,v)是第v个视图第l层的局部结构权重矩阵,该权重矩阵中的每个元素可以表示为L-(l,v)=D-(l,v)-W-(l,v)是第v个视图第l层的非局部结构拉普拉斯矩阵,D-(l,v)是第v个视图第l层的非局部结构对角矩阵,该对角矩阵中的每个元素可以表示为W-(l,v)是第v个视图第l层的非局部结构权重矩阵,该权重矩阵中的每个元素可以表示为给定第v个视图的第l层的输入Z(l-1,v),对于每个视图来说,我们使用K近邻方法构造样本表示点的局部邻接图;也就是说,对于每个表示点,通过计算欧氏距离来选择最近的K个表示点作为它的邻居点去构造邻接图。
关于邻居点与非邻居点都采用了zj (l-1,v)进行表示,在zj (l-1,v)中j的范围为1-N,N为总样本数,当分别表示邻居点和非邻居点时,j的取值是不同的;当j的值为1-k(k为邻居节点的个数)时,表示的是邻居节点;当j的值为k+1-N时,表示的是非邻居节点。
步骤S3.1.2,微调阶段,基于步骤S3.1.1预训练获得的参数被用作微调阶段的初始权重,使用最深层的表示Z(L,v)去重构原始的输入;通过最小化微调目标函数,微调图增强堆叠自编码器的参数。
步骤S3.1.2中,最小化微调目标函数为:
其中,λ是平衡参数,X(v)是输入的第v个视图,是第v个视图原始输入数据的重构,V表示视图个数,Z(L,v)是学习到的每个视图的最终表示,C(M,v)是从公共表示中重构出来的视图表示;第一项为原始输入和重构输出的重构损失,第二项为最深层的表示和从公共表示中重构出来的表示之间的重构损失;值得注意的是,最深层的表示和从公共表示中重构出来的表示之间的重构损失也被用于去约束图增强堆叠自编码器的微调过程;当全连接神经网络的参数和公共表示被训练后,也被反过来去约束图增强堆叠自编码器的参数的优化。
步骤S3.2,公共表示学习,基于在图增强堆叠自编码器中学习到的特定视图的表示,我们旨在于将他们编码成一个公共的表示dH是H的维度。假设通过使用具有M层的全连接神经网络,每个单一视图都能够从公共表示中重构出来,记全连接神经网络中所有的参数为步骤S3.2,随机初始化公共表示H,令全连接神经网络的输入为C(0,v)=H,从公共表示H中重构出每个单一视图的表示C(M,v),再根据图增强堆叠自编码器网络中学习到的表示Z(L,v)、和表示C(M,v),通过最小化目标函数Jc,分别对全连接神经网络的参数公共表示H进行更新‘
其中最小化目标函数Jc为:
步骤S3.3,重复步骤S3.1-S3.2,直至图增强堆叠自编码器网络收敛。
训练数据集为100Leaves图像数据集,该数据集包含100中不同的树叶图像,每类树叶的图像数量为16张,共计1600张树叶图像,形状描述和纹理直方图特征被选为两个视图作为输入数据。随机选取数据集的80%作为训练集,20%作为测试集,使用KNN作为分类器。基于图自编码器的单视图方法在100Leaves数据集的两个视图上的精度分别为85.62%和86.87%;基于自编码器的多视图方法在该数据集上的精度为94.16%。而本实施例中的分层图增强堆叠自编码器在100Leaves数据集上的精度为96.23%,相比基于图自编码器的单视图方法和基于自编码器的多视图方法,本申请的方法有了明显的提升,验证了所提方法的有效性。
步骤S4,实时分类
将实时多视图数据输入经步骤S3训练后的自编码器网络模型中,得到实时的公共表示H,将公共表示H输入到分类器中,对实时多视图数据进行分类,得到分类结果。
实施例2
本实施例还提供一种基于分层图增强堆叠自编码器的多视图图像分类系统,包括样本采集模块、构建模型模型、模型训练模块、实时分类模块,具体为:
样本采集模块,用于采集多视图样本χ={X(1),X(2),...,X(V)},并进行归一化处理;
构建模型模型,用于构建自编码器网络模型,自编码器网络模型包括自编码器和全连接神经网络;令第v个视图在自编码器的参数为在全连接神经网络中的参数为初始化所有视图在自编码器中的参数以及在全连接神经网络中的参数和公共表示H;
其中l表示自编码器的第l层,L表示自编码器的总层数;m表示全连接神经网络的第m层,M表示全连接神经网络的总层数;v表示第v个视图,V表示视图个数;表示第v个视图在自编码器的第I层编码部分的权重和偏置,表示第v个视图在自编码器的第I层解码部分的权重和偏置;表示第v个视图在全连接神经网络第m层中的权重和偏置;
模型训练模块,用于将步骤S1归一化处理后的样本数据输入到自编码器网络模型中,样本数据输入自编码器并获取到每个视图的表示Z,全连接神经网络从初始化的公共表示H中重构出每个视图的表示C,全连接神经网络计算表示Z和表示C之间的损失,并优化、更新全连接神经网络的参数以及公共表示H,直至自编码器网络模型收敛;
该模型训练分为图增强特定视图的表示学习和公共表示学习两个步骤,具体如下:
为了能够在保持数据的局部和非局部几何结构的同时,获取多视图数据深层结构的特性,本实施例设计了图增强堆叠自编码器。即该自编码器网络模型中的编码器为图增强堆叠自编码器,图增强堆叠自编码器包括多个图增强编码-解码结构并以分层的方式堆叠而成,将步骤S1归一化处理后的样本数据输入到图增强堆叠自编码器中进行训练,获取到每个视图的表示Z(L,v);
图增强特定视图的表示学习包括层层预训练阶段和微调阶段,具体如下:
将样本采集模块归一化处理后的样本数据输入到图增强堆叠自编码器进行分层预训练,直到最后一层预训练完成;
预训练阶段,将给定的多视图数据输入到图增强堆叠自编码器中进行分层预训练。对于第v个视图来说,第l-1层学习到的表示Z(l-1,v)作为第l层的输入;第一层的输入为原始数据,即Z(0,v)=X(v);记第v个视图的第l层参数为Θae (l,v)={W* (l,v),b* (l,v)},*∈{e,d},其中表示第v个视图在自编码器的第I层编码部分的权重和偏置,表示第v个视图在自编码器的第I层解码部分的权重和偏置;;通过最小化目标函数,每个视图的第l层被预训练,直到最后一层预训练完成;
最小化目标函数为:
其中,第一项为重构损失,第二项为局部图正则化项,第三步为非局部图正则化项;Θae (l,v)为第v个视图在自编码器第l层的参数,λL和λN分别是局部和非局部正则化项的调节参数;tr()为矩阵的迹;Z(l-1,v)、Z(l,v)分别为第l一1、l层学习到的表示,Z(l-1,v)作为第l层的输入,为第l层输入Z(l-1,v)的重构,L+(l,v)=D+(l,v)-W+(l,v)是第v个视图第l层的局部结构拉普拉斯矩阵,D+(l,v)是第v个视图第l层的局部结构对角矩阵,该对角矩阵中的每个元素可表示为W+(l,v)是第v个视图第l层的局部结构权重矩阵,该权重矩阵中的每个元素可以表示为L-(l,v)=D-(l,v)-W-(l,v)是第v个视图第l层的非局部结构拉普拉斯矩阵,D-(l,v)是第v个视图第l层的非局部结构对角矩阵,该对角矩阵中的每个元素可以表示为W-(l,v)是第v个视图第l层的非局部结构权重矩阵,该权重矩阵中的每个元素可以表示为给定第v个视图的第l层的输入Z(l-1,v),对于每个视图来说,我们使用K近邻方法构造样本表示点的局部邻接图;也就是说,对于每个表示点,通过计算欧氏距离来选择最近的K个表示点作为它的邻居点去构造邻接图。
关于邻居点与非邻居点都采用了zj (l-1,v)进行表示,在zj (l-1,v)中j的范围为1-N,N为总样本数,当分别表示邻居点和非邻居点时,j的取值是不同的;当j的值为1-k(k为邻居节点的个数)时,表示的是邻居节点;当j的值为k+1-N时,表示的是非邻居节点。
微调阶段,基于步骤S3.1.1预训练获得的参数被用作微调阶段的初始权重,使用最深层的表示Z(L,v)去重构原始的输入;通过最小化微调目标函数,微调图增强堆叠自编码器的参数。
最小化微调目标函数为:
其中,λ是平衡参数,X(v)是输入的第v个视图,是第v个视图原始输入数据的重构,V表示视图个数,Z(L,v)是学习到的每个视图的最终表示,C(M,v)是从公共表示中重构出来的视图表示;第一项为原始输入和重构输出的重构损失,第二项为最深层的表示和从公共表示中重构出来的表示之间的重构损失;值得注意的是,最深层的表示和从公共表示中重构出来的表示之间的重构损失也被用于去约束图增强堆叠自编码器的微调过程;当全连接神经网络的参数和公共表示被训练后,也被反过来去约束图增强堆叠自编码器的参数的优化。
公共表示学习,基于在图增强堆叠自编码器中学习到的特定视图的表示,我们旨在于将他们编码成一个公共的表示dH是H的维度。假设通过使用具有M层的全连接神经网络,每个单一视图都能够从公共表示中重构出来,记全连接神经网络中所有的参数为随机初始化公共表示H,令全连接神经网络的输入为C(0,v)=H,从公共表示H中重构出每个单一视图的表示C(M,v),再根据图增强堆叠自编码器网络中学习到的表示Z(L,v)、和表示C(M,v),通过最小化目标函数Jc,分别对全连接神经网络的参数公共表示H进行更新;
其中最小化目标函数Jc为:
重复训练,直至图增强堆叠自编码器网络收敛。
训练数据集为100Leaves图像数据集,该数据集包含100中不同的树叶图像,每类树叶的图像数量为16张,共计1600张树叶图像,形状描述和纹理直方图特征被选为两个视图作为输入数据。随机选取数据集的80%作为训练集,20%作为测试集,使用KNN作为分类器。基于图自编码器的单视图方法在100Leaves数据集的两个视图上的精度分别为85.62%和86.87%;基于自编码器的多视图方法在该数据集上的精度为94.16%。而本实施例中的分层图增强堆叠自编码器在100Leaves数据集上的精度为96.23%,相比基于图自编码器的单视图方法和基于自编码器的多视图方法,本申请的方法有了明显的提升,验证了所提方法的有效性。
实时分类模块,用于将实时多视图数据输入经步骤S3训练后的自编码器网络模型中,得到实时的公共表示H,将公共表示H输入到分类器中,对实时多视图数据进行分类,得到分类结果。
实施例3
本实施例还提供了一种计算机设备,包括存储器和处理器,存储器中存储有计算机程序,计算机程序被处理器执行时,使得处理器执行上述基于分层图增强堆叠自编码器的多视图图像分类方法的步骤。
其中,所述计算机设备可以是桌上型计算机、笔记本、掌上电脑及云端服务器等计算设备。所述计算机设备可以与用户通过键盘、鼠标、遥控器、触摸板或声控设备等方式进行人机交互。
所述存储器至少包括一种类型的可读存储介质,所述可读存储介质包括闪存、硬盘、多媒体卡、卡型存储器(例如,SD或D界面显示存储器等)、随机访问存储器(RAM)、静态随机访问存储器(SRAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、可编程只读存储器(PROM)、磁性存储器、磁盘、光盘等。在一些实施例中,所述存储器可以是所述计算机设备的内部存储单元,例如该计算机设备的硬盘或内存。在另一些实施例中,所述存储器也可以是所述计算机设备的外部存储设备,例如该计算机设备上配备的插接式硬盘,智能存储卡(Smart Media Card,SMC),安全数字(Secure Digital,SD)卡,闪存卡(Flash Card)等。当然,所述存储器还可以既包括所述计算机设备的内部存储单元也包括其外部存储设备。本实施例中,所述存储器常用于存储安装于所述计算机设备的操作系统和各类应用软件,例如运行所述基于分层图增强堆叠自编码器的多视图图像分类方法的程序代码等。此外,所述存储器还可以用于暂时地存储已经输出或者将要输出的各类数据。
所述处理器在一些实施例中可以是中央处理器(Central Processing Unit,CPU)、控制器、微控制器、微处理器、或其他数据处理芯片。该处理器通常用于控制所述计算机设备的总体操作。本实施例中,所述处理器用于运行所述存储器中存储的程序代码或者处理数据,例如运行所述基于分层图增强堆叠自编码器的多视图图像分类方法的程序代码。
实施例4
本实施例还提供了一种计算机可读存储介质,存储有计算机程序,计算机程序被处理器执行时,使得处理器执行上述基于分层图增强堆叠自编码器的多视图图像分类方法的步骤。
其中,所述计算机可读存储介质存储有界面显示程序,所述界面显示程序可被至少一个处理器执行,以使所述至少一个处理器执行基于分层图增强堆叠自编码器的多视图图像分类方法的步骤。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中,包括若干指令用以使得一台终端设备(可以是手机,计算机,服务器或者网络设备等)执行本申请各个实施例所述的方法。
Claims (9)
1.一种基于分层图增强堆叠自编码器的多视图图像分类方法,其特征在于,包括如下步骤:
步骤S1,样本采集
采集多视图样本χ={X(1),X(2),...,X(V)},并进行归一化处理;
步骤S2,构建模型
其中l表示自编码器的第l层,L表示自编码器的总层数;m表示全连接神经网络的第m层,M表示全连接神经网络的总层数;v表示第v个视图,V表示视图个数;表示第v个视图在自编码器的第l层编码部分的权重和偏置,表示第v个视图在自编码器的第l层解码部分的权重和偏置;表示第v个视图在全连接神经网络第m层中的权重和偏置;
步骤S3,模型训练
将步骤S1归一化处理后的样本数据输入到自编码器网络模型中,样本数据输入自编码器并获取到每个视图的表示Z,全连接神经网络从初始化的公共表示H中重构出每个视图的表示C,全连接神经网络计算表示Z和表示C之间的损失,并优化、更新全连接神经网络的参数以及公共表示H,直至自编码器网络模型收敛;
步骤S4,实时分类
将实时多视图数据输入经步骤S3训练后的自编码器网络模型中,得到实时的公共表示H,将公共表示H输入到分类器中,对实时多视图数据进行分类,得到分类结果。
2.如权利要求1所述的一种基于分层图增强堆叠自编码器的多视图图像分类方法,其特征在于,步骤S3包括:
步骤S3.1,自编码器网络模型中的编码器为图增强堆叠自编码器,图增强堆叠自编码器包括多个图增强编码-解码结构并以分层的方式堆叠而成,将步骤S1归一化处理后的样本数据输入到图增强堆叠自编码器中进行训练,获取到每个视图的表示Z(L,v);
步骤S3.2,随机初始化公共表示H,令全连接神经网络的输入为C(0,v)=H,从公共表示H中重构出每个单一视图的表示C(M,v),再根据图增强堆叠自编码器网络中学习到的表示Z(L ,v)、和表示C(M,v),通过最小化目标函数Jc,分别对全连接神经网络的参数公共表示H进行更新;
其中最小化目标函数Jc为:
步骤S3.3,重复步骤S3.1-S3.2,直至图增强堆叠自编码器网络收敛。
3.如权利要求2所述的一种基于分层图增强堆叠自编码器的多视图图像分类方法,其特征在于,步骤S3.1中,具体步骤为:
步骤S3.1.1,将步骤S1归一化处理后的样本数据输入到图增强堆叠自编码器进行分层预训练,直到最后一层预训练完成;
步骤S3.1.2,基于步骤S3.1.1预训练获得的参数,通过最小化微调目标函数,微调图增强堆叠自编码器的参数。
4.如权利要求3所述的一种基于分层图增强堆叠自编码器的多视图图像分类方法,其特征在于,步骤S3.1.1中,对于第v个视图来说,第l-1层学习到的表示Z(l-1,v)作为第l层的输入;第一层的输入为原始数据,即Z(0,v)=X(v);记第v个视图的第l层参数为Θae (l,v)={W* (l,v),b* (l,v)},*∈{e,d},其中表示第v个视图在自编码器的第l层编码部分的权重和偏置,表示第v个视图在自编码器的第l层解码部分的权重和偏置;;通过最小化目标函数,每个视图的第l层被预训练,直到最后一层预训练完成;
最小化目标函数为:
其中,第一项为重构损失,第二项为局部图正则化项,第三步为非局部图正则化项;Θae (l,v)为第v个视图在自编码器第l层的参数,λL和λN分别是局部和非局部正则化项的调节参数;tr()为矩阵的迹;Z(l-1,v)、Z(l,v)分别为第l-1、l层学习到的表示,Z(l-1,v)作为第l层的输入,为第l层输入Z(l-1,v)的重构,L+(l,v)=D+(l,v)-W+(l,v)是第v个视图第l层的局部结构拉普拉斯矩阵,D+(l,v)是第v个视图第l层的局部结构对角矩阵,该对角矩阵中的每个元素可表示为W+(l,v)是第v个视图第l层的局部结构权重矩阵,该权重矩阵中的每个元素可以表示为
6.如权利要求3所述的一种基于分层图增强堆叠自编码器的多视图图像分类方法,其特征在于,步骤S3.1.2中,最小化微调目标函数为:
7.一种基于分层图增强堆叠自编码器的多视图图像分类系统,其特征在于,包括:
样本采集模块,用于采集多视图样本χ={X(1),X(2),...,X(V)},并进行归一化处理;
构建模型模块,用于构建用于自编码器网络模型,自编码器网络模型包括自编码器和全连接神经网络;令第v个视图在自编码器的参数为在全连接神经网络中的参数为初始化所有视图在自编码器中的参数以及在全连接神经网络中的参数和公共表示H;
其中l表示自编码器的第l层,L表示自编码器的总层数;m表示全连接神经网络的第m层,M表示全连接神经网络的总层数;v表示第v个视图,V表示视图个数;表示第v个视图在自编码器的第l层编码部分的权重和偏置,表示第v个视图在自编码器的第l层解码部分的权重和偏置;表示第v个视图在全连接神经网络第m层中的权重和偏置;
模型训练模块,用于将样本采集模块归一化处理后的样本数据输入到自编码器网络模型中,样本数据输入自编码器并获取到每个视图的表示Z,全连接神经网络从初始化的公共表示H中重构出每个视图的表示C,全连接神经网络计算表示Z和表示C之间的损失,并优化、更新全连接神经网络的参数以及公共表示H,直至自编码器网络模型收敛;
实时分类模块,用于将实时多视图数据输入经模型训练模块训练后的自编码器网络模型中,得到实时的公共表示H,将公共表示H输入到分类器中,对实时多视图数据进行分类,得到分类结果。
8.一种计算机设备,其特征在于:包括存储器和处理器,所述存储器存储有计算机程序,所述计算机程序被所述处理器执行时,使得所述处理器执行如权利要求1至6中任一项所述方法的步骤。
9.一种计算机可读存储介质,其特征在于:存储有计算机程序,所述计算机程序被处理器执行时,使得所述处理器执行如权利要求1至6中任一项所述方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210578371.2A CN114882288B (zh) | 2022-05-25 | 2022-05-25 | 基于分层图增强堆叠自编码器的多视图图像分类方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210578371.2A CN114882288B (zh) | 2022-05-25 | 2022-05-25 | 基于分层图增强堆叠自编码器的多视图图像分类方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN114882288A true CN114882288A (zh) | 2022-08-09 |
CN114882288B CN114882288B (zh) | 2023-06-06 |
Family
ID=82678411
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210578371.2A Active CN114882288B (zh) | 2022-05-25 | 2022-05-25 | 基于分层图增强堆叠自编码器的多视图图像分类方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114882288B (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115187787A (zh) * | 2022-09-09 | 2022-10-14 | 清华大学 | 用于自监督多视图表征学习的局部流形增强的方法及装置 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20170068888A1 (en) * | 2015-09-09 | 2017-03-09 | Intel Corporation | Cost-sensitive classification with deep learning using cost-aware pre-training |
CN113111797A (zh) * | 2021-04-19 | 2021-07-13 | 杭州电子科技大学 | 一种结合自编码器与视角变换模型的跨视角步态识别方法 |
CN113705603A (zh) * | 2021-07-12 | 2021-11-26 | 北京邮电大学 | 不完整多视角数据的聚类方法、电子设备 |
-
2022
- 2022-05-25 CN CN202210578371.2A patent/CN114882288B/zh active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20170068888A1 (en) * | 2015-09-09 | 2017-03-09 | Intel Corporation | Cost-sensitive classification with deep learning using cost-aware pre-training |
CN113111797A (zh) * | 2021-04-19 | 2021-07-13 | 杭州电子科技大学 | 一种结合自编码器与视角变换模型的跨视角步态识别方法 |
CN113705603A (zh) * | 2021-07-12 | 2021-11-26 | 北京邮电大学 | 不完整多视角数据的聚类方法、电子设备 |
Non-Patent Citations (2)
Title |
---|
况逸群: "基于多视图投影的半监督手姿态估计算法" * |
沈项军,穆磊,查正军,苟建平,詹永照: "基于多重图像分割评价的图像对象定位方法" * |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115187787A (zh) * | 2022-09-09 | 2022-10-14 | 清华大学 | 用于自监督多视图表征学习的局部流形增强的方法及装置 |
CN115187787B (zh) * | 2022-09-09 | 2023-01-31 | 清华大学 | 用于自监督多视图表征学习的局部流形增强的方法及装置 |
Also Published As
Publication number | Publication date |
---|---|
CN114882288B (zh) | 2023-06-06 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109918671B (zh) | 基于卷积循环神经网络的电子病历实体关系抽取方法 | |
Xu et al. | Data-driven shape analysis and processing | |
CN109492666B (zh) | 图像识别模型训练方法、装置及存储介质 | |
WO2022105125A1 (zh) | 图像分割方法、装置、计算机设备及存储介质 | |
Bi et al. | A survey on evolutionary computation for computer vision and image analysis: Past, present, and future trends | |
CN112418292A (zh) | 一种图像质量评价的方法、装置、计算机设备及存储介质 | |
CN109389151A (zh) | 一种基于半监督嵌入表示模型的知识图谱处理方法和装置 | |
CN111666873A (zh) | 一种基于多任务深度学习网络的训练方法、识别方法及系统 | |
CN109508689B (zh) | 一种对抗强化的表情识别方法 | |
CN111325237A (zh) | 一种基于注意力交互机制的图像识别方法 | |
Talab et al. | A Novel Statistical Feature Analysis‐Based Global and Local Method for Face Recognition | |
CN114373224B (zh) | 基于自监督学习的模糊3d骨架动作识别方法及装置 | |
CN114882288A (zh) | 基于分层图增强堆叠自编码器的多视图图像分类方法 | |
CN113761262B (zh) | 图像的检索类别确定方法、系统以及图像检索方法 | |
CN113920210B (zh) | 基于自适应图学习主成分分析方法的图像低秩重构方法 | |
CN114494809A (zh) | 特征提取模型优化方法、装置及电子设备 | |
CN113688715A (zh) | 面部表情识别方法及系统 | |
Hazrati Fard et al. | Sparse representation using deep learning to classify multi-class complex data | |
CN108416389B (zh) | 基于降噪稀疏自动编码器和密度空间采样的图像分类方法 | |
CN110837804A (zh) | 一种稀疏混合字典学习的人脸鉴别方法 | |
Li et al. | Adaptive Weberfaces for occlusion‐robust face representation and recognition | |
Zhang et al. | Weighted score-level feature fusion based on Dempster–Shafer evidence theory for action recognition | |
CN114282060A (zh) | 一种基于上下文Transformer网络的细粒度视频-文本检索方法 | |
Kato et al. | Visual language modeling on cnn image representations | |
CN113326898B (zh) | 可鉴别几何保持自适应图嵌入方法、装置、设备及介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |