CN114882288B - 基于分层图增强堆叠自编码器的多视图图像分类方法 - Google Patents

基于分层图增强堆叠自编码器的多视图图像分类方法 Download PDF

Info

Publication number
CN114882288B
CN114882288B CN202210578371.2A CN202210578371A CN114882288B CN 114882288 B CN114882288 B CN 114882288B CN 202210578371 A CN202210578371 A CN 202210578371A CN 114882288 B CN114882288 B CN 114882288B
Authority
CN
China
Prior art keywords
view
encoder
representation
self
layer
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202210578371.2A
Other languages
English (en)
Other versions
CN114882288A (zh
Inventor
苟建平
谢楠楠
刘金华
王智
欧卫华
陈雯柏
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Jiangsu University
Original Assignee
Jiangsu University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Jiangsu University filed Critical Jiangsu University
Priority to CN202210578371.2A priority Critical patent/CN114882288B/zh
Publication of CN114882288A publication Critical patent/CN114882288A/zh
Application granted granted Critical
Publication of CN114882288B publication Critical patent/CN114882288B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/764Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/80Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
    • G06V10/806Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02TCLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
    • Y02T10/00Road transport of goods or passengers
    • Y02T10/10Internal combustion engine [ICE] based vehicles
    • Y02T10/40Engine management systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Computing Systems (AREA)
  • Software Systems (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Multimedia (AREA)
  • Medical Informatics (AREA)
  • Databases & Information Systems (AREA)
  • Biomedical Technology (AREA)
  • Mathematical Physics (AREA)
  • General Engineering & Computer Science (AREA)
  • Molecular Biology (AREA)
  • Data Mining & Analysis (AREA)
  • Computational Linguistics (AREA)
  • Biophysics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种基于分层图增强堆叠自编码器的多视图图像分类方法,涉及基于图增强的多视图图像分类方法及系统,其目的在于解决上述现有技术存在的无法提取多视图图像的各个视图的特征并将学习到的特征进行融合的技术问题。本发明提出一种基于分层图增强堆叠自编码器的多视图图像分类方法及系统,考虑到多视图数据的几何结构以及不同视图之间的互补性和一致性;一个分层的图结构被引入到自编码器中去学习特定视图的表示,保持了多视图数据的局部和非局部的几何结构;在学习到具有几何结构特性的各个视图的特征表示后,通过使用全连接神经网络重构出每个单一视图,公共表示能够被学习;还能自动平衡多个视图之间的互补性和一致性。

Description

基于分层图增强堆叠自编码器的多视图图像分类方法
技术领域
本发明属于图像分类技术领域,尤其涉及多视图图像分类技术领域,更具体的是涉及一种基于图增强的多视图图像分类方法。
背景技术
随着深度学习的快速发展,各种各样的深度模型被提出。自编码器(AE)作为最具代表性的深度学习算法之一,已成功应用于计算机视觉、语音识别和自然语言处理等诸多领域。自编码器是一种无监督学习的方法,其目的是最小化输入和相应的重构输出之间的重构误差。基于原始数据的几何结构在特征表示中的重要作用,一些流形学习算法被引入到自编码器中。例如,NLSP-SAE考虑到数据的非局部和局部的几何结构,确保了在原始空间中相邻的样本在重构空间中离得更近,不相邻的样本离得更远。然而,在视觉任务中,有时仅使用单个视图是不能满足需求的。因此,多视图的概念被引出,即对于同一事物可以从不同的途径或不同的角度对其进行描述。例如,同一个物体从不同角度拍摄的图片;同一语义的不同语言的表达;即使是对于同一张图片,也可以采取不同的特征提取方式构成多个视图。近年来,随着多视图数据在实际中的广泛应用,多视图表示学习受到了广泛的关注。与单视图表示学习不同,多视图表示学习的关键是从不同的视图中学习一个公共表示。其中,自编码器也被引入到多视图表示学习中。AE2-Nets考虑多视图表示学习过程中多视图数据的相关性和互补性,通过使用嵌套的自编码器框架将来自异构数据源的信息集成到完整的表示中,并且自动地平衡了不同视图之间的一致性和互补性。
随着科技的不断进步,图像分类在很多领域有广泛应用。包括安防领域的人脸识别和智能视频分析,以及医学领域的图像识别等。图像分类是计算机视觉中重要的基本问题,也是图像检测、图像分割、物体跟踪、行为识别等其他高层视觉任务的基础。然而,传统的单一视图的数据已经不能满足当前图像分类的需求,需要一种适用于多视图图像分类的方法。所谓的多视图图像,是指由同一目标对象的不同视角图像构成的,其对目标对象的表述比传统的单视图图像更加形象。多视图图像分类是从多个视角对整个图像进行描述,然后使用分类器判别物体类别。因此如何提取各个视图的特征以及将学习到的各个视图的特征加以融合是至关重要的。
发明内容
本发明的目的在于:为了解决上述现有技术存在的无法提取多视图图像的各个视图的特征并将学习到的特征进行融合的技术问题,本发明提供一种基于分层图增强堆叠自编码器的多视图图像分类方法。
本发明为了实现上述目的具体采用以下技术方案:
一种基于分层图增强堆叠自编码器的多视图图像分类方法,包括如下步骤:
步骤S1,样本采集
采集多视图样本χ={X(1),X(2),...,X(V)},并进行归一化处理;
其中
Figure BDA0003661392290000021
N为样本个数,dv为第v个视图的维度,V表示视图个数;
步骤S2,构建模型
构建用于自编码器网络模型,自编码器网络模型包括自编码器和全连接神经网络;令第v个视图在自编码器的参数为
Figure BDA0003661392290000022
在全连接神经网络中的参数为/>
Figure BDA0003661392290000023
初始化所有视图在自编码器中的参数
Figure BDA0003661392290000024
以及在全连接神经网络中的参数/>
Figure BDA0003661392290000025
和公共表示H;
其中l表示自编码器的第l层,L表示自编码器的总层数;m表示全连接神经网络的第m层,M表示全连接神经网络的总层数;v表示第v个视图,V表示视图个数;
Figure BDA0003661392290000031
表示第v个视图在自编码器的第I层编码部分的权重和偏置,/>
Figure BDA0003661392290000032
表示第v个视图在自编码器的第I层解码部分的权重和偏置;/>
Figure BDA0003661392290000033
表示第v个视图在全连接神经网络第m层中的权重和偏置;
步骤S3,模型训练
将步骤S1归一化处理后的样本数据输入到自编码器网络模型中,样本数据输入自编码器并获取到每个视图的表示Z,全连接神经网络从初始化的公共表示H中重构出每个视图的表示C,全连接神经网络计算表示Z和表示C之间的损失,并优化、更新全连接神经网络的参数以及公共表示H,直至自编码器网络模型收敛;
步骤S4,实时分类
将实时多视图数据输入经步骤S3训练后的自编码器网络模型中,得到实时的公共表示H,将公共表示H输入到分类器中,对实时多视图数据进行分类,得到分类结果。
作为优选,步骤S3包括:
步骤S3.1,自编码器网络模型中的编码器为图增强堆叠自编码器,图增强堆叠自编码器包括多个图增强编码-解码结构并以分层的方式堆叠而成,将步骤S1归一化处理后的样本数据输入到图增强堆叠自编码器中进行训练,获取到每个视图的表示Z(L,v)
步骤S3.2,随机初始化公共表示H,令全连接神经网络的输入为C(0,v)=H,从公共表示H中重构出每个单一视图的表示C(M,v),再根据图增强堆叠自编码器网络中学习到的表示Z(L,v)、和表示C(M,v),通过最小化目标函数Jc,分别对全连接神经网络的参数
Figure BDA0003661392290000034
公共表示H进行更新;
其中最小化目标函数Jc为:
Figure BDA0003661392290000041
步骤S3.3,重复步骤S3.1-S3.2,直至图增强堆叠自编码器网络收敛。
作为优选,步骤S3.1中,具体步骤为:
步骤S3.1.1,将步骤S1归一化处理后的样本数据输入到图增强堆叠自编码器进行分层预训练,直到最后一层预训练完成;
步骤S3.1.2,基于步骤S3.1.1预训练获得的参数,通过最小化微调目标函数,微调图增强堆叠自编码器的参数。
作为优选,步骤S3.1.1中,步骤S3.1.1中,对于第v个视图来说,第l一1层学习到的表示Z(l-1,v)作为第l层的输入;第一层的输入为原始数据,即Z(0,v)=X(v);记第v个视图的第l层参数为Θae (l,v)={W* (l,v),b* (l,v)}*∈{e,d},其中
Figure BDA0003661392290000042
表示第v个视图在自编码器的第I层编码部分的权重和偏置,/>
Figure BDA0003661392290000043
表示第v个视图在自编码器的第I层解码部分的权重和偏置;;通过最小化目标函数,每个视图的第l层被预训练,直到最后一层预训练完成;
最小化目标函数为:
Figure BDA0003661392290000044
其中,第一项为重构损失,第二项为局部图正则化项,第三步为非局部图正则化项;Θae (l,v)为第v个视图在自编码器第l层的参数,λL和λN分别是局部和非局部正则化项的调节参数;tr()为矩阵的迹;Z(l-1,v)、Z(l,v)分别为第l-1、l层学习到的表示,Z(l-1,v)作为第l层的输入,
Figure BDA0003661392290000045
为第l层输入Z(l-1,v)的重构,L+(l,v)=D+(l,v)-W+(l,v)是第v个视图第l层的局部结构拉普拉斯矩阵,D+(l,v)是第v个视图第l层的局部结构对角矩阵,该对角矩阵中的每个元素可表示为/>
Figure BDA0003661392290000051
W+(l,v)是第v个视图第l层的局部结构权重矩阵,该权重矩阵中的每个元素可以表示为/>
Figure BDA0003661392290000052
L-(l,v)=D-(l,v)-W-(l,v)是第v个视图第l层的非局部结构拉普拉斯矩阵,D-(l,v)是第v个视图第l层的非局部结构对角矩阵,该对角矩阵中的每个元素可以表示为/>
Figure BDA0003661392290000053
W-(l,v)是第v个视图第l层的非局部结构权重矩阵,该权重矩阵中的每个元素可以表示为/>
Figure BDA0003661392290000054
给定第v个视图的第l层的输入Z(l-1,v),对于每个视图来说,我们使用K近邻方法构造样本表示点的局部邻接图;也就是说,对于每个表示点,通过计算欧氏距离来选择最近的K个表示点作为它的邻居点去构造邻接图。
5.如权利要求4所述的一种基于分层图增强堆叠自编码器的多视图图像分类方法,其特征在于,第v个视图的第l层输入的第i个表示点zi (l-1,v)(i=1,...N,N为总样本数)和它的邻居点zj (l-1,v)之间的权重
Figure BDA0003661392290000055
通过热核函数计算:/>
Figure BDA0003661392290000056
其中,
Figure BDA0003661392290000057
是输入的第i个表示点zi (l-1,v)的K个近邻点的集合,t是调节参数;
同样地,在选取了K个邻居点后,剩下的点作为zi (l-1,v)的非邻居点去构造非邻接图;zi (l-1,v)和它的非邻居点zj (l-1,v)之间的权重
Figure BDA0003661392290000061
通过热核函数计算:
Figure BDA0003661392290000062
关于邻居点与非邻居点都采用了Zj (l-1,v)进行表示,在Zj (l-1,v)中j的范围为1-N,N为总样本数,当分别表示邻居点和非邻居点时,j的取值是不同的;当j的值为1-k(k为邻居节点的个数)时,表示的是邻居节点;当j的值为k+1-N时,表示的是非邻居节点。
作为优选,步骤S3.1.2中,最小化微调目标函数为:
Figure BDA0003661392290000063
其中,λ是平衡参数,X(v)是输入的第v个视图,
Figure BDA0003661392290000064
是第v个视图原始输入数据的重构,V表示视图个数,Z(L,v)是学习到的每个视图的最终表示,C(M,v)是从公共表示中重构出来的视图表示;第一项为原始输入和重构输出的重构损失,第二项为最深层的表示和从公共表示中重构出来的表示之间的重构损失;值得注意的是,最深层的表示和从公共表示中重构出来的表示之间的重构损失也被用于去约束图增强堆叠自编码器的微调过程;当全连接神经网络的参数和公共表示被训练后,也被反过来去约束图增强堆叠自编码器的参数的优化。
一种基于分层图增强堆叠自编码器的多视图图像分类系统,包括:
样本采集模块,用于采集多视图样本χ={X(1),X(2),...,X(V)},并进行归一化处理;
其中
Figure BDA0003661392290000071
N为样本个数,dv为第v个视图的维度,V表示视图个数;
构建模型模块,用于构建自编码器网络模型,自编码器网络模型包括自编码器和全连接神经网络;令第v个视图在自编码器的参数为
Figure BDA0003661392290000072
在全连接神经网络中的参数为/>
Figure BDA0003661392290000073
初始化所有视图在自编码器中的参数/>
Figure BDA0003661392290000074
以及在全连接神经网络中的参数/>
Figure BDA0003661392290000075
和公共表示H;
其中l表示自编码器的第l层,L表示自编码器的总层数;m表示全连接神经网络的第m层,M表示全连接神经网络的总层数;v表示第v个视图,V表示视图个数;
Figure BDA0003661392290000076
表示第v个视图在自编码器的第I层编码部分的权重和偏置,/>
Figure BDA0003661392290000077
表示第v个视图在自编码器的第I层解码部分的权重和偏置;/>
Figure BDA0003661392290000078
表示第v个视图在全连接神经网络第m层中的权重和偏置;
模型训练模块,用于将样本采集模块归一化处理后的样本数据输入到自编码器网络模型中,样本数据输入自编码器并获取到每个视图的表示Z,全连接神经网络从初始化的公共表示H中重构出每个视图的表示C,全连接神经网络计算表示Z和表示C之间的损失,并优化、更新全连接神经网络的参数以及公共表示H,直至自编码器网络模型收敛;
实时分类模块,用于将实时多视图数据输入经模型训练模块训练后的自编码器网络模型中,得到实时的公共表示H,将公共表示H输入到分类器中,对实时多视图数据进行分类,得到分类结果。
一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,所述计算机程序被所述处理器执行时,使得所述处理器执行上述基于分层图增强堆叠自编码器的多视图图像分类方法的步骤。
一种计算机可读存储介质,存储有计算机程序,所述计算机程序被处理器执行时,使得所述处理器执行上述基于分层图增强堆叠自编码器的多视图图像分类方法的步骤。
本发明的有益效果如下:
本发明提出了一种基于分层图增强堆叠自编码器的多视图图像分类方法,考虑到多视图数据的几何结构以及不同视图之间的互补性和一致性;一个分层的图结构被引入到自编码器中去学习特定视图的表示,保持了多视图数据的局部和非局部的几何结构;在学习到具有几何结构特性的各个视图的特征表示后,通过使用全连接神经网络重构出每个单一视图,公共表示能够被学习;因此,针对多视图图像分类问题发明的分层图增强堆叠自编码器不仅能够保持多视图数据的几何结构,还能自动平衡多个视图之间的互补性和一致性。
附图说明
图1是本发明的流程示意图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。通常在此处附图中描述和示出的本发明实施例的组件可以以各种不同的配置来布置和设计。
因此,以下对在附图中提供的本发明的实施例的详细描述并非旨在限制要求保护的本发明的范围,而是仅仅表示本发明的选定实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
实施例1
如图1所示,本实施例提供了一种基于分层图增强堆叠自编码器的多视图图像分类方法,包括如下步骤:
步骤S1,样本采集
采集多视图样本χ={X(1),X(2),...,X(V)},并进行归一化处理;
其中
Figure BDA0003661392290000091
N为样本个数,dv为第v个视图的维度,V表示视图个数;
步骤S2,构建模型
构建自编码器网络模型,自编码器网络模型包括自编码器和全连接神经网络;令第v个视图在自编码器的参数为
Figure BDA0003661392290000092
在全连接神经网络中的参数为/>
Figure BDA0003661392290000093
初始化所有视图在自编码器中的参数
Figure BDA0003661392290000094
以及在全连接神经网络中的参数/>
Figure BDA0003661392290000095
和公共表示H:
其中l表示自编码器的第l层,L表示自编码器的总层数;m表示全连接神经网络的第m层,M表示全连接神经网络的总层数;v表示第v个视图,V表示视图个数;
Figure BDA0003661392290000096
表示第v个视图在自编码器的第I层编码部分的权重和偏置,/>
Figure BDA0003661392290000097
表示第v个视图在自编码器的第I层解码部分的权重和偏置;/>
Figure BDA0003661392290000098
表示第v个视图在全连接神经网络第m层中的权重和偏置;
步骤S3,模型训练
将步骤S1归一化处理后的样本数据输入到自编码器网络模型中,样本数据输入自编码器并获取到每个视图的表示Z,全连接神经网络从初始化的公共表示H中重构出每个视图的表示C,全连接神经网络计算表示Z和表示C之间的损失,并优化、更新全连接神经网络的参数以及公共表示H,直至自编码器网络模型收敛;
该模型训练分为图增强特定视图的表示学习和公共表示学习两个步骤,具体如下:
步骤S3.1,为了能够在保持数据的局部和非局部几何结构的同时,获取多视图数据深层结构的特性,本实施例设计了图增强堆叠自编码器。即该自编码器网络模型中的编码器为图增强堆叠自编码器,图增强堆叠自编码器包括多个图增强编码-解码结构并以分层的方式堆叠而成,将步骤S1归一化处理后的样本数据输入到图增强堆叠自编码器中进行训练,获取到每个视图的表示Z(L,v)
图增强特定视图的表示学习包括层层预训练阶段和微调阶段,具体如下:
步骤S3.1.1,将步骤S1归一化处理后的样本数据输入到图增强堆叠自编码器进行分层预训练,直到最后一层预训练完成;
步骤S3.1.1中,预训练阶段,将给定的多视图数据输入到图增强堆叠自编码器中进行分层预训练。对于第v个视图来说,第l-1层学习到的表示Z(l-1,v)作为第l层的输入;第一层的输入为原始数据,即Z(0,v)=X(v);记第v个视图的第l层参数为Θae (l,v)={W* (l,v),b* (l,v)},*∈{e,d},其中
Figure BDA0003661392290000101
表示第v个视图在自编码器的第I层编码部分的权重和偏置,/>
Figure BDA0003661392290000102
表示第v个视图在自编码器的第I层解码部分的权重和偏置;;通过最小化目标函数,每个视图的第l层被预训练,直到最后一层预训练完成;
最小化目标函数为:
Figure BDA0003661392290000103
其中,第一项为重构损失,第二项为局部图正则化项,第三步为非局部图正则化项;Θae (l,v)为第v个视图在自编码器第l层的参数,λL和λN分别是局部和非局部正则化项的调节参数;tr()为矩阵的迹;Z(l-1,v)、Z(l,v)分别为第l-1、l层学习到的表示,Z(l-1,v)作为第l层的输入,
Figure BDA0003661392290000111
为第l层输入Z(l-1,v)的重构,L+(l,v)=D+(l,v)-W+(l,v)是第v个视图第l层的局部结构拉普拉斯矩阵,D+(l,v)是第v个视图第l层的局部结构对角矩阵,该对角矩阵中的每个元素可表示为/>
Figure BDA0003661392290000118
W+(l,v)是第v个视图第l层的局部结构权重矩阵,该权重矩阵中的每个元素可以表示为/>
Figure BDA0003661392290000112
L-(l,v)=D-(l,v)-W-(l,v)是第v个视图第l层的非局部结构拉普拉斯矩阵,D-(l,v)是第v个视图第l层的非局部结构对角矩阵,该对角矩阵中的每个元素可以表示为/>
Figure BDA0003661392290000113
W-(l,v)是第v个视图第l层的非局部结构权重矩阵,该权重矩阵中的每个元素可以表示为/>
Figure BDA0003661392290000114
给定第v个视图的第l层的输入Z(l-1,v),对于每个视图来说,我们使用K近邻方法构造样本表示点的局部邻接图;也就是说,对于每个表示点,通过计算欧氏距离来选择最近的K个表示点作为它的邻居点去构造邻接图。
第v个视图的第l层输入的第i个表示点zi (l-1,v)(i=1,…N,N为总样本数)和它的邻居点zj (l-1,v)之间的权重
Figure BDA0003661392290000115
通过热核函数计算:/>
Figure BDA0003661392290000116
其中,
Figure BDA0003661392290000117
是输入的第i个表示点zi (l-1,v)的K个近邻点的集合,t是调节参数;
同样地,在选取了K个邻居点后,剩下的点作为zi (l-1,v)的非邻居点去构造非邻接图;zi (l-1,v)和它的非邻居点zj (l-1,v)之间的权重
Figure BDA0003661392290000121
通过热核函数计算:
Figure BDA0003661392290000122
关于邻居点与非邻居点都采用了zj (l-1,v)进行表示,在zj (l-1,v)中j的范围为1-N,N为总样本数,当分别表示邻居点和非邻居点时,j的取值是不同的;当j的值为1-k(k为邻居节点的个数)时,表示的是邻居节点;当j的值为k+1-N时,表示的是非邻居节点。
步骤S3.1.2,微调阶段,基于步骤S3.1.1预训练获得的参数被用作微调阶段的初始权重,使用最深层的表示Z(L,v)去重构原始的输入;通过最小化微调目标函数,微调图增强堆叠自编码器的参数。
步骤S3.1.2中,最小化微调目标函数为:
Figure BDA0003661392290000123
其中,λ是平衡参数,X(v)是输入的第v个视图,
Figure BDA0003661392290000124
是第v个视图原始输入数据的重构,V表示视图个数,Z(L,v)是学习到的每个视图的最终表示,C(M,v)是从公共表示中重构出来的视图表示;第一项为原始输入和重构输出的重构损失,第二项为最深层的表示和从公共表示中重构出来的表示之间的重构损失;值得注意的是,最深层的表示和从公共表示中重构出来的表示之间的重构损失也被用于去约束图增强堆叠自编码器的微调过程;当全连接神经网络的参数和公共表示被训练后,也被反过来去约束图增强堆叠自编码器的参数的优化。
步骤S3.2,公共表示学习,基于在图增强堆叠自编码器中学习到的特定视图的表示,我们旨在于将他们编码成一个公共的表示
Figure BDA0003661392290000131
dH是H的维度。假设通过使用具有M层的全连接神经网络,每个单一视图都能够从公共表示中重构出来,记全连接神经网络中所有的参数为/>
Figure BDA0003661392290000132
步骤S3.2,随机初始化公共表示H,令全连接神经网络的输入为C(0,v)=H,从公共表示H中重构出每个单一视图的表示C(M,v),再根据图增强堆叠自编码器网络中学习到的表示Z(L,v)、和表示C(M,v),通过最小化目标函数Jc,分别对全连接神经网络的参数/>
Figure BDA0003661392290000133
公共表示H进行更新‘
其中最小化目标函数Jc为:
Figure BDA0003661392290000134
步骤S3.3,重复步骤S3.1-S3.2,直至图增强堆叠自编码器网络收敛。
训练数据集为100Leaves图像数据集,该数据集包含100中不同的树叶图像,每类树叶的图像数量为16张,共计1600张树叶图像,形状描述和纹理直方图特征被选为两个视图作为输入数据。随机选取数据集的80%作为训练集,20%作为测试集,使用KNN作为分类器。基于图自编码器的单视图方法在100Leaves数据集的两个视图上的精度分别为85.62%和86.87%;基于自编码器的多视图方法在该数据集上的精度为94.16%。而本实施例中的分层图增强堆叠自编码器在100Leaves数据集上的精度为96.23%,相比基于图自编码器的单视图方法和基于自编码器的多视图方法,本申请的方法有了明显的提升,验证了所提方法的有效性。
步骤S4,实时分类
将实时多视图数据输入经步骤S3训练后的自编码器网络模型中,得到实时的公共表示H,将公共表示H输入到分类器中,对实时多视图数据进行分类,得到分类结果。
实施例2
本实施例还提供一种基于分层图增强堆叠自编码器的多视图图像分类系统,包括样本采集模块、构建模型模型、模型训练模块、实时分类模块,具体为:
样本采集模块,用于采集多视图样本χ={X(1),X(2),...,X(V)},并进行归一化处理;
其中
Figure BDA0003661392290000141
N为样本个数,dv为第v个视图的维度,V表示视图个数;
构建模型模型,用于构建自编码器网络模型,自编码器网络模型包括自编码器和全连接神经网络;令第v个视图在自编码器的参数为
Figure BDA0003661392290000142
在全连接神经网络中的参数为
Figure BDA0003661392290000143
初始化所有视图在自编码器中的参数/>
Figure BDA0003661392290000144
以及在全连接神经网络中的参数/>
Figure BDA0003661392290000145
和公共表示H;
其中l表示自编码器的第l层,L表示自编码器的总层数;m表示全连接神经网络的第m层,M表示全连接神经网络的总层数;v表示第v个视图,V表示视图个数;
Figure BDA0003661392290000146
表示第v个视图在自编码器的第I层编码部分的权重和偏置,/>
Figure BDA0003661392290000147
表示第v个视图在自编码器的第I层解码部分的权重和偏置;/>
Figure BDA0003661392290000148
表示第v个视图在全连接神经网络第m层中的权重和偏置;/>
模型训练模块,用于将步骤S1归一化处理后的样本数据输入到自编码器网络模型中,样本数据输入自编码器并获取到每个视图的表示Z,全连接神经网络从初始化的公共表示H中重构出每个视图的表示C,全连接神经网络计算表示Z和表示C之间的损失,并优化、更新全连接神经网络的参数以及公共表示H,直至自编码器网络模型收敛;
该模型训练分为图增强特定视图的表示学习和公共表示学习两个步骤,具体如下:
为了能够在保持数据的局部和非局部几何结构的同时,获取多视图数据深层结构的特性,本实施例设计了图增强堆叠自编码器。即该自编码器网络模型中的编码器为图增强堆叠自编码器,图增强堆叠自编码器包括多个图增强编码-解码结构并以分层的方式堆叠而成,将步骤S1归一化处理后的样本数据输入到图增强堆叠自编码器中进行训练,获取到每个视图的表示Z(L,v)
图增强特定视图的表示学习包括层层预训练阶段和微调阶段,具体如下:
将样本采集模块归一化处理后的样本数据输入到图增强堆叠自编码器进行分层预训练,直到最后一层预训练完成;
预训练阶段,将给定的多视图数据输入到图增强堆叠自编码器中进行分层预训练。对于第v个视图来说,第l-1层学习到的表示Z(l-1,v)作为第l层的输入;第一层的输入为原始数据,即Z(0,v)=X(v);记第v个视图的第l层参数为Θae (l,v)={W* (l,v),b* (l,v)},*∈{e,d},其中
Figure BDA0003661392290000151
表示第v个视图在自编码器的第I层编码部分的权重和偏置,/>
Figure BDA0003661392290000152
表示第v个视图在自编码器的第I层解码部分的权重和偏置;;通过最小化目标函数,每个视图的第l层被预训练,直到最后一层预训练完成;
最小化目标函数为:
Figure BDA0003661392290000153
其中,第一项为重构损失,第二项为局部图正则化项,第三步为非局部图正则化项;Θae (l,v)为第v个视图在自编码器第l层的参数,λL和λN分别是局部和非局部正则化项的调节参数;tr()为矩阵的迹;Z(l-1,v)、Z(l,v)分别为第l一1、l层学习到的表示,Z(l-1,v)作为第l层的输入,
Figure BDA0003661392290000161
为第l层输入Z(l-1,v)的重构,L+(l,v)=D+(l,v)-W+(l,v)是第v个视图第l层的局部结构拉普拉斯矩阵,D+(l,v)是第v个视图第l层的局部结构对角矩阵,该对角矩阵中的每个元素可表示为/>
Figure BDA0003661392290000162
W+(l,v)是第v个视图第l层的局部结构权重矩阵,该权重矩阵中的每个元素可以表示为/>
Figure BDA0003661392290000163
L-(l,v)=D-(l,v)-W-(l,v)是第v个视图第l层的非局部结构拉普拉斯矩阵,D-(l,v)是第v个视图第l层的非局部结构对角矩阵,该对角矩阵中的每个元素可以表示为/>
Figure BDA0003661392290000164
W-(l,v)是第v个视图第l层的非局部结构权重矩阵,该权重矩阵中的每个元素可以表示为/>
Figure BDA0003661392290000165
给定第v个视图的第l层的输入Z(l-1,v),对于每个视图来说,我们使用K近邻方法构造样本表示点的局部邻接图;也就是说,对于每个表示点,通过计算欧氏距离来选择最近的K个表示点作为它的邻居点去构造邻接图。
第v个视图的第l层输入的第i个表示点zi (l-1,v)(i=1,…N,N为总样本数)和它的邻居点zj (l-1,v)之间的权重
Figure BDA0003661392290000166
通过热核函数计算:
Figure BDA0003661392290000167
其中,
Figure BDA0003661392290000168
是输入的第i个表示点zi (l-1,v)的K个近邻点的集合,t是调节参数;
同样地,在选取了K个邻居点后,剩下的点作为zi (l-1,v)的非邻居点去构造非邻接图;zi (l-1,v)和它的非邻居点zj (l-1,v)之间的权重
Figure BDA0003661392290000171
通过热核函数计算:
Figure BDA0003661392290000172
关于邻居点与非邻居点都采用了zj (l-1,v)进行表示,在zj (l-1,v)中j的范围为1-N,N为总样本数,当分别表示邻居点和非邻居点时,j的取值是不同的;当j的值为1-k(k为邻居节点的个数)时,表示的是邻居节点;当j的值为k+1-N时,表示的是非邻居节点。
微调阶段,基于步骤S3.1.1预训练获得的参数被用作微调阶段的初始权重,使用最深层的表示Z(L,v)去重构原始的输入;通过最小化微调目标函数,微调图增强堆叠自编码器的参数。
最小化微调目标函数为:
Figure BDA0003661392290000173
其中,λ是平衡参数,X(v)是输入的第v个视图,
Figure BDA0003661392290000174
是第v个视图原始输入数据的重构,V表示视图个数,Z(L,v)是学习到的每个视图的最终表示,C(M,v)是从公共表示中重构出来的视图表示;第一项为原始输入和重构输出的重构损失,第二项为最深层的表示和从公共表示中重构出来的表示之间的重构损失;值得注意的是,最深层的表示和从公共表示中重构出来的表示之间的重构损失也被用于去约束图增强堆叠自编码器的微调过程;当全连接神经网络的参数和公共表示被训练后,也被反过来去约束图增强堆叠自编码器的参数的优化。
公共表示学习,基于在图增强堆叠自编码器中学习到的特定视图的表示,我们旨在于将他们编码成一个公共的表示
Figure BDA0003661392290000181
dH是H的维度。假设通过使用具有M层的全连接神经网络,每个单一视图都能够从公共表示中重构出来,记全连接神经网络中所有的参数为/>
Figure BDA0003661392290000182
随机初始化公共表示H,令全连接神经网络的输入为C(0,v)=H,从公共表示H中重构出每个单一视图的表示C(M,v),再根据图增强堆叠自编码器网络中学习到的表示Z(L,v)、和表示C(M,v),通过最小化目标函数Jc,分别对全连接神经网络的参数/>
Figure BDA0003661392290000183
公共表示H进行更新;
其中最小化目标函数Jc为:
Figure BDA0003661392290000184
重复训练,直至图增强堆叠自编码器网络收敛。
训练数据集为100Leaves图像数据集,该数据集包含100中不同的树叶图像,每类树叶的图像数量为16张,共计1600张树叶图像,形状描述和纹理直方图特征被选为两个视图作为输入数据。随机选取数据集的80%作为训练集,20%作为测试集,使用KNN作为分类器。基于图自编码器的单视图方法在100Leaves数据集的两个视图上的精度分别为85.62%和86.87%;基于自编码器的多视图方法在该数据集上的精度为94.16%。而本实施例中的分层图增强堆叠自编码器在100Leaves数据集上的精度为96.23%,相比基于图自编码器的单视图方法和基于自编码器的多视图方法,本申请的方法有了明显的提升,验证了所提方法的有效性。
实时分类模块,用于将实时多视图数据输入经步骤S3训练后的自编码器网络模型中,得到实时的公共表示H,将公共表示H输入到分类器中,对实时多视图数据进行分类,得到分类结果。
实施例3
本实施例还提供了一种计算机设备,包括存储器和处理器,存储器中存储有计算机程序,计算机程序被处理器执行时,使得处理器执行上述基于分层图增强堆叠自编码器的多视图图像分类方法的步骤。
其中,所述计算机设备可以是桌上型计算机、笔记本、掌上电脑及云端服务器等计算设备。所述计算机设备可以与用户通过键盘、鼠标、遥控器、触摸板或声控设备等方式进行人机交互。
所述存储器至少包括一种类型的可读存储介质,所述可读存储介质包括闪存、硬盘、多媒体卡、卡型存储器(例如,SD或D界面显示存储器等)、随机访问存储器(RAM)、静态随机访问存储器(SRAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、可编程只读存储器(PROM)、磁性存储器、磁盘、光盘等。在一些实施例中,所述存储器可以是所述计算机设备的内部存储单元,例如该计算机设备的硬盘或内存。在另一些实施例中,所述存储器也可以是所述计算机设备的外部存储设备,例如该计算机设备上配备的插接式硬盘,智能存储卡(Smart Media Card,SMC),安全数字(Secure Digital,SD)卡,闪存卡(Flash Card)等。当然,所述存储器还可以既包括所述计算机设备的内部存储单元也包括其外部存储设备。本实施例中,所述存储器常用于存储安装于所述计算机设备的操作系统和各类应用软件,例如运行所述基于分层图增强堆叠自编码器的多视图图像分类方法的程序代码等。此外,所述存储器还可以用于暂时地存储已经输出或者将要输出的各类数据。
所述处理器在一些实施例中可以是中央处理器(Central Processing Unit,CPU)、控制器、微控制器、微处理器、或其他数据处理芯片。该处理器通常用于控制所述计算机设备的总体操作。本实施例中,所述处理器用于运行所述存储器中存储的程序代码或者处理数据,例如运行所述基于分层图增强堆叠自编码器的多视图图像分类方法的程序代码。
实施例4
本实施例还提供了一种计算机可读存储介质,存储有计算机程序,计算机程序被处理器执行时,使得处理器执行上述基于分层图增强堆叠自编码器的多视图图像分类方法的步骤。
其中,所述计算机可读存储介质存储有界面显示程序,所述界面显示程序可被至少一个处理器执行,以使所述至少一个处理器执行基于分层图增强堆叠自编码器的多视图图像分类方法的步骤。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中,包括若干指令用以使得一台终端设备(可以是手机,计算机,服务器或者网络设备等)执行本申请各个实施例所述的方法。

Claims (6)

1.一种基于分层图增强堆叠自编码器的多视图图像分类方法,其特征在于,包括如下步骤:
步骤S1,样本采集;
采集多视图样本
Figure QLYQS_1
,并进行归一化处理;
其中
Figure QLYQS_2
,N为样本个数,/>
Figure QLYQS_3
为第v个视图的维度,V表示视图个数;
步骤S2,构建模型;
构建自编码器网络模型,自编码器网络模型包括自编码器和全连接神经网络;令第v个视图在自编码器的参数为
Figure QLYQS_4
,在全连接神经网络中的参数为/>
Figure QLYQS_5
,初始化所有视图在自编码器中的参数/>
Figure QLYQS_6
、以及在全连接神经网络中的参数/>
Figure QLYQS_7
和公共表示H;
其中
Figure QLYQS_8
表示自编码器的第/>
Figure QLYQS_9
层,L表示自编码器的总层数;m表示全连接神经网络的第m层,M表示全连接神经网络的总层数;v表示第v个视图,V表示视图个数;/>
Figure QLYQS_10
表示第v个视图在自编码器的第l层编码部分的权重和偏置,/>
Figure QLYQS_11
表示第v个视图在自编码器的第l层解码部分的权重和偏置;/>
Figure QLYQS_12
表示第v个视图在全连接神经网络第m层中的权重和偏置;
步骤S3,模型训练;
将步骤S1归一化处理后的样本数据输入到自编码器网络模型中,样本数据输入自编码器并获取到每个视图的表示Z,全连接神经网络从初始化的公共表示H中重构出每个视图的表示C,全连接神经网络计算表示Z和表示C之间的损失,并优化、更新全连接神经网络的参数以及公共表示H,直至自编码器网络模型收敛;
步骤S4,实时分类;
将实时多视图数据输入经步骤S3训练后的自编码器网络模型中,得到实时的公共表示H,将公共表示H输入到分类器中,对实时多视图数据进行分类,得到分类结果;
步骤S3包括:
步骤S3.1,自编码器网络模型中的编码器为图增强堆叠自编码器,图增强堆叠自编码器包括多个图增强编码-解码结构并以分层的方式堆叠而成,将步骤S1归一化处理后的样本数据输入到图增强堆叠自编码器中进行训练,获取到每个视图的表示
Figure QLYQS_13
步骤S3.2,随机初始化公共表示H,令全连接神经网络的输入为
Figure QLYQS_14
,从公共表示H中重构出每个单一视图的表示/>
Figure QLYQS_15
,再根据图增强堆叠自编码器网络中学习到的表示
Figure QLYQS_16
、和表示/>
Figure QLYQS_17
,通过最小化目标函数/>
Figure QLYQS_18
,分别对全连接神经网络的参数
Figure QLYQS_19
、公共表示H进行更新;/>
其中最小化目标函数
Figure QLYQS_20
为:
Figure QLYQS_21
步骤S3.3,重复步骤S3.1-S3.2,直至图增强堆叠自编码器网络收敛;
步骤S3.1中,具体步骤为:
步骤S3.1.1,将步骤S1归一化处理后的样本数据输入到图增强堆叠自编码器进行分层预训练,直到最后一层预训练完成;
步骤S3.1.2,基于步骤S3.1.1预训练获得的参数,通过最小化微调目标函数,微调图增强堆叠自编码器的参数;
步骤S3.1.1中,对于第
Figure QLYQS_23
个视图来说,第/>
Figure QLYQS_25
层学习到的表示/>
Figure QLYQS_29
作为第/>
Figure QLYQS_24
层的输入;第一层的输入为原始数据,即/>
Figure QLYQS_31
;记第/>
Figure QLYQS_32
个视图的第/>
Figure QLYQS_33
层参数为
Figure QLYQS_22
,/>
Figure QLYQS_27
,其中/>
Figure QLYQS_28
表示第v个视图在自编码器的第l层编码部分的权重和偏置,/>
Figure QLYQS_30
表示第v个视图在自编码器的第l层解码部分的权重和偏置;通过最小化目标函数,每个视图的第/>
Figure QLYQS_26
层被预训练,直到最后一层预训练完成;
最小化目标函数为:
Figure QLYQS_34
其中,第一项为重构损失,第二项为局部图正则化项,第三步为非局部图正则化项;
Figure QLYQS_49
为第/>
Figure QLYQS_51
个视图在自编码器第/>
Figure QLYQS_54
层的参数,/>
Figure QLYQS_37
和/>
Figure QLYQS_43
分别是局部和非局部正则化项的调节参数;tr( )为矩阵的迹;/>
Figure QLYQS_45
、/>
Figure QLYQS_47
分别为第/>
Figure QLYQS_38
、/>
Figure QLYQS_40
层学习到的表示,/>
Figure QLYQS_42
作为第/>
Figure QLYQS_50
层的输入,/>
Figure QLYQS_52
为第/>
Figure QLYQS_59
层输入/>
Figure QLYQS_61
的重构,/>
Figure QLYQS_64
是第v个视图第/>
Figure QLYQS_46
层的局部结构拉普拉斯矩阵, />
Figure QLYQS_48
是第v个视图第/>
Figure QLYQS_53
层的局部结构对角矩阵,该对角矩阵中的每个元素可表示为
Figure QLYQS_57
;/>
Figure QLYQS_35
是第v个视图第/>
Figure QLYQS_39
层的局部结构权重矩阵,该权重矩阵中的每个元素可以表示为/>
Figure QLYQS_41
;/>
Figure QLYQS_44
是第v个视图第/>
Figure QLYQS_55
层的非局部结构拉普拉斯矩阵, />
Figure QLYQS_58
是第v个视图第/>
Figure QLYQS_60
层的非局部结构对角矩阵,该对角矩阵中的每个元素可以表示为/>
Figure QLYQS_63
,/>
Figure QLYQS_56
是第v个视图第/>
Figure QLYQS_62
层的非局部结构权重矩阵,该权重矩阵中的每个元素可以表示为/>
Figure QLYQS_65
;给定第v个视图的第/>
Figure QLYQS_66
层的输入/>
Figure QLYQS_36
,对于每个视图来说,使用K 近邻方法构造样本表示点的局部邻接图;也就是说,对于每个表示点,通过计算欧氏距离来选择最近的K个表示点作为它的邻居点去构造邻接图。
2.如权利要求1所述的一种基于分层图增强堆叠自编码器的多视图图像分类方法,其特征在于,第v个视图的第
Figure QLYQS_67
层输入的第i个表示点/>
Figure QLYQS_68
(i=1,…N,N为总样本数)和它的邻居点/>
Figure QLYQS_69
之间的权重/>
Figure QLYQS_70
通过热核函数计算:
Figure QLYQS_71
其中,
Figure QLYQS_72
是输入的第i个表示点/>
Figure QLYQS_73
的K个近邻点的集合,/>
Figure QLYQS_74
是调节参数;
同样地,在选取了K个邻居点后,剩下的点作为
Figure QLYQS_75
的非邻居点去构造非邻接图;
Figure QLYQS_76
和它的非邻居点/>
Figure QLYQS_77
之间的权重/>
Figure QLYQS_78
通过热核函数计算:
Figure QLYQS_79
3.如权利要求1所述的一种基于分层图增强堆叠自编码器的多视图图像分类方法,其特征在于,步骤S3.1.2中,最小化微调目标函数为:
Figure QLYQS_80
其中,
Figure QLYQS_81
是平衡参数,/>
Figure QLYQS_82
是输入的第v个视图,/>
Figure QLYQS_83
是第v个视图原始输入数据的重构,V表示视图个数,/>
Figure QLYQS_84
是学习到的每个视图的最终表示,/>
Figure QLYQS_85
是从公共表示中重构出来的视图表示;第一项为原始输入和重构输出的重构损失,第二项为最深层的表示和从公共表示中重构出来的表示之间的重构损失;值得注意的是,最深层的表示和从公共表示中重构出来的表示之间的重构损失也被用于去约束图增强堆叠自编码器的微调过程;当全连接神经网络的参数和公共表示被训练后,也被反过来去约束图增强堆叠自编码器的参数的优化。
4.一种基于分层图增强堆叠自编码器的多视图图像分类系统,其特征在于,包括:
样本采集模块,用于采集多视图样本
Figure QLYQS_86
,并进行归一化处理;
其中
Figure QLYQS_87
,N为样本个数,/>
Figure QLYQS_88
为第v个视图的维度,V表示视图个数;
构建模型模块,用于构建用于自编码器网络模型,自编码器网络模型包括自编码器和全连接神经网络;令第v个视图在自编码器的参数为
Figure QLYQS_89
,在全连接神经网络中的参数为
Figure QLYQS_90
,初始化所有视图在自编码器中的参数/>
Figure QLYQS_91
、以及在全连接神经网络中的参数/>
Figure QLYQS_92
和公共表示H;
其中
Figure QLYQS_93
表示自编码器的第/>
Figure QLYQS_94
层,L表示自编码器的总层数;m表示全连接神经网络的第m层,M表示全连接神经网络的总层数;v表示第v个视图,V表示视图个数;/>
Figure QLYQS_95
表示第v个视图在自编码器的第l层编码部分的权重和偏置,/>
Figure QLYQS_96
表示第v个视图在自编码器的第l层解码部分的权重和偏置;/>
Figure QLYQS_97
表示第v个视图在全连接神经网络第m层中的权重和偏置;
模型训练模块,用于将样本采集模块归一化处理后的样本数据输入到自编码器网络模型中,样本数据输入自编码器并获取到每个视图的表示Z,全连接神经网络从初始化的公共表示H中重构出每个视图的表示C,全连接神经网络计算表示Z和表示C之间的损失,并优化、更新全连接神经网络的参数以及公共表示H,直至自编码器网络模型收敛;
实时分类模块,用于将实时多视图数据输入经模型训练模块训练后的自编码器网络模型中,得到实时的公共表示H,将公共表示H输入到分类器中,对实时多视图数据进行分类,得到分类结果;
模型训练模块在进行训练时,包括:
步骤S3.1,自编码器网络模型中的编码器为图增强堆叠自编码器,图增强堆叠自编码器包括多个图增强编码-解码结构并以分层的方式堆叠而成,将步骤S1归一化处理后的样本数据输入到图增强堆叠自编码器中进行训练,获取到每个视图的表示
Figure QLYQS_98
步骤S3.2,随机初始化公共表示H,令全连接神经网络的输入为
Figure QLYQS_99
,从公共表示H中重构出每个单一视图的表示/>
Figure QLYQS_100
,再根据图增强堆叠自编码器网络中学习到的表示
Figure QLYQS_101
、和表示/>
Figure QLYQS_102
,通过最小化目标函数/>
Figure QLYQS_103
,分别对全连接神经网络的参数
Figure QLYQS_104
、公共表示H进行更新;
其中最小化目标函数
Figure QLYQS_105
为:
Figure QLYQS_106
步骤S3.3,重复步骤S3.1-S3.2,直至图增强堆叠自编码器网络收敛;
步骤S3.1中,具体步骤为:
步骤S3.1.1,将步骤S1归一化处理后的样本数据输入到图增强堆叠自编码器进行分层预训练,直到最后一层预训练完成;
步骤S3.1.2,基于步骤S3.1.1预训练获得的参数,通过最小化微调目标函数,微调图增强堆叠自编码器的参数;
步骤S3.1.1中,对于第
Figure QLYQS_108
个视图来说,第/>
Figure QLYQS_112
层学习到的表示/>
Figure QLYQS_116
作为第/>
Figure QLYQS_107
层的输入;第一层的输入为原始数据,即/>
Figure QLYQS_111
;记第/>
Figure QLYQS_114
个视图的第/>
Figure QLYQS_117
层参数为
Figure QLYQS_110
,/>
Figure QLYQS_113
,其中/>
Figure QLYQS_115
表示第v个视图在自编码器的第l层编码部分的权重和偏置,/>
Figure QLYQS_118
表示第v个视图在自编码器的第l层解码部分的权重和偏置;通过最小化目标函数,每个视图的第/>
Figure QLYQS_109
层被预训练,直到最后一层预训练完成;
最小化目标函数为:
Figure QLYQS_126
其中,第一项为重构损失,第二项为局部图正则化项,第三步为非局部图正则化项; />
Figure QLYQS_130
为第/>
Figure QLYQS_136
个视图在自编码器第/>
Figure QLYQS_121
层的参数,/>
Figure QLYQS_128
和/>
Figure QLYQS_133
分别是局部和非局部正则化项的调节参数;tr( )为矩阵的迹;/>
Figure QLYQS_137
、/>
Figure QLYQS_122
分别为第/>
Figure QLYQS_125
、/>
Figure QLYQS_129
层学习到的表示,/>
Figure QLYQS_131
作为第/>
Figure QLYQS_135
层的输入,/>
Figure QLYQS_138
为第/>
Figure QLYQS_142
层输入/>
Figure QLYQS_146
的重构,/>
Figure QLYQS_134
是第v个视图第/>
Figure QLYQS_141
层的局部结构拉普拉斯矩阵, />
Figure QLYQS_145
是第v个视图第/>
Figure QLYQS_148
层的局部结构对角矩阵,该对角矩阵中的每个元素可表示为/>
Figure QLYQS_119
;/>
Figure QLYQS_124
是第v个视图第/>
Figure QLYQS_127
层的局部结构权重矩阵,该权重矩阵中的每个元素可以表示为/>
Figure QLYQS_132
Figure QLYQS_139
是第v个视图第/>
Figure QLYQS_144
层的非局部结构拉普拉斯矩阵,
Figure QLYQS_150
是第v个视图第/>
Figure QLYQS_151
层的非局部结构对角矩阵,该对角矩阵中的每个元素可以表示为/>
Figure QLYQS_140
,/>
Figure QLYQS_143
是第v个视图第/>
Figure QLYQS_147
层的非局部结构权重矩阵,该权重矩阵中的每个元素可以表示为/>
Figure QLYQS_149
;给定第v个视图的第/>
Figure QLYQS_120
层的输入/>
Figure QLYQS_123
,对于每个视图来说,使用K 近邻方法构造样本表示点的局部邻接图;也就是说,对于每个表示点,通过计算欧氏距离来选择最近的K个表示点作为它的邻居点去构造邻接图。
5.一种计算机设备,其特征在于:包括存储器和处理器,所述存储器存储有计算机程序,所述计算机程序被所述处理器执行时,使得所述处理器执行如权利要求1至3中任一项所述方法的步骤。
6.一种计算机可读存储介质,其特征在于:存储有计算机程序,所述计算机程序被处理器执行时,使得所述处理器执行如权利要求1至3中任一项所述方法的步骤。
CN202210578371.2A 2022-05-25 2022-05-25 基于分层图增强堆叠自编码器的多视图图像分类方法 Active CN114882288B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210578371.2A CN114882288B (zh) 2022-05-25 2022-05-25 基于分层图增强堆叠自编码器的多视图图像分类方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210578371.2A CN114882288B (zh) 2022-05-25 2022-05-25 基于分层图增强堆叠自编码器的多视图图像分类方法

Publications (2)

Publication Number Publication Date
CN114882288A CN114882288A (zh) 2022-08-09
CN114882288B true CN114882288B (zh) 2023-06-06

Family

ID=82678411

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210578371.2A Active CN114882288B (zh) 2022-05-25 2022-05-25 基于分层图增强堆叠自编码器的多视图图像分类方法

Country Status (1)

Country Link
CN (1) CN114882288B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115187787B (zh) * 2022-09-09 2023-01-31 清华大学 用于自监督多视图表征学习的局部流形增强的方法及装置

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10614361B2 (en) * 2015-09-09 2020-04-07 Intel Corporation Cost-sensitive classification with deep learning using cost-aware pre-training
CN113111797B (zh) * 2021-04-19 2024-02-13 杭州电子科技大学 一种结合自编码器与视角变换模型的跨视角步态识别方法
CN113705603A (zh) * 2021-07-12 2021-11-26 北京邮电大学 不完整多视角数据的聚类方法、电子设备

Also Published As

Publication number Publication date
CN114882288A (zh) 2022-08-09

Similar Documents

Publication Publication Date Title
CN111291212B (zh) 基于图卷积神经网络的零样本草图图像检索方法和系统
CN108132968B (zh) 网络文本与图像中关联语义基元的弱监督学习方法
CN108108854B (zh) 城市路网链路预测方法、系统及存储介质
Zhuang et al. Label information guided graph construction for semi-supervised learning
CN109389151B (zh) 一种基于半监督嵌入表示模型的知识图谱处理方法和装置
CN112084331A (zh) 文本处理、模型训练方法、装置、计算机设备和存储介质
CN111079532A (zh) 一种基于文本自编码器的视频内容描述方法
WO2022105117A1 (zh) 一种图像质量评价的方法、装置、计算机设备及存储介质
CN111898703B (zh) 多标签视频分类方法、模型训练方法、装置及介质
CN112417289B (zh) 一种基于深度聚类的资讯信息智能推荐方法
CN112464004A (zh) 一种多视角深度生成图像聚类方法
CN111339343A (zh) 图像检索方法、装置、存储介质及设备
CN114418030B (zh) 图像分类方法、图像分类模型的训练方法及装置
CN114266897A (zh) 痘痘类别的预测方法、装置、电子设备及存储介质
Menaga et al. Deep learning: a recent computing platform for multimedia information retrieval
CN112749737A (zh) 图像分类方法及装置、电子设备、存储介质
CN110347853B (zh) 一种基于循环神经网络的图像哈希码生成方法
CN114882288B (zh) 基于分层图增强堆叠自编码器的多视图图像分类方法
Xu et al. A novel image feature extraction algorithm based on the fusion AutoEncoder and CNN
CN111709473B (zh) 对象特征的聚类方法及装置
Lumini et al. Image orientation detection by ensembles of Stochastic CNNs
CN116975347A (zh) 图像生成模型训练方法及相关装置
CN111768214A (zh) 产品属性的预测方法、系统、设备和存储介质
Ward et al. A practical guide to graph neural networks
CN114494809A (zh) 特征提取模型优化方法、装置及电子设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant