CN114882288A - 基于分层图增强堆叠自编码器的多视图图像分类方法 - Google Patents

基于分层图增强堆叠自编码器的多视图图像分类方法 Download PDF

Info

Publication number
CN114882288A
CN114882288A CN202210578371.2A CN202210578371A CN114882288A CN 114882288 A CN114882288 A CN 114882288A CN 202210578371 A CN202210578371 A CN 202210578371A CN 114882288 A CN114882288 A CN 114882288A
Authority
CN
China
Prior art keywords
view
encoder
representation
self
layer
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202210578371.2A
Other languages
English (en)
Other versions
CN114882288B (zh
Inventor
苟建平
谢楠楠
刘金华
王智
欧卫华
陈雯柏
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Jiangsu University
Original Assignee
Jiangsu University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Jiangsu University filed Critical Jiangsu University
Priority to CN202210578371.2A priority Critical patent/CN114882288B/zh
Publication of CN114882288A publication Critical patent/CN114882288A/zh
Application granted granted Critical
Publication of CN114882288B publication Critical patent/CN114882288B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/764Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/80Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
    • G06V10/806Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02TCLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
    • Y02T10/00Road transport of goods or passengers
    • Y02T10/10Internal combustion engine [ICE] based vehicles
    • Y02T10/40Engine management systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Computing Systems (AREA)
  • Software Systems (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Multimedia (AREA)
  • Medical Informatics (AREA)
  • Databases & Information Systems (AREA)
  • Biomedical Technology (AREA)
  • Mathematical Physics (AREA)
  • General Engineering & Computer Science (AREA)
  • Molecular Biology (AREA)
  • Data Mining & Analysis (AREA)
  • Computational Linguistics (AREA)
  • Biophysics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种基于分层图增强堆叠自编码器的多视图图像分类方法,涉及基于图增强的多视图图像分类方法及系统,其目的在于解决上述现有技术存在的无法提取多视图图像的各个视图的特征并将学习到的特征进行融合的技术问题。本发明提出一种基于分层图增强堆叠自编码器的多视图图像分类方法及系统,考虑到多视图数据的几何结构以及不同视图之间的互补性和一致性;一个分层的图结构被引入到自编码器中去学习特定视图的表示,保持了多视图数据的局部和非局部的几何结构;在学习到具有几何结构特性的各个视图的特征表示后,通过使用全连接神经网络重构出每个单一视图,公共表示能够被学习;还能自动平衡多个视图之间的互补性和一致性。

Description

基于分层图增强堆叠自编码器的多视图图像分类方法
技术领域
本发明属于图像分类技术领域,尤其涉及多视图图像分类技术领域,更具体的是涉及一种基于图增强的多视图图像分类方法。
背景技术
随着深度学习的快速发展,各种各样的深度模型被提出。自编码器(AE)作为最具代表性的深度学习算法之一,已成功应用于计算机视觉、语音识别和自然语言处理等诸多领域。自编码器是一种无监督学习的方法,其目的是最小化输入和相应的重构输出之间的重构误差。基于原始数据的几何结构在特征表示中的重要作用,一些流形学习算法被引入到自编码器中。例如,NLSP-SAE考虑到数据的非局部和局部的几何结构,确保了在原始空间中相邻的样本在重构空间中离得更近,不相邻的样本离得更远。然而,在视觉任务中,有时仅使用单个视图是不能满足需求的。因此,多视图的概念被引出,即对于同一事物可以从不同的途径或不同的角度对其进行描述。例如,同一个物体从不同角度拍摄的图片;同一语义的不同语言的表达;即使是对于同一张图片,也可以采取不同的特征提取方式构成多个视图。近年来,随着多视图数据在实际中的广泛应用,多视图表示学习受到了广泛的关注。与单视图表示学习不同,多视图表示学习的关键是从不同的视图中学习一个公共表示。其中,自编码器也被引入到多视图表示学习中。AE2-Nets考虑多视图表示学习过程中多视图数据的相关性和互补性,通过使用嵌套的自编码器框架将来自异构数据源的信息集成到完整的表示中,并且自动地平衡了不同视图之间的一致性和互补性。
随着科技的不断进步,图像分类在很多领域有广泛应用。包括安防领域的人脸识别和智能视频分析,以及医学领域的图像识别等。图像分类是计算机视觉中重要的基本问题,也是图像检测、图像分割、物体跟踪、行为识别等其他高层视觉任务的基础。然而,传统的单一视图的数据已经不能满足当前图像分类的需求,需要一种适用于多视图图像分类的方法。所谓的多视图图像,是指由同一目标对象的不同视角图像构成的,其对目标对象的表述比传统的单视图图像更加形象。多视图图像分类是从多个视角对整个图像进行描述,然后使用分类器判别物体类别。因此如何提取各个视图的特征以及将学习到的各个视图的特征加以融合是至关重要的。
发明内容
本发明的目的在于:为了解决上述现有技术存在的无法提取多视图图像的各个视图的特征并将学习到的特征进行融合的技术问题,本发明提供一种基于分层图增强堆叠自编码器的多视图图像分类方法。
本发明为了实现上述目的具体采用以下技术方案:
一种基于分层图增强堆叠自编码器的多视图图像分类方法,包括如下步骤:
步骤S1,样本采集
采集多视图样本χ={X(1),X(2),...,X(V)},并进行归一化处理;
其中
Figure BDA0003661392290000021
N为样本个数,dv为第v个视图的维度,V表示视图个数;
步骤S2,构建模型
构建用于自编码器网络模型,自编码器网络模型包括自编码器和全连接神经网络;令第v个视图在自编码器的参数为
Figure BDA0003661392290000022
在全连接神经网络中的参数为
Figure BDA0003661392290000023
初始化所有视图在自编码器中的参数
Figure BDA0003661392290000024
以及在全连接神经网络中的参数
Figure BDA0003661392290000025
和公共表示H;
其中l表示自编码器的第l层,L表示自编码器的总层数;m表示全连接神经网络的第m层,M表示全连接神经网络的总层数;v表示第v个视图,V表示视图个数;
Figure BDA0003661392290000031
表示第v个视图在自编码器的第I层编码部分的权重和偏置,
Figure BDA0003661392290000032
表示第v个视图在自编码器的第I层解码部分的权重和偏置;
Figure BDA0003661392290000033
表示第v个视图在全连接神经网络第m层中的权重和偏置;
步骤S3,模型训练
将步骤S1归一化处理后的样本数据输入到自编码器网络模型中,样本数据输入自编码器并获取到每个视图的表示Z,全连接神经网络从初始化的公共表示H中重构出每个视图的表示C,全连接神经网络计算表示Z和表示C之间的损失,并优化、更新全连接神经网络的参数以及公共表示H,直至自编码器网络模型收敛;
步骤S4,实时分类
将实时多视图数据输入经步骤S3训练后的自编码器网络模型中,得到实时的公共表示H,将公共表示H输入到分类器中,对实时多视图数据进行分类,得到分类结果。
作为优选,步骤S3包括:
步骤S3.1,自编码器网络模型中的编码器为图增强堆叠自编码器,图增强堆叠自编码器包括多个图增强编码-解码结构并以分层的方式堆叠而成,将步骤S1归一化处理后的样本数据输入到图增强堆叠自编码器中进行训练,获取到每个视图的表示Z(L,v)
步骤S3.2,随机初始化公共表示H,令全连接神经网络的输入为C(0,v)=H,从公共表示H中重构出每个单一视图的表示C(M,v),再根据图增强堆叠自编码器网络中学习到的表示Z(L,v)、和表示C(M,v),通过最小化目标函数Jc,分别对全连接神经网络的参数
Figure BDA0003661392290000034
公共表示H进行更新;
其中最小化目标函数Jc为:
Figure BDA0003661392290000041
步骤S3.3,重复步骤S3.1-S3.2,直至图增强堆叠自编码器网络收敛。
作为优选,步骤S3.1中,具体步骤为:
步骤S3.1.1,将步骤S1归一化处理后的样本数据输入到图增强堆叠自编码器进行分层预训练,直到最后一层预训练完成;
步骤S3.1.2,基于步骤S3.1.1预训练获得的参数,通过最小化微调目标函数,微调图增强堆叠自编码器的参数。
作为优选,步骤S3.1.1中,步骤S3.1.1中,对于第v个视图来说,第l一1层学习到的表示Z(l-1,v)作为第l层的输入;第一层的输入为原始数据,即Z(0,v)=X(v);记第v个视图的第l层参数为Θae (l,v)={W* (l,v),b* (l,v)}*∈{e,d},其中
Figure BDA0003661392290000042
表示第v个视图在自编码器的第I层编码部分的权重和偏置,
Figure BDA0003661392290000043
表示第v个视图在自编码器的第I层解码部分的权重和偏置;;通过最小化目标函数,每个视图的第l层被预训练,直到最后一层预训练完成;
最小化目标函数为:
Figure BDA0003661392290000044
其中,第一项为重构损失,第二项为局部图正则化项,第三步为非局部图正则化项;Θae (l,v)为第v个视图在自编码器第l层的参数,λL和λN分别是局部和非局部正则化项的调节参数;tr()为矩阵的迹;Z(l-1,v)、Z(l,v)分别为第l-1、l层学习到的表示,Z(l-1,v)作为第l层的输入,
Figure BDA0003661392290000045
为第l层输入Z(l-1,v)的重构,L+(l,v)=D+(l,v)-W+(l,v)是第v个视图第l层的局部结构拉普拉斯矩阵,D+(l,v)是第v个视图第l层的局部结构对角矩阵,该对角矩阵中的每个元素可表示为
Figure BDA0003661392290000051
W+(l,v)是第v个视图第l层的局部结构权重矩阵,该权重矩阵中的每个元素可以表示为
Figure BDA0003661392290000052
L-(l,v)=D-(l,v)-W-(l,v)是第v个视图第l层的非局部结构拉普拉斯矩阵,D-(l,v)是第v个视图第l层的非局部结构对角矩阵,该对角矩阵中的每个元素可以表示为
Figure BDA0003661392290000053
W-(l,v)是第v个视图第l层的非局部结构权重矩阵,该权重矩阵中的每个元素可以表示为
Figure BDA0003661392290000054
给定第v个视图的第l层的输入Z(l-1,v),对于每个视图来说,我们使用K近邻方法构造样本表示点的局部邻接图;也就是说,对于每个表示点,通过计算欧氏距离来选择最近的K个表示点作为它的邻居点去构造邻接图。
5.如权利要求4所述的一种基于分层图增强堆叠自编码器的多视图图像分类方法,其特征在于,第v个视图的第l层输入的第i个表示点zi (l-1,v)(i=1,...N,N为总样本数)和它的邻居点zj (l-1,v)之间的权重
Figure BDA0003661392290000055
通过热核函数计算:
Figure BDA0003661392290000056
其中,
Figure BDA0003661392290000057
是输入的第i个表示点zi (l-1,v)的K个近邻点的集合,t是调节参数;
同样地,在选取了K个邻居点后,剩下的点作为zi (l-1,v)的非邻居点去构造非邻接图;zi (l-1,v)和它的非邻居点zj (l-1,v)之间的权重
Figure BDA0003661392290000061
通过热核函数计算:
Figure BDA0003661392290000062
关于邻居点与非邻居点都采用了Zj (l-1,v)进行表示,在Zj (l-1,v)中j的范围为1-N,N为总样本数,当分别表示邻居点和非邻居点时,j的取值是不同的;当j的值为1-k(k为邻居节点的个数)时,表示的是邻居节点;当j的值为k+1-N时,表示的是非邻居节点。
作为优选,步骤S3.1.2中,最小化微调目标函数为:
Figure BDA0003661392290000063
其中,λ是平衡参数,X(v)是输入的第v个视图,
Figure BDA0003661392290000064
是第v个视图原始输入数据的重构,V表示视图个数,Z(L,v)是学习到的每个视图的最终表示,C(M,v)是从公共表示中重构出来的视图表示;第一项为原始输入和重构输出的重构损失,第二项为最深层的表示和从公共表示中重构出来的表示之间的重构损失;值得注意的是,最深层的表示和从公共表示中重构出来的表示之间的重构损失也被用于去约束图增强堆叠自编码器的微调过程;当全连接神经网络的参数和公共表示被训练后,也被反过来去约束图增强堆叠自编码器的参数的优化。
一种基于分层图增强堆叠自编码器的多视图图像分类系统,包括:
样本采集模块,用于采集多视图样本χ={X(1),X(2),...,X(V)},并进行归一化处理;
其中
Figure BDA0003661392290000071
N为样本个数,dv为第v个视图的维度,V表示视图个数;
构建模型模块,用于构建自编码器网络模型,自编码器网络模型包括自编码器和全连接神经网络;令第v个视图在自编码器的参数为
Figure BDA0003661392290000072
在全连接神经网络中的参数为
Figure BDA0003661392290000073
初始化所有视图在自编码器中的参数
Figure BDA0003661392290000074
以及在全连接神经网络中的参数
Figure BDA0003661392290000075
和公共表示H;
其中l表示自编码器的第l层,L表示自编码器的总层数;m表示全连接神经网络的第m层,M表示全连接神经网络的总层数;v表示第v个视图,V表示视图个数;
Figure BDA0003661392290000076
表示第v个视图在自编码器的第I层编码部分的权重和偏置,
Figure BDA0003661392290000077
表示第v个视图在自编码器的第I层解码部分的权重和偏置;
Figure BDA0003661392290000078
表示第v个视图在全连接神经网络第m层中的权重和偏置;
模型训练模块,用于将样本采集模块归一化处理后的样本数据输入到自编码器网络模型中,样本数据输入自编码器并获取到每个视图的表示Z,全连接神经网络从初始化的公共表示H中重构出每个视图的表示C,全连接神经网络计算表示Z和表示C之间的损失,并优化、更新全连接神经网络的参数以及公共表示H,直至自编码器网络模型收敛;
实时分类模块,用于将实时多视图数据输入经模型训练模块训练后的自编码器网络模型中,得到实时的公共表示H,将公共表示H输入到分类器中,对实时多视图数据进行分类,得到分类结果。
一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,所述计算机程序被所述处理器执行时,使得所述处理器执行上述基于分层图增强堆叠自编码器的多视图图像分类方法的步骤。
一种计算机可读存储介质,存储有计算机程序,所述计算机程序被处理器执行时,使得所述处理器执行上述基于分层图增强堆叠自编码器的多视图图像分类方法的步骤。
本发明的有益效果如下:
本发明提出了一种基于分层图增强堆叠自编码器的多视图图像分类方法,考虑到多视图数据的几何结构以及不同视图之间的互补性和一致性;一个分层的图结构被引入到自编码器中去学习特定视图的表示,保持了多视图数据的局部和非局部的几何结构;在学习到具有几何结构特性的各个视图的特征表示后,通过使用全连接神经网络重构出每个单一视图,公共表示能够被学习;因此,针对多视图图像分类问题发明的分层图增强堆叠自编码器不仅能够保持多视图数据的几何结构,还能自动平衡多个视图之间的互补性和一致性。
附图说明
图1是本发明的流程示意图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。通常在此处附图中描述和示出的本发明实施例的组件可以以各种不同的配置来布置和设计。
因此,以下对在附图中提供的本发明的实施例的详细描述并非旨在限制要求保护的本发明的范围,而是仅仅表示本发明的选定实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
实施例1
如图1所示,本实施例提供了一种基于分层图增强堆叠自编码器的多视图图像分类方法,包括如下步骤:
步骤S1,样本采集
采集多视图样本χ={X(1),X(2),...,X(V)},并进行归一化处理;
其中
Figure BDA0003661392290000091
N为样本个数,dv为第v个视图的维度,V表示视图个数;
步骤S2,构建模型
构建自编码器网络模型,自编码器网络模型包括自编码器和全连接神经网络;令第v个视图在自编码器的参数为
Figure BDA0003661392290000092
在全连接神经网络中的参数为
Figure BDA0003661392290000093
初始化所有视图在自编码器中的参数
Figure BDA0003661392290000094
以及在全连接神经网络中的参数
Figure BDA0003661392290000095
和公共表示H:
其中l表示自编码器的第l层,L表示自编码器的总层数;m表示全连接神经网络的第m层,M表示全连接神经网络的总层数;v表示第v个视图,V表示视图个数;
Figure BDA0003661392290000096
表示第v个视图在自编码器的第I层编码部分的权重和偏置,
Figure BDA0003661392290000097
表示第v个视图在自编码器的第I层解码部分的权重和偏置;
Figure BDA0003661392290000098
表示第v个视图在全连接神经网络第m层中的权重和偏置;
步骤S3,模型训练
将步骤S1归一化处理后的样本数据输入到自编码器网络模型中,样本数据输入自编码器并获取到每个视图的表示Z,全连接神经网络从初始化的公共表示H中重构出每个视图的表示C,全连接神经网络计算表示Z和表示C之间的损失,并优化、更新全连接神经网络的参数以及公共表示H,直至自编码器网络模型收敛;
该模型训练分为图增强特定视图的表示学习和公共表示学习两个步骤,具体如下:
步骤S3.1,为了能够在保持数据的局部和非局部几何结构的同时,获取多视图数据深层结构的特性,本实施例设计了图增强堆叠自编码器。即该自编码器网络模型中的编码器为图增强堆叠自编码器,图增强堆叠自编码器包括多个图增强编码-解码结构并以分层的方式堆叠而成,将步骤S1归一化处理后的样本数据输入到图增强堆叠自编码器中进行训练,获取到每个视图的表示Z(L,v)
图增强特定视图的表示学习包括层层预训练阶段和微调阶段,具体如下:
步骤S3.1.1,将步骤S1归一化处理后的样本数据输入到图增强堆叠自编码器进行分层预训练,直到最后一层预训练完成;
步骤S3.1.1中,预训练阶段,将给定的多视图数据输入到图增强堆叠自编码器中进行分层预训练。对于第v个视图来说,第l-1层学习到的表示Z(l-1,v)作为第l层的输入;第一层的输入为原始数据,即Z(0,v)=X(v);记第v个视图的第l层参数为Θae (l,v)={W* (l,v),b* (l,v)},*∈{e,d},其中
Figure BDA0003661392290000101
表示第v个视图在自编码器的第I层编码部分的权重和偏置,
Figure BDA0003661392290000102
表示第v个视图在自编码器的第I层解码部分的权重和偏置;;通过最小化目标函数,每个视图的第l层被预训练,直到最后一层预训练完成;
最小化目标函数为:
Figure BDA0003661392290000103
其中,第一项为重构损失,第二项为局部图正则化项,第三步为非局部图正则化项;Θae (l,v)为第v个视图在自编码器第l层的参数,λL和λN分别是局部和非局部正则化项的调节参数;tr()为矩阵的迹;Z(l-1,v)、Z(l,v)分别为第l-1、l层学习到的表示,Z(l-1,v)作为第l层的输入,
Figure BDA0003661392290000111
为第l层输入Z(l-1,v)的重构,L+(l,v)=D+(l,v)-W+(l,v)是第v个视图第l层的局部结构拉普拉斯矩阵,D+(l,v)是第v个视图第l层的局部结构对角矩阵,该对角矩阵中的每个元素可表示为
Figure BDA0003661392290000118
W+(l,v)是第v个视图第l层的局部结构权重矩阵,该权重矩阵中的每个元素可以表示为
Figure BDA0003661392290000112
L-(l,v)=D-(l,v)-W-(l,v)是第v个视图第l层的非局部结构拉普拉斯矩阵,D-(l,v)是第v个视图第l层的非局部结构对角矩阵,该对角矩阵中的每个元素可以表示为
Figure BDA0003661392290000113
W-(l,v)是第v个视图第l层的非局部结构权重矩阵,该权重矩阵中的每个元素可以表示为
Figure BDA0003661392290000114
给定第v个视图的第l层的输入Z(l-1,v),对于每个视图来说,我们使用K近邻方法构造样本表示点的局部邻接图;也就是说,对于每个表示点,通过计算欧氏距离来选择最近的K个表示点作为它的邻居点去构造邻接图。
第v个视图的第l层输入的第i个表示点zi (l-1,v)(i=1,…N,N为总样本数)和它的邻居点zj (l-1,v)之间的权重
Figure BDA0003661392290000115
通过热核函数计算:
Figure BDA0003661392290000116
其中,
Figure BDA0003661392290000117
是输入的第i个表示点zi (l-1,v)的K个近邻点的集合,t是调节参数;
同样地,在选取了K个邻居点后,剩下的点作为zi (l-1,v)的非邻居点去构造非邻接图;zi (l-1,v)和它的非邻居点zj (l-1,v)之间的权重
Figure BDA0003661392290000121
通过热核函数计算:
Figure BDA0003661392290000122
关于邻居点与非邻居点都采用了zj (l-1,v)进行表示,在zj (l-1,v)中j的范围为1-N,N为总样本数,当分别表示邻居点和非邻居点时,j的取值是不同的;当j的值为1-k(k为邻居节点的个数)时,表示的是邻居节点;当j的值为k+1-N时,表示的是非邻居节点。
步骤S3.1.2,微调阶段,基于步骤S3.1.1预训练获得的参数被用作微调阶段的初始权重,使用最深层的表示Z(L,v)去重构原始的输入;通过最小化微调目标函数,微调图增强堆叠自编码器的参数。
步骤S3.1.2中,最小化微调目标函数为:
Figure BDA0003661392290000123
其中,λ是平衡参数,X(v)是输入的第v个视图,
Figure BDA0003661392290000124
是第v个视图原始输入数据的重构,V表示视图个数,Z(L,v)是学习到的每个视图的最终表示,C(M,v)是从公共表示中重构出来的视图表示;第一项为原始输入和重构输出的重构损失,第二项为最深层的表示和从公共表示中重构出来的表示之间的重构损失;值得注意的是,最深层的表示和从公共表示中重构出来的表示之间的重构损失也被用于去约束图增强堆叠自编码器的微调过程;当全连接神经网络的参数和公共表示被训练后,也被反过来去约束图增强堆叠自编码器的参数的优化。
步骤S3.2,公共表示学习,基于在图增强堆叠自编码器中学习到的特定视图的表示,我们旨在于将他们编码成一个公共的表示
Figure BDA0003661392290000131
dH是H的维度。假设通过使用具有M层的全连接神经网络,每个单一视图都能够从公共表示中重构出来,记全连接神经网络中所有的参数为
Figure BDA0003661392290000132
步骤S3.2,随机初始化公共表示H,令全连接神经网络的输入为C(0,v)=H,从公共表示H中重构出每个单一视图的表示C(M,v),再根据图增强堆叠自编码器网络中学习到的表示Z(L,v)、和表示C(M,v),通过最小化目标函数Jc,分别对全连接神经网络的参数
Figure BDA0003661392290000133
公共表示H进行更新‘
其中最小化目标函数Jc为:
Figure BDA0003661392290000134
步骤S3.3,重复步骤S3.1-S3.2,直至图增强堆叠自编码器网络收敛。
训练数据集为100Leaves图像数据集,该数据集包含100中不同的树叶图像,每类树叶的图像数量为16张,共计1600张树叶图像,形状描述和纹理直方图特征被选为两个视图作为输入数据。随机选取数据集的80%作为训练集,20%作为测试集,使用KNN作为分类器。基于图自编码器的单视图方法在100Leaves数据集的两个视图上的精度分别为85.62%和86.87%;基于自编码器的多视图方法在该数据集上的精度为94.16%。而本实施例中的分层图增强堆叠自编码器在100Leaves数据集上的精度为96.23%,相比基于图自编码器的单视图方法和基于自编码器的多视图方法,本申请的方法有了明显的提升,验证了所提方法的有效性。
步骤S4,实时分类
将实时多视图数据输入经步骤S3训练后的自编码器网络模型中,得到实时的公共表示H,将公共表示H输入到分类器中,对实时多视图数据进行分类,得到分类结果。
实施例2
本实施例还提供一种基于分层图增强堆叠自编码器的多视图图像分类系统,包括样本采集模块、构建模型模型、模型训练模块、实时分类模块,具体为:
样本采集模块,用于采集多视图样本χ={X(1),X(2),...,X(V)},并进行归一化处理;
其中
Figure BDA0003661392290000141
N为样本个数,dv为第v个视图的维度,V表示视图个数;
构建模型模型,用于构建自编码器网络模型,自编码器网络模型包括自编码器和全连接神经网络;令第v个视图在自编码器的参数为
Figure BDA0003661392290000142
在全连接神经网络中的参数为
Figure BDA0003661392290000143
初始化所有视图在自编码器中的参数
Figure BDA0003661392290000144
以及在全连接神经网络中的参数
Figure BDA0003661392290000145
和公共表示H;
其中l表示自编码器的第l层,L表示自编码器的总层数;m表示全连接神经网络的第m层,M表示全连接神经网络的总层数;v表示第v个视图,V表示视图个数;
Figure BDA0003661392290000146
表示第v个视图在自编码器的第I层编码部分的权重和偏置,
Figure BDA0003661392290000147
表示第v个视图在自编码器的第I层解码部分的权重和偏置;
Figure BDA0003661392290000148
表示第v个视图在全连接神经网络第m层中的权重和偏置;
模型训练模块,用于将步骤S1归一化处理后的样本数据输入到自编码器网络模型中,样本数据输入自编码器并获取到每个视图的表示Z,全连接神经网络从初始化的公共表示H中重构出每个视图的表示C,全连接神经网络计算表示Z和表示C之间的损失,并优化、更新全连接神经网络的参数以及公共表示H,直至自编码器网络模型收敛;
该模型训练分为图增强特定视图的表示学习和公共表示学习两个步骤,具体如下:
为了能够在保持数据的局部和非局部几何结构的同时,获取多视图数据深层结构的特性,本实施例设计了图增强堆叠自编码器。即该自编码器网络模型中的编码器为图增强堆叠自编码器,图增强堆叠自编码器包括多个图增强编码-解码结构并以分层的方式堆叠而成,将步骤S1归一化处理后的样本数据输入到图增强堆叠自编码器中进行训练,获取到每个视图的表示Z(L,v)
图增强特定视图的表示学习包括层层预训练阶段和微调阶段,具体如下:
将样本采集模块归一化处理后的样本数据输入到图增强堆叠自编码器进行分层预训练,直到最后一层预训练完成;
预训练阶段,将给定的多视图数据输入到图增强堆叠自编码器中进行分层预训练。对于第v个视图来说,第l-1层学习到的表示Z(l-1,v)作为第l层的输入;第一层的输入为原始数据,即Z(0,v)=X(v);记第v个视图的第l层参数为Θae (l,v)={W* (l,v),b* (l,v)},*∈{e,d},其中
Figure BDA0003661392290000151
表示第v个视图在自编码器的第I层编码部分的权重和偏置,
Figure BDA0003661392290000152
表示第v个视图在自编码器的第I层解码部分的权重和偏置;;通过最小化目标函数,每个视图的第l层被预训练,直到最后一层预训练完成;
最小化目标函数为:
Figure BDA0003661392290000153
其中,第一项为重构损失,第二项为局部图正则化项,第三步为非局部图正则化项;Θae (l,v)为第v个视图在自编码器第l层的参数,λL和λN分别是局部和非局部正则化项的调节参数;tr()为矩阵的迹;Z(l-1,v)、Z(l,v)分别为第l一1、l层学习到的表示,Z(l-1,v)作为第l层的输入,
Figure BDA0003661392290000161
为第l层输入Z(l-1,v)的重构,L+(l,v)=D+(l,v)-W+(l,v)是第v个视图第l层的局部结构拉普拉斯矩阵,D+(l,v)是第v个视图第l层的局部结构对角矩阵,该对角矩阵中的每个元素可表示为
Figure BDA0003661392290000162
W+(l,v)是第v个视图第l层的局部结构权重矩阵,该权重矩阵中的每个元素可以表示为
Figure BDA0003661392290000163
L-(l,v)=D-(l,v)-W-(l,v)是第v个视图第l层的非局部结构拉普拉斯矩阵,D-(l,v)是第v个视图第l层的非局部结构对角矩阵,该对角矩阵中的每个元素可以表示为
Figure BDA0003661392290000164
W-(l,v)是第v个视图第l层的非局部结构权重矩阵,该权重矩阵中的每个元素可以表示为
Figure BDA0003661392290000165
给定第v个视图的第l层的输入Z(l-1,v),对于每个视图来说,我们使用K近邻方法构造样本表示点的局部邻接图;也就是说,对于每个表示点,通过计算欧氏距离来选择最近的K个表示点作为它的邻居点去构造邻接图。
第v个视图的第l层输入的第i个表示点zi (l-1,v)(i=1,…N,N为总样本数)和它的邻居点zj (l-1,v)之间的权重
Figure BDA0003661392290000166
通过热核函数计算:
Figure BDA0003661392290000167
其中,
Figure BDA0003661392290000168
是输入的第i个表示点zi (l-1,v)的K个近邻点的集合,t是调节参数;
同样地,在选取了K个邻居点后,剩下的点作为zi (l-1,v)的非邻居点去构造非邻接图;zi (l-1,v)和它的非邻居点zj (l-1,v)之间的权重
Figure BDA0003661392290000171
通过热核函数计算:
Figure BDA0003661392290000172
关于邻居点与非邻居点都采用了zj (l-1,v)进行表示,在zj (l-1,v)中j的范围为1-N,N为总样本数,当分别表示邻居点和非邻居点时,j的取值是不同的;当j的值为1-k(k为邻居节点的个数)时,表示的是邻居节点;当j的值为k+1-N时,表示的是非邻居节点。
微调阶段,基于步骤S3.1.1预训练获得的参数被用作微调阶段的初始权重,使用最深层的表示Z(L,v)去重构原始的输入;通过最小化微调目标函数,微调图增强堆叠自编码器的参数。
最小化微调目标函数为:
Figure BDA0003661392290000173
其中,λ是平衡参数,X(v)是输入的第v个视图,
Figure BDA0003661392290000174
是第v个视图原始输入数据的重构,V表示视图个数,Z(L,v)是学习到的每个视图的最终表示,C(M,v)是从公共表示中重构出来的视图表示;第一项为原始输入和重构输出的重构损失,第二项为最深层的表示和从公共表示中重构出来的表示之间的重构损失;值得注意的是,最深层的表示和从公共表示中重构出来的表示之间的重构损失也被用于去约束图增强堆叠自编码器的微调过程;当全连接神经网络的参数和公共表示被训练后,也被反过来去约束图增强堆叠自编码器的参数的优化。
公共表示学习,基于在图增强堆叠自编码器中学习到的特定视图的表示,我们旨在于将他们编码成一个公共的表示
Figure BDA0003661392290000181
dH是H的维度。假设通过使用具有M层的全连接神经网络,每个单一视图都能够从公共表示中重构出来,记全连接神经网络中所有的参数为
Figure BDA0003661392290000182
随机初始化公共表示H,令全连接神经网络的输入为C(0,v)=H,从公共表示H中重构出每个单一视图的表示C(M,v),再根据图增强堆叠自编码器网络中学习到的表示Z(L,v)、和表示C(M,v),通过最小化目标函数Jc,分别对全连接神经网络的参数
Figure BDA0003661392290000183
公共表示H进行更新;
其中最小化目标函数Jc为:
Figure BDA0003661392290000184
重复训练,直至图增强堆叠自编码器网络收敛。
训练数据集为100Leaves图像数据集,该数据集包含100中不同的树叶图像,每类树叶的图像数量为16张,共计1600张树叶图像,形状描述和纹理直方图特征被选为两个视图作为输入数据。随机选取数据集的80%作为训练集,20%作为测试集,使用KNN作为分类器。基于图自编码器的单视图方法在100Leaves数据集的两个视图上的精度分别为85.62%和86.87%;基于自编码器的多视图方法在该数据集上的精度为94.16%。而本实施例中的分层图增强堆叠自编码器在100Leaves数据集上的精度为96.23%,相比基于图自编码器的单视图方法和基于自编码器的多视图方法,本申请的方法有了明显的提升,验证了所提方法的有效性。
实时分类模块,用于将实时多视图数据输入经步骤S3训练后的自编码器网络模型中,得到实时的公共表示H,将公共表示H输入到分类器中,对实时多视图数据进行分类,得到分类结果。
实施例3
本实施例还提供了一种计算机设备,包括存储器和处理器,存储器中存储有计算机程序,计算机程序被处理器执行时,使得处理器执行上述基于分层图增强堆叠自编码器的多视图图像分类方法的步骤。
其中,所述计算机设备可以是桌上型计算机、笔记本、掌上电脑及云端服务器等计算设备。所述计算机设备可以与用户通过键盘、鼠标、遥控器、触摸板或声控设备等方式进行人机交互。
所述存储器至少包括一种类型的可读存储介质,所述可读存储介质包括闪存、硬盘、多媒体卡、卡型存储器(例如,SD或D界面显示存储器等)、随机访问存储器(RAM)、静态随机访问存储器(SRAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、可编程只读存储器(PROM)、磁性存储器、磁盘、光盘等。在一些实施例中,所述存储器可以是所述计算机设备的内部存储单元,例如该计算机设备的硬盘或内存。在另一些实施例中,所述存储器也可以是所述计算机设备的外部存储设备,例如该计算机设备上配备的插接式硬盘,智能存储卡(Smart Media Card,SMC),安全数字(Secure Digital,SD)卡,闪存卡(Flash Card)等。当然,所述存储器还可以既包括所述计算机设备的内部存储单元也包括其外部存储设备。本实施例中,所述存储器常用于存储安装于所述计算机设备的操作系统和各类应用软件,例如运行所述基于分层图增强堆叠自编码器的多视图图像分类方法的程序代码等。此外,所述存储器还可以用于暂时地存储已经输出或者将要输出的各类数据。
所述处理器在一些实施例中可以是中央处理器(Central Processing Unit,CPU)、控制器、微控制器、微处理器、或其他数据处理芯片。该处理器通常用于控制所述计算机设备的总体操作。本实施例中,所述处理器用于运行所述存储器中存储的程序代码或者处理数据,例如运行所述基于分层图增强堆叠自编码器的多视图图像分类方法的程序代码。
实施例4
本实施例还提供了一种计算机可读存储介质,存储有计算机程序,计算机程序被处理器执行时,使得处理器执行上述基于分层图增强堆叠自编码器的多视图图像分类方法的步骤。
其中,所述计算机可读存储介质存储有界面显示程序,所述界面显示程序可被至少一个处理器执行,以使所述至少一个处理器执行基于分层图增强堆叠自编码器的多视图图像分类方法的步骤。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中,包括若干指令用以使得一台终端设备(可以是手机,计算机,服务器或者网络设备等)执行本申请各个实施例所述的方法。

Claims (9)

1.一种基于分层图增强堆叠自编码器的多视图图像分类方法,其特征在于,包括如下步骤:
步骤S1,样本采集
采集多视图样本χ={X(1),X(2),...,X(V)},并进行归一化处理;
其中
Figure FDA0003661392280000011
N为样本个数,dv为第v个视图的维度,V表示视图个数;
步骤S2,构建模型
构建自编码器网络模型,自编码器网络模型包括自编码器和全连接神经网络;令第v个视图在自编码器的参数为
Figure FDA0003661392280000012
在全连接神经网络中的参数为
Figure FDA0003661392280000013
初始化所有视图在自编码器中的参数
Figure FDA0003661392280000014
以及在全连接神经网络中的参数
Figure FDA0003661392280000015
和公共表示H;
其中l表示自编码器的第l层,L表示自编码器的总层数;m表示全连接神经网络的第m层,M表示全连接神经网络的总层数;v表示第v个视图,V表示视图个数;
Figure FDA0003661392280000016
表示第v个视图在自编码器的第l层编码部分的权重和偏置,
Figure FDA0003661392280000017
表示第v个视图在自编码器的第l层解码部分的权重和偏置;
Figure FDA0003661392280000018
表示第v个视图在全连接神经网络第m层中的权重和偏置;
步骤S3,模型训练
将步骤S1归一化处理后的样本数据输入到自编码器网络模型中,样本数据输入自编码器并获取到每个视图的表示Z,全连接神经网络从初始化的公共表示H中重构出每个视图的表示C,全连接神经网络计算表示Z和表示C之间的损失,并优化、更新全连接神经网络的参数以及公共表示H,直至自编码器网络模型收敛;
步骤S4,实时分类
将实时多视图数据输入经步骤S3训练后的自编码器网络模型中,得到实时的公共表示H,将公共表示H输入到分类器中,对实时多视图数据进行分类,得到分类结果。
2.如权利要求1所述的一种基于分层图增强堆叠自编码器的多视图图像分类方法,其特征在于,步骤S3包括:
步骤S3.1,自编码器网络模型中的编码器为图增强堆叠自编码器,图增强堆叠自编码器包括多个图增强编码-解码结构并以分层的方式堆叠而成,将步骤S1归一化处理后的样本数据输入到图增强堆叠自编码器中进行训练,获取到每个视图的表示Z(L,v)
步骤S3.2,随机初始化公共表示H,令全连接神经网络的输入为C(0,v)=H,从公共表示H中重构出每个单一视图的表示C(M,v),再根据图增强堆叠自编码器网络中学习到的表示Z(L ,v)、和表示C(M,v),通过最小化目标函数Jc,分别对全连接神经网络的参数
Figure FDA0003661392280000021
公共表示H进行更新;
其中最小化目标函数Jc为:
Figure FDA0003661392280000022
步骤S3.3,重复步骤S3.1-S3.2,直至图增强堆叠自编码器网络收敛。
3.如权利要求2所述的一种基于分层图增强堆叠自编码器的多视图图像分类方法,其特征在于,步骤S3.1中,具体步骤为:
步骤S3.1.1,将步骤S1归一化处理后的样本数据输入到图增强堆叠自编码器进行分层预训练,直到最后一层预训练完成;
步骤S3.1.2,基于步骤S3.1.1预训练获得的参数,通过最小化微调目标函数,微调图增强堆叠自编码器的参数。
4.如权利要求3所述的一种基于分层图增强堆叠自编码器的多视图图像分类方法,其特征在于,步骤S3.1.1中,对于第v个视图来说,第l-1层学习到的表示Z(l-1,v)作为第l层的输入;第一层的输入为原始数据,即Z(0,v)=X(v);记第v个视图的第l层参数为Θae (l,v)={W* (l,v),b* (l,v)},*∈{e,d},其中
Figure FDA0003661392280000031
表示第v个视图在自编码器的第l层编码部分的权重和偏置,
Figure FDA0003661392280000032
表示第v个视图在自编码器的第l层解码部分的权重和偏置;;通过最小化目标函数,每个视图的第l层被预训练,直到最后一层预训练完成;
最小化目标函数为:
Figure FDA0003661392280000033
其中,第一项为重构损失,第二项为局部图正则化项,第三步为非局部图正则化项;Θae (l,v)为第v个视图在自编码器第l层的参数,λL和λN分别是局部和非局部正则化项的调节参数;tr()为矩阵的迹;Z(l-1,v)、Z(l,v)分别为第l-1、l层学习到的表示,Z(l-1,v)作为第l层的输入,
Figure FDA0003661392280000034
为第l层输入Z(l-1,v)的重构,L+(l,v)=D+(l,v)-W+(l,v)是第v个视图第l层的局部结构拉普拉斯矩阵,D+(l,v)是第v个视图第l层的局部结构对角矩阵,该对角矩阵中的每个元素可表示为
Figure FDA0003661392280000035
W+(l,v)是第v个视图第l层的局部结构权重矩阵,该权重矩阵中的每个元素可以表示为
Figure FDA0003661392280000041
L-(l,v)=D-(l,v)-W-(l,v)是第v个视图第l层的非局部结构拉普拉斯矩阵,D-(l,v)是第v个视图第l层的非局部结构对角矩阵,该对角矩阵中的每个元素可以表示为
Figure FDA0003661392280000042
W-(l,v)是第v个视图第l层的非局部结构权重矩阵,该权重矩阵中的每个元素可以表示为
Figure FDA0003661392280000043
给定第v个视图的第l层的输入Z(l-1,v),对于每个视图来说,我们使用K近邻方法构造样本表示点的局部邻接图;也就是说,对于每个表示点,通过计算欧氏距离来选择最近的K个表示点作为它的邻居点去构造邻接图。
5.如权利要求4所述的一种基于分层图增强堆叠自编码器的多视图图像分类方法,其特征在于,第v个视图的第l层输入的第i个表示点zi (l-1,v)(i=1,…N,N为总样本数)和它的邻居点zj (l-1,v)之间的权重
Figure FDA0003661392280000044
通过热核函数计算:
Figure FDA0003661392280000045
其中,
Figure FDA0003661392280000046
是输入的第i个表示点zi (l-1,v)的K个近邻点的集合,t是调节参数;
同样地,在选取了K个邻居点后,剩下的点作为zi (l-1,v)的非邻居点去构造非邻接图;zi (l-1,v)和它的非邻居点zj (l-1,v)之间的权重
Figure FDA0003661392280000047
通过热核函数计算:
Figure FDA0003661392280000051
6.如权利要求3所述的一种基于分层图增强堆叠自编码器的多视图图像分类方法,其特征在于,步骤S3.1.2中,最小化微调目标函数为:
Figure FDA0003661392280000052
其中,λ是平衡参数,X(v)是输入的第v个视图,
Figure FDA0003661392280000053
是第v个视图原始输入数据的重构,V表示视图个数,Z(L,v)是学习到的每个视图的最终表示,C(M,v)是从公共表示中重构出来的视图表示;第一项为原始输入和重构输出的重构损失,第二项为最深层的表示和从公共表示中重构出来的表示之间的重构损失;值得注意的是,最深层的表示和从公共表示中重构出来的表示之间的重构损失也被用于去约束图增强堆叠自编码器的微调过程;当全连接神经网络的参数和公共表示被训练后,也被反过来去约束图增强堆叠自编码器的参数的优化。
7.一种基于分层图增强堆叠自编码器的多视图图像分类系统,其特征在于,包括:
样本采集模块,用于采集多视图样本χ={X(1),X(2),...,X(V)},并进行归一化处理;
其中
Figure FDA0003661392280000054
N为样本个数,dv为第v个视图的维度,V表示视图个数;
构建模型模块,用于构建用于自编码器网络模型,自编码器网络模型包括自编码器和全连接神经网络;令第v个视图在自编码器的参数为
Figure FDA0003661392280000061
在全连接神经网络中的参数为
Figure FDA0003661392280000062
初始化所有视图在自编码器中的参数
Figure FDA0003661392280000063
以及在全连接神经网络中的参数
Figure FDA0003661392280000064
和公共表示H;
其中l表示自编码器的第l层,L表示自编码器的总层数;m表示全连接神经网络的第m层,M表示全连接神经网络的总层数;v表示第v个视图,V表示视图个数;
Figure FDA0003661392280000065
表示第v个视图在自编码器的第l层编码部分的权重和偏置,
Figure FDA0003661392280000066
表示第v个视图在自编码器的第l层解码部分的权重和偏置;
Figure FDA0003661392280000067
表示第v个视图在全连接神经网络第m层中的权重和偏置;
模型训练模块,用于将样本采集模块归一化处理后的样本数据输入到自编码器网络模型中,样本数据输入自编码器并获取到每个视图的表示Z,全连接神经网络从初始化的公共表示H中重构出每个视图的表示C,全连接神经网络计算表示Z和表示C之间的损失,并优化、更新全连接神经网络的参数以及公共表示H,直至自编码器网络模型收敛;
实时分类模块,用于将实时多视图数据输入经模型训练模块训练后的自编码器网络模型中,得到实时的公共表示H,将公共表示H输入到分类器中,对实时多视图数据进行分类,得到分类结果。
8.一种计算机设备,其特征在于:包括存储器和处理器,所述存储器存储有计算机程序,所述计算机程序被所述处理器执行时,使得所述处理器执行如权利要求1至6中任一项所述方法的步骤。
9.一种计算机可读存储介质,其特征在于:存储有计算机程序,所述计算机程序被处理器执行时,使得所述处理器执行如权利要求1至6中任一项所述方法的步骤。
CN202210578371.2A 2022-05-25 2022-05-25 基于分层图增强堆叠自编码器的多视图图像分类方法 Active CN114882288B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210578371.2A CN114882288B (zh) 2022-05-25 2022-05-25 基于分层图增强堆叠自编码器的多视图图像分类方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210578371.2A CN114882288B (zh) 2022-05-25 2022-05-25 基于分层图增强堆叠自编码器的多视图图像分类方法

Publications (2)

Publication Number Publication Date
CN114882288A true CN114882288A (zh) 2022-08-09
CN114882288B CN114882288B (zh) 2023-06-06

Family

ID=82678411

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210578371.2A Active CN114882288B (zh) 2022-05-25 2022-05-25 基于分层图增强堆叠自编码器的多视图图像分类方法

Country Status (1)

Country Link
CN (1) CN114882288B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115187787A (zh) * 2022-09-09 2022-10-14 清华大学 用于自监督多视图表征学习的局部流形增强的方法及装置

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20170068888A1 (en) * 2015-09-09 2017-03-09 Intel Corporation Cost-sensitive classification with deep learning using cost-aware pre-training
CN113111797A (zh) * 2021-04-19 2021-07-13 杭州电子科技大学 一种结合自编码器与视角变换模型的跨视角步态识别方法
CN113705603A (zh) * 2021-07-12 2021-11-26 北京邮电大学 不完整多视角数据的聚类方法、电子设备

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20170068888A1 (en) * 2015-09-09 2017-03-09 Intel Corporation Cost-sensitive classification with deep learning using cost-aware pre-training
CN113111797A (zh) * 2021-04-19 2021-07-13 杭州电子科技大学 一种结合自编码器与视角变换模型的跨视角步态识别方法
CN113705603A (zh) * 2021-07-12 2021-11-26 北京邮电大学 不完整多视角数据的聚类方法、电子设备

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
况逸群: "基于多视图投影的半监督手姿态估计算法" *
沈项军,穆磊,查正军,苟建平,詹永照: "基于多重图像分割评价的图像对象定位方法" *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115187787A (zh) * 2022-09-09 2022-10-14 清华大学 用于自监督多视图表征学习的局部流形增强的方法及装置
CN115187787B (zh) * 2022-09-09 2023-01-31 清华大学 用于自监督多视图表征学习的局部流形增强的方法及装置

Also Published As

Publication number Publication date
CN114882288B (zh) 2023-06-06

Similar Documents

Publication Publication Date Title
CN109918671B (zh) 基于卷积循环神经网络的电子病历实体关系抽取方法
Xu et al. Data-driven shape analysis and processing
CN109492666B (zh) 图像识别模型训练方法、装置及存储介质
WO2022105125A1 (zh) 图像分割方法、装置、计算机设备及存储介质
Bi et al. A survey on evolutionary computation for computer vision and image analysis: Past, present, and future trends
CN112418292A (zh) 一种图像质量评价的方法、装置、计算机设备及存储介质
CN109389151A (zh) 一种基于半监督嵌入表示模型的知识图谱处理方法和装置
CN111666873A (zh) 一种基于多任务深度学习网络的训练方法、识别方法及系统
CN109508689B (zh) 一种对抗强化的表情识别方法
CN111325237A (zh) 一种基于注意力交互机制的图像识别方法
Talab et al. A Novel Statistical Feature Analysis‐Based Global and Local Method for Face Recognition
CN114373224B (zh) 基于自监督学习的模糊3d骨架动作识别方法及装置
CN114882288A (zh) 基于分层图增强堆叠自编码器的多视图图像分类方法
CN113761262B (zh) 图像的检索类别确定方法、系统以及图像检索方法
CN113920210B (zh) 基于自适应图学习主成分分析方法的图像低秩重构方法
CN114494809A (zh) 特征提取模型优化方法、装置及电子设备
CN113688715A (zh) 面部表情识别方法及系统
Hazrati Fard et al. Sparse representation using deep learning to classify multi-class complex data
CN108416389B (zh) 基于降噪稀疏自动编码器和密度空间采样的图像分类方法
CN110837804A (zh) 一种稀疏混合字典学习的人脸鉴别方法
Li et al. Adaptive Weberfaces for occlusion‐robust face representation and recognition
Zhang et al. Weighted score-level feature fusion based on Dempster–Shafer evidence theory for action recognition
CN114282060A (zh) 一种基于上下文Transformer网络的细粒度视频-文本检索方法
Kato et al. Visual language modeling on cnn image representations
CN113326898B (zh) 可鉴别几何保持自适应图嵌入方法、装置、设备及介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant