CN109255381B - 一种基于二阶vlad稀疏自适应深度网络的图像分类方法 - Google Patents

一种基于二阶vlad稀疏自适应深度网络的图像分类方法 Download PDF

Info

Publication number
CN109255381B
CN109255381B CN201811038736.2A CN201811038736A CN109255381B CN 109255381 B CN109255381 B CN 109255381B CN 201811038736 A CN201811038736 A CN 201811038736A CN 109255381 B CN109255381 B CN 109255381B
Authority
CN
China
Prior art keywords
layer
saso
order
vladnet
vlad
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201811038736.2A
Other languages
English (en)
Other versions
CN109255381A (zh
Inventor
王倩倩
陈博恒
刘娇蛟
马碧云
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
South China University of Technology SCUT
Original Assignee
South China University of Technology SCUT
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by South China University of Technology SCUT filed Critical South China University of Technology SCUT
Priority to CN201811038736.2A priority Critical patent/CN109255381B/zh
Publication of CN109255381A publication Critical patent/CN109255381A/zh
Application granted granted Critical
Publication of CN109255381B publication Critical patent/CN109255381B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Abstract

本发明提出一种基于二阶VLAD稀疏自适应深度网络的图像分类方法,属于图像分类和深度学习技术领域。本发明首先从多个卷积层提取卷积特征,然后在每个卷积特征中获得相应的SASO‑VLAD编码,最后汇总所有的SASO‑VLAD编码,构建最终的多路径特征编码网络。该方法在现有端到端的VLAD编码模型基础上,使用稀疏自适应软分配编码的新编码方法作为权重系数,用一阶和二阶VLAD编码的级联作为最终的特征表示。对比NetVLAD模型,本发明的稀疏策略和二阶表示有效提高图像分类的有效性,多路径同时使用低、中、高等级特征来训练多个特征编码网络,比单级特征编码网络对图像特征的表示能力更强。

Description

一种基于二阶VLAD稀疏自适应深度网络的图像分类方法
技术领域
本发明属于图像分类和深度学习技术领域,具体涉及一种基于二阶VLAD稀疏自适应深度网络的图像分类方法。
背景技术
深度学习模型已经在计算机视觉领域取得了优异的性能,主要的应用方向包括视觉分类,超分辨率成像,语义分割,目标检测和视觉跟踪。与传统的统计学习方法相比,深度学习模型具有两个主要优点:(1)通过端到端的训练方式可以获得特定计算机视觉任务的更适合的权重。(2)从大规模图像数据集中学习到的深层结构特征可以更好地描述原始图像。相比于传统的手工特征(SIFT特征或HOG特征)方法,深度特征方法可以显著地提升性能。
考虑到端到端模型和深层特征的巨大优势,最近的一些工作将传统统计学习方法的领域知识嵌入到深度神经网络中,并以端到端的方式训练整个模型。这些新结构的神经网络不仅继承了领域专业知识,而且使所有参数更适合最终的应用任务。
特征编码是一种流行的视觉分类统计学习方法。在传统的特征编码框架中,特征编码方法是连接特征提取和特征池化的核心组件,并且对视觉分类性能影响很大。流行的特征编码方法包括硬编码、软编码、卷积稀疏编码、局部约束编码、局部特征聚合描述符(VLAD)编码等。传统的特征编码方法中的所有算法组件(特征提取,字典学习,特征编码和分类器训练)都是相互独立的,因此学习到的参数对于图像分类来说可能不是最优的。此外,传统特征编码方法中使用的SIFT(尺度不变特征变换)特征不能很好地表示图像。最近,传统的VLAD编码(NetVLAD)模型被扩展到称为NetVLAD的端到端模型。NetVLAD层结合深度CNN进行联合训练,以获得出色的图像分类和图像检索结果,此外,NetVLAD模型已经在动作分类领域证明了它的有效性。但是现有的NetVLAD模型仅使用来自空间尺度的一阶聚合信息,端到端特征编码网络的辨别能力尚未充分研究。
发明内容
本发明为了克服现有NetVLAD模型,端到端特征编码网络的辨别能力尚未充分研究的缺点,提出一种基于二阶VLAD稀疏自适应深度网络的图像分类方法。该方法在现有NetVLAD模型基础上,使用稀疏自适应软分配编码(SASAC)的新编码方法作为权重系数,利用一阶和二阶VLAD编码共同表示端到端的稀疏自适应二阶VLAD模型(SASO-VLADNet),从多个卷积层提取卷积特征,通过由多个SASO-VLADNet构成的多路特征编码网络(M-SASO-VLADNet)产生最终的特征编码,最后通过全连接层和损失层输出分类损失。
本发明的目的具体通过如下技术方案实现。
一种基于二阶VLAD稀疏自适应深度网络的图像分类方法,该方法使用端到端训练的多路特征编码网络,首先从多个卷积层后面的激活函数提取非线性的卷积特征,然后在每个卷积特征中计算相应的稀疏自适应二阶-局部特征聚合描述符SASO-VLAD(稀疏自适应二阶-局部特征聚合描述符)编码,最后汇总所有的SASO-VLAD编码,构建最终的多路径特征编码网络(M-SASO-VLADNet),通过全连接层和损失层输出分类损失;所述SASO-VLAD编码使用稀疏自适应软分配编码(SASAC)来得到稀疏的权重系数,利用一阶和二阶VLAD编码共同表示端到端的稀疏自适应二阶VLAD模型(SASO-VLADNet)。
进一步地,在所述的稀疏自适应软分配编码(SASAC)这一新的编码方法中,稀疏自适应软分配编码(SASAC)层是多维高斯概率密度函数的变体,并通过端到端的方式自适应地学习所有参数,包括字典和方差参数;SASAC层仅保留T个最大概率,并强制其他小概率为零以获得稀疏权重系数。
进一步地,所述端到端的SASO-VLAD构成SASO-VLADNet层,网络构成步骤为:
步骤3.1:使用卷积层的一个特定CNN特征Fi通过SASAC层和降维层后相乘得到一阶统计信息ξ1(Fi);
步骤3.2:ξ1(Fi)通过平均池化层后经过L2范数归一化,ξ1(Fi)通过二阶层得到二阶统计信息ξ2(Fi)后经过L2范数归一化,连接两个归一化输出后经过L2范数归一化得到最后输出;所述降维方法为仿射子空间方法。
进一步地,所述SASAC层表达式为:
Figure BDA0001791563180000021
其中||.||2代表向量的L2范数,
Figure BDA0001791563180000022
代表模型第i个图像特定卷积层特征的描述符集,这个描述符集合中一共有M个描述符,fij∈RD×1是Fi的第j个描述符,D代表向量维度,ak∈RD×1,bk∈RD×1,vk∈R,(k=1,2,…,K)分别是fij的权值,fij的偏置以及归一化的偏置,这些参数都是SASO-VLADNet中的可训练参数。这些参数一共有K组,k表示具体的某一组参数的索引。k'表示满足集合ST(fij)条件的若干组参数的索引。
ST(fij)是满足如下条件的集合:
Figure BDA0001791563180000023
其中
Figure BDA0001791563180000024
是ST(fij)的互补集合,Card(ST(fij))是ST(fij)的元素数。
进一步地,激活函数可以为sigmoid函数、tanh函数和ReLU函数中的一种;
进一步地,所述一阶统计信息ξ1(Fi)表达式为:
Figure BDA0001791563180000031
Figure BDA0001791563180000032
代表模型第i个图像的特定卷积层特征的描述符集,这个描述符集合中一共有M个描述符,fij∈RD×1是Fi的第j个描述符,D代表向量维度,λij(k)为权利要求4中的SASAC层的编码系数,Ukk为一阶统计信息中的降维矩阵和偏置,并且一共有K组降维矩阵和偏置,k表示具体的某一组降维矩阵和偏置的索引,(Ukfijk)表示第k组仿射子空间层。降维矩阵和偏置都是SASO-VLADNet中的可训练参数。
进一步地,二阶统计信息ξ2(Fi)利用协方差矩阵获得通道间的交互特征,二阶统计信息ξ2(Fi)的表达
式为:
Figure BDA0001791563180000033
其中vec是将矩阵转换为相应列向量的向量运算。
进一步地,所述的SASO-VLADNet模型的前向操作首先更新深度网络的最终损失,然后将损失关于每个参数的梯度反向传播到输入以更新SASO-VLADNet层;所述输出的分类损失是标准的softmax损失。
进一步地,所述多路特征编码网络(M-SASO-VLADNet)同时使用低、中、高多个等级的卷积特征来训练多个特征编码网络。
进一步地,所述的完整模型的参数更新步骤包括:
步骤1:在每个SASO-VLADNet层获得初始化参数;
步骤2:通过每一个SASO-VLADNet编码和最终的softmax分类器来初始化最终的全连接层的权值;
步骤3:利用上述的初始化参数并基于端到端的训练方式,softmax分类器的梯度信息用于更新M-SASO-VLADNet中每一层的参数直到分类器损失曲线收敛为止。
与现有技术相比,本发明方法所提出的一种基于二阶VLAD稀疏自适应深度网络的图像分类方法,具有如下优点:
对比NetVLAD模型,本发明的稀疏策略和二阶表示有效提高了图像分类的性能,多路径同时使用低、中、高等级特征来训练多个特征编码网络,比单级特征编码网络对图像特征的表示能力更强。
附图说明
图1是本发明方法的流程示意图;
图2是本发明方法中SASO-VLADNet层的网络结构图;
图3是本发明方法中M-SASO-VLADNet网络结构图。
具体实施方式
为了清楚地说明本发明的目的、技术方案及优点,以下结合附图及实施例,对本发明进行进一步详细说明。需指出的是,以下若有未特别详细说明之过程或符号,均是本领域技术人员可参照现有技术实现或理解的。应当理解的是,此处所描述的具体实施方案仅仅用以解释本发明,不应视为本发明专利的保护范围,本发明以所附权利要求为专利保护范围。此外,下面所描述的本发明各个实施方案中所涉及到的技术特征只要彼此之间未构成冲突就可以相互组合。
如图1所示,一种基于二阶VLAD稀疏自适应深度网络的图像分类方法包括以下步骤:
步骤1:利用深度卷积神经网对图像进行预处理,选取特定L=4个卷积层,提取每个卷积层通过激活函数后的特征作为L=4个输入向量;
具体地,使用VGG-VD网络提取SASO-VLADNet的单级特征和M-SASO-VLADNet的多级特征,对于SASO-VLADNet来说,所提取的单级特征为VGG-VD网络的relu5_3卷积层的特征,对于M-SASO-VLADNet来说,所提取的多级特征为VGG-VD网络的relu5_1,relu5_2,relu5_3和pool5这4个卷积层的特征。所有图像的大小调整为448×448像素,用随机裁剪技术和随机镜像技术增强图像,使用灵活高效的深度学习库Mxnet来实现深度CNN特征提取。
具体地,激活函数为sigmoid函数、tanh函数和ReLU函数中的一种。
步骤2:如图2所示,某一个特定卷积层特征(relu5_1,relu5_2,relu5_3和pool5中的一个)的SASO-VLADNet编码计算过程如下所示:
步骤2.1:使用一个特定卷积层的特征(relu5_1,relu5_2,relu5_3和pool5中的一个)Fi通过稀疏自适应软分配编码(SASAC)层和降维层后相乘得到一阶统计信息ξ1(Fi);
步骤2.2:ξ1(Fi)通过平均池化层后经过L2范数归一化,ξ1(Fi)通过二阶层得到二阶统计信息ξ2(Fi),ξ2(Fi)经过L2范数归一化,连接两个归一化输出,再经过L2范数归一化得到SASO-VLADNet层输出。
具体地,对于SASO-VLADNet来说,前端的深度CNN由VGG-VD网络初始化,该网络是从大规模ImageNet数据集预训练得到的,然后,利用一个特定CNN特征(relu5_1,relu5_2,relu5_3和pool5中的一个)来学习初始化字典
Figure BDA0001791563180000051
初始化字典由VLFeat库中的K-means算法获得。在SASO-VLADNet模型中,一般选取K=128就能得到足够好的性能,因此设置K=128。
步骤3:
Figure BDA0001791563180000052
代表模型第i个图像特定卷积层特征的描述符集,fij∈RD×1是Fi的第j个描述符,D代表向量维度也即卷积特征的通道数目,对于VGG-VD网络来说,最后几层卷积特征的通道数目为512,所以在SASO-VLADNet中,D=512。
SASO-VLADNet层中新构造的SASAC层表达式为:
Figure BDA0001791563180000053
其中||.||2代表向量的L2范数,
Figure BDA0001791563180000054
代表模型第i个图像特定卷积层特征的描述符集,这个描述符集合中一共有M个描述符,fij∈RD×1是Fi的第j个描述符,D代表向量维度,ak∈RD×1,bk∈RD×1,vk∈R,(k=1,2,…,K)分别是fij的权值,fij的偏置以及归一化的偏置,这些参数都是SASO-VLADNet中的可训练参数。这些参数一共有K组,k表示具体的某一组参数的索引。k'表示满足集合ST(fij)条件的若干组参数的索引。
ST(fij)是满足如下条件的集合:
Figure BDA0001791563180000055
其中
Figure BDA0001791563180000056
是ST(fij)的互补集合,Card(ST(fij))是ST(fij)的元素数。
具体地,SASAC层保持T个最大值,T的取值不能太大或太小,具体的T值由交叉验证确定。通过相关的实验验证,为了简便起见,一般设置T=5。
步骤4:利用仿射子空间方法进行降维;
SASO-VLADNet中的仿射子空间层为:Rk=Uk(fij-ck)=(Ukfijk)
其中μk=-Ukck∈RP×1,Uk∈RP×D(k=1,2,...,k)是仿射子空间方法中的降维投影矩阵,P是子空间维数。P决定了最终的特征长度,为了使得特征表示有相对小的维度而有足够好的性能,一般设置P=128。
一阶统计信息ξ1(Fi)的表达为:
Figure BDA0001791563180000061
具体地,(Ukfijk)可看做卷积权重为Uk,偏置为μk的1×1卷积层,可利用传统的CNN训练方法高效地训练端到端的仿射子空间层。
步骤5:二阶统计信息ξ2(Fi)的表达式为:
Figure BDA0001791563180000062
其中vec是将矩阵转换为相应列向量的向量运算。
具体地,利用一阶特征的协方差矩阵获得特征通道间的交互表示,由于二阶统计信息是可微的,所以二阶统计信息层可通过端到端的方式进行训练。
步骤6:由于仿射子空间层和二阶统计量层可以用已有的端到端方法来进行训练,而SASAC层是一个全新结构的网络层,这里给出SASAC层的具体的反向传播函数来进行端到端的训练:
步骤6.1:SASAC层表达式对每个k(k=1,2,...,K)等价于三个表达式:
Figure BDA0001791563180000063
Figure BDA0001791563180000064
Figure BDA0001791563180000065
SASAC层等价表达式的第二个表达式可看做最大池化层的一种变种,该表达式保持T个最大值,强制剩余值为0;第三个表达式是归一化层获得归一化权重系数。
步骤6.2:对每个k,最终的分类损失J相对于SASAC层输出的梯度为
Figure BDA0001791563180000066
基于链式法则得到γij(k)和βij(k)的梯度表达式为:
Figure BDA0001791563180000071
Figure BDA0001791563180000072
步骤6.3:基于所述βij(k)(k=1,2,...,K)和SASAC层等价表达式组的第二个表达式,可得到损失J相对于fij的梯度表达式:
Figure BDA0001791563180000073
Figure BDA0001791563180000074
步骤6.4:基于所述βij(k)(k=1,2,...,K)和SASAC层等价表达式组的第二个表达式,可得到损失J相对于ak,bk,vk的梯度表达式:
Figure BDA0001791563180000075
Figure BDA0001791563180000077
步骤7:输入预处理的图像后,可以得到第i个图片的特定卷积层的卷积特征Fi,Fi的SASO-VLAD(稀疏自适应二阶-局部特征聚合描述符)表示的最终表达式为:
Figure BDA0001791563180000076
其中,L2norm是一个向量的L2范数归一化方法,ak,bk,vk,Ukk(k=1,2,...,k)是SASO-VLADNet中的可训练参数。
具体地,ak,bk,vk,Ukk(k=1,2,...,K)这些参数是通过端到端的方式学习得到的。
在SASO-VLADNet中的参数更新过程中,首先通过前向运算更新深度网络的最终损失,然后将损失关于每个参数的梯度反向传播到输入以更新整个SASO-VLADNet模型。
步骤8:当得到L=4个SASO-VLADNet编码(relu5_1,relu5_2,relu5_3和pool5卷积特征产生的编码)后,将这4个编码级联起来得到最终的M-SASO-VLADNet编码,如图3所示。M-SASO-VLADNet编码经过最终的全连接层、损失层得到分类损失,损失层是标准的softmax损失,记为:
Figure BDA0001791563180000081
其中,C是分类数量,1{}是指示函数,1{a true state}=1,1{a false state}=0,yi代表第i个图像的类别标签,ρic是L=4个SASO-VLADNet(通过relu5_1,relu5_2,relu5_3和pool5产生的4个SASO-VLADNet编码)的全部预测分数:
Figure BDA0001791563180000082
其中,
Figure BDA0001791563180000083
Figure BDA0001791563180000084
是第l(l=1,2,...,L)个全连接(FC)层的权重和偏置。
具体地,ρic进一步表示为:ρic=(Gc)T[ξ(Fi (1));ξ(Fi (2));…ξ(Fi (L))]+(Bc)T
对训练好的SASO-VLADNet和M-SASO-VLADNet在目标图像数据集(Caltech256数据集),细粒度图像数据集(CUB200数据集,StandFord Car数据集)和纹理图像数据集上测试了他们的图像分类性能,相比于NetVLAD模型,SASO-VLADNet提升2-4%的图像识别率。而所提出的多路网络(M-SASO-VLADNet)比所提出的单路网络(SASO-VLADNet)提升了1%左右的图像识别率。
步骤9:基于二阶VLAD稀疏自适应深度网络的完整的参数更新步骤包括:
步骤9.1:在每个SASO-VLADNet层获得初始化参数;
步骤9.2:通过每一个SASO-VLADNet编码和最终的softmax分类器来初始化最终的全连接层的权值;
步骤9.3:利用上述的初始化参数并基于端到端的训练方式,softmax分类器的梯度信息用于更新M-SASO-VLADNet中每一层的参数直到分类器损失曲线收敛为止。

Claims (8)

1.一种基于二阶VLAD稀疏自适应深度网络的图像分类方法,其特征在于,使用端到端训练的多路特征编码网络,首先从多个卷积层后面的激活函数提取非线性的卷积特征,然后在每个卷积特征中计算相应的稀疏自适应二阶-局部特征聚合描述符SASO-VLAD编码,最后汇总所有的SASO-VLAD编码,构建最终的多路径特征编码网络M-SASO-VLADNet,通过全连接层和损失层输出分类损失;所述SASO-VLAD编码使用稀疏自适应软分配编码SASAC来得到稀疏的权重系数,利用一阶和二阶VLAD编码共同表示端到端的稀疏自适应二阶VLAD模型SASO-VLADNet;
卷积层特征的SASO-VLADNet编码计算过程包括以下步骤:
步骤2.1:使用一个卷积层的特征Fi通过稀疏自适应软分配编码(SASAC)层和降维层后相乘得到一阶统计信息ξ1(Fi);
步骤2.2:ξ1(Fi)通过平均池化层后经过L2范数归一化,ξ1(Fi)通过二阶层得到二阶统计信息ξ2(Fi),ξ2(Fi)经过L2范数归一化,连接两个归一化输出,再经过L2范数归一化得到SASO-VLADNet层输出;
二阶统计信息ξ2(Fi)利用协方差矩阵获得通道间的交互特征,二阶统计信息ξ2(Fi)的表达式为:
Figure FDA0003417128380000011
其中vec是将矩阵转换为相应列向量的向量运算,
Figure FDA0003417128380000012
代表模型第i个图像特定卷积层特征的描述符集,描述符集合中一共有M个描述符,fij∈RD×1是Fi的第j个描述符,D代表向量维度;Ukk为一阶统计信息中的降维矩阵和偏置,k表示某一组降维矩阵和偏置的索引,K表示降维矩阵和偏置的组数,λij(k)为SASAC层的编码系数。
2.根据权利要求1所述的一种基于二阶VLAD稀疏自适应深度网络的图像分类方法,其特征在于,所述端到端的SASO-VLAD构成SASO-VLADNet层,网络构成步骤为:
步骤3.1:使用卷积层的一个特定CNN特征Fi通过SASAC层和降维层后相乘得到一阶统计信息ξ1(Fi);
步骤3.2:ξ1(Fi)通过平均池化层后经过L2范数归一化,ξ1(Fi)通过二阶层得到二阶统计信息ξ2(Fi)后经过L2范数归一化,连接两个归一化输出后经过L2范数归一化得到最后输出;降维层的降维方法为仿射子空间方法;
在所述稀疏自适应软分配编码SASAC中,稀疏自适应软分配编码SASAC层是多维高斯概率密度函数的变体,并通过端到端的方式自适应地学习所有参数,包括字典和方差参数;SASAC层仅保留T个最大概率,并强制其他小概率为零以获得稀疏权重系数。
3.根据权利要求2所述的一种基于二阶VLAD稀疏自适应深度网络的图像分类方法,其特征在于,所述SASAC层表达式为:
Figure FDA0003417128380000021
Figure FDA0003417128380000022
其中||.||2代表向量的L2范数,
Figure FDA0003417128380000023
代表模型第i个图像特定卷积层特征的描述符集,这个描述符集合中一共有M个描述符,fij∈RD×1是Fi的第j个描述符,D代表向量维度,ak∈RD×1,bk∈RD×1,vk∈R,(k=1,2,...,K)分别是fij的权值,fij的偏置以及归一化的偏置,这些参数都是SASO-VLADNet中的可训练参数;这些参数一共有K组,k表示具体的某一组参数的索引;k'表示满足集合ST(fij)条件的若干组参数的索引;
ST(fij)是满足如下条件的集合:
Figure FDA0003417128380000024
其中
Figure FDA0003417128380000025
是ST(fij)的互补集合,Card(ST(fij))是ST(fij)的元素数。
4.根据权利要求1或2所述的一种基于二阶VLAD稀疏自适应深度网络的图像分类方法,其特征在于,激活函数为sigmoid函数、tanh函数和ReLU函数中的一种。
5.根据权利要求4所述的一种基于二阶VLAD稀疏自适应深度网络的图像分类方法,其特征在于,所述一阶统计信息ξ1(Fi)表达式为:
Figure FDA0003417128380000026
Figure FDA0003417128380000031
代表模型第i个图像的特定卷积层特征的描述符集,这个描述符集合中一共有M个描述符,fij∈RD×1是Fi的第j个描述符,D代表向量维度,λij(k)为SASAC层的编码系数,Ukk为一阶统计信息中的降维矩阵和偏置,并且一共有K组降维矩阵和偏置,k表示具体的某一组降维矩阵和偏置的索引,(Ukfijk)表示第k组仿射子空间层;降维矩阵和偏置都是SASO-VLADNet中的可训练参数。
6.根据权利要求4所述的一种基于二阶VLAD稀疏自适应深度网络的图像分类方法,其特征在于,所述的SASO-VLADNet模型的前向操作首先更新深度网络的最终损失,然后将损失关于每个参数的梯度反向传播到输入以更新SASO-VLADNet层;所述输出的分类损失是标准的softmax损失。
7.根据权利要求1所述的一种基于二阶VLAD稀疏自适应深度网络的图像分类方法,其特征在于,所述多路特征编码网络同时使用低、中、高多个等级的卷积特征来训练多个特征编码网络。
8.根据权利要求1所述的一种基于二阶VLAD稀疏自适应深度网络的图像分类方法,其特征在于,SASO-VLADNet模型的参数更新步骤包括:
步骤1:在每个SASO-VLADNet层获得初始化参数;
步骤2:通过每一个SASO-VLADNet编码和最终的softmax分类器来初始化最终的全连接层的权值;
步骤3:利用上述的初始化参数并基于端到端的训练方式,softmax分类器的梯度信息用于更新M-SASO-VLADNet中每一层的参数直到分类器损失曲线收敛为止。
CN201811038736.2A 2018-09-06 2018-09-06 一种基于二阶vlad稀疏自适应深度网络的图像分类方法 Active CN109255381B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201811038736.2A CN109255381B (zh) 2018-09-06 2018-09-06 一种基于二阶vlad稀疏自适应深度网络的图像分类方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201811038736.2A CN109255381B (zh) 2018-09-06 2018-09-06 一种基于二阶vlad稀疏自适应深度网络的图像分类方法

Publications (2)

Publication Number Publication Date
CN109255381A CN109255381A (zh) 2019-01-22
CN109255381B true CN109255381B (zh) 2022-03-29

Family

ID=65047079

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201811038736.2A Active CN109255381B (zh) 2018-09-06 2018-09-06 一种基于二阶vlad稀疏自适应深度网络的图像分类方法

Country Status (1)

Country Link
CN (1) CN109255381B (zh)

Families Citing this family (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109784420B (zh) * 2019-01-29 2021-12-28 深圳市商汤科技有限公司 一种图像处理方法及装置、计算机设备和存储介质
CN109901207A (zh) * 2019-03-15 2019-06-18 武汉大学 一种北斗卫星系统与图像特征结合的高精度室外定位方法
CN110135460B (zh) * 2019-04-16 2023-04-18 广东工业大学 基于vlad卷积模块的图像信息强化方法
CN110209859B (zh) * 2019-05-10 2022-12-27 腾讯科技(深圳)有限公司 地点识别及其模型训练的方法和装置以及电子设备
CN110991480A (zh) * 2019-10-31 2020-04-10 上海交通大学 一种基于注意力机制的稀疏编码方法
CN111967528B (zh) * 2020-08-27 2023-12-26 北京大学 基于稀疏编码的深度学习网络结构搜索的图像识别方法
CN113139587B (zh) * 2021-03-31 2024-02-06 杭州电子科技大学 一种自适应交互结构学习的双二次池化模型

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103336795A (zh) * 2013-06-09 2013-10-02 华中科技大学 基于多特征的视频索引方法
CN104408479A (zh) * 2014-11-28 2015-03-11 电子科技大学 一种基于深度局部特征描述符的海量图像分类方法
CN108460764A (zh) * 2018-03-31 2018-08-28 华南理工大学 基于自动上下文和数据增强的超声图像智能分割方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103336795A (zh) * 2013-06-09 2013-10-02 华中科技大学 基于多特征的视频索引方法
CN104408479A (zh) * 2014-11-28 2015-03-11 电子科技大学 一种基于深度局部特征描述符的海量图像分类方法
CN108460764A (zh) * 2018-03-31 2018-08-28 华南理工大学 基于自动上下文和数据增强的超声图像智能分割方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
A novel localized and second order feature coding network for image recognition;Chen et al.;《Pattern Recognition》;20180430;第339-348页 *

Also Published As

Publication number Publication date
CN109255381A (zh) 2019-01-22

Similar Documents

Publication Publication Date Title
CN109255381B (zh) 一种基于二阶vlad稀疏自适应深度网络的图像分类方法
Harshvardhan et al. A comprehensive survey and analysis of generative models in machine learning
Neill An overview of neural network compression
Gao et al. Flow contrastive estimation of energy-based models
CN107526785B (zh) 文本分类方法及装置
CN108133188B (zh) 一种基于运动历史图像与卷积神经网络的行为识别方法
CN107506712B (zh) 一种基于3d深度卷积网络的人类行为识别的方法
Morgado et al. Semantically consistent regularization for zero-shot recognition
CN108121975B (zh) 一种联合原始数据和生成数据的人脸识别方法
US11748919B2 (en) Method of image reconstruction for cross-modal communication system and device thereof
CN113326731B (zh) 一种基于动量网络指导的跨域行人重识别方法
CN110490227B (zh) 一种基于特征转换的少样本图像分类方法
CN111126488A (zh) 一种基于双重注意力的图像识别方法
CN109063719B (zh) 一种联合结构相似性和类信息的图像分类方法
CN110378208B (zh) 一种基于深度残差网络的行为识别方法
CN107909115A (zh) 一种图像中文字幕生成方法
CN111444367A (zh) 一种基于全局与局部注意力机制的图像标题生成方法
CN112784929B (zh) 一种基于双元组扩充的小样本图像分类方法及装置
CN112527966B (zh) 基于Bi-GRU神经网络和自注意力机制的网络文本情感分析方法
CN113283590B (zh) 一种面向后门攻击的防御方法
CN113673535B (zh) 一种多模态特征融合网络的图像描述生成方法
Rao et al. Regularization and iterative initialization of softmax for fast training of convolutional neural networks
CN112749274A (zh) 基于注意力机制和干扰词删除的中文文本分类方法
Wu et al. Weighted generalized mean pooling for deep image retrieval
CN112926661A (zh) 一种增强图像分类鲁棒性的方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant