CN109255381B

CN109255381B - 一种基于二阶vlad稀疏自适应深度网络的图像分类方法

Info

Publication number: CN109255381B
Application number: CN201811038736.2A
Authority: CN
Inventors: 王倩倩; 陈博恒; 刘娇蛟; 马碧云
Original assignee: South China University of Technology SCUT
Current assignee: South China University of Technology SCUT
Priority date: 2018-09-06
Filing date: 2018-09-06
Publication date: 2022-03-29
Anticipated expiration: 2038-09-06
Also published as: CN109255381A

Abstract

本发明提出一种基于二阶VLAD稀疏自适应深度网络的图像分类方法，属于图像分类和深度学习技术领域。本发明首先从多个卷积层提取卷积特征，然后在每个卷积特征中获得相应的SASO‑VLAD编码，最后汇总所有的SASO‑VLAD编码，构建最终的多路径特征编码网络。该方法在现有端到端的VLAD编码模型基础上，使用稀疏自适应软分配编码的新编码方法作为权重系数，用一阶和二阶VLAD编码的级联作为最终的特征表示。对比NetVLAD模型，本发明的稀疏策略和二阶表示有效提高图像分类的有效性，多路径同时使用低、中、高等级特征来训练多个特征编码网络，比单级特征编码网络对图像特征的表示能力更强。

Description

一种基于二阶VLAD稀疏自适应深度网络的图像分类方法

技术领域

本发明属于图像分类和深度学习技术领域，具体涉及一种基于二阶VLAD稀疏自适应深度网络的图像分类方法。

背景技术

深度学习模型已经在计算机视觉领域取得了优异的性能，主要的应用方向包括视觉分类，超分辨率成像，语义分割，目标检测和视觉跟踪。与传统的统计学习方法相比，深度学习模型具有两个主要优点：(1)通过端到端的训练方式可以获得特定计算机视觉任务的更适合的权重。(2)从大规模图像数据集中学习到的深层结构特征可以更好地描述原始图像。相比于传统的手工特征(SIFT特征或HOG特征)方法，深度特征方法可以显著地提升性能。

考虑到端到端模型和深层特征的巨大优势，最近的一些工作将传统统计学习方法的领域知识嵌入到深度神经网络中，并以端到端的方式训练整个模型。这些新结构的神经网络不仅继承了领域专业知识，而且使所有参数更适合最终的应用任务。

特征编码是一种流行的视觉分类统计学习方法。在传统的特征编码框架中，特征编码方法是连接特征提取和特征池化的核心组件，并且对视觉分类性能影响很大。流行的特征编码方法包括硬编码、软编码、卷积稀疏编码、局部约束编码、局部特征聚合描述符(VLAD)编码等。传统的特征编码方法中的所有算法组件(特征提取，字典学习，特征编码和分类器训练)都是相互独立的，因此学习到的参数对于图像分类来说可能不是最优的。此外，传统特征编码方法中使用的SIFT(尺度不变特征变换)特征不能很好地表示图像。最近，传统的VLAD编码(NetVLAD)模型被扩展到称为NetVLAD的端到端模型。NetVLAD层结合深度CNN进行联合训练，以获得出色的图像分类和图像检索结果，此外，NetVLAD模型已经在动作分类领域证明了它的有效性。但是现有的NetVLAD模型仅使用来自空间尺度的一阶聚合信息，端到端特征编码网络的辨别能力尚未充分研究。

发明内容

本发明为了克服现有NetVLAD模型，端到端特征编码网络的辨别能力尚未充分研究的缺点，提出一种基于二阶VLAD稀疏自适应深度网络的图像分类方法。该方法在现有NetVLAD模型基础上，使用稀疏自适应软分配编码(SASAC)的新编码方法作为权重系数，利用一阶和二阶VLAD编码共同表示端到端的稀疏自适应二阶VLAD模型(SASO-VLADNet)，从多个卷积层提取卷积特征，通过由多个SASO-VLADNet构成的多路特征编码网络(M-SASO-VLADNet)产生最终的特征编码，最后通过全连接层和损失层输出分类损失。

本发明的目的具体通过如下技术方案实现。

一种基于二阶VLAD稀疏自适应深度网络的图像分类方法，该方法使用端到端训练的多路特征编码网络，首先从多个卷积层后面的激活函数提取非线性的卷积特征，然后在每个卷积特征中计算相应的稀疏自适应二阶-局部特征聚合描述符SASO-VLAD(稀疏自适应二阶-局部特征聚合描述符)编码，最后汇总所有的SASO-VLAD编码，构建最终的多路径特征编码网络(M-SASO-VLADNet)，通过全连接层和损失层输出分类损失；所述SASO-VLAD编码使用稀疏自适应软分配编码(SASAC)来得到稀疏的权重系数，利用一阶和二阶VLAD编码共同表示端到端的稀疏自适应二阶VLAD模型(SASO-VLADNet)。

进一步地，在所述的稀疏自适应软分配编码(SASAC)这一新的编码方法中，稀疏自适应软分配编码(SASAC)层是多维高斯概率密度函数的变体，并通过端到端的方式自适应地学习所有参数，包括字典和方差参数；SASAC层仅保留T个最大概率，并强制其他小概率为零以获得稀疏权重系数。

进一步地，所述端到端的SASO-VLAD构成SASO-VLADNet层，网络构成步骤为：

步骤3.1：使用卷积层的一个特定CNN特征F_i通过SASAC层和降维层后相乘得到一阶统计信息ξ₁(F_i)；

步骤3.2：ξ₁(F_i)通过平均池化层后经过L2范数归一化，ξ₁(F_i)通过二阶层得到二阶统计信息ξ₂(F_i)后经过L2范数归一化，连接两个归一化输出后经过L2范数归一化得到最后输出；所述降维方法为仿射子空间方法。

进一步地，所述SASAC层表达式为：

其中||.||₂代表向量的L2范数，

代表模型第i个图像特定卷积层特征的描述符集，这个描述符集合中一共有M个描述符，f_ij∈R^D×1是F_i的第j个描述符，D代表向量维度，a_k∈R^D×1,b_k∈R^D×1,v_k∈R,(k＝1,2,…,K)分别是f_ij的权值，f_ij的偏置以及归一化的偏置，这些参数都是SASO-VLADNet中的可训练参数。这些参数一共有K组，k表示具体的某一组参数的索引。k'表示满足集合S_T(f_ij)条件的若干组参数的索引。

S_T(f_ij)是满足如下条件的集合：

其中

是S_T(f_ij)的互补集合，Card(S_T(f_ij))是S_T(f_ij)的元素数。

进一步地，激活函数可以为sigmoid函数、tanh函数和ReLU函数中的一种；

进一步地，所述一阶统计信息ξ₁(F_i)表达式为：

代表模型第i个图像的特定卷积层特征的描述符集，这个描述符集合中一共有M个描述符，f_ij∈R^D×1是F_i的第j个描述符，D代表向量维度，λ_ij(k)为权利要求4中的SASAC层的编码系数，U_k,μ_k为一阶统计信息中的降维矩阵和偏置，并且一共有K组降维矩阵和偏置，k表示具体的某一组降维矩阵和偏置的索引，(U_kf_ij+μ_k)表示第k组仿射子空间层。降维矩阵和偏置都是SASO-VLADNet中的可训练参数。

进一步地，二阶统计信息ξ₂(F_i)利用协方差矩阵获得通道间的交互特征，二阶统计信息ξ₂(F_i)的表达

式为：

其中vec是将矩阵转换为相应列向量的向量运算。

进一步地，所述的SASO-VLADNet模型的前向操作首先更新深度网络的最终损失，然后将损失关于每个参数的梯度反向传播到输入以更新SASO-VLADNet层；所述输出的分类损失是标准的softmax损失。

进一步地，所述多路特征编码网络(M-SASO-VLADNet)同时使用低、中、高多个等级的卷积特征来训练多个特征编码网络。

进一步地，所述的完整模型的参数更新步骤包括：

步骤1：在每个SASO-VLADNet层获得初始化参数；

步骤2：通过每一个SASO-VLADNet编码和最终的softmax分类器来初始化最终的全连接层的权值；

步骤3：利用上述的初始化参数并基于端到端的训练方式，softmax分类器的梯度信息用于更新M-SASO-VLADNet中每一层的参数直到分类器损失曲线收敛为止。

与现有技术相比，本发明方法所提出的一种基于二阶VLAD稀疏自适应深度网络的图像分类方法，具有如下优点：

对比NetVLAD模型，本发明的稀疏策略和二阶表示有效提高了图像分类的性能，多路径同时使用低、中、高等级特征来训练多个特征编码网络，比单级特征编码网络对图像特征的表示能力更强。

附图说明

图1是本发明方法的流程示意图；

图2是本发明方法中SASO-VLADNet层的网络结构图；

图3是本发明方法中M-SASO-VLADNet网络结构图。

具体实施方式

为了清楚地说明本发明的目的、技术方案及优点，以下结合附图及实施例，对本发明进行进一步详细说明。需指出的是，以下若有未特别详细说明之过程或符号，均是本领域技术人员可参照现有技术实现或理解的。应当理解的是，此处所描述的具体实施方案仅仅用以解释本发明，不应视为本发明专利的保护范围，本发明以所附权利要求为专利保护范围。此外，下面所描述的本发明各个实施方案中所涉及到的技术特征只要彼此之间未构成冲突就可以相互组合。

如图1所示，一种基于二阶VLAD稀疏自适应深度网络的图像分类方法包括以下步骤：

步骤1：利用深度卷积神经网对图像进行预处理，选取特定L＝4个卷积层，提取每个卷积层通过激活函数后的特征作为L＝4个输入向量；

具体地，使用VGG-VD网络提取SASO-VLADNet的单级特征和M-SASO-VLADNet的多级特征，对于SASO-VLADNet来说，所提取的单级特征为VGG-VD网络的relu5_3卷积层的特征，对于M-SASO-VLADNet来说，所提取的多级特征为VGG-VD网络的relu5_1，relu5_2，relu5_3和pool5这4个卷积层的特征。所有图像的大小调整为448×448像素，用随机裁剪技术和随机镜像技术增强图像，使用灵活高效的深度学习库Mxnet来实现深度CNN特征提取。

具体地，激活函数为sigmoid函数、tanh函数和ReLU函数中的一种。

步骤2：如图2所示，某一个特定卷积层特征(relu5_1，relu5_2，relu5_3和pool5中的一个)的SASO-VLADNet编码计算过程如下所示：

步骤2.1：使用一个特定卷积层的特征(relu5_1，relu5_2，relu5_3和pool5中的一个)F_i通过稀疏自适应软分配编码(SASAC)层和降维层后相乘得到一阶统计信息ξ₁(F_i)；

步骤2.2：ξ₁(F_i)通过平均池化层后经过L2范数归一化，ξ₁(F_i)通过二阶层得到二阶统计信息ξ₂(F_i)，ξ₂(F_i)经过L2范数归一化，连接两个归一化输出，再经过L2范数归一化得到SASO-VLADNet层输出。

具体地，对于SASO-VLADNet来说，前端的深度CNN由VGG-VD网络初始化，该网络是从大规模ImageNet数据集预训练得到的，然后，利用一个特定CNN特征(relu5_1，relu5_2，relu5_3和pool5中的一个)来学习初始化字典

初始化字典由VLFeat库中的K-means算法获得。在SASO-VLADNet模型中，一般选取K＝128就能得到足够好的性能，因此设置K＝128。

步骤3：

代表模型第i个图像特定卷积层特征的描述符集，f_ij∈R^D×1是F_i的第j个描述符，D代表向量维度也即卷积特征的通道数目，对于VGG-VD网络来说，最后几层卷积特征的通道数目为512，所以在SASO-VLADNet中，D＝512。

SASO-VLADNet层中新构造的SASAC层表达式为：

其中||.||₂代表向量的L2范数，

S_T(f_ij)是满足如下条件的集合：

其中

是S_T(f_ij)的互补集合，Card(S_T(f_ij))是S_T(f_ij)的元素数。

具体地，SASAC层保持T个最大值，T的取值不能太大或太小，具体的T值由交叉验证确定。通过相关的实验验证，为了简便起见，一般设置T＝5。

步骤4：利用仿射子空间方法进行降维；

SASO-VLADNet中的仿射子空间层为：R_k＝U_k(f_ij-c_k)＝(U_kf_ij+μ_k)

其中μ_k＝-U_kc_k∈R^P×1,U_k∈R^P×D(k＝1,2,...,k)是仿射子空间方法中的降维投影矩阵，P是子空间维数。P决定了最终的特征长度，为了使得特征表示有相对小的维度而有足够好的性能，一般设置P＝128。

一阶统计信息ξ₁(F_i)的表达为：

具体地，(U_kf_ij+μ_k)可看做卷积权重为U_k，偏置为μ_k的1×1卷积层，可利用传统的CNN训练方法高效地训练端到端的仿射子空间层。

步骤5：二阶统计信息ξ₂(F_i)的表达式为：

其中vec是将矩阵转换为相应列向量的向量运算。

具体地，利用一阶特征的协方差矩阵获得特征通道间的交互表示，由于二阶统计信息是可微的，所以二阶统计信息层可通过端到端的方式进行训练。

步骤6：由于仿射子空间层和二阶统计量层可以用已有的端到端方法来进行训练，而SASAC层是一个全新结构的网络层，这里给出SASAC层的具体的反向传播函数来进行端到端的训练：

步骤6.1：SASAC层表达式对每个k(k＝1,2,...,K)等价于三个表达式：

SASAC层等价表达式的第二个表达式可看做最大池化层的一种变种，该表达式保持T个最大值，强制剩余值为0；第三个表达式是归一化层获得归一化权重系数。

步骤6.2：对每个k，最终的分类损失J相对于SASAC层输出的梯度为

基于链式法则得到γ_ij(k)和β_ij(k)的梯度表达式为：

步骤6.3：基于所述β_ij(k)(k＝1,2,...,K)和SASAC层等价表达式组的第二个表达式，可得到损失J相对于f_ij的梯度表达式：

步骤6.4：基于所述β_ij(k)(k＝1,2,...,K)和SASAC层等价表达式组的第二个表达式，可得到损失J相对于a_k,b_k,v_k的梯度表达式：

步骤7：输入预处理的图像后，可以得到第i个图片的特定卷积层的卷积特征F_i，F_i的SASO-VLAD(稀疏自适应二阶-局部特征聚合描述符)表示的最终表达式为：

其中，L2norm是一个向量的L2范数归一化方法，a_k,b_k,v_k,U_k,μ_k(k＝1,2,...,k)是SASO-VLADNet中的可训练参数。

具体地，a_k,b_k,v_k,U_k,μ_k(k＝1,2,...,K)这些参数是通过端到端的方式学习得到的。

在SASO-VLADNet中的参数更新过程中，首先通过前向运算更新深度网络的最终损失，然后将损失关于每个参数的梯度反向传播到输入以更新整个SASO-VLADNet模型。

步骤8：当得到L＝4个SASO-VLADNet编码(relu5_1，relu5_2，relu5_3和pool5卷积特征产生的编码)后，将这4个编码级联起来得到最终的M-SASO-VLADNet编码，如图3所示。M-SASO-VLADNet编码经过最终的全连接层、损失层得到分类损失，损失层是标准的softmax损失，记为：

其中，C是分类数量，1{}是指示函数，1{a true state}＝1，1{a false state}＝0，y_i代表第i个图像的类别标签，ρ_ic是L＝4个SASO-VLADNet(通过relu5_1，relu5_2，relu5_3和pool5产生的4个SASO-VLADNet编码)的全部预测分数：

其中，

和

是第l(l＝1,2,...,L)个全连接(FC)层的权重和偏置。

具体地，ρ_ic进一步表示为：ρ_ic＝(G_c)^T[ξ(F_i ⁽¹⁾)；ξ(F_i ⁽²⁾)；…ξ(F_i ^(L))]+(B_c)^T

对训练好的SASO-VLADNet和M-SASO-VLADNet在目标图像数据集(Caltech256数据集)，细粒度图像数据集(CUB200数据集，StandFord Car数据集)和纹理图像数据集上测试了他们的图像分类性能，相比于NetVLAD模型，SASO-VLADNet提升2-4％的图像识别率。而所提出的多路网络(M-SASO-VLADNet)比所提出的单路网络(SASO-VLADNet)提升了1％左右的图像识别率。

步骤9：基于二阶VLAD稀疏自适应深度网络的完整的参数更新步骤包括：

步骤9.1：在每个SASO-VLADNet层获得初始化参数；

步骤9.2：通过每一个SASO-VLADNet编码和最终的softmax分类器来初始化最终的全连接层的权值；

步骤9.3：利用上述的初始化参数并基于端到端的训练方式，softmax分类器的梯度信息用于更新M-SASO-VLADNet中每一层的参数直到分类器损失曲线收敛为止。

Claims

1.一种基于二阶VLAD稀疏自适应深度网络的图像分类方法，其特征在于，使用端到端训练的多路特征编码网络，首先从多个卷积层后面的激活函数提取非线性的卷积特征，然后在每个卷积特征中计算相应的稀疏自适应二阶-局部特征聚合描述符SASO-VLAD编码，最后汇总所有的SASO-VLAD编码，构建最终的多路径特征编码网络M-SASO-VLADNet，通过全连接层和损失层输出分类损失；所述SASO-VLAD编码使用稀疏自适应软分配编码SASAC来得到稀疏的权重系数，利用一阶和二阶VLAD编码共同表示端到端的稀疏自适应二阶VLAD模型SASO-VLADNet；

卷积层特征的SASO-VLADNet编码计算过程包括以下步骤：

步骤2.1：使用一个卷积层的特征F_i通过稀疏自适应软分配编码(SASAC)层和降维层后相乘得到一阶统计信息ξ₁(F_i)；

步骤2.2：ξ₁(F_i)通过平均池化层后经过L2范数归一化，ξ₁(F_i)通过二阶层得到二阶统计信息ξ₂(F_i)，ξ₂(F_i)经过L2范数归一化，连接两个归一化输出，再经过L2范数归一化得到SASO-VLADNet层输出；

二阶统计信息ξ₂(F_i)利用协方差矩阵获得通道间的交互特征，二阶统计信息ξ₂(F_i)的表达式为：

其中vec是将矩阵转换为相应列向量的向量运算，

代表模型第i个图像特定卷积层特征的描述符集，描述符集合中一共有M个描述符，f_ij∈R^D×1是F_i的第j个描述符，D代表向量维度；U_k,μ_k为一阶统计信息中的降维矩阵和偏置，k表示某一组降维矩阵和偏置的索引，K表示降维矩阵和偏置的组数，λ_ij(k)为SASAC层的编码系数。

2.根据权利要求1所述的一种基于二阶VLAD稀疏自适应深度网络的图像分类方法，其特征在于，所述端到端的SASO-VLAD构成SASO-VLADNet层，网络构成步骤为：

步骤3.2：ξ₁(F_i)通过平均池化层后经过L2范数归一化，ξ₁(F_i)通过二阶层得到二阶统计信息ξ₂(F_i)后经过L2范数归一化，连接两个归一化输出后经过L2范数归一化得到最后输出；降维层的降维方法为仿射子空间方法；

在所述稀疏自适应软分配编码SASAC中，稀疏自适应软分配编码SASAC层是多维高斯概率密度函数的变体，并通过端到端的方式自适应地学习所有参数，包括字典和方差参数；SASAC层仅保留T个最大概率，并强制其他小概率为零以获得稀疏权重系数。

3.根据权利要求2所述的一种基于二阶VLAD稀疏自适应深度网络的图像分类方法，其特征在于，所述SASAC层表达式为：

其中||.||₂代表向量的L2范数，

代表模型第i个图像特定卷积层特征的描述符集，这个描述符集合中一共有M个描述符，f_ij∈R^D×1是F_i的第j个描述符，D代表向量维度，a_k∈R^D×1,b_k∈R^D×1,v_k∈R,(k＝1,2,...,K)分别是f_ij的权值，f_ij的偏置以及归一化的偏置，这些参数都是SASO-VLADNet中的可训练参数；这些参数一共有K组，k表示具体的某一组参数的索引；k'表示满足集合S_T(f_ij)条件的若干组参数的索引；

S_T(f_ij)是满足如下条件的集合：

其中

是S_T(f_ij)的互补集合，Card(S_T(f_ij))是S_T(f_ij)的元素数。

4.根据权利要求1或2所述的一种基于二阶VLAD稀疏自适应深度网络的图像分类方法，其特征在于，激活函数为sigmoid函数、tanh函数和ReLU函数中的一种。

5.根据权利要求4所述的一种基于二阶VLAD稀疏自适应深度网络的图像分类方法，其特征在于，所述一阶统计信息ξ₁(F_i)表达式为：

代表模型第i个图像的特定卷积层特征的描述符集，这个描述符集合中一共有M个描述符，f_ij∈R^D×1是F_i的第j个描述符，D代表向量维度，λ_ij(k)为SASAC层的编码系数，U_k,μ_k为一阶统计信息中的降维矩阵和偏置，并且一共有K组降维矩阵和偏置，k表示具体的某一组降维矩阵和偏置的索引，(U_kf_ij+μ_k)表示第k组仿射子空间层；降维矩阵和偏置都是SASO-VLADNet中的可训练参数。

6.根据权利要求4所述的一种基于二阶VLAD稀疏自适应深度网络的图像分类方法，其特征在于，所述的SASO-VLADNet模型的前向操作首先更新深度网络的最终损失，然后将损失关于每个参数的梯度反向传播到输入以更新SASO-VLADNet层；所述输出的分类损失是标准的softmax损失。

7.根据权利要求1所述的一种基于二阶VLAD稀疏自适应深度网络的图像分类方法，其特征在于，所述多路特征编码网络同时使用低、中、高多个等级的卷积特征来训练多个特征编码网络。

8.根据权利要求1所述的一种基于二阶VLAD稀疏自适应深度网络的图像分类方法，其特征在于，SASO-VLADNet模型的参数更新步骤包括：

步骤1：在每个SASO-VLADNet层获得初始化参数；