CN110533101A

CN110533101A - 一种基于深度神经网络子空间编码的图像分类方法

Info

Publication number: CN110533101A
Application number: CN201910809697.XA
Authority: CN
Inventors: 魏星; 张玥; 龚怡宏
Original assignee: Xi'an Honggui Electronic Technology Co Ltd
Current assignee: Xi'an Honggui Electronic Technology Co Ltd
Priority date: 2019-08-29
Filing date: 2019-08-29
Publication date: 2019-12-03

Abstract

本发明公开了一种基于深度神经网络子空间编码的图像分类方法，属于人工智能、计算机视觉和机器学习技术领域。将深度神经网络的输出特征映射到一个列正交矩阵的低维流形(格拉斯曼流形)空间中，所用格拉斯曼分类器，具有相同的紧凑形式，显著减小了分类器的参数大小；该格拉斯曼投影方法，可以减少特征维度，进一步压缩分类器模型；在保证较强特征判别力的前提下，减少了特征维度，压缩了分类器模型，实现了特征维度大小和分类精度的平衡。

Description

一种基于深度神经网络子空间编码的图像分类方法

技术领域

本发明属于人工智能、计算机视觉和机器学习技术领域，具体涉及一种基于深度神经网络子空间编码的图像分类方法。

背景技术

当前深度神经网络，已经广泛应用到人工智能，计算机视觉和机器学习的各个研究方向，例如，语音识别、图像分类、目标检测以及三维场景重建等等。一般地，基于监督式学习的图像分类性方法可以分为两步：第一步是进行图像特征提取；第二步是学习一个或若干个图像分类器。基于深度神经网络的图像分类方法将这两个步骤有效的统一成一个整体，进行端到端的训练。基于深度神经网络的图像特征提取方法的最后的关键步骤为特征池化。特征池化通过一定的技术方法将局部特征聚合为全局特征，然后作为图像分类器的输入进行下一阶段的训练。常用的特征池化的方法有最大池化和平均池化。这两种方法均为一阶池化方法，其对于图像的特征表示具有很强的局限性，一些研究人员也试图对深度神经网络的特征池化层做一些改进，但这些改进虽然在一定程度上提高了分类精度，但是却大大增加了输出特征维度。

发明内容

为了解决上述问题，本发明的目的在于提供一种基于深度神经网络子空间编码的图像分类方法，在具有较高分类精度的前提下，减少了特征维度，压缩了分类器模型，实现了特征维度大小和分类精度的平衡。

本发明是通过以下技术方案来实现：

一种基于深度神经网络子空间编码的图像分类方法，包括以下步骤：

步骤1：将待分类的图像集划分为包含训练集{A_i}的数据集；

步骤2：选择一个深度神经网络模型；

步骤3：选定步骤2)中的深度神经网络模型的包含c个通道的局部特征输出层X，对选定的局部特征输出层X的特征做奇异值分解，选取前k个左奇异向量组成矩阵A；

步骤4：令L表示类别的总数，l∈[1,L]表示类别的序号，初始化L个与矩阵X行数相等的矩阵{Y₁,…,Y_L}，分别对矩阵Y_l进行奇异值分解，选取前k′个左奇异向量组成矩阵{B₁,…,B_L}；

步骤5：使用训练集{A_i}来训练深度神经网络模型，使用矩阵A作为输入特征，使用矩阵{B₁,…,B_L}作为分类器模型，对待分类的图像集进行图像分类。

优选地，步骤2中选择的深度神经网络模型为深度卷积神经网络模型。

优选地，步骤3的具体步骤为：

将深度神经网络模型的局部特征输出层写为矩阵形式其中每行i∈[1,c]表示一个特征图，每列j∈[1,hw]表示一个空间位置，c为特征图的通道数，h为特征图的高度，w为特征图的宽度；

令为矩阵X的奇异值分解，其中u_i是矩阵X的左奇异向量，v_i是矩阵X的右奇异向量，σ_i为奇异值，且σ₁≥σ₂≥…≥σ_c；取前k(k＜c)个奇异值对应的左奇异向量A＝[u₁|u₂|…|u_k]。

进一步优选地，步骤4的具体步骤为：

初始化L个与矩阵X行数相等的矩阵{Y₁,…,Y_L}，对于矩阵令为矩阵Y_l的奇异值分解，其中u_i是矩阵Y_l的左奇异向量，v_i是矩阵Y_l的右奇异向量，σ_i为奇异值，且σ₁≥σ₂≥…≥σ_c；取前k′(k′＜c′)个奇异值对应的左奇异向量B_l＝[u₁|u₂|…|u_k′]作为第l个分类器。

进一步优选地，初始化是采用高斯随机初始化。

进一步优选地，初始化是对所有训练集{A_i}进行聚类，对于聚类为l的所有样本计算作为第l个分类器的初始化。

进一步优选地，步骤5的具体步骤为：

使用训练集{A_i}来训练深度神经网络模型，对于训练好的神经网络模型，给定一幅输入图像，使用步骤3提取该图像的特征A，将特征A分别与分类器{B₁,…,B_L}进行计算得分：将得分最高的类别作为输入图像的类别，完成图像分类。

相对于现有技术，本发明具有如下的优点：

本发明公开了一种基于深度神经网络子空间编码的图像分类方法，将深度神经网络的输出特征映射到一个列正交矩阵的低维流形(格拉斯曼流形)空间中，所用格拉斯曼分类器，具有相同的紧凑形式，显著减小了分类器的参数大小；该格拉斯曼投影方法，可以减少特征维度，进一步压缩分类器模型；在保证较强特征判别力的前提下，减少了特征维度，压缩了分类器模型，实现了特征维度大小和分类精度的平衡。本发明在多个广泛使用的细粒度图像分类数据集上(如CUB Bird-200、Stanford Car、Aircraft、Food-101等)进行了测试，实验结果表明本发明实现了模型复杂度和精度的良好平衡。

附图说明

图1为本发明的流程原理图。

具体实施方式

下面结合附图对本发明做进一步的详细说明，所述是对本发明的解释而不是限定。

如图1所示为本发明的流程原理图，包括以下步骤：

步骤1：将待分类的图像集划分为包含训练集{A_i}的数据集。

步骤2：选择一个深度神经网络模型，可以选择深度卷积神经网络模型；

步骤3：将深度神经网络模型的局部特征输出层写为矩阵形式其中每行i∈[1,c]表示一个特征图，每列j∈[1,hw]表示一个空间位置，c为特征图的通道数，h为特征图的高度，w为特征图的宽度；

步骤4：令L表示类别的总数，l∈[1,L]表示类别的序号，初始化L个与矩阵X行数相等的矩阵{Y₁,…,Y_L}，这里的初始化可以采用随机初始化，如高斯随机初始化，也可以采用非随机初始化：对所有训练集{A_i}进行聚类，对于聚类为l的所有样本计算作为第l个分类器的初始化；

对于矩阵令为矩阵Y_l的奇异值分解，其中u_i是矩阵Y_l的左奇异向量，v_i是矩阵Y_l的右奇异向量，σ_i为奇异值，且σ₁≥σ₂≥…≥σ_c；取前k′(k′＜c′)个奇异值对应的左奇异向量B_l＝[u₁|u₂|…|u_k′]作为第l个分类器

步骤5：使用训练集{A_i}来训练深度神经网络模型，对于训练好的神经网络模型，给定一幅输入图像，使用步骤3提取该图像的特征A，将特征A分别与分类器{B₁,…,B_L}进行计算得分：将得分最高的类别作为输入图像的类别，完成图像分类。

下面以一个具体实施例来对本发明进行进一步的解释说明：

采用VGG-16卷积神经网络模型，对于尺寸为448×448的输入图像，VGG-16的最后一个卷积层的特征大小为512×14×14，其中512(c)为特征通道数，14×14(h×w)为卷积后降采样32倍后的分辨率大小。将原始卷积特征展开为512×196的矩阵X，对其进行奇异值分解，取前k＝16个左奇异值向量，作为池化后的输出A；类似地，分类器的尺寸为512×16(c×k′)。

表1列举了采用本发明的图像分类方法与采用原始神经网络的4种图像分类方法在4个公开的分类数据集(CUB Bird-200、Stanford Car、Aircraft、Food-101)上的分类精度对比，可以看出，采用本方法具有较高的精度并且具有较低的特征维度，实现了特征维度大小和分类精度的平衡。

表1

[1]Simonyan,K.,Zisserman,A.:Very deep convolutional networks forlarge-scale image recognition.arXiv preprint arXiv:1409.1556(2014)

[2]Lin,T.Y.,RoyChowdhury,A.,Maji,S.:Bilinear cnn models for fine-grained visual recognition.In:ICCV.(2015)

[3]Gao,Y.,Beijbom,O.,Zhang,N.,Darrell,T.:Compact bilinear pooling.In:CVPR.(2016)

[4]Kong,S.,Fowlkes,C.:Low-rank bilinear pooling for fine-grainedclassification.In:CVPR.(2017)

需要说明的是，以上所述仅为本发明实施方式的一部分，根据本发明所做的等效变化，均包括在本发明的保护范围内。本发明所属技术领域的技术人员可以对所描述的具体实例做类似的方式替代，只要不偏离本发明或者超越本权利要求书所定义的范围，均属于本发明的保护范围。

Claims

1.一种基于深度神经网络子空间编码的图像分类方法，其特征在于，包括以下步骤：

步骤1：将待分类的图像集划分为包含训练集{A_i}的数据集；

步骤2：选择一个深度神经网络模型；

2.如权利要求1所述的基于深度神经网络子空间编码的图像分类方法，其特征在于，步骤2中选择的深度神经网络模型为深度卷积神经网络模型。

3.如权利要求1所述的基于深度神经网络子空间编码的图像分类方法，其特征在于，步骤3的具体步骤为：

4.如权利要求3所述的基于深度神经网络子空间编码的图像分类方法，其特征在于，步骤4的具体步骤为：

5.如权利要求4所述的基于深度神经网络子空间编码的图像分类方法，其特征在于，初始化是采用高斯随机初始化。

6.如权利要求4所述的基于深度神经网络子空间编码的图像分类方法，其特征在于，初始化是对所有训练集{A_i}进行聚类，对于聚类为l的所有样本计算作为第l个分类器的初始化。

7.如权利要求4所述的基于深度神经网络子空间编码的图像分类方法，其特征在于，步骤5的具体步骤为：