CN110533101A - 一种基于深度神经网络子空间编码的图像分类方法 - Google Patents
一种基于深度神经网络子空间编码的图像分类方法 Download PDFInfo
- Publication number
- CN110533101A CN110533101A CN201910809697.XA CN201910809697A CN110533101A CN 110533101 A CN110533101 A CN 110533101A CN 201910809697 A CN201910809697 A CN 201910809697A CN 110533101 A CN110533101 A CN 110533101A
- Authority
- CN
- China
- Prior art keywords
- neural network
- matrix
- deep neural
- image classification
- image
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/23—Clustering techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- Evolutionary Computation (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Health & Medical Sciences (AREA)
- Software Systems (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Biophysics (AREA)
- Biomedical Technology (AREA)
- Mathematical Physics (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Image Analysis (AREA)
Abstract
本发明公开了一种基于深度神经网络子空间编码的图像分类方法,属于人工智能、计算机视觉和机器学习技术领域。将深度神经网络的输出特征映射到一个列正交矩阵的低维流形(格拉斯曼流形)空间中,所用格拉斯曼分类器,具有相同的紧凑形式,显著减小了分类器的参数大小;该格拉斯曼投影方法,可以减少特征维度,进一步压缩分类器模型;在保证较强特征判别力的前提下,减少了特征维度,压缩了分类器模型,实现了特征维度大小和分类精度的平衡。
Description
技术领域
本发明属于人工智能、计算机视觉和机器学习技术领域,具体涉及一种基于深度神经网络子空间编码的图像分类方法。
背景技术
当前深度神经网络,已经广泛应用到人工智能,计算机视觉和机器学习的各个研究方向,例如,语音识别、图像分类、目标检测以及三维场景重建等等。一般地,基于监督式学习的图像分类性方法可以分为两步:第一步是进行图像特征提取;第二步是学习一个或若干个图像分类器。基于深度神经网络的图像分类方法将这两个步骤有效的统一成一个整体,进行端到端的训练。基于深度神经网络的图像特征提取方法的最后的关键步骤为特征池化。特征池化通过一定的技术方法将局部特征聚合为全局特征,然后作为图像分类器的输入进行下一阶段的训练。常用的特征池化的方法有最大池化和平均池化。这两种方法均为一阶池化方法,其对于图像的特征表示具有很强的局限性,一些研究人员也试图对深度神经网络的特征池化层做一些改进,但这些改进虽然在一定程度上提高了分类精度,但是却大大增加了输出特征维度。
发明内容
为了解决上述问题,本发明的目的在于提供一种基于深度神经网络子空间编码的图像分类方法,在具有较高分类精度的前提下,减少了特征维度,压缩了分类器模型,实现了特征维度大小和分类精度的平衡。
本发明是通过以下技术方案来实现:
一种基于深度神经网络子空间编码的图像分类方法,包括以下步骤:
步骤1:将待分类的图像集划分为包含训练集{Ai}的数据集;
步骤2:选择一个深度神经网络模型;
步骤3:选定步骤2)中的深度神经网络模型的包含c个通道的局部特征输出层X,对选定的局部特征输出层X的特征做奇异值分解,选取前k个左奇异向量组成矩阵A;
步骤4:令L表示类别的总数,l∈[1,L]表示类别的序号,初始化L个与矩阵X行数相等的矩阵{Y1,…,YL},分别对矩阵Yl进行奇异值分解,选取前k′个左奇异向量组成矩阵{B1,…,BL};
步骤5:使用训练集{Ai}来训练深度神经网络模型,使用矩阵A作为输入特征,使用矩阵{B1,…,BL}作为分类器模型,对待分类的图像集进行图像分类。
优选地,步骤2中选择的深度神经网络模型为深度卷积神经网络模型。
优选地,步骤3的具体步骤为:
将深度神经网络模型的局部特征输出层写为矩阵形式其中每行i∈[1,c]表示一个特征图,每列j∈[1,hw]表示一个空间位置,c为特征图的通道数,h为特征图的高度,w为特征图的宽度;
令为矩阵X的奇异值分解,其中ui是矩阵X的左奇异向量,vi是矩阵X的右奇异向量,σi为奇异值,且σ1≥σ2≥…≥σc;取前k(k<c)个奇异值对应的左奇异向量A=[u1|u2|…|uk]。
进一步优选地,步骤4的具体步骤为:
初始化L个与矩阵X行数相等的矩阵{Y1,…,YL},对于矩阵令为矩阵Yl的奇异值分解,其中ui是矩阵Yl的左奇异向量,vi是矩阵Yl的右奇异向量,σi为奇异值,且σ1≥σ2≥…≥σc;取前k′(k′<c′)个奇异值对应的左奇异向量Bl=[u1|u2|…|uk′]作为第l个分类器。
进一步优选地,初始化是采用高斯随机初始化。
进一步优选地,初始化是对所有训练集{Ai}进行聚类,对于聚类为l的所有样本计算作为第l个分类器的初始化。
进一步优选地,步骤5的具体步骤为:
使用训练集{Ai}来训练深度神经网络模型,对于训练好的神经网络模型,给定一幅输入图像,使用步骤3提取该图像的特征A,将特征A分别与分类器{B1,…,BL}进行计算得分:将得分最高的类别作为输入图像的类别,完成图像分类。
相对于现有技术,本发明具有如下的优点:
本发明公开了一种基于深度神经网络子空间编码的图像分类方法,将深度神经网络的输出特征映射到一个列正交矩阵的低维流形(格拉斯曼流形)空间中,所用格拉斯曼分类器,具有相同的紧凑形式,显著减小了分类器的参数大小;该格拉斯曼投影方法,可以减少特征维度,进一步压缩分类器模型;在保证较强特征判别力的前提下,减少了特征维度,压缩了分类器模型,实现了特征维度大小和分类精度的平衡。本发明在多个广泛使用的细粒度图像分类数据集上(如CUB Bird-200、Stanford Car、Aircraft、Food-101等)进行了测试,实验结果表明本发明实现了模型复杂度和精度的良好平衡。
附图说明
图1为本发明的流程原理图。
具体实施方式
下面结合附图对本发明做进一步的详细说明,所述是对本发明的解释而不是限定。
如图1所示为本发明的流程原理图,包括以下步骤:
步骤1:将待分类的图像集划分为包含训练集{Ai}的数据集。
步骤2:选择一个深度神经网络模型,可以选择深度卷积神经网络模型;
步骤3:将深度神经网络模型的局部特征输出层写为矩阵形式其中每行i∈[1,c]表示一个特征图,每列j∈[1,hw]表示一个空间位置,c为特征图的通道数,h为特征图的高度,w为特征图的宽度;
令为矩阵X的奇异值分解,其中ui是矩阵X的左奇异向量,vi是矩阵X的右奇异向量,σi为奇异值,且σ1≥σ2≥…≥σc;取前k(k<c)个奇异值对应的左奇异向量A=[u1|u2|…|uk]。
步骤4:令L表示类别的总数,l∈[1,L]表示类别的序号,初始化L个与矩阵X行数相等的矩阵{Y1,…,YL},这里的初始化可以采用随机初始化,如高斯随机初始化,也可以采用非随机初始化:对所有训练集{Ai}进行聚类,对于聚类为l的所有样本计算作为第l个分类器的初始化;
对于矩阵令为矩阵Yl的奇异值分解,其中ui是矩阵Yl的左奇异向量,vi是矩阵Yl的右奇异向量,σi为奇异值,且σ1≥σ2≥…≥σc;取前k′(k′<c′)个奇异值对应的左奇异向量Bl=[u1|u2|…|uk′]作为第l个分类器
步骤5:使用训练集{Ai}来训练深度神经网络模型,对于训练好的神经网络模型,给定一幅输入图像,使用步骤3提取该图像的特征A,将特征A分别与分类器{B1,…,BL}进行计算得分:将得分最高的类别作为输入图像的类别,完成图像分类。
下面以一个具体实施例来对本发明进行进一步的解释说明:
采用VGG-16卷积神经网络模型,对于尺寸为448×448的输入图像,VGG-16的最后一个卷积层的特征大小为512×14×14,其中512(c)为特征通道数,14×14(h×w)为卷积后降采样32倍后的分辨率大小。将原始卷积特征展开为512×196的矩阵X,对其进行奇异值分解,取前k=16个左奇异值向量,作为池化后的输出A;类似地,分类器的尺寸为512×16(c×k′)。
表1列举了采用本发明的图像分类方法与采用原始神经网络的4种图像分类方法在4个公开的分类数据集(CUB Bird-200、Stanford Car、Aircraft、Food-101)上的分类精度对比,可以看出,采用本方法具有较高的精度并且具有较低的特征维度,实现了特征维度大小和分类精度的平衡。
表1
[1]Simonyan,K.,Zisserman,A.:Very deep convolutional networks forlarge-scale image recognition.arXiv preprint arXiv:1409.1556(2014)
[2]Lin,T.Y.,RoyChowdhury,A.,Maji,S.:Bilinear cnn models for fine-grained visual recognition.In:ICCV.(2015)
[3]Gao,Y.,Beijbom,O.,Zhang,N.,Darrell,T.:Compact bilinear pooling.In:CVPR.(2016)
[4]Kong,S.,Fowlkes,C.:Low-rank bilinear pooling for fine-grainedclassification.In:CVPR.(2017)
需要说明的是,以上所述仅为本发明实施方式的一部分,根据本发明所做的等效变化,均包括在本发明的保护范围内。本发明所属技术领域的技术人员可以对所描述的具体实例做类似的方式替代,只要不偏离本发明或者超越本权利要求书所定义的范围,均属于本发明的保护范围。
Claims (7)
1.一种基于深度神经网络子空间编码的图像分类方法,其特征在于,包括以下步骤:
步骤1:将待分类的图像集划分为包含训练集{Ai}的数据集;
步骤2:选择一个深度神经网络模型;
步骤3:选定步骤2)中的深度神经网络模型的包含c个通道的局部特征输出层X,对选定的局部特征输出层X的特征做奇异值分解,选取前k个左奇异向量组成矩阵A;
步骤4:令L表示类别的总数,l∈[1,L]表示类别的序号,初始化L个与矩阵X行数相等的矩阵{Y1,…,YL},分别对矩阵Yl进行奇异值分解,选取前k′个左奇异向量组成矩阵{B1,…,BL};
步骤5:使用训练集{Ai}来训练深度神经网络模型,使用矩阵A作为输入特征,使用矩阵{B1,…,BL}作为分类器模型,对待分类的图像集进行图像分类。
2.如权利要求1所述的基于深度神经网络子空间编码的图像分类方法,其特征在于,步骤2中选择的深度神经网络模型为深度卷积神经网络模型。
3.如权利要求1所述的基于深度神经网络子空间编码的图像分类方法,其特征在于,步骤3的具体步骤为:
将深度神经网络模型的局部特征输出层写为矩阵形式其中每行i∈[1,c]表示一个特征图,每列j∈[1,hw]表示一个空间位置,c为特征图的通道数,h为特征图的高度,w为特征图的宽度;
令为矩阵X的奇异值分解,其中ui是矩阵X的左奇异向量,vi是矩阵X的右奇异向量,σi为奇异值,且σ1≥σ2≥…≥σc;取前k(k<c)个奇异值对应的左奇异向量A=[u1|u2|…|uk]。
4.如权利要求3所述的基于深度神经网络子空间编码的图像分类方法,其特征在于,步骤4的具体步骤为:
初始化L个与矩阵X行数相等的矩阵{Y1,…,YL},对于矩阵令为矩阵Yl的奇异值分解,其中ui是矩阵Yl的左奇异向量,vi是矩阵Yl的右奇异向量,σi为奇异值,且σ1≥σ2≥…≥σc;取前k′(k′<c′)个奇异值对应的左奇异向量Bl=[u1|u2|…|uk′]作为第l个分类器。
5.如权利要求4所述的基于深度神经网络子空间编码的图像分类方法,其特征在于,初始化是采用高斯随机初始化。
6.如权利要求4所述的基于深度神经网络子空间编码的图像分类方法,其特征在于,初始化是对所有训练集{Ai}进行聚类,对于聚类为l的所有样本计算作为第l个分类器的初始化。
7.如权利要求4所述的基于深度神经网络子空间编码的图像分类方法,其特征在于,步骤5的具体步骤为:
使用训练集{Ai}来训练深度神经网络模型,对于训练好的神经网络模型,给定一幅输入图像,使用步骤3提取该图像的特征A,将特征A分别与分类器{B1,…,BL}进行计算得分:将得分最高的类别作为输入图像的类别,完成图像分类。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910809697.XA CN110533101A (zh) | 2019-08-29 | 2019-08-29 | 一种基于深度神经网络子空间编码的图像分类方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910809697.XA CN110533101A (zh) | 2019-08-29 | 2019-08-29 | 一种基于深度神经网络子空间编码的图像分类方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN110533101A true CN110533101A (zh) | 2019-12-03 |
Family
ID=68665280
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910809697.XA Pending CN110533101A (zh) | 2019-08-29 | 2019-08-29 | 一种基于深度神经网络子空间编码的图像分类方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110533101A (zh) |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105701506A (zh) * | 2016-01-12 | 2016-06-22 | 杭州电子科技大学 | 一种基于超限学习机与稀疏表示分类的改进方法 |
CN106127240A (zh) * | 2016-06-17 | 2016-11-16 | 华侨大学 | 一种基于非线性重构模型的植物图像集的分类识别方法 |
CN108647550A (zh) * | 2018-04-11 | 2018-10-12 | 中山大学 | 一种基于机器学习的二维码模糊聚类识别方法及系统 |
CN109446923A (zh) * | 2018-10-10 | 2019-03-08 | 北京理工大学 | 基于训练特征融合的深度监督卷积神经网络行为识别方法 |
CN109902692A (zh) * | 2019-01-14 | 2019-06-18 | 北京工商大学 | 一种基于局部区域深度特征编码的图像分类方法 |
-
2019
- 2019-08-29 CN CN201910809697.XA patent/CN110533101A/zh active Pending
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105701506A (zh) * | 2016-01-12 | 2016-06-22 | 杭州电子科技大学 | 一种基于超限学习机与稀疏表示分类的改进方法 |
CN106127240A (zh) * | 2016-06-17 | 2016-11-16 | 华侨大学 | 一种基于非线性重构模型的植物图像集的分类识别方法 |
CN108647550A (zh) * | 2018-04-11 | 2018-10-12 | 中山大学 | 一种基于机器学习的二维码模糊聚类识别方法及系统 |
CN109446923A (zh) * | 2018-10-10 | 2019-03-08 | 北京理工大学 | 基于训练特征融合的深度监督卷积神经网络行为识别方法 |
CN109902692A (zh) * | 2019-01-14 | 2019-06-18 | 北京工商大学 | 一种基于局部区域深度特征编码的图像分类方法 |
Non-Patent Citations (6)
Title |
---|
ERIC KE WANG 等: "A sparse deep learning model for privacy attack on remote sensing images", 《MATHEMATICAL BIOSCIENCES AND ENGINEERING》 * |
XING WEI 等: "Grassmann Pooling as Compact Homogeneous Bilinear Pooling for Fine-Grained Visual Classification", 《EUROPEAN CONFERENCE ON COMPUTER VISION》 * |
XING WEI 等: "Kernelized Subspace Pooling for Deep Local Descriptors", 《2018 IEEE/CVF CONFERENCE ON COMPUTER VISION AND PATTERN RECOGNITION》 * |
许庆勇著: "《基于深度学习理论的纹身图像识别与检测研究》", 31 December 2018, 华中科技大学出版社 * |
许春燕: "基于黎曼流形的图像分类算法研究", 《中国博士学位论文全文数据库 信息科技辑》 * |
陈旭 等: "卷积网络深度学习算法与实例", 《广东工业大学》 * |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Gholamalinezhad et al. | Pooling methods in deep neural networks, a review | |
Liu et al. | Bi-real net: Enhancing the performance of 1-bit cnns with improved representational capability and advanced training algorithm | |
Zhu et al. | Deep learning identity-preserving face space | |
Kreso et al. | Ladder-style densenets for semantic segmentation of large natural images | |
Reddy Mopuri et al. | Object level deep feature pooling for compact image representation | |
CN108510012A (zh) | 一种基于多尺度特征图的目标快速检测方法 | |
Chen et al. | Fisher vector encoded deep convolutional features for unconstrained face verification | |
Zeng et al. | An automatic 3D expression recognition framework based on sparse representation of conformal images | |
CN107844795A (zh) | 基于主成分分析的卷积神经网络特征提取方法 | |
CN106529586A (zh) | 基于补充文本特征的图像分类方法 | |
CN105956560A (zh) | 一种基于池化多尺度深度卷积特征的车型识别方法 | |
Li et al. | Depth-wise asymmetric bottleneck with point-wise aggregation decoder for real-time semantic segmentation in urban scenes | |
CN110826462A (zh) | 一种非局部双流卷积神经网络模型的人体行为识别方法 | |
CN104866855A (zh) | 一种图像特征提取方法及装置 | |
Keceli et al. | Combining 2D and 3D deep models for action recognition with depth information | |
Ye et al. | Embedding sequential information into spatiotemporal features for action recognition | |
CN109344898A (zh) | 基于稀疏编码预训练的卷积神经网络图像分类方法 | |
CN111881716A (zh) | 一种基于多视角生成对抗网络的行人重识别方法 | |
CN109614866A (zh) | 基于级联深度卷积神经网络的人脸检测方法 | |
CN113505719A (zh) | 基于局部-整体联合知识蒸馏算法的步态识别模型压缩系统及方法 | |
Zheng et al. | Feature enhancement for multi-scale object detection | |
Hu et al. | Action recognition using multiple pooling strategies of CNN features | |
CN110222568A (zh) | 一种基于时空图的跨视角步态识别方法 | |
Shah et al. | A review of deep learning models for computer vision | |
CN110533101A (zh) | 一种基于深度神经网络子空间编码的图像分类方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20191203 |
|
RJ01 | Rejection of invention patent application after publication |