CN105046272B - 一种基于简洁非监督式卷积网络的图像分类方法 - Google Patents

一种基于简洁非监督式卷积网络的图像分类方法 Download PDF

Info

Publication number
CN105046272B
CN105046272B CN201510368991.3A CN201510368991A CN105046272B CN 105046272 B CN105046272 B CN 105046272B CN 201510368991 A CN201510368991 A CN 201510368991A CN 105046272 B CN105046272 B CN 105046272B
Authority
CN
China
Prior art keywords
feature
pooling
image
training
histogram
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
CN201510368991.3A
Other languages
English (en)
Other versions
CN105046272A (zh
Inventor
董乐
张宁
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
University of Electronic Science and Technology of China
Original Assignee
University of Electronic Science and Technology of China
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by University of Electronic Science and Technology of China filed Critical University of Electronic Science and Technology of China
Priority to CN201510368991.3A priority Critical patent/CN105046272B/zh
Publication of CN105046272A publication Critical patent/CN105046272A/zh
Application granted granted Critical
Publication of CN105046272B publication Critical patent/CN105046272B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2411Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on the proximity to a decision surface, e.g. support vector machines
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/19Recognition using electronic means
    • G06V30/192Recognition using electronic means using simultaneous comparisons or correlations of the image signals with a plurality of references
    • G06V30/194References adjustable by an adaptive method, e.g. learning

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • Physics & Mathematics (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • General Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Databases & Information Systems (AREA)
  • Multimedia (AREA)
  • Image Analysis (AREA)

Abstract

本发明提供了一种基于简洁非监督式卷积网络的图像分类方法,属于图像处理与深度学习技术领域。本发明利用经典的非监督式聚类算法K‑means对训练图像集的图像块进行聚类,得到的每一个聚类中心即是网络模型中的卷积核,摒弃传统卷积网络中反复通过随机梯度下降算法来得到卷积核的费时过程;此外,本发明通过提出一种概率池化方法增强了网络对图像变形的鲁棒性。通过本发明提出的简洁非监督式深度卷积网络分类模型,可以有效地降低模型训练时间,同时提高模型对多变场景图片的识别能力。

Description

一种基于简洁非监督式卷积网络的图像分类方法
技术领域
本发明属于图像处理与深度学习技术领域,涉及高效的图像分类处理,尤其涉及一种基于简洁非监督式卷积网络的图像分类的实现方案。
背景技术
近年来,图像分类在工业、制造业、军事、医疗等领域得到了广泛的关注与应用。尽管其发展形势一片大好,但随着实际应用的覆盖面逐渐拓宽,海量图像数据随之而来,无论是图像数据库的规模,还是图像内容的多样性,都达到了前所未有的高峰,这使得传统的图像处理方法已不堪重负。面对如此海量的图像信息,如何准确地将图像进行分类成为当今相关领域的研究热点。
在模式识别领域,深度学习态势愈演愈烈,其中尤以深度卷积神经网络模型为代表,在大规模图像分类任务中取得了突破性的成效。深度卷积神经网络的成功归因于它具有学习中级图像表达的能力,而不是手动设计低级的图像特征。纵使深度卷积网络已经取得了一定的成功,但其基于随机梯度下降算法的模型训练过程效率非常低,无法胜任大规模图像分类任务。
发明内容
本发明旨在简化传统的深度卷积网络模型,极大地降低网络参数数量以及网络训练的复杂度。将简化后的深度网络模型用于图像分类任务中,提高图像分类准确率。
为了克服传统的深度卷积神经网络模型复杂度高,参数数量多,网络模型难以训练,以及对带标签图像数据的严苛要求等问题,本发明研究了如何利用简单的非监督式算法来降低网络模型的复杂度,同时可利用大量存在的无标签图像进行网络模型的训练。本发明解决其技术问题所提出的技术方案是:利用经典的非监督式聚类算法K-means对训练图像集的图像块进行聚类,得到的每一个聚类中心即是网络模型中的卷积核,摒弃传统卷积网络中反复通过随机梯度下降算法来得到卷积核的费时过程。由K-means算法生成卷积核的过程非常高效,且此方法对稀缺的带标签的图像数据无硬性要求,同时,得到的卷积核具有高度的辨识能力。为提高网络模型对图像变形的鲁棒性,本发明提出了一种基于概率的池化方法。相对于传统卷积网络普遍采用的最大池化和平均池化,本发明提出的概率池化方法考虑到了每一个神经元的作用,并且衡量了每个神经元作用的大小,因此具有更强的鲁棒性。在网络的输出层,本发明提出在不同尺度上统计直方图,然后在不同尺度上对直方图进行最大池化,选取最具竞争力的图像特征。不同尺度统计直方图最大限度地提高了模型的图像几何不变性,简单,高效。最后将输出层得到的图像特征输入到分类器SVM中,进行图像分类。
本发明提供的一种基于简洁非监督式卷积网络的图像分类方法,其框架图如图1所示,包括以下步骤:
步骤一:将训练图像集中的每一张训练图片划分成多个图像块,整个训练图象集总计包含T个图像块;
步骤二:预处理:对这T个图像块依次进行归一化和白化处理;
对每一张训练图片Xn按步骤四至步骤八进行操作;
步骤五:对步骤四得到的每一个特征面(feature map),利用Rectified LinearUnits(ReLU)函数激活神经元;
步骤六:对激活后的每一个特征面进行概率池化,记该池化为第一层概率池化;
步骤七:对步骤六经过第一层池化后得到的每一个特征面执行步骤一到步骤六,得到经第二层池化后的特征面,即第一层池化后的每一个特征面经过第二层池化后均能得到K2个特征面记为中的每个特征面二值化,特征面二值化后记为中的所有特征面二值化后得二值化特征面集合并按照下式叠加成一个新特征面I:
其中,是集合中的第i个二值化特征面;按上述方法可得到第一层池化后的每一个特征面对应的新特征面k1∈[1,K1];
步骤八:在可重叠滑动窗口内对特征面统计直方图:设置滑动窗口大小为R×R,窗口的滑动步长为s,将滑动窗口置于特征面的一端,按滑动步长依次在特征面In上滑动直至遍历整个特征面窗口每滑动一次便计算当前窗口的直方图,共计获得H个直方图,每个直方图包含有B个bin值;
在不同尺度q上将特征面按不同尺度依次划分成2q×2q个块,q=0、1、2,如图2所示,共记获得21个分块;对于尺度q=0来说,构建一个包含B个bin值的直方图,该直方图中的位置b(b=1,2,...,B)上的bin值是从所述H个滑动窗口直方图中相应位置b上的bin取值中的最大值;尺度q=1和q=2对应的每一个分块按照上述相同方式得到对应的直方图,共计获得21个直方图;最终,每一张图片的特征即是这21个直方图向量拼接成的向量构成,即每个图片的最终特征维数为21×K1×(K2+1);
按上述方法即可得到训练图像集每一张训练图片的特征;
步骤九:将训练图像集的特征输入到分类器SVM中,对SVM进行训练;
步骤十:将测试图像集,输入训练好的SVM模型中,进行图像的分类。
本发明的有益效果:
本发明简化了传统的卷积网络模型,提高图像分类的准确率,相比于现有技术,本发明具有以下优点:
1、非监督式卷积核学习过程极其简洁,摒弃了成千上万的参数初始化和调优,同时解决了传统卷积网络必须使用带标签图像的瓶颈;
2、概率池化既考虑了每一个神经元的作用,又衡量了其作用的不同程度大小,提高了网络模型对图像变形的鲁棒性;
3、在滑动窗口内统计直方图,保留了图像的空间信息,提高了网络模型的几何不变性。
附图说明
图1是本发明提出的简洁非监督式卷积网络分类方法的模型框架图。
图2是本发明方法步骤八中特征面的划分示意图。
具体实施方式
本发明解决其技术问题采用的具体实施步骤如下:
步骤一:将训练图像集中的每一张训练图片划分成多个大小为w×h的图像块,每一个图像块的像素点组成维度为RM的向量,其中M=w×h×d,d代表图像的通道值,对于RGB图片,d=3,对于灰度图片,d=1;整个训练图象集总计包含T个图像块,所有的这T个图像块向量组成矩阵P={p1,…,pt,…,pT},其中,t=1,…,T,pt∈RM
步骤二:对这T个图像块进行预处理;
按照公式(1)进行归一化,按照公式(2)(3)(4)进行白化:
其中,mean(·)是求向量平均值,var(·)是求向量的方差,cov(·)是求向量的协方差矩阵,Eig(·)是求特征值向量L与特征向量矩阵U,λi是第i个特征值;
步骤三:完成对图像块的预处理后,得到图像块集合利用K-means算法对进行聚类,得到网络第一层的K1个卷积核
对每一张训练图片Xn按步骤四至步骤八进行操作;
步骤五:对步骤四得到的每一个特征面(feature map),利用Rectified LinearUnits(ReLU)函数激活神经元,所述ReLU函数即:f(x)=max{0,x};
步骤六:对激活后的每一个特征面进行第一层概率池化,记池化域的大小即池化域包含的神经元个数为w2×h2,则概率池化操作如公式(5)所示:
其中,ai,j是当前feature map中位置(i,j)上的神经元,i=1,…,w2,j=1,…,h2,sum(ai,j)是对池化域中的神经元值求和;
步骤七:对步骤六经过第一层池化后得到的每一个特征面执行步骤一到步骤六,得到经第二层池化后的特征面,即第一层池化后的每一个特征面经过第二层池化后均能得到K2个特征面记为中的每个特征面二值化:
其中,bi,j是当前特征面中位置(i,j)上的神经元,i=1,…,w2,j=1,…,h2,特征面二值化后记为中的所有特征面二值化后得二值化特征面集合并按照公式(7)叠加成一个新特征面I:
其中,是集合中的第i个二值化特征面;按上述方法可得到第一层池化后的每一个特征面对应的新特征面k1∈[1,K1];
步骤八:在可重叠滑动窗口内对特征面统计直方图:设置滑动窗口大小为R×R,窗口的滑动步长为s,将滑动窗口置于特征面的一端,按滑动步长依次在特征面In上滑动直至遍历整个特征面窗口每滑动一次便计算当前窗口的直方图,共计获得H个直方图,每个直方图包含有B个bin值;
按照上述的窗口滑动及直方图统计方式提取图片特征可能带来特征的冗余及维度灾难,故本发明采取在不同尺度上对特征进行选取,见参考文献[1],具体操作如下:
在不同尺度q上将特征面按不同尺度依次划分成2q×2q个块,q=0、1、2,如图2所示,共记获得21个分块;对于尺度q=0来说,构建一个包含B个bin值的直方图,该直方图中的位置b(b=1,2,...,B)上的bin值是从所述H个滑动窗口直方图中相应位置b上的bin取值中的最大值;尺度q=1和q=2对应的每一个分块按照上述相同方式得到对应的直方图,共计获得21个直方图;最终,每一张图片的特征即是这21个直方图向量拼接成的向量构成,即每个图片的最终特征维数为21×K1×(K2+1);
按上述方法即可得到训练图像集中每一张训练图片的特征;
步骤九:将训练图像集的特征输入到分类器SVM中,对SVM进行训练;
步骤十:将测试图像集,输入训练好的SVM模型中,进行图像的分类。
本实施例引用的参考文献如下:
[1]K.M.He,X.Y.Zhang,S.Q.Ren,and J.Sun.Spatial pyramid pooling in deepconvolutional networks for visual recognition.In ECCV,2014.

Claims (4)

1.一种基于简洁非监督式卷积网络的图像分类方法,具体包括以下步骤:
步骤一:将训练图像集中的每一张训练图片划分成多个图像块,一个图像块的像素点组成维度为RM的向量,整个训练图像集总计包含T个图像块;
步骤二:预处理:对这T个图像块依次进行归一化和白化处理;
步骤三:针对完成预处理的图像块,利用K-means算法对进行聚类,得到网络第一层的K1个卷积核
对每一张训练图片Xn按步骤四至步骤八进行操作;
步骤四:针对每一张大小为W×H的训练图片Xn,用步骤三得到的卷积核对Xn进行卷积操作: 是卷积操作;由此得到K1个特征面(feature map)即其中是Xn由卷积核卷积得到;
步骤五:对步骤四得到的每一个特征面,利用Rectified Linear Units(ReLU)函数激活神经元;
步骤六:对激活后的每一个特征面进行概率池化,记该池化为第一层概率池化;
步骤七:对步骤六经过第一层池化后得到的每一个特征面执行步骤一到步骤六,得到经第二层池化后的特征面,即第一层池化后的每一个特征面经过第二层池化后均能得到K2个特征面记为中的每个特征面二值化,特征面二值化后记为中的所有特征面二值化后得二值化特征面集合并按照下式叠加成一个新特征面I:
其中,是集合中的第i个二值化特征面;按上述方法可得到第一层池化后的每一个特征面对应的新特征面k1∈[1,K1];
步骤八:在可重叠滑动窗口内对特征面统计直方图:设置滑动窗口大小为R×R,窗口的滑动步长为s,将滑动窗口置于特征面的一端,按滑动步长依次在特征面In上滑动直至遍历整个特征面窗口每滑动一次便计算当前窗口的直方图,共计获得H个直方图,每个直方图包含有B个bin值;
在不同尺度q上将特征面按不同尺度依次划分成2q×2q个块,q=0、1、2,共记获得21个分块;对于尺度q=0来说,构建一个包含B个bin值的直方图,该直方图中的位置b(b=1,2,...,B)上的bin值是从所述H个滑动窗口直方图中相应位置b上的bin取值中的最大值;尺度q=1和q=2对应的每一个分块按照上述相同方式得到对应的直方图,共计获得21个直方图;最终,每一张图片的特征即是这21个直方图向量拼接成的向量构成,即每个图片的最终特征维数为21×K1×(K2+1);
按上述方法即可得到训练图像集中每一张训练图片的特征;
步骤九:将训练图像集的特征输入到分类器SVM中,对SVM进行训练;
步骤十:将测试图像集,输入训练好的SVM模型中,进行图像的分类。
2.根据权利要求1所述的基于简洁非监督式卷积网络的图像分类方法,其特征在于,步骤二的预处理中,按照公式(1)进行归一化,按照公式(2)(3)(4)进行白化:
其中,T个图像块向量组成矩阵P={p1,…,pt,…,pT},其中,t=1,…,T,mean(·)是求向量平均值,var(·)是求向量的方差,cov(·)是求向量的协方差矩阵,Eig(·)是求特征值向量L与特征向量矩阵U,λi是第i个特征值。
3.根据权利要求1所述的基于简洁非监督式卷积网络的图像分类方法,其特征在于,步骤六的池化方式具体如下,记池化域的大小即池化域包含的神经元个数为w2×h2,则概率池化操作如公式(5)所示:
其中,ai,j是当前特征面中位置(i,j)上的神经元,i=1,…,w2,j=1,…,h2,sum(ai,j)是对池化域中的神经元值求和。
4.根据权利要求3所述的基于简洁非监督式卷积网络的图像分类方法,其特征在于,步骤七所述的二值化过程具体如下:
其中,bi,j是当前特征面中位置(i,j)上的神经元,i=1,…,w2,j=1,…,h2。
CN201510368991.3A 2015-06-29 2015-06-29 一种基于简洁非监督式卷积网络的图像分类方法 Expired - Fee Related CN105046272B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201510368991.3A CN105046272B (zh) 2015-06-29 2015-06-29 一种基于简洁非监督式卷积网络的图像分类方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201510368991.3A CN105046272B (zh) 2015-06-29 2015-06-29 一种基于简洁非监督式卷积网络的图像分类方法

Publications (2)

Publication Number Publication Date
CN105046272A CN105046272A (zh) 2015-11-11
CN105046272B true CN105046272B (zh) 2018-06-19

Family

ID=54452801

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201510368991.3A Expired - Fee Related CN105046272B (zh) 2015-06-29 2015-06-29 一种基于简洁非监督式卷积网络的图像分类方法

Country Status (1)

Country Link
CN (1) CN105046272B (zh)

Families Citing this family (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105631479B (zh) * 2015-12-30 2019-05-17 中国科学院自动化研究所 基于非平衡学习的深度卷积网络图像标注方法及装置
CN105894046B (zh) * 2016-06-16 2019-07-02 北京市商汤科技开发有限公司 卷积神经网络训练及图像处理的方法和系统、计算机设备
CN106127747B (zh) * 2016-06-17 2018-10-16 史方 基于深度学习的汽车表面损伤分类方法及装置
WO2018076130A1 (zh) * 2016-10-24 2018-05-03 中国科学院自动化研究所 物体识别模型的建立方法及物体识别方法
CN106845528A (zh) * 2016-12-30 2017-06-13 湖北工业大学 一种基于K‑means与深度学习的图像分类算法
CN106919980B (zh) * 2017-01-24 2020-02-07 南京大学 一种基于神经节分化的增量式目标识别系统
CN106874956B (zh) * 2017-02-27 2018-10-23 陕西师范大学 图像分类卷积神经网络结构的构建方法
CN107563493A (zh) * 2017-07-17 2018-01-09 华南理工大学 一种多生成器卷积合成图像的对抗网络算法
CN107832794B (zh) * 2017-11-09 2020-07-14 车智互联(北京)科技有限公司 一种卷积神经网络生成方法、车系识别方法及计算设备

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104036253A (zh) * 2014-06-20 2014-09-10 智慧城市系统服务(中国)有限公司 一种车道线追踪方法及系统
CN104408435A (zh) * 2014-12-05 2015-03-11 浙江大学 一种基于随机池化卷积神经网络的人脸识别方法
CN104408405A (zh) * 2014-11-03 2015-03-11 北京畅景立达软件技术有限公司 人脸表示和相似度计算方法
CN104463172A (zh) * 2014-12-09 2015-03-25 中国科学院重庆绿色智能技术研究院 基于人脸特征点形状驱动深度模型的人脸特征提取方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10776606B2 (en) * 2013-09-22 2020-09-15 The Regents Of The University Of California Methods for delineating cellular regions and classifying regions of histopathology and microanatomy

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104036253A (zh) * 2014-06-20 2014-09-10 智慧城市系统服务(中国)有限公司 一种车道线追踪方法及系统
CN104408405A (zh) * 2014-11-03 2015-03-11 北京畅景立达软件技术有限公司 人脸表示和相似度计算方法
CN104408435A (zh) * 2014-12-05 2015-03-11 浙江大学 一种基于随机池化卷积神经网络的人脸识别方法
CN104463172A (zh) * 2014-12-09 2015-03-25 中国科学院重庆绿色智能技术研究院 基于人脸特征点形状驱动深度模型的人脸特征提取方法

Also Published As

Publication number Publication date
CN105046272A (zh) 2015-11-11

Similar Documents

Publication Publication Date Title
CN105046272B (zh) 一种基于简洁非监督式卷积网络的图像分类方法
Shao et al. Performance evaluation of deep feature learning for RGB-D image/video classification
CN108108751B (zh) 一种基于卷积多特征和深度随机森林的场景识别方法
CN108090472B (zh) 基于多通道一致性特征的行人重识别方法及其系统
CN112883839B (zh) 基于自适应样本集构造与深度学习的遥感影像解译方法
CN108090403A (zh) 一种基于3d卷积神经网络的人脸动态识别方法及系统
CN109002755B (zh) 基于人脸图像的年龄估计模型构建方法及估计方法
Zhou et al. Remote sensing scene classification based on rotation-invariant feature learning and joint decision making
CN109063724A (zh) 一种增强型生成式对抗网络以及目标样本识别方法
CN109034035A (zh) 基于显著性检测和特征融合的行人重识别方法
CN106874862B (zh) 基于子模技术和半监督学习的人群计数方法
CN111652273B (zh) 一种基于深度学习的rgb-d图像分类方法
CN103177265B (zh) 基于核函数与稀疏编码的高清图像分类方法
Vallet et al. A multi-label convolutional neural network for automatic image annotation
CN114842264A (zh) 一种基于多尺度空谱特征联合学习的高光谱图像分类方法
CN111401156A (zh) 基于Gabor卷积神经网络的图像识别方法
CN113011243A (zh) 基于胶囊网络的面部表情分析方法
CN108491863A (zh) 基于非负矩阵分解和卷积神经网络的彩色图像处理方法
Feng et al. NPALoss: Neighboring pixel affinity loss for semantic segmentation in high-resolution aerial imagery
CN115527072A (zh) 一种基于稀疏空间感知与元学习的芯片表面缺陷检测方法
CN111401434A (zh) 一种基于无监督特征学习的图像分类方法
CN111310820A (zh) 基于交叉验证深度cnn特征集成的地基气象云图分类方法
CN110188646A (zh) 基于梯度方向直方图与局部二值模式融合的人耳识别方法
Song et al. Using dual-channel CNN to classify hyperspectral image based on spatial-spectral information
CN109886160A (zh) 一种非限定条件下的人脸识别方法

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20180619