CN105046272B

CN105046272B - 一种基于简洁非监督式卷积网络的图像分类方法

Info

Publication number: CN105046272B
Application number: CN201510368991.3A
Authority: CN
Inventors: 董乐; 张宁
Original assignee: University of Electronic Science and Technology of China
Current assignee: University of Electronic Science and Technology of China
Priority date: 2015-06-29
Filing date: 2015-06-29
Publication date: 2018-06-19
Anticipated expiration: 2035-06-29
Also published as: CN105046272A

Abstract

本发明提供了一种基于简洁非监督式卷积网络的图像分类方法，属于图像处理与深度学习技术领域。本发明利用经典的非监督式聚类算法K‑means对训练图像集的图像块进行聚类，得到的每一个聚类中心即是网络模型中的卷积核，摒弃传统卷积网络中反复通过随机梯度下降算法来得到卷积核的费时过程；此外，本发明通过提出一种概率池化方法增强了网络对图像变形的鲁棒性。通过本发明提出的简洁非监督式深度卷积网络分类模型，可以有效地降低模型训练时间，同时提高模型对多变场景图片的识别能力。

Description

一种基于简洁非监督式卷积网络的图像分类方法

技术领域

本发明属于图像处理与深度学习技术领域，涉及高效的图像分类处理，尤其涉及一种基于简洁非监督式卷积网络的图像分类的实现方案。

背景技术

近年来，图像分类在工业、制造业、军事、医疗等领域得到了广泛的关注与应用。尽管其发展形势一片大好，但随着实际应用的覆盖面逐渐拓宽，海量图像数据随之而来，无论是图像数据库的规模，还是图像内容的多样性，都达到了前所未有的高峰，这使得传统的图像处理方法已不堪重负。面对如此海量的图像信息，如何准确地将图像进行分类成为当今相关领域的研究热点。

在模式识别领域，深度学习态势愈演愈烈，其中尤以深度卷积神经网络模型为代表，在大规模图像分类任务中取得了突破性的成效。深度卷积神经网络的成功归因于它具有学习中级图像表达的能力，而不是手动设计低级的图像特征。纵使深度卷积网络已经取得了一定的成功，但其基于随机梯度下降算法的模型训练过程效率非常低，无法胜任大规模图像分类任务。

发明内容

本发明旨在简化传统的深度卷积网络模型，极大地降低网络参数数量以及网络训练的复杂度。将简化后的深度网络模型用于图像分类任务中，提高图像分类准确率。

为了克服传统的深度卷积神经网络模型复杂度高，参数数量多，网络模型难以训练，以及对带标签图像数据的严苛要求等问题，本发明研究了如何利用简单的非监督式算法来降低网络模型的复杂度，同时可利用大量存在的无标签图像进行网络模型的训练。本发明解决其技术问题所提出的技术方案是：利用经典的非监督式聚类算法K-means对训练图像集的图像块进行聚类，得到的每一个聚类中心即是网络模型中的卷积核，摒弃传统卷积网络中反复通过随机梯度下降算法来得到卷积核的费时过程。由K-means算法生成卷积核的过程非常高效，且此方法对稀缺的带标签的图像数据无硬性要求，同时，得到的卷积核具有高度的辨识能力。为提高网络模型对图像变形的鲁棒性，本发明提出了一种基于概率的池化方法。相对于传统卷积网络普遍采用的最大池化和平均池化，本发明提出的概率池化方法考虑到了每一个神经元的作用，并且衡量了每个神经元作用的大小，因此具有更强的鲁棒性。在网络的输出层，本发明提出在不同尺度上统计直方图，然后在不同尺度上对直方图进行最大池化，选取最具竞争力的图像特征。不同尺度统计直方图最大限度地提高了模型的图像几何不变性，简单，高效。最后将输出层得到的图像特征输入到分类器SVM中，进行图像分类。

本发明提供的一种基于简洁非监督式卷积网络的图像分类方法，其框架图如图1所示，包括以下步骤：

步骤一：将训练图像集中的每一张训练图片划分成多个图像块，整个训练图象集总计包含T个图像块；

步骤二：预处理：对这T个图像块依次进行归一化和白化处理；

对每一张训练图片X_n按步骤四至步骤八进行操作；

步骤五：对步骤四得到的每一个特征面(feature map)，利用Rectified LinearUnits(ReLU)函数激活神经元；

步骤六：对激活后的每一个特征面进行概率池化，记该池化为第一层概率池化；

步骤七：对步骤六经过第一层池化后得到的每一个特征面执行步骤一到步骤六，得到经第二层池化后的特征面，即第一层池化后的每一个特征面经过第二层池化后均能得到K₂个特征面记为将中的每个特征面二值化，特征面二值化后记为将中的所有特征面二值化后得二值化特征面集合并按照下式叠加成一个新特征面I：

其中，是集合中的第i个二值化特征面；按上述方法可得到第一层池化后的每一个特征面对应的新特征面k₁∈[1,K₁]；

步骤八：在可重叠滑动窗口内对特征面统计直方图：设置滑动窗口大小为R×R，窗口的滑动步长为s，将滑动窗口置于特征面的一端，按滑动步长依次在特征面I_n上滑动直至遍历整个特征面窗口每滑动一次便计算当前窗口的直方图，共计获得H个直方图，每个直方图包含有B个bin值；

在不同尺度q上将特征面按不同尺度依次划分成2^q×2^q个块，q＝0、1、2，如图2所示，共记获得21个分块；对于尺度q＝0来说，构建一个包含B个bin值的直方图，该直方图中的位置b(b＝1,2,...,B)上的bin值是从所述H个滑动窗口直方图中相应位置b上的bin取值中的最大值；尺度q＝1和q＝2对应的每一个分块按照上述相同方式得到对应的直方图，共计获得21个直方图；最终，每一张图片的特征即是这21个直方图向量拼接成的向量构成，即每个图片的最终特征维数为21×K₁×(K₂+1)；

按上述方法即可得到训练图像集每一张训练图片的特征；

步骤九：将训练图像集的特征输入到分类器SVM中，对SVM进行训练；

步骤十：将测试图像集，输入训练好的SVM模型中，进行图像的分类。

本发明的有益效果：

本发明简化了传统的卷积网络模型，提高图像分类的准确率，相比于现有技术，本发明具有以下优点：

1、非监督式卷积核学习过程极其简洁，摒弃了成千上万的参数初始化和调优，同时解决了传统卷积网络必须使用带标签图像的瓶颈；

2、概率池化既考虑了每一个神经元的作用，又衡量了其作用的不同程度大小，提高了网络模型对图像变形的鲁棒性；

3、在滑动窗口内统计直方图，保留了图像的空间信息，提高了网络模型的几何不变性。

附图说明

图1是本发明提出的简洁非监督式卷积网络分类方法的模型框架图。

图2是本发明方法步骤八中特征面的划分示意图。

具体实施方式

本发明解决其技术问题采用的具体实施步骤如下：

步骤一：将训练图像集中的每一张训练图片划分成多个大小为w×h的图像块，每一个图像块的像素点组成维度为R^M的向量，其中M＝w×h×d，d代表图像的通道值，对于RGB图片，d＝3，对于灰度图片，d＝1；整个训练图象集总计包含T个图像块，所有的这T个图像块向量组成矩阵P＝{p₁,…,p_t,…,p_T}，其中，t＝1,…,T，p_t∈R^M；

步骤二：对这T个图像块进行预处理；

按照公式(1)进行归一化，按照公式(2)(3)(4)进行白化：

其中，mean(·)是求向量平均值，var(·)是求向量的方差，cov(·)是求向量的协方差矩阵，Eig(·)是求特征值向量L与特征向量矩阵U，λ_i是第i个特征值；

步骤三：完成对图像块的预处理后，得到图像块集合利用K-means算法对进行聚类，得到网络第一层的K₁个卷积核

对每一张训练图片X_n按步骤四至步骤八进行操作；

步骤五：对步骤四得到的每一个特征面(feature map)，利用Rectified LinearUnits(ReLU)函数激活神经元，所述ReLU函数即：f(x)＝max{0,x}；

步骤六：对激活后的每一个特征面进行第一层概率池化，记池化域的大小即池化域包含的神经元个数为w2×h2，则概率池化操作如公式(5)所示：

其中，a_i,j是当前feature map中位置(i,j)上的神经元，i＝1,…,w2，j＝1,…,h2，sum(a_i,j)是对池化域中的神经元值求和；

步骤七：对步骤六经过第一层池化后得到的每一个特征面执行步骤一到步骤六，得到经第二层池化后的特征面，即第一层池化后的每一个特征面经过第二层池化后均能得到K₂个特征面记为将中的每个特征面二值化：

其中，b_i,j是当前特征面中位置(i,j)上的神经元，i＝1,…,w2，j＝1,…,h2，特征面二值化后记为将中的所有特征面二值化后得二值化特征面集合并按照公式(7)叠加成一个新特征面I：

按照上述的窗口滑动及直方图统计方式提取图片特征可能带来特征的冗余及维度灾难，故本发明采取在不同尺度上对特征进行选取，见参考文献[1]，具体操作如下：

按上述方法即可得到训练图像集中每一张训练图片的特征；

本实施例引用的参考文献如下：

[1]K.M.He,X.Y.Zhang,S.Q.Ren,and J.Sun.Spatial pyramid pooling in deepconvolutional networks for visual recognition.In ECCV,2014.

Claims

1.一种基于简洁非监督式卷积网络的图像分类方法，具体包括以下步骤：

步骤一：将训练图像集中的每一张训练图片划分成多个图像块，一个图像块的像素点组成维度为R^M的向量，整个训练图像集总计包含T个图像块；

步骤三：针对完成预处理的图像块，利用K-means算法对进行聚类，得到网络第一层的K₁个卷积核

对每一张训练图片X_n按步骤四至步骤八进行操作；

步骤四：针对每一张大小为W×H的训练图片X_n，用步骤三得到的卷积核对X_n进行卷积操作：是卷积操作；由此得到K₁个特征面(feature map)即其中是X_n由卷积核卷积得到；

步骤五：对步骤四得到的每一个特征面，利用Rectified Linear Units(ReLU)函数激活神经元；

在不同尺度q上将特征面按不同尺度依次划分成2^q×2^q个块，q＝0、1、2，共记获得21个分块；对于尺度q＝0来说，构建一个包含B个bin值的直方图，该直方图中的位置b(b＝1,2,...,B)上的bin值是从所述H个滑动窗口直方图中相应位置b上的bin取值中的最大值；尺度q＝1和q＝2对应的每一个分块按照上述相同方式得到对应的直方图，共计获得21个直方图；最终，每一张图片的特征即是这21个直方图向量拼接成的向量构成，即每个图片的最终特征维数为21×K₁×(K₂+1)；

按上述方法即可得到训练图像集中每一张训练图片的特征；

2.根据权利要求1所述的基于简洁非监督式卷积网络的图像分类方法，其特征在于，步骤二的预处理中，按照公式(1)进行归一化，按照公式(2)(3)(4)进行白化：

其中，T个图像块向量组成矩阵P＝{p₁,…,p_t,…,p_T}，其中，t＝1,…,T，mean(·)是求向量平均值，var(·)是求向量的方差，cov(·)是求向量的协方差矩阵，Eig(·)是求特征值向量L与特征向量矩阵U，λ_i是第i个特征值。

3.根据权利要求1所述的基于简洁非监督式卷积网络的图像分类方法，其特征在于，步骤六的池化方式具体如下，记池化域的大小即池化域包含的神经元个数为w2×h2，则概率池化操作如公式(5)所示：

其中，a_i,j是当前特征面中位置(i,j)上的神经元，i＝1,…,w2，j＝1,…,h2，sum(a_i,j)是对池化域中的神经元值求和。

4.根据权利要求3所述的基于简洁非监督式卷积网络的图像分类方法，其特征在于，步骤七所述的二值化过程具体如下：

其中，b_i,j是当前特征面中位置(i,j)上的神经元，i＝1,…,w2，j＝1,…,h2。