CN110119455A

CN110119455A - 一种基于卷积深度置信网络的图像分类检索方法

Info

Publication number: CN110119455A
Application number: CN201910329040.3A
Authority: CN
Inventors: 王文卿; 焦鹏飞; 刘涵; 刘伟
Original assignee: Xian University of Technology
Current assignee: Xian University of Technology
Priority date: 2019-04-23
Filing date: 2019-04-23
Publication date: 2019-08-13

Abstract

本发明公开一种基于卷积深度置信网络的图像分类检索方法。具体实施步骤为：步骤1：将图像数据集中的图片进行预处理，得到尺寸统一的灰度图片，将所述灰度图片随机划分为两部分，一部分为训练集，另一部分为测试集；构建一个CDBN模型；步骤2：用训练集对CDBN模型进行训练；步骤3：将测试集中的图像作为查询图像，用训练好的CDBN模型对查询图像进行分类，输出图像的类别标号；步骤4：对图像数据集中相同类别标号的图像使用hog特征描述子进行类内检索排序，最终得到图像检索的结果。本发明中CDBN模型可以获得具有局部不变性和能够学习高阶统计特征，表达能力和可区分性更强，能够改进和提升图像分类检索技术。

Description

一种基于卷积深度置信网络的图像分类检索方法

技术领域

本发明属于计算机视觉技术领域，涉及一种基于卷积深度置信网络的图像分类检索方法。

背景技术

图像分类检索技术中，图像的表示和图像的特征表达是其关键问题所在，合理的描述和表达图像的视觉内容，是图像分类检索任务中需要解决的首要问题。早期的很多研究工作中，普遍使用的是图像的颜色、纹理或形状等全局特征，如颜色直方图、纹理能量、轮廓矩等等。虽然全局特征可以较好的表示图像的总体特点，计算复杂度较低，但是由于其无法有效区分前景目标和背景信息，不能够准确描述图像的细节信息，因此区分度较差，仅适用于特定应用背景下的图像分类检索。近年来，图像局部特征由于具有更优的描述能力和鲁棒性，成为图像视觉特征研究的热点。图像局部特征指的是在图像中根据某种属性定义的有区别与其邻域的特征模式，主要包括特征点的局部特征和基于区域的局部特征描述，实质上就是一些在各种成像条件下能够稳定、重复出现并且具有良好可区分的一些点或区域，即兴趣点(Interest point)或感兴趣区域(Region of Interest)。但通常情况下，一幅图像中可能检测出多个特征区域或特征点，因此在描述形式上通常都是以高维向量的形式存在，即“图像局部特征集”。然而这种“局部特征集”的描述形式不适合于传统的图像分类和检索应用。随着模式识别和机器学习的快速发展，图像的视觉特征的研究焦点逐渐转移到在学习系统的帮助下实现图像的特征提取，进一步促进了图像分类和检索技术的发展。

目前，在计算机视觉领域中，深度学习模型通过无监督的方式去学习到数据中的层次特征表达，不同于传统的人工设计的特征，这样减少了人工设计特征的巨大工作量，并且包含了图像的语义信息，即通过一个大量标注的图像数据来训练深度神经网络，而图像的标注代表了图像的类别，也反映了人类视觉中对图像内容的理解。深度学习模型作为一种强大的特征学习器，其学习过程一般是以无监督和有监督结合的方式完成，其不仅能够自主提取图像，并且能够相对准确得学习到人类对图像的理解方式，进而训练得到的深度学习模型可以为图像提供一个类似于人类视觉系统理解的语义描述，更有助于图像分类和图像检索的应用。

目前，卷积神经网络(CNN)在图像分类领域展现出了卓越的性能，CNN对图像的位移、缩放以及其他旋转变化等具有良好的适应性，但是其忽略了图像中的高阶统计特征；而在深度置信网络(DBN)模型中，其在提取图像高阶特征方面具备良好的性能，但忽略了图像中的局部不变性，对图像的一些局部变化较为敏感。并且DBN对于给定的每一个位置都要进行权值学习，这种冗余的设计使其很难适用于整幅图像，可能会存在图像中部分有效信息丢失等情况，并且这种设计需要训练大量的权值参数，计算复杂度极高。

发明内容

本发明的目的是提供一种基于卷积深度置信网络的图像分类检索方法，能够改进和提升图像分类检索技术。

本发明所采用的技术方案是，

一种基于卷积深度置信网络的图像分类检索方法，具体实施步骤为：

步骤1：将图像数据集中的图片进行预处理，得到尺寸统一的灰度图片，将所述灰度图片随机划分为两部分，一部分为训练集，另一部分为测试集；

构建一个CDBN模型；

步骤2：用训练集对CDBN模型进行训练；

步骤3：将测试集中的图像作为查询图像，利用步骤2中训练好的CDBN模型(1)对查询图像进行分类，输出图像的类别标号；

步骤4：对图像数据集中相同类别标号的图像使用hog特征描述子进行类内检索排序，最终得到图像检索的结果。

本发明的特点还在于，

步骤1中预处理步骤的具体实施方式为：将训练集与测试集中的图片依次经过图像灰度化、尺寸标准化、归一化的处理，最终得到尺寸相同的灰度图像。

CDBN模型的网络主体结构为三层CRBM的堆叠，按照信息处理的顺序依次为第一层CRBM、第二层CRBM和第三层CRBM；所述每个CRBM按照信息处理顺序依次包括可视层、隐藏层和池化层；所述第三层CRBM后接softmax分类器；

第一层CRBM中隐藏层的卷积操作包含9个特征映射，卷积核大小设为5×5，池化层的池化大小设置为2×2；第二层CRBM中隐藏层的卷积操作包含11个特征映射，卷积核大小设为7×7，池化层的池化大小为3×3；第三层CRBM中隐藏层的卷积操作包含16个特征映射，卷积核大小设为5×5，池化层的池化大小为2×2；所述Softmax分类层中最大迭代次数maxIter设置为1000，代价函数为交叉熵代价函数。

步骤4中hog特征描述子特征提取的参数为：cellpw＝16，cellph＝16，nblockw＝4，nblockh＝4，nthet＝9，overlap＝0.5。

本发明的有益效果是，

CDBN模型可以获得具有局部不变性和能够学习高阶统计特征，表达能力和可区分性更强，能够改进和提升图像分类检索技术。

附图说明

图1是本发明一种基于卷积深度置信网络的图像分类检索方法的整体框架图；

图2是本发明一种基于卷积深度置信网络的图像分类检索方法中每个CRBM的结构示意图；

图3是本发明一种基于卷积深度置信网络的图像分类检索方法中CDBN模型的示意图；

图4是本发明一种基于卷积深度置信网络的图像分类检索方法中CDBN模型训练过程示意图；

图5是本发明一种基于卷积深度置信网络的图像分类检索方法的实验中所用Coil20数据集的示例图；

图6是本发明方法一种基于卷积深度置信网络的图像分类检索方法在Coil20数据集上的结果示意图；

图7是本发明一种基于卷积深度置信网络的图像分类检索方法实验中所用MercedLand Use数据集的示例图(注：图7中显示的实验图片为彩色图)；

图8是本发明一种基于卷积深度置信网络的图像分类检索方法在UC MercedLandUse数据集上的结果示意图(注：图8中显示的实验图片为彩色图)；

图9是本发明一种基于卷积深度置信网络的图像分类检索方法实验中所用Caltech256数据集示例图(注：图9中显示的实验图片为彩色图)；

图10是本发明一种基于卷积深度置信网络的图像分类检索方法在Caltech256数据集上的结果示意图(注：图10中显示的实验图片为彩色图)。

图中，1.CDBN模型；2.第一层CRBM；3.第二层CRBM；4.第三层CRBM；5.Softmax分类器；6.池化层；7.隐藏层；8.可视层。

具体实施方式

下面结合附图和具体实施方式对本发明进行详细说明。

一种基于卷积深度置信网络的图像分类检索方法，具体实施步骤如图1所示，为：

步骤1：将图像数据集中的图片进行预处理，得到尺寸统一的灰度图片，将所述灰度图片随机划分为两部分，一部分为训练集，另一部分为测试集；预处理步骤的具体实施方式为：将训练集与测试集中的图片均依次经过图像灰度化、尺寸标准化、归一化的处理，最得到图片尺寸为64×64的训练集与测试集图片。

构建一个卷积深度置信网络模型，即CDBN模型1，CDBN模型1的网络主体结构为三层卷积限制玻尔兹曼机(即CRBM)的堆叠，按照信息处理的顺序依次为第一层CRBM2、第二层CRBM3和第三层CRBM4；如图2所示，每个CRBM按照信息处理顺序依次包括可视层8(Visiblelayer)、隐藏层7(Hidden layer)和池化层6(Pooling layer)；所述第三层CRBM4后接softmax分类器5；

本发明所构建的CDBN模型示意图如图3所示。

其中CDBN网络模型的输入大小设置为64×64，其中第一层CRBM2中隐藏层的卷积操作包含9个特征映射，卷积核大小设为5×5，池化层的池化大小设置为2×2；第二层CRBM3中隐藏层的卷积操作包含11个特征映射，卷积核大小设为7×7，池化层的池化大小为3×3；第三层CRBM4中隐藏层的卷积操作包含16个特征映射，卷积核大小设为5×5，池化层的池化大小为2×2；Softmax分类层中最大迭代次数maxIter设置为1000，代价函数为交叉熵代价函数。CDBN网络模型中的参数设置如表1～表3所示：

表1第一层CRBM的参数设置

表2.第二层CRBM的参数设置

表3.第三层CRBM的参数设置

步骤2：用训练集对CDBN模型1进行训练；

其中hog特征描述子特征提取的参数为：cellpw＝16，cellph＝16，nblockw＝4，nblockh＝4，nthet＝9，overlap＝0.5。

在本发明构建的CDBN模型中，卷积受限玻尔兹曼机(CRBM)是CDBN模型的基本构成单元，如图2，CRBM模型按照信息处理的先后顺序依次由可视层8(Visible layer)、隐藏层7(Hidden layer)、池化层6(Pooling layer)组成。隐藏层7H的所有节点为二值单元，可视层8中V没有限制，输入二值或实数皆可。其中输入层V是N_v×N_v的二元向量单元。隐藏层H含有K组N_H×N_H维的二元向量单元，一共个隐单元。其中每组都是输入层经过一个的维的滤波器卷积得到，并且每组滤波器的权值都是共享的。

每个CRBM隐藏层中定义一个能量函数，并利用能量函数引入一系列相关的概率分布函数，概率分布函数用于观测可视层数据v的概率分布，能量函数的公式为：

当可视层的输入为实数时，其能量函数可以写为：

相关的联合分布和条件分布定义如下：

p(vi＝1|h)＝sigmoid(∑_k(W^k*fh^k)_i+c)(for binary units) (式5)

p(vi＝1|h)＝Normal(∑_k(W^k*_fh^k)_i+c，1)(for real visibleunits) (式6)

其中，p为池化层节点，W^k为卷积核的权值，为隐藏层节点，v为可视层节点，*为卷积层的有效卷积值，*_f为全卷积值，对于两个长度分别为m和n的向量(m＞n)，可以得到两个长度分别为m-n+1和m+n-1的向量，因此，该模型满足各层条件独立的特点，可以采用Gibbs采样的方法进行模型训练。

本发明一种基于卷积深度置信网络的图像分类检索方法与检索方法中，对CDBN模型训练过程如图4所示，CDBN模型的预训练是采用对比散度(CD)算法进行的，当某一层的参数训练完毕，这一层的参数值就暂时固定，其激活值作为下一层的输入值来进行下一层的训练；当所有层都预训练完成之后，CDBN则要通过得到特征参数以及网络的权值对输入数据进行重构，利用重构数据与原始数据的误差结合BP算法对整个网络进行权值微调，从而使得网络模型能够更好的拟合输入数据。

假设输入数据为N_v×N_v大小的灰度图像数据，示意图中我们取N_v＝10，与卷积神经网络(CNN)类似，CRBM也可以设置多个特征提取器(即CNN中的卷积核)，假设这里给定K组大小为N_w×N_w的卷积核，这里取N_w＝4，采样步长为L，这里取L＝1，每一个特征滤波器都可以视为一个通道，其内部数据的计算方式与其余通道无关。从可视层到隐藏层的计算中，采样valid型conv2函数计算隐藏层节点的概率，由K组特征滤波器(卷积核K₁,K₂,...,K_K)分别对可视层v进行卷积处理，得到隐藏层H₁的特征参数，即得到一个大小为N_H×N_H的向量，即如图4中所示的N_H＝(10-4)1+1＝7。用sigmoid函数激活H1后得到特征滤波器K₁在隐藏层的值h₁(h₁也称为一个group)；其次，从隐藏层到池化层的计算中，采用最大值池化CRBM，即按照pool的大小poolsize在每个pool中选取最大值作为Max-pooling层的参数，这里的poolsize＝[2,2]，即pool区域的长度为2，各个区域互不重叠。因此，在CRBM的训练过程中，每个通道计算得到的Max-pooling层有K组大小为N_p×N_p的group，这里即N_p＝INT[7/2]＝3。在得到Max-pooling层的参数后，通过这些参数重构出观察变量值。反卷积过程通过full型的conv2函数实现。最终采用CD算法进行模拟梯度求解，更新权值

在本发明中CDBN网络模型训练完成之后，将预处理后的测试集图片输入到训练好的CDBN网络模型中，提取到测试图像的深度特征；然后根据这些特征使用训练好的softmax分类器进行图像分类，获取到测试图像的类别标号；最后在图像数据集中与测试图像类别标号的数字图像集合中再进一步使用hog特征进行检索排序，得到最终的图像检索结果。

本发明采用的局部特征hog特征描述子，hog特征提取的参数cellpw＝16，cellph＝16，nblockw＝4，nblockh＝4，nthet＝9，overlap＝0.5。所获取的hog特征维度为1×144，然后通过度量欧式距离判断图像的相似性，进行结果返回。

实验分析

目前，许多研究实验发现，深度学习模型对于大规模的图像分类具有良好的性能，因此，此次实验中我们将本发明中公开的方法(CDBN)与Gist+SVM、HoG+SVM、Alexnet这三种传统的分类检索方法做了对比，观察随着不同训练样本数量的条件下对图像分类性能的影响；以及不同数据集上这几种方法图像分类的表现。

以下所有实验环境均为Matlab R2017a，计算机操作系统为Win10专业版，CPUInterl(R)corel(TM)I5-7500(主频3.4GHz)，内存8GB。

本实验采用平均准确率来衡量图像分类方法的准确度，平均准确率计算方式为：

实验1：采用Gist+SVM、HoG+SVM、Alexnet与本发明一种基于卷积深度置信网络的图像分类检索方法与检索方法(CDBN)对Coil20数据集进行分类检索

Coil20数据集是一个灰度图像数据集合，包含从不同角度拍摄的20个物体，每隔5度拍摄一幅图像，每隔物体72张图像，总共1440幅图像，如图5所示。

如表4所示，其中的20samples、30samples、40samples、50samples表示训练集中的图片数，在Coil20数据集上，当训练样本数量较少的时候，Gist、Hog等人工设计的特征描述子在分类任务上表现性能良好，但当训练样本的数量逐步增加的时候，深度学习模型CDBN、Alexnet均展现出了非常卓越的性能。从表4中可知，在训练集样本数采用为50时，本文中所采用的基于CDBN模型的图像分类检索算法也获取了99.64％的平均准确率；如图6所示是Coil20数据集上采用本发明的方法进行图像分类检索结果的示例。

表4.几种算法在Coil20数据集上的实验结果

实验2：采用Gist+SVM、HoG+SVM、Alexnet与本发明一种基于卷积深度置信网络的图像分类检索方法与检索方法(CDBN)对UC Merced Land Use数据集进行分类检索。

UC Merced Land Use数据集是一个包含21类场景遥感卫星图像分类数据库，每一类包含100张图像，如图7所示。

表5.几种算法在UC Merced LandUse数据集上的实验结果

如表5所示，其中的30samples、45samples、60samples、80samples表示训练集中的图片数，相比于Coil20数据集，UC Merced LandUse数据集中的图像数据更为复杂和多样。当训练样本较少的时候，Gist、Hog等人工设计的特征描述子在分类应用上的平均准确率相对较低，而同等条件下使用深度学习模型CDBN、Alexnet作为特征提取器，所学习得到的深度特征在分类任务中展现出了良好的性能，并且随着训练样本数量的逐渐增加，深度学习模型在分类任务中的平均准确率得到了进一步的提升。因此，可以预计当训练样本的数量进一步扩大时，可能图像分类性能会有进一步的提升。此外，从表5可知，在训练集样本数采用为80时，本发明方法获取了87.61％的平均准确率，相比于传统的卷积神经网络模型Alexnet 84.73％的平均准确率，分类性能有了一定的提升，证明了CDBN模型在特征学习方面具有良好的性能，获取的图像特征表达能力更强，同时应用于分类检索任务中，可以有效提升分类和检索的性能。如图8是UC Merced LandUse数据集上基于CDBN模型的图像分类检索结果的示例。

实验3：采用Gist+SVM、HoG+SVM、Alexnet与本发明一种基于卷积深度置信网络的图像分类检索方法与检索方法(CDBN)对Caltech256数据集进行分类检索。

Caltech256是加州理工学院的图像数据库，包含256种类别的物体，大约30607幅图像，如图9所示。

如表6所示，其中的30samples、45samples、60samples、80samples表示训练集中的图片数，在Caltech256数据集中，我们抽取其中50类，约6571幅图像进行实验验证。从表中实验数据明显可以看出采用深度学习模型CDBN和Alexnet提取的特征在分类任务中的性能比传统的人工设计的特征描述子更好。同时，通过在该数据集上的实验效果分析，本文中所采用的CDBN模型的图像分类检索算法相对于Alexnet效果不是非常明显，但是相比于传统方法，也是有一点点的优势。

综上所述，本发明一种基于卷积深度置信网络的图像分类检索方法与检索方法可以有效实现图像分类检索任务，并在一定程度上提升图像特征的表达能力，使之更适于图像分类和检索任务，达到高效的图像分类和检索结果。

表6几种算法在Caltech256数据集上的实验结果

Claims

1.一种基于卷积深度置信网络的图像分类检索方法，其特征在于，具体实施步骤为：

构建一个CDBN模型(1)；

步骤2：用训练集对CDBN模型(1)进行训练；

2.如权利要求1所述的一种基于卷积深度置信网络的图像分类检索方法，其特征在于，步骤1中所述预处理步骤的具体实施方式为：将训练集与测试集中的图片均依次经过图像灰度化、尺寸标准化、归一化的处理，最终得到尺寸相同的灰度图像。

3.如权利要求1所述的一种基于卷积深度置信网络的图像分类检索方法，其特征在于，步骤1中所述CDBN模型(1)的网络主体结构为三层CRBM的堆叠，按照信息处理的顺序依次为第一层CRBM(2)、第二层CRBM(3)和第三层CRBM(4)；所述每个CRBM按照信息处理顺序依次包括可视层、隐藏层和池化层；所述第三层CRBM(4)后接softmax分类器(5)。

4.如权利要求3所述的一种基于卷积深度置信网络的图像分类检索方法，其特征在于，所述第一层CRBM(2)中隐藏层的卷积操作包含9个特征映射，卷积核大小设为5×5，池化层的池化大小设置为2×2；所述第二层CRBM(3)中隐藏层的卷积操作包含11个特征映射，卷积核大小设为7×7，池化层的池化大小为3×3；所述第三层CRBM(4)中隐藏层的卷积操作包含16个特征映射，卷积核大小设为5×5，池化层的池化大小为2×2；所述Softmax分类层中最大迭代次数maxIter设置为1000，代价函数为交叉熵代价函数。

5.如权利要求4所述的一种基于卷积深度置信网络的图像分类检索方法，其特征在于，所述步骤4中hog特征描述子特征提取的参数为：cellpw＝16，cellph＝16，nblockw＝4，nblockh＝4，nthet＝9，overlap＝0.5。