CN109325514A - 基于改进cnn的简单学习框架的图像分类方法 - Google Patents

基于改进cnn的简单学习框架的图像分类方法 Download PDF

Info

Publication number
CN109325514A
CN109325514A CN201810872957.3A CN201810872957A CN109325514A CN 109325514 A CN109325514 A CN 109325514A CN 201810872957 A CN201810872957 A CN 201810872957A CN 109325514 A CN109325514 A CN 109325514A
Authority
CN
China
Prior art keywords
image
convolution
output
image classification
size
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201810872957.3A
Other languages
English (en)
Inventor
李孝杰
吴锡
伍贤宇
何嘉
王强
史沧红
郭峰
罗超
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Chengdu University of Information Technology
Original Assignee
Chengdu University of Information Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Chengdu University of Information Technology filed Critical Chengdu University of Information Technology
Priority to CN201810872957.3A priority Critical patent/CN109325514A/zh
Publication of CN109325514A publication Critical patent/CN109325514A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2413Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on distances to training or reference patterns
    • G06F18/24133Distances to prototypes
    • G06F18/24137Distances to cluster centroïds
    • G06F18/2414Smoothing the distance, e.g. radial basis function networks [RBFN]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/082Learning methods modifying the architecture, e.g. adding, deleting or silencing nodes or connections

Abstract

本发明涉及一种基于改进CNN的简单学习框架的图像分类方法,其包括:输入图像I;将图像I分为大小为m×m的图像块集合;将图像Ii输入到卷积神经网络中进行训练;通过三层全连接层处理得到一维的矩阵,使用dropout正则化操作以避免过拟合;将神经网络中的输出结果输入到分类器里,输出得到分类结果。本发明提出了一种基于卷积神经网络的简单学习框架,表示为Brief–Net,并将其应用于图像分类,减少了训练的时间同时也提高了分类的精度。Brief–Net包括三个卷积层和最大池化层,接着是三个全连接层。采用softmax分类器来识别图像分类。本发明的方法能够有效减少训练时间和存储成本,具有较高的识别精度。

Description

基于改进CNN的简单学习框架的图像分类方法
技术领域
本发明涉及神经网络和图像分类领域,尤其涉及一种基于改进CNN的简单学习框架的图像分类方法。
背景技术
图像分类技术是近年来计算机视觉非常热门的一个方向,它是根据图像的语义信息将图像分为不同的类别,同时也是图像检测、图像分割、物体跟踪等方向的基础任务。图像分类的应用非常广泛,主要包含的场景有安全领域的人脸识别,交通领域的交通场景识别,互联网领域基于内容的图像检索和相册自动归类,医学领域的图像识别等。
图像分类任务是从图像中提取出重要的特征,根据图像的特征信息将图像分为不同的类别。早期对图像分类的研究有基于人工神经网络(ANN)做图像的分类。关于人工神经网络的基础研究始于计算机时代。虽然ANN已经通过从复杂和不精确的数据中提取高度复杂的模式,证明了其独特的解决问题的能力,但是早期的开发受到基本技术问题和缺乏足够的计算机资源的严重限制。然而,随着计算机资源的并行开发和David Rumelhart、Geoffrey Hinton、Ronald Williams在1985提出的反向传播(BP)算法的关键贡献,ANN的发展不断扩大。人工神经网络可以执行不同的任务,如图像分类。然而,ANN有一些缺点,例如过拟合和网络所需的长训练时间,所述网络可以包括几百万个参数和人工选择的特征集。选择“好”特征是图像分类中的关键步骤,因为下一阶段只看到这些特征并对它们起作用。最近,已经提出了许多方法,如深度学习的方法来解决这些问题。
深度学习是机器学习的一个相对较新的分支,它采用多层计算模型来表示具有多个抽象层次的数据。使用深度学习的方法实现图像分类,监督学习和无监督学习可以实现,这将很好的替代传统人工选择的工作。将卷积神经网络(Convolution Neural Network,CNN)应用到深度学习中处理计算机视觉问题,目前已经取得了很好的分类效果。采用将图像输入到CNN中,保留了输入图像的信息,通过一系列的卷积操作提取图像的特征和高层抽象,最终输出分类的结果。这是一种end-to-end的学习方法,并且可以使得最后得到的非常好,在实际任务中的应用非常广泛。
AlexNet在2012年被Alex提出,证明了CNN可以在图像分类中取得很好的效果,并在当年的ISVRC中获得了冠军。AlexNet包含8层神经网络:5个卷积层和3个全连接层。为了避免过拟合的问题,AlexNet提出了dropout的思想。在这一任务中,Alex使用了ReLU激活函数代替了传统的激活函数(Sigmoid),ReLU的收敛速度更快并且能保持同样的效果,现如今已经广泛地使用在了各种CNN的结构中。CaffeNet利用对AlexNet模型的分析学习caffe的结构,其主要步骤为准备数据集、标记数据集、创建lmdb格式的数据、计算均值、设置网络及求解器、运行求解。种是需要处理的数据,从输入层输入,被各层一次处理,最后到输出层得到输出。Caffe存在两种数据流,一种数据是从输入层到输出层,需要被处理的数据。这部分数据存储在net.blobs的data中,同时,还保存着对应的梯度值。另一种数据是记录在各层中的参数,也就是权重weights和偏置bias。
在通过CNN进行图像分类时,如何进一步减少训练时间和存储成本,并且提高分类和识别精度成为了亟待解决的技术问题。
发明内容
针对现有技术之不足,本发明提出了一种基于卷积神经网络的简单学习框架,表示为Brief–Net,并将其应用于图像分类,减少了训练的时间同时也提高了分类的精度。Brief–Net包括三个卷积层和最大池化层,接着是三个全连接层。采用softmax分类器来识别图像分类。相应地,本发明的基于改进CNN的简单学习框架的图像分类方法包括以下步骤:
S1)输入一张图像I;
S2)将图像I分为大小为m×m的图像块集合,每一块用Ii(i=1,2,…,n)表示;
S3)将Ii输入到卷积神经网络中进行训练,其包括:
S3.1)用大小为9×9的卷积核对图像Ii做卷积处理;
S3.2)对上一步骤输出的特征图做3×3个单元的池化操作;
S3.3)用大小为5×5的卷积核做卷积处理;
S3.4)对上一步骤输出的特征图做3×3个单元的池化操作;
S3.5)用大小为3×3的卷积核做卷积处理;
S3.6)对上一步骤输出的特征图做3×3个单元的池化操作;
S4)经过多次提取特征,最后通过三层全连接层,得到一维的矩阵;同时使用dropout正则化操作,以避免过拟合;
S5)将神经网络中的输出结果输入到分类器里,输出得到分类结果。
根据一个优选实施方式,在步骤S3.1中,用大小为9×9,步数为4,
输出为96的卷积核对图像Ii做卷积处理,每个卷积层的输出通过ReLU
激活函数,ReLU函数如下表示:
f(x)=max(0,x), (1)
当输入信号小于0时,输出为0,当输入信号大于0时,输出等于输入。ReLU的收敛速度大于其它激活函数的收敛速度。ReLU只需要一个阈值来获得激活值,并且计算复杂度较低。
根据一个优选实施方式,在步骤S3.2中,对步骤S3.1输出的特征图做3×3个单元,步数为2,输出为96的池化操作,采用重叠池化采样以避免过拟合。在常规实践中,由相邻池化单元汇总的邻域不重叠。汇集层可以被认为是由间隔在步数s像素之外的汇集单元的网格组成,每一个汇总一个大小为z×z的邻域,集中在池单元的位置。如果设置s=z,就得到了CNNs常用的局部池。如果设置s<z,则得到重叠池。在目前的工作中,本发明在整个网络中采用s=2和z=3。所采用的重叠池化采样提供了一种不易过拟合的网络。
根据一个优选实施方式,在步骤S5中,采用softmax函数作为目标函数完成图像分类。Brief–Net模型采用softmax函数作为目标函数完成图像分类。softmax函数是基于softmax回归,它是一种监督学习算法,将logistic回归推广到多个类的情况。
本发明具有以下有益技术效果:
本发明提出了一种基于卷积神经网络的简单学习框架,表示为Brief–Net,并将其应用于图像分类,减少了训练的时间同时也提高了分类的精度。Brief–Net包括三个卷积层和最大池化层,接着是三个全连接层。采用softmax分类器来识别图像分类。本发明采用非常有效的GPU运算,极大地缩短了训练的时间。此外,使用相对较小的第一层卷积核和重叠池化采样,使用较小的卷积核可以提取细节的变化,采用重叠池化采样能够有效避免过拟合。本发明的网络结构更加精简,与两个相关方法CaffeNet和AlexNet相比,本发明的方法提供了更高的识别精度。
附图说明
图1示出了基于改进CNN的Brief–Net框架的图像分类示意图;
图2示出了基于改进CNN的Brief–Net的图像分类流程图;
图3示出了通过改变第一层卷积核大小在两个数据集RO-5和flower
图像分类的精确度比较。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚明了,下面结合具体实施方式并参照附图,对本发明进一步详细说明。应该理解,这些描述只是示例性的,而并非要限制本发明的范围。此外,在以下说明中,省略了对公知结构和技术的描述,以避免不必要地混淆本发明的概念。
如图1所示,本发明提出了一种基于卷积神经网络的简单学习框架,表示为Brief–Net,并将其应用于图像分类,减少了训练的时间同时也提高了分类的精度。Brief–Net包括三个卷积层和最大池化层,接着是三个全连接层。采用softmax分类器来识别图像分类。
如图2所示,本发明的基于改进CNN的简单学习框架的图像分类方法包括:
S1)输入一张图像I;
S2)将图像I分为大小为m×m的图像块集合,每一块用Ii(i=1,2,…,n)表示;
S3)将Ii输入到卷积神经网络中进行训练,其包括:
S3.1)用大小为9×9的卷积核对图像Ii做卷积处理;
S3.2)对上一步骤输出的特征图做3×3个单元的池化操作;
S3.3)用大小为5×5的卷积核做卷积处理;
S3.4)对上一步骤输出的特征图做3×3个单元的池化操作;
S3.5)用大小为3×3的卷积核做卷积处理;
S3.6)对上一步骤输出的特征图做3×3个单元的池化操作;
S4)经过多次提取特征,最后通过三层全连接层,得到一维的矩阵;同时使用dropout regularization操作,以避免过拟合;
S5)将神经网络中的输出结果输入到分类器里,输出得到分类结果。
具体地,本发明方法的一个优选实施方式包括以下步骤:
(1)输入一张图像I。
(2)利用图1所示的Brief–Net结构框架对图像I进行分类。该步骤具体为:
a.将图像I分为大小为m×m的图像块集合,每一块用Ii(i=1,2,…,n)表示。
b.将Ii输入到卷积神经网络中进行训练。
c.用大小为9×9,步数为4,输出为96的卷积核对图像Ii做卷积处理。每个卷积层的输出通过ReLU激活函数,ReLU函数如下表示:
f(x)=max(0,x), (1)
当输入信号小于0时,输出为0,当输入信号大于0时,输出等于输入。ReLU的收敛速度大于其它激活函数的收敛速度。ReLU只需要一个阈值来获得激活值,并且计算复杂度较低。
d.对上一步骤输出的特征图做3×3个单元,步数为2,输出为96的池化操作。在常规实践中,由相邻池化单元汇总的邻域不重叠。汇集层可以被认为是由间隔在步数s像素之外的汇集单元的网格组成,每一个汇总一个大小为z×z的邻域,集中在池单元的位置。如果设置s=z,我们就得到了CNNs常用的局部池。如果设置s<z,则得到重叠池。在本发明中,我们在整个网络中采用s=2和z=3。所采用的重叠池化采样提供了一种不易过拟合的网络.
e.用大小为5×5,步数为2,输出为256的卷积核做卷积处理。
f.对上一步骤输出的特征图做3×3个单元,步数为2,输出为256的池化操作。
g.用大小为3×3,步数为2,输出为384的卷积核做卷积处理。
h.对上一步骤输出的特征图做3×3个单元,步数为2,输出为384的池化操作。
(3)经过多次提取特征,最后通过三层全连接层,得到一维的矩阵。同时还使用了dropout regularization操作,避免过拟合。dropoutregularization即dropout正则化,其用于有效地减少过拟合。
(4)将神经网络中的输出结果输入到分类器里,得到图像的分类结果。Brief–Net模型采用softmax函数作为目标函数完成图像分类。softmax函数是基于softmax回归,它是一种监督学习算法,将logistic回归推广到多个类的情况。假设有m个训练样本{(x(1),y(1)),…,(x(i),y(i)),…(x(m),y(m))},x(i)代表第i个训练样本,y(i)代表与之对应的类标签。在多级别训练中,y(i)可以有k个值。例如,y(i)∈{1,2,…,k}。softmax的公式为:
I{.}表示指标函数,指示x(i)是否是j类。即1{真语句}=1和1{false语句}=0。y(i)的k个值可能值被累加。x(i)是j类的公式表示为:
采用梯度下降法最小化J(θ),这是一个迭代优化算法。利用导数可以看出梯度是:
本发明基于神经网络的模型Supplement CNN,通过使用Leaky ReLU激活函数代替传统神经网络中使用的ReLU激活函数,解决了负值特征信息被丢弃的问题,从而提高了图像分类的效果。图3示出了通过改变第一层卷积核大小在RO-5数据集和flower数据集图像分类的精确度,从两个数据集的实验结果可以看出本发明方法的有效性和效率。此外,与两个相关的现有方法CaffeNet和AlexNet相比,本发明的方法提供了更高的识别精度。
本发明提出了一种基于卷积神经网络的简单学习框架,表示为Brief–Net,并将其应用于图像分类,减少了训练的时间同时也提高了分类的精度。本发明具有很好的泛化能力,能在不同的数据集上表现出很好的分类效果。另外,本发明比传统的CNN更具有稳定性,具有将其运用到大型网络中的前景。
需要注意的是,上述具体实施例是示例性的,本领域技术人员可以在本发明公开内容的启发下想出各种解决方案,而这些解决方案也都属于本发明的公开范围并落入本发明的保护范围之内。本领域技术人员应该明白,本发明说明书及其附图均为说明性而并非构成对权利要求的限制。本发明的保护范围由权利要求及其等同物限定。

Claims (4)

1.一种基于改进CNN的简单学习框架的图像分类方法,其特征在于,包括以下步骤:
S1)输入一张图像I;
S2)将图像I分为大小为m×m的图像块集合,每一块用Ii(i=1,2,…,n)表示;
S3)将Ii输入到卷积神经网络中进行训练,其包括:
S3.1)用大小为9×9的卷积核对图像Ii做卷积处理;
S3.2)对上一步骤输出的特征图做3×3个单元的池化操作;
S3.3)用大小为5×5的卷积核做卷积处理;
S3.4)对上一步骤输出的特征图做3×3个单元的池化操作;
S3.5)用大小为3×3的卷积核做卷积处理;
S3.6)对上一步骤输出的特征图做3×3个单元的池化操作;
S4)通过三层全连接层处理得到一维的矩阵;同时使用dropout正则化操作,以避免过拟合;
S5)将神经网络中的输出结果输入到分类器里,输出得到分类结果。
2.如权利要求1所述的图像分类方法,其特征在于,在步骤S3.1中,用大小为9×9,步数为4,输出为96的卷积核对图像Ii做卷积处理,每个卷积层的输出通过ReLU激活函数,ReLU函数如下表示:
f(x)=max(0,x), (1)
当输入信号小于0时,输出为0,当输入信号大于0时,输出等于输入。
3.如权利要求2所述的图像分类方法,其特征在于,在步骤S3.2中,对步骤S3.1输出的特征图做3×3个单元,步数为2,输出为96的池化操作,采用重叠池化采样以避免过拟合。
4.如权利要求3所述的图像分类方法,其特征在于,在步骤S5中,采用softmax函数作为目标函数完成图像分类。
CN201810872957.3A 2018-08-02 2018-08-02 基于改进cnn的简单学习框架的图像分类方法 Pending CN109325514A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810872957.3A CN109325514A (zh) 2018-08-02 2018-08-02 基于改进cnn的简单学习框架的图像分类方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810872957.3A CN109325514A (zh) 2018-08-02 2018-08-02 基于改进cnn的简单学习框架的图像分类方法

Publications (1)

Publication Number Publication Date
CN109325514A true CN109325514A (zh) 2019-02-12

Family

ID=65263609

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810872957.3A Pending CN109325514A (zh) 2018-08-02 2018-08-02 基于改进cnn的简单学习框架的图像分类方法

Country Status (1)

Country Link
CN (1) CN109325514A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114220024A (zh) * 2021-12-22 2022-03-22 内蒙古自治区气象信息中心(内蒙古自治区农牧业经济信息中心)(内蒙古自治区气象档案馆) 基于深度学习的静止卫星沙尘暴识别方法

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104102919A (zh) * 2014-07-14 2014-10-15 同济大学 一种有效防止卷积神经网络过拟合的图像分类方法
CN105069482A (zh) * 2015-08-21 2015-11-18 中国地质大学(武汉) 基于空间正则化流形学习算法的高光谱遥感图像分类方法
CN107341518A (zh) * 2017-07-07 2017-11-10 东华理工大学 一种基于卷积神经网络的图像分类方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104102919A (zh) * 2014-07-14 2014-10-15 同济大学 一种有效防止卷积神经网络过拟合的图像分类方法
CN105069482A (zh) * 2015-08-21 2015-11-18 中国地质大学(武汉) 基于空间正则化流形学习算法的高光谱遥感图像分类方法
CN107341518A (zh) * 2017-07-07 2017-11-10 东华理工大学 一种基于卷积神经网络的图像分类方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
QIANG WANG ET AL.: "Research on Image Classification Based on HP - Net Convolutional Neural Networks", 《2017 3RD IEEE INTERNATIONAL CONFERENCE ON COMPUTER AND COMMUNICATIONS(ICCC)》 *

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114220024A (zh) * 2021-12-22 2022-03-22 内蒙古自治区气象信息中心(内蒙古自治区农牧业经济信息中心)(内蒙古自治区气象档案馆) 基于深度学习的静止卫星沙尘暴识别方法

Similar Documents

Publication Publication Date Title
Yuan et al. Gated CNN: Integrating multi-scale feature layers for object detection
Liu et al. PestNet: An end-to-end deep learning approach for large-scale multi-class pest detection and classification
Dwivedi et al. Grape disease detection network based on multi-task learning and attention features
CN110334705B (zh) 一种结合全局和局部信息的场景文本图像的语种识别方法
Ge et al. Facial expression recognition based on deep learning
Kölsch et al. Real-time document image classification using deep CNN and extreme learning machines
CN112784763B (zh) 基于局部与整体特征自适应融合的表情识别方法及系统
Zhang et al. A multi-label waste detection model based on transfer learning
CN108427740B (zh) 一种基于深度度量学习的图像情感分类与检索算法
CN106845510A (zh) 基于深度层级特征融合的中国传统视觉文化符号识别方法
CN113065460B (zh) 基于多任务级联的猪脸面部表情识别框架的建立方法
CN108897778A (zh) 一种基于多源大数据分析的图像标注方法
CN109886161A (zh) 一种基于可能性聚类和卷积神经网络的道路交通标识识别方法
CN109815920A (zh) 基于卷积神经网络和对抗卷积神经网络的手势识别方法
CN110956158A (zh) 一种基于教师学生学习框架的遮挡行人再标识方法
CN111832573A (zh) 一种基于类激活映射和视觉显著性的图像情感分类方法
CN104050460B (zh) 多特征融合的行人检测方法
Ghosh et al. Automated COVID-19 CT Image Classification using Multi-head Channel Attention in Deep CNN
CN111488797B (zh) 一种行人再识别方法
Shen et al. Recognizing scoring in basketball game from AER sequence by spiking neural networks
CN109325514A (zh) 基于改进cnn的简单学习框架的图像分类方法
Zhang et al. Weakly-supervised butterfly detection based on saliency map
Liu et al. Chart classification by combining deep convolutional networks and deep belief networks
Shang et al. Real-time Accurate Object Counting for Smart Farms
Choe et al. Deep learning-based image data processing and archival system for object detection of endangered species

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20190212