CN108846421A - 一种基于深度学习的图像分类方法 - Google Patents

一种基于深度学习的图像分类方法 Download PDF

Info

Publication number
CN108846421A
CN108846421A CN201810524263.0A CN201810524263A CN108846421A CN 108846421 A CN108846421 A CN 108846421A CN 201810524263 A CN201810524263 A CN 201810524263A CN 108846421 A CN108846421 A CN 108846421A
Authority
CN
China
Prior art keywords
image
image classification
model
testing
result
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201810524263.0A
Other languages
English (en)
Other versions
CN108846421B (zh
Inventor
李建军
薛鑫营
郭辉
虞杰
郑秋华
王智慧
李豪杰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hangzhou Dianzi University
Original Assignee
Hangzhou Dianzi University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hangzhou Dianzi University filed Critical Hangzhou Dianzi University
Priority to CN201810524263.0A priority Critical patent/CN108846421B/zh
Publication of CN108846421A publication Critical patent/CN108846421A/zh
Application granted granted Critical
Publication of CN108846421B publication Critical patent/CN108846421B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2413Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on distances to training or reference patterns

Abstract

本发明公开了一种基于深度学习的图像分类方法。本发明具体包括如下步骤:S1、将图片分为n组,将n组图片集分别作为样本输入到AlexNet模型中进行训练,得到图像分类模型Ⅰ;S2、将待测图像样本输入到已经完成训练的图像分类模型Ⅰ中进行图像分类;S3、将不同待测图像对应的结果集归入不同的文档中,将精度较高的图像结果集重新组成图像样本输入到AlexNet模型中进行训练,得到图像分类模型Ⅱ;S4、将所对应的待测图像样本输入到其对应的图像分类模型Ⅱ中进行图像分类。本发明能够进一步提高图像分类的准确率,为图像分类工作提供了新的解决方案。

Description

一种基于深度学习的图像分类方法
技术领域
本发明属于计算机视觉领域,涉及一种基于深度学习的图像分类方法。
背景技术
从1965年开始,人们开始研究图像处理和识别。随着科技进步,深度学习成为了图像分类的主流方法。AlexNet模型就是一种基于深度学习的图像分类模型。
AlexNet是2012年ImageNet竞赛冠军获得者Alex Krizhevsky 设计的,它主要包括5个卷积层,3个全连接层。
AlexNet在输入时对224*224*3的图像进行预处理,将其处理为 227*227*3的图像。
第一个卷积层中,AlexNet采用96个11*11*3的卷积核,在步长为4的前提下对227*227*3的图像进行了滤波。最初的输入神经元个数为224*224*3=150528个,由于其步长为4,卷积核大小为11*11*3,故而本层的特征图的大小为:
(227-11)/4+1=55
也就是96个55*55大小的特征图,其神经元个数为55*55*96=290400。得到卷积数据后,对其进行一次Relu,并对其进行池化(map大小减半),之后将其作为第二层的输入。
第二个卷积层中,AlexNet采用256个5*5的过滤器对96*27*27 个特征图进行进一步特征提取,但是此时过滤器是对96个特征图中的某几个特征图中相应的区域乘以相应的权重,之后再加上偏置之后所得到的区域进行卷积,经过这样的处理,会得到256个新的特征图,特征图的大小为:
(27+2*2-5)/1+1=27
也就是256个27*27大小的特征图,其神经元个数为
256*27*27=186624。之后对其进行Relu操作,在对其进行降采样处理(特征图的大小减半),得到256个13*13大小的特征图。
第三个卷积层中,AlexNet采用384个3*3大小的过滤器对 256*13*13个特征图进一步提取特征,经过处理,会得到384个新的特征图,特征图的大小为:
(13+2*1-3)/1+1=13
即384个13*13的新特征图,其神经元个数为384*13*13=64896。之后对其进行Relu操作,在第三个卷积层中,不对其使用降采样处理。
第四个卷积层中,AlexNet采用384个3*3大小的过滤器对 384*13*13个特征图进一步提取特征,经过处理,会得到384个新的特征图,特征图的大小为:
(13+2*1-3)/1+1=13
即384个13*13的新特征图,其神经元个数为384*13*13=64896。之后对其进行Relu操作,在第四个卷积层中,同样不对其进行降采样处理。
第五个卷积层中,AlexNet采用256个3*3大小的过滤器对 384*13*13个特征图进一步提取特征,经过处理,会得到256个新的特征图,特征图的大小为:
(13+2*1-3)/1+1=13
即256个13*13的新特征图,其神经元个数为256*13*13=43264。之后对其进行Relu操作,并对其进行降采样处理(特征图的大小减半),得到256个6*6大小的特征图。
第一个全链接层中,AlexNet网络在这里使用4096个神经元,对于神经元中的一个点,它是由256个特征图中的某些特征图卷积所得到的特征点乘以相应的权重,再加上一个偏置得到的。之后进行一个dropout随机从4096个节点中丢掉一些节点信息,得到新的4096个神经元。
第二个全链接层中,方法与第一个全链接层相似。
第三个全链接层中,采用的是1000个神经元(竞赛中是1000个类),在此过程中是对第二个全链接层中的4096个神经元进行全链接,之后通过高斯过滤器,得到1000个float的值,也就是最终的预测可能性。
根据以上原理,可以根据以下步骤对图片进行预测:
1.数据准备:准备好训练集,测试集和验证集。
2.图片预处理:图片大小归一化→生成caffe所支持的数据库→生成均值文件;
3.模型训练;
4.模型测试
发明内容
本发明的目的是针对现有技术的不足,在使用深度学习工具对图像进行分类时,通常是将所有的图片输入进去训练出一个模型,之后用这个模型对图片进行预测。在本发明中,提出将图片分组训练,并在一次训练的基础上对图片进行二次训练,进而提高预测精度。
本发明解决其技术问题采用的技术方案包括如下步骤:
S1、将图片分为n组,将n组图片集分别作为样本输入到AlexNet 模型中进行训练,得到图像分类模型Ⅰ;
S2、将待测图像样本输入到已经完成训练的图像分类模型Ⅰ中进行图像分类;
S3、将不同待测图像对应的结果集归入不同的文档中,将精度较高的图像结果集重新组成图像样本输入到AlexNet模型中进行训练,得到图像分类模型Ⅱ;
S4、将所对应的待测图像样本输入到其对应的图像分类模型Ⅱ中进行图像分类。
所述步骤S1具体包括:
S11、将N类图片每M类分为一组,组成n=ceil(N/M)组图片集;
S12、对每一组图片集分别进行标记(标记从0开始);
S13、对图片进行预处理;
S14、将多组图片集依次输入到AlexNet模型中进行训练,每组会得到对应的判断结果错误率,修改模型中的参数,直至错误率收敛,则代表得到一个较好的图像分类模型Ⅰ。
所述步骤S3具体包括:
S31、经过步骤S2后,每张待测图像样本都会对应5*n个预测结果,将同一张待测图像对应的预测结果归入同一个文档中,则m张待测图像会得到m个文档;
S32、将每一个文档中的结果均按照精度值从大到小排列,取前一半的结果集,并将该结果集(图像类的标签)对应的图像重新组成一个图像集,m张待测图像都会有对应的结果集;
S33、将得到的图像集作为样本集放入AlexNet模型中训练,得到图像分类模型Ⅱ。
所述步骤S4具体包括:
S41、通过步骤S3的训练,每张待测图像都会有其对应的训练模型Ⅱ。
S42、将待测图像放入其对对应的训练模型中进行预测,最终所得的结果便是其对应的二次训练的预测结果。
本发明有益效果如下:
本发明通过建立网络模型,在其一次训练的基础上,提出二次训练的方法,有效提高了分类精度。两次训练对比一次训练,精度平均提高30%。
附图说明
图1为本发明实施例的流程图;
图2是本发明中AlexNet模型运算结构框图。
具体实施方式
下面结合附图和实施例,对本发明的具体实施方式作进一步详细描述。以下实施例用于说明本发明,但不用来限制本发明的范围。
本实施例中有1000类RGB图像,每张图像的大小为68*68。
结合本发明的步骤,具体过程如下:
S11、将1000类图像分为20组,每组50类图像;
S12、对每组的50类图像进行标记,这里我们只拿一组来做主要说明,则第一组的50类图像的标签为:0、1、2……49;
S13、图像大小为68*68,经过预处理将其处理为227*227的图片作为以后要用的训练样本;
S14、将训练样本按照5:1的比例分为训练集和测试集放入 AlexNet模型中进行训练,每次训练完毕之后都会得到loss值,修改网络中的参数,知道最终的loss值收敛(不变),此时便得到了比较好的训练模型了。
S2、将38张待测图像放入20组模型中依次进行分类。
S31、放入模型中分类后,最终会得到20个文档,每个文档都会有38个预测结果;
S32、将待测图像对应的预测结果整理其对应的文档中,则20个文档经过整理后回到38个文档,每个文档中有100个预测标签,38 个文档对应38张待测图像的一次预测结果。拿其中一个文档来说,将该文档中的标签按照对应的精度值由大到小排列,取前50个标签,将这50个标签对应的图片类整合成一个图片集,则最终经过整合会得到38个图片集,每个图片集合都对应着一张待测图像。
S33、将图片集放入AlexNet模型中进行训练,得到38个模型
S41、每张待测图片都会得到一个对应的模型;
S42、38张图片一一对应38个模型,将待测图片放到对应的模型进行预测,最终得到的结果便是最终的分类结果。
以上所述便是本发明的具体实例及所运用的技术原理,若依本发明的构想所作的改变,其所产生的功能作用仍未超出说明书及附图所涵盖的精神时,仍应属本发明的保护范围。

Claims (4)

1.一种基于深度学习的图像分类方法,其特征在于对有标签的图像通过AlexNet模型进行二次训练,用得到的模型对无标签图片进行分类,具体实现步骤如下:
S1、将图片分为n组,将n组图片集分别作为样本输入到AlexNet模型中进行训练,得到图像分类模型Ⅰ;
S2、将待测图像样本输入到已经完成训练的图像分类模型Ⅰ中进行图像分类;
S3、将不同待测图像对应的结果集归入不同的文档中,将精度较高的图像结果集重新组成图像样本输入到AlexNet模型中进行训练,得到图像分类模型Ⅱ;
S4、将所对应的待测图像样本输入到其对应的图像分类模型Ⅱ中进行图像分类。
2.根据权利要求1所述的一种基于深度学习的图像分类方法,其特征在于所述步骤S1具体包括:
S11、将N类图片每M类分为一组,组成n=ceil组图片集,n=N/M;
S12、对每一组图片集分别进行标记,标记从0开始;
S13、对图片进行预处理;
S14、将多组图片集依次输入到AlexNet模型中进行训练,每组会得到对应的判断结果错误率,然后修改模型中的参数,直至错误率收敛,则代表得到一个较好的图像分类模型Ⅰ。
3.根据权利要2所述的一种基于深度学习的图像分类方法,其特征在于所述步骤S3具体包括:
S31、经过步骤S2后,每张待测图像样本都会对应5*n个预测结果,将同一张待测图像对应的预测结果归入同一个文档中,则m张待测图像会得到m个文档;
S32、将每一个文档中的结果均按照精度值从大到小排列,取前一半的结果集,并将该结果集对应的图像重新组成一个图像集,m张待测图像都会有其对应的结果集;
S33、将得到的图像集作为样本集放入AlexNet模型中训练,得到图像分类模型Ⅱ。
4.根据权利要求3所述的一种基于深度学习的图像分类方法,其特征在于所述步骤S4具体包括:
S41、通过步骤S3的训练,每张待测图像都会有其对应的训练模型Ⅱ;
S42、将待测图像放入其对对应的训练模型中进行预测,最终所得的结果便是其对应的二次训练的预测结果。
CN201810524263.0A 2018-05-28 2018-05-28 一种基于深度学习的图像分类方法 Expired - Fee Related CN108846421B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810524263.0A CN108846421B (zh) 2018-05-28 2018-05-28 一种基于深度学习的图像分类方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810524263.0A CN108846421B (zh) 2018-05-28 2018-05-28 一种基于深度学习的图像分类方法

Publications (2)

Publication Number Publication Date
CN108846421A true CN108846421A (zh) 2018-11-20
CN108846421B CN108846421B (zh) 2021-11-16

Family

ID=64207987

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810524263.0A Expired - Fee Related CN108846421B (zh) 2018-05-28 2018-05-28 一种基于深度学习的图像分类方法

Country Status (1)

Country Link
CN (1) CN108846421B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111738357A (zh) * 2020-07-24 2020-10-02 完美世界(北京)软件科技发展有限公司 垃圾图片的识别方法、装置及设备

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104036474A (zh) * 2014-06-12 2014-09-10 厦门美图之家科技有限公司 一种图像亮度和对比度的自动调节方法
CN104463232A (zh) * 2014-12-30 2015-03-25 中山大学 一种基于hog特征和颜色直方图特征的密度人群计数的方法
US20170213110A1 (en) * 2015-03-20 2017-07-27 Microsoft Technology Licensing, Llc Multi-stage image classification
CN107016356A (zh) * 2017-03-21 2017-08-04 乐蜜科技有限公司 特定内容识别方法、装置和电子设备
CN107944442A (zh) * 2017-11-09 2018-04-20 北京智芯原动科技有限公司 基于改进卷积神经网络的对象检测装置及方法
CN108073933A (zh) * 2016-11-08 2018-05-25 杭州海康威视数字技术股份有限公司 一种目标检测方法及装置

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104036474A (zh) * 2014-06-12 2014-09-10 厦门美图之家科技有限公司 一种图像亮度和对比度的自动调节方法
CN104463232A (zh) * 2014-12-30 2015-03-25 中山大学 一种基于hog特征和颜色直方图特征的密度人群计数的方法
US20170213110A1 (en) * 2015-03-20 2017-07-27 Microsoft Technology Licensing, Llc Multi-stage image classification
CN108073933A (zh) * 2016-11-08 2018-05-25 杭州海康威视数字技术股份有限公司 一种目标检测方法及装置
CN107016356A (zh) * 2017-03-21 2017-08-04 乐蜜科技有限公司 特定内容识别方法、装置和电子设备
CN107944442A (zh) * 2017-11-09 2018-04-20 北京智芯原动科技有限公司 基于改进卷积神经网络的对象检测装置及方法

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111738357A (zh) * 2020-07-24 2020-10-02 完美世界(北京)软件科技发展有限公司 垃圾图片的识别方法、装置及设备
CN111738357B (zh) * 2020-07-24 2020-11-20 完美世界(北京)软件科技发展有限公司 垃圾图片的识别方法、装置及设备

Also Published As

Publication number Publication date
CN108846421B (zh) 2021-11-16

Similar Documents

Publication Publication Date Title
CN105825511B (zh) 一种基于深度学习的图片背景清晰度检测方法
CN108960036A (zh) 三维人体姿态预测方法、装置、介质及设备
CN109800821A (zh) 训练神经网络的方法、图像处理方法、装置、设备和介质
CN109102014A (zh) 基于深度卷积神经网络的类别不平衡的图像分类方法
CN106776842A (zh) 多媒体数据检测方法及装置
CN106980858A (zh) 一种语言文本检测与定位系统及应用该系统的语言文本检测与定位方法
CN106485251A (zh) 基于深度学习的鸡蛋胚胎分类
CN106803069A (zh) 基于深度学习的人群高兴程度识别方法
CN106203625A (zh) 一种基于多重预训练的深层神经网络训练方法
CN108052984A (zh) 计数方法及装置
CN106780546B (zh) 基于卷积神经网络的运动模糊编码点的身份识别方法
CN109816002A (zh) 基于特征自迁移的单一稀疏自编码器弱小目标检测方法
CN109711401A (zh) 一种基于Faster Rcnn的自然场景图像中的文本检测方法
CN108596274A (zh) 基于卷积神经网络的图像分类方法
Zhang et al. A novel MAS-GAN-based data synthesis method for object surface defect detection
CN111931867B (zh) 基于轻量级模型的新冠肺炎x射线图像分类方法及系统
CN109086765B (zh) 车牌识别方法、装置、介质、服务器和行车记录仪
CN110443105A (zh) 自体免疫抗体的免疫荧光影像型态识别方法
CN106778851A (zh) 基于手机取证数据的社交关系预测系统及其方法
CN109816048A (zh) 一种基于属性迁移的图像合成方法
CN108596044A (zh) 基于深度卷积神经网络的行人检测方法
Gao et al. Traffic sign detection based on ssd
CN110390307A (zh) 表情识别方法、表情识别模型训练方法及装置
CN107369086A (zh) 一种身份证打码系统及方法
CN110321936A (zh) 一种基于vgg16及svm实现图片二分类的方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20211116

CF01 Termination of patent right due to non-payment of annual fee