CN110543895A - 一种基于VGGNet和ResNet的图像分类方法 - Google Patents

一种基于VGGNet和ResNet的图像分类方法 Download PDF

Info

Publication number
CN110543895A
CN110543895A CN201910728851.0A CN201910728851A CN110543895A CN 110543895 A CN110543895 A CN 110543895A CN 201910728851 A CN201910728851 A CN 201910728851A CN 110543895 A CN110543895 A CN 110543895A
Authority
CN
China
Prior art keywords
image
train
vggnet
reset
resnet
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201910728851.0A
Other languages
English (en)
Other versions
CN110543895B (zh
Inventor
于永涛
顾天南
朱全银
陈伯伦
金春花
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Huaiyin Institute of Technology
Original Assignee
Huaiyin Institute of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Huaiyin Institute of Technology filed Critical Huaiyin Institute of Technology
Priority to CN201910728851.0A priority Critical patent/CN110543895B/zh
Publication of CN110543895A publication Critical patent/CN110543895A/zh
Application granted granted Critical
Publication of CN110543895B publication Critical patent/CN110543895B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • G06F18/253Fusion techniques of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02TCLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
    • Y02T10/00Road transport of goods or passengers
    • Y02T10/10Internal combustion engine [ICE] based vehicles
    • Y02T10/40Engine management systems

Abstract

本发明公开了一种基于VGGNet和ResNet的图像分类方法,包括:(1)将图像数据集I转换成固定数据格式后进行存储,并划分成训练集Ttrain和测试集Ttest;(2)读取所述固定数据格式的文件,将训练集等比例缩放,得到最终训练集Train;(3)采用VGGNet网络训练训练集Train,得到特征向量集FP1;(4)使用ResNet网络训练训练集Train,得到特征向量集FP2;(5)将FP1和FP2进行融合处理,得到向量集FP3,使用softmax方法处理FP3,得到最终的图像分类结果R。本发明基于已有遥感图像数据集,利用VGGNet和ResNet特征图融合进行图像场景分类,利用VGGNet和ResNet得到特征图,再通过对特征图相加获得更加丰富的特征信息,增强辨识能力,进一步提升图像分类的准确性。

Description

一种基于VGGNet和ResNet的图像分类方法
技术领域
本发明涉及监督学习和图像分类技术领域,具体涉及一种基于VGGNet和ResNet的图像分类方法。
背景技术
在面对图像标签的分类问题的时候,目前多数研究者们只选择传统机器学习和单一的神经网络结合的方式进行图像分类。
如:于永涛,朱全银等人已有的研究基础包括:Quanyin Zhu,Sunqun Cao.A NovelClassifier-independent Feature Selection Algorithm for ImbalancedDatasets.2009,p:77-82;李翔,朱全银.联合聚类和评分矩阵共享的协同过滤推荐[J].计算机科学与探索,2014,8(6):751-759;Quanyin Zhu,Yunyang Yan,Jin Ding,JinQian.The Case Study for Price Extracting of Mobile Phone Sell Online.2011,p:282-285;Quanyin Zhu,Suqun Cao,Pei Zhou,Yunyang Yan,Hong Zhou.Integrated PriceForecast based on Dichotomy Backfilling and Disturbance FactorAlgorithm.International Review on Computers and Software,2011,Vol.6(6):1089-1093;朱全银,于永涛等人申请、公开与授权的相关专利:朱全银,刘涛,严云洋,高尚兵等.一种基于OpenCV的建筑图纸标签信息检测方法.中国专利公开号:CN109002824A,2018.12.14;朱全银,许康,宗慧,冯万利等.一种基于Faster-RCNN模型的建筑构件提取方法.中国专利公开号:CN109002841A,2018.12.14;朱全银,于柿民,胡荣林,冯万利等.一种基于知识图谱的专家组合推荐方法.中国专利公开号:CN109062961A,2018.12.21。
在面向分类问题时,目前的研究也主要是单一的网络模型进行特征信息的获取,该种方式融合信息较为单一,且分类效率也有限。
如:安徽理工大学来文豪等人提供了一种包含两个CNN的深度学习模型的构建方法,将两个CNN学习的特征信息共享,在不构建较深网络结构的前提下,提升模型性能,加快网络收敛速度,公开号:CN109272061A,2019.01.25。
发明内容
发明目的:为了克服现有技术的不足,本发明提供一种基于VGGNet和ResNet的图像分类方法,该方法解决了单一的网络结构获取特征信息不够充分,分类效果不佳的问题。
技术方案:本发明所述的基于VGGNet和ResNet的图像分类方法,包括:
(1)将图像数据集I转换成固定数据格式后进行存储,并划分成训练集Ttrain和测试集Ttest;
(2)读取所述固定数据格式的文件,将训练集等比例缩放,得到最终训练集Train;
(3)采用VGGNet网络训练训练集Train,得到特征向量集FP1;
(4)使用ResNet网络训练训练集Train,得到特征向量集FP2;
(5)将FP1和FP2进行融合处理,得到向量集FP3,使用softmax方法处理FP3,得到最终的图像分类结果R。
进一步地,包括:
所述固定数据格式为TFRecord格式。
进一步地,包括:
所述TFRecord格式具体转换过程包括:
(11)定义I为图像数据集I={C1,C2,…,Cn},其中,Cn为I中的第n类图像数据集,imagei是I中的第i张图像;
(12)定义name,height,width,label,depth分别对应为图像的名称、高度、宽度、标签和深度,满足图像形状img_shape={height,width};
(13)建立TFRecord存储文件,将I中图像依次写入TFRecord文件,定义path为TFRecord的存储路径名称,class_path为图像类别路径名称,且path={class_path,name};
(14)按照Example协议块规则构造样本块,examplei为样本块转换成序列化的字符串,value为图像对应的分类值,value∈[1,n],且examplei={path,value},imagei与字符串examplei一一对应。
进一步地,包括:
所述步骤(2)中,读取所述固定数据格式的文件,将训练集等比例缩放,得到最终训练集Train,具体包括:
(21)定义循环变量i0用于遍历训练集Ttrain,i0∈[1,len(Ttrain)],i0赋初值为1,len(Ttrain)]为Ttrain中图像的数量;
(22)遍历训练集Ttrain,如果i0≤len(Ttrain),跳转到步骤(23),否则结束遍历Ttrain,跳转到步骤(27);
(23)解析第i0个样本模块对应序列化的字符串examplei0,得到第i0个样本模块的特征字典featurei0={raw_imagei0,label},其中,raw_imagei0存储格式为string的图像,标签label格式为int64;
(24)将raw_imagei0格式变为float32,得到存储格式为float32的图像decoded_imagei0
(25)将decoded_imagei0等比例缩放,得到imgi0,且图像表示为imgi0={img_shapei0,depth=3},其中,img_shapei0为图像形状,img_shapei0={height=224,width=224};
(26)i0=i0+1,跳转到步骤(22);
(27)得到训练图像集Train={img1,img2,…,imgM},M为最终训练集中的图像数量。
进一步地,包括:
所述步骤(3)中,采用VGGNet网络训练训练集Train,得到特征向量集FP1,具体包括:
(31)将最终训练集Train读入VGGNet网络,将图像的标签label当作网络的类别标签来训练网络,定义conv为卷积层,pool为池化层,采用最大池化maxpooling,stride为步长,激活函数为ReLU,VGGNet有5个卷积模块,分别为Conv1,Conv2,Conv3,Conv4和Conv5,每个卷积层后接一个激活函数ReLU;
(32)定义循环变量i1用于遍历Train,i1∈[1,len(Train)],i1赋初值为1,len(Train)表示最终训练集中图像数量;
(33)遍历Train,如果i1≤len(Train),跳转到步骤(35),否则结束遍历Train,跳转到步骤(37);
(34)Conv1和Conv2分别有2个conv和一个stride为2的pool,Conv3和Conv4分别有4个卷积层和1个步长stride为2的pool,Conv5有4个conv,对最后一层conv5_4的输出结果进行激活,得到relu5_4;
(35)relu5_4池化后接三次全连接层,得到特征向量fi1
(36)i1=i1+1,跳转到步骤(33);
(37)得到特征向量集FP1=FP1={f1,f2,...,fi1,...,fM},M为最终训练集中图像数量。
进一步地,包括:
所述步骤(4)中,包括:
(41)将Train读入ResNet网络,将图像的标签当作网络的类别标签来训练网络,定义有四个Block模块,分别为Block1,Block2,Block3,Block4;
(42)定义循环变量i2用于遍历Train,i2∈[1,len(Train)],i2赋初值为1;
(43)遍历Train,如i2≤len(Train),跳转到步骤4.4,否则结束遍历Train,跳转到步骤4.14;
(44)对循环变量i2对应的图像imgi2进行卷积,卷积核为7*7,通道数为64,填充padding为3,stride为2,卷积后得到imgi2’,对imgi2’进行BN和scale后,通过ReLU,输出为resnet1;
(45)定义branch1为残差结构中的分支,branch2为残差结构的主支,每个Block都有2个block组成,Block1={block1,block2};
(46)输入resnet1,通过在branch1上进行卷积,批量化归一,输出为branch11;
(47)输入resnet1,通过在branch2上依次进行卷积,BN批量化归一,scale批量化归一,激活函数ReLU,卷积,BN批量化归一,scale批量化归一,激活函数ReLU,卷积,BN批量化归一,scale批量化归一后,输出为branch21;
(48)将branch11和branch21相加后,得到branch31,对branch31进行ReLU操作,得到resanet2a;
(49)输入resanet2a,输出为branch11’,且branch11’与resanet2a相同;
(410)输入resanet2a,通过在branch2上依次进行conv,BN,scale,ReLU,conv,BN,scale,ReLU,conv,BN,scale,输出为branch21’;
(411)将branch11’和branch21’相加后,得到branch31’,对branch31’进行ReLU操作,得到resanet2b;
(412)将上述Block1的结果resanet2b输入Block2中,重复步骤(46)-步骤(411),得到resanet3a,resanet3b,将上述Block2的结果resanet3b输入Block3中,重复步骤(46)-步骤(411),得到resanet4a,resanet4b,将上述Block3的结果resanet4b输入Block4中,重复步骤(46)-步骤(411),得到resanet5a,resanet5b,其中,resanet5b为fi2
(413)i2=i2+1,跳转到步骤(43);
(414)得到特征向量集FP2={fp1,fp2,...,fi2...,fpM},M为最终训练集中的图像数量。
进一步地,包括:
所述步骤(5)中,将FP1和FP2进行融合处理,得到向量集FP3,具体包括:
(51)定义循环变量数据i3,用于分别遍历FP1和FP2,i3∈[1,M],i3赋初值为1,M为最终训练集中的图像数量;
(52)遍历FP1和FP2,如果i1≤M,跳转到步骤(53),否则结束遍历FP1和FP2,跳转到步骤(55);
(53)fi3与fpi3相加得到Fi3,其中,fi3为特征向量集FP1中的某项,所述fpi3为特征向量集FP2中的某项;
(54)i3=i3+1,跳转到步骤(52);
(55)得到特征融合向量集FP3={F1,F2,...,Fi3,...,FM}。
有益效果:本发明基于已有遥感图像数据集,利用VGGNet和ResNet特征图融合进行图像场景分类,利用VGGNet和ResNet得到特征图,再通过对特征图相加获得更加丰富的特征信息,增强辨识能力,进一步提升图像分类的准确性。
附图说明
图1为本发明所述的基于VGGNet和ResNet图像分类方法整体流程图;
图2为本发明图像数据集I转换成TFRecord格式存储流程图;
图3为本发明读取存储训练图像集TFRecord文件的流程图;
图4为本发明VGGNet获取特征向量集的流程图;
图5为本发明ResNet获取特征向量集的流程图;
图6为本发明处理图像分类流程图。
具体实施方式
下面将结合附图对本发明作进一步地详细描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例,都属于本发明保护的范围。
本发明首先对名称做出解释:
VGGNet是由AlexNet发展而来的网络架构,使用小尺寸的滤波器替换大尺寸的滤波器减少了训练的参数,同时增加了非线性变换的次数,提高了卷积神经网络对特征的学习能力。多个小卷积堆叠在分类精度上比单个大卷积效果更好。
ResNet通过引入残差网络结构增加了网络的深度,通过捷径连接改变简单的堆叠网络解决了网络加深导致梯度消失的问题。ResNet吸收借鉴了以往的网络结构的优点舍弃全连接层,对堆叠结构都采用残差学习减少了学习的难度和提升了学习的效率。
ReLU是一种常见的神经网络的激活函数,可以有效率的梯度下降以及反向传播,避免梯度爆炸和梯度消失问题。ReLU简化了计算过程,活跃度的分散性可以降低神经网络整体计算成本。ReLU比传统的sigmoid更加容易学习优化。本发明学习率设置为0.0001,有效的避免失活过多的神经元。
本发明通过两种网络的特征关系的建立,获取更多的特征信息以提高遥感图像标签分类的准确度;具体的,两种网络模型的级联可以获取更加丰富的特征信息,通过ResNet更深的网络来补充VGGNet的特征信息,融合的特征信息更加具有辨识性,从而提升图像分类的准确性。
如图1所示,本发明所述的基于VGGNet和ResNet的图像分类方法,该方法包括:
步骤1:将已知图像数据集I转换成TFRecord格式存储,按照1:1划分成训练集Ttrain和测试集Ttest,具体步骤如图2所示,包括:
步骤101:定义I为图像数据集,I={C1,C2,…,Cn},其中,Cn为I中的第n类图像数据集,imagei是I中的第i张图像,len(I)为图像数量;
步骤102:定义name,height,width,label,depth分别为图像的名称、高度、宽度、标签和深度,满足图像形状img_shape={height,width};
步骤103:建立TFRecord存储文件,将I中图像依次写入TFRecord文件,定义path为TFRecord的存储路径名称,class_path为图像类别路径名称,满足path={class_path,name};
步骤104:按照Example协议块规则构造样本块,examplei为样本块转换成序列化的字符串,value为图像对应的分类值,value∈[1,n],满足examplei={path,value},每个imagei都对应一个examplei
步骤105:按照1:1划分成训练集Ttrain和测试集Ttest,满足Ttrain={image1,image2,…,imageM},其中,M为训练集中的图像数量。
步骤2:读取TFRecord文件,将Ttrain等比例缩放,得到训练集Train,具体实现方法如图3所示,为:
步骤201:定义循环变量i0用于遍历Ttrain,i0∈[1,len(Ttrain)],i0赋初值为1;
步骤202:遍历Ttrain,如i0≤len(Ttrain),跳转到步骤203,否则结束遍历Ttrain,跳转到步骤207;
步骤203:解析examplei0,得到字典featurei0={raw_imagei0,label},其中raw_imagei0格式为string,label格式为int64;
步骤204:将raw_imagei0格式变为float32,得到decoded_imagei0
步骤205:将decoded_imagei0等比例缩放,得到imgi0,满足imgi0={img_shape,depth=3},其中,img_shape={height=224,width=224};
步骤206:i0=i0+1,跳转到步骤202;
步骤207:得到训练图像集Train={img1,img2,…,imgM}。
步骤3:使用VGGNet网络训练Train,得到特征向量集FP1,具体实现方法如图4所示,为:
步骤301:将Train读入VGGNet网络,将图像的标签当作网络的类别标签来训练网络,定义conv为卷积层,pool为池化层,采用最大池化maxpooling,stride为步长,激活函数为ReLU,VGGNet有5个卷积模块,分别为Conv1,Conv2,Conv3,Conv4和Conv5,每个conv后接一个ReLU;
步骤302:定义循环变量i1用于遍历Train,i1∈[1,len(Train)],i1赋初值为1;
步骤303:遍历Train,如果i1≤len(Train),跳转到步骤3.4,否则结束遍历Train,跳转到步骤307;
步骤304:Conv1和Conv2分别有2个conv和一个stride为2的pool,Conv3和Conv4分别有4个conv和1个步长stride为2的pool,Conv5有4个conv,对最后一层conv5_4的输出结果进行ReLU,得到relu5_4;
步骤305:relu5_4池化后接三次全连接层,得到特征向量fi1
步骤306:i1=i1+1,跳转到步骤303;
步骤307:得到特征向量集FP1=FP1={f1,f2,...,fi1,...,fM}。
步骤4:使用ResNet网络训练Train,得到特征向量集FP2,具体实现方法,如图5所示,为:
步骤401:将Train读入ResNet网络,将图像的标签当作网络的类别标签来训练网络,定义BN和scale为批量归一化的方法,ReLU为激活函数,ResNet网络有四个Block模块,分别为Block1,Block2,Block3,Block4;
步骤402:定义循环变量i2用于遍历Train,i2∈[1,len(Train)],i2赋初值为1;
步骤403:遍历Train,若i2≤len(Train),跳转到步骤404,否则结束遍历Train,跳转到步骤414;
步骤404:对imgi2进行卷积,卷积核为7*7,通道数为64,填充padding为3,stride为2,卷积后得到imgi2’,大小为112*112*64,对imgi2’进行BN和scale后,通过ReLU,输出为resnet1,大小为112*112*64;
步骤405:定义branch1为残差结构中的分支,branch2为残差结构的主支,每个Block都有2个block组成,Block1={block1,block2};
步骤406:输入resnet1,通过在branch1上进行conv,BN和scale,输出为branch11;
步骤407:输入resnet1,通过在branch2上依次进行conv,BN,scale,ReLU,conv,BN,scale,ReLU,conv,BN,scale,输出为branch21;
步骤408:将branch11和branch21相加后,得到branch31,对branch31进行ReLU操作,得到resanet2a;
步骤409:输入resanet2a,输出为branch11’,满足branch11’与resanet2a相同;
步骤410:输入resanet2a,通过在branch2上依次进行conv,BN,scale,ReLU,conv,BN,scale,ReLU,conv,BN,scale,输出为branch21’;
步骤411:将branch11’和branch21’相加后,得到branch31’,对branch31’进行ReLU操作,得到resanet2b;
步骤412:将上述Block1的结果resanet2b输入Block2中,重复步骤406到411,得到resanet3a,resanet3b,将上述Block2的结果resanet3b输入Block3中,重复步骤4.6到411,得到resanet4a,resanet4b,将上述Block3的结果resanet4b输入Block4中,重复步骤406到411,得到resanet5a,resanet5b,其中,resanet5b为fi2
步骤413:i2=i2+1,跳转到步骤403;
步骤414:得到特征向量集FP2={fp1,fp2,...,fi2...,fpM}。
步骤5:将FP1和FP2进行融合处理,得到FP3,使用softmax方法处理FP3,得到最终的图像分类结果R,具体方法如图6所示,为:
步骤501:定义循环变量i3,用于分别遍历FP1和FP2,i3∈[1,M],i3赋初值为1;
步骤502:遍历FP1和FP2,如果i1≤M,跳转到步骤503,否则结束遍历FP1和FP2,跳转到步骤505;
步骤503:fi3与fpi3相加得到Fi3
步骤504:i3=i3+1,跳转到步骤502;
步骤505:得到特征融合向量集FP3={F1,F2,...,Fi3,...,FM};
步骤506:使用softmax方法处理FP3,得到图像分类结果R={pred_label,gt_label},其中pred_label,gt_label分别表示预测标签和实际标签。
由于本发明涉及多个变量,表1对各个步骤中的变量进行说明。
表1 变量说明表
为了更好的说明本方法的有效性,通过已知的公用的遥感场景图像数据集AID用于实验分类,以1:1的比例将数据集划分为训练集和测试集,数据集总共包含10000张图像,其中,5000张是训练集,5000张是测试集,通过VGGNet获取特征图f1和ResNet获取特征图f2,将提取的特征融合后使用softmax得到最终图像分类结果。
本发明定义的模型是两个网络架构的并联即VGG-ResNet,通过预测图像类别标签与实际类别标签的比较计算出分类的准确度,通过对特征图融合获得更加丰富的特征信息,增强辨识能力,进一步提升图像分类的准确性,由于单一网络ResNet分类准确率比VGGNet网络更低,因此本发明主要是与VGGNet进行效果比对,分类准确率比单一网络VGGNet的86.60%提升了3.6%,对30类、5000张图像的分类准确度达90.20%。
本发明可与计算机系统结合,从而完成图像自动分类。
本发明创造性的提出了一种基于VGGNet和ResNet的图像分类方法,经多次实验,得到图像最佳分类结果。
本领域内的技术人员应明白,本申请的实施例可提供为方法、系统、或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
最后应当说明的是:以上实施例仅用以说明本发明的技术方案而非对其限制,尽管参照上述实施例对本发明进行了详细的说明,所属领域的普通技术人员应当理解:依然可以对本发明的具体实施方式进行修改或者等同替换,而未脱离本发明精神和范围的任何修改或者等同替换,其均应涵盖在本发明的权利要求保护范围之内。

Claims (7)

1.一种基于VGGNet和ResNet的图像分类方法,其特征在于,该方法包括:
(1)将图像数据集I转换成固定数据格式后进行存储,并划分成训练集Ttrain和测试集Ttest;
(2)读取所述固定数据格式的文件,将训练集等比例缩放,得到最终训练集Train;
(3)采用VGGNet网络训练训练集Train,得到特征向量集FP1;
(4)使用ResNet网络训练训练集Train,得到特征向量集FP2;
(5)将FP1和FP2进行融合处理,得到向量集FP3,使用softmax方法处理FP3,得到最终的图像分类结果R。
2.根据权利要求1所述的基于VGGNet和ResNet的图像分类方法,其特征在于,所述固定数据格式为TFRecord格式。
3.根据权利要求2所述的基于VGGNet和ResNet的图像分类方法,其特征在于,所述TFRecord格式具体转换过程包括:
(11)定义I为图像数据集I={C1,C2,…,Cn},其中,Cn为I中的第n类图像数据集,imagei是I中的第i张图像;
(12)定义name,height,width,label,depth分别对应为图像的名称、高度、宽度、标签和深度,满足图像形状img_shape={height,width};
(13)建立TFRecord存储文件,将I中的图像依次写入TFRecord文件,定义path为TFRecord的存储路径名称,class_path为图像类别路径名称,且path={class_path,name};
(14)按照Example协议块规则构造样本块,examplei为样本块转换成序列化的字符串,value为图像对应的分类值,value∈[1,n],且examplei={path,value},imagei与字符串examplei一一对应。
4.根据权利要求2所述的基于VGGNet和ResNet的图像分类方法,其特征在于,所述步骤(2)中,读取所述固定数据格式的文件,将训练集等比例缩放,得到最终训练集Train,具体包括:
(21)定义循环变量i0用于遍历训练集Ttrain,i0∈[1,len(Ttrain)],i0赋初值为1,len(Ttrain)]为Ttrain中图像的数量;
(22)遍历训练集Ttrain,如果i0≤len(Ttrain),跳转到步骤(23),否则结束遍历Ttrain,跳转到步骤(27);
(23)解析第i0个样本模块对应序列化的字符串examplei0,得到第i0个样本模块的特征字典featurei0={raw_imagei0,label},其中,raw_imagei0存储格式为string的图像,标签label格式为int64;
(24)将raw_imagei0格式变为float32,得到存储格式为float32的图像decoded_imagei0
(25)将decoded_imagei0等比例缩放,得到imgi0,且图像表示为imgi0={img_shapei0,depth=3},其中,img_shapei0为图像形状,img_shapei0={height=224,width=224};
(26)i0=i0+1,跳转到步骤(22);
(27)得到训练图像集Train={img1,img2,…,imgM},M为最终训练集中的图像数量。
5.根据权利要求1所述的基于VGGNet和ResNet的图像分类方法,其特征在于,所述步骤(3)中,采用VGGNet网络训练训练集Train,得到特征向量集FP1,具体包括:
(31)将最终训练集Train读入VGGNet网络,将图像的标签label当作网络的类别标签来训练网络,定义conv为卷积层,pool为池化层,采用最大池化maxpooling,stride为步长,激活函数为ReLU,VGGNet有5个卷积模块,分别为Conv1,Conv2,Conv3,Conv4和Conv5,每个卷积层后接一个激活函数ReLU;
(32)定义循环变量i1用于遍历Train,i1∈[1,len(Train)],i1赋初值为1,len(Train)表示最终训练集中图像数量;
(33)遍历Train,如果i1≤len(Train),跳转到步骤(35),否则结束遍历Train,跳转到步骤(37);
(34)Conv1和Conv2分别有2个conv和一个stride为2的pool,Conv3和Conv4分别有4个卷积层和1个步长stride为2的pool,Conv5有4个conv,对最后一层conv5_4的输出结果进行激活,得到relu5_4;
(35)relu5_4池化后接三次全连接层,得到特征向量fi1
(36)i1=i1+1,跳转到步骤(33);
(37)得到特征向量集FP1=FP1={f1,f2,...,fi1,...,fM},M为最终训练集中图像数量。
6.根据权利要求5所述的基于VGGNet和ResNet的图像分类方法,其特征在于,所述步骤(4)中,包括:
(41)将Train读入ResNet网络,将图像的标签当作网络的类别标签来训练网络,定义有四个Block模块,分别为Block1,Block2,Block3,Block4;
(42)定义循环变量i2用于遍历Train,i2∈[1,len(Train)],i2赋初值为1;
(43)遍历Train,如i2≤len(Train),跳转到步骤4.4,否则结束遍历Train,跳转到步骤4.14;
(44)对循环变量i2对应的图像imgi2进行卷积,卷积核为7*7,通道数为64,填充padding为3,stride为2,卷积后得到imgi2’,对imgi2’进行BN和scale后,通过ReLU,输出为resnet1;
(45)定义branch1为残差结构中的分支,branch2为残差结构的主支,每个Block都有2个block组成,Block1={block1,block2};
(46)输入resnet1,通过在branch1上进行卷积,批量化归一,输出为branch11;
(47)输入resnet1,通过在branch2上依次进行卷积,BN批量化归一,scale批量化归一,激活函数ReLU,卷积,BN批量化归一,scale批量化归一,激活函数ReLU,卷积,BN批量化归一,scale批量化归一后,输出为branch21;
(48)将branch11和branch21相加后,得到branch31,对branch31进行ReLU操作,得到resanet2a;
(49)输入resanet2a,输出为branch11’,且branch11’与resanet2a相同;
(410)输入resanet2a,通过在branch2上依次进行conv,BN,scale,ReLU,conv,BN,scale,ReLU,conv,BN,scale,输出为branch21’;
(411)将branch11’和branch21’相加后,得到branch31’,对branch31’进行ReLU操作,得到resanet2b;
(412)将上述Block1的结果resanet2b输入Block2中,重复步骤(46)-步骤(411),得到resanet3a,resanet3b,将上述Block2的结果resanet3b输入Block3中,重复步骤(46)-步骤(411),得到resanet4a,resanet4b,将上述Block3的结果resanet4b输入Block4中,重复步骤(46)-步骤(411),得到resanet5a,resanet5b,其中,resanet5b为fi2
(413)i2=i2+1,跳转到步骤(43);
(414)得到特征向量集FP2={fp1,fp2,...,fi2...,fpM},M为最终训练集中的图像数量。
7.根据权利要求6所述的基于VGGNet和ResNet的图像分类方法,其特征在于,所述步骤(5)中,将FP1和FP2进行融合处理,得到向量集FP3,具体包括:
(51)定义循环变量数据i3,用于分别遍历FP1和FP2,i3∈[1,M],i3赋初值为1,M为最终训练集中的图像数量;
(52)遍历FP1和FP2,如果i1≤M,跳转到步骤(53),否则结束遍历FP1和FP2,跳转到步骤(55);
(53)fi3与fpi3相加得到Fi3,其中,fi3为特征向量集FP1中的某项,所述fpi3为特征向量集FP2中的某项;
(54)i3=i3+1,跳转到步骤(52);
(55)得到特征融合向量集FP3={F1,F2,...,Fi3,...,FM}。
CN201910728851.0A 2019-08-08 2019-08-08 一种基于VGGNet和ResNet的图像分类方法 Active CN110543895B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910728851.0A CN110543895B (zh) 2019-08-08 2019-08-08 一种基于VGGNet和ResNet的图像分类方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910728851.0A CN110543895B (zh) 2019-08-08 2019-08-08 一种基于VGGNet和ResNet的图像分类方法

Publications (2)

Publication Number Publication Date
CN110543895A true CN110543895A (zh) 2019-12-06
CN110543895B CN110543895B (zh) 2023-06-23

Family

ID=68710145

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910728851.0A Active CN110543895B (zh) 2019-08-08 2019-08-08 一种基于VGGNet和ResNet的图像分类方法

Country Status (1)

Country Link
CN (1) CN110543895B (zh)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111680755A (zh) * 2020-06-11 2020-09-18 上海交通大学医学院附属第九人民医院 医学图像识别模型构建及医学图像识别方法、装置、介质及终端
CN113140012A (zh) * 2021-05-14 2021-07-20 北京字节跳动网络技术有限公司 图像处理方法、装置、介质及电子设备
CN113516047A (zh) * 2021-05-19 2021-10-19 哈尔滨理工大学 一种基于深度学习特征融合的人脸表情识别方法
CN113642383A (zh) * 2021-06-23 2021-11-12 哈尔滨理工大学 一种基于联合损失多特征融合的人脸表情识别方法
CN115690856A (zh) * 2023-01-05 2023-02-03 青岛科技大学 基于特征融合的大鱼际掌纹识别方法
CN115690704A (zh) * 2022-09-27 2023-02-03 淮阴工学院 基于LG-CenterNet模型的复杂道路场景目标检测方法及装置

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108764065A (zh) * 2018-05-04 2018-11-06 华中科技大学 一种行人重识别特征融合辅助学习的方法
CN109409198A (zh) * 2018-08-31 2019-03-01 平安科技(深圳)有限公司 Au检测模型训练方法、au检测方法、装置、设备及介质
CN109919230A (zh) * 2019-03-10 2019-06-21 西安电子科技大学 基于循环特征金字塔的医学图像肺结节检测方法
US20190228529A1 (en) * 2016-08-26 2019-07-25 Hangzhou Hikvision Digital Technology Co., Ltd. Image Segmentation Method, Apparatus, and Fully Convolutional Network System

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20190228529A1 (en) * 2016-08-26 2019-07-25 Hangzhou Hikvision Digital Technology Co., Ltd. Image Segmentation Method, Apparatus, and Fully Convolutional Network System
CN108764065A (zh) * 2018-05-04 2018-11-06 华中科技大学 一种行人重识别特征融合辅助学习的方法
CN109409198A (zh) * 2018-08-31 2019-03-01 平安科技(深圳)有限公司 Au检测模型训练方法、au检测方法、装置、设备及介质
CN109919230A (zh) * 2019-03-10 2019-06-21 西安电子科技大学 基于循环特征金字塔的医学图像肺结节检测方法

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111680755A (zh) * 2020-06-11 2020-09-18 上海交通大学医学院附属第九人民医院 医学图像识别模型构建及医学图像识别方法、装置、介质及终端
CN111680755B (zh) * 2020-06-11 2023-06-27 上海交通大学医学院附属第九人民医院 医学图像识别模型构建及医学图像识别方法、装置、介质及终端
CN113140012A (zh) * 2021-05-14 2021-07-20 北京字节跳动网络技术有限公司 图像处理方法、装置、介质及电子设备
CN113516047A (zh) * 2021-05-19 2021-10-19 哈尔滨理工大学 一种基于深度学习特征融合的人脸表情识别方法
CN113642383A (zh) * 2021-06-23 2021-11-12 哈尔滨理工大学 一种基于联合损失多特征融合的人脸表情识别方法
CN115690704A (zh) * 2022-09-27 2023-02-03 淮阴工学院 基于LG-CenterNet模型的复杂道路场景目标检测方法及装置
CN115690704B (zh) * 2022-09-27 2023-08-22 淮阴工学院 基于LG-CenterNet模型的复杂道路场景目标检测方法及装置
CN115690856A (zh) * 2023-01-05 2023-02-03 青岛科技大学 基于特征融合的大鱼际掌纹识别方法

Also Published As

Publication number Publication date
CN110543895B (zh) 2023-06-23

Similar Documents

Publication Publication Date Title
CN110543895A (zh) 一种基于VGGNet和ResNet的图像分类方法
CN111160350B (zh) 人像分割方法、模型训练方法、装置、介质及电子设备
CN105631398A (zh) 识别对象的方法和设备以及训练识别器的方法和设备
CN110232373A (zh) 人脸聚类方法、装置、设备和存储介质
CN109145766A (zh) 模型训练方法、装置、识别方法、电子设备及存储介质
CN111274994B (zh) 漫画人脸检测方法、装置、电子设备及计算机可读介质
CN110569814B (zh) 视频类别识别方法、装置、计算机设备及计算机存储介质
CN110738102A (zh) 一种人脸识别方法及系统
CN113572742A (zh) 基于深度学习的网络入侵检测方法
CN110222780A (zh) 物体检测方法、装置、设备和存储介质
CN112418292A (zh) 一种图像质量评价的方法、装置、计算机设备及存储介质
CN112906865B (zh) 神经网络架构搜索方法、装置、电子设备及存储介质
Yang et al. Multi-scale bidirectional fcn for object skeleton extraction
US20210166058A1 (en) Image generation method and computing device
CN112036483B (zh) 基于AutoML的对象预测分类方法、装置、计算机设备及存储介质
CN110163205A (zh) 图像处理方法、装置、介质和计算设备
CN112651940A (zh) 基于双编码器生成式对抗网络的协同视觉显著性检测方法
CN113590863A (zh) 图像聚类方法、装置及计算机可读存储介质
CN103617609A (zh) 基于图论的k-means非线性流形聚类与代表点选取方法
CN114612921B (zh) 表单识别方法、装置、电子设备和计算机可读介质
CN113221523A (zh) 处理表格的方法、计算设备和计算机可读存储介质
CN115375922B (zh) 一种基于多尺度空间注意力的轻量化显著性检测方法
CN111783688A (zh) 一种基于卷积神经网络的遥感图像场景分类方法
WO2023173552A1 (zh) 目标检测模型的建立方法、应用方法、设备、装置及介质
CN114387608B (zh) 一种联合卷积与图神经网络的表格结构识别方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant