CN112613581B - 一种图像识别方法、系统、计算机设备和存储介质 - Google Patents

一种图像识别方法、系统、计算机设备和存储介质 Download PDF

Info

Publication number
CN112613581B
CN112613581B CN202011645416.0A CN202011645416A CN112613581B CN 112613581 B CN112613581 B CN 112613581B CN 202011645416 A CN202011645416 A CN 202011645416A CN 112613581 B CN112613581 B CN 112613581B
Authority
CN
China
Prior art keywords
layer
image recognition
convolution
double
model
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202011645416.0A
Other languages
English (en)
Other versions
CN112613581A (zh
Inventor
刘勋
陈晓霖
叶培鑫
赖国宇
陈明算
房家健
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
South China Institute Of Software Engineering Gu
Original Assignee
South China Institute Of Software Engineering Gu
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by South China Institute Of Software Engineering Gu filed Critical South China Institute Of Software Engineering Gu
Priority to CN202011645416.0A priority Critical patent/CN112613581B/zh
Publication of CN112613581A publication Critical patent/CN112613581A/zh
Application granted granted Critical
Publication of CN112613581B publication Critical patent/CN112613581B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02TCLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
    • Y02T10/00Road transport of goods or passengers
    • Y02T10/10Internal combustion engine [ICE] based vehicles
    • Y02T10/40Engine management systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Evolutionary Computation (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Software Systems (AREA)
  • Mathematical Physics (AREA)
  • Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Computing Systems (AREA)
  • Molecular Biology (AREA)
  • General Health & Medical Sciences (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Image Analysis (AREA)

Abstract

本发明实施例提供的一种图像识别方法、系统、计算机设备和存储介质,所述方法包括获取图像识别数据集;根据所述图像识别数据集构建基于浅层卷积神经网络的图像识别模型;采用所述图像识别数据集对所述图像识别模型进行识别训练,得到识别结果。该方法在实际的图像识别应用中,采用包括四个卷积层、四个批量归一化层、两个池化层、三个随机失活层、一个全连接层及softmax分类输出层的图像识别模型,在减少了深度卷积神经网络的层数和降低其模型计算量的同时,还解决了现有浅层卷积神经网络的特征冗余和过拟合问题,不仅简化了网络结构、提高了模型训练效率,还进一步提高了模型的泛化能力和图像识别精度。

Description

一种图像识别方法、系统、计算机设备和存储介质
技术领域
本发明涉及卷积神经网络和图像识别技术领域,特别是涉及一种基于浅层卷积神经网络的图像识别方法、系统、计算机设备和存储介质。
背景技术
目前,深度卷积神经网络在图像识别、目标检测等计算机视觉领域应用上有着很好的表现,然而从8层的AlexNet到152层的ResNet,深度卷积神经网络(DCNNs)的趋势是模型结构更复杂、层数更多、训练的计算量更大、内存资源消耗更多、训练效率更低。为了解决DCNNs的问题,一系列层数较少、计算量较低的浅卷积神经网络随后被提出,如支持向量机(SVM)的4层卷积神经网络的通用浅层卷积神经网络框架,及引入批量归一化(BN)技术的浅层卷积神经网络等。但是,这些浅层卷积神经网络,虽然一定程度上减少了模型的层数和训练的计算量,但卷积层之间存在特征冗余,模型可能存在过拟合风险。
因此,如何在减少深度卷积神经网络的层数和降低其模型计算量的同时,解决现有浅层卷积神经网络的特征冗余和过拟合问题是非常值得研究的。
发明内容
本发明的目的是解决现有浅层卷积神经网络的特征冗余和过拟合问题,在简化网络结构和提高模型训练效率的基础上,进一步提高模型的泛化能力和图像识别精度。
为了实现上述目的,有必要针对上述技术问题,提供一种基于浅层卷积神经网络的图像识别方法、系统、计算机设备和存储介质。
第一方面,本发明实施例提供了一种图像识别方法,其特征在于,所述方法包括以下步骤:
获取图像识别数据集;
根据所述图像识别数据集构建基于浅层卷积神经网络的图像识别模型;所述图像识别模型包括输入层、第一双卷积层、第二双卷积层、池化层、随机失活层、全连接层和输出层;
采用所述图像识别数据集对所述图像识别模型进行识别训练,得到识别结果。
进一步地,所述第一双卷积层、第二双卷积层、池化层、随机失活层和全连接层的个数分别为1、1、2、3和1;所述图像识别模型依次包括输入层、第一双卷积层、池化层、随机失活层、第二双卷积层、池化层、随机失活层、全连接层、非线性激活层、随机失活层和softmax函数多分类输出层。
进一步地,所述第一双卷积层包括2个依次连接的第一卷积块;所述第一卷积块依次包括conv3x3x32卷积层、批量归一化层和非线性激活层;所述第二双卷积层包括2个依次连接的第二卷积块;所述第二卷积块依次包括conv3x3x64卷积层、批量归一化层和非线性激活层。
进一步地,所述池化层为max-pooling2x2池化层。
进一步地,所述采用所述图像识别数据集对所述图像识别模型进行识别训练,得到识别结果的步骤包括:
将所述图像识别数据集按比例划分为训练集和测试集,并对所述训练集和测试集均采用特定随机率翻转进行数据增强;
将所述训练集输入所述图像识别模型进行训练,得到图像识别训练模型;
将所述测试集输入所述图像识别训练模型,得到识别结果。
进一步地,所述将所述训练集输入所述图像识别模型进行训练,得到图像识别训练模型的步骤包括:
随机初始化所述图像识别模型的参数;
将所述训练集输入所述图像识别模型,采用前向传播得到初始识别结果;
根据所述初始识别结果,采用SGD随机梯度下降法对所述参数进行训练,得到所述图像识别训练模型。
进一步地,所述将所述训练集输入所述图像识别模型,采用前向传播得到初始识别结果的步骤包括:
所述训练集经过输入层处理后输入第一双卷积层进行卷积处理,得到第一双卷积数据;
将所述第一双卷积数据依次经过池化层和随机失活层的降维和去冗余处理,得到第一特征映射数据;
将所述第一特征映射数据输入到第二双卷积层进行卷积处理,得到第二双卷积数据;
将所述第二双卷积数据依次输入池化层和随机失活层进行降维和去冗余处理后,得到第二特征映射数据;
将所述第二特征映射数据依次输入全连接层和非线性激活层,得到全连接融合数据;
将所述全连接融合数据输入随机失活层进行去冗余处理,得到降冗余全连接融合数据;
将所述降冗余全连接融合数据输入到softmax多分类输出函数,得到初始识别结果。
第二方面,本发明实施例提供了一种图像识别系统,其特征在于,所述系统包括:
获取图像识别数据集模块,用于获取图像识别数据集;
建立识别模型模块,用于根据所述图像识别数据集构建基于浅层卷积神经网络的图像识别模型;所述图像识别模型包括输入层、第一双卷积层、第二双卷积层、池化层、随机失活层、全连接层和输出层;
模型训练分类模块,用于采用所述图像识别数据集对所述图像识别模型进行识别训练,得到识别结果。
第三方面,本发明实施例提供了一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至7中任一项所述方法的步骤。
第四方面,本发明实施例提供了一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至7中任一项所述的方法的步骤。
上述本申请提供了一种基于浅层卷积神经网络的图像识别方法、系统、计算机设备和存储介质,通过所述图像识别方法,实现了提供一种包括两个双卷积层、两个池化层、三个随机失活层、一个全连接层和softmax函数多分类输出层的基于浅层卷积神经网络的图像识别模型,并用其进行图像精准识别的效果。与现有技术相比,该方法在图像识别的应用上,仅采用包括四个卷积层、一个全连接层和一个softmax输出层的6层网络架构,并结合批量归一化、随机失活、最大值图池化及非线性激活技术,不仅简化了网络结构、减少了参数量、节约了模型训练的计算资源,进而提高了模型的训练效率,还减少了特征冗余和过拟合风险,进一步提高了模型的泛化能力和图像识别精度。
附图说明
图1是本发明实施例中图像识别方法的流程示意图;
图2是图1中基于浅层卷积神经网络的图像识别模型结构示意图;
图3是图1中步骤S13采用基于浅层卷积神经网络的图像识别模型进行分类训练,得到识别结果的流程示意图;
图4是图3中步骤S132对基于浅层卷积神经网络的图像识别模型进行训练的流程示意图;
图5是图4中步骤S1322对基于浅层卷积神经网络的图像识别模型进行前向传播的流程示意图;
图6是本发明实施例中图像识别方法基于MNIST数据集的测试精度示意图;
图7本发明实施例中图像识别方法基于Fashion-MNIST数据集的测试精度示意图;
图8是本发明实施例中图像识别系统的结构示意图;
图9是本发明实施例中计算机设备的内部结构图。
具体实施方式
为了使本申请的目的、技术方案和有益效果更加清楚明白,下面结合附图及实施例,对本发明作进一步详细说明,显然,以下所描述的实施例是本发明实施例的一部分,仅用于说明本发明,但不用来限制本发明的范围。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明提供的基于浅层卷积神经网络的图像识别方法,可以应用于终端或服务器上,且终端可以但不限于是各种个人计算机、笔记本电脑、智能手机、平板电脑和便携式可穿戴设备,服务器可以用独立的服务器或者是多个服务器组成的服务器集群来实现。其所采用的基于浅层卷积神经网络的图像识别模型(SCNN)是对现有浅层卷积神经网络的改进,可以在服务器上完成图像识别,将生成识别结果发送至终端,终端接收到识别结果后,供终端的使用者查看分析。
在一个实施例中,如图1所示,提供了一种图像识别方法,包括以下步骤:
S11、获取图像识别数据集;
其中,图像识别数据集采用MNIST和Fashion-MNIST两个基准数据集,便于后续分类效果的比对。其MNIST数据集包含从0到9的10个类别的手写数字灰度图像;Fashion-MNIST数据集包含10个类别的70000种不同时尚物品的灰度图像。这两个数据集的图像大小都为28×28像素,且均包括60000张训练图像和10000张测试图像。
S12、根据所述图像识别数据集构建基于浅层卷积神经网络的图像识别模型;所述图像识别模型包括输入层、第一双卷积层、第二双卷积层、池化层、随机失活层、全连接层和输出层;
其中,第一双卷积层、第二双卷积层、池化层、随机失活层和全连接层的个数分别为1、1、2、3和1,且如图2所示的基于浅层卷积神经网络的图像识别模型依次包括输入层、第一双卷积层、池化层、随机失活层、第二双卷积层、池化层、随机失活层、全连接层、非线性激活层、随机失活层和softmax函数多分类输出层。
第一双卷积层和第二双卷积层均设计为包括依次连接的2个由卷积层连接批量归一化层,再连接非线性激活层的组合而成的卷积块,且所使用的批量归一化层和非线性激活层相同。不同之处在于,二者使用的卷积的滤波数目不同,第一双卷积层的第一卷积块使用的两个卷积都是大小为3x3数量为32的卷积层,而第二双卷积层是第二卷积块使用的两个卷积都是大小为3x3数量为32的卷积层。比如,假设输入大小为28x28像素的单通道灰度图分别输入第一双卷积层和第二双卷积层处理好的结果过程分别为:采用第一双卷积层进行处理是经过两个第一卷积块处理,即先经过卷积核有32个、大小为3x3,padding为1且滑动步长为2的卷积层进行卷积处理后得到一个大小为28x28像素,维数为32的特征映射图,再将得到的特征映射图进一步采用权重为0.000005的L2归一化处理后,继续增加非线性的第一卷积块处理后,再输入第一卷积块加强特征提取,最终得到第一双卷积层提取的特征图;采用第二双卷积层进行处理是经过两个第二卷积块处理,即先经过卷积核有64个、大小为3x3,padding为1且滑动步长为2的卷积层进行卷积处理后得到一个大小为28x28像素,维数为64的特征映射图,再将得到的特征映射图进一步采用权重为0.000005的L2归一化处理后,继续增加非线性的第二卷积块处理后,再输入第二卷积块加强特征提取,最终得到第二双卷积层提取的特征图。
本实施例不仅通过采用两个滤波数不同的双层卷积层加强了卷积层特征提取的能力,而且通过采用BN批量归一化技术有效的解决训练过程中不同层之间的数据分布问题,避免数据被重复选中,进而加快模型的收敛速度和分类精度,还通过采用非线性激活增强网络模型的表达能力。其中,常用的非线性激活函数包括sigmoid、tanh和ReLU、ElU、PReLU等,上述激活函数都可使用,但各有优劣,实际应用时可以根据待处理数据的特点进行选取,而本实施例中采用神经网络中用的最多的ReLu函数,它的公式定义如下:
f(x)=max(0,x),
即,保留大于等于0的值,其余所有小于0的数值直接改写为0。通过这种方法对卷积后产生的特征图中的值进行映射,就可以在特征提取时直接舍弃掉那些不相关联的数据,操作更方便。该激活含由于其稀疏激活的特性,有效减少了过拟合风险,提高模型的泛化能力。
优选地,所述池化层为max-pooling2x2池化层。
其中,池化层为max-pooling2x2池化层,即如上所述的大小为28x28像素的单通道灰度图经过第一双卷积层处理后得到28x28x32的特征映射图,再经过max-pooling2x2的池化处理后得到14x14x32的特征图,在保持有用特征提取和通道数目不变的同时,能够有效的降低了数据的维数和计算的复杂度。
本实施例中,图像识别数据输入模型后,先由输入层进入第一双卷积层,即重复两次的先进行卷积核为3x3x32、padding为1、滑动步长为2的卷积层处理得到28x28x32的特征映射图,再进一步批量归一化和ReLU非线性激活的特征提取的第一卷积块处理后,将提取的特征图输入max-pooling2x2的池化层进行降维处理得到14x14x32的特征映射图,并输入随机失活率为0.1%的随机失活层(Dropout)进行减少特征冗余和过拟合风险处理后,再进入第二双卷积层,即重复两次的先进行卷积核为3x3x64、padding为1、滑动步长为2的卷积层处理得到14x14x64的特征映射图,再进一步批量归一化和ReLU非线性激活的特征提取的第二卷积块处理后,将提取的特征图输入max-pooling2x2的池化层进行降维处理得到7x7x64的特征映射图,并输入随机失活率为0.1%的随机失活层进行减少特征冗余和过拟合风险处理后,传入神经元数为1280的全连接层进行特征融合,再进一步采用ReLU增加非线性处理和随机失活率为0.1%的随机失活减少过拟合处理,并将处理结果采用softmax函数多分类输出得到识别结果,即完成了模型的正向传播。可见,该模型在保证有效特征提取的同时,还一定程度上降低了特征冗余和过拟合的风险,提高了模型的训练效率,提升了模型的学习能力和泛化能力,且该模型的理论时间复杂度为:
其中,j=1,2,3,4表示卷积层的序号,k=4表示卷积层的总数,nj-1、nj分别表示第j-1层卷积和第j层卷积的过滤器数目,sw,sh分别为卷积核的宽度和高度,mw,mh分别为卷积层输出的特征映射的宽度和高度。
S13、采用所述图像识别数据集对所述图像识别模型进行识别训练,得到识别结果。
其中,如图3所示,所述采用所述图像识别数据集对所述图像识别模型进行识别训练,得到识别结果的步骤S13包括:
S131、将所述图像识别数据集按比例划分为训练集和测试集,并对所述训练集和测试集均采用特定随机率翻转进行数据增强;
其中,图像识别基准数据集MNIST和Fashion-MNIST都是分为10分类别,且其中6000个图片为训练集,1000个图片为测试集,即本实施例采用训练集和测试的比例为6:1。此外,为了使得本申请的模型达到比较理想的训练效果,采用数据增强的方法加大训练集和测试集样本的多样性是非常有必要的,其最简单有效的方法就是对原始数据集进行扩充,得到更多的数据。对于图片数据而言,常用的数据增强的方法有:翻转、旋转、平移、缩放/尺度变换、随机裁剪、色彩抖动、对比度变换、加噪声等,本实施例采用的是在训练集和测试集上均采用0.5%的随机率翻转的方法来实现数据增强的效果,从而提高模型的鲁棒性,避免过拟合风险。
S132、将所述训练集输入所述图像识别模型进行训练,得到图像识别训练模型;
其中,如图4所示,所述将所述训练集输入所述图像识别模型进行训练,得到图像识别训练模型S132的步骤包括:
S1321、随机初始化所述图像识别模型的参数;
其中,基于图浅层卷积神经网络的图像识别模型主要使用的是经典的卷积,其模型的参数的介绍在此不再赘述,本实施例中使用的模型不需要进行预训练,只需训练开始时将参数随机初始化即可,一定程度上提升了模型训练的效率。
S1322、将所述训练集输入所述图像识别模型,采用前向传播得到初始识别结果;
其中,其模型前向传播的过程为:将采用数据增强处理的训练集输入输入层处理后,先进行第一双卷积层提取特征、批量归一化和非线性化,进行图池化及随机丢弃处理,再输入到第二双卷积层提取特征、批量归一化和非线性化,再进行图池化及随机丢弃处理后,输入到全连接层提取特征,并再次增加非线性和进行随机丢弃,最后,将得到的特征输入到softmax函数进行多分类输出,选取概率最大的为图像识别的结果,如图5所示,所述将所述训练集输入所述图像识别模型,采用前向传播得到初始识别结果的步骤S1322包括:
S13221、所述训练集经过输入层处理后输入第一双卷积层进行卷积处理,得到第一双卷积数据;
S13222、将所述第一双卷积数据依次经过池化层和随机失活层的降维和去冗余处理,得到第一特征映射数据;
S13223、将所述第一特征映射数据输入到第二双卷积层进行卷积处理,得到第二双卷积数据;
S13224、将所述第二双卷积数据依次输入池化层和随机失活层进行降维和去冗余处理后,得到第二特征映射数据;
S13225、将所述第二特征映射数据依次输入全连接层和非线性激活层,得到全连接融合数据;
S13226、将所述全连接融合数据输入随机失活层进行去冗余处理,得到降冗余全连接融合数据;
S13227、将所述降冗余全连接融合数据输入到softmax多分类输出函数,得到初始识别结果。
其中,每轮前向传播得到初始识别结果为概率最大的类别,得到识别结果后,会根据原始分类结合损失函数进行识别效果的分析,结合损失函数用于后续的参数更新。
S1323、根据所述初始识别结果,采用SGD随机梯度下降法对所述参数进行训练,得到所述图像识别训练模型。
其中,SGD随机梯度下降法是每次迭代仅使用一个样本来对参数进行更新,使得训练速度加快的一种及其学习优化算法。本实施例中模型的参数训练采用的SGD随机梯度下降法对模型参数进行更新,并将L2正则化权重设置为0.000005,学习率设为0.02,动量设为0.9,Batchsize设为128,进行300轮网络训练。在经过上述前向传播得到初始识别结果后,计算误差进行误差反向传播对网络参数进行更新,直至所有batch都训练完毕,将模型参数保存,得到稳定的图像识别训练模型,用于后续的测试使用。
S133、将所述测试集输入所述图像识别训练模型,得到识别结果。
其中,其训练的过程为:将采用数据增强处理的测试集输入到上述确定网络参数后的图像识别训练模型,进行正向传播,得到识别结果,并将其与真实标签进行比对和统计,直至所有batch全部测试完毕,得到所有结果的均值作为最终识别结果。
本申请实施例中,设计了一种新的基于随机失活的浅层卷积神经网络SCNN图像识别框架,其不仅利用双卷积块加强了特征提取能力,还通过批量归一化和随机失活技术减少了模型的计算复杂度和卷积层之间的特征冗余、提高了模型训练的效率、降低了模型的过拟合风险,从而在简化网络结构的基础上,进一步提高模型的泛化能力和图像识别精度,其基于图像识别数据集MNIST和Fashion-MNIST测试效果如图6-7所示。
此外,本申请的实施例中还将SCNN模型,分别与现有的DCNN模型、浅层CNN模型基于基准图像识别数据集上的测试精度进行了比对,结果如下表1-2所示:
表1 SCNN与DCNN模型基于MNIST和Fashion-MNIST的测试精度比对表
基于上述表1的对比结果可知:SCNN模型基于在MNIST数据集上实现了99.63%的高精度,明显优于AlexNet和ResNet模型,且与MNIST数据集上表现最优的Ma et al模型相比,其采用的3×3×32和3×3×64卷积进行特征提取在计算量上也是明显优于7×7×419卷积的;SCNN模型基于在Fashion-MNIST数据集上,识别精度达到了94.82%,虽然略低于卷积层数更多、过滤器数目更多的ResNet、Ma et al和Zeng et al模型,但与其他DCNN模型相比,该模型层数最少且测试效果最好。
表2 SCNN与浅层CNN模型基于MNIST和Fashion-MNIST的测试精度比对表
基于上述表2的对比结果可知:SCNN模型在MNIST数据集上,达到了99.63%的高精度,明显优于Agarap et al、Poernomo et al和Gorokhovatskyi et al分别提出的模型的测试结果,与Jain et al提出的模型相比,其测试精度和时间复杂度基本相当;SCNN模型基于在Fashion-MNIST数据集上,识别精度达到了94.82%,与其他浅层CNN模型相比,其在4.8M的时间复杂度上具有最高的精确度。
基于上述实验结果可知,本实施例的基于浅层卷积神经网络的图像识别模型(SCNN)在MNIST和Fashion-MNIST数据集的分类上都有着很好的表现,表明该模型应用在图像识别任务上是有效的,且其与现有DCNN模型和浅层CNN模型相比,在同样图像识别任务上的测试精度、时间复杂度和泛化能力都有着明显优势。
需要说明的是,虽然上述流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,这些步骤可以以其它的顺序执行。而且,上述流程图中的至少一部分步骤可以包括多个子步骤或者多个阶段,这些子步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,这些子步骤或者阶段的执行顺序也不必然是依次进行,而是可以与其它步骤或者其它步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。
在一个实施例中,如图8所示,提供了一种图像识别系统,所述系统包括:
获取图像识别数据集模块81,用于获取图像识别数据集;
建立识别模型模块82,用于根据所述图像识别数据集构建基于浅层卷积神经网络的图像识别模型;所述图像识别模型包括输入层、第一双卷积层、第二双卷积层、池化层、随机失活层、全连接层和输出层;
模型训练模块83,用于采用所述图像识别数据集对所述图像识别模型进行识别训练,得到识别结果。
关于图像识别系统的具体限定可以参见上文中对于图像识别方法的限定,在此不再赘述。上述图像识别系统中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中,也可以以软件形式存储于计算机设备中的存储器中,以便于处理器调用执行以上各个模块对应的操作。
图9示出一个实施例中计算机设备的内部结构图,该计算机设备具体可以是终端或服务器。如图9所示,该计算机设备包括通过系统总线连接的处理器、存储器、网络接口、显示器和输入装置。其中,该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统和计算机程序。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种电价概率预测方法。该计算机设备的显示屏可以是液晶显示屏或者电子墨水显示屏,该计算机设备的输入装置可以是显示屏上覆盖的触摸层,也可以是计算机设备外壳上设置的按键、轨迹球或触控板,还可以是外接的键盘、触控板或鼠标等。
本领域普通技术人员可以理解,图9中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的计算机设备的限定,具体的计算设备可以包括比途中所示更多或更少的部件,或者组合某些部件,或者具有同的部件布置。
在一个实施例中,提供了一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,处理器执行计算机程序时实现上述方法的步骤。
在一个实施例中,提供了一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现上述方法的步骤。
综上,本发明实施例提供的一种图像识别方法、系统、计算机设备和存储介质,其基于浅层卷积神经网络的图像识别模型的图像识别方法提出了一种包括四个卷积层、四个批量归一化层、两个池化层、三个随机失活层、一个全连接层及softmax分类输出层的新的图像识别模型,并结合前向传播和SGD梯度下降法对模型参数进行优化训练的方法。该方法应用于实际的图像识别时,在减少了深度卷积神经网络的层数和降低其模型计算量的同时,还解决了现有浅层卷积神经网络的特征冗余和过拟合问题,不仅简化了网络结构、提高了模型训练效率,还进一步提高了模型的泛化能力和图像识别精度。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。
本说明书中的各个实施例均采用递进的方式描述,各个实施例直接相同或相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于系统、计算机设备和存储介质的实施例而言,由于其基本相似于方法实施例,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。需要说明的是,上述实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
以上所述实施例仅表达了本申请的几种优选实施方式,其描述较为具体和详细,但并不能因此而理解为对发明专利范围的限制。应当指出的是,对于本技术领域的普通技术人员来说,在不脱离本发明技术原理的前提下,还可以做出若干改进和替换,这些改进和替换也应视为本申请的保护范围。因此,本申请专利的保护范围应以所述权利要求的保护范围为准。

Claims (6)

1.一种图像识别方法,其特征在于,所述方法包括以下步骤:
获取图像识别数据集;
根据所述图像识别数据集构建基于浅层卷积神经网络的图像识别模型;所述图像识别模型包括输入层、第一双卷积层、第二双卷积层、池化层、随机失活层、全连接层和输出层;
采用所述图像识别数据集对所述图像识别模型进行识别训练,得到识别结果;
其中,所述第一双卷积层、第二双卷积层、池化层、随机失活层和全连接层的个数分别为1、1、2、3和1;所述图像识别模型依次包括输入层、第一双卷积层、池化层、随机失活层、第二双卷积层、池化层、随机失活层、全连接层、非线性激活层、随机失活层和输出层;
所述第一双卷积层包括2个依次连接的第一卷积块;所述第一卷积块依次包括conv3x3x32卷积层、批量归一化层和非线性激活层;所述第二双卷积层包括2个依次连接的第二卷积块;所述第二卷积块依次包括conv3x3x64卷积层、批量归一化层和非线性激活层;
所述图像识别模型的训练步骤包括:
随机初始化所述图像识别模型的参数;
将训练集输入所述图像识别模型,采用前向传播得到初始识别结果;
根据所述初始识别结果,采用SGD随机梯度下降法对所述参数进行训练,得到图像识别训练模型;
所述将所述训练集输入所述图像识别模型,采用前向传播得到初始识别结果的步骤包括:
所述训练集经过输入层处理后输入第一双卷积层进行卷积处理,得到第一双卷积数据;
将所述第一双卷积数据依次经过池化层和随机失活层的降维和去冗余处理,得到第一特征映射数据;
将所述第一特征映射数据输入到第二双卷积层进行卷积处理,得到第二双卷积数据;
将所述第二双卷积数据依次输入池化层和随机失活层进行降维和去冗余处理后,得到第二特征映射数据;
将所述第二特征映射数据依次输入全连接层和非线性激活层,得到全连接融合数据;
将所述全连接融合数据输入随机失活层进行去冗余处理,得到降冗余全连接融合数据;
将所述降冗余全连接融合数据输入到softmax多分类输出函数,得到初始识别结果。
2.如权利要求1所述的图像识别方法,其特征在于,所述池化层为max-pooling2x2池化层。
3.如权利要求1所述的图像识别方法,其特征在于,所述采用所述图像识别数据集对所述图像识别模型进行识别训练,得到识别结果的步骤包括:
将所述图像识别数据集按比例划分为训练集和测试集,并对所述训练集和测试集均采用特定随机率翻转进行数据增强;
将所述训练集输入所述图像识别模型进行训练,得到图像识别训练模型;
将所述测试集输入所述图像识别训练模型,得到识别结果。
4.一种图像识别系统,其特征在于,所述系统包括:
获取图像识别数据集模块,用于获取图像识别数据集;
建立识别模型模块,用于根据所述图像识别数据集构建基于浅层卷积神经网络的图像识别模型;所述图像识别模型包括输入层、第一双卷积层、第二双卷积层、池化层、随机失活层、全连接层和输出层;
模型训练模块,用于采用所述图像识别数据集对所述图像识别模型进行识别训练,得到识别结果;
其中,所述第一双卷积层、第二双卷积层、池化层、随机失活层和全连接层的个数分别为1、1、2、3和1;所述图像识别模型依次包括输入层、第一双卷积层、池化层、随机失活层、第二双卷积层、池化层、随机失活层、全连接层、非线性激活层、随机失活层和输出层;
所述第一双卷积层包括2个依次连接的第一卷积块;所述第一卷积块依次包括conv3x3x32卷积层、批量归一化层和非线性激活层;所述第二双卷积层包括2个依次连接的第二卷积块;所述第二卷积块依次包括conv3x3x64卷积层、批量归一化层和非线性激活层;
所述图像识别模型的训练步骤包括:
随机初始化所述图像识别模型的参数;
将训练集输入所述图像识别模型,采用前向传播得到初始识别结果;
根据所述初始识别结果,采用SGD随机梯度下降法对所述参数进行训练,得到图像识别训练模型;
所述将所述训练集输入所述图像识别模型,采用前向传播得到初始识别结果的步骤包括:
所述训练集经过输入层处理后输入第一双卷积层进行卷积处理,得到第一双卷积数据;
将所述第一双卷积数据依次经过池化层和随机失活层的降维和去冗余处理,得到第一特征映射数据;
将所述第一特征映射数据输入到第二双卷积层进行卷积处理,得到第二双卷积数据;
将所述第二双卷积数据依次输入池化层和随机失活层进行降维和去冗余处理后,得到第二特征映射数据;
将所述第二特征映射数据依次输入全连接层和非线性激活层,得到全连接融合数据;
将所述全连接融合数据输入随机失活层进行去冗余处理,得到降冗余全连接融合数据;
将所述降冗余全连接融合数据输入到softmax多分类输出函数,得到初始识别结果。
5.一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至3中任一项所述方法的步骤。
6.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至3中任一项所述的方法的步骤。
CN202011645416.0A 2020-12-31 2020-12-31 一种图像识别方法、系统、计算机设备和存储介质 Active CN112613581B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011645416.0A CN112613581B (zh) 2020-12-31 2020-12-31 一种图像识别方法、系统、计算机设备和存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011645416.0A CN112613581B (zh) 2020-12-31 2020-12-31 一种图像识别方法、系统、计算机设备和存储介质

Publications (2)

Publication Number Publication Date
CN112613581A CN112613581A (zh) 2021-04-06
CN112613581B true CN112613581B (zh) 2023-10-13

Family

ID=75253283

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011645416.0A Active CN112613581B (zh) 2020-12-31 2020-12-31 一种图像识别方法、系统、计算机设备和存储介质

Country Status (1)

Country Link
CN (1) CN112613581B (zh)

Families Citing this family (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113505851B (zh) * 2021-07-27 2023-01-31 电子科技大学 一种智能飞行器多任务处理方法
CN113780074A (zh) * 2021-08-04 2021-12-10 五邑大学 卷纸中包质量检测方法、装置及存储介质
CN113343959A (zh) * 2021-08-06 2021-09-03 禾多科技(北京)有限公司 场景图像识别方法、装置、电子设备和计算机可读介质
CN113781416A (zh) * 2021-08-30 2021-12-10 武汉理工大学 一种输送带撕裂检测方法、装置及电子设备
CN113688931B (zh) * 2021-09-01 2024-03-29 什维新智医疗科技(上海)有限公司 一种基于深度学习的超声图像筛选方法和装置
CN113822386B (zh) * 2021-11-24 2022-02-22 苏州浪潮智能科技有限公司 一种图像识别方法、装置、设备及介质
CN114005002B (zh) * 2021-11-26 2024-07-19 中国科学院沈阳自动化研究所 基于核操作的核全连接神经网络的图像识别方法
CN114366047B (zh) * 2022-01-27 2023-05-09 上海国民集团健康科技有限公司 多任务神经网络脉象数据处理方法、系统及终端
CN115165363B (zh) * 2022-06-27 2024-07-19 西南交通大学 一种基于cnn的轻型轴承故障诊断方法及系统
CN115757386B (zh) * 2023-01-09 2023-04-11 吉林大学 海洋空间观测数据的异常检测方法、系统、设备与介质
CN116468946A (zh) * 2023-04-17 2023-07-21 杭州鄂达精密机电科技有限公司 刀具图像分类方法、装置、计算机设备及存储介质
CN117574787B (zh) * 2024-01-17 2024-04-30 深圳市郑中设计股份有限公司 一种室内设计用室内采光率模拟系统、方法及装置
CN117593610B (zh) * 2024-01-17 2024-04-26 上海秋葵扩视仪器有限公司 图像识别网络训练及部署、识别方法、装置、设备及介质

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108154192A (zh) * 2018-01-12 2018-06-12 西安电子科技大学 基于多尺度卷积与特征融合的高分辨sar地物分类方法
CN109875556A (zh) * 2019-03-05 2019-06-14 广州爱听贝科技有限公司 一种智能临产监测系统
CN110348376A (zh) * 2019-07-09 2019-10-18 华南理工大学 一种基于神经网络的行人实时检测方法
CN111008649A (zh) * 2019-11-13 2020-04-14 华南理工大学 一种基于三支决策的缺陷检测数据集预处理方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109389128B (zh) * 2018-08-24 2021-08-27 中国石油天然气股份有限公司 电成像测井图像特征自动提取方法及装置

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108154192A (zh) * 2018-01-12 2018-06-12 西安电子科技大学 基于多尺度卷积与特征融合的高分辨sar地物分类方法
CN109875556A (zh) * 2019-03-05 2019-06-14 广州爱听贝科技有限公司 一种智能临产监测系统
CN110348376A (zh) * 2019-07-09 2019-10-18 华南理工大学 一种基于神经网络的行人实时检测方法
CN111008649A (zh) * 2019-11-13 2020-04-14 华南理工大学 一种基于三支决策的缺陷检测数据集预处理方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
Neuroevolutionary based convolutional neural network with adaptive activation functions;Roxana ZahediNasab等;《Elsevier Science》;第1-8页 *
基于卷积网络集成的面部表情识别方法;刘旷;《万方数据知识服务平台学位论文库》;第1-55页 *

Also Published As

Publication number Publication date
CN112613581A (zh) 2021-04-06

Similar Documents

Publication Publication Date Title
CN112613581B (zh) 一种图像识别方法、系统、计算机设备和存储介质
Luo et al. Autopruner: An end-to-end trainable filter pruning method for efficient deep model inference
CN110378383B (zh) 一种基于Keras框架和深度神经网络的图片分类方法
US20190286953A1 (en) System and Methods for Efficiently Implementing a Convolutional Neural Network Incorporating Binarized Filter and Convolution Operation for Performing Image Classification
CN111882040B (zh) 基于通道数量搜索的卷积神经网络压缩方法
WO2022068623A1 (zh) 一种模型训练方法及相关设备
CN109754078A (zh) 用于优化神经网络的方法
CN112116001B (zh) 图像识别方法、装置及计算机可读存储介质
WO2022001805A1 (zh) 一种神经网络蒸馏方法及装置
Qian et al. A simple feedforward convolutional conceptor neural network for classification
CN112464865A (zh) 一种基于像素和几何混合特征的人脸表情识别方法
CN110826596A (zh) 一种基于多尺度可变形卷积的语义分割方法
CN110765860A (zh) 摔倒判定方法、装置、计算机设备及存储介质
US20220319233A1 (en) Expression recognition method and apparatus, electronic device, and storage medium
CN112529068B (zh) 一种多视图图像分类方法、系统、计算机设备和存储介质
WO2022156475A1 (zh) 神经网络模型的训练方法、数据处理方法及装置
CN109214333A (zh) 卷积神经网络结构、人脸属性识别方法、装置及终端设备
CN114266897A (zh) 痘痘类别的预测方法、装置、电子设备及存储介质
CN114399808A (zh) 一种人脸年龄估计方法、系统、电子设备及存储介质
CN116246110A (zh) 基于改进胶囊网络的图像分类方法
CN110390307B (zh) 表情识别方法、表情识别模型训练方法及装置
US10643092B2 (en) Segmenting irregular shapes in images using deep region growing with an image pyramid
CN117274754A (zh) 梯度匀质化的点云多任务融合方法
US10776923B2 (en) Segmenting irregular shapes in images using deep region growing
EP4398128A1 (en) Recommendation method and related device

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant