CN109299733A - 利用紧凑型深度卷积神经网络进行图像识别的方法 - Google Patents

利用紧凑型深度卷积神经网络进行图像识别的方法 Download PDF

Info

Publication number
CN109299733A
CN109299733A CN201811064277.5A CN201811064277A CN109299733A CN 109299733 A CN109299733 A CN 109299733A CN 201811064277 A CN201811064277 A CN 201811064277A CN 109299733 A CN109299733 A CN 109299733A
Authority
CN
China
Prior art keywords
neural networks
convolutional neural
convolution
depth convolutional
conv
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201811064277.5A
Other languages
English (en)
Inventor
吴进
钱雪忠
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Jiangnan University
Original Assignee
Jiangnan University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Jiangnan University filed Critical Jiangnan University
Priority to CN201811064277.5A priority Critical patent/CN109299733A/zh
Publication of CN109299733A publication Critical patent/CN109299733A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2413Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on distances to training or reference patterns

Landscapes

  • Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Image Analysis (AREA)

Abstract

本发明涉及一种利用紧凑型深度卷积神经网络进行图像识别的方法。针对深度卷积神经网络的结构越来越复杂,参数规模过于庞大的问题,设计出一种新的紧凑型卷积神经网络结构Width‑MixedNet和其多分支的基本模块Conv‑mixed,该架构扩展了卷积神经网络的宽度。在深度卷积神经网络的识别任务中,使用多个小型卷积层叠加,逐层缩小特征图的方法代替全连接层作最后的特征提取。分别在CIFAR‑10、CIFAR‑100和MNIST数据集上进行实验,结果表明,Width‑MixedNet有更强的学习能力和表现能力,在提高识别精度的同时,大大降低了网络的参数规模。

Description

利用紧凑型深度卷积神经网络进行图像识别的方法
技术领域
本发明涉及神经网络,特别是涉及利用紧凑型深度卷积神经网络进行图像识别的方法。
背景技术
深度神经网络在图像识别领域取得了突破性的进展,但是网络的参数规模越来越大,参数量达到百万级,甚至千万级,不利于应用。为了更好地解决这个问题,一种方式是压缩现有的CNN模型,Howard[1]等人提出的基于深度可分离的卷积结构MoblieNet,引入了传统网络中原先采用的group思想,即限制滤波器的卷积计算只针对特定的group中的输入,将标准卷积分离成一个深度卷积和一个点卷积极大程度的降低了卷积计算,同时提升了计算速度。基于MobileNet的group思想,ShuffleNet[2]将输入的group打散,结合深度可分离卷积代替类似于ResNetblock单元构成了ShuffleNet单元,解决了多个group叠加出现的边界效应,减少了计算量,增强了网络的表现力。Theis[3]等人通过使用对角Fisher信息值在尽量避免训练损失的前提下一次去掉一个卷积的特征图的方法来剪枝。
另一种方式是权值压缩,Han[4]等人基于权值聚类的方法将连续分散的权值离散化,从而减少需要存储的权值数量,并采用Huffman encoding将平均编码长度减少实现减小模型尺寸的目的,最后采用CSR(Compressed Sparse Row)来存储。Rastegari等人提出的XNOR-Net[5]输入和输出都量化成二值,将输入数据先进行BN归一化处理,接着进行二值化的卷积操作,实现32倍的存储压缩同时训练速度得到58倍的提升。
发明内容
基于此,有必要针对上述技术问题,提供一种利用紧凑型深度卷积神经网络进行图像识别的方法。
一种利用紧凑型深度卷积神经网络进行图像识别的方法,利用以下的紧凑型深度卷积神经网络实现:
所述紧凑型深度卷积神经网络包含一种新的基本模块Conv-mixed,其中,前一层的输出(Previous layer)作为Conv-mixed的输入,输入共有5个分支,分别为:P-C0-C1-C2,P-C3-C4-C5,P-C6,P-A-C7,P-C8;C8之后又是2个分支C8-C9和C8-C9,最后各个分支在输出通道上合并;在每一次的卷积操作之前,都对其输入进行Batch Normalization正则化,所有的卷积都采用ReLU激活函数进行非线性化;在分支结构里加入空洞卷积;
在深度卷积神经网络的识别任务中,使用多个小型卷积层叠加,逐层缩小特征图的方法代替全连接层作最后的特征提取;
在Conv-mixed结构之前,先使用了少量的普通卷积和最大池化;优化Width-MixedNet架构时,在Conv-mixed合并多通道的特征图后面使用了多个1×1的卷积,在最后的Conv-mixed结构之后是多个小型卷积层堆叠代替全连接层,作为最后的特征提取。
上述利用紧凑型深度卷积神经网络进行图像识别的方法,在深度卷积神经网络的识别任务中,使用多个小型卷积层叠加,逐层缩小特征图的方法代替全连接层作最后的特征提取。分别在CIFAR-10、CIFAR-100和MNIST数据集上进行实验,结果表明,Width-MixedNet有更强的学习能力和表现能力,在提高识别精度的同时,大大降低了网络的参数规模。
一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现任一项所述方法的步骤。
一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现任一项所述方法的步骤。
一种处理器,所述处理器用于运行程序,其中,所述程序运行时执行任一项所述的方法。
附图说明
图1为本申请实施例提供的一种利用紧凑型深度卷积神经网络进行图像识别的方法中Inception模块的示意图。
图2为本申请实施例提供的一种利用紧凑型深度卷积神经网络进行图像识别的方法Fire模块的示意图。
图3为本申请实施例提供的一种利用紧凑型深度卷积神经网络进行图像识别的方法中Conv-mixed模块的示意图。
图4为本申请实施例提供的一种利用紧凑型深度卷积神经网络进行图像识别的方法中模块普通卷积和空洞卷积的对比的示意图。
图5为本申请实施例提供的一种利用紧凑型深度卷积神经网络进行图像识别的方法中FCN中将全连接层转换为卷积层,参数数量为1.5M的示意图。
图6为本申请实施例提供的一种利用紧凑型深度卷积神经网络进行图像识别的方法中多个小型卷积堆叠代替全连接,参数数量为0.25M的示意图。
图7为本申请实施例提供的一种利用紧凑型深度卷积神经网络进行图像识别的方法中深度卷积神经网络架构Width-MixedNet的示意图。
图8为本申请实施例提供的一种利用紧凑型深度卷积神经网络进行图像识别的方法中CIFAR-10的交叉熵损失函数的折线图。
图9为本申请实施例提供的一种利用紧凑型深度卷积神经网络进行图像识别的方法中MNSIT的交叉熵损失函数的折线图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
本发明鉴于CNN结构的压缩理论,分析了现有的不同的CNN结构模型,设计了多分支的Conv-mixed结构,并设计了新的紧凑型深度卷积神经网络架构Width-MixedNet,分别在CIFAR-10、CIFAR-100和MNIST数据集上进行实验,结果表明,Width-MixedNet在参数规模远低于其他深度神经网络结构的情况下,取得了更好的效果。
传统的深度卷积神经网络都是以convolutions-pooling stack起来的直线型结构,比如2012年Alex Krizhevsky[6]提出的由5个convolution层和3个full-connection层堆叠成的AlexNet,2014年Visual Geometry Group和Google DeepMind研发的由3x3的小型卷积核反复堆叠的19层VGGNet[7],之后由微软训练的多达152层的ResNet[8]。上述的深度卷积神经网络的深度的逐渐加深,虽然达到的精度也越来越高,伴随而来的是网络的参数越来越庞大,容易导致过拟合,计算量也变得相当大,难以应用,并且网络越深,容易导致梯度消失,模型难以优化。为了深度神经网络能在有硬件条件限制的平台上能够广泛应用(比如自动驾驶汽车、无人机、VR设备等),紧凑型的网络模型设计引起了很多关注。
为了让深度卷积神经网络有更好的提取特征和学习能力,最直接有效的方法是增加卷积层的通道,但这会增加整个网络的计算量,容易导致过拟合。因为卷积神经网络中每一个输出通道只对应一个卷积核,同一个层参数共享,因此一个输出通道只能提取一种特征。在文献[9]中提出的MLPConv代替传统的卷积层,将输出通道之间信息进行组合,相当于普通卷积层之后再连接1×1的卷积核ReLU激活函数,因为内核为1×1的卷积层只有一个参数,只需要很小的计算量就可以提取一层特征,增加一层网络的非线性化。
在2014年ILSVRC的比赛中,Google Inception Net[10]以较大的优势夺冠,值得注意的是,InceptionNet精心设计的Inception Module(如图1所示),先将前一层输出的特征图(Previous layers)分别作为1×1、3×3和5×5的卷积层和一个max pooling层的输入,然后各个分支在输出通道上合并(Concatenation),作为下一个Inception Module的输入,这种由Inception Module stack成的深层网络结构,对宽度进行了高效的扩充和利用,提高了准确率并且不至于过拟合。
最近的研究开始直接设计紧凑型的网络架构:SqueezeNet[11],论文提到的FireModule(如图2所示),先将前一层的输出特征图(Previous layers)作为由3个1×1卷积组成的squeeze层的输入,在输出通道上合并之后,再作为由4个1*1和4个3*3的卷积组成的expand层的输入,接着在输出通道上合并作为下一个Fire Module的输入。SqueezeNet达到了AlexNet相同的精度水平,同时SqueezeNet的模型大小只有AlexNet的1/50。
受到所述观察的启发,我们提出了一种紧凑的DNN结构,其中包含一种新的基本模块Conv-mixed。图3是整个网络模型中的一个Conv-mixed结构,前一层的输出(Previouslayer)作为Conv-mixed的输入,输入共有5个分支,分别为:P-C0-C1-C2,P-C3-C4-C5,P-C6,P-A-C7,P-C8。C8之后又是2个分支C8-C9和C8-C9,最后各个分支在输出通道上合并。参数k和s表示内核大小和步长,参数r表示空洞卷积的扩张率,在每一次的卷积操作之前,都对其输入进行Batch Normalization正则化,所有的卷积都采用ReLU激活函数进行非线性化。
在图像数据中,临近区域的数据相关性高,卷积神经网络中每一个输出通道对应一个滤波器,只能提取一类特征,因此我们使用分支结构使用多个不同的卷积核连接同一位置,这样可以提取多个不同的特征。文献[12]中提出:如果数据集的概率分布可以被一个很大很稀疏的神经网络所表达,那么构筑这个网络的最佳方式就是逐层构筑,即将上一层高度相关(correlated)的节点聚类,并将聚类出来的每一个小簇(cluster)连接到一起。我们设计出的Conv-mixed这种多分支结构,将相关性高的节点连接在一起,构建了很高效的符合上述理论的稀疏结构。
图4为了增加提取特征的多样性,我们使用了1×3、3×1和3×3三种不同尺寸的卷积内,但是相比于大型的卷积比如5×5和7×7,小型卷积的计算量虽然小,但是感受视野也小,为了弥补这个缺陷,我们在分支结构里加入了Dilated Convolutions[13]即空洞卷积,普通卷积和空洞卷积的对比如图4所示,
左边是内核kernel=3的普通卷积,相当于kernel=3、膨胀系数r=1的空洞卷积;右边是kernel=3、r=2的空洞卷积,相当于kernel=7的普通卷积。膨胀系数r表示每个像素之间填充r-1个0。在通道数相同的情况下,图4左边的普通卷积和右边的空洞卷积参数量相同,但是在同一层的感受视野却不同,感受视野公式如下:
F(r)=(2r+1-1)×(2r+1-1)
其中,r表示膨胀系数,F(r)表示最终的感受视野,例如图4中左边普通卷积在这层的感受视野为:F(r=1)=3×3,右边r=2的空洞卷积感受视野为F(r=2)=7×7。可以推算:经过卷积层叠加之后,2层的3×3的普通卷积转换相当于1层5×5的卷积,2层3×3、r=2的空洞卷积,相当于1层13×13的普通卷积。
逐层卷积代替全连接层
传统的深度卷积神经网络在最后一个卷积之后使用全连接层(FC,FullConnection)将特征向量化进行图像分类,但是全连接层的参数量太大,在整个深度卷积神经网络中占的比重过多,一方面增加了计算量,另一方面容易导致过拟合。以用作“ImageNet”[14]分类任务的AlexNet为例,经计算,整个网络的参数数量有6.1M,后面的3个全连接层参数量有5.86M,可以说全连接层的计算量几乎占据了整个网络。虽然AlexNet之后的深度卷积神经网络(比如VGGNet、GoogleNet等)中全连接层的参数量占整个网络的比重没有这么多,是因为都加深了网络的深度,只增加了卷积层的数量,后面的全连接层并没有增加,但是全连接层的参数量依然可观。
为了解决这个问题,一种方法是在文献《Network In Network》中提出的“GAP,Global Average Pooling”方法,在最后一个卷积层之后使用1×1的卷积缩小通道数,然后对每个feature map求平均,再进行softmax,以极小的计算量达到全连接层的准确率。虽然使用了GAP的深度卷积神经网络计算量减少了,也减轻了过拟合,但是整个网络的收敛速度减慢了。
另一种方法是Long[15]等人在语义分割的任务中提出的“全卷积网络(FCN,FullyConvolutional Networks)”中将全连接层转换为卷积层,例如图5所示,假设深度卷积神经网络的最后一个卷积层的输出特征图的尺寸大小为12×12×96,全连接层的第一个隐藏层和第二个隐藏层的节点数都为1000,在连接第一个隐藏层时,需要将特征图拉伸为一个一维向量,但是FCN中将全连接转换为卷积层时,直接用内核为12×12的大型卷积核、通道数为1000的卷积层,将输出的特征变为1×1×1000,同样的,在连接第二个隐藏层时,直接用上一层的输出特征的宽度×高度的内核、通道数为1000的卷积层代替,这样就可以达到全连接层直接转换为卷积层的效果。
因为卷积层共享了大量的计算,权值和偏置有自己的范围,所以转换为卷积层后加快了整个网络的运算速度。一个全连接层转换为卷积层的参数计算方法如下:
一个全连接层转换为卷积层的参数计算方法如下:
这里kl和kd指的是卷积核的长度和宽度,Ni指的是通道数,b指的偏置。因为转换为卷积层的参数数量和全连接层的参数数量是相等的,虽然整个网络的学习能力变强了,但是参数数量并没有减少,因此我们提出了“多个小型卷积逐层缩小特征图代替全连接层”的方法,如图6所示:
与图5中的全连接层直接转换为卷积层相比,层数越深,输出的特征图的尺寸越小,因为上述FCN中提到的方法是直接使用和输出特征图“宽度×高度”一样尺寸的卷积核,那么就只有一个卷积核作用于全部区域,实际上是等效于全连接层,只是加快了计算速度,而逐层使用小型卷积核,提取的是局部区域的特征,是所有的滤波器和所有的局部区域分别进行卷积,是真正意义上的“卷积层代替全连接层”,并且计算量更小,收敛更快,参数量更少,只有全连接层的1/6。
经过初步试验,图7是我们设计的深度卷积神经网络架构Width-MixedNet。
在Conv-mixed结构之前,先使用了少量的普通卷积和最大池化,这样做可以用少量的计算将特征进行跨通道的组合,增加输出通道。为了能使整个网络的参数尽可能的少,优化Width-MixedNet架构时,在Conv-mixed合并多通道的特征图后面使用了多个1×1的卷积,这样可以把同一空间位置但是不同通道的特征组合在一起,同时可以用很小的计算量增加一层非线性化。在输出通道数相同的情况下,1×1卷积的参数量只有3×3卷积参数量的1/9、5×5的卷积参数量的1/25。
在最后的Conv-mixed结构之后是我们设计的多个小型卷积层堆叠代替全连接层,作为最后的特征提取。
实验与分析
为了验证本发明提出的深度卷积神经网络架构的性能,我们分别在数据集MNIST、Cifar-10和Cifar-100进行测试,实验使用GTX1080Ti单个GPU,实验环境TensorFlow1.4.0。采用整个网络参数数量和正确率对模型进行评价,并验证多个小型卷积逐层缩小特征图代替全连接层的性能。
CIFAR-10数据集
CIFAR-10数据集共有60K张彩色图像,图像的尺寸为32×32,分为10类,每类由5000张训练样本和1000张测试样本组成。在样本训练时,先对图像进行预处理,对每张图片进行随机翻转,设置随机的亮度和对比度,对图像随机剪切成28×28的大小,获得更多的带噪声的样本,扩充样本容量。
在cifar-10数据集中,我们使用的深度卷积神经网络框架如表1所示,表1介绍了Width-MixedNet的普通卷积(conv)、最大池化(max_pool)和Conv-mixed的详细参数,如第三列是每一层输出尺寸的宽度、高度和通道数的乘积;第四列Filter size/Stride表示普通卷积和最大池化的内核尺寸和步长;Conv-mixed的基本参数(参照图3)在第五列Featuremaps(Conv-mixed)中;最后一列Parameters列出了每一层的参数数量。初步实验表明,对于输入图像数据,在前两层使用较大的内核如7×7和5×5的普通卷积对图像处理,会使分类精度提高0.5%~1%,另外在Conv-mixed中使用较大的内核,只能将精度提高0.3%~0.7%,但是会让整体参数量提高1倍。在表1的框架中,整体参数只有0.34M,主要参数集中在最后2个Conv-mixed和代替全连接的第一个conv中,约占了整个网络参数数量的56%。
表1在CiFAR-10中Width-MixedNet的参数
表2CiFAR-10对比实验结果
表2显示了我们使用的深度卷积神经网络Width-MixedNet和其他深度卷积神经网络在Cifar-10数据集上参数数量和准确率的对比,实验表明Width-MixedNet在参数规模远低于其他深度卷积神经网络的情况下,准确率能达到较高水平。其中与SqueezeNet和FitNet相比,Width-MixedNet在准确率和参数规模上都有较大优势;与WideResNet(d=16,k=8)相比,虽然WideResNet的准确率高出2.17个百分点,但是我们的参数规模仅有WideResNet的1/30。
CIFAR-100数据集
CIFAR-100数据集和CIFAR-10数据集的组成方式基本一致,图片的大小和格式相同,但是CIFAR-100有100类,每一类的训练样本和测试样本都只有CIFAR-10的1/10,识别难度更大。在实验中,我们使用的架构和参数与CIFAR-10实验一致,只是在每个卷积层之后增加了Batch Normalization[20]正则化处理,并调整了batch大小和迭代次数。实验结果如表3所示,实验表明,Width-MixedNet在参数规模远低于其他网络结构的情况下,可以达到更高的识别准确率。
表3CIFAR-100对比实验结果
MNIST数据集
MNSIT数据集是由60K张训练样本和10K张测试样本组成的手写字体图像数据集,每个样本为28×28大小的二值图像,MNIST识别任务相对简单,为了使整个网络的参数数量尽可能的少,我们在实验CIFAR-10的结构基础上缩减了普通卷积(conv)和Conv-mixed的数量和卷积核的通道数。为了能使实验结果更直观,我们在表4中使用测试集的错误率作对比,实验表明,Width-MixedNet在参数数量较少的情况下,有更好的识别率。
表4MNIST对比实验结果
卷积层代替全连接层
为了验证多个小型卷积逐层缩小特征图代替全连接层的性能,我们在MNIST和CIFAR-10数据集上,分别比较了直接使用全连接层进行最后的特征提取的Width-MixedNet-FC、将卷积层直接转换为全连接层的Width-MixedNet-FCN和多个小型卷积层代替全连接层的Width-MixedNet-CNNs在交叉熵损失函数Loss、训练每个batch的的平均耗时和测试数据集平均每张图片的耗时。通过TensorBoard得到TensorFlow的可视化结果,TensorBoard的效果图通过Chrome浏览器查看,为了使实验结果更直观,折线图做了相应的平滑处理。
表5CIFAR-10的运行时间对比
表6MNSIT的运行时间对比
该实验中MNSIT数据集每个batch大小为50,迭代1500次,CIFAR-10数据集每个batch大小为128,迭代5000次。如图8和图9的折线图所示,Width-MixedNet-CNNs交叉熵损失Loss下降速度最快,值最小,效果最好Width-MixedNet-FC交叉熵损失Loss下降速度最慢,虽然Width-MixedNet-FC和Width-MixedNet-FCN的参数数量相同,但是Width-MixedNet-FCN的表现能力和学习能力更强。不同的网络结构训练每个batch的时间、测试每张图片的时间和测试的准确率如表5和表6所示,实验表明,Width-MixedNet-CNNs在训练每个batch的时间最短,测试每张图片的时间最短,同时达到更高的准确率。
本发明针对现有的深度神经网络参数数量过于庞大的问题,分析了现有的深度神经网络的不同结构,设计了一种紧凑型的高效深度卷积神经网络架构Width-MixedNet,其多种不同卷积层组成多分支的基本模块Conv-mixed,在卷积神经网络的宽度上进行扩充,提高了网络在同一层中提取不同特征的能力,并且在深度神经网络的最后分类任务中,改进了FCN中将全连接层直接转换为卷积层的方法,使用多个小型卷积层逐层缩小特征图的规模的方法代替全连接层,进一步减少了网络的参数数量,提高了网络的表现能力和学习能力。实验结果表明,Width-MixedNet在参数规模远低于其他深度卷积神经网络的情况下,可以达到更好的效果。
本发明提出的紧凑型结构Width-MixedNet,其学习能力强、参数规模小的特点适合部署移动平台例如可穿戴设备、智能家具和无人机上,之后的工作中,我们将进一步研究Width-MixedNet在目标检测、图像分割等领域中的表现和Width-MixedNet部署在移动设备上的可行性。
[1]Howard A G,Zhu M,Chen B,et al.MobileNets:Efficient ConvolutionalNeural Networks forMobile VisionApplications[J].2017.
[2]Zhang X,Zhou X,Lin M,et al.ShuffleNet:An Extremely EfficientConvolutionalNeuralNetwork forMobile Devices[J].2017.
[3]Theis L,Korshunova I,Tejani A,et al.Faster gaze prediction withdense networks and Fisherpruning[J].2018.
[4]Han S,Mao H,Dally W J.Deep Compression:Compressing Deep NeuralNetworks with Pruning,Trained Quantization and Huffman Coding[J].Fiber,2015,56(4):3--7.
[5]Rastegari M,Ordonez V,Redmon J,et al.XNOR-Net:ImageNetClassificationUsing Binary ConvolutionalNeural Networks[J].2016:525-542.
[6]Krizhevsky A,Sutskever I,Hinton G E.ImageNet classification withdeep convolutional neural networks[C]//International Conference on NeuralInformation Processing Systems.CurranAssociates Inc.2012:1097-1105.
[7]Simonyan K,Zisserman A.Very Deep Convolutional Networks for Large-Scale Image Recognition[J].Computer Science,2014.
[8]He K,Zhang X,Ren S,et al.Deep Residual Learning for ImageRecognition[J].2015:770-778.
[9]Lin M,Chen Q,Yan S.Network InNetwork[J].Computer Science,2013.
[10]Szegedy C,LiuW,JiaY,et al.Going deeper with convolutions[J].2014:1-9.
[11]Iandola F N,Han S,Moskewicz M W,et al.SqueezeNet:AlexNet-levelaccuracy with 50x fewerparameters and<0.5MB model size[J].2016.
[12]Arora S,BhaskaraA,Ge R,et al.Provable Bounds for Learning SomeDeep Representations[J].2013:584-592.
[13]Yu F,Koltun V.Multi-Scale Context Aggregation by DilatedConvolutions[J].2016.
[14]Deng J,Dong W,Socher R,et al.ImageNet:A large-scale hierarchicalimage database[C]//Computer Vision and Pattern Recognition,2009.CVPR2009.IEEE Conference on.IEEE,2009:248-255.
[15]Wu X.Fully Convolutional Networks for Semantic Segmentation[J].Computer Science,2015.
[16]Roy D,Panda P,Roy K.Tree-CNN:A Hierarchical Deep ConvolutionalNeural Network for Incremental Learning[J].2018.
[17]Goodfellow I J,Wardefarley D,Mirza M,et al.Maxout Networks[J].Computer Science,2013:1319-1327.
[18]Romero A,Ballas N,Kahou S E,et al.FitNets:Hints for Thin DeepNets[J].Computer Science,2014.
[19]Zagoruyko S,Komodakis N.Wide Residual Networks[J].2016.
[20]Ioffe S,Szegedy C.Batch Normalization:Accelerating Deep NetworkTraining by Reducing Internal Covariate Shift[J].2015:448-456.
[21]Zeiler M D,Fergus R.Stochastic Pooling for Regularization of DeepConvolutional Neural Networks[J].EprintArxiv,2013.
[22]Wang D,Lane N D,et al.X-CNN:Cross-modal ConvolutionalNeural Networks for Sparse Datasets[J].2016:1-8.
以上所述实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
以上所述实施例仅表达了本发明的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干变形和改进,这些都属于本发明的保护范围。因此,本发明专利的保护范围应以所附权利要求为准。

Claims (4)

1.一种利用紧凑型深度卷积神经网络进行图像识别的方法,其特征在于,利用以下的紧凑型深度卷积神经网络实现:
所述紧凑型深度卷积神经网络包含一种新的基本模块Conv-mixed,其中,前一层的输出(Previous layer)作为Conv-mixed的输入,输入共有5个分支,分别为:P-C0-C1-C2,P-C3-C4-C5,P-C6,P-A-C7,P-C8;C8之后又是2个分支C8-C9和C8-C9,最后各个分支在输出通道上合并;在每一次的卷积操作之前,都对其输入进行BatchNormalization正则化,所有的卷积都采用ReLU激活函数进行非线性化;在分支结构里加入空洞卷积;
在深度卷积神经网络的识别任务中,使用多个小型卷积层叠加,逐层缩小特征图的方法代替全连接层作最后的特征提取;
在Conv-mixed结构之前,先使用了少量的普通卷积和最大池化;优化Width-MixedNet架构时,在Conv-mixed合并多通道的特征图后面使用了多个1×1的卷积,在最后的Conv-mixed结构之后是多个小型卷积层堆叠代替全连接层,作为最后的特征提取。
2.一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现权利要求1所述方法的步骤。
3.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现权利要求1所述方法的步骤。
4.一种处理器,其特征在于,所述处理器用于运行程序,其中,所述程序运行时执行权利要求1所述的方法。
CN201811064277.5A 2018-09-12 2018-09-12 利用紧凑型深度卷积神经网络进行图像识别的方法 Pending CN109299733A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201811064277.5A CN109299733A (zh) 2018-09-12 2018-09-12 利用紧凑型深度卷积神经网络进行图像识别的方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201811064277.5A CN109299733A (zh) 2018-09-12 2018-09-12 利用紧凑型深度卷积神经网络进行图像识别的方法

Publications (1)

Publication Number Publication Date
CN109299733A true CN109299733A (zh) 2019-02-01

Family

ID=65166921

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201811064277.5A Pending CN109299733A (zh) 2018-09-12 2018-09-12 利用紧凑型深度卷积神经网络进行图像识别的方法

Country Status (1)

Country Link
CN (1) CN109299733A (zh)

Cited By (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110188776A (zh) * 2019-05-30 2019-08-30 京东方科技集团股份有限公司 图像处理方法及装置、神经网络的训练方法、存储介质
CN110335344A (zh) * 2019-06-20 2019-10-15 中国科学院自动化研究所 基于2d-3d注意机制神经网络模型的三维重建方法
CN110717905A (zh) * 2019-09-30 2020-01-21 上海联影智能医疗科技有限公司 脑部图像检测方法、计算机设备和存储介质
CN110728354A (zh) * 2019-09-11 2020-01-24 东南大学 一种改进的滑动式分组卷积神经网络
CN111028160A (zh) * 2019-11-21 2020-04-17 西北工业大学 一种基于卷积神经网络的遥感图像噪声抑制方法
CN111832336A (zh) * 2019-04-16 2020-10-27 四川大学 一种基于改进的c3d视频行为检测方法
WO2020244261A1 (zh) * 2019-06-05 2020-12-10 中国科学院长春光学精密机械与物理研究所 高分辨率遥感图像的场景识别系统及模型生成方法
CN113011556A (zh) * 2021-02-20 2021-06-22 安徽大学 基于INC-DenseUnet网络识别模型建立方法
CN113190852A (zh) * 2021-05-31 2021-07-30 贵州师范学院 一种基于轻量级深度网络模型的计算机病毒检测方法
CN113313056A (zh) * 2021-06-16 2021-08-27 中国科学技术大学 基于紧致3d卷积的唇语识别方法、系统、设备及存储介质
CN113468966A (zh) * 2021-06-01 2021-10-01 江苏大学 一种用于液压轴向柱塞泵智能故障诊断的深度卷积神经网络模型
CN113571199A (zh) * 2021-09-26 2021-10-29 成都健康医联信息产业有限公司 医疗数据分类分级方法、计算机设备及存储介质
CN114115535A (zh) * 2021-11-12 2022-03-01 华东计算技术研究所(中国电子科技集团公司第三十二研究所) 基于银河锐华移动操作系统的眼动追踪、识别方法及系统
WO2022111231A1 (zh) * 2020-11-26 2022-06-02 中兴通讯股份有限公司 Cnn训练方法、电子设备和计算机可读存储介质

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104850845A (zh) * 2015-05-30 2015-08-19 大连理工大学 一种基于非对称卷积神经网络的交通标志识别方法
CN107644221A (zh) * 2017-10-31 2018-01-30 南京航空航天大学 基于参数压缩的卷积神经网络交通标志识别方法
CN107909095A (zh) * 2017-11-07 2018-04-13 江苏大学 一种基于深度学习的图像识别方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104850845A (zh) * 2015-05-30 2015-08-19 大连理工大学 一种基于非对称卷积神经网络的交通标志识别方法
CN107644221A (zh) * 2017-10-31 2018-01-30 南京航空航天大学 基于参数压缩的卷积神经网络交通标志识别方法
CN107909095A (zh) * 2017-11-07 2018-04-13 江苏大学 一种基于深度学习的图像识别方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
CHRISTIAN SZEGEDY 等: "Going Deeper with Convolutions", 《2015 IEEE CONFERENCE ON COMPUTER VISION AND PATTERN RECOGNITION》 *
孟宏伟: "三维模型分割技术在数字牙齿医疗领域的应用研究", 《中国优秀硕士学位论文全文数据库 卫生医药科技辑》 *

Cited By (19)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111832336B (zh) * 2019-04-16 2022-09-02 四川大学 一种基于改进的c3d视频行为检测方法
CN111832336A (zh) * 2019-04-16 2020-10-27 四川大学 一种基于改进的c3d视频行为检测方法
US11908102B2 (en) 2019-05-30 2024-02-20 Boe Technology Group Co., Ltd. Image processing method and device, training method of neural network, and storage medium
CN110188776A (zh) * 2019-05-30 2019-08-30 京东方科技集团股份有限公司 图像处理方法及装置、神经网络的训练方法、存储介质
WO2020244261A1 (zh) * 2019-06-05 2020-12-10 中国科学院长春光学精密机械与物理研究所 高分辨率遥感图像的场景识别系统及模型生成方法
CN110335344A (zh) * 2019-06-20 2019-10-15 中国科学院自动化研究所 基于2d-3d注意机制神经网络模型的三维重建方法
CN110728354A (zh) * 2019-09-11 2020-01-24 东南大学 一种改进的滑动式分组卷积神经网络
CN110728354B (zh) * 2019-09-11 2024-04-09 东南大学 一种基于改进的滑动式分组卷积神经网络的图像处理方法
CN110717905B (zh) * 2019-09-30 2022-07-05 上海联影智能医疗科技有限公司 脑部图像检测方法、计算机设备和存储介质
CN110717905A (zh) * 2019-09-30 2020-01-21 上海联影智能医疗科技有限公司 脑部图像检测方法、计算机设备和存储介质
CN111028160A (zh) * 2019-11-21 2020-04-17 西北工业大学 一种基于卷积神经网络的遥感图像噪声抑制方法
WO2022111231A1 (zh) * 2020-11-26 2022-06-02 中兴通讯股份有限公司 Cnn训练方法、电子设备和计算机可读存储介质
CN113011556A (zh) * 2021-02-20 2021-06-22 安徽大学 基于INC-DenseUnet网络识别模型建立方法
CN113011556B (zh) * 2021-02-20 2022-10-11 安徽大学 基于INC-DenseUnet网络识别模型建立方法
CN113190852A (zh) * 2021-05-31 2021-07-30 贵州师范学院 一种基于轻量级深度网络模型的计算机病毒检测方法
CN113468966A (zh) * 2021-06-01 2021-10-01 江苏大学 一种用于液压轴向柱塞泵智能故障诊断的深度卷积神经网络模型
CN113313056A (zh) * 2021-06-16 2021-08-27 中国科学技术大学 基于紧致3d卷积的唇语识别方法、系统、设备及存储介质
CN113571199A (zh) * 2021-09-26 2021-10-29 成都健康医联信息产业有限公司 医疗数据分类分级方法、计算机设备及存储介质
CN114115535A (zh) * 2021-11-12 2022-03-01 华东计算技术研究所(中国电子科技集团公司第三十二研究所) 基于银河锐华移动操作系统的眼动追踪、识别方法及系统

Similar Documents

Publication Publication Date Title
CN109299733A (zh) 利用紧凑型深度卷积神经网络进行图像识别的方法
Wu et al. Shift: A zero flop, zero parameter alternative to spatial convolutions
Howard et al. Mobilenets: Efficient convolutional neural networks for mobile vision applications
Jiang et al. Rednet: Residual encoder-decoder network for indoor rgb-d semantic segmentation
Qassim et al. Compressed residual-VGG16 CNN model for big data places image recognition
CN110188239B (zh) 一种基于跨模态注意力机制的双流视频分类方法和装置
CN107704866B (zh) 基于新型神经网络的多任务场景语义理解模型及其应用
CN108154194B (zh) 一种用基于张量的卷积网络提取高维特征的方法
CN109934241B (zh) 可集成到神经网络架构中的图像多尺度信息提取方法
WO2021018163A1 (zh) 神经网络的搜索方法及装置
CN108510012A (zh) 一种基于多尺度特征图的目标快速检测方法
Li et al. Hbonet: Harmonious bottleneck on two orthogonal dimensions
CN108961253A (zh) 一种图像分割方法和装置
Ye et al. Drinet: A dual-representation iterative learning network for point cloud segmentation
CN112561027A (zh) 神经网络架构搜索方法、图像处理方法、装置和存储介质
Li et al. Data-driven neuron allocation for scale aggregation networks
CN111582091B (zh) 基于多分支卷积神经网络的行人识别方法
Park et al. C3: Concentrated-comprehensive convolution and its application to semantic segmentation
JP7085600B2 (ja) 画像間の類似度を利用した類似領域強調方法およびシステム
CN114170311A (zh) 一种双目立体匹配方法
Zhao et al. Thumbnet: One thumbnail image contains all you need for recognition
CN112036454A (zh) 一种基于多核密集连接网络的图像分类方法
Jiang et al. An improved action recognition network with temporal extraction and feature enhancement
Wei et al. Lightweight multimodal feature graph convolutional network for dangerous driving behavior detection
CN112488117A (zh) 一种基于方向诱导卷积的点云分析方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20190201