CN107437096B - 基于参数高效的深度残差网络模型的图像分类方法 - Google Patents

基于参数高效的深度残差网络模型的图像分类方法 Download PDF

Info

Publication number
CN107437096B
CN107437096B CN201710628311.6A CN201710628311A CN107437096B CN 107437096 B CN107437096 B CN 107437096B CN 201710628311 A CN201710628311 A CN 201710628311A CN 107437096 B CN107437096 B CN 107437096B
Authority
CN
China
Prior art keywords
network
layer
residual error
depth
network model
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201710628311.6A
Other languages
English (en)
Other versions
CN107437096A (zh
Inventor
林通
朱富勇
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Peking University
Original Assignee
Peking University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Peking University filed Critical Peking University
Priority to CN201710628311.6A priority Critical patent/CN107437096B/zh
Publication of CN107437096A publication Critical patent/CN107437096A/zh
Application granted granted Critical
Publication of CN107437096B publication Critical patent/CN107437096B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches

Landscapes

  • Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Image Analysis (AREA)

Abstract

本发明公布了一种基于参数高效的深度残差网络模型的图像分类方法,根据网络的深度、宽度、多样性和基数,建立具有参数高效性的改进的网络模型,用于高效地进行图像分类识别;包括:将图像数据分为训练样本和测试样本;对训练样本图像进行预处理;构建具有参数高效性的深度残差网络模型,并进行模型训练:构建得到的网络模型包括深度金字塔残差网络模型、嵌套网络模型、三角形网络模型;将经过预处理的训练样本对网络模型分别进行训练,得到训练好的网络模型;对测试样本进行识别,分别得到预测的分类标签;由此实现图像分类识别。

Description

基于参数高效的深度残差网络模型的图像分类方法
技术领域
本发明属于模式识别、机器学习、人工智能领域,涉及图像分类方法,具体涉及基于参数高效的深度残差网络模型的图像分类方法。
背景技术
深度学习(Deep Learning)是目前人工智能领域最热门的话题,在机器学习中起着十分重要的作用。最近几年里,深度学习发展迅猛,在诸多领域里都取得了十分可观的成绩,尤其是在语音识别和图像识别领域,远远超越了相关的传统技术。深度学习的动机在于建立和模拟人脑的分层结构来解决机器学习问题,它是一种特征学习方法,原始数据通过多个简单但非线性的处理层转变成为更高层次的,更加抽象的表达。通过足够多的非线性变换的组合,深度学习可以学习非常复杂的函数。
2006年,Geoffrey Hinton和他的学生Salakhutdinov提出了深度网络和深度学习的概念,使得深度学习掀起了机器学习的又一次浪潮,从此受到广泛关注。数据、模型和计算能力推动了深度学习的蓬勃发展。首先,我们现在处于大数据时代,大规模训练数据的出现在很大程度上缓解了训练过拟合的问题,并且使得深度学习可以在各个领域内施展身手,例如图像识别领域的ImageNet,推荐领域的NetFlix,机器阅读理解领域的MS MARCO等。其次,网络模型的设计和优化方法都取得了很大的进步,深度学习能够发现大规模数据中的复杂结构,并利用反向传播算法(Back Propagation,BP)来根据前一层获取的误差改变当前层的参数,深度卷积神经网络(Deep Convolutional Neural Networks,DCNN)在处理图像、视频和语音等方面带来了突破,而递归神经网络(Recurrent Neural Networks,RNN)在处理序列数据,比如文本和语音方面表现的极为优秀,批量归一化(BatchNormaliazation,BN),Dropout,权重归一化(Weight Normaliazation,WN)等方法都有效地加速了网络的训练并且防止了过拟合现象。最后,得益于计算机硬件的快速发展,深度学习需要大量的浮点计算以及矩阵计算,图形处理器(Graphics Processing Units,GPU)的出现为深度学习提供了这些计算能力,并且在相同的精度下,相对于传统CPU,GPU拥有更快的处理速度、更少的服务器投入和更低的功耗,这些优势使得我们可以训练大规模的神经网络。2017年,谷歌(Google)推出了自主研发的专为深度学习使用的张量处理单元(TensorProcessing Units,TPU),其浮点运算能力,相比于传统GPU和CPU分别高出了15倍和30倍之多。
深度学习在视觉领域中最直观的进展体现在ImageNet大规模视觉识别挑战赛(IamgeNet Large Scale Visual Recognition Competition,ILSVRC)中。ILSVRC旨在大规模数据上评估物体检测算法和图像分类算法,包括图像分类、单目标定位、目标检测等多项任务。在图像分类任务中,训练数据为ImageNet的一个子集,包含1000个类别,共120万张图片,验证集和测试集共15万张图片,其中5万张带标签的图片作为验证集,10万张没有公开标签的图片作为测试集,用来评估算法模型。评价标准采用top-5错误率,对于每一张图片,只有一个真实标签,算法会以置信度降序的方式预测最多五个物体类别,只要有一个与真实类别相同则认为预测正确,否则认为预测错误。
在深度学习算法出现之前,传统视觉算法在此任务上获得的最低的错误率是XRCE在ILSVRC 2011中取得的25.8%,为当时的冠军;而ILSVRC 2010年的第一名NEC当时的成绩是28.2%。在ILSVRC 2012比赛中,Hinton等人提出的AlexNet把错误率降到了16.4%,比当时的第二名取得的26.2%的错误率低了近十个百分点(接近于错误率减半),至此深度学习开始活跃于各个领域。在ILSVRC 2013比赛中,排名前二十的小组使用的都是深度网络,Matthew Zeiler等人提出的Clarifai通过CNN模型可视化技术调整网络架构,取得了11.7%的错误率,获得图像分类任务冠军。在ILSVRC 2014比赛中,图像分类任务冠军是Google提出的GoogLeNet,将错误率降到了6.7%,GoogLeNet大大增加了网络了深度,共有22层,并且取消了占据大量参数的全连接层,这使得网络模型大大缩小,并且防止了过拟合。在ILSVRC 2015比赛中,MSRA提出的ResNet引入了直通路径,将错误率降低到了3.57%,网络深度达到152层,残差网络的出现使得训练更深层数的网络成为可能。在ILSVRC 2016比赛中,公安部第三研究所提出的“搜神(Trimps-Soushen)”通过集成Inception,Inception-ResNet,ResNet和Wide ResNet等网络以2.99%的错误率在图像分类任务上表现最优。
深度神经网络的训练大多采用反向传播算法,反向传播算法利用链式法则通过后面一层传来的误差来对当前层参数进行更新,这在网络很深的时候会遭遇梯度消失(Gradient Vanishing)的问题,或者更广义地称为不稳定梯度问题。在深度网络中,由于网络很深,基于链式法则的反向传播算法导致梯度是不稳定的,尤其是在前面的网络层中,梯度或会消失,或会激增,这种不稳定性使得深度神经网络难以训练。
残差网络通过从一层到另一层之间引入直通路径(shortcut connections),使中间的旁路只需拟合更易拟合的残差,由于多层非线性网络相比于拟合恒等映射,更容易拟合零值网络,因此这些通路连接使我们可以更容易地训练几百层甚至千层的极深网络,并且取得十分优异的结果。然而,Viet等人认为深度残差网络只是指数个浅层网络的集成,并没有解决深度网络梯度衰减的问题,110层残差网络的“有效路径”只有10-34层,大部分梯度来自于这些“有效路径”,而那些极深的路径贡献的梯度微乎其微,并且,若要取得一点效果的提升,就需要大量的增加网络的深度,使得训练难度加大,训练效果较低。
发明内容
为了克服上述现有技术的不足,本发明提供基于参数高效的深度残差网络模型的图像分类方法,根据网络的深度、宽度、多样性以及基数等因素设计更有效的网络模型,建立具有参数高效性的改进深度残差网络结构模型,用于高效地进行图像分类与识别等视觉分析。
本发明主要针对残差网络提出了三种具有参数高效性的改进模型:一是结合了密集连接的深度残差网络和深度金字塔残差网络的密集连接的深度金字塔残差网络,二是基于浅层网络框架的嵌套网络,三是由嵌套网络衍生而成的三角形网络。三种模型均采用残差模块作为基础模块,输入为图像数据及其对应标签,输出为图像的预测分类。
本发明提供的技术方案是:
一种基于参数高效的深度残差网络模型的图像分类方法,根据网络的深度、宽度、多样性以及基数等因素设计更有效的网络模型,建立具有参数高效性的改进模型,用于高效地进行图像识别等视觉分析;包括如下步骤:
1)将图像数据分为训练样本和测试样本;
2)对训练样本图像进行预处理,可采用标准图像增强技术,如在图像每边增加4个零值像素,再进行随机裁剪,即对原图平移4个像素;对图像进行随机水平翻转;
3)构建网络模型并进行训练:构建得到的网络模型为具有参数高效性的深度残差网络模型,分别为深度金字塔残差网络模型、嵌套网络模型、三角形网络模型;将经过预处理的训练样本通过本发明提出的网络模型分别进行训练,得到训练好的密集连接的深度金字塔残差网络模型、嵌套网络模型、三角形网络模型。
本发明具体实施时,均使用反向传播算法,用带Nesterov动量的随机梯度下降算法进行模型训练。每一个模型训练过程迭代300轮。批大小为64,即每64张图片为一个批次。学习速率初始值为0.1,在训练过程的1/2处和3/4处分别乘以因子1/10,即在1~149轮学习速率为0.1,在150~224轮学习速率为0.01,在225~300轮学习速率为0.001。卷积参数初始化使用“msra”(Microsoft Research Asia,微软亚洲研究院)初始化方式。权重衰减因子为10-4,动量为0.9,衰减到0。三种模型均可在深度学习框架Torch 7下实现。
31)构造密集连接的深度金字塔残差网络(Densely Connected PyramidalNetworks,DensePyramids):
在深度金字塔残差网络(PyramidNet)中引入密集连接DenseNet,在任意两个残差模块之间引入直通连接,加强特征复用;或者在密集连接的深度残差网络(DenseNet)中逐渐增加每一层的输出特征图维度;由此构造得到密集连接的深度金字塔残差网络,加强特征传递和特征复用,避免梯度消失问题并显著减少参数。
具体实施时,在密集连接的深度金字塔残差网络中,输入数据通过一个卷积层来提升维度,送入若干个残差模块,最后经池化层和全连接层得到输出标签,少部分密集连接的深度金字塔残差网络中的残差模块使用了DenseNet中的普通残差模块,大部分采用DenseNet中的带瓶颈的残差模块(Bottleneck)。密集连接的深度金字塔残差网络分为相同拓扑结构的三块,每一块内使用密集连接,块与块之间由过渡层连接,过渡层起到下采样和压缩特征图维度的作用,压缩比率采用0.5或1,等于1时即不进行压缩。密集连接的深度金字塔残差网络层数为40层或100层,增长速率k初始值为12,增长速率k的增长速率p的值可取2、4、6、12不等。
32)构造嵌套网络(Nested Network,NestNet)并训练:
321)基于多层感知机(Multi-Layer Perceptron,MLP)结构,在宿主网络的每一个节点中嵌入多个相同或者不同的小网络(称为嵌入网络),或堆叠多个网络模块;
322)可在不同的宿主网络节点中嵌套不同的嵌入网络,形成嵌套网络,生成高性能的网络结构;
323)嵌套网络中每一个节点的输出是特征图,节点变换操作由卷积模块完成,每一层节点的输出的特征图都作为下一层节点的输入;由于嵌入网络被嵌套到宿主网络的节点中,因此我们称这个网络结构为嵌套网络(Nested Network,NestNet)。
嵌套网络是一个网络框架。宿主网络节点中嵌套的嵌入网络可以是任意形式,包括金字塔残差网络、密集连接的残差网络、普通的残差网络等等,同一网络中嵌套的嵌入网络可以有不同的类型。因此,我们可以在不同的宿主网络节点里嵌套不同的嵌入网络,结合起不同网络的优势来生成高性能的网络结构。
嵌套网络可以生成各种各样的网络。在本发明具体实施时,嵌套网络中的宿主网络为浅层网络,使用3个隐层的多层感知机做框架,每个隐层具有相同的节点数,嵌入节点中的嵌入网络形式为PyramidNet或DenseNet,深度从2层到20层不等。隐层之间由过渡层连接,过渡层起到下采样和压缩特征图维度的作用,压缩比率采用0.5。
33)构造三角形网络(Triangle Networks,TriangleNet)并训练:
嵌套网络中不同的节点可以嵌套不同的嵌入网络。三角形网络(TriangleNetworks,TriangleNet)是嵌套网络的一个特例,当在宿主网络的节点里嵌入合适的不同深度的嵌入网络就可以生成三角形网络。通过嵌入不同深度的嵌入网络,从输入到输出之间的每一层都是三角形的形状,并且三角形的大小逐层减小,因此整个网络看上去也是一个三角形的形状,所以称之为三角形网络。
一般来说,如果一个三角形网络有h层(不包括输入层和输出层),那么第i层(从输入到输出方向)有h-i+2个节点(包括一个由直通连接组成的节点),此层的第j个节点(从左到右方向,不包括直通连接节点)嵌入了一个深度为2×(h-i+1-j+1)的卷积网络。
在三角形网络里,通过同一层里不同的节点嵌入不同深度的网络来捕捉图像不同层次的信息,然后将这些不同层次的信息组合起来作为当前层的输出传递给下一层,以此来提高分类性能。
由于三角形网络里每层各个节点的输出连接起来传递给下一层,因此连接后的特征图维度对于之前的每一个节点来说都是急剧增大的过程(尤其从网络的第二层开始),这导致后续层的节点嵌套的网络会有非常宽的结构。因此我们在相邻的两层之间插入了过渡层,通过1×1的卷积操作的来降低特征图维度。降维的原则是保证网络中最深的一条通路保持金字塔的形状,即降低到当前层最深节点网络最后一层的输入维度加输出维度。同时,在整体网络的1/3和2/3深度处,过渡层会通过池化来做下采样。
本发明具体实施时,三角形网络中的残差模块采用PyramidNet中的残差模块,隐层数分别为5、7、8,层与层之间由过渡层连接,过渡层起到下采样和压缩特征图维度的作用。
4)利用步骤3)构建并训练好的具有参数高效性的深度残差网络模型,对测试样本,进行识别,得到预测的分类标签;由此实现图像分类识别。
测试样本无需经过图像预处理,可分别通过训练好的三个网络(训练好的密集连接的深度金字塔残差网络模型、嵌套网络模型、三角形网络模型)进行识别,分别得到预测的分类标签。
本发明的有益效果是:
本发明提供基于参数高效的深度残差网络模型的图像分类方法,根据网络的深度、宽度、多样性以及基数等因素设计更有效的网络模型,建立具有参数高效性的改进深度残差网络结构模型,用于高效地进行图像分类与识别等视觉分析。
本发明所提出的网络结构,可以取得与时下最流行的方法相当的结果,并且在相同的结果下,本发明提出的网络结构需要更少的参数,即具有参数高效性。
附图说明
图1是密集连接的深度金字塔残差网络的网络结构示意图;
其中,(a)为基础残差网络模块,(b)为密集连接的残差网络模块,(c)为金字塔残差网络模块,(d)为密集连接的金子塔残差网络模块。
图2是嵌套网络结构示意图;
其中,(a)为宿主网络,(b)为嵌入到节点中的嵌入网络。
图3是一个三层的三角形网络示意图;
其中,(a)为三角形网络整体结构,(b)为三角形网络中深度为3的嵌入网络结构,(c)为三角形网络中深度为2的嵌入网络结构,(d)为三角形网络中深度为1的嵌入网络结构。
图4是三角形网络中过渡层示意图;
图中上半部分为深度分别为3,2,1的小网络,每个小网络里一层内新出现的颜色为当前层新的输出,与上一层相同颜色部分为当前层的输入,虚线框为对三个网络输出的连接,维度远远大于每个网络的输出维度,因此通过过渡层将其维度降低到与当前层最深节点网络最后一层的输入维度加输出维度相同。
图5是本发明与深度残差网络及其改进模型在CIFAR-10+上的错误率和参数量之间的关系。
具体实施方式
下面结合附图,通过实施例进一步描述本发明,但不以任何方式限制本发明的范围。
本发明提供一种基于参数高效的深度残差网络模型的图像分类方法,根据网络的深度、宽度、多样性以及基数等因素设计更有效的网络模型,建立具有参数高效性的改进模型,用于高效地进行图像识别等视觉分析;包括如下步骤:
步骤1:将图像数据分为训练样本和测试样本,本实施例所用数据集为CIFAR-10数据集,由60000张大小为32×32的RGB彩色图像组成,其中训练数据50000张,测试数据10000张,数据分为10个类别,代表了自然界中的10类物体。
步骤2:对训练样本图像进行标准图像增强。标准图像增强操作包括:在图片每边增加4个零值像素,然后进行随机裁剪,即对原图平移4个像素;对图片进行随机水平翻转。
步骤3:将数据增强过的训练样本通过本发明提出的三种网络模型进行训练。
31)密集连接的深度金字塔残差网络(Densely Connected Pyramidal Networks,DensePyramids)
密集连接的深度残差网络(DenseNet)强调直通连接的重要性,通过在任意两层之间引入直通连接,加强了特征传递和特征复用,避免了梯度消失问题并显著减少了参数。深度金字塔残差网络(PyramidNet)通过在每一层都缓慢增加特征图维度的方式避免了原始残差网络中特征图维度在下采样层急剧增加的问题,将下采样层对整体网络的影响分摊到每一层,进而提高网络的泛化能力。
两种网络结构互为补充,从不同角度改进了深度残差网络的性能,因此我们把它们的优势结合起来,提出了密集连接的深度金字塔残差网络,即在深度金字塔残差网络中引入了密集连接,加强特征复用,或者在密集连接的深度残差网络中逐渐增加每一层的输出特征图维度。
32)嵌套网络(Nested Network,NestNet)
多层感知机(Multi-Layer Perceptron,MLP)是最基础的神经网络,相邻的两层中上一层中的每一个节点都与下一层中每一个节点有连接,即每一个节点都接受前一层的节点作为输入,进行加权求和并经过非线性变化传递给下一层的每个节点,每一个节点输出的是一个标量。
我们借鉴多层感知机的整体结构,在一个简单的网络(称为宿主网络)的每一个节点中嵌入一系列相同或者不同的小网络(称为嵌入网络),或者只是一些网络模块的堆叠,每一个节点的输出不再是标量而是特征图,节点做的变换也不再是简单的内积操作,而是由卷积模块完成的操作,每一层节点的输出特征图都作为下一层节点的输入。由于嵌入网络被嵌套到宿主网络的节点中,因此我们称这个网络结构为嵌套网络(Nested Network,NestNet)。
嵌套网络是一个网络框架。宿主网络节点中嵌套的网络可以是任意形式,金字塔残差网络、密集连接的残差网络、普通的残差网络等等,同一网络中嵌套的小网络可以有不同的类型。因此,我们可以在不同的节点里嵌套不同的网络,结合起他们的优势来生成高性能的网络结构。
33)三角形网络(Triangle Networks,TriangleNet)
嵌套网络中不同的节点可以嵌套不同的网络。三角形网络(Triangle Networks,TriangleNet)是嵌套网络的一个特例,当在宿主网络的节点里嵌入合适的不同深度的网络就可以生成三角形网络。通过嵌入不同深度的网络,从输入到输出之间的每一层都是三角形的形状,并且三角形的大小逐层减小,因此整个网络看上去也是一个三角形的形状,所以称之为三角形网络。
一般来说,如果一个三角形网络有h层(不包括输入层和输出层),那么第i层(从输入到输出方向)有h-i+2个节点(包括一个由直通连接组成的节点),此层的第j个节点(从左到右方向,不包括直通连接节点)嵌入了一个深度为2×(h-i+1-j+1)的卷积网络。
在传统的深度网络里,最后一层卷积层学习到的特征可以捕捉图像的高层次全局语义信息,对图像分类任务十分有用,而更前面的卷积层学习到的特征可以捕捉到图像的中间层信息或是低层信息,比如物体形状或者某个局部,这对于分类任务也同样起着作用。通过对卷积层输出可视化可以看出深度网络自然地结合了低/中/高层特征。基于这个事实,在三角形网络里,我们通过同一层里不同的节点嵌入不同深度的网络来捕捉图像不同层次的信息,然后将这些不同层次的信息组合起来作为当前层的输出传递给下一层,以此来提高分类性能。
由于三角形网络里每层各个节点的输出连接起来传递给下一层,因此连接后的特征图维度对于之前的每一个节点来说都是急剧增大的过程(尤其从网络的第二层开始),这导致后续层的节点嵌套的网络会有非常宽的结构。因此我们在相邻的两层之间插入了过渡层,通过1×1的卷积操作的来降低特征图维度。降维的原则是保证网络中最深的一条通路保持金字塔的形状,即降低到当前层最深节点网络最后一层的输入维度加输出维度。同时,在整体网络的1/3和2/3深度处,过渡层会通过池化来做下采样。
步骤4:将测试样本(无需图像预处理)分别通过训练好的三个网络进行识别,分别得到预测的分类标签。
本发明的模型都使用反向传播算法,利用带Nesterov动量的随机梯度下降算法进行训练。每一个模型训练过程迭代300轮。批数据大小为64,即每64张图片为一个批次。学习速率初始值为0.1,在训练过程的1/2处和3/4处分别乘以因子1/10,即在1~149轮学习速率为0.1,在150~224轮学习速率为0.01,在225~300轮学习速率为0.001。卷积参数初始化使用“msra”初始化方式。权重衰减因子为10-4,动量为0.9,衰减到0。
在密集连接的深度金字塔残差网络中,残差模块少部分使用了DenseNet中的普通残差模块,大部分网络采用DenseNet中的带瓶颈的残差模块(Bottleneck)。网络分为3块,每一块为内使用密集连接,块与块之间由过渡层连接,过渡层起到下采样和压缩特征图维度的作用,压缩比率采用0.5或1,等于1时即不进行压缩。网络层数为40层和100层,增长速率k初始值为12,增长速率k的增长速率p的值取2、4、6、12不等。
由于嵌套网络可以生成各种各样的网络,可变性比较大,因此本发明只探索了宿主网络为非常简单的浅层网络时嵌套网络可以取得的效果。使用3个隐层的多层感知机作为框架,每个隐层具有相同的节点数,嵌入节点中的网络形式为PyramidNet或DenseNet,深度从2层到20层不等。隐层之间由过渡层连接,过渡层起到下采样和压缩特征图维度的作用,压缩比率采用0.5。
三角形网络中的残差模块采用PyramidNet中的残差模块,隐层数分别为5、7、8,层与层之间由过渡层连接,过渡层起到下采样和压缩特征图维度的作用。下表为隐层数为8的三角网络结构细节:
Figure BDA0001363292250000091
Figure BDA0001363292250000101
下表给出了本发明模型及其他模型在CIFAR-10+数据集上的Top-1错误率比较:
Figure BDA0001363292250000102
从表中可以看出,本发明提出网络模型达到了与DenseNet和PyramidNet相当的结果,且在参数量很小的情况下具有及其大的优势,例如,三角形网络在CIFAR-10+上取得3.64%的错误率只用了7.6M参数,而DenseNet-BC在CIFAR-10+上取得3.62%的错误率用了15.3M参数,三角形网络只用了一半的参数就取得了几乎相同的效果。并且与DenseNet和PyramidNet相比,三角形网络降低相当的错误率需要增加的参数量远小于二者。

Claims (10)

1.一种基于参数高效的深度残差网络模型的图像分类方法,根据网络的深度、宽度、多样性和基数,建立具有参数高效性的改进的网络模型,用于高效地进行图像分类识别;包括如下步骤:
1)将图像数据分为训练样本和测试样本;
2)对训练样本图像进行预处理;
3)构建具有参数高效性的深度残差网络模型,并进行模型训练:构建得到的网络模型包括深度金字塔残差网络模型、嵌套网络模型、三角形网络模型;将经过预处理的训练样本对上述网络模型分别进行训练,得到训练好的网络模型;
3A)构造密集连接的深度金字塔残差网络DensePyramids:具体在深度金字塔残差网络PyramidNet中引入密集连接,每个残差模块内使用密集连接,残差模块与残差模块之间由过渡层连接;或在密集连接的深度残差网络DenseNet中逐渐增加每一层的输出特征图维度;
3B)构造嵌套网络NestNet并训练;构造嵌套网络包括如下步骤:
3B1)基于多层感知机MLP结构,在宿主网络的每一个节点中嵌入多个相同或者不同的小网络,称为嵌入网络;或堆叠多个网络模块;
3B2)在不同的宿主网络节点中嵌套不同的嵌入网络,形成嵌套网络,生成高性能的网络结构;
3B3)嵌套网络中每一个节点的输出为特征图,节点变换操作由卷积模块完成,每一层节点的输出的特征图都作为下一层节点的输入;
3C)构造三角形网络TriangleNet并训练:
在构造嵌套网络过程中,当在宿主网络的节点里嵌入不同深度的嵌入网络即可生成三角形网络;通过嵌入不同深度的嵌入网络,从输入到输出之间的每一层都是三角形的形状,并且三角形的大小逐层减小,整个网络看上去也是一个三角形的形状,形成三角形网络;
4)利用步骤3)构建并训练好的具有参数高效性的深度残差网络模型,对测试样本进行识别,分别得到预测的分类标签;由此实现图像分类识别。
2.如权利要求1所述基于参数高效的深度残差网络模型的图像分类方法,其特征是,步骤2)对训练样本图像进行预处理,具体采用标准图像增强方法进行预处理。
3.如权利要求1所述基于参数高效的深度残差网络模型的图像分类方法,其特征是,步骤3A)在密集连接的深度金字塔残差网络中,输入数据通过卷积层提升维度,送入多个残差模块,最后经池化层和全连接层得到输出标签。
4.如权利要求3所述基于参数高效的深度残差网络模型的图像分类方法,其特征是,所述密集连接的深度金字塔残差网络包括相同拓扑结构的三块;过渡层起到下采样和压缩特征图维度的作用;压缩比率采用0.5或1;密集连接的深度金字塔残差网络层数为40层或100层;增长速率k初始值设为12;增长速率k的增长速率p的值取2、4、6或12。
5.如权利要求1所述基于参数高效的深度残差网络模型的图像分类方法,其特征是,步骤3B)嵌套网络中的宿主网络为浅层网络,具体使用三个隐层的多层感知机做框架,每个隐层具有相同的节点数,嵌入节点中的嵌入网络形式为PyramidNet或DenseNet,深度从2层到20层不等;隐层之间由过渡层连接,过渡层起到下采样和压缩特征图维度的作用,压缩比率采用0.5。
6.如权利要求1所述基于参数高效的深度残差网络模型的图像分类方法,其特征是,步骤3C)构造的三角形网络TriangleNet中,具体地,通过在同一层中不同的节点嵌入不同深度的网络来捕捉图像不同层次的信息,将不同层次的信息组合连接起来作为当前层的输出传递给下一层,由此提高分类性能;连接后的特征图维度对于之前的每一个节点急剧增大,后续层的节点嵌套的网络具有宽结构;在相邻的两层之间插入过渡层,通过1×1的卷积操作降低特征图维度;在整体网络的1/3和2/3深度处,过渡层通过池化做下采样。
7.如权利要求6所述基于参数高效的深度残差网络模型的图像分类方法,其特征是,三角形网络中的残差模块采用PyramidNet中的残差模块,隐层数分别为5、7、8。
8.如权利要求1所述基于参数高效的深度残差网络模型的图像分类方法,其特征是,模型训练均使用反向传播方法,采用随机梯度下降算法进行模型训练。
9.如权利要求8所述基于参数高效的深度残差网络模型的图像分类方法,其特征是,每一个模型训练过程迭代300轮;每64张图片为一个批次;学习速率初始值为0.1,在训练过程中,在1~149轮学习速率为0.1,在150~224轮学习速率为0.01,在225~300轮学习速率为0.001;卷积参数初始化使用“msra”初始化方式;权重衰减因子为0.0001,动量为0.9,衰减到0。
10.如权利要求1所述基于参数高效的深度残差网络模型的图像分类方法,其特征是,所述基于参数高效的深度残差网络模型均在深度学习框架Torch 7下实现。
CN201710628311.6A 2017-07-28 2017-07-28 基于参数高效的深度残差网络模型的图像分类方法 Active CN107437096B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201710628311.6A CN107437096B (zh) 2017-07-28 2017-07-28 基于参数高效的深度残差网络模型的图像分类方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710628311.6A CN107437096B (zh) 2017-07-28 2017-07-28 基于参数高效的深度残差网络模型的图像分类方法

Publications (2)

Publication Number Publication Date
CN107437096A CN107437096A (zh) 2017-12-05
CN107437096B true CN107437096B (zh) 2020-06-26

Family

ID=60461236

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710628311.6A Active CN107437096B (zh) 2017-07-28 2017-07-28 基于参数高效的深度残差网络模型的图像分类方法

Country Status (1)

Country Link
CN (1) CN107437096B (zh)

Families Citing this family (37)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108038832A (zh) * 2017-12-25 2018-05-15 中国科学院深圳先进技术研究院 一种水下图像增强方法及系统
CN108280436A (zh) * 2018-01-29 2018-07-13 深圳市唯特视科技有限公司 一种基于堆叠递归单元的多级残差网络的动作识别方法
CN108764287B (zh) * 2018-04-24 2021-11-16 东南大学 基于深度学习和分组卷积的目标检测方法及系统
CN108805166B (zh) * 2018-05-03 2019-11-15 全球能源互联网研究院有限公司 一种建立图像分类神经网络模型及图像分类方法、装置
CN108764317B (zh) * 2018-05-21 2021-11-23 浙江工业大学 一种基于多路特征加权的残差卷积神经网络图像分类方法
CN108875811A (zh) * 2018-06-01 2018-11-23 平安科技(深圳)有限公司 动物种类的分类方法、装置、计算机设备和存储介质
CN108805200B (zh) * 2018-06-08 2022-02-08 中国矿业大学 基于深度孪生残差网络的光学遥感场景分类方法及装置
CN108830254B (zh) * 2018-06-27 2021-10-29 福州大学 一种基于数据均衡策略和密集注意网络的细粒度车型检测与识别方法
CN109214505B (zh) * 2018-08-29 2022-07-01 中山大学 一种密集连接卷积神经网络的全卷积目标检测方法
CN109377511B (zh) * 2018-08-30 2021-09-03 西安电子科技大学 基于样本组合和深度检测网络的运动目标跟踪方法
CN109242849A (zh) * 2018-09-26 2019-01-18 上海联影智能医疗科技有限公司 医学图像处理方法、装置、系统和存储介质
CN110956190A (zh) * 2018-09-27 2020-04-03 深圳云天励飞技术有限公司 图像识别方法及装置、计算机装置和计算机可读存储介质
CN109272048B (zh) * 2018-09-30 2022-04-12 北京工业大学 一种基于深度卷积神经网络的模式识别方法
CN109447976B (zh) * 2018-11-01 2020-07-07 电子科技大学 一种基于人工智能的医学图像分割方法及系统
CN109614985B (zh) * 2018-11-06 2023-06-20 华南理工大学 一种基于密集连接特征金字塔网络的目标检测方法
CN109978003A (zh) * 2019-02-21 2019-07-05 上海理工大学 基于密集连接残差网络的图像分类方法
CN111768214A (zh) * 2019-03-14 2020-10-13 北京京东尚科信息技术有限公司 产品属性的预测方法、系统、设备和存储介质
CN110032949B (zh) * 2019-03-22 2021-09-28 北京理工大学 一种基于轻量化卷积神经网络的目标检测与定位方法
CN109993109A (zh) * 2019-03-29 2019-07-09 成都信息工程大学 图像文字识别方法
CN110074804A (zh) * 2019-04-12 2019-08-02 浙江工业大学 基于新型Faster R-CNN的胰腺CT图像中的囊性肿瘤检测方法
CN110189305B (zh) * 2019-05-14 2023-09-22 上海大学 一种多任务舌象自动分析方法
CN110222771B (zh) * 2019-06-10 2023-03-10 成都澳海川科技有限公司 一种零样本图片的类别识别方法
CN110236483B (zh) * 2019-06-17 2021-09-28 杭州电子科技大学 一种基于深度残差网络的糖尿病性视网膜病变检测的方法
CN110472668B (zh) * 2019-07-22 2021-02-19 华北电力大学(保定) 一种图像分类方法
CN110458109A (zh) * 2019-08-13 2019-11-15 西南林业大学 一种基于图像识别技术的茶叶病害识别系统及工作方法
CN111031346B (zh) * 2019-10-28 2021-11-02 网宿科技股份有限公司 一种增强视频画质的方法和装置
CN110826693B (zh) * 2019-10-29 2022-10-14 华中科技大学 基于DenseNet卷积神经网络的三维大气温度廓线反演方法和系统
CN111341306B (zh) * 2020-02-14 2022-06-17 东南大学 基于语音特征复用的关键词唤醒cnn的存储和计算压缩方法
CN111652054B (zh) * 2020-04-21 2023-11-03 北京迈格威科技有限公司 关节点检测方法、姿态识别方法及装置
CN111726633B (zh) * 2020-05-11 2021-03-26 河南大学 基于深度学习和显著性感知的压缩视频流再编码方法
CN111860619A (zh) * 2020-07-02 2020-10-30 苏州富鑫林光电科技有限公司 一种工业检测用深度学习的ai智能模型
CN112364193A (zh) * 2020-11-17 2021-02-12 同济大学 面向图像检索的融合多层特征深度神经网络模型方法
CN112686849B (zh) * 2020-12-24 2022-08-26 山东众阳健康科技集团有限公司 一种基于三维卷积神经网络的肺叶分割系统
CN113673553B (zh) * 2021-07-05 2024-03-29 浙江工业大学 一种快速检测与识别少样本目标的方法和系统
CN113807362B (zh) * 2021-09-03 2024-02-27 西安电子科技大学 基于层间语义信息融合深度卷积网络的图像分类方法
CN113807363B (zh) * 2021-09-08 2024-04-19 西安电子科技大学 基于轻量化残差网络的图像分类方法
CN117574961B (zh) * 2024-01-15 2024-03-22 成都信息工程大学 一种将适配器注入预训练模型的参数高效化方法和装置

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106682694A (zh) * 2016-12-27 2017-05-17 复旦大学 一种基于深度学习的敏感图像识别方法

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106682694A (zh) * 2016-12-27 2017-05-17 复旦大学 一种基于深度学习的敏感图像识别方法

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
Deep Pyramidal Residual Networks;Dongyoon Han等;《2017 IEEE Conference on Computer Vision and Pattern Recognition》;20170726;第6307-6315页 *
Dense Residual Pyramid Networks for Salient Object Detection;Ziqin Wang等;《Computer Vision – ACCV 2016 Workshops》;20170316;第606-621页 *
Densely Connected Convolutional Networks;Gao Huang等;《2017 IEEE Conference on Computer Vision and Pattern Recognition》;20170726;第2261-2269页 *
Joint Semantic Segmentation and Depth Estimation with Deep Convolutional Networks;Arsalan Mousavian等;《2016 Fourth International Conference on 3D Vision》;20161028;第611-619页 *

Also Published As

Publication number Publication date
CN107437096A (zh) 2017-12-05

Similar Documents

Publication Publication Date Title
CN107437096B (zh) 基于参数高效的深度残差网络模型的图像分类方法
Chen et al. Shallowing deep networks: Layer-wise pruning based on feature representations
Baldassarre et al. Deep koalarization: Image colorization using cnns and inception-resnet-v2
CN112784764B (zh) 一种基于局部与全局注意力机制的表情识别方法及系统
CN105849747B (zh) 用于人脸图像识别的方法和系统
CN105095833B (zh) 用于人脸识别的网络构建方法、识别方法及系统
CN113011499A (zh) 一种基于双注意力机制的高光谱遥感图像分类方法
CN110197276A (zh) 用于深度学习加速的数据体雕刻器
Tu et al. Spatial-temporal data augmentation based on LSTM autoencoder network for skeleton-based human action recognition
CN109948029A (zh) 基于神经网络自适应的深度哈希图像搜索方法
CN110321957A (zh) 融合三元组损失和生成对抗网络的多标签图像检索方法
CN109817276A (zh) 一种基于深度神经网络的蛋白质二级结构预测方法
CN113627376B (zh) 基于多尺度密集连接深度可分离网络的人脸表情识别方法
CN110019652A (zh) 一种基于深度学习的跨模态哈希检索方法
CN110580458A (zh) 结合多尺度残差式cnn和sru的乐谱图像识别方法
CN109086653A (zh) 手写模型训练方法、手写字识别方法、装置、设备及介质
Islam et al. InceptB: a CNN based classification approach for recognizing traditional bengali games
Chen et al. An Improved Deep Fusion CNN for Image Recognition.
Shi et al. Shuffle-invariant network for action recognition in videos
Luan et al. MSD: Multi-self-distillation learning via multi-classifiers within deep neural networks
CN115222998B (zh) 一种图像分类方法
CN109447096A (zh) 一种基于机器学习的扫视路径预测方法和装置
CN112148997A (zh) 一种用于灾害事件检测的多模态对抗模型的训练方法和装置
CN113780249A (zh) 表情识别模型的处理方法、装置、设备、介质和程序产品
James et al. Deep learning

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant