CN112381176A - 一种基于双目特征融合网络的图像分类方法 - Google Patents

一种基于双目特征融合网络的图像分类方法 Download PDF

Info

Publication number
CN112381176A
CN112381176A CN202011413120.6A CN202011413120A CN112381176A CN 112381176 A CN112381176 A CN 112381176A CN 202011413120 A CN202011413120 A CN 202011413120A CN 112381176 A CN112381176 A CN 112381176A
Authority
CN
China
Prior art keywords
network
image
feature fusion
features
value
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202011413120.6A
Other languages
English (en)
Other versions
CN112381176B (zh
Inventor
何凯
高圣楠
马希涛
李大双
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tianjin University
Original Assignee
Tianjin University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tianjin University filed Critical Tianjin University
Priority to CN202011413120.6A priority Critical patent/CN112381176B/zh
Publication of CN112381176A publication Critical patent/CN112381176A/zh
Application granted granted Critical
Publication of CN112381176B publication Critical patent/CN112381176B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • G06F18/253Fusion techniques of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/44Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Engineering & Computer Science (AREA)
  • Evolutionary Computation (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Computational Linguistics (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Multimedia (AREA)
  • Image Analysis (AREA)
  • Image Processing (AREA)

Abstract

本发明公开了一种基于双目特征融合网络的图像分类方法,所述方法包括:将处理后的训练图像按批次输入到双目特征融合网络中,所述网络包括:深层通道用于提取图像的细节特征,浅层通道用于提取图像的轮廓特征;将特征融合后送入Softmax分类器中,选取概率值最大的类别作为图像的预测值,将预测值与标签值进行比较计算得到损失函数值,将损失函数值按随机梯度下降法进行反向传播更新网络各层的参数;将图像分类数据集中所有训练图像传入双目特征融合网络进行训练,将双目特征融合网络达到最拟合程度时的网络模型保存为.ckpt文件,将测试图像输入到保存的模型中进行测试,最终得到整体的准确率值。本发明提高了图像的分类准确率。

Description

一种基于双目特征融合网络的图像分类方法
技术领域
本发明涉及图像分类领域,尤其涉及一种基于双目特征融合网络的图像分类方法。
背景技术
图像分类是根据输入图像的不同特征来实现不同类别图像的自动划分,其在目标检测、物体识别[1]等领域都有着广泛应用。在过去几十年中,众多学者在该领域进行了大量研究,但仍无法满足实际需求。图像分类主要存在干扰信息较多、图像部分失真等难点[2],这都给分类任务带来了较大的挑战。
早期的图像分类方法侧重于人工设计图像特征[3],这种方法需要通过人工操作来标注目标特征,不仅耗费人工成本,而且泛化能力较差,不能在实际工程中大范围推广应用,具有较大的局限性。随着科学技术的不断发展,人们尝试利用计算机强大的数据处理和计算能力,来模仿人类对图像的观察和理解方式,实现对目标图像的自动分类。深度学习[4]作为机器学习领域的重要分支,为图像分类领域提供了新的思路和解决方案。深度学习能够模拟人脑处理方式[5],具有强大的自主学习和抽象表达能力,它不需要人工设计,能够自动地从数据中学习目标特征,同时模拟大脑的认知方式,获得多层次的特征表达,最大限度地利用特征信息实现对图像的自动分类。与传统的分类方法相比,基于深度学习的图像分类方法减少了人工标注过程,具有更好的泛化能力和特征表达能力,分类准确率更高,具有更广泛的应用场景。
计算机硬件和大数据技术的飞速发展,为深度学习提供了硬件基础和技术支撑。作为深度学习算法中最常用的方法之一,卷积神经网络[6]算法表现出的强大的自主学习和特征提取能力,为图像分类提供了新的研究方向。
发明内容
本发明提供了一种基于双目特征融合网络的图像分类方法,本发明提高了图像的分类准确率,详见下文描述:
一种基于双目特征融合网络的图像分类方法,所述方法包括:
将处理后的训练图像按批次输入到双目特征融合网络中,所述网络包括:深层通道用于提取图像的细节特征,浅层通道用于提取图像的轮廓特征;
将特征融合后送入Softmax分类器中,选取概率值最大的类别作为图像的预测值,将预测值与标签值进行比较计算得到损失函数值,将损失函数值按随机梯度下降法进行反向传播更新网络各层的参数;
将图像分类数据集中所有训练图像传入双目特征融合网络进行训练,将双目特征融合网络达到最拟合程度时的网络模型保存为.ckpt文件,将测试图像输入到保存的模型中进行测试,最终得到整体的准确率值。
其中,所述方法还包括:
在网络训练过程中根据损失函数值的变化情况动态调整学习率,自适应指数学习率为:
Figure BDA0002816692010000021
式中,ri代表第i次迭代网络学习率,r1代表初始学习率,e-ki是指数调整量,k为指数常量,Li-1代表第i-1次迭代损失函数值,Li-2代表第i-2次迭代损失函数值。
进一步地,所述浅层通道由两个卷积层和一个卷积模块组成;
提取特征后,一路经注意力模块传递给深层通道,进行多尺度融合;另一路与深层通道提取的多尺度特征进行融合,共同实现最终的图像分类。
其中,所述深层通道包括特征提取和多尺度融合;
特征提取部分直接从原始图像中提取特征,经多次卷积后获得图像细微特征;多尺度融合将提取到的细微特征与来自浅层通道的粗糙特征进行融合,增强特征的空间表达能力。
本发明提供的技术方案的有益效果是:
1、本发明综合考虑到了卷积神经网络不同层提取到的特征各异,浅层可以提取到丰富的轮廓信息,深层可以提取到细微特征信息,模拟双目识物的过程,采用双通道的形式分别获得不同的信息,再将多种信息进行融合作为最终的分类依据;
2、本发明提出的深层通道利用多尺度卷积获得不同感受野下的特征信息,多尺度卷积主要由四路并行通道组成,每路的卷积核感受野大小不同,经四路提取得到的信息进行融合后可以增强特征信息的空间表达能力;
3、本发明可以在国际公开的图像分类数据集(CIFAR-10和CIFAR-100)上进行实验仿真,分类准确率分别达到95.92%和78.17%;明显高于现有经典方法,验证了本发明的有效性。
附图说明
图1为一种基于双目特征融合网络的图像分类方法的流程图;
图2为网络结构图;
图3为卷积模块的结构图;
图4为数据集CIFAR-10部分图像;
图5为本发明的网络模型在数据集CIFAR-10上的训练测试准确率图;
图6为本发明的网络模型在数据集CIFAR-10上的损失函数图;
图7为在数据集CIFAR-10上得到的混淆矩阵示意图。
表1为数据集CIFAR-100的部分类别;
表2为验证本方法各部分有效性的消融实验对比研究;
表3为本发明方法与本领域其他经典分类方法的对比实验。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,下面对本发明实施方式作进一步地详细描述。
实施例1
一种基于双目特征融合网络的图像分类方法,参见图1,该方法包括以下步骤:
101:获取国际公开图像分类数据集;
102:受限于样本数量较少,且为了提高图像的多样性,对数据集中的训练图像进行预处理,主要包括对每张图像进行随机裁剪、翻转等操作;
103:将处理后的训练图像按批次输入到双目特征融合网络中,网络结构如图2所示。该网络主要由深浅两个通道组成,深层通道主要提取图像的细节特征,浅层通道主要提取图像的轮廓特征,将特征进行融合后送入Softmax分类器中获得各类别的概率值,选取概率值最大的类别作为图像的预测值,将预测值与图像的标签值进行比较计算得到损失函数值,将损失函数值按随机梯度下降法进行反向传播更新网络各层的参数;
104:将数据集中所有训练图像传入双目特征融合网络进行训练记为一次迭代,经过多次迭代后,获得模型的最优参数,双目特征融合网络达到最拟合程度,将此时的网络模型保存为.ckpt文件,该文件中包含了网络各层的参数值。将测试图像输入到保存的模型中进行测试,最终得到整体的准确率值。
其中,步骤101的图像分类数据集包括:CIFAR-10和CIFAR-100。
1)CIFAR-10数据集:CIFAR-10数据集是由Alex Krizhevsky、Geoffrey Hinton和Vinod Nair提出的图像分类数据集,该数据集包含60000张,共10个类别的三通道RGB彩色图像,每种类别共6,000张,图像分辨率为32*32,格式为jpg。每一类图像随机抽取1,000张进行测试,其余5,000张用于训练。部分图像如图4所示。
2)CIFAR-100数据集:CIFAR-100数据集是CIFAR-10数据集的延伸,该数据集共有60,000张彩色图像,分为20个大类,每个大类包含5个子类,一共100个子类,每个子类包含600张图像。每个子类中随机选取500张作为训练图像,另外100张作为测试图像。部分类别如表1所示。
表1 CIFAR-100数据集部分类别示例
Figure BDA0002816692010000041
图4为CIFAR-10数据集示例,其中,每一行为一个类别,由上到下依次为:飞机、汽车、鸟、猫、鹿、狗、青蛙、马、船、卡车。
为了计算标签值和与预测值的偏离程度,本方法采用交叉熵作为损失函数,得到损失函数值后,根据随机梯度下降法从输出层到输入层逐层进行参数更新,提高网络模型的拟合程度。
学习率是用于控制神经网络权值调整的速度。学习率越大,权值调节幅度越大,越容易丢失部分最优值,同时网络损失函数值变化越大,网络不稳定;学习率越小,权值调节幅度越小,网络容易陷入局部最优,网络损失函数值变化越小,网络训练速度越慢,不容易收敛。因此,选择合适的学习率,对于网络收敛速度和网络分类性能具有重要意义。
本发明实施例中还设计了一种自适应指数学习率方法,该方法是一种动态的学习率更新方式,在网络训练过程中根据损失函数值的变化情况动态调整学习率,使得网络能够逼近最优解;在不增加网络深度的情况下,提升了模型性能。自适应指数学习率可表示为:
Figure BDA0002816692010000051
式中,ri代表第i次迭代网络学习率,r1代表初始学习率(设为0.2),e-ki是指数调整量,k为指数常量,Li-1代表第i-1次迭代损失函数值,Li-2代表第i-2次迭代损失函数值。
实验所用计算机配置为:CPU:Intel Core i7-7800X,CPU内存大小为64G,GPU型号为GTX 1080,显存大小为11G;Linux16.04系统;Python编程环境,使用tensorflow框架对数据集分类。实验采用批处理方式,图像批量大小为128,动量项衰减设为0.9,迭代200次,初始学习率设为0.2,指数常量设为0.031。
综上所述,本发明实例通过上述步骤101-步骤104可以显著提升分类精度。
实施例2
下面结合具体的实例、计算公式、图2-图3进行进一步的介绍,详见下文描述:
201:本发明方法结构:
如图2所示,本发明的网络模型主要由深浅两个通道组成,其中,深层通道共有17层,包括:特征提取12层、多尺度融合5层,用于模拟视觉信息在空间通路的传递过程,负责提取目标图像的细微特征;浅层通道共有4层,用于模拟视觉通路的内容通路,负责提取粗糙特征信息。利用浅层通道提取特征后,一路经注意力模块传递给深层通道,进行多尺度融合;另一路直接与深层通道提取的多尺度特征进行融合,共同实现最终的图像分类。
202:深层通道:
深层通道由两部分组成:特征提取和多尺度融合;其中,特征提取部分直接从原始图像中提取特征,经多次卷积后获得图像细微特征;多尺度融合部分将提取到的细微特征与来自浅层通道的粗糙特征进行融合,可以增强特征的空间表达能力。
特征提取部分包含一个卷积核大小为3*3的卷积层、一个卷积核大小为1*1的卷积层和五个卷积模块。
在每一个卷积层后,采用激活函数对输出特征进行处理,以增强网络的非线性表达能力。为降低计算量,同时解决梯度消失和神经元死亡问题,本模型采用Leaky ReLu(LReLU)作为激活函数,其表达式为:
LReLU=max(x,0)+αmin(x,0) (2)
式中,x表示激活函数的输入特征,α是输入特征的负值坡度系数,设为0.01。
在卷积层con2_d之前,每层卷积运算输出64个特征图;为减少参数量,提高网络效率,使用1*1卷积核,将64个特征图映射为32个;再经过4个卷积模块,将特征图增加到256个,以增加网络的非线性表达能力。
深层网络能提取到更加细微的图像特征,局部信息表征能力更强,但缺少不同感受野,不能提取丰富的空间几何特征信息。本方法实施例采取多尺度融合的方式来解决这一问题,将提取到的图像特征,与经过SE(压缩和激励)注意力模块加权后的浅层通道特征相融合,共同作为输入特征;采用1*1卷积核,将320个输入特征降低到160个。多尺度卷积共采用4种卷积核,分别是1*1、3*3、5*5和7*7,以获得不同感受野的特征信息。受VGG模型[7]启发,采用两个3*3串行代替5*5,采用三个3*3串行代替7*7,可以在保证效果的同时,减小计算量;最后使用一个1*1卷积核,将多尺度卷积特征进行整合。与单卷积相比,多尺度卷积增加了对深层网络细微信息的空间特征提取能力,有助于提升网络性能。
203:浅层通道:
浅层通道由两个卷积层和一个卷积模块组成;由于层数较浅,该通道只能从原图像中提取位置、轮廓等粗糙特征;将特征一路传到深层通道多尺度卷积模块,采取注意力模块对其进行加权,以减小轮廓外部信息的干扰;另一路经一个1*1的卷积处理后,与深层通道的多尺度特征信息一起作为最终的分类特征。由此可见,本方法网络一方面经深层通道提取图像的细微特征,另一方面经浅层通道提取图像的粗糙特征,将两者结合起来进行分类,有助于提取更加丰富的图像特征,提高模型分类性能。
204:卷积模块;
卷积模块由两个卷积核大小为3*3的卷积层串行组成。为了方便网络反向传播时的参数更新,在两个卷积层上加入一个直连通道,卷积模块如图3所示。
卷积层运算过程可表示为:
Fl=ωl*Fl-1+bl (3)
式中,Fl表示第l层输出特征,ωl表示本层卷积核,即f个z×z大小的参数矩阵,经卷积运算后输出f个特征图;边界Fl-1表示本层的输入特征图,bl表示本层偏置参数。
卷积模块的运算过程可表示为:
Output=Con(Con(Input))+Input (4)
式中,Output表示卷积模块输出特征图,Con表示卷积运算,Input表示卷积模块的输入特征图。
实施例3
下面结合图5-图7,表2-表3,对实施例1和2中的方案进行进一步地介绍,详见下文描述:
采用本发明方法,在数据集CIFAR-10上,其训练和测试准确率如图5所示,损失函数如图6所示。其中,横坐标代表迭代次数,纵坐标分别代表准确率(百分制)和损失函数值,实线代表训练曲线,虚线代表测试曲线。网络训练过程大致可分为三个阶段:
1)初始阶段学习率较大,采用自适应指数学习率可迅速调整网络的权重参数,准确率提升迅速,损失函数下降明显;
2)中间阶段,网络准确率波动提升,损失函数波动下降;
3)训练曲线达到稳定,损失函数值平稳下降,网络准确率有微小波动并最终趋于稳定。
为了验证本方法的网络模型中各部分结构的有效性,分别采用不同结构的网络,在CIFAR-10数据集上进行训练和测试,测试准确率如表2所示。
表2本发明方法各模块性能对比
Figure BDA0002816692010000071
从表2中可以看出,“不含浅层通道”,仅凭深层通道提取细微特征,其分类准确率比本发明方法低1.45%,证明了增加浅层通道的必要性;此外,“不含注意力机制”的分类准确率比本发明方法低0.89%;“不含特征提取模块”降低了模型的非线性表达能力,准确率比本发明方法低1.56%;此外,由于深层卷积核感受野较小,提取到的细微特征局部信息过多,缺乏空间表达能力,因此“不含多尺度卷积部分”的分类准确率比本发明方法低2.74%,证明了采用多尺度卷积的必要性。
为了验证本发明中模型的有效性,分别在数据集CIFAR-10和CIFAR-100上进行测试,并与当前经典深度学习图像分类模型DTN-ResNet[8],Fitnet4-LSUV[9],SO-PCNN[10],B-CNN[11],ResNet+ELU[12],Evolution[13],MCCT[14],以及SRM-ResNet[15]进行了比较,其top-1分类准确率如表3所示。
表3不同模型识别准确率对比(%)
Figure BDA0002816692010000081
从表中可以看出,在所有模型中,本发明方法在两个数据集上的分类准确率均为最高。其中,方法DTN-ResNet、ResNet+ELU、SRM-ResNet是利用残差模块组成的网络进行特征提取器,而本发明方法采用了特征融合方法,获得了更高的准确率。方法B-CNN、MCCT采用双通道并行网络来提取特征信息,而本发明方法更加符合人眼视觉特性,采用深浅通道分别提取细微和粗糙特征并相互补充并提取多尺度信息的模式,因此特征信息利用更加充分。方法LSUV、SO-PCNN采用普通的卷积网络形式,受限于网络模型本身,无法解决网络层数加深带来的梯度消失问题,而本发明方法则较好地解决了上述问题。此外,虽然方法Evolution在训练过程中可以通过复杂的调参来获得更理想的网络结构,但本发明方法表现出了更好的特征信息提取和融合能力,且结构设计的复杂度和深度远低于方法Evolution。
图7为采用本发明方法在CIFAR-10数据集上的分类混淆矩阵。从图7可以看出,由于鸟和飞机、猫和狗、鹿和马、汽车和卡车等轮廓相近、特征近似,较难区分。而在船只、青蛙等类间差距较大的类别上准确率较高。但从整体上看,对于不同类别,其识别准确率均高于95%,证明了本文方法的准确性。
参考文献:
[1]Ouyang W,wang X G.Joint Deep Learning for Pedestrian Detection[C]//Proceedings of the IEEE International Conference on Computer Vision(ICCV),2013:2056-2063.
[2]杨真真,匡楠,范露,等.基于卷积神经网络的图像分类算法综述[J].信号处理,2018,34(12):1474-1479.
[3]杨泽明,刘军,薛程,等.卷积神经网络在图像分类上的应用综述[J].人工智能与机器人研究,2018,7(1):17-24.
[4]Hinton G E,Salakhutdinov R R.Reducing the Dimensionality of Datawith Neural Networks[J].Science,2006,313(5786):504-507.
[5]卢宏涛,张秦川.深度卷积神经网络在计算机视觉中的应用研究综述[J].数据采集与处理,2016,31(1):1-17.
[6]LeCun Y,Bottou L,Bengio Y,et al.Gradient-based Learning Applied toDocument Recognition[J].Proceedings of the IEEE,1998,86(11):2278-2324.
[7]Simonyan K,Zisserman A.Very Deep Convolutional Networks for Large-scale Image Recognition[C]//International Conference on LearningRepresentations,ICLR 2015:1123-1131.
[8]Fan L,Zhang T,Zhao X,Wang H,Zheng M.Deep Topology Network:AFramework based on Feedback Adjustment Learning Rate for Image Classification[J].Advanced Engineering Informatics,2019,23(8):432-441.
[9]Mishkin D,Matas J.All you need is a good init.4th InternationalConference on Learning Representations[C]//International Conference onLearning Representations ICLR,2016:1–13.
[10]Assiri,Y.S.(n.d.).Stochastic Optimization of Plain ConvolutionalNeural Networks with Simple methods.[C]//15th International Conference onMachine Learning and Data Mining,MLDM 2019,New York,USA:2019:833-844.
[11]Lin T Y,Roychowdhury A,Maji S.Bilinear CNN Models for Fine-grained Visual Recognition[C]//IEEE International Conference on ComputerVision,ICCV,Santiago,Chile,2016:1449-1457.
[12]Shah A,Kadam E,Shah H,Shinde S,Shingade S.Deep Residual Networkswith Exponential Linear Unit[C]//ACM International Conference ProceedingSeries,2016,September 21-24:59–65.
[13]Real E,Moore S,Selle A,Saxena S,Suematsu Y L,Tan J,Le Q V,KurakinA.Large-scale Evolution of Image Classifiers[C]//34th InternationalConference on Machine Learning,ICML 2017,6:4429–4446.
[14]MCCT:A Multi-channel Complementary Census Transform for ImageClassification.[J]Signal Image and Video Processing,2018,12(2):281-289.
[15]Lee H,Kim HE,Nam H.SRM:A Style-based Recalibration Module forConvolutional Neural Networks[C]//IEEE International Conference on ComputerVision,ICCV2019,Seoul,Korea,2019:1854-1862.
本发明实施例对各器件的型号除做特殊说明的以外,其他器件的型号不做限制,只要能完成上述功能的器件均可。
本领域技术人员可以理解附图只是一个优选实施例的示意图,上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。
以上所述仅为本发明的较佳实施例,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (4)

1.一种基于双目特征融合网络的图像分类方法,其特征在于,所述方法包括:
将处理后的训练图像按批次输入到双目特征融合网络中,所述网络包括:深层通道用于提取图像的细节特征,浅层通道用于提取图像的轮廓特征;
将特征融合后送入Softmax分类器中,选取概率值最大的类别作为图像的预测值,将预测值与标签值进行比较计算得到损失函数值,将损失函数值按随机梯度下降法进行反向传播更新网络各层的参数;
将图像分类数据集中所有训练图像传入双目特征融合网络进行训练,将双目特征融合网络达到最拟合程度时的网络模型保存为.ckpt文件,将测试图像输入到保存的模型中进行测试,最终得到整体的准确率值。
2.根据权利要求1所述的一种基于双目特征融合网络的图像分类方法,其特征在于,所述方法还包括:
在网络训练过程中根据损失函数值的变化情况动态调整学习率,自适应指数学习率为:
Figure FDA0002816690000000011
式中,ri代表第i次迭代网络学习率,r1代表初始学习率,e-ki是指数调整量,k为指数常量,Li-1代表第i-1次迭代损失函数值,Li-2代表第i-2次迭代损失函数值。
3.根据权利要求1所述的一种基于双目特征融合网络的图像分类方法,其特征在于,所述浅层通道由两个卷积层和一个卷积模块组成;
提取特征后,一路经注意力模块传递给深层通道,进行多尺度融合;另一路与深层通道提取的多尺度特征进行融合,共同实现最终的图像分类。
4.根据权利要求1所述的一种基于双目特征融合网络的图像分类方法,其特征在于,所述深层通道包括特征提取和多尺度融合;
特征提取部分直接从原始图像中提取特征,经多次卷积后获得图像细微特征;多尺度融合将提取到的细微特征与来自浅层通道的粗糙特征进行融合,增强特征的空间表达能力。
CN202011413120.6A 2020-12-03 2020-12-03 一种基于双目特征融合网络的图像分类方法 Active CN112381176B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011413120.6A CN112381176B (zh) 2020-12-03 2020-12-03 一种基于双目特征融合网络的图像分类方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011413120.6A CN112381176B (zh) 2020-12-03 2020-12-03 一种基于双目特征融合网络的图像分类方法

Publications (2)

Publication Number Publication Date
CN112381176A true CN112381176A (zh) 2021-02-19
CN112381176B CN112381176B (zh) 2022-06-10

Family

ID=74591088

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011413120.6A Active CN112381176B (zh) 2020-12-03 2020-12-03 一种基于双目特征融合网络的图像分类方法

Country Status (1)

Country Link
CN (1) CN112381176B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113033547A (zh) * 2021-02-27 2021-06-25 北京工业大学 一种基于MobileNetV2的焊接状态分类方法

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108416397A (zh) * 2018-03-30 2018-08-17 华南理工大学 一种基于ResNet-GCN网络的图像情感分类方法
WO2019010950A1 (zh) * 2017-07-13 2019-01-17 北京大学深圳研究生院 用于图像或视频中行人重识别的深度判别网络模型方法
CN110110751A (zh) * 2019-03-31 2019-08-09 华南理工大学 一种基于注意力机制的金字塔网络的中草药识别方法
CN110245655A (zh) * 2019-05-10 2019-09-17 天津大学 一种基于轻量级图像金字塔网络的单阶段物体检测方法
CN111046967A (zh) * 2019-12-18 2020-04-21 江苏科技大学 一种基于卷积神经网络和注意力机制的水下图像分类方法
CN111191737A (zh) * 2020-01-05 2020-05-22 天津大学 基于多尺度反复注意力机制的细粒度图像分类方法
CN111401226A (zh) * 2020-03-13 2020-07-10 电子科技大学 一种辐射源快速识别方法

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2019010950A1 (zh) * 2017-07-13 2019-01-17 北京大学深圳研究生院 用于图像或视频中行人重识别的深度判别网络模型方法
CN108416397A (zh) * 2018-03-30 2018-08-17 华南理工大学 一种基于ResNet-GCN网络的图像情感分类方法
CN110110751A (zh) * 2019-03-31 2019-08-09 华南理工大学 一种基于注意力机制的金字塔网络的中草药识别方法
CN110245655A (zh) * 2019-05-10 2019-09-17 天津大学 一种基于轻量级图像金字塔网络的单阶段物体检测方法
CN111046967A (zh) * 2019-12-18 2020-04-21 江苏科技大学 一种基于卷积神经网络和注意力机制的水下图像分类方法
CN111191737A (zh) * 2020-01-05 2020-05-22 天津大学 基于多尺度反复注意力机制的细粒度图像分类方法
CN111401226A (zh) * 2020-03-13 2020-07-10 电子科技大学 一种辐射源快速识别方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
RAHUL YE ET AL: "A novel adaptive learning rate scheduler for deep neural networks", 《ARXIV:1902.07399V1》 *
何凯等: "基于多尺度特征融合与反复注意力机制的细粒度图像分类算法", 《天津大学学报》 *
徐建业 等: "基于动态学习率深度神经网络的抗干扰信道编码算法", 《计算机应用研究》 *

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113033547A (zh) * 2021-02-27 2021-06-25 北京工业大学 一种基于MobileNetV2的焊接状态分类方法

Also Published As

Publication number Publication date
CN112381176B (zh) 2022-06-10

Similar Documents

Publication Publication Date Title
Shan et al. Automatic facial expression recognition based on a deep convolutional-neural-network structure
WO2021042828A1 (zh) 神经网络模型压缩的方法、装置、存储介质和芯片
CN109685115B (zh) 一种双线性特征融合的细粒度概念模型及学习方法
WO2022252272A1 (zh) 一种基于迁移学习的改进vgg16网络猪的身份识别方法
CN108399421B (zh) 一种基于词嵌入的深度零样本分类方法
CN111583263B (zh) 一种基于联合动态图卷积的点云分割方法
CN103927531B (zh) 一种基于局部二值和粒子群优化bp神经网络的人脸识别方法
CN108108677A (zh) 一种基于改进的cnn人脸表情识别方法
CN108121975B (zh) 一种联合原始数据和生成数据的人脸识别方法
CN117456297A (zh) 图像生成方法、神经网络的压缩方法及相关装置、设备
CN110321967B (zh) 基于卷积神经网络的图像分类改进方法
CN109543697A (zh) 一种基于深度学习的rgbd图像目标识别方法
CN109255364A (zh) 一种基于深度卷积生成对抗网络的场景识别方法
CN105631398A (zh) 识别对象的方法和设备以及训练识别器的方法和设备
CN103955702A (zh) 基于深度rbf网络的sar图像地物分类方法
Borwarnginn et al. Breakthrough conventional based approach for dog breed classification using CNN with transfer learning
CN115294407B (zh) 基于预习机制知识蒸馏的模型压缩方法及系统
Xu et al. Recurrent convolutional neural network for video classification
CN110991349B (zh) 一种基于度量学习的轻量级车辆属性识别方法
Chen et al. An Improved Deep Fusion CNN for Image Recognition.
CN106611156B (zh) 一种自适应深度空间特征的行人识别方法和系统
CN108154235A (zh) 一种图像问答推理方法、系统及装置
CN111931814A (zh) 一种基于类内结构紧致约束的无监督对抗域适应方法
Zhang et al. Evolving neural network classifiers and feature subset using artificial fish swarm
Chen et al. Learning to focus: cascaded feature matching network for few-shot image recognition

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant