CN110222716B - 基于全分辨率深度卷积神经网络的图像分类方法 - Google Patents

基于全分辨率深度卷积神经网络的图像分类方法 Download PDF

Info

Publication number
CN110222716B
CN110222716B CN201910379525.3A CN201910379525A CN110222716B CN 110222716 B CN110222716 B CN 110222716B CN 201910379525 A CN201910379525 A CN 201910379525A CN 110222716 B CN110222716 B CN 110222716B
Authority
CN
China
Prior art keywords
layer
resolution
full
convolution
neural network
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910379525.3A
Other languages
English (en)
Other versions
CN110222716A (zh
Inventor
庞彦伟
李亚钊
谢今
汪天才
张志杰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tianjin University
Original Assignee
Tianjin University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tianjin University filed Critical Tianjin University
Priority to CN201910379525.3A priority Critical patent/CN110222716B/zh
Publication of CN110222716A publication Critical patent/CN110222716A/zh
Application granted granted Critical
Publication of CN110222716B publication Critical patent/CN110222716B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02TCLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
    • Y02T10/00Road transport of goods or passengers
    • Y02T10/10Internal combustion engine [ICE] based vehicles
    • Y02T10/40Engine management systems

Abstract

本发明涉及一种基于全分辨率深度卷积神经网络的图像分类方法,包括下列步骤:准备训练图像集合及集合中每幅图像的类别标签;设定全分辨率卷积神经网络的层数;对输入图像先进行跨度卷积,然后将未经跨度卷积计算过的元素由1×1卷积进行计算,从而得到第一个全分辨率特征层,然后依次逐层得到所有全分辨率特征层并构成整体全分辨率神经网络,该网络最后一层称为HHF层;将HHF层划分成若干个区域,然后通过平均池化提取每个区域的特征,将这些区域的特征串联起来构成一个特征向量,将特征向量层和类别向量进行全连接,并对类别向量的每个元素进行Sigmoid运算;设定训练的损失函数;训练。

Description

基于全分辨率深度卷积神经网络的图像分类方法
技术领域
本发明涉及生物特征识别、人机交互、视频监控、无人驾驶等计算机视觉领域中图像分类方法,主要涉及基于深度卷积神经网络的图像分类方法。
背景技术
图像分类是将给定的图像分成若干预先定义好的类别的过程。例如,在人脸识别中,将一张人脸图像分类成不同身份的人脸;在场景分类中,将一幅图像分类成室内场景或室外场景。
由于具备强大的层次化特征表达能力,深度卷积神经网络已经成为最先进的图像识别框架。最具代表性的深度卷积神经网络方法是AlexNet[1]、VggNet[2]、ResNet[3]、DenseNet[4]等。对于输入图像,现有基于深度卷积神经网络的方法根据分辨率大小将神经网络分成若干块(block),每块内部的若干特征层(layer)具有相同的分辨率,第一块分辨率最高,其后面的块的分辨率逐渐降低(一般成倍降低)。例如第一块、第二块、第三块、第四块、第五块的分辨率分别是128×128、64×64、32×32、16×16、8×8。图1显示了一个现有神经网络结构,其中第一块内的各个层的分辨率和输入图像的分辨率都是w×h。但第二块和第三块的分辨率分别降低为(w/2)×(h/2)和(w/4)×(h/4)。
参考文献:
[1]A.Krizhevsky,I.Sutskever,andG.E.Hinton,“Imagenetclassificationwithdeep convolutionalneuralnetworks,”Proc.Advances inNeuralInformationProcessingSystems,2012.
[2]K.SimonyanandA.Zisserman,“Verydeepconvolutionalnetworks forlarge-scale image recognition,”CoRR,vol.abs/1409.1556,2014.[Online].Available:http://arxiv.org/abs/1409.1556
[3]K.He,X.Zhang,S.Ren andJ.Sun,“Deep ResidualLearning forImageRecognition,”in Proc.IEEE ConferenceonComputerVisionandPatternRecognition,pp.770-778,2016.
[4]G.Huang,Z.Liu,and K.Q.Weinberger,“Densely Connected CovolutionalNetworks,”inProc.IEEE InternationalConferenceonComputerVisionandPatternRecognition,2017.
发明内容
本发明主要解决的技术问题是如何避免现有深度卷积神经网络因为逐渐降低分辨率带来的信息损失。为了解决该问题,本发明提出一种全分辨率深度卷积神经网络方法,在不显著增加计算量的情况下提高图像分类的正确率。技术方案如下:
一种基于全分辨率深度卷积神经网络的图像分类方法,包括下列步骤:
步骤1:准备训练图像集合及集合中每幅图像的类别标签;
步骤2:设定全分辨率卷积神经网络的层数;
步骤3:设定第i层全分辨率卷积的跨度卷积的跨度di、核大小mi×mi,di≥2、mi≥2,且di+1≥di、mi+1≥mi,由跨度卷积和1×1卷积构成全分辨率卷积;
步骤4:对输入图像先进行跨度为d1、核大小为m1×m1的跨度卷积,然后将未经跨度卷积计算过的元素由1×1卷积进行计算,从而得到第一个全分辨率特征层,然后依次逐层得到所有全分辨率特征层并构成整体全分辨率神经网络,该网络最后一层称为HHF层;
步骤5:将HHF层划分成若干个区域,然后通过平均池化提取每个区域的特征,将这些区域的特征串联起来构成一个特征向量,将特征向量层和类别向量进行全连接,并对类别向量的每个元素进行Sigmoid运算;
步骤6:设定训练的损失函数,该损失函数主要衡量神经网络预测分类标签和图像真实标签之间的差别;
步骤7:通过反向传播算法,不断更新网络的权重参数,当迭代次数结束时,所学习的权重参数为最终的网络参数;
步骤8:给定待分类的图像,将其输入给全分辨率神经网络,输出的类别向量即是最终分类结果。
优选地,步骤2设定每个特征层的分辨率都与输入图像的分辨率一样大。步骤3用膨胀卷积作为跨度卷积。
附图说明
图1:现有卷积神经网络结构图示意。最左侧是分辨率为w×h的输入图像,其后的特征层的分辨率成倍降低。
图2.本发明所提卷积神经网络结构图示意。最左侧是分辨率为w×h的输入图像,其后的特征层的分辨率均是w×h。
图3.针对全分辨率网络层的卷积运算。标有’s’符号的元素由跨度为d=2的跨度卷积运算得到,而未经跨度卷积计算过的元素均由1×1卷积得到。
图4.一个用于图像分类的16层全分辨率神经网络架构。最后一层L16是HHF层。L17层是特征向量层。L18层是类别向量层。
具体实施方式
图2给出了本发明的主要思想。在本发明的卷积神经网络中,所特征层的分辨率都和输入图像的分辨率一样大。由于全分辨率的保持,使网络能够提取更多的细节信息,称之谓全分辨率网络(full-resolution network)。传统方法由于使用了一系列池化(pooling)、跨度为2的卷积等下采样操作,使分辨率严重下降,损失了大量细节信息。本发明所提方法丢弃了下采样操作,使分辨率及细节信息得以保持。
需要指出的是,如果直接将现有方法的下采样操作去掉,那么会由于分辨率太大而导致网络的卷积运算量很大。因此,如何在去掉下采样的情况下,减少卷积运算的计算量是关键。为了解决该问题,本发明提出如图3所示的针对全分辨率特征层的高效卷积运算方法。其核心思想是在空间域层面交替进行跨度为d、核大小为m×m的卷积(其中d≥2、m≥2,简称跨度卷积)和无跨度的、核大小为1×1的卷积(简称1×1卷积)。在图3中,标有’s’符号的元素由跨度为d=2的跨度卷积运算得到,而未经跨度卷积计算过的元素均由1×1卷积得到。由于1×1卷积计算量很小且大部分元素都是经过1×1卷积运算得到的,所以该方法计算量较少,适合于针对全分辨率特征层进行卷积运算。
如图4所示,若干个由全分辨率特征层构成全分辨率神经网络架构。最后一个全分辨率特征层不仅具有高分辨率的特点还具备高语义的特点,所以称之为高分辨率高语义特征层(High resolution andHigh-level Semantic Feature layer),简称HHF。图4所示的全分辨率神经网络架构包含16个全分辨率特征层:L1、L2、…、L16,其中最后一层L16是HHF层(即HHF layer)。
最终的图像分类基于HHF层进行。方法是将HHF层划分成若干个相交或不相交的区域(在图4中,HHF层被划分成4个不相交的区域);通过平均池化或其它方法提取每个区域的特征,将这些区域的特征串联起来构成一个特征向量(对应图4的L17层)。设图像的类别数目是C,则类别向量b就是C维向量。将特征向量层和类别向量进行全连接,并对类别向量的每个元素进行Sigmoid运算,完成最终的图像分类。
所提方法可以经过如下几个步骤进行实施:
步骤1:准备训练图像集合及集合中每幅图像的类别标签。设类别标签的个数为C。
步骤2:设定全分辨率卷积神经网络的层数。设定每个特征层的分辨率都与输入图像的分辨率一样大。
步骤3:设定第i层全分辨率卷积的跨度卷积的跨度di、核大小mi×mi,要求di≥2、mi≥2,且一般di+1≥di、mi+1≥mi。由跨度卷积和1×1卷积构成全分辨率卷积。为了提高效率,可以用膨胀卷积作为跨度卷积。
步骤4:对输入图像先进行跨度为d1、核大小为m1×m1的跨度卷积,然后将未经跨度卷积计算过的元素由1×1卷积进行计算,从而得到第一个全分辨率特征层。然后依次逐层得到所有全分辨率特征层并构成整体全分辨率神经网络。该网络最后一层称为HHF层。
步骤5:将HHF层划分成若干个区域,然后通过平均池化(或其它方法)提取每个区域的特征,将这些区域的特征串联起来构成一个特征向量。将特征向量层和类别向量进行全连接,并对类别向量的每个元素进行Sigmoid运算。
步骤6:设定训练的损失函数,该损失函数主要衡量神经网络预测分类标签和图像真实标签之间的差别。
步骤7:通过反向传播算法,不断更新网络的权重参数(即全卷积滤波器(滤波器又称为核)的参数)。当迭代次数结束时,所学习的权重参数为最终的网络参数。
步骤8:给定待分类的图像,将其输入给全分辨率神经网络,输出的类别向量即是最终分类结果。

Claims (3)

1.一种基于全分辨率深度卷积神经网络的图像分类方法,包括下列步骤:
步骤1:准备训练图像集合及集合中每幅图像的类别标签;
步骤2:设定全分辨率卷积神经网络的层数;
步骤3:设定第i层全分辨率卷积的跨度卷积的跨度di、核大小mi×mi,di≥2、mi≥2,且di+1≥di、mi+1≥mi,由跨度卷积和1×1卷积构成全分辨率卷积;
步骤4:对输入图像先进行跨度为d1、核大小为m1×m1的跨度卷积,然后将未经跨度卷积计算过的元素由1×1卷积进行计算,从而得到第一个全分辨率特征层,然后依次逐层得到所有全分辨率特征层并构成整体全分辨率神经网络,该网络最后一层称为HHF层;
步骤5:将HHF层划分成若干个区域,然后通过平均池化提取每个区域的特征,将这些区域的特征串联起来构成一个特征向量,将特征向量层和类别向量进行全连接,并对类别向量的每个元素进行Sigmoid运算;
步骤6:设定训练的损失函数,该损失函数主要衡量神经网络预测分类标签和图像真实标签之间的差别;
步骤7:通过反向传播算法,不断更新网络的权重参数,当迭代次数结束时,所学习的权重参数为最终的网络参数;
步骤8:给定待分类的图像,将其输入给全分辨率神经网络,输出的类别向量即是最终分类结果。
2.根据权利要求1所述的方法,其特征在于,步骤2设定每个特征层的分辨率都与输入图像的分辨率一样大。
3.根据权利要求1所述的方法,其特征在于,步骤3用膨胀卷积作为跨度卷积。
CN201910379525.3A 2019-05-08 2019-05-08 基于全分辨率深度卷积神经网络的图像分类方法 Active CN110222716B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910379525.3A CN110222716B (zh) 2019-05-08 2019-05-08 基于全分辨率深度卷积神经网络的图像分类方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910379525.3A CN110222716B (zh) 2019-05-08 2019-05-08 基于全分辨率深度卷积神经网络的图像分类方法

Publications (2)

Publication Number Publication Date
CN110222716A CN110222716A (zh) 2019-09-10
CN110222716B true CN110222716B (zh) 2023-07-25

Family

ID=67820871

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910379525.3A Active CN110222716B (zh) 2019-05-08 2019-05-08 基于全分辨率深度卷积神经网络的图像分类方法

Country Status (1)

Country Link
CN (1) CN110222716B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115735224A (zh) * 2021-06-25 2023-03-03 京东方科技集团股份有限公司 非抽取的图像处理方法及装置

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107358576A (zh) * 2017-06-24 2017-11-17 天津大学 基于卷积神经网络的深度图超分辨率重建方法
CN107967484A (zh) * 2017-11-14 2018-04-27 中国计量大学 一种基于多分辨率的图像分类方法
CA2948499A1 (en) * 2016-11-16 2018-05-16 The Governing Council Of The University Of Toronto System and method for classifying and segmenting microscopy images with deep multiple instance learning
WO2019001209A1 (zh) * 2017-06-28 2019-01-03 苏州比格威医疗科技有限公司 基于三维卷积神经网络的视网膜oct图像的分类算法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CA2948499A1 (en) * 2016-11-16 2018-05-16 The Governing Council Of The University Of Toronto System and method for classifying and segmenting microscopy images with deep multiple instance learning
CN107358576A (zh) * 2017-06-24 2017-11-17 天津大学 基于卷积神经网络的深度图超分辨率重建方法
WO2019001209A1 (zh) * 2017-06-28 2019-01-03 苏州比格威医疗科技有限公司 基于三维卷积神经网络的视网膜oct图像的分类算法
CN107967484A (zh) * 2017-11-14 2018-04-27 中国计量大学 一种基于多分辨率的图像分类方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
Multimodal Learning for Multi-label Image Classification;Pang,YW;18th IEEE International Conference on Image Processing;1797-1800 *
一种融合小波变换与卷积神经网络的高相似度图像识别与分类算法;姜文超;刘海波;杨宇杰;陈佳峰;孙傲冰;计算机工程与科学(009);1646-1652 *

Also Published As

Publication number Publication date
CN110222716A (zh) 2019-09-10

Similar Documents

Publication Publication Date Title
CN111563508B (zh) 一种基于空间信息融合的语义分割方法
CN110378844B (zh) 基于循环多尺度生成对抗网络的图像盲去运动模糊方法
CN110728192B (zh) 一种基于新型特征金字塔深度网络的高分遥感图像分类方法
CN110992275B (zh) 一种基于生成对抗网络的细化单幅图像去雨方法
CN107529650B (zh) 闭环检测方法、装置及计算机设备
CN107368845A (zh) 一种基于优化候选区域的Faster R‑CNN目标检测方法
CN111062410B (zh) 基于深度学习的星型信息桥气象预测方法
CN113240683B (zh) 基于注意力机制的轻量化语义分割模型构建方法
CN113743269B (zh) 一种轻量化识别视频人体姿态的方法
CN111476133B (zh) 面向无人驾驶的前背景编解码器网络目标提取方法
CN113870335A (zh) 一种基于多尺度特征融合的单目深度估计方法
CN109784205B (zh) 一种基于多光谱巡检图像的杂草智能识别方法
CN113628201A (zh) 基于深度学习的病理切片分析方法、电子设备及可读存储介质
CN109949217A (zh) 基于残差学习和隐式运动补偿的视频超分辨率重建方法
CN114419464A (zh) 一种基于深度学习的孪生网络变化检测模型
Cai et al. Multiscale attentive image de-raining networks via neural architecture search
CN110222716B (zh) 基于全分辨率深度卷积神经网络的图像分类方法
CN114821050A (zh) 一种基于transformer的指称图像分割方法
CN111027542A (zh) 一种基于Faster RCNN算法改进的目标检测方法
CN117237559B (zh) 面向数字孪生城市的三维模型数据智能分析方法及系统
CN113538402A (zh) 一种基于密度估计的人群计数方法及系统
CN111783879B (zh) 基于正交注意力机制的层次化压缩图匹配方法及系统
CN112669216B (zh) 一种基于联邦学习的并行空洞新结构的超分辨率重构网络
CN114359167A (zh) 一种复杂场景下基于轻量化YOLOv4的绝缘子缺陷检测方法
CN114581789A (zh) 一种高光谱图像分类方法及系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant