CN110222716A - 基于全分辨率深度卷积神经网络的图像分类方法 - Google Patents

基于全分辨率深度卷积神经网络的图像分类方法 Download PDF

Info

Publication number
CN110222716A
CN110222716A CN201910379525.3A CN201910379525A CN110222716A CN 110222716 A CN110222716 A CN 110222716A CN 201910379525 A CN201910379525 A CN 201910379525A CN 110222716 A CN110222716 A CN 110222716A
Authority
CN
China
Prior art keywords
convolution
full resolution
span
image
layer
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201910379525.3A
Other languages
English (en)
Other versions
CN110222716B (zh
Inventor
庞彦伟
李亚钊
谢今
汪天才
张志杰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tianjin University
Original Assignee
Tianjin University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tianjin University filed Critical Tianjin University
Priority to CN201910379525.3A priority Critical patent/CN110222716B/zh
Publication of CN110222716A publication Critical patent/CN110222716A/zh
Application granted granted Critical
Publication of CN110222716B publication Critical patent/CN110222716B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02TCLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
    • Y02T10/00Road transport of goods or passengers
    • Y02T10/10Internal combustion engine [ICE] based vehicles
    • Y02T10/40Engine management systems

Abstract

本发明涉及一种基于全分辨率深度卷积神经网络的图像分类方法,包括下列步骤:准备训练图像集合及集合中每幅图像的类别标签;设定全分辨率卷积神经网络的层数;对输入图像先进行跨度卷积,然后将未经跨度卷积计算过的元素由1×1卷积进行计算,从而得到第一个全分辨率特征层,然后依次逐层得到所有全分辨率特征层并构成整体全分辨率神经网络,该网络最后一层称为HHF层;将HHF层划分成若干个区域,然后通过平均池化提取每个区域的特征,将这些区域的特征串联起来构成一个特征向量,将特征向量层和类别向量进行全连接,并对类别向量的每个元素进行Sigmoid运算;设定训练的损失函数;训练。

Description

基于全分辨率深度卷积神经网络的图像分类方法
技术领域
本发明涉及生物特征识别、人机交互、视频监控、无人驾驶等计算机视觉领域中图像分类方法,主要涉及基于深度卷积神经网络的图像分类方法。
背景技术
图像分类是将给定的图像分成若干预先定义好的类别的过程。例如,在人脸识别中,将一张人脸图像分类成不同身份的人脸;在场景分类中,将一幅图像分类成室内场景或室外场景。
由于具备强大的层次化特征表达能力,深度卷积神经网络已经成为最先进的图像识别框架。最具代表性的深度卷积神经网络方法是AlexNet[1]、VggNet[2]、ResNet[3]、DenseNet[4]等。对于输入图像,现有基于深度卷积神经网络的方法根据分辨率大小将神经网络分成若干块(block),每块内部的若干特征层(layer)具有相同的分辨率,第一块分辨率最高,其后面的块的分辨率逐渐降低(一般成倍降低)。例如第一块、第二块、第三块、第四块、第五块的分辨率分别是128×128、64×64、32×32、16×16、8×8。图1显示了一个现有神经网络结构,其中第一块内的各个层的分辨率和输入图像的分辨率都是w×h。但第二块和第三块的分辨率分别降低为(w/2)×(h/2)和(w/4)×(h/4)。
参考文献:
[1]A.Krizhevsky,I.Sutskever,andG.E.Hinton,“Imagenetclassificationwithdeep convolutionalneuralnetworks,”Proc.Advances inNeuralInformationProcessingSystems,2012.
[2]K.SimonyanandA.Zisserman,“Verydeepconvolutionalnetworks forlarge-scale image recognition,”CoRR,vol.abs/1409.1556,2014.[Online].Available:http://arxiv.org/abs/1409.1556
[3]K.He,X.Zhang,S.Ren andJ.Sun,“Deep ResidualLearning forImageRecognition,”in Proc.IEEE ConferenceonComputerVisionandPatternRecognition,pp.770-778,2016.
[4]G.Huang,Z.Liu,and K.Q.Weinberger,“Densely Connected CovolutionalNetworks,”inProc.IEEE InternationalConferenceonComputerVisionandPatternRecognition,2017.
发明内容
本发明主要解决的技术问题是如何避免现有深度卷积神经网络因为逐渐降低分辨率带来的信息损失。为了解决该问题,本发明提出一种全分辨率深度卷积神经网络方法,在不显著增加计算量的情况下提高图像分类的正确率。技术方案如下:
一种基于全分辨率深度卷积神经网络的图像分类方法,包括下列步骤:
步骤1:准备训练图像集合及集合中每幅图像的类别标签;
步骤2:设定全分辨率卷积神经网络的层数;
步骤3:设定第i层全分辨率卷积的跨度卷积的跨度di、核大小mi×mi,di≥2、mi≥2,且di+1≥di、mi+1≥mi,由跨度卷积和1×1卷积构成全分辨率卷积;
步骤4:对输入图像先进行跨度为d1、核大小为m1×m1的跨度卷积,然后将未经跨度卷积计算过的元素由1×1卷积进行计算,从而得到第一个全分辨率特征层,然后依次逐层得到所有全分辨率特征层并构成整体全分辨率神经网络,该网络最后一层称为HHF层;
步骤5:将HHF层划分成若干个区域,然后通过平均池化提取每个区域的特征,将这些区域的特征串联起来构成一个特征向量,将特征向量层和类别向量进行全连接,并对类别向量的每个元素进行Sigmoid运算;
步骤6:设定训练的损失函数,该损失函数主要衡量神经网络预测分类标签和图像真实标签之间的差别;
步骤7:通过反向传播算法,不断更新网络的权重参数,当迭代次数结束时,所学习的权重参数为最终的网络参数;
步骤8:给定待分类的图像,将其输入给全分辨率神经网络,输出的类别向量即是最终分类结果。
优选地,步骤2设定每个特征层的分辨率都与输入图像的分辨率一样大。步骤3用膨胀卷积作为跨度卷积。
附图说明
图1:现有卷积神经网络结构图示意。最左侧是分辨率为w×h的输入图像,其后的特征层的分辨率成倍降低。
图2.本发明所提卷积神经网络结构图示意。最左侧是分辨率为w×h的输入图像,其后的特征层的分辨率均是w×h。
图3.针对全分辨率网络层的卷积运算。标有’s’符号的元素由跨度为d=2的跨度卷积运算得到,而未经跨度卷积计算过的元素均由1×1卷积得到。
图4.一个用于图像分类的16层全分辨率神经网络架构。最后一层L16是HHF层。L17层是特征向量层。L18层是类别向量层。
具体实施方式
图2给出了本发明的主要思想。在本发明的卷积神经网络中,所特征层的分辨率都和输入图像的分辨率一样大。由于全分辨率的保持,使网络能够提取更多的细节信息,称之谓全分辨率网络(full-resolution network)。传统方法由于使用了一系列池化(pooling)、跨度为2的卷积等下采样操作,使分辨率严重下降,损失了大量细节信息。本发明所提方法丢弃了下采样操作,使分辨率及细节信息得以保持。
需要指出的是,如果直接将现有方法的下采样操作去掉,那么会由于分辨率太大而导致网络的卷积运算量很大。因此,如何在去掉下采样的情况下,减少卷积运算的计算量是关键。为了解决该问题,本发明提出如图3所示的针对全分辨率特征层的高效卷积运算方法。其核心思想是在空间域层面交替进行跨度为d、核大小为m×m的卷积(其中d≥2、m≥2,简称跨度卷积)和无跨度的、核大小为1×1的卷积(简称1×1卷积)。在图3中,标有’s’符号的元素由跨度为d=2的跨度卷积运算得到,而未经跨度卷积计算过的元素均由1×1卷积得到。由于1×1卷积计算量很小且大部分元素都是经过1×1卷积运算得到的,所以该方法计算量较少,适合于针对全分辨率特征层进行卷积运算。
如图4所示,若干个由全分辨率特征层构成全分辨率神经网络架构。最后一个全分辨率特征层不仅具有高分辨率的特点还具备高语义的特点,所以称之为高分辨率高语义特征层(High resolution andHigh-level Semantic Feature layer),简称HHF。图4所示的全分辨率神经网络架构包含16个全分辨率特征层:L1、L2、…、L16,其中最后一层L16是HHF层(即HHF layer)。
最终的图像分类基于HHF层进行。方法是将HHF层划分成若干个相交或不相交的区域(在图4中,HHF层被划分成4个不相交的区域);通过平均池化或其它方法提取每个区域的特征,将这些区域的特征串联起来构成一个特征向量(对应图4的L17层)。设图像的类别数目是C,则类别向量b就是C维向量。将特征向量层和类别向量进行全连接,并对类别向量的每个元素进行Sigmoid运算,完成最终的图像分类。
所提方法可以经过如下几个步骤进行实施:
步骤1:准备训练图像集合及集合中每幅图像的类别标签。设类别标签的个数为C。
步骤2:设定全分辨率卷积神经网络的层数。设定每个特征层的分辨率都与输入图像的分辨率一样大。
步骤3:设定第i层全分辨率卷积的跨度卷积的跨度di、核大小mi×mi,要求di≥2、mi≥2,且一般di+1≥di、mi+1≥mi。由跨度卷积和1×1卷积构成全分辨率卷积。为了提高效率,可以用膨胀卷积作为跨度卷积。
步骤4:对输入图像先进行跨度为d1、核大小为m1×m1的跨度卷积,然后将未经跨度卷积计算过的元素由1×1卷积进行计算,从而得到第一个全分辨率特征层。然后依次逐层得到所有全分辨率特征层并构成整体全分辨率神经网络。该网络最后一层称为HHF层。
步骤5:将HHF层划分成若干个区域,然后通过平均池化(或其它方法)提取每个区域的特征,将这些区域的特征串联起来构成一个特征向量。将特征向量层和类别向量进行全连接,并对类别向量的每个元素进行Sigmoid运算。
步骤6:设定训练的损失函数,该损失函数主要衡量神经网络预测分类标签和图像真实标签之间的差别。
步骤7:通过反向传播算法,不断更新网络的权重参数(即全卷积滤波器(滤波器又称为核)的参数)。当迭代次数结束时,所学习的权重参数为最终的网络参数。
步骤8:给定待分类的图像,将其输入给全分辨率神经网络,输出的类别向量即是最终分类结果。

Claims (3)

1.一种基于全分辨率深度卷积神经网络的图像分类方法,包括下列步骤:
步骤1:准备训练图像集合及集合中每幅图像的类别标签。
步骤2:设定全分辨率卷积神经网络的层数;
步骤3:设定第i层全分辨率卷积的跨度卷积的跨度di、核大小mi×mi,di≥2、mi≥2,且di+1≥di、mi+1≥mi,由跨度卷积和1×1卷积构成全分辨率卷积;
步骤4:对输入图像先进行跨度为d1、核大小为m1×m1的跨度卷积,然后将未经跨度卷积计算过的元素由1×1卷积进行计算,从而得到第一个全分辨率特征层,然后依次逐层得到所有全分辨率特征层并构成整体全分辨率神经网络,该网络最后一层称为HHF层;
步骤5:将HHF层划分成若干个区域,然后通过平均池化提取每个区域的特征,将这些区域的特征串联起来构成一个特征向量,将特征向量层和类别向量进行全连接,并对类别向量的每个元素进行Sigmoid运算;
步骤6:设定训练的损失函数,该损失函数主要衡量神经网络预测分类标签和图像真实标签之间的差别;
步骤7:通过反向传播算法,不断更新网络的权重参数,当迭代次数结束时,所学习的权重参数为最终的网络参数;
步骤8:给定待分类的图像,将其输入给全分辨率神经网络,输出的类别向量即是最终分类结果。
2.根据权利要求1所述的方法,其特征在于,步骤2设定每个特征层的分辨率都与输入图像的分辨率一样大。
3.根据权利要求1所述的方法,其特征在于,步骤3用膨胀卷积作为跨度卷积。
CN201910379525.3A 2019-05-08 2019-05-08 基于全分辨率深度卷积神经网络的图像分类方法 Active CN110222716B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910379525.3A CN110222716B (zh) 2019-05-08 2019-05-08 基于全分辨率深度卷积神经网络的图像分类方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910379525.3A CN110222716B (zh) 2019-05-08 2019-05-08 基于全分辨率深度卷积神经网络的图像分类方法

Publications (2)

Publication Number Publication Date
CN110222716A true CN110222716A (zh) 2019-09-10
CN110222716B CN110222716B (zh) 2023-07-25

Family

ID=67820871

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910379525.3A Active CN110222716B (zh) 2019-05-08 2019-05-08 基于全分辨率深度卷积神经网络的图像分类方法

Country Status (1)

Country Link
CN (1) CN110222716B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2022267046A1 (zh) * 2021-06-25 2022-12-29 京东方科技集团股份有限公司 非抽取的图像处理方法及装置

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107358576A (zh) * 2017-06-24 2017-11-17 天津大学 基于卷积神经网络的深度图超分辨率重建方法
CN107967484A (zh) * 2017-11-14 2018-04-27 中国计量大学 一种基于多分辨率的图像分类方法
CA2948499A1 (en) * 2016-11-16 2018-05-16 The Governing Council Of The University Of Toronto System and method for classifying and segmenting microscopy images with deep multiple instance learning
WO2019001209A1 (zh) * 2017-06-28 2019-01-03 苏州比格威医疗科技有限公司 基于三维卷积神经网络的视网膜oct图像的分类算法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CA2948499A1 (en) * 2016-11-16 2018-05-16 The Governing Council Of The University Of Toronto System and method for classifying and segmenting microscopy images with deep multiple instance learning
CN107358576A (zh) * 2017-06-24 2017-11-17 天津大学 基于卷积神经网络的深度图超分辨率重建方法
WO2019001209A1 (zh) * 2017-06-28 2019-01-03 苏州比格威医疗科技有限公司 基于三维卷积神经网络的视网膜oct图像的分类算法
CN107967484A (zh) * 2017-11-14 2018-04-27 中国计量大学 一种基于多分辨率的图像分类方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
PANG,YW: "Multimodal Learning for Multi-label Image Classification", 18TH IEEE INTERNATIONAL CONFERENCE ON IMAGE PROCESSING, pages 1797 - 1800 *
姜文超;刘海波;杨宇杰;陈佳峰;孙傲冰: "一种融合小波变换与卷积神经网络的高相似度图像识别与分类算法", 计算机工程与科学, no. 009, pages 1646 - 1652 *

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2022267046A1 (zh) * 2021-06-25 2022-12-29 京东方科技集团股份有限公司 非抽取的图像处理方法及装置

Also Published As

Publication number Publication date
CN110222716B (zh) 2023-07-25

Similar Documents

Publication Publication Date Title
CN110782462B (zh) 一种基于双流特征融合的语义分割方法
CN107564025B (zh) 一种基于深度神经网络的电力设备红外图像语义分割方法
CN106778604B (zh) 基于匹配卷积神经网络的行人再识别方法
CN105678284B (zh) 一种固定位人体行为分析方法
CN112991354B (zh) 一种基于深度学习的高分辨率遥感影像语义分割方法
Li et al. Sepvit: Separable vision transformer
CN108090472B (zh) 基于多通道一致性特征的行人重识别方法及其系统
CN110728192A (zh) 一种基于新型特征金字塔深度网络的高分遥感图像分类方法
CN110956222B (zh) 用于水下目标检测的检测网络的方法
CN110990608A (zh) 一种基于Siamese结构双向长短时记忆网络的三维模型检索方法
CN111582091B (zh) 基于多分支卷积神经网络的行人识别方法
CN110852152B (zh) 一种基于数据增强的深度哈希行人重识别方法
CN110555461A (zh) 基于多结构卷积神经网络特征融合的场景分类方法及系统
CN113628201A (zh) 基于深度学习的病理切片分析方法、电子设备及可读存储介质
CN114419464A (zh) 一种基于深度学习的孪生网络变化检测模型
CN111046213B (zh) 一种基于图像识别的知识库构建方法
CN117237559B (zh) 面向数字孪生城市的三维模型数据智能分析方法及系统
CN110222716A (zh) 基于全分辨率深度卷积神经网络的图像分类方法
CN109583406B (zh) 基于特征关注机制的人脸表情识别方法
CN112529057A (zh) 一种基于图卷积网络的图相似性计算方法及装置
CN109978013A (zh) 一种用于人物动作识别的深度聚类方法
CN113688867B (zh) 一种跨域图像分类方法
Shi et al. Building footprint extraction with graph convolutional network
CN111783879B (zh) 基于正交注意力机制的层次化压缩图匹配方法及系统
CN114359167A (zh) 一种复杂场景下基于轻量化YOLOv4的绝缘子缺陷检测方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant