CN112766392B - 基于并行不对称空洞卷积的深度学习网络的图像分类方法 - Google Patents

基于并行不对称空洞卷积的深度学习网络的图像分类方法 Download PDF

Info

Publication number
CN112766392B
CN112766392B CN202110103519.2A CN202110103519A CN112766392B CN 112766392 B CN112766392 B CN 112766392B CN 202110103519 A CN202110103519 A CN 202110103519A CN 112766392 B CN112766392 B CN 112766392B
Authority
CN
China
Prior art keywords
convolution
asymmetric
parallel
layer
module
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110103519.2A
Other languages
English (en)
Other versions
CN112766392A (zh
Inventor
张智杰
李秀梅
孙军梅
尉飞
赵宝奇
葛青青
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hangzhou Normal University
Original Assignee
Hangzhou Normal University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hangzhou Normal University filed Critical Hangzhou Normal University
Priority to CN202110103519.2A priority Critical patent/CN112766392B/zh
Publication of CN112766392A publication Critical patent/CN112766392A/zh
Application granted granted Critical
Publication of CN112766392B publication Critical patent/CN112766392B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02TCLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
    • Y02T10/00Road transport of goods or passengers
    • Y02T10/10Internal combustion engine [ICE] based vehicles
    • Y02T10/40Engine management systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Evolutionary Computation (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computational Linguistics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Evolutionary Biology (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开一种基于并行不对称空洞卷积的深度学习网络的图像分类方法。该方法通过引入不对称卷积构建了一种基于卷积并行性的并行不对称空洞卷积模块。该模块由不对称卷积与空洞卷积构成,通过不对称卷积结构的特殊性,使得模块在不改变感受野的情况下充分利用特征图所含信息,提高了网络模型的特征表达能力。并行不对称空洞卷积模块可以用来代替传统的连续卷积,在不增加模型复杂度的情况下,提升整个模型的准确率。嵌入该模块的任意模型对图像进行分类,会提高了分类效果。该模块嵌入方法易于实现,可用于任意模型,使模型具有更好的鲁棒性和准确率。

Description

基于并行不对称空洞卷积的深度学习网络的图像分类方法
技术领域
本发明涉及网络模式识别技术领域,涉及可以嵌入任意网络结构的一种并行不对称空洞卷积模块,具体是基于并行不对称空洞卷积的深度学习网络的图像分类方法。
背景技术
卷积神经网络广泛应用于图像分类、语义分割和图像生成等计算机视觉领域,其通过卷积核对图像中的局部区域做卷积,以提取图像中的特征,在每一层的卷积中通过参数共享以减少模型复杂度,之后结合池化操作实现位移不变性的识别。现有的卷积神经网络普遍将3×3卷积作为其基本构建模块。对于卷积神经网络而言,卷积核的感受野、深度以及通道数决定了网络的性能。感受野越大,表示特征图上像素点映射的区域越大;深度决定了网络的抽象能力或学习能力;通道数决定了卷积核所包含的信息量大小。感受野和通道数共同决定了卷积层学习有效信息与空间的能力。
传统的卷积操作主要有三个缺点:一是使用的是局部操作,不能得到比较大的范围甚至图像的全局特征,且卷积核是固定的尺寸;二是对物体的形状、姿态变化缺少适应性;三是当特征的通道数变大后,卷积核的参数也变得庞大,增加了运算量。传统的卷积操作后面一般连接池化层,池化操作会导致大量信息的丢失。2016年,空洞卷积被提出用以代替池化操作,避免了池化所带来的信息丢失,从而解决了传统卷积的上述三个缺点。然而空洞卷积带来了空间层次和信息连续性丢失等问题。虽然现有的卷积核对分类有着不错的效果,但是仍不能满足分类的精度要求。
不对称卷积通常用于模型的加速和压缩。目前并没有看到有人提出利用不对称卷积解决空洞卷积在空间层次和信息连续性上的不足。
发明内容
本发明的目的是针对现有技术的不足,提出了一种基于并行不对称空洞卷积的深度学习网络的图像分类方法,用可相容的空洞卷积、不对称卷积进行并列相加,代替现有分类模型原有的连续卷积,以增强原有的卷积核。
基于并行不对称空洞卷积的深度学习网络的图像分类方法,具体是:
步骤(1)、构建数据集,其中输入样本为二维图像,输出样本为对应目标分类结果;
步骤(2)、构建基于并行不对称空洞卷积的分类模型,并利用数据集进行训练
将现有分类模型(如VGG19、ResNet-34、ResNet-50、SENet-34和SENet-50网络)中的部分或全部n×n卷积层(其中n为奇数)替换为并行不对称空洞卷积模块;
并行不对称空洞卷积模块包括一个空洞率为1的空洞卷积层、两个非对称卷积层、一个融合层;其中两个非对称卷积层包括1×(n)卷积层、(n)×1卷积层,空洞卷积层、两个非对称卷积层并行设置,并输入至融合层;
空洞卷积层、非对称卷积层之间满足可相容性。
作为优选,现有分类模型(如VGG19、ResNet-34、ResNet-50、SENet-34和SENet-50网络)中的部分靠近输出层n×n卷积层替换为并行不对称空洞卷积模块。
步骤(3)、利用训练好的基于并行不对称空洞卷积的分类模型,用以实现图像的目标分类。
本发明的另一个目的是提供一种计算机可读存储介质,其上存储有计算机程序,当所述计算机程序在计算机中执行时,令计算机执行上述的方法。
本发明的又一个目的是提供一种计算设备,包括存储器和处理器,所述存储器中存储有可执行代码,所述处理器执行所述可执行代码时,实现权利要求上述的方法。
本发明的有益效果:
本发明提出了一种并行不对称空洞卷积模块,用不对称卷积补充空洞卷积,通过不对称卷积结构的特殊性,在不同维度上收集特征,使得模块在不改变感受野的情况下充分利用特征图的信息,提高了网络模型的特征表达能力。同时,该模块通过引入空洞卷积,使得模型在与普通卷积复杂度相近的情况下,达到使用同样感受野尺寸的普通卷积的分类效果。不对称卷积补充了空洞卷积所丢失的信息,补充了不同维度的信息,而且加速了整个网络的收敛过程,提高了网络的效率。
附图说明
图1是相容卷积并行相加等价与连续卷积核;
图2是并行不对称空洞卷积模块嵌入ResBlock的模型结构图;
图3是模块嵌入到模型不同位置时模型损失函数的收敛趋势,其中(a)嵌入到靠近模型输出层位置,(b)嵌入到靠近模型输入层位置;
图4是嵌入并行不对称空洞卷积模块的VGG19结构图;
图5是VGG19结构图。
具体实施方式
下面结合具体实施例对本发明做进一步分析。
基于并行不对称空洞卷积的深度学习网络的图像分类方法,具体是:
(一)数据获取
CIFAR-10数据集是由CIFAR(Candian Institute ForAdvancedResearch)收集整理的一个用于机器学习和图像识别问题的数据集。
这个数据集共有60000张32×32的涵盖10个分类的彩色图片。
(二)网络模型训练
步骤(2.1):网络模型搭建
如图4将图5VGG19中原有的靠近输出层的8个3×3卷积层(conv-9至conv-16)替换为并行不对称空洞卷积模块DDA;
如图2并行不对称空洞卷积模块包括一个空洞率为1的2×2空洞卷积层、两个非对称卷积层、一个融合层;其中两个非对称卷积层包括1×3卷积层、3×1卷积层,空洞卷积层、1×3卷积层、3×1卷积层并行设置,并输入至融合层;
表1并行不对称空洞卷积模型结构
1)空洞卷积层、1×3卷积层、3×1卷积层之间满足可相容性。
如图1所示,将几个大小兼容的二维卷积核在相同的输入数据上进行相同步幅的卷积操作,可以得到相同分辨率的输出。通过将这些输出求和并在相应的位置上进行相加,可以得到等效核的输出特征图。即使卷积核大小不同,二维卷积的可加性依旧成立。
其中I是一个输入图片,K(1)与K(2)是两个相兼容的卷积核,将它们的输出相加,操作上等价于卷积核K(3)的输出。卷积核K(3)能够同时兼容K(1)与K(2)。兼容是指尺寸较小的卷积核可以填充到较大的卷积核里。
2)空洞卷积
对于输入X,n×n卷积核,输出n维特征图。设F是一个离散过滤器,也就是空洞卷积,l定义为空洞率,*l为空洞卷积操作:
(x*lF)=∑s+ltx(t)F(t) (2)
其中s是指卷积核的步长,t是指卷积核大小。
对于第j个卷积核,相应的输出特征映射通道如公式:
其中χ:,:,k是x的第k个通道的特征图,而代表的第k个尺寸为H*W卷积核。空洞卷积支持指数扩展的感受野,不会丢失分辨率或覆盖范围。将偶数尺寸的卷积核通过注入奇数个空洞,其感受野范围等价于一个奇数尺寸的连续卷积,其对应的输出映射通道等价于公式(3),因此空洞卷积能够代替连续卷积操作。
3)不对称卷积
对于对称卷积而言,不对称卷积更加注重特定维度的特征,其感受野与对称卷积的感受野不同。例如1×3卷积核在卷积的过程中,更加倾向于列间特征的提取。
其中fi表示n×n大小的第i个卷积核,τ和h是两个列向量,k是f的秩。因为卷积核的尺寸不同,不对称卷积的特征提取操作与普通卷积的特征提取相比,不仅减少了对称卷积带来的信息冗余,而且在不对称卷积之间又引入了非线性激活函数。因此,不对称卷积的非线性提高了网络模型的拟合能力。将互相兼容的不对称卷积得到的特征图相加,也可以增强特征图的特征表达能力。
步骤(2.2):网络模型训练
将制作好的数据集输入到嵌入有并行不对称空洞卷积模块的VGG19网络中进行模型训练。训练得到的网络模型可用于对图像进行预测。
步骤(2.3):预测与数据后处理
将一张图片输入到训练得到的网络模型后,输出结果为一个行数为1,列数为10的数组,对该数组中的最大值的列索引进行寻找,若列索引为规定好类别,那么该图片就含有此分类下的物体。
采用CIFAR-10与孟加拉文数据集(孟加拉文数据集为Kaggle2020比赛提供的数据集,包括10000张孟加拉文手写体图片),比较了VGG19、ResNet-34、ResNet-50、SENet-34、SENet-50五种经典的基础网络及在上述基础网络中嵌入并行不对称空洞卷积模块的分类效果。在嵌入并行不对称空洞卷积模块的网络中,均将并行不对称空洞卷积模块替换靠近输出层的最后一个卷积层,将连续卷积核和不对称空洞卷积模块的感受野面积都固定为9。卷积核大小为2×2,空洞率为1的空洞卷积在不对称卷积的信息补充下,其准确率与原基础网络相比有所提高。实验结果如表2、3所示。通过对比可见,嵌入并行不对称空洞卷积模块后网络的准确率均有比较明显的提升。实验结果表明,通过空洞卷积和不对称卷积对特征图的信息补偿,使得网络中所嵌入的并行不对称空洞卷积模块可以更好地提取特征,提高了模型的特征表达能力,提升了网络的分类效果。
表2在CIFAR-10数据集上的分类准确率比较
表3在孟加拉文数据集的准确率比较
将并行不对称空洞卷积模块中的2×2空洞卷积替换成3×3的普通连续卷积后,则模块变成ACNet的不对称卷积模块ACB。将并行不对称空洞卷积模块与替换成普通连续卷积的ACB模块分别替换VGG19、ResNet-34、SENet-34网络的靠近输出层位置的卷积层,保持相同的网络结构,对CIFAR-10数据集上的分类效果进行比较,实验结果如表4所示。实验结果表明,嵌入并行不对称空洞卷积模块的网络比嵌入ACB模块的网络准确率更高,模型复杂度也更低。这是因为不对称卷积结构的特殊性,使其与空洞卷积的结构相匹配,与连续卷积搭配相比,准确率要高;由于空洞卷积比连续卷积的参数要少,使得模型的复杂度也降低了很多。只有与空洞卷积相结合,不对称卷积的特征补偿能力才能更好地体现。
表4与ACB模块的准确率及网络复杂度比较
将并行不对称空洞卷积模块分别嵌入到VGG19网络中的不同层并进行比较,其中损失函数的振荡变化及收敛情况如图3所示。
当并行不对称空洞卷积模块替换VGG19的靠近输出层的conv-16时,损失函数的收敛趋势如图3(a)所示。当并行不对称空洞卷积模块替换VGG19的靠近输入层的conv-1时,损失函数的收敛趋势如图3(b)所示。两者的迭代次数和运行环境均一致。可见,模块嵌入到靠近模型的网络输出层位置时,其损失函数的振荡比模块嵌入到靠近网络输入层时的振荡要小。这是因为该模块中含有不对称卷积,当放在与输入层比较近的位置时,会导致网络的信息损失变大,收敛速度变慢。而将模块嵌入到靠近网络输出层,则会加速收敛的过程,提升网络的性能。

Claims (6)

1.基于并行不对称空洞卷积的深度学习网络的图像分类方法,其特征在于该方法包括以下步骤:
步骤(1)、构建数据集,其中输入样本为二维图像,输出样本为对应图像目标分类结果;
步骤(1)、构建基于并行不对称空洞卷积的分类模型,并利用数据集进行训练
将现有分类模型中的部分或全部n×n卷积层替换为并行不对称空洞卷积模块;其中n为奇数;
并行不对称空洞卷积模块包括一个空洞率为1的空洞卷积层、两个非对称卷积层、一个融合层;空洞卷积层、两个非对称卷积层并行设置,并输入至融合层;其中两个非对称卷积层包括1×n卷积层、n×1卷积层;
所述非对称卷积层满足如下公式:
其中fi表示第i个卷积核,τ和h是两个列向量,k是f的秩;
步骤(3)、利用训练好的基于并行不对称空洞卷积的分类模型,用以实现图像的目标分类。
2.如权利要求1所述的基于并行不对称空洞卷积的深度学习网络的图像分类方法,其特征在于空洞卷积层、非对称卷积层之间满足可相容性。
3.如权利要求1所述的基于并行不对称空洞卷积的深度学习网络的图像分类方法,其特征在于现有分类模型中的部分靠近输出层n×n卷积层替换为并行不对称空洞卷积模块。
4.如权利要求1或3所述的基于并行不对称空洞卷积的深度学习网络的图像分类方法,其特征在于现有分类模型为VGG19、ResNet-34、ResNet-50、SENet-34或SENet-50网络。
5.一种计算机可读存储介质,其上存储有计算机程序,当所述计算机程序在计算机中执行时,令计算机执行权利要求1-4中任一项所述的方法。
6.一种计算设备,包括存储器和处理器,所述存储器中存储有可执行代码,所述处理器执行所述可执行代码时,实现权利要求1-4中任一项所述的方法。
CN202110103519.2A 2021-01-26 2021-01-26 基于并行不对称空洞卷积的深度学习网络的图像分类方法 Active CN112766392B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110103519.2A CN112766392B (zh) 2021-01-26 2021-01-26 基于并行不对称空洞卷积的深度学习网络的图像分类方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110103519.2A CN112766392B (zh) 2021-01-26 2021-01-26 基于并行不对称空洞卷积的深度学习网络的图像分类方法

Publications (2)

Publication Number Publication Date
CN112766392A CN112766392A (zh) 2021-05-07
CN112766392B true CN112766392B (zh) 2023-10-24

Family

ID=75705749

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110103519.2A Active CN112766392B (zh) 2021-01-26 2021-01-26 基于并行不对称空洞卷积的深度学习网络的图像分类方法

Country Status (1)

Country Link
CN (1) CN112766392B (zh)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113951900B (zh) * 2021-11-02 2023-02-21 燕山大学 一种基于多模态信号的运动想象意图识别方法
CN116071423A (zh) * 2023-02-09 2023-05-05 哈尔滨市科佳通用机电股份有限公司 一种铁路货车闸调器部件定位方法、系统及介质
CN116485728A (zh) * 2023-04-03 2023-07-25 东北石油大学 抽油杆表面缺陷检测方法及装置、电子设备和存储介质

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109344883A (zh) * 2018-09-13 2019-02-15 西京学院 一种基于空洞卷积的复杂背景下果树病虫害识别方法
CN109754017A (zh) * 2019-01-09 2019-05-14 西北工业大学 基于可分离的三维残差网络和迁移学习高光谱图像分类方法
CN109886391A (zh) * 2019-01-30 2019-06-14 东南大学 一种基于空间正反对角卷积的神经网络压缩方法
CN110222773A (zh) * 2019-06-10 2019-09-10 西北工业大学 基于不对称分解卷积网络的高光谱图像小样本分类方法
CN110232394A (zh) * 2018-03-06 2019-09-13 华南理工大学 一种多尺度图像语义分割方法
CN111160276A (zh) * 2019-12-31 2020-05-15 重庆大学 基于遥感影像的u型空洞全卷积分割网络识别模型

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110232394A (zh) * 2018-03-06 2019-09-13 华南理工大学 一种多尺度图像语义分割方法
CN109344883A (zh) * 2018-09-13 2019-02-15 西京学院 一种基于空洞卷积的复杂背景下果树病虫害识别方法
CN109754017A (zh) * 2019-01-09 2019-05-14 西北工业大学 基于可分离的三维残差网络和迁移学习高光谱图像分类方法
CN109886391A (zh) * 2019-01-30 2019-06-14 东南大学 一种基于空间正反对角卷积的神经网络压缩方法
CN110222773A (zh) * 2019-06-10 2019-09-10 西北工业大学 基于不对称分解卷积网络的高光谱图像小样本分类方法
CN111160276A (zh) * 2019-12-31 2020-05-15 重庆大学 基于遥感影像的u型空洞全卷积分割网络识别模型

Also Published As

Publication number Publication date
CN112766392A (zh) 2021-05-07

Similar Documents

Publication Publication Date Title
CN112766392B (zh) 基于并行不对称空洞卷积的深度学习网络的图像分类方法
US11151361B2 (en) Dynamic emotion recognition in unconstrained scenarios
Ge et al. An attention mechanism based convolutional LSTM network for video action recognition
CN112084362B (zh) 一种基于层次化特征互补的图像哈希检索方法
CN109145815A (zh) 一种sar目标识别方法、装置、计算机设备及存储介质
CN110796162B (zh) 图像识别、训练识别模型的方法、相关设备及存储介质
CN113344188A (zh) 基于通道注意力模块的轻量级神经网络模型
US20210056357A1 (en) Systems and methods for implementing flexible, input-adaptive deep learning neural networks
CN112634296A (zh) 门机制引导边缘信息蒸馏的rgb-d图像语义分割方法及终端
CN113554032B (zh) 基于高度感知的多路并行网络的遥感图像分割方法
CN113066089B (zh) 一种基于注意力引导机制的实时图像语义分割方法
CN110969089A (zh) 噪声环境下的轻量级人脸识别系统及识别方法
CN116740527A (zh) U型网络与自注意力机制结合的遥感图像变化检测方法
CN112149662A (zh) 一种基于扩张卷积块的多模态融合显著性检测方法
CN115457332A (zh) 基于图卷积神经网络和类激活映射的图像多标签分类方法
CN115272670A (zh) 一种基于掩膜注意交互的sar图像舰船实例分割方法
Zhang et al. Multi-scale fusion and global semantic encoding for affordance detection
CN107273478A (zh) 一种基于Group Lasso的半监督哈希图像搜索方法
CN117011655A (zh) 基于自适应区域选择特征融合方法、目标跟踪方法及系统
CN116758610A (zh) 基于注意力机制和特征融合的轻量化人耳识别方法及系统
CN113378866B (zh) 图像分类方法、系统、存储介质及电子设备
CN113222016B (zh) 一种基于高层和低层特征交叉增强的变化检测方法及装置
CN115082840A (zh) 基于数据组合和通道相关性的动作视频分类方法和装置
Orhei Urban landmark detection using computer vision
Girish et al. One network doesn't rule them all: Moving beyond handcrafted architectures in self-supervised learning

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant