CN113344188A - 基于通道注意力模块的轻量级神经网络模型 - Google Patents

基于通道注意力模块的轻量级神经网络模型 Download PDF

Info

Publication number
CN113344188A
CN113344188A CN202110676000.3A CN202110676000A CN113344188A CN 113344188 A CN113344188 A CN 113344188A CN 202110676000 A CN202110676000 A CN 202110676000A CN 113344188 A CN113344188 A CN 113344188A
Authority
CN
China
Prior art keywords
layer
convolution
point
neural network
network model
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202110676000.3A
Other languages
English (en)
Inventor
张萌
吕锋
李国庆
李娇杰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Southeast University
Original Assignee
Southeast University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Southeast University filed Critical Southeast University
Priority to CN202110676000.3A priority Critical patent/CN113344188A/zh
Publication of CN113344188A publication Critical patent/CN113344188A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/048Activation functions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种基于通道注意力模块的轻量级神经网络模型,该模型基本模块是由深度可分离卷积、逐点卷积以及通道注意力模块相互结合而成。利用深度可分离卷积替换标准卷积能够降低参数量与计算量,而逐点卷积能够实现跨通道之间图像特征信息的融合;最后引入通道注意力机制,一方面增加图像特征信息之间的交互,提升卷积效率,另一方面则能够通过学习图像全局信息来有选择性地加强包含有用信息的特征并抑制无用信息特征。基于此构建的轻量级神经网络模型DCCANet相比于目前主流轻量级神经网络模型,在COCO数据集目标检测与实例分割任务中,检测精度与实例分割精度以及响应速度都有了明显的提升。

Description

基于通道注意力模块的轻量级神经网络模型
技术领域
本发明属于人工智能技术领域,具体涉及神经网络模型的压缩与加速,以及轻量级神经网络模型结构的设计。本发明所提出的模型能够在图像分类、检测以及分割等图像领域被广泛的应用。
背景技术
目前,随着深度学习技术的发展,关于神经网络模型的研究热点也进一步转变。初期研究方向集中于如何加深神经网络模型的深度,用于提取深层特征,并促进梯度的传播。而现在愈来愈多的应用场景具有落地需求,在硬件资源有限的条件下,如何降低神经网络模型的大小并加快识别响应速度,并保证其识别精度不会大幅度降低成为当下研究的热点之一。
关于神经网络模型的压缩与加速的研究,主流研究方法有:(1)参数修剪,是指删除网络模型中的一些冗余参数,降低网络的复杂度,提高模型的泛化能力;(2)网络精馏,是指利用大量未标记的迁移数据,通过训练,让小模型去拟合大模型,从而让小模型学到与大模型相似的函数映射;(3)低秩分解,则是利用矩阵或张量分解技术来分解深度网络模型中的卷积核;(4)模型量化,核心思想是利用较低的位(FP16、INT8)代替原始32位浮点型的参数,能够大幅提升模型的压缩率,但同时也会导致识别精度的明显降低;(5)设计紧凑型卷积,主要是对网络结构的改进与设计。基本思想通过将神经网络模型中的较大卷积核直接进行替换为紧凑型卷积核,能够保证感受野不变,并增加了模型非线性表达能力的情况下,大幅度降低模型的参数量,以及减少相应的计算量,从而实现了对模型的压缩。典型代表网络模型有SqueezeNet以及MobileNet等。在以上几个研究方法中,如何设计一种轻量级神经网络模型结构是当下研究的最大热点之一。
在轻量级神经网络结构的设计过程中,通常是利用组卷积,深度可分离卷积,以及逐点卷积来构建网络模型。其中MobileNet系列与ShuffleNet系列都取得了一定的成功,在图像分类,目标检测以及图像分割等领域任务中大放异彩。不仅大幅度降低了网络模型的复杂性,使其更容易部署在移动端,而且还能够保证模型仍然具有良好的识别精度。然而,在此基础上,如何能够进一步压缩与加速神经网络模型仍然充满了挑战。
发明内容
为了克服现有技术不足,本发明设计了一种基于通道注意力的轻量级神经网络模型DCCANet(Depthwise separable convolution combined with Channel Attentionmodule)。利用深度可分离卷积,逐点卷积以及通道注意力模块之间的组合,能够有效提升卷积的效率。从而实现模型能够在较低的参数量与计算量情况下,仍然具有较高的识别准确率。
本发明所采用的技术方案包括如下步骤:
一种基于通道注意力模块的轻量级神经网络模型,包括多个结构重复网络模块;所述网络模块包括依次连接的深度可分离卷积层、逐点卷积层、深度可分离卷积层和通道注意力层。
进一步的,所述深度可分离卷积层、逐点卷积层的卷积核大小分别为3x3、1x1。对于本结构具体而言,每个网络模块的内部卷积层按顺序组成结构如下:首先是一个卷积核大小为3x3的深度可分离卷积层,其输出紧接着是一个卷积核大小为1x1逐点卷积层。然后再用一个卷积核大小为3x3的深度可分离卷积对上一层的卷积输出进行卷积操作。最后再利用通道注意力层对深度可分离卷积后的输出特征做进一步增强,增强细微特征的提取能力,并且还能够增加通道之间特征信息的交互。模块内部的卷积通道数量采用了一种逐步扩张的方式。对于输入通道数为C的特征图,经首先过3x3深度可分离卷积后,通道数量仍然为C。其次在经过1x1卷积时,对其通道数量以2的倍数进行扩张。最后的深度可分离卷积层与通道注意力层均不改变其通道数量。
进一步的,所述通道注意力层利用全局池化将卷积输出的特征维度转化为1x1xC,其中C为特征图的通道数,再通过一维卷积进一步提取特征,并利用Sigmoid激活函数进行激活转化为C个数值,然后将其作为权重系数作用于C个特征通道。利用注意力机制来弥补深度可分离卷积的缺陷。通道注意力机制可以学习图像的全局信息,增强有用特征,抑制无用特征。并能够替换标准卷积,对深度可分离卷积输出后的特征信息做进一步的融合与交互,增强了模型的特征提取能力,提升卷积的效率,同时仍然保证了模型较低的参数量与计算量。
进一步的,在第一层的深度可分离卷积与第二层的逐点卷积层后,分别添加BN层以及Relu激活函数层。在第三层的深度可分离卷积层后添加BN层与线性激活函数层,相比于Relu激活函数,线性激活函数能够减少特征信息的丢失问题。
本发明与现有技术相比,具有以下优点:与其它轻量级神经网络模型相比较,在同等参数量的情况下,其特征提取能力更强,能够学习到更加深层的特征信息,因此,具有更高的识别准确率。而在性能接近的条件下,本发明具有更少的参数量与计算量,更加适用于具有实时性要求的应用场景。
附图说明
图1是本发明的网络模型结构图。
图2是MobileNetV2网络模型结构图。
图3是基于本发明的实例分割与检测结果与其它模型的对比图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明做进一步详细说明应当理解,此处描述的具体实施例仅用以解释本发明,并不用于限定本发明。
基于通道注意力模块的轻量级神经网络模型,主要思想方法是:首先利用卷积核大小为3x3深度可分离卷积与卷积核大小为1x1的逐点卷积搭建基本网络。然后利用参数量与计算量更少的通道注意力模块来进一步增强深度可分离卷积输出通道特征信息之间的交互,提升卷积效率,并加强图像中细微特征的提取,从而具有较高的识别准确率。
如图1所示,是本发明的网络模型基本组成单元结构图。进一步的,每个网络模块内部共包含4个卷积层,其中顺序结构分别是卷积核大小为3x3的深度可分离卷积层,然后是卷积核大小为1x1的逐点卷积层,最后是一个卷积核大小为3x3的深度可分离卷积层,以及通道注意力模块。模块内部的卷积通道数量采用了一种逐步扩张的方式。对于输入通道数为C的特征图,经首先过3x3深度可分离卷积后,通道数量仍然为C。其次在经过1x1卷积时,对其通道数量以2的倍数进行扩张。最后的深度可分离卷积层与通道注意力层均不改变其通道数量。
进一步的,在每个模块内部,在第一层的深度可分离卷积与第二层的逐点卷积层后,分别添加BN层以及Relu激活函数层。在第三层的深度可分离卷积层后添加BN层与线性激活函数层,相比于Relu激活函数,线性激活函数能够减少特征信息的丢失问题。
相比于标准卷积,利用深度可分离卷积,能够降低卷积操作的参数量与计算量。而利用注意力模块可以对各通道的依赖性进行建模以提高网络的表示能力,并且能够对特征进行逐通道调整,因此网络就能够通过学习全局信息来有选择性的加强包含有用信息的特征并抑制无用特征。
进一步的,本发明采用的通道注意力机制工作原理是:对于输入特征图X,其维度为HxWxC,首先利用全局池化将其尺寸调整为1x1xC,然后在经过卷积核大小为3的一维卷积进行卷积操作,最后通过Sigmoid激活函数将其转化为C个值,将其作为权重系数再作用于输入特征图X。
综上所述,本发明完整的网络模型结构如表1所示,其中包含了输入维度与输出维度,以及每个模块的重复次数b,以及下采样倍数s,该模型可应用于图像分类,目标检测以及图像分割等领域,并在实时性的应用场景中具有良好的性能。相比于图2所示的MobileNetV2轻量级神经网络模型,本发明通过进一步提升卷积的效率与神经网络特征提取能力,最终大幅提升了网络模型的性能。在COCO数据集实例分割任务中,基于Detectron2平台搭建的CenterMask网络模型,采用本发明的轻量级神经网络模型作为骨干网络,在目标检测与图像分割精度以及响应速度上都取得了明显的优势。
表1 本发明提出的轻量级神经网络模型结构
Figure BDA0003121146660000041
如表2所示,对比了本发明所提出的模型与其它主流轻量级神经网络模型,在COCO数据集目标检测与实例分割任务中的性能差异。由表2可知,本发明提出的的DCCANet模型相比于VoVNet、MobileNet、GhostNet以及MobileNext等目前主流的轻量级神经网络模型。在参数量接近的情况下,目标框的准确率达到了53.8%,分割精度达到了45.3%。其检测精度与分割精度均高于其它模型,并且在识别响应速度上依然具有一定的优势,能够满足实时性的需求。
进一步的,通过效果图进行阐述。如图3所示,其中(b)与(d)为本文所提出的DCCANet网络模型在COCO数据集上的实例分割图,(a)与(c)则分别是MobileNext网络模型与MobileNetV2网络模型的实例分割图。对比可知,本文所提出的模型在目标比较密集的时候,仍然能够准确的分割出每个实例。因此,能够进一步证明本发明所提出的基于通道注意力模块的轻量级神经网络模型是一种更加优异的网络模型。
表2 不同网络模型在COCO数据集实例分割任务中的性能差异比较
Figure BDA0003121146660000051

Claims (5)

1.一种基于通道注意力模块的轻量级神经网络模型,其特征在于,包括多个结构重复网络模块;所述网络模块包括依次连接的深度可分离卷积层、逐点卷积层、深度可分离卷积层和通道注意力层。
2.根据权利要求1所述的一种基于通道注意力模块的轻量级神经网络模型,其特征在于,第一层的深度可分离卷积层、第二层的逐点卷积层、第三层的深度可分离卷积层的卷积核大小分别为3x3、1x1、3x3。
3.根据权利要求1所述的一种基于通道注意力模块的轻量级神经网络模型,其特征在于,所述网络模块内的特征通道数是通过逐点卷积网络层进行调整,以一种逐步扩张的方式增加特征通道数量。
4.根据权利要求1所述的一种基于通道注意力模块的轻量级神经网络模型,其特征在于,所述通道注意力层利用全局池化将卷积输出的特征维度转化为1x1xC,其中C为特征图的通道数,再通过卷积核大小为3的一维卷积进一步提取特征,并利用Sigmoid激活函数进行激活转化为C个数值,然后将其作为权重系数作用于C个特征通道。
5.根据权利要求1所述的一种基于通道注意力模块的轻量级神经网络模型,其特征在于,在所述模块中的第一层深度可分离卷积层与第二层逐点卷积层后,均添加了BN层以及Relu激活函数层,而在第三层深度可分离卷积层后添加BN层与线性激活函数层。
CN202110676000.3A 2021-06-18 2021-06-18 基于通道注意力模块的轻量级神经网络模型 Pending CN113344188A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110676000.3A CN113344188A (zh) 2021-06-18 2021-06-18 基于通道注意力模块的轻量级神经网络模型

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110676000.3A CN113344188A (zh) 2021-06-18 2021-06-18 基于通道注意力模块的轻量级神经网络模型

Publications (1)

Publication Number Publication Date
CN113344188A true CN113344188A (zh) 2021-09-03

Family

ID=77476501

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110676000.3A Pending CN113344188A (zh) 2021-06-18 2021-06-18 基于通道注意力模块的轻量级神经网络模型

Country Status (1)

Country Link
CN (1) CN113344188A (zh)

Cited By (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113989206A (zh) * 2021-10-20 2022-01-28 杭州深睿博联科技有限公司 一种基于轻量化模型的骨龄预测方法及装置
CN113989267A (zh) * 2021-11-12 2022-01-28 河北工业大学 基于轻量级神经网络的电池缺陷检测方法
CN114139689A (zh) * 2021-12-09 2022-03-04 东北大学 一种用于嵌入式系统的深层聚合神经网络轻量化方法
CN114492631A (zh) * 2022-01-25 2022-05-13 燕山大学 一种基于通道注意力的空间注意力计算方法
CN114861736A (zh) * 2022-06-07 2022-08-05 重庆大学 基于gialdn网络的内部缺陷定位模型及内部缺陷定位方法
CN114882530A (zh) * 2022-05-09 2022-08-09 东南大学 一种面向行人检测的轻量级卷积神经网络模型
CN114943864A (zh) * 2022-06-14 2022-08-26 福建省亿力信息技术有限公司 一种融合注意力机制和卷积神经网络模型的烟叶定级方法
CN115035897A (zh) * 2022-08-10 2022-09-09 中科南京智能技术研究院 一种关键词检测方法及系统
CN115100148A (zh) * 2022-06-23 2022-09-23 安徽省农业科学院农业经济与信息研究所 一种基于轻量型卷积神经网络的农作物害虫检测方法
CN115511124A (zh) * 2022-09-27 2022-12-23 上海网商电子商务有限公司 一种基于售后维修记录的客户分级方法
CN116612087A (zh) * 2023-05-22 2023-08-18 山东省人工智能研究院 一种基于YOLOv5-LA的冠脉CTA狭窄检测方法
CN116720563A (zh) * 2022-09-19 2023-09-08 荣耀终端有限公司 一种提升定点神经网络模型精度的方法、装置及电子设备
CN117593698A (zh) * 2023-12-04 2024-02-23 成都信息工程大学 区域目标入侵检测方法、装置及系统和存储介质

Cited By (22)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113989206A (zh) * 2021-10-20 2022-01-28 杭州深睿博联科技有限公司 一种基于轻量化模型的骨龄预测方法及装置
CN113989267A (zh) * 2021-11-12 2022-01-28 河北工业大学 基于轻量级神经网络的电池缺陷检测方法
CN113989267B (zh) * 2021-11-12 2024-05-14 河北工业大学 基于轻量级神经网络的电池缺陷检测方法
CN114139689A (zh) * 2021-12-09 2022-03-04 东北大学 一种用于嵌入式系统的深层聚合神经网络轻量化方法
CN114139689B (zh) * 2021-12-09 2024-05-07 东北大学 一种用于嵌入式系统的深层聚合神经网络轻量化方法
CN114492631A (zh) * 2022-01-25 2022-05-13 燕山大学 一种基于通道注意力的空间注意力计算方法
CN114882530A (zh) * 2022-05-09 2022-08-09 东南大学 一种面向行人检测的轻量级卷积神经网络模型
CN114882530B (zh) * 2022-05-09 2024-07-12 东南大学 一种构建面向行人检测的轻量级卷积神经网络模型的方法
CN114861736A (zh) * 2022-06-07 2022-08-05 重庆大学 基于gialdn网络的内部缺陷定位模型及内部缺陷定位方法
CN114861736B (zh) * 2022-06-07 2023-11-17 重庆大学 基于gialdn网络的内部缺陷定位装置及内部缺陷定位方法
CN114943864A (zh) * 2022-06-14 2022-08-26 福建省亿力信息技术有限公司 一种融合注意力机制和卷积神经网络模型的烟叶定级方法
CN115100148A (zh) * 2022-06-23 2022-09-23 安徽省农业科学院农业经济与信息研究所 一种基于轻量型卷积神经网络的农作物害虫检测方法
CN115035897B (zh) * 2022-08-10 2022-11-11 中科南京智能技术研究院 一种关键词检测方法及系统
CN115035897A (zh) * 2022-08-10 2022-09-09 中科南京智能技术研究院 一种关键词检测方法及系统
CN116720563A (zh) * 2022-09-19 2023-09-08 荣耀终端有限公司 一种提升定点神经网络模型精度的方法、装置及电子设备
CN116720563B (zh) * 2022-09-19 2024-03-29 荣耀终端有限公司 一种提升定点神经网络模型精度的方法、装置及电子设备
CN115511124A (zh) * 2022-09-27 2022-12-23 上海网商电子商务有限公司 一种基于售后维修记录的客户分级方法
CN115511124B (zh) * 2022-09-27 2023-04-18 上海网商电子商务有限公司 一种基于售后维修记录的客户分级方法
CN116612087B (zh) * 2023-05-22 2024-02-23 山东省人工智能研究院 一种基于YOLOv5-LA的冠脉CTA狭窄检测方法
CN116612087A (zh) * 2023-05-22 2023-08-18 山东省人工智能研究院 一种基于YOLOv5-LA的冠脉CTA狭窄检测方法
CN117593698A (zh) * 2023-12-04 2024-02-23 成都信息工程大学 区域目标入侵检测方法、装置及系统和存储介质
CN117593698B (zh) * 2023-12-04 2024-08-20 成都信息工程大学 区域目标入侵检测方法、装置及系统和存储介质

Similar Documents

Publication Publication Date Title
CN113344188A (zh) 基于通道注意力模块的轻量级神经网络模型
CN110210551B (zh) 一种基于自适应主体敏感的视觉目标跟踪方法
CN108764471B (zh) 基于特征冗余分析的神经网络跨层剪枝方法
CN111242288B (zh) 一种用于病变图像分割的多尺度并行深度神经网络模型构建方法
CN111091130A (zh) 基于轻量级卷积神经网络的实时图像语义分割方法及系统
CN110930342B (zh) 一种基于彩色图引导的深度图超分辨率重建网络构建方法
CN112766392B (zh) 基于并行不对称空洞卷积的深度学习网络的图像分类方法
CN115775316A (zh) 基于多尺度注意力机制的图像语义分割方法
CN115082928A (zh) 面向复杂场景的不对称双分支实时语义分割网络的方法
CN113436198A (zh) 一种协同图像超分辨率重建的遥感图像语义分割方法
CN114170657A (zh) 融合注意力机制与高阶特征表示的面部情感识别方法
CN111882053B (zh) 一种基于拼接卷积的神经网络模型压缩方法
CN114612306A (zh) 一种面向裂缝检测的深度学习超分辨率方法
CN110633706B (zh) 一种基于金字塔网络的语义分割方法
CN114120424A (zh) 一种基于注意力机制的轻量级面部情绪识别方法
CN111461169B (zh) 基于正反卷积和多层分支深度网络的行人属性识别方法
CN116704506A (zh) 一种基于交叉环境注意力的指代图像分割方法
CN116452900A (zh) 一种基于轻量级神经网络的目标检测方法
CN116311455A (zh) 一种基于改进Mobile-former的表情识别方法
CN114118415B (zh) 一种轻量级瓶颈注意力机制的深度学习方法
CN112990336B (zh) 基于竞争注意力融合的深度三维点云分类网络构建方法
Si et al. Image semantic segmentation based on improved DeepLab V3 model
CN112001431B (zh) 一种基于梳状卷积的高效图像分类方法
Yang Semantic segmentation method based on improved DeeplabV3+
Lou et al. Rethinking the value of local feature fusion in convolutional neural networks

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20210903

RJ01 Rejection of invention patent application after publication