CN113344188A

CN113344188A - 基于通道注意力模块的轻量级神经网络模型

Info

Publication number: CN113344188A
Application number: CN202110676000.3A
Authority: CN
Inventors: 张萌; 吕锋; 李国庆; 李娇杰
Original assignee: Southeast University
Current assignee: Southeast University
Priority date: 2021-06-18
Filing date: 2021-06-18
Publication date: 2021-09-03

Abstract

本发明公开了一种基于通道注意力模块的轻量级神经网络模型，该模型基本模块是由深度可分离卷积、逐点卷积以及通道注意力模块相互结合而成。利用深度可分离卷积替换标准卷积能够降低参数量与计算量，而逐点卷积能够实现跨通道之间图像特征信息的融合；最后引入通道注意力机制，一方面增加图像特征信息之间的交互，提升卷积效率，另一方面则能够通过学习图像全局信息来有选择性地加强包含有用信息的特征并抑制无用信息特征。基于此构建的轻量级神经网络模型DCCANet相比于目前主流轻量级神经网络模型，在COCO数据集目标检测与实例分割任务中，检测精度与实例分割精度以及响应速度都有了明显的提升。

Description

基于通道注意力模块的轻量级神经网络模型

技术领域

本发明属于人工智能技术领域，具体涉及神经网络模型的压缩与加速，以及轻量级神经网络模型结构的设计。本发明所提出的模型能够在图像分类、检测以及分割等图像领域被广泛的应用。

背景技术

目前，随着深度学习技术的发展，关于神经网络模型的研究热点也进一步转变。初期研究方向集中于如何加深神经网络模型的深度，用于提取深层特征，并促进梯度的传播。而现在愈来愈多的应用场景具有落地需求，在硬件资源有限的条件下，如何降低神经网络模型的大小并加快识别响应速度，并保证其识别精度不会大幅度降低成为当下研究的热点之一。

关于神经网络模型的压缩与加速的研究，主流研究方法有：(1)参数修剪，是指删除网络模型中的一些冗余参数，降低网络的复杂度，提高模型的泛化能力；(2)网络精馏，是指利用大量未标记的迁移数据，通过训练，让小模型去拟合大模型，从而让小模型学到与大模型相似的函数映射；(3)低秩分解，则是利用矩阵或张量分解技术来分解深度网络模型中的卷积核；(4)模型量化，核心思想是利用较低的位(FP16、INT8)代替原始32位浮点型的参数，能够大幅提升模型的压缩率，但同时也会导致识别精度的明显降低；(5)设计紧凑型卷积，主要是对网络结构的改进与设计。基本思想通过将神经网络模型中的较大卷积核直接进行替换为紧凑型卷积核，能够保证感受野不变，并增加了模型非线性表达能力的情况下，大幅度降低模型的参数量，以及减少相应的计算量，从而实现了对模型的压缩。典型代表网络模型有SqueezeNet以及MobileNet等。在以上几个研究方法中，如何设计一种轻量级神经网络模型结构是当下研究的最大热点之一。

在轻量级神经网络结构的设计过程中，通常是利用组卷积，深度可分离卷积，以及逐点卷积来构建网络模型。其中MobileNet系列与ShuffleNet系列都取得了一定的成功，在图像分类，目标检测以及图像分割等领域任务中大放异彩。不仅大幅度降低了网络模型的复杂性，使其更容易部署在移动端，而且还能够保证模型仍然具有良好的识别精度。然而，在此基础上，如何能够进一步压缩与加速神经网络模型仍然充满了挑战。

发明内容

为了克服现有技术不足，本发明设计了一种基于通道注意力的轻量级神经网络模型DCCANet(Depthwise separable convolution combined with Channel Attentionmodule)。利用深度可分离卷积，逐点卷积以及通道注意力模块之间的组合，能够有效提升卷积的效率。从而实现模型能够在较低的参数量与计算量情况下，仍然具有较高的识别准确率。

本发明所采用的技术方案包括如下步骤：

一种基于通道注意力模块的轻量级神经网络模型，包括多个结构重复网络模块；所述网络模块包括依次连接的深度可分离卷积层、逐点卷积层、深度可分离卷积层和通道注意力层。

进一步的，所述深度可分离卷积层、逐点卷积层的卷积核大小分别为3x3、1x1。对于本结构具体而言，每个网络模块的内部卷积层按顺序组成结构如下：首先是一个卷积核大小为3x3的深度可分离卷积层，其输出紧接着是一个卷积核大小为1x1逐点卷积层。然后再用一个卷积核大小为3x3的深度可分离卷积对上一层的卷积输出进行卷积操作。最后再利用通道注意力层对深度可分离卷积后的输出特征做进一步增强，增强细微特征的提取能力，并且还能够增加通道之间特征信息的交互。模块内部的卷积通道数量采用了一种逐步扩张的方式。对于输入通道数为C的特征图，经首先过3x3深度可分离卷积后，通道数量仍然为C。其次在经过1x1卷积时，对其通道数量以2的倍数进行扩张。最后的深度可分离卷积层与通道注意力层均不改变其通道数量。

进一步的，所述通道注意力层利用全局池化将卷积输出的特征维度转化为1x1xC,其中C为特征图的通道数，再通过一维卷积进一步提取特征，并利用Sigmoid激活函数进行激活转化为C个数值，然后将其作为权重系数作用于C个特征通道。利用注意力机制来弥补深度可分离卷积的缺陷。通道注意力机制可以学习图像的全局信息，增强有用特征，抑制无用特征。并能够替换标准卷积，对深度可分离卷积输出后的特征信息做进一步的融合与交互，增强了模型的特征提取能力，提升卷积的效率，同时仍然保证了模型较低的参数量与计算量。

进一步的，在第一层的深度可分离卷积与第二层的逐点卷积层后，分别添加BN层以及Relu激活函数层。在第三层的深度可分离卷积层后添加BN层与线性激活函数层，相比于Relu激活函数，线性激活函数能够减少特征信息的丢失问题。

本发明与现有技术相比，具有以下优点：与其它轻量级神经网络模型相比较，在同等参数量的情况下，其特征提取能力更强，能够学习到更加深层的特征信息，因此，具有更高的识别准确率。而在性能接近的条件下，本发明具有更少的参数量与计算量，更加适用于具有实时性要求的应用场景。

附图说明

图1是本发明的网络模型结构图。

图2是MobileNetV2网络模型结构图。

图3是基于本发明的实例分割与检测结果与其它模型的对比图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明做进一步详细说明应当理解，此处描述的具体实施例仅用以解释本发明，并不用于限定本发明。

基于通道注意力模块的轻量级神经网络模型，主要思想方法是：首先利用卷积核大小为3x3深度可分离卷积与卷积核大小为1x1的逐点卷积搭建基本网络。然后利用参数量与计算量更少的通道注意力模块来进一步增强深度可分离卷积输出通道特征信息之间的交互，提升卷积效率，并加强图像中细微特征的提取，从而具有较高的识别准确率。

如图1所示，是本发明的网络模型基本组成单元结构图。进一步的，每个网络模块内部共包含4个卷积层，其中顺序结构分别是卷积核大小为3x3的深度可分离卷积层，然后是卷积核大小为1x1的逐点卷积层，最后是一个卷积核大小为3x3的深度可分离卷积层，以及通道注意力模块。模块内部的卷积通道数量采用了一种逐步扩张的方式。对于输入通道数为C的特征图，经首先过3x3深度可分离卷积后，通道数量仍然为C。其次在经过1x1卷积时，对其通道数量以2的倍数进行扩张。最后的深度可分离卷积层与通道注意力层均不改变其通道数量。

进一步的，在每个模块内部，在第一层的深度可分离卷积与第二层的逐点卷积层后，分别添加BN层以及Relu激活函数层。在第三层的深度可分离卷积层后添加BN层与线性激活函数层，相比于Relu激活函数，线性激活函数能够减少特征信息的丢失问题。

相比于标准卷积，利用深度可分离卷积，能够降低卷积操作的参数量与计算量。而利用注意力模块可以对各通道的依赖性进行建模以提高网络的表示能力，并且能够对特征进行逐通道调整，因此网络就能够通过学习全局信息来有选择性的加强包含有用信息的特征并抑制无用特征。

进一步的，本发明采用的通道注意力机制工作原理是：对于输入特征图X，其维度为HxWxC，首先利用全局池化将其尺寸调整为1x1xC，然后在经过卷积核大小为3的一维卷积进行卷积操作，最后通过Sigmoid激活函数将其转化为C个值，将其作为权重系数再作用于输入特征图X。

综上所述，本发明完整的网络模型结构如表1所示，其中包含了输入维度与输出维度，以及每个模块的重复次数b，以及下采样倍数s，该模型可应用于图像分类，目标检测以及图像分割等领域，并在实时性的应用场景中具有良好的性能。相比于图2所示的MobileNetV2轻量级神经网络模型，本发明通过进一步提升卷积的效率与神经网络特征提取能力，最终大幅提升了网络模型的性能。在COCO数据集实例分割任务中，基于Detectron2平台搭建的CenterMask网络模型，采用本发明的轻量级神经网络模型作为骨干网络，在目标检测与图像分割精度以及响应速度上都取得了明显的优势。

表1 本发明提出的轻量级神经网络模型结构

如表2所示，对比了本发明所提出的模型与其它主流轻量级神经网络模型，在COCO数据集目标检测与实例分割任务中的性能差异。由表2可知，本发明提出的的DCCANet模型相比于VoVNet、MobileNet、GhostNet以及MobileNext等目前主流的轻量级神经网络模型。在参数量接近的情况下，目标框的准确率达到了53.8％，分割精度达到了45.3％。其检测精度与分割精度均高于其它模型，并且在识别响应速度上依然具有一定的优势，能够满足实时性的需求。

进一步的，通过效果图进行阐述。如图3所示，其中(b)与(d)为本文所提出的DCCANet网络模型在COCO数据集上的实例分割图，(a)与(c)则分别是MobileNext网络模型与MobileNetV2网络模型的实例分割图。对比可知，本文所提出的模型在目标比较密集的时候，仍然能够准确的分割出每个实例。因此，能够进一步证明本发明所提出的基于通道注意力模块的轻量级神经网络模型是一种更加优异的网络模型。

表2 不同网络模型在COCO数据集实例分割任务中的性能差异比较

Claims

1.一种基于通道注意力模块的轻量级神经网络模型，其特征在于，包括多个结构重复网络模块；所述网络模块包括依次连接的深度可分离卷积层、逐点卷积层、深度可分离卷积层和通道注意力层。

2.根据权利要求1所述的一种基于通道注意力模块的轻量级神经网络模型，其特征在于，第一层的深度可分离卷积层、第二层的逐点卷积层、第三层的深度可分离卷积层的卷积核大小分别为3x3、1x1、3x3。

3.根据权利要求1所述的一种基于通道注意力模块的轻量级神经网络模型，其特征在于，所述网络模块内的特征通道数是通过逐点卷积网络层进行调整，以一种逐步扩张的方式增加特征通道数量。

4.根据权利要求1所述的一种基于通道注意力模块的轻量级神经网络模型，其特征在于，所述通道注意力层利用全局池化将卷积输出的特征维度转化为1x1xC，其中C为特征图的通道数，再通过卷积核大小为3的一维卷积进一步提取特征，并利用Sigmoid激活函数进行激活转化为C个数值，然后将其作为权重系数作用于C个特征通道。

5.根据权利要求1所述的一种基于通道注意力模块的轻量级神经网络模型，其特征在于，在所述模块中的第一层深度可分离卷积层与第二层逐点卷积层后，均添加了BN层以及Relu激活函数层，而在第三层深度可分离卷积层后添加BN层与线性激活函数层。