CN111986085A

CN111986085A - 一种基于深度反馈注意力网络系统的图像超分辨率方法

Info

Publication number: CN111986085A
Application number: CN202010765385.6A
Authority: CN
Inventors: 施举鹏; 李静; 崔员宁; 祝蓓
Original assignee: Nanjing University of Aeronautics and Astronautics
Current assignee: Nanjing University of Aeronautics and Astronautics
Priority date: 2020-07-31
Filing date: 2020-07-31
Publication date: 2020-11-24

Abstract

本发明公开了一种基于深度反馈注意力网络系统的图像超分辨率方法，包括输入模块、特征提取模块、反馈模块、重构模块及输出模块。本发明提出的网络系统在每一轮训练中，以迭代的方式学习图像低分辨率到高分辨率的映射，并在迭代的过程中结合反馈注意力机制提高模型学习的准确性，从而进一步提升超分辨率结果的质量。本发明提出的网络系统模型在单图像超分辨率基准测试集Set5的´2/´3/´4倍率重建任务上，最高分别达到了38.04/34.65/32.41db的峰值信噪比。

Description

一种基于深度反馈注意力网络系统的图像超分辨率方法

技术领域

本发明涉及图像超分辨率领域，具体涉及一种基于深度反馈注意力网络系统的图像超分辨率方法。

背景技术

一直以来，图像超分辨率(Super-Resolution，SR)被广泛应用于诸如医学影像、人脸识别等对图像质量有较高需求的场景。同时在深度学习领域，作为底层的计算机视觉问题，超分辨率还可以通过产生高质量图像为其他高级视觉任务提供优质数据集来提升相应模型性能。图像超分辨率旨在实现低维图像空间向高维图像空间的映射，即低分辨率图像(Low-Resolution，LR)向高分辨率图像(High-Resolution，HR)的转换。

传统的图像超分辨率方法主要是使用插值算法对需要填补的像素值进行计算，该类方法简单高效，可应用于实时快速的图像上采样，但因其过于依赖人为定义的映射关系以及先验假设，导致基于插值算法的图像重建质量往往难以保证。为了解决传统插值方法的问题，基于机器学习的超分辨率方法逐渐发展起来，该类方法主要通过在大量带标注的图像数据集中通过一定的算法学习低分辨率到高分辨率的映射来拟合LR-HR映射关系。

随着深度学习模型的不断发展，超分辨率领域也提出了许多新的网络模型。SRRcsnct引入了残差结构，通过在线性网络的基础上添加跳跃连接来缓解梯度信息在多层传播过程中的损失。得益于此，超分辨率网络可以设计得更深，这大大增强了模型的学习与表征能力。尽管许多深度学习模型取得了较好的重建效果，但是较深的网络也带来了诸如过拟合以及收敛速度较慢等问题，这类问题属于深度神经网络的通病，许多质量较高的超分辨率结果大多依赖于网络的反复调参尝试，最终的模型在实际应用场景中难以复现。因此，许多网络模型设计的重点开始从增加网络的深度转移到低分辨率图像到高分辨率图像(LR-HR)映射的学习上。为了实现特征信息的前馈及反馈传播，SRFBN引入了反馈连接结构，实现了参数的充分复用。递归和反馈结构确实对模型参数的利用产生了好的影响，但由于这类结构都是通过在训练过程中以循环迭代的形式传递特征信息，冗余的特征信息以及一些噪声可能会在迭代中产生叠加效应，并影响到网络的收敛以及最终效果。

发明内容

为了抑制基于反馈结构的超分辨率网络中由于深度迭代产生的副作用，本发明提供一种基于深度反馈注意力网络系统，该网络可以有效抑制冗余信息在反馈迭代中的叠加，提高参数共享及特征传播的质量，同时提升模型的收敛速度。

为实现上述目的，本发明采用以下技术方案：

一种深度反馈注意力网络系统，所述深度反馈注意力网络系统包括输入模块、特征提取模块、反馈模块、重构模块及输出模块，

特征提取模块包括卷积层和反卷积层，用于提取低分辨率图像的特征；

重构模块包括反卷积和卷积层，用于对输出的特征进行上采样，生成最终的SR残差图像；

反馈模块包括特征映射模块与注意力模块，其中特征映射模块包括多个卷积层与反卷积层组成的特征映射组，用于对输入低分辨率图像的特征进行映射学习，从而得到重构特征，注意力模块包括通道注意力门，用于对重构特征进行特征过滤。

本发明还采用以下技术方案：一种基于深度反馈注意力网络系统的图像超分辨率方法，在每一轮训练中，以迭代的方式学习图像低分辨率到高分辨率的映射，并在迭代的过程中结合反馈注意力机制提高模型学习的准确性，从而进一步提升超分辨率结果的质量。本发明提出的网络系统模型在单图像超分辨率基准测试集Set5的×2/×3/×4倍率重建任务上，最高分别达到了38.04/34.65/32.41db的峰值信噪比。网络系统方法步骤如下：

S1、向网络中输入低分辨率图像LR，高分辨率参照图像H，训练次数e及反馈网络深度n；

S2、初始化网络参数；

S3、提取低分辨率图像LR的特征作为输入特征F；

S4、将输入特征F输入到网络中，基于特征映射模块与注意力模块操作得到重构特征S_i；

S5、将S_i与输入特征F合并后作为新的输入特征重新输入到网络中；

S6、迭代步骤S4-S5，共重复n次，得到重构特征S_n，n为反馈网络深度；

S7、利用输出的重构特征S_n，基于上采样得到输出高分辨率图像SR；

S8、计算高分辨率参考图像H与低分辨率图像LR之间的误差，根据误差更新网络参数；

S9、将更新的网络参数带入步骤S2中，重复步骤S1-S7，重复训练e次，最终得到训练好的网络参数；

S10、将训练好的网络参数与低分辨率图像LR、反馈网络深度n共同输入到网络中，实施步骤S2-S7，得到输出高分辨率图像。

为优化上述技术方案，采取的具体措施还包括：

进一步地，方法中参数进行循环迭代，第一次将输入特征F输入到网络中，基于特征映射模块与注意力模块操作得到重构特征S_1；将S_1与输入特征F合并后重新输入到网络中，基于特征映射模块与注意力模块操作得到重构特征S_2；再将S_2与输入特征F合并后重新输入到网络中，得到新的重构特征，重复n次，最终得到重构特征s_n。

进一步地，步骤S4中，经过特征提取后，将提取的特征输入到网络系统的注意力模块中，表示为：

其中f_FE表示包含了两个特征提取层Conv(3，n)，Conv(3，n)表示具有n个大小为3*3的卷积核的卷积层，I_LR表示输入的低分辨率图像LR；

表示从LR图像中提取的特征。

进一步地，特征映射过程不断迭代，第t次迭代表示为：

其中f_DFAN表示模型中间的特征映射模块，

表示第t-1次迭代的重构特征输出，

表示第t次迭代的特征输入，

表示反馈模块第t次迭代的特征输出的重构特征。

进一步地，步骤S7中，采用反卷积层Deconv(k，n)对输出的重构特征进行上采样，然后再用卷积层Conv(3，c)生成最终的SR残差图像；SR残差图像和原图像的上采样共同生成最终的高分辨率图像SR。

进一步地，步骤S7中，输出特征通过注意力单元进行特征过滤，包含三个过程：挤压、激励以及放缩。

本发明的有益效果是：1)本发明提出了一种基于反馈机制的迭代反馈注意力超分辨率网络系统，实现了参数复用以及冗余特征过滤机制，与同类超分辨率模型相比，该模型具有更少的参数量以及更快的执行速度，同时也能获得较高质量的超分辨率重建水平。

2)本发明提出了一种新的迭代反馈注意力结构，引入了注意力机制，在特征的反馈传播中学习注意力权重以实现通道层次的过滤，提高了模型学习的效率，同时该结构可以应用到任何基于反馈结构的模型中。

3)本发明提出的模型在公开标准数据集上取得了优于大部分同类方法的重建效果，在单张处理时间秒级以内的情况下达到了最高38db以上的峰值信噪比。

附图说明

图1、本发明的基于深度反馈注意力的超分辨率网络系统模型框架图。

图2、本发明的深度反馈注意力结构的展开形式示意图。

图3、本发明的同模型在4倍放大下的重建视觉效果对比图。

图4、本发明的同模型在4倍放大下的重建视觉效果对比图。

图5、本发明的同模型在4倍放大下的重建视觉效果对比图。

具体实施方式

现在结合附图对本发明作进一步详细的说明。

需要注意的是，发明中所引用的如“上”、“下”、“左”、“右”、“前”、“后”等的用语，亦仅为便于叙述的明了，而非用以限定本发明可实施的范围，其相对关系的改变或调整，在无实质变更技术内容下，当亦视为本发明可实施的范畴。

本发明结合了反馈结构与注意力机制，提出了一种基于深度反馈注意力网络系统(Deep Feedback Attention Network，DFAN)。所述深度反馈注意力网络系统包括输入模块、特征提取模块、反馈模块、重构模块及输出模块，

如图1所示，在DFAN模型中，核心部分包括参数的循环迭代以及残差注意力。循环迭代机制通过反馈连接形成的反向传递实现，其确保了特征信息在迭代过程中的充分利用。其中注意力模块这种机制在不同领域(图像、义本)下的具体实现是不同的，在本发明中是通过对不同通道的特征分配不同的权重来实现的，即学习一个和特征数量相匹配的一个权重向量。注意力模块通过学习对应的权重来对每轮迭代的特征通道进行过滤，并在迭代中不断对输出高分辨率图像SR特征进行微调。由于注意力模块本身对于特征信息的传递存在抑制作用，为了减少这种对特征的削弱，本义借鉴了RAN中引入残差的方法来实现注意力模板，通过与上一轮迭代的权重模板相关联，每一轮迭代的注意力模板都学习一个基于迭代的更深一层的残差信息，利用这种迭代，不断细化图像的特征。这两种机制的结合确保了参数共享，也使得模型更加精准地学习LR-HR映射。

图1所示为DFAN的静态结构，在实际训练过程中，DFAN模型的动态迭代结构如图2所示，单幅图像的训练可被展开为T轮迭代，迭代的序号由1至T表示。图中下面部分的实线表示特征的反馈复用，上面部分的虚线表示每轮学习的注意力被叠加至下一次循环以形成迭代残差学习。每轮迭代中模型会合并当前输入与之前迭代输出的所有特征，共同作为当前的输入特征，以实现参数复用及特征共享。模型的基本组成模块主要包含由卷积层和反卷积层构成的反馈块和一个通道注意力门。

本发明还公开了一种基于深度反馈注意力网络系统的图像超分辨率方法，方法步骤如下：

S2、初始化网络参数；

S3、提取低分辨率图像LR的特征作为输入特征F；

方法中参数进行循环迭代，第一次将输入特征F输入到网络中，基于特征映射模块与注意力模块操作得到重构特征S_1；将S_1与输入特征F合并后重新输入到网络中，基于特征映射模块与注意力模块操作得到重构特征S_2；再将S_2与输入特征F合并后重新输入到网络中，得到新的重构特征，以此类推，重复n次，最终得到重构特征S_n。

令Conv(f，n)和Deconv(f，n)分别表示具有n个大小为f*f的卷积核的卷积层和反卷积层，令I_LR为低分辨率图像，经过特征提取后输入到注意力模块中的输入可表示为：

(输入特征F)表示从LR图像中提取的特征，该LR特征将会被作为中间映射学习部分的输入，即反馈模块中的隐藏单元。而特征映射过程的第t次迭代可以表示为：

其中f_DFAN表示模型中间的特征映射模块，

表示第t-1次迭代的特征输出，

表示第t次迭代的特征输入，

表示反馈模块第t次迭代的特征输出的重构特征。

最终每一次迭代的注意力反馈模块的输出由重建模块进行重建，本发明采用一个反卷积层Deconv(k，n)对输出的特征进行上采样，然后再用一个卷积层Conv(3，c)生成最终的SR残差图像。SR残差图像和原图像的上采样共同生成最终的SR结果。最终SR结果可以表示为：

其中f_re↑表示重建模块，该模块由一个反卷积层与一个卷积层构成，通过前面输出的SR特征生成最终的图像。

表示注意力反馈模块最后一次迭代的特征输出，f_bi↑表示基于双三次插值的上采样操作，由于每一次迭代都生成一个SR图像，因此t轮迭代之后最终会生成t个SR图像。

表示第t轮迭代的输出SR图像。得益于迭代过程不断更新的特征，越往后迭代产生的图像质量更高，最后一轮迭代的输出图像将被作为整个模型的最终输出结果。

本发明中卷积-反卷积映射组以及注意力门中的具体迭代过程如下。

基于深度反馈注意力的映射模块主要由卷积块和反卷积块组成，卷积块和反卷积块的叠加可以实现特征重构并不断迭代，在反复的上下采样中计算累计的重构误差。这种迭代方式与DBPN中的上反射与下反射单元的堆叠有略微不同，通过直接连接的卷积-反卷积层形成交错稠密连接的结构，这种连接方式可以实现特征的反复重构从而在约束浅层特征的同时保证梯度信息的有效传播。

具体的，注意力自反馈模块的输入为

和

首先由一个1×1的卷积层对输入特征进行重构作为特征提取的输入，得到注意力反馈模块的输入特征

接下来输入特征将由多个卷积块和反卷积块组成的级联组进行迭代重构，同时每一个组的输出都会与之前所有组的输出进行合并，在自反馈模块中，第t轮迭代第n个组的输入可以表示为：

其中f_proj↑↓表示由卷积和反卷积层构成的一个反射组，该式表明了在迭代过程中，每一轮迭代的输入特征都是由当前输入特征与之前迭代过程产生的所有特征合并而来。输出特征(反馈模块的一个中间变量，即特征映射部分的输出)接下来会通过注意力单元进行特征过滤，本义采用的通道注意力单元包含三个过程：挤压、激励以及放缩。

(1)挤压函数

传统的注意力机制将特征全部展开并通过全连接层学习一个激励权重，本义借鉴了SE-Net中的方式，通过计算每一个通道特征的全局平均值来代表整个特征图的特征值从而大大缩减后续权重矩阵所需的参数数量，基于全局平均池化的挤压环节可以表示为：

其中g^t表示输入特征图，H和W分别为特征的高度和宽度，

表示输出特征中每一个位置上的值，(i，j)表示计算的值的坐标，该环节将多个通道的特征图挤压为一个大小为特征数的特征值张量。

(2)激励函数

激励函数通过学习特征值张量对应位置的权重来对各个通道的特征进行增强或抑制，该部分由两个带激活函数的全连层组成，激励环节可以表示为：

m^t＝σ(w₂δ(w₁*g^t)) (7)

其中m^t表示该注意力门处学习到的对应通道特征的权重向量，g^t表示输入特征图，w₁和w₂分别为两个一维权重，δ表示ReLU函数，σ表示Sigmoid函数，最终激励函数给出一个维数与输入特征通道数相同的一个权重矩阵。激励函数是注意力机制里最核心的部分，通过学习的权重，可以对特征信息中对梯度响应较强的特征予以加强，同时对梯度响应较弱的无效特征予以抑制，从而增加模型学习到特征的准确性。

(3)尺度函数

尺度函数利用上面过程学习到的通道注意里权重矩阵对原输入特征各个通道进行放缩，从而增强有效特征，抑制无用特征，放缩环节可以表示为：

如公式8，

为注意力单元输出的结果，即重构特征S，m^t-1表示上一轮迭代学习的权重模板，*表示矩阵中各元素一一对应相乘，因此公式左边的部分表示上一轮迭代学习到的HR特征表示，m^t表示该轮迭代学习的权重模板，其实际上学习的是与上一轮学习到的特征表示相对应的残差信息，

表示第t次迭代的特征输出，。该环节将本次迭代的注意力权重信息与上一轮迭代的权重相关联，从而构造迭代形式的残差注意力，具体而言，我们基于反馈与注意力机制提出了如下的结构。

第一轮迭代中注意力单元学习LR-HR的残差注意力权重，在后面的每一轮迭代中，注意力权重产生的特征图都会与上一轮迭代输出的特征进行叠加，结合上一轮的权重信息共同组成本轮迭代的输出。因此每一轮迭代模型学习到的注意力随着训练过程也在不断迭代加深。

数据集介绍：本发明实施例的实验性能分析中主要使用DIV2K作为训练集，该数据集是NTRIE和PIRM竞赛采用的基准数据集，其中包含了900张2K分辨率的高质量png图片。在数据预处理上我们使用了和EDRN相同的办法。采用PSNR和SSIM作为SR结果的评估指标。基准的测试集主要包括Set5，Set14，B100，Urban100和Manga109。

为了和其他SR模型进行比较，本发明和大多数方法一样选择双三次插值的方法来从HR图像中下采样得到LR图像，得到的LR图像与原HR图像共同构成了模型训练的标注数据集。为了适配卷积层的计算，输入图像在训练中均被切分成多个图像块(patch)，块大小根据放大倍率设置为不同的数值，具体见表1。

表1输入patch大小的设置

本实施例训练模型时采用16的批处理大小(batch size)，选择Adam作为训练优化的算法，初始的学习率设置为0.0001，并且每隔200个epochs衰减一半。本发明提出的DPAN基于Pytorch框架实现，并且在NVIDIA1080Ti GPU上进行训练。

评价标准和参数设置：对于图像超分辨率的重建结果质量评价，常用的指标主要是峰值信噪比(Peak Signal to Noise Ratio，PSNR)和结构相似性(StructuralSimilarity，SSIM)。

1.峰值信噪比：该指标主要从信号的角度衡量图片之间的相似程度，其定义如下：

其中I_LR表示输入的低分辨率图像LR，I_HR表示I_LR对应的高分辨率图像HR，SE为图像之间的均方误差，n为像素值的位深，在本发明的数据集中，n的取值为8，即像素值的最大值为2⁸-1＝255。PSNR的取值越大，证明两幅图像越相似，一般当PSNR取值大于38时，人眼便不容易分辨图像之间的差异。

2.结构相似性：结构相似性(SSIM)从图像组成的角度将结构信息定义为独立于亮度、对比度的，反映场景中物体结构的属性，并将失真建模为亮度、对比度和结构三个不同因素的组合，从而估计两个图像之间的相似程度。其定义如下：

其中μ_x和μ_y分别为x和y的均值，

和

分别为x和y的方差，σ_xy为x和y的协方差，c₁和c₂为常数。

SSIM的取值范围为0到1，当两幅图像完全一样时，SSIM的值为1。

本义的模型采用了基于距离的损失来进行优化。损失函数L_DΘ可表示为：

其中T表示迭代的轮数，W_t表示每轮迭代的输出权重矩阵，

表示第t轮迭代输入对应的原始高分辨率图像，

表示第t轮迭代的输出SR图像。由于PSNR与MSE为负相关关系，许多模型依照MSE损失来进行优化，但以均方损失为基础的优化会导致结果在像素值上出现均值化的效应。同时，由于DPAN学习了很多深层残差信息，因此本义选择使用L1损失在规避均值化效应的同时，对参数施加一定的稀疏约束从而防止一定的过拟合。

除最后一层采用tanh激活函数以外，所有卷积层和反卷积层内都使用了PReLu作为激活函数，本发明对应不同的倍率设置了不同的卷积核大小，步长以及填充量。具体的设置见表2。最后一轮迭代的输出将作为最终的超分辨率重建结果。

表2卷积层参数设置

注意力模型消融实验：为了分析引入注意力模型带来的实际影响，本发明对注意力模型在不同的结构下的超分辨率效果进行了比较。实验使用的模型包括4次迭代和3个卷积组，训练了200个epochs。结果如表3所示。

表3不同的注意力结构的效果对比

DFAN-A表示不带有注意力的模型，DFAN-B表示引入了通道注意力但没有实现迭代残差结构的模型，DFAN代表引入了迭代残差注意力结构的模型。实验表明，单纯的引入注意力尽管略微提升了一点效果，但是网络的收敛速度受到了一定程度的影响。这种影响可能是由于多次迭代过程中注意力对特征的抑制作用的叠加效应，另一方面，在同时引入了结合反馈连接与注意力的结构后，网络的性能得到了进一步提升，这说明了注意力与反馈机制的结合可以削弱深层注意力带来的副作用，并强化反馈机制的作用。

迭代次数对比实验：在DFAN中，模型在多轮反馈迭代后，通过迭代残差注意力不断学习更层次的注意力信息及图像特征，同时对网络参数不断地进行微调，并向最优解逼近。在迭代次数增加的同时，DFAN模型中的深度反馈注意力结构不仅仅加深了反馈传播的深度，同时也增加了注意力权重的准确程度。为了研究模型的参数学习与迭代次数的关系，通过比较迭代次数T的变化对重建效果的影响来分析反馈结构下的注意力级别对于模型重建精度的影响。

表4迭代次数的分析

根据实验可知，当T从2增加至4时，训练损失扩大了，但是验证集上的损失反而下降了一些，这意味着增加一定的迭代深度可以有效抑制深层网络的过拟合情况，并提升一定的网络收敛速度。我们注意到T＝3与T＝4相比，训练集上的损失不断增大，但是重建效果相当接近。这是由于迭代层次进一步加深时，每轮迭代学习的是不断递进的残差信息，因此越往后的迭代学习到的参数会越稀疏。表4中的重建结果也印证了这一点。这表明过深的迭代次数可能会导致迭代残差注意力的学习陷入局部最优解。根据实验结果，我们最终认为T的取值应当在4上下浮动，最多不超过6，否则反馈连接带来的效果提升将会饱和。

超分辨率效果对比：本发明在五个基准数据集上用多个其他超分辨率方法与本义方法进行了对比实验。实验中图像特征的通道数都设置为64，DFAN中的迭代次数设置为4，参与比较的方法包括Bicubic，SRCNN，VDSR，LapSRN，DRRN，MemNet，EDSR，SRFBN，and DFAN。结果分别包括了放大倍率取{2，3，4}的情况，结果见表5。由于LapSRN不支持3倍的图像超分辨率，因此结果中省略了相应内容。更直观的视觉重建效果展示在图3-图5中，可以看到本义提出的模型可以达到更好的重建效果，在细节上具有更高的重建质量。

表5 x2/x3/x4倍率下的超分辨率重建结果(PSNR/SSIM)表

综上，本发明提出了一种新的基于深度反馈注意力的图像超分辨率网络(DeepFeedback Attention Network，DFAN)，该模型通过在反馈机制中形成迭代的残差注意以抑制冗余信息的传播，提高了特征学习的效率，并能够生成高质量的超分辨率图像。该方法通过反馈连接带来的参数复用缩减了模型的参数量，利用通道注意力建立了对特征学习的筛选机制，并在迭代中不断提升特征映射的准确度。实验部分验证了深度反馈注意力结构的引入确实改善了超分辨率网络的特征映射学习能力，减轻了过拟合以及收敛慢等问题，本发明提出的方法优于当前同类型的图像超分辨率方法。

以上仅是本发明的优选实施方式，本发明的保护范围并不仅局限于上述实施例，凡属于本发明思路下的技术方案均属于本发明的保护范围。应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理前提下的若干改进和润饰，应视为本发明的保护范围。

Claims

1.一种深度反馈注意力网络系统，其特征在于，所述深度反馈注意力网络系统包括输入模块、特征提取模块、反馈模块、重构模块及输出模块，

2.一种基于深度反馈注意力网络系统的图像超分辨率方法，其特征在于，方法步骤如下：

S2、初始化网络参数；

S3、提取低分辨率图像LR的特征作为输入特征F；

3.如权利要求1所述的图像超分辨率方法，其特征在于，方法中参数进行循环迭代，第一次将输入特征F输入到网络中，基于特征映射模块与注意力模块操作得到重构特征S_1；将S_1与输入特征F合并后重新输入到网络中，基于特征映射模块与注意力模块操作得到重构特征S_2；再将S_2与输入特征F合并后重新输入到网络中，得到新的重构特征，重复n次，最终得到重构特征S_n。

4.如权利要求1所述的图像超分辨率方法，其特征在于，步骤S4中，经过特征提取后，将提取的特征输入到网络系统的注意力模块中，表示为：

表示从LR图像中提取的特征。

5.如权利要求1所述的图像超分辨率方法，其特征在于，特征映射过程不断迭代，第t次迭代表示为：

其中f_DFAN表示模型中间的特征映射模块，

表示第t-1次迭代的重构特征输出，

表示第t次迭代的特征输入，

表示反馈模块第t次迭代的特征输出的重构特征。

6.如权利要求1所述的图像超分辨率方法，其特征在于，步骤S7中，采用反卷积层Deconv(k，n)对输出的重构特征进行上采样，然后再用卷积层Conv(3，c)生成最终的SR残差图像；SR残差图像和原图像的上采样共同生成最终的高分辨率图像SR。

7.如权利要求1所述的图像超分辨率方法，其特征在于，步骤S7中，输出特征通过注意力单元进行特征过滤，包含三个过程：挤压、激励以及放缩。