CN111160488A

CN111160488A - 融合注意力选择机制的CondenseNet算法

Info

Publication number: CN111160488A
Application number: CN202010002106.0A
Authority: CN
Inventors: 屈景怡; 赵娅倩; 贾云飞; 陈敏; 杨俊�
Original assignee: Civil Aviation University of China
Current assignee: Civil Aviation University of China
Priority date: 2020-01-02
Filing date: 2020-01-02
Publication date: 2020-05-15

Abstract

本发明提供了一种融合注意力选择机制的CondenseNet算法，包括通过m个网络结构块对卷积神经网络中的数据进行特征提取，每个结构块包含n组完整的特征变换层，数据通过每一层特征变换层得到相对应的特征矩阵；将m个网络结构块级联连接，通过网络结构块的数据经过特征提取得到最终的特征矩阵；将上述得到的特征矩阵计算网络训练的损失值；计算各层误差项和权值梯度；根据损失值判断网络是否收敛，如不收敛，依据权值梯度调整卷积神经网络初始化参数重新进行训练，如已收敛则输出网络训练结果。本发明所述的融合注意力选择机制的CondenseNet算法，高效利用多维特征信息，增强深层网络的学习和表达能力，提高分类准确率。

Description

融合注意力选择机制的CondenseNet算法

技术领域

本发明属于深度学习以及大数据技术领域，尤其是涉及一种融合注意力选择机制的CondenseNet算法。

背景技术

面对海量、高维的大样本数据，深度学习因其快速、准确、智能的强大优势，在计算机视觉、自然语言处理领域成为炙手可热的处理问题方法，近几年随着相关技术的创新，深度学习领域不断取得突破性进展，学者们先后通过增加网络深度来提升网络性能；优化网络结构来提升网络准确率与网络适用性，但是传统的卷积神经网络结构搭建的深度学习网络随着层数的增加精度会达到饱和，甚至降低，梯度消失现象愈发明显，从而导致网络无法训练，而采用更好的网络初始化参数和更高效的激励函数也无法从根本上解决网络训练问题。

文献“Huang G,Liu S,Van der Maaten L,et al.CondenseNet:An EfficientDenseNet using Learned Group Convolutions[C].Proceedings of the IEEEConference on Computer Vision and Pattern Recognition,2018:2752-2761.”中提出一种新型的网络结构，即CondenseNet(An Efficient DenseNet using Learned GroupConvolutions)，文章从特征图入手，通过对特征图的极致利用使网络达到更好的效果和更少的参数，CondenseNet在保证网络中间层与层之间最大程度的信息传输前提下，直接将所有的层连接起来，即每一层的输入来自前面所有层的输出，使得网络更窄的同时减少参数，减轻梯度消失现象，有效抑制过拟合，减少计算量。但是采用稠密连接的层连接方式必然带来的一个问题是网络的冗余连接以及大量的占用内存。文献“Woo S,Park J,Lee JY,etal.CBAM:Convolutional block attention module[C].Proceedings of the EuropeanConference on Computer Vision(ECCV),Munich,Germany,2018:3-19.”中提出一种全新的特征重标定机制，即CBAM(Convolutional Block Attention Module)，这种机制显式地建模特征通道与空间通道之间的相互依赖关系，通过学习的方式来自动获取到每个特征通道的重要程度，依照重要程度去提升有用的特征并抑制对当前任务作用不大的特征。如果能将上述两种极具优势的高性能网络融合创新，取其精华，去其糟粕，既可以在加深网络深度的同时消除梯度消失现象，减少参数，深度挖掘数据特征，同时又可以在空间维度的方面着手增加可自动学习的特征重标定机制，自适应的重新校准通道的特征响应，将会得到一种准确率更高、适应性更强、网络性能更优的深度学习算法。

发明内容

有鉴于此，本发明旨在提出一种融合注意力选择机制的CondenseNet算法，以提供一种准确率高、适应性强、网络性能优的深度学习算法。

为达到上述目的，本发明的技术方案是这样实现的：

一种融合注意力选择机制的CondenseNet算法，包括按顺序进行的下列步骤：步骤一：通过m个网络结构块对卷积神经网络中的数据进行特征提取，每个结构块包含n组完整的特征变换层，每个特征变换层包含1个1×1学习卷积层、1个3×3分组卷积层以及一个CBAM模块，数据通过每一层特征变换层得到相对应的特征矩阵；

步骤二：将m个网络结构块级联连接，n组特征变换层堆叠，每层网络采用稠密连接的方式连接到后续所有层，通过网络结构块的数据经过特征提取得到最终的特征矩阵；

步骤三：将上述步骤二得到的最终特征矩阵进行全局平均池化并输入全连接层变为一维特征矩阵，并利用softmax分类器对一维特征矩阵进行分类，计算此次网络训练的损失值；

步骤四：利用误差反向传播算法进行梯度计算，计算各层误差项和权值梯度；

步骤五：根据步骤三中所得损失值判断网络是否收敛，如不收敛，依据步骤四中权值梯度调整卷积神经网络初始化参数重新进行训练，如已收敛则输出网络训练结果。

进一步的，所述步骤一的具体方法为：将数据输入到网络结构块中，通过第一个特征变换层，分别对数据进行卷积操作，每个卷积层的输入是上一个卷积层的输出，随后输入一个CBAM模块，实现特征重标定，最后输出特征矩阵。

进一步的，所述步骤二的具体方法为：在单个结构块中与每个结构块之间，每层网络采用稠密连接的方式；在单个结构块中，通过第1层特征变换层经过特征提取到的特征矩阵依次输入到第2个、第3个、第4个、一直到第n层特征变换层中；通过第2层特征变换层经过特征提取到的特征矩阵依次输入到第3个、第4个、第5个、一直到第n层特征变换层中，通过m个网络结构块的数据得到最终的特征矩阵。

进一步的，所述步骤三的具体方法为：首先，对最终特征矩阵进行全局平均池化，使用和最终特征矩阵大小一致的滤波器计算特征矩阵中数据的平均值；然后，输入全连接层，全连接层中每个神经元分别对全局平均池化后的特征矩阵中的数据进行非线性变换得到一维特征矩阵；最后，将一维特征矩阵输入softmax分类器进行分类。

进一步的，所述步骤三中计算此次网络训练的损失值的方法是：首先，计算每个类别j出现的概率p(y＝j|x)；然后用h_θ(x)表示q个输出概率，则函数为：

其中，h_θ(x)表示卷积神经网络的输出，i为样本序号，θ为模型参数，

为归一化因子；

最后使用交叉熵作为损失函数计算损失值，其表达式为：

其中

表示损失值，1{y⁽ⁱ⁾＝j}表示当y⁽ⁱ⁾＝j时值为1，否则为0，r为样本数。

进一步的，所述步骤四的具体方法为：首先，根据softmax分类器结果计算最后一层损失值并作为最后一层的误差项；然后，利用误差反向传播算法的链式法则计算各层误差项，第m个结构块的误差项等于第m+1个结构块的误差项乘以两者之间与卷积层相连的权重矩阵；

利用公式

计算对应隐藏层的梯度值，其中，J表示该层损失值，

表示第l层第j个特征矩阵到l层第i个特征矩阵的连接权重，

表示第l个卷积层的第j个特征矩阵的误差项，

表示第l-1层第i个特征矩阵。

进一步的，所述步骤五的具体方法为：首先，将分类结果和实际值比对并计算差值而作为损失值；然后将损失值和实现设定的分类阈值做比较，如小于分类阈值则判定网络收敛，否则不收敛；最后，如收敛输出网络结果，当判定为不收敛时，则根据步骤四中所得权值梯度调整卷积神经网络初始化参数按照以下公式更新权值梯度，并重新训练网络。

W(t+1)＝W(t)+V(t+1)

式中t表示迭代次数，V(t)是动量项，μ为动量因子，它决定了历史权重修正量对本次权重修正的贡献大小；η为学习率；λ为权重衰减系数，W表示卷积神经网络初始化参数。

相对于现有技术，本发明所述的融合注意力选择机制的CondenseNet算法具有以下优势：

(1)本发明所述的融合注意力选择机制的CondenseNet算法，通过融合两种不同网络的优势性能，既缓解了因网络加深而导致的梯度消失现象，又通过特征重标定策略，高效利用多维特征信息，增强深层网络的学习和表达能力，提高分类准确率。

(2)本发明所述的融合注意力选择机制的CondenseNet算法，采用性能更优的卷积神经网络，在加深网络深度的同时消除梯度消失现象，减少参数，有效抑制过拟合，深度挖掘数据特征。

(3)本发明所述的融合注意力选择机制的CondenseNet算法，在空间维度与通道维度的方面增加可自动学习的特征重标定机制，自适应的重新校准通道的特征响应，实现重新标定特征权重，进一步提高网络性能。

附图说明

构成本发明的一部分的附图用来提供对本发明的进一步理解，本发明的示意性实施例及其说明用于解释本发明，并不构成对本发明的不当限定。在附图中：

图1为本发明实施例所述的融合注意力选择机制的CondenseNet算法训练方法流程图；

图2为本发明实施例所述的网络结构块图；

图3为本发明实施例所述的CBAM模块计算单元图；

图4为本发明实施例所述的网络反向传播训练过程；

图5为本发明实施例所述的融合注意力选择机制卷积CBAM-CondenseNet的性能图；

图6为本发明实施例所述的融合注意力选择机制卷积CondenseNet的性能图。

具体实施方式

需要说明的是，在不冲突的情况下，本发明中的实施例及实施例中的特征可以相互组合。

在本发明的描述中，需要理解的是，术语“中心”、“纵向”、“横向”、“上”、“下”、“前”、“后”、“左”、“右”、“竖直”、“水平”、“顶”、“底”、“内”、“外”等指示的方位或位置关系为基于附图所示的方位或位置关系，仅是为了便于描述本发明和简化描述，而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作，因此不能理解为对本发明的限制。此外，术语“第一”、“第二”等仅用于描述目的，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”等的特征可以明示或者隐含地包括一个或者更多个该特征。在本发明的描述中，除非另有说明，“多个”的含义是两个或两个以上。

在本发明的描述中，需要说明的是，除非另有明确的规定和限定，术语“安装”、“相连”、“连接”应做广义理解，例如，可以是固定连接，也可以是可拆卸连接，或一体地连接；可以是机械连接，也可以是电连接；可以是直接相连，也可以通过中间媒介间接相连，可以是两个元件内部的连通。对于本领域的普通技术人员而言，可以通过具体情况理解上述术语在本发明中的具体含义。

下面将参考附图并结合实施例来详细说明本发明。

名词解释

CondenseNet：Convolutional Block Attention Module-An EfficientDenseNet using Learned Group Convolutions，一种深度学习算法。

融合注意力选择机制的CondenseNet算法，如图1至图6所示，包括按顺序进行的下列步骤：1)通过m个网络结构块对卷积神经网络中的数据进行特征提取，每个结构块包含n组完整的特征变换层，每个特征变换层包含1个1×1可学习卷积层、1个3×3分组卷积层以及一个CBAM模块，数据通过每一层特征变换层得到相对应的特征矩阵；

通过m个网络结构块对卷积神经网络中的数据进行特征提取，数据通过每一层特征变换层得到相对应的特征矩阵的方法是：首先，将数据输入到网络结构块中，通过第一个特征变换层，即通过1个1×1的卷积层、1个3×3的卷积层，分别对数据进行卷积操作，每个卷积层的输入是上一个卷积层的输出，随后输入一个CBAM模块，实现特征重标定，最后输出特征矩阵。融合注意力选择机制卷积CondenseNet网络结构块详见图2。深层的融合注意力选择机制卷积CondenseNet通过上述特征变换层堆叠以及多个结构块之间的级联实现。在单个结构块中，第L层网络对应的经过卷积变换后的非线性特征映射U可由(1)式计算：

式中，[X₀X₁…X_L-1]表示将第0,…,L-1层的输出矩阵进行通道合并，W^L-1和W^L依次表示1×1，3×3卷积权值矩阵，BN(·)表示对每个隐藏层的输出数据进行批归一化处理，f(·)表示ReLU激活函数，

表示卷积操作。

CBAM模块这一计算单元设计在每个3×3卷积层后，结构图详见图3。为了建模特征通道间的相互依赖关系，提出在空间维度上使用全局最大池化和全局平均池化将信息压缩为一个信道描述符，并标定压缩操作中聚合的权重矩阵；在上述操作的基础上建模像素点之间的重要程度，在通道维度上使用全局最大池化和全局平均池化得到2个不同的信道描述符，并按其通道维度将2个信道描述符合并，之后使用一个包含单个卷积核的隐藏层对特征映射进行卷积操作，生成最终的权重标定。对于一个中间层的输入特征矩阵F∈R^C×H×W，CBAM经过1维通道压缩操作并与输入的特征矩阵相乘得到F′∈R^C×H×W，随后经过2维空间压缩操作计算的空间权值矩阵得到F′∈R^C×H×W，计算公式如下：

F″＝M_s(F′)⊙F′ (3)

其中，

分别表示输入的特征矩阵，经过通道注意力选择的特征映射，经过空间注意力选择的特征映射，

分别表示通道压缩权值矩阵，空间压缩权值矩阵。

2)m个网络结构块级联连接，n组特征变换层堆叠，每层网络采用稠密连接的方式连接到后续所有层，通过网络结构块的数据经过特征提取得到最终的特征矩阵；

具体方法为：首先，在单个结构块中与每个结构块之间，每层网络采用稠密连接的方式，在单个结构块中，通过第1层特征变换层经过特征提取到的特征矩阵依次输入到第2个、第3个、第4个、一直到第n层特征变换层中；通过第2层特征变换层经过特征提取到的特征矩阵依次输入到第3个、第4个、第5个、一直到第n层特征变换层中，连接方式可见图2，通过m个网络结构块的数据得到最终的特征矩阵。

3)将上述步骤2)得到的最终特征矩阵进行全局平均池化并输入全连接层变为一维特征矩阵，并利用softmax分类器对一维特征矩阵进行分类，计算此次网络训练的损失值；

具体方法为：首先，对最终特征矩阵进行全局平均池化，使用和最终特征矩阵大小一致的滤波器计算特征矩阵中数据的平均值；然后，输入全连接层，全连接层中每个神经元分别对全局平均池化后的特征矩阵中的数据进行非线性变换得到一维特征矩阵；最后，将一维特征矩阵输入softmax分类器进行分类。

将上述步骤2)得到的最终特征矩阵进行全局平均池化并输入全连接层，可得特征维度为(1×1)×q的特征矩阵，使用softmax分类器对其分类，其中，q为分类类别数，对于每类有r个样本的集合可以表示为{(x⁽¹⁾,y⁽¹⁾),(x⁽²⁾,y⁽²⁾),...(x^(r),y^(r))}，y^(r)∈{1,2,…,q}。

计算此次网络训练的损失值的方法是：首先，计算每个类别j出现的概率p(y＝j|x)；然后用h_θ(x)表示q个输出概率，则函数为：

为归一化因子；

最后使用交叉熵作为损失函数计算损失值，其表达式为：

其中

4)利用误差反向传播算法进行梯度计算，计算各层误差项和权值梯度；

具体方法为：首先，根据softmax分类器结果计算最后一层损失值并作为最后一层的误差项；然后，利用误差反向传播算法的链式法则计算各层误差项，第m个结构块的误差项等于第m+1个结构块的误差项乘以两者之间与卷积层相连的权重矩阵；

利用公式

计算对应隐藏层的梯度值，其中，J表示该层损失值，

表示第l层第j个特征矩阵到l层第i个特征矩阵的连接权重，

表示第l个卷积层的第j个特征矩阵的误差项，

表示第l-1层第i个特征矩阵。

BP算法将训练样本的误差信息传回到隐藏层，实现隐藏层之间的权重矩阵的不断更新迭代，直至网络收敛。网络的反向传播训练过程如图4。在单个网络结构块中，各隐藏层的误差项计算如下：

δ^k7＝δ^k8*W^k8 (9)

d^k4＝d^k5*W^k5 (12)

d^k3＝d^k4*W^k4+d^k8*Wⁿ⁵+d^k5*Wⁿ⁴ (13)

其中，d^k1，d^k2，L，d^k10分别表示两个结构块内对应各个层的误差项，U^k1，U^k2，L，U^k10为各层的输出特征映射，Wⁿ⁵表示K3层与k5层之间的权重矩阵，

表示损失函数J对最后一层网络输出特征映射的导数，*表示把卷积操作

中的卷积核进行翻转。CBAM-CondenseNet网络的第一个隐藏层的梯度值可表示为公式(16)

其中，Wⁿ¹，Wⁿ²，Wⁿ³分别表示K3层，K5层，K8层与第一层之间的权重矩阵，A⁰表示输入特征矩阵。

5)根据步骤3)中所得损失值判断网络是否收敛，如不收敛，依据步骤4)中权值梯度调整卷积神经网络初始化参数，重新进行训练，如已收敛则输出网络训练结果。

具体方法为：首先，将分类结果和实际值比对并计算差值而作为损失值；然后将损失值和实现设定的分类阈值做比较，如小于分类阈值则判定网络收敛，否则不收敛；最后，如收敛输出网络结果，当判定为不收敛时，则根据步骤4)中所得权值梯度调整卷积神经网络初始化参数按照以下公式更新权值梯度，并重新训练网络。

W(t+1)＝W(t)+V(t+1) (18)

本发明通过融合两种不同网络的优势性能，既缓解了因网络加深而导致的梯度消失现象，又通过特征重标定策略，高效利用多维特征信息，增强深层网络的学习和表达能力，提高分类准确率。从测试结果可知，随着卷积神经网络深度的增加，分类正确率提高，详见图5。

以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.融合注意力选择机制的CondenseNet算法，其特征在于：包括按顺序进行的下列步骤：

步骤一：通过m个网络结构块对卷积神经网络中的数据进行特征提取，每个结构块包含n组完整的特征变换层，每个特征变换层包含1个1×1学习卷积层、1个3×3分组卷积层以及一个CBAM模块，数据通过每一层特征变换层得到相对应的特征矩阵；

2.根据权利要求1所述的融合注意力选择机制的CondenseNet算法，其特征在于：所述步骤一的具体方法为：将数据输入到网络结构块中，通过第一个特征变换层，分别对数据进行卷积操作，每个卷积层的输入是上一个卷积层的输出，随后输入一个CBAM模块，实现特征重标定，最后输出特征矩阵。

3.根据权利要求1所述的融合注意力选择机制的CondenseNet算法，其特征在于：所述步骤二的具体方法为：在单个结构块中与每个结构块之间，每层网络采用稠密连接的方式；在单个结构块中，通过第1层特征变换层经过特征提取到的特征矩阵依次输入到第2个、第3个、第4个、一直到第n层特征变换层中；通过第2层特征变换层经过特征提取到的特征矩阵依次输入到第3个、第4个、第5个、一直到第n层特征变换层中，通过m个网络结构块的数据得到最终的特征矩阵。

4.根据权利要求1所述的融合注意力选择机制的CondenseNet算法，其特征在于：所述步骤三的具体方法为：首先，对最终特征矩阵进行全局平均池化，使用和最终特征矩阵大小一致的滤波器计算特征矩阵中数据的平均值；然后，输入全连接层，全连接层中每个神经元分别对全局平均池化后的特征矩阵中的数据进行非线性变换得到一维特征矩阵；最后，将一维特征矩阵输入softmax分类器进行分类。

5.根据权利要求1所述的融合注意力选择机制的CondenseNet算法，其特征在于：所述步骤三中计算此次网络训练的损失值的方法是：首先，计算每个类别j出现的概率p(y＝j|x)；然后用h_θ(x)表示q个输出概率，则函数为：

为归一化因子；

最后使用交叉熵作为损失函数计算损失值，其表达式为：

其中

6.根据权利要求1所述的融合注意力选择机制的CondenseNet算法，其特征在于：所述步骤四的具体方法为：首先，根据softmax分类器结果计算最后一层损失值并作为最后一层的误差项；然后，利用误差反向传播算法的链式法则计算各层误差项，第m个结构块的误差项等于第m+1个结构块的误差项乘以两者之间与卷积层相连的权重矩阵；

利用公式

计算对应隐藏层的梯度值，其中，J表示该层损失值，

表示第l层第j个特征矩阵到l层第i个特征矩阵的连接权重，

表示第l个卷积层的第j个特征矩阵的误差项，

表示第l-1层第i个特征矩阵。

7.根据权利要求1所述的融合注意力选择机制的CondenseNet算法，其特征在于：所述步骤五的具体方法为：首先，将分类结果和实际值比对并计算差值而作为损失值；然后将损失值和实现设定的分类阈值做比较，如小于分类阈值则判定网络收敛，否则不收敛；最后，如收敛输出网络结果，当判定为不收敛时，则根据步骤四中所得权值梯度调整卷积神经网络初始化参数按照以下公式更新权值梯度，并重新训练网络。

W(t+1)＝W(t)+V(t+1)