CN114139689B

CN114139689B - 一种用于嵌入式系统的深层聚合神经网络轻量化方法

Info

Publication number: CN114139689B
Application number: CN202111497896.5A
Authority: CN
Inventors: 宋杰; 李俊毅
Original assignee: 东北大学
Priority date: 2021-12-09
Filing date: 2021-12-09
Publication date: 2024-05-07
Anticipated expiration: 2041-12-09
Also published as: CN114139689A

Abstract

本发明提供一种用于嵌入式系统的深层聚合神经网络轻量化方法，涉及深度学习技术领域。该方法首先使用深度可分离卷积块替换深层聚合神经网络中的标准卷积块，将一个标准卷积块拆分为深度卷积计算和逐点卷积计算，对输入进行处理生成特征图；并在深层聚合神经网络的深层聚合结点处的聚合操作之后接入瓶颈残差块，对特征图进行维度扩展；然后在深层聚合神经网络的瓶颈层中加入注意力模块，自适应地校准特征图中的特征；最后通过多个深度可分离卷积块和聚合节点构造出迭代深度聚合结构和分层深度聚合结构，实现对深层聚合神经网络结构的轻量化。该方法增强了特征提取的能力，达到了模型轻量化的目的，而且在层级上提高了多尺度目标的识别准确度。

Description

一种用于嵌入式系统的深层聚合神经网络轻量化方法

技术领域

本发明涉及深度学习技术领域，尤其涉及一种用于嵌入式系统的深层聚合神经网络轻量化方法。

背景技术

视觉识别任务需要丰富的信息，信息丰富程度从低到高，尺度从小到大。随着卷积神经网络的深度变化，单独的一层并不能够提供足够的信息，只有聚合这些信息，才能够提高获取是什么与在哪里信息的准确性。现有的很多致力于网络结构设计的工作，包括探索不同的网络结构，设计更深、更大的网络。在2019年有人提出深层聚合的网络结构，它更好地融合网络不同层、块之间的信息，能够迭代式地将网络结构特征信息融合起来，为多尺度目标识别提供了解决方案。

为了将深度卷积神经网络模型应用于实时应用和低内存的嵌入式设备，一个可行的解决方案是对深度神经网络进行压缩和加速，以减少参数、计算成本和功耗。例如MobileNet是一个轻量级的网络，它使用深度可分离的卷积来加深网络以达到减少参数和计算量。同时MobileNet在ImageNet数据集上的分类准确率仅降低了1％。但是，目前的轻量型网络没有对网络层进行探究以期适应多尺度识别，相比之下深层聚合的网络识别准确度更好，而目前还没有对深层聚合网络轻量化的方法。

中国发明“CN201910145961.4”主要使用mobilenet-ssd模型对手势进行检测，它主要是通过修改ssd中的vgg16部分，用mobilenet网络中的深度可分离卷积去替换vgg16中的标准卷积，以达到模型轻量化的目的。中国发明“CN201810745187.6”使用mobilenet-v2模型对目标进行识别，可以在嵌入式系统中实时运行。

中国专利“CN201910145961.4”所述的技术方案，采用mobilenet-ssd模型识别手势，依据该模型的特性，会将mobilenet模型后面多层的输出全部整合到一起，然后选择置信度最高的目标。中国专利“CN201810745187.6”所述的方案，采用mobilenet-v2模型对目标进行识别，mobilenet-v2模型通过多层bottleneck，最后得到的1×1×1280的特征图，再进行识别输出。这两种方法都没有针对模型层进行研究，在涉及多个不同尺度目标的识别中，会出现准确度不够高的问题。

发明内容

本发明要解决的技术问题是针对上述现有技术的不足，提供一种用于嵌入式系统的深层聚合神经网络轻量化方法，对模型层进行聚合实现多尺度识别，减少模型参数，提高运行速度。

为解决上述技术问题，本发明所采取的技术方案是：一种用于嵌入式系统的深层聚合神经网络轻量化方法，

使用深度可分离卷积块替换标准卷积块对输入进行处理生成特征图；

在深层聚合结构的聚合节点处构建瓶颈残差块结构，对特征图进行维度扩展；

在瓶颈残差块结构中加入注意力模块，重新校准特征图中的特征；

构造出迭代深度聚合结构和分层深度聚合结构，得到轻量化的深层聚合神经网络结构；

具体包括以下步骤：

步骤1：使用深度可分离卷积块替换深层聚合神经网络中的标准卷积块，将一个标准卷积块拆分为深度卷积计算和逐点卷积计算，对输入进行处理生成特征图；

步骤1.1：对输入的每一个特征图通道都采用只有一个层的卷积核进行深度卷积计算，所有的深度卷积都采用大小为3×3的单层卷积核，得到各个通道相互分离的输出特征图；在深度卷积时每一个输入通道对应一个卷积核表示为：

其中，m和n分别表示输入和输出的特征图通道数，i和j表示卷积过程中特征图长和宽的第i和j的数值，k表示卷积核的大小；K表示大小为D_k·D_k·M的深度卷积核，K中的第m个卷积核应用于特征图F中的第m个通道以生成卷积后的输出特征图G的第m个通道；

深度卷积的计算量为：D_k·D_k·M·D_f·D_f；

步骤1.2：对各个通道相互分离的输出特征图进行批量标准化处理，将数据分成小批次进行随机梯度下降，将分散的数据统一，而且在每批数据进行前向传递的时候，对每一层都进行标准化处理，让输入值经过激励函数加强神经网络的表达能力；

步骤1.3：对经过批量标准化处理的数据使用ReLu激活函数进行激活操作；

步骤1.4：对经过ReLU激活操作的数据再进行批量标准化处理；

步骤1.5：采用1×1卷积核对步骤1.4批量标准化处理后的数据进行逐点卷积计算，将特征通道之间相互分离的特征组合起来，输出线性组合，生成新的特征图；逐点卷积计算的计算量为：M·N·D_f·D_f；

步骤1.6：对步骤1.5生成的新特征图再次进行批量标准化操作、使用ReLU激活函数和批量标准化；

步骤2：在深层聚合神经网络的深层聚合结点处的聚合操作之后接入瓶颈残差块，对特征图进行维度扩展；

步骤2.1：采用单一的卷积接一个批量标准化层和一个非线性激活层的结构组合和压缩深层聚合结点的输入；深层聚合结点的聚合公式如下：

其中，σ表示非线性激活，W_i和b均表示卷积时的权重，i＝1,2,…,n；x_n表示输入到深层聚合结点的第n个特征图，N()表示聚合函数；

步骤2.2：在深层聚合结点聚合操作之后，构建瓶颈残差块结构对经过聚合输出的特征图进行特征提取，所述瓶颈残差块包括扩展层和投影层；

步骤2.2.1：构建倒残差结构；特征图在进入扩展层时，采用1×1的标准卷积核以步长为1按照一个扩展系数进行维度扩展，在维度扩展过程中输入和输出的特征图大小保持相等；

步骤2.2.2：用已经过维度扩展的特征图作为深度可分离卷积块中深度卷积计算的输入，进行深度卷积计算，输出的特征图大小与输入保持一致；

步骤2.2.3：对注意力层的输出作为深度可分离卷积块逐点卷积的输入，进行特征提取；深度可分离卷积块的逐点卷积计算作为瓶颈残差块的投影层，逐点卷积计算后输出的特征图维度与扩展前的维度一致，目的是将高维特征映射到低维空间上；

步骤2.2.4：将逐点卷积计算输出的特征图与扩展层的输入进行加操作；

步骤3：在深层聚合神经网络的瓶颈层中加入注意力模块；注意力模块包括样式池化模块和样式整合模块两个部分；注意力模块放在瓶颈残差块中的扩展层与深度可分离卷积块之间，通过利用扩展层输出的特征图的样式自适应地重新校准特征图中的特征；

步骤3.1：将经过扩展层进行维度扩展的特征图输入到样式池化模块中；

所述样式池化模块由平均池化层和全局标准差池化层组成；对于输入的特征图这两个池化层分别对输入进行全局平均池化和全局标准差池化，分别得到两个输出/>和/>其中，/>然后将两个输出拼接起来，得到的输出/> 计算公式如下：

t_nc＝[μ_nc,σ_nc]

其中，x_nchw表示经过扩展层进行维度扩展的特征图，H、W代表特征图的高和宽，μ_nc代表经过全局平均池化的特征图，σ_nc表示经过全局标准差池化的特征图，t_nc表示将μ_nc和σ_nc拼接起来后的特征图，用来示例n和通道c的样式信息的摘要描述；

步骤3.2：将经过样式池化模块进行全局平均池化和全局标准差池化后的特征图输入样式整合模块；

对于输入首先进入通道全连接层，对输入进行一次全连接，学习样式权重；然后接批量标准化层，将所得数据按一定批次整理，再采用sigmoid激活函数对神经网络进行激活；得到的输出为/>样式整合模块的操作对通道执行的编码为z_nc＝w_c·t_nc，其中，w_c是训练时学习的权重参数，而/>代表编码的样式特征；样式整合模块对数据的处理公式为：

其中，是仿射变换函数，/>表示通道样式权重，/>表示进行批量化和标准化得到的特征图，/>表示进行批量标准化的最终特征图，g_nc表示经过sigmod激活函数后得到的特征图；

将批量标准化层合并到通道全连接层中；每个通道的样式集成归结为单个通道全连接层f_CFC:后跟激活函数f_ACT:/>最后，原始输入X被权重G重新校准；输出/>由以下公式获得：/>x_nc表示注意力模块的输入

步骤4：通过多个深度可分离卷积块和聚合节点构造出迭代深度聚合结构和分层深度聚合结构，得到轻量化的深层聚合神经网络结构；所有的迭代深层聚合IDA结构都是二分结点，而分层深度聚合HDA结构根据深层聚合神经网络树结构的深度不同而有一系列的参数输入；

步骤4.1：构造分层深度聚合结构；

在整个深层聚合网络中一共有4个分层深度聚合结构；第一个分层深度聚合结构，是由两个深度可分离块和一个聚合结点组成一个两层的分层聚合结构，第一层由两个深度可分离卷积块构成，作为输入，两个深度可分离卷积块在聚合结点处进行聚合，聚合结点作为第二层，并通过下采样作为下一个深度可分离卷积块的输入；第二个分层深度聚合结构中，总共包含4个深度可分离卷积块和两个聚合节点构成三层的分层聚合结构，第一层由4个深度可分离卷积块构成，第二层的聚合结点由第一层的前两个深度可分离卷积块聚合而成，第三层的聚合结点由第二层的第一个聚合结点和第一层的后两个深度可分离卷积块聚合而成，并通过下采样输入到下一个深度可分离卷积块中；第三个分层深度聚合结构由8个深度可分离卷积块块和4个聚合结点组成，共有四层；最后一个分层聚合结构则是由两个深度可分离卷积块和一个聚合结点组成；深度为n的聚合结点T_n公式如下：

其中，N代表聚合节点，运算方式R和L定义如下：

其中，B()表示一个深度可分离卷积块；

步骤4.2：构造迭代深度聚合结构；

对于每一个深度聚合结构中最后的聚合结点，将通过迭代的方式传递给下一个深度聚合结构的最后一个聚合节点；聚合从最低、最小的尺度开始，经过一次次迭代，合并每一个分层聚合结构中不同尺度的感受野；深度聚合结构中每迭代一次就会得到深一层的语义信息，语义信息层x₁,x₂,…,x_n的表示公式为：

其中，I()表示迭代深度聚合运算。

采用上述技术方案所产生的有益效果在于：本发明提供的一种用于嵌入式系统的深层聚合神经网络轻量化方法，用深度可分离卷积块替换每一个标准卷积块，然后对每两个深度可分离卷积块聚合成一个节点，在该聚合节点中构建瓶颈残差块，在该瓶颈残差块中应用倒残差结构，之后再引入注意力模块以增强特征提取的能力。多个深度可分离卷积块和聚合节点构成了分层深度聚合结构，不同的分层深度聚合结构中的聚合节点通过迭代的方式构造迭代深度聚合结构，以增强对不同尺度的特征的提取能力。

本发明方法使用深度可分离卷积块提取图像特征，计算量下降到改进前的1/8到1/9之间，而特征提取能力没有明显下降，引入的瓶颈残差块和注意力模块加强了特征的提取能力，而深层聚合结构在网络层级上进行优化。在这种机制下，达到了模型轻量化的目的，而且在层级上提高了多尺度目标的识别准确度。

附图说明

图1为本发明实施例提供的一种用于嵌入式系统的深层聚合神经网络轻量化方法的流程图；

图2为本发明实施例提供的深度可分离卷积块的结构示意图；

图3为本发明实施例提供的瓶颈残差块和注意力模块的结构示意图；

图4为本发明实施例提供的分层深度聚合结构和迭代深度聚合结构的示意图。

具体实施方式

下面结合附图和实施例，对本发明的具体实施方式作进一步详细描述。以下实施例用于说明本发明，但不用来限制本发明的范围。

本实施例中，一种用于嵌入式系统的深层聚合神经网络轻量化方法，如图1所示，包括以下步骤：

步骤1：使用如图2所示的深度可分离卷积块(Depthwise SeparableConvolutions Block，即DSC)替换深层聚合神经网络中的标准卷积块，将一个标准卷积块拆分为深度卷积计算和逐点卷积计算，对输入进行处理生成特征图；

本实施例中，将整个深层聚合神经网络中所有共18个标准卷积块用深度可分离卷积块进行替换；对于一个标准卷积块，它的输入为D_f×D_f×M的特征图F，输出为D_g×D_g×N的特征图G；其中，M，N分别为输入和输出的特征图通道数，D_f和D_g分别为输入和输出的特征图大小；标准卷积块使用大小为D_k×D_k×M×N的卷积核对输入特征图进行卷积计算，并设定步幅为1，卷积计算方式如下：

其中，m和n分别表示输入和输出的特征图通道数，i和j表示卷积过程中特征图长和宽的第i和j的数值，k表示卷积核的大小。

标准卷积块进行卷积计算计算量为：D_k·D_k·M·N·D_f·D_f；

深度卷积的计算量为：D_k·D_k·M·D_f·D_f；

步骤1.2：对各个通道相互分离的输出特征图进行批量标准化处理，将数据分成小批次进行随机梯度下降，将分散的数据统一，使得输入的变化范围不会太大，而且在每批数据进行前向传递的时候，对每一层都进行标准化处理，让输入值经过激励函数加强神经网络的表达能力，以达到优化神经网络的目的；

步骤1.3：对经过批量标准化处理的数据使用ReLu激活函数进行激活操作；ReLu激活函数如下公式所示：

步骤1.4：对经过ReLU激活操作的数据再进行批量标准化处理；

经过深度可分离的两个步骤，相当于进行了一次标准卷积，这两步的计算复杂度为：D_k·D_k·M·D_f·D_f+M·N·D_f·D_f。

通过用深度可分离卷积代替标准卷积，我们可以减少的计算量为：

本实施例中，采用的都是3×3的深度可分离卷积，经过该步骤，可以将计算量减少到原来的1/8到1/9；

步骤1.6：对步骤1.5生成的新特征图再次进行批量标准化操作、使用ReLU激活函数和批量标准化，目的是使深层聚合神经网络更稳定和加快网络收敛；

步骤2：在深层聚合神经网络的深层聚合结点处的聚合操作之后接入瓶颈残差块(BottleneckResidualblock)，对特征图进行维度扩展，提取更多特征；

步骤2.1：为了避免聚合结构过于复杂，本发明采用单一的卷积接一个批量标准化层和一个非线性激活层的结构组合和压缩深层聚合结点的输入；聚合节点通过训练来选择合适重要的信息来投影到与输入维度一致相同尺度的输出中去；深层聚合结点的聚合公式如下：

步骤2.2.1：在此步骤中，本发明参照了残差(Residual)的思想，构建倒残差(Inverted Residual)结构；特征图在进入扩展层时，采用1×1的标准卷积核以步长为1按照一个扩展系数进行维度扩展，将低维空间映射到高维空间，获取更多的特征，在维度扩展过程中输入和输出的特征图大小保持相等；

步骤2.2.2：用已经过维度扩展的特征图作为深度可分离卷积块中深度卷积计算的输入，按照步骤1.1，进行深度卷积计算，输出的特征图大小与输入保持一致；

步骤2.2.4：将逐点卷积计算输出的特征图与扩展层的输入进行加操作，目的是有效控制梯度消失和网络退化问题；

步骤3：在深层聚合神经网络的瓶颈层中加入注意力模块(Style-basedRecalibration Module，即SRM)；注意力模块包括样式池化模块和样式整合模块两个部分；注意力模块放在瓶颈残差块中的扩展层与深度可分离卷积块之间，通过利用扩展层输出的特征图的样式自适应地重新校准特征图中的特征，使神经网络能更好地对这些特征进行提取；

所述样式池化模块由平均池化层和全局标准差池化层组成；对于输入的特征图这两个池化层分别对输入进行全局平均池化和全局标准差池化，分别得到两个输出/>和/>其中，/>然后将两个输出拼接起来，得到的输出/> 该操作通过汇总时空维度的响应特征，从每一个通道中提取样式特征。

计算公式如下：

t_nc＝[μ_nc,σ_nc]

对于输入首先进入通道全连接层，对输入进行一次全连接，学习样式权重；然后接批量标准化层，将所得数据按一定批次整理，再采用sigmoid激活函数对神经网络进行激活；经过3步处理，得到的输出为/>样式整合模块[Styleintegration]的操作对通道执行的编码为z_nc＝w_c·t_nc，其中，w_c是训练时学习的权重参数，而/>代表编码的样式特征；样式整合模块对数据的处理公式为：

批量标准化层在推理时使用均值和方差的固定近似值，可以将批量标准化层合并到通道全连接层中；每个通道的样式集成归结为单个通道全连接层后跟激活函数/>最后，原始输入X被权重G重新校准；输出/>由以下公式获得：/>x_nc表示注意力模块的输入。

本实施例中，步骤2的构建瓶颈残差块和步骤3的注意力模块结构如图3所示。

步骤4：通过多个深度可分离卷积块和聚合节点构造出迭代深度聚合(IDA)结构和分层深度聚合(HDA)结构，得到轻量化的深层聚合神经网络结构，如图4所示；所有的迭代深层聚合IDA结构都是二分结点，而分层聚合HDA结构根据深层聚合神经网络树结构的深度不同而有一系列的参数输入；

步骤4.1：构造分层深度聚合(HDA)结构；

在整个深层聚合网络中一共有4个分层深度聚合结构；第一个分层深度聚合结构，是由两个深度可分离块和一个聚合结点组成一个两层的分层聚合结构，第一层由两个深度可分离卷积块构成，作为输入，两个深度可分离卷积块在聚合结点处进行聚合，聚合结点作为第二层，并通过下采样作为下一个深度可分离卷积块的输入；第二个分层深度聚合结构中，总共包含4个深度可分离卷积块(DBS)和两个聚合节点构成三层的分层聚合结构，第一层由4个深度可分离卷积块构成，第二层的聚合结点由第一层的前两个深度可分离卷积块聚合而成，第三层的聚合结点由第二层的第一个聚合结点和第一层的后两个深度可分离卷积块聚合而成，并通过下采样输入到下一个深度可分离卷积块中；第三个分层深度聚合结构由8个深度可分离卷积块块和4个聚合结点组成，共有四层；最后一个分层聚合结构则是由两个深度可分离卷积块和一个聚合结点组成；通过4个分层深度聚合块，合并树中的块和阶段来保留和组合特征通道，将上一步中得到的更浅层和更深层结合起来，用来学习跨越更多特征层次结构的更丰富的组合。深度为n的聚合结点T_n公式如下：

其中，N代表聚合节点，运算方式R和L定义如下：

其中，B()表示一个深度可分离卷积块；

步骤4.2：构造迭代深度聚合(IDA)结构；

其中，I()表示迭代深度聚合运算。

最后应说明的是：以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述实施例所记载的技术方案进行修改，或者对其中部分或者全部技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明权利要求所限定的范围。

Claims

1.一种用于嵌入式系统的深层聚合神经网络轻量化方法，其特征在于：

具体包括以下步骤：

所述步骤1的具体方法为：

深度卷积的计算量为：D_k·D_k·M·D_f·D_f；

步骤1.4：对经过ReLU激活操作的数据再进行批量标准化处理；

步骤1.6：对步骤1.5生成的新特征图再次进行批量标准化操作、使用ReLU激活函数和批量标准化。

2.根据权利要求1所述的一种用于嵌入式系统的深层聚合神经网络轻量化方法，其特征在于：所述步骤2的具体方法为：

步骤2.2：在深层聚合结点聚合操作之后，构建瓶颈残差块结构对经过聚合输出的特征图进行特征提取，所述瓶颈残差块包括扩展层和投影层。

3.根据权利要求2所述的一种用于嵌入式系统的深层聚合神经网络轻量化方法，其特征在于：所述步骤2.2的具体方法为：

步骤2.2.4：将逐点卷积计算输出的特征图与扩展层的输入进行加操作。

4.根据权利要求3所述的一种用于嵌入式系统的深层聚合神经网络轻量化方法，其特征在于：所述步骤3的具体方法为：

所述样式池化模块由平均池化层和全局标准差池化层组成；对于输入的特征图这两个池化层分别对输入进行全局平均池化和全局标准差池化，分别得到两个输出/>和/>其中，/>然后将两个输出拼接起来，得到的输出/>计算公式如下：

t_nc＝[μ_nc,σ_nc]

将批量标准化层合并到通道全连接层中；每个通道的样式集成归结为单个通道全连接层f_CFC：后跟激活函数f_ACT：/>最后，原始输入X被权重G重新校准；输出由以下公式获得：/>x_nc表示注意力模块的输入。

5.根据权利要求4所述的一种用于嵌入式系统的深层聚合神经网络轻量化方法，其特征在于：所述步骤4构造分层深度聚合结构的具体方法为：

其中，N代表聚合节点，运算方式R和L定义如下：

其中，B()表示一个深度可分离卷积块。

6.根据权利要求5所述的一种用于嵌入式系统的深层聚合神经网络轻量化方法，其特征在于：所述步骤4构造深度聚合结构的具体方法为：

N代表聚合节点；

其中，I()表示迭代深度聚合运算。