CN110782023A

CN110782023A - 约简残差模块多孔卷积架构网络及快速语义分割方法

Info

Publication number: CN110782023A
Application number: CN201911065797.2A
Authority: CN
Inventors: 刘桂雄; 黄坚
Original assignee: South China University of Technology SCUT
Current assignee: South China University of Technology SCUT
Priority date: 2019-11-04
Filing date: 2019-11-04
Publication date: 2020-02-11
Anticipated expiration: 2039-11-04
Also published as: CN110782023B

Abstract

本发明公开了约简残差模块多孔卷积架构网络及快速语义分割方法，包括分析ResNet降采样残差构造块机理，在残差单元运算式基础上，推导出降采样残差单元运算式，分别定义降采样模块主路径结构、跳过路径结构的约简问题；约简降采样模块主路径结构，在不改变基本残差构造块主路径结构前提下，输入利用率相对较大的主路径约简结构；约简降采样模块跳过路径结构，在不进行特征变换前提下，输入利用率相对较大的主路径约简结构；提出约简残差降采样模块结构，并给出种五种保证高输入利用率的约简残差降采样模块结构；选择主干网络深度，训练语义分割网络实现快速语义分割应用。

Description

约简残差模块多孔卷积架构网络及快速语义分割方法

技术领域

本发明涉及图像分割技术领域，尤其涉及深度学习快速图像语义分割。

背景技术

越来越多的应用场景需要精确且高效的图像分割技术，如自动驾驶、室内导航、甚至虚拟现实与增强现实等。这个需求与视觉相关的各个领域及应用场景下的深度学习技术的发展相符合，尤其是基于深度学习的语义分割技术。语义分割网络中，多孔卷积架构语义分割网络移除主干网络部分池化层空间分辨率较强，主干网络与ASPP模块的约简优化是值得深入研究内容，可以在轻量化语义分割CNN识别应用；编-解码器架构语义分割网络保留更多分类网络中的组件，可用于实现复杂背景下的特征提取；全卷积网络FCN不改变主干网络的卷积层、池化层结构，可同时实现目标检测、语义分割，降低计算复杂度与数据存储。本发明在重点考虑网络语义分割能力-计算开销出发下，研究多孔卷积架构网络约简技术，期望在分割准确率满足机器视觉检测准确率要求下，降低语义分割时间T_seg。

发明内容

为解决上述存在的问题与缺陷，本发明提出了MOSS-CDCL、SOSS-PreSAPL、SOSS-PostSAPL、MSSS-PreSAPL、MSSS-PostSAPL等5种降采样模块约简结构，能在语义分割能力指标—平均交并比

满足机器视觉检测准确率要求下，降低语义分割时间T_seg。。

本发明的目的通过以下的技术方案来实现：

约简残差模块多孔卷积架构网络及快速语义分割方法，包括：分析ResNet降采样残差构造块机理，约简降采样模块主路径、跳过路径，选择主干网络深度，训练语义分割网络实现快速语义分割应用，具体包括以下步骤：

A分析ResNet降采样残差构造块机理，在残差单元运算式基础上，推导出降采样残差单元运算式，分别定义降采样模块主路径结构、跳过路径结构的约简问题；

B约简降采样模块主路径结构，在不改变基本残差构造块主路径结构前提下，输入利用率相对较大的主路径约简结构；

C约简降采样模块跳过路径结构，在不进行特征变换前提下，输入利用率相对较大的主路径约简结构；

D提出约简残差降采样模块结构，并给出种五种保证高输入利用率的约简残差降采样模块结构；

E选择主干网络深度，训练语义分割网络实现快速语义分割应用。

与现有技术相比，本发明的一个或多个实施例可以具有如下优点：

实现在语义分割能力指标—平均交并比

满足机器视觉检测准确率要求下，降低语义分割时间T_seg。

附图说明

图1是约简残差模块多孔卷积架构网络及快速语义分割方法流程图；

图2是主干网络ResNet的隐含层类型、构造块结构、层运算参数结构图；

图3ResNet降采样残差构造块的约简结构图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面将结合实施例及附图对本发明作进一步详细的描述。

如图1所示，为约简残差模块多孔卷积架构网络及快速语义分割方法，该方法包括分析ResNet降采样残差构造块机理，约简降采样模块主路径、跳过路径，选择主干网络深度，训练语义分割网络实现快速语义分割应用。具体步骤为：

步骤10分析ResNet降采样残差构造块机理，在残差单元运算式基础上，推导出降采样残差单元运算式，分别定义降采样模块主路径结构、跳过路径结构的约简问题；

神经网络中的残差单元由多个隐含层及跳过连接构成，其输入为

维列向量X，第i个隐含层具有阶矩阵权值Wⁱ，输出

维列向量Hⁱ，具有3个隐含层(i＝3)的残差单元输出

维列向量Y为：

Y＝f_Net[X,(W¹,W²,W³)]+X (1)

若设实际值Y_GT，则残差单元中3个隐含层f_Net[X,(W¹,W²,W³)]拟合目标为实际值Y_GT与输入X的残差：

f_Net[X,(W¹,W²,W³)]＝Y_GT-X (2)

但只有实际值Y_GT维度、输入X维度一致时(即

)，式(1)、(2)才成立。

当

时需要变换X维度，使其与输出实际值Y_GT维度一致，可在跳过路径中增加权值W_skip为

阶矩阵的隐含层，使W_skipX为

维列向量。这时，残差单元运算为：

残差神经网络ResNet的残差构造块(Bottleneck Block)就是式(1)的实现形式，降采样残差构造块就是式(3)实现形式。

降采样模块主路径结构、跳过路径结构的约简问题为：

在主干网络中，隐含层结构包括池化层、卷积层等2种，卷积层中基本单元为特征图

每个特征图

通过一组权值

连接到前一层全部特征图

因此，ResNet的降采样残差构造块中，输出f_Net[X,(W¹,W²,W³)]与输入X维度不同，具体包括：输出、输入特征图在数量维度上不一致对应输出、输入特征图

在尺寸维度上不一致。

由式(1)、式(3)，可以发现：①降采样残差构造块主路径的结构约简均是在不改变基本残差构造块主路径结构基础上，特征图降采样为1/2；②跳过路径的结构约简均是在不进行特征变换前提下，特征图数量增加至2倍、特征图降采样为1/2。

为更全面设计约简降采样残差构造块，表1列出主干网络主要层结构功能及输入利用率表，应用于ResNet降采样残差构造块中l_s＝2的1×1卷积层，不进行特征变换、特征图数量变维、特征图降采样，但输入利用率为1/4＜1。

表1主干网络主要层结构功能及输入利用率表

步骤20约简降采样模块主路径结构，在不改变基本残差构造块主路径结构前提下，提出了输入利用率相对较大的主路径约简结构方案；

由于主路径结构约简优化在不改变基本残差构造块主路径结构进行，仅把特征图降采样为1/2。主路径结构约简优化就是选择主路径中的某个隐含层结构，设置其步长l_s＝2，表2列出不同主路径结构的功能与输入利用率，从输入利用率相对较大角度分析，方案②(第2个卷积层l_s＝2)具有比方案①(第1个卷积层l_s＝2)、方案③(第3个卷积层l_s＝2)更高的输入利用率，是相对较优的主路径结构。

表2不同主路径结构的功能与输入利用率表

步骤30约简降采样模块跳过路径结构，在不进行特征变换前提下，提出了输入利用率相对较大的主路径约简结构方案；

跳过路径结构约简优化是在不进行特征变换前提下，将特征图数量增加至2倍、特征图降采样为1/2，只能选择1×1卷积层、最大池化层、平均池化层来构建层数≤3的跳过路径结构，表3列出不同跳过路径结构的功能与输入利用率表。若使用单一隐含层结构，从表2可知，采用步长l_s＝2的1×1卷积层能同时实现特征图降采样、特征图数量变维的可行方案；若考虑2个隐含层的串联结构，方案④、⑤具有比其他方案更高的输入利用率，是相对较优的跳过路径结构。

表3不同跳过路径结构的功能与输入利用率表(*代表步长l_s＝2)

步骤40提出约简残差降采样模块结构，给出5种保证高输入利用率的约简残差降采样模块结构；

5种保证高输入利用率结构约简方案分别为：①单改主路径降采样卷积层简化结构(MOSS-CDCL)；②单改跳过路径前置平均池化层简化结构(SOSS-PreSAPL)；③改跳过路径后置平均池化层简化结构(SOSS-PostSAPL)；④路径均改前置平均池化层简化结构(MSSS-PreSAPL)；⑤径均改后置平均池化层简化结构(MSSS-PostSAPL)。

在结合附图3：①单改主路径降采样卷积层简化结构(MOSS-CDCL)，主路径降采样卷积层从第1层修改到第2层，见图3a)；②单改跳过路径前置平均池化层简化结构(SOSS-PreSAPL)，将跳过路径降采样卷积层改为先平均池化层，后加卷积层的组合结构，见图3b)；③改跳过路径后置平均池化层简化结构(SOSS-PostSAPL)，将跳过路径降采样卷积层改为先卷积层，后加平均池化层的组合结构，见图3c)；④路径均改前置平均池化层简化结构(MSSS-PreSAPL)，将主路径降采样卷积层从第1层修改到第2层，并将跳过路径降采样卷积层改为先平均池化层，后加卷积层的组合结构，见图3d)；⑤径均改后置平均池化层简化结构(MSSS-PostSAPL)，将主路径降采样卷积层从第1层修改到第2层，并将跳过路径降采样卷积层改为先卷积层，后加平均池化层的组合结构，见图3e)。

步骤50选择主干网络深度，训练语义分割网络实现快速语义分割应用。主干网络ResNet深度可以选择为50、101、152。

应用MOSS-CDCL、SOSS-PreSAPL、SOSS-PostSAPL、MSSS-PreSAPL、MSSS-PreSAPL等约简结构替换降采样残差构造块，在ResNet101中，得到5种新的ResNet约简结构。在ImageNet数据集训练得主干网络，以ASPP为密集预测网络结构构建语义分割网络，在MIT-ADE20K数据集，验证指标再在机器视觉数据集上迁移学习、分割1280×1024图像，得到应用效果指标

及分割时间T_seg，可得到几种约简网络结构语义分割网络的分割能力、计算开销对比表(见表4)。

表4约简网络结构语义分割网络的分割能力、计算开销对比表

可以看出，在重点考虑网络语义分割能力-计算开销出发下，研究多孔卷积架构网络约简技术，期望在

满足机器视觉检测准确率要求下，降低T_seg(η_seg,η_main,d_main)。通过降采样残差结构块约简，分析得到路径均改后置平均池化层简化结构MSSS-PostSAPL，它相对于DeepLabv3，

仅牺牲0.60％，T_seg则降低38.20％，在T_seg要求苛刻下采用MSSS-PreSAPL约简网络结构意义相当重大。

虽然本发明所揭露的实施方式如上，但所述的内容只是为了便于理解本发明而采用的实施方式，并非用以限定本发明。任何本发明所属技术领域内的技术人员，在不脱离本发明所揭露的精神和范围的前提下，可以在实施的形式上及细节上作任何的修改与变化，但本发明的专利保护范围，仍须以所附的权利要求书所界定的范围为准。

Claims

1.约简残差模块多孔卷积架构网络及快速语义分割方法，其特征在于，所述方法包括分析ResNet降采样残差构造块机理，约简降采样模块主路径、跳过路径，选择主干网络深度，训练语义分割网络实现快速·语义分割应用，具体包括以下步骤：

2.如权利要求1所述的约简残差模块多孔卷积架构网络及快速语义分割方法，其特征在于，所述降采样残差单元运算式为：

维列向量X，第i个隐含层具有

阶矩阵权值Wⁱ，输出

维列向量Hⁱ，具有3个隐含层(i＝3)的残差单元输出

维列向量Y为：

Y＝f_Net[X,(W¹,W²,W³)]+X (1)

f_Net[X,(W¹,W²,W³)]＝Y_GT-X (2)

但只有实际值Y_GT维度、输入X维度一致时(即

)，式(1)、(2)才成立；

当

阶矩阵的隐含层，使W_skipX为

维列向量；这时，残差单元运算为：

3.如权利要求1所述的约简残差模块多孔卷积架构网络及快速语义分割方法，其特征在于，所述步骤A中的，降采样模块主路径结构、跳过路径结构的约简问题为：①降采样残差构造块主路径的结构约简均是在不改变基本残差构造块主路径结构基础上，特征图降采样为1/2；②跳过路径的结构约简均是在不进行特征变换前提下，特征图数量增加至2倍、特征图降采样为1/2。

4.如权利要求1所述的约简残差模块多孔卷积架构网络及快速语义分割方法，其特征在于，所述步骤B具体包括：在不改变基本残差构造块主路径结构前提下，提出了输入利用率相对较大的主路径约简结构方案：

由于主路径结构约简优化在不改变基本残差构造块主路径结构进行，仅把特征图降采样为1/2；主路径结构约简优化就是选择主路径中的某个隐含层结构，设置其步长l_s＝2，并从输入利用率相对较大角度分析，选出相对较优的主路径结构。

5.如权利要求1所述的约简残差模块多孔卷积架构网络及快速语义分割方法，其特征在于，所述步骤C中：

跳过路径结构约简优化是在不进行特征变换前提下，将特征图数量增加至2倍、特征图降采样为1/2，只能选择1×1卷积层、最大池化层、平均池化层来构建层数≤3的跳过路径结构，并采用步长l_s＝2的1×1卷积层能同时实现特征图降采样、特征图数量变维的可行方案，选出较优的跳过路径结构。

6.如权利要求1所述的约简残差模块多孔卷积架构网络及快速语义分割方法，其特征在于，所述步骤D中：五种保证高输入利用率结构约简方案分别为：①单改主路径降采样卷积层简化结构MOSS-CDCL；②单改跳过路径前置平均池化层简化结构SOSS-PreSAPL；③改跳过路径后置平均池化层简化结构SOSS-PostSAPL；④路径均改前置平均池化层简化结构MSSS-PreSAPL；⑤径均改后置平均池化层简化结构MSSS-PostSAPL。

7.如权利要求1所述的约简残差模块多孔卷积架构网络及快速语义分割方法，其特征在于，所述步骤E中，主干网络ResNet深度为50、101、152。