CN110782023A - 约简残差模块多孔卷积架构网络及快速语义分割方法 - Google Patents

约简残差模块多孔卷积架构网络及快速语义分割方法 Download PDF

Info

Publication number
CN110782023A
CN110782023A CN201911065797.2A CN201911065797A CN110782023A CN 110782023 A CN110782023 A CN 110782023A CN 201911065797 A CN201911065797 A CN 201911065797A CN 110782023 A CN110782023 A CN 110782023A
Authority
CN
China
Prior art keywords
main path
reduction
residual error
semantic segmentation
residual
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201911065797.2A
Other languages
English (en)
Other versions
CN110782023B (zh
Inventor
刘桂雄
黄坚
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
South China University of Technology SCUT
Original Assignee
South China University of Technology SCUT
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by South China University of Technology SCUT filed Critical South China University of Technology SCUT
Priority to CN201911065797.2A priority Critical patent/CN110782023B/zh
Publication of CN110782023A publication Critical patent/CN110782023A/zh
Application granted granted Critical
Publication of CN110782023B publication Critical patent/CN110782023B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/082Learning methods modifying the architecture, e.g. adding, deleting or silencing nodes or connections

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • Computing Systems (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Molecular Biology (AREA)
  • Artificial Intelligence (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Image Analysis (AREA)
  • Error Detection And Correction (AREA)

Abstract

本发明公开了约简残差模块多孔卷积架构网络及快速语义分割方法,包括分析ResNet降采样残差构造块机理,在残差单元运算式基础上,推导出降采样残差单元运算式,分别定义降采样模块主路径结构、跳过路径结构的约简问题;约简降采样模块主路径结构,在不改变基本残差构造块主路径结构前提下,输入利用率相对较大的主路径约简结构;约简降采样模块跳过路径结构,在不进行特征变换前提下,输入利用率相对较大的主路径约简结构;提出约简残差降采样模块结构,并给出种五种保证高输入利用率的约简残差降采样模块结构;选择主干网络深度,训练语义分割网络实现快速语义分割应用。

Description

约简残差模块多孔卷积架构网络及快速语义分割方法
技术领域
本发明涉及图像分割技术领域,尤其涉及深度学习快速图像语义分割。
背景技术
越来越多的应用场景需要精确且高效的图像分割技术,如自动驾驶、室内导航、甚至虚拟现实与增强现实等。这个需求与视觉相关的各个领域及应用场景下的深度学习技术的发展相符合,尤其是基于深度学习的语义分割技术。语义分割网络中,多孔卷积架构语义分割网络移除主干网络部分池化层空间分辨率较强,主干网络与ASPP模块的约简优化是值得深入研究内容,可以在轻量化语义分割CNN识别应用;编-解码器架构语义分割网络保留更多分类网络中的组件,可用于实现复杂背景下的特征提取;全卷积网络FCN不改变主干网络的卷积层、池化层结构,可同时实现目标检测、语义分割,降低计算复杂度与数据存储。本发明在重点考虑网络语义分割能力-计算开销出发下,研究多孔卷积架构网络约简技术,期望在分割准确率满足机器视觉检测准确率要求下,降低语义分割时间Tseg
发明内容
为解决上述存在的问题与缺陷,本发明提出了MOSS-CDCL、SOSS-PreSAPL、SOSS-PostSAPL、MSSS-PreSAPL、MSSS-PostSAPL等5种降采样模块约简结构,能在语义分割能力指标—平均交并比
Figure BDA0002259298400000012
满足机器视觉检测准确率要求下,降低语义分割时间Tseg。。
本发明的目的通过以下的技术方案来实现:
约简残差模块多孔卷积架构网络及快速语义分割方法,包括:分析ResNet降采样残差构造块机理,约简降采样模块主路径、跳过路径,选择主干网络深度,训练语义分割网络实现快速语义分割应用,具体包括以下步骤:
A分析ResNet降采样残差构造块机理,在残差单元运算式基础上,推导出降采样残差单元运算式,分别定义降采样模块主路径结构、跳过路径结构的约简问题;
B约简降采样模块主路径结构,在不改变基本残差构造块主路径结构前提下,输入利用率相对较大的主路径约简结构;
C约简降采样模块跳过路径结构,在不进行特征变换前提下,输入利用率相对较大的主路径约简结构;
D提出约简残差降采样模块结构,并给出种五种保证高输入利用率的约简残差降采样模块结构;
E选择主干网络深度,训练语义分割网络实现快速语义分割应用。
与现有技术相比,本发明的一个或多个实施例可以具有如下优点:
实现在语义分割能力指标—平均交并比
Figure BDA0002259298400000021
满足机器视觉检测准确率要求下,降低语义分割时间Tseg
附图说明
图1是约简残差模块多孔卷积架构网络及快速语义分割方法流程图;
图2是主干网络ResNet的隐含层类型、构造块结构、层运算参数结构图;
图3ResNet降采样残差构造块的约简结构图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,下面将结合实施例及附图对本发明作进一步详细的描述。
如图1所示,为约简残差模块多孔卷积架构网络及快速语义分割方法,该方法包括分析ResNet降采样残差构造块机理,约简降采样模块主路径、跳过路径,选择主干网络深度,训练语义分割网络实现快速语义分割应用。具体步骤为:
步骤10分析ResNet降采样残差构造块机理,在残差单元运算式基础上,推导出降采样残差单元运算式,分别定义降采样模块主路径结构、跳过路径结构的约简问题;
神经网络中的残差单元由多个隐含层及跳过连接构成,其输入为
Figure BDA0002259298400000031
维列向量X,第i个隐含层具有阶矩阵权值Wi,输出
Figure BDA0002259298400000033
维列向量Hi,具有3个隐含层(i=3)的残差单元输出
Figure BDA0002259298400000034
维列向量Y为:
Y=fNet[X,(W1,W2,W3)]+X (1)
若设实际值YGT,则残差单元中3个隐含层fNet[X,(W1,W2,W3)]拟合目标为实际值YGT与输入X的残差:
fNet[X,(W1,W2,W3)]=YGT-X (2)
但只有实际值YGT维度、输入X维度一致时(即
Figure BDA0002259298400000035
),式(1)、(2)才成立。
Figure BDA0002259298400000036
时需要变换X维度,使其与输出实际值YGT维度一致,可在跳过路径中增加权值Wskip
Figure BDA0002259298400000037
阶矩阵的隐含层,使WskipX为
Figure BDA0002259298400000038
维列向量。这时,残差单元运算为:
残差神经网络ResNet的残差构造块(Bottleneck Block)就是式(1)的实现形式,降采样残差构造块就是式(3)实现形式。
降采样模块主路径结构、跳过路径结构的约简问题为:
在主干网络中,隐含层结构包括池化层、卷积层等2种,卷积层中基本单元为特征图
Figure BDA00022592984000000310
每个特征图
Figure BDA00022592984000000311
通过一组权值
Figure BDA00022592984000000312
连接到前一层全部特征图
Figure BDA00022592984000000313
因此,ResNet的降采样残差构造块中,输出fNet[X,(W1,W2,W3)]与输入X维度不同,具体包括:输出、输入特征图在数量维度上不一致对应输出、输入特征图
Figure BDA0002259298400000042
在尺寸维度上不一致。
由式(1)、式(3),可以发现:①降采样残差构造块主路径的结构约简均是在不改变基本残差构造块主路径结构基础上,特征图降采样为1/2;②跳过路径的结构约简均是在不进行特征变换前提下,特征图数量增加至2倍、特征图降采样为1/2。
为更全面设计约简降采样残差构造块,表1列出主干网络主要层结构功能及输入利用率表,应用于ResNet降采样残差构造块中ls=2的1×1卷积层,不进行特征变换、特征图数量变维、特征图降采样,但输入利用率为1/4<1。
表1主干网络主要层结构功能及输入利用率表
步骤20约简降采样模块主路径结构,在不改变基本残差构造块主路径结构前提下,提出了输入利用率相对较大的主路径约简结构方案;
由于主路径结构约简优化在不改变基本残差构造块主路径结构进行,仅把特征图降采样为1/2。主路径结构约简优化就是选择主路径中的某个隐含层结构,设置其步长ls=2,表2列出不同主路径结构的功能与输入利用率,从输入利用率相对较大角度分析,方案②(第2个卷积层ls=2)具有比方案①(第1个卷积层ls=2)、方案③(第3个卷积层ls=2)更高的输入利用率,是相对较优的主路径结构。
表2不同主路径结构的功能与输入利用率表
Figure BDA0002259298400000051
步骤30约简降采样模块跳过路径结构,在不进行特征变换前提下,提出了输入利用率相对较大的主路径约简结构方案;
跳过路径结构约简优化是在不进行特征变换前提下,将特征图数量增加至2倍、特征图降采样为1/2,只能选择1×1卷积层、最大池化层、平均池化层来构建层数≤3的跳过路径结构,表3列出不同跳过路径结构的功能与输入利用率表。若使用单一隐含层结构,从表2可知,采用步长ls=2的1×1卷积层能同时实现特征图降采样、特征图数量变维的可行方案;若考虑2个隐含层的串联结构,方案④、⑤具有比其他方案更高的输入利用率,是相对较优的跳过路径结构。
表3不同跳过路径结构的功能与输入利用率表(*代表步长ls=2)
步骤40提出约简残差降采样模块结构,给出5种保证高输入利用率的约简残差降采样模块结构;
5种保证高输入利用率结构约简方案分别为:①单改主路径降采样卷积层简化结构(MOSS-CDCL);②单改跳过路径前置平均池化层简化结构(SOSS-PreSAPL);③改跳过路径后置平均池化层简化结构(SOSS-PostSAPL);④路径均改前置平均池化层简化结构(MSSS-PreSAPL);⑤径均改后置平均池化层简化结构(MSSS-PostSAPL)。
在结合附图3:①单改主路径降采样卷积层简化结构(MOSS-CDCL),主路径降采样卷积层从第1层修改到第2层,见图3a);②单改跳过路径前置平均池化层简化结构(SOSS-PreSAPL),将跳过路径降采样卷积层改为先平均池化层,后加卷积层的组合结构,见图3b);③改跳过路径后置平均池化层简化结构(SOSS-PostSAPL),将跳过路径降采样卷积层改为先卷积层,后加平均池化层的组合结构,见图3c);④路径均改前置平均池化层简化结构(MSSS-PreSAPL),将主路径降采样卷积层从第1层修改到第2层,并将跳过路径降采样卷积层改为先平均池化层,后加卷积层的组合结构,见图3d);⑤径均改后置平均池化层简化结构(MSSS-PostSAPL),将主路径降采样卷积层从第1层修改到第2层,并将跳过路径降采样卷积层改为先卷积层,后加平均池化层的组合结构,见图3e)。
步骤50选择主干网络深度,训练语义分割网络实现快速语义分割应用。主干网络ResNet深度可以选择为50、101、152。
应用MOSS-CDCL、SOSS-PreSAPL、SOSS-PostSAPL、MSSS-PreSAPL、MSSS-PreSAPL等约简结构替换降采样残差构造块,在ResNet101中,得到5种新的ResNet约简结构。在ImageNet数据集训练得主干网络,以ASPP为密集预测网络结构构建语义分割网络,在MIT-ADE20K数据集,验证指标再在机器视觉数据集上迁移学习、分割1280×1024图像,得到应用效果指标
Figure BDA0002259298400000071
及分割时间Tseg,可得到几种约简网络结构语义分割网络的分割能力、计算开销对比表(见表4)。
表4约简网络结构语义分割网络的分割能力、计算开销对比表
Figure BDA0002259298400000072
可以看出,在重点考虑网络语义分割能力-计算开销出发下,研究多孔卷积架构网络约简技术,期望在
Figure BDA0002259298400000073
满足机器视觉检测准确率要求下,降低Tsegsegmain,dmain)。通过降采样残差结构块约简,分析得到路径均改后置平均池化层简化结构MSSS-PostSAPL,它相对于DeepLabv3,
Figure BDA0002259298400000074
仅牺牲0.60%,Tseg则降低38.20%,在Tseg要求苛刻下采用MSSS-PreSAPL约简网络结构意义相当重大。
虽然本发明所揭露的实施方式如上,但所述的内容只是为了便于理解本发明而采用的实施方式,并非用以限定本发明。任何本发明所属技术领域内的技术人员,在不脱离本发明所揭露的精神和范围的前提下,可以在实施的形式上及细节上作任何的修改与变化,但本发明的专利保护范围,仍须以所附的权利要求书所界定的范围为准。

Claims (7)

1.约简残差模块多孔卷积架构网络及快速语义分割方法,其特征在于,所述方法包括分析ResNet降采样残差构造块机理,约简降采样模块主路径、跳过路径,选择主干网络深度,训练语义分割网络实现快速·语义分割应用,具体包括以下步骤:
A分析ResNet降采样残差构造块机理,在残差单元运算式基础上,推导出降采样残差单元运算式,分别定义降采样模块主路径结构、跳过路径结构的约简问题;
B约简降采样模块主路径结构,在不改变基本残差构造块主路径结构前提下,输入利用率相对较大的主路径约简结构;
C约简降采样模块跳过路径结构,在不进行特征变换前提下,输入利用率相对较大的主路径约简结构;
D提出约简残差降采样模块结构,并给出种五种保证高输入利用率的约简残差降采样模块结构;
E选择主干网络深度,训练语义分割网络实现快速语义分割应用。
2.如权利要求1所述的约简残差模块多孔卷积架构网络及快速语义分割方法,其特征在于,所述降采样残差单元运算式为:
神经网络中的残差单元由多个隐含层及跳过连接构成,其输入为
Figure FDA0002259298390000011
维列向量X,第i个隐含层具有
Figure FDA0002259298390000012
阶矩阵权值Wi,输出
Figure FDA0002259298390000013
维列向量Hi,具有3个隐含层(i=3)的残差单元输出
Figure FDA0002259298390000014
维列向量Y为:
Y=fNet[X,(W1,W2,W3)]+X (1)
若设实际值YGT,则残差单元中3个隐含层fNet[X,(W1,W2,W3)]拟合目标为实际值YGT与输入X的残差:
fNet[X,(W1,W2,W3)]=YGT-X (2)
但只有实际值YGT维度、输入X维度一致时(即
Figure FDA0002259298390000015
),式(1)、(2)才成立;
Figure FDA0002259298390000021
时需要变换X维度,使其与输出实际值YGT维度一致,可在跳过路径中增加权值Wskip
Figure FDA0002259298390000022
阶矩阵的隐含层,使WskipX为
Figure FDA0002259298390000023
维列向量;这时,残差单元运算为:
Figure FDA0002259298390000024
残差神经网络ResNet的残差构造块(Bottleneck Block)就是式(1)的实现形式,降采样残差构造块就是式(3)实现形式。
3.如权利要求1所述的约简残差模块多孔卷积架构网络及快速语义分割方法,其特征在于,所述步骤A中的,降采样模块主路径结构、跳过路径结构的约简问题为:①降采样残差构造块主路径的结构约简均是在不改变基本残差构造块主路径结构基础上,特征图降采样为1/2;②跳过路径的结构约简均是在不进行特征变换前提下,特征图数量增加至2倍、特征图降采样为1/2。
4.如权利要求1所述的约简残差模块多孔卷积架构网络及快速语义分割方法,其特征在于,所述步骤B具体包括:在不改变基本残差构造块主路径结构前提下,提出了输入利用率相对较大的主路径约简结构方案:
由于主路径结构约简优化在不改变基本残差构造块主路径结构进行,仅把特征图降采样为1/2;主路径结构约简优化就是选择主路径中的某个隐含层结构,设置其步长ls=2,并从输入利用率相对较大角度分析,选出相对较优的主路径结构。
5.如权利要求1所述的约简残差模块多孔卷积架构网络及快速语义分割方法,其特征在于,所述步骤C中:
跳过路径结构约简优化是在不进行特征变换前提下,将特征图数量增加至2倍、特征图降采样为1/2,只能选择1×1卷积层、最大池化层、平均池化层来构建层数≤3的跳过路径结构,并采用步长ls=2的1×1卷积层能同时实现特征图降采样、特征图数量变维的可行方案,选出较优的跳过路径结构。
6.如权利要求1所述的约简残差模块多孔卷积架构网络及快速语义分割方法,其特征在于,所述步骤D中:五种保证高输入利用率结构约简方案分别为:①单改主路径降采样卷积层简化结构MOSS-CDCL;②单改跳过路径前置平均池化层简化结构SOSS-PreSAPL;③改跳过路径后置平均池化层简化结构SOSS-PostSAPL;④路径均改前置平均池化层简化结构MSSS-PreSAPL;⑤径均改后置平均池化层简化结构MSSS-PostSAPL。
7.如权利要求1所述的约简残差模块多孔卷积架构网络及快速语义分割方法,其特征在于,所述步骤E中,主干网络ResNet深度为50、101、152。
CN201911065797.2A 2019-11-04 2019-11-04 约简残差模块多孔卷积架构网络及快速语义分割方法 Active CN110782023B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911065797.2A CN110782023B (zh) 2019-11-04 2019-11-04 约简残差模块多孔卷积架构网络及快速语义分割方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911065797.2A CN110782023B (zh) 2019-11-04 2019-11-04 约简残差模块多孔卷积架构网络及快速语义分割方法

Publications (2)

Publication Number Publication Date
CN110782023A true CN110782023A (zh) 2020-02-11
CN110782023B CN110782023B (zh) 2023-04-07

Family

ID=69388675

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911065797.2A Active CN110782023B (zh) 2019-11-04 2019-11-04 约简残差模块多孔卷积架构网络及快速语义分割方法

Country Status (1)

Country Link
CN (1) CN110782023B (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113420811A (zh) * 2021-06-23 2021-09-21 中国矿业大学(北京) 一种使用深度学习的煤岩识别方法
CN115546483A (zh) * 2022-09-30 2022-12-30 哈尔滨市科佳通用机电股份有限公司 基于深度学习的地铁受电弓碳滑板剩余使用量测量方法

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108664974A (zh) * 2018-04-03 2018-10-16 华南理工大学 一种基于rgbd图像与全残差网络的语义分割方法
CN109101975A (zh) * 2018-08-20 2018-12-28 电子科技大学 基于全卷积神经网络的图像语义分割方法
CN109670529A (zh) * 2018-11-14 2019-04-23 天津大学 一种用于快速语义分割的可分离分解残差模块设计方法
CN109685067A (zh) * 2018-12-26 2019-04-26 江西理工大学 一种基于区域和深度残差网络的图像语义分割方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108664974A (zh) * 2018-04-03 2018-10-16 华南理工大学 一种基于rgbd图像与全残差网络的语义分割方法
CN109101975A (zh) * 2018-08-20 2018-12-28 电子科技大学 基于全卷积神经网络的图像语义分割方法
CN109670529A (zh) * 2018-11-14 2019-04-23 天津大学 一种用于快速语义分割的可分离分解残差模块设计方法
CN109685067A (zh) * 2018-12-26 2019-04-26 江西理工大学 一种基于区域和深度残差网络的图像语义分割方法

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113420811A (zh) * 2021-06-23 2021-09-21 中国矿业大学(北京) 一种使用深度学习的煤岩识别方法
CN115546483A (zh) * 2022-09-30 2022-12-30 哈尔滨市科佳通用机电股份有限公司 基于深度学习的地铁受电弓碳滑板剩余使用量测量方法
CN115546483B (zh) * 2022-09-30 2023-05-12 哈尔滨市科佳通用机电股份有限公司 基于深度学习的地铁受电弓碳滑板剩余使用量测量方法

Also Published As

Publication number Publication date
CN110782023B (zh) 2023-04-07

Similar Documents

Publication Publication Date Title
CN111860693A (zh) 一种轻量级视觉目标检测方法及系统
CN112232214A (zh) 一种基于深度特征融合和注意力机制的实时目标检测方法
CN111401436B (zh) 一种融合网络和双通道注意力机制的街景图像分割方法
CN109146944B (zh) 一种基于深度可分卷积神经网络的视觉深度估计方法
CN111340046A (zh) 基于特征金字塔网络和通道注意力的视觉显著性检测方法
CN113033570A (zh) 一种改进空洞卷积和多层次特征信息融合的图像语义分割方法
CN110378398B (zh) 一种基于多尺度特征图跳跃融合的深度学习网络改进方法
CN113657388A (zh) 一种融合图像超分辨率重建的图像语义分割方法
CN110782023B (zh) 约简残差模块多孔卷积架构网络及快速语义分割方法
CN113298032A (zh) 基于深度学习的无人机视角图像的车辆目标检测方法
CN113554032A (zh) 基于高度感知的多路并行网络的遥感图像分割方法
US20230135109A1 (en) Method for processing signal, electronic device, and storage medium
CN113066089A (zh) 一种基于注意力引导机制的实时图像语义分割网络
CN113313176A (zh) 一种基于动态图卷积神经网络的点云分析方法
Wang et al. TF-SOD: a novel transformer framework for salient object detection
CN115908772A (zh) 一种基于Transformer和融合注意力机制的目标检测方法及系统
CN113627093A (zh) 一种基于改进Unet网络的水下机构跨尺度流场特征预测方法
CN110633706B (zh) 一种基于金字塔网络的语义分割方法
CN115797808A (zh) 一种无人机巡检缺陷图像的识别方法、系统、装置及介质
CN113537119B (zh) 基于改进Yolov4-tiny的输电线路连接部件检测方法
Li et al. NDNet: Spacewise multiscale representation learning via neighbor decoupling for real-time driving scene parsing
CN113780542A (zh) 一种面向fpga的多目标网络结构的构建方法
CN111401405A (zh) 一种多神经网络集成的图像分类方法及系统
CN111160491A (zh) 一种卷积神经网络中的池化方法和池化模型
CN115331261A (zh) 基于YOLOv6的移动端实时人体检测方法及系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant