CN111275083A - 一种用于实现残差网络特征数量匹配的优化方法 - Google Patents

一种用于实现残差网络特征数量匹配的优化方法 Download PDF

Info

Publication number
CN111275083A
CN111275083A CN202010040601.0A CN202010040601A CN111275083A CN 111275083 A CN111275083 A CN 111275083A CN 202010040601 A CN202010040601 A CN 202010040601A CN 111275083 A CN111275083 A CN 111275083A
Authority
CN
China
Prior art keywords
feature
convolutional
convolution
layer
encoder
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202010040601.0A
Other languages
English (en)
Other versions
CN111275083B (zh
Inventor
汪晓妍
祝骋路
夏明�
黄晓洁
王璐瑶
袁逸雯
白琮
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhejiang University of Technology ZJUT
Original Assignee
Zhejiang University of Technology ZJUT
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhejiang University of Technology ZJUT filed Critical Zhejiang University of Technology ZJUT
Priority to CN202010040601.0A priority Critical patent/CN111275083B/zh
Publication of CN111275083A publication Critical patent/CN111275083A/zh
Application granted granted Critical
Publication of CN111275083B publication Critical patent/CN111275083B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/26Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion
    • G06V10/267Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion by performing operations on regions, e.g. growing, shrinking or watersheds
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Engineering & Computer Science (AREA)
  • Computing Systems (AREA)
  • Software Systems (AREA)
  • Molecular Biology (AREA)
  • Computational Linguistics (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Mathematical Physics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Multimedia (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Image Analysis (AREA)

Abstract

一种用于实现残差网络特征数量匹配的优化方法,包括以下步骤:步骤1.由第一个编码器组实现,该编码器包括一个初始卷积层将原始数据中提取16个特征图,再通过一个卷积单元组深化特征,而对应的快捷连接不需要应用通道优化单元,可以直接应用;步骤2.基于特征匹配的多级优化特征卷积编码;步骤3.基于特征匹配的多级优化特征卷积解码;步骤4.通过最后1级解码器组,其输出后设置了卷积层映射对应分类的数量,并在最后设置了Softmax层以对第四维度进行归一化,使得每个体素在所以类别的概率值和为1。本发明解决了在深度学习网络中卷积前面特征图不匹配所导致无法实现残差学习框架,在控制训练代价的同时,保证模型的鲁棒性。

Description

一种用于实现残差网络特征数量匹配的优化方法
技术领域
本发明属于图像处理领域,涉及一种用于实现残差网络特征数量匹配的优化方法。
背景技术
深度学习作为目前广泛流行的人工智能技术,广泛用于在计算机科学的各个领域中,基于现在公开越来越多的数据集,深度学习在图像处理方面相较于传统处理方法有更高的表现,但是过去的网络结构中还存在一些问题,由于数据量的增大,需要构建的更深(卷积层更多)的网络来训练模型,从而会产生训练缓慢,计算量增大的结果,甚至产生了梯度爆炸和梯度消失的情况导致模型训练无法进行,因此2015年Resnet网络结构的提出了一种基于残差学习的框架来改善以上的问题,并且取得一定的成果。而利用残差网络构成的语义分割模型以实现端到端的分割任务,比起之前全连接类型的网络,有了更好的模型解释性和分割效果。
残差网络的的改进是在卷积层(Weight layer)输入前加入快捷连接至卷积层的输出上,即直接将输入的数据与卷积后的数据进行求和(sum)操作,构成残差学习框架,模型在训练参数的时不是直接进行值映射,而是映射输入和输出的残差。图1(a)就是应用在Resnet上的一个典型的结构,再这样的结构中。然而在卷积层操作中,通常会增加卷积核的组数来达到特征提取的目的,如图1(b),然而由于通道数发生变化,使得快捷连接无法直接应用,因此需要构建特殊的方式来实现快捷连接以完成恒等映射。
在Resnet的作者中的进一步工作中,他们研究了在具体卷积结构中关于批量归一化(BN)层,激活(ReLu)层和卷积层顺序对模型拟合效果的影响,面对上面的问题,他们采取的方式在快捷连接的过程中设置一个卷积层,随后在设置一个BN层将输入数据的通道数与卷积输出的通道数相同以实现求和操作,但是该方法在实际数据中的结果不是很稳定,网络最后的结果容易出现偏离较大的异常值,从而使得模型不鲁棒。
此外,现有的语义分割的模型中,使用步幅大于1的卷积层来替换池化层的结构,同时提升了通道的数量,在后续的权值层中就如图(a)一样不改变通道,因此快捷连接可以直接实现。但是这种方法带了的是待训练参数个数和计算量的大量上升,特别是对于三维图像的任务,训练代价更是以指数形式增长。
发明内容
为了克服已有技术的不足,即在Resnet方法中造成了模型的不鲁棒,在现有框架方法中带来了巨大的训练代价,本发明提供了一种用于实现残差网络特征数量匹配的优化方法。
本发明解决其技术问题所采用的技术方案是:
一种用于实现残差网络特征数量匹配的优化方法,包括以下步骤:
步骤1.初始卷积特征编码:由第一个编码器组实现,该编码器包括一个初始卷积层将原始数据中提取16个特征图,再通过一个卷积单元组深化特征,而对应的快捷连接不需要应用通道优化单元,可以直接应用;
步骤2.基于特征匹配的多级优化特征卷积编码:从上个步骤得到的特征图组依次通过4个编码器组进行后续4级下采样的深化特征操作,在该步骤的编码器组中,使用步幅为2的最大池化层来是特征的深度由浅入深地提取,为解码器的卷积单元设置2组卷积组合(BN+ReLu+Conv)并完成特征提取的功能;其中为了实现残差学习框架,设置了通道优化单元,即先由一个批量归一化层处理下采样后的数据,在用一个尺寸为1*1*1,步幅1,边缘填补0的卷积层提升对应的特征层数,来匹配在卷积单元组的输入和输出时的特征图数量;
步骤3.基于特征匹配的多级优化特征卷积解码:在数据进行所有的编码器组后,特征深化到了一定程度,设置5组解码器逐级恢复特征图的描述至输入图像大小,以达到端对端映射的目的;在该步骤的解码器组中,由于最大上采样的操作需要在编码的同时记录索引,会造成训练代价的急剧上升,因此采用转职卷积的方式,设置了叠加操作,即叠加来自对应尺寸对应特征等级编码器的特征图,由于通道数量的再一次增加,在解码器的卷积单元组中的第一个卷积层上进行通道数再次减半的操作,以在解码器端构建残差学习框架;
步骤4.最终概率图映射:通过最后1级解码器组,其输出后设置了卷积层映射对应分类的数量,并在最后设置了Softmax层以对第四维度进行归一化,使得每个体素在所以类别的概率值和为1。
本发明的有益效果主要表现在:解决了在深度学习网络中卷积前面特征图不匹配所导致无法实现残差学习框架(无法应用快捷连接),在控制训练代价的同时,保证模型的鲁棒性。
附图说明
图1是现有的残差网络结构的示意图。
图2是网络架构图。
图3是同一特征级中的具体操作流程图。
具体实施方式
下面结合附图对本发明作进一步描述。
参照图2和图3,一种用于实现残差网络特征数量匹配的优化方法,包括以下步骤:
步骤1.初始卷积特征编码:由第一个编码器组实现,该编码器包括一个初始卷积层(尺寸3*3*3,步幅1,边缘填补1)将原始数据中提取16个特征图(如图2左斜条纹块),再通过一个卷积单元组(类似如图3中点划线框所示),但是由于已经预先由初始卷积层增加了特征图数量,因此只是在该单元的第一个卷积层“Conv↑”替换成“Conv=”)深化特征,而对应的快捷连接不需要应用通道优化单元,可以直接应用;
步骤2.基于特征匹配的多级优化特征卷积编码:从上个步骤得到的特征图组依次通过4个编码器组进行后续4级下采样的深化特征操作,在该步骤的编码器组中,使用步幅为2的最大池化层(不记录最大池化索引位置)来是特征的深度由浅入深地提取;为解码器的卷积单元设置2组卷积组合(BN+ReLu+Conv)并完成特征提取的功能(提升特征图数量),其中为了实现残差学习框架,设置了通道优化单元(如图3虚线框),即先由一个批量归一化层处理下采样后的(卷积单元组输入)数据,在用一个尺寸为1*1*1,步幅1,边缘填补0的卷积层提升对应的特征层数,来匹配在卷积单元组的输入和输出时的特征图数量;
步骤3.基于特征匹配的多级优化特征卷积解码:在数据进行所有的编码器组后,特征深化到了一定程度,设置5组解码器逐级恢复特征图的描述至输入图像大小,以达到端对端映射的目的;在该步骤的解码器组中,由于最大上采样的操作需要在编码的同时记录索引,会造成训练代价的急剧上升,因此采用转职卷积的方式;整体结构中具体使用的细节如图3解码器端的描述,其中为了平滑特征恢复的结果,设置了叠加操作,即叠加来自对应尺寸对应特征等级编码器的特征图(如图3中的虚线箭头);由于通道数量的再一次增加,在解码器的卷积单元组中的第一个卷积层上进行通道数再次减半的操作,以在解码器端构建残差学习框架;
步骤4.最终概率图映射:通过最后1级解码器组(第一级),其输出后的我们设置了卷积层(图2右斜条纹块)映射对应分类的数量(例如分3类就映射通道数至3,生成三个特征图),并在最后设置了Softmax层以对第四维度(即特征图数量维度)进行归一化,使得每个体素在所以类别的概率值和为1。
本实施例中,拟构造一种三维图像的深度神经语义分割网络,其中残差学习框架,并且为了降低训练代价仍然使用无参数的最大池化层已实现不变性特征的提取,具体的网络架构如图2所示。
该模型由5个编码器组和5个解码器组构成一种对称性的深度卷积模型,以实现数据的端到端的映射,每个灰色区域表示处于同一尺寸大小的特征图。

Claims (1)

1.一种用于实现残差网络特征数量匹配的优化方法,其特征在于,所述方法包括以下步骤:
步骤1.初始卷积特征编码:由第一个编码器组实现,该编码器包括一个初始卷积层将原始数据中提取16个特征图,再通过一个卷积单元组深化特征,而对应的快捷连接不需要应用通道优化单元,可以直接应用;
步骤2.基于特征匹配的多级优化特征卷积编码:从上个步骤得到的特征图组依次通过4个编码器组进行后续4级下采样的深化特征操作,在该步骤的编码器组中,使用步幅为2的最大池化层来是特征的深度由浅入深地提取,为解码器的卷积单元设置2组卷积组合(BN+ReLu+Conv)并完成特征提取的功能;其中为了实现残差学习框架,设置了通道优化单元,即先由一个批量归一化层处理下采样后的数据,在用一个尺寸为1*1*1,步幅1,边缘填补0的卷积层提升对应的特征层数,来匹配在卷积单元组的输入和输出时的特征图数量;
步骤3.基于特征匹配的多级优化特征卷积解码:在数据进行所有的编码器组后,特征深化到了一定程度,设置5组解码器逐级恢复特征图的描述至输入图像大小,以达到端对端映射的目的;在该步骤的解码器组中,由于最大上采样的操作需要在编码的同时记录索引,会造成训练代价的急剧上升,因此采用转职卷积的方式,设置了叠加操作,即叠加来自对应尺寸对应特征等级编码器的特征图,由于通道数量的再一次增加,在解码器的卷积单元组中的第一个卷积层上进行通道数再次减半的操作,以在解码器端构建残差学习框架;
步骤4.最终概率图映射:通过最后1级解码器组,其输出后设置了卷积层映射对应分类的数量,并在最后设置了Softmax层以对第四维度进行归一化,使得每个体素在所以类别的概率值和为1。
CN202010040601.0A 2020-01-15 2020-01-15 一种用于实现残差网络特征数量匹配的优化方法 Active CN111275083B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010040601.0A CN111275083B (zh) 2020-01-15 2020-01-15 一种用于实现残差网络特征数量匹配的优化方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010040601.0A CN111275083B (zh) 2020-01-15 2020-01-15 一种用于实现残差网络特征数量匹配的优化方法

Publications (2)

Publication Number Publication Date
CN111275083A true CN111275083A (zh) 2020-06-12
CN111275083B CN111275083B (zh) 2021-06-18

Family

ID=71003198

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010040601.0A Active CN111275083B (zh) 2020-01-15 2020-01-15 一种用于实现残差网络特征数量匹配的优化方法

Country Status (1)

Country Link
CN (1) CN111275083B (zh)

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109492556A (zh) * 2018-10-28 2019-03-19 北京化工大学 面向小样本残差学习的合成孔径雷达目标识别方法
CN109523013A (zh) * 2018-10-15 2019-03-26 西北大学 一种基于浅层卷积神经网络的空气颗粒物污染程度估计方法
US10304193B1 (en) * 2018-08-17 2019-05-28 12 Sigma Technologies Image segmentation and object detection using fully convolutional neural network
KR20190135616A (ko) * 2018-05-29 2019-12-09 한국과학기술원 뉴럴 네트워크를 이용한 희소 뷰 전산단층 촬영 영상 처리 방법 및 그 장치
CN110675406A (zh) * 2019-09-16 2020-01-10 南京信息工程大学 基于残差双注意力深度网络的ct图像肾脏分割算法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20190135616A (ko) * 2018-05-29 2019-12-09 한국과학기술원 뉴럴 네트워크를 이용한 희소 뷰 전산단층 촬영 영상 처리 방법 및 그 장치
US10304193B1 (en) * 2018-08-17 2019-05-28 12 Sigma Technologies Image segmentation and object detection using fully convolutional neural network
CN109523013A (zh) * 2018-10-15 2019-03-26 西北大学 一种基于浅层卷积神经网络的空气颗粒物污染程度估计方法
CN109492556A (zh) * 2018-10-28 2019-03-19 北京化工大学 面向小样本残差学习的合成孔径雷达目标识别方法
CN110675406A (zh) * 2019-09-16 2020-01-10 南京信息工程大学 基于残差双注意力深度网络的ct图像肾脏分割算法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
ZHENGXIN ZHANG 等: "Road Extraction by Deep Residual U-Net", 《IEEE GEOSCIENCE AND REMOTE SENSING LETTERS》 *
刘亚龙 等: "基于精细化残差U-Net的新生儿局灶性脑白质损伤分割模型", 《计算机应用》 *

Also Published As

Publication number Publication date
CN111275083B (zh) 2021-06-18

Similar Documents

Publication Publication Date Title
CN111563902B (zh) 一种基于三维卷积神经网络的肺叶分割方法及系统
CN110781775B (zh) 一种多尺度特征支持的遥感影像水体信息精确分割方法
CN108804397B (zh) 一种基于少量目标字体的汉字字体转换生成的方法
CN109034162B (zh) 一种图像语义分割方法
CN106991646B (zh) 一种基于密集连接网络的图像超分辨率方法
CN111242288B (zh) 一种用于病变图像分割的多尺度并行深度神经网络模型构建方法
CN111340814A (zh) 一种基于多模态自适应卷积的rgb-d图像语义分割方法
CN109213975B (zh) 一种基于字符层级卷积变分自编码的推特文本表示方法
CN109086768B (zh) 卷积神经网络的语义图像分割方法
CN111523546A (zh) 图像语义分割方法、系统及计算机存储介质
CN112365514A (zh) 基于改进PSPNet的语义分割方法
CN111382759B (zh) 一种像素级分类方法、装置、设备及存储介质
CN114972746B (zh) 一种基于多分辨率重叠注意力机制的医学影像分割方法
CN111861886B (zh) 一种基于多尺度反馈网络的图像超分辨率重建方法
CN113706545A (zh) 一种基于双分支神经判别降维的半监督图像分割方法
CN114821100B (zh) 基于结构组稀疏网络的图像压缩感知重建方法
CN112132158A (zh) 一种基于自编码网络的可视化图片信息嵌入方法
CN113344933B (zh) 一种基于多层次特征融合网络的腺体细胞分割方法
CN111783862A (zh) 多注意力导向神经网络的立体显著性物体检测技术
CN115775316A (zh) 基于多尺度注意力机制的图像语义分割方法
CN111275083B (zh) 一种用于实现残差网络特征数量匹配的优化方法
CN113888505A (zh) 一种基于语义分割的自然场景文本检测方法
CN117115563A (zh) 基于区域语义感知的遥感土地覆盖分类方法及系统
AU2021104479A4 (en) Text recognition method and system based on decoupled attention mechanism
CN113793267B (zh) 基于跨维度注意力机制的自监督单遥感图像超分辨率方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant