CN110728683A - 一种基于密集连接的图像语义分割方法 - Google Patents

一种基于密集连接的图像语义分割方法 Download PDF

Info

Publication number
CN110728683A
CN110728683A CN201910935594.8A CN201910935594A CN110728683A CN 110728683 A CN110728683 A CN 110728683A CN 201910935594 A CN201910935594 A CN 201910935594A CN 110728683 A CN110728683 A CN 110728683A
Authority
CN
China
Prior art keywords
image
dense connection
unit
feature map
channel
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201910935594.8A
Other languages
English (en)
Other versions
CN110728683B (zh
Inventor
李文辉
刘东会
胡玉龙
张博翔
梁婷婷
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Jilin University
Original Assignee
Jilin University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Jilin University filed Critical Jilin University
Priority to CN201910935594.8A priority Critical patent/CN110728683B/zh
Publication of CN110728683A publication Critical patent/CN110728683A/zh
Application granted granted Critical
Publication of CN110728683B publication Critical patent/CN110728683B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/10Segmentation; Edge detection
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20081Training; Learning

Abstract

本发明公开了一种基于密集连接的图像语义分割方法,包括如下步骤:S101:确定需要使用的数据集及其对应的标注图像,其标注图像为每一个像素赋予类别标签;S102:设计基于密集连接的图像语义分割网络,图像语义分割网络包括密集连接单元、通道融合单元、特征图融合单元;S103:设计密集连接单元密集、连接单元提取的特征图经过图像变换操作,之后再经过转置操作,然后进行softmax操作,得到通道注意力映射图;设计通道融合单元,通过挖掘通道图之间的相互依赖关系可以增强有相互依赖关系的特征图;设计特征图融合单元,将通道融合单元的输出映射图与密集连接的特征提取单元的结果进行加运算融合操作。本发明能有效重复利用不同层和不同通道之间的特征,不仅有效地提高分割效率,还减少了参数量。

Description

一种基于密集连接的图像语义分割方法
技术领域
本发明涉及模式识别、人工智能、计算机视觉技术领域,特别涉及一种基于密集连接的图像语义分割方法。
背景技术
深度神经网络的发展极大地推动了计算机视觉领域的发展,神经网络在目标检测、行人重识别、语义分割等方面取得了前所未有的良好效果,深度神经网络的发展也极大促进了图像分类技术的发展。图像分类从图像级别分类发展到区域级别预测、进而发展到像素级别预测。图像语义分割为图像的每一个像素预测出给定类别中的一种特定类别标签,属于像素级别预测。图像语义分割是计算机视觉的基础工作,可以被广泛应用在自动驾驶、虚拟现实、视频监控等领域。
自J.Long等人提出全卷积神经网络以来,深度神经网络开始在语义分割处理问题上占据主导地位。但是,目前在语义分割领域仍然存在以下问题:1)经过不断连续的卷积和池化操作,图像分辨率减小,造成细节性信息丢失现象。2)缺乏捕获背景上下文的能力,造成小物体分类错误的现象,图像每个通道的映射图相当于对每一类的响应,网络应该具备采集通道相关性的结构。
FCN将全连接层替换成卷积层,实现了图像密集预测,解决了语义分割问题,但是在对特征图实施反卷积时的实现暴力粗糙。随后,以SegNet为代表的编码-解码网络实现了更精确的图像边界的定位。Huang G等人提出密集连接的图像分类网络。J.Fu等人提出双注意力机制网络分别在空间维度上和通道维度上建立语义依赖关系。近年来,语义分割方向新的方法和思路层出不穷。研究人员也提出了很多优秀的网络,而且,随着近来框架的发展和高计算性能图形处理单元的进步,语义分割发展势头正猛。
综上所述,语义分割方法仍然有提升的空间,而改进的重点为图像边界信息的保留以及小物体的的正确分类,并结合深度卷积神经网络提升整体性能。
发明内容
本发明的目的在于提供一种基于密集连接的图像语义分割方法,在一定程度上提升了网络的性能,增强了特征的传播的同时,支持特征复用,网络结构不仅减少了网络参数,同时实现了分割效率的提高,以解决上述背景技术中提出的问题。
为实现上述目的,本发明提供如下技术方案:
一种基于密集连接的图像语义分割方法,包括如下步骤:
S101:确定需要使用的数据集及其对应的标注图像,其标注图像为每一个像素赋予类别标签;
并将数据集分别划分为训练数据集、验证数据集和测试数据集,训练数据集用于训练模型,验证数据集用于调整模型参数,从而选取最好的模型,测试数据集用于测试模型的分割能力;
S102:设计基于密集连接的图像语义分割网络,图像语义分割网络包括密集连接单元、通道融合单元、特征图融合单元;
S103:设计密集连接单元,密集连接单元提取的特征图经过图像变换操作,之后再经过转置操作,与提取出的特征图的变换图像进行矩阵乘法操作,然后进行softmax操作,得到通道注意力映射图;设计通道融合单元,高水平特征通道图可以看作是对一个特定类别的响应,不同的语义响应之间相互关联,通过挖掘通道图之间的相互依赖关系可以增强有相互依赖关系的特征图,并改进特定语义的特征表示;设计特征图融合单元,将通道融合单元的输出映射图与密集连接的特征提取单元的结果进行加运算融合操作。
进一步地,S102中整个图像在输入网络之前,首先进行一个大核卷积操作和一个3×3最大池化操作,两步操作步长均为2。
进一步地,所述密集连接的特征提取单元包括密集连接模块、卷积单元、池化单元,不同的密集连接模块分别由不同数量的1×1和3×3卷积组合组成,以提取图像特征;
进一步地,所述卷积单元在每个密集连接模块之后,通过一个1×1卷积操作,该卷积操作控制特征图的通道数量保持不变。
进一步地,所述池化单元用于卷积操作之后,用于提取特征图中特征,并减少特征图分辨率。
进一步地,所述密集连接模块提取的特征图经过图像变换操作,之后再经过转置操作,与提取出的特征图的变换图像进行矩阵乘法操作,然后进行softmax操作,得到通道注意力映射图。
进一步地,所述注意力映射图经过转置,与经过变换的密集连接单元提取的特征图进行矩阵乘法操作,并对得到的结果进行图像变换。
进一步地,得到的结果与密集连接单元提取的特征图进行求和操作,得到通道融合单元的输出映射图。
进一步地,所述特征图融合单元将通道融合单元的输出映射图与密集连接的特征提取单元的结果进行加运算融合操作,对该结果进行卷积和上采样操作得到最后的分割结果。
与现有技术相比,本发明的有益效果是:本发明针对图像特征图在多次卷积和池化过程中细节消失问题和语义边界信息不明显等问题提出一种基于密集连接的网络,在一定程度上提升了网络的性能,增强了特征的传播的同时,支持特征复用,网络结构不仅减少了网络参数,同时实现了分割效率的提高。
附图说明
图1为本发明基于密集连接的图像语义分割方法的网络结构图;
图2为本发明基于密集连接的图像语义分割方法密集连接单元的结构示意图;
图3为本发明基于密集连接的图像语义分割方法通道连接单元的结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
如图1所示,一种基于密集连接的图像语义分割方法,网络架构包括密集连接单元、通道融合单元、特征图融合单元。密集连接单元实现对不同层特征的融合,将不同层之间的特征进行密集连接,从而得到精细的语义特征,保留图像边界信息。通道融合单元将不同通道融合,有效地提取细小的语义信息,改善小物体分类错误现象。特征图融合单元将上述两单元的特征信息进行融合得到最后的结果。
一种基于密集连接的图像语义分割方法,包括如下步骤:
步骤1:在图1中,输入一张任意大小的图像,假设图像为T,通道数为C,大小为H×W。首先经过一步卷积操作,卷积核大小为7×7,卷积步长为2,使用padding操作,这一操作将原图像变为H/2×W/2×2k,其中k为一个网络参数,代表每一个层所产生的特征图的通道数;
步骤2:步骤1产生的特征图结果经过一个3×3的最大池化层操作,提取图像特征,并减小图像分辨率。其中步长为2。经过这一操作,图像由H/2×W/2×2k变为H/4×W/4×2k大小。
步骤3:步骤2产生的特征图输入第一个密集连接单元,密集连接单元的具体实施方式如图2所示,为了更好地改善层与层之间的信息流,每一个特征图经过多个密集连接层,每个层都分别与后面的每一个层连接,每个层输出的特征图通道数为k,那么第L层的输入Xl为:Xl=H1([X0,X1,……,Xl-1])
步骤4:第一个密集连接单元由6个1×1卷积和3×3卷积组合操作堆叠而成。在1×1卷积操作和3×3卷积操作之前分别对步骤3得到的特征图进行batch normalization和ReLU操作,经过第一个密集连接单元,图像大小不发生变化,经过密集连接单元,将高层特征与低层特征进行融合,提取更全面的特征信息。
步骤5:在第一个密集连接单元之后连接一个1×1卷积操作,该操作用于维持特征图通道数保持不变。之后进行一次2×2平均池化操作,其中步长为2,经过池化操作,提取特征图特征,图像大小减半,图像变为原来大小的1/8,即H/8×W/8。
步骤6:第二个密集连接单元由12个1×1卷积和3×3卷积操作组合堆叠组成。在1×1卷积操作和3×3卷积操作之前分别对步骤5得到的特征图进行batch normalization和ReLU操作,经过第二个密集连接单元,相对于第五步得到的特征图,图像大小不发生变化。
步骤7:在第二个密集连接单元之后同样连接一个1×1卷积操作,该操作用于维持特征图通道数保持不变。之后进行一次2×2平均池化操作,其中步长为2,通过平均池化操作,提取特征图特征,图像大小减半,图像变为原来大小的1/16,即H/16×W/16。
步骤8:第三个密集连接单元由48个1×1卷积和3×3卷积操作组合堆叠组成。在1×1卷积操作和3×3卷积操作之前分别对步骤7得到的特征图进行batch normalization和ReLU操作,经过第三个密集连接单元,相对于步骤7得到的特征图,图像大小不发生变化。
步骤9:在第三个密集连接单元之后同样连接一个1×1卷积操作,该操作用于维持特征图通道数保持不变。之后进行一次2×2平均池化操作,其中步长为2,通过平均池化操作,提取特征图特征,图像大小减半,图像变为原来大小的1/32,即H/32×W/32。
步骤10:上述步骤9得到的特征图一路输入加法融合单元,一路送入通道融合单元。通道融合单元的具体实施方法如图3所示。
步骤11:首先将特征图经过图像变换,具体实施如下,变换之后的特征图为T′,其中T′大小为C×S,其中S=H×W。
步骤12:首先将变换后的特征图T′与T′的转置做矩阵乘法操作,然后经过softmax操作得到通道注意力映射图T″。其中:
Figure BDA0002221514590000061
T″ji衡量通道与通道之间的相互影响,即衡量第i个通道对第j的通道所产生的作用。
步骤13:将步骤12得到的通道注意力映射图的转置特征图与变换之后的特征图T′进行矩阵乘法操作,并将结果进行变换,此时结果图R′大小为C×H×W。其中:
Figure BDA0002221514590000062
每个通道的最终特征图是所有通道的特征和原始特征图的总和,保证了特征图之间存在的依赖关系得以利用,有助于提高特征的可辨识度。在计算两个通道的关系时,本发明不使用卷积层来提取特征,因为如此一来可以保持不同通道映射之间的关系。本发明利用所有对应位置的空间信息来获取通道与通道相关性。
步骤14:将步骤13的结果图与步骤9得到的特征图像素大小相同,将两个特征图加法融合操作,此时得到通道融合单元的输出结果。
步骤15:最后利用卷积层生成最终的预测图。
本发明的网络架构包括密集连接单元、通道融合单元、特征图融合单元。密集连接单元将不同层之间的特征进行密集连接,实现了对不同层之间特征的重复使用,得到精细的语义细节特征,有效改善边界缺失问题。通道融合单元将不同通道之间的特征融合,有效地提取背景上下文信息,改善了小物体分类错误的情况。实验结果表明,与传统的网络相比,本发明能有效重复利用不同层和不同通道之间的特征,不仅有效地提高分割效率,还减少了参数量。
为了改善层与层之间的信息流的传递,本发明使用不同的连接方式。具体连接方式为:任何一个层都分别与随后的每一个层直接连接,即,每一层都接收前面每一层的特征图作为本层输入。故此,加强了层与层之间相同位置语义特征间联系,消减细节信息的丢失,保留了语义边界信息,同时缩减网络模型参数量。
本发明主要通过密集连接单元对不同层之间的语义特征进行提取,充分使用不同层之间信息的融合,提高了对图像语义边界信息的保留,提高了特征提取质量。此外,通道提取单元充分融合通道之间相同位置的空间信息获取通道与通道相关性。提高了对小物体分类的正确率。
以上所述,仅为本发明较佳的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明披露的技术范围内,根据本发明的技术方案及其发明构思加以等同替换或改变,都应涵盖在本发明的保护范围之内。

Claims (9)

1.一种基于密集连接的图像语义分割方法,其特征在于,包括如下步骤:
S101:确定需要使用的数据集及其对应的标注图像,其标注图像为每一个像素赋予类别标签;
并将数据集分别划分为训练数据集、验证数据集和测试数据集,训练数据集用于训练模型,验证数据集用于调整模型参数,从而选取最好的模型,测试数据集用于测试模型的分割能力;
S102:设计基于密集连接的图像语义分割网络,图像语义分割网络包括密集连接单元、通道融合单元、特征图融合单元;
S103:设计密集连接单元,密集连接单元提取的特征图经过图像变换操作,之后再经过转置操作,与提取出的特征图的变换图像进行矩阵乘法操作,然后进行softmax操作,得到通道注意力映射图;设计通道融合单元,高水平特征通道图可以看作是对一个特定类别的响应,不同的语义响应之间相互关联,通过挖掘通道图之间的相互依赖关系可以增强有相互依赖关系的特征图,并改进特定语义的特征表示;设计特征图融合单元,将通道融合单元的输出映射图与密集连接的特征提取单元的结果进行加运算融合操作。
2.根据权利要求1所述的基于密集连接的图像语义分割方法,其特征在于,S102中整个图像在输入网络之前,首先进行一个大核卷积操作和一个3×3最大池化操作,两步操作步长均为2。
3.根据权利要求1所述的基于密集连接的图像语义分割方法,其特征在于,所述密集连接的特征提取单元包括密集连接模块、卷积单元、池化单元,不同的密集连接模块分别由不同数量的1×1和3×3卷积组合组成,以提取图像特征。
4.根据权利要求3述的基于密集连接的图像语义分割方法,其特征在于,所述密集连接模块提取的特征图经过图像变换操作,之后再经过转置操作,与提取出的特征图的变换图像进行矩阵乘法操作,然后进行softmax操作,得到通道注意力映射图;所述卷积单元在每个密集连接模块之后,通过一个1×1卷积操作,该卷积操作控制特征图的通道数量保持不变;池化单元用于卷积操作之后,用于提取特征图中特征,并减少特征图分辨率。
5.根据权利要求3所述的基于密集连接的图像语义分割方法,其特征在于,所述池化单元用于卷积操作之后,用于提取特征图中特征,并减少特征图分辨率。
6.根据权利要求3所述的基于密集连接的图像语义分割方法,其特征在于,所述密集连接模块提取的特征图经过图像变换操作,之后再经过转置操作,与提取出的特征图的变换图像进行矩阵乘法操作,然后进行softmax操作,得到通道注意力映射图。
7.根据权利要求6所述的基于密集连接的图像语义分割方法,其特征在于,所述注意力映射图经过转置,与经过变换的密集连接单元提取的特征图进行矩阵乘法操作,并对得到的结果进行图像变换。
8.根据权利要求7所述的基于密集连接的图像语义分割方法,其特征在于,得到的结果与密集连接单元提取的特征图进行求和操作,得到通道融合单元的输出映射图。
9.根据权利要求1所述的基于密集连接的图像语义分割方法,其特征在于,所述特征图融合单元将通道融合单元的输出映射图与密集连接的特征提取单元的结果进行加运算融合操作,对该结果进行卷积和上采样操作得到最后的分割结果。
CN201910935594.8A 2019-09-29 2019-09-29 一种基于密集连接的图像语义分割方法 Expired - Fee Related CN110728683B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910935594.8A CN110728683B (zh) 2019-09-29 2019-09-29 一种基于密集连接的图像语义分割方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910935594.8A CN110728683B (zh) 2019-09-29 2019-09-29 一种基于密集连接的图像语义分割方法

Publications (2)

Publication Number Publication Date
CN110728683A true CN110728683A (zh) 2020-01-24
CN110728683B CN110728683B (zh) 2021-02-26

Family

ID=69219736

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910935594.8A Expired - Fee Related CN110728683B (zh) 2019-09-29 2019-09-29 一种基于密集连接的图像语义分割方法

Country Status (1)

Country Link
CN (1) CN110728683B (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111339862A (zh) * 2020-02-17 2020-06-26 中国地质大学(武汉) 一种基于通道注意力机制的遥感场景分类方法及装置
CN112613376A (zh) * 2020-12-17 2021-04-06 深圳集智数字科技有限公司 重识别方法及装置,电子设备

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109409222A (zh) * 2018-09-20 2019-03-01 中国地质大学(武汉) 一种基于移动端的多视角人脸表情识别方法
CN109711413A (zh) * 2018-12-30 2019-05-03 陕西师范大学 基于深度学习的图像语义分割方法
CN109829918A (zh) * 2019-01-02 2019-05-31 安徽工程大学 一种基于密集特征金字塔网络的肝脏图像分割方法
CN110070073A (zh) * 2019-05-07 2019-07-30 国家广播电视总局广播电视科学研究院 基于注意力机制的全局特征和局部特征的行人再识别方法
CN110245665A (zh) * 2019-05-13 2019-09-17 天津大学 基于注意力机制的图像语义分割方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109409222A (zh) * 2018-09-20 2019-03-01 中国地质大学(武汉) 一种基于移动端的多视角人脸表情识别方法
CN109711413A (zh) * 2018-12-30 2019-05-03 陕西师范大学 基于深度学习的图像语义分割方法
CN109829918A (zh) * 2019-01-02 2019-05-31 安徽工程大学 一种基于密集特征金字塔网络的肝脏图像分割方法
CN110070073A (zh) * 2019-05-07 2019-07-30 国家广播电视总局广播电视科学研究院 基于注意力机制的全局特征和局部特征的行人再识别方法
CN110245665A (zh) * 2019-05-13 2019-09-17 天津大学 基于注意力机制的图像语义分割方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
JUN FU ET AL.: ""Dual Attention Network for Scene Segmentation"", 《CS.CV》 *
SHIYAO WANG ET AL.: ""Densely Connected CNN with Multi-scale Feature Attention for Text Classification"", 《PROCEEDINGS OF THE TWENTY-SEVENTH INTERNATIONAL JOINT CONFERENCE ON ARTIFICIAL INTELLIGENCE》 *
刘航等: ""基于注意力机制的遥感图像分割模型"", 《知网》 *

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111339862A (zh) * 2020-02-17 2020-06-26 中国地质大学(武汉) 一种基于通道注意力机制的遥感场景分类方法及装置
CN112613376A (zh) * 2020-12-17 2021-04-06 深圳集智数字科技有限公司 重识别方法及装置,电子设备
CN112613376B (zh) * 2020-12-17 2024-04-02 深圳集智数字科技有限公司 重识别方法及装置,电子设备

Also Published As

Publication number Publication date
CN110728683B (zh) 2021-02-26

Similar Documents

Publication Publication Date Title
CN111626300A (zh) 基于上下文感知的图像语义分割模型及建模方法
CN112163601B (zh) 图像分类方法、系统、计算机设备及存储介质
CN113609896A (zh) 基于对偶相关注意力的对象级遥感变化检测方法及系统
CN113554032B (zh) 基于高度感知的多路并行网络的遥感图像分割方法
CN112489164B (zh) 基于改进深度可分离卷积神经网络的图像着色方法
CN110728683B (zh) 一种基于密集连接的图像语义分割方法
CN112884758B (zh) 一种基于风格迁移方法的缺陷绝缘子样本生成方法及系统
CN111815526B (zh) 基于图像滤波和cnn的有雨图像雨条纹去除方法及系统
CN111768415A (zh) 一种无量化池化的图像实例分割方法
CN114973011A (zh) 一种基于深度学习的高分辨率遥感影像建筑物提取方法
CN111798469A (zh) 基于深度卷积神经网络的数字图像小数据集语义分割方法
CN115908793A (zh) 一种基于位置注意力机制的编解码结构语义分割模型
CN113096133A (zh) 一种基于注意力机制的语义分割网络的构建方法
CN111275694B (zh) 一种注意力机制引导的递进式划分人体解析系统及方法
CN116935226A (zh) 一种基于HRNet的改进型遥感图像道路提取方法、系统、设备及介质
CN116778169A (zh) 基于混合特征提取的遥感图像语义分割方法、装置和设备
CN114882490B (zh) 一种基于点引导定位的无受限场景车牌检测分类方法
CN114529450B (zh) 基于改进深度迭代协作网络的人脸图像超分辨方法
CN114494284B (zh) 一种基于显式监督区域关系的场景解析模型及方法
CN115331081A (zh) 图像目标检测方法与装置
CN114693951A (zh) 一种基于全局上下文信息探索的rgb-d显著性目标检测方法
CN114581789A (zh) 一种高光谱图像分类方法及系统
CN113469335B (zh) 一种利用不同卷积层特征间关系为特征分配权重的方法
CN113392724B (zh) 基于多任务学习的遥感场景分类方法
CN113192009B (zh) 一种基于全局上下文卷积网络的人群计数方法及系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20210226

Termination date: 20210929