CN111401436A - 一种融合网络和双通道注意力机制的街景图像分割方法 - Google Patents

一种融合网络和双通道注意力机制的街景图像分割方法 Download PDF

Info

Publication number
CN111401436A
CN111401436A CN202010174544.5A CN202010174544A CN111401436A CN 111401436 A CN111401436 A CN 111401436A CN 202010174544 A CN202010174544 A CN 202010174544A CN 111401436 A CN111401436 A CN 111401436A
Authority
CN
China
Prior art keywords
layer
characteristic
image
input
width
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202010174544.5A
Other languages
English (en)
Other versions
CN111401436B (zh
Inventor
张珣
马广驰
江东
付晶莹
郝蒙蒙
王昊
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Institute of Geographic Sciences and Natural Resources of CAS
Beijing Technology and Business University
Original Assignee
Institute of Geographic Sciences and Natural Resources of CAS
Beijing Technology and Business University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Institute of Geographic Sciences and Natural Resources of CAS, Beijing Technology and Business University filed Critical Institute of Geographic Sciences and Natural Resources of CAS
Priority to CN202010174544.5A priority Critical patent/CN111401436B/zh
Publication of CN111401436A publication Critical patent/CN111401436A/zh
Application granted granted Critical
Publication of CN111401436B publication Critical patent/CN111401436B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • G06F18/253Fusion techniques of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02TCLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
    • Y02T10/00Road transport of goods or passengers
    • Y02T10/10Internal combustion engine [ICE] based vehicles
    • Y02T10/40Engine management systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • Software Systems (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Mathematical Physics (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Image Analysis (AREA)

Abstract

本发明公布了一种融合网络和双通道注意力机制的街景图像分割方法,包括训练阶段和测试阶段;训练阶段构建基于高分辨率融合网络和双通道注意力机制的图像分割卷积神经网络模型并训练模型,模型包括输入层、隐层和输出层;隐层包括以密集采样方式堆叠的四个扩张卷积块、高分辨率融合网络和双通道注意力机制;测试阶段对待进行分割的街景图像进行预测,得到预测语义分割图像,即实现基于高分辨率融合网络和双通道注意力机制的图像语义分割。本发明方法分割精度高,鲁棒性更好。

Description

一种融合网络和双通道注意力机制的街景图像分割方法
技术领域
本发明属于图像语义分割技术领域,涉及一种基于深度学习的语义分割技术,具体涉及一种基于高分辨率融合网络和双通道注意力机制的街景图像语义分割方法。
背景技术
深度学习是人工神经网络的一个分支,具有深度网络结构的人工神经网络是深度学习最早的网络模型。最初,深度学习的应用主要是在图像和语音领域。自2006年以来,深度学习在学术界持续升温,深度学习和神经网络在语义分割、计算机视觉、语音识别、跟踪方面都有极广泛的应用,其极强的高效性也使得它在实时应用等各方面具有巨大的潜力。
卷积神经网络在图像的分类、定位以及场景理解等方面取得了成功。随着增强现实和自动驾驶车辆等任务的激增,许多研究人员将注意力转移到场景理解上,其中一个主要步骤就是语义分割,即对所给定图像中的每个像素点做分类。语义分割在移动和机器人相关应用中具有重要意义。
语义分割问题在很多应用场景中都有着十分重要的作用,例如图片理解、自动驾驶等,所以近年来,语义分割问题在学术界和工业界得到了广泛的关注。经典的语义分割方法有全连接网络(Full Connected Network,FCN)和卷积神经网络SegNet等,这些方法在道路场景分割数据库上的像素精度、均像素精度和均交并比均有不错的表现。但是,FCN的一个不足之处在于,由于池化层的存在,导致响应张量的大小(长和宽)越来越小,而FCN的设计初衷则需要与输入大小一致的输出,因此FCN做了上采样,但是,上采样并不能将丢失的信息全部无损的找回来;卷积神经网络SegNet是在FCN的基础上构建的网络模型,然而其并没有很好地控制信息丢失这个问题。因此,这些方法因信息丢失影响了图像语义分割的精确度,方法的鲁棒性也较低。
发明内容
为了克服上述现有技术的不足,本发明提供一种基于高分辨率融合网络和双通道注意力机制的街景图像语义分割方法,其分割精度高,鲁棒性更好。
本发明解决上述技术问题所采用的技术方案为:
一种基于高分辨率融合网络和双通道注意力机制的街景图像语义分割方法,其特征在于包括训练阶段和测试阶段两个过程,包括如下步骤:
1)选取图像训练集,包括原始图像及相应的真实语义分割图像;并分别将训练集中的每幅原始街景图像对应的真实语义分割图像处理成独热编码图像;
选取M幅原始的街景图像及每幅原始的街景图像对应的真实语义分割图像,并构成训练集,将训练集中的第m幅原始的街景图像记为{Im(i,j)},将训练集中与{Im(i,j)}对应的真实语义分割图像记为
Figure BDA0002410333360000021
其中原始街景图像为RGB彩色图像,M为正整数;M≥100;m为正整数,1≤m≤M;(i,j)为图像中像素点的坐标位置;1≤i≤W,1≤j≤H,W表示{Im(i,j)}的宽度,H表示{Im(i,j)}的高度,Im(i,j)表示{Im(i,j)}中坐标位置为(i,j)的像素点的像素值,
Figure BDA0002410333360000022
表示
Figure BDA0002410333360000023
中坐标位置为(i,j)的像素点的像素值;
然后采用独热编码技术将训练集中的每幅原始街景图像对应的真实语义分割图像处理成多幅独热编码图像;具体实施时,对街景图像物体类别分为了19类,将与原始街景图像对应的真实语义分割图像{Ir m(i,j)}处理成19幅独热编码图像,构成的集合记为
Figure BDA0002410333360000024
2)构建基于高分辨率融合网络和双通道注意力机制的图像分割卷积神经网络模型并训练模型:卷积神经网络包括输入层、隐层和输出层;隐层由3部分组成:以密集采样方式堆叠的四个扩张卷积块、高分辨率融合网络和双通道注意力机制;第一部分(以密集采样方式堆叠的四个扩张卷积块)具体由四个卷积核大小均为3×3,扩张率分别为6,12,18,24的卷积块以密集采样方式堆叠构成。
2_1)卷积神经网络的输入层用于接收原始输入图像的R、G、B三通道分量并输出给隐层;
对于输入层,输入层的输入端接收一幅宽度为W,高度为H的原始输入图像的R、G、B三通道分量,输入层的输出端输出原始输入图像的R、G、B三通道分量给隐层;
2_2)隐层第一部分包括以密集连接方式堆叠的四个扩张卷积块,通过4个扩张卷积块按序生成多幅特征图;
对于隐层第一部分,隐层第一部分一共有4个扩张卷积块以密集形式构成,每个扩张卷积块由带有Batch Normalization层(BN层)、Relu层和扩张卷积层构成,第1个扩张卷积块输入端接收输入层的输出端输出的原始输入图像的R通道分量、G通道分量和B通道分量,扩张率为3,输出端输出32幅特征图,将32幅特征图构成的集合记为R1;第2个扩张卷积块输入端接收输入层的输出端输出的原始输入图像的所有通道分量和R1,扩张率为6,输出端输出64幅特征图,将64幅特征图构成的集合记为R2;第3个扩张卷积块输入端接收输入层的输出端输出的原始输入图像的所有通道分量、R1和R2,扩张率为12,输出端输出128幅特征图,将128幅特征图构成的集合记为R3;第4个扩张卷积块输入端接收输入层的输出端输出的原始输入图像的所有通道分量、R1、R2和R3,扩张率为18,输出端输出64幅特征图,将64幅特征图构成的集合记为R4;其中,R4中的每幅特征图的宽度为W,高度为H;
2_3)通过三个阶段构成隐层第二部分(高分辨率融合网络);隐层第二部分中利用残差网络中的残差基本块(Basic block)作为网络搭建的基本块,使用Basic block作为网络搭建的基本块可以调节特征层数,达到降维的效果,还可以降低整个网络的参数量。隐层第二部分的每个阶段都比前一阶段多增加一条输入分支,即多获得一种分辨率的特征图层,在隐层第二部分的网络的每个阶段之间进行分辨率特征图层的相互融合,在空间上保留了原始图像更多的特征信息,具有很好的语义表达能力。具体步骤为:
第一阶段生成两个并行网络S1和S2,S1由3个残差基本块串联构成,本发明中的Basic block均由一个BN层、一个Relu层和一个3×3卷积核、步长为1、填充为1的卷积层构成。每个Basic block的输入特征层与输出特征层的宽和高一致,S1输入端接收R4中所有的特征图,S1的输出端输出36幅特征图,将36幅特征图构成的集合记为R6,其中,R6中的每幅特征图的宽度为W,高度为H;R4集合所有特征层通过卷积得到64幅特征层集合R5,其中,R5中的每幅特征图的宽度为W/2,高度为H/2;S2由3个残差基本块串联构成,每个Basic block的输入特征层与输出特征层宽高一致,S2输入端接收R5中所有的特征图,S2输出端输出36幅特征图,将36幅特征图集合记为R7,其中,R7中的每幅特征图的宽度为W/2,高度为H/2;R6特征集合通过下采样得到宽度为W/2、高度为H/2的36幅特征图层集合R8;通过下采样得到宽度为W/4、H/4的36幅特征图层集合R9。R7特征图层集合通过上采样得到宽度为W、高度为H的36幅特征图层集合R10;通过下采样得到宽度为W/4、H/4的36幅特征图层集合R11
第二阶段生成三个并行网络S3、S4和S5,其中,S3由3个残差基本块串联构成,每个Basic block的输入特征层与输出特征层宽高一致,S3输入端接收R6与R10中所有的特征图,S3的输出端输出72幅特征图,将72幅特征图构成的集合记为R12,其中,R12中的每幅特征图的宽度为W,高度为H;S4由3个残差基本块串联构成,每个Basic block的输入特征层与输出特征层宽高一致,S4输入端接收R7与R8中所有的特征图,S4的输出端输出72幅特征图,将72幅特征图构成的集合记为R13,其中,R13中的每幅特征图的宽度为W/2,高度为H/2;S5由3个残差基本块串联构成,每个Basic block的输入特征层与输出特征层宽高一致,S5输入端接收R9与R11中所有的特征图,S5的输出端输出72幅特征图构成的集合记为R14,其中,R14中的每幅特征图的宽度为W/4,高度为H/4。在S3、S4和S5的输出端,R12特征集合通过下采样得到宽度为W/2、H/2的72幅特征图层集合R15;通过下采样得到宽度为W/4、H/4的72幅特征图层集合R16;通过下采样得到宽度为W/8、H/8的72幅特征图层集合R17。R13特征集合通过上采样得到宽度为W、H的72幅特征图层集合R18;通过下采样得到宽度为W/4、H/4的72幅特征图层集合R19;通过下采样得到宽度为W/8、H/8的72幅特征图层集合R20。R14特征集合通过上采样得到宽度为W、H的72幅特征图层集合R21;通过上采样得到宽度为W/2、H/2的72幅特征图层集合R22;通过下采样得到宽度为W/8、H/8的72幅特征图层集合R23
第三阶段生成四个并行网络S6、S7、S8和S9,其中,S6由3个残差基本块串联构成,每个Basic block的输入特征层与输出特征层宽高一致,S6输入端接收R12、R18与R21中所有的特征图,S6的输出端输出144幅特征图,将144幅特征图构成的集合记为R24,其中,R24中的每幅特征图的宽度为W,高度为H;S7由3个残差基本块串联构成,每个Basic block的输入特征层与输出特征层宽高一致,S7输入端接收R13、R15与R22中所有的特征图,S7的输出端输出144幅特征图,将144幅特征图构成的集合记为R25,其中,R25中的每幅特征图的宽度为W/2,高度为H/2;S8由3个残差基本块串联构成,每个Basic block的输入特征层与输出特征层宽高一致,S8输入端接收R14、R16与R19中所有的特征图,S8的输出端输出144幅特征图,将144幅特征图构成的集合记为R26,其中,R26中的每幅特征图的宽度为W/4,高度为H/4;S9由3个残差基本块串联构成,每个Residual block的输入特征层与输出特征层宽高一致,S9输入端接收R17、R20与R23中所有的特征图,S9的输出端输出144幅特征图,将144幅特征图构成的集合记为R27,其中,R27中的每幅特征图的宽度为W/8,高度为H/8。R25特征集合通过上采样得到宽度为W、H的144幅特征图层集合R28;R26特征集合通过上采样得到宽度为W、H的144幅特征图层集合R29;R27特征集合通过上采样得到宽度为W、H的144幅特征图层集合R30
2_4)由位置注意力机制与通道注意力机制两个并行注意力机制网络构成隐层第三部分;
对于隐层第三部分,隐层第三部分通过位置注意力机制与通道注意力机制两个并行注意力机制网络构成,具体步骤为:
将特征图集合R24、R28、R29和R30合并为新的特征图集合R31,将特征图集合R31经过一个带有BN层和Relu层的1×1卷积层,输出一个宽度为W,高度为H的36幅特征图集合R32
位置注意力机制网络输入端输入
Figure BDA0002410333360000061
表示通道数为36,宽度为W,高度为H的特征图集合R32,在这里记为特征图集合A∈R32。然后经过一个带有BN层和ReLU层的卷积操作得到两个新的特征C,D,其中{C,D}∈R36×H×W,然后将这两个特征重新定义形状为R36 ×N,其中N=H×W,然后在C和D的转置矩阵上应用一次矩阵乘法,之后应用softmax层计算位置映射图S∈RN×N,softmax层计算如公式1:
Figure BDA0002410333360000062
其中,Sij表示第i个位置影响第j个位置的位置映射图,两个位置的特征越相似对Sij值的影响越大。同时将特征图集合A输入到一个带有BN层和ReLU层的卷积层产生另外一个特征图集合
Figure BDA0002410333360000063
重新定义形状为R36×N,然后对E和S的转置应用一次矩阵乘法,重新定义形状为
Figure BDA0002410333360000064
然后乘上一个因子α,α是可随网络自动调节的参数,初始化为0。与经过重新定义形状后的特征A∈R36×N进行一个逐元素的相加操作得到最终的输出
Figure BDA0002410333360000065
计算如公式2:
Figure BDA0002410333360000071
Fj∈R36×N,j=1,2,...,36,这里的Fj表示的是所有位置与原始位置加权和之后的特征结果,将输出Fj重新定义形状即得到最终位置注意力网络输出的特征图F∈R36×H×W
通道注意力机制网络输入端输入
Figure BDA0002410333360000072
Figure BDA0002410333360000073
进行reshape操作生成特征图集合
Figure BDA0002410333360000074
然后在
Figure BDA0002410333360000075
Figure BDA0002410333360000076
的转置上应用一次矩阵乘法,最终应用一个softmax层以获得通道注意力图
Figure BDA0002410333360000077
X的计算公式见公式3:
Figure BDA0002410333360000078
其中,xji表示了第i个通道对第j个通道的影响。之后对X的转置和
Figure BDA0002410333360000079
进行一次矩阵乘法然后reshape到R36×H×W,然后乘上一个因子β,然后与原始特征A进行一个逐元素的加和操作得到最终的特征图G∈R36×H×W,具体地见公式4:
Figure BDA00024103333600000710
GJ表示将所有通道特征和原始通道特征加权和知乎得到的通道特征结果,将输出Gj重新定义形状即得到最终位置注意力网络输出的特征图G∈R36×H×W。将特征图集合F和G合并,然后经过一个带有BN层和Relu层的1×1卷积层之后得到新的特征图集合R36
对于输出层,其由1个卷积层组成,输出层的输入端接收由特征图集合F和G合并之后的新特征图集合R36,输出层的输出端输出19幅与原始输入图像对应的语义分割预测图;其中,每幅语义分割预测图的宽度为W、高度为H。
2_5)将训练集中的每幅原始的街景图像作为原始输入图像,输入到步骤2)构建的卷积神经网络模型中进行训练,得到训练集中的每幅原始的街景图像对应的19幅语义分割预测图,将每幅原始的街景图像{Im(i,j)}对应的19幅语义分割预测图构成的集合记为
Figure BDA0002410333360000081
2_6)计算训练集中的每幅原始的街景图像对应的19幅语义分割预测图构成的集合
Figure BDA0002410333360000082
与对应的真实语义分割图像处理成的独热编码图像集合
Figure BDA0002410333360000083
之间的损失函数值,将
Figure BDA0002410333360000084
Figure BDA0002410333360000085
之间的损失函数值记为
Figure BDA0002410333360000086
具体实施时,采用分类交叉熵获得
Figure BDA0002410333360000087
Figure BDA0002410333360000088
之间的损失函数值。
2_7)重复执行步骤2_5)和步骤2_6)共N次,得到卷积神经网络分类训练模型,并共得到M×N个损失函数值;然后从M×N个损失函数值中找出值最小的损失函数值;其中,N>1;接着将值最小的损失函数值对应的权值矢量和偏置项作为卷积神经网络分类训练模型对应的最优权值矢量和最优偏置项,对应记为Wbest和bbest;即完成卷积神经网络分类模型的训练,得到训练好的基于高分辨率融合网络和双通道注意力机制的图像分割卷积神经网络模型。
二、测试阶段过程的具体步骤为:
3_1)令
Figure BDA0002410333360000089
表示待语义分割的道路场景图像;其中,1≤i'≤W',1≤j'≤H',W'表示
Figure BDA00024103333600000810
的宽度,H'表示
Figure BDA00024103333600000811
的高度,
Figure BDA00024103333600000812
表示
Figure BDA00024103333600000813
中坐标位置为(i,j)的像素点的像素值;
3_2)将
Figure BDA00024103333600000814
的R通道分量、G通道分量和B通道分量输入到训练好的卷积神经网络分类模型中,利用Wbest和bbest进行预测,得到
Figure BDA00024103333600000815
对应的预测语义分割图像,记为
Figure BDA00024103333600000816
其中,
Figure BDA00024103333600000817
表示
Figure BDA00024103333600000818
中坐标位置为(i',j')的像素点的像素值。
通过上述步骤,即实现基于高分辨率融合网络和双通道注意力机制的图像语义分割。
与现有技术相比,本发明的优点在于:
1)本发明方法在构建卷积神经网络的过程中,隐层第一部分采用了密集连接方式(Dense)的ASPP模块(DenseASPP),DenseASPP模块的设置增大了对原始输入图像中特征信息的提取能力,充分结合了多扩张率、多尺度的扩张卷积方式,从而提高了训练得到的卷积神经网络分类训练模型的预测准确度。
2)本发明方法构建的卷积神经网络,采用了高分辨率融合并行网络来降低了特征图像在整个网络中损失的特征信息,通过整个过程中高分辨率不变并融合低分辨率特征图信息,在极大程度上保留了有效的深度信息,使得训练阶段的到的语义分割预测图和测试阶段得到的预测语义分割图像的分辨率高,边界精确。
3)本发明方法构建的卷积神经网络,隐层第三阶段引入了双通道注意力机制来自适应地集成局部特征和全局依赖,有助于得到更精确的分割结果。
附图说明
图1为本发明方法的流程框图。
图2为本发明方法构建的神经网络模型的组成结构框图。
图3为本发明实施例采用的待语义分割的街景图像、对应的真实语义分割图像及进行预测得到的预测语义分割图像;
其中,(a)为选取的一幅待语义分割的街景图像;(b)为(a)所示的待语义分割的街景图像对应的真实语义分割图像;(c)为利用本发明方法对(a)所示的待语义分割的街景图像进行预测得到的预测语义分割图像。
具体实施方式
以下结合附图,通过实施例对本发明作进一步详细描述,但不以任何方式限制本发明的范围。
本发明提出的一种基于高分辨率融合网络和双通道注意力机制的街景图像语义分割方法,其总体实现框图如图1所示,其包括训练阶段和测试阶段两个过程。
所述的训练阶段过程的具体步骤为:
1_1选取M幅原始的街景图像及每幅原始的街景图像对应的真实语义分割图像,并构成训练集,将训练集中的第m幅原始的街景图像记为{Im(i,j)},将训练集中与{Im(i,j)}对应的真实语义分割图像记为
Figure BDA0002410333360000101
然后采用独热编码技术(one-hot)将训练集中的每幅原始街景图像对应的真实语义分割图像处理成19幅独热编码图像,将
Figure BDA0002410333360000102
处理成的19幅独热编码图像构成的集合记为
Figure BDA0002410333360000103
其中原始街景图像为RGB彩色图像,M为正整数,M≥100,如取500,m为正整数,1≤m≤M,1≤i≤W,1≤j≤H,W表示{Im(i,j)}的宽度,H表示{Im(i,j)}的高度,如取W=1024、H=512,Im(i,j)表示{Im(i,j)}中坐标位置为(i,j)的像素点的像素值,
Figure BDA0002410333360000104
表示
Figure BDA0002410333360000105
中坐标位置为(i,j)的像素点的像素值;在此,原始的街景图像直接选用城市景观数据集,即Cityscapes公共数据集中的训练数据集共2975张图像。
2构建卷积神经网络:卷积神经网络包括输入层、隐层和输出层;隐层由3部分组成:第一部分由四个卷积核大小均为3×3,扩张率分别为6,12,18,24的卷积块以密集采样方式堆叠构成,第二部分由高分辨率融合网络构成,第三部分由双通道注意力机制构成。
2_1对于输入层,输入层的输入端接收一副原始输入图像的R、G、B三通道分量,输入层的输出端输出原始输入图像的R通道分量、G通道分量和B通道分量给隐层;其中,要求输入层的输入端接收的原始输入图像的宽度为W,高度为H;
2_2对于隐层第一部分,隐层第一部分一共有4个扩张卷积块以密集形式构成,每个扩张卷积块由带有Batch Normalization层(BN层)、Relu层和扩张卷积层构成,第1个扩张卷积块输入端接收输入层的输出端输出的原始输入图像的R通道分量、G通道分量和B通道分量,扩张率为3,输出端输出32幅特征图,将32幅特征图构成的集合记为R1;第2个扩张卷积块输入端接收输入层的输出端输出的原始输入图像的所有通道分量和R1,扩张率为6,输出端输出64幅特征图,将64幅特征图构成的集合记为R2;第3个扩张卷积块输入端接收输入层的输出端输出的原始输入图像的所有通道分量、R1和R2,扩张率为12,输出端输出128幅特征图,将128幅特征图构成的集合记为R3;第4个扩张卷积块输入端接收输入层的输出端输出的原始输入图像的所有通道分量、R1、R2和R3,扩张率为18,输出端输出64幅特征图,将64幅特征图构成的集合记为R4;其中,R4中的每幅特征图的宽度为W,高度为H;
2_3对于隐层第二部分,隐层第二部分通过三个阶段构成,具体步骤为:
第一阶段生成两个并行网络S1和S2,S1由3个残差基本块串联构成,每个Residualblock的输入特征层与输出特征层宽高一致,S1输入端接收R4中所有的特征图,S1的输出端输出36幅特征图,将36幅特征图构成的集合记为R6,其中,R6中的每幅特征图的宽度为W,高度为H;R4集合所有特征层通过卷积得到64幅特征层集合R5,其中,R5中的每幅特征图的宽度为W/2,高度为H/2;S2由3个残差基本块串联构成,每个Residual block的输入特征层与输出特征层宽高一致,S2输入端接收R5中所有的特征图,S2输出端输出36幅特征图,将36幅特征图集合记为R7,其中,R7中的每幅特征图的宽度为W/2,高度为H/2;R6特征集合通过下采样得到宽度为W/2、高度为H/2的36幅特征图层集合R8;通过下采样得到宽度为W/4、H/4的36幅特征图层集合R9。R7特征图层集合通过上采样得到宽度为W、高度为H的36幅特征图层集合R10;通过下采样得到宽度为W/4、H/4的36幅特征图层集合R11
第二阶段生成三个并行网络S3、S4和S5,其中,S3由3个残差基本块串联构成,每个Residual block的输入特征层与输出特征层宽高一致,S3输入端接收R6与R10中所有的特征图,S3的输出端输出72幅特征图,将72幅特征图构成的集合记为R12,其中,R12中的每幅特征图的宽度为W,高度为H;S4由3个残差基本块串联构成,每个Residual block的输入特征层与输出特征层宽高一致,S4输入端接收R7与R8中所有的特征图,S4的输出端输出72幅特征图,将72幅特征图构成的集合记为R13,其中,R13中的每幅特征图的宽度为W/2,高度为H/2;S5由3个残差基本块串联构成,每个Residual block的输入特征层与输出特征层宽高一致,S5输入端接收R9与R11中所有的特征图,S5的输出端输出72幅特征图构成的集合记为R14,其中,R14中的每幅特征图的宽度为W/4,高度为H/4。在S3、S4和S5的输出端,R12特征集合通过下采样得到宽度为W/2、H/2的72幅特征图层集合R15;通过下采样得到宽度为W/4、H/4的72幅特征图层集合R16;通过下采样得到宽度为W/8、H/8的72幅特征图层集合R17。R13特征集合通过上采样得到宽度为W、H的72幅特征图层集合R18;通过下采样得到宽度为W/4、H/4的72幅特征图层集合R19;通过下采样得到宽度为W/8、H/8的72幅特征图层集合R20。R14特征集合通过上采样得到宽度为W、H的72幅特征图层集合R21;通过上采样得到宽度为W/2、H/2的72幅特征图层集合R22;通过下采样得到宽度为W/8、H/8的72幅特征图层集合R23
第三阶段生成四个并行网络S6、S7、S8和S9,其中,S6由3个残差基本块串联构成,每个Residual block的输入特征层与输出特征层宽高一致,S6输入端接收R12、R18与R21中所有的特征图,S6的输出端输出144幅特征图,将144幅特征图构成的集合记为R24,其中,R24中的每幅特征图的宽度为W,高度为H;S7由3个残差基本块串联构成,每个Residual block的输入特征层与输出特征层宽高一致,S7输入端接收R13、R15与R22中所有的特征图,S7的输出端输出144幅特征图,将144幅特征图构成的集合记为R25,其中,R25中的每幅特征图的宽度为W/2,高度为H/2;S8由3个残差基本块串联构成,每个Residual block的输入特征层与输出特征层宽高一致,S8输入端接收R14、R16与R19中所有的特征图,S8的输出端输出144幅特征图,将144幅特征图构成的集合记为R26,其中,R26中的每幅特征图的宽度为W/4,高度为H/4;S9由3个残差基本块串联构成,每个Residual block的输入特征层与输出特征层宽高一致,S9输入端接收R17、R20与R23中所有的特征图,S9的输出端输出144幅特征图,将144幅特征图构成的集合记为R27,其中,R27中的每幅特征图的宽度为W/8,高度为H/8。R25特征集合通过上采样得到宽度为W、H的144幅特征图层集合R28;R26特征集合通过上采样得到宽度为W、H的144幅特征图层集合R29;R27特征集合通过上采样得到宽度为W、H的144幅特征图层集合R30
2_4对于隐层第三部分,隐层第三部分通过位置注意力机制与通道注意力机制两个并行注意力机制网络构成,具体步骤为:
将特征图集合R24、R28、R29和R30合并为新的特征图集合R31,将特征图集合R31经过一个带有BN层和Relu层的1×1卷积层,输出一个宽度为W,高度为H的36幅特征图集合R32
位置注意力机制网络输入端输入
Figure BDA0002410333360000131
表示通道数为36,宽度为W,高度为H的特征图集合R32。然后经过一个带有BN层和ReLU层的卷积操作得到两个新的特征C,D,其中{C,D}∈R36×H×W,然后将这两个特征重新定义形状为R36×N,其中N=H×W,然后在C和D的转置上应用一次矩阵乘法,之后应用softmax层计算位置映射图S∈RN×N,softmax层计算如公式1:
Figure BDA0002410333360000132
其中Sij表示第i个位置对第j个位置的影响,两个位置的特征越相似对这个值的影响越大。同时将特征图集合
Figure BDA0002410333360000133
输入到一个带有BN层和ReLU层的卷积层产生另外一个特征图集合
Figure BDA0002410333360000141
重新定义形状为R36×N,然后对D和S的转置应用一次矩阵乘法,重新定义形状为
Figure BDA0002410333360000142
然后乘上一个因子α,α是可随网络自动调节的参数,初始化为0。与特征A进行一个逐元素的相加操作得到最终的输出Fj,重新定义形状得到
Figure BDA0002410333360000143
计算如公式2:
Figure BDA0002410333360000144
通道注意力机制网络输入端输入
Figure BDA0002410333360000145
Figure BDA0002410333360000146
进行reshape操作生成特征图集合
Figure BDA0002410333360000147
然后在
Figure BDA0002410333360000148
Figure BDA0002410333360000149
的转置上应用一次矩阵乘法,最终应用一个softmax层以获得通道注意力图
Figure BDA00024103333600001410
X的计算公式见公式3:
Figure BDA00024103333600001411
其中xji表示了第i个通道对第j个通道的影响。之后对X的转置和
Figure BDA00024103333600001412
进行一次矩阵乘法然后reshape到R36×H×W,然后乘上一个因子β,然后与原始特征A进行一个逐元素的加和操作得到输出Gj并重新定义形状得到最终的特征图G∈R36×H×W,具体地见公式4:
Figure BDA00024103333600001413
将特征图集合F和G合并,然后经过一个带有BN层和Relu层的1×1卷积层之后得到新的特征图集合R36
对于输出层,其由1个卷积层组成,输出层的输入端接收由特征图集合F和G合并之后的新特征图集合R36,输出层的输出端输出19幅与原始输入图像对应的语义分割预测图;其中,每幅语义分割预测图的宽度为W、高度为H。
2_5将训练集中的每幅原始的街景图像作为原始输入图像,输入到神经网络中进行训练,得到训练集中的每幅原始的街景图像对应的19幅语义分割预测图,将{Im(i,j)}对应的19幅语义分割预测图构成的集合记为
Figure BDA00024103333600001414
2_6计算训练集中的每幅原始的街景图像对应的19幅语义分割预测图构成的集合与对应的真实语义分割图像处理成的灰度图像集合之间的损失函数值,将
Figure BDA0002410333360000151
Figure BDA0002410333360000152
之间的损失函数值记为
Figure BDA0002410333360000153
采用分类交叉熵(categoricalcrossentropy)获得。
2_7重复执行步骤2_5和步骤2_6共N次,得到卷积神经网络分类训练模型,并共得到M×N个损失函数值;然后从M×N个损失函数值中找出值最小的损失函数值;接着将值最小的损失函数值对应的权值矢量和偏置项对应作为卷积神经网络分类训练模型的最优权值矢量和最优偏置项,对应记为Wbest和bbest;其中,N>1;在本实例中N=484。
所述的测试阶段过程的具体步骤为:
3_1令
Figure BDA0002410333360000154
表示待语义分割的道路场景图像;其中,1≤i'≤W',1≤j'≤H',W'表示
Figure BDA0002410333360000155
的宽度,H'表示
Figure BDA0002410333360000156
的高度,
Figure BDA0002410333360000157
表示
Figure BDA0002410333360000158
中坐标位置为(i,j)的像素点的像素值;
3_2将
Figure BDA0002410333360000159
的R通道分量、G通道分量和B通道分量输入到卷积神经网络分类模型中,并利用Wbest和bbest进行预测,得到
Figure BDA00024103333600001510
对应的预测语义分割图像,记为
Figure BDA00024103333600001511
其中,
Figure BDA00024103333600001512
表示
Figure BDA00024103333600001513
中坐标位置为(i',j')的像素点的像素值。
为了进一步验证本发明方法的可行性和有效性,进行试验。
使用基于python的深度学习库pytorch0.4.0搭建卷积神经网络的架构。采用Cityscapes测试集来分析利用本发明方法预测得到的街景图像的分割效果如何。这里,利用评估语义分割方法的3个常用客观参量作为评价指标,即像素精度(Pixel Accuracy,PA)、均像素精度(Mean Pixel Accuracy,MPA)、均交并比(Mean Intersection overUnion,MIoU)来评比预测语义分割图像的分割性能。
利用本发明方法对Cityscapes测试集中的每幅街景图像进行预测,得到每幅街景图像对应的预测语义分割图像,反应本发明方法的语义分割效果的像素精度PA、均像素精度MPA、均交并比MIoU如表1所示,像素精度PA、均像素精度MPA、均交并比MIoU的值越高,说明有效性和预测准确率越高。从表1所列的数据可知,按本发明方法得到的街景图像的分割效果是较好的,表明利用本发明方法来获取街景图像对应的预测语义分割图像是具有可行性且有效的。
表1利用本发明方法在测试集上的评测结果
Figure BDA0002410333360000161
图3a给出了选取的一幅待语义分割的街景图像;图3b给出了图3a所示的待语义分割的街景图像对应的真实语义分割图像;图3c给出了利用本发明方法对图3a所示的待语义分割的街景图像进行预测,得到的预测语义分割图像。对比图3b和图3c,可以看出利用本发明方法得到的预测语义分割图像的分割精度较高,接近真实语义分割图像。
需要注意的是,公布实施例的目的在于帮助进一步理解本发明,但是本领域的技术人员可以理解:在不脱离本发明及所附权利要求的精神和范围内,各种替换和修改都是可能的。因此,本发明不应局限于实施例所公开的内容,本发明要求保护的范围以权利要求书界定的范围为准。

Claims (10)

1.一种融合网络和双通道注意力机制的街景图像分割方法,包括训练阶段和测试阶段,其特征是:
一、训练阶段:构建基于高分辨率融合网络和双通道注意力机制的图像分割卷积神经网络模型并训练模型;包括如下步骤:
1)选取图像训练集,包括原始图像及相应的真实语义分割图像;并分别将训练集中的每幅原始街景图像对应的真实语义分割图像处理成独热编码图像;
选取M幅原始的街景图像及每幅原始的街景图像对应的真实语义分割图像,并构成训练集,将训练集中的第m幅原始的街景图像记为{Im(i,j)},将训练集中与{Im(i,j)}对应的真实语义分割图像记为
Figure FDA0002410333350000011
M为正整数;M≥100;m为正整数,1≤m≤M;(i,j)为图像中像素点的坐标位置;1≤i≤W,1≤j≤H,W表示{Im(i,j)}的宽度,H表示{Im(i,j)}的高度;Im(i,j)表示{Im(i,j)}中坐标位置为(i,j)的像素点的像素值,
Figure FDA0002410333350000012
表示
Figure FDA0002410333350000013
中坐标位置为(i,j)的像素点的像素值;
将训练集中的每幅原始街景图像对应的真实语义分割图像处理成多幅独热编码图像,构成的集合记为
Figure FDA0002410333350000014
2)构建基于高分辨率融合网络和双通道注意力机制的图像分割卷积神经网络模型并训练:
基于高分辨率融合网络和双通道注意力机制的图像分割卷积神经网络模型包括输入层、隐层和输出层;隐层包括以密集采样方式堆叠的四个扩张卷积块、高分辨率融合网络和双通道注意力机制;
2A)输入层用于接收原始输入图像的R、G、B三通道分量并输出给隐层;
输入层的输入端接收一幅宽度为W,高度为H的原始输入图像的R、G、B三通道分量,输入层的输出端输出原始输入图像的R、G、B三通道分量给隐层;
2B)通过隐层中的以密集连接方式堆叠的四个扩张卷积块按序生成多幅特征图;
隐层中的密集连接方式堆叠的四个扩张卷积块中,每个扩张卷积块由带有BN层、Relu层和扩张卷积层构成;
第1个扩张卷积块输入端接收输入层的输出端输出的原始输入图像的R通道分量、G通道分量和B通道分量,扩张率为3,输出端输出32幅特征图,将32幅特征图构成的集合记为R1
第2个扩张卷积块输入端接收输入层的输出端输出的原始输入图像的所有通道分量和R1,扩张率为6,输出端输出64幅特征图,将64幅特征图构成的集合记为R2
第3个扩张卷积块输入端接收输入层的输出端输出的原始输入图像的所有通道分量、R1和R2,扩张率为12,输出端输出128幅特征图,将128幅特征图构成的集合记为R3
第4个扩张卷积块输入端接收输入层的输出端输出的原始输入图像的所有通道分量、R1、R2和R3,扩张率为18,输出端输出64幅特征图,将64幅特征图构成的集合记为R4;其中,R4中每幅特征图的宽度为W,高度为H;
2C)通过三个阶段构建隐层中的高分辨率融合网络:
利用残差网络中的残差基本块作为网络搭建的基本块;每个阶段均比前一阶段多增加一条输入分支,即多获得一种分辨率的特征图层;每个阶段之间进行分辨率特征图层的相互融合,在空间上保留原始图像更多的特征信息;具体包括:
第一阶段生成两个并行网络S1和S2
S1由3个残差基本块串联构成;每个残差基本块的输入特征层与输出特征层的宽和高一致,S1输入端接收R4中所有的特征图,S1的输出端输出36幅特征图,将36幅特征图构成的集合记为R6,其中,R6中的每幅特征图的宽度为W,高度为H;R4集合所有特征层通过卷积得到64幅特征层集合R5,其中,R5中的每幅特征图的宽度为W/2,高度为H/2;
S2由3个残差基本块串联构成,每个残差基本块的输入特征层与输出特征层宽高一致,S2输入端接收R5中所有的特征图,S2输出端输出36幅特征图,将36幅特征图集合记为R7,其中,R7中的每幅特征图的宽度为W/2,高度为H/2;R6特征集合通过下采样得到宽度为W/2、高度为H/2的36幅特征图层集合R8;通过下采样得到宽度为W/4、H/4的36幅特征图层集合R9;R7特征图层集合通过上采样得到宽度为W、高度为H的36幅特征图层集合R10;通过下采样得到宽度为W/4、H/4的36幅特征图层集合R11
第二阶段生成三个并行网络S3、S4和S5
S3由3个残差基本块串联构成,每个残差基本块的输入特征层与输出特征层宽高一致,S3输入端接收R6与R10中所有的特征图,S3的输出端输出72幅特征图,将72幅特征图构成的集合记为R12,其中,R12中的每幅特征图的宽度为W,高度为H;
S4由3个残差基本块串联构成,每个残差基本块的输入特征层与输出特征层宽高一致,S4输入端接收R7与R8中所有的特征图,S4的输出端输出72幅特征图,将72幅特征图构成的集合记为R13,其中,R13中的每幅特征图的宽度为W/2,高度为H/2;
S5由3个残差基本块串联构成,每个残差基本块的输入特征层与输出特征层宽高一致,S5输入端接收R9与R11中所有的特征图,S5的输出端输出72幅特征图构成的集合记为R14,其中,R14中的每幅特征图的宽度为W/4,高度为H/4;
在S3、S4和S5的输出端,R12特征集合通过下采样得到宽度为W/2、H/2的72幅特征图层集合R15;通过下采样得到宽度为W/4、H/4的72幅特征图层集合R16;通过下采样得到宽度为W/8、H/8的72幅特征图层集合R17;R13特征集合通过上采样得到宽度为W、H的72幅特征图层集合R18;通过下采样得到宽度为W/4、H/4的72幅特征图层集合R19;通过下采样得到宽度为W/8、H/8的72幅特征图层集合R20;R14特征集合通过上采样得到宽度为W、H的72幅特征图层集合R21;通过上采样得到宽度为W/2、H/2的72幅特征图层集合R22;通过下采样得到宽度为W/8、H/8的72幅特征图层集合R23
第三阶段生成四个并行网络S6、S7、S8和S9,其中:
S6由3个残差基本块串联构成,每个残差基本块的输入特征层与输出特征层宽高一致,S6输入端接收R12、R18与R21中所有的特征图,S6的输出端输出144幅特征图,将144幅特征图构成的集合记为R24,其中,R24中的每幅特征图的宽度为W,高度为H;
S7由3个残差基本块串联构成,每个残差基本块的输入特征层与输出特征层宽高一致,S7输入端接收R13、R15与R22中所有的特征图,S7的输出端输出144幅特征图,将144幅特征图构成的集合记为R25,其中,R25中的每幅特征图的宽度为W/2,高度为H/2;
S8由3个残差基本块串联构成,每个残差基本块的输入特征层与输出特征层宽高一致,S8输入端接收R14、R16与R19中所有的特征图,S8的输出端输出144幅特征图,将144幅特征图构成的集合记为R26,其中,R26中的每幅特征图的宽度为W/4,高度为H/4;
S9由3个残差基本块串联构成,每个残差基本块的输入特征层与输出特征层宽高一致,S9输入端接收R17、R20与R23中所有的特征图,S9的输出端输出144幅特征图,将144幅特征图构成的集合记为R27,其中,R27中的每幅特征图的宽度为W/8,高度为H/8;R25特征集合通过上采样得到宽度为W、H的144幅特征图层集合R28;R26特征集合通过上采样得到宽度为W、H的144幅特征图层集合R29;R27特征集合通过上采样得到宽度为W、H的144幅特征图层集合R30
2D)由位置注意力机制与通道注意力机制两个并行注意力机制网络构成隐层的双通道注意力机制;具体为:
2D1)将特征图集合R24、R28、R29和R30合并为新的特征图集合R31,将特征图集合R31经过一个带有BN层和Relu层的1×1卷积层,输出一个宽度为W,高度为H的36幅特征图集合R32
2D2)位置注意力机制网络输入端的输入为
Figure FDA0002410333350000041
Figure FDA0002410333350000042
表示通道数为36,宽度为W,高度为H的特征图集合;通过带有BN层和ReLU层的卷积操作,得到两个新的特征C、D,其中{C,D}∈R36×H×W
2D3)将特征C、D重新定义形状为R36×N,其中N=H×W;在特征C和D的转置矩阵上应用矩阵乘法,再应用softmax层计算位置映射图S∈RN×N
2D4)同时将特征图集合
Figure FDA0002410333350000043
输入到一个带有BN层和ReLU层的卷积层,产生另一个特征图集合
Figure FDA0002410333350000044
重新定义形状为R36×N
2D5)然后对D和S的转置矩阵应用矩阵乘法,重新定义形状为
Figure FDA0002410333350000045
然后乘上因子α,α是可随网络自动调节的参数;与特征A进行逐元素的相加操作,得到最终的输出
Figure FDA0002410333350000051
2D6)通道注意力机制网络输入端的输入
Figure FDA0002410333350000052
Figure FDA0002410333350000053
进行reshape操作生成特征图集合
Figure FDA0002410333350000054
然后在
Figure FDA0002410333350000055
Figure FDA0002410333350000056
的转置上应用矩阵乘法,再应用softmax层获得通道注意力图
Figure FDA0002410333350000057
2D7)之后对X的转置和
Figure FDA0002410333350000058
进行一次矩阵乘法,然后reshape到R36×H×W,再乘上因子β,与原始特征A进行逐元素的加和操作,得到最终的特征图G∈R36×H×W
2D8)将2D5)的特征图集合F和步骤2D7)的特征图集合G合并,然后通过带有BN层和Relu层的1×1卷积层之后,即得到新的特征图集合R36
2D9)输出层由1个卷积层组成;输出层的输入端接收新特征图集合R36,输出层的输出端输出与原始输入图像对应的语义分割预测图;其中,每幅语义分割预测图的宽度为W、高度为H;
2E)将训练集中的每幅原始的街景图像作为原始输入图像,输入到步骤2)构建的卷积神经网络模型中进行训练,得到训练集中的每幅原始的街景图像对应的多幅语义分割预测图,将每幅原始的街景图像{Im(i,j)}对应的语义分割预测图构成的集合记为
Figure FDA0002410333350000059
2F)计算训练集中的每幅原始的街景图像对应的多幅语义分割预测图构成的集合
Figure FDA00024103333500000510
与对应的真实语义分割图像处理成的独热编码图像集合
Figure FDA00024103333500000511
之间的损失函数值,将
Figure FDA00024103333500000512
Figure FDA00024103333500000513
之间的损失函数值记为
Figure FDA00024103333500000514
2G)重复执行步骤2E)和步骤2F)共N次,得到卷积神经网络分类训练模型,并共得到M×N个损失函数值;然后从M×N个损失函数值中找出值最小的损失函数值;其中,N>1;接着将值最小的损失函数值对应的权值矢量和偏置项作为卷积神经网络分类训练模型对应的最优权值矢量和最优偏置项,对应记为Wbest和bbest;即完成卷积神经网络分类模型的训练,得到训练好的基于高分辨率融合网络和双通道注意力机制的图像分割卷积神经网络模型;
二、测试阶段,包括如下步骤:
3A)令
Figure FDA00024103333500000515
表示待语义分割的道路场景图像;其中,1≤i'≤W',1≤j'≤H',W'表示
Figure FDA00024103333500000516
的宽度,H'表示
Figure FDA00024103333500000517
的高度,
Figure FDA00024103333500000518
表示
Figure FDA00024103333500000519
中坐标位置为(i,j)的像素点的像素值;
3B)将
Figure FDA0002410333350000061
的R通道分量、G通道分量和B通道分量输入到训练好的卷积神经网络分类模型中,利用Wbest和bbest进行预测,得到
Figure FDA0002410333350000062
对应的预测语义分割图像,记为
Figure FDA0002410333350000063
其中,
Figure FDA0002410333350000064
表示
Figure FDA0002410333350000065
中坐标位置为(i',j')的像素点的像素值;
通过上述步骤,即实现基于高分辨率融合网络和双通道注意力机制的图像语义分割。
2.如权利要求1所述的融合网络和双通道注意力机制的街景图像分割方法,其特征是,原始街景图像为RGB彩色图像。
3.如权利要求1所述的融合网络和双通道注意力机制的街景图像分割方法,其特征是,采用独热编码技术将训练集中的每幅原始街景图像对应的真实语义分割图像处理成多幅独热编码图像。
4.如权利要求3所述的融合网络和双通道注意力机制的街景图像分割方法,其特征是,对街景图像物体类别分为19类,将与原始街景图像对应的真实语义分割图像
Figure FDA0002410333350000066
处理成19幅独热编码图像。
5.如权利要求1所述的融合网络和双通道注意力机制的街景图像分割方法,其特征是,步骤2)构建基于高分辨率融合网络和双通道注意力机制的图像分割卷积神经网络模型,其中隐层包括的以密集采样方式堆叠的四个扩张卷积块具体是:由四个卷积核大小均为3×3,扩张率分别为6,12,18,24的卷积块以密集采样方式堆叠构成。
6.如权利要求1所述的融合网络和双通道注意力机制的街景图像分割方法,其特征是,残差基本块均由一个BN层、一个Relu层和一个3×3卷积核、步长为1、填充为1的卷积层构成。
7.如权利要求3所述的融合网络和双通道注意力机制的街景图像分割方法,其特征是,步骤2F)具体采用分类交叉熵获得
Figure FDA0002410333350000067
Figure FDA0002410333350000068
之间的损失函数值
Figure FDA0002410333350000069
8.如权利要求1所述的融合网络和双通道注意力机制的街景图像分割方法,其特征是,步骤2D3)具体通过式1应用softmax层计算位置映射图S∈RN×N
Figure FDA0002410333350000071
其中,Sij表示第i个位置影响第j个位置的位置映射图。
9.如权利要求8所述的融合网络和双通道注意力机制的街景图像分割方法,其特征是,步骤2D5)得到输出
Figure FDA0002410333350000072
的计算过程表示为式2:
Figure FDA0002410333350000073
其中,Fj表示所有位置与原始位置加权和之后的特征结果。
10.如权利要求8所述的融合网络和双通道注意力机制的街景图像分割方法,其特征是,步骤2D6)获得通道注意力图
Figure FDA0002410333350000074
的计算过程表示为式3:
Figure FDA0002410333350000075
其中,xji的下标表示第i个通道对第j个通道的影响;
步骤2D7)得到最终的特征图G∈R36×H×W的计算过程表示为式4:
Figure FDA0002410333350000076
其中,Gj表示所有通道特征和原始通道特征加权和知乎得到的通道特征结果。
CN202010174544.5A 2020-03-13 2020-03-13 一种融合网络和双通道注意力机制的街景图像分割方法 Active CN111401436B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010174544.5A CN111401436B (zh) 2020-03-13 2020-03-13 一种融合网络和双通道注意力机制的街景图像分割方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010174544.5A CN111401436B (zh) 2020-03-13 2020-03-13 一种融合网络和双通道注意力机制的街景图像分割方法

Publications (2)

Publication Number Publication Date
CN111401436A true CN111401436A (zh) 2020-07-10
CN111401436B CN111401436B (zh) 2023-04-18

Family

ID=71428757

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010174544.5A Active CN111401436B (zh) 2020-03-13 2020-03-13 一种融合网络和双通道注意力机制的街景图像分割方法

Country Status (1)

Country Link
CN (1) CN111401436B (zh)

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112396607A (zh) * 2020-11-18 2021-02-23 北京工商大学 一种可变形卷积融合增强的街景图像语义分割方法
CN113222044A (zh) * 2021-05-25 2021-08-06 合肥工业大学 一种基于三元注意力和尺度关联融合的宫颈液基细胞分类方法
CN113506295A (zh) * 2021-09-10 2021-10-15 启东市海信机械有限公司 基于深度学习的带钢表面热轧滑移缺陷检测方法
CN114418003A (zh) * 2022-01-20 2022-04-29 北京科技大学 基于注意力机制及多尺寸信息提取的双图像识别分类方法
CN114972989A (zh) * 2022-05-18 2022-08-30 中国矿业大学(北京) 一种基于深度学习算法的单幅遥感影像高度信息估算方法
CN115294488A (zh) * 2022-10-10 2022-11-04 江西财经大学 一种ar快速实物匹配显示方法
CN115439329A (zh) * 2022-11-10 2022-12-06 四川轻化工大学 人脸图像超分辨率重建方法及计算机可读取的存储介质
CN117011918A (zh) * 2023-08-08 2023-11-07 南京工程学院 基于线性注意力机制的人脸活体检测模型的构建方法

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109635642A (zh) * 2018-11-01 2019-04-16 浙江科技学院 一种基于残差网络和扩张卷积的道路场景分割方法
CN110097049A (zh) * 2019-04-03 2019-08-06 中国科学院计算技术研究所 一种自然场景文本检测方法及系统
WO2020015167A1 (zh) * 2018-07-17 2020-01-23 西安交通大学 一种基于融合网络的图像超分辨率及去非均匀模糊方法
CN110782462A (zh) * 2019-10-30 2020-02-11 浙江科技学院 一种基于双流特征融合的语义分割方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2020015167A1 (zh) * 2018-07-17 2020-01-23 西安交通大学 一种基于融合网络的图像超分辨率及去非均匀模糊方法
CN109635642A (zh) * 2018-11-01 2019-04-16 浙江科技学院 一种基于残差网络和扩张卷积的道路场景分割方法
CN110097049A (zh) * 2019-04-03 2019-08-06 中国科学院计算技术研究所 一种自然场景文本检测方法及系统
CN110782462A (zh) * 2019-10-30 2020-02-11 浙江科技学院 一种基于双流特征融合的语义分割方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
李云伍等: "基于改进空洞卷积神经网络的丘陵山区田间道路场景识别", 《农业工程学报》 *

Cited By (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112396607A (zh) * 2020-11-18 2021-02-23 北京工商大学 一种可变形卷积融合增强的街景图像语义分割方法
CN112396607B (zh) * 2020-11-18 2023-06-16 北京工商大学 一种可变形卷积融合增强的街景图像语义分割方法
CN113222044A (zh) * 2021-05-25 2021-08-06 合肥工业大学 一种基于三元注意力和尺度关联融合的宫颈液基细胞分类方法
CN113506295A (zh) * 2021-09-10 2021-10-15 启东市海信机械有限公司 基于深度学习的带钢表面热轧滑移缺陷检测方法
CN113506295B (zh) * 2021-09-10 2021-11-26 启东市海信机械有限公司 基于深度学习的带钢表面热轧滑移缺陷检测方法
CN114418003B (zh) * 2022-01-20 2022-09-16 北京科技大学 基于注意力机制及多尺寸信息提取的双图像识别分类方法
CN114418003A (zh) * 2022-01-20 2022-04-29 北京科技大学 基于注意力机制及多尺寸信息提取的双图像识别分类方法
CN114972989A (zh) * 2022-05-18 2022-08-30 中国矿业大学(北京) 一种基于深度学习算法的单幅遥感影像高度信息估算方法
CN114972989B (zh) * 2022-05-18 2023-01-10 中国矿业大学(北京) 一种基于深度学习算法的单幅遥感影像高度信息估算方法
CN115294488A (zh) * 2022-10-10 2022-11-04 江西财经大学 一种ar快速实物匹配显示方法
CN115439329A (zh) * 2022-11-10 2022-12-06 四川轻化工大学 人脸图像超分辨率重建方法及计算机可读取的存储介质
CN117011918A (zh) * 2023-08-08 2023-11-07 南京工程学院 基于线性注意力机制的人脸活体检测模型的构建方法
CN117011918B (zh) * 2023-08-08 2024-03-26 南京工程学院 基于线性注意力机制的人脸活体检测模型的构建方法

Also Published As

Publication number Publication date
CN111401436B (zh) 2023-04-18

Similar Documents

Publication Publication Date Title
CN111401436B (zh) 一种融合网络和双通道注意力机制的街景图像分割方法
CN110111366B (zh) 一种基于多级损失量的端到端光流估计方法
CN111539370B (zh) 一种基于多注意力联合学习的图像行人重识别方法和系统
CN112396607B (zh) 一种可变形卷积融合增强的街景图像语义分割方法
CN114202672A (zh) 一种基于注意力机制的小目标检测方法
CN113469094A (zh) 一种基于多模态遥感数据深度融合的地表覆盖分类方法
CN113033570B (zh) 一种改进空洞卷积和多层次特征信息融合的图像语义分割方法
CN111598030A (zh) 一种航拍图像中车辆检测和分割的方法及系统
CN112069868A (zh) 一种基于卷积神经网络的无人机实时车辆检测方法
CN113139989B (zh) 一种基于深度学习的粒子图像测速方法与装置
CN111476133B (zh) 面向无人驾驶的前背景编解码器网络目标提取方法
CN116797787B (zh) 基于跨模态融合与图神经网络的遥感影像语义分割方法
CN113192073A (zh) 基于交叉融合网络的服装语义分割方法
CN111860411A (zh) 一种基于注意力残差学习的道路场景语义分割方法
CN116740527A (zh) U型网络与自注意力机制结合的遥感图像变化检测方法
CN110782458A (zh) 一种非对称编码网络的物体图像3d语义预测分割方法
CN116596966A (zh) 一种基于注意力和特征融合的分割与跟踪方法
CN113066089A (zh) 一种基于注意力引导机制的实时图像语义分割网络
Sun et al. Two-stage deep regression enhanced depth estimation from a single RGB image
Zhang et al. Satellite image super-resolution based on progressive residual deep neural network
CN114494699A (zh) 基于语义传播与前背景感知的图像语义分割方法及系统
CN112801029B (zh) 基于注意力机制的多任务学习方法
CN113096133A (zh) 一种基于注意力机制的语义分割网络的构建方法
CN117456330A (zh) 一种基于MSFAF-Net的低照度目标检测方法
CN112766099A (zh) 一种从局部到全局上下文信息提取的高光谱影像分类方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
CB02 Change of applicant information
CB02 Change of applicant information

Address after: 100101 No.11, Datun Road, Haidian District, Beijing

Applicant after: Institute of Geographic Sciences and Natural Resources Research, CAS

Applicant after: BEIJING TECHNOLOGY AND BUSINESS University

Address before: 100048 33 Fucheng Road, Haidian District, Beijing

Applicant before: BEIJING TECHNOLOGY AND BUSINESS University

Applicant before: Institute of Geographic Sciences and Natural Resources Research, CAS

CB03 Change of inventor or designer information
CB03 Change of inventor or designer information

Inventor after: Fu Jingying

Inventor after: Zhang Xun

Inventor after: Ma Guangchi

Inventor after: Jiang Dong

Inventor after: Hao Mengmeng

Inventor after: Wang Hao

Inventor before: Zhang Xun

Inventor before: Ma Guangchi

Inventor before: Jiang Dong

Inventor before: Fu Jingying

Inventor before: Hao Mengmeng

Inventor before: Wang Hao

GR01 Patent grant
GR01 Patent grant