CN110490082A - 一种有效融合神经网络特征的道路场景语义分割方法 - Google Patents

一种有效融合神经网络特征的道路场景语义分割方法 Download PDF

Info

Publication number
CN110490082A
CN110490082A CN201910664784.0A CN201910664784A CN110490082A CN 110490082 A CN110490082 A CN 110490082A CN 201910664784 A CN201910664784 A CN 201910664784A CN 110490082 A CN110490082 A CN 110490082A
Authority
CN
China
Prior art keywords
layer
input terminal
output end
neural network
characteristic patterns
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201910664784.0A
Other languages
English (en)
Other versions
CN110490082B (zh
Inventor
周武杰
朱家懿
叶绿
雷景生
王海江
何成
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhejiang Lover Health Science and Technology Development Co Ltd
Zhejiang University of Science and Technology ZUST
Original Assignee
Zhejiang University of Science and Technology ZUST
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhejiang University of Science and Technology ZUST filed Critical Zhejiang University of Science and Technology ZUST
Priority to CN201910664784.0A priority Critical patent/CN110490082B/zh
Publication of CN110490082A publication Critical patent/CN110490082A/zh
Application granted granted Critical
Publication of CN110490082B publication Critical patent/CN110490082B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/50Context or environment of the image
    • G06V20/56Context or environment of the image exterior to a vehicle by using sensors mounted on the vehicle

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Biomedical Technology (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Multimedia (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种有效融合神经网络特征的道路场景语义分割方法,其在训练阶段构建卷积神经网络,其包括输入层、隐藏层和输出层,隐藏层包括由3个神经网络块组成的空间特征提取通道、由5个神经网络块组成的背景特征提取通道、由第5个融合块组成的特征融合通道;将训练集中的每幅原始的道路场景图像输入到卷积神经网络中进行训练,得到每幅原始的道路场景图像对应的12幅语义分割预测图;通过计算每幅原始的道路场景图像对应的12幅语义分割预测图构成的集合与对应的真实语义分割图像处理成的12幅独热编码图像构成的集合之间的损失函数值,得到卷积神经网络训练模型;在测试阶段利用卷积神经网络训练模型进行预测;优点是分割准确度高,鲁棒性强。

Description

一种有效融合神经网络特征的道路场景语义分割方法
技术领域
本发明涉及一种语义分割方法,尤其是涉及一种有效融合神经网络特征的道路场景语义分割方法。
背景技术
语义分割是许多计算机视觉应用的基本技术,如场景理解、无人驾驶等。随着卷积神经网络特别是全卷积神经网络(FCN)的发展,在基准测试中取得了许多有前途的成果。全卷积神经网络具有典型的编码器-解码器结构,语义信息首先通过编码器嵌入到特征图中,解码器负责生成分割结果。通常,编码器是通过预先训练的卷积模型来提取图像特征,解码器包含多个上采样组件来恢复分辨率。尽管编码器最重要的特征图可能具有高度的语义性,但由于分辨率不足,因此它在分割图中重建精确细节的能力有限,这在现代主干模型中非常常见。语义分割既需要丰富的空间信息,又需要相当大的感受野。现代语义分割框架通常将预先训练的主干卷积模型的低级和高级特征结合起来,以提高性能。最常用的U-shape网络,如U-Net、FusionNet等,都是将低级特征直接加到高级特征中,以弥补损失的信息。但是由于语义层次和空间分辨率的差异,低层次和高层次特征的简单融合可能不太有效。若将语义信息引入低级特征和高级特征,将分辨率细节转换为高级特征,则对于以后的融合更为有效。
发明内容
本发明所要解决的技术问题是提供一种有效融合神经网络特征的道路场景语义分割方法,其分割准确度高,且鲁棒性强。
本发明解决上述技术问题所采用的技术方案为:一种有效融合神经网络特征的道路场景语义分割方法,其特征在于包括训练阶段和测试阶段两个过程;
所述的训练阶段过程的具体步骤为:
步骤1_1:选取Q幅原始的道路场景图像及每幅原始的道路场景图像对应的真实语义分割图像,并构成训练集,将训练集中的第q幅原始的道路场景图像记为{Iq(i,j)},将训练集中与{Iq(i,j)}对应的真实语义分割图像记为然后采用独热编码技术将训练集中的每幅原始的道路场景图像对应的真实语义分割图像处理成12幅独热编码图像,将处理成的12幅独热编码图像构成的集合记为其中,道路场景图像为RGB彩色图像,Q为正整数,Q≥200,q为正整数,1≤q≤Q,1≤i≤W,1≤j≤H,W表示{Iq(i,j)}的宽度,H表示{Iq(i,j)}的高度,Iq(i,j)表示{Iq(i,j)}中坐标位置为(i,j)的像素点的像素值,表示中坐标位置为(i,j)的像素点的像素值。
步骤1_2:构建全卷积神经网络:全卷积神经网络包括输入层、隐藏层和输出层,隐藏层采用编码-解码架构,隐藏层包括一条空间特征提取通道、一条背景特征提取通道、一条特征融合通道,空间特征提取通道由依次设置的第1个神经网络块、第2个神经网络块、第3个神经网络块组成,背景特征提取通道由依次设置的第4个神经网络块、第5个神经网络块、第6个神经网络块、第7个神经网络块、第8个神经网络块组成,特征融合通道由依次设置的第1个融合块、第2个融合块、第3个融合块、第4个融合块、第5个融合块组成;
对于输入层,其输入端接收一幅输入图像的R通道分量、G通道分量和B通道分量,其输出端输出输入图像的R通道分量、G通道分量和B通道分量给隐藏层;其中,要求输入层的输入端接收的输入图像的宽度为W、高度为H;
对于空间特征提取通道,第1个神经网络块的输入端为空间特征提取通道的输入端,也为隐藏层的一个输入端,接收输入层的输出端输出的输入图像的R通道分量、G通道分量和B通道分量,第1个神经网络块的输出端输出64幅宽度为且高度为的特征图,将这64幅特征图构成的集合记为S1;第2个神经网络块的输入端接收S1中的所有特征图,第2个神经网络块的输出端输出128幅宽度为且高度为的特征图,将这128幅特征图构成的集合记为S2;第3个神经网络块的输入端接收S2中的所有特征图,第3个神经网络块的输出端输出256幅宽度为且高度为的特征图,将这256幅特征图构成的集合记为S3
对于背景特征提取通道,第4个神经网络块为背景特征提取通道的输入端,也为隐藏层的另一个输入端,接收输入层的输出端输出的输入图像的R通道分量、G通道分量和B通道分量,第4个神经网络块的输出端输出64幅宽度为且高度为的特征图,将这64幅特征图构成的集合记为S4;第5个神经网络块的输入端接收S4中的所有特征图,第5个神经网络块的输出端输出256幅宽度为且高度为的特征图,将这256幅特征图构成的集合记为S5;第6个神经网络块的输入端接收S5中的所有特征图,第6个神经网络块的输出端输出512幅宽度为且高度为的特征图,将这512幅特征图构成的集合记为S6;第7个神经网络块的输入端接收S6中的所有特征图,第7个神经网络块的输出端输出1024幅宽度为且高度为的特征图,将这1024幅特征图构成的集合记为S7;第8个神经网络块的输入端接收S7中的所有特征图,第8个神经网络块的输出端输出2048幅宽度为且高度为的特征图,将这2048幅特征图构成的集合记为S8
对于特征融合通道,第1个融合块的输入端接收S1中的所有特征图、S7中的所有特征图、S8中的所有特征图,第1个融合块的输出端输出64幅宽度为且高度为的特征图,将这64幅特征图构成的集合记为R1;第2个融合块的输入端接收S2中的所有特征图、S7中的所有特征图、S8中的所有特征图,第2个融合块的输出端输出128幅宽度为且高度为的特征图,将这128幅特征图构成的集合记为R2;第3个融合块的输入端接收S3中的所有特征图、S7中的所有特征图、S8中的所有特征图,第3个融合块的输出端输出256幅宽度为且高度为的特征图,将这256幅特征图构成的集合记为R3;第4个融合块的输入端接收R2中的所有特征图、R3中的所有特征图,第4个融合块的输出端输出12幅宽度为且高度为的特征图,将这12幅特征图构成的集合记为R4;第5个融合块的输入端接收R1中的所有特征图、R4中的所有特征图,第5个融合块的输出端输出12幅宽度为且高度为的特征图,将这12幅特征图构成的集合记为R5
对于输出层,其输入端接收R5中的所有特征图,其输出端输出12幅宽度为W且高度为H的特征图;
步骤1_3:将训练集中的每幅原始的道路场景图像作为输入图像,输入到全卷积神经网络中进行训练,得到训练集中的每幅原始的道路场景图像对应的12幅语义分割预测图,将{Iq(i,j)}对应的12幅语义分割预测图构成的集合记为
步骤1_4:计算训练集中的每幅原始的道路场景图像对应的12幅语义分割预测图构成的集合与对应的真实语义分割图像处理成的12幅独热编码图像构成的集合之间的损失函数值,将之间的损失函数值记为采用Negative Log-liklihood函数获得;
步骤1_5:重复执行步骤1_3和步骤1_4共V次,得到全卷积神经网络训练模型,并共得到Q×V个损失函数值;然后从Q×V个损失函数值中找出值最小的损失函数值;接着将值最小的损失函数值对应的权值矢量和偏置项对应作为全卷积神经网络训练模型的最优权值矢量和最优偏置项,对应记为Wbest和bbest;其中,V>1;
所述的测试阶段过程的具体步骤为:
步骤2_1:令表示待语义分割的道路场景图像;其中,1≤i'≤W',1≤j'≤H',W'表示的宽度,H'表示的高度,表示中坐标位置为(i,j)的像素点的像素值;
步骤2_2:将的R通道分量、G通道分量和B通道分量输入到全卷积神经网络训练模型中,并利用Wbest和bbest进行预测,得到对应的预测语义分割图像,记为其中,表示中坐标位置为(i',j')的像素点的像素值。
所述的步骤1_2中,第1个至第3个神经网络块的结构相同,其由依次设置的第一卷积层、第一批量归一化层、第一激活层、第二卷积层、第二批量归一化层、第二激活层、第三卷积层、第三批量归一化层、第三激活层组成,第一卷积层的输入端为其所在的神经网络块的输入端,第一批量归一化层的输入端接收第一卷积层的输出端输出的所有特征图,第一激活层的输入端接收第一批量归一化层的输出端输出的所有特征图,第二卷积层的输入端接收第一激活层的输出端输出的所有特征图,第二批量归一化层的输入端接收第二卷积层的输出端输出的所有特征图,第二激活层的输入端接收第二批量归一化层的输出端输出的所有特征图,第三卷积层的输入端接收第二激活层的输出端输出的所有特征图,第三批量归一化层的输入端接收第三卷积层的输出端输出的所有特征图,第三激活层的输入端接收第三批量归一化层的输出端输出的所有特征图,第三激活层的输出端为其所在的神经网络块的输出端;其中,第1个神经网络块中的第一卷积层的卷积核大小为3×3、卷积核个数为64、补零参数为1×1、步长为2,第1个神经网络块中的第二卷积层的卷积核大小为5×5、卷积核个数为64、补零参数为2×2、步长为1,第1个神经网络块中的第三卷积层的卷积核大小为7×7、卷积核个数为64、补零参数为3×3、步长为1,第2个神经网络块中的第一卷积层的卷积核大小为3×3、卷积核个数为128、补零参数为1×1、步长为2,第2个神经网络块中的第二卷积层的卷积核大小为5×5、卷积核个数为128、补零参数为2×2、步长为1,第2个神经网络块中的第三卷积层的卷积核大小为7×7、卷积核个数为128、补零参数为3×3、步长为1,第3个神经网络块中的第一卷积层的卷积核大小为3×3、卷积核个数为256、补零参数为1×1、步长为2,第3个神经网络块中的第二卷积层的卷积核大小为5×5、卷积核个数为256、补零参数为2×2、步长为1,第3个神经网络块中的第三卷积层的卷积核大小为7×7、卷积核个数为256、补零参数为3×3、步长为1,第一激活层、第二激活层、第三激活层的激活方式均为“Relu”。
所述的步骤1_2中,第4个至第8个神经网络块均是基于ResNet101的基本块,第4个神经网络块由ResNet101中的第一卷积层、第一批量归一化层和第一激活层组成;第5个神经网络块由ResNet101中的第一池化层和layer1组成;第6个神经网络块由ResNet101中的layer2组成;第7个神经网络块由ResNet101中的layer3组成;第8个神经网络块由ResNet101中的layer4组成。
所述的步骤1_2中,第1个至第3个融合块的结构相同,其由第一上采样层、第二上采样层及依次设置的第四卷积层、第四批量归一化层、第四激活层、第五卷积层、第五批量归一化层、第五激活层、第六卷积层、第六批量归一化层、第六激活层、第七卷积层、第七批量归一化层、第七激活层组成,第一上采样层的输入端和第二上采样层的输入端为其所在的融合块的输入端,将第一上采样层的输出端输出的所有特征图、第二上采样层的输出端输出的所有特征图、输入到所在的融合块的所有特征图经Add融合操作后得到的所有特征图构成的集合记为B1,第四卷积层的输入端接收B1中的所有特征图,第四批量归一化层的输入端接收第四卷积层的输出端输出的所有特征图,第四激活层的输入端接收第四批量归一化层的输出端输出的所有特征图,第五卷积层的输入端接收第四激活层的输出端输出的所有特征图,第五批量归一化层的输入端接收第五卷积层的输出端输出的所有特征图,第五激活层的输入端接收第五批量归一化层的输出端输出的所有特征图,将B1中的所有特征图和第五激活层的输出端输出的所有特征图进行跳跃连接后得到的所有特征图构成的集合记为B2,第六卷积层的输入端接收B2中的所有特征图,第六批量归一化层的输入端接收第六卷积层的输出端输出的所有特征图,第六激活层的输入端接收第六批量归一化层的输出端输出的所有特征图,第七卷积层的输入端接收第六激活层的输出端输出的所有特征图,第七批量归一化层的输入端接收第七卷积层的输出端输出的所有特征图,第七激活层的输入端接收第七批量归一化层的输出端输出的所有特征图,将B2中的所有特征图和第七激活层的输出端输出的所有特征图进行跳跃连接后得到的所有特征图构成的集合记为B3,B3中的所有特征图由所在的融合块的输出端输出;其中,第1个至第3个融合块中的第一上采样层采用双线性插值法扩大8倍、第二上采样层采用双线性插值法扩大16倍,第1个至第3个融合块中的第四卷积层、第五卷积层、第六卷积层的卷积核大小均为3×3、卷积核个数均为64、补零参数均为0、步长均为1,第1个融合块中的第七卷积层的卷积核大小为3×3、卷积核个数为64、补零参数为0、步长为1,第2个融合块中的第七卷积层的卷积核大小为3×3、卷积核个数为128、补零参数为0、步长为1,第3个融合块中的第七卷积层的卷积核大小为3×3、卷积核个数为256、补零参数为0、步长为1,第1个至第3个融合块中的第四激活层、第五激活层、第六激活层、第七激活层的激活方式均为“Relu”。
所述的步骤1_2中,第4个融合块和第5个融合块的结构相同,其由第三上采样层及依次设置的第八卷积层、第八批量归一化层、第八激活层、第九卷积层、第九批量归一化层、第九激活层、第十卷积层、第十批量归一化层、第十激活层、第十一卷积层、第十一批量归一化层、第十一激活层组成,第三上采样层的输入端为其所在的融合块的输入端,将第三上采样层的输出端输出的所有特征图、输入到所在的融合块的所有特征图经Add融合操作后得到的所有特征图构成的集合记为C1,第八卷积层的输入端接收C1中的所有特征图,第八批量归一化层的输入端接收第八卷积层的输出端输出的所有特征图,第八激活层的输入端接收第八批量归一化层的输出端输出的所有特征图,第九卷积层的输入端接收第八激活层的输出端输出的所有特征图,第九批量归一化层的输入端接收第九卷积层的输出端输出的所有特征图,第九激活层的输入端接收第九批量归一化层的输出端输出的所有特征图,第十卷积层的输入端接收第九激活层的输出端输出的所有特征图,第十批量归一化层的输入端接收第十卷积层的输出端输出的所有特征图,第十激活层的输入端接收第十批量归一化层的输出端输出的所有特征图,第十一卷积层的输入端接收第十激活层的输出端输出的所有特征图,第十一批量归一化层的输入端接收第十一卷积层的输出端输出的所有特征图,第十一激活层的输入端接收第十一批量归一化层的输出端输出的所有特征图,第十一激活层的输出端为其所在的融合块的输出端;其中,第4个融合块中的第三上采样层采用反卷积方式且卷积核大小为4×4、卷积核个数为128、补零参数为1×1、步长为2,第5个融合块中的第三上采样层采用反卷积方式且卷积核大小为4×4、卷积核个数为12、补零参数为1×1、步长为2,第4个和第5个融合块中的第八卷积层、第十一卷积层的卷积核大小均为7×1、卷积核个数均为12、补零参数均为3×0、步长均为1,第4个和第5个融合块中的第九卷积层、第十卷积层的卷积核大小均为1×7、卷积核个数均为12、补零参数均为0×3、步长均为1,第4个和第5个融合块中的第八激活层、第九激活层、第十激活层、第十一激活层的激活方式均为“Relu”。
所述的步骤1_2中,输出层由依次设置的第十二卷积层、第十二批量归一化层、第十二激活层组成,第十二卷积层的输入端为输出层的输入端,第十二批量归一化层的输入端接收第十二卷积层的输出端输出的所有特征图,第十二激活层的输入端接收第十二批量归一化层的输出端输出的所有特征图,第十二激活层的输出端为输出层的输出端;其中,第十二卷积层的卷积核大小为1×1、卷积核个数为12、补零参数为0、步长为1,第十二激活层的激活方式为”Relu”。
与现有技术相比,本发明的优点在于:
1)本发明方法构建了全卷积神经网络,用步长为2的卷积层取代了现阶段常用的池化层,由于池化层会对图像造成不可逆的特征损失,且语义分割对预测精度的要求很高,因此本发明方法选择了步长为2的卷积层进行替代,该卷积层可以得到与池化层相同的效果,并能保证图像特征不会有过大损失,实验证明,更少的信息缺失可以大幅度提高分割精度。
2)本发明方法采用大卷积核的方式来扩大网络感受野,由于池化层的优点不只是能有效缩减图像尺寸,还可有效扩大感受野以保证提取到更多的全局信息,因此本发明方法在用步长为2的卷积层替代池化层时,感受野没有得到有效扩充,损失了部分全局信息,故采用大卷积核,以保证网络感受野得到增大,从而使全卷积神经网络捕获更多的全局信息,有助于增强全卷积神经网络训练模型的鲁棒性。
3)本发明方法提出了两种不同的特征提取通道即空间特征提取通道和背景特征提取通道,以适应语义分割对多类型网络特征的要求,利用较少下采样保留空间信息,较多下采样保留全局信息,最后将两种特征进行有效融合,进而提升了语义分割精度。
4)本发明方法在编码部分就将低级特征与高级特征交叉融合,提升了语义分割精度。
附图说明
图1为本发明方法中构建的卷积神经网络的组成结构示意图;
图2a为本发明方法中构建的卷积神经网络中的第1个至第3个融合块的组成结构示意图;
图2b为本发明方法中构建的卷积神经网络中的第4个和第5个融合块的组成结构示意图;
图3a为同一场景的第1幅原始的道路场景图像;
图3b为利用本发明方法对图3a所示的原始的道路场景图像进行预测,得到的预测语义分割图像;
图4a为同一场景的第2幅原始的道路场景图像;
图4b为利用本发明方法对图4a所示的原始的道路场景图像进行预测,得到的预测语义分割图像;
图5a为同一场景的第3幅原始的道路场景图像;
图5b为利用本发明方法对图5a所示的原始的道路场景图像进行预测,得到的预测语义分割图像;
图6a为同一场景的第4幅原始的道路场景图像;
图6b为利用本发明方法对图6a所示的原始的道路场景图像进行预测,得到的预测语义分割图像;
图7a为同一场景的第5幅原始的道路场景图像;
图7b为利用本发明方法对图7a所示的原始的道路场景图像进行预测,得到的预测语义分割图像。
具体实施方式
以下结合附图实施例对本发明作进一步详细描述。
本发明提出的一种有效融合神经网络特征的道路场景语义分割方法,其包括训练阶段和测试阶段两个过程。
所述的训练阶段过程的具体步骤为:
步骤1_1:选取Q幅原始的道路场景图像及每幅原始的道路场景图像对应的真实语义分割图像,并构成训练集,将训练集中的第q幅原始的道路场景图像记为{Iq(i,j)},将训练集中与{Iq(i,j)}对应的真实语义分割图像记为然后采用现有的独热编码技术(one-hot)将训练集中的每幅原始的道路场景图像对应的真实语义分割图像处理成12幅独热编码图像,将处理成的12幅独热编码图像构成的集合记为其中,道路场景图像为RGB彩色图像,Q为正整数,Q≥200,如取Q=367,q为正整数,1≤q≤Q,1≤i≤W,1≤j≤H,W表示{Iq(i,j)}的宽度,H表示{Iq(i,j)}的高度,如取W=480、H=360,Iq(i,j)表示{Iq(i,j)}中坐标位置为(i,j)的像素点的像素值,表示中坐标位置为(i,j)的像素点的像素值。
在此,原始的道路场景图像直接选用道路场景图像数据库CamVid训练集中的367幅图像。
步骤1_2:构建全卷积神经网络:如图1所示,全卷积神经网络包括输入层、隐藏层和输出层,隐藏层采用编码-解码架构,隐藏层包括一条空间特征提取通道、一条背景特征提取通道、一条特征融合通道,空间特征提取通道由依次设置的第1个神经网络块、第2个神经网络块、第3个神经网络块组成,背景特征提取通道由依次设置的第4个神经网络块、第5个神经网络块、第6个神经网络块、第7个神经网络块、第8个神经网络块组成,特征融合通道由依次设置的第1个融合块、第2个融合块、第3个融合块、第4个融合块、第5个融合块组成。
对于输入层,其输入端接收一幅输入图像的R通道分量、G通道分量和B通道分量,其输出端输出输入图像的R通道分量、G通道分量和B通道分量给隐藏层;其中,要求输入层的输入端接收的输入图像的宽度为W、高度为H。
对于空间特征提取通道,第1个神经网络块的输入端为空间特征提取通道的输入端,也为隐藏层的一个输入端,接收输入层的输出端输出的输入图像的R通道分量、G通道分量和B通道分量,第1个神经网络块的输出端输出64幅宽度为且高度为的特征图,将这64幅特征图构成的集合记为S1;第2个神经网络块的输入端接收S1中的所有特征图,第2个神经网络块的输出端输出128幅宽度为且高度为的特征图,将这128幅特征图构成的集合记为S2;第3个神经网络块的输入端接收S2中的所有特征图,第3个神经网络块的输出端输出256幅宽度为且高度为的特征图,将这256幅特征图构成的集合记为S3
对于背景特征提取通道,第4个神经网络块为背景特征提取通道的输入端,也为隐藏层的另一个输入端,接收输入层的输出端输出的输入图像的R通道分量、G通道分量和B通道分量,第4个神经网络块的输出端输出64幅宽度为且高度为的特征图,将这64幅特征图构成的集合记为S4;第5个神经网络块的输入端接收S4中的所有特征图,第5个神经网络块的输出端输出256幅宽度为且高度为的特征图,将这256幅特征图构成的集合记为S5;第6个神经网络块的输入端接收S5中的所有特征图,第6个神经网络块的输出端输出512幅宽度为且高度为的特征图,将这512幅特征图构成的集合记为S6;第7个神经网络块的输入端接收S6中的所有特征图,第7个神经网络块的输出端输出1024幅宽度为且高度为的特征图,将这1024幅特征图构成的集合记为S7;第8个神经网络块的输入端接收S7中的所有特征图,第8个神经网络块的输出端输出2048幅宽度为且高度为的特征图,将这2048幅特征图构成的集合记为S8
对于特征融合通道,第1个融合块的输入端接收S1中的所有特征图、S7中的所有特征图、S8中的所有特征图,第1个融合块的输出端输出64幅宽度为且高度为的特征图,将这64幅特征图构成的集合记为R1;第2个融合块的输入端接收S2中的所有特征图、S7中的所有特征图、S8中的所有特征图,第2个融合块的输出端输出128幅宽度为且高度为的特征图,将这128幅特征图构成的集合记为R2;第3个融合块的输入端接收S3中的所有特征图、S7中的所有特征图、S8中的所有特征图,第3个融合块的输出端输出256幅宽度为且高度为的特征图,将这256幅特征图构成的集合记为R3;第4个融合块的输入端接收R2中的所有特征图、R3中的所有特征图,第4个融合块的输出端输出12幅宽度为且高度为的特征图,将这12幅特征图构成的集合记为R4;第5个融合块的输入端接收R1中的所有特征图、R4中的所有特征图,第5个融合块的输出端输出12幅宽度为且高度为的特征图,将这12幅特征图构成的集合记为R5
对于输出层,其输入端接收R5中的所有特征图,其输出端输出12幅宽度为W且高度为H的特征图。
步骤1_3:将训练集中的每幅原始的道路场景图像作为输入图像,输入到全卷积神经网络中进行训练,得到训练集中的每幅原始的道路场景图像对应的12幅语义分割预测图,将{Iq(i,j)}对应的12幅语义分割预测图构成的集合记为
步骤1_4:计算训练集中的每幅原始的道路场景图像对应的12幅语义分割预测图构成的集合与对应的真实语义分割图像处理成的12幅独热编码图像构成的集合之间的损失函数值,将之间的损失函数值记为采用Negative Log-liklihood(NLLLoss)函数获得。
步骤1_5:重复执行步骤1_3和步骤1_4共V次,得到全卷积神经网络训练模型,并共得到Q×V个损失函数值;然后从Q×V个损失函数值中找出值最小的损失函数值;接着将值最小的损失函数值对应的权值矢量和偏置项对应作为全卷积神经网络训练模型的最优权值矢量和最优偏置项,对应记为Wbest和bbest;其中,V>1,在本实施例中取V=500。
所述的测试阶段过程的具体步骤为:
步骤2_1:令表示待语义分割的道路场景图像;其中,1≤i'≤W',1≤j'≤H',W'表示的宽度,H'表示的高度,表示中坐标位置为(i,j)的像素点的像素值。
步骤2_2:将的R通道分量、G通道分量和B通道分量输入到全卷积神经网络训练模型中,并利用Wbest和bbest进行预测,得到对应的预测语义分割图像,记为其中,表示中坐标位置为(i',j')的像素点的像素值。
在此具体实施例中,步骤1_2中,第1个至第3个神经网络块的结构相同,其由依次设置的第一卷积层(Convolution,Conv)、第一批量归一化层(Batch Normalization,BN)、第一激活层(Activation,Act)、第二卷积层、第二批量归一化层、第二激活层、第三卷积层、第三批量归一化层、第三激活层组成,第一卷积层的输入端为其所在的神经网络块的输入端,第一批量归一化层的输入端接收第一卷积层的输出端输出的所有特征图,第一激活层的输入端接收第一批量归一化层的输出端输出的所有特征图,第二卷积层的输入端接收第一激活层的输出端输出的所有特征图,第二批量归一化层的输入端接收第二卷积层的输出端输出的所有特征图,第二激活层的输入端接收第二批量归一化层的输出端输出的所有特征图,第三卷积层的输入端接收第二激活层的输出端输出的所有特征图,第三批量归一化层的输入端接收第三卷积层的输出端输出的所有特征图,第三激活层的输入端接收第三批量归一化层的输出端输出的所有特征图,第三激活层的输出端为其所在的神经网络块的输出端;其中,第1个神经网络块中的第一卷积层的卷积核大小(kernel_size)为3×3、卷积核个数(filters)为64、补零(padding)参数为1×1、步长(stride)为2,第1个神经网络块中的第二卷积层的卷积核大小为5×5、卷积核个数为64、补零参数为2×2、步长为1,第1个神经网络块中的第三卷积层的卷积核大小为7×7、卷积核个数为64、补零参数为3×3、步长为1,第2个神经网络块中的第一卷积层的卷积核大小为3×3、卷积核个数为128、补零参数为1×1、步长为2,第2个神经网络块中的第二卷积层的卷积核大小为5×5、卷积核个数为128、补零参数为2×2、步长为1,第2个神经网络块中的第三卷积层的卷积核大小为7×7、卷积核个数为128、补零参数为3×3、步长为1,第3个神经网络块中的第一卷积层的卷积核大小为3×3、卷积核个数为256、补零参数为1×1、步长为2,第3个神经网络块中的第二卷积层的卷积核大小为5×5、卷积核个数为256、补零参数为2×2、步长为1,第3个神经网络块中的第三卷积层的卷积核大小为7×7、卷积核个数为256、补零参数为3×3、步长为1,第一激活层、第二激活层、第三激活层的激活方式均为“Relu”。
在此具体实施例中,步骤1_2中,第4个至第8个神经网络块均是基于ResNet101的基本块,第4个神经网络块由ResNet101中的第一卷积层、第一批量归一化层和第一激活层组成;第5个神经网络块由ResNet101中的第一池化层和layer1组成;第6个神经网络块由ResNet101中的layer2组成;第7个神经网络块由ResNet101中的layer3组成;第8个神经网络块由ResNet101中的layer4组成。
在此具体实施例中,步骤1_2中,第1个至第3个融合块的结构相同,如图2a所示,其由第一上采样层、第二上采样层及依次设置的第四卷积层、第四批量归一化层、第四激活层、第五卷积层、第五批量归一化层、第五激活层、第六卷积层、第六批量归一化层、第六激活层、第七卷积层、第七批量归一化层、第七激活层组成,第一上采样层的输入端和第二上采样层的输入端为其所在的融合块的输入端,将第一上采样层的输出端输出的所有特征图、第二上采样层的输出端输出的所有特征图、输入到所在的融合块的所有特征图经Add融合操作后得到的所有特征图构成的集合记为B1,第四卷积层的输入端接收B1中的所有特征图,第四批量归一化层的输入端接收第四卷积层的输出端输出的所有特征图,第四激活层的输入端接收第四批量归一化层的输出端输出的所有特征图,第五卷积层的输入端接收第四激活层的输出端输出的所有特征图,第五批量归一化层的输入端接收第五卷积层的输出端输出的所有特征图,第五激活层的输入端接收第五批量归一化层的输出端输出的所有特征图,将B1中的所有特征图和第五激活层的输出端输出的所有特征图进行跳跃连接后得到的所有特征图构成的集合记为B2,第六卷积层的输入端接收B2中的所有特征图,第六批量归一化层的输入端接收第六卷积层的输出端输出的所有特征图,第六激活层的输入端接收第六批量归一化层的输出端输出的所有特征图,第七卷积层的输入端接收第六激活层的输出端输出的所有特征图,第七批量归一化层的输入端接收第七卷积层的输出端输出的所有特征图,第七激活层的输入端接收第七批量归一化层的输出端输出的所有特征图,将B2中的所有特征图和第七激活层的输出端输出的所有特征图进行跳跃连接后得到的所有特征图构成的集合记为B3,B3中的所有特征图由所在的融合块的输出端输出;其中,第1个至第3个融合块中的第一上采样层采用双线性插值法扩大8倍、第二上采样层采用双线性插值法扩大16倍,第1个至第3个融合块中的第四卷积层、第五卷积层、第六卷积层的卷积核大小均为3×3、卷积核个数均为64、补零参数均为0、步长均为1,第1个融合块中的第七卷积层的卷积核大小为3×3、卷积核个数为64、补零参数为0、步长为1,第2个融合块中的第七卷积层的卷积核大小为3×3、卷积核个数为128、补零参数为0、步长为1,第3个融合块中的第七卷积层的卷积核大小为3×3、卷积核个数为256、补零参数为0、步长为1,第1个至第3个融合块中的第四激活层、第五激活层、第六激活层、第七激活层的激活方式均为“Relu”。
在此具体实施例中,步骤1_2中,第4个融合块和第5个融合块的结构相同,如图2b所示,其由第三上采样层及依次设置的第八卷积层、第八批量归一化层、第八激活层、第九卷积层、第九批量归一化层、第九激活层、第十卷积层、第十批量归一化层、第十激活层、第十一卷积层、第十一批量归一化层、第十一激活层组成,第三上采样层的输入端为其所在的融合块的输入端,将第三上采样层的输出端输出的所有特征图、输入到所在的融合块的所有特征图经Add融合操作后得到的所有特征图构成的集合记为C1,第八卷积层的输入端接收C1中的所有特征图,第八批量归一化层的输入端接收第八卷积层的输出端输出的所有特征图,第八激活层的输入端接收第八批量归一化层的输出端输出的所有特征图,第九卷积层的输入端接收第八激活层的输出端输出的所有特征图,第九批量归一化层的输入端接收第九卷积层的输出端输出的所有特征图,第九激活层的输入端接收第九批量归一化层的输出端输出的所有特征图,第十卷积层的输入端接收第九激活层的输出端输出的所有特征图,第十批量归一化层的输入端接收第十卷积层的输出端输出的所有特征图,第十激活层的输入端接收第十批量归一化层的输出端输出的所有特征图,第十一卷积层的输入端接收第十激活层的输出端输出的所有特征图,第十一批量归一化层的输入端接收第十一卷积层的输出端输出的所有特征图,第十一激活层的输入端接收第十一批量归一化层的输出端输出的所有特征图,第十一激活层的输出端为其所在的融合块的输出端;其中,第4个融合块中的第三上采样层采用反卷积方式且卷积核大小为4×4、卷积核个数为128、补零参数为1×1、步长为2,第5个融合块中的第三上采样层采用反卷积方式且卷积核大小为4×4、卷积核个数为12、补零参数为1×1、步长为2,第4个和第5个融合块中的第八卷积层、第十一卷积层的卷积核大小均为7×1、卷积核个数均为12、补零参数均为3×0、步长均为1,第4个和第5个融合块中的第九卷积层、第十卷积层的卷积核大小均为1×7、卷积核个数均为12、补零参数均为0×3、步长均为1,第4个和第5个融合块中的第八激活层、第九激活层、第十激活层、第十一激活层的激活方式均为“Relu”。
在此具体实施例中,步骤1_2中,输出层由依次设置的第十二卷积层、第十二批量归一化层、第十二激活层组成,第十二卷积层的输入端为输出层的输入端,第十二批量归一化层的输入端接收第十二卷积层的输出端输出的所有特征图,第十二激活层的输入端接收第十二批量归一化层的输出端输出的所有特征图,第十二激活层的输出端为输出层的输出端;其中,第十二卷积层的卷积核大小为1×1、卷积核个数为12、补零参数为0、步长为1,第十二激活层的激活方式为”Relu”。
为了进一步验证本发明方法的可行性和有效性,进行实验。
使用基于python的深度学习框架Pytorch0.4.1搭建卷积神经网络的架构。采用道路场景图像数据库CamVid测试集来分析利用本发明方法得到的道路场景图像(取233幅道路场景图像)的分割效果如何。这里,利用评估语义分割方法的3个常用客观参量作为评价指标,即类精确度(Class Acurracy)、平均像素准确率(Mean Pixel Accuracy,MPA)、分割图像与标签图像交集与并集的比值(Mean Intersection over Union,MIoU)来评价预测语义分割图像的分割性能。
利用本发明方法对道路场景图像数据库CamVid测试集中的每幅道路场景图像进行预测,得到每幅道路场景图像对应的预测语义分割图像,反映本发明方法的语义分割效果的类精确度CA、平均像素准确率MPA、分割图像与标签图像交集与并集的比值MIoU如表1所列。从表1所列的数据可知,按本发明方法得到的道路场景图像的分割结果是较好的,表明利用本发明方法来获取道路场景图像对应的预测语义分割图像是可行且有效的。
表1利用本发明方法在测试集上的预测结果
图3a给出了同一场景的第1幅原始的道路场景图像;图3b给出了利用本发明方法对图3a所示的原始的道路场景图像进行预测,得到的预测语义分割图像;图4a给出了同一场景的第2幅原始的道路场景图像;图4b给出了利用本发明方法对图4a所示的原始的道路场景图像进行预测,得到的预测语义分割图像;图5a给出了同一场景的第3幅原始的道路场景图像;图5b给出了利用本发明方法对图5a所示的原始的道路场景图像进行预测,得到的预测语义分割图像;图6a给出了同一场景的第4幅原始的道路场景图像;图6b给出了利用本发明方法对图6a所示的原始的道路场景图像进行预测,得到的预测语义分割图像;图7a给出了同一场景的第5幅原始的道路场景图像;图7b给出了利用本发明方法对图7a所示的原始的道路场景图像进行预测,得到的预测语义分割图像。对比图3a和图3b、对比图4a和图4b、对比图5a和图5b、对比图6a和图6b、对比图7a和图7b,可以看出利用本发明方法得到的预测语义分割图像的分割精度较高。

Claims (6)

1.一种有效融合神经网络特征的道路场景语义分割方法,其特征在于包括训练阶段和测试阶段两个过程;
所述的训练阶段过程的具体步骤为:
步骤1_1:选取Q幅原始的道路场景图像及每幅原始的道路场景图像对应的真实语义分割图像,并构成训练集,将训练集中的第q幅原始的道路场景图像记为{Iq(i,j)},将训练集中与{Iq(i,j)}对应的真实语义分割图像记为然后采用独热编码技术将训练集中的每幅原始的道路场景图像对应的真实语义分割图像处理成12幅独热编码图像,将处理成的12幅独热编码图像构成的集合记为其中,道路场景图像为RGB彩色图像,Q为正整数,Q≥200,q为正整数,1≤q≤Q,1≤i≤W,1≤j≤H,W表示{Iq(i,j)}的宽度,H表示{Iq(i,j)}的高度,Iq(i,j)表示{Iq(i,j)}中坐标位置为(i,j)的像素点的像素值,表示中坐标位置为(i,j)的像素点的像素值;
步骤1_2:构建全卷积神经网络:全卷积神经网络包括输入层、隐藏层和输出层,隐藏层采用编码-解码架构,隐藏层包括一条空间特征提取通道、一条背景特征提取通道、一条特征融合通道,空间特征提取通道由依次设置的第1个神经网络块、第2个神经网络块、第3个神经网络块组成,背景特征提取通道由依次设置的第4个神经网络块、第5个神经网络块、第6个神经网络块、第7个神经网络块、第8个神经网络块组成,特征融合通道由依次设置的第1个融合块、第2个融合块、第3个融合块、第4个融合块、第5个融合块组成;
对于输入层,其输入端接收一幅输入图像的R通道分量、G通道分量和B通道分量,其输出端输出输入图像的R通道分量、G通道分量和B通道分量给隐藏层;其中,要求输入层的输入端接收的输入图像的宽度为W、高度为H;
对于空间特征提取通道,第1个神经网络块的输入端为空间特征提取通道的输入端,也为隐藏层的一个输入端,接收输入层的输出端输出的输入图像的R通道分量、G通道分量和B通道分量,第1个神经网络块的输出端输出64幅宽度为且高度为的特征图,将这64幅特征图构成的集合记为S1;第2个神经网络块的输入端接收S1中的所有特征图,第2个神经网络块的输出端输出128幅宽度为且高度为的特征图,将这128幅特征图构成的集合记为S2;第3个神经网络块的输入端接收S2中的所有特征图,第3个神经网络块的输出端输出256幅宽度为且高度为的特征图,将这256幅特征图构成的集合记为S3
对于背景特征提取通道,第4个神经网络块为背景特征提取通道的输入端,也为隐藏层的另一个输入端,接收输入层的输出端输出的输入图像的R通道分量、G通道分量和B通道分量,第4个神经网络块的输出端输出64幅宽度为且高度为的特征图,将这64幅特征图构成的集合记为S4;第5个神经网络块的输入端接收S4中的所有特征图,第5个神经网络块的输出端输出256幅宽度为且高度为的特征图,将这256幅特征图构成的集合记为S5;第6个神经网络块的输入端接收S5中的所有特征图,第6个神经网络块的输出端输出512幅宽度为且高度为的特征图,将这512幅特征图构成的集合记为S6;第7个神经网络块的输入端接收S6中的所有特征图,第7个神经网络块的输出端输出1024幅宽度为且高度为的特征图,将这1024幅特征图构成的集合记为S7;第8个神经网络块的输入端接收S7中的所有特征图,第8个神经网络块的输出端输出2048幅宽度为且高度为的特征图,将这2048幅特征图构成的集合记为S8
对于特征融合通道,第1个融合块的输入端接收S1中的所有特征图、S7中的所有特征图、S8中的所有特征图,第1个融合块的输出端输出64幅宽度为且高度为的特征图,将这64幅特征图构成的集合记为R1;第2个融合块的输入端接收S2中的所有特征图、S7中的所有特征图、S8中的所有特征图,第2个融合块的输出端输出128幅宽度为且高度为的特征图,将这128幅特征图构成的集合记为R2;第3个融合块的输入端接收S3中的所有特征图、S7中的所有特征图、S8中的所有特征图,第3个融合块的输出端输出256幅宽度为且高度为的特征图,将这256幅特征图构成的集合记为R3;第4个融合块的输入端接收R2中的所有特征图、R3中的所有特征图,第4个融合块的输出端输出12幅宽度为且高度为的特征图,将这12幅特征图构成的集合记为R4;第5个融合块的输入端接收R1中的所有特征图、R4中的所有特征图,第5个融合块的输出端输出12幅宽度为且高度为的特征图,将这12幅特征图构成的集合记为R5
对于输出层,其输入端接收R5中的所有特征图,其输出端输出12幅宽度为W且高度为H的特征图;
步骤1_3:将训练集中的每幅原始的道路场景图像作为输入图像,输入到全卷积神经网络中进行训练,得到训练集中的每幅原始的道路场景图像对应的12幅语义分割预测图,将{Iq(i,j)}对应的12幅语义分割预测图构成的集合记为
步骤1_4:计算训练集中的每幅原始的道路场景图像对应的12幅语义分割预测图构成的集合与对应的真实语义分割图像处理成的12幅独热编码图像构成的集合之间的损失函数值,将之间的损失函数值记为 采用NegativeLog-liklihood函数获得;
步骤1_5:重复执行步骤1_3和步骤1_4共V次,得到全卷积神经网络训练模型,并共得到Q×V个损失函数值;然后从Q×V个损失函数值中找出值最小的损失函数值;接着将值最小的损失函数值对应的权值矢量和偏置项对应作为全卷积神经网络训练模型的最优权值矢量和最优偏置项,对应记为Wbest和bbest;其中,V>1;
所述的测试阶段过程的具体步骤为:
步骤2_1:令表示待语义分割的道路场景图像;其中,1≤i'≤W',1≤j'≤H',W'表示的宽度,H'表示的高度,表示中坐标位置为(i,j)的像素点的像素值;
步骤2_2:将的R通道分量、G通道分量和B通道分量输入到全卷积神经网络训练模型中,并利用Wbest和bbest进行预测,得到对应的预测语义分割图像,记为其中,表示中坐标位置为(i',j')的像素点的像素值。
2.根据权利要求1所述的一种有效融合神经网络特征的道路场景语义分割方法,其特征在于所述的步骤1_2中,第1个至第3个神经网络块的结构相同,其由依次设置的第一卷积层、第一批量归一化层、第一激活层、第二卷积层、第二批量归一化层、第二激活层、第三卷积层、第三批量归一化层、第三激活层组成,第一卷积层的输入端为其所在的神经网络块的输入端,第一批量归一化层的输入端接收第一卷积层的输出端输出的所有特征图,第一激活层的输入端接收第一批量归一化层的输出端输出的所有特征图,第二卷积层的输入端接收第一激活层的输出端输出的所有特征图,第二批量归一化层的输入端接收第二卷积层的输出端输出的所有特征图,第二激活层的输入端接收第二批量归一化层的输出端输出的所有特征图,第三卷积层的输入端接收第二激活层的输出端输出的所有特征图,第三批量归一化层的输入端接收第三卷积层的输出端输出的所有特征图,第三激活层的输入端接收第三批量归一化层的输出端输出的所有特征图,第三激活层的输出端为其所在的神经网络块的输出端;其中,第1个神经网络块中的第一卷积层的卷积核大小为3×3、卷积核个数为64、补零参数为1×1、步长为2,第1个神经网络块中的第二卷积层的卷积核大小为5×5、卷积核个数为64、补零参数为2×2、步长为1,第1个神经网络块中的第三卷积层的卷积核大小为7×7、卷积核个数为64、补零参数为3×3、步长为1,第2个神经网络块中的第一卷积层的卷积核大小为3×3、卷积核个数为128、补零参数为1×1、步长为2,第2个神经网络块中的第二卷积层的卷积核大小为5×5、卷积核个数为128、补零参数为2×2、步长为1,第2个神经网络块中的第三卷积层的卷积核大小为7×7、卷积核个数为128、补零参数为3×3、步长为1,第3个神经网络块中的第一卷积层的卷积核大小为3×3、卷积核个数为256、补零参数为1×1、步长为2,第3个神经网络块中的第二卷积层的卷积核大小为5×5、卷积核个数为256、补零参数为2×2、步长为1,第3个神经网络块中的第三卷积层的卷积核大小为7×7、卷积核个数为256、补零参数为3×3、步长为1,第一激活层、第二激活层、第三激活层的激活方式均为“Relu”。
3.根据权利要求1或2所述的一种有效融合神经网络特征的道路场景语义分割方法,其特征在于所述的步骤1_2中,第4个至第8个神经网络块均是基于ResNet101的基本块,第4个神经网络块由ResNet101中的第一卷积层、第一批量归一化层和第一激活层组成;第5个神经网络块由ResNet101中的第一池化层和layer1组成;第6个神经网络块由ResNet101中的layer2组成;第7个神经网络块由ResNet101中的layer3组成;第8个神经网络块由ResNet101中的layer4组成。
4.根据权利要求1所述的一种有效融合神经网络特征的道路场景语义分割方法,其特征在于所述的步骤1_2中,第1个至第3个融合块的结构相同,其由第一上采样层、第二上采样层及依次设置的第四卷积层、第四批量归一化层、第四激活层、第五卷积层、第五批量归一化层、第五激活层、第六卷积层、第六批量归一化层、第六激活层、第七卷积层、第七批量归一化层、第七激活层组成,第一上采样层的输入端和第二上采样层的输入端为其所在的融合块的输入端,将第一上采样层的输出端输出的所有特征图、第二上采样层的输出端输出的所有特征图、输入到所在的融合块的所有特征图经Add融合操作后得到的所有特征图构成的集合记为B1,第四卷积层的输入端接收B1中的所有特征图,第四批量归一化层的输入端接收第四卷积层的输出端输出的所有特征图,第四激活层的输入端接收第四批量归一化层的输出端输出的所有特征图,第五卷积层的输入端接收第四激活层的输出端输出的所有特征图,第五批量归一化层的输入端接收第五卷积层的输出端输出的所有特征图,第五激活层的输入端接收第五批量归一化层的输出端输出的所有特征图,将B1中的所有特征图和第五激活层的输出端输出的所有特征图进行跳跃连接后得到的所有特征图构成的集合记为B2,第六卷积层的输入端接收B2中的所有特征图,第六批量归一化层的输入端接收第六卷积层的输出端输出的所有特征图,第六激活层的输入端接收第六批量归一化层的输出端输出的所有特征图,第七卷积层的输入端接收第六激活层的输出端输出的所有特征图,第七批量归一化层的输入端接收第七卷积层的输出端输出的所有特征图,第七激活层的输入端接收第七批量归一化层的输出端输出的所有特征图,将B2中的所有特征图和第七激活层的输出端输出的所有特征图进行跳跃连接后得到的所有特征图构成的集合记为B3,B3中的所有特征图由所在的融合块的输出端输出;其中,第1个至第3个融合块中的第一上采样层采用双线性插值法扩大8倍、第二上采样层采用双线性插值法扩大16倍,第1个至第3个融合块中的第四卷积层、第五卷积层、第六卷积层的卷积核大小均为3×3、卷积核个数均为64、补零参数均为0、步长均为1,第1个融合块中的第七卷积层的卷积核大小为3×3、卷积核个数为64、补零参数为0、步长为1,第2个融合块中的第七卷积层的卷积核大小为3×3、卷积核个数为128、补零参数为0、步长为1,第3个融合块中的第七卷积层的卷积核大小为3×3、卷积核个数为256、补零参数为0、步长为1,第1个至第3个融合块中的第四激活层、第五激活层、第六激活层、第七激活层的激活方式均为“Relu”。
5.根据权利要求1或4所述的一种有效融合神经网络特征的道路场景语义分割方法,其特征在于所述的步骤1_2中,第4个融合块和第5个融合块的结构相同,其由第三上采样层及依次设置的第八卷积层、第八批量归一化层、第八激活层、第九卷积层、第九批量归一化层、第九激活层、第十卷积层、第十批量归一化层、第十激活层、第十一卷积层、第十一批量归一化层、第十一激活层组成,第三上采样层的输入端为其所在的融合块的输入端,将第三上采样层的输出端输出的所有特征图、输入到所在的融合块的所有特征图经Add融合操作后得到的所有特征图构成的集合记为C1,第八卷积层的输入端接收C1中的所有特征图,第八批量归一化层的输入端接收第八卷积层的输出端输出的所有特征图,第八激活层的输入端接收第八批量归一化层的输出端输出的所有特征图,第九卷积层的输入端接收第八激活层的输出端输出的所有特征图,第九批量归一化层的输入端接收第九卷积层的输出端输出的所有特征图,第九激活层的输入端接收第九批量归一化层的输出端输出的所有特征图,第十卷积层的输入端接收第九激活层的输出端输出的所有特征图,第十批量归一化层的输入端接收第十卷积层的输出端输出的所有特征图,第十激活层的输入端接收第十批量归一化层的输出端输出的所有特征图,第十一卷积层的输入端接收第十激活层的输出端输出的所有特征图,第十一批量归一化层的输入端接收第十一卷积层的输出端输出的所有特征图,第十一激活层的输入端接收第十一批量归一化层的输出端输出的所有特征图,第十一激活层的输出端为其所在的融合块的输出端;其中,第4个融合块中的第三上采样层采用反卷积方式且卷积核大小为4×4、卷积核个数为128、补零参数为1×1、步长为2,第5个融合块中的第三上采样层采用反卷积方式且卷积核大小为4×4、卷积核个数为12、补零参数为1×1、步长为2,第4个和第5个融合块中的第八卷积层、第十一卷积层的卷积核大小均为7×1、卷积核个数均为12、补零参数均为3×0、步长均为1,第4个和第5个融合块中的第九卷积层、第十卷积层的卷积核大小均为1×7、卷积核个数均为12、补零参数均为0×3、步长均为1,第4个和第5个融合块中的第八激活层、第九激活层、第十激活层、第十一激活层的激活方式均为“Relu”。
6.根据权利要求1所述的一种有效融合神经网络特征的道路场景语义分割方法,其特征在于所述的步骤1_2中,输出层由依次设置的第十二卷积层、第十二批量归一化层、第十二激活层组成,第十二卷积层的输入端为输出层的输入端,第十二批量归一化层的输入端接收第十二卷积层的输出端输出的所有特征图,第十二激活层的输入端接收第十二批量归一化层的输出端输出的所有特征图,第十二激活层的输出端为输出层的输出端;其中,第十二卷积层的卷积核大小为1×1、卷积核个数为12、补零参数为0、步长为1,第十二激活层的激活方式为”Relu”。
CN201910664784.0A 2019-07-23 2019-07-23 一种有效融合神经网络特征的道路场景语义分割方法 Active CN110490082B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910664784.0A CN110490082B (zh) 2019-07-23 2019-07-23 一种有效融合神经网络特征的道路场景语义分割方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910664784.0A CN110490082B (zh) 2019-07-23 2019-07-23 一种有效融合神经网络特征的道路场景语义分割方法

Publications (2)

Publication Number Publication Date
CN110490082A true CN110490082A (zh) 2019-11-22
CN110490082B CN110490082B (zh) 2022-04-05

Family

ID=68548005

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910664784.0A Active CN110490082B (zh) 2019-07-23 2019-07-23 一种有效融合神经网络特征的道路场景语义分割方法

Country Status (1)

Country Link
CN (1) CN110490082B (zh)

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111369568A (zh) * 2020-02-20 2020-07-03 苏州浪潮智能科技有限公司 一种图像分割的方法、系统、设备及可读存储介质
CN111563507A (zh) * 2020-04-14 2020-08-21 浙江科技学院 一种基于卷积神经网络的室内场景语义分割方法
CN111612008A (zh) * 2020-05-21 2020-09-01 苏州大学 基于卷积网络的图像分割方法
CN113111886A (zh) * 2021-04-19 2021-07-13 太原科技大学 一种基于双层残差网络的交通场景图像语义分割方法
CN113192073A (zh) * 2021-04-06 2021-07-30 浙江科技学院 基于交叉融合网络的服装语义分割方法
CN113205503A (zh) * 2021-05-11 2021-08-03 宁波海上鲜信息技术股份有限公司 一种卫星海岸带影像质量评价方法
CN113642581A (zh) * 2021-08-12 2021-11-12 福州大学 基于编码多路径语义交叉网络的图像语义分割方法及系统
CN113781636A (zh) * 2021-09-14 2021-12-10 杭州柳叶刀机器人有限公司 盆骨建模方法与系统、存储介质、计算机程序产品
CN113807198A (zh) * 2021-08-24 2021-12-17 深圳市魔方卫星科技有限公司 道路网变化检测方法、模型训练方法、装置、设备及介质
CN115063492A (zh) * 2022-04-28 2022-09-16 宁波大学 一种抵抗jpeg压缩的对抗样本的生成方法

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106920243A (zh) * 2017-03-09 2017-07-04 桂林电子科技大学 改进的全卷积神经网络的陶瓷材质件序列图像分割方法
CN107123123A (zh) * 2017-05-02 2017-09-01 电子科技大学 基于卷积神经网络的图像分割质量评价方法
CN107274419A (zh) * 2017-07-10 2017-10-20 北京工业大学 一种基于全局先验和局部上下文的深度学习显著性检测方法
CN108710875A (zh) * 2018-09-11 2018-10-26 湖南鲲鹏智汇无人机技术有限公司 一种基于深度学习的航拍公路车辆计数方法及装置
CN109101866A (zh) * 2018-06-05 2018-12-28 中国科学院自动化研究所 基于分割剪影的行人再识别方法及系统
US10229346B1 (en) * 2018-09-04 2019-03-12 StradVision, Inc. Learning method, learning device for detecting object using edge image and testing method, testing device using the same
CN109635642A (zh) * 2018-11-01 2019-04-16 浙江科技学院 一种基于残差网络和扩张卷积的道路场景分割方法

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106920243A (zh) * 2017-03-09 2017-07-04 桂林电子科技大学 改进的全卷积神经网络的陶瓷材质件序列图像分割方法
CN107123123A (zh) * 2017-05-02 2017-09-01 电子科技大学 基于卷积神经网络的图像分割质量评价方法
CN107274419A (zh) * 2017-07-10 2017-10-20 北京工业大学 一种基于全局先验和局部上下文的深度学习显著性检测方法
CN109101866A (zh) * 2018-06-05 2018-12-28 中国科学院自动化研究所 基于分割剪影的行人再识别方法及系统
US10229346B1 (en) * 2018-09-04 2019-03-12 StradVision, Inc. Learning method, learning device for detecting object using edge image and testing method, testing device using the same
CN108710875A (zh) * 2018-09-11 2018-10-26 湖南鲲鹏智汇无人机技术有限公司 一种基于深度学习的航拍公路车辆计数方法及装置
CN109635642A (zh) * 2018-11-01 2019-04-16 浙江科技学院 一种基于残差网络和扩张卷积的道路场景分割方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
XU ZHAO ET AL.: "Joint background reconstruction and foreground segmentation via a two-stage convolutional neural network", 《2017 IEEE INTERNATIONAL CONFERENCE ON MULTIMEDIA AND EXPO(ICME)》 *
李宝奇等: "基于全卷积神经网络的非对称并行语义分割模型", 《电子学报》 *

Cited By (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111369568A (zh) * 2020-02-20 2020-07-03 苏州浪潮智能科技有限公司 一种图像分割的方法、系统、设备及可读存储介质
CN111369568B (zh) * 2020-02-20 2022-12-23 苏州浪潮智能科技有限公司 一种图像分割的方法、系统、设备及可读存储介质
CN111563507A (zh) * 2020-04-14 2020-08-21 浙江科技学院 一种基于卷积神经网络的室内场景语义分割方法
CN111563507B (zh) * 2020-04-14 2024-01-12 浙江科技学院 一种基于卷积神经网络的室内场景语义分割方法
CN111612008A (zh) * 2020-05-21 2020-09-01 苏州大学 基于卷积网络的图像分割方法
CN111612008B (zh) * 2020-05-21 2024-02-09 苏州大学 基于卷积网络的图像分割方法
CN113192073A (zh) * 2021-04-06 2021-07-30 浙江科技学院 基于交叉融合网络的服装语义分割方法
CN113111886A (zh) * 2021-04-19 2021-07-13 太原科技大学 一种基于双层残差网络的交通场景图像语义分割方法
CN113111886B (zh) * 2021-04-19 2023-03-24 太原科技大学 一种基于双层残差网络的交通场景图像语义分割方法
CN113205503A (zh) * 2021-05-11 2021-08-03 宁波海上鲜信息技术股份有限公司 一种卫星海岸带影像质量评价方法
CN113642581B (zh) * 2021-08-12 2023-09-22 福州大学 基于编码多路径语义交叉网络的图像语义分割方法及系统
CN113642581A (zh) * 2021-08-12 2021-11-12 福州大学 基于编码多路径语义交叉网络的图像语义分割方法及系统
CN113807198A (zh) * 2021-08-24 2021-12-17 深圳市魔方卫星科技有限公司 道路网变化检测方法、模型训练方法、装置、设备及介质
CN113781636B (zh) * 2021-09-14 2023-06-20 杭州柳叶刀机器人有限公司 盆骨建模方法与系统、存储介质、计算机程序产品
CN113781636A (zh) * 2021-09-14 2021-12-10 杭州柳叶刀机器人有限公司 盆骨建模方法与系统、存储介质、计算机程序产品
CN115063492B (zh) * 2022-04-28 2023-08-08 宁波大学 一种抵抗jpeg压缩的对抗样本的生成方法
CN115063492A (zh) * 2022-04-28 2022-09-16 宁波大学 一种抵抗jpeg压缩的对抗样本的生成方法

Also Published As

Publication number Publication date
CN110490082B (zh) 2022-04-05

Similar Documents

Publication Publication Date Title
CN110490082A (zh) 一种有效融合神经网络特征的道路场景语义分割方法
CN110782462B (zh) 一种基于双流特征融合的语义分割方法
Guo et al. Auto-embedding generative adversarial networks for high resolution image synthesis
CN110163197A (zh) 目标检测方法、装置、计算机可读存储介质及计算机设备
CN110728682A (zh) 一种基于残差金字塔池化神经网络的语义分割方法
CN110175986A (zh) 一种基于卷积神经网络的立体图像视觉显著性检测方法
CN109146944A (zh) 一种基于深度可分卷积神经网络的视觉深度估计方法
CN110490205A (zh) 基于全残差空洞卷积神经网络的道路场景语义分割方法
CN111524207B (zh) 基于人工智能的图像生成方法、装置、电子设备
CN110263813A (zh) 一种基于残差网络和深度信息融合的显著性检测方法
CN110059728A (zh) 基于注意力模型的rgb-d图像视觉显著性检测方法
CN109460815A (zh) 一种单目视觉深度估计方法
CN110516541A (zh) 文本定位方法、装置、计算机可读存储介质和计算机设备
CN108734653A (zh) 图像风格转换方法及装置
CN110246148A (zh) 多模态的深度信息融合和注意力学习的显著性检测方法
CN111476133B (zh) 面向无人驾驶的前背景编解码器网络目标提取方法
CN111861945A (zh) 一种文本引导的图像修复方法和系统
CN113961736A (zh) 文本生成图像的方法、装置、计算机设备和存储介质
Yu et al. E-DBPN: Enhanced deep back-projection networks for remote sensing scene image superresolution
CN115457043A (zh) 基于重叠自注意力变形器架构u型网络的图像分割网络
CN110619334A (zh) 基于深度学习的人像分割方法、架构及相关装置
CN116091929A (zh) 结合Unet和Transformer的遥感图像语义分割方法
CN109508639A (zh) 基于多尺度带孔卷积神经网络的道路场景语义分割方法
CN109448039A (zh) 一种基于深度卷积神经网络的单目视觉深度估计方法
CN109446933A (zh) 一种基于卷积神经网络的道路场景语义分割方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant