CN110490082B - 一种有效融合神经网络特征的道路场景语义分割方法 - Google Patents

一种有效融合神经网络特征的道路场景语义分割方法 Download PDF

Info

Publication number
CN110490082B
CN110490082B CN201910664784.0A CN201910664784A CN110490082B CN 110490082 B CN110490082 B CN 110490082B CN 201910664784 A CN201910664784 A CN 201910664784A CN 110490082 B CN110490082 B CN 110490082B
Authority
CN
China
Prior art keywords
layer
convolution
output
neural network
input
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910664784.0A
Other languages
English (en)
Other versions
CN110490082A (zh
Inventor
周武杰
朱家懿
叶绿
雷景生
王海江
何成
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhejiang Lover Health Science and Technology Development Co Ltd
Original Assignee
Zhejiang Lover Health Science and Technology Development Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhejiang Lover Health Science and Technology Development Co Ltd filed Critical Zhejiang Lover Health Science and Technology Development Co Ltd
Priority to CN201910664784.0A priority Critical patent/CN110490082B/zh
Publication of CN110490082A publication Critical patent/CN110490082A/zh
Application granted granted Critical
Publication of CN110490082B publication Critical patent/CN110490082B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/50Context or environment of the image
    • G06V20/56Context or environment of the image exterior to a vehicle by using sensors mounted on the vehicle

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Biomedical Technology (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Multimedia (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种有效融合神经网络特征的道路场景语义分割方法,其在训练阶段构建卷积神经网络,其包括输入层、隐藏层和输出层,隐藏层包括由3个神经网络块组成的空间特征提取通道、由5个神经网络块组成的背景特征提取通道、由第5个融合块组成的特征融合通道;将训练集中的每幅原始的道路场景图像输入到卷积神经网络中进行训练,得到每幅原始的道路场景图像对应的12幅语义分割预测图;通过计算每幅原始的道路场景图像对应的12幅语义分割预测图构成的集合与对应的真实语义分割图像处理成的12幅独热编码图像构成的集合之间的损失函数值,得到卷积神经网络训练模型;在测试阶段利用卷积神经网络训练模型进行预测;优点是分割准确度高,鲁棒性强。

Description

一种有效融合神经网络特征的道路场景语义分割方法
技术领域
本发明涉及一种语义分割方法,尤其是涉及一种有效融合神经网络特征的道路场景语义分割方法。
背景技术
语义分割是许多计算机视觉应用的基本技术,如场景理解、无人驾驶等。随着卷积神经网络特别是全卷积神经网络(FCN)的发展,在基准测试中取得了许多有前途的成果。全卷积神经网络具有典型的编码器-解码器结构,语义信息首先通过编码器嵌入到特征图中,解码器负责生成分割结果。通常,编码器是通过预先训练的卷积模型来提取图像特征,解码器包含多个上采样组件来恢复分辨率。尽管编码器最重要的特征图可能具有高度的语义性,但由于分辨率不足,因此它在分割图中重建精确细节的能力有限,这在现代主干模型中非常常见。语义分割既需要丰富的空间信息,又需要相当大的感受野。现代语义分割框架通常将预先训练的主干卷积模型的低级和高级特征结合起来,以提高性能。最常用的U-shape网络,如U-Net、FusionNet等,都是将低级特征直接加到高级特征中,以弥补损失的信息。但是由于语义层次和空间分辨率的差异,低层次和高层次特征的简单融合可能不太有效。若将语义信息引入低级特征和高级特征,将分辨率细节转换为高级特征,则对于以后的融合更为有效。
发明内容
本发明所要解决的技术问题是提供一种有效融合神经网络特征的道路场景语义分割方法,其分割准确度高,且鲁棒性强。
本发明解决上述技术问题所采用的技术方案为:一种有效融合神经网络特征的道路场景语义分割方法,其特征在于包括训练阶段和测试阶段两个过程;
所述的训练阶段过程的具体步骤为:
步骤1_1:选取Q幅原始的道路场景图像及每幅原始的道路场景图像对应的真实语义分割图像,并构成训练集,将训练集中的第q幅原始的道路场景图像记为{Iq(i,j)},将训练集中与{Iq(i,j)}对应的真实语义分割图像记为
Figure BDA0002139749390000021
然后采用独热编码技术将训练集中的每幅原始的道路场景图像对应的真实语义分割图像处理成12幅独热编码图像,将
Figure BDA0002139749390000022
处理成的12幅独热编码图像构成的集合记为
Figure BDA0002139749390000023
其中,道路场景图像为RGB彩色图像,Q为正整数,Q≥200,q为正整数,1≤q≤Q,1≤i≤W,1≤j≤H,W表示{Iq(i,j)}的宽度,H表示{Iq(i,j)}的高度,Iq(i,j)表示{Iq(i,j)}中坐标位置为(i,j)的像素点的像素值,
Figure BDA0002139749390000024
表示
Figure BDA0002139749390000025
中坐标位置为(i,j)的像素点的像素值。
步骤1_2:构建全卷积神经网络:全卷积神经网络包括输入层、隐藏层和输出层,隐藏层采用编码-解码架构,隐藏层包括一条空间特征提取通道、一条背景特征提取通道、一条特征融合通道,空间特征提取通道由依次设置的第1个神经网络块、第2个神经网络块、第3个神经网络块组成,背景特征提取通道由依次设置的第4个神经网络块、第5个神经网络块、第6个神经网络块、第7个神经网络块、第8个神经网络块组成,特征融合通道由依次设置的第1个融合块、第2个融合块、第3个融合块、第4个融合块、第5个融合块组成;
对于输入层,其输入端接收一幅输入图像的R通道分量、G通道分量和B通道分量,其输出端输出输入图像的R通道分量、G通道分量和B通道分量给隐藏层;其中,要求输入层的输入端接收的输入图像的宽度为W、高度为H;
对于空间特征提取通道,第1个神经网络块的输入端为空间特征提取通道的输入端,也为隐藏层的一个输入端,接收输入层的输出端输出的输入图像的R通道分量、G通道分量和B通道分量,第1个神经网络块的输出端输出64幅宽度为
Figure BDA0002139749390000026
且高度为
Figure BDA0002139749390000027
的特征图,将这64幅特征图构成的集合记为S1;第2个神经网络块的输入端接收S1中的所有特征图,第2个神经网络块的输出端输出128幅宽度为
Figure BDA0002139749390000028
且高度为
Figure BDA0002139749390000029
的特征图,将这128幅特征图构成的集合记为S2;第3个神经网络块的输入端接收S2中的所有特征图,第3个神经网络块的输出端输出256幅宽度为
Figure BDA0002139749390000031
且高度为
Figure BDA0002139749390000032
的特征图,将这256幅特征图构成的集合记为S3
对于背景特征提取通道,第4个神经网络块为背景特征提取通道的输入端,也为隐藏层的另一个输入端,接收输入层的输出端输出的输入图像的R通道分量、G通道分量和B通道分量,第4个神经网络块的输出端输出64幅宽度为
Figure BDA0002139749390000033
且高度为
Figure BDA0002139749390000034
的特征图,将这64幅特征图构成的集合记为S4;第5个神经网络块的输入端接收S4中的所有特征图,第5个神经网络块的输出端输出256幅宽度为
Figure BDA0002139749390000035
且高度为
Figure BDA0002139749390000036
的特征图,将这256幅特征图构成的集合记为S5;第6个神经网络块的输入端接收S5中的所有特征图,第6个神经网络块的输出端输出512幅宽度为
Figure BDA0002139749390000037
且高度为
Figure BDA0002139749390000038
的特征图,将这512幅特征图构成的集合记为S6;第7个神经网络块的输入端接收S6中的所有特征图,第7个神经网络块的输出端输出1024幅宽度为
Figure BDA0002139749390000039
且高度为
Figure BDA00021397493900000310
的特征图,将这1024幅特征图构成的集合记为S7;第8个神经网络块的输入端接收S7中的所有特征图,第8个神经网络块的输出端输出2048幅宽度为
Figure BDA00021397493900000311
且高度为
Figure BDA00021397493900000312
的特征图,将这2048幅特征图构成的集合记为S8
对于特征融合通道,第1个融合块的输入端接收S1中的所有特征图、S7中的所有特征图、S8中的所有特征图,第1个融合块的输出端输出64幅宽度为
Figure BDA00021397493900000313
且高度为
Figure BDA00021397493900000314
的特征图,将这64幅特征图构成的集合记为R1;第2个融合块的输入端接收S2中的所有特征图、S7中的所有特征图、S8中的所有特征图,第2个融合块的输出端输出128幅宽度为
Figure BDA00021397493900000315
且高度为
Figure BDA00021397493900000316
的特征图,将这128幅特征图构成的集合记为R2;第3个融合块的输入端接收S3中的所有特征图、S7中的所有特征图、S8中的所有特征图,第3个融合块的输出端输出256幅宽度为
Figure BDA00021397493900000317
且高度为
Figure BDA00021397493900000318
的特征图,将这256幅特征图构成的集合记为R3;第4个融合块的输入端接收R2中的所有特征图、R3中的所有特征图,第4个融合块的输出端输出12幅宽度为
Figure BDA0002139749390000041
且高度为
Figure BDA0002139749390000042
的特征图,将这12幅特征图构成的集合记为R4;第5个融合块的输入端接收R1中的所有特征图、R4中的所有特征图,第5个融合块的输出端输出12幅宽度为
Figure BDA0002139749390000043
且高度为
Figure BDA0002139749390000044
的特征图,将这12幅特征图构成的集合记为R5
对于输出层,其输入端接收R5中的所有特征图,其输出端输出12幅宽度为W且高度为H的特征图;
步骤1_3:将训练集中的每幅原始的道路场景图像作为输入图像,输入到全卷积神经网络中进行训练,得到训练集中的每幅原始的道路场景图像对应的12幅语义分割预测图,将{Iq(i,j)}对应的12幅语义分割预测图构成的集合记为
Figure BDA0002139749390000045
步骤1_4:计算训练集中的每幅原始的道路场景图像对应的12幅语义分割预测图构成的集合与对应的真实语义分割图像处理成的12幅独热编码图像构成的集合之间的损失函数值,将
Figure BDA0002139749390000046
Figure BDA0002139749390000047
之间的损失函数值记为
Figure BDA0002139749390000048
采用Negative Log-liklihood函数获得;
步骤1_5:重复执行步骤1_3和步骤1_4共V次,得到全卷积神经网络训练模型,并共得到Q×V个损失函数值;然后从Q×V个损失函数值中找出值最小的损失函数值;接着将值最小的损失函数值对应的权值矢量和偏置项对应作为全卷积神经网络训练模型的最优权值矢量和最优偏置项,对应记为Wbest和bbest;其中,V>1;
所述的测试阶段过程的具体步骤为:
步骤2_1:令
Figure BDA0002139749390000049
表示待语义分割的道路场景图像;其中,1≤i'≤W',1≤j'≤H',W'表示
Figure BDA00021397493900000410
的宽度,H'表示
Figure BDA00021397493900000411
的高度,
Figure BDA00021397493900000412
表示
Figure BDA00021397493900000413
中坐标位置为(i,j)的像素点的像素值;
步骤2_2:将
Figure BDA00021397493900000414
的R通道分量、G通道分量和B通道分量输入到全卷积神经网络训练模型中,并利用Wbest和bbest进行预测,得到
Figure BDA00021397493900000415
对应的预测语义分割图像,记为
Figure BDA0002139749390000051
其中,
Figure BDA0002139749390000052
表示
Figure BDA0002139749390000053
中坐标位置为(i',j')的像素点的像素值。
所述的步骤1_2中,第1个至第3个神经网络块的结构相同,其由依次设置的第一卷积层、第一批量归一化层、第一激活层、第二卷积层、第二批量归一化层、第二激活层、第三卷积层、第三批量归一化层、第三激活层组成,第一卷积层的输入端为其所在的神经网络块的输入端,第一批量归一化层的输入端接收第一卷积层的输出端输出的所有特征图,第一激活层的输入端接收第一批量归一化层的输出端输出的所有特征图,第二卷积层的输入端接收第一激活层的输出端输出的所有特征图,第二批量归一化层的输入端接收第二卷积层的输出端输出的所有特征图,第二激活层的输入端接收第二批量归一化层的输出端输出的所有特征图,第三卷积层的输入端接收第二激活层的输出端输出的所有特征图,第三批量归一化层的输入端接收第三卷积层的输出端输出的所有特征图,第三激活层的输入端接收第三批量归一化层的输出端输出的所有特征图,第三激活层的输出端为其所在的神经网络块的输出端;其中,第1个神经网络块中的第一卷积层的卷积核大小为3×3、卷积核个数为64、补零参数为1×1、步长为2,第1个神经网络块中的第二卷积层的卷积核大小为5×5、卷积核个数为64、补零参数为2×2、步长为1,第1个神经网络块中的第三卷积层的卷积核大小为7×7、卷积核个数为64、补零参数为3×3、步长为1,第2个神经网络块中的第一卷积层的卷积核大小为3×3、卷积核个数为128、补零参数为1×1、步长为2,第2个神经网络块中的第二卷积层的卷积核大小为5×5、卷积核个数为128、补零参数为2×2、步长为1,第2个神经网络块中的第三卷积层的卷积核大小为7×7、卷积核个数为128、补零参数为3×3、步长为1,第3个神经网络块中的第一卷积层的卷积核大小为3×3、卷积核个数为256、补零参数为1×1、步长为2,第3个神经网络块中的第二卷积层的卷积核大小为5×5、卷积核个数为256、补零参数为2×2、步长为1,第3个神经网络块中的第三卷积层的卷积核大小为7×7、卷积核个数为256、补零参数为3×3、步长为1,第一激活层、第二激活层、第三激活层的激活方式均为“Relu”。
所述的步骤1_2中,第4个至第8个神经网络块均是基于ResNet101的基本块,第4个神经网络块由ResNet101中的第一卷积层、第一批量归一化层和第一激活层组成;第5个神经网络块由ResNet101中的第一池化层和layer1组成;第6个神经网络块由ResNet101中的layer2组成;第7个神经网络块由ResNet101中的layer3组成;第8个神经网络块由ResNet101中的layer4组成。
所述的步骤1_2中,第1个至第3个融合块的结构相同,其由第一上采样层、第二上采样层及依次设置的第四卷积层、第四批量归一化层、第四激活层、第五卷积层、第五批量归一化层、第五激活层、第六卷积层、第六批量归一化层、第六激活层、第七卷积层、第七批量归一化层、第七激活层组成,第一上采样层的输入端和第二上采样层的输入端为其所在的融合块的输入端,将第一上采样层的输出端输出的所有特征图、第二上采样层的输出端输出的所有特征图、输入到所在的融合块的所有特征图经Add融合操作后得到的所有特征图构成的集合记为B1,第四卷积层的输入端接收B1中的所有特征图,第四批量归一化层的输入端接收第四卷积层的输出端输出的所有特征图,第四激活层的输入端接收第四批量归一化层的输出端输出的所有特征图,第五卷积层的输入端接收第四激活层的输出端输出的所有特征图,第五批量归一化层的输入端接收第五卷积层的输出端输出的所有特征图,第五激活层的输入端接收第五批量归一化层的输出端输出的所有特征图,将B1中的所有特征图和第五激活层的输出端输出的所有特征图进行跳跃连接后得到的所有特征图构成的集合记为B2,第六卷积层的输入端接收B2中的所有特征图,第六批量归一化层的输入端接收第六卷积层的输出端输出的所有特征图,第六激活层的输入端接收第六批量归一化层的输出端输出的所有特征图,第七卷积层的输入端接收第六激活层的输出端输出的所有特征图,第七批量归一化层的输入端接收第七卷积层的输出端输出的所有特征图,第七激活层的输入端接收第七批量归一化层的输出端输出的所有特征图,将B2中的所有特征图和第七激活层的输出端输出的所有特征图进行跳跃连接后得到的所有特征图构成的集合记为B3,B3中的所有特征图由所在的融合块的输出端输出;其中,第1个至第3个融合块中的第一上采样层采用双线性插值法扩大8倍、第二上采样层采用双线性插值法扩大16倍,第1个至第3个融合块中的第四卷积层、第五卷积层、第六卷积层的卷积核大小均为3×3、卷积核个数均为64、补零参数均为0、步长均为1,第1个融合块中的第七卷积层的卷积核大小为3×3、卷积核个数为64、补零参数为0、步长为1,第2个融合块中的第七卷积层的卷积核大小为3×3、卷积核个数为128、补零参数为0、步长为1,第3个融合块中的第七卷积层的卷积核大小为3×3、卷积核个数为256、补零参数为0、步长为1,第1个至第3个融合块中的第四激活层、第五激活层、第六激活层、第七激活层的激活方式均为“Relu”。
所述的步骤1_2中,第4个融合块和第5个融合块的结构相同,其由第三上采样层及依次设置的第八卷积层、第八批量归一化层、第八激活层、第九卷积层、第九批量归一化层、第九激活层、第十卷积层、第十批量归一化层、第十激活层、第十一卷积层、第十一批量归一化层、第十一激活层组成,第三上采样层的输入端为其所在的融合块的输入端,将第三上采样层的输出端输出的所有特征图、输入到所在的融合块的所有特征图经Add融合操作后得到的所有特征图构成的集合记为C1,第八卷积层的输入端接收C1中的所有特征图,第八批量归一化层的输入端接收第八卷积层的输出端输出的所有特征图,第八激活层的输入端接收第八批量归一化层的输出端输出的所有特征图,第九卷积层的输入端接收第八激活层的输出端输出的所有特征图,第九批量归一化层的输入端接收第九卷积层的输出端输出的所有特征图,第九激活层的输入端接收第九批量归一化层的输出端输出的所有特征图,第十卷积层的输入端接收第九激活层的输出端输出的所有特征图,第十批量归一化层的输入端接收第十卷积层的输出端输出的所有特征图,第十激活层的输入端接收第十批量归一化层的输出端输出的所有特征图,第十一卷积层的输入端接收第十激活层的输出端输出的所有特征图,第十一批量归一化层的输入端接收第十一卷积层的输出端输出的所有特征图,第十一激活层的输入端接收第十一批量归一化层的输出端输出的所有特征图,第十一激活层的输出端为其所在的融合块的输出端;其中,第4个融合块中的第三上采样层采用反卷积方式且卷积核大小为4×4、卷积核个数为128、补零参数为1×1、步长为2,第5个融合块中的第三上采样层采用反卷积方式且卷积核大小为4×4、卷积核个数为12、补零参数为1×1、步长为2,第4个和第5个融合块中的第八卷积层、第十一卷积层的卷积核大小均为7×1、卷积核个数均为12、补零参数均为3×0、步长均为1,第4个和第5个融合块中的第九卷积层、第十卷积层的卷积核大小均为1×7、卷积核个数均为12、补零参数均为0×3、步长均为1,第4个和第5个融合块中的第八激活层、第九激活层、第十激活层、第十一激活层的激活方式均为“Relu”。
所述的步骤1_2中,输出层由依次设置的第十二卷积层、第十二批量归一化层、第十二激活层组成,第十二卷积层的输入端为输出层的输入端,第十二批量归一化层的输入端接收第十二卷积层的输出端输出的所有特征图,第十二激活层的输入端接收第十二批量归一化层的输出端输出的所有特征图,第十二激活层的输出端为输出层的输出端;其中,第十二卷积层的卷积核大小为1×1、卷积核个数为12、补零参数为0、步长为1,第十二激活层的激活方式为”Relu”。
与现有技术相比,本发明的优点在于:
1)本发明方法构建了全卷积神经网络,用步长为2的卷积层取代了现阶段常用的池化层,由于池化层会对图像造成不可逆的特征损失,且语义分割对预测精度的要求很高,因此本发明方法选择了步长为2的卷积层进行替代,该卷积层可以得到与池化层相同的效果,并能保证图像特征不会有过大损失,实验证明,更少的信息缺失可以大幅度提高分割精度。
2)本发明方法采用大卷积核的方式来扩大网络感受野,由于池化层的优点不只是能有效缩减图像尺寸,还可有效扩大感受野以保证提取到更多的全局信息,因此本发明方法在用步长为2的卷积层替代池化层时,感受野没有得到有效扩充,损失了部分全局信息,故采用大卷积核,以保证网络感受野得到增大,从而使全卷积神经网络捕获更多的全局信息,有助于增强全卷积神经网络训练模型的鲁棒性。
3)本发明方法提出了两种不同的特征提取通道即空间特征提取通道和背景特征提取通道,以适应语义分割对多类型网络特征的要求,利用较少下采样保留空间信息,较多下采样保留全局信息,最后将两种特征进行有效融合,进而提升了语义分割精度。
4)本发明方法在编码部分就将低级特征与高级特征交叉融合,提升了语义分割精度。
附图说明
图1为本发明方法中构建的卷积神经网络的组成结构示意图;
图2a为本发明方法中构建的卷积神经网络中的第1个至第3个融合块的组成结构示意图;
图2b为本发明方法中构建的卷积神经网络中的第4个和第5个融合块的组成结构示意图;
图3a为同一场景的第1幅原始的道路场景图像;
图3b为利用本发明方法对图3a所示的原始的道路场景图像进行预测,得到的预测语义分割图像;
图4a为同一场景的第2幅原始的道路场景图像;
图4b为利用本发明方法对图4a所示的原始的道路场景图像进行预测,得到的预测语义分割图像;
图5a为同一场景的第3幅原始的道路场景图像;
图5b为利用本发明方法对图5a所示的原始的道路场景图像进行预测,得到的预测语义分割图像;
图6a为同一场景的第4幅原始的道路场景图像;
图6b为利用本发明方法对图6a所示的原始的道路场景图像进行预测,得到的预测语义分割图像;
图7a为同一场景的第5幅原始的道路场景图像;
图7b为利用本发明方法对图7a所示的原始的道路场景图像进行预测,得到的预测语义分割图像。
具体实施方式
以下结合附图实施例对本发明作进一步详细描述。
本发明提出的一种有效融合神经网络特征的道路场景语义分割方法,其包括训练阶段和测试阶段两个过程。
所述的训练阶段过程的具体步骤为:
步骤1_1:选取Q幅原始的道路场景图像及每幅原始的道路场景图像对应的真实语义分割图像,并构成训练集,将训练集中的第q幅原始的道路场景图像记为{Iq(i,j)},将训练集中与{Iq(i,j)}对应的真实语义分割图像记为
Figure BDA0002139749390000091
然后采用现有的独热编码技术(one-hot)将训练集中的每幅原始的道路场景图像对应的真实语义分割图像处理成12幅独热编码图像,将
Figure BDA0002139749390000092
处理成的12幅独热编码图像构成的集合记为
Figure BDA0002139749390000093
其中,道路场景图像为RGB彩色图像,Q为正整数,Q≥200,如取Q=367,q为正整数,1≤q≤Q,1≤i≤W,1≤j≤H,W表示{Iq(i,j)}的宽度,H表示{Iq(i,j)}的高度,如取W=480、H=360,Iq(i,j)表示{Iq(i,j)}中坐标位置为(i,j)的像素点的像素值,
Figure BDA0002139749390000101
表示
Figure BDA0002139749390000102
中坐标位置为(i,j)的像素点的像素值。
在此,原始的道路场景图像直接选用道路场景图像数据库CamVid训练集中的367幅图像。
步骤1_2:构建全卷积神经网络:如图1所示,全卷积神经网络包括输入层、隐藏层和输出层,隐藏层采用编码-解码架构,隐藏层包括一条空间特征提取通道、一条背景特征提取通道、一条特征融合通道,空间特征提取通道由依次设置的第1个神经网络块、第2个神经网络块、第3个神经网络块组成,背景特征提取通道由依次设置的第4个神经网络块、第5个神经网络块、第6个神经网络块、第7个神经网络块、第8个神经网络块组成,特征融合通道由依次设置的第1个融合块、第2个融合块、第3个融合块、第4个融合块、第5个融合块组成。
对于输入层,其输入端接收一幅输入图像的R通道分量、G通道分量和B通道分量,其输出端输出输入图像的R通道分量、G通道分量和B通道分量给隐藏层;其中,要求输入层的输入端接收的输入图像的宽度为W、高度为H。
对于空间特征提取通道,第1个神经网络块的输入端为空间特征提取通道的输入端,也为隐藏层的一个输入端,接收输入层的输出端输出的输入图像的R通道分量、G通道分量和B通道分量,第1个神经网络块的输出端输出64幅宽度为
Figure BDA0002139749390000103
且高度为
Figure BDA0002139749390000104
的特征图,将这64幅特征图构成的集合记为S1;第2个神经网络块的输入端接收S1中的所有特征图,第2个神经网络块的输出端输出128幅宽度为
Figure BDA0002139749390000105
且高度为
Figure BDA0002139749390000106
的特征图,将这128幅特征图构成的集合记为S2;第3个神经网络块的输入端接收S2中的所有特征图,第3个神经网络块的输出端输出256幅宽度为
Figure BDA0002139749390000107
且高度为
Figure BDA0002139749390000108
的特征图,将这256幅特征图构成的集合记为S3
对于背景特征提取通道,第4个神经网络块为背景特征提取通道的输入端,也为隐藏层的另一个输入端,接收输入层的输出端输出的输入图像的R通道分量、G通道分量和B通道分量,第4个神经网络块的输出端输出64幅宽度为
Figure BDA0002139749390000111
且高度为
Figure BDA0002139749390000112
的特征图,将这64幅特征图构成的集合记为S4;第5个神经网络块的输入端接收S4中的所有特征图,第5个神经网络块的输出端输出256幅宽度为
Figure BDA0002139749390000113
且高度为
Figure BDA0002139749390000114
的特征图,将这256幅特征图构成的集合记为S5;第6个神经网络块的输入端接收S5中的所有特征图,第6个神经网络块的输出端输出512幅宽度为
Figure BDA0002139749390000115
且高度为
Figure BDA0002139749390000116
的特征图,将这512幅特征图构成的集合记为S6;第7个神经网络块的输入端接收S6中的所有特征图,第7个神经网络块的输出端输出1024幅宽度为
Figure BDA0002139749390000117
且高度为
Figure BDA0002139749390000118
的特征图,将这1024幅特征图构成的集合记为S7;第8个神经网络块的输入端接收S7中的所有特征图,第8个神经网络块的输出端输出2048幅宽度为
Figure BDA0002139749390000119
且高度为
Figure BDA00021397493900001110
的特征图,将这2048幅特征图构成的集合记为S8
对于特征融合通道,第1个融合块的输入端接收S1中的所有特征图、S7中的所有特征图、S8中的所有特征图,第1个融合块的输出端输出64幅宽度为
Figure BDA00021397493900001111
且高度为
Figure BDA00021397493900001112
的特征图,将这64幅特征图构成的集合记为R1;第2个融合块的输入端接收S2中的所有特征图、S7中的所有特征图、S8中的所有特征图,第2个融合块的输出端输出128幅宽度为
Figure BDA00021397493900001113
且高度为
Figure BDA00021397493900001114
的特征图,将这128幅特征图构成的集合记为R2;第3个融合块的输入端接收S3中的所有特征图、S7中的所有特征图、S8中的所有特征图,第3个融合块的输出端输出256幅宽度为
Figure BDA00021397493900001115
且高度为
Figure BDA00021397493900001116
的特征图,将这256幅特征图构成的集合记为R3;第4个融合块的输入端接收R2中的所有特征图、R3中的所有特征图,第4个融合块的输出端输出12幅宽度为
Figure BDA00021397493900001117
且高度为
Figure BDA00021397493900001118
的特征图,将这12幅特征图构成的集合记为R4;第5个融合块的输入端接收R1中的所有特征图、R4中的所有特征图,第5个融合块的输出端输出12幅宽度为
Figure BDA00021397493900001119
且高度为
Figure BDA00021397493900001120
的特征图,将这12幅特征图构成的集合记为R5
对于输出层,其输入端接收R5中的所有特征图,其输出端输出12幅宽度为W且高度为H的特征图。
步骤1_3:将训练集中的每幅原始的道路场景图像作为输入图像,输入到全卷积神经网络中进行训练,得到训练集中的每幅原始的道路场景图像对应的12幅语义分割预测图,将{Iq(i,j)}对应的12幅语义分割预测图构成的集合记为
Figure BDA0002139749390000121
步骤1_4:计算训练集中的每幅原始的道路场景图像对应的12幅语义分割预测图构成的集合与对应的真实语义分割图像处理成的12幅独热编码图像构成的集合之间的损失函数值,将
Figure BDA0002139749390000122
Figure BDA0002139749390000123
之间的损失函数值记为
Figure BDA0002139749390000124
采用Negative Log-liklihood(NLLLoss)函数获得。
步骤1_5:重复执行步骤1_3和步骤1_4共V次,得到全卷积神经网络训练模型,并共得到Q×V个损失函数值;然后从Q×V个损失函数值中找出值最小的损失函数值;接着将值最小的损失函数值对应的权值矢量和偏置项对应作为全卷积神经网络训练模型的最优权值矢量和最优偏置项,对应记为Wbest和bbest;其中,V>1,在本实施例中取V=500。
所述的测试阶段过程的具体步骤为:
步骤2_1:令
Figure BDA0002139749390000125
表示待语义分割的道路场景图像;其中,1≤i'≤W',1≤j'≤H',W'表示
Figure BDA0002139749390000126
的宽度,H'表示
Figure BDA0002139749390000127
的高度,
Figure BDA0002139749390000128
表示
Figure BDA0002139749390000129
中坐标位置为(i,j)的像素点的像素值。
步骤2_2:将
Figure BDA00021397493900001210
的R通道分量、G通道分量和B通道分量输入到全卷积神经网络训练模型中,并利用Wbest和bbest进行预测,得到
Figure BDA00021397493900001211
对应的预测语义分割图像,记为
Figure BDA00021397493900001212
其中,
Figure BDA00021397493900001213
表示
Figure BDA00021397493900001214
中坐标位置为(i',j')的像素点的像素值。
在此具体实施例中,步骤1_2中,第1个至第3个神经网络块的结构相同,其由依次设置的第一卷积层(Convolution,Conv)、第一批量归一化层(Batch Normalization,BN)、第一激活层(Activation,Act)、第二卷积层、第二批量归一化层、第二激活层、第三卷积层、第三批量归一化层、第三激活层组成,第一卷积层的输入端为其所在的神经网络块的输入端,第一批量归一化层的输入端接收第一卷积层的输出端输出的所有特征图,第一激活层的输入端接收第一批量归一化层的输出端输出的所有特征图,第二卷积层的输入端接收第一激活层的输出端输出的所有特征图,第二批量归一化层的输入端接收第二卷积层的输出端输出的所有特征图,第二激活层的输入端接收第二批量归一化层的输出端输出的所有特征图,第三卷积层的输入端接收第二激活层的输出端输出的所有特征图,第三批量归一化层的输入端接收第三卷积层的输出端输出的所有特征图,第三激活层的输入端接收第三批量归一化层的输出端输出的所有特征图,第三激活层的输出端为其所在的神经网络块的输出端;其中,第1个神经网络块中的第一卷积层的卷积核大小(kernel_size)为3×3、卷积核个数(filters)为64、补零(padding)参数为1×1、步长(stride)为2,第1个神经网络块中的第二卷积层的卷积核大小为5×5、卷积核个数为64、补零参数为2×2、步长为1,第1个神经网络块中的第三卷积层的卷积核大小为7×7、卷积核个数为64、补零参数为3×3、步长为1,第2个神经网络块中的第一卷积层的卷积核大小为3×3、卷积核个数为128、补零参数为1×1、步长为2,第2个神经网络块中的第二卷积层的卷积核大小为5×5、卷积核个数为128、补零参数为2×2、步长为1,第2个神经网络块中的第三卷积层的卷积核大小为7×7、卷积核个数为128、补零参数为3×3、步长为1,第3个神经网络块中的第一卷积层的卷积核大小为3×3、卷积核个数为256、补零参数为1×1、步长为2,第3个神经网络块中的第二卷积层的卷积核大小为5×5、卷积核个数为256、补零参数为2×2、步长为1,第3个神经网络块中的第三卷积层的卷积核大小为7×7、卷积核个数为256、补零参数为3×3、步长为1,第一激活层、第二激活层、第三激活层的激活方式均为“Relu”。
在此具体实施例中,步骤1_2中,第4个至第8个神经网络块均是基于ResNet101的基本块,第4个神经网络块由ResNet101中的第一卷积层、第一批量归一化层和第一激活层组成;第5个神经网络块由ResNet101中的第一池化层和layer1组成;第6个神经网络块由ResNet101中的layer2组成;第7个神经网络块由ResNet101中的layer3组成;第8个神经网络块由ResNet101中的layer4组成。
在此具体实施例中,步骤1_2中,第1个至第3个融合块的结构相同,如图2a所示,其由第一上采样层、第二上采样层及依次设置的第四卷积层、第四批量归一化层、第四激活层、第五卷积层、第五批量归一化层、第五激活层、第六卷积层、第六批量归一化层、第六激活层、第七卷积层、第七批量归一化层、第七激活层组成,第一上采样层的输入端和第二上采样层的输入端为其所在的融合块的输入端,将第一上采样层的输出端输出的所有特征图、第二上采样层的输出端输出的所有特征图、输入到所在的融合块的所有特征图经Add融合操作后得到的所有特征图构成的集合记为B1,第四卷积层的输入端接收B1中的所有特征图,第四批量归一化层的输入端接收第四卷积层的输出端输出的所有特征图,第四激活层的输入端接收第四批量归一化层的输出端输出的所有特征图,第五卷积层的输入端接收第四激活层的输出端输出的所有特征图,第五批量归一化层的输入端接收第五卷积层的输出端输出的所有特征图,第五激活层的输入端接收第五批量归一化层的输出端输出的所有特征图,将B1中的所有特征图和第五激活层的输出端输出的所有特征图进行跳跃连接后得到的所有特征图构成的集合记为B2,第六卷积层的输入端接收B2中的所有特征图,第六批量归一化层的输入端接收第六卷积层的输出端输出的所有特征图,第六激活层的输入端接收第六批量归一化层的输出端输出的所有特征图,第七卷积层的输入端接收第六激活层的输出端输出的所有特征图,第七批量归一化层的输入端接收第七卷积层的输出端输出的所有特征图,第七激活层的输入端接收第七批量归一化层的输出端输出的所有特征图,将B2中的所有特征图和第七激活层的输出端输出的所有特征图进行跳跃连接后得到的所有特征图构成的集合记为B3,B3中的所有特征图由所在的融合块的输出端输出;其中,第1个至第3个融合块中的第一上采样层采用双线性插值法扩大8倍、第二上采样层采用双线性插值法扩大16倍,第1个至第3个融合块中的第四卷积层、第五卷积层、第六卷积层的卷积核大小均为3×3、卷积核个数均为64、补零参数均为0、步长均为1,第1个融合块中的第七卷积层的卷积核大小为3×3、卷积核个数为64、补零参数为0、步长为1,第2个融合块中的第七卷积层的卷积核大小为3×3、卷积核个数为128、补零参数为0、步长为1,第3个融合块中的第七卷积层的卷积核大小为3×3、卷积核个数为256、补零参数为0、步长为1,第1个至第3个融合块中的第四激活层、第五激活层、第六激活层、第七激活层的激活方式均为“Relu”。
在此具体实施例中,步骤1_2中,第4个融合块和第5个融合块的结构相同,如图2b所示,其由第三上采样层及依次设置的第八卷积层、第八批量归一化层、第八激活层、第九卷积层、第九批量归一化层、第九激活层、第十卷积层、第十批量归一化层、第十激活层、第十一卷积层、第十一批量归一化层、第十一激活层组成,第三上采样层的输入端为其所在的融合块的输入端,将第三上采样层的输出端输出的所有特征图、输入到所在的融合块的所有特征图经Add融合操作后得到的所有特征图构成的集合记为C1,第八卷积层的输入端接收C1中的所有特征图,第八批量归一化层的输入端接收第八卷积层的输出端输出的所有特征图,第八激活层的输入端接收第八批量归一化层的输出端输出的所有特征图,第九卷积层的输入端接收第八激活层的输出端输出的所有特征图,第九批量归一化层的输入端接收第九卷积层的输出端输出的所有特征图,第九激活层的输入端接收第九批量归一化层的输出端输出的所有特征图,第十卷积层的输入端接收第九激活层的输出端输出的所有特征图,第十批量归一化层的输入端接收第十卷积层的输出端输出的所有特征图,第十激活层的输入端接收第十批量归一化层的输出端输出的所有特征图,第十一卷积层的输入端接收第十激活层的输出端输出的所有特征图,第十一批量归一化层的输入端接收第十一卷积层的输出端输出的所有特征图,第十一激活层的输入端接收第十一批量归一化层的输出端输出的所有特征图,第十一激活层的输出端为其所在的融合块的输出端;其中,第4个融合块中的第三上采样层采用反卷积方式且卷积核大小为4×4、卷积核个数为128、补零参数为1×1、步长为2,第5个融合块中的第三上采样层采用反卷积方式且卷积核大小为4×4、卷积核个数为12、补零参数为1×1、步长为2,第4个和第5个融合块中的第八卷积层、第十一卷积层的卷积核大小均为7×1、卷积核个数均为12、补零参数均为3×0、步长均为1,第4个和第5个融合块中的第九卷积层、第十卷积层的卷积核大小均为1×7、卷积核个数均为12、补零参数均为0×3、步长均为1,第4个和第5个融合块中的第八激活层、第九激活层、第十激活层、第十一激活层的激活方式均为“Relu”。
在此具体实施例中,步骤1_2中,输出层由依次设置的第十二卷积层、第十二批量归一化层、第十二激活层组成,第十二卷积层的输入端为输出层的输入端,第十二批量归一化层的输入端接收第十二卷积层的输出端输出的所有特征图,第十二激活层的输入端接收第十二批量归一化层的输出端输出的所有特征图,第十二激活层的输出端为输出层的输出端;其中,第十二卷积层的卷积核大小为1×1、卷积核个数为12、补零参数为0、步长为1,第十二激活层的激活方式为”Relu”。
为了进一步验证本发明方法的可行性和有效性,进行实验。
使用基于python的深度学习框架Pytorch0.4.1搭建卷积神经网络的架构。采用道路场景图像数据库CamVid测试集来分析利用本发明方法得到的道路场景图像(取233幅道路场景图像)的分割效果如何。这里,利用评估语义分割方法的3个常用客观参量作为评价指标,即类精确度(Class Acurracy)、平均像素准确率(Mean Pixel Accuracy,MPA)、分割图像与标签图像交集与并集的比值(Mean Intersection over Union,MIoU)来评价预测语义分割图像的分割性能。
利用本发明方法对道路场景图像数据库CamVid测试集中的每幅道路场景图像进行预测,得到每幅道路场景图像对应的预测语义分割图像,反映本发明方法的语义分割效果的类精确度CA、平均像素准确率MPA、分割图像与标签图像交集与并集的比值MIoU如表1所列。从表1所列的数据可知,按本发明方法得到的道路场景图像的分割结果是较好的,表明利用本发明方法来获取道路场景图像对应的预测语义分割图像是可行且有效的。
表1利用本发明方法在测试集上的预测结果
Figure BDA0002139749390000161
Figure BDA0002139749390000171
图3a给出了同一场景的第1幅原始的道路场景图像;图3b给出了利用本发明方法对图3a所示的原始的道路场景图像进行预测,得到的预测语义分割图像;图4a给出了同一场景的第2幅原始的道路场景图像;图4b给出了利用本发明方法对图4a所示的原始的道路场景图像进行预测,得到的预测语义分割图像;图5a给出了同一场景的第3幅原始的道路场景图像;图5b给出了利用本发明方法对图5a所示的原始的道路场景图像进行预测,得到的预测语义分割图像;图6a给出了同一场景的第4幅原始的道路场景图像;图6b给出了利用本发明方法对图6a所示的原始的道路场景图像进行预测,得到的预测语义分割图像;图7a给出了同一场景的第5幅原始的道路场景图像;图7b给出了利用本发明方法对图7a所示的原始的道路场景图像进行预测,得到的预测语义分割图像。对比图3a和图3b、对比图4a和图4b、对比图5a和图5b、对比图6a和图6b、对比图7a和图7b,可以看出利用本发明方法得到的预测语义分割图像的分割精度较高。

Claims (5)

1.一种有效融合神经网络特征的道路场景语义分割方法,其特征在于包括训练阶段和测试阶段两个过程;
所述的训练阶段过程的具体步骤为:
步骤1_1:选取Q幅原始的道路场景图像及每幅原始的道路场景图像对应的真实语义分割图像,并构成训练集,将训练集中的第q幅原始的道路场景图像记为{Iq(i,j)},将训练集中与{Iq(i,j)}对应的真实语义分割图像记为
Figure FDA0003491252370000011
然后采用独热编码技术将训练集中的每幅原始的道路场景图像对应的真实语义分割图像处理成12幅独热编码图像,将
Figure FDA0003491252370000012
处理成的12幅独热编码图像构成的集合记为
Figure FDA0003491252370000013
其中,道路场景图像为RGB彩色图像,Q为正整数,Q≥200,q为正整数,1≤q≤Q,1≤i≤W,1≤j≤H,W表示{Iq(i,j)}的宽度,H表示{Iq(i,j)}的高度,Iq(i,j)表示{Iq(i,j)}中坐标位置为(i,j)的像素点的像素值,
Figure FDA0003491252370000014
表示
Figure FDA0003491252370000015
中坐标位置为(i,j)的像素点的像素值;
步骤1_2:构建全卷积神经网络:全卷积神经网络包括输入层、隐藏层和输出层,隐藏层采用编码-解码架构,隐藏层包括一条空间特征提取通道、一条背景特征提取通道、一条特征融合通道,空间特征提取通道由依次设置的第1个神经网络块、第2个神经网络块、第3个神经网络块组成,背景特征提取通道由依次设置的第4个神经网络块、第5个神经网络块、第6个神经网络块、第7个神经网络块、第8个神经网络块组成,特征融合通道由依次设置的第1个融合块、第2个融合块、第3个融合块、第4个融合块、第5个融合块组成;
对于输入层,其输入端接收一幅输入图像的R通道分量、G通道分量和B通道分量,其输出端输出输入图像的R通道分量、G通道分量和B通道分量给隐藏层;其中,要求输入层的输入端接收的输入图像的宽度为W、高度为H;
对于空间特征提取通道,第1个神经网络块的输入端为空间特征提取通道的输入端,也为隐藏层的一个输入端,接收输入层的输出端输出的输入图像的R通道分量、G通道分量和B通道分量,第1个神经网络块的输出端输出64幅宽度为
Figure FDA0003491252370000021
且高度为
Figure FDA0003491252370000022
的特征图,将这64幅特征图构成的集合记为S1;第2个神经网络块的输入端接收S1中的所有特征图,第2个神经网络块的输出端输出128幅宽度为
Figure FDA0003491252370000023
且高度为
Figure FDA0003491252370000024
的特征图,将这128幅特征图构成的集合记为S2;第3个神经网络块的输入端接收S2中的所有特征图,第3个神经网络块的输出端输出256幅宽度为
Figure FDA0003491252370000025
且高度为
Figure FDA0003491252370000026
的特征图,将这256幅特征图构成的集合记为S3
对于背景特征提取通道,第4个神经网络块为背景特征提取通道的输入端,也为隐藏层的另一个输入端,接收输入层的输出端输出的输入图像的R通道分量、G通道分量和B通道分量,第4个神经网络块的输出端输出64幅宽度为
Figure FDA0003491252370000027
且高度为
Figure FDA0003491252370000028
的特征图,将这64幅特征图构成的集合记为S4;第5个神经网络块的输入端接收S4中的所有特征图,第5个神经网络块的输出端输出256幅宽度为
Figure FDA0003491252370000029
且高度为
Figure FDA00034912523700000210
的特征图,将这256幅特征图构成的集合记为S5;第6个神经网络块的输入端接收S5中的所有特征图,第6个神经网络块的输出端输出512幅宽度为
Figure FDA00034912523700000211
且高度为
Figure FDA00034912523700000212
的特征图,将这512幅特征图构成的集合记为S6;第7个神经网络块的输入端接收S6中的所有特征图,第7个神经网络块的输出端输出1024幅宽度为
Figure FDA00034912523700000213
且高度为
Figure FDA00034912523700000214
的特征图,将这1024幅特征图构成的集合记为S7;第8个神经网络块的输入端接收S7中的所有特征图,第8个神经网络块的输出端输出2048幅宽度为
Figure FDA00034912523700000215
且高度为
Figure FDA00034912523700000216
的特征图,将这2048幅特征图构成的集合记为S8
对于特征融合通道,第1个融合块的输入端接收S1中的所有特征图、S7中的所有特征图、S8中的所有特征图,第1个融合块的输出端输出64幅宽度为
Figure FDA00034912523700000217
且高度为
Figure FDA00034912523700000218
的特征图,将这64幅特征图构成的集合记为R1;第2个融合块的输入端接收S2中的所有特征图、S7中的所有特征图、S8中的所有特征图,第2个融合块的输出端输出128幅宽度为
Figure FDA0003491252370000031
且高度为
Figure FDA0003491252370000032
的特征图,将这128幅特征图构成的集合记为R2;第3个融合块的输入端接收S3中的所有特征图、S7中的所有特征图、S8中的所有特征图,第3个融合块的输出端输出256幅宽度为
Figure FDA0003491252370000033
且高度为
Figure FDA0003491252370000034
的特征图,将这256幅特征图构成的集合记为R3;第4个融合块的输入端接收R2中的所有特征图、R3中的所有特征图,第4个融合块的输出端输出12幅宽度为
Figure FDA0003491252370000035
且高度为
Figure FDA0003491252370000036
的特征图,将这12幅特征图构成的集合记为R4;第5个融合块的输入端接收R1中的所有特征图、R4中的所有特征图,第5个融合块的输出端输出12幅宽度为
Figure FDA0003491252370000037
且高度为
Figure FDA0003491252370000038
的特征图,将这12幅特征图构成的集合记为R5
对于输出层,其输入端接收R5中的所有特征图,其输出端输出12幅宽度为W且高度为H的特征图;
步骤1_3:将训练集中的每幅原始的道路场景图像作为输入图像,输入到全卷积神经网络中进行训练,得到训练集中的每幅原始的道路场景图像对应的12幅语义分割预测图,将{Iq(i,j)}对应的12幅语义分割预测图构成的集合记为
Figure FDA0003491252370000039
步骤1_4:计算训练集中的每幅原始的道路场景图像对应的12幅语义分割预测图构成的集合与对应的真实语义分割图像处理成的12幅独热编码图像构成的集合之间的损失函数值,将
Figure FDA00034912523700000310
Figure FDA00034912523700000311
之间的损失函数值记为
Figure FDA00034912523700000312
Figure FDA00034912523700000313
采用负对数似然函数获得;
步骤1_5:重复执行步骤1_3和步骤1_4共V次,得到全卷积神经网络训练模型,并共得到Q×V个损失函数值;然后从Q×V个损失函数值中找出值最小的损失函数值;接着将值最小的损失函数值对应的权值矢量和偏置项对应作为全卷积神经网络训练模型的最优权值矢量和最优偏置项,对应记为Wbest和bbest;其中,V>1;
所述的测试阶段过程的具体步骤为:
步骤2_1:令
Figure FDA00034912523700000314
表示待语义分割的道路场景图像;其中,1≤i'≤W',1≤j'≤H',W'表示
Figure FDA00034912523700000315
的宽度,H'表示
Figure FDA00034912523700000316
的高度,
Figure FDA00034912523700000317
表示
Figure FDA00034912523700000318
中坐标位置为(i',j')的像素点的像素值;
步骤2_2:将
Figure FDA0003491252370000041
的R通道分量、G通道分量和B通道分量输入到全卷积神经网络训练模型中,并利用Wbest和bbest进行预测,得到
Figure FDA0003491252370000042
对应的预测语义分割图像,记为
Figure FDA0003491252370000043
其中,
Figure FDA0003491252370000044
表示
Figure FDA0003491252370000045
中坐标位置为(i',j')的像素点的像素值。
2.根据权利要求1所述的一种有效融合神经网络特征的道路场景语义分割方法,其特征在于所述的步骤1_2中,第1个至第3个神经网络块的结构相同,其由依次设置的第一卷积层、第一批量归一化层、第一激活层、第二卷积层、第二批量归一化层、第二激活层、第三卷积层、第三批量归一化层、第三激活层组成,第一卷积层的输入端为其所在的神经网络块的输入端,第一批量归一化层的输入端接收第一卷积层的输出端输出的所有特征图,第一激活层的输入端接收第一批量归一化层的输出端输出的所有特征图,第二卷积层的输入端接收第一激活层的输出端输出的所有特征图,第二批量归一化层的输入端接收第二卷积层的输出端输出的所有特征图,第二激活层的输入端接收第二批量归一化层的输出端输出的所有特征图,第三卷积层的输入端接收第二激活层的输出端输出的所有特征图,第三批量归一化层的输入端接收第三卷积层的输出端输出的所有特征图,第三激活层的输入端接收第三批量归一化层的输出端输出的所有特征图,第三激活层的输出端为其所在的神经网络块的输出端;其中,第1个神经网络块中的第一卷积层的卷积核大小为3×3、卷积核个数为64、补零参数为1×1、步长为2,第1个神经网络块中的第二卷积层的卷积核大小为5×5、卷积核个数为64、补零参数为2×2、步长为1,第1个神经网络块中的第三卷积层的卷积核大小为7×7、卷积核个数为64、补零参数为3×3、步长为1,第2个神经网络块中的第一卷积层的卷积核大小为3×3、卷积核个数为128、补零参数为1×1、步长为2,第2个神经网络块中的第二卷积层的卷积核大小为5×5、卷积核个数为128、补零参数为2×2、步长为1,第2个神经网络块中的第三卷积层的卷积核大小为7×7、卷积核个数为128、补零参数为3×3、步长为1,第3个神经网络块中的第一卷积层的卷积核大小为3×3、卷积核个数为256、补零参数为1×1、步长为2,第3个神经网络块中的第二卷积层的卷积核大小为5×5、卷积核个数为256、补零参数为2×2、步长为1,第3个神经网络块中的第三卷积层的卷积核大小为7×7、卷积核个数为256、补零参数为3×3、步长为1,第一激活层、第二激活层、第三激活层的激活方式均为Relu。
3.根据权利要求1所述的一种有效融合神经网络特征的道路场景语义分割方法,其特征在于所述的步骤1_2中,第1个至第3个融合块的结构相同,其由第一上采样层、第二上采样层及依次设置的第四卷积层、第四批量归一化层、第四激活层、第五卷积层、第五批量归一化层、第五激活层、第六卷积层、第六批量归一化层、第六激活层、第七卷积层、第七批量归一化层、第七激活层组成,第一上采样层的输入端和第二上采样层的输入端为其所在的融合块的输入端,将第一上采样层的输出端输出的所有特征图、第二上采样层的输出端输出的所有特征图、输入到所在的融合块的所有特征图经加融合操作后得到的所有特征图构成的集合记为B1,第四卷积层的输入端接收B1中的所有特征图,第四批量归一化层的输入端接收第四卷积层的输出端输出的所有特征图,第四激活层的输入端接收第四批量归一化层的输出端输出的所有特征图,第五卷积层的输入端接收第四激活层的输出端输出的所有特征图,第五批量归一化层的输入端接收第五卷积层的输出端输出的所有特征图,第五激活层的输入端接收第五批量归一化层的输出端输出的所有特征图,将B1中的所有特征图和第五激活层的输出端输出的所有特征图进行跳跃连接后得到的所有特征图构成的集合记为B2,第六卷积层的输入端接收B2中的所有特征图,第六批量归一化层的输入端接收第六卷积层的输出端输出的所有特征图,第六激活层的输入端接收第六批量归一化层的输出端输出的所有特征图,第七卷积层的输入端接收第六激活层的输出端输出的所有特征图,第七批量归一化层的输入端接收第七卷积层的输出端输出的所有特征图,第七激活层的输入端接收第七批量归一化层的输出端输出的所有特征图,将B2中的所有特征图和第七激活层的输出端输出的所有特征图进行跳跃连接后得到的所有特征图构成的集合记为B3,B3中的所有特征图由所在的融合块的输出端输出;其中,第1个至第3个融合块中的第一上采样层采用双线性插值法扩大8倍、第二上采样层采用双线性插值法扩大16倍,第1个至第3个融合块中的第四卷积层、第五卷积层、第六卷积层的卷积核大小均为3×3、卷积核个数均为64、补零参数均为0、步长均为1,第1个融合块中的第七卷积层的卷积核大小为3×3、卷积核个数为64、补零参数为0、步长为1,第2个融合块中的第七卷积层的卷积核大小为3×3、卷积核个数为128、补零参数为0、步长为1,第3个融合块中的第七卷积层的卷积核大小为3×3、卷积核个数为256、补零参数为0、步长为1,第1个至第3个融合块中的第四激活层、第五激活层、第六激活层、第七激活层的激活方式均为Relu。
4.根据权利要求1或3所述的一种有效融合神经网络特征的道路场景语义分割方法,其特征在于所述的步骤1_2中,第4个融合块和第5个融合块的结构相同,其由第三上采样层及依次设置的第八卷积层、第八批量归一化层、第八激活层、第九卷积层、第九批量归一化层、第九激活层、第十卷积层、第十批量归一化层、第十激活层、第十一卷积层、第十一批量归一化层、第十一激活层组成,第三上采样层的输入端为其所在的融合块的输入端,将第三上采样层的输出端输出的所有特征图、输入到所在的融合块的所有特征图经加融合操作后得到的所有特征图构成的集合记为C1,第八卷积层的输入端接收C1中的所有特征图,第八批量归一化层的输入端接收第八卷积层的输出端输出的所有特征图,第八激活层的输入端接收第八批量归一化层的输出端输出的所有特征图,第九卷积层的输入端接收第八激活层的输出端输出的所有特征图,第九批量归一化层的输入端接收第九卷积层的输出端输出的所有特征图,第九激活层的输入端接收第九批量归一化层的输出端输出的所有特征图,第十卷积层的输入端接收第九激活层的输出端输出的所有特征图,第十批量归一化层的输入端接收第十卷积层的输出端输出的所有特征图,第十激活层的输入端接收第十批量归一化层的输出端输出的所有特征图,第十一卷积层的输入端接收第十激活层的输出端输出的所有特征图,第十一批量归一化层的输入端接收第十一卷积层的输出端输出的所有特征图,第十一激活层的输入端接收第十一批量归一化层的输出端输出的所有特征图,第十一激活层的输出端为其所在的融合块的输出端;其中,第4个融合块中的第三上采样层采用反卷积方式且卷积核大小为4×4、卷积核个数为128、补零参数为1×1、步长为2,第5个融合块中的第三上采样层采用反卷积方式且卷积核大小为4×4、卷积核个数为12、补零参数为1×1、步长为2,第4个和第5个融合块中的第八卷积层、第十一卷积层的卷积核大小均为7×1、卷积核个数均为12、补零参数均为3×0、步长均为1,第4个和第5个融合块中的第九卷积层、第十卷积层的卷积核大小均为1×7、卷积核个数均为12、补零参数均为0×3、步长均为1,第4个和第5个融合块中的第八激活层、第九激活层、第十激活层、第十一激活层的激活方式均为Relu。
5.根据权利要求1所述的一种有效融合神经网络特征的道路场景语义分割方法,其特征在于所述的步骤1_2中,输出层由依次设置的第十二卷积层、第十二批量归一化层、第十二激活层组成,第十二卷积层的输入端为输出层的输入端,第十二批量归一化层的输入端接收第十二卷积层的输出端输出的所有特征图,第十二激活层的输入端接收第十二批量归一化层的输出端输出的所有特征图,第十二激活层的输出端为输出层的输出端;其中,第十二卷积层的卷积核大小为1×1、卷积核个数为12、补零参数为0、步长为1,第十二激活层的激活方式为Relu。
CN201910664784.0A 2019-07-23 2019-07-23 一种有效融合神经网络特征的道路场景语义分割方法 Active CN110490082B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910664784.0A CN110490082B (zh) 2019-07-23 2019-07-23 一种有效融合神经网络特征的道路场景语义分割方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910664784.0A CN110490082B (zh) 2019-07-23 2019-07-23 一种有效融合神经网络特征的道路场景语义分割方法

Publications (2)

Publication Number Publication Date
CN110490082A CN110490082A (zh) 2019-11-22
CN110490082B true CN110490082B (zh) 2022-04-05

Family

ID=68548005

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910664784.0A Active CN110490082B (zh) 2019-07-23 2019-07-23 一种有效融合神经网络特征的道路场景语义分割方法

Country Status (1)

Country Link
CN (1) CN110490082B (zh)

Families Citing this family (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111369568B (zh) * 2020-02-20 2022-12-23 苏州浪潮智能科技有限公司 一种图像分割的方法、系统、设备及可读存储介质
CN111563507B (zh) * 2020-04-14 2024-01-12 浙江科技学院 一种基于卷积神经网络的室内场景语义分割方法
CN111612008B (zh) * 2020-05-21 2024-02-09 苏州大学 基于卷积网络的图像分割方法
CN112733934B (zh) * 2021-01-08 2024-07-05 浙江科技学院 复杂环境下的多模态特征融合道路场景语义分割方法
CN113192073A (zh) * 2021-04-06 2021-07-30 浙江科技学院 基于交叉融合网络的服装语义分割方法
CN113111886B (zh) * 2021-04-19 2023-03-24 太原科技大学 一种基于双层残差网络的交通场景图像语义分割方法
CN113205503B (zh) * 2021-05-11 2022-09-30 宁波海上鲜信息技术股份有限公司 一种卫星海岸带影像质量评价方法
CN113642581B (zh) * 2021-08-12 2023-09-22 福州大学 基于编码多路径语义交叉网络的图像语义分割方法及系统
CN113807198B (zh) * 2021-08-24 2023-08-22 深圳市魔方卫星科技有限公司 道路网变化检测方法、模型训练方法、装置、设备及介质
CN113781636B (zh) * 2021-09-14 2023-06-20 杭州柳叶刀机器人有限公司 盆骨建模方法与系统、存储介质、计算机程序产品
CN115063492B (zh) * 2022-04-28 2023-08-08 宁波大学 一种抵抗jpeg压缩的对抗样本的生成方法

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106920243A (zh) * 2017-03-09 2017-07-04 桂林电子科技大学 改进的全卷积神经网络的陶瓷材质件序列图像分割方法
CN107123123A (zh) * 2017-05-02 2017-09-01 电子科技大学 基于卷积神经网络的图像分割质量评价方法
CN107274419A (zh) * 2017-07-10 2017-10-20 北京工业大学 一种基于全局先验和局部上下文的深度学习显著性检测方法
CN108710875A (zh) * 2018-09-11 2018-10-26 湖南鲲鹏智汇无人机技术有限公司 一种基于深度学习的航拍公路车辆计数方法及装置
CN109101866A (zh) * 2018-06-05 2018-12-28 中国科学院自动化研究所 基于分割剪影的行人再识别方法及系统
US10229346B1 (en) * 2018-09-04 2019-03-12 StradVision, Inc. Learning method, learning device for detecting object using edge image and testing method, testing device using the same
CN109635642A (zh) * 2018-11-01 2019-04-16 浙江科技学院 一种基于残差网络和扩张卷积的道路场景分割方法

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106920243A (zh) * 2017-03-09 2017-07-04 桂林电子科技大学 改进的全卷积神经网络的陶瓷材质件序列图像分割方法
CN107123123A (zh) * 2017-05-02 2017-09-01 电子科技大学 基于卷积神经网络的图像分割质量评价方法
CN107274419A (zh) * 2017-07-10 2017-10-20 北京工业大学 一种基于全局先验和局部上下文的深度学习显著性检测方法
CN109101866A (zh) * 2018-06-05 2018-12-28 中国科学院自动化研究所 基于分割剪影的行人再识别方法及系统
US10229346B1 (en) * 2018-09-04 2019-03-12 StradVision, Inc. Learning method, learning device for detecting object using edge image and testing method, testing device using the same
CN108710875A (zh) * 2018-09-11 2018-10-26 湖南鲲鹏智汇无人机技术有限公司 一种基于深度学习的航拍公路车辆计数方法及装置
CN109635642A (zh) * 2018-11-01 2019-04-16 浙江科技学院 一种基于残差网络和扩张卷积的道路场景分割方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
Joint background reconstruction and foreground segmentation via a two-stage convolutional neural network;xu zhao et al.;《2017 IEEE international conference on multimedia and expo(ICME)》;20170831;第343-348页 *
基于全卷积神经网络的非对称并行语义分割模型;李宝奇等;《电子学报》;20190612;第47卷(第5期);第1058-1064页 *

Also Published As

Publication number Publication date
CN110490082A (zh) 2019-11-22

Similar Documents

Publication Publication Date Title
CN110490082B (zh) 一种有效融合神经网络特征的道路场景语义分割方法
CN110782462B (zh) 一种基于双流特征融合的语义分割方法
CN110728682B (zh) 一种基于残差金字塔池化神经网络的语义分割方法
CN111047516B (zh) 图像处理方法、装置、计算机设备和存储介质
CN111626300B (zh) 基于上下文感知的图像语义分割模型的图像分割方法及建模方法
CN111598892B (zh) 一种基于Res2-UNeXt网络结构的细胞图像分割方法
CN111369440B (zh) 模型训练、图像超分辨处理方法、装置、终端及存储介质
CN109034162B (zh) 一种图像语义分割方法
CN110136062B (zh) 一种联合语义分割的超分辨率重建方法
CN110992238B (zh) 一种基于双通道网络的数字图像篡改盲检测方法
CN110415199B (zh) 基于残差学习的多光谱遥感图像融合方法及装置
CN113888744A (zh) 一种基于Transformer视觉上采样模块的图像语义分割方法
CN112541864A (zh) 一种基于多尺度生成式对抗网络模型的图像修复方法
Cheong et al. Deep CNN-based super-resolution using external and internal examples
CN111951164B (zh) 一种图像超分辨率重建网络结构及图像重建效果分析方法
CN111476133B (zh) 面向无人驾驶的前背景编解码器网络目标提取方法
CN113192073A (zh) 基于交叉融合网络的服装语义分割方法
CN109446933B (zh) 一种基于卷积神经网络的道路场景语义分割方法
CN115564649A (zh) 一种图像超分辨率重建方法、装置及设备
CN107729885B (zh) 一种基于多重残差学习的人脸增强方法
CN116778165A (zh) 基于多尺度自适应语义分割的遥感影像灾害检测方法
CN114419406A (zh) 图像变化检测方法、训练方法、装置和计算机设备
CN109508639A (zh) 基于多尺度带孔卷积神经网络的道路场景语义分割方法
CN110211064B (zh) 一种基于边缘引导的混合退化文本图像恢复方法
CN113538402B (zh) 一种基于密度估计的人群计数方法及系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant