CN109829926B - 道路场景语义分割方法及装置 - Google Patents

道路场景语义分割方法及装置 Download PDF

Info

Publication number
CN109829926B
CN109829926B CN201910090087.9A CN201910090087A CN109829926B CN 109829926 B CN109829926 B CN 109829926B CN 201910090087 A CN201910090087 A CN 201910090087A CN 109829926 B CN109829926 B CN 109829926B
Authority
CN
China
Prior art keywords
layer
semantic segmentation
image
pooling
road scene
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910090087.9A
Other languages
English (en)
Other versions
CN109829926A (zh
Inventor
季华
顾鹏笠
徐小倩
何军强
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hangzhou Hopechart Iot Technology Co ltd
Original Assignee
Hangzhou Hopechart Iot Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hangzhou Hopechart Iot Technology Co ltd filed Critical Hangzhou Hopechart Iot Technology Co ltd
Priority to CN201910090087.9A priority Critical patent/CN109829926B/zh
Publication of CN109829926A publication Critical patent/CN109829926A/zh
Application granted granted Critical
Publication of CN109829926B publication Critical patent/CN109829926B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Compression Or Coding Systems Of Tv Signals (AREA)
  • Image Analysis (AREA)

Abstract

本发明实施例提供的道路场景语义分割方法及装置,通过获取采集到的待分割的原始道路场景图像;根据待分割的原始道路场景图像和预设的场景语义分割模型获得对应的预测语义分割图像;将所述预测语义分割图像输出显示。本发明实施例提供的道路场景语义分割方法及装置,通过获取采集到的待分割的原始道路场景图像,根据待分割的原始道路场景图像和预设的场景语义分割模型获得对应的预测语义分割图像,将所述预测语义分割图像输出显示,实现对道路场景图像有效、精确的语义分割。

Description

道路场景语义分割方法及装置
技术领域
本发明实施例涉及监控技术领域,尤其涉及一种道路场景语义分割方法及装置。
背景技术
自动驾驶在智能交通行业的重要地位,使得图像语义分割正逐渐成为计算机视觉领域的研究热点,语义分割可以对交通场景进行像素级别的标注。传统的语义分割方法主要是通过提取图片的低级特征,然后进行分割,例如FCM、分水岭、N-Cut等算法,随着计算机多GPU集成算力的提升,深度学习在分类识别方面相较于传统方法效果的明显提升,使得越来越多的卷积神经网络框架涌现出来,传统的机器学习方法需要人手工设计复杂度较高的特征,而使用深度学习来对交通场景进行语义分割则步骤简单方便,更重要的是,深度学习的应用极大地提高了图像像素级分类任务的精度。
发明内容
针对现有技术存在的问题,本发明实施例提供一种道路场景语义分割方法及装置。
本发明实施例提供一种道路场景语义分割方法,包括:
获取采集到的待分割的原始道路场景图像;
根据待分割的原始道路场景图像和预设的场景语义分割模型获得对应的预测语义分割图像;
将所述预测语义分割图像输出显示。
本发明实施例提供一种道路场景语义分割装置,包括:
获取模块,用于获取采集到的待分割的原始道路场景图像;
分割模块,用于根据待分割的原始道路场景图像和预设的场景语义分割模型获得对应的预测语义分割图像;
显示模块,用于将所述预测语义分割图像输出显示。
本发明实施例提供一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现如上述道路场景语义分割方法的步骤。
本发明实施例提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现如上述道路场景语义分割方法的步骤。
本发明实施例提供的道路场景语义分割方法及装置,通过获取采集到的待分割的原始道路场景图像,根据待分割的原始道路场景图像和预设的场景语义分割模型获得对应的预测语义分割图像,将所述预测语义分割图像输出显示,实现对道路场景图像有效、精确的语义分割。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明道路场景语义分割方法实施例流程图;
图2为本发明道理场景语义分割方法的总体框架图;
图3a为第1幅原始道路场景图像;
图3b为第1幅原始道路场景图像进行预测,得到的预测语义分割图像;
图4a为第2幅原始道路场景图像;
图4b为第2幅原始道路场景图像进行预测,得到的预测语义分割图像;
图5为本发明道路场景语义分割装置实施例流程图;
图6为本发明电子设备实施例结构示意图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
图1示出了本发明一实施例提供的一种道路场景语义分割方法,包括:
S11、获取采集到的待分割的原始道路场景图像。
S12、根据待分割的原始道路场景图像和预设的场景语义分割模型获得对应的预测语义分割图像;
S13、将所述预测语义分割图像输出显示。
针对上述步骤S11-步骤S13,需要说明的是,在本发明实施例中,可采用摄像设备对道路场景图像进行采集。由于本实施例所述方法基于池化差值卷积神经网络建立模型,通过模型对原始道路场景图像进行预测,从而得到预测语义分割图像。因此,在本实施例中,所述场景语义分割模型的获取步骤包括:
1)采集多幅原始道路场景图像,生成训练集;
2)建立池化差值卷积神经网络,将所述训练集中的所有原始道路场景图像输入到所述池化差值卷积神经网络中进行训练,获得所述场景语义分割模型。
针对上述步骤2),需要进一步解释说明:
21)采用独热编码方式将所述训练集中的每幅原始道路场景图像对应的真实语义分割图像处理成预设幅数的独热编码图像;
22)按预设训练次数将所述训练集中的每幅原始道路场景图像作为原始输入图像,输入到所述池化差值卷积神经网络中进行训练,得到训练集中的每幅原始道路场景图像对应的预设幅数的语义分割预测图;
23)获取每次训练中训练集中的每幅原始道路场景图像对应的语义分割预测图构成的集合与对应的由真实语义分割图像处理而成的独热编码图像构成的集合之间的损失函数值;
24)选取数值最小的损失函数值对应的权值矢量和偏置项作为场景语义分割模型的最优权值矢量和最优偏置项,生成所述场景语义分割模型。
针对步骤21)-步骤24),需进行具体实例说明:
步骤a:选取Q幅原始道路场景及每幅原始道路场景图像对应的真实语义分割图像并构成训练集,将训练集中的第q幅原始道路场景图像记为{Iq(i,j)},将训练集中与{Iq(i,j)}对应的真实语义分割图像记为
Figure BDA0001962997750000041
然后采用现有的独热编码技术(one-hot)将训练集中的每幅原始的道路场景图像对应的真实语义分割图像处理成N幅独热编码图像,将
Figure BDA0001962997750000042
处理成的N幅独热编码图像构成的集合记为
Figure BDA0001962997750000043
此处由于数据库分为12类,所以N取12,其中,道路场景图像为RGB彩色图像,Q为正整数,Q为正整数,Q≥200,如取Q=367,q为正整数,1≤q≤Q,1≤i≤W,1≤j≤H,W表示{Iq(i,j)}的宽度,H表示{Iq(i,j)}的高度,如取W=480、H=360,Iq(i,j)表示{Iq(i,j)}中坐标位置为(i,j)的像素点的像素值,
Figure BDA0001962997750000044
表示
Figure BDA0001962997750000045
中坐标位置为(i,j)的像素点的像素值。在此,训练的道路场景图像直接选用道路场景图像数据库CamVid训练集中的367幅图像。
步骤b:采用Keras2.1.5深度学习框架搭建池化差值卷积神经网络,后面参数均为Keras2.1.5中所使用的。如图2所示,池化差值卷积神经网络包括输入层、隐层和输出层;隐层包括依次设置的第1个神经网络块、第2个神经网络块、第3个神经网络块、第4个神经网络块、第5个神经网络块、第1个过渡用卷积层、第2个过渡用卷积层、第3个过渡用卷积层、第4个过渡用卷积层、第5个过渡用卷积层、第1个池化差值网络块、第2个池化差值网络块、第3个池化差值网络块、第4个池化差值网络块、第5个池化差值网络块、第1个反卷积层、第2个反卷积层、第3个反卷积层、第4个反卷积层、第5个反卷积层、第1级联层、第2级联层、第3级联层、第4级联层、第5级联层、第6级联层、第7级联层、第8级联层、第9级联层。
从输入层的输入端接收一幅训练集的输入图像的R通道分量、G通道分量和B通道分量,输入层的输出端输出原始输入图像的R通道分量、G通道分量和B通道分量给隐层;其中,要求输入层的输入端接收的原始输入图像的宽度为W、高度为H。
对于第1个神经网络块,其由依次设置的第一卷积层(Convolution,Conv)、第一激活层(Activation,Act)、第二卷积层、第二激活层、第一最大池化层(Maxpooling,Pool)组成;第1个神经网络块的输入端接收输入层的输出端输出的原始输入图像的R通道分量、G通道分量和B通道分量,第1个神经网络块的输出端输出64幅特征图,将64幅特征图构成的集合记为P1;其中,第一卷积层和第二卷积层的卷积核大小(kernel_size)均为3×3、卷积核个数(filters)均为64、补零(padding)参数均为“same”,第一激活层和第二激活层的激活方式均为“Relu”,第一最大池化层的池化尺寸(pool_size)为2,P1中的每幅特征图的宽度为W/2、高度为H/2。
对于第2个神经网络块,其由依次设置的第三卷积层、第三激活层、第四卷积层、第四激活层、第二最大池化层组成;第2个神经网络块的输入端接收P1中的所有特征图,第2个神经网络块的输出端输出128幅特征图,将128幅特征图构成的集合记为P2;其中,第三卷积层和第四卷积层的卷积核大小均为3×3、卷积核个数均为128、补零参数均为“same”,第三激活层和第四激活层的激活方式均为“Relu”,第二最大池化层的池化尺寸为2,P2中的每幅特征图的宽度为W/4、高度为H/4。
对于第3个神经网络块,其由依次设置的第五卷积层、第五激活层、第六卷积层、第六激活层、第七卷积层、第七激活层、第三最大池化层组成;第3个神经网络块的输入端接收P2中的所有特征图,第3个神经网络块的输出端输出256幅特征图,将256幅特征图构成的集合记为P3;其中,第五卷积层、第六卷积层和第七卷积层的卷积核大小均为3×3、卷积核个数均为256、补零参数均为“same”,第五激活层、第六激活层和第七激活层的激活方式均为“Relu”,第三最大池化层的池化尺寸为2,P3中的每幅特征图的宽度为W/8、高度为H/8。
对于第4个神经网络块,其由依次设置的第八卷积层、第八激活层、第九卷积层、第九激活层、第十卷积层、第十激活层、第四最大池化层组成;第4个神经网络块的输入端接收P3中的所有特征图,第4个神经网络块的输出端输出512幅特征图,将512幅特征图构成的集合记为P4;其中,第八卷积层、第九卷积层、第十卷积层的卷积核大小均为3×3、卷积核个数均为512、补零参数均为“same”,第八激活层、第九卷积层、第十激活层的激活方式均为“Relu”,第四最大池化层的池化尺寸为2,P4中的每幅特征图的宽度为W/16、高度为H/16。
对于第5个神经网络块,其由依次设置的第十一卷积层、第十一激活层、第十二卷积层、第十二激活层、第十三卷积层、第十三激活层、第五最大池化层组成;第5个神经网络块的输入端接收P4中的所有特征图,第5个神经网络块的输出端输出512幅特征图,将512幅特征图构成的集合记为P5;其中,第十一卷积层、第十二卷积层和第十三卷积层的卷积核大小均为3×3、卷积核个数均为512、补零参数均为“same”,第十一激活层、第十二激活层、第十三激活层的激活方式均为“Relu”,第五最大池化层的池化尺寸为2,P5中的每幅特征图的宽度为W/32、高度为H/32。
对于第1个过渡用卷积层,其由依次设置的第十四卷积层、第十四激活层组成;第1个过渡用卷积层的输入端接收P1中的所有特征图,第1个过渡用卷积层的输出端输出128幅特征图,将128幅特征图构成的集合记为Q1;其中,第十四卷积层的卷积核大小为3×3、卷积核个数为128、补零参数为“same”,第十四激活层的激活方式均为“Relu”,Q1中的每幅特征图的宽度为W/2、高度为H/2。
对于第2个过渡用卷积层,其由依次设置的第十五卷积层、第十五激活层组成;第2个过渡用卷积层的输入端接收P2中的所有特征图,第2个过渡用卷积层的输出端输出128幅特征图,将128幅特征图构成的集合记为Q2;其中,第十五卷积层的卷积核大小为3×3、卷积核个数为128、补零参数为“same”,第十五激活层的激活方式均为“Relu”,Q2中的每幅特征图的宽度为W/4、高度为H/4。
对于第3个过渡用卷积层,其由依次设置的第十六卷积层、第十六激活层组成;第3个过渡用卷积层的输入端接收P3中的所有特征图,第3个过渡用卷积层的输出端输出128幅特征图,将128幅特征图构成的集合记为Q3;其中,第十六卷积层的卷积核大小为3×3、卷积核个数为128、补零参数为“same”,第十六激活层的激活方式均为“Relu”,Q3中的每幅特征图的宽度为W/8、高度为H/8。
对于第4个过渡用卷积层,其由依次设置的第十七卷积层、第十七激活层组成;第4个过渡用卷积层的输入端接收P4中的所有特征图,第4个过渡用卷积层的输出端输出128幅特征图,将128幅特征图构成的集合记为Q4;其中,第十七卷积层的卷积核大小为3×3、卷积核个数为128、补零参数为“same”,第十七激活层的激活方式均为“Relu”,Q4中的每幅特征图的宽度为W/16、高度为H/16。
对于第5个过渡用卷积层,其由依次设置的第十八卷积层、第十八激活层组成;第5个过渡用卷积层的输入端接收P5中的所有特征图,第5个过渡用卷积层的输出端输出128幅特征图,将128幅特征图构成的集合记为Q5;其中,第十八卷积层的卷积核大小为3×3、卷积核个数为128、补零参数为“same”,第十八激活层的激活方式均为“Relu”,Q5中的每幅特征图的宽度为W/32、高度为H/32。
对于第1个池化差值网络块,其由依次设置的第六最大池化层、第一平均池化层(Averagepooling,APool)组成;第1个池化差值网络块输入端接收Q1中所有特征图,Q1中的所有特征图输入第六最大池化层,同时,Q1中的所有特征图输入第一平均池化层,第六最大池化层的输出与第一平均池化层的输出相减(Subtract)操作后的输出作为最终输出结果,第1个池化差值网络块的输出端输出128幅特征图,将128幅特征图构成的集合记为T1;其中,第六最大池化层卷积核大小为3×3、补零参数为“same”、步长(strides)为1,第一平均池化层卷积核大小为3×3、补零参数为“same”、步长为1。T1中的每幅特征图的宽度为W/2、高度为H/2。
对于第2个池化差值网络块,其由依次设置的第七最大池化层、第二平均池化层组成;第2个池化差值网络块输入端接收Q2中所有特征图,Q2中的所有特征图输入第七最大池化层,同时,Q2中的所有特征图输入第二平均池化层,第七最大池化层的输出与第二平均池化层的输出相减(Subtract)操作后的输出作为最终输出结果,第2个池化差值网络块的输出端输出128幅特征图,将128幅特征图构成的集合记为T2;其中,第七最大池化层卷积核大小为3×3、补零参数为“same”、步长为1,第二平均池化层卷积核大小为3×3、补零参数为“same”、步长为1。T2中的每幅特征图的宽度为W/4、高度为H/4。
对于第3个池化差值网络块,其由依次设置的第八最大池化层、第三平均池化层组成;第3个池化差值网络块输入端接收Q3中所有特征图,Q3中的所有特征图输入第八最大池化层,同时,Q3中的所有特征图输入第三平均池化层,第八最大池化层的输出与第三平均池化层的输出相减(Subtract)操作后的输出作为最终输出结果,第3个池化差值网络块的输出端输出128幅特征图,将128幅特征图构成的集合记为T3;其中,第八最大池化层卷积核大小为3×3、补零参数为“same”、步长为1,第三平均池化层卷积核大小为3×3、补零参数为“same”、步长为1。T3中的每幅特征图的宽度为W/8、高度为H/8。
对于第4个池化差值网络块,其由依次设置的第九最大池化层、第四平均池化层组成;第4个池化差值网络块输入端接收Q4中所有特征图,Q4中的所有特征图输入第九最大池化层,同时,Q4中的所有特征图输入第四平均池化层,第九最大池化层的输出与第四平均池化层的输出相减(Subtract)操作后的输出作为最终输出结果,第4个池化差值网络块的输出端输出128幅特征图,将128幅特征图构成的集合记为T4;其中,第九最大池化层卷积核大小为3×3、补零参数为“same”、步长为1,第四平均池化层卷积核大小为3×3、补零参数为“same”、步长为1。T4中的每幅特征图的宽度为W/16、高度为H/16。
对于第5个池化差值网络块,其由依次设置的第十最大池化层、第五平均池化层组成;第5个池化差值网络块输入端接收Q5中所有特征图,Q5中的所有特征图输入第十最大池化层,同时,Q5中的所有特征图输入第五平均池化层,第十最大池化层的输出与第五平均池化层的输出相减(Subtract)操作后的输出作为最终输出结果,第5个池化差值网络块的输出端输出128幅特征图,将128幅特征图构成的集合记为T5;其中,第十最大池化层卷积核大小为3×3、补零参数为“same”、步长为1,第四平均池化层卷积核大小为3×3、补零参数为“same”、步长为1。T5中的每幅特征图的宽度为W/32、高度为H/32。
对于第1个级联层,第1个级联层的输入端接收Q5中的所有特征图和T5中的所有特征图,第1个级联层通过现有的Concatenate方式连接Q5和T5得到集合U1,第1个级联层的输出端输出U1;其中,U1中包含的特征图的总幅数为256(128+128=256),U1中的每幅特征图的宽度为W/32、高度为H/32。
对于第5个反卷积层,第5个反卷积层的输入端接收U1中的所有特征图,第5个反卷积层输出端输出V1;其中,第5个反卷积层的卷积核大小为5×5、卷积核个数为128、补零参数为“same”、步长为2,V1中的每幅特征图的宽度为W/16、高度为H/16。
对于第2个级联层,第2个级联层的输入端接收Q4中的所有特征图和T4中的所有特征图,第2个级联层通过现有的Concatenate方式连接Q4和T4得到集合U2,第2个级联层的输出端输出U2;其中,U2中包含的特征图的总幅数为256(128+128=256),U2中的每幅特征图的宽度为W/16、高度为H/16。
对于第3个级联层,第3个级联层的输入端接收V1中的所有特征图和U2中的所有特征图,第3个级联层通过现有的Concatenate方式连接V1和U2得到集合U3,第3个级联层的输出端输出U3;其中,U3中包含的特征图的总幅数为384(128+256=384),U3中的每幅特征图的宽度为W/16、高度为H/16。
对于第4个反卷积层,第4个反卷积层的输入端接收U3中的所有特征图,第4个反卷积层输出端输出V2;其中,第4个反卷积层的卷积核大小为5×5、卷积核个数为256、补零参数为“same”、步长为2,V2中的每幅特征图的宽度为W/8、高度为H/8。
对于第4个级联层,第4个级联层的输入端接收Q3中的所有特征图和T3中的所有特征图,第4个级联层通过现有的Concatenate方式连接Q3和T3得到集合U4,第4个级联层的输出端输出U4;其中,U4中包含的特征图的总幅数为256(128+128=256),U4中的每幅特征图的宽度为W/8、高度为H/8。
对于第5个级联层,第5个级联层的输入端接收V2中的所有特征图和U4中的所有特征图,第5个级联层通过现有的Concatenate方式连接V2和U4得到集合U5,第5个级联层的输出端输出U5;其中,U5中包含的特征图的总幅数为512(256+256=512),U5中的每幅特征图的宽度为W/8、高度为H/8。
对于第3个反卷积层,第3个反卷积层的输入端接收U5中的所有特征图,第3个反卷积层输出端输出V3;其中,第4个反卷积层的卷积核大小为5×5、卷积核个数为384、补零参数为“same”、步长为2,V3中的每幅特征图的宽度为W/4、高度为H/4。
对于第6个级联层,第6个级联层的输入端接收Q2中的所有特征图和T2中的所有特征图,第6个级联层通过现有的Concatenate方式连接Q2和T2得到集合U6,第6个级联层的输出端输出U6;其中,U6中包含的特征图的总幅数为256(128+128=256),U6中的每幅特征图的宽度为W/4、高度为H/4。
对于第7个级联层,第7个级联层的输入端接收V3中的所有特征图和U6中的所有特征图,第7个级联层通过现有的Concatenate方式连接V3和U6得到集合U7,第7个级联层的输出端输出U7;其中,U7中包含的特征图的总幅数为640(384+256=640),U7中的每幅特征图的宽度为W/4、高度为H/4。
对于第2个反卷积层,第2个反卷积层的输入端接收U7中的所有特征图,第2个反卷积层输出端输出V4;其中,第2个反卷积层的卷积核大小为5×5、卷积核个数为512、补零参数为“same”、步长为2,V4中的每幅特征图的宽度为W/2、高度为H/2。
对于第8个级联层,第8个级联层的输入端接收Q1中的所有特征图和T1中的所有特征图,第8个级联层通过现有的Concatenate方式连接Q1和T1得到集合U8,第8个级联层的输出端输出U8;其中,U8中包含的特征图的总幅数为256(128+128=256),U8中的每幅特征图的宽度为W/2、高度为H/2。
对于第9个级联层,第9个级联层的输入端接收V4中的所有特征图和U8中的所有特征图,第9个级联层通过现有的Concatenate方式连接V4和U8得到集合U9,第9个级联层的输出端输出U9;其中,U9中包含的特征图的总幅数为768(512+256=768),U9中的每幅特征图的宽度为W/2、高度为H/2。
对于第1个反卷积层,第1个反卷积层的输入端接收U9中的所有特征图,第1个反卷积层输出端输出V5;其中,第1个反卷积层的卷积核大小为5×5、卷积核个数为640、补零参数为“same”、步长为2,V5中的每幅特征图的宽度为W、高度为H。
对于输出层,其由第十九个卷积层组成,其中,第十九个卷积层的卷积核大小为1×1、卷积核个数为12、补零参数为“valid”、激活方式(activation)为“softmax”;输出层的输入端接收V5中的所有特征图,输出层的输出端输出12幅与原始输入图像对应的语义分割预测图。
步骤c:将训练集中的每幅原始道路场景图像作为原始输入图像,输入到池化差值卷积神经网络中进行训练,得到训练集中的每幅原始道路场景图像对应的12幅语义分割预测图,将{Iq(i,j)}对应的12幅语义分割预测图构成的集合记为
Figure BDA0001962997750000111
步骤d:计算训练集中的每幅原始道路场景图像对应的12幅语义分割预测图构成的集合与对应的真实语义分割图像处理成的12幅独热编码图像构成的集合之间的损失函数值,将
Figure BDA0001962997750000112
Figure BDA0001962997750000113
之间的损失函数值记为
Figure BDA0001962997750000114
Figure BDA0001962997750000115
采用分类交叉熵(categorical crossentropy)获得。
步骤e:重复执行步骤c和步骤d共V次,得到模型,并共得到Q×V个损失函数值;然后从Q×V个损失函数值中找出值最小的损失函数值;接着将值最小的损失函数值对应的权值矢量和偏置项对应作为模型的最优权值矢量和最优偏置项,对应记为Wbest和bbest;其中,V>1,在本实例中取V=300.
预测时,令
Figure BDA0001962997750000116
表示待语义分割的道路场景图像;其中,1≤i'≤W',1≤j'≤H',W'表示
Figure BDA0001962997750000117
的宽度,H'表示
Figure BDA0001962997750000118
的高度,
Figure BDA0001962997750000119
表示
Figure BDA00019629977500001110
中坐标位置为(i,j)的像素点的像素值。
Figure BDA00019629977500001111
的R通道分量、G通道分量和B通道分量输入到模型中,并利用Wbest和bbest进行预测,得到
Figure BDA00019629977500001112
对应的预测语义分割图像,记为
Figure BDA00019629977500001113
其中,
Figure BDA00019629977500001114
表示
Figure BDA00019629977500001115
中坐标位置为(i',j')的像素点的像素值。由于本实施例中有12个分类,所以
Figure BDA00019629977500001116
取值范围为
Figure BDA00019629977500001117
Figure BDA00019629977500001118
取整数。为了使可视图中有较高类间对比度,方便人观察,我们对不同类别的像素点进行上色。得到最终示例图3b、图4b。
图3a给出了第1幅原始道路场景图像;图3b给出了利用本实施例所述方法对图3a所示的原始道路场景图像进行预测,得到的预测语义分割图像;图4a给出了第2幅原始道路场景图像;图4b给出了利用本实施例所述方法对图4a所示的原始道路场景图像进行预测,得到的预测语义分割图像。
本发明实施例提供的道路场景语义分割方法,通过获取采集到的待分割的原始道路场景图像,根据待分割的原始道路场景图像和预设的场景语义分割模型获得对应的预测语义分割图像,将所述预测语义分割图像输出显示,实现对道路场景图像有效、精确的语义分割。
图5示出了本发明一实施例提供的一种道路场景语义分割装置,包括获取模块21、分割模块22和显示模块23,其中:
获取模块21,用于获取采集到的待分割的原始道路场景图像;
分割模块22,用于根据待分割的原始道路场景图像和预设的场景语义分割模型获得对应的预测语义分割图像;
显示模块23,用于将所述预测语义分割图像输出显示。
还包括生成模块,用于:
采集多幅原始道路场景图像,生成训练集;
建立池化差值卷积神经网络,将所述训练集中的所有原始道路场景图像输入到所述池化差值卷积神经网络中进行训练,获得所述场景语义分割模型。
由于本发明实施例所述装置与上述实施例所述方法的原理相同,对于更加详细的解释内容在此不再赘述。
需要说明的是,本发明实施例中可以通过硬件处理器(hardware processor)来实现相关功能模块。
本发明实施例提供的道路场景语义分割装置,通过获取采集到的待分割的原始道路场景图像,根据待分割的原始道路场景图像和预设的场景语义分割模型获得对应的预测语义分割图像,将所述预测语义分割图像输出显示,实现对道路场景图像有效的语义分割。
图6示例了一种服务器的实体结构示意图,如图6所示,该服务器可以包括:处理器(processor)310、通信接口(Communications Interface)320、存储器(memory)330和通信总线340,其中,处理器310,通信接口320,存储器330通过通信总线340完成相互间的通信。处理器310可以调用存储器330中的逻辑指令,以执行如下方法:获取采集到的待分割的原始道路场景图像,根据待分割的原始道路场景图像和预设的场景语义分割模型获得对应的预测语义分割图像,将所述预测语义分割图像输出显示。
此外,上述的存储器330中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下,即可以理解并实施。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件。基于这样的理解,上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。
最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims (4)

1.一种道路场景语义分割方法,其特征在于,包括:
获取采集到的待分割的原始道路场景图像;
根据待分割的原始道路场景图像和预设的场景语义分割模型获得对应的预测语义分割图像;
将所述预测语义分割图像输出显示;
所述场景语义分割模型的获取步骤包括:
采集多幅原始道路场景图像,生成训练集;
建立池化差值卷积神经网络,将所述训练集中的所有原始道路场景图像输入到所述池化差值卷积神经网络中进行训练,获得所述场景语义分割模型;
其中,所述池化差值卷积神经网络包括输入层、隐层和输出层,所述隐层由神经网络块、过渡用卷积层、池化差值网络块、联层、反卷积层相互衔接构成,所述池化差值网络块由最大池化层与平均池化层组成,并将所述最大池化层与所述平均池化层的差值作为输出,所述池化差值网络块与所述过渡用卷积层的输出级联,并且所述过渡用卷积层通过跳层连接方式与所述联层级联;
所述将所述训练集中的所有原始道路场景图像输入到所述池化差值卷积神经网络中进行训练,获得所述场景语义分割模型,包括:
采用独热编码方式将所述训练集中的每幅原始道路场景图像对应的真实语义分割图像处理成预设幅数的独热编码图像;
按预设训练次数将所述训练集中的每幅原始道路场景图像作为原始输入图像,输入到所述池化差值卷积神经网络中进行训练,得到训练集中的每幅原始道路场景图像对应的预设幅数的语义分割预测图;
获取每次训练中训练集中的每幅原始道路场景图像对应的语义分割预测图构成的集合与对应的由真实语义分割图像处理而成的独热编码图像构成的集合之间的损失函数值;
选取数值最小的损失函数值对应的权值矢量和偏置项作为场景语义分割模型的最优权值矢量和最优偏置项,生成所述场景语义分割模型。
2.一种道路场景语义分割装置,其特征在于,包括:
获取模块,用于获取采集到的待分割的原始道路场景图像;
分割模块,用于根据待分割的原始道路场景图像和预设的场景语义分割模型获得对应的预测语义分割图像;
显示模块,用于将所述预测语义分割图像输出显示;
还包括生成模块,用于:
采集多幅原始道路场景图像,生成训练集;
建立池化差值卷积神经网络,将所述训练集中的所有原始道路场景图像输入到所述池化差值卷积神经网络中进行训练,获得所述场景语义分割模型;其中,所述池化差值卷积神经网络包括输入层、隐层和输出层,所述隐层由神经网络块、过渡用卷积层、池化差值网络块、反卷积层、联层相互衔接构成,所述池化差值网络块由最大池化层与平均池化层组成,并将所述最大池化层与所述平均池化层的差值作为输出,所述池化差值网络块与所述过渡用卷积层的输出级联,并且所述过渡用卷积层通过跳层连接方式与所述联层级联;
所述生成模块具体用于:
采用独热编码方式将所述训练集中的每幅原始道路场景图像对应的真实语义分割图像处理成预设幅数的独热编码图像;
按预设训练次数将所述训练集中的每幅原始道路场景图像作为原始输入图像,输入到所述池化差值卷积神经网络中进行训练,得到训练集中的每幅原始道路场景图像对应的预设幅数的语义分割预测图;
获取每次训练中训练集中的每幅原始道路场景图像对应的语义分割预测图构成的集合与对应的由真实语义分割图像处理而成的独热编码图像构成的集合之间的损失函数值;
选取数值最小的损失函数值对应的权值矢量和偏置项作为场景语义分割模型的最优权值矢量和最优偏置项,生成所述场景语义分割模型。
3.一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现如权利要求1所述道路场景语义分割方法的步骤。
4.一种非暂态计算机可读存储介质,其上存储有计算机程序,其特征在于,该计算机程序被处理器执行时实现如权利要求1所述道路场景语义分割方法的步骤。
CN201910090087.9A 2019-01-30 2019-01-30 道路场景语义分割方法及装置 Active CN109829926B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910090087.9A CN109829926B (zh) 2019-01-30 2019-01-30 道路场景语义分割方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910090087.9A CN109829926B (zh) 2019-01-30 2019-01-30 道路场景语义分割方法及装置

Publications (2)

Publication Number Publication Date
CN109829926A CN109829926A (zh) 2019-05-31
CN109829926B true CN109829926B (zh) 2021-10-01

Family

ID=66862998

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910090087.9A Active CN109829926B (zh) 2019-01-30 2019-01-30 道路场景语义分割方法及装置

Country Status (1)

Country Link
CN (1) CN109829926B (zh)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110728682B (zh) * 2019-09-09 2022-03-29 浙江科技学院 一种基于残差金字塔池化神经网络的语义分割方法
CN110782458B (zh) * 2019-10-23 2022-05-31 浙江科技学院 一种非对称编码网络的物体图像3d语义预测分割方法
CN111444923A (zh) * 2020-04-13 2020-07-24 中国人民解放军国防科技大学 自然场景下图像语义分割方法和装置
CN111860210A (zh) * 2020-06-29 2020-10-30 杭州鸿泉物联网技术股份有限公司 双手脱离方向盘检测方法、装置、电子设备和存储介质
CN115373407A (zh) * 2022-10-26 2022-11-22 北京云迹科技股份有限公司 机器人自动避开安全警戒线的方法及装置

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107564025A (zh) * 2017-08-09 2018-01-09 浙江大学 一种基于深度神经网络的电力设备红外图像语义分割方法
CN108664632A (zh) * 2018-05-15 2018-10-16 华南理工大学 一种基于卷积神经网络和注意力机制的文本情感分类算法

Family Cites Families (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11029949B2 (en) * 2015-10-08 2021-06-08 Shanghai Zhaoxin Semiconductor Co., Ltd. Neural network unit
US10402690B2 (en) * 2016-11-07 2019-09-03 Nec Corporation System and method for learning random-walk label propagation for weakly-supervised semantic segmentation
CN107392254A (zh) * 2017-07-28 2017-11-24 深圳市唯特视科技有限公司 一种通过联合嵌入从像素中构造图像的语义分割方法
CN108710863A (zh) * 2018-05-24 2018-10-26 东北大学 基于深度学习的无人机航拍场景语义分割方法及系统
CN108764137A (zh) * 2018-05-29 2018-11-06 福州大学 基于语义分割的车辆行驶车道定位方法
CN109117718B (zh) * 2018-07-02 2021-11-26 东南大学 一种面向道路场景的三维语义地图构建和存储方法
CN108985250A (zh) * 2018-07-27 2018-12-11 大连理工大学 一种基于多任务网络的交通场景解析方法
CN109241895B (zh) * 2018-08-28 2021-06-04 北京航空航天大学 密集人群计数方法及装置
AU2018101336A4 (en) * 2018-09-12 2018-10-11 Hu, Yuan Miss Building extraction application based on machine learning in Urban-Suburban-Integration Area
CN109255769A (zh) * 2018-10-25 2019-01-22 厦门美图之家科技有限公司 图像增强网络的训练方法和训练模型、及图像增强方法

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107564025A (zh) * 2017-08-09 2018-01-09 浙江大学 一种基于深度神经网络的电力设备红外图像语义分割方法
CN108664632A (zh) * 2018-05-15 2018-10-16 华南理工大学 一种基于卷积神经网络和注意力机制的文本情感分类算法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
Curriculum Domain Adaptation for Semantic Segmentation of Urban Scenes;Yang Zhang 等;《2017 IEEE International Conference on Computer Vision》;20171225;第2039-2049页 *

Also Published As

Publication number Publication date
CN109829926A (zh) 2019-05-31

Similar Documents

Publication Publication Date Title
CN109829926B (zh) 道路场景语义分割方法及装置
Wu et al. Edge computing driven low-light image dynamic enhancement for object detection
CN108921782B (zh) 一种图像处理方法、装置及存储介质
US20220189017A1 (en) Medical image processing method and apparatus, image processing method and apparatus, terminal and storage medium
CN112132156A (zh) 多深度特征融合的图像显著性目标检测方法及系统
CN110929569A (zh) 人脸识别方法、装置、设备及存储介质
CN109101913A (zh) 行人重识别方法和装置
CN107506792B (zh) 一种半监督的显著对象检测方法
JP2015099563A (ja) 画像処理装置、画像処理方法及びプログラム
CN113066017A (zh) 一种图像增强方法、模型训练方法及设备
CN112307853A (zh) 航拍图像的检测方法、存储介质和电子装置
CN110958469A (zh) 视频处理方法、装置、电子设备及存储介质
CN112581370A (zh) 人脸图像的超分辨率重建模型的训练及重建方法
JP2004310475A (ja) 画像処理装置、画像処理を行う携帯電話、および画像処理プログラム
CN111415304A (zh) 基于级联深度网络的水下视觉增强方法和装置
CN108647696B (zh) 图片颜值确定方法及装置、电子设备、存储介质
CN112668675B (zh) 一种图像处理方法、装置、计算机设备及存储介质
CN112561813B (zh) 人脸图像增强方法、装置、电子设备及存储介质
CN113888509A (zh) 一种图像清晰度的评价方法、装置、设备及存储介质
CN111611917A (zh) 模型训练方法、特征点检测方法、装置、设备及存储介质
CN110796716A (zh) 一种基于多重残差网络和正则化迁移学习的图像着色方法
CN113591838B (zh) 目标检测方法、装置、电子设备和存储介质
US11200708B1 (en) Real-time color vector preview generation
CN110647898B (zh) 图像处理方法、装置、电子设备及计算机存储介质
CN113902044A (zh) 一种基于轻量级yolov3的图像目标提取方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant