CN109829926B

CN109829926B - 道路场景语义分割方法及装置

Info

Publication number: CN109829926B
Application number: CN201910090087.9A
Authority: CN
Inventors: 季华; 顾鹏笠; 徐小倩; 何军强
Original assignee: Hangzhou Hopechart Iot Technology Co ltd
Current assignee: Hangzhou Hopechart Iot Technology Co ltd
Priority date: 2019-01-30
Filing date: 2019-01-30
Publication date: 2021-10-01
Anticipated expiration: 2039-01-30
Also published as: CN109829926A

Abstract

本发明实施例提供的道路场景语义分割方法及装置，通过获取采集到的待分割的原始道路场景图像；根据待分割的原始道路场景图像和预设的场景语义分割模型获得对应的预测语义分割图像；将所述预测语义分割图像输出显示。本发明实施例提供的道路场景语义分割方法及装置，通过获取采集到的待分割的原始道路场景图像，根据待分割的原始道路场景图像和预设的场景语义分割模型获得对应的预测语义分割图像，将所述预测语义分割图像输出显示，实现对道路场景图像有效、精确的语义分割。

Description

道路场景语义分割方法及装置

技术领域

本发明实施例涉及监控技术领域，尤其涉及一种道路场景语义分割方法及装置。

背景技术

自动驾驶在智能交通行业的重要地位，使得图像语义分割正逐渐成为计算机视觉领域的研究热点，语义分割可以对交通场景进行像素级别的标注。传统的语义分割方法主要是通过提取图片的低级特征，然后进行分割，例如FCM、分水岭、N-Cut等算法，随着计算机多GPU集成算力的提升，深度学习在分类识别方面相较于传统方法效果的明显提升，使得越来越多的卷积神经网络框架涌现出来，传统的机器学习方法需要人手工设计复杂度较高的特征，而使用深度学习来对交通场景进行语义分割则步骤简单方便，更重要的是，深度学习的应用极大地提高了图像像素级分类任务的精度。

发明内容

针对现有技术存在的问题，本发明实施例提供一种道路场景语义分割方法及装置。

本发明实施例提供一种道路场景语义分割方法，包括：

获取采集到的待分割的原始道路场景图像；

根据待分割的原始道路场景图像和预设的场景语义分割模型获得对应的预测语义分割图像；

将所述预测语义分割图像输出显示。

本发明实施例提供一种道路场景语义分割装置，包括：

获取模块，用于获取采集到的待分割的原始道路场景图像；

分割模块，用于根据待分割的原始道路场景图像和预设的场景语义分割模型获得对应的预测语义分割图像；

显示模块，用于将所述预测语义分割图像输出显示。

本发明实施例提供一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现如上述道路场景语义分割方法的步骤。

本发明实施例提供一种非暂态计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现如上述道路场景语义分割方法的步骤。

本发明实施例提供的道路场景语义分割方法及装置，通过获取采集到的待分割的原始道路场景图像，根据待分割的原始道路场景图像和预设的场景语义分割模型获得对应的预测语义分割图像，将所述预测语义分割图像输出显示，实现对道路场景图像有效、精确的语义分割。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明道路场景语义分割方法实施例流程图；

图2为本发明道理场景语义分割方法的总体框架图；

图3a为第1幅原始道路场景图像；

图3b为第1幅原始道路场景图像进行预测，得到的预测语义分割图像；

图4a为第2幅原始道路场景图像；

图4b为第2幅原始道路场景图像进行预测，得到的预测语义分割图像；

图5为本发明道路场景语义分割装置实施例流程图；

图6为本发明电子设备实施例结构示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

图1示出了本发明一实施例提供的一种道路场景语义分割方法，包括：

S11、获取采集到的待分割的原始道路场景图像。

S12、根据待分割的原始道路场景图像和预设的场景语义分割模型获得对应的预测语义分割图像；

S13、将所述预测语义分割图像输出显示。

针对上述步骤S11-步骤S13，需要说明的是，在本发明实施例中，可采用摄像设备对道路场景图像进行采集。由于本实施例所述方法基于池化差值卷积神经网络建立模型，通过模型对原始道路场景图像进行预测，从而得到预测语义分割图像。因此，在本实施例中，所述场景语义分割模型的获取步骤包括：

1)采集多幅原始道路场景图像，生成训练集；

2)建立池化差值卷积神经网络，将所述训练集中的所有原始道路场景图像输入到所述池化差值卷积神经网络中进行训练，获得所述场景语义分割模型。

针对上述步骤2)，需要进一步解释说明：

21)采用独热编码方式将所述训练集中的每幅原始道路场景图像对应的真实语义分割图像处理成预设幅数的独热编码图像；

22)按预设训练次数将所述训练集中的每幅原始道路场景图像作为原始输入图像，输入到所述池化差值卷积神经网络中进行训练，得到训练集中的每幅原始道路场景图像对应的预设幅数的语义分割预测图；

23)获取每次训练中训练集中的每幅原始道路场景图像对应的语义分割预测图构成的集合与对应的由真实语义分割图像处理而成的独热编码图像构成的集合之间的损失函数值；

24)选取数值最小的损失函数值对应的权值矢量和偏置项作为场景语义分割模型的最优权值矢量和最优偏置项，生成所述场景语义分割模型。

针对步骤21)-步骤24)，需进行具体实例说明：

步骤a：选取Q幅原始道路场景及每幅原始道路场景图像对应的真实语义分割图像并构成训练集，将训练集中的第q幅原始道路场景图像记为{I^q(i,j)}，将训练集中与{I^q(i,j)}对应的真实语义分割图像记为

然后采用现有的独热编码技术(one-hot)将训练集中的每幅原始的道路场景图像对应的真实语义分割图像处理成N幅独热编码图像，将

处理成的N幅独热编码图像构成的集合记为

此处由于数据库分为12类，所以N取12，其中，道路场景图像为RGB彩色图像，Q为正整数，Q为正整数，Q≥200，如取Q＝367，q为正整数，1≤q≤Q，1≤i≤W，1≤j≤H，W表示{I^q(i,j)}的宽度，H表示{I^q(i,j)}的高度，如取W＝480、H＝360，I^q(i,j)表示{I^q(i,j)}中坐标位置为(i,j)的像素点的像素值，

表示

中坐标位置为(i,j)的像素点的像素值。在此，训练的道路场景图像直接选用道路场景图像数据库CamVid训练集中的367幅图像。

步骤b：采用Keras2.1.5深度学习框架搭建池化差值卷积神经网络，后面参数均为Keras2.1.5中所使用的。如图2所示，池化差值卷积神经网络包括输入层、隐层和输出层；隐层包括依次设置的第1个神经网络块、第2个神经网络块、第3个神经网络块、第4个神经网络块、第5个神经网络块、第1个过渡用卷积层、第2个过渡用卷积层、第3个过渡用卷积层、第4个过渡用卷积层、第5个过渡用卷积层、第1个池化差值网络块、第2个池化差值网络块、第3个池化差值网络块、第4个池化差值网络块、第5个池化差值网络块、第1个反卷积层、第2个反卷积层、第3个反卷积层、第4个反卷积层、第5个反卷积层、第1级联层、第2级联层、第3级联层、第4级联层、第5级联层、第6级联层、第7级联层、第8级联层、第9级联层。

从输入层的输入端接收一幅训练集的输入图像的R通道分量、G通道分量和B通道分量，输入层的输出端输出原始输入图像的R通道分量、G通道分量和B通道分量给隐层；其中，要求输入层的输入端接收的原始输入图像的宽度为W、高度为H。

对于第1个神经网络块，其由依次设置的第一卷积层(Convolution，Conv)、第一激活层(Activation，Act)、第二卷积层、第二激活层、第一最大池化层(Maxpooling，Pool)组成；第1个神经网络块的输入端接收输入层的输出端输出的原始输入图像的R通道分量、G通道分量和B通道分量，第1个神经网络块的输出端输出64幅特征图，将64幅特征图构成的集合记为P₁；其中，第一卷积层和第二卷积层的卷积核大小(kernel_size)均为3×3、卷积核个数(filters)均为64、补零(padding)参数均为“same”，第一激活层和第二激活层的激活方式均为“Relu”，第一最大池化层的池化尺寸(pool_size)为2，P₁中的每幅特征图的宽度为W/2、高度为H/2。

对于第2个神经网络块，其由依次设置的第三卷积层、第三激活层、第四卷积层、第四激活层、第二最大池化层组成；第2个神经网络块的输入端接收P₁中的所有特征图，第2个神经网络块的输出端输出128幅特征图，将128幅特征图构成的集合记为P₂；其中，第三卷积层和第四卷积层的卷积核大小均为3×3、卷积核个数均为128、补零参数均为“same”，第三激活层和第四激活层的激活方式均为“Relu”，第二最大池化层的池化尺寸为2，P₂中的每幅特征图的宽度为W/4、高度为H/4。

对于第3个神经网络块，其由依次设置的第五卷积层、第五激活层、第六卷积层、第六激活层、第七卷积层、第七激活层、第三最大池化层组成；第3个神经网络块的输入端接收P₂中的所有特征图，第3个神经网络块的输出端输出256幅特征图，将256幅特征图构成的集合记为P₃；其中，第五卷积层、第六卷积层和第七卷积层的卷积核大小均为3×3、卷积核个数均为256、补零参数均为“same”，第五激活层、第六激活层和第七激活层的激活方式均为“Relu”，第三最大池化层的池化尺寸为2，P₃中的每幅特征图的宽度为W/8、高度为H/8。

对于第4个神经网络块，其由依次设置的第八卷积层、第八激活层、第九卷积层、第九激活层、第十卷积层、第十激活层、第四最大池化层组成；第4个神经网络块的输入端接收P₃中的所有特征图，第4个神经网络块的输出端输出512幅特征图，将512幅特征图构成的集合记为P₄；其中，第八卷积层、第九卷积层、第十卷积层的卷积核大小均为3×3、卷积核个数均为512、补零参数均为“same”，第八激活层、第九卷积层、第十激活层的激活方式均为“Relu”，第四最大池化层的池化尺寸为2，P₄中的每幅特征图的宽度为W/16、高度为H/16。

对于第5个神经网络块，其由依次设置的第十一卷积层、第十一激活层、第十二卷积层、第十二激活层、第十三卷积层、第十三激活层、第五最大池化层组成；第5个神经网络块的输入端接收P₄中的所有特征图，第5个神经网络块的输出端输出512幅特征图，将512幅特征图构成的集合记为P₅；其中，第十一卷积层、第十二卷积层和第十三卷积层的卷积核大小均为3×3、卷积核个数均为512、补零参数均为“same”，第十一激活层、第十二激活层、第十三激活层的激活方式均为“Relu”，第五最大池化层的池化尺寸为2，P₅中的每幅特征图的宽度为W/32、高度为H/32。

对于第1个过渡用卷积层，其由依次设置的第十四卷积层、第十四激活层组成；第1个过渡用卷积层的输入端接收P₁中的所有特征图，第1个过渡用卷积层的输出端输出128幅特征图，将128幅特征图构成的集合记为Q₁；其中，第十四卷积层的卷积核大小为3×3、卷积核个数为128、补零参数为“same”，第十四激活层的激活方式均为“Relu”，Q₁中的每幅特征图的宽度为W/2、高度为H/2。

对于第2个过渡用卷积层，其由依次设置的第十五卷积层、第十五激活层组成；第2个过渡用卷积层的输入端接收P₂中的所有特征图，第2个过渡用卷积层的输出端输出128幅特征图，将128幅特征图构成的集合记为Q₂；其中，第十五卷积层的卷积核大小为3×3、卷积核个数为128、补零参数为“same”，第十五激活层的激活方式均为“Relu”，Q₂中的每幅特征图的宽度为W/4、高度为H/4。

对于第3个过渡用卷积层，其由依次设置的第十六卷积层、第十六激活层组成；第3个过渡用卷积层的输入端接收P₃中的所有特征图，第3个过渡用卷积层的输出端输出128幅特征图，将128幅特征图构成的集合记为Q₃；其中，第十六卷积层的卷积核大小为3×3、卷积核个数为128、补零参数为“same”，第十六激活层的激活方式均为“Relu”，Q₃中的每幅特征图的宽度为W/8、高度为H/8。

对于第4个过渡用卷积层，其由依次设置的第十七卷积层、第十七激活层组成；第4个过渡用卷积层的输入端接收P₄中的所有特征图，第4个过渡用卷积层的输出端输出128幅特征图，将128幅特征图构成的集合记为Q₄；其中，第十七卷积层的卷积核大小为3×3、卷积核个数为128、补零参数为“same”，第十七激活层的激活方式均为“Relu”，Q₄中的每幅特征图的宽度为W/16、高度为H/16。

对于第5个过渡用卷积层，其由依次设置的第十八卷积层、第十八激活层组成；第5个过渡用卷积层的输入端接收P₅中的所有特征图，第5个过渡用卷积层的输出端输出128幅特征图，将128幅特征图构成的集合记为Q₅；其中，第十八卷积层的卷积核大小为3×3、卷积核个数为128、补零参数为“same”，第十八激活层的激活方式均为“Relu”，Q₅中的每幅特征图的宽度为W/32、高度为H/32。

对于第1个池化差值网络块，其由依次设置的第六最大池化层、第一平均池化层(Averagepooling,APool)组成；第1个池化差值网络块输入端接收Q₁中所有特征图，Q₁中的所有特征图输入第六最大池化层，同时，Q₁中的所有特征图输入第一平均池化层，第六最大池化层的输出与第一平均池化层的输出相减(Subtract)操作后的输出作为最终输出结果，第1个池化差值网络块的输出端输出128幅特征图，将128幅特征图构成的集合记为T₁；其中，第六最大池化层卷积核大小为3×3、补零参数为“same”、步长(strides)为1，第一平均池化层卷积核大小为3×3、补零参数为“same”、步长为1。T₁中的每幅特征图的宽度为W/2、高度为H/2。

对于第2个池化差值网络块，其由依次设置的第七最大池化层、第二平均池化层组成；第2个池化差值网络块输入端接收Q₂中所有特征图，Q₂中的所有特征图输入第七最大池化层，同时，Q₂中的所有特征图输入第二平均池化层，第七最大池化层的输出与第二平均池化层的输出相减(Subtract)操作后的输出作为最终输出结果，第2个池化差值网络块的输出端输出128幅特征图，将128幅特征图构成的集合记为T₂；其中，第七最大池化层卷积核大小为3×3、补零参数为“same”、步长为1，第二平均池化层卷积核大小为3×3、补零参数为“same”、步长为1。T₂中的每幅特征图的宽度为W/4、高度为H/4。

对于第3个池化差值网络块，其由依次设置的第八最大池化层、第三平均池化层组成；第3个池化差值网络块输入端接收Q₃中所有特征图，Q₃中的所有特征图输入第八最大池化层，同时，Q₃中的所有特征图输入第三平均池化层，第八最大池化层的输出与第三平均池化层的输出相减(Subtract)操作后的输出作为最终输出结果，第3个池化差值网络块的输出端输出128幅特征图，将128幅特征图构成的集合记为T₃；其中，第八最大池化层卷积核大小为3×3、补零参数为“same”、步长为1，第三平均池化层卷积核大小为3×3、补零参数为“same”、步长为1。T₃中的每幅特征图的宽度为W/8、高度为H/8。

对于第4个池化差值网络块，其由依次设置的第九最大池化层、第四平均池化层组成；第4个池化差值网络块输入端接收Q₄中所有特征图，Q₄中的所有特征图输入第九最大池化层，同时，Q₄中的所有特征图输入第四平均池化层，第九最大池化层的输出与第四平均池化层的输出相减(Subtract)操作后的输出作为最终输出结果，第4个池化差值网络块的输出端输出128幅特征图，将128幅特征图构成的集合记为T₄；其中，第九最大池化层卷积核大小为3×3、补零参数为“same”、步长为1，第四平均池化层卷积核大小为3×3、补零参数为“same”、步长为1。T₄中的每幅特征图的宽度为W/16、高度为H/16。

对于第5个池化差值网络块，其由依次设置的第十最大池化层、第五平均池化层组成；第5个池化差值网络块输入端接收Q₅中所有特征图，Q₅中的所有特征图输入第十最大池化层，同时，Q₅中的所有特征图输入第五平均池化层，第十最大池化层的输出与第五平均池化层的输出相减(Subtract)操作后的输出作为最终输出结果，第5个池化差值网络块的输出端输出128幅特征图，将128幅特征图构成的集合记为T₅；其中，第十最大池化层卷积核大小为3×3、补零参数为“same”、步长为1，第四平均池化层卷积核大小为3×3、补零参数为“same”、步长为1。T₅中的每幅特征图的宽度为W/32、高度为H/32。

对于第1个级联层，第1个级联层的输入端接收Q₅中的所有特征图和T₅中的所有特征图，第1个级联层通过现有的Concatenate方式连接Q₅和T₅得到集合U₁，第1个级联层的输出端输出U₁；其中，U₁中包含的特征图的总幅数为256(128+128＝256)，U₁中的每幅特征图的宽度为W/32、高度为H/32。

对于第5个反卷积层，第5个反卷积层的输入端接收U₁中的所有特征图，第5个反卷积层输出端输出V₁；其中，第5个反卷积层的卷积核大小为5×5、卷积核个数为128、补零参数为“same”、步长为2，V₁中的每幅特征图的宽度为W/16、高度为H/16。

对于第2个级联层，第2个级联层的输入端接收Q₄中的所有特征图和T₄中的所有特征图，第2个级联层通过现有的Concatenate方式连接Q₄和T₄得到集合U₂，第2个级联层的输出端输出U₂；其中，U₂中包含的特征图的总幅数为256(128+128＝256)，U₂中的每幅特征图的宽度为W/16、高度为H/16。

对于第3个级联层，第3个级联层的输入端接收V₁中的所有特征图和U₂中的所有特征图，第3个级联层通过现有的Concatenate方式连接V₁和U₂得到集合U₃，第3个级联层的输出端输出U₃；其中，U₃中包含的特征图的总幅数为384(128+256＝384)，U₃中的每幅特征图的宽度为W/16、高度为H/16。

对于第4个反卷积层，第4个反卷积层的输入端接收U₃中的所有特征图，第4个反卷积层输出端输出V₂；其中，第4个反卷积层的卷积核大小为5×5、卷积核个数为256、补零参数为“same”、步长为2，V₂中的每幅特征图的宽度为W/8、高度为H/8。

对于第4个级联层，第4个级联层的输入端接收Q₃中的所有特征图和T₃中的所有特征图，第4个级联层通过现有的Concatenate方式连接Q₃和T₃得到集合U₄，第4个级联层的输出端输出U₄；其中，U₄中包含的特征图的总幅数为256(128+128＝256)，U₄中的每幅特征图的宽度为W/8、高度为H/8。

对于第5个级联层，第5个级联层的输入端接收V₂中的所有特征图和U₄中的所有特征图，第5个级联层通过现有的Concatenate方式连接V₂和U₄得到集合U₅，第5个级联层的输出端输出U₅；其中，U₅中包含的特征图的总幅数为512(256+256＝512)，U₅中的每幅特征图的宽度为W/8、高度为H/8。

对于第3个反卷积层，第3个反卷积层的输入端接收U₅中的所有特征图，第3个反卷积层输出端输出V₃；其中，第4个反卷积层的卷积核大小为5×5、卷积核个数为384、补零参数为“same”、步长为2，V₃中的每幅特征图的宽度为W/4、高度为H/4。

对于第6个级联层，第6个级联层的输入端接收Q₂中的所有特征图和T₂中的所有特征图，第6个级联层通过现有的Concatenate方式连接Q₂和T₂得到集合U₆，第6个级联层的输出端输出U₆；其中，U₆中包含的特征图的总幅数为256(128+128＝256)，U₆中的每幅特征图的宽度为W/4、高度为H/4。

对于第7个级联层，第7个级联层的输入端接收V₃中的所有特征图和U₆中的所有特征图，第7个级联层通过现有的Concatenate方式连接V₃和U₆得到集合U₇，第7个级联层的输出端输出U₇；其中，U₇中包含的特征图的总幅数为640(384+256＝640)，U₇中的每幅特征图的宽度为W/4、高度为H/4。

对于第2个反卷积层，第2个反卷积层的输入端接收U₇中的所有特征图，第2个反卷积层输出端输出V₄；其中，第2个反卷积层的卷积核大小为5×5、卷积核个数为512、补零参数为“same”、步长为2，V₄中的每幅特征图的宽度为W/2、高度为H/2。

对于第8个级联层，第8个级联层的输入端接收Q₁中的所有特征图和T₁中的所有特征图，第8个级联层通过现有的Concatenate方式连接Q₁和T₁得到集合U₈，第8个级联层的输出端输出U₈；其中，U₈中包含的特征图的总幅数为256(128+128＝256)，U₈中的每幅特征图的宽度为W/2、高度为H/2。

对于第9个级联层，第9个级联层的输入端接收V₄中的所有特征图和U₈中的所有特征图，第9个级联层通过现有的Concatenate方式连接V₄和U₈得到集合U₉，第9个级联层的输出端输出U₉；其中，U₉中包含的特征图的总幅数为768(512+256＝768)，U₉中的每幅特征图的宽度为W/2、高度为H/2。

对于第1个反卷积层，第1个反卷积层的输入端接收U₉中的所有特征图，第1个反卷积层输出端输出V₅；其中，第1个反卷积层的卷积核大小为5×5、卷积核个数为640、补零参数为“same”、步长为2，V₅中的每幅特征图的宽度为W、高度为H。

对于输出层，其由第十九个卷积层组成，其中，第十九个卷积层的卷积核大小为1×1、卷积核个数为12、补零参数为“valid”、激活方式(activation)为“softmax”；输出层的输入端接收V₅中的所有特征图，输出层的输出端输出12幅与原始输入图像对应的语义分割预测图。

步骤c：将训练集中的每幅原始道路场景图像作为原始输入图像，输入到池化差值卷积神经网络中进行训练，得到训练集中的每幅原始道路场景图像对应的12幅语义分割预测图，将{I^q(i,j)}对应的12幅语义分割预测图构成的集合记为

步骤d：计算训练集中的每幅原始道路场景图像对应的12幅语义分割预测图构成的集合与对应的真实语义分割图像处理成的12幅独热编码图像构成的集合之间的损失函数值，将

与

之间的损失函数值记为

采用分类交叉熵(categorical crossentropy)获得。

步骤e：重复执行步骤c和步骤d共V次，得到模型，并共得到Q×V个损失函数值；然后从Q×V个损失函数值中找出值最小的损失函数值；接着将值最小的损失函数值对应的权值矢量和偏置项对应作为模型的最优权值矢量和最优偏置项，对应记为W^best和b^best；其中，V＞1，在本实例中取V＝300.

预测时，令

表示待语义分割的道路场景图像；其中，1≤i'≤W'，1≤j'≤H'，W'表示

的宽度，H'表示

的高度，

表示

中坐标位置为(i,j)的像素点的像素值。

将

的R通道分量、G通道分量和B通道分量输入到模型中，并利用W^best和b^best进行预测，得到

对应的预测语义分割图像，记为

其中，

表示

中坐标位置为(i',j')的像素点的像素值。由于本实施例中有12个分类，所以

取值范围为

取整数。为了使可视图中有较高类间对比度，方便人观察，我们对不同类别的像素点进行上色。得到最终示例图3b、图4b。

图3a给出了第1幅原始道路场景图像；图3b给出了利用本实施例所述方法对图3a所示的原始道路场景图像进行预测，得到的预测语义分割图像；图4a给出了第2幅原始道路场景图像；图4b给出了利用本实施例所述方法对图4a所示的原始道路场景图像进行预测，得到的预测语义分割图像。

本发明实施例提供的道路场景语义分割方法，通过获取采集到的待分割的原始道路场景图像，根据待分割的原始道路场景图像和预设的场景语义分割模型获得对应的预测语义分割图像，将所述预测语义分割图像输出显示，实现对道路场景图像有效、精确的语义分割。

图5示出了本发明一实施例提供的一种道路场景语义分割装置，包括获取模块21、分割模块22和显示模块23，其中：

获取模块21，用于获取采集到的待分割的原始道路场景图像；

分割模块22，用于根据待分割的原始道路场景图像和预设的场景语义分割模型获得对应的预测语义分割图像；

显示模块23，用于将所述预测语义分割图像输出显示。

还包括生成模块，用于：

采集多幅原始道路场景图像，生成训练集；

建立池化差值卷积神经网络，将所述训练集中的所有原始道路场景图像输入到所述池化差值卷积神经网络中进行训练，获得所述场景语义分割模型。

由于本发明实施例所述装置与上述实施例所述方法的原理相同，对于更加详细的解释内容在此不再赘述。

需要说明的是，本发明实施例中可以通过硬件处理器(hardware processor)来实现相关功能模块。

本发明实施例提供的道路场景语义分割装置，通过获取采集到的待分割的原始道路场景图像，根据待分割的原始道路场景图像和预设的场景语义分割模型获得对应的预测语义分割图像，将所述预测语义分割图像输出显示，实现对道路场景图像有效的语义分割。

图6示例了一种服务器的实体结构示意图，如图6所示，该服务器可以包括：处理器(processor)310、通信接口(Communications Interface)320、存储器(memory)330和通信总线340，其中，处理器310，通信接口320，存储器330通过通信总线340完成相互间的通信。处理器310可以调用存储器330中的逻辑指令，以执行如下方法：获取采集到的待分割的原始道路场景图像，根据待分割的原始道路场景图像和预设的场景语义分割模型获得对应的预测语义分割图像，将所述预测语义分割图像输出显示。

此外，上述的存储器330中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

以上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下，即可以理解并实施。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件。基于这样的理解，上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在计算机可读存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。

最后应说明的是：以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种道路场景语义分割方法，其特征在于，包括：

获取采集到的待分割的原始道路场景图像；

将所述预测语义分割图像输出显示；

所述场景语义分割模型的获取步骤包括：

采集多幅原始道路场景图像，生成训练集；

建立池化差值卷积神经网络，将所述训练集中的所有原始道路场景图像输入到所述池化差值卷积神经网络中进行训练，获得所述场景语义分割模型；

其中，所述池化差值卷积神经网络包括输入层、隐层和输出层，所述隐层由神经网络块、过渡用卷积层、池化差值网络块、联层、反卷积层相互衔接构成，所述池化差值网络块由最大池化层与平均池化层组成，并将所述最大池化层与所述平均池化层的差值作为输出，所述池化差值网络块与所述过渡用卷积层的输出级联，并且所述过渡用卷积层通过跳层连接方式与所述联层级联；

所述将所述训练集中的所有原始道路场景图像输入到所述池化差值卷积神经网络中进行训练，获得所述场景语义分割模型，包括：

采用独热编码方式将所述训练集中的每幅原始道路场景图像对应的真实语义分割图像处理成预设幅数的独热编码图像；

按预设训练次数将所述训练集中的每幅原始道路场景图像作为原始输入图像，输入到所述池化差值卷积神经网络中进行训练，得到训练集中的每幅原始道路场景图像对应的预设幅数的语义分割预测图；

获取每次训练中训练集中的每幅原始道路场景图像对应的语义分割预测图构成的集合与对应的由真实语义分割图像处理而成的独热编码图像构成的集合之间的损失函数值；

选取数值最小的损失函数值对应的权值矢量和偏置项作为场景语义分割模型的最优权值矢量和最优偏置项，生成所述场景语义分割模型。

2.一种道路场景语义分割装置，其特征在于，包括：

获取模块，用于获取采集到的待分割的原始道路场景图像；

显示模块，用于将所述预测语义分割图像输出显示；

还包括生成模块，用于：

采集多幅原始道路场景图像，生成训练集；

建立池化差值卷积神经网络，将所述训练集中的所有原始道路场景图像输入到所述池化差值卷积神经网络中进行训练，获得所述场景语义分割模型；其中，所述池化差值卷积神经网络包括输入层、隐层和输出层，所述隐层由神经网络块、过渡用卷积层、池化差值网络块、反卷积层、联层相互衔接构成，所述池化差值网络块由最大池化层与平均池化层组成，并将所述最大池化层与所述平均池化层的差值作为输出，所述池化差值网络块与所述过渡用卷积层的输出级联，并且所述过渡用卷积层通过跳层连接方式与所述联层级联；

所述生成模块具体用于：

3.一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现如权利要求1所述道路场景语义分割方法的步骤。

4.一种非暂态计算机可读存储介质，其上存储有计算机程序，其特征在于，该计算机程序被处理器执行时实现如权利要求1所述道路场景语义分割方法的步骤。