CN111696110A

CN111696110A - 场景分割方法及系统

Info

Publication number: CN111696110A
Application number: CN202010498973.8A
Authority: CN
Inventors: 陈振学; 陆梦旭; 吴凯; 李勇; 郭锐; 冯玉; 荣学文; 吴少雷; 赵玉良
Original assignee: Shandong University; State Grid Shandong Electric Power Co Ltd; Electric Power Research Institute of State Grid Anhui Electric Power Co Ltd
Current assignee: Shandong University; State Grid Shandong Electric Power Co Ltd; Electric Power Research Institute of State Grid Anhui Electric Power Co Ltd
Priority date: 2020-06-04
Filing date: 2020-06-04
Publication date: 2020-09-22
Anticipated expiration: 2040-06-04
Also published as: CN111696110B

Abstract

本发明属于场景分割技术领域，尤其涉及一种场景分割方法及系统。其中，场景分割方法包括利用轻量级网络对场景视频中的各帧图像进行场景分割；利用轻量级网络对场景视频中的各帧图像进行场景分割；其中，轻量级网络包含多个卷积网络且网络架构预先设定，其训练过程为：将像素点归一化的训练集中的图像输入至已知架构的轻量级网络；在编码阶段采用卷积进行特征提取，在解码阶段结合卷积和双线性插值还原输入图像的信息，得到输出具有语义信息的特征图；采用若干组卷积核学习不同类别的特征图，将不同时期的特征图融合；通过交叉熵损失函数优化轻量级网络中每个卷积网络。

Description

场景分割方法及系统

技术领域

本发明属于场景分割技术领域，尤其涉及一种场景分割方法及系统。

背景技术

本部分的陈述仅仅是提供了与本发明相关的背景技术信息，不必然构成在先技术。

场景分割又称语义分割，是对图片中的每一个类别标一种颜色，从而得到具有语义类别信息的分割图片。图片由很多像素点构成，不同的类别，像素点的RGB值不同，结合周围的像素点，我们可以判断出某一个区域属于哪一个种类，通过对每一个像素点所属的类别进行预测，计算机可以得到有语义信息的分割图片。目前，场景分割应用于遥感卫星图像的分割、农田分割、医学图像处理、服装分割、无人驾驶等。场景分割是无人驾驶中的基础任务，为后续的目标检测奠定基础。近几年，车辆增多，人们追求功能更多的车，无人驾驶成了人们研究的热点。无人驾驶是复杂的计算机任务，需要在变化的场景中进行感知、规划并执行，要求后端计算机很好地感知周围的整体环境和不同场景，而目标检测只能检测出特定的物体，场景分割将整个图片中不同的类别完全区分，所以场景分割是无人驾驶中的核心技术。车载摄像头或者激光雷达将实时的道路图片输入，经过场景分割算法，输出具有语义信息的图片，从而控制汽车的前进、避障。传统的场景分割方法，比如：阈值法，边缘检测法，区域提取法，只能模糊地分割不同类别，而无人驾驶需要超高的精度，以保证安全性。所以随着神经网络时代的到来，无人驾驶也有了一定突破，基于神经网络的场景分割能达到较高的精度。

发明人发现，目前场景分割存在物体有重叠，光线昏暗，道路场景过于复杂的问题，从而给场景分割的精度带来影响，另外场景分割的神经网络取得高精度的同时，需要很大的内存和较长的时间来训练网络。

发明内容

为了解决上述问题，本发明的第一个方面提供一种场景分割方法，其利用轻量级网络对场景视频中的各帧图像进行场景分割，在保障分割精度的同时，提高了分割处理的速度。

为了实现上述目的，本发明采用如下技术方案：

一种场景分割方法，包括：

利用轻量级网络对场景视频中的各帧图像进行场景分割；

轻量级网络包含多个卷积网络且网络架构预先设定，其训练过程为：

将像素点归一化的训练集中的图像输入至已知架构的轻量级网络；

在编码阶段采用卷积进行特征提取，在解码阶段结合卷积和双线性插值还原输入图像的信息，得到输出具有语义信息的特征图；采用若干组卷积核学习不同类别的特征图，将不同时期的特征图融合；

通过交叉熵损失函数优化轻量级网络中每个卷积网络。

为了解决上述问题，本发明的第二个方面提供一种场景分割系统，其利用轻量级网络对场景视频中的各帧图像进行场景分割，在保障分割精度的同时，提高了分割处理的速度。

为了实现上述目的，本发明采用如下技术方案：

一种场景分割系统，包括：

数据接收模块，其用于接收场景视频；

数据处理模块，其用于利用轻量级网络对场景视频中的各帧图像进行场景分割；

在所述数据处理模块中，轻量级网络包含多个卷积网络且网络架构预先设定，其训练过程为：

通过交叉熵损失函数优化轻量级网络中每个卷积网络。

本发明的第三个方面提供一种计算机可读存储介质。

一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现如上述所述的场景分割方法中的步骤。

本发明的第四个方面提供一种计算机设备。

一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现如上述所述的场景分割方法中的步骤。

与现有技术相比，本发明的有益效果是：

本发明利用轻量级网络对场景视频中的各帧图像进行场景分割，在保障分割精度的同时，提高了分割处理的速度；

本发明的轻量级网络中的编码器-解码器结构能满足分割精度问题，不同时刻的特征图融合充分利用浅层和深层信息；

本发明提出的场景分割算法能有效为场景分割，比如无人驾驶等提供帮助，同时满足准确性和实时性要求，能够克服物体有重叠，光线昏暗，场景过于复杂，计算占用内存大，训练时间长的问题。

附图说明

构成本发明的一部分的说明书附图用来提供对本发明的进一步理解，本发明的示意性实施例及其说明用于解释本发明，并不构成对本发明的不当限定。

图1是本发明实施例中场景分割方法流程图；

图2是本发明实施例中图像预处理方法示意图；

图3是本发明实施例中轻量级网络框架示意图；

图4是本发明实施例中网络重要组成部分瓶颈块的示意图。

具体实施方式

下面结合附图与实施例对本发明作进一步说明。

应该指出，以下详细说明都是例示性的，旨在对本发明提供进一步的说明。除非另有指明，本文使用的所有技术和科学术语具有与本发明所属技术领域的普通技术人员通常理解的相同含义。

需要注意的是，这里所使用的术语仅是为了描述具体实施方式，而非意图限制根据本发明的示例性实施方式。如在这里所使用的，除非上下文另外明确指出，否则单数形式也意图包括复数形式，此外，还应当理解的是，当在本说明书中使用术语“包含”和/或“包括”时，其指明存在特征、步骤、操作、器件、组件和/或它们的组合。

在本实施例中，

轻量级网络可采用SqueezeNet网络架构、MobileNet网络架构、ShuffleNet网络架构或MorphNet网络架构中的任一种。

例如：MorphNet是谷歌研究人员提出一种自动化神经网络架构的新方法，通过迭代缩放神经网络，节省资源，提升性能；MorphNet将现有神经网络作为输入，为新问题生成规模更小、速度更快、性能更好的新神经网络。目前，MorphNet的TensoreFlow实现已开源，可以利用该方法更高效地创建自己的模型。MorphNet的工作原理为：MorphNet通过收缩和扩展阶段的循环来优化神经网络。在收缩阶段，MorphNet通过稀疏性正则化项(sparsifying regularizer)识别出效率低的神经元，并将它们从网络中去除，因而该网络的总损失函数包含每一神经元的成本。但是对于所有神经元，MorphNet没有采用统一的成本度量，而是计算神经元相对于目标资源的成本。随着训练的继续进行，优化器在计算梯度时是了解资源成本信息的，从而得知哪些神经元的资源效率高，哪些神经元可以去除。

此外，SqueezeNet网络架构、MobileNet网络架构、ShuffleNet网络架构均为已知架构。

其中，场景分割应用于遥感卫星图像的分割、农田分割、医学图像处理、服装分割、无人驾驶等。

实施例一

下面结合图1和无人驾驶场景为例来详细说明：

本实施例的场景分割方法，包括：

利用轻量级网络对驾驶场景视频中的各帧图像进行场景分割。

其中，轻量级网络包含多个卷积网络且网络架构预先设定(比如：SqueezeNet网络架构、MobileNet网络架构、ShuffleNet网络架构或MorphNet网络架构中的任一种)，其训练过程为：

通过交叉熵损失函数优化轻量级网络中每个卷积网络。

具体地，S1：收集驾驶的视频，从视频中提取图像，对图像进行标注，确定标签，进而形成训练集和测试集。

步骤S1的具体过程为：

S1.1：视频由一系列图像快速变化形成，将视频每10帧进行提取，得到图像，输入到神经网络中。

S1.2：对每一个像素点进行标注，一个类别对应一个数字，得到灰度图，作为具有语义类别的输出图像的真实值。

S2：参考图2，在训练集基础上，对输入和标注图像都进行随机缩放、裁剪、填充边界、翻转，从而扩充了训练集，随着训练集的扩充，精度提升较多。

每张图像中像素点很多，每一个像素点进行标注，费时费力，而且会有遗漏或标错，但是较多的图像对于提高精度有很大的帮助，因此本发明对图像进行预处理从而用较少的图像达到较好的效果。

步骤S2的具体过程为：

S2.1：每一次训练中都对输入和标注图像进行随机缩小或放大。

S2.2：如果图像比原图大，从随机点开始裁剪，如果图像比原图小，对边界进行填充，最后随机水平或垂直翻转。

S2.3：每一次训练的图像都有差别，扩充了训练集。

S3：通过计算图像中每个像素点的均值和方差建立背景模型，将像素点归一化，进行场景特征的提取。

步骤S3的具体过程为：

S3.1：计算所有图像像素点的平均值和方差，得到背景模型。

S3.2：图像减去平均值并除以方差，得到满足正态分布的数据，移除了图像的平均亮度值，数据归一化能提高网络的计算准确性。

S4：将预处理之后的道路场景图像的训练集输入到如图3所示的轻量级卷积网络中进行训练，训练过程中用多组小卷积核学习不同类别的特征，将不同时期的特征图融合，使保持速度的同时，提高精度，具体为：

步骤S4的具体过程为：

S4.1：编码部分，通过步长为2，卷积核为3×3的卷积层将图像采样到原始图像2048×1024的1/2，从而减少计算的负担。两个步长为1，核为3×3的卷积滤波器不改变图像大小，但可以捕获浅层特征。这3个卷积操作之后得到的特征图的大小为1024×512×32像素。

S4.2：将原图缩小一半，融合到浅层特征。通过包含左支卷积层，右支最大池化层的双支下采样模块进一步下采样提取特征。该卷积层卷积核设置为3×3，步长为2，最大池化层卷积核设置为2×2,步长为2。得到的特征图的大小为512×256×64。

S4.3：参照图4，通过两个瓶颈块进一步提取特征。瓶颈块先经过一个步长为1的3×3卷积降维，再分为两支，左支为3×3卷积，右支为1×3和3×1卷积组成的不对称卷积，保持精度的同时，减少了参数，实现轻量级，最后用3×3卷积将维度还原。得到的特征大小仍为512×256×64。

S4.4：将1/4大小的原图，下采样和瓶颈块后的特征图融合，进行第二次下采样，得到的特征大小为256×128×128。融合后的输出特征向量表示如下：

Y₄＝X₁+downsample(X₂)+bottle(X₃)

其中，X₁表示1/4大小的原图；X₂代表下采样块的输入；X₃代表下采样块的输出；downsample是下采样块；bottle是瓶颈块。融合后，得到输出特征向量Y₄。

S4.5：通过5个瓶颈块，再将1/8大小的原图，第二次下采样输出，瓶颈块输出三者融合，得到编码器部分的最终特征，特征大小为256×128×259。

S4.6：解码阶段，先通过步长为1，卷积核为1×1的卷积层，使用1×1卷积来减少通道数，去除冗余信息。得到的特征大小为256×128×类别数。

S4.7：通过双线性插值的方法将图像上采样为两倍。得到的特征大小为512×256×类别数。已知(i,j),(i,j+1),(i+1,j),(i+1,j+1)四个像素点的像素，通过双线性差值法，得到(i+u,j+v)点的像素为:

f(i+u,j+v)＝(1-u)*(1-v)*f(i,j)+(1-u)*v*f(i,j+1)+u*(1-v)*f(i+1,j)+u*v*f(i+1,j+1)

S4.8：上采样后的特征图和编码器中提取的浅层特征融合，形成多尺度特征图。融合后通道数增加，所以再使用一次步长为1，卷积核为1×1的卷积，维持通道数为类别数。得到的特征大小仍为512×256×类别数。

S4.9：最后通过双线性插值将图像上采样为四倍，得到的预测输出图与原图尺寸相同。特征大小为2048×1024×类别数。

S4.10：轻量级网络中每个卷积网络通过交叉熵损失来优化网络，交叉熵函数的公式为：

loss(x,class)＝weight[class]*(-x[class]+log(∑_jexp(x[j])))

其中x代表某个像素点的预测输出，class代表这一像素点真实的语义类别，weight[class]代表对每一类进行加权的加权系数，x[class]代表真实语义标签为class这一类的像素点的预测输出，x[j]代表真实标签为j这一类的像素点的预测输出。

最后，对每个测试集进行与训练集相同但不进行随机缩放、裁剪、填充边界、翻转的处理，利用平均交并比指标计算分割精度。

本实施例利用轻量级网络解决无人驾驶中的场景分割问题。从道路视频中提取图像，对图像随机缩放、裁剪、填充边界、翻转，扩大训练集；对图像中的像素点进行归一化，使像素值处于0到1之间，消除其他变换函数对图像变换的影响；通过编码器-解码器结构，不同时刻的特征图融合，在编码阶段，用卷积进行特征提取，在解码阶段，结合卷积和双线性插值还原输入图像的信息得到输出具有语义信息的图像。编码器-解码器结构能满足分割精度问题，不同时刻的特征图融合充分利用浅层和深层信息，进一步提高准确性，而提取特征时使用的1×1,3×3小卷积核提高了网络运行速度，1×3,3×1不对称卷积代替部分3×3卷积能有效地减少网络参数，节约计算机资源，达到轻量级的要求。本实施例提出的场景分割算法能有效为无人驾驶提供帮助，同时满足准确性和实时性要求，能够克服物体有重叠，光线昏暗，道路场景过于复杂，计算占用内存大，训练时间长的问题。

实施例二

本实施例的一种场景分割系统，包括：

(1)数据接收模块，其用于接收场景视频；

(2)数据处理模块，其用于利用轻量级网络对场景视频中的各帧图像进行场景分割。

在具体实施中，在所述数据处理模块中，轻量级网络包含多个卷积网络且网络架构预先设定(比如：SqueezeNet网络架构、MobileNet网络架构、ShuffleNet网络架构或MorphNet网络架构中的任一种)，其训练过程为：

通过交叉熵损失函数优化轻量级网络中每个卷积网络。

将像素点归一化的训练集中的图像输入至已知架构的轻量级网络之前还包括：

对训练集中的图像进行随机缩放、裁剪、填充边界及翻转，扩充训练集。

下面结以无人驾驶场景为例来详细说明，轻量级网络的训练过程为：

S1：收集驾驶的视频，从视频中提取图像，对图像进行标注，确定标签，进而形成训练集和测试集。

步骤S1的具体过程为：

步骤S2的具体过程为：

S2.3：每一次训练的图像都有差别，扩充了训练集。

步骤S3的具体过程为：

S3.1：计算所有图像像素点的平均值和方差，得到背景模型。

步骤S4的具体过程为：

Y₄＝X₁+downsample(X₂)+bottle(X₃)

loss(x,class)＝weight[class]*(-x[class]+log(∑_jexp(x[j])))

其中x代表某个像素点的预测输出，class代表这一像素点真实的语义类别，weight[class]代表对每一类进行加权的加权系数，x[class]代表真实语义标签为class这一类的像素点的预测输出，x[j]代表真实标签为j这一类的像素点的预测输出。最后，对每个测试集进行与训练集相同但不进行随机缩放、裁剪、填充边界、翻转的处理，利用平均交并比指标计算分割精度。

实施例三

本实施例提供了一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现如实施例一所述的场景分割方法中的步骤。

实施例四

本实施例提供了一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现如实施例一所述的场景分割方法中的步骤。

本领域内的技术人员应明白，本发明的实施例可提供为方法、系统、或计算机程序产品。因此，本发明可采用硬件实施例、软件实施例、或结合软件和硬件方面的实施例的形式。而且，本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器和光学存储器等)上实施的计算机程序产品的形式。

本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的程序可存储于一计算机可读取存储介质中，该程序在执行时，可包括如上述各方法的实施例的流程。其中，所述的存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory，ROM)或随机存储记忆体(RandomAccessMemory，RAM)等。

以上所述仅为本发明的优选实施例而已，并不用于限制本发明，对于本领域的技术人员来说，本发明可以有各种更改和变化。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种场景分割方法，其特征在于，包括：

利用轻量级网络对场景视频中的各帧图像进行场景分割；

其中，轻量级网络包含多个卷积网络且网络架构预先设定，其训练过程为：

通过交叉熵损失函数优化轻量级网络中每个卷积网络。

2.如权利要求1所述的场景分割方法，其特征在于，将像素点归一化的训练集中的图像输入至已知架构的轻量级网络之前还包括：

3.如权利要求1所述的场景分割方法，其特征在于，将像素点归一化的过程为：

通过计算图像中每个像素点的像素均值和方差建立背景模型，将相应像素点的像素值减去平均值并除以方差，得到满足正态分布的数据，使得像素值处于0到1之间。

4.如权利要求1所述的场景分割方法，其特征在于，轻量级网络在提取特征的过程中，先经过一个步长为1的3×3卷积降维，再分为两支，左支为3×3卷积，右支为1×3和3×1卷积组成的不对称卷积，保持精度的同时减少参数，实现轻量级，最后用3×3卷积将维度还原。

5.如权利要求1所述的场景分割方法，其特征在于，解码阶段的卷积核为1×1的卷积层，使用1×1卷积来减少通道数，去除冗余信息。

6.一种场景分割系统，其特征在于，包括：

数据接收模块，其用于接收场景视频；

通过交叉熵损失函数优化轻量级网络中每个卷积网络。

7.如权利要求6所述的场景分割系统，其特征在于，在所述数据处理模块中，将像素点归一化的训练集中的图像输入至已知架构的轻量级网络之前还包括：

8.如权利要求6所述的场景分割系统，其特征在于，在所述数据处理模块中，将像素点归一化的过程为：

9.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现如权利要求1-5中任一项所述的场景分割方法中的步骤。

10.一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现如权利要求1-5中任一项所述的场景分割方法中的步骤。