CN110276354B

CN110276354B - 一种高分辨率街景图片语义分割训练与实时分割方法

Info

Publication number: CN110276354B
Application number: CN201910445881.0A
Authority: CN
Inventors: 黄永明; 施昊擎
Original assignee: Southeast University
Current assignee: Southeast University
Priority date: 2019-05-27
Filing date: 2019-05-27
Publication date: 2023-04-07
Anticipated expiration: 2039-05-27
Also published as: CN110276354A

Abstract

本发明公开了一种图像语义分割模型的训练方法及使用方法，本方法包括训练方法：将预先标注好语义分割信息的训练图像分别输入到网络的特征提取模块，该模块将低分辨率图片的高处理速度和高分辨率图片的高推断质量两种优点相结合，输出计算得到的特征图。随后将特征图送入分割模块进行反卷积，恢复成原图1/4大小。并标注每个像素的类型权重，得到预测的结果。最后依据所训练的图像的预测信息和事先标注好的信息，对网络的参数进行修正。使用方法与训练方法类似，对最后的1/4大小的图进行上采样，恢复到原图大小。该分割方法大大降低了计算量和所耗时间，并能以30帧的速度在1024×2048的高分辨率下运行，同时实现高质量的推断效果。

Description

一种高分辨率街景图片语义分割训练与实时分割方法

技术领域

本发明属于计算机视觉领域，尤其涉及一种高分辨率街景图片语义分割训练与实时分割方法。

背景技术

图像的语义分割是计算机视觉中十分重要的领域，它是指像素级地识别图像，即标注出图像中每个像素所属的对象类别，这可以加深机器对于图片中场景，对象，和人物的深层理解。该技术在自动驾驶领域，医疗领域有着广泛的应用前景。

随着近年来卷积神经网络的应用，语义分割领域已经取得了巨大进步。用于图像语义分割的最主流的解决方案主要基于卷积神经网络(CNN)，该网络学习图像的所包含的多种语义特征表。例如全卷积网络(FCN)通过构建包含卷积层、池化层和反卷积层的卷积神经网络，以端到端的方式将任意大小的输入图像转换为像素级的分类结果，为研究人员和工程师提供了一种简单而有效的方法来解决图像语义分割问题。DeepLab系列和DilatedNet把全卷积网络中普通卷积替换为空洞卷积使得在不增加计算量的情况下扩大卷积层的感受野。

这些网络结构的作用很大程度取决于网络的深度和宽度，越复杂的网络似乎识别的更精准。近些年来研究人员的主要研究方向似乎也聚焦提高精度，在语义分割领域，不断地有提高质量的语义分割方法提出，但是另一个方面，对于语义分割的实时性的工作却停滞不前。

语义分割的实时性是非常重要的，它决定了在许多实际的场景中，能否使用语义分割为我们解决问题，例如自动驾驶，机器人交互，在线视频处理，甚至移动计算，在这些应用领域，运行时间也成为评估系统性能的重要标准。所以我们需要一种保证质量的前提下，快速的语义分割方法。

发明内容

发明目的：针对语义分割实时性能提升不明显的问题，提出了一种具有较高精确度的快速语义分割网络，用以提升图像语义分割的实时性。它有效地利用了低分辨率图片的高处理速度和高分辨率图片的高推断质量两种优点。大大降低了计算量和所耗时间。该网络可以以30帧的速度在1024×2048的高分辨率下运行，同时实现高质量的推断效果。

技术方案：为实现本发明的目的，本发明所采用的技术方案是：本发明为达上述目的所提出的其中一种技术方案如下：

训练方法：

训练方法包括：将数据集中预先标注好语义信息的原始图像输入到网络的特征提取模块，然后将图片进行降采样，得到三种不同分辨率的图片，分别输入网络。该模块将低分辨率图片的高处理速度和高分辨率图片的高推断质量两种优点相结合，输出计算得到的特征图。随后将特征图送入上采样模块进行反卷积，恢复成原图1/4大小。并标注每个像素的语义信息，得到预测的结果。最后将所得训练结果和事先标注好语义信息的原始图像进行比较，对网络的参数进行修正。迭代直到结果符合要求，停止训练，生成模型。

步骤S1，获取待训练图像与图像标签：

在本发明实施例中，待训练图像可以是用户通过网络下载的图片、或者是利用相机等拍摄装置拍摄的图片。待训练图像中包括多个不同大小的物体，例如，人、天空、车辆、动物、树木等等。但是主要应用背景是车前摄像头拍摄的街道景观。

在本发明实施例中，获取到待训练图像的同时，还需要获取待训练图像的原始语义标签图，原始语义标签图将待训练图像中每个像素点所属的物体类别，用不同数字表示。例如，假如待训练图像中包含人和汽车，传统的像素标注信息需要标注出该训练图像中的每个像素点是否属于人或汽车。

步骤S21图片下采样：

获取数据集中预先标注语义信息的分辨率为1024×2048训练图像；如图所示，需先将原始图像分别以原来分辨率的1，1/2，1/4进行下采样，得到了高中低分辨率的三幅图。

步骤S22提取高中低分辨率图像特征的：

对三种分辨率的图像分别进行处理：

S221低分辨率图像：首先通过一个基于FCN的PSPNet卷积网络，得到原图1/32大小的特征图，然后使用空洞卷积来扩大特征图的个数但不减小特征图的大小。最后输出原图1/32大小的特征图。

S222中分辨率图像：中分辨率图像只需要通过3层轻量化的卷积层，通过后得到原图1/16大小的类别特征图。

S223高分辨率图像：同样通过3层卷积层，最后得到原图1/8大小的特征图。

步骤S3特征融合与比较：

S31将1/16大小的中分辨率特征图和前面低分辨率的1/32大小的特征图进行融合。利用中分辨特征图的所包含的一些细节特征来补充低分辨率特征图的特征。并将低分辨率特征图与数据集中原图的标签进行比较：

将低分辨率得到的特征图作为F1，中分辨率得到的特征图作为F2，先对F1进行上采样到F2同等大小。然后将F1通过核大小为3×3空洞卷积层，为使通过卷积后的F1的大小与F2保持相同，将F2通过核大小为1×1的卷积层。随后，将F2与F1相加，得到融合了中、低分辨率特征图的图片F2'。

进行融合的同时，将作为输入F1的低分辨率特征图上的每个像素点与1/16大小的原图标签上的每个像素点做异或并对异或结果统计求和，得到损失函数LOSS1。

S32将中低分辨率融合后的特征图与高分辨率特征图融合，并与1/8大小的原图进行标比较：

将中低分辨率融合后的特征图通过3卷积层，作为F3，同时，将高分辨率得到的特征图的作为F4，先对F3进行上采样到F4同等大小。然后将F3通过核大小为3×3空洞卷积层。为使通过卷积后的F3的大小与F4保持相同，将F4通过核大小为1×1的卷积层。随后，将F4与F3相加，得到融合了中、低分辨率特征图的图片F4'，得到了最终融合了三种不同分辨率特征图的总体特征图。

进行融合的同时，将F3的中低分辨率融合后的特征图上的每个像素点与1/8大小的原图标签上的每个像素点做异或并对异或结果统计求和，得到损失函数LOSS2。

步骤S4上采样：

S41得到融合了三种不同分辨率的特征图F4’后，首先将特征图进行上采样，经过两次上采样，恢复到原图的1/4大小。再将其进行两次不改变大小的转置卷积操作，得到原图1/4大小的语义信息图片。

S42此时网络输出了原图1/4大小的语义信息图片，得到语义图之后，将语义图上的每个像素点与1/4大小的原图标签上的每个像素点做异或并对异或结果统计求和，得到损失函数LOSS3。

依据损失函数，对语义网络进行参数更新。损失函数为LOSS1、LOSS2、LOSS3的和。此处的参数修正的方法，例如可以是采用交叉熵损失函数计算所述预测语义结果与所述预先标注的语义信息之间的误差，并利用反向传播算法，依据所述误差进行更新。

步骤S1～步骤S42为语义分割网络的训练步骤，迭代执行步骤S1～步骤S42直至语义分割网络的训练结果满足预设迭代条件，预设迭代条件可以是迭代次数达到预定迭代次数，例如，60000次、以及损失函数低于预定值，例如，0.1，当满足该预设迭代条件时，迭代过程结束，保存各个模块的权重，得到训练好的语义分割网络。

模型使用方法：

使用训练好的模型，可以进行对1024×2048高分辨率街景图的实时语义分割：包括以下步骤P1，P2，P3。

P1：提供一经过前述训练方法训练得到的图像语义分割模型。

P2：将待分割的1024×2048高分辨率图像输入到步骤P1提供的所述图像语义分割模型中，以执行步骤S21至S42，得到原图1/4大小的语义信息图片，将得到1/4大小的语义分割像素图进行2次上采样恢复到原图大小。最后得到待分割图像的语义分割预测结果。

有益效果：与现有技术相比，本发明的技术方案具有以下有益技术效果：

1、本发明实例提供的一种实时的快速语义分割方法，提供一种具有较高精确度的快速语义分割网络，用以提升图像语义分割的实时性。该网络可以以30帧的速度在1024×2048的高分辨率下运行，同时达到了mIOU60-70的推断效果。

2、相比较于现今主流的网络，例如deeplabV2，该网络在不降低质量的情况下，快了将近100倍。同时相较于快速语义分割网络ENet，速度差距不大的情况下，该网络的预测质量高了大约10mIOU。该网络达成了性能和速度的完美平衡，应用前景非常广泛，有利于语义分割技术真正迈向实用化。

3、本发明提出的多种分辨率相融合的网络，有效地利用了低分辨率图片的高处理速度和高分辨率图片的高推断质量两种优点。利用高分辨率图像去细化低分辨率图像的分割边缘和细节，大大降低了计算量和所耗时间，应用前景十分广泛。在cityscape数据集上，该网络实现了27fps的平均速度和70mIOU的效果，胜任高分辨率的街景图片的分割工作。在自动驾驶中加入车载摄像头可以构造成一个简单的驾驶辅助系统，具有良好的应用前景。

附图说明

图1为训练算法流程图；

图2为特征提取模块网络图；

图3为CFF单元构成示意图；

图4为特征融合模块网络图；

图5为分割模块网络图。

具体实施方式

下面结合附图和具体的实施方式对本发明作进一步说明。

本发明为达上述目的所提出的其中一种技术方案如下：

训练方法：

步骤S1，获取待训练图像与图像标签：

步骤S21图片下采样：

获取数据集中预先标注语义信息的训练图像，该图像为1024×2048的原始图像；如图所示，需先将图像分别以原来分辨率的1，1/2，1/4进行下采样，得到了高中低分辨率的三幅图。

步骤S22提取高中低分辨率图像特征的：

对三种分辨率的图像分别进行处理：

步骤S3特征融合与比较：

步骤S4上采样：

依据损失函数，对语义网络进行参数更新，损失函数为LOSS1、LOSS2、LOSS3的和。此处的参数修正的方法，例如可以是采用交叉熵损失函数计算所述预测语义结果与所述预先标注的语义信息之间的误差，并利用反向传播算法，依据所述误差进行更新。

模型使用方法：

在优选的实施例中，输入的待分割图像还可预先进行一些图像预处理，比如:缩放、旋转、平移、减均值等，但不限于此。另外，还可对预测语义分割结果P进行一些譬如修正等后处理操作，例如进行包括但不限于DenseCRF的修正处理。

以上内容是结合具体的优选实施方式对本发明所作的进一步详细说明，不能认定本发明的具体实施只局限于这些说明。对于本发明所属技术领域的技术人员来说，在不脱离本发明构思的前提下，还可以做出若干等同替代或明显变型，而且性能或用途相同，都应当视为属于本发明的保护范围。

Claims

1.一种高分辨率街景图片语义分割训练与实时分割方法，其特征在于，该方法包括如下步骤：

步骤S1，获取待训练的街景图像与图像标签；

步骤S2，对原始街景图像进行下采样，获取不同分辨率的图像；

步骤S3，将步骤S2中获得的不同分辨率图像输入到不同的神经网络中提取高中低分辨率图像特征；

步骤S4，将高中低分辨率图像特征进行融合，构建不同神经网络的损失函数；

步骤S5，将上述神经网络的损失函数相加作为总网络损失函数，训练得到符合要求的神经网络模型；

步骤S6，将待分割高分辨率图像输入训练好的训练模型中，得到原图1/4大小的语义信息图片，将得到1/4大小的语义分割图进行2次上采样恢复到原图大小，得到待分割图像的语义分割预测结果；

步骤S2的具体方法如下：先将原始街景图像分别以原来分辨率的1，1/2，1/4进行下采样，得到了高中低分辨率的三幅图像；

步骤S3中提取图像特征的方法如下：

低分辨率图像：通过一个基于FCN的PSPNet卷积网络，得到原图1/32大小的特征图，然后使用空洞卷积来扩大特征图的个数但不减小特征图的大小，最后输出原图1/32大小的特征图；

中分辨率图像：通过3层轻量化的卷积层得到原图1/16大小的类别特征图；

高分辨率图像：通过3层卷积层得到原图1/8大小的特征图；

步骤S4中，构建损失函数的方法如下：

(4.1)将低分辨率得到的特征图作为F1，中分辨率得到的特征图作为F2，先对F1进行上采样到F2同等大小，然后将F1通过核大小为3×3空洞卷积层，为使通过卷积后的F1的大小与F2保持相同，将F2通过核大小为1×1的卷积层，随后，将F2与F1相加，得到融合了中、低分辨率特征图的图片F2'；

(4.2)将作为输入F1的低分辨率特征图上的每个像素点与1/16大小的原图标签上的每个像素点做异或，并对异或结果统计求和得到损失函数LOSS1；

(4.3)将中低分辨率融合后的特征图通过3个卷积层作为F3，同时，将高分辨率得到的特征图的作为F4，先对F3进行上采样到F4同等大小，然后将F3通过核大小为3×3空洞卷积层，为使通过卷积后的F3的大小与F4保持相同，将F4通过核大小为1×1的卷积层，随后，将F4与F3相加，得到融合分辨率特征图的图片F4'，作为融合了三种不同分辨率特征图的总体特征图；

(4.4)将F3的中低分辨率融合后的特征图上的每个像素点与1/8大小的原图标签上的每个像素点做异或，并对异或结果统计求和得到损失函数LOSS2；

(4.5)得到融合了三种不同分辨率的特征图F4’后，首先将特征图进行上采样，经过两次上采样，恢复到原图的1/4大小，再将其进行两次不改变大小的转置卷积操作，得到原图1/4大小的语义信息图片；

(4.6)得到语义图之后，将语义图上的每个像素点与1/4大小的原图标签上的每个像素点做异或，并对异或结果统计求和得到损失函数LOSS3。

2.根据权利要求1所述的一种高分辨率街景图片语义分割训练与实时分割方法，其特征在于，步骤S1的具体方法如下：获取到待训练图像的同时，还需要获取待训练图像的原始语义标签图，原始语义标签图将待训练图像中每个像素点所属的物体类别，用不同数字表示。

3.根据权利要求1所述的一种高分辨率街景图片语义分割训练与实时分割方法，其特征在于，步骤S5中，训练得到符合要求的神经网络模型方法如下：

(5.1)将所述LOSS1，LOSS2，LOSS3加起来作为神经网络模型的总损失函数；

(5.2)输入不同的待训练图像到神经网络中，计算步骤(5.1)中的损失函数，依据损失函数，对网络进行参数更新，如果损失函数低于预定值，则停止训练得到训练好的神经网络模型。