CN109145747B

CN109145747B - 一种水面全景图像语义分割方法

Info

Publication number: CN109145747B
Application number: CN201810810455.8A
Authority: CN
Inventors: 曹治国; 李德辉; 肖阳; 朱昂帆; 赵晨; 杨健; 宫凯程
Original assignee: Huazhong University of Science and Technology
Current assignee: Huazhong University of Science and Technology
Priority date: 2018-07-20
Filing date: 2018-07-20
Publication date: 2021-10-08
Anticipated expiration: 2038-07-20
Also published as: CN109145747A

Abstract

本发明公开了一种水面全景图像语义分割方法，包括：设计卷积神经网络，对训练集中的水面全景图像中各目标类别进行像素级标记得到真实标记图像，利用训练集训练卷积神经网络，将卷积神经网络的输出结果与真实标记图像进行对比，得到训练误差，将训练误差在卷积神经网络进行反向传播，更新卷积神经网络的参数，经过多次迭代训练后得到训练好的卷积神经网络。将待测水面全景图像输入卷积神经网络进行实时语义分割，得到水面全景图像的分割结果。本发明分割速度快、对小区域目标分割效果好。为无人艇等水面智能设备提供全面、快速、准确的环境感知信息。

Description

一种水面全景图像语义分割方法

技术领域

本发明属于计算机视觉识别技术领域，更具体地，涉及一种水面全景图像语义分割方法。

背景技术

随着海洋强国战略的提出，我国已经开始大力发展海洋设备。无人艇作为一种无人水面移动平台，不仅能够进入一些恶劣环境中完成任务，同时也能够提高需要长时间作业的任务的完成效率，在许多实际应用中都发挥着十分重要的作用，例如海关巡逻、浅海扫雷和水质监测等等。对于无人艇而言，环境感知技术是其完成自主航行和自主避障不可缺少的一环。特别地，在实际作业的过程当中，仅能够检测前进方向的目标或障碍物是远远不够的，危险可能出现在无人艇周围任何的方位。因此，装备全景相机来采集无人艇周围360°范围内的环境信息，并实时检测其中的目标及障碍物，是提高无人艇自主航行安全性的有效手段。传统的环境感知绝大部分都是基于目标检测实现的。目标检测只对图像中的目标画出检测框(bounding boxes)并判断框内物体类别，这样的方法不仅存在目标位置不够准确的问题，而且缺少全图的语义信息，不利于无人艇的环境感知和航迹规划。而使用语义分割的方法，对图像实现像素级的分类，则可以提供目标确切的位置信息和丰富的环境信息，使无人艇自主安全地航行成为可能。

在现有的技术中，尚没有将水面全景图像用于实时语义分割。有人曾提出一种用水面全景图像实现目标检测的方法，但是这种方法不能为无人艇的环境感知提供足够且准确的信息。目前常用的语义分割算法如下：

2014年，伯克利大学的Jonathan Long等人提出全卷积神经网络(FCN)，首次将CNN用于图像的语义分割任务。FCN去掉了传统卷积网络末端的全连接层，并对下采样的卷积特征图进行反卷积，得到与原始图片一致的输出特征图，并在输出特征图上对每个像素点进行分类。随后的语义分割模型基本上都采用了这种结构。FCN在Cityscapes数据集上的平均IOU为65.3％，速度为2fps。2015年，Vijay Badrinarayanan等人提出SegNet将池化层结果应用到译码过程，可以快速得到反卷积结果，实现了比FCN更高效的语义分割。SegNet在Cityscapes数据集上的平均IOU为57％，速度为16.7fps。2016年，Adam Paszke等人提出ENet，该网络使用bottleneck模块先对特征图降维再卷积，然后再升到所需模块，大幅减少了计算量，是第一个实现实时语义分割的网络。2017年，Hengshuang Zhao等人提出PSPNet，用特征金字塔获取多尺度信息，获取了多尺度信息，极大地提高了语义分割的准确度，PSPNet在Cityscapes数据集上的平均IOU为78.4％。

上述方法对当前公共数据库中的图像都有很好的效果，但是速度和准确度没有一个很好的平衡，即要么分割准确率较低，要么分割速度较慢。再者，上述方法用于水面全景图像的语义分割时有以下缺陷：①速度较慢。全景图像比一般数据集的图片要大很多，对应的计算量也大幅增加，使算法的运行速度变慢，不能满足无人艇实时处理图像的要求；②对小区域目标分割效果不好。这些算法对小区域目标的分割准确率较低，而水面场景往往存在一些区域较小但是很重要的目标，例如远处的船只等，对这些区域分割不准不利于无人艇做出决策，执行各项任务。

发明内容

针对现有技术的以上缺陷或改进需求，本发明提供了一种水面全景图像语义分割方法，由此解决现有技术存在的速度较慢、对小区域目标分割效果不好的技术问题。

为实现上述目的，本发明提供了一种水面全景图像语义分割方法，包括：

将待测水面全景图像输入卷积神经网络进行实时语义分割，得到水面全景图像的分割结果；

所述卷积神经网络利用N*1和1*N两个卷积核代替传统一个N*N卷积核，N≥3，所述卷积神经网络在不同卷积层之间设置跳级连接，所述卷积神经网络使用扩张卷积，所述卷积神经网络的损失函数中加入各目标类别的权重；

所述卷积神经网络的训练包括：

对训练集中的水面全景图像中各目标类别进行像素级标记得到真实标记图像，利用训练集训练卷积神经网络，将卷积神经网络的输出结果与真实标记图像进行对比，得到训练误差，将训练误差在卷积神经网络进行反向传播，更新卷积神经网络的参数，经过多次迭代训练后得到训练好的卷积神经网络。

进一步地，损失函数为：

其中，N_cls为目标类别cls在训练集中的像素点总数，j为目标类别cls的像素点序号，p_j为目标类别cls中第j像素点的预测类别，

为目标类别cls中第j像素点的真实类别。

进一步地，卷积神经网络中将编码网络的输出特征图与浅层特征图的全局平均池化结果融合，得到全局信息。

进一步地，水面全景图像的分割结果用于控制水面智能设备的前进方向。

进一步地，方法的应用包括：

利用相机标定板标定相机，建立成像平面坐标系与世界坐标系的映射关系，利用映射关系将水面全景图像的分割结果中各像素点的坐标转换至世界坐标系中，得到水面全景图像的分割结果中各像素点在现实空间中的位置，然后利用各像素点在现实空间中的位置进行水面智能设备的自主航迹规划，从而控制水面智能设备的前进方向。

总体而言，通过本发明所构思的以上技术方案与现有技术相比，能够取得下列有益效果：

(1)本发明的卷积神经网络利用N*1和1*N两个卷积核代替传统一个N*N卷积核，传统的卷积核越大，减少的参数量就越多，本发明的卷积方法大幅减少了网络的计算量，提高了卷积神经网络的效率，实现全景图像的实时语义分割；本发明分割速度快、对小区域目标分割效果好。

(2)水面场景中各类目标区域大小差异很大，传统损失函数会导致训练的分类器倾向于把大面积目标(例如水、天空)分割正确，而把小面积目标(例如船只)忽略掉。为了解决这个问题，本发明在卷积神经网络的损失函数中加入各目标类别的权重；极大改善了不同目标类别样本不平衡地问题，提高了对小区域目标的分割精确度。

(3)本发明卷积神经网络在不同卷积层之间设置跳级连接，以避免网络训练中梯度衰减的问题；卷积神经网络使用扩张卷积，在不增加计算量的情况下增加了特征图的感受野，提高分割准确度。本发明融合全局信息，提高网络分割准确度。本发明为无人艇等水面智能设备提供全面、快速、准确的环境感知信息。

附图说明

图1是本发明实施例提供的一种水面全景图像语义分割方法的流程图；

图2(a)是本发明实施例1提供的原始卷积神经网络的结构示意图；

图2(b)是本发明实施例提1供的改进后的卷积神经网络的结构示意图；

图3(a)是本发明实施例1提供的水面全景图像；

图3(b)是本发明实施例1提供的水面全景图像的分割结果。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。此外，下面所描述的本发明各个实施方式中所涉及到的技术特征只要彼此之间未构成冲突就可以相互组合。

如图1所示，一种水面全景图像语义分割方法，包括：

所述卷积神经网络利用N*1和1*N两个卷积核代替传统一个N*N卷积核，N≥3，所述卷积神经网络在不同卷积层之间设置跳级连接，所述卷积神经网络使用扩张卷积，所述卷积神经网络的损失函数中加入各目标类别的权重；卷积神经网络中将编码网络的输出特征图与浅层特征图的全局平均池化结果融合，得到全局信息。

所述卷积神经网络的训练包括：

损失函数为：

为目标类别cls中第j像素点的真实类别。

实施例1

一种水面全景图像语义分割方法，包括：

如图2(a)所示，传统的卷积神经网络使用长和宽都为3的卷积，传统卷积核大小为3*3，本发明使用的是两个大小分别为3*1和1*3的卷积核，如图2(b)所示，卷积神经网络每隔4个卷积层设置跳级连接。

当输入卷积层通道数为c1、输出卷基层通道数为c2时，传统卷积的计算量为：

3*3*c1*c2＝9*c1*c2

本发明的卷积计算量为：

3*1*c1*c2+1*3*c1*c2＝6*c1*c2

计算量减少了33.3％。当网络使用更大的卷积核时，参数较少的比例会更大，例如使用长和宽都为5的卷积时，参数量减少60％。

所述卷积神经网络使用扩张卷积，3*3的卷积核使用扩张比例为k的扩张卷积时，对上一层特征图的感受野由原来的3*3变为：

[3+4*(k-1)]*[3+4*(k-1)]

在实际中使用了2、4、8、16四种扩张比例，感受野分别变为原来的5.4、25、106.8、441倍。虽然我们用了两个大小分别为3*1和1*3的卷积代替3*3的卷积，但是使用扩张卷积时仍然有上述结论。

设计合理的下采样比例。对特征图进行下采样不仅能增加感受野，还可以减少网络的计算量(因为下采样之后网络只需在较小的t特征图上做卷积)。但是，如果下采样的比例过大，会损失大量细节信息，导致网络的分割结果非常粗糙。经过试验对比，我们发现下采样比例为8时是比较合理的。

根据需要调整输入尺寸。我们得到的全景图像大小为3840*1920，如果在原始图片上进行训练和预测，需要的显存非常大。由于硬件条件的限制，我们把全景图片调整到2168*1024再进行处理。

统计训练集中各类目标的像素点数，训练网络时根据统计结果分配各类目标对损失函数的影响权重。语义分割中经常使用的损失函数为：

其中i为像素点的序号，p_i为第i个像素点预测的类别，

为第i个像素点的真实类别，L_CE为交叉熵损失函数。水面场景中各类目标区域大小差异很大，用上述损失函数会导致训练的分类器倾向于把大面积目标(例如水、天空)分割正确，而把小面积目标(例如船只)忽略掉。为了解决这个问题，本发明在损失函数中加入各目标类别的权重，损失函数如下：

为目标类别cls中第j像素点的真实类别。

所述卷积神经网络的训练包括：

在本实施例中，将6个GoPro相机置于船体上方，分别拍摄6个方向的图片，然后利用全景拼接软件Autopano Giga将6张图片拼接成一副完成的全景图像。此外，在拍摄前利用相机标定板标定相机，建立成像平面坐标系与世界坐标系的映射关系，即能够将目标在全景图像上的坐标转换为真实空间的坐标。如图3(a)所示为水面全景图像，图3(b)是水面全景图像的分割结果。利用映射关系将水面全景图像的分割结果中各像素点的坐标转换至世界坐标系中，得到水面全景图像的分割结果中各像素点在现实空间中的位置，然后利用各像素点在现实空间中的位置进行水面智能设备的自主航迹规划，从而控制水面智能设备的前进方向。

本领域的技术人员容易理解，以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明的保护范围之内。

Claims

1.一种水面全景图像语义分割方法，其特征在于，包括：

所述卷积神经网络的训练包括：

2.如权利要求1所述的一种水面全景图像语义分割方法，其特征在于，所述损失函数为：

为目标类别cls中第j像素点的真实类别，L_CE为交叉熵损失函数。

3.如权利要求1或2所述的一种水面全景图像语义分割方法，其特征在于，所述水面全景图像的分割结果用于控制水面智能设备的前进方向。

4.如权利要求3所述的一种水面全景图像语义分割方法，其特征在于，所述方法的应用包括：