CN108921099A

CN108921099A - 一种基于深度学习的航道内运动船舶目标检测方法

Info

Publication number: CN108921099A
Application number: CN201810720972.6A
Authority: CN
Inventors: 陈从平; 吴喆
Original assignee: Changzhou University
Current assignee: Changzhou University
Priority date: 2018-07-03
Filing date: 2018-07-03
Publication date: 2018-11-30

Abstract

本发明提供了一种基于深度学习的航道船舶检测方法，主要包括两个步骤：(1)采集、标注并制作航道船舶训练集样本，通过Tensorflow深度学习框架搭建Faster RCNN深度学习网络，并将制作好的训练集样本输入网络进行训练。(2)针对实际应用场景设计一种结合视频序列上下文预测信息的网络输出后处理算法。本发明利用深度学习的方法能够同时进行船舶目标的检测与识别。加上针对实际应用场景的后处理算法，能够使得网络在小批量的样本训练下保持准确率不变的前提下，大大降低了误检率。

Description

一种基于深度学习的航道内运动船舶目标检测方法

技术领域

本发明专利涉及一种基于深度学习的航道上运动船舶目标检测方法，涉及图像处理领域以及基于深度学习的目标检测识别领域。

背景技术

当航道上方架(建)有高压电线、桥梁或在进行其他施工时，需对航道内往来的大型船舶限高通过，或要求船舶必须按指定路线行驶，或对船舶警示驱离，以上情况都需要提前对来往的船舶进行检测以及预警，以防事故发生。

现有对航道船只进行监控的主要方法是，通过在航道合适位置架设长焦网络摄像机，实时将航道上的视频传输到监控室，再由值守人工同步进行甄别并发出警报或指令。由于船只出现在航道具有不定时、不可预见的特点，依靠人工值守查看视频工作量大，易疲劳和误判，需要开发自动化船只识别方法，待识别出有船只靠近时，提醒人工进一步甄别、处置。

航道监测时摄像机工作方式与一般视频监控场景中摄像机固定不动的情况不同，为使得航道上的船只能被尽早发现，尽早警示，监控时采用了视距更远的长焦摄像机，而长焦摄像机虽提高了相机的可视距离，但同时又会减小摄像机的视场范围，为使摄像的可视范围覆盖整个航道，需要使摄像机周期性往复转动、扫描，即所拍摄场景的背景为动态背景，则若要自动判别航道内船只，需要在动态背景下进行检测。

传统的动态背景下目标检测方法主要有两类：(1)根据全局运动参量估计进行背景匹配，从而将动态背景转换成静态背景进行处理，再通过帧差法或者背景差分法提取运动目标，最后对提取的运动目标进行分类。由于全局运动参量估计需要利用特征匹配的方法计算模型参数，但对于航道中的船舶检测，当图像背景全为水域时，其颜色及纹理较为单一，特征匹配存在困难，加上远距离视频中船舶移动的速度相对于视频帧率而言过于缓慢，通过帧差法或者背景差分法都很难提取出船舶目标。(2)多尺度滑动窗口法，其核心是对视频序列的每一帧构建图像金字塔，利用固定尺寸的滑动窗口以等步距在整幅图像上滑动，并对每一个窗口利用之前训练好的分类器判断窗口内是否存在检测目标。该算法不受摄像机以及目标运动的影响，并且通过增加图像金字塔的层数能够增加定位精度。该算法的主要缺点是运算量过于庞大非常耗时，并且由于使用固定尺寸的滑动窗口，仅适用于目标长宽比变化不大的场景。但在航道船舶检测过程中，由于摄像机不停的转动，导致在不同帧中对同一条船的拍摄角度及成像区域的大小也在变化，故该算法也不适用。

本发明主要采用深度学习方法对航道内运动船只进行识别，然而，在典型的学习过程中，为提高网络对识别目标特征提取的完备性和检测的准确性，往往需要制作庞大数量的学习样本，且实际上目前利用深度学习进行目标识别的开放软件，其所学习的样本数量均以十万、百万计，这会耗费大量人力物力和时间来做前期标准化样本的制作工作。为克服该问题，本发明在利用小批量样本进行网络学习的基础上，提出了一种针对深度学习网络输出的后处理方法，使得利用尽量小的样本集进行训练也能达到足够高的检测精度，并降低了误检率，避免了典型深度学习网络需要制作海量学习样本、长时间训练、前期准备工作量过大的问题。

发明内容

为了在动态背景下实现对航道内运动船只的自动检测，本发明提供了一种基于深度学习的航道内运动船舶目标检测方法，在利用小批量样本进行深度网络学习的基础上，开发对网络输出进行自动后处理的方法，使得在不降低检测正确率的前提下，极大地降低了网络对学习样本容量大小的要求，极大地提高了学习网络的学习效率，节省了对深度学习网络进行调试、生成的时间，因而降低了成本，便于在实际中使用。

本发明所采用的技术方案是通过以下步骤实现的：

步骤1：采集、标注并制作拟监测航道上包含各类船只图像的样本集并输入到深度卷积神经网络进行学习；

步骤2：对训练好的深度卷积神经网络的输出进行自动后处理。

其中，步骤2还包括以下步骤：

步骤21：设置阈值T1，并滤除网络输出中置信度低于T1的目标；

步骤22：计算每个(剩余)目标的最小外接矩形框像素面积S，设置阈值T2，并滤S＜T2的目标(即小目标)；

步骤23：针对当前帧中剩下的每个目标P_i，在上一帧中逐一寻找与每个目标P_i的最小外接矩形的形心距最小、且距离小于设定置T3的目标P_i′；

步骤24：若存在满足条件的P_i′，计算P_i与P_i′最小外接矩形框的IoU(交并比)值，判断IoU值是否大于设定阈值T4，若大于设定阈值，则认为匹配到同一目标，更新目标信息，并将该目标对应的累加器值加一；

步骤25：判断累加器值，若累加器值大于设定阈值T5，即表明该目标在连续多帧中被持续检测出来，此时认为该目标确实存在。

本发明的有益效果是：采用深度学习和后处理相结合的方法，即发挥了深度学习网络能自动进行目标的检测与识别的优势，又因开发了针对深度学习网络输出结果的后处理算法，可确保只需采集、标注并制作尽量少的船舶目标样本集进行学习，即可达到足够高的检测精度。避免了传统深度学习网络需要输入海量样本、海量计算、前期准备工作量过大的缺陷，同时还能保证足够的检测精度。

附图说明

图1为采集的部分学习样本。

图2为验证集输出的部分图样。

图3为对网络输出结果后处理流程图。

图4为对网络输出后处理前/后对比结果。

具体实施方式

下面结合附图和具体实施方式对本发明作进一步的描述。

首先进行学习网络的搭建，本发明的算法是基于Python语言以及Tensorflow深度学习开源框架进行测试的。利用Tensorflow深度学习软件框架搭建基于Faster RCNN模型的深度学习网络。在本发明中，考虑到深度学习网络中生成特征网络的网络运算时间以及特征提取准确性，采用了Google设计的Inception网络结构作为前置网络用来生成特征图。

模型选择并搭建完成后，进行训练样本的采集以及标注。为了让深度学习网络能够更好的学习获得优秀的特征，采集的样本需要从不用的地点，不同的天气，不同的角度，不同的尺度，不同的船舶目标以及船舶在视场中不同程度的截断等情况下去采集训练样本，收集的部分样本如图1所示(共采集了1000幅样本)。采集后对每张图像进行人工标注，即标注出每张图像中的每个船舶的最小外接矩形框坐标并生成对应的标注文件。

图像标注好后，将标注好的样本基按10：1的数量比例划分为训练集和验证集，将训练集输入网络开始学习，并在训练过程中使用图像增强技术中的随机水平翻转来增加训练的样本量。每隔一定时间调用一次验证集进行验证，关注训练集以及验证集的loss曲线，在训练集loss曲线已经收敛并在网络出现过拟合之前停止训练。训练完成后，利用微软的COCO数据集目标检测评估指标测得模型的平均准确率为0.804、平均召回率0.837以及处理一张1000×562像素的RGB通道图像所需消耗的时间约100毫秒。

对网络输出的结果进行后处理。由于深度学习网络会将航道上用于定位的浮标、岸边停靠的小渔船(非感兴趣目标或非危险目标)以及岸上某些物体识别出来，造成误识别，如图2所示，其中图2a、图2b、图2c及图2d反应了不同场景、不同角度正确检出船舶的结果(每个目标矩形框上方数字表示该目标的置信度)，图2e检测出了尺寸过小且置信度只为0.58的船只，图2f误将岸上建筑检测成了船只，导致以上原因主要因为：一是由于样本训练集的数据量不够大；二是因为网络训练时不能考虑图像序列的上下文信息。以上表明，单纯靠网络学习，检测的结果准确率不够。

为提高检测准确性，但不再增加学习样本数量，本发明进一步开发对网络输出的的后处理方法，技术方案具体流程如图3所示，按以下步骤操作：

S1：设置T1＝0.8用来滤除置信度低于0.8的目标。

S2：计算每个(剩余)目标的最小外接矩形框像素面积S，设置T2＝3000用于滤除可能存在的定位浮标、岸边小渔船，即S<3000的目标。

S3：针对当前帧中剩下的每个目标P_i，在上一帧中逐一寻找与每个目标P_i的最小外接矩形的形心距最小、且距离小于T3＝100的目标P_i′。

S4：若存在满足条件的P_i′，计算P_i与P_i′最小外接矩形框的IoU(交并比)值，判断IoU值是否大于0.8(即T4)，若大于0.8，则认为匹配到同一目标，更新目标信息，并将该目标对应的累加器值加一。

S5：判断累加器值，若累加器值大于30(即T5)，即表明该目标在连续多帧中被持续检测出来，此时认为该目标确实存在，目的是为了消除岸上各种物体可能引起的误识别以及同一条船识别为多条船的问题。

其中S3、S4、S5三步用于表征视频中相邻帧图像的关联即上下文信息。

具体实施例：

利用多段航道通船视频进行测试，在加入本发明设计的后处理算法之前，虽然航道上期望被检出的船舶能100％被检测到，但存在大量的误识别。图4展示了对网络输出结果处理前后的部分典型效果对比，对比图4a与图4b可以发现，经后处理后，不期望被检出的岸上建筑及岸边停靠的小船未再被检出；对比图4c与图4d可以发现，同一条船被检测为多条的现象也得到有效改善。对五段视频全部检测结果进行统计分析，发现在对网络输出进行后处理后，网络检测的准确率不变(即期望检出的目标被检出的比例)，但误检率(即不希望检出的目标被检出的比例)下降了43.6％，因而，应用本发明所提供的深度学习网络后处理算法后，检测的效果被显著提高。

Claims

1.一种基于深度学习的航道内运动船舶目标检测方法，其特征在于包含以下步骤：

步骤1：采集、标注、制作拟监测航道上包含各类船只图像的样本集并输入到深度卷积神经网络进行学习；

步骤2：开发算法对训练好的深度卷积神经网络的输出进行自动后处理。

2.根据权利要求1所述的一种基于深度学习的航道内运动船舶目标检测方法，其特征在于：权利要求1中的步骤2还包括以下步骤：

步骤23：针对当前帧中剩下的每个目标P_i，在上一帧中逐一寻找与每个目标P_i的最小外接矩形的形心距最小、且距离小于设定置T3的目标P_i；

步骤24：若存在满足条件的P_i′，计算P_i与P_i′最小外接矩形框的IoU(交并比)值，判断IoU值是否大于设定阈值T4，若大于设定阈值，则认为匹配到同一目标，更新目标信息，并将该目标对应的累加器(即计数器)值加一；