CN110033050B

CN110033050B - 一种水面无人船实时目标检测计算方法

Info

Publication number: CN110033050B
Application number: CN201910314055.2A
Authority: CN
Inventors: 蒋鹏; 宋学强; 朱何; 俞武嘉; 刘俊
Original assignee: Hangzhou Dianzi University
Current assignee: Hangzhou Dianzi University
Priority date: 2019-04-18
Filing date: 2019-04-18
Publication date: 2021-06-22
Anticipated expiration: 2039-04-18
Also published as: CN110033050A

Abstract

本发明公开了一种水面无人船实时目标检测计算方法。本发明将现在计算机视觉领域主流的目标检测算法进行融合，提高目标检测的速度和精度。本发明通过将现有的基于深度学习的目标检测算法进行融合改进然后应用到无人船水面物体识别，提高目标识别的准确度和精度。本发明在基于深度学习的目标检测模型的基础上，结合现有无人船的水面环境，采用模型融合来计算物体的位置和类别。相比较于传统的方法，本发明更加的准确高效，并且抗干扰能力强，最终可以实时高效的检测出水面物体。本发明具有开放性、灵活性等特点。

Description

一种水面无人船实时目标检测计算方法

技术领域

本发明属于无人船领域，涉及计算机视觉中的目标检测技术，特别是涉及一种水面目标快速识别的计算方法。

背景技术

随着经济的发展，无人船得到了越来越广泛的应用。无人船行业属于新兴的人工智能领域，其中无人船的水面目标检测技术是无人船执行各项任务的基础。现有的无人船主要是人工遥控行进，遥控进行避障和执行各项任务。现有的水面目标识别功能，只能在较为简单的场景下执行任务，难以真正做到无人在复杂环境下执行任务。这主要是由于现有的无人船水面目标检测算法存在着识别不准确，抗干扰性不强，难以实时快速实现目标检测等等。这些固有的弊端对无人船的发展存在着极大的制约。

发明内容

本发明针对现有技术的不足，提出了一种水面无人船实时目标检测计算方法。

本发明的目标是针对现有的无人船领域水面目标检测的一些难题，将现在计算机视觉领域主流的目标检测算法进行融合，提高目标检测的速度和精度。本发明的技术方案是通过将现有的基于深度学习的目标检测算法进行融合改进，然后应用到无人船水面物体识别，提高目标识别的准确度和精度。

本发明方法具体是：

步骤1:获取基础数据，其中包括水面物体的类别、数量、物体的位置描述和物体状态描述。

步骤2：数据清洗以及样本预处理。

步骤3：设计训练SSD网络。

①对VGG网络进行一部分删减。主干网络每一层统一修改为原来的二分之一。主干网络中去掉卷积3,4,5层的中间层。去掉最后一层的全连接层。

然后利用处理后的SSD网络计算目标的位置，类别和置信度，其中目标的位置指的是目标物体框在图片中的位置，主要有四个参数x,y,w,h，分别表示目标物体框的左上角坐标，以及物体框的高度和宽度。

②根据标注信息设置不同提取框的特征层的aspect_ratio。

③生成用于训练的lmdb格式。

④设置总体的损失函数。

⑤送入样本进行训练，使用Caffe-SSD进行训练，得到训练模型。

⑥将测试图片送入训练好的模型，通过非极大值抑制算法得到物体的位置，类别和置信度。

步骤4：设计训练Faster-RCNN网络，采用Faster-RCNN网络得到目标物体框的位置，类别和置信度。

步骤5：融合得到目标准确位置，采用基于轮廓的卡尔曼滤波算法，对步骤3和步骤4输出的结果进行融合，得到更为准确的目标位置。

本发明的有益效果：本发明在基于深度学习的目标检测模型的基础上，结合现有无人船的水面环境，采用模型融合来计算物体的位置和类别。相比较于传统的方法，本发明更加的准确高效，并且抗干扰能力强，最终可以实时高效的检测出水面物体。本发明具有开放性、灵活性等特点。

附图说明

图1为SSD算法框架；

图2为Faster-RCNN算法框架；

图3为整个算法流程。

具体实施方式

以下结合附图对本发明作进一步说明。

如图1-3所示，本发明包括以下步骤：

步骤1:获取基础数据，其中包括水面物体的类别，数量，物体的位置描述，物体状态描述。

步骤2：数据清洗以及样本预处理。

当数据确定以后，为了后续处理的方便，首先对数据进行预处理。采用的数据是开源的Singapore Maritime Dataset,从中选取了100000张图片，其中60000张图片用来做训练集，30000张图片用来做验证集，剩下的1000张图片用于做测试集。所有的图片统一调整到300*300的大小，并且按照VOC数据的格式生成标注文件。

步骤3：设计训练SSD网络。

①考虑到原有的SSD网络采用的是VGG主干网络，计算量庞大，训练速度慢。在这里对VGG主干网络进行一部分删减。主干网络每一层的输出过于庞大，统一修改为原来的二分之一。主干网络中去掉卷积3,4,5层的中间层。去掉最后一层的全连接层。经过删减的SSD网络与原有的SSD网络相比，计算量大幅度降低，算法的输出保持不变，其精度相比原有的SSD稍有降低，但是不影响，后续会经过融合提高检测精度。该算法计算目标的位置，类别和置信度，目标的位置指的是目标物体框在图片中的位置，主要有四个参数x,y,w,h。分别表示目标物体框的左上角坐标，以及物体框的高度和宽度。

②根据标注信息设置不同提取框的特征层的aspect_ratio(长宽比)。

③根据实际需要，把步骤2生成的样本，生成用于训练的lmdb格式。为了保证训练的精度，这里采用正负样本的比例为1:3

④总体的损失函数设置如下

其中，c，l，g，x分别表示属于某个类别的概率，预测框，真实框，以及预测框与真实框匹配的标记(匹配为1，否则为0)；N表示的是与标注框匹配的数量；L_loc(x,k,g)为定位损失函数；L_conf(x,c)表示分类损失函数；α表示两者之间的权重。

⑥将测试图片送入训练好的模型，并通过NMS(非极大值抑制算法)得到物体的位置，类别和置信度。

步骤4：设计训练Faster-RCNN网络。

Faster—RCNN网络主要用于补偿SSD网络所造成的精度缺失的问题。这里采用原始的Faster—RCNN网络得到目标物体框的位置，类别和置信度。Faster-RCNN算法用特定的网络来提取特征提取候选区域。算法的具体流程如下：

生成region proposals(特征候选区域)：

①该算法通过主干网络生成特征图。然后特征图传进RPN层(Region ProposalNetwork)该层网络生成特征候选区域。定义RPN层的总体Loss函数定义如下：

其中：

p_i为anchor预测为目标的概率。

t_i＝{t_x,t_y,t_w,t_h}是一个向量，表示预测目标框的4个参数化坐标。

是与正样本对应的真实目标框的4个参数化坐标。

是两个类别(目标vs非目标)的对数损失。

为回归损失。

②计算目标位置，类别和置信度。

ROI pooling(特征提取)层用来收集输入特征图和候选区域，执行分类算法得到物体的类别和置信度，执行回归算法得到目标物体框的坐标以及高和宽。

步骤5：算法融合得到目标准确位置。

采用基于轮廓的卡尔曼滤波算法，对两种算法输出的结果进行融合，得到更为准确的目标位置。具体算法中采用SSD算法输出的结果作为预测值，Faster-RCNN输出的结果作为观测值。系统的状态表示为

X＝[lx,ly,rx,ry,Δlx,Δly,Δrx,Δry]

其中元素lx，ly，rx，ry分别表示预测框的左上角和右下角坐标。Δlx,Δly,Δrx,Δry为两帧图像之间像素点的移动值。

假设噪声为高斯白噪声，服从标准正态分布，则系统状态方程表示为：

X′(k)＝AX(k-1)+W(k-1)

其中A为状态转移矩阵，W(k-1)为输入噪声；

先验协方差可表示为：

P′(k)＝AP(k-1)A′+Q

当k＝1时，P(0)设置为：

Q是系统过程的协方差，设置为：

接下来可以计算卡尔曼增益：

其中

H为状态到观测的转换矩阵

得到卡尔曼增益后，那么最优系统状态应为：

X(k)＝X′(k)+Kg(k)(Z(k)-HX′(k))

其中z(k)是观测值

接下来更新X(k)的协方差，更新公式为：

P(k)＝(I-Kg(k)H)P′(k)

通过卡尔曼滤波算法融合了两种模型的结果，不断更新得到当前目标位置的准确信息。即目标检测框的x,y,w,h。本发明在NVIDIA TX1测试可达到26FPS。很好的满足了实时性的要求，并且准确度较之前的传统算法提升了80％。

Claims

1.一种水面无人船实时目标检测计算方法，其特征在于该方法包括以下步骤：

步骤1：获取基础数据，其中包括水面物体的类别、数量、物体的位置描述和物体状态描述；

步骤2：数据清洗以及样本预处理；

步骤3：设计训练SSD网络；

①对VGG网络进行一部分删减，主干网络每一层统一修改为原来的二分之一；主干网络中去掉卷积3，4，5层的中间层，去掉最后一层的全连接层；

然后利用处理后的SSD网络计算目标的位置，类别和置信度，其中目标的位置指的是目标物体框在图片中的位置，有四个参数x，y，w，h，分别表示目标物体框的左上角坐标，以及物体框的高度和宽度；

②根据标注信息设置不同提取框的特征层的长宽比aspect_ratio；

③生成用于训练的1mdb格式；

④设置总体的损失函数；

⑤送入样本进行训练，使用Caffe-SSD进行训练，得到训练模型；

⑥将测试图片送入训练好的模型，通过非极大值抑制算法得到物体的位置，类别和置信度；

步骤4：设计训练Faster-RCNN网络，采用Faster-RCNN网络得到目标物体框的位置，类别和置信度；

步骤5：融合得到目标准确位置；

采用基于轮廓的卡尔曼滤波算法，对步骤3和步骤4输出的结果进行融合，得到更为准确的目标位置，具体是：

采用SSD网络输出的结果作为预测值，Faster-RCNN网络输出的结果作为观测值，系统的状态表示为：

X＝[lx，ly，rx，ry，Δlx，Δly，Δrx，Δry]

其中元素lx，ly，rx，ry分别表示预测框的左上角和右下角坐标；Δlx，Δly，Δrx，Δry为两帧图像之间像素点的移动值；

假设噪声为高斯白噪声，服从标准正态分布，则有如下系统状态方程：

X′(k)＝AX(k-1)+W(k-1)

其中A为状态转移矩阵，W(k-1)为输入噪声；

先验协方差表示为：

P′(k)＝AP(k-1)A′+Q

当k＝1时，P(0)设置为：

Q是系统过程的协方差，设置为：

接下来计算卡尔曼增益：

其中

H为状态到观测的转换矩阵；

得到卡尔曼增益后，那么最优系统状态应为：

X(k)＝X′(k)+Kg(k)(Z(k)-HX′(k))

其中Z(k)是观测值；

接下来更新X(k)的协方差，更新公式为：

P(k)＝(I-Kg(k)H)P′(k)

通过卡尔曼滤波算法融合了两种结果，不断更新得到当前目标位置的准确信息，即目标检测框的x，y，w，h。

2.根据权利要求1所述的一种水面无人船实时目标检测计算方法，其特征在于：步骤2中采用的数据是开源的Singapore Maritime Dataset，从中选取了100000张图片，其中60000张图片用来做训练集，30000张图片用来做验证集，剩下的1000张图片用于做测试集，所有的图片统一调整到300*300的大小，并且按照VOC数据的格式生成标注文件。

3.根据权利要求1所述的一种水面无人船实时目标检测计算方法，其特征在于：所述的损失函数表达式为：

其中，c，1，g，x分别表示属于某个类别的概率，预测框，真实框，以及预测框与真实框匹配的标记；N表示与标注框匹配的数量；L_loc(x，l，g)为定位损失函数；L_conf(x，c)表示分类损失函数，α表示权重。