CN114862904B

CN114862904B - 一种水下机器人的孪生网络目标连续跟踪方法

Info

Publication number: CN114862904B
Application number: CN202210280456.2A
Authority: CN
Inventors: 黄海; 吴晗; 韩鑫悦; 周浩; 梅洋; 孙溢泽; 王兆群; 郭腾
Original assignee: Harbin Engineering University
Current assignee: Harbin Engineering University
Priority date: 2022-03-21
Filing date: 2022-03-21
Publication date: 2023-12-12
Anticipated expiration: 2042-03-21
Also published as: CN114862904A

Abstract

本发明公开了一种水下机器人的孪生网络目标连续跟踪方法，对待跟踪目标进行目标检测，接着将检测出目标作为作为模板支路的输入，并将所跟踪的视频序列逐帧作为检测支路的输入，然后经过孪生网络进行特征提取，提取特征图作为输入经过两个卷积层扩展成为分类分支和回归分支，随后进行相似度打分，若分数＜阈值，则需要再次重新进行目标检测，若分数≥阈值，则认为跟踪成功，根据相邻帧移动位移判断预测帧移动方向，以前跟踪框几何中心点坐标为中心向外扩充为视频序列图像大小，前帧视频序列原图和扩充后的图的重叠部分为预测帧目标跟踪范围。本发明解决海流作用下水下目标跟踪正确率低的问题，并且降低了计算成本，提高水下目标跟踪的鲁棒性。

Description

一种水下机器人的孪生网络目标连续跟踪方法

技术领域

本发明涉及一种水下机器人的孪生网络目标连续跟踪方法，尤其涉及一种适用于复杂海流环境下水下机器人的孪生网络目标连续跟踪方法，属于视觉目标跟踪领域。

背景技术

随着国民生活水平的不断提升，人民对海鲜食品的需求不断增加，海产养殖产业也随之蓬勃发展。目前海产品的捕捞作业主要依靠潜水员手工抓取，但人工捕捞成本高、耗时长且销量低、且对海洋生态环境具有较大的破坏性，采用水下机器人进行海产品检测、定位及抓取对海产养殖的自动化发展至关重要。

目标跟踪是计算机视觉的一个重要分支，其利用视频或图像序列的上下文信息，对目标的外观和运动信息进行建模，从而对目标运动状态进行预测并标定目标的位置。随着深度学习在图像分类和目标检测等计算机视觉任务中的成功应用，深度学习也开始大量应用于目标跟踪算法中。然而由于水下图像清晰度和对比度差、背景环境复杂多变、物体自身的运动以及被遮挡，不利于水下视频图像的进一步处理，造成目标特征提取困难并且影响目标定位的精度，使得水下目标跟踪的难度增加。基于以上问题提出了一种适用于水下机器人目标抓取的连续跟踪方法，在降低计算成本的同时保证了正确率，提高了目标跟踪的鲁棒性。

近些年关于视觉目标跟踪的研究中，大多数先进的方法都是基于都基于相关滤波器或深度学习。由于深度特征对目标拥有强大的表征能力，深度学习在目标检测和目标跟踪领域的应用逐渐广泛。在水下目标跟踪方面，已有的研究相对较少。专利文献“一种基于前视声纳的改进核相关滤波水下目标跟踪方法(申请号：CN201810870281.4)”对核相关滤波算法的水下目标跟踪方法进行了改进，提高了跟踪精度，但主要针对不同的训练基样本计算不同尺度的滤波器模型，这种方法增加的不同尺度的滤波器数量会带来计算量增大不能满足实时性需求，不能支持水下机器人实时的抓取工作。专利文献“一种基于深度学习和单目视觉的水下机器人目标跟踪方法(申请号：CN201910474803.3)”，涉及到基于深度学习神经网络来确定水下目标的方位和运动方向估计，但跟踪速度相对较慢，水下跟踪时易发生跟踪漂移现象，且水下目标抓取时受到手爪等遮挡的情形。专利文献“一种适用于水下机器人目标抓取的连续跟踪方法(申请号：CN201911408004.2)”涉及到基于核相关滤波跟踪算法对目标进行跟踪，但连续跟踪时采用传统的一定帧数后重新检测的方法，这种方法的计算成本相对较高，且相对耗时，不能满足目标跟踪快速且实时性的需求。

深度学习应用在水下目标跟踪上时存在一定问题，水下环境复杂，图像清晰度和对比度差，工作时易产生遮挡影响作业效果。

发明内容

针对上述现有技术，本发明要解决的技术问题是提供一种基于深度学习的适用于复杂海流环境下水下机器人的孪生网络目标连续跟踪方法，解决海流作用下水下目标跟踪正确率低的问题，并且降低了计算成本，提高水下目标跟踪的鲁棒性。

为解决上述技术问题，本发明一种水下机器人的孪生网络目标连续跟踪方法，包括：

步骤一、对待跟踪的目标进行目标检测，然后以检测出的目标图像为模板图像，模板图像帧作为视频序列第一帧；

步骤二、采用完全没有填充的全卷积网络的孪生网络对模板图像和视频序列进行特征提取；

步骤三、采用区域候选网络的分类支路和回归支路对目标跟踪进行分类回归；

步骤四、对每帧视频序列跟踪边界框进行相似度打分，对边界框按相似度打分进行排名，使用非最大抑制NMS得到每帧视频序列对应最终跟踪边界框，若每帧视频序列对应最终跟踪边界框分数均大于给定阈值，则认为跟踪成功，无需进行重新跟踪，执行步骤五，否则，返回步骤三；

步骤五、根据前n+1帧视频序列，即第T-n帧、第T-n+1帧、…、第T帧，相邻两帧的跟踪框的几何中心点坐标在x轴方向和y轴方向平均位移变化，预测第T+1帧视频序列相对第T帧视频序列的移动方向，然后以第T帧跟踪框的几何中心点坐标为中心向外扩充为视频序列图像大小，第T帧视频序列原图和扩充后的图的重叠部分为第T+1帧目标跟踪范围。

进一步的，孪生网络分为权重参数相同的模板支路和检测支路，所述模板支路接收模板图像，输入记为z；检测支路接收检测序列当前帧的图像，输入记为x；模板图像和检测序列经过孪生网络后分别得到孪生网络特征图输出和/>

进一步的，步骤三具体为：

区域候选网络在训练阶段中采用Faster R-CNN的loss函数，采用cross-entropyloss作为分类支路的损失函数，采用smooth L1 loss作为回归支路的损失函数；

通过区域候选网络的两个卷积层将扩展成分类分支/>和回归分支也被两个卷积层扩展成为分类分支/>和回归分支/>分类支路和回归支路分别对/>和/>的分类分支特征和回归分支特征进行卷积运算：

为分类支路的卷积运算结果，包含2k个通道向量，表示锚点对应原始图像的正激活和负激活；/>为回归支路的卷积运算结果，其包含4k个通道向量，表示锚点与真实值之间的距离。

进一步的，区域候选网络中，k＝5，回归支路的损失函数为：

其中，

A_x,A_y,A_w,A_h是锚箱的中心点坐标、宽和高，T_x,T_y,T_w,T_h为真实框的中心点坐标、宽和高。

进一步的，步骤四所述相似度打分具体为：

每个边界框相似度分数pscore具体为：

pscore＝penalty×score

其中，score为分类支路得到的分数，penalty为惩罚函数；

惩罚函数penalty为：

其中，k为一个超参数，r为生成边界框的高宽比，r’为上一帧的高宽比；s和s’分别代表当前帧和上一帧生成边界框的尺寸；

s的定义为：

(w+p)×(h+p)βs²

其中，w和h为生成边界框的宽和高度，p的意义为填充，

进一步的，步骤五具体为：

以视频图像左上角为原点建立坐标轴，向右为x轴正方向，向下为y轴正方向，记前n+1帧视频序列中，从第T-n帧开始相邻两帧的跟踪框的几何中心点坐标沿x轴方向位移变化分别为Δx₁，Δx₂，…，Δx_n，沿y轴方向位移变化分别为Δy₁，Δy₂，…，Δy_n，计算x轴方向和y轴方向的平均位移变化：

x轴方向平均位移变化为：

y轴方向平均位移变化为：

当x_d＞0，预测第T+1帧位置是x轴正方向；否则，预测第T+1帧位置是x轴负方向；

当y_d＞0，预测第T+1帧位置是y轴正方向；否则，预测第T+1帧位置是y轴负方向；

然后以第T帧对应跟踪框的几何中心点坐标为中心向外扩充为第T帧图像大小，第T帧图像和扩充后的图像的重叠部分为第T+1帧目标跟踪范围。

进一步的，n＝2。

本发明的有益效果：与现有技术相比，本发明提出了一种适用于复杂海流环境下水下机器人的孪生网络目标连续跟踪方法。针对连续跟踪的需要，提出一种基于系统相似度的打分机制，以判别是否需要继续进行跟踪；根据海洋环境的特殊性，提出了一种基于目标前几帧的运动变化，来预测下一帧的运动范围的跟踪预测策略，以有效地缩小水下目标跟踪的范围，减少流带来的水质混浊对目标跟踪造成的错误跟踪、丢失目标和跟踪漂移等影响，保证目标跟踪算法在水下复杂环境的鲁棒性。

附图说明

图1是跟踪流程图；

图2(a)是跟踪预测策略示意图中第T-2帧的跟踪结果；

图2(b)是跟踪预测策略示意图中第T-1帧的跟踪结果；

图2(c)是跟踪预测策略示意图中第T帧的跟踪结果；

图2(d)是跟踪预测策略示意图中第T+1帧的跟踪结果；

图2(e)是跟踪预测策略示意图中缩小跟踪范围示意图；

图2(f)是跟踪预测策略示意图；

图3是连续跟踪图；

具体实施方式

下面结合附图与具体实施方式对本发明作进一步详细描述。

图1为跟踪流程图。首先对待跟踪的目标进行目标检测，接着将检测出的目标作为第一帧的初始化观测模型，作为模板支路的输入，并将所跟踪的视频序列逐帧作为检测支路的输入，然后经过孪生网络进行特征提取，提取后的特征图作为输入经过两个卷积层扩展成为分类分支和回归分支，随后进行相似度打分，若分数≥设定阈值，例如0.9，则可以认为跟踪成功，若分数＜设定阈值，则需要再次重新进行目标检测，且下一帧的跟踪范围相对于上一帧的跟踪范围有效缩小，提高跟踪方法的鲁棒性。本发明基于孪生网络对模板图像和所跟踪的视频序列逐帧进行对目标的特征提取，通过区域候选网络区分目标的前、后景并对跟踪框回归定位，提高目标跟踪的准确率，提出一种基于相似度打分机制，根据分数结果判断是否需要再次跟踪，实现对目标的连续跟踪，提出一种基于上一帧运动趋势的跟踪策略，可有效缩小跟踪范围，提高目标跟踪的鲁棒性。本发明在海流环境中阻力较大，水下图像清晰度和对比度差等干扰因素导致水下目标跟踪成功率低的问题的背景下，保证对水下目标的连续跟踪。

结合图1，本发明包括：

步骤一、特征提取：首先采用目标识别算法检测和识别目标，例如扇贝，将检测到的目标图像作为模板图像，采用完全没有填充的全卷积网络的孪生网络对模板图像和所跟踪的视频序列逐帧进行特征提取；

采用完全没有填充的全卷积网络的孪生网络，该孪生网络分为两个支路：模板支路和检测支路。模板支路用来接收模板图像，该输入记为z；检测支路用来接收当前帧的图像，输入记为x。

定义和/>为孪生网络特征图的输出，两支网络只有输入不同，权重参数完全相同。

步骤二、分类回归：采用区域候选网络的两个支路对目标跟踪进行分类回归。

区域候选网络选取多个锚点的枚举并且共享卷积特征，使得提取方法在获得高质量的同时还具有时间效率。由于前景、背景分类和边界框回归的监督，使得区域候选网络能够提取地更精确。

在区域候选网络中，分为两个支路：分类支路和回归支路。分类支路用来区分图片中的前景与背景；回归支路即做坐标回归，让跟踪框的位置大小更加准确。

对于分类支路，如果特征图生成k个anchor，此处所选用的区域候选网络中，k＝5。且每个anchor可以被分类到前景和背景，故通道数上升了2k倍。同时，对于回归支路，每个anchor被输出边界框的四个坐标点信息，所以通道数上升了通道数上升了4k倍。

对孪生网络的输出特征图和/>分别进行如下操作：通过两个卷积层将/>扩展成分类分支/>和回归分支/> 也被两个卷积层扩展成为分类分支和回归分支/>分类支路对/>和/>的分类分支特征进行卷积计算，回归支路对/>和/>的回归分支特征进行卷积运算：

为分类支路的卷积运算结果，其包含2k个通道向量，表示锚点对应原始图像的正激活和负激活；/>为回归支路的卷积运算结果，其包含4k个通道向量，表示锚点与真实值之间的距离。

在训练阶段中采用Faster R-CNN的loss函数，用cross-entropy loss作为分类支路的损失函数，用smooth L1 loss作为回归支路的损失函数。

对于回归支路的损失函数，首先将anchor的坐标标准化。A_x,A_y,A_w,A_h是锚箱的中心点的坐标和锚箱的高和宽，T_x,T_y,T_w,T_h为真实框的中心点坐标和真实框的高和宽，标准化距离表示如下：

smooth L1 loss函数为：

回归支路的损失函数为：

总的损失函数为：

lossβL_cls+λL_reg

其中，λ为平衡回归支路和分类支路的超参数。

步骤三、相似度打分：对生成边界框进行相似度打分，若分数＞设定分数阈值，例如0.9，则认为跟踪成功，无需进行重新跟踪。

针对连续跟踪的需要，提出一种基于系统相似度的打分机制，以判别是否需要继续进行跟踪，相似度打分机制为：

pscore＝penalty×score

其中，score为分类支路得到的分数，penalty为惩罚函数。

惩罚函数penalty定义如下所示：

其中，k为一个超参数，r为生成边界框的高宽比，r’为上一帧的高宽比；s和s’分别代表当前帧和上一帧生成边界框的尺寸

s的定义如下：

(w+p)×(h+p)＝s²

其中，w和h为生成边界框的宽和高度，p的意义为填充，其具体定义为

将当前帧的分类支路得分乘以惩罚，对当前帧的生成边界框重新进行排名，使用非最大抑制(NMS)得到当前帧的最终跟踪边界框。若pscore＞0.9，则认为跟踪成功，无需进行重新跟踪。此机制来判断目标跟踪是否需要接着进行，以提高跟踪的鲁棒性。

步骤四、预测跟踪范围：提出了一种基于海流作用下的跟踪策略，根据前几帧的跟踪结果预测下一帧的跟踪范围，将目标下一帧的运动趋势方向设定为与上一帧的运动方向一致，此跟踪策略可有效地缩小水下目标跟踪的范围。

水下机器人工作时的自身运动和机械臂的扰动导致海流的产生，使得水质混浊，造成水下机器人在执行目标跟踪任务时目标丢失、跟踪漂移、错误跟踪等情况的发生。为应对海流对目标跟踪的影响，提出了一种跟踪预测策略，使得跟踪算法在水质混浊视线受限的情况下有较好的跟踪效果。

由于水下机器人运动的速度有限，帧与帧之间时间间隔短，因此在摄像头视野内目标的位置变化会存在一定惯性和趋势，那么我们根据前几帧对目标跟踪的结果，预测下一帧目标运动方向。根据前n+1帧视频序列，即第T-n帧、第T-n+1帧、…、第T帧，相邻两帧的跟踪框的几何中心点坐标在x轴方向和y轴方向平均位移变化，预测第T+1帧视频序列相对第T帧视频序列的移动方向，然后以第T帧跟踪框的几何中心点坐标为中心向外扩充为模板图像大小，第T帧视频序列原图和扩充后的图的重叠部分为第T+1帧目标跟踪范围。

当n＝2时，以视频序列中每一帧图像的左上角为原点建立坐标轴，向右为x轴正方向，向下为y轴正方向，记目标第T-2帧到第T-1帧的水平位移变化为Δx₁，垂直位移变化为Δy₁；目标第T-1帧到第T帧的水平位移变化为Δx₂，垂直位移变化为Δy₂。

水平方向的平均位移变化为：

垂直方向的平均位移变化为：

记待跟踪的视频中每帧的图像大小为w*h，并且以当前帧跟踪框的中心点坐标(x,y)为中心，向外扩充为当前帧图像大小，即扩充后的图像的大小也为w*h。当前帧原图和扩充后的图的重叠部分即为下一帧目标跟踪的选择范围。

根据第T-2帧、第T-1帧和第T帧的跟踪结果，预测第T+1帧的目标的运动范围。若水平方向的平均位移变化x_d＞0，预测下一帧位置为x轴正方向；若水平方向的平均位移变化x_d＜0，预测下一帧位置是x轴负方向。同理，若垂直方向的平均位移变化y_d＞0，预测下一帧位置是y轴正方向；若垂直方向的平均位移变化y_d＜0，预测下一帧位置是y轴正方向。以第T帧跟踪框的中心点坐标为中心，向外扩充为第T帧图像大小，得到第T帧图像原图和扩充后的图的重叠部分。综上，可得到第T+1帧的预测范围。

具体跟踪预测策略如下所示。

算法1跟踪预测策略

在受到海流的影响后，水质变得混浊，跟踪预测策略则可以有效地缩小水下目标跟踪的范围，减少流带来的水质混浊对目标跟踪造成的错误跟踪、丢失目标和跟踪漂移等影响，保证目标跟踪算法在水下复杂环境的鲁棒性。

图2(a)-图2(f)为跟踪预测策略示意图。其中图2(a)、图2(b)、图2(c)和图2(d)分别表示第T-2帧、第T-1帧、第T帧和第T+1帧的的跟踪结果，图2(e)表示缩小跟踪范围示意图，将前三帧跟踪结果的矩形框几何中心位置标注在图2(f)中。以视频序列中每一帧图像的左上角为原点建立坐标轴，向右为x轴正方向，向下为y轴正方向，可以看出，前几帧中心点的平均位置变化有x轴负方向的分量和y轴正方向的分量，由此判断在T+1帧时目标的位置在当前第T帧目标位置的下方和目标位置的左方。以上一帧跟踪框的中心点，即图中中心小框中心点为中心，向外扩充为与当前帧的图像大小，两图重叠部分，即为下一帧目标跟踪的选择范围。将以上预测结果相结合，可以预测在第T+1帧时目标的位置在图2(f)中框出的范围。将图2(d)的第T+1帧真实跟踪结果对应到图2(f)中，可以看出正是在预测的范围中。

图3为连续跟踪图，进一步表现了本方法在长时连续跟踪的效果。实验过程中，持续对扇贝目标跟踪了145秒，共2900帧图片，其中每秒20帧图片。

综上，本发明提出了一种适用于复杂海流环境下水下机器人的孪生网络目标连续跟踪方法，在海流作用下存在图像清晰度和对比度差、背景环境复杂等干扰因素，导致水下目标跟踪成功率低的问题的背景下，保证对水下目标的连续跟踪。本发明基于孪生网络对模板和所跟踪的视频序列进行对目标的特征提取，通过区域候选网络区分目标的前、后景并对跟踪框回归定位，提高目标跟踪的准确率，根据分数结果判断是否需要再次跟踪，提出一种基于相似度打分机制，实现对目标的连续跟踪，提出一种在海流作用下基于上一帧运动趋势的跟踪策略，可有效缩小跟踪范围，提高目标跟踪的鲁棒性。

Claims

1.一种水下机器人的孪生网络目标连续跟踪方法，其特征在于，包括：

步骤四、针对连续跟踪及在海流作用下存在图像清晰度和对比度差、背景环境复杂干扰因素，对每帧视频序列跟踪边界框进行相似度打分，对边界框按相似度打分进行排名，为减少流带来的水质混浊对目标跟踪造成的错误跟踪，使用非最大抑制NMS得到每帧视频序列对应最终跟踪边界框，若每帧视频序列对应最终跟踪边界框分数均大于给定阈值，则认为跟踪成功，无需进行重新跟踪，执行步骤五，否则，返回步骤三；所述相似度打分具体为：

每个边界框相似度分数pscore具体为：

pscore＝penalty×score

其中，score为分类支路得到的分数，penalty为惩罚函数；

惩罚函数penalty为：

s的定义为：

(w+p)×(h+p)＝s²

其中，w和h为生成边界框的宽和高度，p的意义为填充，

步骤五、水下目标在视野内位置的变化存在一定惯性和趋势，根据前n+1帧视频序列，即第T-n帧、第T-n+1帧、…、第T帧，相邻两帧的跟踪框的几何中心点坐标在x轴方向和y轴方向平均位移变化，预测第T+1帧视频序列相对第T帧视频序列的移动方向，认为下一帧即第T+1帧的跟踪框的几何中心点的位置与平均位移变化方向相一致，然后以第T帧跟踪框的几何中心点坐标为中心向外扩充为视频序列图像大小，第T帧视频序列原图和扩充后的图的重叠部分为第T+1帧目标跟踪范围，减小水下目标的跟踪范围以减少流带来的水质混浊对目标跟踪造成的错误跟踪、丢失目标和跟踪漂移影响，具体为：

以视频图像左上角为原点建立坐标轴，向右为x轴正方向，向下为y轴正方向，记前n+1帧视频序列中，从第T-n帧开始相邻两帧的跟踪框的几何中心点坐标沿x轴方向位移变化分别为△x₁，△x₂，…，△x_n，沿y轴方向位移变化分别为△y₁，△y₂，…，△y_n，计算x轴方向和y轴方向的平均位移变化：

x轴方向平均位移变化为：

y轴方向平均位移变化为：

当x_d>0，预测第T+1帧位置是x轴正方向；否则，预测第T+1帧位置是x轴负方向；

当y_d>0，预测第T+1帧位置是y轴正方向；否则，预测第T+1帧位置是y轴负方向；

2.根据权利要求1所述的一种水下机器人的孪生网络目标连续跟踪方法，其特征在于：所述孪生网络分为权重参数相同的模板支路和检测支路，所述模板支路接收模板图像，输入记为z；检测支路接收检测序列当前帧的图像，输入记为x；模板图像和检测序列经过孪生网络后分别得到孪生网络特征图输出和/>

3.根据权利要求1所述的一种水下机器人的孪生网络目标连续跟踪方法，其特征在于：所述步骤三具体为：

所述区域候选网络在训练阶段中采用Faster R-CNN的loss函数，采用cross-entropyloss作为分类支路的损失函数，采用smooth L1 loss作为回归支路的损失函数；

通过区域候选网络的两个卷积层将扩展成分类分支/>和回归分支/> 也被两个卷积层扩展成为分类分支/>和回归分支/>分类支路和回归支路分别对/>和/>的分类分支特征和回归分支特征进行卷积运算：

4.根据权利要求3所述的一种水下机器人的孪生网络目标连续跟踪方法，其特征在于：区域候选网络中，k＝5，所述回归支路的损失函数为：

其中，A_x,A_y,A_w,A_h是锚箱的中心点坐标、宽和高，T_x,T_y,T_w,T_h为真实框的中心点坐标、宽和高。

5.根据权利要求1所述的一种水下机器人的孪生网络目标连续跟踪方法，其特征在于：n＝2。