CN114898202A

CN114898202A - 基于多模型融合的水下视频目标尺度空间判别式跟踪系统及方法

Info

Publication number: CN114898202A
Application number: CN202210343863.3A
Authority: CN
Inventors: 潘汉; 武霞; 敬忠良; 许萌
Original assignee: Shanghai Jiaotong University
Current assignee: Shanghai Jiaotong University
Priority date: 2022-03-31
Filing date: 2022-03-31
Publication date: 2022-08-12

Abstract

本发明公开了一种基于多模型融合的水下视频目标尺度空间判别式跟踪系统及方法，涉及水下机器人、视频目标跟踪领域，步骤包括：1、多传感器配准；2、采用基于YOLO检测模型和高斯混合检测模型的多模型融合检测算法对目标进行检测；3、输入尺度空间判别式跟踪器进行跟踪，获得所述目标的相对位置和尺度信息；4、计算目标在水下多传感器检测跟踪系统的位置信息和尺度信息；5、使用无迹卡尔曼滤波器对目标位置信息进行滤波，得到最终的目标状态和运动轨迹。本发明可提升深海复杂环境下，视频目标检测跟踪的准确性、稳定性和有效性。

Description

基于多模型融合的水下视频目标尺度空间判别式跟踪系统及方法

技术领域

本发明涉及水下机器人、视觉目标跟踪领域，尤其涉及一种基于多模型融合的水下视频目标尺度空间判别式跟踪系统及方法。

背景技术

当前，我国正处于加快建设海洋强国的关键时期，在水下机器人的操作与控制方面具有重大发展需求。其中，面向水下机器人作业的目标运动状态估计是关键技术瓶颈之一。成像声呐作为海洋探测的重要仪器之一，是一种利用声波在水下的传播特性，通过电声转换和信息处理，完成水下探测和通讯任务的电子设备。成像声呐具有探测波长、识别目标能力强、隐蔽性强等特点，同时也具有很多不足，如易受多路径效应、混响干扰、海洋噪声、自噪声、目标反射特征或辐射噪声强度等的影响，造成定位错误。

因此，本领域的技术人员致力于提出一种基于多模型融合的水下视频目标尺度空间判别式跟踪系统及方法。

发明内容

有鉴于现有技术的上述缺陷，本发明所要解决的技术问题是如何克服原有成像声呐图像检测跟踪技术中的不足，在深海复杂环境下，提升目标检测跟踪的准确性、稳定性和有效性。

为实现上述目的，本发明提供了一种基于多模型融合的水下视频目标尺度空间判别式跟踪系统，其特征在于，系统包括成像声呐、双目相机、多传感器模块、水下视频目标跟踪处理板卡，其中，成像声呐与双目相机集成于一个多传感器模块内，水下视频目标跟踪处理板卡与多传感器模块相连。

一种基于多模型融合的水下视频目标尺度空间判别式跟踪方法，其特征在于，方法包括以下步骤：

步骤1、使用最小二乘估计法完成成像声呐和双目相机多传感器配准；

步骤2、采用基于YOLO检测模型和高斯混合检测模型的多模型融合检测算法，对声纳视频和相机视频输入的水下视频目标进行检测，得到目标的相对位置信息和相对尺度信息；

步骤3、使用步骤2的目标相对位置信息和相对尺度信息作为初始值对尺度空间判别式跟踪器进行初始化，使用位置滤波器对视频中每一帧的目标相对位置信息进行预测，使用尺度滤波器在每一帧预测位置的邻域内对目标的尺度进行预测，获得目标在每一帧的相对位置信息和相对尺度信息；

步骤4、基于多传感器成像特性，将得到的声呐视频中的位置信息和尺度信息转换到双目相机坐标系中，并与相机视频中的位置信息和尺度信息进行融合，得到每一帧的目标在相机坐标系下的位置信息和尺度信息；

步骤5、根据步骤4得到的每一帧的目标位置信息，使用无迹卡尔曼滤波器对目标位置进行滤波，得到最终的目标状态和运动轨迹。

进一步地，步骤2具体包括：

步骤2.1、使用YOLO检测算法和高斯混合检测算法对输入的声呐和相机视频图像分别进行检测得到目标的相对位置和尺度信息；

步骤2.2、将YOLO检测算法的检测结果与高斯混合检测算法的检测结果进行融合，

其中，w为各个检测算法所占的权重，y表示目标的相对位置信息或者尺度信息，Y为融合后的目标相对位置和尺度信息。

进一步地，步骤3具体包括：

步骤3.1、将步骤2的目标相对位置和目标相对尺度作为跟踪序列第一帧的目标初值；

步骤3.2、提取目标位置候选窗口的特征，变换到傅里叶域；

步骤3.3、生成目标位置回归矩阵，变换到傅里叶域；

步骤3.4、在目标初始框周围生成n个尺度的候选框，对每个候选框提取对应区域的特征，将生成的n个特征变换到傅里叶域；

步骤3.5、生成目标的尺度回归矩阵，变换到傅里叶域；

步骤3.6、训练得到位置跟踪模板和尺度跟踪模板；

步骤3.7、对新的帧，用位置跟踪模板去计算候选窗口上的响应，求得最大响应处位置即为新的一帧的目标所在位置，其中计算响应的公式为：

其中，R为响应，A、B分别为相关滤波器的分子和分母，Z为新一帧的目标预测位置所提取的特征图，λ为正则化系数；

步骤3.8、在所求的位置上用尺度跟踪模板去计算不同尺度乘子的响应，求得最大响应的尺度乘子，作为新的一帧的目标尺度；

步骤3.9、将新的尺度和位置继续用于下一帧图像的位置跟踪，直到预测完所有帧。

进一步地，步骤4具体包括：

步骤4.1、n的值设定为30-40；成像声呐的作用距离设定为10-60米；设定双目相机的分辨率、帧率，以及视觉信号处理板峰值功率参数；

步骤4.2、基于成像声呐与双目相机的成像特性与安装位置，计算水下视频目标在水下多传感器检测跟踪系统坐标系下的测量值。

进一步地，步骤5具体包括：

步骤5.1、计算获得滤波的初始状态估计和估计方差；

步骤5.2、对时间进行更新，得到k时刻预测的k+1时刻的目标状态均值和协方差；

步骤5.3、对量测进行更新，得到k+1时刻的状态估计和估计方差。

进一步地，步骤2.1中YOLO检测模型算法具体包括：

YOLO检测算法采用一个单独的卷积神经网络模型实现端对端的目标检测，首先将输入图片进行重采样，然后送入卷积神经网络，最后处理网络预测结果得到目标检测结果。

进一步地，步骤2.1中基于高斯混合模型的目标检测算法包括：

基于高斯混合模型的目标检测算法用多个单高斯模型作为一个像素位置的模型，使用公式

|I(x，y，t)-μ_i(x，y，t-1)|＜λ×σ_i(x，y，t-1)，i＝1，2，…，K，

对新像素进行判断，其中I为新像素点的像素值，μ为已有高斯模型的均值，σ为已有高斯模型的标准差，K代表已有高斯模型的个数；

如果新像素与该单模型匹配，判断该像素点为背景，并修正与新像素匹配的单模型的权值；如果不存在与新像素匹配的模型，判断该像素点为前景，并去除多模型集合中重要性最小的单模型，添加一个新的单模型。

进一步地，步骤2.1中基于高斯混合模型的检测算法具体包括：

步骤2.1.1定义像素模型

每个像素由多个单模型描述：

P(p)＝{[w_i(x，y，t)，u_i(x，y，t)，σ_i(x，y，t)2]}，i＝1，2，…，K，其中K表示高斯混合模型中单模型的个数，w_i(x，y，t)表示每个模型的权重，μ为已有高斯模型的均值，σ为已有高斯模型的标准差，满足：

步骤2.1.2更新参数并进行前景检测

步骤2.1.2.1、

如果新输入的图像在对应点(x，y)的像素值满足：

则新像素与该单模型匹配，判断该像素点为背景，并进行步骤2.1.2.2；如果不存在与新像素匹配的模型，判断该像素点为前景，并进入步骤2.1.2.3；

步骤2.1.2.2、

修正与新像素匹配的单模型的权值，新的权值为：

w_i(x，y，t)＝w_i(x，y，t-1)+dw＝w_i(x，y，t-1)+α(1-w_i(x，y，t-1))，

其中dw为权值增量，公式为

dw＝α(1-w_i(x，y，t-1))，

同理修正与新像素匹配的单模型的均值和方差，然后进行步骤2.1.2.4；

步骤2.1.2.3、如果新像素不与已有任何一个单模型匹配，则分为以下两种情况：

c.如果当前单模型的数目已经达到允许的最大数目，则去除当前多模型集合中重要性最小的单模型；其中重要性的计算公式为：

d.如果当前单模型的数目没有达到允许的最大数目，增加一个新的单模型，新模型的权值为一个较小值，均值为新像素值，方差为给定的较大的值；

步骤2.1.2.4、权重归一化

其中w代表各个模型所占的权重，W代表权重归一化后各个模型所占的权重。

进一步地，步骤3中：

位置跟踪的步骤为：

参照模板在前一帧的位置，在当前帧中按照前一帧目标尺度的2倍大小提取一个样本Z；

利用样本Z和位置模型的分子A和分母B，根据公式

计算新的位置的响应，响应最大的地方即为目标新的位置；

尺度跟踪步骤为：

在所求的位置上用尺度模型去计算不同尺度乘子的响应，求得最大响应的尺度乘子，作为新的一帧的目标尺度；

训练模型更新的步骤为：

利用新得到的目标相对位置和尺度，训练新的滤波器，更新位置模型和尺度模型。

本发明提出了一种基于多模型融合的水下视频目标尺度空间判别式跟踪系统及方法，考虑了深海领域中的环境特点，以及成像声呐成像特点，克服原有成像声呐图像检测跟踪技术中的不足，具有性能稳定、准确率高、鲁棒性强等特点，推动了水下无人操作与控制技术的发展，在深海作业、空间机器人等领域具有广泛的应用前景。本发明首先使用基于YOLO检测算法和高斯混合检测算法的多模型融合检测算法，对输入的视频数据中的目标进行检测；采用多模型融合的方式，解决了单个模型往往检测能力不够的问题，提高目标的检测率和识别率。其次，检测到目标之后立即启动尺度空间判别式跟踪器对目标进行跟踪，同时仍旧采用检测算法对目标进行检测，以应对目标跟踪过程中目标丢失后对跟踪器重新进行初始化，提高了检测跟踪算法的鲁棒性、稳定性和有效性。最后使用无迹卡尔曼滤波算法对跟踪位置进行滤波，得到更加可靠的跟踪结果。本发明在实际的水下目标检测跟踪测试中，性能稳定、可靠性强、准确率高，得到了很好的外场实验结果，经过在海洋中对非合作目标进行测试，证明了该发明中的算法能够有效地对非合作目标进行检测跟踪，该发明可在深海领域中有进一步应用。

以下将结合附图对本发明的构思、具体结构及产生的技术效果作进一步说明，以充分地了解本发明的目的、特征和效果。

附图说明

图1是本发明的一个较佳实施例的基于多模型融合的水下视频目标尺度空间判别式跟踪系统及方法的原理图；

图2是本发明的一个较佳实施例所采用的YOLO检测算法的神经网络结构图；

图3是本发明的一个较佳实施例所采用的基于高斯混合模型的检测算法流程图；

图4是本发明的一个较佳实施例所使用的尺度空间判别式跟踪方法流程图；

图5是本发明的一个较佳实施例所采用的多帧成像声呐采集的数据(第8、40、160和220帧)；

图6是本发明的一个较佳实施例的对数据进行测试所得到的检测跟踪结果(第201、225、270和299帧)；

图7是本发明的一个较佳实施例使用无迹卡尔曼滤波对结果进行平滑得到的结果图。

具体实施方式

以下参考说明书附图介绍本发明的多个优选实施例，使其技术内容更加清楚和便于理解。本发明可以通过许多不同形式的实施例来得以体现，本发明的保护范围并非仅限于文中提到的实施例。

在附图中，结构相同的部件以相同数字标号表示，各处结构或功能相似的组件以相似数字标号表示。附图所示的每一组件的尺寸和厚度是任意示出的，本发明并没有限定每个组件的尺寸和厚度。为了使图示更清晰，附图中有些地方适当夸大了部件的厚度。

如图1所示，一种基于多模型融合的水下视频目标尺度空间判别式跟踪系统及方法，包括以下步骤：

(1)使用基于YOLO检测算法和高斯混合检测算法的多模型融合检测算法，对输入的视频数据中的目标进行检测；采用多模型融合的方式，提高目标的检测率和识别率；

如图2所示，本发明所采用的YOLO检测算法的网络包括：24个卷积层用于提取图像特征，两个全连接层用于分类和定位。YOLO算法将输入的图片分成S×S网络，然每个单元格负责检测落入该单元格的目标，每个单元格会预测B个边界框及其置信度。边界框的准确率可以用预测框与真实框的交并比来表示，

最后得到每个边界框的预测值，包含5个元素：(x，y，w，h，c)，其中前4个表示边界框的大小和位置，最后一个表示置信度。

如图3所示，基于高斯混合模型的检测算法的流程图包括：背景生成、背景建模、模型更新、前景检测和前景掩膜。具体步骤如下：

1)定义像素模型

每个像素由多个单模型描述：

P(p)＝{[w_i(x，y，t)，u_i(x，y，t)，σ_i(x，y，t)²]}，i＝1，2，…，K，其中K表示高斯混合模型中单模型的个数，w_i(x，y，t)表示每个模型的权重，满足：

2)更新参数并进行前景检测

Step 1:

如果新输入的图像在对应点(x，y)的像素值满足：

|I(x，y，t)-μ_i(x，y，t-1)|＜λ×σ_i(x，y，t-1)，i＝1，2，…，K， (13)

则新像素与该单模型匹配，判断该点为背景，并进行step 2；如果不存在与新像素匹配的模型，判断该点为前景，并进入step 3。

Step 2:

修正与新像素匹配的单模型的权值，新的权值为：

w_i(x，y，t)＝w_i(x，y，t-1)+dw＝w_i(x，y，t-1)+α(1-w_i(x，y，t-1))， (14)

其中dw为权值增量，公式为

dw＝α(1-w_i(x，y，t-1))， (15)

同理修正与新像素匹配的单模型的均值和方差，然后进行step 4。

Step 3:

如果新像素不与任何一个单模型匹配，则：

如果当前单模型的数目已经达到允许的最大数目。则去除当前多模型集合中重要性最小的单模型；重要性的计算公式为：

增加一个新的单模型，新模型的权值为一个较小值，均值为新像素值，方差为给定的较大的值。

Step 4:

权重归一化

得到YOLO算法检测结果和高斯混合模型检测结果后，将结果进行融合，

得到最终的检测结果。

(2)将检测结果输入尺度空间判别式跟踪器进行跟踪，使用位置滤波器对位置进行预测，使用尺度滤波器在预测位置的邻域内预测目标尺度，获得目标的位置信息和尺度信息；

该算法的流程如图4所示，具体包括：

a.将模型融合的检测结果作为序列第一帧的目标初值，包括位置和尺度；

b.提取目标位置候选窗口的特征，变换到傅里叶域；

c.生成目标位置回归矩阵，变换到傅里叶域；

d.在目标初始框周围生成n个不同尺度的候选框，对每个候选框提取对应区域的特征，将生成的n个特征变换到傅里叶域；

e.生成目标的尺度回归矩阵，变换到傅里叶域；

f.训练得到位置跟踪模板和尺度跟踪模板；

g.对新的帧，用位置跟踪模板去计算候选窗口上的响应，求得最大响应处位置，

h.在所求的位置上用尺度跟踪模板去计算不同尺度乘子的响应，求得最大响应的尺度乘子，作为新的目标尺度；

i.将新的尺度和位置继续用于下一帧图像的位置跟踪，直到预测完所有帧。

其中，位置跟踪的步骤为：

利用样本Z和位置模型的分子A和分母B，根据公式

计算新的位置的响应，响应最大的地方即为目标新的位置P_t；

尺度跟踪步骤为：

训练模型更新的步骤为：

(3)根据步骤4得到的位置信息，使用无迹卡尔曼滤波器对目标位置进行滤波，得到最终的目标状态和运动轨迹。无迹卡尔曼滤波的具体流程为：

a.计算获得滤波的初始状态估计和估计方差：

b.时间更新：假设k时刻的状态估计值

和估计方差P_k|k，通过比例修正对称采样策略，得到2n+1个Sigma采样点χ_i′和相应的权值(W_i ^m)′和(W_i ^c)′，然后将采样点进行非线性状态函数传递得：

进行一步状态预测的均值和方差为：

c.量测更新：根据时间更新得到的均值和方差及采样策略公式可得2n+1个Sigma采

样点ζ′_i和相应的权值(W_i ^m)′和(W_i ^c)′，经过非线性量测函数传递得：

量测变量进一步预测均值、方差以及协方差：

根据k+1时刻的量测值z_k+1，可以求出滤波增益K_k+1，k+1时刻的状态估计和估计方差：

在本发明的一个较佳实施例中，上述方法测试所使用的为声呐图像。

以下结合图5至图7分别从视频动态检测跟踪试验结果、基本性能及动态检测跟踪性能等方面对本发明的基于多模型融合检测的尺度空间判别式跟踪方法进行分析。

利用图5所示的视频数据进行视频动态检测跟踪试验结果，可以看出图5中的数据具有噪声大、目标特征不明显、环境复杂等特点。由图6中的实验结果可以看出，本发明中的算法在第201、255、270和299帧中都能够检测到目标且跟踪效果较好。从图7可以看出，经过无迹卡尔曼滤波处理之后的目标运动轨迹相比原结果更加平滑，可靠性更高。

从以上整体视频效果、客观指标的统计结果和视频检测跟踪的动态性能可以看到，本发明基于多模型融合检测的尺度空间判别式跟踪方法具有较好的视觉效果和动态检测跟踪性能，为动态图像检测跟踪领域提供了一种非常有效的技术手段。

以上详细描述了本发明的较佳具体实施例。应当理解，本领域的普通技术无需创造性劳动就可以根据本发明的构思作出诸多修改和变化。因此，凡本技术领域中技术人员依本发明的构思在现有技术的基础上通过逻辑分析、推理或者有限的实验可以得到的技术方案，皆应在由权利要求书所确定的保护范围内。

Claims

1.一种基于多模型融合的水下视频目标尺度空间判别式跟踪系统，其特征在于，所述系统包括成像声呐、双目相机、多传感器模块、水下视频目标跟踪处理板卡，其中，所述成像声呐与双目相机集成于一个多传感器模块内，水下视频目标跟踪处理板卡与多传感器模块相连。

2.一种基于多模型融合的水下视频目标尺度空间判别式跟踪方法，其特征在于，所述方法包括以下步骤：

步骤3、使用所述步骤2的目标相对位置信息和相对尺度信息作为初始值对尺度空间判别式跟踪器进行初始化，使用位置滤波器对视频中每一帧的目标相对位置信息进行预测，使用尺度滤波器在每一帧预测位置的邻域内对目标的尺度进行预测，获得所述目标在每一帧的相对位置信息和相对尺度信息；

3.如权利要求2所述的基于多模型融合的水下视频目标尺度空间判别式跟踪方法，其特征在于，所述步骤2具体包括：

4.如权利要求2所述的基于多模型融合的水下视频目标尺度空间判别式跟踪方法，其特征在于，所述步骤3具体包括：

步骤3.1、将所述步骤2的目标相对位置和目标相对尺度作为跟踪序列第一帧的目标初值；

步骤3.2、提取目标位置候选窗口的特征，变换到傅里叶域；

步骤3.3、生成目标位置回归矩阵，变换到傅里叶域；

步骤3.5、生成目标的尺度回归矩阵，变换到傅里叶域；

步骤3.6、训练得到位置跟踪模板和尺度跟踪模板；

5.如权利要求2所述的基于多模型融合的水下视频目标尺度空间判别式跟踪方法，其特征在于，所述步骤4具体包括：

6.如权利要求2所述的基于多模型融合的水下视频目标尺度空间判别式跟踪方法，其特征在于，所述步骤5具体包括：

步骤5.1、计算获得滤波的初始状态估计和估计方差；

7.如权利要求3所述的基于多模型融合的水下视频目标尺度空间判别式跟踪方法，其特征在于，所述步骤2.1中YOLO检测模型算法具体包括：

所述YOLO检测算法采用一个单独的卷积神经网络模型实现端对端的目标检测，首先将输入图片进行重采样，然后送入卷积神经网络，最后处理网络预测结果得到目标检测结果。

8.如权利要求3所述的基于多模型融合的水下视频目标尺度空间判别式跟踪方法，其特征在于，所述步骤2.1中基于高斯混合模型的目标检测算法包括：

所述基于高斯混合模型的目标检测算法用多个单高斯模型作为一个像素位置的模型，使用公式

9.如权利要求8所述的基于多模型融合的水下视频目标尺度空间判别式跟踪方法，其特征在于，所述步骤2.1中基于高斯混合模型的检测算法具体包括：

步骤2.1.1定义像素模型

每个像素由多个单模型描述：

P(p)＝{[w_i(x，y，t)，u_i(x，y，t)，σ_i(x，y，t)²]}，i＝1，2，…，K，其中K表示高斯混合模型中单模型的个数，w_i(x，y，t)表示每个模型的权重，μ为已有高斯模型的均值，σ为已有高斯模型的标准差，满足：

步骤2.1.2更新参数并进行前景检测

步骤2.1.2.1、

如果新输入的图像在对应点(x，y)的像素值满足：

步骤2.1.2.2、

修正与新像素匹配的单模型的权值，新的权值为：

其中dw为权值增量，公式为

d_w＝α(1-w_i(x，y，t-1))，

a.如果当前单模型的数目已经达到允许的最大数目，则去除当前多模型集合中重要性最小的单模型；其中重要性的计算公式为：

b.如果当前单模型的数目没有达到允许的最大数目，增加一个新的单模型，新模型的权值为一个较小值，均值为新像素值，方差为给定的较大的值；

步骤2.1.2.4、权重归一化

10.如权利要求4所述的基于多模型融合的水下视频目标尺度空间判别式跟踪方法，其特征在于，所述步骤3中：

位置跟踪的步骤为：

利用样本Z和位置模型的分子A和分母B，根据公式

计算新的位置的响应，响应最大的地方即为目标新的位置；

尺度跟踪步骤为：

训练模型更新的步骤为：