CN114022812A

CN114022812A - 一种基于轻量化SSD的DeepSort水面漂浮物多目标跟踪方法

Info

Publication number: CN114022812A
Application number: CN202111282062.2A
Authority: CN
Inventors: 陈任飞; 彭勇; 李昱; 欧阳文宇; 吴剑; 岳廷秀; 王浅宇
Original assignee: Dalian Institute Of Artificial Intelligence Dalian University Of Technology; Dalian University of Technology
Current assignee: Dalian Institute Of Artificial Intelligence Dalian University Of Technology; Dalian University of Technology
Priority date: 2021-11-01
Filing date: 2021-11-01
Publication date: 2022-02-08
Anticipated expiration: 2041-11-01
Also published as: CN114022812B

Abstract

一种基于轻量化SSD的DeepSort水面漂浮物多目标跟踪方法，属于机器学习、目标跟踪领域。首先，获得若干水面漂浮物的连续视频帧。其次，输入水面漂浮物视频数据，通过轻量化的SSD检测算法获取当前帧的水面漂浮物目标检测框，基于视频当前帧的目标检测框进行状态预测，获得当前视频帧下的水面漂浮物目标跟踪框。再次，计算所有水面漂浮物目标检测框和跟踪框之间的运动匹配度和表观匹配度，将运动匹配度和表观匹配度进行综合匹配得到关联代价。最后，通过匈牙利算法将水面漂浮物的关联代价矩阵C_i，j进行关联匹配，确定跟踪结果。本发明能够实现水面漂浮物多目标跟踪，降低反向传播的参数数量和内存成本，提高数据关联的准确性，改善光照和遮挡物的影响。

Description

一种基于轻量化SSD的DeepSort水面漂浮物多目标跟踪方法

技术领域

本发明属于机器学习、目标跟踪领域，涉及一种基于轻量化SSD算法的DeepSort水面漂浮物多目标跟踪方法。

背景技术

水环境综合治理是水利工程运营与管理的重要组成部分，是落实绿色发展理念、推进生态文明建设的内在要求，是解决我国复杂水问题、维护河湖健康生命的有效举措。漂浮物对水质、水面景观、供水、水产和航运等造成不利影响，同时减小水电枢纽的发电效益、对枢纽运行安全构成威胁，加强河道漂浮物检测与打捞对水利工程具有重要意义。如何快速有效检测跟踪水面漂浮物的运行轨迹，为水面安全规避、污染物清洁、水面交通安全等领域提供早期预警及实时监控等信息，成为了智能识别以及水利信息化的重要课题之一。

目标检测与跟踪是计算机视觉领域中核心的研究问题，也是目前工业领域最为热门的技术。其中目标检测的任务是从场景中将目标物体与其他目标进行有效区分，定位目标物体的位置，识别出目标大小等信息。目标跟踪是在检测的基础上，进一步对目标物体下一时刻的位置和大小等信息进行科学预测，明确目标物体的运动轨迹。伴随着深度学习技术的不断发展，卷积神经网络为目标检测跟踪提供了巨大的技术支撑，并在目标检测与跟踪领域取得了巨大的成功。

目前，基于深度学习的水面漂浮物检测算法沿着两条主线发展：第一，以FasterRCNN、 CA-Faster R-CNN为代表的基于候选框方式的检测主线，能够有效确保漂浮物检测精度，但检测速度无法满足实时检测需求；第二，以YOLO、SSD和Retain-Net为代表的一体化检测算法，检测速度要明显快于前者，但漂浮物检测精度略有下降，其中SSD检测算法的准确率和检测速度相对较优，成为当前应用于水面漂浮物目标检测的主流方法。传统的SSD检测算法是以VGG-16为基础网络，包含了13个卷机层，模型的网络参数、浮点数计算量以及内存需求等依赖于高性能的硬件设备，导致传统SSD检测算法难以在实际中进行大规模推广和应用。

同时，当前水面漂浮物跟踪技术也面临着较大的挑战，首先，水面漂浮物目标跟踪需要解决单目标跟踪中存在的诸如漂浮物目标形变、场景环境变化等挑战之外，还面临着由于漂浮物目标数量不确定所带来的实时目标数量更新及维持目标各自身份(Identity，ID)的任务，因此视觉多目标跟踪还需要处理更为复杂关键的问题，诸如：漂浮物目标数量不确定、频繁目标遮挡、同类目标的相似度区分等。近几年随着基于深度学习检测算法的精度较传统算法性能大幅度提高，视觉多目标跟踪随之取得了较大的突破。目前多目标跟踪技术应用较为广泛的是SORT和DeepSort算法，其中SORT算法主要是利用卡尔曼滤波对目标物体进行预测和更新，并使用匈牙利算法对目标物体的预测框和检测框进行匹配，在存在遮挡的情况下跟踪效果较差。DeepSort算法是基于SORT算法上引入级联匹配思想，通过匈牙利算法将目标物体轨迹的预测框和检测框进行数据关联匹配，降低了目标物体的误检率和漏检率，改善了光照和遮挡物的影响。

基于实际水面漂浮物检测跟踪的需求，目前国内外相关研究成果存在算法结构复杂以及受到复杂水面环境的影响，无法满足实时水面漂浮物检测跟踪的需求。本发明在深度学习技术不断拓展的基础上，提出基于轻量化SSD(Single Shot MultiBox Detector，单发多目标检测器)算法的DeepSort水面漂浮物多目标跟踪方法，实现对水面漂浮物的精准跟踪。

发明内容

本发明的目的在于提供一种基于轻量化SSD的DeepSort目标检测跟踪方法，旨在解决现有目标跟踪算法受到运行设备内存容量限制的问题，同时降低外部光照和遮挡物对目标跟踪的影响。

为了实现上述目的，本发明采用的技术方案为：

一种基于轻量化SSD的DeepSort水面漂浮物多目标跟踪方法，包括以下主要步骤：

S1：借助多台摄像机获得若干水面漂浮物的连续视频帧；

S2：输入水面漂浮物视频数据，通过轻量化的SSD检测算法获取当前帧的水面漂浮物目标检测框；具体为：

所述轻量化SSD目标检测算法由骨干网络和辅助网络构成。第一，骨干网络主要参考轻量化MobileNetV2的网络结构，将MobileNetV2网络替换传统SSD检测算法中的VGG-16网络，将MobileNetV2网络卷积中的多尺度结构通过跨层连接构建特征金字塔网络(FeaturePyramidNetwork，FPN)，在MobileNetV2网络预测层中将深度可分离卷积代替传统标准卷积以降低参数和模型运算量。第二，辅助网络采用模型量化方法Quantized-CNN对深度可分离卷积的参数进行量化，量化过程主要通过改变深度可分离卷积中字空间数量和每个字空间中的字码数数量两个参数来完成。轻量化SSD检测算法获取视频目标检测框主要包括以下步骤：

(1)采用轻量化SSD目标检测算法中的特征金字塔网络获得当前帧中水面漂浮物不同尺度的特征响应图。

(2)将步骤(1)中得到的特征响应图通过轻量化SSD目标检测算法的特征提取网络MobileNetV2提取当前帧中的所有目标检测框。

(3)在步骤(2)中得到的所有目标检测框中，删除置信度低于0.7的检测框，并采用非最大值抑制方法删除冗余和重复的检测框，通过两次筛选得到当前帧中的最终目标检测框。

S3：基于视频当前帧的目标检测框采用卡尔曼滤波算法进行状态预测，获得当前视频帧下的水面漂浮物目标跟踪框；具体为：

(1)在步骤S2中通过轻量化SSD目标检测算法获得视频中第1帧中A个水面漂浮物目标检测框，将置信度作为目标检测框准确度的重要指标，代表目标检测框与目标实际框的重合率，置信度阈值设定为0.7，将A个水面漂浮物目标检测框中置信度低于0.7的目标检测框删除；非最大值抑制(NMS)是为了消除多余交叉重复的检测框，识别出最佳的漂浮物目标检测的位置，解决一个漂浮物目标被多次检测的问题。在第一次将置信度低于0.7的检测框进行删除的基础上，采用非最大值抑制将高冗余和重复检测的检测框进行第二次删除，最终得到B个目标检测框。

(2)为第1帧中的B个目标检测框中的每一个检测框分配一个卡尔曼滤波器。

(3)根据第1帧中的B个目标检测框，通过卡尔曼滤波器对第2帧中的水面漂浮物目标进行预测，获得第2帧下水面漂浮物的跟踪框。

(4)根据视频总帧数N，重复上述(1)-(3)，直到获得第N帧下的水面漂浮物目标跟踪框。

S4：计算所有水面漂浮物目标检测框和跟踪框之间的运动匹配度和表观匹配度，将运动匹配度和表观匹配度进行综合匹配得到关联代价，并构建关联代价矩阵；具体为：

采用马氏距离衡量物体检测框dj和物体跟踪框yi之间的距离d⁽¹⁾(i,j)，进而衡量运动匹配度：

其中，d_j代表第j个检测框，y_i代表第i个跟踪框，

代表卡尔曼滤波器预测得到的跟踪框与目标检测算法得到的检测框之间的协方差，T代表转置操作，t⁽¹⁾代表马氏距离特定阈值，

代表跟踪框和预测框两者的运动匹配度；当马氏距离d⁽¹⁾(i,j)≤特定阈值t⁽¹⁾时，代表跟踪框和预测框两者关联，运动匹配度为1，匹配成功。

采用余弦距离d⁽²⁾(i,j)进行衡量表观匹配度，公式如下：

其中，

代表余弦相似度，

代表第k个跟踪框，余弦距离d⁽²⁾(i,j)＝1-余弦相似度，R_i代表在跟踪器i中所有的跟踪框；t⁽²⁾代表余弦距离特定阈值；

代表跟踪框和预测框两者的表观匹配度；当最小余弦距离d⁽²⁾(i,j)≤特定阈值t⁽²⁾时，代表跟踪框和预测框两者的表观匹配成功。

基于S4中的运动匹配度和表观匹配度计算结果，进一步加权计算得到关联代价矩阵C_i,j：

C_i,j＝λd⁽¹⁾(i,j)+(1+λ)d⁽²⁾(i,j) (5)

其中，λ代表运动匹配度的权重，1+λ代表表观匹配度的权重，b_i,j代表第j个检测框和第i 个跟踪框的匹配性，当b_i,j＝1时，代表第j个检测框和第i个跟踪框初步匹配。

S5：通过匈牙利算法将水面漂浮物的关联代价矩阵C_i,j进行关联匹配，进一步确定跟踪结果，实现水面漂浮物多目标跟踪。具体为：

(1)设定马氏距离特定阈值t⁽¹⁾和余弦距离特定阈值t⁽²⁾，将t⁽¹⁾与d⁽¹⁾(i,j)进行比较，将 t⁽²⁾与d⁽²⁾(i,j)进行比较。

(2)将大于t⁽¹⁾的d⁽¹⁾(i,j)和大于t⁽²⁾的d⁽²⁾(i,j)来计算关联代价矩阵C_i,j，将所对应的目标检测框和目标跟踪框中的水面漂浮物作为一组跟踪结果。

与现有技术相比，本发明的有益效果如下：

(1)参考MobileNetV2的网络结构，将基于反向残差网络的轻量级MobileNetV2网络替代传统SSD检测网络中的VGG16基础网络，同时将特征金字塔网络结构引入到特征提取网络中以确保用于预测的特征图具有不同的尺度；应用模型量化Quantized-CNN方法对深度可分离卷积的参数进行量化，降低反向传播的参数数量和内存成本。

(2)采用基于轻量化SSD目标检测的DeepSort水面漂浮物多目标跟踪，利用匈牙利算法来解决预测框和跟踪框之间的数据关联问题，将运动匹配度和表观匹配度来进行关联度量，提高了数据关联的准确性。

(3)本发明基于轻量化SSD的DeepSort水面漂浮物多目标跟踪，降低了算法结构复杂度以及复杂水面环境对跟踪效果的影响，并通过匈牙利算法将目标物体轨迹的预测框和检测框进行数据关联匹配，降低了目标物体的误检率和漏检率，改善了光照和遮挡物的影响。

附图说明

图1是本发明的一种基于轻量化SSD算法的DeepSort水面漂浮物多目标跟踪方法流程图。

图2是卡尔曼滤波与匈牙利匹配作用示意图。

图3是本发明中提供的轻量化SSD检测网络结构示意图。

具体实施方式

为了能够为本技术领域内的人员更加清晰地理解本发明，将对本发明的具体实施内容和方式进行详细描述。但是需要明确的是，本发明不限于具体实施方式的内容，只要部分技术变化在权力要求之内，一切利于本发明构思的创造在合法保护范围之内。

如图1所示，一种基于轻量化SSD的DeepSort水面漂浮物多目标跟踪方法，具体实施流程如下：

S1：通过5个摄像头录制水面漂浮物30天时间内完整的视频帧；

S2：通过本发明中轻量化的SSD目标检测算法对水面漂浮物视频帧进行目标检测，获得视频中第i帧(i＝1,2,3……N)水面漂浮物目标的检测框；

S3：基于当前第i帧(i＝1,2,3……N)的检测框采用卡尔曼滤波算法进行状态预测，获得对应的水面漂浮物目标跟踪框；

S4：计算所有水面漂浮物目标检测框和跟踪框之间的运动匹配度和表观匹配度，将运动匹配度和表观匹配度进行综合匹配得到关联代价，并构建关联代价矩阵；

S5：通过匈牙利算法将水面漂浮物的关联代价矩阵进行关联匹配，进一步确定跟踪结果，实现水面漂浮物多目标跟踪。

具体实施例如下：

本发明中的轻量化SSD目标检测算法作为水面漂浮物目标检测工具，旨在识别出漂浮物的种类、数量以及规模等信息。轻量化的SSD目标检测算法主体结构见图3所示，由骨干网络(2a)和辅助网络(2b)组成网络模块，其中MobileNetV2的核心(2c)是由1个标准卷积层和17个反向残差模块组成。参考ResNet的残差模块，本发明采用1*1→3*3→1*1的模式，首先采用逐点卷积(Poinwise，PW)增加特征通道数，将膨胀系数设置为6，使用DW过滤大量通道的空间信息并提取特征，引入宽度乘数β∈[0,1]和分辨率乘数ρ，优化并减少模型冗余参数；其次使用PW卷积以减少通道数，通过线性转换形成低维线性瓶颈，将ReLU6代替传统的非线性激活函数ReLU，将最大输出值限制为6。调整后的反向残差模块(2d)是由1 个1*1的卷积层、1个3*3的DW卷积、批量标准化(Batch normalize，Bn)和Relu6激励函数组成。骨干网络中的特征金字塔FPN融合MobileNetV2网络的输出特征图，在不增加过多参数的情况下，能够有效提高水面漂浮物检测精度。本发明首先将特征图自上而下进行2次上采样(up-sampling)，将上采样结果与自下而上采样产生的特征图进行横向连接并融合，其次采用3*3卷积层对融合特征图进行卷积操作，动态调整每个不同比例的特征地图的大小，通过融合MobileNetV2网络获取的多尺度特征图(2e)来提高水面漂浮物检测精度。

改进后的骨干网络MobileNetV2-FPN网络参数见表1，每一行描述了一个重复n次并由一个或多个相同模块层组成的序列。其中t代表残差块中扩展的维度，c代表特征图输出的维数，s代表卷积操作的步长，n代表当前行卷积操作被重复应用次数。本发明在序列1中以标准卷积层conv2d进行操作，将卷积核设置为24，以确保完整地提取输入图像的特征信息，在序列2-8中采用瓶颈倒置残差(bottleneck)进行卷机操作，在序列9-12中采用标准卷积 conv2d进行自上而下和自下而上的特征金字塔特征提取，构建多个具有不同分辨率和强语义信息的低成本预测特征图。在序列13中采用深度可分离卷积(DW)代替传统标准卷积conv2d 进行特征预测。

表1 MobileNetV2-FPN网络参数

序列	Input(输入)	Operator(卷积类型)	t	c	n	s
							1	2562563	conv2d	-	24	1	2
2	12812824	bottleneck	1	16	1	1
							3	12812816	bottleneck	6	24	1	2
4	646424	bottleneck	6	24	2	2
							5	323224	bottleneck	6	48	3	2
6	161648	bottleneck	6	72	4	1
							7	161672	bottleneck	6	120	3	2
8	88120	bottleneck	6	120	3	1
							9	88120	conv2d	-	192	1	1
10	88192	Top-down	-	96	1	1
							11	8896	conv2d	-	96	1	1
12	4496	conv2d	-	96	1	1
							13	2296	DW	-	-	-	-

辅助网络(2b)的构建是为了量化深度可分离卷积(DW)和传统标准卷积conv2d的参数，以降低算法的计算复杂度和内存成本。本发明采用模型量化方法Quantized-CNN对卷积层进行误差量化，将每一层特征图输出的误差进行最小化，并融合前一层量化过程中的误差，将误差量化的最优目标设置为G：

式中S_n代表图像输入，T_n代表图像输出，F代表Frobenius中参数量化的近似响应，误差量化最优目标通过块坐标下降法(Block Coordinate Descent)进行优化，同时优化过程中子空间残差优化通过动态调整子码本和子码字分配来实现。因此，本研究将图像数据输入均匀划分为V个子向量S^(v)，将权重矩阵W分解为V个子空间矩阵，并生成子码本(Codebook)D^(v)，计算S^(v)和D^(v)中子码字(Codeword)，算法的计算复杂度是子码本和子码字的内积，算法的内存成本是由子码本和子码字进行动态分配，K和V越小，网络计算效率越高。

上述S2中通过轻量化的SSD检测算法获取当前帧的水面漂浮物目标检测框，具体见图2 中的(a)，漂浮物目标检测框的检测方法如下：(1)采用轻量化SSD目标检测算法中的特征金字塔网络获得当前帧中水面漂浮物不同尺度的特征响应图；(2)将(1)中得到的特征响应图通过轻量化SSD目标检测算法的特征提取网络MobileNetV2提取当前帧中的所有目标检测框；(3)在(2)中得到的所有目标检测框中，删除置信度低于0.7的检测框，并采用非最大值抑制方法删除冗余和重复的检测框，通过两次筛选得到当前帧中的最终目标检测框。。

本发明是基于轻量化SSD检测算法的检测结果，利用DeepSort多目标跟踪算法，即DeepSort算法在本发明中负责Track阶段，经轻量化SSD检测出目标检测框后，DeepSort负责对视频中每一帧图像中的目标检测框进行匹配跟踪。上述S3中基于视频当前帧的目标检测框采用卡尔曼滤波算法进行状态预测，获得对应的水面漂浮物目标跟踪框，具体见图2中的 (b)，卡尔曼滤波是通过轻量化SSD目标检测得到当前时刻的“测量值”和上一时刻的“预测量”和“误差”，计算当前的最优量，再预测下一时刻的量，用于对水面漂浮物目标运动轨迹的预测，并使用置信度较高的跟踪结果对预测结果进行修正。漂浮物目标跟踪框的获取方法如下：第一，在S2中通过轻量化SSD目标检测算法获得视频中第1帧中A个水面漂浮物目标检测框，并通过置信度阈值0.7和非最大值抑制方法两种方式筛选出B个目标检测框；第二，为第1帧中的B个目标检测框中的每一个检测框分配一个卡尔曼滤波器；第三，根据第1帧中的B个目标检测框，通过卡尔曼滤波器对第2帧中的水面漂浮物目标进行预测，获得第2 帧下水面漂浮物的跟踪框；第四，根据视频总帧数N，重复上述(1)-(3)，直到获得第N 帧下的水面漂浮物目标跟踪框。

上述S4中本发明通过计算水面漂浮物目标检测框和跟踪框之间的运动匹配度和表观匹配度，将运动匹配度和表观匹配度进行综合匹配得到关联代价，并构建关联代价矩阵，具体实施过程如下：

其中，d_j代表第j个检测框，y_i代表第i个跟踪框，

代表跟踪框和预测框两者的运动匹配度；当马氏距离d⁽¹⁾(i,j)≤特定阈值t⁽¹⁾时，代表跟踪框和预测框两者关联，运动匹配度为1，匹配成功。针对四维测量空间下设置t⁽¹⁾＝9.4877。

采用余弦距离d⁽²⁾(i,j)进行衡量表观匹配度，公式如下：

其中，

代表余弦相似度，

代表跟踪框和预测框两者的表观匹配度；当最小余弦距离d⁽²⁾(i,j)≤特定阈值t⁽²⁾时，代表跟踪框和预测框两者的表观匹配成功。t⁽²⁾从单独的训练集中获得。

C_i,j＝λd⁽¹⁾(i,j)+(1+λ)d⁽²⁾(i,j) (5)

上述S5中通过匈牙利算法将水面漂浮物的关联代价矩阵进行关联匹配，进一步确定跟踪结果，匈牙利匹配是将视频前一帧中的跟踪框与当前帧中的检测框进行关联，通过马氏距离 (Mahalanobis distance)和外观信息(Appearance information)，或者IOU来计算代价矩阵，可寻找视频前后2帧的若干目标匹配的最优解，具体见图3。具体操作如下：第一，设定马氏距离特定阈值t⁽¹⁾和余弦距离特定阈值t⁽²⁾，将t⁽¹⁾与d⁽¹⁾(i,j)进行比较，将t⁽²⁾与d⁽²⁾(i,j)进行比较；第二，将大于t⁽¹⁾和t⁽²⁾的d⁽¹⁾(i,j)和d⁽²⁾(i,j)计算关联代价矩阵C_i,j，将所对应的目标检测框和目标跟踪框中的水面漂浮物作为一组跟踪结果。

需要明确的是，本发明所实施的水面漂浮物多目标跟踪过程具有系统性，在跟踪每一帧水面漂浮物目标时，会重新计算卡尔曼滤波器增益，实时更新水面漂浮物目标物体的状态信息和协方差矩阵。

Claims

1.一种基于轻量化SSD的DeepSort水面漂浮物多目标跟踪方法，其特征在于，包括以下步骤：

S1：借助多台摄像机获得若干水面漂浮物的连续视频帧；

所述轻量化SSD目标检测算法由骨干网络和辅助网络构成；第一，骨干网络主要参考轻量化MobileNetV2的网络结构，将MobileNetV2网络替换传统SSD检测算法中的VGG-16网络，将MobileNetV2网络卷积中的多尺度结构通过跨层连接构建特征金字塔网络，在MobileNetV2网络预测层中将深度可分离卷积代替传统标准卷积以降低参数和模型运算量；第二，辅助网络采用模型量化方法Quantized-CNN对深度可分离卷积的参数进行量化，量化过程主要通过改变深度可分离卷积中字空间数量和每个字空间中的字码数数量两个参数来完成；轻量化SSD检测算法获取视频目标检测框主要包括以下步骤：

(1)采用轻量化SSD目标检测算法中的特征金字塔网络获得当前帧中水面漂浮物不同尺度的特征响应图；

(2)将步骤(1)中得到的特征响应图通过轻量化SSD目标检测算法的特征提取网络MobileNetV2提取当前帧中的所有目标检测框；

(3)在步骤(2)中得到的所有目标检测框中，删除置信度低于0.7的检测框，并采用非最大值抑制方法删除冗余和重复的检测框，通过两次筛选得到当前帧中的最终目标检测框；

(1)在步骤S2中通过轻量化SSD目标检测算法获得视频中第1帧中A个水面漂浮物目标检测框，并通过置信度阈值0.7和非最大值抑制方法两种方式筛选出B个目标检测框；

(2)为第1帧中的B个目标检测框中的每一个检测框分配一个卡尔曼滤波器；

(3)根据第1帧中的B个目标检测框，通过卡尔曼滤波器对第2帧中的水面漂浮物目标进行预测，获得第2帧下水面漂浮物的跟踪框；

(4)根据视频总帧数N，重复上述步骤(1)-(3)，直到获得第N帧下的水面漂浮物目标跟踪框；

采用马氏距离衡量物体检测框dj和物体跟踪框yi之间的距离d⁽¹⁾(i，j)，衡量运动匹配度：