CN114973167B

CN114973167B - 一种基于离线聚类的无监督对比学习的多目标跟踪方法

Info

Publication number: CN114973167B
Application number: CN202210894529.7A
Authority: CN
Inventors: 王永; 刘寒松; 王国强; 翟贵乾; 刘瑞; 焦安健
Original assignee: Sonli Holdings Group Co Ltd
Current assignee: Sonli Holdings Group Co Ltd
Priority date: 2022-07-28
Filing date: 2022-07-28
Publication date: 2022-11-04
Anticipated expiration: 2042-07-28
Also published as: CN114973167A

Abstract

本发明属于目标跟踪技术领域，涉及一种基于离线聚类的无监督对比学习的多目标跟踪方法，以离线聚类的方式进行将不同帧的同一目标聚类到一起然后计算损失学习出一个能进行关联，并且是在无监督的方式下进行的，不需要标签的信息，对于那些没有标注的数据集进行训练，有效的挖掘没有标注的数据中有用的信息，自主地进行发现和体验，寻找模式和联系并得出结论，不需要人为指导，减少了资源的浪费。

Description

一种基于离线聚类的无监督对比学习的多目标跟踪方法

技术领域

本发明属于目标跟踪技术领域，涉及一种基于离线聚类的无监督对比学习的多目标跟踪方法，能够有效的在没有标签监督的条件下对社区视频监控中的多辆车进行跟踪。

背景技术

随着人工智能与计算机视觉技术的发展以及人们对公共安全领域的日益重视，智能视频监控技术已经发展成为当前的研究热点；行人检测、跟踪、再识别与检索、目标跟踪是智能化视频监控系统中的核心关键技术，还可以为后续的更高层次的场景理解、行为分析和异常事件监控提供可靠的数据支持。

近年来，随着大数据、云计算、人工智能等领域日新月异的发展及交互融合，智慧电商、智慧交通、智慧城市等概念越发受到关注。随着人们对更智能、更便捷、更高质量生活的向往，同时伴随着重大的学术价值和广阔的商业前景，众多高校、科研机构、政府部门均对相关产业投入了大量的人力、物力和财力；人工智能，被喻为新时代工业革命的引擎，正在悄然渗入到各行各业并改变着我们的生活方式。计算机视觉是人工智能领域的重要分支，旨在研宄如何让计算机像人类视觉系统一样智能地感知、分析、处理现实世界，以图像和视频为信息载体的各项计算机视觉算法，早己渗透到大众的日常生活中，如人脸识别、人机交互、商品检索、智能监控、视觉导航等，视频目标跟踪技术，作为计算机视觉领域中基础的、重要的研宄方向之一，一直是研宄人员的关注热点。

现有的多目标跟踪方法都是有监督的，这对于数据是有要求的，必须都是有标签的，才能进行训练，而根据实际情况来说，数据是有的，而且很多，可是被整理过的数据就太少了，这意味着这些数据对于大多数目前的监督式学习来说是不可用的，但是深度学习尤其依赖于大量良好的、结构化的、有标签的数据；另外，在训练一个复杂的模型，如深度神经网络时，使用小数据集可能会导致所谓的过度拟合，这是深度学习中一个常见的问题，过度拟合是由于大量可学习参数与训练样本有关联导致的。结果可以是一个能够记住这些训练数据的模型，而不是从数据中学习一般概念的模型。于是我们的发明就提出了一种基于离线聚类的无监督对比学习的多目标跟踪方法，网络能够自动学习数据本来的一些共性和差异性以及一些高级特征，这就不需要我们人为的去对其进行改动，大大减少了资源的消耗。

发明内容

本发明的目的在于解决多目标跟踪中对于数据集标注的依赖，并且目前多目标跟踪主要用的数据集都不大导致设计的算法对于数据集过拟合的问题，设计提出一种基于离线聚类的无监督对比学习的多目标跟踪方法，自动学习数据本来的一些共性和差异性以及一些高级特征，无需人为的去对数据进行改动，减少资源消耗。

为实现上述目的，本发明实现多目标跟踪的具体过程如下：

（1）、离线过程训练一个特征提取网络，先将所有帧输入到检测器，检测出所有帧中的所有车辆后输入到特征提取网络，获得所有车辆的特征向量；

（2）、对检测出的所有车辆使用密度聚类DBSCAN算法进行聚类，将不同帧的同一车辆聚类到同一类中，并计算损失，再更新特征提取网络，经过多轮聚类，学习出一个能提取出特征物体判别性特征的特征提取网络；

（3）、将步骤（2）学习好的特征提取网络用于在线跟踪，先将跟踪视频的视频帧送入主干网络中，获得当前帧的特征图，再将特征图送入到检测器中检测出当前帧中的所有车辆；

（4）、将上一帧的特征图与当前帧的特征图进行点积计算，获得两帧之间的相似度图，根据相似度图，然后求出上一帧的一个点（k,l）在当前帧所在的位置分别在水平和垂直方向的位置的概率；

（5）、根据步骤（4）得到的两帧每点出现在当前帧水平方向位置和垂直方向的概率，求出当前帧根据上一帧的位移量，然后将位移量和上一帧的特征图作为可行变卷积网络的输入，获得上一帧增强的特征图，通过上一帧增强的特征图增强当前帧的特征图；

（6）、根据步骤（2）检测出的所有车辆，得到其检测框后将其在步骤（5）经过增强的特征图上切割下来送入到步骤（2）学习好的特征提取网络中，得到每辆车的特征向量，并且将第一帧的所有车辆特征向量初始化模板特征池中的每一个类中心的特征向量；

（7）、将当前帧与之前的轨迹进行关联，即与模板特征池中的类中心特征向量计算相似度，根据相似度进行关联，并且根据关联的结果对模板特征池中的类中心特征向量使用动量更新的方式进行更新；

（8）、经过30帧的跟踪关联后，对于模板特征池长时间未进行更新的类中心特征向量删除，并特征提取网络进行更新，以便其更适合当前的跟踪任务，实现多目标跟踪。

作为本发明的进一步技术方案，所述步骤（1）具体包括如下步骤：

（11）、将所有的视频帧

输入到检测器CenterNet中，然后检测出当前帧的中心点热度图

和检测出的每辆车的尺寸

，以及每个物体的中心点的偏移量

，其中H和W分别为视频帧的高度和宽度；

（12）、然后根据步骤（11）中获得的中心点热度图和尺寸以及偏移量获得每辆车的位置以及对应的检测框；

（13）、根据步骤（12）获得的每辆车所在的检测框，然后将其切割下来输入到特征提取网络中获得每辆车的特征向量。

作为本发明的进一步技术方案，所述步骤（2）具体包括如下步骤：

步骤（21）、对步骤（13）获得的所有车辆的特征向量使用密度聚类算法DBSCAN，将不同帧的同一车辆聚类到同一个类中，并赋予同样的id；

步骤（22）、根据步骤（21）聚类的结果，同一类的车辆视为正样本，不同类的车辆视为负样本然后计算损失函数值，从而拉大不同类即不同车辆之间的距离，缩小不同帧的同一车辆之间的距离；

步骤（23）、根据步骤（21）将所有车辆聚类后的结果对特征池中的类中心特征进行更新，先将同一类中的所有车辆特征向量进行求和再求平均值，然后再使用动量更新的方式更新特征池中该类中心的特征向量，并且根据步骤（22）计算的损失函数值反向传播，更新特征提取网络；

步骤（24）、经过多轮聚类和更新过程后，学习出一个能提取出目标判别性特征的特征提取网络。

作为本发明的进一步技术方案，所述步骤（3）具体包括如下步骤：

步骤（31）、将视频帧送入到主干网络后，得到特征图；

步骤（32）、将特征图送入到检测器中检测出当前帧的所有车辆，并得到车辆的检测框。

作为本发明的进一步技术方案，所述步骤（4）具体包括如下步骤：

步骤（41）、将上一帧的特征图与当前帧的特征图进行点积运算，得到了两帧之间各位置之间的相似度图；

步骤（42）、将相似度图输入两个最大池化层得到了上一帧的点（k，l）出现在当前帧的水平方向位置和垂直方向位置的概率。

作为本发明的进一步技术方案，所述步骤（5）具体包括如下步骤：

步骤（51）、根据步骤（42）求出的上一帧点（k，l）出现在当前帧的水平方向和垂直方向的位置的概率，计算出对应的在两个方向的位移；

步骤（52）、根据步骤（51）求得的位移量，将其和上一帧的特征图作为可行变卷积的输入，从而获得经过增强的特征图；

步骤（53）、对当前帧的特征图进行增强，即将步骤（52）经过可行变卷积的上一帧特征图增强到当前特征图。

作为本发明的进一步技术方案，所述步骤（6）具体包括如下步骤：

步骤（61）、将之前检测出的当前帧的所有车辆，将其检测框从步骤（53）经过增强的特征图上给切割下来；

步骤（62）、将步骤（61）中切割下来的每辆车送入到步骤（2）中学习好的特征提取网络中获得每辆车的特征向量，并且在第一帧的时候初始化模板特征池中，将第一帧的每一辆车的特征向量作为模板特征池中的每一类的类中心特征向量。

作为本发明的进一步技术方案，所述步骤（7）具体包括如下步骤：

步骤（71）、计算当前帧所有车辆的特征向量与模板特征池中的所有类中心特征向量计算余弦相似度作为其相似度度量；

步骤（72）、根据求得的余弦相似度去将当前帧车辆与模板中的类中心进行关联，距离越小相似度越高，根据相似度将当前帧与模板帧中的类中心进行关联；

步骤（73）、根据步骤（72）的关联结果对模板特征池进行更新维护，对于当前帧车辆与模板特征池中的类中心关联上的，则使用动量更新的方式类中心特征向量进行更新，对于没关联上的类中心则不进行更新。

作为本发明的进一步技术方案，所述步骤（8）具体包括如下步骤：

步骤（81）、每经过30帧的跟踪后，对模板特征池中20帧未经过更新的类中心特征向量删除，因为经过长时间未经过更新的车辆类中心即可视为已经离开了摄像头拍摄的视频区域，则不需要再对它进行更新维护；

步骤（82）、对模板特征池中的长时间未更新的类中心特征向量删除后，再对计算损失函数，对特征提取网络进行更新即进行步骤（22）和步骤（23）过程，以便学习出更适应当前跟踪任务的特征提取网络从而更适应当前的跟踪任务。

本发明先使用无监督对比学习的方法训练出一个能提取出具有判别性特征的特征提取网络，将视频里所有目标送入特征提取网络获得每个目标的特征向量，然后使用聚类将同一目标聚类到一起，然后将同一目标都是为正样本，其他目标视为负样本计算损失函数然后更新特征提取网络，经过多轮聚类更新后训练出一个能提取出判别性特征的特征提取网络，再通过上一帧与当前帧计算各个点之间的相似度，求出每个点在两帧之间的偏移量，送入可行变卷积网络中对当前帧特征图进行增强，最后再将当前帧的车辆的特征送入训练好的特征提取网络得到每辆车的特征向量，计算与模板特征池中的类中心特征向量的相似度，根据相似度进行关联。

本发明与现有技术相比，以离线聚类的方式进行将不同帧的同一目标聚类到一起然后计算损失学习出一个能进行关联，并且是在无监督的方式下进行的，不需要标签的信息，对于那些没有标注的数据集进行训练，有效的挖掘没有标注的数据中有用的信息，自主地进行发现和体验，寻找模式和联系并得出结论，不需要人为指导，减少了资源的浪费。

附图说明

图1为本发明的工作流程图。

图2为本发明的网络结构图。

图3为离线训练特征提取网络的结构图。

具体实施方式

下面通过实施例并结合附图对本发明作进一步说明。

实施例：

本实施例实现多目标跟踪的工作流程如图1所示，网络结构如图2所示，具体过程如下：

（2）、对检测出的所有车辆使用密度聚类DBSCAN算法进行聚类，将不同帧的同一车辆聚类到同一类中，并计算损失，再更新特征提取网络，经过多轮聚类，学习出一个能提取出特征物体判别性特征的特征提取网络，如图3所示；

对于步骤（1），将视频帧

输入到检测器CenterNet中，然后检测出当前帧的中心点热度图

和每个点的物体的尺寸

，以及每个物体的中心点的偏移量

，然后根据获得的中心点热图和尺寸以及偏移量可以获得每个目标的位置，得到目标的检测框，再将其从特征图中切割下来送入到特征提取网络获得每个目标的特征向量。

对于步骤（2），基于聚类的无监督对比学习过程主要由以下四个步骤完成，如图3所示，对三帧图像内的目标进行聚类，具体实现过程如下：

步骤（22）、根据步骤（21）聚类的结果，为了增大不同目标之间的距离，拉进同一目标之间的距离，于是将各个帧的同一目标作为正样本，其他的目标都作为负样本来计算损失函数，损失函数如下：

其中

是该类中心的特征向量，q是该类的正样本，K是所有类的个数，

是温度参数；

步骤（23）、根据步骤（21）将所有车辆聚类后的结果对特征池中的类中心特征进行更新，先将同一类中的所有车辆特征向量进行求和再求平均值，再使用动量更新的方式更新特征池中该类中心的特征向量，并且根据步骤（22）计算的损失函数值反向传播，更新特征提取网络；

对于步骤（3），离线学习好一个特征提取网络后，就开始在线跟踪，先将当前帧送入到主干网络后得到当前帧的特征图，然后送入检测器中得到了当前帧所有车辆的位置以及检测框。

对于步骤（4），根据步骤（3）获得的当前帧的特征图，结合上一帧的特征计算出上一帧的每个点到当前帧的位置的概率，具体实现过程如下：

步骤（41）、先将上一帧的特征图和当前帧的特征图进行点积运算得到两帧的每个点之间的相似度，计算方式如下：

步骤（42）、根据步骤（41）计算出的两帧的每个点之间的相似度，将其通过两个最大池化层，分别获得每个点在当前帧的水平方向的每个位置的概率和在当前帧的垂直方向的每个位置的概率，获得在当前帧水平方向各位置的概率：将相似度图经过一个

的最大池化层，然后再将结果输入softmax函数，使其归一化，也就获得了在当前帧垂直方向各个位置的概率

，同样的将其送入一个

的最大池化层，然后再将结果输入softmax函数，使其归一化，也就获得了在当前帧水平方向各个位置的概率

。

对于步骤（5），基于步骤（4）所求的概率求出对应在每个方向上的位移，从而对当前帧特征图进行增强，具体实现过程如下：

步骤（51）、由步骤（42）求得的概率求出分别在水平方向和垂直方向的位移量，即将出现在该点的概率乘以两点之间的水平方向或者垂直方向的距离，公式如下：

上一帧的点（i，j）在当前帧水平方向位置为k之间的距离为：

，

则水平方向的偏移量为：

，

上一帧的点（i，j）在当前帧垂直方向位置为l之间的距离为：

，

则垂直方向的偏移量为：

，

步骤（52）、将步骤（51）求得的偏移量和上一帧的特征图送入可行变卷积网络中得到将其增强的特征图，即：

；

步骤（53）、将步骤（52）经过增强的上一帧特征图增强到当前帧的特征图上，即：

。

对于步骤（6），先将步骤（3）检测出的当前帧所有车辆的检测框从步骤（53）经过增强后的当前帧的特征图上切割下来送入到步骤（2）中学习好的特征提取网络中获得了当前帧每辆车的特征向量。并且在当前帧是第一帧的时候对模板特征池进行初始化，第一帧的时候所有车辆特征向量为模板特征池中每一个类中心的特征向量。

对于步骤（7），将当前帧的所有车辆与所有轨迹进行关联，即将当前车辆的特征向量与特征模板池中的类中心特征向量计算相似度，然后再根据相似度进行关联，具体实现过程如下：

步骤（71）、计算当前帧中所有车辆的特征向量与模板特征池中的类中心特征向量的余弦相似度作为相似度的衡量值，余弦相似度越大则相似度越高，计算公式如下：

其中

是当前帧第i辆车的特征向量，

是模板特征池中第j类的特征向量。

步骤（72）、计算出当前帧所有车的特征向量与模板特征池中所有类中心的相似度后，根据相似度进行关联，将当前帧车辆按照相似度最大的那个类中心进行关联，并且进行关联的类中心的相似度必须高于阈值

这是为了防止当前帧车辆与模板特征池中所有的类中心相似度都很低而导致的错误关联，将未进行关联的当前帧车辆设为新的车辆；

步骤（73）、根据步骤（72）关联的结果，对成功关联的车辆与类中心，对类中心特征向量使用动量更新的方式进行更新，公式如下：

，

其中

是当前帧第i辆车的特征向量，

是与

关联上的模板特征池中第j类的特征向量；

对于新的车辆，则在模板特征池中新增加一个类中心，其特征向量就是该车辆的特征向量，对于未关联上的类中心，则不对其做任何处理。

对于步骤（8），每经过30帧的跟踪后，对模板特征池进行更新维护，对于已经不在视频中的车辆没有进行维护的必要，即对于模板特征池中已经有20帧未进行更新的类中心特征向量删除。然后再计算损失函数，更新特征提取网络，使其更适应当前任务。

本实施例能够在数据没有进行标注的情况下照样可以进行训练学习，与有监督的方法相比，省去了大量的人力用于在对数据进行打标签上的耗费，并且可以用来训练的数据量很多，而有监督的方法训练的数据很少而且很有限，无监督对比学习能够自主从大量数据之间学习同类数据的相同特性，将其编码为高级特征，使用这些高级特征能将不同帧的车辆进行关联。

以上公开的仅为本发明的具体实施例，根据本发明提供的技术思想，本领域的技术人员能思及的变化，都应落入本发明的保护范围内。