CN117036405A

CN117036405A - 一种融合多粒度动态外观的抗遮挡目标跟踪方法

Info

Publication number: CN117036405A
Application number: CN202311004401.XA
Authority: CN
Inventors: 付立军; 刘晓静; 李旭; 武靖恺; 胡蝶; 王兴
Original assignee: Zhongke Zhihe Digital Technology Beijing Co ltd
Current assignee: Zhongke Zhihe Digital Technology Beijing Co ltd
Priority date: 2023-08-10
Filing date: 2023-08-10
Publication date: 2023-11-10

Abstract

本发明属于多目标跟踪领域。提供了一种融合多粒度动态外观的抗遮挡目标跟踪方法。目的在于解决现有技术中存在的目标ID跳变、遮挡场景下跟踪效果受到影响的技术问题。主要方案包括获取原始图像。对原始图像调用目标检测器得到目标检测结果，将目标检测结果中的目标图像提取得到目标外观特征；计算得到视频帧的目标外观贡献度因子α；基于前一帧的目标检测结果，得到当前帧的目标运动特征。对目标外观特征、目标外观贡献度因子α、目标运动特征进行数据融合，得到目标相似度。对两帧中目标进行级联匹配和IOU匹配，并为各目标分配ID。按照同一ID关联目标在各帧中的位置，得到同一目标ID在图像序列中的运行轨迹，从而输出目标跟踪结果。

Description

一种融合多粒度动态外观的抗遮挡目标跟踪方法

技术领域

本申请提案属于计算机视觉中的MOT(mutil-object tracking)多目标跟踪领域。提供了一种融合多粒度动态外观的抗遮挡目标跟踪方法。

背景技术

视频跟踪是计算机视觉中的一项重要任务，是指对视频序列中的目标状态进行持续推断的过程，其任务在于通过对视频中的每一帧中定位目标，以生成目标的运动轨迹。视频跟踪技术在军事和民用方面都有着十分广泛的应用，军事方面包括无人飞行器、空中预警、战场监视等；民用方面包括移动机器人、智能视频监控、智能交通系统、人机交互、虚拟现实等。

当目标被其它物体遮挡、背景干扰、移动至视野外时会造成目标的部分特征损失或全部损失，使前后帧无法关联匹配成功，造成目标丢失和跟踪失败，当遮挡恢复后重新识别造成目标ID跳变，使得跟踪结果受到影响，是目标跟踪任务中的挑战。

与本提案接近的现有技术方案

SORT算法(Simple Online and Realtime Tracking)

SORT的基本原理是基于目标检测算法得到的目标框Detections，利用卡尔曼滤波进行目标行为的预测Tracks，并通过匈牙利算法将Detections和Tracks进行IOU匹配。

(1)卡尔曼滤波

卡尔曼滤波通过目标框当前帧的状态，可以预测下一帧的目标框状态。其中，目标的运动状态定义为8个正态分布的向量。基于当前帧目标的状态对下一帧预测的过程如下：

首先认为预测值和观测值都存在误差，且误差都符合高斯分布；

然后假设预测值的误差为Q，观测值的误差R；

结合Q和R计算卡尔曼增益，并综合预测值和观测值的结果，得到最优估计。

(2)匈牙利算法

匈牙利算法解决的是一个分配问题，通过计算前后两帧的IOU来构建相似度矩阵，然后进行数据匹配，并根据匹配结果确定目标ID。其主要处理过程如下：

将Detect的目标框与Track的预测框进行IOU匹配

再通过IOU匹配的结果计算其代价矩阵

将代价矩阵作为匈牙利算法的输入得到匹配结果，匹配结果包括三种情况：

Unmatched Track：匹配失败，Detection和Track无法进行匹配，如果连续Tost次匹配失败，则该目标ID将从图片中删除。

Unmatched Detections：说明没有任意一个Track能匹配Detection，所以要为这个detection分配一个新的track。

Matched Tracks：表示匹配成功，然后基于Kalman Filter更新匹配的Track。

DeepSORT算法

DeepSORT在SORT的基础上添加了CNN网络模型提取检测框的外观特征，将外观特征和运动特征融合后计算成本矩阵，并采用级联匹配(Matching Cascade)和新轨迹状态确认，减少了目标ID switch次数。

加入CNN网络提取目标外观特征

DeepSORT加入一个深度学习的CNN网络来提取目标框的外观特征，在每帧检测和跟踪后，进行一次目标外观特征的提取并保存。

通过搭建一个CNN来完成训练，使其拥有区分同一类别不同目标的能力，使用网络的中间层来为构建外观特征提取器。在得到各个目标的特征向量后，就可以计算两两之间的最小余弦距离。

将外观特征和运动特征结合后计算相似度

运动特征提供了目标可能的位置信息，这在短期预测中非常有效；外观特征更多考虑的是预测信息和轨迹信息的外观特征差异，当跟踪对象位移较少时，对恢复遮挡后的目标判定比较有效。故计算相似度矩阵时使用到了外观模型(ReID的Cosine Distance余弦距离)和运动模型(Mahalanobis Dinstance马氏距离)通过加权方式来计算相似度。

增加级联匹配Matching Cascade和状态确认

级联匹配过程是一个循环过程，从missing age＝0到missage age＝70的轨迹和Detection进行匹配，对没有丢失过的轨迹优先被匹配，丢失较为较为久远的靠后匹配，并且在匹配时增加了状态确认的判断，减少目标跳变的问题。

现有技术方案的缺点：

SORT：在Sort算法中，仅仅通过IOU进行匹配虽然速度非常快，但是ID Switch(对于同一目标，由于跟踪算法误判，导致的目标ID跳变)非常大。特别是在遮挡场景下，卡尔曼滤波一直不断的预测，但是却不进行更新，造成代价矩阵变小，容易导致未指定的Track错误匹配其他的detect，所以ID Switch比较频繁。

Deep-SORT：

1.跟踪算法效果高度依赖于检测器，但未对检测器所输出目标框的置信度进行算法上的相关判断和处理，这会使得某些场景(如，遮挡)时的跟踪效果受到影响。

2.提取目标特征时引入了外观特征，但所采用的是CNN网络，用到的参数量大且性能不高。

发明内容

本发明的目的在于解决现有技术中存在的目标ID跳变、遮挡场景下跟踪效果受到影响的技术问题。

为了实现上述目的本发明采用以下技术方案：

一种融合多粒度动态外观的抗遮挡目标跟踪方法，包括以下步骤：

步骤1：对视频流中的图像逐帧读取得到原始图像。

步骤2：对原始图像调用目标检测器得到目标检测结果，包括：置信度、目标图像。

步骤3：将目标检测结果中的目标图像送入预训练的多粒度网络模型，提取得到目标外观特征；

步骤4：基于目标检测结果中的置信度，计算得到视频帧的目标外观贡献度因子α；

步骤5：基于前一帧的目标检测结果，采用卡尔曼滤波进行预测和更新得到当前帧的目标运动特征。

步骤6：对目标外观特征、目标外观贡献度因子α、目标运动特征进行数据融合，综合计算相邻两帧中的目标相似度。

步骤7：基于得到的相邻两帧中的目标相似度采用匈牙利算法，对两帧中的所有目标进行级联匹配和IOU匹配，并为各目标分配ID。

步骤8：按照同一ID关联目标在各帧中的位置，得到同一目标ID在图像序列中的运行轨迹，从而输出目标跟踪结果。

上述技术方案中，步骤3包括以下步骤：

步骤3.1、多粒度网络模型的预训练过程，包括如下步骤：

3.1.1：对ReID数据集进行数据增强处理得到仿遮挡的ReID数据集，其中ReID数据集是指已经按目标框扣图的数据集；

步骤3.1.1具体包括如下步骤：输入对象：ReID原始数据集，采用GridMask方法对ReID数据集中的目标框进行网格化删除，并控制删除区域的密度、大小和形状，从而使得图像区域不被过度遮罩和保留，达到合理的平衡；

将ReID数据集中的一部分区域按步骤3.1.1删除后，随机提取其它ReId数据集中图像的像素值填充到删除区域中，得到仿遮挡ReID数据集。

3.1.2将仿遮挡的ReID数据集划分为测试集和训练集；

3.1.3构建多粒度网络模型的多粒度特征融合网络，具体包括如下步骤：

3.1.3.1、使用Resnet50作为骨干网络，前三层通过卷积提取图像基础特征；

3.1.3.2、在主干网络的第三层之后，构建四个多粒度特征分支，分别为：全局粗粒度特征提取分支、横向分割的细粒度特征提取分支、纵向分割的细粒度特征提取分支、通道分割的细粒度特征提取分支，基于图像基础特征，通过各粒度分支提取得到图像的图像多粒度特征；

3.1.3.3、将图像多粒度特征连接至最大池化层，计算最大值后得到融合了全局特征和局部特征的图像外观特征；

3.1.3.4、最大池化处理后连接至全连接层，基于图像外观特征，输出图像重识别分类结果。

3.1.4、使用训练集对多粒度网络模型进行训练，训练过程中使用损失函数作为监督学习的信号，其中，全局粗粒度特征提取分支采用Softmax Loss交叉熵损失函数和Triplet Loss三元组损失函数计算损失，三个局部细粒度特征提取分支采用Softmax Loss交叉熵函数计算损失，训练得到模型权重，即得到训练好的多粒度网络模型。

3.1.5、使用测试集图像作为输入，验证多粒度网络模型的输出效果，主要是用测试集验证模型效果，防止模型对于训练集效果好而测试集不适用的过拟合现象。

3.2、在线跟踪时的调用过程

由于在线跟踪时只需要获取图像外观特征，故调用时剥离掉全连接层，将目标检测结果中的目标图像作为输入，调用训练好的多粒度网络模型得到目标外观特征。

上述技术方案中，步骤4中目标外观贡献度因子α：

其中S_det为某一时刻视频帧中目标检测结果的置信度，Ω为过滤噪声检测的置信度阈值，当S_d叶＝1时，a为1即动态因子取得最大值，Sdet≤Ω时取得最小值0。

上述技术方案中，步骤5中：

目标运动特征：卡尔曼滤波该算法将目标的运动特征定义为8个正态分布的向量，分别为：(u，v，γ，h，u^·，v^·，γ^·，h^·)，分别表示bounding box中心点的位置坐标(u，v)、纵横比γ、高h以及求导后得到的速度信息(u^·，v^·，γ^·，h^·)；

预测过程：当目标移动时，卡尔曼滤波通过前一帧的目标图像位置和速度参数计算预测得出当前帧目标的运动特征，即位置和速度；

更新过程：将基于前一帧的预测值和当前帧实际的观测值进行线性加权计算得到当前帧最优的运动状态估计结果，其中观测值是本帧实际观测到的运动特征。

上述技术方案中，步骤6中：目标相似度采用距离进行度量，属于同一目标时距离较小，不同目标时距离较大：

目标外观特征采用余弦距离，记为d₁；

目标外观贡献度因子由步骤4得到，记为a；

目标运动特征采用马氏距离，记为d₂；

将外观特征和运动特征进行加权，计算目标相似度D：

D＝(θ*a)*d₁+(1-θ*a)*d₂

其中，θ为超参数，取值范围为0，1，用于设置外观特征和运动特征的影响度；a为每帧的动态参数用于对置信度不同的目标赋予不同的权重。

上述技术方案中，步骤7中：匈牙利算法基于当前帧目标检测的所有检测目标集和通过卡尔曼滤波预测得到的当前帧的所有的轨迹集，采用目标相似度计算方法构建相似度矩阵，对检测目标集和轨迹集进行级联匹配，当级联匹配未成功时再采用IOU匹配，从而解决目标的ID分配问题；

其中，轨迹集中的每个轨迹都包含一个轨迹id，用以表示分配给这个轨迹的目标的ID，state表示轨迹的状态。

检测目标与轨迹的级联匹配：使用相似度矩阵进行匹配时采用级联匹配的优先级策略，对没有丢失过的轨迹优先匹配，丢失较为久远的就靠后匹配；

匹配结果：检测检测目标集和轨迹集匹配结果共有如下几种情况：

(1)检测目标和轨迹匹配，也就是Matched Tracks，指匹配成功；

(2)检测目标没找到匹配的轨迹，也就是Unmatched Detections，指图像中突然出现新的目标，检车目标无法在之前的轨迹找到匹配的目标；

(3)轨迹没有找到匹配的检测目标，也就是Unmatched Tracks，指连续跟踪的目标从图像区域中移出，轨迹无法与当前任意一个检测目标匹配。

轨迹状态确认：为使算法具有更强的鲁棒性，对于新轨迹的创建、丢失轨迹的删除均需确认后再执行，以轨迹删除为例说明：对于之前已确定匹配成功的情况，当不能连续匹配时仍然保留，超过阈值时再进行删除；确认过程通过在轨迹的信息中的State状态实现，State共包含如下三种状态：

(1)Tentative：不确定状态，这种状态会在初始化一个轨迹的时候分配，只有在连续匹配上n_init帧之后才会转变为确定态，如果在处于不确定态的情况下没有匹配上任何检测目标，那么将转变为删除状态，n_init是一个算法参数，只有在连续几次都匹配成功的情况下，才给分配ID。这是为了避免误匹配造成ID跳变问题。

(2)Confirmed：确定态，表示轨迹确实处于匹配状态，如果当前轨迹属于确定态，但是失配连续达到max_age次数的时候就会转变为删除态。max_age一般默认值为70，可以人工调整阈值。设置此参数的问题是为了避免目标在一段时间内被遮挡的情况下而造成匹配失败，误删除后目标再次出现时重新分配ID而造成的ID跳变问题。

(3)Deleted：删除态，说明该轨迹已经失效。

更新轨迹集：根据轨迹匹配结果，通过卡尔曼滤波器更新轨迹集中每个轨迹的状态。

分配目标的ID：按照轨迹匹配结果为识别到的目标分配唯一ID。

因为本发明采用以上技术方案，因此具备以下有益效果：

一、基于置信度的外观贡献度因子

本发明设置了基于置信度的目标外观贡献度因子，在计算目标相似度时能够对外观权重进行适应性动态调整，当置信度低时降低外观特征所占权重，置信度高时提升权重，提升目标跟踪算法的鲁棒性。

二、多粒度特征融合网络模型

本发明将原DeepSORT算法中的CNN网络替换为多粒度特征融合网络MGN，充分利用全局粗粒度特征、横向分割的细粒度特征、纵向分割的细粒度特征，通道分割的细粒度特征，可以有效提取结构性全局信息和辨识度强的局部信息，显著提升遮挡情况下的特征提取效果。

三、仿遮挡数据集

本发明融合了GridMask和Cutmix两种数据增强技术得到仿遮挡数据集，为优化算法提供了数据基础。GridMask通过网格化删除得到新数据时对删除区域的密度、大小、形状进行控制，使得图像区域不被过度遮罩和保留，达到合理的平衡。Cutmix采取其它图像填充的方式能够模拟目标遮叠的效果，同时可让模型同时学习两个目标的特征更为高效。

四、通过深度学习网络模型提取目标外观特征，并将外观特征和基于运动的线索相结合，从而建立目标之间的关联。目标关联任务被建模为查询匹配问题。

附图说明

图1为本发明流程图；

图2为多粒度网络模型的预训练过程图；

图3为本发明检测结果示例图。

具体实施方式

以下将对本发明的实施例给出详细的说明。尽管本发明将结合一些具体实施方式进行阐述和说明，但需要注意的是本发明并不仅仅只局限于这些实施方式。相反，对本发明进行的修改或者等同替换，均应涵盖在本发明的权利要求范围当中。

另外，为了更好的说明本发明，在下文的具体实施方式中给出了众多的具体细节。本领域技术人员将理解，没有这些具体细节，本发明同样可以实施。

步骤1：对视频流中的图像逐帧读取得到原始图像。

步骤2：对原始图像调用目标检测器得到目标检测结果，包括：置信度、目标框、目标图像特征。

步骤3：对目标检测结果按照目标框扣图后，送入预训练的多粒度网络模型，提取得到目标的外观特征。

步骤3具体的包括以下步骤：

步骤3.1多粒度网络模型的预训练过程

3.1.1对ReID原始数据集进行数据增强处理得到仿遮挡的数据集

输入对象：ReID原始数据集

手段：

采用GridMask方法对目标框进行网格化删除，并控制删除区域的密度、大小和形状。从而使得图像区域不被过度遮罩和保留，达到合理的平衡。

将目标框数据集的一部分区域按步骤1删除后，再借鉴Cuxmix技术的思想，随机提取其它目标框图像数据集中的像素值填充到删除的区域中，从而得到仿遮挡的预训练数据集。

得到结果：仿遮挡的目标框数据集。

3.1.2将仿遮挡的ReID数据集划分为测试集和训练集。

3.1.3构建多粒度特征融合网络

3.1.3.1、使用Resnet50作为骨干网络，前三层用于提取目标图像的基础特征。

3.1.3.2、使用多粒度特征分支层提取目标图像的多粒度特征。在主干网络ResNeSt-50的第三层之后，划分为四个分支。分别为：

全局粗粒度特征提取分支

横向分割的细粒度特征提取分支

纵向分割的细粒度特征提取分支

通道分割的细粒度特征提取分支

3.1.3.3、多粒度特征的各个分支输出之后连接至最大池化层，提取最值得到图像的特征表示。

3.1.3.4、最大池化处理后连接至全连接层，识别最终结果。

3.1.3.5、为了获取综合的识别能力，最终将全局信息和局部信息串接形成综合的目标外观特征。使用损失函数作为监督学习的信号。全局分支采用Softmax Loss交叉熵损失函数和Triplet Loss三元组损失函数计算损失，三个局部细粒度分支采用Softmax Loss交叉熵函数计算损失。

3.1.4使用训练集对模型进行训练，得到模型权重。

使用ReID测试集图像作为输入，输入多粒度网络模型，得到与测试图像匹配的图像列表。

步骤3.2在线跟踪时的调用过程

步骤4：基于目标检测结果中的置信度，计算得到视频帧的目标外观贡献度因子α

其中S_det为某一时刻视频帧中目标检测结果的置信度，Ω为过滤噪声检测的置信度阈值，当S_det＝1时，α为1即动态因子取得最大值，Sdet＜Ω时取得最小值0。

步骤5：基于前一帧的目标检测结果，卡尔曼滤波进行预测和更新得到当前帧的目标运动特征。

目标运动特征：卡尔曼滤波该算法将目标的运动特征定义为8个正态分布的向量。分别为：(u，v，γ，h，u^·，v^·，γ^·，h^·)，分别表示boundingbox中心的位置、纵横比、高度以及在图像坐标中对应的速度信息。

预测过程：当目标移动时，卡尔曼滤波通过上一帧的目标框和速度等参数计算预测得出当前帧目标框的位置和速度等运行状态。

更新过程：将预测值和观测值进行线性加权计算得到最优的状态估计结果。

目标外观特征采用余弦距离，记为d₁；

目标外观贡献度因子由步骤4得到，记为a；

目标运动特征采用马氏距离，记为d₂；

将外观特征和运动特征进行加权，计算目标相似度D：

D＝(θ*a)*d₁+(1-θ*α)*d₂

步骤7中：匈牙利算法基于当前帧目标检测的所有检测目标集和通过卡尔曼滤波预测得到的当前帧的所有的轨迹集，采用目标相似度计算方法构建相似度矩阵，对检测目标集和轨迹集进行级联匹配，当级联匹配未成功时再采用IOU匹配，从而解决目标的ID分配问题；

(1)检测目标和轨迹匹配，也就是Matched Tracks，指匹配成功；

(3)Deleted：删除态，说明该轨迹已经失效。

步骤8：输出目标跟踪结果，即目标在图像序列中的运行轨迹。

Claims

1.一种融合多粒度动态外观的抗遮挡目标跟踪方法，其特征在于，包括以下步骤：

步骤1：对视频流中的图像逐帧读取得到原始图像；

步骤2：对原始图像调用目标检测器得到目标检测结果，包括：置信度、目标图像；

步骤5：基于前一帧的目标检测结果，采用卡尔曼滤波进行预测和更新得到当前帧的目标运动特征；

步骤6：对目标外观特征、目标外观贡献度因子α、目标运动特征进行数据融合，综合计算相邻两帧中的目标相似度；

步骤7：基于得到的相邻两帧中的目标相似度采用匈牙利算法，对两帧中的所有目标进行级联匹配和IOU匹配，并为各目标分配ID；

2.根据权利要求1所述的一种融合多粒度动态外观的抗遮挡目标跟踪方法，其特征在于，步骤3包括以下步骤：

步骤3.1、多粒度网络模型的预训练过程，包括如下步骤：

3.1.2将仿遮挡的ReID数据集划分为训练集和测试集；

3.1.4、使用训练集对多粒度网络模型进行训练，训练过程中使用损失函数作为监督学习的信号，其中，全局粗粒度特征提取分支采用Softmax Loss交叉熵损失函数和TripletLoss三元组损失函数计算损失，三个局部细粒度特征提取分支采用Softmax Loss交叉熵函数计算损失，训练得到模型权重，即得到训练好的多粒度网络模型；

3.1.5、使用测试集图像作为输入，验证多粒度网络模型的输出效果；(主要是用测试集验证模型效果，防止模型对于训练集效果好而测试集不适用的过拟合现象。)

3.2、在线跟踪时的调用过程

3.根据权利要求1所述的一种融合多粒度动态外观的抗遮挡目标跟踪方法，其特征在于，步骤4中目标外观贡献度因子a：

其中S_det为某一时刻视频帧中目标检测结果的置信度，Ω为过滤噪声检测的置信度阈值，当S_det＝1时，α为1即动态因子取得最大值，Sdet≤Ω时取得最小值0。

4.根据权利要求1所述的一种融合多粒度动态外观的抗遮挡目标跟踪方法，其特征在于，步骤5中：

目标运动特征：卡尔曼滤波该算法将目标的运动特征定义为8个正态分布的向量，分别为：(u，v，γ，h_，u^·，v^·，γ^·，h^·)，分别表示bounding box中心点的位置坐标(u，v)、纵横比γ、高h以及求导后得到的速度信息(u^·，v^·，γ^·，h^·)，其中u^·，v^·，γ^·，h^·分别指u，v，γ，h的导数；

5.根据权利要求1所述的一种融合多粒度动态外观的抗遮挡目标跟踪方法，其特征在于，步骤6中：目标相似度采用距离进行度量，属于同一目标时距离较小，不同目标时距离较大：

目标外观特征采用余弦距离，记为d₁；

目标外观贡献度因子由步骤4得到，记为a；

目标运动特征采用马氏距离，记为d₂；

将外观特征和运动特征进行加权，计算目标相似度D：

D＝(θ*a)*d₁+(1-θ*a)*d₂

6.根据权利要求1所述的一种融合多粒度动态外观的抗遮挡目标跟踪方法，其特征在于，步骤7中：匈牙利算法基于当前帧目标检测的所有检测目标集和通过卡尔曼滤波预测得到的当前帧的所有的轨迹集，采用目标相似度计算方法构建相似度矩阵，对检测目标集和轨迹集进行级联匹配，当级联匹配未成功时再采用IOU匹配，从而解决目标的ID分配问题；

(1)检测目标和轨迹匹配，也就是Matched Tracks，指匹配成功；

(3)Deleted：删除态，说明该轨迹已经失效。