CN116434150B

CN116434150B - 面向拥挤场景的多目标检测跟踪方法、系统及存储介质

Info

Publication number: CN116434150B
Application number: CN202310703363.0A
Authority: CN
Inventors: 任卫红; 许兴隆; 刘洪海; 姜渭博; 高宇; 董潜
Original assignee: Shenzhen Graduate School Harbin Institute of Technology
Current assignee: Shenzhen Graduate School Harbin Institute of Technology
Priority date: 2023-06-14
Filing date: 2023-06-14
Publication date: 2023-12-05
Anticipated expiration: 2043-06-14
Also published as: CN116434150A

Abstract

本发明提供了一种面向拥挤场景的多目标检测跟踪方法、系统及存储介质，多目标检测跟踪方法包括如下步骤：步骤1：将视频帧序列输入目标检测器，获得逐帧检测结果，逐帧检测结果包括检测框和偏移，检测框包括初始身体框和头部框，利用头部框和偏移对初始身体框进行补充得到身体框；步骤2：将所有身体框输入运动特征提取模块，获得所有行人的运动特征；将所有身体框和头部框输入外观特征提取模块，获得所有身体框和头部框的外观特征向量，并将来自同一行人的头部外观特征向量和身体外观特征向量进行拼接得到行人的外观特征。本发明的有益效果是：本发明提高了检测精度，提高了拥挤场景中移动目标运动估计的准确性。

Description

面向拥挤场景的多目标检测跟踪方法、系统及存储介质

技术领域

本发明涉及计算机视觉技术领域，尤其涉及面向拥挤场景的多目标检测跟踪方法、系统及存储介质。

背景技术

多目标跟踪一直是计算机视觉中的长期目标，目标是估计视频中呈现的感兴趣对象的轨迹，其应用包括视频监控、智能视频分析、人类活动识别、智能交通、自动驾驶、无人机航拍等领域。例如，在视频监控中，多目标跟踪技术可以帮助安保人员实时追踪并监控多个可疑目标；在自动驾驶领域，多目标跟踪技术可以实现对周围车辆、行人等交通元素的实时感知和预测，以保证自动驾驶汽车的安全性和稳定性。

目前的多目标跟踪方法分为两大类：基于检测进行跟踪的两阶段方法与联合检测和跟踪的一阶段方法。其中，基于检测进行跟踪的两阶段方法即首先通过目标检测算法对当前帧中目标进行检测，再将检测结果输入ReID网络提取外观特征，充分利用了目标检测算法的检测精度以及ReID网络的外观特征提取能力，缺点是不能共享网络参数导致的计算量过大，尤其在拥挤场景中，难以完成实时跟踪的任务；联合检测和跟踪的一阶段方法即通过单一网络同时完成目标检测和外观特征提取，计算量较小，在拥挤场景中能够实现实时跟踪，缺点是难以对目标物体选用表现更好的ReID网络，且存在检测和跟踪任务在训练过程中的冲突。

在拥挤场景中，遮挡情况大量存在，现有两类方法因只检测身体框，在拥挤场景中极易出现漏检或位置不准确的情况，故检测效果不佳。

在提取运动特征过程中，现有方法构建的运动模型仅线性近似个体运动，忽略了拥挤场景中小范围群体行为的相似性，导致运动估计不准确。

在提取外观特征过程中，现有一阶段方法仅对单帧检测结果进行简单分类，难以利用历史信息；现有两阶段方法使用单独网络训练ReID分支，比较耗时，且现有两类方法在拥挤场景中提取得到的外观特征（ReID）包含太多干扰信息，不利于目标长时跟踪，一些研究工作提出了基于历史帧动态更新外观特征中心向量，一定程度上提高了外观特征的鲁棒性，但是对于如何有效的提取外观特征向量并没有给出有效的解决方案，导致外观模型的关联能力受限。

同时，目前的ReID模型或分支均是基于已有的标注数据进行训练，对于新的场景或数据，难以进行自动域适应，对目标长时跟踪任务产生不利影响。

发明内容

本发明提供了一种面向拥挤场景的多目标检测跟踪方法，包括如下步骤：

步骤1：将视频帧序列输入目标检测器，获得逐帧检测结果，逐帧检测结果包括检测框和偏移，检测框包括初始身体框和头部框，利用头部框和偏移对初始身体框进行补充得到身体框；

步骤2：将所有身体框输入运动特征提取模块，获得所有行人的运动特征；将所有身体框和头部框输入外观特征提取模块，获得所有身体框和头部框的外观特征向量，并将来自同一行人的头部外观特征向量和身体外观特征向量进行拼接得到行人的外观特征；

步骤3：根据运动特征及外观特征，在当前帧检测与存活轨迹间构建代价矩阵，利用匈牙利匹配器将当前帧行人检测与上一帧存活轨迹进行连接，从而更新多目标移动跟踪结果。

本发明还提供了一种面向拥挤场景的多目标检测跟踪系统，包括：存储器、处理器以及存储在所述存储器上的计算机程序，所述计算机程序配置为由所述处理器调用时实现本发明所述多目标检测跟踪方法的步骤。

本发明还提供了一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，所述计算机程序配置为由处理器调用时实现本发明所述的多目标检测跟踪方法的步骤。

本发明的有益效果是：1.本发明利用身体-头部-偏移量（头部到身体的二维位置坐标差）联合检测的算法，通过头部检测与偏移量预测得到的身体框，对直接预测的身体框进行补充操作，有效解决了由于遮挡或模糊造成的漏检问题，提高了检测精度。2.本发明通过基于群体行为约束的目标运动估计模型，解决了传统运动估计模型仅单一考虑个体行为，忽略群体关联的问题，提高了拥挤场景中移动目标运动估计的准确性。3.本发明利用基于头部——身体联合外观向量的时序外观特征（ReID）模型，通过提取头部的外观特征对身体的外观特征进行补充，并对每一轨迹历史帧的外观特征向量进行时序建模，解决了由于遮挡或背景信息干扰造成的长期关联鲁棒性差的问题。4.本发明利用基于K-means聚类算法的ReID网络自动域适应算法，采用在线学习策略在推理阶段动态调整模型参数，解决传统ReID模型对于新的场景或数据难以进行自动域适应，对目标长时跟踪任务产生不利影响的问题。

附图说明

图1是本发明的流程图；

图2是本发明的整体网络结构示意图；

图3是群体行为约束运动估计模型示意图；

图4是历史轨迹信息库功能示意图。

具体实施方式

如图1所示，本发明公开了一种面向拥挤场景的多目标检测跟踪方法，包括如下步骤：

步骤1：将视频帧序列输入目标检测器，获得逐帧检测结果，逐帧检测结果包括检测框和偏移，检测框包括初始身体框和头部框；利用头部框和偏移对初始身体框进行补充得到身体框，避免因遮挡或模糊造成的漏检问题。

步骤2：将所有身体框输入运动特征提取模块，获得所有行人的运动特征；将所有身体框和头部框输入外观特征提取模块，获得所有身体框和头部框的外观特征向量，并将来自同一行人的头部外观特征向量和身体外观特征向量进行拼接得到行人的外观特征。

所述目标检测器由YoloX作为backbone，YoloX是实时目标检测网络，backbone是骨干网络，YoloX输出有两个分支，分别为目标检测分支模块和二维偏移分支模块，目标检测分支模块包括regress分支、object分支和class分支，loss（损失）如下：

regress分支：，/>表示交并比损失，网络对特定行人的预测框与该行人的身体框（数据集标签）的IOU损失。/>表示交并比，也就是网络对特定行人的预测框与该行人的身体框的交集/它们的并集。A表示预测框，B表示身体框。

object分支：；

class 分支：。

Bcewithlogits是二元交叉熵损失，是用于二元分类的损失函数；y是目标的标签，取值为0，1；p是预测的相应类别的概率，范围是0到1，且两类的概率和为1。在object分支中，0代表背景、1代表前景；在class分支中，0代表身体，1代表头部。

二维偏移分支模块采用SmoothL1损失：用于预测偏移量与真实偏移量的损失函数；X是预测值和真实值之间的差异，用于预测的x，y方向上的差值与真实的差值之间的差；

Otherwise表示否则，即不满足x绝对值＜1这个条件时。

总损失为：，其中，/>均为超参数，此处取值依次为5.0、1.0、1.0、1.0。L_regress表示regress分支的损失，L_object表示object分支的损失，L_class表示class分支的损失，L_offset表示二维偏移分支的损失，L_offset是头部中心到身体中心的二维坐标偏移量，在这里，头部检测和身体检测两个分支因为都包含regress、object、class三个分支，所以合并了。

regress表示回归，regress分支用于得到检测框的中心点坐标以及对应的宽和高。object表示物体，object分支用于分辨当前检测框里面是否存在物体，或者全是背景。class表示类别，class分支用于判断当前检测框是头部还是身体，也就是对包含物体的检测框进行物体类别的判断。

本发明采用YoloX提出的SimOTA标签匹配策略得到正负样本，正样本即能与标签进行匹配的anchor（anchor表示网络输出的所有预测框），分别将头部anchor、身体anchor与相应的头部标签、身体标签进行匹配。并依据设计Loss对其求损失。对于二维偏移分支的匹配，将匹配到头部标签的头部anchor（即为正样本），加上与该anchor在特征图上相同坐标的二维偏移量，与头部标签对应的身体标签中心求损失。

SimOT A是Yolox网络应用的一种标签分配策略，即将网络输出的所有预测框与数据集标注的身体框和头框进行匹配，得到正负样本。

对目标检测器输出的初始身体框进行补框处理，根据头部框与对应的偏移相加，得到此途径获得的补充身体框/>，将/>与直接预测获得的初始身体框相加，并通过IOU（交并比）去除/>中与/>重叠较大的部分，获得身体框，t表示当前第t帧图片。

如图3所示，所述运动特征提取模块包括群体行为约束运动估计模型，所述群体行为约束运动估计模型定义八维状态空间，/>依次表示为身体框的横坐标、纵坐标、宽高比、高度以及它们在图像平面中的相应速度，身体框位置S为/>；定义选中区域为选中目标中心为圆心，2b为半径的区域，其中第i个目标在当前帧的速度表示为/>，S_t表示身体框在第t帧的位置，S_t-1表示身体框在上一帧的位置，选中目标在第t+1帧处的运动预测过程表示如下：

，/>表示第i个目标（选中区域中除选中目标）在第t-1帧的速度，/>表示选中目标在第t-1帧的速度；

；

其中，N为选中区域中除选中目标之外的跟踪目标的数量，表示根据第i个目标与选中目标之间的运动相似性得到的权重，经过SoftMax操作将其归一化使其和为1，/>是超参数，表示上一帧周围目标的运动状态对当前帧选中目标的运动状态的影响权重；/>表示选中目标身体框在当前帧的位置，/>表示选中目标身体框在当前帧的速度，/>表示选中目标身体框在下一帧的位置。

所述外观特征提取模块包括ReID网络，ReID网络为外观特征网络，在所述步骤2中，将头部框与身体框输入ReID网络进行特征提取，将来自同一行人检测框的外观特征/>与/>进行拼接得到/>，/>表示头部外观特征向量，/>表示身体外观特征向量，/>表示行人的外观特征。其中，/>和/>均为128维，/>为256维，通过全连接层和SoftMax操作将其映射到类分布向量/>，所用损失如下：

；

其中，表示数据集中身份标注的one-hot编码形式，即为该身份时，值为1，其余为0，K表示训练数据中所有行人的数量，N表示该帧中出现行人的数量，P表示该行人外观特征/>属于第k个行人的概率。

在所述步骤3中，计算上一帧身体框通过群体行为约束运动估计模型预测的其在当前帧的位置/>与当前帧检测得到身体框位置的IOU，IOU 表示交并比，计算ReID网络输出经拼接后的当前帧的外观特征向量/>与历史轨迹信息库中外观特征中心向量/>的相似度，通过IOU与相似度构建代价矩阵：

外观特征距离: ；

代价矩阵：；

其中，表示当前帧第i个行人的外观特征向量，/>表示上一帧第j个轨迹的外观特征中心向量，/>表示当前帧第i个行人身体框与上一帧第j个轨迹在当前帧预测框的交并比，α表示群体行为约束运动估计模型与ReID网络在代价矩阵中的权重。

如图4所示，将成功匹配的当前帧行人检测的外观特征向量，按照基于指数移动平均（EMA）机制的更新策略更新对应轨迹的外观特征中心向量/>，得到该轨迹在当前帧的外观特征中心向量，如下式所示：

；

其中，是动量项。

当当前帧行人检测的外观特征向量没有匹配到轨迹时，则认为其在过去帧没有出现过，为其新建轨迹，并将其当前外观特征向量存储到历史轨迹信息库中，当轨迹没有匹配到检测时，将其保留设定数量的帧（例如，保留30帧），若仍然没有匹配到检测，则删除该轨迹，并在历史轨迹信息库中清除。

该多目标检测跟踪方法还包括步骤4，在步骤4中，使用K-means聚类算法对ReID网络进行自动域适应调整。根据当前帧目标外观特征和历史帧目标外观特征，通过K-means聚类算法进行实时分组，利用分组结果，对ReID分支的参数进行更新，所用损失如下：

；

其中，Q表示聚类数目，表示第i个聚类中包含的数据点，/>表示第i个聚类的中心。

以上内容是结合具体的优选实施方式对本发明所作的进一步详细说明，不能认定本发明的具体实施只局限于这些说明。对于本发明所属技术领域的普通技术人员来说，在不脱离本发明构思的前提下，还可以做出若干简单推演或替换，都应当视为属于本发明的保护范围。

Claims

1.一种面向拥挤场景的多目标检测跟踪方法，其特征在于，包括如下步骤：

步骤3：根据运动特征及外观特征，在检测框与存活轨迹间构建代价矩阵，利用匈牙利匹配器将当前帧行人检测数据与上一帧存活轨迹进行连接，从而更新多目标移动跟踪结果；

在所述步骤3中，计算上一帧身体框位置通过群体行为约束运动估计模型预测的其在当前帧的位置/>与当前帧检测得到身体框位置的IoU，IoU表示交并比，计算ReID网络输出经拼接后的当前帧的外观特征向量/>与历史轨迹信息库中外观特征中心向量/>的相似度，通过IoU与相似度构建代价矩阵：

外观特征距离:；

代价矩阵：；

2.根据权利要求1所述的多目标检测跟踪方法，其特征在于：所述目标检测器由YoloX作为backbone，YoloX是实时目标检测网络，backbone是骨干网络，YoloX输出有两个分支，分别为目标检测分支模块和二维偏移分支模块，目标检测分支模块包括regress分支、object分支和class分支，regress表示回归，object表示物体，class表示类别， Loss如下：

regress分支：，/>表示交并比损失，/>表示交并比，A表示预测框，B表示身体框；

object分支：；

class 分支：；

Bcewithlogits是二元交叉熵损失，是用于二元分类的损失函数；y是目标的标签，取值为0，1；p是预测标签和取值的概率，范围是0到1，且两类的概率和为1；在object分支中，0代表背景、1代表前景；在class分支中，0代表身体，1代表头部；

二维偏移分支模块采用 SmoothL₁(x)计算损失：

，SmoothL₁(x)是用于计算预测偏移量与真实偏移量的损失函数；x是预测值和真实值之间的差异，用于预测的x，y方向上的差值与真实的差值之间的差；

Otherwise表示否则，即不满足x绝对值＜1这个条件时；

总损失为：，其中，/>、/>、/>、/>均为超参数，L_regress表示regress分支的损失，L_object表示object分支的损失，L_class表示class分支的损失，L_offset表示二维偏移分支的损失，L_offset是头部中心到身体中心的二维坐标偏移量。

3.根据权利要求2所述的多目标检测跟踪方法，其特征在于：的取值为5.0，/>的取值为1.0，/>的取值为1.0，/>的取值为1.0。

4.根据权利要求1所述的多目标检测跟踪方法，其特征在于：在所述步骤1中，对目标检测器输出的初始身体框进行补框处理，将头部框与对应的偏移/>相加，得到此途径获得的补充身体框 />，将补充身体框/>与直接预测获得的初始身体框相加，并通过IoU去除/>中与/>重叠较大的部分，获得身体框/>，IoU表示交并比，t表示当前第t帧图片。

5.根据权利要求1所述的多目标检测跟踪方法，其特征在于：所述运动特征提取模块包括群体行为约束运动估计模型，在所述步骤2中，所述群体行为约束运动估计模型定义八维状态空间， u表示身体框的横坐标、v表示身体框的纵坐标、a表示身体框的宽高比、b表示身体框的高度，/>表示身体框的横坐标在图像平面中的速度，/>表示身体框的纵坐标在图像平面中的速度，/>表示身体框的宽高比在图像平面中的速度，/>表示身体框的高度在图像平面中的速度，身体框位置S为/>；定义选中区域为选中目标中心为圆心，2b为半径的区域，其中第i个目标在当前帧的速度表示为/>，S_t表示身体框在第t帧的位置，S_t-1表示身体框在上一帧的位置，选中目标在第t+1帧处的运动预测过程表示如下：

，/>表示第i个目标在第t-1帧的速度，/>表示选中目标在第t-1帧的速度；

W=SoftMax()

=/>；

其中，N为选中区域中除选中目标之外的跟踪目标的数量，表示根据第i个目标与选中目标之间的运动相似性得到的权重，经过SoftMax操作将其归一化使其和为1，β是超参数，表示上一帧周围目标的运动状态对当前帧选中目标的运动状态的影响权重；选中目标身体框在下一帧的位置由选中目标身体框在当前帧的位置和速度确定。

6.根据权利要求1所述的多目标检测跟踪方法，其特征在于：所述外观特征提取模块包括ReID网络，ReID网络为外观特征网络，在所述步骤2中，将头部框与身体框/>输入ReID网络进行特征提取，将来自同一行人检测框的外观特征/>与/>进行拼接得到/>，表示头部外观特征向量，/>表示身体外观特征向量，/>表示行人的外观特征。

7.根据权利要求6所述的多目标检测跟踪方法，其特征在于：在所述步骤2中，和均为128维，/>为256维，通过全连接层和SoftMax操作将/>映射到/> ，所用损失函数如下：

；

8.根据权利要求1所述的多目标检测跟踪方法，其特征在于：在所述步骤3中，将成功匹配的当前帧行人检测的外观特征向量，按照基于指数移动平均机制的更新策略更新对应轨迹的外观特征中心向量/>，得到该轨迹在当前帧的外观特征中心向量，如下式所示：

；

其中，是动量项；

当当前帧行人检测的外观特征向量没有匹配到轨迹时，则认为其在过去帧没有出现过，为其新建轨迹，并将其当前外观特征向量存储到历史轨迹信息库中，当轨迹没有匹配到检测数据时，将其保留设定数量的帧，若仍然没有匹配到检测数据，则删除该轨迹，并在历史轨迹信息库中清除。

9.根据权利要求1至8任一项所述的多目标检测跟踪方法，其特征在于：该多目标检测跟踪方法还包括步骤4，在所述步骤4中，使用K-means聚类算法对ReID网络进行自动域适应调整，根据当前帧目标外观特征和历史帧目标外观特征，通过K-means聚类算法进行实时分组，利用分组结果，对ReID分支的参数进行更新，所用损失如下：

；

10.一种面向拥挤场景的多目标检测跟踪系统，其特征在于，包括：存储器、处理器以及存储在所述存储器上的计算机程序，所述计算机程序配置为由所述处理器调用时实现权利要求1－9中任一项所述多目标检测跟踪方法的步骤。

11.一种计算机可读存储介质，其特征在于：所述计算机可读存储介质存储有计算机程序，所述计算机程序配置为由处理器调用时实现权利要求1－9中任一项所述的多目标检测跟踪方法的步骤。