CN117495915B

CN117495915B - 一种多目标追踪方法及系统

Info

Publication number: CN117495915B
Application number: CN202311840377.3A
Authority: CN
Inventors: 谢云; 胡勇超; 李强; 龙利民
Original assignee: Tuling Artificial Intelligence Institute Nanjing Co ltd
Current assignee: Tuling Artificial Intelligence Institute Nanjing Co ltd
Priority date: 2023-12-29
Filing date: 2023-12-29
Publication date: 2024-04-02
Anticipated expiration: 2043-12-29
Also published as: CN117495915A

Abstract

本发明提出了一种多目标追踪方法及系统，避免了常规追踪算法直接舍弃低分目标检测框的方式带来的漏检，方法主要包括：构建并训练基于YOLOV8算法改进的目标检测模型；将数据图像预处理后应用至目标检测模型进行目标检测，得到每一帧图像所有目标的检测框和得分，并将检测框依据得分分为高分框与低分框，利用初始帧的检测结果初始化轨迹集合；计算目标移动的加速度，根据加速度进行虚拟轨迹建模，采用VKF预测上一帧目标检测框当前的位置；将高分框与低分框按顺序与不同的轨迹集合采用匈牙利算法进行关联匹配，根据匹配结果按规则更新各轨迹集合；重复至所有帧数处理结束，得到追踪轨迹集合，依据集合内轨迹间的BIOU均值优化后得到最终追踪结果。

Description

一种多目标追踪方法及系统

技术领域

本发明涉及目标检测追踪技术领域，尤其涉及一种多目标追踪方法及系统。

背景技术

本发明主要研究目标是基于改进的目标检测器OPT-Yolov8和自设计的变速轨迹预测方案实现更好的视频多目标追踪（Multiple Object Tracking简称MOT）。MOT是对连续视频序列进行多个目标进行跟踪，检测并跨视频帧关联目标以获取完整的运动轨迹。其应用场景十广泛，如智能监控、自动驾驶、人流计数与风险预警等。MOT算法分为基于检测的多目标跟踪（Detection-Based Tracking，简称DBT）的和无需检测器基于目标外形先验知识两大类。随着检测算法的不断发展，DBT是目前研究的主流。本发明亦是基于DBT。常见的DBT主要包含：检测模块，对视频中选定帧的图像应用目标检测，获得目标的边界框和类别得分；特征模块，常见的特征模块分为运动估计模块和表观模型，行人重识别（Re-identification简称REID）是主流的表观模型，运行估计模块则是以卡尔曼滤波（KalmanFiltering，简称KF）为代表的预测方法；目标关联模块，将上一帧检测模块得到的目标与当前帧的检测目标进行关联，关联的方案对追踪的结果也至关重要。

本发明了参考了ByteTrack算法的基本思想。ByteTrack是一种简单高效的DBT方法。该算法基于当时检测效果表现卓越的YOLOX目标检测器，位置预测采用KF进行运动估计，在目标关联时，为了挖掘出真正的目标，并未像其他追踪算法一样直接舍弃低分目标检测框，而是在保留高分检测框的同时对低分检测框进行单独处理，将低分框与跟踪轨迹进行匹配，避免直接丢弃带来的不可逆转的错误，减少轨迹中断。

发明内容

本发明要解决的技术问题是克服现有技术存在的缺陷，本发明提出了一种多目标追踪方法及系统。本发明方法的主要流程是先设计并训练基于YOLOV8改进的目标检测模型OPT-YOLOV8；获取摄像头采集的视频流数据并将预处理后的图像应用OPT-YoloV8进行目标检测，得到每一帧图像所有目标的检测边框和分类得分Score，并按照高分阈值和低分阈值将检测框分成和/>两类；应用设计的VKF进行状态预测，根据目标的加速度/>应用不同的虚拟轨迹预测模型，采用VKF预测上一帧检测框当前的位置；对于当前帧的图像，需要将VKF基于前一帧已知信息的预测值与当前帧的目标检测值进行BIOU计算和关联，根据检测框得分分别进行关联，高分框与低分框按顺序与规则与不同的轨迹集合采用匈牙利算法进行匹配，匹配后对轨迹集合内框位置进行更新与按规则进行删减或新建，循环上述流程；将得到的轨迹集合进行后处理得到最终的追踪结果。

为解决上述技术问题，本发明采用的技术方案是：一种多目标追踪方法，包括如下步骤：

S1、构建并训练基于YOLOV8算法改进的目标检测模型；

S2、获取摄像头采集的视频流数据并将预处理后的图像应用至目标检测模型进行目标检测，得到每一帧图像所有目标的检测框和得分，并将检测框依据得分分为高分框与低分框，利用初始帧的检测结果初始化轨迹集合；

S3、计算目标移动的加速度，根据加速度进行虚拟轨迹建模，采用VKF预测上一帧目标检测框当前的位置；

S4、将高分框与低分框按顺序与不同的轨迹集合采用匈牙利算法进行关联匹配，根据匹配结果按规则更新各轨迹集合；

S5、重复S2～S4至所有帧数处理结束，得到追踪轨迹集合，按帧计算集合内轨迹间的BIOU均值，对追踪轨迹集合内BIOU均值大于设定阈值的两个轨迹认定为同一轨迹，保留跟踪帧数更长的轨迹，得到最终追踪结果。

进一步地，所述S1中目标检测模型构建是通过OPT-C3模块替代YOLOV8中 C2f，其构建步骤如下，

用的卷积替代YOLOV8中C2f的张量切分操作；

在残差连接中的恒等层支路中提添加二进制掩码操作，只允许部分通道参与运算；

在单元模块结束前插入一个过渡层，使得两个路径和相邻的阶段可以增加差异性；

采用解耦头去除置信度分支，包含解耦的分类和回归分支分别用于获取类别得分和边框位置.计算损失，构成如下，

；

其中，分类分支采用BCE loss，回归分支由CIOU loss和Distribution FocalLoss组成，

；

和/>是回归分支经过Sigmoid 的输出，/>是label值，/>和/>是/>左右相近的值，满足/>。

进一步地，所述S2中视频流数据预处理步骤为，

使用OpenCV库抓取的单个高清摄像头采集的图像数据；

按顺序将图像调整尺寸并进行归一化；

采用S1中改进后的目标检测模型进行边框检测和分类，得到每个检测框的位置和得分；

将检测框按高分阈值和低分阈值分成和/>两类。

进一步地，所述S3中位置预测的具体步骤为，

计算目标加速度，

当低于阈值/>时采用KF_SOFT建立虚拟轨迹，表示为，

；

当时采用KF_ACCE建立虚拟轨迹，表示为，

；

其中，是当前时刻，/>和/>分别是失去跟踪之前最后一次跟踪的时刻和重新触发跟踪的时刻，/>、/>为相应时刻的观测值；

基于进行状态预测和更新，

；

式中，为/>时刻KF的输出值、/>为状态转移模型、/>为观测模型、Kalman矩阵/>、/>的协方差阵为/>，其更新。

进一步地，所述S4中BIOU算法扩展因子的计算方法为，

；

其中，和/>是原框高度和宽度，/>和/>是扩张后框高度和宽度。

进一步地，所述S4中关联的具体步骤为，

Step1.定义为追踪轨迹集合，保存了上一帧成功追踪的位置和ID，/>为保留轨迹集合，记录了失去追踪轨迹不超过30帧的集合，对于初始帧，将高于阈值的检测框都存放到/>，除了初始帧以外，暂未匹配的新轨迹称为未激活轨迹集合，记为；

Step2.从第二帧开始，将当前帧框与/>集合内的轨迹采用VKF预测得到边界框计算BIOU，得到cost 矩阵，使用匈牙利算法进行匹配，使用成功匹配的当前帧边界框更新/>相应的轨迹，成功匹配的更新/>相应轨迹的边框值，将/>中没有匹配的轨迹删选出来，记做/>，没有匹配的框基记为/>；

Step3. 将Step2中未匹配的轨迹集合与/>进行BIOU计算，使用匈牙利算法匹配，匹配成功的更新/>并添加至/>，未匹配成功的轨迹如果累计匹配失败少于30帧，则储存在/>中，否则将该轨迹进行删除；

Step4. 将Step2中未匹配的检测框与/>计算BIOU并采用匈牙利算法进行匹配，匹配成功的更新/>并添加至/>，未匹配成功的轨迹进行删除；

Step5. 新建轨迹，判断剩余的检测框有没有高于设定阈值的，若高于阈值，则为其分配一个新的轨迹，此时的轨迹还未激活，存放在中，低于阈值的直接忽略；

Step6. 重复Step2-Step5，得到的为初步的追踪结果，包含了所有的轨迹和唯一的ID。

一种多目标追踪系统，包括：

图像获取模块，其通过OpenCV库抓取高清摄像头采集的图像数据，并调整尺寸后归一化设置；

检测模块，其由OPT-C3模块替代YOLOV8中的 C2f模块，并在CrowdHuman，Cityperson， ETHZ和MOT17部分数据集中预训练得到，用于对图像获取模块处理后的图像进行边框检测和分类；

运动估计模块，对上一帧目标检测结果依据目标加速度利用变速卡尔曼滤波器进行位置预测；

目标关联模块，并根据设定规则，计算当前帧检测框与踪迹集合的预测位置的BIOU，采用匈牙利算法进行关联匹配；

后处理模块，对追踪轨迹集合内BIOU均值大于设定阈值的两个轨迹认定为同一轨迹，保留跟踪帧数更长的轨迹，全部处理后得到最终追踪结果。

一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现如上述所述的多目标追踪方法的步骤。

一种非暂态计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时用于实现上述所述的多目标追踪方法的步骤。

与现有技术相比，本发明的有益效果包括：本发明在目标检测算法YoloV8的基础上，对每个模块进行了不同层面的改进与优化，进一步提升了MOT效果，对于检测模块，本发明设计了OPT-C3模块, 替代YOLOV8中的 C2f模块，并在CrowdHuman，Cityperson， ETHZ和MOT17部分数据集进行了预训练，该模型相较于同样规模的YoloV8在coco map@0.5指标上提升了0.9个点，对于运动估计模块，设计了VKF计算目标移动的加速度，将目标失去跟踪前的最后一次位置和再次发现的位置进行平滑，计算得到虚拟轨迹后结合KF进行下一帧的位置预测，减少速度变化太快导致目标丢失与误差累计，对于目标关联模块，将IOU匹配改进为BIOU，扩大搜索区域并进行框的匹配，对于扩张因子的选取也进行了对比试验进行选取，以减少遗漏匹配，整体而言，本发明提出的多目标追踪方法及系统展现了高精度和高召回率的同时，维持了目标跟踪的连续性，具有稳定优异的追踪质量。

附图说明

参照附图来说明本发明的公开内容。应当了解，附图仅仅用于说明目的，而并非意在对本发明的保护范围构成限制。在附图中，相同的附图标记用于指代相同的部件。其中：

图1示意性显示了根据本发明一个实施方式提出的整体方法流程图；

图2和图3示意性显示了根据本发明一个实施方式提出的OPT-YoloV8模型构建过程示意图；

图4示意性显示了根据本发明一个实施方式提出的追踪方法步骤S4中BIOU计算示意图；

图5示意性显示了根据本发明一个实施方式提出的追踪方法步骤S4中关联流程示意图；

图6示意性显示了根据本发明一个实施方式提出的追踪系统实际检测效果图。

具体实施方式

容易理解，根据本发明的技术方案，在不变更本发明实质精神下，本领域的一般技术人员可以提出可相互替换的多种结构方式以及实现方式。因此，以下具体实施方式以及附图仅是对本发明的技术方案的示例性说明，而不应当视为本发明的全部或者视为对本发明技术方案的限定或限制。

根据本发明的一实施方式结合图1-图6示出。

如图1所示，本发明方法的主要流程是先设计并训练基于YOLOV8改进的目标检测模型Optimized YoloV8（简称OPT-YoloV8）；获取摄像头采集的视频流数据并将预处理后的图像应用OPT-YoloV8进行目标检测，得到每一帧图像所有目标的检测边框和分类得分Score，并按照高分阈值和低分阈值将检测框分成和/>两类；应用设计的VKF进行状态预测，根据目标的加速度/>应用不同的虚拟轨迹预测模型，采用VKF预测上一帧检测框当前的位置；对于当前帧的图像，需要将variable Kalman Filtering（简称VKF）基于前一帧已知信息的预测值与当前帧的目标检测值进行Buffered IOU（简称BIOU）计算和关联，根据检测框得分分别进行关联，高分框与低分框按顺序与规则与不同的轨迹集合采用匈牙利算法进行匹配，匹配后对轨迹集合内框位置进行更新与按规则进行删减或新建，循环上述流程；将得到的轨迹集合进行后处理得到最终的追踪结果。

S1. 生成目标检测模型与训练pre-trained模型。OPT-YoloV8模的主要改进是设计OPT-C3模块, 替代YOLOV8中的 C2f（根据YoloV8官方定义）模块，参照图2。C2f模块是残差特征进行学习的主要模块，一定程度上借鉴了ELAN模块，是YOLOV8较YOLOV5-V6.0版本的主要优化之一，轻量化的同时丰富了梯度回传时的支流，使得模型推理更高效以及学习能力更稳定。但是shuffleNetV2中提出的高效网络设计准则之一是保持相同的通道宽度可以最小化内存访问成本MAC，显然YOLOV5的C3模块更加贴合该准则。OPT-C3设计原则结合了《Designing Network Design Strategies Through Gradient Path Analysis》（Wang,C.-Y., Liao, H.-Y. M., and Yeh, I.-H.,arXiv e-prints, 2022. doi:10.48550/arXiv.2211.04800）中的网络设计策略准则，文献链接是https://arxiv.org/pdf/2211.04800.pdf。

Step1. 用的卷积替代原先的张量切分split操作，使得硬件部署更友好。

Step2. 在残差连接中的identify（恒等层）支路中提添加binarymask （二进制掩码）操作，只允许部分通道参与运算，这样可以增加梯度组合数，梯度源的差异会影响整个梯度时间戳，进一步丰富梯度组合。此外，mask的添加使得不同通道数量的特征图可以进行残差连接，参照图3。

Step3. 在单元模块block结束前插入一个过渡层transitionlayer，目的是截断冗余的梯度流，使得两个路径和相邻的stage可以增加差异性。是的在最后的1*1卷积前，该模块保持输入输出相同的通道。

模型采用解耦头Decoupled-Head,去除objectness(置信度）分支，包含解耦的分类和回归分支，分别用于获取类别得分和边框位置。Loss的构成：；

其中，分类分支采用BCE loss。回归分支由CIOU loss和Distribution FocalLoss（简称DFL）组成，

，/>和/>是Sigmoid 的输出，/>是label值，/>和/>是/>左右相近的值，满足/>。DFL以交叉熵的形式优化与label最接近的一左一右两个位置可以让网络更快的聚焦于目标附近。将搭建的模型在CrowdHuman，Cityperson， ETHZ和MOT17部分数据集进行了预训练，模型相较于同样规模的YoloV8在coco map@0.5指标上提升了0.9个点。

S2. 使用OpenCV库抓取的单个高清摄像头采集的图像数据，对数据进行预处理,按顺序将图像Resize到（960，1600），并进行归一化后采用OPT-YoloV8目标检测器进行边框检测和分类，得到每个框的位置和得分Score，将检测框按高分阈值和低分阈值分成和/>两类。

S3. 采用VKF对目标检测框进行位置预测。通用KF在运动速度变化较大时，性能会受到影响。基于此，本专利设计了VKF对不同的加速度的目标进行位置预测。具体做法是：

S3.1计算目标加速度，当/>低于阈值/>时采用KF_SOFT。通过建立虚拟轨迹的方法，将当前位置和最后发现的位置进行平滑过渡，减少误差累积，对于step/>, 将在失去跟踪之前的最后一次观测表示为/>，并将触发重新关联的观测表示为/>，虚拟轨迹表示为/>，其是基于匀速运动模型建模的。基于/>进行状态预测和更新

；

式中为/>时刻KF的输出值，/>为状态转移模型,/>为观测模型，Kalman矩阵为/>、/>的协方差阵为/>，其更新。

S3.2 当时采用KF_ACCE，此时虚拟估计，其中，/>是当前时刻，/>和/>分别是失去跟踪之前最后一次跟踪的时刻和重新触发跟踪的时刻，/>、/>为相应时刻的观测值，其他步骤与S3.1一致。根据当前帧的目标检测结果可以预测下一帧该框的位置。

S4. 采用BIOU进行目标关联，采用比传统IOU匹配效果更好的Buffered IOU（BIOU）进行匹配, 将检测和预测的边框box都等比放大以扩大搜索区域，计算扩张后区域重叠区域占总面积的比例，经实验对比扩展因子设置为0.4时匹配效果最好，扩张因子的计算方法为：，/>和/>是原框高度和宽度，/>和/>是扩张后框高度和宽度。参照图4。关联的具体步骤为：

Step1. 定义为追踪轨迹集合，保存了上一帧成功追踪的位置和ID，/>为保留轨迹集合，记录了失去追踪轨迹不超过30帧的集合。对于初始帧，将高于阈值的检测框都存放到/>，除了初始帧以外，暂未匹配的新轨迹称为未激活轨迹集合，记为。

Step2. 从第二帧开始，将当前帧框与/>集合内的轨迹采用VKF预测得到边界框计算BIOU，得到cost 矩阵，使用匈牙利算法进行匹配，使用成功匹配的当前帧边界框更新/>相应的轨迹。成功匹配的更新/>相应轨迹的边框值，将/>中没有匹配的轨迹删选出来，记做/>，没有匹配的框基记为/>。

Step3. 将Step2中未匹配的轨迹集合与/>进行BIOU计算，使用匈牙利算法匹配，匹配成功的更新/>并添加至/>。未匹配成功的轨迹如果累计匹配失败少于30帧，则储存在/>中，否则将该轨迹进行删除。

Step4. 将Step2中未匹配的检测框与/>计算BIOU并采用匈牙利算法进行匹配，匹配成功的更新/>并添加至/>，未匹配成功的轨迹进行删除。

Step5. 新建轨迹。判断剩余的检测框有没有高于设定阈值的，若高于阈值，则为其分配一个新的轨迹，此时的轨迹还未激活，存放在中。低于阈值的直接忽略。

S5. 对轨迹集合进行后处理。计算两个轨迹的BIOU均值，如果大于设定的阈值，则将这两个轨迹认定为同一个轨迹，保留跟踪帧数更长的那一个轨迹。得到最终的追踪结果。

关联的具体流程参照图5。

将预训练模型在MOT17测试集上，MOTA（Multiple Object Tracking Accuracy，）81.3，IDF1（Identity F1 score）80.2 ，HOTA（Higher order tracking accuracy）65.7。本发明提出的多目标追踪方法展现了高精度和高召回率的同时，维持了目标跟踪的连续性，具有稳定优异的追踪质量。追踪流程见图6。

同样的，依据上述多目标追踪方法所构建的多目标追踪系统也同样能够实现上述检测效果，该系统可具体包括：

此外，上述的方法步骤以及系统，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备（可以是个人计算机，服务器，或者网络设备等）执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器（ROM，Read-Only Memory）、随机存取存储器（RAM，Random Access Memory）、磁碟或者光盘等各种可以存储程序代码的介质；

又一方面，本发明还提供一种非暂态计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现以执行上述各方法提供的基于SaaS模式CRM系统的业务性能分析方法，该方法包括：获取业务性能分析请求；所述业务性能分析请求用于请求分析在多个租户访问软件运营服务SaaS模式客户关系管理CRM系统时影响业务性能的原因；所述租户为具有标准产品功能的租户、或者具有标准产品功能和业务扩展功能的租户；基于所述业务性能分析请求和各所述租户在执行至少一种业务逻辑时的日志信息，对各所述租户访问SaaS模式CRM系统时影响业务性能的原因进行分析，得到影响业务性能的原因；所述日志信息包括租户标识和执行耗时信息。以上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下，即可以理解并实施。

本发明的技术范围不仅仅局限于上述说明中的内容，本领域技术人员可以在不脱离本发明技术思想的前提下，对上述实施例进行多种变形和修改，而这些变形和修改均应当属于本发明的保护范围内。

Claims

1.一种多目标追踪方法，其特征在于，包括如下步骤：

S1、构建并训练基于YOLOV8算法改进的目标检测模型，

所述目标检测模型构建是通过OPT-C3模块替代YOLOV8中 C2f，其构建步骤如下，

用1*1 的卷积替代YOLOV8中C2f的张量切分操作；

在残差连接中的下恒等层支路中提添加二进制掩码操作，只允许部分通道参与运算；

；

其中，分类分支采用BCE loss，回归分支由CIOU loss和Distribution Focal Loss组成，

；

和/>是回归分支经过Sigmoid的输出，/>是标签值，/>和/>是/>左右相近的值，满足/>；

2.根据权利要求1所述的一种多目标追踪方法，其特征在于：所述S2中视频流数据预处理步骤为，

使用OpenCV库抓取的单个高清摄像头采集的图像数据；

按顺序将图像调整尺寸并进行归一化；

将检测框按高分阈值和低分阈值分成和/>两类。

3.根据权利要求1所述的一种多目标追踪方法，其特征在于：所述S3中位置预测的具体步骤为，

计算目标加速度，

当低于阈值/>时采用卡尔曼滤波建立虚拟轨迹，表示为，

；

当时采用基于加速度的卡尔曼滤波建立虚拟轨迹，表示为，

；

基于进行状态预测和更新，

；

式中，为/>时刻KF的输出值、/>为状态转移模型、/>为观测模型、卡尔曼矩阵；/>的协方差阵为/>，其更新。

4.根据权利要求1所述的一种多目标追踪方法，其特征在于：所述S4中BIOU算法扩展因子的计算方法为，

；

5.根据权利要求1所述的一种多目标追踪方法，其特征在于：所述S4中关联的具体步骤为，

Step1.定义为追踪轨迹集合，保存了上一帧成功追踪的位置和ID，/> 为保留轨迹集合，记录了失去追踪轨迹不超过30帧的集合，对于初始帧，将高于阈值的检测框都存放到/>，除了初始帧以外，暂未匹配的新轨迹称为未激活轨迹集合，记为/>；

Step2.从第二帧开始，将当前帧框与/>集合内的轨迹采用VKF预测得到边界框计算BIOU，得到代价矩阵，使用匈牙利算法进行匹配，使用成功匹配的当前帧边界框更新/>相应的轨迹，成功匹配的更新/>相应轨迹的边框值，将中没有匹配的轨迹删选出来，记做/>，没有匹配的框基记为/>；

6.一种多目标追踪系统，其特征在于，包括：

检测模块，其由OPT-C3模块替代YOLOV8中的 C2f模块，并在CrowdHuman，Cityperson，ETHZ和MOT17部分数据集中预训练得到，用于对图像获取模块处理后的图像进行边框检测和分类；

7.一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于:所述处理器执行所述程序时实现如权利要求1至5任一项所述的多目标追踪方法的步骤。

8.一种非暂态计算机可读存储介质，其上存储有计算机程序，其特征在于：所述计算机程序被处理器执行时用于实现上述权利要求1至5任一项所述的多目标追踪方法的步骤。