CN116543023A

CN116543023A - 一种基于修正DeepSORT的多传感目标群智跟踪方法

Info

Publication number: CN116543023A
Application number: CN202310449562.3A
Authority: CN
Inventors: 张晖; 王呈呈; 赵海涛; 朱洪波
Original assignee: Nanjing University of Posts and Telecommunications
Current assignee: Nanjing University of Posts and Telecommunications
Priority date: 2023-04-24
Filing date: 2023-04-24
Publication date: 2023-08-04

Abstract

本发明公开了一种基于修正DeepSORT的多传感目标群智跟踪方法，所述方法通过多个摄像头对任务区域进行目标跟踪：利用各摄像头实时获取任务区域的监控视频；采用基于匈牙利算法的匹配方法，获得摄像头之间当前视频帧的匹配目标并赋予身份ID；针对每个摄像头，分别利用DeepSORT方法对当前视频帧中分配身份ID的目标进行跟踪，直至目标跟踪任务结束。本发明利用一种基于目标空间位置的自适应融合特征计算马氏距离衡量目标相似度，最后利用匈牙利算法实现目标匹配，提高了目标的匹配的准确率；利用最小二乘法拟合预测加速度，进而修正卡尔曼滤波的输入速度参量，提高了DeepSORT算法的卡尔曼滤波预测的准确性，从而提高目标跟踪的准确率。

Description

一种基于修正DeepSORT的多传感目标群智跟踪方法

技术领域

本发明属于目标跟踪和计算机视觉领域，具体涉及一种基于修正DeepSORT的多传感目标群智跟踪方法。

背景技术

多视觉行人追踪算法是利用多个摄像头实时获取场景中的视频流，并对行人进行自动检测、跟踪和识别，从而实现对行人的智能安全监控。这种算法可以提高城市安全管理效率，减少安全隐患和事故发生率，增强城市安全防范能力。在当代生活中，多视觉行人追踪算法已经广泛应用于公共场所的安全监控、智能交通系统、社区安保等领域。例如，商场、地铁站、机场等公共场所利用多视觉行人追踪算法进行行人监控，可以及时发现人员聚集、拥堵等安全隐患。此外，多视觉行人追踪算法还可以应用于交通领域，帮助交通管理部门实现交通流量监测、拥堵疏导、交通事故预警等功能，提高城市交通运输的效率和安全性。

多视觉行人追踪算法可以同时利用多个摄像头进行监控，从而提高监控效率。它可以将多个摄像头拍摄的视频流进行集成，并自动分析和跟踪行人的运动轨迹，减少人工干预的需求，降低监控成本，也可以使用深度学习等技术来提高行人检测和跟踪的精度，从而有效地避免漏报和误报。

传统的DeepSORT算法采用的是恒速线性卡尔曼滤波，对于匀速运动或者速度变化不大的目标状态预测是比较准确的，当目标突然加速或者突然停顿时，恒速线性卡尔曼滤波的预测效果会有影响，出现目标追踪失败的现象。

发明内容

发明目的：为了解决上述现有技术存在的问题，本发明提供了一种基于修正DeepSORT的多传感目标群智跟踪方法。

技术方案：本发明提供了一种基于修正DeepSORT的多传感目标群智跟踪方法，该方法通过多个摄像头对任务区域进行目标跟踪，具体包括如下步骤：

步骤1：利用各摄像头实时获取任务区域的监控视频；

步骤2，采用基于匈牙利算法的匹配方法，获得摄像头之间当前视频帧的匹配目标并赋予身份ID；

步骤3，针对每个摄像头，分别利用DeepSORT方法对当前视频帧中分配身份ID的目标进行跟踪，直至目标跟踪任务结束。

进一步地，所述步骤2具体为：

步骤2.1：使用YOLOv5对各摄像头获取的当前图像帧分别进行目标检测，获取各图像帧中的目标信息；

步骤2.2：将步骤2.1获取的目标信息分别输入到ResNet残差网络，提取目标的外观特征；

步骤2.3：根据摄像头的帧率和步骤2.1获取的目标信息，获取目标的空间运动特征；

步骤2.4：将步骤2.2中目标的外观特征和步骤2.3中目标的空间运动特征进行拼接，形成目标的自适应融合特征；

步骤2.5：利用步骤2.4中目标的自适应融合特征，计算马氏距离和代价矩阵；

步骤2.6：利用匈牙利算法进行摄像头之间同时刻的目标匹配，获得摄像头之间当前视频帧的匹配目标并赋予身份ID。

进一步地，所述步骤2.4中目标的自适应融合特征定义如下：

其中，ψ表示设定权重，表示向量的维度拼接运算符，MT_l为目标l的空间运动特征，R_l为目标l的外观特征。

进一步地，所述设定权重ψ的表达式如下：

其中，表示目标l距离摄像头视野中心点的距离。

进一步地，所述步骤2.5中马氏距离的表达式如下：

其中，为t时刻摄像头p下第l个目标p_l的自适应融合特征/>和摄像头q下第f个目标q_f的自适应融合特征/>的马氏距离；/>为/>与/>之间的协方差矩阵；

进一步地，所述步骤2.5中代价矩阵的表达式如下：

其中，H(p,q)为t时刻摄像头p和摄像头q的代价矩阵，l∈{1,…,H_p}，f∈{1,…,H_q}，H_p是t时刻摄像头p下目标数，H_q为t时刻摄像头q下目标数。

进一步地，所述步骤3的DeepSORT方法中利用最小二乘法拟合加速度预测曲线，进而修正卡尔曼滤波的输入状态检测值，具体包括：

C1：获取摄像头在时刻t_k所获取图像帧的卡尔曼滤波输入状态的检测值：

MT_k＝(x_k,y_k,w_k,h_k,v_xk,v_yk,v_wk,v_hk)^T

其中，x_k，y_k分别表示图像帧中目标检测框的中心点横坐标与纵坐标，w_k，h_k分别表示图像帧中目标检测框的宽和高，v_xk，v_yk，v_wk，v_hky_k分别表示x_k，y_k，w_k，h_k的变化速度；

C2：基于C1中目标检测框在前k-1个时刻t₁,...,t_k-1所获取图像帧的加速度数据序列利用最小二乘法拟合加速度预测曲线/>

其中，i∈{x,y,w,h}，x,y,w,h为卡尔曼滤波输入状态的四个参数，x,y分别表示目标检测框的中心点横坐标与纵坐标，w,h分别表示目标检测框的宽和高；a_i1,…,a_i(k-1)分别为时刻t₁,...,t_k-1卡尔曼滤波输入状态的四个参数对应的加速度数据，表示卡尔曼滤波输入状态的四个参数的加速度拟合预测曲线，/>和/>为加速度拟合预测曲线的拟合系数；

C3：利用加速度预测曲线，对时刻t_k所获取图像帧的卡尔曼滤波的输入状态检测值进行修正，获得修正之后的卡尔曼滤波的输入状态检测值：

MT′_k＝(x_k,y_k,w_k,h_k,v′_xk,v′_yk,v′_wk,v′_hk)^T

其中，v′_ik为修正之后时刻t_k卡尔曼滤波输入状态的四个参数对应的变化速度，Δt为两个图像帧之间的时间差；

C4：计算时刻t_k卡尔曼滤波输入状态的四个参数对应的加速度数据，并更新时刻t_k所获取图像帧的加速度数据序列

其中，v′_(k-1)为修正之后时刻t_k-1卡尔曼滤波输入状态的四个参数对应的变化速度；

C5:令k＝k+1，重复C1到C5，直到视频结束。

本发明还提供一种基于修正DeepSORT的多传感目标群智跟踪系统，该系统基于如上所述的方法进行目标跟踪，具体包括：

多个摄像头，用于实时获取任务区域的监控视频；

目标匹配单元，用于获取摄像头之间当前视频帧的匹配目标并赋予身份ID；

目标跟踪单元，用于对每个摄像头，分别利用DeepSORT方法对当前视频帧中分配身份ID的目标进行跟踪。

本发明还提供一种存储一个或多个程序的计算机可读存储介质，所述一个或多个程序包括指令，所述指令当由计算设备执行时，使得所述计算设备执行如上所述的方法。

本发明还提供一种雷视融合配准的道路场景自适应三维目标检测设备，包括一个或多个处理器、一个或多个存储器以及一个或多个程序，其中一个或多个程序存储在所述一个或多个存储器中并被配置为由所述一个或多个处理器执行，所述一个或多个程序包括用于执行如上所述方法的指令。。

有益效果：本发明公一种基于修正DeepSORT的多传感目标群智跟踪方法，通过多个摄像头对任务区域进行目标跟踪：利用各摄像头实时获取任务区域的监控视频；采用基于匈牙利算法的匹配方法，获得摄像头之间当前视频帧的匹配目标并赋予身份ID；针对每个摄像头，分别利用DeepSORT方法对当前视频帧中分配身份ID的目标进行跟踪，直至目标跟踪任务结束。本发明利用一种基于目标空间位置的自适应融合特征计算马氏距离衡量目标相似度，最后利用匈牙利算法实现目标匹配，提高了目标的匹配的准确率。本发明针对传统的DeepSORT算法的使用的匀速线性卡尔曼滤波，对于目标突然加速或者突然停顿时，预测效果会变差的问题，提出了一种基于平均速度预测的DeepSORT修正方法，利用最小二乘法拟合预测加速度，进而修正卡尔曼滤波的输入速度参量，提高了DeepSORT算法的卡尔曼滤波预测的准确性，从而提高目标跟踪的准确率，具有广泛应用场景。

附图说明

图1为本发明的总体流程图；

图2经本发明的基于平均速度预测的DeepSORT修正方法修正后的DeepSORT流程图。

具体实施方式

构成本发明的一部分的附图用来提供对本发明的进一步理解，本发明的示意性实施例及其说明用于解释本发明，并不构成对本发明的不当限定。

本发明提供了一种基于修正DeepSORT的多传感目标群智跟踪方法如图1所示，总体步骤如下：

步骤1：多个摄像头同时使用YOLOv5检测当前视频帧中任务区域的目标，获取目标的检测信息；

步骤2：将步骤1中检测的各摄像头下的目标输入到ResNet残差网络提取目标的外观特征，然后根据摄像头的帧率和目标检测框的空间位置求得目标的空间运动特征；

步骤3：根据步骤2中目标的外观特征和空间运动特征形成自适应融合特征；

步骤4：提出一种基于匈牙利算法的匹配方法：

利用步骤3中的自适应融合特征计算马氏距离，接着根据马氏距离阈值判断，并计算代价矩阵，最后将代价矩阵输入匈牙利算法，获得摄像头之间当前视频帧的匹配目标并赋予身份ID；

步骤5：每个摄像头利用基于平均速度预测的DeepSORT修正方法修正的DeepSORT对分配ID的目标进行追踪；重复步骤1和步骤5直至目标监控追踪任务结束。

结合附图2说明，本发明中一种基于平均速度预测的DeepSORT修正方法对DeepSORT的修正后，DeepSORT对目标追踪的步骤如下：

E1：目标进入监控区域，检测生成第一帧的目标检测框，为其初始化一个检测器Detection，用于记录目标的检测框、外观特征和运动信息，此时未产生预测框，没有与之匹配的预测框，属于失配检测器，为其分配新的追踪器Track用于记录其预测框、外观特征和运动信息，对于第一帧图像，新的追踪器Track将检测框作为预测框存储，接着，根据Track中的目标的运动信息中的加速度序列，用最小二乘法拟合加速度预测曲线并计算平均速度修正卡尔曼滤波的输入的速度参量，卡尔曼滤波预测下一帧的目标的预测框，这时候的追踪器一定是处于非确认态的；

E2：将第二帧目标的Detection的检测框和上一帧通过卡尔曼滤波产生的预测框进行IOU匹配，若匹配上，则卡尔曼滤波通过检测框的运动信息与预测框的运动信息进行比较更新，然后根据Track中的目标的运动信息中的加速度序列，用最小二乘法拟合加速度预测曲线并计算平均速度修正卡尔曼滤波的输入的速度参量，卡尔曼滤波生成下一帧预测框，第三帧的Detection的检测框与Track的预测框再通过IOU匹配计算代价矩阵，其中，连续匹配超过3次的预测框的追踪器处于确认态(Confirmed)，否则处于非确认态(Unconfirmed)；

E3：将E2中计算得到的所有的代价矩阵输入匈牙利算法中，获得匹配的结果，此时有三种匹配结果，第一种是失配追踪器，即追踪器存储的预测框没有找到与之匹配的检测框，该结果是因为目标离开摄像头的区域或因为某些原因被遮挡，目标的检测框不存在，只剩下上一帧目标的预测框的原因导致的，如果该失配追踪器是未确认状态，直接删除失配追踪器。如果该失配追踪器处于确认状态，并且其生存时间小于t-max，保留该失配追踪器Track，若其生存时间大于t-max，则删除该失配追踪器；第二种是失配检测器，即该检测器的检测框是新出现目标的，未找到与之匹配的追踪器，为失配检测器初始化一个新的跟踪器Track；第三种是跟踪器和检测器匹配成功，表明前一帧和后一帧目标追踪成功，卡尔曼滤波更新；

E4：反复循环E2到E3，直到出现确认态(Confirmed)的追踪器Track，再继续执行E5；

E5：通过外观特征和运动信息将已确认状态的Track和检测器Detection检测到的目标进行级联匹配操作。

E6：获得级联匹配的三种结果，第一种结果是Track和Detection匹配成功，卡尔曼滤波通过Track和Detection更新，第二种结果是失配检测器，最后一种结果是失配追踪器。然后通过IOU匹配将所有的不确认状态的Track和失配的Track一起和失配检测器一一进行匹配，再通过IOU匹配的结果计算其代价矩阵(这里需要说明的，这里是DeepSORT原方法的代价矩阵，与前面步骤4中匈牙利算法部分不同)；然后利用IOU匹配将失配检测器和所有的不确认状态的Track和失配的Track进行匹配，得到匹配结果，接着计算其代价矩阵；

E7：将E6中得到的代价矩阵输入到匈牙利算法，获得匹配结果。此时有三种匹配结果，第一种结果是失配追踪器，倘若失配追踪器是未确认状态，直接删除失配追踪器。如果该失配追踪器处于确认状态，判断其生存时间是否小于t-max，如果满足条件，保留该失配追踪器Track；若不满足条件，就立马删除这个失配追踪器；第二种结果是失配检测器，为失配检测器初始化一个新的跟踪器Track；第三种是检测器和跟踪器匹配成功，表明前一帧和后一帧目标追踪成功，卡尔曼滤波更新；

E8：反复循环E5到E7，直到视频检测结束。

进一步的，所述步骤3中的自适应融合特征定义如下：

为了减少摄像头的畸变对目标通过外观特征进行匹配的影响，针对目标在视野中心位置的外观特征畸变小，在视野边界位置的外观特征畸变大的问题，设计了一个权重函数：

这个函数在ρ＝0处的极大值为1，而在ρ→∞时趋近于0，因此该函数的取值区间为(0,1]；

根据目标在摄像头视野中心位置外观特征畸变程度小，外观特征对目标匹配任务贡献度高，目标在摄像头视野边界区域外观特征畸变程度大，外观特征对目标匹配任务贡献度低的特点，设计了如下一个将目标的空间运动特征和外观特征根据目标到视野中心的距离自适应融合特征：

其中，表示目标l距离摄像头视野中心点的距离，/>表示向量的维度拼接运算符，/>为目标l的归一化的空间运动特征，/>为目标l的归一化外观特征。

进一步的，所述步骤4的一种基于匈牙利算法的匹配方法，具体包括步骤S1至S7：

S1：使用YOLOv5对多个摄像头目标检测，获得t时刻摄像头p下的第l个目标p_l的空间运动特征和摄像头q下的第f个q_f的空间运动特征其中，/>分别表示t时刻图像目标p_l检测框的中心点横坐标与纵坐标，/>分别表示检测框的宽和高，/> 表示各个参量的变化速度；

S2：使用ResNet网络提取目标p_l的外观特征和目标q_l的外观特征/>其中，p_l∈{1,…,H_p}，q_l∈{1,…,H_q}，κ和κ′为维数，H_p是为摄像头p观测到的人数，H_q为摄像头q观测到的人数；

S3：计算摄像头p的目标p_l的自适应融合特征和摄像头q的目标q_f的自适应融合特征的/>

S4：计算自适应融合特征与/>的马氏距离：

其中，为/>与/>之间的协方差矩阵；

S5：根据马氏距离阈值th⁽¹⁾进行判断，将不可能的目标匹配情况筛选掉：

其中，取值为1，表示摄像头p中目标与其他摄像头q中目标的自适应融合特征匹配成功，取值为0，则表示匹配失败；

S6：根据获得代价矩阵H(p,q)：

S7：将代价矩阵H(p,q)代入到匈牙利算法中建立摄像头之间的目标关联，得到匹配成功的目标，并分配身份ID。

进一步的，所述步骤5中一种基于平均速度预测的修正DeepSORT方法，包括步骤C1至C5：

MT_k＝(x_k,y_k,w_k,h_k,v_xk,v_yk,v_wk,v_hk)^T

其中，x_k，y_k分别表示图像帧中目标检测框的中心点横坐标与纵坐标，w_k，h_k分别表示图像帧中目标检测框的宽和高，v_xk，v_yk，v_wk，v_hk y_k分别表示x_k，y_k，w_k，h_k的变化速度；

C2：基于C1中目标检测框在前k-1个时刻t₁,...,t_k-1所获取图像帧的加速度数据序列利用最小二乘法相关公式拟合加速度预测函数

其中，i∈{x,y,w,h}，x,y,w,h为卡尔曼滤波输入状态的四个参数，x,y分别表示目标检测框的中心点横坐标与纵坐标，w,h分别表示目标检测框的宽和高；a_i1,…,a_i(k-1)分别为时刻t₁,...,t_k-1卡尔曼滤波输入状态的四个参数对应的加速度数据，和为加速度预测函数的拟合系数；

MT′_k＝(x_k,y_k,w_k,h_k,v′_xk,v′_yk,v′_wk,v′_hk)^T

其中，v_ik为修正之后时刻t_k卡尔曼滤波输入状态的四个参数对应的变化速度，Δt为两个图像帧之间的时间差；

C4：计算时刻t_k卡尔曼滤波输入状态的四个参数对应的加速度数据，并更新时刻t_k所获取图像帧的加速度数据序列：

C5:令k＝k+1，重复C1到C5，直到视频结束。

另外需要说明的是，在上述具体实施方式中所描述的各个具体技术特征，在不矛盾的情况下，可以通过任何合适的方式进行组合。为了避免不必要的重复，本发明对各种可能的组合方式不再另行说明。

本发明还提出了一种基于修正DeepSORT的多传感目标群智跟踪系统，具体包括：

多个摄像头，用于实时获取任务区域的监控视频；

上述三维目标检测系统的技术方案与前述方法类似，这里不再赘述。

基于相同的技术方案，本发明还公开了一种存储一个或多个程序的计算机可读存储介质，所述一个或多个程序包括指令，所述指令当由计算设备执行时，使得所述计算设备执行上述基于修正DeepSORT的多传感目标群智跟踪方法。

基于相同的技术方案，本发明还公开了一种计算设备，包括一个或多个处理器、一个或多个存储器以及一个或多个程序，其中一个或多个程序存储在所述一个或多个存储器中并被配置为由所述一个或多个处理器执行，所述一个或多个程序包括用于执行上述基于修正DeepSORT的多传感目标群智跟踪方法的指令。

本领域内的技术人员应明白，本发明的实施例可提供为方法、系统、或计算机程序产品。因此，本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

需要说明的是，本申请所涉及的用户信息（包括但不限于用户设备信息、用户个人信息等）和数据（包括但不限于用于分析的数据、存储的数据、展示的数据等），均为经用户授权或者经过各方充分授权的信息和数据，且相关数据的收集、使用和处理需要遵守相关国家和地区的相关法律法规和标准。

以上实施例仅为说明本发明的技术思想，不能以此限定本发明的保护范围，凡是按照本发明提出的技术思想，在技术方案基础上所做的任何改动，均落入本发明保护范围之内。

Claims

1.一种基于修正DeepSORT的多传感目标群智跟踪方法，其特征在于，该方法通过多个摄像头对任务区域进行目标跟踪，具体包括如下步骤：

步骤1：利用各摄像头实时获取任务区域的监控视频；

2.根据权利要求1所述的一种基于修正DeepSORT的多传感目标群智跟踪方法，其特征在于，所述步骤2具体为：

3.根据权利要求2所述的一种基于修正DeepSORT的多传感目标群智跟踪方法，其特征在于，所述步骤2.4中目标的自适应融合特征定义如下：

4.根据权利要求2所述的一种基于修正DeepSORT的多传感目标群智跟踪方法，其特征在于，所述设定权重ψ的表达式如下：

其中，表示目标l距离摄像头视野中心点的距离。

5.根据权利要求2所述的一种基于修正DeepSORT的多传感目标群智跟踪方法，其特征在于，所述步骤2.5中马氏距离的表达式如下：

其中，为t时刻摄像头p下第l个目标p_l的自适应融合特征/>和摄像头q下第f个目标q_f的自适应融合特征/>的马氏距离；/>为/>与/>之间的协方差矩阵。

6.根据权利要求5所述的一种基于修正DeepSORT的多传感目标群智跟踪方法，其特征在于，所述步骤2.5中代价矩阵的表达式如下：

7.根据权利要求1所述的一种基于修正DeepSORT的多传感目标群智跟踪方法，其特征在于，所述步骤3的DeepSORT方法中利用最小二乘法拟合加速度预测曲线，进而修正卡尔曼滤波的输入状态检测值，具体包括：

MT_k＝(x_k,y_k,w_k,h_k,v_xk,v_yk,v_wk,v_hk)^T

MT′_k＝(x_k,y_k,w_k,h_k,v′_xk,v′_yk,v′_wk,v′_hk)^T

其中，v′_i(k-1)为修正之后时刻t_k-1卡尔曼滤波输入状态的四个参数对应的变化速度；

C5:令k＝k+1，重复C1到C5，直到视频结束。

8.一种基于修正DeepSORT的多传感目标群智跟踪系统，其特征在于，该系统基于如权利要求1-7中任一所述的方法进行目标跟踪，具体包括：

多个摄像头，用于实时获取任务区域的监控视频；

9.一种存储一个或多个程序的计算机可读存储介质，所述一个或多个程序包括指令，其特征在于，所述指令当由计算设备执行时，使得所述计算设备执行如权利要求1-7中任一所述的方法。

10.一种雷视融合配准的道路场景自适应三维目标检测设备，其特征在于，包括一个或多个处理器、一个或多个存储器以及一个或多个程序，其中一个或多个程序存储在所述一个或多个存储器中并被配置为由所述一个或多个处理器执行，所述一个或多个程序包括用于执行如权利要求1至7中任一所述方法的指令。