CN111862145B

CN111862145B - 一种基于多尺度行人检测的目标跟踪方法

Info

Publication number: CN111862145B
Application number: CN201910335888.7A
Authority: CN
Inventors: 王正勇; 程玉; 何小海; 吴晓红; 卿粼波; 滕奇志; 吴小强
Original assignee: Sichuan University
Current assignee: Sichuan University
Priority date: 2019-04-24
Filing date: 2019-04-24
Publication date: 2022-05-17
Anticipated expiration: 2039-04-24
Also published as: CN111862145A

Abstract

本发明公开了一种基于多尺度行人检测的目标跟踪方法，涉及智能视频监控、计算机视觉等领域。包括以下步骤：首先在经典检测算法SSD的基础网络中叠加一系列卷积预测块，使之能检测尺度不同的候选行人目标，然后采用卡尔曼滤波算法迭代地预测和更新行人目标的运动状态，并且结合目标表观特征、运动特征及形状大小特征，构建融合关联矩阵以计算总的相似度，最后采用匈牙利算法进行行人目标和运动轨迹的关联，实现多目标行人跟踪。本发明所提方法针对视频中行人目标尺寸大小变化以及相互遮挡等特点，以改善多目标行人跟踪效果为目的，有效地降低了由目标相互遮挡导致跟踪失败的比率，可以应用于智能视频监控等领域。

Description

一种基于多尺度行人检测的目标跟踪方法

技术领域

本发明涉及一种基于多尺度行人检测的目标跟踪方法，属于计算机视觉与智能信息处理领域。

背景技术

视频多目标跟踪技术是计算机视觉领域的重要课题之一，在智能视频监控、人机交互和无人驾驶等多种视频分析场景中有着广泛的应用。近年来随着目标检测技术的研究进展，基于检测的多目标跟踪算法已成为当前多目标跟踪领域的主流算法。一般情况下，多目标问题可以看作是一个数据关联问题，其目的是将视频序列中连续帧的检测结果关联起来。当预先训练好的检测器给出目标行人的检测结果时，将检测结果与跟踪预测得到的结果进行关联匹配，从而得到目标的运动轨迹。其中，匈牙利算法是目前多目标跟踪算法中使用最多的数据关联方法。然而光照变化、背景杂乱、遮挡等因素影响使得视频连续帧中目标之间的轨迹关联变得困难。为了辅助数据关联过程，跟踪器使用各种方法对场景中物体的运动和外观进行建模。除此之外，利用行人重识别领域的训练模型来提取目标的深度表观特征，并将深度表观特征引入多目标跟踪算法也可以提高多目标跟踪算法的鲁棒性。

发明内容

本发明提出了一种基于多尺度行人检测的目标跟踪方法，首先使用经典检测算法SSD的网络结构，在SSD框架的基础网络中叠加一系列卷积预测块，使之能检测尺度不同的候选行人目标，然后采用卡尔曼滤波算法迭代地预测和更新行人目标的运动状态，并且结合目标表观特征、运动特征及形状大小特征，构建融合关联矩阵以计算总的相似度，最后采用匈牙利算法进行行人目标和运动轨迹的关联，实现多目标行人跟踪。

本发明通过以下技术方案来实现上述目的：

(1)行人目标检测：输入视频，采用多尺度行人检测方法对视频中不同尺度的行人目标的位置进行有效的检测；初始化跟踪目标，采用基于卡尔曼滤波模型的跟踪算法预测目标的运动状态；

(2)目标特征提取：提取目标区域的表观特征、运动特征和形状大小特征，计算目标外观特征矩阵、运动特征矩阵以及形状大小特征矩阵，然后构建融合关联矩阵；

(3)目标关联：利用卡尔曼滤波模型迭代地预测和更新目标的状态，检测到行人目标的位置之后，采用匈牙利算法对视频中行人目标的检测结果和跟踪轨迹进行关联；

(4)目标状态更新：将行人目标的检测结果和跟踪预测信息相互结合，并更新行人目标的运动状态和跟踪轨迹。

附图说明

图1为本发明基于多尺度行人检测的目标跟踪方法框图；

图2为本发明基于多尺度行人检测模型框架图；

图3为本发明形状相似度结构框图。

具体实施方式

下面结合附图对本发明作进一步说明：

建立多尺度行人检测模型的过程如下：

首先在基础网络中提取行人目标的特征，这4层特征图由原始图像分别下采样8、16、32和64倍得到，将这些尺度特征用于目标位置预测以提高对不同尺度行人目标定位的准确度。当输入图像经过基础网络提取特征之后，在每层特征图中分别添加3个卷积预测块(图3中只标出1个卷积预测块)，通过卷积预测块对图像中目标的位置进行多次预测，逐步逼近目标的真实位置。在当前层完成预测之后，将当前层尺度特征继续传到下一层重新生成新的目标候选框，得到新的置信度分数和目标位置偏移量，如此重复多次在最后一层得到图像中行人目标的最终候选框。

多特征融合的相似度计算方法如下：

行人目标的形状相似度结构如附图3所示，其中T_i表示第i个行人目标的检测候选框大小，O_j表示第j条跟踪轨迹中行人目标的形状大小，

和

分别表示它们的面积，S_com表示中间重叠部分的面积大小，w和h分别表示矩形框的宽度和高度。则行人目标的形状相似度ssim_ij计算方法为：

行人目标的形状相似度体现了检测结果与跟踪结果在形状大小上的关联程度，若行人目标和轨迹的形状越接近，则表示形状相似度越高，ssim_ij值越大，关联程度越高。通过行人目标的形状相似度可以建立形状大小特征矩阵S：

其中，ssim_ij为第i(i＝1,...m)个检测框和第j(j＝1,...m)条跟踪轨迹之间的形状大小相似程度。

当检测器检测到t时刻图像中的目标之后，为每一个目标分配一个矩形框(Detection Boundingbox)，并且计算目标区域的表观特征{X₁,…,X_i,…,X_n}，其中X_i表示t时刻图像中检测到的第i个行人目标的表观特征；在此同时，利用卡尔曼滤波模型对前(t-1)时刻图像中的行人目标进行状态预测和协方差预测，预测得到t时刻图像中行人目标的位置，对每一个目标分配一个矩形框(Tracking Boundingbox)，并且计算目标区域的表观特征{Y₁,…,Y_j,…,Y_n}，其中Y_j表示t时刻图像中预测得到的第j条跟踪轨迹中行人目标的表观特征；最后计算{X₁,…,X_i,…,X_n}和{Y₁,…,Y_i,…,Y_n}之间的表观特征矩阵H：

其中，h_ij为第i(i＝1,...m)个检测框和第j(j＝1,...m)条跟踪轨迹之间的表观相似程度。

除此之外，利用卡尔曼运动模型计算行人目标的运动特征矩阵P：

其中，p_ij是第i(i＝1,...m)个检测框和第j(j＝1,...m)条跟踪轨迹之间的运动相似程度。

将形状大小特征矩阵S、表观特征矩阵H和运动特征矩阵P进行加权结合，得到多特征融合的关联矩阵M：

M＝αS+βH+γP (21)

其中，α、β和γ是融合关联矩阵的自适应加权系数，α、β和γ∈[0,1]且满足α+β+γ＝1。当目标之间相互遮挡时，原有目标的表观信息或者形状大小可能会发生改变，从而导致跟踪失败。而本文提出构建多特征融合的关联矩阵，将行人目标的形状大小特征与表观特征、运动特征相结合，进行行人与轨迹之间的关联匹配，可以使算法对行人被遮挡场景下的多目标跟踪更具有适应性，有效地降低了由于目标遮挡问题造成的跟踪失败的比率。

为了更加客观准确地分析本文算法的有效性，选用标准的MOT指标对本文算法进行分析。实验采用的评价指标包括多目标跟踪准确度(MOTA)、误检次数(FP)、漏检次数(FN)以及目标ID变化次数(ID_sw)。本文选取近年来跟踪效果比较好的SORT与本文的跟踪算法进行分析比较。从表1可以看出，本文算法在2DMOT2015数据集上的准确度达到了34.3％，与SORT算法相比提升了0.9％，与其他算法相比也有一定程度的提高；另外，相较于SORT算法，本文算法目标误检次数和漏检次数也都有所降低。

表1：2D MOT 2015数据集上的对比结果

Claims

1.一种基于多尺度行人检测的目标跟踪方法，其特征在于包括以下步骤：

(2)目标特征提取：提取目标区域的表观特征、运动特征和形状大小特征，计算目标表观特征矩阵、运动特征矩阵以及形状大小特征矩阵，然后构建融合关联矩阵；

(4)目标状态更新：将行人目标的检测结果和跟踪预测信息相互结合，并更新行人目标的运动状态和跟踪轨迹；

步骤(1)中检测视频中不同尺度的行人目标的具体检测方法如下：

首先在基础网络中提取行人目标的特征，4层特征图由原始图像分别下采样8、16、32和64倍得到，将尺度特征用于目标位置预测以提高对不同尺度行人目标定位的准确度；当输入图像经过基础网络提取特征之后，在每层特征图中分别添加3个卷积预测块，通过卷积预测块对图像中目标的位置进行多次预测，逐步逼近目标的真实位置；在当前层完成预测之后，将当前层尺度特征继续传到下一层重新生成新的目标候选框，得到新的置信度分数和目标位置偏移量，最终在最后一层得到图像中行人目标的最终候选框。

2.根据权利要求1所述的方法，其特征在于步骤(2)中形状大小特征矩阵，计算方法如下：

行人目标的形状相似度ssim_ij计算方法为：