CN111460926B

CN111460926B - 一种融合多目标跟踪线索的视频行人检测方法

Info

Publication number: CN111460926B
Application number: CN202010185556.8A
Authority: CN
Inventors: 韩守东; 刘婉莹; 黄飘; 郑丽君
Original assignee: Huazhong University of Science and Technology
Current assignee: Huazhong University of Science and Technology
Priority date: 2020-03-16
Filing date: 2020-03-16
Publication date: 2022-10-14
Anticipated expiration: 2040-03-16
Also published as: CN111460926A

Abstract

本发明公开了一种融合多目标跟踪线索的视频行人检测方法，属于计算机视觉的图像处理领域。分为行人检测模块(改进Faster R‑CNN)和多目标跟踪模块。本发明在特征提取网络中引入了特征金字塔，通过在更多尺度上检测行人，融合不同层的特征提升预测的效果，提高小目标的检出率和准确率。本发明用多目标跟踪模块辅助行人检测，引入视频前后帧帧间信息，可以提高检测的稳定性，对于由于形变、遮挡、位于图片边缘的目标引起的检测不稳定性，通过跟踪模块得到的历史帧目标轨迹和目标数量得到缓解。本发明在行人检测网络部分修改了锚点框，使其更符合行人的特点，从而提高行人检测精度。

Description

一种融合多目标跟踪线索的视频行人检测方法

技术领域

本发明属于计算机视觉的图像处理领域，更具体地，涉及一种融合多目标跟踪线索的视频行人检测方法。

背景技术

行人检测是计算机视觉任务中近年来的研究热点问题。行人检测的目的是在图像或者视频序列中判断行人是否存在并给予存在的行人精准定位。行人检测在计算机应用领域有非常广泛的应用，可应用于包括车辆辅助驾驶系统、航拍图像、智能交通、视频监控等诸多领域。

行人检测是一个非常困难的研究问题，因为在摄像机下，一个人的外貌存在着视觉模糊和时空不确定性，这些困难往往是由于低分辨率的图像或者视频的质量不佳，并且行人在图像中通常较小、行人检测中普遍存在遮挡等情况，一般目标检测算法并不能很好地解决行人检测问题。

目前效果较好也是最普遍的行人检测器，基本都是基于候选区域的两阶段目标检测器，也就是说通常是基于Faster R-CNN网络的。Faster R-CNN系列网络通常分为四步：(1)提取特征。作为一种CNN网络目标检测方法，Faster R-CNN首先使用特征提取网络(Resnet101、VGG16等)提取输入图片的特征图。特征图被共享用于后续区域建议网络和全连接层。(2)区域建议网络(Region Proposal Networks)。RPN的核心思想是使用CNN卷积神经网络直接产生区域建议，使用的方法本质上就是滑动窗口(只需在最后的卷积层上滑动一遍)，因为锚点机制和边框回归可以得到多尺度多长宽比的区域建议。(3)ROI池化层。该层收集输入的特征图和区域建议，综合这些信息后提取建议特征图，送入后续全连接层判定目标类别。(4)分类和位置精修。行人检测器仅需要分为行人和非行人两类即可，利用建议特征图计算检测框的类别，同时再次边界框回归获得检测框最终的精确位置，最后通过非极大值抑制(Non-maximum suppression，NMS)除去冗余的预测框，得到最终的结果。近十年来很多学者在行人检测的研究中也取得了一些成就，但是当前如何在真实视频场景中减少遮挡、失焦、行人目标过小等因素带给行人检测器的干扰仍然是一个不小的挑战。

发明内容

针对现有技术真实视频场景中遮挡、失焦、行人目标过小等因素带给行人检测器的干扰的问题，本发明提供了一种融合多目标跟踪线索的视频行人检测方法，其目的在于通过融合多目标跟踪信息和引入FPN网络的方法，可以检测出视频帧中更多的较小行人目标和密集人群场景中被遮挡的行人目标等，提高检测的召回率和鲁棒性。

为实现上述目的，按照本发明的第一方面，提供了一种融合多目标跟踪线索的视频行人检测方法，该方法包括以下步骤：

S1.基于相同的行人监控视频，构建第一训练集和第二训练集，其中，第一训练样本为连续M帧图像序列中的行人，对应标签为行人跟踪框的位置信息、行人ID和跟踪框所属帧ID，第二训练样本为单帧图像的行人，对应标签为行人检测框的位置信息；

S2.预训练行人检测网络模型中的特征提取网络，所述行人检测网络模型以Faster R-CNN为基础，特征提取网络加入特征金字塔；使用第一训练集训练多目标跟踪模块；使用第二训练集训练行人检测网络模型；

S3.待测行人监控视频以连续M帧图像序列为单位输入训练好的多目标跟踪模块，得到跟踪结果；待测行人监控视频以单帧图像为单位输入训练好的行人检测网络模型，将该帧对应的特征图、行人检测网络模型中的区域建议模块输出的建议框和多目标跟踪模块输出的跟踪框输入行人检测网络模型中的感兴趣区域池化层后，再经过分类回归和非极大值抑制，得到检测结果；

S4.根据跟踪结果中跟踪框与检测结果中检测框的运动信息关联程度和外观信息关联程度，为跟踪轨迹分配行人检测框，修正检测结果。

优选地，改进的特征提取网络结构如下：ResNet-101的第2卷积块至第5卷积块，每个卷积块的输出端接卷积核1*1的卷积层，第5卷积块的输出经过卷积层后，得到M₅；第K卷积块的输出经过卷积层后，与对M_K-1最近邻上采样后的结果进行融合，得到M_K，K＝4，3，2，M₅～M₂分别经过卷积核3*3的卷积后，得到特征图P₅～P₂。

优选地，所述区域建议模块中锚点框的宽高比设置为0.33、0.5和1。

优选地，所述相同的行人监控视频覆盖不同场景，所述场景条件包括：监控视角、监控设备运动状态、环境光线和监控设备分辨率。

优选地，运动信息的关联程度由马氏距离来表示：

d₁(i，j)＝(d_j-y_i)^TS_i ^-1(d_j-y_i)

其中，d_j表示第j个行人检测框的位置，y_i表示第i个跟踪框的位置，S_i是行人检测结果与平均跟踪位置之间的协方差矩阵。

优选地，外观信息关联程度采用第i个跟踪框的最近N个成功关联的特征集R_i与行人检测结果中第j个检测框特征间的最小余弦距离来表示外观信息的关联程度。

优选地，使用两个指标的线性加权作为最终的度量，使用匈牙利算法进行匹配，选择检测框与跟踪框关联，如果匹配不到检测框，则将该跟踪框加入检测结果中。

为实现上述目的，按照本发明的第二方面，提供了一种计算机可读存储介质，其上存储计算机程序指令，所述计算机程序指令在被处理器执行时实现如第一方面所述的方法。

总体而言，通过本发明所构思的以上技术方案，能够取得以下有益效果：

(1)本发明在特征提取网络中引入了特征金字塔，通过在更多尺度上检测行人，融合不同层的特征提升预测的效果，提高小目标的检出率和准确率。

(2)本发明用多目标跟踪模块辅助行人检测，引入视频前后帧帧间信息，可以提高检测的稳定性，对于由于形变、遮挡、位于图片边缘的目标引起的检测不稳定性，可以通过跟踪模块得到的历史帧目标轨迹和目标数量得到缓解。

(3)本发明在行人检测网络部分修改了锚点框，使其更符合行人的特点，从而提高行人检测精度。

附图说明

图1为本发明实施例提供的融合多目标跟踪线索的视频行人检测网络结构示意图；

图2为本发明实施例提供的引入特征金字塔的特征提取网络示意图；

图3(a)为本发明实施例提供的Faster R-CNN的检测结果截图；

图3(b)为本发明实施例提供的改进后的行人检测网络的检测结果截图；

图4(a)为本发明实施例提供的待测的图片序列；

图4(b)为本发明实施例提供的未加入跟踪模块的行人检测网络得到的检测结果；

图4(c)为本发明实施例提供的加入跟踪模块的视频行人检测网络得到的检测结果；

图5为本发明实施例提供的在MOT17Det测试集上本发明和Faster R-CNN的结果对比。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。此外，下面所描述的本发明各个实施方式中所涉及到的技术特征只要彼此之间未构成冲突就可以相互组合。

如图1所示，本发明提出一种融合多目标跟踪线索的视频行人检测方法，包括以下步骤：

步骤1.预训练行人检测模型中的特征提取网络。

以ImageNet数据集作为预训练数据集，训练样本为物体图片，标签是物体类别，训练加入了特征金字塔(FPN)的Resnet-101网络，使特征提取网络获得初始值。

本发明采用加入了特征金字塔的Resnet-101网络作为Faster R-CNN的特征提取网络，其优点在于：FPN同时利用了低层特征和高层特征，低层的特征语义信息比较少，但是目标位置准确；高层的特征语义信息比较丰富，但是目标位置比较粗略。本发明通过融合这些不同层的特征，可以改善行人检测中的多尺度问题，提高对小体积行人目标的检测准确率，提高预测的效果。

加入FPN的方式如图2所示，每一阶段的特征图尺寸都是2倍的关系，“2x”采用的是最简单的最近邻上采样。

自底向上其实就是网络的前向过程。在前向过程中，特征图的尺寸大小在经过某些卷积层后会改变，而在经过其他一些层的时候不会改变，将不改变特征图大小的层归为一个阶段，因此每次抽取的特征图都是每个阶段的最后一个卷积层的输出，这样就能构成特征金字塔。自顶向下的过程采用上采样进行，然后通过横向连接将上采样的结果和自底向上生成的相同大小的特征图进行融合。在融合之后还会再采用3*3的卷积核对每个融合结果进行卷积，目的是消除上采样的混叠效应。并假设生成的特征图结果是P2、P3、P4、P5，和原来自底向上的卷积结果C2、C3、C4、C5一一对应，后续再选择P2、P3、P4、P5输入候补区域网络等。

步骤2.构建行人检测网络。

Faster R-CNN网络分为四步：(1)提取特征，输入是图片，输出是特征图。作为一种CNN网络目标检测方法，Faster R-CNN首先使用特征提取网络(加入了FPN的Resnet101)提取输入图片的特征图。特征图被共享用于后续区域建议网络和全连接层。(2)区域建议网络。输入是特征图，输出是区域建议。RPN的核心思想是使用CNN卷积神经网络直接产生区域建议，使用的方法本质上就是滑动窗口(只需在最后的卷积层上滑动一遍)，因为锚点机制和边框回归可以得到多尺度多长宽比的区域建议。(3)ROI池化层。该层收集输入的特征图、跟踪框和区域建议，综合这些信息后把各个“候选框”映射到特征图上，得到建议特征图。(4)分类和位置精修。行人检测器仅需要分为行人和非行人两类即可，利用建议特征图计算检测框的类别，同时再次边界框回归获得检测框最终的精确位置，最后通过非极大值抑制除去冗余的预测框，得到最终的结果。

以加入了FPN的Resnet-101作为特征提取网络，基于Faster R-CNN构建行人检测网络，根据行人的特点，修改候补区域网络中锚点框的尺寸。

本发明特别定制了行人检测的RPN中的锚点框，由于行人与其他目标不同，有较为固定的宽高比，平均为0.41。考虑到监控图像边缘的行人、被遮挡的行人等情形，设置宽高比为1；考虑小孩和身高较低的成人等情形，设置宽高比为0.33。所以将RPN的锚点框的宽高比设置为0.33、0.5和1三种，尺度仍为32、64、128、256和512。

步骤3.处理行人检测数据集。

利用MOT17Det数据集制作检测部分的数据集，MOT17Det数据集有7段不同场景下连续的连续图片序列作为训练集，将原训练集作为验证集，对原数据集进行数据增强处理作为检测部分的训练集，数据增强操作包括：随机水平翻转、随机添加噪声、颜色扰动等等。MOT17Det数据集的测试集也是由7段不同场景下连续的连续图片序列组成。

步骤4.训练行人检测网络。

使用步骤3中所得到的训练数据集以及步骤2中得到的模型作为预训练模型训练行人检测部分的网络，对网络中的参数进行优化升级，设置Batch size为8，在两块1080tiGPU上进行训练。

图3(a)为只使用行人检测网络进行检测的结果，图3(b)为使用改进后的行人检测的结果，可以看到，在人群稠密且行人目标体积小的场景下，本发明中行人检测网络对于小体积行人的检出率明显高于Faster R-CNN网络。

步骤5.预处理多目标跟踪训练数据集并训练多目标跟踪模块。

利用MOT17数据集制作跟踪部分的训练集，MOT17数据集则是主要针对行人半稠密或者稠密场景，也包含7个训练视频序列，基本涵盖了高视角(小尺度行人)、低视角(行人之间遮挡严重)、相机运动等情况，其中训练视频的场景和MOT17Det训练视频中的场景一致，对原数据集进行数据增强操作，具体包括：随机水平翻转、随机添加噪声、颜色扰动等等，这样可以使训练后的模型通用性和抗干扰性更强，然后用得到的训练集训练多目标跟踪模块。

本发明中多目标跟踪算法可以是任一种，本实施例中，多目标跟踪模块的核心思想是用一个传统的单假设追踪方法，方法使用了递归的卡尔曼滤波和逐帧数据关联，在目标跟踪过程中，进行自适应表观特征的提取和融合，然后进行最近邻匹配。

多目标跟踪模块：输入为图像序列，输出为所有行人目标的轨迹，即图像序列里所有跟踪框(包括位置坐标、帧数、行人ID)

多目标跟踪模型是基于贝叶斯后验概率假设，将相机运动模型与行人运动估计模型紧密结合的集成运动模型。行人运动模型选用卡尔曼滤波器，对每条跟踪轨迹先做行人运动估计，输入为上一帧的行人框，输出为估计出的这一帧的行人框。相机运动模型优选增强相关系数最大化模型(Enhanced Correlation Coefficient，ECC)来计算相邻视频帧之间的相机运动变换，输入为行人运动模型的输出，输出为矫正后的行人框。

相机运动模型ECC和行人运动模型Kalman滤波器，两个运动模型的集成可利用贝叶斯后验概率模型进行描述：

其中，x_p表示行人运动估计状态，x_c表示相机运动估计状态，P(·)表示概率分布。

步骤6.进行视频行人检测。

将连续的视频帧输入到多目标跟踪模块和行人检测网络，将多目标跟踪模块得到的跟踪框与检测网络得到的区域建议一起送入ROI池化层，得到的输出再经过非极大值抑制与跟踪结果做数据关联，最终得到的是每个视频帧中检测出的行人定位和概率。

这里的数据关联，也就是给跟踪框分配检测框时，考虑了目标运动信息和外观信息两方面的关联。所述数据关联同时考虑了运动信息的关联和目标外观信息的关联，利用马氏距离和行人重识别(ReID)特征相似度计算检测和跟踪轨迹之间的匹配程度，为跟踪轨迹分配行人检测框。

具体来说，运动信息的关联程度由马氏距离来表示：

d⁽¹⁾(i，j)＝(d_j-y_i)^TS_i ^-1(d_j-y_i)

其中，d_j表示第j个行人检测框的位置，y_i表示第i个跟踪框的位置，S_i则是行人检测结果与平均跟踪位置之间的协方差矩阵。通过计算行人检测结果和平均跟踪位置之间的标准差可以减小状态测量的不确定性。然后设定一定的阈值，如果关联的马氏距离小于指定的阈值，则认为运动信息关联成功。

当存在相机运动的情况时，运动的不确定性会变大，因此还需要考虑目标的外观信息关联程度，这里采用第i个跟踪框的最近N(本实施例N＝50)个成功关联的特征集与行人检测结果中第j个检测框特征间的最小余弦距离来表示外观信息的关联程度，计算公式为：

d⁽²⁾(i，j)＝min{1-r_jTr_k ⁽ⁱ⁾|r_k ⁽ⁱ⁾∈R_i}

同样地，如果最小余弦距离小于一定阈值则认为外观信息关联成功。

当d⁽¹⁾(i，j)和d⁽²⁾(i，j)都满足各自阈值条件的时候(本实施例中分别为0.9～1.0和0.65～0.85)，使用两个指标的线性加权作为最终的度量，使用匈牙利算法进行匹配，选择检测框与跟踪框关联，如果匹配不到检测框，则将该跟踪框加入检测结果中。

通过这种方式可以降低对于由于形变、遮挡、位于图片边缘的目标引起的检测不稳定性，减少在视频中时隐时现的行人检测框。

综上所述，本发明在通用目标检测网络上进行改进并作为行人检测网络，改善了高视角(小尺度行人)、低视角(行人之间遮挡严重)、相机运动等情况带来的干扰，并且融合多目标跟踪模块到行人检测网络中，形成视频行人检测网络模型，能有效的提高行人目标行人框的稳定性，提升视频行人检测的平均准确率和召回率。待测的图片序列如图4(a)所示；图4(b)为未加入跟踪模块的行人检测网络得到的检测结果，其中，椭圆形框为由于遮挡和相机运动导致的漏检目标；图4(c)为加入跟踪模块的视频行人检测网络得到的检测结果。对比发现：融入多目标跟踪线索可以减少遮挡和相机运动等情况带来的干扰。

如图5所示，MOT17Der测试集上本发明方法和Faster R-CNN的结果对比，通过本发明可以将平均精度AP提升到88％。

本领域的技术人员容易理解，以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明的保护范围之内。

Claims

1.一种融合多目标跟踪线索的视频行人检测方法，其特征在于，该方法包括以下步骤：

S4.根据跟踪结果中跟踪框与检测结果中检测框的运动信息关联程度和外观信息关联程度，为跟踪轨迹分配行人检测框，修正检测结果；

其中，使用两个指标的线性加权作为最终的度量，使用匈牙利算法进行匹配，选择检测框与跟踪框关联，如果匹配不到检测框，则将该跟踪框加入检测结果中。

2.如权利要求1所述的检测方法，其特征在于，改进的特征提取网络结构如下：ResNet-101的第2卷积块至第5卷积块，每个卷积块的输出端接卷积核1*1的卷积层，第5卷积块的输出经过卷积层后，得到M₅；第K卷积块的输出经过卷积层后，与对M_K-1最近邻上采样后的结果进行融合，得到M_K，K＝4,3,2，M₅～M₂分别经过卷积核3*3的卷积后，得到特征图P₅～P₂。

3.如权利要求1或2所述的检测方法，其特征在于，所述区域建议模块中锚点框的宽高比设置为0.33、0.5和1。

4.如权利要求1至3任一项的检测方法，其特征在于，所述相同的行人监控视频覆盖不同场景，所述场景条件包括：监控视角、监控设备运动状态、环境光线和监控设备分辨率。

5.如权利要求1至4任一项的检测方法，其特征在于，运动信息的关联程度由马氏距离来表示：

d₁(i,j)＝(d_j-y_i)^TS_i ^-1(d_j-y_i)

6.如权利要求1至5任一项的检测方法，其特征在于，外观信息关联程度采用第i个跟踪框的最近N个成功关联的特征集与行人检测结果中第j个检测框特征间的最小余弦距离来表示外观信息的关联程度。

7.一种计算机可读存储介质，其上存储计算机程序指令，其特征在于，所述计算机程序指令在被处理器执行时实现如权利要求1-6中任一项所述的方法。