CN108509859B

CN108509859B - 一种基于深度神经网络的无重叠区域行人跟踪方法

Info

Publication number: CN108509859B
Application number: CN201810192601.5A
Authority: CN
Inventors: 韩光; 葛亚鸣; 苏晋鹏; 李晓飞
Original assignee: Nanjing University of Posts and Telecommunications
Current assignee: Nanjing University of Posts and Telecommunications
Priority date: 2018-03-09
Filing date: 2018-03-09
Publication date: 2022-08-26
Anticipated expiration: 2038-03-09
Also published as: CN108509859A

Abstract

本发明公开了一种基于深度神经网络的无重叠区域行人跟踪方法，该方法包括以下步骤：(1)采用YOLO算法对监控视频图像中当前行人目标进行检测，分割行人目标图片；(2)使用卡尔曼算法对所述检测结果跟踪预测；(3)利用卷积神经网络提取图片的深度特征，所述图片包括候选行人图片和所述步骤(2)中的目标行人图片，并存储所述候选行人的图片及其特征；(4)计算目标行人特征与候选行人特征的相似度并排序，识别出所述目标行人。本发明可获得较高的检测与跟踪精度，从而有助于提升行人识别率。

Description

一种基于深度神经网络的无重叠区域行人跟踪方法

技术领域

本发明涉及一种行人跟踪方法，具体涉及一种基于深度神经网络的无重叠区域行人跟踪方法。

背景技术

近年来视频监控系统的需求日益增加，对于大部分的视频监控系统来说，监控视频中出现的人都是其重点关注的对象，因此智能监控系统需要拥有对行人目标进行检测、识别、跟踪的能力，以便进一步对其的行为进行分析。由于摄像机监控区域的局限性，无重叠视域的摄像机联合监控在监控系统中的应用越来越广泛，而要实现这些功能需要拥有优秀的行人检测与行人再识别技术。

公开号为CN 105574515 A的专利公开了“一种无重叠视域下的行人再识别方法”，该方法采用基于HOG+SVM的行人检测算法进行行人检测，然后采用TLD算法对目标行人进行跟踪。行人再识别部分为行人目标的上半身和下半身的分别构建HSV三通道稀疏字典，并计算与另一监控视域下稀疏重构后的行人目标之间的重构误差，并融合判决从而得到匹配相似度。由于HOG+SVM检测算法，TLD跟踪算法以及构建多通道稀疏字典的局限性，使得在困难条件下该方法难以实时、准确地跟踪无重叠区域下的行人目标。

发明内容

发明目的：为了克服现有技术的不足，本发明提供一种基于深度神经网络的无重叠区域行人跟踪方法，该方法采用YOLO检测算法、卡尔曼跟踪算法以及深度残差网络对目标行人进行检测与跟踪，解决了检测精度与跟踪精度低的问题，提升了行人的识别率。

技术方案：本发明所述的基于深度神经网络的无重叠区域行人跟踪方法，包括以下步骤：

(1)采用YOLO算法对监控视频图像中当前行人目标进行检测，分割行人目标图片；

(2)使用卡尔曼算法对所述检测结果跟踪预测；

(3)利用卷积神经网络提取图片的深度特征，所述图片包括候选行人图片和所述步骤(2)中的目标行人图片，并存储所述候选行人的图片及其特征；

(4)计算目标行人特征与候选行人特征的相似度并排序，识别出所述目标行人。

优选的，所述步骤(2)包括：

(21)根据所述当前行人检测结果和所述卡尔曼算法，预测所述当前行人在下一帧图像中的位置，并将所述位置更新到预测框中；

(22)对检测框和所述预测框的结果进行配对，计算所述检测框和所述预测框之间的欧式距离；

(23)更新配对成功与配对未成功的预测情况。

优选的，所述检测框的显示方法为：

采用YOLO检测模型对输入的所述监控视频的每一帧进行检测，并将其设为只检测行人且设置置信度阈值，只显示所述置信度得分高于所述阈值的所述目标行人的检测框。

优选的，所述步骤(3)中，提取目标行人图片的深度特征与候选行人图片的深度特征的为同一个卷积神经网络，包括：

卷积模块Conv1：卷积核大小为7×7，输出为64张特征图；输入数据下采样层pool1：池化窗口大小为3×3，输出为64张特征图；

卷积模块Conv2：包含3个残差单元，每个残差单元包含3个卷积层，卷积核大小分别为1×1，3×3和1×1，最终输出256张特征图；

卷积模块Conv3：包含4个残差单元，每个残差单元包含3个卷积层，卷积核大小分别为1×1，3×3和1×1，最终输出512张特征图；

卷积模块Conv4：包含6个残差单元，每个残差单元包含3个卷积层，卷积核大小分别为1×1，3×3和1×1，最终输出1024张特征图；

卷积模块Conv5：包含3个残差单元，每个残差单元包含3个卷积层，卷积核大小分别为1×1，3×3和1×1，最终输出2048张特征图；

输出数据下采样层pool5：池化窗口大小7×7，输出为2048×1的向量，即为对所述目标行人图片或候选行人图片提取出的深度特征f。

优选的，所述步骤(4)包括：

(41)计算所述目标行人特征与候选行人特征的余弦相似度，然后进行排序；

(42)与所述目标行人图片相似度最大的所述候选行人图片，即为最终目标行人。

有益效果：本发明与现有技术相比，其显著优点是：1、本发明将行人检测，行人跟踪，行人再识别进行结合，能够对无重叠区域内活动的行人目标进行跨摄像头的跟踪；2、采用YOLO检测算法，卡尔曼跟踪算法对目标行人进行检测与跟踪；可获得较高的检测与跟踪精度，从而有助于提升行人识别率；3、采用深度残差网络作为行人再识别的主干网络，通过增加网络深度，来提高网络性能，使得提取的行人图片的深度特征更加鲁棒可靠，从而提升了行人识别率。

附图说明

图1是本发明方法的流程图。

具体实施方式

如图1，本发明所述方法的具体步骤依次为：

步骤A、调取监控探头，获取视频图像；

步骤B、使用YOLO算法对监控画面范围内的行人目标进行检测并从原始视频帧中分割出行人目标图片；

YOLO算法将检测问题看做是回归问题，采用单个神经网络，利用整个图像的信息来预测目标的边框、识别目标的类别，实现端到端的目标检测。

其中，使用的目标检测算法为YOLO算法，其具体使用步骤如下：

步骤B-1，训练基于深度学习的目标检测算法YOLO的检测模型。该检测算法模型可以检测出包含背景类在内的21类物体。训练数据集为VOC2007与VOC2012，单张训练图片尺寸为448×448。测试数据集为VOC2007，共迭代32000次；

步骤B-2，编写Python脚本程序调用训练好的YOLO检测模型对输入的监控视频每一帧进行检测，将其设为只检测行人且设置置信度阈值，优选为0.6，即只显示置信度得分高于0.6的行人目标的检测框。第i个行人的检测框为(x_i，y_i，w_i，h_i)，其中(x_i，y_i)为该检测框左上角的坐标，w_i为该检测框的宽度，h_i为该检测框的高度；

步骤C、用卡尔曼算法对检测结果进行跟踪预测，并将预测框与检测框进行匹配、更新；

步骤C-1，依据当前行人检测结果以及卡尔曼滤波算法，预测出第i行人目标在下一帧图像中的位置

并将预测的位置坐标

更新到预测框中；

步骤C-2，对检测框与跟踪框的结果进行配对，计算检测框中心点(d_x，d_y)与跟踪框中心点(d′_x，d′_y)之间欧式距离h：

采用matlab计算检测框与跟踪框各自区域内的HSV颜色直方图，对两个直方图进行相似性匹配。当h大于70且匹配结果大于0.7时，认为检测框与跟踪框配对成功；

步骤C-3，分别更新配对成功与配对未成功的跟踪，对于未成功配对的跟踪，判断该行人目标是否被YOLO检测算法连续三帧检测到，如果成立则用检测框代替预测框，否则结束对该行人目标的跟踪；

步骤D、利用卷积神经网络，对数据库中每张候选行人图片提取其深度特征f_g，并离线储存；

步骤E、利用卷积神经网络，对步骤C中的每个目标行人图片提取其深度特征fq；

步骤D和步骤E中所用的提取候选行人的深度特征与目标行人的深度特征为同一个卷积神经网络，具体为：

所用神经网络采用ResNet-50模型作为主干网络，ResNet-50以残差单元组成的卷积模块为基本组成：

第一个卷积模块Conv1：卷积核大小为7×7，输出为64张特征图；

输入数据下采样层pool1：池化窗口大小为3×3，输出为64张特征图；

第二个卷积模块Conv2：包含3个残差单元，每个残差单元包含3个卷积层，卷积核大小分别为1×1，3×3和1×1，最终输出256张特征图；

第三个卷积模块Conv3：包含4个残差单元，每个残差单元包含3个卷积层，卷积核大小分别为1×1，3×3和1×1，最终输出512张特征图；

第四个卷积模块Conv4：包含6个残差单元，每个残差单元包含3个卷积层，卷积核大小分别为1×1，3×3和1×1，最终输出1024张特征图；

第五个卷积模块Conv5：包含3个残差单元，每个残差单元包含3个卷积层，卷积核大小分别为1×1，3×3和1×1，最终输出2048张特征图；

输出数据下采样层pool5：池化窗口大小7×7，输出为2048×1的向量，该向量即为对行人图片提取出的深度特征f；

ResNet-50网络模型由ImageNet数据集进行预训练。在训练阶段使用Market1501数据集对网络模型进行微调，单张训练图片尺寸为224×224。共迭代18000次，学习率初始化为0.001，在最后2000次迭代时学习率设置为0.0001。网络参数的更新采用随机梯度下降法；

步骤F、将目标行人特征与候选行人特征进行余弦相似度计算并排序，从而识别出目标行人：

步骤F-1、计算对每个跟踪行人目标提取的深度特征f_q与已离线储存的候选行人图片深度特征f_gi之间的余弦相似度sim(f_q，f_gi)，其中，f_gi表示第i个候选行人图片的深度特征：

步骤F-2、对余弦相似度sim(f_q，f_gi)从到从大到小进行排序；

步骤F-3、与目标行人图片余弦相似度最大

的候选行人图片，其所属的行人，即为本方法识别出的行人；设定余弦相似度阈值为0.75，即当识别出的最大余弦相似度低于该阈值时则判断目标行人不属于候选行人中的任意一名。

步骤G、在多个场景中依照步骤A-F，实现无重叠区域对同一行人的准确跟踪。