CN109389048B

CN109389048B - 一种监控视频中的行人检测与跟踪方法

Info

Publication number: CN109389048B
Application number: CN201811068262.6A
Authority: CN
Inventors: 刘杰平; 胡聪; 韦岗
Original assignee: South China University of Technology SCUT
Current assignee: South China University of Technology SCUT
Priority date: 2018-09-13
Filing date: 2018-09-13
Publication date: 2022-03-25
Anticipated expiration: 2038-09-13
Also published as: CN109389048A

Abstract

本发明公开了一种监控视频中的行人检测与跟踪方法，首先训练检测模块：获取正、负样本的HOG和CSS特征；对正样本的特征进行k均值聚类；对每一类正样本和所有负样本训练得到k个分类器，并级联得到级联分类器作为检测模块；然后训练跟踪模块：将检测模块应用于视频第一帧得到初始目标区域；提取目标区域的HOG和CSS特征，并级联得到融合特征；根据融合特征训练得到初始跟踪模型；用初始跟踪模型与下一帧进行相关操作，取相关操作响应值最大的点作为下一帧视频目标区域的中心点，并更新跟踪模型；当目标消失时，加入检测模块对当前视频帧进行检测，用检测的目标位置重新初始化跟踪模型。所述方法具有很好的鲁棒性，在监控视频中有广阔的应用场景。

Description

一种监控视频中的行人检测与跟踪方法

技术领域

本发明涉及计算机视觉和图像处理领域，具体涉及一种监控视频中的行人检测与跟踪方法。

背景技术

目标跟踪作为计算机视觉研究领域中的核心问题，在过去十几年中，一直受到众多学者的研究和关注，拥有丰硕的研究成果，并且成功地应用于生活、管理、国防等各个领域，在安防监控、智能人机交互、可穿戴设备、导弹制导、汽车自动驾驶等都有广泛的应用前景。在可预见的未来，计算机视觉领域的研究中很多方面都会涉及到目标跟踪技术，目标跟踪技术将深入到日常生活和社会各个方面，发挥更大的作用。

随着目标跟踪算法所应用到的场景逐渐增加，算法所受到的挑战也越来越大，目前已有的算法很难全面应对实际中的各种复杂场景，仍然具有很大的提升空间。因此研究一种鲁棒的、性能良好的目标跟踪算法将是一项极具挑战性的工作。

发明内容

本发明的目的是针对现有技术的不足，为克服现有目标跟踪算法存在的对遮挡处理不理想、在目标消失后很难继续跟踪等缺点，提出一种跟踪与检测相结合的算法。该算法通过训练级联分类器，把分类器作为检测模块检测视频帧中的目标，并用检测到的目标对跟踪模块进行初始化，在跟踪模块丢失目标后重新使用检测模块对视频帧中的目标进行检测，并重新对跟踪模块进行初始化。在视频监控系统行人跟踪场景下有较好的应用。

本发明的目的可以通过如下技术方案实现：

一种监控视频中的行人检测与跟踪方法，包括以下步骤：

对检测模块进行训练：选取训练数据集，其中包括正样本和负样本；对训练数据集提取HOG(方向梯度直方图)特征和CSS(颜色自相似度)特征，将HOG特征和CSS特征进行组合，得到融合特征；对训练数据集中正样本的融合特征进行K-means聚类，得到k类不同姿态的行人类别；对k类不同姿态的行人类别与负样本进行训练，得到k个不同的SVM分类器；将得到的k个不同的SVM分类器进行级联得到级联分类器，将级联分类器作为检测模块；

对跟踪模块进行训练：将得到的检测模块应用于监控视频的第一帧得到初始的目标区域；提取目标区域的HOG和CSS特征，并组合得到融合特征；根据第一帧目标区域的融合特征训练得到初始跟踪模型；用得到的初始跟踪模型与下一帧视频进行相关操作，取得相关操作响应值最大的点作为下一帧视频的目标区域的中心点，并更新跟踪模型；当目标消失的情况发生时，加入检测模块对当前视频帧进行检测，用检测到的目标区域重新初始化跟踪模型。

本发明与现有技术相比，具有如下优点和有益效果：

1、本发明提供的监控视频中的行人检测与跟踪方法，通过提取行人样本的HOG特征和CSS特征，并将特征进行融合得到融合特征，在复杂环境下的鲁棒性更好。

2、本发明提供的监控视频中的行人检测与跟踪方法，通过聚类将行人姿态分为k类，对每一类姿态进行训练得到k个SVM分类器，将k个SVM分类器级联得到级联分类器，将级联分类器作为检测模块，在行人的检测过程中与一般单一的分类器相比有更好的鲁棒性，在复杂的场景中有更高的检测率。

3、本发明提供的监控视频中的行人检测与跟踪方法，将检测模块加入行人的跟踪过程，通过对跟踪过程的响应值设置合理阈值来检测目标消失的情况，当发现目标消失，启动检测模块在视频中检测目标，并重新初始化跟踪模块的目标位置。加入检测模块很好地解决了跟踪过程中由于遮挡等导致目标消失的问题，具有很好的鲁棒性，且能满足实时性的要求。

附图说明

图1为本发明实施例中检测模块的训练过程流程图。

图2为本发明实施例中加入检测模块的行人跟踪过程流程图。

具体实施方式

下面结合实施例及附图对本发明作进一步详细的描述，但本发明的实施方式不限于此。

实施例：

本实施例提供了一种监控视频中的行人检测与跟踪方法，包括以下步骤：

对检测模块进行训练：如图1所示，选取训练数据集，其中包括正样本和负样本；对训练数据集提取HOG(方向梯度直方图)特征和CSS(颜色自相似度)特征，将HOG特征和CSS特征进行组合，得到融合特征；对训练数据集中正样本的融合特征进行K-means聚类，得到k类不同姿态的行人类别；对k类不同姿态的行人类别与负样本进行训练，得到k个不同的SVM分类器；将得到的k个不同的SVM分类器进行级联得到级联分类器，将级联分类器作为检测模块；

具体地，所述训练数据集选取INRIA数据集，其中正样本614张，包含2416个行人图像块；负样本1218张，每张随机采样5个图像块作为负样本。

具体地，所述对训练数据集提取HOG特征的具体过程为：将训练数据集中的图像块转化为灰度图像块，并分割为S×S的单元格，计算每个单元格的梯度，把梯度方向分为N个方向，统计单元格内N个方向的梯度直方图。

具体地，所述对训练数据集提取CSS特征的具体过程为：将训练数据集中的图像块分割为S×S的单元格，计算单元格内的像素值的和：M_c(R)＝∑C(i,j)，其中C(i,j)表示矩形块内像素点的值，CSS特征定义为不同单元格内像素值和的比值

具体地，加入检测模块的行人跟踪过程如图2所示，具体过程为：

S1、将得到的检测模块应用于监控视频的第一帧检测出初始的目标区域；

S2、将目标区域扩大2.5倍作为搜索窗口，提取搜索窗口的HOG特征和CSS特征，并将HOG和CSS特征组合，得到融合特征；

S3、设置标签窗口，标签窗口大小与搜索窗口一样，按照高斯分布设置标签窗口中每个像素位置的标签值ylabel；

S4、计算标签窗口的傅里叶变换，得到标签窗口的频域信息yf；

S5、计算搜索窗口融合特征的傅里叶变换，得到融合特征的频域信息xf₁；

S6、计算xf₁的高斯自相关，得到融合特征的自相关信息kf₁；

S7、从而得到初始跟踪模型为：

其中λ为正则项；

S8、在视频第i帧中，其中i>1，计算搜索窗口融合特征的频域信息zf_i；

S9、计算zf_i与跟踪模型model_xf_i-1的高斯互相关，得到互相关响应值kzf_i；将互相关响应值kzf_i与跟踪模型model_a_i-1相乘，对相乘后的结果做傅里叶反变换得到搜索窗口各点的响应值response_i；

S10、找出搜索窗口中最大的响应值max_response_i，threshold为所选择的阈值；

①若max_response_i>threshold，将响应值最大的点选择为新的目标区域和搜索窗口的中心点，并按照步骤S5、S6得到当前视频帧搜索窗口融合特征的频域信息xf_i和高斯自相关信息kf_i，计算当前视频帧的模板模型

并更新跟踪模型：

model_a_i＝(1-η)×a_i+η×model_a_i-1

model_xf_i＝(1-η)×xf_i+η×model_xf_i-1

其中η表示学习率，若到达视频的最后一帧，结束跟踪；否则返回步骤S8；

②若max_response_i<threshold，则重新使用检测模块对当前视频帧进行检测，根据检测模块的检测结果重新初始化当前帧的目标区域，返回步骤S2。

以上所述，仅为本发明专利较佳的实施例，但本发明专利的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明专利所公开的范围内，根据本发明专利的技术方案及其发明专利构思加以等同替换或改变，都属于本发明专利的保护范围。

Claims

1.一种监控视频中的行人检测与跟踪方法，其特征在于，包括以下步骤：

对检测模块进行训练：选取训练数据集，其中包括正样本和负样本；对训练数据集提取HOG特征和CSS特征，将HOG特征和CSS特征进行组合，得到融合特征；对训练数据集中正样本的融合特征进行K-means聚类，得到k类不同姿态的行人类别；对k类不同姿态的行人类别与负样本进行训练，得到k个不同的SVM分类器；将得到的k个不同的SVM分类器进行级联得到级联分类器，将级联分类器作为检测模块；

对跟踪模块进行训练：将得到的检测模块应用于监控视频的第一帧得到初始的目标区域；提取目标区域的HOG和CSS特征，并组合得到融合特征；根据第一帧目标区域的融合特征训练得到初始跟踪模型；用得到的初始跟踪模型与下一帧视频进行相关操作，取得相关操作响应值最大的点作为下一帧视频的目标区域的中心点，并更新跟踪模型；当目标消失的情况发生时，加入检测模块对当前视频帧进行检测，用检测到的目标区域重新初始化跟踪模型；

所述对跟踪模块进行训练的具体过程为：

S7、从而得到初始跟踪模型为：

其中λ为正则项；

S8、在视频第i帧中，其中i＞1，计算搜索窗口融合特征的频域信息zf_i；

S10、找出搜索窗口中最大的响应值max_responsei，threshold为所选择的阈值。

2.根据权利要求1所述的一种监控视频中的行人检测与跟踪方法，其特征在于：所述训练数据集选取INRIA数据集，其中正样本614张，包含2416个行人图像块；负样本1218张，每张随机采样5个图像块作为负样本。

3.根据权利要求1所述的一种监控视频中的行人检测与跟踪方法，其特征在于，所述对训练数据集提取HOG特征的具体过程为：将训练数据集中的图像块转化为灰度图像块，并分割为S×S的单元格，计算每个单元格的梯度，把梯度方向分为N个方向，统计单元格内N个方向的梯度直方图。

4.根据权利要求1所述的一种监控视频中的行人检测与跟踪方法，其特征在于，所述对训练数据集提取CSS特征的具体过程为：将训练数据集中的图像块分割为S×S的单元格，计算单元格内的像素值的和：M_c(R)＝∑C(i,j)，其中C(i,j)表示矩形块内像素点的值，CSS特征定义为不同单元格内像素值和的比值

5.根据权利要求1所述的一种监控视频中的行人检测与跟踪方法，其特征在于，所述找出搜索窗口中最大的响应值max_response_i，threshold为所选择的阈值；具体如下：

并更新跟踪模型：

model_a_i＝(1-η)×a_i+η×model_a_i-1

model_xf_i＝(1-η)×xf_i+η×model_xf_i-1