CN104050684A

CN104050684A - 一种基于在线训练的视频运动目标分类方法与系统

Info

Publication number: CN104050684A
Application number: CN201410228426.2A
Authority: CN
Inventors: 何翼; 桑农; 高常鑫; 李冠萍; 徐俊; 刘海斌; 刘洁
Original assignee: Huazhong University of Science and Technology
Current assignee: Huazhong University of Science and Technology
Priority date: 2014-05-27
Filing date: 2014-05-27
Publication date: 2014-09-17
Anticipated expiration: 2034-05-27
Also published as: CN104050684B

Abstract

本发明公开了一种基于在线训练的视频运动目标分类方法，包括以下步骤：(1)获取原始视频序列的所有运动目标；(2)对运动目标提取速度、面积等标记特征和高宽比等分类特征；(3)将速度特征大于速度高阈值的目标标记为“车辆”，速度特征小于速度低阈值的目标留作步骤(4)进行二次筛选；(4)对速度小于速度低阈值的目标中面积特征小于面积阈值的目标标记为“行人”；(5)将标记完毕的“车辆”目标和“行人”目标设为训练集，训练得到人车分类器；(6)将所有运动目标设为测试集输入分类器得到分类结果。本发明还提供了相应的分类系统。本发明中，由于标记和训练过程不依靠先验信息，对于行人的多态性和车辆的多样性具有较强的适应性。

Description

一种基于在线训练的视频运动目标分类方法与系统

技术领域

本发明属于模式识别技术领域，更具体地，涉及一种基于在线训练的视频运动目标分类方法与系统。

背景技术

在现今的监控视频系统中，常常能够检测到大量的目标数据，这些目标数据通常分为行人目标和车辆目标。为了达到监控视频系统的智能化需求，需要对行人和车辆两种目标进行分类。运动目标分类的准确性关系到智能视频监控系统中更高层的语义理解，因此运动目标分类技术成为视频监控系统中一大关键。

现有的运动目标分类的方法主要分为两类：(1)基于样本或模板的方法，通过检测图像的局部特征形成特征向量输入分类器完成分类过程，但是需要大量的训练样本，同时高维的特征向量增加了分类过程计算时间，在视频监控系统中适应性较差；(2)基于形状特征的方法，该方法主要是通过对当前图像与参考图像的像素进行逐个做差来得到运动目标，通过运动目标与相应已知目标的形状模型进行匹配来进行判别。这种方法的缺陷在于：行人具有的多态性和车辆的多样性决定了通过模型匹配不能达到较理想的结果。

发明内容

针对现有技术的缺陷，本发明的目的在于提供一种基于在线训练的视频运动目标分类方法与系统，旨在解决现有方法中存在的分类效果差、算法复杂度高、面对多种监控视频进行运动目标分类适应性差等问题。

为实现上述目的，按照本发明的一个方面，提供了一种基于在线训练的视频运动目标分类方法，包括以下步骤：

(1)将原始视频中的图像序列进行分析，通过混合高斯模型建模得到图像序列中的运动目标，将检测到的运动目标通过基于位置特征的方法进行最近邻关联从而实现运动目标的跟踪，获得运动目标总数为TubeNum；

(2)对原始视频中检测到的运动目标进行特征提取，提取的特征包括对运动目标筛选后标记所需的标记特征和训练分类器并对运动目标分类所需的分类特征：

标记特征包括速度特征V、面积特征S；

分类特征包括高宽比特征Aspect、占空比特征Empty、离散度特征Disperse、梯度方向直方图特征；

3)将所有运动目标按速度特征V由小到大进行排序，根据速度高阈值ThHSpeed和低阈值ThLSpeed对排序后的运动目标进行筛选：

将速度特征V从大到小的ThHSpeed*TubeNum个目标标记为“车辆”目标，将速度特征V从小到大的ThLSpeed*TubeNum个目标留作步骤(4)中进行二次筛选，将其余速度特征V在速度高阈值和低阈值中间的(1-ThLSpeed-ThHSpeed)*TubeNum个目标标记为“未分类样本”；

(4)将速度特征V从小到大的ThLSpeed*TubeNum个运动目标按面积特征S从小到大进行排序，根据面积阈值ThArea对排序后的低速度目标进行二次筛选标记：

将面积特征S从小到大的ThArea*(ThLSpeed*TubeNum)个低速度目标标记为“行人”目标，将其余低速度运动目标标记为“未分类样本”；

(5)在分类器训练阶段，将标记为“车辆”及“行人”的运动目标设为训练集，将训练集中运动目标已提取的分类特征包括高宽比特征Aspect、占空比特征Empty、离散度特征Disperse和梯度方向直方图特征组合成训练集特征向量，将训练集与训练集特征向量输入支撑向量机进行训练，得到人车分类器；

(6)在分类器测试阶段，将原始视频中检测到的所有运动目标作为测试集，将测试集中运动目标已提取的分类特征包括高宽比特征Aspect、占空比特征Empty、离散度特征Disperse和梯度方向直方图特征组合成测试集特征向量，将测试集特征向量输入人车分类器进行分类，通过判别公式得到输出结果为“行人”与“车辆”两类；

为了避免部分物品由于视频场景原因被分类为“行人”或“车辆”，在分类器输出后遍历所有目标，根据目标外接矩形计算目标自起始至结束的质心位移参数dist以及矩形外形不变性参数repeatNum，若同时满足位移参数dist小于位移阈值ThDist并且不变性参数repeatNum大于不变性阈值ThRepeat，则将该目标作为“物品”分类。

进一步地，步骤(2)中目标特征提取计算方法具体为：

面积特征S：通过将计数器置0，在目标最小外接矩形内，从左上角开始从上到下，从左到右扫描像素点，遇到前景像素点累加计数器即可得到。

占空比特征Empty：通过公式确定。其中，S为目标面积，RectS为目标最小外接矩形面积，RectS根据目标链中所有目标像素横纵坐标的最大值和最小值确定。

高宽比特征Aspect：通过公式确定。其中，RectW为目标最小外接矩形宽，RectH为目标最小外接矩形高。

离散度特征Disperse：通过公式确定。其中，L为目标周长，由目标边缘像素点个数表示。

速度特征V：计算第t帧第n个目标区域速度方法如下所述：

V_{nt} = \frac{ΔS}{ΔT} = \frac{\sqrt{{({xn}_{t + 2} - {xn}_{t})}^{2} + {({yn}_{t + 2} - {yn}_{t})}^{2}}}{2 Tn}

其中，

V_nt为第t帧第n个目标区域的速度；

(xn_t,yn_t)为第t帧第n个目标区域的质心坐标；

(xn_t+2,yn_t+2)为第t+2帧第n个目标区域的质心坐标；

Tn为第n个目标区域相邻两帧间的时间差。

优选地，步骤(3)及步骤(4)中速度高阈值、速度低阈值及面积阈值取值具体为：

ThHSpeed＝0.2，ThLSpeed＝0.2，ThArea＝0.5。

速度双阈值和面积阈值的取值由在该阈值取值条件下的目标标记准确率决定，通过对大量不同场景、不同目标运动方向的原始视频进行阈值取值实验并统计后，发现通常在速度低阈值ThLSpeed＝0.2，速度高阈值ThHSpeed＝0.2，面积阈值ThArea＝0.5的情况下，“行人”目标和“车辆”目标标记准确率最高。

优选地，步骤(6)中位移阈值及不变性阈值取值具体为：

ThDist＝200，ThRepeat＝0.9。

位移阈值及不变性阈值的取值主要为了避免由于场景原因或者目标检测原因导致部分“物品”或者“背景”影响分类结果，故根据“物品”不发生较长位移以及不发生较大形变的特征，通常取位移阈值ThDist＝200，不变性阈值ThRepeat＝0.9。

按照本发明的另一方面，还提供了一种基于在线训练的视频运动目标分类系统，包括运动目标获取模块、目标特征提取模块、车辆目标标记模块、行人目标标记模块、分类器训练模块以及分类模块，其中：

所述运动目标获取模块，用于将原始视频中的图像序列进行分析，通过混合高斯模型建模得到图像序列中的运动目标，将检测到的运动目标通过基于位置特征的方法进行最近邻关联从而实现运动目标的跟踪，获得运动目标总数为TubeNum；

所述目标特征提取模块，用于对原始视频中检测到的运动目标进行特征提取，提取的特征包括对运动目标筛选后标记所需的标记特征和训练分类器并对运动目标分类所需的分类特征：标记特征包括速度特征V、面积特征S；分类特征包括高宽比特征Aspect、占空比特征Empty、离散度特征Disperse、梯度方向直方图特征；

所述车辆目标标记模块，用于将所有运动目标按速度特征V由小到大进行排序，根据速度高阈值ThHSpeed和低阈值ThLSpeed对排序后的运动目标进行筛选：

将速度特征V从大到小的ThHSpeed*TubeNum个目标标记为“车辆”目标，将速度特征V从小到大的ThLSpeed*TubeNum个目标留作行人目标筛选模块中进行二次筛选，将其余在速度高阈值和低阈值中间的(1-ThLSpeed-ThHSpeed)*TubeNum个目标标记为“未分类样本”；

所述行人目标标记模块，用于将速度特征V从小到大的ThLSpeed*TubeNum个运动目标按面积特征S从小到大进行排序，根据面积阈值ThArea对排序后的低速度目标进行二次筛选标记：

所述分类器训练模块，用于将标记为“车辆”及“行人”的运动目标设为训练集，将训练集中运动目标已提取的分类特征包括高宽比特征Aspect、占空比特征Empty、离散度特征Disperse和梯度方向直方图特征组合成训练集特征向量，将训练集与训练集特征向量输入支撑向量机进行训练，得到人车分类器；

所述分类器测试模块，用于将原始视频中检测到的所有运动目标作为测试集，将测试集中运动目标已提取的分类特征包括高宽比特征Aspect、占空比特征Empty、离散度特征Disperse和梯度方向直方图特征组合成测试集特征向量，将测试集特征向量输入人车分类器进行分类，通过判别公式得到输出结果为“行人”与“车辆”两类；

进一步地，所述目标特征提取模块提取的目标特征具体为：

面积特征S：通过将计数器置0，在目标最小外接矩形内，从左上角开始从上到下，从左到右扫描像素点，遇到前景像素点累加计数器即可得到；

占空比特征Empty：通过公式确定；其中，S为目标面积，RectS为目标最小外接矩形面积，RectS根据目标链中所有目标像素横纵坐标的最大值和最小值确定；

高宽比特征Aspect：通过公式确定。其中，RectW为目标最小外接矩形宽，RectH为目标最小外接矩形高；

离散度特征Disperse：通过公式确定。其中，L为目标周长，由目标边缘像素点个数表示；

速度特征V：计算第t帧第n个目标区域速度方法如下所述：

V_{nt} = \frac{ΔS}{ΔT} = \frac{\sqrt{{({xn}_{t + 2} - {xn}_{t})}^{2} + {({yn}_{t + 2} - {yn}_{t})}^{2}}}{2 Tn}

其中，V_nt为第t帧第n个目标区域的速度；

(xn_t,yn_t)为第t帧第n个目标区域的质心坐标；

(xn_t+2,yn_t+2)为第t+2帧第n个目标区域的质心坐标；

Tn为第n个目标区域相邻两帧间的时间差。

优选地，所述速度高阈值、速度低阈值及面积阈值取值具体为：

ThHSpeed＝0.2，ThLSpeed＝0.2，ThArea＝0.5。

优选地，所述位移阈值及不变性阈值取值具体为：

ThDist＝200，ThRepeat＝0.9。

通过本发明所构思的以上技术方案，与现有技术相比，本发明具有以下的有益效果：

1、由于样本训练过程不依靠先验信息，训练集只来源于待分类视频中运动目标，故对于行人的多态性和车辆的多样性具有较强的适应性；

2、应用于视频监控中行人和车辆的分类，可以准确地判断运动目标的类别，在处理大量不同场景不同视角的监控视频的情况下具有良好的应用效果。

附图说明

图1是本发明基于在线训练的视频运动目标分类方法总流程图。

图2是获取运动目标后进行在线标记和训练流程图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。此外，下面所描述的本发明各个实施方式中所涉及到的技术特征只要彼此之间未构成冲突就可以相互组合。

以下首先对本发明用到的术语进行解释和说明。

HOG：Histograms Of Oriented Gradient，即方向梯度直方图描述子。它的思想是：在一副图像中，局部目标的表象和形状(appearance andshape)能够被梯度或边缘的方向密度分布很好地描述。具体的实现方法是：首先将图像分成小的连通区域，我们把它叫细胞单元。然后采集细胞单元中各像素点的梯度的或边缘的方向直方图。最后把这些直方图组合起来就可以构成特征描述器。运动目标的梯度方向直方图特征，描述了图像局部区域的梯度强度和梯度方向的分布情况，该分布情况能对局部对象外观和形状进行很好的表征，事实证明能够很好的应用在行人检测中，已经成为目前主流的方法。利用行人具有较丰富的垂直方向的纹理，即水平方向的梯度；车辆除了垂直方向的纹理，在水平方向的纹理更为丰富，即垂直方向的梯度要明显多于行人水平方向的梯度的区分度来进行分类。

SVM分类器：Support Vector Machine，即支撑向量机，SVM分类器是机器学习中常用的一种分类器，SVM方法是通过一个非线性映射p，把样本空间映射到一个高维乃至无穷维的特征空间中(Hilbert空间)，使得在原来的样本空间中非线性可分的问题转化为在特征空间中的线性可分的问题。经过其分类的结果，可以判定前景运动目标是行人，或者是车辆。

如图1所示，为本发明基于在线训练的视频运动目标分类方法总流程图，本发明方法具体包括以下步骤：

如图2所示，为获取运动目标后进行在线标记和训练流程图，当获取到运动目标后，对运动目标提取特征，根据特征对运动目标进行“行人”与“车辆”标记，并根据特征与标记训练分类器，最后将所有运动目标通过所述分类器进行分类，得到分类标记，具体方法如下：

标记特征包括速度特征V、面积特征S；

速度特征V：计算第t帧第n个目标区域速度方法如下所述：

V_{nt} = \frac{ΔS}{ΔT} = \frac{\sqrt{{({xn}_{t + 2} - {xn}_{t})}^{2} + {({yn}_{t + 2} - {yn}_{t})}^{2}}}{2 Tn}

其中，

V_nt为第t帧第n个目标区域的速度；

(xn_t,yn_t)为第t帧第n个目标区域的质心坐标；

(xn_t+2,yn_t+2)为第t+2帧第n个目标区域的质心坐标；

Tn为第n个目标区域相邻两帧间的时间差。

面积特征S：定义前景图中目标区域内的总像素个数为目标面积S，它具有简单、直观地特点。通过将计数器置0，在目标最小外接矩形内，从左上角开始从上到下，从左到右扫描像素点，遇到前景像素点累加计数器即可得到。

占空比特征Empty：定义为前景图中目标区域的面积与目标外接矩形的面积之比，该特征具备平移和旋转不变性。通过公式确定。其中，S为目标面积，RectS为目标最小外接矩形面积，RectS根据目标链中所有目标像素横纵坐标的最大值和最小值确定。

高宽比特征Aspect：定义目标外接矩形的高跟宽的比为该目标的长宽比，虽然此特征能很好地描述目标的形状信息，但当目标旋转时该特征值将发生变化，从而影响对目标的准确性。通过公式确定。其中，RectW为目标最小外接矩形宽，RectH为目标最小外接矩形高。

离散度特征Disperse：定义目标离散度为目标面积与周长的平方比，它是为了克服目标面积和周长不具备缩放性而定义的一种特征，该特征具备平移、旋转、缩放不变性。通过公式确定。其中，L为目标周长，由目标边缘像素点个数表示。

HOG特征：利用行人具有较丰富的垂直方向的纹理，即水平方向的梯度；车辆除了垂直方向的纹理，在水平方向的纹理更为丰富，即垂直方向的梯度要明显多于行人水平方向的梯度的区分度来进行分类。

速度高阈值和速度低阈值的取值由在该阈值取值条件下的目标标记准确率决定，通过对大量不同场景、不同目标运动方向的原始视频进行阈值取值实验并统计后，发现通常在速度高阈值ThHSpeed＝0.2的情况下，“车辆”目标标记准确率最高。

通过对大量不同场景、不同目标运动方向的原始视频进行阈值取值实验并统计后，发现通常在速度低阈值ThLSpeed＝0.2，面积阈值ThArea＝0.5的情况下，“行人”目标标记准确率最高。

(5)在分类器训练阶段，将标记为“车辆”运动目标设为正样本，将标记为“行人”的运动目标设为负样本，将正负样本中运动目标已提取的分类特征包括高宽比特征Aspect、占空比特征Empty、离散度特征Disperse和梯度方向直方图特征组合成训练集特征向量，将正负样本集与其对应的训练集特征向量输入SVM进行训练，得到基于在线训练的人车分类器；

(6)在分类器测试阶段，将原始视频中检测到的所有运动目标作为测试集，将测试集中所有运动目标已提取的分类特征包括高宽比特征Aspect、占空比特征Empty、离散度特征Disperse和梯度方向直方图特征组合成测试集特征向量，将测试集特征向量输入人车分类器进行分类，通过判别公式得到输出结果为“行人”与“车辆”两类；

本发明还提供了一种基于在线训练的视频运动目标分类系统，包括运动目标获取模块、目标特征提取模块、车辆目标标记模块、行人目标标记模块、分类器训练模块以及分类模块，其中：

进一步地，所述目标特征提取模块提取的目标特征具体为：

速度特征V：计算第t帧第n个目标区域速度方法如下所述：

V_{nt} = \frac{ΔS}{ΔT} = \frac{\sqrt{{({xn}_{t + 2} - {xn}_{t})}^{2} + {({yn}_{t + 2} - {yn}_{t})}^{2}}}{2 Tn}

其中，V_nt为第t帧第n个目标区域的速度；

(xn_t,yn_t)为第t帧第n个目标区域的质心坐标；

(xn_t+2,yn_t+2)为第t+2帧第n个目标区域的质心坐标；

Tn为第n个目标区域相邻两帧间的时间差。

优选地，所述位移阈值及不变性阈值取值具体为：

本发明可以准确对行人和车辆进行分类，基于一种不依靠先验知识的在线训练方法减轻了算法复杂度，对视角变化条件下的运动目标分类有较好的效果，在实际应用中能大大减少分类时间。

本领域的技术人员容易理解，以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于在线训练的视频运动目标分类方法，其特征在于，包括以下步骤：

(2)对原始视频中检测到的运动目标进行特征提取，提取的特征包括对运动目标筛选后标记所需的标记特征和训练分类器并对运动目标分类所需的分类特征，其中：

标记特征包括速度特征V、面积特征S；

(3)将所有运动目标按速度特征V由小到大进行排序，根据速度高阈值ThHSpeed和低阈值ThLSpeed对排序后的运动目标进行筛选：

2.根据权利要求1所述的视频运动目标分类方法，其特征在于，所述步骤(2)中目标特征提取计算方法具体为：

高宽比特征Aspect：通过公式确定；其中，RectW为目标最小外接矩形宽，RectH为目标最小外接矩形高；

离散度特征Disperse：通过公式确定；其中，L为目标周长，由目标边缘像素点个数表示；

速度特征V：计算第t帧第n个目标区域速度方法如下所述：

V_{nt} = \frac{ΔS}{ΔT} = \frac{\sqrt{{({xn}_{t + 2} - {xn}_{t})}^{2} + {({yn}_{t + 2} - {yn}_{t})}^{2}}}{2 Tn}

其中，V_nt为第t帧第n个目标区域的速度；

(xn_t,yn_t)为第t帧第n个目标区域的质心坐标；

(xn_t+2,yn_t+2)为第t+2帧第n个目标区域的质心坐标；

Tn为第n个目标区域相邻两帧间的时间差。

3.根据权利要求1所述的视频运动目标分类方法，其特征在于，所述步骤(3)及步骤(4)中速度高阈值、速度低阈值及面积阈值取值具体为：

ThHSpeed＝0.2，ThLSpeed＝0.2，ThArea＝0.5。

4.根据权利要求1所述的视频运动目标分类方法，其特征在于，所述步骤(6)中位移阈值及不变性阈值取值具体为：

ThDist＝200，ThRepeat＝0.9。

5.一种基于在线训练的视频运动目标分类系统，其特征在于，包括运动目标获取模块、目标特征提取模块、车辆目标标记模块、行人目标标记模块、分类器训练模块以及分类模块，其中：

6.根据权利要求5所述的视频运动目标分类系统，其特征在于，所述目标特征提取模块提取的目标特征具体为：

速度特征V：计算第t帧第n个目标区域速度方法如下所述：

V_{nt} = \frac{ΔS}{ΔT} = \frac{\sqrt{{({xn}_{t + 2} - {xn}_{t})}^{2} + {({yn}_{t + 2} - {yn}_{t})}^{2}}}{2 Tn}

其中，V_nt为第t帧第n个目标区域的速度；

(xn_t,yn_t)为第t帧第n个目标区域的质心坐标；

(xn_t+2,yn_t+2)为第t+2帧第n个目标区域的质心坐标；

Tn为第n个目标区域相邻两帧间的时间差。

7.根据权利要求5或6所述的视频运动目标分类系统，其特征在于，所述速度高阈值、速度低阈值及面积阈值取值具体为：

ThHSpeed＝0.2，ThLSpeed＝0.2，ThArea＝0.5。

8.根据权利要求5所述的视频运动目标分类系统，其特征在于，所述位移阈值及不变性阈值取值具体为：ThDist＝200，ThRepeat＝0.9。