CN103985114B

CN103985114B - 一种监控视频人物前景分割与分类的方法

Info

Publication number: CN103985114B
Application number: CN201410108137.9A
Authority: CN
Inventors: 郭延文; 缪丽姬; 夏元轶
Original assignee: Nanjing University
Current assignee: Nanjing University
Priority date: 2014-03-21
Filing date: 2014-03-21
Publication date: 2016-08-24
Anticipated expiration: 2034-03-21
Also published as: CN103985114A

Abstract

本发明公开了一种监控视频人物前景分割与分类方法，包括了以下步骤：1）提取监控视频的人物前景，采用了混合高斯模型的方法分割前景和背景，并将前景人物用包围盒表示，形成前景人物小视频。2）前景特征提取，对小视频提取关键帧，将前景占有面积比率适中，前景外形和颜色完整的帧，选择作为关键帧，对关键帧提取多个特征。3）特征融合并分类，根据特征将汽车等非人物前景分类出来，对于人物特征采用典型相关系数特征融合方法学习出子空间，将特征投影到具有更好的类特征的子空间，对投影后的特征采用不同的聚类方法，进而将外形颜色类似的前景人物分成同一类。

Description

一种监控视频人物前景分割与分类的方法

技术领域

本发明涉及到一种监控视频人物前景分割与分类的方法，属于计算机视频、机器学习技术等领域。

背景技术

现代生活在带给人们便利的同时也带来了一些安全隐患，为了消除这些隐患采取了多种措施，各个角落的监控视频就是诸多措施中的一种，但是在发生不安全事件时，面对数量庞大的监控视频，检查人员往往需要花费很长的时间搜寻不安全目标，影响了消除不安全事件的效率，现在有一些手段可以从时间和空间两个角度缩短监控视频，缩短没有意义的部分所占视频的比重，这样做虽然能有效的减少浏览没有意义的视频的时间，但是还是需要在多个监控视频中辨别出目标，而且目前很多对前景分类的研究主要围绕的是对前景的种类进行分类，而正常情况下各种不安全隐患是由人造成的，比如将前景分成各式车辆与人物、分成植物，动物与建筑等等，很少有对人物前景进行分类的研究，前景种类分类的研究主要采用的是监督方法，变换场景后通常还需要采集新场景数据训练耗费较大，而无监督的人物前景分类将会有力缩短搜索范围，大大减少查看监控视频的时间提高工作效率，监控视频前景人物分类研究成为一个有重大意义的研究问题。

传统的监控视频前景分类主要采用监督学习的方法划分前景的种类，适合用于范围较大的监控场景应用中，但是对于小范围的前景主要是人的监控场景分类则很少有相关研究，而且监督学习需要进行大量的学习准备工作较大，在本发明中采用了分割监控视频前景和背景并提取关键帧的多个特征并用无监督典型相关系数融合特征，采用最低秩聚类方法，给出视频的分类结果。

发明内容

发明目的：本发明所要解决的技术问题是针对现有研究的不足，提供一种监控视频人物前景的分类与分割方法，从而提高检阅监控视频的效率。

技术方案：本发明公开了一种监控视频人物前景分割与分类的方法，该方法的特征在于能够短时间内浏览同一人物不同场景中的视频，具体包括以下步骤：

1、分离监控视频的前景和背景：一股而言监控视频的前景指的是活动的事物，通常为人或车，而监控视频的背景指的是视频中静止的景物。采用混合高斯模型将监控视频的前景和背景分离出来，并将每个前景用能完全包围住前景的最小包围盒包围起来，形成独立的前景小视频。步骤1前景和背景分割的详细步骤如下：

步骤1-1，初始化高斯模型：读取视频的第一帧图像，为图像中每个像素点构建一个含有K个高斯模型的混合高斯模型，K取值范围3～5，像素j在时刻t取值x_j的概率P(x_j)可以由这K个高斯模型表示：其中代表t时刻像素j的混合高斯模型中第i个高斯分量的权重，满足：和代表t时刻像素j的第i个高斯分量的均值和协方差，表示高斯概率密度函数，表示如下：

N (x_{j}, u_{j, t}^{i}, Σ_{j, t}^{i}) = \frac{1}{2 π^{\frac{d}{2}} {| Σ_{j, t}^{i} |}^{\frac{1}{2}}} \exp [- \frac{1}{2} {(x_{j} - u_{j, t}^{i})}^{T} {(Σ_{j, t}^{i})}^{- 1} (x_{j} - u_{j, t}^{i})],

其中d为x_j的维数，对于RGB颜色空间，每个像素有3个通道，x_j为三维向量，其中协方差矩阵其中表示在t时刻像素j的第i个高斯模型方差，初始化时值为I代表单位矩阵，初始化阶段，每个高斯分布的权重ω_init＝1/K，

步骤1-2，更新高斯模型：继续读取监控视频，每读取监控视频的一帧图像就对混合高斯模型做更新，将混合高斯模型中的每个高斯成分按照由大到小排序，当前读取的新帧的像素值x_j，t+1若与混合高斯模型中第i个高斯模型满足下列式子：

| x_{j, t + 1} - u_{j, t}^{i} | \leq δ * σ_{j, t}^{i}

则更新第i个高斯成分，其余高斯成分保持不变，判定像素点x_j，t+1在当前帧中是背景部分像素，参数δ为匹配阈值，δ取值范围1～2，更新第i个高斯成分的计算方法如下：

ω_{j, t + 1}^{i} = (1 - α) ω_{j, t}^{i} + α

u_{j, t + 1}^{i} = (1 - p) u_{j, t}^{i} + {ρx}_{j}

{(σ_{j, t + 1}^{i})}^{2} = (1 - ρ) {(σ_{j, t}^{i})}^{2} + ρ {(x_{j} - u_{j, t}^{i})}^{T} (x_{j} - u_{j, t}^{i})

ρ = \frac{α}{ω_{j, t}^{i}}

其中α是高斯混合模型的学习率，取值范围0～1，ρ为参数α的学习率；如果像素x_j，t+1与K个高斯成分都不匹配的，则判定这一像素点是当前帧的前景像素，构造新的高斯成分取代排序靠后的高斯成分，新的高斯成分的均值设为像素x_j，t+1的值，标准差和权重分别设置为σ_init和ω_init，保留的高斯成分的均值和方差保持不变，权重则按照下式更新：

ω_{j, t + 1}^{i} = (1 - α) ω_{j, t}^{i}

步骤1-3，完成视频前景和背景分割工作：像素x_j，t+1的K个高斯成分更新参数后，对K个高斯成分的权重进行归一化，重复前面步骤1-1和1-2，保留每帧图像中的前景像素，直至监控视频读取结束，得到同原始监控视频同样分辨率的显示前景而不显示背景的视频；

步骤1-4，提取包围前景人物视频的最小包围盒：读取步骤1-3中得到的监控视频，对每帧图像先进行膨胀和腐蚀操作，从而消除图像中的噪声，再逐行扫描图像，记录图像中像素值不为0的像素构成的矩形的长l和宽w，因为前面步骤1-2得到的视频背景像素值为0，所以像素值非0的代表该像素为前景，对于同一个人物前景每一帧的包围盒都有长l和宽w，选择所有帧中最长的l和w，作为该人物前景的包围盒由此得到包围人物前景视频的小视频。

2、提取前景小视频的特征：将前景小视频提取一组关键帧，考虑到监控视频移动前景中主要包含人与车辆，而本发明的主要目的是为了进行人物的分类，因而对每个前景记录面积和移动速度两个特征，在进行人物分类之前先将汽车前景分类出来，人物的外形和颜色信息对于区分不同的人物很重要，所以在进行膨胀和腐蚀操作之后，对每个人物前景关键帧提取颜色直方图特征、局部二值特征和词袋这三个有关颜色和形状的特征。步骤2前景人物特征提取详细步骤如下：

步骤2-1，提取人物前景的关键帧：固定选取人物视频中间F帧f₁，f₂，...，f_F图像作为关键帧，F可取20～40，选取中间F帧是因为人物小视频中间一组帧较之开始帧和结束帧更完整的展现了人物的外形与颜色，且人物前景占视频的面积大小适中；

步骤2-2，提取颜色直方图信息：对F帧f₁，f₂，...，f_F人物部分区域提取颜色特征直方图，设颜色直方图的柱状分区共有m_c个，计算图像f_i中像素点p三个颜色通道RGB值对应的柱状分区id，i取1～F，R代表红色通道值，G代表绿色通道值，B代表蓝色通道值，公式如下：

id = \frac{R}{256} + \frac{G}{256} {m_{c}}^{\frac{2}{3}} + \frac{B}{256} {m_{c}}^{\frac{1}{3}}

统计每个柱状分区id中像素点的个数得到f_i的颜色直方图，颜色直方图最终表示为长度为m_c的向量v_c，对所有关键帧重复本步骤得到m_c×F的矩阵M₁；

步骤2-3，提取局部二值即Local Binary Pattern特征，简称LBP特征：计算F帧f₁，f₂，...，f_N图像的局部二值特征，先将图像f_i灰度化，设局部二值LBP算子的半径为r，r取3或4或5，用r*r的窗口在图像中移动，每移动一个像素位置就计算一次窗口中心像素p_center的LBP值，计算方法如下：将与中心像素p_center相邻的r*r个像素分别与中心像素p_center的值进行比较，相邻像素值大于中心像素p_center，则该像素的位置被标记为1，否则被标记为0，由此得到r*r-1位二进制数，最终窗口移动到最后一个中心像素位置时得到了整个图像的局部二值LBP特征，再将图像的局部二值LBP特征用柱状图表示；设局部二值LBP特征柱状图分区有m_l个，将柱状图每个分量的高度值串联起来得到最终的局部二值特征即：长度为m_l的向量v_l，对所有的关键帧重复本步骤，直到得到m_l×F的矩阵M₂；

步骤2-4，提取词袋即bag of words特征，简称BOW特征：首先计算F帧f₁，f₂，...，f_F的尺度旋转不变性sift特征点(参考文章：object recognition from local scale-invariant features)，设词袋bag of words模型中单词表长度为m_b，采用K-means聚类方法，K-means聚类中心为64，将词义相近的sift特征点合并得到m_b个类，类中心构成词袋BOW的单词表，即用聚类中心代替每一帧中每个_sift特征点，统计所有单词每个词汇对应sift特征点个数，则最终得到图像f_i的每个词汇的频度，即长度为m_b的向量v_b。对所有关键帧重复本步骤，直到得到m_b×F矩阵M₃；

步骤2-5，提取面积与速度特征。计算F帧f₁，f₂，...，f_F图像中每一帧图像的前景的面积s₁，s₂，...，s_F与速度v₁，v₂，...，v_F-1，前景的面积也即前景中非0的像素个数，取F个图像前景面积的平均值作为该前景的面积值s，前景速度由前景的矩形包围框的中心位置在原始监控视频中的位移决定，F帧图像计算得到F-1个速度，取速度的中值作为该前景的速度v。

3、特征融合与分类：先将前景中的汽车分类出来，一股监控视频中出现的前景通常分为两大类即汽车与人物，同一镜头记录的前景视频的中间时间轴上一组图像对镜头的透视效果有很好的鲁棒性，人物前景视频中间一组帧的人物前景面积通常远远小于汽车前景视频中间一组帧中汽车前景的面积，人物前景的速度通常情况下也远小于汽车前景的移动速度，对得到的每个前景面积和速度根据设定的阈值分类出汽车；再对分类得到的人物前景提取颜色直方图特征、局部二值特征以及词袋特征，再采用典型相关系数的方法进行无监督特征融合，得到一个区分不同类别的空间T，将三个特征矩阵投影到空间T，对投影后的颜色特征做最低秩子空间聚类，对投影后的LBP和BOW特征做K-means聚类，根据聚类结果对前景人物小视频进行分类，步骤3监控视频的前景人物分类详细步骤如下：

步骤3-1，设置前景面积和速度的阈值，通常情况下汽车的速度与面积数值比人物前景的对应的速度与面积数值要大，而镜头记录下的前景物体轨迹或者由远及近或者由近及远，中间的图像大小通常情况下受到透视效果影响较小，这里面积阈值area_thresh＝800pixel，速度阈值speed_thresh＝25pixel/image，pixel表示像素，image表示图像，面积超过面积阈值的前景划分为汽车类别，面积特征没有超过面积阈值时，若前景速度特征超过速度阈值，则前景划分为汽车类别否则划分为人物类别；

步骤3-2，统一数据维度：将步骤2得到的对于F个图像的颜色直方图矩阵m_c×F，LBP特征矩阵m_l×F和BOW特征矩阵m_b×F，调用主成分分析Principal Component Analysis(参考文章：On Lines and Planes of Closest Fit to Systems of Points in Space)，降低到统一维度m，所有的特征向量矩阵变为m×F；

步骤3-3，特征融合：设存在矩阵T维度为m×n，n由下面的矩阵A确定，三个特征向量矩阵M₁，M₂，M₃投影到矩阵T所在空间中，能够呈现出同类的空间向量在空间T中的投影距离很近，而不同类的空间向量在空间T中的投影距离很远的特性，初始化T为单位向量，迭代的更新矩阵T的内容，具体迭代过程如下：

3-3-1.对矩阵M₁，M₂，M₃进行矩阵正三角分解并更新矩阵M_i：T^TM_i＝φ△_i，i取1～3；

3-3-2.对每一对M′_i，M′_j进行矩阵奇异值分解：

3-3-3.求解矩阵T，计算矩阵计算矩阵A的特征向量At_i＝λt_i，λ为矩阵A的特征向量t_i的特征值，将t_i按照从大到小的顺序排序构成矩阵T，即T＝{t₁，t₂，...，t_n}，这里矩阵A的不同特征向量个数确定了n的大小；

重复步骤3-3-1～3-3-3直至T收敛为止，重复上述步骤3-5次矩阵T会收敛，其中i取值范围1～3，T^T表示矩阵T的转置矩阵，M′_i表示M_i的逆矩阵，表示M_i的逆转置，φ表示矩阵正三角分解后的正交矩阵，△_i则是矩阵正三角分解后的上三角矩阵，表示△_i的逆矩阵，Q_ij表示矩阵奇异值分解的酉矩阵；

步骤3-4，前景视频分类：将特征向量矩阵M₁，M₂，M₃投影到T所在的空间中，即M_i＝T^TM_i，i取1～3，得到新的特征向量矩阵M₁，M₂，M₃；

步骤3-5，颜色直方图特征聚类：颜色矩阵M₁采用最低秩子空间聚类方法，不同的前景的颜色直方图往往呈现在不同的数据维度上而K-means方法(参考文章AK-meansClustering Algorithm)中的距离一股采用欧式距离，不适合用于颜色空间的距离，所以采用子空间聚类方法能够较好的实现类别划分。利用最低秩方法计算出每帧图像之间的相似度w，构造图image将所有的前景图像作为结点，图像之间的相似度w作为权重，再采用谱聚类Ncut方法(参考文章：Normalized Cuts and Image Segmentation)对图image进行分割，从而完成对图像的分类，相似度w的计算方法如下：

3-5-1，初始化参数λ₀，相关性矩阵Z，相关性矩阵Z的等价矩阵J＝0，Z＝J，噪声纠正矩阵E＝0，拉格朗日矩阵Y₁＝0，Y₂＝0，拉格朗日惩罚参数μ＝10^-6，最大拉格朗日惩罚参数max_μ＝10¹⁰，拉格朗日惩罚参数倍数ρ₀＝1.1，常数ε＝10^-8；

3-5-2，计算M₁每列数据的相关性矩阵等价矩阵J：固定其他矩阵更新矩阵J，

J = \arg \min \frac{1}{μ} {| | J | |}_{*} + \frac{1}{2} {| | J - (Z + y_{2} / μ) | |}_{F}^{2};

3-5-3，计算M₁每列数据的相关性矩阵Z：固定其他矩阵更新矩阵Z，Z＝(I+M₁ ^tM₁)^-1(M₁ ^tM₁-M₁ ^tE+J+(M₁ ^tY₁-Y₂)/μ)；

3-5-4，计算噪声纠正矩阵E：固定其他矩阵更新矩阵E，

3-5-5，计算拉格朗日矩阵Y₁，Y₂：Y₁，Y₂，Y₁＝Y₁+μ(M₁-M₁Z-E)，Y₂＝Y₂+μ(Z-J)；

3-5-6，更新拉格朗日惩罚参数μ：μ＝min(ρ₀μ，max_μ)；

3-5-7，判断迭代是否结束：检查||M₁-M₁Z-E||_∞＜ε，||Z-J||_∞＜ε是否成立，若成立则迭代结束，否则继续迭代；

其中||||_*代表核范数，||||_F代表弗罗贝尼乌斯范数，||||_∞代表最大范数，min(A，B)代表返回A和B中较小值，上述的迭代过程得到矩阵Z，矩阵Z中的元素Z_i，j、Z_j，i之和代表图像i、j之间的相似值，构建无向图image，图像i代表图image的结点，图像i、j之间的相似性值代表结点i与结点j之间的权重，采用谱聚类Ncut方法来对图image进行分割从而实现对多个前景关键帧之间的分类。

步骤3-6，LBP以及BOW特征聚类：LBP以及BOW特征数据在空间维度上的差异很小，直接采用K-means方法就可以得到较好的结果，对矩阵M₂，M₃采用K-means方法进行聚类，本方法中的人物前景一股为2-3类；

步骤3-7，对结果进行集成学习：由步骤3-5，3-6，3-7得到三个特征下每一帧图像所属的类别C_i，利用三个类别信息投票确定每一帧图像的类别，如C₁、C₂、C₃对于图像f_i的类别分别为0、0、1出现次数最高的类别0为图像f_i的类别，从而所有的关键帧f_i都可以确定其类别信息。计算人物前景视频v_i与v_j之间的相似度对于前景视频v_i，若其同v_j之间的相似度比同其他的视频相似度高，则v_i同v_j划分为同一类。

附图说明

图1为本发明方法的基本流程图。

图2为原始的监控视频1部分画面。

图3为原始的监控视频2部分画面。

图4为原始的监控视频3部分画面。

图5为监控视频1部分前景。

图6为监控视频2部分前景。

图7为监控视频3部分前景。

图8为LBP特征的提取示意图。

图9为BOW聚类方法的示意图。

图10为监控视频1中两个物体前景所在的子空间示意图。

图11典型相关性特征融合的原理示意图。

图12本方法中人物分类精度同未融合后的人物聚类精度比较。

具体实施方式

下面结合附图和具体实施方式对本发明做更进一步的具体说明。

本方法的流程图如图1所示，分为三大过程：首先是采用混合高斯模型对每个监控视频分割前景和背景得到前景视频；其次是将前景视频人物分割开来并对每个人物视频提取一组关键帧供视频特征提取之用；再次对每个前景人物的关键帧提取颜色直方图，局部二值特征，词袋特征，然后将这三个特征用典型相关系数进行特征融合，构造出一个新的能够更好区分不同类别的空间，再将这三个特征矩阵投影到这个具有更好区分性的空间中进行聚类，对投影后颜色矩阵采用最低秩子空间聚类，对局部二值特征和词袋特征采用K-means聚类，最终采用集成学习方法得到前景之间的相似度。

具体地说，如图1所示，本发明公开了一种监控视频前景人物分割与分类方法，主要包括以下几个步骤：

步骤1，监控视频的前景和背景分割：一股而言监控视频的前景指的是活动的事物，通常为人或车，而监控视频的背景指的是视频中静止的景物。采用混合高斯模型分离监控视频的前景和背景，并将每个前景人物用能完全包围住前景人物的最小包围盒包围起来，形成独立的前景人物小视频；

步骤2，提取前景人物小视频的特征：将前景人物小视频提取一组关键帧，考虑监控视频移动前景中主要包含人与车辆，而本发明的主要目的是人物的分类，所以对每个前景记录面积和速度两个特征，在进行人物分类之前先将汽车前景分类出来，人物的外形和颜色信息对于区分不同的人物很重要，所以在进行膨胀和腐蚀操作之后，对每个人物关键帧提取颜色直方图特征、局部二值特征和词袋这三个有关颜色和形状的特征；

步骤3，特征融合与分类：先将前景中的汽车分类出来，一股监控视频中出现的前景通常为两大类即汽车与人物，同一镜头记录的前景视频的中间时间轴上一组图像对镜头的透视效果有很好的鲁棒性，人物前景中间一组帧的人物面积通常远远小于汽车前景中间一组帧的汽车面积，人物前景的速度通常情况下也远小于汽车前景的移动速度，对得到的每个前景面积和速度，根据设定的阈值分类出汽车；再对分类得到的人物前景提取颜色直方图特征、局部二值特征以及词袋特征，再采用典型相关系数的方法进行无监督特征融合，得到一个区分不同类别的空间T，将三个特征投影到空间T，对投影后的颜色特征做最低秩子空间聚类，对投影后的LBP和BOW特征做K-means聚类，根据聚类结果对前景人物小视频进行分类；

步骤1，前景和背景分割的详细步骤如下：

步骤1-1，初始化高斯模型：读取视频的第一帧图像为图像中每个像素点构建一个含有K，发明中K为3个的混合高斯模型，用K个高斯模型表示监控视频中每帧图像中每个像素j在时刻t的值x_j，像素j在时刻t取值x_j的概率P(x_j)可以由这K个高斯模型表示：其中代表t时刻像素j的混合高斯模型中第i个高斯分量的权重，满足：和代表t时刻像素j的第i个高斯分量的均值和协方差，表示高斯概率密度函数，表示如下：

N (x_{j}, u_{j, t}^{i}, Σ_{j, t}^{i}) = \frac{1}{2 π^{\frac{d}{2}} {| Σ_{j, t}^{i} |}^{\frac{1}{2}}} \exp [- \frac{1}{2} {(x_{j} - u_{j, t}^{i})}^{T} {(Σ_{j, t}^{i})}^{- 1} (x_{j} - u_{j, t}^{i})],

其中d为x_j的维数，对于RGB颜色空间，每个像素有3个通道x_j为三维向量，其中协方差矩阵其中表示t时刻像素j的第i个高斯模型方差，初始化时的值为I代表单位矩阵。初始化阶段，每个高斯分布的方差每个高斯分布的权重取ω_init＝1/K，发明中ω_init值为0.3；

步骤1-2，更新高斯模型：继续读取监控视频，每读取监控视频的一帧图像就对混合高斯模型做更新；将混合高斯模型中的每个高斯成分按照由大到小排序，当前读取的新帧的像素值x_j，t+1若与混合高斯模型中第i个高斯模型满足下列式子：

| x_{j, t + 1} - u_{j, t}^{i} | \leq δ * σ_{j, t}^{i},

则更新第i个高斯成分，其余高斯成分保持不变，判断像素点x_j，t+1在当前帧中是背景部分像素，参数δ为匹配阈值，δ取值范围1～2，发明中δ取1.5，更新第i个高斯成分的计算方法如下：

ω_{j, t + 1}^{i} = (1 - α) ω_{j, t}^{i} + α

u_{j, t + 1}^{i} = (1 - p) u_{j, t}^{i} + {ρx}_{j}

{(σ_{j, t + 1}^{i})}^{2} = (1 - ρ) {(σ_{j, t}^{i})}^{2} + ρ {(x_{j} - u_{j, t}^{i})}^{T} (x_{j} - u_{j, t}^{i})

ρ = \frac{α}{ω_{j, t}^{i}}

其中α是混合高斯模型的学习率，α取值范围0～1，α发明中取1，ρ为参数的学习率；如果像素x_j，t+1与K个高斯成分都不匹配的，则判定这一像素点是当前帧的前景像素，构造新的高斯成分取代排序靠后的高斯成分，新的高斯成分的均值设为x_j，t+1的值，标准差和权重分别设置为σ_init和ω_init，保留的高斯成分的均值和方差保持不变，权重则按照下式更新：

ω_{j, t + 1}^{i} = (1 - α) ω_{j, t}^{i}

步骤1-3，完成视频的前景和背景分割工作：像素x_j，t+1的K个高斯成分更新参数后，对K个高斯成分的权重进行归一化，重复前面步骤1-1和1-2保留每帧图像中的前景像素，直至监控视频读取结束，得到同原始监控视频同样分辨率的显示前景而不显示背景的视频；

1-4，提取包围前景人物视频的最小包围盒：读取步骤1-3中得到的监控视频，对每帧图像先进行膨胀和腐蚀操作，从而消除图像中的噪声，再逐行扫描图像，记录图像中像素值不为0的像素构成的矩形的长l和宽w，因为步骤1-2得到的视频背景像素值为0，所以像素值非0的代表该像素为前景，对于同一个人物前景每一帧的包围盒都有长l和宽w，选择所有帧中最长的l、w作为该人物前景的包围盒由此得到包围人物前景视频的小视频，图2～4是原始的监控视频，图5～7是对应于图2～4的采用混合高斯模型提取前景后的监控视频。

步骤2，前景人物特征提取详细步骤如下：

步骤2-1，提取人物前景的关键帧：固定选取人物视频中间F帧f₁，f₂，...，f_F图像作为关键帧，F可取20～40，发明中F取20，选取中间F帧是因为人物小视频中间一组帧较之开始帧和结束帧更完整的展现了人物的外形与颜色，且人物前景占视频的面积大小适中；

步骤2-2，提取颜色直方图信息：对F帧f₁，f₂，...，f_F人物部分区域提取颜色特征直方图，设颜色直方图的柱状分区共有m_c个，发明中m_c取64，计算图像f_i中像素点p三个颜色通道RGB值对应的柱状分区id，i取1～F，R代表红色通道值，G代表绿色通道值，B代表蓝色通道值，公式如下：

id = \frac{R}{256} + \frac{G}{256} {m_{c}}^{\frac{2}{3}} + \frac{B}{256} {m_{c}}^{\frac{1}{3}}

统计每个柱状分区id中像素点的个数得到f_i的颜色直方图，颜色直方图最终表示为长度为m_c的向量v_c；对所有关键帧重复操作本步骤，直到得到m_c×F的矩阵M₁；

步骤2-3，提取局部二值即Local Binary Pattern特征，简称LBP特征，计算F帧f₁，f₂，...，f_N图像的局部二值特征，先将图像f_i灰度化，设LBP算子的半径为r，发明中r取3，用r*r的窗口在图像中移动，每移动一个像素位置就计算一次窗口中心像素p_center的LBP值，计算方法如下：将与中心像素p_center相邻的r*r个像素分别与中心像素p_center的值进行比较，相邻像素值大于中心像素p_center，则该像素的位置被标记为1，否则被标记为0，如图8表示，由此得到r*r-1位二进制数，最终窗口移动到最后一个中心像素位置时得到了整个图像的LBP特征，再将图像的LBP特征用柱状图表示。设LBP柱状图分区有m_l个，发明中m_l取值64，将柱状图每个分量的高度值串联起来，得到最终的局部二值特征即：长度为m_l的向量v_l。对所有的关键帧重复本步骤，直到得到m_l×F的矩阵M₂；

步骤2-4，提取词袋即bag ofwords特征，简称BOW特征：首先计算F帧f₁，f₂，...，f_F的尺度旋转不变性sift特征点，设BOW模型中单词表长度为m_b，发明中m_b取64，采用K-means方法，K-means中聚类中心设为64，将词义相近的sift特征点合并得到m_b个类，类中心构成BOW的单词表，发明中单词表长度为64，用单词表中的词汇代替每一帧图像中的每个sift特征点，如图9中m_b的值为3，K-means聚类后得到3个聚类中心，再重新用单词表中的词汇代替每一帧图像中的每个sift特征点，特征点sift₁距离类m₁最近，则m₁中心点表示特征点sift₁，统计所有单词表每个词汇对应sift特征点个数，得到图像f_i的每个词汇的频度即长度为m_b的向量v_b，对所有关键帧重复2-4的操作得到m_b×F矩阵M₃；

步骤3，监控视频的前景人物分类详细步骤如下：

步骤3-1，设置前景面积和速度的阈值分类出汽车，通常情况下汽车的速度与面积数值比人物前景对应的速度与面积数值要大，而镜头记录下的前景物体轨迹或者由远及近或者由近及远，中间的图像大小通常情况下受到透视效果影响较小，这里面积阈值area_thresh＝800pixel，速度阈值speed_thresh＝25pixel/image，pixel表示像素，image表示图像；面积超过面积阈值的前景划分为汽车类别，面积特征没有超过面积阈值时，若前景速度特征超过速度阈值，则前景划分为汽车类别否则划分为人物类别；

步骤3-2，统一数据维度：将步骤2得到的对于F个图像的颜色直方图矩阵m_c×F，LBP特征矩阵m_l×F和BOW特征矩阵m_b×F，特征矩阵均为64×20，调用主成分分析方法降低到统一维度m，发明中设保留最大的主成分大小为64，即发明中m取值64，这所有的特征向量矩阵就变为m×F；

步骤3-3，特征融合：设存在矩阵T维度为m×n，发明中T大小为64×64，三个特征向量矩阵M₁、M₂、M₃投影到矩阵T所在空间中，能够呈现出图11中同类别的空间向量P₁，P₂在空间T中的投影距离很近，不同类别的空间向量P₁，P₃在空间T中的投影距离很远的特性初始化T为单位向量，迭代的更新矩阵T的内容，具体迭代过程如下：

3-3-1，对矩阵M₁，M₂，M₃进行矩阵正三角分解并更新矩阵M_i：T^TM_i＝φ△_i，i＝1～3：

3-3-2，对每一对M′_i，M′_j进行矩阵奇异值分解：i＝1～3：

3-3-3，求解矩阵T，计算矩阵计算矩阵A的特征向量At_i＝λt_i，λ为矩阵A中特征向量t_i的特征值，将t_i按照从大到小的顺序排序构成矩阵T，即T＝{t₁，t₂，...，t_n}，这里矩阵A不同的特征向量个数确定n大小；

重复步骤3-3-1～3-3-3直至T收敛为止，重复上述步骤3-5次矩阵T会收敛，其中T^T表示矩阵T的转置矩阵，M′_i表示M_i的逆矩阵，表示M_i的逆转置，φ表示矩阵正三角分解后的正交矩阵，△_i则是矩阵正三角分解后的上三角矩阵，表示△_i的逆矩阵，Q_ij表示矩阵奇异值分解的酉矩阵，矩阵的奇异值分解，正三角分解，矩阵的逆，矩阵的转置方法在matlab环境下调用svd函数，qr函数，求逆符号’和求转置符号T；

步骤3-5，颜色直方图特征聚类：颜色矩阵M₁采用最低秩子空间聚类方法，不同的前景的颜色直方图往往呈现在不同的数据维度上，如图10所示，而K-means方法中的距离一股采用欧式距离，不适合用于颜色空间的距离，所以采用子空间聚类方法能够较好的实现类别划分，利用最低秩方法计算出每帧图像之间的相似度w，图10中两个数据集合分属于不同的子空间，通过最低秩方法可以区分出这两个不同的子空间；构造图image，将所有的前景图像作为结点，图像之间的相似度w作为权重，再采用谱聚类Ncut方法对图image进行分割，从而完成对图像的分类，相似度w的计算方法如下：

3-5-1，初始化参数λ₀，相关性矩阵Z，相关矩阵Z的等价矩阵J＝0，Z＝J，噪声纠正矩阵E＝0，拉格朗日矩阵Y₁＝0，Y₂＝0，拉格朗日惩罚参数μ＝10^-6，最大拉格朗日惩罚参数max_μ＝10¹⁰，拉格朗日惩罚参数倍数ρ₀＝1.1，常数ε＝10^-8；

3-5-3，计算M₁每列数据的相关性矩阵Z：固定其他矩阵更新矩阵Z，

3-5-4，计算噪声纠正矩阵E：固定其他矩阵更新矩阵E，

3-5-5，计算拉格朗日矩阵Y₁，Y₂：Y₁＝Y₁+μ(M₁-M₁Z-E)，Y₂＝Y₂+μ(Z-J)；

3-5-6，更新拉格朗日参数μ：μ＝min(ρ₀μ，max_μ)；

其中||||_*代表核范数，||||_F代表弗罗贝尼乌斯范数，||||_∞代表最大范数，min(A，B)代表返回A和B中较小值，上述的迭代过程得到矩阵Z，矩阵Z中的元素Z_i，j、Z_j，i之和代表图像i、j之间的相似值，构建无向图image，图像i代表图image的结点，图像i和图像j之间的相似性值代表结点i与结点j之间的权重，采用谱聚类Ncut方法来对图image进行分割从而实现对多个前景关键帧之间的分类，发明中谱聚类的中心设置为不同的前景人物的个数。

步骤3-6，LBP以及BOW特征聚类：LBP以及BOW特征数据在空间维度上的差异很小，直接采用K-means方法就可以得到较好的结果，对矩阵M₂，M₃采用K-means方法进行聚类，K-means聚类中心个数设定为前景人物的个数；

步骤3-7，对结果进行集成学习：由步骤3-5，3-6，3-7得到三个特征下每一帧图像所属的类别C_i，利用三个类别信息投票确定每一帧图像的类别，如C₁、C₂、C₃对于图像f_i的类别分别为0、0、1出现次数最高的类别0为图像f_i的类别，从而所有的关键帧f_i都可以确定其类别信息，从而所有的关键帧f_i都可以确定其类别信息。计算前景视频v_i与v_j之间的相似度对于前景视频v_i，若其同v_j之间的相似度比同其他的视频的相似度高，则v_i同v_j划分为同一类。从图12给出的对比发现，发明中的方法相对直接采用特征聚类的方法提高了准确性。

实施例

本实施例的实验硬件环境是：Intel-Core2Duo i321003.1GHz，4G内存，编程环境是visual studio2010，opencv2.3，matlab R2012a，测试用的监控视频主要来自于校园监控系统中的监控视频。

采用混合高斯模型提取前景中高斯模型个数K＝3，匹配阈值参数δ＝1.5，初始方差σ_init ²＝30²，初始权重ω_init取0.3，学习率α＝1，关键帧选取参数N＝20，面积阈值area_thresh＝800pixel，速度阈值speed_thresh＝25pixel/image，特征提取过程中颜色直方图参数m_c＝64，LBP特征中半径r＝3，直方图参数m_l＝64，BOW特征单词个数m_b＝64，特征采用PCA降维后长度m＝64，特征融合过程中矩阵T的列数n＝64。

直方图参数设置为64可以减少计算数据量，直方图参数设置大于64会导致聚类结果分散而且大于64会带来庞杂的计算量，而直方图参数设置小于64则有可能带来多个类合并的现象。所以选择64用来做直方图柱状分区个数参数，实验中针对不同的场景中的人物前景为了减少不同的环境光的影响采用了对于光照鲁棒的sift特征进行处理，提高了分类的准确率。

本发明使用了无监督典型系数融合多个特征促进分类的方法，将外形与颜色相似的人物前景采用多种聚类方法划分一类，提高查阅监控视频的效率，总之本发明具有分类准确率高，有效信息比率高，无需人工标注的特点。

Claims

1.一种监控视频人物前景分割与分类的方法，其特征在于，包括以下步骤：

步骤1，分离监控视频的前景和背景：采用混合高斯模型分离监控视频的前景和背景，并将每个前景用能完全包围前景的最小包围盒包围起来，形成独立的前景小视频；

步骤2，提取前景小视频的特征：将前景小视频提取一组关键帧，对每个前景记录面积和移动速度两个特征，进行人物分类之前先将汽车前景分类，对人物前景的关键帧进行膨胀和腐蚀操作后，对每个关键帧提取颜色直方图、局部二值特征和词袋特征；

步骤3，特征融合与分类：对得到的每个前景的面积和速度设置阈值，分类出汽车得到人物前景；对人物前景提取颜色直方图特征、局部二值特征LBP和词袋特征BOW，采用典型相关系数的方法对所述三个特征进行无监督的特征融合，得到一个区分不同类的空间T，将三个特征投影到空间T，对投影后的颜色直方图特征做最低秩子空间聚类，对投影后的LBP和BOW特征做K-means聚类，并根据聚类的结果对前景人物小视频进行分类；

步骤1包括以下步骤：

步骤1-1，初始化高斯模型：读取监控视频的第一帧图像，为图像中每个像素点构建一个含有K个高斯模型的混合高斯模型，K取值范围3～5，用K个高斯模型表示监控视频中每帧图像中每个像素j在时刻t的值x_j，像素j在时刻t取值x_j的概率P(x_j)由下式确定：

P (x_{j}) = Σ_{i = 1}^{K} ω_{j, t}^{i} * N (x_{j}, u_{j, t}^{i}, Σ_{j, t}^{i}),

其中代表t时刻像素j的混合高斯模型中第i个高斯分量的权重，满足：和分别代表t时刻像素j的第i个高斯分量的均值和协方差，表示高斯概率密度函数，表示如下：

N (x_{j}, u_{j, t}^{i}, Σ_{j, t}^{i}) = \frac{1}{2 π^{\frac{d}{2}} | Σ_{j, t}^{i} |^{\frac{1}{2}}} \exp [- \frac{1}{2} {(x_{j} - u_{j, t}^{i})}^{T} {(Σ_{j, t}^{i})}^{- 1} (x_{j} - u_{j, t}^{i})],

步骤1-2，更新高斯模型：继续读取监控视频，每读取监控视频的一帧图像就对混合高斯模型做更新；将混合高斯模型中的每个高斯成分按照由大到小排序，当前读取的新帧的像素值x_j,t+1若与混合高斯模型中第i个高斯模型满足下列式子：

| x_{j, t + 1} - u_{j, t}^{i} | \leq δ * σ_{j, t}^{i},

则更新第i个高斯成分，其余高斯成分保持不变，且像素点x_j,t+1在当前帧中被认为是背景部分像素，参数δ为匹配阈值，δ取值范围1～2，更新第i个高斯成分的计算方法如下：

ω_{j, t + 1}^{i} = (1 - α) ω_{j, t}^{i} + α,

u_{j, t + 1}^{i} = (1 - ρ) u_{j, t}^{i} + {ρx}_{j},

{(σ_{j, t + 1}^{i})}^{2} = (1 - ρ) {(σ_{j, t}^{i})}^{2} + ρ {(x_{j} - u_{j, t}^{i})}^{T} (x_{j} - u_{j, t}^{i}),

ρ \frac{α}{ω_{j, t}^{i}},

其中α是混合高斯模型的学习率，取值范围0～1，ρ为参数α的学习率；如果像素x_j,t+1与K个高斯成分都不匹配的，则判定这一像素点是当前帧的前景像素，构造新的高斯成分取代排序靠后的高斯成分，新的高斯成分的均值设为像素x_j,t+1的值，标准差和权重分别设置为σ_init和ω_init，保留的高斯成分的均值和方差保持不变，权重值则按照下式更新：

ω_{j, t + 1}^{i} = (1 - α) ω_{j, t}^{i};

步骤1-3，完成视频前景和背景分割工作：像素x_j,t+1的K个高斯成分更新后，对K个高斯成分的权重进行归一化，重复前面的步骤1-1和1-2保留每帧图像中的前景像素，直至监控视频读取结束，得到同原始监控视频同样分辨率的显示前景而不显示背景的视频；

步骤1-4，提取包围前景人物视频的最小包围盒：读取步骤1-3中得到的监控视频，对每帧图像先进行膨胀和腐蚀操作，再逐行扫描图像，记录图像中像素值不为0的像素构成的矩形的长l和宽w，对于同一个人物前景，每一帧的包围盒都有长l和宽w，选择所有帧中最长的l和w，作为该人物前景的包围盒，由此得到包围人物前景视频的小视频；

步骤2包含下列步骤：

步骤2-1，提取人物前景的关键帧：固定选取人物视频中间F帧f₁,f₂,…,f_F图像作为关键帧，F取20～40；

步骤2-2，提取颜色直方图信息：对F帧f₁,f₂,…,f_F图像人物区域提取颜色特征直方图，设颜色直方图的柱状分区共有m_c个，计算图像f_i中像素点p三个颜色通道RGB值对应的柱状分区id，i取1～F，R代表红色通道值，G代表绿色通道值，B代表蓝色通道值，公式如下：

i d = \frac{R}{256} + \frac{G}{256} {m_{c}}^{\frac{2}{3}} + \frac{B}{256} {m_{c}}^{\frac{1}{3}},

统计每个柱状分区id中像素点的个数,得到图像f_i的颜色直方图，颜色直方图最终表示为长度为m_c的向量v_c，对所有关键帧重复本步骤，直到得到m_c×F的矩阵M₁；

步骤2-3，提取局部二值特征：计算F帧f₁,f₂,…,f_F图像的局部二值特征，先将图像f_i灰度化，设局部二值特征LBP算子的半径为r，r取3或4或5，用r*r的窗口在图像中移动，每移动一个像素位置就计算一次窗口中心像素p_center的LBP值，计算方法如下：将与中心像素p_center相邻的r*r个像素分别与中心像素p_center的值进行比较，相邻像素值大于中心像素p_center，则该像素的位置被标记为1，否则被标记为0，由此得到r*r-1位二进制数，最终窗口移动到最后一个中心像素位置时得到了整个图像的LBP特征，再将图像的LBP特征用柱状图表示，设LBP柱状图分区有m_l个，将柱状图每个分量的高度值串联起来，得到最终的局部二值特征，即长度为m_l的向量v_l，对所有的关键帧重复本步骤，直到得到m_l×F的矩阵M₂；

步骤2-4，提取词袋特征：首先计算F帧f₁,f₂,…,f_F图像的尺度旋转不变特性sift特征点，设词袋模型中单词表长度为m_b，采用K-means聚类方法将词义相近的sift特征点合并得到m_b个类，类中心构成词袋的单词表，再重新用单词表中的词汇代替每一帧图像中的每个尺度不变特性转换sift特征点，统计单词表中每个词汇对应sift特征点个数，则最终得到图像f_i的每个词汇的频度，即长度为m_b的向量v_b，对所有关键帧重复本步骤，直到得到m_b×F矩阵M₃；

步骤2-5，提取面积特征与速度特征：计算F帧f₁,f₂,…,f_F图像中每一帧图像的前景的面积s₁,s₂,…,s_F与速度v₁,v₂,…,v_F-1，前景的面积也即前景中非0的像素个数，取F个图像前景面积的平均值作为该前景的面积值s，前景速度由前景的矩形包围框的中心位置在原始监控视频中的位移决定，每两帧图像的包围框中心位置确定一个位移，F帧图像计算得到F-1个速度，取速度的中值作为该前景的速度v；

步骤3包含下列步骤：

步骤3-1，设置前景面积和速度的阈值，面积阈值area_thres＝800pixel，速度阈值speed_thresh＝25pixel/image，pixel表示像素，image表示图像，面积特征超过面积阈值的前景划分为汽车类别，面积特征没有超过面积阈值时，若前景速度特征超过速度阈值，前景划分为汽车类别，否则前景划分为人物类别；

步骤3-2，统一数据维度：将步骤2得到的对于F个图像的颜色直方图矩阵m_c×F，局部二值特征矩阵m_l×F和词袋特征矩阵m_b×F，调用主成分分析PCA方法，降低到统一维度m，所有的特征向量矩阵变为m×F；

步骤3-3，特征融合：设存在矩阵T维度为m×n，三个特征向量矩阵M₁、M₂、M₃投影到矩阵T所在空间中，同类的空间向量在矩阵T所在空间的投影距离近，不同类的空间向量在矩阵T所在空间中的投影距离很远的特性，初始化T为单位向量矩阵，迭代的更新矩阵T的内容，具体迭代过程如下：

3-3-1，对矩阵M₁，M₂，M₃进行矩阵正三角分解并更新矩阵M_i：T^TM_i＝φΔ_i，

3-3-2，对每一对矩阵M′_i，M′_j进行矩阵奇异值分解：

3-3-3，求解矩阵T：计算矩阵计算矩阵A的特征向量At_i＝λt_i，λ为矩阵A中特征向量t_i的特征值，将t_i按照从大到小的顺序排序构成矩阵T，即T＝{t₁,t₂,…,t_n}，这里矩阵A的不同特征向量个数确定了n的大小；

重复步骤3-3-1～3-3-3直至T收敛为止，其中i取值范围1～3，T^T表示矩阵T的转置矩阵，M′_i表示M_i的逆矩阵，表示M_i的逆转置矩阵，φ表示矩阵正三角分解后的正交矩阵，Δ_i则是矩阵正三角分解后的上三角矩阵，表示Δ_i的逆矩阵，Q_ij表示矩阵奇异值分解的酉矩阵，T的列维度n由矩阵A确定；

步骤3-4，前景视频分类：将特征向量矩阵M₁，M₂，M₃投影到T所在的空间中，即M″_i＝T^TM_i，i取1～3，得到新的特征向量矩阵M″₁，M″₂，M″₃；

步骤3-5，颜色直方图特征聚类：颜色矩阵M″₁采用最低秩子空间聚类方法计算出每帧图像之间的相似度w，构造图image，将所有的前景图像作为结点，图像之间的相似度w作为权重，然后采用谱聚类Ncut方法对图image进行分割，从而完成对图像的分类，相似度w的计算方法如下：

3-5-1，初始化参数λ₀，相关性矩阵Z，相关性矩阵Z的等价矩阵J＝0,Z＝J，噪声纠正矩阵E＝0，拉格朗日矩阵Y₁＝0,Y₂＝0，拉格朗日惩罚参数μ＝10^-6，最大拉格朗日惩罚参数max_μ＝10¹⁰，拉格朗日惩罚参数倍数ρ₀＝1.1，常数ε＝10^-8；

3-5-2，计算M″₁每列数据的相关性矩阵等价矩阵J：固定其他矩阵更新矩阵J，

3-5-3，计算M″₁每列数据的相关性矩阵Z：固定其他矩阵更新矩阵Z，

3-5-4，计算噪声纠正矩阵E：固定其他矩阵更新矩阵E，

3-5-5，计算拉格朗日矩阵Y₁,Y₂：更新矩阵Y₁,Y₂，Y₁＝Y₁+μ(M″₁-M″₁Z-E),Y₂＝Y₂+μ(Z-J)；

3-5-6，更新拉格朗日惩罚参数μ，μ＝min(ρ₀μ,max_μ)；

3-5-7，判断迭代是否结束：检查||M″₁-M″₁Z-E||_∞＜ε,||Z-J||_∞＜ε是否成立，若成立则迭代结束，否则继续迭代；

其中||||_*代表核范数，||||_F代表弗罗贝尼乌斯范数，||||_∞代表最大范数，min(A,B)代表返回A和B中较小值，上述的迭代过程得到矩阵Z，则矩阵Z中的元素Z_i,j、Z_j,i之和代表图像i、j之间的相似值，构建无向图image，图像i代表图image的结点，图像i、j之间的相似性值代表结点i与结点j之间的权重，采用谱聚类Ncut方法来对图image进行分割从而实现对多个前景关键帧之间的分类；

步骤3-6，局部二值特征以及词袋特征聚类：对矩阵M″₂，M″₃采用K-means方法进行聚类；

步骤3-7，对结果进行集成学习：由步骤3-5，3-6，3-7得到三个特征下每一帧图像所属的类别C_i，利用三个类别信息投票确定每一帧图像的类别，从而所有的关键帧f_i都可以确定其类别信息，计算前景视频v_i与v_j之间的相似度ρv_iv_j：

对于前景视频v_i，若其同v_j之间的相似度比同其他的视频的相似度高，则v_i同v_j划分为同一类。