CN102510437A

CN102510437A - 基于rgb分量分布的视频图像背景检测方法

Info

Publication number: CN102510437A
Application number: CN2011103278138A
Authority: CN
Inventors: 洪明坚; 徐玲; 张小洪; 杨梦宁; 杨丹; 霍东海; 葛永新; 陈远; 胡海波
Original assignee: Chongqing University
Current assignee: Chongqing University
Priority date: 2011-10-25
Filing date: 2011-10-25
Publication date: 2012-06-20
Anticipated expiration: 2031-10-25
Also published as: CN102510437B

Abstract

本发明提供了一种基于RGB分量分布的视频图像背景检测方法，该方法通过对视频图像像素点的RGB分量分布特征加以考虑和分析，根据研究、分析发现的视频图像中像素点的RGB分量分布特性，利用像素点RGB均值矩阵作为其RGB分量分布中心进行坐标转换对视频图像像素点的RGB分量分布特征进行度量，获取视频图像中背景像素点真实的橄榄球形RGB分量分布轮廓，并结合阈值法进行背景检测，提高了背景检测准确性，并同时保证了该方法具备良好的实时性和鲁棒性；即便其背景检测结果中存在少量噪点，也都主要分布在前景像素点的附近，完全能够满足实际应用中视频图像背景识别和前景捕获的实用准确性要求。

Description

基于RGB分量分布的视频图像背景检测方法

技术领域

本发明属于图像处理技术领域，尤其涉及一种基于RGB分量分布的视频图像背景检测方法。

背景技术

随着视频监控摄像头在智能监控领域的广泛应用与智能视频分析技术的快速发展，视频摘要技术逐渐进入人们的眼帘。视频摘要技术，是一种将长时间的海量视频数据压缩到一个可控的时间段内的技术，便于提供给人们进行视频浏览。在视频摘要技术中，需要利用高效的背景检测方法，以对视频图像的背景加以检测，进而捕捉视频中的前景运动物体作为视频摘要跟踪的对象，因此背景检测技术成为了视频摘要技术中的一个研究热点。同时，在其它视频图像处理技术领域，例如人脸识别技术领域、视频压缩处理技术领域等，也需要借助背景检测技术完成背景、前景的区分。可见，背景检测技术在多种应用的视频图像处理技术中都具有重要的地位，是目前图像处理技术领域中的一个主流研究方向。目前使用比较广泛的背景检测方法主要有背景差分法、核密度估计检测法、混合高斯背景建模检测法和codebook背景建模检测法。

Heikkila等人在文献“Heikkila，J.and O.Silven.A real-time system for monitoring ofcyclists and pedestrians.In：Second IEEE Workshop on Visual Surveillance.Collins，Colorado：IEEE，1999.74-81”和文献“Piccardi，M.Background subtraction techniques：a review.In：IEEEInternational Conference on Systems，Man and Cybernetics 2004.The Hague，Netherlands：IEEE 2004.3099-3104vol.4”中提出了背景差分法，该算法使用了背景相减的方法，即通过将待处理视频图像序列减去事先给定的一副背景图像，再应用二值化的方法来区分出运动前景。该算法的优点是容易实现，算法复杂度低，几乎不会耗费多少计算资源就可以快速的获取运动前景，进而应用到实时视频摘要生成系统中去。但是，该算法需要事先给定一副完整的背景图像，且完整的背景图像不易获取，依赖外部输入，并不能够随着时间推移进行更新，导致视频处理后期的工作出现较大的误差。

Elgammal等人在文献“Piccardi，M.Background subtraction techniques：a review.In：IEEE International Conference on Systems，Man and Cybernetics 2004.The Hague，Netherlands：IEEE 2004.3099-3104vol.4”和文献“Elgammal，A.，D.Harwood，and L.Davis，Non-parametric model for background subtraction.Computer Vision ECCV 2000，2000：p.751-767”中提出了非参数背景建模方法，估计背景像素值在时间序列上的概率密度，通过一个长度设定的窗口以及窗函数估计像素值属于前景或者背景的概率，从而判断图像中各个像素是否为背景像素。该算法的优点是方便适应新的训练样本加入，为密度估计的在线学习提供便利。但是，该算法计算复杂度太大，不适合应用于实时运动检测系统中，并且在动态背景和光线突变条件下的鲁棒性不高。

Wren等人在文献“Wren，C.R.，et al.Pfinder：Real-time tracking ofthe human body.IEEETransactions on Pattern Analysis and Machine Intelligence，1997.19(7)：p.780-785.”中使用单高斯模型对背景进行建模，克服了需要外部输入背景的限制，在室内等单峰环境下具有较好的检测效果，但是在复杂的多峰环境中，如波动的湖面和摆动的树叶，就很难使用该模型对背景环境进行准确的建模了。为了解决这些问题，Stauffer等人提出了混合高斯背景建模检测法(简称为MOG方法)，该检测方法考虑了像素点在时间上的连续性，将背景像素在时间序列上的分布假设为混合高斯模型，并假设了RGB空间的三个分量之间是相互独立的，给出了背景像素的分布特征，即背景像素在RGB空间中呈现球状分布。但是，RGB空间中的三个分量并不是相互独立的，因此MOG方法对背景像素的分布特征的描述不是很准确，导致运动前景检测误差的增大。

Kim等在文献“Kim，K.，et al.，Real-time foreground-background segmentation usingcodebook model.Real-time imaging，2005.11(3)：p.172-185”和文献“Chalidabhongse，T.H.，etal.A perturbation method for evaluating background subtraction algorithms.In：Joint IEEEInternational Workshop on Visual Surveillance and Performance Evaluation of Tracking andSurveillance.2003.Nice，France：Citeseer”中提出了一种结构化的codebook背景建模检测法，在多峰环境下得到了较好的图像背景检测效果。Wu等在文献“Wu，M.and X.Peng，Spatio-temporal context for codebook-based dynamic background subtraction.AEU-International Journal of Electronics and Communications，2010.64(8)：p.739-747”以及Qiu等在文献“Tu，Q.，Y.Xu，and M.Zhou.Box-based codebook model for real-time objectsdetection.In：7th World Congress on Intelligent Control and Automation.Chongqing，China：IEEE，2008.7621-7625”中分别对Kim等提出的codebook背景建模检测法进行了部分改进，在一定程度上进一步提高了背景检测的准确度。codebook背景建模检测法，是基于视频图像像素点的亮度变化，通过界定背景模型的亮度上、下边界实现背景、前景的区分，降低了全局和局部光照变化对背景区分的影响，背景检测效果相对于MOG方法而言更好，而且其运算可以在不影响前景检测效果的基础上对背景模型进行压缩，大大减少了对内存的需求和计算量，处理效果和运算效率较优于前述的三种背景检测方法。但是，也正是由于codebook背景建模检测法是基于对视频图像像素点的亮度统计观察而提出的，而没有考虑视频图像像素点的RGB分量分布情况，因此在很多情况下对图像背景、前景的区分不够准确，导致背景检测和前景捕捉存在较多的噪点。

发明内容

针对现有技术中存在的上述问题，对视频图像像素点的RGB分量分布特征加以考虑和分析，利用像素点RGB均值矩阵作为其RGB分量分布中心进行坐标转换对视频图像像素点的RGB分量分布特征进行度量，提出一种背景检测准确性更高的基于RGB分量分布的视频图像背景检测方法。

为实现上述目的，本发明采用了如下技术手段：

基于RGB分量分布的视频图像背景检测方法，包括如下步骤：

a)从视频中提取F帧背景图像作为训练样本集，80≤F≤L，L表示视频的总帧数；

b)分别求取训练样本集中图像各像素点的RGB均值矩阵：

{\overset{&OverBar;}{X}}_{k} = \frac{1}{F} Σ_{i = 1}^{F} X_{k} (i), k = 1,2, . . ., (M \times N);

其中，k表示训练样本集的图像中像素点的序号，M×N表示视频图像的分辨率；表示训练样本集中图像第k个像素点的RGB均值矩阵；X_k(i)＝[R_k(i)，G_k(i)，B_k(i)]表示训练样本集中第i帧图像第k个像素点的RGB矩阵，1≤i≤F，R_k(i)、G_k(i)和B_k(i)分别表示训练样本集中第i帧图像第k个像素点的红色分量值、绿色分量值和蓝色分量值；

c)分别求取训练样本集中图像各像素点的RGB协方差矩阵：

cov (X_{k}) = \frac{1}{F - 1} Σ_{i = 1}^{F} [(X_{k} (i) - {\overset{&OverBar;}{X}}_{k}) \times {(X_{k} (i) - {\overset{&OverBar;}{X}}_{k})}^{T}], k = 1,2, . . ., (M \times N);

其中，cov(X_k)表示训练样本集中图像第k个像素点的RGB协方差矩阵；T为矩阵转置符号；

进而分别求得训练样本集中图像各像素点RGB协方差矩阵的特征值和特征向量；其中，训练样本集中图像第k个像素点RGB协方差矩阵的三个特征值分别为γ₁(X_k)，γ₂(X_k)，γ₃(X_k)，且有γ₁(X_k)＞γ₂(X_k)＞γ₃(X_k)，所述三个特征值γ₁(X_k)，γ₂(X_k)，γ₃(X_k)对应的三个特征向量分别为u₁(X_k)，u₂(X_k)，u₃(X_k)；

d)根据训练样本集中图像各像素点RGB协方差矩阵的特征值分别确定视频图像每个像素点对应的三个背景边界阈值：

{TH}_{k, 1} = n \times \sqrt{γ_{1} (X_{k})},

{TH}_{k, 2} = n \times \sqrt{γ_{2} (X_{k})},

{TH}_{k, 3} = n \times \sqrt{γ_{3} (X_{k})};

k＝1，2，…，(M×N)；

其中，TH_k，1、TH_k，2、TH_k，3分别表示视频图像第k个像素点对应的三个背景边界阈值；；参数n为常数，取值范围为1～5；

e)对于视频中作为背景检测对象的J帧图像，1≤J≤L，根据训练样本集中图像各像素点RGB协方差矩阵的特征向量分别确定取作为背景检测对象的每一帧图像中每一个像素点对应的三个分量转换特征值：

X_{k}^{pro} (j) = [\begin{matrix} x_{k, 1}^{pro} (j) & 0 & 0 \\ 0 & x_{k, 2}^{pro} (j) & 0 \\ 0 & 0 & x_{k, 3}^{pro} (j) \end{matrix}] = {U_{k}}^{T} \times X_{k} (j) = [\begin{matrix} u_{1} \\ u_{2} \\ u_{3} \end{matrix}] \times [\begin{matrix} R_{k} (j) & G_{k} (j) & B_{k} (j) \end{matrix}];

k＝1，2，…，(M×N)；

其中，

表示作为背景检测对象的第j帧图像第k个像素点的分量转换矩阵；

分别表示作为背景检测对象的第j帧图像第k个像素点对应的三个分量转换特征值；X_k(j)＝[R_k(j)，G_k(j)，B_k(j)]表示作为背景检测对象的第j帧图像第k个像素点的RGB矩阵，R_k(j)、G_k(j)和B_k(j)分别表示作为背景检测对象的第j帧图像第k个像素点的红色分量值、绿色分量值和蓝色分量值；U_k＝[u₁(X_k)，u₂(X_k)，u₃(X_k)]表示由训练样本集中图像第k个像素点RGB协方差矩阵的三个特征向量u₁(X_k)，u₂(X_k)，u₃(X_k)构成的特征向量矩阵；T为矩阵转置符号；

f)对于视频中作为背景检测对象的J帧图像，若同时满足：

x_{k, 1}^{pro} (j) \leq {TH}_{k, 1},

x_{k, 2}^{pro} (j) \leq {TH}_{k, 2},

且

x_{k, 3}^{pro} (j) \leq {TH}_{k, 3};

则判定作为背景检测对象的第j帧图像第k个像素点为背景像素点；否则，判定作为背景检测对象的第j帧图像第k个像素点为前景像素点；由此检测出视频中作为背景检测对象的J帧图像的各个像素点是否为背景像素点，完成对作为背景检测对象的J帧图像的背景检测。

相比于现有技术，本发明具有如下有益效果：

1、本发明基于RGB分量分布的视频图像背景检测方法，通过对视频图像像素点的RGB分量分布特征加以考虑和分析，根据研究、分析发现的视频图像中像素点的RGB分量分布特性，利用像素点RGB均值矩阵作为其RGB分量分布中心进行坐标转换对视频图像像素点的RGB分量分布特征进行度量，获取视频图像中背景像素点真实的橄榄球形RGB分量分布轮廓，并结合阈值法进行背景检测，提高了背景检测准确性。

2、本发明基于RGB分量分布的视频图像背景检测方法中所采用的协方差算法的运算量基本与codebook背景建模检测法中所用算法的运算量相当，使得本发明背景检测方法基本保持了与codebook背景建模检测法相当的运算效率，因此依然具有良好的实时性和鲁棒性。

3、本发明基于RGB分量分布的视频图像背景检测方法，其背景检测的噪点更少，检测结果更加接近于实际的背景、前景区分情况，其背景检测精度相比于现有技术已具有明显的提高；即便背景检测结果中存在少量噪点，也都主要分布在前景像素点的附近，完全能够满足实际应用中视频图像背景识别和前景捕获的实用准确性要求，因此特别适用于监控视频摘要跟踪技术、人脸识别技术等需要进行背景识别和前景捕获的实际应用技术当中。

附图说明

图1为本发明基于RGB分量分布的视频图像背景检测方法的流程框图；

图2为对Wallflower视频采样后将得到的图像样本中四个不同像素点的RGB分量投影到RGB三维坐标空间的分布情况组图；

图3为实验室实例中采用本发明基于RGB分量分布的视频图像背景检测方法、codebook背景建模检测法和混合高斯背景建模检测法分别对一段自拍视频中采样图像进行背景检测的检测结果对比图。

具体实施方式

本发明针对现有的背景检测方法准确度不够高的问题，对视频图像像素点的RGB分量分布特征加以考虑和分析，提出一种基于RGB分量分布的视频图像背景检测方法，该方法采用了基于RGB分量分布特征的背景、前景分界条件，利用像素点RGB均值矩阵作为其RGB分量分布中心进行坐标转换对视频图像像素点的RGB分量分布特征进行度量，实现了更加准确的背景检测，同时还保证了良好的实时性和鲁棒性。

一、视频图像像素点的RGB分量分布特性。

本发明基于RGB分量分布的视频图像背景检测方法，是对视频图像像素点的RGB分量分布特征加以考虑和分析，通过分析图像像素点普遍的RGB分量分布特性为基础，利用像素点RGB均值矩阵作为其RGB分量分布中心进行坐标转换对视频图像像素点的RGB分量分布特征进行度量而获得。

在codebook背景建模检测法中，是基于视频图像像素点的亮度变化，通过界定背景模型的亮度上、下边界来实现背景、前景的区分的。像素点X的亮度bri(X)计算公式如下：

bri (X) = \sqrt{R^{2} + G^{2} + B^{2}};

其中，R、G、B分别为像素点X的红色分量值、绿色分量值、蓝色分量值。由于亮度计算相当于将背景像素点RGB三分量在RGB空间的分布轮廓界定为一个柱形体，而没有考虑视频图像像素点实际的RGB分量分布情况，部分不同色相灰度相近的像素点因亮度值相当，容易被误认为是相同像素点而难以区分，因此影响了codebook背景建模检测法的背景检测准确度。

为了提高背景检测准确度，本发明将视频图像像素点的RGB三分量作为背景检测的三个主成分加以考虑，因此采集了大量视频图像数据进行RGB分量分布统计，以了解视频图像像素点RGB分量的普遍分布情况。

下面借助对Wallflower视频(参见文献“Toyama K，Krumm J，Brumitt B，Meyers B.Wallflower：Principles and practice of background maintenance.In：Proceeding of the 7th IEEEInternational Conference on Computer Vision.Corfu，Greece：IEEE.1999.255”)作为示例，通过观察像素点在视频各帧图像的RGB三分量分布情况，来说明视频图像像素点RGB三分量的普遍分布情况。对Wallflower视频采样后将得到的图像样本中四个不同像素点的RGB分量投影到RGB三维坐标空间的分布情况组图如图2所示，Wallflower视频图像的分辨率为120(行)×160(列)，四个像素点在视频图像中的行列坐标分别为(10，10)、(24，142)、(50，50)和(112，50)，四个像素点在Wallflower视频图像中的具体位置分别如图2的2A、2B、2C、2D图所示。其中：1)行列坐标为(10，10)的像素点，在视频各帧图像中其RGB分量值分布在RGB三维坐标空间的一个狭小的区域中(如图2的2E图所示)，并且在R、G、B三个分量上都近似服从相同的高斯分布(分别如图2的2I、2M、2Q图所示)，这样的RGB分量分布在RGB三维坐标空间中呈现一个橄榄球状(如图2的2E图所示)；2)行列坐标为(24，142)和(112，50)的像素点，由于像素点所在位置的图像纹理较复杂，光线变化影响较大，使得这两个像素点的RGB分量值在一定的范围内变化，但在变化范围内R、G、B三个分量的分布均较好的服从了高斯分布(如图2的2J、2L、2N、2P、2R、2T图所示)，使得行列坐标为(24，142)和(112，50)的像素点的RGB分量分布在RGB三维坐标空间中均呈现为橄榄球状(如图2的2F、2H图所示)；3)行列坐标为(50，50)的像素点，由于该像素点点处于图像中间晃动的树枝位置上，因此成像时像素值时而呈现较深的树枝像素，时而呈现较浅的天空像素，有时又呈现这两种情况的中间状态值，导致其RGB分量分布呈现多模态的状态(如图2的2G图所示)，从R、G、B三个分量的分布可以看到均处于多峰分布(如图2的2K、2O、2S图所示)，但峰值轮廓整体上还是具有一定的高斯分布特征，因此使得行列坐标为(50，50)的像素点的RGB分量分布在RGB三维坐标空间中的分部轮廓呈现为一个长条形的橄榄球状(如图2的2G图所示)。

因为像素点在视频图像序列中R、G、B三个分量各自近似呈高斯分布而使得其RGB分量分布在RGB三维坐标空间中的分部轮廓在RGB三维坐标空间中呈现为橄榄球状，这不仅仅是上述示例体现出的RGB分量分布个例，通过大量的是验验证，这样的分布特性几乎在所有视频图像的像素点中都是普遍存在的，是像素点在视频图像序列中真实的RGB分量分布特性反映。本发明基于RGB分量分布的视频图像背景检测方法，正是利用这一视频图像像素点RGB分量分布特性，对视频图像的背景、前景加以区分，再利用像素点RGB均值矩阵作为其RGB分量分布中心进行坐标转换对视频图像像素点的RGB分量分布特征进行度量，实现背景检测，并获得较高的背景检测精度。

二、基于RGB分量分布的视频图像背景检测方法。

为了克服混合高斯背景建模检测法对RGB空间三个分量独立以及codebook背景建模检测法中以柱形体界定视频图像背景像素点的RGB分量分布轮廓在检测准确性方面的局限性，本发明对视频图像像素点的RGB分量分布特征加以考虑和分析，根据上述研究、分析发现的视频图像中像素点的RGB分量分布特性，利用像素点RGB均值矩阵作为其RGB分量分布中心进行坐标转换对视频图像像素点的RGB分量分布特征进行度量，获取视频图像中背景像素点真实的橄榄球形RGB分量分布轮廓，并结合阈值法进行背景检测，不仅改变了背景、前景的分界条件，实现了比codebook背景建模检测法更加准确的背景检测效果，还基本保持了与codebook背景建模检测法相当的运算效率，具有良好的实时性和鲁棒性，在一系列的实验中都取得了较好的效果。

由于不同的视频数据其背景图像各异，需要通过背景训练获得视频图像中背景像素点的RGB分量分布轮廓，然后根据视频图像像素点RGB分量分布特性确定背景边界阈值，借助背景训练的背景边界阈值进行背景检测。因此，本发明基于RGB分量分布的视频图像背景检测方法，主要分为背景训练阶段和背景检测阶段。

下面具体说明本发明基于RGB分量分布的视频图像背景检测方法的检测过程。

本发明基于RGB分量分布的视频图像背景检测方法的流程框图如图1所示，其具体步骤如下：

A、背景训练阶段：

步骤a)：从视频中提取F帧背景图像作为训练样本集，80≤F≤L，L表示视频的总帧数；

该步骤用于从视频中选定训练样本集，以作为视频图像中各像素点是否为背景像素点的检测识别基础。这里提取作为训练样本集中的图像，都应当为视频中的背景图像；本发明所述的背景图像，是指视频中各个像素点均显示为背景物的图像。背景图像的具体认定方式，可以是通过先验检测识别出视频中各个像素点均为背景像素点即认定为背景图像，也可以通过人工肉眼识别认定背景图像。至于提取作为训练样本集的F帧背景图像在视频中的具体位置，则可以根据视频中背景图像的实际情况而确定；多数情况下，可以直接把视频开头连续的F帧图像均视为背景图像而选作为训练样本集，当然也可以在视频中通过先验检测或者人工识别选取F帧背景图像作为训练样本集。但训练样本集的背景图像帧数F需要至少为80帧，这样才可以保证训练样本集能够体现出视频图像背景像素点的真实RGB分量分布轮廓；如果训练样本集的背景图像帧数过少，则难以准确获取视频图像背景像素点RGB分量分布轮廓，必然影响背景检测的准确性。当然，由于有80≤F≤J，也就是说，本发明方法所针对的视频其总帧数也需要大于80帧，并包含至少80帧背景图像。小于80帧的视频过于短暂，没有单独进行背景识别、前景提取的实际必要；若视频中包含的背景图像小于80帧，则图像中背景像素点的RGB分量分布轮廓难以准确获，会在一定程度上影响背景检测的效果。

步骤b)：分别求取训练样本集中图像各像素点的RGB均值矩阵：

{\overset{&OverBar;}{X}}_{k} = \frac{1}{F} Σ_{i = 1}^{F} X_{k} (i), k = 1,2, . . ., (M \times N);

其中，k表示训练样本集的图像中像素点的序号，M×N表示视频图像的分辨率；

表示训练样本集中图像第k个像素点的RGB均值矩阵；X_k(i)＝[R_k(i)，G_k(i)，B_k(i)]表示训练样本集中第i帧图像第k个像素点的RGB矩阵，1≤i≤F，R_k(i)、G_k(i)和B_k(i)分别表示训练样本集中第i帧图像第k个像素点的红色分量值、绿色分量值和蓝色分量值。

本发明基于RGB分量分布的视频图像背景检测方法，是以视频图像的像素点作为检测识别对象，判断其是否为背景像素点，从而实现视频图像背景检测的，因此背景训练也以像素点作为训练对象。该步骤中，k的取值从1取到M×N，从而分别求取训练样本集中图像各像素点的RGB均值矩阵，目的在于以每个像素点的RGB均值矩阵作为该像素点RGB分量的分布中心，以每个像素点的RGB分量分布中心分别对每个像素点的实际RGB分量分布特征加以度量，进而确定背景、前景的边界条件。

步骤c)：分别求取训练样本集中图像各像素点的RGB协方差矩阵：

cov (X_{k}) = \frac{1}{F - 1} Σ_{i = 1}^{F} [(X_{k} (i) - {\overset{&OverBar;}{X}}_{k}) \times {(X_{k} (i) - {\overset{&OverBar;}{X}}_{k})}^{T}], k = 1,2, . . ., (M \times N);

进而分别求得训练样本集中图像各像素点RGB协方差矩阵的特征值和特征向量；其中，训练样本集中图像第k个像素点RGB协方差矩阵的三个特征值分别为γ₁(X_k)，γ₂(X_k)，γ₃(X_k)，且有γ₁(X_k)＞γ₂(X_k)＞γ₃(X_k)，所述三个特征值γ₁(X_k)，γ₂(X_k)，γ₃(X_k)对应的三个特征向量分别为u₁(X_k)，u₂(X_k)，u₃(X_k)。

该步骤所得到的每一个RGB协方差矩阵cov(X_k)是一个3行3列的数据矩阵，因此每一个RGB协方差矩阵cov(X_k)对应有三个特征值γ₁(X_k)，γ₂(X_k)，γ₃(X_k)和三个特征向量u₁(X_k)，u₂(X_k)，u₃(X_k)，特征值和特征向量可通过下式求得：

cov (X_{k}) = {U_{k}}^{T} \times [\begin{matrix} γ_{1} (X_{k}) & 0 & 0 \\ 0 & γ_{2} (X_{k}) & 0 \\ 0 & 0 & γ_{3} (X_{k}) \end{matrix}] = [\begin{matrix} u_{1} \\ u_{2} \\ u_{3} \end{matrix}] \times [\begin{matrix} γ_{1} (X_{k}) & 0 & 0 \\ 0 & γ_{2} (X_{k}) & 0 \\ 0 & 0 & γ_{3} (X_{k}) \end{matrix}];

其中的U_k＝[u₁(X_k)，u₂(X_k)，u₃(X_k)]表示由训练样本集中图像第k个像素点RGB协方差矩阵cov(X_k)的三个特征向量u₁(X_k)，u₂(X_k)，u₃(X_k)构成的特征向量矩阵，T为矩阵转置符号；

该步骤中，将k的取值从1取到M×N，分别求取训练样本集中图像各像素点的RGB协方差矩阵，进而分别求得训练样本集中图像各像素点RGB协方差矩阵的特征值和特征向量，目的是为后续步骤确定视频图像各像素点的背景边界阈值以及度量视频中作为背景检测对象的图像中像素点的分量分布特征做准备。

步骤d)：根据训练样本集中图像各像素点RGB协方差矩阵的特征值分别确定视频图像每个像素点对应的三个背景边界阈值：

{TH}_{k, 1} = n \times \sqrt{γ_{1} (X_{k})},

{TH}_{k, 2} = n \times \sqrt{γ_{2} (X_{k})},

{TH}_{k, 3} = n \times \sqrt{γ_{3} (X_{k})};

k＝1，2，…，(M×N)；

其中，TH_k，1、TH_k，2、TH_k，3分别表示视频图像第k个像素点对应的三个背景边界阈值；参数n为常数，取值范围为1～5。

由于训练样本集中图像的每个像素点均为视频图像中真实的背景像素点，而每个像素点的RGB均值矩阵是作为该像素点RGB分量的分布中心，该步骤中，求取训练样本集中图像各像素点RGB协方差矩阵的特征值开方根，其目的在于借助训练样本集中图像像素点RGB协方差矩阵的三个特征值大小度量视频背景图像像素点的RGB分量分布情况相对于其RGB分量分布中心在三个特征值方向上的分布差距。对于视频图像中任意的第k个像素点而言，其RGB协方差矩阵的三个特征值开方根的大小分布情况，体现了视频背景图像第k个像素点的RGB分量分布情况相对于其RGB分量分布中心在三个特征值方向上的分布差距大小，借以体现出视频中背景图像在第k个像素点位置上的RGB分量分布边界特性；然而，如此获得的背景图像第k个像素点的RGB分量分布边界特性，相比于背景图像第k个像素点实际的RGB分量分布边界而言有所压缩，因此采用参数n对其进行扩张还原处理。根据进行背景检测的视频的不同实际情况，其扩张还原所需的扩张倍数有所不同，因此参数n的具体取值需要根据不同视频数据的真实背景情况而定；根据实际经验，参数n的取值范围在1～5较为适宜。对于视频图像中任意的第k个像素点而言，只要参数n的取值适宜，根据训练样本集中图像第k个像素点RGB协方差矩阵的n倍特征值开方根分别作为视频图像第k个像素点对应的三个背景边界阈值，便能够真实还原视频中背景图像在第k个像素点位置上相对于其RGB分量分布中心的RGB分量分布边界。由此，该步骤中，将k的取值从1取到M×N，根据训练样本集中图像各像素点RGB协方差矩阵的特征值分别确定视频图像每个像素点对应的三个背景边界阈值，用以确定视频中背景图像在各个像素点位置相对于其RGB分量分布中心的RGB分量分布轮廓。

至此，背景训练阶段的处理步骤得以完成。接下来执行针对视频中作为背景检测对象的各帧图像的背景检测阶段。

B、背景检测阶段：

步骤e)：对于视频中作为背景检测对象的J帧图像，1≤J≤L，根据训练样本集中图像各像素点RGB协方差矩阵的特征向量分别确定取作为背景检测对象的每一帧图像中每一个像素点对应的三个分量转换特征值：

X_{k}^{pro} (j) = [\begin{matrix} x_{k, 1}^{pro} (j) & 0 & 0 \\ 0 & x_{k, 2}^{pro} (j) & 0 \\ 0 & 0 & x_{k, 3}^{pro} (j) \end{matrix}] = {U_{k}}^{T} \times X_{k} (j) = [\begin{matrix} u_{1} \\ u_{2} \\ u_{3} \end{matrix}] \times [\begin{matrix} R_{k} (j) & G_{k} (j) & B_{k} (j) \end{matrix}];

k＝1，2，…，(M×N)；

其中，

表示作为背景检测对象的第j帧图像第k个像素点的分量转换矩阵；分别表示作为背景检测对象的第j帧图像第k个像素点对应的三个分量转换特征值；X_k(j)＝[R_k(j)，G_k(j)，B_k(j)]表示作为背景检测对象的第j帧图像第k个像素点的RGB矩阵，R_k(j)、G_k(j)和B_k(j)分别表示作为背景检测对象的第j帧图像第k个像素点的红色分量值、绿色分量值和蓝色分量值；U_k＝[u₁(X_k)，u₂(X_k)，u₃(X_k)]表示由训练样本集中图像第k个像素点RGB协方差矩阵的三个特征向量u₁(X_k)，u₂(X_k)，u₃(X_k)构成的特征向量矩阵；T为矩阵转置符号。

作为背景检测对象的图像帧数J，完全根据执行背景检测的实际需要而确定，作为背景检测对象的图像可以是视频中任意的一帧图像(相当于取J＝1)，也可以是视频中连续或离散的多帧图像(相当于取1＜J＜L)，甚至可以将视频的所有帧图像都作为背景检测对象(即相当于取J＝L)。

该步骤中，j的取值从1取到J，以确保运算历遍作为背景检测对象的每一帧图像，并且对于的j每一个取值，k的取值都从1取到M×N，从而根据训练样本集中图像各像素点RGB协方差矩阵的特征向量分别确定取作为背景检测对象的每一帧图像中每一个像素点对应的三个分量转换特征值，以此度量作为背景检测对象的每一帧图像中每一个像素点相对于其RGB分量分布中心的分布差距。

步骤f)：对于视频中作为背景检测对象的J帧图像，若同时满足：

x_{k, 1}^{pro} (j) \leq {TH}_{k, 1},

x_{k, 2}^{pro} (j) \leq {TH}_{k, 2},

且

x_{k, 3}^{pro} (j) \leq {TH}_{k, 3};

该步骤中，对于作为背景检测对象的任意第j帧图像的任意第k个像素点，以图像第k个像素点的背景边界阈值TH_k作为背景、前景的边界条件，如果同时满足：

且

则表明作为背景检测对象的第j帧图像第k个像素点与其对应的实际背景像素点的RGB分量分布差别未超出背景边界条件的范围，因此判定作为背景检测对象的第j帧图像第k个像素点是背景像素点；一旦出现

或者或者

的情况，则表明作为背景检测对象的第j帧图像第k个像素点与其对应的实际背景像素点的RGB分量分布差别已经超出背景边界条件的范围，已满足前景识别条件，因此判定作为背景检测对象的第j帧图像第k个像素点为前景像素点。由此历遍对作为背景检测对象的各帧图像的各个像素点的背景/前景检测，即可完成对作为背景检测对象的J帧图像的背景检测。

由本发明背景检测方法的上述步骤可见，协方差算法以及坐标变换运算的总运算量基本与codebook背景建模检测法中所用算法的运算量相当，使得本发明背景检测方法基本保持了与codebook背景建模检测法相当的运算效率，因此依然具有良好的实时性和鲁棒性。在不同的应用中，视频中需要进行背景检测的图像帧数、帧序有所不同，但对于视频中作为背景图像的任意帧图像，均可按照上述步骤来完成背景检测。例如，若要对视频中21～50帧图像进行背景检测，则在本发明方法背景检测阶段的步骤e)～f)中，将视频的第21～50帧图像作为背景检测对象进行背景检测操作即可；若要对视频的全部图像进行背景检测，则在本发明方法背景检测阶段的步骤e)～f)中，将视频的1～L帧图像作为背景检测对象进行背景检测操作即可，L表示视频的总帧数。

如果同一视频中存在多个背景图像互不相同的视频片段，则可以利用视频片段中新的背景图像作为新的训练样本集按本发明方法背景训练阶段的步骤a)～d)重新进行背景训练(即针对新背景的训练样本更新)，再按本发明方法的背景检测阶段的步骤e)～f)对新背景图像所在的视频片段进行背景检测；由此分别对各个背景图像互不相同的视频片段进行背景检测。这一应用方法在一定程度上拓展本发明背景检测方法的应用范围。

三、实验实施例。

下面结合附图和实施例对本发明的技术方案作进一步的说明。

为了验证本发明基于RGB分量分布的视频图像背景检测方法的实际效果，在Matlab2010b编程工具下实现了本发明方法，实验的硬件环境为Intel Pentium(R)4处理器，处理器主频3.0GHz，2.0GB内存。为了能够体现本发明方法在复杂纹理背景条件下的优势，选择了一段自拍视频中的采样图像作为背景检测对象，其图像分辨率为120(行)×160(列)，该自拍摄视频的背景图像中包含了天空、纹理复杂的树丛和地板、以及部分建筑物等背景物，在该自拍视频的2800多帧图像中，含有背景图像386帧，其余的图像在背景前方都有活动的人物前景。在该实验中，分别采用了本发明基于RGB分量分布的视频图像背景检测方法(下文中简称为本发明方法)、codebook背景建模检测法(下文中简称为codebook方法)和混合高斯背景建模检测法(下文中简称为MOG方法)分别对该自拍摄视频中采样图像进行背景检测，均选取Wallflower视频中的80帧背景图像作为训练样本集，本发明方法中取参数n＝3，codebook方法中取控制参数α＝0.4、β＝1.5，背景边界半径ξ＝100(具体算法参见文献“Kim，K.，et al.，Real-time foreground-background segmentation usingcodebook model.Real-time imaging，2005.11(3)：p.172-185”等)，MOG方法中取混合高斯分布参数k＝3、学习率α＝0.005(具体算法参见文献“Wren，C.R.，et al.Pfinder：Real-timetracking of the human body.IEEE Transactions on Pattern Analysis and Machine Intelligence，1997.19(7)：p.780-785.”等)，然后将检测出的背景像素点的RGB分量值设为[0，0，0](黑色)、前景像素点的RGB分量值设为[255，255，255](白色)，以示区分，背景检测结果情况如图3所示。图3中，3A图为自拍摄视频中采样图像原图，采样图像原图中的两个人物为前景；3B图为实际的背景、前景区分对比图，3C图为本发明方法的背景检测区分对比图，3D图为codebook方法的背景检测区分对比图，3E为MOG方法的背景检测区分对比图。通过图3中3B、3C、3D、3E图相对比可见，与实际的背景、前景区分对比图相比较而言，MOG方法和codebook方法进行背景检测的噪点相对较多(这里所述的噪点，是指被误检测为前景的背景像素点，或者被误检测为背景的前景像素点)，而且噪点分布杂乱，在实际应用中杂乱的噪点分布很容易影响背景识别与前景捕获的准确性；本发明方法背景检测的噪点相较于MOG方法和codebook方法而言都少很多，检测结果更加接近于实际的背景、前景区分情况，其背景检测精度相比于现有技术已得到明显的提高，如果提取为训练样本集的图像帧数更多，则检测准确性可以更高、噪点更少；在由本发明方法得到的图3中3C图所示的背景检测结果中，虽然依然存在部分噪点，但噪点都主要分布在前景像素点的附近，完全能够满足实际应用中视频图像背景识别和前景捕获的实用准确性要求，特别适用于监控视频摘要跟踪技术、人脸识别技术等需要进行背景识别和前景捕获的实际应用技术当中。

最后说明的是，以上实施例仅用以说明本发明的技术方案而非限制，尽管参照较佳实施例对本发明进行了详细说明，本领域的普通技术人员应当理解，可以对本发明的技术方案进行修改或者等同替换，而不脱离本发明技术方案的宗旨和范围，其均应涵盖在本发明的权利要求范围当中。

Claims

1.基于RGB分量分布的视频图像背景检测方法，其特征在于，包括如下步骤：

b)分别求取训练样本集中图像各像素点的RGB均值矩阵：

{\overset{&OverBar;}{X}}_{k} = \frac{1}{F} Σ_{i = 1}^{F} X_{k} (i), k = 1,2, . . ., (M \times N);

表示训练样本集中图像第k个像素点的RGB均值矩阵；X_k(i)＝[R_k(i)，G_k(i)，B_k(i)]表示训练样本集中第i帧图像第k个像素点的RGB矩阵，1≤i≤F，R_k(i)、G_k(i)和B_k(i)分别表示训练样本集中第i帧图像第k个像素点的红色分量值、绿色分量值和蓝色分量值；

c)分别求取训练样本集中图像各像素点的RGB协方差矩阵：

cov (X_{k}) = \frac{1}{F - 1} Σ_{i = 1}^{F} [(X_{k} (i) - {\overset{&OverBar;}{X}}_{k}) \times {(X_{k} (i) - {\overset{&OverBar;}{X}}_{k})}^{T}], k = 1,2, . . ., (M \times N);

{TH}_{k, 1} = n \times \sqrt{γ_{1} (X_{k})},

{TH}_{k, 2} = n \times \sqrt{γ_{2} (X_{k})},

{TH}_{k, 3} = n \times \sqrt{γ_{3} (X_{k})};

k＝1，2，…，(M×N)；

其中，TH_k，1、TH_k，2、TH_k，3分别表示视频图像第k个像素点对应的三个背景边界阈值；参数n为常数，取值范围为1～5；

X_{k}^{pro} (j) = [\begin{matrix} x_{k, 1}^{pro} (j) & 0 & 0 \\ 0 & x_{k, 2}^{pro} (j) & 0 \\ 0 & 0 & x_{k, 3}^{pro} (j) \end{matrix}] = {U_{k}}^{T} \times X_{k} (j) = [\begin{matrix} u_{1} \\ u_{2} \\ u_{3} \end{matrix}] \times [\begin{matrix} R_{k} (j) & G_{k} (j) & B_{k} (j) \end{matrix}];

k＝1，2，…，(M×N)；

其中，

f)对于视频中作为背景检测对象的J帧图像，若同时满足：

x_{k, 1}^{pro} (j) \leq {TH}_{k, 1},

x_{k, 2}^{pro} (j) \leq {TH}_{k, 2},

且

x_{k, 3}^{pro} (j) \leq {TH}_{k, 3};