CN101482923B

CN101482923B - 视频监控中人体目标的检测与性别识别方法

Info

Publication number: CN101482923B
Application number: CN2009100136509A
Authority: CN
Inventors: 刘云; 王传旭; 张祥光
Original assignee: 刘云
Current assignee: Qingdao University of Science and Technology
Priority date: 2009-01-19
Filing date: 2009-01-19
Publication date: 2012-05-23
Anticipated expiration: 2029-01-19
Also published as: CN101482923A

Abstract

本发明公开了一种视频监控中人体目标的检测与性别识别方法，包括：a、根据采集到的图片数据库在HSV彩色空间建立前景皮肤和背景的直方图；b、利用贝叶斯分类器对输入视频的每个像素点进行前景和背景的判决，进而分割出其中的人体皮肤区域；c、利用人体肤色的生物特征在复合彩色空间(E，R/G，H)下对前景皮肤和背景进行再次分割，以消除背景中肤色相近色物体的干扰，获得准确的人体目标；d、根据获得的人体目标中的人脸图像利用模式识别方法进行性别识别。本发明将人的面部皮肤特征作为人体的主要标识，对存在于视频图像中的人体目标进行检测，从而克服了光照变化和背景相近色干扰所产生的不利影响，提高了目标性别的正确识别。

Description

视频监控中人体目标的检测与性别识别方法

技术领域

本发明属于图像信息处理技术领域，具体地说，是涉及一种在视频监控图像中对人脸进行自动检测并利用模式识别方法对检查到的人脸进行性别识别的技术。

背景技术

人脸是人类的重要生物特征，可以反映了一个人的身份、年龄、情感和性别等重要信息。而性别分类在心理学领域和机器视觉领域得到了广泛关注，早期的计算机视觉性别分类大都是基于神经网络的机器学习方法，包括Gollomb等的两层神经元网络SEXNET，在30×30的人脸图片上进行性别判别，在90张图片(男女各45张)中性别正确识别率达到91.9％；Edelman等用人脸的3个不同部分(整个人脸、人脸上半部分和下半部分)分别训练，采用线性神经元网络进行分类，并对3种情况的分类性能做了分析比较；Tamura等利用了与Gollomb相近的技术，采用多层神经网络对不同分辨率的人脸进行了分类分析，在8×8的超低分辨率下可以得到平均7％的错误率。以上基于神经网络的性别识别方法，需要的人脸训练样本数量比较大，且泛化能力差；另外，神经网络的训练速度比较慢，难以在视频监控中实时实现人脸的性别识别。近年，BabackMoghaddam和M.H.Yang首次将支持向量机方法引入性别判别领域，采用像素特征并与RBF网络、FLD、最邻近分类器等经典分类方法做了比较，用FERET人脸库做了分类实验，证明了支持向量机(SVM)分类的有效性。

但是，上述这些方法大都只能对静态人脸图像进行性别识别，而视频监控场景受到光照变化的影响以及背景相近色的干扰，因而对人脸的检测和性别的识别带来很大挑战。

发明内容

本发明针对现有人体目标检测方法中普遍存在的“光照变化”和“背景相近色干扰”两个棘手问题，提供了一种全新的人体目标检测方法，利用人的面部皮肤特征作为人体的主要标识，来对存在于视频图像中的人体目标进行检测，从而实现对人脸的可靠分割；进而针对获得的人脸图像进行性别分类，从而实现了在视频监控中人体目标的性别识别。

为解决上述技术问题，本发明采用以下技术方案予以实现：

一种视频监控中人体目标的检测与性别识别方法，包括以下步骤：

a、根据采集到的图片数据库在HSV彩色空间建立前景皮肤和背景的直方图；

b、利用贝叶斯分类器对输入视频的每个像素点进行前景和背景的判决，进而分割出其中的人体皮肤区域；

c、利用人体肤色的生物特征在复合彩色空间(E，R/G，H)下对前景皮肤和背景进行再次分割，以消除背景中肤色相近色物体的干扰，获得准确的人体目标；

d、根据获得的人体目标中的人脸图像利用模式识别方法进行性别识别。

其中，在所述步骤a中，当光照发生剧烈变化时，采用三维仿射变换对皮肤分布区域的帧间变化进行建模，通过三维仿射变换公式预测出当前帧中皮肤区域在HSV坐标系中的分布区域，进而统计出当前帧中前景皮肤和背景的直方图。

进一步的，所述三维仿射变换所需的8个参量采用线性组合预测模型进行预测；其中，所述线性组合预测模型采用对两个或者多个现有的预测模型进行线性组合的方法来构建。

优选的，所述线性组合预测模型采用维纳一步预测模型和二阶马尔科夫预测模型组成。

其中，在所述线性组合预测模型中，采用平方和误差为精度综合评价指标来确定所述维纳一步预测模型和二阶马尔科夫预测模型的最优组合权重，即加权系数，以构建出所述的线性组合预测模型。

又进一步的，在对前景皮肤直方图进行更新时，通过所述线性组合预测模型预测得到第t+1时刻输入帧的前景皮肤区域在HSV彩色空间分布的8个参数向量后，首先利用所述的三维仿射变换和直方图统计求出第t+1时刻输入帧的前景皮肤的预测直方图，然后利用t时刻前景皮肤的直方图和所述预测直方图的加权平均值，求出第t+1时刻输入帧的前景皮肤的直方图。

而对于背景直方图的更新，则采用过去两帧的背景直方图的加权平均得到当前帧的背景直方图分布。

再进一步的，在所述步骤c中，利用人体肤色中的红色分量占据主导位置的这一生物特性，在复合彩色空间(E，R/G，H)下建立空间模型，利用参数阈值：E＞13.4224、R/G＜1.7602、H＜23.89对前景皮肤和背景进行再次分割，以消除背景中肤色相近色物体的干扰；其中，所述H分量来自(H，S，V)空间，表示色度；R/G是(R，G，B)空间中R和G分量的比值；E分量来自(Y，E，S)空间，表示色度，且E＝0.5*(red-green)。

更进一步的，在所述步骤c和d之间还包括步骤c1：

c1、将经过再次分割后的图像输入形态学滤波器，进而利用邻域相关性特点将人脸修复成完整图像。

然后，将通过所述形态学滤波器产生的人脸图像进行尺度规范化，进而利用训练好的支持向量机对人脸图像的性别进行识别。

与现有技术相比，本发明的优点和积极效果是：本发明将人的面部皮肤特征作为人体的主要标识，对存在于视频图像中的人体目标进行检测，进而克服了光照变化和背景相近色干扰对人体识别所造成的不利影响，提高了在视频监控系统中人体目标的性别识别。

结合附图阅读本发明实施方式的详细描述后，本发明的其他特点和优点将变得更加清楚。

附图说明

图1是发明所提出的视频监控中人体目标的检测与性别识别方法的一种实施例的结构示意图。

具体实施方式

下面结合附图和具体实施方式对本发明作进一步详细地说明。

在连续的视频图像序列中，人体目标的运动情况是随机的，即有时运动有时静止，基于运动特征(如高斯混合模型方法、背景差分法等)分割人体目标的方法，当人体运动很缓慢或者静止的时候，就会变得无效。而皮肤颜色是人体表面最为显著的特征之一，不依赖于细节特征，具有较高的稳定性且与大多数背景物体的颜色相区别。因此，采用基于人体肤色特征的人体目标分割方法，即使在分割、预测和跟踪过程中光照变化较大时，这种方法也能对皮肤进行很可靠的分割。

本发明所提出的人体目标检测方法，其设计思路是：借助采集到的图片数据库在HSV彩色空间建立初始的前景皮肤和背景的直方图，进而求出各类概率值。在光照基本不发生变化时，利用Bayes分类器对输入视频的每个像素点进行前景和背景的判决，进而分割出其中的人体皮肤区域。当光照发生剧烈变化时，前景皮肤和背景的直方图分布会随之变化，因此，分割之前应该对当前帧的直方图分布进行重新估计。为保证光照变化条件下的分割精度，假设每帧肤色区域像素在HSV彩色空间的分布构成相对集中的“点云”三维几何体，光照变化时每帧“点云”三维几何体在HSV空间位置的变化都可以通过平移、缩放和旋转来参数化，因而可用三维仿射变换对皮肤分布区域的帧间变化进行建模(假设皮肤区域的变化是整体变化，不考虑局部的变形)。在一定长度的观察窗内，首先，采用维纳一步预测模型和二阶马尔科夫预测模型组成的线性组合预测模型来对三维仿射变换所需的8个参量进行预测；其次，通过三维仿射变换公式预测出当前帧中皮肤区域在HSV坐标系中的分布区域，进而可统计出当前帧中前景皮肤和背景的直方图分布。然后，再利用Bayes分类器对当前帧进行皮肤区域的分割，以保证光照变化时人体目标分割算法的鲁棒性；最后，为了克服复杂背景中的肤色相近色物体的干扰，利用人体肤色生物特征并结合形态学滤波器，可有效克服初分割结果中大片相近色的干扰，从而得到理想的人体目标。

在获得了准确的人体目标后，根据检测到的人脸图像利用模式识别方法便可以进行性别识别。

下面以一个具体的实施例来详细阐述所述视频监控中人体目标的检测与性别识别方法的具体实现过程。

实施例一，在本实施例中，利用视频监控系统获取连续的视频图像序列，以建立起图像数据库，进而调用如图1所示的人体目标检测与性别识别方法来获得待检测目标的性别。下面详细描述所述人体目标检测与性别识别方法的具体执行步骤。

第一步，在所述视频图像序列中读取一帧图像数据。在本实施例中，为了保证检测程序能够循环运行，这里定义为读取下一帧图像数据。

第二步，利用贝叶斯分类器进行肤色检测。

基于像素级的人体肤色贝叶斯分类检测原理，是根据当前帧的肤色区域与背景区域(非肤色区域)的颜色直方图分布，分别计算某一像素属于肤色区域和非肤色区域的条件概率来进行分类的。该统计分类器的关键是计算出当前待分割帧的肤色区域与背景区域的颜色分布直方图。

为了获得所述的颜色分布直方图，本实施例采用三维仿射变换对皮肤分布区域的帧间变化进行建模，以预测当前待分割帧的颜色直方图分布。

通过视频监控系统采集到的视频图像一般在RGB颜色空间，颜色分辨率为256×256×256。为了减少运算量，在保证精度的条件下，可以采用32×32×32颜色分辨率来计算直方图的分布。得到的结果显示：该分辨率在分割中不仅能保证分辨率的要求，而且还会降低运算量。另外，低维直方图的优势主要是需要较少的训练像素，倘若估计256×256×256的直方图，则需要多出512倍的训练数据。

统计每个直方图条中某一颜色(rgb)像素的数目以及前景皮肤和背景的像素的总数，可以计算得到各类概率密度，记为：p(fg)、p(bg)、P(rgb|fg)和P(rgb|bg)。其中，fg代表前景，bg代表背景，rgb为像素颜色，rgb∈R³。考查皮肤颜色分布的不同表现，可以推断出皮肤颜色分布的一些结构特点，即皮肤颜色在彩色空间分布很集中地占据一个紧凑的区域。近年来，在皮肤物理外观上的研究表明，皮肤反射区直接紧密地与光照相关，而且试验证明：当光照强度没有剧烈变化时，皮肤颜色分布变化是平滑的，每一帧皮肤颜色的分布在彩色空间中，都仅占某一小部分区域，因此，在背景光照变化的环境下，可以通过跟踪那一小部分区域的轨迹变化来表征相应的皮肤颜色变化。

为了模型化和预测这种变化，需要假设在彩色空间皮肤颜色的分布所经历的运动类型。这里假设肤色分布作为整体变化，即不能有任何局部的变形，这类似于假设全局的光照在图像的所有皮肤片上有均匀的表现。皮肤颜色的分布区域上HSV(hue、saturation、value，即色相、饱和度和亮度)参数随每帧时间间隔非线性平滑改变。为了进一步简化预测模型，限定该区域仅发生最重要的三种仿射转变：平移、旋转和缩放。

每帧皮肤区域各像素点的色彩坐标(h，s，v)在HSV彩色空间组成一个紧凑的三维几何体(离散的)，相邻两帧皮肤区域的这种三维几何体的演变(由于光照变化和目标运动引起)可以借助仿射变换的旋转、平移、缩放过程来描述，该仿射变换需要8个参数X＝[T_H，T_S，T_V，S_H，S_S，S_V，θ，φ]^T来刻画，其中，T_i表示平移；S_i表示旋转；θ，φ表示几何体旋转的角度。

为了获得所述三维仿射变换所需要的8个参数，通常采用的方法是通过选择一种现有的预测模型来对该仿射变换所需的8个参量进行预测。由于没有任何一种预测方法或预测模型会在各种情况下都比其他方法或模型表现得更好。因此，为了实时地估计和预测肤色分布状态，需要对其建立一个全新的预测模型。对复杂系统的预测仅仅应用一种预测方法，往往很难进行精确而可靠的预测。如果对同一预测问题采用各种不同的预测方法并加以适当的组合，则可以较充分地利用各种信息，达到提高预测精度的目的。因此，本实施例采用对现有的两个或者多个预测模型进行线性组合的方法来预测当前待预测帧的仿射变换所需要的8个参数。

本实施例以采用维纳(Weiner)一步预测模型和二阶马尔科夫(Markov)预测模型为例来组成线性组合预测模型，以预测下一帧的8个参数。为了达到更好的预测效果，基于平方和误差最小原理将这两种预测算法进行线性组合，以构造一种新的线性组合预测模型。

下面对维纳一步预测模型和二阶马尔科夫预测模型以及采用这两种预测模型所构造出的线性组合预测模型分别进行详细描述。

1、维纳一步预测模型

视频图像皮肤区域在HSV彩色空间随光照的帧间变化是符合布朗运动规则的，而布朗漫步运动可用稳态高斯过程描述。因此，本实施例选用维纳一步预测方法来预测当前待预测帧的仿射变换所需要的8个参数。将仿射变换中8维列向量X_n的任一分量表示为x(n)，可通过维纳一步预测模型预测x(n)随光照的变化。维纳一步预测的原理是由过去p个观测数据x(n-1)，x(n-2)，...，x(n-p)的某种线性组合，来预测当前数据x(n)，用公式表示为：

\hat{x} (n) = - Σ_{k - 1}^{p} a_{pk} x (n - k) - - - (1)

如果令a_pk＝-h(k)，则

\hat{x} (n) = Σ_{k = 1}^{p} h (k) x (n - k) = x (n) * h (n) .

由此可见，维纳一步预测器对应一个长度为p的FIR滤波器，其单位脉冲响应即为h(n)。

误差函数e(n)表达式为：

e (n) = x (n) - \hat{x} (n) = x (n) + Σ_{k = 1}^{p} a_{pk} x (n - k) = Σ_{k = 0}^{p} a_{pk} x (n - k)

a_p0＝1 (2)

均方误差E[e²]为：

E [e^{2}] = E {[x (n) - \hat{x} (n)]}^{2} = E {[x (n) + Σ_{k = 1}^{p} a_{pk} x (n - k)]}^{2} - - - (3)

为求出使E[e²(n)]最小的{a_pk}，k＝1，2，…，p，将上式对各a_pk求偏导数，并令其等于0，得

\frac{&PartialD; E [e^{2}]}{&PartialD; a_{pl}} = 2 E [e \frac{&PartialD; e}{&PartialD; a_{pl}}] = 2 E [ex (n - l)] = 0,

l＝1，2，…，p (4)

整理可得：

此式称为Yule-walker方程，它反映了相关函数与最佳单位脉冲响应之间的关系。

Yule-walker方程的解就是维纳预测器的系数，也就是FIR数字滤波器的单位脉冲响应h(n)，此时维纳预测器的输出是信号的最佳一步预测。其中，Yule-walker方程可通过Levinson算法求解。

2、二阶Markov预测模型

记X_n为已知的第n帧的8维列向量X＝[T_H，T_S，T_V，S_H，S_S，S_V，θ，φ]^T，X为X_n的期望值，X_n+1为要预测的第n+1帧的8维列向量，A₀、A₁是8×8矩阵，B为8×1矩阵，ω_n为随机部分。二阶马尔科夫预测模型用公式表示为：

X_n+1＝A₀X_n-1+A₁X_n+(1-A₀-A₁)X+Bω_n (6)

二阶马尔科夫预测模型共有三个参数A₀，A₁和B。矩阵A₀，A₁表示帧间的相关性，决定了运动模型的确定部分；而B决定随机部分，随机部分通过标准高斯分布来模型化，它通过加权系数B加入到X_n+1中。所以，可将公式(6)变形为：

(X_n+1-A₀X_n-1-A₁X_n)～N(0，|B|²)。 (7)

采用MLE算法估计这些参数，并且在估计过程中并不直接求解B，而是估计C＝BB^T。在长度为m帧的观察窗内，前m-2帧用来估计参数A₀、A₁和B，第m-1和第m帧与要预测的第m+1帧相关性强，用来预测第m+1帧的8维参数向量X_m+1。前m-2帧的仿射变换参数向量(X_n+1-A₀X_n-1-A₁X_n)的联合概率密度函数为：

L (X_{1}, \cdot \cdot \cdot, X_{n} | A_{0}, A_{1}, B) = - \frac{1}{2} Σ_{n = 1}^{m - 2} | B^{- 1} (X_{n + 1} - A_{0} X_{n - 1} - A_{1} X_{n}) |^{2} - (m - 2) \log | B | - - - (8)

将上式分别对A₀，A₁求偏导，并令偏导为零，得出下面的等式：

其中，

S_{ij} = Σ_{n = 1}^{m - 2} X_{(n - 1) + i} X_{(n - 1) + j}^{T}

i，j＝0，1，2

(10)

从而求出A₀，A₁。

将公式(9)对B求偏导，令偏导为零，并将求出的A₀，A₁代入得：

其中，

Z(A₀，A₁)＝S₂₂+A₁S₁₁A₁ ^T+A₀S₀₀A₀ ^T-S₂₁A₁ ^T

-S₂₀A₀ ^T+A₁S₁₀A₀ ^T-A₁S₁₂-A₀S₀₂+A₀S₀₁A₁ (12)

如果将三维仿射变换的8个参数视为独立的变量，则估计动态模型的参数仅需要较少的观察帧(m)。本系统至少需要4帧，但是，帧数越多估计得越好。在本实施例中，优选取8到30帧效果较好。最后将前m-2帧估计得到的参数A₀、A₁、B和第m-1、m帧的两个向量X_m-1、X_m代入公式(6)，即可计算出要预测的第m+1帧的8维参数向量X_m+1。

3、线性组合预测模型

建立线性组合预测模型的一个重要步骤是对组合权重进行优化，其目的是通过选择组合权重向量，使线性组合预测模型的精度满足预测对象的要求。常见的预测模型精度综合评价指标有：平方和误差(SSE)、平均误差(MAE)、均方误差(MSE)、平均百分比误差(MAPE)、均方百分比误差(MSPE)等。本实施例从线性组合预测模型绝对误差序列出发，根据统计学思想对线性组合预测模型进行精度分析，以选择合适的组合权重。

用f_t，i i＝1，2表示组合中的t时刻第i个预测模型，则线性组合预测模型可以表示为f_t＝k₁f_t，1+k₂f_t，2，其误差为

e_{t} = Σ_{i = 1}^{2} k_{i} e_{t, i};

其中，k_i为第i种预测模型的组合权重。设t时刻第i个预测模型的预测绝对误差为e_t，i＝f_t，i-y_t(i＝1，2)。线性组合预测模型f的精度信息包含在绝对误差序列e₁，e₂中。

为使线性组合预测模型绝对误差序列分布为优化模型，本实施例以平方和误差(SSE)为精度综合评价指标，观察窗长度为N，即

SSE = \frac{1}{N} Σ_{t = 1}^{N} e_{t}^{2} = \frac{1}{N} Σ_{t = 1}^{N} {[Σ_{i = 1}^{2} k_{i} e_{t, i}]}^{2} = \frac{1}{N} Σ_{t = 1}^{N} [[k_{1} k_{2}] [\begin{matrix} e_{t, 1} \\ e_{t, 2} \end{matrix}] [e_{t, 1} e_{t, 2}] [\begin{matrix} k_{1} \\ k_{2} \end{matrix}]]

= \frac{1}{N} Σ_{t = 1}^{N} [[k_{1} k_{2}] [\begin{matrix} e_{t, 1}^{2} & e_{t, 1} e_{t, 2} \\ e_{t, 1} e_{t, 2} & e_{t, 2}^{2} \end{matrix}] [\begin{matrix} k_{1} \\ k_{2} \end{matrix}]] = \frac{1}{N} Σ_{t = 1}^{N} [[k_{1} k_{2}] A_{m} [\begin{matrix} k_{1} \\ k_{2} \end{matrix}]] = \frac{1}{N} K^{T} A_{m} K - - - (13)

满足平方和误差(SSE)的

K = [\begin{matrix} k_{1} \\ k_{2} \end{matrix}]

即为线性组合预测模型的最优组合权重，即通过求解下式：

\min (SSE) = \frac{1}{N} \min (K^{T} A_{m} K)

st \{\begin{matrix} Σ_{i = 1}^{2} k_{i} = 1 \\ k_{i} &GreaterEqual; 0 & i = 1,2 \end{matrix} - - - (14)

便可以得到

K = [\begin{matrix} k_{1} \\ k_{2} \end{matrix}] .

由于A_m为对称正定矩阵，可进行Cholesky分解A_m＝BB^T，其中，B为下三角矩阵，公式(13)可写为

\min (SSE) = \frac{1}{N} \min (K^{T} B^{T} BK) = \frac{1}{N} \min (| | BK | |_{2}^{2}) .

可见最优解K即为满足一定条件的方程BK＝0的最小二乘解，即K∈B{1，4}，B{1，4}表示B的广义{1，4}-逆。

根据以上的分析，如果对每帧的单项预测模型进行无偏性调整，并不影响组合权重向量的计算。为了叙述方便，用est_x_LPC表示维纳一步预测模型得到的预测信号，est_x_MLE表示二阶马尔可夫预测模型得到的预测信号。无偏性调整的过程可以用信号的值减去信号的均值，利用mean()表示求解信号均值的函数，则

e_LPC＝x-est_x_LPC；

e_MLE＝x-est_x_MLE；

f1＝e_LPC-mean(e_LPC)；

f2＝e_MLE-mean(e_MLE)

显然，f₁和f₂代表无偏性调整后的误差。

根据式(14)研究如何求解组合权重向量。R_m为元素全为1的m维行向量，E可根据式(13)得到。具体到组合预测模型只用到了两种基本的预测模型，则

E = (\begin{matrix} f_{1} & f_{2} \end{matrix}) (\begin{matrix} f_{1} \\ f_{2} \end{matrix})

R_m＝R₂＝(1 1) (15)

组合权值的计算表示为：

W0＝(inv(E)*Rm′)/(Rm*inv(E)*Rm′)； (16)

其中，inv()返回一个矩阵的逆矩阵：

E^-1＝inv(E) (17)

此时，已经求出了加权系数W₀，线性组合预测模型的预测信号只需要由两种基本模型的预测信号线性加权求和即可得到：

est_x_LIN＝W₀(1)*est_x_LPC+W₀(2)*est_x_MLE。 (18)

第t+1时刻输入帧的前景皮肤区域在HSV彩色空间分布的8维参数向量X_n+1通过上述线性组合预测模型(18)预测得到后，利用三维仿射变换和直方图统计可求出该帧的预测直方图Prdct_H_h，s，v(t+1)。为考虑直方图的关联性，第t+1时刻输入帧分割的直方图应为当前帧和预测结果Prdct_H_h，s，v(t+1)的加权平均值：

H_h，s，v(t+1)＝(1-a_fg)H_h，s，v(t)+a_fg·prdct_H_h，s，v(t+1) (19)

a_fg在0到1之间取值，表示更新的速度。当a_fg＝0说明无适应，a_fg＝1说明直方图无记忆地全更新。严格来说，背景和皮肤颜色分布都要更新适应，但当摄像机固定不动或缓慢移动时，可以认为背景分布变化缓慢，因而认为背景分布的改变远小于前景分布的改变。这里只对前景颜色的变化预测，对背景直方图分布的更新是用过去两帧的背景直方图的加权平均得到：

H_{h，s，v_bg}(t+1)＝(1-a_bg)H_{h，s，v_bg}(t-1)+a_bgH_{h，s，v_bg}(t) (20)

最佳更新常数的选择一般通过经验得到，通过实验表明：对于半适应的系统，取a_fg＝0.2、a_fg＝0.10效果最好。

在获得了当前待分割帧的直方图分布后，统计每个直方图条中某一颜色(rgb)像素的数目以及前景皮肤和背景的像素的总数，可以计算得到各类概率密度：p(fg)、p(bg)、P(rgb|fg)和P(rgb|bg)，进而利用Bayes分类器对当前帧进行皮肤区域的分割。

下面具体阐述一下如何通过Bayes分类器来分割当前帧中的皮肤区域。

针对当前帧图像中任意一点像素的颜色rgb，通过上述颜色分布直方图得到的是条件概率P(rgb|fg)和P(rgb|bg)，而在皮肤分割时更关心的是P(fg|rgb)和P(bg|rgb)，利用贝叶斯公式得：

P (fg | rgb) = \frac{P (rgb | fg) \cdot P (fg)}{P (rgb | fg) \cdot P (fg) + P (rgb | bg) \cdot P (bg)} - - - (21)

P (bg | rgb) = \frac{P (rgb | bg) \cdot P (bg)}{P (rgb | fg) \cdot P (fg) + P (rgb | bg) \cdot P (bg)} - - - (22)

令P(fg|rgb)和P(bg|rgb)的比率称为分类界限K，是误分类的极限值，则

K < \frac{P (fg | rgb)}{P (bg | rgb)} = \frac{P (rgb | fg) P (fg)}{P (rgb | bg) P (bg)} - - - (23)

计算得：

K \times \frac{1 - P (fg)}{P (fg)} < \frac{P (rgb | fg)}{P (rgb | bg)} - - - (24)

其中，P(fg)是图像中任意像素可能为皮肤的概率。很明显，这个概率随图像不同而改变，但利用一个足够大的数据集就可得到一个最佳的概率。用整个图像数据库作为数据集，则P(fg)可以表示为：

P (fg) = \frac{N_{foreground}}{N_{foreground} + N_{background}} - - - (25)

其中，N_foreground是前景直方图中像素的总数，N_background是背景直方图中像素的总数。在基于人脸的视频监控系统中，一般要求P(fg)不小于0.08。极限K的选择应使正确分类达到至少85％，并且错误警报少于25％，根据大量实验获得：极限取K＝0.067。

上面所介绍的像素分类的结果是一个二进制的图像模板，当(24)式成立时，该像素位置判为1，与前景皮肤像素相对应；否则，判为0，与背景像素相对应。为了将噪声影响最小化，在二进制模板进入学习阶段前对其采用形态学滤波器进行滤波处理。

第三步，利用人体肤色的生物特性对图像进行再分割，并结合形态学滤波器消除相近色干扰，修复人脸图像。

在文献G.Gomez，M.Sanchez，and L.Enrique Sucar，“On Selectingan Appropriate Colour Space for Skin Detection”，”MICAI 2005，LNAI 2313，pp.69-78，2002.中，对Compaq数据库中12000个具有肤色和非肤色图像进行统计分析发现：人体肤色在彩色空间(R，G，B)中，具有更高成分的红色(Red)分量，尤其是R/G的比值更为突出，它明显地区别于非肤色区域。而且，该比值随光照不会发生明显的变化。文献中所揭示的图形数据显示肤色(R，G，B)分量之间的比值稳定在：1.1≤R/G≤3，1.0≤G/B≤1.3；而非肤色区域三个分量的比值关系一般为：0.8≤R/B≤12，0.8≤R/G≤1.4，0.5≤G/B≤1.7。可见，肤色区域的分布相对较集中，而非肤色区域的分布更广泛，具有更大的随机性。

通常情况下分割是在单独的肤色空间，如RGB，YCBCR，HSV等空间中，根据肤色聚类性设定合适的阈值来分割肤色。但是，单独在每个彩色空间下的分割都有其特定的局限性，上述在RGB空间虽然肤色与非肤色大致占据不同的区域，但它们仍有一部分重合，并且该空间对光照变化比较敏感。文献对常用的彩色空间HSV、YIQ、RGB-Y、YES、YUV、CMY、CIE、XYZ、GB等进行了分析比较后认为，没有一个空间能很好地将肤色和非肤色区域彻底分开，因而提出了一种组合彩色空间的概念，该三维空间的三个分量是互补的，它们的组合能够最大限度地将肤色和非肤色区域分开，即尽可能地减少两者的重叠区域，以便更好的分割肤色。

该文献提出的组合彩色空间为(E，R/G，H)，其中，E分量来自彩色空间(Y，E，S)；R/G是(R，G，B)空间中R和G分量的比值；H分量来自(H，S，V)空间。彩色空间(Y，E，S)各分量的含义如下：Y是亮度，E和S是色度空间，其中，E＝0.5*(red-green)；彩色空间(H，S，V)各分量的含义如下：分量H和S是色度，V是亮度。文献中给出了它们的取值范围，分别为：E＞13.4224，R/G＜1.7602，H＜23.89。其中，E和R/G两个分量充分考虑了人体肤色中的红色分量占据主导位置的这一生物特性，两个分量联合起来表明：20+green＜red＜1.7602*green。文献后面对H分量的取值做了进一步调整：-17.4545＜H＜26.6666，这样得到的彩色空间对室内和室外采集到的图像进行实验，肤色分割识别率分别为97.95％和93.74％。

总之，该文献所提出的组合彩色空间(E，R/G，H)比常见的任何单独彩色空间相比，具有将肤色和非肤色分离的特性。因此，在上述贝叶斯初分割的基础上，本实施例采用该文献所提出的方法，利用人体肤色的生物特征在复合彩色空间(E，R/G，H)下进行再分割，即建立E，R/G，H空间模型，利用前面提到的给定的参数阈值：E＞13.4224，R/G＜1.7602，-17.4545＜H＜26.6666，来进一步消除背景中肤色相近色物体的干扰。

利用文献所提出的方法对图像进行再分割后，可有效克服初分割结果中大片相近色的干扰，但是同时也会将原本属于皮肤区域部分的一些像素当作背景去除掉，使输出的人脸图像产生空洞。基于此，本实施例将经过再次分割后产生的图像输入形态学滤波器，利用邻域相关性特点将人脸修复成完整图像，并去除掉预留的背景像素。

第四步，检测通过所述形态学滤波器输出的皮肤图像中是否有人脸，若没有，则返回第一步；否则，执行下一步。

第五步，人脸定位与性别识别。

在获得了人脸的数据信息后，可以通过目前的多种模式识别方法来实现对性别的分类，比如基于神经网络的机器学习方法、最邻近分类器或者支持向量机SVM等。在本实施例中，优选采用SVM对人脸进行性别识别。

SVM是建立在SLT的VC维理论和结构风险最小化原理的基础上，根据有限的样本信息在模型的复杂性(即对特定训练样本的学习精度)和泛化能力(即无错误地识别任意样本的能力)之间寻找最佳折衷，以期获得最好的推广能力。SVM能够有效地避免经典学习方法中出现的过学习、欠学习以及陷入局部极小点等诸多问题。SVM将输入空间线性不可分问题，通过非线性变换转化为某个高维空间中的线性可分的问题，在高维的变换空间中寻找最优分类面，通过核函数巧妙的在输入空间实现高维空间中的内积运算实现分类，而且计算复杂度并没有增加，SVM是针对二分类问题的强分类器，而人脸性别分类问题是典型的二分类问题，因此，本实施例采用SVM作为性别判别器。

将检测到的人脸图像的尺寸进行规范化，定位出21×18的人脸图像，然后转变为每个向量的维数为378×1的向量。将这些特征向量送入训练好的支持向量机SVM，调用识别函数svm-predict，进而实现对人脸图像的性别测试。

所述识别函数svm-predict的输入为检测出的人脸区域经过插值下采样变为规格大小的人脸图像，即21×18的人脸图像，并将其展开为像素值的向量作为测试样本，即378×1的向量。此外，还需要将训练生成的支持向量机模型送入svm-predict函数。函数的输出为类别标号，如：+1代表男性，-1代表女性，此处的标号应当是与训练时规定的一致。对各种不同的视频图像进行人脸检测与性别识别，识别率比较如表1所示。

表1

本发明的人体目标检测方法将人的面部皮肤特征作为人体的主要标识，对存在于视频图像中的人体目标进行检测，从而克服了光照变化和背景相近色干扰所产生的不利影响，实现了在视频监控系统中人体目标的准确检测以及性别的正确识别。当然，上述说明并非是对本发明的限制，本发明也并不仅限于上述举例，本技术领域的普通技术人员在本发明的实质范围内所做出的变化、改型、添加或替换，也应属于本发明的保护范围。

Claims

1.一种视频监控中人体目标的检测与性别识别方法，包括以下步骤：

d、根据获得的人体目标中的人脸图像利用模式识别方法进行性别识别；

其中，在所述步骤a中，当光照发生剧烈变化时，采用三维仿射变换对皮肤分布区域的帧间变化进行建模，通过三维仿射变换公式预测出当前帧中皮肤区域在HSV坐标系中的分布区域，进而统计出当前帧中前景皮肤和背景的直方图；所述三维仿射变换所需的8个参数X＝[T_H，T_S，T_V，S_H，S_S，S_V，θ，φ]^T采用线性组合预测模型进行预测；所述线性组合预测模型是采用基于平方和误差最小原理将维纳一步预测模型和二阶马尔科夫预测模型进行线性组合构建的；其中，T_i表示平移；S_i表示旋转；θ，φ表示几何体旋转的角度。

2.根据权利要求1所述的视频监控中人体目标的检测与性别识别方法，其特征在于：通过所述线性组合预测模型预测得到第t+1时刻输入帧的前景皮肤区域在HSV彩色空间分布的8个参数后，首先利用所述的三维仿射变换和直方图统计求出第t+1时刻输入帧的前景皮肤的预测直方图，然后利用t时刻前景皮肤的直方图和所述预测直方图的加权平均值，求出第t+1时刻输入帧的前景皮肤的直方图。

3.根据权利要求1所述的视频监控中人体目标的检测与性别识别方法，其特征在于：采用过去两帧的背景直方图的加权平均得到当前帧的背景直方图分布。

4.根据权利要求1至3中任一项所述的视频监控中人体目标的检测与性别识别方法，其特征在于：在所述步骤c中，利用人体肤色中的红色分量占据主导位置的这一生物特性，在复合彩色空间(E，R/G，H)下建立空间模型，利用参数阈值：E＞13.4224、R/G＜1.7602、H＜23.89对前景皮肤和背景进行再次分割，以消除背景中肤色相近色物体的干扰；其中，所述H分量来自(H，S，V)空间，表示色度；R/G是(R，G，B)空间中R和G分量的比值；E分量来自(Y，E，S)空间，表示色度，且E＝0.5*(red-green)。

5.根据权利要求1至3中任一项所述的视频监控中人体目标的检测与性别识别方法，其特征在于：在所述步骤c和d之间还包括步骤c1：

6.根据权利要求5所述的视频监控中人体目标的检测与性别识别方法，其特征在于：将通过所述形态学滤波器产生的人脸图像进行尺度规范化，然后利用训练好的支持向量机对人脸图像的性别进行识别。