CN101539989A

CN101539989A - 基于人脸检测的错误阅读姿势检测方法

Info

Publication number: CN101539989A
Application number: CN200810085114A
Authority: CN
Inventors: 焦建彬; 叶齐祥; 范焱
Original assignee: University of Chinese Academy of Sciences
Current assignee: University of Chinese Academy of Sciences
Priority date: 2008-03-20
Filing date: 2008-03-20
Publication date: 2009-09-23

Abstract

本发明是一种基于人脸定位的错误阅读姿势检测识别方法。该方法首先采用结合基于结构和皮肤的人脸检测算法，获得正面、非正面以及部分遮挡的人脸检测结果，用多尺度的Meanshift算法对检测到的人脸进行跟踪；然后，基于勾股定理在人脸检测和跟踪的结果上估计测量值，如阅读距离、视角和阅读时间等；最后，用由人工神经网络分类器训练的错误阅读姿势模型，利用时间观察窗来进行识别。本发明使用了一种便利的错误阅读姿势检测方法，算法简单，节约资源，鲁棒性好。

Description

基于人脸检测的错误阅读姿势检测方法

技术领域

本发明是图像处理技术领域的方法，是一种基于统计模型和跟踪算法，通过人脸在图像中的尺度和位置信息，推断人体阅读姿势的计算方法，能够直接应用于近视防治、疲劳警告等领域。与传统技术相比，具有方便、简单的优势。

背景技术

随着个人计算机的普及，人们为工作，学习或娱乐在计算机屏幕上花越来越多的时间，导致近视、斜视等眼科疾病的快速增加。在计算机前的不正确姿势包括距离屏幕过近、斜视和长时间凝视屏幕等。

现有的针对人体姿态的预防近视系统主要采用以下几种方式：(1)使用红外传感器或光敏仪器。这种方式一般只能单方向地测量距离，而且范围有限，常常受书桌布局的影响，也无法在使用计算机的时候使用。(2)在使用者头部安装水平仪。显然这很容易引起使用者的不适，同时对纵向的距离无法测定。(3)使用支架强行固定使用者。而对于需要预防近视的主要人群——青少年来说，这同样也会使他们感到不舒适，而且容易对青少年的身体发育产生不利影响。同时，上述三种方式都无法对使用时间进行准确的测定。

计算机视觉技术在最近几年有突飞猛进的进展。在大部分计算机系统中摄像头已成为标准配件。本发明所需要的硬件设备仅仅是一台个人计算机和一个普通的摄像头，使用者无需添加任何设备，大大增强了使用的便利性。

发明内容

本发明目的在于提出一个运行于通用计算机系统的基于人脸检测的错误阅读姿势(IRPs)检测系统，该系统能够迅速对错误姿势发出警告。

本发明解决其技术问题所采用的步骤如下：1)人脸检测：用一种结合结构和皮肤特征的人脸检测算法获得鲁棒性的检测结果，包括正脸、侧脸以及部分遮挡的人脸。2)人脸跟踪：用具有尺度适应性的Meanshift算法对检测到的人脸进行跟踪。3)测量估计：利用勾股定理，在人脸检测和跟踪结果上获取诸如阅读距离、视角、阅读时间等信息。4)错误阅读姿势检测：用人工神经网络(ANN-Artificial Neuronal Network)分类器训练使用短暂观察窗口的错误阅读姿势模型，利用这些模型检测出错误阅读姿势。

本发明有益的效果是：首次将视觉技术应用到阅读姿势纠正中，提出一种新的从低级视觉线索检测到高级语义的方法。

附图说明

图1是本发明错误阅读姿势检测的流程图。

图2是不同方向和长宽比的人脸模板

图3是人脸屏幕与摄像机的几何关系图

图4是错误阅读姿势检测的ANN结构

具体实施方式

一、下面结合附图和实施例对本发明作进一步描述。

1.人脸检测

Harr特征被广泛用于人脸定位，本发明利用这种特征结合Adaboost分类器定位正面人脸。为了弥补上述人脸检测方法的不完整，还引入一个皮肤区域分析算法。

(1)首先建立一个皮肤高斯混合模型(GMM-Gaussian Mixture Model)来分割皮肤区域，这个模型用公式(1)来描述：

P (c) = Σ_{i = 1}^{k} λ_{i} G_{i}, - - - (1)

其中

Σ_{i = 1}^{k} λ_{i} = 1,

λ_i表示每个混合分量的权重，G_i表示第i个高斯模型。

(2)用人脸模板从分割结果中检测出人脸。

首先从灰度平均人脸(有多幅人脸灰度图象叠加后平均)中建立一个标准的人脸模板，这个模板由两个眼睛区域(R_E1，R_E2)和一个嘴部区域(R_M)组成。标准模板在-45°到45°内旋转，得到5个方向上的模板。在每个方向上，根据不同的长宽比例{1.2，1.1，1.0，0.9，0.8，0.7，0.6}得到7个模板。这样，我们就有了35个脸部模板，如图2所示。

分割皮肤区域前先用皮肤比例过滤，皮肤比例小于50％的区域都不予考虑。皮肤与非皮肤区域的几何匹配结果

2.人脸跟踪

人脸检测算法在人脸与屏幕距离适中时很有效，但当距离很近时就会失效。这时，应该采用人脸跟踪算法定位人脸区域。

首先计算HSV(hue，saturation，value)空间的色调值(H)，建立32位直方图来表示人脸区域，然后利用Meanshift算法在显示空间找到跟踪对象。具体步骤如下：

1)初始化所检测到的人脸位置为X₀＝(x₀，y₀)，并用F(x₀，y₀，x₀+w，y₀+h)来表示人脸区域。其中，w和h分别是人脸的宽度和长度。

2)在色调彩色空间提取直方图{p_b(X₀)}，其中b＝1，2，…，n表示目标，计算它与人脸模板差异的巴氏距离

其中

表示跟踪过程中的可能位置的直方图，X为所检测到的人脸区域。

3)用标准Meanshift优化算法，找到满足

的位置X(x，y)。

4)如果Meanshift的最后两次迭代的最终误差比阈值5.0个像素大，则跟踪失败。

5)假设人脸的改变总是较大的，为了跟踪到人脸位置f(x，y，x+w，y+h)，生成一个稍大的人脸区域f_s(x-δ，y-δ，x+w+δ，y+h+δ)。如果人脸改变比f_s小，则由步骤6)进行修改。

6)利用皮肤模型计算皮肤像素，归纳出皮肤图。重新分割皮肤像素，得到它们的边界框(x′，y′，x′+w′，y′+h′)，找到尺度改变。

3.错误阅读姿势检测

一般离摄像机越近，人脸就会越大。通过所检测到的人脸宽度，可以用线性函数估计人脸与摄像机的距离：

d^{t} = (f_{w}^{t} / f_{w}^{0}) \cdot d^{0}, - - - (2)

其中，d^t是人脸与摄像机的距离，d⁰是标准的人脸与摄像机距离，f_w ^t第t帧人脸区域的宽度，f_w ⁰是当前用户在标准人脸与摄像机距离下的人脸区域宽度。

人脸到屏幕距离(阅读距离)可以用公式(3)计算得到：

u^t＝((d^t)²-(s^t)²)^1/2， (3)

其中，s^t是从人脸中心到摄像机的投影距离。设c^t是人脸中心到屏幕中心的投影距离。s_I ^t和c_I ^t分别是图像中人脸中心到摄像机的距离和人脸中心到屏幕中心的距离，如附图3，则通过公式(4)可以计算它们的关系：

s^{t} / s_{I}^{t} = c^{t} / c_{I}^{t} = c^{0} / c_{I}^{0}, - - - (4)

由c^t和u^t可以计算出视角θ^t

θ^t＝|arctan(c^t/u^t)|。(5)

4.错误阅读姿势的神经网络(ANN)模型

根据计算公式，可以得到错误阅读姿势的ANN模型。本系统中使用3层ANN学习方法训练检测模型。每个视频帧可以表示为一个三维向量

该向量的值与标准向量

的比值在范围[0.0，0.1]内。每一个观察帧中都计算一个向量形成ANN的输入节点，因此ANN需要个观察向量构造一个3N维的特征。

如图4所示，本系统的ANN可以用100-200个样本训练，训练中，采用Sigmod函数作为网络层间的转换函数。其中，判别函数可用公式(6)表示。

R_{h} (m) = Q (Σ_{j = 1}^{H} w_{hj} \cdot Q (Σ_{i = 1}^{N} w_{ji} m_{i} + w_{j 0}) + w_{h 0}), - - - (6)

其中，w_hj表示神经网络中h结点到下一层的j结点之间的全值，w_ji含义类似。

二、性能说明

定义标准阅读距离U为0.75m，视角θ为π/2，T持续时间为1小时(视频帧数约为90,000帧)。错误阅读姿势检测中，阅读距离、视角、时间的检测误差分别为12.4％，18.9％，2.5％。

我们对10人以上的超过300种错误阅读姿势进行了检测，测试环境包括不同光照条件、复杂背景、多种阅读姿势等。结果如下表所示(SRD：short readingdistance；BVG：biased view angle；LRT：long reading time)。

表-1

平均识别率为87％，误报率(ERR-Error Report Rate)是3.6％。在实际应用中，这个指标已经足够高。由此说明了此方法在检测中的可行性和优势。

Claims

1.一种基于人脸检测的阅读姿势检测方法。该方法包括如下步骤：

步骤1：用一种结合结构和皮肤特征的人脸检测算法获得鲁棒性的检测结果，包括正脸、侧脸以及部分遮挡的人脸图像。

步骤2：用具有尺度适应性的Meanshift算法对检测到的人脸进行跟踪。

步骤3：利用勾股定理，在之前获得的人脸检测和跟踪结果上测量获得诸如阅读距离、视角、阅读时间等信息。

步骤4：利用已有的错误阅读姿势模型，从实时数据中检测出是否有错误的阅读姿势。

2.根据权利要求1所述的基于人脸检测的阅读姿势纠正方法，本专利的特征在于步骤1中人脸检测采用的Harr特征与皮肤模型相结合的方法。

3.根据权利要求1所述一种基于人脸检测的阅读姿势纠正方法，其特征在于，用于皮肤区域特征匹配的人脸模板有两个眼睛区域和一个嘴部区域组成。其标准模板在-45度到45度内旋转，得到5个方向上的模板。在每个方向上，根据不同的长宽比例{1.2，1.1，1.0，0.9，0.8，0.7，0.6}得到7个模板，共计35个模板。

4.根据权利要求1所述一种基于人脸检测的阅读姿势纠正方法，其特征在于，人脸跟踪采用的Meanshift算法是基于颜色直方图来定位人脸区域的。其步骤是：

1)初始化检测到的人脸位置为X₀＝(x₀，y₀)，这里人脸区域为F(x₀，y₀，x₀+w，y₀+h)，这里，w和h分别是人脸的宽度和长度。

2)在色调彩色空间提取直方图{p_b(X₀)}b＝1，2，…，n表示目标，计算它与人脸模板差异的巴氏距离，表示为公式(1)

ρ (X) &equiv; ρ [ρ (X_{0}), \hat{q} (X)] = Σ_{b = 1}^{n} \sqrt{p_{b} (X_{0}) \hat{q_{b}} (X)} - - - (1)

3)用标准Meanshift优化算法，找到满足

的位置X(x，y)。

5)假设人脸的改变总是较大的，为了跟踪到人脸位置f(x，y，x+w，y+h)，生成一个稍大的人脸区域f_s(x-δ，y-δ，x+w+δ，y+h+δ)。如果人脸改变比f小，则有步骤6)进行修改。

5.根据权利要求1所述一种基于人脸检测的阅读姿势纠正方法，其特征在于，在每个视频帧提取3维向量

作为训练错误阅读姿势模型的3层人工神经网络的一个入口，也即是：ANN需要一个3N维的特征m。

6.根据权利要求1所述一种基于人脸检测的阅读姿势纠正方法，其特征在于，利用ANN对人脸模板识别时相邻层之间的转移函数Q采用Sigmod函数。判别函数描述为：

R_{h} (m) = Q (Σ_{j = 1}^{H} w_{hj} \cdot Q (Σ_{i = 1}^{N} w_{ji} m_{i} + w_{j 0}) + w_{h 0}) - - - (2)

其中，w_hj表示神经网络中第h个结点到下一层的j个结点之间的全值，w_ji含义类似。