CN110728185A

CN110728185A - 一种判别驾驶人存在手持手机通话行为的检测方法

Info

Publication number: CN110728185A
Application number: CN201910853113.9A
Authority: CN
Inventors: 程文冬; 刘京凯
Original assignee: Xian Technological University
Current assignee: Xian Technological University
Priority date: 2019-09-10
Filing date: 2019-09-10
Publication date: 2020-01-24
Anticipated expiration: 2039-09-10
Also published as: CN110728185B

Abstract

本发明涉及智能化行为监控技术领域，具体涉及一种判别驾驶人存在手持手机通话行为的检测方法。本发明通过综合手势识别和唇动行为来决策驾驶人手持手机通话行为，通过融合手部肤色的PCA‑HOG和Relief‑PZMs特征提升通话手势的识别率，同时通过对嘴唇区域进行基于多尺度局部模极大值的边缘检测，并检测嘴部边缘复杂度的方差，提出一种适应驾驶环境的说话行为方法，准确度高、抗干扰能力强、实时性好、鲁棒性强。

Description

一种判别驾驶人存在手持手机通话行为的检测方法

技术领域

本发明涉及智能化行为监控技术领域，具体涉及一种判别驾驶人存在手持手机通话行为的检测方法。

背景技术

公开号为CN 108509902A的中国专利，公开了一种“驾驶员行车过程中手持电话通话行为检测方法”，其中描述了手部肤色区域检测是基于YC_b C_r色彩空间的肤色建模和采用基于Haar矩形特征的Adaboost算法获得Adaboost强分类器对肤色区域进行二值化处理；描述了对唇部图像检测基于直方图均衡化和中值滤波处理并基于利用SUSAN算法和NURBS三次曲线啮合对唇动行为检测。

现有技术存在的问题是：

(1)现有技术是通过单一的手部特征来判别驾驶人手机通话手势，准确性和鲁棒性较差，目前仍未出现相关驾驶人手持手机通话手势识别方法，以兼顾满足对波动光照的鲁棒性和驾驶人头部姿态的耐受性，

(2)现有技术通过检测驾驶人嘴部的具体特征来识别说话行为，此类方法对波动光照和驾驶员个体差异性的适应性较差，目前尚未出现基于嘴部模糊特征的说话行为识别。

发明内容

本发明要提供一种判别驾驶人存在手持手机通话行为的检测方法，以克服现有技术存在波动光照和驾驶员个体差异的情况下对判别结果造成的鲁棒性和适应性差的问题。

为了达到本发明的目的，本发明提供的技术方案是：

一种判别驾驶人存在手持手机通话行为的检测方法，包括下述步骤：

步骤1、手部兴趣区域定位与嘴唇定位；

步骤2、肤色在线建模与嘴部图像预处理：基于在线高斯模型的耳边手部肤色区域检测方法进行肤色在线建模，基于嘴部图像双边滤波对嘴部图像进行平滑处理；

步骤3、手部肤色区域分割与嘴部边缘检测：基于PCA-HOG特征和Relief-PZMs特征进行手部肤色区域分割，基于多尺度局部极大值进行边缘检测；

步骤4、手势行为识别与唇动行为检测：基于SVM决策融合判定手机通话手势行为并检测嘴部区域的多尺度局部模极大值边缘，统计边缘的复杂度以及连续N帧图像中嘴唇边缘复杂度数值的方差，若方差数值大于设定阈值，则表示驾驶人存在说话行为；

步骤5、手机通话行为识别决策：综合“手持手机手势”和“说话”两项证据来判别驾驶人存在手持手机通话行为。

进一步的，上述步骤2的具体步骤是：

步骤201、基于YCgCr色彩空间的肤色建模；

步骤202、根据肤色色度漂移统计对式中的均方差进行修正，得到左、右手的判别阀值；

步骤203、人工统计自然驾驶条件环境下不同驾驶人面部、左右手肤色区域的Cg、Cr分量与光照强度Y，得到的肤色分布关系；

步骤204、通过对统计数据进行回归拟合，得到各线性关系中增量因子的差值，得到色度漂移量。

进一步的，上述步骤3的具体步骤是：

步骤301、提取HOG特征；

步骤302、基于主成分分析的HOG特征降维；

步骤303、PCA-HOG最佳维度实验；

步骤304、Pseudo-Zernike矩特征；

步骤305、基于Relief算法的PZMs特征提取；

步骤306、Relief-PZMs特征筛选。

相对于现有技术，本发明的优点是：

1、本发明通过综合手势识别和唇动行为来决策驾驶人手持手机通话行为，通过融合手部肤色的PCA-HOG和Relief-PZMs特征提升通话手势的识别率，同时通过对嘴唇区域进行基于多尺度局部模极大值的边缘检测，并检测嘴部边缘复杂度的方差，提出一种适应驾驶环境的说话行为方法，准确度高、抗干扰能力强、实时性好、鲁棒性强。

2、本发明可以更好的识别驾驶人的手持手机通话手势，对波动光照、复杂头部姿态和个体行为差异具有良好的适应性，可以更好的识别驾驶人说话行为，能够更好的克服驾驶环境中波动光照、复杂背景、驾驶人随机头部姿态等干扰问题。

3、有效降低系统运算的复杂度，能够很好的判断驾驶员手持电话通话行为，同时本发明具备很好的移植性，适用于车辆内部图像检测和安全辅助驾驶。

4、本发明采用自适应性的权重分配方法来确定手部肤色区域类别的决策机制。通过该机制来兼顾不同类手部肤色区域特征所训练的分类器性能，根据不同特征建立的分类器对手势识别准确性的贡献进行各自权重分配，以期在最终决策投票时获得更准确的分类效果。

附图说明

图1是本发明的流程图；

图2是步骤一的左右手兴趣区域示意图；

图3是C_g-C_r肤色建模过程示意图；

图4是肤色样本的色度漂移示意图；

图5是HOG算法示意图；

图6是PZMs幅值统计示意图；

图7是PZMs权重示意图；

图8是手部区域多元特征的决策融合方法示意图；

图9是HHPC行为辨识流程示意图。

具体实施方式

下面通过具体实施方式结合附图对本发明作进一步详细说明。其中不同实施方式中类似元件采用了相关联的类似的元件标号。在以下的实施方式中，很多细节描述是为了使得本申请能被更好的理解。然而，本领域技术人员可以毫不费力的认识到，其中部分特征在不同情况下是可以省略的，或者可以由其他元件、材料、方法所替代。

下面结合附图和实施例，对本发明做详细说明。

本发明提供的一种判别驾驶人存在手持手机通话行为的检测方法，具体包括下述步骤,参见图1：

步骤一、手部兴趣区域定位与嘴唇定位

1.1手部兴趣区域定位

首先运用Adaboost算法检测驾驶人面部并标记为矩形区域R_f，其中心为O_f，坐标为(x_f,y_f)。建立左、右手矩形兴趣区域R₁和R₂，中心分别为O₁和O₂，中心坐标分别为(x₁,y₁)和(x₂,y₂)，见图2。图中a、b分别为O₁和O₂相对于O_f的偏置量。

H_f、W_f分别为R_f的高和宽，根据先验性生理知识，a、b分别设置为1.1W_f和0.25H_f。各个兴趣区域的尺寸和位置关系见式(1)。

式中：H₁、W₁分别为R₁的高和宽；H₂、W₂分别为R₂的高和宽。

1.2嘴唇定位：

变动光照会致使驾驶人面部产生阴影和噪声，给嘴唇特征提取造成困难，故传统的依赖于唇色、嘴唇轮廓等特征的唇动行为检测并不适用于自然驾驶条件。对此，本发明采用文献[驾驶人注意力分散的图像检测与分级预警]方法定位驾驶人嘴唇粗区域(60×80pixels)，进而采用双边滤波器对嘴唇区域进行滤波平滑，并采用小波模极大值算法鲁棒提取嘴唇的显著边缘，最后通过分析特定时窗内显著边缘的波动性来确定驾驶人的唇动行为

步骤二、肤色在线建模与嘴部图像预处理：

2.1:肤色在线建模

2.1.1基于YC_gC_r色彩空间的肤色建模

对R_f区域RGB色彩空间中的R、G、B分量进行色彩空间转换，采用经典YC_bC_r色彩空间衍生出的YC_gC_r色彩空间^[18]来分割驾驶人面部肤色，Y为亮度分量，C_b、C_r和C_g分别为蓝色色度分量、红色色度分量和转换后的色度分量。RGB空间向YC_gC_r空间的转换算法见式(2)。

通过设置恒定的灰度阈值去除面部矩形区域内眼睛、鼻孔、眉毛等近似黑色的区域，获得干净的肤色像素并对其进行融合双边滤波器和单尺度Retinex算法的光照均衡处理。对肤色像素进行YC_gC_r色彩空间转换，对Y、C_g、C_r分量分别进行稀疏网格间隔采样(网格单元大小为15像素×15像素,线宽为5像素)，见图3。该方法可确保在采集全局肤色信息的同时减少相邻近似像素的冗余计算量。将采集到的C_g分量样本与C_g分量样本投射到C_g-C_r平面子空间，并用矩形T_f定义肤色边界阈值。

采用高斯模型对肤色进行C_g与C_r分量中的分布度量，即

式中：X_f为面部肤色C_g、C_r分量的特征向量；μ_f和C分别为高斯函数中C_g、C_r分量的均值向量和协方差矩阵。分别计算C_g、C_r分量的均值μ_f1、μ_f2和均方差σ_f1、σ_f2，按照μ_f1±σ_f1和μ_f2±σ_f2的方法确定C_g-C_r平面子空间中的矩形T_f，可确定C_g和C_r分量的肤色判别阈值T_f1和T_f2，即

2.1.2考虑光照强度变化的手部肤色漂移

测试发现：在实际驾驶环境中，面部、左手和右手3个肤色区域的光照强度存在微小差别，靠近驾驶室车窗一侧的右手接受到的光照更强，而左手区域的光照相对偏弱。虽然肤色在YC_gC_r色彩空间中具有较强的光照鲁棒性，但是肤色像素仍会受到光照强度变化的干扰而在C_g-C_r子空间中出现一定漂移。由于驾驶室内不存在直接光照，面部和左右手区域之间的光照变化属于整体性渐变，左右手的肤色像素在C_g-C_r子空间内应属于整体漂移，因此左、右手的肤色判别矩形T₁和T₂也会在C_g-C_r坐标系内分别发生轻度迁移。

由于肤色像素近似遵循高斯分布，光照强度的整体变化对高斯模型的均值向量影响更为显著，而对协方差矩阵的扰动较小。因此，可根据肤色色度漂移统计对式(4)中的均方差进行修正，得到左、右手的肤色判别阈值，分别为

人工统计自然驾驶环境下不同驾驶人面部、左右手肤色区域的C_g、C_r分量与光照强度

得到的肤色分布关系，见图4。通过对统计数据进行回归拟合，得到各线性关系中增量因子的差值，即面部肤色与左、右手肤色之间的色度漂移量ψ₁＝-5.89，ψ₂＝6.62、ψ₃＝5.55和ψ₄＝-8.13。

2.2基于双边滤波的嘴部图像预处理

双边滤波器(Bilateral Filter，BF)是以高斯滤波为基础的非线性二维滤波，由值域滤波和空间域滤波组成。设目标像素点为x，其邻域点为y，灰度函数分别为f(x)和f(y)，则BF传递函数h(x)可表达为：

式中S[f(x),f(y)]与D(x,y)分别表示x、y两点之间的灰度相似度与距离相似度，可分别表达为欧氏距离参数的高斯函数，见式(12)。其中σ_r和σ_d分别高斯函数的灰度标准差和距离标准差。

在处理邻域像素灰度时，BF兼顾考虑了平面空间域属性和光照平滑属性。对于显著的特征边缘，BF将其邻域亮度均值赋予中心像素点，因此能够在平滑驾驶人嘴部图像的同时保持显著边缘的灰度变化属性。

步骤三：手部肤色区域分割与嘴部边缘检测

3.1手部肤色区域分割

3.1.1HOG特征

HOG通过获取图像边缘的梯度方向特性，同时引入梯度强度权重来建立梯度方向直方图来描述目标的外观和形状^[20-21]。将驾驶人左右手兴趣区域R₁和R₂中所提取的肤色像素进行形态学处理并生成二值化肤色图像，针对最大的肤色面积区域提取HOG特征，主要步骤如下。

Step1：采用(-1，0，1)和(-1，0，1)^T滤波器获取肤色二值化图像的垂直和水平方向梯度，求得各像素的梯度方向和大小。

Step2：采用8×8像素单元划分窗口，形成12×22＝264个单元，如图5所示。将2×2相邻单元设为一个像素块。水平和垂直方向的扫描步长均为16像素，则手部窗口包含6×11＝66个块。

Step3：将0°～180°梯度方向均分为9个通道，统计各单元中每个像素的梯度方向直方图，形成特征向量。

Step4：针对各块进行梯度权值投影，形成2×2×9＝36维梯度方向直方图，采用2-范数对向量进行归一化处理：

式中：v为梯度方向直方图向量；v^*为直方图向量归一结果；ε为极小正值，本发明取0.005。

Step5：级联各块的梯度方向直方图向量，形成36×66＝2376维HOG特征向量。

3.1.2基于主成分分析的HOG特征降维高维HOG特征向量存在冗余信息，会降低算法的运行效率甚至降低识别精度，采用主成分分析(Principal Component Analysis,PCA)算法对HOG特征向量进行降维。PCA是通过对原样本空间进行空间变换，将原坐标系统投影至维度更低、且相互正交的特征空间上，以期达到降维目的。设手部肤色训练样本的HOG特征组成m维向量X_m＝{x₁,x₂,…,x_m}，从m维空间向n维空间进行映射(m＞n)，则新的HOG特征主成份向量Y_n可定义为线性变换：

Y_n＝W^TX_m (8)

式中：W为m×n正交矩阵。

则可构造线性变换：

W′＝argmax|W^TS_TW| (9)

式中：W′为m维HOG特征空间散点集所对应的n维最大特征向量，即系统所需的PCA-HOG特征向量，其中向量维数n由试验确定；S_T为样本散点矩阵；x_k为第k个手部肤色样本的HOG特征值；μ为样本的HOG特征均值。

3.1.3PCA-HOG最佳维度试验

PCA-HOG最佳维度的确定原则是在满足最低识别率的前提下满足识别时效性。试验对训练样本分别提取100～2300维PCA-HOG特征，以100维为步长统计对测试样本的识别率和识别时间。随着维度的增加识别率出现先增加后降低的状态，识别率最高的维度为400维，所对应的平均耗时为0.152秒。综合考虑精度与效率，选择400维为PCA-HOG最佳维度。

3.1.4Pseudo-Zernike矩特征

Pseudo-Zernike矩(Pseudo-Zernike Moments,PZMs)是基于Zernike矩构造的扩展不变矩，用于描述图像目标的整体形状特性。由于PZMs的基是正交径向多项式，相对于其它不变矩算法具有较强的平移、旋转和缩放不变性和较好的抗噪性能，一定程度上可以弥补HOG特征旋转敏感性等不足。

PZMs的正交多项式集是在单位圆内的完备正交集。对于图像f(x,y)，设q为PZMs正交多项式阶数，l为PZMs正交多项式的重复度，且满足|l|≤q，则q阶l重PZMs可定义为：

V_ql(ρ,θ)＝R_ql(ρ)exp(lθ) (12)

式中：V_ql(ρ,θ)为q阶l重PZMs基函数，V_ql ^*(ρ,θ)为其共轭复数；ρ为原点到像素点(x,y)的矢量长度；θ为矢量ρ与x轴的夹角；R_ql(ρ)为径向多项式。由于PZMs基函数是正交的，可根据正交多项式的递推性质实现PZMs特征的快速计算。由于PZMs幅值是旋转不变量，因此，可将其幅值作为旋转不变特征构造任意阶矩。图6为HHPC行为与其它行为中手部区域的前12阶(共78个)PZMs幅值比较。统计发现，通话的手部区域PZMs幅值具有较好的一致性。

3.1.5基于Relief算法的PZMs特征提取

研究证明，随着PZMs特征维数的不断增加，目标识别率达到峰值后会出现识别率下降的现象，同时带来算法的实时性降低的“休斯现象”。信息冗余的主因是多阶图像矩之间具有一定的互相关性，因此，需要估计各PZMs特征值对于识别率的贡献并确定PZMs特征维数。设手部肤色样本集中任意样本g的任意特征Z适用于样本分类，则同类样本H中该特征的差异小而与异类样本M的差异大，故应将该特征用于分类时赋予较大权值W_j。反之，Z_j的权值W_j将在迭代求解中赋予小值。基于该思想引入Relief算法来确定手势二分类问题中PZMs特征Z的权重W为：

式中：R为迭代次数；D(Z,g,H)和D(Z,g,M)分别为待测手部区域样本g与H、M在特征Z上的差异度量；Z_g、Z_H和Z_M分别为g、H和M的PZMs特征值。

通过R次迭代对权重W_j赋值并提取权重较大的PZMs矩特征作为主元，形成手部区域分类的PZMs特征向量。

3.1.6Relief-PZMs特征筛选

对正、负训练样本进行PZMs求解，再通过Relief迭代得到各阶矩的权重，将权重值大于0.03的8个PZMs作为手部区域分类的PZMs特征向量，参见图7。

3.2基于多尺度局部模极大值的嘴部边缘检测

相比于Canny、Prewitt等边缘检测方法，多尺度局部模极大值边缘检测方法具有更好的抗噪性和真实性。设由BF平滑后的驾驶人嘴部图像为f(u,v),对其引入的二维平滑函数θ(u,v),满足∫∫_Ωθ(u,v)dxdy＝1。则对f(u,v)定义的2^j尺度二维小波变换为：

上式中ψ^u和ψ^v分别是θ(u,v)在u、v方向上的导数，即图像灰度变换沿u、v两个方向的梯度。对于嘴部图像f(u,v)，2^j尺度小波变换的模M和幅角A分别见式(15)和式(16)。对图像进行遍历，沿梯度幅角方向比较目标像素及其前后相邻像素点的梯度模值，并依据极大模值来确定嘴部特征边缘。

步骤四：手势行为识别与唇动行为检测

4.1基于多元特征决策融合的手势识别

相对于单一的手部肤色区域特征，对分类器输入多元特征并进行判别决策融合，可提升通话手势识别的准确性与鲁棒性。本发明运用SVM分类器建立通话手势识别模型，选择径向基核函数为映射规则，再通过权重自动学习方法对多个SVM子模型进行决策层的融合判决。多特征决策融合如图8所示。针对Relief算法提取的PZMs特征和PCA降维后的HOG特征分别建立2个子分类器模型：Relief-PZMs-SVM和PCA-HOG-SVM。分别计算手势状态分类结果，最后通过设计决策融合算法，获得全局最优分类结果。

分别针对训练样本获取Relief-PZMs特征和PCA-HOG特征，建立Relief-PZMs-SVM和PCA-HOG-SVM两个分类器。针对待测新样本，提取Relief-PZMs特征并输入至对应的SVM分类器，获得手势分类结果C₁和C₂；同时提取该样本的PCA-HOG特征并输入至对应的SVM分类器，获得手势分类结果C₃和C₄。然后将2个模型的分类结果进行多特征权重融合，即：

P₁＝C₁p₁+C₃p₂ (16)

P₂＝C₂n₁+C₄n₂ (17)

式中：P₁、P₂分别为最终分类结果为阳性和阴性的概率；p₁、p₂分别为Relief-PZMs-SVM模型和PCA-HOG-SVM模型的阳性权重；n₁、n₂分别为Relief-PZMs-SVM模型和PCA-HOG-SVM模型的阴性权重。

若P₁＞P₂，意味着该样本最终被判定为“HHPC手势”，反之则被识别为“Non-HHPC手势”。

4.2唇动行为检测

相比于闭嘴状态，驾驶人说话时的嘴部图像会引入更多的边缘细节。引入复杂度C_e的概念用于描述嘴唇区域全局性的边缘特性，即嘴部区域的显著边缘点数量与嘴唇粗区域像素总数量的比值。统计表明，说话状态下C_e的均值更大，且波动性更显著。但是由于说话中的瞬时嘴部姿态近似于“闭嘴”，因此针对单帧静态图像的C_e并不能用于表征说话行为。对此采用N帧连续图像C_e的方差S²来描述特定时间窗口内嘴部边缘的波动特性。

通过分析嘴部边缘复杂度C_e和方差S²的检测结果，发现闭嘴状态C_e值在0.04附近轻微波动，其方差S²范围为0～2×10^-6。说话过程中C_e在0.04～0.06范围内波动剧烈，其方差S²分布于2×10^-5～6×10^-5。显然，方差S²提升了“闭嘴”和“说话”两类行为的可分性，同时有效消除了不同驾驶人嘴部边缘的个体差异性。

步骤五：手机通话行为识别决策

“HHPC手势”和“说话”是HHPC行为中必然存在的两项子行为，任意单项子行为都无法作为HHPC行为的充分证据。图9为驾驶人HHPC行为的辨识流程，若系统将耳边手部肤色区域分类为“IHA手势”，则表示驾驶人有摸脸、推眼镜等干扰性手势动作，若耳边手部肤色区域被分类为“HHPC手势”，则表示驾驶人可能在手持手机通话，则进一步进行嘴部边缘检测并统计边缘复杂度C_e的方差S²，即嘴部区域的活动特性。若在特定时窗内S²大于阈值

则表示驾驶人说话，此时判定驾驶人存在HHPC行为，否则被判定为正常驾驶。

HHPC行为辨识策略中包含两个重要阈值参数：嘴唇边缘复杂度的方差阈值

和参与方差统计的连续帧数N。其中N的最佳取值与图像采集帧率和驾驶人说话特性相关，能影响到行为辨识的时效性。复杂度方差阈值

取决于N和说话行为特性。由实验确定N＝40，

对于本技术领域的普通技术人员来说，在不脱离本发明所属原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本发明的保护范围。