CN111460950B

CN111460950B - 自然驾驶通话行为中基于头-眼证据融合的认知分心方法

Info

Publication number: CN111460950B
Application number: CN202010219043.4A
Authority: CN
Inventors: 程文冬; 刘京凯
Original assignee: Xian Technological University
Current assignee: Xian Technological University
Priority date: 2020-03-25
Filing date: 2020-03-25
Publication date: 2023-04-18
Anticipated expiration: 2040-03-25
Also published as: CN111460950A

Abstract

本发明涉及一种自然驾驶通话行为中基于头‑眼证据融合的认知分心方法，其克服了现有技术中图像检测方法的实用性较弱、自然驾驶中多种因素影响图像目标识别与表征参数提取的的问题，其能适用于自然驾驶场景的通话手势和说话行为图像检测方法，本发明首先建立基于YCbCr色彩空间的在线肤色模型，提取待检肤色区域的PCA‑HOG特征并建立SVM分类器来识别MPC手势；与此同时，采用多尺度局部模极大值方法检测嘴部显著边缘，并通过边缘活跃度来识别驾驶人说话行为，综合MPC手势和说话行为建立MPC行为的判别逻辑；进而获取驾驶人的眼球活跃度、眨眼指数等参数，最后采用D‑S证据理论建立融合头‑眼行为特性的DCD识别方法。

Description

自然驾驶通话行为中基于头-眼证据融合的认知分心方法

技术领域：

本发明涉及一种驾驶人手机通话行为的图像检测方法，尤其是涉及一种自然驾驶通话行为中基于头-眼证据融合的认知分心方法。

背景技术：

驾驶人在手机通话(Mobile Phone Call,MPC)行为中，前方路况与车辆运行的信息和通话信息在脑中形成混流，大大增加驾驶人的脑力负荷^[1]。而人脑对信息的获取与加工处理能力是有限的，因此MPC极易导致驾驶人出现认知分心(Driver's CognitiveDistraction，DCD)，进而影响驾驶人的正确判断、决策和操控车辆，加剧行驶危险^[2,3]。

当前DCD识别研究主要包括3类：基于车辆运行参数、基于驾驶人生理特性与基于驾驶人行为特性的方法，DCD表征参数的鲁棒提取和匹配融合、DCD层级辨识与量化等是当前的难点问题。Andrei Aksjonov等(Andrei Aksjonov,Pavel Nedoma,Valery Vodovozov,et al.Detection and Evaluation of Driver Distraction Using Machine Learningand Fuzzy Logic[J].IEEE Transactions on Intelligent Transportation Systems:1-12)在驾驶模拟器实验中融合了道路曲率、车速、车道保持偏移量、车速标准差等车辆运行参数，建立基于机器学习与模糊逻辑控制器的分心识别与量化评估方法；张辉等(张辉,钱大琳,邵春福,钱振伟,等.驾驶人分心状态判别支持向量机模型优化算法[J].交通运输系统工程与信息,2018,18(01):127-132；ZHANG Hui,QIAN Da-lin,SHAO Chun-fu,QIANZhen-wei,et al._Identification of Driver Distraction States with OptimizedSupport Vector Machine Method[J]._Journal of Transportation SystemsEngineering and Information Technology:2018,18(01):127-132.)建立了涉及车速、方向盘转角、跟车距离、加速度等车辆运行参数的遗传算法融合支持向量机的DCD判别模型，能够在自由流状态和拥挤流两种模拟场景中有效识别DCD状态。

基于图像监测的驾驶人行为特性对分心状态的映射更加直接，行为表征参数丰富且实时性与实用性更好。此类方法中，图像目标的鲁棒识别算法是基础，驾驶人行为的深度特征信息筛选与量化是关键，基于关键参数融合的DCD辨识模型是核心。目前驾驶人MPC中的分心研究主要通过驾驶模拟器开展试验，其背景和光照条件相对单一，方法的实用性较弱。而自然驾驶中的复杂背景、波动光照、非约束性表情动作等均是影响图像目标识别与表征参数提取的主要因素。另外，驾驶人在MPC中的行为特性与DCD之间映射机制具有很强的隐匿性和个体差异性，即使通话过程中未出现视觉分心，也可能已经产生认知分心，比如目视前方的“思考”或“走神”(

J,Johansson E,

J.Effects of Visualand Cognitive Load in Real and Simulated Motorway Driving[J].TransportationResearch Part F Psychology&Behaviour,2005,8(2):0-12)。由此可见，深入分析图像中驾驶人眼动、头动等行为并获取可有效表征DAD的特征参数是此类研究的另一难点。

发明内容：

本发明的目的在于提供一种自然驾驶通话行为中基于头-眼证据融合的认知分心方法，其克服了现有技术中图像检测方法的实用性较弱、自然驾驶中多种因素影响图像目标识别与表征参数提取的的问题，其能适用于自然驾驶场景的通话手势和说话行为图像检测方法，由此设计MPC行为辨识逻辑，进而通过建立头部姿态模型和眼睛运动模型来分别获取头动与眼动特性信息参数，并采用D-S证据理论建立基于眼动与头动特征参数相融合的DCD识别方法。

为实现上述目的，本发明采用的技术方案为：

一种自然驾驶通话行为中基于头-眼证据融合的认知分心方法，其特征在于：首先建立基于YCbCr色彩空间的在线肤色模型，提取待检肤色区域的PCA-HOG特征并建立SVM分类器来识别手机通话手势；与此同时，采用多尺度局部模极大值方法检测嘴部显著边缘，并通过边缘活跃度来识别驾驶人说话行为，综合手机通话手势和说话行为建立手机通话行为的判别逻辑；进而以5s为时间窗口获取驾驶人的眼球活跃度、眨眼指数、头部横摆和俯仰运动活跃度，最后采用D-S证据理论建立融合头-眼行为特性的认知分心识别方法。

上述进行融合手-嘴行为特性的手机通话行为识别，包括以下步骤:

(1)手部肤色分割：首先运用基于类Haar特征的Adaboost算法定位人脸，并设置灰度阈值排除面部低灰度区域，获得干净的肤色。在YCbCr空间中提取肤色像素的Cb和Cr分量，对各分量进行点阵采样，Cr和Cb分量的采样样本近似遵循高斯分布规律，分别建立Cr与Cb分量的高斯模型，再分别获取各高斯模型的均值μ_r、μ_b和均方差σ_r、σ_b，依据μ_r±σ_r和μ_b±σ_b的原则确定肤色分割阈值；依据人体结构的生理先验知识设置驾驶人Adaboost面部矩形和左右手感兴趣区域，在此区域内采用在线肤色模型分割肤色像素；

(2)手势分类：采用HOG特征描述手部肤色区域边缘的梯度方向特性；采用(-1,0,1)和(-1,0,1)^T滤波器求解边缘梯度方向和大小；采用16×16像素单元划分窗口，并将2×2相邻单元设为像素块；水平和垂直方向的扫描步长均为16像素，形成包含36维(2×2×9)特征向量的梯度方向直方图，并采用l₂范数对向量集进行归一化处理；级联各像素块的梯度方向直方图向量，形成6156维(36×9×19)HOG向量；运用PCA算法对HOG特征向量进行降维；运用降维后的PCA-HOG特征，训练SVM分类器进行手机通话和无手机通话手势分类，SVM决策方法为：

式中ξ是手势标识手机通话和无手机通话，N(i)表示手势类别i被正确识别的频次，α_k表示第k个分类器对手势分类的影响权重，f为SVM判别函数，选取径向基核函数作为分类器映射规则；

(3)嘴动行为识别：

a：嘴唇显著边缘检测：采用多尺度局部模极大值边缘检测方法定位驾驶人嘴唇区域并采用双边滤波器进行滤波平滑，进而提取嘴唇的显著边缘，最后通过边缘的波动特性来确定驾驶人嘴动行为。

b：嘴部边缘的波动特性：采用复杂度C_e来全局性描述嘴唇边缘特性，即嘴部边缘点数量与嘴唇粗区域像素总数量的比值；采用N帧连续图像C_e的方差S²来描述特定时间窗口内嘴部边缘的波动特性；

(4)手机通话行为辨识：

若肤色区域被分类为“手机通话手势”，则表示驾驶人可能在手机通话，则进一步检测嘴部边缘并统计C_e和S²；若S²大于阈值

则表示驾驶人说话，此时判定驾驶人存在手机通话行为，否则被判定为正常驾驶。

上述进行头部姿态估计：

运用牛顿公式分别求解头部横摆角α与俯仰角β：

式中f为摄像头焦距，μ_x和μ_y分别为像元横向和纵向的物理尺寸，θ为镜头水平仰角，人脸与摄像头成像面的距离为L₀，驾驶人头部绕颈椎中心O点的回转半径为R，x为C点在X轴方向位移的像素数，y为C点在Y轴方向位移的像素数。

上述建立眼睛运动模型：采用多尺度Harris角点检测方法提取真实角点，尺度变化通过对眼睛图像进行高斯平滑来实现；采用自适应灰度阈值法分割虹膜区域并通过形态学操作去除睫毛等干扰像素；求解虹膜区域的灰度重心O_i，用于近似表示虹膜中心；O_i相对于眼睛中心O_e的向量V用于表征眼球转动的角度和幅度。

上述建立基于头-眼运动特性的认知分心指标，包括以下步骤：

(1)图像数据采集：MPC图像采集在汽车试验场内进行，驾驶里程均大于5万公里。摄像头安装于仪表盘处，仰角θ＝23°，帧率25fps，分辨率640×480。车速范围20～40km/h，驾驶环境具有自然的波动光照和背景变化；驾驶人按照自身的动作习惯进行自然驾驶与手机通话驾驶，期间会接到工作人员的电话并要求回答具有高脑力负荷的问题，其过程标记为驾驶人处于认知分心状态；将正常驾驶和认知分心视频裁剪为若干段，每段时长均为5s；从每位驾驶人中随机提取正常驾驶和认知分心驾驶视频各若干段，将其作为训练样本，其余视频段包括正常驾驶若干段和认知分心驾驶若干段，将其作为测试样本；

(2)计算眼球活跃度：向量V包含眼球转动的幅度|V|和角度δ，用于表征视觉搜索强度；在正常驾驶与手机通话时眼球转动的幅度存在差异，差异指标通过统计时窗内|V|的眼球活跃度I_EA来定义：

式中n为时窗内的图像帧数，μ_V为n组|V|数据的均值；

(3)计算眨眼指数：将眨眼的帧数与时窗内总帧数的比值定义为眨眼指数I_B；

(4)计算头部活跃度：采用头部活跃度来描述头部横摆和俯仰转动的范围与幅度：

式中

和

分别表示头部横摆活跃度和俯仰活跃度，μ_α和μ_β分别为时窗内α和β的均值；

上述建立基于D-S证据理论的认知分心辨识模型，包括以下步骤：

(1)建立D-S证据理论的辨识框架：

设m_j(j＝1,2,3…,n)是辨识框架Θ上n个独立的基本概率分配函数BPA，对应的焦元分别为A_j(j＝1,2,3…,n)，则多元证据的合成规则为：

(2)建立认知分心识别模型：

认知分心的辨识框架定义为Θ＝{θ₁，θ₂}＝{Non-DCD，DCD}，支持Θ的证据来自5s时窗内的证据链

构建认知分心证据矩阵E_ij(i＝1,2,3,4，j＝1,2)，并根据训练样本建立证据矩阵；

设测试样本的实测证据链e＝{e₁,e₂,e₃,e₄}，采用广义Hamming距离

量化实测值e_i与对应辨识模式θ_j证据值E_ij之间的差异度，任意证据E_ij下辨识模式θ_j对应的BPA函数定义为m_i(θ_j)：

式中n＝2。运用式(12)对基本信任概率赋值m_i(θ_j)进行证据融合，得到焦元θ_j的信度m(θ_j)和不确定性概率m(Θ)；若m(θ₁)-m(θ₂)＞T₁，不确定性m(Θ)＜T₂且m(θ₁)＞m(Θ)，则命题θ₁为判决结果。T₁和T₂为预设门限，根据实验设置为0.2和0.6。

与现有技术相比，本发明具有的优点和效果如下：

(1)本发明建立基于YCbCr色彩空间的在线肤色模型，通过肤色区域的PCA-HOG特征构建了SVM分类器，用于识别MPC手势；同时通过嘴部显著边缘的活跃度来识别说话行为，综合MPC手势和说话行为建立MPC行为的判别逻辑。该方法对波动光照与复杂背景具有鲁棒性，自然驾驶实验中MPC识别准确率为92.1％。

(2)本发明以5s为时间窗口获取驾驶人的眼球活跃度、眨眼指数、头部横摆活跃度和俯仰活跃度4项行为指标，采用D-S证据理论建立融合头-眼行为特性的DCD识别方法。自然驾驶实验表明：眼球活跃度是具有最高DCD识别率的单一指标，为83.9％，眨眼指数的DCD识别率最低；“眼球活跃度-头部横摆活跃度-头部俯仰活跃度”是DCD识别率最高的融合证据，为85.2％。

(3)本发明与现有技术相比，基于图像识别的头-眼行为指标参数更为精简、稳定且容易获取，DCD识别方法对自然驾驶环境的鲁棒性好。

附图说明：

图1为本发明的总体流程图；

图2为肤色采样与建模图；

图3为手部肤色分割结果图；(a：监控图像、b：Cr分量、c：Cb分量、d：分割结果)；

图4C_e与方差S²统计图；

图5为MPC行为辨识逻辑图；

图6为头部姿态估计模型(a：横摆模型、b：俯仰模型)；

图7为眼睛合成模板图；

图8为眼动模型图；

图9为眼睛运动的检测示例图；

图10为眼球向量V分布统计图；

图11为眼球活跃度I_EA直方图；

图12为眨眼指数I_B直方图；

图13为头部姿态分布统计图；

图14为头部活跃度I_HA直方图；

图15为不同维度PCA-HOG特征的性能比较图；

图16为S²分布统计图；

图17为DCD信度统计图。

具体实施方式：

下面结合具体实施方式对本发明进行详细的说明。

本发明为一种自然驾驶通话行为中基于头-眼证据融合的认知分心方法，在手机通话(MPC)行为中，驾驶人极易陷入认知分心(DCD)状态。对此提出了一种基于头-眼行为特性的DCD图像识别方法。为适应自然驾驶中的波动光照和复杂背景，首先建立基于YCbCr色彩空间的在线肤色模型，提取待检肤色区域的PCA-HOG特征并建立SVM分类器来识别MPC手势；与此同时，采用多尺度局部模极大值方法检测嘴部显著边缘，并通过边缘活跃度来识别驾驶人说话行为，综合MPC手势和说话行为建立MPC行为的判别逻辑。进而，以5s为时间窗口获取驾驶人的眼球活跃度、眨眼指数、头部横摆和俯仰运动活跃度，最后采用D-S证据理论建立融合头-眼行为特性的DCD识别方法。开展MPC自然驾驶实验，确定MPC手势识别的PCA-HOG特征最佳维度为200维，确定说话行为识别的嘴部边缘活跃度阈值和最佳连续帧数。实验结果表明：融合手势和说话行为图像检测的MPC识别率为92.1％；单一证据中，眼球活跃度具有最高的DCD识别率，为83.9％，头部横摆活跃度的识别率次之，为80.4％，眨眼指数识别率最低；融合证据“眼球活跃度-头部横摆活跃度-头部俯仰活跃度”的DCD识别率最高，为85.2％，表明基于头-眼行为证据融合的DCD识别性能高于单一行为证据。基于图像识别的头-眼行为特征参数更为精简稳定且容易获取，对自然驾驶环境的鲁棒性好，具有良好的经济性与实用性。

实施例：

MPC是当前驾驶人最常见的风险行为，其中伴随着大量的DCD状态，对此本发明首先提出一种自然驾驶通话行为中基于头-眼证据融合的认知分心方法，由此设计MPC行为辨识逻辑，进而通过建立头部姿态模型和眼睛运动模型来分别获取头动与眼动特性信息参数，最后采用D-S证据理论建立基于眼动与头动特征参数相融合的DCD识别方法。本发明总体流程见图1。

1.融合手-嘴行为特性的MPC行为识别

1.1手部肤色分割

肤色及其轮廓形状是MPC手势的主要特征。驾驶室的波动光照会致使肤色在各类色彩空间中产生漂移，影响肤色分割的准确性，故基于离线样本或恒定阈值的手部肤色检测不适于自然驾驶。本发明提出一种在线肤色模型用于手部肤色分割。首先运用基于类Haar特征的Adaboost算法^[11]定位人脸，并设置灰度阈值^[12]排除面部低灰度区域，获得干净的肤色。在YCbCr空间中提取肤色像素的Cb和Cr分量，对各分量进行点阵采样，点的尺寸为5像素×5像素，点的中心距为20像素，如图2所示。该方法可减少来自相邻近似像素的冗余运算，同时确保肤色信息的全局性。

Cr和Cb分量的采样样本近似遵循高斯分布规律，分别建立Cr与Cb分量的高斯模型，再分别获取各高斯模型的均值μ_r、μ_b和均方差σ_r、σ_b，依据μ_r±σ_r和μ_b±σ_b的原则确定肤色分割阈值。

人体皮肤的色度近似统一，因此面部和手部肤色具有近似相同的高斯分布特性。依据人体结构的生理先验知识^[13]设置驾驶人Adaboost面部矩形和左右手感兴趣区域，在此区域内采用在线肤色模型分割肤色像素。图3是手部肤色分割结果。结果表明，在线肤色模型能够通过实时更新面部的色度分布来准确提取手部肤色，有效克服变动光照下肤色分布的漂移问题。

1.2手势分类

干扰性手部动作(如推眼镜、抓脸以及局部面部区域等)会降低MPC手势识别率。本发明采用HOG特征来描述手部肤色区域边缘的梯度方向特性。采用(-1,0,1)和(-1,0,1)^T滤波器求解边缘梯度方向和大小。采用16×16像素单元划分窗口，并将2×2相邻单元设为像素块。水平和垂直方向的扫描步长均为16像素，形成包含36维(2×2×9)特征向量的梯度方向直方图，并采用l₂范数对向量集进行归一化处理。级联各像素块的梯度方向直方图向量，形成6156维(36×9×19)HOG向量。高维HOG特征存在冗余信息，会降低算法运行效率和目标识别率，对此，运用PCA算法对HOG特征向量进行降维，最佳维数由试验确定。运用降维后的PCA-HOG特征，训练SVM分类器进行MPC和Non-MPC手势分类。SVM决策机制为：

式中ξ是手势标识MPC和Non-MPC，N(i)表示手势类别i被正确识别的频次，α_k表示第k个分类器对手势分类的影响权重，f为SVM判别函数，选取径向基核函数作为分类器映射规则。

1.3嘴动行为识别

(1)嘴唇显著边缘检测

依赖于唇色、嘴唇轮廓等特征的传统嘴动行为检测不适用于光照波动的自然驾驶。本发明采用文献^[18]方法定位驾驶人嘴唇区域并采用双边滤波器进行滤波平滑，进而提取嘴唇的显著边缘，最后通过边缘的波动特性来确定驾驶人嘴动行为。

相比于Canny、Prewitt等边缘检测方法，多尺度局部模极大值边缘检测方法^[19]具有更好的抗噪性和真实性。设由边缘滤波器平滑后的嘴部图像为f(u,v),对其引入的二维平滑函数θ(u,v),满足∫∫_Ωθ(u,v)dxdy＝1。则对f(u,v)定义的2^j尺度二维小波变换为：

上式中ψ^u和ψ^v分别是θ(u,v)在u、v方向上的导数，即图像灰度变换沿u、v两个方向的梯度。对于嘴部图像f(u,v)，2^j尺度小波变换的模M和幅角A分别见式(4)和式(5)。对图像进行遍历，沿梯度幅角方向比较目标像素及其前后相邻像素点的梯度模值，并依据极大模值来确定嘴部特征边缘。

(2)嘴部边缘的波动特性

相比于闭嘴状态，说话时的嘴部图像包含更多的边缘细节。采用复杂度C_e来全局性描述嘴唇边缘特性，即嘴部边缘点数量与嘴唇粗区域像素总数量的比值。由于说话时部分嘴部姿态近似于“闭嘴”，因此单帧静态图像的C_e并不能用于表征持续性说话行为。对此采用N帧连续图像C_e的方差S²来描述特定时间窗口内嘴部边缘的波动特性。N与方差阈值

的最优取值与视频帧率和人的说话习惯相关，可根据试验确定。

图4为C_e和S²的检测结果。闭嘴状态下C_e值在0.04附近轻微波动，其方差S²范围为0～2×10^-6。说话过程中C_e在0.04～0.06范围内波动剧烈，其方差S²分布于2×10^-5～6×10^-5。显然采用方差S²可提升“闭嘴”和“说话”两类行为的可分性，同时可消除不同驾驶人嘴部边缘的个体差异性。由于任意时刻的方差S²来自于前N帧图像的C_e统计，“说话”行为的识别时刻与实际发生时刻存在一定量的帧延迟Δ_f。

1.4MPC行为辨识

“MPC手势”和“说话”是MPC行为中必然存在的两项子行为，任意单项子行为都无法作为MPC行为的充分证据。图5为驾驶人MPC行为的辨识逻辑，若肤色区域被分类为“MPC手势”，则表示驾驶人可能在手机通话，则进一步检测嘴部边缘并统计C_e和S²。若S²大于阈值

则表示驾驶人说话，此时判定驾驶人存在MPC行为，否则被判定为正常驾驶。

2.头部姿态估计

驾驶人头部横摆转动和俯仰转动与其注意特性显著相关。采用文献^[20]提出的方法识别驾驶人左右鼻孔N₁和N₂，求得左右鼻孔的中心点C。假设头部近似为球体模型，人脸与摄像头成像面的距离为L₀，驾驶人头部绕颈椎中心O点的回转半径为R。如图6所示，当头部横摆角度为α时，图像中左右鼻孔中心点C移至C′，在X-Z图像坐标系中鼻孔的移动距离为Xmm，成像面上该点的移动距离为xμ_x mm，x为C点在X轴方向位移的像素数。根据透镜成像理论，运用牛顿公式分别求解头部横摆角α与俯仰角β：

式中f为摄像头焦距，μ_x和μ_y分别为像元横向和纵向的物理尺寸，θ为镜头水平仰角。由于驾驶人大部分时间的头部姿态为正视前方道路，故可通过累计鼻孔中心C的坐标均值来确定其初始位置。

3.眼睛运动模型

提出一种基于左、右眼合成模板的眼睛定位方法。人工提取驾驶人左、右眼睛图像各800组，对其进行高斯去噪和灰度均衡，再通过灰度值累加平均得到眼睛合成模板，如图7所示。令模板在驾驶人面部图像的上半部分逐点平移，并采用差值平方和来度量被模板覆盖像素与模板的相似度，相似度最大的区域被认定为人眼。

在人眼定位基础上建立基于特征点集P的眼睛运动模型。P由分布于眼睑、眼角与虹膜的关键特征点组成，包括内外眼角P_i和P_o，上下眼睑特征点P_u和P_l，眼睛中心O_e和虹膜中心O_i，如图8所示。

为减小眼部动作和波动光照给特征点集P检测所带来的干扰，采用多尺度Harris角点检测方法^[22]提取真实角点。尺度变化通过对眼睛图像进行高斯平滑来实现。由于随机噪声的邻域结构并不稳定，虚假角点会在若干次高斯平滑后得到抑制和排除。根据眼睛生理学结构特点，真实Harris角点群的数量控制在30个以内。

设Harris角点群的坐标均值为C_H。由于眼睛整体呈纺锥形，距C_H最远的角点必为P_i(或P_o)，则距离P_i最远的另一个眼角必然为P_o(或P_i)，如图8所示。直线P_i-P_o将所有角点分为上下两部分，上部分角点中距离直线P_i-P_o最远的角点为P_u。同理，下部分角点中距离直线P_i-P_o最远的角点为P_l。眼睛中心O_e的横坐标值设为点P_i和P_o横坐标的均值，纵坐标值设为点P_u和P_l纵坐标的均值。以O_e为原点建立眼睛坐标系X_e-O_e-Y_e，横坐标轴O_e-X_e平行于直线P_i-P_o，纵坐标轴O_e-Y_e垂直于P_i-P_o。P_u和P_l在Y_e方向的距离D_y表示眼睛的开合度。

虹膜区域在眼睛图像中的灰度值最低，采用自适应灰度阈值法^[8]分割虹膜区域并通过形态学操作去除睫毛等干扰像素。求解虹膜区域的灰度重心O_i，用于近似表示虹膜中心。O_i相对于眼睛中心O_e的向量V可表征眼球转动的角度和幅度。若分割的虹膜区域高度与宽度之比小于0.29^[8]，则认定为驾驶人正在眨眼。此时系统无法检测眼球转动，因此所求解的向量V无效。图9为眼睛运动模型的检测示例。

4.基于头-眼运动特性的DCD指标

4.1图像数据采集

MPC图像采集在汽车试验场内进行。实验招募10名驾驶人，包括6名男性和4名女性，驾驶里程均大于5万公里。摄像头安装于仪表盘处，仰角θ＝23°，帧率25fps，分辨率640×480。车速范围20～40km/h，驾驶环境具有自然的波动光照和背景变化。

驾驶人按照自身的动作习惯进行自然驾驶与MPC驾驶，期间会接到工作人员的电话并要求回答具有高脑力负荷的问题，包括复述电话号码和2位借位减法运算，其过程标记为驾驶人处于DCD状态。将正常驾驶和DCD视频裁剪为1117段，每段时长均为5s。从每位驾驶人中随机提取正常驾驶和DCD驾驶视频各40段，将其作为训练样本。其余视频段包括正常驾驶157段和DCD驾驶160段，将其作为测试样本。

4.2眼球活跃度

向量V包含眼球转动的幅度|V|和角度δ，用于表征视觉搜索强度。图10为某驾驶人在5s内向量V的分布。可见，在正常驾驶与MPC时眼球转动的幅度存在差异，差异指标通过统计时窗内|V|的眼球活跃度(Eyeball Activity，EA)I_EA来定义：

式中n为时窗内的图像帧数，μ_V为n组|V|数据的均值。图11为I_EA分布统计直方图，正常驾驶I_EA均值为33.2pixel，而MPC中I_EA均值为18.7pixel，表明MPC行为中驾驶人眼球的活跃度有所降低。

4.3眨眼指数

眨眼特性一定程度上能够表征驾驶人的心理状态。本发明将眨眼的帧数与时窗内总帧数的比值定义为眨眼指数(Blink Index，BI)I_B。图12为训练样本的I_B分布统计直方图。可见正常驾驶和MPC的I_B均值分别为0.056和0.051，总体分布近似。MPC行为中的高频I_B分布范围较广，可反映出驾驶人的脑力负荷和情绪状态更加复杂多变。

4.4头部活跃度

本发明采用头部活跃度(Head Activity，HA)来描述头部横摆和俯仰转动的范围与幅度：

式中

和

分别表示头部横摆活跃度和俯仰活跃度，μ_α和μ_β分别为时窗内α和β的均值。图13为某驾驶人头部横摆角α和俯仰角β的分布，图14为训练样本的

和

分布直方图。正常驾驶和MPC中的横摆活跃度

均值分别为72.3°和38.8°，俯仰活跃度

均值分别为21.9°和17.0°。统计表明，在MPC中头部横摆与俯仰的活跃度均有所降低。

5.基于D-S证据理论的DCD辨识模型

5.1D-S证据理论的辨识框架

人的精神状态具有隐匿性和模糊性，依据单一特征或者简单特征组合难以实现DCD准确辨识。D-S证据理论^[24]在解决不确定性问题方面具有优势，它将基本特征空间推广为辨识框架Θ，在所有Θ内的元素之间是互相排斥的。对于Θ中的任意命题A，函数m：2^Θ→[0,1]满足

以及

基本概率分配函数m(A)表示特征空间对A的精确信任度，其信任函数为

其中B为属于A的子集。对A为非假的信任程度，即似然函数可表达为

系统进行决策时Bel(A)与Pls(A)视作命题A实际概率的上下边界，在该区间内制定决策规则得到命题A的最终信度。

设m_j(j＝1,2,3…,n)是辨识框架Θ上n个独立的基本概率分配函数(BPA)，对应的焦元分别为A_j(j＝1,2,3…,n)，则多元证据的合成规则为：

5.2 DCD识别模型

DCD的辨识框架定义为Θ＝{θ₁，θ₂}＝{Non-DCD，DCD}，支持Θ的证据来自5s时窗内的证据链

构建DCD证据矩阵E_ij(i＝1,2,3,4，j＝1,2)，并根据训练样本建立证据矩阵，见表1。

表1训练样本的证据矩阵

Tab 1 Evidence Matrix of Training Samples

量化实测值e_i与对应辨识模式θ_j证据值E_ij之间的差异度。任意证据E_ij下辨识模式θ_j对应的BPA函数定义为m_i(θ_j)：

式中n＝2。运用式(13)对基本信任概率赋值m_i(θ_j)进行证据融合，得到焦元θ_j的信度m(θ_j)和不确定性概率m(Θ)。若m(θ₁)-m(θ₂)＞T₁，不确定性m(Θ)＜T₂且m(θ₁)＞m(Θ)，则命题θ₁为判决结果。T₁和T₂为预设门限，根据实验设置为0.2和0.6。

6.实验与结果分析

6.1 MPC识别实验

(1)PCA-HOG特征的最佳维度

PCA-HOG决定MPC手势识别率的关键特征。在驾驶图像数据库中提取“MPC手势”与“Non-MPC手势”各1 500组，分别提取不同维度的PCA-HOG特征进行MPC手势识别，统计结果见图15。结果表明50维和100维PCA-HOG的MPC识别性能较差，400维PCA-HOG的识别性能略低于原始HOG特征，而200维PCA-HOG的识别性能最高。综合考虑精度与效率，PCA-HOG的最佳维度为200维。

(2)说话行为识别的关键参数确定

说话行为识别的关键参数包括：参与统计嘴部边缘复杂度C_e的连续帧数量N和C_e的方差阈值

在驾驶图像数据库中提取“闭嘴”与“说话”两类视频各120段，分别统计N＝20，N＝40，N＝60三种情况下的S²分布，如图16所示。结果表明，“闭嘴”行为的3类S²分布规律相似，意味着对N值变化并不敏感；而“说话”行为的3类S²分布存在区别。当N＝20时，“闭嘴”与“说话”的S²不具有显著的可分性，而N＝40与N＝60两种情况下，“闭嘴”与“说话”的S²均具有较好的可分性，综合考虑识别精度和运算效率，N取值为40，S²的阈值

(3)MPC识别结果

对图像数据库的测试样本(正常驾驶和MPC驾驶视频各为157段和160段)进行MPC行为识别，准确率为92.1％。以真阳(TPR)、假阳(FPR)、真阴(TNR)与假阴(FNR)4种形式表达测试结果，见表2。可见提出的MPC识别方法对光照变动与复杂背景具有较强的鲁棒性，适用于自然驾驶环境。

表2 MPC识别结果

Tab 2 Recognition Result of MPC

6.2 DCD识别

运用D-S证据理论对测试样本进行DCD识别，实验分为3类：(1)将眼动行为指标作为证据链：E＝{E₁}＝{I_EA}和E＝{E₁,E₂}＝{I_EA,I_B}；(2)将头动行为指标作为证据链：

和

(3)将眼动和头动行为指标作为证据链：

和

识别结果分别见表3～表5。

表3基于眼动行为的DCD识别

Tab 3 DCD Recognition Result Based on Eye Movement

表4基于头动行为的DCD识别

Tab 4 DCD Recognition Result Based on Head Movement

表5基于头-眼行为融合的DCD识别

Tab 5 DCD Recognition Result Based on Eye-Head Movements Fusion

实验统计了各类眼动、头动特性指标及其融合形式对DCD识别的准确率、灵敏度和特异度，见图17。结果表明：

(1)眼球活跃度I_EA具有较高的DCD识别率，达到83.9％，而融合I_EA和眨眼指数I_B的识别率降低，主要原因在于DCD状态中I_B的个体差异性比较严重，不适于作为DCD的表征参数。

(2)头部横摆活跃度

的DCD识别率高于俯仰活跃度

由于驾驶人在正常驾驶时的横向视觉搜索强度较高，而在DCD中更倾向于减小横向的视觉搜索强度；融合

和

的识别率为81.4％，略低于基于眼动特性的DCD识别率。

(3)基于I_EA、

和

三项证据的识别率最高，达到85.2％，表明基于眼动与头动特性的融合证据具有更优的DCD识别性能。

表6是当前各类DCD识别方法的比较。对于数据采集方式，驾驶模拟器和眼动仪的设备更加复杂昂贵，且难以应用于自然驾驶，而基于车载RGB摄像头的DCD图像识别方法更具经济性和实用性；对于特征参数和识别模型，本发明通过实验提炼出更为精简的头-眼行为参数作为DCD特征指标，参数容易获取，算法的鲁棒性与运算效率更易保障；另外，目前研究多基于模拟驾驶开展，其驾驶场景、车辆运行参数与驾驶人行为均会导致实验结果与真实驾驶存在差别。相比而言，基于自然驾驶的DCD识别研究更具实际意义。

表6 DAD识别方法比较

Tab 6 Comparison of DCD Recognition Methods

Claims

1.一种自然驾驶通话行为中基于头-眼证据融合的认知分心识别方法，其特征在于：首先建立基于YCbCr色彩空间的在线肤色模型，提取待检肤色区域的PCA-HOG特征并建立SVM分类器来识别手机通话手势；与此同时，采用多尺度局部模极大值方法检测嘴部显著边缘，并通过边缘活跃度来识别驾驶人说话行为，综合手机通话手势和说话行为建立手机通话行为的判别逻辑；进而以5s为时间窗口获取驾驶人的眼球活跃度、眨眼指数、头部横摆和俯仰运动活跃度，最后采用D-S证据理论建立融合头-眼行为特性的认知分心识别方法；

进行头部姿态估计：

运用牛顿公式分别求解头部横摆角α与俯仰角β：

式中f为摄像头焦距，μ_x和μ_y分别为像元横向和纵向的物理尺寸，θ为镜头水平仰角，人脸与摄像头成像面的距离为L₀，驾驶人头部绕颈椎中心O点的回转半径为R，x为C点在X轴方向位移的像素数，y为C点在Y轴方向位移的像素数；

建立眼睛运动模型：采用多尺度Harris角点检测方法提取真实角点，尺度变化通过对眼睛图像进行高斯平滑来实现；采用自适应灰度阈值法分割虹膜区域并通过形态学操作去除睫毛等干扰像素；求解虹膜区域的灰度重心O_i，用于近似表示虹膜中心；O_i相对于眼睛中心O_e的向量V用于表征眼球转动的角度和幅度；

建立基于头-眼运动特性的认知分心指标，包括以下步骤：

(1)图像数据采集：MPC图像采集在汽车试验场内进行，驾驶里程均大于5万公里；摄像头安装于仪表盘处，仰角θ＝23°，帧率25fps，分辨率640×480；车速范围20～40km/h，驾驶环境具有自然的波动光照和背景变化；驾驶人按照自身的动作习惯进行自然驾驶与手机通话驾驶，期间会接到工作人员的电话并要求回答具有高脑力负荷的问题，其过程标记为驾驶人处于认知分心状态；将正常驾驶和认知分心视频裁剪为若干段，每段时长均为5s；从每位驾驶人中随机提取正常驾驶和认知分心驾驶视频各若干段，将其作为训练样本，其余视频段包括正常驾驶若干段和认知分心驾驶若干段，将其作为测试样本；

(2)计算眼球活跃度：向量V包含眼球转动的幅度|V|和角度d，用于表征视觉搜索强度；在正常驾驶与手机通话时眼球转动的幅度存在差异，差异指标通过统计时窗内|V|的眼球活跃度I_EA来定义：

式中n为时窗内的图像帧数，μ_V为n组|V|数据的均值；

式中

和

建立基于D-S证据理论的认知分心辨识模型，包括以下步骤：

(1)建立D-S证据理论的辨识框架：

(2)建立认知分心识别模型：

设测试样本的实测证据链e＝{e₁,e₂,e₃,e₄}，采用广义Hamming距离L_ij ^Hamming量化实测值e_i与对应辨识模式θ_j证据值E_ij之间的差异度，任意证据E_ij下辨识模式θ_j对应的BPA函数定义为m_i(θ_j)：

式中n＝2。运用式(12)对基本信任概率赋值m_i(θ_j)进行证据融合，得到焦元θ_j的信度m(θ_j)和不确定性概率m(Θ)；若m(θ₁)-m(θ₂)＞T₁，不确定性m(Θ)＜T₂且m(θ₁)＞m(Θ)，则命题θ₁为判决结果；T₁和T₂为预设门限，根据实验设置为0.2和0.6。

2.根据权利要求1所述的自然驾驶通话行为中基于头-眼证据融合的认知分心识别方法，其特征在于：进行融合手-嘴行为特性的手机通话行为识别，包括以下步骤:

(1)手部肤色分割：首先运用基于类Haar特征的Adaboost算法定位人脸，并设置灰度阈值排除面部低灰度区域，获得干净的肤色；在YCbCr空间中提取肤色像素的Cb和Cr分量，对各分量进行点阵采样，Cr和Cb分量的采样样本近似遵循高斯分布规律，分别建立Cr与Cb分量的高斯模型，再分别获取各高斯模型的均值μ_r、μ_b和均方差σ_r、σ_b，依据μ_r±σ_r和μ_b±σ_b的原则确定肤色分割阈值；依据人体结构的生理先验知识设置驾驶人Adaboost面部矩形和左右手感兴趣区域，在此区域内采用在线肤色模型分割肤色像素；

(3)嘴动行为识别：

a：嘴唇显著边缘检测：采用多尺度局部模极大值边缘检测方法定位驾驶人嘴唇区域并采用双边滤波器进行滤波平滑，进而提取嘴唇的显著边缘，最后通过边缘的波动特性来确定驾驶人嘴动行为；

(4)手机通话行为辨识：