CN107909061B

CN107909061B - 一种基于不完备特征的头部姿态跟踪装置及方法

Info

Publication number: CN107909061B
Application number: CN201711286561.2A
Authority: CN
Inventors: 陈东义; 黄志奇; 赵明皓
Original assignee: University of Electronic Science and Technology of China
Current assignee: University of Electronic Science and Technology of China
Priority date: 2017-12-07
Filing date: 2017-12-07
Publication date: 2021-03-30
Anticipated expiration: 2037-12-07
Also published as: CN107909061A

Abstract

本发明公开了一种基于不完备特征的头部姿态跟踪装置及方法，基于计算机视觉的头部姿态检测系统，对实时采集的视频流进行归一化处理，然后通过CNN训练的模型进行特征确认是否有面部，如检测面部失败，则通过训练过的对抗网络模型将面部特征不完整的部分进行补全；在视频中跟踪人脸的位置，然后通过受稀疏约束的模型来标记面部特征点位置，利用PnP算法得出头部姿态的Pitch、Yaw、Roll三个角度值[θ_xθ_yθ_z]，再发送给随动云台，因而，本发明能够提供准确的头部位置姿态信息，实时性高且鲁棒性好。

Description

一种基于不完备特征的头部姿态跟踪装置及方法

技术领域

本发明属于目标检测跟踪和远程控制技术领域，更为具体地讲，涉及一种基于不完备特征的头部姿态跟踪装置及方法。

背景技术

头部姿态检测广泛应用于虚拟现实与人机交互、智能机器人控制和疲劳驾驶检测等领域。

统计数据表明，25％—30％的道路交通事故是由驾驶人注意力分散造成的。研究驾驶人的头部姿态，进而对驾驶人的注意力进行分析，对于降低交通事故的发生率。因此，头部姿态检测对于分析驾驶人的驾驶行为、驾驶人的精神状态等具有重要意义。

虚拟现实应用是一个高度逼真地模拟人在自然环境中的视、听、动等行为的人机交互技术。虚拟现实的交互是通过人类自然技能与虚拟环境进行交互观察与操作，这种操作涉及视觉、听觉、触觉等多种感知功能。利用头部姿态检测与跟踪技术的人机交互系统能使现实世界与虚拟世界建立有机联系，构建更加逼真的虚拟现实环境，同时也有助于对高级的主动视觉反馈系统的研究

智能移动服务机器人是头部姿态检测的重要应用领域，智能轮椅作为一种具有代表性的智能移动服务机器人，是当前研究的热点。但是在目前应用的电动轮椅中，使用者还是主要靠操纵杆或按钮来手动控制轮椅的运动，而对于一些严重残疾人士如四肢瘫痪者，摇杆控制以及部分肢体控制例如手势控制等方法受到了很大的制约，因此，头势控制作为一种新型的人机交互方式成为了近年来研究的热点。

目前采用的头部姿态检测方法分为以下几类：

1、佩戴运动传感器方法：此类方法通过在测试对象头部安装加速度计和陀螺仪传感器，通过接收传感器运动数据判断头姿，此类方法但需要佩戴装置，用户体验较差，且存在零度漂移问题，每次使用之前需要校准，操作繁琐。

2、LED标定方法：通过佩戴有一定数量LED的头套，利用摄像头捕捉头套图像，再根据LED的位置判断当前的位置，同样，此方法精度高，但仍需佩戴装置并且进行校准。

3、基于图像的人脸头部姿态估计算法：主要分为基于模型的方法和基于人脸表观的方法。其中，基于模型的方法实现简单、计算高效准确、易于理解，由于受非约束坏境中的投影几何形变、背影光照变化、前景遮挡问题和低分辨率等因素的影响，而准确的特征点检测在姿态变化较大，光线条件不好的条件下仍然是一个急待解决的挑战。使得不完备特征情况下的头部姿态多自由度估计一直是一个亟需解决的问题。

为了解决上述方法存在的问题，本发明采用计算机视觉与传感器融合检测头部姿态的方法，并利用深度学习解决不完备特征时目标跟踪不准确的问题，利用深度卷积神经网络解决头部姿态检测中受非约束坏境中的投影几何形变、背影光照变化、前景遮挡问题和低分辨率等问题，较为准确地实现不完备特征情况下的头部姿态多自由度估计。

同时控制摄像头跟随操作人员头部姿态进行现场视频采集，解决操作复杂等问题，采用双目视觉摄像头，模拟人眼解决视场小、缺乏深度信息等问题。采取环幕显示与VR头盔显示等不同显示方法，对不同的检测方案与不同的需求提供解决方案。

发明内容

本发明的目的在于克服现有技术的不足，提供一种基于不完备特征的头部姿态跟踪装置及方法，基于深度学习的头部姿态识别和不完备特征的头部姿态识别，提供准确的头部位置姿态信息，实时性高且鲁棒性好。

为实现上述发明目的，本发明一种基于不完备特征的头部姿态跟踪装置，其特征在于，包括：连接本地控制台和随动云台的PC机；

所述本地控制台包括图像传感器和惯性传感器；图像传感器包括一组固定在操作人员面部前方，用于拍摄驾驶员面部图像的单目摄像头和红外摄像头，以及固定在操作人员头部左右两侧各一组的单目摄像头和红外摄像头；其中，单目摄像头用于装置白天工作，红外摄像头用于夜间工作；惯性传感器包括三轴陀螺仪、三轴磁力计和三轴加速度计；通过图像传感器和惯性传感器的互补特性，采集驾驶员头部姿态视频并上传至PC机；

所述PC机收到本地控制台上传的视频后，进行归一化处理，然后通过CNN训练的模型进行特征，确认是否有面部，如检测面部失败，则通过训练过的对抗网络模型将面部特征不完整的部分进行补全；在视频中跟踪人脸的位置，然后通过受稀疏约束的模型来标记面部特征点位置，利用PnP算法得出头部姿态的Pitch、Yaw、Roll三个角度值[θ_x θ_y θ_z]，再发送给随动云台；

所述随动云台包括双目视觉摄像头及其驱动电机，双目视觉摄像头用于实时采集工作环境图片，并上传至PC机，用于驾驶员观看，驱动电机根据头部姿态的Pitch、Yaw、Roll三个角度值[θ_x θ_y θ_z]驱动双目摄像头跟随操作人员头部动作。

本发明还提供一种基于不完备特征的头部姿态跟踪方法，其特征在于，包括以下步骤：

(1)、图像采集

在白天，通过单目摄像头采集驾驶员头部姿态图片，在夜间通过红外摄像头采用驾驶员头部姿态图片，再将采集的图片上传至PC机；

(2)、图片归一化

PC机收到图片后，先对图片进行空间尺度归一化和灰度幅值归一化，然后调节图像的对比度，并采用Gamma曲线校正方法进行校正；

(3)、面部特征确认

将归一化后的图片通过卷积神经网络CNN模型进行确认，如果卷积神经网络确认面部特征成功，则执行步骤(5)；如果卷积神经网络确认面部特征失败，则执行步骤(4)；

(4)、采用对抗网络模型对面部不完备特征进行补全

采用对抗网络模型对面部不完备特征进行去遮挡或还原，再通过对抗网络模型进行像素级别的自动修复与平滑，完成特征完备部分的图像细节保持和特征缺失部分的自动修复，然后进入步骤(5)；

(5)、面部跟踪

(5.1)、通过金字塔Lucas Kannade光流法对当前帧图片中定位到的人脸特征点(x_i,y_i)得到下一帧的人脸特征点(x_i+1,y_i+1)，再通过金字塔Lucas Kannade光流法反向跟踪点(x_i+1,y_i+1)，估计出上一帧的人脸特征点(x_i,y_i)，将(x_i,y_i)与(x_i+1,y_i+1)之间的欧式距离标记为正向反向误差d_i；

(5.2)、计算当前帧所有人脸特征点与当前帧估计的人脸特征点距离的中值，记为

如果

则重新初始化人脸位置，返回步骤(3)；

(5.3)、过滤掉

的人脸特征点，同时，计算所有x_i+1与x_i的归一化互相关，然后去除归一化互相关大于归一化互相关的中值的点，最后，通过剩余的人脸特征点来评估下一帧的人脸框；

(6)、面部特征点描述

(6.1)、将每一帧中的人脸框划分为4×4大小相等的cell，16个相邻的cell构成一个人脸框，用block表示；

(6.2)、计算单个cell中某一像素点(x,y)的横向梯度H(x,y)和纵向梯度V(x,y)，并据此计算出每个像素点的梯度方向值；

H(x,y)＝v(x+1,y)-v(x-1,y)

V(x,y)＝v(x,y+1)-v(x,y-1)

其中，v(x,y)为该像素点的像素值；

(6.3)、计算每个像素点(x,y)的梯度方向G(x,y)和幅值m(x,y)；

m(x,y)＝[H(x,y)²+V(x,y)²]^1/2

G(x,y)＝tan^-1(V(x,y)/H(x,y))

(6.4)、然后每个cell按梯度方向G(x,y)投票，权重为幅值m(x,y)，这样获得每个cell的9维向量；再将同一个block中的所有cell的向量连接起来得到一个block的特征向量，将所有的block向量连接起来得到整个人脸框的HOG特征矩阵ψ_k；

(6.5)、通过下式对稀疏系数γ^k进行估计，获得对特征的稀疏编码：

S^k+1＝S^k+R^kf(γ^k)

其中，

是第i帧人脸图像I_i的人脸形状S_i提取的形状索引特征，D是人脸形状种特征点周围纹理特征的稀疏字典，T是常数，k＝1,2,…,K，K为常数，循环上述算式，计算出每次迭代中的稀疏系数γ^k，得到线性回归矩阵R^k，s.t表示，|| ||表示求范数；

(7)、头部姿态参数估计

(7.1)、采用正交投影照相机算法将人脸特征点矩阵S^k+1投影到3D空间，构建人脸3D模型；

(7.2)、由2D、3D图像的坐标关系反解出旋转矩阵R_3×3：

其中s、K、R、T分别为尺度因子常数、相机成像模型、旋转矩阵以及平移向量；

(7.3)、由欧拉角与旋转矩阵R_3×3的关系，获得头部姿态的Pitch、Yaw、Roll三个角度值[θ_x θ_y θ_z]，计算方法为：

获取到人脸与摄像头的角度关系，进而得出头部姿态的Pitch、Yaw、Roll三个角度值[θ_x θ_y θ_z]

(8)、装置控制与视频显示

双目视觉摄像头实时采集工作环境图片，并上传至PC机，用于驾驶员观看，同时，驱动电机根据头部姿态的Pitch、Yaw、Roll三个角度值[θ_x θ_y θ_z]驱动双目摄像头跟随操作人员头部动作。

本发明的发明目的是这样实现的：

本发明一种基于不完备特征的头部姿态跟踪装置及方法，基于计算机视觉的头部姿态检测系统，对实时采集的视频流进行归一化处理，然后通过CNN训练的模型进行特征确认是否有面部，如检测面部失败，则通过训练过的对抗网络模型将面部特征不完整的部分进行补全；在视频中跟踪人脸的位置，然后通过受稀疏约束的模型来标记面部特征点位置，利用PnP算法得出头部姿态的Pitch、Yaw、Roll三个角度值[θ_x θ_y θ_z]，再发送给随动云台，因而，本发明能够提供准确的头部位置姿态信息，实时性高且鲁棒性好。

同时，本发明一种基于不完备特征的头部姿态跟踪装置及方法还具有以下

有益效果：

(1)、通过设计一种深层卷积神经网络结构，实现复杂函数逼近，其特有的层次结构能够对数据局部特征进行多层次抽象化的学习与表达，对于不完备特征的头部姿态检测有很好的效果，突破了传统方法中这两种面部存在遮挡时的人脸确认方法模型设计复杂，速度慢，效率低，容易带来图像细节模糊问题和图像不平滑问题；

(2)、通过设计基于生成对抗网络的不完备人脸特征的修复和检测端到端的算法框架，能够检测出特定形状与分布的特征缺失，并且通过网络进行像素级别的自动修复与平滑，完成特征完备部分的图像细节保持和特征缺失部分的自动修复，使用受稀疏约束的重构模型来迭代搜索人脸特征点位置，使得后续的头部姿态识别正确率得到提高，并且提高了网络的优化速度；

(3)、同时本发明采用了一种视觉与多传感器融合的头部姿态检测方法，利用摄像头实时拍摄操作人员的头部视频，由图像处理算法实时输出头部动作角度描述，再将视觉检测输出与多传感器检测输出相融合，最终得出人体头部姿态的角度信息。这种方法可以解决单纯采用惯性测量单元检测头部姿态所面临的惯性漂移等问题，也可以补偿在负责光照条件下的计算机视觉识别不精确的问题，进一步提高对人体头部姿态的检测精度。

附图说明

图1是本发明一种基于不完备特征的头部姿态跟踪装置原理图；

图2是一种基于不完备特征的头部姿态跟踪方法流程图；

图3是人体头部姿态角度标识图；

图4是适合头部特征检测的摄像头布局；

图5是深度神经网络结构图；

图6是270度多通道环幕显示效果图。

具体实施方式

下面结合附图对本发明的具体实施方式进行描述，以便本领域的技术人员更好地理解本发明。需要特别提醒注意的是，在以下的描述中，当已知功能和设计的详细描述也许会淡化本发明的主要内容时，这些描述在这里将被忽略。

实施例

图1是本发明一种基于不完备特征的头部姿态跟踪装置原理图。

在本实施例中，如图1所示，本发明一种基于不完备特征的头部姿态跟踪装置，包括：连接本地控制台和随动云台的PC机；

其中，本地控制台包括图像传感器和惯性传感器；图像传感器包括一组固定在操作人员面部前方，用于拍摄驾驶员面部图像的单目摄像头和红外摄像头，以及固定在操作人员头部左右两侧各一组的单目摄像头和红外摄像头；其中，单目摄像头用于装置白天工作，红外摄像头用于夜间工作；惯性传感器包括三轴陀螺仪、三轴磁力计和三轴加速度计；通过图像传感器和惯性传感器的互补特性，采集驾驶员头部姿态视频并上传至PC机；

PC机收到本地控制台上传的视频后，进行归一化处理，然后通过CNN训练的模型进行特征，确认是否有面部，如检测面部失败，则通过训练过的对抗网络模型将面部特征不完整的部分进行补全；在视频中跟踪人脸的位置，然后通过受稀疏约束的模型来标记面部特征点位置，利用PnP算法得出头部姿态的Pitch、Yaw、Roll三个角度值[θ_x θ_y θ_z]，再发送给随动云台；

随动云台包括双目视觉摄像头及其驱动电机，双目视觉摄像头用于实时采集工作环境图片，并上传至PC机，用于驾驶员观看，驱动电机根据头部姿态的Pitch、Yaw、Roll三个角度值[θ_x θ_y θ_z]驱动双目摄像头跟随操作人员头部动作。

在本实施例中，三个模块间采用无线通信的方式，具体实现采用两个工业级路由器分别置于本地与远程端，采用5GHz频道，传输距离可达2km，不仅保障了视频传输与控制命令传输的实时性，还保障了远程控制的更大范围。

下面我们结合图2，对本发明一种基于不完备特征的头部姿态跟踪方法进行详细说明，具体包括以下步骤：

S1、图像采集

在本实施例中，分别采用计算机视觉与头戴惯性测量单元融合法头部姿态检测法。头部姿态的描述方法如图3所示，人体头部姿态可以采用Yaw、Pitch、Roll三个维度的角度来完整描述，Yaw是指头部的左右旋转产生的角度，也叫偏航角；Pitch是指头部的上下旋转产生的角度，也叫俯仰角；而Roll是指头部的平面内旋转产生的角度，也叫滚转角。

如图4所示，先进行适合头部特征检测的摄像头布局，然后采用一组固定在操作人员面部前方，用于拍摄驾驶员面部图像的单目摄像头和红外摄像头，以及固定在操作人员头部左右两侧各一组的单目摄像头和红外摄像头；在白天，通过单目摄像头采集驾驶员头部姿态图片，在夜间通过红外摄像头采用驾驶员头部姿态视频，再将采集的视频上传至PC机；

S2、图片归一化

PC机收到视频后，先对视频中的每一帧图片进行空间尺度归一化和灰度幅值归一化，处理成统一尺寸的黑白图像，然后调节图像的对比度，降低图像局部的阴影和光照变化所造成的影响，同时可以抑制噪音的干扰，最后采用Gamma曲线校正方法进行校正；

S3、面部特征确认

面部特征确认基础的思路是:设脸上存在的68个特殊点(被称为landmarks)：下巴的顶部、眼睛的外沿、眉毛的内沿等等。采用dlib库中现有的人脸检测器对人脸进行初步识别，标定人脸的基本范围，并传输到特征提取与人脸跟踪模块。

将归一化后的图片通过卷积神经网络CNN模型进行确认，如果卷积神经网络确认面部特征成功，则执行步骤S5；如果卷积神经网络确认面部特征失败，则执行步骤S4；

在本实施例中，卷积神经网络CNN模型主要包括2个卷积层(含2个采样层),后接1个全连接层和soft-max输出层，如图5所示。为了提取能够预测输入图片中人脸头部偏转角度的多个特征,需要使用不同的卷积核进行卷积操作。

S4、采用生成对抗网络模型对面部不完备特征进行补全

采用生成对抗网络模型对面部不完备特征进行去遮挡或还原，此算法模型主要由1个生成器、2个判别器以及1个语义解析网络组成。生成器用于最终生成去遮挡的人脸图形，生成器的编码器由VGG网络顶端增加2层卷积层及1层池化层，并增加一层链接层组成；2个判别器分别为1个局部判别器与1个全局判别器，局部判别器用于判别生成器合成的图像是否正确，全局判别器用于判别整个图像的可信度；语义解析网络是1个预先已经训练好的网络，用于平滑生成部分与原始已经存在部分。

图像通过生成对抗网络模型进行像素级别的自动修复与平滑，完成特征完备部分的图像细节保持和特征缺失部分的自动修复，然后进入步骤S5；

S5、面部跟踪

S5.1、通过金字塔Lucas Kannade光流法对当前帧图片中定位到的人脸特征点(x_i,y_i)得到下一帧的人脸特征点(x_i+1,y_i+1)，再通过金字塔Lucas Kannade光流法反向跟踪点(x_i+1,y_i+1)，估计出上一帧的人脸特征点(x_i,y_i)，将(x_i,y_i)与(x_i+1,y_i+1)之间的欧式距离标记为正向反向误差d_i；

S5.2、计算当前帧所有人脸特征点与当前帧估计的人脸特征点距离的中值，记为

对于物体快速运动、被完全遮挡的情况，跟踪算法可能会出现漂移现象，针对这种情况，如果

则重新初始化人脸位置，返回步骤S3；

S5.3、过滤掉

S6、面部特征点描述

S6.1、将每一帧中的人脸框划分为4×4大小相等的cell，16个相邻的cell构成一个人脸框，用block表示；

S6.2、计算单个cell中某一像素点(x,y)的横向梯度H(x,y)和纵向梯度V(x,y)，并据此计算出每个像素点的梯度方向值；

H(x,y)＝v(x+1,y)-v(x-1,y)

V(x,y)＝v(x,y+1)-v(x,y-1)

其中，v(x,y)为该像素点的像素值；

S6.3、计算每个像素点(x,y)的梯度方向G(x,y)和幅值m(x,y)；

m(x,y)＝]H(x,y)²+V(x,y)²]^1/2

G(x,y)＝tan^-1(V(x,y)/H(x,y))

S6.4、然后每个cell按梯度方向G(x,y)投票，权重为幅值m(x,y)，这样获得每个cell的9维向量；再将同一个block中的所有cell的向量连接起来得到一个block的特征向量，将所有的block向量连接起来得到整个人脸框的HOG特征矩阵ψ_k；

S6.5、通过下式对稀疏系数γ^k进行估计，获得对特征的稀疏编码：

S^k+1＝S^k+R^kf(γ^k)

其中，

是第i帧人脸图像I_i的人脸形状S_i提取的形状索引特征，D是人脸形状种特征点周围纹理特征的稀疏字典，T是常数，k＝1,2,…,K，K为常数，循环上述算式，计算出每次迭代中的稀疏系数γ^k，得到线性回归矩阵R^k，s.t.表示受条件约束，|| ||表示求范数；

S7、头部姿态参数估计

S7.1、采用正交投影照相机算法将人脸特征点矩阵S^k+1投影到3D空间，构建人脸3D模型；

S7.2、由2D、3D图像的坐标关系反解出旋转矩阵R_3×3：

S7.3、由欧拉角与旋转矩阵R_3×3的关系，获得头部姿态的Pitch、Yaw、Roll三个角度值[θ_x θ_y θ_z]，计算方法为：

S8、装置控制与视频显示

通过无线传输将头部角度信息Pitch、Yaw、Roll三个角度值[θ_x θ_y θ_z]的控制信号传送到远程随动云台，由角度控制信号驱动随动云台转动，双目摄像安装在云台上，实时采集工作环境现场视频，并上传至PC机，用于操作人员观看。

在本实施例中，视频信号显示：经过视频信号的处理，视频信号的显示采用VR头盔显示与270度多通道环幕显示两种方式，两种方式可以自由切换。

VR头盔显示将人体的对外视觉、听觉封闭，并分别在左右眼屏幕上显示左右眼的图像，使人在大脑中呈现立体画面，更具有沉浸感，使得操作人员有身临其境的感觉，更好的还原现场效果。但可能会产生眩晕感，部分操作人可能不适应。

270度多通道环幕显示，在270度多通道环幕电视屏幕上通过边缘重叠、几何校正、亮度消隐的处理方式将双目摄像头视频融合为一幅画面显示到电视屏幕上。这种显示方法视场宽、视野广有立体感和沉浸感，而且人体不必佩戴显示设备，可以提供不能适应VR头盔眩晕感的用户使用，且更为舒适简洁。显示的效果如图6所示。

尽管上面对本发明说明性的具体实施方式进行了描述，以便于本技术领域的技术人员理解本发明，但应该清楚，本发明不限于具体实施方式的范围，对本技术领域的普通技术人员来讲，只要各种变化在所附的权利要求限定和确定的本发明的精神和范围内，这些变化是显而易见的，一切利用本发明构思的发明创造均在保护之列。

Claims

1.一种基于不完备特征的头部姿态跟踪装置，其特征在于，包括：连接本地控制台和随动云台的PC机；

所述PC机收到本地控制台上传的视频后，进行归一化处理，然后通过CNN模型进行面部特征确认，确认是否有面部，如检测面部失败，则通过训练过的对抗网络模型将面部特征不完整的部分进行补全；在视频中跟踪人脸的位置，然后通过受稀疏约束的模型来标记面部特征点位置，利用PnP算法得出头部姿态的Pitch、Yaw、Roll三个角度值[θ_x θ_y θ_z]，再发送给随动云台；

2.一种基于不完备特征的头部姿态跟踪方法，其特征在于，包括以下步骤：

(1)、图像采集

(2)、图片归一化

(3)、面部特征确认

(4)、采用对抗网络模型对面部不完备特征进行补全

(5)、面部跟踪