CN105787478A

CN105787478A - 基于神经网络和灵敏度参数的人脸转向识别方法

Info

Publication number: CN105787478A
Application number: CN201610230290.8A
Authority: CN
Inventors: 刘辉; 李燕飞; 张雷; 张健
Original assignee: Central South University
Current assignee: Central South University
Priority date: 2016-04-14
Filing date: 2016-04-14
Publication date: 2016-07-20
Anticipated expiration: 2036-04-14
Also published as: CN105787478B

Abstract

本发明公开了一种基于神经网络和灵敏度参数的人脸转向识别方法，包括步骤：对采集到的单帧彩色图像逐一进行第一静态人脸朝向识别，包括将单帧彩色图像进行预处理并提取脸部特征向量，根据脸部特征向量中眼睛和\或鼻子的位置判断单帧彩色图像的人脸朝向是正面、朝左还是朝右；在给定的采集时间内，对采集到的所有单帧彩色图像都进行第一静态人脸朝向识别，得出一个按照时序依次排列的第一人脸朝向结果集和多个脸部特征向量；采用神经网络分类对多个脸部特征向量和第一人脸朝向结果集进行过程分析，识别指令意图，得出人脸转向过程给出的第一指令结果。本发明能在光照很强烈，采集的图像背光很强烈的情况下实现准确地识别面部的转向。

Description

基于神经网络和灵敏度参数的人脸转向识别方法

技术领域

本发明涉及移动机器人领域，尤其涉及一种用于机器人的基于神经网络和灵敏度参数的人脸转向识别方法。

背景技术

在复杂室内环境中，如现代实验室、运输物流工厂等，移动机器人常用来替代人员执行简单、危险、重复性的任务，以节省大量的人力资源成本。在流程控制特别繁琐的室内环境中，如在化学实验室中，移动机器人的运用能减少科研人员接触危险品的机会，不仅能够保证实验的准确性，而且能有效地降低事故发生几率。

人机交互是移动机器人智能化的重要组成部分，如今，人类已经从通过触摸式，如鼠标、键盘、按钮等媒介，对机器进行指令发送发展到通过各种传感器(如声音传感器，红外传感器等)的运用给机器下达各种任务指令。微软公司Kinect传感器的出现，使人机交互方式又迈出了一大步，基于Kinect传感器开发的交互界面下，人身体本身就可以成为控制器。譬如，使用双臂完成几种姿势来操控机器人完成任务(如申请号201210267315.3公开了《一种双臂机器人基于Kinect的人机交互方法》和申请号201310327955.3公开了《基于kinect人体骨骼跟踪控制的智能机器人人机交互方法》)，但是这种应用场景范围非常受限。

例如：当机器人面对与双手紧抱重物或手持物品的工作人员进行人机交互，或者机器人面对电梯里挤满不同工作单位的人员时，该如何听从指令；此外，还需要一些与特定的操作任务无关的手势用于改变机器人的操作模式，这些都造成了操作任务的交流不自然。因此需要一种自然的容易被操作人员理解记忆的控制方法。

当然，我们也可以利用语音来进行操作(如申请号201410057451.9公开了《一种基于单人手势和语音信息的机器人人工导航方法》)，但是如果在工厂里或者声音嘈杂的实验室环境下，移动机器人如何正确的接收并分析识别所下达的语音指令也是一个难题。

这些公开的档案中，很多都侧重于或只考虑人的肢体行为，只依赖于Kinect传感器提供的骨骼数据，而忽略了人类社会中另一种重要的交流媒介——人脸，并且Kinect传感器本身拥有廉价而又优越的硬件条件，如深度传感器，红外传感器和普通摄像头可以提供可达到每秒30帧的1080p高清图像，这些高清图像足够可以应付要求达到高识别率的人脸识别技术并且可以构建清晰的人脸三维模型，通过人脸面部与头部行为来对机器人获取控制权和下达指令。

然而，普通的人脸识别大多是基于静态单帧图像处理或者只关注于脸部细微特征变化(如申请号201410848027.6公开了《基于Kinect及人脸识别的疲劳驾驶检测方法》)，虽然可以达到很高的识别准确率，但是不能应用于与移动机器人交互的动态过程中，因为，如果运用脸部表情刻意变化去表征某个指令，对于用户来说不够自然、感到不适并且表情细微的变化特征抖动会影响指令正确识别率。此外，如果只处理单个时间点的数据帧，当机器人捕捉到的人脸本身就是有旋转角度的人脸图像，譬如，机器人首先捕捉到朝右的人脸图像，过了两秒后捕捉到人脸图像又是朝右，是否能判断此人做出的行为一定是头部向右转动？答案是否定的，因为在2秒这段时间内人的头部行为是未知的，这就降低了识别的准确率。

此外，虽然论文《基于图像旋转变换的改进PCA与LVQ的人脸识别》和《基于LVQ神经网络的人脸朝向识别方法》都利用了LVQ(LearningVectorQuantization，学习矢量量化)神经网络来研究人脸朝向的识别，但他们都是对单个静态人脸图片的朝向分析，而在机器人的人机交互中需要识别的是人脸的动态实时转向过程，单个静态图片的人脸朝向识别结果是无法用于动态控制机器人的，因为机器人根本无法根据瞬间的人脸朝向来判断人的实际转向控制意图。如何定义并运用人脸灵敏度参数(比如人脸转向角度、速度等)来对实时连续采集到的各帧人脸图像进行动态识别和追踪判断，从而准确地推断出人脸转向意图，正是本发明所解决的技术难题。在实际的机器人人机互动控制中，既要求高的识别准确率又要求短的计算时间。

发明内容

本发明目的在于提供一种基于神经网络和灵敏度参数的人脸转向识别方法，以解决现有面部识别应用于与移动机器人交互的动态过程中识别的准确率不高的技术问题。

为实现上述目的，本发明提供了一种基于神经网络和灵敏度参数的人脸转向识别方法，包括以下步骤：

S1：对采集到的单帧彩色图像逐一进行第一静态人脸朝向识别，包括将单帧彩色图像进行预处理并提取脸部特征向量，根据脸部特征向量中眼睛和\或鼻子的位置判断单帧彩色图像的人脸朝向是正面、朝左还是朝右；

S2：在给定的采集时间内，对采集到的所有单帧彩色图像都进行第一静态人脸朝向识别，得出一个按照时序依次排列的第一人脸朝向结果集和多个脸部特征向量；

S3：采用神经网络分类对多个脸部特征向量和第一人脸朝向结果集进行过程分析，识别指令意图，得出人脸朝向过程给出的第一指令结果。

作为本发明的方法的进一步改进：

优选地，步骤S2完成后，人脸转向识别方法还包括：

S4：对采集到的单帧彩色图像逐一进行第二静态人脸朝向识别，根据人脸旋转的角度大小判断单帧图像的人脸朝向是正面、朝左还是朝右；

S5：在给定的采集时间内，对采集到的所有单帧彩色图像都进行第二静态人脸朝向识别，得出一个按照时序依次排列的第二人脸朝向结果集；

S6：对第二人脸朝向结果集进行过程分析，识别指令意图，得出人脸朝向过程给出的第二指令结果；

S7：将第一指令结果和第二指令结果进行对比，当二者一致时输出指令结果，当二者不一致时，反馈给用户要求用户再次给出头部转动指令。

优选地，步骤S1包括以下步骤：

S101：将单帧彩色图像进行预处理，包括将单帧彩色图像的大小裁剪缩放成标准尺寸，转换成灰度图像后进行边缘检测；

S102：将经边缘检测后的灰度图像划分为多行多列，并提取眼睛和\或鼻子位置的图像二值化，构成脸部特征向量；

S103：根据脸部特征向量中眼睛和\或鼻子的位置判断单帧彩色图像的人脸朝向是正面、朝左还是朝右。

优选地，步骤S101包括以下步骤：

S1011：将单帧彩色图像转换成RGB格式图像，然后转换为HSV图像格式，进行光补偿和削弱，输出新的RGB图像；

S1012：利用双三次插值方法对图像大小进行缩放，成为标准大小格式320X240彩色图像；

S1013：统一标准化后的图像转换成灰度图像，使用Canny边界检测算法进行边界检测。

优选地，步骤S102包括：将经边缘检测后的灰度图像划分为6行8列；将第4行第2列至第4行第7列的八个小方格进行二值化，构成脸部特征向量，计算公式如下：

其中，M_240×320为标准大小格式320X240的灰度图像的矩阵；g_i,j(i＝1,2,…,240；j＝1,2,…,320)为M_240×320中的灰度值；

N_6×8是6行8列矩阵，f_i,j为N_6×8矩阵中的灰度值，P_1×6为脸部特征向量。

优选地，步骤S3中，神经网络分类通过以下步骤建立模型：

S301：采集多个脸部特征向量作为神经网络分类的输入向量样本，建立神经网络并进行训练，找出合适的隐藏层神经元个数；

S302：调整网络权值，直至神经网络形成符合条件的分类标准；

神经网络分类的模型形成后，采用如下方式判断脸部特征向量指示的朝向：

S303：将多个脸部特征向量作为神经网络分类的输入向量，输入神经网络分类的模型，得到对应的人脸朝向。

优选地，神经网络的输入神经元6个，隐藏层神经元12个，输出层神经元1个。

优选地，步骤S4包括以下步骤：

S401：对采集到的单帧彩色图像，获取头部原点四元数，采用如下公式计算起始时刻头部旋转的角度的欧拉角的大小：

其中，四元数是由实数w加上三个虚数单位i,j,k组成的超复数，表示为w+xi+yj+zk，其中i的旋转代表X轴与Y轴相交平面中X轴正向向Y轴正向的旋转，j旋转代表Z轴与X轴相交平面中Z轴正向向X轴正向的旋转，k旋转代表Y轴与Z轴相交平面中Y轴正向向Z轴正向的旋转，-i、-j、-k分别代表i、j、k旋转的反向旋转；

S402：根据欧拉角中ω值大小，判断人脸朝向：如果起始时刻ω大于左灵敏度阈值，判断起始人脸朝向为朝左；如果起始时刻ω处于左灵敏度阈值与右灵敏度阈值之间或者等于左灵敏度阈值与右灵敏度阈值时，判断起始人脸朝向为正面；如果起始时刻ω小于右灵敏度阈值，判断起始人脸朝向为朝右；左灵敏度阈值为0或者根据用户动作习惯设置的第一定值；右灵敏度阈值为0或者根据用户动作习惯设置的第二定值。

S403：记录人脸朝向状态。

优选地，步骤S5包括以下步骤：

S501：获取在给定的采集时间内按照采集频率采集的多个单帧图像；

S502：采用步骤S101对采集到的所有单帧图像都计算起始时刻头部旋转的角度的欧拉角的大小，得出一个按照时序依次排列的向量ω＝(ω₁,ω₂,…,ω_i,…,ω_30t)且t＝1,2,3,…；其中t为单帧图像采集的时序编号；

S503：采用步骤S102判断向量ω中的每个元素的人脸朝向，得出人脸朝向数组r＝(r₁,r₂,…,r_i,…,r_30t)且t＝1,2,3,…,r_i＝0,1,2。

优选地，第一指令结果和第二指令结果均包括转动朝向，转动朝向包括正面、朝左及朝右，步骤S3或S6中的过程分析包括以下步骤：

S304：如果起始人脸朝向为正面，遍历第一人脸朝向结果集或第二人脸朝向结果集中的后续值，如果后续值都是正面则指令结果为正面；如果遍历时出现的第一个不为正面的值是朝左则判断指令结果为朝左，如果遍历时出现的第一个不为正面的值是朝右则判断指令结果为朝右；

S305：如果起始人脸朝向为朝左，遍历第一人脸朝向结果集或第二人脸朝向结果集中的后续值，直到出现第一个不是朝左的值，如果这个值为正面，则继续遍历；如果继续遍历出现的值为朝右则判断指令结果为朝右；如果只有正面和朝左那么统计后续值分别为正面和朝左的数量，如果朝左的数量多那么判断指令结果为朝左；反之结果为朝右；如果没有非值是朝左的其他值，则指令结果为正面；

S306：如果起始人脸朝向为朝右，遍历第一人脸朝向结果集或第二人脸朝向结果集中的后续值，直到出现第一个不是朝右的值，如果这个值为正面，则继续遍历；如果继续遍历出现的值为朝左则判断指令结果为朝左；如果只有正面和朝右那么统计后续值分别为正面和朝右的数量，如果朝右的数量多那么结果为朝右，反之结果为朝左；如果没有非值是朝右的其他值，则指令结果为正面。

本发明具有以下有益效果：

1、本发明的基于神经网络和灵敏度参数的人脸转向识别方法，能在要避让的工作人员手持重物不便移动，或者在光照很强烈，采集的图像背光很强烈的情况下实现准确地识别面部的转向，识别准确率高。

2、在优选方案中，本发明的基于神经网络和灵敏度参数的人脸转向识别方法，结合灵敏度参数中的人脸转向幅度的方式与神经网络的判断结果进行对比验证，能将结果的识别准确度提高到99％以上，且适用于大多数光照条件，不受环境的限制，适用范围更广。

除了上面所描述的目的、特征和优点之外，本发明还有其它的目的、特征和优点。下面将参照附图，对本发明作进一步详细的说明。

附图说明

构成本申请的一部分的附图用来提供对本发明的进一步理解，本发明的示意性实施例及其说明用于解释本发明，并不构成对本发明的不当限定。在附图中：

图1是本发明优选实施例的基于神经网络和灵敏度参数的人脸转向识别方法的流程示意图；

图2是本发明另一优选实施例的基于神经网络和灵敏度参数的人脸转向识别方法的流程示意图；

图3是本发明优选实施例的图像预处理的示意图；

图4是本发明优选实施例的隐藏层神经元数目确定测试结果示意图；

图5是本发明优选实施例的授权人发出指令朝右避让可能出现的指令形式示意图；

图6是本发明优选实施例的提取的人脸特征向量值示例；

图7是本发明优选实施例的提取的人脸特征向量进行神经网络训练的示意图。

具体实施方式

以下结合附图对本发明的实施例进行详细说明，但是本发明可以由权利要求限定和覆盖的多种不同方式实施。

本实施例中所称的灵敏度参数是指根据不同人员的脸部转向习惯而定义的用于实现移动机器人交互控制的一组参数，包括人脸转向速度、人脸转向幅度和控制权竞胜。人脸转向速度代表个体头部转向速度的快慢。人脸转向幅度是指人脸正对于机器人正面所旋转的具体角度。在高质量的移动机器人运输交互控制中，除了人脸转向速度和人脸转向幅度非常重要，控制权竞胜参数也直接影响着交互控制的智能化水平。例如，当机器人视野内出现多名工作人员，而这些工作人员中存在一名或几名想与机器人进行交互，除此外其他人员没有有与机器人进行交互的意愿，如果机器人没有预先考虑这个参数，机器人会实时进行指令侦听，这样有可能那些没有意愿给机器人下达指令的人的一些无意识的转头动作，机器人会误以为该个体给他下达了相关指令内容，譬如假设该人无意识的进行了头部右转动作，这个头部右转动作预设的指令内容是朝右前进，那么机器人如果执行这个指令可能会与朝右前进的路线上的某物体或其他人产生碰撞，产生严重事故。因此，这个参数是至关重要的，个体若想对机器人下达指令，也就是想要获取机器人的临时控制权，那么事先可以通过给出这个参数值告知机器人本人想要下达指令，说明接下来的指令动作是有效的，其他人未首先给出有效的控制权竞胜参数，那么接下的下达的指令视为无效。该参数可以由眼部闭合状态、个体头部抬头或低头具体角度大小或者混合方式来表征。本实施例仅表述与以头部转动过程结果作为相应的指令内容，告知机器人停止等待、行走方向和相应的退避方向的相关内容。本实施例包括但不限于采用微软生产的Kinect体感传感器实现彩色图像的采集。

参见图1，本发明的基于神经网络和灵敏度参数的人脸转向识别方法，包括以下步骤：

S1：对采集到的单帧彩色图像逐一进行第一静态人脸朝向识别，包括将单帧彩色图像进行预处理并提取脸部特征向量，根据脸部特征向量中眼睛和\或鼻子的位置判断单帧彩色图像的人脸朝向是正面、朝左还是朝右。

S2：在给定的采集时间内，对采集到的所有单帧彩色图像都进行第一静态人脸朝向识别，得出一个按照时序依次排列的第一人脸朝向结果集和多个脸部特征向量。

通过上述步骤，能在要避让的工作人员手持重物不便移动，或者在光照很强烈，采集的图像背光很强烈的情况下实现准确地识别面部的转向，识别准确率高。

在实际应用中，在上述步骤的基础上，本发明的基于灵敏度参数的人脸转向识别方法还可进行优化，以下说明另一个优化后的实施例，参见图2，在进行本发明的识别之前，移动机器人先进行如下工作：

实时检测侦听模块完成后，从它获取检测到的人数结果和所有相应追踪号。然后从Kinect传感器实时采集彩色图像(ColorFrameSource参数)，通过Kinect传感器(SDK库中可以直接读取)获取(FaceBoundingBoxInColorSpace参数)中矩形四个顶点位于彩色图像平面内的坐标值(left,right,top,bottom)，提取授权人脸部区域彩色图像。

判断指令触发状态变量，是否已经收到指令触发命令(眼睛闭合状态数据)。如果是，表示有人通过眼睛闭合状态给出指令，有意图要控制机器人，因此寻找授权人，并且如果找到授权人，则获取授权人的追踪号和采集时间长度；如果否，表示没有人想控制机器人，机器人获取下一人身体数据帧和面部数据帧，进行持续监测。

运用寻找授权人方法，寻找授权人，并记录追踪号。如果没有找到授权人那么获取身体数据帧和面部数据帧。获取授权人的追踪号后，对授权人发出的指令采用本实施例的方法进行识别，以授权人的头部转动过程结果作为相应的指令内容，告知机器人停止等待、行走方向和相应的退避方向。

参见图2，本实施例的基于神经网络和灵敏度参数的人脸转向识别方法，包括以下步骤：

S1：对采集到的单帧彩色图像逐一进行第一静态人脸朝向识别，包括将单帧彩色图像进行预处理并提取脸部特征向量，根据脸部特征向量中眼睛和\或鼻子的位置判断单帧彩色图像的人脸朝向是正面、朝左还是朝右。具体包括以下步骤：

S101：将单帧彩色图像进行预处理，包括将单帧彩色图像的大小裁剪缩放成标准尺寸，转换成灰度图像后进行边缘检测：

S1011：将单帧彩色图像转换成RGB格式图像，然后转换为HSV图像格式，进行光补偿和削弱，输出新的RGB图像。

S1012：利用双三次插值方法对图像大小进行缩放，成为标准大小格式240X320彩色图像。本实施例利用双三次插值方法对图像大小进行缩放，成为标准大小格式240X320彩色图像。双三次插值又称立方卷积插值，它是一种更加复杂的插值方式。利用待采样点周围16个点的灰度值作三次插值，不仅考虑到4个直接相邻点的灰度影响，而且考虑到各邻点间灰度值变化率的影响。三次运算可以得到更接近高分辨率图像的放大效果。

S1013：统一标准化后的图像转换成灰度图像，使用Canny边界检测算法进行边界检测。首先将图片进行高斯去噪，高斯去噪其实就是一个低通滤波器，滤除高频噪声。然后求解梯度幅度和方向，采用sobel算子求解，sobel算子是图像处理中的算子之一，主要用作边缘检测。即：如果以A代表原始图像，G_x及G_y分别代表经横向及纵向边缘检测的图像，其公式如下：

G_{x} = [\begin{matrix} - 1 & 0 & + 1 \\ - 2 & 0 & - 2 \\ - 1 & 0 & + 1 \end{matrix}] * A - - - (1)

G_{y} = [\begin{matrix} + 1 & + 2 & + 1 \\ 0 & 0 & 0 \\ - 1 & - 2 & - 1 \end{matrix}] * A - - - (2)

图像的每一个像素的横向及纵向梯度近似值可用以下的公式结合，则用以下公式计算梯度G：

G = \sqrt{{G_{x}}^{2} + {G_{y}}^{2}} - - - (3)

然后用以下公式计算梯度方向θ：

θ = \tan^{- 1} (\frac{G_{y}}{G_{x}}) - - - (4)

然后第二步，进行非极大值抑制。这一步排除非边缘像素。最后一步，Canny使用了滞后阈值，滞后阈值需要两个阈值(高阈值和低阈值)：

如果某一像素位置的幅值超过高阈值，该像素被保留为边缘像素。

如果某一像素位置的幅值小于低阈值，该像素被排除。

如果某一像素位置的幅值在两个阈值之间，该像素仅仅在连接到一个高于高阈值的像素时被保留。

S102：将经边缘检测后的灰度图像划分为多行多列，如图3所示。观察图发现，通过眼睛和鼻子在图中的位置我们可以很准确的代表一幅的朝向，为了最大程度的减少神经网络神经元的数量，减少训练时间和增大算法效率，我们针对图3中第4行第2列至第4行第7列的八个小方格进行二值话，也就是如果灰度值不为0设为1，然后分别统计每个小方格中灰度值为1的数量，最后构成一组有八个数组成的向量组代表一幅图像。最后选择鼻子位置这6个小格原因有二，其一，为减少两鬓的干扰，分别去掉左右一格，同时考虑到戴眼镜的人与不带眼睛的人对眼部那一行(第二行)像素值的干扰，不取眼睛那行作为特征向量。其二，输入神经元个数只有6个，大大减少了运算量。详细提取特征向量过程如下，计算公式如下：

S3：采用神经网络分类对多个脸部特征向量和第一人脸朝向结果集进行过程分析，识别指令意图，得出人脸转向过程给出的第一指令结果。本实施例中采用LVQ(LearningVectorQuantization，学习矢量量化)神经网络。其他分类神经网络(如支持向量机、极限学习机、BP神经网络等)也可以用在这个步骤，他们的工作原理和步骤与LVQ神经网络类似。具体步骤如下：

神经网络分类通过以下步骤建立模型：

S301：采集多个脸部特征向量作为神经网络分类的输入向量样本，建立神经网络并进行训练，找出合适的隐藏层神经元个数(本实施例中，神经网络的输入神经元6个，隐藏层神经元12个，输出层神经元1个)。

S302：调整网络权值，直至神经网络形成符合条件的分类标准。即：计算距离输入向量最近的竞争层神经元，从而找到与之相连接的输出层神经元，若输入向量的分类结果与输出层神经元所对应的分类结果一致，则对应的竞争层神经元权值沿着输入向量方向移动，反之，若两者类别不一致则对应的竞争层神经元权值沿着输入向量反方向移动。

此步骤为进行神经网络分类之前必须要先进行的网络训练步骤。对于一个建立的神经网络，需要采用训练样本如图6中所示各组数据对网络进行训练，训练体现为通过输入已知的输入向量(方框内各行G到L列代表的是依据鼻子位置采集的特征向量对网络权值进行不断的调整，使网络形成正确的分类标准。然后，训练完成后，这个网络就可以用于对未知结果的输入向量的分类。也就是说，我们先要采集一定数量的已知朝向结果的特征向量组如图6中，我们采集了130组样本对建立的网络先进行训练，然后训练好的网络就可以对后面采集到的未知朝向结果的特征向量进行朝向分类。

参见图7，每次我们获得一张人脸图像，都会对其进行6行、8列的等分分割，然后将第4行(鼻子那一行)的第2到第7列的那6个等分区间中的特征数据作为神经网络的输入单元，将人脸的朝向作为神经网络的输出单元。因此建立了“6输入-1输出”的神经网络结构。根据每个人脸图像的这6个鼻子附近区域的数值决定人脸的朝向，然后推出人脸的实时旋转方向。

图6所示采集的20组数据，M列数字1、2、3分别代表正面，朝左和朝右，A列到F列代表图中第二行眼睛位置特征向量组，G列到L列代表鼻子那一行特征向量组，我们观察鼻子那组发现，人脸正面朝向时，前后两部分像素值为零，人脸朝左时，后部分像素值为零，人脸朝右时，前部分像素值为零，因此鼻子所在行的这六组数据能清楚的代表一幅人脸图像的特征,可以作为神经网络分类输入特征向量。

采集完足够量的训练用数据后，写入Excel表格。首先建立LVQ神经网络，并进行训练。

S3021a：使用MATLAB建立神经网络。

S3021b：采集训练样本集。

S3021c：通过在MATLAB上训练、测试神经网络找出合适的隐藏层神经元个数。采集130组数据，80组作为训练数据训练网络，50组作为测试数据，对有不同隐藏层神经元个数的网络，依次用两套数据训练，然后测试得出错误率，结果如图4所示，当隐藏层神经元个数为12左右时，错误率最小，准确率达到84％，所以隐藏层神经元个数取12个。

S3021d：使用C#语言编写神经网络，合并入系统中。

S3021e：使用训练样本集训练神经网络。

然后从Excel表格中读取训练数据训练神经网络(输入神经元6个，隐藏层神经元12个，输出层神经元1个)，调整网络权值。LVQ神经网络基本思想是:计算距离输入向量最近的竞争层神经元，从而找到与之相连接的输出层神经元，若输入向量的分类结果与输出层神经元所对应的分类结果一致，则对应的竞争层神经元权值沿着输入向量方向移动，反之，若两者类别不一致则对应的竞争层神经元权值沿着输入向量反方向移动。基本的算法步骤为:

S3022a：初始化输入层与竞争层之间的权值w_ij及学习率γ(γ>0)。

S3022b：将输入向量x＝(x₁,x₂,x₃,....,x_R,)送入到输出层，并根据式(7)计算竞争层神经元与输入向量距离：

d_{i} = \sqrt{Σ_{j = 1}^{R} {(x_{i} - w_{i j})}^{2}}, i = 1, 2, ..., S^{1} - - - (7)

S3022c：选择与输入向量距离最小的竞争层神经元，若d_i最小，则记与之连接的的输出层神经元的类标签为C_j。

S3022d：记输入向量的类标签C_i,若C_j＝C_i,则根据式(8)调整权值，否则根据式(9)进行权值更新：

w_ijnew＝w_ijold+γ(x-w_ijold)(8)

w_ijxew＝w_ijold-γ(x-w_ijold)(9)

实时的人脸转向识别算法主要难点在于授权人通过头部转动发出指令的行为的不确定性，譬如，在给定的采集图像时间区域内，授权人初始状态是正面面对机器人，此时初始头部旋转角度为0°，接下来，授权人意图告知机器人右转，于是授权人先进行头部右转，考虑到采集时间长短与授权人头部转动速度快慢，可能在既定的图像采集时间段内，如果授权人头部转动速度比较慢，那么在既定采集时间段内，机器人采集到的授权人头部运动过程是从正朝对机器人到右转，如果授权人头部转动速度较快，那么采集到的过程可能是先正朝对机器人，然后右转，然后又是左转复位。因此，如果单纯从采集的几个片段判断授权人意图是不正确的，可能采集到的人脸图转向识别结果是朝左，但是实际是朝右，对于一般的只采集几个时间点进行识别的方法中这些类似的错误结果发生的概率很大。

所以为了解决这个过程性问题，首先本实施例大致把指令意图与实际头部行为分为如图5所示几种情况(图中说明的是一个过程，只列出授权人指令意图是朝右，朝左情形与图示类似)，其中图5a表示起始时刻脸正面朝对机器；图5b表示起始时刻脸朝右对机器人；图5c表示起始时刻脸朝左对机器人。

上述情况如果用数字1代表正脸面对，2代表朝左，3代表朝右则可分别表述为：

情形一：起始时刻采集到的脸朝向为1，正常时间范围内状态过程可表述为如11133333。如果采集时间(人脸转向速度参数)很长则可能出现如11133331111情形。

情形二：起始时刻采集到的脸朝向为3，正常时间范围内状态过程可表述为如33333333。如果采集时间(人脸转向速度参数)很长则可能出现如33333331111情形。

情形三：起始时刻采集到的脸朝向为2，正常时间范围内状态过程可表述为如222111。如果采集时间很长(人脸转向速度参数)则可能出现如222111(333111)222情形。

因此，本实施例中步骤S3中的过程分析具体采用以下步骤实现：

S304：如果起始人脸朝向为1，遍历人脸朝向结果集中的后续值，如果后续值都是1则指令结果为1；如果遍历时出现的第一个不为1的值是2则判断指令结果为2，如果遍历时出现的第一个不为1的值是3则判断指令结果为3。

S305：如果起始人脸朝向为2，遍历人脸朝向结果集中的后续值，直到出现第一个不是2的值，如果这个值为1，则继续遍历；如果继续遍历出现的值为3则判断指令结果为3；如果只有1和2那么统计后续值分别为1和2的数量，如果2的数量多那么判断指令结果为2；反之结果为3；如果没有非值是2的其他值，则指令结果为1(可能存在授权人意图发出右转命令或左转，但是转动角度实在太小默认为没转动，如果有这样的需求，可以采用调节灵敏度通过头部转动角度可以精确的判断)。

S306：如果起始人脸朝向为3，遍历人脸朝向结果集中的后续值，直到出现第一个不是3的值，如果这个值为1，则继续遍历；如果继续遍历出现的值为2则判断指令结果为2；如果只有1和3那么统计后续值分别为1和3的数量，如果3的数量多那么结果为3，反之结果为2；如果没有非值是3的其他值，则指令结果为1(可能存在授权人意图发出右转命令或左转，但是转动角度实在太小默认为没转动，如果有这样的需求，可以采用调节灵敏度通过头部转动角度可以精确的判断)。

S4：对采集到的单帧彩色图像逐一进行第二静态人脸朝向识别，根据人脸旋转的角度大小判断单帧图像的人脸朝向是正面、朝左还是朝右。包括以下步骤：

其中，四元数是由实数w加上三个虚数单位i,j,k组成的超复数，表示为w+xi+yj+zk，其中i的旋转代表X轴与Y轴相交平面中X轴正向向Y轴正向的旋转，j旋转代表Z轴与X轴相交平面中Z轴正向向X轴正向的旋转，k旋转代表Y轴与Z轴相交平面中Y轴正向向Z轴正向的旋转，-i、-j、-k分别代表i、j、k旋转的反向旋转。

S403：记录人脸朝向状态。

S5：在给定的采集时间内，对采集到的所有单帧彩色图像都进行第二静态人脸朝向识别，得出一个按照时序依次排列的第二人脸朝向结果集。包括以下步骤：

S6：对第二人脸朝向结果集进行过程分析，识别指令意图，得出人脸转向过程给出的第二指令结果。第二指令结果包括转动朝向，S6中的过程分析与S304-306相同。

得到指令结果后，将指令结果输送给移动机器人的执行部件以控制移动机器人按照指令结果中的转动朝向和朝向角度行进或退避。

应用试验：测试了40次正面、30次朝左和30次朝右，在不同光照情况下，调节了三种人脸转向幅度值，如表1所示为仅运用基于人脸旋转角度的人脸转向识别算法的人机交互方法的实施结果。灵敏度越低(角度越大)，则识别正确率越高。此方式下，优点在于算法简单，响应时间快。然而在光照强烈的情况下，识别率不够理想，原因在于采集于Kinect传感器的角度数据受光照影响震荡太严重。表2所示为运用本实施例的实施结果，明显发现克服了前者强背光下的低正确率问题，不足之处在于授权人不能给出具体朝向角度方向。具体的方式选择依据用户场景而定。

表1运用基于人脸旋转角度的人脸转向识别算法的人机交互方法的实施结果

	5°	10°	15°
				一般情况下	72.5％	92.5％	100％
强背光情况下	60％	87.5％	98％

表2本实施例的实施结果

	5°	10°	15°
				一般情况下	99％	99％	100％
强背光情况下	93％	98％	100％

综上可知，本发明的基于神经网络和灵敏度参数的人脸转向识别方法，结合灵敏度参数中的人脸转向幅度的方式与神经网络的判断结果进行对比验证，能将结果的识别准确度提高到99％以上，参见表1，且适用于大多数光照条件，不受环境的限制，适用范围更广。

以上所述仅为本发明的优选实施例而已，并不用于限制本发明，对于本领域的技术人员来说，本发明可以有各种更改和变化。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于神经网络和灵敏度参数的人脸转向识别方法，其特征在于，包括以下步骤：

S1：对采集到的单帧彩色图像逐一进行第一静态人脸朝向识别，包括将所述单帧彩色图像进行预处理并提取脸部特征向量，根据所述脸部特征向量中眼睛和\或鼻子的位置判断所述单帧彩色图像的人脸朝向是正面、朝左还是朝右；

S3：采用神经网络分类对所述多个脸部特征向量和所述第一人脸朝向结果集进行过程分析，识别指令意图，得出人脸转向过程给出的第一指令结果。

2.根据权利要求1所述的人脸转向识别方法，其特征在于，所述步骤S2完成后，所述人脸转向识别方法还包括：

S4：对采集到的单帧彩色图像逐一进行第二静态人脸朝向识别，根据人脸旋转的角度大小判断所述单帧图像的人脸朝向是正面、朝左还是朝右；

S6：对所述第二人脸朝向结果集进行过程分析，识别指令意图，得出人脸朝向过程给出的第二指令结果；

S7：将所述第一指令结果和所述第二指令结果进行对比，当二者一致时输出指令结果，当二者不一致时，反馈给用户要求用户再次给出头部转动指令。

3.根据权利要求1或2所述的人脸转向识别方法，其特征在于，所述步骤S1包括以下步骤：

S101：将所述单帧彩色图像进行预处理，包括将所述单帧彩色图像的大小裁剪缩放成标准尺寸，转换成灰度图像后进行边缘检测；

S102：将所述经边缘检测后的灰度图像划分为多行多列，并提取眼睛和\或鼻子位置的图像二值化，构成脸部特征向量；

S103：根据所述脸部特征向量中眼睛和\或鼻子的位置判断所述单帧彩色图像的人脸朝向是正面、朝左还是朝右。

4.根据权利要求3所述的人脸转向识别方法，其特征在于，所述步骤S101包括以下步骤：

S1011：将所述单帧彩色图像转换成RGB格式图像，然后转换为HSV图像格式，进行光补偿和削弱，输出新的RGB图像；

S1012：利用双三次插值方法对图像大小进行缩放，成为标准大小格式240X320彩色图像；

5.根据权利要求4所述的人脸转向识别方法，其特征在于，所述步骤S102包括：将所述经边缘检测后的灰度图像划分为6行8列；将第4行第2列至第4行第7列的八个小方格进行二值化，构成脸部特征向量，计算公式如下：

6.根据权利要求5所述的人脸转向识别方法，其特征在于，所述步骤S3中，所述神经网络分类通过以下步骤建立模型：

S302：调整网络权值，直至所述神经网络形成符合条件的分类标准；

所述神经网络分类的模型形成后，采用如下方式判断脸部特征向量指示的朝向：

S303：将所述多个脸部特征向量作为神经网络分类的输入向量，输入所述神经网络分类的模型，得到对应的人脸朝向。

7.根据权利要求5所述的人脸转向识别方法，其特征在于，所述神经网络的输入神经元6个，隐藏层神经元12个，输出层神经元1个。

8.根据权利要求2所述的人脸转向识别方法，其特征在于，所述步骤S4包括以下步骤：

S402：根据欧拉角中ω值大小，判断人脸朝向：如果起始时刻ω大于左灵敏度阈值，判断起始人脸朝向为朝左；如果起始时刻ω处于左灵敏度阈值与右灵敏度阈值之间或者等于左灵敏度阈值与右灵敏度阈值时，判断起始人脸朝向为正面；如果起始时刻ω小于右灵敏度阈值，判断起始人脸朝向为朝右；所述左灵敏度阈值为0或者根据用户动作习惯设置的第一定值；所述右灵敏度阈值为0或者根据用户动作习惯设置的第二定值；

S403：记录人脸朝向状态。

9.根据权利要求8所述的人脸转向识别方法，其特征在于，所述步骤S5包括以下步骤：

S502：采用步骤S101对采集到的所有单帧图像都计算起始时刻头部旋转的角度的欧拉角的大小，得出一个按照时序依次排列的向量ω＝(ω₁,ω₂,…,ω_i,…,ω_30t)且t＝1,2,3,…；其中t为所述单帧图像采集的时序编号；

10.根据权利要求1或2或8或9所述的人脸转向识别方法，其特征在于，所述第一指令结果和第二指令结果均包括转动朝向，所述转动朝向包括正面、朝左及朝右，所述步骤S3或S6中的过程分析包括以下步骤：