CN105759973A

CN105759973A - 一种基于3d视线估计的远近距离人机交互系统与方法

Info

Publication number: CN105759973A
Application number: CN201610133124.6A
Authority: CN
Inventors: 姬艳丽; 谢非; 程洪
Original assignee: University of Electronic Science and Technology of China
Current assignee: University of Electronic Science and Technology of China
Priority date: 2016-03-09
Filing date: 2016-03-09
Publication date: 2016-07-13

Abstract

本发明公开了一种基于3D视线估计的远近距离人机交互系统与方法，其系统包括深度传感器、用户选择模块、模式判断模块、视线估计模块、头部朝向估计模块和机器人动作控制模块；其方法包括交互对象选择步骤S1、交互模式判断步骤S2、3D视线估计步骤S3、头部朝向估计步骤S4和机器人动作控制步骤S5；本发明提供了一种基于3D视线估计的远近距离人机交互系统与方法，根据人与机器人的实际距离，将人机交互分为远、近距离两种模式，来对机器人动作进行控制，提高人机交互的有效性和稳定性。

Description

一种基于3D视线估计的远近距离人机交互系统与方法

技术领域

本发明涉及一种基于3D视线估计的远近距离人机交互系统与方法。

背景技术

人机交互(Human-RobotInteraction，HRI)是指人与机器人之间使用某种对话语言，以一定的交互方式，为完成确定任务的人与机器人之间的信息交换过程；随着机器人渐渐进入人们的生活，新的人机交互技术正在逐渐呈现出来，目前人与机器人的交互大多需要许多辅助工具实现，如：通过在用户身上装备诸多传感器，通过传感器接受用户动作信息，再传递给机器人，从而实现用户与机器人交互；而随着机器学习与计算机视觉等相关领域的发展，机器人可以对用户的姿态、手势、视线等进行识别；视线作为人们了解世界的最重要手段，其便利、自然的特性也使其成为了人机交互最有潜力的交互技术之一。

但是，在现有的人机交互系统中，大多并不能够根据人与机器人的实际距离，采用不同的人机交互方法，来对机器人进行控制。

发明内容

本发明的目的在于克服现有技术的不足，提供一种基于3D视线估计的远近距离人机交互系统与方法，根据人与机器人的实际距离，将人机交互分为远、近距离两种模式，来对机器人动作进行控制，提高人机交互的效果和稳定性。

本发明的目的是通过以下技术方案来实现的：一种基于3D视线估计的远近距离人机交互系统，包括用户选择模块、模式判断模块、视线估计模块、头部朝向估计模块和机器人动作控制模块；

所述的用户选择模块用于选择与机器人距离最近的用户作为交互对象；

所述的模式判断模块用于根据交互对象与机器人之间的距离进行交互模式判断：交互对象与机器人之间距离不大于l时，为近距离交互模式；当交互对象与机器人之间的距离大于l时，为远距离交互模式；

所述的视线估计模块用于在近距离交互模式下对交互对象的3D视线进行估计,并将估计结果作为机器人动作控制依据；

所述的头部朝向估计模块用于在远距离交互模式下对交互对象进行头部朝向估计，并将估计结果作为机器人动作控制依据；

所述的机器人动作控制模块用于根据视线估计模块或者头部朝向估计模块的估计结果，对机器人动作进行控制。

所述的距离l为1m。

一种基于3D视线估计的远近距离人机交互方法，包括以下步骤：

S1.交互对象选择：通过深度传感器选择距离机器人最近的用户作为交互对象；

S2.交互模式判断：获取交互对象与机器人之间的当前距离d，对距离d进行去噪处理，得到处理后的距离值d′，根据d′的距离值进行模式判断：

(1)如果d′≤l，则为近距离模式，跳转至步骤S3进行交互对象的3D视线估计；

(2)如果d′＞l，则为远距离模式，跳转至步骤S4进行交互对象的头部朝向估计；

进一步地，l一般为1m。

S3.进行3D视线估计，得到表征交互对象感兴趣区域的用户视线方向向量将其作为机器人动作控制的输入向量，并跳转至步骤S5；

S4.进行头部朝向估计，得到表征交互对象感兴趣区域的头部朝向方向将其作为机器人动作控制的输入向量，并跳转至步骤S5；

S5.机器人动作控制，根据机器人动作控制的输入向量控制机器人头部转向交互对象感兴趣区域，并控制机器人眼球进行相应转动。

所述的步骤S1包括以下子步骤：

S11.使用Kinect2深度传感器检测交互范围内的所有用户ID以及各个用户的头部中心坐标；

S12.通过Kinect2深度传感器找出头部中心坐标离传感器Z方向距离最小的用户ID，将该ID的用户作为交互对象，并保持交互对象不变。

进一步地,如果交互对象离开了交互范围,则按照步骤S11～S12重新选择交互对象。

所述的步骤S2包括以下子步骤：

S21.使用Kinect2传感器获取交互对象与机器人的当前距离d；

S22.使用卡尔曼滤波操作对距离d进行去噪处理，得到距离值d′；正是由于用户与机器人的距离d不稳定，会导致用户处于1m距离附近存在模式异常切换问题，针对这一问题，本专利对距离d采用了卡尔曼滤波操作进行去噪，将处理后的距离值d′作为模式判断依据；

S23.判断距离值d′进行模式判断：

(2)如果d′＞l，则为远距离模式，跳转至步骤S4进行交互对象的头部朝向估计。

所述的步骤S3包括以下子步骤：

S31.进行瞳孔检测，得到瞳孔中心：

具体来说，步骤S31包括以下子步骤：

S311.使用Kinect2传感器进行用户的人脸跟踪及脸部关键点检测，通过其眼部内角点和外角点确定人眼区域图像；

S312.对人眼区域图像进行直方图均衡化的预处理，增强瞳孔以及巩膜的灰度值对比度；

S313.对均衡化之后的图像进行二值化处理，分离出瞳孔区域图像；对于二值化阈值的选取，考虑到光照变化影响，使用当前经过预处理的人眼区域图像中，最低灰度值加35作为二值化阈值，分离出瞳孔区域图像；

S314.对瞳孔区域图像进行平滑处理后，通过霍夫变换得到瞳孔中心，并求出瞳孔中心在图像中的平面坐标以及图像的中心坐标；

S32.求头部中心的三维信息T和旋转矩阵R；

具体来说，所述的步骤S32包括以下子步骤：

S321.过Kinect2传感器获取头部中心三维位置信息T以及头部姿态四元数Q＝[w,x,y,z]；关于四元数的概念，对于本领域技术而言是一个公有概念，可以直接从Kinect2传感器获取，四元数Q还能够表示为Q＝[w,v]，w是标量，v是4维空间中的矢量,v＝(x,y,z),x,y,z分别表示v在三个方向的坐标。

S322.根据四元数Q＝[w,x,y,z]求其对应的旋转矩阵R：

R = |\begin{matrix} 1 - 2 (y^{2} + z^{2}) & 2 x y - 2 w z & 3 w y + 2 x z \\ 2 x y + 2 w z & 1 - 2 (x^{2} + z^{2}) & - 2 w x + 2 y z \\ - 2 w y + 2 x z & 2 w x + 2 y z & 1 - 2 (x^{2} + y^{2}) \end{matrix}|;

S33.计算头部坐标系中眼球中心的坐标C₀；

具体来说，所述的步骤S33包括以下子步骤：

S331.计算Kinect2坐标系下瞳孔中心空间坐标P_K和眼球中心空间坐标C_K的函数关系：

\{\begin{matrix} \frac{x_{p}}{u_{p} - u_{0}} = \frac{y_{p}}{v_{p} - v_{0}} = \frac{z_{p}}{f} \\ || P_{K} - C_{K} || = K \end{matrix},

式中，(u_p，v_p)瞳孔中心在图像中的平面坐标，(u₀，v₀)是图像中心的平面坐标，均由步骤S31得到，P_K＝(x_p,y_p,z_p)是瞳孔中心在Kinect2坐标系下的空间坐标，f为Kinect2传感器的焦距，C_K是Kinect2坐标系下眼球中心的空间坐标，K表示瞳孔中心P到眼球中心C的空间距离，是固定值,并且K在任何坐标系下都不变，故P_K能够用C_K表示，P_K与C_K的函数关系式表示为：

P_K＝f₁(C_K)；

S332.计算Kinect2坐标系下角膜体中心的空间坐标C_PK眼球中心C_K的空间坐标函数关系式：

C_{P K} = C_{K} + \frac{K_{0}}{K} (P_{K} - C_{K}),

式中，K₀表示角膜体中心C_p到眼球中心C的距离，是固定值，故将步骤S331中得到的函数关系P_K＝f₁(C_K)代入上式中能够得到C_PK与C_K的函数关系式，表示为：

C_PK＝f₂(C_K)；

S333.计算Kinect2坐标系下眼球中心C_K的空间坐标与头部坐标系下眼球中心空间坐标C₀的函数关系式：

C_K＝R^-1*C₀+T＝f₃(C₀)，

其中T和R由步骤S32得到，头部不动时，眼球在旋转过程中眼睛球的中心位置并没有改变。

S334.将步骤S333中得到的函数关系式代入步骤S331得到的函数关系式P_K＝f₁(C_K)中，得到P_K与C₀的函数关系式：

P_K＝f₄(C₀)，

将步骤S333中得到的函数关系式代入步骤S332中的到的函数关系式C_PK＝f₂(C_K)中，得出C_PK与C₀的函数关系式：

C_PK＝f₅(C₀)；

S335.同一个人的人眼的视轴和光轴之间的夹角是θ固定的，θ的余弦值表示为：

\frac{C_{P K} G \cdot C_{P K} P_{K}}{|| C_{P K} G || \cdot || C_{P K} P_{K} ||} = c o s θ,

式中G表示Kinect2坐标系中注视点的空间坐标，将C_K＝f₃(C₀),P_K＝f₄(C₀),C_PK＝f₅(C₀)代入θ的余弦值表达式中，式中就只有C₀和G两个未知量，C₀和G的函数关系表示为：

C₀＝f₆(G)；

S336.通过标定程序，让用户注视一系列标定的点，并转化到Kinect2坐标系中，得到Kinect2坐标系中注视点的空间坐标G，将G的坐标代入公式C₀＝f₆(G)，得到头部坐标系下眼球中心空间坐标C₀；

S34.计算Kinect2坐标系下眼球中心坐标C_K和瞳孔中心坐标P_K：

C_K＝f₃(C₀)，

P_K＝f₄(C₀)，

S35.估计交互对象的视线方向：设计算得到的眼球中心坐标为C_K＝(O_x,O_y,O_z)，瞳孔中心坐标为P_K＝(P_x,P_y,P_z)，根据这两点计算眼球注视方向g(X,Y,Z)：

\frac{X - O_{x}}{P_{x} - O_{x}} = \frac{Y - O_{y}}{P_{y} - O_{y}} = \frac{Z - O_{z}}{P_{z} - O_{z}},

将眼球注视方向表示为单位向量

所述的步骤S4包括以下子步骤：

S41.通过Kinect2传感器的功能获取用户头部旋转四元数Q′＝[w′,x′,y′,z′]；

S42.通过旋转四元数求得体头部姿态的欧拉角：

p i t c h = \tan^{- 1} \frac{2 (w^{'} x^{'} + y^{'} z^{'})}{1 - 2 (x^{' 2} + y^{' 2})},

yaw＝sin^-12(w′y′-z′x′)，

r o l l = \tan^{- 1} \frac{2 (w^{'} z^{'} + x^{'} y^{'})}{1 - 2 (y^{' 2} + z^{' 2})};

pitch为头部绕X轴的旋转弧度，yaw为头部绕Y轴旋转弧度，roll为头部绕Z轴的旋转弧度；

S43.根据pitch，yaw，roll的计算结果即可获取头部朝向的方向向量为：

{\overset{&RightArrow;}{n}}_{2} = (\cos p i t c h, \cos y a w, \cos r o l l) = (a_{2}, b_{2}, c_{2}) .

所述的步骤S5包括以下子步骤：

S51.设机器人动作控制的输入向量如果在近距离模式，取如果在远距离模式取

S52.计算向量与Kinect2坐标系三条轴的夹角α₁，β₁，γ₁；

S53.以机器人头部轴心位置为原点，依据Kinect2坐标系轴方向建立机器人坐标系，驱动机器人头部旋转,使机器人在转动过程中与Kinect2坐标系三条轴产生的夹角为α，β，γ满足：

α＝α₁，β＝β₁，γ＝γ₁；

即可实现机器人头部朝向用户感兴趣区域；

S54.定义机器人分别向上，下，左，右四个方向下的眼睛状态，根据向量的X方向和Y方向分量，作为眼睛横向和纵向转动程度的参数，其范围为(-1，1)；控制实现机器人眼球转动，看向用户的感兴趣区域。

本发明的有益效果是：(1)根据人与机器人的实际距离，将人机交互分为远、近距离两种模式，来对机器人动作进行控制，提高人机交互的有效性和稳定性。

(2)在选定交互对象后，保持交互对象不变，直到交互对象离开交互范围，是人机交互在一段时间内具有良好的有序性，不会出现交互对象不停变化的情况。

(3)在进行距离判断的过程中，采用卡尔曼滤波操作对深度传感器采集到的距离进行去噪，用去噪后的距离值作为判断依据，判断更加准确。

(3)在近距离交互模式下，采用3D视线估计的方法，来进行机器人动作控制，估计效果准确。

(4)在源距离交互模式下，3D视线估计效果较差，使用头部朝向估计的方法来实现机器人动作控制，估计效果好。

(5)在控制机器人头部动作的同时，还控制机器人眼睛进行相应的转动，机器人在交互过程表现更加自然。

附图说明

图1为本发明的系统原理框图；

图2为本发明的方法流程图；

图3为模式判断流程图；

图4为3D视线估计流程图；

图5为瞳孔检测流程图；

图6为头部朝向估计流程图；

图7为机器人动作控制流程图；

图8为标准人眼的模型图；

图9为Kinect2坐标系的示意图。

具体实施方式

下面结合附图进一步详细描述本发明的技术方案，但本发明的保护范围不局限于以下所述。

如图1所示，一种基于3D视线估计的远近距离人机交互系统，包括用户选择模块、模式判断模块、视线估计模块、头部朝向估计模块和机器人动作控制模块；

所述的距离l为1m。

如图2所示，一种基于3D视线估计的远近距离人机交互方法，包括以下步骤：

进一步地，l可自行设定，一般为1m。

所述的步骤S1包括以下子步骤：

进一步地，用户的ID表征用户的身份，可以理解成Kinect2传感器为交互范围内的每个用户分配的标签；这里的头部中心坐标指的是Kinect2坐标系下的头部中心坐标。

S12.通过Kinect2深度传感器找出头部中心坐标离传感器Z方向(也就是Kinect2坐标系Z轴方向)距离最小的用户ID，将该ID的用户作为交互对象，并保持交互对象不变。

进一步地，Kinect2坐标系是基于Kinect2传感器的坐标系，对本领域技术人员而言，如何建立Kinect2坐标系属于公知技术；如图9所示，Kinect2坐标系的建立方式如下，以Kinect2传感器(摄像头)为原点，水平方向为X轴，竖直方向为Y轴，景深方向为Z轴；面向Kinect2传感器来看，X轴的向右正方向，Y轴向上为正方向，Kinect2传感器摄像方向(景深方向)SensorDirection为Z轴正方向。

如图3所示,所述的步骤S2包括以下子步骤：

S21.使用Kinect2传感器获取交互对象与机器人的当前距离d；

S23.判断距离值d′进行模式判断：

如图4所示，所述的步骤S3包括以下子步骤：

S31.进行瞳孔检测，得到瞳孔中心：

如图5所示，具体来说，步骤S31包括以下子步骤：

S32.求头部中心的三维信息T和旋转矩阵R；

具体来说，所述的步骤S32包括以下子步骤：

S322.根据四元数Q＝[w,x,y,z]求其对应的旋转矩阵R：

R = |\begin{matrix} 1 - 2 (y^{2} + z^{2}) & 2 x y - 2 w z & 3 w y + 2 x z \\ 2 x y + 2 w z & 1 - 2 (x^{2} + z^{2}) & - 2 w x + 2 y z \\ - 2 w y + 2 x z & 2 w x + 2 y z & 1 - 2 (x^{2} + y^{2}) \end{matrix}|;

S33.计算头部坐标系中眼球中心的坐标C₀；如图8所示，为标准人眼的模型图；

具体来说，所述的步骤S33包括以下子步骤：

{\begin{matrix} \frac{x_{p}}{u_{p} - u_{0}} = \frac{y_{p}}{v_{p} - v_{0}} = \frac{z_{p}}{f} \\ || P_{K} - C_{K} || = K \end{matrix},

式中，(u_p，v_p)瞳孔中心在图像中的平面坐标，(u₀，v₀)是图像中心的平面坐标，均由步骤S31得到，P_K＝(x_p,y_p,z_p)是瞳孔中心在Kinect2坐标系下的空间坐标，f为Kinect2传感器的焦距，C_K是Kinect2坐标系下眼球中心的空间坐标，K表示瞳孔中心P到眼球中心C的空间距离，是固定值,故P_K能够用C_K表示，P_K与C_K的函数关系式表示为：

P_K＝f₁(C_K)；

C_{P K} = C_{K} + \frac{K_{0}}{K} (P_{K} - C_{K}),

式中，K₀表示角膜体中心C_p到眼球中心C的距离，是固定值,故将步骤S331中得到的函数关系P_K＝f₁(C_K)代入上式中能够得到C_PK与C_K的函数关系式，表示为：

C_PK＝f₂(C_K)；

C_K＝R^-1*C₀+T＝f₃(C₀)，

其中T和R由步骤S32得到，头部不动时，眼球在旋转过程中眼睛球的中心位置并没有改变。S334.将步骤S333中得到的函数关系式代入步骤S331得到的函数关系式P_K＝f₁(C_K)中，得到P_K与C₀的函数关系式：

P_K＝f₄(C₀)，

C_PK＝f₅(C₀)；

S335.同一个人的人眼的视轴Visualaxis和光轴Opticalaxis之间的夹角是θ固定的，θ的余弦值表示为：

\frac{C_{P K} G \cdot C_{P K} P_{K}}{|| C_{P K} G || \cdot || C_{P K} P_{K} ||} = c o s θ,

C₀＝f₆(G)；

S34.计算Kinect2坐标系下眼球中心坐标C_K和瞳孔中心坐标P_K：

C_K＝f₃(C₀)，

P_K＝f₄(C₀)，

\frac{X - O_{x}}{P_{x} - O_{x}} = \frac{Y - O_{y}}{P_{y} - O_{y}} = \frac{Z - O_{z}}{P_{z} - O_{z}},

将眼球注视方向表示为单位向量

如图6所示，所述的步骤S4包括以下子步骤：

S42.通过旋转四元数求得体头部姿态的欧拉角：

p i t c h = \tan^{- 1} \frac{2 (w^{'} x^{'} + y^{'} z^{'})}{1 - 2 (x^{' 2} + y^{' 2})},

yaw＝sin^-12(w′y′-z′x′)，

r o l l = \tan^{- 1} \frac{2 (w^{'} z^{'} + x^{'} y^{'})}{1 - 2 (y^{' 2} + z^{' 2})};

pitch为头部绕X轴的旋转弧度(也就是章动角)，yaw为头部绕Y轴旋转弧度(也就是旋进角)，roll为头部绕Z轴的旋转弧度(也就是自转角)；

{\overset{&RightArrow;}{n}}_{2} = (\cos p i t c h, \cos y a w, \cos r o l l) = (a_{2}, b_{2}, c_{2}) .

如图7所示，所述的步骤S5包括以下子步骤：

S52.计算向量与Kinect2坐标系三条轴的夹角α₁，β₁，γ₁；

α＝α₁，β＝β₁，γ＝γ₁；

即可实现机器人头部朝向用户感兴趣区域；

Claims

1.一种基于3D视线估计的远近距离人机交互系统，其特征在于：包括深度传感器、用户选择模块、模式判断模块、视线估计模块、头部朝向估计模块和机器人动作控制模块；

所述的深度传感器用于进行数据采集，为用户选择模块、模式判断模块、视线估计模块、头部朝向估计模块和机器人动作控制模块的工作提供数据依据；

2.根据权利要求1所述的一种基于3D视线估计的远近距离人机交互系统，其特征在于：所述的深度传感器为Kinect2传感器，所述的距离l为1m。

3.一种基于3D视线估计的远近距离人机交互方法，其特征在于：包括以下步骤：

4.根据权利要求3所述的一种基于3D视线估计的远近距离人机交互方法，其特征在于：所述的步骤S1包括以下子步骤：

5.根据权利要求3所述的一种基于3D视线估计的远近距离人机交互方法，其特征在于：所述的步骤S2包括以下子步骤：

S21.使用Kinect2传感器获取交互对象与机器人的当前距离d；

S22.使用卡尔曼滤波操作对距离d进行去噪处理，得到距离值d′；

S23.判断距离值d′进行模式判断：

6.根据权利要求3所述的一种基于3D视线估计的远近距离人机交互方法，其特征在于：所述的步骤S3包括以下子步骤：

S31.进行瞳孔检测，得到瞳孔中心：

S32.求头部中心的三维信息T和旋转矩阵R；

S33.计算头部坐标系中眼球中心的坐标C₀；

S34.计算Kinect2坐标系下眼球中心坐标C_K和瞳孔中心坐标P_K：

\frac{X - O_{x}}{P_{x} - O_{x}} = \frac{Y - O_{y}}{P_{y} - O_{y}} = \frac{Z - O_{z}}{P_{z} - O_{z}},

将眼球注视方向表示为单位向量

7.根据权利要求3所述的一种基于3D视线估计的远近距离人机交互方法，其特征在于：所述的步骤S4包括以下子步骤：

S42.通过旋转四元数求得体头部姿态的欧拉角：

p i t c h = \tan^{- 1} \frac{2 (w^{'} x^{'} + y^{'} z^{'})}{1 - 2 (x^{' 2} + y^{' 2})},

yaw＝sin^-12(w′y′-z′x′)，

r o l l = \tan^{- 1} \frac{2 (w^{'} z^{'} + x^{'} y^{'})}{1 - 2 (y^{' 2} + z^{' 2})};

{\overset{&RightArrow;}{n}}_{2} = (\cos p i t c h, \cos y a w, \cos r o l l) = (a_{2}, b_{2}, c_{2}) .

8.根据权利要求3所述的一种基于3D视线估计的远近距离人机交互方法，其特征在于：所述的步骤S5包括以下子步骤：

S52.计算向量与Kinect2坐标系三条轴的夹角α₁，β₁，γ₁；

α＝α₁，β＝β₁，γ＝γ₁；

即可实现机器人头部朝向用户感兴趣区域；