CN104951808B

CN104951808B - 一种用于机器人交互对象检测的3d视线方向估计方法

Info

Publication number: CN104951808B
Application number: CN201510406557.XA
Authority: CN
Inventors: 程洪; 姬艳丽; 谢道训; 杨路; 谢非
Original assignee: University of Electronic Science and Technology of China
Current assignee: University of Electronic Science and Technology of China
Priority date: 2015-07-10
Filing date: 2015-07-10
Publication date: 2018-04-27
Anticipated expiration: 2035-07-10
Also published as: CN104951808A

Abstract

本发明公开了一种用于机器人交互对象检测的3D视线方向估计方法，包括以下步骤：S1头部姿势估计；S2.映射矩阵计算；S3.人眼检测；S4.瞳孔中心检测；S5.视线方向计算；S6.交互对象判断。本发明提供了一种用于机器人交互对象检测的3D视线方向估计方法，使用RGBD传感器头部姿势的估计并应用于机器人中，系统仅采用一个RGBD传感器，无需其他的传感器，具有硬件简单，实现容易的特点；训练强分类器来进行人眼检测，实现简单，检测跟踪效果好；在检测瞳孔中心时，采用投影积分法、霍夫变换法和透视校正，能够得到比较准确的瞳孔中心。

Description

一种用于机器人交互对象检测的3D视线方向估计方法

技术领域

本发明涉及一种用于机器人交互对象检测的3D视线方向估计方法。

背景技术

人机交互(Human-Computer Interaction,HCI)是研究人与计算机之间通过相互理解的交流与通信，在最大程度上为人们完成信息管理、服务和处理等功能，使计算机真正成为人们工作学习的和谐助手的一门技术科学。

视线估计技术作为人机交互技术的重要分支，主要研究对人类眼睛运动特性的检测与识别，实现对其他功能系统的自动控制；该技术的最大优点是可以通过眼晴注视实现对外部设备的控制，进而实现多任务操作；有关资料统计显示,全国至少有50万的人口存在不同程度的肢体瘫痪,生活不能自理；那么如果他们能用眼睛来代替手操作,以后再加上机电控制技术就完全可以增加他们的独立能力,提高生活质量。

因此，近年来有研究人员开始把视线方向估计技术应用于社会服务机器人中，实现机器人自动锁定用户，而用户可以通过眼睛控制机器人等功能；对于视线方向估计，近年来的研究主要分为两大方向：一是通过神经网络进行估计；二是通过眼部特征分析进行实现，根据神经网络来估计视线方向具有较高的精度和实时性，但缺少很好的鲁棒性，因为当环境改变时需要重新建立模型。

发明内容

本发明的目的在于克服现有技术的不足，提供一种用于机器人交互对象检测的3D视线方向估计方法，使用RGBD传感器头部姿势的估计并应用于机器人中，系统仅采用一个RGBD传感器，无需其他的传感器，具有硬件简单，实现容易的特点；训练强分类器来进行人眼检测，实现简单，检测跟踪效果好；在检测瞳孔中心时，采用投影积分法、霍夫变换法和透视校正，能够得到比较准确的瞳孔中心。

本发明的目的是通过以下技术方案来实现的：一种用于机器人交互对象检测的3D视线方向估计方法，它包括以下步骤：

S1.进行头部姿势估计：使用RGBD传感器采集彩色信息和深度信息，根据采集到的信息计算头部的三维位置信息T以及头部姿势R；

S2.计算出得到的头部姿势R与头部基准姿势R0之间的映射矩阵M，其中头部基准姿势R0为用户和机器人正面相对时的头部姿势，R0＝[0,0,1]；

S3.采集人眼图片，从采集到的人眼图片中提取出人眼区域图像；

S4.得到人眼区域图像后，对瞳孔中心进行检测和计算，得到最终的瞳孔中心p_t；

S5.计算在头部坐标系中眼球中心的坐标C₀，并根据C₀计算出世界坐标系下眼球中心坐标C_K和瞳孔中心坐标P_K，设计算得到的眼球中心坐标为C_K＝(O_x,O_y,O_z)，瞳孔中心坐标为P_K＝(P_x,P_y,P_z)，根据这两点计算眼球注视方向g(X,Y,Z)：

然后计算用户视线方向为：

g_d＝R*M^-1*g。

在得到用户视线方向结果之后，还包括一个交互对象判断的步骤，包括以下子步骤：

S61.计算用户的视线方向与机器人视线的角度α；

S62.判断角度α是否小于预先设定的阈值μ：

(1)α小于预先设定的阈值μ，该用户是机器人的交互对象；

(2)α不小于预先设定的阈值μ，该用户不是机器人的交互对象。

所述的步骤S3包括以下子步骤：

S31.训练强分类器；

S32.采集人眼图片；

S33.使用训练好的强分类器从采集到的人眼图片中提取出人眼区域图像。

所述的步骤S31包括以下子步骤：

S311.采集大量图片，并将每个采集到的图片分离为不同的样本，得到人眼训练样本数据集，并设定一个最大的训练循环次数t；

S312.对每个样本权重值进行初始化,即初始化每个样本的概率分布；

S313.进行t次循环迭代，每次循环迭代需要进行：在当前的概率分布下训练弱分类器，得到基本的分类器；计算该弱分类器的分类误差率；更新训练数据集中每个样本的权重；

S314.把前面训练得到的t个弱分类器按照权重进行级联相连，得到最终的强分类器。

所述的步骤S4包括以下子步骤：

S41.得到人眼区域图像后，使用投影积分法求出图像的水平投影积分IPF_w(y)和垂直投影积分IPF_h(y)：

式中，w和h分别为图像的宽和高，I(x,y)为像素点(x,y)的像素值；

S42.经过两个方向的投影积分后，得到一个很小的包含瞳孔区域的图像，采用霍夫变换法得到瞳孔中心p；

S43.把该瞳孔中心通过映射矩阵M进行透视校正，得到最终瞳孔中心p_t：

p_t＝M*p，

式中，M为步骤S2中得到的映射矩阵。

所述的步骤S5包括以下子步骤：

S51.计算世界坐标系下瞳孔中心空间坐标P_K和眼球中心空间坐标C_K的函数关系：

式中，(u_p，v_p)瞳孔中心在图像中的平面坐标，可以由步骤S4得到，(u₀，v₀)是图像中心的平面坐标，P_K＝(x_p,y_p,z_p)是瞳孔中心在世界坐标系下的空间坐标，f为RGBD传感器的焦距，C_K是世界坐标系下眼球中心的空间坐标，K表示世界坐标系下瞳孔中心P到眼球中心C的空间距离，是固定值，故P_K能够用C_K表示，P_K与C_K的函数关系式表示为：

P_K＝f₁(C_K)；

S52.计算世界坐标系下角膜体中心的空间坐标C_PK眼球中心C_K的空间坐标函数关系式：

式中，K₀表示角膜体中心C_p到眼球中心C的距离，是固定值，故将步骤S51中得到的函数关系P_K＝f₁(C_K)代入上式中能够得到C_PK与C_K的函数关系式，表示为：

C_PK＝f₂(C_K)；

S53.计算世界坐标系下眼球中心C_K的空间坐标与头部坐标系下眼球中心空间坐标C₀的函数关系式：

C_K＝R*C₀+T＝f₃(C₀)，

其中T和R由步骤S1得到，作为头部坐标系和世界坐标系的转换矩阵，头部不动时，眼球在旋转过程中眼睛球的中心位置并没有改变。

S54.将步骤S53中得到的函数关系式代入步骤S51得到的函数关系式P_K＝f₁(C_K)中，得到P_K与C₀的函数关系式：

P_K＝f₄(C₀)，

将步骤S53中得到的函数关系式代入步骤S52中的到的函数关系式C_PK＝f₂(C_K)中，得出C_PK与C₀的函数关系式：

C_PK＝f₅(C₀)；

S55.同一个人的人眼的视轴和光轴之间的夹角是θ固定的，θ的余弦值表示为：

式中G表示世界坐标系中注视点的空间坐标，将C_K＝f₃(C₀),P_K＝f₄(C₀),C_PK＝f₅(C₀)代入θ的余弦值表达式中，式中就只有C₀和G两个未知量，C₀和G的函数关系表示为：

C₀＝f₆(G)；

S56.通过标定程序，让用户注视一系列标定的点，并转化到世界坐标系中，得到世界坐标系中注视点的空间坐标G，将G的坐标代入公式C₀＝f₆(G)，的到头部坐标系下眼球中心空间坐标C₀，将C₀分别代入C_K＝f₃(C₀)和P_K＝f₄(C₀)中，得到世界坐标系下眼球中心坐标C_K和瞳孔中心坐标P_K；

S57.设计算得到的眼球中心坐标为C_K＝(O_x,O_y,O_z)，瞳孔中心坐标为P_K＝(P_x,P_y,P_z)，根据这两点计算眼球注视方向g(X,Y,Z)：

然后计算出用户视线方向为：

g_d＝R*M^-1*g。

本发明的有益效果是：(1)使用RGBD传感器头部姿势的估计并应用于机器人中，系统仅采用一个RGBD传感器，无需其他的传感器，具有硬件简单，实现容易的特点。

(2)训练强分类器来进行人眼检测，实现简单，检测跟踪效果好。

(3)在检测瞳孔中心时，采用投影积分法、霍夫变换法和透视校正，能够得到比较准确的瞳孔中心。

附图说明

图1为本发明的流程图；

图2为3D视线估计模型图；

图3为交互对象判断示意图。

具体实施方式

下面结合附图进一步详细描述本发明的技术方案，但本发明的保护范围不局限于以下所述。

如图1所示，一种用于机器人交互对象检测的3D视线方向估计方法，它包括以下步骤：

然后计算用户视线方向为：

g_d＝R*M^-1*g。

所述的步骤S3包括以下子步骤：

S31.训练强分类器；

S32.采集人眼图片；

所述的步骤S31包括以下子步骤：

所述的步骤S4包括以下子步骤：

p_t＝M*p，

式中，M为步骤S2中得到的映射矩阵。

所述的步骤S5包括以下子步骤：如图2所示，为3D视线估计模型图。

P_K＝f₁(C_K)；

C_PK＝f₂(C_K)；

C_K＝R*C₀+T＝f₃(C₀)，

P_K＝f₄(C₀)，

C_PK＝f₅(C₀)；

C₀＝f₆(G)；

然后计算出用户视线方向为：

g_d＝R*M^-1*g。

如图3所示，为交互对象判断示意图，在得到用户视线方向结果之后，还包括一个交互对象判断的步骤，包括以下子步骤：

S61.计算用户的视线方向与机器人视线的角度α；

S62.判断角度α是否小于预先设定的阈值μ：

(1)α小于预先设定的阈值μ，该用户是机器人的交互对象；

需要说明的是:在计算头部姿势时，可能会遇到用户和机器人正面相对和非正面相对的情况，非正面相对时，摄像头拍摄的图像有透视变化，这影响到后续的瞳孔中心三维坐标检测，故需要求出头部姿势R与R0的映射矩阵M，在后续进行瞳孔中心的三维坐标检测，再通过映射矩阵M进行透视校正；在正面相对，头部姿势R与R0相当于两个相同的矩阵进行映射，后续进行透视校正或者不进行透视校正都一样，并不影响瞳孔中心的三维坐标检测结果；只是此处统一进行求映射矩阵，后续统一进行校正，不用分情况讨论，更加简单方便。

Claims

1.一种用于机器人交互对象检测的3D视线方向估计方法，其特征在于：它包括以下步骤：

S2.计算出得到的头部姿势R与头部基准姿势R0之间的映射矩阵M，其中头部基准姿势R0为用户和机器人正面相对时的头部姿势；

S3.采集人眼图片，并从采集到的人眼图片中提取出人眼区域图像；

S4.得到人眼区域图像后，对瞳孔中心进行检测和计算，得到最终的瞳孔中心pt；

S5.计算在头部坐标系中眼球中心的坐标C₀，并根据C₀计算出世界坐标系下眼球中心坐标C_K和瞳孔中心坐标P_K，设计算得到的眼球中心坐标为C_K＝(O_x,O_y,O_z)，瞳孔中心坐标为P_K＝(P_x,P_y,P_z)，根据这两点计算眼球注视方向g＝(X,Y,Z)：

然后计算用户视线方向为：

g_d＝R*M^-1*g；

S61.计算用户的视线方向与机器人视线的角度α；

S62.判断角度α是否小于预先设定的阈值μ：

(1)α小于预先设定的阈值μ，该用户是机器人的交互对象；

2.根据权利要求1所述的一种用于机器人交互对象检测的3D视线方向估计方法，其特征在于：所述的步骤S3包括以下子步骤：

S31.训练强分类器；

S32.采集人眼图片；

3.根据权利要求2所述的一种用于机器人交互对象检测的3D视线方向估计方法，其特征在于：所述的步骤S31包括以下子步骤：

4.根据权利要求1所述的一种用于机器人交互对象检测的3D视线方向估计方法，其特征在于：所述的步骤S4包括以下子步骤：

<mrow> <msub> <mi>IPF</mi> <mi>w</mi> </msub> <mrow> <mo>(</mo> <mi>y</mi> <mo>)</mo> </mrow> <mo>=</mo> <munderover> <mo>&Sigma;</mo> <mrow> <mi>x</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>w</mi> </munderover> <mi>I</mi> <mrow> <mo>(</mo> <mi>x</mi> <mo>,</mo> <mi>y</mi> <mo>)</mo> </mrow> <mo>;</mo> <msub> <mi>IPF</mi> <mi>h</mi> </msub> <mrow> <mo>(</mo> <mi>y</mi> <mo>)</mo> </mrow> <mo>=</mo> <munderover> <mo>&Sigma;</mo> <mrow> <mi>y</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>h</mi> </munderover> <mi>I</mi> <mrow> <mo>(</mo> <mi>x</mi> <mo>,</mo> <mi>y</mi> <mo>)</mo> </mrow> <mo>,</mo> </mrow>

p_t＝M*p，

式中，M为步骤S2中得到的映射矩阵。

5.根据权利要求1所述的一种用于机器人交互对象检测的3D视线方向估计方法，其特征在于：所述的步骤S5包括以下子步骤：

P_K＝f₁(C_K)；

S52.计算世界坐标系下角膜体中心的空间坐标C_PK和眼球中心C_K的空间坐标函数关系式：

式中，K₀表示角膜体中心C_pk到眼球中心C的距离，是固定值，故将步骤S51中得到的函数关系P_K＝f₁(C_K)代入上式中能够得到C_PK与C_K的函数关系式，表示为：C_PK＝f₂(C_K)；

C_K＝R*C₀+T＝f3(C₀)，

其中T和R由步骤S1得到，作为头部坐标系和世界坐标系的转换矩阵，头部不动时，眼球在旋转过程中眼睛球的中心位置并没有改变；

P_K＝f₄(C₀)，

将步骤S53中得到的函数关系式代入步骤S52中的到的函数关系式C_PK＝f2(C_K)中，得出C_PK与C₀的函数关系式：

C_PK＝f₅(C₀)；

<mrow> <mfrac> <mrow> <msub> <mi>C</mi> <mrow> <mi>P</mi> <mi>K</mi> </mrow> </msub> <mi>G</mi> <mo>&CenterDot;</mo> <msub> <mi>C</mi> <mrow> <mi>P</mi> <mi>K</mi> </mrow> </msub> <msub> <mi>P</mi> <mi>K</mi> </msub> </mrow> <mrow> <mo>|</mo> <mo>|</mo> <msub> <mi>C</mi> <mrow> <mi>P</mi> <mi>K</mi> </mrow> </msub> <mi>G</mi> <mo>|</mo> <mo>|</mo> <mo>&CenterDot;</mo> <mo>|</mo> <mo>|</mo> <msub> <mi>C</mi> <mrow> <mi>P</mi> <mi>K</mi> </mrow> </msub> <msub> <mi>P</mi> <mi>K</mi> </msub> <mo>|</mo> <mo>|</mo> </mrow> </mfrac> <mo>=</mo> <mi>c</mi> <mi>o</mi> <mi>s</mi> <mi>&theta;</mi> <mo>,</mo> </mrow>

式中G表示世界坐标系中注视点的空间坐标，将C_K＝f₃(C₀)，P_K＝f₄(C₀)，C_PK＝f₅(C₀)代入θ的余弦值表达式中，式中就只有C₀和G两个未知量，C₀和G的函数关系表示为：

C₀＝f₆(G)；

S56.通过标定程序，让用户注视一系列标定的点，并转化到世界坐标系中，得到世界坐标系中注视点的空间坐标G，将G的坐标代入公式C₀＝f₆(G)，得到头部坐标系下眼球中心空间坐标C₀，将C₀分别代入C_K＝f₃(C₀)和P_K＝f₄(C₀)中，得到世界坐标系下眼球中心坐标C_K和瞳孔中心坐标P_K；

然后计算出用户视线方向为：

g_d＝R*M^-1*g。