CN117435055A

CN117435055A - 基于空间立体显示器的手势增强眼球追踪的人机交互方法

Info

Publication number: CN117435055A
Application number: CN202311404454.0A
Authority: CN
Inventors: 张丹; 杨佳奇; 毛方赛; 史礼华; 周熙; 张翔宇; 彭艳
Original assignee: University of Shanghai for Science and Technology
Current assignee: University of Shanghai for Science and Technology
Priority date: 2023-10-26
Filing date: 2023-10-26
Publication date: 2024-01-23

Abstract

本发明公开一种基于空间立体显示器的手势增强眼球追踪的人机交互方法，该方法依存于空间立体显示器，用户无需多余交互设备即可实现人机交互，具体步骤包括：利用空间立体显示器的摄像头在初次扫描时建立相机三维空间坐标系，获取用户头部与手势的三维空间初始位置信息；识别眼球位置并拟合手势关键点，输出空间位置流；接收空间位置流预判手势动作并进行数据融合输出动作指令；接收动作指令，并按照特定规则进行人机交互。本发明的交互方法无需任何辅助设备，通过手势增强眼球追踪多元信息融合方法实现了空间立体显示器方便、快捷的人机交互，以较低的成本为用户提供了更准确、更快速、更高效的人机交互体验。

Description

基于空间立体显示器的手势增强眼球追踪的人机交互方法

技术领域

本发明涉及一种基于空间立体显示器的手势增强眼球追踪的人机交互方法。

背景技术

(1)人机交互技术：指人与计算机信息交流与互动过程，具体包括设计与开发用户界面以便用户能够与计算机系统进行有效的交互与操作。人机交互目标是使用户能够轻松使用计算机系统并从中获得良好用户体验。人机交互在各个领域都有广泛的应用，包括软件应用程序、网站、移动应用程序、虚拟现实等。

(2)三维图形显示技术：是一种用于创建、渲染和显示具有三维效果的图形的技术。其在许多领域中得到了广泛应用，包括电子游戏、虚拟现实、计算机辅助设计和医学成像等。其中显示部分技术中的平面显示技术从最初的阴极射线管(CRT)显示器到液晶显示器再到OLED显示器，已经获得了长足的发展，也因此衍生出不同类型的立体显示技术，比如3D电影、虚拟现实、立体显示器等。

其中空间立体显示器被认为是显示技术发展的终极梦想，当前以是否佩戴立体眼镜为依据将空间立体显示技术分为两类。其中偏光式3D显示技术与快门式3D显示技术需要佩戴立体眼镜，偏光式3D显示技术配合使用被动式偏光眼镜，常用于电影院场景，快门式3D显示技术配合使用主动式偏光眼镜，产生视差错觉实现立体效果。裸眼式3D显示技术是当前影像行业最新、前沿的技术，裸眼式3D显示技术无需任何辅助设备即可观看三维立体影像效果，随着观看视角度的不同而显示物体不同的面，实现立体显示三维物体的效果，适合于各个场所的立体展示。

(3)手势增强与眼球追踪技术：手势增强使用光电摄像头或深度传感器，通过分析用户的手势与动作，识别用户意图与指令并做出反应。眼球追踪则使用红外摄像头或光电摄像头，通过对眼球运动与周围特征变化进行追踪来获取用户的注意力与兴趣，从而替代传统交互方法中的鼠标、触摸板操作。手势增强与眼球追踪在其各自领域内用途广泛，本发明所提出的基于空间立体显示器的手势增强眼球追踪的人机交互方法基于该显示器所搭载的摄像头，该交互方法为当前空间立体显示器的交互方法提供了解决思路。

WWDC 2023大会上，苹果公司发布一款VR/MR设备Apple Vision Pro，该产品人机交互方法采用眼球追踪交互、语音交互和手势交互等交互方法。其中眼镜下方采用多个摄像头与传感器捕捉手势动作，配合语音与眼球追踪实现对显示内容的精确化操作，该产品的交互方法是以Apple Vision Pro眼镜为基础的一种交互方法，使用时需佩戴设备，其侧重于穿戴设备的平面交互方法。

专利CN202010699868.0提出一种基于手势和眼球追踪的无人机控制方法，佩戴混合现实眼镜后通过数据手套发送手势信息，并通过混合现实眼镜获得注视点。混合现实眼镜根据接收到的运动手势信息控制无人机飞行，并对接收到的视频数据流进行目标分类与检测，从而实现手势和眼球追踪的无人机控制方法，专利中手势与眼球追踪控制是以混合现实眼镜为基础的一种交互方法，使用时同样需要佩戴设备，只能发送简单的指令，且未提供三维场景下的人机交互的方法。

专利CN202111310369.9，一种基于红外引导的自由立体显示器手眼交互方法，其基于红外引导传感器辅助识别眼球追踪与手势识别，通过高分辨率可见光图像传感器读取人脸、手势候选区域图像并拼接成一张临时图像进行精确手眼检测与位置追踪，然后通过双目视觉获得深度信息并读取，实现手眼检测与追踪。该专利以红外传感器设备为引导，通过独立的指令组合进行交互，缺少指令融合与具体场景的交互方法说明，且需要红外传感器作为额外辅助设备。

专利CN202111489117.7，一种基于眼动和手势的UI界面设计及人机交互方法，其提出一种眼动和手势的UI界面设计及人机交互方法，在UI界面功能设计与开发的基础上为UI界面上适合手势操控的功能区域指定手势指令指令集，并使用视线估计来确定操作区域从而实现UI界面设计与人机交互。该专利针对平面屏幕进行眼动与手势识别交互，缺少针对三维场景人机交互方法，且未考虑眼动和手势共同作用的情况。

传统的三维显示技术设备佩戴复杂、调试繁琐，无法高效展示三维场景信息。空间立体显示器的出现解决了上述问题，然而目前空间立体显示器的交互方法仍停留在平面阶段。且当前单一人机交互技术限制性较高，如触摸屏只能接收特定手势操作，语音识别仅可以识别特定语音命令，限制了用户交互过程中的自由度与灵活性。以传统交互方法应对三维场景交互则略显复杂，无疑增加了用户学习成本。

发明内容

由于现有技术存在的上述问题，本发明提出一种基于空间立体显示器的手势增强眼球追踪的人机交互方法，通过手势增强眼球追踪数据协同融合并预判手势动作，让用户无需借助交互设备即可完成人机交互，借助于空间立体显示器显示三维场景的特性，本发明提出的交互方法涵盖了同一三维场景不同观察角度的交互方法，用户可以所见即所得的对看见的三维物体进行交互、修改等操作，打破了传统交互的平面限制，为空间立体显示器的交互方式提供了新的思路。

本发明可通过以下技术方案予以实现：

本发明的一种基于空间立体显示器的手势增强眼球追踪的人机交互方法，该方法依存于空间立体显示器，用户无需多余交互设备即可实现人机交互，具体步骤包括：

1)利用空间立体显示器的摄像头在初次扫描时建立相机三维空间坐标系，获取用户头部与手势的三维空间初始位置信息；

2)识别眼球位置并拟合手势关键点，输出空间位置流；

3)接收空间位置流预判手势动作并进行数据融合输出动作指令；

4)接收动作指令，并按照特定规则进行人机交互。

进一步地，所述步骤1)中获取头部与手势的三维空间初始位置信息，具体步骤包括：

1)以相机位置为世界坐标系原点确定坐标系参数，定义相机拍摄方向为Z轴正方向，垂直向上为Y轴正方向，两者垂直方向为X轴正方向；

2)采用多元数据融合方法，融合Haar联集分类器权重因子与OpenCV关键点检测方法的权重因子来检测头部与手势位置关键点，并对头部区域与手势位置区域进行裁剪；

3)依据相机数量采取不同的深度估计技术，单目相机采用单视点几何与光流法估计深度信息，双目相机采用视差计算对深度信息进行估计；

4)将检测出的关键点投影到相机坐标系中，采样相机内参矩阵进行坐标变换；

其中：

k₁,k₂为径向畸变系数，r²＝(u-u₀)²+(v-v₀)²，u₀，v₀为主点的像素坐标，当k_i＞0时会产生枕形畸变，确定关键点在建立的空间坐标系的位置，形成原始空间位置流；

5)对空间数据归一化操作便于计算与建模。

进一步地，所述步骤2)中识别眼球位置并进行瞳孔定位，具体步骤包括：

1)基于裁剪部位采用自建眼球位置数据集训练的YOLOX模型识别眼球位置并提取眼球轮廓特征与瞳孔特征；

2)基于识别到的特征做瞳孔定位，重建瞳孔注视射线并扩展原始空间位置流信息应用矩阵变换将其转化到自定义三维空间中，在三维空间中做射线检测获得当前帧注视点位置，输出注视点空间位置流。

进一步地，所述步骤2)中拟合手势关键点算法的步骤包括：

1)基于裁剪的部位使用自建手势图像与视频数据集训练的YOLOX模型来识别技术识别手势的关键点位置，如手腕、指尖位置信息，同时得到手势语义信息；

2)根据得到的手势关键点位置信息对原始空间位置信息流扩展，并应用变换矩阵得到手势关键点位置在自定义三维空间中的坐标，根据此坐标匹配手势骨架模型，得到手势空间位置流；

3)应用卡尔曼滤波预测关键点帧间运动信息，减小运动误差，平滑运动数据提高稳定性；

4)根据手势姿势信息与匹配的手势骨架模型输出手势命令流与手势空间位置流。

进一步地，所述步骤3)接收空间位置流预判手势动作并进行数据融合输出动作指令，具体步骤包括：

1)获取手势命令流、手势空间位置流与注视点空间位置流；

2)输入手势空间位置流与注视点空间位置流信息，得到自训练深度神经网络动画模型的预测手势序列；

3)获取手势命令流得到当前的手势语义信息，计算手势空间位置流信息、预测手势序列与眼球位置流信息在三维空间中的绝对位置并乘以加权系数组判定手势的可交互状态；

4)输出操作指令流。

进一步地，所述步骤4)接收动作指令，并按照特定规则进行人机交互，具体包括：

读取动作指令并实时显示当前手势位置与眼球注视点位置。实现注视物体时同时实时显示虚拟手势。除非指令手势动作(如点击、放大、缩小、长按等)外，虚拟手势可以实时与场景中物体交互。当注视点位于交互物体上，此时可以实时与物体交互，物体交互规律符合物理定律，比如虚拟手势相接触时的速度越大，物体动量越大。

有益效果

本发明基于空间立体显示器提出了一种全新的人机交互方法，借助于空间立体显示器所搭载的摄像头建立坐标系，采用多元数据融合检测头部与手势位置得到原始空间位置流，并对识别到的热点区域进行裁剪进一步识别。对裁剪部分各自使用了自建的数据集(自建手势图像与视频数据集与自建眼球位置数据集)训练出的YOLOX模型并将其应用矩阵变换转换为建立的空间坐标系中做射线检测，同时采用权重数据组融合得到注视点空间位置与手势空间位置并将其实时显示在操作界面。以此实现闭环人机交互。

本发明提出的人机交互方法不使用额外设备的同时，提供了人机友好的交互方式，为空间立体显示器人机交互提供了新的方案。

附图说明

图1为无辅助设备手势增强眼球追踪的人机交互方法—流程图；

图2为空间立体显示器摄像头坐标映射原理图；

图3(a)为无辅助设备手势增强眼球追踪的人机交互示意图之一；

图3(b)为无辅助设备手势增强眼球追踪的人机交互示意图之二；

图3(c)为无辅助设备手势增强眼球追踪的人机交互示意图之三；

图3(d)为无辅助设备手势增强眼球追踪的人机交互示意图之四。

具体实施方式

以下通过特定的具体实施例说明本发明的实施方式，本领域的技术人员可由本说明书所揭示的内容轻易地了解本发明的其他优点及功效。

1.利用空间立体显示器的摄像头在初次扫描时建立相机三维空间坐标系，获取用户头部与手势的三维空间初始位置信息；

2.识别眼球位置并拟合手势关键点，输出空间位置流；

3.接收空间位置流预判手势动作并进行数据融合输出动作指令；

4.接收动作指令，并按照特定规则进行人机交互。

其中获取头部与手势的位置信息具体步骤包括：

其中：

k₁,k₂为径向畸变系数，r²＝(u-u₀)²+(v-v₀)²，u₀，v₀为主点的像素坐标，当k_i>0时会产生枕形畸变，确定关键点在建立的空间坐标系的位置，形成原始空间位置流。

5)对空间数据归一化操作便于计算与建模。

其中识别并预测眼球注视点的步骤包括：

其中拟合手势关键点算法的步骤包括：

1)基于裁剪的部位使用自建手势图像与视频数据集训练的YOLOX模型来识别技术识别手势的关键点位置，如手腕、指尖等位置信息，同时得到手势语义信息；

数据融合并预判手势动作的步骤包括：

1)获取手势命令流、手势空间位置流与注视点空间位置流；

2)输入手势空间位置与注视点空间位置流信息，得到自训练深度神经网络动画模型的预测手势序列；

3)获取手势命令流得到当前的手势语义信息，计算手势空间流位置信息、预测手势序列与眼球位置流信息在三维空间中的绝对位置并乘以加权系数组判定手势的可交互状态；

4)输出操作指令流。

接受动作指令并按照特定规则人机交互的步骤包括：

1)本发明提出的方法中将三维场景中的交互物体分为可动与不可动两大类，注视不可动物体时，仅能对该物体进行按压、长按等交互；注视可动物体时，可以对物体施加拖动、旋转、吸引、投掷、挤压等交互。其中交互物体可以通过注视激活交互属性也可以通过虚拟手势触摸激活；将多路信息流应用权重数组来实现最终操作界面的人机交互；

2)读取动作指令并实时显示当前手势位置与眼球注视点位置。

上述基于空间立体显示器的手势增强眼球追踪的人机交互方法通过多源数据融合、

YOLOX深度学习模型、关键点检测与数据流融合来实时追踪眼球与识别手势姿势动作，为空间立体显示器实现了一种便捷、无需交互设备即可进行人机交互方法。

为了便于理解本发明，参照相关附图对本发明进行更全面的描述。如图1所示手势增强眼球追踪的人机交互方法—以索尼空间立体显示器为例的流程图。

本发明中的眼球追踪方法基于Haar级联分类器与OpenCV关键点检测多元数据融合方法所得到并裁剪出来的图像为基础，应用自建眼球数据集训练出的YOLOX模型获取眼球的多重特征，并通过矩阵变换映射到自建坐标系中，建立射线模型做碰撞检测来得到当前注视点位置。其中摄像头拍摄视频并建立坐标系映射关系的原理图如图2所示，以摄像头为原点建立坐标系，对相机帧序列中眼球关键点与手势关键点进行锚定同时建立帧与帧映射关系，并经过上述坐标变化公式得到位于虚拟空间下的坐标。

手势增强方法同样以上述多元数据融合方法裁剪图像为基础，应用自建手势图像与视频数据集训练出的YOLOX模型获取手势命令流与手势空间位置流，并将手势空间位置流匹配骨骼模型实时显示在操作界面，并应用卡尔曼滤波减小运动误差，平滑运动数据提高稳定性。

手势增强眼球追踪多元数据融合方法部分，提取眼球空间位置信息流与手势空间位置信息流的定向梯度直方图(HOG)作为特征描述子、提取距离特征、位置特征，并采用自适应权重数组确定每个特征权重，加权平均获得目标原生位置数据。

其中φ表示内核空间的映射，<,>表示内积，λ是正则化参数。

获取注视点空间位置流与手势位置空间流后将其实时显示，其中图3(a)和图3(b)为无辅助设备手势增强眼球追踪的人机交互示意图，对物体的交互由注视点数据与手势姿势与位置数据共同控制。当注视空间立体显示器时会产生如图所示的注视点，系统中以浅色球形表示注视点。

注视点位于可交互物体中的可动物体上时，该物体为激活状态，此时可以通过手势动作进行控制，例如图3(a)中，当注视点位于物体上方时手指蜷缩然后张开表示对注释物体进行放大操作，同理使用相反的手势可以实现缩小操作。

当注视点位于可交互物体中的不可动物体时，该物体为激活状态，此时可以通过手势控制，例如在图3(b)中，当注视点位于UI模块上时，可以通过食指与拇指敲击实现虚拟空间内的点击效果，此时该物体会产生点击交互效果(弹出文本框)。

其中图3(c)和图3(d)为无辅助设备手势增强眼球追踪的人机交互技术示意图，注视物体时同时实时显示虚拟手势。除非指令手势动作(如点击、放大、缩小、长按等)外，虚拟手势可以实时与场景中物体交互。例如图3(c)，注视点位于交互物体上，此时可以实时与物体交互，图中为手指推动交互物体，物体交互规律符合物理定律，比如虚拟手势相接触时的速度越大，物体动量越大。图3(d)展示了注视点物体与交互物体不同的情况，此时注视点位于UI模块，仍可以通过虚拟手势与另一个物体相交互。当虚拟手势对可动物体进入交互模式时，不限制手势姿势，此时即使摆出指令手势也无法实现指令。要实现指令可以通过另一只虚拟手势实现或者让手势脱离可交互物体一定距离结束交互模式实现。

除上述交互模式外，还可以在空间立体显示器上使用传统交互方式。本发明在传统交互模式中同时提出了一种多设备交互模式，通过不同设备联动交互。该交互方法通过其他电子设备例如手机、平板等触摸屏幕交互设备交互，在手机或平板设备安装关联程序后可以使用手机、平板等作为输入控制器控制索尼空间立体显示器。例如当前空间立体显示器上展示某学校数字校园场景，用户便可以通过移动位置点、时间轴与控制旋钮实现数字校园场景的移动、环境控制、视觉控制等功能，该方法可以作为传统控制方法的补充方法使用，与上述手势增强眼球追踪的人机交互方法共同组成了本发明所述的空间立体显示器的人机交互技术。

以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于空间立体显示器的手势增强眼球追踪的人机交互方法，该方法依存于空间立体显示器，用户无需多余交互设备即可实现人机交互，其特征在于，具体步骤包括：

2)识别眼球位置并拟合手势关键点，输出空间位置流；

4)接收动作指令，并按照特定规则进行人机交互。

2.根据权利要求1所述的基于空间立体显示器的手势增强眼球追踪的人机交互方法，其特征在于，所述步骤1)中获取头部与手势的三维空间初始位置信息，具体步骤包括：

其中：

5)对空间数据归一化操作便于计算与建模。

3.根据权利要求1所述的基于空间立体显示器的手势增强眼球追踪的人机交互方法，其特征在于，所述步骤2)中识别眼球位置并进行瞳孔定位，具体步骤包括：

4.根据权利要求1所述的基于空间立体显示器的手势增强眼球追踪的人机交互方法，其特征在于，所述步骤2)中拟合手势关键点算法的步骤包括：

5.根据权利要求1所述的基于空间立体显示器的手势增强眼球追踪的人机交互方法，其特征在于，所述步骤3)接收空间位置流预判手势动作并进行数据融合输出动作指令，具体步骤包括：

1)获取手势命令流、手势空间位置流与注视点空间位置流；

4)输出操作指令流。

6.根据权利要求1所述的基于空间立体显示器的手势增强眼球追踪的人机交互方法，其特征在于，所述步骤4)接收动作指令，并按照特定规则进行人机交互，具体包括：

读取动作指令并实时显示当前手势位置与眼球注视点位置。