CN117351074A

CN117351074A - 基于头戴式眼动仪和深度相机的视点位置检测方法及装置

Info

Publication number: CN117351074A
Application number: CN202311115470.8A
Authority: CN
Inventors: 姚乃明; 卢俊彦; 郭雯丽; 陈辉; 王宏安
Original assignee: Institute of Software of CAS
Current assignee: Institute of Software of CAS
Priority date: 2023-08-31
Filing date: 2023-08-31
Publication date: 2024-01-05
Anticipated expiration: 2043-08-31

Abstract

本发明公开了一种基于头戴式眼动仪和深度相机的视点位置检测方法及装置，涉及人机交互技术领域与视线操控的相关技术领域。对头戴式眼动仪的前景相机和深度相机进行标定，获得内参矩阵和外参矩阵；利用深度相机对显示屏角点进行精确定位；根据深度相机的内参矩阵和外参矩阵，将深度相机坐标系的显示屏角点转换到世界坐标系中；根据前景相机的内参矩阵和显示屏角点坐标，将前景相机上的视点坐标转换为世界坐标系中，再转换到显示屏坐标系中，得到在显示屏中的视点位置；对连续的视点位置进行滤波，得到稳定的视点位置。本发明能够实时获得用户在显示屏坐标系下的视点位置，缩短注视时间，实现跨屏交互，提升视线交互的智能性和操控效率。

Description

基于头戴式眼动仪和深度相机的视点位置检测方法及装置

技术领域

本发明涉及人机交互技术领域与视线操控的相关技术领域，特别是涉及了一种基于头戴式眼动仪和深度相机的视点位置检测方法及装置。

背景技术

智能人机交互是现代社会发展的核心技术之一，其在促进人们与计算机系统之间的交流和任务执行方面起到关键作用。人机交互技术通过各种输入设备(如键盘、鼠标、触摸屏等)与计算机进行互动，帮助人们获取所需信息或执行特定任务。随着人工智能技术的快速进步，人机协同逐渐成为人机交互领域的重要方向。人机协同强调人类与计算机之间的合作与协作，旨在实现更加智能、高效的工作流程和决策过程。通过人机协同，计算机系统可以利用人类的认知和创造力，更好地理解人类的意图，并提供个性化的服务和支持。

在完成复杂人机协同任务的过程中，视线交互发挥着重要的作用。随着传感器技术和计算机视觉算法的快速发展，用户对于直观、自然、高效的人机交互方式的需求不断增加。视线交互作为一种智能人机交互技术，具有非接触、隐式、主动的特点，能够通过用户的视线和注视位置实现输入控制，为用户提供直观、自然的交互体验。其中，在显示屏坐标系下的视点位置检测是实现视线交互的关键环节。

目前，在显示屏中的视线落点(即视点)检测方法可分为两类：遥测式检测和穿戴式检测。遥测式视点检测方法利用外部设备或传感器来跟踪用户的视线方向和视点位置，该方法能够直接追踪眼睛的运动，并将其转化为显示屏坐标系上的位置，或通过追踪用户头部上的特定标签来间接追踪视线方向和视点位置。穿戴式视点检测方法则依赖于穿戴式设备来跟踪用户的视线方向和视点位置，这种方法通常需要在显示屏周围添加特定标志物，以便对显示屏进行识别。

综上所述，现有的视点位置检测方法和系统应用场景不够灵活、检测结果不够准确，导致视线交互不能有效应用于人机交互任务中。如何设计基于头戴式眼动仪的视点位置检测方法，突破同空间中多个显示屏交互的限制，减少视线交互受视角和距离的影响成为亟待解决的问题。从而实现支持视线交互的非接触式、主动式/隐式操作，同时保证快速的目标选择速度，为用户提供自然、准确、实时的视线交互方法。

发明内容

为了克服上述现有技术的不足，本发明提供了一种基于头戴式眼动仪和深度相机的视点位置检测方法及装置，能够实时获得用户空间视线在目标显示屏坐标系下的视点位置，视点位置准确性和稳定性强，缩短用户对屏幕上注视目标的选择与认知时间，实现跨显示屏的自由视线交互，提升穿戴式视线交互界面的智能性和操控效率。

为了达到上述目的，本发明采用如下技术方案：

一种基于头戴式眼动仪和深度相机的视点位置检测方法，头戴式眼动仪包含位于其前部中间位置的一前景相机，在头戴式眼动仪的两侧各设有一深度相机，该方法包括以下步骤：

1)对头戴式眼动仪的前景相机和深度相机进行标定，获得前景相机的内参矩阵以及深度相机的内参矩阵和外参矩阵，并确定世界坐标系；

2)利用每个深度相机采集显示屏的RGB图像信息和深度信息，根据这些信息提取显示屏的关键点并生成相应的特征，通过特征匹配确定显示屏的四个角点坐标；再将这两个深度相机确定的四个角点坐标进行融合，从而对显示屏的四个角点进行精确定位；

3)根据深度相机的内参矩阵和外参矩阵，将步骤2)确定的位于深度相机坐标系中的显示屏的四个角点坐标转换到世界坐标系中；

4)根据前景相机的内参矩阵和步骤3)转换后的显示屏的三个角点坐标，将前景相机上的视点坐标转换为世界坐标系中的交点坐标；

5)将交点坐标转换到显示屏坐标系中，得到在显示屏中的视点位置；

6)根据步骤5)计算用户视线于一时间段内在显示屏中的连续的视点位置，对这些连续的视点位置进行滤波，得到在该时间段内稳定的视点位置。

进一步地，步骤1)中采用棋盘格标定法对头戴式眼动仪的前景相机和深度相机进行标定，获得前景相机和深度相机的内部参数以及深度相机的外部参数，该内部参数包括焦距和像主点，根据焦距和像主点计算得到内参矩阵；该外部参数包括旋转矩阵和平移矩阵这两个外参矩阵。

进一步地，步骤1)中世界坐标系的原点位于前景相机的光心，世界坐标系的Z轴与前景相机的光轴对齐。

进一步地，步骤2)中采用尺度不变特征变换算法，从深度相机采集的显示屏的RGB信息和深度信息中提取显示屏的关键点。

进一步地，步骤2)中采用鲁棒性估计算法进行特征匹配，确定显示屏的四个角点坐标。

进一步地，步骤3)中坐标转换的步骤包括：

根据深度相机的内参矩阵，将深度相机采集的图像点转换为归一化平面上的点；

根据深度相机采集的深度值，将归一化平面上的点转换为相机坐标系中的点；

根据深度相机的外参矩阵，将相机坐标系中的点转换为世界坐标系中的点；

根据以上步骤，将位于深度相机坐标系中的显示屏的四个角点坐标转换到世界坐标系中。

进一步地，步骤4)中坐标转换的步骤包括：

根据前景相机的内参矩阵，将前景相机采集的视点转换为归一化平面上的点；

根据步骤3)转换的世界坐标系中的显示屏的三个角点坐标，确定其中一个角点到另外两个角点的两个向量V1和V2，根据这两个向量确定这三个角点组成的平面的法向量；

对于从前景相机的光心发出的射线，将该射线的参数方程代入上述平面的方程中，并根据平面的法向量与一角点的乘积，求解该射线的参数方程中的参数；

将求解的参数代入该参数的参数方程中，得到该射线与上述平面的交点坐标。

进一步地，步骤5)中将交点坐标转换到显示屏坐标系的步骤包括：

计算交点坐标在两个向量V1和V2上的两个投影比例；

根据这两个投影比例和显示屏屏幕分辨率的宽度和高度，计算在显示屏坐标系中的位置坐标。

进一步地，步骤6)中采用密度聚类算法对连续的视点位置进行滤波。

进一步地，步骤6)中采用密度聚类算法对连续的视点位置进行滤波的步骤包括：

预设一领域参数即半径值，根据该领域参数检查每个视点的邻近区域；确定该区域内是否有足够多的其他视点，将满足最小密度要求的视点作为核心视点；

以核心视线点为起点，在历史记录中查找所有与之密度可达的视点，将这些可达的视点与核心视点一起构成一个聚类簇；

采集时间最近的聚类簇，计算该聚类簇中所有视点的几何中心点，该几何中心点即为在一段时间内的稳定的视点位置。

一种基于头戴式眼动仪和深度相机的视点位置检测装置，包括：

头戴式眼动仪，包含位于其前部中间位置的一前景相机，至少用于获取前方的RGB图像信息；

深度相机，至少为两个，设置于头戴式眼动仪的两侧，用于获取前方的RGB图像信息和深度信息；

存储器，用于存储计算机程序；

处理器，用于执行所述计算机程序时实现上述方法的步骤。

本发明取得的有益效果是：

1.精准的坐标转换：采用独特的方法将视点坐标精确地从深度相机和头戴式眼动仪的坐标系转换到世界坐标系和显示屏坐标系。

2.高度自然的交互模式：用户可以通过视线直接与图形用户界面交互，无需物理接触或使用其他输入设备，为用户提供了一种更自然、直观的交互方式。

3.视线的稳定性与准确性：利用视点位置滤波方式(如基于密度的聚类算法)，优化视线坐标的稳定性，提高了视线交互的准确性；实时准确地获取用户的注视位置，确保交互的准确性与稳定性，降低了用户的选择和认知时间。

4.增强的交互灵活性：用户可与空间中的多个显示屏交互，实现了跨显示屏的视线交互，进一步增强了操作的灵活性。

5.流畅与高效的扫视操作：通过稳定的视线坐标，用户可进行扫视操作，代替鼠标实现光标的流畅漫游，增强了用户的交互体验。

6.无触摸的高效交互：用户只需视线即可与界面互动，摆脱了传统目标选择的限制，提高了交互的速度与效率。

7.优化的用户体验：大幅度降低了视线交互的受限因素，如视角和距离，使用户体验更为自然和流畅。结合头戴式眼动仪和深度相机，进一步强化了交互的智能性和效率。

本发明为用户带来了一种自然、直观、高效的交互方式，凭借坐标系转换和滤波方式确保了准确性和稳定性，大大优化了用户的交互体验与效率。

附图说明

图1是实施例中的基于头戴式眼动仪和深度相机的视点位置检测方法流程图；

图2是实施例中的头戴式眼动仪和深度相机的结构示意图；

图3是实施例中的基于头戴式眼动仪和深度相机的视点位置检测装置使用场景示意图；

图4是具有示例性的显示屏检测结果示意图，白色框为显示屏位置，黑色框表示显示屏最小外接矩形；

图5是具有示例性的视点坐标密度聚类结果示意图。

具体实施方式

为使本发明的上述技术方案中各项技术特征和各项优点或技术效果能更明显易懂，下文配合附图进行详细说明。

本发明实施例公开了一种头戴式眼动仪的视点位置检测方法，图1所示为该方法的流程。同时本发明实施例还公开了实现该方法的一种头戴式眼动仪的视点位置检测装置，图2所示为该装置的构造。以下对本方法及装置进行详细说明。

一、视点位置检测装置的构成及应用

如图2所示，本装置的硬件构成包括：头戴式眼动仪201，该头戴式眼动仪的正前方中间部位设有一前景相机202，具体为RGB相机，用于获取头戴式眼动仪前方的RGB图像，这是头戴式眼动仪的标准配置，还可包括一红外眼图相机，用于获取前方的红外图像，但不以此为限；本发明不同的是，在头戴式眼动仪的前方两侧还设有两个深度摄像头203、204，用于获取环境中物体的RGB信息和深度信息；此外还包括存储器和处理器，存储器用于以计算机程序的方式存储本方法的执行步骤，处理器用于执行该计算机程序从而执行这些步骤，实现视点位置检测。具体在使用时，用户将头戴式眼动仪201戴在头上，头戴式眼动仪201能够实时跟踪用户眼球的运动，并记录其视线方向数据。同时，头戴式眼动仪201上的前景相机202获取头戴式眼动仪201前方的RGB图像，两个深度相机203、204获取环境中物体的深度信息。通过两个深度相机203、204的组合，本发明可解决单一深度相机可视角度较小以及边缘处深度测量不准确的问题，同时可以提升显示屏的定位精度。最终，用户可以通过眼睛的注视来与显示屏进行交互。

图3展示了用户佩戴本装置的具体的使用场景。在该场景中，头戴式眼动仪记录了用户的视线方向数据即前景相机获取的RGB图像，而深度相机提供了环境中物体的深度信息。通过结合这些信息，可以准确的检测与分析用户在特定环境中的视点。

二、视点位置检测方法及装置的处理步骤

以上说明了本装置的硬件构成，在具体进行视点位置检测时需要利用本装置的硬件来执行本方法的以下步骤，或者说本装置的硬件需要利用本方法的以下步骤以计算机程序形式来实现视点位置检测。为便于表述，以下称为本发明。具体步骤说明如下：

1.多相机系统的标定

本发明采用棋盘格标定法对眼动仪的前景相机和深度相机进行标定，可以获取各个相机的内部参数和外部参数，本发明并不限定必须采用棋盘格标定法。其中，

1)相机的内部参数：描述了相机的固有属性，不随相机在空间中的位置和姿态改变而变化。主要参数如下：

焦距(f)：这是一个非常重要的参数，它与相机的缩放有关。通常在两个方向上有两个焦距值，通常表示为f_x和f_y。

像主点(principal point)：通常表示为c_x和c_y，它们表示图像坐标系中的中心点。

根据以上内部参数获取前景相机的内参矩阵K_c和两个深度相机的内参矩阵K_a1和K_d2。以前景相机的内参矩阵为例，式子如下：

2)相机的外部参数：描述了相机相对于世界坐标系的位置和姿态，它主要由两部分组成：

旋转矩阵(R)：描述相机的姿态，为3x3矩阵。

平移矩阵(T)：描述相机的位置，为3x1矩阵。

深度相机的外参矩阵R₁、R₂都是3x3的矩阵，描述两个深度相机的旋转信息，以R₁为例，式子如下：

深度相机的外参矩阵T₁、T₂都是3x1的矩阵，描述两个深度相机的平移信息，以T₁为例，式子如下：

在棋盘格标定的过程中，通过观察棋盘格上的点在多个不同的视角下如何映射到图像上，可以同时确定内部和外部参数。在这个过程中，将以头戴式眼动仪的前景相机的光心作为世界坐标系的原点，光心是相机内部所有光线汇聚的点，通常位于相机的镜头后方。从物理上看，所有从三维空间中的点通过镜头投影到相机传感器上的光线都会穿过这个光心。并确保世界坐标系的Z轴与前景相机的光轴对齐。相机的光轴是从光心垂直于传感器平面的直线，通常指向场景的中心。这意味着在这个坐标系下，当对象沿着Z轴正方向移动时，它们在相机图像上的位置不会改变，但它们的大小可能会随着距离的增加而减小。

2.多相机融合的显示屏检测

本发明根据显示屏的特征信息采用尺度不变特征变换(Scale-InvariantFeature Transform，SIFT)算法，从深度相机的RGB-D图像中提取目标关键点，并生成相应的特征向量描述。接下来，通过应用鲁棒性估计算法(Random Sample Consensus，RANSAC)，对这些特征进行匹配，最终确定显示屏的四个角点位置。显示屏检测的结果示意如图4所示。值得注意的是，通过这种方法得到的检测结果所围成的区域形状不仅局限于矩阵。

由于市面上现有的深度相机的视野范围普遍较小且边缘区域的深度检测不够准确，本发明需要依靠多个相机协同检测。为了获得更准确的显示屏角点位置，采用计算平均值的方法将多个相机的检测结果进行融合。这种方法具有高精度、强鲁棒性和高稳定性等优势。

以下步骤3至5为视点坐标空间转换的步骤。

3.将深度相机坐标系中的显示屏坐标转换到世界坐标系

在深度相机坐标系中计算得到的显示屏的四个角点p₁(u₁，v₁)、p₂(u₂，v₂)、p₃(u₃，v₃)、p₄(u₄，v₄)需要转换到世界坐标系中。

首先，将图像点(u，v)转换为归一化平面上的点(x，y)。根据深度相机内参矩阵K_d，可以使用以下公式进行转换：

x＝(u-K_d[0，2])/K_d[0，0]，

y＝(v-K_d[1，2])/K_d[1，1]，

接下来，根据深度值d将归一化平面上的点(x，y)转换为相机坐标系中的点(X_c，Y_c，Z_c)。可以使用以下公式进行转换：

X_c＝x·d，

Y_c＝y·d，

Z_c＝d，

然后，使用外参矩阵R和T将相机坐标系中的点(X_c，Y_c，Z_c)转换为世界坐标系中的点(X，Y，Z)。可以使用以下公式进行转换：

X＝R[0，0]·X_c+R[0，1]·Y_c+R[0，2]·Z_c+T[0]，

Y＝R[1，0]·X_c+R[1，1]·Y_c+R[1，2]·Z_c+T[1]，

Z＝R[2，0]·X_c+R[2，1]·Y_c+R[2，2]·Z_c+T[2]，

按照以上步骤，可以将显示屏的四个角点转换到世界坐标系中：P₁(X₁，Y₁，Z₁)、P₂(X₂，Y₂，Z₂)、P₃(X₃，Y₃，Z₃)、P₄(X₄，Y₄，Z₄)，单位为米。

4.将前景相机的视点坐标转换到世界坐标系

由头戴式眼动仪得到在前景相机上的视点坐标(u，v)，可以使用以下步骤将其转换到世界坐标系中：

首先，将视点(u，v)转换为归一化平面上的点(x，y)。根据前景相机内参矩阵K_c，可以使用以下公式进行转换：

x＝(u-K_c[0，2])/K_c[0，0]，

y＝(v-K_c[1，2])/K_c[1，1]，

接着，需要求解显示屏的至少三个角点P₁(X₁，Y₁，Z₁)、P₂(X₂，Y₂，Z₂)、P₃(X₃，Y₃，Z₃)组成的平面与从前景相机的光心发出的射线(x，y，1)的交点坐标。

平面的法向量N为：

N＝V₁×V₂，

其中，向量

对于给定的射线(x，y，1)，将其表示为方程形式，即射线的参数方程为：

P＝(xe，ye，e)，

将射线的参数方程代入上述的平面的方程中，求解参数e的值：

Adx+Bdy+Cd+D＝0，

其中，D＝N·P₁。

最后，将计算得到的e值代入射线参数方程，得到交点坐标P_n(xe，ye，e)。

5.将视点坐标转换到显示屏坐标系

计算点P_n在向量V₁和V₂上的投影比例s和t：

最终，点P_n在屏幕坐标系中的位置为：

X_p＝s×w，

Y_p＝t×h，其中，w、h为屏幕分辨率的宽度和高度。

6.视点稳定算法

本发明基于样本密度来检测用户视线坐标点之间的可连续性，并利用最大密度相连的视点集合来得到聚类簇。本发明采用了密度聚类算法DBSCAN(Density-Based SpatialClustering of Applications with Noise)，计算结果示意如图5所示。

采用密度聚类算法的处理步骤包括：首先，根据领域参数找出所有与相邻节点(即视点)满足最小密度要求的核心视点。然后，从核心视点为出发，在固定时间窗口的历史记录中(例如3秒)找出所有密度可达的视点，从而构成多个聚类簇。为了达到稳定眼动视线的效果，算法选择采集时间最近的聚类簇，并求得其几何中心点作为在一段时间内的稳定视线坐标点(即稳定的视点位置)。稳定视线坐标点是眼动交互中扫视操作的重要元素之一，实际应用时扫视可以代替鼠标，在图形用户界面中实现光标漫游的效果。

虽然本发明已以实施例公开如上，然其并非用以限定本发明，本领域的普通技术人员对本发明的技术方案进行的适当修改或者等同替换，均应涵盖于本发明的保护范围内，本发明的保护范围以权利要求所限定者为准。

Claims

1.一种基于头戴式眼动仪和深度相机的视点位置检测方法，其特征在于，头戴式眼动仪包含位于其前部中间位置的一前景相机，在头戴式眼动仪的两侧各设有一深度相机，该方法包括以下步骤：

2.如权利要求1所述的方法，其特征在于，步骤1)中采用棋盘格标定法对头戴式眼动仪的前景相机和深度相机进行标定，获得前景相机和深度相机的内部参数以及深度相机的外部参数，该内部参数包括焦距和像主点，根据焦距和像主点计算得到内参矩阵；该外部参数包括旋转矩阵和平移矩阵这两个外参矩阵。

3.如权利要求1所述的方法，其特征在于，步骤1)中世界坐标系的原点位于前景相机的光心，世界坐标系的Z轴与前景相机的光轴对齐。

4.如权利要求1所述的方法，其特征在于，步骤2)中采用尺度不变特征变换算法，从深度相机采集的显示屏的RGB信息和深度信息中提取显示屏的关键点。

5.如权利要求1所述的方法，其特征在于，步骤2)中采用鲁棒性估计算法进行特征匹配，确定显示屏的四个角点坐标。

6.如权利要求1所述的方法，其特征在于，步骤3)中坐标转换的步骤包括：

7.如权利要求1所述的方法，其特征在于，步骤4)中坐标转换的步骤包括：

根据步骤3)转换的世界坐标系中的显示屏的三个角点坐标，确定其中一个角点到另外两个角点的两个向量V₁和V₂，根据这两个向量确定这三个角点组成的平面的法向量；

8.如权利要求7所述的方法，其特征在于，步骤5)中将交点坐标转换到显示屏坐标系的步骤包括：

计算交点坐标在两个向量V₁和V₂上的两个投影比例；

9.如权利要求1所述的方法，其特征在于，步骤6)中采用密度聚类算法对连续的视点位置进行滤波，步骤包括：

10.一种基于头戴式眼动仪和深度相机的视点位置检测装置，其特征在于，包括：

存储器，用于存储计算机程序；

处理器，用于执行所述计算机程序时实现权利要求1～9任一项所述方法的步骤。