CN116301835A

CN116301835A - 一种基于眼动和手势的ui界面设计及人机交互方法

Info

Publication number: CN116301835A
Application number: CN202111489117.7A
Authority: CN
Inventors: 朱光明; 张亮
Original assignee: Qingdao Institute Of Computing Technology Xi'an University Of Electronic Science And Technology
Current assignee: Qingdao Institute Of Computing Technology Xi'an University Of Electronic Science And Technology
Priority date: 2021-12-08
Filing date: 2021-12-08
Publication date: 2023-06-23

Abstract

本发明公开一种基于眼动和手势的UI界面设计及人机交互方法。所述方法包括以下步骤：在对UI界面的功能设计及开发的基础上，为UI界面上适合手势操控的功能区域定制手势指令集；利用显示器上配备的摄像头采集人体图像，进行视线估计和手势识别。本发明基于眼动实现人体视线焦点的估计以及UI界面意图操控区域的识别，进而基于手势识别结果对意图操控的功能区域进行交互，不但增加了人机交互的便捷性，而且可以根据功能区域不同定制自然交互手势，提高人机交互效率。本发明采用区域控制方式，无需通过视线焦点来直接捕捉待操作的控件或图标，对头部自然晃动导致的视线焦点的漂移具备更好的鲁棒性。

Description

一种基于眼动和手势的UI界面设计及人机交互方法

技术领域

本发明涉及人机交互技术领域，更具体地说，涉及一种结合利用计算机视觉下的视线追踪技术、手势识别技术设计出的一种基于眼动和手势的UI界面设计及人机交互方法。

背景技术

在人工智能迅速发展的今天，人工智能与人机交互的结合已经成为必然的趋势，这将会给未来人机交互带来巨大的前景。同时将手势和头部姿态结合起来，能更好地探讨新的交互通道存在的应用价值。实现非接触的基于“眼动追踪+手部姿态”的混合控制方法，对于多通道人机交互技术的探索与研究具有重大的意义。

在现有技术中，倾向于直接利用眼动的视线焦点来捕捉待操作的控件或图标，进而直接把手势指令映射到控件或图标的对应操作。然而，在实际交互过程中(特别是人在移动的车、船上时)，由于人头部的自然晃动以及轻微头部晃动引起的视线焦点在屏幕上的大幅度漂移，导致很难通过视线来稳定地捕捉某个待操作控件或图标。与现有的发明不同，本发明采用区域控制方式，通过一种融合眼动和手势控制的UI交互方式，在UI界面设计过程中就融入了区域控制的理念，使得用户在基于眼动和手势进行交互时不需要刻板生硬地通过视线焦点去捕捉待操作的控件或图标，操控更加自然可靠。本发明不单单是公布一种UI交互方式，也是公布一种融合自然交互方式的UI界面设计和开发方法。

发明内容

1.要解决的技术问题

针对现有技术中存在的问题，本发明的目的在于提出了一种基于眼动和手势的UI界面设计及人机交互方法，基于眼动追踪的交互方式，配合手势控制，可以为操作者提供更多的控制选择，减少由于相同设备的长时间单通道控制而导致的工作负载，精神压力和疲劳；从而提高交互效率，也保证了交互过的自然性和可靠性。

2.技术方案

为解决上述问题，本发明采用如下的技术方案：

一种基于眼动和手势的UI界面设计及人机交互方法，包括以下步骤：

S1、在对UI界面的功能设计及开发的基础上，为UI界面上适合手势操控的功能区域定制手势指令集；

S2、利用显示器上配备的摄像头采集人体图像，进行视线估计和手势识别，得到用户在UI界面上的视线焦点以及识别出的手势类别；

S3、把视线焦点和手势类别发送给UI，UI根据视线焦点确定用户在UI 界面上的意图操控区域；

S4、UI界面比对意图操控的功能区域的手势指令集，对收到的手势指令进行有效性判断；

S5、根据意图操控的功能区域定制的手势指令集，把有效手势指令转化为UI可执行的消息或信号，传递给UI界面；

S6、UI界面响应执行收到的消息或信号，最终完成手势指令的执行，完成基于眼动和手势的UI界面人机交互。

作为本发明的一种优选方案，所述步骤1中，在UI界面的设计和开发过程中，根据各个功能区域所用控件的不同，可以针对性地定制手势指令集，并实现手势指令到UI可执行指令的转换映射，为UI预留除了传统的鼠标操作之外的自然交互接口。

作为本发明的一种优选方案，所述步骤2中，利用显示器配备的摄像头采集人体图像，对人体头部姿态和眼睛注视方向进行估计，结合摄像头的内外参以及显示屏的尺寸及分辨率，估计出用户眼睛注视方向在屏幕上的视线焦点；对人体手势进行检测和识别，结合手势类型、位置变化、持续时间，识别出手势指令。

作为本发明的一种优选方案，所述步骤3中，满足下述判定条件的功能区域可确认为意图操控区域：用户视线焦点在某一区域内，视线焦点位置变化小于设定阈值；用户视线焦点在某一区域内沿着预定的轨迹移动；用户视线焦点在某一区域停留时间满足时间阈值。

作为本发明的一种优选方案，所述步骤4中，从意图操控的功能区域定制的手势指令集中匹配当前收到的手势指令，不同功能区域的手势指令是不尽相同的，相同的手势指令在不同功能区域代表的功能也可能是不尽相同的，需要基于眼动识别出的意图操控的功能区域进行手势指令的有效性判断。

作为本发明的一种优选方案，所述步骤5中，手势指令是有别于UI可直接执行指令的另一种指令表达形式，需要把手势指令转化为UI可执行的具体指令，例如在使用Qt开发界面时把某个手势指令转化为对应控件的信号，该控件收到信号后即可进行响应。

作为本发明的一种优选方案，所述步骤6中，UI接收到可执行的信号后即可进行响应，响应过程和基于鼠标点击触发的信号的响应过程相同，如此只需要在UI开发过程中开放相应的信号发送接口即可，不显著增加UI开发的工作量。

3.有益效果

相比于现有技术，本发明的优点在于：

本发明通过将眼动和手势两种自然交互手段结合起来，实现多通道交互，丰富用户的输入操作方式，使得操作者能够与UI界面进行更加自然、便捷的交互，是交互控制过程更加高效、可靠。本方法同时可以适应多种尺寸的显示设备，使用场景广泛。

附图/表说明

图1为本发明一种基于眼动和手势的UI界面设计及人机交互方法的工作流程图；

图2为本发明一种基于眼动和手势的UI界面设计及人机交互方法的工作流程的另一种图示；

图3为本发明一种基于眼动和手势的UI界面设计及人机交互方法实施例的图例；

表1为本发明一种基于眼动和手势的UI界面设计及人机交互方法实施例支持的手势指令集。

具体实施方式

下面将结合本发明实施例中的附图对本发明实施例中的技术方案进行清楚、完整地描述。显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例，基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

在本发明的描述中，需要说明的是，术语“上”、“下”、“内”、“外”、“顶 /底端”等指示的方位或位置关系为基于附图所示的方位或位置关系，仅是为了便于描述本发明和简化描述，而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作，因此不能理解为对本发明的限制。此外，术语“第一”、“第二”仅用于描述目的，而不能理解为指示或暗示相对重要性。

在本发明的描述中，需要说明的是，除非另有明确的规定和限定，术语“安装”、“设置有”、“套设/接”、“连接”等，应做广义理解，例如“连接”，可以是固定连接，也可以是可拆卸连接，或一体地连接；可以是机械连接，也可以是电连接；可以是直接相连，也可以通过中间媒介间接相连，可以是两个元件内部的连通。对于本领域的普通技术人员而言，可以具体情况理解上述术语在本发明中的具体含义。

实施例：

请参阅图1-3，一种基于眼动和手势的UI界面设计及人机交互方法，包括以下步骤：

在本发明的具体实施例中，步骤1中，在UI界面的设计和开发过程中，根据各个功能区域所用控件的不同，可以针对性地定制手势指令集，并实现手势指令到UI可执行指令的转换映射，为UI预留除了传统的鼠标操作之外的自然交互接口。

在本发明的具体实施例中，步骤2中，利用显示器配备的摄像头采集人体图像，对人体头部姿态和眼睛注视方向进行估计，结合摄像头的内外参以及显示屏的尺寸及分辨率，估计出用户眼睛注视方向在屏幕上的视线焦点；对人体手势进行检测和识别，结合手势类型、位置变化、持续时间，识别出手势指令。

在本发明的具体实施例中，步骤3中，满足下述判定条件的功能区域可确认为意图操控区域：用户视线焦点在某一区域内，视线焦点位置变化小于设定阈值；用户视线焦点在某一区域内沿着预定的轨迹移动；用户视线焦点在某一区域停留时间满足时间阈值。

在本发明的具体实施例中，步骤4中，从意图操控的功能区域定制的手势指令集中匹配当前收到的手势指令，不同功能区域的手势指令是不尽相同的，相同的手势指令在不同功能区域代表的功能也可能是不尽相同的，需要基于眼动识别出的意图操控的功能区域进行手势指令的有效性判断。

在本发明的具体实施例中，步骤5中，手势指令是有别于UI可直接执行指令的另一种指令表达形式，需要把手势指令转化为UI可执行的具体指令，例如在使用Qt开发界面时把某个手势指令转化为对应控件的信号，该控件收到信号后即可进行响应。

在本发明的具体实施例中，步骤6中，UI接收到可执行的信号后即可进行响应，响应过程和基于鼠标点击触发的信号的响应过程相同，如此只需要在UI开发过程中开放相应的信号发送接口即可，不显著增加UI开发的工作量。

需要进行说明的是：

图3示例了一种使用Qt开发的音乐播放器的控制功能界面，当用户试图操控该音乐播放器时，该界面就是用户的意图操控区域，也是用户手势要控制的交互界面，播放/暂停/上一曲/下一曲/音量调节等控件就是目标交互控件。

在UI界面开发过程中，可以增设一个线程，接收视线焦点和手势指令信息，该线程完成了意图操控区域确定和手势指令的有效性验证后，可以把手势指令转化为发送控件的操控信号，UI前端界面在收到信号后会自动调用槽函数进行响应。利用Qt的信号和槽机制，与传统的基于鼠标操作的UI实现共用控件的信号。这样在开发UI过程中只是增加了一个线程来实现手势指令到信号的映射，对UI上各功能的开发并未显著增加工作量。

根据如图2所示流程，在具体交互过程中需先确认图3所示功能界面为用户意图操作区域。在该步骤中，摄像头可以是显示器内置摄像头，也可以选择固定在显示器上的外置摄像头；本步骤中的视线估计和手势识别基于预先训练的模型实现，这些识别处理技术是公知的技术，因而省略详细的说明，视线焦点以屏幕坐标系来表示；本步骤中的对上述视频流中的多帧图像分别进行处理，每一序列包括多个识别结果。

确定意图操作区域后，就可以对用户作出的手势指令进行识别，本实施例采用Yolo v5模型来识别手势类别。UI的手势交互接口接收有效手势指令控制音乐播放器的音乐播放功能。此外，还可以在图3所示的界面中，利用手势实现鼠标点击操作不能直接实现的功能，例如可以利用手势指令提高音乐播放的音量。相关的手势与对应控制的音乐播放功能如的表1所示。

手势	控制功能
		OK	播放
手掌心向上	增大音量
		手掌心向下	降低音量
手掌向左	上一首
		手掌向右	下一首
握拳	暂停

表1

示例性地，在如图3所示的在开启对音乐播放相关功能的手势控制后，用户可以做出OK手势，则音乐播放器开始播放音乐，在图3的功能状态界面中可以同步更新显示状态表示音乐正在播放；同理，当用户做出拳头手势时音乐播放暂停，在图3的功能状态界面中可以同步更新显示状态表示音乐停止播放。

在该步骤中，设定默认帧率为15，置信度为80％，以“OK”手势为例，图像序列为中有15帧图片，则至少需12帧图像识别结果为“OK”手势，且最后一帧的识别结果也是“OK”手势，才能确认检测到“OK”手势。接着对比该功能区域的手势指令集，查找是否存在该手势指令，对比成功的手势将会被作为有效手势指令输出给UI；若不存在，则不需要对无效指令进行响应。

在实际实施过程中，可以额外根据各个功能控件的执行约束进行有效性判断，即某个条件满足时其它操作才有效。例如，用户做出了手掌向上的手势，可以先判断一下是否已经检测到“OK”手势。如果之前还未检测到“OK”，则不作响应；如果之前已经检测到“OK”，则可以根据手掌心朝向手势对应的组件控制信息，调节音乐播放器的音量。在图3的功能状态界面中，还可以通过音量调节显示模块同步显示随着手掌心向上的音量增大示意。增加诸如此类的判断，可以降低手势的误操作。

用户做出了手掌向右平移的手势，此时在检测到该食指旋转手势后，手势控制装置可以先判断一下是否已经检测到“OK”手势。如果之前还未检测到“OK”，则不作响应；如果之前已经检测到“OK”，则可以根据手掌向右的手势，调节音乐播放器切换下一首歌曲。

在图3的功能状态界面中，还可以通过歌曲显示模块同步显示随着手掌向右的切歌效果。

此外，用户还可以通过手势控制对歌曲的暂停。例如，用户可以握拳，则响应于该手势，可以控制音乐播放器在图3所示的功能状态界面中显示歌曲暂停。同样在暂停之前可以预先判断是否已经检测到“OK”手势。其他功能的手势控制不再详述。

以上所述，仅为本发明较佳的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，根据本发明的技术方案及其改进构思加以等同替换或改变，都应涵盖在本发明的保护范围内。

Claims

1.一种基于眼动和手势的UI界面设计及人机交互方法，其特征在于，包括以下步骤：

S3、把视线焦点和手势类别发送给UI，UI根据视线焦点确定用户在UI界面上的意图操控区域；

2.根据权利要求1所述的基于眼动和手势的UI界面设计及人机交互方法，其特征在于，所述步骤1中，在UI界面的设计和开发过程中，根据各个功能区域所用控件的不同，可以针对性地定制手势指令集，并实现手势指令到UI可执行指令的转换映射，为UI预留除了传统的鼠标操作之外的自然交互接口。

3.根据权利要求1所述的基于眼动和手势的UI界面设计及人机交互方法，其特征在于，所述步骤2中，利用显示器配备的摄像头采集人体图像，对人体头部姿态和眼睛注视方向进行估计，结合摄像头的内外参以及显示屏的尺寸及分辨率，估计出用户眼睛注视方向在屏幕上的视线焦点；对人体手势进行检测和识别，结合手势类型、位置变化、持续时间，识别出手势指令。

4.根据权利要求1所述的基于眼动和手势的UI界面设计及人机交互方法，其特征在于，所述步骤3中，满足下述判定条件的功能区域可确认为意图操控区域：用户视线焦点在某一区域内，视线焦点位置变化小于设定阈值；用户视线焦点在某一区域内沿着预定的轨迹移动；用户视线焦点在某一区域停留时间满足时间阈值。

5.根据权利要求1所述的基于眼动和手势的UI界面设计及人机交互方法，其特征在于，所述步骤4中，从意图操控的功能区域定制的手势指令集中匹配当前收到的手势指令，不同功能区域的手势指令是不尽相同的，相同的手势指令在不同功能区域代表的功能也可能是不尽相同的，需要基于眼动识别出的意图操控的功能区域进行手势指令的有效性判断。

6.根据权利要求1所述的基于眼动和手势的UI界面设计及人机交互方法，其特征在于，所述步骤5中，手势指令是有别于UI可直接执行指令的另一种指令表达形式，需要把手势指令转化为UI可执行的具体指令，例如在使用Qt开发界面时把某个手势指令转化为对应控件的信号，该控件收到信号后即可进行响应。

7.根据权利要求1所述的基于眼动和手势的UI界面设计及人机交互方法，其特征在于，所述步骤6中，UI接收到可执行的信号后即可进行响应，响应过程和基于鼠标点击触发的信号的响应过程相同，如此只需要在UI开发过程中开放相应的信号发送接口即可，不显著增加UI开发的工作量。