CN111898407A

CN111898407A - 一种基于人脸动作识别的人机交互操作系统

Info

Publication number: CN111898407A
Application number: CN202010508604.2A
Authority: CN
Inventors: 李昱昂; 梁星辰; 张聪昱; 张�雄; 樊兆雯
Original assignee: Southeast University
Current assignee: Southeast University
Priority date: 2020-06-06
Filing date: 2020-06-06
Publication date: 2020-11-06
Anticipated expiration: 2040-06-06
Also published as: CN111898407B

Abstract

本发明属于人机交互领域，尤其是一种基于人脸动作识别的人机交互操作系统。首先通过摄像头实时采集视频，对每帧图像进行镜像翻转等预处理；采用分类器，检测人脸区域，并在人脸所在矩形区域内检测人眼、嘴等特征区域，同时提取人脸特征点，进行人脸身份认证并计算面部运动方向和瞬时速度；其次通过预设阈值采用帧间差分法分别检测人脸前后移动、眼部、嘴部等面部动作；最后依据检测得到的各区域位置参数及动作完成系统、应用和通用三类模式下对应的鼠标移动、点击、滚轮操控，触控功能控和模拟键盘组合快捷键，并能通过简单动作实现不同应用模式之间进的切换，实现代替传统的鼠标和键盘、触摸等手动操纵方式，实现无接触人机交互功能。

Description

一种基于人脸动作识别的人机交互操作系统

技术领域

本发明涉及人机交互技术领域，特别涉及一种基于人脸动作识别的人机交互操作系统。

背景技术

随着当代计算机与互联网的迅猛发展,信息化与智能化的时代的来临已然势不可挡。此外新诞生出的物联网也掀起了第三次世界信息产业结构升级转型的发展浪潮，成为具有新经济增长点和优质市场效益的新兴战略产业。与此同时，各种人机交互（human-computer interaction, HCI）方式应运而生。人机交互归属于一个多学科的领域，交叉结合了计算机科学，人类学，认知和行为心理学，工业设计等许多不同学科的理论与实践经验。HCI是通过用户与机器之间的多通道信息交换，情感分析以及自然语言识别等完成人与机器设备之间的高效互联和协调工作。其中机器不仅代指计算机以及相应的软件，还包括可移动智能设备，家用电器，甚至随着HCI技术的深入发展，接收数据信息的方式从被动感知变成自主理解回馈数据，其交互对象可以扩展至任意物体，实现真正全方位多模态感知的万物交互。

然而，随着人机交互的操作方式多样化和便捷化，电子终端设备越来越智能化，用户使用门槛低阶化，人们沉迷于电子终端设备的时间持续增长，颈椎脊柱与腕关节长期劳损，严重影响了人们的身体健康与生活质量。同时，几乎所有信息终端以及信息服务，尤其是交互设计都是针对健康的普通人设计，没有考虑到一些特殊交互人群（如残疾人士）的应用需求，使实现真正的信息共享化受到阻碍，因此一种新兴却又不陌生的人机交互技术——人脸识别技术崭露头角，市场也亟需一款基于人脸识别的交互方式来取代传统的鼠标键盘操作。

人脸识别技术主要分为图像采集与预处理，人脸检测，人脸校准和人脸鉴别等四个步骤，具有非接触性，高安全性，简捷快速以及高识别精度等优势。其多通过摄像头获取人脸图像视频流，降噪处理并增强图像对比度以确保提取人脸特征和面部主要器官的相对位置的准确性和有效性，之后根据所建立的人脸灰度图像模型来提取人脸的全局和局部特征并对其分类识别，参照预设阈值与数据库中图像对比，选取匹配度最高的图像并向输出端回馈所需的信息。人脸图像分析作为视觉感知的核心内容，通过面部丰富的表情和动作直观形象传递非言语表达类的信息，如心理活动和情感表达等。这是一种描述能力强，信息容纳度高以及置信度高的生物特征识别技术，与文字传输和声音表达等信息媒介相比较，其具有更直接便捷的交互和多维度表现能力。

对比专利CN108108029中公开的一种基于人脸识别的视觉鼠标操作系统及方法，通过人脸的动作控制鼠标以达到操作电脑的功能，该系统包括图像采集模块,使用摄像头采集人脸图像图像处理模块,对采集的图像进行处理人脸识别模块,识别人脸图像中的鼻子和嘴巴鼠标操作模块,根据鼻子和嘴巴位置来进行鼠标操作。对比专利提出的系统和方法只能模拟传统鼠标的交互功能，对使用频率更高的应用软件中的键盘及其快捷键功能无法模拟，使用较为复杂，交互方式比较机械，不自然。

相较于对比专利CN108108029中公开的一种基于人脸识别的视觉鼠标操作系统及方法,本专利提出的人机交互系统根据目前常用的计算机操作特点，设计了三种应用模式，分别为系统模式、通用模式和应用模式，可依据不同的应用环境和用户需求进行自由切换，从而实现快速、自然高效的人机交互，同时使用者的头部、面部及眼部的主动动作有效的降低了由于长时间使用计算机等产品造成的身体损伤。

发明内容

针对智能电子产品的传统的键鼠、触摸等人机交互方式存在的对眼睛、颈椎易造成疲劳损伤且交互不自然的问题，本专利提出了一种通过面部动作实现无接触交互，对应用程序的常用功能进行简单方便的控制，交互更自然的同时促使用户主动进行面部、颈部运动，从而实现自然交互的并减少身体损伤，同时使残障人士也能完成对智能终端的控制，实现信息共享的无障碍化。该系统通过摄像头检测人脸动作即可执行相应的交互功能、模式的唤醒及退出、鼠标、触摸及键盘快捷键功能，并根据不同的应用场景与用户需求设置三种交互模式:系统模式，通用模式和应用模式。系统模式用于预览并切换正在运行的不同任务或应用程序、系统常用程序。通用模式的交互功能模拟传统鼠标、键盘和触摸功能；应用模式根据不同的应用程序来选择浏览模式，对话框模式从而实现具体的快速且自适应性的交互功能。基于上述目的，本发明提供了一种基于人脸动作识别的人机交互操作系统，包括：

图像采集模块，包括摄像头、图像预处理单元；

人脸动作识别模块，包括人脸、眼睛、鼻子和嘴巴的位置及动作检测单元和人脸身份认证单元；

主机模块，包括中央处理器、存储单元、数据及控制总线、显示器、电源及其管理单元及其它周边单元、操作系统、交互控制单元、应用程序。

进一步的，所述操作系统为WINDOWS、LINUX、ANDROID、IOS或其它衍生操作系统,所述交互主机模块为台式电脑、工作站、笔记本电脑、手机、平板电脑中的一种。

上述系统通过如下具体步骤实现，人脸图像的采集与检测图像的预处理，人脸及五官的区域分割和检测定位，提取人脸特征点并计算运动速度，人脸身份认证，面部动作跟踪和判定，交互模式功能唤醒及退出、鼠标、触摸及键盘快捷键组合模拟。交互模式包括系统模式、通用模式和应用模式，其中系统模式实现正在运行的各个任务、应用程序、以及系统常用程序的滚动预览和切换；通用模式模拟传统鼠标、键盘和触摸屏功能；应用模式根据不同的应用程序实现具体的快速交互功能，当打开具体应用程序时自动进入应用模式；上述三种模式可以切换。

所述应用模式包括：

浏览模式下：

脸部的快速左、右、上、下运动并慢速返回正面，触发显示内容的上、下、左、右单次翻页、多媒体音视频的快速进度调节、音量或亮度的快速调节；若脸部未返回则持续该方向翻页直至脸部慢速返回停止翻页；

脸部的慢速左、右、上、下运动并快速返回正面，触发显示内容的上、下、左、右单次移动、多媒体音视频的慢速单次进度调节、音量或亮度的慢速单次调节；若脸部未返回则持续该方向动作对应的控制功能，直至脸部快速返回正面并停止移动；

脸部的前后移动触发显示内容的放大与缩小；

对话框模式下：

脸部的慢速上下运动一次或多次触发确认功能；

脸部的慢速左右运动一次或多次触发取消功能；

所述通用模式包括：

脸部的上、下、左、右运动触发屏幕光标跟随运动事件，脸部动作停止的一段时间Ts内眼睛或嘴巴的快速开闭一次触发光标所在位置的鼠标单击事件，眼睛或嘴巴的快速开闭两次以上触发光标所在位置的鼠标双击事件；若光标停留并选中在输入框内则在屏幕上弹出虚拟键盘，用上述方式模拟控制鼠标进行键盘输入；所述Ts时间范围为0.01~2秒；

所述系统模式包括：

脸部的快速左、右、上、下运动并慢速返回正面，触发任务或应用程序预览图的上、下、左、右单次翻页；若脸部未返回则持续该方向翻页直至脸部慢速返回停止翻页；

脸部的慢速左、右、上、下运动并快速返回正面，触发任务或应用程序预览图的上、下、左、右连续移动；若脸部未返回则持续该方向任务或应用程序预览图的移动，直至脸部快速返回正面并停止移动；

脸部的慢速上下运动一次或多次触发确认功能，切换到预览图对应的任务或应用程序；

脸部的慢速左右运动一次或多次触发取消功能；返回之前运行的任务或应用程序。

快速上下或左右运动一个来回表示在通用模式和应用模式之间切换；快速上下或左右运动多个来回触发或关闭系统模式。

通过向所述操作系统发送对应的鼠标左右键和滚轮消息、键盘方向键消息、触摸消息、应用程序的键盘快捷键以及键盘鼠标的组合消息，再由操作系统向具体应用程序分发消息，最后由应用程序的消息响应模块具体实现对应的功能。

首先所述的人脸图像的采集与检测图像的预处理是通过摄像头实时采集视频图像，对每帧抓取的图像进行预处理，例如灰度化、滤波去噪、对比度增强以及缩放和镜像翻转等。

所述的人脸及五官的区域分割和检测定位可以根据Viola-Jones检测框架训练出的haar分类器，检测人脸正面和左右侧面，获取目标框的左上点坐标和边框长宽的数据信息并确定相应边缘矩形框区域并输出截取的人脸图像，消除背景环境的干扰。通过各种人脸识别算法确认所截取的人脸图像是否为有权限人脸，如果认证通过则在截取出的人脸图像中继续进行检测，获取人眼、鼻子和嘴巴的位置。

所述的提取人脸特征点并计算运动速度可以采用集成回归树算法训练模型定位人脸中鼻尖部分，人眼和嘴部的全部特征点，并根据稀疏光流算法建立二维光流场得到每帧人脸特征点的瞬时速度值和位移矢量。

所述的面部动作跟踪和判定是结合人脸检测结果和特征点的瞬时速度值来检测脸部移动速度的方向和梯度变化，设置双阈值对脸部的左、右、上、下的快速慢速运动进行判定。同时根据眼睛或嘴部特征点的坐标计算嘴部图像的长宽比，当连续两帧中长宽比的差值绝对值超过预设阈值，则判定眼睛或嘴部开闭动作。另外，通过连续两帧差分法计算人脸目标矩形框在水平方向的变化幅度，若所述的水平方向人脸矩形框的变化幅度大于水平方向的预设阈值，判定人脸为前后移动的动作。

作为本发明的一种方案，鼠标操控和触控操作可以通过抓取的连续两帧图像中人脸特征点的坐标差值作为位移矢量，通过线性映射，得出鼠标光标或触控点的位移矢量。以屏幕中鼠标光标为起点，进行鼠标在屏幕内任意方向的移动；以触屏中当前触摸点为起始位置，进行触摸点在屏幕内任意方向的移动。并且系统利用haar分类器的左右脸检测和微笑检测，人脸静止分别作为鼠标滚轮移动和鼠标单击的触发信号，当捕获图像帧检测到左脸，鼠标滚轮向上移动若干像素，反之，则鼠标滚轮向下移动若干像素，当检测到人脸图像中有微笑区域或连续静止存在，则鼠标在光标所在处进行单击操作。当检测到嘴巴快速开闭两次，则进行鼠标双击操作。

作为本发明的一种方案，当判定为人脸向前移动，系统将模拟显示放大的触摸、鼠标或键盘组合按键，例如ctrl和+的组合，将屏幕画面放大；当判定为人脸向后移动，系统将模拟键盘ctrl和-的组合按键，将屏幕画面缩小。并且利用抽取连续视频图像序列，对其进行人眼区域内瞳孔存在进行判定，当连续三帧图像不存在瞳孔区域则设定人脸状态存在闭眼动作，触发截屏函数，截取屏幕当前画面，并通过预先设定的文件路径，将截图存入相应文件夹。并且根据脸部动作方向和速度变化的判断执行阅览页面翻页，视频调速，音量调节，系统模式切换的快捷键操作。

技术效果：本发明的系统，通过识别依据每帧人脸检测的各类参数完成人脸身份认证，交互系统的自动唤醒和退出，鼠标光标，滚轮，点击和模拟键盘组合摁键控制网页放缩，音量控制，视频播放进度调节的一系列操作，结合单个摄像头代替了传统的鼠标和键盘操纵方式，基本满足用户浏览网页的控制需求。这些功能只需要用户控制头部移动和面部表情即可，无需手动操作，极大程度上方便了特殊交互人群的应用。并且系统仅依赖PC端以及其前端内置摄像头完成系统的检测识别和交互等全部功能，对硬件设施要求低，具有良好的可拓展性和普适性。同时，根据不同的应用场景与用户需求该系统设置三种交互模式:系统模式，通用模式和应用模式，并且三种模式根据人脸动作可以灵活切换。系统模式用于预览并切换正在运行的不同任务或应用程序、系统常用程序。通用模式的交互功能模拟传统鼠标、键盘和触摸功能；应用模式根据不同应用环境来选择浏览模式，对话框模式从而实现具体的快速且自适应性的交互操作。另外，在windows系统实际运行过程中，该交互系统实时性良好，系统处理速率较快，运行速度最高可达到每秒处理10帧图像，准确度较高。

附图说明

图1 是本发明整体设计的模块分布图。

图2 是是本发明具体实施过程的流程图。

图3 是本发明三种交互模式的功能介绍。

图4 是级联分类器工作原理。

具体实施方式

为详细介绍本发明实施例的目的，技术效果以及技术方案更加清楚，下面结合本发明实例中的附图，对本发明实施例中的技术方案进行更加完整细致的描述。显然，所描述的实施例是本发明一部分实施例。基于本发明公开的实施例，本领域普通技术人员在没有做出创造性劳动的前提下所获得的其它实施例，都应属于本发明保护的范围。

实施例1

如图1所示，一种基于人脸动作识别的人机交互操作系统，所述系统包括：

1、图像采集模块，包括摄像头、图像预处理单元；

2、人脸动作识别模块，包括人脸、眼睛、鼻子和嘴巴的位置及动作检测单元和人脸身份认证单元；

3、主机模块：包括中央处理器、存储单元、数据及控制总线、显示器、电源及其管理单元及其它周边单元、操作系统、交互控制单元、应用程序；所述操作系统为WINDOWS、LINUX、ANDROID、IOS或其它衍生操作系统，所述交互主机模块为台式电脑、工作站、笔记本电脑、手机、平板电脑中的一种。

实施例2

本实施方式中，具体工作流程如图2所示,上述系统的工作方法包括：

系统上电后，主机模块完成所述系统的其它模块的连接及初始化，图像采集模块开始实时采集视频并对图像进行预处理；首先所述的人脸图像的采集与检测图像的预处理是通过摄像头实时采集视频图像，对每帧抓取的图像进行预处理，例如灰度化、滤波去噪、对比度增强以及缩放和镜像翻转等。

当人脸动作识别模块检测到摄像头采集的视频中包含人脸时，进行人脸身份认证，认证成功后跟踪该人脸所在区域进行人脸、眼睛、鼻子和嘴巴的位置及动作的判定，唤醒主机模块的交互控制单元；

交互控制单元根据人脸动作识别模块获得的数据执行相应交互模式和功能的唤醒及退出、鼠标、触摸屏及键盘快捷键等交互功能，实现人机交互。

交互模式包括系统模式、通用模式和应用模式，其中系统模式实现正在运行的各个任务、应用程序、以及系统常用程序的滚动预览和切换；通用模式的交互功能是模拟传统鼠标、键盘和触摸屏功能；应用模式根据不同的应用程序实现具体的快速交互功能，当打开具体应用程序时自动进入应用模式。上述三种模式可以切换。

所述应用模式包括：

浏览模式下：

脸部的前后移动触发显示内容的放大与缩小；

对话框模式下：

脸部的慢速上下运动一次或多次触发确认功能；

脸部的慢速左右运动一次或多次触发取消功能；

所述通用模式包括：

所述系统模式包括：

上所述功能的具体实现可以通过向所述操作系统发送对应的鼠标左右键和滚轮消息、键盘方向键消息、触摸消息、应用程序的键盘快捷键以及键盘鼠标的组合消息，由操作系统向具体应用程序分发消息，最后由应用程序的消息响应模块具体实现对应的功能。

如图3所示执行对应的应用模式的人机交互功能。当采用前置摄像头时，为了与使用者控制方向一致，需要对图像进行镜像或计算结果进行镜像。本实施方式中,人脸检测算法可以采用基于Viola-Jones检测框架的Haar特征检测对输入的灰度图像进行分析。Viola-Jones检测框架首先计算图像的积分图,选用三矩形Haar特征模板提取人脸特征。然后利用已训练好的Adaboost分类器特征库,运用Cascade级联的方法简化分类器规模。本系统使用的分类器特征库由22级联强分类器构成,每个强分类器又由若干个弱分类器构成。如图4所示，系统首先截取整幅图像中所有80*80的子窗口,每个子窗口依次通过级联分类器,逐级淘汰非人脸子窗口。如果只有一个通过全部22级分类器的子窗口,则确定该窗口为人脸子窗口，如有多个通过全部22级分类器的子窗口,对多个待选人脸子窗口进行相邻6*6的子窗口进行合并筛选,选出最佳人脸子窗口。如果没检测到符合的子窗口,则子窗口大小以1.16倍递增构建图像金字塔，并重新通过级联分类器按照从大到小顺序依次对每一张图像进行子窗口的扫描与匹配。

本实施方式中，在动作识别中，本系统采用帧差分法判断面部前后移动的动作和闭眼检测。根据连续前后两帧的视频序列图像帧中，通过人脸检测模块中获取的人脸边缘矩形边框的像素差值，人脸向屏幕前移时，捕获帧的人脸边缘矩形边框扩大，后移时，则边框尺度缩小，同时设置一个阈值判断人脸前移和后移动作。其中阈值的设置需要权衡动作判定的灵敏度和误判率两者，找到最优阈值。阈值越小，动作判定越灵敏，动作识别速度快，误判率也随之增高，反之，识别精准度高，系统的反应敏感度低。

同时，采用连续三帧判断闭眼动作从而降低闭眼动作的误判率，可以获得更好的检测效果。

另外，采用光流法，通过计算稀疏光流图像上各像素点的不同运动方向形成众多的瞬时速度向量，这些向量在图像上的分布形成的向量场即为光流场。对相连的两帧图像间的特征点进行视差计算，求出稀疏光流场,利用瞬时速度值和位移矢量即可判断面部移动方向和移动速度，同时加入双阈值判断慢速和快速动作。

对于面部静止判断，采用连续五帧的特征点坐标，速度值和人脸检测中各边框大小进行判断，若这些值基本不变或变化量小于一定值，则判定人物静止。

上述面部动作的设计、判定所需的阈值可以根据使用者习惯进行自定义或在使用者使用过程中自动调整。

作为本发明的一种技术方案，鼠标操控和触控操作可以通过抓取的连续两帧图像中人脸特征点的坐标差值作为位移矢量，通过线性映射，得出鼠标光标或触控点的位移矢量。以屏幕中鼠标光标为起点，进行鼠标在屏幕内任意方向的移动；以触屏中当前触摸点为起始位置，进行触摸点在屏幕内任意方向的移动。并且系统利用haar分类器的左右脸检测和微笑检测，人脸静止分别作为鼠标滚轮移动和鼠标单击的触发信号，当捕获图像帧检测到左脸，鼠标滚轮向上移动若干像素，反之，则鼠标滚轮向下移动若干像素，当检测到人脸图像中有微笑区域或连续静止存在，则鼠标在光标所在处进行单击操作。当检测到嘴巴快速开闭两次，则进行鼠标双击操作。

作为本发明的一种技术方案，当判定为人脸向前移动，系统将模拟显示放大的触摸、鼠标或键盘组合按键，例如ctrl和+的组合，将屏幕画面放大；当判定为人脸向后移动，系统将模拟键盘ctrl和-的组合按键，将屏幕画面缩小。并且利用抽取连续视频图像序列，对其进行人眼区域内瞳孔存在进行判定，当连续三帧图像不存在瞳孔区域则设定人脸状态存在闭眼动作，触发截屏函数，截取屏幕当前画面，并通过预先设定的文件路径，将截图存入相应文件夹。并且根据脸部动作方向和速度变化的判断执行阅览页面翻页，视频调速，音量调节，系统模式切换的快捷键操作。

上述为本发明的实施方式,但本发明的实施方式并不受上述内容的限制,其他的任何未背离本发明的精神实质与原理下所作的改变、修饰、替代、组合、简化,均应为等效的置换方式,都包含在本发明的保护范围之内。

Claims

1.一种基于人脸动作识别的人机交互操作系统，其特征在于：所述系统包括：

图像采集模块，包括摄像头、图像预处理单元；

主机模块：包括中央处理器、存储单元、数据及控制总线、显示器、电源及其管理单元及其它周边单元、操作系统、交互控制单元、应用程序；

所述系统的工作方法包括：

系统上电后，主机模块完成所述系统的其它模块的连接及初始化，图像采集模块开始实时采集视频并对图像进行预处理；

交互控制单元根据人脸动作识别模块获得的数据执行相应交互模式和功能的唤醒及退出、鼠标、触摸屏及键盘快捷键等交互功能，实现人机交互；

交互模式包括系统模式、通用模式和应用模式，其中系统模式实现正在运行的各个任务、应用程序、以及系统常用程序的滚动预览和切换；通用模式的交互功能是模拟传统鼠标、键盘和触摸屏功能；应用模式根据不同的应用程序实现具体的快速交互功能，当打开具体应用程序时自动进入应用模式；上述三种模式可以切换。

2.根据权利要求1所述的一种基于人脸动作识别的人机交互操作系统，其特征在于，

所述应用模式包括：

浏览模式下：

脸部的前后移动触发显示内容的放大与缩小；

对话框模式下：

脸部的慢速上下运动一次或多次触发确认功能；

脸部的慢速左右运动一次或多次触发取消功能；

所述通用模式包括：

所述系统模式包括：

3.根据权利要求1或2所述的一种基于人脸动作识别的人机交互操作系统，其特征在于，快速上下或左右运动一个来回表示在通用模式和应用模式之间切换；快速上下或左右运动多个来回触发或关闭系统模式。

4.根据权利要求1-3所述的一种基于人脸动作识别的人机交互操作系统，其特征在于，通过向所述操作系统发送对应的鼠标左右键和滚轮消息、键盘方向键消息、触摸消息、应用程序的键盘快捷键以及键盘鼠标的组合消息，由操作系统向具体应用程序分发消息，最后由应用程序的消息响应模块具体实现对应的功能。

5.根据权利要求1-4所述的一种基于人脸动作识别的人机交互操作系统，其特征在于，所述操作系统为WINDOWS、LINUX、ANDROID、IOS或其它衍生操作系统。

6.根据权利要求1-4所述的一种基于人脸动作识别的人机交互操作系统，其特征在于，所述交互主机模块为台式电脑、工作站、笔记本电脑、手机、平板电脑中的一种。