CN112667078A - 基于视线估计的多屏场景下鼠标快速控制方法、系统及计算机可读介质 - Google Patents
基于视线估计的多屏场景下鼠标快速控制方法、系统及计算机可读介质 Download PDFInfo
- Publication number
- CN112667078A CN112667078A CN202011553957.0A CN202011553957A CN112667078A CN 112667078 A CN112667078 A CN 112667078A CN 202011553957 A CN202011553957 A CN 202011553957A CN 112667078 A CN112667078 A CN 112667078A
- Authority
- CN
- China
- Prior art keywords
- screen
- coordinate system
- face
- mouse
- camera
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 61
- 210000003128 head Anatomy 0.000 claims abstract description 47
- 210000001508 eye Anatomy 0.000 claims abstract description 22
- 238000012545 processing Methods 0.000 claims abstract description 21
- 238000001514 detection method Methods 0.000 claims abstract description 16
- 230000009466 transformation Effects 0.000 claims abstract description 10
- 230000009471 action Effects 0.000 claims abstract description 8
- 239000011159 matrix material Substances 0.000 claims description 25
- 238000013519 translation Methods 0.000 claims description 17
- 238000003062 neural network model Methods 0.000 claims description 14
- 230000006870 function Effects 0.000 claims description 13
- 238000004364 calculation method Methods 0.000 claims description 8
- 238000000605 extraction Methods 0.000 claims description 8
- 238000004590 computer program Methods 0.000 claims description 7
- 238000006243 chemical reaction Methods 0.000 claims description 6
- 238000012216 screening Methods 0.000 claims description 5
- 238000012937 correction Methods 0.000 claims description 3
- 230000003993 interaction Effects 0.000 abstract description 12
- 230000001815 facial effect Effects 0.000 abstract 1
- 238000010586 diagram Methods 0.000 description 5
- 230000008569 process Effects 0.000 description 4
- 238000011160 research Methods 0.000 description 4
- 230000004913 activation Effects 0.000 description 3
- 238000011176 pooling Methods 0.000 description 3
- 230000008859 change Effects 0.000 description 2
- 230000002093 peripheral effect Effects 0.000 description 2
- 238000003491 array Methods 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 210000005252 bulbus oculi Anatomy 0.000 description 1
- 238000004422 calculation algorithm Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000004438 eyesight Effects 0.000 description 1
- 210000001061 forehead Anatomy 0.000 description 1
- 239000011521 glass Substances 0.000 description 1
- 230000004886 head movement Effects 0.000 description 1
- 238000003384 imaging method Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 238000002372 labelling Methods 0.000 description 1
- 238000013178 mathematical model Methods 0.000 description 1
- 238000005259 measurement Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000011218 segmentation Effects 0.000 description 1
- 230000001629 suppression Effects 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Images
Classifications
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Image Analysis (AREA)
Abstract
本发明公开了基于视线估计的多屏场景下鼠标快速控制方法、系统及计算机可读介质,方法包括图像采集、图像处理、读取坐标位置、控制鼠标动作的步骤;其中图像处理包括人脸检测、面部特征点定位、头部姿态估计、三维视线估计、坐标转化、设置置信度阈值的步骤。本发明基于视线估计的多屏场景下鼠标快速控制方法、系统及计算机可读介质,可以有效解决在大屏或跨多屏浏览信息时的鼠标跟随问题,尤其是在多个大屏幕扩展的工作场景下使人机交互更为便捷,控制鼠标在多屏间大范围快速移动,然后人手可以控制鼠标做小范围的精细控制,通过手眼配合,达到在多屏间对鼠标快速、自然、高效地控制。
Description
技术领域
本发明属于眼控鼠标与人机交互技术领域,涉及基于视线估计的多屏场景下鼠标快速控制方法、系统及计算机可读介质。
背景技术
当前计算机技术及多媒体技术发展迅速,为获取信息及人机交互提供了便利条件。但随着计算机及多媒体的屏幕尺寸增大及数量增多,传统单手操作鼠标进行人机交互的方式效率明显下降,不能完全满足人机交互需求,因此探索自然、高效、智能化的人机交互方式已成为计算机研究领域的重要议题之一。
在人机交互领域中,人眼作为重要的信息交互通道,备受关注。人眼视线反应了用户的注意方向和关注意图。将视线应用于人机交互领域具有自然、直接和无接触交互等特点,因此,如何实现利用人眼视线方向控制鼠标光标在屏幕内快速准确地移动到相应的人眼注视点或注视区域内,以大幅提高大/多屏人机交互操作的效率,是亟需解决的技术问题。
然而,目前针对眼控鼠标技术的研究还相对较少,较多数方法都是通过借助眼镜、头盔等特殊穿戴设备来实现眼控鼠标功能,成本高且支持生态差,尽管存在部分通过对人眼特征进行检测定位而达到控制鼠标目的的技术(如已知有一种基于Kinect相机与深度信息的眼控方法),但在随着屏幕尺寸不断增大的多屏场景下,人眼眼球引起的视线变化范围有限,仅依靠人眼特征很难解决大范围跨屏的鼠标跟随技术,并且人眼结构复杂,物理建模难度较高,目前人眼视线估计主要通过神经网络预测得到,鲁棒性较低,因此,目前针对眼控鼠标技术的研究的准确性和效率均较低。
针对上述问题,本发明旨在提出一种针对大屏及多屏场景下的眼控鼠标控制方法、系统及计算机可读介质,基于头部姿态变化能引起人眼视线明显变化的思路,不依赖特殊设备,使用普通相机即可实现,通过严谨的几何数学模型关系从2D图像序列信息中即可得到注视点估计坐标,从而控制鼠标跟随视线快速准确移动。
发明内容
为了达到上述目的,本发明提供基于视线估计的多屏场景下鼠标快速控制方法、系统及计算机可读介质,可以有效解决在大屏或跨多屏浏览信息时的鼠标跟随问题,尤其是在多个大屏幕扩展的工作场景下使人机交互更为便捷,控制鼠标在多屏间大范围快速移动,然后人手可以控制鼠标做小范围的精细控制,通过手眼配合,达到在多屏间对鼠标快速、自然、高效地控制,解决了现有技术中存在的眼控鼠标技术的研究的准确性和效率较低的问题。
本发明所采用的技术方案是,基于视线估计的多屏场景下鼠标快速控制方法,包括以下步骤:
图像采集:多个相机多角度实时拍摄屏幕前操作人物的图像,产生当前时刻的人物图像信息,采集各个时刻的人物图像信息;
图像处理,包括人脸检测、特征点检测、头部姿态估计、三维视线估计、坐标转化、设置置信度阈值:
人脸检测:将采集的各个时刻的人脸多角度的图像序列输入至深度级联神经网络模型中进行特征提取,然后进行人脸分类和人脸候选框筛选,输出最终位置的人脸框;
特征点检测:通过人脸约束模型对输出的最终位置的人脸框中的特征点进行检测,标注出最终位置的人脸框中的人脸二维特征关键点,实现二维人脸关键点定位;
头部姿态估计:根据输出的最终位置的人脸框中的人脸二维特征关键点反向投影到三维人脸模型,获得人脸三维特征关键点,将人脸三维特征关键点转换到图像坐标系的平移矩阵以及旋转矩阵,进而得到头部姿态欧拉角,实现头部姿态估计;
三维视线估计:根据相机位置、屏幕位置以及相机坐标系下头部姿态之间存在的几何关系,求得相机坐标系下的注视方向在屏幕内的坐标,完成三维视线估计;
坐标转化:将相机坐标系下的注视方向在屏幕内的坐标值转换到屏幕坐标系内,输出屏幕坐标系下人脸多角度的图像序列的注视方向在屏幕内的像素坐标位置;
设置置信度阈值:对比各个相机的图像序列计算得到的注视方向在屏幕内的像素坐标位置及其置信度,选取人脸正对、置信度高的计算结果作为最终的屏幕及注视方向在屏幕内的像素坐标位置输出结果;
读取坐标位置、控制鼠标动作:获取到的最终的屏幕及注视方向在屏幕内的像素坐标位置即为鼠标移动的目标位置,读取输出的屏幕及像素坐标值,控制鼠标光标快速移动到对应注视位置,实现基于视线估计的多屏场景下鼠标快速控制方法。
进一步地,人物图像信息包括:人脸多角度的图像序列、图像的源相机参数、以及源相机所在屏幕位置信息;人脸多角度的图像序列为包含完整眼部的人脸多角度图像序列。
进一步地,将采集的各个时刻的人脸多角度的图像序列输入至深度级联神经网络模型中进行特征提取,然后进行人脸分类和人脸候选框筛选,输出最终位置的人脸框,具体为:
将采集的各个时刻的人脸多角度的图像序列通过人脸/非人脸分类器输出得到各个可能含有人脸的边界框,将得到的各个可能含有人脸的边界框输入至深度级联神经网络模型中的第一个子网络结构中进行特征提取,输出候选窗,对输出的候选窗使用边界框回归方法合并重叠的候选窗,得到校正后的候选窗;校正后的候选窗分为两部分,第一部分用来判断当前校正后的候选窗内图像是否存在人脸,第二部分表示当前校正后的候选窗内人脸位置相对完美的人脸框位置的偏移;
将通过第一个子网络得到校正后的候选窗作为输入,通过深度级联神经网络模型中的第二个子网络结构,输出粗预测的候选窗,使用边界框回归方法合并重叠的粗预测的候选窗,得到第二次校正后的候选窗;
将通过第二个子网络结构得到的第二次校正后的候选窗作为输入,通过深度级联神经网络模型中的第三个子网络结构,输出最终位置的人脸框。
进一步地,根据输出的最终位置的人脸框中的人脸二维特征关键点反向投影到三维人脸模型,获得人脸三维特征关键点,将人脸三维特征关键点转换到图像坐标系的平移矩阵以及旋转矩阵,进而得到头部姿态欧拉角,实现头部姿态估计,具体为:
p为输出的最终位置的人脸框中的一个人脸二维特征关键点,p点在相机坐标系中的坐标为Oc-XcYcZc,P为世界坐标系中3D头部刚体模型中对应关键点,p与P之间的坐标转换运算模型为:
式中,是p点在图像中心坐标系下的坐标,是相机的内参矩阵,fx和fy是表示焦距的参数,cx和cy是相机主轴与图像平面的焦点相对于图像平面的位置,r11、r21、r31表示世界坐标系下X轴在相机坐标系下的方向向量,r12、r22、r32表示世界坐标系下Y轴在相机坐标系下的方向向量,r31、r32、r33表示世界坐标系下Z轴在相机坐标系下的方向向量,t1、t2、t3分别表示沿着Xc、Yc、Zc方向相机坐标系相对于世界坐标系的平移向量;是P点在世界坐标下的坐标;
采用世界坐标系来描述相机的位姿,采用当前人脸图像的头部坐标相对相机坐标系的旋转矩阵和平移矩阵表示头部姿态,其中,头部姿态相对于相机的旋转和平移关系采用欧拉角表示;
其中,欧拉角的计算公式如下式所示:
θup=arctan2(r32,r33)
θturn、θup分别为欧拉角中的偏航角和俯仰角,r31、r32、r33表示世界坐标系下Z轴在相机坐标系下的方向向量。
进一步地,相机坐标系下的注视方向在屏幕内的坐标的计算如下式所示:
x=Xp+Zp*(-tan(θturn))
y=Yp+Zp*(tan(θup))
式中:x、y分别为相机坐标系下的屏幕注视点坐标值,Xp、Yp、Zp分别为相机坐标系下的头部姿态坐标值,θturn、θup分别为欧拉角中的偏航角和俯仰角。
进一步地,将相机坐标系下的注视方向在屏幕内坐标值转换到屏幕坐标系的计算公式为:
xp=-x-lp1
yp=y-lp2
式中:xp、yp分别为屏幕坐标系下的注视方向在屏幕内的物理坐标值,x、y分别为相机坐标系下的注视方向在屏幕内坐标值,-x代表相机坐标系与屏幕坐标系的x轴方向相反,lp1、lp2分别为相机坐标系与屏幕坐标系的坐标原点间偏移量。
进一步地,输出屏幕坐标系下人脸多角度的图像序列的注视方向在屏幕内的像素坐标位置中,屏幕的物理尺寸大小与像素分辨率之间存在如下关系,:
式中,xpix、ypix分别为屏幕坐标系下像素的x方向坐标值和y方向坐标值,xp、yp分别为x方向和y方向下屏幕坐标系下的注视方向在屏幕内的物理坐标值,lS、hS分别为x方向和y方向下的屏幕物理尺寸,lSpix、hSpix分别为x方向和y方向下的像素尺寸。
本发明的另一发明目的,在于提供一种基于视线估计的多屏场景下鼠标快速控制系统,包括:
存储器,用于存储可由处理器执行的指令;
处理器,用于执行所述指令以实现如上所述的方法。
本发明的再一发明目的,在于提供一种计算机可读介质,存储有计算机程序代码,计算机程序代码在由处理器执行时实现如上所述的方法。
本发明的有益效果是:
(1)本发明提出了基于视线估计的多屏场景下鼠标快速控制方法、系统及计算机可读介质,综合考虑头部姿态与三维视线之间的关系,避免传统方法对两个特征源的直接分割操作,可实现由头部带动视线的大范围移动,更适合大屏与多屏场景下的鼠标控制,为当前大/多屏场景下快速控制鼠标在屏幕内移动提供了解决方案。
(2)本发明基于视线估计的多屏场景下鼠标快速控制系统的各设备之间功能独立,处理模块仅通过串口或USB虚拟串口与计算机连接;无需进行相机和屏幕的二次校准,系统可快速与计算机进行适配;无需特殊设备支持;执行软件功能性强,代码短小简洁,方便进行各类型安全审查。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明基于视线估计的多屏场景下鼠标快速控制方法的工作流程图。
图2为本发明中人脸检测和特征点标注效果实例图。
图3为本发明中头部位姿欧拉角示意图。
图4为本发明中头部姿态估计模型一示意图。
图5为本发明中头部姿态估计模型二示意图。
图6为本发明中视线估计几何模型示意图。
图7为本发明基于视线估计的多屏场景下鼠标快速控制系统的系统架构图。
图8为本发明的一种优选实例形式示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。在本发明实施例的描述中,除非另有说明,“多个”的含义是两个或两个以上。
如图1所示,本发明基于视线估计的多屏场景下鼠标快速控制方法,包括以下步骤:
图像采集:
多个相机多角度实时拍摄屏幕前操作人物的图像,产生当前时刻的人物图像信息,人物图像信息包括:人脸多角度的图像序列、图像的源相机参数、以及源相机所在屏幕位置信息;人脸多角度的图像序列包含完整眼部的人脸多角度图像序列;采集各个时刻的人物图像信息;
图像处理,包括人脸检测、特征点检测、头部姿态估计、三维视线估计、坐标转化、设置置信度阈值:
人脸检测:
将采集的各个时刻的人脸多角度的图像序列输入至深度级联神经网络模型中进行特征提取,然后进行人脸分类和人脸候选框筛选,输出最终位置的人脸框;
将采集的各个时刻的人脸多角度的图像序列通过人脸/非人脸分类器输出得到各个可能含有人脸的边界框,将得到的各个可能含有人脸的边界框输入至深度级联神经网络模型中的第一个子网络结构中进行特征提取,输出候选窗,对输出的候选窗使用边界框回归方法合并重叠的候选窗,得到校正后的候选窗;校正后的候选窗分为两部分,第一部分用来判断当前校正后的候选窗内图像是否存在人脸(本发明实施例第一部分输出向量大小为1×1×2),第二部分表示当前校正后的候选窗内人脸位置相对完美的人脸框位置的偏移(本发明实施例第二部分输出向量大小1×1×4);
其中,人脸/非人脸分类器,把采集的各个时刻的人脸多角度的图像序列中各个可能含有人脸的边界框分割出来;
其中,边界框回归(Bounding box regression)方法使用非极大值抑制(NMS)合并重叠的候选框,得到校正后的候选窗,边界框回归方法通过计算候选窗的背景坐标与真实的背景坐标之间的欧式距离,计算回归损失函数表达式如下:
其中,y是一个四元组,包括候选窗左上角的横坐标的相对偏移、候选窗左上角的纵坐标的相对偏移、候选窗宽度的误差、候选窗高度。
其中,第一个子网络是一个全卷积网络,其模型结构如表1所示:
表1第一个子网络的模型结构
第一个子网络结构,包括:
第一卷积层,名称Conv1,卷积核尺寸为3×3×10,步长为1;第一卷积层输入特征向量尺寸为12×12×3的图像,第一卷积层的输出特征值大小为10×10×10;激活函数采用ReLU1进行激活;后接最大池化层,名称MaxPool1,池化核大小为2×2,输出特征值大小为5×5×10;第一卷积层输出是用来判断该图像是否存在人脸;
第二卷积层,名称Conv2,卷积核大小为3×3×16,步长为1,输入特征值大小为5×5×10,输出特征值大小为3×3×16;激活函数采用ReLU2进行激活;
第三卷积层,名称Conv3,卷积核大小为3×3×32,步长为1,输入特征值大小为3×3×16,输出分为两部分,第一部分输出是用来判断当前图像是否存在人脸,输出向量大小1×1×2,第二部分输出当前框内人脸位置相对完美的人脸框位置的偏移,输出向量大小1×1×4;激活函数采用ReLU3进行激活;
将通过第一个子网络得到的校正后的候选窗作为输入,通过深度级联神经网络模型中的第二个子网络结构,输出粗预测的候选窗,使用边界框回归方法合并重叠的粗预测的候选窗,得到第二次校正后的候选窗;
第二个子网络相比第一个子网络,在三次卷积处理之后添加了一个全连接层。
将通过第二个子网络结构得到的第二次校正后的候选窗作为输入,通过深度级联神经网络模型中的第三个子网络结构,输出最终位置的人脸框。
第三个子网络相比第二个子网络,在全连接层之后多了一层3×3的卷积层,输出最终的人脸框位置。
特征点检测:
通过人脸约束模型对输出的最终位置的人脸框中的特征点进行检测,标注出最终位置的人脸框中的人脸二维特征关键点,如图2所示,实现二维人脸关键点定位。
头部姿态估计:
如图3所示,根据输出的最终位置的人脸框中的人脸二维特征关键点反向投影到三维人脸模型,获得人脸三维特征关键点,将人脸三维特征关键点转换到图像坐标系的平移矩阵以及旋转矩阵,进而得到头部姿态欧拉角,实现头部姿态估计;
根据相机成像原理,可知从现实三维世界到人脸图像之间存在世界坐标系、相机坐标系、图像中心坐标系、图像坐标系四个坐标系之间的转换关系。
如图4所示,Ow-XwYwZw是世界坐标系,Oc-XcYcZc是相机坐标系、o-xy是图像中心坐标系,uv是图像坐标系;
p为输出的最终位置的人脸框中的一个人脸二维特征关键点,已实现二维定位,p点在相机坐标系中的坐标为Oc-XcYcZc,P为世界坐标系中3D头部刚体模型中对应关键点。
从世界坐标系到相机坐标系的坐标转换涉及到旋转和平移,根据不同坐标系坐标轴的不同旋转不同的角度,得到相应的旋转矩阵R,如下所示:
R=X(α)*Y(β)*Z(γ),R:3*3
式中,X(α)、Y(β)、Z(γ)分别表示坐标系坐标分别绕X、Y、Z轴旋转α、β、γ角度对应的旋转矩阵;R表示旋转矩阵,R:3*3表示旋转矩阵为3行3列。
由此可得从世界坐标系P点到相机坐标系p点的坐标转换关系,如下式所示:
p点从相机坐标系到图像中心坐标系的坐标转换关系,如下式所示:
进而,可得在图像中心坐标系下的最终位置的人脸框中人脸图像中一个关键点p与世界坐标系中3D头部刚体模型中对应关键点P之间的坐标转换运算模型:
式中,r11、r21、r31表示世界坐标系下X轴在相机坐标系下的方向向量,r12、r22、r32表示世界坐标系下Y轴在相机坐标系下的方向向量,r31、r32、r33表示世界坐标系下Z轴在相机坐标系下的方向向量,t1、t2、t3分别表示沿着Xc、Yc、Zc方向相机坐标系相对于世界坐标系的平移向量。
在实际应用中,世界坐标系中3D头部刚体模型中部分对应关键点坐标会由算法内部的通用模型给出,如表2给出了部分关键点坐标:
表2世界坐标系中3D头部刚体模型中部分对应关键点坐标
关键点 | X/mm | Y/mm | Z/mm |
鼻尖 | 0.0 | 0.0 | 0.0 |
下额 | 0.0 | -333.0 | -65.0 |
左眼角 | -225.0 | 170.0 | -135.0 |
右眼角 | 225.0 | 170.0 | 135.0 |
左嘴角 | -150.0 | -150.0 | -125.0 |
右嘴角 | 150.0 | -150.0 | -125.0 |
采用世界坐标系来描述相机的位姿,采用当前人脸图像的头部坐标相对相机坐标系的旋转矩阵和平移矩阵表示头部姿态,其中,头部姿态相对于相机的旋转和平移关系采用欧拉角表示。
其中,欧拉角的计算公式如下式所示:
θup=arctan2(r32,r33)
θturn、θup分别为欧拉角中的偏航角和俯仰角,r31、r32、r33表示世界坐标系下Z轴在相机坐标系下的方向向量。
三维视线估计:
根据相机位置、屏幕位置以及相机坐标系下头部姿态之间存在的几何关系,如图5所示,相机坐标系下的注视方向在屏幕内的坐标可通过下式求得,完成三维视线估计:
x=Xp+Zp*(-tan(θturn))
y=Yp+Zp*(tan(θup))
式中:x、y分别为相机坐标系下的屏幕注视点坐标值,Xp、Yp、Zp分别为相机坐标系下的头部姿态坐标值,θturn、θup分别为欧拉角中的偏航角和俯仰角。
本发明基于视线估计的多屏场景下鼠标快速控制方法,在大屏和多屏场景下,眼球转动引起的视线变化是小范围的,而头部小幅移动便可以引起视线的大幅变化,因此本发明通过对头部位姿进行视线估计,在得到相机坐标系下的头部姿态后,建立如图6所示的相机-屏幕坐标系几何关系模型,根据三角函数运算法则计算得到注视方向在屏幕内的坐标。
坐标转化:
将相机坐标系下的注视方向在屏幕内坐标值转换到屏幕坐标系内,相机坐标系与屏幕坐标系坐标值之间关系如下:
xp=-x-lp1
yp=y-lp2
式中:xp、yp分别为屏幕坐标系下的注视方向在屏幕内的物理坐标值,x、y分别为相机坐标系下的注视方向在屏幕内坐标值,-x代表相机坐标系与屏幕坐标系的x轴方向相反,lp1、lp2分别为相机坐标系与屏幕坐标系的坐标原点间偏移量。
求得的屏幕坐标为物理坐标,其单位为mm,但鼠标在屏幕内移动时是以像素为度量单位的,因而屏幕的物理尺寸大小与像素分辨率之间存在如下关系,得到像素坐标:
式中,xpix、ypix分别为屏幕坐标系下像素的x方向坐标值和y方向坐标值,xp、yp分别为x方向和y方向下屏幕坐标系下的注视方向在屏幕内的物理坐标值,lS、hS分别为x方向和y方向下的屏幕物理尺寸,lSpix、hSpix分别为x方向和y方向下的像素尺寸。
设置置信度阈值:
对输入的人脸多角度的图像序列执行上述人脸检测、特征点检测、头部姿态估计、三维视线估计、坐标转化处理,输出屏幕坐标系下人脸多角度的图像序列的注视方向在屏幕内的像素坐标位置,然后对比各个相机的图像序列计算得到的注视方向在屏幕内的像素坐标位置及其置信度,选取人脸正对、置信度高的计算结果作为最终的屏幕及注视方向在屏幕内的像素坐标位置输出结果。
读取坐标位置、控制鼠标动作:
获取到的最终的屏幕及注视方向在屏幕内的像素坐标位置即为鼠标移动的目标位置,为确保鼠标每次移动更加精确,设置偏差比例使鼠标获得更准确的更新,预置的偏差比为0.15;读取输出的屏幕及像素坐标值,控制鼠标光标快速移动到对应注视位置,实现基于视线估计的多屏场景下鼠标快速控制方法。
如图1~图8所示,本发明实施例中,基于视线估计的多屏场景下鼠标快速控制系统,包括采集模块、处理模块和执行模块。采集模块由安装在每块屏幕上边框中间位置的相机组成,与处理模块连接;处理模块作为外设,以工控机形式呈现,一端与采集模块连接,一端以串口或USB虚拟串口与计算机连接;执行模块为安装在计算机内的控制软件,通过自身权限控制鼠标;整个基于视线估计的多屏场景下鼠标快速控制系统由计算机电源供电运行,无需二次标定。
图7展示了基于视线估计的多屏场景下鼠标快速控制系统的实现架构,系统由三个模块构成,包括采集模块、处理模块和执行模块;采集模块负责获取包含正面人脸的人物图像信息,人物图像信息包括人脸多角度的图像序列;模型处理模块对采集到的各个时刻的人脸多角度的图像序列分别进行特征点检测、头部姿态估计以及三维视线估计等步骤,确定注视方向在屏幕内的像素坐标位置;动作执行模块读取传递给计算机的数据从而控制鼠标快速移动;本发明的鼠标快速控制系统关键在于头部姿态估计方面,这可以保证眼控鼠标的基本性能。
采集模块:如图8所示,将相机安装于屏幕上边框正中间位置,每一个屏幕搭配一个相机,确保当操作者面对该屏时,该屏上相机能拍摄到包含眼睛在内的正面人脸清晰图像,各相机最后通过总线与集成处理模块的工控机连接,实现实时多角度人物图像信息的采集与传输。
处理模块:作为外设,以工控机形式独立存在,包含人脸检测、特征点检测、头部姿态估计、三维视线估计以及坐标转换在内的处理分模块;通过获取采集模块输入的采集的各个时刻的人脸多角度的图像序列,顺序流经各处理分模块计算视线对应的屏幕位置及屏幕像素坐标点,通过串口或USB虚拟串口向计算机输出注视方向对应的屏幕位置及屏幕像素坐标点的数据。
执行模块:以上位机软件形式安装在计算机中,控制软件具备读取显示器参数、鼠标光标在屏幕内位置和控制鼠标移动的权限,从串口或USB虚拟串口获得处理模块输入的注视方向对应的屏幕位置及屏幕像素坐标点的数据,用于快速移动鼠标到目标位置。
上述的基于视线估计的多屏场景下鼠标快速控制系统可以实施为计算机程序,保存在硬盘中,并可记载到处理器中执行,以实施本发明实施例的方法。
本发明实施例还提供了一种存储有计算机程序代码的计算机可读介质,所述计算机程序代码在由处理器执行时实现如上所述的基于视线估计的多屏场景下鼠标快速控制方法。
基于视线估计的多屏场景下鼠标快速控制方法实施为计算机程序时,也可以存储在计算机可读存储介质中作为制品。例如,计算机可读存储介质可以包括但不限于磁存储设备(例如,硬盘、软盘、磁条)、光盘(例如,压缩盘(CD)、数字多功能盘(DVD))、智能卡和闪存设备(例如,电可擦除可编程只读存储器(EPROM)、卡、棒、键驱动)。此外,本发明实施例描述的各种存储介质能代表用于存储信息的一个或多个设备和/或其它机器可读介质。术语“机器可读介质”可以包括但不限于能存储、包含和/或承载代码和/或指令和/或数据的无线信道和各种其它介质(和/或存储介质)。
应该理解,上述的实施例仅是示意。本发明描述的实施例可在硬件、软件、固件、中间件、微码或者其任意组合中实现。对于硬件实现,处理单元可以在一个或者多个特定用途集成电路(ASIC)、数字信号处理器(DSP)、数字信号处理设备(DSPD)、可编程逻辑器件(PLD)、现场可编程门阵列(FPGA)、处理器、控制器、微控制器、微处理器和/或设计为执行本发明所述功能的其它电子单元或者其结合内实现。
需要说明的是,在本申请中,诸如第一、第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
本说明书中的各个实施例均采用相关的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。
以上所述仅为本发明的较佳实施例而已,并非用于限定本发明的保护范围。凡在本发明的精神和原则之内所作的任何修改、等同替换、改进等,均包含在本发明的保护范围内。
Claims (10)
1.基于视线估计的多屏场景下鼠标快速控制方法,其特征在于,包括以下步骤:
图像采集:多个相机多角度实时拍摄屏幕前操作人物的图像,产生当前时刻的人物图像信息,采集各个时刻的人物图像信息;
图像处理,包括人脸检测、特征点检测、头部姿态估计、三维视线估计、坐标转化、设置置信度阈值:
人脸检测:将采集的各个时刻的人脸多角度的图像序列输入至深度级联神经网络模型中进行特征提取,然后进行人脸分类和人脸候选框筛选,输出最终位置的人脸框;
特征点检测:通过人脸约束模型对输出的最终位置的人脸框中的特征点进行检测,标注出最终位置的人脸框中的人脸二维特征关键点,实现二维人脸关键点定位;
头部姿态估计:根据输出的最终位置的人脸框中的人脸二维特征关键点反向投影到三维人脸模型,获得人脸三维特征关键点,将人脸三维特征关键点转换到图像坐标系的平移矩阵以及旋转矩阵,进而得到头部姿态欧拉角,实现头部姿态估计;
三维视线估计:根据相机位置、屏幕位置以及相机坐标系下头部姿态之间存在的几何关系,求得相机坐标系下的注视方向在屏幕内的坐标,完成三维视线估计;
坐标转化:将相机坐标系下的注视方向在屏幕内的坐标值转换到屏幕坐标系内,输出屏幕坐标系下人脸多角度的图像序列的注视方向在屏幕内的像素坐标位置;
设置置信度阈值:对比各个相机的图像序列计算得到的注视方向在屏幕内的像素坐标位置及其置信度,选取人脸正对、置信度高的计算结果作为最终的屏幕及注视方向在屏幕内的像素坐标位置输出结果;
读取坐标位置,控制鼠标动作:获取到的最终的屏幕及注视方向在屏幕内的像素坐标位置即为鼠标移动的目标位置,读取输出的屏幕及像素坐标值,控制鼠标光标快速移动到对应注视位置,实现基于视线估计的多屏场景下鼠标快速控制方法。
2.根据权利要求1所述的基于视线估计的多屏场景下鼠标快速控制方法,其特征在于,所述人物图像信息包括:人脸多角度的图像序列、图像的源相机参数、以及源相机所在屏幕位置信息;人脸多角度的图像序列为包含完整眼部的人脸多角度图像序列。
3.根据权利要求1所述的基于视线估计的多屏场景下鼠标快速控制方法,其特征在于,所述将采集的各个时刻的人脸多角度的图像序列输入至深度级联神经网络模型中进行特征提取,然后进行人脸分类和人脸候选框筛选,输出最终位置的人脸框,具体为:
将采集的各个时刻的人脸多角度的图像序列通过人脸/非人脸分类器输出得到各个可能含有人脸的边界框,将得到的各个可能含有人脸的边界框输入至深度级联神经网络模型中的第一个子网络结构中进行特征提取,输出候选窗,对输出的候选窗使用边界框回归方法合并重叠的候选窗,得到校正后的候选窗;校正后的候选窗分为两部分,第一部分用来判断当前校正后的候选窗内图像是否存在人脸,第二部分表示当前校正后的候选窗内人脸位置相对完美的人脸框位置的偏移;
将通过第一个子网络得到校正后的候选窗作为输入,通过深度级联神经网络模型中的第二个子网络结构,输出粗预测的候选窗,使用边界框回归方法合并重叠的粗预测的候选窗,得到第二次校正后的候选窗;
将通过第二个子网络结构得到的第二次校正后的候选窗作为输入,通过深度级联神经网络模型中的第三个子网络结构,输出最终位置的人脸框。
5.根据权利要求1所述的基于视线估计的多屏场景下鼠标快速控制方法,其特征在于,所述根据输出的最终位置的人脸框中的人脸二维特征关键点反向投影到三维人脸模型,获得人脸三维特征关键点,将人脸三维特征关键点转换到图像坐标系的平移矩阵以及旋转矩阵,进而得到头部姿态欧拉角,实现头部姿态估计,具体为:
p为输出的最终位置的人脸框中的一个人脸二维特征关键点,p点在相机坐标系中的坐标为Oc-XcYcZc,P为世界坐标系中3D头部刚体模型中对应关键点,p与P之间的坐标转换运算模型为:
式中,是p点在图像中心坐标系下的坐标,是相机的内参矩阵,fx和fy是表示焦距的参数,cx和cy是相机主轴与图像平面的焦点相对于图像平面的位置,r11、r21、r31表示世界坐标系下X轴在相机坐标系下的方向向量,r12、r22、r32表示世界坐标系下Y轴在相机坐标系下的方向向量,r31、r32、r33表示世界坐标系下Z轴在相机坐标系下的方向向量,t1、t2、t3分别表示沿着Xc、Yc、Zc方向相机坐标系相对于世界坐标系的平移向量;是P点在世界坐标下的坐标;
采用世界坐标系来描述相机的位姿,采用当前人脸图像的头部坐标相对相机坐标系的旋转矩阵和平移矩阵表示头部姿态,其中,头部姿态相对于相机的旋转和平移关系采用欧拉角表示;
其中,欧拉角的计算公式如下式所示:
θup=arctan2(r32,r33)
θturn、θup分别为欧拉角中的偏航角和俯仰角,r31、r32、r33表示世界坐标系下Z轴在相机坐标系下的方向向量。
6.根据权利要求1所述的基于视线估计的多屏场景下鼠标快速控制方法,其特征在于,所述相机坐标系下的注视方向在屏幕内的坐标的计算如下式所示:
x=Xp+Zp*(-tan(θturn))
y=Yp+Zp*(tan(θup))
式中:x、y分别为相机坐标系下的屏幕注视点坐标值,Xp、Yp、Zp分别为相机坐标系下的头部姿态坐标值,θturn、θup分别为欧拉角中的偏航角和俯仰角。
7.根据权利要求1所述的基于视线估计的多屏场景下鼠标快速控制方法,其特征在于,所述将相机坐标系下的注视方向在屏幕内坐标值转换到屏幕坐标系的计算公式为:
xp=-x-lp1
yp=y-lp2
式中:xp、yp分别为屏幕坐标系下的注视方向在屏幕内的物理坐标值,x、y分别为相机坐标系下的注视方向在屏幕内坐标值,-x代表相机坐标系与屏幕坐标系的x轴方向相反,lp1、lp2分别为相机坐标系与屏幕坐标系的坐标原点间偏移量。
9.基于视线估计的多屏场景下鼠标快速控制系统,其特征在于,包括:
存储器,用于存储可由处理器执行的指令;
处理器,用于执行所述指令以实现如权利要求1~8任一项所述的方法。
10.一种计算机可读介质,其特征在于,存储有计算机程序代码,所述计算机程序代码在由处理器执行时实现如权利要求1~8任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011553957.0A CN112667078B (zh) | 2020-12-24 | 2020-12-24 | 基于视线估计的多屏场景下鼠标快速控制方法、系统及计算机可读介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011553957.0A CN112667078B (zh) | 2020-12-24 | 2020-12-24 | 基于视线估计的多屏场景下鼠标快速控制方法、系统及计算机可读介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112667078A true CN112667078A (zh) | 2021-04-16 |
CN112667078B CN112667078B (zh) | 2023-06-09 |
Family
ID=75408633
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011553957.0A Active CN112667078B (zh) | 2020-12-24 | 2020-12-24 | 基于视线估计的多屏场景下鼠标快速控制方法、系统及计算机可读介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112667078B (zh) |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113744353A (zh) * | 2021-09-15 | 2021-12-03 | 合众新能源汽车有限公司 | 盲区图像生成方法、设备和计算机可读介质 |
CN114092992A (zh) * | 2021-10-11 | 2022-02-25 | 中国核电工程有限公司 | 一种多屏幕监控系统快速人脸定位方法及装置 |
CN115562490A (zh) * | 2022-10-12 | 2023-01-03 | 西北工业大学太仓长三角研究院 | 一种基于深度学习的飞机驾驶舱跨屏眼动交互方法及系统 |
CN116052261A (zh) * | 2022-05-31 | 2023-05-02 | 荣耀终端有限公司 | 视线估计方法及电子设备 |
CN118097311A (zh) * | 2024-04-24 | 2024-05-28 | 广东保伦电子股份有限公司 | 一种基于深度学习的光标检测方法及系统 |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101344816A (zh) * | 2008-08-15 | 2009-01-14 | 华南理工大学 | 基于视线跟踪和手势识别的人机交互方法及装置 |
CN104978548A (zh) * | 2014-04-02 | 2015-10-14 | 汉王科技股份有限公司 | 一种基于三维主动形状模型的视线估计方法与装置 |
CN106598221A (zh) * | 2016-11-17 | 2017-04-26 | 电子科技大学 | 基于眼部关键点检测的3d视线方向估计方法 |
CN110175504A (zh) * | 2019-04-08 | 2019-08-27 | 杭州电子科技大学 | 一种基于多任务级联卷积网络的目标检测和对齐方法 |
US20190279393A1 (en) * | 2018-03-06 | 2019-09-12 | Fotonation Limited | Facial features tracker with advanced training for natural rendering of human faces in real-time |
CN110458122A (zh) * | 2019-08-15 | 2019-11-15 | 京东方科技集团股份有限公司 | 一种视线标校方法、显示装置的播放方法和视线标校系统 |
CN110780739A (zh) * | 2019-10-18 | 2020-02-11 | 天津理工大学 | 基于注视点估计的眼控辅助输入方法 |
-
2020
- 2020-12-24 CN CN202011553957.0A patent/CN112667078B/zh active Active
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101344816A (zh) * | 2008-08-15 | 2009-01-14 | 华南理工大学 | 基于视线跟踪和手势识别的人机交互方法及装置 |
CN104978548A (zh) * | 2014-04-02 | 2015-10-14 | 汉王科技股份有限公司 | 一种基于三维主动形状模型的视线估计方法与装置 |
CN106598221A (zh) * | 2016-11-17 | 2017-04-26 | 电子科技大学 | 基于眼部关键点检测的3d视线方向估计方法 |
US20190279393A1 (en) * | 2018-03-06 | 2019-09-12 | Fotonation Limited | Facial features tracker with advanced training for natural rendering of human faces in real-time |
CN110175504A (zh) * | 2019-04-08 | 2019-08-27 | 杭州电子科技大学 | 一种基于多任务级联卷积网络的目标检测和对齐方法 |
CN110458122A (zh) * | 2019-08-15 | 2019-11-15 | 京东方科技集团股份有限公司 | 一种视线标校方法、显示装置的播放方法和视线标校系统 |
CN110780739A (zh) * | 2019-10-18 | 2020-02-11 | 天津理工大学 | 基于注视点估计的眼控辅助输入方法 |
Non-Patent Citations (3)
Title |
---|
DAVIDE VALERIANI; CATERINA CINEL; RICCARDO POLI: "Augmenting group performance in target-face recognition via collaborative brain-computer interfaces for surveillance applications", 《2017 8TH INTERNATIONAL IEEE/EMBS CONFERENCE ON NEURAL ENGINEERING (NER)》, pages 415 - 418 * |
房爱青: "基于视线跟踪的人机交互感知机制的研究", 《中国优秀硕士学位论文全文数据库信息科技辑》, pages 138 - 1364 * |
毛云丰;沈文忠;滕童;: "基于深度神经网络的视线跟踪技术研究", 现代电子技术, no. 16 * |
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113744353A (zh) * | 2021-09-15 | 2021-12-03 | 合众新能源汽车有限公司 | 盲区图像生成方法、设备和计算机可读介质 |
CN114092992A (zh) * | 2021-10-11 | 2022-02-25 | 中国核电工程有限公司 | 一种多屏幕监控系统快速人脸定位方法及装置 |
CN116052261A (zh) * | 2022-05-31 | 2023-05-02 | 荣耀终端有限公司 | 视线估计方法及电子设备 |
CN115562490A (zh) * | 2022-10-12 | 2023-01-03 | 西北工业大学太仓长三角研究院 | 一种基于深度学习的飞机驾驶舱跨屏眼动交互方法及系统 |
CN115562490B (zh) * | 2022-10-12 | 2024-01-09 | 西北工业大学太仓长三角研究院 | 一种基于深度学习的飞机驾驶舱跨屏眼动交互方法及系统 |
CN118097311A (zh) * | 2024-04-24 | 2024-05-28 | 广东保伦电子股份有限公司 | 一种基于深度学习的光标检测方法及系统 |
CN118097311B (zh) * | 2024-04-24 | 2024-07-16 | 广东保伦电子股份有限公司 | 一种基于深度学习的光标检测方法及系统 |
Also Published As
Publication number | Publication date |
---|---|
CN112667078B (zh) | 2023-06-09 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112667078B (zh) | 基于视线估计的多屏场景下鼠标快速控制方法、系统及计算机可读介质 | |
US10394334B2 (en) | Gesture-based control system | |
US10769411B2 (en) | Pose estimation and model retrieval for objects in images | |
US10706577B2 (en) | Facial features tracker with advanced training for natural rendering of human faces in real-time | |
US6788809B1 (en) | System and method for gesture recognition in three dimensions using stereo imaging and color vision | |
US9684827B2 (en) | Eye gaze tracking based upon adaptive homography mapping | |
US8442269B2 (en) | Method and apparatus for tracking target object | |
EP3608755A1 (en) | Electronic apparatus operated by head movement and operation method thereof | |
JP7015152B2 (ja) | キーポイントデータに関する加工装置、方法及びプログラム | |
US20200184651A1 (en) | Image processing system, image processing method, and program | |
CN108171133B (zh) | 一种基于特征协方差矩阵的动态手势识别方法 | |
CN109359514B (zh) | 一种面向deskVR的手势跟踪识别联合策略方法 | |
Wu et al. | Yolse: Egocentric fingertip detection from single rgb images | |
CN104821010A (zh) | 基于双目视觉的人手三维信息实时提取方法及系统 | |
US11562489B2 (en) | Pixel-wise hand segmentation of multi-modal hand activity video dataset | |
CN111354007A (zh) | 一种基于纯机器视觉定位的投影交互方法 | |
US20220277580A1 (en) | Hand posture estimation method and apparatus, and computer storage medium | |
CN108305321A (zh) | 一种基于双目彩色成像系统的立体人手3d骨架模型实时重建方法和装置 | |
CN110647782A (zh) | 三维人脸重建与多姿态人脸识别方法及装置 | |
Yousefi et al. | 3D gesture-based interaction for immersive experience in mobile VR | |
CN113920282B (zh) | 图像处理方法和装置、计算机可读存储介质、电子设备 | |
CN112330753B (zh) | 一种增强现实系统的目标检测方法 | |
CN108694348B (zh) | 一种基于自然特征的跟踪注册方法及装置 | |
Zheng et al. | Aristo: An augmented reality platform for immersion and interactivity | |
Singh | Recognizing hand gestures for human computer interaction |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |