CN114578952B

CN114578952B - 人机交互方法、系统、处理设备和计算机可读存储介质

Info

Publication number: CN114578952B
Application number: CN202011283261.0A
Authority: CN
Inventors: 闫桂新; 孙建康; 陈丽莉; 张�浩
Original assignee: BOE Technology Group Co Ltd; Beijing BOE Optoelectronics Technology Co Ltd
Current assignee: BOE Technology Group Co Ltd; Beijing BOE Optoelectronics Technology Co Ltd
Priority date: 2020-11-17
Filing date: 2020-11-17
Publication date: 2024-03-15
Anticipated expiration: 2040-11-17
Also published as: CN114578952A; US11537200B2; US20220155859A1

Abstract

一种人机交互方法、系统、处理设备和计算机可读存储介质，所述方法包括：控制3D显示器输出3D视图呈现虚拟目标物体；接收视线追踪摄像头拍摄的用户图像，根据用户图像检测人眼注视区域；接收手势检测摄像头拍摄的手部图像，根据手部图像检测用户的手是否与虚拟目标物体发生碰撞和/或是否抓取虚拟目标物体；根据人眼是否注视虚拟目标物体、用户的手是否与虚拟目标物体发生碰撞以及是否抓取虚拟目标物体，对3D视图进行播放控制。本公开达到了人机交互时手眼合一的效果，同时使得手势控制更能真实反映人们的交互行为，提高了用户的沉浸感，提升了裸眼3D在人机交互方向的能力，对裸眼3D的交互发展将起到很大的推动作用。

Description

人机交互方法、系统、处理设备和计算机可读存储介质

技术领域

本公开涉及但不限于智能显示技术领域，尤其涉及一种人机交互方法、系统、处理设备和计算机可读存储介质。

背景技术

随着科学技术的不断发展，越来越多的电子媒介出现在不同的生活应用场景中，而为了提高用户使用感受，人机交互得到了广泛关注。

手势是一种自然舒服且符合人们习惯的交互方式，目前业界已有很多用于对显示屏中显示内容进行控制的手势控制方法，但是，很多手势控制方法并不能真实的模拟人们的交互行为，当前的人机交互方式，用户体验较差。

发明内容

本公开实施例提供了一种人机交互方法、系统、处理设备和计算机可读存储介质，能够提高用户的使用体验。

本公开实施例提供了一种人机交互方法，包括：控制3D显示器输出3D视图呈现虚拟目标物体；接收视线追踪摄像头拍摄的用户图像，根据所述用户图像检测人眼注视区域；接收手势检测摄像头拍摄的手部图像，根据所述手部图像检测用户的手是否与所述虚拟目标物体发生碰撞和/或是否抓取所述虚拟目标物体；根据人眼是否注视所述虚拟目标物体、用户的手是否与所述虚拟目标物体发生碰撞以及是否抓取所述虚拟目标物体，对所述3D视图进行播放控制。

在示例性实施例中，所述视线追踪摄像头包括第一摄像头和第二摄像头，所述根据所述用户图像检测人眼注视区域，包括：获取所述第一摄像头拍摄的用户图像，对所述用户图像进行人脸检测和特征点检测，得到多个人脸特征点，根据所述多个人脸特征点计算人脸位姿信息；对人脸眼部区域进行瞳孔检测，确定瞳孔区域；对所述用户图像进行二值化处理，计算所述瞳孔区域的积分图像，确定瞳孔中心的位置；获取所述第二摄像头拍摄的带有光斑的人眼图像，检测光斑的位置，根据所述瞳孔中心和光斑的位置，计算人眼注视区域。

在示例性实施例中，所述方法之前还包括：对所述第一摄像头和所述第二摄像头进行标定，得到所述第一摄像头和所述第二摄像头之间的第一旋转平移矩阵；对所述第二摄像头和所述手势检测摄像头进行标定，得到所述第二摄像头和所述手势检测摄像头之间的第二旋转平移矩阵。

在示例性实施例中，所述方法还包括：以所述第一摄像头、所述第二摄像头和所述手势检测摄像头中的任意一个为基准，对摄像头坐标系和屏幕坐标系进行统一化处理。

在示例性实施例中，根据所述手部图像检测用户的手是否与所述虚拟目标物体发生碰撞和/或是否抓取所述虚拟目标物体，包括：选取手部二十一个部位作为手的关键节点，所述手部二十一个部位包括五根手指中每根手指有四个部位，其中，指尖为一个部位，三个关节对应三个部位，手腕处一个部位；获取手势检测摄像头拍摄的手部图像，确定手的关键节点的位置数据，根据所述虚拟目标物体的位置和手的关键节点的位置数据，检测用户的手是否与所述虚拟目标物体发生碰撞；当用户的手与所述虚拟目标物体发生碰撞时，检测用户的手是否抓取所述虚拟目标物体。

在示例性实施例中，所述根据人眼是否注视所述虚拟目标物体、用户的手是否与所述虚拟目标物体发生碰撞以及是否抓取所述虚拟目标物体，对所述3D视图进行播放控制，包括：当人眼注视所述虚拟目标物体时，对所述3D视图的一部分进行高清渲染，对所述3D视图的另一部分进行低清渲染，此时，当人眼注视所述虚拟目标物体且所述用户的手未与虚拟目标物体发生碰撞时，所述3D视图的一部分对应人眼注视区域周围的第一区域；当人眼注视所述虚拟目标物体且所述用户的手与虚拟目标物体发生碰撞时，所述3D视图的一部分对应人眼注视区域周围的第二区域，所述第二区域大于或等于所述第一区域；当用户的手抓取所述虚拟目标物体时，计算用户的手的运动向量，根据计算出的运动向量，更新所述虚拟目标物体的位置；当人眼未注视所述虚拟目标物体时，对所述3D视图整体进行低清渲染。

在示例性实施例中，当人眼注视所述虚拟目标物体且所述用户的手与虚拟目标物体发生碰撞时，所述方法还包括：确定所述用户的手在所述虚拟目标物体上的碰撞区域；当所述人眼注视区域与所述碰撞区域不交叠时，所述第二区域以所述人眼注视区域为中心；当所述人眼注视区域与所述碰撞区域交叠时，所述第二区域以所述人眼注视区域与所述碰撞区域交叠的区域为中心。

在示例性实施例中，所述3D视图包括相互叠加的第一背景显示内容、第二背景显示内容、第一前景交互物体和第二前景交互物体，所述第一背景显示内容和第二背景显示内容通过人眼成像后，形成裸眼3D场景，所述第一前景交互物体和第二前景交互物体通过人眼成像后，形成所述虚拟目标物体。

本公开实施例还提供了一种处理设备，包括：处理器以及存储有可在处理器上运行的计算机程序的存储器，其中，所述处理器执行所述程序时实现如前所述的人机交互方法的步骤。

本公开实施例还提供了一种人机交互系统，包括：视线追踪摄像头、手势检测摄像头、3D显示器以及如前所述的处理设备，其中：所述视线追踪摄像头，用于拍摄用户图像；所述手势检测摄像头，用于拍摄用户的手部图像；所述3D显示器，用于输出3D视图呈现虚拟目标物体。

在示例性实施例中，所述视线追踪摄像头包括：第一摄像头和第二摄像头，所述人机交互系统还包括两个红外光源，所述红外光源用于在人眼上形成光斑；所述第一摄像头为红绿蓝摄像头，所述第二摄像头为红外摄像头，所述手势检测摄像头为红外摄像头。

本公开实施例还提供了一种计算机可读存储介质，所述计算机可读存储介质存储有可执行指令，所述可执行指令被处理器执行时可以实现如上述任一项所述的人机交互方法。

本公开实施例的人机交互方法、系统、处理设备和计算机可读存储介质，通过根据人眼是否注视所述虚拟目标物体、用户的手是否与所述虚拟目标物体发生碰撞以及是否抓取所述虚拟目标物体，对3D视图进行播放控制，达到了人机交互时手眼合一的效果，同时使得手势控制更能真实反映人们的交互行为，提高了用户的沉浸感，提升了裸眼3D在人机交互方向的能力，对裸眼3D的交互发展将起到很大的推动作用。

本公开的其它特征和优点将在随后的说明书中阐述，并且，部分地从说明书中变得显而易见，或者通过实施本公开而了解。本公开的其他优点可通过在说明书以及附图中所描述的方案来实现和获得。

附图说明

附图用来提供对本公开技术方案的理解，并且构成说明书的一部分，与本公开的实施例一起用于解释本公开的技术方案，并不构成对本公开技术方案的限制。

图1为本公开实施例一种人机交互方法的流程示意图；

图2为本公开实施例一种人机交互系统的结构示意图；

图3为图2中的摄像头模组的结构示意图；

图4为本公开实施例一种人脸特征点检测的原理示意图；

图5为本公开实施例一种手部关键节点的位置示意图；

图6为本公开实施例一种手指的弯曲度示意图；

图7为本公开实施例一种处理设备的结构示意图。

具体实施方式

下面结合附图和实施例对本公开的具体实施方式作进一步详细描述。以下实施例用于说明本公开，但不用来限制本公开的范围。需要说明的是，在不冲突的情况下，本公开中的实施例及实施例中的特征可以相互任意组合。

如图1所示，本公开实施例提供了一种人机交互方法，包括步骤10至步骤40。

步骤10：控制3D显示器输出3D视图呈现虚拟目标物体；

在一种示例性实施例中，3D视图包括相互叠加的第一背景显示内容、第二背景显示内容、第一前景交互物体和第二前景交互物体，第一背景显示内容和第二背景显示内容通过人眼成像后，形成裸眼3D场景，第一前景交互物体和第二前景交互物体通过人眼成像后，形成虚拟目标物体。

本公开实施例中的裸眼3D内容需设置背景和前景交互物体，即在内容制作上需要两套内容体系，一套用于正常的显示内容，一套用于交互的物体，且交互物体与背景需要叠加到一起。

在一种示例性实施例中，可以直接采用裸眼3D显示器输出带有视差的左右视差图，使人眼观看后产生立体效果，以形成3D视图的虚拟目标物体，这里使用的裸眼3D显示器种类不做限制，只要提供左右视图即可，或者也可以采用其他能够输出3D视图的设备输出3D状态的虚拟目标物体，且该虚拟目标物体的具体结构不做限定。

裸眼3D显示器生成左右视图，由于视差的原因，人眼看到的虚拟目标物体呈现在屏幕的前面或后面，形成三维空间中的视角。由于需要手势与虚拟目标物体的交互，因此设置视差值，使得左右视图成像后的虚拟目标物体呈现在显示屏的前面，如图2所示。

在一种示例性实施例中，在输出3D视图的同时通过处理器或者控制系统直接获得虚拟目标物体的位置数据。

在一种示例性实施例中，可以采用三维坐标的方式记录虚拟目标物体的位置数据，例如可以将虚拟目标物体的位置数据记录为Obj(xobj，yobj，zobj，L)，其中，(xobj，yobj，zobj)表示虚拟目标物体的中心坐标，L表示虚拟目标物体的外包围盒的边长，外包围盒的边长可以认为是虚拟目标物体的最外表层的位置到中心坐标的距离，这样通过中心位置中标和外包围盒的边长的配合，能够将输出的任何结构的3D视图所表示的虚拟目标物体表示出来。例如当通过3D视图输出一个球体、正方体或者一个具体的实物结构如水杯等，均可以通过中心坐标与外包围盒的边长的位置数据所表示。此外，位置数据记录为Obj(xobj，yobj，zobj，L)的虚拟目标物体还可以是移动的，或者虚拟目标物体可以是变化的，只要在移动或者变化物体时随时跟着变化位置数据即可。

步骤20：接收视线追踪摄像头拍摄的用户图像，根据用户图像检测人眼注视区域；

在一种示例性实施例中，如图2和图3所示，视线追踪摄像头包括第一摄像头31和第二摄像头32。

在一种示例性实施例中，第一摄像头31可以为红绿蓝(RGB)摄像头，第二摄像头32可以为红外(Infrared Radiation，IR)摄像头。

在一种示例性实施例中，所述方法之前还包括：对第一摄像头31和第二摄像头32进行标定，得到第一摄像头31和第二摄像头32之间的第一旋转平移矩阵M1。

本实施例中，可以使用张正友的棋盘格标定法，对第一摄像头31和第二摄像头32进行标定，得到第一摄像头31到第二摄像头32的旋转平移矩阵，记作M1，使得第一摄像头31的图像Image_rgb通过M1可以变换到第二摄像头32的图像，即，Image_ir＝M1*Image_rgb。

在一种示例性实施例中，根据用户图像检测人眼注视区域，包括如下步骤：

步骤201：获取第一摄像头31拍摄的用户图像，对用户图像进行人脸检测和特征点检测，得到多个人脸特征点，根据多个人脸特征点计算人脸位姿信息；

步骤202：对人脸眼部区域进行瞳孔检测，确定瞳孔区域；对用户图像进行二值化处理，计算瞳孔区域的积分图像，确定瞳孔中心的位置；

步骤203：获取第二摄像头32拍摄的带有光斑的人眼图像，检测光斑的位置，根据瞳孔中心和光斑的位置，计算人眼注视区域。

在一种示例性实施例中，可以通过开源的OpenCV人脸检测算法，进行人脸检测，得到人脸在第一摄像头31拍摄的用户图像中的准确区域；在获得的人脸区域中进行特征点检测(Facial Landmark Detection)，得到人脸68个特征点及眼部区域坐标，如图4所示，这些特征点中有表示眼部区域的特征点，将左右两眼特征点的外包围框分别记作eyeLeft和eyeRight；根据这些特征点，使用头部姿态求解算法，求解出人脸在三维空间中相对于第一摄像头31的位姿，记作H(x，y，z)，H(x，y，z)包含三个位置坐标(横坐标、纵坐标、距离坐标)及三个角度坐标(俯仰角、偏航角、横滚角)，示例性的，头部姿态求解算法可以为n点透视(Pespective n Point，PnP)算法。

在一种示例性实施例中，可以利用梯度矢量场法对人脸眼部区域(即前述的eyeLeft和eyeRight两个区域)进行瞳孔检测，确定瞳孔区域。

在另一种示例性实施例中，还可以通过圆检测对人脸眼部区域进行瞳孔检测，确定瞳孔区域。

在一种示例性实施例中，对用户图像进行二值化处理，计算瞳孔区域的积分图像，找到瞳孔中心，分别记作pupilCenterLeft和pupilCenterRight。

在一种示例性实施例中，启动第二摄像头32(即IR摄像头)，根据第一摄像头31(即RGB摄像头)到第二摄像头32的旋转平移矩阵M1计算找到眼部区域的位置；开启红外光源，在IR图像上检测红外光斑的位置，记作L1和L2。通过瞳孔中心和两个光斑的位置，使用瞳孔角膜反射算法计算两眼的三维视线，两条视线在空间中相交的区域即为人眼注视区域。

步骤30：接收手势检测摄像头拍摄的手部图像，根据手部图像检测用户的手是否与虚拟目标物体发生碰撞和/或是否抓取虚拟目标物体。

在一种示例性实施例中，所述方法之前还包括：对视线追踪摄像头(示例性的，视线追踪摄像头可以为第一摄像头31或第二摄像头32)和手势检测摄像头进行标定，得到视线追踪摄像头和手势检测摄像头之间的第二旋转平移矩阵，记作M2。

在一种示例性实施例中，所述方法之前还包括：以视线追踪摄像头(示例性的，视线追踪摄像头可以为第一摄像头31或第二摄像头32)和手势检测摄像头中的任意一个为基准，对摄像头坐标系和屏幕坐标系进行统一化处理。示例性的，如图2所示，可以将手势检测摄像头和视线追踪摄像头固定在裸眼3D显示器的下方，将第一摄像头31变换到屏幕的矩阵记作M3，即，屏幕图像Image_screen＝M3*Image_rgb。

在一种示例性实施例中，可以配合裸眼3D显示器使用手势检测模组对用户的手进行检测，其检测的方式可以是实时的检测，也可以是按照预设的规则进行检测，例如当用户的手伸入到预设的空间中开始检测，即检测用户的手包括检测到和未检测到两种情况；其中实时检测用户的手是较佳的一种方案。建立关键节点的位置数据时，最好是将用户的手与虚拟目标物体在同一空间中建立坐标信息，例如均采用三维空间中的坐标信息作为位置数据，这样获得的手的关键节点的位置数据能够与虚拟目标物体的位置数据快速的建立空间联系，且减少后续的运算量。

在一种示例性实施例中，可以选取手的多个关节点作为关键节点，且由于主要检测手与虚拟目标物体之间的碰撞和抓持动作，可以选择手在抓取物体时主要工作的关节点，作为关键节点。示例性的，如图5所示，可以选取手部二十一个部位作为手的关键节点，并对应的建立关键节点的位置数据。如图2所示，手部21个部位包括5根手指中每根手指有4个部位，其中，指尖为1个部位，3个关节对应3个部位，手腕处1个部位，在虚拟目标物体所在的三维空间中建立手的21个部位的关键节点的位置数据，例如，可以分别为P0(x0，y0，z0)，P1(x1，y1，z1)，P2(x2，y2，z2)，...，P20(x20，y20，z20)；其中，对应的P1为大拇指的指末端、P2为大拇指的第一节指骨连接处、P3为大拇指的第二节指骨连接处、P4为大拇指指尖、P5为食指的指末端、P6为食指的第一节指骨连接处、P7为食指的第二节指骨连接处、P8为食指指尖、P9为中指的指末端、P10为中指的第一节指骨连接处、P11为中指的第二节指骨连接处、P12为中指指尖、P13为无名指的指末端、P14为无名指的第一节指骨连接处、P15为无名指的第二节指骨连接处、P16为无名指指尖、P17为小拇指的指末端、P18为小拇指的第一节指骨连接处、P19为小拇指的第二节指骨连接处、P20为小拇指指尖、P0为手掌末端。

在一种示例性实施例中，获取手势检测摄像头拍摄的手部的红外图像，根据明暗区分手部的21个部位的关键节点，进而得到每个关键节点的三维坐标，记作Hand3D。手部的关键节点的三维坐标可以映射到手势检测模组的二维图像上，将映射矩阵记作M4，其中，每个关键节点在二维图像上的坐标Hand2D＝M4*Hand3D。

本实施例中，根据手部图像检测用户的手是否与虚拟目标物体发生碰撞和/或是否抓取虚拟目标物体的具体过程，可以采用现有的手势检测方法实现，本公开对此不作限制。

在一种示例性实施例中，根据手部图像检测用户的手是否与虚拟目标物体发生碰撞和/或是否抓取虚拟目标物体，包括如下步骤：

步骤301：检测用户的手，并对检测到的手对应建立关键节点的位置数据；

步骤302：根据手的关键节点的位置数据拟合成虚拟球体，并获得虚拟球体的位置数据；

步骤303：将虚拟目标物体的位置数据、手的关键节点的位置数据、虚拟球体的位置数据带入预设函数中，当满足预设函数设置的条件时，判断为用户的手碰撞虚拟目标物体并施加预定大小的抓取力。

由于对手势的检测主要是用于判断手是否与虚拟目标物体碰撞，以及判断手是否对虚拟目标物体进行抓持，所以在手的动作过程中主要是进行碰撞和抓取的动作，因此无论手的尺寸大小、弯曲的弧度如何以及抓取动作如何变化，手的各个关键节点的位置数据均能够拟合成虚拟球体，且由于已经将手的关键节点使用坐标数据表示，拟合所得的虚拟球体也将是使用三维坐标数据表示的一个球体，且随着用户手的动作变化以及位置的变化，可以得到对应的虚拟球体的位置数据。

在一种示例性实施例中，将手的关键节点的位置数据拟合成虚拟球体的方式可以为多种，例如采用数学建模公式的方式进行数据拟合、直接使用预设的软件程序进行拟合等，本公开实施例不对拟合的具体方式做限定。

在一种示例性实施例中，可以在满足第一预设条件的情况下拟合手的关键节点的位置数据得到虚拟球体，并得到虚拟球体的位置数据S(x0，y0，z0，R)。其中，(x0，y0，z0)为虚拟球体在三维中标系中的球心坐标，R为在三维坐标系中虚拟球体的半径。其中，第一预设条件为手的各个手指的弯曲度为θ且在预设范围内；其中如图6所示，手指的弯曲度θ指的是每个手指的指尖、掌指关节(即前述的靠近指末端的第一节指骨连接处)、指末端三个点所构成的夹角；大拇指的弯曲度为θ1，食指的弯曲度为θ2，中指的弯曲度为θ3，无名指的弯曲度为θ4，小拇指的弯曲度为θ5；θ1、θ2、θ3、θ4以及θ5均小于等于165度；θ1、θ2、θ3以及θ4均大于等于30度；θ5大于等于105度。即第一预设条件需要手具有一定的弯曲度，且抓取力是与弯曲度成一定比例的，伸平的手是不具备拟合成虚拟球体的条件的，因为伸平的手也不具备抓取物体的条件，所以可以进一步的理解，为何将手的关键节点的位置数据拟合成虚拟球体。

在一种示例性实施例中，将虚拟目标物体的位置数据、手的关键节点的位置数据、虚拟球体的位置数据带入预设函数中，当满足预设函数设置的条件时，判断为用户的手碰撞虚拟目标物体并施加预定大小的抓取力。

在一种示例性实施例中，预设函数即其条件，可以直接存储在系统中或者处理器中，在使用时可以在获得了上述的数据之后，直接使用预设函数判断以及运算得到具体的手势，例如得到用户的手碰撞到虚拟目标物体，或者手碰撞到虚拟目标物体的同时对其施加一定的抓取力，同时计算出手的抓取力的大小。

在一种示例性实施例中，预设函数包括第一函数和第二函数，分别为：

其中，D1为虚拟目标物体中心与虚拟球体中心之间的距离，D2为手的五根手指的指尖与虚拟目标物体中心的距离；i为1到5，分别代表从大拇指的指尖到小拇指的指尖的位置数据；这样当虚拟目标物体的位置数据、手的关键节点的位置数据、虚拟球体的位置数据满足第一函数和第二函数时，判断为手与虚拟目标物体碰撞。

在一种示例性实施例中，预设函数还可以包括第三函数：

其中，θ_i′为所述手的各个手指的弯曲度归一化到(1，0)之间所对应的弯曲度；α_i为各个手指在抓取物体时作用力的权重系数，分别包括：大拇指权重系数α₁、食指权重系数α₂、中指权重系数α₃、无名指权重系数α₄、小拇指权重系数α₅；且α₁的取值范围为0.3到0.4之间，α₂的取值范围为0.2到0.3之间，α₃的取值范围为0.15到0.25之间，α₄的取值范围为0.1到0.2之间，α₅的取值范围为0到0.1之间，α₁>α₂>α₃>α₄>α₅，α₁+α₂+α₃+α₄+α₅＝1。

通过具体的实验得知，抓取力F>2.5时能够判断此时手抓取到虚拟目标物体。这样当手与虚拟目标物体碰撞时，即虚拟目标物体的位置数据、手的关键节点的位置数据、虚拟球体的位置数据满足第一函数以及第二函数的条件下，对应的将手的关键节点的位置数据带入第三函数，就可以得到手对虚拟目标物体施加的抓取力F。

本公开技术方案中，通过检测和建立用户手的关键节点的位置数据、虚拟目标物体的位置数据，并根据关键节点的位置数据得到拟合成虚拟球体的位置数据，进而利用上述数据和预设的函数公式，可以精准的得到手碰撞虚拟目标物体以及施加抓取力的大小。

本实施例中，通过用户手的关键节点的位置数据拟合成虚拟球体，并利用该虚拟球体进行检测，该虚拟球体可以根据不同用户的不同尺寸的手，以及处于不同运动状态的手，建立具有对应关系的球心位置数据、对应的半径数据的虚拟球体，解决了用户手的复杂结构、运动变化多样的问题，进而可以直接将本方法中检测以及建立得到的数据直接带入预设的公式，而获得手势碰撞的检测结果，使运算的复杂度大幅度的降低。

步骤40：根据人眼是否注视虚拟目标物体、用户的手是否与虚拟目标物体发生碰撞以及是否抓取虚拟目标物体，对3D视图进行播放控制。

在一种示例性实施例中，步骤40包括：

当人眼注视虚拟目标物体时，对3D视图的一部分进行高清渲染，对3D视图的另一部分进行低清渲染，此时，当人眼注视虚拟目标物体且用户的手未与虚拟目标物体发生碰撞时，3D视图的一部分对应人眼注视区域周围的第一区域；当人眼注视虚拟目标物体且用户的手与虚拟目标物体发生碰撞时，3D视图的一部分对应人眼注视区域周围的第二区域，第二区域大于或等于第一区域；

当用户的手抓取虚拟目标物体时，计算用户的手的运动向量，根据计算出的运动向量，更新虚拟目标物体的位置；

当人眼未注视虚拟目标物体时，对3D视图整体进行低清渲染。

本公开实施例通过在局部进行高清显示，降低了显示器的带宽。本公开实施例所述的高清渲染，指的是输出的图像帧的格式在1080P(p即Progressive，逐行扫描)以上，相应的，本公开实施例所述的低清渲染，指的是输出的图像帧的格式在1080P以下。

在一种示例性实施例中，当人眼注视虚拟目标物体且用户的手与虚拟目标物体发生碰撞时，所述方法还包括如下步骤：

确定用户的手在虚拟目标物体上的碰撞区域；

当人眼注视区域与碰撞区域不交叠时，第二区域以人眼注视区域为中心；

当人眼注视区域与碰撞区域交叠时，第二区域以人眼注视区域与碰撞区域交叠的区域为中心。

如图2所示，裸眼3D显示器的屏幕上有一个用于生成左视图的三角形目标和一个用于生成右视图的三角形目标，人眼观看时由于视差原因，看到的虚拟目标物体的像在屏幕前面。将虚拟目标物体在三维空间的成像中心记作Visual3D_Object，所占据的空间外包围盒记作Visual3D_box。通过前述步骤计算人眼注视区域，分为以下两种情况：

(1)人眼注视区域落在Visual3D_box内，说明人眼在注视虚拟目标物体。此时，设置阈值α，在人眼注视区域周围α区域内提升显示屏的渲染像素数，达到高清渲染，其它地方做低清渲染，以此降低带宽。此时，通过前述步骤计算手势是否与虚拟目标物体发生碰撞，若发生碰撞，则此时设置阈值β，且β>α，进一步扩大区域，即在人眼与手势共同作用的区域内提升显示屏的渲染像素数，达到高清显示，其它区域做低清显示，以此降低带宽；

(2)人眼注视区域落在Visual3D_box以外，说明人眼未关注交互物体，此时，整体做低清渲染。

当人眼注视区域与手势处在Visual3D_box之内时，启动裸眼3D内容交互算法。手与虚拟目标物体发生碰撞时检测手的状态，判断手是否在抓取虚拟目标物体，如果是则实时计算手势的当前的位置。手势刚发生碰撞时的位置即为A1，移动后的位置记为A2，则向量A＝A2-A1，A即为手势的运动向量。将A的移动代入到虚拟目标物体的左右视图上，通过三维空间中的位置和向量A计算左右视图中虚拟目标物体的位置，然后将更新后的位置显示到裸眼3D显示器中。

本公开实施例的人机交互方法，通过根据人眼是否注视虚拟目标物体、用户的手是否与虚拟目标物体发生碰撞以及是否抓取虚拟目标物体，对3D视图进行播放控制，达到了人机交互时手眼合一的效果，同时使得手势控制更能真实反映人们的交互行为，提高了用户的沉浸感，提升了裸眼3D在人机交互方向的能力，对裸眼3D的交互发展将起到很大的推动作用。

此外，通过在交互区域进行高清渲染，其它区域低清渲染，降低了显示器的带宽。

本公开实施例还提供了一种处理设备，所述处理设备可包括处理器以及存储有可在处理器上运行的计算机程序的存储器，所述处理器执行所述计算机程序时实现本公开中如前任一项所述的人机交互方法的步骤。

如图7所示，在一个示例中，处理设备700可包括：处理器710、存储器720、总线系统730和收发器740，其中，该处理器710、该存储器720和该收发器740通过该总线系统730相连，该存储器720用于存储指令，该处理器710用于执行该存储器720存储的指令，以控制该收发器740发送信号。具体地，收发器740可在处理器710的控制下从视线追踪摄像头和手势检测摄像头中获取采集的原始图像，并在检测到人眼的注视区域、用户的手是否与虚拟目标物体发生碰撞以及是否抓取虚拟目标物体后，通过收发器向其他设备发送通知。

应理解，处理器710可以是中央处理单元(Central Processing Unit，CPU)，处理器710还可以是其他通用处理器、数字信号处理器(DSP)、专用集成电路(ASIC)、现成可编程门阵列(FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。

存储器720可以包括只读存储器和随机存取存储器，并向处理器710提供指令和数据。存储器720的一部分还可以包括非易失性随机存取存储器。例如，存储器720还可以存储设备类型的信息。

总线系统730除包括数据总线之外，还可以包括电源总线、控制总线和状态信号总线等。但是为了清楚说明起见，在图7中将各种总线都标为总线系统730。

在实现过程中，处理设备所执行的处理可以通过处理器710中的硬件的集成逻辑电路或者软件形式的指令完成。即本公开实施例的方法步骤可以体现为硬件处理器执行完成，或者用处理器中的硬件及软件模块组合执行完成。软件模块可以位于随机存储器，闪存、只读存储器，可编程只读存储器或者电可擦写可编程存储器、寄存器等存储介质中。该存储介质位于存储器720，处理器710读取存储器720中的信息，结合其硬件完成上述方法的步骤。为避免重复，这里不再详细描述。

本公开实施例还提供了一种人机交互系统，包括视线追踪摄像头、手势检测摄像头、3D显示器和处理设备。所述处理设备可以是如前所述的处理设备700。视线追踪摄像头，用于拍摄用户图像；手势检测摄像头，用于拍摄用户的手部图像；3D显示器，用于输出3D视图呈现虚拟目标物体。

在一种示例性实施例中，如图3所示，视线追踪摄像头包括：第一摄像头31和第二摄像头32，人机交互系统还包括两个红外光源34，红外光源34用于在人眼上形成光斑。

在一种示例性实施例中，第一摄像头31可以为红绿蓝(RGB)摄像头，第二摄像头32可以为红外摄像头，手势检测摄像头33可以为红外摄像头。

在一种示例性实施例中，使用张正友的棋盘格标定法，对第一摄像头31和第二摄像头32进行标定，得到第一摄像头31到第二摄像头32的旋转平移矩阵，记作M1，使得对第一摄像头31的图像Image_rgb通过M1变换到第二摄像头32的图像，即，Image_ir＝M1*Image_rgb。同理，对第二摄像头32和手势检测摄像头33进行标定，得到第二摄像头32到手势检测摄像头33的旋转平移矩阵M2，使得对第二摄像头32的图像Image_ir通过M2变换到手势检测摄像头的图像Image_hand＝M2*Image_ir。

本公开实施例还提供了一种计算机可读存储介质，该计算机可读存储介质存储有可执行指令，该可执行指令被处理器执行时可以实现本公开上述任一实施例提供的人机交互方法，该人机交互方法可以用于控制本公开上述实施例提供的3D显示器进行输出3D视图播放控制，可达到人机交互时手眼合一的效果，同时使得手势控制更能真实反映人们的交互行为，提高了用户的沉浸感，提升了裸眼3D在人机交互方向的能力，对裸眼3D的交互发展将起到很大的推动作用。通过执行可执行指令驱动人机交互系统进行3D视图播放控制的方法与本公开上述实施例提供的人机交互方法基本相同，在此不做赘述。

在本公开实施例的描述中，需要理解的是，术语“中部”、“上”、“下”、“前”、“后”、“竖直”、“水平”、“顶”、“底”“内”、“外”等指示的方位或位置关系为基于附图所示的方位或位置关系，仅是为了便于描述本公开和简化描述，而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作，因此不能理解为对本公开的限制。

在本公开实施例的描述中，除非另有明确的规定和限定，术语“安装”、“相连”、“连接”应做广义理解，例如，可以是固定连接，也可以是可拆卸连接，或一体地连接；可以是机械连接，也可以是电连接；可以是直接相连，也可以通过中间媒介间接相连，可以是两个元件内部的连通。对于本领域的普通技术人员而言，可以根据理解上述术语在本公开中的含义。

本领域普通技术人员可以理解，上文中所公开方法中的全部或某些步骤、系统、装置中的功能模块/单元可以被实施为软件、固件、硬件及其适当的组合。在硬件实施方式中，在以上描述中提及的功能模块/单元之间的划分不一定对应于物理组件的划分；例如，一个物理组件可以具有多个功能，或者一个功能或步骤可以由若干物理组件合作执行。某些组件或所有组件可以被实施为由处理器，如数字信号处理器或微处理器执行的软件，或者被实施为硬件，或者被实施为集成电路，如专用集成电路。这样的软件可以分布在计算机可读介质上，计算机可读介质可以包括计算机存储介质(或非暂时性介质)和通信介质(或暂时性介质)。如本领域普通技术人员公知的，术语计算机存储介质包括在用于存储信息(诸如计算机可读指令、数据结构、程序模块或其他数据)的任何方法或技术中实施的易失性和非易失性、可移除和不可移除介质。计算机存储介质包括但不限于RAM、ROM、EEPROM、闪存或其他存储器技术、CD-ROM、数字多功能盘(DVD)或其他光盘存储、磁盒、磁带、磁盘存储或其他磁存储装置、或者可以用于存储期望的信息并且可以被计算机访问的任何其他的介质。此外，本领域普通技术人员公知的是，通信介质通常包含计算机可读指令、数据结构、程序模块或者诸如载波或其他传输机制之类的调制数据信号中的其他数据，并且可包括任何信息递送介质。

虽然本公开所揭露的实施方式如上，但所述的内容仅为便于理解本公开而采用的实施方式，并非用以限定本公开。任何本公开所属领域内的技术人员，在不脱离本公开所揭露的精神和范围的前提下，可以在实施的形式及细节上进行任何的修改与变化，但本公开的保护范围，仍须以所附的权利要求书所界定的范围为准。

Claims

1.一种人机交互方法，其特征在于，包括：

控制3D显示器输出3D视图呈现虚拟目标物体；

接收视线追踪摄像头拍摄的用户图像，根据所述用户图像检测人眼注视区域；

接收手势检测摄像头拍摄的手部图像，根据所述手部图像检测用户的手是否与所述虚拟目标物体发生碰撞和/或是否抓取所述虚拟目标物体；

当人眼注视所述虚拟目标物体时，对所述3D视图的一部分进行高清渲染，对所述3D视图的另一部分进行低清渲染，此时，当人眼注视所述虚拟目标物体且所述用户的手未与虚拟目标物体发生碰撞时，所述3D视图的一部分对应人眼注视区域周围的第一区域；当人眼注视所述虚拟目标物体且所述用户的手与虚拟目标物体发生碰撞时，所述3D视图的一部分对应人眼注视区域周围的第二区域，所述第二区域大于或等于所述第一区域，所述第二区域通过如下方法确定：确定所述用户的手在所述虚拟目标物体上的碰撞区域，当所述人眼注视区域与所述碰撞区域不交叠时，所述第二区域以所述人眼注视区域为中心；当所述人眼注视区域与所述碰撞区域交叠时，所述第二区域以所述人眼注视区域与所述碰撞区域交叠的区域为中心；

当用户的手抓取所述虚拟目标物体时，计算用户的手的运动向量，根据计算出的运动向量，更新所述虚拟目标物体的位置；

当人眼未注视所述虚拟目标物体时，对所述3D视图整体进行低清渲染。

2.根据权利要求1所述的人机交互方法，其特征在于，所述视线追踪摄像头包括第一摄像头和第二摄像头，所述根据所述用户图像检测人眼注视区域，包括：

获取所述第一摄像头拍摄的用户图像，对所述用户图像进行人脸检测和特征点检测，得到多个人脸特征点，根据所述多个人脸特征点计算人脸位姿信息；

对人脸眼部区域进行瞳孔检测，确定瞳孔区域；对所述用户图像进行二值化处理，计算所述瞳孔区域的积分图像，确定瞳孔中心的位置；

获取所述第二摄像头拍摄的带有光斑的人眼图像，检测光斑的位置，根据所述瞳孔中心和光斑的位置，计算人眼注视区域。

3.根据权利要求2所述的人机交互方法，其特征在于，所述方法之前还包括：

对所述第一摄像头和所述第二摄像头进行标定，得到所述第一摄像头和所述第二摄像头之间的第一旋转平移矩阵；

对所述第二摄像头和所述手势检测摄像头进行标定，得到所述第二摄像头和所述手势检测摄像头之间的第二旋转平移矩阵。

4.根据权利要求2所述的人机交互方法，其特征在于，所述方法还包括：以所述第一摄像头、所述第二摄像头和所述手势检测摄像头中的任意一个为基准，对摄像头坐标系和屏幕坐标系进行统一化处理。

5.根据权利要求1所述的人机交互方法，其特征在于，根据所述手部图像检测用户的手是否与所述虚拟目标物体发生碰撞和/或是否抓取所述虚拟目标物体，包括：

选取手部二十一个部位作为手的关键节点，所述手部二十一个部位包括五根手指中每根手指有四个部位，其中，指尖为一个部位，三个关节对应三个部位，手腕处一个部位；

获取手势检测摄像头拍摄的手部图像，确定手的关键节点的位置数据，根据所述虚拟目标物体的位置和手的关键节点的位置数据，检测用户的手是否与所述虚拟目标物体发生碰撞；

当用户的手与所述虚拟目标物体发生碰撞时，检测用户的手是否抓取所述虚拟目标物体。

6.根据权利要求1所述的人机交互方法，其特征在于，所述3D视图包括相互叠加的第一背景显示内容、第二背景显示内容、第一前景交互物体和第二前景交互物体，所述第一背景显示内容和第二背景显示内容通过人眼成像后，形成裸眼3D场景，所述第一前景交互物体和第二前景交互物体通过人眼成像后，形成所述虚拟目标物体。

7.一种处理设备，其特征在于，包括：处理器以及存储有可在处理器上运行的计算机程序的存储器，其中，所述处理器执行所述计算机程序时实现如权利要求1至6中任一项所述的人机交互方法的步骤。

8.一种人机交互系统，其特征在于，包括：视线追踪摄像头、手势检测摄像头、3D显示器以及如权利要求7所述的处理设备，其中：

所述视线追踪摄像头，用于拍摄用户图像；

所述手势检测摄像头，用于拍摄用户的手部图像；

所述3D显示器，用于输出3D视图呈现虚拟目标物体。

9.根据权利要求8所述的人机交互系统，其特征在于，所述视线追踪摄像头包括：第一摄像头和第二摄像头，所述人机交互系统还包括两个红外光源，所述红外光源用于在人眼上形成光斑；

所述第一摄像头为红绿蓝摄像头，所述第二摄像头为红外摄像头，所述手势检测摄像头为红外摄像头。

10.一种计算机可读存储介质，其特征在于，存储有计算机可执行指令，所述计算机可执行指令用于执行权利要求1至6中任一项所述的人机交互方法。