CN110908512A

CN110908512A - 一种基于动态手势坐标映射的人机交互方法

Info

Publication number: CN110908512A
Application number: CN201911114634.9A
Authority: CN
Inventors: 陈伟; 田宜彬
Original assignee: Guanglun Technology Hangzhou Co Ltd
Current assignee: Zhejiang Guanglun Technology Co.,Ltd.
Priority date: 2019-11-14
Filing date: 2019-11-14
Publication date: 2020-03-24

Abstract

本申请公开了一种基于动态手势坐标映射的人机交互方法，包括：将手部的一定点作为原点建立动态坐标系，并将动态坐标系进行区域划分；将区域划分后的单元映射到用于人机交互的图形界面单元；若手部发生移动，则将手部映射到所述图形界面单元，以移动后的所述定点位置为原点更新动态坐标系。本申请通过将动态坐标系进行区域划分，避免了用户进行标定操作，其复杂度也相比传统的交互方式低，能适应大部分交互场景。

Description

一种基于动态手势坐标映射的人机交互方法

技术领域

本申请涉及人机交互技术领域，尤其涉及一种基于动态手势坐标映射的人机交互方法。

背景技术

人手追踪与手势识别系统用来实现人与计算机之间的互动。手势可以用来控制机器或向机器传递信息。这种识别系统属于人机交互领域(人-计算机交互(HCI)或人-机器交互(HMI)。实现人机交互的一种方法是基于手套的传感器，使用连接在手套上的能将手指弯曲度转换为电信号的机械或光学传感器去测定手的姿态。这个方式精度高，但对使用者来说并不自然，它需要使用者穿戴特殊的有线手套，并要对其进行校准与调整。

另一种方法是更为自然的基于视觉的传感，使用相机去捕捉手势。手势可以是静态的(一个姿态)或动态的(一个姿态序列)。自然手势获取视觉系统既可以使用一个或多个彩色(RGB)相机，一个或多个深度照相机，或是两者的结合(RGB-D)。

针对RGB或者RGB-D的方式进行的手势交互，和触摸式交互不同，摄像机的视野在没有回显视频的时候是不可见的，并且摄像机的视野和屏幕显示的尺寸也是不匹配的，人的手活动范围也不一定能覆盖整个摄像机的可见区域，而且人还会发生移动。因此使用这种方式进行界面交互的时候就存在一定的难度。最常见的解决方法就是对手的位置进行标定，比如让用户摸下左上角，再到左下角等等，然后建立映射关系。这种方法的缺点是用户一旦发生移动就会出现无法操作的情况，而且标定过程也非常麻烦用户需要有学习成本。另外一个解决方法就是，改变交互的界面来适应这些局限性，比如限定只能在中间进行操作，这个方法的缺点是操作方式和传统的方式完全不同，需要全新的学习成本，另外所有的应用全部要重新设计，复杂度也很高，不容易普及。

发明内容

本申请实施例提供了一种基于动态手势坐标映射的人机交互方法，使得用户无需标定就可以直接操作，并能适应大部分传统的交互。

有鉴于此，本申请第一方面提供了一种基于动态手势坐标映射的人机交互方法，所述方法包括：

将手部的一定点作为原点建立动态坐标系，并将动态坐标系进行区域划分；

将区域划分后的单元映射到用于人机交互的图形界面单元；

若手部发生移动，则将手部映射到所述图形界面单元，以移动后的所述定点位置为原点更新动态坐标系。

优选地，在将手部的一定点作为原点建立动态坐标系之前还包括:

采集包含手部的图像，根据所述图像跟踪手部，并提取手部的感兴趣区域。

优选地，在采集包含手部的图像，根据所述图像跟踪手部，并提取手部的感兴趣区域之后还包括:

提取手部外形特征，并判断手部外形特征是否发生变化。

优选地，还包括：

根据手部外形特征进行手势识别，并根据识别后的手势执行相应界面单元操作。

优选地，在所述若手部发生移动，则将手部映射到所述图形界面单元，以移动后的所述定点位置为原点更新动态坐标系之前还包括：

计算手的移动量，若所述手的移动量大于预设的阈值，则判断手部发生移动。

优选地，所述一定点为手的重心或者中心。

优选地，所述将区域划分后的单元映射到用于人机交互的图形界面单元具体为：

若采集到的图像为RGB-D图像，图像界面单元为2D界面，则将采集的RGB-D图像进行区域划分后的，去掉RGB-D图像的深度方向，再将得到的图像映射到图像界面单元。

若采集到的图像为RGB-D图像，图像界面单元为3D界面，则将采集的RGB-D图像进行区域划分后的，再将得到的RGB-D图像映射到图像界面单元。

将区域划分后的单元以所述一定点为中心进行优先级划分，即越靠近所述一定点的单元优先级越高，按照优先级将划分后的单元映射至图形界面单元。

优选地，若采集的图像为RGB-D图像，则将RGB-D图像进行降维处理，具体为：

r＝R/(R+G+B)

g＝G/(R+G+B)

d＝D/max(D)

其中，D表示深度图的最大深度，R、G、B表示RGB色彩模式的三个分量。

优选地，所述动态坐标系为直角坐标系或者圆柱坐标系。

本申请提供了一种基于动态手势坐标映射的人机交互方法，包括将手部的一定点作为原点建立动态坐标系，并将动态坐标系进行区域划分；将区域划分后的单元映射到用于人机交互的图形界面单元；若手部发生移动，则将手部映射到所述图形界面单元，以移动后的所述定点位置为原点更新动态坐标系。

从以上技术方案可以看出，本申请通过将动态坐标系进行区域划分，避免了用户进行标定操作，其复杂度也相比传统的交互方式低，能适应大部分交互场景。

附图说明

图1为本申请一种基于动态手势坐标映射的人机交互方法的一个实施例的方法流程图；

图2为本申请一种基于动态手势坐标映射的人机交互方法的另一个实施例的方法流程图；

图3为本申请一种基于动态手势坐标映射的人机交互方法中采用 RGB-D相机的一个具体实施例的方法流程图；

图4为本申请中对3*3*3的3D图像进行区域划分的示意图；

图5为为本申请中对3*3*3的2D图像区域划分后的图形界面示意图；

图6为本申请中对5*5*5的2D图像进行区域划分的示意图；

图7为本申请中5*5*5的2D的图像区域划分后对应的图形界面示意图；

图8为本申请采用柱状区域划分后使用坐标表示各区域的示意图；

图9为本申请采用柱状区域划分后对应的图形界面的示意图；

图10为本申请采用优先级表示划分后单元的优先级示意图。

具体实施方式

本申请通过将动态坐标系进行区域划分，避免了用户进行标定操作，其复杂度也相比传统的交互方式低，能适应大部分交互场景。

为了使本技术领域的人员更好地理解本申请方案，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

为了便于理解，请参阅图1，图1为本申请一种基于动态手势坐标映射的人机交互方法的一个实施例的方法流程图，如图1所示，图1 中包括：

101、将手部的一定点作为原点建立动态坐标系，并将动态坐标系进行区域划分。

需要说明的是，将手部的一特定点作为原点建立坐标系，其中动态坐标系是指坐标系的原点可以根据手部的移动而移动，从而实时的更新坐标系的位置，并且可以根据初始的坐标系进行区域的划分，将坐标系划分成多个不同的区域。还需要说明的是，坐标系可以根据需要选择采用二维坐标系或者三维坐标系，还可以采用圆柱坐标系或者其他更复杂的坐标系。

102、将区域划分后的单元映射到用于人机交互的图形界面单元。

需要说明的是，将区域划分后的单元映射到用于人机交互的图形界面单元可以是将二维单元映射到二维的显示器上，以及将三维单元映射到三维显示器上，并且还可以将三维单元映射到二维显示器上。

103、若手部发生移动，则将手部映射到所述图形界面单元，以移动后的定点位置为原点更新动态坐标系。

需要说明的是，当手部位置发生改变时，需要重新将手部映射到图形界面单元中，图形界面单元重新确定手部定点所在的划分单元，并以该定点所在的单元为坐标原点更新坐标系。

本申请设计了一种通过将动态坐标系进行区域划分，避免了用户进行标定操作，其复杂度也相比传统的交互方式低，能适应大部分交互场景。

为了更加详细地理解本申请的方案，请参阅图2，图2为本申请一种基于动态手势坐标映射的人机交互方法的另一个实施例的方法流程图，如图2所示，具体为：

201、采集包含手部的图像，根据图像跟踪手部，并提取手部的感兴趣区域。

需要说明的是，根据需要可以采集二维或者三维图像，并根据采集到的图像进行识别跟踪，同时提取手部感兴趣区域，从而确定手部的位置。

202、提取手部外形特征，并判断手部外形特征是否发生变化。

需要说明的是，由于每个手势表示的意思并不相同，因此可以提取手部的相应特征，并将特征与上一时刻的特征进行比对，从而确认手势是否发生改变。

另外，本申请还可以根据手部外形特征进行手势识别，并根据识别后的手势执行相应界面单元操作。

203、将手部的一定点作为原点建立动态坐标系，并将动态坐标系进行区域划分。

需要说明的是，将手部的一特定点作为原点建立坐标系，其中动态坐标系是指坐标系的原点可以根据手部的移动而移动，从而实时的更新坐标系的位置，并且可以根据初始的坐标系进行区域的划分，将坐标系划分成多个不同的区域。还需要说明的是，坐标系可以根据需要选择采用二维坐标系或者三维坐标系，还可以采用圆柱坐标系或者其他更复杂的坐标系。在一种具体的实施方式中，定点可以选择手部的重心或者中心。

在一种具体实施例中，采用RGB-D相机进行图像采集得到RGB 图像以及深度图像，因此其建立的坐标系可以是三维坐标系(x，y，z)，也可以是圆柱坐标系，其圆柱坐标系的转换公式为：

x＝ρ*cos(θ)

y＝ρ*sin(θ)

z＝z

其中的z表示指向摄像头的方向。

其次，将该坐标系进行3D区域划分可以如图4-7所示的示意图，其中单元0表示初始原点坐标。还需要说明的是，如果HMI GUI显示在常见的2D显示器上，则3D区域分割可以映射到2D的GUI单元，比较简单的方式就是把深度z方向忽略，如图5和图7所示的示意图。如果HMI GUI显示在3D显示器上,则可把3D区域分割映射到3D的 GUI单元，即将深度z方向的区域也映射到对应的3D GUI单元上。图 8-图9是柱状区域的分割以及其对应的图形界面。需要指出的是，图4-9所示的GUI单元划分区域不一定全部需要，具体的应用场景决定 GUI单元的具体数量和映射方式。

另外，可以授予3D区域分割映射的不同GUI单元不同的优先级。如图10所示，中心区域(离坐标原点近的区域)比边缘区域(离坐标原点远的区域)的GUI单元具有更高的优先级，如图10所示，图10 显示的是柱状坐标系的情况，直角坐标系的情况可以类推。这一优先级可以由人机交互系统默认设定，或由用户根据个人偏好设定，或由人机交互系统从用户习惯中学习。比如可以把用户在给定时间范围内使用频率高的GUI单元给予更高的优先级，放置在中心区域，而在给定时间范围内使用频率低的GUI单元给予低的优先级，放置在边缘区域。此外，对于优先级高的GUI单元，可以给予更大的区域面积使户更容易选中，这样可以提升优先级GUI单元的可用性。

204将区域划分后的单元映射到用于人机交互的图形界面单元。

需要说明的是，若采集到的图像为RGB-D图像，图像界面单元为 2D界面，则将采集的RGB-D图像进行区域划分后的，去掉RGB-D图像的深度方向，再将得到的图像映射到图像界面单元。若图像界面单元为3D界面，则将采集的3D图像进行区域划分后的，再将包括深度信息的3D图像映射到图像界面单元。

并且，还可以根据单元优先级，将划分后的单元映射到图形界面单元上，即越靠近所述一定点的单元优先级越高，按照优先级将划分后的单元映射至图形界面单元。

205若手部发生移动，则将手部映射到图形界面单元，以移动后的定点位置为原点更新动态坐标系。

需要说明的是，当手部位置发生改变时，需要重新将手部映射到图形界面单元中，图形界面单元重新确定手部定点所在的划分单元，并以该定点所在的单元为坐标原点更新坐标系。其中判断手部是否发生位移采用的方法可以是，计算手的移动量，若所述手的移动量大于预设的阈值，则判断手部发生移动。

本申请通过将动态坐标系进行区域划分，直接将手部位置映射到图形界面中大大减少手势图像处理中的数据维度，既可以减少手势样本收集与标注的数量，从而节省时间和资源，又可以提高人机手势交互实时性、稳定性和可用性。

为了更加详细的理解本申请的技术方案，本申请提供了一种具体的实施方式，如图3所示的采用RGB-D相机的一个具体实施例的方法流程图，其具体的步骤为：

采用基于彩色-深度(RGB-D)视觉系统，也可适当改变后采用只有彩色(或灰度)的视觉系统或只有深度的视觉系统。为了准确校正和对齐RGB和深度图像，首先对RGB-D相机进行标定，此过程利用采集的一组图像计算出RGB和深度摄像头的内参(包括焦距、主点、径向和切向畸变等)，相机标定之后采集的RGB和深度图像可以用相应的摄像头内参实现校准，并用摄像头间的外参实现对齐。

当用户的手进入RGB-D相机的视场内的特定区域或是完成特定的动作，系统进入人机交互状态。此时对进入RGB-D相机的视场内的手部进行跟踪并提取手部感兴趣区域，手部感兴趣区域(ROI,Region of Interest)的提取可以用常见的跟踪方法以便快速的找到。比较理想的实现是用深度图进行跟踪，从而减少计算量，但是RGB和深度图同时使用可以提高跟踪的稳定性。如果跟踪不成功，则可以在整幅图像中直接进行手部检测。这一检测既可以用图像特征提取和统计分类器的方式,比如梯度直方图(HOG,Histogram ofGradient)特征和支持向量机(SVM,SupportVectorMachine)，也可以直接使用深度神经网络 (DNN,DeepNeuralNetwork)，比如常见的SSD(Single ShotMultibox Detector)或YOLO(You OnlyLookOnce)网络。为了减少计算量，由于RGB本身不是完全独立的变量，可以把RGB图像的三个通道降维到独立的两个通道r和g。

r＝R/(R+G+B)

g＝G/(R+G+B)

d＝D/max(D)

其中max(D)计算深度图D的最大值。这样可以把深度图作为图像的第三个通道，得到的图像为(r,g,d)包含了所有的RGB和深度信息。

计算手的重心或者中心作为坐标原点建立坐标系。手部ROI的大小可以用其几何中心或重心的深度进行标准化，以保证同样的手的形态在不同深度下的ROI面积基本一致。从标准化的手部ROI提取出外形特征后，可以将其存储以备后用。同时可以将现有的外形特征与存储下来的上一时刻的一个手部外形特征的历史纪录进行比较，以判断手是否在进行一个手势动作。如果手不是在进行手势动作，并且手的移动量(x-x0,y-y0)超过给定的阈值，则把这一移动量映射到坐标系里对应的区域坐标，进而映射到对应的界面单元位置，其映射的示意图如图4至图7所示。此后可以更新坐标系原点(x0,y0,z0)。

如果手是在进行手势动作，则将当前手部ROI加入手部动作队列，并判断是否有足够的手部动作历史记录进行手势识别(即手部动作队列达到一定长度)。如果有够手部动作历史纪录，则可结合当前的界面单元位置进行手势识别并执行相应的界面单元操作，否则仅仅更新坐标系原点(x0,y0,z0)

上述过程循环执行，直到系统识别到代表“终止”的手势或是外部中断指令为止。

本申请术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

应当理解，在本申请中，“至少一个(项)”是指一个或者多个，“多个”是指两个或两个以上。“和/或”，用于描述关联对象的关联关系，表示可以存在三种关系，例如，“A和/或B”可以表示：只存在A，只存在B以及同时存在A和B三种情况，其中A，B可以是单数或者复数。字符“/”一般表示前后关联对象是一种“或”的关系。“以下至少一项(个)”或其类似表达，是指这些项中的任意组合，包括单项(个)或复数项 (个)的任意组合。例如，a，b或c中的至少一项(个)，可以表示： a，b，c，“a和b”，“a和c”，“b和c”，或“a和b和c”，其中a，b，c 可以是单个，也可以是多个。

在本申请所提供的几个实施例中，应该理解到，所揭露的系统和方法，可以通过其它的方式实现。例如，以上所描述的系统实施例仅仅是示意性的，例如，所述模块的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个模块或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或模块的间接耦合或通信连接，可以是电性，机械或其它的形式。

另外，在本申请各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括： U盘、移动硬盘、只读存储器(英文全称：Read-OnlyMemory，英文缩写：ROM)、随机存取存储器(英文全称：RandomAccess Memory，英文缩写：RAM)、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述，以上实施例仅用以说明本申请的技术方案，而非对其限制；尽管参照前述实施例对本申请进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围。

Claims

1.一种基于动态手势坐标映射的人机交互方法，其特征在于，包括：

将区域划分后的单元映射到用于人机交互的图形界面单元；

2.根据权利要求1所述的基于动态手势坐标映射的人机交互方法，其特征在于，在将手部的一定点作为原点建立动态坐标系之前还包括:

3.根据权利要求2所述的基于动态手势坐标映射的人机交互方法，其特征在于，在采集包含手部的图像，根据所述图像跟踪手部，并提取手部的感兴趣区域之后还包括:

提取手部外形特征，并判断手部外形特征是否发生变化。

4.根据权利要求3所述的基于动态手势坐标映射的人机交互方法，其特征在于，还包括：

5.根据权利要求1所述的基于动态手势坐标映射的人机交互方法，其特征在于，在所述若手部发生移动，则将手部映射到所述图形界面单元，以移动后的所述定点位置为原点更新动态坐标系之前还包括：

6.根据权利要求1所述的基于动态手势坐标映射的人机交互方法，其特征在于，所述将区域划分后的单元映射到用于人机交互的图形界面单元具体为：

7.根据权利要求1所述的基于动态手势坐标映射的人机交互方法，其特征在于，所述将区域划分后的单元映射到用于人机交互的图形界面单元具体为：

8.根据权利要求1所述的基于动态手势坐标映射的人机交互方法，其特征在于，所述将区域划分后的单元映射到用于人机交互的图形界面单元具体为：

9.根据权利要求1任一项所述的基于动态手势坐标映射的人机交互方法，其特征在于，若采集的图像为RGB-D图像，则将RGB-D图像进行降维处理，具体为：

r＝R/(R+G+B)

g＝G/(R+G+B)

d＝D/max(D)

10.根据权利要求1-9任一项所述的基于动态手势坐标映射的人机交互方法，其特征在于，所述动态坐标系为直角坐标系或者圆柱坐标系。