CN114327229A

CN114327229A - 基于影像的手势控制方法与使用此方法的电子装置

Info

Publication number: CN114327229A
Application number: CN202011023610.5A
Authority: CN
Inventors: 吴政泽; 李安正; 洪英士
Original assignee: Acer Inc
Current assignee: Acer Inc
Priority date: 2020-09-25
Filing date: 2020-09-25
Publication date: 2022-04-12

Abstract

一种基于影像的手势控制方法与使用此方法的电子装置。通过显示屏幕显示影像。通过影像撷取装置对使用者手部撷取手部影像。利用手部影像侦测使用者手部于三维空间中进行的一手势，利用手部影像判断手势是否符合预定控制手势。若是，对手部影像进行关键点侦测，以获取使用者手部的至少一关键点坐标。将至少一关键点坐标映射至显示屏幕上的至少一二维屏幕坐标。依据至少一二维屏幕坐标对该影像中的影像物体执行一操作。

Description

基于影像的手势控制方法与使用此方法的电子装置

技术领域

本发明是有关于一种电子装置，且特别是有关于一种基于影像的手势控制方法与使用此方法的电子装置。

背景技术

在传统的使用者输入界面中，通常是利用按键、键盘或鼠标来操控电子装置。随着科技的进步，新一代的使用者界面做得越来越人性化且越来越方便，其中触控界面即是一个成功的例子，其让使用者可直观式地点选屏幕上的物体而达到操控的效果。对于现今的触控式电子产品而言，使用者可以通过触控笔或手指来操控电子产品，使得电子产品可反应于触控操作执行各种功能。然而，随着电子产品的功能越来越多，直接碰触屏幕的触控操作方式已渐渐不能满足使用者操作上的需求。像是，触控技术需使用者触控或接近触控屏幕才能发生效用，此将直接限制使用者与电子产品之间的实际距离。另一方面，当电子产品的屏幕不具备触控功能时，使用者必须使用额外的输入装置来操控电子装置，此种操控方式通常较不直观且不便利。此外，对应于不同的使用者操作情境，都有其较为适合的使用者输入方式。

发明内容

有鉴于此，本发明提出一种基于影像的手势控制方法与使用此方法的电子装置，可提高电子装置使用上的直观性与便利性。

本发明实施例提供一种基于影像的手势控制方法，适用于包括影像撷取装置与显示屏幕的电子装置，并包括下列步骤。通过显示屏幕显示影像。通过影像撷取装置对使用者手部撷取手部影像。利用手部影像侦测使用者手部于三维空间中进行的一手势，利用手部影像判断手势是否符合预定控制手势。若是，对手部影像进行关键点侦测，以获取使用者手部的至少一关键点坐标。将至少一关键点坐标映射至显示屏幕上的至少一二维屏幕坐标。依据至少一二维屏幕坐标对该影像中的影像物体执行一操作。

本发明实施例提供一种电子装置，其包括影像撷取装置、存储装置，以及处理器。处理器耦接影像撷取装置与存储装置，并经配置以执行下列步骤。通过显示屏幕显示影像。通过影像撷取装置对使用者手部撷取手部影像。利用手部影像侦测使用者手部于三维空间中进行的一手势，利用手部影像判断手势是否符合预定控制手势。若是，对手部影像进行关键点侦测，以获取使用者手部的至少一关键点坐标。将至少一关键点坐标映射至显示屏幕上的至少一二维屏幕坐标。依据至少一二维屏幕坐标对该影像中的影像物体执行一操作。

基于上述，于本发明的实施例中，使用者可通过浮空手势对显示屏幕所显示的影像中的一影像物体执行一操作，让使用者在使用图像设计软件时能体验更为直观且便利的操作效果。

附图说明

图1是依照本发明一实施例的电子装置的功能方块图。

图2是依照本发明一实施例的手势控制方法的流程图。

图3是依照本发明一实施例的使用者手部的关键点坐标的示意图。

图4是依照本发明一实施例的产生二维屏幕坐标的示意图。

图5是依照本发明一实施例的手势控制方法的应用情境示意图。

图6是依照本发明一实施例的手势控制方法的流程图。

图7是依照本发明一实施例的对影像进行语义分割操作的示意图。

图8是依照本发明一实施例的对影像物体执行选取操作的示意图。

图9是依照本发明一实施例的计算第一关键点与第二关键点之间的距离的示意图。

图10是依照本发明一实施例的对影像物体执行拖曳操作的示意图。

其中：

10：电子装置；

110：显示屏幕；

120：存储装置；

130：视线侦测装置；

140：处理器；

Img_f：手部影像；

KP1、KP2、KP1_1、KP1_2、KP2_1、KP2_2：关键点坐标；

41：虚拟平面；

PV1：二维虚拟坐标；

PS1、PS1_1、PS1_2：二维屏幕坐标；

C1：相机位置；

G1～G2：手势；

Img_1、Img_2、Img_3：影像；

B1～B5：物体框；

M1～M5：物体边界；

F1、F2：文件夹；

obj_1～obj_4、obj_10：影像物体；

S201～S205、S601～S611：步骤。

具体实施方式

本发明的部份实施例接下来将会配合附图来详细描述，以下的描述所引用的元件符号，当不同附图出现相同的元件符号将视为相同或相似的元件。

图1是依照本发明一实施例的电子装置的功能方块图。请参照图1，电子装置10包括显示屏幕110、存储装置120、影像撷取装置130，以及处理器140。电子装置10可以是笔记本电脑、台式电脑、智能手机、平板电脑、游戏机或其他具有显示功能的电子装置，在此并不对电子装置10的种类加以限制。

显示屏幕110可以是液晶显示屏幕(Liquid Crystal Display，LCD)、发光二极管(Light Emitting Diode，LED)显示屏幕、有机发光二极管(Organic Light EmittingDiode，OLED)等各类型的显示屏幕，本发明对此不限制。

存储装置120用以储存档案、影像、指令、程序码、软件等等资料，其可以例如是任意型式的固定式或可移动式随机存取存储器(random access memory，RAM)、只读存储器(read-only memory，ROM)、快闪存储器(flash memory)、硬盘或其他类似装置、集成电路及其组合。

影像撷取装置130可包括具有电荷耦合元件(Charge CoupledDevice，CCD)或互补金属氧化物半导体(Complementary Metal-Oxide Semiconductor，CMOS)元件的影像感测器，用以撷取显示屏幕110前方的影像，以侦测显示屏幕110前方的使用者在三维空间中进行手势操作的位置及种类。举例而言，影像撷取装置130可以是RGB彩色照相装置，但本发明对此不限制。

处理器140耦接存储装置120、影像撷取装置130以及显示屏幕110，用以控制电子装置10的整体作动，其例如是中央处理单元(Central Processing Unit，CPU)，或是其他可编程之一般用途或特殊用途的微处理器(Microprocessor)、数字信号处理器(DigitalSignal Processor，DSP)、可编程控制器、特殊应用集成电路(Application SpecificIntegrated Circuits，ASIC)、可编程逻辑装置(Programmable Logic Device，PLD)、或其他类似装置或这些装置的组合。处理器140可执行记录于存储装置120中的程序码、软件模块、指令等等，以实现本发明实施例的手势控制方法。

图2是依照本发明一实施例的手势控制方法的流程图。请参照图2，本实施例的方式适用于上述实施例中的电子装置10，以下即搭配电子装置10中的各项元件说明本实施例的详细步骤。

于步骤S201，通过显示屏幕110显示影像。于一实施例中，电子装置10可在使用者操作图像设计软件或影像播放软件时，通过显示屏幕110显示照片或其他影像图档。本发明对于影像的图档格式并不加以限制。于步骤S202，处理器140通过影像撷取装置130对使用者手部撷取手部影像。

于步骤S203，处理器140利用手部影像侦测使用者手部于三维空间中进行的手势，并获取使用者手部的至少一关键点坐标。使用者通过运动手指头可比出各种不同的手势。于一实施例中，利用肤色侦测、边缘侦测、机器学习模型或其他相关电脑视觉技术，处理器140可通过手部影像来辨识使用者手部的手势的种类。于一实施例中，处理器140可依据手部影像判断使用者的手势为握拳手势、单指手势、双指手势或其他多指手势。举例而言，处理器140可依据手部影像判断使用者的手势是否为食指伸出的单指手势。或者，处理器140可依据手部影像判断使用者的手势是否为食指伸出与大拇指伸出的双指手势。于本实施例中，处理器140可先判断手势是否符合预定控制手势，若是，处理器140对手部影像进行关键点侦测，以获取使用者手部的至少一关键点坐标。

此外，于一实施例中，处理器140可通过机器学习模型来对使用者手部影像进行关键点侦测(Keypoint Triangulation)，以侦测出使用者手部的多个手部关键点，并获取这些手部关键点的三维关键点坐标。如图3所示，图3是依照本发明一实施例的使用者手部的关键点坐标的示意图。处理器140可以通过机器学习模型从单一手部影像Img_f推算出21个使用者手部的3D关键点坐标。如图3所示，处理器140可获取多个关键点坐标(例如2食指指尖的的关键点坐标KP1与大拇指指尖的关键点坐标KP2)。

于步骤S204，处理器140将至少一关键点坐标映射至显示屏幕110上的至少一二维屏幕坐标。为了达成操控显示屏幕110上的影像物体的目的，处理器140将使用者手部的关键点坐标映射为二维屏幕坐标，从而依据二维屏幕坐标执行后续操作。具体而言，处理器140可先将三维关键点坐标投影转换为二维平面上的二维虚拟坐标后，再将此二维虚拟坐标正规化为符合屏幕坐标系统的二维屏幕坐标。于一实施例中，处理器140将至少一关键点坐标投影至使用者手部与影像撷取装置130之间的虚拟平面上，以获取虚拟平面上的至少一二维虚拟坐标。接着，依据显示屏幕的解析度与屏幕选定范围，处理器140正规化至少一二维虚拟坐标，以获取显示屏幕110上的至少一二维屏幕坐标。

详细而言，图4是依照本发明一实施例的产生二维屏幕坐标的示意图。请参照图4，食指指尖的三维关键点坐标KP1为(X,Y,Z)。处理器140可将关键点坐标KP1投影至使用者手部与影像撷取装置130的相机位置C1之间的虚拟平面41上，而获取虚拟平面41上的二维虚拟坐标PV1，其表示为(x,y)。接着，处理器140可依据屏幕解析度对二维虚拟坐标PV1进行正规化处理而产生屏幕坐标系上的二维屏幕坐标PS1，其表示为(x_cur,y_cur)。

于一实施例中，基于相似三角形原理，处理器140可依据一深度比例而将三维关键点坐标KP1转换为二维虚拟坐标PV1。处理器140将至少一关键点坐标KP1的第一坐标分量乘上一深度比例f/Z，而获取至少一二维虚拟坐标PV1的第一坐标分量，即x＝X*f/Z。处理器140将至少一关键点坐标KP1的第二坐标分量乘上一深度比例f/Z，而获取至少一二维虚拟坐标PV1的第二坐标分量，即y＝Y*f/Z。深度比例f/Z为虚拟平面41与影像撷取装置130之间的预设距深度f比上至少一关键点坐标KP1的第三坐标分量Z。

然后，继续参照图4，处理器140可依据下列式(1)～式(4)与二维虚拟坐标PV1决定二维屏幕坐标PS1。于此，屏幕选定范围的左上角坐标为(x_min,y_min)，而屏幕选定范围的右下角坐标为(x_max,y_max)。屏幕选定范围的尺寸与位置可依据实际需求而设置，本发明对此不限制。于一实施例中，当屏幕选定范围为全屏幕时，(x_min,y_min)可表征为(0,0)，则(x_max,y_max)可表征为(S_width-1,S_height-1)，且显示屏幕110的解析度为S_width*S_height。

X_cur＝x_nom×S_width 式(3)

Y_cur＝y_nom×S_height 式(4)

藉此，处理器140可将使用者手部的一或多个关键点坐标转换为显示屏幕110上屏幕选定范围内的一或多个二维屏幕坐标。

最后，于步骤S205，处理器140依据至少一二维屏幕坐标对影像中的影像物体执行一操作。具体而言，处理器140可通过各种影像分析技术而从影像中萃取出影像物体，此影像物体例如为影像中的人物、动植物、交通工具、日常用品或其他可辨识影像物体等等。此外，上述操作可包括选取操作、拖曳操作、缩放操作或施于影像物体的其他影像编辑操作，本发明对此不限制。于一实施例中，处理器140可依据关联于使用者手部的二维屏幕坐标识别使用者选取的影像物体。于一实施例中，处理器140可依据关联于使用者手部的二维屏幕坐标将影像物体自第一位置拖曳至第二位置。于一实施例中，处理器140可依据关联于使用者手部的二维屏幕坐标放大或缩小影像物体。于一实施例中，处理器140可依据关联于使用者手部的二维屏幕坐标对影像物体进行颜色处理或其他修图处理。藉此，使用者可通过非常直观的操作方式而对影像物体进行各式操作，大幅提升图像设计软件的操作流畅性与方便性。使用者也不会受限于执行触控操作的距离限制，而可从相距于电子装置10较远的位置进行相关操作。

图5是依照本发明一实施例的手势控制方法的应用情境示意图。请参照图5，使用者U1可通过手势G1而选取影像Img_1中的影像物体obj_1。具体而言，通过将使用者手部的关键点坐标KP1映射至显示屏幕110上的二维屏幕坐标PS1，电子装置10可判断使用者U1选取影像物体obj_1。在电子装置10确定使用者选取影像物体obj_1之后，使用者U1可通过手势G2而将影像Img_1中的影像物体obj_1拖曳至一文件夹，以将影像物体obj_1储存至使用者选取的文件夹。或者，于其他实施例中，使用者可通过手势G2而将影像Img_1中的影像物体obj_1拖曳至另一张影像上，使另一张影像上合成有影像物体obj_1。

为了更清楚说明本发明，以下将以对影像物体进行选取操作与拖曳操作为范例进行说明。图6是依照本发明一实施例的手势控制方法的流程图。请参照图6，本实施例的方式适用于上述实施例中的电子装置10，以下即搭配电子装置10中的各项元件说明本实施例的详细步骤。

于步骤S601，通过显示屏幕110显示影像。于步骤S602，处理器140对影像进行语义分割(Semantic Segmentation)操作，以获取影像中的影像物体的物体边界。详细而言，处理器140可通过语义分割操作，对影像中的每一像素分类为一或多个影像物体或影像背景。图7是依照本发明一实施例的对影像进行语义分割操作的示意图。请参照图7，于一实施例中，处理器140可先对影像Img_2进行物体侦测而侦测出影像Img_2中的影像物体。举例而言，处理器140可通过机器学习模型(例如CNN模型等等)来对影像Img_2进行物体侦测，以辨识出影像Img_2中的影像物体与其对应物体种类。在进行物体侦测之后，处理器140可获取对应于各个影像物体的物体框(Bounding box)与物体种类，例如图7所示的物体框B1～B5。然后，处理器140可对这些物体框B1～B5所框选的影像区块进行语义分割处理，而将影像Img_2中每一个像素分类为背景与多个影像物体，从而获取这些影像物体各自对应的物体边界M1～M5。

于步骤S603，处理器140通过影像撷取装置130对使用者手部撷取手部影像。于步骤S604，处理器140利用手部影像判断手势是否符合预定控制手势。于本实施例中，预定控制手势包括特定单指手势与特定双指手势。于本实施例中，当手势不符合特定单指手势或特定双指手势时，处理器140将不会对影像物体进行任何操作。反之，若步骤S604判断为是，于步骤S605，处理器140对手部影像进行关键点侦测，以获取使用者手部的至少一关键点坐标。于步骤S606，处理器140将至少一关键点坐标映射至显示屏幕110上的至少一二维屏幕坐标。步骤S604～步骤S605的操作可参考前述实施例说明。

当手势符合特定单指手势，于步骤S607，处理器140判断对应于至少一关键点坐标的至少一二维屏幕坐标是否位于物体边界之内。若步骤S607判断为是，于步骤S608，处理器140对影像物体执行一选取操作。反之，若关键点坐标的二维屏幕坐标未位于物体边界之内，处理器140可依据关键点坐标的二维屏幕坐标于显示屏幕110上标示用以提示使用者的一光标。

举例而言，图8是依照本发明一实施例的对影像物体执行选取操作的示意图。请参照图8，假设显示屏幕110显示有影像Img_3，且影像Img_3经语义分割操作可获取影像物体Obj_1～Obj_4。当食指指尖的关键点坐标KP1_1为(X_i,Y_i,Z_i)，处理器140可将关键点坐标KP1_1映射为二维屏幕坐标PS1_1。处理器140可判断二维屏幕坐标PS1_1并未位于影像物体Obj_1～Obj_4的物体边界之内，因此处理器140可控制显示屏幕110于二维屏幕坐标PS1_1显示一光标。之后，当使用者手部项右移动后，食指指尖的关键点坐标KP1_2为(X_f,Y_f,Z_f)，处理器140可将关键点坐标KP1_2映射为二维屏幕坐标PS1_2。处理器140可判断二维屏幕坐标PS1_2并位于影像物体Obj_3的物体边界之内，因此处理器140可对影像物体Obj_3执行一选取操作，以依据后续的其他手势对影像物体Obj_3执行其他操作。或者，于一实施例中，当使用者已经选定执行特定影像编辑功能时，处理器140可依据上述选取操作而直接实施前述影像编辑功能于影像物体Obj_3上。一实施例中，处理器140可控制显示屏幕110于影像物体Obj_3的周围显示粗边效果、放大影像物体Obj_3或其他视觉效果，来提示使用者已经选取影像物体Obj_3。

另一方面，当手势符合特定双指手势，于步骤S609，处理器140判断第一关键点坐标与第二关键点坐标之间的距离是否小于门槛值。若步骤S609判断为是，于步骤S610，处理器140对影像物体开始执行拖曳操作。于步骤S611，反应于第一关键点坐标与第二关键点坐标之间的距离大于另一门槛值，处理器140对影像物体结束执行拖曳操作。

图9是依照本发明一实施例的计算第一关键点与第二关键点之间的距离的示意图。请参照图9，当手势符合特定双指手势，处理器140可依据食指指尖的关键点坐标KP1(即第一关键点坐标)与大拇指指尖的关键点坐标KP2(即第二关键点坐标)，来判断使用者是否企图对影像物体执行拖曳操作以及拖曳操作对应的拖曳路径。如图9所示，处理器140可通过计算坐标(X₁,Y₁,Z₁)与坐标(X₂,Y₂,Z₂)之间的欧式距离来获取关键点坐标KP1与关键点坐标KP2之间的距离d，如下列式(5)所示。

图10是依照本发明一实施例的对影像物体执行拖曳操作的示意图。假设使用者已经对影像物体obj_10进行选取操作。请参照图10，当使用者的食指与大拇指靠拢到足够程度时，关键点坐标KP1_1与关键点坐标KP2_1之间的距离将小于门槛值。与此同时，反应于关键点坐标KP1_1与关键点坐标KP2_1之间的距离小于门槛值，处理器140可对位于文件夹F1内的影像物体obj_10开始执行一拖曳操作。接着，使用者可在不改变手势的情况下移动使用者手部位置。在将影像物体obj_10拖曳至目标位置(例如文件夹F2的屏幕显示位置)之后，使用者可将食指与大拇指拉开释放。当使用者的食指与大拇指拉开释放到足够程度时，关键点坐标KP1_2与关键点坐标KP2_2之间的距离将大于另一门槛值。反应于关键点坐标KP1_2与关键点坐标KP2_2之间的距离大于另一门槛值，处理器140可对影像物体obj_10结束执行一拖曳操作。于一实施例中，反应于关键点坐标KP1_2与关键点坐标KP2_2之间的距离大于另一门槛值，处理器140可依据关键点坐标KP1_2或关键点坐标KP2_2对应的二维幕坐标而决定拖曳操作的拖曳终点。藉此，影像物体obj_10可复制或移动至文件夹F2。

综上所述，于本发明实施例中，使用者可通过浮空手势对显示屏幕所显示的影像中的一影像物体执行一操作。使用者可通过非常直观的操作方式而对影像物体进行各式操作，大幅提升图像设计软件的操作流畅性与方便性。使用者也不会受限于执行触控操作的距离限制，而可从相距于电子装置较远的位置进行相关操作。

虽然本发明已以实施例揭露如上，然其并非用以限定本发明，任何所属技术领域中普通技术人员，在不脱离本发明的精神和范围内，当可作些许的更动与润饰，故本发明的保护范围当视权利要求书所界定者为准。

Claims

1.一种基于影像的手势控制方法，适用于包括影像撷取装置与显示屏幕的电子装置，所述方法包括：

通过该显示屏幕显示一影像；

通过该影像撷取装置对使用者手部撷取手部影像；

利用该手部影像侦测该使用者手部于三维空间中进行的一手势，利用该手部影像判断该手势是否符合预定控制手势，若是，对该手部影像进行关键点侦测，以获取该使用者手部的至少一关键点坐标；

将该至少一关键点坐标映射至该显示屏幕上的至少一二维屏幕坐标；以及

依据该至少一二维屏幕坐标对该影像中的影像物体执行一操作。

2.如权利要求1所述的基于影像的手势控制方法，其特征在于，将该至少一关键点坐标映射至该显示屏幕上的该至少一二维屏幕坐标的步骤包括：

将该至少一关键点坐标投影至该使用者手部与该影像撷取装置之间的一虚拟平面上，以获取该虚拟平面上的至少一二维虚拟坐标；以及

依据该显示屏幕的解析度与一屏幕选定范围，正规化该至少一二维虚拟坐标，以获取该显示屏幕上的该至少一二维屏幕坐标。

3.如权利要求1所述的基于影像的手势控制方法，其特征在于，将该至少一关键点坐标投影至该使用者手部与该影像撷取装置之间的该虚拟平面上，以获取该虚拟平面上的该至少一二维虚拟坐标的步骤包括：

将该至少一关键点坐标的第一坐标分量乘上一深度比例，而获取该至少一二维虚拟坐标的第一坐标分量；以及

将该至少一关键点坐标的第二坐标分量乘上该深度比例，而获取该至少一二维虚拟坐标的第二坐标分量，其中该深度比例为该虚拟平面与该影像撷取装置之间的预设距深度比上该至少一关键点坐标的第三坐标分量。

4.如权利要求1所述的基于影像的手势控制方法，其特征在于，依据该至少一二维屏幕坐标对该影像中的该影像物体执行该操作的步骤包括：

对该影像进行语义分割操作，以获取该影像中的该影像物体的物体边界；

当该手势符合特定单指手势，判断对应于该至少一关键点坐标的该至少一二维屏幕坐标是否位于该物体边界之内；以及

若是，对该影像物体执行一选取操作。

5.如权利要求1所述的基于影像的手势控制方法，其特征在于，该至少一关键点坐标包括第一关键点坐标与第二关键点坐标，依据该至少一二维屏幕坐标对该影像中的该影像物体执行该操作的步骤包括：

当该手势符合特定双指手势，判断该第一关键点坐标与该第二关键点坐标之间的距离是否小于门槛值；

若是，对该影像物体开始执行一拖曳操作；以及

反应于该第一关键点坐标与该第二关键点坐标之间的距离大于另一门槛值，结束执行该拖曳操作。

6.一种电子装置，包括：

一影像撷取装置；

一显示屏幕；

一存储装置，记录有多个指令；以及

一处理器，耦接该显示屏幕、该影像撷取装置与该存储装置，经配置以：

通过该显示屏幕一影像；

通过该影像撷取装置对使用者手部撷取一手部影像；

依据该至少一二维屏幕坐标对该影像中的一影像物体执行一操作。

7.如权利要求6所述的电子装置，其特征在于，该处理器更经配置以：

8.如权利要求6所述的电子装置，其特征在于，该处理器更经配置以：

9.如权利要求6所述的电子装置，其特征在于，该处理器更经配置以：

当该手势符合单指手势，判断对应于该至少一关键点坐标的该至少一二维屏幕坐标是否位于该物体边界之内；以及

若是，对该影像物体执行一选取操作。

10.如权利要求6所述的电子装置，其特征在于，该至少一关键点坐标包括第一关键点坐标与第二关键点坐标，该处理器更经配置以：

当该手势符合双指手势，判断该第一关键点坐标与该第二关键点坐标之间的距离是否小于门槛值；

若是，对该影像物体执行一拖曳操作；以及