CN112784926A

CN112784926A - 一种手势交互的方法和系统

Info

Publication number: CN112784926A
Application number: CN202110175273.XA
Authority: CN
Inventors: 周春燕; 展华益
Original assignee: Sichuan Changhong Electric Co Ltd
Current assignee: Sichuan Changhong Electric Co Ltd
Priority date: 2021-02-07
Filing date: 2021-02-07
Publication date: 2021-05-11

Abstract

本发明公开了一种手势交互的方法，包含步骤：通过传感器获取图像数据；通过手形检测模型检测用户图像数据，得到手形1出现次数和频率，若次数和频率达到第一阈值，给予用户提示，启动手势交互；检测和跟踪手形2，并记录手形2的信息；根据手形2的运动轨迹与预定义手势轨迹进行匹配；根据匹配结果，对机器发送相应指令。本发明基于传感器采集图像数据，检测和识别手势形状并对手形进行跟踪，对不同动作分类。并且定义交互逻辑，实现一种不依赖其他手持设备的、方便自然的实时人机交互方式。提高了手势识别的处理速度和效率，减少误操作，达到手势识别的实时交互，并且不占用大量内存和计算资源。

Description

一种手势交互的方法和系统

技术领域

本发明属于人工智能领域，具体涉及图像处理，目标检测及跟踪，人机交互等内容，特别是一种手势交互的方法和系统。

背景技术

手势是人类自然交互中常用的一种肢体语言，它能够辅助语言表达，帮助人类更加通畅的交流。

近年来，随着人工智能技术和计算机视觉的进步，人机交互变得更加多样化，集多种交互方式为一体，自然方便的多模态交互方式逐渐成为主流。加之家用电器、电子设备上标配各种传感器，使得各种交互方式并行，并不局限于传统的输入、输出设备。当前的人机交互技术已经从过去交互主题适应交互客体，发展为交互客体不断地适应交互主体的习惯和以交互主体为中心的新阶段。以用户为中心的，新型、自然的人机交互技术逐渐成为开发者的研究重点。这类交互要求输入与输出能够最大限度地符合交互主体的行为习惯，并形成交互环路。

在相关技术中，存在基于深度摄像头、结构光摄像头等获取多维图像信息的传感器来实现手势交互，设备成本和计算成本较高；基于穿戴设备，如手套、手环等，对用户而言不够便捷；基于普通2D摄像头的传感器，成本低廉，易成为各种大屏设备如电视机的标配，基于此设备性能的手势交互，往往只是一些对实时性要求不高的手势动作，或者静态手势。

发明内容

为提高手势识别的处理速度和效率，减少误操作，达到手势识别的实时交互，并且不占用大量内存和计算资源，提出的一种手势交互方法和系统。

本发明的目的在于提供一种手势交互方法和系统，基于传感器采集图像数据，检测和识别手势形状并对手形进行跟踪，对不同动作分类。并且定义交互逻辑，实现一种不依赖其他手持设备的、方便自然的实时人机交互方式。本发明所采用的技术方案是：

一种手势交互方法，如图1所示，包含以下步骤：

S001、通过传感器获取用户图像数据；

进一步地，所述传感器包括但不限于可见光2D传感器或红外传感器。

S002、通过手形检测模型检测用户图像数据，得到手形1出现次数和频率若次数和频率达到第一阈值条件，给予用户提示，启动手势交互；

进一步地，所述手形检测算法，包括：

采集包含手形的图像样本，并进行标注；

选定深度学习网络，对所述图像样本进行训练，直至收敛，生成手形检测模型；

进一步地，还包括：

对所述用户数据图像的预处理，包括但不限于对图像标记mask或颜色转换或尺寸缩放；

进一步地，所述第一阈值条件，可根据实际经验值确定，优选地，可为40帧连续视频中检测到手形1次数大于35次；

进一步地，所述的用户提示，优选地，可为语音提示或文字提示或图形提示。

S003、检测和跟踪手形2，并记录手形2的信息；

进一步地，所述手形 2可与手形1为相同或不同手形；

进一步地，检测和跟踪手形2的步骤包括：

通过检测模型检测手形2；

计算当前帧手形2的外接矩形框与前一帧手形2的外接矩形框的IOU，若IOU大于第二阈值，优选地，可为0.3，则在当前帧矩形框的基础上扩大一定区域，优选地，如2倍大小，并对扩大后的矩形框做mask，若IOU不满足阈值条件，则重新开始全图像检测；

在下一帧图像的mask区域继续检测手形2；

记录手形2的相关信息，包括但不限于外接矩形框的中心点坐标，矩形框面积及轨迹信息；

更新mask区域。

S004、根据手形2的运动轨迹与预定义手势动作进行匹配；

进一步地，所述的预定义手势动作，包括单手上下左右移动，还包括双手相互间位置关系的变化。

S005、根据匹配结果，对机器发送相应指令，实现人机交互。

一种手势交互的系统，如图2所示，包含：

S1、启动模块，用于检测已定义手形1，并统计频率和次数；

进一步地，包括图像采集单元，通过传感器获取图像；

还包括，手形样本处理单元，采集和标注手形样本；

还包括，手形检测模型训练单元，训练手形检测模型，优选地，此模型可以为多类检测模型，同时检测多个手形；

还包括，手形检测检测单元，检测已定义手形1，并统计频率和次数是否达到阈值条件。

S2、识别模块，用于检测和跟踪手形2，统计手形2的信息；

进一步地，所述手形2与手形1可为相同手形或不同手形；

进一步地，还包括，计算前后两帧检测矩形框的IOU；若IOU不满足阈值条件，则重新全图像检测；

还包括，根据矩形框位置计算图像mask，基于mask图像区域检测和跟踪手形2；

还包括，记录手形2的相关信息，包括但不限于外接矩形框的中心点坐标，矩形框面积和轨迹信息。

S3、手势动作匹配模块，将检测到的手形运动轨迹与已定义手势动作进行匹配，若达到阈值条件，启动人机交互模块。

S4、人机交互模块，用于根据手势动作匹配结果，对机器发送相应指令。

附图说明

图1为手势交互的方法流程图。

图2为手势交互的系统框图。

具体实施方式

实施例一

下面将结合本发明实施例中附图，对本发明实施例中的一种手势交互的方法和系统进行清楚、完整地描述。显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。因此，以下对在附图中提供的本发明的实施例的详细描述并非旨在限制要求保护的本发明的范围，而是仅仅表示本发明的选定实施例。基于本发明的实施例，本领域技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明提供了一种手势交互的方法，如图1所示，包含以下步骤：

S001、通过传感器获取用户图像数据；

S002、通过手形检测模型检测用户图像数据，得到手形1出现次数和频率，若次数和频率达到第一阈值条件，给予用户提示，启动手势交互；

进一步地，所述手形检测算法，包括：

采集包含手形的图像样本，并进行标注；

进一步地，检测手形1之前还包括：

进一步地，所述第一阈值条件，可根据实际经验值确定，所述的用户提示，优选地，可为语音提示或文字提示或图形提示。

S003、检测和跟踪手形2，并记录手形2的信息；

进一步地，所述手形 2可与手形1为相同或不同手形；

进一步地，检测和跟踪手形2的步骤包括：

通过检测模型检测手形2；

在下一帧图像的mask区域继续检测手形2；

记录手形2的相关信息，包括但不限于外接矩形框的中心点坐标，矩形框面积和运动轨迹信息；

更新mask区域。

S004、根据手形2的运动轨迹与预定义手势动作进行匹配；

进一步地，所述预定义手势动作，包括单手上下左右移动，还包括双手相互间位置关系的变化。

S005、根据匹配结果，对机器发送相应指令，实现人机交互。

本发明实施例一的有益效果：本发明所述的一种手势交互的方法，能够通过对用户的手形的检测，启动手势交互，再进一步通过mask方式对手形的检测和跟踪，实现对手部动作的定义，判断用户手势操作意图，实现不借助于外设的实时人机自然交互方式。

实施例二

本发明提供了一种手势交互的系统，如图2所示，包含：

S1：启动模块，用于检测已定义手形1，并统计频率和次数；

进一步地，包括图像采集单元，通过传感器获取图像；

进一步地，包括手形样本处理单元，采集和标注手形样本；

S2：识别模块，用于检测和跟踪手形2，记录手形2的信息；

进一步地，所述手形2与手形1可为相同手形或不同手形；

还包括，记录手形2的相关信息，包括但不限于外接矩形框的中心点坐标，矩形框面积和运动轨迹信息。

S3：手势动作匹配模块，将检测到的手形运动轨迹与已定义手势动作进行匹配，若达到阈值条件，启动人机交互。

S4：人机交互模块，用于根据手势动作匹配结果，对机器发送相应指令。

本发明实施例二的有益效果：本发明所述的一种手势交互的系统，能够通过几个模块的相互协作，以最低资源消耗，最终实现人机之间的实时的自然手势交互。

本领域普通技术人员可以理解，实现上述实施例方法中的全部或部分流程是可以通过程序来指令相关的硬件来完成，所述的程序可以存储于计算机可读取存储介质中，该程序在执行时，可包括如上各方法的实施例的流程。其中，所述的存储介质可为磁碟、光盘、只读存储记忆体（Read-OnlyMemory,ROM）或随机存储记忆体（Random Access Memory,RAM）等。

以上所述仅为本发明的优选实施例而已，并不用于限制本发明，对于本领域的技术人员来说，本发明可以有各种更改和变化。凡在本发明的精神和原则之内所作的任何修改、等同替换、改进等，均应包括在本发明的保护范围之内。

Claims

1.一种手势交互的方法，其特征在于，包含以下步骤：

S001、通过传感器获取图像数据；

S002、通过手形检测模型检测用户图像数据，得到手形1出现次数和频率，若次数和频率达到第一阈值，给予用户提示，启动手势交互；

S003、检测和跟踪手形2，并记录手形2的信息；

S004、根据手形2的运动轨迹与预定义手势轨迹进行匹配；

S005、根据匹配结果，对机器发送相应指令。

2.如权利要求1所述的一种手势交互的方法，其特征在于，S001中所述的传感器包括但不限于可见光2D传感器或红外传感器。

3.如权利要求1所述的一种手势交互的方法，其特征在于，S002之前还包括如下步骤：

采集包含手形的图像样本，并进行标注；

选定深度学习网络，对所述图像样本进行训练，直至收敛，生成手形检测模型。

4.如权利要求1所述的一种手势交互的方法，其特征在于，S002之前还包括如下步骤：

对所述用户数据图像的预处理，包括但不限于对图像标记mask或颜色转换或尺寸缩放。

5.如权利要求1所述的一种手势交互的方法，其特征在于，S002中所述第一阈值条件，为40帧连续视频中检测到手形1次数大于35次。

6.如权利要求1所述的一种手势交互的方法，其特征在于S002中所述用户提示为语音提示、文字提示、图形提示中的一种或多种。

7.如权利要求1所述的一种手势交互的方法，其特征在于，S003中所述的检测和跟踪手形2，并记录手形2的信息，具体步骤包括：

通过检测模型检测手形2；

计算当前帧手形2的外接矩形框与前一帧手形2的外接矩形框的IOU，若IOU大于第二阈值，则在当前帧矩形框的基础上扩大一定区域，优选地，并对扩大后的矩形框做mask，若IOU不满足阈值条件，则重新开始全图像检测；

在下一帧图像的mask区域继续检测手形2;

记录手形2的相关信息。

8.如权利要求1所述的一种手势交互的方法，其特征在于，所述的手形2，可以与手形1为相同手形或不同手形。

9.如权利要求1所述的一种手势交互的方法，其特征在于，S003中所述的记录手形2的信息，包括但不限于记录外接矩形框的中心点坐标、矩形框面积及运行轨迹。

10.如权利要求1所述的一种手势交互的方法，其特征在于，S004中所述的预定义手势动作，包括单手上下左右移动，还包括双手相互间位置关系的变化。

11.一种手势交互的系统，其特征在于所述系统，包含如下模块：

启动模块，用于检测已定义手形1，并统计频率和次数；

识别模块，用于检测和跟踪手形2，统计手形运动轨迹坐标；

手势动作匹配模块，将检测到的手形运动轨迹与预定义手势动作进行匹配；

人机交互模块，用于根据手势动作匹配结果，对机器发送相应指令。

12.如权利要求11所述的一种手势交互的系统，其特征在于，所述的启动模块，包括：

手形样本处理单元，采集和标注手形样本；

手形检测模型训练单元，训练手形检测模型，此模型可以为多类检测模型，同时检测多个手形；

手形检测检测单元，检测已定义手形1，统计频率和次数判断是否达到阈值条件。

13.如权利要求11所述的一种手势交互的系统，其特征在于，所述识别模块，包括，

IOU计算单元，计算前后两帧检测矩形框的IOU；若IOU不满足阈值条件，则重新全图像检测；

检测跟踪单元，根据矩形框位置计算图像mask，基于mask图像区域检测和跟踪手形2；

信息记录单元，记录手形2的相关信息，包括但不限于外接矩形框的中心点坐标，矩形框面积及运动轨迹。