CN108399009A

CN108399009A - 利用人机交互手势唤醒智能设备的方法及装置

Info

Publication number: CN108399009A
Application number: CN201810153143.4A
Authority: CN
Inventors: 田泽康; 李辉芳; 邓卉; 谢建
Original assignee: Yi Teng Teng Polytron Technologies Inc
Current assignee: Yi Teng Teng Polytron Technologies Inc
Priority date: 2018-02-11
Filing date: 2018-02-11
Publication date: 2018-08-14

Abstract

本发明涉及一种利用人机交互手势唤醒智能设备的方法，包括如下步骤：利用摄像头对用户进行拍摄，获取拍摄图像；利用人脸分类器对所述的拍摄图像进行人脸检测，获取人脸框列表；根据统计的多人静音手势与人脸比例参数，设置手势检测区域列表；在手势检测区域进行静音手势检测，如若检测到目标，则设置静音信号Is_Mute为true；如若没有检测到所述目标，则设置所述静音信号Is_Mute为false；将所述静音信号Is_Mute传入后台，判断静音信号Is_Mute为true时，暂停当前播放视屏或广播，在所述后台启动语音识别功能；判断静音信号Is_Mute为false时，对下一帧数据进行处理。还提供了对应的装置，利用手势唤醒，减少了与语音的混淆。

Description

利用人机交互手势唤醒智能设备的方法及装置

技术领域

本发明属于图像处理技术领域，具体涉及一种利用人机交互手势唤醒智能设备的方法及装置。

背景技术

随着各种语音唤醒技术的飞速发展，目前市场上大多数都采用语音唤醒语音功能技术。如今智能设备飞速发展，如何将智能设备与唤醒技术结合，从而提供更加方便快捷和人性化的服务是值得探讨的问题。设置特定的语音来启动唤醒的功能在实际应用中容易让人与正常聊天混淆。

发明内容

本发明为了解决现有唤醒功能容易与语音混淆的问题，本发明提供了一种利用人机交互手势唤醒智能设备的方法，包括如下步骤：

S110、利用设备的摄像头对用户进行拍摄，将当前时刻拍摄到的图像存为Image；

S120、使用现有常规技术如Haar人脸检测，在图像Image中检测出所有超过预设大小 Face_Size的人脸矩形列表Face_Rect_List；预设大小的定义可为尺寸大小，具体可用长宽方向上的像素数量来表征。

S130、根据统计的多人静音手势与人脸比例参数，基于返回的人脸框列表Face_Rect_List 设置手势检测的感兴趣区域Rect_Roi_List；

S140、在手势检测的感兴趣区域Rect_Roi_List中进行静音手势检测，如若检测到目标，则返回值Is_Mute为true并进入步骤S150；如若没有检测到则Is_Mute为false并进入步骤 S120；

S150、将所述静音信号Is_Mute传入后台，判断静音信号Is_Mute为true时，暂停当前播放视屏或广播，在所述后台启动语音识别功能；判断静音信号Is_Mute为false时，执行步骤 S120，对下一帧数据进行处理。

进一步地，所述步骤S120包括：

将所述拍摄图像进行预处理转换成灰度图像，将所述灰度图像作为输入，使用Haar分类器进行检测，若检测到人脸，则返回人脸的坐标参数，并进入到步骤S130；若没有检测到人脸，则进入步骤S120，处理下一帧拍摄图像；其中，所述人脸框Face_Rect的定义为[face_x， face_y，face_width，face_height]，face_x为人脸框的左上角的x坐标，face_y为人脸框的左上角的y坐标，face_width为人脸框的宽，face_height为人脸框的高。

进一步地，所述步骤S130中，所述人脸矩形列表Face_Rect_List由多个人脸框Face_Rect 组成，其中Face_Rect的定义为[face_x-0.1*face_width，face_y+face_height，1.2*face_width， 1.4*face_height]，对每个人脸框Face_Rect生成手势检测区域Rect_Roi。

进一步地，所述步骤S140包括：

使用Sliding Window的方式遍历手势检测区域Rect_Roi_List从而得到多个候选框，将所述候选框输入到静音检测模型中进行检测。若检测到目标做了静音的动作，则设置静音信号 Is_Mute为true，反之则设置静音信号Is_Mute为false。

进一步地，所述静音检测模型为基于opencv自带的Haar分类器进行训练得到的模型。

另一方面，本发明还提供了一种利用人机交互手势唤醒智能设备的装置，包括后台运行装置，还包括：

拍摄图像获取装置，用于获取利用摄像头对用户进行拍摄所得的图像；

人脸框列表获取装置，用于利用人脸分类器对所述拍摄的图像进行人脸检测，获取尺寸超出预设大小的人脸框列表；

手势检测区域列表获取装置，用于根据统计的多人静音手势与人脸比例参数，基于返回的人脸框列表设置手势检测区域列表；

静音手势检测装置，用于在手势检测区域列表中的手势检测区域进行静音手势检测，如若检测到目标，则设置静音信号Is_Mute为true，如若没有检测到所述目标，则设置所述静音信号Is_Mute为false，并将所述静音信号Is_Mute传输给所述后台运行装置；

所述后台运行装置用于接收所述静音信号Is_Mute，判断所述静音信号Is_Mute为true时，暂停当前播放视屏或广播，在所述后台启动语音识别功能；判断所述静音信号Is_Mute为false 时，致使所述人脸框列表获取装置对下一帧数据进行处理。

进一步地，所述人脸框列表获取装置具体用于：

将所述拍摄图像进行预处理转换成灰度图像，将所述灰度图像作为输入，使用Haar分类器进行检测，若检测到人脸，则返回人脸的坐标参数，并将所述人脸框发送给所述手势检测区域列表获取装置；若没有检测到人脸，则对下一帧拍摄图像进行人脸检测；其中，所述人脸矩形列表Face_Rect_List由多个人脸框Face_Rect组成，其中Face_Rect的定义为[face_x， face_y，face_width，face_height]，face_x为人脸框的左上角的x坐标，face_y为人脸框的左上角的y坐标，face_width为人脸框的宽，face_height为人脸框的高。

进一步地，所述手势检测区域Rect_Roi_List由多个Rect_Roi组成，Rect_Roi的定义为 [face_x-0.1*face_width，face_y+face_height，1.2*face_width，1.4*face_height]，所述手势检测区域列表获取装置对每个人脸框Face_Rect生成手势检测区域Rect_Roi。

进一步地，所述静音手势检测装置具体用于：

通过上述实施例的技术方案，唤醒装置和方法仅用手势识别就能将设备唤醒，与语音区别开，减少了混淆的情况发生。

附图说明

通过参考附图会更加清楚的理解本发明的特征和优点，附图是示意性的而不应理解为对本发明进行任何限制，在附图中：

图1为本发明一些实施例中的唤醒手势定义示意图；

图2为本发明一些实施例中的唤醒设备流程示意图；

图3为本发明一些实施例中的唤醒手势解析流程示意图；

图4为本发明一些实施例中的利用人机交互手势唤醒智能设备的方法流程示意图；

图5为本发明一些实施例中的利用人机交互手势唤醒智能设备的装置结构示意图。

具体实施方式

为了能够更清楚地理解本发明的上述目的、特征和优点，下面结合附图和具体实施方式对本发明进行进一步的详细描述。需要说明的是，在不冲突的情况下，本申请的实施例及实施例中的特征可以相互组合。

在下面的描述中阐述了很多具体细节以便于充分理解本发明，但是，本发明还可以采用其他不同于在此描述的其他方式来实施，因此，本发明的保护范围并不受下面公开的具体实施例的限制。

本发明针对现有智能设备唤醒技术常常采用语音唤醒的所带来的易混淆问题，进行了改进，利用手势进行唤醒，例如利用食指靠拢嘴唇的手势来表达需要唤醒。

本发明提供了一种唤醒方法，包括如下步骤：

Step.1利用设备的摄像头对用户进行拍摄，将当前时刻拍摄到的图像存为Image；

智能设备在播放视屏、广播或其他操作的同时，摄像头采集实时影像并保存为Image。

Step.2使用现有常规技术如Haar人脸检测，在图像Image中检测出所有超过预设大小 Face_Size的人脸矩形列表Face_Rect_List；预设大小的定义可为尺寸大小，具体可用长宽方向上的像素数量来表征。

将Image进行预处理转换成灰度图像Image_Gray。Image_Gray作为输入，使用常规技术如Haar人脸检测进行检测，若检测到人脸，则返回人脸的坐标参数，并进入step.3；若没有检测到人脸，则进入step.2，处理下一帧数据；

其中Face_Rect_List由多个Face_Rect[face_x，face_y，face_width，face_height]组成。

Step.3根据统计的多人静音手势与人脸比例参数，基于返回的人脸框列表Face_Rect_List 设置手势检测的感兴趣区域Rect_Roi_List；

统计多人在做静音手势时相对于人脸检测框的比例参数，将统计得出的参数与人脸框进行处理得到手势检测感兴趣区域Rect_Roi其具体参数如下：

roi_x:face_x-0.1*face_width

roi_y:face_y+0.5*face_height

roi_width:1.2*face_width

roi_height:1.4*face_height

每个返回的人脸框Face_Rect均会生成一个Rect_Roi，由它们共同组成Rect_Roi_List；

其静音手势的准确定义如图1所示。

Step.4在手势检测的感兴趣区域Rect_Roi_List中进行静音手势检测，如若检测到目标，则返回值Is_Mute为true并进入step.5；如若没有检测到则Is_Mute为false并进入step.2；

使用Sliding Window(滑动窗口)的方式遍历手势检测区域Rect_Roi_List从而得到多个候选框，将候选框输入到静音检测模型中进行检测。若检测到目标做了静音的动作，则返回值Is_Mute设置为true，反之则返回false；

静音检测模型主要基于opencv自带的Haar分类器进行训练得到的模型(Haar分类器针对Haar特征进行分类)。

Step.5将静音信号传入后台，若Is_Mute为true，则暂停当前播放视屏或广播，在后台启动语音识别功能；若为false，则不做任何响应并进入step.2。

本发明的人机交互手势唤醒的流程如图2所示，首先设备加载唤醒资源，然后用户发出静音手势指令，设备对静音手势指令进行解析，最终判定接收到指令，从休眠状态中被唤醒，并给出指定的响应。其中，静音手势指令解析的过程如图3所示，用户发出静音指令之后，设备进行人脸检测，检测到人脸之后，根据人脸位置设置手势检测区域，进行静音手势检测，最终判断手势为静音手势时，确定设备被唤醒，设备接收指令。

具体地，如图4所示，本发明的实施例提供了一种利用人机交互手势唤醒智能设备的方法，包括如下步骤：

S110、利用设备的摄像头对用户进行拍摄，将当前时刻拍摄到的图像存为Image。智能设备在播放视屏、广播或其他操作的同时，摄像头采集实时影像并保存为Image。

S120、利用人脸分类器对所述的拍摄图像进行人脸检测，获取尺寸超出预设大小的人脸框列表。使用现有常规技术如Haar人脸检测，在图像Image中检测出所有超过预设大小 Face_Size的人脸矩形列表Face_Rect_List。

S130、根据统计的多人静音手势与人脸比例参数，基于返回的人脸框列表Face_Rect_List 设置手势检测的感兴趣区域Rect_Roi_List。

S150、将所述静音信号Is_Mute传入后台，判断静音信号Is_Mute为true时，暂停当前播放视屏或广播，在所述后台启动语音识别功能；判断静音信号Is_Mute为false时，不做任何响应执行步骤S120，对下一帧数据进行处理。

进一步地，所述步骤S120包括：

优选地，所述步骤S130中，所述手势检测区域Rect_Roi_List由多个Rect_Roi组成， Rect_Roi的定义为[face_x-0.1*face_width，face_y+face_height，1.2*face_width，1.4*face_height]，对每个人脸框Face_Rect生成手势检测区域Rect_Roi。

所述步骤S140包括：

所述静音检测模型为基于opencv自带的Haar分类器进行训练得到的模型。

本发明实施例中的唤醒装置仅用手势识别就能将设备唤醒，与语音区别开，减少了混淆的情况发生。

另一方面，如图5所示，本发明实施例还提供了一种利用人机交互手势唤醒智能设备的装置100，包括后台运行装置110，还包括拍摄图像获取装置120、人脸框列表获取装置130、手势检测区域列表获取装置140和静音手势检测装置150：其中，

拍摄图像获取装置120用于获取利用摄像头对用户进行拍摄所得的图像。

人脸框列表获取装置130用于利用人脸分类器对所述的拍摄图像进行人脸检测，获取尺寸超出预设大小的人脸框列表。人脸框列表获取装置130将所述拍摄图像进行预处理转换成灰度图像，将所述灰度图像作为输入，使用Haar分类器进行检测，若检测到人脸，则返回人脸的坐标参数，并将所述人脸框发送给所述手势检测区域列表获取装置；若没有检测到人脸，则对下一帧拍摄图像进行人脸检测；其中，所述人脸框Face_Rect的定义为[face_x，face_y， face_width，face_height]，face_x为人脸框的左上角的x坐标，face_y为人脸框的左上角的y 坐标，face_width为人脸框的宽，face_height为人脸框的高。

手势检测区域列表获取装置140用于根据统计的多人静音手势与人脸比例参数，基于返回的人脸框列表设置手势检测区域列表；所述手势检测区域Rect_Roi_List由多个Rect_Roi 组成，Rect_Roi的定义为[face_x-0.1*face_width，face_y+face_height，1.2*face_width， 1.4*face_height]，所述手势检测区域列表获取装置140对每个人脸框Face_Rect生成手势检测区域Rect_Roi。

静音手势检测装置150用于在手势检测区域列表中的手势检测区域进行静音手势检测，如若检测到目标，则设置静音信号Is_Mute为true，如若没有检测到所述目标，则设置所述静音信号Is_Mute为false，并将所述静音信号Is_Mute传输给所述后台运行装置；所述静音手势检测装置150使用Sliding Window的方式遍历手势检测区域Rect_Roi_List从而得到多个候选框，将所述候选框输入到静音检测模型中进行检测。若检测到目标做了静音的动作，则设置静音信号Is_Mute为true，反之则设置静音信号Is_Mute为false。所述静音检测模型为基于 opencv自带的Haar分类器进行训练得到的模型。

所述后台运行装置110用于接收所述静音信号Is_Mute，判断所述静音信号Is_Mute为true 时，暂停当前播放视屏或广播，在所述后台启动语音识别功能；判断所述静音信号Is_Mute 为false时，致使所述人脸框列表获取装置对下一帧数据进行处理。

本发明中的装置100可为智能设备，如智能手机、智能电视等。本发明中的装置100通过检测手势，识别手势为唤醒手势时，将设备唤醒，减少了与语音混淆的情况发生。

在本发明中，术语“第一”、“第二”、“第三”仅用于描述目的，而不能理解为指示或暗示相对重要性。术语“多个”指两个或两个以上，除非另有明确的限定。

以上所述仅为本发明的优选实施例而已，并不用于限制本发明，对于本领域的技术人员来说，本发明可以有各种更改和变化。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种利用人机交互手势唤醒智能设备的方法，其特征在于，包括如下步骤：

S120、使用Haar进行人脸检测，在图像Image中检测出所有超过预设大小Face_Size的人脸矩形列表Face_Rect_List；预设大小的定义可为尺寸大小，具体可用长宽方向上的像素数量来表征；

S130、根据统计的多人静音手势与人脸比例参数，基于返回的人脸框列表Face_Rect_List设置手势检测的感兴趣区域Rect_Roi_List；

S140、在手势检测的感兴趣区域Rect_Roi_List中进行静音手势检测，如若检测到目标，则返回值Is_Mute为true并进入步骤S150；如若没有检测到则Is_Mute为false并进入步骤S120；

S150、将所述静音信号Is_Mute传入后台，判断静音信号Is_Mute为true时，暂停当前播放视屏或广播，在所述后台启动语音识别功能；判断静音信号Is_Mute为false时，执行步骤S120，对下一帧数据进行处理。

2.根据权利要求1所述的利用人机交互手势唤醒智能设备的方法，其特征在于，所述步骤S120包括：

将所述拍摄图像进行预处理转换成灰度图像，将所述灰度图像作为输入，使用Haar分类器进行检测，若检测到人脸，则返回人脸的坐标参数，并进入到步骤S130；若没有检测到人脸，则进入步骤S120，处理下一帧拍摄图像；其中，所述人脸矩形列表Face_Rect_List由多个人脸框Face_Rect组成，其中Face_Rect的定义为[face_x，face_y，face_width，face_height]，face_x为人脸框的左上角的x坐标，face_y为人脸框的左上角的y坐标，face_width为人脸框的宽，face_height为人脸框的高。

3.根据权利要求2所述的利用人机交互手势唤醒智能设备的方法，其特征在于，所述步骤S130中，所述手势检测区域Rect_Roi_List由多个Rect_Roi组成，Rect_Roi的定义为[face_x-0.1*face_width，face_y+face_height，1.2*face_width，1.4*face_height]，对每个人脸框Face_Rect生成手势检测区域Rect_Roi。

4.根据权利要求3所述的利用人机交互手势唤醒智能设备的方法，其特征在于，所述步骤S140包括：

使用Sliding Window的方式遍历手势检测区域Rect_Roi_List从而得到多个候选框，将所述候选框输入到静音检测模型中进行检测；若检测到目标做了静音的动作，则设置静音信号Is_Mute为true，反之则设置静音信号Is_Mute为false。

5.根据权利要求4所述的利用人机交互手势唤醒智能设备的方法，其特征在于，所述静音检测模型为基于opencv自带的Haar分类器进行训练得到的模型。

6.一种利用人机交互手势唤醒智能设备的装置，包括后台运行装置，其特征在于，还包括：

所述后台运行装置用于接收所述静音信号Is_Mute，判断所述静音信号Is_Mute为true时，暂停当前播放视屏或广播，在所述后台启动语音识别功能；判断所述静音信号Is_Mute为false时，致使所述人脸框列表获取装置对下一帧数据进行处理。

7.根据权利要求6所述的利用人机交互手势唤醒智能设备的装置，其特征在于，所述人脸框列表获取装置具体用于：

将所述拍摄图像进行预处理转换成灰度图像，将所述灰度图像作为输入，使用Haar分类器进行检测，若检测到人脸，则返回人脸的坐标参数，并将所述人脸框发送给所述手势检测区域列表获取装置；若没有检测到人脸，则对下一帧拍摄图像进行人脸检测；其中，所述人脸框Face_Rect的定义为[face_x，face_y，face_width，face_height]，face_x为人脸框的左上角的x坐标，face_y为人脸框的左上角的y坐标，face_width为人脸框的宽，face_height为人脸框的高。

8.根据权利要求7所述的利用人机交互手势唤醒智能设备的装置，其特征在于，所述步骤S130中，所述手势检测区域Rect_Roi_List由多个Rect_Roi组成，Rect_Roi的定义为[face_x-0.1*face_width，face_y+face_height，1.2*face_width，1.4*face_height]，所述手势检测区域列表获取装置对每个人脸框Face_Rect生成手势检测区域Rect_Roi。

9.根据权利要求8所述的利用人机交互手势唤醒智能设备的装置，其特征在于，所述静音手势检测装置具体用于：

10.根据权利要求9所述的利用人机交互手势唤醒智能设备的装置，其特征在于，所述静音检测模型为基于opencv自带的Haar分类器进行训练得到的模型。