CN112383805A

CN112383805A - 一种基于人手关键点实现电视端人机交互的方法

Info

Publication number: CN112383805A
Application number: CN202011278836.XA
Authority: CN
Inventors: 邹军; 谢涛; 高岚
Original assignee: Sichuan Changhong Electric Co Ltd
Current assignee: Sichuan Changhong Electric Co Ltd
Priority date: 2020-11-16
Filing date: 2020-11-16
Publication date: 2021-02-19

Abstract

本发明公开了一种基于人手关键点实现电视端人机交互的方法，包括：采用SSD检测网络检测采集图像，当检测到采集图像中存在设定的人手图像时，检测人手图像中的人手关键点，输出人手关键点的位置，并回归手部的大致位置作为手部跟踪的检测区域，在检测区域中进行人手关键点检测，输出人手关键点；根据检测到的人手关键点确定手势，电视启动手势操作功能，并根据人手关键点的变化，执行相应的动作指令。本发明根据当前图像中检测到的特定手势及预先设定的特定手势绑定的意图，在电视端实现英文字符输入或空鼠功能，从而实现人与电视的交互，克服了语音易受环境噪音影响和对网络依赖的问题，且能够提高静态手势人机的交互性的成功率。

Description

一种基于人手关键点实现电视端人机交互的方法

技术领域

本发明涉及机器视觉技术领域，具体的说，是一种基于人手关键点实现电视端人机交互的方法。

背景技术

目前电视端的交换方式主要有基于遥控器的交互、基于语音的交互以及基于手机APP的交互等，其中基于遥控器的交互，只能根据遥控器的设计的按钮进行交互，无法实现使用者的快速交互需求；基于语音的交互，根据用户喜好，自定义某些交互语句，但该方式易受环境音的影响，且其识别模型较大，需要在云端运行，当网络不好时，会导致交互延时增加，导致不好的体验；基于手机APP的交互，需要手机和电视在同一个网段才行，这种方式对老年使用者不太友好。

基于此，电视端出现了第四种人机交互的方式，基于手势的交互方式，但目前采用较多的是基于静态手势的交互方式，该种方式需要使用者在电视前使用特定手势进行交互，交互的成功率，伴随手势定义的增多，而逐渐下降。

发明内容

本发明的目的在于提供一种基于人手关键点实现电视端人机交互的方法，用于解决现有技术中采用基于静态手势的交互方式，随着手势定义的增多导致交互的成功率下降的问题。

本发明通过下述技术方案解决上述问题：

一种基于人手关键点实现电视端人机交互的方法，包括：

步骤S100：采用SSD检测网络检测采集图像，当检测到采集图像中存在设定的人手图像时，进入下一步；

步骤S200：检测人手图像中的人手关键点，输出人手关键点的位置，并回归手部的大致位置作为手部跟踪的检测区域，在检测区域中进行人手关键点检测，输出人手关键点；

步骤S300：根据检测到的人手关键点确定手势，电视启动手势操作功能，并根据人手关键点的变化，执行相应的动作指令。

所述步骤S200具体包括：

步骤S210：采用人手关键点检测算法对人手关键点进行检测，输出人手关键点的位置；

步骤S220：由人手关键点位置回归出手部的大致位置，作为手部跟踪算法的预检测框，采用手部跟踪算法在预检测框内检测、跟踪人手，并回归新的手部区域位置；

步骤S230：采用人手关键点检测算法对新的手部区域位置进行人手关键点检测，输出人手关键点。

所述步骤S300中的人手关键点包括手腕关键点及每根手指上的MCP关键点、PIP关键点、DIP关键点和TIP关键点，

当检测到人手关键点由设定手势变换为仅食指和中指的关键点，启动空鼠功能，使用者移动手部食指的TIP关键点和中指的TIP关键点，到功能实现区域；待功能区域呈现被选择的状态后，识别到食指和中指模拟点击鼠标动作实现确认操作，实现空鼠确认功能；

当检测到人手关键点由设定手势变换为仅食指的关键点，则启动英文字符输入功能，电视跳转到搜索功能选择界面，识别食指的关键点的移动方向和移动距离，定位到对应的搜索选项，识别食指的关键点的点击确认操作，进入相关搜索字符输入界面，在字符输入界面进行手写字符输入；识别手写的字符并转换为程序可识别的字符，并将其输入到搜索框内；字符输入完成后，识别食指的关键点的点击确认操作，结束字符的输入；

当检测到人手关键点由设定手势变换为无名指的TIP关键点和拇指的TIP关键点重合，且呈左右移动或上下移动时，控制播放的视频源进行开进/后退或控制电视音量调大/调小；

当检测到人手关键点由设定手势变换为食指的TIP关键点和拇指的TIP关键点重合，且在设定时间内移动距离小于阈值，则电视响应待机命令。

本发明与现有技术相比，具有以下优点及有益效果：

(1)本发明能够根据当前图像中检测到的特定手势，并根据预先设定的特定手势绑定的意图，在电视端实现英文字符输入或空鼠功能，从而实现人与电视的交互，克服了语音易受环境噪音影响和对网络依赖的问题，且能够提高静态手势人机的交互性的成功率。

(2)本发明使用机器学习技术，能够实时检测用户手势，并检测用户人手关键点，实现用户与电视的交互，去除了第三方工具的使用，增加用户的交互体验。

附图说明

图1为本发明的人手关键点检测和跟踪的流程图；

图2为人手关键点实现空鼠功能的流程图；

图3为人手关键点实现字符输入功能的流程图；

图4为人手关键点位置分布示意图；

图5为功能手势示意图。

具体实施方式

下面结合实施例对本发明作进一步地详细说明，但本发明的实施方式不限于此。

实施例：

结合附图1所示，一种基于人手关键点实现电视端人机交互的方法，包括：

结合附图2和图3所示，所述步骤S200具体包括：

人手关键点分布如图4后，包括0号关键点(即手腕关键点)及1号关键点(拇指上的MCP关键点)、2号关键点(拇指上的PIP关键点)、3号关键点(拇指上的DIP关键点)、4号关键点(拇指上的TIP关键点)、5号关键点～8号关键点依次对应食指上的MCP关键点、PIP关键点、DIP关键点和TIP关键点，9号关键点～12号关键点依次对应中指上的MCP关键点、PIP关键点、DIP关键点和TIP关键点，13号关键点～16号关键点依次对应无名指上的MCP关键点、PIP关键点、DIP关键点和TIP关键点，17号关键点～20号关键点依次对应小指上的MCP关键点、PIP关键点、DIP关键点和TIP关键点。

当接下来的手势如图5中d所示，此时为空鼠超控手势，使用者可以移动手部食指和中指指尖到功能实现区域；待功能区域呈现被选择的状态后，通过检测8号关键点(食指指尖)和12号关键点(中指指尖)的操作，识别食指指尖和中指指尖模拟点击鼠标动作实现确认操作，从而实现空鼠确认功能。

当接下来的手势如图5中a所示，此时为字符输入手势，进入搜索功能界面，移动关键点到待选择搜索功能选项区域，模拟点击待选择区域，进入字符输入界面，移动食指关键点进行手写字符输入，实时跟踪手部8号关键点位置的轨迹，并根据其绘制的轨迹，手写字符识别网络将手写字符转换为程序可以识别的字符，并输入到搜索框内，实现字符的输入，从而实现用户意图的识别。

当接下来的手势如图5中b所示，此时为电视音量或快进手势，则根据16号关键点、4号关键点位置的左右移动对播放视频资源进行快进。或者是根据16号关键点、4号关键点位置的上下移动，进行电视音量调节；

当接下来的手势如图5中c所示，此时为电视待机手势，则根据8号关键点、4号关键点位置在1s内是否一致小于某阈值，若是，则会响应待机命令。

通过手部跟踪和关键点检测，能够在电视端实现空鼠功能和字符输入功能，扩展电视功能的同时，能够进一步提升用户的使用体验。

尽管这里参照本发明的解释性实施例对本发明进行了描述，上述实施例仅为本发明较佳的实施方式，本发明的实施方式并不受上述实施例的限制，应该理解，本领域技术人员可以设计出很多其他的修改和实施方式，这些修改和实施方式将落在本申请公开的原则范围和精神之内。

Claims

1.一种基于人手关键点实现电视端人机交互的方法，其特征在于，包括：

步骤S100：采用SSD检测网络检测采集图像，当检测到采集图像中存在设定的手势时，进入下一步；

步骤S200：采用LandMark检测人手关键点，输出人手关键点的位置，并回归人手大致位置作为手部跟踪的检测区域，在检测区域中进行人手关键点检测，输出人手关键点；

步骤S300：由输出的人手关键点的位置确定手势，当手势为超控手势时，电视启动手势超控功能，并根据输出的人手关键点的变化识别用户操作意图，转化为相应的超控指令并执行。

2.根据权利要求1所述的一种基于人手关键点实现电视端人机交互的方法，其特征在于，所述步骤S200具体包括：

3.根据权利要求1所述的一种基于人手关键点实现电视端人机交互的方法，其特征在于，所述步骤S300中的人手关键点包括手腕关键点及每根手指上的MCP关键点、PIP关键点、DIP关键点和TIP关键点，