CN112383805A - 一种基于人手关键点实现电视端人机交互的方法 - Google Patents
一种基于人手关键点实现电视端人机交互的方法 Download PDFInfo
- Publication number
- CN112383805A CN112383805A CN202011278836.XA CN202011278836A CN112383805A CN 112383805 A CN112383805 A CN 112383805A CN 202011278836 A CN202011278836 A CN 202011278836A CN 112383805 A CN112383805 A CN 112383805A
- Authority
- CN
- China
- Prior art keywords
- hand
- key point
- human hand
- key points
- human
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/40—Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
- H04N21/41—Structure of client; Structure of client peripherals
- H04N21/422—Input-only peripherals, i.e. input devices connected to specially adapted client devices, e.g. global positioning system [GPS]
- H04N21/42204—User interfaces specially adapted for controlling a client device through a remote control device; Remote control devices therefor
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F3/00—Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
- G06F3/01—Input arrangements or combined input and output arrangements for interaction between user and computer
- G06F3/017—Gesture based interaction, e.g. based on a set of recognized hand gestures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/46—Descriptors for shape, contour or point-related descriptors, e.g. scale invariant feature transform [SIFT] or bags of words [BoW]; Salient regional features
- G06V10/462—Salient features, e.g. scale invariant feature transforms [SIFT]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/20—Movements or behaviour, e.g. gesture recognition
- G06V40/28—Recognition of hand or arm movements, e.g. recognition of deaf sign language
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/40—Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
- H04N21/41—Structure of client; Structure of client peripherals
- H04N21/422—Input-only peripherals, i.e. input devices connected to specially adapted client devices, e.g. global positioning system [GPS]
- H04N21/42204—User interfaces specially adapted for controlling a client device through a remote control device; Remote control devices therefor
- H04N21/42206—User interfaces specially adapted for controlling a client device through a remote control device; Remote control devices therefor characterized by hardware details
- H04N21/42212—Specific keyboard arrangements
- H04N21/42213—Specific keyboard arrangements for facilitating data entry
Landscapes
- Engineering & Computer Science (AREA)
- Human Computer Interaction (AREA)
- Multimedia (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- General Engineering & Computer Science (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- Social Psychology (AREA)
- Psychiatry (AREA)
- General Health & Medical Sciences (AREA)
- User Interface Of Digital Computer (AREA)
Abstract
本发明公开了一种基于人手关键点实现电视端人机交互的方法,包括:采用SSD检测网络检测采集图像,当检测到采集图像中存在设定的人手图像时,检测人手图像中的人手关键点,输出人手关键点的位置,并回归手部的大致位置作为手部跟踪的检测区域,在检测区域中进行人手关键点检测,输出人手关键点;根据检测到的人手关键点确定手势,电视启动手势操作功能,并根据人手关键点的变化,执行相应的动作指令。本发明根据当前图像中检测到的特定手势及预先设定的特定手势绑定的意图,在电视端实现英文字符输入或空鼠功能,从而实现人与电视的交互,克服了语音易受环境噪音影响和对网络依赖的问题,且能够提高静态手势人机的交互性的成功率。
Description
技术领域
本发明涉及机器视觉技术领域,具体的说,是一种基于人手关键点实现电视端人机交互的方法。
背景技术
目前电视端的交换方式主要有基于遥控器的交互、基于语音的交互以及基于手机APP的交互等,其中基于遥控器的交互,只能根据遥控器的设计的按钮进行交互,无法实现使用者的快速交互需求;基于语音的交互,根据用户喜好,自定义某些交互语句,但该方式易受环境音的影响,且其识别模型较大,需要在云端运行,当网络不好时,会导致交互延时增加,导致不好的体验;基于手机APP的交互,需要手机和电视在同一个网段才行,这种方式对老年使用者不太友好。
基于此,电视端出现了第四种人机交互的方式,基于手势的交互方式,但目前采用较多的是基于静态手势的交互方式,该种方式需要使用者在电视前使用特定手势进行交互,交互的成功率,伴随手势定义的增多,而逐渐下降。
发明内容
本发明的目的在于提供一种基于人手关键点实现电视端人机交互的方法,用于解决现有技术中采用基于静态手势的交互方式,随着手势定义的增多导致交互的成功率下降的问题。
本发明通过下述技术方案解决上述问题:
一种基于人手关键点实现电视端人机交互的方法,包括:
步骤S100:采用SSD检测网络检测采集图像,当检测到采集图像中存在设定的人手图像时,进入下一步;
步骤S200:检测人手图像中的人手关键点,输出人手关键点的位置,并回归手部的大致位置作为手部跟踪的检测区域,在检测区域中进行人手关键点检测,输出人手关键点;
步骤S300:根据检测到的人手关键点确定手势,电视启动手势操作功能,并根据人手关键点的变化,执行相应的动作指令。
所述步骤S200具体包括:
步骤S210:采用人手关键点检测算法对人手关键点进行检测,输出人手关键点的位置;
步骤S220:由人手关键点位置回归出手部的大致位置,作为手部跟踪算法的预检测框,采用手部跟踪算法在预检测框内检测、跟踪人手,并回归新的手部区域位置;
步骤S230:采用人手关键点检测算法对新的手部区域位置进行人手关键点检测,输出人手关键点。
所述步骤S300中的人手关键点包括手腕关键点及每根手指上的MCP关键点、PIP关键点、DIP关键点和TIP关键点,
当检测到人手关键点由设定手势变换为仅食指和中指的关键点,启动空鼠功能,使用者移动手部食指的TIP关键点和中指的TIP关键点,到功能实现区域;待功能区域呈现被选择的状态后,识别到食指和中指模拟点击鼠标动作实现确认操作,实现空鼠确认功能;
当检测到人手关键点由设定手势变换为仅食指的关键点,则启动英文字符输入功能,电视跳转到搜索功能选择界面,识别食指的关键点的移动方向和移动距离,定位到对应的搜索选项,识别食指的关键点的点击确认操作,进入相关搜索字符输入界面,在字符输入界面进行手写字符输入;识别手写的字符并转换为程序可识别的字符,并将其输入到搜索框内;字符输入完成后,识别食指的关键点的点击确认操作,结束字符的输入;
当检测到人手关键点由设定手势变换为无名指的TIP关键点和拇指的TIP关键点重合,且呈左右移动或上下移动时,控制播放的视频源进行开进/后退或控制电视音量调大/调小;
当检测到人手关键点由设定手势变换为食指的TIP关键点和拇指的TIP关键点重合,且在设定时间内移动距离小于阈值,则电视响应待机命令。
本发明与现有技术相比,具有以下优点及有益效果:
(1)本发明能够根据当前图像中检测到的特定手势,并根据预先设定的特定手势绑定的意图,在电视端实现英文字符输入或空鼠功能,从而实现人与电视的交互,克服了语音易受环境噪音影响和对网络依赖的问题,且能够提高静态手势人机的交互性的成功率。
(2)本发明使用机器学习技术,能够实时检测用户手势,并检测用户人手关键点,实现用户与电视的交互,去除了第三方工具的使用,增加用户的交互体验。
附图说明
图1为本发明的人手关键点检测和跟踪的流程图;
图2为人手关键点实现空鼠功能的流程图;
图3为人手关键点实现字符输入功能的流程图;
图4为人手关键点位置分布示意图;
图5为功能手势示意图。
具体实施方式
下面结合实施例对本发明作进一步地详细说明,但本发明的实施方式不限于此。
实施例:
结合附图1所示,一种基于人手关键点实现电视端人机交互的方法,包括:
步骤S100:采用SSD检测网络检测采集图像,当检测到采集图像中存在设定的人手图像时,进入下一步;
步骤S200:检测人手图像中的人手关键点,输出人手关键点的位置,并回归手部的大致位置作为手部跟踪的检测区域,在检测区域中进行人手关键点检测,输出人手关键点;
步骤S300:根据检测到的人手关键点确定手势,电视启动手势操作功能,并根据人手关键点的变化,执行相应的动作指令。
结合附图2和图3所示,所述步骤S200具体包括:
步骤S210:采用人手关键点检测算法对人手关键点进行检测,输出人手关键点的位置;
步骤S220:由人手关键点位置回归出手部的大致位置,作为手部跟踪算法的预检测框,采用手部跟踪算法在预检测框内检测、跟踪人手,并回归新的手部区域位置;
步骤S230:采用人手关键点检测算法对新的手部区域位置进行人手关键点检测,输出人手关键点。
人手关键点分布如图4后,包括0号关键点(即手腕关键点)及1号关键点(拇指上的MCP关键点)、2号关键点(拇指上的PIP关键点)、3号关键点(拇指上的DIP关键点)、4号关键点(拇指上的TIP关键点)、5号关键点~8号关键点依次对应食指上的MCP关键点、PIP关键点、DIP关键点和TIP关键点,9号关键点~12号关键点依次对应中指上的MCP关键点、PIP关键点、DIP关键点和TIP关键点,13号关键点~16号关键点依次对应无名指上的MCP关键点、PIP关键点、DIP关键点和TIP关键点,17号关键点~20号关键点依次对应小指上的MCP关键点、PIP关键点、DIP关键点和TIP关键点。
当接下来的手势如图5中d所示,此时为空鼠超控手势,使用者可以移动手部食指和中指指尖到功能实现区域;待功能区域呈现被选择的状态后,通过检测8号关键点(食指指尖)和12号关键点(中指指尖)的操作,识别食指指尖和中指指尖模拟点击鼠标动作实现确认操作,从而实现空鼠确认功能。
当接下来的手势如图5中a所示,此时为字符输入手势,进入搜索功能界面,移动关键点到待选择搜索功能选项区域,模拟点击待选择区域,进入字符输入界面,移动食指关键点进行手写字符输入,实时跟踪手部8号关键点位置的轨迹,并根据其绘制的轨迹,手写字符识别网络将手写字符转换为程序可以识别的字符,并输入到搜索框内,实现字符的输入,从而实现用户意图的识别。
当接下来的手势如图5中b所示,此时为电视音量或快进手势,则根据16号关键点、4号关键点位置的左右移动对播放视频资源进行快进。或者是根据16号关键点、4号关键点位置的上下移动,进行电视音量调节;
当接下来的手势如图5中c所示,此时为电视待机手势,则根据8号关键点、4号关键点位置在1s内是否一致小于某阈值,若是,则会响应待机命令。
通过手部跟踪和关键点检测,能够在电视端实现空鼠功能和字符输入功能,扩展电视功能的同时,能够进一步提升用户的使用体验。
尽管这里参照本发明的解释性实施例对本发明进行了描述,上述实施例仅为本发明较佳的实施方式,本发明的实施方式并不受上述实施例的限制,应该理解,本领域技术人员可以设计出很多其他的修改和实施方式,这些修改和实施方式将落在本申请公开的原则范围和精神之内。
Claims (3)
1.一种基于人手关键点实现电视端人机交互的方法,其特征在于,包括:
步骤S100:采用SSD检测网络检测采集图像,当检测到采集图像中存在设定的手势时,进入下一步;
步骤S200:采用LandMark检测人手关键点,输出人手关键点的位置,并回归人手大致位置作为手部跟踪的检测区域,在检测区域中进行人手关键点检测,输出人手关键点;
步骤S300:由输出的人手关键点的位置确定手势,当手势为超控手势时,电视启动手势超控功能,并根据输出的人手关键点的变化识别用户操作意图,转化为相应的超控指令并执行。
2.根据权利要求1所述的一种基于人手关键点实现电视端人机交互的方法,其特征在于,所述步骤S200具体包括:
步骤S210:采用人手关键点检测算法对人手关键点进行检测,输出人手关键点的位置;
步骤S220:由人手关键点位置回归出手部的大致位置,作为手部跟踪算法的预检测框,采用手部跟踪算法在预检测框内检测、跟踪人手,并回归新的手部区域位置;
步骤S230:采用人手关键点检测算法对新的手部区域位置进行人手关键点检测,输出人手关键点。
3.根据权利要求1所述的一种基于人手关键点实现电视端人机交互的方法,其特征在于,所述步骤S300中的人手关键点包括手腕关键点及每根手指上的MCP关键点、PIP关键点、DIP关键点和TIP关键点,
当检测到人手关键点由设定手势变换为仅食指和中指的关键点,启动空鼠功能,使用者移动手部食指的TIP关键点和中指的TIP关键点,到功能实现区域;待功能区域呈现被选择的状态后,识别到食指和中指模拟点击鼠标动作实现确认操作,实现空鼠确认功能;
当检测到人手关键点由设定手势变换为仅食指的关键点,则启动英文字符输入功能,电视跳转到搜索功能选择界面,识别食指的关键点的移动方向和移动距离,定位到对应的搜索选项,识别食指的关键点的点击确认操作,进入相关搜索字符输入界面,在字符输入界面进行手写字符输入;识别手写的字符并转换为程序可识别的字符,并将其输入到搜索框内;字符输入完成后,识别食指的关键点的点击确认操作,结束字符的输入;
当检测到人手关键点由设定手势变换为无名指的TIP关键点和拇指的TIP关键点重合,且呈左右移动或上下移动时,控制播放的视频源进行开进/后退或控制电视音量调大/调小;
当检测到人手关键点由设定手势变换为食指的TIP关键点和拇指的TIP关键点重合,且在设定时间内移动距离小于阈值,则电视响应待机命令。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011278836.XA CN112383805A (zh) | 2020-11-16 | 2020-11-16 | 一种基于人手关键点实现电视端人机交互的方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011278836.XA CN112383805A (zh) | 2020-11-16 | 2020-11-16 | 一种基于人手关键点实现电视端人机交互的方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN112383805A true CN112383805A (zh) | 2021-02-19 |
Family
ID=74585453
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011278836.XA Pending CN112383805A (zh) | 2020-11-16 | 2020-11-16 | 一种基于人手关键点实现电视端人机交互的方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112383805A (zh) |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113065482A (zh) * | 2021-04-09 | 2021-07-02 | 上海云从企业发展有限公司 | 基于图像识别的行为检测方法、系统、计算机设备及介质 |
CN113076903A (zh) * | 2021-04-14 | 2021-07-06 | 上海云从企业发展有限公司 | 一种目标行为检测方法、系统、计算机设备及机器可读介质 |
CN114415830A (zh) * | 2021-12-31 | 2022-04-29 | 科大讯飞股份有限公司 | 隔空输入方法及设备、计算机可读存储介质 |
CN115202530A (zh) * | 2022-05-26 | 2022-10-18 | 当趣网络科技(杭州)有限公司 | 一种用户界面的手势交互方法和系统 |
CN116627260A (zh) * | 2023-07-24 | 2023-08-22 | 成都赛力斯科技有限公司 | 一种隔空操作方法、装置、计算机设备和存储介质 |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102467237A (zh) * | 2011-11-17 | 2012-05-23 | 厦门集芯科技有限公司 | 一种由非接触式手势动作实现鼠标功能的装置及其方法 |
US20150370475A1 (en) * | 2014-06-24 | 2015-12-24 | Apple Inc. | Character recognition on a computing device |
CN106547356A (zh) * | 2016-11-17 | 2017-03-29 | 科大讯飞股份有限公司 | 智能交互方法和装置 |
CN106873796A (zh) * | 2017-01-13 | 2017-06-20 | 河源市汉祖文化科技有限公司 | 一种基于三笔数码输入法的手势输入方法及系统 |
CN107967061A (zh) * | 2017-12-21 | 2018-04-27 | 北京华捷艾米科技有限公司 | 人机交互方法及装置 |
CN111160288A (zh) * | 2019-12-31 | 2020-05-15 | 北京奇艺世纪科技有限公司 | 手势关键点检测方法、装置、计算机设备和存储介质 |
CN111160333A (zh) * | 2019-12-29 | 2020-05-15 | 歌尔科技有限公司 | Ar眼镜及其文本翻译方法、装置和计算机可读存储介质 |
-
2020
- 2020-11-16 CN CN202011278836.XA patent/CN112383805A/zh active Pending
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102467237A (zh) * | 2011-11-17 | 2012-05-23 | 厦门集芯科技有限公司 | 一种由非接触式手势动作实现鼠标功能的装置及其方法 |
US20150370475A1 (en) * | 2014-06-24 | 2015-12-24 | Apple Inc. | Character recognition on a computing device |
CN106547356A (zh) * | 2016-11-17 | 2017-03-29 | 科大讯飞股份有限公司 | 智能交互方法和装置 |
CN106873796A (zh) * | 2017-01-13 | 2017-06-20 | 河源市汉祖文化科技有限公司 | 一种基于三笔数码输入法的手势输入方法及系统 |
CN107967061A (zh) * | 2017-12-21 | 2018-04-27 | 北京华捷艾米科技有限公司 | 人机交互方法及装置 |
CN111160333A (zh) * | 2019-12-29 | 2020-05-15 | 歌尔科技有限公司 | Ar眼镜及其文本翻译方法、装置和计算机可读存储介质 |
CN111160288A (zh) * | 2019-12-31 | 2020-05-15 | 北京奇艺世纪科技有限公司 | 手势关键点检测方法、装置、计算机设备和存储介质 |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113065482A (zh) * | 2021-04-09 | 2021-07-02 | 上海云从企业发展有限公司 | 基于图像识别的行为检测方法、系统、计算机设备及介质 |
CN113076903A (zh) * | 2021-04-14 | 2021-07-06 | 上海云从企业发展有限公司 | 一种目标行为检测方法、系统、计算机设备及机器可读介质 |
CN114415830A (zh) * | 2021-12-31 | 2022-04-29 | 科大讯飞股份有限公司 | 隔空输入方法及设备、计算机可读存储介质 |
CN115202530A (zh) * | 2022-05-26 | 2022-10-18 | 当趣网络科技(杭州)有限公司 | 一种用户界面的手势交互方法和系统 |
CN115202530B (zh) * | 2022-05-26 | 2024-04-09 | 当趣网络科技(杭州)有限公司 | 一种用户界面的手势交互方法和系统 |
CN116627260A (zh) * | 2023-07-24 | 2023-08-22 | 成都赛力斯科技有限公司 | 一种隔空操作方法、装置、计算机设备和存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112383805A (zh) | 一种基于人手关键点实现电视端人机交互的方法 | |
US10126826B2 (en) | System and method for interaction with digital devices | |
CN104090652A (zh) | 一种语音输入方法和装置 | |
KR101522919B1 (ko) | 드로잉 제어 방법, 장치 및 이동 단말기 | |
US9785335B2 (en) | Systems and methods for adaptive gesture recognition | |
US8866781B2 (en) | Contactless gesture-based control method and apparatus | |
US20060209021A1 (en) | Virtual mouse driving apparatus and method using two-handed gestures | |
CN105468278B (zh) | 虚拟按键的触屏操作识别、响应、游戏操控方法及装置 | |
US20190258319A1 (en) | Information processing device, information processing method, and program | |
CN105980965A (zh) | 用于非接触式打字的系统、设备和方法 | |
CN104375702B (zh) | 一种触控操作的方法和装置 | |
KR20080104099A (ko) | 입력 장치 및 그 입력 방법 | |
WO2014200874A1 (en) | Generation of text by way of a touchless interface | |
CN111913585A (zh) | 一种手势识别方法、装置、设备及存储介质 | |
CN104571823A (zh) | 一种基于智能电视的非接触式虚拟人机交互方法 | |
CN107797722A (zh) | 触控屏图标选择方法及装置 | |
CN106393113A (zh) | 机器人和机器人的交互控制方法 | |
CN105681859A (zh) | 基于人体骨骼追踪控制智能电视的人机交互方法 | |
CN110007800A (zh) | 一种触摸操作模式的控制方法、装置、设备及存储介质 | |
CN109753154B (zh) | 有屏设备的手势控制方法和装置 | |
CN106774995A (zh) | 一种基于超声定位的三维笔势识别方法 | |
CN112037761A (zh) | 智能语言识别的遥控器的交互显示方法及家电智能设备 | |
CN103218124B (zh) | 基于深度摄像头的菜单控制方法及系统 | |
CN104516566A (zh) | 一种手写输入方法及装置 | |
KR101503373B1 (ko) | 제스처 기반 인터랙션의 적응형 변환을 위한 프레임워크 시스템 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20210219 |
|
RJ01 | Rejection of invention patent application after publication |