CN114415830A - 隔空输入方法及设备、计算机可读存储介质 - Google Patents

隔空输入方法及设备、计算机可读存储介质 Download PDF

Info

Publication number
CN114415830A
CN114415830A CN202111663557.XA CN202111663557A CN114415830A CN 114415830 A CN114415830 A CN 114415830A CN 202111663557 A CN202111663557 A CN 202111663557A CN 114415830 A CN114415830 A CN 114415830A
Authority
CN
China
Prior art keywords
pen
frame image
moving
instruction
key points
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202111663557.XA
Other languages
English (en)
Inventor
林垠
殷保才
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
iFlytek Co Ltd
Original Assignee
iFlytek Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by iFlytek Co Ltd filed Critical iFlytek Co Ltd
Priority to CN202111663557.XA priority Critical patent/CN114415830A/zh
Publication of CN114415830A publication Critical patent/CN114415830A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/017Gesture based interaction, e.g. based on a set of recognized hand gestures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks

Abstract

本发明公开了一种隔空输入方法及设备、计算机可读存储介质。该隔空输入方法包括:获取手势信息,手势信息至少包括动笔关键点的位置信息;获取动笔关键点的位置关系;响应于动笔关键点的位置关系满足触发动笔指令条件,执行动笔指令。通过上述方式,本发明能够降低输入识别难度,还能够增强输入的连贯性,以有利于改善用户的使用体验。

Description

隔空输入方法及设备、计算机可读存储介质
技术领域
本发明涉及图像识别技术领域,特别是涉及一种隔空输入方法、隔空输入设备以及计算机可读存储介质。
背景技术
在现有的手写识别系统工作时,通常需要用户通过外设(例如鼠标、键盘、手环)等确认开始识别手写轨迹,使得用户手写过程所捕获到的轨迹均为连续的,增加了识别难度,并且用户需要通过外设确认开始撰写以及完成撰写,导致用户书写过程不连贯,影响用户使用体验。
发明内容
有鉴于此,本发明主要解决的技术问题是提供一种隔空输入方法、隔空输入设备以及计算机可读存储介质,能够降低输入识别难度,还能够增强输入的连贯性,以有利于改善用户的使用体验。
为解决上述技术问题,本发明采用的一个技术方案是:提供一种隔空输入方法,该隔空输入方法包括:获取手势信息,手势信息至少包括动笔关键点的位置信息;获取动笔关键点的位置关系;响应于动笔关键点的位置关系满足触发动笔指令条件,执行动笔指令。
在本发明的一实施例中,动笔关键点包括至少两个提笔关键点;方法包括:获取至少两个提笔关键点之间的距离;响应于两提笔关键点之间的距离小于预设值,执行落笔指令。
在本发明的一实施例中,提笔关键点的位置信息包括提笔关键点的二维坐标信息和深度信息;方法包括:利用提笔关键点的二维坐标信息计算两提笔关键点之间的平面距离,且获取提笔关键点相对采集相机的深度距离;响应于平面距离小于预设值,且深度距离处于预设范围,执行落笔指令。
在本发明的一实施例中,响应于平面距离大于预设值,执行提笔指令;或响应于深度距离未处于预设范围,执行提笔指令。
在本发明的一实施例中,至少两个提笔关键点包括拇指指尖关键点和食指指尖关键点。
在本发明的一实施例中,获取手势信息包括:获取当前帧图像;对当前帧图像进行特征提取,得到当前帧图像特征;将当前帧图像特征输入时序特征构建模型,得到手势信息;其中,时序特征构建模型包括多个连续的历史帧图像帧特征,历史帧图像特征是当前帧之前的连续的多个历史帧图像的图像特征。
在本发明的一实施例中,将当前帧图像特征输入时序特征构建模型包括:时序特征构建模型保留预设数量连续的历史帧图像特征,丢弃其余历史帧图像特征;所保留的历史帧图像特征与当前帧图像特征在时序上相邻;融合当前帧图像特征与所保留的历史帧图像特征。
在本发明的一实施例中,获取连续的多帧图像的图像特征;将连续的多帧图像的图像特征输入初始模型,计算模型损失;基于模型损失,迭代更新模型参数,得到时序特征构建模型。
在本发明的一实施例中,获取视频文件;识别视频文件中是否存在手部,响应于存在手部获取手部的位置信息。
为解决上述技术问题,本发明采用的又一个技术方案是:提供一个隔空输入设备,该隔空输入设备包括处理器,处理器用于执行指令实现上述任一项实施例中所阐述的隔空输入方法。
为解决上述技术问题,本发明采用的又一个技术方案是:提供一种计算机可读存储介质,该计算机可读存储介质用于存储指令/程序数据,指令/程序数据能够被执行以实现如上述任一项实施例中所阐述的隔空输入方法。
本发明的有益效果是:区别于现有技术,本发明隔空输入方法能够对动笔关键点的位置信息进行检测,以当动笔关键点的位置关系满足触发动笔指令条件时,执行动笔指令,即识别隔空输入的轨迹,在用户隔空输入过程中,可以通过调整动笔关键点的位置关系控制是否执行动笔指令,也就是说,在输入过程中允许出现断笔的情况,以使得识别得到的输入轨迹贴近真实轨迹,降低输入识别难度;并且,无需借助外部设备控制动笔指令,能够增强输入的连贯性,使得输入过程与真实书写过程相近,进而有利于改善用户的使用体验。
附图说明
此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本发明的实施例,并与说明书一起用于解释本发明的原理。此外,这些附图和文字描述并不是为了通过任何方式限制本发明构思的范围,而是通过参考特定实施例为本领域技术人员说明本发明的概念。
图1是本发明隔空输入方法第一实施例的流程示意图;
图2是本发明手部关键点一实施例的结构示意图;
图3是本发明隔空输入方法第二实施例的流程示意图;
图4是本发明落笔指令手势一实施例的结构示意图;
图5是本发明利用平面距离识别动笔指令一实施例的流程示意图;
图6是本发明利用深度距离识别动笔指令一实施例的流程示意图;
图7是本发明手势信息识别一实施例的流程示意图;
图8是本发明隔空输入方法第三实施例的流程示意图;
图9是本发明隔空输入设备一实施例的结构示意图;
图10是本发明计算机可读存储介质一实施例的结构示意图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,下面将结合本发明的实施例,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。在不冲突的情况下,下述的实施例及实施例中的特征可以相互组合。
为解决现有技术中手写识别具体识别难度较大以及操作不连贯的技术问题,本发明提供一种隔空输入方法、隔空输入设备以及计算机可读存储介质。隔空输入设备能够执行指令实现隔空输入方法,隔空输入方法包括:获取手势信息,手势信息至少包括动笔关键点的位置信息,动笔关键点为手势关键点中的至少为两个;获取至少两个动笔关键点的位置关系;响应于动笔关键点的位置关系满足触发动笔指令条件,执行动笔指令。以下对本发明进行详细阐述。
请参阅图1,图1是本发明隔空输入方法第一实施例的流程示意图。
需要说明的是,本实施例所阐述的隔空输入方法并不局限于以下步骤:
S101:获取手势信息,手势信息至少包括动笔关键点的位置信息。
在本实施例中,对手部进行检测,以能够得到手势信息,手势信息至少包括动笔关键点的位置信息。顾名思义,动笔关键点用于表示用户使用“笔”,当然,用户并未持有实际的笔,动笔关键点为用户手部关键点,通过动笔关键点表示用户所使用的笔,即通过用户手部自身表示所使用的“笔”。
其中,动笔关键点可以为若干个手部关键点中的至少两个,手部关键点的选取可预先定义,如图2中所举例的,标号0~标号20表示用户手部的21个手部关键点,可选取其中若干个手部关键点作为动笔关键点。
S102:获取动笔关键点的位置关系。
在本实施例中,基于手势信息中所包括的动笔关键点的位置信息,计算至少两个动笔关键点的位置关系,例如,可以计算动笔关键点之间的相对位置关系,亦或是可以计算动笔关键点彼此之间的举例,在此不做限定,以获取动笔关键点的位置关系。
S103:响应于动笔关键点的位置关系满足触发动笔指令条件,执行动笔指令。
在本实施例中,在获取动笔关键点的位置关系后,判断动笔关键点的位置关系是否触发动笔的指令条件,响应于动笔关键的位置关系满足触发动笔指令条件,执行动笔指令,即允许开始隔空输入,识别隔空输入的输入轨迹,从而无需额外的借助外接设备确认动笔,提高连贯性。
由此可见,本实施例中隔空输入方法能够对动笔关键点的位置信息进行检测,以当动笔关键点的位置关系满足触发动笔指令条件时,执行动笔指令,即识别隔空输入的轨迹,在用户隔空输入过程中,可以通过调整动笔关键点的位置关系控制是否执行动笔指令,也就是说,在输入过程中允许出现断笔的情况,以使得识别得到的输入轨迹贴近真实轨迹,降低输入识别难度;并且,无需借助外部设备控制动笔指令,能够增强输入的连贯性,使得输入过程与真实书写过程相近,进而有利于改善用户的使用体验。
以动笔指令包括提笔指令以及落笔指令为例,请参阅图3,图3是本发明隔空输入方法第二实施例的流程示意图。需要说明的是,本实施例所阐述的隔空输入方法并不局限于以下步骤:
S201:获取手势信息。
在本实施例中,手势信息至少包括动笔关键点的位置信息,其中,动笔关键点包括至少两个提笔关键点,提笔关键点为一个手部关键点,即动笔关键点的位置信息基于至少两个手部关键点得到。获取手部关键点可以是利用回归人体关键点坐标、基于高斯响应热图的、基于二分类和偏差回归的、基于形状回归等方法得到的,在此不做限定。
S202:获取至少两个提笔关键点之间的距离,执行落笔指令和/或提笔指令。
在本实施例中,获取至少两个提笔关键点之间的距离,将所得到的距离作为动笔关键点的位置关系。响应于动笔关键点的位置关系满足触发动笔指令条件,执行动笔指令。
具体地,当动笔关键点的位置信息满足落笔指令条件时,执行落笔指令,顾名思义,落笔是指下笔书写或作画,当识别到提笔关键点之间的距离满足落笔指令条件,就能够识别并跟踪提笔关键点生成输入轨迹。当动笔关键点的位置信息满足提笔指令条件时,执行提笔指令,提笔是指将笔提起,当识别到提笔关键点之间的距离满足提笔指令条件,则无需根据提笔关键点生成输入轨迹,相当于实际书写过程中的断笔(止笔不书),以通过提笔指令和落笔指令使得隔空输入的过程符合用纸张等写字时的书写习惯,无需额外通过外设进行确认是否跟踪输入轨迹,且能够断笔,以允许输入轨迹更贴近实际,降低识别难度。与此同时,执行提笔指令后,可以继续识别并根据提笔关键点的位置,以能够及时识别到提笔关键点/手部的动作,并作出相应反馈,降低延迟速度。
可选地,如图4中所举例展示的,至少两个提笔关键点包括拇指指尖关键点和食指指尖关键点,从而符合通过纸张等书写时的握笔习惯,改善用户的使用体验。举例而言,提笔指令可以是拇指指尖关键点与食指指尖关键点分离,落笔指令可以是拇指指尖关键点与食指之间关键点靠近。
具体地,响应于两提笔关键点之间的距离小于预设值,执行落笔指令,若大于预设值,则执行提笔指令,如下式所示。其中,预设值为拇指指尖关键点和食指指尖关键点的距离值,预设值的形式可以是欧式距离、马氏距离等距离度量方式,在此不做限定。
Figure BDA0003450364580000061
其中,state表示指令,ρ表示提笔关键点之间的距离,α表示预设值,(x1,y1)为食指指尖的位置坐标,(x2,y2)为拇指指尖的位置坐标。
结合图5中所举例展示的,在所采集到的图像中识别手部,并识别到动笔关键点,在本例中,动笔关键点为拇指指尖关键点和食指指尖关键点,当拇指指尖与食指指尖的距离小于预设值时,例如拇指指尖与食指指尖贴合,认为满足落笔指令条件,则执行落笔指令,跟踪动笔关键点的轨迹并生成跟踪轨迹;当当拇指指尖与食指指尖的距离大于预设值时,例如拇指指尖与食指指尖分开较远,认为满足提笔指令条件,则执行提笔指令,可跟踪动笔关键点但不生成跟踪轨迹。
再进一步地,提笔关键点的位置信息包括提笔关键点的二维坐标信息和深度信息。利用提笔关键点的二维坐标信息计算两提笔关键点之间的平面距离,如前文所阐述以及式1-1所表述的。
与此同时,还会获取提笔关键点相对采集相机的深度距离,即动笔关键点距离采集相机的深度距离,可以理解为预先在距离前置相机一定的深度范围内(假设20cm-25cm)定义一个可书写区域,构建了一张“无形的纸”或是“无形的写字板”。当采集相机中采集到的画面中出现用户手部时,实时判断动笔关键点的深度信息,当动笔关键点进入到预先定义的可书写区域范围内(即预设范围)时,判定满足落笔指令条件,此时可反馈相应的提示信息告知用户,保持此状态(即不离开书写区域)则跟踪动笔关键点生成跟踪轨迹,即书写的轨迹会被实时的记录并呈现;反之判定满足提笔指令条件时,手部的运动行为不会产生跟踪轨迹。
具体地,响应于平面距离小于预设值,且深度距离处于预设范围,执行落笔指令。响应于平面距离大于预设值,执行提笔指令,或响应于深度距离未处于预设范围,执行提笔指令。
在替代实施例中,还可以无需根据提笔关键点的位置信息包括提笔关键点的二维坐标信息,根据深度信息即可进行动笔指令识别。
如图6中所举例展示的,可以检测用户手部相对采集相机的深度信息,当检测到用户手部(如食指指尖)的深度距离位于预设范围内时,跟踪食指之间的生成跟踪轨迹,判定满足落笔指令条件,执行落笔指令;并当用户手部的深度距离未处于预设范围时,判定满足提笔指令条件,执行提笔指令,例如公式1-2所示:
Figure BDA0003450364580000071
其中,z表示食指指尖关节点的深度信息,[φ1,φ2]表示深度距离的预设范围。
S203:判断是否触发输入识别。
在本实施例中,若触发输入识别,认为完成隔空输入,则执行步骤S204;若未触发输入识别,认为未完成隔空输入,则执行步骤S202。
其中,触发输入识别可以是预先设定手势动作,例如摇动手掌、展示预定手势等,当检测到用户做出相应手势动作时,认为完成隔空输出,触发输入识别;当未检测到用户做出相应手势动作时,认为用户未完成隔空输入,不触发输入识别,继续根据动笔关键点识别提笔指令/落笔指令,以在完成书写时仍无需通过外设进行确认,提高隔空输入的连贯性。
S204:识别输入轨迹,并记录结果。
在本实施例中,在触发输入识别后,会将跟踪轨迹生成输入轨迹,对输入轨迹进行识别。以文字识别为例,当用户完成相应文本(包括但不限于单字、单词、语句、段落等)书写后,可以利用触发输入识别的手势动作发出相应手势指令控制对输入轨迹进行识别,在识别过程中可能存在备选字、错字等,同样可以预设相应手势,以通过相应手势完成备选字的选择、错字删除或重写等,在此就不再赘述,从而提高隔空输入的连贯性,减少使用外设的情况。
完成输入轨迹识别,等待用户确认无误后生成对应的结果,对结果进行记录,并可以识别用户是否再次进行隔空输入,执行上述步骤,在此就不再赘述。
由此可见,本实施例中的隔空输入方法能够在书写完成后直接利用手部发出操作指令,整个过程无需使用包括但不限于手写笔、鼠标和键盘在内的等传统交互设备和包括但不限于手套、手环在内等智能穿戴设备,显著改善隔空输入的自然度、流程度,有利于提升用户体验。
请参阅图7,图7是本发明手势信息识别一实施例的流程示意图。
需要说明的是,本实施例所阐述的手势信息识别并不局限于以下步骤:
在一实施例中,获取当前帧图像;对当前帧图像进行特征提取,得到当前帧图像特征;将当前帧图像特征输入时序特征构建模型,得到手势信息;其中,时序特征构建模型包括多个连续的历史帧图像帧特征,历史帧图像特征是当前帧之前的连续的多个历史帧图像的图像特征,由于相邻帧图像差异较小,结合历史帧图像帧特征对当前帧图像进行识别,且无需再次对历史帧图像特征进行识别,能够减小运算量。
进一步地,时序特征构建模型保留预设数量连续的历史帧图像特征,丢弃其余历史帧图像特征;所保留的历史帧图像特征与当前帧图像特征在时序上相邻;融合当前帧图像特征与所保留的历史帧图像特征,即时许特征构建模型只需要维护能够容纳固定数量的图像特征的存储模块,减小维护代价。其中,时序特征构建模型可以在当前帧图像特征输入后,丢弃所要丢弃的历史帧图像,即采用“先进入先退出”的原则,动态地保存图像特征。
以当前帧为t=T时刻的图像帧,时序特征构建模型动态保存N+1个图像特征为例,其中,N为保留连续的历史帧图像特征的预设数量,T>N+1。可以利用特征提取模块(例如深度神经网络等)对当前帧图像进行特征提取,得到当前帧图像特征。将提取到的高维当前帧图像特征送入到特征存储模块中,同时将特征存储模块中预先存储的t=T-N-1时刻的特征进行丢弃,其余时刻的图像特征进行保留,从而完成t=T时刻的存储特征更新,在完成当前时刻(t=T)图像特征提取和存储之后,这N帧图像特征输入至预先训练完成的时序特征构建模型中进行时序特征建模,最终输出当前时刻的手势识别结果。
以此类推,在t=T+1时刻,特征提取网络首先完成特征提取,存储模块将T=t+1时刻的特征保存,并将t=T-N时刻的特征丢掉,从而实现t=T+1时刻特征存储模块的存储特征更新,然后再将更新后的N帧图像特征送入到时序特征构建模型,完成T+1时刻的手势识别。如是设计,能够使得特征提取模型每次只需对当前时刻输入的图像(即当前帧图像)的特征进行识别,降低了模型的计算量,还能够减少大量的重复计算,同时有效保留了预设数量帧的图像特征。
也就是说,本实施例中抛弃了传统的基于连续N帧图像作为输入进行手势识别的方案,而是采用单帧图像作为输入,并利用预先训练好的特征提取网络对单帧图像的特征进行提取,从而有效降低模型进行识别的复杂度。
可选地,本实施例中时序特征构建模型可以是预先训练得到的,训练方式可以是:获取连续的多帧图像的图像特征;将所述连续的多帧图像的图像特征输入初始模型,计算模型损失;基于所述模型损失,迭代更新模型参数,得到所述时序特征构建模型,提高时序特征构建模型的可靠性,具体训练方式在此就不再赘述。
请参阅图8,图8是本发明隔空输入方法第三实施例的流程示意图。
需要说明的是,本实施例所阐述的隔空输入方法并不局限于以下步骤:
在本实施例中,在启动采集相机后,会获取采集相机所采集的视频文件,识别视频文件中是否存在手部,响应于存在手部,则获取手部的位置信息,例如利用预先训练完成的神经网络模型对采集相机所传输的图像中出现的用户手部区域进行提取,输出手部区域候选框的坐标信息,由于相邻图像帧/邻近图像帧中手部区域相近,以在出现多个手部时,能够根据相邻图像帧/邻近图像帧中手部区域的坐标信息进行判断,选择所需进行识别的手部区域,降低误识别的风险,提高隔空输入方法的可靠性。
在得到当前帧图像的手部信息后,可以对所提取到的手部区域进行跟踪,进行跟踪匹配的方式可以是深度表观特征应用(例如图像识别特征、深度光流特征等)、深度相似性度量学习(例如距离度量学习、二分类学习等)、深度高阶匹配算法(例如高阶表观特征、高级运动特征等)等,在此就不再赘述。
隔空包括手势监控模块和手势识别模块两个部分,其中手势监控模块的功能复用手部轨迹跟踪和提取模块输入的结果,以实时判定用户是否存在手写交互意图,其中,采集相机所采集的图像画面中出现手部,则认为用户存在手势交互意图。反馈相关信息至手势识别模型,检测当前手部区域信息进行相应手势指令的识别,完成手势指令识别后,系统再根据指令的类型做出相应的操作。例如,落笔指令跟踪动笔关键点生成跟踪轨迹、提笔指令暂停跟踪、确认完成隔空输入指令生成输入轨迹、选择备选字、删除指令删除文字和/或输入轨迹等,在此就不再赘述。其中,隔空输入可以通过识文字轨迹OCR(Optical CharacterRecognition,光学字符识别)方法等实现,可以通过联网线上识别,也可以在本地识别,在此不做限定。
请参阅图9,图9是本发明隔空输入设备一实施例的结构示意图。
在一实施例中,隔空输入设备100包括处理器110,处理器110还可以称为CPU(Central Processing Unit,中央处理单元)。处理器110可能是一种集成电路芯片,具有信号的处理能力。处理器110还可以是通用处理器、数字信号处理器(DSP)、专用集成电路(ASIC)、现场可编程门阵列(FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。通用处理器可以是微处理器或者该处理器110也可以是任何常规的处理器等。
隔空输入设备100可以进一步包括存储器(图中未示出),用于存储处理器110运行所需的指令和数据。
处理器110用于执行指令以实现如上述任一项实施例中所阐述的隔空输入方法。
请参阅图10,图10是本发明计算机可读存储介质一实施例的结构示意图在一实施例中,计算机可读存储介质200用于存储指令/程序数据210,指令/程序数据210能够被执行以实现如上述任一项实施例中所阐述的隔空输入方法,在此就不再赘述。
在本发明所提供的几个实施方式中,应该理解到,所揭露的系统,装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施方式为示意性的,例如,模块或单元的划分,为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施方式的目的。
另外,在本发明各个实施方式中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
上述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个计算机可读存储介质200中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)或处理器(processor)执行本发明各个实施方式所阐述方法的全部或部分步骤。而前述的计算机可读存储介质200包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存储器(RAM,RandomAccess Memory)、磁碟或者光盘、服务器等各种可以存储程序代码的介质。
此外,在本发明中,除非另有明确的规定和限定,术语“相连”、“连接”、“层叠”等术语应做广义理解,例如,可以是固定连接,也可以是可拆卸连接,或成一体;可以是直接相连,也可以通过中间媒介间接相连,可以是两个元件内部的连通或两个元件的相互作用关系。对于本领域的普通技术人员而言,可以根据具体情况理解上述术语在本发明中的具体含义。
最后应说明的是:以上各实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述各实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分或者全部技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的范围。

Claims (11)

1.一种隔空输入方法,其特征在于,包括:
获取手势信息,所述手势信息至少包括动笔关键点的位置信息;
获取所述动笔关键点的位置关系;
响应于所述动笔关键点的位置关系满足触发动笔指令条件,执行所述动笔指令。
2.根据权利要求1所述的隔空输入方法,其特征在于,所述动笔关键点包括至少两个提笔关键点;所述方法包括:
获取所述至少两个提笔关键点之间的距离;
响应于两提笔关键点之间的距离小于预设值,执行落笔指令。
3.根据权利要求2所述的隔空输入方法,其特征在于,所述提笔关键点的位置信息包括所述提笔关键点的二维坐标信息和深度信息;所述方法包括:
利用所述提笔关键点的二维坐标信息计算两提笔关键点之间的平面距离,且获取所述提笔关键点相对采集相机的深度距离;
响应于所述平面距离小于预设值,且所述深度距离处于预设范围,执行所述落笔指令。
4.根据权利要求3所述的隔空输入方法,其特征在于,
响应于所述平面距离大于预设值,执行提笔指令;或
响应于所述深度距离未处于预设范围,执行提笔指令。
5.根据权利要求2所述的隔空输入方法,其特征在于,
所述至少两个提笔关键点包括拇指指尖关键点和食指指尖关键点。
6.根据权利要求1所述的隔空输入方法,其特征在于,所述获取手势信息包括:
获取当前帧图像;
对所述当前帧图像进行特征提取,得到当前帧图像特征;
将所述当前帧图像特征输入时序特征构建模型,得到所述手势信息;其中,所述时序特征构建模型包括多个连续的历史帧图像帧特征,所述历史帧图像特征是当前帧之前的连续的多个历史帧图像的图像特征。
7.根据权利要求6所述的隔空输入方法,其特征在于,所述将所述当前帧图像特征输入时序特征构建模型包括:
所述时序特征构建模型保留预设数量连续的历史帧图像特征,丢弃其余历史帧图像特征;所保留的历史帧图像特征与所述当前帧图像特征在时序上相邻;
融合所述当前帧图像特征与所保留的所述历史帧图像特征。
8.根据权利要求6所述的隔空输入方法,其特征在于,所述方法包括:
获取连续的多帧图像的图像特征;
将所述连续的多帧图像的图像特征输入初始模型,计算模型损失;
基于所述模型损失,迭代更新模型参数,得到所述时序特征构建模型。
9.根据权利要求1所述的隔空输入方法,其特征在于,所述方法包括:
获取视频文件;
识别所述视频文件中是否存在手部,响应于存在所述手部获取所述手部的位置信息。
10.一种隔空输入设备,其特征在于,包括:
处理器,所述处理器用于执行指令实现权利要求1-9任一项所述的隔空输入方法。
11.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质用于存储指令/程序数据,所述指令/程序数据能够被执行以实现如权利要1-9任一项所述的隔空输入方法。
CN202111663557.XA 2021-12-31 2021-12-31 隔空输入方法及设备、计算机可读存储介质 Pending CN114415830A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111663557.XA CN114415830A (zh) 2021-12-31 2021-12-31 隔空输入方法及设备、计算机可读存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111663557.XA CN114415830A (zh) 2021-12-31 2021-12-31 隔空输入方法及设备、计算机可读存储介质

Publications (1)

Publication Number Publication Date
CN114415830A true CN114415830A (zh) 2022-04-29

Family

ID=81272384

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111663557.XA Pending CN114415830A (zh) 2021-12-31 2021-12-31 隔空输入方法及设备、计算机可读存储介质

Country Status (1)

Country Link
CN (1) CN114415830A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2024065345A1 (zh) * 2022-09-29 2024-04-04 京东方科技集团股份有限公司 隔空手势编辑方法、装置、显示系统及介质

Citations (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103226388A (zh) * 2013-04-07 2013-07-31 华南理工大学 一种基于Kinect的手写方法
CN103839040A (zh) * 2012-11-27 2014-06-04 株式会社理光 基于深度图像的手势识别方法和装置
US20150338924A1 (en) * 2014-05-26 2015-11-26 Canon Kabushiki Kaisha Information processing apparatus and method of controlling the same
CN105320248A (zh) * 2014-06-03 2016-02-10 深圳Tcl新技术有限公司 空中手势输入方法及装置
CN109582201A (zh) * 2017-09-29 2019-04-05 京东方科技集团股份有限公司 电子写字板及其控制方法、存储介质
US10261595B1 (en) * 2017-05-19 2019-04-16 Facebook Technologies, Llc High resolution tracking and response to hand gestures through three dimensions
CN110765967A (zh) * 2019-10-30 2020-02-07 腾讯科技(深圳)有限公司 一种基于人工智能的动作识别方法和相关装置
CN111651038A (zh) * 2020-05-14 2020-09-11 香港光云科技有限公司 基于ToF的手势识别控制方法及其控制系统
CN111857356A (zh) * 2020-09-24 2020-10-30 深圳佑驾创新科技有限公司 识别交互手势的方法、装置、设备和存储介质
CN112383805A (zh) * 2020-11-16 2021-02-19 四川长虹电器股份有限公司 一种基于人手关键点实现电视端人机交互的方法
WO2021052139A1 (zh) * 2019-09-18 2021-03-25 华为技术有限公司 手势输入方法及电子设备
CN112947755A (zh) * 2021-02-24 2021-06-11 Oppo广东移动通信有限公司 手势控制方法与装置、电子设备及存储介质
CN113536864A (zh) * 2020-04-22 2021-10-22 深圳市优必选科技股份有限公司 手势识别方法、装置、计算机可读存储介质及终端设备
US20210405762A1 (en) * 2020-06-30 2021-12-30 Boe Technology Group Co., Ltd. Input method, apparatus based on visual recognition, and electronic device

Patent Citations (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103839040A (zh) * 2012-11-27 2014-06-04 株式会社理光 基于深度图像的手势识别方法和装置
CN103226388A (zh) * 2013-04-07 2013-07-31 华南理工大学 一种基于Kinect的手写方法
US20150338924A1 (en) * 2014-05-26 2015-11-26 Canon Kabushiki Kaisha Information processing apparatus and method of controlling the same
CN105320248A (zh) * 2014-06-03 2016-02-10 深圳Tcl新技术有限公司 空中手势输入方法及装置
US10261595B1 (en) * 2017-05-19 2019-04-16 Facebook Technologies, Llc High resolution tracking and response to hand gestures through three dimensions
CN109582201A (zh) * 2017-09-29 2019-04-05 京东方科技集团股份有限公司 电子写字板及其控制方法、存储介质
WO2021052139A1 (zh) * 2019-09-18 2021-03-25 华为技术有限公司 手势输入方法及电子设备
CN110765967A (zh) * 2019-10-30 2020-02-07 腾讯科技(深圳)有限公司 一种基于人工智能的动作识别方法和相关装置
CN113536864A (zh) * 2020-04-22 2021-10-22 深圳市优必选科技股份有限公司 手势识别方法、装置、计算机可读存储介质及终端设备
CN111651038A (zh) * 2020-05-14 2020-09-11 香港光云科技有限公司 基于ToF的手势识别控制方法及其控制系统
US20210405762A1 (en) * 2020-06-30 2021-12-30 Boe Technology Group Co., Ltd. Input method, apparatus based on visual recognition, and electronic device
CN111857356A (zh) * 2020-09-24 2020-10-30 深圳佑驾创新科技有限公司 识别交互手势的方法、装置、设备和存储介质
CN112383805A (zh) * 2020-11-16 2021-02-19 四川长虹电器股份有限公司 一种基于人手关键点实现电视端人机交互的方法
CN112947755A (zh) * 2021-02-24 2021-06-11 Oppo广东移动通信有限公司 手势控制方法与装置、电子设备及存储介质

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2024065345A1 (zh) * 2022-09-29 2024-04-04 京东方科技集团股份有限公司 隔空手势编辑方法、装置、显示系统及介质

Similar Documents

Publication Publication Date Title
Kumar et al. Independent Bayesian classifier combination based sign language recognition using facial expression
Kumar et al. A multimodal framework for sensor based sign language recognition
US10733381B2 (en) Natural language processing apparatus, natural language processing method, and recording medium for deducing semantic content of natural language elements based on sign language motion
JP7073522B2 (ja) 空中手書きを識別するための方法、装置、デバイス及びコンピュータ読み取り可能な記憶媒体
US9953216B2 (en) Systems and methods for performing actions in response to user gestures in captured images
Raheja et al. Robust gesture recognition using Kinect: A comparison between DTW and HMM
JP2018520397A (ja) 人間であるか機械であるかを識別するための方法及びシステム
JP2018537174A (ja) ノンプレイヤキャラクタのインタラクション特性を生成するために用いられるインタラクティブなモーションキャプチャデータの編集
LaViola Jr Context aware 3D gesture recognition for games and virtual reality
US20230244379A1 (en) Key function execution method and apparatus, device, and storage medium
Sharma et al. Numeral gesture recognition using leap motion sensor
KR20220042335A (ko) 자동 수어 인식 방법 및 시스템
CN114415830A (zh) 隔空输入方法及设备、计算机可读存储介质
KR101978265B1 (ko) 손 모양 및 동작 인식장치 및 방법
CN107450717B (zh) 一种信息处理方法及穿戴式设备
KR101899590B1 (ko) 손 모양 및 동작 인식장치 및 방법
JP2015099566A (ja) 特徴算出装置、方法及びプログラム
JP6051991B2 (ja) 信号処理装置、信号処理方法、及び信号処理プログラム
CN115061577B (zh) 手部投影交互方法、系统及存储介质
CN111142663A (zh) 一种手势识别方法及手势识别系统
Dhamanskar et al. Human computer interaction using hand gestures and voice
Zahra et al. Camera-based interactive wall display using hand gesture recognition
Kim et al. 3d space handwriting recognition with ligature model
CN102929534A (zh) 一种盲写信息输入系统和方法
CN114821630A (zh) 静态手势识别方法及其系统和电子设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination