CN114610153A - 一种显示设备及动态手势交互方法 - Google Patents
一种显示设备及动态手势交互方法 Download PDFInfo
- Publication number
- CN114610153A CN114610153A CN202210266245.3A CN202210266245A CN114610153A CN 114610153 A CN114610153 A CN 114610153A CN 202210266245 A CN202210266245 A CN 202210266245A CN 114610153 A CN114610153 A CN 114610153A
- Authority
- CN
- China
- Prior art keywords
- gesture
- node
- key
- stage
- display device
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F3/00—Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
- G06F3/01—Input arrangements or combined input and output arrangements for interaction between user and computer
- G06F3/017—Gesture based interaction, e.g. based on a set of recognized hand gestures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/22—Matching criteria, e.g. proximity measures
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- General Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Computational Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Human Computer Interaction (AREA)
- User Interface Of Digital Computer (AREA)
Abstract
本申请一些实施例提供一种显示设备及动态手势交互方法可以在用户输入动态手势后,获取手势信息流,并从手势信息流中提取关键手势信息。再使用检测模型对关键手势信息中各阶段的关键手势类型进行匹配,以获得关键手势类型相同且置信度参数在设定的置信度区间内的节点组合,作为确定的目标动态手势,最后执行目标动态手势关联的控制指令,实现动态手势交互。所述方法可以基于手势关键点检测动态手势,再基于树结构节点存储形式的检测模型,对关键手势类型进行动态匹配,能够丰富动态手势交互形式,并且支持用户自定义动态手势。
Description
技术领域
本申请涉及显示设备技术领域,尤其涉及一种显示设备及动态手势交互方法。
背景技术
手势交互是一种新型的人机交互模式。随着人工智能(ArtificialIntelligence,AI)技术的发展,越来越多的手势交互方式可被应用于显示设备的交互过程中。手势交互的目的在于通过检测用户做出的特定手势动作,控制显示设备执行相对应的控制指令。例如,用户可以通过向左或向右挥手的动作,代替遥控器等控制装置上的左右方向键,控制显示设备进行快退或快进播放操作。
通常,显示设备所支持手势交互方式基于静态手势,即用户在做出特定手势动作时,手型是保持不变的。例如,在进行向左或向右挥手的动作时,用户需要保持五指并拢,且手掌平行移动进行挥摆动作。在进行交互时,显示设备可以先根据手势类型识别算法检测静态手势,再根据手势类型执行相应的控制动作。
可见,这种基于静态手势的交互方式所支持的手势数量较少,只适用于简单的交互场景。为了增加支持的手势数量,部分显示设备还支持动态手势交互,即通过一个时间段内的连续动作,实现特定的手势交互。但是,由于动态手势检测过程中所使用的模型限制,使得上述动态手势交互过程不支持用户自定义手势,无法满足用户的需求。
发明内容
本申请一些实施例提供了一种显示设备及动态手势交互方法,以解决传统手势交互方法形式单一、不支持用户自定义的问题。
一方面,本申请一些实施例提供一种显示设备,包括:显示器、图像采集接口以及控制器。其中,显示器被配置为显示用户界面;图像采集接口被配置为采集用户输入的手势交互图像;控制器被配置为执行以下程序步骤:
获取手势信息流,所述手势信息流包括连续多帧手势交互图像;
从所述手势信息流中提取关键手势信息,所述关键手势信息包括多个阶段的关键手势类型和每个阶段的置信度参数;
使用检测模型匹配所述关键手势信息,以获得目标动态手势,所述检测模型包括多个以树形结构存储的节点;每个所述节点中设有手势姿态模板和指定的下级节点;所述目标动态手势为在每个阶段关键手势类型与手势姿态模板相同,且所述置信度参数在置信度区间内的节点组合;
执行所述目标动态手势关联的控制指令。
另一方面,本申请一些实施例还提供一种动态手势交互方法,应用于显示设备,所述动态手势交互方法包括以下步骤:
获取手势信息流,所述手势信息流包括连续多帧手势交互图像;
从所述手势信息流中提取关键手势信息,所述关键手势信息包括多个阶段的关键手势类型和每个阶段的置信度参数;
使用检测模型匹配所述关键手势信息,以获得目标动态手势,所述检测模型包括多个以树形结构存储的节点;每个所述节点中设有手势姿态模板和指定的下级节点;所述目标动态手势为在每个阶段关键手势类型与手势姿态模板相同,且所述置信度参数在置信度区间内的节点组合;
执行所述目标动态手势关联的控制指令。
由以上技术方案可知,本申请一些实施例提供的显示设备及动态手势交互方法可以在用户输入动态手势后,获取手势信息流,并从手势信息流中提取关键手势信息。再使用检测模型对关键手势信息中各阶段的关键手势类型进行匹配,以获得关键手势类型相同且置信度参数在设定的置信度区间内的节点组合,作为确定的目标动态手势,最后执行目标动态手势关联的控制指令,实现动态手势交互。所述方法可以基于手势关键点分阶段检测动态手势,再基于树结构节点存储形式的检测模型,对关键手势类型进行动态匹配,能够丰富动态手势交互形式,并且支持用户自定义动态手势。
附图说明
为了更清楚地说明本申请的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,对于本领域普通技术人员而言,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本申请实施例中显示设备应用场景结构示意图;
图2为本申请实施例中显示设备硬件配置示意图;
图3为本申请实施例中内置图像采集器的显示设备结构示意图;
图4为本申请实施例中外接图像采集器的显示设备结构示意图;
图5为本申请实施例中动态手势交互流程示意图;
图6为本申请实施例中关键点示意图;
图7为本申请实施例中手朝向示意图;
图8为本申请实施例中一种检测模型的树结构示意图;
图9为本申请实施例中伪跳转成功时的动作路径图;
图10为本申请实施例中伪跳转失败时的动作路径图;
图11为本申请实施例中动态手势交互的数据流转关系示意图;
图12为本申请实施例中动态手势交互时序关系图。
具体实施方式
为使本申请的目的和实施方式更加清楚,下面将结合本申请示例性实施例中的附图,对本申请示例性实施方式进行清楚、完整地描述,显然,描述的示例性实施例仅是本申请一部分实施例,而不是全部的实施例。
需要说明的是,本申请中对于术语的简要说明,仅是为了方便理解接下来描述的实施方式,而不是意图限定本申请的实施方式。除非另有说明,这些术语应当按照其普通和通常的含义理解。
本申请中说明书和权利要求书及上述附图中的术语“第一”、“第二”、“第三”等是用于区别类似或同类的对象或实体,而不必然意味着限定特定的顺序或先后次序,除非另外注明。应该理解这样使用的用语在适当情况下可以互换。
术语“包括”和“具有”以及他们的任何变形,意图在于覆盖但不排他的包含,例如,包含了一系列组件的产品或设备不必限于清楚地列出的所有组件,而是可包括没有清楚地列出的或对于这些产品或设备固有的其它组件。
本申请实施方式提供的显示设备可以具有多种实施形式,例如,可以是电视、激光投影设备、显示器(monitor)、电子白板(electronic bulletin board)、电子桌面(electronic table)等。
图1为根据实施例中显示设备与控制装置之间操作场景的示意图。如图1所示,用户可通过控制设备300或控制装置100操作显示设备200。
在一些实施例中,控制装置100可以是遥控器,遥控器和显示设备的通信包括红外协议通信或蓝牙协议通信,及其他短距离通信方式,通过无线或有线方式来控制显示设备200。用户可以通过遥控器上按键、语音输入、控制面板输入等输入用户指令,来控制显示设备200。
在一些实施例中,也可以使用控制设备300(如移动电话、平板电脑、计算机、笔记本电脑等)以控制显示设备200。例如,使用在控制设备300上运行的应用程序控制显示设备200。
在一些实施例中,显示设备200可以不使用上述的控制设备300或控制装置100接收指令,而是通过触摸或者手势等接收用户的控制。
在一些实施例中,显示设备200还可以采用除了控制装置100和控制设备300之外的方式进行控制,例如,可以通过显示设备200设备内部配置的获取语音指令的模块直接接收用户的语音指令控制,也可以通过显示设备200设备外部设置的语音控制设备来接收用户的语音指令控制。
在一些实施例中,显示设备200还与服务器400进行数据通信。可允许显示设备200通过局域网(LAN)、无线局域网(WLAN)和其他网络进行通信连接。服务器400可以向显示设备200提供各种内容和互动。服务器400可以是一个集群,也可以是多个集群,可以包括一类或多类服务器。
如图2所示,显示设备200可以包括调谐解调器210、通信器220、检测器230、外部装置接口240、控制器250、显示器260、音频输出接口270、存储器、供电电源、用户接口中的至少一种。
在一些实施例中,控制器250可以包括处理器,视频处理器,音频处理器,图形处理器,RAM,ROM,用于输入/输出的第一接口至第n接口。
显示器260可以包括以下组件,即:用于呈现画面的显示屏组件;驱动图像显示的驱动组件;用于接收源自控制器250输出的图像信号,进行显示视频内容、图像内容以及菜单操控界面的组件以及用户操控UI界面的组件等。
显示器260可为液晶显示器、OLED显示器、以及投影显示器,还可以为一种投影装置和投影屏幕。
通信器220是用于根据各种通信协议类型与外部设备或服务器进行通信的组件。例如:通信器可以包括Wifi模块,蓝牙模块,有线以太网模块等其他网络通信协议芯片或近场通信协议芯片,以及红外接收器中的至少一种。显示设备200可以通过通信器220与外部控制设备100或服务器400建立控制信号和数据信号的发送和接收。
用户接口,可用于接收控制装置100(如:红外遥控器等)的控制信号。
检测器230用于采集外部环境或与外部交互的信号。例如,检测器230包括光接收器,用于采集环境光线强度的传感器;或者,检测器230包括图像采集器,如摄像头,可以用于采集外部环境场景、用户的属性或用户交互手势。
外部装置接口240可以包括但不限于如下:高清多媒体接口接口(HDMI)、模拟或数据高清分量输入接口(分量)、复合视频输入接口(CVBS)、USB输入接口(USB)、RGB端口等任一个或多个接口。也可以是上述多个接口形成的复合性的输入/输出接口。
调谐解调器210通过有线或无线接收方式接收广播电视信号,以及从多个无线或有线广播电视信号中解调出音视频信号,如以及EPG数据信号。在一些实施例中,控制器250和调谐解调器210可以位于不同的分体设备中,即调谐解调器210也可在控制器250所在的主体设备的外置设备中,如外置机顶盒等。
控制器250,通过存储在存储器上中各种软件控制程序,来控制显示设备的工作和响应用户的操作。控制器250控制显示设备200的整体操作。例如:响应于接收到用于选择在显示器260上显示UI对象的用户命令,控制器250便可以执行与由用户命令选择的对象有关的操作。
在一些实施例中,控制器250包括中央处理器(Central Processing Unit,CPU),视频处理器,音频处理器,图形处理器(Graphics Process ing Unit,GPU),RAM RandomAccess Memory,RAM),ROM(Read-Only Memory,ROM),用于输入/输出的第一接口至第n接口,通信总线(Bus)等中的至少一种。
为了支持用户的手势交互方式,在一些实施例中,显示设备200可以内置或外接图像采集器231。其中,对于内置于显示设备200的图像采集器231,可作为显示设备200的一种采集器230。例如,部分显示设备200可以自带摄像头,自带的摄像头可设置在显示设备200的顶部或底部边框位置,如图3所示。显示设备200自带的摄像头可以直接使用显示设备200内部的数据总线与其他部件进行连接,实现数据传输。
在一些实施例中,显示设备200内置的摄像头还可以支持升降。即摄像头可以设置在升降机构上,当需要进行图像采集时,通过特定的升降指令,控制升降机构进行运动,从而带动摄像头升高,以进行图像采集。而在不需要进行图像采集时,同样可以通过特定的升降指令,控制升降机构进行运动,从而带动摄像头降低,以隐藏摄像头。
对于外接于显示设备200的图像采集器231,其本身可以是一个独立的外设,并通过特定的图像采集接口连接显示设备200。例如,如图4所示,图像采集器231可以为独立的摄像头设备,显示设备200上可以设有通用串行总线接口(Universal Serial Bus,USB)或高清晰度多媒体接口(High Definit ion Multimedia Interface,HDMI),图像采集器231则通过USB接口或HDMI接口连接显示设备200。为了便于对用户的手势交互动作进行检测,在一些实施例中,外接于显示设备200上的图像采集器231可以设置在靠近显示设备200的位置,如图像采集器231通过夹持装置夹在显示设备200的顶部,或者图像采集器231放置在显示设备200附近的桌面上。
显然,对于外接于显示设备200的图像采集器231,还可以根据显示设备200的具体硬件配置,支持其他方式连接。在一些实施例中,图像采集器231还可以通过显示设备200的通信器220与显示设备200建立连接关系,并按照通信器220对应的数据传输协议将采集的图像数据发送给显示设备200。例如,显示设备200可以通过局域网或互联网连接图像采集器231,则在建立网络连接后,图像采集器231可以将采集的数据通过网络传输协议发送给显示设备200。
在一些实施例中,图像采集器231还可以通过无线网络连接的方式外接显示设备200。例如,对于支持WiFi无线网络的显示设备200,其通信器220中设有WiFi模块,因此,可以通过将图像采集器231和显示设备200连接同一个无线网络,使显示设备200和图像采集器231建立无线连接。在图像采集器231采集到的图像数据后,可以先将图像数据发送给无线网络的路由器设备,在由路由器设备转发给显示设备200。显然,图像采集器231还可以通过其他无线连接方式直接与显示设备200建立无线连接关系。例如,图像采集器231为磁吸摄像头,并设有蓝牙连接模块。可以通过磁吸作用将摄像头吸附在显示设备200的外壳上,同时通过蓝牙连接模块与显示设备200建立蓝牙连接,从而传输图像数据。其中,无线连接方式包括但不限于WiFi直连、蜂窝网络、模拟微波、蓝牙、红外等。
无论是内置于显示设备200的图像采集器231还是外接于显示设备200的图像采集器231,用户均可以在使用显示设备200的过程中,通过特定的交互指令或者应用程序控制启动图像采集器231采集图像数据,并根据不同的需要对采集的图像数据进行相应的处理。例如,显示设备200中可以安装“视频通话”应用,当用户控制显示设备200启动该应用程序后,该应用程序可以自动向图像采集器231发起唤醒命令,以启动图像采集器231进行图像拍摄。并随着图像拍摄进程的进行,图像采集器231可以将拍摄的图像数据发送给显示设备200,形成图像数据流。同理,当用户控制退出“视频通话”应用时,则该应用还向图像采集器231发送休眠命令,以控制图像采集器231停止采集图像数据。
图像采集器231采集的图像数据,可以经过图像采集器231和显示设备200之间的数据传输路径,发送给显示设备200内部的其他模块,以供对应的模块进行使用。例如,在运行图像识别相关应用时,图像采集器231可以将图像数据发送给控制250进行处理,控制器250再通过运行特定的图像处理应用程序,对图像数据中的目标进行识别,以识别出图像中的特征目标。而在运行视频通话类应用时,图像采集器231采集的图像数据可以被控制器250处理形成通话数据流,再将通话数据流发送给通信器220,以通过通信器220传递给视频通话的对方用户中进行显示。
在一些实施例中,显示设备200可以通过图像采集器231进行手势交互。在手势交互过程中,用户可以在图像采集器231的拍摄范围内摆出特定的手势,则图像采集器231可以采集到手势图像。再将采集到的手势图像发送给显示设备200,以使显示设备200可以对手势图像中的手势类型进行识别,并按照手势交互中设定的交互策略,确定该手势对应的控制指令,并实施该控制指令。
例如,当用户在图像采集器231的拍摄范围内摆出五指并拢且手掌面向图像采集器231的手势时,显示设备200可以在图像采集器231采集的手势图像中识别出该手势,并针对该手势确定控制指令为“暂停/开始播放”。最后通过运行该控制指令,对当前播放界面执行暂停或开始播放控制。
上述实施例中,一个手势类型可以对应一种控制指令,显示设备200可以根据用途不同,针对不同的用途设置用于触发特定控制指令的手势。但是,上述手势识别的核心是采用静态手势识别方式,静态手势识别只能识别手势类型和手势位置,很难识别手势姿态数据,没有办法达到精细控制的效果。并且,由于手部能够摆出的手势类型较少,且摆出的手势中,便于进行检测识别的类型更少。
因此,在一些实施例中,显示设备200还可以支持动态手势交互。其中,所述动态手势是指在一次交互过程中,用户在特定的检测周期内摆出两个或两个以上的手势类型。通过多个类型的手势进行组合,可以扩展显示设备200的手势交互类型,提高手势交互形式的丰富程度。
例如,用户在2s时间内将手势从五指张开调整至五指并拢,即输入持续2s的抓取动作,则显示设备200可以在2s的检测周期内持续获取手势图像,并逐帧识别手势图像中的手势类型,从而按照多帧图像中的手势变化识别出抓取动作。最后确定抓取动作对应的控制指令,即“全屏/窗口播放”,并执行该控制指令,对播放窗口的大小进行调节。
在一些实施例中,动态手势识别可以采用深度学习等训练方法进行模型训练获得动态手势识别模型,再将多个连续帧手势图像数据输入训练获得的动态手势识别模型,经过模型内部的分类算法计算得到当前多帧手势图像对应的目标动态手势。目标动态手势通常可以关联一个特定的控制指令,显示设备200可以通过执行该控制指令,实现动态手势交互。
例如,可以基于手势图像数据生成训练数据,训练数据中每一帧手势交互图像都被设置有分类标签,即表示当前帧手势交互图像对应的手势类型。同时,多个连续帧手势交互图像还被统一设置动态手势标签,即表示多帧手势交互图像对应的动态手势。在生成训练数据后,可以将包含多个连续帧手势图像的训练数据输入初始动态手势识别模型,以获得识别模型输出的分类概率。再将模型输出的分类概率与训练数据中的分类标签进行损失函数运算,计算分类损失。最后根据计算获得的分类损失反向传播调整识别模型中的模型参数。重复上述“分类计算-损失计算-反向传播”的模型训练过程,通过大量训练数据即可获得能够输出准确分类概率的识别模型。利用训练获得的识别模型,显示设备200可以将实时检测的多个连续帧手势交互图像输入该识别,从而获得模型输出的分类结果,确定多个连续帧手势交互图像对应的动态手势,再匹配动态手势对应的控制指令,实现动态手势交互。
在一些实施例中,动态手势交互还可以支持用户的自定义操作,即提供一种动态手势交互方法,所述方法可应用于显示设备200。为了满足用户的手势交互,显示设备200应至少包括显示器260和控制器250。并内置或外接至少一个图像采集器231。其中,显示器260用于显示用户界面,辅助用户的交互操作;图像采集器231用于采集用户输入的手势交互图像。如图5所示,控制器250则被配置为执行所述动态手势交互方法对应的应用程序,包括如下内容:
获取手势信息流。其中,所述手势信息流是由图像采集器231通过连续的图像拍摄而生成的视频数据,因此所述手势信息流包括连续多帧手势交互图像。显示设备200在启动手势交互后,可以向图像采集器231发送开启指令,启动图像采集器231进行图像拍摄。在启动图像拍摄后,用户可以在图像采集器231的拍摄范围内做出动态手势,则图像采集器231可以随着用户的动态手势动作,连续拍摄多帧手势交互图像。并实时将拍摄获得的多帧手势交互图像发送给控制器250形成手势信息流。
由于手势信息流中包括多帧手势交互图像,而手势交互图像是由图像采集器231进行拍摄获得,因此手势信息流中所包含的手势交互图像帧率可以和图像采集器231的图像拍摄帧率相同。例如,当图像采集器231以每秒30帧(30FPS)的帧率进行图像拍摄时,控制器250也可以按照每秒30帧的帧率获取的手势信息流。
但是在一些计算能力较弱显示设备200,过高的帧率将导致控制器250的实时数据处理量过大,影响手势识别的响应速度。因此,在一些实施例中,显示设备200还可以获得较低帧率的手势信息流。为了降低手势信息流的帧率,显示设备200可以在图像采集器231拍摄获得的图像中,等间隔地提取多帧手势图像。例如,显示设备200可以在图像采集器231拍摄获得的手势图像中,每间隔一帧提取一帧手势交互图像,从而获得帧率为15的手势信息流。显示设备200还可以向图像采集器231发送用于帧率调节的控制指令,控制图像采集器231每秒只拍摄15帧手势图像数据,从而形成帧率为15的手势信息流。
需要说明的是,由于动态手势的输入过程会受到不同用户动作输入速度的影响,即部分用户的手势输入动作较快,部分用户的手势输入动作较慢。显然,对于动作较慢时输入的手势,相邻帧之间的手势差异较小,则低帧率的手势信息流也能够表征完整的手势输入过程。而对于动作较快时输入的手势,相邻帧之间的手势差异较大,则低帧率的手势信息流有可能丢失部分关键手势,影响手势识别的准确率。因此,为了提高手势识别的准确率,显示设备200应尽可能保持较高的帧率获取手势交互图像,例如,手势信息流的帧率可维持在15-30FPS区间内。
并且,在一些实施例中,显示设备200还可以根据当前运行负荷,在特定的区间内动态调整手势信息流的帧率,以实现在运算能力充足时,通过获取高帧率手势信息流提高手势识别的准确率;而在运算能力不足时,通过获取低帧率手势信息流减少对控制器250运算能力的过度消耗。
在获取手势信息流后,显示设备200可以对手势信息流中的每帧手势交互图像进行手势识别处理,以便从手势信息流中提取出关键手势信息。其中,手势识别处理可以基于图像识别算法,在手势交互图像中识别手指、关节、手腕等关键点的位置。即关键点坐标用于表征手关节在手势交互图像中的成像位置。
例如,显示设备200可以通过特征形状匹配的方式,在手势交互图像中识别各关键点在当前手势交互图像中的位置坐标。再将各关键点坐标按照设定的顺序组成信息向量。即如图6所示,用于表征手势动作的关键点可以包括21个手指关键点,每个关键点的位置信息都可以通过对应点的坐标进行表示。如对于指尖关键点,拇指指尖坐标为PT1=(xt1,yt1),食指指尖坐标为PT2=(xt2,yt2),中指指尖坐标为PT3=(xt3,yt3)……;同理,对于指中关键点,也同样采用上述坐标表示方式,即拇指指中坐标为PM1=(xm1,ym1)……;而指根关键点为PB1=(xb1,yb1)。
上述指尖、指中以及指根坐标可以组合形成用于表示指尖信息、指中信息以及指根信息的向量,即指尖信息FT为:
FT=[PT1,PT2,PT3,PT4,PT5]
指中信息FM为:
FM=[PM1,PM2,PM3,PM4,PM5]
指根信息FB为:
FB=[PB1,PB2,PB3,PB4,PB5]
除上述指尖FT、指中FM、指根FB坐标信息外,显示设备200还可以在手势交互图像中提取掌心坐标PPalm和手腕坐标PWrist。再将这些坐标信息组合形成手势关键坐标集HInfo。即手势关键坐标集HInfo为:
HInfo=[PPalm,PWrist,FT,FM,FB]
可见,上述手势关键坐标集为多个关键点坐标组合成的坐标集。因此基于对上述手势关键坐标集中关键点位置的相互关系,显示设备200可以从根据手势关键坐标集确定关键手势类型。为了确定关键手势类型,在一些实施中,显示设备200可以从手势信息流中提取关键手势信息时,先识别手势交互图像中的关键点坐标,再从数据库中提取预设的关键点标准坐标。其中,关键点标准坐标为显示设备200的运营商通过对人群手势进行统计分析所确定的模板坐标集,每种手势可以设有对应的关键点标准坐标。
在提取关键点坐标和关键点标准坐标后,显示设备200可以计算关键点坐标与关键点标准坐标的差值。如果计算获得的差值小于或等于预设识别阈值,即确定当前手势交互图像中的用户手势与标准手势模板中的手势类型相似,因此可以确定关键点标准坐标对应的手势类型为目标手势类型。
例如,用户对图像采集器231摆出五指并拢手势,则通过对该手势对应的一帧手势交互图像进行识别,可以获得手势关键坐标集HInfo1,再从数据库中匹配五指并拢手势相近的标准手势,以提取关键点标准坐标H’。通过计算两个坐标集之间的差值,即H=HInfo1-H’,如果差值小于或等于预设识别阈值H”,即H≤H”,则匹配命中该目标坐标集,因此可以确定该当前手势交互图像中的目标手势类型为五指并拢手势。
在一些实施例中,所述关键手势信息还可以包括置信度参数,用于表征各手势类型与标准手势之间的差异。此时,关键手势信息还可以包括以下能够表示关键手势类型的参数项,即手势姿态信息包括但不限于:手面向HF(Hand Face),手朝向HO(HandOrientation),手朝向偏角信息HOB,左右手HS(Hand Side),手势伸缩状态HT(Handstretched)等。其中,每个参数项均可以通过上述手势关键坐标集计算获得。
其中,手朝向信息,可用于表示画面中手指指尖的朝向,即如图7所示,指尖朝上为Up,朝下为Down,朝左为Left,朝右为Right,朝前(中)为Center,默认为Unknown,因此,手朝向信息可以表示为:
HO={Up,Down,Left,Right,Center,Unknown}
同理,在识别手朝向信息的同时,还可以根据具体关键点坐标之间的位置关系,确定手朝向偏角信息,等同于手朝向信息的置信度。例如,手虽然检测为Left,但是依然会有偏角,可能不是完全朝向左方,这时就需要根据偏角信息进行一些后续处理,也可以防止误触发。即手朝向偏角可以表示为:
HOb=a(0<a<90)
显示设备200可以优先提取手朝向信息,即根据左右手和食指关键点信息生成手朝向信息,显示设备200可以使用食指指根信息PB2、小拇指指根信息PB5、手腕信息PWrist,左右手信息HS生成,手朝向偏角信息HOB,手横向纵向信息HXY,手姿态偏角信息HXB,HYB,最终得到手朝向信息HO。即:
HO=g(HOB,HXY,HXB,HYB)=f(PB2,PB5,PWrist,HS,α)
生成逻辑如下,计算食指指根PB2和小拇指指根PB5所在向量与x轴方向的偏角f(ΔX,ΔY),该偏角的取值范围为(0°,90°)。根据偏角可得到手朝向信息,再通过设置偏角阈值,用于判断朝向信息是否有效。例如,可以设定偏角阈值β为5,即45±5范围内认为朝向信息无效,手横向纵向信息HXY,即生成公式如下:
式中,ΔX为食指指根和小拇指指根的水平坐标差;ΔY为食指指根和小拇指指根的竖直坐标差;f(ΔX,ΔY)为偏角;β为偏角阈值。
再计算食指指根和小拇指指根的中间点PM,以及计算食指到小拇指之间的四个手指指根连线的中点,然后计算PM和手腕坐标PWrist的差值ΔY和食指指根和小拇指指根的差值ΔX,进而可得到手朝向俯仰角度信息:
式中,HYB为手朝向俯仰角度;ΔX为食指指根和小拇指指根的水平坐标差;ΔY为食指指根和小拇指指根的竖直坐标差。
若俯仰角度过大,则认为是手朝向为Center,具体阈值为α。由于Center朝向的姿态判定误差较大,不能作为动作的判定标准,因此在一些精细度要求不高的场景下,可以直接等同于Unknown。即判断公式如下:
式中,HO为手朝向信息,包括Center和其他两种状态,α为手朝向俯仰角度阈值。
显然,对于某些要求动作精细的场景下,需要更为精准的手姿态偏角信息HXB,HYB,因此显示设备200可以对用户的手进行建模,对不同距离预设手属性信息,得到更为精准的手姿态偏角信息。即用户可以预先输入不同距离下的手型(size)信息,后根据当前帧距离信息,食指指根信息PB2、小拇指指根信息PB5、手腕信息PWrist,左右手信息HS可生成手姿态偏角信息HXB,HYB。
根据中间点PM信息,手腕信息PWrist,手横纵信息HXY,左右手信息HS可生成对应的朝向信息。例如,右手纵向情况下,需要对比手腕和中间点的Y轴信息,若中间点y值小于手腕y值,证明为纵向。因此:
HO=l(PM,PWrist,HXY,HS)
手面向信息HF表示画面中手面向的信息,可以包括表示面向的具体值,即前向为Front,背向为Back。手面向信息HF默认为Unknown。即:
HF={Front,Back,Unknown}
在进行手面向信息的识别过程中,还可以确定手面向偏角信息,用于表征手面向的程度,等同于手面向信息的置信度。例如,用户的手虽然检测为Front,但是依然会有偏角,可能不是完全朝向前方,这时就需要根据偏角信息进行一些后续处理,以防止误触发手势。即:
HFb=a(0<a<90)
通过提取手势面向信息,以及根据食指指根信息PB2、小拇指指根信息PB5、左右手信息HS、手势朝向信息HO生成手面向信息HF,生成逻辑为,以右手朝上为例,若食指指根的x小于小拇指指根的x,证明为Front,更多细节不再赘述,以通用公式代替:
HF=g(PB2,PB5,HS,α,HO)
对于左右手信息,可用于表示画面中的手影像归属于用户的左手还是右手的成像,其中,左手为Left,右手为Right,因此左右手信息可以表示为:
HS={Right,Left,Unknown}
对于手势伸缩状态,可用于表示手指的伸缩状态,即处于伸开状态的手指状态可以表示为1,处于收缩状态的手指状态可以表示为0。显然,对于手指的伸缩状态不仅包括伸开和收缩两种状态,因此也可通过设置不同的值表示伸缩状态,例如,可以设置表示伸缩状态的值为0,1,2。其中,完全收缩为0,半伸开为1,全伸开为2,可根据具体应用场景灵活变换。因此手势伸缩状态可以表示为:
HT=[F1,F2,F3,F4,F5]F=0 or 1 or 2)
式中,F1~F5分别代表五个手指的伸缩状态。
提取手势伸缩状态,在该部分,主要提取每根手指的蜷缩状态,依据为手朝向、手面向、左右手、手势关键点等信息,最终提取得到的蜷缩状态属性为0或1(本实施例以状态属性0或1为例),其中,0为蜷缩状态,1为伸开状态。以HO=Up,HS=Right,HF=Front为例,即用户摆出右手面向摄像头,手朝上的情况,假设食指指尖坐标为50,食指指中坐标为70,食指指尖在指中上方,则表示手指伸开,为1,若食指指尖为30,指中为50,则为蜷缩状态。
拇指和其余四指的对比方式不同,在其余四指对比横坐标的时候,拇指需要对比纵坐标。在手朝向为Up和Down的情况下,拇指需要对比x坐标,其余四指需要对比y坐标;而在手朝向为Right和Left的情况下,拇指需要对比y坐标,其余四指需要对比x坐标。其中,拇指需要对比指根和指尖的状态,其余四指需要对比指中和指尖的状态,也可根据具体场景调整对比点位,最终得到5根手指的蜷缩状态信息。
通过上述手势识别过程,可以得到当前帧关键手势信息,包括手面向HF,手朝向HO,手朝向偏角信息HOB,左右手HS,手势伸缩HT。其中,手朝向偏角信息可用于判断手势朝向的准确定,在特定场景可以设置阈值,过滤一些模糊姿态手势,提高手势识别准确率。以右手,手背面向摄像头,手势朝下(偏角86度),比手势1为例,其最终的关键手势信息GInfo可以表示为:
GInfo={HF=Back,HO=Down,HS=Right,HT={0,1,0,0,0},HOB=86}
由于用户动态手势为一个持续输入过程,即手势交互动作可以划分为多个阶段,因此关键手势信息包括多个阶段的关键手势类型。在一些实施例中,显示设备200可以通过遍历多个连续帧手势交互图像对应的目标手势类型,并确定多帧手势交互图像对应关键手势类型的交集,即根据多个连续帧手势交互图像划分动态手势的多个阶段,每个阶段中的手势交互图像归属于相同的目标手势类型。
例如,显示设备200可以通过对多帧手势交互图像photo1~photon中的手势关键坐标集进行分析,确定出每帧手势交互图像中的关键手势类型type1~typen。再对比多帧手势交互图像的关键手势类型type1~typen,从而将关键手势类型相同的多帧手势交互图像,如photo1~photo30和photo31~photon,分别确定为两个阶段,从而确定这两个阶段的关键手势类型,即type1=type2=…=type30和type31=type32=…=typen。
对于多个阶段对应的置信度参数,在一些实施例中,置信度参数包括关键手势偏角,则显示设备200可以根据关键点坐标与关键点标准坐标,计算手势偏角;再遍历每个阶段中多个连续帧手势交互图像对应的手势偏角,以获得每个阶段中的偏角并集;提取每个阶段中的所述偏角并集中的极值,以作为当前阶段关键手势信息中的关键手势偏角。
在提取出关键手势信息后,显示设备200可以调用检测模型进行动态手势匹配。其中,所述检测模型是一种匹配模型,包含多个以树形结构存储的节点,每个节点中设有手势姿态模板。多个节点可以分别处于不同的层级,除根节点和叶子节点外,每个层级的节点中均设有上级节点,且每个层级的节点均被指定下级节点。例如,在显示设备200的存储器中,可以预先存储多个手势姿态模板,每个手势姿态模板用于表征一种静态手势动作。同时,显示设备200还根据存储的手势姿态模板构建手势检测模型,在所述检测模型中,可以赋予每个手势姿态模板对应的节点属性和下级节点。因此,在显示设备200中,手势姿态模板可以仍然保持原本的存储数量,仅通过赋予节点属性即可构成检测模型。
显然,对于检测模型,每个节点中仅插入一个手势姿态模板,而每个手势姿态模板可以赋予多个节点属性。例如,一个“抓取-松开”的动态手势包括三个阶段,即五指张开手势、五指蜷缩手势、五指张开手势。其对应在检测模型中的节点和手势姿态模板为:根节点-“五指张开手势”;一级节点-“五指蜷缩手势”;二级节点-“五指张开手势”。可见,对于各节点,仅插入一个手势姿态模板,而对于各手势姿态模板,则对应赋予不同层级的节点属性,即“五指张开手势”目标被赋予了根节点和二级节点两个节点属性。
在检测模型中,根节点用于初始化匹配,可以包括多个手势姿态模板,可用于匹配用户输入的初始手势。例如,根节点可以插入用于表征触发手势交互的手势姿态模板。检测模型中的叶子节点中通常不插入特定的手势姿态模板,而是插入用于表示特定响应动作的控制指令,因此在本申请实施例中,除另有说明外,所述检测模型的节点不包括叶子节点。
在调用检测模型后,显示设备200可以使用检测模型匹配关键手势信息,以获得目标动态手势,其中目标动态手势在每个阶段关键手势类型与手势姿态模板相同,且置信度参数在置信度区间内的节点组合。因此,目标动态手势可以通过一个动作(action)路径进行表示。为了确定目标动态手势,显示设备200可以将关键手势信息中各阶段的关键手势类型与检测模型中的各层级节点上的手势姿态模板进行匹配。
在使用检测模型进行关键手势匹配的过程中,显示设备200可以先基于各阶段的关键手势类型,在对应层级中匹配类型相同的手势姿态模板。并在匹配命中一个手势姿态模板时,记录该手势姿态模板对应的节点。同时,显示设备200还判断该节点的置信度参数是否在预设的合理置信度区间范围内。如果当前阶段关键手势类型与手势姿态模板相同,且置信度参数在置信度区间内,则开始下一阶段的匹配。
例如,对于“抓取-松开”的动态手势,在用户输入该动态手势以后,显示设备200可以先对第一阶段的“五指张开手势”与根节点中的手势姿态模板进行匹配,当匹配确定“五指张开手势”与一个根节点中的五指张开手势模板相同或相近时,可以判断第一阶段的置信度参数是否在预设的置信度区间内,即手势朝向偏角是否在预设偏角区间内。如果手势朝向偏角在预设偏角区间内,则开始第二阶段关键手势“五指蜷缩手势”与根节点的下级节点进行上述匹配。
经过对每个阶段的关键手势与对应层级的节点进行匹配后,显示设备200可以获得由多个匹配命中节点组成的动作路径,动作路径最终会指向一个叶子节点,叶子节点对应一个目标动态手势,因此,显示设备200可以在匹配完成后得到目标动态手势,并执行目标动态手势关联的控制指令。
例如,根据显示设备200的手势交互策略的设定,抓取-松开”的动态手势可用于删除当前选中的文件,因此,显示设备200可以在匹配获得“根节点-五指张开;一级节点-五指蜷缩;二级节点-五指张开”的动作路径后,获得删除指令,并通过执行删除指令,对当前选中的文件进行删除。
可见,在上述实施例中,显示设备200通过对手势信息流中各阶段的手势姿态信息进行提取,并使用具有树结构节点形式的检测模型对手势姿态信息进行匹配,可以按照手势输入阶段逐层确定动作路径,从而获得目标动态手势。由于检测模型采用树结构的节点形式,因此在进行手势关键信息匹配的过程中,可以避免每次读取动态手势模板,重复监测。此外,树结构的检测模型还支持用户随时插入节点,实现手势录入。并且通过调整每个节点的置信度区间,可以自定义节点匹配过程的命中率,使检测模型能够使用不同用户的手势习惯,实现自定义手势操作。
在一些实施例中,为了使显示设备200可以针对关键手势信息进行手势类型匹配,显示设备200可以在使用检测模型匹配关键手势信息时,先从多阶段关键手势信息中提取第一阶段关键手势类型。再根据第一阶段关键手势类型匹配第一节点,其中,所述第一节点为存储的手势姿态模板与第一阶段关键手势类型相同的节点。匹配获得第一节点以后,显示设备200可以再从关键手势信息中提取第二阶段关键手势类型,其中,第二阶段为第一阶段的后续动作阶段。再根据第二阶段关键手势类型匹配第二节点。同理,第二节点为存储的手势姿态模板与第二阶段关键手势类型相同的节点,即第一节点指定的下级节点包括第二节点。最后记录第一节点和第二节点,以获得动作分支。
例如,显示设备200中可以预先注册4种关键手势模板,分别对应的关键手势信息为Ginfo1-Ginfo4,对应能够组合出AM1-AM5五种动态手势。其中,AM1-AM4的第一阶段关键手势类型相同,AM3-AM4的第二阶段手势类型也相同,如图8所示,可以得到对应的树形结构检测模型,对应的动态手势表示如下:
在进行关键手势信息匹配时,显示设备200可以按照检测模型树结构的节点存储层级,优先对GInfo1和GInfo2的关键手势信息进行匹配。若匹配到关键手势信息为GInfo1则会根据GInfo1对应根节点被指定的下级节点进行续继续监测,即匹配关键手势模板为GInfo2、GInfo3以及GInfo4的下级节点。同理,如果在第二层级节点的匹配过程中,匹配到关键手势信息为GInfo4,则会继续监测下级节点,即第三层级中的GInfo2和GInfo3对应的节点。依次进行后续层级的节点匹配,直至监测到叶子节点,如在第三层级中匹配命中GInfo3的节点,则会返回动作AM3。若在一个层级节点的匹配期间,检测到检测模型当前层级节点中未存储的其他动作,则会重回树根节点,重新监测GInfo1和GInfo2。
需要说明的是,上述实施例中,第一阶段、第二阶段以及第一节点和第二节点仅仅用于表征动态手势中不同阶段的先后关系以及检测模型中不同节点的上下层级关系,并不具有相应的数字含义。在使用检测模型进行关键手势信息的匹配过程中,同一阶段的手势姿态既可以作为第一阶段也可以作为第二阶段,同理,同一个节点也既可以作为第一节点也可以作为第二节点。
例如,在使用检测模型进行关键手势信息匹配的开始阶段,需要对开始阶段的关键手势信息与检测模型中的根节点进行匹配,此时,开始阶段为第一阶段,开始阶段的下一个阶段为第二阶段;匹配命中的根节点为第一节点,根节点的下一层级匹配命中的节点为第二节点。而在开始阶段完成匹配后,显示设备200则会继续使用检测模型对关键手势信息进行匹配。此时,开始阶段的下一阶段为第一阶段,第一阶段的下一个阶段为第二阶段;而在根节点下一层级节点中匹配命中的节点为第一节点,第一节点下一层级匹配命中的节点为第二节点。因此,在使用检测模型进行匹配的过程中,可以重复上述过程,直至匹配到最终的叶子节点。
具有树结构的检测模型还支持用户的手势录入过程,即在一些实施例中,显示设备200可以在根据第二阶段关键手势类型匹配第二节点时,遍历第一节点的下级节点存储的手势姿态模板;如果所有下级节点存储的手势姿态模板均与第二阶段关键手势类型不同,即用户输入的动态手势为一种新的手势,此时可以触发显示设备200进行手势录入,即控制显示器260显示录入界面。
录入界面可以提示用户进行手势录入,为了获得准确的动态手势,在进行手势录入的过程中,录入界面可以通过提示消息,提示用户重复多次摆出需要录入的动态手势。即用户对同一行为进行多次循环录入。同时,用户还可以通过录入界面指定录入的动态手势所关联的控制指令。显示设备200则在用户每次进行录入时,按照上述示例提取关键手势信息,并与检测模型的节点进行匹配,当在其中一个层级的节点中未匹配到关键手势模板时,根据对应阶段的关键手势类型,在当前层级添加新节点。
为了减少手势录入过程对用户手势交互操作的影响,在一些实施例中,显示设备200可以在显示录入界面前,通过提示消息或窗口询问用户是否启动录入,并接收用户基于该窗口输入的指令。如果用户输入了录入手势信息,则可以接收用户基于录入界面输入的录入手势信息,并响应于录入手势信息,为检测模型设置新节点,新节点为第一节点的下级节点。最后在新节点存储对应阶段的手势类型,以作为新节点的手势姿态模板。
可见,在上述实施例中,显示设备200可以基于树结构的检测模型实时进行动态手势录入,通过确定待录入Action并录入用户行为,检测行为树结构中是否有对应Act ion分支。若没有对应Action分支,则进行手势关键姿态提取,然后得到对应的行为模板,将对应节点插入行为树,完成动态手势录入。显然,在进行动态手势录入的过程中,如果用户输入的动态手势在检测模型中有对应Action分支,则根据分支模板对用户行为进行检测,若检测成功,则无需对检测模型的节点状态进行改变。
在一些实施例中,显示设备200在使用检测模型对关键手势信息进行匹配时,还可以对相应的置信度进行判断,其中,置信度可以包括手势偏角和关键手势维持帧数。对于手势偏角,显示设备200可以在匹配命中一个节点后,获取检测模型中对应节点预设的置信度区间;再对比当前阶段关键手势偏角与对应节点的置信度区间。如果关键手势偏角在置信度区间内,则记录对应的当前节点并开始当前节点的下级节点匹配;如果关键手势偏角不在置信度区间内,则确定手势偏差较大,因此需要进一步判断或者进行适应性调整。
由于置信度参数不在置信度区间内可能是用户输入习惯造成的,显示设备200还可以针对用户习惯调整检测模型参数。因此,在一些实施例中,如果在使用检测模型对关键手势信息进行匹配的过程中,一个阶段的关键手势类型与节点中的手势姿态模板相同,但关键手势偏角不在置信度区间内,显示设备200还可以按照手势偏角修改置信度区间。
需要说明的是,在进行模板匹配时,显示设备200可以对手朝向、手面向、手指伸缩信息进行匹配,若匹配成功,再检测置信度阈值是否成功匹配,若成功匹配则认为手势匹配成功。而在进行手势录入时,显示设备200只需要对手朝向、手面向、手指伸缩信息进行匹配。若匹配成功即算模板匹配成功,若动态手势中的所有手势都匹配成功,则认为动态手势匹配成功,最后根据其中最佳置信度进行模板置信度优化。
其中,最佳置信度可以通过多次输入手势交互图像时的部分关键帧进行计算获得。例如,在手势检测过程中,动态手势中有个五指向上的动作,这个动作的在特定顺序中出现了10次,而检测时只要检测到三次就认为检测到该手势。则在这10次中会有8个连续手势符合标准(10-3+1),需要选取其中置信度平均最低的那一次,因为在手势开始和结束的阶段,由于手势和其他手势连接动作处可能会有较大偏角,导致偏角值过大,若采用该部分偏角值为置信度值,会出现很多误检测情况。
对于关键手势维持帧数这一置信度参数,其为手势交互图像中与第一阶段关键手势类型相同的连续帧数。在一些实施例中,显示设备200还可以在根据第二阶段关键手势类型匹配第二节点前,获取维持帧数;如果第一阶段关键手势类型的维持帧数大于或等于帧数阈值,即用户较长时间的保持了一个手势动作,不属于误输入的情况,因此可以根据第二阶段关键手势类型匹配第二节点。而如果第一阶段关键手势类型的维持帧数小于帧数阈值,当前输入与预定的动态手势可能存在不同,因此可以按照上述实施例启动手势录入,即控制显示器260显示录入界面,以更新置信度区间。
例如,在一个手势交互动作过程中,会出现多种手势类型,因此,需要提取其中较为明显的特征手势来作为该动作的特征姿态。其中,核心的手势姿态特征为手朝向和手指伸缩状态,因此,显示设备200可以对动作帧进行手势关键点识别和关键手势信息提取;再对关键手势信息进行循环匹配,若手势面向、手朝向、左右手、手指伸缩状态相同,则判断为同类手势。每检测到一次同类手势,就更新偏角信息和同类手势数量信息,偏角信息取最大范围,同类手势数量信息需要大于阈值。该阈值会根据帧率确定,也可以设置为固定值,如设置为3。对动作帧进行处理,选取其中符合条件的手势姿态,在对多个动作帧进行处理时,取动作交际,每个动作姿态的参数取并集,最终得到对应的关键手势模板。
由于用户在录入某个手势时,做的动作比较标准,但在使用手势交互时,则可能比较随意,不太在意姿势是否标准。尤其在用户比较着急的时候,可能做的手势很不标准。导致显示设备200在进行动态手势检测时识别不准确,降低用户体验。
为了改善上述问题,提高用户体验,在一些实施例中,显示设备200还可以在进行动态手势检测时,采取伪跳转的方式。即显示设备200可以获取中间阶段置信度参数,所述中间阶段为关键手势信息的多阶段中,位于开始阶段和结束阶段之间一个阶段。再对比中间阶段置信度参数与对应节点的置信度区间,如果中间阶段置信度参数不在对应节点的置信度区间内,标记中间阶段对应的节点为预跳转节点。再按照检测模型对预跳转节点的下级节点执行匹配,以根据预跳转节点的下级节点匹配结果确定目标动态手势。
在按照检测模型对预跳转节点的下级节点执行匹配时,显示设备200可以获取预跳转节点的下级节点匹配结果;如果匹配结果为命中任一下级节点,记录预跳转节点和命中的下级节点,以作为目标动态手势的节点;如果匹配结果为未命中下级节点,舍弃预跳转节点,重新从上级节点进行匹配。
例如,如图9所示,在检测到动作G1后,会进入后续动作G2的检测。此时,如果出现一个动作G2,但是置信度参数超出置信度区间,显示设备200则会进行一次伪跳转,即同时进行动作G1的后续检测和动作G2的后续动作检测。若进行伪跳转后检测到动作G3,则认为之前的伪跳转成立,直接进入动作G3。如图10所示,若进行伪跳转后未检测到动作G3,但是出现动作G4,而动作G1和动作G4刚好组成另一个Action路径,则认为此次伪跳转不成立,继续进行动作G4后续动作检测。
为了更好的实施伪跳转的方式,显示设备200可以设置一个伪跳转阈值,如不在置信度区间的一个特定置信度参数值,则在置信度参数小于伪跳转阈值时才进行伪跳转。并且,每进行一次伪跳转都会有提示,用户可以通过特定按键或特定手势删除此次伪跳转。在伪跳转一定次数后,显示设备200会对伪跳转涉及的Action节点进行优化,增大指定阈值以适应用户动作风格。
其中,显示设备200可以通过多种方式更新伪跳转阈值,例如,每进行一次伪跳转,就弹出提示,默认会更新Act ion节点信息,若用户认为此次检测为误检测,则只需删除此次识别即可。显示设备200也可以在多次伪跳转后更新伪跳转阈值,以获得更好的用户体验。此外,对于伪跳转过程,还可以设定一个次数阈值,即在检测过程中,有多次伪跳转,那么超过一定次数后,则认为前面的伪跳转无效。
基于上述动态手势交互方法,本申请的部分实施例中还提供一种显示设备200。所述显示设备200包括:显示器260、图像采集接口以及控制器250。其中,显示器260被配置为显示用户界面;图像采集接口被配置为采集用户输入的手势交互图像;如图11、图12所示,控制器250被配置为执行以下程序步骤:
获取手势信息流,所述手势信息流包括连续多帧手势交互图像;
从所述手势信息流中提取关键手势信息,所述关键手势信息包括多个阶段的关键手势类型和每个阶段的置信度参数;
使用检测模型匹配所述关键手势信息,以获得目标动态手势,所述检测模型包括多个以树形结构存储的节点;每个所述节点中设有手势姿态模板和指定的下级节点;所述目标动态手势为在每个阶段关键手势类型与手势姿态模板相同,且所述置信度参数在置信度区间内的节点组合;
执行所述目标动态手势关联的控制指令。
由以上技术方案可知,上述实施例提供的显示设备200可以在用户输入动态手势后,获取手势信息流,并从手势信息流中提取关键手势信息。再使用检测模型对关键手势信息中各阶段的关键手势类型进行匹配,以获得关键手势类型相同且置信度参数在设定的置信度区间内的节点组合,作为确定的目标动态手势,最后执行目标动态手势关联的控制指令,实现动态手势交互。所述显示设备200基于手势关键点检测动态手势,再基于树结构节点存储形式的检测模型,对关键手势类型进行动态匹配,能够丰富动态手势交互形式,并且支持用户自定义动态手势。
本申请提供的实施例之间的相似部分相互参见即可,以上提供的具体实施方式只是本申请总的构思下的几个示例,并不构成本申请保护范围的限定。对于本领域的技术人员而言,在不付出创造性劳动的前提下依据本申请方案所扩展出的任何其他实施方式都属于本申请的保护范围。
Claims (10)
1.一种显示设备,其特征在于,包括:
显示器;
图像采集接口,被配置为采集用户输入的手势交互图像;
控制器,被配置为:
获取手势信息流,所述手势信息流包括连续多帧手势交互图像;
从所述手势信息流中提取关键手势信息,所述关键手势信息包括多个阶段的关键手势类型和每个阶段的置信度参数;
使用检测模型匹配所述关键手势信息,以获得目标动态手势,所述检测模型包括多个以树形结构存储的节点;每个所述节点中设有手势姿态模板和指定的下级节点;所述目标动态手势为在每个阶段关键手势类型与手势姿态模板相同,且所述置信度参数在置信度区间内的节点组合;
执行所述目标动态手势关联的控制指令。
2.根据权利要求1所述的显示设备,其特征在于,所述控制器被配置为:
从所述手势信息流中提取关键手势信息的步骤中,识别所述手势交互图像中的关键点坐标,所述关键点坐标用于表征手关节在所述手势交互图像中的成像位置;
提取预设关键点标准坐标;
计算所述关键点坐标与所述关键点标准坐标的差值;
如果所述差值小于或等于预设识别阈值,确定所述关键点标准坐标对应的手势类型为目标手势类型;
根据多个连续帧手势交互图像,划分动态手势的多个阶段,每个阶段中的手势交互图像归属于相同的所述目标手势类型。
3.根据权利要求2所述的显示设备,其特征在于,所述置信度参数包括关键手势偏角,所述控制器被配置为:
根据所述关键点坐标与所述关键点标准坐标,计算手势偏角;
遍历每个阶段中多个连续帧手势交互图像对应的手势偏角,以获得每个阶段中的偏角并集;
提取每个阶段中的所述偏角并集中的极值,以作为当前阶段关键手势信息中的关键手势偏角。
4.根据权利要求1所述的显示设备,其特征在于,所述控制器被配置为:
使用检测模型匹配所述关键手势信息的步骤中,从所述多阶段关键手势信息中提取第一阶段关键手势类型;
根据第一阶段关键手势类型匹配第一节点,所述第一节点为存储的手势姿态模板与第一阶段关键手势类型相同的节点;
从所述关键手势信息中提取第二阶段关键手势类型,所述第二阶段为第一阶段的后续动作阶段;
根据第二阶段关键手势类型匹配第二节点,所述第二节点为存储的手势姿态模板与第二阶段关键手势类型相同的节点;所述第一节点指定的下级节点包括第二节点;
记录所述第一节点和所述第二节点,以获得动作分支。
5.根据权利要求4所述的显示设备,其特征在于,所述控制器被配置为:
根据第二阶段关键手势类型匹配第二节点的步骤中,遍历所述第一节点指定下级节点存储的手势姿态模板;
如果所有下级节点存储的手势姿态模板均与所述第二阶段关键手势类型不同,控制所述显示器显示录入界面;
接收用户基于所述录入界面输入的录入手势信息;
响应于所述录入手势信息,为所述检测模型设置新节点,所述新节点为所述第一节点的下级节点;
在所述新节点存储所述第二阶段手势类型,以作为所述新节点的手势姿态模板。
6.根据权利要求4所述的显示设备,其特征在于,所述控制器被配置为:
获取所述检测模型中各节点预设的置信度区间;
对比各阶段关键手势偏角与对应节点的置信度区间;
如果所述关键手势偏角不在所述置信度区间内,按照所述手势偏角修改所述置信度区间。
7.根据权利要求4所述的显示设备,其特征在于,所述置信度参数还包括关键手势维持帧数;所述控制器被配置为:
根据第二阶段关键手势类型匹配第二节点的步骤前,获取维持帧数,所述维持帧数为所述手势交互图像中与第一阶段关键手势类型相同的连续帧数;
如果第一阶段关键手势类型的维持帧数大于或等于帧数阈值,根据第二阶段关键手势类型匹配第二节点;
如果第一阶段关键手势类型的维持帧数小于所述帧数阈值,控制所述显示器显示录入界面。
8.根据权利要求1所述的显示设备,其特征在于,所述控制器被配置为:
获取中间阶段置信度参数,所述中间阶段为关键手势信息的多阶段中,位于开始阶段和结束阶段之间一个阶段;
对比所述中间阶段置信度参数与对应节点的置信度区间;
如果所述中间阶段置信度参数不在对应节点的置信度区间内,标记所述中间阶段对应的节点为预跳转节点;
按照所述检测模型对所述预跳转节点的下级节点执行匹配,以根据所述预跳转节点的下级节点匹配结果确定目标动态手势。
9.根据权利要求8所述的显示设备,其特征在于,所述控制器被配置为:
按照所述检测模型对所述预跳转节点的下级节点执行匹配的步骤中,获取所述预跳转节点的下级节点匹配结果;
如果所述匹配结果为命中任一下级节点,记录所述预跳转节点和命中的下级节点,以作为所述目标动态手势的节点;
如果所述匹配结果为未命中下级节点,舍弃所述预跳转节点。
10.一种动态手势交互方法,其特征在于,应用于显示设备,所述动态手势交互方法包括:
获取手势信息流,所述手势信息流包括连续多帧手势交互图像;
从所述手势信息流中提取关键手势信息,所述关键手势信息包括多个阶段的关键手势类型和每个阶段的置信度参数;
使用检测模型匹配所述关键手势信息,以获得目标动态手势,所述检测模型包括多个以树形结构存储的节点;每个所述节点中设有手势姿态模板和指定的下级节点;所述目标动态手势为在每个阶段关键手势类型与手势姿态模板相同,且所述置信度参数在置信度区间内的节点组合;
执行所述目标动态手势关联的控制指令。
Priority Applications (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210266245.3A CN114610153A (zh) | 2022-03-17 | 2022-03-17 | 一种显示设备及动态手势交互方法 |
PCT/CN2022/109185 WO2023077886A1 (zh) | 2021-11-04 | 2022-07-29 | 一种显示设备及其控制方法 |
CN202280063339.9A CN117980873A (zh) | 2021-11-04 | 2022-07-29 | 一种显示设备及其控制方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210266245.3A CN114610153A (zh) | 2022-03-17 | 2022-03-17 | 一种显示设备及动态手势交互方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN114610153A true CN114610153A (zh) | 2022-06-10 |
Family
ID=81864277
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210266245.3A Pending CN114610153A (zh) | 2021-11-04 | 2022-03-17 | 一种显示设备及动态手势交互方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114610153A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2023077886A1 (zh) * | 2021-11-04 | 2023-05-11 | 海信视像科技股份有限公司 | 一种显示设备及其控制方法 |
-
2022
- 2022-03-17 CN CN202210266245.3A patent/CN114610153A/zh active Pending
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2023077886A1 (zh) * | 2021-11-04 | 2023-05-11 | 海信视像科技股份有限公司 | 一种显示设备及其控制方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110740259B (zh) | 视频处理方法及电子设备 | |
WO2021023059A1 (zh) | 拍照方法和移动终端 | |
EP1324269B1 (en) | Image processing apparatus, image processing method, record medium, computer program, and semiconductor device | |
RU2422878C1 (ru) | Способ управления телевизором с помощью мультимодального интерфейса | |
US7821541B2 (en) | Remote control apparatus using gesture recognition | |
CN113596537B (zh) | 显示设备及播放速度方法 | |
CN107995429A (zh) | 一种拍摄方法及移动终端 | |
WO2020042890A1 (zh) | 视频处理方法、终端及计算机可读存储介质 | |
CN108616712B (zh) | 一种基于摄像头的界面操作方法、装置、设备及存储介质 | |
CN112689201B (zh) | 弹幕信息识别方法、显示方法、服务器及电子设备 | |
WO2022100262A1 (zh) | 显示设备、人体姿态检测方法及应用 | |
US20210072818A1 (en) | Interaction method, device, system, electronic device and storage medium | |
CN109859307A (zh) | 一种图像处理方法及终端设备 | |
CN114637439A (zh) | 显示设备和手势轨迹识别方法 | |
CN111656313A (zh) | 屏幕显示切换方法、显示设备、可移动平台 | |
CN114610153A (zh) | 一种显示设备及动态手势交互方法 | |
TWI646526B (zh) | 子畫面佈局控制方法和裝置 | |
CN103135746B (zh) | 基于静态姿势和动态姿势的非接触控制方法、系统和设备 | |
CN110544287B (zh) | 一种配图处理方法及电子设备 | |
CN106601217B (zh) | 一种交互式乐器演奏方法及装置 | |
CN112702517B (zh) | 显示控制方法、装置及电子设备 | |
CN111556358B (zh) | 显示方法、装置和电子设备 | |
US20160054968A1 (en) | Information processing method and electronic device | |
JPH0648458B2 (ja) | 情報入力装置 | |
CN111915744A (zh) | 增强现实图像的交互方法、终端和存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |