CN110163055A - 手势识别方法、装置和计算机设备 - Google Patents

手势识别方法、装置和计算机设备 Download PDF

Info

Publication number
CN110163055A
CN110163055A CN201810911801.1A CN201810911801A CN110163055A CN 110163055 A CN110163055 A CN 110163055A CN 201810911801 A CN201810911801 A CN 201810911801A CN 110163055 A CN110163055 A CN 110163055A
Authority
CN
China
Prior art keywords
image
gesture
present
present image
gesture area
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201810911801.1A
Other languages
English (en)
Inventor
程君
汪青
李峰
李昊沅
左小祥
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tencent Technology Shenzhen Co Ltd
Original Assignee
Tencent Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tencent Technology Shenzhen Co Ltd filed Critical Tencent Technology Shenzhen Co Ltd
Priority to CN201810911801.1A priority Critical patent/CN110163055A/zh
Publication of CN110163055A publication Critical patent/CN110163055A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/107Static hand or arm
    • G06V40/113Recognition of static hand signs
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/20Movements or behaviour, e.g. gesture recognition
    • G06V40/28Recognition of hand or arm movements, e.g. recognition of deaf sign language
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/107Static hand or arm
    • G06V40/117Biometrics derived from hands

Landscapes

  • Engineering & Computer Science (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • General Health & Medical Sciences (AREA)
  • Psychiatry (AREA)
  • Social Psychology (AREA)
  • Image Analysis (AREA)

Abstract

本发明涉及一种手势识别方法、装置和计算机设备,该方法包括:获取待处理的当前图像;当从所述当前图像之前的连续多帧图像识别出的手势一致时,则根据所述连续多帧图像中的一帧图像中手势区域的图像位置,在所述当前图像中确定搜索区域;所述连续多帧图像包括所述当前图像的前一帧图像;根据所述连续多帧图像中的一帧图像中手势区域的图像特征,在所述搜索区域中定位所述当前图像的手势区域;从所述当前图像的手势区域识别出手势。本申请提供的方案提高了手势识别效率。

Description

手势识别方法、装置和计算机设备
技术领域
本发明涉及计算机技术领域,特别是涉及一种手势识别方法、装置和计算机设备。
背景技术
随着计算机设备的种类越来越多,普及程度越来越广泛,用户与计算机设备的交互方式也从利用键盘或鼠标等外接设备的简单交互方式,发展到了利用语音交互或者手势交互等多样化的交互方式。
目前,手势交互方式由于比较自然方便,在很多应用场景中具有很大的需求。然而在手势交互方式中需要进行手势识别,传统的手势识别过程比较复杂,耗时长,导致手势识别的效率低。
发明内容
基于此,有必要针对目前手势识别效率比较低的问题,提供一种手势识别方法、装置和计算机设备。
一种手势识别方法,包括:
获取待处理的当前图像;
当从所述当前图像之前的连续多帧图像识别出的手势一致时,则
根据所述连续多帧图像中的一帧图像中手势区域的图像位置,在所述当前图像中确定搜索区域;所述连续多帧图像包括所述当前图像的前一帧图像;
根据所述连续多帧图像中的一帧图像中手势区域的图像特征,在所述搜索区域中定位所述当前图像的手势区域;
从所述当前图像的手势区域识别出手势。
一种手势识别装置,包括:
获取模块,用于获取待处理的当前图像;
确定模块,用于当从所述当前图像之前的连续多帧图像识别出的手势一致时,则根据所述连续多帧图像中的一帧图像中手势区域的图像位置,在所述当前图像中确定搜索区域;所述连续多帧图像包括所述当前图像的前一帧图像;
定位模块,用于根据所述连续多帧图像中的一帧图像中手势区域的图像特征,在所述搜索区域中定位所述当前图像的手势区域;
识别模块,用于从所述当前图像的手势区域识别出手势。
一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时,使得所述处理器执行以下步骤:
获取待处理的当前图像;
当从所述当前图像之前的连续多帧图像识别出的手势一致时,则
根据所述连续多帧图像中的一帧图像中手势区域的图像位置,在所述当前图像中确定搜索区域;所述连续多帧图像包括所述当前图像的前一帧图像;
根据所述连续多帧图像中的一帧图像中手势区域的图像特征,在所述搜索区域中定位所述当前图像的手势区域;
从所述当前图像的手势区域识别出手势。
一种计算机设备,包括存储器和处理器,所述存储器中储存有计算机程序,所述计算机程序被所述处理器执行时,使得所述处理器执行以下步骤:
获取待处理的当前图像;
当从所述当前图像之前的连续多帧图像识别出的手势一致时,则
根据所述连续多帧图像中的一帧图像中手势区域的图像位置,在所述当前图像中确定搜索区域;所述连续多帧图像包括所述当前图像的前一帧图像;
根据所述连续多帧图像中的一帧图像中手势区域的图像特征,在所述搜索区域中定位所述当前图像的手势区域;
从所述当前图像的手势区域识别出手势。
上述手势识别方法、装置、存储介质和计算机设备,在获取到待处理的当前图像后,若从当前图像之前的连续多帧图像识别出的手势一致,那么基于手部运动的连续性以及位置的不可突变性的先验知识,可以认为当前图像中手势区域的位置在这连续多帧图像手势区域附近,那么可以根据连续多帧图像中的其中一帧图像的手势区域的图像位置,在当前图像中确定搜索区域,根据连续多帧图像中的其中一帧图像的手势区域的图像特征,在搜索区域中定位当前图像的手势区域,这样即可从当前图像的手势区域识别出手势,避免了在完整的图像这样较大范围中检测手势区域所带来的耗时,提高了定位手势区域的效率,进而提高了手势识别的效率。
附图说明
图1为一个实施例中手势识别方法的应用环境图;
图2为一个实施例中手势识别方法的流程示意图;
图3为一个实施例中手势的示意图;
图4为一个实施例中在当前图像中确定搜索区域的示意图;
图5为一个实施例中手势识别的流程框图;
图6为一个实施例中手势识别方法的流程图;
图7为一个实施例中手势区域的示意图;
图8为一个实施例中手势识别装置的模块结构图;
图9为另一个实施例中手势识别装置的模块结构图;
图10为一个实施例中计算机设备的内部结构图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
图1为一个实施例中手势识别方法的应用环境图。参照图1,该手势识别方法应用于手势识别系统。该手势识别系统包括终端110和/或服务器120。终端110和服务器120通过网络连接。终端110与服务器120均可执行该手势识别方法。终端110具体可以是台式终端或移动终端,移动终端具体可以手机、平板电脑、笔记本电脑等中的至少一种。服务器120具体可以是独立的服务器,也可以是多个独立的服务器组成的服务器集群。
在一个实施例中,终端110和/或服务器120可获取待处理的当前图像;当从当前图像之前的连续多帧图像识别出的手势一致时,终端110和/或服务器120则根据连续多帧图像中的一帧图像中手势区域的图像位置,在当前图像中确定搜索区域;终端110和/或服务器120然后根据连续多帧图像中的一帧图像中手势区域的图像特征,在搜索区域中定位当前图像的手势区域;终端110和/或服务器120再从当前图像的手势区域识别出手势。
图2为一个实施例中手势识别方法的流程示意图。本实施例主要以该通信方法应用于计算机设备来举例说明,该计算机设备可以是图1中的终端110或者服务器120。参照图2,该手势识别方法具体包括如下步骤:
S202,获取待处理的当前图像。
其中,待处理的当前图像是当前需要处理的图像,可以是实时采集的图像,也可以是视频包括的视频帧等。
在一个实施例中,在计算机设备为终端时,终端具体可按照固定或动态的帧率采集图像帧,获取采集得到的图像作为待处理的当前图像。其中,固定或动态的帧率能够使图像按照该固定或动态的帧率播放时形成连续的动态画面。
在一个实施例中,在计算机设备为终端时,终端可通过内置或者外部连接图像采集装置,在图像采集装置当前的视野下采集图像,获取采集得到的图像作为待处理的当前图像。其中,图像采集装置的视野可因终端的姿态和位置的变化而变化。终端的图像采集装置具体可以是前置摄像头或者后置摄像头。
在一个实施例中,在计算机设备为终端时,终端可接收另一终端发送的由另一终端采集的图像,获取接收的图像为待处理的当前图像。比如,多个终端间通过运行在各终端上的社交应用建立视频会话时,其中一个会话方所对应的终端接收其他会话方所对应的终端发送的采集的图像作为待处理的当前图像。
在一个实施例中,在计算机设备为服务器时,前述实施例中的终端在获取到图像后可上传至服务器,服务器从而获取到待处理的当前图像。
在一个具体的实施例中,计算机设备为终端。终端上安装有视频录制应用。终端可根据用户指令运行该视频录制应用,通过该视频录制应用调用终端内置的摄像头采集图像,并在采集图像时,按照图像的采集时序实时获取采集的图像作为待处理的当前图像。
上述实施例中,计算机设备获取图像的帧率小于或者等于图像采集装置采集图像的帧率。也就是说,并非图像采集装置采集的每一帧图像均会进行手势识别处理,计算机设备可分别设置采集图像的帧率,以及获取采集的图像作为待处理的当前图像的帧率。
类似的,计算机设备在获取视频包括的视频帧作为待处理的当前图像时,也并非视频包括的每一帧视频帧均会进行手势识别处理,计算机设备可设置从视频中获取视频帧作为待处理的当前图像的帧率。
S204,当从当前图像之前的连续多帧图像识别出的手势一致时,则根据连续多帧图像中的一帧图像中手势区域的图像位置,在当前图像中确定搜索区域;连续多帧图像包括当前图像的前一帧图像。
需要说明的是,本发明可以是应用于对一系列图像进行手势识别的方案。那么,这一系列图像中的每帧图像在被处理时,均为待处理的当前图像。当前图像可以是处理的首帧图像,在当前图像之前也可以有多帧已处理的图像,当前图像可以是处理的末帧图像,在当前图像之后也可以有多帧未处理的图像。
其中,当前图像之前的连续多帧图像,是在当前图像之前的连续处理的多帧图像,包括当前图像的前一帧图像。这样,即判定当前满足跟踪搜索的约束条件。其中,跟踪搜索是指根据在前的图像帧中的手势区域和图像特征,搜索当前图像中的手势区域;满足跟踪搜索的约束条件是指包括当前图像的前一帧图像在内的连续多帧图像识别出的手势一致。这连续多帧图像的数量大于等于两帧。手势是由通过手做出的动作形态,如图3所示,比心的手势或点赞的手势等。手势区域是图像中手势所在的区域。图像位置可以是图像中的坐标位置,也可以是图像中的像素位置。搜索区域是预估的手势区域所在的区域范围。计算机设备可在搜索区域中搜索手势区域。
具体地,计算机设备可在每处理完成一帧图像后,保存从该图像识别出的手势以备后续使用。这样,计算机设备在获取待处理的当前图像后,可查找从当前图像之前的连续多帧图像识别出的手势,并判断这些手势是否一致。当从这连续多帧图像识别出的手势一致时,计算机设备即可根据这连续多帧图像中的其中一帧图像中手势区域的图像位置,在当前图像中确定搜索区域。
可以理解,依据手部运动的连续性的先验知识,当从当前图像之前的连续多帧图像识别出的手势一致时,可以认为在较大概率上,当前图像中手势区域可以在这连续多帧图像中其中一帧图像中手势区域的附近。也就是说,理论上,这连续多帧图像中的任一帧图像都可以作为依据来搜索当前图像中的手势区域。那么,在当前图像中确定手势区域时,则不需要再从完整的图像中进行搜索,可以将搜索范围缩限到前一帧图中手势区域的附近,提高定位手势区域的效率。
在一个实施例中,根据连续多帧图像中的一帧图像中手势区域的图像位置,在当前图像中确定搜索区域,包括:根据当前图像的前一帧图像中手势区域的图像位置,在当前图像中确定搜索区域。
可以理解,依据手部运动的连续性以及位置的不可突变性的先验知识,当从当前图像之前的连续多帧图像识别出的手势一致时,可以认为极大概率上当前图像中手势区域在前一帧图中手势区域的附近。根据当前图像的前一帧图像来在当前图像中确定搜索区域的准确度,理论上要高于根据这连续多帧图像中的其他帧图像来在当前图像中确定搜索区域的准确度。
在一个实施例中,根据连续多帧图像中的一帧图像中手势区域的图像位置,在当前图像中确定搜索区域,包括:获取连续多帧图像中的一帧图像中手势区域的图像位置;在当前图像中定位图像位置所在的图像区域;扩展图像区域得到所述当前图像的搜索区域。
具体地,计算机设备可在每处理一帧图像时,保存在该图像中确定的手势区域的图像位置以备后续使用。这样,计算机设备在获取待处理的当前图像,并判断从当前图像之前的连续多帧图像识别出的手势一致时,查询该连续多帧图像中的一帧图像中手势区域的图像位置,在当前图像中定位图像位置所在的图像区域;在按照预设的扩展方式扩展图像区域得到当前图像的搜索区域。
其中,手势区域具体可以是矩形区域,手势区域的图像位置具体可以是矩形区域的中心点像素位置(center)、高度(H)和宽度(W)。预设的扩展方式可以是矩形扩展方式或者圆形扩展方式等。矩形扩展方式比如中心点像素位置不变,在长度和/或宽度上扩大N倍。圆形扩展方式比如以中心点像素位置为圆心,以大于长度和宽度的尺寸为半径的圆形区域。
在一个实施例中,根据当前图像的前一帧图像中手势区域的图像位置,在当前图像中确定搜索区域,包括:获取当前图像的前一帧图像中手势区域的图像位置;在当前图像中定位图像位置所在的图像区域;扩展图像区域得到当前图像的搜索区域。
举例说明,图4示出了一个实施例中在当前图像中确定搜索区域的示意图。参考图4,该图包括当前图像的前一帧图像410,当前图像的前一帧图像410中的手势区域411,当前图像420,在当前图像420中定位手势区域411的图像位置所在的图像区域421,及按矩形扩展方式扩展图像区域421得到搜索区域422。
在本实施例中,依据手部运动的连续性以及位置的不可突变性的先验知识,根据前一帧图像中手势区域的位置预估当期图像中手势区域可能的区域范围,这样,缩小了搜索手势区域的范围,能够提高定位手势区域的效率。
在一个实施例中,若当前图像为处理的首帧图像,那么计算机设备则需要在当前图像完整的图像区域中定位手势区域。其中,计算机设备当前图像完整的图像区域中定位手势区域,可以是通过目标检测模型(如SSD,RCNN等网络)确定手势区域的图像位置,也可以是通过目标检测模型(如Unet等网络)进行语义分割确定手势语义的像素点集,找出当前图像中的手势区域。
在一个实施例中,若当前图像之前仅存在一帧图像,且从该图像识别出手势,那么计算机设备也可根据当前图像的前一帧图像中手势区域的图像位置,在当前图像中确定搜索区域。
在一个实施例中,若当前图像之前仅存在一帧图像,但未从该图像识别出手势,那么计算机设备则需要在当前图像完整的图像区域中定位手势区域。
可以理解,当前图像为处理的首帧图像,或者,当前图像之前仅存在一帧图像,但未从该图像识别出手势时,也就是当前图像没有可参考的用于缩限手势区域搜索范围的图像时,则需要从完整的图像中定位手势区域。
在一个实施例中,当从当前图像之前的连续多帧图像识别出的手势不一致时,则将当前图像输入目标检测模型,通过目标检测模型输出当前图像的手势区域。
可以理解,根据先验知识,可以知道若从当前图像之前的连续多帧图像识别出的手势不一致,则说明手势可能发生了变化,而不同的手势在图像中所占的手势区域不同,那么依据一种手势的手势区域定位另一个手势的手势区域的搜索区域可能导致准确率较低。
具体地,计算机设备可通过预先训练好的目标检测模型的卷积层,对输入的图像属于不同图像属性的特征进行提取。在提取出了特征图后,可对多个特征图进行特征融合,得到图像的图像特征。这样得到的图像特征由于具备图像多个维度不同图像属性的特征,从而所包含的信息更为多样、特征也更为稳定。对于融合后得到的图像特征,输入至该目标检测模型的隐层中,基于训练好的隐层的模型参数,对图像特征进行运算,比如线性运算或非线性运算等,并通过输出层输出手势区域的包围框坐标,按包围框坐标从图像中分割出手势区域。
其中,包围框坐标是用于确定图像中手势区域的坐标。包围框坐标具体可以是用于确定手势区域的四元坐标组(X,Y,W,H),这四个元素分别表示包围框相对于图像中某一像素点的X方向像素偏移、Y方向像素偏移以及包围框的宽度和高度。
举例说明:以图像左下角像素为原点构建直角坐标系来说明,得到包围框的四元坐标组为(10,15,60,95)。假定该四元坐标组的前二维元素表示手势区域中位于最左、且最下方像素点相对于原点(0,0)的X方向像素偏移和Y方向像素偏移,那么就可以确定包围框四个端点像素的坐标分别为(10,15)、(70,15)、(70,110)和(10、110),根据这四个端点像素的坐标就可以确定手势区域。
在一个实施例中,目标检测模型是基于语义分割的神经网络模型。图像语义分割是将图像中的像素按照表达语义的不同进行分割。图像语义分割用于实现对图像按照语义划分为多个像素区域。本质上,图像语义分割实现的是图像像素级的分类,通过对像素点进行分类,实现整幅图像的语义标注。需要说明的是,本发明实施例中不对分类单位进行限定,可以是逐像素分类,也可以是按图像块分类。一个图像块包括多个像素。计算机设备可根据目标检测模型输出的手势区域概率分布矩阵,划分出手势区域。
在一个实施例中,当目标检测模型的输出表示当前图像中不存在手势区域时,则降低获取待处理的当前图像的频率。
可以理解,若目标检测模型的输出表示当前图像中不存在手势区域,那么说明当前图像不包括手势区域,根据先验知识,可以认为后续的图像中极大概率不会立即出现包括手势区域的图像。这样,计算机设备可降低获取待处理的当前图像的频率,无需将每帧图像均输入目标检测模型进行手势区域检测,避免运算资源的浪费。例如,计算机设备可降低为每隔15帧检测一次。当然,计算机设备也可不改变获取待处理的当前图像的频率。
上述实施例中,在从图像中识别出的手势发生改变后,不再进行跟踪处理缩限搜索手势区域的范围,而是从完整的图像区域中定位了手势区域,避免了跟踪处理可能带来的误差,提高了定位手势区域的准确性。
S206,根据连续多帧图像中的一帧图像中手势区域的图像特征,在搜索区域中定位当前图像的手势区域。
其中,图像特征是反映图像属性特征的数据。图像属性包括图像中各像素点的像素值、分辨率、颜色值、色调、饱和度、亮度、色彩通道及图像层次等。
可以理解,特征是通过测量或处理能够抽取的数据。对于图像而言,每一帧图像都具有能够区别于其他图像的自身特征,有些是可以直观地感受到的自然特征,如亮度、边缘、纹理和色彩等;有些则是需要通过变换或处理才能得到的,如矩、直方图以及主成份等。
具体地,计算机设备可在每处理一帧图像时,保存在该图像中确定的手势区域的图像特征以备后续使用。这样,计算机设备在当前图像中确定搜索区域后,可查询该连续多帧图像中的一帧图像中手势区域的图像特征,在当前图像中定位图像特征与查询的图像特征匹配的图像区域,得到当前图像的手势区域。
在一个实施例中,这连续多帧图像中每一帧图像中的手势区域的图像特征,都可以作为依据来在搜索区域中定位当前图像的手势区域。也就是说,S206中作为依据在搜索区域中定位当前图像的手势区域的这一帧图像,可以是与S204中作为依据在当前图像中确定搜索区域的这一帧图像是同一帧图像,也可以是不同的图像。
在一个实施例中,根据连续多帧图像中的一帧图像中手势区域的图像特征,在搜索区域中定位当前图像的手势区域,包括:根据前一帧图像中手势区域的图像特征,在搜索区域中定位当前图像的手势区域。
在一个实施例中,S206包括:确定根据前一帧图像中手势区域的图像特征更新后的跟踪模型;通过跟踪模型,确定搜索区域中图像特征与前一帧图像中手势区域的图像特征匹配的目标区域;获取目标区域为当前图像的手势区域。
其中,跟踪模型是能实现跟踪功能的数学模型。跟踪模型具体可以是参数模型。具体地,跟踪模型可对输入的每一帧图像,在该图像的搜索区域通过滑动窗口进行图像特征匹配,从搜索区域中划分出手势区域。
在一个实施例中,该手势识别方法还包括:当目标检测模型的输出表示当前图像中存在手势区域时,则提取当前图像中手势区域的图像特征;根据提取的图像特征初始化跟踪模型。
具体地,计算机设备在每次从图像完整的图像区域中定位手势区域后,即提取该手势区域的图像特征,根据提取的图像特征初始化跟踪模型。根据提取的图像特征初始化跟踪模型,也就是根据提取的图像特征初始化跟踪模型的模型参数。可以理解,通过从图像完整的图像区域中定位手势区域,是后续图像中跟踪手势区域的基础,那么,每次从图像完整的图像区域中定位手势区域后,即提取该手势区域的图像特征,根据提取的图像特征初始化跟踪模型,可保证跟踪模型的实时有效性和实时可用性。
在本实施例中,每次在从新一帧图像的完整图像区域中确定手势区域后,即用该图像的手势区域的图像特征初始化跟踪模型,使得后续图像可以据此跟踪模型进行手势区域跟踪,保证了跟踪模型的准确性与有效性。
在一个实施例中,该手势识别方法还包括:保存当前图像的手势区域的图像位置;通过当前图像的手势区域的图像特征,更新跟踪模型。
可以理解,计算机设备每次处理完成一帧图像时,可保存当前图像的手势区域的图像位置,以备后续图像在进行手势区域跟踪时,可获取使用。而且,计算机设备每次使用跟踪模型确定新一帧图像的手势区域后,即用该图像的手势区域的图像特征更新跟踪模型,可以保证跟踪模型的准确性与有效性。
举例说明,计算机设备处理图像序列P1、P2、P3和P4。那么计算机设备在处理首帧图像P1时,将P1输入目标检测模型,通过目标检测模型确定P1的手势区域A1,将A1输入手势识别模型得到手势识别结果X1,保存A1的图像位置W1和图像特征T1,根据T1初始化跟踪模型。计算机设备继续获取P2,根据W1在P2中确定搜索区域S2,通过跟踪模型在S2中定位手势区域A2,将A2输入手势识别模型得到手势识别结果X1,保存A2的图像位置W2和图像特征T2,根据T2更新跟踪模型。计算机设备继续获取P3,根据W2在P3中确定搜索区域S3,通过跟踪模型在S3中定位手势区域A3,将A3输入手势识别模型得到手势识别结果X2,保存A3的图像位置W3和图像特征T3,根据T3更新跟踪模型。计算机设备获取图像P4,其中X1与X2不同,即连续两帧识别出的手势不一致,则将P4输入目标检测模型,通过目标检测模型确定P4的手势区域A4,将A4输入手势识别模型得到手势识别结果X2,保存A4的图像位置W4和图像特征T4,根据T4重新初始化跟踪模型。
上述实施例中,通过跟踪前一帧图像中手势区域,预估当期图像中手势区域可能的区域范围,这样,缩小了搜索手势区域的范围,能够提高定位手势区域的效率。
S208,从当前图像的手势区域识别出手势。
具体地,计算机设备可提取当前图像的手势区域的图像特征,将提取的图像特征与各手势对应的模板图像的图像特征进行对比,选取相似度最高的模板图像所对应的手势作为从当前图像的手势区域识别出手势。计算两图像特征之间的相似度时,可计算两图像特征之间的差异,特征之间的差异越大则相似度越低,特征之间的差异越小则相似度越高。相似度可采用余弦相似度或者图像间各自感知哈希值的汉明距离。
在一个实施例中,S208包括:从当前图像中分割出手势区域得到手势图像;将手势图像输入手势识别模型;通过手势识别模型输出手势识别结果。
其中,手势识别模型为机器学习模型。当计算机设备设置的预设手势唯一时,手势识别模型即为二分类模型。用于训练二分类模型的图像样本包括对应预设手势的正样本,及不对应预设手势的负样本。当计算机设备设置的预设手势多样时,手势识别模型即为多分类模型。用于训练多分类模型的图像样本包括对应各手势的样本。手势识别模型具体可利用ConvNet Configuration模型作为初始模型,根据训练样本训练该初始模型,得到适用于手势识别的模型参数。
具体地,计算机设备可采用预先训练好的手势识别模型对图像中手势区域的手势进行识别。计算机设备可从当前图像中截取手势区域得到手势图像,再将手势图像输入手势识别模型中,通过手势识别模型中的隐层对手势图像的特征进行运算,通过手势识别模型中的输出层输出手部图像中手势的识别结果。
其中,识别结果可以是手势图像对应各预设手势的概率分布,计算机设备再将概率最大的预设手势作为从当前图像识别出的手势。识别结果也可以直接是识别出的手势。
上述手势识别方法,在获取到待处理的当前图像后,若从当前图像之前的连续多帧图像识别出的手势一致,那么基于手部运动的连续性以及位置的不可突变性的先验知识,可以认为当前图像中手势区域的位置在这连续多帧图像手势区域附近,那么可以根据连续多帧图像中的其中一帧图像的手势区域的图像位置,在当前图像中确定搜索区域,根据连续多帧图像中的其中一帧图像的手势区域的图像特征,在搜索区域中定位当前图像的手势区域,这样即可从当前图像的手势区域识别出手势,避免了在完整的图像这样较大范围中检测手势区域所带来的耗时,提高了定位手势区域的效率,进而提高了手势识别的效率。
图5示出了一个实施例中手势识别的流程框图。参考图5,在计算机设备获取待处理的当前图像后,当从当前图像之前的连续两帧图像识别出的手势一致时,则根据当前图像的前一帧图像中手势区域的图像位置,在当前图像中确定搜索区域;将搜索区域的图像特征输入跟踪模型,输出当前图像的手势区域。当从当前图像之前的连续两帧图像识别出的手势不一致时,则将当前图像输入目标检测模型,通过目标检测模型输出语义分割图像,根据语义分割图像确定当前图像的手势区域。其中,在目标检测模型不是基于语义分割的模型时,目标检测模型可直接输出手势区域的坐标范围。计算机设备可在从当前图像中分割出手势图像,将手势图像输入手势识别模型,通过手势识别模型输出手势图像对应各预设手势的概率分布,将概率最大的预设手势作为从当前图像识别出的手势。
在一个实施例中,该手势识别方法还包括:查询检测参数;当检测参数的值表示跟踪检测时,则继续执行根据当前图像的前一帧图像中手势区域的图像位置,在当前图像中确定搜索区域的步骤。
其中,检测参数是用于指示检测类型的数据。检测类型包括跟踪检测和目标检测。跟踪检测是前述实施例中,根据当前图像的前一帧图像中手势区域的图像位置,在当前图像中确定搜索区域,根据当前图像的前一帧图像中手势区域的图像特征,在当前图像的搜索区域中定位当前图像的手势区域的检测方式。目标检测是前述实施例中,将当前图像输入目标检测模型,通过目标检测模型在当前图像的完整图像区域中确定手势区域的检测方式。
具体地,检测参数可通过赋值来表示对当前图像采用跟踪检测还是采用目标检测来确定手势区域。检测参数的值由计算机设备在每次处理一帧图像后,根据当前处理结果(是否识别出手势,识别出的具体手势)和在前的图像的处理结果(识别出的具体手势)综合设置,并用于指示下一帧图像的检测类型。
那么,计算机设备在获取到待处理的当前图像时,可查询检测参数,当检测参数的值表示跟踪检测时,则根据当前图像的前一帧图像中手势区域的图像位置,在当前图像中确定搜索区域,根据当前图像的前一帧图像中手势区域的图像特征,在当前图像的搜索区域中定位当前图像的手势区域。当检测参数的值表示目标检测时,则将当前图像输入目标检测模型,通过目标检测模型在当前图像的完整图像区域中确定手势区域。
其中,当待处理的当前图像为首帧图像时,则将当前图像输入目标检测模型,通过目标检测模型在当前图像的完整图像区域中确定手势区域。
在本实施例中,通过检测参数来指示根据在当前图像之前的图像的处理结果,合理选择当前图像是跟踪检测还是目标检测,既可以保证手势识别的顺利进行,又可以尽量提高手势识别的效率。
在一个实施例中,该手势识别方法还包括:当从当前图像的手势区域识别出的手势,与从当前图像的前一帧图像识别出的手势一致时,将检测参数设置为表示跟踪检测的值;当从当前图像的手势区域识别出的手势,与从当前图像的前一帧图像识别出的手势不一致时,则将检测参数设置为表示目标检测的值。
可以理解,依据手部运动的连续性以及位置的不可突变性的先验知识,当连续多帧图像识别出的手势一致时,可以认为极大概率上当前图像中手势区域在前一帧图中手势区域的附近。那么,在当前图像中确定手势区域时,则不需要再从完整的图像中进行搜索,可以将搜索范围缩限到前一帧图中手势区域的附近。计算机设备即可在从当前图像的手势区域识别出的手势,与从当前图像的前一帧图像识别出的手势一致时,将检测参数设置为表示跟踪检测的值,以指示下一帧图像采用跟踪检测确定手势区域,以提高手势识别效率。
根据先验知识,可以知道若连续多帧图像识别出的手势不一致,则说明手势可能发生了变化,而不同的手势在图像中所占的手势区域不同,那么依据一种手势的手势区域定位另一个手势的手势区域的搜索区域可能导致准确率较低。那么,计算机设备则在从当前图像的手势区域识别出的手势,与从当前图像的前一帧图像识别出的手势不一致时,将检测参数设置为表示目标检测的值,以指示下一帧图像采用目标检测确定手势区域,以保证手势区域的准确性。
在一个实施例中,该手势识别方法还包括:当目标检测模型的输出表示当前图像中不存在手势区域时,则将检测参数设置为表示目标检测的值;当目标检测模型的输出表示当前图像中存在手势区域时,则将检测参数设置为表示跟踪检测的值。
可以理解,在目标检测模型的输出表示当前图像中不存在手势区域,也就是当前图像中没有手势区域,那就无法为下一帧图像提供参考,计算机设备则将检测参数设置为表示目标检测的值,以指示下一帧图像采用目标检测确定手势区域,以保证手势区域的准确性。
在目标检测模型的输出表示当前图像中存在手势区域,也就是当前图像中有手势区域,那就可以为下一帧图像提供参考,计算机设备则将检测参数设置为表示跟踪检测的值,以指示下一帧图像采用跟踪检测确定手势区域,以提高手势识别效率。
在一个具体的实施例中,检测参数具体可以为doFcn变量。doFcn的值是根据上一帧图像的手势识别结果和上上一帧图像的手势识别结果而定的。假设上一帧图像的手势识别结果为X1,上上一帧图像的手势识别结果X2。如果X1与X2对应不同的手势,则doFcn=Yes,为表示目标检测的值。如果X1与X2对应相同的手势,则doFcn=No,为表示跟踪检测的值。当前图像为首帧图像时doFcn=Yes。可以理解doFcn变量表示是否采用目标检测模型。
上述实施例中,提供了多种情况下检测参数的值的设置方式,实现了在保证手势识别的准确性时尽量提高了手势识别的效率。
图6示出了一个实施例中手势识别方法的流程图。参考图6,计算机设备可判断是否有新的图像。在判定有新的图像时,则将该图像作为待处理的当前图像,并查询检测参数。
当检测参数的值为Yes时,则通过目标检测模型处理当前图像。若当前图像中包括手势区域,则根据当前图像中手势区域的图像特征初始化跟踪模型,并从当前图像中分割出手势区域得到手势图像,通过手势识别模型进行手势识别。计算机设备可再将检测参数的值设置为No,将判定是否有新图像的判定间隔设置为逐帧检测,计算机设备则将检测参数的值设置为Yes,增大判定是否有新图像的判定间隔(如每15帧检测),并按更新后的判定间隔判定是否有新的图像。
当检测参数的值为No时,则通过跟踪模型处理当前图像,并继续通过手势识别模型进行手势识别。计算机设备将当前手势识别结果与上一帧图像的手势识别结果进行比较,当两者不同时,将检测参数的值设置为Yes,将判定是否有新图像的判定间隔设置为逐帧检测,并按更新后的判定间隔判定是否有新的图像,当两者相同时,将检测参数的值设置为No,将判定是否有新图像的判定间隔设置为逐帧检测。
在判定没有新的图像时则结束处理。
在一个实施例中,S202包括:获取实时采集的图像作为待处理的当前图像。该手势识别方法还包括:询与从当前图像的手势区域识别出的手势匹配的附加元素;将附加元素添加至当前图像中与手势区域对应的图像位置。
其中,附加元素是用于额外增加在图像帧中的数据。附加元素具体可以是装饰元素,比如挂件。装饰元素是能够以可视化形式展示的用于装饰的数据。附加元素比如在图像帧中显示来修饰图像内容的数据。附加元素比如面具、盔甲、彩带、蓝天或者白云等,本发明实施例中对附加元素的种类不进行限定。附加元素可以是动态数据,比如动态图片;也可以是静态数据,比如静态图片。
具体地,计算机设备在识别出手势时,可以查询事先建立的手势与附加元素的对应关系,根据该对应关系查询与识别出的手势对应的附加元素,获取查询到的附加元素,将查询到的附加元素添加至当前图像中与手势区域对应的图像位置。如图3右图所示,在比心手势的上方添加比心挂件。
其中,手势对应的附加元素的数量可以为一个或者多个。当手势对应的附加元素的数量为多个时,计算机设备可从这多个附加元素中随机选取附加元素,也可根据当前登录的用户标识的用户标签,选取与该用户标签匹配的附加元素。
在本实施例中,在实时识别出手势时便自动将附加元素添加至采集的图像帧中,避免了人工操作的繁琐步骤,极大地提高了图像处理效率。
在一个实施例中,手势识别方法还包括:用添加附加元素后的图像,替换添加附加元素前的相应图像;根据替换后所确定的图像的采集时间,将替换后所确定的图像按采集时间的时序生成录制的视频;其中,替换后所确定的图像中通过替换得到的图像的采集时间,是被替换的相应图像帧的采集时间。
其中,替换后所确定的图像,包括在添加附加元素前原始采集的图像,还包括在添加附加元素后,通过添加附加元素得到的图像。替换后所确定的图像中未进行替换操作的原始采集的图像的采集时间,是该图像真实的采集时间。替换后所确定的图像中通过替换得到的图像的采集时间,是被替换的相应图像的采集时间。
举例说明,原始采集图像A、B、C和D,从图像C开始添加附加元素。对图像C添加元素得到图像C1,对图像D添加元素得到图像D1。那么则用图像C1来替换图像C,用图像D1来替换图像D,替换后所确定的图像即为A、B、C1和D1,也就是用这些图像来生成视频。
具体地,计算机设备可用添加附加元素后得到的图像,替换添加附加元素前的相应图像,再根据替换后所确定的各图像的采集时间,将替换后所确定的图像按采集时间的时序生成录制的视频。其中,按采集时间的时序可以是按时间逆序,也可以是按时间顺序。
进一步地,计算机设备在生成录制的视频后,可将该视频分享至社交会话中,或者将视频发布至社交发布平台。
在本实施例中,实现了在拍摄过程中即自动且实时地对采集的图像进行处理,并实时地生成视频,避免了需要后续手动处理带来的繁琐步骤,极大地简化了操作,提高了视频生成效率。
在一个具体的实施例中,计算机设备为终端。终端上安装有视频录制应用。终端可根据用户指令运行该视频录制应用,通过该视频录制应用调用终端内置的摄像头采集图像,并在采集图像时,按照图像的采集时序实时获取采集的图像作为待处理的当前图像。终端可采用上述实施例中提供的手势识别方法从当前图像识别出手势。这样,终端可在未识别出手势时,将获取的图像按照采集的时序逐帧播放;在识别出手势后,将添加附加元素后的图像按照采集的时序逐帧播放。终端还可用添加附加元素后的图像,替换添加附加元素前的相应图像;根据替换后所确定的图像的采集时间,将替换后所确定的图像帧按采集时间的时序生成录制的视频。
而且,实验证明,目标检测模型对图像的处理耗时和CPU计算约是手势识别模型对手势图像的处理耗时的五倍。本发明实施例中所采用的是基于相关滤波原理的追踪算法(即根据当前图像的前一帧图像中手势区域的图像位置,在当前图像中确定搜索区域;根据前一帧图像中手势区域的图像特征,在搜索区域中定位当前图像的手势区域)。追踪算法的计算量和耗时和用于手势识别的手势识别模型接近,即也只有目标检测模型的五分之一左右。
假设目标检测模型的执行耗时为T1,手势识别模型的执行耗时为T2,追踪算法耗时为T3。如上所述T1=5T2=5T3。
那么,在图像内不存在手势区域的情况下,利用跟踪算法相比于利用目标检测模型:2*T1/30*(T1+T2)=2*10*T2/30*(5T2+T2)=11.11%。计算量和CPU占用减少至11.11%。
在图像内存在手势区域的情况下,为了提高追踪结果包含手的概率,在一个实施例中对追踪得到的手势区域进行扩展(如扩大1.5倍等),如图7所示,手势区域710为根据跟踪模型定位当前图像的手势区域,手势区域720是扩展对手势区域710扩展后的区域,按照手势区域720划分出手势图像进行手势识别。这样在手势变换和正常速度移动情况下,追踪算法平均每5帧中可以正确计算4帧,此时:(6*T1+30*T2+24*T3)/30*(T1+T2)=84*T2/30*(5T2+T2)=46.66%,计算量和CPU占用减少至46.66%。
应该理解的是,虽然上述各实施例的流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,这些步骤可以以其它的顺序执行。而且,上述各实施例中的至少一部分步骤可以包括多个子步骤或者多个阶段,这些子步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,这些子步骤或者阶段的执行顺序也不必然是依次进行,而是可以与其它步骤或者其它步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。
如图8所示,在一个实施例中,提供了一种手势识别装置800。参照图8,该手势识别装置800包括:获取模块801、确定模块802、定位模块803和识别模块804。
获取模块801,用于获取待处理的当前图像。
确定模块802,用于当从当前图像之前的连续多帧图像识别出的手势一致时,则根据连续多帧图像中的一帧图像中手势区域的图像位置,在当前图像中确定搜索区域;连续多帧图像包括当前图像的前一帧图像。
定位模块803,用于根据连续多帧图像中的一帧图像中手势区域的图像特征,在搜索区域中定位当前图像的手势区域。
识别模块804,用于从当前图像的手势区域识别出手势。
在一个实施例中,确定模块802还用于获取连续多帧图像中的一帧图像中手势区域的图像位置;在当前图像中定位图像位置所在的图像区域;扩展图像区域得到当前图像的搜索区域。
在一个实施例中,确定模块802还用于根据当前图像的前一帧图像中手势区域的图像位置,在当前图像中确定搜索区域。定位模块803还用于根据前一帧图像中手势区域的图像特征,在搜索区域中定位当前图像的手势区域。
在一个实施例中,定位模块803还用于确定根据当前图像的前一帧图像中手势区域的图像特征更新后的跟踪模型;通过跟踪模型,确定搜索区域中图像特征与前一帧图像中手势区域的图像特征匹配的目标区域;获取目标区域为当前图像的手势区域。
在一个实施例中,手势识别装置800还包括调整模块805,用于保存当前图像的手势区域的图像位置;通过当前图像的手势区域的图像特征,更新跟踪模型。
在一个实施例中,获取模块801还用于查询检测参数。确定模块802还用于当检测参数的值表示跟踪检测时根据连续多帧图像中的一帧图像中手势区域的图像位置,在当前图像中确定搜索区域。
在一个实施例中,调整模块805还用于当从当前图像的手势区域识别出的手势,与从当前图像的前一帧图像识别出的手势一致时,将检测参数设置为表示跟踪检测的值;当从当前图像的手势区域识别出的手势,与从当前图像的前一帧图像识别出的手势不一致时,则将检测参数设置为表示目标检测的值。
在一个实施例中,确定模块802还用于当从当前图像之前的连续多帧图像识别出的手势不一致时,则将当前图像输入目标检测模型。调整模块805还用于当目标检测模型的输出表示当前图像中不存在手势区域时,则降低获取待处理的当前图像的频率。
在一个实施例中,调整模块805还用于当目标检测模型的输出表示当前图像中存在手势区域时,则提取当前图像中手势区域的图像特征;根据提取的图像特征初始化跟踪模型。
在一个实施例中,调整模块805还用于当目标检测模型的输出表示当前图像中不存在手势区域时,则将检测参数设置为表示目标检测的值;当目标检测模型的输出表示当前图像中存在手势区域时,则将检测参数设置为表示跟踪检测的值。
在一个实施例中,识别模块804还用于从当前图像中分割出手势区域得到手势图像;将手势图像输入手势识别模型;通过手势识别模型输出手势识别结果。
如图9所示,在一个实施例中,手势识别装置800还包括调整模块805和处理模块806。
获取模块801还用于获取实时采集的图像作为待处理的当前图像。
处理模块806,用于查询与从当前图像的手势区域识别出的手势匹配的附加元素;将附加元素添加至当前图像中与手势区域对应的图像位置。
在一个实施例中,处理模块806还用于用添加附加元素后的图像,替换添加附加元素前的相应图像;根据替换后所确定的图像的采集时间,将替换后所确定的图像按采集时间的时序生成录制的视频;其中,替换后所确定的图像中通过替换得到的图像的采集时间,是被替换的相应图像帧的采集时间。
图10示出了一个实施例中计算机设备的内部结构图。该计算机设备具体可以是图1中的终端110或服务器120。如图10所示,该计算机设备包括通过系统总线连接的处理器、存储器和网络接口。其中,存储器包括非易失性存储介质和内存储器。该计算机设备的非易失性存储介质存储有操作系统,还可存储有计算机程序,该计算机程序被处理器执行时,可使得处理器实现手势识别方法。该内存储器中也可储存有计算机程序,该计算机程序被处理器执行时,可使得处理器执行手势识别方法。本领域技术人员可以理解,图10中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的计算机设备的限定,具体的计算机设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。如,在计算机设备为终端时还可包括输入设备和显示屏。计算机设备的显示屏可以是液晶显示屏或者电子墨水显示屏等,输入装置可以是显示屏上覆盖的触摸层,也可以是计算机设备外壳上设置的按键、轨迹球或触控板,也可以是外接的键盘、触控板或鼠标等。
在一个实施例中,本申请提供的手势识别装置可以实现为一种计算机程序的形式,计算机程序可在如图10所示的计算机设备上运行,计算机设备的非易失性存储介质可存储组成该手势识别装置的各个程序模块,比如,图8所示的获取模块801、确定模块802、定位模块803和识别模块804等。各个程序模块组成的计算机程序使得处理器执行本说明书中描述的本申请各个实施例的手势识别方法中的步骤。
例如,图10所示的计算机设备可以通过如图8所示的手势识别装置800中的获取模块801获取待处理的当前图像。通过确定模块802当从当前图像之前的连续多帧图像识别出的手势一致时,则根据连续多帧图像中的一帧图像中手势区域的图像位置,在当前图像中确定搜索区域;连续多帧图像包括当前图像的前一帧图像。通过定位模块803根据连续多帧图像中的一帧图像中手势区域的图像特征,在搜索区域中定位当前图像的手势区域。通过识别模块804从当前图像的手势区域识别出手势。
在一个实施例中,提供了一种计算机可读存储介质,该计算机可读存储介质上存储有计算机程序,该计算机程序被处理器执行时,使得处理器执行以下步骤:获取待处理的当前图像;当从当前图像之前的连续多帧图像识别出的手势一致时,则根据连续多帧图像中的一帧图像中手势区域的图像位置,在当前图像中确定搜索区域;连续多帧图像包括当前图像的前一帧图像;根据连续多帧图像中的一帧图像中手势区域的图像特征,在搜索区域中定位当前图像的手势区域;从当前图像的手势区域识别出手势。
在一个实施例中,根据连续多帧图像中的一帧图像中手势区域的图像位置,在当前图像中确定搜索区域,包括:获取连续多帧图像中的一帧图像中手势区域的图像位置;在当前图像中定位图像位置所在的图像区域;扩展图像区域得到当前图像的搜索区域。
在一个实施例中,根据连续多帧图像中的一帧图像中手势区域的图像位置,在当前图像中确定搜索区域,包括:根据当前图像的前一帧图像中手势区域的图像位置,在当前图像中确定搜索区域。根据连续多帧图像中的一帧图像中手势区域的图像特征,在搜索区域中定位当前图像的手势区域,包括:根据前一帧图像中手势区域的图像特征,在搜索区域中定位当前图像的手势区域。
在一个实施例中,根据连续多帧图像中的一帧图像中手势区域的图像特征,在搜索区域中定位当前图像的手势区域,包括:确定根据当前图像的前一帧图像中手势区域的图像特征更新后的跟踪模型;通过跟踪模型,确定搜索区域中图像特征与前一帧图像中手势区域的图像特征匹配的目标区域;获取目标区域为当前图像的手势区域。
在一个实施例中,该计算机程序还使得处理器执行以下步骤:保存当前图像的手势区域的图像位置;通过当前图像的手势区域的图像特征,更新跟踪模型。
在一个实施例中,该计算机程序还使得处理器执行以下步骤:查询检测参数;当检测参数的值表示跟踪检测时,则执行根据连续多帧图像中的一帧图像中手势区域的图像位置,在当前图像中确定搜索区域的步骤。
在一个实施例中,该计算机程序还使得处理器执行以下步骤:当从当前图像的手势区域识别出的手势,与从当前图像的前一帧图像识别出的手势一致时,将检测参数设置为表示跟踪检测的值;当从当前图像的手势区域识别出的手势,与从当前图像的前一帧图像识别出的手势不一致时,则将检测参数设置为表示目标检测的值。
在一个实施例中,该计算机程序还使得处理器执行以下步骤:当从当前图像之前的连续多帧图像识别出的手势不一致时,则将当前图像输入目标检测模型;当目标检测模型的输出表示当前图像中不存在手势区域时,则降低获取待处理的当前图像的频率。
在一个实施例中,该计算机程序还使得处理器执行以下步骤:当目标检测模型的输出表示当前图像中存在手势区域时,则提取当前图像中手势区域的图像特征;根据提取的图像特征初始化跟踪模型。
在一个实施例中,该计算机程序还使得处理器执行以下步骤:当目标检测模型的输出表示当前图像中不存在手势区域时,则将检测参数设置为表示目标检测的值;当目标检测模型的输出表示当前图像中存在手势区域时,则将检测参数设置为表示跟踪检测的值。
在一个实施例中,从当前图像的手势区域识别出手势,包括:从当前图像中分割出手势区域得到手势图像;将手势图像输入手势识别模型;通过手势识别模型输出手势识别结果。
在一个实施例中,获取待处理的当前图像,包括:获取实时采集的图像作为待处理的当前图像。该计算机程序还使得处理器执行以下步骤:查询与从当前图像的手势区域识别出的手势匹配的附加元素;将附加元素添加至当前图像中与手势区域对应的图像位置。
在一个实施例中,该计算机程序还使得处理器执行以下步骤:用添加附加元素后的图像,替换添加附加元素前的相应图像;根据替换后所确定的图像的采集时间,将替换后所确定的图像按采集时间的时序生成录制的视频;其中,替换后所确定的图像中通过替换得到的图像的采集时间,是被替换的相应图像帧的采集时间。
在一个实施例中,提供了一种计算机设备,包括存储器和处理器,存储器中储存有计算机程序,计算机程序被处理器执行时,使得处理器执行以下步骤:获取待处理的当前图像;当从当前图像之前的连续多帧图像识别出的手势一致时,则根据连续多帧图像中的一帧图像中手势区域的图像位置,在当前图像中确定搜索区域;连续多帧图像包括当前图像的前一帧图像;根据连续多帧图像中的一帧图像中手势区域的图像特征,在搜索区域中定位当前图像的手势区域;从当前图像的手势区域识别出手势。
在一个实施例中,根据连续多帧图像中的一帧图像中手势区域的图像位置,在当前图像中确定搜索区域,包括:获取连续多帧图像中的一帧图像中手势区域的图像位置;在当前图像中定位图像位置所在的图像区域;扩展图像区域得到当前图像的搜索区域。
在一个实施例中,根据连续多帧图像中的一帧图像中手势区域的图像位置,在当前图像中确定搜索区域,包括:根据当前图像的前一帧图像中手势区域的图像位置,在当前图像中确定搜索区域。根据连续多帧图像中的一帧图像中手势区域的图像特征,在搜索区域中定位当前图像的手势区域,包括:根据前一帧图像中手势区域的图像特征,在搜索区域中定位当前图像的手势区域。
在一个实施例中,根据连续多帧图像中的一帧图像中手势区域的图像特征,在搜索区域中定位当前图像的手势区域,包括:确定根据当前图像的前一帧图像中手势区域的图像特征更新后的跟踪模型;通过跟踪模型,确定搜索区域中图像特征与前一帧图像中手势区域的图像特征匹配的目标区域;获取目标区域为当前图像的手势区域。
在一个实施例中,该计算机程序还使得处理器执行以下步骤:保存当前图像的手势区域的图像位置;通过当前图像的手势区域的图像特征,更新跟踪模型。
在一个实施例中,该计算机程序还使得处理器执行以下步骤:查询检测参数;当检测参数的值表示跟踪检测时,则执行根据连续多帧图像中的一帧图像中手势区域的图像位置,在当前图像中确定搜索区域的步骤。
在一个实施例中,该计算机程序还使得处理器执行以下步骤:当从当前图像的手势区域识别出的手势,与从当前图像的前一帧图像识别出的手势一致时,将检测参数设置为表示跟踪检测的值;当从当前图像的手势区域识别出的手势,与从当前图像的前一帧图像识别出的手势不一致时,则将检测参数设置为表示目标检测的值。
在一个实施例中,该计算机程序还使得处理器执行以下步骤:当从当前图像之前的连续多帧图像识别出的手势不一致时,则将当前图像输入目标检测模型;当目标检测模型的输出表示当前图像中不存在手势区域时,则降低获取待处理的当前图像的频率。
在一个实施例中,该计算机程序还使得处理器执行以下步骤:当目标检测模型的输出表示当前图像中存在手势区域时,则提取当前图像中手势区域的图像特征;根据提取的图像特征初始化跟踪模型。
在一个实施例中,该计算机程序还使得处理器执行以下步骤:当目标检测模型的输出表示当前图像中不存在手势区域时,则将检测参数设置为表示目标检测的值;当目标检测模型的输出表示当前图像中存在手势区域时,则将检测参数设置为表示跟踪检测的值。
在一个实施例中,从当前图像的手势区域识别出手势,包括:从当前图像中分割出手势区域得到手势图像;将手势图像输入手势识别模型;通过手势识别模型输出手势识别结果。
在一个实施例中,获取待处理的当前图像,包括:获取实时采集的图像作为待处理的当前图像。该计算机程序还使得处理器执行以下步骤:查询与从当前图像的手势区域识别出的手势匹配的附加元素;将附加元素添加至当前图像中与手势区域对应的图像位置。
在一个实施例中,该计算机程序还使得处理器执行以下步骤:用添加附加元素后的图像,替换添加附加元素前的相应图像;根据替换后所确定的图像的采集时间,将替换后所确定的图像按采集时间的时序生成录制的视频;其中,替换后所确定的图像中通过替换得到的图像的采集时间,是被替换的相应图像帧的采集时间。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的程序可存储于一非易失性计算机可读取存储介质中,该程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限,RAM以多种形式可得,诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。
以上实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
以上实施例仅表达了本发明的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对本发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干变形和改进,这些都属于本发明的保护范围。因此,本发明专利的保护范围应以所附权利要求为准。

Claims (15)

1.一种手势识别方法,包括:
获取待处理的当前图像;
当从所述当前图像之前的连续多帧图像识别出的手势一致时,则
根据所述连续多帧图像中的一帧图像中手势区域的图像位置,在所述当前图像中确定搜索区域;所述连续多帧图像包括所述当前图像的前一帧图像;
根据所述连续多帧图像中的一帧图像中手势区域的图像特征,在所述搜索区域中定位所述当前图像的手势区域;
从所述当前图像的手势区域识别出手势。
2.根据权利要求1所述的方法,其特征在于,所述根据所述连续多帧图像中的一帧图像中手势区域的图像位置,在所述当前图像中确定搜索区域,包括:
获取所述连续多帧图像中的一帧图像中手势区域的图像位置;
在所述当前图像中定位所述图像位置所在的图像区域;
扩展所述图像区域得到所述当前图像的搜索区域。
3.根据权利要求1所述的方法,其特征在于,所述根据所述连续多帧图像中的一帧图像中手势区域的图像位置,在所述当前图像中确定搜索区域,包括:
根据所述当前图像的前一帧图像中手势区域的图像位置,在所述当前图像中确定搜索区域;
所述根据所述连续多帧图像中的一帧图像中手势区域的图像特征,在所述搜索区域中定位所述当前图像的手势区域,包括:
根据所述前一帧图像中手势区域的图像特征,在所述搜索区域中定位所述当前图像的手势区域。
4.根据权利要求1所述的方法,其特征在于,所述根据所述连续多帧图像中的一帧图像中手势区域的图像特征,在所述搜索区域中定位所述当前图像的手势区域,包括:
确定根据当前图像的前一帧图像中手势区域的图像特征更新后的跟踪模型;
通过所述跟踪模型,确定所述搜索区域中图像特征与所述前一帧图像中手势区域的图像特征匹配的目标区域;
获取所述目标区域为所述当前图像的手势区域。
5.根据权利要求4所述的方法,其特征在于,所述方法还包括:
保存所述当前图像的手势区域的图像位置;
通过所述当前图像的手势区域的图像特征,更新所述跟踪模型。
6.根据权利要求1所述的方法,其特征在于,所述方法还包括:
查询检测参数;
当所述检测参数的值表示跟踪检测时,则执行所述根据所述连续多帧图像中的一帧图像中手势区域的图像位置,在所述当前图像中确定搜索区域的步骤。
7.根据权利要求6所述的方法,其特征在于,所述方法还包括:
当从所述当前图像的手势区域识别出的手势,与从所述当前图像的前一帧图像识别出的手势一致时,将检测参数设置为表示跟踪检测的值;
当从所述当前图像的手势区域识别出的手势,与从所述当前图像的前一帧图像识别出的手势不一致时,则将检测参数设置为表示目标检测的值。
8.根据权利要求1所述的方法,其特征在于,所述方法还包括:
当从所述当前图像之前的连续多帧图像识别出的手势不一致时,则
将所述当前图像输入目标检测模型;
当所述目标检测模型的输出表示所述当前图像中不存在手势区域时,则
降低获取待处理的当前图像的频率。
9.根据权利要求8所述的方法,其特征在于,所述方法还包括:
当所述目标检测模型的输出表示所述当前图像中存在手势区域时,则
提取所述当前图像中手势区域的图像特征;
根据提取的图像特征初始化跟踪模型。
10.根据权利要求8所述的方法,其特征在于,所述方法还包括:
当所述目标检测模型的输出表示所述当前图像中不存在手势区域时,则
将检测参数设置为表示目标检测的值;
当所述目标检测模型的输出表示所述当前图像中存在手势区域时,则
将检测参数设置为表示跟踪检测的值。
11.根据权利要求1-10中任一项所述的方法,其特征在于,所述从所述当前图像的手势区域识别出手势,包括:
从所述当前图像中分割出手势区域得到手势图像;
将所述手势图像输入手势识别模型;
通过所述手势识别模型输出手势识别结果。
12.根据权利要求1所述的方法,其特征在于,所述获取待处理的当前图像,包括:
获取实时采集的图像作为待处理的当前图像;
所述方法还包括:
查询与从所述当前图像的手势区域识别出的手势匹配的附加元素;
将所述附加元素添加至所述当前图像中与所述手势区域对应的图像位置。
13.根据权利要求12所述的方法,其特征在于,所述方法还包括:
用添加所述附加元素后的图像,替换添加所述附加元素前的相应图像;
根据替换后所确定的图像的采集时间,将替换后所确定的图像按采集时间的时序生成录制的视频;
其中,替换后所确定的图像中通过替换得到的图像的采集时间,是被替换的相应图像帧的采集时间。
14.一种手势识别装置,包括:
获取模块,用于获取待处理的当前图像;
确定模块,用于当从所述当前图像之前的连续多帧图像识别出的手势一致时,则根据所述连续多帧图像中的一帧图像中手势区域的图像位置,在所述当前图像中确定搜索区域;所述连续多帧图像包括所述当前图像的前一帧图像;
定位模块,用于根据所述连续多帧图像中的一帧图像中手势区域的图像特征,在所述搜索区域中定位所述当前图像的手势区域;
识别模块,用于从所述当前图像的手势区域识别出手势。
15.一种计算机设备,包括存储器和处理器,所述存储器中储存有计算机程序,所述计算机程序被所述处理器执行时,使得所述处理器执行如权利要求1至13中任一项所述的方法的步骤。
CN201810911801.1A 2018-08-10 2018-08-10 手势识别方法、装置和计算机设备 Pending CN110163055A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810911801.1A CN110163055A (zh) 2018-08-10 2018-08-10 手势识别方法、装置和计算机设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810911801.1A CN110163055A (zh) 2018-08-10 2018-08-10 手势识别方法、装置和计算机设备

Publications (1)

Publication Number Publication Date
CN110163055A true CN110163055A (zh) 2019-08-23

Family

ID=67645044

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810911801.1A Pending CN110163055A (zh) 2018-08-10 2018-08-10 手势识别方法、装置和计算机设备

Country Status (1)

Country Link
CN (1) CN110163055A (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110807410A (zh) * 2019-10-30 2020-02-18 北京百度网讯科技有限公司 关键点定位方法、装置、电子设备和存储介质
CN112101331A (zh) * 2020-11-23 2020-12-18 浙江华络通信设备有限公司 一种安防视频融合调度方法及装置
CN114510142A (zh) * 2020-10-29 2022-05-17 舜宇光学(浙江)研究院有限公司 基于二维图像的手势识别方法及其系统和电子设备
CN114546106A (zh) * 2021-12-27 2022-05-27 深圳市鸿合创新信息技术有限责任公司 一种隔空手势的识别方法、装置、电子设备和存储介质

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110807410A (zh) * 2019-10-30 2020-02-18 北京百度网讯科技有限公司 关键点定位方法、装置、电子设备和存储介质
CN110807410B (zh) * 2019-10-30 2022-09-06 北京百度网讯科技有限公司 关键点定位方法、装置、电子设备和存储介质
CN114510142A (zh) * 2020-10-29 2022-05-17 舜宇光学(浙江)研究院有限公司 基于二维图像的手势识别方法及其系统和电子设备
CN114510142B (zh) * 2020-10-29 2023-11-10 舜宇光学(浙江)研究院有限公司 基于二维图像的手势识别方法及其系统和电子设备
CN112101331A (zh) * 2020-11-23 2020-12-18 浙江华络通信设备有限公司 一种安防视频融合调度方法及装置
CN112101331B (zh) * 2020-11-23 2021-02-19 浙江华络通信设备有限公司 一种安防视频融合调度方法及装置
CN114546106A (zh) * 2021-12-27 2022-05-27 深圳市鸿合创新信息技术有限责任公司 一种隔空手势的识别方法、装置、电子设备和存储介质

Similar Documents

Publication Publication Date Title
CN110163198B (zh) 一种表格识别重建方法、装置和存储介质
CN107771336B (zh) 基于颜色分布的图像中的特征检测和掩模
CN110598610B (zh) 一种基于神经选择注意的目标显著性检测方法
CN110163055A (zh) 手势识别方法、装置和计算机设备
Zhang et al. Style transfer via image component analysis
CN110210276A (zh) 一种移动轨迹获取方法及其设备、存储介质、终端
CN109344742A (zh) 特征点定位方法、装置、存储介质和计算机设备
CN106682652B (zh) 基于增强现实的结构表面病害巡检和分析方法
CN109961016B (zh) 面向智能家居场景的多手势精准分割方法
CN109525786A (zh) 视频处理方法、装置、终端设备及存储介质
CN109064525A (zh) 一种图片格式转换方法、装置、设备和存储介质
CN108494996A (zh) 图像处理方法、装置、存储介质及移动终端
CN113870401A (zh) 表情生成方法、装置、设备、介质和计算机程序产品
Han et al. Optimal multiple-seams search for image resizing with smoothness and shape prior
CN109495778B (zh) 影片编辑方法、装置及系统
Peng et al. RGB-D human matting: A real-world benchmark dataset and a baseline method
CN108614657B (zh) 图像合成方法、装置、设备及其图像载体
CN112598807A (zh) 人脸关键点检测模型的训练方法、装置、计算机设备及存储介质
CN110322479B (zh) 一种基于时空显著性的双核kcf目标跟踪方法
CN111107264A (zh) 图像处理方法、装置、存储介质以及终端
CN110457998A (zh) 影像数据关联方法和设备、数据处理设备及介质
CN113486941B (zh) 直播图像的训练样本生成方法、模型训练方法及电子设备
Kikuchi et al. Transferring pose and augmenting background for deep human-image parsing and its applications
Wu et al. Detection of salient objects with focused attention based on spatial and temporal coherence
CN114187309A (zh) 一种基于卷积神经网络的头发分割方法及系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination