CN109948542B - 手势识别方法、装置、电子设备和存储介质 - Google Patents

手势识别方法、装置、电子设备和存储介质 Download PDF

Info

Publication number
CN109948542B
CN109948542B CN201910210038.4A CN201910210038A CN109948542B CN 109948542 B CN109948542 B CN 109948542B CN 201910210038 A CN201910210038 A CN 201910210038A CN 109948542 B CN109948542 B CN 109948542B
Authority
CN
China
Prior art keywords
palm
image
target
gesture
determining
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910210038.4A
Other languages
English (en)
Other versions
CN109948542A (zh
Inventor
赵晨
杨少雄
高原
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Baidu Netcom Science and Technology Co Ltd
Original Assignee
Beijing Baidu Netcom Science and Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Baidu Netcom Science and Technology Co Ltd filed Critical Beijing Baidu Netcom Science and Technology Co Ltd
Priority to CN201910210038.4A priority Critical patent/CN109948542B/zh
Publication of CN109948542A publication Critical patent/CN109948542A/zh
Priority to EP20157174.2A priority patent/EP3712805B1/en
Priority to US16/791,128 priority patent/US10983596B2/en
Priority to KR1020200019007A priority patent/KR102292028B1/ko
Priority to JP2020047334A priority patent/JP6941198B2/ja
Application granted granted Critical
Publication of CN109948542B publication Critical patent/CN109948542B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/20Movements or behaviour, e.g. gesture recognition
    • G06V40/28Recognition of hand or arm movements, e.g. recognition of deaf sign language
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F17/00Digital computing or data processing equipment or methods, specially adapted for specific functions
    • G06F17/10Complex mathematical operations
    • G06F17/16Matrix or vector computation, e.g. matrix-matrix or matrix-vector multiplication, matrix factorization
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F17/00Digital computing or data processing equipment or methods, specially adapted for specific functions
    • G06F17/10Complex mathematical operations
    • G06F17/18Complex mathematical operations for evaluating statistical data, e.g. average values, frequency distributions, probability functions, regression analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/017Gesture based interaction, e.g. based on a set of recognized hand gestures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/03Arrangements for converting the position or the displacement of a member into a coded form
    • G06F3/041Digitisers, e.g. for touch screens or touch pads, characterised by the transducing means
    • G06F3/047Digitisers, e.g. for touch screens or touch pads, characterised by the transducing means using sets of wires, e.g. crossed wires
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/047Probabilistic or stochastic networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/70Determining position or orientation of objects or cameras
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/44Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
    • G06V10/443Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components by matching or filtering
    • G06V10/449Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters
    • G06V10/451Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters with interaction between the filter responses, e.g. cortical complex cells
    • G06V10/454Integrating the filters into a hierarchical structure, e.g. convolutional neural networks [CNN]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2413Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on distances to training or reference patterns
    • G06F18/24133Distances to prototypes
    • G06F18/24137Distances to cluster centroïds
    • G06F18/2414Smoothing the distance, e.g. radial basis function networks [RBFN]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20081Training; Learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20084Artificial neural networks [ANN]

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • General Engineering & Computer Science (AREA)
  • Evolutionary Computation (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Data Mining & Analysis (AREA)
  • Multimedia (AREA)
  • Artificial Intelligence (AREA)
  • Mathematical Physics (AREA)
  • Human Computer Interaction (AREA)
  • Software Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Databases & Information Systems (AREA)
  • Computing Systems (AREA)
  • Mathematical Analysis (AREA)
  • Mathematical Optimization (AREA)
  • Pure & Applied Mathematics (AREA)
  • Computational Mathematics (AREA)
  • Biomedical Technology (AREA)
  • Molecular Biology (AREA)
  • Biodiversity & Conservation Biology (AREA)
  • Psychiatry (AREA)
  • Social Psychology (AREA)
  • Medical Informatics (AREA)
  • Algebra (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Probability & Statistics with Applications (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Operations Research (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • User Interface Of Digital Computer (AREA)
  • Image Analysis (AREA)

Abstract

本申请提出一种手势识别方法、装置、电子设备和存储介质,其中,方法包括:利用预设的手掌朝向识别模型,对目标视频帧的各图像依次进行识别处理,确定每帧图像中包含手掌图像的概率及每帧图像对应的手掌法向量;根据各帧图像中包含手掌图像的概率,确定目标视频帧中包括的目标图像组;根据目标图像组中每帧目标图像对应的手掌法向量,确定目标视频帧对应的目标手势。该方法通过利用预设的手掌朝向识别模型可以直接输出手掌法向量,进而确定手势,算法简单,识别速度快。

Description

手势识别方法、装置、电子设备和存储介质
技术领域
本申请涉及人机交互技术领域,尤其涉及一种手势识别方法、装置、电子设备和存储介质。
背景技术
随着计算机技术飞速发展,在各行各业中,计算机都给人们带来便捷,人们己经与计算机密不可分,其中,人与计算机的信息交互是必不可缺的一步。其中,基于视觉的人机交互已经成为人机交互领域的主流技术。
相关技术中,主要通过手势识别进行人机交互。目前的手势识别方式,多是通过检测图像中手势关键点的3D位置来确定手势。但是,由于手的自遮挡、多自由度、同种手势不同人不同环境下差异比较大等因素,导致这种手势识别方式,算法复杂,识别速度慢。
发明内容
本申请提出一种手势识别方法、装置、电子设备和存储介质,用于解决相关技术中,利用检测手势关键点的3D位置确定手势的方法,存在的算法复杂、识别速度慢等问题。
本申请一方面实施例提出了一种手势识别方法,包括:
利用预设的手掌朝向识别模型,对目标视频帧的各图像依次进行识别处理,确定每帧图像中包含手掌图像的概率及每帧图像对应的手掌法向量;
根据各帧图像中包含手掌图像的概率,确定所述目标视频帧中包括的目标图像组;
根据所述目标图像组中每帧目标图像对应的手掌法向量,确定所述目标视频帧对应的目标手势。
本申请实施例的手势识别方法,通过利用预设的手掌朝向识别模型,对目标视频帧的各图像依次进行识别处理,确定每帧图像中包含手掌图像的概率及每帧图像对应的手掌法向量,根据各帧图像中包含手掌图像的概率,确定目标视频帧中包括的目标图像组,根据目标图像组中每帧目标图像对应的手掌法向量,确定目标视频帧对应的目标手势,由此,通过利用预设的手掌朝向识别模型可以直接输出手掌法向量,进而确定手势,算法简单,识别速度快。
本申请另一方面实施例提出了一种手势识别装置,包括:
第一确定模块,用于利用预设的手掌朝向识别模型,对目标视频帧的各图像依次进行识别处理,确定每帧图像中包含手掌图像的概率及每帧图像对应的手掌法向量;
第二确定模块,用于根据各帧图像中包含手掌图像的概率,确定所述目标视频帧中包括的目标图像组;
第三确定模块,用于根据所述目标图像组中每帧目标图像对应的手掌法向量,确定所述目标视频帧对应的目标手势。
本申请实施例的手势识别装置,通过利用预设的手掌朝向识别模型,对目标视频帧的各图像依次进行识别处理,确定每帧图像中包含手掌图像的概率及每帧图像对应的手掌法向量,根据各帧图像中包含手掌图像的概率,确定目标视频帧中包括的目标图像组,根据目标图像组中每帧目标图像对应的手掌法向量,确定目标视频帧对应的目标手势,由此,通过利用预设的手掌朝向识别模型可以直接输出手掌法向量,进而确定手势,算法简单,识别速度快。
本申请另一方面实施例提出了一种电子设备,包括处理器和存储器;
其中,所述处理器通过读取所述存储器中存储的可执行程序代码来运行与所述可执行程序代码对应的程序,以用于实现如上述一方面实施例所述的手势识别方法。
本申请另一方面实施例提出了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现如上述一方面实施例所述的手势识别方法。
本申请附加的方面和优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本申请的实践了解到。
附图说明
本申请上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解,其中:
图1为本申请实施例提供的一种手势识别方法的流程示意图;
图2为本申请实施例提供的一种确定目标视频帧对应的目标手势的方法的流程示意图;
图3为本申请实施例提供的一种预设的手势朝向识别模型的训练方法的流程示意图;
图4为本申请实施例提供的一种手势识别装置的结构示意图;
图5示出了适于用来实现本申请实施方式的示例性电子设备的框图。
具体实施方式
下面详细描述本申请的实施例,所述实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,旨在用于解释本申请,而不能理解为对本申请的限制。
下面参考附图描述本申请实施例的手势识别方法、装置、电子设备和存储介质。
图1为本申请实施例提供的一种手势识别方法的流程示意图。
本申请实施例的手势识别方法,可由本申请实施例提供的手势识别装置执行,该装置可配置于手机、智能电视等电子设备中,通过利用预设的手掌朝向识别模型可以直接输出手掌法向量,进而确定手势,算法简单,识别速度快。
如图1所示,该手势识别方法包括:
步骤101,利用预设的手掌朝向识别模型,对目标视频帧的各图像依次进行识别处理,确定每帧图像中包含手掌图像的概率及每帧图像对应的手掌法向量。
在实际应用中,可利用摄像装置采集多帧图像,将采集的多帧图像作为目标视频帧,也就是,目标视频帧可以是获取的连续的多帧图像。
本实施例中,预设的手势朝向识别模型的输出有两路,一路是二分类器,输出手掌手势的概率,另一路输出3个值,分别是空间直角坐标系中X轴、Y轴、Z轴的值x、y、z,得到手掌的法向量(x,y,z)。
具体地,可将目标视频帧中的每帧图像依次输入至预设的手掌朝向识别模型中,预设的手掌朝向识别模型对每帧图像进行识别,输出每帧图像中包含手掌图像的概率,以及每帧图像对应的手掌法向量。
其中,手掌法向量的是垂直于手掌平面的向量,可根据手掌法向量的方向,确定手掌的朝向。例如,手掌法向量的方向为垂直向上,可确定手掌朝上。
为了提高识别效率,在利用预设的手势朝向识别模型对目标视频帧图像进行识别处理之前,可先对目标视频帧进行初步筛选,将无效的图像进行删除,例如,删除不包含人体的图像。
相关技术中,通过手掌3D关键点识别手势的方法,是通过检测图像中手掌的3D关键点,根据检测出的3D关键点,再确定手掌法向量,而本实施例中,利用预设的手掌朝向识别模型,直接确定出手掌法向量,方法简单。
步骤102,根据各帧图像中包含手掌图像的概率,确定目标视频帧中包括的目标图像组。
在实际应用中,由于人的姿势变化可能会导致采集的图像中不包含人手,即用于确定手势的目标视频帧中,可能有些图像中不包含手掌,因此,本实施例可根据目标视频帧中每帧图像中包含手掌图像的概率,对目标视频帧的每帧图像进行判断,确定目标视频帧中包括的目标图像组。
具体地,可将目标视频帧的每帧图像中包含手掌图像的概率与预设的阈值进行比较,如果第一帧图像包含手掌图像的概率大于或等于阈值,将第一帧图像确定为目标图像组中的图像。可见,目标图像组中的图像是包含手掌图像的概率比较高的图像。
为了便于区别,本实施例中将包含手掌图像的概率大于或等于阈值的图像,称为第一帧图像,也就是说,第一帧图像是指目标视频帧中包含手掌图像的概率大于或等于阈值的帧图像。
本实施例中,通过根据目标视频帧中每帧图像中包含手掌图像的概率,对包含手掌图像的概率较低的图像进行筛除,得到包含手掌图像的概率比较高的图像,组成目标图像组,从而提高了手势识别的准确性。
步骤103,根据目标图像组中每帧目标图像对应的手掌法向量,确定目标视频帧对应的目标手势。
由于根据每帧图像对应的手掌法向量,可以确定每帧图像中手掌的朝向,因此根据目标图像组中每帧目标图像中手掌的朝向,可以确定手掌的朝向变化,那么根据手掌的朝向变化,可以确定目标视频帧对应的手势,这里称为目标手势。
本实施例中,通过利用根据每帧图像包含手掌图像的概率确定出的目标图像组确定手势,相比利用目标视频帧确定手势,可以提高手势识别的准确率。
本申请实施例的手势识别方法,通过利用预设的手掌朝向识别模型,对目标视频帧的各图像依次进行识别处理,确定每帧图像中包含手掌图像的概率及每帧图像对应的手掌法向量,然后利用每帧图像包含手掌图像的概率,确定出目标图像组,再根据目标图像组中每帧目标图像对应的手掌法向量,确定目标图像帧对应的目标手势,由此,通过利用预设的手掌朝向识别模型直接输出图像对应的手掌法向量,算法简单,识别速度快。
在本申请的一个实施例中,可通过图2所示的方法,确定目标手势。图2为本申请实施例提供的一种确定目标视频帧对应的目标手势的方法的流程示意图。
如图2所示,上述根据目标图像组中每帧目标图像对应的手掌法向量,确定目标视频帧对应的目标手势,包括:
步骤201,根据目标图像组中每帧图像对应的手掌法向量,确定每帧目标图像中手掌的朝向。
由于手掌法向量可以指示手掌当前的朝向,那么根据目标图像组中每帧目标图像对应的手掌法向量,可以确定每帧图像中手掌的朝向。
例如,手掌的法向量垂直向下,可确定手掌的朝向向下。
步骤202,根据每帧目标图像中手掌的朝向及每帧目标图像间的采集顺序,确定目标视频帧对应的目标手势。
由于人的动作具有连续性,因此可根据采集目标图像组中每帧目标图像的先后顺序,以及每帧目标图像中手掌的朝向,确定在采集目标视频帧的时间段内手掌朝向变化,从而可以确定目标视频帧对应的目标手势。
本申请实施例中,通过根据目标图像组中每帧目标图像对应的手掌法向量,确定每帧目标图像中手掌的朝向,然后根据每帧目标图像中手掌的朝向和每帧目标图像间的采集顺序,实现确定目标视频帧对应的目标手势。
在实际应用中,在利用预设的手势朝向识别模型,对目标视频帧的各图像进行识别之前,可通过训练得到预设的手势朝向识别模型。下面结合图3进行说明,图3为本申请实施例提供的一种预设的手势朝向识别模型的训练方法的流程示意图。
如图3所示,该训练方法包括:
步骤301,获取训练数据集,其中,训练数据集中包括:手掌图像、非手掌图像,及每个手掌图像对应的手掌法向量。
本实施例中,可首先获取大量手掌图像、多张非手掌图像(即不包含手掌的图像)。然后,对获取的手掌图像和非手掌图像进行标注。
其中,标注分为两部分,一是手势类别的标注,二是手掌法向量标注。
手势类别的标注有两类手势,手掌手势和非手掌手势。那么,每张手掌图像的手势类别标注为手掌手势,每张非手掌图像的手势类别标注为非手掌手势。
针对手掌法向量的标注,可以根据手势朝向估算出手掌的法向量,也可通过借助一个开源的增强AR SDK标注,这里可以用ARToolKit进行标注。
ARToolKit是一个开源的ARSDK,可以实时求解相机内外参。具体地,首先制作一个标记。然后,把标记贴在手掌上利用ARToolKit进行跟踪。ARToolKit可以根据特征点匹配获取到两组特征点的旋转平移矩阵(RT矩阵),即Pose矩阵,这样就获得了手掌手势的3D朝向角度,即手掌的法向量。
相关技术中,通过检测图像中手掌的3D关键点识别手势的方法,需要标注大量手掌的3D关键点,且3D关键点的标注难度比较大,标注误差也比较大。而本实施例中,对获取的手掌图像和非手掌图像只需进行手势类别和手掌法向量的标注,相比标注手掌的3D关键点,标注难度小,标注任务简单。
步骤302,利用训练数据集,对初始网络模型进行训练,以生成预设的手掌朝向识别模型。
本实施例中,初始网络模型可以是卷积神经网络,其中,初始网络模型输出有两路,一路是输出图像中包含手掌图像的概率,一路是输出3个值,即手掌法向量。
具体地,利用训练数据集中的图像,对初始网络模型进行训练,通过迭代训练不断调整初始网络模型中的参数,直到初始网络模型的损失函数不再下降,得到预设的手掌朝向识别模型。
在得到预设的手掌朝向识别模型后,可利用预设的手掌朝向识别模型,确定目标视频帧对应的目标手势。
本申请实施例中,通过利用包含手掌图像、非手掌图像,及每个手掌图像对应的手掌法向量的训练数据集,对初始网络模型进行训练,得到预设的手势朝向识别模型,由于在对训练数据集中的图像进行标注时,仅需要标注图像中手势类别和手掌的法向量,相比标注手掌的3D关键点,标注难度小,而且利用预设的手势朝向识别模型确定手势,准确性高。
由于任一平面的法向量有无数个,为了简化数据标注以及模型处理,可以仅标注手掌的单位法向量。
具体地,在获取训练数据集后,对每个手掌图像对应的手掌法向量进行归一化处理,得到每个手掌图像对应的单位法向量。手掌法向量(x,y,z)的归一化处理,如下公式(1):
Figure BDA0002000196810000061
其中,(x0,y0,z0)为手掌法向量(x,y,z)的单位法向量。
本申请实施例中,在获取训练数据集后,对每张手掌图像的手掌法向量进行归一化得到单位法向量,对手掌图像仅标注单位法向量,不仅可以简化标注,也可以减少模型处理。
在人机交互领域,可以利用手势对设备进行相应的控制。在本申请的一个实施例中,在确定目标视频帧对应的目标手势后,进一步地,可将目标手势与预设的手势进行比较。其中,预设的手势可以有一个,可以有多个,且每种手势对应不同的控制命令。
在进行匹配时,可根据目标手势的变化过程和预设的手势变化过程是否一致,判断目标手势与预设的手势是否匹配。当目标手势与任一预设的手势匹配时,根据任一预设的手势对应的控制指令对电子设备进行控制。
例如,预设的手势“手掌由朝上翻转到朝下”对应关闭智能电视的控制指令,当目标手势与该预设的手势匹配时,关闭智能电视。
本申请实施例中,在确定目标视频帧的手势后,当目标手势与任一预设的手势匹配时,可根据任一预设的手势对应的控制指令对电子设备进行控制,从而实现了利用手势进行人机交互的目的。
为了实现上述实施例,本申请实施例还提出一种手势识别装置。图4为本申请实施例提供的一种手势识别装置的结构示意图。
如图4所示,该手势识别装置包括:第一确定模块410、第二确定模块420、第三确定模块430。
第一确定模块410,用于利用预设的手掌朝向识别模型,对目标视频帧的各图像依次进行识别处理,确定每帧图像中包含手掌图像的概率及每帧图像对应的手掌法向量;
第二确定模块420,用于根据各帧图像中包含手掌图像的概率,确定目标视频帧中包括的目标图像组;
第三确定模块430,用于根据目标图像组中每帧目标图像对应的手掌法向量,确定目标视频帧对应的目标手势。
在本申请实施例一种可能的实现方式中,上述第二确定模块420,具体用于:
当第一帧图像中包含手掌图像的概率大于或等于阈值时,则确定第一帧图像为目标图像组中的图像。
在本申请实施例一种可能的实现方式中,上述第三确定模块430,具体用于:
根据目标图像组中每帧图像对应的手掌法向量,确定每帧目标图像中手掌的朝向;
根据每帧目标图像中手掌的朝向及每帧目标图像间的采集顺序,确定目标视频帧对应的目标手势。
在本申请实施例一种可能的实现方式中,上述预设的手掌朝向识别模型是用如下模块训练的:
获取模块,用于获取训练数据集,其中,训练数据集中包括:手掌图像、非手掌图像,及每个手掌图像对应的手掌法向量;
训练模块,用于利用训练数据集,对初始网络模型进行训练,以生成预设的手掌朝向识别模型。
在本申请实施例一种可能的实现方式中,用于训练预设的手掌朝向识别模型的模块,还包括:
第四确定模块,用于将每个手掌图像对应的手掌法向量进行归一化处理,确定每个手掌图像对应的单位法向量。
在本申请实施例一种可能的实现方式中,该装置还包括:
控制模块,用于当目标手势与任一预设的手势匹配时,根据任一预设的手势对应的控制指令对电子设备进行控制。
需要说明的是,上述对手势识别方法实施例的解释说明,也适用于该实施例的手势识别装置,故在此不再赘述。
本申请实施例的手势识别装置,通过利用预设的手掌朝向识别模型,对目标视频帧的各图像依次进行识别处理,确定每帧图像中包含手掌图像的概率及每帧图像对应的手掌法向量,根据各帧图像中包含手掌图像的概率,确定目标视频帧中包括的目标图像组,根据目标图像组中每帧目标图像对应的手掌法向量,确定目标视频帧对应的目标手势,由此,通过利用预设的手掌朝向识别模型可以直接输出手掌法向量,进而确定手势,算法简单,识别速度快。
为了实现上述实施例,本申请实施例还提出一种电子设备,包括处理器和存储器;
其中,处理器通过读取存储器中存储的可执行程序代码来运行与所述可执行程序代码对应的程序,以用于实现如上述实施例所述的手势识别方法。
图5示出了适于用来实现本申请实施方式的示例性电子设备的框图。图5显示的电子设备12仅仅是一个示例,不应对本申请实施例的功能和使用范围带来任何限制。
如图5所示,电子设备12以通用计算设备的形式表现。电子设备12的组件可以包括但不限于:一个或者多个处理器或者处理单元16,系统存储器28,连接不同系统组件(包括系统存储器28和处理单元16)的总线18。
总线18表示几类总线结构中的一种或多种,包括存储器总线或者存储器控制器,外围总线,图形加速端口,处理器或者使用多种总线结构中的任意总线结构的局域总线。举例来说,这些体系结构包括但不限于工业标准体系结构(Industry StandardArchitecture;以下简称:ISA)总线,微通道体系结构(Micro Channel Architecture;以下简称:MAC)总线,增强型ISA总线、视频电子标准协会(Video Electronics StandardsAssociation;以下简称:VESA)局域总线以及外围组件互连(Peripheral ComponentInterconnection;以下简称:PCI)总线。
电子设备12典型地包括多种计算机系统可读介质。这些介质可以是任何能够被电子设备12访问的可用介质,包括易失性和非易失性介质,可移动的和不可移动的介质。
存储器28可以包括易失性存储器形式的计算机系统可读介质,例如随机存取存储器(Random Access Memory;以下简称:RAM)30和/或高速缓存存储器32。电子设备12可以进一步包括其它可移动/不可移动的、易失性/非易失性计算机系统存储介质。仅作为举例,存储系统34可以用于读写不可移动的、非易失性磁介质(图5未显示,通常称为“硬盘驱动器”)。尽管图5中未示出,可以提供用于对可移动非易失性磁盘(例如“软盘”)读写的磁盘驱动器,以及对可移动非易失性光盘(例如:光盘只读存储器(Compact Disc Read OnlyMemory;以下简称:CD-ROM)、数字多功能只读光盘(Digital Video Disc Read OnlyMemory;以下简称:DVD-ROM)或者其它光介质)读写的光盘驱动器。在这些情况下,每个驱动器可以通过一个或者多个数据介质接口与总线18相连。存储器28可以包括至少一个程序产品,该程序产品具有一组(例如至少一个)程序模块,这些程序模块被配置以执行本申请各实施例的功能。
具有一组(至少一个)程序模块42的程序/实用工具40,可以存储在例如存储器28中,这样的程序模块42包括但不限于操作系统、一个或者多个应用程序、其它程序模块以及程序数据,这些示例中的每一个或某种组合中可能包括网络环境的实现。程序模块42通常执行本申请所描述的实施例中的功能和/或方法。
电子设备12也可以与一个或多个外部设备14(例如键盘、指向设备、显示器24等)通信,还可与一个或者多个使得用户能与该电子设备12交互的设备通信,和/或与使得该电子设备12能与一个或多个其它计算设备进行通信的任何设备(例如网卡,调制解调器等等)通信。这种通信可以通过输入/输出(I/O)接口22进行。并且,电子设备12还可以通过网络适配器20与一个或者多个网络(例如局域网(Local Area Network;以下简称:LAN),广域网(Wide Area Network;以下简称:WAN)和/或公共网络,例如因特网)通信。如图所示,网络适配器20通过总线18与电子设备12的其它模块通信。应当明白,尽管图中未示出,可以结合电子设备12使用其它硬件和/或软件模块,包括但不限于:微代码、设备驱动器、冗余处理单元、外部磁盘驱动阵列、RAID系统、磁带驱动器以及数据备份存储系统等。
处理单元16通过运行存储在系统存储器28中的程序,从而执行各种功能应用以及数据处理,例如实现前述实施例中提及的方法。
为了实现上述实施例,本申请实施例还提出一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现如上述实施例所述的手势识别方法。
在本说明书的描述中,术语“第一”、“第二”仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。在本申请的描述中,“多个”的含义是至少两个,例如两个,三个等,除非另有明确具体的限定。
流程图中或在此以其他方式描述的任何过程或方法描述可以被理解为,表示包括一个或更多个用于实现定制逻辑功能或过程的步骤的可执行指令的代码的模块、片段或部分,并且本申请的优选实施方式的范围包括另外的实现,其中可以不按所示出或讨论的顺序,包括根据所涉及的功能按基本同时的方式或按相反的顺序,来执行功能,这应被本申请的实施例所属技术领域的技术人员所理解。
在流程图中表示或在此以其他方式描述的逻辑和/或步骤,例如,可以被认为是用于实现逻辑功能的可执行指令的定序列表,可以具体实现在任何计算机可读介质中,以供指令执行系统、装置或设备(如基于计算机的系统、包括处理器的系统或其他可以从指令执行系统、装置或设备取指令并执行指令的系统)使用,或结合这些指令执行系统、装置或设备而使用。就本说明书而言,"计算机可读介质"可以是任何可以包含、存储、通信、传播或传输程序以供指令执行系统、装置或设备或结合这些指令执行系统、装置或设备而使用的装置。计算机可读介质的更具体的示例(非穷尽性列表)包括以下:具有一个或多个布线的电连接部(电子装置),便携式计算机盘盒(磁装置),随机存取存储器(RAM),只读存储器(ROM),可擦除可编辑只读存储器(EPROM或闪速存储器),光纤装置,以及便携式光盘只读存储器(CDROM)。另外,计算机可读介质甚至可以是可在其上打印所述程序的纸或其他合适的介质,因为可以例如通过对纸或其他介质进行光学扫描,接着进行编辑、解译或必要时以其他合适方式进行处理来以电子方式获得所述程序,然后将其存储在计算机存储器中。
应当理解,本申请的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中,多个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件或固件来实现。如,如果用硬件来实现和在另一实施方式中一样,可用本领域公知的下列技术中的任一项或他们的组合来实现:具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路,具有合适的组合逻辑门电路的专用集成电路,可编程门阵列(PGA),现场可编程门阵列(FPGA)等。
本技术领域的普通技术人员可以理解实现上述实施例方法携带的全部或部分步骤是可以通过程序来指令相关的硬件完成,所述的程序可以存储于一种计算机可读存储介质中,该程序在执行时,包括方法实施例的步骤之一或其组合。
此外,在本申请各个实施例中的各功能单元可以集成在一个处理模块中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个模块中。上述集成的模块既可以采用硬件的形式实现,也可以采用软件功能模块的形式实现。所述集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时,也可以存储在一个计算机可读取存储介质中。
上述提到的存储介质可以是只读存储器,磁盘或光盘等。尽管上面已经示出和描述了本申请的实施例,可以理解的是,上述实施例是示例性的,不能理解为对本申请的限制,本领域的普通技术人员在本申请的范围内可以对上述实施例进行变化、修改、替换和变型。

Claims (12)

1.一种手势识别方法,其特征在于,包括:
利用预设的手掌朝向识别模型,对目标视频帧的各图像依次进行识别处理,确定每帧图像中包含手掌图像的概率及每帧图像对应的手掌法向量;
根据各帧图像中包含手掌图像的概率,确定所述目标视频帧中包括的目标图像组;
根据所述目标图像组中每帧目标图像对应的手掌法向量,确定所述每帧目标图像中手掌的朝向,根据采集目标图像组中每帧目标图像的先后顺序,以及所述每帧目标图像中手掌的朝向,确定在采集目标视频帧的时间段内手掌的朝向变化,根据所述手掌的朝向变化确定所述目标视频帧对应的目标手势;
在所述确定目标视频帧对应的目标手势后,所述方法还包括:
判断所述目标手势与预设的手势是否匹配;
当所述目标手势与任一所述预设的手势匹配时,根据任一所述预设的手势对应的控制指令对电子设备进行控制。
2.如权利要求1所述的方法,其特征在于,所述根据各帧图像中包含手掌图像的概率,确定所述目标视频帧中包括的目标图像组,包括:
若第一帧图像中包含手掌图像的概率大于或等于阈值,则确定所述第一帧图像为目标图像组中的图像。
3.如权利要求1所述的方法,其特征在于,所述预设的手掌朝向识别模型是用如下方法训练的:
获取训练数据集,其中,所述训练数据集中包括:手掌图像、非手掌图像,及每个手掌图像对应的手掌法向量;
利用所述训练数据集,对初始网络模型进行训练,以生成所述预设的手掌朝向识别模型。
4.如权利要求3所述的方法,其特征在于,所述获取训练数据集之后,还包括:
将每个手掌图像对应的手掌法向量进行归一化处理,确定每个手掌图像对应的单位法向量。
5.如权利要求1-4任一所述的方法,其特征在于,所述确定所述目标视频帧对应的目标手势之后,还包括:
若所述目标手势与任一预设的手势匹配,则根据所述任一预设的手势对应的控制指令对电子设备进行控制。
6.一种手势识别装置,其特征在于,包括:
第一确定模块,用于利用预设的手掌朝向识别模型,对目标视频帧的各图像依次进行识别处理,确定每帧图像中包含手掌图像的概率及每帧图像对应的手掌法向量;
第二确定模块,用于根据各帧图像中包含手掌图像的概率,确定所述目标视频帧中包括的目标图像组;
第三确定模块,用于根据所述目标图像组中每帧目标图像对应的手掌法向量,确定所述每帧目标图像中手掌的朝向,根据采集目标图像组中每帧目标图像的先后顺序,以及所述每帧目标图像中手掌的朝向,确定在采集目标视频帧的时间段内手掌的朝向变化,根据所述手掌的朝向变化确定所述目标视频帧对应的目标手势;
控制模块,用于判断所述目标手势与预设的手势是否匹配;当所述目标手势与任一所述预设的手势匹配时,根据任一所述预设的手势对应的控制指令对电子设备进行控制。
7.如权利要求6所述的装置,其特征在于,所述第二确定模块,具体用于:
当第一帧图像中包含手掌图像的概率大于或等于阈值时,确定所述第一帧图像为目标图像组中的图像。
8.如权利要求6所述的装置,其特征在于,所述预设的手掌朝向识别模型是用如下模块训练的:
获取模块,用于获取训练数据集,其中,所述训练数据集中包括:手掌图像、非手掌图像,及每个手掌图像对应的手掌法向量;
训练模块,用于利用所述训练数据集,对初始网络模型进行训练,以生成所述预设的手掌朝向识别模型。
9.如权利要求8所述的装置,其特征在于,用于训练所述预设的手掌朝向识别模型的模块,还包括:
第四确定模块,用于将每个手掌图像对应的手掌法向量进行归一化处理,确定每个手掌图像对应的单位法向量。
10.如权利要求6-9任一所述的装置,其特征在于,还包括:
控制模块,用于当所述目标手势与任一预设的手势匹配时,根据所述任一预设的手势对应的控制指令对电子设备进行控制。
11.一种电子设备,其特征在于,包括处理器和存储器;
其中,所述处理器通过读取所述存储器中存储的可执行程序代码来运行与所述可执行程序代码对应的程序,以用于实现如权利要求1-5中任一所述的手势识别方法。
12.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现如权利要求1-5中任一所述的手势识别方法。
CN201910210038.4A 2019-03-19 2019-03-19 手势识别方法、装置、电子设备和存储介质 Active CN109948542B (zh)

Priority Applications (5)

Application Number Priority Date Filing Date Title
CN201910210038.4A CN109948542B (zh) 2019-03-19 2019-03-19 手势识别方法、装置、电子设备和存储介质
EP20157174.2A EP3712805B1 (en) 2019-03-19 2020-02-13 Gesture recognition method, device, electronic device, and storage medium
US16/791,128 US10983596B2 (en) 2019-03-19 2020-02-14 Gesture recognition method, device, electronic device, and storage medium
KR1020200019007A KR102292028B1 (ko) 2019-03-19 2020-02-17 제스처 인식 방법, 장치, 전자 기기 및 저장 매체
JP2020047334A JP6941198B2 (ja) 2019-03-19 2020-03-18 ジェスチャー認識方法、ジェスチャー認識装置、電子機器、及び記憶媒体

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910210038.4A CN109948542B (zh) 2019-03-19 2019-03-19 手势识别方法、装置、电子设备和存储介质

Publications (2)

Publication Number Publication Date
CN109948542A CN109948542A (zh) 2019-06-28
CN109948542B true CN109948542B (zh) 2022-09-23

Family

ID=67010343

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910210038.4A Active CN109948542B (zh) 2019-03-19 2019-03-19 手势识别方法、装置、电子设备和存储介质

Country Status (5)

Country Link
US (1) US10983596B2 (zh)
EP (1) EP3712805B1 (zh)
JP (1) JP6941198B2 (zh)
KR (1) KR102292028B1 (zh)
CN (1) CN109948542B (zh)

Families Citing this family (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11520409B2 (en) * 2019-04-11 2022-12-06 Samsung Electronics Co., Ltd. Head mounted display device and operating method thereof
CN111738042A (zh) * 2019-10-25 2020-10-02 北京沃东天骏信息技术有限公司 识别方法、设备及存储介质
CN111191498A (zh) * 2019-11-07 2020-05-22 腾讯科技(深圳)有限公司 行为识别方法和相关产品
CN110889390A (zh) * 2019-12-05 2020-03-17 北京明略软件系统有限公司 姿势识别方法、装置、控制设备和机器可读存储介质
CN111898489B (zh) * 2020-07-15 2023-08-08 北京百度网讯科技有限公司 用于标注手掌位姿的方法、装置、电子设备及存储介质
CN112000224A (zh) * 2020-08-24 2020-11-27 北京华捷艾米科技有限公司 一种手势交互方法及系统
CN112224304A (zh) * 2020-10-28 2021-01-15 北京理工大学 一种轮步复合移动平台及其手势、语音控制方法
CN112464758A (zh) * 2020-11-16 2021-03-09 深圳市优必选科技股份有限公司 用于手势识别的数据增强方法、装置、计算机设备及存储介质
CN114967905A (zh) * 2021-02-26 2022-08-30 广州视享科技有限公司 手势控制方法、装置、计算机可读存储介质和电子设备
CN113253847B (zh) * 2021-06-08 2024-04-30 北京字节跳动网络技术有限公司 终端的控制方法、装置、终端和存储介质
CN113486765B (zh) * 2021-06-30 2023-06-16 上海商汤临港智能科技有限公司 手势交互方法及装置、电子设备和存储介质
CN115695744A (zh) * 2021-07-26 2023-02-03 成都极米科技股份有限公司 投影画面校正方法、装置及投影仪
CN113537123B (zh) * 2021-07-28 2023-04-07 上海高德威智能交通系统有限公司 手势识别方法、装置、电子设备及可读存储介质
CN113326829B (zh) * 2021-08-03 2021-11-23 北京世纪好未来教育科技有限公司 视频中手势的识别方法、装置、可读存储介质及电子设备
CN114253395B (zh) * 2021-11-11 2023-07-18 易视腾科技股份有限公司 一种用于电视控制的手势识别系统及其识别方法
CN113934307B (zh) * 2021-12-16 2022-03-18 佛山市霖云艾思科技有限公司 一种根据手势和场景开启电子设备的方法
CN114900732B (zh) * 2022-04-25 2024-01-12 北京奇艺世纪科技有限公司 视频缓存方法、装置、电子设备及存储介质

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103413080A (zh) * 2013-08-20 2013-11-27 苏州跨界软件科技有限公司 一种基于手势的密码保护实现方法
CN106055091A (zh) * 2016-05-16 2016-10-26 电子科技大学 一种基于深度信息和校正方式的手部姿态估计方法
CN108131808A (zh) * 2017-12-08 2018-06-08 厦门瑞为信息技术有限公司 基于分级手势识别的空调控制装置及方法
CN109284698A (zh) * 2018-09-03 2019-01-29 深圳市尼欧科技有限公司 一种基于图像识别技术的疲劳驾驶行为检测方法

Family Cites Families (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20100027845A1 (en) * 2008-07-31 2010-02-04 Samsung Electronics Co., Ltd. System and method for motion detection based on object trajectory
JP2013016116A (ja) * 2011-07-06 2013-01-24 Sony Corp 情報処理装置、画像表示装置、および情報処理方法
JP2013080413A (ja) * 2011-10-05 2013-05-02 Sony Corp 入力装置、入力認識方法
US9536135B2 (en) * 2012-06-18 2017-01-03 Microsoft Technology Licensing, Llc Dynamic hand gesture recognition using depth data
JP6207240B2 (ja) * 2013-06-05 2017-10-04 キヤノン株式会社 情報処理装置及びその制御方法
CN103760968B (zh) * 2013-11-29 2015-05-13 理光软件研究所(北京)有限公司 数字标牌显示内容选择方法和装置
JP6460862B2 (ja) * 2014-03-20 2019-01-30 国立研究開発法人産業技術総合研究所 ジェスチャ認識装置、システム及びそのプログラム
US20150370472A1 (en) * 2014-06-19 2015-12-24 Xerox Corporation 3-d motion control for document discovery and retrieval
US9996109B2 (en) * 2014-08-16 2018-06-12 Google Llc Identifying gestures using motion data
US20170068416A1 (en) * 2015-09-08 2017-03-09 Chian Chiu Li Systems And Methods for Gesture Input
JP6934618B2 (ja) * 2016-11-02 2021-09-15 パナソニックIpマネジメント株式会社 ジェスチャ入力システム及びジェスチャ入力方法
US10488939B2 (en) * 2017-04-20 2019-11-26 Microsoft Technology Licensing, Llc Gesture recognition
KR101966384B1 (ko) * 2017-06-29 2019-08-13 라인 가부시키가이샤 영상 처리 방법 및 시스템
CN108427871A (zh) * 2018-01-30 2018-08-21 深圳奥比中光科技有限公司 3d人脸快速身份认证方法与装置
CN108520247B (zh) 2018-04-16 2020-04-28 腾讯科技(深圳)有限公司 对图像中的对象节点的识别方法、装置、终端及可读介质
CN108549490A (zh) * 2018-05-03 2018-09-18 林潼 一种基于Leap Motion设备的手势识别互动方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103413080A (zh) * 2013-08-20 2013-11-27 苏州跨界软件科技有限公司 一种基于手势的密码保护实现方法
CN106055091A (zh) * 2016-05-16 2016-10-26 电子科技大学 一种基于深度信息和校正方式的手部姿态估计方法
CN108131808A (zh) * 2017-12-08 2018-06-08 厦门瑞为信息技术有限公司 基于分级手势识别的空调控制装置及方法
CN109284698A (zh) * 2018-09-03 2019-01-29 深圳市尼欧科技有限公司 一种基于图像识别技术的疲劳驾驶行为检测方法

Also Published As

Publication number Publication date
EP3712805B1 (en) 2023-05-03
US10983596B2 (en) 2021-04-20
KR20200111617A (ko) 2020-09-29
EP3712805A1 (en) 2020-09-23
JP2020155129A (ja) 2020-09-24
KR102292028B1 (ko) 2021-08-19
CN109948542A (zh) 2019-06-28
JP6941198B2 (ja) 2021-09-29
US20200301514A1 (en) 2020-09-24

Similar Documents

Publication Publication Date Title
CN109948542B (zh) 手势识别方法、装置、电子设备和存储介质
CN110322500A (zh) 即时定位与地图构建的优化方法及装置、介质和电子设备
US10108270B2 (en) Real-time 3D gesture recognition and tracking system for mobile devices
CN105825524A (zh) 目标跟踪方法和装置
US20120114255A1 (en) Image processing apparatus, method, and program
CN110222703B (zh) 图像轮廓识别方法、装置、设备和介质
Badi Recent methods in vision-based hand gesture recognition
US20070206862A1 (en) Information processing apparatus, method of computer control, computer readable medium, and computer data signal
Wu et al. Vision-based fingertip tracking utilizing curvature points clustering and hash model representation
CN110555426A (zh) 视线检测方法、装置、设备及存储介质
CN110349212A (zh) 即时定位与地图构建的优化方法及装置、介质和电子设备
WO2021196013A1 (zh) 单词识别方法、设备及存储介质
CN110717385A (zh) 一种动态手势识别方法
CN110850982A (zh) 基于ar的人机交互学习方法、系统、设备及存储介质
CN112036516A (zh) 一种图像处理方法、装置、电子设备和存储介质
CN117058421A (zh) 基于多头模型的图像检测关键点方法、系统、平台及介质
CN110197100B (zh) 物体定位方法和装置
CN112541418B (zh) 用于图像处理的方法、装置、设备、介质和程序产品
WO2012162200A2 (en) Identifying contacts and contact attributes in touch sensor data using spatial and temporal features
CN109271909A (zh) 笔迹识别方法、装置、终端与存储介质
CN116048374B (zh) 虚拟隐形键盘的在线考试方法及系统
US20220137712A1 (en) Information processing apparatus, information processing method, and program
CN110705510B (zh) 一种动作确定方法、装置、服务器和存储介质
Yousefi et al. Camera-based gesture tracking for 3d interaction behind mobile devices
CN114821600A (zh) 虚拟文本识别方法、装置、介质及电子设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant