CN109117806A - 一种手势识别方法和装置 - Google Patents

一种手势识别方法和装置 Download PDF

Info

Publication number
CN109117806A
CN109117806A CN201810961625.2A CN201810961625A CN109117806A CN 109117806 A CN109117806 A CN 109117806A CN 201810961625 A CN201810961625 A CN 201810961625A CN 109117806 A CN109117806 A CN 109117806A
Authority
CN
China
Prior art keywords
gesture
image
convolutional layer
characteristic pattern
selection frame
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201810961625.2A
Other languages
English (en)
Other versions
CN109117806B (zh
Inventor
冯扬扬
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Rongcheng goer Technology Co.,Ltd.
Original Assignee
Goertek Techology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Goertek Techology Co Ltd filed Critical Goertek Techology Co Ltd
Priority to CN201810961625.2A priority Critical patent/CN109117806B/zh
Publication of CN109117806A publication Critical patent/CN109117806A/zh
Application granted granted Critical
Publication of CN109117806B publication Critical patent/CN109117806B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/107Static hand or arm
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Biomedical Technology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Human Computer Interaction (AREA)
  • Multimedia (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种手势方法和装置。手势识别方法包括:获取具有相同预设手势类型、不同手势角度的多张手势图像,并将多张手势图像合并为多通道图像;将多通道图像输入预设的卷积神经网络,确定具有预设非线性特征的特征图,预设非线性特征包括图像2D空间相关性特征和图像不同通道间手势对象的各种表征信息的相关性特征;在特征图上生成预选框,利用预选框预测手势目标在图像中的位置,并根据预设非线性特征获得手势识别结果。本发明可以避免外界环境变化或手势姿态变化对手势识别造成影响,不管手势姿态如何变化,手势如何遮挡或者光照情况如何变化,本发明都可以准确识别手势,提高识别的准确性。

Description

一种手势识别方法和装置
技术领域
本发明涉及一种手势识别方法和装置。
背景技术
近年来,深度学习在解决诸如视觉识别、语音识别和自然语言处理等很多问题方面都表现出非常好的性能,在不同类型的深度神经网络当中,卷积神经网络在图像处理方面取得了较好的效果。
但随着移动终端和可穿戴设备的普及,在复杂背景下手势识别的效果受环境影响较大,例如,受光照、颜色、遮挡、形变等影响较大,且现实生活中,图像采集具有一定的局限性,不可能包含所有情况下的手势图片,因此基于以单张图像为输入的卷积神经网络在手势识别的应用具有一定的局限性。
发明内容
本发明提供了一种手势方法和装置,以解决现有手势识别方案受环境影响大,识别结果不准确的问题。
本发明的一个方面提供了一种手势识别方法,包括:获取具有相同预设手势类型、不同手势角度的多张手势图像,并将多张手势图像合并为多通道图像;将多通道图像输入预设的卷积神经网络,确定具有预设非线性特征的特征图,预设非线性特征包括图像2D空间相关性特征和图像不同通道间手势对象的各种表征信息的相关性特征;在特征图上生成预选框,利用预选框预测手势目标在图像中的位置,并根据预设非线性特征获得手势识别结果。
优选地,获取具有相同手势类型、不同手势姿态的多张手势图像,包括:获取目标手势的灰度图像;根据预设手势角度的种类,将灰度图像旋转预设角度,获得多张手势图像;采用预设方法将所述灰度图像的局部进行模糊处理,获得手势遮挡图像;将多张手势图像和所述手势遮挡图像,缩放至相同尺寸后合并成一个多通道图像。
优选地,卷积神经网络包括多级卷积层,每级卷积层为深度可分离结构,所述深度可分离结构对多个通道的输入图像采用k*k*1的卷积核滑动相乘,确定表示多通道图像2D空间相关性的多个特征图,并对多个特征图采用1*1*Cout的卷积核滑动相乘,确定多通道图像不同通道间手势对象的各种表征信息的相关性;其中,k为卷积核的大小,Cout为输出通道数。
优选地,在特征图上生成预选框,利用预选框预测手势目标在图像中的位置,并根据预设非线性特征获得手势识别结果包括:根据卷积层的层级,在相应卷积层的特征图上的每个像素点生成相应数量和形状的多个预选框;根据预选框中的图像内容与在手势图像上利用标定框预先标定的图像内容的交集与并集的比值,确定满足预设条件的预选框,根据预选框中特征图的预设非线性特征确定预选框的位置,以利用预选框预测手势目标在图像中的位置。
优选地,根据卷积层的层级,在相应卷积层的特征图上生成相应数量和形状的多个预选框,包括:根据手势目标在参与预测的各个卷积层的特征图中的占比,确定占比的最大值和最小值;根据占比的最大值、最小值和卷积层的层级,确定参与预测的卷积层的占比间隔;根据占比间隔、手势目标在卷积层的特征图中的占比值和最小维度值,确定卷积层的特征图上生成的预选框的最大尺寸和最小尺寸,最小维度根据卷积层的输入图像的尺寸确定。
本发明的另一个方面提供了一种手势识别装置,包括:图像预处理单元,用于获取具有相同预设手势类型、不同手势角度的多张手势图像,并将多张手势图像合并为多通道图像;特征获取单元,用于将多通道图像输入预设的卷积神经网络,确定具有预设非线性特征的特征图,预设非线性特征包括图像2D空间相关性特征和图像不同通道间手势对象的各种表征信息的相关性特征;手势识别单元,用于在特征图上生成预选框,利用预选框预测手势目标在图像中的位置,并根据预设非线性特征获得手势识别结果。
优选地,图像预处理单元,用于获取目标手势的灰度图像;根据预设手势角度的种类,将灰度图像旋转预设角度,获得多张手势图像;采用预设方法将灰度图像的局部进行模糊处理,获得手势遮挡图像;将多张手势图像和所述手势遮挡图像,缩放至相同尺寸后合并成一个多通道图像。
优选地,卷积神经网络包括多级卷积层,每级卷积层为深度可分离结构,所述深度可分离结构对多个通道的输入图像采用k*k*1的卷积核滑动相乘,确定表示多通道图像2D空间相关性的多个特征图,并对多个特征图采用1*1*Cout的卷积核滑动相乘,确定多通道图像不同通道间手势对象的各种表征信息的相关性;其中,k为卷积核的大小,Cout为输出通道数。
优选地,手势识别单元,用于根据卷积层的层级,在相应卷积层的特征图上的每个像素点生成相应数量和形状的多个预选框;根据预选框中的图像内容与在手势图像上利用标定框预先标定的图像内容的交集与并集的比值,确定满足预设条件的预选框,根据预选框中特征图的预设非线性特征确定预选框的位置,以利用预选框预测手势目标在图像中的位置;手势识别单元包括计算模块;计算模块,用于根据手势目标在参与预测的各个卷积层的特征图中的占比,确定占比的最大值和最小值;根据占比的最大值、最小值和卷积层的层级,确定参与预测的卷积层的占比间隔;根据占比间隔、手势目标在卷积层的特征图中的占比值和最小维度值,确定卷积层的特征图上生成的预选框的最大尺寸和最小尺寸,最小维度根据卷积层的输入图像的尺寸确定。
本发明的另一个方面提供一种计算机可读存储介质,存储有可执行令,可执行指令被处理器执行时以实现上述手势识别方法。
本发明通过将包含同一手势不同手势角度的多张手势图像合并成多通道图像并作为卷积神经网络的输入图像,由于输入图像涵盖了同一手势类型的各种表征信息,因此可以避免外界环境的变化或手势姿态的变化对手势识别造成影响,不管手势姿态如何变化,手势如何遮挡或者光照情况如何变化,本发明都可以准确识别手势,提高识别的准确性。
附图说明
图1为本发明实施例示出的手势识别方法的流程图;
图2为本发明实施例示出的传统卷积层结构的示意图;
图3为本发明实施例示出的深度可分离卷积层结构的示意图;
图4为本发明实施例示出的特征图上的预选框示意图;
图5为本发明实施例示出的手势识别装置的组成框图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,下面将结合附图对本发明实施方式作进一步地详细描述。
以下,将参照附图来描述本发明的实施例。但是应该理解,这些描述只是示例性的,而并非要限制本发明的范围。此外,在以下说明中,省略了对公知结构和技术的描述,以避免不必要地混淆本发明的概念。
在此使用的术语仅仅是为了描述具体实施例,而并非意在限制本发明。这里使用的词语“一”、“一个(种)”和“该”等也应包括“多个”、“多种”的意思,除非上下文另外明确指出。此外,在此使用的术语“包括”、“包含”等表明了所述特征、步骤、操作和/或部件的存在,但是并不排除存在或添加一个或多个其他特征、步骤、操作或部件。
在此使用的所有术语(包括技术和科学术语)具有本领域技术人员通常所理解的含义,除非另外定义。应注意,这里使用的术语应解释为具有与本说明书的上下文相一致的含义,而不应以理想化或过于刻板的方式来解释。
附图中示出了一些方框图和/或流程图。应理解,方框图和/或流程图中的一些方框或其组合可以由计算机程序指令来实现。这些计算机程序指令可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器,从而这些指令在由该处理器执行时可以创建用于实现这些方框图和/或流程图中所说明的功能/操作的装置。
因此,本发明的技术可以硬件和/或软件(包括固件、微代码等)的形式来实现。另外,本发明的技术可以采取存储有指令的计算机可读介质上的计算机程序产品的形式,该计算机程序产品可供指令执行系统使用或者结合指令执行系统使用。在本发明的上下文中,计算机可读介质可以是能够包含、存储、传送、传播或传输指令的任意介质。例如,计算机可读介质可以包括但不限于电、磁、光、电磁、红外或半导体系统、装置、器件或传播介质。计算机可读介质的具体示例包括:磁存储装置,如磁带或硬盘(HDD);光存储装置,如光盘(CD-ROM);存储器,如随机存取存储器(RAM)或闪存;和/或有线/无线通信链路。
本发明的一个方面提供了一种手势识别方法。
图1为本发明实施例示出的手势识别方法的流程图,如图1所示,本实施例的手势识别方法包括:
S110,获取具有相同预设手势类型、不同手势角度的多张手势图像,并将多张手势图像合并为多通道图像。
本实施例的预设手势类型包括但不限于:手掌、握拳、剪刀手势、举大拇指手势等,本实施例的手势角度可以理解为:图像中手势目标相对背景的角度不同。具有相同预设手势类型,不同手势角度的多张手势图像可以理解为:多张手势图像中的手势类型相同,手势目标相对背景的角度不同。例如,在四张手势图像中,这四张手势图像中的手势类型均为剪刀手势,但一张手势图像中的手势目标相对背景是剪刀向上方向,一张手势图像中的手势目标相对背景是剪刀向下方向,一张手势图像中的手势目标相对背景是剪刀向左方向,一张手势图像中的手势目标相对背景是剪刀向右方向。
本实施例中的多张手势图像中,手势目标相对背景的位置大致相同,各张手势图像中手势目标相对背景的偏移较小,或没有偏移,使得后续利用预设卷积神经网络对合成的多通道图像进行特征提取时,所提取的特征能够提高手势识别的准确性。
当将三张手势图像合并时,所合并成的是一种三通道图像,当将五张手势图像合并时,所合并成的是一种五通道图像,本实施例的多通道图像对应为一个三维矩阵。将图像集作为卷积神经网络的输入图像,可以涵盖同一手势类型的各种表征信息。
S120,将多通道图像输入预设的卷积神经网络确定具有预设非线性特征的特征图,预设非线性特征包括图像2D空间相关性特征和图像不同通道间手势对象的各种表征信息的相关性特征。
由于图像的有效特征一般是高维度特征,本实施例的卷积神经网络包括多级卷积层、多级非线性归正层和多级池化层,利用多级卷积层和多级非线性归正层对输入图像处理,获得可以更好地表征图像信息的预设非线性特征,例如获得图像2D空间相关性,图像2D空间相关性表示了图像中相邻像素或相邻像素块之间的关系,本实施例的预设非线性特征还包括图像不同通道间手势对象的各种表征信息的相关性特征,在利用多级卷积层和多级非线性归正层对输入图像处理的过程中,还通过多级池化层去除冗余信息,减少参数量,提升卷积神经网络对输入图像的处理速度。本实施例的表征信息包括图像不同通道之间的光线亮度、姿态变化、遮挡等信息。
S130,在特征图上生成预选框,利用预选框预测手势目标在图像中的位置,并根据预设非线性特征获得手势识别结果。
本实施例在不同尺度的特征图上预测一系列的预选框,根据满足预设条件的预选框中框定的特征图的非线性特征进行手势类型识别,通过训练调整预选框位置,利用预选框预测手势目标在图像中的位置。
本实施例通过将包含同一手势不同手势角度的多张手势图像合并成多通道图像并作为卷积神经网络的输入图像,由于输入图像涵盖了同一手势类型的各种表征信息,因此可以避免外界环境的变化或手势姿态的变化对手势识别造成影响,不管手势姿态如何变化,手势如何遮挡或者光照情况如何变化,都可以准确识别手势,提高识别的准确性。
图2为本发明实施例示出的传统卷积层结构的示意图,图3为本发明实施例示出的深度可分离卷积层结构的示意图,图4为本发明实施例示出的特征图上的预选框示意图,以下参考图2-4对上述步骤S110-S130进行详细的说明。
首先执行步骤S110,即获取具有相同预设手势类型、不同手势角度的多张手势图像,并将多张手势图像合并为多通道图像。
在一个实施例中,通过下述方式获得多种手势图像:首先,获取目标手势的灰度图像,根据预设手势角度的种类,将灰度图像旋转预设角度,获得多张手势图像,采用预设方法将灰度图像的局部进行模糊处理,获得手势遮挡图像,将多张手势图像和所述手势遮挡图像,缩放至相同尺寸后合并成一个多通道图像。
实际应用中,可以使用RGB相机采集目标手势的手势图像,将手势图像从RGB图转换为灰度图,根据预设手势角度的种类,假设预设手势角度的种类包括相对背景向上方向、相对背景向下方向、相对背景向左方向和相对背景向右方向四种预设手势角度,将灰度图顺次旋转90度方向,共旋转三次,获得四种预设手势角度的手势图像,由此可以确保,所获得的四张手势图像(包括初始的灰度图像和通过旋转获得的三张手势图像)具有相同手势类型,不同手势角度;为了使手势识别不受遮挡因素的影响,本实施例还对初始的灰度图像进行局部模糊处理,例如采用随机方式对初始的灰度图进行局部模糊,获得手势遮挡图像,将这五种手势图像缩放至相同尺寸后,合并成一个五通道图像,以缓解图像的存储压力。
然后执行步骤S120,即将多通道图像输入预设的卷积神经网络,确定具有预设非线性特征的特征图。
本实施例中,卷积神经网络的深度可以根据输入图像的尺寸设定,例如,当输入图像大小为80*80,可以设定卷积神经网络包括7层卷积层、4层池化层和4层非线性归正层。
卷积神经网络的每级卷积层为深度可分离结构,深度可分离结构对多个通道的输入图像采用k*k*1的卷积核滑动相乘,确定表示多通道图像集2D空间相关性的多个特征图,并对多个特征图采用1*1*Cout的卷积核滑动相乘,确定多通道图像集不同通道间手势对象的各种表征信息的相关性;其中,k卷积核的大小,例如k=3,Cout为输出通道数或特征图个数,Cout的取值可以根据手势识别的准确度进行设置。
如图2所示,传统卷积层是采用k*k*Cin大小的卷积核在M*N*Cin的输入图像(I)上滑动相乘获得输出图像(O),对其中一层特征图,不同卷积核在M*N*Cin的输入图像上滑动相乘,获得整个输入输出图像(O)。这种卷积方式在不同通道之间采用了相同的卷积核,忽略了通道信息的相关性,只能够获得图像2D空间特征的相关性;其中,M*N为输入图像的尺寸,Cin为输入图像的通道数。
如图3所示,本实施例采用深度可分离卷积层,分别对Cin个通道的图像上采用k*k*1的卷积核滑动相乘,获得可分离卷积(J),即获得Cin个特征图,然后对Cin个特征图采用1*1*Cout的卷积核滑动相乘,最后获得输出图像(O)。
本实施例采用深度可分离卷积结构替代传统卷积层,既可以确定图像2D空间相关性和图像不同通道间手势对象的各种表征信息的相关性,还可以减少网络参数量,提升卷积神经网络对输入图像的处理速度。
获得具有预设非线性特征的特征图之后,继续执行步骤S130,即在特征图上生成预选框,利用预选框预测手势目标在图像中的位置,并根据预设非线性特征获得手势识别结果。
在本实施例中,首先,根据卷积层的层级,在相应卷积层的特征图上的每个像素点生成相应数量和形状的多个预选框;若卷积神经网络包括7层卷积层,可以将后5层卷积层作为预测层,由于手势图像中手势大小不一,为了涵盖所有情况,尽可能产生不同形状、大小的预选框,且不同特征图对应原图的感受野不同,因此,如图4所示,设定前三层预测层的特征图的每个像素点会产生四个不同大小的正方形预测框以及四个不同长宽比的长方形预选框,后两层预测层的特征图的每个像素点产生两个不同大小的正方形以及两个不同长宽比的长方形预选框。然后,根据预选框中的图像内容与在手势图像上利用标定框预先标定的图像内容的交集与并集的比值,确定满足预设条件的预选框,根据预选框中特征图的预设非线性特征确定预选框的位置,以利用预选框预测手势目标在图像中的位置;假设利用DB boxes表示预选框,利用GT boxes表示标定框,若DB(boxes∩GT boxes)/(boxes∪GTboxes)的比值大于预设值,例如大于0.6,表明此时预选框为满足预设条件的预选框,该预先框中的样本为正样本,根据预选框中框定的图像内容,即根据预选框中框定的特征图的预设非线性特征进行手势目标的识别,并通过训练调整预选框的位置,最终确定手势目标在特征图中的位置。
本实施例通过下述方式确定预选框的尺寸:首先,根据手势目标在参与预测的各个卷积层的特征图中的占比ratio,确定占比ratio的最大值ratio_max和最小值ratio_min,0<ratio_min<ratio_max<1;根据占比的最大值ratio_max、最小值ratio_min和卷积层的层级len(mbox_source_layers),确定参与预测的卷积层的占比间隔step,即根据公式可以确定占比间隔step。然后,根据占比间隔、手势目标在卷积层的特征图中的占比值和最小维度值,确定卷积层的特征图上生成的预选框的最大尺寸和最小尺寸,最小维度根据卷积层的输入图像的尺寸确定,既可以根据公式min_sizes=(min_dim×ratio)/100确定预选框的最小尺寸min_sizes,根据公式max_sizes=(min_dim×(ratio+step))/100确定预选框的最大尺寸max_sizes,其中,min_dim为最小维度值,min_dim根据卷积层的输入图像的尺寸确定。
本发明的一个方面还提供了一种手势识别装置。
图5为本发明实施例示出的手势识别装置的组成框图,如图5所示,本实施例的手势识别装置包括:
图像预处理单元51,用于获取具有相同预设手势类型、不同手势角度的多张手势图像,并将多张手势图像合并为多通道图像;
特征获取单元52,用于将多通道图像输入预设的卷积神经网络,确定具有预设非线性特征的特征图,预设非线性特征包括图像2D空间相关性特征和图像不同通道间手势对象的各种表征信息的相关性特征;其中,卷积神经网络包括多级卷积层,每级卷积层为深度可分离结构,深度可分离结构对多个通道的输入图像采用k*k*1的卷积核滑动相乘,获得表示多通道图像2D空间相关性的多个特征图,并对多个特征图采用1*1*Cout的卷积核滑动相乘,获得多通道图像不同通道间手势对象的各种表征信息的相关性;其中,k为卷积核的大小,Cout为输出通道数。
手势识别单元53,用于在特征图上生成预选框,利用预选框预测手势目标在图像中的位置,并根据预设非线性特征获得手势识别结果。
在一个实施例中,图像预处理单元51用于获取目标手势的灰度图像;根据预设手势角度的种类,将灰度图像旋转预设角度,获得多张手势图像;采用预设方法将灰度图像的局部进行模糊处理,获得手势遮挡图像;将多张手势图像和手势遮挡图像,缩放至相同尺寸后合并成一个多通道图像。
手势识别单元53用于根据卷积层的层级,在相应卷积层的特征图上的每个像素点生成相应数量和形状的多个预选框;根据预选框中的图像内容与在手势图像上利用标定框预先标定的图像内容的交集与并集的比值,确定满足预设条件的预选框,根据预选框中特征图的预设非线性特征确定预选框的位置,以利用预选框预测手势目标在图像中的位置。
本实施例的手势识别单元53包括计算模块;计算模块用于根据手势目标在参与预测的各个卷积层的特征图中的占比,确定占比的最大值和最小值;根据占比的最大值、最小值和卷积层的层级,确定参与预测的卷积层的占比间隔;根据占比间隔、手势目标在卷积层的特征图中的占比值和最小维度值,确定卷积层的特征图上生成的预选框的最大尺寸和最小尺寸,最小维度根据卷积层的输入图像的尺寸确定。
本发明装置实施例的各单元的具体工作方式可以参见本发明的方法实施例。
本发明的另一个方面提供了一种可读存储介质。
根据本发明实施例,本发明实施例的可读存储介质,存储有可执行指令,可执行指令被处理器执行时以实现前文描述的手势识别方法。
需要说明的是,本发明实施例的可读存储介质,例如可以是能够包含、存储、传送、传播或传输指令的任意介质。例如,可读存储介质可以包括但不限于电、磁、光、电磁、红外或半导体系统、装置、器件或传播介质。可读存储介质的具体示例包括:磁存储装置,如磁带或硬盘(HDD);光存储装置,如光盘(CD-ROM);存储器,如随机存取存储器(RAM)或闪存;和/或有线/无线通信链路。
可读存储介质可以包括计算机程序,该计算机程序可以包括代码/计算机可执行指令,其在由处理器执行时使得处理器执行例如前文所描述的手势识别方法流程及其任何变形。
计算机程序可被配置为具有例如包括计算机程序模块的计算机程序代码。例如,在示例实施例中,计算机程序中的代码可以包括一个或多个程序模块。应当注意,模块的划分方式和个数并不是固定的,本领域技术人员可以根据实际情况使用合适的程序模块或程序模块组合,当这些程序模块组合被处理器执行时,使得处理器可以执行例如上文所描述的手势识别方法流程及其任何变形。
为了便于清楚描述本发明实施例的技术方案,在发明的实施例中,采用了“第一”、“第二”等字样对功能和作用基本相同的相同项或相似项进行区分,本领域技术人员可以理解“第一”、“第二”等字样并不对数量和执行次序进行限定。
以上所述,仅为本发明的具体实施方式,在本发明的上述教导下,本领域技术人员可以在上述实施例的基础上进行其他的改进或变形。本领域技术人员应该明白,上述的具体描述只是更好的解释本发明的目的,本发明的保护范围应以权利要求的保护范围为准。

Claims (10)

1.一种手势识别方法,包括:
获取具有相同预设手势类型、不同手势角度的多张手势图像,并将所述多张手势图像合并为多通道图像;
将所述多通道图像输入预设的卷积神经网络,确定具有预设非线性特征的特征图,所述预设非线性特征包括图像2D空间相关性特征和图像不同通道间手势对象的各种表征信息的相关性特征;
在所述特征图上生成预选框,利用所述预选框预测手势目标在图像中的位置,并根据所述预设非线性特征获得手势识别结果。
2.根据权利要求1所述的方法,其特征在于,所述获取具有相同手势类型、不同手势姿态的多张手势图像,包括:
获取目标手势的灰度图像;
根据预设手势角度的种类,将所述灰度图像旋转预设角度,获得多张手势图像;
采用预设方法将所述灰度图像的局部进行模糊处理,获得手势遮挡图像;
将所述多张手势图像和所述手势遮挡图像,缩放至相同尺寸后合并成一个多通道图像。
3.根据权利要求1所述的方法,其特征在于,所述卷积神经网络包括多级卷积层,每级卷积层为深度可分离结构,所述深度可分离结构对多个通道的输入图像采用k*k*1的卷积核滑动相乘,确定表示多通道图像2D空间相关性的多个特征图,并对所述多个特征图采用1*1*Cout的卷积核滑动相乘,确定多通道图像不同通道间手势对象的各种表征信息的相关性;其中,k为卷积核的大小,Cout为输出通道数。
4.根据权利要求3所述的方法,其特征在于,所述在所述特征图上生成预选框,利用所述预选框预测手势
目标在图像中的位置,并根据所述预设非线性特征获得手势识别结果包括:
根据所述卷积层的层级,在相应卷积层的特征图上的每个像素点生成相应数量和形状的多个预选框;
根据所述预选框中的图像内容与在所述手势图像上利用标定框预先标定的图像内容的交集与并集的比值,确定满足预设条件的预选框,根据所述预选框中特征图的预设非线性特征确定预选框的位置,以利用所述预选框预测手势目标在图像中的位置。
5.根据权利要求4所述的方法,其特征在于,所述根据所述卷积层的层级,在相应卷积层的特征图上生成相应数量和形状的多个预选框,包括:
根据手势目标在参与预测的各个卷积层的特征图中的占比,确定占比的最大值和最小值;
根据占比的最大值、最小值和卷积层的层级,确定参与预测的卷积层的占比间隔;
根据所述占比间隔、手势目标在卷积层的特征图中的占比值和最小维度值,确定所述卷积层的特征图上生成的预选框的最大尺寸和最小尺寸,所述最小维度根据卷积层的输入图像的尺寸确定。
6.一种手势识别装置,包括:
图像预处理单元,用于获取具有相同预设手势类型、不同手势角度的多张手势图像,并将所述多张手势图像合并为多通道图像;
特征获取单元,用于将所述多通道图像输入预设的卷积神经网络,确定具有预设非线性特征的特征图,所述预设非线性特征包括图像2D空间相关性特征和图像不同通道间手势对象的各种表征信息的相关性特征;
手势识别单元,用于在所述特征图上生成预选框,利用所述预选框预测手势目标在图像中的位置,并根据所述预设非线性特征获得手势识别结果。
7.根据权利要求6所述的装置,其特征在于,
所述图像预处理单元,用于获取目标手势的灰度图像;根据预设手势角度的种类,将所述灰度图像旋转预设角度,获得多张手势图像;采用预设方法将所述灰度图像的局部进行模糊处理,获得手势遮挡图像;将所述多张手势图像和所述手势遮挡图像,缩放至相同尺寸后合并成一个多通道图像。
8.根据权利要求6所述的装置,其特征在于,所述卷积神经网络包括多级卷积层,每级卷积层为深度可分离结构,所述深度可分离结构对多个通道的输入图像采用k*k*1的卷积核滑动相乘,确定表示多通道图像2D空间相关性的多个特征图,并对所述多个特征图采用1*1*Cout的卷积核滑动相乘,确定多通道图像不同通道间手势对象的各种表征信息的相关性;其中,k为卷积核的大小,Cout为输出通道数。
9.根据权利要求6所述的装置,其特征在于,
手势识别单元,用于根据所述卷积层的层级,在相应卷积层的特征图上的每个像素点生成相应数量和形状的多个预选框;根据所述预选框中的图像内容与在所述手势图像上利用标定框预先标定的图像内容的交集与并集的比值,确定满足预设条件的预选框,根据所述预选框中特征图的预设非线性特征确定预选框的位置,以利用所述预选框预测手势目标在图像中的位置;
所述手势识别单元包括计算模块;
所述计算模块,用于根据手势目标在参与预测的各个卷积层的特征图中的占比,确定占比的最大值和最小值;根据占比的最大值、最小值和卷积层的层级,确定参与预测的卷积层的占比间隔;根据所述占比间隔、手势目标在卷积层的特征图中的占比值和最小维度值,确定所述卷积层的特征图上生成的预选框的最大尺寸和最小尺寸,所述最小维度根据卷积层的输入图像的尺寸确定。
10.一种计算机可读存储介质,存储有可执行令,可执行指令被处理器执行时以实现权利要求1-5任一项所述的手势识别方法。
CN201810961625.2A 2018-08-22 2018-08-22 一种手势识别方法和装置 Active CN109117806B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810961625.2A CN109117806B (zh) 2018-08-22 2018-08-22 一种手势识别方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810961625.2A CN109117806B (zh) 2018-08-22 2018-08-22 一种手势识别方法和装置

Publications (2)

Publication Number Publication Date
CN109117806A true CN109117806A (zh) 2019-01-01
CN109117806B CN109117806B (zh) 2020-11-27

Family

ID=64860036

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810961625.2A Active CN109117806B (zh) 2018-08-22 2018-08-22 一种手势识别方法和装置

Country Status (1)

Country Link
CN (1) CN109117806B (zh)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110096973A (zh) * 2019-04-16 2019-08-06 东南大学 一种基于orb算法和深度级可分离卷积网络的交警手势识别方法
CN111160114A (zh) * 2019-12-10 2020-05-15 深圳数联天下智能科技有限公司 手势识别方法、装置、设备及计算机可读存储介质
CN111414922A (zh) * 2019-01-07 2020-07-14 阿里巴巴集团控股有限公司 特征提取方法、图像处理方法、模型训练方法及装置
CN111738164A (zh) * 2020-06-24 2020-10-02 广西计算中心有限责任公司 一种基于深度学习的行人检测方法
CN112801933A (zh) * 2019-11-14 2021-05-14 纬创资通股份有限公司 对象检测方法、电子装置与对象检测系统

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104601953A (zh) * 2015-01-08 2015-05-06 中国航空无线电电子研究所 一种视频图像融合处理系统
US20170161607A1 (en) * 2015-12-04 2017-06-08 Pilot Ai Labs, Inc. System and method for improved gesture recognition using neural networks
US20180075294A1 (en) * 2016-09-12 2018-03-15 Intel Corporation Determining a pointing vector for gestures performed before a depth camera
CN107808143A (zh) * 2017-11-10 2018-03-16 西安电子科技大学 基于计算机视觉的动态手势识别方法
CN108090403A (zh) * 2016-11-22 2018-05-29 上海银晨智能识别科技有限公司 一种基于3d卷积神经网络的人脸动态识别方法及系统
CN108108676A (zh) * 2017-12-12 2018-06-01 北京小米移动软件有限公司 人脸识别方法、卷积神经网络生成方法及装置

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104601953A (zh) * 2015-01-08 2015-05-06 中国航空无线电电子研究所 一种视频图像融合处理系统
US20170161607A1 (en) * 2015-12-04 2017-06-08 Pilot Ai Labs, Inc. System and method for improved gesture recognition using neural networks
US20180075294A1 (en) * 2016-09-12 2018-03-15 Intel Corporation Determining a pointing vector for gestures performed before a depth camera
CN108090403A (zh) * 2016-11-22 2018-05-29 上海银晨智能识别科技有限公司 一种基于3d卷积神经网络的人脸动态识别方法及系统
CN107808143A (zh) * 2017-11-10 2018-03-16 西安电子科技大学 基于计算机视觉的动态手势识别方法
CN108108676A (zh) * 2017-12-12 2018-06-01 北京小米移动软件有限公司 人脸识别方法、卷积神经网络生成方法及装置

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
YUANYUAN LIU等: "Multi-channel Pose-aware Convolution Neural Networks for Multi-view Facial Expression Recognition", 《IEEE》 *
易生等: "基于多列深度3D卷积神经网络的手势识别", 《计算机工程》 *

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111414922A (zh) * 2019-01-07 2020-07-14 阿里巴巴集团控股有限公司 特征提取方法、图像处理方法、模型训练方法及装置
CN111414922B (zh) * 2019-01-07 2022-11-15 阿里巴巴集团控股有限公司 特征提取方法、图像处理方法、模型训练方法及装置
CN110096973A (zh) * 2019-04-16 2019-08-06 东南大学 一种基于orb算法和深度级可分离卷积网络的交警手势识别方法
CN112801933A (zh) * 2019-11-14 2021-05-14 纬创资通股份有限公司 对象检测方法、电子装置与对象检测系统
CN112801933B (zh) * 2019-11-14 2024-07-19 纬创资通股份有限公司 对象检测方法、电子装置与对象检测系统
CN111160114A (zh) * 2019-12-10 2020-05-15 深圳数联天下智能科技有限公司 手势识别方法、装置、设备及计算机可读存储介质
CN111160114B (zh) * 2019-12-10 2024-03-19 深圳数联天下智能科技有限公司 手势识别方法、装置、设备及计算机可读存储介质
CN111738164A (zh) * 2020-06-24 2020-10-02 广西计算中心有限责任公司 一种基于深度学习的行人检测方法
CN111738164B (zh) * 2020-06-24 2021-02-26 广西计算中心有限责任公司 一种基于深度学习的行人检测方法

Also Published As

Publication number Publication date
CN109117806B (zh) 2020-11-27

Similar Documents

Publication Publication Date Title
CN109117806A (zh) 一种手势识别方法和装置
WO2021057848A1 (zh) 网络的训练方法、图像处理方法、网络、终端设备及介质
CN106778928B (zh) 图像处理方法及装置
CN110148102B (zh) 图像合成方法、广告素材合成方法及装置
WO2020258667A1 (zh) 图像识别方法及装置、非易失性可读存储介质、计算机设备
CN110163235A (zh) 图像增强模型的训练、图像增强方法、装置和存储介质
WO2020224479A1 (zh) 目标的位置获取方法、装置、计算机设备及存储介质
US20210103749A1 (en) Method for distinguishing a real three-dimensional object from a two-dimensional spoof of the real object
CN111242090B (zh) 基于人工智能的人脸识别方法、装置、设备及介质
CN111597884A (zh) 面部动作单元识别方法、装置、电子设备及存储介质
US8421877B2 (en) Feature data compression device, multi-directional face detection system and detection method thereof
CN108551552A (zh) 图像处理方法、装置、存储介质及移动终端
US11790550B2 (en) Learnable cost volume for determining pixel correspondence
CN108494996A (zh) 图像处理方法、装置、存储介质及移动终端
CN111382791B (zh) 深度学习任务处理方法、图像识别任务处理方法和装置
CN114330565A (zh) 一种人脸识别方法及装置
CN109165654A (zh) 一种目标定位模型的训练方法和目标定位方法及装置
CN116152166A (zh) 基于特征相关性的缺陷检测方法及相关装置
CN117636341B (zh) 一种多帧海藻显微图像增强识别方法及其模型搭建方法
CN107644455B (zh) 人脸图像合成方法和装置
CN114140839B (zh) 用于人脸识别的图像发送方法、装置、设备及存储介质
CN115471439A (zh) 显示面板缺陷的识别方法、装置、电子设备及存储介质
CN108537165A (zh) 用于确定信息的方法和装置
CN113298098B (zh) 基础矩阵估计方法及相关产品
WO2022252641A1 (zh) 基于多图片差异性的鉴伪方法、装置、设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
TR01 Transfer of patent right

Effective date of registration: 20210907

Address after: 264300 No. 699, Jiangjun South Road, Rongcheng City, Weihai City, Shandong Province

Patentee after: Rongcheng goer Technology Co.,Ltd.

Address before: 266104 Room 308, North Investment Street Service Center, Laoshan District, Qingdao, Shandong.

Patentee before: GOERTEK TECHNOLOGY Co.,Ltd.

TR01 Transfer of patent right