CN109960980B

CN109960980B - 动态手势识别方法及装置

Info

Publication number: CN109960980B
Application number: CN201711417801.8A
Authority: CN
Inventors: 王权; 钱晨
Original assignee: Beijing Sensetime Technology Development Co Ltd
Current assignee: Beijing Sensetime Technology Development Co Ltd
Priority date: 2017-12-22
Filing date: 2017-12-22
Publication date: 2022-03-15
Anticipated expiration: 2037-12-22
Also published as: CN109960980A

Abstract

本发明实施例公开了一种动态手势识别方法及装置，其中的方法包括：对待检测视频流中的动态手势进行定位，得到动态手势框；从所述视频流的多帧图像帧中截取与所述动态手势框对应的图像块；基于截取出的各图像块生成检测序列；根据所述检测序列进行动态手势识别。本发明实施例实现对动态手势的识别。

Description

动态手势识别方法及装置

技术领域

本发明实施例涉及图像处理技术，尤其是一种动态手势识别方法及装置。

背景技术

手势是图像与视频信息中一个重要的人机交互特征。手势识别算法核心任务是给定一张包含手的图片，判断出其中手势的类型的方法。

发明内容

本发明实施例提供一种动态手势识别方法及装置的技术方案。

根据本发明实施例一个方面，提供一种动态手势识别方法，包括：对待检测视频流中的动态手势进行定位，得到动态手势框；从所述视频流的多帧图像帧中截取与所述动态手势框对应的图像块；基于截取出的各图像块生成检测序列；根据所述检测序列进行动态手势识别。

在一种可选方式中，所述对待检测视频流中的动态手势进行定位，得到动态手势框，包括：对所述多帧图像中的至少一帧进行静态手势定位，得到所述至少一帧的静态手势框；根据所述得到的所述至少一帧的静态手势框确定所述动态手势框。

在一种可选方式中，根据所述得到的所述至少一帧的静态手势框确定所述动态手势框，包括：对所述至少一帧的静态手势框进行放大处理，得到所述动态手势框。

在一种可选方式中，所述多帧图像帧中各图像帧的静态手势框满足：静态手势框位于所述动态手势框内，或者，静态手势框与动态手势框相同。

在一种可选方式中，所述根据所述检测序列进行动态手势识别，包括：确定所述检测序列中多个帧间图像差；基于确定的多个帧间图像差生成图像差序列；根据所述检测序列和所述图像差序列识别进行动态手势识别。

在一种可选方式中，所述帧间图像差为所述检测序列中两个相邻参考帧之间的图像差。

在一种可选方式中，根据所述检测序列和所述图像差序列识别进行动态手势识别，包括：将所述检测序列输入第一动态手势识别模型，以获得所述第一动态手势识别模型输出的第一动态手势类别预测概率；将所述图像差序列输入第二动态手势识别模型，以获得所述第二动态手势识别模型输出的第二动态手势类别预测概率；根据所述第一动态手势类别预测概率和所述第二动态手势类别预测概率，确定动态手势识别结果。

在一种可选方式中，所述第一动态手势识别模型为第一神经网络，所述第二动态手势识别模型为第二神经网络，所述第一神经网络和所述第二神经网络的结构相同或不同。

在一种可选方式中，还包括：多次截取出检测序列，并多次生成图像差序列，以及多次根据检测序列以及图像差序列进行动态手势识别；根据每次动态手势识别出的动态手势类型的概率，确定出最终的动态手势识别结果。

在一种可选方式中，还包括：采用以下方法建立所述第一动态手势识别模型：采集不同类型动态手势的样本视频流；对所述不同类型动态手势的动态手势框进行标记；从样本视频流的多帧图像帧中截取与动态手势框的标注信息对应的图像块，构成图像序列；以所述动态手势类型作为监督数据，以所述图像序列作为训练数据，训练所述第一动态手势识别模型。

在一种可选方式中，所述以所述动态手势类型作为监督数据，以所述图像序列作为训练数据，训练所述第一动态手势识别模型，包括：将所述图像序列分为数段；在每一段中抽取出预置帧数的图像，堆叠组成图像训练数据；以所述动态手势类型作为监督数据，以所述图像训练数据训练出所述第一动态手势识别模型。

在一种可选方式中，还包括：采用以下方法建立所述第二动态手势识别模型：采集不同类型动态手势的样本视频流；对所述不同类型动态手势的动态手势框进行标记；从样本视频流的多帧图像帧中截取与动态手势框的标注信息对应的图像块，构成图像序列；确定所述图像序列中多个帧间图像差；基于确定的多个帧间图像差生成图像差序列；以所述动态手势类型作为监督数据，以所述图像差序列作为训练数据，训练所述第二动态手势识别模型。

在一种可选方式中，所述以所述动态手势类型作为监督数据，以所述图像差序列作为训练数据，训练出所述第二动态手势识别模型，包括：将所述图像差序列分为数段；在每一段中抽取出预置帧数的图像，堆叠组成图像差训练数据；以所述动态手势类型作为监督数据，以所述图像差训练数据训练所述第二动态手势识别模型。

在一种可选方式中，所述动态手势的类型包括以下之一或任意组合：挥手手势、点击手势、手枪手势或抓取手势。

根据本发明实施例另一个方面，提供一种动态手势识别建模方法，包括：采集不同类型动态手势的样本视频流；对所述不同类型动态手势的动态手势框进行标记；从样本视频流的多帧图像帧中截取与动态手势框的标注信息对应的图像块，构成图像序列；以所述动态手势类型作为监督数据，以所述图像序列作为训练数据，训练所述第一动态手势识别模型。

在一种可选方式中，还包括：采集不同类型动态手势的样本视频流；对所述不同类型动态手势的动态手势框进行标记；从样本视频流的多帧图像帧中截取与动态手势框的标注信息对应的图像块，构成图像序列；确定所述图像序列中多个帧间图像差；基于确定的多个帧间图像差生成图像差序列；以所述动态手势类型作为监督数据，以所述图像差序列作为训练数据，训练所述第二动态手势识别模型。

根据本发明实施例又一个方面，提供一种动态手势识别装置，包括：手势定位单元，用于对待检测视频流中的动态手势进行定位，得到动态手势框；处理单元，用于从所述视频流的多帧图像帧中截取与所述动态手势框对应的图像块；检测序列生成单元，用于基于截取出的各图像块生成检测序列；手势识别单元，用于根据所述检测序列进行动态手势识别。

在一种可选方式中，所述手势定位单元包括：静态手势框定位子单元，用于对所述多帧图像中的至少一帧进行静态手势定位，得到所述至少一帧的静态手势框；动态手势框确定子单元，用于根据所述得到的所述至少一帧的静态手势框确定所述动态手势框。

在一种可选方式中，动态手势框确定子单元具体用于：对所述至少一帧的静态手势框进行放大处理，得到所述动态手势框。

在一种可选方式中，所述手势识别单元包括：图像差确定子单元，用于确定所述检测序列中多个帧间图像差；图像差序列确定子单元，用于基于确定的多个帧间图像差生成图像差序列；动态手势识别子单元，用于根据所述检测序列和所述图像差序列识别进行动态手势识别。

在一种可选方式中，所述动态手势识别子单元具体用于：将所述检测序列输入第一动态手势识别模型，以获得所述第一动态手势识别模型输出的第一动态手势类别预测概率；将所述图像差序列输入第二动态手势识别模型，以获得所述第二动态手势识别模型输出的第二动态手势类别预测概率；根据所述第一动态手势类别预测概率和所述第二动态手势类别预测概率，确定动态手势识别结果。

在一种可选方式中，还包括：多次识别控制单元，用于多次截取出检测序列，并多次生成图像差序列，以及多次根据检测序列以及图像差序列进行动态手势识别；识别结果确定单元，用于根据每次动态手势识别出的动态手势类型的概率，确定出最终的动态手势识别结果。

在一种可选方式中，还包括：第一动态手势识别模型建立单元；所述第一动态手势识别模型建立单元包括：样本采集子单元，用于采集不同类型动态手势的样本视频流；手势框标记子单元，用于对所述不同类型动态手势的动态手势框进行标记；图像序列构成子单元，用于从样本视频流的多帧图像帧中截取与动态手势框的标注信息对应的图像块，构成图像序列；训练子单元，用于以所述动态手势类型作为监督数据，以所述图像序列作为训练数据，训练所述第一动态手势识别模型。

在一种可选方式中，所述训练子单元具体用于：将所述图像序列分为数段；在每一段中抽取出预置帧数的图像，堆叠组成图像训练数据；以及，以所述动态手势类型作为监督数据，以所述图像训练数据训练出所述第一动态手势识别模型。

在一种可选方式中，还包括：第二动态手势识别模型建立单元；所述第二动态手势识别模型建立单元包括：样本采集子单元，用于采集不同类型动态手势的样本视频流；手势框标记子单元，用于对所述不同类型动态手势的动态手势框进行标记；图像序列构成子单元，用于从样本视频流的多帧图像帧中截取与动态手势框的标注信息对应的图像块，构成图像序列；图像差确定子单元，用于确定所述图像序列中多个帧间图像差；图像差序列确定子单元，用于基于确定的多个帧间图像差生成图像差序列；训练子单元，用于以所述动态手势类型作为监督数据，以所述图像差序列作为训练数据，训练所述第二动态手势识别模型。

在一种可选方式中，所述训练子单元具体用于：将所述图像差序列分为数段；在每一段中抽取出预置帧数的图像，堆叠组成图像差训练数据；以及，以所述动态手势类型作为监督数据，以所述图像差训练数据训练所述第二动态手势识别模型。

根据本发明实施例再一个方面，提供一种动态手势识别模型建立装置，包括：第一动态手势识别模型建立单元；所述第一动态手势识别模型建立单元包括：样本采集子单元，用于采集不同类型动态手势的样本视频流；手势框标记子单元，用于对所述不同类型动态手势的动态手势框进行标记；图像序列构成子单元，用于从样本视频流的多帧图像帧中截取与动态手势框的标注信息对应的图像块，构成图像序列；训练子单元，用于以所述动态手势类型作为监督数据，以所述图像序列作为训练数据，训练所述第一动态手势识别模型。

在一种可选方式中，，所述训练子单元具体用于：将所述图像序列分为数段；在每一段中抽取出预置帧数的图像，堆叠组成图像训练数据；以及，以所述动态手势类型作为监督数据，以所述图像训练数据训练出所述第一动态手势识别模型。

在一种可选方式中，，还包括：第二动态手势识别模型建立单元；所述第二动态手势识别模型建立单元包括：样本采集子单元，用于采集不同类型动态手势的样本视频流；手势框标记子单元，用于对所述不同类型动态手势的动态手势框进行标记；图像序列构成子单元，用于从样本视频流的多帧图像帧中截取与动态手势框的标注信息对应的图像块，构成图像序列；图像差确定子单元，用于确定所述图像序列中多个帧间图像差；图像差序列确定子单元，用于基于确定的多个帧间图像差生成图像差序列；训练子单元，用于以所述动态手势类型作为监督数据，以所述图像差序列作为训练数据，训练所述第二动态手势识别模型。

根据本发明实施例又一个方面，提供一种计算机可读存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现上述任一项所述方法的步骤。

根据本发明实施例另一个方面，提供一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现上述任一项所述方法的步骤。

根据本发明实施例再一个方面，提供一种计算机程序，包括计算机可读代码，其特征在于，当所述计算机可读代码在设备上运行时，所述设备中的处理器执行用于实现权利要求上述任一项所述方法中各步骤的指令。

基于本发明上述实施例提供的动态手势识别方法及装置，从视频流的多帧图像帧中截取与动态手势框对应的图像块，基于图像块生成的检测序列进行动态手势识别。由于是基于与动态手势框对应的图像块进行的动态手势识别，因此可以识别出一系列变化的动态手势。

下面通过附图和实施例，对本发明的技术方案做进一步的详细描述。

附图说明

构成说明书的一部分的附图描述了本发明的实施例，并且连同描述一起用于解释本发明的原理。

参照附图，根据下面的详细描述，可以更加清楚地理解本发明，其中：

图1为本发明动态手势识别方法一个实施例的流程图。

图2为本发明动态手势识别方法另一个实施例的流程图。

图3为本发明实施例中建立第一动态手势识别模型的流程图。

图4为本发明实施例中建立第二动态手势识别模型的流程图

图5为本发明动态手势识别装置一个实施例的结构示意图。

图6为本发明动态手势识别装置另一个实施例的结构示意图。

图7为本发明电子设备一个实施例的结构示意图。

具体实施方式

现在将参照附图来详细描述本发明的各种示例性实施例。应注意到：除非另外具体说明，否则在这些实施例中阐述的部件和步骤的相对布置、数字表达式和数值不限制本发明的范围。

同时，应当明白，为了便于描述，附图中所示出的各个部分的尺寸并不是按照实际的比例关系绘制的。

以下对至少一个示例性实施例的描述实际上仅仅是说明性的，决不作为对本发明及其应用或使用的任何限制。

对于相关领域普通技术人员已知的技术、方法和设备可能不作详细讨论，但在适当情况下，所述技术、方法和设备应当被视为说明书的一部分。

应注意到：相似的标号和字母在下面的附图中表示类似项，因此，一旦某一项在一个附图中被定义，则在随后的附图中不需要对其进行进一步讨论。

在实现本发明的过程中，发明人发现，目前的手势识别问题，只是识别静态单张图像，识别单张图片就只能识别一些简单的静态手势，例如剪刀手、拳头、OK等等，在人机交互的过程中，用静态手势操控机器不如动态手势自然，而且承载的信息也更少。因此，亟需一种对动态手势进行识别的方案。

图1为本发明动态手势识别方法一个实施例的流程图。如图1所示，该实施例方法包括S101-S104。

S101：对待检测视频流中的动态手势进行定位，得到动态手势框。

动态手势，是指由一系列连续动作构成的手势，是相对静态手势而言的，例如包括但不限于：挥手、点击、手枪手势、抓取手势，等等。在具体应用中，例如，挥手可以实现文件翻页的操作；点击可以实现类似鼠标点击的操作；手枪可以制作特效或者衔接游戏；抓取可以拖拽东西，类似鼠标拖拽文件。

对动态手势进行定位确定动态手势框，目的是为了后续在该动态手势框中截取出待检测的图像。其中的动态手势框，是指涵盖动态手势中一系列动作的框，例如是一个矩形框，各个手势图像都包含在该矩形框中。

可以理解，由于动态手势包含一系列静态手势，因此，可以通过先确定静态手势框再进行放大的方式确定动态手势框，由此可保证动态手势框将其余相关联的静态手势都包含在其中。

在一种可选方式中，可以通过如下方式确定动态手势框：从待检测视频流的图像中选取出任意一幅图像中的静态手势，对该静态手势进行定位，确定出静态手势框；根据预置的放大比例，对静态手势框进行放大处理，确定出动态手势框。例如，从视频流某帧图像中选取中一个静态手势框，按照预置放大比例(例如120％)对该静态手势框进行放大，放大后的框即为动态手势框。其中多帧图像帧中各图像帧的静态手势框满足：静态手势框位于动态手势框内，或者，静态手势框与动态手势框相同。

S102：从视频流的多帧图像帧中截取与动态手势框对应的图像块。

视频流中被截取出来的图像块可以是视频流中连续的帧，也可以是连续的关键帧或采样帧，只要是与动态手势框对应即可。

S103：基于截取出的各图像块生成检测序列。

截取出来的图像块的大小通常小于图像帧，并且包括有图像中的动态手势框。这样处理的好处在于，考虑了多帧图像帧的手部定位信息，另外，对图像帧中大于动态手势框的部分去除而不作考虑，从而起到降噪的效果。

S104：根据检测序列进行动态手势识别。

基于截取出的各图像块生成检测序列，后续利用动态手势框截取并生成一个图像块序列(而不是原来视频流的多帧图像帧)进行手势识别。

可见，本发明实施例中，从视频流的多帧图像帧中截取与动态手势框对应的图像块，基于图像块生成的检测序列进行动态手势识别。由于是基于与动态手势框对应的图像块进行的动态手势识别，因此可以识别出一系列变化的动态手势。

在一种可选方式中，基于检测序列中的帧间图像差进行动态手势识别。在这种方式中：首先确定所述检测序列中多个帧间图像差；然后基于确定的多个帧间图像差生成图像差序列；最后根据检测序列和所述图像差序列识别进行动态手势识别。

进一步，为了保证更好的体现图像的时序相关性，本发明实施例一种可选方式中提出，不但依据图像进行手势识别，而且，依据图像差进行手势识别。图像差，也可以理解是像素差，是相邻两帧图像相同位置的像素做差得到的，由于是相邻两帧的相同位置进行像素差处理，因此可以体现动态手势的变化过程及趋势，更好的识别出手势动态变化过程。

当然，上述相邻帧间图像差仅是一个例子，帧间图像差不限于此种限制，还可以是不相邻帧间的图像差，例如间隔固定数目帧或随机帧之间的图像差。可见，帧间图像差为检测序列中两个相邻参考帧之间的图像差。参考帧为实际帧，也可以是关键帧。

如前所述，动态手势的类型包括但不限于：挥手、点击、手枪手势、抓取手势，等，在一种可选方式中，可以预先分别建立第一动态手势识别模型和第二动态手势识别模型，分别将截取的图像及计算的图像差输入到这两个模型中，输出得到各个类型动态手势的概率，概率最高的类型即为本次识别的结果。

在一种可选方式中，可多次(多段)进行识别，并根据多次识别结果确定动态手势类型。例如，在依据截取的一段(称为第一段)图像进行识别后，再依据第二段图像进行识别，以及，第三段图像进行识别，最后，根据三次识别结果确定动态手势类型。因此，这种实现方式中，上述方法还包括如下步骤：多次截取出预置帧数的图像，并多次执行图像差计算，以及多次根据截取的图像以及计算的图像差进行动态手势识别；根据每次动态手势识别出的动态手势类型的概率，确定出最终的动态手势识别结果。例如，在一种可选方式中：对所有次数的动态手势识别的各类型动态手势概率进行求和处理，确定求和概率最高的动态手势类型作为最终的动态手势识别结果。通过对图像分段多次进行识别并对每次识别的概率求和后确定最终的识别结果，可以减少每一次的计算量，提高识别的实时速度，尤其适合动作时间跨度较大的动态手势。

图2为本发明动态手势识别方法另一个实施例的流程图。在图1实施例基础上，图2实施例介绍了以卷积神经网络作为动态手势识别模型，针对待检测视频流中的动态手势进行检测的过程。

如图2所示，该实施例方法包括S201-S204。

S201：建立第一动态手势识别模型和第二动态手势识别模型。

在一个可选的方式中，参见图3和图4，分别为本发明实施例中建立第一动态手势识别模型和第二动态手势识别模型的流程图。

参考图3，建立第一动态手势识别模型的过程包括S301-S304。

S301：采集不同类型动态手势的样本视频流。

例如，采集已知类型动态手势(例如：挥手、点击、手枪、抓取)的视频流，标记每个样本视频流的开始帧和结束帧。

S302：对不同类型动态手势的动态手势框进行标记。

动态手势框，是指涵盖样本视频流中动态手势中一系列动作的框，例如是一个矩形框，该动态手势的各个静态手势图像都包含在该矩形框中。

在一种可选方式中，可以通过如下方式确定动态手势框：从样本视频流的图像中选取出任意一幅图像中的静态手势，对该静态手势进行定位，确定出静态手势框；根据预置的放大比例，对静态手势框进行放大处理，确定出动态手势框。例如，从视频流某帧图像中选取中一个静态手势框，按照预置放大比例(例如120％)对该静态手势框进行放大，放大后的框即为动态手势框。

S303：从样本视频流的多帧图像帧中截取与动态手势框的标注信息对应的图像块，构成图像序列。

S304：以动态手势类型作为监督数据，以图像序列作为训练数据，训练第一动态手势识别模型。

在一种可选方式中，通过如下步骤建立第一动态手势识别模型：

(1)将图像序列分为数段；例如，将图像序列平均分为三段。

(2)在每一段中抽取出预置帧数的图像，堆叠组成图像训练数据。

例如，在每一段图像数据中抽取出(随机或连续)五帧图像进行堆叠，构成图像训练数据。

不妨以卷积神经网络的三维的矩阵数据为例，三个维度分别是通道、图像的高和宽，比如，一张灰度图的通道数就是1，一张RGB图像通道数就是3，这里的堆叠是通道堆叠，比如有五张通道数是1的图像，堆叠后就是一个通道数是5的三维矩阵。

(3)以动态手势类型作为监督数据，以图像序列作为训练数据，训练第一动态手势识别模型。

参考图4，建立第二动态手势识别模型的过程包括S401-S406。

S401：采集不同类型动态手势的样本视频流。

S402：对不同类型动态手势的动态手势框进行标记。

S403：从样本视频流的多帧图像帧中截取与动态手势框的标注信息对应的图像块，构成图像序列。

S404：确定图像序列中多个帧间图像差。

为了保证更好的体现图像的时序相关性，需要确定多个帧间图像差。图像差，也可以理解是像素差，是相邻两帧图像相同位置的像素做差得到的，由于是相邻两帧的相同位置进行像素差处理，因此可以体现动态手势的变化过程及趋势，更好的识别出手势动态变化过程。

S405：基于确定的多个帧间图像差生成图像差序列。

S406：以动态手势类型作为监督数据，以图像差序列作为训练数据，训练第二动态手势识别模型。

在一种可选方式中，通过如下步骤建立第二动态手势识别模型：

(1)将图像差序列分为数段；

(2)在每一段中抽取出预置帧数的图像，堆叠组成图像差训练数据；

(3)以动态手势类型作为监督数据，以图像差训练数据训练第二动态手势识别模型。

需要说明的是，可以基于不同网络实现上述第一动态手势识别模型和第二动态手势识别模型。例如可以基于卷积神经网络实现第一动态手势识别模型和第二动态手势识别模型。可选的，所述第一动态手势识别模型可以但不限为第一神经网络模型，所述第一神经网络模型基于样本视频流预先训练而的。第一神经网络模型可以包括但不限于卷积层、非线性层(Relu)、池化层和/或分类层等。同理，所述第二动态手势识别模型可以但不限为第二神经网络模型，所述第二神经网络模型基于样本视频流预先训练而的。第二神经网络模型可以包括但不限于卷积层、非线性层(Relu)、池化层和/或分类层等。当然，除了卷积神经网络之外，还可以基于循环神经网络、增强学习神经网络或生成对抗神经网络等实现上述第一动态手势识别模型和第二动态手势识别模型，本发明实施例对此不作限定。

S202：将截取出的图像输入到第一动态手势识别模型，以及，将各相邻两帧图像的图像差输入到第二动态手势识别模型，识别出各类型动态手势的预测概率。

本领域技术人员了解，卷积神经网络的识别工作过程可以大致包括：图像特征提取阶段以及对特征进行分类阶段。例如，以将图像输入到第一动态识别模型为例子，是将预置数量帧数(例如5帧)图像输入到第一动态识别模型，经过卷积层、激活层、池化层的使用，将图像中的特征提取出来，然后，经过分类器对特征进行分类，最终得出各类型动态手势的预测概率。

S203：根据第一动态手势识别模型和第二动态手势识别模型的各类型动态手势的预测概率，确定动态手势识别结果。

在一种可选方式中，可将第一动态手势识别模型和第二动态手势识别模型的各类型动态手势的预测概率进行加权平均处理，确定加权平均概率最高的动态手势类型为本次动态手势识别结果。例如，可以预先设置两个模型的加权系数，在确定动态手势识别结果时，按照各个模型的加权系数，对两个模型的预测概括进行加权平均处理，确定加权平均概率最高的动态手势类型为本次动态手势识别结果。当然，除了加权平均法之外，还可以采取其他方法(例如调和平均法和平方平均法等)对预测概率进行处理，最终确定识别结果。

通过本发明实施例的动态手势识别方法，分别对图像及图像差进行概率识别，从而得到各个类型动态手势的概率，并确定概率最大的动态手势类型为识别结果，其中，图像差可以较好的体现图像前后的时序相关性，可以实现动态手势的识别。

在一个可选方式中，通过对图像分段多次进行识别并对每次识别的概率求和后确定最终的识别结果，可以减少每一次的计算量，提高识别的实时速度，尤其适合动作时间跨度较大的动态手势。

图5为本发明动态手势识别装置一个实施例的结构示意图。该实施例的装置可用于实现本发明上述各方法实施例。如图5所示，该实施例的装置包括:

手势定位单元501，用于对待检测视频流中的动态手势进行定位，得到动态手势框；

处理单元502，用于从所述视频流的多帧图像帧中截取与所述动态手势框对应的图像块；

检测序列生成单元503，用于基于截取出的各图像块生成检测序列；

手势识别单元504，用于根据所述检测序列进行动态手势识别。

图6为本发明动态手势识别装置另一个实施例的结构示意图。该实施例的装置可用于实现本发明上述各方法实施例。如图6所示，该实施例的装置包括:

手势定位单元601，用于对待检测视频流中的动态手势进行定位，得到动态手势框；

处理单元602，用于从所述视频流的多帧图像帧中截取与所述动态手势框对应的图像块；

检测序列生成单元603，用于基于截取出的各图像块生成检测序列；

手势识别单元604，用于根据所述检测序列进行动态手势识别。

在一种可选方式中，所述手势定位单元601包括：

静态手势框定位子单元6011，用于对所述多帧图像中的至少一帧进行静态手势定位，得到所述至少一帧的静态手势框；

动态手势框确定子单元6012，用于根据所述得到的所述至少一帧的静态手势框确定所述动态手势框。

在一种可选方式中，动态手势框确定子单元6012具体用于：对所述至少一帧的静态手势框进行放大处理，得到所述动态手势框。

在一种可选方式中，所述手势识别单元604包括：

图像差确定子单元6041，用于确定所述检测序列中多个帧间图像差；

图像差序列确定子单元6042，用于基于确定的多个帧间图像差生成图像差序列；

动态手势识别子单元6043，用于根据所述检测序列和所述图像差序列识别进行动态手势识别。

在一种可选方式中，所述动态手势识别子单元6043具体用于：将所述检测序列输入第一动态手势识别模型，以获得所述第一动态手势识别模型输出的第一动态手势类别预测概率；将所述图像差序列输入第二动态手势识别模型，以获得所述第二动态手势识别模型输出的第二动态手势类别预测概率；根据所述第一动态手势类别预测概率和所述第二动态手势类别预测概率，确定动态手势识别结果。

在一种可选方式中，还包括：

多次识别控制单元605，用于多次截取出检测序列，并多次生成图像差序列，以及多次根据检测序列以及图像差序列进行动态手势识别；

识别结果确定单元606，用于根据每次动态手势识别出的动态手势类型的概率，确定出最终的动态手势识别结果。

在一种可选方式中，还包括：第一动态手势识别模型建立单元607；所述第一动态手势识别模型建立单元607包括：

样本采集子单元6071，用于采集不同类型动态手势的样本视频流；

手势框标记子单元6072，用于对所述不同类型动态手势的动态手势框进行标记；

图像序列构成子单元6073，用于从样本视频流的多帧图像帧中截取与动态手势框的标注信息对应的图像块，构成图像序列；

训练子单元6074，用于以所述动态手势类型作为监督数据，以所述图像序列作为训练数据，训练所述第一动态手势识别模型。

在一种可选方式中，所述训练子单元6074具体用于：将所述图像序列分为数段；在每一段中抽取出预置帧数的图像，堆叠组成图像训练数据；以及，以所述动态手势类型作为监督数据，以所述图像训练数据训练出所述第一动态手势识别模型。

在一种可选方式中，还包括：第二动态手势识别模型建立单元608；所述第二动态手势识别模型建立单元608包括：

样本采集子单元6081，用于采集不同类型动态手势的样本视频流；

手势框标记子单元6082，用于对所述不同类型动态手势的动态手势框进行标记；

图像序列构成子单元6083，用于从样本视频流的多帧图像帧中截取与动态手势框的标注信息对应的图像块，构成图像序列；

图像差确定子单元6084，用于确定所述图像序列中多个帧间图像差；

图像差序列确定子单元6085，用于基于确定的多个帧间图像差生成图像差序列；

训练子单元6086，用于以所述动态手势类型作为监督数据，以所述图像差序列作为训练数据，训练所述第二动态手势识别模型。

在一种可选方式中，所述训练子单元6086具体用于：将所述图像差序列分为数段；在每一段中抽取出预置帧数的图像，堆叠组成图像差训练数据；以及，以所述动态手势类型作为监督数据，以所述图像差训练数据训练所述第二动态手势识别模型。

本发明实施例还提供了一种电子设备，例如可以是移动终端、个人计算机(PC)、平板电脑、服务器等。下面参考图7，其示出了适于用来实现本申请实施例的终端设备或服务器的电子设备700的结构示意图：如图7所示，计算机系统700包括一个或多个处理器、通信部等，所述一个或多个处理器例如：一个或多个中央处理单元(CPU)701，和/或一个或多个图像处理器(GPU)713等，处理器可以根据存储在只读存储器(ROM)702中的可执行指令或者从存储部分708加载到随机访问存储器(RAM)703中的可执行指令而执行各种适当的动作和处理。通信部712可包括但不限于网卡，所述网卡可包括但不限于IB(Infiniband)网卡，

处理器可与只读存储器602和/或随机访问存储器730中通信以执行可执行指令，通过总线704与通信部712相连、并经通信部712与其他目标设备通信，从而完成本申请实施例提供的任一项方法对应的操作，例如：对待检测视频流中的动态手势进行定位，得到动态手势框；从所述视频流的多帧图像帧中截取与所述动态手势框对应的图像块；基于截取出的各图像块生成检测序列；根据所述检测序列进行动态手势识别。

此外，在RAM 703中，还可存储有装置操作所需的各种程序和数据。CPU701、ROM702以及RAM703通过总线704彼此相连。在有RAM703的情况下，ROM702为可选模块。RAM703存储可执行指令，或在运行时向ROM702中写入可执行指令，可执行指令使处理器701执行上述通信方法对应的操作。输入/输出(I/O)接口705也连接至总线704。通信部712可以集成设置，也可以设置为具有多个子模块(例如多个IB网卡)，并在总线链接上。

以下部件连接至I/O接口705：包括键盘、鼠标等的输入部分706；包括诸如阴极射线管(CRT)、液晶显示器(LCD)等以及扬声器等的输出部分707；包括硬盘等的存储部分708；以及包括诸如LAN卡、调制解调器等的网络接口卡的通信部分709。通信部分709经由诸如因特网的网络执行通信处理。驱动器710也根据需要连接至I/O接口705。可拆卸介质711，诸如磁盘、光盘、磁光盘、半导体存储器等等，根据需要安装在驱动器710上，以便于从其上读出的计算机程序根据需要被安装入存储部分708。

需要说明的，如图7所示的架构仅为一种可选实现方式，在具体实践过程中，可根据实际需要对上述图7的部件数量和类型进行选择、删减、增加或替换；在不同功能部件设置上，也可采用分离设置或集成设置等实现方式，例如GPU和CPU可分离设置或者可将GPU集成在CPU上，通信部可分离设置，也可集成设置在CPU或GPU上，等等。这些可替换的实施方式均落入本发明公开的保护范围。

特别地，根据本公开的实施例，上文参考流程图描述的过程可以被实现为计算机软件程序。例如，本公开的实施例包括一种计算机程序产品，其包括有形地包含在机器可读介质上的计算机程序，计算机程序包含用于执行流程图所示的方法的程序代码，程序代码可包括对应执行本申请实施例提供的方法步骤对应的指令，例如，对待检测视频流中的动态手势进行定位，得到动态手势框；从所述动态手势框中截取出预置帧数的图像，并从截取出的图像中计算出各相邻两帧图像的图像差；根据截取出的图像以及各相邻两帧图像的图像差进行动态手势识别。在这样的实施例中，该计算机程序可以通过通信部分709从网络上被下载和安装，和/或从可拆卸介质711被安装。在该计算机程序被中央处理单元(CPU)701执行时，执行本申请的方法中限定的上述功能。

本发明实施例提供一种计算机程序，包括计算机可读代码，当所述计算机可读代码在设备上运行时，所述设备中的处理器执行用于实现上述任一项所述动态手势识别的方法中各步骤的指令，例如，对待检测视频流中的动态手势进行定位，得到动态手势框；从所述动态手势框中截取出预置帧数的图像，并从截取出的图像中计算出各相邻两帧图像的图像差；根据截取出的图像以及各相邻两帧图像的图像差进行动态手势识别。

本领域普通技术人员可以理解：实现上述方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成，前述的程序可以存储于一计算机可读取存储介质中，该程序在执行时，执行包括上述方法实施例的步骤；而前述的存储介质包括：ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。

可能以许多方式来实现本发明的方法和装置。例如，可通过软件、硬件、固件或者软件、硬件、固件的任何组合来实现本发明的方法和装置。用于所述方法的步骤的上述顺序仅是为了进行说明，本发明的方法的步骤不限于以上具体描述的顺序，除非以其它方式特别说明。此外，在一些实施例中，还可将本发明实施为记录在记录介质中的程序，这些程序包括用于实现根据本发明的方法的机器可读指令。因而，本发明还覆盖存储用于执行根据本发明的方法的程序的记录介质。本发明的描述是为了示例和描述起见而给出的，而并不是无遗漏的或者将本发明限于所公开的形式。很多修改和变化对于本领域的普通技术人员而言是显然的。选择和描述实施例是为了更好说明本发明的原理和实际应用，并且使本领域的普通技术人员能够理解本发明从而设计适于特定用途的带有各种修改的各种实施例。

Claims

1.一种动态手势识别方法，其特征在于，包括：

对待检测视频流中的动态手势进行定位，得到动态手势框；

从所述视频流的多帧图像帧中截取与所述动态手势框对应的图像块；

基于截取出的各图像块生成检测序列；

根据所述检测序列进行动态手势识别；

多次截取出检测序列，并多次生成图像差序列，以及多次根据检测序列和图像差序列进行动态手势识别；

根据每次动态手势识别出的动态手势类型的概率，确定出最终的动态手势识别结果。

2.根据权利要求1所述的方法，其特征在于，所述对待检测视频流中的动态手势进行定位，得到动态手势框，包括：

对所述多帧图像中的至少一帧进行静态手势定位，得到所述至少一帧的静态手势框；

根据所述得到的所述至少一帧的静态手势框确定所述动态手势框。

3.根据权利要求2所述的方法，其特征在于，根据所述得到的所述至少一帧的静态手势框确定所述动态手势框，包括：

对所述至少一帧的静态手势框进行放大处理，得到所述动态手势框。

4.根据权利要求2所述的方法，其特征在于，所述多帧图像帧中各图像帧的静态手势框满足：

静态手势框位于所述动态手势框内，或者，静态手势框与动态手势框相同。

5.根据权利要求1-4任一项所述的方法，其特征在于，所述根据所述检测序列进行动态手势识别，包括：

确定所述检测序列中多个帧间图像差；

基于确定的多个帧间图像差生成图像差序列；

根据所述检测序列和所述图像差序列识别进行动态手势识别。

6.根据权利要求5所述的方法，其特征在于，所述帧间图像差为所述检测序列中两个相邻参考帧之间的图像差。

7.根据权利要求5所述的方法，其特征在于，根据所述检测序列和所述图像差序列识别进行动态手势识别，包括：

将所述检测序列输入第一动态手势识别模型，以获得所述第一动态手势识别模型输出的第一动态手势类别预测概率；

将所述图像差序列输入第二动态手势识别模型，以获得所述第二动态手势识别模型输出的第二动态手势类别预测概率；

根据所述第一动态手势类别预测概率和所述第二动态手势类别预测概率，确定动态手势识别结果。

8.根据权利要求7所述的方法，其特征在于，所述第一动态手势识别模型为第一神经网络，所述第二动态手势识别模型为第二神经网络，所述第一神经网络和所述第二神经网络的结构相同或不同。

9.根据权利要求7所述的方法，其特征在于，还包括：采用以下方法建立所述第一动态手势识别模型：

采集不同类型动态手势的样本视频流；

对所述不同类型动态手势的动态手势框进行标记；

从样本视频流的多帧图像帧中截取与动态手势框的标注信息对应的图像块，构成图像序列；

以所述动态手势类型作为监督数据，以所述图像序列作为训练数据，训练所述第一动态手势识别模型。

10.根据权利要求9所述的方法，其特征在于，所述以所述动态手势类型作为监督数据，以所述图像序列作为训练数据，训练所述第一动态手势识别模型，包括：

将所述图像序列分为数段；

在每一段中抽取出预置帧数的图像，堆叠组成图像训练数据；

以所述动态手势类型作为监督数据，以所述图像训练数据训练出所述第一动态手势识别模型。

11.根据权利要求7所述的方法，其特征在于，还包括：采用以下方法建立所述第二动态手势识别模型：

采集不同类型动态手势的样本视频流；

对所述不同类型动态手势的动态手势框进行标记；

确定所述图像序列中多个帧间图像差；

基于确定的多个帧间图像差生成图像差序列；

以所述动态手势类型作为监督数据，以所述图像差序列作为训练数据，训练所述第二动态手势识别模型。

12.根据权利要求11所述的方法，其特征在于，所述以所述动态手势类型作为监督数据，以所述图像差序列作为训练数据，训练出所述第二动态手势识别模型，包括：

将所述图像差序列分为数段；

在每一段中抽取出预置帧数的图像，堆叠组成图像差训练数据；

以所述动态手势类型作为监督数据，以所述图像差训练数据训练所述第二动态手势识别模型。

13.根据权利要求1-4任一项所述的方法，其特征在于，所述动态手势的类型包括以下之一或任意组合：挥手手势、点击手势、手枪手势或抓取手势。

14.一种动态手势识别建模方法，其特征在于，包括：

采集不同类型动态手势的样本视频流；

对所述不同类型动态手势的动态手势框进行标记；从样本视频流的多帧图像帧中截取与动态手势框的标注信息对应的图像块，构成图像序列；

以所述动态手势类型作为监督数据，以所述图像序列作为训练数据，训练第一动态手势识别模型，所述第一动态手势识别模型在训练完成后用于根据检测序列进行动态手势识别，所述检测序列基于待检测视频流中动态手势框对应的图像块生成；

15.根据权利要求14所述的方法，其特征在于，所述以所述动态手势类型作为监督数据，以所述图像序列作为训练数据，训练所述第一动态手势识别模型，包括：

将所述图像序列分为数段；

16.根据权利要求14或15所述的方法，其特征在于，还包括：

采集不同类型动态手势的样本视频流；

对所述不同类型动态手势的动态手势框进行标记；

确定所述图像序列中多个帧间图像差；

基于确定的多个帧间图像差生成图像差序列；

以所述动态手势类型作为监督数据，以所述图像差序列作为训练数据，训练第二动态手势识别模型。

17.根据权利要求16所述的方法，其特征在于，所述以所述动态手势类型作为监督数据，以所述图像差序列作为训练数据，训练第二动态手势识别模型，包括：

将所述图像差序列分为数段；

18.一种动态手势识别装置，其特征在于，包括：

手势定位单元，用于对待检测视频流中的动态手势进行定位，得到动态手势框；

处理单元，用于从所述视频流的多帧图像帧中截取与所述动态手势框对应的图像块；

检测序列生成单元，用于基于截取出的各图像块生成检测序列；

手势识别单元，用于根据所述检测序列进行动态手势识别；

多次识别控制单元，用于多次截取出检测序列，并多次生成图像差序列，以及多次根据检测序列和图像差序列进行动态手势识别；

识别结果确定单元，用于根据每次动态手势识别出的动态手势类型的概率，确定出最终的动态手势识别结果。

19.根据权利要求18所述的装置，其特征在于，所述手势定位单元包括：

静态手势框定位子单元，用于对所述多帧图像中的至少一帧进行静态手势定位，得到所述至少一帧的静态手势框；

动态手势框确定子单元，用于根据所述得到的所述至少一帧的静态手势框确定所述动态手势框。

20.根据权利要求19所述的装置，其特征在于，动态手势框确定子单元具体用于：对所述至少一帧的静态手势框进行放大处理，得到所述动态手势框。

21.根据权利要求18所述的装置，其特征在于，所述多帧图像帧中各图像帧的静态手势框满足：静态手势框位于所述动态手势框内，或者，静态手势框与动态手势框相同。

22.根据权利要求18-21任一项所述的装置，其特征在于，所述手势识别单元包括：

图像差确定子单元，用于确定所述检测序列中多个帧间图像差；

图像差序列确定子单元，用于基于确定的多个帧间图像差生成图像差序列；

动态手势识别子单元，用于根据所述检测序列和所述图像差序列识别进行动态手势识别。

23.根据权利要求22所述的装置，其特征在于，所述帧间图像差为所述检测序列中两个相邻参考帧之间的图像差。

24.根据权利要求22所述的装置，其特征在于，所述动态手势识别子单元具体用于：将所述检测序列输入第一动态手势识别模型，以获得所述第一动态手势识别模型输出的第一动态手势类别预测概率；将所述图像差序列输入第二动态手势识别模型，以获得所述第二动态手势识别模型输出的第二动态手势类别预测概率；根据所述第一动态手势类别预测概率和所述第二动态手势类别预测概率，确定动态手势识别结果。

25.根据权利要求24所述的装置，其特征在于，所述第一动态手势识别模型为第一神经网络，所述第二动态手势识别模型为第二神经网络，所述第一神经网络和所述第二神经网络的结构相同或不同。

26.根据权利要求22所述的装置，其特征在于，还包括：第一动态手势识别模型建立单元；所述第一动态手势识别模型建立单元包括：

样本采集子单元，用于采集不同类型动态手势的样本视频流；

手势框标记子单元，用于对所述不同类型动态手势的动态手势框进行标记；

图像序列构成子单元，用于从样本视频流的多帧图像帧中截取与动态手势框的标注信息对应的图像块，构成图像序列；

训练子单元，用于以所述动态手势类型作为监督数据，以所述图像序列作为训练数据，训练所述第一动态手势识别模型。

27.根据权利要求26所述的装置，其特征在于，所述训练子单元具体用于：将所述图像序列分为数段；在每一段中抽取出预置帧数的图像，堆叠组成图像训练数据；以及，以所述动态手势类型作为监督数据，以所述图像训练数据训练出所述第一动态手势识别模型。

28.根据权利要求22所述的装置，其特征在于，还包括：第二动态手势识别模型建立单元；所述第二动态手势识别模型建立单元包括：

图像差确定子单元，用于确定所述图像序列中多个帧间图像差；

训练子单元，用于以所述动态手势类型作为监督数据，以所述图像差序列作为训练数据，训练所述第二动态手势识别模型。

29.根据权利要求28所述的装置，其特征在于，所述训练子单元具体用于：将所述图像差序列分为数段；在每一段中抽取出预置帧数的图像，堆叠组成图像差训练数据；以及，以所述动态手势类型作为监督数据，以所述图像差训练数据训练所述第二动态手势识别模型。

30.一种动态手势识别模型建立装置，其特征在于，包括：第一动态手势识别模型建立单元；所述第一动态手势识别模型建立单元包括：

训练子单元，用于以所述动态手势类型作为监督数据，以所述图像序列作为训练数据，训练所述第一动态手势识别模型，所述第一动态手势识别模型在训练完成后用于根据检测序列进行动态手势识别，所述检测序列基于待检测视频流中动态手势框对应的图像块生成；

第二动态手势识别模型建立单元；所述第二动态手势识别模型建立单元包括：图像序列构成子单元，用于从样本视频流的多帧图像帧中截取与动态手势框的标注信息对应的图像块，构成图像序列；图像差确定子单元，用于确定所述图像序列中多个帧间图像差；图像差序列确定子单元，用于基于确定的多个帧间图像差生成图像差序列；训练子单元，用于以所述动态手势类型作为监督数据，以所述图像差序列作为训练数据，训练所述第二动态手势识别模型。

31.根据权利要求30所述的装置，其特征在于，所述训练子单元具体用于：将所述图像序列分为数段；在每一段中抽取出预置帧数的图像，堆叠组成图像训练数据；以及，以所述动态手势类型作为监督数据，以所述图像训练数据训练出所述第一动态手势识别模型。

32.根据权利要求30或31所述的装置，其特征在于，所述第二动态手势识别模型建立单元还包括：

手势框标记子单元，用于对所述不同类型动态手势的动态手势框进行标记。

33.根据权利要求32所述的装置，其特征在于，所述训练子单元具体用于：将所述图像差序列分为数段；在每一段中抽取出预置帧数的图像，堆叠组成图像差训练数据；以及，以所述动态手势类型作为监督数据，以所述图像差训练数据训练所述第二动态手势识别模型。

34.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现权利要求1-17任一项所述方法的步骤。

35.一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现权利要求1-17任一项所述方法的步骤。

36.一种计算机程序，包括计算机可读代码，其特征在于，当所述计算机可读代码在设备上运行时，所述设备中的处理器执行用于实现权利要求1-17任一项所述方法中各步骤的指令。