CN109782906A

CN109782906A - 一种广告机的手势识别方法、交互方法、装置和电子设备

Info

Publication number: CN109782906A
Application number: CN201811624451.7A
Authority: CN
Inventors: 冯展鹏; 黄轩; 王孝宇
Original assignee: Shenzhen Intellifusion Technologies Co Ltd
Current assignee: Shenzhen Intellifusion Technologies Co Ltd
Priority date: 2018-12-28
Filing date: 2018-12-28
Publication date: 2019-05-21

Abstract

本发明实施例提供一种广告机的手势识别方法、交互方法、装置和电子设备，所述手势识别方法包括：通过设置在广告机上的2D摄像头采集当前用户连续的多帧图像信息；对所述多帧图像信息中的每一帧图像信息进行裁剪处理；将裁剪处理后的每一帧图像信息叠加输入到预先训练好的手势识别模型中进行识别，获取当前用户的手势类别，其中，所述手势类别对应有手势语义，所述手势识别模型是基于堆叠帧计算的深度学习网络模型。本发明实施例可以降低广告机生产所需的硬件成本，以及解决识别模型无法嵌入到广告机中使用的问题。

Description

一种广告机的手势识别方法、交互方法、装置和电子设备

技术领域

本发明涉及图像识别技术领域，尤其涉及一种广告机的手势识别方法、交互方法、装置和电子设备。

背景技术

目前，随着深度学习技术在计算机视觉领域的蓬勃发展，应运而生的相关电子产品为商业应用带来了新的生机，这些电子产品可以对用户的动作进行识别，比如可以对用户的手部动作、脚部动作以及面部动作等进行识别。在对用户的动作进行识别之前，需要先对该用户的图像进行采集，在深度学习技术中，可以采用3D摄像头来对用户的图像进行采集，但3D摄像头的单个成本价格较高，不利于降低该类电子产品生产所需的硬件成本。另外，现有技术中基于深度学习网络的识别模型计算量大，对硬件要求高，导致识别模型无法嵌入到广告机中使用。

发明内容

本发明实施例提供一种广告机的手势识别方法、交互方法、装置和电子设备，可以降低广告机生产所需的硬件成本，以及解决识别模型无法嵌入到广告机中使用的问题。

第一方面，本发明实施例提供一种广告机的手势识别方法，所述方法包括：

通过设置在广告机上的2D摄像头采集当前用户连续的多帧图像信息；

对所述多帧图像信息中的每一帧图像信息进行裁剪处理；

将裁剪处理后的每一帧图像信息叠加输入到预先训练好的手势识别模型中进行识别，获取当前用户的手势类别，其中，所述手势类别对应有手势语义，所述手势识别模型是基于堆叠帧计算的深度学习网络模型。

可选的，所述将所述裁剪处理后的每一帧图像信息叠加输入到预先训练好的手势识别模型中进行识别，包括：

将所述裁剪处理后的每一帧图像以时间的维度叠加起来输入到手势识别模型中。

可选的，所述手势识别模型中包括多组手势类别，所述将所述裁剪处理后的每一帧图像信息叠加输入到预先训练好的手势识别模型中进行识别，还包括：

根据所述手势识别模型中的3D卷积神经网络算法，获取所述图像信息对应的多组手势类别的多组置信度，其中，所述置信度用于表示手势识别模型对所述图像信息识别的可信度。

可选的，所述获取当前用户的手势类别，包括：

通过对所述多组置信度进行比对，获取所述多组置信度的比对结果；

根据所述比对结果，获取所述多组手势类别中置信度为最大的一组手势类别，并将所述置信度为最大的一组手势类别确定为当前用户的手势类别。

第二方面，本发明实施例提供一种基于手势识别的广告机交互方法，所述交互方法用于广告机与用户之间的交互演示，所述方法包括：

对所述多帧图像信息中的每一帧图像信息进行裁剪处理；

将裁剪处理后的每一帧图像信息叠加输入到预先训练好的手势识别模型中进行识别，获取当前用户的手势类别，其中，所述手势类别对应有手势语义，所述手势识别模型是基于堆叠帧计算的深度学习网络模型；

根据所述当前用户的手势类别，获取所述当前用户的手势类别对应的交互指令；

执行所述当前用户的手势类别对应的交互指令。

可选的，所述获取所述当前用户的手势类别对应的交互指令，包括：

根据所述手势类别，获取所述手势类别对应的所述手势语义；

根据所述手势语义，确定所述交互指令。

第三方面，本发明实施例提供一种广告机的手势识别装置，包括：

采集模块，用于通过设置在广告机上的2D摄像头采集当前用户连续的多帧图像信息；

裁剪模块，用于对所述多帧图像信息中的每一帧图像信息进行裁剪处理；

识别模块，用于将裁剪处理后的每一帧图像信息叠加输入到预先训练好的手势识别模型中进行识别，获取当前用户的手势类别，其中，所述手势类别对应有手势语义，所述手势识别模型是基于堆叠帧计算的深度学习网络模型。

第四方面，本发明实施例提供一种基于手势识别的广告机交互装置，包括：

识别模块，用于将裁剪处理后的每一帧图像信息叠加输入到预先训练好的手势识别模型中进行识别，获取当前用户的手势类别，其中，所述手势类别对应有手势语义，所述手势识别模型是基于堆叠帧计算的深度学习网络模型；

处理模块，用于根据所述当前用户的手势类别，获取所述当前用户的手势类别对应的交互指令；

执行模块，用于执行所述当前用户的手势类别对应的交互指令。

第五方面，本发明实施例提供一种电子设备，包括：存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现本发明实施例提供的广告机的手势识别方法中的步骤。

第六方面，本发明实施例提供一种计算机可读存储介质，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器执行时实现本发明实施例提供的广告机的手势识别方法中的步骤。

本发明实施例中，通过设置在广告机上的2D摄像头采集当前用户连续的多帧图像信息；对所述多帧图像信息中的每一帧图像信息进行裁剪处理；将裁剪处理后的每一帧图像信息叠加输入到预先训练好的手势识别模型中进行识别，获取当前用户的手势类别，其中，所述手势类别对应有手势语义，所述手势识别模型是基于堆叠帧计算的深度学习网络模型。通过2D摄像头采集当前用户的多帧图像信息可以降低广告机生产所需的硬件成本，手势识别模型是基于堆叠帧计算的深度学习网络模型计算量小，对硬件要求不高，可以解决识别模型无法嵌入到广告机中使用的问题。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明实施例提供的一种广告机的手势识别方法的流程示意图；

图2是本发明实施例提供的一种手势类别删除合并的示意图；

图3是本发明实施例提供的一种广告机的手势识别的流程图；

图4是本发明实施例提供的3D卷积神经网络的结构图；

图5是本发明实施例提供的一种基于手势识别的广告机交互方法的流程示意图；

图6是本发明实施例提供的一种广告机的手势识别装置的结构示意图；

图7是本发明实施例提供的另一种广告机的手势识别装置的结构示意图；

图8是本发明实施例提供的一种基于手势识别的广告机交互装置的结构示意图；

图9是本发明实施例提供的另一种基于手势识别的广告机交互装置的结构示意图；

图10是本发明实施例提供的一种电子设备的结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

请参见图1，图1是本发明实施例提供的一种广告机的手势识别方法的流程示意图，如图1所示，包括以下步骤：

101、通过设置在广告机上的2D摄像头采集当前用户连续的多帧图像信息。

上述步骤101中使用2D摄像头来对用户的图像信息进行采集，2D摄像头的单个成本价格比较便宜，可以降低广告机生产所需的硬件成本。2D摄像头可以用于采集用户的图像信息，可以理解的是，为使2D摄像头可以采集到用户的图像信息，可将2D摄像头与广告机显示面板设置在同一面，2D摄像头可以设置在广告机显示面板顶部，也可以设置在广告机显示面板左侧中间位置，或者设置在广告机显示面板同一面的其他位置，2D摄像头设置的位置可以根据应用场景的需要进行设置。上述的当前用户可以是指正在与广告机进行人机交互的用户，通过2D摄像头采集到的当前用户的多帧图像信息的帧数可以是16帧、20帧、24帧等，多帧图像信息的帧数可以预设设定。通过2D摄像头采集当前用户的多帧图像信息时，2D摄像头对当前用户的图像信息采集是连续采集的，当前用户连续的多帧图像信息可以理解为当前用户的一段视频信息，有利于下述步骤103中对当前用户的多帧图像信息用户的手势类别进行识别。

102、对所述多帧图像信息中的每一帧图像信息进行裁剪处理。

上述的多帧图像信息是由连续的帧图像信息组成，可以理解的是，一帧图像信息可以对应为一张图片，对多帧图像信息中的每一帧图像信息进行裁剪处理，可以理解为对连续的多张图片中每张图片进行裁剪处理，裁剪处理可以是由广告机中的图片裁剪引擎来执行完成，通过图片裁剪引擎对多帧图像信息进行裁剪处理后，每一帧图像信息可以对应有多张剪辑图片。通过图片裁剪引擎对多帧图像信息进行裁剪处理后，每帧图像信息对应的多张剪辑图片的像素大小是相同的。例如，摄像头采集到多帧图像信息中的每一帧图像信息对应的采集图片像素大小是256×256，通过图片裁剪引擎可将采集图片裁剪为像素大小是227×227的五张剪辑图片，五张剪辑图片可以是从采集图片的左上、左下、右上、右下以及中心位置裁剪获得，这样即可得到多帧图像信息中每一帧图像信息对应的五张剪辑图片。

103、将裁剪处理后的每一帧图像信息叠加输入到预先训练好的手势识别模型中进行识别，获取当前用户的手势类别，其中，所述手势类别对应有手势语义，所述手势识别模型是基于堆叠帧计算的深度学习网络模型。

上述的手势识别模型可以是在外部的计算机上预先训练好，再嵌入到广告机中使用，用于识别用户的手势类别。可以理解的是，通过2D摄像头采集当前用户连续的多帧图像信息，当前用户连续的多帧图像信息可以理解为当前用户的一段视频信息，当前用户的一段视频信息中包括的当前用户的手势类别可以是动态的手势类别，在步骤103中将裁剪处理后的多帧图像信息中的每一帧图像信息叠加起来输入到手势识别模型中进行识别，手势识别模型可以识别出当前用户的动态手势类别。例如，通过2D摄像头采集到当前用户手部向上滑动连续的16帧图像信息，对应的该用户的手势类别可以是向上滑动的手势类别，在16帧图像信息中的每一帧图像信息对应的用户手部所在位置不同，将16帧图像信息叠加输入到预先训练好的手势识别模型中进行识别，手势识别模型可以根据每一帧图像信息对应的用户手部所在位置不同，获取到当前用户的手部向上运动的变化趋势，从而识别出当前用户的手势类别为向上滑动的手势类别。

进一步的，不同的手势类别对应有不同的手势语义。例如，在广告机与当前用户的人机交互过程中，手势识别模型第一次识别出用户A的手势类别为向上滑动的手势类别，手势识别模型第二次识别出用户A的手势类别为向下滑动的手势类别。对于手势识别模型两次识别到的用户A的手势类别而言，向上滑动的手势类别所对应的上滑手势语义，以及向下滑动的手势类别所对应的下滑手势语义，两种手势类别各自对应的手势语义是不同的，比如，向上滑动的手势类别所包括对应的上滑手势语义可以是调大广告机音量，向下滑动的手势类别所对应的下滑手势语义可以是调小广告机音量。

在本发明实施例中，广告机中预先嵌入的人工智能学习框架，上述人工智能学习框架可以是堆叠帧计算框架，堆叠帧计算框架可以用于计算输入的多帧图像信息，以使手势识别模型识别出多帧图像信息中用户的手势类别。在步骤103中，裁剪处理后的多帧图像信息是叠加起来输入到手势识别模型中进行识别，可以理解的是，多帧图像信息叠加后可以得到堆叠帧，通过堆叠帧计算框架可对输入的多帧图像信息进行计算，堆叠帧计算框架可对多帧图像信息中第一帧图像到最后一帧图像依次进行计算，得到计算结果，手势识别模型根据计算结果，获取多帧图像信息中用户的手势类别。堆叠帧计算框架可以是基于C++编程的人工智能学习框架，采用8bit浮点运算，计算量小对硬件设备的要求不高，易于嵌入到广告机中使用，采用堆叠帧计算框架可以解决识别模型无法嵌入广告机中使用的问题。另外，堆叠帧计算框架可以通过I/O接口调用深度学习常用数据集对网络模型进行训练，比如，将从网上调用的常用数据集进行处理，得到可以用于识别用户手势类别的手势识别模型的训练数据。深度学习常用数据集可以是网上公开的jester数据集，jester数据集中包括148092个动态手势，共27个手势类别。

以上述的jester数据集为例，在本发明实施例中，通过对上述的27个手势类别针对广告机与用户人机交互的需求进行了手势类别的合并与删除处理，具体处理方式如图2所示，最终得到语义明确，在手势类别的新类型中用户的动态手势类别利于人机交互的可以有14个手势类别，这14个手势类别可以是训练数据，通过对14个手势类别进行训练后，训练得到可以识别出14种手势类别的手势识别模型，手势识别模型对用户的手势类别进行预测识别时，就主要针对于利于人机交互的14个手势类别进行预测识别。当然，在其他实施例中，针对广告机与用户人机交互的需求，对jester数据集中的27种手势类别的进行合并与删除处理，在手势类别的新类型中利于人机交互的手势类别可以不为14个手势类别，比如，可以是10个手势类别、17个手势类别、20个手势类别等，在此不做限定。jester数据集中的27个手势类别没有深度信息，而通过2D摄像头采集到的当前用户连续的多帧图像信息中也没有深度信息，从而可以降低手势识别模型识别用户手势类别时的计算量，有利于提高手势识别模型的识别效率，计算量降低对设备要求也会降低。在实际应用中，一些公开的数据集可能会包括一些类别语义不够明确的训练数据，或者本发明实施例中应用场景不需要的手势类别，这样删除一些本发明实施例不需要的类型识别，可以降低手势识别模型训练的计算量，以保留语义明确的手势类别，进而使得手势识别模型运算的结果更加准确，上述仅是以Jester数据集进行举例说明，但本发明实施例对数据集并不作限定，例如：深度学习常用数据集还可以采用Imagenet数据集等。

通过图1的流程示意图中的三个步骤可识别当前用户的手势，图1的流程示意图中的三个步骤执行的流程，可参见图3，如图3所示，图3是本发明实施例提供的一种广告机的手势识别的流程图。

优选的，在本发明实施例中，所述将裁剪处理后的每一帧图像信息叠加输入到预先训练好的手势识别模型中进行识别，包括：将所述裁剪处理后的每一帧图像以时间的维度叠加起来输入到手势识别模型中。

裁剪处理后的每一帧图像以时间的维度叠加起来，可以理解为是将裁剪处理后的每一帧图像按照每一帧图像被摄像头采集到的时间先后依次叠加起来。可以理解的是，在上述步骤101中通过2D摄像头采集当前用户连续的多帧图像信息时，当前用户连续的多帧图像信息中的每一帧图像信息先后被摄像头所采集，将当前用户的多帧图像信息输入到手势识别模型中时，就需要将多帧图像信息中的每一帧图像按照每一帧图像各自被摄像头采集到的时间先后依次叠加起来输入到手势识别模型中。例如，通过2D摄像头采集当前用户连续的5帧图像信息，该5帧图像信息中每一帧图像信息对应为图像信息A、图像信息B、图像信息C、图像信息D、图像信息E先后被2D摄像头所采集到，当该5帧图像信息输入到手势识别模型中进行识别时，将图像信息A、图像信息B、图像信息C、图像信息D、图像信息E依照采集时间的先后顺序叠加起来输入到手势识别模型中，这样，图像信息A、图像信息B、图像信息C、图像信息D、图像信息E依照采集时间的先后顺序叠加起来，可以理解为是将图像信息A、图像信息B、图像信息C、图像信息D、图像信息E以时间的维度叠加起来的。

优选的，在本发明实施例中，所述手势识别模型中包括多组手势类别，所述将所述裁剪处理后的每一帧图像信息叠加输入到预先训练好的手势识别模型中进行识别，还包括：根据所述手势识别模型中的3D卷积神经网络算法，获取所述图像信息对应的多组手势类别的多组置信度，其中，所述置信度用于表示手势识别模型对所述图像信息识别的可信度。

手势识别模型中包括的多组手势类别可以用于手势识别模型对用户的手势类别进行识别，手势识别模型中包括深度学习网络，通过深度学习网络可以对输入的多帧图像信息中的手势类别进行识别运算，在本发明实施例中，优选深度学习网络为3D卷积神经网络。通过手势识别模型中的3D卷积神经网络算法可以对叠加后输入的当前用户的多帧图像信息进行处理运算，可临时生成手势识别模型中多组手势类别与当前用户手势对应的多组置信度，手势识别模型通过临时生成的多组置信度获取到当前用户对应的手势类别后，可将临时生成的多组置信度删除，或者将多组置信度进行存储，当有新的多帧图像信息输入到手势识别模型中进行识别时，可再次临时生成多组置信度。例如，若手势识别模型中有14种手势类别，通过手势识别模型中的3D卷积神经网络算法可以对叠加后输入的当前用户的多帧图像信息进行处理运算，可以临时生成手势识别模型中14种手势类别的各自对应于当前用户手势的14组置信度，当手势识别模型识别出当前用户的手势类别后，可将临时生成的14组置信度进行删除或存储，若此时有新的多帧图像信息输入到手势识别模型中，可再次临时生成14组新的置信度。可以理解的是，手势识别模型中临时生成的多组置信度是不同的，对应的，置信度越高，手势识别模型对多帧图像信息中用户的手势类别识别的可信度也就越高。

如图4所示，图4是本发明实施例提供的3D卷积神经网络结构图，3D卷积神经网络结构中包括：3D卷积层(Convolutional Layer)，3D卷积层可以用于对输入到手势识别模型中的多帧图像信息进行提取特征；3D池化层(Pooling Layer)，3D池化层可以用于对输入到手势识别模型中的多帧图像信息进行压缩特征，提取多帧图像信息的主要特征；3D全连接层(Fully-Connected Layer)，3D全连接层可以将3D池化层获取到的分布式特征映射到手势识别模型中的多组手势类别；3D输出层(softmax Layer)，3D输出层可以用于输出手势识别模型中的多组手势类别各自对应的置信度。上述的多帧图像以时间的维度叠加起来后多帧图像信息中包括有时序信息，而在本发明实施例中，3D卷积神经网络中融入了对多帧图像的时序信息的考虑，采用手势识别模型中的3D卷积神经网络对输入的多帧图像信息进行运算识别，可以获取多帧图像信息各自对应的多组置信度。例如，若手势识别模型中包括14种手势类别，通过图4所示的3D卷积神经网络对输入到手势识别模型中的多帧图像信息进行识别运算后，可以生成手势识别模型中14种手势类别各自对应于多帧图像信息中用户手势类别的14组置信度，并可以通过3D输出层输出14组置信度。

优选的，在本发明实施例中，所述获取当前用户的手势类别，包括：通过对所述多组置信度进行比对，获取所述多组置信度的比对结果；根据所述比对结果，获取所述多组手势类别中置信度为最大的一组手势类别，并将所述置信度为最大的一组手势类别确定为当前用户的手势类别。

通过手势识别模型对用户手势进行识别后，手势识别模型中包括的多组手势类别中的每一个手势类别会对应有一个置信度，手势识别模型中包括的多组手势类别置信度总和为100％，多组手势类别中的每一个手势类别会对应有一个的置信度的值可以是不一样的，对多组手势类别对应的置信度进行比对，可以获取到多组手势类别中置信度最高的一组手势类别。可以理解的是，对用户的手势类别进行识别，可理解为是对用户手势类别的概率预测，相应的，上述置信度以理解为概率值，手势识别模型对用户手势类别进行概率预测时，用户任一一种手势类别可以在手势识别模型的多组手势类别中匹配到，这样，手势识别模型中的多组手势类别概率值总和可以为一个必然事件，即多组手势类别概率值总和为100％，势识别模型中的手势类别对应的概率值越高，则将该组手势类别确定为当前用户的手势类别就可靠。例如，手势识别模型通过对当前用户连续的16帧图像信息进行预测识别后，若手势识别模型中包括有14组手势类别，手势识别模型中的14组手势类别可以获取到每组手势类别各自对应的置信度。相应的，若第一组手势类别对应的置信度为88％，则在第二组手势类别至第十四组手势类别对应的置信度总和为12％，在手势识别模型中14组手势类别分别对应的14组置信度中，14组手势类别对应的14组置信度总和为100％，其中，第一组手势类别对应的置信度为最高，若第一组手势类别为向上滑动的手势类别，可以将当前用户的手势类别确定为向上滑动的手势类别。

本发明实施例中，通过设置在广告机上的2D摄像头采集当前用户连续的多帧图像信息；对所述多帧图像信息中的每一帧图像信息进行裁剪处理；将裁剪处理后的每一帧图像信息叠加输入到预先训练好的手势识别模型中进行识别，获取当前用户的手势类别，其中，所述手势类别对应有手势语义，所述手势识别模型是基于堆叠帧计算的深度学习网络模型。通过2D摄像头来采集当前用户连续的多帧图像信息，可以降低广告机生产所需的硬件成本；手势识别模型是基于堆叠帧计算的深度学习网络模型计算量小，对硬件要求不高，可以解决识别模型无法嵌入到广告机中使用的问题。

请参见图5，图5是本发明实施例提供的一种基于手势识别的广告机交互方法的流程示意图，如图5所示，包括以下步骤：

201、通过设置在广告机上的2D摄像头采集当前用户连续的多帧图像信息。

202、对所述多帧图像信息中的每一帧图像信息进行裁剪处理。

203、将裁剪处理后的每一帧图像信息叠加输入到预先训练好的手势识别模型中进行识别，获取当前用户的手势类别，其中，所述手势类别对应有手势语义，所述手势识别模型是基于堆叠帧计算的深度学习网络模型。

通过上述三个步骤，广告机可以获取到当前用户的手势类别。

204、根据所述当前用户的手势类别，获取所述当前用户的手势类别对应的交互指令。

当前用户的手势类别可以用于当前用户与广告机之间进行人机交互，当前用户的手势类别可以理解为当前用户与广告机进行人机交互时的输入指令。可以理解的是，在当前用户与广告机进行人机交互的过程中，当前用户用于根据与广告机进行人机交互的需要，当前用户对应的手势类别可以是多个，当前用户对应的多个手势类别可以被设置在广告机上的2D摄像头采集到，当前用户的手势类别不同，广告机根据手势类别获取到的交互指令也就不同，以适应于广告机所在应用场景的需要。广告机根据获取到当前用户的手势类别后，可以获取到与当前用户手势类别对应的交互指令，交互指令可以理解为广告机根据当前用户手势类别执行响应的执行指令。

205、执行所述当前用户的手势类别对应的交互指令。

通过执行与用户手势类别对应的交互指令，可以实现广告机与用户之间的人机交互，一般情况下，广告机与用户之间的人机交互方式可以是做游戏，用户的手势类别可以理解为用户对游戏进行操作的输入指令，广告机执行对应于当前用户手势类别的交互指令可以理解为广告机根据用户的输入信息响应游戏画面动作展示的执行指令。例如，广告机与用户进行人机交互时，所做的游戏内容为一款跑酷类游戏，广告机需要根据用户手势类别获取对该款跑酷类游戏在广告机显示屏上的虚拟人物进行方向控制的执行指令，比如，当广告机获取到用户的手势类别为向上滑动的手势类别后，获取到的交互指令可以为控制该虚拟人物向上跳跃的游戏动作画面的执行指令；当广告机获取到用户的手势类别为向左滑动的手势类别后，获取到的交互指令可以为控制该虚拟人物向左跳跃的游戏动作画面的执行指令。在其他情况下，广告机与用户之间的人机交互方式可以不是做游戏，广告机与用户之间的人机交互方式还可以是为用户提供购物的购物指南。例如，广告机与用户进行人机交互时，广告机的显示屏上显示了电视机的购物指南给用户，若此时与广告机交互的当前用户不需要广告机显示面板上提供的购物指南，该当前用户是想要购买一部最新款的手机，此时该当前用户就可以将手势多次向上滑动，广告机识别到该当前用户多次向上滑动的手势类别，交互指令就多次执行以切换广告机的显示屏上的购物指南界面，直到获取到手机购物指南界面为止。

上述的广告机与用户之间的交互方式为做游戏时，游戏的内容可以是多元化的，广告机通过识别用户的手势信息就可以获取到相应的交互指令，根据用户的手势类别广告机响应用户对游戏进行操作的过程，实现广告机与用户之间的人机交互；对于广告机与用户之间的交互方式为其他方式时，比如可以是提供购物指南、提供商场购物路线等方式，广告机与用户交互的方式内容不做限定，可由本领域的技术人员根据广告机应用场景的需要进行调整与设定。

优选的，本发明实施例中，所述获取所述当前用户的手势类别对应的交互指令，包括：根据所述手势类别，获取所述手势类别对应的所述手势语义；根据所述手势语义，确定所述交互指令。

通过手势识别模型可以识别出用户的手势类别，识别到的用户的手势类别中包括了用户的手势语义，用户不同的手势类别中包括的手势语义不一样，当广告机在与用户进行人机交互时，需要根据用户不同的手势类别中对应的手势语义来确定用于人机交互的交互指令。例如，广告机中的与用户A进行人机识别时，广告机中的手势识别模型第一次对用户A进行手势识别时，识别后获取到用户A的手势类别为向上滑动的手势类别，向上滑动对应的手势语义可以是用户A想要查看广告机显示屏上下个页面的内容；广告机中的手势识别模型第二次对用户A进行手势识别时，识别后获取到用户A的手势类别为向下滑动的手势类别，向下滑动对应的手势语义可以是用户A想要查看广告机显示屏上上个页面的内容。

另外，用户的手势信息中手势语义还与广告机与用户的交互方式对应的交互内容有关，用户同一个手势信息对应的手势语义可以是不同的。例如，当用户与广告机进行人机交互时，若人机交互方式是玩游戏，对于广告机而言，广告机中可以有多个用于进行人机交互的游戏，对于不同的游戏之间，若通过广告机中的手势识别模型对用户进行手势识别，识别后获取到用户在进行游戏A时，用户的手势信息中包括向上滑动的手势类别，对应游戏A该用户手势信息中向上滑动的手势语义可以是控制广告机显示屏上虚拟游戏角色向上跳跃；若通过广告机中的手势识别模型对用户进行手势识别，识别后获取到用户在进行游戏B时，用户的手势信息中包括向上滑动的手势类别，对应游戏B该用户手势信息中向上滑动的手势语义可以是控制广告机显示屏上虚拟游戏角色向前加速；若人机交互方式是为用户提供购物指南时，通过广告机中的手势识别模型对用户进行手势识别，识别后获取到用户的手势信息中包括向上滑动的手势类别，对应的该用户手势信息中向上滑动的手势语义可以是想要查看广告机显示屏上下个页面的内容。

在本发明实施例中，通过图5提供的一种基于手势识别的广告机交互方法，该基于手势识别的广告机交互方法中使用的手势识别可以是图1实施例的手势识别方法，广告机通过图1实施例的手势识别方法对用户的手势类别进行识别，可以根据识别到的用户手势类别获取并执行对应于用户手势类别的交互指令，完成广告机与用户之间的人机交互，可以丰富广告机与用户之间的交互内容，有利于提高用户对广告机交互内容的关注度。

请参见图6，图6是本发明实施例提供的一种广告机的手势识别装置的结构示意图，如图6所示，所述手势识别装置500包括：

采集模块501，用于通过设置在广告机上的2D摄像头采集当前用户连续的多帧图像信息；

裁剪模块502，用于对所述多帧图像信息中的每一帧图像信息进行裁剪处理；

识别模块503，用于将裁剪处理后的每一帧图像信息叠加输入到预先训练好的手势识别模型中进行识别，获取当前用户的手势类别，其中，所述手势类别对应有手势语义，所述手势识别模型是基于堆叠帧计算的深度学习网络模型。

可选的，识别模块503用于将所述裁剪处理后的每一帧图像以时间的维度叠加起来输入到手势识别模型中。

可选的，识别模块503还用于根据所述手势识别模型中的3D卷积神经网络算法，获取所述图像信息对应的多组手势类别的多组置信度，其中，所述置信度用于表示手势识别模型对所述图像信息识别的可信度。

可选的，请参见图7，图7是本发明实施例提供的另一种广告机的手势识别装置的结构示意图，如图7所示，所述识别模块503包括：

比对子模块5031，用于通过对所述多组置信度进行比对，获取所述多组置信度的比对结果；

确定子模块5032，用于根据所述比对结果，获取所述多组手势类别中置信度为最大的一组手势类别，并将所述置信度为最大的一组手势类别确定为当前用户的手势类别。

请参见图8，图8是本发明实施例提供的一种基于手势识别的广告机交互装置的结构示意图，如图8所示，所述手势识别装置800包括：

识别模块503，用于将裁剪处理后的每一帧图像信息叠加输入到预先训练好的手势识别模型中进行识别，获取当前用户的手势类别，其中，所述手势类别对应有手势语义，所述手势识别模型是基于堆叠帧计算的深度学习网络模型；

处理模块504，用于根据所述当前用户的手势类别，获取所述当前用户的手势类别对应的交互指令；

执行模块505，用于执行所述当前用户的手势类别对应的交互指令。

可选的，请参见图9，图9是本发明实施例提供的另一种基于手势识别的广告机交互装置的结构示意图，如图9所示，所述处理模块504包括：

第一获取子模块5041，用于根据所述手势类别，获取所述手势类别对应的所述手势语义；

第二获取子模块5042，用于根据所述手势语义，确定所述交互指令。

本发明实施例提供的社区管理装置能够实现图1和图3的方法实施例中的各个实施方式，以及相应有益效果，为避免重复，这里不再赘述。

请参见图10，图10是本发明实施例提供的一种电子设备的结构示意图，如图10所示，所述电子设备1000包括：存储器1001、处理器1002及存储在所述存储器1001上并可在所述处理器1002上运行的计算机程序，其中：

处理器1002用于调用存储器1001存储的计算机程序，执行如下步骤：

对所述多帧图像信息中的每一帧图像信息进行裁剪处理；

可选的，所述将裁剪处理后的每一帧图像信息叠加输入到预先训练好的手势识别模型中进行识别，包括：将所述裁剪处理后的每一帧图像以时间的维度叠加起来输入到手势识别模型中。

可选的，所述手势识别模型中包括多组手势类别，所述将裁剪处理后的每一帧图像信息叠加输入到预先训练好的手势识别模型中进行识别，还包括：根据所述手势识别模型中的3D卷积神经网络算法，获取所述图像信息对应的多组手势类别的多组置信度，其中，所述置信度用于表示手势识别模型对所述图像信息识别的可信度。

可选的，所述获取当前用户的手势类别，包括：通过对所述多组置信度进行比对，获取所述多组置信度的比对结果；根据所述比对结果，获取所述多组手势类别中置信度为最大的一组手势类别，并将所述置信度为最大的一组手势类别确定为当前用户的手势类别。

本发明实施例提供的电子设备能够实现图1和图5的方法实施例中的各个实施方式，以及相应有益效果，为避免重复，这里不再赘述。

本发明实施例还提供一种计算机可读存储介质，计算机可读存储介质上存储有计算机程序，该计算机程序被处理器执行时实现本发明实施例提供的广告机的手势识别方法实施例的各个过程，且能达到相同的技术效果，为避免重复，这里不再赘述。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，计算机程序可存储于一计算机可读取存储介质中，计算机程序在执行时，可包括如上述各方法的实施例的流程。其中，存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory，ROM)或随机存取存储器(RandomAccessMemory，简称RAM)等。

以上所揭露的仅为本发明较佳实施例而已，当然不能以此来限定本发明之权利范围，因此依本发明权利要求所作的等同变化，仍属本发明所涵盖的范围。

Claims

1.一种广告机的手势识别方法，其特征在于，所述方法包括：

对所述多帧图像信息中的每一帧图像信息进行裁剪处理；

2.如权利要求1所述的识别方法，其特征在于，所述将裁剪处理后的每一帧图像信息叠加输入到预先训练好的手势识别模型中进行识别，包括：

3.如权利要求2所述的识别方法，其特征在于，所述手势识别模型中包括多组手势类别，所述将所述裁剪处理后的每一帧图像信息叠加输入到预先训练好的手势识别模型中进行识别，还包括：

4.如权利要求3所述的识别方法，其特征在于，所述获取当前用户的手势类别，包括：

5.一种基于手势识别的广告机交互方法，所述交互方法用于广告机与用户之间的交互演示，其特征在于，所述方法包括：

对所述多帧图像信息中的每一帧图像信息进行裁剪处理；

执行所述当前用户的手势类别对应的交互指令。

6.如权利要求5所述的交互方法，其特征在于，所述获取所述当前用户的手势类别对应的交互指令，包括：

根据所述手势语义，确定所述交互指令。

7.一种广告机的手势识别装置，其特征在于，包括：

8.一种基于手势识别的广告机交互装置，其特征在于，包括：

9.一种电子设备，其特征在于，包括：存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现如权利要求1至4中任一项所述广告机的手势识别方法中的步骤。

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器执行时实现如权利要求1至4中任一项所述广告机的手势识别方法中的步骤。