CN111860082A

CN111860082A - 信息处理方法、装置以及系统

Info

Publication number: CN111860082A
Application number: CN201910365276.2A
Authority: CN
Inventors: 谢宏伟; 邵柏韬; 王加芳; 杨显涛; 古鉴; 李名杨
Original assignee: Alibaba Group Holding Ltd
Current assignee: Alibaba Group Holding Ltd
Priority date: 2019-04-30
Filing date: 2019-04-30
Publication date: 2020-10-30

Abstract

本申请公开了一种信息处理方法、装置以及系统。其中，该方法包括：检测目标图像中的目标区域，其中，目标图像为多帧连续图像中的至少两帧，目标区域内包含了目标图像中手部的手势信息；从目标区域中，识别手势信息中的至少一个手部特征信息；基于多帧连续图像信息中手势信息的手部特征信息，识别手部所表征的动作。本申请解决了现有技术中进行手势识别时将整个图像信息输入至神经网络模型进行运算，导致运算复杂程度高的技术问题。

Description

信息处理方法、装置以及系统

技术领域

本申请涉及智能交互领域，具体而言，涉及一种信息处理方法、装置以及系统。

背景技术

手势是人们日常交流和团队协作中经常使用的信息表达方式，例如，朋友间的挥手打招呼、比心点赞，以及乐团指挥、交警指令、军事演戏等场合中所使用到的手势。随着物联网技术的快速发展，人们也可以通过手势来对物联网(Internet of Things，简称IoT)设备进行控制。

目前，主要是通过图像识别技术，对包含手势的图像或视频进行识别，检测并实时反馈图像或视频中手部的位置和/或手势的含义。然而，现有的手势识别系统通常仅能进行单个手型的静态手势识别，无法进行动态手势(例如，挥手、抓取)识别。另外，现有的手势识别系统在对手势进行识别的过程中，通常是将包含手势的整个图像信息输入至神经网络模型，由神经网络模型对该图像信息进行识别。由于整个图像信息包含的信息量较大，因此，神经网络模型对整个图像信息进行运算的运算复杂程度较高，图像识别速度慢，识别率也比较低。

针对上述的问题，目前尚未提出有效的解决方案。

发明内容

本申请实施例提供了一种信息处理方法、装置以及系统，以至少解决现有技术中进行手势识别时将整个图像信息输入至神经网络模型进行运算，导致运算复杂程度高的技术问题。

根据本申请实施例的一个方面，提供了一种信息处理方法，包括：检测目标图像中的目标区域，其中，目标图像为多帧连续图像中的至少两帧，目标区域内包含了目标图像中手部的手势信息；从目标区域中，识别手势信息中的至少一个手部特征信息；基于多帧连续图像信息中手势信息的手部特征信息，识别手部所表征的动作。

根据本申请实施例的另一方面，还提供了一种信息处理方法，包括：显示目标图像中的目标区域，其中，目标图像为多帧连续图像中的至少两帧，目标区域内包含了目标图像中手部的手势信息；显示手部所表征的动作，其中，从目标区域中，识别手势信息中的至少一个手部特征信息，并基于多帧连续图像信息中手势信息的手部特征信息，识别手部所表征的动作。

根据本申请实施例的另一方面，还提供了一种信息处理方法，包括：检测目标图像中的目标区域，其中，目标图像为多帧连续图像中的至少两帧，目标区域内包含了目标图像中手部的手势信息；从目标区域中，识别手势信息中的至少一个关键点信息，其中，关键点信息用于表示手部中，预设部位的位置信息；根据至少一个关键点信息，确定手部的轨迹信息；基于手部的轨迹信息，识别手部所表征的动作。

根据本申请实施例的另一方面，还提供了一种信息处理装置，包括：检测模块，用于检测目标图像中的目标区域，其中，目标图像为多帧连续图像中的至少两帧，目标区域内包含了目标图像中手部的手势信息；第一识别模块，用于从目标区域中，识别手势信息中的至少一个手部特征信息；第二识别模块，用于基于多帧连续图像信息中手势信息的手部特征信息，识别手部所表征的动作。

根据本申请实施例的另一方面，还提供了一种存储介质，该存储介质包括存储的程序，其中，在程序运行时控制存储介质所在设备执行如下步骤：检测目标图像中的目标区域，其中，所述目标图像为多帧连续图像中的至少两帧，所述目标区域内包含了所述目标图像中手部的信息；从所述目标区域中，识别所述信息中的至少一个手部特征信息；基于多帧连续图像信息中所述信息的手部特征信息，识别所述手部所表征的动作。

根据本申请实施例的另一方面，还提供了一种处理器，该处理器用于运行程序，其中，程序运行时执行如下步骤：检测目标图像中的目标区域，其中，所述目标图像为多帧连续图像中的至少两帧，所述目标区域内包含了所述目标图像中手部的信息；从所述目标区域中，识别所述信息中的至少一个手部特征信息；基于多帧连续图像信息中所述信息的手部特征信息，识别所述手部所表征的动作。

根据本申请实施例的另一方面，还提供了一种信息处理系统，包括：处理器；以及存储器，与处理器连接，用于为处理器提供处理以下处理步骤的指令：检测目标图像中的目标区域，其中，目标图像为多帧连续图像中的至少两帧，目标区域内包含了目标图像中手部的手势信息；从目标区域中，识别手势信息中的至少一个手部特征信息；基于多帧连续图像信息中手势信息的手部特征信息，识别手部所表征的动作。

在本申请实施例中，采用对多帧连续图像信息中的手部特征信息进行的方式，通过对多帧连续图像中的至少两帧图像中的目标区域进行检测，并从目标区域中识别出目标区域所包含的手势信息中的至少一个手部特征信息，最后根据多帧连续图像信息中手势信息的手部特征信息来识别手部所表征的动作。容易注意到的是，在本申请中，识别的是多帧连续图像信息中的手部特征信息，由于识别的是多帧连续图像信息，而手部所表征的动作也是连续的，因此，本申请可以实现对手部所表征的动作的有效识别。另外，本申请是对手部特征信息进行识别得到手部所表征的动作，即本申请是将手部特征信息，而不是整个图像信息，作为神经网络模型的输入，由于整个图像信息中存在的无用信息较多，而手部特征信息中存在的无用信息较少，因此，将手部特征信息作为神经网络模型的输入可以降低神经网络模型的运算复杂度，使算法更加简洁，处理速度更快，进一步提高了手势动作识别的识别率。

由此可见，本申请所提供的上述方案达到了识别手部所表征的动作的目的，从而实现了降低手势识别的运算复杂度，提高手势动作的识别率的技术效果，进而解决了现有技术中进行手势识别时将整个图像信息输入至神经网络模型进行运算，导致运算复杂程度高的技术问题。

附图说明

此处所说明的附图用来提供对本申请的进一步理解，构成本申请的一部分，本申请的示意性实施例及其说明用于解释本申请，并不构成对本申请的不当限定。在附图中：

图1是根据本申请实施例的一种可选的计算机终端(或移动设备)的硬件结构框图；

图2是根据本申请实施例的一种信息处理方法的流程图；

图3是根据本申请实施例的一种可选的目标区域检测的示意图；

图4是根据本申请实施例的一种可选的手部的关键点信息的示意图；

图5是根据本申请实施例的一种可选的识别手部动作的示意图；

图6是根据本申请实施例的一种可选的手势识别模型的示意图；

图7是根据本申请实施例的一种可选的信息处理方法的流程图；

图8是根据本申请实施例的一种可选的信息处理方法的流程图；

图9是根据本申请实施例的一种信息处理方法的流程图；

图10是根据本申请实施例的一种信息处理方法的流程图；

图11是根据本申请实施例的一种信息处理装置的示意图；以及

图12是根据本申请实施例的一种计算机终端的结构框图。

具体实施方式

为了使本技术领域的人员更好地理解本申请方案，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分的实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都应当属于本申请保护的范围。

需要说明的是，本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本申请的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

首先，在对本申请实施例进行描述的过程中出现的部分名词或术语适用于如下解释：

循环神经网络，是神经网络的一种，用于描述动态时间行为，循环神经网络将状态在自身网络中循环传递，因此可以接受更广泛的时间序列结构输入

手势识别，基于视觉的手势识别按照手势的动态特点可以分为静态手势识别与动态手势识别，其中，静态手势识别指针对单个手型的手势识别，例如，握拳；动态手势识别，针对整个图像序列的手势识别，通常指对从手抬起到完成手部动作的整个过程所产生的图像序列的识别，例如，挥手动态手势、抓取动态手势。

实施例1

根据本申请实施例，还提供了一种信息处理方法的实施例，需要说明的是，在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行，并且，虽然在流程图中示出了逻辑顺序，但是在某些情况下，可以以不同于此处的顺序执行所示出或描述的步骤。

本申请实施例一所提供的方法实施例可以在移动终端、计算机终端或者类似的运算装置中执行。图1示出了一种用于实现信息处理方法的计算机终端(或移动设备)的硬件结构框图。如图1所示，计算机终端10(或移动设备10)可以包括一个或多个(图中采用102a、102b，……，102n来示出)处理器102(处理器102可以包括但不限于微处理器MCU或可编程逻辑器件FPGA等的处理装置)、用于存储数据的存储器104、以及用于通信功能的传输装置106。除此以外，还可以包括：显示器、输入/输出接口(I/O接口)、通用串行总线(USB)端口(可以作为I/O接口的端口中的一个端口被包括)、网络接口、电源和/或相机。本领域普通技术人员可以理解，图1所示的结构仅为示意，其并不对上述电子装置的结构造成限定。例如，计算机终端10还可包括比图1中所示更多或者更少的组件，或者具有与图1所示不同的配置。

应当注意到的是上述一个或多个处理器102和/或其他数据处理电路在本文中通常可以被称为“数据处理电路”。该数据处理电路可以全部或部分的体现为软件、硬件、固件或其他任意组合。此外，数据处理电路可为单个独立的处理模块，或全部或部分的结合到计算机终端10(或移动设备)中的其他元件中的任意一个内。如本申请实施例中所涉及到的，该数据处理电路作为一种处理器控制(例如与接口连接的可变电阻终端路径的选择)。

存储器104可用于存储应用软件的软件程序以及模块，如本申请实施例中的信息处理方法对应的程序指令/数据存储装置，处理器102通过运行存储在存储器104内的软件程序以及模块，从而执行各种功能应用以及数据处理，即实现上述的信息处理方法。存储器104可包括高速随机存储器，还可包括非易失性存储器，如一个或者多个磁性存储装置、闪存、或者其他非易失性固态存储器。在一些实例中，存储器104可进一步包括相对于处理器102远程设置的存储器，这些远程存储器可以通过网络连接至计算机终端10。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

传输装置106用于经由一个网络接收或者发送数据。上述的网络具体实例可包括计算机终端10的通信供应商提供的无线网络。在一个实例中，传输装置106包括一个网络适配器(Network Interface Controller，NIC)，其可通过基站与其他网络设备相连从而可与互联网进行通讯。在一个实例中，传输装置106可以为射频(Radio Frequency，RF)模块，其用于通过无线方式与互联网进行通讯。

显示器可以例如触摸屏式的液晶显示器(LCD)，该液晶显示器可使得用户能够与计算机终端10(或移动设备)的用户界面进行交互。

此处需要说明的是，在一些可选实施例中，上述图1所示的计算机设备(或移动设备)可以包括硬件元件(包括电路)、软件元件(包括存储在计算机可读介质上的计算机代码)、或硬件元件和软件元件两者的结合。应当指出的是，图1仅为特定具体实例的一个实例，并且旨在示出可存在于上述计算机设备(或移动设备)中的部件的类型。

在上述运行环境下，本申请提供了如图2所示的信息处理方法。图2是根据本申请实施例一的信息处理方法的流程图，由图2可知，该方法包括如下步骤：

步骤S202，检测目标图像中的目标区域，其中，目标图像为多帧连续图像中的至少两帧，目标区域内包含了目标图像中手部的手势信息。

在上述步骤S202中，目标图像可以通过采集设备进行采集，其中，采集设备可以为但不限于摄像头，摄像头包括但不限于红外摄像头、普通摄像头(例如，RGB摄像头)、深度摄像头。另外，目标图像中手部的手势信息包括至少一个手部特征信息。

在一种可选的实施例中，包含采集设备的智能设备能够检测目标图像，并对目标图像中的手势进行识别。可选的，上述智能设备为物联网设备。具体的，物联网设备通过采集设备实时获取物联网设备能够监测的监测区域内的图像数据或者视频数据，例如，物联网设备为智能音箱，则智能音箱通过摄像头获取智能音箱前方2米(即上述监测区域)内的图像，并监测上述的监测区域内是否存在手部(例如，人)。在监测到监测区域内存在手部的情况下，获取摄像头采集到的图像数据或者视频数据，并从图像数据或视频数据中提取到手部所在的目标区域，如在图3所示的示意图中，手部所在的目标区域通过虚线框进行标注。

需要说明的是，目标图像中包含的信息较多，其中包括无用的信息，例如，图3中的目标图像中包含有人、桌子等背景信息，这些无用的信息增加了图像识别的运算复杂度，而通过上述步骤S202可以从目标图像中提取出有用的包含手部的手势信息的目标区域，进而仅对目标区域进行识别，可以降低图像识别的运算复杂度，避免无用信息对识别结果的干扰，进而提高了图像识别的准确度。

步骤S204，从目标区域中，识别手势信息中的至少一个手部特征信息。

在步骤S204中，手部特征信息包括关键点信息，其中，关键点信息用于表示手部中，预设部位的位置信息，预设部位的位置信息可以为手部关节的关节位置，还可以为其他预设的手部的位置信息，例如，掌心位置、指尖位置，如图4所示的手部的关键点信息的示意图，如图4所示，关键点4、8、12、16和20表示指尖位置，关键点21表示掌心位置，其余的关键点表示关键位置。

可选的，在本申请中可采用通过样本训练得到的手势识别模型来从目标区域中识别得到手部特征信息，其中，手势识别模型可以为卷积神经网络模型，例如，3D-CNN网络模型。在检测到目标图像中的目标区域之后，智能设备将目标图像输入至手势识别模型，手势识别模型可从该目标图像中的目标区域中提取出手部特征信息，并输出手部特征信息。

步骤S206，基于多帧连续图像信息中手势信息的手部特征信息，识别手部所表征的动作。

需要说明的是，通过步骤S204可以得到每一帧图像中的手部特征信息，为能够识别手部所表征的动作，智能设备需要对多帧连续图像信息中的手部特征信息进行识别，并根据多帧连续图像信息中的手部特征信息得到手部所表征的动作。其中，多帧连续图像信息所对应的帧数可以为预设值，例如，30帧。

可选的，智能设备可以获取每帧图像所对应的时间信息，并在对图像进行识别得到手部特征信息之后，按照时间顺序对得到的多帧连续图像信息中的手部特征信息进行识别，从而达到图像中的手部所表征的动作，例如，第一帧图像中检测到手部的食指的指尖位于位置A处，第二帧图像中检测到手部的食指的指尖位于位置B处，第三帧图像中检测到手部的食指的指尖位于位置C处，其中，位置A在位置B的左侧，位置B在位置C的左侧，第一帧图像、第二帧图像和第三帧图像为连续的三帧图像，第一帧图像对应的时间早于第二帧图像对应的时间，第二帧图像对应的时间早于第三帧图像对应的时间，则智能设备通过对上述连续的三帧图像进行识别，可确定手部所表征的动作为向左侧滑动。

通过步骤S206对多帧连续图像信息进行识别，可以得到手部所表征的动作，从而实现了对动态手势的识别。

基于上述步骤S202至步骤S206所限定的方案，可以获知，采用对多帧连续图像信息中的手部特征信息进行的方式，通过对多帧连续图像中的至少两帧图像中的目标区域进行检测，并从目标区域中识别出目标区域所包含的手势信息中的至少一个手部特征信息，最后根据多帧连续图像信息中手势信息的手部特征信息来识别手部所表征的动作。

容易注意到的是，在本申请中，识别的是多帧连续图像信息中的手部特征信息，即多帧连续图像中的至少两帧图像，由于识别的是多帧连续图像信息，而手部所表征的动作也是连续的，因此，本申请可以实现对手部所表征的动作的有效识别。另外，本申请是对手部特征信息进行识别得到手部所表征的动作，即本申请是将手部特征信息，而不是整个图像信息或整个手部图像信息，作为神经网络模型的输入，由于整个图像信息或整个手部图像信息中存在的无用信息较多，而手部特征信息中存在的无用信息较少，因此，将手部特征信息作为神经网络模型的输入可以降低神经网络模型的运算复杂度，使算法更加简洁，处理速度更快，进一步提高了手势动作识别的识别率。

在一种可选的实施例中，在检测目标图像中的目标区域在前，需要获取目标图像。具体的，智能设备首先获取视频数据流，然后从视频数据流中提取包括至少一个手势的多帧连续图像。其中，智能设备可从采集设备中获取视频流数据，例如，智能设备为具有摄像头的智能手机，摄像头实时采集视频流数据。可选的，在智能设备满足预设条件时，控制摄像头开启，并采集视频流数据，其中，预设条件可以为智能设备是否处于唤醒状态和/或安装在智能设备中的客户端是否处于运行状态，例如，在检测到智能设备处于唤醒状态(例如，检测智能设备的显示屏是否点亮)之后，智能设备控制摄像头开启，并采集视频流数据。又例如，在检测到智能设备处于唤醒状态之后，智能设备进一步地检测安装在智能设备中的预设客户端是否处于运行状态，其中，预设客户端为能够通过手势控制的客户端；在检测到预设客户端处于运行状态的情况下，再控制摄像头开启，并采集视频流数据。

需要说明的是，在检测到智能设备满足预设条件之后，才控制摄像头开启，并采集视频流数据，可以避免摄像头一直处于开启状态，占用智能设备的系统内存的问题。

进一步地，在得到目标图像之后，智能设备通过图像识别模型来检测目标图像中的目标区域。具体的，智能设备将目标图像输入至图像识别模型，然后接收图像识别模型输出的识别结果，根据所述识别结果确定用于在所述图像信息中标识出所述手部的标识图形，其中，图像识别模型用于识别出图像信息中的目标区域，所述识别结果包括识别出的所述手部的中心点坐标以及所述手部的大小参数。

具体的，上述标识图像可以是矩形，也可以是圆形等图像，如果标识图像为矩形，则手部的大小参数可以为矩形的高度参数和宽度参数，如果标识图像为圆形，则手部的大小参数可以为半径参数。

上述图像识别模型可以是Faster RCNN模型，SSB(Star Schema Benchmark，星型)模型，或Yolo(you only look once)模型等。这些模型均能够根据输入的目标图像，输出目标图像中，手部的中心点坐标和手部的宽度参数以及手部的高度参数，进而根据这些模型输出的参数，得到将手部包含在内的标识图形。其中，Faster RCNN模型的准确度较高，但运算速度较慢，而SSB模型和Yolo模型则具有较快的运算速度，但准确度较低。

可选的，图5示出了一种可选的识别手部动作的示意图，在图5中，每一帧图像为RGB图像，如图5中的RGB Frame_0表示第一帧图像，RGB Frame_1表示第二帧图像。智能设备将每帧图像，RGB Frame_N表示第N+1帧图像。智能设备将每帧图像分别输入至图像识别模型(如图5中的Hand Detection)中，图像识别模型识别出每帧图像中手部的位置，并输出每帧图像所包含手部的位置，即得到识别结果，如图3中，对检测到的手部用虚线框进行标注。

在一种可选的实施例中，智能设备的采集设备为深度摄像头，其采集到的目标图像为深度图，此时，图像识别模型根据颜色和图像对深度图进行分割处理，例如，根据肤色信息来检测手部，然后结合深度信息得到手掌区域。另外，图像识别模型还可使用卷积神经网络对深度图进行目标检测，得到手部对应的目标区域。

需要说明的是，在图5中，每帧图像可以包括多个手部，不同的手部采用不同的虚线框进行标注，例如，图5中的Hand_0、Hand_1、Hand_M表示同一帧图像中的不同手部。

此外，还需要说明的是，图像识别模型在检测目标图像中的目标区域的过程中，可能会将不包含手部的区域误判为目标区域，从而降低了手势动作的识别率。为提高手势动作的识别率，在接收图像识别模型输出的识别结果之后，智能设备还对图像识别模型输出的识别结果进行过滤，得到误识别的目标区域，并清除误识别的目标区域。其中，误识别的目标区域不包括手部。

可选的，智能设备可以通过神经网络来对识别结果进行过滤。如图5所示，在得到每帧图像所对应的多个识别结果之后，将每个识别结果分别输入多任务的卷积神经网络(Convolutional Neural Networks，简称CNN)中，如图5中，将识别结果Hand_0、Hand_1、Hand_M分别输入至对应的CNN网络中。每个CNN网络分别确定接收到的识别结果所对应的分值，该分值表征目标区域包含手部的概率，可选的，分值越高，该目标区域包含手部的概率越大。进一步地，如图5所示，滤波器Filter可接收到每个CNN网络确定的对应的识别结果的分值，并滤除分值低于预设分值的识别结果。其中，预设分值可以为预先设定的数值，还可以为根据每个CNN网络所得到的分值进行运算(例如，求平均值，或者加权求和)所得到的数值。

进一步地，在确定了目标图像的目标区域之后，智能设备从目标区域中，识别手势信息中的至少一个手部特征信息。

具体的，智能设备基于目标图像，通过手势识别模型获取手部的关键点信息，手势识别模型通过样本数据训练得到，样本数据包括样本图像和在样本图像中的关键点信息。其中，目标图像包括手部的深度信息，手势识别模型通过深度信息进行回归处理，得到手部的关键点信息。通过该方式获取手部特征信息，使得动态手势的识别无需依赖红外或深度摄像头，使用普通的摄像头即可实现。

可选的，智能设备的采集设备为红外摄像头，红外摄像头采集目标图像，并在对采集到的目标图像进行目标区域的识别之后，通过手势识别模型对深度信息进行识别。其中，图6示出了手势识别模型的示意图，手势识别模型对包含目标区域的目标图像进行多次分割操作，得到目标区域对应的深度信息，然后通过回归算法对深度信息进行回归处理，得到手部的关键点信息。

需要说明的是，通过在深度图上进行关键点回归，使得到的关键点信息更加精确，并且，对深度信息进行回归处理的方案比较简单，进一步降低了手势识别的运算复杂度。

更进一步地，在识别得到手势信息中的至少一个手部特征信息之后，智能设备基于多帧连续图像信息中手势信息的手部特征信息，识别手部所表征的动作。具体的，智能设备首先获取关键点信息构成的关键点序列，然后根据至少一个关键点序列确定手部的轨迹信息，最后根据手部的轨迹信息确定手部所表征的动作。例如，在完成抓握手势的过程中，存在N帧图像，则根据每帧图像对应的关键点信息，按照时间顺序进行排序，可得到N帧图像所对应关键点序列，根据N帧图像的关键点序列所对应的手势即可得到手部所表征的动作，例如，第一帧图像中，食指与拇指对应的两个关键点之间的距离为L1；第二帧图像中，食指与拇指对应的两个关键点之间的距离为L2；第三帧图像中，食指与拇指对应的两个关键点之间的距离为L3；第N帧图像中，食指与拇指对应的两个关键点之间的距离为0。L1、L2、L3、LN的数值依次减小，则根据多帧连续图像中每帧图像中的关键点即可确定手部的动作。

需要说明的是，手部的轨迹信息可以为任意一个或多个关键点信息对应的轨迹，例如，上述实施例中所提到的食指与拇指对应的两个关键点的轨迹；手部的轨迹信息还可以为目标区域的矩形的对象两个点的轨迹，例如，图3中的虚线框L的两个对角顶点A1和A2的移动轨迹。

在另一种可选的实施例中，目标图像中包括多个手势。此时，在识别得到手势信息中的至少一个手部特征信息之后，智能设备首先获取关键点信息构成的关键点序列，然后再确定多帧连续图像中包括同一个手部的目标区域，并根据同一个手部的目标区域内的关键点序列分别确定每个手部的轨迹信息，最后根据每个手部的轨迹信息确定每个手部所表征的动作。

可选的，在图5中，存在N帧连续的图像，每帧图像中包括M个手部，在通过过滤器对多个识别结果进行过滤，得到多个目标区域之后，轨迹管理模块(即图5中的TraceManager)对每帧图像中所包含的多个手部进行区分，以确定多帧连续图像中是否包括同一个手部的目标区域。在确定了多帧连续图像中包含同一个手部的目标区域之后，轨迹管理模块根据具有相同手部的多帧连续图像的目标区域的关键点信息得到该手部对应的轨迹信息，并根据轨迹信息确定该手部的动作，例如，第一帧图像和第二帧图像中包含第一手部，则根据第一帧图像和第二帧图像的第一手部的关键点信息，得到第一手部的轨迹信息，并根据轨迹信息确定第一手部的动作。如在图5中得到了t个手部对应的轨迹信息(如图5中的Trace_0、Trace_1、Trace_t)，以及每个轨迹信息对应的动作(通过特征识别器GestureRecognizer识别得到)。

其中，轨迹管理模块可根据多帧连续图像信息中手部的类型信息和/或手部所在的目标区域来确定多帧连续图像中包括同一个手部的目标区域，其中，手部的类型信息通过手势识别模型获得。例如，轨迹管理模块比对相邻两帧图像中的手部的类型信息和/或手部所在的目标区域，得到匹配度，根据匹配度与预设匹配度的大小来确定相邻两帧图像中是否包括同一个手部的目标区域。

在一种可选的实施例中，轨迹管理模块检测到第一帧图像中的第一手部为握拳状态，则轨迹管理模块从第二帧图像(第一帧图像和第二帧图像相邻)中检测握拳状态的手部，或者与握拳状态的手部相似度较高的手部，该手部即为与第一帧图像中的第一手部属于相同的手部。

在另一种可选的实施例中，轨迹管理模块检测到第一帧图像中的第二手部的位置信息为L1，然后轨迹管理模块从第二帧图像(第一帧图像和第二帧图像相邻)中检测位置信息为L1的第三手部，并检测第一手部和第三手部的相似度。如果两个手部的相似度大于预设相似度，则确定第二手部和第三手部为相同的手部。

需要说明的是，由于相邻两帧图像的时间间隔较多，手部在相邻两帧图像中的变化较小，因此，可通过比对相邻两帧图像中的手部的类型信息和/或手部所在的目标区域来确定相邻两帧图像中是否包括同一个手部的目标区域。

另外，上述手部的类型信息可以为预设的手部类型，例如，握拳、张开等手势类型，其中，手部的类型信息可由手势识别模型对目标图像进行处理得到。

可选的，图7示出了本申请所提供的信息处理方法的流程图，在图7中，图像为深度图像。由图7可知，首先通过卷积神经网络提取多帧连续图像中的每帧图像中的目标区域G(如图7中的G1、G2、Gn)，然后在使用卷积神经网络的关键点回归方法确定每帧图像中的目标区域对应的关键点信息，最后将关键点信息输入至循环神经网络(Recurrent NeuralNetworks，简称RNN)，由循环神经网络进行手势识别。

另外，图8示出了本申请所提供的信息处理方法的流程图，在图8中，卷积神经网络模型为3D-CNN网络模型。在图8中，输入卷积神经网络的输入数据为视频数据流，然后将视频数据流的多帧连续图像输入至3D-CNN网络模型中，得到空间时态特征(即手部特征信息)f_t，然后将空间时态特征f_t输入至循环神经网络中，通过前一帧图像对应的隐藏状态函数h_t-1进行卷积，并将卷积结果输入至softmax分类器中得到手部特征信息对应的手部动作的概率s_t，并计算损失函数CTC。损失函数最小时，所对应的输出概率即为该手部与手部动作相匹配的概率。

由本实施例所提供的上述内容可知，本申请是将手部特征信息输入至循环神经网络中进行动作识别，而不是对整个图像进行识别，因此，本申请所提供的方案可以降低图像识别对设备性能的要求。另外，本申请所提供的方案通过对多帧连续图像信息对应的手部特征信息进行识别，能够得到手部所表征的动作，从而实现了对动态手势的识别。

另一方面，本申请所提供的方案通过深度学习级联的思想，首先检测目标区域，然后再对检测到的目标区域进行过滤，实现了对手部快速准确的检测。另外，通过对手部的移动轨迹进行跟踪，解决了目标图像中存在多个手部时存在的干扰问题。

最后，本申请所提供的方案能够只基于普通摄像头，在低端嵌入式平台上进行实时的手势识别，与现有的通过红外摄像头或者深度摄像头的手势识别相比，降低了对智能设备的运算能力的要求。

需要说明的是，对于前述的各方法实施例，为了简单描述，故将其都表述为一系列的动作组合，但是本领域技术人员应该知悉，本申请并不受所描述的动作顺序的限制，因为依据本申请，某些步骤可以采用其他顺序或者同时进行。其次，本领域技术人员也应该知悉，说明书中所描述的实施例均属于优选实施例，所涉及的动作和模块并不一定是本申请所必须的。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到根据上述实施例的信息处理方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中，包括若干指令用以使得一台终端设备(可以是手机，计算机，服务器，或者网络设备等)执行本申请各个实施例所述的方法。

实施例2

根据本申请实施例，还提供了一种信息处理方法，如图9所示，该方法包括如下步骤：

步骤S902，显示目标图像中的目标区域，其中，目标图像为多帧连续图像中的至少两帧，目标区域内包含了目标图像中手部的手势信息。

需要说明的是，具有显示装置的智能设备可显示手部中的目标区域，其中，智能设备还具有采集设备，该采集设备可采集多帧连续图像。可选的，采集设备可以为但不限于摄像头，摄像头包括但不限于红外摄像头、普通摄像头(例如，RGB摄像头)、深度摄像头。

另外，在步骤S902中，目标图像中手部的手势信息包括至少一个手部特征信息，手部特征信息包括关键点信息，其中，关键点信息用于表示手部中，预设部位的位置信息，预设部位的位置信息可以为手部关节的关节位置，还可以为其他预设的手部的位置信息，例如，掌心位置、指尖位置。

在一种可选的实施例中，智能设备首先获取视频数据流，然后从视频数据流中提取包括至少一个手势的多帧连续图像。具体的，智能设备满足预设条件时，控制摄像头开启，并采集视频流数据，其中，预设条件可以为智能设备是否处于唤醒状态和/或安装在智能设备中的客户端是否处于运行状态。在得到目标图像之后，智能设备将目标图像输入至图像识别模型，然后接收图像识别模型输出的识别结果，并在显示屏上显示识别结果，如在图3，通过虚线框对目标区域进行标注。其中，图像识别模型用于识别出图像信息中的目标区域，识别结果包括用于在图像信息中标识出手部的标识图形。

需要说明的是，目标图像中包含的信息较多，包括无用的信息，通过上述步骤S902可以从目标图像中提取出有用的包含手部的手势信息的目标区域，进而仅对目标区域进行识别，可以降低图像识别的运算复杂度，避免无用信息对识别结果的干扰，进而提高了图像识别的准确度。

步骤S904，显示手部所表征的动作，其中，从目标区域中，识别手势信息中的至少一个手部特征信息，并基于多帧连续图像信息中手势信息的手部特征信息，识别手部所表征的动作。

可选的，在本申请中可采用通过样本训练得到的手势识别模型来从目标区域中识别得到手部特征信息，其中，手势识别模型可以为卷积神经网络模型，例如，3D-CNN网络模型。在检测到目标图像中的目标区域之后，智能设备将目标图像输入至手势识别模型，手势识别模型可从该目标图像中的目标区域中提取出手部特征信息，并输出手部特征信息。其中，手势识别模型可通过深度信息进行回归处理，得到手部的关键点信息。

进一步地，在得到手部的关键点信息之后，智能设备获取关键点信息构成的关键点序列，并根据至少一个关键点序列确定手部的轨迹信息，然后根据手部的轨迹信息确定手部所表征的动作。

可选的，在目标图像中包括多个手势的情况下，智能设备获取关键点信息构成的关键点序列，并确定多帧连续图像中包括同一个手部的目标区域，然后，根据同一个手部的目标区域内的关键点序列分别确定每个手部的轨迹信息，最后根据每个手部的轨迹信息确定每个手部所表征的动作。

在得到手部所表征的动作之后，智能设备的显示屏显示手部所表征的动作。进一步地，智能设备还能够响应手部所表征的动作对应的控制指令，从而实现人机交互。例如，智能设备通过识别用户的手部所表征的动作实现翻书、接听电话、切歌、调节音量等操作。另外，用户还可通过智能设备自定义手势来生成控制指令，例如，定义食指左右摆动表示关机操作。

基于上述步骤S902至步骤S904所限定的方案，可以获知，采用对多帧连续图像信息中的手部特征信息进行的方式，通过对多帧连续图像中的至少两帧图像中的目标区域进行检测，并从目标区域中识别出目标区域所包含的手势信息中的至少一个手部特征信息，最后根据多帧连续图像信息中手势信息的手部特征信息来识别手部所表征的动作。

容易注意到的是，在本申请中，识别的是多帧连续图像信息中的手部特征信息，由于识别的是多帧连续图像信息，而手部所表征的动作也是连续的，因此，本申请可以实现对手部所表征的动作的有效识别。另外，本申请是对手部特征信息进行识别得到手部所表征的动作，即本申请是将手部特征信息，而不是整个图像信息，作为神经网络模型的输入，由于整个图像信息中存在的无用信息较多，而手部特征信息中存在的无用信息较少，因此，将手部特征信息作为神经网络模型的输入可以降低神经网络模型的运算复杂度，使算法更加简洁，处理速度更快，进一步提高了手势动作识别的识别率。

实施例3

根据本申请实施例，还提供了一种信息处理方法，如图10所示，该方法包括如下步骤：

步骤S1002，检测目标图像中的目标区域，其中，目标图像为多帧连续图像中的至少两帧，目标区域内包含了目标图像中手部的手势信息。

在上述步骤S1002中，目标图像可以通过采集设备进行采集，其中，采集设备可以为但不限于摄像头，摄像头包括但不限于红外摄像头、普通摄像头(例如，RGB摄像头)、深度摄像头。

在一种可选的实施例中，以智能音箱为例，智能音箱包含图像采集装置。智能音箱通过图像采集装置采集目标图像，并对目标图像中的手势进行识别。可选的，智能音箱通过摄像头获取智能音箱前方2米内的图像，并检测监测区域内是否存在手部。在检测到存在手部的情况下，获取摄像头采集视频数据，并视频数据所包含的图像中提取到手部所在的目标区域，如在图3所示的示意图中，手部所在的目标区域通过虚线框进行标注。

需要说明的是，目标图像中包含的信息较多，包括无用的信息，这些无用的信息增加了图像识别的运算复杂度，而通过上述步骤S1002可以从目标图像中提取出有用的包含手部的手势信息的目标区域，进而仅对目标区域进行识别，可以降低图像识别的运算复杂度，避免无用信息对识别结果的干扰，进而提高了图像识别的准确度。

步骤S1004，从目标区域中，识别手势信息中的至少一个关键点信息，其中，所述关键点信息用于表示所述手部中，预设部位的位置信息。

具体的，预设部位的位置信息可以为手部关节的关节位置，还可以为其他预设的手部的位置信息，例如，掌心位置、指尖位置，如图4所示的手部的关键点信息的示意图，如图4所示，关键点4、8、12、16和20表示指尖位置，关键点21表示掌心位置，其余的关键点表示关键位置。

可选的，在本申请中可采用通过样本训练得到的图像识别模型来从目标区域中识别得到手部关键点信息，其中，图像识别模型可以为卷积神经网络模型，例如，3D-CNN网络模型等。在检测到目标图像中的目标区域之后，智能设备将目标图像输入至手势识别模型，手势识别模型可从该目标图像中的目标区域中提取出关键点信息。

步骤S1006，根据所述至少一个关键点信息，确定所述手部的轨迹信息。

具体的，智能设备可以获取关键点信息构成的关键点序列，然后根据至少一个关键点序列确定手部的轨迹信息。

步骤S1008，基于所述手部的轨迹信息，识别所述手部所表征的动作基于信息，识别所表征的动作。

需要说明的是，通过步骤S1006可以得到动态手势的轨迹信息，为能够识别手部所表征的动作，仍以智能音箱为例，智能音箱需要对多帧连续手势信息中的关键点信息进行识别，并根据多帧连续图像信息中的关键点信息得到手部的轨迹信息，再根据手部的轨迹信息确定手部所表征的动作。其中，多帧连续图像信息所对应的帧数可以为预设值，例如，30帧。

可选的，智能音箱可以获取每帧图像所对应的时间信息，并在对图像进行识别得到手部的关键点信息，根据手部的关键点信息得到手部的轨迹信息之后，根据手部的轨迹信息确定手部所表征的动作。例如，在完成抓握手势的过程中，存在N帧图像，则根据每帧图像对应的关键点信息，按照时间顺序进行排序，可得到N帧图像所对应关键点序列，根据N帧图像的关键点序列所对应的手势即可得到手部所表征的动作，例如，第一帧图像中，食指与拇指对应的两个关键点之间的距离为L1；第二帧图像中，食指与拇指对应的两个关键点之间的距离为L2；第三帧图像中，食指与拇指对应的两个关键点之间的距离为L3；第N帧图像中，食指与拇指对应的两个关键点之间的距离为0。L1、L2、L3、LN的数值依次减小，则根据多帧连续图像中每帧图像中的关键点即可确定手部的动作。

基于上述步骤S1002至步骤S1008所限定的方案，可以获知，采用获取多帧连续图像信息中的关键点信息的方式，通过对多帧连续图像中的至少两帧图像中的目标区域进行检测，并从目标区域中识别出目标区域所包含的手势信息中的至少一个关键点信息，再基于关键点信息获取手部的轨迹信息，最后根据多帧连续图像信息中的关键点信息来识别手部所表征的动作。

容易注意到的是，在本申请中，识别的是多帧连续图像信息中的关键点信息，由于识别的是多帧连续图像信息，而手部所表征的动作也是连续的，因此，本申请可以实现对手部所表征的动作的有效识别。另外，本申请是对关键点信息进行识别得到手部所表征的动作，即本申请是将关键点信息，而不是整个图像信息，作为神经网络模型的输入，由于整个图像信息中存在的无用信息较多，而关键点信息中存在的无用信息较少，因此，将关键点信息作为神经网络模型的输入可以降低神经网络模型的运算复杂度，使算法更加简洁，处理速度更快，进一步提高了手部动作识别的识别率。

在一种可选的实施例中，在检测目标图像中的目标区域之前，智能设备获取视频数据流，并从视频数据流中提取包括至少一个手部的多帧连续图像。然后，智能设备将目标图像输入至图像识别模型，并接收图像识别模型输出的识别结果，根据识别结果确定用于在图像信息中标识出手部的标识图形，其中，图像识别模型用于识别出图像信息中的目标区域，识别结果包括识别出的手部的中心点坐标和手部的大小参数。

为提高手势识别的准确度，在接收图像识别模型输出的识别结果之后，智能设备对图像识别模型输出的识别结果进行过滤，得到误识别的目标区域，并清除误识别的目标区域。其中，误识别的目标区域不包括手部。

进一步地，在得到手部特征信息之后，智能设备获取关键点信息构成的关键点序列，并根据至少一个关键点序列确定手部的轨迹信息，然后根据手部的轨迹信息确定手部所表征的动作。

由上可知，本申请是将手部特征信息输入至循环神经网络中进行动作识别，而不是对整个图像进行识别，因此，本申请所提供的方案可以降低图像识别对设备性能的要求。另外，本申请所提供的方案通过对多帧连续图像信息对应的手部特征信息进行识别，能够得到手部所表征的动作，从而实现了对动态手势的识别。

实施例4

根据本申请实施例，还提供了一种用于实施上述信息处理方法的信息处理装置，如图11所示，该装置110包括：检测模块1101、第一识别模块1103以及第二识别模块1105。

其中，检测模块1101，用于检测目标图像中的目标区域，其中，目标图像为多帧连续图像中的至少两帧，目标区域内包含了目标图像中手部的手势信息；第一识别模块1103，用于从目标区域中，识别手势信息中的至少一个手部特征信息；第二识别模块1105，用于基于多帧连续图像信息中手势信息的手部特征信息，识别手部所表征的动作。

此处需要说明的是，上述检测模块1101、第一识别模块1103以及第二识别模块1105对应于实施例1中的步骤S202至步骤S206，三个模块与对应的步骤所实现的实例和应用场景相同，但不限于上述实施例一所公开的内容。需要说明的是，上述模块作为装置的一部分可以运行在实施例一提供的计算机终端10中。

在一种可选的实施例中，检测模块包括：输入模块以及接收模块。其中，输入模块，用于将目标图像输入至图像识别模型，其中，图像识别模型用于识别出图像信息中的目标区域；接收模块，用于接收图像识别模型输出的识别结果，识别结果包括识别出的手部的中心点坐标和手部的大小参数；标识模块，用于根据识别结果确定用于在图像信息中标识出手部的标识图形。

在一种可选的实施例中，在接收图像识别模型输出的识别结果之后，检测模块包括：过滤模块以及清除模块。其中，过滤模块，用于对图像识别模型输出的识别结果进行过滤，得到误识别的目标区域，其中，误识别的目标区域不包括手部；清除模块，用于清除误识别的目标区域。

可选的，关键点信息用于表示手部中，预设部位的位置信息，手部特征信息包括关键点信息。

在一种可选的实施例中，第一识别模块包括：第一获取模块。其中，第一获取模块，用于基于目标图像，通过手势识别模型获取手部的关键点信息，手势识别模型通过样本数据训练得到，样本数据包括样本图像和在样本图像中的关键点信息。

在一种可选的实施例中，目标图像包括手部的深度信息，第一获取模块包括：处理模块。其中，处理模块，用于手势识别模型通过深度信息进行回归处理，得到手部的关键点信息。

在一种可选的实施例中，第二识别模块包括：第二获取模块、第一确定模块以及第二确定模块。其中，第二获取模块，用于获取关键点信息构成的关键点序列；第一确定模块，用于根据至少一个关键点序列确定手部的轨迹信息；第二确定模块，用于根据手部的轨迹信息确定手部所表征的动作。

在一种可选的实施例中，目标图像中包括多个手势，第二识别模块包括：第三获取模块、第三确定模块、第四确定模块以及第五确定模块。其中，第三获取模块，用于获取关键点信息构成的关键点序列；第三确定模块，用于确定多帧连续图像中包括同一个手部的目标区域；第四确定模块，用于根据同一个手部的目标区域内的关键点序列分别确定每个手部的轨迹信息；第五确定模块，用于根据每个手部的轨迹信息确定每个手部所表征的动作。

在一种可选的实施例中，第三确定模块包括：第六确定模块。其中，第六确定模块，用于根据多帧连续图像信息中手部的类型信息和/或手部所在的目标区域，确定多帧连续图像中包括同一个手部的目标区域，其中，手部的类型信息通过手势识别模型获得。

在一种可选的实施例中，信息处理装置还包括：第四获取模块，用于获取目标图像，其中，第四获取模块包括：第五获取模块以及提取模块。其中，第五获取模块，用于获取视频数据流；提取模块，用于从视频数据流中提取包括至少一个手势的多帧连续图像。

实施例5

根据本申请实施例，还提供了一种用于实施上述信息处理方法的信息处理系统，该系统包括处理器以及存储器。其中，存储器，与处理器连接，用于为处理器提供处理以下处理步骤的指令：

检测目标图像中的目标区域，其中，目标图像为多帧连续图像中的至少两帧，目标区域内包含了目标图像中手部的手势信息；从目标区域中，识别手势信息中的至少一个手部特征信息；基于多帧连续图像信息中手势信息的手部特征信息，识别手部所表征的动作。

由上可知，采用对多帧连续图像信息中的手部特征信息进行的方式，通过对多帧连续图像中的至少两帧图像中的目标区域进行检测，并从目标区域中识别出目标区域所包含的手势信息中的至少一个手部特征信息，最后根据多帧连续图像信息中手势信息的手部特征信息来识别手部所表征的动作。

需要说明的是，本实施例中的信息处理系统还可执行实施例1中所提供的信息处理方法，相关内容已在实施例1中进行说明，在此不再赘述。

实施例6

本申请的实施例可以提供一种计算机终端，该计算机终端可以是计算机终端群中的任意一个计算机终端设备。可选地，在本实施例中，上述计算机终端也可以替换为移动终端等终端设备。

可选地，在本实施例中，上述计算机终端可以位于计算机网络的多个网络设备中的至少一个网络设备。

在本实施例中，上述计算机终端可以执行信息处理方法中以下步骤的程序代码：检测目标图像中的目标区域，其中，目标图像为多帧连续图像中的至少两帧，目标区域内包含了目标图像中手部的手势信息；从目标区域中，识别手势信息中的至少一个手部特征信息；基于多帧连续图像信息中手势信息的手部特征信息，识别手部所表征的动作。

可选地，图12是根据本申请实施例的一种计算机终端的结构框图。如图12所示，该计算机终端10可以包括：一个或多个(图中仅示出一个)处理器1202、存储器1204以及传输装置1206。

其中，存储器可用于存储软件程序以及模块，如本申请实施例中的信息处理方法和装置对应的程序指令/模块，处理器通过运行存储在存储器内的软件程序以及模块，从而执行各种功能应用以及数据处理，即实现上述的信息处理方法。存储器可包括高速随机存储器，还可以包括非易失性存储器，如一个或者多个磁性存储装置、闪存、或者其他非易失性固态存储器。在一些实例中，存储器可进一步包括相对于处理器远程设置的存储器，这些远程存储器可以通过网络连接至终端A。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

处理器可以通过传输装置调用存储器存储的信息及应用程序，以执行下述步骤：检测目标图像中的目标区域，其中，目标图像为多帧连续图像中的至少两帧，目标区域内包含了目标图像中手部的手势信息；从目标区域中，识别手势信息中的至少一个手部特征信息；基于多帧连续图像信息中手势信息的手部特征信息，识别手部所表征的动作。

可选的，上述处理器还可以执行如下步骤的程序代码：将目标图像输入至图像识别模型，其中，图像识别模型用于识别出图像信息中的目标区域；接收图像识别模型输出的识别结果，其中，识别结果包括识别出的手部的中心点坐标和手部的大小参数，根据识别结果确定用于在图像信息中标识出手部的标识图形。

可选的，上述处理器还可以执行如下步骤的程序代码：对图像识别模型输出的识别结果进行过滤，得到误识别的目标区域，其中，误识别的目标区域不包括手部；清除误识别的目标区域。

可选的，上述处理器还可以执行如下步骤的程序代码：基于目标图像，通过手势识别模型获取手部的关键点信息，手势识别模型通过样本数据训练得到，样本数据包括样本图像和在样本图像中的关键点信息。

可选的，上述处理器还可以执行如下步骤的程序代码：手势识别模型通过深度信息进行回归处理，得到手部的关键点信息。

可选的，上述处理器还可以执行如下步骤的程序代码：获取关键点信息构成的关键点序列；根据至少一个关键点序列确定手部的轨迹信息；根据手部的轨迹信息确定手部所表征的动作。

可选的，上述处理器还可以执行如下步骤的程序代码：获取关键点信息构成的关键点序列；确定多帧连续图像中包括同一个手部的目标区域；根据同一个手部的目标区域内的关键点序列分别确定每个手部的轨迹信息；根据每个手部的轨迹信息确定每个手部所表征的动作。

可选的，上述处理器还可以执行如下步骤的程序代码：根据多帧连续图像信息中手部的类型信息和/或手部所在的目标区域，确定多帧连续图像中包括同一个手部的目标区域，其中，手部的类型信息通过手势识别模型获得。

可选的，上述处理器还可以执行如下步骤的程序代码：获取视频数据流；从视频数据流中提取包括至少一个手势的多帧连续图像。

本领域普通技术人员可以理解，图12所示的结构仅为示意，计算机终端也可以是智能手机(如Android手机、iOS手机等)、平板电脑、掌声电脑以及移动互联网设备(MobileInternet Devices，MID)、PAD等终端设备。图12其并不对上述电子装置的结构造成限定。例如，计算机终端10还可包括比图12中所示更多或者更少的组件(如网络接口、显示装置等)，或者具有与图12所示不同的配置。

本领域普通技术人员可以理解上述实施例的各种方法中的全部或部分步骤是可以通过程序来指令终端设备相关的硬件来完成，该程序可以存储于一计算机可读存储介质中，存储介质可以包括：闪存盘、只读存储器(Read-Only Memory，ROM)、随机存取器(RandomAccess Memory，RAM)、磁盘或光盘等。

实施例7

本申请的实施例还提供了一种存储介质。可选地，在本实施例中，上述存储介质可以用于保存上述实施例一所提供的信息处理方法所执行的程序代码。

可选地，在本实施例中，上述存储介质可以位于计算机网络中计算机终端群中的任意一个计算机终端中，或者位于移动终端群中的任意一个移动终端中。

可选地，在本实施例中，存储介质被设置为存储用于执行以下步骤的程序代码：检测目标图像中的目标区域，其中，目标图像为多帧连续图像中的至少两帧，目标区域内包含了目标图像中手部的手势信息；从目标区域中，识别手势信息中的至少一个手部特征信息；基于多帧连续图像信息中手势信息的手部特征信息，识别手部所表征的动作。

可选地，在本实施例中，存储介质被设置为存储用于执行以下步骤的程序代码：将目标图像输入至图像识别模型，其中，图像识别模型用于识别出图像信息中的目标区域；接收图像识别模型输出的识别结果，其中，识别结果包括用于在图像信息中标识出手部的标识图形。

可选地，在本实施例中，存储介质被设置为存储用于执行以下步骤的程序代码：对图像识别模型输出的识别结果进行过滤，得到误识别的目标区域，其中，误识别的目标区域不包括手部；清除误识别的目标区域。

可选地，在本实施例中，存储介质被设置为存储用于执行以下步骤的程序代码：基于目标图像，通过手势识别模型获取手部的关键点信息，手势识别模型通过样本数据训练得到，样本数据包括样本图像和在样本图像中的关键点信息。

可选地，在本实施例中，存储介质被设置为存储用于执行以下步骤的程序代码：手势识别模型通过深度信息进行回归处理，得到手部的关键点信息。

可选地，在本实施例中，存储介质被设置为存储用于执行以下步骤的程序代码：获取关键点信息构成的关键点序列；根据至少一个关键点序列确定手部的轨迹信息；根据手部的轨迹信息确定手部所表征的动作。

可选地，在本实施例中，存储介质被设置为存储用于执行以下步骤的程序代码：获取关键点信息构成的关键点序列；确定多帧连续图像中包括同一个手部的目标区域；根据同一个手部的目标区域内的关键点序列分别确定每个手部的轨迹信息；根据每个手部的轨迹信息确定每个手部所表征的动作。

可选地，在本实施例中，存储介质被设置为存储用于执行以下步骤的程序代码：根据多帧连续图像信息中手部的类型信息和/或手部所在的目标区域，确定多帧连续图像中包括同一个手部的目标区域，其中，手部的类型信息通过手势识别模型获得。

可选地，在本实施例中，存储介质被设置为存储用于执行以下步骤的程序代码：获取视频数据流；从视频数据流中提取包括至少一个手势的多帧连续图像。

上述本申请实施例序号仅仅为了描述，不代表实施例的优劣。

在本申请的上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述的部分，可以参见其他实施例的相关描述。

在本申请所提供的几个实施例中，应该理解到，所揭露的技术内容，可通过其它的方式实现。其中，以上所描述的装置实施例仅仅是示意性的，例如所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，单元或模块的间接耦合或通信连接，可以是电性或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本申请各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可为个人计算机、服务器或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、移动硬盘、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述仅是本申请的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本申请原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本申请的保护范围。

Claims

1.一种信息处理方法，包括：

检测目标图像中的目标区域，其中，所述目标图像为多帧连续图像中的至少两帧，所述目标区域内包含了所述目标图像中手部的手势信息；

从所述目标区域中，识别所述手势信息中的至少一个手部特征信息；

基于多帧连续图像信息中所述手势信息的手部特征信息，识别所述手部所表征的动作。

2.根据权利要求1所述的方法，其中，检测目标图像中的目标区域，包括：

将所述目标图像输入至图像识别模型，其中，所述图像识别模型用于识别出图像信息中的目标区域；

接收所述图像识别模型输出的识别结果，其中，所述识别结果包括识别出的所述手部的中心点坐标和所述手部的大小参数；

根据所述识别结果确定用于在所述图像信息中标识出所述手部的标识图形。

3.根据权利要求2所述的方法，其中，在接收所述图像识别模型输出的识别结果之后，检测目标图像中的目标区域的步骤还包括：

对所述图像识别模型输出的识别结果进行过滤，得到误识别的目标区域，其中，所述误识别的目标区域不包括所述手部；

清除所述误识别的目标区域。

4.根据权利要求1所述的方法，其中，所述手部特征信息包括关键点信息，所述关键点信息用于表示所述手部中，预设部位的位置信息。

5.根据权利要求4所述的方法，其中，从所述目标区域中，识别所述手势信息中的至少一个手部特征信息，包括：

基于所述目标图像，通过手势识别模型获取所述手部的关键点信息，所述手势识别模型通过样本数据训练得到，所述样本数据包括样本图像和在所述样本图像中的关键点信息。

6.根据权利要求5所述的方法，其中，所述目标图像包括所述手部的深度信息，基于所述目标图像，通过手势识别网络模型获取所述手部的关键点信息，包括：

所述手势识别模型通过所述深度信息进行回归处理，得到所述手部的关键点信息。

7.根据权利要求1所述的方法，其中，所述手部特征信息包括关键点信息，基于多帧连续图像信息中所述手势信息的手部特征信息，识别所述手部所表征的动作，包括：

获取所述关键点信息构成的关键点序列；

根据至少一个关键点序列确定所述手部的轨迹信息；

根据所述手部的轨迹信息确定所述手部所表征的动作。

8.根据权利要求5所述的方法，其中，所述目标图像中包括多个手势，基于多帧连续图像信息中所述手势信息的手部特征信息，识别所述手部所表征的动作，包括：

获取所述关键点信息构成的关键点序列；

确定所述多帧连续图像中包括同一个手部的目标区域；

根据同一个手部的目标区域内的关键点序列分别确定每个手部的轨迹信息；

根据所述每个手部的轨迹信息确定每个手部所表征的动作。

9.根据权利要求8所述的方法，其中，确定所述多帧连续图像中包括同一个手部的目标区域，包括：

根据所述多帧连续图像信息中手部的类型信息和/或所述手部所在的目标区域，确定所述多帧连续图像中包括同一个手部的目标区域，其中，所述手部的类型信息通过所述手势识别模型获得。

10.根据权利要求1所述的方法，其中，在检测目标图像中的目标区域之前，所述方法还包括：获取所述目标图像，其中，获取所述目标图像的步骤包括：

获取视频数据流；

从所述视频数据流中提取包括至少一个手势的多帧连续图像。

11.一种信息处理方法，包括：

显示目标图像中的目标区域，其中，所述目标图像为多帧连续图像中的至少两帧，所述目标区域内包含了所述目标图像中手部的手势信息；

显示所述手部所表征的动作，其中，从所述目标区域中，识别所述手势信息中的至少一个手部特征信息，并基于多帧连续图像信息中所述手势信息的手部特征信息，识别所述手部所表征的动作。

12.一种信息处理方法，其中，包括：

从所述目标区域中，识别所述手势信息中的至少一个关键点信息，其中，所述关键点信息用于表示所述手部中，预设部位的位置信息；

根据所述至少一个关键点信息，确定所述手部的轨迹信息；

基于所述手部的轨迹信息，识别所述手部所表征的动作。

13.根据权利要求12所述的方法，其中，根据所述至少一个关键点信息，确定所述手部的轨迹信息，包括：

获取所述关键点信息构成的关键点序列；

根据至少一个关键点序列确定所述手部的轨迹信息。

14.一种信息处理装置，包括：

检测模块，用于检测目标图像中的目标区域，其中，所述目标图像为多帧连续图像中的至少两帧，所述目标区域内包含了所述目标图像中手部的手势信息；

第一识别模块，用于从所述目标区域中，识别所述手势信息中的至少一个手部特征信息；

第二识别模块，用于基于多帧连续图像信息中所述手势信息的手部特征信息，识别所述手部所表征的动作。

15.一种存储介质，所述存储介质包括存储的程序，其中，在所述程序运行时控制所述存储介质所在设备执行如下步骤：检测目标图像中的目标区域，其中，所述目标图像为多帧连续图像中的至少两帧，所述目标区域内包含了所述目标图像中手部的手势信息；从所述目标区域中，识别所述手势信息中的至少一个手部特征信息；基于多帧连续图像信息中所述手势信息的手部特征信息，识别所述手部所表征的动作。

16.一种处理器，所述处理器用于运行程序，其中，所述程序运行时执行如下步骤：检测目标图像中的目标区域，其中，所述目标图像为多帧连续图像中的至少两帧，所述目标区域内包含了所述目标图像中手部的手势信息；从所述目标区域中，识别所述手势信息中的至少一个手部特征信息；基于多帧连续图像信息中所述手势信息的手部特征信息，识别所述手部所表征的动作。

17.一种信息处理系统，包括：

处理器；以及

存储器，与所述处理器连接，用于为所述处理器提供处理以下处理步骤的指令：