CN111857356B

CN111857356B - 识别交互手势的方法、装置、设备和存储介质

Info

Publication number: CN111857356B
Application number: CN202011013204.0A
Authority: CN
Inventors: 徐子健; 刘国清; 杨一泓; 郑伟; 杨广; 徐涵; 周滔
Original assignee: Shenzhen Minieye Innovation Technology Co Ltd
Current assignee: Hangzhou Ruijian Zhixing Technology Co ltd
Priority date: 2020-09-24
Filing date: 2020-09-24
Publication date: 2021-01-22
Anticipated expiration: 2040-09-24
Also published as: CN111857356A

Abstract

本申请涉及人机交互技术领域，提供一种识别交互手势的方法、装置、设备和存储介质，包括：响应于检测到手部图像，识别所述手部图像中包含的手势属于静态手势或者动态手势；当所述手势属于所述静态手势时，对以所述手部图像为起始帧图像的连续多帧图像进行手势保持检测处理，若检测到所述手势在所述连续多帧图像中保持不变，则确定所述手势为静态交互手势；当所述手势属于所述动态手势时，对以所述手部图像为起始帧图像的连续多帧图像进行手势动作检测处理，若检测到所述手势在所述连续多帧图像中呈现出预设手势动作变化，则确定所述手势为动态交互手势，实现对手势识别问题的逐级分解和分类，在节约计算量的同时提高交互手势的识别精度。

Description

识别交互手势的方法、装置、设备和存储介质

技术领域

本申请涉及人机交互技术领域，特别是涉及一种识别交互手势的方法、装置、计算机设备和存储介质。

背景技术

随着计算机软硬件能力的不断提升，以及人们对人机交互的不断增长的需求，交互手势识别受到广泛的关注。交互手势识别主要是通过在摄像头前做出预定义的手势被机器学习模型识别，通常可以用于AR（Augmented Reality，增强现实）/VR（Virtual Reality，虚拟现实）、智能手机、智能家电和驾驶舱内的车载终端，在人们不方便直接用手操作控制面板的时候利用手势交互对机器进行操控，方便了人们的生活。

交互手势识别一般可以按照手势类别分为静态交互手势和动态交互手势，针对于静态交互手势识别，交互信息量少，针对一些需要量化的调节需求无法轻易表达（例如调节音响音量）。而动态交互手势识别往往采用基于数据驱动（data-driven）的基于序列模型的训练思路进行，依赖大量时序数据，且对训练环节和测试环节的算力要求较高。可见，传统的识别技术中难以同时稳定地处理静态交互手势和动态交互手势。

发明内容

基于此，有必要针对上述技术问题，提供一种识别交互手势的方法、装置、计算机设备和存储介质。

一种识别交互手势的方法，所述方法包括：

响应于检测到手部图像，识别所述手部图像中包含的手势属于静态手势或者动态手势；

当所述手势属于所述静态手势时，对以所述手部图像为起始帧图像的连续多帧图像进行手势保持检测处理，若检测到所述手势在所述连续多帧图像中保持不变，则确定所述手势为静态交互手势；

当所述手势属于所述动态手势时，对以所述手部图像为起始帧图像的连续多帧图像进行手势动作检测处理，若检测到所述手势在所述连续多帧图像中呈现出预设手势动作变化，则确定所述手势为动态交互手势。

一种识别交互手势的装置，所述装置包括：

手势识别模块，用于响应于检测到手部图像，识别所述手部图像中包含的手势属于静态手势或者动态手势；

静态交互手势识别模块，用于当所述手势属于所述静态手势时，对以所述手部图像为起始帧图像的连续多帧图像进行手势保持检测处理，若检测到所述手势在所述连续多帧图像中保持不变，则确定所述手势为静态交互手势；

动态交互手势识别模块，用于当所述手势属于所述动态手势时，对以所述手部图像为起始帧图像的连续多帧图像进行手势动作检测处理，若检测到所述手势在所述连续多帧图像中呈现出预设手势动作变化，则确定所述手势为动态交互手势。

一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，所述处理器执行上述方法。

一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行上述方法。

上述识别交互手势的方法、装置、计算机设备和存储介质，在检测到手部图像后，进行静态手势和动态手势的分类；针对静态手势，分析连续多帧图像的手势保持情况，以识别是否为静态交互手势；针对动态手势，则分析连续多帧图像的手势动作变化，以识别是否为动态交互手势，实现对手势识别问题的逐级分解和分类，并在识别静态交互手势和动态交互手势时，采用不同的识别策略，在节约计算量的同时保证交互手势的识别精度。

附图说明

图1为一个实施例中计算机设备的内部结构图；

图2为一个实施例中识别交互手势的方法的流程示意图；

图3为另一个实施例中识别交互手势的方法的流程示意图；

图4为又一个实施例中识别交互手势的方法的流程示意图；

图5为再一个实施例中识别交互手势的方法的流程示意图；

图6为其他一个实施例中识别交互手势的方法的流程示意图；

图7为一个实施例中交互手势的设置的界面图；

图8为一个实施例中手部21点关键点的示意图；

图9为一个实施例中交互手势的装置的结构框图。

具体实施方式

为了使本申请的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本申请进行进一步详细说明。应当理解，此处描述的具体实施例仅仅用以解释本申请，并不用于限定本申请。

在本申请中提及“实施例”意味着，结合实施例描述的特定特征、结构或特性可以包含在本申请的至少一个实施例中。在说明书中的各个位置出现该短语并不一定均是指相同的实施例，也不是与其它实施例互斥的独立的或备选的实施例。本领域技术人员显式地和隐式地理解的是，本申请所描述的实施例可以与其它实施例相结合。

在传统的交互手势识别方法中，针对于静态交互手势识别，虽然识别准确率高，但是交互信息量少，针对一些需要量化的调节需求无法轻易表达（例如调节音响音量）。而动态交互手势往往采用基于数据驱动（data-driven）的基于序列模型的训练思路进行，需要依赖大量时序数据，且对训练环节和测试环节的算力要求较高。

基于此，本申请提出的一种识别交互手势方法，通过在检测到手部图像后，进行静态手势和动态手势的分类；针对静态手势，分析连续多帧图像的手势保持情况，以识别是否为静态交互手势；针对动态手势，则分析连续多帧图像的手势动作变化，以识别是否为动态交互手势。可见，本申请提出的识别交互手势方法，对手势识别问题进行逐级分解和分类，并在识别静态交互手势和动态交互手势时，采用不同的识别策略，在节约计算量的同时保证交互手势的识别精度。

本申请提供的识别交互手势的方法，可以应用于识别交互手势的计算机设备中，计算机设备可以但不限于是移动终端、车载终端、家居设备等。该计算机设备的内部结构图可以如图1所示。该计算机设备包括通过系统总线连接的处理器、存储器和网络接口。其中，该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的数据库用于存储识别交互手势的数据。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种识别交互手势的方法。

本领域技术人员可以理解，图1中示出的结构，仅仅是与本申请方案相关的部分结构的框图，并不构成对本申请方案所应用于其上的计算机设备的限定，具体的计算机设备可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。

在一个实施例中，如图2所示，提供了一种识别交互手势的方法，以该方法应用于车载终端为例进行说明，包括以下步骤：

步骤S201，车载终端响应于检测到手部图像，识别手部图像中包含的手势属于静态手势或者动态手势。

其中，静态手势和动态手势可以是用户预定义的手势，例如，用户可以定义静态手势包括竖大拇指、握拳、打电话等手势，用户也可以定义动态手势包括与挥动手掌对应的五指伸出、与食指画圈对应的食指伸出等手势（其中，挥动手掌、食指画圈均定义为动态交互手势）。

车载终端可以基于预先构建的手势分类器，对手部图像中包含的手势进行识别分类，以识别上述手势属于静态手势还是动态手势。

步骤S202，当手势属于静态手势时，车载终端对以手部图像为起始帧图像的连续多帧图像进行手势保持检测处理，若检测到手势在连续多帧图像中保持不变，车载终端则确定手势为静态交互手势。

其中，在连续多帧图像中保持不变可以指：在连续多帧图像中设定帧数的图像中的手势均为相同的静态手势；以静态手势为竖大拇指为例：如果车载终端对100帧图像进行检测，并且在100帧图像中存在95帧的图像包含竖大拇指手势，那么车载终端可以确定用户做出的手势是预定义的静态交互手势。可以理解的是，设定帧数可以根据实际需求设定。

另外，在连续多帧图像中保持不变还可以指：在连续多帧图像中设定帧数的图像中的手势均为相同的静态手势，且包含相同静态手势的图像在连续多帧图像中是连续排序；仍以静态手势为竖大拇指为例：如果车载终端对100帧图像进行检测，在检测后确定100帧图像中存在95帧图像包含竖大拇指手势，并且这95帧图像在100帧图像中是连续排布的（如第1帧至第95帧，又如第3帧至第97帧，再如第6帧至第100帧），那么车载终端可以确定用户做出的手势是预定义的静态交互手势。

其中，包含相同静态手势的多帧图像可以是指：多帧图像均包含同种类型的静态手势（如大拇指手势），也可以是指：多帧图像均包含同种类型的静态手势且手势在图像中的位置一致（如均为竖大拇指手势并且竖大拇指手势均位于图像中部）。

进一步地，车载终端在确定用户做出预定义的静态交互手势后，还可以基于预设的静态交互手势与交互指令的对应关系，确定与竖大拇指手势对应的交互指令，并进行设备交互（如调高车辆音箱的播放音量）。

可以理解的是，上述的连续多帧图像具有对应的时间，例如连续的100帧图像对应的时间可以是1秒。

步骤S203，当手势属于动态手势时，车载终端对以手部图像为起始帧图像的连续多帧图像进行手势动作检测处理，若检测到手势在连续多帧图像中呈现出预设手势动作变化，车载终端则确定手势为动态交互手势。

以动态手势为食指伸出为例介绍，车载终端在识别到手部图像中的手势是食指伸出后，根据预先定义的动态手势，可以确定食指伸出为动态手势；然后车载终端可以对该帧图像之后的连续多帧图像进行识别，若识别到食指在连续多帧的图像中出呈现出圆圈的变化轨迹，与预设的食指画圈对应，车载终端可以确定该手势为动态交互手势；进一步地，车载终端可以基于预设的动态交互手势与交互指令的对应关系，确定与食指画圈对应的交互指令，并进行设备交互（如关闭车辆上的冷气设备）。

上述识别交互手势的方法中，在检测到手部图像后，进行静态手势和动态手势的分类；针对静态手势，分析连续多帧图像的手势保持情况，以识别是否为静态交互手势；针对动态手势，则分析连续多帧图像的手势动作变化，以识别是否为动态交互手势，实现对手势识别问题进行逐级分解和分类，并在识别静态交互手势和动态交互手势时，采用不同的识别策略，在节约计算量的同时保证交互手势的识别精度。

在一个实施例中，在识别动态交互手势时，为了进一步节约计算量，还可以按照手部局部动作还是手部整体动作，对动态手势进行细分，并采用不同的识别策略。

具体而言，车载终端在执行步骤S203时，可以进一步执行：

①当手势属于动态手势时，车载终端识别手势为手部局部动态手势或者手部整体动态手势；

②若手势为手部局部动态手势，车载终端则确定与手部局部动态手势对应的手部局部关键点；基于手部局部关键点在以手部图像为起始帧图像的连续多帧图像中的位置进行手势动作检测处理；

以手部局部动态手势为食指伸出为例介绍，车载终端在确定手势是食指伸出后，对食指关键点在连续多帧图像中的位置进行跟踪，以进行手势动作检测处理；若食指关键点在连续多帧图像中的位置形成圆圈，则可以确定该手势为食指画圈，属于动态交互指令；如食指关键点在连续多帧图像中的位置形成直线，则可以确定该手势不是食指画圈，不属于动态交互指令。

③若手势为手部整体动态手势，车载终端则确定与手部整体动态手势对应的手部位置检测框；基于手部位置检测框在以手部图像为起始帧图像的连续多帧图像中的位置进行手势动作检测处理。

以手部整体动态手势为五指伸出为例介绍，车载终端在确定手势是五指伸出后，确定手部在图像中的位置检测框，并跟踪手部位置检测框在连续多帧图像中的位置，以进行手势动作检测处理；如果手部位置检测框在连续多帧图像中形成左右来回摆动的直线轨迹，车载终端则可以确定该手势为挥动手掌，属于动态交互手势。

也就是说，若是手部局部动态手势，车载终端则采用手部局部关键点策略进行识别；若是手部整体动态手势，车载终端则采用手部位置检测框策略进行识别，通过进一步细分动态手势并采用不同的识别策略，可以节约算力。

进一步地，手部局部动态手势为手掌在图像中不发生移动，手指在图像中发生移动的局部动态手势；手部局部关键点包括手指关键点且不包括手掌关键点。

更进一步地，车载终端在基于手部局部关键点在以手部图像为起始帧图像的连续多帧图像中的位置进行手势动作检测处理时，可以进一步执行以下步骤：车载终端基于手指关键点在以手部图像为起始帧图像的连续多帧图像中的位置，得到手指关键点的移动轨迹；基于手指关键点的移动轨迹，车载终端判断手部局部动态手势是否在连续多帧图像中呈现出预设手势动作变化。

示例性地，如食指画圈（动态交互手势）对应的食指伸出（手部局部动态手势），在食指画圈过程中，手掌几乎不移动，仅是食指移动，因此在进行手势动作检测时，可以只跟踪分析食指对应的关键点（即手部局部关键点）。车载终端在对食指关键点进行跟踪检测后，若确定食指关键点在连续各帧图像中的位置形成圆圈，那么车载终端可以确定该手势呈现出食指画圈的手势动作变化，属于食指画圈的动态交互手势。可见，在手势为手部局部动态手势的情况下，只跟踪分析对应的手部局部关键点，可以节约算力，提高交互手势的识别速度。

进一步地，手部整体动态手势为手掌和手指在图像中发生移动，且手掌与手指之间相对静止的整体动态手势；其中，手部位置检测框为对手掌和手指在图像中进行框选的检测框。

更进一步地，车载终端在基于手部位置检测框在以手部图像为起始帧图像的连续多帧图像中的位置进行手势动作检测处理时，可以进一步执行以下步骤：车载终端获取手部位置检测框在手部图像和连续多帧图像中的位置；车载终端根据各位置确定手部整体动态手势的移动轨迹和移动幅度；基于手部整体动态手势的移动轨迹和移动幅度，车载终端判断手部整体动态手势是否在连续多帧图像中呈现出预设手势动作变化。更进一步地，车载终端还可以根据手部整体动态手势不同的移动幅度，进行不同的交互输出。

示例性地，如挥动手掌（动态交互手势）对应的五指伸出（手部整体动态手势），在挥动手掌过程中，手掌和手指之间不发生相对移动，手掌和手指作为一个整体进行移动，因此在进行手势动作检测时，可以跟踪分析用于框选手掌和手指的检测框（即手部位置检测框）。车载终端检测手部位置检测框在连续各帧图像中的位置，根据各位置，确定该手势的移动轨迹是直线且移动幅度达到挥动手掌的幅度，则确定该手势呈现出挥动手掌的动作变化，属于挥动手掌的动态交互手势。可见，在手势为手部整体动态手势的情况下，只跟踪分析对应的手部位置检测框，将手掌和手指作为一个整体进行跟踪分析，可以节约算力，提高交互手势的识别速度。

在一个实施例中，如果手势属于静态手势，车载终端在对以手部图像为起始帧图像的连续多帧图像进行手势保持检测处理时，可以执行以下步骤：当手势属于静态手势时，车载终端检测连续多帧图像是否均为手部图像；若连续多帧图像均为手部图像，车载终端则根据连续多帧图像中包含的手势是否均为静态手势，判断手势是否在连续多帧图像中保持不变。

其中，车载终端在判断手势是否在连续多帧图像中保持不变时，可以判断连续多帧图像中的手势是否均为相同的静态手势（如多帧图像均包含同种类型的静态手势，或者多帧图像均包含同种类型的静态手势且手势在图像中的位置一致），若是，车载终端可以确定该手势在连续多帧图像中保持不变，属于静态交互手势。相关实施方式可以结合步骤S202的介绍，这里不赘述。

更具体地，车载终端在进行连续多帧的静态手势检测时，可以采用滑窗式计数，滑窗式计数的窗口期可以设为75帧。示例性地，车载终端在检测第k帧时刻的图像时，可以连续检测[k-74，k]窗口内的75帧图像；车载终端在检测第k+1帧时刻的图像时，可以连续检测[k-73，k+1]窗口内的75帧图像。

在这75帧图像的检测过程中，如果连续检测到设定帧数（如连续50帧）的图像均为同一个静态手势，那么车载终端就可以判定用户做出静态交互手势并进行对应的交互输出。进一步地，每检测到一帧包含与其他帧相同的静态手势的图像，车载终端可以控制静态手势计数器自增加1，因此，只要静态手势计数器的计数值与设定帧数对应，车载终端就可以判定用户做出静态交互手势。另外，在这75帧图像的检测过程中，如果出现一帧不包含与其他帧相同的静态手势的图像，那么，车载终端可以判定用户没有做出静态交互手势，并控制静态手势计数器的计数值清零，进而避免手势误检。

可见，在上述实施例中，通过对静态手势进行连续多帧的手势保持检测，可以避免手势误检，提高静态交互手势的识别准确率。

在一个实例中，车载终端在检测到图像中包含手部（即手部图像）后，为了准确进行静态手势和动态手势的分类，车载终端在执行步骤S201时，可以进一步执行以下步骤：车载终端响应于检测到手部图像，检测预定义的全体手部关键点；车载终端基于全体手部关键点在手部图像中的位置，识别手部图像中包含的手势属于静态手势或者动态手势。其中，全体手部全部关键点包含手指关键点和手掌关键点，例如图8所示的预定义的21个手部关键点。

具体地，车载终端可以检测与21个手部关键点对应的全体手部关键点，并对21个手部关键点在图像中的位置进行分析，以识别图像中的手势是静态手势还是动态手势。

也就是说，在上述实施例中，利用全体手部关键点对静态手势/动态手势的分类进行辅助。当车载终端检测到手部图像后，可以对手部图像进行21点关键点检测，利用21点关键点进行分类，提高静态手势/动态手势的分类准确性。

在一个实施例中，车载终端执行步骤S201之前，可以对待检测图像进行手部检测，检测待检测图像中是否有手部，若无，则不进行静态手势/动态手势的分类，并且跳帧进行手部检测。可以理解的是，跳帧检测相当于是车载终端休眠一段时间，在休眠过程中，车载终端不检测图像是否包含手部，在休眠时间达到预设时间后，车载终端可以检测与预设时间对应的帧图像是否包含手部，进而简化运算分析，节省算力。

具体而言，车载终端在进行跳帧的手部检测时，可以执行如下步骤：车载终端对当前帧待检测图像进行手部检测；若检测到当前帧待检测图像不是手部图像，车载终端则对与当前帧待检测图像间隔预设帧数的间隔帧图像进行手部检测；若检测到间隔帧图像为手部图像，车载终端则根据以间隔帧图像为起始帧图像的连续多帧待检测图像，确定连续多帧待检测图像是否均为手部图像。

其中，预设帧数对应的时间小于手部在图像中呈现出静态手势或动态手势的时间；例如，手部做出竖大拇指或者食指画圈的过程不是突变的，具有一定的变化时间，因此，预设帧数对应的时间小于手部在图像中出现出静态手势或动态手势的时间。

示例性地，车载终端在检测到第1帧待检测图像不包含手部时（不是手部图像），那么车载终端可以检测第60帧的图像，判断第60帧是否包含手部，若是，则继续检测第61帧、第62帧图像是否包含手部，连续对多帧待检测图像进行手部检测，直至连续检测的待检测图像中检测不到手部。在第1帧到第60帧之间间隔59帧，并且手部难以在59帧对应的时间（如1秒）内做完对应的手势（如竖大拇指）。其中，车载终端在检测到第61帧图像为手部图像后，可以执行步骤S201，即对第61帧图像中的手势进行静态/动态的分类，根据分类结果，执行步骤S202或步骤S203。同理，车载终端在检测到第62帧图像为手部图像后，可以执行步骤S201至步骤S203进行识别检测。

在一些传统的应用场景中，虽然一些基于深度信息（如平面图像、手部三维信息、深度信息和加速度）的算法也可以识别交互手势，但是这些深度信息依赖于3D传感器（如深度摄像头和ToF（Time of flight，飞行时间测距设备）等）采集，对设备要求较高，难以和其他识别任务结合。

而本申请提供的识别交互手势方法可以不依赖与深度信息，仅对平面图像进行分析即可，在设备部署上，通过2D摄像头采集即可，可以较为灵活且简易配置。

也就是说，本申请提供的识别交互手势方法中提及的图像（如当前帧待检测图像、手部图像、连续多帧图像等）可以是不具有手部三维信息、手部深度信息和手部运动信息的平面图像（2D视觉的图像）。这些图像可以是由2D摄像头（如彩色摄像头或者红外摄像头）采集的。

在一个实施例中，本申请还提供一种识别交互手势的方法，结合图3，并以应用于车载终端为例介绍：

步骤S301，车载终端对当前帧检测图像进行手部检测；

步骤S302，车载终端若检测到当前帧待检测图像不是手部图像，则对与当前帧待检测图像间隔预设帧数的间隔帧图像进行手部检测；

步骤S303，车载终端若检测到间隔帧图像为手部图像，则根据以间隔帧图像为起始帧图像的连续多帧待检测图像，确定连续多帧待检测图像是否均为手部图像；

步骤S304，车载终端在检测到手部图像后，检测预定义的全体手部关键点；车载终端基于全体手部关键点在手部图像中的位置，识别手部图像中包含的手势属于静态手势或者动态手势；

步骤S305，当手势属于静态手势时，车载终端检测连续多帧图像是否均为手部图像；若连续多帧图像均为手部图像，车载终端则根据连续多帧图像中包含的手势是否均为静态手势，判断手势是否在连续多帧图像中保持不变；

步骤S306，若车载终端检测到手势在连续多帧图像中保持不变，则确定手势为静态交互手势；

步骤S307，当手势属于手部局部动态手势，车载终端则确定与手部局部动态手势对应的手部局部关键点；

步骤S308，车载终端基于手指关键点在以手部图像为起始帧图像的连续多帧图像中的位置，得到手指关键点的移动轨迹，并且基于手指关键点的移动轨迹，判断手部局部动态手势是否在连续多帧图像中呈现出预设手势动作变化；

步骤S309，当手势属于手部整体动态手势，车载终端则确定与手部整体动态手势对应的手部位置检测框；

步骤S310，车载终端获取手部位置检测框在手部图像和连续多帧图像中的位置；根据各位置确定手部整体动态手势的移动轨迹和移动幅度；基于手部整体动态手势的移动轨迹和移动幅度，判断手部整体动态手势是否在连续多帧图像中呈现出预设手势动作变化；

步骤S311，车载终端若检测到手势在连续多帧图像中呈现出预设手势动作变化，则确定手势为动态交互手势。

在上述实施例中，如果检测到当前帧图像没有手部，车载终端则进行跳帧检测，在检测到间隔帧图像有手部时，才进行连续多帧的手部检测，可以节省算力；并且车载终端在对手部图像中的手势进行静态/动态分类时，可以基于全体手部关键点进行，提高分类准确性；另外，车载终端在识别到手部图像中的手势是静态手势时，可以对连续多帧图像进行手势保持检测，避免静态交互手势的误检；车载终端在识别到手部图像中的手势是手部整体动态手势时，可以基于手部位置检测框，确定手部整体动态手势在连续多帧图像中呈现预设手势动作变化，可以提高交互手势的识别效率；车载终端在识别到手部图像中的手势是手部局部动态手势时，可以基于手部局部关键点，确定手部局部动态手势在连续多帧图像中呈现预设手势动作变化，可以保证动态交互手势的识别精度。

为了更好地理解上述方法，以下详细阐述一个本申请识别交互手势的方法的应用实例。

在本应用实例中，设置两个级联的深度神经网络，第一级通过手部检测器检测图像中是否包含手部，第二级通过手势分类器对手部图像中的手势进行精细分类。其中，在第二级网络中，进行静态交互手势（如竖大拇指）的识别时，连续多帧图像的保持检测可以过滤掉第一级错误检测到的非手样本。在进行动态交互手势的识别时，进一步细分为局部动态手势和整体动态手势；针对局部动态手势可以基于手部关键点进行检测，针对重点关节点进行跟踪，判别是否为局部类的动态交互手势（如食指画圈）；针对整体动态手势，可以基于手部位置检测框进行检测，判断是否为整体类的动态交互手势（如挥动手掌）。

本应用实例的硬件组成可以是：车舱内部可以部署一只或多只彩色摄像头或近红外摄像头，手掌在画面中成像清晰。算法（手部检测器、手势分类器和21点关键点检测器等）可以部署于车舱内嵌入式平台或者利用通讯模块发送到云端进行处理。用户对手掌动作的设置可以利用手机，通过应用程序或者网页对手势动作识别功能进行个性化设置。

其中，图4、图5和图6分别展示了三种的识别交互手势的处理流程。

如图4所示，在步骤S401至步骤S402中，摄像头拍摄到的2D图像数据（相当于视频流）送入手部检测器，对画面中是否有手进行判断。手部检测器属于第一级深度神经网络，不做手势的具体分类，仅判断画面中是否手部，如果有手部则同时将手部的位置检测框输出至手势分类器。手部检测器可以采用通用的基于深度神经网络的检测器，如RCNN、SSD、RetinaNet等。如果手部检测器没有检测到手部，则不进行手势分类，可以间隔一段时间（如1秒）再启动手部检测，同时车载终端可以把静态手势计数器清零。

在步骤S403中，如果手部检测器检测到手部，则车载终端调用手势分类器对每一帧手部图像都进行手势分类。手势可以分为三类，包括静态手势类别、滑动动态手势类别（相当于手部整体动态手势，手指和手掌会在2D画面中进行位移，如挥动手掌）以及局部动作类动态手势（相当于局部动态手势，手指和手掌在2D画面中不会有明显位移，或者主要通过改变手部形状等进行交互，如食指划圈、摇手指等）。

其中静态手势可以包括但不限于握拳，竖大拇指等手势，其通过静态动作与车载终端进行交互；而动态手势可以包括但不限于挥舞手掌，食指画圈等手势，其通过动作幅度和频次与车载终端交互。其中，用户可以对需要交互的手势类目进行自定义设置，其中一个基于网页/应用程序的设置界面可以如图7所示。车载终端根据用户预设置在后台建立一个激活类目名单。若车载终端在视频中没有检测到用户预定义的手势，则不予交互输出。可以理解的是，手势分类器可以兼顾压制第一级手部检测器的误检任务。

在步骤S404至步骤S405中，如果手部分类器识别到静态手势，则对静态手势计数器进行自增。计数器可以采用滑窗式计数，窗口期可以设为75帧。当计数器数值超过预设阈值（如50帧）时，确认为静态交互手势，并进行交互输出，进而避免手势误检的干扰。

在步骤S406至步骤S408中，如果手部分类器识别到动态手势（如手部分类器输出食指伸出类别），车载终端则调用手部21点关键点检测器，其输出手部关节21个点在图片中的2D坐标（示例可参考图8）。针对不同动态手势可以采用不同的识别算法进行处理。例如食指画圈的识别，车载终端可以提取食指关键点（图8中的点8），针对食指关键点进行时间序列的跟踪，判定是否形成闭合的圆圈。又例如食指移动划线，车载终端也可以利用食指关键点进行追踪，对2D空间中移动的轨迹进行分析。

需要说明的是，图4中虚线框中的方法不唯一，可以用RNN、LSTM等时序分析网络进行替换。同理，图5和图6也适用上述说明。

图5是另一个识别交互手势的方法，在该方法中，主要是利用全体手部关键点对手势分类进行辅助。图5的步骤S501至步骤S508的相关介绍可以参照图4，这里不赘述；需要说明的是，在步骤S503至步骤S504中，当手部检测器检测到手部图像后，车载终端调用21点关键点检测器对手部图像进行21点关键点检测，并将21点关键点检测器的输出信息与输入至手部分类器的手部抠取局部图片进行融合，然后将融合得到的图像输入第二级的手部分类器，使得手部分类器融合手部关键点的信息，分类准确率会进一步提高。

图6是另一个识别交互手势的方法，在该方法中，对于滑动类动态手势不依赖于21点关键点的策略。图6的步骤S601至步骤S608的相关介绍可以参照图4，这里不赘述；需要说明的是，在步骤S603中，若手势分类器识别到滑动类的动态手势，车载终端可以直接利用手部检测器输出的手部位置检测框来定位手部位置，结合手势分类器以及帧间手部的移动来确定滑动类动态手势（即步骤S607）；进一步地，车载终端还可以通过手部位移的距离确定动作的幅度，进而形成不同的交互输出。

本应用实例的系统部署方面，摄像头的安装位置需要确保待分析区域进入镜头画面。

在训练上述的手部检测器、手部分类器和手部21点关键点检测器时，可以采集大量不同光照条件、不同视角、不同距离的手部图像数据（视频帧片段），并对采集图像进行标注，将标注好的图像分为训练集、测试集和验证集；具体的训练方法可以参照下面步骤进行：

①初始化深度神经网络参数。

②利用已有方法在训练集训练深度神经网络。

③利用改进后的方法在训练集训练深度神经网络。

④对改进后的模型进行分析，验证其表现特性与设计预期相符。

⑤设计若干对比实验，进一步对两个训练模型在测试集、验证集上进行量化评估，验证提出算法的正确性。

在本应用实例中，利用深度学习方法对2D视频中的动态手势进行识别，并区分不同种类的手势，实现静态手势和动态手势的稳定处理。

应该理解的是，虽然图1至图8的流程图中的各个步骤按照箭头的指示依次显示，但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明，这些步骤的执行并没有严格的顺序限制，这些步骤可以以其它的顺序执行。而且，图1至图8中的至少一部分步骤可以包括多个步骤或者多个阶段，这些步骤或者阶段并不必然是在同一时刻执行完成，而是可以在不同的时刻执行，这些步骤或者阶段的执行顺序也不必然是依次进行，而是可以与其它步骤或者其它步骤中的步骤或者阶段的至少一部分轮流或者交替地执行。

在一个实施例中，如图9所示，提供了一种识别交互手势的装置，包括：

手势识别模块901，用于响应于检测到手部图像，识别手部图像中包含的手势属于静态手势或者动态手势；

静态交互手势识别模块902，用于当手势属于静态手势时，对以手部图像为起始帧图像的连续多帧图像进行手势保持检测处理，若检测到手势在连续多帧图像中保持不变，则确定手势为静态交互手势；

动态交互手势识别模块903，用于当手势属于动态手势时，对以手部图像为起始帧图像的连续多帧图像进行手势动作检测处理，若检测到手势在连续多帧图像中呈现出预设手势动作变化，则确定手势为动态交互手势。

在一个实施例中，动态交互手势识别模块903，进一步用于当手势属于动态手势时，识别手势为手部局部动态手势或者手部整体动态手势；

若手势为手部局部动态手势，则确定与手部局部动态手势对应的手部局部关键点；基于手部局部关键点在以手部图像为起始帧图像的连续多帧图像中的位置进行手势动作检测处理；

若手势为手部整体动态手势，则确定与手部整体动态手势对应的手部位置检测框；基于手部位置检测框在以手部图像为起始帧图像的连续多帧图像中的位置进行手势动作检测处理。

在一个实施例中，手部局部动态手势为手掌在图像中不发生移动，手指在图像中发生移动的局部动态手势，其中，手部局部关键点包括手指关键点且不包括手掌关键点；手部整体动态手势为手掌和手指在图像中发生移动，且手掌与手指之间相对静止的整体动态手势，其中，手部位置检测框为对手掌和手指在图像中进行框选的检测框。

在一个实施例中，动态交互手势识别模块903，进一步用于基于手指关键点在以手部图像为起始帧图像的连续多帧图像中的位置，得到手指关键点的移动轨迹；基于手指关键点的移动轨迹，判断手部局部动态手势是否在连续多帧图像中呈现出预设手势动作变化；

在一个实施例中，动态交互手势识别模块903，进一步用于获取手部位置检测框在手部图像和连续多帧图像中的位置；根据各位置确定手部整体动态手势的移动轨迹和移动幅度；基于手部整体动态手势的移动轨迹和移动幅度，判断手部整体动态手势是否在连续多帧图像中呈现出预设手势动作变化。

在一个实施例中，静态交互手势识别模块902，进一步用于当手势属于静态手势时，检测连续多帧图像是否均为手部图像；若连续多帧图像均为手部图像，则根据连续多帧图像中包含的手势是否均为静态手势，判断手势是否在连续多帧图像中保持不变。

在一个实施例中，手势识别模块901，进一步用于响应于检测到手部图像，检测预定义的全体手部关键点；基于全体手部关键点在手部图像中的位置，识别手部图像中包含的手势属于静态手势或者动态手势。

在一个实施例中，上述装置还包括手部检测模块，用于对当前帧待检测图像进行手部检测；若检测到当前帧待检测图像不是手部图像，则对与当前帧待检测图像间隔预设帧数的间隔帧图像进行手部检测；预设帧数对应的时间小于手部在图像中呈现出静态手势或动态手势的时间；若检测到间隔帧图像为手部图像，则根据以间隔帧图像为起始帧图像的连续多帧待检测图像，确定连续多帧待检测图像是否均为手部图像。

关于识别交互手势的装置的具体限定可以参见上文中对于识别交互手势的方法的限定，在此不再赘述。上述识别交互手势的装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中，也可以以软件形式存储于计算机设备中的存储器中，以便于处理器调用执行以上各个模块对应的操作。

在一个实施例中，提供了一种计算机设备，包括存储器和处理器，存储器存储有计算机程序，处理器执行计算机程序时实现上述各个方法实施例中的步骤。

在一个实施例中，提供了一种计算机可读存储介质，其上存储有计算机程序，计算机程序被处理器执行时实现上述各个方法实施例中的步骤。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，上述的计算机程序可存储于一非易失性计算机可读取存储介质中，该计算机程序在执行时，可包括如上述各方法的实施例的流程。其中，本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用，均可包括非易失性和易失性存储器中的至少一种。非易失性存储器可包括只读存储器（Read-Only Memory，ROM）、磁带、软盘、闪存或光存储器等。易失性存储器可包括随机存取存储器（Random Access Memory，RAM）或外部高速缓冲存储器。作为说明而非局限，RAM可以是多种形式，比如静态随机存取存储器（Static Random Access Memory，SRAM）或动态随机存取存储器（Dynamic Random Access Memory，DRAM）等。

以上实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

以上的实施例仅表达了本申请的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对发明专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本申请构思的前提下，还可以做出若干变形和改进，这些都属于本申请的保护范围。因此，本申请专利的保护范围应以所附权利要求为准。

Claims

1.一种识别交互手势的方法，其特征在于，所述方法包括：

当所述手势属于所述动态手势时，对以所述手部图像为起始帧图像的连续多帧图像进行手势动作检测处理，若检测到所述手势在所述连续多帧图像中呈现出预设手势动作变化，则确定所述手势为动态交互手势；

所述响应于检测到手部图像，识别所述手部图像中包含的手势属于静态手势或者动态手势，包括：

响应于检测到手部图像，检测预定义的全体手部关键点；

基于所述全体手部关键点在所述手部图像中的位置，识别所述手部图像中包含的手势属于静态手势或者动态手势；

所述当所述手势属于所述动态手势时，对以所述手部图像为起始帧图像的连续多帧图像进行手势动作检测处理，包括：

当所述手势属于所述动态手势时，识别所述手势为手部局部动态手势或者手部整体动态手势；

若所述手势为所述手部局部动态手势，则确定与所述手部局部动态手势对应的预定义的手指关键点；

基于所述手指关键点在以所述手部图像为起始帧图像的连续多帧图像中的位置，得到所述手指关键点的移动轨迹；

基于所述手指关键点的移动轨迹，判断所述手部局部动态手势是否在所述连续多帧图像中呈现出所述预设手势动作变化。

2.根据权利要求1所述的方法，其特征在于，所述当所述手势属于所述动态手势时，识别所述手势为手部局部动态手势或者手部整体动态手势之后，所述方法还包括：

若所述手势为所述手部整体动态手势，则确定与所述手部整体动态手势对应的手部位置检测框；基于所述手部位置检测框在以所述手部图像为起始帧图像的连续多帧图像中的位置进行所述手势动作检测处理。

3.根据权利要求2所述的方法，其特征在于，

所述手部局部动态手势为手掌在图像中不发生移动，手指在图像中发生移动的局部动态手势；

所述手部整体动态手势为所述手掌和所述手指在图像中发生移动，且所述手掌与所述手指之间相对静止的整体动态手势；其中，所述手部位置检测框为对手掌和手指在图像中进行框选的检测框。

4.根据权利要求3所述的方法，其特征在于，

所述基于所述手部位置检测框在以所述手部图像为起始帧图像的连续多帧图像中的位置进行所述手势动作检测处理，包括：

获取所述手部位置检测框在所述手部图像和所述连续多帧图像中的位置；

根据各位置确定所述手部整体动态手势的移动轨迹和移动幅度；

基于所述手部整体动态手势的移动轨迹和所述移动幅度，判断所述手部整体动态手势是否在所述连续多帧图像中呈现出所述预设手势动作变化。

5.根据权利要求1所述的方法，其特征在于，所述当所述手势属于所述静态手势时，对以所述手部图像为起始帧图像的连续多帧图像进行手势保持检测处理，包括：

当所述手势属于所述静态手势时，检测所述连续多帧图像是否均为手部图像；

若所述连续多帧图像均为手部图像，则根据所述连续多帧图像中包含的手势是否均为所述静态手势，判断所述手势是否在所述连续多帧图像中保持不变。

6.根据权利要求1所述的方法，其特征在于，所述响应于检测到手部图像，识别所述手部图像中包含的手势属于静态手势或者动态手势之前，所述方法还包括：

对当前帧待检测图像进行手部检测；

若检测到所述当前帧待检测图像不是手部图像，则对与所述当前帧待检测图像间隔预设帧数的间隔帧图像进行手部检测；所述预设帧数对应的时间小于手部在图像中呈现出所述静态手势或所述动态手势的时间；

若检测到所述间隔帧图像为手部图像，则根据以所述间隔帧图像为起始帧图像的连续多帧待检测图像，确定所述连续多帧待检测图像是否均为手部图像。

7.一种识别交互手势的装置，其特征在于，所述装置包括：

动态交互手势识别模块，用于当所述手势属于所述动态手势时，对以所述手部图像为起始帧图像的连续多帧图像进行手势动作检测处理，若检测到所述手势在所述连续多帧图像中呈现出预设手势动作变化，则确定所述手势为动态交互手势；

手势识别模块，还用于响应于检测到手部图像，检测预定义的全体手部关键点；基于所述全体手部关键点在所述手部图像中的位置，识别所述手部图像中包含的手势属于静态手势或者动态手势；

所述动态交互手势识别模块，还用于当所述手势属于所述动态手势时，识别所述手势为手部局部动态手势或者手部整体动态手势；若所述手势为所述手部局部动态手势，则确定与所述手部局部动态手势对应的预定义的手指关键点；基于所述手指关键点在以所述手部图像为起始帧图像的连续多帧图像中的位置，得到所述手指关键点的移动轨迹；基于所述手指关键点的移动轨迹，判断所述手部局部动态手势是否在所述连续多帧图像中呈现出所述预设手势动作变化。

8.根据权利要求7所述的装置，其特征在于，所述动态交互手势识别模块，还用于若所述手势为所述手部整体动态手势，则确定与所述手部整体动态手势对应的手部位置检测框；基于所述手部位置检测框在以所述手部图像为起始帧图像的连续多帧图像中的位置进行所述手势动作检测处理。

9.一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，其特征在于，所述处理器执行所述计算机程序时实现权利要求1至6中任一项所述的方法。

10.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1至6中任一项所述的方法。