CN112733577A

CN112733577A - 检测手部动作的方法和装置

Info

Publication number: CN112733577A
Application number: CN201911030310.7A
Authority: CN
Inventors: 李斐; 杨静; 刘汝杰
Original assignee: Fujitsu Ltd
Current assignee: Fujitsu Ltd
Priority date: 2019-10-28
Filing date: 2019-10-28
Publication date: 2021-04-30
Also published as: EP3816852A1; US20210124915A1; JP2021068443A

Abstract

公开了检测手部动作的方法和装置。该方法包括：在视频的一个帧图像中识别包含人的手部的区域；将所述区域划分为多个块，并且针对每个块计算运动矢量；将得到的多个运动矢量聚类为第一聚类和第二聚类，其中对应于第一聚类的运动矢量的多个第一块对应于左手和右手中的一个，并且对应于第二聚类的运动矢量的多个第二块对应于左手和右手中的另一个；识别第一聚类和第二聚类所对应的手在所述一个帧图像之后的帧图像中的运动；通过将所识别的运动与预定动作模式进行匹配，来确定手部的动作。

Description

检测手部动作的方法和装置

技术领域

本发明涉及动作检测方法和装置，更具体地，涉及通过运动场分析来检测手部动作的方法和装置。

背景技术

手部动作识别是计算机视觉中的一项重要任务，其主要目标是分析识别视频中的手部的动作类别。近年来，已经将基于深度学习的方法应用于该任务中，这种方法尽管具有较好的性能，但是仍然存在一些缺点。首先，为了训练模型，该方法需要对大量的数据预先进行标记，然而标记数据需要大量的人工劳动，并且针对某些应用可能很难获得大量已标记的数据。其次，通过训练得到的模型对于开发者而言类似一个“黑箱”，对于错误的输出往往很难给出合理的解释。第三，如果需要识别新的动作类别，该方法不能直接利用现有模型，而需要重新训练新的模型。

发明内容

针对基于深度学习的方法中存在的上述缺点，本发明提出了一种新的手部动作检测方法。根据本发明的方法分析视频的每个帧中的手部区域的运动场，由此，即使两只手在很大程度上互相重叠，也能够根据运动信息在每个帧图像中将两只手区分开。此外，在本发明中，基于两只手的绝对运动和/或相对运动来描述每种手部动作，并且基于预先定义的动作模式来识别手部动作。因此，相比于基于深度学习的方法，本发明对于要识别的各种手部动作进行基于运动信息的高层描述，这样的描述更多地依赖于先验知识，而不是大量数据。以此方式，通过本发明的方法得到的识别结果对于开发者而言更容易理解，并且增加新的动作类别也更加方便。

根据本发明的一个方面，提供了一种用于检测手部动作的方法，包括：在视频的一个帧图像中识别包含人的手部的区域；将所述区域划分为多个块，并且针对每个块计算运动矢量；将得到的多个运动矢量聚类为第一聚类和第二聚类，其中对应于第一聚类的运动矢量的多个第一块对应于左手和右手中的一个，并且对应于第二聚类的运动矢量的多个第二块对应于左手和右手中的另一个；识别第一聚类和第二聚类所对应的手在所述一个帧图像之后的帧图像中的运动；通过将所识别的运动与预定动作模式进行匹配，来确定手部的动作。

根据本发明的另一个方面，提供了一种用于检测手部动作的装置，包括一个或多个处理器，所述处理器被配置为：在视频的一个帧图像中识别包含人的手部的区域；将所述区域划分为多个块，并且针对每个块计算运动矢量；将得到的多个运动矢量聚类为第一聚类和第二聚类，其中对应于第一聚类的运动矢量的多个第一块对应于左手和右手中的一个，并且对应于第二聚类的运动矢量的多个第二块对应于左手和右手中的另一个；识别第一聚类和第二聚类所对应的手在所述一个帧图像之后的帧图像中的运动；通过将所识别的运动与预定动作模式进行匹配，来确定手部的动作。

根据本发明的另一个方面，提供了一种存储有程序的记录介质，所述程序在被计算机执行时，使得计算机实现如上所述的检测手部动作的方法。

附图说明

图1示意性地示出了根据本发明的手部动作检测方法的流程图。

图2示出了在帧图像中区分左手和右手的一个示例。

图3示出了图1中的步骤S140的处理的一个示例。

图4示出了图1中的步骤S140的处理的另一个示例。

图5示出了实现本发明的计算机硬件的示例性配置框图。

具体实施方式

图1示出了根据本发明的手部动作检测方法的流程图，图2示出了在一个示意性的帧图像中的相应处理。

如图1所示，在步骤S110，在视频的特定帧图像中检测包含人的手部的区域。图2示出了在示意性的帧图像中检测到的手部区域。

作为一个示例，在步骤S110中可以采用基于颜色的检测方法。例如，在手部作为主要对象的视频中，可以在帧图像中检测具有皮肤颜色的区域，作为手部区域。作为另一个示例，可以采用传统的基于深度学习的检测方法。由于检测包含手部的区域是一项相对简单的任务，因此可以采用已知的检测模型，并且易于获得大量包含手的普通图像作为训练数据。因此，在这一步骤中使用基于深度学习的方法也是适宜的。

在步骤S120，针对该特定帧图像，将所检测的手部区域划分为多个块，并且计算每个块的运动矢量。在图2中利用箭头来表示每个块的运动矢量。在本发明中不对块的尺寸进行限制，本领域技术人员易于根据实际应用或设计要求而选择适当的块尺寸。

通过将所有块的运动矢量布置在一起，可以得到运动场，本发明通过分析运动场而在帧图像中区分并识别左手和右手。特别地，可能存在以下情况：由于双手无意地向某一方向同时运动，或者摄像机在拍摄过程中发生移动，导致在视频中存在双手的整体运动，例如，两只手的整体平移运动。在这种情况下，可以针对检测到的手部区域计算全局运动矢量，并且从每个块的运动矢量中减去该全局运动矢量。以此方式，能够消除或减小两只手的共同运动的影响，以便更准确地检测每只手的动作。需要说明的是，本领域技术人员易于采用任何已知的方法来计算全局运动矢量，本发明对此不作限制。

在步骤S130，针对该特定帧图像，将所得到的各个块的运动矢量进行聚类。本领域技术人员可以使用任何适当的聚类算法执行该步骤。作为一个示例，可以采用K＝2的K均值聚类算法，以得到两个聚类的运动矢量。与第一聚类的运动矢量对应的多个块是对应于左手和右手之一的块，与第二聚类的运动矢量对应的多个块是对应于左手和右手中的另一个的块。由此，在该特定帧图像的手部区域中可以将双手彼此区分开。进一步地，作为另一个示例，可以使用每个聚类的运动矢量的平均值来描述相应的手的运动。

在图2所示的示意性帧图像中，通过对各个块的运动矢量进行聚类，得到两个聚类，即，运动矢量A和运动矢量B。进一步地，可以将对应于运动矢量A的一组块和对应于运动矢量B的一组块区分开，从而将双手区分开。

通过执行以上操作已经在特定帧图像中将分别对应于两只手的两组块彼此区分开，如果该特定帧图像是视频中的第一帧，则可以指定一组块对应于左手，而另一组块对应于右手。作为一个示例，可以基于两组块之间的相对位置来指定。例如，可以将相对位于上侧的一组块指定为对应于右手的块，将相对位于下侧的一组块指定为对应于左手的块，如图2所示。或者，也可以将相对位于左侧的一组块指定为对应于左手，将相对位于右侧的一组块指定为对应于右手。本发明不限于这些具体示例，本领域技术人员易于根据两组块的相对位置关系作出适当的指定。另一方面，如果该特定帧图像不是第一帧，则可以根据下文结合图3和图4描述的方法来具体确定对应于左手的块和对应于右手的块。

在步骤S140中确定对应于每只手的块在特定帧图像之后的帧图像中的运动，即，在视频的后续帧图像中识别左手和右手的运动。稍后将结合图3和图4来具体描述步骤S140的处理。

然后，在步骤S150，通过将所识别的双手的运动与预定动作模式进行匹配，从而确定手部的动作。预定动作模式可以是开发者根据先验知识而预先定义的。例如，可以将两只手沿相反方向移动定义为搓手的动作模式。此外，还可以根据以下因素来进一步限定搓手动作模式：在若干个连续帧中的手的运动速度，手的运动速度的周期性改变，当速度降为零时运动方向发生改变，等等。如果通过步骤S140所识别的双手的运动与搓手的动作模式相符，则可以确定视频中的手部动作是搓手这一动作。

以上以搓手动作为例简单地描述了预定动作模式，本领域技术人员易于根据实际设计要求而设定多种动作模式，例如，可以考虑手的运动方向、运动速度、手的形状中的一个或多个因素来预先设定动作模式。

在考虑手的形状的情况下，还以搓手动作为例，如果两只手的移动方向相反并且所识别的每只手的区域都不包括细长形状的部分，这暗示手指是并拢的，可以将这样的动作定义为双手手掌对搓的动作模式。另一方面，如果两只手的移动方向相反但每只手的区域都包括细长形状的部分，这暗示手指是分开的，可以将这样的动作定义为双手手指交叉对搓的动作模式。

此外，如果一只手在帧图像中基本不动，而另一只手沿某一方向移动且该手的区域包括细长的部分(手指是分开的)，可以将这样的动作定义为一只手沿另一只手的指缝进行搓动的动作模式。

在上述手指分开的示例中，如果进一步根据细长部分的形状而识别出拇指(最粗的细长部分对应于拇指)，则可以根据拇指与其他手指的相对位置关系而更精细地限定动作模式。例如，如果两只手的拇指在其它手指的同侧，则可以将这样的动作定义为手心相对的搓动模式，如果两只手的拇指分别在其它手指的不同侧，则可以将这样的动作定义为手心与手背叠置的搓动模式。

通过以上示例可以看出，本发明对于各种手部动作模式的定义是基于双手的运动信息和/或形状信息的高层描述，该定义更多地依赖于先验知识，而不是大量数据。

下面将参照图3来描述图1中的步骤S140的处理的一个示例。在该示例中，为了便于理解本发明的方法，假定特定帧图像是视频中的第一个帧，并且在下文中将其称为“第一帧图像”。

在通过步骤S110-S130在第一帧图像中识别左手和右手之后，针对紧接在第一帧图像之后的第二帧图像检测包含手部的区域(步骤S341)，将所检测的区域划分为多个块并且针对每个块计算运动矢量(步骤S342)，然后将所计算的运动矢量聚类为第三聚类和第四聚类，根据聚类结果来区分对应于两只手的两组块(步骤S343)。步骤S341-S343与图1所示的针对第一帧图像执行的步骤S110-S130相同，因此省略其详细描述。

此时，虽然对应于两只手的两组块已被彼此区分，但尚未确定哪组对应于左手以及哪组对应于右手。因此，在步骤S344中根据位置关系来具体确定对应于左手的一组块以及对应于右手的一组块。作为一个示例，在第二帧图像中，如果相对于与第三聚类的运动矢量对应的一组块而言，与第四聚类的运动矢量对应的一组块位于右侧，则可以认为与第三聚类的运动矢量对应的一组块是对应于左手的块，与第四聚类的运动矢量对应的一组块是对应于右手的块。作为另一个示例，也可以将两组块中的相对位于上侧的一组块指定为对应于左手的块，将相对位于下侧的一组块指定为对应于右手的块。

然后，在步骤S345，针对第二帧图像之后的第三帧图像，执行与第二帧图像相同的处理，从而在第三帧图像中确定分别对应于左手和右手的块，以此类推，对视频中的所有后续帧执行相同处理。利用这种方式，可以在视频的每个帧图像中识别出左手和右手。

然后，通过分析每帧的识别结果，可以确定在视频中双手各自的运动，如步骤S346所示。

图3所示的方法具有处理简单的优点，但是由于在视频中左手和右手的位置可能发生交换，并且该方法在各个帧图像中独立地进行识别，因此可能存在着在各个帧图像中确定的左手或右手不一致的问题。例如，由于双手的位置发生交换，在上一帧图像中确定为左手的块可能在下一帧图像中位于右侧，从而被识别为右手，这可能导致不能准确地识别双手的运动。

以下将参照图4来描述图1中的步骤S140的处理的另一个示例。在该示例中，同样假定特定帧图像是视频中的第一个帧，并且在下文中将其称为“第一帧图像”。

在第一帧图像中识别出对应于左手和右手的块之后，在紧接在第一帧图像之后的第二帧图像中检测包含手部的区域(步骤S441)，将所检测的区域划分为多个块并且针对每个块计算运动矢量(步骤S442)，然后将所计算的运动矢量聚类为第三聚类和第四聚类，并根据聚类结果将对应于两只手的两组块彼此区分(步骤S443)。步骤S441-S443与图1所示的针对第一帧图像执行的步骤S110-S130相同，因此省略其详细描述。

此时，可以确定的是，与第三聚类的运动矢量对应的一组块是对应于左手和右手之一的块，与第四聚类的运动矢量对应的一组块是对应于左手和右手中的另一个的块。但是还不确定哪组块对应于左手，哪组块对应于右手。

在步骤S444，预测在第一帧图像中确定的对应于左手的块在第二帧图像中的位置(下文中称为“左手预测位置”)，以及预测在第一帧图像中确定的对应于右手的块在第二帧图像中的位置(下文中称为“右手预测位置”)。

然后，将在步骤S444中得到的预测位置与在步骤S443中得到的对应于第三聚类和第四聚类的块的位置进行比较，根据比较结果来确定在第二帧图像中对应于左手的块和对应于右手的块，如步骤S445所示。作为一个示例，可以将对应于第三聚类和第四聚类的两组块当中的、与左手预测位置交叠或接近的一组块确定为对应于左手的块，并且将对应于第三聚类和第四聚类的两组块当中的、与右手预测位置交叠或接近的一组块确定为对应于右手的块。

然后，针对第二帧图像之后的第三帧图像，执行与第二帧图像相同的处理，从而在第三帧图像中确定分别对应于左手和右手的块。特别地，在针对第三帧图像的处理中，预测在第二帧图像中确定的对应于每只手的块在第三帧图像中的位置。类似于第三帧图像，对视频中的所有后续帧执行处理，如步骤S446所示。利用这种方式，可以在视频的每个帧图像中识别出左手和右手。

然后，在步骤S447，通过分析每帧中的识别结果，可以确定在视频中双手各自的运动。

利用图4所示的方法，可以在视频的每个帧图像中识别出左手和右手，从而在视频中识别出双手各自的运动。此外，该方法在各个帧图像中识别出的左手和右手具有一致性，即使双手的位置发生交换，也可以在视频中准确地追踪左手和右手的运动。

以上已经结合具体实施例描述了本发明的方案。在本发明中，由于根据运动矢量的聚类来区分对应于两只手的块，因此即使两只手在很大程度上互相重叠，也能够根据运动信息将两只手区分开。此外，本发明基于先验知识来定义手部动作的类别，因此，识别结果对于开发者而言更容易理解，并且增加新的动作类别也更加方便。

在上文中描述的方法可以由软件、硬件或者软件和硬件的组合来实现。包括在软件中的程序可以事先存储在设备的内部或外部所设置的存储介质中。作为一个示例，在执行期间，这些程序被写入随机存取存储器(RAM)并且由处理器(例如CPU)来执行，从而实现在本文中描述的各种处理。

图5示出了根据程序来执行本发明的方法的计算机硬件的示例性框图，该计算机硬件是根据本发明的用于检测手部动作的装置的一个示例。

如图5所示，在计算机500中，中央处理单元(CPU)501、只读存储器(ROM)502以及随机存取存储器(RAM)503通过总线504彼此连接。

输入/输出接口505进一步与总线504连接。输入/输出接口505连接有以下组件：以键盘、鼠标、麦克风等形成的输入单元506；以显示器、扬声器等形成的输出单元507；以硬盘、非易失性存储器等形成的存储单元508；以网络接口卡(诸如局域网(LAN)卡、调制解调器等)形成的通信单元509；以及驱动移动介质511的驱动器510，该移动介质511例如是磁盘、光盘、磁光盘或半导体存储器。

在具有上述结构的计算机中，CPU 501将存储在存储单元508中的程序经由输入/输出接口505和总线504加载到RAM 503中，并且执行该程序，以便执行上文中描述的方法。

要由计算机(CPU 501)执行的程序可以被记录在作为封装介质的移动介质511上，该封装介质以例如磁盘(包括软盘)、光盘(包括压缩光盘-只读存储器(CD-ROM))、数字多功能光盘(DVD)等)、磁光盘、或半导体存储器来形成。此外，要由计算机(CPU 501)执行的程序也可以经由诸如局域网、因特网、或数字卫星广播的有线或无线传输介质来提供。

当移动介质511安装在驱动器510中时，可以将程序经由输入/输出接口505安装在存储单元508中。另外，可以经由有线或无线传输介质由通信单元509来接收程序，并且将程序安装在存储单元508中。可替选地，可以将程序预先安装在ROM 502或存储单元508中。

由计算机执行的程序可以是根据本说明书中描述的顺序来执行处理的程序，或者可以是并行地执行处理或当需要时(诸如，当调用时)执行处理的程序。

本文中所描述的单元或装置仅是逻辑意义上的，并不严格对应于物理设备或实体。例如，本文所描述的每个单元的功能可能由多个物理实体来实现，或者，本文所描述的多个单元的功能可能由单个物理实体来实现。此外，在一个实施例中描述的特征、部件、元素、步骤等并不局限于该实施例，而是也可以应用于其它实施例，例如替代其它实施例中的特定特征、部件、元素、步骤等，或者与其相结合。

本发明的范围不限于在本文中描述的具体实施例。本领域普通技术人员应该理解的是，取决于设计要求和其他因素，在不偏离本发明的原理和精神的情况下，可以对本文中的实施例进行各种修改或变化。本发明的范围由所附权利要求及其等同方案来限定。

附记：

1.一种用于检测手部动作的方法，包括：

在视频的一个帧图像中识别包含人的手部的区域；

将所述区域划分为多个块，并且针对每个块计算运动矢量；

将得到的多个运动矢量聚类为第一聚类和第二聚类，其中对应于第一聚类的运动矢量的多个第一块对应于左手和右手中的一个，并且对应于第二聚类的运动矢量的多个第二块对应于左手和右手中的另一个；

识别所述第一聚类和所述第二聚类所对应的手在所述一个帧图像之后的帧图像中的运动；

通过将所识别的运动与预定动作模式进行匹配，来确定手部的动作。

2.根据1所述的方法，还包括：基于所识别的运动确定所述手部进行重复性动作，并且确定所述重复性动作的次数。

3.根据1所述的方法，其中，

基于颜色在所述一个帧图像中识别所述区域；或者

利用基于深度学习的模型在所述一个帧图像中识别所述区域。

4.根据1所述的方法，还包括：在进行聚类之前，从所计算的每个块的运动矢量中减去全局运动矢量，

其中，所述全局运动矢量表征所述第一聚类和所述第二聚类所对应的手进行的共同运动，或者表征拍摄所述视频的摄像机的运动。

5.根据1所述的方法，其中，所述第一聚类和所述第二聚类中的每一聚类的运动矢量的平均值表征与该聚类相对应的手的运动。

6.根据1所述的方法，还包括：基于在所述一个帧图像中的所述多个第一块和所述多个第二块，在所述一个帧图像之后的另一帧图像中确定分别对应于左手和右手的块。

7.根据6所述的方法，还包括：

在所述另一帧图像中识别包含手部的区域，针对所确定的区域中的每个块计算运动矢量，并且将所计算的运动矢量聚类为第三聚类和第四聚类，其中第三聚类的运动矢量对应于多个第三块，第四聚类的运动矢量对应于多个第四块；

分别预测所述多个第一块和所述多个第二块在所述另一帧图像中的位置；

将所述多个第一块和所述多个第二块的预测位置与所述多个第三块和所述多个第四块的位置进行比较；

根据比较结果确定所述另一帧图像中对应于左手的块和对应于右手的块。

8.根据7所述的方法，其中，

将与所述多个第一块的预测位置交叠或接近的、所述多个第三块和所述多个第四块中的一者确定为对应于左手和右手中的所述一个；

将与所述多个第二块的预测位置交叠或接近的、所述多个第三块和所述多个第四块中的另一者确定为对应于左手和右手中的所述另一个。

9.根据1所述的方法，其中，在所述预定动作模式中，通过左手和右手的运动方向、运动速度、形状中的一个或多个来限定所述手部的动作。

10.一种用于检测手部动作的装置，包括一个或多个处理器，所述处理器被配置为：

在视频的一个帧图像中识别包含人的手部的区域；

将所述区域划分为多个块，并且针对每个块计算运动矢量；

11.一种存储有程序的记录介质，所述程序在被计算机执行时，使得计算机执行根据1-9所述的检测手部动作的方法。

Claims

1.一种用于检测手部动作的方法，包括：

在视频的一个帧图像中识别包含人的手部的区域；

将所述区域划分为多个块，并且针对每个块计算运动矢量；

2.根据权利要求1所述的方法，还包括：基于所识别的运动确定所述手部进行重复性动作，并且确定所述重复性动作的次数。

3.根据权利要求1所述的方法，其中，

基于颜色在所述一个帧图像中识别所述区域；或者

4.根据权利要求1所述的方法，还包括：在进行聚类之前，从所计算的每个块的运动矢量中减去全局运动矢量，

5.根据权利要求1所述的方法，其中，所述第一聚类和所述第二聚类中的每一聚类的运动矢量的平均值表征与该聚类相对应的手的运动。

6.根据权利要求1所述的方法，还包括：基于在所述一个帧图像中的所述多个第一块和所述多个第二块，在所述一个帧图像之后的另一帧图像中确定分别对应于左手和右手的块。

7.根据权利要求6所述的方法，还包括：

8.根据权利要求7所述的方法，其中，

9.根据权利要求1所述的方法，其中，在所述预定动作模式中，通过左手和右手的运动方向、运动速度、形状中的一个或多个来限定所述手部的动作。

在视频的一个帧图像中识别包含人的手部的区域；

将所述区域划分为多个块，并且针对每个块计算运动矢量；