CN110110660B

CN110110660B - 手部操作行为的分析方法、装置及设备

Info

Publication number: CN110110660B
Application number: CN201910375645.6A
Authority: CN
Inventors: 刘文印; 周小静; 陈俊洪; 梁达勇; 叶子涵; 张启翔
Original assignee: Guangdong University of Technology
Current assignee: Guangdong University of Technology
Priority date: 2019-05-07
Filing date: 2019-05-07
Publication date: 2023-04-07
Anticipated expiration: 2039-05-07
Also published as: CN110110660A

Abstract

本申请公开了一种手部操作行为的分析方法，在获取目标视频后，会对目标视频中的手部和物体进行识别，进而根据手部与物体之间的动作从目标视频提取多个子视频，并确定子视频的动作分析结果，最终根据各个子视频的动作分析结果和时序关系确定目标视频的操作行为分析结果。可见，该方法考虑到操作行为的动态变化的特性，将目标视频的操作行为分解为多个动作，在分析过程中先对各个动作对应的子视频进行分析，再根据动作的分析结果确定整个操作行为的分析结果，实现了对动态操作行为的分析理解，显著提升了操作行为分析结果的可靠性。此外，本申请还提供了一种手部操作行为的分析装置、设备及计算机可读存储介质，其作用与上述方法相对应。

Description

手部操作行为的分析方法、装置及设备

技术领域

本申请涉及计算机视觉领域，特别涉及一种手部操作行为的分析方法、装置、设备及计算机可读存储介质。

背景技术

操作行为的分析理解是建立任何动作机制的基础，由于许多潜在的应用，如人机交互、智能监控等，对人类行为活动的识别是一个很活跃的研究领域，并且目前已经有了许多不同的方法。

对操作行为的理解主要依托于计算机视觉技术，对视觉传感器采集到的图像进行特征提取，并建立相关模型后进行适当分析推理，因此能否提出一种合理的有效的分析模型直接关系到能否准确理解操作行为。在现有的针对手部操作行为的分析理解方法中，大部分研究是基于单张RGB图像对手部操作进行分析，然而，该方法明显的弊端在于基于一个静态模型中研究手势、物体与动作之间的上下文关系，由于在现实生活中，操作行为是一个复杂的动态的过程，整个过程包括手势、物体或动作的变化，因此，该方法对手部操作行为的分析可靠性较低。

发明内容

本申请的目的是提供一种手部操作行为的分析方法、装置、设备及计算机可读存储介质，用以解决传统的对手部操作行为的分析方法主要基于单张静态图像实现，导致分析结果的可靠性较低的问题。

为解决上述技术问题，本申请提供了一种手部操作行为的分析方法，包括：

获取目标视频，对所述目标视频中的手部和物体进行识别；

按照所述手部与所述物体之间的动作从所述目标视频提取多个子视频；

确定所述子视频的动作分析结果；

根据各个所述子视频的动作分析结果和时序关系，确定所述目标视频的操作行为分析结果。

可选的，所述按照所述手部与所述物体之间的动作从所述目标视频提取多个子视频，包括：

确定所述目标视频中所述手部和所述物体之间的空间关系；

根据所述空间关系，确定所述手部与所述物体的交互动作过程的起止点；

根据所述交互动作过程的起止点从所述目标视频提取多个子视频，得到多个子视频。

可选的，所述根据所述空间关系，确定所述手部与所述物体的交互动作过程的起止点，包括：

根据所述手部和所述物体之间的相对速度和相对位置，确定所述手部与所述物体的交互动作过程的起止点。

可选的，所述确定所述子视频的动作分析结果，包括：

确定所述子视频中所述物体的物体类别；

根据所述物体类别、预先设置的物体类别与手势类别之间的约束关系，确定所述子视频中所述手部的手势类别；

根据所述物体类别、所述手部的手势类别、预先设置的物体类别和手势类别及动作类别之间的约束关系，确定所述子视频中所述手部的动作类别，以作为所述子视频的动作分析结果。

可选的，所述根据所述物体类别、预先设置的物体类别与手势类别之间的约束关系，确定所述子视频中所述手部的手势类别，包括：

根据所述物体类别、预先设置的物体类别与手势类别之间的约束关系，结合对所述子视频中所述手部的手势类别识别结果，确定所述子视频中所述手部的手势类别。

可选的，在所述确定所述子视频中所述物体的物体类别之前，还包括：

预先确定物体类别、手势类别、动作类别的发生概率以作为类别确定过程的先验知识。

可选的，所述确定所述子视频中所述物体的物体类别，包括：

确定所述子视频中所述物体的物体属性类别和物体形状类别，其中所述物体属性类别包括刚性和柔性。

本申请还提供了一种手部操作行为的分析装置，包括：

视频获取模块：用于获取目标视频，对所述目标视频中的手部和物体进行识别；

子视频提取模块：用于按照所述手部与所述物体之间的动作从所述目标视频提取多个子视频；

动作分析模块：用于确定所述子视频的动作分析结果；

操作行为分析模块：用于根据各个所述子视频的动作分析结果和时序关系，确定所述目标视频的操作行为分析结果。

此外，本申请还提供了一种手部操作行为的分析设备，包括：

存储器：用于存储计算机程序；

处理器：用于执行所述计算机程序以实现如上所述的一种手部操作行为的分析方法的步骤。

最后，本申请还提供了一种计算机可读存储介质，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器执行时用于实现如上所述的一种手部操作行为的分析方法的步骤。

本申请所提供的一种手部操作行为的分析方法，在获取目标视频后，会对目标视频中的手部和物体进行识别，进而根据手部与物体之间的动作从目标视频提取多个子视频，并确定子视频的动作分析结果，最终根据各个子视频的动作分析结果和时序关系，确定目标视频的操作行为分析结果。可见，该方法在基于视频对手部操作行为进行分析理解的过程中，考虑到操作行为的动态变化的特性，将目标视频的操作行为分解为多个动作，在分析过程中先对各个动作对应的子视频进行分析，再根据动作的分析结果确定整个操作行为的分析结果，实现了对动态操作行为的分析理解，显著提升了操作行为分析结果的可靠性。

此外，本申请还提供了一种手部操作行为的分析装置、设备及计算机可读存储介质，其作用与上述方法相对应，这里不再赘述。

附图说明

为了更清楚的说明本申请实施例或现有技术的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单的介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本申请所提供的一种手部操作行为的分析方法实施例一的实现流程图；

图2为本申请所提供的一种手部操作行为的分析方法实施例二的实现流程图；

图3为本申请所提供的一种手部操作行为的分析装置实施例的功能框图；

图4为本申请所提供的一种手部操作行为的分析设备实施例的结构示意图。

具体实施方式

本申请的核心是提供一种手部操作行为的分析方法、装置、设备及计算机可读存储介质，实现了对操作行为的动态分析，提升了操作行为分析结果的可靠性。

为了使本技术领域的人员更好地理解本申请方案，下面结合附图和具体实施方式对本申请作进一步的详细说明。显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

下面对本申请提供的一种手部操作行为的分析方法实施例一进行介绍，参见图1，实施例一包括：

步骤S101：获取目标视频，对所述目标视频中的手部和物体进行识别；

本实施例主要用于实现对手部操作行为的分析理解，上述目标视频是指待进行分析处理的视频，因此，目标视频中包括手部，还包括与手部进行互动的物体，本实施例对目标视频的格式不进行限定。在对操作行为进行分析之前，首先对手部和物体进行识别，具体的，可以通过相应的检测网络模型分别对手部和物体进行识别。

步骤S102：按照所述手部与所述物体之间的动作从所述目标视频提取多个子视频；

为了实现对操作行为的动态分析，本实施例将目标视频中的操作行为分解为多个动作。因为手部操作行为的重点在于手部与物体之间的交互，所以找到手部与物体的交互过程的开始与结束，即可确定一个完整的动作，具体的，本实施例根据手部与物体之间的空间关系从目标视频提取各个动作，得到多个子视频。

步骤S103：确定所述子视频的动作分析结果；

本实施例通过对子视频的一帧或多帧图像进行分析以确定动作分析结果，关于图像的获取方式，可以按照一定频率从子视频中抽取得到，也可以按照某种标准从子视频的多帧图像筛选得到，甚至可以在按照一定频率抽取得到多帧图像之后，再按照某种标准筛选得到最终的图像。其中，筛选的标准可以为图像的清晰度，图像中手部或物体的可辨识度等等。

为了便于多图像进行分析，本实施例预先对物体和手部进行了分类，在分析过程中，首先利用分类器分别确定图像中手部的类别和物体的类别，再根据上下文关系确定动作分析结果。具体的，本实施例从两个方面对手部进行分类，即图像中手部的手势类别以及图像中手部的动作类别。

此外，作为一种优选的实施方式，本实施例预先确定物体类别、手势类别、动作类别的发生概率以作为类别确定过程的先验知识。

步骤S104：根据各个所述子视频的动作分析结果和时序关系，确定所述目标视频的操作行为分析结果。

由于操作行为中的动作先后等时序信息对从语义上研究行为具有一定参考意义，因此，本实施例综合子视频的动作分析结果和时序关系两个因素确定目标视频的操作行为分析结果，其中时序信息具体指各个子视频在目标视频中出现的先后顺序。

本实施例所提供一种手部操作行为的分析方法，在获取目标视频后，会对目标视频中的手部和物体进行识别，进而根据手部与物体之间的动作从目标视频提取多个子视频，并确定子视频的动作分析结果，最终根据各个子视频的动作分析结果和时序关系，确定目标视频的操作行为分析结果。可见，该方法在基于视频对手部操作行为进行分析理解的过程中，考虑到操作行为的动态变化的特性，将目标视频的操作行为分解为多个动作，在分析过程中先对各个动作对应的子视频进行分析，再根据动作的分析结果确定整个操作行为的分析结果，实现了对动态操作行为的分析理解，显著提升了操作行为分析结果的可靠性。

下面开始详细介绍本申请提供的一种手部操作行为的分析方法实施例二，实施例二基于上述实施例一实现，并在实施例一的基础上进行了一定程度上的拓展。

参见图2，实施例二具体包括：

步骤S201：获取目标视频，对所述目标视频中的手部和物体进行识别；

本实施例预先创建了手部和物体的检测网络模型，并分别对手部和物体的检测网络模型进行训练，在识别过程中，利用训练完成的检测网络模型分别对手部与物体进行检测识别。具体的，上述目标视频的视频格式可以为AVI、MOV、WMV等。

步骤S202：确定所述目标视频中所述手部和所述物体之间的相对速度和相对位置；

因为手部操作行为的重点在于手部与物体之间的交互，所以确定手部与物体的交互开始与结束即可确定一个完整的动作。本实施例根据手部与物体在空间关系，即计算它们之间的相对速度与相对位置判断手部是否接近或远离物体，从而实现从目标视频提取多个动作。

步骤S203：根据所述手部和所述物体之间的相对速度和相对位置，确定所述手部与所述物体的交互动作过程的起止点；

步骤S204：根据所述交互动作过程的起止点从所述目标视频提取多个子视频，得到多个子视频；

步骤S205：确定所述子视频中所述物体的物体类别；

本实施例预先创建了用于识别物体类别的分类器，并依据上述物体类别的分类方式利用相应的训练样本对分类器进行训练，因此，在识别物体类别的过程中，可直接利用训练完成的物体类别分类器对子视频中的物体进行识别。

本实施例针对厨房烹饪过程中手部操作进行分析，因此，本实施例预先对手部操作行为中的手势及动作进行类别定义。具体的，本实施例将手势划分为7种类型，分别为{握、攥、钩、两指捏取、三指捏取、夹、托}，如表1所示；本实施例将动作划分为6中类型，分别为{倒、添加、搅拌、拿取、捣、切}，如表2所示。在后续的分析过程中，任意复杂的烹饪行为足以使用这几种动作的任意组合来描述。对于物体的分类，本实施例主要考虑通过两个方面对其进行分类，即物体的形状和物体的属性，作为一种可选的实施方式，本实施例根据物体属性对物体进行分类，其中物体属性包括刚性和柔性。

表1

表2

步骤S206：根据所述物体类别、预先设置的物体类别与手势类别之间的约束关系，结合对所述子视频中所述手部的手势类别识别结果，确定所述子视频中所述手部的手势类别；

具体的，本实施例预先创建了用于识别手势类别的分类器，并依据上述手势的分类方式利用相应的训练样本对分类器进行训练，因此，在识别手势类别的过程中，可直接利用训练完成的手势类别分类器对子视频中手部的手势进行识别，得到手势识别分类结果。

对于人类手部操作行为的分析理解，除了对手势、物体及动作的识别，还要考虑它们彼此间的关联信息。以打开瓶盖为例，在对手势、物体及动作识别出来后，如果在它们之间的关系信息发生错误，最后得出的对该动作的理解会与动作原本含义存在偏差。为了避免这种问题出现，本实施例考虑在手势、物体及动作之间设置一定的关系约束，即手势、物体及动作之间的上下文关系，上下文关系具体包括手势类别与属性类别之间的物理性约束关系、物体类别、手势类别、动作类别三者之间的功能性约束关系。

对于功能性约束关系来说，手势与物体类别可以为不同的操作动作在功能上提供补充性的特征，譬如给定同一支笔，如果采用的手势为三指捏取，那么可以确认的是动作类别是书写，以达到书写的目的；如果采用的手势为两指捏取，那么可以确定的是动作类别是拿取，以达到将笔拿起来的目的。如果动作类别已知，那么可以为手势的采用及处理的物体的类别进行一定约束，例如，动作“用勺舀”已知，我们可以确定这个动作更可能是发生在一个容器(如瓶子)与一个长形的工具(如勺子)之间，其中瓶子应该是以某种力量型的手势抓取，如握，而勺子则是以某种精确型的手指抓取，如三指捏取。对于物理性约束关系，本实施例不再举例说明。

作为一种具体的实施方式，本实施例中手势类别的确定过程如下：首先利用物体属性分类器对图像进行分析处理，得到与手部发生交互的物体的属性类别；然后，根据手势类别与属性类别之间的物理性约束关系，对子视频中的手势类别进行预判，得到预判结果；最后，对预判结果和手势识别分类结果进行综合分析，以确定最终的手势类别。

作为一种优选的实施方式，本实施例预先计算了选定的数据集中每种手势、物体属性及动作的概率以作为先验知识，在确定手势类别的过程中，可以综合手势识别结果、手势类别与属性类别之间的物理性约束关系、先验知识三者来确定手势类别。

步骤S207：根据所述物体类别、所述手部的手势类别、预先设置的物体类别和手势类别及动作类别之间的约束关系，确定所述子视频中所述手部的动作类别，以作为所述子视频的动作分析结果；

本实施例预先创建了用于识别动作类别的分类器，并依据上述动作的分类方式利用相应的训练样本对分类器进行训练，因此，在识别动作类别的过程中，可直接利用训练完成的动作类别分类器对子视频中手部的动作进行识别，得到动作识别分类结果。

作为一种具体的实施方式，本实施例中动作类别的确定过程如下：根据物体类别和手势类别及动作类别之间的功能性约束关系，对子视频中的动作类别进行预判，得到预判结果；对预判结果和动作识别分类结果进行综合分析，以确定最终的动作类别。其中，动作识别结果是指通过动作分类器直接对子视频中的图像进行处理得到的动作类别。

相应的，作为一种优选的实施方式，在确定手势类别的过程中，可以综合动作识别分类结果、物体类别和手势类别及动作类别之间的功能性约束关系、先验知识三者来确定动作类别。

步骤S208：根据各个所述子视频的动作分析结果和时序关系，确定所述目标视频的操作行为分析结果。

在得到各个子视频的动作分析结果后，根据各个动作分析结果和时序关系即可确定最终的操作行为分析结果，本实施例除了对手势、物体及动作的识别还考虑了三者彼此间的关联信息，实现了理解整个操作行为的目的。例如烹饪过程中一个炒菜的操作，其中可以理解为左手握住锅柄，该动作为拿取，右手捏着锅铲进行搅拌的动作。给定任意一个烹饪片段，本实施例都能够对其中的操作行为进行一定的理解。

可见，本实施例提供的一种手部操作行为的分析方法，对常用手势、常用动作、物体属性进行精简分类，并在分类的基础上设置了三者之间的约束关系，不同于现有操作行为理解方法对单张图像进行理解，本实施例根据手部与物体间的空间关系对操作行为进行分段后，再利用预先设置的手势、物体及动作之间的上下文关系对每个分段的动作进行识别分类，最后达理解整个操作行为的目的，从而实现了对视频中的操作行为的理解，而不仅仅是单张图像中的静态动作，提高了操作行为分析结果的可靠性。

下面对本申请实施例提供的一种手部操作行为的分析装置进行介绍，下文描述的一种手部操作行为的分析装置与上文描述的一种手部操作行为的分析方法可相互对应参照。

如图3所示，该装置实施例包括：

视频获取模块301：用于获取目标视频，对所述目标视频中的手部和物体进行识别；

子视频提取模块302：用于按照所述手部与所述物体之间的动作从所述目标视频提取多个子视频；

动作分析模块303：用于确定所述子视频的动作分析结果；

操作行为分析模块304：用于根据各个所述子视频的动作分析结果和时序关系，确定所述目标视频的操作行为分析结果。

本实施例的手部操作行为的分析装置用于实现前述的手部操作行为的分析方法，因此该装置中的具体实施方式可见前文中的手部操作行为的分析方法的实施例部分，例如，视频获取模块301、子视频提取模块302、动作分析模块303、操作行为分析模块304，分别用于实现上述手部操作行为的分析方法中步骤S101，S102，S103，S104。所以，其具体实施方式可以参照相应的各个部分实施例的描述，在此不再展开介绍。

另外，由于本实施例的手部操作行为的分析装置用于实现前述的手部操作行为的分析方法，因此其作用与上述方法的作用相对应，这里不再赘述。

此外，本申请还提供了一种手部操作行为的分析设备，如图4所示，包括：

存储器401：用于存储计算机程序；

处理器402：用于执行所述计算机程序以实现如上所述的一种手部操作行为的分析方法的步骤。

本实施例的手部操作行为的分析设备、计算机可读存储介质用于实现前述的手部操作行为的分析方法，因此该设备、计算机可读存储接孩子的具体实施方式可见前文中的手部操作行为的分析方法的实施例部分，且二者的作用与上述方法相对应，这里不再赘述。

本说明书中各个实施例采用递进的方式描述，每个实施例重点说明的都是与其它实施例的不同之处，各个实施例之间相同或相似部分互相参见即可。对于实施例公开的装置而言，由于其与实施例公开的方法相对应，所以描述的比较简单，相关之处参见方法部分说明即可。

结合本文中所公开的实施例描述的方法或算法的步骤可以直接用硬件、处理器执行的软件模块，或者二者的结合来实施。软件模块可以置于随机存储器(RAM)、内存、只读存储器(ROM)、电可编程ROM、电可擦除可编程ROM、寄存器、硬盘、可移动磁盘、CD-ROM、或技术领域内所公知的任意其它形式的存储介质中。

以上对本申请所提供的手部操作行为的分析方法、装置、设备及计算机可读存储介质进行了详细介绍，本文中应用了具体个例对本申请的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本申请的方法及其核心思想；同时，对于本领域的一般技术人员，依据本申请的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本申请的限制。

Claims

1.一种手部操作行为的分析方法，其特征在于，包括：

获取目标视频，对所述目标视频中的手部和物体进行识别；

确定所述子视频的动作分析结果；

根据各个所述子视频的动作分析结果和时序关系，确定所述目标视频的操作行为分析结果；

所述按照所述手部与所述物体之间的动作从所述目标视频提取多个子视频，包括：

确定所述目标视频中所述手部和所述物体之间的空间关系；

根据所述交互动作过程的起止点从所述目标视频提取多个子视频，得到多个子视频；

所述根据所述空间关系，确定所述手部与所述物体的交互动作过程的起止点，包括：

根据所述手部和所述物体之间的相对速度和相对位置，确定所述手部与所述物体的交互动作过程的起止点；

所述确定所述子视频的动作分析结果，包括：

确定所述子视频中所述物体的物体类别；

根据所述物体类别、所述手部的手势类别、预先设置的物体类别和手势类别及动作类别之间的约束关系，确定所述子视频中所述手部的动作类别，以作为所述子视频的动作分析结果；

在所述确定所述子视频中所述物体的物体类别之前，还包括：

预先确定物体类别、手势类别、动作类别的发生概率以作为类别确定过程的先验知识；

所述确定所述子视频中所述物体的物体类别，包括：

2.如权利要求1所述的方法，其特征在于，所述根据所述物体类别、预先设置的物体类别与手势类别之间的约束关系，确定所述子视频中所述手部的手势类别，包括：

3.一种手部操作行为的分析装置，其特征在于，包括：

动作分析模块：用于确定所述子视频的动作分析结果；

操作行为分析模块：用于根据各个所述子视频的动作分析结果和时序关系，确定所述目标视频的操作行为分析结果；

所述子视频提取模块，包括：用于确定所述目标视频中所述手部和所述物体之间的空间关系；根据所述空间关系，确定所述手部与所述物体的交互动作过程的起止点；根据所述交互动作过程的起止点从所述目标视频提取多个子视频，得到多个子视频；

所述子视频提取模块中的根据所述空间关系，确定所述手部与所述物体的交互动作过程的起止点，包括：用于根据所述手部和所述物体之间的相对速度和相对位置，确定所述手部与所述物体的交互动作过程的起止点；

所述动作分析模块，包括：用于确定所述子视频中所述物体的物体类别；根据所述物体类别、预先设置的物体类别与手势类别之间的约束关系，确定所述子视频中所述手部的手势类别；根据所述物体类别、所述手部的手势类别、预先设置的物体类别和手势类别及动作类别之间的约束关系，确定所述子视频中所述手部的动作类别，以作为所述子视频的动作分析结果；

在所述动作分析模块中的确定所述子视频中所述物体的物体类别之前，还包括：预先确定物体类别、手势类别、动作类别的发生概率以作为类别确定过程的先验知识；

所述动作分析模块中的确定所述子视频中所述物体的物体类别，包括：确定所述子视频中所述物体的物体属性类别和物体形状类别，其中所述物体属性类别包括刚性和柔性。

4.一种手部操作行为的分析设备，其特征在于，包括：

存储器：用于存储计算机程序；

处理器：用于执行所述计算机程序以实现如权利要求1-2任意一项所述的一种手部操作行为的分析方法的步骤。

5.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器执行时用于实现如权利要求1-2任意一项所述的一种手部操作行为的分析方法的步骤。