CN111507219A

CN111507219A - 一种动作识别方法、装置及电子设备和存储介质

Info

Publication number: CN111507219A
Application number: CN202010269317.0A
Authority: CN
Inventors: 刘文印; 钟经谋; 陈俊洪; 梁达勇; 朱展模
Original assignee: Guangdong University of Technology
Current assignee: Guangdong University of Technology
Priority date: 2020-04-08
Filing date: 2020-04-08
Publication date: 2020-08-07

Abstract

本申请公开了一种动作识别方法、装置及一种电子设备和计算机可读存储介质，该方法包括：获取目标视频段，识别所述目标视频段中每帧图像的人体关节点位置和手部关节点位置；根据每帧所述图像的人体关节点位置和手部关节点位置构建所述目标视频段对应的无向空间时间图；基于所述无向空间时间图提取所述目标视频段中的人体姿势特征和手部姿势特征；将所述人体姿势特征和所述手部姿势特征输入分类器中以便完成动作识别。本申请提供的动作识别方法，通过结合人体姿势和手部姿势，利用无向空间时间图对人体关节点位置和手部关节点位置在时间和空间上建模，可以识别视频中复杂的动作。

Description

一种动作识别方法、装置及电子设备和存储介质

技术领域

本申请涉及机器人技术领域，更具体地说，涉及一种动作识别方法、装置及一种电子设备和一种计算机可读存储介质。

背景技术

近年来，人类动作识别在视频理解和人机交互中起着至关重要的作用，人类动作识别的准确性和时效性将直接影响机器人与人的协作成功率。同时，机器人通过识别人类动作能够更好的理解人类的行为动机，从而更好的协助人类日常工作，加快工作效率。

动作识别在计算机视觉邻域是一项具有挑战性的任务，在相关技术中采用双流卷积网络提取视频帧的RGB特征和光流特征，并在空间和时间上进行建模以进行动作识别。上述方案存在一定的局限性，例如，在背景嘈杂、光照变化和外观变化的情况下识别效果不好。另外，对于一些复杂、精细的动作，例如切片、搅拌等，识别效果不好。

因此，如何实现复杂动作的识别是本领域技术人员需要解决的技术问题。

发明内容

本申请的目的在于提供一种动作识别方法、装置及一种电子设备和一种计算机可读存储介质，实现了复杂动作的识别。

为实现上述目的，本申请提供了一种动作识别方法，包括：

获取目标视频段，识别所述目标视频段中每帧图像的人体关节点位置和手部关节点位置；

根据每帧所述图像的人体关节点位置和手部关节点位置构建所述目标视频段对应的无向空间时间图；

基于所述无向空间时间图提取所述目标视频段中的人体姿势特征和手部姿势特征；

将所述人体姿势特征和所述手部姿势特征输入分类器中以便完成动作识别。

其中，所述基于所述无向空间时间图提取所述目标视频段中的人体姿势特征和手部姿势特征，包括：

利用时空图卷积网络从所述无向空间时间图中提取所述目标视频段中的人体姿势特征和手部姿势特征。

其中，所述无向空间时间图包括点集合和边集合；

所述点集合包括第一点集合、第二点集合和第三点集合，所述第一点集合为根节点的集合，所述第二点集合为比所述根节点更靠近骨架重心的相邻节点的集合，所述第三点集合为比所述根节点更远离所述骨架重心的相邻节点的集合；

所述边集合包括描述骨骼间连接的第一边集合和描述相邻帧间的连接的第二边集合。

其中，将所述人体姿势特征和所述手部姿势特征输入分类器中以便完成动作识别，包括：

将所述人体姿势特征和所述手部姿势特征输入分类器中以便得到所述目标视频段对应的每个候选动作类型的概率；

将概率最大的候选动作类型确定为所述目标视频段对应的动作类型。

其中，所述获取目标视频段，包括：

获取原始视频，并将所述原始视频划分为多个时间长度为预设值的目标视频段；

相应的，将所述人体姿势特征和所述手部姿势特征输入分类器中以便完成动作识别，包括：

将所述人体姿势特征和所述手部姿势特征输入分类器中以便得到每个所述目标视频段对应的每个候选动作类型的概率；

基于每个所述目标视频段对应的每个所述候选动作类型对应的概率计算每个所述候选动作类型的概率平均值；

将概率平均值最大的候选动作类型确定为所述原始视频对应的动作类型。

为实现上述目的，本申请提供了一种动作识别装置，包括：

识别模块，用于获取目标视频段，识别所述目标视频段中每帧图像的人体关节点位置和手部关节点位置；

构建模块，用于根据每帧所述图像的人体关节点位置和手部关节点位置构建所述目标视频段对应的无向空间时间图；

提取模块，用于基于所述无向空间时间图提取所述目标视频段中的人体姿势特征和手部姿势特征；

输入模块，用于将所述人体姿势特征和所述手部姿势特征输入分类器中以便完成动作识别。

其中，所述输入模块包括：

输入单元，用于将所述人体姿势特征和所述手部姿势特征输入分类器中以便得到所述目标视频段对应的每个候选动作类型的概率；

第一确定单元，用于将概率最大的候选动作类型确定为所述目标视频段对应的动作类型。

其中，所述识别模块包括：

获取单元，用于获取原始视频，并将所述原始视频划分为多个时间长度为预设值的目标视频段；

识别单元，用于识别所述目标视频段中每帧图像的人体关节点位置和手部关节点位置；

相应的，所述输入模块包括：

输入单元，用于将所述人体姿势特征和所述手部姿势特征输入分类器中以便得到每个所述目标视频段对应的每个候选动作类型的概率；

计算单元，用于基于每个所述目标视频段对应的每个所述候选动作类型对应的概率计算每个所述候选动作类型的概率平均值；

第二确定单元，用于将概率平均值最大的候选动作类型确定为所述原始视频对应的动作类型。

为实现上述目的，本申请提供了一种电子设备，包括：

存储器，用于存储计算机程序；

处理器，用于执行所述计算机程序时实现如上述动作识别方法的步骤。

为实现上述目的，本申请提供了一种计算机可读存储介质，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器执行时实现如上述动作识别方法的步骤。

通过以上方案可知，本申请提供的一种动作识别方法，包括：获取目标视频段，识别所述目标视频段中每帧图像的人体关节点位置和手部关节点位置；根据每帧所述图像的人体关节点位置和手部关节点位置构建所述目标视频段对应的无向空间时间图；基于所述无向空间时间图提取所述目标视频段中的人体姿势特征和手部姿势特征；将所述人体姿势特征和所述手部姿势特征输入分类器中以便完成动作识别。

本申请提供的动作识别方法，通过结合人体姿势和手部姿势，利用无向空间时间图对人体关节点位置和手部关节点位置在时间和空间上建模，从而进行动作识别。手部作为人体最灵活的一部分，生活中的大多动作都离不开手部的操作，将人体姿势和手部姿势相结合，更能体现人体动作的特征，因此手部姿势对识别操作动作具有一定的指导意义，可以识别视频中复杂的动作。本申请还公开了一种动作识别装置及一种电子设备和一种计算机可读存储介质，同样能实现上述技术效果。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性的，并不能限制本申请。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。附图是用来提供对本公开的进一步理解，并且构成说明书的一部分，与下面的具体实施方式一起用于解释本公开，但并不构成对本公开的限制。在附图中：

图1为根据一示例性实施例示出的一种动作识别方法的流程图；

图2为根据一示例性实施例示出的一种人体关节点位置的示意图；

图3为根据一示例性实施例示出的一种手部关节点位置的示意图；

图4为根据一示例性实施例示出的一种点集合的示意图；

图5为根据一示例性实施例示出的另一种动作识别方法的流程图；

图6为根据一示例性实施例示出的一种动作识别装置的结构图；

图7为根据一示例性实施例示出的一种电子设备的结构图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

本申请实施例公开了一种动作识别方法，实现了复杂动作的识别。

参见图1，根据一示例性实施例示出的一种动作识别方法的流程图，如图1所示，包括：

S101：获取目标视频段，识别所述目标视频段中每帧图像的人体关节点位置和手部关节点位置；

本实施例的目的在于识别目标视频段中的动作类型，此处不限定目标视频段的来源和演示环境。在本步骤中，可以利用姿势预测算法(openpose)从目标视频段中的每帧图像中识别人体关节点位置和手部关节点位置，识别得到的人体关节点位置如图2所示，手部关节点位置如图3所示。

S102：根据每帧所述图像的人体关节点位置和手部关节点位置构建所述目标视频段对应的无向空间时间图；

本步骤旨在基于每帧图像的的人体关节点位置和手部关节点位置构建无向空间时间图。其中，所述无向空间时间图包括点集合和边集合；所述点集合包括第一点集合、第二点集合和第三点集合，所述第一点集合为根节点的集合，所述第二点集合为比所述根节点更靠近骨架重心的相邻节点的集合，所述第三点集合为比所述根节点更远离所述骨架重心的相邻节点的集合；所述边集合包括描述骨骼间连接的第一边集合和描述相邻帧间的连接的第二边集合。

具体的，点集合V＝{v_ti|t＝1,...,T,i＝1,...,N}包含T帧视频的人体姿势和手部姿势的关键点，v_ti为第t帧i点的坐标，优选的，N＝67，T＝300。在本实施例中，可以使用多子集分区策略，即将点集合划分为包括根节点的第一点集合、包括比根节点更靠近骨架重心的相邻节点的第二点集合，包括比根节点更远离骨架重心的相邻节点的第三点集合。如图4所示，画叉处为骨架中心，实心点为根节点，单向阴影点为比根节点更靠近骨架重心的相邻节点，组成第二点集合，双向阴影点为比根节点更远离骨架重心的相邻节点，组成第三点集合。边集合由两部分组成，第一边集合为描述骨骼间连接的边集合E_s＝{v_tiv_tj|(i,j)}，H人体和手部自然连接结构，v_ti为第t帧i点的坐标，v_tj为第t帧j点的坐标第二边集合为描述帧间的连接的边集合E_F＝{v_tiv_(t+1)i}，表示人体动作的轨迹，v_ti为第t帧i点的坐标。

S103：基于所述无向空间时间图提取所述目标视频段中的人体姿势特征和手部姿势特征；

在本步骤中，基于目标视频段对应的无向空间时间图提取人体姿势特征和手部姿势特征，后续步骤利用手部姿势特征进行动作识别，并充分利用视频中人体姿势特征，可以实现复杂动作的识别。

作为一种优选实施方式，本步骤可以包括：利用时空图卷积网络从所述无向空间时间图中提取所述目标视频段中的人体姿势特征和手部姿势特征。在具体实施中，时空图卷积网络结构由九层时空图卷积模块组成，前三层输出64通道，中间三层输出128通道，后三层输出256通道。一共有9个时间卷积，在每个时空图卷积使用残差连连接，使用dropout进行特征正则化处理。在第4、7层时间卷积层设置为池化层，最后对输出的256个通道的输出进行全局池化成256维的向量，并由softmax进行分类。对于动作的预测，采用时空图卷积提取人体姿势特征和手部姿势特征，挖掘人体姿势和手部姿势空间上对预测动作的影响以及人体和手部运动轨迹对动作的预测动作的影响。

时空图卷积模块的定义：

其中，j为各个子集分区策略Λ＝A+I，A为人体姿势和手部姿势的邻接矩阵，即人体姿势和手部姿势自然连接的拓扑结构，I为单位矩阵，f_in为人体姿势和手部姿势的关节点坐标，W_j为可学习参数。

在本实施例中，时空图卷积网络的训练时间短，计算量较小，训练完成后可以识别视频中复杂的动作，且本实施例为端到端的动作识别方案，时空图卷积网络训练完成后，不需要预设其他输入。

S104：将所述人体姿势特征和所述手部姿势特征输入分类器中以便完成动作识别。

由于上一步骤提取到了人体姿势特征和手部姿势特征，在本步骤中，利用得到的特征向量训练softmax分类器，训练完成的分类器可以实现目标视频段的动作分类。即本步骤可以包括：将所述人体姿势特征和所述手部姿势特征输入分类器中以便得到所述目标视频段对应的每个候选动作类型的概率；将概率最大的候选动作类型确定为所述目标视频段对应的动作类型。

本申请实施例提供的动作识别方法，通过结合人体姿势和手部姿势，利用无向空间时间图对人体关节点位置和手部关节点位置在时间和空间上建模，从而进行动作识别。手部作为人体最灵活的一部分，生活中的大多动作都离不开手部的操作，将人体姿势和手部姿势相结合，更能体现人体动作的特征，因此手部姿势对识别操作动作具有一定的指导意义，可以识别视频中复杂的动作。

本申请实施例公开了一种动作识别方法，相对于上一实施例，本实施例对技术方案作了进一步的说明和优化。具体的：

参见图5，根据一示例性实施例示出的另一种动作识别方法的流程图，如图5所示，包括：

S201：获取原始视频，并将所述原始视频划分为多个时间长度为预设值的目标视频段；

在本实施例中，原始视频为长视频，将其划分为时间长度为预设值的多个目标视频段。即对于时间长度超过预设值的视频进行分割，在训练时空图卷积网络时每个目标视频段给定一个动作标签，对于时间跨度不足预设值的视频段，将不足的时间内的人体姿势特征和所述手部姿势特征填充0。

S202：识别所述目标视频段中每帧图像的人体关节点位置和手部关节点位置；

S203：根据每帧所述图像的人体关节点位置和手部关节点位置构建所述目标视频段对应的无向空间时间图；

S204：利用时空图卷积网络从所述无向空间时间图中提取所述目标视频段中的人体姿势特征和手部姿势特征；

S205：将所述人体姿势特征和所述手部姿势特征输入分类器中以便得到每个所述目标视频段对应的每个候选动作类型的概率；

S206：基于每个所述目标视频段对应的每个所述候选动作类型对应的概率计算每个所述候选动作类型的概率平均值；

S207：将概率平均值最大的候选动作类型确定为所述原始视频对应的动作类型。

在具体实施中，对于每个目标视频段进行分别预测，即得到每个目标视频段对应的每个候选动作类型的概率。对于整个原始视频来说，基于目标视频段对应的每个候选动作类型的概率和目标视频段的数量可以得到每个候选动作类型的概率平均值，将概率平均值最大的候选动作类型确定为原始视频对应的动作类型。

下面对本申请实施例提供的一种动作识别装置进行介绍，下文描述的一种动作识别装置与上文描述的一种动作识别方法可以相互参照。

参见图6，根据一示例性实施例示出的一种动作识别装置的结构图，如图6所示，包括：

识别模块601，用于获取目标视频段，识别所述目标视频段中每帧图像的人体关节点位置和手部关节点位置；

构建模块602，用于根据每帧所述图像的人体关节点位置和手部关节点位置构建所述目标视频段对应的无向空间时间图；

提取模块603，用于基于所述无向空间时间图提取所述目标视频段中的人体姿势特征和手部姿势特征；

输入模块604，用于将所述人体姿势特征和所述手部姿势特征输入分类器中以便完成动作识别。

本申请实施例提供的动作识别装置，通过结合人体姿势和手部姿势，利用无向空间时间图对人体关节点位置和手部关节点位置在时间和空间上建模，从而进行动作识别。手部作为人体最灵活的一部分，生活中的大多动作都离不开手部的操作，将人体姿势和手部姿势相结合，更能体现人体动作的特征，因此手部姿势对识别操作动作具有一定的指导意义，可以识别视频中复杂的动作。

在上述实施例的基础上，作为一种优选实施方式，所述提取模块603具体为利用时空图卷积网络从所述无向空间时间图中提取所述目标视频段中的人体姿势特征和手部姿势特征的模块。

在上述实施例的基础上，作为一种优选实施方式，所述无向空间时间图包括点集合和边集合；

在上述实施例的基础上，作为一种优选实施方式，所述输入模块604包括：

在上述实施例的基础上，作为一种优选实施方式，所述识别模块601包括：

相应的，所述输入模块604包括：

关于上述实施例中的装置，其中各个模块执行操作的具体方式已经在有关该方法的实施例中进行了详细描述，此处将不做详细阐述说明。

本申请还提供了一种电子设备，参见图7，本申请实施例提供的一种电子设备700的结构图，如图7所示，可以包括处理器11和存储器12。该电子设备700还可以包括多媒体组件13，输入/输出(I/O)接口14，以及通信组件15中的一者或多者。

其中，处理器11用于控制该电子设备700的整体操作，以完成上述的动作识别方法中的全部或部分步骤。存储器12用于存储各种类型的数据以支持在该电子设备700的操作，这些数据例如可以包括用于在该电子设备700上操作的任何应用程序或方法的指令，以及应用程序相关的数据，例如联系人数据、收发的消息、图片、音频、视频等等。该存储器12可以由任何类型的易失性或非易失性存储设备或者它们的组合实现，例如静态随机存取存储器(Static Random Access Memory，简称SRAM)，电可擦除可编程只读存储器(Electrically Erasable Programmable Read-Only Memory，简称EEPROM)，可擦除可编程只读存储器(Erasable Programmable Read-Only Memory，简称EPROM)，可编程只读存储器(Programmable Read-Only Memory，简称PROM)，只读存储器(Read-Only Memory，简称ROM)，磁存储器，快闪存储器，磁盘或光盘。多媒体组件13可以包括屏幕和音频组件。其中屏幕例如可以是触摸屏，音频组件用于输出和/或输入音频信号。例如，音频组件可以包括一个麦克风，麦克风用于接收外部音频信号。所接收的音频信号可以被进一步存储在存储器12或通过通信组件15发送。音频组件还包括至少一个扬声器，用于输出音频信号。I/O接口14为处理器11和其他接口模块之间提供接口，上述其他接口模块可以是键盘，鼠标，按钮等。这些按钮可以是虚拟按钮或者实体按钮。通信组件15用于该电子设备700与其他设备之间进行有线或无线通信。无线通信，例如Wi-Fi，蓝牙，近场通信(Near FieldCommunication，简称NFC)，2G、3G或4G，或它们中的一种或几种的组合，因此相应的该通信组件15可以包括：Wi-Fi模块，蓝牙模块，NFC模块。

在一示例性实施例中，电子设备700可以被一个或多个应用专用集成电路(Application Specific Integrated Circuit，简称ASIC)、数字信号处理器(DigitalSignal Processor，简称DSP)、数字信号处理设备(Digital Signal Processing Device，简称DSPD)、可编程逻辑器件(Programmable Logic Device，简称PLD)、现场可编程门阵列(Field Programmable Gate Array，简称FPGA)、控制器、微控制器、微处理器或其他电子元件实现，用于执行上述的动作识别方法。

在另一示例性实施例中，还提供了一种包括程序指令的计算机可读存储介质，该程序指令被处理器执行时实现上述动作识别方法的步骤。例如，该计算机可读存储介质可以为上述包括程序指令的存储器12，上述程序指令可由电子设备700的处理器11执行以完成上述的动作识别方法。

说明书中各个实施例采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似部分互相参见即可。对于实施例公开的装置而言，由于其与实施例公开的方法相对应，所以描述的比较简单，相关之处参见方法部分说明即可。应当指出，对于本技术领域的普通技术人员来说，在不脱离本申请原理的前提下，还可以对本申请进行若干改进和修饰，这些改进和修饰也落入本申请权利要求的保护范围内。

还需要说明的是，在本说明书中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

Claims

1.一种动作识别方法，其特征在于，包括：

2.根据权利要求1所述动作识别方法，其特征在于，所述基于所述无向空间时间图提取所述目标视频段中的人体姿势特征和手部姿势特征，包括：

3.根据权利要求1所述动作识别方法，其特征在于，所述无向空间时间图包括点集合和边集合；

4.根据权利要求1至3中任一项所述动作识别方法，其特征在于，将所述人体姿势特征和所述手部姿势特征输入分类器中以便完成动作识别，包括：

5.根据权利要求1至3中任一项所述动作识别方法，其特征在于，所述获取目标视频段，包括：

6.一种动作识别装置，其特征在于，包括：

7.根据权利要求6所述动作识别装置，其特征在于，所述输入模块包括：

8.根据权利要求6所述动作识别装置，其特征在于，所述识别模块包括：

相应的，所述输入模块包括：

9.一种电子设备，其特征在于，包括：

存储器，用于存储计算机程序；

处理器，用于执行所述计算机程序时实现如权利要求1至5任一项所述动作识别方法的步骤。

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器执行时实现如权利要求1至5任一项所述动作识别方法的步骤。