CN111783692A

CN111783692A - 一种动作识别方法、装置及电子设备和存储介质

Info

Publication number: CN111783692A
Application number: CN202010639980.5A
Authority: CN
Inventors: 钟经谋; 刘文印; 陈俊洪; 黄可思; 林大润; 朱展模
Original assignee: Guangdong University of Technology
Current assignee: Guangdong University of Technology
Priority date: 2020-07-06
Filing date: 2020-07-06
Publication date: 2020-10-16

Abstract

本申请公开了一种动作识别方法、装置及一种电子设备和计算机可读存储介质，该方法包括：获取目标视频段，识别目标视频段中每帧图像的物体中心点位置、人体关节点位置和手部关节点位置；根据每帧图像的物体中心点位置、人体关节点位置和手部关节点位置构建目标视频段对应的无向空间时间图；基于无向空间时间图提取目标视频段的时空特征，并将时空特征输入分类器中以便完成动作识别。本申请提供的动作识别方法，人体关节点位置和手部关节点位置用于描述人体骨架，用人体骨架和物体位置进行动作识别，充分利用了视频的特征，提高动作识别的准确率。

Description

一种动作识别方法、装置及电子设备和存储介质

技术领域

本申请涉及机器人技术领域，更具体地说，涉及一种动作识别方法、装置及一种电子设备和一种计算机可读存储介质。

背景技术

近年来，人类动作识别在视频理解和人机交互中起着至关重要的作用，人类动作识别的准确性和时效性将直接影响机器人与人的协作成功率。同时，机器人通过识别人类动作能够更好的理解人类的行为动机，从而更好的协助人类日常工作，加快工作效率。

动作识别在计算机视觉邻域是一项具有挑战性的任务，在相关技术中，采用基于人体姿势的时空图卷积网络进行视频动作识别，即通过提取视频中角点的特征进行人体行为识别，但是一部分角点是由背景噪声产生，由背景噪声尝试的角点占据全部特征的比例过大，从而影响识别的结果。另外，上述方案在人物交互上存在局限，例如切黄瓜、撒调料等动作，这些动作不仅依赖人体骨架信息，同时也依赖于物体特征，仅基于人体姿势的方法丢失过多的有效特征，动作识别准确度较低。

因此，如何提高动作识别的准确度是本领域技术人员需要解决的技术问题。

发明内容

本申请的目的在于提供一种动作识别方法、装置及一种电子设备和一种计算机可读存储介质，提高了动作识别的准确度。

为实现上述目的，本申请提供了一种动作识别方法，包括：

获取目标视频段，识别所述目标视频段中每帧图像的物体中心点位置、人体关节点位置和手部关节点位置；

根据每帧所述图像的物体中心点位置、人体关节点位置和手部关节点位置构建所述目标视频段对应的无向空间时间图；

基于所述无向空间时间图提取所述目标视频段的时空特征，并将所述时空特征输入分类器中以便完成动作识别。

其中，所述识别所述目标视频段中每帧图像的物体中心点位置，包括：

利用Mask R-CNN网络对所述目标视频段中每帧图像进行物体识别，得到每帧所述图像的物体边框，并基于所述物体边框确定每帧所述图像的物体中心点位置。

其中，所述基于所述无向空间时间图提取所述目标视频段的时空特征，包括：

利用时空图卷积网络从所述无向空间时间图中提取所述目标视频段的时空特征。

其中，所述无向空间时间图包括点集合和边集合，所述边集合包括多个节点，所述节点包括所述人体关节点位置、所述手部关节点位置、距离左手最近的物体中心点位置和距离右手最近的物体中心点位置；

所述点集合包括第一点集合、第二点集合和第三点集合，所述第一点集合为根节点的集合，所述第二点集合为比所述根节点更靠近骨架重心的相邻节点的集合，所述第三点集合为比所述根节点更远离所述骨架重心的相邻节点的集合；

所述边集合包括描述人体与物体间连接的第一边集合和描述相邻帧间的连接的第二边集合。

其中，将所述时空特征输入分类器中以便完成动作识别，包括：

将所述时空特征输入分类器中以便得到所述目标视频段对应的每个候选动作类型的概率；

将概率最大的候选动作类型确定为所述目标视频段对应的动作类型。

其中，所述获取目标视频段，包括：

获取原始视频，并将所述原始视频划分为多个时间长度为预设值的目标视频段；

相应的，将所述时空特征输入分类器中以便完成动作识别，包括：

将所述时空特征输入分类器中以便得到每个所述目标视频段对应的每个候选动作类型的概率；

基于每个所述目标视频段对应的每个所述候选动作类型对应的概率计算每个所述候选动作类型的概率平均值；

将概率平均值最大的候选动作类型确定为所述原始视频对应的动作类型。

为实现上述目的，本申请提供了一种动作识别装置，包括：

获取模块，用于获取目标视频段，识别所述目标视频段中每帧图像的物体中心点位置、人体关节点位置和手部关节点位置；

构建模块，用于根据每帧所述图像的物体中心点位置、人体关节点位置和手部关节点位置构建所述目标视频段对应的无向空间时间图；

识别模块，用于基于所述无向空间时间图提取所述目标视频段的时空特征，并将所述时空特征输入分类器中以便完成动作识别。

其中，所述获取模块包括：

获取单元，用于获取目标视频段；

第一识别单元，用于利用Mask R-CNN网络对所述目标视频段中每帧图像进行物体识别，得到每帧所述图像的物体边框，并基于所述物体边框确定每帧所述图像的物体中心点位置；

第二识别单元，用于识别所述目标视频段中每帧图像的人体关节点位置和手部关节点位置。

为实现上述目的，本申请提供了一种电子设备，包括：

存储器，用于存储计算机程序；

处理器，用于执行所述计算机程序时实现如上述动作识别方法的步骤。

为实现上述目的，本申请提供了一种计算机可读存储介质，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器执行时实现如上述动作识别方法的步骤。

通过以上方案可知，本申请提供的一种动作识别方法，包括：获取目标视频段，识别所述目标视频段中每帧图像的物体中心点位置、人体关节点位置和手部关节点位置；根据每帧所述图像的物体中心点位置、人体关节点位置和手部关节点位置构建所述目标视频段对应的无向空间时间图；基于所述无向空间时间图提取所述目标视频段的时空特征，并将所述时空特征输入分类器中以便完成动作识别。

本申请提供的动作识别方法，人体关节点位置和手部关节点位置用于描述人体骨架，用人体骨架和物体位置进行动作识别，充分利用了视频的特征。人作为动作的主动者，基于人体骨架识别可以更好地理解动作特征，物体作为动作的被动者，增加物体属性可以更好地理解视频中的人物交互，提高动作识别的准确率。本申请还公开了一种动作识别装置及一种电子设备和一种计算机可读存储介质，同样能实现上述技术效果。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性的，并不能限制本申请。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。附图是用来提供对本公开的进一步理解，并且构成说明书的一部分，与下面的具体实施方式一起用于解释本公开，但并不构成对本公开的限制。在附图中：

图1为根据一示例性实施例示出的一种动作识别方法的流程图；

图2为根据一示例性实施例示出的一种人体关节点位置的示意图；

图3为根据一示例性实施例示出的一种手部关节点位置的示意图；

图4为根据一示例性实施例示出的一种Mask R-CNN网络的结构图；

图5为根据一示例性实施例示出的一种点集合的示意图；

图6为根据一示例性实施例示出的另一种动作识别方法的流程图；

图7为根据一示例性实施例示出的一种动作识别装置的结构图；

图8为根据一示例性实施例示出的一种电子设备的结构图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

本申请实施例公开了一种动作识别方法，提高了动作识别的准确度。

参见图1，根据一示例性实施例示出的一种动作识别方法的流程图，如图1所示，包括：

S101：获取目标视频段，识别所述目标视频段中每帧图像的物体中心点位置、人体关节点位置和手部关节点位置；

本实施例的目的在于识别目标视频段中的动作类型，此处不限定目标视频段的来源和演示环境。在本步骤中，可以利用姿势预测算法(openpose)从目标视频段中的每帧图像中识别人体关节点位置和手部关节点位置，识别得到的人体关节点位置如图2所示，手部关节点位置如图3所示。

需要说明的是，为了更好地理解视频中的人物交互，本步骤还需要识别目标视频段中每帧图像的物体中心点位置。作为一种可行的实施方式，所述识别所述目标视频段中每帧图像的物体中心点位置的步骤可以包括：利用Mask R-CNN网络对所述目标视频段中每帧图像进行物体识别，得到每帧所述图像的物体边框，并基于所述物体边框确定每帧所述图像的物体中心点位置。在具体实施中，从演示视频中随机选择3000帧作为训练样本，标记3000帧图像中的物体，将它们放到Mask R-CNN网络进行预训练，Mask R-CNN网络如图4所示。通过30轮预训练后，Mask R-CNN在测试样本的平均精度均值为89.53％。使用预训练的Mask R-CNN对目标视频段进行物体识别，识别物体的边框，使用物体中心点坐标进行建模。

S102：根据每帧所述图像的物体中心点位置、人体关节点位置和手部关节点位置构建所述目标视频段对应的无向空间时间图；

本步骤旨在基于每帧图像的物体中心点位置、人体关节点位置和手部关节点位置构建无向空间时间图。其中，所述无向空间时间图包括点集合和边集合，所述边集合包括多个节点，所述节点包括所述人体关节点位置、所述手部关节点位置、距离左手最近的物体中心点位置和距离右手最近的物体中心点位置；所述点集合包括第一点集合、第二点集合和第三点集合，所述第一点集合为根节点的集合，所述第二点集合为比所述根节点更靠近骨架重心的相邻节点的集合，所述第三点集合为比所述根节点更远离所述骨架重心的相邻节点的集合；所述边集合包括描述人体与物体间连接的第一边集合和描述相邻帧间的连接的第二边集合。

具体的，点集合V＝{v_ti|t＝1,...,T,i＝1,...,N}包含T帧视频的人体关节点位置、手部关节点位置、距离左手最近的物体中心点位置和距离右手最近的物体中心点位置。如果距离左手最近没有物体，则将物体坐标置为0，距离右手最近的物体同之。优选的，N＝69，其中67个点为人体骨架坐标，2个点为物体中心点坐，T＝300。在本实施例中，可以使用多子集分区策略，即将点集合划分为包括根节点的第一点集合、包括比根节点更靠近骨架重心的相邻节点的第二点集合，包括比根节点更远离骨架重心的相邻节点的第三点集合。如图5所示，画叉处为骨架中心，实心点为根节点，单向阴影点为比根节点更靠近骨架重心的相邻节点，组成第二点集合，双向阴影点为比根节点更远离骨架重心的相邻节点，组成第三点集合。边集合由两部分组成，第一边集合为描述骨骼间连接的边集合E_s＝{v_tiv_tj|(i,j)}，H包含人体骨架的自然连接和双手与物体中心点的连接，v_ti为第t帧i点的坐标，v_tj为第t帧j点的坐标第二边集合为描述帧间的连接的边集合E_F＝{v_tiv_(t+1)i}，表示人体动作和物体运动的轨迹，v_ti为第t帧i点的坐标。

S103：基于所述无向空间时间图提取所述目标视频段的时空特征，并将所述时空特征输入分类器中以便完成动作识别。

在本步骤中，基于目标视频段对应的无向空间时间图提取时空特征，将所述时空特征输入分类器中实现目标视频段的动作识别。分类器用于基于时空特征进行动作分类，在候选动作类型中确定目标视频段对应的动作类型，即将所述时空特征输入分类器中以便完成动作识别的步骤可以包括：将所述人体姿势特征和所述手部姿势特征输入分类器中以便得到所述目标视频段对应的每个候选动作类型的概率；将概率最大的候选动作类型确定为所述目标视频段对应的动作类型。

作为一种优选实施方式，基于所述无向空间时间图提取所述目标视频段的时空特征的步骤可以包括：利用时空图卷积网络从所述无向空间时间图中提取所述目标视频段的时空特征。在具体实施中，时空图卷积网络结构由六层时空图卷积模块组成，前面三层输出64通道，后面三层输出128通道。一共有6个时间卷积，在每个时空图卷积使用残差连连接。在第4层时间卷积层设置为池化层，通过该层将通道数翻倍，最后对输出的128个通道的输出进行全局池化成128维的向量，并由softmax进行分类。对于动作的预测，采用时空图卷积提取人体-物体时空特征，挖掘人体骨架和物体位置在空间上对动作预测的影响以及人体运动轨迹和物体运动轨迹对动作预测的影响。

时空图卷积模块的定义：

其中，j为各个子集分区策略Λ＝A+I，A为人体骨架的自然连接和双手与物体中心点的连接的邻接矩阵，即人体姿势和手部姿势自然连接的拓扑结构，I为单位矩阵，f_in为T帧视频的人体关节点位置、手部关节点位置和物体中心点位置，W_j为可学习参数。

在本实施例中，时空图卷积网络的训练时间短，计算量较小，训练完成后可以识别视频中复杂的动作，且本实施例为端到端的动作识别方案，时空图卷积网络训练完成后，不需要预设其他输入。

本申请实施例提供的动作识别方法，人体关节点位置和手部关节点位置用于描述人体骨架，用人体骨架和物体位置进行动作识别，充分利用了视频的特征。人作为动作的主动者，基于人体骨架识别可以更好地理解动作特征，物体作为动作的被动者，增加物体属性可以更好地理解视频中的人物交互，提高动作识别的准确率。

本申请实施例公开了一种动作识别方法，相对于上一实施例，本实施例对技术方案作了进一步的说明和优化。具体的：

参见图6，根据一示例性实施例示出的另一种动作识别方法的流程图，如图6所示，包括：

S201：获取原始视频，并将所述原始视频划分为多个时间长度为预设值的目标视频段；

在本实施例中，原始视频为长视频，将其划分为时间长度为预设值的多个目标视频段。即对于时间长度超过预设值的视频进行分割，在训练时空图卷积网络时每个目标视频段给定一个动作标签，对于时间跨度不足预设值的视频段，将不足的时间内的人体姿势特征和所述手部姿势特征填充0。

S202：识别所述目标视频段中每帧图像的物体中心点位置、人体关节点位置和手部关节点位置；

S203：根据每帧所述图像的物体中心点位置、人体关节点位置和手部关节点位置构建所述目标视频段对应的无向空间时间图；

S204：基于所述无向空间时间图提取所述目标视频段的时空特征；

S205：将所述时空特征输入分类器中以便得到每个所述目标视频段对应的每个候选动作类型的概率；

S206：基于每个所述目标视频段对应的每个所述候选动作类型对应的概率计算每个所述候选动作类型的概率平均值；

S207：将概率平均值最大的候选动作类型确定为所述原始视频对应的动作类型。

在具体实施中，对于每个目标视频段进行分别预测，即得到每个目标视频段对应的每个候选动作类型的概率。对于整个原始视频来说，基于目标视频段对应的每个候选动作类型的概率和目标视频段的数量可以得到每个候选动作类型的概率平均值，将概率平均值最大的候选动作类型确定为原始视频对应的动作类型。

下面对本申请实施例提供的一种动作识别装置进行介绍，下文描述的一种动作识别装置与上文描述的一种动作识别方法可以相互参照。

参见图7，根据一示例性实施例示出的一种动作识别装置的结构图，如图7所示，包括：

获取模块701，用于获取目标视频段，识别所述目标视频段中每帧图像的物体中心点位置、人体关节点位置和手部关节点位置；

构建模块702，用于根据每帧所述图像的物体中心点位置、人体关节点位置和手部关节点位置构建所述目标视频段对应的无向空间时间图；

识别模块703，用于基于所述无向空间时间图提取所述目标视频段的时空特征，并将所述时空特征输入分类器中以便完成动作识别。

本申请实施例提供的动作识别装置，人体关节点位置和手部关节点位置用于描述人体骨架，用人体骨架和物体位置进行动作识别，充分利用了视频的特征。人作为动作的主动者，基于人体骨架识别可以更好地理解动作特征，物体作为动作的被动者，增加物体属性可以更好地理解视频中的人物交互，提高动作识别的准确率。

在上述实施例的基础上，作为一种优选实施方式，所述获取模块701包括：

获取单元，用于获取目标视频段；

在上述实施例的基础上，作为一种优选实施方式，所述识别模块703包括：

提取单元，用于利用时空图卷积网络从所述无向空间时间图中提取所述目标视频段的时空特征；

第三识别单元，用于将所述时空特征输入分类器中以便完成动作识别。

在上述实施例的基础上，作为一种优选实施方式，所述无向空间时间图包括点集合和边集合，所述边集合包括多个节点，所述节点包括所述人体关节点位置、所述手部关节点位置、距离左手最近的物体中心点位置和距离右手最近的物体中心点位置；

在上述实施例的基础上，作为一种优选实施方式，所述第三识别单元包括：

输入子单元，用于将所述时空特征输入分类器中以便得到所述目标视频段对应的每个候选动作类型的概率；

第一确定子单元，用于将概率最大的候选动作类型确定为所述目标视频段对应的动作类型。

在上述实施例的基础上，作为一种优选实施方式，所述获取单元具体为获取原始视频，并将所述原始视频划分为多个时间长度为预设值的目标视频段的单元；

相应的，所述第三识别单元包括：

计算子单元，用于基于每个所述目标视频段对应的每个所述候选动作类型对应的概率计算每个所述候选动作类型的概率平均值；

第二确定子单元，用于将概率平均值最大的候选动作类型确定为所述原始视频对应的动作类型。

关于上述实施例中的装置，其中各个模块执行操作的具体方式已经在有关该方法的实施例中进行了详细描述，此处将不做详细阐述说明。

本申请还提供了一种电子设备，参见图8，本申请实施例提供的一种电子设备800的结构图，如图8所示，可以包括处理器11和存储器12。该电子设备800还可以包括多媒体组件13，输入/输出(I/O)接口14，以及通信组件15中的一者或多者。

其中，处理器11用于控制该电子设备800的整体操作，以完成上述的动作识别方法中的全部或部分步骤。存储器12用于存储各种类型的数据以支持在该电子设备800的操作，这些数据例如可以包括用于在该电子设备800上操作的任何应用程序或方法的指令，以及应用程序相关的数据，例如联系人数据、收发的消息、图片、音频、视频等等。该存储器12可以由任何类型的易失性或非易失性存储设备或者它们的组合实现，例如静态随机存取存储器(Static Random Access Memory，简称SRAM)，电可擦除可编程只读存储器(Electrically Erasable Programmable Read-Only Memory，简称EEPROM)，可擦除可编程只读存储器(Erasable Programmable Read-Only Memory，简称EPROM)，可编程只读存储器(Programmable Read-Only Memory，简称PROM)，只读存储器(Read-Only Memory，简称ROM)，磁存储器，快闪存储器，磁盘或光盘。多媒体组件13可以包括屏幕和音频组件。其中屏幕例如可以是触摸屏，音频组件用于输出和/或输入音频信号。例如，音频组件可以包括一个麦克风，麦克风用于接收外部音频信号。所接收的音频信号可以被进一步存储在存储器12或通过通信组件15发送。音频组件还包括至少一个扬声器，用于输出音频信号。I/O接口14为处理器11和其他接口模块之间提供接口，上述其他接口模块可以是键盘，鼠标，按钮等。这些按钮可以是虚拟按钮或者实体按钮。通信组件15用于该电子设备800与其他设备之间进行有线或无线通信。无线通信，例如Wi-Fi，蓝牙，近场通信(Near FieldCommunication，简称NFC)，2G、3G或4G，或它们中的一种或几种的组合，因此相应的该通信组件15可以包括：Wi-Fi模块，蓝牙模块，NFC模块。

在一示例性实施例中，电子设备800可以被一个或多个应用专用集成电路(Application Specific Integrated Circuit，简称ASIC)、数字信号处理器(DigitalSignal Processor，简称DSP)、数字信号处理设备(Digital Signal Processing Device，简称DSPD)、可编程逻辑器件(Programmable Logic Device，简称PLD)、现场可编程门阵列(Field Programmable Gate Array，简称FPGA)、控制器、微控制器、微处理器或其他电子元件实现，用于执行上述的动作识别方法。

在另一示例性实施例中，还提供了一种包括程序指令的计算机可读存储介质，该程序指令被处理器执行时实现上述动作识别方法的步骤。例如，该计算机可读存储介质可以为上述包括程序指令的存储器12，上述程序指令可由电子设备800的处理器11执行以完成上述的动作识别方法。

说明书中各个实施例采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似部分互相参见即可。对于实施例公开的装置而言，由于其与实施例公开的方法相对应，所以描述的比较简单，相关之处参见方法部分说明即可。应当指出，对于本技术领域的普通技术人员来说，在不脱离本申请原理的前提下，还可以对本申请进行若干改进和修饰，这些改进和修饰也落入本申请权利要求的保护范围内。

还需要说明的是，在本说明书中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

Claims

1.一种动作识别方法，其特征在于，包括：

2.根据权利要求1所述动作识别方法，其特征在于，所述识别所述目标视频段中每帧图像的物体中心点位置，包括：

3.根据权利要求1所述动作识别方法，其特征在于，所述基于所述无向空间时间图提取所述目标视频段的时空特征，包括：

4.根据权利要求1所述动作识别方法，其特征在于，所述无向空间时间图包括点集合和边集合，所述边集合包括多个节点，所述节点包括所述人体关节点位置、所述手部关节点位置、距离左手最近的物体中心点位置和距离右手最近的物体中心点位置；

5.根据权利要求1至4中任一项所述动作识别方法，其特征在于，将所述时空特征输入分类器中以便完成动作识别，包括：

6.根据权利要求1至4中任一项所述动作识别方法，其特征在于，所述获取目标视频段，包括：

7.一种动作识别装置，其特征在于，包括：

8.根据权利要求7所述动作识别装置，其特征在于，所述获取模块包括：

获取单元，用于获取目标视频段；

9.一种电子设备，其特征在于，包括：

存储器，用于存储计算机程序；

处理器，用于执行所述计算机程序时实现如权利要求1至6任一项所述动作识别方法的步骤。

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器执行时实现如权利要求1至6任一项所述动作识别方法的步骤。