CN113657200A

CN113657200A - 一种基于掩码r-cnn的视频行为动作识别方法及系统

Info

Publication number: CN113657200A
Application number: CN202110857834.4A
Authority: CN
Inventors: 樊硕
Original assignee: Shanghai Yingpu Technology Co Ltd
Current assignee: Shanghai Yingpu Technology Co Ltd
Priority date: 2021-07-28
Filing date: 2021-07-28
Publication date: 2021-11-16

Abstract

本申请提供了一种基于掩码R‑CNN的视频行为动作识别方法及系统，在本申请提供的方法中，先获取待识别视频流，提取其中的至少一图像帧；利用掩码R‑CNN模型检测图像帧中目标对象的各关节关键点，并提取各图像帧中对应各关节关键点的热图；将各关键点对应的热图进行叠加，得到目标对象对应的至少一组组合热图；将组合热图输入DYAN编码解码器中，捕获各关节关键点的关节动态信息；最后基于各关节关键点的关节动态信息，识别目标对象的动作信息。基于本申请提供的基于掩码R‑CNN的视频行为动作识别方法及系统，通过估计人体姿态来解决人体活动识别问题，有效地检测图像中的多个物体，同时估计人体姿态，能够进一步利用视频帧人体动力学。

Description

一种基于掩码R-CNN的视频行为动作识别方法及系统

技术领域

本申请涉及视频处理技术领域，特别是涉及一种基于掩码R-CNN的视频行为动作识别方法及系统。

背景技术

近几年，随着计算机视觉和机器学习的飞速发展，视频类软件与日俱增，网络速度的提升等因素，造成了大量的视频在网上传播并且呈指数级增加。这些视频信息种类繁多，数量巨大，远远超出了人类手工处理的能力。因此，发明适合于视频推荐、人类行为分析、视频监控等多种应用的视频中的动作识别方法是十分必要的。

在视频行为动作识别中，动作识别是基于完整的动作执行来推断人类动作的当前状态。目前引入的一种Action Tubelet检测器，它产生一系列带有分数的包围盒，其中他们使用SSD检测器提取一组锚长方体，除此之外，还提出了一个时间段网络，专注于基于注意力的建模，已发现突出部分，同时捕获长期相关性。

但是，目前的方法的缺点是每个帧/片段只能包含完整视频信息中的一小部分，和单纯的方法相比，对单个框架进行分类的网络表现较差。

发明内容

本申请的目的在于克服上述问题或者至少部分地解决或缓减解决上述问题。

根据本申请的一个方面，提供了一种基于掩码R-CNN的视频行为动作识别方法，包括：

获取待识别视频流，提取所述待识别视频流中的至少一图像帧；

利用掩码R-CNN模型检测所述图像帧中目标对象的各关节关键点，并提取各所述图像帧中对应各所述关节关键点的热图；

将各所述关键点对应的热图进行叠加，得到所述目标对象对应的至少一组组合热图；

将所述组合热图输入DYAN编码解码器中，捕获各所述关节关键点的关节动态信息；

基于各所述关节关键点的关节动态信息，识别所述目标对象的动作信息。

可选地，所述将各所述关键点对应的热图进行叠加，得到所述目标对象对应的至少一组组合热图，包括：

获取目标对象的关键节点的节点数量，生成与所述节点数量匹配的关节通道，在各所述关节通道中输入对应的热图；

创建一背景通道；

所述关节通道和所述背景通道进行重叠组合，生成所述目标对象对应的至少一组合热图。

可选地，所述DYAN编码解码器包含经过训练的预设大小的结构化字典；

所述将所述组合热图输入DYAN编码解码器中，捕获各所述关节关键点的关节动态信息，包括：

将所述组合热图输入DYAN编码解码器，通过所述DYAN编码解码器对所述组合热图进行编码，并在所述结构化字典中选择并衡量与所述组合热图对应的动态元素，求解并输出动态向量；

基于所述动态向量捕获各所述关节关键点的关节动态信息。

根据本申请的另一个方面，提供了一种基于掩码R-CNN的视频行为动作识别系统，包括：

图像帧提取模块，其配置成获取待识别视频流，提取所述待识别视频流中的至少一图像帧；

热图提取模块，其配置成利用掩码R-CNN模型检测所述图像帧中目标对象的各关节关键点，并提取各所述图像帧中对应各所述关节关键点的热图；

组合热图获取模块，其配置成将各所述关键点对应的热图进行叠加，得到所述目标对象对应的至少一组组合热图；

关节动态信息捕获模块，其配置成将各所述组合热图输入DYAN编码解码器中，捕获各所述关节关键点的关节动态信息；

动作信息识别模块，其配置成基于各所述关节关键点的关节动态信息，识别所述目标对象的动作信息。

可选地，所述组合热图获取模块，其还配置成：

创建一背景通道；

所述关节动态信息捕获模块，其还配置成：

基于所述动态向量捕获各所述关节关键点的关节动态信息。

根据本申请的另一方面，还提供了一种计算设备，包括存储器、处理器和存储在所述存储器内并能由所述处理器运行的计算机程序，其中，所述处理器执行所述计算机程序时实现如上述任一项所述的方法。

根据本申请的另一方面，还提供了一种计算机可读存储介质，优选为非易失性可读存储介质，其内存储有计算机程序，所述计算机程序在由处理器执行时实现如上述任一项所述的方法。

根据本申请的另一方面，还提供了一种计算机程序产品，包括计算机可读代码，当所述计算机可读代码由计算机设备执行时，导致所述计算机设备执行上述任一项所述的方法。

本申请提供了一种基于掩码R-CNN的视频行为动作识别方法及系统，在本申请提供的方法中，先获取待识别视频流，提取其中的至少一图像帧；利用R-CNN模型检测图像帧中目标对象的各关节关键点并提取对应的热图；再将各关键点对应的热图进行叠加得到对应的组合热图；然后将各关节关键点对应的组合热图输入DYAN编码解码器中，捕获其关节动态信息；最后基于各关节关键点的关节动态信息，识别目标对象的动作信息。基于本申请提供的基于掩码R-CNN的视频行为动作识别方法及系统，可以快速且准确地检测视频中包含的多个物体，尤其是可以准确估计视频流中的人体姿态进而实现人体活动识别。并且，通过视频流实现人体姿态的识别，以实现利用视频帧进行人体动力学的活动研究。

根据下文结合附图对本申请的具体实施例的详细描述，本领域技术人员将会更加明了本申请的上述以及其他目的、优点和特征。

附图说明

后文将参照附图以示例性而非限制性的方式详细描述本申请的一些具体实施例。附图中相同的附图标记标示了相同或类似的部件或部分。本领域技术人员应该理解，这些附图未必是按比例绘制的。附图中：

图1是根据本申请实施例的基于掩码R-CNN的视频行为动作识别方法流程示意图；

图2是根据本申请实施例的DYAN编码解码器框图示意图；

图3是根据本申请实施例的DYAN编码解码器捕获像素动态工作流程图；

图4是根据本申请实施例的DYAN编码解码器工作流程示意图；

图5是根据本申请实施例的基于掩码R-CNN的视频行为动作识别系统结构示意图；

图6是根据本申请实施例的计算设备示意图；

图7是根据本社情实施例的计算机可读存储介质示意图。

具体实施方式

图1是根据本申请实施例的基于掩码R-CNN的视频行为动作识别方法流程示意图。参见图1所知，本申请实施例提供的基于掩码R-CNN的视频行为动作识别方法可以包括：

步骤S101：获取待识别视频流，提取待识别视频流中的至少一图像帧；

步骤S102：利用掩码R-CNN模型检测图像帧中目标对象的各关节关键点，并提取各图像帧中对应各关节关键点的热图；

步骤S103：将各关键点对应的热图进行叠加，得到目标对象对应的至少一组组合热图；

步骤S104：将组合热图输入DYAN编码解码器中，捕获各关节关键点的关节动态信息；

步骤S105：基于各关节关键点的关节动态信息，识别目标对象的动作信息。

本申请实施例提供了一种基于掩码R-CNN的视频行为动作识别方法，在本申请实施例提供的方法中，对于待识别视频流提取其中的至少一图像帧；利用R-CNN模型检测图像帧中目标对象的各关节关键点并提取对应的热图；再将各关键点对应的热图进行叠加得到对应的组合热图；然后将各关节关键点对应的组合热图输入DYAN编码解码器中，捕获其关节动态信息；最后基于各关节关键点的关节动态信息，识别目标对象的动作信息。基于本申请实施例提供的基于掩码R-CNN的视频行为动作识别方法，可以快速且准确地检测视频中包含的多个物体，尤其是可以准确估计视频流中的人体姿态进而实现人体活动识别。并且，通过视频流实现人体姿态的识别，以实现利用视频帧进行人体动力学的活动研究。

下面分别对上述实施例提及的基于掩码R-CNN的视频行为动作识别方法进行详细说明。

在本申请实施例中，参见步骤S101所述，先获取待识别视频流，并提取视频流中的至少一图像帧。

待识别视频流可以是用于被识别的由多个连续的图像帧组合形成的视频流，其可以从网络获取，也可以是由用户指定或输入，本实施例对此不做限定。获取到待识别视频流中，可提取视频流中的至少一图像帧，可选地，提取图像帧时，可以先确定至少一主体元素(如某个人体或是某个物体等可识别的对象)，进而在视频流中提取间隔设定帧或是连续的包含有主体元素相关的多帧图像帧。

举例来讲，对于获取到的视频流来讲，该视频流中包含有用户A和用户B两个用户，此时可以分别以用户A和用户B作为主体元素，从视频流中分别提取出与包含有用户A的连续的多帧图像帧，以及包含有用户B的连续的多帧图像帧。

参见步骤S102，提取出待识别视频流中的图像帧后，可利用R-CNN模型检测图像帧中目标对象的各关节关键点，并提取各图像帧中对应各关节关键点的热图。

卷积神经网络(Convolutional Neural Networks,CNN)是一类包含卷积计算且具有深度结构的前馈神经网络，是深度学习的代表算法之一。卷积神经网络具有表征学习能力，能够按其阶层结构对输入信息进行平移不变分类。本实施例通过采用卷积神经网络对视频流中的各图像帧进行去噪处理，可以提升对每一帧图像帧的处理效率，进而高效对视频流进行降噪处理。

R-CNN的全称是Region-CNN，是第一个成功将深度学习应用到目标检测上的算法。R-CNN基于CNN、线性回归和支持向量机(SVM)等算法，实现目标检测技术。R-CNN采用提取框，对每个框提取特征、图像分类、非极大值抑制进行目标检测。只不过在提取特征这一步，将传统的特征换成了深度卷积网络提取的特征。本实施例中的掩码R-CNN(Mask R-CNN)模型，即利用R-CNN神经网络所构建的模型，Mask R-CNN是在Faster R-CNN的基础上添加了一个预测分割mask的分支。

在本申请实施例中，目标对象可以指代人体，如上述实施例提及的用户A或用户B，均可作为目标对象。对于基于待识别视频流提取出的每一图像帧，可依序传递给掩码R-CNN模型，通过掩码R-CNN模型检测所接收到的图像帧中目标对象的各人体关节关键点，并提取每个人体关节关键点的热图。本实施例中，掩码R-CNN模型主要提取人体的17身体关节关键点对应的热图，该17个关节关键点包括：头部5个，肢体4个中的每个3个。

掩码R-CNN模型是一个实例分割模型，它能确定图片中各个目标的位置和类别，给出像素级预测。所谓“实例分割”，指的是对场景内的每种兴趣对象进行分割，无论它们是否属于同一类别——比如模型可以从街景视频中识别车辆、人员等单个目标。

进一步地，对于掩码R-CNN模型提取出的对应各关节关键点的热图，执行步骤S103，将各关键点对应的热图进行叠加，得到目标对象对应的组合热图。

在本申请一可选实施例中，生成组合热图，要先获取目标对象的关键节点的节点数量，生成与节点数量匹配的关节通道，在各关节通道中输入对应的热图；再创建一背景通道；将关节通道和背景通道进行重叠组合，生成目标对象对应的组合热图。

掩码R-CNN模型提取17身体关节关键点，其中包括：头部5个，肢体4个中的每个3个，其中，每一个关节关键点可对应生成一个关节通道，即17个关节通道，每一个通道为某个关节的热图分布。对于掩码R-CNN模型所接收到的每一图像帧均可生成对应于目标对象的组合热图。假设生成的组合热图大小与原图像大小一致，生成的组合热图会在相应的坐标处生成一个成高斯分布的概率区域，区域的中心值最大，最接近1，越向四周，概率越小。进一步地，还可增加一背景通道，与上述的17个关节通道共具有18个通道的输出。最后，可以将18个通道的输出进行彼此重叠即可得到对于所有的身体关节的组合热图。进一步地，可以基于待识别视频流中的多个图像帧得到多组组合热图。

热图的空间分辨率比原始帧要低，将原始帧上采样到固定尺寸为64*64。在实现细节中，用W*h表示重新缩放后的热图大小。在姿态热图中，每个像素的值在0～1之间，表示对应像素属于特定人体关节的概率。

参见上述步骤S104，本实施例通过一种有效的方法来编码组合热图的时间演变作为网络的输入，如步骤S104所述，将组合热图输入DYAN编码解码器中，捕获各关节关键点的关节动态信息。

图2是根据本申请实施例的DYAN编码解码器框图示意图，DYAN编码解码器可包括两个主要组件：基于动力学的编码器和基于动力学的解码器。

DYAN的架构：给定T个连续的H×W帧，DYAN的架构网络使用基于动态原子的编码器来生成一组稀疏的N×HW特征，以N＞＞T捕获每个像素的动态。这些功能可以传递给基于动态原子的解码器，以重构给定的帧并预测下一帧，或者将它们用于其他任务，例如动作分类。

编码器：编码器级将一组T个连续的H×W帧(或特征)作为输入，将它们展平为HW，T×1个矢量。

令这些载体之一为y1。然后，编码器的输出是HM稀疏优化问题的极小值的集合：

其中D(T)是具有学习到的原子的字典，所有像素共享该字典，而λ是正则化参数。因此，使用T×N词典，编码器级的输出是一组稀疏的HWN×1个矢量，可以将其重塑为H×W×N个特征。

为了避免处理复杂的极点pi，改用字典D(T)ρ，ψ，其列对应于第一象限(0≤ψi≤π)中极点pi＝ρiejψi的幂的实部和虚部。在第三和第四象限5中的共轭和镜像：ρki cos(kψi)，ρki sin(kψi)，(-ρi)k cos(kψi)和(-ρi)k sin(kψi)，其中k＝0，……，T-1。此外，在pi＝1处包含一个固定原子来模拟常数输入。

图3说明了编码器和解码器两个模块如何共同工作以捕获每个像素的动态，重建输入数据并预测未来的帧。DYAN识别每个像素的动力学，将其表示为字典中一小部分基于动力学的原子的线性组合(在训练过程中学习)。选定的原子和相应的系数使用稀疏特征向量表示，该向量通过稀疏化步骤找到。

其中，DYAN编码解码器包含经过训练的预设大小的结构化字典。DYAN是在视频帧预测的背景下提出的，但它可以应用于任何时间序列，只要它可以用线性系统的输出近似，因此可以应用于这里。DYAN编码解码器结构的工作流程示意图如图4所示。

DYAN编码解码器网络由一个编码层和随后的三个块组成，每个块具有两个卷积。所有卷积层的滤波器大小为3，而每个块中第一个卷积层的步幅为2，每个块中第二个卷积的步幅为1。在每个块中，输入的空间分辨率降低，而通道数加倍(第一个块具有128个通道，最后一个块具有512个通道)。在每个卷积层之后使用ReLU进行批量归一化。在第三个块之后，我们插入一个平均池层，然后是一个完全连接的层和softmax分类器，以获取动作类评分。稍后，此分数将与来自RGB和OF流(来自I3D模型)的分数合并，从而得到每帧一个分数(合并是通过对分数进行平均)。

在本申请的另一可选实施例中，将组合热图输入DYAN编码解码器，通过DYAN编码解码器对组合热图进行编码，并在结构化字典中选择并衡量与组合热图对应的动态元素，求解并输出动态向量；再基于动态向量捕获各关节关键点的关节动态信息。

在无监督训练中，DYAN学习一个T*N大小的结构化字典D，使用一组N个动态元素对长度为T的输入序列y1：T编码。这些元素(D列)是低阶(一阶和二阶)线性时不变系统的脉冲响应，由p值参数化和相位Φ他们的极点是

然后序列y1：T的编码由系数c的一个非常稀疏的向量给出，该向量在字典中选择并衡量元素，通过求解一个稀疏化问题得到向量c：

其中第一项寻求输入数据的良好拟合，而第二项惩罚高阶系统。即编码试图解释输入数据使用尽可能少的两极，即是“简单”的输出线性系统输入数据，系统的“复杂性”是衡量其两极的数量。

最后执行步骤S105，基于各关节关键点的关节动态信息，识别目标对象的动作信息。本实施例中，对于每一图像帧均可得到对应的组合热图，通过连续的图像帧可得到连续的多个组合热图，对于多个组合热图来讲，其具有时间序列，因此，DYAN编码解码器可通过连续的组合热图获取到各关节关键点对应的关节动态信息，进而可以识别出目标对象的动作信息，如抬手、摇头、跑步等动作信息。或是，通过结合摆臂动作、腿部的动作识别出视频流中的某个人体进行跑步、走路等动作信息。

基于同一发明构思，如图5所示，本申请实施例还提供了一种基于掩码R-CNN的视频行为动作识别系统，包括：

图像帧提取模块510，其配置成获取待识别视频流，提取待识别视频流中的至少一图像帧；

热图提取模块520，其配置成利用R-CNN模型检测图像帧中目标对象的各关节关键点，并提取各图像帧中对应各所述关节关键点的热图；

组合热图获取模块530，其配置成其配置成将各所述关键点对应的热图进行叠加，得到所述目标对象对应的至少一组组合热图；

关节动态信息捕获模块540，其配置成将组合热图输入DYAN编码解码器中，捕获各关节关键点的关节动态信息；

动作信息识别模块550，其配置成基于各关节关键点的关节动态信息，识别目标对象的动作信息。

本发明一可选实施例中，组合热图获取模块530，其还配置成：

获取目标对象的关键节点的节点数量，生成与节点数量匹配的关节通道，在各关节通道中输入对应的热图；

创建一背景通道；

关节通道和背景通道进行重叠组合，生成目标对象对应的至少一组合热图。

本发明一可选实施例中，DYAN编码解码器包含经过训练的预设大小的结构化字典；

关节动态信息捕获模块540，其还可以配置成：

将组合热图输入DYAN编码解码器，通过DYAN编码解码器对组合热图进行编码，并在结构化字典中选择并衡量与组合热图对应的动态元素，求解并输出动态向量；

基于动态向量捕获各关节关键点的关节动态信息。

本申请可选实施例还提供了一种计算设备，包括存储器、处理器和存储在所述存储器内并能由处理器运行的计算机程序，其中，处理器执行所述计算机程序时实现如上述任一项所述的方法。

本申请可选实施例还提供了一种计算机可读存储介质，优选为非易失性可读存储介质，其内存储有计算机程序，计算机程序在由处理器执行时实现如上述任一项所述的方法。

本申请可选实施例还提供了一种计算机程序产品，包括计算机可读代码，当所述计算机可读代码由计算机设备执行时，导致所述计算机设备执行上述任一项所述的方法。

本申请提供了一种基于掩码R-CNN的视频行为动作识别方法及系统，在本申请提供的方法中，先获取待识别视频流，提取其中的至少一图像帧；利用R-CNN模型检测图像帧中目标对象的各关节关键点并提取对应的热图；再将各关键点对应的热图进行叠加得到对应的组合热图；然后将各关节关键点对应的组合热图输入DYAN编码解码器中，捕获其关节动态信息；最后基于各关节关键点的关节动态信息，识别目标对象的动作信息。基于本申请实施例提供的基于掩码R-CNN的视频行为动作识别方法，可以快速且准确地检测视频中包含的多个物体，尤其是可以准确估计视频流中的人体姿态进而实现人体活动识别。并且，通过视频流实现人体姿态的识别，以实现利用视频帧进行人体动力学的活动研究。

本申请实施例还提供了一种计算设备，参照图6，该计算设备包括存储器620、处理器610和存储在所述存储器620内并能由所述处理器610运行的计算机程序，该计算机程序存储于存储器620中的用于程序代码的空间630，该计算机程序在由处理器610执行时实现用于执行任一项根据本发明的方法步骤631。

本申请实施例还提供了一种计算机可读存储介质。参照图7，该计算机可读存储介质包括用于程序代码的存储单元，该存储单元设置有用于执行根据本发明的方法步骤的程序631′，该程序被处理器执行。

本申请实施例还提供了一种包含指令的计算机程序产品。当该计算机程序产品在计算机上运行时，使得计算机执行根据本发明的方法步骤。

在上述实施例中，可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时，可以全部或部分地以计算机程序产品的形式实现。所述计算机程序产品包括一个或多个计算机指令。在计算机加载和执行所述计算机程序指令时，全部或部分地产生按照本申请实施例所述的流程或功能。所述计算机可以是通用计算机、专用计算机、计算机网络、获取其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中，或者从一个计算机可读存储介质向另一个计算机可读存储介质传输，例如，所述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线(DSL))或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。所述计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质，(例如，软盘、硬盘、磁带)、光介质(例如，DVD)、或者半导体介质(例如固态硬盘Solid State Disk(SSD))等。

专业人员应该还可以进一步意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、计算机软件或者二者的结合来实现，为了清楚地说明硬件和软件的可互换性，在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本申请的范围。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分步骤是可以通过程序来指令处理器完成，所述的程序可以存储于计算机可读存储介质中，所述存储介质是非短暂性(英文：non-transitory)介质，例如随机存取存储器，只读存储器，快闪存储器，硬盘，固态硬盘，磁带(英文：magnetic tape)，软盘(英文：floppy disk)，光盘(英文：optical disc)及其任意组合。

以上所述，仅为本申请较佳的具体实施方式，但本申请的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本申请揭露的技术范围内，可轻易想到的变化或替换，都应涵盖在本申请的保护范围之内。因此，本申请的保护范围应该以权利要求的保护范围为准。

Claims

1.一种基于掩码R-CNN的视频行为动作识别方法，包括：

2.根据权利要求1所述的方法，其特征在于，所述将各所述关键点对应的热图进行叠加，得到所述目标对象对应的至少一组组合热图，包括：

创建一背景通道；

3.根据权利要求1所述的方法，其特征在于，所述DYAN编码解码器包含经过训练的预设大小的结构化字典；

基于所述动态向量捕获各所述关节关键点的关节动态信息。

4.一种基于掩码R-CNN的视频行为动作识别系统，包括：

关节动态信息捕获模块，其配置成将所述组合热图输入DYAN编码解码器中，捕获各所述关节关键点的关节动态信息；

5.根据权利要求4所述的系统，其特征在于，所述组合热图获取模块，其还配置成：

创建一背景通道；

6.根据权利要求4所述的系统，其特征在于，

所述DYAN编码解码器包含经过训练的预设大小的结构化字典；

所述关节动态信息捕获模块，其还配置成：

基于所述动态向量捕获各所述关节关键点的关节动态信息。

7.一种计算设备，包括存储器、处理器和存储在所述存储器内并能由所述处理器运行的计算机程序，其中，所述处理器执行所述计算机程序时实现如权利要求1-3中任一项所述的方法。

8.一种计算机可读存储介质，优选为非易失性可读存储介质，其内存储有计算机程序，所述计算机程序在由处理器执行时实现如权利要求1-3中任一项所述的方法。

9.一种计算机程序产品，包括计算机可读代码，当所述计算机可读代码由计算机设备执行时，导致所述计算机设备执行权利要求1-3中任一项所述的方法。