CN113191216B

CN113191216B - 基于姿态识别和c3d网络的多人实时动作识别方法和系统

Info

Publication number: CN113191216B
Application number: CN202110391846.2A
Authority: CN
Inventors: 张冠华; 张业岭; 蒋林华; 曾新华; 庞成鑫; 宋梁
Original assignee: Fudan University
Current assignee: Fudan University
Priority date: 2021-04-13
Filing date: 2021-04-13
Publication date: 2023-02-10
Anticipated expiration: 2041-04-13
Also published as: CN113191216A

Abstract

本发明涉及基于姿态识别和C3D网络的多人实时动作识别方法和系统，方法包括通过摄像头采集原始视频；采用OpenPose算法对原始视频进行人体姿态估计，生成人体姿态模型视频；对人体姿态模型视频中的动作起始帧进行判断；对初始数据的每一帧图片进行裁剪；将输入数据输入训练好的C3D网络模型，输出得到动作识别结果。与现有技术相比，本发明具有识别速度快，检测精度高等优点。

Description

基于姿态识别和C3D网络的多人实时动作识别方法和系统

技术领域

本发明涉及动作识别领域，尤其是涉及一种基于姿态识别和C3D网络的多人实时动作识别方法和系统。

背景技术

姿态估计和动作识别一直以来都是计算机视觉领域的研究的重点，但是姿态估计和动作识别解决的是两个不同层次的问题。姿态估计完成的工作是根据视频或者图像信息，在画面中识别人的位置并且建立起人体的姿态模型；而动作识别所完成的工作是根据一段视频或者图像对视频中的人所做的动作进行一个判断，由于动作往往是一串连续的行为，所以对于动作的识别需要多个连续帧图像进行输入。现有的动作识别方法在识别速度、设备要求和识别精度方面都还有许多提升的空间。

发明内容

本发明的目的就是为了克服上述现有技术存在的缺陷而提供一种基于姿态识别和C3D网络的多人实时动作识别方法和系统，实现快速的、多人的、实时的动作识别系统。

本发明的目的可以通过以下技术方案来实现：

一种基于姿态识别和C3D网络的多人实时动作识别方法，其特征在于，包括以下步骤：

步骤1)通过摄像头采集原始视频；

步骤2)采用OpenPose算法对原始视频进行人体姿态估计，生成人体姿态模型视频；

步骤3)对人体姿态模型视频中的动作起始帧进行判断：

当连续a帧中的两两相邻帧关键点位置的变化程度都超过预先设定的阈值，则将其最后一帧判断为一个动态动作的动作起始帧，将之后的b帧图像作为初始数据；

当连续c帧中的两两相邻帧关键点位置的变化程度都小于等于预先设定的阈值，则判断当前处于一个静态的动作之中，将其最后一帧判断为一个静态动作的动作起始帧，将之后的b帧图像作为初始数据；

其中，a、b和c均为大于4的整数；

步骤4)对初始数据的每一帧图片进行裁剪，选取图片中人体部分的左右极值点之差和上下极值点之差中较大的一个差值作为边长组成正方形的边界框，并且将边界框扩大设定的像素得到最终边界框，通过最终边界框对图片进行裁剪，然后使用图像金字塔算法将边界框内的图片的尺寸调整为设定尺寸，所有裁剪后的图片组成的连续帧即为输入数据；

步骤5)将输入数据输入训练好的C3D网络模型，输出得到动作识别结果。

进一步地，所述步骤1)中，人体姿态模型视频以纯骨架结构的形式输出。

进一步地，所述步骤3)中，两两相邻帧关键点采用人体骨架的关节点。

进一步地，所述步骤5)中，C3D网络模型的训练包括以下步骤：

从数据库获取人体动作视频数据集，使用OpenPose算法对视频数据集进行人体姿态估计，生成人体姿态模型视频；

将人体姿态模型视频裁剪为160×160像素大小的视频块，在从中随机截取设定尺寸的b帧图像作为训练数据；

采用训练数据对C3D网络模型进行自适应训练。

进一步地，a的取值为5，b的取值为16，c的取值为20。

一种基于姿态识别和C3D网络的多人实时动作识别系统，包括：

采集模块，通过摄像头采集原始视频；

预处理模块，采用OpenPose算法对原始视频进行人体姿态估计，生成人体姿态模型视频；

判断模块，对人体姿态模型视频中的动作起始帧进行判断：当连续a帧中的两两相邻帧关键点位置的变化程度都超过预先设定的阈值，则将其最后一帧判断为一个动态动作的动作起始帧，将之后的b帧图像作为初始数据；当连续c帧中的两两相邻帧关键点位置的变化程度都小于等于预先设定的阈值，则判断当前处于一个静态的动作之中，将其最后一帧判断为一个静态动作的动作起始帧，将之后的b帧图像作为初始数据；其中，a、b和c均为大于4的整数；

裁剪模块，对初始数据的每一帧图片进行裁剪，选取图片中人体部分的左右极值点之差和上下极值点之差中较大的一个差值作为边长组成正方形的边界框，并且将边界框扩大设定的像素得到最终边界框，通过最终边界框对图片进行裁剪，然后使用图像金字塔算法将边界框内的图片的尺寸调整为设定尺寸，所有裁剪后的图片组成的连续帧即为输入数据；

识别模块，将输入数据输入训练好的C3D网络模型，输出得到动作识别结果。

进一步地，所述采集模块中，人体姿态模型视频以纯骨架结构的形式输出。

进一步地，所述判断模块中，两两相邻帧关键点采用人体骨架的关节点。

进一步地，所述识别模块中，C3D网络模型的训练包括以下步骤：从数据库获取人体动作视频数据集，使用OpenPose算法对视频数据集进行人体姿态估计，生成人体姿态模型视频；将人体姿态模型视频裁剪为160×160像素大小的视频块，在从中随机截取设定尺寸的b帧图像作为训练数据；采用训练数据对C3D网络模型进行自适应训练。

进一步地，a的取值为5，b的取值为16，c的取值为20。

与现有技术相比，本发明具有以下有益效果：

(1)本发明将姿态识别技术和动作识别技术进行融合，通过使用姿态识别的OpenPose算法对原始视频进行简化，作为动作识别网络的输入，极大缩短动作识别所需花费的时间。OpenPose算法对原始视频进行简化的同时也进行了人体位置的定位，然后通过图像分割对图像裁剪，能够快速裁切背景，很大程度上忽略场景的影响，提高动作识别的精度。

(2)本发明设计了动作识别的起始帧判断方式，克服了传统方式中动作起始难以判断的难点，提高动作识别精度。

附图说明

图1为本发明的流程示意图。

图2为OpenPose生成的视频动作骨架结构示意图。

图3为C3D网络结构示意图。

具体实施方式

下面结合附图和具体实施例对本发明进行详细说明。本实施例以本发明技术方案为前提进行实施，给出了详细的实施方式和具体的操作过程，但本发明的保护范围不限于下述的实施例。

如图1所示，本实施例提供了一种基于姿态识别和C3D网络的多人实时动作识别方法，包括以下步骤：

步骤1、通过摄像头采集原始视频。

步骤2、采用OpenPose算法对原始视频进行人体姿态估计，生成人体姿态模型视频，人体姿态模型视频以纯骨架结构的形式输出。

步骤3、对人体姿态模型视频中的动作起始帧进行判断：当连续5帧中的两两相邻帧关节点位置的变化程度都超过预先设定的阈值，则将其最后一帧判断为一个动态动作的动作起始帧，将之后的16帧图像作为初始数据；当连续5帧中的两两相邻帧关节点位置的变化程度都小于等于预先设定的阈值，则判断当前处于一个静态的动作之中，将其最后一帧判断为一个静态动作的动作起始帧，将之后的16帧图像作为初始数据。

步骤4、对初始数据的每一帧图片进行裁剪，选取图片中人体部分的左右极值点之差和上下极值点之差中较大的一个差值作为边长组成正方形的边界框，并且将边界框扩大设定的像素得到最终边界框，通过最终边界框对图片进行裁剪，然后使用图像金字塔算法将边界框内的图片的尺寸调整为设定尺寸，所有裁剪后的图片组成的连续帧即为输入数据。

步骤5、将输入数据输入训练好的C3D网络模型，输出得到动作识别结果。其中C3D网络模型的训练包括以下步骤：从数据库获取人体动作视频数据集，使用OpenPose算法对视频数据集进行人体姿态估计，生成人体姿态模型视频；将人体姿态模型视频裁剪为160×160像素大小的视频块，在从中随机截取设定尺寸的16帧图像作为训练数据；采用训练数据对C3D网络模型进行自适应训练。

具体的展开说明如下：

(一)C3D网络模型的建立

数据库选取人体动作视频数据集UCF-101，使用OpenPose算法对数据集视频进行人体姿态估计，生成人体姿态模型视频，即将关节点按照人体结构进行连接的模型视频，如图2所示。生成的视频以纯骨架结构的形式输出，不选用原图像和骨架共存的形式。目的是简化视频图像内容，使用具有代表性的动作特征，以减少预训练时间和缩短检测时间，更适用于实时检测。

动作识别的骨干网络选用C3D网络，如图2所示为C3D网络结构。该网络的输入部分对于视频帧的数量和大小有要求，所以首先将生成的人体姿态模型视频裁剪为大小为160×160像素大小的视频块，从中再随机截取112×112像素大小16帧图形作为C3D网络的训练数据。用这样的方法进行数据的增强，增加该识别方法的鲁棒性。将截取的112×112的16帧连续帧图像作为C3D网络的输入进行训练。上述直接采用人体姿态模型的方式能够简化C3D网络输入，使用更加具有行为特征性的姿态模型代替人体动作视频，能够提取出更加具有显著性的时空特征。

(二)动作识别的实现

在C3D网络训练完成后，就可以利用该网络进行后续的动作识别。由于是多人实时的动作检测，所以视频图像的采集使用摄像头。由于OpenPose所需的设备要求并不是很高，并且具有非常高效的姿态识别算法，所以可以做到实时地对摄像头获取的视频数据中的所有人进行姿态识别。C3D网络的输入一般为正方形的连续帧图片，所以本实施例选取左右极值点和上下极值点之差中的较大的一个作为边界框的边长，并且再向外扩展30个像素作为最终边界框。使用图像金字塔技术将截取的边界框内图片的大小调整为112×112，将其作为训练好的C3D网络的输入数据，生成一个4096维的特征向量。最后在C3D网络中通过使用线性SVM分类器将生成的特征向量进行分类，从而判断和识别其具体动作。

(三)人体动作起始点判定

动作识别中的一个较为困难的点，就是难以界定一个动作的起始和终止的时间。本发明中采用对视频中的人体姿态模型的动作变化关键点的检测来界定是否开始或者结束一个动作。关键点直接采用骨架的关节点。人体动作主要分为动态和静态的两种类型，所以对于两种动作的界定方法不同。对于动态的动作的识别，例如行走，跑动等，对同一个人的姿态模型中的关节点位置进行定位，当连续5帧中的两两相邻帧关节点位置的变化程度都超过预先设定的阈值，则将其判断为一个动态动作的开始，将之后的16帧图像作为C3D网络的输入部分，进行动作识别；而对于静态动作例如站立，蹲等，当一个人的姿态模型的关节点位置连续20帧的变化程度都小于阈值，则可以判断这个人处于一个静态的动作之中，将之后的16帧图像作为C3D网络的输入。用这样的方法可以实现大多情况下的常见的动作类型识别。

以上详细描述了本发明的较佳具体实施例。应当理解，本领域的普通技术人员无需创造性劳动就可以根据本发明的构思作出诸多修改和变化。因此，凡本技术领域中技术人员依本发明的构思在现有技术的基础上通过逻辑分析、推理或者有限的实验可以得到的技术方案，皆应在由权利要求书所确定的保护范围内。

Claims

1.一种基于姿态识别和C3D网络的多人实时动作识别方法，其特征在于，包括以下步骤：

步骤1)通过摄像头采集原始视频；

步骤3)对人体姿态模型视频中的动作起始帧进行判断：

其中，a、b和c均为大于4的整数；

2.根据权利要求1所述的一种基于姿态识别和C3D网络的多人实时动作识别方法，其特征在于，所述步骤2)中，人体姿态模型视频以纯骨架结构的形式输出。

3.根据权利要求2所述的一种基于姿态识别和C3D网络的多人实时动作识别方法，其特征在于，所述步骤3)中，两两相邻帧关键点采用人体骨架的关节点。

4.根据权利要求1所述的一种基于姿态识别和C3D网络的多人实时动作识别方法，其特征在于，所述步骤5)中，C3D网络模型的训练包括以下步骤：

采用训练数据对C3D网络模型进行自适应训练。

5.根据权利要求1所述的一种基于姿态识别和C3D网络的多人实时动作识别方法，其特征在于，a的取值为5，b的取值为16，c的取值为20。

6.一种基于姿态识别和C3D网络的多人实时动作识别系统，其特征在于，包括：

采集模块，通过摄像头采集原始视频；

7.根据权利要求6所述的一种基于姿态识别和C3D网络的多人实时动作识别系统，其特征在于，所述采集模块中，人体姿态模型视频以纯骨架结构的形式输出。

8.根据权利要求7所述的一种基于姿态识别和C3D网络的多人实时动作识别系统，其特征在于，所述判断模块中，两两相邻帧关键点采用人体骨架的关节点。

9.根据权利要求6所述的一种基于姿态识别和C3D网络的多人实时动作识别系统，其特征在于，所述识别模块中，C3D网络模型的训练包括以下步骤：从数据库获取人体动作视频数据集，使用OpenPose算法对视频数据集进行人体姿态估计，生成人体姿态模型视频；将人体姿态模型视频裁剪为160×160像素大小的视频块，在从中随机截取设定尺寸的b帧图像作为训练数据；采用训练数据对C3D网络模型进行自适应训练。

10.根据权利要求6所述的一种基于姿态识别和C3D网络的多人实时动作识别系统，其特征在于，a的取值为5，b的取值为16，c的取值为20。