CN112749671A

CN112749671A - 一种基于视频的人体行为识别方法

Info

Publication number: CN112749671A
Application number: CN202110066504.3A
Authority: CN
Inventors: 任南琪; 王爱杰; 王旭; 路璐; 冯骁驰
Original assignee: Lantogis Ecological Technology Group Co Ltd
Current assignee: Lantogis Ecological Technology Group Co Ltd
Priority date: 2021-01-19
Filing date: 2021-01-19
Publication date: 2021-05-04

Abstract

本发明公开了一种基于视频的人体行为识别方法，包括如下步骤：获取或选择包含深度和骨骼信息的人体行为视频的数据集，选择重要信息视频片段作为输入；对数据预处理：将深度图序列转化为三维点云，仅保留重要部位附近点云；对人体行为序列进行动作片段的划分，将每个动作的重要部位三维点云每帧叠加得到运动轨迹；对运动轨迹进行三维卷积神经网络特征图提取，得到时空特征图，根据骨骼点位置信息生成对应的热图；对时空特征图与热图进行操作，得到所有骨骼点特征集合。本发明可以充分利用局部的时空特征，充分考虑局部决策对识别效果的影响，从而有效提升了行为识别效果，同时，能够提取的重要特征，对于人体行为识别具有较好的区分度。

Description

一种基于视频的人体行为识别方法

技术领域

本发明涉及计算机视觉和模式识别技术领域，尤其涉及一种基于视频的人体行为识别方法。

背景技术

人体行为识别作为计算机视觉中的一个基本问题，现在已经引起了业内的广泛关注。随着计算机智能技术的不断发展，在今后的生活中，人体动作识别具有广阔的应用前景。例如：智能监控、人机交互的体感游戏、视频检索等等。视频中的人体行为识别与静态图像中的对象识别有着相似的问题，这两项任务都必须处理显著的类内变化、背景杂乱和遮挡。但是，视频比图像多了一项额外的时间线索。对于视频时间线索的获取是一大难点。卷积神经网络(Convolutional Neural Network，CNN)应用于视频数据的方法主要有两种：一种是采用2D CNN结构，将基于图像的模型直接应用于视频的各个帧，但只能刻画视频的视觉外观。另一种方式是3D CNN，这样卷积核是三维的，可以同时提取空间和时间信息，但是网络参数量会激增，造成过拟合。

发明内容

基于背景技术存在的技术问题，本发明提出了一种基于视频的人体行为识别方法。

本发明提出的一种基于视频的人体行为识别方法，包括如下步骤：

S1获取或选择包含深度和骨骼信息的人体行为视频的数据集，选择重要信息视频片段作为输入；

S2对数据预处理：将深度图序列转化为三维点云，仅保留重要部位附近点云；

S3对人体行为序列进行动作片段的划分，将每个动作的重要部位三维点云每帧叠加得到运动轨迹；

S4对运动轨迹进行三维卷积神经网络特征图提取，得到时空特征图，根据骨骼点位置信息生成对应的热图；

S5对时空特征图与热图进行操作，得到所有骨骼点特征集合；

S6对每个骨骼点分别进行决策，得到局部决策集合；

S7将所有局部决策结果融合，得到最终的行为分类结果，建立识别模型；

S8根据识别模型，确定待识别人体行为的行为类别。

优选的，所述深度图中像素的xy坐标作为三维点的xy坐标，将代表深度数据的像素值作为三维点的z坐标，从而形成三维点云，三维点云也称点云。

优选的，所述重要部位附近点云，指以表示重要部位的一个或一组骨骼点为中心，取一适当大小的长方体，被该长方体包含的三维点云的集合即为该重要部位附近点云。

优选的，所述步骤S1获取或选择包含深度和骨骼信息的人体行为视频的数据集包括获取对应的骨架点坐标、骨架点帧间坐标差和骨架特征。

优选的，所述骨骼点坐标包括骨架的三维绝对坐标和中心点的相对坐标，所述骨架点帧间坐标差包括相邻帧间坐标差和间隔帧间坐标差，所述骨架特征包括骨架长度和骨架旋转角。

优选的，所述步骤S1选择重要信息视频片段作为输入包括提取单元，提取单元用于针对任一原始视频，将原始视频均分为T段，对每段使用三维卷积深度神经网络进行特征提取，得到第t段视频在深度神经网络模型第i个卷积层的特征图输出表示f(t)，t＝1,2，…,T；第一计算模块，用于计算各段视频的特征图平均值，得到视频特征图第二计算模块，用于根据所述视频特征图计算所述原始视频的空间特征图fθ：其中，其中，θ是嵌入函数，表示特征嵌入空间。

优选的，所述待识别人体包括注意力模块和识别模块。

优选的，所述注意力模块中包含图卷积模块和基于人体部位的注意力子模块，识别模块用于根据行为识别模型对待识别人体骨架进行识别，输出人体行为动作。

本发明中，所述一种基于视频的人体行为识别方法，可以充分利用局部的时空特征，充分考虑局部决策对识别效果的影响，从而有效提升了行为识别效果，同时，能够提取的重要特征，对于人体行为识别具有较好的区分度。

附图说明

图1为本发明提出的一种基于视频的人体行为识别方法的流程示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。

参照图1，一种基于视频的人体行为识别方法，包括如下步骤：

S6对每个骨骼点分别进行决策，得到局部决策集合；

S8根据识别模型，确定待识别人体行为的行为类别。

本发明中，深度图中像素的xy坐标作为三维点的xy坐标，将代表深度数据的像素值作为三维点的z坐标，从而形成三维点云，三维点云也称点云。

本发明中，重要部位附近点云，指以表示重要部位的一个或一组骨骼点为中心，取一适当大小的长方体，被该长方体包含的三维点云的集合即为该重要部位附近点云。

本发明中，步骤S1获取或选择包含深度和骨骼信息的人体行为视频的数据集包括获取对应的骨架点坐标、骨架点帧间坐标差和骨架特征。

本发明中，骨骼点坐标包括骨架的三维绝对坐标和中心点的相对坐标，骨架点帧间坐标差包括相邻帧间坐标差和间隔帧间坐标差，骨架特征包括骨架长度和骨架旋转角。

本发明中，步骤S1选择重要信息视频片段作为输入包括提取单元，提取单元用于针对任一原始视频，将原始视频均分为T段，对每段使用三维卷积深度神经网络进行特征提取，得到第t段视频在深度神经网络模型第i个卷积层的特征图输出表示f(t)，t＝1,2，…,T；第一计算模块，用于计算各段视频的特征图平均值，得到视频特征图第二计算模块，用于根据视频特征图计算原始视频的空间特征图fθ：其中，其中，θ是嵌入函数，表示特征嵌入空间。

本发明中，待识别人体包括注意力模块和识别模块。

本发明中，注意力模块中包含图卷积模块和基于人体部位的注意力子模块，识别模块用于根据行为识别模型对待识别人体骨架进行识别，输出人体行为动作。

本发明：获取或选择包含深度和骨骼信息的人体行为视频的数据集，选择重要信息视频片段作为输入；对数据预处理：将深度图序列转化为三维点云，仅保留重要部位附近点云；对人体行为序列进行动作片段的划分，将每个动作的重要部位三维点云每帧叠加得到运动轨迹；对运动轨迹进行三维卷积神经网络特征图提取，得到时空特征图，根据骨骼点位置信息生成对应的热图；对时空特征图与热图进行操作，得到所有骨骼点特征集合；对每个骨骼点分别进行决策，得到局部决策集合；将所有局部决策结果融合，得到最终的行为分类结果，建立识别模型；根据识别模型，确定待识别人体行为的行为类别。

以上所述，仅为本发明较佳的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，根据本发明的技术方案及其发明构思加以等同替换或改变，都应涵盖在本发明的保护范围之内。

Claims

1.一种基于视频的人体行为识别方法，其特征在于，包括如下步骤：

S6对每个骨骼点分别进行决策，得到局部决策集合；

S8根据识别模型，确定待识别人体行为的行为类别。

2.根据权利要求1所述的一种基于视频的人体行为识别方法，其特征在于，所述深度图中像素的xy坐标作为三维点的xy坐标，将代表深度数据的像素值作为三维点的z坐标，从而形成三维点云，三维点云也称点云。

3.根据权利要求1所述的一种基于视频的人体行为识别方法，其特征在于，所述重要部位附近点云，指以表示重要部位的一个或一组骨骼点为中心，取一适当大小的长方体，被该长方体包含的三维点云的集合即为该重要部位附近点云。

4.根据权利要求1所述的一种基于视频的人体行为识别方法，其特征在于，所述步骤S1获取或选择包含深度和骨骼信息的人体行为视频的数据集包括获取对应的骨架点坐标、骨架点帧间坐标差和骨架特征。

5.根据权利要求4所述的一种基于视频的人体行为识别方法，其特征在于，所述骨骼点坐标包括骨架的三维绝对坐标和中心点的相对坐标，所述骨架点帧间坐标差包括相邻帧间坐标差和间隔帧间坐标差，所述骨架特征包括骨架长度和骨架旋转角。

6.根据权利要求1所述的一种基于视频的人体行为识别方法，其特征在于，所述步骤S1选择重要信息视频片段作为输入包括提取单元，提取单元用于针对任一原始视频，将原始视频均分为T段，对每段使用三维卷积深度神经网络进行特征提取，得到第t段视频在深度神经网络模型第i个卷积层的特征图输出表示f(t)，t＝1,2，…,T；第一计算模块，用于计算各段视频的特征图平均值，得到视频特征图第二计算模块，用于根据所述视频特征图计算所述原始视频的空间特征图fθ：其中，其中，θ是嵌入函数，表示特征嵌入空间。

7.根据权利要求1所述的一种基于视频的人体行为识别方法，其特征在于，所述待识别人体包括注意力模块和识别模块。

8.根据权利要求7所述的一种基于视频的人体行为识别方法，其特征在于，所述注意力模块中包含图卷积模块和基于人体部位的注意力子模块，识别模块用于根据行为识别模型对待识别人体骨架进行识别，输出人体行为动作。