CN110119703B

CN110119703B - 一种安防场景下融合注意力机制和时空图卷积神经网络的人体动作识别方法

Info

Publication number: CN110119703B
Application number: CN201910373679.1A
Authority: CN
Inventors: 柯逍; 柯力
Original assignee: Fuzhou University
Current assignee: Fuzhou University
Priority date: 2019-05-07
Filing date: 2019-05-07
Publication date: 2022-10-04
Anticipated expiration: 2039-05-07
Also published as: CN110119703A

Abstract

本发明提出一种安防场景下融合注意力机制和时空图卷积神经网络的人体动作识别方法，首先对获取的安防场景下的人体动作分析数据集进行随机划分，分为为训练集和验证集；其次对训练集和验证集视频数据进行数据增强处理；接着对获取的和增强的数据集利用注意力机制进行关键帧筛选；然后对筛选出来的关键帧视频利用人体姿态估计模型框架进行转码和标注，为训练人体动作检测与识别模型做好准备；最后构建时空骨骼图卷积神经网络模型，并使用训练集进行训练并利用随机梯度下降进行优化网络参数权重，使用验证集进行神经网络模型的准确率预测。其不仅可以扩大原始动作数据量，还可以增强模型的鲁棒性，进而提升最终的动作识别准确率。

Description

一种安防场景下融合注意力机制和时空图卷积神经网络的人体动作识别方法

技术领域

本发明涉及模式识别与计算机视觉领域，尤其涉及一种安防场景下融合注意力机制和时空图卷积神经网络的人体动作识别方法。

背景技术

视觉一直是人类获取外界信息的最重要、最直观的途径，据有关统计，人类获取信息的80％都是通过视觉。随着摄像头等图像传感器的质量不断上升，同时价格的不断下降，图像传感器得到大规模的部署和应用，每天都会因此产生海量的信息。单纯地依靠眼睛去获取所需要的信息已经不能满足人们对与新信息、新知识的要求。另外，随着计算机运算速度的提高、计算能力的进一步增强，以及图像处理算法的不断发展，计算机视觉技术应运而生。计算机视觉技术依托计算机或者其他嵌入式平台，利用图像处理、机器学习和深度学习等技术，对图像进行特定目标检测识别、图像切割和图像理解等处理，实现对图像中的视觉信息自动分析和智能处理，提取我们所感兴趣的信息。近年来，计算机视觉技术得到越来越多研究人员的青睐，是当前最活跃和最重要的一个方向。基于视频的人体行为识别作为计算机视觉的一个热门研究领域，旨在研究和理解视频中人的行为动作，包括人的单体行为动作、人与人之间的交互行为、人与环境的交互关系等，自动识别视频或者图片序列中的行为动作。

人体行为识别方法主要分为传统的机器学习和深度学习两大类方法。传统的机器学习主要算法流程为特征提取、特征编码、行为分类这三个步骤。深度学习主要有双流卷积网络(Two-Stream Convolutional Networks)及其衍生网络、3D卷积神经网络(3DConvolutional Neural Networks，3D卷积)和长短期记忆网络(Long-Short Term Memory，LSTM)等等。

当前安防场景下人体动作识别的困难之处包括：

(1)在安防场景下异常动作发生频率很低、数据收集和标注困难等问题，即无论是常规动作还是异常动作都存在多样且复杂的特点，进而导致类别内的多样性较高。

(2)传统的骨架建模方法通常依赖于手工制作的部件或遍历规则，导致表达能力有限与难以推广。

时间信息是视频动作识别的关键因素，在视频动作识别中，探索研究一种有效的运动表示方法是非常重要的。传统如3DHOG、运动向量、密集轨迹等运动描述方法存在效率低下、准确率偏低等问题。

发明内容

针对上述问题，本发明提供一种安防场景下融合注意力机制和时空图卷积神经网络的人体动作识别方法，解决安防场景下异常动作发生频率很低、数据收集和标注困难；传统的骨架建模方法通常依赖于手工制作的部件或遍历规则，导致表达能力有限与难以推广；传统如3DHOG、运动向量、密集轨迹等运动描述方法存在效率低下、准确率偏低等问题。

其首先对获取的安防场景下的人体动作分析数据集进行随机划分，分为为训练集和验证集；其次对训练集和验证集视频数据进行数据增强处理；接着对获取的和增强的数据集利用注意力机制进行关键帧筛选；然后对筛选出来的关键帧视频利用人体姿态估计模型框架进行转码和标注，为训练人体动作检测与识别模型做好准备；最后构建时空骨骼图卷积神经网络模型，并使用训练集进行训练并利用随机梯度下降进行优化网络参数权重，使用验证集进行神经网络模型的准确率预测。

本发明具体包括以下方案：

一种安防场景下融合注意力机制和时空图卷积神经网络的人体动作识别方法，其特征在于，包括以下步骤：

步骤S1：对获取的安防场景下的人体动作分析数据集进行随机划分，分为为训练集和验证集；

步骤S2：对训练集和验证集中的安防视频数据进行数据增强处理；

步骤S3：对增强后的人体动作分析数据集利用注意力机制进行关键帧筛选；

步骤S4：对筛选出来的关键帧视频利用人体姿态估计模型框架进行转码和标注；

步骤S5：构建时空骨骼图卷积神经网络模型，使用训练集进行训练并利用随机梯度下降进行优化网络参数权重；

步骤S6：使用验证集进行融合注意力机制和时空骨骼图卷积神经网络模型的准确率预测。

优选地，步骤S1具体包括以下步骤：

步骤S11：获取安防视频数据构建人体动作分析数据集，对获得的安防视频数据进行标准化处理，将视频分辨率和帧率统一；

步骤S12：将所述人体动作分析数据集按照100:1的比例随机分为训练集和验证集。

优选地，步骤S2具体包括以下步骤：

步骤S21：对所述安防视频数据进行自适应随机遮挡增强；

步骤S22：对所述安防视频数据进行旋转变换增强；

步骤S23：对所述安防视频数据进行随机剪裁增强；

步骤S24：对所述安防视频数据进行对比度变换增强；

步骤S25：对所述安防视频数据进行长或宽拉伸增强；

步骤S26：对所述安防视频数据进行随机加噪增强；

步骤S27：对所述安防视频数据进行去噪增强。

优选地，步骤S3具体包括以下步骤：

步骤S31：从一个安防视频数据序列中选择N个视频帧构成一个视频帧集合；

步骤S32：将所述视频帧集合中的每张图片经过预训练的ResNet50处理后得到N*2048*8*4的特征图；

步骤S33：将所述特征图送入多区域空间注意力模块得到多个关注不同行人的特征集；

步骤S34：将不同视频帧同一个行人的特征经过时域注意力模块进行处理；

步骤S35：在时域上进行聚合得到一个行人的一个向量表示，多个行人得到的多个向量连接后经过一个全连接降维后作为视频序列的特征，训练阶段使用OIM loss训练，获得一个视频序列的关键帧。

优选地，步骤S4具体包括以下步骤：

步骤S41：对筛选出来的关键帧视频输入到OpenPose姿态估计系统中，并使用COCO模型提取18个关键点坐标信息和概率；

步骤S42：将关键帧视频数据表示为(3,T,18,2)的张量，其中T为视频数据的帧数，并将每个关键帧视频通过重复填充到300帧，使一个特征对应一个json数据文件；

步骤S43：将提取完特征的全部所述json数据文件，转化并打包为一个关键帧视频文件对应一个json数据文件的格式；

步骤S44：对打包完的json数据文件进行人工标注，把关键帧视频对应的动作类型用标签进行标明。

优选地，在步骤S41当中，多人场景下，只选取置信度(所有关键点置信度均值)最高的两个人的关键点信息。

优选地，步骤S5具体包括以下步骤：

步骤S51：构造时空骨骼图卷积神经网络模型，采用图像卷积核公式：

其中x表示位置，K表示内核大小，h表示卷积核高度偏移的坐标，ω表示卷积核纵向偏移的坐标，f_in表示输入特征函数，f_out(x)表示x处的输出特征函数，P表示抽样函数，w表示权重函数；

步骤S52：将给定的某帧内的节点按照人体结构进行连接，然后将此帧，按帧内每个节点和下一帧中对应节点进行连接；

步骤S53：使用所述训练集进行训练并利用随机梯度下降对网络参数权重进行优化，损失函数为：

其中，J(θ)是损失函数，m代表每次取多少样本进行训练，i代表从1到m的循环参数，采用随机梯度下降进行训练，每次随机取一组样本，m＝1，θ是参数，h(θ)为待拟合的函数，x是样本值，y是预测目标。

优选地，步骤S6具体包括以下步骤：

步骤S61：将所述验证集进行数据增强；

步骤S62：采用步骤S3和S4的方法对验证集使用注意力机制进行关键帧筛选并转码和标注，得到视频中关键帧的信息；

步骤S63：将步骤S62得到的视频中关键帧的信息传入所述融合注意力机制和时空骨骼图卷积神经网络模型，得到一个类别，将此类别与标注的结果进行比较，计算准确率。

与现有技术相比，本发明及其优选方案具有以下主要有益效果：(1)不仅可以扩大原始动作数据量，还可以增强模型的鲁棒性，进而提升最终的动作识别准确率。(2)较大程度地提升了骨架建模能力。不仅具有较强的表达能力，而且具有较强的泛化能力。

附图说明

下面结合附图和具体实施方式对本发明进一步详细的说明：

图1是本发明实施例整体流程示意图。

具体实施方式

为让本专利的特征和优点能更明显易懂，下文特举实施例，并配合附图，作详细说明如下：

如图1所示，本实施例整体流程包括以下步骤：

在本实施例中，所述步骤S1具体包括：

步骤S11：采取自建或者下载公用的安防领域数据集；对获得的视频数据统一进行处理，将大小缩放为340*256，帧数率调整为30帧/秒；

步骤S12：将数据集按照100:1的比例随机分为训练集和验证集。

步骤S2：对训练集和验证集视频数据进行数据增强处理；

在本实施例中，所述步骤S2具体包括：

步骤S21：对视频数据进行自适应随机遮挡增强；

步骤S22：对视频数据进行旋转变换增强；

步骤S23：对视频数据进行随机剪裁增强；

步骤S24：对视频数据进行对比度变换增强；

步骤S25：对视频数据进行长或宽拉伸增强；

步骤S26：对视频数据进行随机加噪增强；

步骤S27：对视频数据进行去噪增强；

步骤S3：对获取的和增强的数据集利用注意力机制进行关键帧筛选；

在本实施例中，所述步骤S3具体包括：

该多区域空间注意力模块的具体实现方式为：对于每张图，看作有32个2048维的空间特征，对于每个空间注意力模块，将2048*32的空间特征图经过d个神经元的全连接和Relu降维得到dx32，然后再经过一个神经元的全连接得到一张图32个空间向量分数，经过softmax得到32个空间向量的权重，然后根据L个权重对L个空间特征进行加权求和，得到第n帧、第k个空间注意力模块的特征；

步骤S34：将不同视频帧同一个行人的特征经过时域注意力模块进行处理；时域注意力模块是为了关注到更多细粒度的信息，采用了N*K个权重、每帧视频的每个空间感受野一个单独权重的时域注意力方法。该模块具体实现为：将特征图经过一个神经元的全连接得到一个分数，然后经时域上的softmax得到时域权重；

步骤S4：对筛选出来的关键帧视频利用人体姿态估计模型框架进行转码和标注，为训练人体动作检测与识别模型做好准备；

在本实施例中，所述步骤S4具体包括：

步骤S41：对筛选出来的关键帧视频输入到OpenPose姿态估计系统中，并使用COCO模型提取18个关键点坐标信息和概率；多人场景下，只选取置信度最高(所有关键点置信度均值)的两个人的关键点信息；

步骤S42：将视频数据表示为(3,T,18,2)的张量，其中T为视频数据的帧数，为方便起见，将每个视频通过重复填充到300帧，此时是一个特征一个json数据文件，即一个视频文件有多个特征数据。

步骤S43：将提取完特征的全部json格式文件，转化并打包为一个视频文件对应一个json文件的格式。

步骤S44：对打包完的json视频数据进行人工标注，把视频文件对应的动作类型用标签进行标明。为训练人体动作检测与识别模型做好准备。

步骤S5：构建时空骨骼图卷积神经网络模型，并使用训练集进行训练并利用随机梯度下降进行优化网络参数权重；

在本实施例中，所述步骤S5具体包括：

步骤S52：将给定的某帧内的节点按照人体结构进行连接，然后将此帧，按帧内每个节点和下一帧中对应节点进行连接，这样构造可使模型应用于具有不同节点数和节点连接关系的不同数据集；

步骤S53：使用训练集进行训练并利用随机梯度下降进行优化网络参数权重，损失函数为：

在本实施例中，所述步骤S6具体包括：

步骤S61：将验证集进行数据增强；

本专利不局限于上述最佳实施方式，任何人在本专利的启示下都可以得出其它各种形式的安防场景下融合注意力机制和时空图卷积神经网络的人体动作识别方法，凡依本发明申请专利范围所做的均等变化与修饰，皆应属本专利的涵盖范围。

Claims

1.一种安防场景下融合注意力机制和时空图卷积神经网络的人体动作识别方法，其特征在于，包括以下步骤：

步骤S1：对获取的安防场景下的人体动作分析数据集进行随机划分，分为训练集和验证集；

步骤S6：使用验证集进行融合注意力机制和时空骨骼图卷积神经网络模型的准确率预测；

步骤S3具体包括以下步骤：

步骤S35：在时域上进行聚合得到一个行人的一个向量表示，多个行人得到的多个向量连接后经过一个全连接降维后作为视频序列的特征，训练阶段使用OIM loss训练，获得一个视频序列的关键帧；

步骤S4具体包括以下步骤：

步骤S44：对打包完的json数据文件进行人工标注，把关键帧视频对应的动作类型用标签进行标明；

步骤S5具体包括以下步骤：

2.根据权利要求1所述的安防场景下融合注意力机制和时空图卷积神经网络的人体动作识别方法，其特征在于：

步骤S1具体包括以下步骤：

3.根据权利要求1所述的安防场景下融合注意力机制和时空图卷积神经网络的人体动作识别方法，其特征在于：

步骤S2具体包括以下步骤：