CN114565970A

CN114565970A - 一种基于深度学习的高精度多角度行为识别方法

Info

Publication number: CN114565970A
Application number: CN202210103411.8A
Authority: CN
Inventors: 庄旭菲; 张润秀; 许志伟; 王永生
Original assignee: Inner Mongolia University of Technology
Current assignee: Inner Mongolia University of Technology
Priority date: 2022-01-27
Filing date: 2022-01-27
Publication date: 2022-05-31

Abstract

本发明为一种基于深度学习的高精度多角度行为识别方法，首先，收集原始视频数据，对原始视频数据进行数据预处理；其次，基于对比学习的思想应用深度神经网络构建深度学习模型；然后通过深度前馈网络对预处理得到的数据进行特征提取，提取完成后进一步进行动作分类；最后反馈分类后的结果。本发明使用对比学习方法构建自监督模型对数据进行动作分类，有效增强数据特征提取的鲁棒性，使模型学习到更有利于行为分类的知识，并满足了在实际场景下对视频数据中目标行为分类的高准确度需求，为后续依据分类结果进行的其他操作提供良好基础。

Description

一种基于深度学习的高精度多角度行为识别方法

技术领域

本发明属于人工智能技术领域，涉及数据处理、特征提取及动作分类，特别涉及一种基于深度学习的高精度多角度行为识别方法。

背景技术

目前，人体行为识别是计算机视觉领域的研究热点之一，主要应用于视频监控、人机交互、医疗看护等多个领域。因此，对基于视频的动作识别方法进行分析研究有十分重要的意义。

最近几年人们对行为识别的研究，其主要都集中于特征的提取。行为是发生在一定时空的事件，特征不仅仅具有空间性，也具有时间性。如何有效描述时间空间特征是行为识别问题的关键。针对以上问题，行为识别方法目前已有多种解决方法。双流卷积模型考虑时间和空间两方面的特点，分别对其进行编码和融合；3D时空卷积方法在时间序列和空间序列上同时进行计算；也有改变特征的描述手段的方法，SIFT算法具有尺度不变性，可用于在图片中检测行为关键点；光流利用图像序列中像素在时间域上的变化以及相邻帧之间的相关性来找到上一帧跟当前帧之间存在的对应关系，从而计算出相邻帧之间物体的运动信息；还有将图使用到行为识别中的方法。这些方法在视频角度单一、背景较为简单的情况下获得了不错的精度，然而随着科学技术的进步，经济的发展，在实际生活中同一地点通常有着多台摄像机器多角度进行人体动作抓取，如何将收集到的多角度数据进行更好的融合成为亟待解决的问题。

发明内容

为了克服上述现有技术的缺点，本发明的目的在于提供一种基于深度学习的高精度多角度行为识别方法，使用对比学习方法构建自监督模型对数据进行动作分类，有效增强数据特征提取的鲁棒性，学习到更有利于行为分类的知识，并满足了在实际场景下对视频数据中目标行为分类的高准确度需求，为后续依据分类结果进行的其他操作提供良好基础。

为了实现上述目的，本发明采用的技术方案是：

一种基于深度学习的高精度多角度行为识别方法，其特征在于，包括：

步骤1，以摄像设备作为边缘缓存节点，多台摄像设备同一时段从同一高度不同的水平角度收集同一行为的原始视频数据，并上传至服务器，对原始视频数据进行预处理，得到按时间顺序的图片帧；

步骤2，基于步骤1所得图片帧，应用对比学习思想搭建用于动作分类的卷积神经网络模型；

步骤3，使用训练好的卷积神经网络模型对预处理完的图片帧进行动作分类得到并反馈行为识别结果。

在一个实施例中，所述步骤1原始视频数据处理过程包括：首先，将视频按时间顺序切割成图片帧；其次，对得到的图片帧进行区别性命名；最后，将不同角度的图片帧放在同一文件夹中，图片帧的时序顺序不变。

在一个实施例中，所述将不同角度的图片帧放在同一文件夹中是指：

以每个水平角度收集的原始视频数据得到的图片帧为一组，将每两组图片帧独立地放在一个文件夹中，每个文件夹中的每组图片帧中，图片帧的时序顺序不变。

在一个实施例中，所述对比学习思想，是在欧氏空间中将正样本距离拉近，将正样本与负样本距离拉远，在视频数据中，以同一时间不同角度的任意两个图片帧数据x₁和x₂为一对正样本，经过神经网络编码后提取出一对特征表示对，分别最小化其负余弦相似性以达到拉近正样本距离的目的。

在一个实施例中，所述卷积神经网络模型基于Siamese network孪生神经网络框架进行搭建，包括输入层、隐藏层和输出层，所述输入层的输入为若干对所述的正样本，所述隐藏层分别对所述一对正样本进行编码，处理后由输出层输出数据。

在一个实施例中，所述隐藏层由编码函数f(·)和编码函数g(·)组成，编码函数f(·)包括一个主干网络和一个投影头，每一对所述的正样本在编码函数f(·)编码时共享权重，编码函数g(·)作为预测头；

编码函数f(·)的编码结果表示为：

编码函数g(·)的编码结果表示为：

其中，ω₁和b₁为编码函数f(·)的训练参数，ω₂和b₂为编码函数g(·)的训练参数。

在一个实施例中，所述卷积神经网络模型的损失L的计算过程：

最小化p₁和z₂的负余弦相似性：

最小化p₂和z₁的负余弦相似性：

D(p₁,z₂)为p₁和z₂间的欧式距离，D(p₂,z₁)为p₂和z₁间的欧式距离，||·||₂是L2范数；

整体损失定义为：

其中stopgrad(·)为停止梯度操作；

最后利用深度神经网络进行迭代训练，得到使得损失函数最小的压缩自动编码器参数θ＝{w,b}，其中b为偏置项，w为训练参数。

与现有技术相比，本发明从多个设备上收集同一行为视频数据，对多个方位的数据进行处理，高效地利用了多角度数据，针对多角度数据的特点，将对比学习方法引入行为识别模型，搭建的自监督模型在空间上更好地融合多角度数据特征，提取出与时间维度上互补的动作信息。

附图说明

图1是本发明流程图。

具体实施方式

下面结合附图和实施例详细说明本发明的实施方式。

如图1所示，本发明为一种基于深度学习的高精度多角度行为识别方法，包括：

步骤1，以摄像设备作为边缘缓存节点，多台摄像设备同一时段从同一高度的不同水平角度收集同一行为的原始视频数据，并上传至服务器，对原始视频数据进行预处理，得到按时间顺序的图片帧，以利于行为特征提取。

在本发明中，多台摄像设备的垂直高度均相同，但水平角度不同，其原因在于，人在做动作的时候，多台水平角度不同的相机拍摄可以收集到动作的多个不同角度下的数据。目的在于模拟实际场景中摄像机收集的数据为不同角度下人体姿态的动作。以三台摄像设备为例，水平角度可分别设置为-45°、0°和45°。

本发明的原始视频数据处理过程包括：首先，将视频按时间顺序切割成图片帧；其次，对得到的图片帧进行区别性命名；最后，将不同角度的图片帧放在同一文件夹中，图片帧的时序顺序不变。具体地，以每个水平角度收集的原始视频数据得到的图片帧为一组，将每两组图片帧独立地放在一个文件夹中，每个文件夹中的每组图片帧中，图片帧的时序顺序不变。

例如，有两个不同的水平角度，对提取的n张图片帧以10001、10002、……、1000n和20001、20002、……2000n的方式命名，用以区分不同角度。

再例如，有三个不同的水平角度，角度一获取的图片帧为(a1～a9)，角度二获取的图片帧为(b1～b9)；角度三获取的图片帧为(c1～c9)。则每两组图片帧放一个文件夹，一共放三个文件夹，文件夹一：[(a1～a9),(b1～b9)]，文件夹二：[(b1～b9),(c1～c9)]，文件夹三:[(a1～a9),(c1～c9)]。以文件夹一为例，在进行模型训练时，输入顺序为(a1～a9)～(b1～b9)，也可(b1～b9)～(a1～a9)。

步骤2，对于多角度这一特点进行针对性的模型构建，以此提高多角度数据的利用并获得行为识别的高精度结果。具体地，基于步骤1所得图片帧，本发明应用对比学习思想搭建用于动作分类的卷积神经网络模型。

所谓对比学习思想，是在欧氏空间中将正样本距离拉近，将正样本与负样本距离拉远，本发明中，以同一时间不同角度的任意两个图片帧数据x₁和x₂为一对正样本，经过神经网络编码后提取出一对特征表示对，分别最小化其负余弦相似性以达到拉近正样本距离的目的。当有n个水平角度时，进行

排列组合，以两个不同角度组成一组正样本。

本发明卷积神经网络模型基于Siamese network孪生神经网络框架进行搭建，包括输入层、隐藏层和输出层，输入层的输入即为若干对所述的正样本，每一对正样本从输入层的两个数据层输入，隐藏层分别对输入的每一对正样本进行编码，处理后由输出层输出数据。

示例地，隐藏层由编码函数f(·)和编码函数g(·)组成，编码函数f(·)包括一个主干网络和一个投影头，每一对所述的正样本在编码函数f(·)编码时共享权重，编码函数g(·)作为预测头；

编码函数f(·)的编码结果表示为：

编码函数g(·)的编码结果表示为：

本发明卷积神经网络参数值确定过程为：

预训练卷积神经网络，从而确定参数的初始值，通过计算损失L来训练参数，损失L的计算过程：

最小化p₁和z₂的负余弦相似性：

最小化p₂和z₁的负余弦相似性：

整体损失定义为：

其中stopgrad(·)为停止梯度操作；

最后利用深度神经网络进行迭代训练，得到使得损失函数最小的压缩自动编码器参数θ＝{w,b}，其中b为偏置项(偏置参数)，w为训练参数(权重参数)，即为前述参数(ω₁和b₁、ω₂和b₂)训练结束的最终值。当网络模型训练到收敛时，认为该神经网络能很好地提取输入数据的特征信息。

步骤3，使用训练好的卷积神经网络模型，即可对预处理完的图片帧进行特征提取，提取完成后进一步进行动作分类，得到并反馈分类后的行为识别结果。

在本发明的一个具体实施例中，采用NTU RGB+D行为识别数据集进行训练，NTURGB+D是由南洋理工大学的Rose Lab实验室提出来的人体(骨架)行为识别数据集，该数据集包含56880个数据样本，一共60类动作，前面50类动作是单人动作，后面10类动作是双人交互动作，数据集样本文件格式如下：：S001C003P008R002A058。其中：

S:设置号，“NTU RGB+D”数据集包括设置号在S001和S017之间的文件/文件夹，而“NTU RGB+D 120”数据集包括设置号在S001和S032之间的文件/文件夹；

C:相机ID，共有三架；

P:人物ID，P001表示一号动作执行人，但并非每个人都执行了所有动作；

R:同一个动作的表演次数；

A:动作类别，A001到A060种动作类别。

现有的行为识别方式为：对单一的原始视频数据进行预处理，通过训练深度神经网络提取图片帧时间或空间上的特征信息，利用特征信息进行有监督的行为分类。

本发明识别方式为：利用多角度视频数据的多方位特点，将其与Siamese network孪生神经网络框架相结合，在基于对比学习思想的基础上对多角度视频数据进行编码。通过对比学习的思想搭建自监督卷积神经网络模型，充分抓取数据的动作特征与时间序列提取的特征相互补，使得网络模型可以达到高精度高效率的行为识别。

具体地，本发明选取NTU RGB+D行为识别数据集其中十种动作类别，数据集样本文件格式为：

S001C001P001R001A001_rgb

S001C001P001R001A007_rgb

S001C001P001R001A013_rgb

S001C001P001R001A019_rgb

S001C001P001R001A025_rgb

S001C001P001R001A031_rgb

S001C001P001R001A037_rgb

S001C001P001R001A043_rgb

S001C001P001R001A049_rgb

S001C001P001R001A055_rgb

S001C002P001R001A001_rgb

……

将其C001、C002两台相机拍摄的数据中同一行为视为正样本，C001、C002为两台垂直高度均相同，但水平角度不同的相机，例如两台相机同时拍摄到的喝水动作S001C001P001R001A001_rgb和S001C002P001R001A001_rgb为一对正样本。并可设置另一相机用于测试，使用开源视频动作分析库MMAction中视频提取图片帧的方法对其进行数据处理，处理后每一种类动作分别放置在文件夹中，命名0，……，10。将处理好的数据作为卷积神经网络的输入，图片输入尺寸大小裁减为227×227输入，经过特征提取后大小输出为1*2048的特征向量。最后，将分类后的结果发送给后台管理员。表1为本发明与现有的2D卷积方法评价指标对比，可以看出本发明的评价指标远远优于2D卷积方法。

表1本文方法与2D卷积方法在NTU-RGB+D数据集上各类评价指标的比较

方法	准确率	精确率	召回率	F1值
					2D卷积	7.43	36.22	62.95	43.39
本文方法	15.40	42.86	70.00	53.17

综上，本发明使用对比学习方法构建自监督模型对数据进行动作分类，有效增强数据特征提取的鲁棒性，使模型学习到更有利于行为分类的知识，并满足了在实际场景下对视频数据中目标行为分类的高准确度需求，为后续依据分类结果进行的其他操作提供良好基础。

以上，对本发明的具体实施方式做了具体描述，但是不应该认定本发明的具体实施只局限于这些说明。对于本发明所属领域的普通技术人员来说，在不脱离本发明构思和由权利要求书所限定的保护范围的前提之下，还可以做出若干简单推演或替换，都应当视为属于本发明的保护范围。

Claims

1.一种基于深度学习的高精度多角度行为识别方法，其特征在于，包括：

2.根据权利要求1所述基于深度学习的高精度多角度行为识别方法，其特征在于，所述步骤1中原始视频数据处理过程包括：首先，将视频按时间顺序切割成图片帧；其次，对得到的图片帧进行区别性命名；最后，将不同角度的图片帧放在同一文件夹中，图片帧的时序顺序不变。

3.根据权利要求2所述基于深度学习的高精度多角度行为识别方法，其特征在于，所述将不同角度的图片帧放在同一文件夹中是指：

4.根据权利要求1所述基于深度学习的高精度多角度行为识别方法，其特征在于，所述对比学习思想，是在欧氏空间中将正样本距离拉近，将正样本与负样本距离拉远，在视频数据中，以同一时间不同角度的任意两个图片帧数据x₁和x₂为一对正样本，经过神经网络编码后提取出一对特征表示对，分别最小化其负余弦相似性以达到拉近正样本距离的目的。

5.根据权利要求4所述基于深度学习的高精度多角度行为识别方法，其特征在于，所述卷积神经网络模型基于Siamese network孪生神经网络框架进行搭建，包括输入层、隐藏层和输出层，所述输入层的输入为若干对所述的正样本，所述隐藏层分别对所述一对正样本进行编码，处理后由输出层输出数据。

6.根据权利要求5所述基于深度学习的高精度多角度行为识别方法，其特征在于，所述隐藏层由编码函数f(·)和编码函数g(·)组成，编码函数f(·)包括一个主干网络和一个投影头，每一对所述的正样本在编码函数f(·)编码时共享权重，编码函数g(·)作为预测头；

编码函数f(·)的编码结果表示为：

编码函数g(·)的编码结果表示为：

7.根据权利要求5所述基于深度学习的高精度多角度行为识别方法，其特征在于，所述卷积神经网络模型的损失L的计算过程：

最小化p₁和z₂的负余弦相似性：

最小化p₂和z₁的负余弦相似性：

D(p₁，z₂)为p₁和z₂间的欧式距离，D(p₂，z₁)为p₂和z₁间的欧式距离，||·||₂是L2范数；

整体损失定义为：

其中stopgrad(·)为停止梯度操作；

最后利用深度神经网络进行迭代训练，得到使得损失函数最小的压缩自动编码器参数θ＝{w，b}，其中b为偏置项，w为训练参数。