CN110348381A

CN110348381A - 一种基于深度学习的视频行为识别方法

Info

Publication number: CN110348381A
Application number: CN201910624511.3A
Authority: CN
Inventors: 屈鸿; 侯帅; 杨昀欣; 贺强; 李彦
Original assignee: University of Electronic Science and Technology of China
Current assignee: University of Electronic Science and Technology of China
Priority date: 2019-07-11
Filing date: 2019-07-11
Publication date: 2019-10-18

Abstract

本发明公开一种基于深度学习的视频行为识别方法，包括以下步骤：S1.将人体行为视频数据随机均匀切帧处理，得到预设数量相等的帧图像数据；S2.将每帧图像数据组成的数据集按照比例常数划分成训练集和测试集；S3.采用进行每通道像素均值消减法分别对训练集和测试集中的帧图像数据进行归一化处理，得到帧图像处理数据；S4.将帧图像处理数据输入特征提取网络ResNet‑50中提取出图片的特征；S5.将训练集对应的图片的特征输入循环神经网络进行训练，直到预测结果的正确率大于预设值时，得到预测循环神经网络模型；S6.将测试集运用预测循环神经网络模型进行识别得到识别结果。本发明在时间和空间两个维度上应用注意力机制来简化运算、提高模型的识别率。

Description

一种基于深度学习的视频行为识别方法

技术领域

本发明涉及深度学习在计算机视觉、自然语言处理、自动驾驶技术领域，具体涉及一种基于深度学习的视频行为识别方法。

背景技术

卷积神经网络(Convolutional Neural Network,CNN)也是一种前馈神经网络，不同于全连接网络的是它的神经元只会连接上一层部分范围，该范围称为局部感受野，这就大大减少了网络中的连接数量，由于CNN的这种结构，其在图像处理方面具有出色的表现。比如图片分类、目标识别以及实体分割等任务。

对于视频这种具有时序信息的数据，需要通过某种方法将卷积神经网络对每帧图片处理后得到的特征进行时序信息的建模，这就需要使用到循环神经网络。循环神经网络是一类具有短期记忆能力的神经网络，与前馈网络只接受不同层的神经元的输入相比，循环神经网络中神经元还可以接受自身的一些状态信息作为输入，形成了环路结构，这些状态就相当于网络的短期记忆。与前馈网络相比，循环神经网络进一步模拟了生物神经网络。因此，循环神经网络被广泛应用于时序数据的处理中，包括语音识别、自然语言处理以及本文将要研究的视频行为识别的问题中。

现有的视频中的人体行为识别这种比较复杂的实际问题，存在机制来运算复杂和模型的识别率不高的问题。

发明内容

针对现有技术中所存在的不足，本发明提供了一种基于深度学习的视频行为识别方法，解决了运算复杂和模型的识别率不高的问题。

为实现上述目的，本发明采用了如下的技术方案：一种基于深度学习的视频行为识别方法，包括以下步骤：

S1.将人体行为视频数据随机均匀切帧处理，得到预设数量相等的帧图像数据；

S2.将每帧图像数据组成的数据集按照比例常数划分成训练集和测试集；

S3.采用进行每通道像素均值消减法分别对训练集和测试集中的帧图像数据进行归一化处理，得到帧图像处理数据；

S4.将帧图像处理数据输入特征提取网络ResNet-50中提取出图片的特征；

S5.将训练集对应的图片的特征输入循环神经网络进行训练，直到预测结果的正确率大于预设值时，得到预测循环神经网络模型；

S6.将测试集运用预测循环神经网络模型进行识别得到识别结果。

进一步的，步骤S2之前需要每帧图像数据进黑边处理，具体步骤如下：

1).将帧图像数据通过borderFinder函数在O(logn)时间复杂度内找到图片边缘所在的线；

borderFinder函数的执行逻辑为：

a).分别对图片的像素点进行从上到下和从下到上的遍历，计算每个像素点三个通道的像素值的和，记为S，如果S<25，记录该像素点的坐标值，当遍历到的一行中的S都没有满足上述条件就终止遍历，记录得到图像的上下边界分别为up_idx,bottom_idx；同理计算出图像左右两边的边界left_idx,right_idx；

b).使用步骤a)得到的四个边界值对输入图像进行裁剪得到去除黑边后的输出图像；

2).去除帧图像数据的三通道像素值的和小于阈值的像素点，得到裁剪掉多余的黑边的帧剪裁图像数据。

进一步的，每通道像素均值消减法为：

1).计算训练集中的帧剪裁图像数据中每个通道像素值的平均值；

数字图像的每一个像素值都是由红(R)、绿(G)、蓝(B)三通道组成，记图像的大小为w×h,其中w和h分别为图像的宽和高，那么这幅图像总共有w×h个像素，则计算每个通道像素平均值的公式如下：

其中μ_R，μ_G，μ_B分别为每个通道的像素平均值，R_i，G_i，B_i分别为每个像素的红、绿、蓝像素值，这些像素值都是一个0到255的整数；

2).再将训练集中每张帧剪裁图像数据的每个通道的像素值减去对应通道的平均像素值，后除以对应通道像素值的方差，得到每个像素处理后对应的值。具体计算公式如下：

其中为每个像素处理后对应的值，为每个通道像素值的方差，方差的计算公式为：

进一步的，步骤S4中，通过特征提取网络ResNet-50后生成一个长度为2048的特征向量；对于从视频中提取的第t帧图像经过上述处理后，将其输入到特征提取网络，得到一个维度为D×K×K的三维张量X_t,ResNet-50特征提取网络的输出张量维度为2048×7×7；对于这个三维张量X_t，我们在其D个二维特征矩阵上使用一个维度为K×K的注意力矩阵p_t，最后生成一个维度为D的特征向量；具体计算公式如下：

其中x_t，i是第t帧特征向量的第i个值，X_t，i，j是特征提取网络得到的第i个特征矩阵的第j个值，p_i，j是第i个特征矩阵的第j个注意力值。

进一步的，循环神经网络包括一个双向的LSTM网络，LSTM网络接收所述的特征向量，将每个时刻的特征向量输入网络后会输出该时刻的行为类别y_i以及上述的空间注意力矩阵p_i，然后通过一个在时间维度的注意力机制在综合每个时刻的输出的行为类别，得到预测结果；所述注意力机制为模型每个时刻的输出赋予一个权重，通将所有时刻输出进行加权求和得到模型的预测结果；具体的计算公式如下：

s(y_i，q)＝V^Ttanh(Wy_i+Uq)

其中W,U,V,q是可学习参数，exp是自然常数e为底的指数函数，α_i是通过计算得到的时间注意力向量的第i个值。最后的是模型最后的输出。

相比于现有技术，本发明具有如下有益效果：

1.本发明在时间和空间两个维度上应用注意力机制来简化运算、提高模型的识别率。

2.本发明这种端到端的视频中人体行为识别模型，只需要将输入数据进行简单的归一化处理即可送入网络中进行预测识别，没有复杂的多步骤处理流程，简化了在工程上应用的流程、降低了应用的难度。

附图说明

图1为本发明的帧处理示意图；

图2为黑边裁剪算法示意图；

图3为本发明的提取网络ResNet-50和循环神经网络模型示意图；

图4为本发明基于公开数据集的预测结果图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅用以解释本发明，并不用于限定本发明。

实施例1

参见图1-4，所示，一种基于深度学习的视频行为识别方法，包括以下步骤：

borderFinder函数的执行逻辑为：

进一步的，每通道像素均值消减法为：

进一步的，步骤S4中，通过特征提取网络(ResNet-50)后生成一个长度为2048的特征向量；对于从视频中提取的第t帧图像经过上述处理后，将其输入到特征提取网络，得到一个维度为D×K×K的三维张量X_t,ResNet-50特征提取网络的输出张量维度为2048×7×7。对于这个三维张量X_t，我们在其D个二维特征矩阵上使用一个维度为K×K的注意力矩阵p_t，最后生成一个维度为D的特征向量。具体计算公式如下：

s(y_i，q)＝V^rtanh(Wy_i+Uq)

实施列2

在实施列1的基础上，采用公开数据集进行训练，人体行为视频数据包括UCF101和HMDB51两个公开数据集。其中UCF101动作识别数据库是从YouTube视频网站收集的人类日常活动的视频，共有13320个视频，分为101个人体行为类别。HMDB51数据库是由布朗大学(Brown university)收集整理于2011年发布的一个人体行为视频库。该数据库包含6849段视频剪辑，51个人类行为类别，每类动作至少包含101段视频剪辑。

将样本数据进行预处理。

数据预处理阶段对原始视频数据进行切帧、黑边裁剪、帧特征提取操作。由于一段视频由一定数量的帧组成，本发明的模型只能接受固定数量的帧图片作为输入。通过实验尝试比较了不同的切帧方案，我们选定了如图1所示的随机均匀切帧的方案，该方案通过随机选取视频前30帧中的一帧作为起始帧，而后每隔5帧截取一帧，直至达到模型输入要求的数量。不同设备拍摄的视频存在差异，比如有些视频中上下或者左右有黑边，这些黑边对于模型的推理具有一定的影响。我们遍历截取出来的视频帧，对每一帧图片找到它的上下左右的边距，最后裁剪掉多余的黑边，具体见图2。其中borderFinder函数在O(logn)时间复杂度内找到图片边缘所在的线，通过图片三通道像素值的和与阈值进行比较来决定该点是否在裁剪的黑边中。然后将数据集按照“留出法”划分成训练集和测试集，比例常数具体是采用数据集的90％作为训练集，10％作为测试集。采用每通道像素均值消减法分别对训练集和测试集进行归一化处理，转化为[0,1]之间的值，该方法先计算出一个集合中所有图片每个通道像素值的平均值，再将该集合中每张图片的每个通道的像素值减去对应通道的平均像素值，最后除以对应通道像素值的方差。最后将每一帧经过处理后的数据输入到特征提取网络ResNet-50中提取出图片的特征。

在所述训练集的操作过程中，通过建立的模型，模型如图3所示。图3(a)部分展示的是步骤2中提取图片特征的过程，每帧图片通过特征提取网络(ResNet-50)后生成一个长度为2048的特征向量。图3(b)部分展示了本发明的识别模型，模型由一个双向的LSTM网络组成，该网络接收上述特征提取网络得到的特征向量，将每个时刻的特征向量输入网络后会输出该时刻的行为类别，然后通过一个在时间维度的注意力机制在综合每个时刻的输出类别，该机制为模型每个时刻的输出赋予一个权重，通将所有时刻输出进行加权求和得到模型的预测结果。最后计算训练集中识别正确的视频数量和训练集所有视频数量的比值作为行为的正确率，在该正确率达到95％以上后结束训练过程，在完成训练后再测试集上对样本进行预测。

使用测试集中的视频对模型的性能进行评估，得到的结果如图4所示。提高模型的识别率。

最后说明的是，以上实施例仅用以说明本发明的技术方案而非限制，尽管参照较佳实施例对本发明进行了详细说明，本领域的普通技术人员应当理解，可以对本发明的技术方案进行修改或者等同替换，而不脱离本发明技术方案的宗旨和范围，其均应涵盖在本发明的权利要求范围当中。

Claims

1.一种基于深度学习的视频行为识别方法，其特征在于，包括以下步骤：

2.如权利要求1所述的一种基于深度学习的视频行为识别方法，其特征在于，步骤S2之前需要每帧图像数据进黑边处理，具体步骤如下：

3.如权利要求2所述的一种基于深度学习的视频行为识别方法，其特征在于，每通道像素均值消减法为：

2).再将训练集中每张帧剪裁图像数据的每个通道的像素值减去对应通道的平均像素值，后除以对应通道像素值的方差得到每个像素处理后对应的值。

4.如权利要求1所述的一种基于深度学习的视频行为识别方法，其特征在于，步骤S4中，通过特征提取网络ResNet-50后生成一个长度为2048的特征向量。

5.如权利要求4所述的一种基于深度学习的视频行为识别方法，其特征在于，循环神经网络包括一个双向的LSTM网络，LSTM网络接收所述的特征向量，将每个时刻的特征向量输入网络后会输出该时刻的行为类别y_i以及上述的空间注意力矩阵p_i，然后通过一个在时间维度的注意力机制在综合每个时刻的输出的行为类别，得到预测结果；所述注意力机制为模型每个时刻的输出赋予一个权重，通将所有时刻输出进行加权求和得到模型的预测结果。