CN114550047A

CN114550047A - 一种行为速率引导的视频行为识别方法

Info

Publication number: CN114550047A
Application number: CN202210164283.8A
Authority: CN
Inventors: 杨静; 张坤; 陈跃海; 张栋; 李�杰; 杜少毅
Original assignee: Xian Jiaotong University
Current assignee: Xian Jiaotong University
Priority date: 2022-02-22
Filing date: 2022-02-22
Publication date: 2022-05-27
Anticipated expiration: 2042-02-22
Also published as: CN114550047B

Abstract

本发明提供了一种行为速率引导的视频行为识别方法，包括：1)将视频拆分成图像帧，并按高低两个帧率采样；2)使用卷积神经网络对抽取的图片进行特征提取；3)将高帧率路径提取的时间特征与低帧率路径的空间特征合并，形成侧向连接；4)使用基于特征差分的动作感知对时间和通道维度加权；5)使用一个已经训练的卷积神经网络对训练集识别，求出每个类别动作的行为速率；6)基于行为速率对高帧率路径提取出的时间特征和低帧率路径提取出的空间特征进行倾向性融合；7)对UCF‑101数据集的行为识别数据进行训练建模，对测试集进行识别得到准确率结果。从实验结果可以看到，本发明针对行为识别在主流数据集上提高了测试结果的精度。

Description

一种行为速率引导的视频行为识别方法

技术领域

本发明属于计算机视觉、视频分类、深度学习领域，具体涉及一种行为速率引导的视频行为识别方法。

背景技术

行为识别是通过运用计算机等科学技术手段，对视频中人的仪表、手势、体态、动作、活动等行为模式进行分析归类，是借鉴并融合了认知科学、数据挖掘、机器学习、模式识别等诸多方面成果的综合性研究。

近年来，行为识别在智能视频监控、辅助医疗监护、智能人机交互、全息运动分析及虚拟现实等领域均具有广泛的应用需求。从应用场景来看，行为识别可以分为异常行为识别、单人行为识别、多人行为识别等。但是，行为定义模糊、类内和类间差异较大、计算代价等问题给视频行为识别带来了巨大的挑战。

传统的行为识别方法大部分都是基于图片提取的光流信息进行特征设计和分类。然而，基于手工特征的传统方法受限于光流提取，巨大的计算代价导致传统方法无法做到实时识别，难以进行实际的部署和推广。

随着深度学习的崛起，许多深度学习方法被用于行为识别领域。目前基于深度学习的行为识别研究方法有双流网络、循环神经网络、3D卷积等。

双流CNN通过效仿人体视觉过程，对视频信息理解，在处理视频图像中的环境空间信息的基础上，对视频帧序列中的时序信息进行理解，为了更好地对这些信息进行理解，双流卷积神经网络将异常行为分类任务分为两个不同的部分。单独的视频单帧作为表述空间信息的载体，其中包含环境、视频中的物体等空间信息，称为空间信息网络；另外，光流信息作为时序信息的载体输入到另外一个卷积神经网络中，用来理解动作的动态特征，称为时间信息网络。

考虑到光流是一种手工设计的特征，双流方法通常都无法实现端到端的学习。另外，随着行为识别领域数据集规模的不断扩大，由光流图的计算带来的巨大计算成本和存储空间消耗等问题使得基于光流的双流卷积神经网络不再适用于大规模数据集的训练和实时部署。另一方面，由于光流本身只使用于短时间的动作信息提取，所以此类网络无法解决长跨度动作的时间信息提取问题。

LSTM是循环神经网络中一种，该网络设计出来是为了解决某些动作的长依赖问题。在视频行为识别中很大一部分动作只需要空间特征就能够识别，但LSTM网络只能对短时的时间信息进行特征提取，无法很好地处理空间信息。相比于行为识别，LSTM更适合于动作定位任务，因此该类方法已逐渐被3D卷积等主流方法取代。在大规模数据集上较深的3D残差神经网络能够取得更好的效果。然而，由于视频信息在时空维度具有完全不同的分布方式和信息量，经典的3D卷积方法在时空维度并没有对此进行区分，计算了过多的冗余信息，从而带来了过高的计算代价以及部署成本。

当前已经存在很多基于双流网络架构的行为识别方法，但很多效果并不理想，主要是由于以下几个方面：由于时间维度信息与空间信息不平衡的问题，已有的行为识别方法受限于采样密度较低和时间跨度限制，对于一些变化缓慢或者变化较小动作如倾听，注视，打电话等，难以提取出有效的动作信息。对于部分需要依赖时间信息进行区分的动作，如讲话和唱歌，躺下和睡觉等，已有方法的效果不够理想。针对如何从冗余的视频信息中找到出含有动作信息的关键视频帧这一问题，目前的行为识别算法还未给出一个完善的解决方案。

发明内容

本发明的目的在于解决上述问题，提供一种行为速率引导的视频行为识别方法，旨在与解决视频中空间和时序信息的处理以及不同动作的时空倾向性问题。

为了实现上述的目的，本发明采用如下技术方案：

一种行为速率引导的视频行为识别方法，包括以下步骤：

步骤一：将输入的视频拆分成图像帧，并分别按高帧率和低帧率均匀的抽取所需数量的图片；

步骤二：使用低层卷积神经网络对抽取的图片进行特征提取，从而得到对应的特征向量。为了方便后续计算，将输入特征向量的维度表示为：

X＝[N，C，ωT，W，H]

其中X为输入的特征向量维度，N为输入样本数，C为特征通道数，T为序列长度，ω为一次3D卷积中所取的片段长度，T为序列长度，W和H为特征的宽和高。

步骤三：在Res3层后，将高帧率路径提取的时间特征与低帧率路径的空间特征合并，形成侧向连接；

步骤四：在3D卷积中提出基于特征差分的动作感知，对合并后的特征使用基于特征差分的动作感知对时间和通道维度加权；

步骤五：使用一个已经训练的卷积神经网络对训练集识别，求出每个类别动作的行为速率；

步骤六：在两个路径的卷积网络提取完特征后，基于行为速率对高帧率路径提取出的时间特征和低帧率路径提取出的空间特征进行倾向性融合；

步骤七：对UCF-101数据集的行为识别数据进行训练建模，通过反向传播，当损失较大时，不断更新模型参数，直到损失收敛，测试模型的准确率。

步骤二中，使用3D卷积网络进行特征提取，在保留ResNet残差结构的基础上，在卷积核增加了时间维度，卷积核不止在2D空间的滑动，还在时间维度上移动，从而提取帧间的关联特征。

步骤三中，在残差网络的Res3层特征提取之后，将高帧率路径的时间特征通过侧向连接传输到低帧率路径，将高帧率路径提取时序信息与低帧率路径共享，保证了整个网络提取的特征既关注空间信息也关注时间信息；

步骤四中，为了对动态信息进行加强，使用特征差分的方法。将合并的特征向量作为输入，通过动作感知对时间和通道加权，设输入特征为X，X特征维度X＝[N，C，ωT，W，H]，此处X为一次卷积获得的特征，即ω＝1，可得X＝[N，C，T，W，H]。其中N为输入样本数。ω为一次3D卷积中所取的片段长度，T为序列长度，W和H为特征的宽和高。动作感知的计算公式为：

首先，使用一个3D卷积层来降低通道数以提高计算效率

X^k＝conv_3D*X

式中：X^k表示通道减少后的特征，X^k特征维度为[N，C/k，T，W，H]，k＝16是减少的比率；conv_3D表示使用大小为1的卷积核对通道维度进行降维操作。

对于运动特征向量的计算，使用前后两帧图片对应特征X^k(t+1)和X^k(t)之间的差来表示运动信息，即

P(t)＝conv_shift*X^k(t+1)-X^k(t)

式中：P(t)是时间t时的动作特征向量，特征维度为[N，C/k，1，W，H]，1≤t≤T-1；conv_shift是一个3×32通道卷积层，对每个通道进行转换。

假设T时刻动作已经结束，即T时刻已经没有动作特征，令P(T)为零特征向量。在计算出每个时刻的P(t)之后，构造出整个T帧序列的动作矩阵P。通过全局平均池化层激发对动作敏感的通道

P^l＝pool(P)

式中P^l特征维度为[N，C/k，T，W，H]。使用3D卷积层将动作特征的通道维度C/k扩展到原始通道维度C，再利用Sigmoid函数得到动作感知权值E

E＝2Sigmoid(conv_3D*P^l)-1

Sigmoid为S型激活函数，至此，得到了特征向量中各通道的动作相关性权重E。为了不影响原低帧率动作路径的空间特征信息，借鉴ResNet中残差连接的方法，在增强动作信息的同时保留原有的空间信息

X^R＝X+X⊙E

式中：X^R是该模块的输出；⊙表示按通道的乘法。

步骤五中，使用一个已经训练的卷积神经网络对训练集识别，可得到每帧图片的置信度，定义行为速率为置信度图中关键信息占总体信息的占比，即可求出每个类别动作的行为速率，行为速率计算公式为：

其中

是第m类的行为速率，N_m为第m类的样本数量，

为第m类的第n个样本的帧数，

为第m类的第n个样本中第t帧的置信度，ReLU为线性激活函数。

为第m类的第n个样本的行为周期，计算公式为：

其中sgn为符5函数，

为第m类的第n个样本中第t帧的相关系数，计算公式为：

步骤六中，用

对高帧率路径提取出的时间特征和低帧率路径提取出的空间特征进行倾向性融合。若一个类别的行为速率较大，说明该类别关键信息占总体占比较大，在时间维度分布较分散，这时应增大空间特征的权重，反之亦然，当行为速率较小，说明该类别关键信息较为集中，只有很小的时间窗口有有效信息，此时反映变化的时间特征就需要较大的权重。

与现有技术相比，本发明的优势如下：

本发明使用双路径架构，在不同的时间分辨率上对视频进行特征提取，相比于只使用固定帧率提取的网络，对长时动作能够更好地关注其时序信息；在时间和通道维度，使用基于特征差分的动作进行加权，能够通过特征变化对应的动态信息，相比于目前的双流网络模型，增强了网络对变化的时间和特征维度的感知能力，从而提高了识别的效率和准确率；在双路径特征融合部分，基于已训练模型在训练集上进行数据分析，提取出各类别的行为速率并用于双路径特征的倾向性融合，相比于现有模型的非倾向性方法，能够针对不同的动作类别使用不同的时空倾向性融合，使双路径的网络学习到更有针对性的特征信息，从而提高网络的识别准确率。

附图说明

图1为本发明的流程图；

图2为本发明的模型结构图。

具体实施方式

下面结合附图对本发明做进一步说明。

参见图1，本发明包括以下步骤：

步骤一：从摄像头或者本地获取视频数据，将输入的视频拆分成每秒32个图像帧，并按每秒T帧和T/8的帧率分别均匀地抽取的图片，在UCF-101数据集上，T＝16。UCF101拥有来自101个动作类别的13320个视频，在动作方面具有多样性，并且在摄像机运动，人物外观和姿态，人体比例，视角，背景，照明条件等方面存在很大的差异，是行为识别领域十分具有挑战性的数据集；

步骤二：采用在Kinetics-400数据集上经过预训练的卷积神经网络ResNet3D对抽取的图片进行特征提取，获得对应的特征向量。ResNet采用了残差结构，很大程度上解决了随着网络的加深造成的梯度爆炸和梯度消失的问题。残差学习模块由主干的几个卷积层和分支的一条捷径(shortcut)组成。将残差学习模块的期望基础映射表示为：

其中

为叠加的非线性层拟合的映射，x为捷径上的恒等映射。

在前向传播过程中，当浅层网络的x代表的特征已经足够成熟，若任何对于特征x的改变都会让loss值变大，

会自动趋向于学习成为0，x则从恒等映射的路径继续传递。这样就在不增加计算成本的情况下解决了退化问题。即在网络的前向传播过程中，如果当浅层的输出已经足够成熟，则让其层数后面的层执行支路的映射，以此等效恒等映射。

在反向传播过程中，设第i层的残差结构的表达式为：

其中y为第i层反向传播输出，

为残差函数，x为捷径上的恒等映射，W_i代表第i层的参数矩阵。

那么残差网络最终迭代输出表达式为：

其中L代表网络总层数，x₁为第1层捷径上的恒等映射，x_i为第i层捷径上的恒等映射，W_i代表第i层的参数矩阵。x_L为最终的反向传播输出。在反向传播的过程中，根据链式法则，有：

其中ε为损失函数，L代表网络总层数，x₁为第1层捷径上的恒等映射，x_i为第i层捷径上的恒等映射，W_i代表第i层的参数矩阵。x_L为最终的反向传播输出。

可见，由于加入了捷径的恒等映射x，返回的梯度分为两部分，其中

保证了信息可以直接传递回任何浅层单元，而另一部分

中，无论W_i为何值，

不会持续为-1，因此返回的梯度值也就不会持续为0。这样就解决了梯度消失问题。

ResNet3D在保留ResNet残差结构的基础上，在卷积核增加了时间维度，卷积核不止在2D空间的滑动，还在时间维度上移动，从而提取帧间的关联特征。为了方便后续计算，将输入特征向量的维度表示为：

X＝[N，C，ωT，W，H]

步骤三：在Res3层后，将高帧率路径提取的时间特征与低帧率路径的空间特征合并，形成侧向连接。

步骤四：由于输入特征向量在时间和通道维度有较大差异，有的图片帧对识别任务有较大贡献，而有的通道贡献也较大，所以在3D卷积中提出基于特征差分的动作感知。对合并后的特征使用基于特征差分的动作感知对时间和通道维度加权。将合并的特征向量作为输入，通过动作感知对时间和通道加权，设输入特征为X，X特征维度X＝[N，C，ωT，W，H]，此处X为一次卷积获得的特征，即ω＝1，可得X＝[N，C，T，W，H]。其中N为输入样本数。ω为一次3D卷积中所取的片段长度，T为序列长度，W和H为特征的宽和高。动作感知的计算公式为：

首先，使用一个3D卷积层来降低通道数以提高计算效率

X^k＝conv_3D*X

P(t)＝conv_shift*X^k(t+1)-X^k(t)

P^l＝pool(P)

E＝2Sigmoid(conv_3D*P^l)-1

X^R＝X+X⊙E

式中：X^R是该模块的输出；⊙表示按通道的乘法。

步骤五：使用一个已经训练的卷积神经网络对训练集识别，可得到每帧图片的置信度，定义行为速率为置信度图中关键信息占总体信息的占比，即可求出每个类别动作的行为速率，行为速率计算公式为：

其中

是第m类的行为速率，N_m为第m类的样本数量，

为第m类的第n个样本的帧数，

为第m类的第n个样本中第t帧的置信度，ReLU为线性激活函数。

为第m类的第n个样本的行为周期，计算公式为：

其中sgn为符号函数，

为第m类的第n个样本中第t帧的相关系数，计算公式为：

步骤六：基于步骤四中计算出的各类的行为速率，可在两个路径的卷积网络提取完特征后，片

对高帧率路径提取出的时间特征和低帧率路径提取出的空间特征进行倾向性融合。若一个类别的行为速率较大，说明该类别关键信息占总体占比较大，在时间维度分布较分散，这时应增大空间特征的权重，反之亦然，当行为速率较小，说明该类别关键信息较为集中，只有很小的时间窗口有有效信息，此时反映变化的时间特征就需要较大的权重；

步骤七：使用若干已标记的视频数据对模型进行训练；训练过程中使用反向传播，当损失较大时，不断更新模型参数，直到损失收敛到较小的值，保存为模型；

参见图2，本发明的模型具体结构包括以下部分：

模型使用双路径结构，高帧率路径提取的图片数较多但通道数较少，低帧率路径提取的图片数较少但通道数较多。高帧率路径提取的图片数为低帧率路径的p倍，高帧率路径特征的通道数为低帧率路径的q倍，在UCF-101数据集上，p＝16，

Resl、Res2、Res3、Res4是ResNet3D的残差结构。选择在Kinetics-400数据集预训练的ResNet3D-50用来作为特征提取的骨干网络。

侧向连接部分将将高帧率路径提取的时间特征变化维度后合并到低帧率路径的空间特征。

TP为基于特征差分的动作感知部分，对合并后的特征使用差分的方法提取动态信息从而对时间和通道维度加权。

倾向性特征融合部分，基于计算出的各类别的行为速率对高帧率路径提取出的时间特征和低帧率路径提取出的空间特征进行倾向性融合。

参见表1，使用在Kinetics-400上的预训练模型对UCF-101的行为识别数据进行训练建模，对UCF-101的split1分组进行测试，与同样使用3D卷积的C3D算法和同样使用了双流网络结构的TSN-RGB、Two-stream I3D以及TSN进行了准确率的对比，从实验结果可以看到，相比于主流的行为识别算法，本发明在同样的数据集上取得了更高的测试精度。

表1

Claims

1.一种行为速率引导的视频行为识别方法，其特征在于，包括以下步骤：

步骤一：将输入的视频拆分成图像帧，并分别按高帧率每秒T帧和低帧率每秒T/8帧均匀抽取图片，其中T＝16；

步骤二：使用低层卷积神经网络对抽取的图片进行特征提取，从而得到对应的特征向量，为了方便后续计算，将输入特征向量的维度表示为：

X＝[N，C，ωT，W，H]

其中X为输入的特征向量维度，N为输入样本数，C为特征通道数，T为序列长度，ω为一次3D卷积中所取的片段长度，T为序列长度，W和H为特征的宽和高；

步骤三：在Res3层特征提取之后，将高帧率路径提取的时间特征与低帧率路径的空间特征合并，形成侧向连接；

步骤七：对佛罗里达大学创建的公开数据集UCF-101的行为识别数据进行卷积神经网络模型训练，通过反向传播，当损失较大时，不断更新模型参数，直到损失收敛，测试模型的准确率。

2.根据权利要求1所述的一种行为速率引导的视频行为识别方法，其特征在于，步骤二中，使用3D卷积网络进行特征提取，在保留ResNet残差结构的基础上，在卷积核增加了时间维度，卷积核不止在2D空间的滑动，还在时间维度上移动，从而提取帧间的关联特征。

3.根据权利要求1所述的一种行为速率引导的视频行为识别方法，其特征在于，步骤三中，在残差网络的Res3层特征提取之后，将高帧率路径的时间特征通过侧向连接传输到低帧率路径，将高帧率路径提取时序信息与低帧率路径共享，保证了整个网络提取的特征既关注空间信息也关注时间信息。

4.根据权利要求1所述的一种行为速率引导的视频行为识别方法，其特征在于，步骤四中，为了对动态信息进行加强，使用特征差分的方法，将合并的特征向量作为输入，通过动作感知对时间和通道加权，设输入特征为X，X特征维度X＝[N，C，ωT，W，H]，此处X为一次卷积获得的特征，即ω＝1，可得X＝[N，C，T，W，H]，其中N为输入样本数，ω为一次3D卷积中所取的片段长度，T为序列长度，W和H为特征的宽和高，动作感知的计算公式为：

首先，使用一个3D卷积层来降低通道数以提高计算效率

X^k＝conv_3D*X

式中：X^k表示通道减少后的特征,X^k特征维度为[N，C/k，T，W，H]，k＝16是减少的比率；conv_3D表示使用大小为1的卷积核对通道维度进行降维操作；

P(t)＝conv_shift*X^k(t+1)-X^k(t)

式中：P(t)是时间t时的动作特征向量,特征维度为[N，C/k，1，W，H]，1≤t≤T-1；conv_shift是一个3×32通道卷积层，对每个通道进行转换；

假设T时刻动作已经结束，即T时刻已经没有动作特征，令P(T)为零特征向量，在计算出每个时刻的P(t)之后，构造出整个T帧序列的动作矩阵P，通过全局平均池化层激发对动作敏感的通道

P^l＝pool(P)

式中P^l特征维度为[N，C/k，T，W，H]，使用3D卷积层将动作特征的通道维度C/k扩展到原始通道维度C，再利用Sigmoid函数得到动作感知权值E

E＝2Sigmoid(conv_3D*P^l)^-1

Sigmoid为S型激活函数，至此，得到了特征向量中各通道的动作相关性权重E，为了不影响原低帧率动作路径的空间特征信息，借鉴ResNet中残差连接的方法，在增强动作信息的同时保留原有的空间信息

X^R＝X+X⊙E

式中：X^R是该模块的输出；⊙表示按通道的乘法。

5.根据据权利要求1所述的一种行为速率引导的视频行为识别方法，其特征在于，步骤五中，使用一个已经训练的卷积神经网络对训练集识别，可得到每帧图片的置信度，定义行为速率为置信度图中关键信息占总体信息的占比，即可求出每个类别动作的行为速率，行为速率计算公式为：

其中

是第m类的行为速率，N_m为第m类的样本数量，

为第m类的第n个样本的帧数，

为第m类的第n个样本中第t帧的置信度，ReLU为线性激活函数，

为第m类的第n个样本的行为周期，计算公式为：

其中sgn为符号函数，

为第m类的第n个样本中第t帧的相关系数，计算公式为：

其中

为第m类的第n个样本中第k帧的置信度。

6.根据权利要求1所述的一种行为速率引导的视频行为识别方法，其特征在于，步骤六中，基于步骤四中计算出的各类的行为速率，在两个路径的卷积网络提取完特征后，用

对高帧率路径提取出的时间特征和低帧率路径提取出的空间特征进行倾向性融合，若一个类别的行为速率较大，说明该类别关键信息占总体占比较大，在时间维度分布较分散，这时应增大空间特征的权重，反之亦然，当行为速率较小，说明该类别关键信息较为集中，只有很小的时间窗口有有效信息，此时反映变化的时间特征就需要较大的权重。