CN111353394A

CN111353394A - 一种基于三维交替更新网络的视频行为识别方法

Info

Publication number: CN111353394A
Application number: CN202010105277.6A
Authority: CN
Inventors: 胡建国; 蔡佳辉; 王金鹏; 陈嘉敏; 林佳玲
Original assignee: Guangzhou Intelligent City Development Institute; Sun Yat Sen University
Current assignee: Guangzhou Intelligent City Development Institute; Sun Yat Sen University
Priority date: 2020-02-20
Filing date: 2020-02-20
Publication date: 2020-06-30
Anticipated expiration: 2040-02-20
Also published as: CN111353394B

Abstract

本发明公开了一种基于三维交替更新网络的视频行为识别方法，涉及计算机视觉领域。该视频行为识别方法包括步骤：S1、将视频分为连续的帧，对数据集进行预处理；S2、对参与训练的视频片段执行数据增强操作；S3、将执行数据增强操作后的训练数据放入3D CliqueNet架构中进行训练，获得网络的预训练模型；S4、输入测试数据得到测试数据集的行为分类结果，对经过训练的网络进行测试。本发明的方法使用3D CliquNet来提取时空信息，该网络能最大化提升深度网络中的信息流的流动，可以减少训练困难以及更有效的利用参数。通过在Kinetics数据集上进行预训练，该方法具有较高的行为识别表现以及对于复杂环境具有更好的鲁棒性。

Description

一种基于三维交替更新网络的视频行为识别方法

技术领域

本发明涉及计算机视觉领域，具体涉及一种基于三维交替更新网络的视频行为识别方法。

背景技术

人类行为识别是一项基本但具有挑战性的任务，已经进行了数十年的研究。受到卷积神经网络(ConvolutionalNeural Networks,CNNs)在图像域中取得了较大的成功所获得的启发，人们将卷积神经网络应用到行为识别中，引入深度模型用于视频域的行为识别以取代传统的手工识别方法，取得了较好的效果。

视频可以看成是由一系列具有时域关系的静态图片堆叠而成，它是三维时空信号。不同于静态图像识别只需要获取图片的空间信息，视频中的行为识别需要捕获视频的三维时空信息，包括每一帧图片所包含的空间信息以及多帧图片之间的时域信息。

行为识别中经典的识别方法包括两流卷积神经网络(two-stream)和三维卷积神经网络(3D ConvolutionalNeural Networks,3D CNNs)。两流卷积神经网络采用两个深度网络分别对视频的rgb图像和光流图像进行训练，三维卷积神经网络则利用三维卷积操作去提取视频的时间和空间特征。

两流卷积神经网络的三个主要缺点：1、两个网络的融合操作只是在最后分类评分上使用平均法或SVM执行，因此不能学习时域和空域之间像素的对应关系；2、在时间尺度上受限，空间卷积神经网络(ConvNet)仅在单个帧上操作，而时间ConvNet仅在L个时域相邻光流帧(例如L＝10)的堆叠上操作，不能很好地建模视频帧之间的时域关系；3、这种方法需要提前计算光流，因此网络不能实现端到端的训练，而且计算光流需要付出昂贵的代价。

3D卷积神经网络使用3D卷积和3D池化操作直接从堆叠的视频帧中学习时空特征，但3D卷积神经网络包含过多的参数，随着层数的增加，优化难度急剧增大，因此是3D卷积神经网络的识别表现一直不如两流卷积神经网络。同时卷积神经网络(2D卷积和3D卷积)一直以来都存在一个问题，随着网络层数的增加，会遇到梯度消失和梯度爆炸的问题，即数据在多层传播后很可能会逐渐消失。残差网络(ResNet)通过“捷径连接(skip connection)”将上一层的数据直接传送到下一层或下面几层，该结构一定程度上在促进了数据在层间的流通，但接近输出的网络层还是没有充分获得网络前面的特征图。

发明内容

本发明的目的在于克服现有技术的不足，提出了一种基于三维交替更新网络的视频行为识别方法。

一种基于三维交替更新网络的视频行为识别方法，其包括以下步骤：

S1、将视频分为连续的帧，对数据集进行预处理；

S2、对参与训练的视频片段执行数据增强操作；

S3、将执行数据增强操作后的训练数据放入3D CliqueNet架构中进行训练，获得网络的预训练模型；

S4、输入测试数据得到测试数据集的行为分类结果，对经过训练的网络进行测试。

优选地，在上述的基于三维交替更新网络的视频行为识别方法中，所述步骤S1的具体步骤包括：提取Kinetics数据集上每个视频的RGB帧并保存为.jpg格式的图片，然后对需要训练的视频帧通过统一采样选择一个时域位置，围绕该时域位置获得一个包含16帧的视频片段。

优选地，在上述的基于三维交替更新网络的视频行为识别方法中，如果视频片段的长度短于16帧，则循环视频多次，直到选择的视频片段达到16帧。

优选地，在上述的基于三维交替更新网络的视频行为识别方法中，在所述步骤S2中，所述的数据增强包括随机裁剪、亮度与对比度调整，随机裁剪每一帧图片到224像素×224像素，以50％的概率水平翻转训练的帧，亮度与对比度调整同样应用到每一帧。

优选地，在上述的基于三维交替更新网络的视频行为识别方法中，所述3DCliqueNet架构架构由多个3D Clique Block块构成，每一层的信息来自于之前的层，且仅限于单向流向之后的层。

优选地，在上述的基于三维交替更新网络的视频行为识别方法中，3D CliqueBlock块中的每一层网络均为双向连接，任意一层网络既为其它层的输入，也是其他层的输出。

优选地，在上述的基于三维交替更新网络的视频行为识别方法中，3D CliqueNet架构的每一个块中的网络层参数更新分为两个阶段，第一阶段中第1层的输出为：x_l＝H_l([x₀,x₁,…,x_l-1])，其中，[x₀,x₁,…,x_l-1]表示前1层输出特征图的串联连接。

优选地，在上述的基于三维交替更新网络的视频行为识别方法中，在第二阶段，各层开始交替更新，将其它所有层串联起来更新，每一层都会从其他层中收到反馈信息流，第k(k>＝2)中的第i(i>＝1)层表示如下：

其中，*表示卷积操作，W表示参数且W_ij在不同阶段保持重用，g表示一个非线性激活函数。

优选地，在上述的基于三维交替更新网络的视频行为识别方法中，在所述步骤S3中，采用随机梯度下降法训练网络，设定初始学习速率为0.1，在验证损失饱和之后将其除以10继续训练，网络训练共迭代45次。

优选地，在上述的基于三维交替更新网络的视频行为识别方法中，网络的具体训练步骤包括：

S31、搭建3D CliqueNet架构用于行为识别，并对网络进行初始化；

S32、对视频流进行预处理获得视频片段，并进行数据增强操作，所述预处理包括视频帧分割、裁剪；

S33、设置训练网络的超参数，包括迭代次数、批次大小、动量设定；

S34、传入一批次数据进行训练，并计算得到训练损失值，若一次迭代的最后一批次包含的数据大小小于设定的批次大小，则把将剩下的数据当成一个批次数据输入；

S35、回传损失值，使用BP算法调整网络参数；

S36、如果达到迭代次数，则停止训练，否则，继续步骤S34。

优选地，在上述的基于三维交替更新网络的视频行为识别方法中，在所述步骤S32中，对视频流进行的预处理包括视频帧分割、裁剪，在所述步骤S33中，设置训练网络的超参包括迭代次数、批次大小、动量设定。

本发明的有益效果：本发明的方法使用3D CliquNet来提取时空信息，该网络能最大化提升深度网络中的信息流的流动，可以减少训练困难以及更有效的利用参数。通过在Kinetics数据集上进行预训练，该方法具有较高的行为识别表现以及对于复杂环境具有更好的鲁棒性。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见的，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其它的附图。

图1为本发明一实施例的流程示意图；

图2为本发明一实施例的流程示意图；

图3为含有5个卷积层的CliqueNet块结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其它实施例，都属于本发明保护的范围。

如图1所示，本发明的实施例提出的一种基于三维交替更新网络的视频行为识别方法，其包括以下步骤：

S1、将视频分为连续的帧，对数据集进行预处理；

S2、对参与训练的视频片段执行数据增强操作；

具体地，在本发明的优选实施例中，步骤S1的具体步骤包括：提取Kinetics数据集上每个视频的RGB帧并保存为.jpg格式的图片，然后对需要训练的视频帧通过统一采样选择一个时域位置，围绕该时域位置获得一个包含16帧的视频片段。如果视频片段的长度短于16帧，则循环视频多次，直到选择的视频片段达到16帧。

进一步地，在步骤S2中，所述的数据增强包括随机裁剪、亮度与对比度调整，随机裁剪每一帧图片到224像素×224像素，以50％的概率水平翻转训练的帧，亮度与对比度调整同样应用到每一帧。通过数据增强操作，可以提高识别系统的鲁棒性。

进一步地，在本发明的优选实施例中，3D CliqueNet架构架构由多个3D CliqueBlock块构成，每一层的信息来自于之前的层，且仅限于单向流向之后的层。3D CliqueBlock块中的每一层网络均为双向连接，任意一层网络既为其它层的输入，也是其他层的输出。3D CliqueNet架构的每一个块中的网络层连接类似于一个环形结构，如3图所示，直观的展示了一个含有5个卷积层的CliqueNet块结构示意图。从图中可以看出，块中的每一层网络均是双向连接，任意一层网络既是其它层的输入也是其他层的输出，网络不仅有前传的部分，同时还能根据后面层级的输出对前面层级的特征图做优化，即连接几个先前的层以更新下一层，之后连接新更新的层用来重新更新前一层，通过此种设计结构，卷积输出的特征图可重复使用，从而可以最大化网络中传输的信息流和反馈机制。

进一步地，在本发明的优选实施例中，3D CliqueNet架构的每一个块中的网络层参数更新分为两个阶段，第一个阶段如同密集卷积神经网络(Dense ConvolutionalNetwork,DenseNet)的前向传播一样，网络每一层的输入都是前面所有层输出的并集，而该层所学习的特征图也会被直接传给其后面所有层作为输入。

其中，第一阶段中第1层的输出为：x_l＝H_l([x₀,x₁,…,x_l-1])，[x₀,x₁,…,x_l-1]表示前1层输出特征图的串联连接。

在第二阶段，各层开始交替更新，将其它所有层串联起来更新，每一层都会从其他层中收到反馈信息流。第k(k>＝2)中的第i(i>＝1)层表示如下：

具有5个卷积层的3D CliqueNet块的传播如下表1所示：

表1

表中W_ij是从X_i到X_j参数的权重，并保持重用,{}表示串联操作。网络中的信息流传播可以分为两个阶段。在第一阶段，类似于普通网络的传播过程，输入层X₀通过单方向连接初始化所有的层，每一个更新的层通过串联去更新下一层，除了要更新的顶层之外，所有的层都串联连接作为底层。

进一步地，在本发明的优选实施例中，在步骤S3中，采用随机梯度下降法训练网络，设定初始学习速率为0.1，在验证损失饱和之后将其除以10继续训练，网络训练共迭代45次。

进一步地，如图2所示，在本发明的优选实施例中，网络的具体训练步骤包括：

S32、对视频流进行预处理获得视频片段，并进行数据增强操作；

S33、设置训练网络的超参数；

S35、回传损失值，使用BP算法调整网络参数；

S36、如果达到迭代次数，则停止训练，否则，继续步骤S34。

具体地，在步骤S32中，对视频流进行的预处理包括视频帧分割、裁剪，在步骤S33中，设置训练网络的超参数包括迭代次数、批次大小、动量。

本发明使用Kinetics视频数据集中的训练集对网络进行训练，Kinetics视频数据集涵盖多种多样的人类行为，包含超过300000视频片段，共400个类。每个视频片段大约10秒钟，且经过多轮人工标注，是一个高质量的大型视频数据集。

在Kinetics数据集上的四种网络结构如下表2所示：

表2

表2中每一个块中的第一个数字表示每一个卷积层中的滤波器，第二个数字表示该块所包含的卷积层数量。网络架构中的过渡层由卷积层和池化层组成，通过卷积和池化来改变特征图大小，使得前一个块的输出特征图大小和后一个块的输入特征图大小保持一致。

在对经过训练的网络进行测试时，本发明使用步骤S3中的训练模型来进行行为识别。在测试过程中，使用滑动窗口的方式产生输入视频片段，每一个视频分离为非重叠的16帧。通过训练模型得到该视频片段在每一个类上的评分，分数最高的即认为是该类别。基于三维交替更新网络

综上所述，本发明提出的带自动更新功能的三维卷积神经网络(3D CliqueNet)架构的视频行为识别方法，其工作流程为：首先，将数据库中的视频进行预处理，将视频分为连续的帧，并对预处理后的图片进行数据增强以增加系统的鲁棒性。然后，将处理后的训练数据放入3D CliqueNet架构中进行训练，获得网络的预训练模型，通过3D CliqueNet架构用于视频的特征提取，该网络架构可以改善网络中信息的流动、减少训练的困难以及更有效的利用参数。使得在提升训练速度的情况下可得到较高的识别率。最后，输入测试数据得到测试数据集的行为分类结果，对经过训练的网络进行测试。该方法通过引入一种新的带自动更新功能的三维卷积神经网络架构，不仅能实现实时识别视频中人类行为，还能提高系统的识别率和鲁棒性。

以上对本发明实施例所提供的一种基于三维交替更新网络的视频行为识别方法进行了详细介绍，具体实时方式中采用了具体个例对本发明的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本发明的方法及其核心思想。同时，对于本领域的一般技术人员，依据本发明的思想，在具体实施方式及应用范围上均会有改变之处，本说明书内容不应理解为对本发明的限制。

Claims

1.一种基于三维交替更新网络的视频行为识别方法，其特征在于，包括以下步骤：

S1、将视频分为连续的帧，对数据集进行预处理；

S2、对参与训练的视频片段执行数据增强操作；

2.根据权利要求1所述的基于三维交替更新网络的视频行为识别方法，其特征在于，所述步骤S1的具体步骤包括：提取Kinetics数据集上每个视频的RGB帧并保存为.jpg格式的图片，然后对需要训练的视频帧通过统一采样选择一个时域位置，围绕该时域位置获得一个包含16帧的视频片段。

3.根据权利要求2所述的基于三维交替更新网络的视频行为识别方法，其特征在于，如果视频片段的长度短于16帧，则循环视频多次，直到选择的视频片段达到16帧。

4.根据权利要求1或2所述的基于三维交替更新网络的视频行为识别方法，其特征在于，在所述步骤S2中，所述的数据增强包括随机裁剪、亮度与对比度调整，随机裁剪每一帧图片到224像素×224像素，以50％的概率水平翻转训练的帧，亮度与对比度调整同样应用到每一帧。

5.根据权利要求1所述的基于三维交替更新网络的视频行为识别方法，其特征在于，所述3D CliqueNet架构架构由多个3D Clique Block块构成，每一层的信息来自于之前的层，且仅限于单向流向之后的层。

6.根据权利要求5所述的基于三维交替更新网络的视频行为识别方法，其特征在于，3DClique Block块中的每一层网络均为双向连接，任意一层网络既为其它层的输入，也是其他层的输出。

7.根据权利要求1所述的基于三维交替更新网络的视频行为识别方法，其特征在于，3DCliqueNet架构的每一个块中的网络层参数更新分为两个阶段，第一阶段中第1层的输出为：x_l＝H_l([x₀,x₁,…,x_l-1])，其中，[x₀,x₁,…,x_l-1]表示前1层输出特征图的串联连接。

8.根据权利要求7所述的基于三维交替更新网络的视频行为识别方法，其特征在于，在第二阶段，各层开始交替更新，将其它所有层串联起来更新，每一层都会从其他层中收到反馈信息流，第k(k>＝2)中的第i(i>＝1)层表示如下：

9.根据权利要求1所述的基于三维交替更新网络的视频行为识别方法，其特征在于，在所述步骤S3中，采用随机梯度下降法训练网络，设定初始学习速率为0.1，在验证损失饱和之后将其除以10继续训练，网络训练共迭代45次。

10.根据权利要求9所述的基于三维交替更新网络的视频行为识别方法，其特征在于，网络的具体训练步骤包括：

S35、回传损失值，使用BP算法调整网络参数；

S36、如果达到迭代次数，则停止训练，否则，继续步骤S34。