CN111027472A

CN111027472A - 一种基于视频光流和图像空间特征权重融合的视频识别方法

Info

Publication number: CN111027472A
Application number: CN201911251533.6A
Authority: CN
Inventors: 周锋; 石华峰; 盖志勇; 李小勇
Original assignee: Beijing University of Posts and Telecommunications
Current assignee: Beijing University of Posts and Telecommunications
Priority date: 2019-12-09
Filing date: 2019-12-09
Publication date: 2020-04-17

Abstract

本发明提供一种基于视频光流和图像空间特征权重融合的视频识别方法，包括如下步骤：步骤S101，输入视频数据集，视频抽帧得到图片帧集。步骤S102，将S101中得到的图片帧集以视频为单位通过Lucas–Kanade光流算法得到每个视频的光流信息帧并保存为光流帧集。步骤S103，将得到的图片帧集和光流帧集进行二次抽帧得到训练集和测试集。S104‑S106，设计卷积层、池化层、自适应融合层对视频的光流信息和图片空间信息进行特征提取并进行特征融合。步骤S107，使用学习到的分类器对测试集进行分类，使用得到的视频分类编码与真实的视频分类编码进行比较，计算代价函数。

Description

一种基于视频光流和图像空间特征权重融合的视频识别方法

技术领域

本发明涉及一种卷积神经网络技术领域，特别是设计一种基于视频光流和图像空间特征权重融合的视频识别方法。

背景技术

光流算法可以用来评估两帧图像之间的变化，Lucas–Kanade光流算法是一种两帧差分的光流估计算法，它计算两帧在时间t到t+δt之间每个像素点位置的移动，是基于图像信号的泰勒级数，是对于空间和时间坐标使用偏导数。

卷积神经网络(CNN)是神经网络的一种，它能够提取输入的不同特征并进行分类。CNN的隐藏层由卷积层、池化层和全连接层组成。卷积神经网络的输入层接受输入向量，隐藏层负责传输、分析、权衡各个向量，输出层完成结果的输出。其中，卷积层通过卷积操作提取输入的不同特征，浅层的卷积层提取诸如边缘、线条的低级特征，深层的卷积层提取高级特征；池化层接在卷积层之后，对局部接受域进行池化操作以获取具有空间不变性的特征；全连接层一般位于多个卷积层和池化层之后，整合卷积层或池化层中具有类别区分性的局部信息。

卷积神经网络近年来在图像分类上取得了良好的成果，但视频内容中不仅包含了大量的静态图片帧还包含了相邻帧之间的时序动作信息，所以目前基于静态图片帧的卷积神经网络并不能在视频识别上达到良好的效果。目前基于视频图像空间信息和基于视频光流信息的视频识别项目中，没有一种这样的识别方式，即在视频识别方法中考虑到视频光流和图像空间特征权重的自适应融合，人为经验性的平均图像空间信息类别得分和光流信息类别得分并不能达到良好的效果。

发明内容

有鉴于此，本发明设计了一种基于视频光流和图像空间特征权重融合的视频识别方法，包括如下步骤：

步骤S101，输入带类别标签的视频进行抽帧处理，以视频为单位保存为图片帧集并将所有图片帧集划分为训练样本集和测试样本集；

步骤S102，将步骤S101得到的图片帧集中每个图片帧通过Lucas–Kanade光流算法得到光流帧并保存成光流帧集；

步骤S103，将步骤S101和步骤S102得到的图片帧集和光流帧集进行二次抽帧处理，生成最终的训练样本集和测试样本集；

步骤S104，设计卷积层、池化层，对图片帧进行特征提取；

步骤S105，设计与S104相同的网络结构与S104网络结构并行地对光流信息帧进行特征提取；

步骤S106，设计融合层，对图像空间信息和光流信息进行权重自适应融合；

步骤S107，设计全连接层、代价函数，根据预测的视频类别编码和真实的视频类别编码，使用对数似然估计计算代价函数；

步骤S108，根据误差，使用梯度下降法对网络的权值和偏移量进行更新；

步骤S109，根据训练得到的网络结构，得到基于视频光流和图像空间特征权重融合的视频识别方法；

步骤S110，将被判别视频按照步骤S101，S102得到该视频的图片帧集和光流帧集，随后通过S103二次抽帧得到该视频对应的模型输入集，将S103中模型输入集中对应同时间位置的图片帧和光流帧作为S109的视频识别模型的输入，最终将所有帧得到的类别分数进行平均处理，最终得到该视频对应于所有类别的分数，分数最大类别即是该视频最终类别。

步骤S101中抽帧处理是指将每个视频以一帧为间隔单位进行抽帧，然后将抽取的帧保存为静态图片并赋予其抽帧视频所属类别标签然后保存下来。

步骤S102中的Lucas–Kanade光流算法是一种两帧差分的光流估计算法。以视频为单位，把S101得到的图片集依次送入Lucas–Kanade光流算法，得到对应图片帧数量的光流帧并保存下来。

步骤S103中将S101和S102得到的图片帧集和光流帧集进行16帧为单位的间隔的二次抽帧并保存下来。

步骤S104中设计的视频特征提取的卷积层具体方法如下：设计使用五层卷积层。在卷积神经网络的第一层使用7*7的过滤器，过滤器个数为96个，在网络的第二层使用5*5的过滤器，过滤器个数为256个，从网络的第三层到第五层均使用3*3的过滤器，过滤器个数分别为384,384,256个，其中卷积层中，使用ReLU作为激活函数。

步骤S104中设计池化层具体方法为：在第一层、第二层和第五层卷积层后分别接一层池化层。池化层使用最大池化，选取局部区域的最大值作为该区域的值。

步骤S106中将S104得到的256*13*13图像空间特征图与一个大小为13*13的变量矩阵V相乘，乘法规则是每个13*13的滤波器在相同空间位置乘相同的变量，随后将S105得到的13*13*256的光流特征图与变量矩阵(1-V)相乘，其中变量矩阵(1-V)表示矩阵V每个变量都被1减得到的变量矩阵。最后将S104的图像空间特征图和S105的光流特征图与各自对应的变量矩阵相乘得到的矩阵结果再相加，最终可得到256*13*13大小的图像空间光流信息自适应权重融合特征图。

步骤S107中设计全连接层的具体方法为：在最后一层池化层后接三层全连接层，前两层全连接层各有2048个神经元，最后一层神经元有101个神经元，其中在全连接层中，使用ReLU作为激活函数。

步骤S107中，使用softmax作为分类函数，根据提取的特征，对图像进行分类，输出预测的类别编码。

步骤S107中设计代价函数的具体方法为：根据预测类别编码与真实类别编码，计算对数似然估计。假设真实类的细类别为y，粗类别为y1、y2、y3，找到预测类别编码中对于细类和粗类的似然估计为p、p1、p2、p3,则代价函数Cost＝a1*logp+a2*logp1+a3*logp2+a4*logp3。其中a1、a2、a3、a4为系数，用于权衡各个类的重要程度。

附图说明

后文将参照附图以示例性而非限制性的方式详细描述本发明的一些具体实施例。附图中相同的附图标记标示了相同或类似的部件或部分。本领域技术人员应该理解，这些附图未必是按比例绘制的。本发明的目标及特征考虑到如下结合附图的描述将更加明显，附图中：

图1为根据本发明实施例的一种基于视频光流和图像空间特征权重融合的视频识别方法的训练流程图。

图2为根据本发明实施例的卷积神经网络结构图。

具体实施方式

为了使得本发明能够针对其发明要点更加明显易懂，下面将结合附图和实例对本发明作进一步的说明。在下面的描述中阐述了很多细节和具体实例，提供这些实例是为了能够更透彻地理解本发明，并且能够将本发明完整形象地传达给本领域的技术人员。虽然本发明能够以很多不同于此的描述的其它方式实施，但是本领域技术人员可以在不违背本发明内涵的情况下做相应的推广，因此本发明不受下面公开的具体实例及具体附图所限制。

虽然本发明已经参考特定的说明性实施例进行了描述，但是不会受到这些实施例的限定而仅仅受到附加权利要求的限定。本领域技术人员应当理解可以在不偏离本发明的保护范围和精神的情况下对本发明的实施例能够进行改动和修改。

图1展示了本发明一个实施例的基于视频光流和图像空间特征权重融合的视频识别方法。包括以下步骤：步骤S101，输入视频数据集，每个视频为某一特定类别的视频，在数据库中标注对应视频类别的标签。视频数据集共含有13320个短视频，根据视频所属的类别精确的分为了101个类别，称为视频的类别标签，将整个视频数据集中每个视频进行1帧间隔的抽帧处理，得到每个视频的所有的静态图片帧并保存为图片帧集。以视频为单位按照1:1将图片帧集划分为训练集与测试集。步骤S102，将S101中得到的图片帧集以视频为单位依次通过Lucas–Kanade光流算法得到每个视频的光流信息帧并保存下来。步骤S103，将S101和S102的训练集以及测试集进行二次抽帧处理，每16帧保存一帧。S104-S106，同时将同一视频的光流信息和图片信息输入网络提取到每帧的图片空间信息和光流信息融合特征。S107，使用学习到的分类器对测试集图片进行分类，使用得到的视频分类编码与真实的视频分类编码进行比较，计算代价函数。S108，通过代价函数对卷积神经网络中的权值和偏移量进行更新。

本实施中采用了经典的反向传播算法来训练卷积神经网络，所述反向传播算法包括正向传播和反向传播过程组成。正向传播过程中，训练图片通过输入层经过卷积、池化等操作，逐层处理传到输出层。如果在输出层中输出的标签编码和实际的标签编码不同，则根据代价函数计算误差，转入反向传播。按照与输入相反的方向，从输出层开始，逐层计算代价函数相对于各个神经元权值的偏导数，构成代价函数对权值向量的梯度，作为修改权值的依据，网络的学习即是指不断的进行权值修改，直到代价函数的值达到期望范围内，此时网络学习结束，得到对视频分类的卷积神经网络结构。

图2展示了本发明一个实施例的卷积神经网络结构图。网络总共包含十五层，其中包含十个卷积层、三个全连接层和一个自适应融合层。整体网络采用并行方式，并行两侧网络结构完全相同。其中一侧网络结构为：读取三通道的彩色图片并将图片大小调整为224*224。在第一层中使用96个7*7的过滤器进行卷积操作，并进行池化。在第二层中使用256个5*5的过滤器进行卷积操作，并进行池化。在第三层和第四层中使用384个3*3的过滤器进行卷积操作。在第五层中使用256个3*3的过滤器进行卷积操作。将得到的256*13*13的特征图与一个大小为13*13的变量矩阵V相乘，乘法规则是每个13*13的滤波器在相同空间位置乘相同的变量，随后将并行另一侧得到的13*13*256的特征图与变量矩阵(1-V)相乘，变量矩阵(1-V)表示矩阵V每个变量都被1减得到的变量矩阵。最后将两侧特征图相加得到256*13*13大小的特征图。

第六层和第七层为全连接层，均含有2048个神经元。由于数据总共分为101个类，因此最后一层全连接层含有101个神经元，最后一层连接层后接softmax函数作为分类函数进行车型分类。

优选实施例中涉及的卷积神经网络中卷积层和全连接层均使用了激活函数和池化操作。激活函数是一种非线性的函数，用于获取非线性输出，以获取更好的特征表示。本实施中，每层均使用ReLU函数作为激活函数。池化是对输入的特征图进行压缩，一方面使特征图变小，简化网络计算复杂度，一方面进行特征压缩，提取主要特征。本实施中，每层使用最大池化进行池化操作。

Claims

1.一种基于视频光流和图像空间特征权重融合的视频识别方法，其特征在于包括如下步骤：

步骤S104，设计卷积层、池化层，对图片帧进行特征提取；

2.根据权利要求1所述的一种基于视频光流和图像空间特征权重融合的视频识别方法，其特征在于所述步骤S104中设计卷积层的具体方法为：设计使用五层卷积层，在卷积神经网络的第一层使用7x7的过滤器，过滤器个数为96个，在网络的第二层使用5x5的过滤器，过滤器个数为256个，从网络的第三层到第五层均使用3x3的过滤器，过滤器个数分别为384,384,256个，卷积层中，使用ReLU作为激活函数。

3.根据权利要求1所述的一种基于视频光流和图像空间特征权重融合的视频识别方法，其特征在于视频识别方法中考虑到图像空间信息和时序信息在图像帧对应位置的权重自适应融合，在于所述步骤S104中设计的具体方法：将S104得到的256*13*13图像空间特征图与一个大小为13*13的变量矩阵V相乘，乘法规则是每个13x13的滤波器在相同空间位置乘相同的变量，随后将S105得到的13*13*256的光流特征图与变量矩阵(1-V)相乘，其中变量矩阵(1-V)表示矩阵V每个变量都被1减得到的变量矩阵，最后将S104的图像空间特征图和S105的光流特征图与各自对应的变量矩阵相乘得到的矩阵结果再相加，最终可得到256*13*13大小的图像空间光流信息自适应权重融合特征图。

4.根据权利要求1所述的一种基于视频光流和图像空间特征权重融合的视频识别方法，其特征在于所述步骤S107中设计全连接层的具体方法为：在最后一层池化层后接三层全连接层，前两层全连接层各有2048个神经元，最后一层神经元有101个神经元，全连接层中，使用ReLU作为激活函数。

5.根据权利要求1所述的一种基于视频光流和图像空间特征权重融合的视频识别方法，其特征在于所述步骤S107中，使用softmax作为分类函数，根据提取的特征，对图像进行分类，输出预测的类别编码。

6.根据权利要求1所述的一种基于视频光流和图像空间特征权重融合的视频识别方法，其特征在于所述步骤S104中设计池化层的具体方法为：在第一层、第二层和第五层卷积层后分别接一层池化层，池化层使用最大池化，选取局部区域的最大值作为该区域的值。

7.根据权利要求1所述的一种基于视频光流和图像空间特征权重融合的视频识别方法，其特征在于根据权利要求1所述的一种基于卷积神经网络的细粒度车型识别方法，其特征在于所述步骤S103中设计池化层的具体方法为：在第一层、第二层和第五层卷积层后分别接一层池化层，池化层使用最大池化，选取局部区域的最大值作为该区域的值。步骤S110，将被判别视频按照步骤S101，S102得到该视频的图片帧集和光流帧集，随后通过S103二次抽帧得到该视频对应的模型输入集，将S103中模型输入集中对应同时间位置的图片帧和光流帧作为S109的视频识别模型的输入，最终将所有帧得到的类别分数进行平均处理，最终得到该视频对应于所有类别的分数，分数最大类别即是该视频最终类别。