CN109993077A

CN109993077A - 一种基于双流网络的行为识别方法

Info

Publication number: CN109993077A
Application number: CN201910202628.2A
Authority: CN
Inventors: 朱轶昇; 刘光灿
Original assignee: Nanjing University of Information Science and Technology
Current assignee: Nanjing University of Information Science and Technology
Priority date: 2019-03-18
Filing date: 2019-03-18
Publication date: 2019-07-09

Abstract

本发明公开了一种基于双流网络的行为识别方法，属于机器视觉及行为识别领域,网络部分：对于一个输入视频，将其分成k个片段，对每个片段，将对应的经过处理后的图片得到对应的分类准确率，将所有的片段融合得到最终的分类准确率。网络训练部分：通过使用多尺度裁剪，颜色抖动，随机翻转等方法解决了训练数据少产生的过拟合问题。时间段网络通过从k个片段中学习视频的特征，关注到了视频的全局信息而非局部，与3维卷积网络方法相比，3维卷积网络虽然能关注全局的视频信息，但参数量巨大，时间段网络不管在参数量还是在计算量上都比3维卷积更小。时间段网络是传统两种方法的综合，既注重视频全局信息，又不会带来很大的参数和计算量。

Description

一种基于双流网络的行为识别方法

技术领域

本发明属于机器视觉及行为识别领域，尤其涉及一种基于双流网络的行为识别方法。

背景技术

基于视频的行为识别因其在安全和行为分析等许多领域的应用而引起了极大关注，过去主要是基于手工提取特征的方法，比如采用梯度直方图(Histogram of OrientedGradients,HOG),光流直方图(Histogram of Optical Flow,HOF)表示视频的静态与运动信息，这些特征用词袋模型(Bag of Features)编码，最后结合支持向量机(supportvector machine，SVM)等分类器进行预测，然而手工特征难以表达高层的语义信息，在大规模数据据上有很大的局限性。随着深度学习的发展，卷积网络越来越多的被应用在行为识别领域，与静态的图片不同，视频多了时间维度，因此在行为识别中有两个关键方面：静态的外观和变化的动作。Simonyan等人在发表于NIPS会议的文献“Two-StreamConvolutional Networks for Action Recognition in Videos”中提出的方法用两个卷积网络分别对静态信息和运动信息建模，最后通过融合两路信息进行视频预测，然而此方法仅对单张图片建模，忽略了视频的时序依赖关系，识别系统的性能在很大程度上取决于它是否能从具有时序关系的视频中提取和利用相关信息，由于相机抖动，尺度变化，计算复杂度等多方面因素的存在，提取这些信息并不简单，因此设计能够应对这些挑战的行为识别分类系统变得至关重要。

发明内容

本发明所要解决的技术问题是解决了训练数据少，以及主流学习框架不能捕捉长时间跨度运动信息的不足提供了一种基于双流网络的行为识别方法。

本发明为解决上述技术问题采用以下技术方案

一种基于双流网络的行为识别方法，其特征在于：具体包含如下步骤；

步骤1，输入部分：探讨3种不同的输入，即将视频通过ffmpeg解码成连续的视频帧并提取其RGB图片、RGB差异图片和光流图片对行为识别结果的影响；

步骤2，数据预处理及模型训练部分：以RGB图片为输入的空间网络可用imagenet数据集上预训练的网络来初始化，以光流图片为输入的时间网络先平均RGB通道的权重，并根据时间网络输入的通道数复制该平均值；

步骤3，网络部分采用双路卷积网络，分别是空间网络和时间网络，空间网络以视频帧作为输入，时间网络以光流作为输入；时间段网络的输入从整个视频中稀疏采样的一系列短片段，视频用V表示，将V分成K份，用(S₁,S₂,…,S_K)表示，则整个网络框架的表达式用下式表示：

Net(T₁,T₂,...T_K)＝H(G(F(T₁；W),F(T₂；W),...,F(T_K；W)))

其中，T₁,T₂,…,T_K表示一系列短片段，即T_K是从S₁,S₂,…,S_K中对应的视频片段中随机采样出来的结果，W是网络参数，则F(T_K；W)为网络的输出，也就是该短片段属于每个类的得分，G是一个聚合函数，对所有短片段的属于同一类别的得分做平均；

步骤4，用H函数根据得分算概率，概率最高的类别就是视频所属的类别；

H函数采用最常见的Softmax函数，另外图1中的K个空间网的参数共享，K个时间网的参数共享；

网络的损失函数为下式：

其中，C为总的行为类别，y为每个类别的标签。

作为本发明一种基于双流网络的行为识别方法的进一步优选方案，在步骤1中，所述RGB差异图片为两幅RGB图片各通道之差；所述光流图片为连续若干光流的水平分量和垂直分量交替堆叠形成多通道图像。

本发明采用以上技术方案与现有技术相比，具有以下技术效果：

1、本发明使用时间段网络，通过稀疏采样一系列短片段来捕捉长时间跨度的运动信息。与行为识别常用的两种方法：双流方法和3维卷积的方法相比，双流方法的优势在于参数量，计算量适中，但由于双流法的采样方式仅关注局部信息，忽略了全局信息的重要性，但实际情况中，一个视频可能会分成好几个片段，每个片段有不同的语义，仅仅关注局部远远不够，因此时间段网络相比双流网络能更加关注全局信息。

2、本发明3维卷积的方法虽然能关注到全局信息，但计算量相当大，用于对101个类别进行识别的2维卷积网络参数仅有5M，一旦使用3维卷积，参数约有33M。

3、本发明时间段网络是两种方法的综合，既保证了这个网络能关注到全局信息，又让参数量，计算量不至于很大(2)行为识别的一大难题是数据集小，导致模型泛化能力差，因此探寻更多数据扩充的方法非常重要，我们使用多尺度裁剪，颜色抖动，随机翻转等方法解决了训练数据少产生的过拟合问题。

附图说明

图1为本发明行为识别总的流程图；

图2为本发明尝试的三种不同的输入，从左到右分别为RGB，光流(水平方向，垂直方向)RGB差异图；

图3为图1流程图中空间网，时间网结构；

图4为图3中Submodel的结构。

具体实施方式

下面结合附图对本发明的技术方案做进一步的详细说明：

本发明设计了一种基于深度学习的行为识别系统，解决了训练数据少，以及主流学习框架不能捕捉长时间跨度运动信息的不足。

为达到以上目的，本发明采用的技术方案如下：

输入部分：本发明探讨了3种不同的输入，即将视频处理并提取其RGB图片，RGB差异图片(即两幅RGB图片各通道之差)，光流图片(即连续若干光流的水平分量和垂直分量交替堆叠形成多通道图像)对行为识别结果的影响，如图2所示。

(2)数据预处理及模型训练部分：为了解决训练数据少以及会造成的过拟合问题，本发明采用多尺度裁剪，水平翻转数据增强方法，交叉模态预训练方法(即以RGB图片为输入的空间网络可以用imagenet数据集上预训练的网络来初始化，以光流图片为输入的时间网络先平均RGB通道的权重，并根据时间网络输入的通道数复制该平均值)。

(3)网络部分：根据本发明的实施方案，网络部分依然用具有不错效果的双路卷积网络，分别是空间网络和时间网络，都采用图3所示结构，包含若干卷积层，池化层等，其中图3的每个子模块由图4组成。空间网络以视频帧作为输入，时间网络以光流作为输入。最重要的是时间段网络(包含多个空间网络和时间网络，参看图1)的输入是从整个视频中稀疏采样的一系列短片段，这就是为了获取长时间跨度结构所做的改进。图1的最左边是一个视频，用V表示，将V分成K份，用(S1,S2,…,SK)表示。网络用下(1)式表示：

Net(T₁,T₂,...T_K)＝H(G(F(T¹；W),F(T²；W),...,F(T_K；W))) (1)

这里的(T1,T2,…,TK)表示一系列短片段，也就是说TK是从(S1,S2,…,SK)中对应的视频片段中随机采样出来的结果,W是网络参数，因此F(TK；W)就是网络的输出，也就是该短片段属于每个类的得分，G是一个聚合函数，对所有短片段的属于同一类别的得分做平均，因为最后要求视频属于哪个类别，而不是这个视频的某个短片段属于哪个类别。G函数的输出结果就是图1中段共识模块的输出结果。最后用H函数根据得分算概率，概率最高的类别就是视频所属的类别。H函数采用最常见的Softmax函数，另外图1中的K个空间网的参数共享，K个时间网的参数共享。

网络的损失函数为下(2)式：

其中C为总的行为类别，y为每个类别的标签。

如图1所示，一个视频被均匀分成3等分，每个部分随机采样1个短片段，其中每个短片段包含2部分：包含静态信息的RGB图片以及包含动态信息的光流图片，然后每个短片段经过图3所示网络输出片段级的预测，最后经过段共识模块将片段级别的预测进行整合(做平均)，从而形成视频级别的预测。

如图2所示，为三种不同的输入，从左到右分别为RGB图片，x和y方向上的光流图片以及RGB差异图片。

如图3所示，为空间网以及时间网的网络结构图。理想情况，只要网络不过拟合，应该是越深越好，因此图3通过submodel构架的叠加，通过设计交叉模态预训练等方法，在保证网络不过拟合的情况下，提高了识别的准确率。

如图4所示，为空间网以及时间网中子模块的结构图，1*1的卷积层主要用来减少模型参数以及控制特征图输出深度。

如表1所示，为不同的输入经过本发明网络训练得到的测试结果与基准方法在ucf101数据集上的对比，预测时通过空间流网络与时间流网络融合可以得到更高的准确率。

表1

输入	表现
		RGB	84.36％
RGBDiff	86.95％
		Flow	87.66％
RGB+Flow	92.97％
		RGB+RGBDiff	90.51％
BaselineRGB+Flow	87％

Claims

1.一种基于双流网络的行为识别方法，其特征在于：具体包含如下步骤；

Net(T₁,T₂,...T_K)＝H(G(F(T₁；W),F(T₂；W),...,F(T_K；W)))

网络的损失函数为下式：

其中，C为总的行为类别，y为每个类别的标签。

2.根据权利要求1所述的一种基于双流网络的行为识别方法，其特征在于：在步骤1中，所述RGB差异图片为两幅RGB图片各通道之差；所述光流图片为连续若干光流的水平分量和垂直分量交替堆叠形成多通道图像。