CN110852295A

CN110852295A - 一种基于多任务监督学习的视频行为识别方法

Info

Publication number: CN110852295A
Application number: CN201911132142.2A
Authority: CN
Inventors: 李楠楠; 张世雄; 赵翼飞; 李若尘; 李革; 安欣赏; 张伟民
Original assignee: Shenzhen Longgang Intelligent Audiovisual Research Institute
Current assignee: Shenzhen Longgang Intelligent Audiovisual Research Institute
Priority date: 2019-10-15
Filing date: 2019-11-19
Publication date: 2020-02-28
Anticipated expiration: 2039-11-19
Also published as: CN110852295B

Abstract

一种基于多任务监督学习的视频行为识别方法，包括：步骤1)将输入视频划分成多个视频序列，每个视频序列包含若干帧图像；以及步骤2)设计3D卷积神经网络对视频序列提取时间和空间联合特征，实现显著性区域检测和视频行为分类。其中，这两个任务共享特征提取模块，显著性特征图用于指导行为识别特征的提取，使得神经网络更加关注于行为发生的区域，有利于网络学习到对运动分类敏感的特征，从而提高了行为识别的检测精度。同时，相比于单任务检测模型，显著性区域检测加快了视频行为分类任务的训练速度。在当前公布的测试数据集上，本发明提出的方法取得了领先的检测水平。

Description

一种基于多任务监督学习的视频行为识别方法

技术领域

本发明涉及机器学习方法和视频行为分析技术领域，具体涉及到一种基于多任务监督学习的视频行为识别方法。

背景技术

近年来，随着自媒体的兴起，互联网上存在着巨量的由用户上传的视频，且这个数量每日都被不断地进行刷新。如何智能地对这些视频进行分析，减少人工干预，提升管理效率是众多视频平台提供商关注的问题。利用计算机视觉技术进行智能视频分析是一种可行的解决方案，其中视频行为识别是高层次视频理解(例如视频推断、视频摘要等)的基础。目前普遍流行的视频行为识别方法都是基于单一任务的，即：利用标注数据训练一个神经网络模型，该模型只用于视频行为分类。例如，有些方法使用RGB图像和光流信息训练一个双通道神经网络实现行为分类。然而，机器学习的理论和实践都证实知识在相关的机器学习任务间可以传递和共享，联合学习多个任务比单独学习各个任务能获得更好的性能。

发明内容

本发明的目的是提供一种基于多任务监督学习的视频行为识别方法，给定一段视频序列作为输入，设计深度卷积网络模型提取特征，并产生两个相关联的任务输出：显著性区域检测和视频行为分类。由于共用特征提取网络，知识在这两个任务间传递和共享，因而使得两个关联任务相互促进，提升了视频行为分类的准确性。

本发明提供的技术方案如下：

根据本发明的一个方面，提供了一种基于多任务监督学习的视频行为识别方法，包括：步骤1)将输入视频划分成多个视频序列，每个视频序列包含若干帧图像；以及步骤2)设计3D卷积神经网络对视频序列提取时间和空间联合特征，实现显著性区域检测和视频行为分类。

优选地，在上述基于多任务监督学习的视频行为识别方法中，在步骤1)中：对于给定一段输入视频，把它均匀划分成若干段，每段包含27帧图像，称之为视频序列。

优选地，在上述基于多任务监督学习的视频行为识别方法中，步骤2)中，设计3D卷积深度神经网络对输入的视频序列提取时间和空间联合特征，并产生两个任务输出：图像显著性区域检测和视频行为分类。

优选地，在上述基于多任务监督学习的视频行为识别方法中，3D卷积神经网络上路分支：3D卷积和池化单元的输出信号f_a送入全局均匀池化层，对视频行为分类特征进行降维，得到输入视频时空表述特征，再经过一个全连接层得到视频行为分类结果；以及3D卷积神经网络下路分支：特征图堆叠层接收显著性单元输出特征图

进行堆叠，得到特征f_s经过2D卷积层a得到多通道融合显著性特征f_b，f_b输入到显著性图生成层，得到显著性区域检测结果。

根据本发明的另一方面，提供了一种基于多任务监督学习的视频行为识别系统，包括：视频特征提取模块，用于对划分输入视频得到的视频序列提取与分类任务相关的特征，其中与分类任务相关的特征为时间和空间联合特征；以及任务分类模块，用于实现根据视频序列的特征进行图像显著性区域检测和视频行为分类。

优选地，在上述基于多任务监督学习的视频行为识别系统中，视频特征提取模块包括：3D卷积和池化单元和显著性模板生成单元，其中，3D卷积和池化单元共有4组，前后串连；显著性模板生成单元共有3组，每个3D卷积和池化单元后都会连接一个显著性模板生成单元，用来生成显著性模板

和显著性特征图

其中，3D卷积和池化单元输出信号和显著性模板

进行点乘和相加得到混叠信号后，送入下一个3D卷积和池化单元作为输入。

优选地，在上述基于多任务监督学习的视频行为识别系统中，每组3D卷积和池化单元包括卷积层和池化层；以及每组显著性模板生成单元由3D均匀池化层、3D卷积层、第二2D卷积层、空域显著性激活层和2D上采样反卷积层组成，其中，输入信号经过处理，产生两路输出：一支经过3D均匀池化层、3D卷积层、第二2D卷积层和空域显著性激活层处理后输出图像显著性模板

另外一支经过3D均匀池化层、3D卷积层、第二2D卷积层和2D上采样反卷积层后输出显著性特征图

优选地，在上述基于多任务监督学习的视频行为识别系统中，3D卷积层的尺寸设置为3×3×3，第二2D卷积层的尺寸设置为1×1，空域显著性激活函数采用sigmoid函数，显著性模板

通过对显著性特征图

进行softmax运算得到，如下式所示：

训练阶段，行为分类损失函数L_act显著性区域检测损失函数L_act都采用交叉熵函数，最后整体的损失函数为两者之和，如下式所示：

L_all＝L_act+L_sal。

优选地，在上述基于多任务监督学习的视频行为识别系统中，任务分类模块包括：全连接层，用于视频行为分类；显著性图生成层，用于生成显著性区域检测结果；全局均匀池化层，用于对视频行为分类特征进行降维；以及第一2D卷积层，用于得到多通道融合显著性特征f_b。

与现有技术相比，本发明的有益效果是：

利用本发明提供的技术方案，在对视频中存在的行为进行识别时，采用了一种基于多任务监督学习的方式。相比于传统的单一任务模型的视频行为识别方法，多个关联任务共同学习由于存在知识的传递和共享，可以促进单个任务的学习，有效地提升了视频行为分类的准确率；同时，使用本发明提出的模板点乘单元，可以利用显著性区域检测图指导视频行为分类特征提取过程，提升了视频行为分类器训练的收敛速度。

附图说明

为了更清楚地说明本发明具体实施方式或现有技术中的技术方案，下面将对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍。

图1为本发明的基于多任务监督学习的视频行为识别方法的流程图。

图2为本发明的基于多任务监督学习的视频行为识别方法的神经网络结构示意图。

图3为本发明的神经网络结构的3D卷积和池化单元的结构示意图。

图4为本发明的神经网络结构的的显著性模板生成单元的结构示意图。

具体实施方式

本发明提供的基于多任务监督学习的视频行为识别方法不同于以往的单任务学习模式的视频行为识别方法，在本发明中，设计了一个多分支深度神经网络模型来实现多个相关的学习任务，以此促进各个子任务的学习。具体地说，给定一段视频作为输入，神经网络模型的输出包括两项：行为分类和显著性区域检测。这是两个相关联的任务，检测到图像中的显著性区域，基于此进行行为分类将会更加准确。因为在包含运动的视频序列中，显著性区域往往就是运动发生的区域。如果神经网络在进行行为推断时，更加关注于来自于显著性区域的特征，则行为分类的准确性将得到提升。

本发明方法采用深度学习模型架构，设计一种端到端多任务分支的深度神经网络模型，使得多个相关任务之间的知识可以传递和共享，以此来提升视频行为分类的准确性。

本发明方法的原理是：1.)根据多个关联任务可以相互促进学习的理论，给定一段输入视频序列，设计深度神经网络提取共用特征，给出两种不同的预测输出，来提升视频行为分类的准确率；2.)由视频运动区域和视频显著性区域相重合为依据，利用显著性区域检测图来指导视频行为分类特征提取，加快了视频行为分类的训练过程。

一种基于多任务监督学习的视频行为识别方法，设计3D卷积神经网络提取时空联合表述特征，产生两个任务输出。具体地，此过程可分解为视频特征提取模块和任务分类模块。其中，视频特征提取模块，用于对均匀分割得到的视频序列提取与分类任务相关的特征；任务分类模块，用于实现根据视频序列特征进行行为分类和显著性区域检测。具体地，本发明提出的基于多任务监督学习的视频行为识别方法包括两个步骤：对输入视频进行划分，得到多个视频序列，每个视频序列包含若干帧图像；设计3D卷积深度神经网络模型产生两种不同的任务输出：图像显著性区域检测和视频行为分类，其中这两个任务共享特征提取网络模块，具有不同的分类器模块构造。具体地说，基于多任务监督学习的视频行为识别方法包括以下两个步骤：

1.)将输入视频划分成多个视频序列，每个视频序列包含若干帧图像；

2.)设计3D卷积深度神经网络模型对输入视频序列提取时间和空间联合特征，并产生两个任务输出：图像显著性区域检测和视频行为分类。

相比于以前的单一任务的视频行为识别方法，本发明提出的技术方案具有下列特性：1.对于一段的视频输入，存在两项相关联的任务输出：行为分类和显著性区域检测，其中显著性区域检测可以促进行为分类的准确率提升；2.两个任务共享特征提取网络，对显著性区域检测任务的训练将提升行为分类任务训练的收敛速度。

本发明提出的方法与现有的方法相比有两点主要的改进：1.)本发明提出的方法是基于多任务监督学习，相比于以往的基于单一任务训练模型的方法，输入一段视频，产生两个任务输出，这两个相关联的任务相互促进；2.)设计模板点乘(Mask Dot-multiplication)算子，用显著性区域检测结果指导行为分类器特征提取过程，使得在行为类型推断时可以更多关注与行为运动相关联的区域。

本发明还提供了一种基于多任务监督学习的视频行为识别系统，包括：视频特征提取模块，用于对划分输入视频得到的视频序列提取与分类任务相关的特征，其中与分类任务相关的特征为时间和空间联合特征；以及任务分类模块，用于实现根据视频序列的特征进行图像显著性区域检测和视频行为分类。

设计3D卷积神经网络提取时间和空间联合表述特征，完成两个相关任务：视频行为分类和显著性区域检测。这两个任务共享特征提取网络模块，分别具有分类或者检测任务网络模块。具体的即为，由3D卷积和池化单元生成时间和空间联合特征，用于视频行为分类任务；由显著性特征图生成显著性模板，显著性模板与3D卷积和池化单元输出信号进行混叠，指导时间和空间联合特征的提取。行为分类损失和显著性区域检测损失相加作为3D卷积神经网络的训练损失。

图1为本发明的基于多任务监督学习的视频行为识别方法的流程图，包括步骤s1-s2。一种基于多任务监督学习的视频行为识别方法，整体操作流程现从开始到结束分述如下：

s1：将输入视频划分成多个视频序列，每个视频序列包含若干帧图像。具体地，给定一段视频，把它均匀划分成若干段，每段包含27帧图像，称之为视频序列。

s2：设计3D卷积神经网络对视频序列提取时间和空间联合特征，产生两个任务输出。具体地，设计3D卷积深度神经网络对输入视频序列提取时间和空间联合特征，并产生两个任务输出：图像显著性区域检测和视频行为分类。图2为本发明设计的3D卷积神经网络结构示意图。将步骤1)所得的视频序列输入至图2所示的3D卷积神经网络进行行为分类和显著性区域检测。这两个任务共享特征提取层，特征提取层主要由3D卷积和池化单元1和显著性模板生成单元4构成。3D卷积和池化单元1共有4组，前后串连；显著性模板生成单元4共有3组，每个3D卷积和池化单元1后都会连接一个显著性模板生成单元4，用来生成显著性模板

和显著性特征图

3D卷积和池化单元1输出信号f_o与在模板点乘算子中进行点乘操作产生显著性信息加权信号f_w，f_o与f_w相加得到混叠信号f_w作为下一个3D卷积和池化单元1的输入。

图2中3D卷积神经网络上路分支：3D卷积和池化单元1的输出信号f_a送入全局均匀池化层2，对视频行为分类特征进行降维，得到输入视频时空表述特征，再经过一个全连接层3得到行为分类结果，例如，交谈、步行、跑等行为，输出概率最大的为相对应的行为检测结果(图2中交谈为对应的行为，其后用对勾√标明)；3D卷积神经网络下路分支：特征图堆叠层5接收显著性模块生成单元输出特征图

进行堆叠，得到特征f_s(即，多个阶段的显著性特征通过堆叠的方式构成显著性特征堆叠图f_s；)，经过第一2D卷积层6得到多通道融合显著性特征f_b。f_b输入到显著性图生成层7，得到显著性区域检测结果。

如图3所示，3D卷积和池化单元1包括卷积层8和池化层9。卷积层8卷积核设置为3×3×3，池化层9采用极大值池化方式，尺寸设置为3×3×3。

图4为本发明的神经网络结构的的显著性模板生成单元的结构示意图。如图4所示，显著性模板生成单元4由3D均匀池化层10、3D卷积层11、第二2D卷积层12、空域显著性激活层13和2D上采样反卷积层14组成。输入信号经过处理，产生两路输出：一支经过3D均匀池化层10、3D卷积层11、第二2D卷积层12和空域显著性激活层13处理后输出图像显著性模板

另外一支经过3D均匀池化层10、3D卷积层11、第二2D卷积层12和2D上采样反卷积层14后输出显著性特征图

其中，3D卷积层11的尺寸设置为3×3×3，第二2D卷积层12的尺寸设置为1×1。空域显著性激活函数采用sigmoid函数。显著性模板

通过对显著性特征图

进行softmax运算得到，如式1所示：

训练阶段，行为分类损失函数L_act显著性区域检测损失函数L_act都采用交叉熵函数，最后整体的损失函数为两者之和，如式2所示：

L_all＝L_act+L_sal (2)

以上即为本发明提出的一种基于多任务监督学习的视频行为识别方法的具体实施方案。此实施方案是在HMDB-51(Hildegard Kuehne，Hueihan Jhuang，Est′₁balizGarrote，Tomaso Poggio，and Thomas Serre.Hmdb：a large video database for humanmotion recognition.In Proc.IEEE Int.Conf.on Computer Vision(ICCV)，2011.)数据集上进行验证的，并用公认的评价标准平均准确率(Average Accuracy)对实验结果进行了评估。在与当前使用3D卷积的单一任务模型的比较中，本发明提出的方法取得了领先的检测精度，具体比较结果如下表所示。在表1中，平均准确率越高对应的模型越好。由表1结果可知，目前使用3D卷积单一任务模型检测结果的平均准确率为51.6％、56.4％和61.0％，与此相比，本发明的平均准确率达到了62.7，取得了领先的检测水平。

表1.与目前使用3D卷积单一任务模型检测结果比较

比较参考文献：

[1]Du Tran,Lubomir Bourdev,Rob Fergus,Lorenzo Torresani,and ManoharPaluri.Learning spatiotemporal features with 3d convolutional networks.InProc.IEEE Int.Conf.on Computer Vision(ICCV),2015.

[2]Kensho Hara,Hirokatsu Kataoka,and Yutaka Satoh.Can spatiotemporal3d cnns retrace the history of 2d cnns and imagenet.In Proc.IEEE Conf.onComputer Vision and Pattern Recognition(CVPR),2018.

Claims

1.一种基于多任务监督学习的视频行为识别方法，其特征在于，包括：

步骤1)将输入视频划分成多个视频序列，每个视频序列包含若干帧图像；以及

步骤2)设计3D卷积神经网络对视频序列提取时间和空间联合特征，实现显著性区域检测和视频行为分类。

2.根据权利要求1所述的基于多任务监督学习的视频行为识别方法，其特征在于，在步骤1)中：对于给定一段输入视频，把它均匀划分成若干段，每段包含27帧图像，称之为视频序列。

3.根据权利要求1所述的基于多任务监督学习的视频行为识别方法，其特征在于，步骤2)中，设计3D卷积深度神经网络对输入的视频序列提取时间和空间联合特征，并产生两个任务输出：图像显著性区域检测和视频行为分类。

4.根据权利要求1所述的基于多任务监督学习的视频行为识别方法，其特征在于，其中，所述3D卷积神经网络上路分支：3D卷积和池化单元的输出信号f_a送入全局均匀池化层，对视频行为分类特征进行降维，得到输入视频时空表述特征，再经过一个全连接层得到视频行为分类结果；以及所述3D卷积神经网络下路分支：特征图堆叠层接收显著性单元输出特征图进行堆叠，得到特征f_s经过2D卷积层a得到多通道融合显著性特征f_b，f_b输入到显著性图生成层，得到显著性区域检测结果。

5.一种基于多任务监督学习的视频行为识别系统，其特征在于，包括：

视频特征提取模块，用于对划分输入视频得到的视频序列提取与分类任务相关的特征，其中所述与分类任务相关的特征为时间和空间联合特征；以及

任务分类模块，用于实现根据所述视频序列的特征进行图像显著性区域检测和视频行为分类。

6.根据权利要求5所述的基于多任务监督学习的视频行为识别系统，其特征在于，所述视频特征提取模块包括：3D卷积和池化单元和显著性模板生成单元，其中，所述3D卷积和池化单元共有4组，前后串连；所述显著性模板生成单元共有3组，每个所述3D卷积和池化单元后都会连接一个所述显著性模板生成单元，用来生成显著性模板