CN110188668A

CN110188668A - 一种面向小样本视频动作分类的方法

Info

Publication number: CN110188668A
Application number: CN201910453199.6A
Authority: CN
Inventors: 姜育刚; 傅宇倩; 付彦伟; 汪成荣
Original assignee: Fudan University
Current assignee: Fudan University
Priority date: 2019-05-28
Filing date: 2019-05-28
Publication date: 2019-08-30
Anticipated expiration: 2039-05-28
Also published as: CN110188668B

Abstract

本发明属于计算机技术领域，具体涉及面向小样本视频动作分类的方法。本发明针对现有小样本视频动作分类的设定存在训练集与测试集类别交叉的问题，提出基于智能人体的小样本视频识别新模式，利用3D智能虚拟人体与虚拟环境交互的方式生成相同动作的大量虚拟视频，为深度神经网络提供训练样本；此外，还提出基于视频段替换的数据增强方法，通过用语义相近的视频片段替换原视频中某个片段的方法扩充有限的数据集。实验表明该方法对于小样本视频动作识别能起到很大的促进作用，且具有较好的鲁棒性与较强的算法可移植性。

Description

一种面向小样本视频动作分类的方法

技术领域

本发明属于计算机技术领域，具体涉及小样本视频动作分类的方法。

背景技术

随着深度学习的快速发展，计算机视觉领域的诸多任务都得到了不错的成效。视频动作识别也逐渐成为国内外研究人员专注的热点研究问题，目前已经出现了很多能够在现有视频动作识别数据集上达到较高识别度的模型，但是它们大多都依赖大量人工标注过的数据。在实际应用中，更多的是待预测的视频只有一个或者少数几个标注样本的情况。小样本视频动作识别研究的就是如何在标注数据极少的情况下让网络模型拥有快速学习视频特征表示进而进行动作识别的能力。

现有的小样本视频动作识别是用类别无交叉的训练数据去迁移到测试数据上，但相对于视频数据而言，尽管训练数据与测试数据的类别标签不同，依然很难保证测试数据中的动作片段没有出现在训练视频中。因此本发明针对性地提出用为真实世界的测试视频合成动作类别相同的虚拟视频作为训练集的方式，来避免这一问题，从而让模型能够从相同类别的虚拟视频中学习识别现实视频中动作的能力。此外，由于测试阶段每个样本都只有极少数的标注样本，如何让模型具备快速识别这些全新的没有见过的视频也是本发明要解决的主要问题。

近年来，也有相关研究工作尝试解决此类问题。

文[1]提出了将样本特征映射到一个特征空间然后用特征最近邻的方法确定预测样本的标签。该方法主要面向图像领域，没有利用视频的时序信息。

文[2]提出了用元学习的方法来训练网络模型，并设计了一种能够将变长的视频帧编码成固定大小特征空间的方法来利用视频之间的时序信息。但是这种使用所有视频帧信息的方法会在提升性能的同时极大得增加计算性能。

发明内容

本发明的目的在于提供一种具有好的鲁棒性、强的算法可移植性的面向小样本视频动作分类的方法。

本发明提出的面向小样本视频动作分类的方法，主要考虑到现在视频领域小样本动作识别的设定存在训练集与测试集类别交叉的问题，提出一种设定，在该设定下训练集与测试集的类别集合是相同的，训练集是由3D智能人体与虚拟环境生成的虚拟视频，而测试集是真实世界的视频，这就可以让深度学习模型通过学习合成的虚拟视频更好地识别真实测试视频。此外，考虑到小样本动作识别测试阶段的视频只有1个或少数几个标注数据，本发明针对性地提出视频片段替换的数据增强方法来扩充原来数量有限的数据集，从而更好地进行小样本视频动作识别分类器的学习。具体的步骤如下：

(1)利用现有游戏引擎中的视觉脚本来编程控制3D智能人体和虚拟环境；

(2)定义3D智能人体与虚拟环境进行特定动作的交互，摄像头记录视频获取到虚拟训练集；

(3)为每个训练集中的类别挑选m个视频，并将其分成长度为l_seg的视频片段，构成备选视频片段池,其中m的大小权衡扩充效果与计算时间确定，一般可以取5-20；l_seg可表示为t，取值不宜太大，建议小于或等于以免破坏原视频的语义信息，通常取t＝1、2或3；

(4)生成增强训练集：为训练集中的每个视频在每隔l_frame帧处进行一次视频片段的替换操作，在备选视频片段池中选择语义距离最相近的视频片段进行替换，得到增强后的训练集；这里，l_frame可表示为2^p,通常取p＝4、5、6或7；

(5)依次用原有的视频数据集与增强后的视频数据集训练和微调用于提取视频特征的ResNet-50神经网络模型[3]；

(6)测试阶段按照n-way-k-shot[4]的设定，在测试集中随机选择n个类别，然后为每个类别选择k个带标注信息的样本作为支持集，并额外选择1个属于这n个类别但不属于支持集的视频作为测试视频；

(7)为n*k个支持集视频中的每个视频取中间的l_frame帧，并为这l_frame帧视频在每个l_seg帧处都进行数据增强的操作，加上原视频最终获取到容量为的扩充支持集；

(8)为包含个视频的支持集和1个测试视频用步骤(5)训练好的ResNet-50神经网络模型提取视频的特征，用ProtoNet小样本分类器[5]将属于同一个类别的视频特征取平均作为这个类别的中心，得到n个类中心，对测试视频计算其到n个类中心的欧几里得距离，取距离最小的类作为这个测试视频的预测结果；

(9)重复s次步骤(7)-(8)，并用平均预测准确度作为模型最终的评价指标，其中为了保证结果的可靠性，s的取值应大于2000，且重复次数越多，得到的结果越具有可信度。

与现有方法不同，本发明针对现实视频动作识别中存在训练集与测试集类别交叉的问题，提出一种训练集与测试集动作类别集合一致，但训练集为虚拟视频，而测试集为真实世界的视频的全新的小样本视频动作识别的设定，为小样本视频动作识别提供一种新的思路。在虚拟视频的生成方法上，本发明利用3D智能虚拟人体与3D虚拟环境交互的方式生成相同动作的大量虚拟视频，用于为深度神经网络提供训练样本。在解决小样本视频动作分类中测试视频只有一个或少数几个标注样本的难点上，本发明还提出了一种基于视频段替换的数据增强方法，通过用语义相近的视频片段替换原视频中某个片段的方法扩充有限的数据集。基于以上改进，本系统提出的利用虚拟视频与视频段替换进行小样本视频动作识别的方法更具真实系统的实用性。实验验证该方法对于小样本视频动作识别能起到很大的促进作用，且能够方便地移植到现有的方法中。

本发明的创新之处在于：

1、本发明第一次将3D智能虚拟人体与虚拟环境的交互用于为小样本视频识别生成训练数据，从而提出基于智能人体训练数据的小样本视频动作识别任务。在该任务中训练数据与测试数据拥有相同的动作类别，但前者是生成的虚拟训练视频，而后者是真实的测试视频，任务的目的是让神经网络从虚拟视频中学习到动作特性，从而能够快速识别新的真实世界的视频动作；

2、针对小样本视频动作识别中带标注数据非常有限的特性，提出基于用语义信息相近的视频片段来替换原视频中的某一段视频片段的视频数据增强方法。该方法简单有效，能够在保持视频动作类别不发生改变的情况下合成新的视频数据。从而有助于小样本视频动作识别分类器的学习，能很好地提升识别性能且该方法可以迁移应用到其他的小样本视频动作识别的模型与方法中。

附图说明

图1是本发明提出的基于智能人体的小样本视频动作识别设定与经典识别的对比图。

图2是本发明的真实测试视频与对应生成的虚拟训练视频数据示意图。

图3是本发明提出的基于视频片段替换的视频数据增强方法示意图。

图4是本发明提出的语义相近视频片段选择方法示意图。

图5为本发明方法流程图示。

具体实施方式

下面通过具体实施例和附图进一步描述本发明。

图1展示出本发明提出的基于智能人体的小样本视频动作识别设定与经典识别的对比图。其中黑色的表示真实世界的视频，紫红色的表示虚拟世界的视频。经典的小样本视频动作识别是从真实的训练集视频迁移到不同动作的真实测试集视频；我们提出的小样本视频动作识别是从基于智能人体生成的虚拟训练集视频迁移到具有相同动作的真实测试集视频。

图2展示出本发明真实测试视频与对应生成的虚拟训练视频数据示意图。其中真实测试视频来源于包含真实人类动作例如挥手、街舞、扔球，而虚拟的训练数据是用3D智能虚拟人体和虚拟环境交互的方式生成的具有相应动作的虚拟视频。

图3展示出本发明基于视频片段替换的视频数据增强方法示意图。其中给定一个动作类别为y的待增强视频，用语义相近的l_seg帧视频片段替换其中的某l_seg帧视频片段，然后得到增强后的视频，该视频保持动作类别y不变。

图4展示出本发明语义相近视频片段选择方法示意图。对于一个待增强视频中的各个视频片段与视频片段池中的片段，都用ResNet-50神经网络提取视频片段特征。然后对于视频片段池中的每个片段G_k都为其计算到待增强视频的各个片段的距离，具体计算方法为用滑动窗口的方式计算两两之间的欧几里德距离，得到语义距离分值。然后在此基础上为了保证生成视频时序上的平整性，应用卷积核为进行卷积操作[λ₁,λ₂,λ₁]得到新的语义+时序分值。为所有的视频片段池中的视频进行一次相同操作即可得到分值矩阵。对于待增强视频中的某一段，从视频片段池中选择分值最小的一段进行替换。

具体步骤如下：

步骤1.为测试视频生成对应动作的虚拟训练数据。利用现有游戏产业中的UnrealEngine4游戏引擎构建一套具有3D智能虚拟人体与虚拟环境的仿真环境。利用Blueprint脚本编程自动控制虚拟世界，具体表现为定义智能人体的动作、外表、摄像头的角度，虚拟环境的场景(室内、街道、自然环境)等，然后智能人体在虚拟环境中重复进行动作的交互，摄像头记录人体与虚拟环境交互的过程，一个时间周期的过程被保存下来作为一段虚拟视频。智能人体在下一个周期随机出现在虚拟世界的下一个场景进行动作的交互，同样用摄像头记录该过程，不断重复，得到具有多样性的虚拟训练数据。

步骤2.生成备选视频片段池。给定训练集数据D_base，先从中为每个类随机挑选出m个视频作为备选视频，每个视频随机取连续的l_frame帧。然后将这些l_frame帧的备选视频分成长度为l_seg的视频片段，即每个视频都能得到个视频片段，这些视频片段共同构成用于增强训练集和测试集的备选视频片段池G_pool。

步骤3.生成增强训练集对于训练集D_base中的每个视频，为了保证模型训练时每次随机采样出来的l_frame帧视频有且仅有一段被替换的l_seg帧视频片段，对原视频中每隔l_frame帧的位置进行一次视频段替换的增强操作。具体的视频段替换增强方法为如附图4所示，将待增强的视频V_probe等分成长度为l_seg的视频片段，然后与视频片段池G_pool中的视频一起，都用神经网络提取视频片段特征。具体特征提取的方法为用在ImageNet上预训练过的ResNet-50模型提取每帧图像的特征表示，然后取l_seg帧图像特征的平均作为该l_seg帧片段的特征。对于视频片段池中的每个片段G_k都为其计算其特征到待增强视频V_probe的各个片段特征的距离，如图所示用滑动窗口的方式计算两两之间的欧几里德距离，得到语义距离分值[y_k,1,y_k,2,y_k,3…,y_k,m]。然后在此基础上为了保证生成视频时序上的平整性，应用卷积核为进行卷积操作[λ₁,λ₂,λ₁]得到新的语义+时序分值[y′_k,1,y′_k,2,y′_k,3…,y′_k,m]。为所有的视频片段池G_pool中的视频都进行一次相同的操作，就可以得到最后的分值矩阵。对于待增强视频V_probe中的某一段，从视频片段池G_pool中选择分值最小的一段进行替换，就可以得到对应的生成视频V_syn，其类别可以等同于V_probe的类别。

步骤4.用原始训练集D_base和增强后的训练集微调视频特征提取器。本发明采用在ImageNet上预训练过的ResNet-50作为基础的特征提取网络，在此基础上用原始训练集与增强后的训练集对网络参数进行进一步的训练和微调。提取视频特征的方法与步骤3中提取视频片段的方法类似，取图像帧特征的平均作为视频特征。我们采用SGD优化器对网络进行训练，批处理视频数量为6。首先，在D_base数据集上设置网络最后一个全连接层的学习率为0.001，前面的网络层学习率为0.0001，进行6轮的训练，该过程的目的是希望网络模型能够从ImageNet上学习到的参数基础上更加地拟合到现有训练数据集上，学习训练视频的特征；其次，在数据集上，将各层的学习率设置为原来的1/10，然后也用相同的优化器进行6轮的训练，该过程的目的是希望网络模型具备学习用我们的段替换方法生成的新视频的能力。

步骤5.网络测试阶段n-way-k-shot数据获取及处理。本发明采用n-way-k-shot的评价方法，该方法即指每次在测试集中随机选择n个类别，并为这n个类别随机选择k个样本，构成n*k个测试集中的支持集，然后再额外选择1个属于这n个类别的视频作为测试视频。然后对n*k个支持集中的视频用步骤3所述的方法进行数据的增强，与增强训练集不同的是为了最大限度的增强支持集数据，对l_frame帧视频的每个l_seg帧片段都分别进行一次段替换的增强操作，这样得到包含视频数量为的增强支持集。然后对支持集中的所有视频和1个测试视频用步骤4训练得到的视频特征提取器提取视频特征。

步骤6.网络测试阶段获取模型的识别准确度。本发明采用ProtoNet方法作为小样本视频动作识别分类器。首先将增强数据集中属于相同类别的视频特征取平均作为这个类别的中心，作为n个类中心。然后对测试视频计算其到这n个类中心的欧几里得距离，取距离最小的类作为这个视频的预测结果。

步骤7.重复s次步骤5-6，用这s次的平均预测准确度作为模型最终的评价指标。本发明的方法按照文[6]中的训练集与测试集的划分方法在Kinetics数据集上进行实验，实验结果表明只有测试视频只有一个标注数据时能达到67.8％的准确率，比目前最好的文[6]提高了7.3％，在测试数据有5个标注数据的情况下达到了85％的准确率，达到目前最高水平。

参考文献

【1】

riolVinyals,CharlesBlundell,TimothyLillicrap,KorayKavukcuoglu,andDaanWierstra.

2016.MatchingNetworksforOneShotLearning.InNIPS.

【2】Linchao Zhu and Yi Yang.2018.Compound Memory Networks for Few-shotVideoClassification.InECCV.751–766.

【3】He,K.,Zhang,X.,Ren,S.and Sun,J.,2016.Deep residual learning forimage recognition.In Proceedings of the IEEE conference on computer visionand pattern recognition(pp.770-778).

【4】Ravi,S.and Larochelle,H.,2016.Optimization as a model for few-shotlearning.

【5】JakeSnell,KevinSwersky,andRichardS.Zemeln.2017.Prototypicalnetworks forfew-shotlearning.InNIPS.

【6】Zhu,L.and Yang,Y.,2018.Compound Memory Networks for Few-shot VideoClassification.In Proceedings of the European Conference on Computer Vision(ECCV)(pp.751-766)。

Claims

1.一种面向小样本视频动作分类的方法，其特征在于，设定训练集与测试集的类别集合相同，训练集是由3D智能人体与虚拟环境生成的虚拟视频，测试集是真实世界的视频；让深度学习模型通过学习合成的虚拟视频更好地识别真实测试视频；具体的步骤如下：

(3)生成备选视频片段池：为每个训练集中的类别挑选m个视频，并将其分成长度为l_seg的视频片段，构成备选视频片段池,其中m的大小权衡扩充效果与计算时间而确定；

(4)生成增强训练集：为训练集中的每个视频在每隔l_frame帧处进行一次视频片段的替换操作，在备选视频片段池中选择语义距离最相近的视频片段进行替换，得到增强后的训练集；

(5)依次用原有的视频数据集与增强后的视频数据集训练和微调用于提取视频特征的ResNet-50神经网络模型；

(6)测试阶段按照n-way-k-shot的设定，在测试集中随机选择n个类别，然后为每个类别选择k个带标注信息的样本作为支持集，并额外选择1个属于这n个类别但不属于支持集的视频作为测试视频；

(8)为包含个视频的支持集和1个测试视频用步骤(5)训练好的ResNet-50提取视频的特征，用ProtoNet小样本分类器将属于同一个类别的视频特征取平均作为这个类别的中心，得到n个类中心，对测试视频计算其到n个类中心的欧几里得距离，取距离最小的类作为这个测试视频的预测结果；

(9)重复s次步骤(7)-(8)，并用平均预测准确度作为模型最终的评价指标。

2.根据权利要求1所述的面向小样本视频动作分类的方法，其特征在于，步骤(3)中，所述生成备选视频片段池的流程为：

记训练集数据为D_base，先从中为每个类随机挑选出m个视频作为备选视频，每个视频随机取连续的l_frame帧；然后将这些l_frame帧的备选视频分成长度为l_seg的视频片段，即每个视频都能得到个视频片段，这些视频片段共同构成用于增强训练集和测试集的备选视频片段池G_pool。

3.根据权利要求1或2所述的面向小样本视频动作分类的方法，其特征在于，步骤(4)中，所述生成增强训练集的流程为：对于训练集D_base中的每个视频，为了保证模型训练时每次随机采样出来的l_frame帧视频有且仅有一段被替换的l_seg帧视频片段，对原视频中每隔l_frame帧的位置进行一次视频段替换的增强操作；所述视频段替换增强操作，是将待增强的视频V_probe等分成长度为l_seg的视频片段，然后与视频片段池G_pool中的视频一起，都用神经网络提取视频片段特征；视频片段的特征提取方法采用在ImageNet上预训练过的ResNet-50模型提取每帧图像的特征表示，然后取l_seg帧图像特征的平均作为该l_seg帧片段的特征；对于视频片段池中的每个片段G_k，为其计算其特征到待增强视频V_probe的各个片段特征的距离，得到语义距离分值[y_k,1,y_k,2,y_k,3…,y_k,m]；然后在此基础上为了保证生成视频时序上的平整性，应用卷积核为进行卷积操作[λ₁,λ₂,λ₁]，得到新的语义+时序分值[y′_k,1,y′_k,2,y′_k,3…,y′_k,m]；为所有的视频片段池G_pool中的视频都进行一次相同的操作，得到最后的分值矩阵；对于待增强视频V_probe中的某一段，从视频片段池G_pool中选择分值最小的一段进行替换，得到对应的生成视频V_syn，其类别等同于V_probe的类别。

4.根据权利要求1所述的面向小样本视频动作分类的方法，其特征在于，步骤(3)中，m取5-20；l_seg取值小于或等于

5.根据权利要求1所述的面向小样本视频动作分类的方法，其特征在于，步骤(4)中，视频的间隔帧数l_frame表示为2^p,取p＝4、5、6或7。

6.根据权利要求1所述的面向小样本视频动作分类的方法，其特征在于，步骤(9)中，重复次数s大于2000。