CN108537119B

CN108537119B - 一种小样本视频识别方法

Info

Publication number: CN108537119B
Application number: CN201810184700.9A
Authority: CN
Inventors: 田永鸿; 邹逸雄; 史业民; 王耀威
Original assignee: Peking University
Current assignee: Peking University
Priority date: 2018-03-06
Filing date: 2018-03-06
Publication date: 2020-07-10
Anticipated expiration: 2038-03-06
Also published as: CN108537119A

Abstract

一种小样本视频识别方法，基于深度神经网络与层级实时记忆，使用每类有多个训练样本的可见类与每类只有少量训练样本的不可见类，对不可见类的测试样本进行分类。首先，在可见类视频上进行深度网络预训练；随后，使用预训练得到的模型与可见类的视频对层级实时记忆网络进行训练，使网络可以在不可见类上进行重要程度的预测；同时，使用预训练得到的模型，在不可见类上对小样本进行距离学习，增大样本的类间距离，缩小样本的类内距离；最后，使用训练得到的层级实时记忆网络对测试视频选帧，使用距离学习得到的模型在选出来的帧上做分类任务。由此，本方法可以实现小样本下的视频识别，更贴近真实识别场景下的应用。

Description

一种小样本视频识别方法

技术领域

本发明涉及深度学习领域，尤其涉及一种基于深度神经网络与层级实时记忆的小样本视频识别方法和装置。

背景技术

视频识别在计算机视觉研究里变得越来越重要，而其中最具有代表性的领域就是视频行为识别。从Two-stream方法开始，深度学习开始展示它在学习特征方面的能力。但是由于深度学习需要的数据量庞大，人们提出了许多大的数据集，例如UCF101，Kinetics，同时，模型也变得越来越难训练。但是在真实场景中，人们往往面临的是没有如此多的训练数据的情况，例如特殊场合的摄像机，或者异常行为的分类，或者模型初次遇到新行为需要识别等。因此，如何在小样本甚至单样本的情况下进行行为识别是模式识别和多媒体社区中一个重要而又具有挑战性的问题。

对于人类来说，我们并不需要那么多的训练数据来学习识别一个行为，例如，我们在看过一次投篮之后，就可以精准地识别出别的投篮动作。基于此，研究者们提出了小样本识别问题，就是在只有一个训练样本的情况下，模型要有对测试样本进行分类的能力。通常，研究者们把有大量训练样本的类称为可见类，把只有单例训练样本的类称为不可见类，小样本识别是在不可见类上进行测试的。

由于训练样本非常少，普通的深度网络分类方法不能直接在小样本识别中使用。研究人员首先使用概率生成式的方法来为每一个类别里的样本建模，用每个类别产生测试样本的概率来为测试样本分类；随后这两年里，涌现了大批的使用深度学习解决这一问题的方法，例如Brenden提出使用Memory Augment网络来处理手写体识别中的小样本识别问题，Vinyals提出使用Matching Network(匹配网络)来处理图片识别中的小样本识别问题，但是，小样本识别任然是一个未攻克的领域。

在小样本视频行为识别领域，有的研究者提出使用深度学习来解决小样本视频行为识别问题，例如Kim提出使用匹配网络加长短时记忆网络来解决小样本识别问题，而且这可能是唯一用深度学习做的工作；有的提出使用传统概率生成式的方法来解决这一问题，例如Rodriguez提出使用隐马尔科夫模型加混合高斯模型在固定摄像机的情景下进行小样本行为识别；还有的提出使用迁移学习在可见类与不可见类之间做知识的迁移，但是效果并不好，而且几乎没有使用深度学习来做的。而且，相比于图片领域，处于视频领域的小样本行为识别更加困难。

首先，视频的内部差别要远大于图片。由于时域上的多样性，同一个视频不同帧间就有巨大的差别，由此视频类内差距可能大于类间差距，不利于模型分类，因此，我们使用帧间距离学习来解决这一问题。其次，视频需要整合时序信息，需要对提取的帧进行选择，选取的帧的质量很大程度上影响了分类的准确率。考虑到可见类仍有许多信息可以使用，我们使用层级实时记忆网络来解决这个问题。

发明内容

本发明的目的是通过以下技术方案实现的。

为了解决上述问题，本发明提供了一种小样本视频识别方法，基于深度神经网络与层级实时记忆网络，包括如下步骤：

S1，使用深度神经网络在可见类视频上进行预训练；

S2，使用预训练得到的模型与可见类视频对层级实时记忆网络进行训练，使层级实时记忆网络能够在不可见类上进行重要程度的预测；

S3，使用S1预训练得到的模型，在不可见类上对小样本进行距离学习，增大样本的类间距离，缩小样本的类内距离；

S4，使用S2训练得到的层级实时记忆网络对测试视频选帧；

S5，使用S3距离学习得到的模型在S4选出来的帧上做分类任务。

优选的，所述使用深度神经网络在可见类视频上进行预训练的方法包括使用匹配网络在可见类上采样的支撑集与目标视频上进行预训练。

优选的，使用预训练得到的模型与可见类视频对层级实时记忆网络进行训练具体为：使用预训练得到的模型对输入图片进行稀疏编码，编码得到的结果作为层级实时记忆网络的输入；随机选择可见类上的部分视频，打乱顺序后，将每个视频所有帧经过编码后送入层级实时记忆网络，迭代若干次后该层级实时记忆网络即可对不可见类视频进行重要程度预测。

优选的，使用预训练得到的模型，在不可见类上对小样本进行距离学习，具体为：在不可见类上采样K个样本，分别属于K个类，再在K个类中采样一个未在之前K个样本中出现过的测试视频；每次迭代时从这K个样本中采样出若干帧，这些帧属于同一视频，再采样若干帧属于不同于此视频的另外的视频，随后使用距离学习的方法，减小属于同一视频的帧的距离，增大属于不同视频的帧的距离。

优选的，使用S2训练得到的层级实时记忆网络对测试视频选帧，具体为：将测试视频输入训练好的层级实时记忆网络，按顺序输入每一帧的特征，得到层级实时记忆网络对每一帧的异常预测值，取异常预测值最高的帧，作为候选帧。

优选的，使用S3距离学习得到的模型在S4选出来的帧上做分类任务，具体为：根据S4选出来的候选帧，在其后方采样若干帧，对每个视频采样得到的该若干帧分别提取特征，将特征融合后，计算特征之间的距离，由此来判断S3步骤中采样得到的测试视频属于K个类中的哪一类。

优选的，所述预训练时，每个视频均采样一帧来提取特征；所述预训练迭代若干次后，使用性能最好的模型。

优选的，所述预训练得到的模型为每张图片编码时，使用预训练得到的模型提取每张图片的特征，将每张图片的特征按照每个维度的数值大小从大到小排序，使用每张图片特征的前若干维的位置，将该前若干维的数值设置为1，将其余维度的数值设置为0，以保持其稀疏性。

优选的，在不可见类上进行距离学习时，记属于同一视频的两帧分别为z^a与z^p，记不属于同一视频的帧为Zⁿ，则距离学习具体为最小化如下所示的损失函数：

其中，N为采样得到的Z^a、z^p、zⁿ三元组的总数，f_w为提取特征的深度网络，||·||₂表示欧氏距离，β是预先设定好的间隔常数，P()表示z^p与zⁿ出现的概率，表示为：

其中，func1()表示距离函数，包括余弦距离。

优选的，所述特征融合后的特征f表示为：

其中，N为需要融合的特征总数。

优选的，所述层级实时记忆网络的总细胞柱数为远大于维度数值设置为1的维度数量，每个细胞柱中的细胞数大于1。

本发明至少具有以下有益效果：

通过基于深度神经网络的距离学习，此方法可以增大属于同一类视频的帧内特征距离，同时减小不同类视频的帧间特征距离，由此减小视频时域差异造成的性能下降；通过层级实时记忆网络使用在可见类视频特征上进行学习，此方法可以使用异常检测的方式在不可见类视频帧中选择最具有代表性的帧，从而提升性能；综上所述，通过本发明实施例提供的方法，能够基于深度神经网络距离学习与层级实时记忆网络，解决真实识别场景中小样本甚至单样本条件下的视频识别问题。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，并不能限制本发明。

附图说明

通过阅读下文优选实施方式的详细描述，各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的，而并不认为是对本发明的限制。而且在整个附图中，用相同的参考符号表示相同的部件。在附图中：

图1为本发明实施例中基于深度神经网络与层级实时记忆网络的视频识别模型的示意图；

图2为本发明实施例中使用的层级实时记忆网络示意图。

具体实施方式

下面将参照附图更详细地描述本公开的示例性实施方式。虽然附图中显示了本公开的示例性实施方式，然而应当理解，可以以各种形式实现本公开而不应被这里阐述的实施方式所限制。相反，提供这些实施方式是为了能够更透彻地理解本公开，并且能够将本公开的范围完整的传达给本领域的技术人员。

本发明实施例提供的基于深度神经网络与层级实时记忆网络的视频识别方法示意图，如图1所示：

图1分为三个部分：a)可见类训练阶段，b)不可见类训练阶段以及c)测试阶段，下面将逐一介绍这三个阶段。

a)可见类训练阶段

本方法首先进行的是可见类训练阶段，以匹配网络进行的预训练为实施例进行本阶段的介绍，应当注意的是，将匹配网络替换成别的模型进行预训练是同样可行的，匹配网络进行的预训练只是本申请的一部分实施例。

如图1所示，首先，本方法在每类拥有大量视频训练视频的可见类上，采样出一个支撑集S，该支撑集包含K个视频，可表示为

，其中x_i表示支撑集中的第i个视频，y_i表示其对应的标签，每个视频分别属于一类，总共有K个类，再在这K个类中采样出不在支撑集中的一个测试视频，可以表示为

其中T表示测试视频集合，

表示采样出的测试视频。接着，对于每个视频，本方法抽取一帧作为该视频的代表，使用深度神经网络提取特征，需要注意的是，提取K个支撑集视频与1个测试视频的深度神经网络共享参数。将得到的特征送入注意力核中进行比较，根据比较结果得到每个标签的概率，从而判断测试视频属于支撑集中的哪一个类。上述过程可以形式化表述为如下公式：

其中，

表示对于测试视频的预测标签，c()表示余弦相似度，f_w表示深度神经网络，

表示在给定支撑集S的情况下测试视频为标签

的概率。通过根据测试视频的真实标签对比，最大化真实标签出现的概率，本方法即可完成一次迭代。

将上述过程重复大约数千次，即可获得在可见类视频上训练得到的模型。

接下来本方法需要使用可见类视频上训练得到的模型训练层级实时记忆网络。首先，本方法在可见类视频上随机在每类中采样一部分视频，作为层级实时记忆网络的训练数据。提取这些视频的每一帧，使用可见类视频上训练得到的模型为每一帧提取特征。将每一帧的特征按照每个维度的数值大小进行排序，取每一帧特征的前40维，将这些维度的数值设置为1，其余维度的数值设置为0，即可得到每一帧的稀疏编码。将这些视频打乱顺序(保持每个视频内部每一帧的顺序不变)，将这些特征送入层级实时记忆网络，即可完成一次迭代。重复40次迭代(每次迭代均需打乱视频顺序)，即可得到在可见类视频上训练好的层级实时记忆网络模型。

b)不可见类训练阶段

接下来，本方法需要在不可见类视频上进行训练与测试。首先，本方法在不可见类上采样得到一个含有K个训练视频的支撑集，分别属于K个类；再在这K个类中采样得到一个不在支撑集中的测试视频。需要注意的是，本阶段中的K与可见类训练阶段中的K是相等的。

这K个训练视频与一个测试视频将作为不可见类训练阶段与测试阶段的一次迭代所使用的视频。

接下来，本方法需要在K个视频中选择一个类，在这个类中采样得到两帧，分别记为z^a与z^p，再在不同的类(包括可见类)中采样一帧，记为zⁿ，则不可见类上的距离学习可表示为最小化如下所示的损失函数：

其中，N为采样得到的z^a、z^p、zⁿ三元组的总数，f_w为提取特征的深度网络，使用的参数是在可见类上训练得到的参数，||·||₂表示欧氏距离，β是预先设定好的间隔常数，P()表示zⁿ与zⁿ出现的概率，可以表示为：

其中，func1()表示距离函数，包括但不限于余弦距离。

在距离学习之后，同一类的两帧的特征距离会减小，而不同类的两帧的特征距离会增大，由此，本方法可以处理因为时域上的差异造成的性能下降。经过10～20次迭代，即可得到在这K个支撑集视频上训练得到的模型，这一个模型将在这组支撑集与测试视频的测试中用到。

c)测试阶段

测试阶段分为层级实时记忆网络提取候选帧与深度神经网络提取特征两个部分。

首先，将不可见类训练阶段中的采样得到的K个训练视频与一个测试视频的每一帧都提取出来，使用可见类训练阶段中使用的编码方法，为每一帧进行编码。随后分别将每个视频的所有帧按顺序送入可见类训练阶段中训练得到的层级实时记忆网络中，让层级实时记忆网络为每一帧根据时序关系做异常预测，从而得到每一帧的异常值。选择每个视频中异常值最大的帧作为候选帧。

随后，在每个视频上采样。以每个视频中选择的候选帧作为起始帧，在每个视频时序上后面的帧中等间隔采样数帧，将这些帧作为每个视频的代表。再使用不可见类训练阶段中训练得到的模型，为这些帧分别提取特征，使用如下公式将这些特征进行融合：

其中，f为提取的特征，N为需要融合的特征总数，等于采样得到的帧数。由此，本方法得到了这K+1个视频的特征。最后，类似于可见类训练阶段中提供的测试视频标签产生方法，使用这K+1个特征产生测试视频的标签，根据测试视频的真实标签，即可得到这一次测试的准确率。

将上述不可见类训练阶段与测试阶段重复上千次，即可得到最终的性能。

本发明中使用到的层级实时记忆网络，如图2所示：

层级实时记忆网络分为3个部分：a)空间池化，b)时间池化与c)预测，接下来将结合上述的训练过程与测试过程详细介绍这三个部分。

层级实时记忆网络包含许多细胞柱，每个细胞柱中包含许多的细胞，不同细胞柱中的细胞两两之间初始状态下具有随机的连接。

首先使用可见类训练得到的深度神经网络模型为输入图像进行稀疏编码，激活层级实时记忆网络相应位置的细胞柱，本实施方案使用到的细胞柱数量为2048，由于在可见类训练阶段中设置为1的维度数量为40，因此这里只会有40个柱被激活，可以保证稀疏性。

随后，根据细胞间的连接，每个细胞柱会选择一部分细胞继续保持激活状态；训练状态下，两两激活的细胞中间的连接会被强化，一段激活，而另一端未被激活的细胞之间的连接会被削弱。

最后，与激活细胞相连的细胞会进入预测状态。由于输入的图像在时序上具有前后关系，因此时刻t-1的预测状态的细胞，可以看作时刻t的激活细胞柱的预测，而未被预测到的激活细胞柱的数目就可以表征这一帧的异常值，也就是这一帧的重要性。上述过程可以表示为：

其中score表示帧的异常预测值，A表示激活的细胞柱，P表示预测的细胞柱，||表示数量。

由此，即可在可见类视频上对层级实时记忆网络进行训练，在不可见类视频上使用层级实时记忆网络进行候选帧的提取。

关于上述实施例中的装置，其中各个模块执行操作的具体方式已经在有关该方法的实施例中进行了详细描述，此处将不做详细阐述说明。

本领域内的技术人员应明白，本发明的实施例可提供为方法、系统、或计算机程序产品。因此，本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

以上所述仅为本申请的实施例而已，并不用于限制本申请。对于本领域技术人员来说，本申请可以有各种更改和变化。凡在本申请的精神和原理之内所作的任何修改、等同替换、改进等，均应包含在本申请的权利要求范围之内。

Claims

1.一种小样本视频识别方法，基于深度神经网络与层级实时记忆网络，其特征在于，包括如下步骤：

S1，使用深度神经网络在可见类视频上进行预训练；

S4，使用S2训练得到的层级实时记忆网络对测试视频选帧；

2.如权利要求1所述的方法，其特征在于，

所述使用深度神经网络在可见类视频上进行预训练的方法包括使用匹配网络在可见类上采样的支撑集与目标视频上进行预训练。

3.如权利要求1所述的方法，其特征在于，

使用预训练得到的模型与可见类视频对层级实时记忆网络进行训练具体为：使用预训练得到的模型对输入图片进行稀疏编码，编码得到的结果作为层级实时记忆网络的输入；在可见类视频上在每类中随机采样一部分视频，打乱顺序后，将每个视频所有帧经过编码后送入层级实时记忆网络，迭代若干次后该层级实时记忆网络即可对不可见类视频进行重要程度预测。

4.如权利要求1所述的方法，其特征在于，

使用预训练得到的模型，在不可见类上对小样本进行距离学习，具体为：在不可见类上采样K个样本，分别属于K个类，再在K个类中采样一个未在之前K个样本中出现过的测试视频；每次迭代时从这K个样本中采样出若干帧，这些帧属于同一视频，再采样若干帧属于不同于此视频的另外的视频，随后使用距离学习的方法，减小属于同一视频的帧的距离，增大属于不同视频的帧的距离。

5.如权利要求4所述的方法，其特征在于，

使用S2训练得到的层级实时记忆网络对测试视频选帧，具体为：将测试视频输入训练好的层级实时记忆网络，按顺序输入每一帧的特征，得到层级实时记忆网络对每一帧的异常预测值，取异常预测值最高的帧，作为候选帧。

6.如权利要求5所述的方法，其特征在于，

使用S3距离学习得到的模型在S4选出来的帧上做分类任务，具体为：根据S4选出来的候选帧，在其后方采样若干帧，对每个视频采样得到的该若干帧分别提取特征，将特征融合后，计算特征之间的距离，由此来判断S3步骤中采样得到的测试视频属于K个类中的哪一类。

7.如权利要求2所述的方法，其特征在于，

所述预训练时，每个视频均采样一帧来提取特征；所述预训练迭代若干次后，使用性能最好的模型。

8.如权利要求3所述的方法，其特征在于，

所述预训练得到的模型为每张图片编码时，使用预训练得到的模型提取每张图片的特征，将每张图片的特征按照每个维度的数值大小从大到小排序，使用每张图片特征的前若干维的位置，将该前若干维的数值设置为1，将其余维度的数值设置为0，以保持其稀疏性。

9.如权利要求4所述的方法，其特征在于，

在不可见类上进行距离学习时，记属于同一视频的两帧分别为z^a与z^p，记不属于同一视频的帧为zⁿ，则距离学习具体为最小化如下所示的损失函数：

其中，N为采样得到的z^a、z^p、zⁿ三元总数，f_w为提取特征的深度网络，||·||₂表示欧氏距离，β是预先设定好的间隔常数，P()表示z^p与zⁿ出现的概率，表示为：

其中，func1()表示距离函数。

10.如权利要求6所述的方法，其特征在于，

所述特征融合后的特征f表示为：

其中，N为需要融合的特征总数。

11.如权利要求8所述的方法，其特征在于，

所述层级实时记忆网络的总细胞柱数为远大于维度数值设置为1的维度数量，每个细胞柱中的细胞数大于1。