CN114743133A

CN114743133A - 一种轻量化的小样本视频分类识别方法及系统

Info

Publication number: CN114743133A
Application number: CN202210284085.5A
Authority: CN
Inventors: 黄健; 潘崇煜; 张中杰; 刘权; 龚建兴
Original assignee: National University of Defense Technology
Current assignee: National University of Defense Technology
Priority date: 2022-03-22
Filing date: 2022-03-22
Publication date: 2022-07-12

Abstract

本发明公开了一种轻量化的小样本视频分类识别方法及系统，本发明包括对输入的目标视频进行帧提取，对得到的各幅关键帧图像进行帧图像特征编码，将得到的具有时序信息的多个关键帧特征向量进行池化归纳得到固定维度的特征表征向量并通过预先完成训练的支持向量机分类模型得到目标视频所对应的分类识别结果。本发明针对视频可获得优秀的分类识别性能，无需大量基类标签样本训练，可实现小样本条件下的新类别视频分类识别；在用户实际应用部署时无需采集大量标签数据进行模型参数再训练，仅需要采用该领域内较好的图像特征提取器即可快速部署、在线应用，且支持用户自定义新类别支持样本集，具备对于新类别视频的小样本学习以及可持续学习能力。

Description

一种轻量化的小样本视频分类识别方法及系统

技术领域

本发明属于人工智能领域视频分类识别与小样本学习技术，具体涉及一种轻量化的小样本视频分类识别方法及系统。

背景技术

随着高速互联网以及移动智能终端的大规模使用，视频数据已经成为社交网络及大规模情报信息收集的主要形式。对于海量的视频数据，根据内容进行视频分类识别已成为信息自动化处理的重要一环。近年来，随着深度学习及大规模算力的火热发展，基于大量标签数据训练的监督学习取得了显著成就。然而，在经济、军事、医疗等领域，大规模标签数据获取困难，人工标注费时费力，很多情况下甚至没有大量数据。因此，基于少量标签样本的小样本学习以及无需用户再训练的轻量化方法将成为深度学习走向应用的关键技术。

发明内容

本发明要解决的技术问题：针对现有技术的上述问题，提供一种轻量化的小样本视频分类识别方法及系统，本发明针对视频可获得优秀的分类识别性能，而且本发明基于关键帧图像特征层级池化的方法属于无参数模型，无需大量基类标签样本训练，基于预训练图像特征提取和无参数的层级池化归纳模块即可实现小样本条件下的新类别视频分类识别。在用户实际应用部署时，无需采集大量标签数据进行模型参数再训练，仅需要采用该领域内较好的图像特征提取器即可快速部署、在线应用，且支持用户自定义新类别支持样本集，具备对于新类别视频的小样本学习以及可持续学习能力。

为了解决上述技术问题，本发明采用的技术方案为：

一种轻量化的小样本视频分类识别方法，包括:

1)对输入的目标视频进行帧提取，得到关键帧图像；

2)分别对各幅关键帧图像进行帧图像特征编码，得到对应的关键帧特征向量；

3)将具有时序信息的多个关键帧特征向量进行池化归纳，得到固定维度的特征表征向量；

4)将所述特征表征向量通过预先完成训练的支持向量机分类模型进行分类识别，得到目标视频所对应的分类识别结果。

可选地，步骤1)包括：首先按照时间顺序一次计算输入的目标视频中每一帧图像与上一帧图像之间的帧间差分，计算各个帧间差分的平均帧间差分强度，得到平均帧间差分强度序列；然后将平均帧间差分强度序列进行排序，选择排序靠前的指定数量个平均帧间差分强度所对应的帧图像作为得到的关键帧图像。

可选地，步骤2)中对各幅关键帧图像进行帧图像特征编码具体是指将对各幅关键帧图像分别输入预训练的卷积神经网络，从而得到对应的关键帧特征向量。

可选地，所述卷积神经网络包括依次相连的输入层、降采样层、卷积层、降采样层、全连接层和输出层。

可选地，步骤3)包括：

3.1)针对输入的n个关键帧特征向量构成的向量序列，定义其中l个连续的多个关键帧特征向量构成一个局部窗口，且有l小于n，通过将局部窗口在所述向量序列上以指定的步长s进行滑动，从而形成m个的滑动窗口；

3.2)分别对m个滑动窗口进行局部最大池化操作，共得到m个最大池化层向量；

3.3)将m个最大池化层向量进行全局平均池化操作，得到固定维度的特征表征向量。

可选地，步骤3.2)中进行全局平均池化操作的函数表达式为：

上式中，

表示m个滑动窗口中第k个滑动窗口对应的最大池化层向量，v_i表示n个关键帧特征向量中的第i个关键帧特征向量，s为滑动窗口的步长，l为滑动窗口的大小，1+(k-1)s、l+(k-1)s分别为第k个滑动窗口的第一个和最后一个关键帧特征向量的序号。

可选地，步骤3.3)中进行全局平均池化操作的函数表达式为：

上式中，v^mean表示固定维度的特征表征向量，

表示m个滑动窗口中第i个滑动窗口对应的最大池化层向量，m为滑动窗口的总数量。

可选地，步骤4)之前还包括建立并训练支持向量机分类模型，且训练支持向量机分类模型包括：

S1)确定包含批量视频样本及其对应类别标签的支持样本集D^support，所述支持样本集D^support包括对应M个未知类别中每一个类别的N个视频样本；

S2)分别对支持样本集D^support中每一个视频样本提取固定维度的特征表征向量：对该视频样本进行帧提取，得到关键帧图像，分别对该视频样本的各幅关键帧图像进行帧图像特征编码，得到对应的关键帧特征向量，将多个关键帧特征向量进行池化归纳，得到该视频样本的固定维度的特征表征向量；

S3)根据支持样本集D^support中的视频样本及其特征表征向量训练支持向量机分类模型，从而得到完成训练后的支持向量机分类模型。

此外，本发明还提供一种轻量化的小样本视频分类识别系统，包括相互连接的微处理器和存储器，该微处理器被编程或配置以执行所述轻量化的小样本视频分类识别方法的步骤。

此外，本发明还提供一种计算机可读存储介质，该计算机可读存储介质中存储有计算机程序，该计算机程序用于被微处理器执行以实施所述轻量化的小样本视频分类识别方法的步骤。

和现有技术相比，本发明主要具有下述优点：

1、本发明包括对输入的目标视频进行帧提取，得到关键帧图像；分别对各幅关键帧图像进行帧图像特征编码，得到对应的关键帧特征向量；将多个关键帧特征向量进行池化归纳，得到固定维度的特征表征向量；将所述特征表征向量通过预先完成训练的支持向量机分类模型进行分类识别，得到目标视频所对应的分类识别结果，本发明专门针对视频数据，以单个视频样本作为输入，通过关键帧抽取以及层级池化归纳进行视频样本特征编码，进而开展小样本分类，具有很强的实用性，能够获得优秀的分类识别性能。

2、本发明包括将具有时序信息的多个关键帧特征向量进行池化归纳，得到固定维度的特征表征向量，池化归纳以具有时序信息的视频帧序列特征为输入，通过层级池化形成该视频样本的特征表征向量，相当于视频特征编码器作用，可实现无参数的视频特征表征。

3、本发明所提的轻量化小样本视频识别方法为基于关键帧图像特征层级池化的方法，其中的关键帧抽取、层级池化归纳以及SVM分类器都属于无参数模型。与常规包含大量待训练参数、需要在大量基类标签样本上训练该参数的小样本学习方法不同，本发明方法中的关键帧抽取、层级池化归纳以及SVM分类器在应用过程中无需大量基类训练集进行参数训练，可仅在少量标签样本支持下，对于新类别视频进行实时在线分类，分类性能和实时性较好，且具有一定的泛化能力和可持续学习能力。在用户实际应用部署时，无需采集大量标签数据进行模型参数再训练，仅需要采用该领域内较好的图像特征提取器即可快速部署、在线应用，且支持用户自定义新类别支持样本集，具备对于新类别的目标视频的小样本学习以及可持续学习能力。

附图说明

图1为本发明实施例方法的基本流程示意图。

图2为本发明实施例中卷积神经网络的结构示意图。

图3为本发明实施例中层级池化归纳模块的结构示意图。

图4为本发明实施例方法和现有方法的测试结果对比示意图。

具体实施方式

如图1所示，本实施例轻量化的小样本视频分类识别方法包括:

1)对输入的目标视频x^q进行帧提取，得到关键帧图像；

4)将所述特征表征向量通过预先完成训练的支持向量机(Support VectorMachine,SVM)分类模型Ω_SVM进行分类识别(SVM分类)，得到目标视频x^q所对应的分类识别结果y^q。

关键帧图像是指视频帧中用于表征视频内容显著性信息的关键帧图像。本实施例中步骤1)包括：首先按照时间顺序一次计算输入的目标视频中每一帧图像与上一帧图像之间的帧间差分，计算各个帧间差分的平均帧间差分强度，得到平均帧间差分强度序列；然后将平均帧间差分强度序列进行排序，选择排序靠前的指定数量个平均帧间差分强度所对应的帧图像作为得到的关键帧图像，通过上述方式筛选仅保留平均帧间差分强度较大的帧图像，通过平均帧间差分强度较大的帧图像，可有效表征视频内容显著性信息，减少视频处理的计算量，可有效提高对视频的处理效率。

对各幅关键帧图像进行帧图像特征编码可根据需要采用所需的编码方式，鉴于卷积神经网络在当前计算机视觉领域的成功应用，本实施例采用在大规模数据集上预训练的卷积神经网络Φ_CNN进行关键帧图像特征编码。具体地，本实施例步骤2)中对各幅关键帧图像进行帧图像特征编码具体是指将对各幅关键帧图像分别输入预训练的卷积神经网络(Convolutional Neural Network,CNN)Φ_CNN，从而得到对应的关键帧特征向量。卷积神经网络可根据需要采用ImageNet、Pascal VOC、COCO等大规模开源数据集上预训练的Alexnet、VGGNet、ResNet等深度卷积网络。作为一种可选的实施方式，如图2所示，本实施例中采用的卷积神经网络包括依次相连的输入层、降采样层、卷积层、降采样层、全连接层和输出层，通过上述结构，通过局部卷积、降采样池化、全连接等操作对图像数据进行特征抽取，形成高维的向量表征，具有较好的图像特征表征能力。

本实施例步骤3)中将多个关键帧特征向量进行池化归纳是指采用层级池化归纳模块进行关键帧特征序列化以得到固定维度的特征表征向量，采用图3所示的层级池化归纳模型

进行关键帧特征序列化。具体地，如图3所示，本实施例中的步骤3)包括：

输入的n个关键帧特征向量构成的向量序列可表示为：

v₁,v₂,…,v_n,

其中，n为关键帧数量。

定义其中l个连续的多个关键帧特征向量构成一个局部窗口，可表示为：

v_k:k+l-1＝(v_k,v_k+1,…,v_k+l-1)

连续向量的个数l为窗口尺寸，局部窗口在向量序列上以一定的步长s进行滑动，构成一系列滑动窗口v_1:l,v_1+s:l+s,v_1+2s:l+2s,…,v_n-l+1:n。

如图3所示，通过在一系列滑动窗口上进行最大池化操作，长度为n的关键帧序列向量被转化为m个最大池化层向量v₁ ^max,v₂ ^max,…,v_m ^max，其中m满足：

上式中，n为向量序列中关键帧特征向量的数量，s为滑动窗口的步长，l为滑动窗口的大小，

表示取整。

本实施例中，步骤3.2)中进行全局平均池化操作的函数表达式为：

上式中，

经过局部最大池化，关键帧序列向量被转化为中间层向量v₁ ^max,v₂ ^max,…,v_m ^max，这些向量中包含着局部特征信息，全局池化是在中间层向量上进行全局平均池化操作，如图3所示，经过全局平均池化操作，中间层向量被归纳为最终的表征向量v^mean,即：目标视频的固定维度的特征表征向量。本实施例中，步骤3.3)中进行全局平均池化操作的函数表达式为：

上式中，v^mean表示固定维度的特征表征向量，v_i ^max表示m个滑动窗口中第i个滑动窗口对应的最大池化层向量，m为滑动窗口的总数量。

通过关键帧序列特征编码和池化归纳，每一条视频样本数据被编码为固定维度的特征表征向量。最终，通过步骤4)将特征表征向量通过预先完成训练的支持向量机分类模型(Support Vector Machine,SVM)Ω_SVM进行分类识别，即可得到目标视频所对应的分类识别结果。

本实施例中通过构建支持向量机分类模型Ω_SVM，基于少量支持样本的特征向量进行支持向量机分类模型的模型参数即可完成训练，随后即可用于对待测试样本进行在线分类识别。本实施例中，小样本视频分类识别采用当前小样本学习领域常用的M-way N-shotQ-query实验方案：即针对待识别的M个未知类别(M-way)，首先从每个类别中选取N个视频样本(N-shot)，构成支持样本集D^support，可表示为：

其中，

为第i个视频样本，

为第i个视频样本

的类别标签}；随后在这些类别中选取其余(例如每类Q个，即Q-query)待识别样本进行分类识别。具体地，步骤4)之前还包括建立并训练支持向量机分类模型，且训练支持向量机分类模型包括：

与前文对目标视频x^q的特征提取方法完全相同，对支持样本集D^support中的每个视频样本

以及待测试样本x^q，采用帧间差分方法提取每个视频样本的关键帧，分别记作x_i,1 ^s,x_i,2 ^s,…,x_i,n ^s和x₁ ^q,x₂ ^q,…,x_n ^q，其中，n为每个视频提取的关键帧数量；对于每一张关键帧图像，采用预训练的卷积神经网络模型提取图像特征，即v_i,1 ^s,v_i,2 ^s,…,v_i,n ^s和v₁ ^q,v₂ ^q,…,v_n ^q，其中，v＝Φ_CNN(x)为任一图像x使用卷积神经网络Φ_CNN提取的高维特征向量；对于每个视频样本的关键帧图像特征向量序列，采用层级池化归纳模型计算该序列样本的池化归纳向量，即

和v^q，其中，

分别为采用滑动窗口尺寸为l，步长为s的层级池化模型

对关键帧图像序列(v_i,1 ^s,v_i,2 ^s,…,v_i,n ^s)和(v₁ ^q,v₂ ^q,…,v_n ^q)进行池化归纳后的视频样本表征向量。

S3)根据支持样本集D^support中的视频样本及其特征表征向量训练支持向量机分类模型Ω_SVM，从而得到完成训练后的支持向量机分类模型。

构造支持向量机分类模型Ω_SVM后，基于支持集视频样本表征向量及其标签对

训练该支持向量机模型参数θ_SVM，从而得到完成训练后的支持向量机分类模型Ω_SVM。最终，采用训练好的支持向量机模型Ω_SVM即可对目标视频x^q进行分类识别得到目标视频x^q所对应的分类识别结果y^q，可表示为y^q＝Ω_SVM(v^q；θ_SVM)。

为了验证本实施例轻量化的小样本视频分类识别方法的有效性，本算例选取当前视频分类识别领域开源数据集HMDB51和UCF-101开展大规模对比实验。其中，实验数据集的类别数、样本数以及分辨率等统计信息如表1所示。

表1：小样本视频分类识别数据集。

数据集	样本数	类别数	分辨率
				HMDB51	6849	51	320*240
UCF-101	13320	101	320*240

在小样本视频分类识别算例中，分别采用5-way 1-shot以及5-way 5-shot的实验设置开展性能测试。其中，在视频关键帧提取过程中选取了平均帧间差分强度最高的30帧作为该样本关键帧图像；对于关键帧图像特征编码，使用在ImageNet数据集上预训练的Alexnet卷积神经网络进行图像特征提取，使用该预训练网络第7层全连接层输出的4096维向量作为关键帧图像特征向量。作为对照实验，本算例选取了其余几种常见的池化归纳模型作为对比，包括常用的求和池化，平均池化，最大池化，以及原始的层级池化方法。为了确保实验结果准确性，采用大量随机实验统计结果，即每次实验随机选取3000组批数据(每组批数据包含5-way 1-shot 15-query或5-way 5-shot 15-query个样本)，最终实验结果在3000组随机批数据上统计得出，包括平均识别准确率及其95％置信区间。实验统计结果如表2以及图4所示。

表2：多种池化方法下小样本视频分类识别准确率及其95％置信区间(％)。

从表2和图4可以看出，本实施例所提轻量化的小样本视频分类方法在所有对比方法(包括在HMDB51和UCF-101数据集上的5-way 1-shot和5-way 5-shot小样本分类识别实验)中取得了最佳性能。本实施例所提轻量化的小样本视频分类方法能够在少量标签样本条件下实现新类别视频在线分类识别，且分类识别准确率高于当前几种典型算法，具备较好的计算实时性和泛化能力。

总而言之，本实施例方法的轻量化是指本方法可在待应用领域内实现即插即用，无需用户在特定领域内采集大量标签数据进行模型再训练，可直接进行视频分类预测；小样本是指针对用户待识别的视频内容类别，仅需提供少量标签样本即可进行新类别视频在线分类识别，支持新类别样本在线学习和可持续学习。特别地，本实施例所提的轻量化小样本视频识别方法为基于关键帧图像特征层级池化的方法，属于无参数模型。与常规包含大量待训练参数、需要在大量基类标签样本上训练该参数的小样本学习方法不同，本实施例方法无需大量基类标签样本训练，基于预训练图像特征提取和无参数的层级池化归纳模块即可实现小样本条件下的新类别视频分类识别。在用户实际应用部署时，无需采集大量标签数据进行模型参数再训练，仅需要采用该领域内较好的图像特征提取器即可快速部署、在线应用，且支持用户自定义新类别支持样本集，具备对于新类别视频的小样本学习以及可持续学习能力。

此外，本实施例还提供一种轻量化的小样本视频分类识别系统，包括相互连接的微处理器和存储器，该微处理器被编程或配置以执行前述轻量化的小样本视频分类识别方法的步骤。

此外，本实施例还提供一种计算机可读存储介质，该计算机可读存储介质中存储有计算机程序，该计算机程序用于被微处理器执行以实施前述轻量化的小样本视频分类识别方法的步骤.

本领域内的技术人员应明白，本申请的实施例可提供为方法、系统、或计算机程序产品。因此，本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可读存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

以上所述仅是本发明的优选实施方式，本发明的保护范围并不仅局限于上述实施例，凡属于本发明思路下的技术方案均属于本发明的保护范围。应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理前提下的若干改进和润饰，这些改进和润饰也应视为本发明的保护范围。

Claims

1.一种轻量化的小样本视频分类识别方法，其特征在于，包括:

1)对输入的目标视频进行帧提取，得到关键帧图像；

2.根据权利要求1所述的轻量化的小样本视频分类识别方法，其特征在于，步骤1)包括：首先按照时间顺序一次计算输入的目标视频中每一帧图像与上一帧图像之间的帧间差分，计算各个帧间差分的平均帧间差分强度，得到平均帧间差分强度序列；然后将平均帧间差分强度序列进行排序，选择排序靠前的指定数量个平均帧间差分强度所对应的帧图像作为得到的关键帧图像。

3.根据权利要求1所述的轻量化的小样本视频分类识别方法，其特征在于，步骤2)中对各幅关键帧图像进行帧图像特征编码具体是指将对各幅关键帧图像分别输入预训练的卷积神经网络，从而得到对应的关键帧特征向量。

4.根据权利要求3所述的轻量化的小样本视频分类识别方法，其特征在于，所述卷积神经网络包括依次相连的输入层、降采样层、卷积层、降采样层、全连接层和输出层。

5.根据权利要求1所述的轻量化的小样本视频分类识别方法，其特征在于，步骤3)包括：

6.根据权利要求5所述的轻量化的小样本视频分类识别方法，其特征在于，步骤3.2)中进行全局平均池化操作的函数表达式为：

上式中，v_k ^max表示m个滑动窗口中第k个滑动窗口对应的最大池化层向量，v_i表示n个关键帧特征向量中的第i个关键帧特征向量，s为滑动窗口的步长，l为滑动窗口的大小，1+(k-1)s、l+(k-1)s分别为第k个滑动窗口的第一个和最后一个关键帧特征向量的序号。

7.根据权利要求5所述的轻量化的小样本视频分类识别方法，其特征在于，步骤3.3)中进行全局平均池化操作的函数表达式为：

8.根据权利要求1所述的轻量化的小样本视频分类识别方法，其特征在于，步骤4)之前还包括建立并训练支持向量机分类模型，且训练支持向量机分类模型包括：

9.一种轻量化的小样本视频分类识别系统，包括相互连接的微处理器和存储器，其特征在于，该微处理器被编程或配置以执行权利要求1～8中任意一项所述轻量化的小样本视频分类识别方法的步骤。

10.一种计算机可读存储介质，该计算机可读存储介质中存储有计算机程序，其特征在于，该计算机程序用于被微处理器执行以实施权利要求1～8中任意一项所述轻量化的小样本视频分类识别方法的步骤。