CN112784704A

CN112784704A - 一种面向小样本视频动作分类的方法

Info

Publication number: CN112784704A
Application number: CN202110003759.5A
Authority: CN
Inventors: 张伟杰; 魏莱
Original assignee: Shanghai Maritime University
Current assignee: Shanghai Maritime University
Priority date: 2021-01-04
Filing date: 2021-01-04
Publication date: 2021-05-11

Abstract

本发明公开了一种面向小样本视频动作分类的方法，涉及视频动作分类技术领域，包括以下步骤：获取待分类视频，确定所述待分类视频中的多个视频帧，并提取所述视频帧的光流图像；对获取的光流图像进行预处理，并采用金字塔光流算法对光流图像进行迭代处理，其中包括金字塔光流算法追踪动态特征产生的光流运动，对产生光流运动的特征点进行累加，并对发生动态运动的特征点进行记录，获取光流图像集；将获取的光流图像集输入到空间卷积神经网络和时序卷积神经网络。本发明实现能够在保持视频动作类别不发生改变的情况下进行更准确的分类，不仅该方法简单有效，而且能够提高复杂场景下人物动作的识别准确率，提高了分类处理的效率以及精准度。

Description

一种面向小样本视频动作分类的方法

技术领域

本发明涉及视频动作分类技术领域，具体来说，涉及一种面向小样本视频动作分类的方法。

背景技术

随着深度学习的快速发展，计算机视觉领域的诸多任务都得到了不错的成效。视频动作识别也逐渐成为国内外研究人员专注的热点研究问题，目前已经出现了很多能够在现有视频动作识别数据集上达到较高识别度的模型，但是它们大多都依赖大量人工标注过的数据。在实际应用中，更多的是待预测的视频只有一个或者少数几个标注样本的情况。小样本视频动作识别研究的就是如何在标注数据极少的情况下让网络模型拥有快速学习视频特征表示进而进行动作识别的能力。

现有的小样本视频动作识别是用类别无交叉的训练数据去迁移到测试数据上，但相对于视频数据而言，尽管训练数据与测试数据的类别标签不同，依然很难保证测试数据中的动作片段没有出现在训练视频中。

检索中国发明专利CN 110188668B公开了一种面向小样本视频动作分类的方法，针对现有小样本视频动作分类的设定存在训练集与测试集类别交叉的问题，提出基于智能人体的小样本视频识别新模式，利用3D智能虚拟人体与虚拟环境交互的方式生成相同动作的大量虚拟视频，为深度神经网络提供训练样本；此外，还提出基于视频段替换的数据增强方法，通过用语义相近的视频片段替换原视频中某个片段的方法扩充有限的数据集。实验表明该方法对于小样本视频动作识别能起到很大的促进作用，且具有较好的鲁棒性与较强的算法可移植性。但其仍存在一定局限性，适应性较差，而且对于源数据未进行处理，精准度较低。

针对相关技术中的问题，目前尚未提出有效的解决方案。

发明内容

针对相关技术中的问题，本发明提出一种面向小样本视频动作分类的方法，以克服现有相关技术所存在的上述技术问题。

本发明的技术方案是这样实现的：

一种面向小样本视频动作分类的方法，包括以下步骤：

步骤S1，获取待分类视频，确定所述待分类视频中的多个视频帧，并提取所述视频帧的光流图像；

步骤S2，对获取的光流图像进行预处理，并采用金字塔光流算法对光流图像进行迭代处理，其中包括金字塔光流算法追踪动态特征产生的光流运动，对产生光流运动的特征点进行累加，并对发生动态运动的特征点进行记录，获取光流图像集；

步骤S3，将获取的光流图像集输入到空间卷积神经网络和时序卷积神经网络，得到所述光流图像集对应的光流特征信息和对应的空间特征信息，其中包括选择一帧视频帧作为起始帧，提取所述起始帧后的连续m帧视频帧x方向和y方向的光流图像，并与所述起始帧的RGB图像作为一个样本；

步骤S4，基于所述光流特征信息和所述空间特征信息，输入至视频动作分类模型，确定所述待分类视频对应的分类类别信息。

其中，步骤所述光流图像进行预处理，包括以下步骤：

预先进行光流图像灰度化处理，其中包括标定第一帧和第二帧的运动向量对应关系；

获取第一帧和第二帧的像素的相对深度的深度图值和图像的感知图的感知图值；

基于深度图值和感知图值获取第一帧的增强映射策略；

将获取的增强映射策略再映射第二帧。

其中，所述金字塔光流算法迭代算子最大迭代次数10，收敛阀值0.2，金字塔窗口大小5x5。

其中，所述空间卷积神经网络和所述时序卷积神经网络使用VGG16模型，其中，所述VGG16模型，包括：第一组卷积层及其参数2,64,3,1,1、最大池化层；第二组卷积层及其参数2,128,3,1,1、最大池化层；第三组卷积层及其参数3,256,3,1,1、最大池化层；第四组卷积层及其参数3,512,3,1,1、最大池化层；第五组卷积层及其参数3,512,3,1,1，每组卷积层参数的数字依次代表：该组卷积层的数量、卷积核的数量、卷积核的空间尺度、卷积核移动的空间步长以及该卷积层的输入边缘填充尺度，每组卷积层中的最大池化层的参数为2x2，且所述最高卷积层为所述第五组卷积层中的第3层卷积层。

其中，步骤所述视频动作分类模型，包括以下步骤：

搭建目标神经网络模型作为源参数模型；

获取多个带有标签的训练视频中的训练图像帧，并获取训练图像帧的特征向量；

对多个训练视频的训练图像帧的特征向量进行分布匹配，得到多个训练图像帧集合；

将获取训练图像帧集合对搭建目标神经网络模型进行训练，获得视频动作分类模型。

本发明的有益效果：

本发明一种面向小样本视频动作分类的方法，通过获取待分类视频，确定所述待分类视频中的多个视频帧，并提取所述视频帧的光流图像，对获取的光流图像进行预处理，并采用金字塔光流算法对光流图像进行迭代处理，其中包括金字塔光流算法追踪动态特征产生的光流运动，对产生光流运动的特征点进行累加，并对发生动态运动的特征点进行记录，获取光流图像集；将获取的光流图像集输入到空间卷积神经网络和时序卷积神经网络，得到所述光流图像集对应的光流特征信息的对应的空间特征信息，其中包括选择一帧视频帧作为起始帧，提取所述起始帧后的连续m帧视频帧x方向和y方向的光流图像，并与所述起始帧的RGB图像作为一个样本，基于所述光流特征信息和所述空间特征信息，输入至视频动作分类模型，确定所述待分类视频对应的分类类别信息，实现能够在保持视频动作类别不发生改变的情况下进行更准确的分类，不仅该方法简单有效，而且能够提高复杂场景下人物动作的识别准确率，提高了分类处理的效率以及精准度。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是根据本发明实施例的一种面向小样本视频动作分类的方法的流程示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员所获得的所有其他实施例，都属于本发明保护的范围。

根据本发明的实施例，提供了一种面向小样本视频动作分类的方法。

如图1所示，根据本发明实施例的面向小样本视频动作分类的方法，包括以下步骤：

步骤S3，将获取的光流图像集输入到空间卷积神经网络和时序卷积神经网络，得到所述光流图像集对应的光流特征信息的对应的空间特征信息，其中包括选择一帧视频帧作为起始帧，提取所述起始帧后的连续m帧视频帧x方向和y方向的光流图像，并与所述起始帧的RGB图像作为一个样本；

借助于上述技术方案，通过获取待分类视频，确定所述待分类视频中的多个视频帧，并提取所述视频帧的光流图像，对获取的光流图像进行预处理，并采用金字塔光流算法对光流图像进行迭代处理，其中包括金字塔光流算法追踪动态特征产生的光流运动，对产生光流运动的特征点进行累加，并对发生动态运动的特征点进行记录，获取光流图像集；将获取的光流图像集输入到空间卷积神经网络和时序卷积神经网络，得到所述光流图像集对应的光流特征信息的对应的空间特征信息，其中包括选择一帧视频帧作为起始帧，提取所述起始帧后的连续m帧视频帧x方向和y方向的光流图像，并与所述起始帧的RGB图像作为一个样本，基于所述光流特征信息和所述空间特征信息，输入至视频动作分类模型，确定所述待分类视频对应的分类类别信息，实现能够在保持视频动作类别不发生改变的情况下进行更准确的分类，不仅该方法简单有效，而且能够提高复杂场景下人物动作的识别准确率，提高了分类处理的效率以及精准度。

其中，步骤所述光流图像进行预处理，包括以下步骤：

基于深度图值和感知图值获取第一帧的增强映射策略；

将获取的增强映射策略再映射第二帧。

其中，步骤所述视频动作分类模型，包括以下步骤：

搭建目标神经网络模型作为源参数模型；

综上所述，借助于本发明的上述技术方案，通过获取待分类视频，确定所述待分类视频中的多个视频帧，并提取所述视频帧的光流图像，对获取的光流图像进行预处理，并采用金字塔光流算法对光流图像进行迭代处理，其中包括金字塔光流算法追踪动态特征产生的光流运动，对产生光流运动的特征点进行累加，并对发生动态运动的特征点进行记录，获取光流图像集；将获取的光流图像集输入到空间卷积神经网络和时序卷积神经网络，得到所述光流图像集对应的光流特征信息的对应的空间特征信息，其中包括选择一帧视频帧作为起始帧，提取所述起始帧后的连续m帧视频帧x方向和y方向的光流图像，并与所述起始帧的RGB图像作为一个样本，基于所述光流特征信息和所述空间特征信息，输入至视频动作分类模型，确定所述待分类视频对应的分类类别信息，实现能够在保持视频动作类别不发生改变的情况下进行更准确的分类，不仅该方法简单有效，而且能够提高复杂场景下人物动作的识别准确率，提高了分类处理的效率以及精准度。

以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种面向小样本视频动作分类的方法，其特征在于，包括以下步骤：

获取待分类视频，确定所述待分类视频中的多个视频帧，并提取所述视频帧的光流图像；

对获取的光流图像进行预处理，并采用金字塔光流算法对光流图像进行迭代处理，其中包括金字塔光流算法追踪动态特征产生的光流运动，对产生光流运动的特征点进行累加，并对发生动态运动的特征点进行记录，获取光流图像集；

将获取的光流图像集输入到空间卷积神经网络和时序卷积神经网络，得到所述光流图像集对应的光流特征信息和对应的空间特征信息，其中包括选择一帧视频帧作为起始帧，提取所述起始帧后的连续m帧视频帧x方向和y方向的光流图像，并与所述起始帧的RGB图像作为一个样本；

基于所述光流特征信息和所述空间特征信息，输入至视频动作分类模型，确定所述待分类视频对应的分类类别信息。

2.根据权利要求1所述的面向小样本视频动作分类的方法，其特征在于，步骤所述光流图像进行预处理，包括以下步骤：

基于深度图值和感知图值获取第一帧的增强映射策略；

将获取的增强映射策略再映射第二帧。

3.根据权利要求2所述的面向小样本视频动作分类的方法，其特征在于，所述金字塔光流算法迭代算子最大迭代次数10，收敛阀值0.2，金字塔窗口大小5x5。

4.根据权利要求1所述的面向小样本视频动作分类的方法，其特征在于，所述空间卷积神经网络和所述时序卷积神经网络使用VGG16模型，其中，所述VGG16模型，包括：第一组卷积层及其参数2,64,3,1,1、最大池化层；第二组卷积层及其参数2,128,3,1,1、最大池化层；第三组卷积层及其参数3,256,3,1,1、最大池化层；第四组卷积层及其参数3,512,3,1,1、最大池化层；第五组卷积层及其参数3,512,3,1,1，每组卷积层参数的数字依次代表：该组卷积层的数量、卷积核的数量、卷积核的空间尺度、卷积核移动的空间步长以及该卷积层的输入边缘填充尺度，每组卷积层中的最大池化层的参数为2x2，且所述最高卷积层为所述第五组卷积层中的第3层卷积层。

5.根据权利要求1所述的面向小样本视频动作分类的方法，其特征在于，步骤所述视频动作分类模型，包括以下步骤：

搭建目标神经网络模型作为源参数模型；