CN110610194A

CN110610194A - 一种针对少量数据视频分类任务的数据增强方法

Info

Publication number: CN110610194A
Application number: CN201910743444.7A
Authority: CN
Inventors: 陈莉; 贾杲果
Original assignee: Tsinghua University
Current assignee: Tsinghua University
Priority date: 2019-08-13
Filing date: 2019-08-13
Publication date: 2019-12-24
Anticipated expiration: 2039-08-13
Also published as: CN110610194B

Abstract

本发明提出一种针对少量数据视频分类任务的数据增强方法，涉及视频信息处理领域。该方法用于已有基于深度学习的视频分类模型的数据增强，具体包括以下步骤：1)构建视频各动作类别的动态信息图像；2)利用各类所述动态信息图像分别训练生成相应动作类别动态信息图像的生成对抗网络；3)利用训练好的生成对抗网络生成所需数量的动态信息图像；4)将步骤1)和步骤3)两种方法生成的动态信息图像按比例混合后作为训练数据，对已有基于深度学习的视频分类模型进行训练，使得该视频分类模型学习混合后动态信息图像的特征，达到数据增强的效果。本发明计算成本低，速度快，明显提升了视频分类模型的准确率，有较高的实用价值。

Description

一种针对少量数据视频分类任务的数据增强方法

技术领域

本发明提出一种针对少量数据视频分类任务中的数据增强方法，涉及视频信息处理领域。

背景技术

视频分类是指给定一个视频片段，对其中包含的内容进行分类。目前效果较好的视频分类模型均基于深度学习技术，可以从带有类别标签的训练样本中学到各视频类别的分类特征，在训练好后可对待分类的视频进行分类。在安防、社交媒体等领域，视频分类有着广泛的应用前景。然而，在很多应用场合，训练样本的搜集与标注存在困难，一些类别的训练样本量较少，会严重影响现有视频分类模型的准确率。如何在训练样本较少的情况下训练出较好的视频分类模型是一个很有实际意义的问题。

在深度学习领域中，针对训练数据量不足的问题，常采用的方式有数据增强、迁移学习和无监督学习。其中数据增强的应用最为广泛，特别是在图像领域。传统的数据增强主要包括对于单帧的局部裁剪和尺度抖动。为了到达更好的效果，很多视频分类的研究对图像进行了复杂的裁剪，如TSN(Temporal Segment Networks)模型中的角裁剪。这些方法均建立在线性变化的基础之上，在数据充足的情况下效果显著，但其正则化效果显然还不能完全满足少量数据下数据增强的需求。因为在训练数据量较少时，视频分类模型会倾向于学习到每一个视频个别的特征而非该类别视频整体的特征，产生对训练数据的过拟合问题，严重影响视频分类模型的准确率。同时，已有的数据增强方法仅限于对每一帧图像的处理，不能对图像时序上所反映的运动信息进行增强，这会导致在训练视频数据量较少的情况下，视频分类模型倾向于学习单帧图像中较为明显的空间特征，而忽略在少量数据中不明显却重要的由帧间变化所反映的时序特征，从而影响视频分类模型的准确率。

发明内容

本发明的目的是为克服已有技术的不足之处，提出一种针对少量数据视频分类任务的数据增强方法。本发明克服现有技术中视频数据增强局限于线性变化的缺点，能够对时序信息与动作特征进行更有效的正则化增强，有较高的实用价值。

本发明提出一种少量数据下视频分类任务的数据增强方法，用于已有基于深度学习的视频分类模型的数据增强，其特征在于，所述数据增强方法包括以下步骤：

1)构建视频的动态信息图像，具体包括：

1-1)获取不同动作类别的多个视频，对其中的每个视频分别均进行抽帧与分段处理，得到各动作类别的多段视频；

1-2)对任意一段视频，获得该段视频的单张动态信息图像

随机选取该段视频总帧数一半的帧，并按照视频中的顺序将这些帧进行排序得到该段视频的帧序列，由该帧序列计算出代表该段视频中各像素时间变化特征的单张动态信息图像；对余下的各段视频均执行本步骤，得到每段视频的单张动态信息图像；

1-3)对每一段视频重复执行步骤1-2)N次，分别得到各段视频的N张动态信息图像；将得到的所有动态信息图像按动作类别存储到以相应动作类别命名的文件夹XXXX中；

2)以步骤1-3)得到的文件夹XXXX中的动态信息图像作为训练数据，分别训练用于生成相应动作类别动态信息图像的生成对抗网络；

3)利用步骤2)中训练完毕的各生成对抗网络生成所需数量的动态信息图像，并分别存储至以相应动作类别命名的文件夹XXXX_gan中；

4)将步骤1-3)得到的文件夹XXXX与步骤3)得到的文件夹XXXX_gan中相同动作类别的动态信息图像按设定比例混合，并分别存储至以相应动作类别命名的文件夹XXXX_data中；利用各文件夹XXXX_data中的所有动态信息图像对所述已有基于深度学习的视频分类模型进行训练，使得该视频分类模型学习混合后动态信息图像的特征，达到数据增强的效果。

进一步地，所述步骤1-2)具体包括以下步骤：

1-2-1)对该段视频利用random函数随机抽取一半的帧，根据其在视频中的顺序为这些帧排序，记为1，2，…，t，…，T，得到该段视频的帧序列，其中，每一帧均是一个由多个像素组成的二维图像，对于该二维图像中的各像素，分别通过另一个数组表示其颜色，由此将每张图像即各帧表示为一个三维数组；

1-2-2)对于所述帧序列中的第t帧图像，通过以下公式计算其对应的排序函数α_t为：

α_t＝2(T-t+1)-(T+1)(H_T-H_t-1) (1)其中，H_t-1为第t-1帧图像的排序参数，计算公式如下：

令H₀＝0；

1-2-3)将该段视频帧序列中各帧的三维数组与其排序函数相乘后叠加得到代表该段视频中各像素时间变化特征的单张动态信息图像d^*，计算公式如下：

其中，ψ_t为第t帧图像的三维数组，得到的d^*即为该段视频的单张动态信息图像，为一三维数组；

将得到的单张动态信息图像d^*的每一值均归一化至[0，255]区间内，即得到与RGB图像表示方法相同的动态信息图像，单张动态信息图像尺寸为320*240，与视频单帧的尺寸相同。本发明的特点及有益效果在于：

本发明可以对少量视频数据的有效特征进行正则化增强，不局限于对帧图像的线性变化，可以防止视频分类模型在训练数据较少时出现过拟合，从而提高分类模型的准确率。

本发明利用动态信息图像表示视频时间尺度上的变化特征，通过对动态信息图像的增强实现对视频时间信息的增强，从而辅助视频分类模型捕捉少量视频数据中易被空间特征所掩盖的时序特征，提高分类模型的准确率。

本发明利用能够反映整个视频时序特征的动作信息图像来对视频数据进行增强，由于动作信息图像为单张图像，分类速度快，消耗的计算资源少，有较高的实用价值。

具体实施方式

本发明提出一种针对少量数据视频分类任务的数据增强方法，下面结合具体实施例对本发明进一步详细说明如下。应当理解，可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反，提供这些实施例是为了能够更透彻地理解本发明，并且能够将本发明的范围完整的传达给本领域的技术人员。

本发明提出一种针对少量数据视频分类任务的数据增强方法，是对已有基于深度学习的视频分类模型的数据增强，该方法包括以下步骤：

1)构建视频的动态信息图像，具体包括以下步骤：

1-1)获取不同动作类别的多个视频，对其中的每个视频分别均进行抽帧与分段(一般采用均匀分段)处理，得到各动作类别的多段视频；

本实施例中选取了前空翻(flic_flac)与侧手翻(cartwheel)两类动作视频数据作为原始数据集。之所以选择这两类动作数据，是因为其相对难以分辨且样本量较少，便于体现本发明的效果，实际应用中可推广至任意多种类别的人体动作视频数据。本实施例中原始数据集的每类动作视频数据分别包含20个视频，原始数据集中共计40个视频。每个视频的长度在80-200帧之间。利用ffmpeg软件将每个视频的每一帧抽取后，将抽取出的帧序列平均分为三段，得到各段视频。

1-2)对任意一段视频，获得该段视频的单张动态信息图像

优选地，步骤1-2)的具体实现过程如下：

1-2-1)对该段视频利用python编程语言的random函数随机抽取一半的帧，根据其在视频中的顺序为这些帧排序，记为1，2，…，t，…，T，得到该段视频的帧序列。其中，每一帧均是一个由多个像素组成的二维图像，对于该二维图像中的各像素，分别通过另一个数组表示其颜色，因此将每张图像即各帧表示为一个三维数组。

α_t＝2(T-t+1)-(T+1)(H_T-H_t-1) (1)

其中，H_t-1为第t-1帧图像的排序参数，计算公式如下：

式中，H₀＝0。

其中，ψ_t为第t帧图像的三维数组，得到的d^*即为该段视频的单张动态信息图像，为一三维数组。这一动态信息图像的每一个像素代表着视频中该位置像素随时间变化的程度，与现有的光流效果相近，但具体含义与计算方式均不同。

然后将得到的单张动态信息图像d^*的每一值均归一化至[0，255]区间内，即得到与RGB图像表示方法相同的动态信息图像。计算出的动态信息图像尺寸为320*240，与视频单帧的尺寸相同。

1-3)对每一段视频重复执行步骤1-2)N次(重复次数足以满足用于生成后续对抗网络所需的动态信息图像数量，每段视频至少需要500次，本实施例重复执行1000次)，分别得到各段视频的N张动态信息图像；将得到的所有动态信息图像按动作类别存储到以相应动作类别命名的文件夹XXXX中，XXXX为动作类别名称。

在本实施例中，需要进行数据增强的视频类别有两类，每类20个视频。每一视频分为三段，每段重复步骤1-1)1000次，共计得到每类视频数据的60000张动态信息图像，共计120000张动态信息图像。将这些动态信息图像按其视频类别存储在两个以其动作类别命名的文件夹cartwheel与flic_flac中，每一个文件夹中的动态信息图像从1到60000命名，为之后的训练做准备。

2)以步骤1-3)得到的以各动作类别命名的文件夹XXXX中的动态信息图像作为训练数据，分别训练用于生成相应动作类别动态信息图像的生成对抗网络，各动作类别的生成对抗网络的输入为步骤1-3)得到的相应文件夹中的动态信息图像，输出为经过正则化处理后的动态信息图像。

进一步地，在训练生成对抗网络前，先对步骤1-3)得到的各动作类别文件夹中的所有动态图像的大小进行处理，使其适应生成对抗网络的训练要求，并分别存入相应动作类别文件夹XXXX_train。

本实施例中所采用的生成对抗网络为WGAN-GP(Improved Wasserstein GANs)，其在输入为64*64的图像时效果最好。因此需要将步骤1-3)中得到的320*240的所有动态信息图像分别缩小至64*64的大小。具体地，利用python程序的PIL库遍历步骤1-3)中经cartwheel与flic_flac文件夹中所有的动态信息图像，将其缩小至64*64的大小后分别存入cartwheel_train与flic_flac_train文件夹中，分别作为相应生成对抗网络的输入。

在本实施例中，采用WGAN-GP(Improved Wasserstein GANs)来生成正则化后的动态信息图像。WGAN-GP是一种改良后的采用魏尔斯特拉斯距离的生成对抗网络，可以输出与输入图片类别相近的图片。WGAN-GP已有TensorFlow框架下的公开实现，可以下载相关代码后在配置好的TensorFlow环境中直接进行训练。WGAN-GP模型需要读取其固定文件夹下的储存图片作为输入，因此需要将上述cartwheel_train与flic_flac_train两个文件及其中的图像拷贝至WGAN-GP的输入文件夹下。对于每一动作类别，利用命令行规定其输入文件路径，训练20000轮次后终止运行，分别得到训练完毕的以各动作类别命名的多个生成对抗网络。

3)利用步骤2)中训练完毕的各生成对抗网络生成所需数量的动态信息图像，并分别存储至以相应动作类别命名的文件夹XXXX_gan中；具体步骤如下：

对于每一动作类别，分别通过2)中依据该类别动态信息图像训练好的，以其类别名命名的生成对抗网络，输出相应动作类别的动态信息图像并按动作类别进行存储至相应的文件夹XXXX_tempgan中。具体地，本实施例利用命令行规定其将输出的图像存储至对应类别的文件夹cartwheel_tempgan或flic_flac_tempgan中。设每一次均输出得到64张64*64的图像。对每一动作类别的生成对抗网络，令其分别进行100次输出，得到6400张该动作类别的动态信息图像，并按序号进行编号，记为1到6400，得到两类共计12800张通过WGAN-GP生成的动态信息图像。

利用python程序的PIL库遍历cartwheel_tempgan与flic_flac_tempgan文件夹中所有的动态信息图像，将其放大至240*320的大小后分别存入文件夹cartwheel_gan与flic_flac_gan中，各图像的编号不变，为之后的训练做准备。

4)将步骤1-3)与步骤3)中得到的相同动作类别的动态信息图像按设定比例混合，并分别存储至以相应动作类别命名的文件夹XXXX_data中；利用各文件夹XXXX_data中的所有动态信息图像对已有的基于深度学习的视频分类模型进行训练，使得该视频分类模型学习混合后动态信息图像的特征，达到数据增强的效果；具体步骤如下：

4-1)按4∶1的比例混合步骤1-3)得到的文件夹XXXX与步骤3)得到的文件夹XXXX_gan中相同动作类别的动态信息图像：

将不同方式增强的动态信息图像混合在一起可以减小数据增强过程中引入的噪音对已有视频分类模型的影响，混合的最优比例取决于训练采用的数据集。本实施例中，实验表明步骤1-3)与步骤3)中生成的两种动态信息图像混合的比例为4∶1时数据增强效果最好。具体地，创建cartwheel_data与flic_flac_data文件夹，向其中添加上述步骤1-3)与步骤3)中生成的动态信息图像。对于cartwheel_data文件夹，其中有4800张图像为cartwheel文件夹中编号1-4800图像，剩余的1200张图像为cartwheel_gan文件夹中编号1-1200图片。flic_flac_data文件夹同理。每个文件夹中分别有6000张对应类别的动态信息图像，两个文件夹cartwheel_data和flic_flac_data共计12000张。进一步地，由于视频分类模型需要读取训练数据索引文件获取训练数据，可通过对cartwheel_data与flic_flac_data中的数据建立训练数据索引。训练数据索引为txt文件，包含两种动作类别，每种动作类别6000条，共计12000条数据，每条训练数据中包含动态信息图像路径与动态信息图像类别。

4-2)利用步骤4-1)得到的cartwheel_data与flic_flac_data文件夹中的动态信息图像对TSN视频分类模型进行训练：

本数据增强方法所增强后的动态信息图像适用于所有标准的图像与视频分类模型。本实施例中，采用TSN这一视频分类模型。这一模型将同一视频分为多段进行图像分类，每一段得分汇总后得到该段视频分类结果，在分段数为1时简化为图像分类网络。TSN视频分类模型已有pytorch框架下的公开实现，主要分为训练与测试两部分，可以下载相关代码后在配置好的pytorch环境中直接进行训练。TSN视频分类模型中含有对于图像数据的基于线性变化的数据增强，可以直接作用于本发明数据增强后生成的图像上。具体训练过程如下：

对于动态信息图像输入，利用命令行设定基础网络为BNInception，学习率为0.001，学习率下降训练轮次为30，60，学习总轮次设为80，dropout设为0.6，batchsize设为8，使用GPU数设为8，输入格式选为RGB(此处需要说明的是输入的动态信息图像仅是格式与RGB图像相同，但其所包含的内容与常规的RGB图像完全不同)，在步骤4-1)中构造的数据索引上运行TSN视频分类模型对该TSN视频分类模型进行训练，将准确率最高的模型作为训练完毕的动态信息图像分类模型dy_best_model，本数据增强方法结束。

在利用本数据增强方法得到的动态信息图像分类模型dy_best_model进行视频动作分类时，还需要结合以常规RGB图像作为输入的视频分类模型(以下简称RGB图像分类模型)，由于常规的RGB图像反映了视频的空间特征，而本发明的动态信息图像反映了视频的时间特征，因此将两者的得分汇总可以得到更好的视频分类结果。其中，RGB图像分类模型的训练数据是将步骤1-1)的原始数据集中各动作类别视频分别进行抽帧处理后并按照相应动作类别进行存储的RGB图像，存储RGB图像的文件夹为flic_flac_rgb和cartwheel_rgb。训练RGB图像分类模型采用的基础网络与训练动态信息图像分类模型dy_best_model采用的基础网络相同，均为BNInception，具体训练过程为：为cartwheel_rgb与flic_flac_rgb文件夹中的图像建立数据索引；利用命令行设定基础模型为BNInception，学习率为0.001，学习率下降训练轮次为30，60，学习总轮次设为80，dropout设为0.8，batchsize设为8，使用GPU数设为8，输入模态选为RGB，并在建立的数据索引上运行TSN视频分类模型对该TSN视频分类模型进行训练，将准确率最高的模型作为训练完毕的RGB图像分类模型rgb_best_model。该模型输出为视频分类得分文件，为一数组，该数组的各元素为输入图像属于每一类动作的置信度。

利用上述RGB图像分类模型rgb_best_model和动态信息图像分类模型dy_best_model对待分类的视频进行测试，具体步骤如下：

5)构建测试数据集，利用训练完毕的RGB图像分类模型rgb_best_model和动态信息图像分类模型dy_best_model分别对测试数据集中的RGB图像和动态信息图像进行测试，将视频分类模型中RGB图像的得分与数据增强后的动态信息图像的得分按最优比例相加，最终得到数据增强后的视频分类结果。具体实现过程如下：

5-1)构建测试数据集

由若干个不同动作类别的视频组成测试数据集，将每一个视频利用ffmpeg软件抽帧并分段后得到的各GRB图像分别存储在以动作类别命名的文件夹XXXX_rgbtest中；对抽帧后的各段视频按照步骤1-2)和1-3)所述方法得到所有帧的动态信息图像，将相同动作类别的动态信息图像均存储在以该动作类别命名的文件夹XXXX_dytest中。

此时得到的模型已经使用了数据增强后的动态信息图像后训练，可以直接用于视频分类。为了模拟实际应用中的使用情况，反应数据增强的效果，本实例中在测试数据集上进行实验。为了准确反映数据增强的效果，测试数据集中应用了较多视频数据。本实施例的测试数据集中包含113个侧手翻(cartwheel)与110个前空翻(flic_flac)数据，将每一个视频利用ffmpeg抽帧并分段后得到的各RGB图像存储在其对应分类的文件夹cartwheel_rgbtest和flic_flac_rgbtset下，构建RGB图像的数据索引文件。然后对于每一个抽帧后的分段视频，利用步骤1-2)和1-3)中描述的方法，对其所有帧计算动态信息图像，将得到的动态信息图像分别存储在文件夹cartwheel_dytest与flic_flac_dytest中，构建动态信息图像的数据索引文件。两个索引文件的视频帧序列与动态信息图像应按顺序对应。

5-2)对构建的文件夹XXXX_rgbtest和XXXX_dytest中的图像分别利用训练完毕的RGB图像分类模型和动态信息图像分类模型进行测试，得到相应的测试结果，将两类测试结果按照最优权重相加，最终得到数据增强后的视频分类结果：

利用训练完毕的RGB图像分类模型rgb_best_model，读取XXXX_rgbtest文件RGB图像的数据索引文件，得到RGB图像分类得分文件与RGB图像测试结果。用步骤4-2)中训练完毕的动态信息图像分类模型dy_best_model，读取XXXX_dytest文件动态信息图像的数据索引文件，得到分类得分文件与动态信息图像测试结果。其中分类得分文件是一个数组，给出每一个视频属于每一类别的置信度。测试结果是分类文件中视频得分最高的类别与视频实际类别相符的频率，即输出分类结果的准确率，具体实现过程如下：

设待分类的视频动作共有n个类别，则得分文件为由n个元素组成的数组。设RGB图像分类模型的得分文件r中各元素分别为r₁，…，r_i，…，r_n。动态信息图像分类模型的得分文件d中各元素分别为d₁，…，d_i，…，d_n。将两个得分文件r、d按一定权重相加可得到得分文件s，同样得分文件s为由n个元素组成的数组，其第i个元素的计算公式为：

s_i＝d_i+x·r_i (4)

其中d_i为得分文件d的第i个元素，r_i为得分文件r的第i个元素，x为设定权重，0≤x≤1。为了得到最适合测试数据集的权重x，将首项为0，末项为1，公差为0.02的等差数列中的所有元素依次带入式(4)中，将得分文件s的分类结果准确率最高的元素作为设定权重x的取值。在没有足够测试用例的实际应用中，可直接取x＝0.1，或依照经验给定其他x的值。

对于给定待分类视频，在计算出得分文件s后，其中得分最高的类别即为模型对其最终的分类结果。

本发明的方法可以运用在现有的基于深度学习的视频分类模型上，本方法计算成本较低，耗时较少。由于可以对少量数据进行更好的正则化处理，并对视频中所反映的时序信息进行增强，本方法对视频分类模型在少量数据下的准确率有明显提升。参见表1，为本发明相较于现有TSN分类模型(即分类模型1)、未采用本数据增强方法的RGB图像与动态信息图像双流TSN模型(即分类模型2)、以及采用本数据增强方法的RGB图像与动态信息图像双流TSN模型(即分类模型3)的测试结果。

表1

分类模型	分类模型1	分类模型2	分类模型3
				实验测试集准确率	68.26％	69.81％	71.78％

进一步地，本发明方法可通过本领域的常规编程技术实现并固化在一处理器上，通过与一存储器结合构成一针对少量数据视频分类任务的数据增强系统。

尽管上面已经示出和描述了本发明的实施例，可以理解的是上述实施例是示例性的，不能理解为对本发明的限制，本领域的普通技术人员在本发明的范围内可以对上述实施例进行变化、修改、替换和变型，本发明的范围由所附权利要求及其等同物限定。

Claims

1.一种针对少量数据视频分类任务的数据增强方法，用于已有基于深度学习的视频分类模型的数据增强，其特征在于，所述数据增强方法包括以下步骤：

1)构建视频的动态信息图像，具体包括：

1-2)对任意一段视频，获得该段视频的单张动态信息图像

2.根据权利要求1所述的数据增强方法，其特征在于，所述步骤1-2)具体包括以下步骤：

α_t＝2(T-t+1)-(T+1)(H_T-H_t-1) (1)

其中，H_t-1为第t-1帧图像的排序参数，计算公式如下：

令H₀＝0；

将得到的单张动态信息图像d^*的每一值均归一化至[0,255]区间内，即得到与RGB图像表示方法相同的动态信息图像，单张动态信息图像尺寸为320*240，与视频单帧的尺寸相同。

3.根据权利要求2所述的数据增强方法，其特征在于，在所述步骤2)训练生成对抗网络前，先对步骤1-3)得到的各动作类别文件夹XXXX中的所有动态图像的大小进行处理，使其适应生成对抗网络的训练要求；

所述步骤3)中，先对各生成对抗网络生成的所有动态信息图像的大小进行处理，使其还原为320*240，再将各动态信息图像分别存储至以相应动作类别命名的文件夹XXXX_gan中。

4.根据权利要求1～3中任意一项所述的数据增强方法，其特征在于，所述已有基于深度学习的视频分类模型采用TSN(Temporal Segment Networks)视频分类模型。

5.根据权利要求1～3中任意一项所述的数据增强方法，其特征在于，步骤3)中，所述生成对抗网络选用改良后的采用魏尔斯特拉斯距离的生成对抗网络(WGAN-GP)。