CN112016683B

CN112016683B - 数据增强学习、训练方法、电子设备、可读存储介质

Info

Publication number: CN112016683B
Application number: CN202010773773.9A
Authority: CN
Inventors: 王金鹏; 王金桥; 赵朝阳; 胡建国; 林格; 张海; 朱贵波; 唐明
Original assignee: Nexwise Intelligence China Ltd
Current assignee: Nexwise Intelligence China Ltd
Priority date: 2020-08-04
Filing date: 2020-08-04
Publication date: 2023-10-31
Anticipated expiration: 2040-08-04
Also published as: CN112016683A

Abstract

本发明实施例提供一种数据增强学习、训练方法、电子设备、可读存储介质，包括：将一个静态图像按照尺度因子混合到样本视频的每一帧中。本发明实施例利用数据增强方法TCA指导整个神经网络的学习目标，TCA可以简单的集成在任意一个神经网络之中，具体是将一个静态图像按照尺度因子混合到样本视频的每一帧中，通过选择适当的尺度因子，可以保留时间线索不同空间语境下的相似性。此外TCA可以通过简单的矩阵操作实现，计算开销非常小，本发明实施例的方法在三个数据集上均取得了最优效果，验证了数据增强方法的有效性，TCA避免了对真实标签的需求，可以拓展到自监督以及半监督学习中。

Description

数据增强学习、训练方法、电子设备、可读存储介质

技术领域

本发明涉及视频处理技术领域，尤其涉及一种数据增强学习、训练方法、电子设备、可读存储介质。

背景技术

数据增强(Data Augmentation)是在深度学习中非常常用的技术。在图像分类中，输入图像通常会发生弹性变形或者添加噪波，这样可以大大改变图像的像素内容而不需要改变标签。在此基础上，提出了许多增强技术旋转，比如翻转和彩色抖动。数据增强可以提高样本的多样性，并且大幅度提升模型的鲁棒性。

现有的MixUp是一种实用的图像分类数据增强方法，在基于图像的领域验证了有效性，该方法对于数据集中的样本，在训练过程中，首先将所有样本划分为不同的批次并且随机采样其中一个批次。对于一个批次中的样本，进行两两配对组成不同的pairs。而后从伯努利分布中随机采样选择一个在0到1之间的超参λ。根据超参λ，首先对输入的两幅图像进行插值得到新的样本，并且对两个样本对应标签进行线性插值生成一个smooth向量作为生成样本对应的标签。MixUP有两个样本组成pair后线性插值生成的新样本对应真实标签是由线性矩阵给出one-hot向量的插值。从形式上而言，降低了one-hot的影响。然而，MixUp显著的缺点是必须有真实的数据标签故只能用在有监督的场景之下，不可以集成到无监督或半监督学习。此外，mixup只在图像领域验证了其有效性，在视频领域中还不能应用。以上这些困难的存在导致长期以来对于视频数据增强的探索都只停留在简单的旋转和颜色抖动。

发明内容

本发明实施例提供一种数据增强学习、训练方法、电子设备、可读存储介质，以视频数据增强避免对真实标签的需求，实现拓展到自监督以及半监督学习中。

本发明实施例提供一种数据增强学习方法，包括：

将一个静态图像按照尺度因子混合到样本视频的每一帧中；

所述尺度因子的计算公式为：

其中，α代表尺度因子；I函数代表原视频；δ函数代表一帧随机选取图像；t为t时刻视频帧；x,y为t时刻视帧的像素索引；k为阶导数。

根据本发明一个实施例的数据增强学习方法，还包括：通过所述尺度因子计算出所述样本视频各个时刻的视频帧，计算公式为：

其中，代表视频i在时刻j的视频帧；L代表视频长度；/>代表0-1的掩膜；/>代表全局噪声。

根据本发明一个实施例的数据增强学习方法，所述是从[0.5，1]中的均匀分布随机采样的结果，掩膜和全局噪声/>都和所述样本视频中第一帧图像的大小一样。

根据本发明一个实施例的数据增强学习方法，还包括：

随机选择一个固定大小的预设区域，并将预设区域的设为0，所述预设区域占整个所述静态图像面积的0.1以内；

设中所有元素均为1，并从所述样本视频中随机选择一个图像帧作为/>

将所有帧的设为1，并随机选择一个除所述样本视频以外的其它视频中的帧作为/>

本发明实施例提供一种数据增强训练方法，采用所述的数据增强学习方法得到生成样本，还包括：通过深度学习训练所述生成样本与样本视频的一致性。

根据本发明一个实施例的数据增强训练方法，所述通过深度学习训练所述生成样本与样本视频的一致性具体包括：

对训练集中所有样本视频进行随机打乱，并从中取一个批处理的数据；

对批处理的数据进行随机打乱，并对每个样本视频进行数据增强学习后得到生成样本；

把样本视频和生成样本分别输入到训练模型中，得到两个输出值，通过平方损失函数度量两个输出值之间的差异，并基于差异对所述训练模型进行梯度下降。

本发明实施例提供一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现所述的数据增强学习方法的步骤。

本发明实施例提供一种非暂态计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现所述的数据增强学习方法的步骤。

本发明实施例提供一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现所述的数据增强训练方法的步骤。

本发明实施例提供一种非暂态计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现所述的数据增强训练方法的步骤。

本发明实施例提出了一种新的数据增强学习、训练方法、电子设备、可读存储介质，利用数据增强方法TCA指导整个神经网络的学习目标，TCA可以简单的集成在任意一个神经网络之中，具体是将一个静态图像按照尺度因子混合到样本视频的每一帧中，通过选择适当的尺度因子，可以保留时间线索不同空间语境下的相似性。此外TCA可以通过简单的矩阵操作实现，计算开销非常小，本发明实施例的方法在三个数据集上均取得了最优效果，验证了数据增强方法的有效性，TCA避免了对真实标签的需求，可以拓展到自监督以及半监督学习中。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明实施例提供的数据增强学习方法的流程示意图；

图2是本发明实施例提供的数据增强学习方法的流程示意图；

图3是本发明实施例提供的数据增强训练方法的流程示意图；

图4是本发明实施例提供的一种电子设备的结构示意图。

附图标记：

810：处理器；820：通信接口；830：存储器；840：通信总线。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

一致性正则化将数据增强应用到半监督学习中，利用了分类器对于相同分布视频应该输出相同内容的思想。有很多半监督学习的方法都是基于一致性正则化。在本发明实施例中提出了一种新的形式的一致性正则化。通过使用时空变换和视频内混合，引入一致性正则化的到自监督学习中，另外还涉及到在全监督设置下注意力一致性的几何变换。但是保持视觉注意的一致性依赖于类激活映射(CAM)并且需要分类标签。而本案实施例中只对高维特征图进行约束，沿着时间维度添加一致性约束。

由于视频是3D信号，包含1维时间和2维空间两个层面的信息。此外，时间和空间维度天然具有不对称性。时间信息是模糊抽象的，难以定义和识别。在早期的基于手工视频特征进行分类的方法中，帧间的差异被用来提供有用的指示的运动。沿着这些方法的思路，时间导数可以用来测量时间信息的变化。特别地，视频可以被认为是一个时空函数，而时间导数在任意顺序下保持一致应用于具有常数的加法或乘法运算时空的功能。本发明实施例通过深入探究视频数据增强这种方案并针对视频设计了一种新颖有效的数据增强方法，Temporal Consistent Augmentation(TCA)。TCA避免了对真实标签的需求，可以拓展到自监督以及半监督学习中。

基于上述TCA，下面结合图1描述本发明实施例的一种数据增强学习方法，包括：

S1:将一个静态图像按照尺度因子混合到样本视频的每一帧中；

所述尺度因子的计算公式为：

其中，α代表尺度因子；I函数代表原视频；δ函数代表一帧随机选取图像；t为t时刻视频帧；x,y为t时刻视帧的像素索引；k为阶导数，k为自然数。

上述尺度因子的计算公式的原理是：视频中关于时间维度的微分可以用来度量时序信息的变化程度和幅度。因此，考虑将时序上的尺缩效应引入视频中。具体而言，在保留时间导数的同时，可以将额外的空间上下文(图像)引入时空函数(视频)中用一个比例因子α来保持任何顺序的一致性。也就是说,时序微分一致性可以看作是一个静态的图像等比例混合到视频的每一帧中。通过选择适当的尺度因子，可以保留时间线索不同空间语境下的相似性。α尽量不要太大，样本视频中每一帧的比例因子α保持一致，样本视频中每一帧的比例因子α是统一的，就是取一帧固定图像与视频的每一帧插值。

通过引入视频一致性正则，并将图像混合到每一帧用来改变像素的空间分布，同时保持时间上变化的相似性。考虑到一个视频的长度，使用0-1的掩膜和全局噪声/>具体的，数据增强学习方法还包括：

S2:通过所述尺度因子计算出所述样本视频各个时刻的视频帧，计算公式为：

其中，代表视频i在时刻j的视频帧；L代表视频长度；/>代表0-1的掩膜；/>代表全局噪声；α代表尺度因子，与上述α是一致的。

所述α是从[0.5,1]中的均匀分布随机采样的结果，掩膜和全局噪声/>都和所述样本视频中第一帧图像的大小一样。

如图2所示，S2具体还包括：

S21:随机选择一个固定大小的预设区域，并将预设区域的设为0，所述预设区域占整个所述静态图像面积的0.1以内；

随机选择是根据均匀分布采样的算法随机选择的。通过设置掩膜选取预设区域，设为0，就是把像素抹去。

S22:设中所有元素均为1，并从所述样本视频中随机选择一个图像帧作为/>

掩膜全1就是不做操作，中所有元素均为1就是不做S21。

S23:将所有帧的设为1，并随机选择一个除所述样本视频以外的其它视频中的帧作为/>具体可以从训练时的一小批次视频中选取除了样本视频以外的其它视频的帧作为/>也可以随机选取一个任意的视频中的帧作为/>

从样本间和样本内选择全局噪声可以大幅度丰富空间语境的多样性。在本发明中，时态一致性增强(TCA)是这三种数据增强的级联，这三种数据增强的级联就是值按线性顺序执行S21、S22、S23。

进一步的，可以通过训练原始样本和生成样本一致性，来指导整个模型的学习，因此，本发明实施例提供一种数据增强训练方法，采用所述的数据增强学习方法得到生成样本，还包括：通过深度学习训练所述生成样本与样本视频的一致性。

如图3所示，所述通过深度学习训练所述生成样本与样本视频的一致性具体包括：

S31:对训练集中所有样本视频进行随机打乱，并从中取一个批处理的数据；训练集中包含多个样本视频，随机打乱是通过均匀分布采样实现的。

S32:对批处理的数据进行随机打乱，并对每个样本视频进行数据增强学习后得到生成样本；随机打乱是通过均匀分布采样实现的。

S33:把样本视频和生成样本分别输入到训练模型中，得到两个输出值，通过平方损失函数度量两个输出值之间的差异，并基于差异对所述训练模型进行梯度下降。训练模型是指深度学习的神经网络，最终学习得到的训练模型对时序信息更加敏感。

本发明实施例提出了一种新的视频数据增强方法TCA来指导整个神经网络的学习目标，TCA可以简单的集成在任意一个神经网络之中。此外TCA可以通过简单的矩阵操作实现，计算开销非常小，本发明实施例的方法在三个数据集上均取得了最优效果，验证了数据增强方法的有效性。

图4示例了一种电子设备的实体结构示意图，该电子设备可以包括：处理器(processor)810、通信接口(Communications Interface)820、存储器(memory)830和通信总线840，其中，处理器810，通信接口820，存储器830通过通信总线840完成相互间的通信。处理器810可以调用存储器830中的逻辑指令，以执行数据增强学习方法，该方法包括：

将一个静态图像按照尺度因子混合到样本视频的每一帧中；

所述尺度因子的计算公式为：

其中，α代表尺度因子；I函数代表原视频；δ函数代表一帧随机选取图像；t为t时刻视频帧；x，y为t时刻视帧的像素索引；k为阶导数。

此外，上述的存储器830中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

另一方面，本发明实施例还提供一种计算机程序产品，所述计算机程序产品包括存储在非暂态计算机可读存储介质上的计算机程序，所述计算机程序包括程序指令，当所述程序指令被计算机执行时，计算机能够执行上述各方法实施例所提供的数据增强学习方法，该方法包括：

将一个静态图像按照尺度因子混合到样本视频的每一帧中；

所述尺度因子的计算公式为：

又一方面，本发明实施例还提供一种非暂态计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现以执行上述各实施例提供的数据增强学习方法，该方法包括：

将一个静态图像按照尺度因子混合到样本视频的每一帧中；

所述尺度因子的计算公式为：

本发明实施例还提供了另一种电子设备，该电子设备可以包括：处理器(processor)810、通信接口(Communications Interface)820、存储器(memory)830和通信总线840，其中，处理器810，通信接口820，存储器830通过通信总线840完成相互间的通信。处理器810可以调用存储器830中的逻辑指令，以执行数据增强训练方法，该方法包括：

另一方面，本发明实施例还提供一种计算机程序产品，所述计算机程序产品包括存储在非暂态计算机可读存储介质上的计算机程序，所述计算机程序包括程序指令，当所述程序指令被计算机执行时，计算机能够执行上述各方法实施例所提供的数据增强训练方法，该方法包括：

又一方面，本发明实施例还提供一种非暂态计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现以执行上述各实施例提供的数据增强训练方法，该方法包括：

以上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下，即可以理解并实施。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件。基于这样的理解，上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在计算机可读存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。

最后应说明的是：以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种数据增强学习方法，其特征在于，包括：

将一个静态图像按照尺度因子混合到样本视频的每一帧中；

所述尺度因子的计算公式为：

；

其中，代表尺度因子；/>函数代表原视频；/>函数代表一帧随机选取图像； />为/>时刻视频帧；/>，/>为/>时刻视帧的像素索引；/>为阶导数；

通过所述尺度因子计算出所述样本视频各个时刻的视频帧，计算公式为：

；

其中，代表视频/>在时刻/>的视频帧；/>代表视频长度；/>代表0-1的掩膜；/>代表全局噪声；所述/>是从[0.5,1]中的均匀分布随机采样的结果，掩膜/>和全局噪声/>都和所述样本视频中第一帧图像的大小一样；

设中所有元素均为1，并从所述样本视频中随机选择一个图像帧作为/>；

将所有帧的设为1，并随机选择一个除所述样本视频以外的其它视频中的帧作为。

2.一种数据增强训练方法，其特征在于，采用如权利要求1所述的数据增强学习方法得到生成样本，还包括：通过深度学习训练所述生成样本与样本视频的一致性。

3.根据权利要求2所述的数据增强训练方法，其特征在于，所述通过深度学习训练所述生成样本与样本视频的一致性具体包括：

4.一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现如权利要求1所述的数据增强学习方法的步骤。

5.一种非暂态计算机可读存储介质，其上存储有计算机程序，其特征在于，该计算机程序被处理器执行时实现如权利要求1所述的数据增强学习方法的步骤。

6.一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现如权利要求2所述的数据增强训练方法的步骤。

7.一种非暂态计算机可读存储介质，其上存储有计算机程序，其特征在于，该计算机程序被处理器执行时实现如权利要求2所述的数据增强训练方法的步骤。