CN113361391A

CN113361391A - 基于深度学习的数据增广方法、系统、介质和计算设备

Info

Publication number: CN113361391A
Application number: CN202110622638.9A
Authority: CN
Inventors: 向大凤
Original assignee: Beijing Huawen Zhonghe Technology Co ltd
Current assignee: Beijing Huawen Zhonghe Technology Co ltd
Priority date: 2021-06-04
Filing date: 2021-06-04
Publication date: 2021-09-07

Abstract

本发明的实施方式提供了一种基于深度学习的数据增广方法、系统、介质和计算设备。该方法包括：对获取到的基础数据进行分析，得到所述基础数据对应的帧图像数据和环境变化因子；基于所述帧图像数据和所述环境变化因子，实现对构建的对抗生成网络的训练；基于训练后的所述对抗生成网络，输出与所述帧图像数据对应的增广帧图像数据。本发明能够对采集到的基础数据进行分析得到对应的帧图像数据和环境变化因子，并且基于得到的基础数据对应的帧图像数据和环境变化因子实现对抗生成网络的训练，通过训练后的对抗生成网络能够生成丰富多样的增广帧图像数据集，从而使得基于增广帧图像数据训练得到的神经网络模型能够输出更加准确的结果。

Description

基于深度学习的数据增广方法、系统、介质和计算设备

技术领域

本发明的实施方式涉及深度学习技术领域，更具体地，本发明的实施方式涉及一种基于深度学习的数据增广方法、系统、介质和计算设备。

背景技术

本部分旨在为权利要求书中陈述的本发明的实施方式提供背景或上下文。此处的描述不因为包括在本部分中就承认是现有技术。

近年来，随着神经网络技术的快速发展，越来越多的行业选择利用神经网络技术构建的模型来提升工作效率。为了构建出性能较好的神经网络模型，通常需要在对模型进行构建和训练的过程中使用大量在不同场景中获取到的数据集。然而，在实践中发现，在某些应用场景中，难以获取丰富多样的数据来训练神经网络模型，且在某些复杂多变的应用场景中获取到的数据集中的数据有限的情况下，会导致训练得到的神经网络模型输出的结果不够准确。

发明内容

在本上下文中，本发明的实施方式期望提供一种基于深度学习的数据增广方法、系统、介质和计算设备。

在本发明实施方式的第一方面中，提供了一种基于深度学习的数据增广方法，包括：

对获取到的基础数据进行分析，得到所述基础数据对应的帧图像数据和环境变化因子；

基于所述帧图像数据和所述环境变化因子，实现对构建的对抗生成网络的训练，所述对抗生成网络的训练目标至少包括学习环境变化因子对所述帧图像数据的影响，以便基于输入的帧图像数据生成多个不同环境的增广帧图像数据；

基于训练后的所述对抗生成网络，输出与所述帧图像数据对应的增广帧图像数据。

在本实施方式的一个实施例中，对获取到的基础数据进行分析，得到所述基础数据对应的帧图像数据和环境变化因子之前，所述方法还包括：

获取图像采集设备采集到的视频数据，所述视频数据中包含拍摄目标对象的至少一个拍摄场景；

将包含所述目标对象的视频数据确定为基础数据。

在本实施方式的一个实施例中，对获取到的基础数据进行分析，得到所述基础数据对应的帧图像数据和环境变化因子，包括：

对获取到的基础数据进行逐帧切分操作，得到所述基础数据对应的帧图像数据；

基于图像信息对所述帧图像数据进行分析，得到所述帧图像数据对应的环境变化因子。

在本实施方式的一个实施例中，基于图像信息对所述帧图像数据进行分析，得到所述帧图像数据对应的环境变化因子，包括：

从所述帧图像数据中获取图像信息，所述图像信息至少包括以下之一：图像亮度、图像对比度和旋转角度；

在本实施方式的一个实施例中，基于所述帧图像数据和所述环境变化因子，实现对构建的对抗生成网络的训练之前，所述方法还包括：

基于神经网络模型构建包含生成器和判别器的对抗生成网络，其中，所述生成器用于对输入的所述帧图像数据和所述环境变化因子进行处理，得到增广数据，并向所述判别器输入所述增广数据。

在本实施方式的一个实施例中，所述生成器包含双层编码器和解码器，其中，所述双层编码器用于对输入的所述帧图像数据和所述环境变化因子进行处理，得到变换数据；所述解码器用于对所述变换数据进行处理，得到增广数据。

在本实施方式的一个实施例中，所述双层编码器包含第一编码器、仿射变换模块以及第二编码器，其中：

所述第一编码器，用于对输入的所述帧图像数据和所述环境变化因子进行数据处理，得到所述帧图像数据对应的第一特征向量；

所述仿射变换模块，用于对所述第一特征向量进行仿射变换处理，得到所述第一特征向量对应的第二特征向量；

所述第二编码器，用于对输入的所述帧图像数据、所述环境变换因子和所述第二特征向量进行数据处理，得到所述第二特征向量对应的变换数据。

在本实施方式的一个实施例中，基于所述帧图像数据和所述环境变化因子，实现对构建的对抗生成网络的训练的方式具体为：

基于所述对抗生成网络的代价函数以及所述帧图像数据和所述环境变化因子，以所述帧图像数据中的帧图像与所述对抗生成网络输出的增广图像的预测误差处于预设阈值范围内为目标，实现对所述对抗生成网络的训练。

在本发明实施方式的第二方面中，提供了一种基于深度学习的数据增广系统，所述系统包括基于神经网络模型构建的对抗生成网络，所述对抗生成网络包括生成器和判别器，其中：

所述生成器，被配置为对输入的帧图像数据和环境变化因子进行处理，得到增广数据；

所述判别器，被配置为对所述增广数据与所述帧图像数据进行判别，得到判别结果。

在本实施方式的一个实施例中，所述对抗生成网络，被配置为基于所述对抗生成网络的代价函数以及所述帧图像数据和所述环境变化因子，以所述帧图像数据中的帧图像与所述对抗生成网络输出的增广图像的预测误差处于预设阈值范围内为目标，实现对所述对抗生成网络的训练。

在本实施方式的一个实施例中，所述帧图像数据通过对获取到的基础数据进行逐帧切分操作得到的；所述环境变化因子通过对所述帧图像数据基于图像信息进行分析得到的，其中，所述图像信息从所述帧图像数据中获取得到，所述图像信息至少包括以下之一：图像亮度、图像对比度和旋转角度。

在本实施方式的一个实施例中，所述基础数据为图像采集设备采集到的包含目标对象的视频数据，所述视频数据中包含拍摄所述目标对象的至少一个拍摄场景。

在本实施方式的一个实施例中，所述生成器包含双层编码器和解码器，其中：

所述双层编码器，被配置为对输入的帧图像数据和环境变化因子进行处理，得到变换数据；

所述解码器，被配置为对所述变换数据进行处理，得到增广数据。

所述第一编码器，被配置为对输入的帧图像数据和环境变化因子进行数据处理，得到所述帧图像数据对应的第一特征向量；

所述仿射变换模块，被配置为对所述第一特征向量进行仿射变换处理，得到所述第一特征向量对应的第二特征向量；

所述第二编码器，被配置为对输入的所述帧图像数据、所述环境变换因子和所述第二特征向量进行数据处理，得到所述第二特征向量对应的变换数据。

在本发明实施方式的第三方面中，提供了一种存储有程序的存储介质，其中，所述存储介质存储有计算机程序，所述计算机程序在被处理器执行时能够实现第一方面中任一项所述的方法。

在本发明实施方式的第四方面中，提供了一种计算设备，包括第三方面所述的存储介质。

根据本发明实施方式的基于深度学习的数据增广方法、系统、介质和计算设备，能够对采集到的基础数据进行分析得到对应的帧图像数据和环境变化因子，并且基于得到的基础数据对应的帧图像数据和环境变化因子实现对抗生成网络的训练，对抗生成网络可以对帧图像数据进行处理，得到受环境变化因子影响的多个不同环境的增广帧图像数据，即可以通过训练后的对抗生成网络能够生成丰富多样的增广帧图像数据集，从而使得基于增广帧图像数据训练得到的神经网络模型输出的结果更加准确。

附图说明

通过参考附图阅读下文的详细描述，本发明示例性实施方式的上述以及其他目的、特征和优点将变得易于理解。在附图中，以示例性而非限制性的方式示出了本发明的若干实施方式，其中：

图1为本发明一实施例提供的基于深度学习的数据集增广方法的流程示意图；

图2为本发明另一实施例提供的基于深度学习的数据集增广方法的流程示意图；

图3为本发明一实施例提供的基于深度学习的数据增广系统的结构示意图；

图4为本发明一实施例中的对抗生成网络中生成器的结构示意图；

图5示意性地示出了本发明实施例的一种介质的结构示意图；

图6示意性地示出了本发明实施例的一种计算设备的结构示意图。

在附图中，相同或对应的标号表示相同或对应的部分。

具体实施方式

下面将参考若干示例性实施方式来描述本发明的原理和精神。应当理解，给出这些实施方式仅仅是为了使本领域技术人员能够更好地理解进而实现本发明，而并非以任何方式限制本发明的范围。相反，提供这些实施方式是为了使本公开更加透彻和完整，并且能够将本公开的范围完整地传达给本领域的技术人员。

本领域技术人员知道，本发明的实施方式可以实现为一种系统、装置、设备、方法或计算机程序产品。因此，本公开可以具体实现为以下形式，即：完全的硬件、完全的软件(包括固件、驻留软件、微代码等)，或者硬件和软件结合的形式。

根据本发明的实施方式，提出了一种基于深度学习的数据增广方法、系统、介质和计算设备。

在本文中，需要理解的是，附图中的任何元素数量均用于示例而非限制，以及任何命名都仅用于区分，而不具有任何限制含义。

下面参考本发明的若干代表性实施方式，详细阐释本发明的原理和精神。

示例性方法

下面参考图1，图1为本发明一实施例提供的基于深度学习的数据增广方法的流程示意图。需要注意的是，本发明的实施方式可以应用于适用的任何场景。

图1所示的本发明一实施例提供的基于深度学习的数据增广方法的流程，包括：

步骤S101，对获取到的基础数据进行分析，得到所述基础数据对应的帧图像数据和环境变化因子；

步骤S102，基于所述帧图像数据和所述环境变化因子，实现对构建的对抗生成网络的训练，所述对抗生成网络的训练目标至少包括学习环境变化因子对所述帧图像数据的影响，以便基于输入的帧图像数据生成多个不同环境的增广帧图像数据；

步骤S103，基于训练后的所述对抗生成网络，输出与所述帧图像数据对应的增广帧图像数据。

本申请中提出的基于深度学习的数据增广方法所针对的是基于神经网络模型构建的对抗生成网络，包括但不限于目标检测、目标跟踪、场景拓展等各个适用不同应用场景的对抗生成网络。

本发明能够对采集到的基础数据进行分析，并且基于得到的基础数据对应的帧图像数据和环境变化因子实现对抗生成网络的训练，对抗生成网络可以对帧图像数据进行处理，得到与原始帧图像数据的环境变化因子不同的增广帧图像数据，即可以通过训练后的对抗生成网络生成多个不同环境或场景下的增广帧图像数据，从而使得基于增广帧图像数据训练得到的神经网络模型能够输出更加准确的结果。

下面结合附图说明如何对少量基础数据进行数据增广，以使基于增广数据进行训练的模型的结果更加准确：

本发明实施例中，基础数据可以为采集到的包含目标对象的视频数据，基础数据可以通过预先设置的光学传感器对目标对象进行跟踪采集，得到包含目标对象的视频数据，目标对象可以为笔尖、车辆、动植物等物体，对于目标对象的选择不做限定，但是对于对同一个对抗生成网络进行训练的基础数据来说，基础数据中包含的目标对象为同一个目标对象。

本发明实施例中，基础数据中包含视频数据可以为在相同场景或不同场景下采集到的包含目标对象的视频数据，相同场景可以为拍摄光照、拍摄位置、拍摄角度等外界拍摄条件都相同的拍摄场景，不同场景可以为拍摄光照、拍摄位置、拍摄角度等外界拍摄条件至少存在一个不同的拍摄场景。

以及，基础数据可以为视频数据，视频数据通常是由多帧图像组合得到的，因此可以从基础数据中得到对应的帧图像数据，可见基础数据对应的帧图像数据中可以包含多帧图像，由于每帧图像中包含的目标对象的拍摄条件都存在着不同，因此，可以对帧图像数据进行分析，从而得到帧图像数据中的每帧图像对应的不同拍摄条件下的环境数据，环境数据可以为每帧包含目标对象的图像的亮度、对比度、色度以及目标对象的旋转角度等一种或多种数据，进而可以对得到的不同的环境数据进行分析计算，得到帧图像数据对应的环境变化因子。更进一步，可以通过建立模型的方式对得到的不同的环境数据进行分析计算(例如对环境数据进行平均处理等)，得到帧图像数据对应的环境变化因子，以使得到的环境变化因子与基础数据中的拍摄条件更加吻合。

本发明实施例中，对抗生成网络可以通过神经网络模型进行构建，对抗生成网络可以为U-Net网络(Convolutional Networks for Biomedical Image Segmentation)，可以基于帧图像数据和环境变化因子对对抗生成网络进行训练，以使训练得到的对抗生成网络基于帧图像数据输出的增广图像与帧图像数据中的帧图像的误差处于预设范围内，以提升对抗生成网络输出的增广图像的合理性。

更进一步，训练后的对抗生成网络可以基于输入的帧图像数据得到与帧图像数据对应的增广图像数据，其中，增广图像数据中可以包含多个增广图像，且得到的多个增广图像可以包含目标对象处于多个不同场景下的图像，从而可以基于增广图像数据扩充以帧图像数据为基础的训练数据，通过扩充后的训练数据对需要训练的模型进行训练，可以提升对模型的训练效果。

请参阅图2，图2为本发明另一实施例提供的基于深度学习的数据增广方法的流程示意图，图2所示的本发明另一实施例提供的基于深度学习的数据增广方法的流程包括：

步骤S201，获取图像采集设备采集到的视频数据，所述视频数据中包含拍摄目标对象的至少一个拍摄场景；

步骤S202，将包含所述目标对象的视频数据确定为基础数据。

实施上述的步骤S201～步骤S202，可以从采集到的视频数据中识别出包含拍摄目标对象的视频数据，并且可以将包含拍摄目标对象的视频数据确定为基础数据，从而保证了得到的基础数据中均包含拍摄目标对象，避免出现无效的基础数据，提升了基础数据的有效性。

本发明实施例中，可以通过图像采集设备(例如相机、图像传感器等)采集到包含目标对象的视频数据，且对目标对象进行拍摄的拍摄场景可以有一个或多个，由于视频数据中可能存在目标对象未出现的情况，因此，可以从视频数据中将目标对象未出现的数据进行删除，从而将剩余的视频数据确定为基础数据，从而保证了基础数据中的每一帧图像均包含目标对象。

步骤S203，对获取到的基础数据进行逐帧切分操作，得到所述基础数据对应的帧图像数据；

步骤S204，基于图像信息对所述帧图像数据进行分析，得到所述帧图像数据对应的环境变化因子；

实施上述的步骤S203～步骤S204，可以得到基础数据对应的每一帧的帧图像数据，基于从每一帧的帧图像数据中获取到的图像信息对帧图像数据进行分析，得到帧图像数据对应的环境变化因子，从而提升环境变化因子计算的准确性。

本发明实施例中，基础数据可以为视频数据，因此，可以将基础数据逐帧切分为一帧一帧的图像(可以通过预先编写的帧拆分插件对基础数据进行拆分)，还可以构建帧图像数据集，将切分得到的每一帧的帧图像存储至帧图像数据集中，得到基础数据对应的帧图像数据。

作为一种可选的实施方式，步骤S204基于图像信息对所述帧图像数据进行分析，得到所述帧图像数据对应的环境变化因子的方式具体可以包含以下步骤：

其中，实施这种实施方式，图像信息可以为图像亮度、图像对比度和旋转角度中的至少一种，通过对帧图像数据的不同类型的图像信息的获取，可以更加全面的分析得到帧图像数据对应的环境变化因子。

本发明实施例中，图像信息可以从帧图像数据中获取到，图像信息可以为帧图像数据中的任意一帧帧图像的图像亮度、图像对比度和旋转角度中的至少一种，此外，图像信息还可以为图像色度、图像灰度等，对此，本发明实施例不做限定。帧图像数据可以为在相同场景或不同场景下采集到的包含目标对象的数据，相同场景可以为拍摄光照、拍摄位置、拍摄角度等外界拍摄条件都相同的拍摄场景，不同场景可以为拍摄光照、拍摄位置、拍摄角度等外界拍摄条件至少存在一个不同的拍摄场景，因此，从每一帧帧图像数据中得到的图像信息都可以是不同的。

更进一步，基于得到的图像信息可以对帧图像数据进行分析，得到帧图像数据对应的环境变化因子，分析的方式可以为通过建立模型得到的图像信息进行平均处理，以得到帧图像数据对应的环境变化因子。

步骤S205，基于神经网络模型构建包含生成器和判别器的对抗生成网络，其中，所述生成器用于对输入的所述帧图像数据和所述环境变化因子进行处理，得到增广数据，并向所述判别器输入所述增广数据。

实施上述的步骤S205，可以通过生成器和判别器购进对抗生成网络，通过生成器和判别器对输入的帧图像数据和环境变化因子进行处理，可以对对抗生成网络进行更加有效的训练。

本发明实施例中，所述生成器包含双层编码器和解码器，其中，所述双层编码器用于对输入的所述帧图像数据和所述环境变化因子进行处理，得到变换数据；所述解码器用于对所述变换数据进行处理，得到增广数据，可以通过生成器中包含的双层编码器和解码器对输入的帧图像数据和环境变化因子进行特征挖掘并降低运算纬度，从而得到变换数据，进而通过解码器对变换数据进行处理，得到增广数据，提升了增广数据的多样性和准确性。

本发明实施例中，神经网络模型构建的对抗生成网络的结构包含生成器和判别器，可以向生成器中输入帧图像数据和环境变化因子，以使生成器基于环境变价因子对输入的帧图像数据进行一系列的卷积操作后从输入的帧图像数据中抽取得到特征向量，再对得到的特征向量进行一系列的反卷积操作，将特征向量恢复为与输入的帧图像数据的图像尺寸相同的增广数据，以及将得到的增广数据输入至判别器中，判别器可以分辨输入的增广数据是生成的样本还是自然的样本，基于判别器的判别结果可以对生成器进行训练，以使生成器生成的增广数据与自然样本更加接近。

具体的，生成器中可以包含双层编码器和解码器，第一层编码器可以将输入的帧图像数据、环境变化因子以及仿射变换进行结合，得到帧图像数据对应的特征向量，即可以对输入的帧图像数据和环境变化因子进行卷积操作，得到帧图像数据对应的特征向量，再对该特征向量进行仿射变换，得到经历了仿射变换后的特征向量；第二层编码器与U-Net网络中的编码器实现同样功能，可以对输入的帧图像数据、环境变化因子以及经历仿射变换后的特征向量进行卷积操作，得到最终的变换数据；可见，双层的编码器结构可以实现对帧图像数据进行特征挖掘，还降低了编码器的运算维度；此外，解码器可以对得到的变换数据进行反卷积操作，将变换数据恢复为与输入的帧图像数据的图像尺寸相同的增广数据，以及将得到的增广数据输入至判别器中。

更进一步，所述双层编码器包含第一编码器、仿射变换模块以及第二编码器，其中：

其中，实施这种实施方式，可以通过双层编码器中包含的第一编码器、仿射变换模块以及第二编码器对帧图像数据和环境变化因子进行多次处理，从而使得得到的变换数据挖掘到的特征更加准确，以及降低了运算的维度。

本发明实施例中，双层编码器中可以包含第一编码器、仿射变换模块以及第二编码器，第一编码器可以对输入的帧图像数据和环境变化因子进行卷积操作，得到帧图像数据对应的第一特征向量；并且可以通过仿射变换模块对第一特征向量进行仿射变换处理，得到第一特征向量对应的第二特征向量，通过对第一特征向量进行仿射变换处理，可以增加新生成的第二特征向量的复杂度、以及合理性；在对抗生成网络中加入仿射变换模块后，可以在保证对抗生成网络是一个端到端完全可微的网络结构的同时，还可以使最终得到的变换后的图像与初始输入的帧图像仍属于同一类图像，但对于判别器来说是新的、更复杂的样本。第二编码器可以对输入的帧图像数据、环境变换因子和第二特征向量再次进行卷积操作，以得到第二特征向量对应的变换数据。

步骤S206，基于所述对抗生成网络的代价函数以及所述帧图像数据和所述环境变化因子，以所述帧图像数据中的帧图像与所述对抗生成网络输出的增广图像的预测误差处于预设阈值范围内为目标，实现对所述对抗生成网络的训练；

实施上述的步骤S206，可以通过对抗生成网络的代价函数以及帧图像数据和环境变化因子对对抗生成网络进行训练，以使对抗生成网络的预测误差处于预设范围内，从而提升了对抗生成网络预测结果的准确性。

本发明实施例中，可以基于对抗生成网络的代价函数(即损失函数)、帧图像数据以及环境变化因子对对抗生成网络进行训练，以使对抗生成网络生成的增广数据与输入对抗生成网络的帧图像数据的误差处于预设范围内，即可以使得对抗生成网络生成的增广数据与自然样本较为相似，从而可以将增广数据作为训练数据来训练神经网络模型，以使基于增广数据进行训练的模型的结果更加准确。

具体的，在对对抗生成网络进行训练的过程中，是对对抗生成网络中的生成器G和判别器D分别进行优化的，首先，对生成器G进行优化时的代价函数的表达式为：

其中，代价函数为log(1-D(G(z)))，z为随机的输入，G(z)表示生成的样本，D(G(z))表示判别结果，对生成器G进行优化的过程中，需要使判别结果D(G(z))接近1，即需要总数值最小。

以及，在对判别器D进行优化时的代价函数的表达式为：

其中，代价函数为log(D(x))，x表示真实样本(例如帧图像数据)，D(x)表示对真实样本进行判别，此时，需要D(x)的判别结果趋向于1，以及，z为随机的输入，G(z)表示生成的样本，D(G(z))表示判别结果，对于此处的判别结果需要趋近于0，即在对判别器D进行优化的过程中，使得最终得到的总数值最大。

本发明实施例中，对抗生成网络在训练过程中通过比较增广图像与帧图像，不断地调整对抗生成网络的权重与偏差，直到对抗生成网络输出的预测的误差达到预设阈值范围内，可以认为对抗生成网络训练完成，并且可以保存当前的训练参数(例如对抗生成网络的网络结构、网络内的权重和偏差值等参数)。

步骤S207，基于训练后的所述对抗生成网络，输出与所述帧图像数据对应的增广帧图像数据。

本发明实施例能够对少量基础数据进行数据增广，以使基于增广数据进行训练的模型的结果更加准确。此外，本发明实施例提升了基础数据的有效性。此外，本发明实施例可以提升环境变化因子计算的准确性。此外，本发明实施例可以更加全面的分析得到帧图像数据对应的环境变化因子。此外，本发明实施例可以对对抗生成网络进行更加有效的训练。此外，本发明实施例提升了增广数据的多样性和准确性。此外，本发明实施例使得得到的变换数据挖掘到的特征更加准确，以及降低了运算的维度。此外，本发明实施例提升了对抗生成网络预测结果的准确性。

本发明实施例主要应用于以为笔尖为目标对象的跟踪技术的数据集制备过程，即需要得到大量的针对笔尖的跟踪图像或跟踪视频，并基于跟踪图像或跟踪视频得到大量的不同环境下包含笔尖的图像数据集，然而，针对现有的包含笔尖的图像数据集中图像数量有限、以及笔尖所处环境复杂多变等不利因素，本发明可以使用深度学习技术对目前的包含笔尖的图像数据集进行有效增广，得到丰富多样的包含笔尖的增广帧图像数据集。相比于传统的增广方法，本发明可以通过对抗生成网络的不断学习，模拟出更加自然的包含笔尖的增广图像，提升了得到的增广图像的质量，为后续技术的实现提供支撑。与使用纯人工手段增广图像的方法相比，本发明仅使用相对较少的包含笔尖的图像数据结合人力就完成了更加真实的数据增广效果，在提升效率的同时也有效降低了成本。

示例性系统

在介绍了本发明示例性实施方式的方法之后，接下来，参考图3对本发明示例性实施方式的一种基于深度学习的数据增广系统进行说明，该系统包括基于神经网络模型构建的对抗生成网络30，所述对抗生成网络30包括生成器301和判别器302，其中：

所述生成器301，被配置为对输入的帧图像数据和环境变化因子进行处理，得到增广数据；

所述判别器302，被配置为对所述增广数据与所述帧图像数据进行判别，得到判别结果。

作为一种可选的实施方式，所述对抗生成网络30，被配置为基于所述对抗生成网络30的代价函数以及所述帧图像数据和所述环境变化因子，以所述帧图像数据中的帧图像与所述对抗生成网络30输出的增广图像的预测误差处于预设阈值范围内为目标，实现对所述对抗生成网络30的训练。

其中，实施这种实施方式，可以通过对抗生成网络的代价函数以及帧图像数据和环境变化因子对对抗生成网络进行训练，以使对抗生成网络的预测误差处于预设范围内，从而提升了对抗生成网络预测结果的准确性。

作为一种可选的实施方式，所述帧图像数据通过对获取到的基础数据进行逐帧切分操作得到的；所述环境变化因子通过对所述帧图像数据基于图像信息进行分析得到的，其中，所述图像信息从所述帧图像数据中获取得到，所述图像信息至少包括以下之一：图像亮度、图像对比度和旋转角度。

作为一种可选的实施方式，所述基础数据为图像采集设备采集到的包含目标对象的视频数据，所述视频数据中包含拍摄所述目标对象的至少一个拍摄场景。

其中，实施这种实施方式，可以从采集到的视频数据中识别出包含拍摄目标对象的视频数据，并且可以将包含拍摄目标对象的视频数据确定为基础数据，从而保证了得到的基础数据中均包含拍摄目标对象，避免出现无效的基础数据，提升了基础数据的有效性。

请一并参阅图4，图4为对抗生成网络30中生成器301的结构示意图。图4中的生成器301包含双层编码器3011和解码器3012，双层编码器3011包含第一编码器30111、仿射变换模块30112以及第二编码器30113，具体的：

所述双层编码器3011，被配置为对输入的帧图像数据和环境变化因子进行处理，得到变换数据；

所述解码器3012，被配置为对所述变换数据进行处理，得到增广数据。

其中，实施这种实施方式，可以通过生成器中包含的双层编码器和解码器对输入的帧图像数据和环境变化因子进行特征挖掘并降低运算纬度，从而得到变换数据，进而通过解码器对变换数据进行处理，得到增广数据，提升了增广数据的多样性和准确性。

所述第一编码器30111，被配置为对输入的帧图像数据和环境变化因子进行数据处理，得到所述帧图像数据对应的第一特征向量；

所述仿射变换模块30112，被配置为对所述第一特征向量进行仿射变换处理，得到所述第一特征向量对应的第二特征向量；

所述第二编码器30113，被配置为对输入的所述帧图像数据、所述环境变换因子和所述第二特征向量进行数据处理，得到所述第二特征向量对应的变换数据。

示例性介质

在介绍了本发明示例性实施方式的方法和系统之后，接下来，参考图5对本发明示例性实施方式的计算机可读存储介质进行说明，请参考图5，其示出的计算机可读存储介质为光盘50，其上存储有计算机程序(即程序产品)，所述计算机程序在被处理器运行时，会实现上述方法实施方式中所记载的各步骤，例如，对获取到的基础数据进行分析，得到所述基础数据对应的帧图像数据和环境变化因子；基于所述帧图像数据和所述环境变化因子，实现对构建的对抗生成网络的训练；基于训练后的所述对抗生成网络，输出与所述帧图像数据对应的增广帧图像数据；各步骤的具体实现方式在此不再重复说明。

需要说明的是，所述计算机可读存储介质的例子还可以包括，但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他光学、磁性存储介质，在此不再一一赘述。

示例性计算设备

在介绍了本发明示例性实施方式的方法、系统和介质之后，接下来，参考图6对本发明示例性实施方式的用于基于深度学习的数据增广的计算设备。

图6示出了适于用来实现本发明实施方式的示例性计算设备60的框图，该计算设备60可以是计算机系统或服务器。图6显示的计算设备60仅仅是一个示例，不应对本发明实施例的功能和使用范围带来任何限制。

如图6所示，计算设备60的组件可以包括但不限于：一个或者多个处理器或者处理单元601，系统存储器602，连接不同系统组件(包括系统存储器602和处理单元601)的总线603。

计算设备60典型地包括多种计算机系统可读介质。这些介质可以是任何能够被计算设备60访问的可用介质，包括易失性和非易失性介质，可移动的和不可移动的介质。

系统存储器602可以包括易失性存储器形式的计算机系统可读介质，例如随机存取存储器(RAM)6021和/或高速缓存存储器6022。计算设备60可以进一步包括其它可移动/不可移动的、易失性/非易失性计算机系统存储介质。仅作为举例，ROM6023可以用于读写不可移动的、非易失性磁介质(图6中未显示，通常称为“硬盘驱动器”)。尽管未在图6中示出，可以提供用于对可移动非易失性磁盘(例如“软盘”)读写的磁盘驱动器，以及对可移动非易失性光盘(例如CD-ROM，DVD-ROM或者其它光介质)读写的光盘驱动器。在这些情况下，每个驱动器可以通过一个或者多个数据介质接口与总线603相连。系统存储器602中可以包括至少一个程序产品，该程序产品具有一组(例如至少一个)程序模块，这些程序模块被配置以执行本发明各实施例的功能。

具有一组(至少一个)程序模块6024的程序/实用工具6025，可以存储在例如系统存储器602中，且这样的程序模块6024包括但不限于：操作系统、一个或者多个应用程序、其它程序模块以及程序数据，这些示例中的每一个或某种组合中可能包括网络环境的实现。程序模块6024通常执行本发明所描述的实施例中的功能和/或方法。

计算设备60也可以与一个或多个外部设备604(如键盘、指向设备、显示器等)通信。这种通信可以通过输入/输出(I/O)接口605进行。并且，计算设备60还可以通过网络适配器606与一个或者多个网络(例如局域网(LAN)，广域网(WAN)和/或公共网络，例如因特网)通信。如图6所示，网络适配器606通过总线603与计算设备60的其它模块(如处理单元601等)通信。应当明白，尽管图6中未示出，可以结合计算设备60使用其它硬件和/或软件模块。

处理单元601通过运行存储在系统存储器602中的程序，从而执行各种功能应用以及数据处理，例如，对获取到的基础数据进行分析，得到所述基础数据对应的帧图像数据和环境变化因子；基于所述帧图像数据和所述环境变化因子，实现对构建的对抗生成网络的训练；基于训练后的所述对抗生成网络，输出与所述帧图像数据对应的增广帧图像数据。各步骤的具体实现方式在此不再重复说明。应当注意，尽管在上文详细描述中提及了基于深度学习的数据增广系统的若干单元/模块或子单元/子模块，但是这种划分仅仅是示例性的并非强制性的。实际上，根据本发明的实施方式，上文描述的两个或更多单元/模块的特征和功能可以在一个单元/模块中具体化。反之，上文描述的一个单元/模块的特征和功能可以进一步划分为由多个单元/模块来具体化。

在本发明的描述中，需要说明的是，术语“第一”、“第二”、“第三”仅用于描述目的，而不能理解为指示或暗示相对重要性。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的系统、装置和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

在本发明所提供的几个实施例中，应该理解到，所揭露的系统、装置和方法，可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，又例如，多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些通信接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本发明各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。

所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个处理器可执行的非易失的计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

最后应说明的是：以上所述实施例，仅为本发明的具体实施方式，用以说明本发明的技术方案，而非对其限制，本发明的保护范围并不局限于此，尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，其依然可以对前述实施例所记载的技术方案进行修改或可轻易想到变化，或者对其中部分技术特征进行等同替换；而这些修改、变化或者替换，并不使相应技术方案的本质脱离本发明实施例技术方案的精神和范围，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应所述以权利要求的保护范围为准。

此外，尽管在附图中以特定顺序描述了本发明方法的操作，但是，这并非要求或者暗示必须按照该特定顺序来执行这些操作，或是必须执行全部所示的操作才能实现期望的结果。附加地或备选地，可以省略某些步骤，将多个步骤合并为一个步骤执行，和/或将一个步骤分解为多个步骤执行。

通过上述的描述，本发明的实施例提供了以下的技术方案，但不限于此：

1.一种基于深度学习的数据增广方法，包括：

2.如方案1所述的基于深度学习的数据增广方法，对获取到的基础数据进行分析，得到所述基础数据对应的帧图像数据和环境变化因子之前，所述方法还包括：

将包含所述目标对象的视频数据确定为基础数据。

3.如方案1或2所述的基于深度学习的数据增广方法，对获取到的基础数据进行分析，得到所述基础数据对应的帧图像数据和环境变化因子，包括：

4.如方案3所述的基于深度学习的数据增广方法，基于图像信息对所述帧图像数据进行分析，得到所述帧图像数据对应的环境变化因子，包括：

5.如方案1或2所述的基于深度学习的数据增广方法，基于所述帧图像数据和所述环境变化因子，实现对构建的对抗生成网络的训练之前，所述方法还包括：

6.如方案5所述的基于深度学习的数据增广方法，所述生成器包含双层编码器和解码器，其中，所述双层编码器用于对输入的所述帧图像数据和所述环境变化因子进行处理，得到变换数据；所述解码器用于对所述变换数据进行处理，得到增广数据。

7.如方案6所述的基于深度学习的数据增广方法，所述双层编码器包含第一编码器、仿射变换模块以及第二编码器，其中：

8.如方案7所述的基于深度学习的数据增广方法，基于所述帧图像数据和所述环境变化因子，实现对构建的对抗生成网络的训练的方式具体为：

9.一种基于深度学习的数据增广系统，所述系统包括基于神经网络模型构建的对抗生成网络，所述对抗生成网络包括生成器和判别器，其中：

10.如方案9所述的基于深度学习的数据增广系统，所述对抗生成网络，被配置为基于所述对抗生成网络的代价函数以及所述帧图像数据和所述环境变化因子，以所述帧图像数据中的帧图像与所述对抗生成网络输出的增广图像的预测误差处于预设阈值范围内为目标，实现对所述对抗生成网络的训练。

11.如方案10所述的基于深度学习的数据增广系统，所述帧图像数据通过对获取到的基础数据进行逐帧切分操作得到的；所述环境变化因子通过对所述帧图像数据基于图像信息进行分析得到的，其中，所述图像信息从所述帧图像数据中获取得到，所述图像信息至少包括以下之一：图像亮度、图像对比度和旋转角度。

12.如方案11所述的基于深度学习的数据增广系统，所述基础数据为图像采集设备采集到的包含目标对象的视频数据，所述视频数据中包含拍摄所述目标对象的至少一个拍摄场景。

13.如方案9～12任一项所述的基于深度学习的数据增广系统，所述生成器包含双层编码器和解码器，其中：

14.如方案13所述的基于深度学习的数据增广系统，所述双层编码器包含第一编码器、仿射变换模块以及第二编码器，其中：

15.一种存储有程序的存储介质，其中，所述存储介质存储有计算机程序，所述计算机程序被处理器执行时实现如方案1-8中的任一项所述的基于深度学习的数据增广方法。

16.一种计算设备，包括如方案15所述的存储介质。

Claims

1.一种基于深度学习的数据增广方法，包括：

2.根据权利要求1所述的基于深度学习的数据增广方法，对获取到的基础数据进行分析，得到所述基础数据对应的帧图像数据和环境变化因子之前，所述方法还包括：

将包含所述目标对象的视频数据确定为基础数据。

3.根据权利要求1或2所述的基于深度学习的数据增广方法，对获取到的基础数据进行分析，得到所述基础数据对应的帧图像数据和环境变化因子，包括：

4.根据权利要求3所述的基于深度学习的数据增广方法，基于图像信息对所述帧图像数据进行分析，得到所述帧图像数据对应的环境变化因子，包括：

5.根据权利要求1或2所述的基于深度学习的数据增广方法，基于所述帧图像数据和所述环境变化因子，实现对构建的对抗生成网络的训练之前，所述方法还包括：

6.根据权利要求5所述的基于深度学习的数据增广方法，所述生成器包含双层编码器和解码器，其中，所述双层编码器用于对输入的所述帧图像数据和所述环境变化因子进行处理，得到变换数据；所述解码器用于对所述变换数据进行处理，得到增广数据。

7.根据权利要求6所述的基于深度学习的数据增广方法，所述双层编码器包含第一编码器、仿射变换模块以及第二编码器，其中：

8.一种基于深度学习的数据增广系统，所述系统包括基于神经网络模型构建的对抗生成网络，所述对抗生成网络包括生成器和判别器，其中：

9.一种存储有程序的存储介质，其中，所述存储介质存储有计算机程序，所述计算机程序被处理器执行时实现如权利要求1-7中的任一项所述的基于深度学习的数据增广方法。

10.一种计算设备，包括如权利要求9所述的存储介质。