CN111695624B

CN111695624B - 数据增强策略的更新方法、装置、设备及存储介质

Info

Publication number: CN111695624B
Application number: CN202010519507.3A
Authority: CN
Inventors: 田柯宇; 林宸; 孙明; 闫俊杰
Original assignee: Beijing Sensetime Technology Development Co Ltd
Current assignee: Beijing Sensetime Technology Development Co Ltd
Priority date: 2020-06-09
Filing date: 2020-06-09
Publication date: 2024-04-16
Anticipated expiration: 2040-06-09
Also published as: KR20220004692A; TWI781576B; TW202147180A; JP2022541370A; WO2021248791A1; CN111695624A

Abstract

本公开的实施例提供一种数据增强策略的更新方法、装置、设备及存储介质。该方法包括：获取初始的数据增强策略，根据数据增强策略和预设的训练数据，对预设的经过第一阶段训练的数据处理模型进行第二阶段训练，根据经过第二阶段训练的数据处理模型，对数据增强策略进行更新，以得到更新的数据增强策略。本公开的实施例的方法，提高了数据增强策略的生成效率。

Description

数据增强策略的更新方法、装置、设备及存储介质

技术领域

本公开的实施例涉及机器学习领域，尤其涉及一种数据增强策略的更新方法、装置、设备及存储介质。

背景技术

深度学习技术的应用效果依赖于大量的训练数据，在数量有限的训练数据上训练得到的数据处理模型，通常会出现过度拟合现象。为了提高数据处理模型的训练效果、并降低模型训练所需的人力，自动数据增强技术逐渐被用来提高训练数据的数据量和多样性。

自动数据增强技术是指通过自动机器学习技术自动化数据增强过程，因此，找到一个合适的数据增强策略非常关键。通常的，可基于数据处理模型的训练效果，通过强化学习算法对数据增强策略进行优化。

由于训练数据的量级通常比较大、且数据处理模型训练的也比较耗时，数据增强策略的生成效率还有待提高。

发明内容

本公开的实施例提供一种数据增强策略的更新方法、装置、设备及存储介质，用以解决数据增强策略的生成效率不高的问题。

第一方面，本公开的实施例提供一种数据增强策略的更新方法，包括：

获取初始的数据增强策略；

根据所述数据增强策略和预设的训练数据，对预设的经过第一阶段训练的数据处理模型进行第二阶段训练；

根据经过第二阶段训练的数据处理模型，对所述数据增强策略进行更新，以得到更新后的所述数据增强策略。

在第一方面的另一种可能的实现方式中，所述方法还包括：

获取第M次更新的所述数据增强策略，所述M大于等于1；

根据第M次更新的所述数据增强策略和所述训练数据，对所述经过第一阶段训练的数据处理模型进行第二阶段训练；

根据经过第二阶段训练的数据增强模型，对所述数据增强策略进行第M+1次更新。

在第一方面的另一种可能的实现方式中，所述初始的数据增强策略的数量为多个，各所述数据增强策略的更新并行进行；所述方法还包括：

每预设的更新次数，根据所述经过第二阶段训练的数据处理模型，在更新后的各所述数据增强策略中，选取最优的数据增强策略；

在更新后的所述数据增强策略中，将除所述最优的数据增强策略之外的各所述数据增强策略分别替换为所述最优的数据增强策略。

在第一方面的另一种可能的实现方式中，所述数据增强策略包括多个预设的数据增强操作；所述根据所述数据增强策略和预设的训练数据，对预设的经过第一阶段训练的数据处理模型进行第二阶段训练，包括：

按照各所述数据增强操作，依次对所述训练数据进行数据增强；

通过数据增强后的所述训练数据，对所述经过第一阶段训练的数据处理模型进行第二阶段训练。

在第一方面的另一种可能的实现方式中，所述根据经过第二阶段训练的数据处理模型，对所述数据增强策略进行更新，包括：

根据所述经过第二阶段训练的数据处理模型，更新预设的策略模型；

通过更新后的所述策略模型，确定各个预设策略的选中概率；

按照各所述预设策略的选中概率，在所述预设策略中选取更新后的所述数据增强策略。

在第一方面的另一种可能的实现方式中，在所述数据增强策略的更新次数为多次的情况下，所述根据经过第二阶段训练的数据处理模型，更新预设的策略模型，包括：

根据预设的验证数据，对所述经过第二阶段训练的数据处理模型进行检验，得到检验结果；

获取所述数据增强策略的前N-1次更新中所述经过第二阶段的数据处理模型的历史检验结果，所述N为所述数据增强策略当前更新的总次数；

根据所述历史检验结果和所述检验结果，对所述策略模型进行更新。

在第一方面的另一种可能的实现方式中，所述根据所述历史检验结果和所述检验结果，对所述策略模型进行更新，包括：

计算所述历史检验结果的均值；

计算所述检验结果和所述均值的差值；

根据所述差值，对所述策略模型中的策略参数进行更新。

在第一方面的另一种可能的实现方式中，所述获取初始的数据增强策略之前，所述方法还包括：

在各个预设策略中，均匀随机选取所述第一阶段训练中的数据增强策略；

根据所述第一阶段训练中的数据增强策略和所述训练数据，对所述数据处理模型进行所述第一阶段训练。

第二方面，本公开的实施例提供一种数据处理方法，包括：

获取待处理数据；

通过预先训练好的数据处理模型，对所述待处理数据进行处理，所述数据处理模型依次经过第一阶段训练和第二阶段训练，在所述第二阶段训练中通过预设的数据增强策略和预设的训练数据对所述数据处理模型进行训练，所述数据增强策略采用如第一方面或第一方面各可能的实现方式所述的方法进行生成。

在第二方面的另一种可能的实现方式中，所述方法还包括：

根据所述训练数据，对所述数据处理模型进行所述第一阶段训练；

通过所述数据增强策略对所述训练数据进行数据增强；

根据数据增强后的所述训练数据，对经过所述第一阶段训练的数据处理模型进行所述第二阶段训练。

在第二方面的另一种可能的实现方式中，所述根据所述训练数据，对所述数据处理模型进行所述第一阶段训练，包括：

在各预设策略中，均匀随机选取所述第一阶段训练中的数据增强策略；

在第二方面的另一种可能的实现方式中，所述待处理数据和所述训练数据为图像数据或者文本数据。

第三方面，本公开的实施例提供一种数据增强策略的更新装置，包括：

获取模块，用于获取初始的数据增强策略；

训练模块，用于根据所述数据增强策略和预设的训练数据，对预设的经过第一阶段训练的数据处理模型进行第二阶段训练；

更新模块，用于根据经过第二阶段训练的数据处理模型，对所述数据增强策略进行更新，以得到更新后的所述数据增强策略。

第四方面，本公开的实施例提供一种数据处理装置，包括：

获取模块，用于获取待处理数据；

处理模块，用于通过预先训练好的数据处理模型，对所述待处理数据进行处理，所述数据处理模型依次经过第一阶段训练和第二阶段训练，在所述第二阶段训练中通过预设的数据增强策略和预设的训练数据对所述数据处理模型进行训练，所述数据增强策略采用如第一方面或第一方面各可能的实现方式所述的方法进行生成。

第五方面，本公开的实施例提供了一种电子设备，包括：

存储器和处理器；

所述存储器用于存储程序指令；

所述处理器用于调用所述存储器中的程序指令执行如第一方面、第一方面的各可能的实现方式、第二方面、或者第二方面的各可能的实现方式所述的方法。

第六方面，本公开的实施例提供了一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被执行时，实现如第一方面、第一方面的各可能的实现方式、第二方面、或者第二方面的各可能的实现方式所述的方法。

第七方面，本公开的实施例提供一种包含指令的程序产品，所述程序产品包括计算机程序，所述计算机程序被处理器执行时实现如第一方面、第一方面的各可能的实现方式、第二方面或者第二方面的各可能的实现方式所提供的方法。

本公开的实施例提供的数据增强策略的更新方法，数据处理模型的训练阶段分为第一阶段和第二阶段这前后两阶段，在更新数据增强策略时，基于数据增强策略和训练数据，对经过第一阶段训练的数据处理模型进行第二阶段训练，再基于经过第二阶段训练的数据处理模型更新数据增强策略，从而通过在数据增强策略的更新过程中无需对数据处理模型从头开始训练，在确保数据增强策略质量的同时，提高数据增强策略的生成效率。此外，生成的数据增强策略可适用于训练数据的同类数据，具备可迁移性。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，而非限制本公开。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本公开的实施例，并与说明书一起用于解释本公开的原理。

图1为数据增强与图像分类模型的训练效果之间的关系示例图；

图2为本公开一实施例提供的网络架构示意图；

图3为本公开一实施例提供的数据增强策略的更新方法的流程示意图；

图4为本公开另一实施例提供的数据增强策略的更新方法的流程示意图；

图5为本公开另一实施例提供的数据增强策略的更新方法的流程示意图；

图6为本公开另一实施例提供的数据增强策略的更新方法的流程示意图；

图7为本公开另一实施例提供的多个数据增强策略并行更新的示例图；

图8为本公开一实施例提供的数据处理方法的流程示意图；

图9为本公开一实施例提供的数据增强策略的更新装置的结构示意图；

图10为本公开一实施例提供的数据处理装置的结构示意图；

图11为本公开一实施例提供的电子设备的结构示意图；

图12为根据本实施例提供的数据增强策略的更新装置的框图。

通过上述附图，已示出本公开明确的实施例，后文中将有更详细的描述。这些附图和文字描述并不是为了通过任何方式限制本公开构思的范围，而是通过参考特定实施例为本领域技术人员说明本公开的概念。

具体实施方式

这里将详细地对示例性实施例进行说明，其示例表示在附图中。下面的描述涉及附图时，除非另有表示，不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本公开相一致的所有实施方式。相反，它们仅是与如所附权利要求书中所详述的、本公开的一些方面相一致的装置和方法的例子。

首先对本公开的实施例所涉及的名词进行解释：

第一阶段训练、第二阶段训练：是指按照数据处理模型的训练总次数，将数据处理模型的训练按照前后顺序划分为第一阶段训练和第二阶段训练，例如，预先设定数据处理模型的训练总次数为300次，则可以将前100次训练称为第一阶段训练，将后200次训练称为第二阶段训练。其中，对第一阶段训练中的训练次数和第二阶段训练中的训练次数不进行限制。

数据增强操作：是指对训练数据进行微调的操作，以增加训练数据的数据量和多样性，例如，以图像数据为例，对图像数据进行尺寸、色彩调整。

数据增强策略：是指对训练数据进行数据增强的方案。其中，数据增强策略包括数据增强操作。例如，数据增强策略中的数据增强操作为图像水平剪切、且图像水平剪切对应的剪切幅度为0.1宽度，即每次图像水平剪切的宽度为图像原始宽度的10％。

深度学习技术被广泛应用于多个领域并取得显著的成果。以图像视觉领域为例，深度学习技术能够胜任的任务有图像分类、目标检测、图像分割、人体姿态估计等。为出色完成这些任务，采用深度学习技术的数据处理模型通常需要在大量的训练数据上进行训练，否则训练得到的模型将出现过度拟合现象。因此，数据增强成为增加训练数据的数据量和多样性的常用方式，而设计合适的数据增强策略成为提高数据处理模型训练效果的关键因素。

一般的，可通过专业人士手动设计数据增强策略，但这种方式不仅时间成本和人员成本较高，且数据增强策略的复用性不高，通常只适用于训练特定的数据处理模型。自动生成数据增强策略的方式，相较于专业人士手动设计数据增强策略，不仅能够提高数据增强策略的生成效率，且能够生成更优的数据增强策略。

一般的，在自动生成数据增强策略的方式中，可依据数据处理模型的训练效果，通过强化学习算法对数据增强策略进行优化。发明人发现，在该方式中，需要不断地重复数据处理模型的整个训练过程，再加上训练数据的规模不小，整体的计算量较大、耗时较长，导致数据增强策略的生成效率不高。

在深度学习技术中，数据处理模型的过拟合通常发生在后期训练阶段。因此，发明人猜想：数据增强对数据处理模型的训练效果的提升，主要发生在数据处理模型的后期训练阶段。为了提高数据增强策略的生成效率、并确保基于该数据增强策略进行训练的数据处理模型的训练效果，发明人深入研究了基于数据增强策略的模型训练过程，对上述猜想进行验证。

以数据处理模型为图像分类模型、且图像分类模型的训练总次数为300次为例，发明人得到图1所示的结果。图1示出了数据增强与图像分类模型的训练效果之间的关系，横坐标为在图像分类模型的300次训练中的数据增强轮数，纵坐标为300次训练后的图像分类模型的分类准确度。虚线为训练后期的数据增强轮数与图像分类模型的分类准确度的关系，实线为训练前期的数据增强轮数与图像分类模型的分类准确度的关系。

其中，训练后期的数据增强轮数是从图像分类模型的最后一次训练往前连续计算，例如训练后期的数据增强轮数为50，则表示在图像分类模型的后50次训练进行数据增强。训练前期的数据增强轮数是从图像分类模型的第一次训练往后连续计算，例如训练前期的数据增强轮数为50，则表示在图像分类模型的前50次训练进行数据增强。

基于图1可以得到：一、在数据增强轮数一致的情况下虚线总是在实线上方，所以在数据增强轮数一致的情况下，在训练后期进行数据增强所得到的图像分类模型的分类准确度，比在训练前期进行数据增强所得到的图像分类模型的分类准确度高；二、在图像分类模型的分类准确度一致的情况下虚线总是在实线左侧，所以在图像分类模型的分类准确度一致的情况下，在训练后期进行数据增强所需的数据增强轮数，比在训练前期进行数据增强所需的数据增强轮数少。注意，由于实线和虚线上的第一个点都表示进行数据增强的轮数为0、实线和虚线上的最后一个点都表示进行数据增强的轮数为300，因此在上述比较时不考虑这四个点。

基于发明人的上述发现，本公开的实施例提供的数据增强策略的更新方法，获取初始的数据增强策略，根据数据增强策略和训练数据，对预设的经过第一阶段训练的数据处理模型进行第二阶段训练，根据经过第二阶段训练的数据处理模型，更新数据增强策略，从而在更新数据策略模型的过程中，仅需对数据处理模型进行第二阶段训练，既保证了数据增强策略的质量，又提高了数据增强策略的生成效率。

本公开的实施例提供的数据增强策略的更新方法，可以适用于图2所示的网络架构。如图2所示，该网络架构至少包括终端设备201或者服务器202，可在终端设备201上存储经过第一阶段训练的数据处理模型、并进行数据处理模型的第二阶段训练和数据增强策略的更新；也可在服务器202上存储经过第一阶段训练的数据处理模型、并进行数据处理模型的第二阶段训练和数据增强策略的更新；还可在终端设备201上存储经过第一阶段训练的数据处理模型，在服务器202上进行数据处理模型的第二阶段训练和数据增强策略的更新，或者，在服务器202上存储经过第一阶段训练的数据处理模型，在终端设备201上进行数据处理模型的第二阶段训练和数据增强策略的更新。

上述终端设备可以是计算机、平板电脑、智能手机等设备，上述服务器可为单个的服务器或者多个服务器组成的服务器群。

下面以具体地实施例对本公开的实施例的技术方案以及本公开的技术方案如何解决上述技术问题进行详细说明。下面这几个具体的实施例可以相互结合，对于相同或相似的概念或过程可能在某些实施例中不再赘述。下面将结合附图，对本公开的实施例的实施例进行描述。

图3为本公开一实施例提供的数据增强策略的更新方法的流程示意图。

如图3所示，该方法包括：

S301、获取初始的数据增强策略。

具体的，可从各个预设的数据增强策略中，获取初始的数据增强策略。其中，为了将各个预设的数据增强策略与当前采用的数据增强策略进行区分，在描述上，将各个预设的数据增强策略称为各个预设策略，将当前采用的数据增强策略称为数据增强策略。

具体的，除了从各个预设策略中获取初始的数据增强策略外，还可由用户预先设置好初始的数据增强策略，直接获取该设置好的数据增强策略。或者，还可从各个预设的数据增强操作中获取初始的数据增强操作，进而得到初始的数据增强策略。

S302、根据数据增强策略和预设的训练数据，对预设的经过第一阶段训练的数据处理模型进行第二阶段训练。

其中，可预先对数据处理模型进行第一阶段训练，得到经过第一阶段训练的数据处理模型。可预先采集训练数据，训练数据可以数据库的形式存储。

具体的，在获得初始的数据增强策略后，可通过数据增强策略对训练数据进行数据增强，通过数据增强后的训练数据，对经过第一阶段训练的数据处理模型进行第二阶段训练，得到经过第二阶段训练的数据处理模型，从而在数据处理模型的后期训练中对训练数据进行数据增强，充分利用数据增强对数据处理模型的后期训练影响更大的特点。

其中，对数据处理模型所采用的训练算法不做限制。

S303、根据经过第二阶段训练的数据处理模型，对数据增强策略进行更新。

具体的，数据处理模型经过第一阶段训练和第二阶段训练后，即完成其训练过程，得到训练好的处理模型。因此，可对经过第二阶段训练的数据处理模型的训练效果进行检验，得到检验结果，例如，在数据处理模型的任务为图像分类任务的情况下，数据处理模型的检验结果即数据处理模型的图像分类准确度。

具体的，得到数据处理模型的检验结果，即可了解在通过数据增强策略对训练数据进行数据增强时，基于数据增强后的训练数据训练得到的数据处理模型的训练效果，可见，数据处理模型的检验结果体现数据增强策略的质量。例如，数据处理模型的图像分类准确度越高，则代表数据增强策略的质量越好。因此，可根据数据处理模型的检验结果，对数据增强策略进行更新。在对数据增强策略进行更新时，可获取策略更新空间中的预设策略作为更新后的数据增强策略。

本公开实施例中，通过初始的数据增强策略和训练数据，对经过第一阶段训练的数据处理模型进行第二阶段训练，根据经过第二阶段训练的数据处理模型，对数据增强策略进行更新，充分利用数据增强策略对数据处理模型的后期训练影响更大的特点，在确保数据增强策略质量的同时，提高数据增强策略的生成效率。

图4为本公开另一实施例提供的数据增强策略的更新方法的流程示意图。

如图4所示，该方法包括：

S401、获取初始的数据增强策略。

具体的，可从各个预设策略中，获取初始的数据增强策略。除了从各个预设策略中获取初始的数据增强策略外，还可由用户预先设置好初始的数据增强策略，直接获取该设置好的数据增强策略。或者，还可从各个预设的数据增强操作中获取初始的数据增强操作，进而得到初始的数据增强策略。

在一个可行的实施方式中，数据增强策略包括多个预设的数据增强操作，以提高数据增强策略的质量。后续在对经过第一阶段的数据处理模型进行第二阶段训练时，可按照数据增强策略中的各个数据增强操作，依次对训练数据进行数据增强，通过数据增强后的训练数据，对经过第一阶段训练的数据处理模型进行第二阶段训练。

作为示例的，以训练数据为图像数据为例，可预先设置如表1所示的各个数据增强操作和各个数据增强操作对应的各个操作幅度。图1中的数据增强操作的类型共有14种，其中11种数据增强操作分别设有3种操作幅度，另外3种数据增强操作不需要设置操作幅度，可将不同操作幅度的同种数据增强操作当作不同的数据增强操作，因此表1中共有36个数据增强操作。如果数据增强策略包括两个数据增强操作，则表1中的数据增强操作可组合得到36×36个数据增强策略。因此，根据表1，可设置36×36个预设策略。

表1图像数据增强操作及各增强操作幅度

数据增强操作	操作幅度	幅度单位
			水平裁剪	{0.1，0.2，0.3}	宽度比例
垂直裁剪	{0.1，0.2，0.3}	高度比例
			水平平移	{0.15，0.3，0.45}	宽度比例
垂直平移	{0.15，0.2，0.45}	高度比例
			图像旋转	{10，20，30}	角度值
色彩调整	{0.3，0.6，0.9}	色彩平衡度
			色调分离	{4.4，5.6，6.8}	像素位数值
日光化	{26，102，179}	像素阈值
			对比度调整	{1.3，1.6，1.9}	对比度比例
锐度调整	{1.3，1.6，1.9}	锐化比例
			亮度调整	{1.3，1.6，1.9}	亮度比例
自动对比度	无	无
			均衡化	无	无
颜色反转	无	无

S402、根据数据增强策略和预设的训练数据，对预设的经过第一阶段训练的数据处理模型进行第二阶段训练。

S403、根据经过第二阶段训练的数据处理模型，对数据增强策略进行更新。

具体的，数据处理模型经过第一阶段训练和第二阶段训练后，即完成其训练过程，得到训练好的处理模型。因此，可对经过第二阶段训练的数据处理模型的训练效果进行检验，得到检验结果。

具体的，得到数据处理模型的检验结果，即可了解在通过数据增强策略对训练数据进行数据增强时，基于数据增强后的训练数据训练得到的数据处理模型的训练效果，可见，数据处理模型的检验结果体现当前采用的数据增强策略的质量。因此，可根据数据处理模型的检验结果，对数据增强策略进行更新。在对数据增强策略进行更新时，可获取策略更新空间中的预设策略作为更新后的数据增强策略。

S404、确定更新后的数据增强策略是否满足预设条件。

具体的，如果更新后的数据增强策略满足预设条件，则执行S406，否则，执行S405。

S405、更新初始的数据增强策略为更新后的数据增强策略。

具体的，将初始的数据增强策略更新为更新后的数据增强策略，也即将当前采用的数据增强策略更新为更新后的数据增强策略，并跳转执行步骤S402，以对数据增强策略进行多次更新。

S406、得到最终的数据增强策略。

具体的，如果更新后的数据增强策略满足预设条件，则可停止对数据增强策略的更新，在所有更新过程中选取经过第二阶段训练的数据处理模型的检验结果最高时采用的数据增强策略作为最终的数据增强策略，从而有效地提高数据增强策略的质量。

在一个可行的实施方式中，获取第M次更新的数据增强策略，M大于等于1；根据第M次更新的数据增强策略和训练数据，对经过第一阶段训练的数据处理模型进行第二阶段训练；根据经过第二阶段训练的数据增强模型，对数据增强策略进行第M+1次更新，从而实现对数据增强策略的多次更新，提高数据增强策略的质量。

在一个可行的实施方式中，可通过确定数据增强策略的更新次数是否到达预设的次数阈值，来确定更新后的数据增强策略是否满足预设条件，若更新次数达到次数阈值，则确定更新后的数据增强策略满足预设条件，否则，确定更新后的数据增强策略不满足预设条件，从而通过更新次数控制数据增强策略的更新是否继续，避免对数据增强策略一直更新。

在一个可行的实施方式中，除了通过确定数据增强策略的更新次数是否到达预设的次数阈值，来确定是否停止对数据增强策略的持续更新之外，还可通过确定经过第二阶段训练的数据处理模型的检验结果是否满足预设条件，来确定是否停止对数据增强策略的持续更新。

具体的，可将数据处理模型的检验结果与预设的检验阈值进行比较，如果数据处理模型的检验结果大于检验阈值，则表示经过第二阶段训练的数据处理模型满足预设条件，将数据增强策略设置为最终的数据增强策略，否则，继续进行数据增强策略的更新。

在一个可行的实施方式中，每次更新时数据增强策略的数量为多个，各个数据增强策略的更新并行进行，从而有效提高数据增强策略的生成效率。

在一个可行的实施方式中，每隔预设的更新次数，根据经过第二阶段训练的数据处理模型，在更新后的各数据增强策略中，选取最优的数据增强策略，在更新后的数据增强策略中，将除最优的数据增强策略之外的各数据增强策略分别替换为最优的数据增强策略，从而提高更新过程的收敛性和数据增强策略的生成效率。其中，选择最优的数据增强策略时，根据对经过第二阶段训练的数据处理模型的训练效果进行检测所得的检验结果进行选择。

在一个可行的实施方式中，训练数据为图像数据或文本数据，若训练数据为图像数据，则数据处理模型为图像处理模型，若训练数据为文本数据，则数据处理模型为自然语言处理模型，因此，本公开实施例提高的数据增强策略的更新方法可适用于图像处理领域的数据增强策略的生成和自然语言领域的数据增强策略的生成。

本公开实施例中，通过初始的数据增强策略和训练数据，对经过第一阶段训练的数据处理模型进行第二阶段训练，根据经过第二阶段训练的数据处理模型，对数据增强策略进行多次更新，充分利用数据增强策略对数据处理模型的后期训练影响更大的特点，在确保数据增强策略质量的同时，提高数据增强策略的生成效率。

图5为本公开另一实施例提供的数据增强策略的更新方法的流程示意图。

如图5所示，该方法包括：

S501、获取初始的数据增强策略。

在一个可行的实施方式中，在从各个预设策略中，获取初始的数据增强策略的情况下，均匀随机地从各个预设策略中选取一个或多个预设策略，作为初始的数据增强策略，从而提高初始的数据增强策略选取的公平性。其中，均匀随机地从各个预设策略中一个或多个预设策略，表示各个预设策略被选取的概率相等。

在一个可行的实施方式时，若均匀随机地从各个预设策略中选取了多个预设策略作为初始的数据增强策略，表明初始的数据增强策略为多个，则后续更新过程中，对各个数据增强策略进行同步更新，从而提高数据增强策略的生成效率。

S502、根据数据增强策略和预设的训练数据，对预设的经过第一阶段训练的数据处理模型进行第二阶段训练。

具体的，通过数据增强策略中的数据增强操作，对训练数据进行数据增强，若数据增强策略中包括多个数据增强操作，则通过数据增强策略中的各个数据增强操作，依次对训练数据进行数据增强，得到数据增强后的训练数据。通过数据增强后的训练数据，对经过第一阶段训练的数据处理模型，进行第二阶段训练，得到经过第二阶段训练的数据处理模型。

S503、根据经过第二阶段训练的数据处理模型，更新预设的策略模型。

其中，策略模型为一个参数化模型，其参数为预设的策略参数，通过调整策略操作，可调整策略模型的输出。策略模型的输出为各个预设策略的选择概率，即数据增强策略更新时，各个预设策略被选中作为更新后的数据增强策略的概率。因此，策略模型可以理解为一个多项式分布。

具体的，可获取预设的验证数据，验证数据包括输入数据和与输入数据对应的标签数据，例如，以图像数据为例，如果验证数据为图像数据、且数据处理模型的任务为图像分类任务，则验证数据包括输入图像和与输入图像对应的分类标签，分类标签即输入数据的类别。

具体的，将验证数据中的输入数据输入经过第二阶段训练的数据处理模型，得到数据处理模型的输出结果，将数据处理模型的输出结果与输入数据对应的标签数据进行比较，即可得到对数据处理模型进行检验的检验结果。这里，对数据处理模型进行检验，是指对数据处理模型的训练效果进行检验。例如，以图像数据为例，如果验证数据为图像数据、且数据处理模型的任务为图像分类任务，则将输入图像输入数据处理模型，将数据处理模型的输出与输入图像对应的分类标签进行比较，即可得到数据处理模型的分类准确度。

具体的，得到数据处理模型的检验结果后，可根据该检验结果，对策略模型的策略参数进行更新，得到更新后的策略模型。

S504、通过更新后的策略模型，确定各个预设策略的选中概率。

S505、按照各预设策略的选中概率，在预设策略中选取更新后的数据增强策略。

具体的，按照更新后的策略模型，可重新确定各个预设策略的选中概率，按照各个预设策略的选中概率，在各个预设策略中选取一个预设策略作为更新后的数据增强策略。

在一个可行的实施方式中，策略参数中包括各个预设策略对应的权重，对策略参数进行更新，即对各个预设策略对应的权重进行更新。在获取初始的数据增强策略时，可通过为各个预设策略设置相同的权重，实现均匀随机地从各个预设策略中选取初始的数据增强策略。在更新策略参数时，各个预设策略的权重发生不同的变化，各个预设策略的选中概率逐渐出现差别。因此，依据经过第二阶段训练的数据模型的训练效果，对策略参数进行调整，再依据策略模型重新确定各个预设策略的选中概率，不断地从各个预设策略中选取质量更好的数据增强策略，既提高了数据增强策略的生成效率，又保证了数据增强策略的质量。

在一个可行的实施方式中，策略模型可表示为：

其中，e为自然对数的底数，θ_k为策略参数θ中的第k个权重，也即第k个预设策略对应的权重，K表示预设策略的总数，O^(k)表示第k个预设策略，p_θ(O^(k))表示第k个预设策略的选中概率。因此，通过策略模型和包括各个预设策略所对应权重的策略参数，可确定各个预设策略的选中概率，通过调整策略参数，可有效调整各个预设策略的选中概率，既提高了数据增强策略的生成效率，又保证了数据增强策略的质量。

在一个可行的实施方式中，策略参数的更新可表示为：

其中，/>表示经过第二阶段训练的数据处理模型的检验结果，/>表示经过第二阶段训练的数据处理模型的模型参数，D_val表示验证数据。

在一个可行的实施方式中，在根据经过第二阶段训练的数据处理模型的检验结果对策略参数进行更新时，可通过预设的启发式搜索算法实现策略参数的更新，以提高策略参数更新的效果。

在一个可行的实施方式中，用于策略参数更新的启发式搜索算法为强化学习算法时，策略参数的更新可表示为：

其中，表示策略参数的梯度值，T_n表示强化学习算法中的第n条搜索轨迹，p(T_n)为在强化学习算法中搜索轨迹T_n被搜索到的概率，N表示强化学习算法中搜索轨迹的数量，/>表示经过第二阶段训练的数据处理模型的检验结果的期望值。

其中，在通过强化学习算法更新策略参数时，可策略参数的梯度值乘以强化学习算法中预设的学习率，得到乘积，再将乘积与策略参数相加，得到更新后的策略参数。例如，采用Adam(adaptive moment estimation，适应性矩估计)算法作为强化学习算法时，Adam的学习率可设置为η_θ＝0.1、β₁＝0.5和β₂＝0.999。

在一个可行的实施方式中，在根据数据增强测量和训练数据，对经过第一阶段训练的数据处理模型进行第二阶段训练时，经过第二阶段训练得到的数据处理模型的模型参数可表示为：

其中，x表示训练数据中的输入数据，y表示训练数据中与x对应的标签数据，O(x)表示对x进行数据增强，L(·)表示预设的损失函数，表示服从策略模型得到的概率分布从各个预设策略中选取数据增强策略，D_tr表示训练数据，Z为训练数据中输入数据x的数量。

在一个可行的实施方式中，在预先对数据处理模型进行第一阶段训练时，从各个预设策略中，均匀随机选取第一阶段训练中的数据增强策略，根据第一阶段的数据增强策略对训练数据进行数据增强，根据数据增强的训练数据，对数据处理模型进行第一阶段训练，从而在第一阶段训练中也对训练数据进行数据增强，提高经过第一阶段训练的数据处理模型的训练效果。

在一个可行的实施方式中，经过第一阶段训练得到的数据处理模型的模型参数可表示为：

其中，ω_share表示经过第一阶段训练得到的数据处理模型的模型参数，表示服从均匀的概率分布从各个预设策略中选取数据增强策略。

本公开实施例中，充分利用数据增强策略对数据处理模型的后期训练影响更大的特点，根据数据增强策略和训练数据，对经过第一阶段训练的数据处理模型进行第二阶段训练，根据经过第二阶段训练的数据处理模型，更新策略模型，通过更新后的策略模型，确定各预设策略的选中概率，通过调整各预设策略的概率，优化更新后的数据增强策略的质量，从而既提高了数据增强策略质量，又提高了数据增强策略的生成效率。

图6为本公开另一实施例提供的数据增强策略的更新方法的流程示意图。

如图6所示，该方法包括：

S601、获取初始的数据增强策略。

S602、根据数据增强策略和预设的训练数据，对预设的经过第一阶段训练的数据处理模型进行第二阶段训练。

S603、根据经过第二阶段训练的数据处理模型，更新预设的策略模型。

在一个可行的实施方式中，在根据经过第二阶段训练的数据处理模型，更新策略模型时，通过验证数据，对经过第二阶段训练的数据处理模型的训练效果进行检验，得到检验结果，获取数据增强策略的前N-1次更新中经过第二阶段的数据处理模型的检验结果，为了描述清晰，将数据增强策略的前N-1次更新中经过第二阶段的数据处理模型的检验结果称为历史检验结果，可综合该检验结果和历史检验结果，对策略模型进行更新，以确保每次更新时策略模型更新的稳定性，进而提高数据增强策略更新效果。其中，N为数据增强策略当前更新的总次数，第N次更新即指当前更新过程。

在一个可行的实施方式中，在综合该检验结果和历史检验结果，对策略模型进行更新时，可计算历史检验结果的均值，计算检验结果与该均值的差值，根据差值对策略模型中的策略参数进行更新，以确保每次更新时策略模型更新的稳定性，进而提高数据增强策略更新效果。策略参数的更新过程可采用启发式搜索算法，不再赘述。

S604、通过更新后的策略模型，确定各个预设策略的选中概率。

S605、按照各预设策略的选中概率，在预设策略中选取更新后的数据增强策略。

具体的，步骤S601～S605可参照步骤S501～S505的详细描述，在此不再赘述。

S606、确定更新后的数据增强策略是否满足预设条件。

具体的，在更新后的数据增强策略满足预设条件时，则执行S608，否则，执行S607。

S607、更新初始的数据增强策略为更新后的数据增强策略。

具体的，更新初始的数据增强策略为更新后的数据增强策略，并跳转至执行步骤S602，以对数据增强策略进行多次更新，提高数据增强策略的质量。

S608、得到最终的数据增强策略。

具体的，将更新后的数据增强策略设为最终的数据增强策略。

在一个可行的实施方式中，每预设的更新次数，根据经过第二阶段训练的数据处理模型，在更新后的各数据增强策略中，选取最优的数据增强策略，在更新后的数据增强策略中，将除最优的数据增强策略之外的各数据增强策略分别替换为最优的数据增强策略，从而提高更新过程的收敛性和数据增强策略的生成效率。其中，选择最优的数据增强策略时，根据对经过第二阶段训练的数据处理模型的训练效果进行检测所得的检验结果进行选择。

作为示例的，图7提供了多个数据增强策略并行更新的过程。如图7所示，每个长方体表示一个数据增强策略，每个正方体表示一个数据处理模型，准确率(Accuracy，ACC)表示经过第二阶段训练得到的数据处理模型的检验结果，每行表示一个数据增强策略的更新过程，每一列表示各个数据增强策略的一次更新。

如图7所示，首先，可均匀随机地从各个预设策略中选取一个初始的数据增强策略，将该初始的数据增强策略复制多份，得到多个相同的初始的数据增强策略，多个数据增强策略并行进行更新，每隔预设更新次数，从各个更新后的数据增强策略中选取最优的数据增强策略，将最优的数据增强策略进行复制，如虚线箭头所示的策略复制，这里的策略复制也即：在各个更新后的数据增强策略中，将除最优的数据增强策略以外的剩余的数据增强策略替换为该最优的数据增强策略。因此，能够有效地提高数据增强策略多次更新的收敛性，得到质量较佳的数据增强策略。

如图7所示，在单次更新过程中，将经过第一阶段训练的数据处理模型的模型参数ω_share加载至数据处理模型，得到经过第一阶段训练的数据处理模型，通过数据增强策略和训练数据，对经过第一阶段训练的数据处理模型进行第二阶段训练，再经过验证数据的检验，得到ACC，也即经过第二阶段训练的数据处理模型的检验结果，在基于该检验结果，对数据增强策略进行更新，得到更新后的数据增强策略。

参考图7可以看出，本公开实施例中，可对多个数据增强策略进行并行更新，数据增强策略的每次更新过程仅需对数据处理模型进行第二阶段训练，每预设更新次数将各个更新后的数据增强策略替换为当前最优的数据增强策略，且策略参数更新的计算量小，从而有效地提高了数据增强策略更新的效率、提高了数据增强策略的生成效率、且保证了数据增强策略的质量。

在一个实施例中，可通过调整第一阶段训练的训练次数占总训练次数的比例、或者第二阶段训练的训练次数占总训练次数的比例，来提高数据增强策略的生成效率。

图8为本公开一实施例提供的数据处理方法的流程示意图。如图8所示，该方法包括：

S801、获取待处理数据。

具体的，可获取用户输入的待处理数据，也可预先采集的待处理数据。

S802、通过预先训练好的数据处理模型，对待处理数据进行处理，数据处理模型依次经过第一阶段训练和第二阶段训练，在第二阶段训练中通过预设的数据增强策略和预设的训练数据对数据处理模型进行训练。

其中，预先训练好数据处理模型，在数据处理模型的训练过程中，先对数据处理模型进行第一阶段训练，再根据数据增强策略和训练数据对数据处理模型进行第二阶段训练，从而充分利用数据增强对数据处理模型的后期训练影响更大的特点，提高数据处理模型的数据处理效果和模型训练效率。

具体的，将待处理数据输入数据处理模型，由数据处理模型对待处理数据进行处理，得到相应的处理结果。

具体的，数据处理模型的第二阶段训练所采用的数据增强策略，可通过上述任一实施例提高的数据增强策略的更新方法得到，以提高数据增强策略的质量和生成效率，进而提高数据处理模型的数据处理效果和模型训练效率。

在一个可行的实施方式中，在训练数据处理模型时，可先通过训练数据，对数据处理模型进行第一阶段训练，得到经过第一阶段训练的数据处理模型。再通过数据增强策略对训练数据进行数据增强，基于数据增强后的训练数据，对经过第一阶段训练的数据处理模型进行第二阶段训练，得到训练好的数据处理模型，从而充分利用数据增强对数据处理模型的后期训练影响更大的特点，提高数据处理模型的数据处理效果和模型训练效率。

在一个可行的实施方式中，在对数据处理模型进行第一阶段训练时，可在各预设策略中，均匀随机选取数据增强策略，作为第一阶段训练的数据增强策略，通过选取的数据增强策略对训练数据进行数据增强，通过数据增强的训练数据对数据处理模型进行第一阶段训练，从而通过均匀随机选取数据增强策略，在尽量不增加模型训练所耗时长的情况下，提高数据处理模型第一阶段训练的训练效果，进而提高数据处理模型的整体训练效果。

在一个可行的实施方式中，待处理数据和训练数据可为图像数据或者文本数据，当数据处理模型为图像处理模型时，待处理数据和训练数据为图像数据，当数据处理模型为自然语言处理模型时，待处理数据和训练数据为文本数据，从而提高图像处理效果或自然语言处理效果。

本公开实施例中，通过预先训练好的数据处理模型对待处理数据进行处理，该数据处理模型的训练过程分为第一阶段训练和第二阶段训练，在第二阶段训练时采用了预设的数据增强策略，从而提高数据处理模型的数据处理效果和模型训练效率，进而提高了数据处理效果。

图9为本公开的一实施例提供的数据增强策略的更新装置的结构示意图。

如图9所示，该装置包括：

获取模块901，用于获取初始的数据增强策略；

训练模块902，用于根据数据增强策略和预设的训练数据，对预设的经过第一阶段训练的数据处理模型进行第二阶段训练；

更新模块903，用于根据经过第二阶段训练的数据处理模型，对数据增强策略进行更新，以得到更新后的数据增强策略。

在一个可行的实施方式中，更新模块903还用于：

更新初始的数据增强策略为更新后的数据增强策略，以对数据增强策略进行多次更新。

在一个可行的实施方式中，数据增强策略的数量为多个，各数据增强策略的更新并行进行；更新模块903还用于：

每隔预设的更新次数，根据经过第二阶段训练的数据处理模型，在更新后的各数据增强策略中，选取最优的数据增强策略；

在更新后的数据增强策略中，将除最优的数据增强策略之外的各数据增强策略分别替换为最优的数据增强策略。

在一个可行的实施方式中，数据增强策略包括多个预设的数据增强操作；训练模块902具体用于：

按照各数据增强操作，依次对训练数据进行数据增强；

通过数据增强后的训练数据，对经过第一阶段训练的数据处理模型进行第二阶段训练。

在一个可行的实施方式中，训练数据为图像数据或文本数据。

在一个可行的实施方式中，更新模块903具体用于：

根据经过第二阶段训练的数据处理模型，更新预设的策略模型；

通过更新后的策略模型，确定各个预设策略的选中概率；

按照各预设策略的选中概率，在预设策略中选取更新后的数据增强策略。

在一个可行的实施方式中，在数据增强策略的更新次数为多次的情况下，更新模块903具体用于：

根据预设的验证数据，对经过第二阶段训练的数据处理模型进行检验，得到检验结果；

获取数据增强策略的前N-1次更新中经过第二阶段的数据处理模型的历史检验结果，N为数据增强策略当前更新的总次数；

根据历史检验结果和检验结果，对策略模型进行更新。

在一个可行的实施方式中，更新模块903具体用于：

计算历史检验结果的均值；

计算检验结果和均值的差值；

根据差值，对策略模型中的策略参数进行更新。

在一个可行的实施方式中，训练模块902还用于：

在各个预设策略中，均匀随机选取第一阶段训练中的数据增强策略；

根据第一阶段训练中的数据增强策略和训练数据，对数据处理模型进行第一阶段训练。

图9提供的数据增强策略的更新装置，可以执行上述相应方法实施例，其实现原理和技术效果类似，在此不再赘述。

图10为本公开的一实施例提供的数据处理装置的结构示意图。如图10所示，该装置包括：

获取模块1001，用于获取待处理数据；

处理模块1002，用于通过预先训练好的数据处理模型，对待处理数据进行处理，数据处理模型依次经过第一阶段训练和第二阶段训练，在第二阶段训练中通过预设的数据增强策略和预设的训练数据对数据处理模型进行训练。

在一个可行的实施方式中，数据增强策略采用上述任一实施例所示的数据增强策略的更新方法进行生成。

在一个可行的实施方式中，该装置还包括训练模块，训练模块具体用于：

根据训练数据，对数据处理模型进行第一阶段训练；

通过数据增强策略对训练数据进行数据增强；

根据数据增强后的训练数据，对经过第一阶段训练的数据处理模型进行第二阶段训练。

在一个可行的实施方式中，训练模块具体用于：

在各预设策略中，均匀随机选取第一阶段训练中的数据增强策略；

在一个可行的实施方式中，待处理数据和训练数据为图像数据或者文本数据。

图10提供的数据处理装置，可以执行上述相应方法实施例，其实现原理和技术效果类似，在此不再赘述。

图11为本公开实施例提供的一种电子设备的结构示意图。如图11所示，该终端设备可以包括：处理器1101和存储器1102。存储器1102用于存储计算机执行指令，处理器1101执行计算机程序时实现如上述任一实施例的方法。

上述的处理器1101可以是通用处理器，包括中央处理器CPU、网络处理器(networkprocessor，NP)等；还可以是数字信号处理器DSP、专用集成电路ASIC、现场可编程门阵列FPGA或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。上述存储器1102可能包含随机存取存储器(random access memory，RAM)，也可能还包括非易失性存储器(non-volatile memory)，例如至少一个磁盘存储器。

本公开实施例还提供了一种计算机可读存储介质，所述计算机可读存储介质中存储有指令，当其在计算机上运行时，使得计算机执行如上述任一实施例的方法。

本公开实施例还提供一种程序产品，所述程序产品包括计算机程序，所述计算机程序存储在存储介质中，至少一个处理器可以从所述存储介质中读取所述计算机程序，所述至少一个处理器执行所述计算机程序时可实现上述任一实施例的方法。

图12是根据本实施例提供的数据增强策略的更新装置1200的框图。例如，装置1200可以被提供为一服务器或者一计算机。参照图12，装置1200包括处理组件1201，其进一步包括一个或多个处理器，以及由存储器1202所代表的存储器资源，用于存储可由处理组件1201的执行的指令，例如应用程序。存储器1202中存储的应用程序可以包括一个或一个以上的每一个对应于一组指令的模块。此外，处理组件1201被配置为执行指令，以执行上述图3至图6任一实施例的方法。

装置1200还可以包括一个电源组件1203被配置为执行装置1200的电源管理，一个有线或无线网络接口1204被配置为将装置1200连接到网络，和一个输入输出(I/O)接口1205。装置1200可以操作基于存储在存储器1202的操作系统，例如Windows ServerTM，MacOS XTM，UnixTM,LinuxTM，FreeBSDTM或类似。

在本公开实施例中，“至少一个”是指一个或者多个，“多个”是指两个或两个以上。“和/或”，描述关联对象的关联关系，表示可以存在三种关系，例如，A和/或B，可以表示：单独存在A，同时存在A和B，单独存在B的情况，其中，A，B可以是单数或者复数。字符“/”一般表示前后关联对象是一种“或”的关系；在公式中，字符“/”，表示前后关联对象是一种“相除”的关系。“以下至少一项(个)”或其类似表达，是指的这些项中的任意组合，包括单项(个)或复数项(个)的任意组合。例如，a，b，或c中的至少一项(个)，可以表示：a，b，c，a-b，a-c，b-c，或a-b-c，其中，a，b，c可以是单个，也可以是多个。

可以理解的是，在本公开实施例中涉及的各种数字编号仅为描述方便进行的区分，并不用来限制本公开实施例的范围。

可以理解的是，在本公开的实施例中，上述各过程的序号的大小并不意味着执行顺序的先后，各过程的执行顺序应以其功能和内在逻辑确定，而不应对本公开实施例的实施过程构成任何限定。

本领域技术人员在考虑说明书及实践这里公开的发明后，将容易想到本公开的其它实施方案。本公开的实施例旨在涵盖本公开的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的，本公开的真正范围和精神由下面的权利要求书指出。

应当理解的是，本公开并不局限于上面已经描述并在附图中示出的精确结构，并且可以在不脱离其范围进行各种修改和改变。本公开的范围仅由所附的权利要求书来限制。

Claims

1.一种数据增强策略的更新方法，其特征在于，所述方法包括：

获取初始的数据增强策略；

根据所述数据增强策略和预设的训练数据，对预设的经过第一阶段训练的数据处理模型进行第二阶段训练；所述训练数据为图像训练数据或者文本训练数据；

将验证数据中的输入数据输入经过第二阶段训练的数据处理模型，得到数据处理模型的输出结果，将数据处理模型的输出结果与输入数据对应的标签数据进行比较，得到对数据处理模型进行检验的检验结果；所述验证数据为图像数据或文本数据；

根据所述检验结果，对所述数据增强策略进行更新，以得到更新后的数据增强策略；

所述方法还包括：

获取第M次更新的所述数据增强策略，所述M大于等于1；

2.根据权利要求1所述的方法，其特征在于，所述初始的数据增强策略的数量为多个，各所述数据增强策略的更新并行进行；所述方法还包括：

3.根据权利要求1或2所述的方法，其特征在于，所述数据增强策略包括多个预设的数据增强操作；所述根据所述数据增强策略和预设的训练数据，对预设的经过第一阶段训练的数据处理模型进行第二阶段训练，包括：

4.根据权利要求1或2所述的方法，其特征在于，所述根据所述检验结果，对所述数据增强策略进行更新，包括：

根据所述检验结果，更新预设的策略模型；

5.根据权利要求4所述的方法，其特征在于，在所述数据增强策略的更新次数为多次的情况下，所述根据所述检验结果，更新预设的策略模型，包括：

6.根据权利要求5所述的方法，其特征在于，所述根据所述历史检验结果和所述检验结果，对所述策略模型进行更新，包括：

计算所述历史检验结果的均值；

计算所述检验结果和所述均值的差值；

根据所述差值，对所述策略模型中的策略参数进行更新。

7.根据权利要求1或2所述的方法，其特征在于，所述获取初始的数据增强策略之前，所述方法还包括：

8.一种数据处理方法，其特征在于，所述方法包括：

获取待处理数据；所述待处理数据为图像数据或文本数据；

通过预先训练好的数据处理模型，对所述待处理数据进行处理，所述数据处理模型依次经过第一阶段训练和第二阶段训练，在所述第二阶段训练中通过预设的数据增强策略和预设的训练数据对所述数据处理模型进行训练，所述数据增强策略采用如权利要求1-7任一项所述的数据增强策略的更新方法进行生成。

9.根据权利要求8所述的方法，其特征在于，所述方法还包括：

通过所述数据增强策略对所述训练数据进行数据增强；

10.根据权利要求9所述的方法，其特征在于，所述根据所述训练数据，对所述数据处理模型进行所述第一阶段训练，包括：

11.一种数据增强策略的更新装置，其特征在于，所述装置包括：

获取模块，用于获取初始的数据增强策略；

训练模块，用于根据所述数据增强策略和预设的训练数据，对预设的经过第一阶段训练的数据处理模型进行第二阶段训练；将验证数据中的输入数据输入经过第二阶段训练的数据处理模型，得到数据处理模型的输出结果，将数据处理模型的输出结果与输入数据对应的标签数据进行比较，得到对数据处理模型进行检验的检验结果；所述验证数据为图像数据或文本数据；

更新模块，用于根据所述检验结果，对所述数据增强策略进行更新，以得到更新后的所述数据增强策略；

所述获取模块，还用于获取第M次更新的所述数据增强策略，所述M大于等于1；

所述训练模块，还用于根据第M次更新的所述数据增强策略和所述训练数据，对所述经过第一阶段训练的数据处理模型进行第二阶段训练；

所述更新模块，还用于根据经过第二阶段训练的数据增强模型，对所述数据增强策略进行第M+1次更新。

12.一种数据处理装置，其特征在于，所述装置包括：

获取模块，用于获取待处理数据；所述待处理数据为图像数据或文本数据；

处理模块，用于通过预先训练好的数据处理模型，对所述待处理数据进行处理，所述数据处理模型依次经过第一阶段训练和第二阶段训练，在所述第二阶段训练中通过预设的数据增强策略和预设的训练数据对所述数据处理模型进行训练，所述数据增强策略采用如权利要求1-7任一项所述的数据增强策略的更新方法进行生成。

13.一种电子设备，其特征在于，所述电子设备包括：存储器和处理器；

所述存储器用于存储程序指令；

所述处理器用于调用所述存储器中的程序指令执行如权利要求1-7中任一项或者权利要求8-10中任一项所述的方法。

14.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质上存储有计算机程序；所述计算机程序被执行时，实现如权利要求1-7中任一项或者权利要求8-10中任一项所述的方法。