CN113221979B

CN113221979B - 样本的生成方法、神经网络的训练方法以及装置

Info

Publication number: CN113221979B
Application number: CN202110460812.4A
Authority: CN
Inventors: 储琪; 袁皓洁; 朱烽; 赵瑞; 刘斌; 俞能海
Original assignee: University of Science and Technology of China USTC; Beijing Sensetime Technology Development Co Ltd
Current assignee: University of Science and Technology of China USTC; Beijing Sensetime Technology Development Co Ltd
Priority date: 2021-04-27
Filing date: 2021-04-27
Publication date: 2023-05-23
Anticipated expiration: 2041-04-27
Also published as: CN113221979A

Abstract

本公开提供了一种样本的生成方法、神经网络的训练方法以及装置，其中，样本的生成方法包括：获取参考增强策略；利用所述参考增强策略对第一样本数据进行变换处理，得到增强样本数据；利用多个第一神经网络对所述增强样本数据进行处理，得到第一处理结果；基于所述第一处理结果、以及所述参考增强策略，确定目标增强策略；利用所述目标增强策略对第二样本数据进行数据增强处理，得到所述第二样本数据的目标增强样本数据。

Description

样本的生成方法、神经网络的训练方法以及装置

技术领域

本公开涉及深度学习技术领域，具体而言，涉及一种样本的生成方法、神经网络的训练方法以及装置、计算机设备及存储介质。

背景技术

对抗样本(adversarial examples)是指在自然样本(original examples)上添加微小的扰动而形成的样本，相较于自然样本而言通常不影响肉眼判断，但对于训练好的模型而言，在对对抗样本进行处理时，通常会以较高的概率得到与对应自然样本不同的处理结果，这样的对抗样本可以用来攻击(attack)模型，以锻炼模型对这些样本的防御(defense)能力。

当前在生成对抗样本时，通常依赖于实验尝试或手工设计，在利用这种方法得到的对抗样本对模型进行再训练时，模型能够提升的泛化能力有限。

发明内容

本公开实施例至少提供一种样本的生成方法、神经网络的训练方法以及装置、计算机设备及存储介质。

第一方面，本公开实施例提供了一种样本的生成方法，包括：获取参考增强策略；利用所述参考增强策略对第一样本数据进行变换处理，得到增强样本数据；利用多个第一神经网络对所述增强样本数据进行处理，得到第一处理结果；基于所述第一处理结果、以及所述参考增强策略，确定目标增强策略；利用所述目标增强策略对第二样本数据进行数据增强处理，得到所述第二样本数据的目标增强样本数据。

这样，由于在确定目标增强策略时，可以根据多个第一神经网络对增强样本数据进行处理得到的第一处理结果，确定参考增强策略对应的目标增强策略，以利用第一处理结果指导参考增强策略确定目标增强策略。由于第一处理结果可以表征参考增强策略对第一样本数据进行处理后，得到的增强样本数据对模型的攻击能力，因此在利用第一处理结果以及参考增强策略确定目标增强策略后，得到的目标增强策略可以保证对第二样本数据进行增强后得到的目标增强样本数据对模型的攻击能力更高。

一种可选的实施方式中，所述获取参考增强策略包括：利用策略搜索模型进行策略搜索，得到所述参考增强策略；其中，所述策略搜索模型是利用初始策略搜索模型确定的，或者利用上一迭代周期对应的策略搜索模型确定的。

这样，通过利用策略搜索模型进行策略搜索，可以在第一个迭代周期较为容易的先确定一个参考增强策略。并在除第一个迭代周期外的其他迭代周期中，根据上一个迭代周期对应的策略搜索模型有指导性的确定当前迭代周期对应的策略搜索模型，相较于人工调整确定策略搜索模型的方式，耗时更少，效率更高，而且可以在较大程度上通过多个迭代周期确定较好的策略搜索模型。

一种可选的实施方式中，增强策略包括：至少一种增强方式、以及与所述至少一种增强方式分别对应的增强幅度。

一种可选的实施方式中，所述利用参考增强策略对第一样本数据进行变换处理，得到增强样本数据，包括：利用所述参考增强策略对所述第一样本数据进行数据增强处理，得到所述第一样本数据对应的中间样本数据；利用第二神经网络对所述中间样本数据进行处理，得到第二处理结果；利用所述第二处理结果，对所述第一样本数据进行调整，得到所述第一样本数据对应的增强样本数据。

这样，在确定增强样本数据时，相较于直接利用参考增强策略生成增强样本数据，可以更进一步的用参考增强策略确定的中间样本数据对第二神经网络的攻击能力，然后再对第一样本数据进行调整，得到第一样本数据。由于更重要的是可以准确、高效的确定样本增强策略，在该实施方式中，通过第二神经网络对中间样本数据的处理，以及根据处理得到的第二处理结果对第一样本数据进行调整，可以更快的得到攻击能力更强的增强样本数据。

一种可选的实施方式中，所述利用所述第二处理结果，对所述第一样本数据进行调整，得到所述第一样本数据对应的增强样本数据，包括：利用所述第二处理结果、以及所述第一样本数据对应的标注信息，得到所述中间样本数据对应的第一损失；对所述第一损失进行梯度反向传播处理，并基于所述梯度反向传播处理的结果，对所述第一样本数据进行调整，得到所述第一样本数据对应的增强样本数据。

这样，利用梯度反向传播处理的方式，可以更准确，并且更快速的确定第一样本数据对应的增强样本数据。

一种可选的实施方式中，所述对所述第一损失进行梯度反向传播处理，包括：基于所述第一损失，确定所述第一损失与所述中间样本数据之间的第一梯度；基于所述第一梯度、以及所述参考增强策略，确定所述中间样本数据分别与所述第一样本数据之间的第二梯度；将所述第二梯度作为所述梯度反向传播处理的结果。

这样，由于第一梯度和第二梯度可以较为准确且容易的获得，因此可以根据第一梯度和第二梯度对第一样本数据进行较为快速准确的调整。

一种可选的实施方式中，基于所述第一处理结果、以及所述参考增强策略，确定目标增强策略，包括：基于所述第一处理结果、以及与所述第一样本数据对应的标注信息，得到所述增强样本数据对应的第二损失；在未达到所述预设迭代停止条件的情况下，基于所述第二损失，确定新的参考增强策略；并返回至利用所述参考增强策略对第一样本数据进行变换处理，得到增强样本数据步骤；在达到预设迭代停止条件的情况下，基于当前迭代周期的参考增强策略，确定所述目标增强策略。

这样，可以利用迭代的方式较为有效的根据增强样本数据对应的第二损失，确定反应当前迭代周期的参考增强策略是否是较好的。这种方式较为简单，而且易于控制，有利于以更高效率获取较好的目标增强策略。

一种可选的实施方式中，所述基于所述第二损失，确定新的参考增强策略，包括：基于所述第二损失，调整策略搜索模型的参数，得到新的策略搜索模型；利用所述新的策略搜索模型，得到所述新的参考增强策略。

一种可选的实施方式中，所述预设迭代停止条件包括下述至少一种：所述第二损失小于预设损失阈值、所述迭代的迭代次数大于或者等于预设迭代次数。

这样，通过设置预设迭代停止条件，可以保证有较高的把握确定得到的目标增强策略的泛化能力以外，限制迭代的次数以保证效率。

第二方面，本公开实施例还提供了一种神经网络的训练方法，包括：利用本发明实施例第一方面或者第一方面的任一种可选的实施方式中的样本的生成方法生成的目标增强样本数据，对待训练的神经网络进行训练，得到目标神经网络。

这样，由于第一方面提供的样本的生成方法，可以得到对其对应的神经网络的攻击能力更强的目标增强样本数据，因此在利用该目标增强样本数据对待训练的神经网络进行训练后，得到的目标神经网络对这样的目标增强样本数据的防御能力也更强，也即对在样本中施加的微小扰动的抗干扰能力更强。

第三方面，本公开实施例还提供一种样本的生成装置，包括：获取模块，用于获取参考增强策略；第一处理模块，用于利用所述参考增强策略对第一样本数据进行变换处理，得到增强样本数据；第二处理模块，用于利用多个第一神经网络对所述增强样本数据进行处理，得到第一处理结果；确定模块，用于基于所述第一处理结果、以及所述参考增强策略，确定目标增强策略；第三处理模块，用于利用所述目标增强策略对第二样本数据进行数据增强处理，得到所述第二样本数据的目标增强样本数据。

一种可选的实施方式中，所述获取模块在获取参考增强策略时，用于：利用策略搜索模型进行策略搜索，得到所述参考增强策略；其中，所述策略搜索模型是利用初始策略搜索模型确定的，或者利用上一迭代周期对应的策略搜索模型确定的。

一种可选的实施方式中，所述第一处理模块在利用参考增强策略对第一样本数据进行变换处理，得到增强样本数据时，用于：利用所述参考增强策略对所述第一样本数据进行数据增强处理，得到所述第一样本数据对应的中间样本数据；利用第二神经网络对所述中间样本数据进行处理，得到第二处理结果；利用所述第二处理结果，对所述第一样本数据进行调整，得到所述第一样本数据对应的增强样本数据。

一种可选的实施方式中，所述第一处理模块在利用所述第二处理结果，对所述第一样本数据进行调整，得到所述第一样本数据对应的增强样本数据时，用于：利用所述第二处理结果、以及所述第一样本数据对应的标注信息，得到所述中间样本数据对应的第一损失；对所述第一损失进行梯度反向传播处理，并基于所述梯度反向传播处理的结果，对所述第一样本数据进行调整，得到所述第一样本数据对应的增强样本数据。

一种可选的实施方式中，所述第一处理模块在对所述第一损失进行梯度反向传播处理时，用于：基于所述第一损失，确定所述第一损失与所述中间样本数据之间的第一梯度；基于所述第一梯度、以及所述参考增强策略，确定所述中间样本数据分别与所述第一样本数据之间的第二梯度；将所述第二梯度作为所述梯度反向传播处理的结果。

一种可选的实施方式中，所述确定模块在基于所述第一处理结果、以及所述参考增强策略，确定目标增强策略时，用于：基于所述第一处理结果、以及与所述第一样本数据对应的标注信息，得到所述增强样本数据对应的第二损失；在未达到所述预设迭代停止条件的情况下，基于所述第二损失，确定新的参考增强策略；并返回至利用所述参考增强策略对第一样本数据进行变换处理，得到增强样本数据步骤；在达到预设迭代停止条件的情况下，基于当前迭代周期的参考增强策略，确定所述目标增强策略。

一种可选的实施方式中，所述确定模块在基于所述第二损失，确定新的参考增强策略时，用于：基于所述第二损失，调整策略搜索模型的参数，得到新的策略搜索模型；利用所述新的策略搜索模型，得到所述新的参考增强策略。

第四方面，本公开实施例还提供一种神经网络的训练装置，包括：训练模块，用于利用本公开实施例提供的任一种可选的实施方式中的样本的生成方法生成的目标增强样本数据，对待训练的神经网络进行训练，得到目标神经网络。

第五方面，本公开可选实现方式还提供一种计算机设备，处理器、存储器，所述存储器存储有所述处理器可执行的机器可读指令，所述处理器用于执行所述存储器中存储的机器可读指令，所述机器可读指令被所述处理器执行时，所述机器可读指令被所述处理器执行时执行上述第一方面或者第二方面中，任一种可能的实施方式中的步骤。

第六方面，本公开可选实现方式还提供一种计算机可读存储介质，该计算机可读存储介质上存储有计算机程序，该计算机程序被运行时执行上述第一方面或者第二方面中，任一种可能的实施方式中的步骤。

关于上述装置、计算机设备、及计算机可读存储介质的效果描述参见上述对应方法的说明，这里不再赘述。

为使本公开的上述目的、特征和优点能更明显易懂，下文特举较佳实施例，并配合所附附图，作详细说明如下。

附图说明

为了更清楚地说明本公开实施例的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，此处的附图被并入说明书中并构成本说明书中的一部分，这些附图示出了符合本公开的实施例，并与说明书一起用于说明本公开的技术方案。应当理解，以下附图仅示出了本公开的某些实施例，因此不应被看作是对范围的限定，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他相关的附图。

图1示出了本公开实施例所提供的一种样本的生成方法的流程图；

图2示出了本公开实施例所提供的一种确定增强样本数据的具体流程图；

图3示出了本公开实施例所提供的一种确定增强样本数据的示例图；

图4示出了本公开实施例所提供的一种策略搜索模型确定目标增强策略的示意图；

图5示出了本公开实施例所提供的一种神经网络的训练方法的具体流程图；

图6示出了本公开实施例所提供的一种样本的生成装置的示意图；

图7示出了本公开实施例所提供的一种神经网络的训练装置的示意图；

图8示出了本公开实施例所提供的一种计算机设备的示意图。

具体实施方式

为使本公开实施例的目的、技术方案和优点更加清楚，下面将结合本公开实施例中附图，对本公开实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本公开一部分实施例，而不是全部的实施例。通常在此处描述和示出的本公开实施例的组件可以以各种不同的配置来布置和设计。因此，以下对本公开的实施例的详细描述并非旨在限制要求保护的本公开的范围，而是仅仅表示本公开的选定实施例。基于本公开的实施例，本领域技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例，都属于本公开保护的范围。

经研究发现，在利用样本训练得到模型后，如果对样本施加肉眼无法察觉的微小扰动生成对抗样本后，模型是不易对对抗样本进行精确处理的；以分类模型为例，在利用样本数据对分类模型训练后，分类模型可以对这些样本数据有较为准确的识别能力，但在对样本数据进行数据增强处理后，得到的对抗样本后，若再利用训练后的分类模型对对抗样本进行分类，其分类结果会与分类模型对原本样本数据的分类结果有较大的差异；将这种利用模型对对抗样本进行处理的过程，称之利用对抗样本对模型进行攻击的过程。在生成对抗样本后，可以采用该对抗样本重新去训练模型，以使模型在处理该对抗样本后，仍能够输出正确的识别结果，将该过程称之为模型对对抗样本的攻击进行防御的过程。

在生成对抗样本时，通常需要依赖于实验尝试或者手工设计，这些方式在确定样本数据的对抗样本时，很难确定对模型的攻击能力最高的对抗样本，就会导致在利用这样的对抗样本对模型再训练时，难以充分的训练模型对这些微小扰动的防御能力，从而造成模型能够提升的泛化能力有限。

基于上述研究，本公开提供了一种样本的生成方法，通过利用参考增强策略对第一样本数据进行变换处理得到增强样本数据，并利用多个第一神经网络对该增强样本数据进行处理得到的第一处理结果，反映增强样本数据对多个第一神经网络的攻击能力，然后利用第一处理结果以及参考增强策略确定目标增强策略，以使在利用确定的目标增强策略对第二样本数据进行增强后得到的目标增强样本数据对模型的攻击能力更高，使得利用该目标增强样本数据对模型再训练时，能够提升模型对这些微小扰动的防御能力，以得到泛化能力更高的模型。

针对以上方案所存在的缺陷，均是发明人在经过实践并仔细研究后得出的结果，因此，上述问题的发现过程以及下文中本公开针对上述问题所提出的解决方案，都应该是发明人在本公开过程中对本公开做出的贡献。

应注意到：相似的标号和字母在下面的附图中表示类似项，因此，一旦某一项在一个附图中被定义，则在随后的附图中不需要对其进行进一步定义和解释。

为便于对本实施例进行理解，首先对本公开实施例所公开的一种样本的生成方法进行详细介绍，本公开实施例所提供的样本的生成方法的执行主体一般为具有一定计算能力的计算机设备，该计算机设备例如包括：终端设备或服务器或其它处理设备，终端设备可以为用户设备(User Equipment，UE)、移动设备、用户终端、终端、蜂窝电话、无绳电话、个人数字助理(Personal Digital Assistant，PDA)、手持设备、计算设备、车载设备、可穿戴设备等。在一些可能的实现方式中，该样本的生成方法可以通过处理器调用存储器中存储的计算机可读指令的方式来实现。

下面对本公开实施例提供的样本的生成方法加以说明。

参见图1所示，为本公开实施例提供的一种样本的生成方法的流程图，所述方法包括步骤S101～S105，其中：

S101：获取参考增强策略；

S102：利用参考增强策略对第一样本数据进行变换处理，得到增强样本数据；

S103：利用多个第一神经网络对增强样本数据进行处理，得到第一处理结果；

S104：基于第一处理结果、以及参考增强策略，确定目标增强策略；

S105：利用目标增强策略对第二样本数据进行数据增强处理，得到第二样本数据的目标增强样本数据。

本公开实施例利用获取得到的参考增强策略对第一样本数据进行变换处理得到增强样本数据，并利用多个第一神经网络对增强样本数据进行处理得到第一处理结果，然后利用第一处理结果以及参考增强策略确定目标增强策略，以使在利用确定的目标增强策略对第二样本数据进行增强后得到的目标增强样本数据对模型的攻击能力更高，使得利用该目标增强样本数据对模型再训练时，能够提升模型对这些微小扰动的防御能力，以得到泛化能力更高的模型。

下面对上述S101～S105加以详细说明。

针对上述S101，增强策略例如可以包括：至少一种增强方式、以及与所述至少一种增强方式分别对应的增强幅度。利用增强策略对样本数据进行处理，可以在样本数据的基础上得到新的样本，即对抗样本。

在一种可能的实施方式中，在样本数据以及对该样本数据处理的神经网络应用于不同场景下时，对应的增强策略可能有所不同。例如，在神经网络用于对图像进行分类处理时，对应的样本数据例如可以包括样本图像数据，则对应的增强策略可以包括对图像数据进行数据增强处理的策略，例如为样本图像数据中的各个像素点在一定幅度范围内更改其像素值；在神经网络用于对音频进行语音识别处理时，对应的样本数据例如可以包括音频数据，则对应的增强策略可以包括对音频数据进行数据增强处理的策略，例如对音频数据施加一定变化幅度范围内的噪声。对于不同应用场景下的神经网络以及其对应的样本数据，所对应的增强策略可以根据实际情况确定，这里并不做出限定。

示例性的，增强策略的增强方式例如可以包括下述至少一种：几何增强方式、强度增强方式、以及色彩空间的增强方式方式。在增强策略的增强方式包括几何增强方式的情况下，还可以包括下述至少一种：填充增强方式、平移增强方式、旋转增强方式、以及水平翻转增强方式；在增强策略的增强方式包括强度变换策略的情况下，还可以包括下述至少一种：缩放增强方式、添加高斯噪声增强方式、以及采样修复增强方式；在增强策略的增强方式包括色彩空间的增强方式的情况下，还可以包括下述至少一种：调整增强方式、调整增强方式、以及增强方式。对于增强方式对应的增强幅度，例如可以预设增强方式对应的最大幅度。

下面，以为对图像样本数据进行图像识别为例对本公开实施例提供的样本的生成方法进行说明。

在具体实施中，在获取参考增强策略时，例如可以利用策略搜索模型进行策略搜索，得到参考增强策略；其中，所述策略搜索模型是利用初始策略搜索模型确定的，或者利用上一迭代周期对应的策略搜索模型确定的。

具体地，策略搜索模型例如可以包括用于处理序列数据的神经网络，例如可以包括下述至少一种：循环神经网络(Recurrent Neural Network，RNN)、长短期记忆网络(LongShort-Term Memory，LSTM)。

在利用策略搜索模型确定第一个迭代周期对应的参考增强策略时，策略搜索模型例如可以是利用初始策略搜索模型确定的。在一种可能的实施方式中，初始策略模型可以根据经验确定其中的部分参数，以使初始策略搜索模型在确定参考增强策略后，对第一样本数据进行处理即可以获得较好的增强样本数据，从而可以减少迭代的次数，提高生成样本增强策略的效率。

示例性的，参考增强策略例如可以包括m个不同的变换，例如以集合的形式表示为π＝{T₁,T₂,…,T_m}。其中，π表示参考增强策略，T_i表示变换。在本公开实施例中，变换T_i包括可微变换(differentiable transformations)。参考增强策略π中包含的不同变换T_i对应的增强方式以及增强幅度可以相同，也可以有所不同，这里并不做出限定。预设增强方式对应的最大幅度例如可以表示为ε。

另外，也可以对策略搜索模型的参数进行随机初始化，得到初始策略搜索模型，然后利用初始策略搜索模型得到在第一个迭代周期的参考增强策略。

除首个迭代周期外的其他迭代周期中策略搜索模型的确定方式可以参见下述图3对应的实施例，在此不再赘述。

针对上述S102，在获取到参考增强策略后，即可以利用参考增强策略对第一样本数据进行变换处理，得到增强样本数据。

具体地，参见图2所示，为本公开实施例提供的一种确定增强样本数据的具体流程图；其中：

S201：利用参考增强策略对第一样本数据进行数据增强处理，得到第一样本数据对应的中间样本数据。

其中，第一样本数据例如可以包括多张第一样本图像，第一样本图像例如可以表示为x_i，表示在第一样本数据中的第i张第一样本图像。多张第一样本图像x_i，例如包括m张，可以构成第一样本数据，将第一样本数据以集合的形式表示可以表示为X＝{x₁,x₂,…x_m}。

参见图3所示，为本公开实施例提供的一种确定增强样本数据的示例图。在图3中，针对第一样本数据31中的第一张样本图像x₁，利用上述S101确定参考增强策略32，也即参考增强策略π＝{T₁,T₂,…,T_m}，可以得到利用变换T₁至T_m分别对该样本图像x₁进行数据增强处理的结果，也即中间样本数据33，例如可以表示为{T₁(x₁),T₂(x₁),…,T_m(x₁)}。对于第一样本数据中的其他样本数据，也可以采用同样的方式进行处理，并得到其对应的中间样本数据，在此不再赘述。

S202：利用第二神经网络对中间样本数据进行处理，得到第二处理结果。

其中，在确定第二神经网络时，为了保证生成的目标增强策略对多个神经网络而言具有泛化性，因此可以先确定多个神经网络。确定的多个神经网络可以包含精度较高的神经网络，也可以包含精度较低的神经网络。多个神经网络可以构成一个模型池，在确定第二神经网络时，例如可以在该模型池中选取任一神经网络作为第二神经网络，表示为f₀。参见图3所示，包括第二神经网络34。

此处，在利用模型池中的任一神经网络作为第二神经网络f₀生成样本增强策略后，还可以利用模型池中的其他神经网络作为第二神经网络再次对样本增强策略进行优化。具体的方式在此不再赘述。

针对第一张样本图像x₁，利用第二神经网络f₀对中间样本数据{T₁(x₁),T₂(x₁),…,T_m(x₁)}进行处理后，由于中间样本数据相较于第一样本数据已经过数据增强处理，因此第二神经网络f₀在对中间样本数据进行处理时，可能会得到与对第一样本数据进行处理后的结果不同的处理结果。此处，例如可以将第二神经网络对中间样本数据的分类结果，作为第二处理结果。

S203：利用第二处理结果，对第一样本数据进行调整，得到第一样本数据对应的增强样本数据。

具体地，在确定第一样本数据对应的增强样本数据时，例如可以采用下述方式：利用第二处理结果、以及第一样本数据对应的标注信息，得到中间样本数据对应的第一损失；对第一损失进行梯度反向传播处理，并基于梯度反向传播处理的结果，对第一样本数据进行调整，得到第一样本数据对应的增强样本数据。

参见图3所示，其中包括中间样本数据对应的第一损失35。由于中间样本数据有多个，因此得到的第二处理结果也对应的包含有多个。在利用第二处理结果以及第一样本数据对应的标注信息(例如表示为y^t)确定中间样本数据对应的第一损失时，例如可以以集合的形式表示为{loss₁,loss₂,…,loss_m}。

在确定第一损失后，由于在利用第一样本数据获取中间样本数据的过程、以及利用中间样本数据确定第一损失的过程均是可微的，因此可以利用第一损失进行梯度反向传播处理。

在具体实施中，在对第一损失进行梯度反向传播处理时，例如可以采用下述方式：基于第一损失，确定第一损失与中间样本数据之间的第一梯度；基于第一梯度、以及参考增强策略，确定中间样本数据分别与第一样本数据之间的第二梯度；将第二梯度作为梯度反向传播处理的结果。

参见图3所示，其中包括基于第一损失确定的第一梯度36；以及，根据第一梯度以及参考增强策略确定的第二梯度37。

其中，由于第一损失存在多个，因此在确定第一损失与中间样本数据之间的第一梯度时，例如可以确定多个分别与多个第一损失对应的第一梯度grad，示例性的，可以以集合的形式表示为{grad₁，grad₂，…,grad_m}。同样的，在基于第一梯度、以及参考增强策略，确定中间样本数据分别与第二样本数据之间的第二梯度时，也可以确定一组第二梯度grad'，例如可以表示为{grad'₁，grad'₂，…,grad'_m}，并将确定的第二梯度作为梯度反向传播处理的结果。

在利用梯度反向传播处理的结果对第一样本数据进行调整时，例如可以对梯度反向传播处理的结果对第一样本数据进行优化调整，以得到第一样本数据对应的增强样本数据；该增强样本数据例如可以表示为x^adv。

在一种可能的实施方式中，在利用第二神经网络f₀确定增强样本数据的情况下，增强样本数据x^adv例如可以满足下述公式(1)：

其中，J(·)表示第二神经网络f₀的损失函数。范数p表示强化的距离概念，用于测量增强的大小。

针对范数p，示例性的，在p取值为0时，表示增强样本数据相对于第一样本数据所增强的像素的个数，其可以限制可增强的像素数量，但不限制每个像素增强的幅度。但对于上述公式(1)的限制条件而言，由于设置了预设增强方式对应的最大幅度ε，因此可以在一定程度上限制像素增强的幅度。在p取值为无穷时，表示其可以限制对像素点的增强的幅度，但是不限制对像素点增强的数量。p的取值还可以为2，例如采用对抗算法(Deep Fool)，以在对像素点增强的数量和幅度之间达到平衡。

利用上述公式(1)，即可以确定在满足对样本数据增强的大小的情况下，保证在使第二神经网络f₀的损失最大时确定增强样本数据x^adv，也即可以保证确定的增强样本数据x^adv对第二神经网络f₀的攻击能力最强。

针对上述S103，多个第一神经网络例如可以包括上述S202中提及的模型池中，除第二神经网络外的其他神经网络中的至少部分神经网络。利用多个第一神经网络对增强样本数据进行处理，可以得到对增强样本数据的第一处理结果。

由于多个第一神经网络的精度可能较高也可能较低，因此在利用多个第一神经网络对增强样本数据进行处理时，可能会得到与对第一样本数据进行处理后得到的相同的处理结果，或者与第一样本数据进行处理后得到的不同的处理结果。

针对上述S104，在根据上述S103确定了第一处理结果后，可以基于第一处理结果、以及与第一样本数据对应的标注信息，得到增强样本数据对应的第二损失；在达到预设迭代停止条件的情况下，基于当前迭代周期的参考增强策略，确定目标增强策略。

示例性的，以多个第一神经网络为二分类神经网络为例，第一神经网络可以在对第一样本数据进行分类后，确定第一样本数据对应的类别例如为a或者b。其中，a或者b中一个类别是正确的分类结果，例如对于一个第一样本数据而言，其对应的标注信息为a。

具体地，在确定第二损失时，例如可以采用下述方式：确定多个第一样本数据对应的多个增强样本数据中，分类结果错误的结果占据全部的分类结果的比例，并将确定的比例作为第二损失。

示例性的，在第一样本数据包括N张图像的情况下，可以确定其对应的N张增强样本数据。由于对第一样本数据进行数据增强处理后，第一神经网络可能会错误的将增强样本数据确定为错误的分类结果，则可以将分类结果错误的结果占所有分类结果的比例，确定为第二损失。例如对于N张增强样本数据，第一神经网络在对其进行分类处理时，有n张增强样本数据的分类结果是错误的，则可以将n与N的比值，作为第二损失。也即，第二损失可以表征增强样本数据对第一神经网络的攻击能力。

具体地，第一神经网络在对增强样本数据进行分类时，例如可以判断增强样本数据可以分类为类别a或者类别b。第一神经网络在判断增强样本数据的类别时，可以输出其对应两种类别的概率。例如，第一神经网络可以输出对N张增强样本数据中的第一张增强样本数据分类为类别a的概率为60％，分类为b的概率为40％。在利用不同类别下的概率确定增强样本数据对应的分类结果时，将分类对应概率最高的类别作为增强样本数据对应的分类结果。则对于第一张增强样本数据，第一神经网络确定的分类结果为a。

对于增强策略而言，由于增强策略越优，对第一样本数据进行变换处理得到的增强样本数据对第一神经网络的攻击性会更强，因此第一神经网络对增强样本数据进行分类时，还可能会表现出确定增强样本数据对应错误分类下对应的概率提高的现象。因此，例如还可以利用此概率确定第二损失。具体可以根据实际情况确定，在此不再赘述。

对于第二损失，由于在第二损失增大时，表示第一处理结果可能与第一样本数据对应的标注信息相同的概率越小，证明利用参考增强策略得到的增强样本数据更好。因此，可以根据第二损失，对参考增强策略进行优化，优化的方向为使第二损失增大的方向。

在另一种可能的实施方式中，还可以根据下述公式(2)基于第二损失确定对参考增强策略的奖励(reward)：

其中，r(π)表示利用参考增强策略的奖励；

为上述S102中确定的增强样本数据；g表示G个第一神经网络中的第g个第一神经网络；r_g(·)则对应的表示利用第g个第一神经网络对增强样本数据进行处理后，可以得到的对参考增强策略的奖励函数。

此处，G的数值越大，也即第一神经网络的数量越多，可以更好根据增强样本数据评估参考增强策略在不同神经网络之间的泛化能力。

对于基于第二损失确定的对参考增强策略的奖励，其实际上使用的也同样包括了第二损失，因此根据对参考增强策略的奖励确定优化方向的方式与上述根据第二损失确定优化方向类似，优化的方向为使对参考增强策略的奖励增大的方向。

在根据参考增强策略完成第一次迭代后，由于迭代的数量较少，也即对策略搜索模型的训练较少，因此可以进行下一个迭代周期的处理。其中，在第二个迭代周期，对应的策略搜索模型是利用上一迭代周期对应的策略搜索模型确定的。

在具体实施中，可以根据第一个迭代周期确定的第二损失，确定新的参考增强策略，例如可以基于第二损失，调整策略搜索模型的参数，得到新的策略搜索模型，并利用新的策略搜索模型，得到新的参考增强策略。

在利用第二损失对策略搜索模型中的参数进行调整后，策略搜索模型变化为与第二个迭代周期对应的新的策略搜索模型。利用该新的策略搜索模型，可以确定与在第一个迭代周期确定的参考增强策略中至少部分不同的新的参考增强策略。

然后，返回至利用所述参考增强策略对第一样本数据进行变换处理，得到增强样本数据步骤，重新利用第二个迭代周期的参考增强策略重新得到第二个迭代周期对应的第二损失。

在利用迭代的方式确定目标增强策略时，例如还可以设置一个预设迭代停止条件，在未达到预设迭代停止条件的情况下，基于第二损失，重新确定在与当前迭代周期对应的下一个迭代周期的参考增强策略，直至在一个迭代周期中确定的第二损失达到预设迭代停止条件。

其中，预设迭代停止条件包括下述至少一种：第二损失小于预设损失阈值、迭代的迭代次数大于或者等于预设迭代次数。

在预设迭代停止条件包括第二损失小于预设损失阈值的情况下，在设置迭代停止条件时，可以根据实际情况确定预设损失阈值。示例性的，对于任务较为简单的分类神经网络，例如只需要分辨出样本图像数据中的动物、人物、以及植物的分类神经网络，由于其只需要识别较为简单的对象，因此可以设置一个较小的预设损失阈值。而对于任务较为复杂的神经网络，例如需要分辨出检测对象为真人还是人脸图像的神经网络，由于其需要对真实环境下的小幅抖动人脸和图像中人脸之间的细微不同做出判断，因此可以设置一个较大的预设损失阈值。

在预设迭代停止条件包括迭代的迭代次数大于或者等于预设迭代次数的情况下，由于在对参考增强策略进行优化的过程中，对参考增强策略的优化程度是有限的，在达到一定的迭代次数后，策略搜索模型进行策略搜索时得到的参考增强策略可能与前一个迭代周期得到的参考增强策略差异非常小。此时，为了保证在确定目标增强策略时的效率，例如可以根据经验确定一个预设迭代次数，并认为在迭代次数大于或者等于预设迭代次数时，有较高的把握确定得到的目标增强策略的泛化能力。

在利用策略搜索模型完成迭代处理后，即可以得到较好的目标增强策略。

参见图4所示，为本公开实施例提供的一种策略搜索模型确定目标增强策略的示意图。

以策略搜索模型为RNN为例，RNN可以逐次确定π＝{T₁,T₂,…,T_m}中的m个不同变换分别对应的增强方式和增强幅度。

下面以第一个迭代周期为例进行说明。图4中初始策略搜索模型40和初始策略搜索模型41可以分别输出增强方式和增强幅度。

具体地，在第一个迭代周期中，初始策略搜索模型40和初始策略搜索模型41先分别确定T₁对应的增强方式和增强幅度。图4中a指示的输入数据包括隐藏层的初始输入数据，图4中b指示则指示初始策略搜索模型的输入数据。由于对于第一个迭代周期而言，其在确定初始策略搜索模型时，可以对策略搜索模型的参数进行随机初始化，因此在输入隐藏层的初始输入数据时，可以先输入零向量；在输入初始策略搜索模型的输入数据时，同样可以先输入零向量。

另外，由于对于参考增强策略，其包含有增强方式和增强幅度两方面的输出数据，而对于增强方式，又包含较多的种类，例如上述S101中说明的多种增强方式。因此，在利用RNN确定参考增强策略时，可以先确定增强方式，例如初始策略搜索模型40先确定增强方式1，再利用确定的增强方式1作为初始策略搜索模型41的隐藏层的输入，使初始策略搜索模型41根据初始策略搜索模型40确定的增强方式1，进一步确定对应的增强幅度1。这样，可以降低初始策略搜索模型确定初始增强策略的难度，并有效的提高初始策略搜索模型确定初始增强策略的效率。

在确定了T₁对应的增强方式和增强幅度后，继续确定T₂对应的增强方式和增强幅度。第一个迭代周期输出的增强方式1和增强幅度1中的信息会作为策略搜索模型42以及策略搜索模型43中隐藏层的输入。利用策略搜索模型42以及策略搜索模型43，可以确定T₂对应的增强方式和增强幅度。类似地，将T₂对应的增强方式和增强幅度作为确定T₃的策略搜索模型中隐藏层的输入，可以继续确定T₃的增强方式和增强幅度，直至确定第一个迭代周期中最后一个变换，也即第m个变换T_m。

也即，在第一个迭代周期，RNN经过了2m次搜索过程，确定了第一个迭代周期对应的π¹。

然后，在第二个迭代周期利用RNN获取下一组增强策略时，会再一次将零向量作为输入，依据上述2m次搜索过程相似的过程，确定第二个迭代周期对应的π²。

此处，由于在第一个迭代周期完成时，RNN中的参数相较于未经过第一个迭代周期前的参数已经发生了变化，这种变化例如使得RNN可以更快或者更加准确的确定增强方式和增强幅度。因此，在第二个迭代周期结束后，确定的π²相较于π¹，其对应的增强策略会更优。

对于其他迭代周期，策略搜索模型在确定增强策略的方式，与上述第二个迭代周期下确定增强策略的方式相似，在此不再赘述。

针对上述S105，在利用上述S104确定目标增强策略后，还可以利用目标增强策略对第二样本数据进行处理，得到第二样本数据的目标增强样本数据。

此处，第二样本数据例如可以与第一样本数据相同或者部分相同，也可以与第一样本数据不同。或者，可以根据实际使用的神经网络确定其对应的第二样本数据，在此不做出限定。

由于利用上述S101～S104可以得到泛化能力较强的目标增强策略，因此利用这样的目标增强策略对第二样本数据进行数据增强处理，得到的第二样本数据的目标增强样本数据对其对应的神经网络的攻击能力也会更强。

另外，由于样本增强策略在生成时已经可以保证对模型池中较多的模型进行攻击时是有效的，因此得到的样本增强策略可以直接用于对其他模型的样本数据进行数据增强处理，并且同样可以得到攻击能力较强的对抗样本。

在本公开另一实施例中，还提供了一种神经网络的训练方法，参见图5所示，为本公开实施例提供的一种神经网络的训练方法的具体流程图，包括：

S501：利用本公开实施例提供的任一种样本的生成方法生成的目标增强样本数据，对待训练的神经网络进行训练，得到目标神经网络。

其中，由于本公开上一实施例提供的样本的生成方法，可以得到对其对应的神经网络的攻击能力更强的目标增强样本数据，因此在利用该目标增强样本数据对待训练的神经网络进行训练后，得到的目标神经网络对这样的目标增强样本数据的防御能力也更强，也即对在样本中施加的微小扰动的抗干扰能力更强。

示例性的，对于需要分辨出检测对象为真人还是人脸图像的神经网络而言，利用目标增强样本数据对待训练的该神经网络进行训练得到的目标神经网络，相较于未利用目标增强样本数据训练的其他神经网络而言，可以分辨出检测到的人脸是真实的人脸，还是图像中的人脸，准确性更强。

本领域技术人员可以理解，在具体实施方式的上述方法中，各步骤的撰写顺序并不意味着严格的执行顺序而对实施过程构成任何限定，各步骤的具体执行顺序应当以其功能和可能的内在逻辑确定。

基于同一发明构思，本公开实施例中还提供了与上述方法对应的装置，由于本公开实施例中的装置解决问题的原理与本公开实施例上述对应的方法相似，因此装置的实施可以参见方法的实施，重复之处不再赘述。

参照图6所示，为本公开实施例提供的一种样本的生成装置的示意图，所述装置包括：获取模块61、第一处理模块62、第二处理模块63、确定模块64、以及第三处理模块65；其中：

获取模块61，用于获取参考增强策略；第一处理模块62，用于利用所述参考增强策略对第一样本数据进行变换处理，得到增强样本数据；第二处理模块63，用于利用多个第一神经网络对所述增强样本数据进行处理，得到第一处理结果；确定模块64，用于基于所述第一处理结果、以及所述参考增强策略，确定目标增强策略；第三处理模块65，用于利用所述目标增强策略对第二样本数据进行数据增强处理，得到所述第二样本数据的目标增强样本数据。

一种可选的实施方式中，所述获取模块61在获取参考增强策略时，用于：利用策略搜索模型进行策略搜索，得到所述参考增强策略；其中，所述策略搜索模型是利用初始策略搜索模型确定的，或者利用上一迭代周期对应的策略搜索模型确定的。

一种可选的实施方式中，所述第一处理模块62在利用参考增强策略对第一样本数据进行变换处理，得到增强样本数据时，用于：利用所述参考增强策略对所述第一样本数据进行数据增强处理，得到所述第一样本数据对应的中间样本数据；利用第二神经网络对所述中间样本数据进行处理，得到第二处理结果；利用所述第二处理结果，对所述第一样本数据进行调整，得到所述第一样本数据对应的增强样本数据。

一种可选的实施方式中，所述第一处理模块62在利用所述第二处理结果，对所述第一样本数据进行调整，得到所述第一样本数据对应的增强样本数据时，用于：利用所述第二处理结果、以及所述第一样本数据对应的标注信息，得到所述中间样本数据对应的第一损失；对所述第一损失进行梯度反向传播处理，并基于所述梯度反向传播处理的结果，对所述第一样本数据进行调整，得到所述第一样本数据对应的增强样本数据。

一种可选的实施方式中，所述第一处理模块62在对所述第一损失进行梯度反向传播处理时，用于：基于所述第一损失，确定所述第一损失与所述中间样本数据之间的第一梯度；基于所述第一梯度、以及所述参考增强策略，确定所述中间样本数据分别与所述第一样本数据之间的第二梯度；将所述第二梯度作为所述梯度反向传播处理的结果。

一种可选的实施方式中，所述确定模块64在基于所述第一处理结果、以及所述参考增强策略，确定目标增强策略时，用于：基于所述第一处理结果、以及与所述第一样本数据对应的标注信息，得到所述增强样本数据对应的第二损失；在未达到所述预设迭代停止条件的情况下，基于所述第二损失，确定新的参考增强策略；并返回至利用所述参考增强策略对第一样本数据进行变换处理，得到增强样本数据步骤；在达到预设迭代停止条件的情况下，基于当前迭代周期的参考增强策略，确定所述目标增强策略。

一种可选的实施方式中，所述确定模块64在基于所述第二损失，确定新的参考增强策略时，用于：基于所述第二损失，调整策略搜索模型的参数，得到新的策略搜索模型；利用所述新的策略搜索模型，得到所述新的参考增强策略。

基于同一发明构思，本公开实施例中还提供了与神经网络的训练方法对应的神经网络的训练装置，由于本公开实施例中的装置解决问题的原理与本公开实施例上述神经网络的训练方法相似，因此装置的实施可以参见方法的实施，重复之处不再赘述。

参见图7所示，为本公开实施例提供的一种神经网络的训练装置的示意图，所述装置包括：训练模块71；其中：

训练模块71，用于利用本公开实施例提供的任一种样本的生成方法生成的目标增强样本数据，对待训练的神经网络进行训练，得到目标神经网络。

关于装置中的各模块的处理流程、以及各模块之间的交互流程的描述可以参照上述方法实施例中的相关说明，这里不再详述。

本公开实施例还提供了一种计算机设备，如图8所示，为本公开实施例提供的计算机设备结构示意图，包括：

处理器81和存储器82；所述存储器82存储有处理器81可执行的机器可读指令，处理器81用于执行存储器82中存储的机器可读指令，所述机器可读指令被处理器81执行时，处理器81执行下述步骤：

获取参考增强策略；利用所述参考增强策略对第一样本数据进行变换处理，得到增强样本数据；利用多个第一神经网络对所述增强样本数据进行处理，得到第一处理结果；基于所述第一处理结果、以及所述参考增强策略，确定目标增强策略。

或者，处理器81执行下述步骤：

获取参考增强策略；利用所述参考增强策略对第一样本数据进行变换处理，得到增强样本数据；利用多个第一神经网络对所述增强样本数据进行处理，得到第一处理结果；基于所述第一处理结果、以及所述参考增强策略，确定目标增强策略；利用所述目标增强策略对第二样本数据进行数据增强处理，得到所述第二样本数据的目标增强样本数据。

或者，处理器81执行下述步骤：

利用本公开实施例提供的任一种样本的生成方法生成的目标增强样本数据，对待训练的神经网络进行训练，得到目标神经网络。

上述存储器82包括内存821和外部存储器822；这里的内存821也称内存储器，用于暂时存放处理器20中的运算数据，以及与硬盘等外部存储器822交换的数据，处理器20通过内存821与外部存储器822进行数据交换。

上述指令的具体执行过程可以参考本公开实施例中对应样本的生成方法、神经网络的训练方法的步骤，此处不再赘述。

本公开实施例还提供一种计算机可读存储介质，该计算机可读存储介质上存储有计算机程序，该计算机程序被处理器运行时执行上述方法实施例中对应样本的生成方法、神经网络的训练方法的步骤。其中，该存储介质可以是易失性或非易失的计算机可读取存储介质。

本公开实施例还提供一种计算机程序产品，该计算机程序产品承载有程序代码，所述程序代码包括的指令可用于执行上述方法实施例中对应样本的生成方法、神经网络的训练方法的步骤，具体可参见上述方法实施例，在此不再赘述。

其中，上述计算机程序产品可以具体通过硬件、软件或其结合的方式实现。在一个可选实施例中，所述计算机程序产品具体体现为计算机存储介质，在另一个可选实施例中，计算机程序产品具体体现为软件产品，例如软件开发包(Software Development Kit，SDK)等等。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的系统和装置的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。在本公开所提供的几个实施例中，应该理解到，所揭露的系统、装置和方法，可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，又例如，多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些通信接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本公开各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。

所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个处理器可执行的非易失的计算机可读取存储介质中。基于这样的理解，本公开的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本公开各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(Read-OnlyMemory，ROM)、随机存取存储器(Random Access Memory，RAM)、磁碟或者光盘等各种可以存储程序代码的介质。

最后应说明的是：以上所述实施例，仅为本公开的具体实施方式，用以说明本公开的技术方案，而非对其限制，本公开的保护范围并不局限于此，尽管参照前述实施例对本公开进行了详细的说明，本领域的普通技术人员应当理解：任何熟悉本技术领域的技术人员在本公开揭露的技术范围内，其依然可以对前述实施例所记载的技术方案进行修改或可轻易想到变化，或者对其中部分技术特征进行等同替换；而这些修改、变化或者替换，并不使相应技术方案的本质脱离本公开实施例技术方案的精神和范围，都应涵盖在本公开的保护范围之内。因此，本公开的保护范围应所述以权利要求的保护范围为准。

Claims

1.一种样本的生成方法，其特征在于，包括：

获取参考增强策略；

利用所述参考增强策略对第一样本数据进行变换处理，得到增强样本数据；所述参考增强策略包括：至少一种增强方式、以及与所述至少一种增强方式分别对应的增强幅度；所述增强样本数据是经过梯度反向传播处理得到的；所述增强方式包括下述至少一种：几何增强方式、强度增强方式、以及色彩空间的增强方式；

利用多个第一神经网络对所述增强样本数据进行处理，得到第一处理结果；

基于所述第一处理结果、以及所述参考增强策略，确定目标增强策略；

利用所述目标增强策略对第二样本数据进行数据增强处理，得到所述第二样本数据的目标增强样本数据；所述第一样本数据和所述第二样本数据包括样本图像。

2.根据权利要求1所述的生成方法，其特征在于，所述获取参考增强策略包括：利用策略搜索模型进行策略搜索，得到所述参考增强策略；

其中，所述策略搜索模型是利用初始策略搜索模型确定的，或者利用上一迭代周期对应的策略搜索模型确定的。

3.根据权利要求1或2所述的生成方法，其特征在于，所述利用所述参考增强策略对第一样本数据进行变换处理，得到增强样本数据，包括：

利用所述参考增强策略对所述第一样本数据进行数据增强处理，得到所述第一样本数据对应的中间样本数据；

利用第二神经网络对所述中间样本数据进行处理，得到第二处理结果；

利用所述第二处理结果，对所述第一样本数据进行调整，得到所述第一样本数据对应的增强样本数据。

4.根据权利要求3所述的生成方法，其特征在于，所述利用所述第二处理结果，对所述第一样本数据进行调整，得到所述第一样本数据对应的增强样本数据，包括：

利用所述第二处理结果、以及所述第一样本数据对应的标注信息，得到所述中间样本数据对应的第一损失；

对所述第一损失进行梯度反向传播处理，并基于所述梯度反向传播处理的结果，对所述第一样本数据进行调整，得到所述第一样本数据对应的增强样本数据。

5.根据权利要求4所述的生成方法，其特征在于，所述对所述第一损失进行梯度反向传播处理，包括：

基于所述第一损失，确定所述第一损失与所述中间样本数据之间的第一梯度；

基于所述第一梯度、以及所述参考增强策略，确定所述中间样本数据分别与所述第一样本数据之间的第二梯度；

将所述第二梯度作为所述梯度反向传播处理的结果。

6.根据权利要求1或2所述的生成方法，其特征在于，基于所述第一处理结果、以及所述参考增强策略，确定目标增强策略，包括：

基于所述第一处理结果、以及与所述第一样本数据对应的标注信息，得到所述增强样本数据对应的第二损失；

在未达到预设迭代停止条件的情况下，基于所述第二损失，确定新的参考增强策略；

并返回至利用所述参考增强策略对第一样本数据进行变换处理，得到增强样本数据步骤；

在达到预设迭代停止条件的情况下，基于当前迭代周期的参考增强策略，确定所述目标增强策略。

7.根据权利要求6所述的生成方法，其特征在于，所述基于所述第二损失，确定新的参考增强策略，包括：

基于所述第二损失，调整策略搜索模型的参数，得到新的策略搜索模型；

利用所述新的策略搜索模型，得到所述新的参考增强策略。

8.根据权利要求6所述的生成方法，其特征在于，所述预设迭代停止条件包括下述至少一种：所述第二损失小于预设损失阈值、所述迭代的迭代次数大于或者等于预设迭代次数。

9.一种神经网络的训练方法，其特征在于，包括：

利用权利要求1至8任一项所述的样本的生成方法生成的目标增强样本数据，对待训练的神经网络进行训练，得到目标神经网络。

10.一种样本的生成装置，其特征在于，包括：

获取模块，用于获取参考增强策略；

第一处理模块，用于利用所述参考增强策略对第一样本数据进行变换处理，得到增强样本数据；所述参考增强策略包括：至少一种增强方式、以及与所述至少一种增强方式分别对应的增强幅度；所述增强样本数据是经过梯度反向传播处理得到的；所述增强方式包括下述至少一种：几何增强方式、强度增强方式、以及色彩空间的增强方式；

第二处理模块，用于利用多个第一神经网络对所述增强样本数据进行处理，得到第一处理结果；

确定模块，用于基于所述第一处理结果、以及所述参考增强策略，确定目标增强策略；

第三处理模块，用于利用所述目标增强策略对第二样本数据进行数据增强处理，得到所述第二样本数据的目标增强样本数据；所述第一样本数据和所述第二样本数据包括样本图像。

11.一种神经网络的训练装置，其特征在于，包括：

训练模块，用于利用权利要求1至8任一项所述的样本的生成方法生成的目标增强样本数据，对待训练的神经网络进行训练，得到目标神经网络。

12.一种计算机设备，其特征在于，包括：处理器、存储器，所述存储器存储有所述处理器可执行的机器可读指令，所述处理器用于执行所述存储器中存储的机器可读指令，所述机器可读指令被所述处理器执行时，所述处理器执行如权利要求1至8任一项所述的样本的生成方法的步骤，或者执行如权利要求9所述的神经网络的训练方法的步骤。

13.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被计算机设备运行时，所述计算机设备执行如权利要求1至8任一项所述的样本的生成方法的步骤，或者执行如权利要求9所述的神经网络的训练方法的步骤。