CN112633459A

CN112633459A - 训练神经网络的方法、数据处理方法和相关装置

Info

Publication number: CN112633459A
Application number: CN201910904970.7A
Authority: CN
Inventors: 张新雨; 袁鹏; 钟钊
Original assignee: Huawei Technologies Co Ltd
Current assignee: Huawei Technologies Co Ltd
Priority date: 2019-09-24
Filing date: 2019-09-24
Publication date: 2021-04-09
Also published as: EP4030348A1; EP4030348A4; US20220215259A1; WO2021057186A1

Abstract

本申请中的技术方案应用于人工智能领域。本申请提供一种训练神经网络的方法，一种使用该方法训练得到的神经网络进行数据处理的方法以及相关装置。本申请的训练方法，通过对抗方式对目标神经网络进行训练，使得策略搜索模块可以不断发现目标神经网络的弱点，并根据该弱点生成更高质量的策略，以及根据该策略进行数据增强，以得到更高质量的数据，根据该数据可以训练出更高质量的目标神经网络。本申请的数据处理方法使用前述目标神经网络进行数据处理，可以得到更为准确的处理结果。

Description

训练神经网络的方法、数据处理方法和相关装置

技术领域

本申请涉及人工智能领域，并且更具体地，涉及训练神经网络的方法、数据处理方法和相关装置。

背景技术

人工智能(artificial intelligence,AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说，人工智能是计算机科学的一个分支，它企图了解智能的实质，并生产出一种新的能以人类智能相似的方式作出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法，使机器具有感知、推理与决策的功能。人工智能领域的研究包括机器人，自然语言处理，计算机视觉，决策与推理，人机交互，推荐与搜索，AI基础理论等。

随着人工智能技术的快速发展，神经网络，例如深度神经网络，近年来在图像、视频以及语音等多种媒体信号的处理与分析中取得了很大的成就。一个性能优良的神经网络一般都需要大量的训练数据才能获得比较理想的结果。在数据量有限的情况下，可以通过数据增强(data augmentation)来增加训练样本的多样性，提高网络模型的鲁棒性，避免过拟合。

数据增强，即对已有的数据进行变换，例如进行翻转、平移或旋转等操作，以创造出更多的数据。

目前，数据增强包括离线增强和在线增强。离线增强是指直接对数据集进行处理，数据的数目等于增强因子与原数据集的数目的乘积，这种方法常常用于数据集很小的场景。在线增强又称为动态增强，主要应用于规模较大的数据集。在线增强通过对即将输入模型的小批量数据执行相应的变化以得到更多的数据。

现有的数据增强技术中，提出了一种数据增强方法，该数据增强方法中设计了一个搜索空间，该搜索空间中包括一个或多个策略，每个策略包括多个子策略，每个子策略由两个操作组成，每个操作为类似于平移、旋转或剪切的图像处理函数，每个操作有两个超参数，一个超参数为应用该操作的概率，另一个超参数为应用该操作的幅度(magnitude)。该数据增强方法应用搜索算法来从搜索空间中寻找较好策略，以使得根据这些较好的测量训练出的神经网络能获得较高的验证准确度。

更具体地，该搜索空间中包括对x坐标剪切(ShearX)、对y坐标剪切(ShearY)、对x轴坐标翻转(TranslateX)、对y坐标翻转(Translate Y)、旋转、自动对比度、反转、均衡、曝光、分层、对比度、颜色、亮度、清晰度、切口、样本配对等16种操作，每种操作的幅值离散化为10个离散值(均匀间距)，每种操作的概率离散为11个值(均匀分布)。因此，搜索每个子策略就变成了在(16*10*11)²种组合搜索一种可能组合的问题。由于一种策略中包括5个子策略，因此在搜索空间中搜索策略就成为一个在(16*10*11)¹⁰种组合(即(16*10*11)¹⁰)种策略)中搜索一种可能组合的问题。

搜索策略的算法由两个组成部分，一个是递归神经网络的控制器，另一个是近似策略优化算法的训练算法。控制器对上述(16*10*11)¹⁰种策略中进行采样，并使用采样得到的增强策略对子训练集进行数据增强，然后使用数据增强得到的数据对子模型进行训练得到反馈信号，该反馈信号反馈给控制器之后，控制器根据该反馈信号进行策略采样。重复上述流程直到该算法收敛或者达到终止条件。搜索结束后，从采样得到的所有策略中选择性能最好的5个策略构成一组包含25个子策略的策略，然后将这组包含了25个子策略的策略用于增强目标模型的训练数据，以根据增强后的训练数据训练目标模型。

上述方法通常需要进行15000次以上采样，才能得到较优的策略。也就是说，上述策略搜索算法的策略采样效率比较低。由于目标模型的训练数据是根据上述策略搜索算法采样得到的，上述策略搜索算法较低的采样效率使得目标模型的训练效率较低。

发明内容

本申请提供一种神经网络的训练方法、该神经网络的数据处理方法和相关装置，有助于提高训练效率和提高神经网络的性能。

第一方面，本申请提供一种神经网络的训练方法，该方法包括：根据第i-1组损失值生成第i批策略，所述第i-1组损失值为目标神经网络经过第i-1批增强训练集的训练后的损失函数输出的值，i依次从2取到N，N为预设的正整数；根据所述第i批策略对所述目标神经网络的原始训练集进行数据增强，以得到第i批增强训练集；根据所述第i批增强训练集对所述目标神经网络进行训练，以得到第i组损失值；输出根据第N批增强训练集对所述目标神经网络进行训练所得到的神经网络。

本申请实施例的方法，通过交替训练目标神经网络和搜索策略，使得生成的策略可以随着目标神经网络的状态的变化而变化，从而可以使得根据该策略得到的增强训练集与目标神经网络的训练过程更加契合，进而可以较大幅度提升目标神经网络的性能。此外，该训练装置可以提升策略的生成效率，从而可以提高目标神经网络的训练效率。

此外，由于该方法训练的目标神经网络可以为实际业务神经网络，即可以实现策略搜索和业务神经网络训练的交替同步完成，有助于提高训练效率和提供业务神经网络的性能。

通常情况下，所述第i批策略需要满足：原始训练集经过所述第i批策略增强得到的第i批增强训练集输入所述目标神经网络之后，所述目标神经网络对第i批增强训练集进行推理输出的损失函数值，应大于，第i-1批增强训练集输入所述目标神经网络之后，所述目标神经网络对第i-1批增强训练集进行推理输出的损失函数值。而地i批策略增强得到的第i批增强训练集用于训练所述目标神经网络之后，应较小所述目标神经网络的损失值。

也就是说，该方法通过对抗方式对目标神经网络进行训练，可以不断发现目标神经网络的弱点，并根据该弱点生成更高质量的策略，以及根据该策略进行数据增强，以得到更高质量的数据，根据该数据可以训练出更高质量的目标神经网络。

结合第一方面，在第一种可能的实现方式中，所述根据第i-1组损失值生成第i批策略，包括：根据增强策略神经网络和所述第i-1组损失值生成所述第i批策略，其中，所述i-1组损失值用于指导所述增强策略神经网络基于机器学习法更新参数，所述增强策略神经网络包括长短时间记忆单元、归一化模块和采样模块，所述长短时间记忆单元用于：将所述采样模块在前一个时间步输出的操作信息映射成M维向量，M为所述采样模块在当前时间步将输出的操作信息所属的信息集合的长度，所述归一化模块用于根据所述长短时间记忆单元输出的M维向量生成所述信息集合中的M个操作信息的概率分布，所述信息集合为操作类型集合、操作概率集合或操作幅度集合，所述采样模块用于根据所述概率分布采样输出所述M个操作信息中的一个。

结合第一种可能的实现方式，在第二种可能的实现方式中，所述采样模块在所述前一个时间步输出的是操作信息的一位有效编码。其中，所述增强策略神经网络还包括词向量嵌入模块，所述词向量嵌入模块用于：将所述采样模块在前一个时间步内输出的操作信息的一位有效编码向量映射为实数域上的向量；所述长短时间记忆单元具体用于：将所述词向量嵌入模块输出的向量映射成所述M维向量。

结合第一方面，在第三种可能的实现方式中，所述方法还包括：利用经过所述第i-1批增强训练集训练的所述目标神经网络，对所述原始训练集进行推理，以得到所述原始训练集中的数据在所述目标神经网络中的第i批特征。其中，所述根据第i-1组损失值生成第i批策略，包括：根据所述第i-1组损失值和所述第i批特征生成所述第i批策略。

结合第三种可能的实现方式，在第四种可能的实现方式中，所述根据所述第i-1组损失值和所述第i批特征生成所述第i批策略，包括：根据增强策略神经网络、所述第i批特征和所述第i-1组损失值生成所述第i批策略，其中，所述i-1组损失值和所述第i批特征用于指导所述增强策略神经网络基于机器学习法更新参数，所述增强策略神经网络包括长短时间记忆单元、归一化模块、采样模块和拼接模块，所述拼接模块用于将所述第i批特征和所述采样模块在前一个时间内输出的操作信息拼接为一个向量，所述长短时间记忆单元用于根据所述拼接模块输出的向量映射得到M维向量，M为所述采样模块在当前时间步将输出的操作信息所属的信息集合的长度，所述归一化模块用于根据所述长短时间记忆单元输出的M维向量生成所述信息集合内的M个操作信息的概率分布，所述信息集合为操作类型集合、操作概率集合或操作幅度集合，所述采样模块用于根据所述概率分布采样输出所述M个操作信息中的一个。

结合第四种可能的实现方式，在第五种可能的实现方式中，所述采样模块在所述前一个时间步输出的是操作信息的一位有效编码。其中，所述增强策略神经网络还包括词向量嵌入模块，所述词向量嵌入模块用于对所述采样模块在前一个时间步内输出的操作信息的一位有效编码向量映射为实数域上的向量；所述长短时间记忆单元具体用于将所述词向量嵌入模块输出的向量成所述M维向量。

第二方面，本申请提供一种数据处理方法，包括：获取待处理数据；根据目标神经网络对所述待处理数据进行处理，所述目标神经网络通过N次训练得到，在所述N次训练中的第i次训练中，通过第i批增强训练集对所述目标神经网络进行训练，所述第i批增强训练集为原始训练集经过第i批策略的增强得到的训练集，所述第i批策略为根据第i-1组损失值生成的策略，所述第i-1组损失值为根据第i-1批增强训练集对所述目标神经网络进行训练时所述目标神经网络的损失函数输出的值，N为预设的正整数。

该方法可以根据第一方面中的方法训练得到的目标神经网络来处理数据，从而可以提高处理性能。例如，目标神经网络为图像分类网络时，由于第一方面中的方法训练得到的目标神经网络的性能更高，因此，根据该目标神经网络进行图像分类的结果更准确。

结合第二方面，在第一种可能的实现方式中，所述第i批策略为根据增强策略神经网络和所述第i-1组损失值生成的，所述i-1组损失值用于指导所述增强策略神经网络基于机器学习法更新参数，所述增强策略神经网络包括长短时间记忆单元、归一化模块和采样模块，所述长短时间记忆单元用于：将所述采样模块在前一个时间步输出的操作信息映射成M维向量，M为所述采样模块在当前时间步将输出的操作信息所属的信息集合的长度，所述归一化模块用于根据所述长短时间记忆单元输出的M维向量生成所述信息集合中的M个操作信息的概率分布，所述信息集合为操作类型集合、操作概率集合或操作幅度集合，所述采样模块用于根据所述概率分布采样输出所述M个操作信息中的一个。

结合第一种可能的实现方式，在第二种可能的实现方式中，所述采样模块在所述前一个时间步输出的是操作信息的一位有效编码。其中，所述增强策略神经网络还包括词向量嵌入模块，所述词向量嵌入模块用于对所述采样模块在前一个时间步内输出的操作信息的一位有效编码向量映射为实数域上的向量；所述长短时间记忆单元具体用于将所述词向量嵌入模块输出的向量映射成所述M维向量。

结合第二方面，在第三种可能的实现方式中，所述第i批策略是根据所述第i-1组损失值和所述第i批特征生成的，所述第i批特征是利用经过所述第i-1批增强训练集训练的所述目标神经网络对所述原始训练集进行推理得到的。

结合第三种可能的实现方式，在第四种可能的实现方式中，所述第i批策略是根据增强策略神经网络、所述第i批特征和所述第i-1组损失值生成的，其中，所述i-1组损失值和所述第i批特征用于指导所述增强策略神经网络基于机器学习法更新参数，所述增强策略神经网络包括长短时间记忆单元、归一化模块、采样模块和拼接模块，所述拼接模块用于将所述第i批特征和所述采样模块在前一个时间内输出的操作信息拼接为一个向量，所述长短时间记忆单元用于根据所述拼接模块输出的向量映射得到成M维向量，M为所述采样模块在当前时间步将输出的操作信息所属的信息集合的长度，所述归一化模块用于根据所述长短时间记忆单元输出的M维向量生成所述信息集合内的M个操作信息的概率分布，所述信息集合为操作类型集合、操作概率集合或操作幅度集合，所述采样模块用于根据所述概率分布采样输出所述M个操作信息中的一个。

结合第四种可能的实现方式，在第五种可能的实现方式中，所述采样模块在所述前一个时间步输出的是操作信息的一位有效编码。其中，所述增强策略神经网络还包括词向量嵌入模块，所述词向量嵌入模块用于将所述采样模块在所述前一个时间步内输出的操作信息的一位有效编码向量映射为实数域上的向量；所述长短时间记忆单元具体用于：将所述词向量嵌入模块输出的向量成所述M维向量。

第三方面，提供了一种神经网络的训练装置，该装置包括用于执行上述第一方面或者第一方面中的任意一种实现方式中的方法的模块。

第四方面，提供了一种数据处理装置，该装置包括用于执行上述第二方面或者第二方面中的任意一种实现方式中的方法的模块。

第五方面，提供了一种神经网络的训练装置，该装置包括：存储器，用于存储程序；处理器，用于执行所述存储器存储的程序，当所述存储器存储的程序被执行时，所述处理器用于执行第一方面或者第一方面中的任意一种实现方式中的方法。

第六方面，提供了一种数据处理装置，该装置包括：存储器，用于存储程序；处理器，用于执行所述存储器存储的程序，当所述存储器存储的程序被执行时，所述处理器用于执行第二方面或者第二方面中的任意一种实现方式中的方法。

第七方面，提供一种计算机可读介质，该计算机可读介质存储用于设备执行的指令，该指令用于实现第一方面至第二方面中的任意一种实现方式中的方法。

第八方面，提供一种包含指令的计算机程序产品，当该计算机程序产品在计算机上运行时，使得计算机执行上述第一方面至第二方面中的任意一种实现方式中的方法。

第九方面，提供一种芯片，所述芯片包括处理器与数据接口，所述处理器通过所述数据接口读取存储器上存储的指令，执行上述第一方面至第二方面中的任意一种实现方式中的方法。

可选地，作为一种实现方式，所述芯片还可以包括存储器，所述存储器中存储有指令，所述处理器用于执行所述存储器上存储的指令，当所述指令被执行时，所述处理器用于执行第一方面至第二方面中的任意一种实现方式中的方法。

附图说明

图1是本申请实施例提供的系统架构的结构示意图；

图2是本申请一个实施例的训练装置的示意性结构图；

图3是本申请另一个实施例的训练装置的示意性部署图；

图4是本申请另一个实施例的训练装置的示意性部署图；

图5是本申请一个实施例的数据处理装置的示意性结构图；

图6是本申请一个实施例的训练方法的示意性流程图；

图7是本申请另一个实施例的训练方法的示意性流程图；

图8是本申请一个实施例的策略搜索神经网络的示意性结构图；

图9是本申请另一个实施例的训练方法的示意性流程图；

图10是本申请另一个实施例的训练方法的示意性流程图；

图11是本申请另一个实施例的策略搜索神经网络的示意性结构图；

图12是本申请另一个实施例的策略搜索神经网络的示意性结构图；

图13是本申请一个实施例的数据处理方法的示意性流程图；

图14是本申请一个实施例的装置的示意性结构图；

图15是本申请另一个实施例的策略搜索神经网络的示意性结构图。

具体实施方式

本申请的方案可以应用在人工智能中的很多领域，例如智能终端、智能制造、智能交通、智能家居、智能医疗、智能安防、自动驾驶，平安城市等领域。下面对三种较为常用的应用场景进行简单的介绍。

应用场景一：辅助/自动驾驶系统

利用本申请实施例的训练方法训练得到数据处理网络，在高级驾驶辅助系统(advanced driving assistant system，ADAS)和自动驾驶系统(autonomous drivingsystem，ADS)中应用该数据处理网络对输入的道路画面进行处理，从而识别出道路画面中的不同物体。例如，应用该传感器数据处理网络对路面上行人或者障碍物进行检测和躲避，尤其是要避免碰撞行人。

应用场景二：平安城市/视频监控系统

利用本申请实施例的训练方法训练得到数据处理网络，在平安城市系统和视频监控系统中应用该数据处理网络实时进行目标检测(检测行人或者车辆)，并标出检测结果，以及将检测结果系统的分析单元中，以查找犯罪嫌疑人、失踪人口以及特定车辆等。

应用场景三：智能终端(相册分类、图像识物等)

利用本申请实施例的训练方法训练得到相册分类神经网络，然后在智能终端(例如智能手机、平板电脑等)上利用该相册分类神经网络对图片进行分类，从而为不同的类别的图片打上标签，便于用户查看和查找。另外，这些图片的分类标签也可以提供给相册管理系统进行分类管理，节省用户的管理时间，提高相册管理的效率，提升用户体验。

本申请实施例涉及了神经网络的相关应用，为了更好地理解本申请实施例的方案，下面先对本申请实施例可能涉及的神经网络的相关术语和其他相关概念进行介绍。

(1)神经网络

神经网络可以是由神经单元组成的，神经单元可以是指以x_s和截距1为输入的运算单元，该运算单元的输出可以如公式(1-1)所示：

其中，s＝1、2、……n，n为大于1的自然数，W_s为x_s的权重，b为神经单元的偏置。f为神经单元的激活函数(activation functions)，用于将非线性特性引入神经网络中，来将神经单元中的输入信号转换为输出信号。该激活函数的输出信号可以作为下一层卷积层的输入，激活函数可以是sigmoid函数。神经网络是将多个上述单一的神经单元联结在一起形成的网络，即一个神经单元的输出可以是另一个神经单元的输入。每个神经单元的输入可以与前一层的局部接受域相连，来提取局部接受域的特征，局部接受域可以是由若干个神经单元组成的区域。

(2)深度神经网络

深度神经网络(deep neural network，DNN)，也称多层神经网络，可以理解为具有多层隐含层的神经网络。按照不同层的位置对DNN进行划分，DNN内部的神经网络可以分为三类：输入层，隐含层，输出层。一般来说第一层是输入层，最后一层是输出层，中间的层数都是隐含层。层与层之间是全连接的，也就是说，第i层的任意一个神经元一定与第i+1层的任意一个神经元相连。

虽然DNN看起来很复杂，但是就每一层的工作来说，其实并不复杂，简单来说就是如下线性关系表达式：

其中，

是输入向量，

是输出向量，

是偏移向量，W是权重矩阵(也称系数)，α()是激活函数。每一层仅仅是对输入向量

经过如此简单的操作得到输出向量

由于DNN层数多，系数W和偏移向量

的数量也比较多。这些参数在DNN中的定义如下所述：以系数W为例：假设在一个三层的DNN中，第二层的第4个神经元到第三层的第2个神经元的线性系数定义为

上标3代表系数W所在的层数，而下标对应的是输出的第三层索引2和输入的第二层索引4。

综上，第L-1层的第k个神经元到第L层的第j个神经元的系数定义为

需要注意的是，输入层是没有W参数的。在深度神经网络中，更多的隐含层让网络更能够刻画现实世界中的复杂情形。理论上而言，参数越多的模型复杂度越高，“容量”也就越大，也就意味着它能完成更复杂的学习任务。训练深度神经网络的也就是学习权重矩阵的过程，其最终目的是得到训练好的深度神经网络的所有层的权重矩阵(由很多层的向量W形成的权重矩阵)。

(3)分类器

很多神经网络结构最后都有一个分类器，用于对图像中的物体进行分类。分类器一般由全连接层(fully connected layer)和softmax函数(可以称为归一化指数函数，简称为归一化函数)组成，能够根据输入而输出不同类别的概率。

(4)卷积神经网络(Convosutionas Neuras Network，CNN)

卷积神经网络是一种带有卷积结构的深度神经网络。卷积神经网络包含了一个由卷积层和子采样层构成的特征抽取器。该特征抽取器可以看作是滤波器，卷积过程可以看作是使用一个可训练的滤波器与一个输入的图像或者卷积特征平面(feature map)做卷积。卷积层是指卷积神经网络中对输入信号进行卷积处理的神经元层。在卷积神经网络的卷积层中，一个神经元可以只与部分邻层神经元连接。一个卷积层中，通常包含若干个特征平面，每个特征平面可以由一些矩形排列的神经单元组成。同一特征平面的神经单元共享权重，这里共享的权重就是卷积核。共享权重可以理解为提取图像信息的方式与位置无关。这其中隐含的原理是：图像的某一部分的统计信息与其他部分是一样的。即意味着在某一部分学习的图像信息也能用在另一部分上。所以对于图像上的所有位置，我们都能使用同样的学习得到的图像信息。在同一卷积层中，可以使用多个卷积核来提取不同的图像信息，一般地，卷积核数量越多，卷积操作反映的图像信息越丰富。

卷积核可以以随机大小的矩阵的形式初始化，在卷积神经网络的训练过程中卷积核可以通过学习得到合理的权重。另外，共享权重带来的直接好处是减少卷积神经网络各层之间的连接，同时又降低了过拟合的风险。

(5)反向传播算法

卷积神经网络可以采用误差反向传播(back propagation，BP)算法在训练过程中修正初始的超分辨率模型中参数的大小，使得超分辨率模型的重建误差损失越来越小。具体地，前向传递输入信号直至输出会产生误差损失，通过反向传播误差损失信息来更新初始的超分辨率模型中参数，从而使误差损失收敛。反向传播算法是以误差损失为主导的反向传播运动，旨在得到最优的超分辨率模型的参数，例如权重矩阵。

(6)循环神经网络(recurrent neural networks,RNN)

RNNs的目的使用来处理序列数据。在传统的神经网络模型中，是从输入层到隐含层再到输出层，层与层之间是全连接的，每层之间的节点是无连接的。但是这种普通的神经网络对于很多问题却无能无力。例如，你要预测句子的下一个单词是什么，一般需要用到前面的单词，因为一个句子中前后单词并不是独立的。RNNs之所以称为循环神经网路，即一个序列当前的输出与前面的输出也有关。具体的表现形式为网络会对前面的信息进行记忆并应用于当前输出的计算中，即隐藏层之间的节点不再无连接而是有连接的，并且隐藏层的输入不仅包括输入层的输出还包括上一时刻隐藏层的输出。理论上，RNNs能够对任何长度的序列数据进行处理

对于RNN的训练和对传统的人工神经网络(artificial neural network，ANN)训练一样。同样使用BP误差反向传播算法，不过有一点区别。如果将RNNs进行网络展开，那么参数W,U,V是共享的，而传统神经网络却不是的。并且在使用梯度下降算法中，每一步的输出不仅依赖当前步的网络，并且还以来前面若干步网络的状态。比如，在t＝4时，还需要向后传递三步，已经后面的三步都需要加上各种的梯度。该学习算法称为基于时间的反向传播算法。

(6)损失函数

在训练深度神经网络的过程中，因为希望深度神经网络的输出尽可能的接近真正想要预测的值，所以可以通过比较当前网络的预测值和真正想要的目标值，再根据两者之间的差异情况来更新每一层神经网络的权重向量(当然，在第一次更新之前通常会有初始化的过程，即为深度神经网络中的各层预先配置参数)，比如，如果网络的预测值高了，就调整权重向量让它预测低一些，不断地调整，直到深度神经网络能够预测出真正想要的目标值或与真正想要的目标值非常接近的值。因此，就需要预先定义“如何比较预测值和目标值之间的差异”，这便是损失函数(loss function)或目标函数(objective function)，它们是用于衡量预测值和目标值的差异的重要方程。其中，以损失函数举例，损失函数的输出值(loss)越高表示差异越大，那么深度神经网络的训练就变成了尽可能缩小这个loss的过程。

(7)策略

一个策略包括一个或多个子策略，一个子策略由一个或多个操作组成，一个操作为类似于平移、旋转或剪切的图像处理函数，且一个操作有两个超参数，一个超参数为应用该操作的概率，另一个超参数为应用该操作的幅度(magnitude)。

子策略中的操作可以包括以下任意一种：对x坐标剪切、对y坐标剪切、对x轴坐标翻转、对y坐标翻转、旋转、自动对比度、反转、均衡、曝光、分层、对比度、颜色、亮度、清晰度、切口、样本配对等。

可以理解的是，一个子策略中包括多个操作时，这多个操作的类型可以相同。

(8)数据增强

(9)神经网络模型

神经网络模型是一类模仿生物神经网络(动物的中枢神经系统)的结构和功能的数学计算模型。一个神经网络模型可以包括多种不同功能的神经网络层，每层包括参数和计算公式。根据计算公式的不同或功能的不同，神经网络模型中不同的层有不同的名称，例如：进行卷积计算的层称为卷积层，所述卷积层常用于对输入信号(例如：图像)进行特征提取。

一个神经网络模型也可以由多个已有的神经网络模型组合构成。不同结构的神经网络模型可用于不同的场景(例如：分类、识别或图像分割)或在用于同一场景时提供不同的效果。神经网络模型结构不同具体包括以下一项或多项：神经网络模型中网络层的层数不同、各个网络层的顺序不同、每个网络层中的权重、参数或计算公式不同。

业界已存在多种不同的用于识别或分类或图像分割等应用场景的具有较高准确率的神经网络模型。其中，一些神经网络模型可以被特定的训练集进行训练后单独完成一项任务或与其他神经网络模型(或其他功能模块)组合完成一项任务。一些神经网络模型也可以被直接用于单独完成一项任务或与其他神经网络模型(或其他功能模块)组合完成一项任务。

本申请的实施例中，将神经网络模型简称为神经网络。

(10)边缘设备

边缘设备是指在数据产生源头和云中心之间任一具有计算资源和网络资源的设备。比如，手机就是人与云中心之间的边缘设备，网关是智能家居和云中心之间的边缘设备。在理想环境中，边缘设备指是指在数据产生源附近分析或处理数据的设备。由于没有数据的流转，进而减少网络流量和响应时间。

本申请实施例中的边缘设备可以是具有计算能力的移动电话、平板个人电脑(tablet personal computer，TPC)、媒体播放器、智能家居、笔记本电脑(laptopcomputer，LC)、个人数字助理(personal digital assistant，PDA)、个人计算机(personalcomputer，PC)、照相机、摄像机、智能手表、可穿戴式设备(wearable device，WD)或者自动驾驶的车辆等。可以理解的是，本申请实施例对边缘设备的具体形式不作限定。

(11)推理

推理是相对训练而言的，指神经网络输入数据之后，神经网络输出损失函数的值、特征图等信息的同时，不更新神经网络的参数。

下面将结合附图，对本申请中的技术方案进行描述。

图1是本申请实施例的系统架构的示意图。如图1所示，系统架构100包括数据处理装置110、训练装置120、数据库130、客户设备140、数据存储系统150、以及数据采集系统160。

数据采集设备160用于采集训练数据。例如，训练数据可以包括训练图像以及标注数据，其中，标注数据中给出了训练图像中的目标物的包围框(bounding box)的坐标。在采集到训练数据之后，数据采集设备160将这些训练数据存入数据库130，训练装置120基于数据库130中维护的训练数据训练得到目标模型/规则101。

本申请实施例中的目标模型/规则101具体可以为神经网络。需要说明的是，在实际应用中，数据库130中维护的训练数据不一定都来自于数据采集设备160的采集，也有可能是从其他设备接收得到的。另外需要说明的是，训练装置120也不一定完全基于数据库130维护的训练数据进行目标模型/规则101的训练，也有可能从云端或其他地方获取训练数据进行模型训练，上述描述不应该作为对本申请实施例的限定。

训练装置120的示例性结构参见图2，训练装置120的示例性部署方式参见图6或图7。

根据训练装置120训练得到的目标模型/规则101可以应用于不同的系统或设备中，如应用于图1所示的执行装置110。数据处理装置110的示例性结构参见图8，数据处理装置110的示例性部署方式参见图9。

所述数据处理装置110可以是终端，如手机终端，平板电脑，笔记本电脑，增强现实(augmented reality，AR)/虚拟现实(virtual reality，VR)，车载终端等，或者是可以应用在上述这些设备上的芯片，还可以是服务器或者云端等。

在图1中，数据处理装置110配置输入/输出(input/output，I/O)接口112，用于与外部设备进行数据交互，用户可以通过客户设备140向I/O接口112输入数据。例如，用户可以通过客户设备140输入待处理数据，例如待处理图像。另外，数据处理装置110包括计算模块111和获取模块113，计算模块111中包括目标模型/规则101。获取模块113用于获取待处理数据。

在数据处理装置110对输入数据进行预处理，或者在数据处理装置110的计算模块111执行计算等相关的处理过程中，数据处理装置110可以调用数据存储系统150中的数据、代码等以用于相应的处理，也可以将相应处理得到的数据、指令等存入数据存储系统150中。

最后，I/O接口112将处理结果，如将目标模型/规则101计算得到的目标检测结果呈现给客户设备140，从而提供给用户。

可以理解的是，本申请实施例中的数据处理装置110和客户设备可以是同一个设备，例如为同一个终端设备。

值得说明的是，训练装置120可以针对不同的目标或称不同的任务(或者说业务)，基于不同的训练数据生成相应的目标模型/规则101，该相应的目标模型/规则101即可以用于实现上述目标或完成上述任务，从而为用户提供所需的结果。

在图1中，用户可以手动给定输入数据，该手动给定可以通过I/O接口112提供的界面进行操作。另一种情况下，客户设备140可以自动地向I/O接口112发送输入数据，如果要求客户设备140自动发送输入数据需要获得用户的授权，则用户可以在客户设备140中设置相应权限。用户可以在客户设备140查看执行装置110输出的结果，具体的呈现形式可以是显示、声音、动作等具体方式。客户设备140也可以作为数据采集端，采集如图所示输入I/O接口112的输入数据及输出I/O接口112的输出结果作为新的样本数据，并存入数据库130。当然，也可以不经过客户设备140进行采集，而是由I/O接口112直接将如图所示输入I/O接口112的输入数据及输出I/O接口112的输出结果，作为新的样本数据存入数据库130。

可以理解的是，图1仅是本申请实施例提供的一种系统架构的示意图，图中所示设备、器件、模块等之间的位置关系不构成任何限制，例如，在图1中，数据存储系统150相对执行装置110是外部存储器，在其它情况下，也可以将数据存储系统150置于执行装置110中。

图2是本申请一个实施例的神经网络的训练装置200的示意性结构图。训练装置200可以包括策略搜索模块210、数据增强模块220和训练模块230。其中，策略搜索模块210用于S610，以实现相应的功能；数据增强模块用于执行S620，以实现相应的功能；训练模块230用于执行S630，以实现相应的功能。

可选地，训练装置200还可以包括推理模块240，推理模块240用于S840，以实现相应的功能。

图3是本申请实施例提供的一种训练装置的部署示意图，训练装置可部署在云环境中，云环境是云计算模式下利用基础资源向用户提供云服务的实体。云环境包括云数据中心和云服务平台，所述云数据中心包括云服务提供商拥有的大量基础资源(包括计算资源、存储资源和网络资源)，云数据中心包括的计算资源可以是大量的计算设备(例如服务器)。训练装置可以是云数据中心中用于对目标神经网络进行训练的服务器。训练装置也可以是创建在云数据中心中的用于对目标神经网络进行训练的虚拟机。训练装置还可以是部署在云数据中心中的服务器或者虚拟机上的软件装置，该软件装置用于对目标神经网络进行训练，该软件装置可以分布式地部署在多个服务器上、或者分布式地部署在多个虚拟机上、或者分布式地部署在虚拟机和服务器上。例如，训练装置200中的策略搜索模块210、数据增强模块220、训练模块230和推理模块240可以分布式地部署在多个服务器上，或分布式地部署在多个虚拟机上，或者分布式地部署在虚拟机和服务器上。又如，数据增强模块220包括多个子模块时，这多个子模块可以部署在多个服务器上，或分布式地部署在多个虚拟机上，或者分布式地部署在虚拟机和服务器上。

如图3所示，训练装置可以由云服务提供商在云服务平台抽象成一种训练神经网络的云服务提供给用户，用户在云服务平台购买该云服务后，云环境利用该云服务向用户提供训练神经网络的云服务，用户可以通过应用程序接口(application programinterface，API)或者通过云服务平台提供的网页界面上传待训练的目标神经网络(进一步地还可以上传原始训练集)至云环境，由训练装置接收待训练的目标神经网络以及原始训练集，并生成策略，使用该策略对原始训练集进行数据增强，以及使用增强后的数据集对待训练的目标神经网络进行训练，再根据训练后的反馈信息生成策略，重复执行上述步骤直至训练条件得到满足，最终训练得到的目标神经网络由训练装置返回至用户所在的边缘设备。

当训练装置为软件装置时，训练装置也可以单独部署在任意环境的一个计算设备上，例如，单独部署在一个计算设备上或者单独部署在数据中心中的一个计算设备上。如图4所示，计算设备400包括总线401、处理器402、通信接口403和存储器404。

处理器402、存储器404和通信接口403之间通过总线401通信。其中，处理器402可以为中央处理器(central processing unit，CPU)。存储器404可以包括易失性存储器(volatile memory)，例如随机存取存储器(random access memory，RAM)。存储器704还可以包括非易失性存储器(2non-volatile memory，2NVM)，例如只读存储器(2read-onlymemory，2ROM)，快闪存储器，硬盘驱动器(hard disk drive，HDD)或固态启动器(solidstate disk，SSD)。存储器404中存储有训练装置所包括的可执行代码，处理器402读取存储器404中的该可执行代码以执行训练方法。存储器404中还可以包括操作系统等其他运行进程所需的软件模块。操作系统可以为LINUX^TM，UNIX^TM，WINDOWS^TM等。

例如，通信接口403接收原始训练集和目标神经网络，存储器404中存储有实现训练装置200中各个模块的功能的可执行代码，处理器402读取这些可执行代码，实现所述各个模块的功能，最终实现目标神经网络的训练。

图5是本申请一个实施例的数据处理装置500的示意性结构图。数据处理装置500可以包括获取模块510和计算模块520。

获取模块510用于执行图11中的S1110，以实现相应的功能。计算模块520用于执行图11所示的方法中的S1120，以实现相应的功能。

当数据处理装置500为软件装置时，数据处理装置500可以单独部署在任意环境的一个计算设备上，例如，单独部署在一个计算设备上或者单独部署在数据中心中的一个计算设备上。该计算设备的一种示例性结构如图4所示，其中，通信接口403接收原始训练集和目标神经网络，存储器404中存储有实现数据处理装置500中各个模块的功能的可执行代码，处理器402读取这些可执行代码，实现所述各个模块的功能，最终实现目标神经网络的功能。

本申请实施例的数据处理装置可以根据训练装置200训练得到的目标神经网络来处理数据，从而可以提高处理性能。例如，目标神经网络为图像分类网络时，由于训练装置200训练得到的目标神经网络的性能更高，因此，执行装置根据该目标神经网络进行图像分类的结果更准确。

图6是本申请一个实施例的训练神经网络的方法的示意性流程图。该方法包括S610至S630。

S610，根据第i-1组损失值生成第i批策略，所述第i-1组损失值为目标神经网络经过第i-1批增强训练集的训练后的损失函数输出的值，i依次从2取到N，N为预设的值。

其中，第i-1组损失值包括一个或多个损失值，第i批策略包括一个或多个策略，通常，第i-1组损失值的数量与第i-1批增强训练集的数量相同，且第i-1组损失值中的损失值与第i-1批增强训练集中的增量训练集一一对应，即第i-1组损失值中第j个损失值为目标神经网络经过第i-1批增强训练集中对应的增强训练集的训练后输出的损失函数值，j为小于或等于M的正整数，M为第i-1组损失值的数量。第i-1批增强训练集的数量通常与第i-1批策略的数量相同，且第i-1组增强训练集中的增强训练集与第i-1批策略中的策略一一对应，即第i-1组增强训练集中第j个增强训练集为原始训练集经过第i-1批策略中对应的策略的增强得到的训练集。

通常情况下，所述第i批策略需要满足：原始训练集经过所述第i批策略增强得到的第i批增强训练集输入所述目标神经网络之后，所述目标神经网络对第i批增强训练集进行推理输出的损失函数值，应大于，第i-1批增强训练集输入所述目标神经网络之后，所述目标神经网络对第i-1批增强训练集进行推理输出的损失函数值。

其中，所述目标神经网络也可以称为业务实现神经网络，即在训练结束后实际用于实现相应业务的神经网络。目标神经网络的一种示例为卷积神经网络。例如，目标神经神经网络为图像分类网络时，经过本方法得训练，用于在边缘设备上进行图像分类。又如，目标神经网络为传感器的数据处理网络时，经过本方法训练后，用于在边缘设备上进行人、建筑物、道路或车辆识别等。

在一些可能的实现方式中，可以随机初始化生成第1批策略，根据第1批策略对原始训练集进行数据增强得到第1批增强训练集，根据第1批增强训练集对目标神经网络进行训练，得到第1组损失值；在另一些可能的实现方式中，可以先将原始训练集输入目标神经网络进行训练，根据该次训练生成第1组损失值。

S620，根据第i批策略对所述目标神经网络的原始训练集进行数据增强，以得到第i批增强训练集。

可以理解的是，此处所述的原始训练集是针对增强训练集而言的，即原始训练集是指还没有经过策略进行数据增强的数据集。

例如，一个策略包括5个子策略时，数据增强模块220可以用于：从这个策略所包括的五个子策略中随机选择一个子策略，并根据该子策略中操作类型、概率和强度值等信息对原始训练集中的数据进行增强，以得到增强训练集。

例如，训练集包括多个图像时，数据增强模块220可以用于：对于训练集中的每一批数据中的每一张图像，从五个子策略中随机选择一个子策略，并根据子策略中的操作类型、概率和强度值等信息进行数据增强，以得到增强训练集，该增强训练集包括增强后的图像。

S630，根据所述第i批增强训练集对所述目标神经网络进行训练，以得到第i组损失值。

利用增强训练集对所述目标神经网络进行训练的实现方式，可以参考现有技术中利用训练集对神经网络进行训练的实现方式。

将S630输出的损失值作为S610中的损失值，重复执行S610至S630，直到终止条件得到满足，输出根据第N批增强训练集对所述目标神经网络进行训练所得的神经网络。一种示例性终止条件为目标神经网络的训练次数到达预设的最大值，例如上述的N；另一种示例性终止条件为搜索空间中至少X种不同的策略已用于对原始训练集进行数据增强。可以理解的是，终止条件不限于上述示例，X为正整数。

本申请实施例的方法，通过对抗方式对目标神经网络进行训练，使得可以不断发现目标神经网络的弱点，并根据该弱点生成更高质量的策略，以及根据该策略进行数据增强，以得到更高质量的数据，根据该数据可以训练出更高质量的目标神经网络。

下面结合图7更为详细地介绍图6中的训练神经网络的方法的一种实现方式。

S710，初始随机生成第1批策略，且初始化i＝0。

S720，取i＝i+1。

S730，根据第i批策略对目标神经网络的原始训练集进行数据增强，以得到第i批增强训练集。

S740，根据所述第i批增强训练集对所述目标神经网络进行训练，以得到第i组损失值。

S750，根据第i组损失值生成第i+1批策略。

S760，判断i是否小于N，N为预设的训练次数。也就是说判断终止条件是否得到满足。是则执行S770，否则重新执行S720。

S770，输出目标神经网络。

在一些设计中，根据损失值生成策略可以包括：根据增强策略网络和所述损失值生成策略。这种设计中，目标神经网络输出的损失值，输入增强策略神经网络之后，可以指导增强策略神经网络进行参数更新，以使得增强策略神经网络在更新后的参数状态下生成的策略所增强得到的增强训练集输入目标神经网络之后，目标神经网络的推理损失值增大。增强策略神经网络可以采用现有的基于强化学习算法的方法来根据目标神经网络输出的反馈信息进行参数更新。其中，目标神经网络的推理损失值是指目标神经网络对增强训练集进行推理得到的损失函数值。

该增强策略神经网络的一种示例为循环神经网络。图8为本申请实施例的增强策略神经网络的一种示意性结构图。如图8所示，增强策略神经网络包括长短期记忆(longshort-term memory，LSTM)单元801、归一化模块802和采样模块803。其中，每一列表示一个时间步的执行流程，不同的列表示不同的时间步，从左到右的列为按时间先后顺序排列的时间步中的操作。

LSTM单元也可以称为LSTM层，归一化模块也可以称为归一化(softmax)层，采样模块也可以称为采样(sample)层。

增强策略神经网络启动时，在第一个时间步，LSTM单元801根据随机初始化的初始状态1进行特征映射，得到M维特征向量，M为采样模块803在当前时间步将输出的操作信息所属的信息集合的长度，例如，在采样模块803在第一个时间步将输出操作的类型时，若操作类型集合中包括16种“操作”，则LSTM单元801将初始化的初始状态映射成16维的特征向量；归一化模块802根据LSTM单元801输出的M维特征向量生成上述信息集合中的M个操作信息的概率分布，例如，上述信息集合中包括16种“操作”时，归一化模块802输出这16种“操作”的概率分布(P1,P2,…,P16)；采样模块803根据归一化模块802输出的概率分布进行采样，以采样得到上述信息集合中的一个操作信息，例如根据这16种“操作”的概率分布采样得到其中一种“操作”。

在第二个时间步，LSTM单元801将采样模块803在前一个时间步输出的操作信息映射成M维向量，此时，M为采样模块803在第二个时间步将输出的操作信息所属的信息集合的长度，例如，采样模块803在第一个时间步输出的操作类型为“旋转”，且在采样模块803在第二个时间步将输出操作的概率时，若操作概率集合中包括11种“概率”，则LSTM单元801根据“旋转”映射得到11维的特征向量；归一化模块802输入该11维特征向量之后，根据该11维特征向量生成“操作”的概率值的概率分布；采样模块803根据该概率分布进行采样，得到其中一个概率取值并输出该取值。

在第三个时间步，LSTM单元801根据将采样模块803在第二个时间步输出的操作信息映射成M维向量，此时，M为采样模块803在第三个时间步将输出的操作信息所属的信息集合的长度，例如，采样模块803在第二个时间步输出的操作概率为“0.9”，且在采样模块803在第三个时间步将输出操作的幅度时，若操作幅度集合中包括10种“幅度”，则LSTM单元801根据“0.9”映射得到10维的特征向量；归一化模块802输入该10维特征向量之后，根据该高维特征向量生成“操作”的幅度值的概率分布；采样模块803根据该概率分布进行采样，得到一个幅度取值并输出该取值。这种实现方式中，由于后面的时间步中步骤参考了前一个时间步输出的操作信息，因此可以提高生成的策略的性能。

采样单元803在这三个时间步的三个输出即构成一个“操作”。增强策略神经网络继续循环上述时间步中的步骤，每三个时间步可以得到一个“操作”，多个操作构成一个子策略，多个子策略构成一个策略。

可以理解的是，上述采样“操作”、“概率”和“幅度”的时间顺序仅是一种示例，可以按照其他时间顺序采样得到一个子策略中的一个操作类型、该类型操作的概率和幅度。

可选地，增强策略神经网络可以输出多个策略，这多个策略称为一批策略。这种情况下，根据这一批策略对原始训练集进行数据增强，可以得到多个增强训练集，这多个增强训练集与这多个策略一一对应，每个增强训练集由对应的策略对原始训练集进行数据增强得到。并且，利用这多个增强训练集训练目标神经网络，可以得到多个损失值，这多个损失值称为一组损失值，这多个损失值与这多个增强训练集一一对应，每个损失值由对应的增强训练集对目标神经网络进行训练得到。这多个损失值同步输入增强策略神经网络，指导增强策略神经网络进行参数更新，更新参数后的增强策略神经网络开始生成策略。这种方式中，由于可以同步向增强策略神经网络输入多个损失值，因为可以提高增强策略网络生成更难策略的效率，从而可以提高训练得到性能更好的目标神经网络的效率。

若每个时间步的采样输出为一位有效编码(one-hot)向量，则如图15所示，该增强策略神经网络中还可以包括词向量嵌入模块804，词向量嵌入模块804用于：将所述采样模块803在所述前一个时间步内输出的操作信息的一位有效编码向量映射为实数域上的向量，这种实现方式中，长短时间记忆单元具体用于：根据词向量嵌入模块804输出的向量映射得到所述M维向量。词向量嵌入模块也可以称为嵌入(embedding)层。

例如，第一个时间步中，采样模块803输出操作类型集合中的第3种操作类型“旋转”，该操作类型的一位有效编码向量的示例为[0010000000000000]，则在第二个时间步，词向量嵌入模块804可以将该16维一位有效编码向量将为3维的实数域向量[0.2,0.9,0.5]，长短时间记忆单元801根据该实数域向量映射得到11维的操作概率的概率分布；在第二时间步，采样模块803输出操作概率集合中的第2种概率“0.8”，该该操作概率的一位有效编码向量的示例为[01000000000]，则在第三个时间步中，词向量嵌入模块804可以将该11维一位有效编码向量将为4维的实数域向量[0.22,0.54,0.42,0.91]，长短时间记忆单元801根据该实数域向量映射得到10维的操作幅度的概率分布。该方式可以降低计算量和增大两个时间步之间的输出之间的关联性。

在一些设计中，如图9所示，本申请实施例的训练方法还可以包括S910，相应地，S610包括S920。

S910，利用经过所述第i-1批增强训练集训练的所述目标神经网络，对所述原始训练集进行推理，以得到所述原始训练集中的数据在所述目标神经网络中的第i批特征。

例如，目标神经网络为图像分类网络时，目标神经网络进行推理输出其中一个层或多个层提取的特征图。

可以理解的是，目标神经网络对原始训练集进行推理是指：原始训练集中的数据输入目标神经网络之后，目标神经网络输出损失函数值、特征等信息的同时，不更新目标神经网络中的参数。

其中，i为1时，第1批特征为将原始训练集输入目标神经网络进行推理得到的特征。

S920，根据所述第i-1组损失值和所述第i批特征生成第i批策略。

例如，根据所述第i-1组损失值、所述第i批特征和增强策略神经网络生成第i批策略。其中，所述第i-1组损失值输入所述增强策略神经网络之后，指导所述增强策略神经网络进行参数更新，更新参数后的增强策略神经网络生成的策略所对应的增强训练集用于推理所述目标神经网络之后，目标神经网络的损失值应大于上一次的损失值。

针对图9所示的训练方法，本申请一个实施例的更为详细的训练方法的示意性流程图如图10所示。

S1010，初始随机生成第1批策略，且初始化i＝0。

S1020，取i＝i+1。

S1030，根据目标神经网络对原始训练集进行推理，以得到第i批特征。

S1040，根据第i批策略对目标神经网络的原始训练集进行数据增强，以得到第i批增强训练集。

S1050，根据所述第i批增强训练集对所述目标神经网络进行训练，以得到第i组损失值。

S1060，根据第i组损失值生成第i+1批策略。

S1070，判断i是否小于N，N为预设的训练次数。也就是说判断终止条件是否得到满足。是则执行S1080，否则重新执行S1020。

S1080，输出目标神经网络。

针对图9或图10所示的训练方法，本申请一个实施例的增强策略神经网络的示意性结构图如图11所示。如图11所示，增强策略神经网络包括LSTM单元1101、归一化模块1102、采样模块1103和拼接模块1105。拼接模块也可以称为拼接(concat)层。

图11所示的增强策略神经网络与图8所示的增强策略神经网络的执行流程相似，不同之处在于，所述拼接模块用于将原始训练集进行推理得到的特征和采样模块1103在前一个时间内输出的操作信息拼接为一个向量。此外，在每个时间步，LSTM单元1101用于根据拼接模块输出的向量映射得到M维向量，M为所述采样模块1103在当前时间步将输出的操作信息所属的信息集合的长度。这种实现方式参考了目标神经网络当前的状态来生成策略，可以使得增强策略神经网络可以生成更难的策略，从而可以提高目标神经网络的质量。

针对图9或图10所示的训练方法，本申请一个实施例的增强策略神经网络的示意性结构图如图12所示。

如图12所示，增强策略神经网络包括LSTM单元1201、归一化模块1202、采样模块1203、词向量嵌入模块1204和拼接模块1205。

图12所示的增强策略神经网络与图11所示的增强策略神经网络的执行流程相似，其中，词向量嵌入模块1204的功能可以参考词向量嵌入模块804。

可以理解的是，图8、图11或图12所示的增强策略神经网络仅是示例，本申请的技术方案中的增强策略神经网络还可以包括更多的功能模块或单元，其中，一个单元或一个模块也可以称为一个层。例如，在一些可能的实现方式中，增强策略神经网络中，在LSTM单元和归一化模块之间还可以包括双曲正切函数，用于对经过LSTM映射的特征向量进行数据范围压缩，以防止增强策略神经网络过快出现过拟合现象。

本申请的训练方法中，可选地，还可以根据其他信息生成策略。例如。可以根据所述第i-1组损失值和第i-1组测试精度值生成所述第i批策略，所述第i-1组测试精度值为目标神经网络经过第i-1批增强训练集的训练后进行测试得到的精度值。其中，所述第i-1组测试精度值的作用与所述第i-1组损失值相同，用于指导增强策略神经网络进行参数更新。

本申请的训练方法中，可选地，还可以根据相邻前两次相邻两批策略之间的相似度来指导增强策略神经网络进行参数更新，或者还可以根据前面时间步生成的策略之间的相似度来指导增强策略神经网络进行参数更新。

图13是本申请一个实施例的数据处理方法的示意性流程图。该方法可以包括S1310和S1320。

S1310，获取待处理数据。例如获取待处理图像，进一步地，获取待分类图像或获取待识别图像。

S1320，根据目标神经网络对所述待处理数据进行处理，所述目标神经网络通过N次训练得到，在所述N次训练中的第i次训练中，通过第i批增强训练集对所述目标神经网络进行训练，所述第i批增强训练集为原始训练集经过第i批策略的增强得到的训练集，所述第i批策略为根据第i-1组损失值生成的策略，所述第i-1组损失值为根据第i-1批增强训练集对所述目标神经网络进行训练时所述目标神经网络的损失函数输出的值。

本申请实施例的方法可以根据图6所示的方法训练得到的目标神经网络来处理数据，从而可以提高处理性能。例如，目标神经网络为图像分类网络时，由于图6所示的方法训练得到的目标神经网络的性能更高，因此，根据该目标神经网络进行图像分类的结果更准确。

可选地，所述第i批策略为根据第i-1组损失值和第i批特征生成的策略。也就是说，本申请实施例的方法可以根据图9所示的方法训练得到的目标神经网络来处理数据，从而可以提高处理性能。例如，目标神经网络为图像分类网络时，由于图9所示的方法训练得到的目标神经网络的性能更高，因此，根据该目标神经网络进行图像分类的结果更准确。

本申请还提供一种如图14所示的装置1400，装置1400包括处理器1402、通信接口1403和存储器1404。装置1400的一种示例芯片。装置1400的另一种示例为计算设备。

处理器1402、存储器1404和通信接口1403之间通过总线通信。其中，处理器1402可以为CPU。存储器1404可以包括易失性存储器，例如RAM。存储器1404还可以包括2NVM，例如2ROM，快闪存储器，HDD或SSD。存储器1404中存储有可执行代码，处理器1402读取存储器1404中的可执行代码以执行对应的方法。存储器1404中还可以包括操作系统等其他运行进程所需的软件模块。操作系统可以为LINUX^TM，UNIX^TM，WINDOWS^TM等。

例如，存储器1404中的可执行代码用于实现图6或图9所示的方法，处理器1402读取存储器1404中的该可执行代码以执行图6或图9所示的方法。又如，存储器1404中的可执行代码用于实现图13所示的方法，处理器1402读取存储器1404中的该可执行代码以执行图13所示的方法。

本领域普通技术人员可以意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本申请的范围。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的系统、装置和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

在本申请所提供的几个实施例中，应该理解到，所揭露的系统、装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本申请各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。

所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(read-only memory，ROM)、随机存取存储器(random access memory，RAM)、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述，仅为本申请的具体实施方式，但本申请的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本申请揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本申请的保护范围之内。因此，本申请的保护范围应以所述权利要求的保护范围为准。

Claims

1.一种神经网络的训练方法，其特征在于，包括：

根据第i-1组损失值生成第i批策略，所述第i-1组损失值为目标神经网络经过第i-1批增强训练集的训练后的损失函数输出的值，i依次从2取到N，N为预设的正整数；

根据所述第i批策略对所述目标神经网络的原始训练集进行数据增强，以得到第i批增强训练集；

根据所述第i批增强训练集对所述目标神经网络进行训练，以得到第i组损失值；

输出根据第N批增强训练集对所述目标神经网络进行训练所得到的神经网络。

2.如权利要求1所述的方法，其特征在于，所述根据第i-1组损失值生成第i批策略，包括：

根据增强策略神经网络和所述第i-1组损失值生成所述第i批策略，其中，所述i-1组损失值用于指导所述增强策略神经网络基于机器学习法更新参数，所述增强策略神经网络包括长短时间记忆单元、归一化模块和采样模块，所述长短时间记忆单元用于：根据所述采样模块在前一个时间步输出的操作信息映射得到M维向量，M为所述采样模块在当前时间步将输出的操作信息所属的信息集合的长度，所述归一化模块用于根据所述长短时间记忆单元输出的M维向量生成所述信息集合中的M个操作信息的概率分布，所述信息集合为操作类型集合、操作概率集合或操作幅度集合，所述采样模块用于根据所述概率分布采样输出所述M个操作信息中的一个。

3.如权利要求2所述的方法，其特征在于，所述采样模块在所述前一个时间步输出的是操作信息的一位有效编码；

其中，所述增强策略神经网络还包括词向量嵌入模块，所述词向量嵌入模块用于：将所述采样模块在所述前一个时间步内输出的操作信息的一位有效编码向量映射为实数域上的向量；

所述长短时间记忆单元具体用于：根据所述词向量嵌入模块输出的向量映射得到所述M维向量。

4.如权利要求1所述的方法，其特征在于，所述方法还包括：

利用经过所述第i-1批增强训练集训练的所述目标神经网络，对所述原始训练集进行推理，以得到所述原始训练集中的数据在所述目标神经网络中的第i批特征；

其中，所述根据第i-1组损失值生成第i批策略，包括：

根据所述第i-1组损失值和所述第i批特征生成所述第i批策略。

5.如权利要求4所述的方法，其特征在于，所述根据所述第i-1组损失值和所述第i批特征生成所述第i批策略，包括：

根据增强策略神经网络、所述第i批特征和所述第i-1组损失值生成所述第i批策略，其中，所述i-1组损失值和所述第i批特征用于指导所述增强策略神经网络基于机器学习法更新参数，所述增强策略神经网络包括长短时间记忆单元、归一化模块、采样模块和拼接模块，所述拼接模块用于将所述第i批特征和所述采样模块在前一个时间内输出的操作信息拼接为一个向量，所述长短时间记忆单元用于根据所述拼接模块输出的向量映射得到M维向量，M为所述采样模块在当前时间步将输出的操作信息所属的信息集合的长度，所述归一化模块用于根据所述长短时间记忆单元输出的M维向量生成所述信息集合内的M个操作信息的概率分布，所述信息集合为操作类型集合、操作概率集合或操作幅度集合，所述采样模块用于根据所述概率分布采样输出所述M个操作信息中的一个。

6.如权利要求5所述的方法，其特征在于，所述采样模块在所述前一个时间步输出的是操作信息的一位有效编码；

其中，所述增强策略神经网络还包括词向量嵌入模块，所述词向量嵌入模块用于将所述采样模块在所述前一个时间步内输出的操作信息的一位有效编码向量映射为实数域上的向量；

所述长短时间记忆单元具体用于：将所述词向量嵌入模块输出的向量映射成所述M维向量。

7.一种数据处理方法，其特征在于，包括：

获取待处理数据；

根据目标神经网络对所述待处理数据进行处理，所述目标神经网络通过N次训练得到，在所述N次训练中的第i次训练中，通过第i批增强训练集对所述目标神经网络进行训练，所述第i批增强训练集为原始训练集经过第i批策略的增强得到的训练集，所述第i批策略为根据第i-1组损失值生成的策略，所述第i-1组损失值为根据第i-1批增强训练集对所述目标神经网络进行训练时所述目标神经网络的损失函数输出的值，i依次从2取到N，N为预设的正整数。

8.如权利要求7所述的方法，其特征在于，所述第i批策略为根据增强策略神经网络和所述第i-1组损失值生成的，所述i-1组损失值用于指导所述增强策略神经网络基于机器学习法更新参数，所述增强策略神经网络包括长短时间记忆单元、归一化模块和采样模块，所述长短时间记忆单元用于：将所述采样模块在前一个时间步输出的操作信息映射成M维向量，M为所述采样模块在当前时间步将输出的操作信息所属的信息集合的长度，所述归一化模块用于根据所述长短时间记忆单元输出的M维向量生成所述信息集合中的M个操作信息的概率分布，所述信息集合为操作类型集合、操作概率集合或操作幅度集合，所述采样模块用于根据所述概率分布采样输出所述M个操作信息中的一个。

9.如权利要求8所述的方法，其特征在于，所述采样模块在所述前一个时间步输出的是操作信息的一位有效编码；

其中，所述长短时间记忆单元具体用于：将所述词向量嵌入模块输出的向量映射成所述M维向量。

10.如权利要求7所述的方法，其特征在于，所述第i批策略是根据所述第i-1组损失值和所述第i批特征生成的，所述第i批特征是利用经过所述第i-1批增强训练集训练的所述目标神经网络对所述原始训练集进行推理得到的。

11.如权利要求10所述的方法，其特征在于，所述第i批策略是根据增强策略神经网络、所述第i批特征和所述第i-1组损失值生成的，其中，所述i-1组损失值和所述第i批特征用于指导所述增强策略神经网络基于机器学习法更新参数，所述增强策略神经网络包括长短时间记忆单元、归一化模块、采样模块和拼接模块，所述拼接模块用于将所述第i批特征和所述采样模块在前一个时间内输出的操作信息拼接为一个向量，所述长短时间记忆单元用于根据所述拼接模块输出的向量映射得到M维向量，M为所述采样模块在当前时间步将输出的操作信息所属的信息集合的长度，所述归一化模块用于根据所述长短时间记忆单元输出的M维向量生成所述信息集合内的M个操作信息的概率分布，所述信息集合为操作类型集合、操作概率集合或操作幅度集合，所述采样模块用于根据所述概率分布采样输出所述M个操作信息中的一个。

12.如权利要求11所述的方法，其特征在于，所述采样模块在所述前一个时间步输出的是操作信息的一位有效编码；

其中，所述增强策略神经网络还包括词向量嵌入模块和拼接模块，所述词向量嵌入模块用于将所述采样模块在所述前一个时间步内输出的操作信息的一位有效编码向量映射为实数域上的向量；

所述长短时间记忆单元具体用于：将所述词向量嵌入模块输出的向量进行向量映射成所述M维向量。

13.一种神经网络的训练装置，其特征在于，包括：

存储器，用于存储程序；

处理器，用于执行所述存储器存储的程序，当所述存储器存储的程序被执行时，所述处理器用于执行如权利要求1-6中任一项所述的方法。

14.一种数据处理装置，其特征在于，包括：

存储器，用于存储程序；

处理器，用于执行所述存储器存储的程序，当所述存储器存储的程序被执行时，所述处理器用于执行如权利要求7-12中任一项所述的方法。

15.一种计算机可读存储介质，其特征在于，所述计算机可读介质存储用于计算设备执行的指令，该指令用于实现如权利要求1-6中任一项所述的方法。

16.一种计算机可读存储介质，其特征在于，所述计算机可读介质存储用于计算设备执行的指令，该指令用于实现如权利要求7-12中任一项所述的方法。