CN112699991A

CN112699991A - 用于加速神经网络训练的信息处理的方法、电子设备和计算机可读介质

Info

Publication number: CN112699991A
Application number: CN202010517306.XA
Authority: CN
Inventors: 程治宇; 李宝普; 包英泽
Original assignee: Baidu USA LLC
Current assignee: Baidu USA LLC
Priority date: 2019-10-22
Filing date: 2020-06-09
Publication date: 2021-04-23
Also published as: US20210117776A1; US11640528B2

Abstract

本公开的实施方式公开了用于加速神经网络训练的信息处理方法，该方法包括：获取对应于深度学习任务的神经网络；以及基于训练数据集对神经网络执行迭代训练的多次迭代，其中，训练数据集包括对应于深度学习任务的任务数据；以及迭代训练包括：利用当前神经网络处理训练数据集中的任务数据，并基于当前迭代训练中神经网络对任务数据的处理结果，确定当前迭代训练的预测损失；基于预设学习速率函数、预设动量函数和当前迭代次数，确定当前迭代训练中的学习速率和动量；以及基于预设的梯度下降、当前迭代训练中的学习速率、动量和预测损失，通过梯度下降更新当前神经网络的权重参数。该方法实现了高效，低成本的基于深度学习的神经网络训练。

Description

用于加速神经网络训练的信息处理的方法、电子设备和计算机可读介质

技术领域

本公开的实施方式涉及计算机技术领域，具体地涉及计算机数据处理技术领域，更具体地涉及用于加速神经网络训练的信息处理的方法、电子设备和计算机可读介质。

背景技术

基于数据集训练的深度卷积神经网络在诸如图像分类、目标检测和分割以及语言翻译的领域都取得了良好的效果。然而，由于训练集庞大，机器学习算法复杂，训练时间长，所以训练神经网络的计算成本通常很大。尤其是对于小型实体和个人深度学习研究者而言，获得突破相当困难。因此，有必要设计一种有效的深度学习算法，以较少的资源使用来获得高质量的结果，从而减少训练时间和成本。

发明内容

本公开的实施方式提出了用于加速神经网络训练的信息处理的方法、装置、电子设备和计算机可读介质。

在第一方面，本公开的实施方式提供了一种用于加速神经网络训练的信息处理的方法，包括：获取对应于深度学习任务的神经网络；以及基于训练数据集对神经网络执行迭代训练的多次迭代，其中，训练数据集包括与深度学习任务相对应的任务数据，迭代训练包括：使用当前神经网络处理训练数据集中的任务数据，以及基于当前迭代训练中神经网络对任务数据的处理结果，确定当前迭代训练的预测损失；基于预设的学习速率函数、预设的动量函数和当前迭代次数，确定当前迭代训练中的学习速率和动量；以及基于预设的权重衰减、当前迭代训练中的学习速率、动量和预测损失，通过梯度下降更新当前神经网络的权重参数。

在一些实施方式中，神经网络包括：至少一个组合层、至少一个残差模块、至少一个池化(pooling)层和至少一个完全连接层，其中，组合层通过连接至少一个卷积层、至少一个批量归一化层和至少一个激活函数层而形成，以及残差模块包括至少两个依次连接的组合层。

在一些实施方式中，预设的学习速率函数包括：函数值随着迭代次数而变化的非线性函数。

在一些实施方式中，预设的学习速率函数是：

其中，lr_t表示第t次迭代训练中的学习速率的值，lr_min表示学习速率的最小值，lr_max表示学习速率的最大值，T_cur表示在第t次迭代训练之前的累积迭代数，以及T_tot表示预设的迭代总数。

在一些实施方式中，预设的动量函数包括：函数值随着迭代次数而变化的非线性函数。

在一些实施方式中，该方法还包括：获取对应于深度学习任务的训练数据集，以及对训练数据集执行数据增强处理。

在一些实施方式中，对训练数据集执行数据增强处理包括：对训练数据集中的任务数据执行数据剪切和/或数据混合，以生成新的任务数据，以及将新的任务数据添加到训练数据集中。

在一些实施方式中，方法还包括：使用通过迭代训练的多次迭代而获得的神经网络对深度学习任务的待处理数据进行处理，以及输出待处理数据的处理结果。

在第二方面，本公开的实施方式提供了一种电子设备，该电子设备包括：一个或多个处理器；以及存储单元，其配置为存储一个或多个程序，该一个或多个程序在由一个或多个处理器执行时，致使该一个或多个处理器：获取对应于深度学习任务的神经网络；以及基于训练数据集对神经网络执行迭代训练的多次迭代，其中，训练数据集包括与深度学习任务相对应的任务数据，以及迭代训练包括：使用当前神经网络处理训练数据集中的任务数据，以及基于当前迭代训练中神经网络对任务数据的处理结果，确定当前迭代训练的预测损失；基于预设的学习速率函数、预设的动量函数和当前迭代次数，确定当前迭代训练中的学习速率和动量；以及基于预设的权重衰减、当前迭代训练中的学习速率、动量和预测损失，通过梯度下降更新当前神经网络的权重参数。

在第三方面，本公开的实施方式提供了一种计算机可读介质，在其上存储有计算机程序，其中，计算机程序在由一个或多个处理器执行时致使一个或多个处理器：获取对应于深度学习任务的神经网络；以及基于训练数据集对神经网络执行迭代训练的多次迭代，其中，训练数据集包括与深度学习任务相对应的任务数据，以及迭代训练包括：使用当前神经网络处理训练数据集中的任务数据，以及基于当前迭代训练中神经网络对任务数据的处理结果，确定当前迭代训练的预测损失；基于预设的学习速率函数、预设的动量函数和当前迭代次数，确定当前迭代训练中的学习速率和动量；以及基于预设的权重衰减、当前迭代训练中的学习速率、动量和预测损失，通过梯度下降更新当前神经网络的权重参数。

根据本公开的上述实施方式的用于加速神经网络训练的信息处理的方法、装置、电子设备和计算机可读介质获取对应于深度学习任务的神经网络，并基于训练数据集对神经网络执行迭代训练的多个迭代，其中，训练数据集包括与深度学习任务相对应的任务数据，以及迭代训练包括：使用当前神经网络处理训练数据集中的任务数据，以及基于当前迭代训练中神经网络对任务数据的处理结果，确定当前迭代训练的预测损失；基于预设的学习速率函数、预设的动量函数和当前迭代次数，确定当前迭代训练中的学习速率和动量；以及基于预设的权重衰减、当前迭代训练中的学习速率、动量和预测损失，通过梯度下降更新当前神经网络的权重参数，从而实现快速、高效、相对低成本的基于深度学习的神经网络训练。

附图说明

在参考以下附图阅读非限制性实施方式的详细描述之后，本公开的其它特征、目的和有益效果将变得更加显而易见。

图1是可实施本公开的实施方式的示例性系统架构的图；

图2是根据本公开的实施方式的用于加速神经网络训练的信息处理的方法的流程图；

图3是根据本公开的实施方式的用于加速神经网络训练的信息处理的方法中的神经网络的示例性示意性结构图；

图4是根据本公开的实施方式的用于加速神经网络训练的信息处理的方法中的学习速率函数的示例性函数图；

图5是根据本公开的实施方式的用于加速神经网络训练的信息处理的装置的示意性结构图；以及

图6是适于实现本公开的一些实施方式的电子设备的计算机系统的示意性结构图。

具体实施方式

下面将结合附图和实施方式进一步详细描述本公开。应理解，本文中描述的具体实施方式仅用于解释相关公开内容，而不限制本公开。此外，还应注意，为了便于描述，在附图中仅示出了与相关公开内容相关的部件。

应当注意，在非冲突的基础上，本公开中的实施方式和实施方式中的特征可彼此组合。下面将参考附图并结合实施方式详细描述本公开。

图1示出了示例性系统架构100，在该系统架构100中可实现用于本公开的实施方式的加速神经网络训练的信息处理的方法或设备。

如图1中所示，系统架构100可包括终端设备101、102和103、网络104和服务器105。网络104用作提供终端设备101、102和103与服务器105之间的通信链路的媒介。网络104可包括各种类型的连接，诸如有线或无线通信链路，或光缆。

终端设备101、102和103经由网络104与服务器105交互，例如，以接收或发送消息。终端设备101、102和103可提供有各种客户端应用，例如图像处理应用、信息分析应用、语音辅助应用、购物应用和金融应用。

终端设备101、102和103可以是硬件或软件。当终端设备101、102和103是硬件时，终端设备可以是各种电子设备，包括但不限于智能电话、平板计算机、电子书阅读器、膝上型便携式计算机、台式计算机等。当终端设备101、102和103是软件时，终端设备可安装在上面列出的电子设备中。终端设备101、102和103可实施为多个软件程序或软件模块(例如，配置为提供分布式服务的软件程序或软件模块)，或者可实施为单个软件程序或软件模块。这里没有具体限制。

服务器105可以是运行各种任务的服务器。例如，运行深度神经网络训练的任务的服务器。服务器105可从终端设备101、102和103或现有数据库获取训练数据集，并基于训练数据集自适应地根据不同的深度学习任务(诸如图像分类、目标识别、语音合成和自然语言理解)来训练相应的神经网络模型。

服务器105还可以是例如后端服务器，为安装在终端设备101、102和103上的应用程序提供后端支持。例如，服务器105可通过终端设备101、102和103接收要处理的任务数据，使用用于加速神经网络训练的信息处理的方法执行任务处理，并将处理结果返回给终端设备101、102和103。

在一些具体示例中，终端设备101、102和103可向服务器105发送任务相关数据处理请求，诸如语音合成、文本分类、自然语言理解和图像识别。服务器105可运行通过训练相应任务获得的神经网络模型，并使用神经网络模型处理数据。

应当注意，由本公开的实施方式提供的用于加速神经网络训练的信息处理的方法通常由服务器105执行。因此，用于加速神经网络训练的信息处理的装置通常提供在服务器105中。

还应当注意，在某些情况下，服务器105可从数据库、存储器或其它设备获取训练数据集和要处理的数据。然后，示例性系统架构100可以不具有终端设备101、102和103，或网络104。

应当注意，服务器105可以是硬件或软件。当服务器105是硬件时，服务器可实施为由多个服务器组成的分布式服务器集群，或者实施为单个服务器。当服务器105是软件时，服务器可实施为多个软件程序或软件模块(例如，用于提供分布式服务的多个软件程序或软件模块)，或者实施为单个软件程序或软件模块。这里没有具体限制。

应当理解，图1中的终端设备、网络和服务器的数量仅仅是说明性的。可基于实际需求来提供任意数量的终端设备、网络和服务器。

进一步参考图2，示出了根据本公开的实施方式的用于加速神经网络训练的信息处理的方法的过程200。用于加速神经网络训练的信息处理的方法包括以下步骤：

步骤201：获取与深度学习任务相对应的神经网络。

在本实施方式中，用于加速神经网络训练的信息处理的方法的执行主体可基于深度学习任务获取相应的神经网络。所获取的神经网络可以是具有特定网络结构和初始参数的神经网络。神经网络可在随后的步骤中进行训练以获得执行相应的深度学习任务的能力，这里，深度学习任务可以是使用神经网络处理数据或信息并且提取潜在的特征以发现数据或信息的固有属性的任务。例如，深度学习任务可包括语音识别、图像分类、目标检测和跟踪、自然语言理解、机器翻译、趋势预测、智能推荐、医疗诊断等。

对于不同的深度学习任务，可相应地预先设计不同的神经网络结构。神经网络可以是卷积神经网络、递归神经网络等。神经网络结构可通过组合常规的神经网络层来设计。可替代地，NAS(神经架构搜索)可用于建立网络架构研究空间和搜索用于深度学习任务的网络结构。

在本实施方式中，可从对应于每种类型的深度学习任务的预先设计的神经网络获取对应于指定的深度学习任务的神经网络，以用作要训练的神经网络。

在本实施方式的一些可选实施例中，对应于深度学习任务的上述网络可包括至少一个组合层、至少一个残差模块、至少一个池化层和至少一个完全连接层。组合层可通过连接至少一个卷积层、至少一个批量归一化层和至少一个激活函数层来形成，并且残差模块包括至少两个连续连接的组合层。在实践中，残差模块可例如通过连续连接组合层中的三个而形成。

组合层首先通过卷积层提取输入数据的特征，然后对提取的特征执行批量归一化处理和激活函数计算。在批量归一化处理之后，对由卷积层提取的特征的分布进行平滑，使得当在激活函数计算后通过梯度下降来更新神经网络的权重参数时，梯度扩散速率降低，从而有助于提高训练速度。应当注意，在本实施方式中，组合层的卷积层的数量没有具体限制。

图3示出了根据本公开的实施方式的用于加速神经网络训练的信息处理的方法中的神经网络的示意性结构图。如图3中所示，神经网络包括连续连接的组合层1(Conv+bn+relu 1)、残差模块1、组合层2(Conv+bn+Relu 2)、残差模块2、池化层(包括最大池化层Max_pool和平均池化层avg_pool)以及完全连接层。输入数据“输入”通过组合层1、残差模块1、，组合层2、残差模块2、池化层和完全连接层依次处理，以生成相应的输出数据“输出”。

包括至少一个组合层、至少一个残差模块、至少一个池化层和至少一个完全连接层的上述神经网络使用简单的结构，从而有助于减少训练过程中的资源消耗。在设计期间，基于不同的深度学习任务，有针对性地设计出不同的层数和层间神经元的连接关系。经由简单的网络结构，神经网络可快速高效地完成深度学习任务。

步骤202：基于训练数据集对神经网络执行迭代训练的多次迭代。

执行主体(例如，图1中所示的服务器)可获取深度学习任务的训练数据集。训练数据集可包括对应于深度学习任务的任务数据。任务数据是要使用神经网络处理的数据，并且是神经网络的任务对象。可替代地，在监督学习中，训练数据集还可包括对应于任务数据的注释数据。注释数据是任务数据的期望的处理结果。期望的处理结果可作为训练神经网络的基础，并指导神经网络学习将任务数据转换为相应的期望处理结果的方法。可替代地，注释数据可以以标签的形式表示。

作为示例，在语音识别任务中，训练数据集可包括大量语音信号。语音信号是语音识别任务的任务数据。神经网络使用语音信号作为任务对象，并识别与语音信号相对应的文本或语义。可替代地，训练数据集可包括用于每个语音信号的文本注释信息或语义注释信息。

此外，训练数据集中的任务数据可包括正样本数据和负样本数据。正样本数据所对应的处理结果注释数据与相应的期望处理结果一致，以及负样本数据所对应的处理结果注释数据与相应的期望处理结果不一致。

对神经网络的迭代训练的多个迭代可使用训练数据集来执行。在每次迭代训练中，根据一定的策略更新神经网络。最后一次迭代训练将基于在先前迭代训练中更新的神经网络，继续进行迭代更新。因此，通过迭代训练的多个迭代来迭代地更新神经网络，直到达到预设的迭代次数，或者当神经网络达到一定精度时，可停止更新神经网络。因此，获得了完全训练的神经网络。

在本实施方式中，神经网络更新包括更新神经网络的权重参数。权重参数可通过梯度下降来更新。在每次迭代训练开始时，神经网络的权重参数是通过在上次迭代训练中更新而获得的权重参数。

具体地，迭代训练可包括步骤2021、步骤2022和步骤2023。

首先，步骤2021包括使用当前神经网络处理训练数据集中的任务数据，以及基于当前迭代训练中神经网络对任务数据的处理结果，确定当前迭代训练的预测损失。

如果当前迭代训练不是训练过程中的第一迭代训练，则当前神经网络是通过在上次迭代训练中更新权重参数而获得的神经网络。应当注意，如果当前迭代训练是训练过程中的第一迭代训练，则当前神经网络可以是在步骤201中获取的初始神经网络

这里，可将各种深度学习任务抽象为预测任务。可从训练数据集中选择一部分数据用作任务数据，并将其输入到当前神经网络中，以获得当前神经网络对输入的任务数据的处理结果。然后，可使用预设的损失函数来计算当前神经网络的预测损失，即，确定当前迭代训练的预测损失。损失函数可用于表征当前神经网络对输入的任务数据的处理结果与输入的任务数据的期望处理结果之间的差异，并且损失函数的值是当前神经网络的预测损失。

然后，步骤2022包括基于预设的学习速率函数、预设的动量函数和当前迭代次数来确定当前迭代训练中的学习速率和动量。

学习速率函数可以是表征随迭代次数或训练时间变化的神经网络的学习速率的函数。学习速率是当通过梯度下降调整权重参数时控制梯度下降的步长的参数。在本实施方式中，学习速率函数可预先设置，以确定学习速率随迭代次数或训练时间而变化的关系。并且可在训练过程中实时获得迭代次数或训练时间的统计数据。学习速率函数可以是例如随着迭代次数而减小的线性函数。迭代次数越大，学习速率越低。

在每个迭代训练中，当前迭代训练中的学习速率可基于当前迭代次数和预设的学习速率函数来计算。

在本实施方式的一些替代性实施例中，预设的学习速率函数包括：函数值随迭代次数变化的非线性函数。为了加速预测损失的收敛速度，同时确保神经网络的精度，学习速率函数可根据以下策略来设置：在早期的迭代训练中，神经网络的精度较差，从而随着迭代次数的增加，学习速率可逐增加，以提高训练速度；而在神经网络的预测损失(即，预测误差)收敛到一定范围之后，随着迭代训练的迭代次数的增加，学习速率逐渐降低，以确保精度。满足上述策略的非线性函数可通过数学拟合方法或基于实际经验来设置，以用作学习速率函数。

参考图4，示出了根据本公开的实施方式的用于加速神经网络训练的信息处理的方法中的学习速率函数的示例性函数图。如图4中所示，随着迭代次数的增加，学习速率函数的值(即，学习速率)是非线性增加的，并且在达到最大值之后，学习速率函数的值随迭代次数非线性降低。

进一步可替代地，上述预设的学习速率函数可基于余弦函数来建立，具体地：

lr_t表示第t次迭代训练中的学习速率的值，lr_min表示学习速率的最小值，lr_max表示学习速率的最大值，lr_min和lr_max可以是预设值，T_cur表示在第t次迭代训练之前的累积迭代数，以及T_tot表示预设的迭代总数。

动量函数可以是表征随迭代次数或训练时间变化的神经网络的训练过程的动量的函数。动量是在通过梯度下降更新神经网络的权重参数时控制权重更新方向和速度的参数。当更新神经网络的权重参数时，动量可使当前梯度方向与上次迭代训练的梯度方向相同的参数增强，使得加速这些方向上的迭代；并且使当前梯度方向不同于上次迭代训练的梯度方向的参数减少，使得这些方向上的迭代减慢，从而加速收敛速度。

在本实施方式中，可预先设定动量随迭代次数或训练时间变化的关系，并且在训练过程中实时统计地获得迭代次数或训练时间。在每次迭代训练中，基于预设的动量函数来确定与当前迭代训练相对应的动量。

可替代地，预设的动量函数包括函数值随迭代次数变化的非线性函数。作为示例，动量函数可满足以下变化趋势：随着迭代次数的增加，动量函数的值从最大值非线性地减小到最小值，然后非线性增加。可替代地，还可基于当前累积迭代次数与总迭代次数的比率，使用余弦函数建立动量函数。

步骤2023：基于预先设定的权重衰减和当前迭代训练中的学习速率、动量和预测损失，通过梯度下降来更新当前神经网络的权重参数。

权重衰减是用于防止神经网络在训练中“过度拟合”的参数，并且通常处于的区间内。权重衰减作用于损失函数的正则化项。正则化项可用于表征神经网络的复杂性。在权重衰减作用于损失函数的正则化项之后，可降低神经网络的复杂性，以防止神经网络随着迭代次数的增加而变得过于复杂，从而避免神经网络对训练数据集的过度拟合。

在实践中，可基于不同的深度学习任务和不同的训练数据集来预先设置权重衰减。权重衰减值还可与神经网络结构相关。在实践中，对于每个神经网络结构，可基于多个试验来验证权重衰减值，可基于验证结果来设置对应于不同神经网络结构的权重衰减。例如，对于CIFAR10数据集，采用图3中所示的神经网络结构，并且可将权重衰减设置为0.42。

在每个迭代训练中，当前迭代训练的预测损失可基于损失函数来计算，然后计算神经网络上当前迭代训练的预测损失的权重梯度。执行主体可获取预设的权重衰减，基于当前累积迭代次数确定的学习速率和动量，并利用权重衰减、学习速率、动量和权重梯度更新神经网络的权重参数，实现神经网络的更新。在下一次迭代训练中，将基于在当前迭代训练中更新的神经网络，基于梯度下降来进一步更新神经网络的权重参数。因此，通过迭代训练的多次迭代逐步更新神经网络参数。

目前，大多数神经网络使用32位单精度浮点数(FP32)存储迭代训练中的参数和相关数据。在本实施方式的一些替代实施例中，可在上述迭代训练中采用混合精度训练，具体地，可将神经网络的权重、梯度、输入数据等存储为16位浮点数(FP16)。可替代地，可基于NVIDIA发布的开源工具库自动检查训练中执行的操作，并确定将FP16或FP32用于存储数据，从而实现自动化混合精度训练，进一步提高计算速度并减少存储资源消耗。

可替代地，也可采用分布式训练，具体地，使用GPU(图形处理单元)结合多线程方法来训练神经网络。例如，每个GPU独立运行一个线程，多个线程通过基于集体通信策略的协作计算完成神经网络的训练，从而进一步提高计算速度和缩短训练时间。还可设定训练过程中的批量大小，并且每个线程均负责训练批量，从而通过多GPU和多线程结合相应批量大小进一步提高训练速度。

作为示例，在实践中，可选择1024的批量大小，并使用8台NVIDIA Tesla V100 GPU服务器完成了基于图像分类任务中CIFAR10数据集的神经网络训练。

在本实施方式中的用于加速神经网络训练的信息处理的方法中，当迭代次数达到预设的迭代总次数时，可停止迭代训练，并获得完全训练的神经网络。

根据本公开的上述实施方式的用于加速神经网络训练的信息处理的方法获取与深度学习任务相对应的神经网络，并基于训练数据集对神经网络执行迭代训练的多次迭代，其中，训练数据集包括与深度学习任务相对应的任务数据，以及迭代训练包括：利用当前神经网络对训练数据集中的任务数据进行处理，并基于当前迭代训练中神经网络对任务数据的处理结果，确定当前迭代训练的预测损失；基于预设的学习速率函数、预设的动量函数、当前迭代次数，确定当前迭代训练中的学习速率和动量；以及基于预设的权重衰减、当前迭代训练中的学习速率、动量和预测损失，通过梯度下降更新当前神经网络的权重参数，从而实现快速的神经网络训练。学习速率和动量随着迭代次数动态地变化，从而有效地加速神经网络误差的收敛速度，提高神经网络的精度，使得模型精度可在短时间内达到较高的水平，从而减少神经网络训练所占用的资源。

在上述实施方式的一些替代实施例中，用于加速神经网络训练的信息处理的方法还可包括：获取与深度学习任务相对应的训练数据集，以及对训练数据集执行数据增强处理。

在训练神经网络之前，可获得用于训练神经网络的训练数据集。训练数据集可以是与深度学习任务相对应的现有数据集，诸如图像分类任务中的常规CIFAR数据集。训练数据集还可以是通过收集用于深度学习任务(例如，用于语音识别任务)的相应任务数据而建立的数据集。通过从语音和视频数据中提取语音数据来建立训练数据集，并且可对语音数据所对应的文本进行注释，以生成训练数据集中各种语音数据的文本注释信息。

在本实施方式中，训练数据集可预先收集并存储在数据库中。在获取训练数据集之后，可通过数据增强扩展训练数据集，使得训练数据集中的数据分布更加平滑，从而降低神经网络过度拟合的概率。例如，可通过例如缩放变化、旋转、噪声添加或过滤训练数据集中的任务数据来生成新的任务数据，并将新的任务数据添加到训练数据集中。

此外，对训练数据集的数据增强处理可如下执行：对训练数据集中的任务数据执行数据剪切和/或数据混合，生成新任务数据，以及将新任务数据添加到训练数据集中。剪切意味着剪切或修剪数据，例如，删除数据的随机部分。混合意味着线性或非线性地叠加任何两个或多个数据段。例如，对于图像分类任务，新图像数据New_image＝r×图像1+(1-r)×图像2，其中，图像1和图像2是训练数据集中的任意两个图像，r是0与1之间的数。

在一些实施方式中，用于加速神经网络训练的信息处理的方法还可包括：使用通过迭代训练的多次迭代获得的神经网络来处理深度学习任务的待处理数据，并输出待处理数据的处理结果。

可使用完全训练的神经网络来处理深度学习任务的待处理数据。这里，要处理的数据可以是与上述训练数据集中的任务数据的类型相同类型的数据。例如，在图像分类任务中，训练数据集中的任务数据是图像数据，任务数据标签是图像类别标签，对应的待处理数据可以是待分类图像，以及待处理数据的处理结果是待分类图像的类别；以及在语音合成任务中，训练数据集中的任务数据是文本数据，任务数据的注释信息是相应的合成语音，相应的待处理数据可以是要合成为语音的文本，以及待处理数据的处理结果是合成语音。

通过用于加速神经网络训练的信息处理的方法获得有效且可靠的神经网络之后，用于加速神经网络训练的信息处理的方法利用神经网络对待处理数据进行处理，从而获得更精确的处数据理结果，并且高效可靠地完成了基于深度学习方法的数据处理。

进一步参考图5，作为用于加速神经网络训练的信息处理的方法的实施例，本公开的实施方式提供了一种用于加速神经网络训练的信息处理的装置。该装置的实施方式对应于图2中所示的方法的实施方式。该装置可具体应用于各种电子设备。

如图5中所示，本实施方式的用于加速神经网络训练的信息处理的装置包括：获取单元501和训练单元502。获取单元501配置为获取对应于深度学习任务的神经网络；以及训练单元502配置为基于训练数据集对神经网络执行迭代训练的多次迭代，其中，训练数据集包括与深度学习任务相对应的任务数据，以及迭代训练包括：利用当前神经网络对训练数据集中的任务数据进行处理，并基于当前迭代训练中神经网络对任务数据的处理结果，确定当前迭代训练的预测损失；基于预设的学习速率函数、预设的动量函数和当前迭代次数，确定当前迭代训练中的学习速率和动量；以及基于预设的权重衰减、以及当前迭代训练中的学习速率、动量和预测损失，通过梯度下降更新当前神经网络的权重参数。

在一些实施方式中，神经网络包括至少一个组合层、至少一个残差模块、至少一个池化层和至少一个完全连接层，其中，组合层通过连接至少一个卷积层、至少一个批量归一化层和至少一个激活函数层而形成，以及残差模块包括至少两个连续连接的组合层。

在一些实施方式中，预设的学习速率函数包括：函数值随迭代次数变化的非线性函数。

在一些实施方式中，预设的学习速率函数是：

lr_t表示在第t次迭代训练中的学习速率值，lr_min表示学习速率的最小值，lr_max表示学习速率的最大值，T_cur表示在第t次迭代训练之前的累积迭代次数，以及T_tot表示预设的迭代总数。

在一些实施方式中，预设的动量函数包括：函数值随迭代次数变化的非线性函数。

在一些实施方式中，该装置还包括：增强单元，配置为获取与深度学习任务相对应的训练数据集，并对训练数据集执行数据增强处理。

在一些实施方式中，数据增强单元还配置为对训练数据集执行如下的数据增强处理：对训练数据集中的任务数据执行数据剪切和/或数据混合以生成新的任务数据，以及将新的任务数据添加到训练数据集中。

在一些实施方式中，该装置还包括：处理单元，配置为使用通过迭代训练的多次迭代而获得的神经网络来处理深度学习任务的待处理数据，并输出待处理数据的处理结果。

应当理解，装置500中公开的单元对应于图2中描述的方法中的步骤。因此，上述用于该方法的操作和特征也适用于装置500和其中包括的单元。这里将不再重复描述。

参考下面的图6，示出了适于实现本公开的一些实施方式的电子设备(例如，图1中所示的服务器)600的示意性结构图。图6中所示的电子设备仅仅是示例，并且不应该限制本公开的一些实施方式的功能和使用范围。

如图6中所示，电子设备600可包括处理单元(例如，中央处理单元或图形处理器)601，其可根据存储在只读存储器(ROM)602中的程序或从存储单元608加载到随机存取存储器(RAM)603中的程序来执行各种适当的动作和处理。RAM 603还存储电子设备600的操作所需的各种程序和数据。处理单元601、ROM 602和RAM 603通过总线604彼此连接。输入/输出(I/O)接口605也连接至总线604。

通常，以下单元可连接至I/O接口605：输入单元606，包括触摸屏、触摸、键盘、鼠标、相机、麦克风、加速度计、陀螺仪等；输出单元607，包括液晶显示器(LCD)、扬声器、振动器等；存储单元608包括硬盘等；以及通信单元609。通信单元609可允许电子设备600通过无线或有线通信与其它设备交换数据。

尽管图6示出了电子设备600具有各种单元，但是应理解没有必要实现或提供图中所示的所有单元。可替代地，可实现或提供更多或更少的单元。图6中所示的每个块均可表示一个单元，或者根据需要表示多个单元。

具体地，根据本公开的一些实施方式，上面参考流程图描述的过程可在计算机软件程序中实施。例如，本公开的一些实施方式包括计算机程序产品，该计算机程序产品包括有形地嵌入在计算机可读介质中的计算机程序。计算机程序包括用于执行流程图中所示的方法的程序代码。在这样的实施方式中，计算机程度可经由通信单元609从网络下载并安装，或者从存储单元608安装，或者从ROM 602安装。当由处理单元601执行时，计算机程序实现由本公开的一些实施方式的方法限定的上述功能。应当注意，根据本公开的一些实施方式的计算机可读介质可以是计算机可读信号介质或计算机可读存储介质，或以上两者的任意组合。计算机可读存储介质的示例可包括但不限于：电、磁、光、电磁、红外、或半导体系统、装置、元件、或上述中的任何的组合。计算机可读存储介质的更具体的示例可包括但不限于：具有一个或多个配线段的电连接、便携式计算机磁盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或闪存)、光纤、便携式光盘只读存储器(CD-ROM)、光存储器、磁存储器或上述的任何合适组合。在本公开的一些实施方式中，计算机可读存储介质可以是包含或存储程序的任何有形介质，程序可由命令执行系统、装置或元件使用或与命令执行系统、装置或元件组合使用。在本公开的一些实施方式中，计算机可读信号介质可包括基带中或作为载波的一部分传播的数据信号，载波中携带有计算机可读程序代码。传播的数据信号可采取各种形式，包括但不限于电磁信号、光信号，或上述的任何合适的组合。计算机可读信号介质还可以是除了计算机可读存储介质之外的任何计算机可读介质。该计算机可读信号介质能够传输、传播或传送供命令执行系统、装置或元件使用或与之结合使用的程序。包含在计算机可读介质上的程序代码可用任何合适的介质来传输，包括但不限于：电线、光缆、RF(射频)介质等，或上述的任何合适的组合。

计算机可读介质可包括在上述电子设备中；或者可以是未组装到电子设备中的独立的计算机可读介质。计算机可读介质携带一个或多个程序。一个或多个程序在由电子设备执行时，使得电子设备：获取对应于深度学习任务的神经网络，以及基于训练数据集对神经网络执行迭代训练的多个迭代，其中，训练数据集包括与深度学习任务相对应的任务数据，以及迭代训练包括：利用当前神经网络对训练数据集中的任务数据进行处理，以及基于当前迭代训练中神经网络对任务数据的处理结果，确定当前迭代训练的预测损失；基于预设的学习速率函数、预设的动量函数和当前迭代次数来确定当前迭代训练中的学习速率和动量；基于预设的权值衰减、以及当前迭代训练中的学习速率、动量和预测损失，通过梯度下降更新当前神经网络的权重参数。

本公开的一些实施方式中的用于执行操作的计算机程序代码可使用一种或多种编程语言或其组合来编译。编程语言包括面向对象的编程语言，诸如Java、Smalltalk或C++，并且还包括常规的过程编程语言，诸如“C”语言或类似的编程语言。程序代码可在用户的计算机上完全执行、在用户的计算机上部分执行、作为单独的软件包执行、在用户的计算机上部分执行和在远程计算机上部分执行，或者在远程计算机或服务器上完全执行。在涉及远程计算机的情况下，远程计算机可经由任何网络连接到用户的计算机，包括局域网(LAN)或广域网(WAN)，或者可连接到外部计算机(例如，使用因特网服务提供商经由因特网连接)。

附图中的流程图和框图示出了可根据本公开的各种实施方式的系统、方法和计算机程序产品来实现的架构、功能和操作。在这一点上，流程图或框图中的每个框均可表示模块、程序段或代码部分，所述模块、程序段或代码部分包括用于实现指定逻辑功能的一个或多个可执行指令。还应注意，在一些替代实施例中，由块表示的功能也可以以不同于图中所示顺序的顺序出现。例如，连续呈现的任何两个框可基本上并行地执行，或者它们有时可以以相反的顺序执行，这取决于所涉及的功能。还应注意，框图和/或流程图中的每个框以及框图和/或流程图中的框的组合可使用执行指定功能或操作的基于专用硬件的系统来实现，或者通过专用硬件和计算机指令的组合来实现。

在本公开的一些实施方式中涉及的单元可通过软件或硬件来实现。所描述的单元也可提供在处理器中，例如描述为：包括获取单元和训练单元的处理器。在一些情况下，单元的名称不构成对这种单元本身的限制。例如，获取单元还可描述为“配置为获取对应于深度学习任务的神经网络的单元”。

以上描述仅提供对本公开的优选实施方式和所采用的技术原理的说明。本领域技术人员应当理解，本公开的发明范围不限于由上述技术特征的特定组合形成的技术方案。在不背离本公开的概念的情况下，本发明的范围还应当涵盖由上述技术特征或其等同特征的任何组合形成的其他技术方案，例如，通过将上述特征相互替换而形成的技术方案，但不限于，本公开中公开的具有相似功能的技术特征。

Claims

1.一种用于加速神经网络训练的信息处理的方法，包括：

获取与深度学习任务相对应的神经网络；以及

基于训练数据集对所述神经网络执行迭代训练的多次迭代，其中，所述训练数据集包括与所述深度学习任务相对应的任务数据；以及其中

所述迭代训练包括：

使用当前神经网络处理所述训练数据集中的任务数据，并基于当前迭代训练中所述神经网络对所述任务数据的处理结果，确定所述当前迭代训练的预测损失；

基于预设的学习速率函数、预设的动量函数和当前迭代次数，确定所述当前迭代训练中的学习速率和动量；以及

基于预设的梯度下降、所述当前迭代训练中的学习速率、动量和预测损失，通过梯度下降更新所述当前神经网络的权重参数。

2.根据权利要求1所述的方法，其中，所述神经网络包括：

至少一个组合层、至少一个残差模块、至少一个池化层和至少一个完全连接层，其中，所述组合层通过连接至少一个卷积层、至少一个批量归一化层和至少一个激活函数层而形成，并且所述残差模块包括至少两个连续连接的组合层。

3.根据权利要求1所述的方法，其中，所述预设的学习速率函数包括：函数值随着迭代次数而变化的非线性函数。

4.根据权利要求3所述的方法，其中，所述预设的学习速率函数为：

其中，lr_t表示第t次迭代训练中的学习速率的值，lr_min表示学习速率的最小值，lr_max表示学习速率的最大值，T_cur表示在第t次迭代训练之前的累积迭代次数，以及T_tot表示预设的迭代总数。

5.根据权利要求1所述的方法，其中，所述预设的动量函数包括：函数值随着迭代次数而变化的非线性函数。

6.根据权利要求1所述的方法，其中，所述方法还包括：

获取与所述深度学习任务相对应的所述训练数据集，并对所述训练数据集执行数据增强处理。

7.根据权利要求6所述的方法，其中，对所述训练数据集执行数据增强处理包括：

对所述训练数据集中的任务数据进行数据剪切和/或数据混合，以生成新的任务数据，并将所述新的任务数据添加到所述训练数据集中。

8.根据权利要求1所述的方法，其中，所述方法还包括：

使用通过迭代训练的多次迭代获得的所述神经网络对所述深度学习任务的待处理数据进行处理，并输出所述待处理数据的处理结果。

9.一种电子设备，包括：

一个或多个处理器；以及

存储单元，配置为存储一个或多个程序；

所述一个或多个程序在由所述一个或多个处理器执行时，致使所述一个或多个处理器：

获取与深度学习任务相对应的神经网络；以及

所述迭代训练包括：

10.一种存储有计算机程序的计算机可读介质，其中，所述计算机程序在由一个或多个处理器执行时致使所述一个或多个处理器：

获取与深度学习任务相对应的神经网络；以及

所述迭代训练包括：