CN108460464A

CN108460464A - 深度学习训练方法及装置

Info

Publication number: CN108460464A
Application number: CN201710094563.5A
Authority: CN
Inventors: 高燕; 吕达; 罗圣美; 李伟华
Original assignee: ZTE Corp
Current assignee: ZTE Corp
Priority date: 2017-02-22
Filing date: 2017-02-22
Publication date: 2018-08-28
Also published as: WO2018153201A1

Abstract

本发明公开了一种深度学习训练方法及装置，用以解现有深度学习领域中深度学习模型收敛较慢的问题。所述方法包括：在每次迭代训练中，根据各训练数据实例的损失值，从批量训练数据实例中确定出所有困难实例；放弃学习非困难实例的特征，学习所述所有困难实例的特征。本发明中训练方法及装置通过计算训练迭代中训练数据实例的损失值，获得对该次迭代具有较大作用数据实例，并用于对模型进行训练；也就是说集中训练困难实例，加快了模型的收敛速度。

Description

深度学习训练方法及装置

技术领域

本发明涉及智能学习领域，特别是涉及一种深度学习训练方法及装置。

背景技术

随着网络信息技术的发展，信息数据的存储和传播越来越便捷，人们可以方便地获得大量的信息数据用于学习、工作和生活。目前已进入大数据时代，数以亿计的数据，加之不断提高的计算能力，使得一度进入冰河期的神经网络领域开始再度复苏，深度学习(多层神经网络)掀起新一轮的热潮。

目前，深度学习是人工智能领域中研究重点，大量的学者和研究人员投身其中，推动着其迅速发展。尽管深度学习取得了极大的成就，但其依旧面临着很多难题。相比传统方法，更多的数据和更深的网络结构是深度学习最大的特色，也是其取得成功的关键。但这也意味着深度学习往往需要更大的训练存储空间和时间；训练一个深度学习的模型往往需要数天乃至数个月的时间，因而加速训练过程，节约时间成本是当下的一个重要研究方向。

对于加速训练，现有技术中一般采用在硬件方面采用GPU加速和集群计算，在算法上采用数据并行和模型并行方案。现有方案虽然加快了深度网络的训练迭代速度，但仍然面临着模型收敛较慢的问题。

发明内容

为了克服上述现有技术的缺陷，本发明要解决的技术问题是提供一种深度学习训练方法及装置，用以解现有深度学习领域中深度学习模型收敛较慢的问题。

为解决上述技术问题，本发明中的一种深度学习训练方法，包括：

在每次迭代训练中，根据各训练数据实例的损失值，从批量训练数据实例中确定出所有困难实例；

放弃学习非困难实例的特征，学习所述所有困难实例的特征。

可选地，所述根据各训练数据实例的损失值，从批量训练数据实例中确定出所有困难实例，包括：

针对任一训练数据实例，对比该训练数据实例的损失值和预设阈值θ₁的大小关系；若该损失值不小于所述预设阈值θ₁，则该训练数据实例为困难实例；

遍历所述批量训练数据实例，对比出所有困难实例。

可选地，所述在每次迭代训练中，根据各训练数据实例的损失值，从批量训练数据实例中确定出所有困难实例之前，还包括：

在每次迭代训练的前向传播过程中，确定所述批量训练数据实例中每个训练数据实例的损失值。

可选地，所述根据各训练数据实例的损失值，从批量训练数据实例中确定出所有困难实例之后，还包括：

确定所述批量训练数据实例的损失平均值；

对比所述损失平均值和预设阈值θ₂的大小关系；

若所述损失平均值超过所述预设阈值θ₂，则放弃学习非困难实例的特征，学习所述所有困难实例的特征；

若所述损失平均值未超过所述预设阈值θ₂，则放弃学习所述批量训练数据实例的特征。

具体地，所述预设阈值θ₂小于所述预设阈值θ₁。

具体地，所述方法还包括：

针对任一训练数据实例，根据该训练数据实例的类别概率，确定该训练数据实例的预设阈值θ₁；

根据任一训练数据实例预设阈值θ₁，确定所述预设阈值θ₂。

具体地，所述学习所述所有困难实例的特征，还包括：

在学习时，将各困难实例的损失值反向传播；

根据各损失值调整用于训练的网络参数。

为解决上述技术问题，本发明中的一种深度学习训练装置，包括：

实例选择模块，用于在每次迭代训练中，根据各训练数据实例的损失值，从批量训练数据实例中确定出所有困难实例；

学习模块，用于放弃学习非困难实例的特征，学习所述所有困难实例的特征。

可选地，所述实例选择模块，具体用于针对任一训练数据实例，对比该训练数据实例的损失值和预设阈值θ₁的大小关系；若该损失值不小于所述预设阈值θ₁，则该训练数据实例为困难实例；

遍历所述批量训练数据实例，对比出所有困难实例。

可选地，所述装置还包括：

损失确定模块，用于在每次迭代训练的前向传播过程中，确定所述批量训练数据实例中每个训练数据实例的损失值

可选地，所述装置还包括：

判断模块，用于确定所述批量训练数据实例的损失平均值；

对比所述损失平均值和预设阈值θ₂的大小关系；

若所述损失平均值超过所述预设阈值θ₂，则触发所述学习模块放弃学习非困难实例的特征，学习所述所有困难实例的特征；

若所述损失平均值不小于所述预设阈值θ₂，则放弃学习所述批量训练数据实例的特征。

具体地，所述预设阈值θ₂小于所述预设阈值θ₁。

具体地，所述装置还包括：

阈值设置模块，用于针对任一训练数据实例，根据该训练数据实例的类别概率，确定该训练数据实例的预设阈值θ₁；

具体地，所述装置还包括：

参数调整模块，用于在学习时，将各困难实例的损失值反向传播；

根据各损失值调整用于训练的网络参数。

本发明有益效果如下：

本发明中训练方法及装置通过计算训练迭代中训练数据实例的损失值，获得对该次迭代具有较大作用数据实例，并用于对模型进行训练；也就是说集中训练困难实例，加快了模型的收敛速度；同时，学习训练过程忽略了无用数据实例，有效地改善了实际问题中训练数据不平衡的问题。本发明实施例通过对模型训练数据的分析，对现有的训练学习方法进行改进，可结合现有各种优化求解方法使用，并可以融合进当前的各个深度学习框架中。

附图说明

图1是本发明实施例中一种深度学习训练方法的主流程图；

图2是本发明实施例中一种深度学习训练方法的详细流程图；

图3是本发明实施例中一种深度学习训练装置的结构示意图。

具体实施方式

对于深度学习的网络训练而言，加快网络收敛相较于单纯加速更为重要。因此基于训练数据考虑，为了解决现有深度学习领域中深度学习模型收敛较慢的问题，本发明提供了一种深度学习训练方法及装置，以下结合附图以及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅用以解释本发明，并不限定本发明。

本发明实施例中一种深度学习训练方法，包括：

S101，在每次迭代训练的前向传播过程中，确定批量训练数据实例中每个训练数据实例的损失值。详细说，本步骤可以包括：

步骤1011，根据任务要求，获取足量训练样本(即训练数据实例或数据实例)，并对所获取的训练样本进行筛选、处理、增强、均衡、标记标签等操作，构建训练样本集。

步骤1012，选定深度网络模型结构，设定相应的训练参数，初始化深度网络模型。

步骤1013，将一定数量的训练样本组成一个batch(批量训练数据实例)送入深度网络进行计算，得到此batch中每个样本数据的分类计算值Xc。

步骤1014，对比每个样本的真实标签X_T，计算每个样本的Loss(损失)值

L。其中，计算Loss值L的方法为：

L＝-log[softmax(a_k)]k为该实例的真实类别 (1)

其中，a为类别概率，softmax(a_k)为交叉损失函数。

S102，根据各训练数据实例的损失值，从所述批量训练数据实例中确定出所有困难实例；

S103，放弃学习非困难实例的特征，学习所述所有困难实例的特征。

本发明实施例通过计算训练迭代中训练数据实例的损失(数据实例实际输出与理想输出的差距)值，获得对该次迭代具有较大作用数据实例(即困难实例)，并用于对模型进行训练；也就是说集中训练困难实例，加快了模型的收敛速度；同时，学习训练过程忽略了无用数据实例(即非困难实例)，有效地改善了实际问题中训练数据不平衡的问题。本发明实施例通过对模型训练数据的分析，对现有的训练学习方法进行改进，可结合现有各种优化求解方法使用，并可以融合进当前的各个深度学习框架中。

在上述实施例的基础上，进一步提出上述实施例的变型实施例，在此需要说明的是，为了使描述简要，在各变型实施例中仅描述与上述实施例的不同之处。

在本发明的一个实施例中，所述根据各训练数据实例的损失值，从所述批量训练数据实例中确定出所有困难实例，包括：

遍历所述批量训练数据实例，对比出所有困难实例。

详细说，将batch中的每个训练样本的Loss与阈值θ₁进行对比，若L超过阈值θ₁，则认为此训练样本为困难实例，用于本次学习，反之则将其舍弃。

本发明实施例进一步加速了深度学习模型的收敛。

在本发明的另一个实施例中，所述根据各训练数据实例的损失值，从批量训练数据实例中确定出所有困难实例之后，还包括：

确定所述批量训练数据实例的损失平均值；

对比所述损失平均值和预设阈值的大小关系；

若所述损失平均值超过所述预设阈值θ₂，则放弃学习非困难实例的特征，学习所述所有困难实例的特征；进一步说，在学习时，将各困难实例的损失值反向传播；根据各损失值调整用于训练的网络参数。

其中，所述预设阈值θ₂小于所述预设阈值θ₁。

详细说，将一个batch训练样本的Loss均值L_avg与阈值θ₂进行对比，若L_avg超过阈值，则认为此batch中绝大多数训练样本为困难实例，将Loss值进行反向传播，微调网络参数，对模型进行训练；若L_avg未超过阈值，则认为此batch训练样本几乎均为为非困难实例，所得Loss值不进行反向传播，舍弃该batch，阻止模型学习此batch中训练样本特征，进一步加速。

其中，Loss均值L_avg为batch样本中所有样本的loss值之和除以每个batch中样本数量N；即，

其中，a为类别概率，softmax(a_{i_k})为交叉损失函数。

进一步说，所述方法还包括：

详细说，对于阈值θ₁和θ₂由选取的loss计算公式和batch的大小确定。

θ₁＝-log(a)a∈(0.9,1) (3)

其中，a为类别概率，θ₁为单个样本评价阈值，θ₂为整个batch的评价阈值，N为一个batch中的样本数量。

本发明实施例设计了基于数据分析的深度学习加速收敛方法，可应用于各个深度学习开源框架。该方法主要包括数据预处理和深度学习训练。其中，在数据预处理部分，通过运用各种图像变换方法进行数据增强，从而极大地扩充了数据，并增加了数据的多样性。在深度学习训练部分，结合支持向量思想，通过对数据的损失分析，加速了收敛。

本发明实施例基于对训练过程中的数据分析，根据每次迭代中数据的损失大小，使得训练集中在困难数据实例上(损失大)，从而加快了收敛的速度。相比于现有对于训练数据不加区分的学习方法，本发明实施例通过训练数据的损失对数据加以区分，使得训练更具有针对性。同时网络训练方法将所有的数据都用于学习，从而导致实际运用中训练数据的不平衡问题，则使得学习模型的训练倾向于数据量更多的数据类别，而本发明实施例则对该问题起到了遏制作用，一定程度上提升了训练效果。

举一具体应用例，详细说明本发明中方法。

实验数据采用ImageNet数据集，数据集训练图片共120万张，分为1000类，毎类1200张样本。对于ImageNet图像识别竞赛的分类任务，采用本发明中方法进行实现，同时与现有Caffe(卷积神经网络框架)开源框架训练方法进行对比。

详细说，如图2所示，本发明中方法主要分两大过程：数据预处理、深度学习训练。下面结合该实验分别说明每个步骤的具体实现。

①据预处理

数据预处理是进行数据分析、学习任务的必要过程。对于本实验而言，数据的分类、标注等任务数据集中已完成，因而所需的关键就在于数据增强。对样本进行数据增强(例如随机裁剪，镜像等增强方法)。图像分辨率调整至256×256，最终将数据保存为lmdb文件格式，供Caffe调用。

②度学习的学习训练

本发明中方法主要是针对本过程进行改进，依据训练数据实例损失大小区分数据进行迭代学习。主要涉及通过深度网络训练得到深度模型。

具体说，在通过深度网络(本文中可以简称网络)训练过程中包括如下步骤：

(1)根据任务要求，获取足量训练样本，并对所获取的训练样本进行筛选、处理、增强、均衡、标记标签等操作，构建训练样本集。

(2)选定深度网络模型结构，设定相应的训练参数，初始化深度网络模型。

(3)将一定数量的训练样本组成一个batch送入网络进行计算，得到此batch中每个样本数据的分类计算值X_c。

(4)对比每个样本的真实标签X_T，计算Loss(损失)值L。将batch中的每个训练样本的Loss与阈值θ₁进行对比，若L超过阈值，则认为此训练样本为困难实例，用于本次学习，反之则将其舍弃。

损失计算公式有多种，本实验采用分类最常用的SoftmaxLoss进行介绍。

SoftmaxLoss是以Softmax函数作为交叉损失函数输入，计算公式如下：

Softmax的计算结果等于一个数据实例属于各个类别的概率。

进一步根据上述公式(2)可以计算出该数据实例的损失。

(5)计算整个batch中所有样本数据的Loss均值L_avg。

(6)将batch训练样本中困难实例的Loss均值L_avg与阈值θ₂进行对比，若L_avg超过阈值，则认为此batch中绝大多数训练样本为困难实例，将Loss值进行反向传播，微调网络参数，对模型进行训练；若L_avg未超过阈值，则认为此batch训练样本几乎均为为非困难实例，所得Loss值不进行反向传播，舍弃该batch，阻止模型学习此batch中训练样本特征，进一步加速。

由于θ₁是根据单个实例的损失判定阈值，其确定方式根据上述公式(4)得来，a为类别概率。本次实验中设定a为0.99，计算得到θ₁取值0.01。

θ₂用于判定批量数据的平均损失，考虑防止个别实例损失值较小影响整体平均损失影响，θ₂应小于θ₁，且随着数据批量大小N的增大，该影响逐渐较小，θ₂也不断接近θ₁，因而采用上述公式(5)确定，计算得到θ₂值为9.9×10^-3。

(7)若未达到终止条件，则返回步骤(3)继续训练。达到终止条件，接收学习过程。

综上，本发明中方法训练部分通过对单个数据实例和批量数据实例控制，实现将训练学习集中于困难实例。单个数据实例部分通过公式(2)计算出的损失值与阈值θ₁比较，若大于阈值θ₁，则该实例用于训练学习；反之，本次迭代中忽略该数据实例，即其反向传播梯度为0。对于批量数据实例控制部分，通过将整个批量数据的损失与阈值θ₂比较，若大于阈值θ₂，则执行反向传播，反之，则取消，即该批量数据不用于学习。

实验结果显示，原训练方法在4367次迭代后，loss开始下降，逐渐收敛；而使用本发明的方法后，在进行到第78次迭代后，loss开始下降，加速收敛效果明显。

本发明进一步提出一种深度学习训练装置，包括：

损失确定模块310，用于在每次迭代训练的前向传播过程中，确定批量训练数据实例中每个训练数据实例的损失值；

实例选择模块320，用于根据各训练数据实例的损失值，从所述批量训练数据实例中确定出所有困难实例；

学习模块330，用于放弃学习非困难实例的特征，学习所述所有困难实例的特征。

本发明实施例通过计算训练迭代中训练数据实例的损失值，获得对该次迭代具有较大作用数据实例，并用于对模型进行训练；也就是说集中训练困难实例，加快了模型的收敛速度；同时，学习训练过程忽略了无用数据实例，有效地改善了实际问题中训练数据不平衡的问题。本发明实施例通过对模型训练数据的分析，对现有的训练学习方法进行改进，可结合现有各种优化求解方法使用，并可以融合进当前的各个深度学习框架中。

在本发明的一个实施例中，所述实例选择模块320，具体用于针对任一训练数据实例，对比该训练数据实例的损失值和预设阈值θ₁的大小关系；若该损失值不小于所述预设阈值θ₁，则该训练数据实例为困难实例；

遍历所述批量训练数据实例，对比出所有困难实例。

在本发明的另一个实施例中，所述装置还包括：

判断模块，用于确定所述批量训练数据实例的损失平均值；

对比所述损失平均值和预设阈值θ₂的大小关系；

其中，所述预设阈值θ₂小于所述预设阈值θ₁。

进一步说，所述装置还包括：

根据任一训练数据实例预设阈值θ₁，确定所述预设阈值θ₂。和/或

根据各损失值调整用于训练的网络参数。

结合本申请所公开示例描述的方法，可直接体现为硬件、由处理器执行的软件模块或者二者结合。例如，附图中所示功能框图中的一个或多个功能框图和/或功能框图的一个和/或多个组合，既可以对应于计算机程序流程的各个软件模块，亦可以对应于各个硬件模块。这些软件模块，可以分别对应于附图所示的各个步骤。这些硬件模块例如可利用现场可编程门阵列(FPGA)将这些软件模块固化而实现。

软件模块可以位于RAM存储器、闪存、ROM存储器、EPROM存储器、EEPROM存储器、寄存器、硬盘、移动硬盘、CD-ROM或者本领域已知的任何其他形式的存储介质。可以将一种存储介质藕接至处理器，从而使处理器能够从该存储介质读取信息，且可向该存储介质写入信息；或者该存储介质可以是处理器的组成部分。处理器和存储介质可以位于专用集成电路中。该软件模块可以存储在移动终端的存储器中，也可以存储在可插入移动终端的存储卡中。例如，若移动终端采用的是较大容量的MEGA-SIM卡或者大容量的闪存装置，则该软件模块可存储在该MEGA-SIM卡或者大容量的闪存装置中。

针对附图中描述的功能框图中的一个或多个和/或功能框图的一个或多个组合，可以实现为用于执行本申请所描述功能的通用处理器、数字信号处理器(DSP)、专用集成电路(ASIC)、现场可编程门阵列(FPGA)或者其他可编程逻辑器件、分立门或晶体管逻辑器件、分立硬件组件或者其任意适当组合。针对附图中描述的功能框图中的一个或多个和/或功能框图的一个或多个组合，还可以实现为计算机设备的组合，例如，DSP和微处理器的组合、多个微处理器、与DSP通信结合的一个或多个微处理器或者任何其他这种配置。

虽然本申请描述了本发明的特定示例，但本领域技术人员可以在不脱离本发明概念的基础上设计出来本发明的变型。

本领域技术人员在本发明技术构思的启发下，在不脱离本发明内容的基础上，还可以对本发明做出各种改进，这仍落在本发明的保护范围之内。

Claims

1.一种深度学习训练方法，其特征在于，所述方法包括：

2.如权利要求1所述的方法，其特征在于，所述根据各训练数据实例的损失值，从批量训练数据实例中确定出所有困难实例，包括：

遍历所述批量训练数据实例，对比出所有困难实例。

3.如权利要求1所述的方法，其特征在于，所述在每次迭代训练中，根据各训练数据实例的损失值，从批量训练数据实例中确定出所有困难实例之前，还包括：

4.如权利要求1-3中任意一项所述的方法，其特征在于，所述根据各训练数据实例的损失值，从批量训练数据实例中确定出所有困难实例之后，还包括：

确定所述批量训练数据实例的损失平均值；

对比所述损失平均值和预设阈值θ₂的大小关系；

5.如权利要求4所述的方法，其特征在于，所述预设阈值θ₂小于所述预设阈值θ₁。

6.如权利要求4所述的方法，其特征在于，所述方法还包括：

7.如权利要求4所述的方法，其特征在于，所述学习所述所有困难实例的特征，还包括：

在学习时，将各困难实例的损失值反向传播；

根据各损失值调整用于训练的网络参数。

8.一种深度学习训练装置，其特征在于，所述装置包括：

9.如权利要求8所述的装置，其特征在于，所述实例选择模块，具体用于针对任一训练数据实例，对比该训练数据实例的损失值和预设阈值θ₁的大小关系；若该损失值不小于所述预设阈值θ₁，则该训练数据实例为困难实例；

遍历所述批量训练数据实例，对比出所有困难实例。

10.如权利要求8所述的装置，其特征在于，所述装置还包括：

损失确定模块，用于在每次迭代训练的前向传播过程中，确定所述批量训练数据实例中每个训练数据实例的损失值。

11.如权利要求8-10中任意一项所述的装置，其特征在于，所述装置还包括：

判断模块，用于确定所述批量训练数据实例的损失平均值；

对比所述损失平均值和预设阈值θ₂的大小关系；

12.如权利要求11所述的装置，其特征在于，所述预设阈值θ₂小于所述预设阈值θ₁。

13.如权利要求11所述的装置，其特征在于，所述装置还包括：

14.如权利要求11所述的装置，其特征在于，所述装置还包括：

根据各损失值调整用于训练的网络参数。