CN110689136A

CN110689136A - 一种深度学习模型获得方法、装置、设备及存储介质

Info

Publication number: CN110689136A
Application number: CN201910844045.XA
Authority: CN
Inventors: 赵旭东
Original assignee: Guangdong Inspur Big Data Research Co Ltd
Current assignee: Guangdong Inspur Smart Computing Technology Co Ltd
Priority date: 2019-09-06
Filing date: 2019-09-06
Publication date: 2020-01-14
Anticipated expiration: 2039-09-06
Also published as: CN110689136B

Abstract

本发明公开了一种深度学习模型获得方法，该方法包括以下步骤：获得训练集和测试集；导入分布式学习框架的相关运行库；初始化分布式学习框架的计算环境；基于训练集和测试集，利用分布式学习框架调用多个进程对深度学习模型进行分布式训练和测试；在精度达到设定要求时，获得训练后的深度学习模型。应用本发明实施例所提供的技术方案，通过利用分布式学习框架可以对深度学习模型进行分布式训练和测试，提高了模型训练速度，可以快速获得训练后的深度学习模型，进而可以将获得的深度学习模型应用到具体产品中，进行相应应用。本发明还公开了一种深度学习模型获得装置、设备及存储介质，具有相应技术效果。

Description

一种深度学习模型获得方法、装置、设备及存储介质

技术领域

本发明涉及计算机应用技术领域，特别是涉及一种深度学习模型获得方法、装置、设备及存储介质。

背景技术

目前，人脸识别作为一种重要的身份识别方式，在日常巡逻、户籍调查、出入境管理、刑事案件侦查、公司考勤、重要场所身份认证等场景中都有应用。尤其在公安、安防等相关领域，利用人脸识别系统可以有效地减少公安部门在破案调查过程中警力的浪费，提升破案效率，为社会和谐稳定提供有力的技术支持。

目前，多是依赖于人脸识别深度学习模型进行人脸识别。人脸识别深度学习模型的训练需要大规模分类的数据集，而且模型训练所用到的参数也是海量的。如何快速完成如人脸识别深度学习模型等深度学习模型的训练，以尽快将深度学习模型应用到实际场景中，如将训练后的人脸识别深度学习模型进行人脸识别，是目前本领域技术人员急需解决的技术问题。

发明内容

本发明的目的是提供一种深度学习模型获得方法、装置、设备及存储介质，以提高模型训练速度。

为解决上述技术问题，本发明提供如下技术方案：

一种深度学习模型获得方法，包括：

获得训练集和测试集；

导入分布式学习框架的相关运行库；

初始化所述分布式学习框架的计算环境；

基于所述训练集和测试集，利用所述分布式学习框架调用多个进程对深度学习模型进行分布式训练和测试；

在精度达到设定要求时，获得训练后的深度学习模型。

在本发明的一种具体实施方式中，所述多个进程包括主进程和从进程，所述方法还包括：

在训练之前，将所述主进程的全局变量分发到各个所述从进程中。

在本发明的一种具体实施方式中，还包括：

在训练过程中，根据进程数，调整分布式训练的学习率。

在本发明的一种具体实施方式中，所述根据进程数，调整分布式训练的学习率，包括：

调整分布式训练的学习率与进程数的平方根成线性关系。

在本发明的一种具体实施方式中，还包括：

在训练之前，分别创建第一流水线初始化器和第二流水线初始化器，从所述训练集中抽取部分数据的索引和对应的标签，利用抽取的索引创建第一数据集，并调用所述第一流水线初始化器将所述第一数据集载入到输入管道中；

在进行测试时，利用所述测试集中的所有测试数据创建第二数据集，并调用所述第二流水线初始化器将所述第二数据集载入到所述输入管道中；

所述第一数据集和所述第二数据集的批尺寸相同。

在本发明的一种具体实施方式中，还包括：

利用规约函数，获取训练过程中所有进程的骨干网络部分的规约结果；

将获取到的规约结果保存到中间变量；

将全连接层的权重参数切分成np份，np与进程数相同；

根据所述中间变量和切分后的权重参数，确定每个进程在全连接层输出结果结果；

将每个进程在全连接层输出结果进行整合，获得整合全连接层输出结果；

基于所述整合的全连接层输出结果，控制每个进程获取其进行后续分类计算所需的对应结果。

在本发明的一种具体实施方式中，所述根据所述中间变量和切分后的权重参数，确定每个进程在全连接层输出结果，包括：

将所述中间变量与切分后的权重参数相乘，加上偏置，获得每个进程在全连接层输出结果。

一种深度学习模型获得装置，包括：

数据获得模型，用于获得训练集和测试集；

运行库导入模块，用于导入分布式学习框架的相关运行库；

环境初始化模块，用于初始化所述分布式学习框架的计算环境；

训练模块，用于基于所述训练集和测试集，利用所述分布式学习框架调用多个进程对深度学习模型进行分布式训练和测试；

模型获得模块，用于在精度达到设定要求时，获得训练后的深度学习模型。

一种深度学习模型获得设备，包括：

存储器，用于存储计算机程序；

处理器，用于执行所述计算机程序时实现上述任一项所述深度学习模型获得方法的步骤。

一种计算机可读存储介质，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器执行时实现上述任一项所述深度学习模型获得方法的步骤。

应用本发明实施例所提供的技术方案，获得训练集和测试集后，导入分布式学习框架的相关运行库，初始化分布式学习框架的计算环境，基于训练集和测试集，利用分布式学习框架调用多个进程对深度学习模型进行分布式训练和测试，在精度达到设定要求时，获得训练后的深度学习模型。通过利用分布式学习框架可以对深度学习模型进行分布式训练和测试，提高了模型训练速度，可以快速获得训练后的深度学习模型，进而可以将获得的深度学习模型应用到具体产品中，进行相应应用。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例中一种深度学习模型获得方法的实施流程图；

图2为本发明实施例中一种深度学习模型获得装置的结构示意图

图3为本发明实施例中一种深度学习模型获得设备的结构示意图。

具体实施方式

为了使本技术领域的人员更好地理解本发明方案，下面结合附图和具体实施方式对本发明作进一步的详细说明。显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

参见图1所示，为本发明实施例所提供的一种深度学习模型获得方法的实施流程图，该方法可以包括以下步骤：

S110：获得训练集和测试集。

在实际应用中，可以通过数据采集等方式获得训练集和测试集。训练集和测试集中的数据可根据深度学习模型的类型进行选择，如针对于人脸识别深度学习模型，则训练集中包含多个人脸图像信息的训练数据，测试集中包含多个人脸图像信息的测试数据，如针对于车辆识别深度学习模型，则训练集中包含多个车辆图像信息的训练数据，测试集中包含多个车辆图像信息的测试数据。

对于本发明实施例的描述主要以人脸识别深度学习模型为例进行，但需要说明的是，本发明实施例的技术方案对于其他类型的深度学习模型同样适用。

S120：导入分布式学习框架的相关运行库。

人脸识别深度学习模型具体可以为Facenet模型。目前，该模型发布于开源网站，是基于Tensorflow(一种深度学习框架)开发的，只能够在单个GPU(Graphics ProcessingUnit，图形处理器)上进行模型的训练，每次训练模型通常需要数个小时才能够达到所需的计算精度，而且，单个GPU计算性能有限，无法快速完成模型训练过程，在计算性能加速方面有大幅度的提升空间。

而已有的Tensorflow本身是可以实现多机多卡分布式计算的，但是其计算性能相对较低，可扩展性相对较差。Horovod分布式学习框架，可以有效的提升Tensorflow在分布式训练过程中的通信效率，降低通信和访问延迟导致的开销。

本发明实施例中的分布式学习框架，可以为Horovod分布式学习框架。当然，也可以为其他分布式学习框架。

在训练之前，可先导入分布式学习框架的相关运行库。具体可以通过语句“importhorovod.tensorflow as hvd”导入。以使得分布式学习框架顺利运行。

S130：初始化分布式学习框架的计算环境。

在训练开始之前，可以对分布式学习框架的计算环境进行初始化操作。具体的可以通过语句“hvd.init()”进行计算环境的初始化操作。

S140：基于训练集和测试集，利用分布式学习框架调用多个进程对深度学习模型进行分布式训练和测试。

上述步骤S110至S130的操作可以理解为是对深度学习模型进行训练前的准确工作，各种准备工作完成之后，基于训练集，利用分布式学习框架调用多个进程可以对深度学习模型进行分布式训练，基于测试集，利用分布式学习框架调用多个进程可以对深度学习模型进行分布式测试。这里的深度学习模型可以是之前训练后得到的深度学习模型，还可以是新建立的深度学习模型。利用分布式学习框架实现了深度学习模型在多GPU上的训练。

调用的多个进程可以包括主进程和从进程。

在本发明的一种具体实施方式中，在训练之前，可以将主进程的全局变量分发到各个从进程中。具体的，可以通过语句“hvd.broadcast_global_variables(0)”，将主进程的全局变量分发到各个从进程中，这样可以保证每个进程训练所用到的参数的一致性。

S150：在精度达到设定要求时，获得训练后的深度学习模型。

利用分布式学习框架调用多个进程对深度学习模型进行分布式训练和测试之后，在深度学习模型的输出精度达到设定要求时，可以获得训练后的深度学习模型。对于精度的设定要求可以根据实际情况进行设定和调整，本发明实施例对此不做限制。

获得训练后的深度学习模型之后，可以将深度学习模型应用到具体产品中，进行相应应用。如可以将获得的人脸识别深度学习模型应用到AI(Artificial Intelligence，人工智能)等产品中，进行人脸识别。

应用本发明实施例所提供的方法，获得训练集和测试集后，导入分布式学习框架的相关运行库，初始化分布式学习框架的计算环境，基于训练集和测试集，利用分布式学习框架调用多个进程对深度学习模型进行分布式训练和测试，在精度达到设定要求时，获得训练后的深度学习模型。通过利用分布式学习框架可以对深度学习模型进行分布式训练和测试，提高了模型训练速度，可以快速获得训练后的深度学习模型，进而可以将获得的深度学习模型应用到具体产品中，进行相应应用。

在本发明的一个实施例中，该方法还可以包括以下步骤：

在训练过程中，根据进程数，调整分布式训练的学习率。

在分布式训练的情况下，模型的稳定性、训练精度和收敛速度往往会低于单个设备的训练结果。为了解决这个问题，本发明实施例在已有模型的基础上添加了LARS(分层自适应速率缩放)优化器选项，通过这一优化器可以确保模型在大规模分布式训练场景下的鲁棒性，不需要warmup等算法就可以避免出现训练过程不收敛的情况。对于收敛速度问题，本发明实施例通过优化学习率参数，调整了不同迭代步数的学习率，令模型在较少的迭代步数就可以达到较高的训练精度。

在采用分布式训练模型后，模型的训练精度通常会低于单个设备的训练结果，为了尽可能的达到较高的训练精度，本发明实施例根据进程数，调整分布式训练的学习率。具体的，调整分布式训练的学习率与进程数的平方根成线性关系。在这种情况下，模型训练的精度结果最好。

分布式训练的学习率与进程数的关系如下：

其中，lr_dis表示分布式训练的学习率，lr_seq表示单个GPU上的学习率，nproc表示进程数。

通过对分布式训练的学习率进行优化，可以使得模型在相对较少的迭代次数下达到所需的训练精度。

在本发明的一个实施例中，该方法还可以包括以下步骤：

步骤一：在训练之前，分别创建第一流水线初始化器和第二流水线初始化器，从训练集中抽取部分数据的索引和对应的标签，利用抽取的索引创建第一数据集，并调用第一流水线初始化器将第一数据集载入到输入管道中；

步骤二：在进行测试时，利用测试集中的所有测试数据创建第二数据集，并调用第二流水线初始化器将第二数据集载入到输入管道中；

第一数据集和第二数据集的批尺寸相同。

为便于描述，将上述两个步骤结合起来进行说明。

在模型训练之前，可以分别创建两个流水线初始化器，即第一流水线初始化器和第二流水线初始化器，其中，第一流水线初始化器用于载入训练集的训练数据，第二流水线初始化器用于载入测试集的测试数据。

在训练部分开始之前，可以从训练集中抽取，如随机抽取部分数据的索引(index)和对应的标签(label)，利用抽取的索引创建第一数据集(dataset)，并调用第一流水线初始化器将创建的第一数据集载入到输入管道(InputPipeline)中。

在进行测试的时候，不再需要随机抽取，可以直接利用测试集中所有的测试数据创建第二数据集(dataset)，并调用第二流水线初始化器将第二数据集载入到输入管道中。

第一数据集和第二数据集的批尺寸(batchsize)相同。

通过流水线技术可以充分利用CPU设备和GPU设备的计算资源，减少模型计算过程中的延迟，提升模型训练效率。

在本发明的一个实施例中，该方法还可以包括以下步骤：

第一个步骤：利用规约函数，获取训练过程中所有进程的骨干网络部分的规约结果；

第二个步骤：将获取到的规约结果保存到中间变量；

第三个步骤：将全连接层的权重参数切分成np份，np与进程数相同；

第四个步骤：根据中间变量和切分后的权重参数，确定每个进程在全连接层输出结果；

第五个步骤：将每个进程在全连接层输出结果进行整合，获得整合的全连接层输出结果；

第六个步骤：基于整合的全连接层输出结果，控制每个进程获取其进行后续分类计算所需的对应结果。

为便于描述，将上述六个步骤结合起来进行说明。

在本发明实施例中，在模型训练进行前向-反向传播的过程中，首先需要选择优化器，然后利用分布式学习框架，如Horovod的分布式API(Application ProgrammingInterface，应用程序编程接口)实现梯度下降过程中的分布式过程，在这一过程中分布式学习框架会在底层对每一次传播过程中用到的参数进行规约计算，实现mini-batch SGD(小批量随机梯度下降)算法在多个设备间同步训练的效果。

在实际应用中，可以先利用规约函数hvd.allgather，获取模型训练过程中所有进程的骨干网络(backbone)部分输出的结果prelogits，这个结果也即为规约结果。将获取到的规约结果保存到中间变量prelogits_batches，变量结构(shape)为：[batch_size×np,embeddings_size]，其中，batch_size表示批大小，np与进程数相同，embeddings_size表示嵌入层大小。

将全连接(Fully Connective，FC)层的权重参数w切分成np份，np与模型运行时开启的进程数相同，即w＝[w'₁ w'₂ ··· w'_np-1 w'_np]。

根据中间变量和切分后的权重参数，可以确定每个进程在全连接层输出结果，具体的，可以将中间变量与切分后的权重参数相乘，加上偏置，获得每个进程在全连接层输出结果，如公式(2)所示：

logits_batches＝prelogits_batches·w+bias 公式(2)

其中，logits_batches表示每个进程在全连接层输出结果，bias表示偏置。

假设所有进程共用一个矩阵w和bias，令m＝embedding_size，n＝num_classes，nb＝batch_size×np，则公式(2)等式右边可表示为：

进而公式(2)可表示为：

将每个进程在全连接层输出结果logits_batches进行整合，可以使用语句“hvd.allgather()”，可得到整合的全连接层输出结果：

基于整合的全连接层输出结果，可以控制每个进程获取其对应的一部分结果进行后续的分类计算：

logits＝logits_batches[hvd.rank()*batch_size:(hvd.rank()+1)*batch_size，:]。

在大规模分类的人脸数据集中，由于全连接层的参数量较大，已有的单个GPU无法完全放下所有参数，降低了模型算法在实际场景中的适用性。本发明实施例通过对全连接层算法的修改，实现了在数据并行和模型并行的混合模式。可减少模型参数，避免出现由于训练集人脸分类过多导致的显存容量不足的问题。可以训练大规模分类的人脸数据集，充分利用GPU设备的显存容量和计算资源。

相应于上面的方法实施例，本发明实施例还提供了一种深度学习模型获得装置，下文描述的一种深度学习模型获得装置与上文描述的一种深度学习模型获得方法可相互对应参照。

参见图2所示，该装置包括：

数据获得模型210，用于获得训练集和测试集；

运行库导入模块220，用于导入分布式学习框架的相关运行库；

环境初始化模块230，用于初始化分布式学习框架的计算环境；

训练模块240，用于基于训练集和测试集，利用分布式学习框架调用多个进程对深度学习模型进行分布式训练和测试；

模型获得模块250，用于在精度达到设定要求时，获得训练后的深度学习模型。

应用本发明实施例所提供的装置，获得训练集和测试集后，导入分布式学习框架的相关运行库，初始化分布式学习框架的计算环境，基于训练集和测试集，利用分布式学习框架调用多个进程对深度学习模型进行分布式训练和测试，在精度达到设定要求时，获得训练后的深度学习模型。通过利用分布式学习框架可以对深度学习模型进行分布式训练和测试，提高了模型训练速度，可以快速获得训练后的深度学习模型，进而可以将获得的深度学习模型应用到具体产品中，进行相应应用。

在本发明的一种具体实施方式中，多个进程包括主进程和从进程，装置还包括：

变量分发模块，用于在训练之前，将主进程的全局变量分发到各个从进程中。

在本发明的一种具体实施方式中，还包括：

学习率调整模块，用于在训练过程中，根据进程数，调整分布式训练的学习率。

在本发明的一种具体实施方式中，学习率调整模块，具体用于：

调整分布式训练的学习率与进程数的平方根成线性关系。

在本发明的一种具体实施方式中，还包括数据载入模块，用于：

在训练之前，分别创建第一流水线初始化器和第二流水线初始化器，从训练集中抽取部分数据的索引和对应的标签，利用抽取的索引创建第一数据集，并调用第一流水线初始化器将第一数据集载入到输入管道中；

在进行测试时，利用测试集中的所有测试数据创建第二数据集，并调用第二流水线初始化器将第二数据集载入到输入管道中；

第一数据集和第二数据集的批尺寸相同。

在本发明的一种具体实施方式中，还包括全连接层优化模块，用于：

将获取到的规约结果保存到中间变量；

将全连接层的权重参数切分成np份，np与进程数相同；

根据中间变量和切分后的权重参数，确定每个进程在全连接层输出结果；

将每个进程在全连接层输出结果进行整合，获得整合的全连接层输出结果；

基于整合的全连接层输出结果，控制每个进程获取其进行后续分类计算所需的对应结果。

在本发明的一种具体实施方式中，全连接层优化模块，具体用于：

将中间变量与切分后的权重参数相乘，加上偏置，获得每个进程在全连接层输出结果。

相应于上面的方法实施例，本发明实施例还提供了一种深度学习模型获得设备，如图3所示，该设备包括：

存储器310，用于存储计算机程序；

处理器320，用于执行计算机程序时实现上述深度学习模型获得方法的步骤。

相应于上面的方法实施例，本发明实施例还提供了一种计算机可读存储介质，计算机可读存储介质上存储有计算机程序，计算机程序被处理器执行时实现上述深度学习模型获得方法的步骤。

本说明书中各个实施例采用递进的方式描述，每个实施例重点说明的都是与其它实施例的不同之处，各个实施例之间相同或相似部分互相参见即可。

专业人员还可以进一步意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、计算机软件或者二者的结合来实现，为了清楚地说明硬件和软件的可互换性，在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本发明的范围。

结合本文中所公开的实施例描述的方法或算法的步骤可以直接用硬件、处理器执行的软件模块，或者二者的结合来实施。软件模块可以置于随机存储器(RAM)、内存、只读存储器(ROM)、电可编程ROM、电可擦除可编程ROM、寄存器、硬盘、可移动磁盘、CD-ROM、或技术领域内所公知的任意其它形式的存储介质中。

本文中应用了具体个例对本发明的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本发明的技术方案及其核心思想。应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以对本发明进行若干改进和修饰，这些改进和修饰也落入本发明权利要求的保护范围内。

Claims

1.一种深度学习模型获得方法，其特征在于，包括：

获得训练集和测试集；

导入分布式学习框架的相关运行库；

初始化所述分布式学习框架的计算环境；

在精度达到设定要求时，获得训练后的深度学习模型。

2.根据权利要求1所述的方法，其特征在于，所述多个进程包括主进程和从进程，所述方法还包括：

3.根据权利要求1所述的方法，其特征在于，还包括：

在训练过程中，根据进程数，调整分布式训练的学习率。

4.根据权利要求3所述的方法，其特征在于，所述根据进程数，调整分布式训练的学习率，包括：

调整分布式训练的学习率与进程数的平方根成线性关系。

5.根据权利要求1所述的方法，其特征在于，还包括：

所述第一数据集和所述第二数据集的批尺寸相同。

6.根据权利要求1至5之中任一项所述的方法，其特征在于，还包括：

将获取到的规约结果保存到中间变量；

将全连接层的权重参数切分成np份，np与进程数相同；

根据所述中间变量和切分后的权重参数，确定每个进程在全连接层输出结果；

7.根据权利要求6所述的方法，其特征在于，所述根据所述中间变量和切分后的权重参数，确定每个进程在全连接层输出结果，包括：

8.一种深度学习模型获得装置，其特征在于，包括：

数据获得模型，用于获得训练集和测试集；

运行库导入模块，用于导入分布式学习框架的相关运行库；

9.一种深度学习模型获得设备，其特征在于，包括：

存储器，用于存储计算机程序；

处理器，用于执行所述计算机程序时实现如权利要求1至7任一项所述深度学习模型获得方法的步骤。

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器执行时实现如权利要求1至7任一项所述深度学习模型获得方法的步骤。