CN111444019B

CN111444019B - 云端协同的深度学习模型分布式训练方法及系统

Info

Publication number: CN111444019B
Application number: CN202010240843.4A
Authority: CN
Inventors: 朱凤华; 韦越; 陈世超; 熊刚; 叶佩军; 商秀芹; 胡斌; 王飞跃
Original assignee: Institute of Automation of Chinese Academy of Science
Current assignee: Institute of Automation of Chinese Academy of Science
Priority date: 2020-03-31
Filing date: 2020-03-31
Publication date: 2024-01-26
Anticipated expiration: 2040-03-31
Also published as: CN111444019A

Abstract

本发明涉及一种云端协同的深度学习模型分布式训练方法及系统，所述训练方法包括：客户端接收用户输入的关于深度学习网络的训练任务；客户端根据所述训练任务调取网络配置和训练信息；云服务器根据网络配置和本地设备的资源情况，筛选出能够用于训练的各训练本地设备；云服务器根据所述网络配置和训练信息，生成多个训练子任务；云服务器将各训练子任务分别发送到不同的训练本地设备中；云服务器与各训练本地设备根据网络配置，对对应的训练子任务进行训练，以实现对深度学习网络的分布式训练。本发明通过云端协同实现了分布式资源的发现和筛选，从而可在深度学习模型分布式训练时合理有效的利用资源。

Description

云端协同的深度学习模型分布式训练方法及系统

技术领域

本发明机器学习技术领域，特别涉及一种云端协同的深度学习模型分布式训练方法及系统。

背景技术

随着深度学习网络的不断加深，训练数据量也与日俱增，单机训练不能满足人们的需求，速度过慢的弊端日益凸显，为解决这一问题，分布式机器学习的训练方式随之出现。

分布式机器学习是指将训练任务拆分成多个小任务，并将训练任务交由多个设备处理，同时数据也分布存储在不同设备中。分布式训练能发挥更大的计算、存储以及容错能力。

尽管分布式训练给大家带来新训练方式，但完成分布式训练需要构建训练集群，同一调度集群设备安排训练工作，从构建部署到运行维护，都是极为复杂且专业的工作。

随着云计算的兴起，云服务在互联网时代发挥越来越重要的作用，于是通过云服务器与边端设备互联的云端协同技术开始出现，通过云端协同可以更好的对分布式训练展开部署和调动，整合空闲资源，投入到训练任务中，加快模型训练速度，提高工作效率。

为了更加高效地完成分布式训练工作，容器云技术应运而生，它是一种能够实现容器集群快速部署的容器云平台。如Kubernetes平台，可以打包应用并确保在不同设备上运行的一致性，并且支持GPU调度。

然而目前，在云端协同下，面临端部资源发现和资源分配不均的问题，这导致有些优质的空闲资源难以被发现和调用起来，资源发现和资源筛选成为重要问题。

发明内容

为了解决现有技术中的上述问题，即为了有效利用资源，本发明的目的在于提供一种云端协同的深度学习模型分布式训练方法及系统。

为解决上述技术问题，本发明提供了如下方案：

一种云端协同的深度学习模型分布式训练方法，所述训练方法包括：

客户端接收用户输入的关于深度学习网络的训练任务；

客户端根据所述训练任务调取网络配置和训练信息；

云服务器根据网络配置和本地设备的资源情况，筛选出能够用于训练的各训练本地设备；

云服务器根据所述网络配置和训练信息，生成多个训练子任务；

云服务器将各训练子任务分别发送到不同的训练本地设备中；

云服务器与各训练本地设备根据网络配置，对对应的训练子任务进行训练，以实现对深度学习网络的分布式训练。

可选地，所述本地设备的资源情况包括本地设备的存储容量、CPU/GPU处理能力、资源空闲、网络畅通程度、深度学习环境配置中至少一者；

其中，所述云服务器根据网络配置和本地设备的资源情况，筛选出能够用于训练的各训练本地设备，具体包括：

所述云服务器根据网络配置和本地设备的资源情况，采用配置相近法或者资源评分法，计算各本地设备的评分数值；

将所述评分数值与评分阈值比较，确定用于训练的各训练本地设备。

可选地，所述评分数值为差距程度或整体评分；

所述将所述评分数值与评分阈值比较，确定训练本地设备群，具体包括：

当采用配置相近法计算差距程度时，筛选出小于第一评分阈值的差距程度对应的本地设备为训练本地设备；

当采用资源评分法计算整体评分时，筛选出大于第二评分阈值的整体评分对应的本地设备为训练本地设备。

可选地，根据以下公式计算差距程度a：

根据以下公式计算整体评分b：

其中，其中，a为本地设备配置与需求配置的差距程度，k为配置评分项目数，x_n为训练需求设备配置项的评分数值，x′_n为本地设备配置第n项配置的评分数值；b表示本地设备资源配置的整体评分，w_n为本地设备第n项配置的评分权重。

可选地，所述训练信息包括分布式训练参数和训练数据集；所述分布式训练参数包括训练节点数、更新间隔、是否自动调动本地设各、是否自动调参中至少一者；

其中，所述云服务器根据所述网络配置和训练信息，生成多个训练子任务，具体包括：

所述云服务器根据分布式训练参数，将所述训练数据集进行划分，得到多个子数据集；

根据网络配置、分布式训练参数及各子数据集，生成对应的容器，所述容器为训练子任务。

可选地，所述网络配置包括度学习框架、模型的训练脚本/预训练模型、训练设备配置需求、训练命令、训练所需的子数据集、训练的各种超参数和梯度更新次数。

可选地，所述云服务器与各训练本地设备根据网络配置，对对应的训练子任务进行训练，具体包括：

在当前阶段的训练中，各训练本地设备分别根据当前梯度及训练子任务子数据集对本地的深度学习模型进行训练；

计算当前模型的准确率；

确定当前模型的准确率是否达到预先设定的准确率阈值，如果达到，则结束训练，否则将当前梯度上传到云服务器；

云服务器对所有各训练本地设备上传的当前梯度进行平均聚合得到更新梯度，并将更新梯度发送至各所述训练本地设备；

各训练本地设备根据接收到的更新梯度，对模型进行更新，并继续下阶段的训练，直到模型的准确率达到准确率阈值或达到梯度更新次数。

可选地，所述训练方法还包括：

云服务器从各训练本地设备中读取对应的训练日志，并存储；所述训练日志包括训练指标，所述训练指标包括：各训练本地设备的子任务执行进度、样本量分布以及当前模型的准确率；

云服务器将所述训练指标发送至客户端进行显示。

为解决上述技术问题，本发明还提供了如下方案：

一种云端协同的深度学习模型分布式训练系统，所述训练系统包括：

客户端，用于接收用户输入的关于深度学习网络的训练任务；

以及根据所述训练任务调取网络配置和训练信息；

云服务器，与客户端连接，用于根据网络配置和本地设备的资源情况，筛选出能够用于训练的各训练本地设备；

根据所述网络配置和训练信息，生成多个训练子任务；

将各训练子任务分别发送到不同的训练本地设备中；

多个训练本地设备，所述云服务器与各训练本地设备根据网络配置，对对应的训练子任务进行训练，以实现对深度学习网络的分布式训练。

可选地，所述客户端、云服务器和各训练本地设备通过网络或总线相连。

根据本发明的实施例，本发明公开了以下技术效果：

在本发明中，通过客户端根据用户输入的训练任务调取网络配置和训练信息，并通过云服务器筛选出能够用于训练的各训练本地设备，以及生成多个训练子任务，并分别发送到不同的训练本地设备中；从而使得云服务器与各训练本地设备对对应的训练子任务进行训练，以实现对深度学习网络的分布式训练。本发明通过云端协同实现了分布式资源的发现和筛选，从而可在深度学习模型分布式训练时合理有效的利用资源。

附图说明

图1是本发明云端协同的深度学习模型分布式训练方法的流程图；

图2是本发明云端协同的深度学习模型分布式训练系统的模块结构示意图。

符号说明：

客户端—1，云服务器—2，训练本地设备—3。

具体实施方式

下面参照附图来描述本发明的优选实施方式。本领域技术人员应当理解的是，这些实施方式仅仅用于解释本发明的技术原理，并非旨在限制本发明的保护范围。

本发明的目的在于提供一种云端协同的深度学习模型分布式训练方法及系统，在本发明中，通过客户端根据用户输入的训练任务调取网络配置和训练信息，并通过云服务器筛选出能够用于训练的各训练本地设备，以及生成多个训练子任务，并分别发送到不同的训练本地设备中；从而使得云服务器与各训练本地设备对对应的训练子任务进行训练，以实现对深度学习网络的分布式训练。本发明通过云端协同实现了分布式资源的发现和筛选，从而可在深度学习模型分布式训练时合理有效的利用资源。

为使本发明的上述目的、特征和优点能够更加明显易懂，下面结合附图和具体实施方式对本发明作进一步详细的说明。

如图1所示，本发明云端协同的深度学习模型分布式训练方法包括：

步骤100：客户端接收用户输入的关于深度学习网络的训练任务；

步骤200：客户端根据所述训练任务调取网络配置和训练信息；

步骤300：云服务器根据网络配置和本地设备的资源情况，筛选出能够用于训练的各训练本地设备；

步骤400：云服务器根据所述网络配置和训练信息，生成多个训练子任务；

步骤500：云服务器将各训练子任务分别发送到不同的训练本地设备中；

步骤600：云服务器与各训练本地设备根据网络配置，对对应的训练子任务进行训练，以实现对深度学习网络的分布式训练。

在步骤200中，通过客户端的可视化界面，获取用户提交的训练任务的网络配置以及训练信息。

其中，所述训练信息包括分布式训练参数和训练数据集。所述分布式训练参数包括训练节点数、更新间隔、是否自动调动本地设备、是否自动调参等中至少一者。

根据用户输入的训练任务，确定训练数据集所在的存储路径或者网站链接：若是存储路径，则根据训练数据路径查找训练数据，若数据不存在，则反馈给用户客户端；若训练数据为网站链接，则打开并下载训练数据。

所述网络配置包括度学习框架、模型的训练脚本/预训练模型、训练设备配置需求、训练命令、训练所需的子数据集、训练的各种超参数和梯度更新次数。

进一步地，在步骤300中，所述本地设备的资源情况包括本地设备的存储容量、CPU/GPU处理能力、资源空闲、网络畅通程度、深度学习环境配置中至少一者。

优选地，所述云服务器根据网络配置和本地设备的资源情况，筛选出能够用于训练的各训练本地设备，具体包括：

步骤301：所述云服务器根据网络配置和本地设备的资源情况，采用配置相近法或者资源评分法，计算各本地设备的评分数值。

其中，所述评分数值为差距程度或整体评分。

步骤302：将所述评分数值与评分阈值比较，确定用于训练的各训练本地设备。

具体地：当采用配置相近法计算差距程度时，筛选出小于第一评分阈值的差距程度对应的本地设备为训练本地设备：

根据以下公式计算差距程度a：

其中，其中，a为本地设备配置与需求配置的差距程度，k为配置评分项目数，x_n为训练需求设备配置项的评分数值，x′_n为本地设备配置第n项配置的评分数值。

例如，根据训练需求得出需求配置参数为：CPU所需得分数值x₁、GPU所需得分数值X₂、存储容量所需得分数值x₃、运行内存空闲资源所需得分数值X₄、网络通畅程度所需得分数值X₅，深度学习环境配置所需得分数值X₆。

相应的，对本地设备的资源配置进行评分，得到：CPU得分数值x′₁、GPU得分数值x′₂、存储容量得分数值x′₃、运行内存空闲资源得分数值x′₄、网络通畅程度得分数值x′₅，深度学习环境配置得分数值x′₆。

按照配置相近法的公式：计算该本地设备的差距程度a₁：

若本地设备有t个，则共会得到a₁，a₂，……，a_t，共t个评分结果，将这结果按从小到大排列，得分越小的设备，越接近需求设备配置，并根据第一评分阈值，优先选取符合条件的该类设备进行训练任务。

当采用资源评分法计算整体评分时，筛选出大于第二评分阈值的整体评分对应的本地设备为训练本地设备：

根据以下公式计算整体评分b：

其中，b表示本地设备资源配置的整体评分，w_n为本地设备第n项配置的评分权重。

例如：对本地设备的资源配置进行评分，得到：CPU得分数值x′₁、GPU得分数值x′₂、存储容量得分数值x′₃、运行内存空闲资源得分数值x′₄、网络通畅程度得分数值x′₅，深度学习环境配置得分数值x′₆；对应的，CPU得分权重数值w₁、GPU得分权重数值w₂、存储容量得分权重数值w₃、运行内存空闲资源得分权重数值w₄、网络通畅程度得分权重数值w₅，深度学习环境配置得分权重数值w₆。

按照资源评分法的公式：计算该本地设备的整体评分b₁：

b₁＝w₁x′₁+w₂x′₂+w₃x′₃+w₄x′₄+w₅x′₅+w₆x′₆。

若本地设备有m个，则共会得到b₁，b₂，……，b_m，共m个评分结果，将这结果按从大到小排列，得分越大的设备，配置越好，根据第二整体评分，优先选取符合条件的该类设备进行训练任务。

需要指出的是，上述的x_n，即项目评分数值的具体大小，可以由本领域专业人员视具体情况决定，也可以由评分软件或者评分机构给出，这里不做具体限制。上述的评分方法仅作举例，本领域专业人员视具体情况，可以采用其他评分项目或评分算法，达到对本地资源的筛选目的即可。

在步骤400中，所述云服务器根据所述网络配置和训练信息，生成多个训练子任务，具体包括：

步骤401：所述云服务器根据分布式训练参数，将所述训练数据集进行划分，得到多个子数据集。

例如按照batch_size大小进行划分。

步骤402：根据网络配置、分布式训练参数及各子数据集，生成对应的容器，所述容器为训练子任务。

下面以在Kubernetes平台部署分布式TensorFlow任务的过程为示例，详细说明：

根据分布式训练的类型，结合计算资源/计算资源和模型，将预训练的整个任务分解为若干个子任务，并分别为每个子任务生成对应的TF_CONFIG；

利用Kubernetes平台在本地设备群上部署用于训练的容器集群：

根据TF_CONFIG等为上述每个子任务创建对应的训练Pod(Kubernetes平台的“容器组”，是平台对容器进行编排管理时的最小调度单位)以及网络service(可以是蓝牙，WiFi或者网线)；

上述容器集群部署完成后，启动执行分布式训练任务，也即在各部署好的本地设备上执行各子任务。

进一步地，在步骤600中，所述云服务器与各训练本地设备根据网络配置，对对应的训练子任务进行训练，具体包括：

步骤601：在当前阶段的训练中，各训练本地设备分别根据当前梯度及训练子任务子数据集对本地的深度学习模型进行训练；

步骤602：计算当前模型的准确率；

步骤603：确定当前模型的准确率是否达到预先设定的准确率阈值，如果达到，则结束训练，否则将当前梯度上传到云服务器；

步骤604：云服务器对所有各训练本地设备上传的当前梯度进行平均聚合得到更新梯度，并将更新梯度发送至各所述训练本地设备；

步骤605：各训练本地设备根据接收到的更新梯度，对模型进行更新，并继续下阶段的训练，直到模型的准确率达到准确率阈值或达到梯度更新次数。

优选地，本发明云端协同的深度学习模型分布式训练方法还包括：

云服务器将所述训练指标发送至客户端进行显示。

此外，本发明还提供一种云端协同的深度学习模型分布式训练系统，可有效利用资源。

如图2所示，本发明云端协同的深度学习模型分布式训练系统包括客户端1、云服务器2及多个训练本地设备3。

其中，所述客户端1用于接收用户输入的关于深度学习网络的训练任务；以及根据所述训练任务调取网络配置和训练信息。

所述云服务器2与客户端1连接；所述云服务器2用于根据网络配置和本地设备的资源情况，筛选出能够用于训练的各训练本地设备；根据所述网络配置和训练信息，生成多个训练子任务；将各训练子任务分别发送到不同的训练本地设备中。

所述云服务器2与各训练本地设备3根据网络配置，对对应的训练子任务进行训练，以实现对深度学习网络的分布式训练。

云服务器实时收集本地设备的资源数据；云服务器实时收集本地设备的本地子任务执行情况；云服务器与客户端分享收集到的信息。

其中，所述客户端1、云服务器2和各训练本地设备3通过网络或总线相连。

进一步地，客户端包括：

前端输入单元，用户通过所述前端输入单元的可视化界面，输入训练任务；

查询单元，用于用户通过客户端获取模型训练结果和本地设备训练进度；

第一任务管理单元，用于对训练任务包括子任务进行接收、生成、编排、分配、开启、暂停、调度等相关操作。

云服务器包括：

评分单元，用于对本地设备的资源进行评分，在分配子任务时提供参考依据；

任务状态监控单元，用于对训练过程以及本地设备运行状况进行监控并汇报给客户端；

第二任务管理单元，用于对训练任务包括子任务进行接收、生成、编排、分配、开启、暂停、调度等相关操作。

通过容器云上分布式训练的方法，将训练任务分解为若干个子任务，为子任务创建对应容器/容器组，将子任务分配到本地设备中。

客户端的任务管理单元与云服务器的任务管理单元相连，完成对训练任务包括子任务进行接收，生成，编排，分配，开启，暂停，调度等相关操作。查询单元与云服务器的任务状态监控单元相连，对设备运行状态和模型训练情况进行监控和信息查询。

相对于现有技术，本发明云端协同的深度学习模型分布式训练系统与上述云端协同的深度学习模型分布式训练方法的有益效果相同，在此不再赘述。

至此，已经结合附图所示的优选实施方式描述了本发明的技术方案，但是，本领域技术人员容易理解的是，本发明的保护范围显然不局限于这些具体实施方式。在不偏离本发明的原理的前提下，本领域技术人员可以对相关技术特征作出等同的更改或替换，这些更改或替换之后的技术方案都将落入本发明的保护范围之内。

Claims

1.一种云端协同的深度学习模型分布式训练方法，其特征在于，所述训练方法包括：

客户端接收用户输入的关于深度学习网络的训练任务；

客户端根据所述训练任务调取网络配置和训练信息；

所述训练信息包括分布式训练参数和训练数据集；所述分布式训练参数包括训练节点数、更新间隔、是否自动调动本地设备、是否自动调参中至少一者；

根据网络配置、分布式训练参数及各子数据集，生成对应的容器，所述容器为训练子任务；

所述本地设备的资源情况包括本地设备的存储容量、CPU/GPU处理能力、资源空闲、网络畅通程度、深度学习环境配置中至少一者；

通过客户端的可视化界面，获取用户提交的训练任务的网络配置以及训练信息；

其中，所述训练信息包括分布式训练参数和训练数据集；所述分布式训练参数包括训练节点数、更新间隔、是否自动调动本地设备、是否自动调参等中至少一者；

根据用户输入的训练任务，确定训练数据集所在的存储路径或者网站链接：若是存储路径，则根据训练数据路径查找训练数据，若数据不存在，则反馈给用户客户端；若训练数据为网站链接，则打开并下载训练数据；

所述网络配置包括深度学习框架、模型的训练脚本/预训练模型、训练设备配置需求、训练命令、训练所需的子数据集、训练的各种超参数和梯度更新次数；

其中，所述评分数值为差距程度或整体评分；

将所述评分数值与评分阈值比较，确定用于训练的各训练本地设备；

根据以下公式计算差距程度a：

其中，a为本地设备配置与需求配置的差距程度，k为配置评分项目数，x_n为训练需求设备配置项的评分数值，x′_n为本地设备配置第n项配置的评分数值；

根据以下公式计算整体评分b：

其中，b表示本地设备资源配置的整体评分，w_n为本地设备第n项配置的评分权重，x′_n为本地设备配置第n项配置的评分数值；云服务器根据所述网络配置和训练信息，生成多个训练子任务；

云服务器与各训练本地设备根据网络配置，对对应的训练子任务进行训练，以实现对深度学习网络的分布式训练；具体包括：

计算当前模型的准确率；

2.根据权利要求1所述的云端协同的深度学习模型分布式训练方法，其特征在于，所述网络配置包括深度学习框架、模型的训练脚本/预训练模型、训练设备配置需求、训练命令、训练所需的子数据集、训练的各种超参数和梯度更新次数。

3.根据权利要求1所述的云端协同的深度学习模型分布式训练方法，其特征在于，所述训练方法还包括：

云服务器将所述训练指标发送至客户端进行显示。

4.一种云端协同的深度学习模型分布式训练系统，其特征在于，用以执行如权利要求1至3任一项所述训练方法的功能，所述训练系统包括：

以及根据所述训练任务调取网络配置和训练信息；

根据所述网络配置和训练信息，生成多个训练子任务；

将各训练子任务分别发送到不同的训练本地设备中；

5.根据权利要求4所述的云端协同的深度学习模型分布式训练系统，其特征在于，所述客户端、云服务器和各训练本地设备通过网络或总线相连。