CN112905325A

CN112905325A - 一种分布式数据缓存加速训练的方法、系统及介质

Info

Publication number: CN112905325A
Application number: CN202110181363.XA
Authority: CN
Inventors: 曹文康; 王超; 陈培; 王德奎
Original assignee: Shandong Yingxin Computer Technology Co Ltd
Current assignee: Shandong Yingxin Computer Technology Co Ltd
Priority date: 2021-02-10
Filing date: 2021-02-10
Publication date: 2021-06-04
Anticipated expiration: 2041-02-10
Also published as: CN112905325B

Abstract

本发明公开了一种分布式数据缓存加速训练的方法，包括以下步骤：配置训练环境以及数据集；获取训练任务；判断Kubernetes是否识别所述任务，若未识别，则将所述任务转换为所述Kubernetes识别的命令和配置；根据所述任务进行任务调度并执行调度策略得到第一数据集；根据所述训练任务和所述调度策略进行选择数据集的缓存；将所述训练任务通过Kubernetes以及所述第一数据集并根据选择所述数据集的缓存结果进行训练；通过上述方式，本发明能够将数据集作为一种资源使Kubernetes在调度新任务时能够快速识别资源进而减少资源配置时间。

Description

一种分布式数据缓存加速训练的方法、系统及介质

技术领域

本发明涉及人工智能领域，特别是涉及一种分布式数据缓存加速训练的方法、系统及介质。

背景技术

随着人工智能业务的广泛发展，大量的业务数据需要被分析以及作为人工智能业务更新的训练材料，而如何提高在不同类型存储(NFS、HDFS、GlusterFS等)上的训练数据的读取速度提高整体训练速度成为业界重要的研究课题之一，深度学习训练任务通常采用分布式的训练框架进行训练，如Tensorflow、Caffe、Pytorch等。各个任务的训练数据通常也是由大量小文件目录和数据标签组成，如计算机视觉常用的ImageNet-1K数据集包含了一千种类超过一百多万的图片文件，因此，如何有效减少训练前期数据读取时间成为当前深度学习的研究热点之一。

目前现有技术存在训练过程中数据读取缓慢，尤其是在云存储的训练数据在过程中尤其缓慢。

发明内容

本发明主要解决是训练过程中数据读取缓慢，尤其是在云存储的训练数据在过程中尤其缓慢的问题。

为解决上述技术问题，本发明采用的一个技术方案是：提供一种分布式数据缓存加速训练的方法，包括以下步骤：

配置训练环境以及数据集；

获取训练任务；

判断Kubernetes是否识别所述训练任务，若未识别，则将所述训练任务转换为所述Kubernetes识别的命令和配置；

根据所述训练任务进行任务调度并执行调度策略得到第一数据集；

根据所述训练任务和所述第一数据集进行选择所述第一数据集的缓存类别；

将所述训练任务通过所述Kubernetes并根据所述第一数据集以及所述第一数据集的缓存类别进行训练。

优选的，所述配置训练环境以及数据集的步骤进一步包括：

使用Kubernetes Volume；

将云存储或存储服务器中存储的训练数据集下载至训练节点的存储器上；

进行数据集缓存配置以及数据集复用配置；

设置所述数据集的标签，并记为第一标签。

优选的，所述数据集缓存配置的步骤进一步包括：设置数据集进行分布式缓存或单节点缓存的阈值。

优选的，所述执行调度策略得到第一数据集的步骤进一步包括：

配置并读取训练的硬件的数量；

根据所述硬件的数量并通过所述Kubernetes的资源管理进行分配任务；

判断所述数据集是否满足条件，若满足条件，则将满足条件的所述数据集记为第一数据集，使用所述第一数据集进行训练；

若不满足条件，则执行筛选过滤策略。

优选的，所述判断所述数据集是否满足条件的步骤进一步包括：

判断所述Kubernetes Volume中存储的数据集的标签是否与设置所述第一标签相同；若相同，则所述训练节点中存储所述数据集，满足条件；

若不相同，则所述训练节点中未存储所述数据集，不满足条件。

优选的，所述筛选过滤策略的步骤进一步包括：

筛选数据集：根据所述数据集以及所述存储器的数据空间大小进行筛选数据集，将数据空间大于所述存储器的数据空间的所述数据集过滤；

判断数据集：判断过滤后是否存在数据集；若过滤后不存在数据集，则再次将云存储或存储服务器中存储的训练数据集下载至训练节点的存储器上，重复判断所述数据集是否满足条件步骤；

若过滤后存在数据集，则将过滤后的数据集记为第一数据集；

选择缓存：根据所述分布式缓存或单节点缓存的阈值相应的选择分布式缓存或单节点缓存。

优选的，当所述数据集使用时，利用所述Kubernetes控制进行Pod挂载；当所述数据集未使用时，将所述数据集保存至所述Kubernetes的资源池中；

对重复的所述数据集在第一预设时间段内进行检查，若第二预设时间内未使用重复的所述数据集，则将重复的所述数据集进行清理。

优选的，所述训练结束时，所述Kubernetes控制进行Pod挂载的所述Pod结束生命周期，所述第一数据集不删除，保存至所述Kubernetes的资源池中。

本发明还提供一种分布式数据缓存加速训练的系统，包括：配置模块、请求模块、集成模块、调度模块、选择模块和训练模块；

所述配置模块用于配置训练环境以及数据集；

所述请求模块用于获取训练任务；

所述集成模块用于对所述训练任务进行转换，将所述训练任务转换为Kubernetes识别的命令和配置；

所述调度模块用于根据所述训练任务进行任务调度并执行调度策略得到第一数据集；

所述选择模块用于根据所述训练任务和所述第一数据集进行选择所述第一数据集的缓存类别；

所述训练模块用于将所述训练任务通过所述Kubernetes并根据所述第一数据集以及所述第一数据集的缓存类别进行训练。

本发明还提供一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，所述计算机程序被处理器执行时，实现所述的一种分布式数据缓存加速训练的方法的步骤。

本发明的有益效果是：

1、本发明所述的一种分布式数据缓存加速训练的方法，可以本地缓存进行单节点或者分布式的缓存训练数据从而加速训练，使用时采用卷管理机制进行挂载使用保证数据的持久性，另外数据集作为Kubernetes的一种资源进行配置使用从而达到简化云原生应用配置的复杂度。

2、本发明所述的一种分布式数据缓存加速训练的系统，可以通过集成模块对用户的请求进行转换，方便Kubernetes能够识别，可以转换不同种类以及语言的用户请求，兼容性更好，并且通过调度模块进行执行Kubernetes的调度策略能够快速识别资源和使用进而减少资源配置时间。

3、本发明所述的一种计算机可读存储介质，将数据进行本地缓存然后作为资源类型供以后训练任务调度使用，省去了数据预加载过程达到加速目的。

附图说明

为了更清楚地说明本发明具体实施方式或现有技术中的技术方案，下面将对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施方式，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明实施例1所述的一种分布式数据缓存加速训练的方法示意图；

图2是本发明实施例1所述的一种分布式数据缓存加速训练的方法流程示意图；

图3是本发明实施例1所述的一种分布式数据缓存加速训练的方法中调度策略流程图；

图4是本发明实施例2所述的一种分布式数据缓存加速训练的系统架构示意图。

具体实施方式

下面将结合附图对本发明的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

在本发明的描述中，需要说明的是，此外，术语“第一”、“第二”仅用于描述目的，而不能理解为指示或暗示相对重要性。

需要说明的是，在本发明的描述中

NFS网络文件系统，英文Network File System；

Hadoop分布式文件系统(HDFS)是指被设计成适合运行在通用硬件(commodityhardware)上的分布式文件系统(Distributed File System)；

Gluster File System是通过网络互联成一个并行的网络文件系统；

TensorFlow是谷歌的第二代机器学习系统，TensorFlow内建深度学习的扩展支持，任何能够用计算流图形来表达的计算，都可以使用TensorFlow。

Caffe，全称Convolutional Architecture for Fast Feature Embedding，是一个兼具表达性、速度和思维模块化的深度学习框架。

PyTorch是一个开源的Python机器学习库，基于Torch，用于自然语言处理等应用程序。

Kubernetes VolumeVolume是Pod中能够被多个容器共享的磁盘目录。

Kubernetes中的Volume与Pod的生命周期相同，但与容器的生命周期不相关。当容器终止或重启时，Volume中的数据也不会丢失。

当Pod被删除时，Volume才会被清理。并且数据是否丢失取决于Volume的具体类型，比如emptyDir类型的Volume数据会丢失，而PV类型的数据则不会丢失。

Kubernetes：开源项目用于管理云平台中多个主机上的容器化的应用。

kubelet是在每个Node节点上运行的主要“节点代理”。

YAML是一种标记语言。

YAML的语法和其他高级语言类似，并且可以简单表达清单、散列表，标量等数据形态，它使用空白符号缩进和大量依赖外观的特色，特别适合用来表达或编辑数据结构、各种配置文件、倾印调试内容、文件大纲。

固态驱动器(Solid State Disk或Solid State Drive，简称SSD)，俗称固态硬盘。

Kubernetes提供了众多的volume类型，包括emptyDir、hostPath、nfs、glusterfs、cephfs、ceph rbd等。

Scheduler是调度器或调度程序；

存储器为SSD硬盘。

GPU(Graphics Processing Unit)是图形处理器；

CPU(central processing unit)是中央处理器。

实施例1

本发明实施例提供一种分布式数据缓存加速训练的方法，请参阅图1和图2，包括以下步骤：

S100，在容器中的深度学习训练为了保持训练的持续性和容错性，大部分训练过程中都将数据持久方式进行使用，为了持久化保存容器的数据，使用Kubernetes Volume，Volume的生命周期独立于容器，Pod中的容器可能被销毁和重建，但Volume会被保留。一次在新的任务使用时可以继续使用该承载数据集的volume，并且Kubernetes Volume是一个目录，这一点与Docker Volume类似。当Volume被mount安装到Pod，Pod中的所有容器都可以访问这个Volume。Kubernetes Volume也支持多种backend类型；backend类型指不同种类的文件存储系统，如包括emptyDir、hostPath、nfs、glusterfs、cephfs、ceph rbd等；

将远端的数据集下载到训练节点的本地SSD上；

远端是指存储训练数据集的云存储或者存储服务器；训练节点是需具有GPU或者用来进行深度学习训练的计算机节点；

进行数据集缓存配置：

设置数据集进行分布式或单节点缓存的阈值；为防止数据集过大而不能单节点缓存；当数据集数据容量大时，使用分布式缓存，当数据集数据容量小时使用单节点缓存；

进行数据集复用配置：多缓存版本控制，为追求性能用户最大化提高训练速度，数据集独享使用避免交叉使用；

数据集缓存配置和数据集是否复用在用户请求之前完成，配合调度策略进行任务和数据集的调度。

数据集下载到训练节点的本地SSD上时，将数据集打上标签。

S200，用户提出训练任务请求，用户触发具体的训练任务后收集用户请求的训练任务内容，训练任务的请求包括需要训练的硬件请求，例如，请求训练CPU、请求训练GPU等；并且数据集也作为一个资源类型，包含在用户训练任务请求中；

数据集作为一种资源在Kubernetes进行识别，数据集名字作为识别标签使用，例如imagenet数据集和mnist数据集等；

当使用数据集时利用Kubernetes控制进行Pod挂载，如果数据集未使用就将数据集作为一种资源放在Kubernetes的资源池中储存；

当使用数据集时，可根据用户训练任务请求对数据集进行一对多资源复用，并且默认使用高速网络进行节点内的数据交换；

当使用数据集时，如果数据集单独使用，但是Kubernetes已经控制进行了Pod挂载，则会将此数据集复制到其他节点以满足用户使用需求，并且若有重复的数据集则会在第一预设时间内进行检查，如果第二预设时间未进行使用则将重复的数据集进行清理，只保留一份数据集；

第一预设时间和第二预设时间可以为一天，三天，五天，根据用户的需求可以任意设定；

S300，当用户的前端请求存在多种语言结构时，通过API将前端请求转换为Kubernetes能够识别的命令和配置；

前端请求的多种语言结构包括：Java，python等；

S400，启动scheduler进行任务调度，执行Kubernetes的调度策略，在Kubernetes的scheduler进行任务调度对训练任务进行调度；

请参阅图3，调度策略的步骤包括：

S401，配置用户想要进行训练的GPU的数量，并进行读取GPU的数量；

S402，进行GPU资源可选节点筛选：根据GPU的数量，并通过Kubernetes的资源管理感知整个集群中有多少可用的GPU，根据可用的GPU分配任务；

S403，进行判断数据集是否满足条件，Kubernetes判断Volume中存储的数据集的标签是否与需要训练使用的数据集的标签是否一致，若一致则训练计算节点上有了该数据集，该节点上有了这个数据集的标签，则满足条件，将该数据集记为第一数据集，使用第一数据集进行训练，若不一致，则不满足，根据数据类型缓存配置进行筛选过滤；

S404，根据数据类型缓存配置进行筛选过滤的步骤进一步为：筛选符合节点SSD上的磁盘空间，因为有些数据集大小会超过某些可用节点SSD剩余空间，将数据集大小超过SSD节点剩余空间的部分过滤掉；判断过滤后是否存在数据集；若过滤后不存在数据集，则从远端进行数据集拉取和缓存回到步骤S403，直至筛选过滤出第一数据集；

若过滤后存在数据集，则将过滤后的数据集记为第一数据集。

S405，根据数据集中的数据集缓存配置进行选择单节点或者分布式缓存；

根据数据集缓存配置中分布式或者单节点缓存的阈值选择单节点缓存或分布式缓存，

根据数据集缓存配置中单节点缓存阈值选择单节点缓存或分布式缓存为：

当数据集中数据超过所述单节点缓存的阈值时，执行分布式缓存；

当数据集中数据未超过所述单节点缓存的阈值时，执行单节点缓存；

根据数据集缓存配置中分布式缓存阈值选择单节点缓存或分布式缓存为：

当数据集中数据超过分布式缓存阈值的阈值时，执行分布式缓存；

当数据集中数据未超过分布式缓存阈值的阈值时，执行单节点缓存；

S500，根据用户任务请求和调度策略进行选择第一数据集的单节点或者分布式缓存；

其中进行单节点或分布式缓存可进行选择，

根据用户要求，进行选择单节点或分布式缓存；

或者数据集规模巨大时，单节点不能进行完全缓存则进行分布式缓存；

S600，进行训练，将训练任务通过Kubernetes调度到训练节点上使用单节点或分布式缓存以及第一数据集进行训练。当训练结束时，Kubernetes控制进行Pod挂载的Pod结束生命周期，相应的Kubernetes挂载结束，但是进行训练时使用的数据集资源不删除，一直保存在Kubernetes的资源池内供后续使用。

实施例2

本发明实施例还提供一种分布式数据缓存加速训练的系统，请参阅图4，包括：配置模块、请求模块、集成模块、调度模块、选择模块和训练模块；

配置模块用于配置训练环境以及数据集；

请求模块用于获取训练任务；

集成模块用于对训练任务进行转换，由于前端训练任务可能存在多种多样的语言结构，因此集成模块主要是为了对训练任务转换为Kubernetes能够识别的命令和配置；

调度模块用于根据所述任务进行任务调度并执行调度策略得到第一数据集；

选择模块用于根据所述训练任务和所述第一数据集进行选择所述第一数据集的单节点缓存或分布式缓存；

训练模块用于将所述训练任务通过Kubernetes以及所述第一数据集并根据选择所述数据集的缓存结果进行训练。

基于与前述实施例中方法同样的发明构思，本说明书实施例还提供一种计算机可读存储介质，计算机可读存储介质上存储有计算机程序，计算机程序被处理器执行时实现如前述公开的一种分布式数据缓存加速训练的方法的步骤。

上述本发明实施例公开实施例序号仅仅为了描述，不代表实施例的优劣。

本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成，也可以通过程序来指令相关的硬件完成的程序可以存储于一种计算机可读存储介质中，上述提到的存储介质可以是只读存储器，磁盘或光盘等。

以上所述仅为本发明的实施例，并非因此限制本发明的专利范围，凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换，或直接或间接运用在其他相关的技术领域，均同理包括在本发明的专利保护范围内。

Claims

1.一种分布式数据缓存加速训练的方法，其特征在于，包括以下步骤：

配置训练环境以及数据集；

获取训练任务；

2.根据权利要求1所述的分布式数据缓存加速训练的方法，其特征在于：所述配置训练环境以及数据集的步骤进一步包括：

使用Kubernetes Volume；

进行数据集缓存配置以及数据集复用配置；

设置所述数据集的标签，并记为第一标签。

3.根据权利要求2所述的分布式数据缓存加速训练的方法，其特征在于：所述数据集缓存配置的步骤进一步包括：设置数据集进行分布式缓存或单节点缓存的阈值。

4.根据权利要求3所述的分布式数据缓存加速训练的方法，其特征在于：所述执行调度策略得到第一数据集的步骤进一步包括：

配置并读取训练的硬件的数量；

若不满足条件，则执行筛选过滤策略。

5.根据权利要求4所述的分布式数据缓存加速训练的方法，其特征在于：所述判断所述数据集是否满足条件的步骤进一步包括：

6.根据权利要求4所述的分布式数据缓存加速训练的方法，其特征在于：所述筛选过滤策略的步骤进一步包括：

7.根据权利要求1所述的分布式数据缓存加速训练的方法，其特征在于：当所述数据集使用时，利用所述Kubernetes控制进行Pod挂载；当所述数据集未使用时，将所述数据集保存至所述Kubernetes的资源池中；

8.根据权利要求7所述的分布式数据缓存加速训练的方法，其特征在于：所述训练结束时，所述Kubernetes控制进行Pod挂载的所述Pod结束生命周期，所述第一数据集不删除，保存至所述Kubernetes的资源池中。

9.一种分布式数据缓存加速训练的系统，其特征在于，包括：配置模块、请求模块、集成模块、调度模块、选择模块和训练模块；

所述配置模块用于配置训练环境以及数据集；

所述请求模块用于获取训练任务；

10.一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，其特征在于，所述计算机程序被处理器执行时，实现权利要求1-8任一项所述的一种分布式数据缓存加速训练的方法的步骤。