CN111124277B

CN111124277B - 一种深度学习数据集缓存方法、系统、终端及存储介质

Info

Publication number: CN111124277B
Application number: CN201911151430.2A
Authority: CN
Inventors: 刘娜
Original assignee: Suzhou Inspur Intelligent Technology Co Ltd
Current assignee: Suzhou Inspur Intelligent Technology Co Ltd
Priority date: 2019-11-21
Filing date: 2019-11-21
Publication date: 2022-10-18
Anticipated expiration: 2039-11-21
Also published as: CN111124277A

Abstract

本发明提供一种深度学习数据集缓存方法、系统、终端及存储介质，包括：获取容器待执行的训练任务；将用户存储系统中的所述训练任务对应的数据集复制到缓存设备中；将数据集在缓存设备的存储地址挂载至相应容器。相对于现有技术中从用户存储系统中读取数据集，本发明令容器从缓存设备中读取数据集，提高了数据集的读取速度，让数据集在训练任务开始之前就缓存到指定的设备上，以便训练任务开始之后可以高速的读取数据，避免了计算资源的“饥饿”状态，大大缩短算立案周期，也在很大程度提升了计算资源的利用率。

Description

一种深度学习数据集缓存方法、系统、终端及存储介质

技术领域

本发明涉及深度学习技术领域，具体涉及一种深度学习数据集缓存方法、系统、终端及存储介质。

背景技术

Kubernetes作为管理跨多主机容器应用程序的系统，不仅具备完备的容器集群管理能力，还增加了多层次的安全防护机制、租户应用支撑、服务器注册和智能负载均衡器的功能，尤其kubernetes强大的故障发现和自有修复能力，让系统的运维能力得到了极大提升。Kuberenetes卓越的调度能力也是在很多业务场景中得到应用。例如，Kubernetes在人工智能领域得到了广泛的应用，容器的轻量属性和对GPU、IB卡的使用，尤其对于机器学习和深度学习的支持，非常全面。

在深度学习使用过程中，服务器计算资源已经不再是影响训练周期的主要原因，甚至经常会处于“饥饿”状态，导致这种“饥饿”的主要原因是数据集的读取速率。在用户的真实使用场景中，计算资源(CPU、内存、GPU)与存储资源是分离的，悬链任务在读取存储中的数据集时，一般需要通过网络来传输，当网络带宽不足时，数据的读写就会成为严重的瓶颈。

发明内容

针对现有技术的上述不足，本发明提供一种深度学习数据集缓存方法、系统、终端及存储介质，以解决上述技术问题。

第一方面，本发明提供一种深度学习数据集缓存方法，包括：

获取容器待执行的训练任务；

将用户存储系统中的所述训练任务对应的数据集复制到缓存设备中；

将数据集在缓存设备的存储地址挂载至相应容器。

进一步的，所述将用户存储系统中的所述训练任务对应的数据集复制到缓存设备中，包括：

将所述对应数据集复制到Beegfs；

对所述用户存储系统进行数据更新监控，若监控到存在数据更新，则将更新的数据同步更新至所述Beegfs。

进一步的，所述所述将用户存储系统中的所述训练任务对应的数据集复制到缓存设备中，包括：

获取节点上容器待执行任务所需的数据集；

从用户存储系统将所需数据集复制到节点配置的SSD；

将SSD中存储的数据集信息上传至管理节点备份。

进一步的，所述方法还包括：

获取容器最新接收的训练任务的相关数据集所需存储空间；

获取容器所在节点的SSD剩余存储空间：

若所述所需存储空间超过所述剩余存储空间，则清除所述SSD中的无用数据集。

第二方面，本发明提供一种深度学习数据集缓存系统，包括：

任务获取单元，配置用于获取容器待执行的训练任务；

数据复制单元，配置用于将用户存储系统中的所述训练任务对应的数据集复制到缓存设备中；

地址挂载单元，配置用于将数据集在缓存设备的存储地址挂载至相应容器。

进一步的，所述数据复制单元包括：

数据共享模块，配置用于将所述对应数据集复制到Beegfs；

同步更新模块，配置用于对所述用户存储系统进行数据更新监控，若监控到存在数据更新，则将更新的数据同步更新至所述Beegfs。

进一步的，所述数据复制单元包括：

容器监控模块，配置用于获取节点上容器待执行任务所需的数据集；

数据拉取模块，配置用于从用户存储系统将所需数据集复制到节点配置的SSD；

信息上传模块，配置用于将SSD中存储的数据集信息上传至管理节点备份。

进一步的，所述系统还包括：

所需空间获取模块，配置用于获取容器最新接收的训练任务的相关数据集所需存储空间；

剩余空间获取模块，配置用于获取容器所在节点的SSD剩余存储空间：

无用数据清除模块，配置用于若所述所需存储空间超过所述剩余存储空间，则清除所述SSD中的无用数据集。

第三方面，提供一种终端，包括：

处理器、存储器，其中，

该存储器用于存储计算机程序，

该处理器用于从存储器中调用并运行该计算机程序，使得终端执行上述的终端的方法。

第四方面，提供了一种计算机存储介质，所述计算机可读存储介质中存储有指令，当其在计算机上运行时，使得计算机执行上述各方面所述的方法。

本发明的有益效果在于，

本发明提供的深度学习数据集缓存方法、系统、终端及存储介质，在训练任务开始之前，先将训练任务需要的数据集复制到缓存设备中，再将缓存设备中数据集的存储地址发送到相应容器，容器在执行训练任务时即可根据存储地址直接从缓存设备中读取相应数据集。相对于现有技术中从用户存储系统中读取数据集，本发明令容器从缓存设备中读取数据集，提高了数据集的读取速度，让数据集在训练任务开始之前就缓存到指定的设备上，以便训练任务开始之后可以高速的读取数据，避免了计算资源的“饥饿”状态，大大缩短算立案周期，也在很大程度提升了计算资源的利用率。

此外，本发明设计原理可靠，结构简单，具有非常广泛的应用前景。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，对于本领域普通技术人员而言，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明一个实施例的方法的示意性流程图。

图2是本发明一个实施例的方法的数据缓存示意图。

图3是本发明一个实施例的方法的数据缓存示意图。

图4是本发明一个实施例的系统的示意性框图。

图5为本发明实施例提供的一种终端的结构示意图。

具体实施方式

为了使本技术领域的人员更好地理解本发明中的技术方案，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都应当属于本发明保护的范围。

下面对本发明中出现的关键术语进行解释。

Beegfs是基于轻量级的架构并且可以在每个作业的基础上创建BeeOND(BeeGF OnDemand)应用程序，是一种高效的共享存储。

图1是本发明一个实施例的方法的示意性流程图。其中，图1执行主体可以为一种深度学习数据集缓存系统。

如图1所示，该方法100包括：

步骤110，获取容器待执行的训练任务；

步骤120，将用户存储系统中的所述训练任务对应的数据集复制到缓存设备中；

步骤130，将数据集在缓存设备的存储地址挂载至相应容器。

为了便于对本发明的理解，下面以本发明深度学习数据集缓存方法的原理，结合实施例中对深度学习数据集进行缓存管理的过程，对本发明提供的深度学习数据集缓存方法做进一步的描述。

具体的，所述深度学习数据集缓存方法包括：

S1、通过Kubernetes获取现有所有容器待执行的训练任务。

S2、利用Kubernetes调取待执行训练任务需要用到的数据集，将这些需要用到的数据集复制到缓存设备中。缓存设备有两种选择，具体两种方案如下：

参考图2，选择高速的共享存储实现方案。高速指的是共享存储的设备配置要高，网络带宽也比较高。本实施例的共享存储实现方案为Beegfs，网络配置为25G GEB。一个高配置的共享存储可以让数据的读写不再是训练过程中的瓶颈。高速共享存储与计算节点(Node)、管理节点(master)相互连通，通过文件数据复制功能，将用户存储系统中的数据集复制到Beegfs存储的指定目录，节点上的Pod容器，只需要挂载该目录即可，完成挂载之后Pod容器中的训练任务就可以使用该数据集信息了。图2中的storage-module负责对接不同用户存储系统，然后将指定的数据集拷贝到共享存储中。

用户存储系统中的数据集可能会发生变化，当用户存储系统中的数据更新后，共享存储缓存的数据也要同步更新，不然会影响训练任务的模型精度。监控用户存储系统是否存在用户更新的方法为：数据集的大小(精确到字节单位)是否发生变化，数据集文件数量(包含其中的文件夹)是否发生变化。两个判断条件中只要有一个发生变化，即判定用户存储系统中的数据集发生了变化，需要增量下载变化的文件信息。

参考图3，由于高速的共享存储系统需要的物理设备和网络设备的价格比较昂贵，可能对于小企业并不是特别的实用。所以提出一种替代方案，即在计算节点服务器上配置一定大小的SSD固态硬盘(推荐大小为2T)。SSD作为一种高速读取存储介质，在一定程度上大大提高了对数据的读取效率，避免了磁盘(普通)造成的读写瓶颈。

由于不同容器之间待执行的训练任务可能有差异，而在计算节点服务器上配置的SSD固态硬盘不能实现数据共享。因此每个计算节点上都设置有storage-agent，storage-agent组件在每个计算节点部署一个，负责将本计算节点上训练任务需要的数据集信息从用户存储系统中拉到本地SSD固态硬盘中。管理节点上的storage-master节点负责收集各个计算节点缓存数据集的信息(名称，路径，状态)，便于后期在用户存储系统有数据更新时在相应SSD进行同步数据更新。当数据集缓存到SSD固态硬盘后，节点上的Pod容器只需要挂载对应SSD上的文件路径，即可访问到该数据集。

本方案也许进行数据集一致性检测，检测方法与共享存储方案中的数据一致性检测方法相同。

计算节点上SSD固态硬盘空间有限，不可能完全缓存用户存储系统中的所有数据集，所以要提供数据集清除策略。数据集的清除发生在提交新的训练任务时候，当新的训练任务所需的数据集不在缓存空间，且缓存空间已满的时候，需要触发清除数据集功能。清除策略如下：缓存数据集当前没有被任何训练任务使用；创建时间比较久远；数据集被使用的次数最少。

如图4示，该系统400包括：

任务获取单元410，配置用于获取容器待执行的训练任务；

数据复制单元420，配置用于将用户存储系统中的所述训练任务对应的数据集复制到缓存设备中；

地址挂载单元430，配置用于将数据集在缓存设备的存储地址挂载至相应容器。

可选地，作为本发明一个实施例，所述数据复制单元包括：

数据共享模块，配置用于将所述对应数据集复制到Beegfs；

可选地，作为本发明一个实施例，所述数据复制单元包括：

可选地，作为本发明一个实施例，所述系统还包括：

图5为本发明实施例提供的一种终端系统500的结构示意图，该终端系统500可以用于执行本发明实施例提供的深度学习数据集缓存方法。

其中，该终端系统500可以包括：处理器510、存储器520及通信单元530。这些组件通过一条或多条总线进行通信，本领域技术人员可以理解，图中示出的服务器的结构并不构成对本发明的限定，它既可以是总线形结构，也可以是星型结构，还可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。

其中，该存储器520可以用于存储处理器510的执行指令，存储器520可以由任何类型的易失性或非易失性存储终端或者它们的组合实现，如静态随机存取存储器(SRAM)，电可擦除可编程只读存储器(EEPROM)，可擦除可编程只读存储器(EPROM)，可编程只读存储器(PROM)，只读存储器(ROM)，磁存储器，快闪存储器，磁盘或光盘。当存储器520中的执行指令由处理器510执行时，使得终端500能够执行以下上述方法实施例中的部分或全部步骤。

处理器510为存储终端的控制中心，利用各种接口和线路连接整个电子终端的各个部分，通过运行或执行存储在存储器520内的软件程序和/或模块，以及调用存储在存储器内的数据，以执行电子终端的各种功能和/或处理数据。所述处理器可以由集成电路(Integrated Circuit，简称IC)组成，例如可以由单颗封装的IC所组成，也可以由连接多颗相同功能或不同功能的封装IC而组成。举例来说，处理器510可以仅包括中央处理器(Central Processing Unit，简称CPU)。在本发明实施方式中，CPU可以是单运算核心，也可以包括多运算核心。

通信单元530，用于建立通信信道，从而使所述存储终端可以与其它终端进行通信。接收其他终端发送的用户数据或者向其他终端发送用户数据。

本发明还提供一种计算机存储介质，其中，该计算机存储介质可存储有程序，该程序执行时可包括本发明提供的各实施例中的部分或全部步骤。所述的存储介质可为磁碟、光盘、只读存储记忆体(英文：read-only memory，简称：ROM)或随机存储记忆体(英文：random access memory，简称：RAM)等。

因此，本发明在训练任务开始之前，先将训练任务需要的数据集复制到缓存设备中，再将缓存设备中数据集的存储地址发送到相应容器，容器在执行训练任务时即可根据存储地址直接从缓存设备中读取相应数据集。相对于现有技术中从用户存储系统中读取数据集，本发明令容器从缓存设备中读取数据集，提高了数据集的读取速度，让数据集在训练任务开始之前就缓存到指定的设备上，以便训练任务开始之后可以高速的读取数据，避免了计算资源的“饥饿”状态，大大缩短算立案周期，也在很大程度提升了计算资源的利用率，本实施例所能达到的技术效果可以参见上文中的描述，此处不再赘述。

本领域的技术人员可以清楚地了解到本发明实施例中的技术可借助软件加必需的通用硬件平台的方式来实现。基于这样的理解，本发明实施例中的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中如U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质，包括若干指令用以使得一台计算机终端(可以是个人计算机，服务器，或者第二终端、网络终端等)执行本发明各个实施例所述方法的全部或部分步骤。

本说明书中各个实施例之间相同相似的部分互相参见即可。尤其，对于终端实施例而言，由于其基本相似于方法实施例，所以描述的比较简单，相关之处参见方法实施例中的说明即可。

在本发明所提供的几个实施例中，应该理解到，所揭露的系统和方法，可以通过其它的方式实现。例如，以上所描述的系统实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，系统或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本发明各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。

尽管通过参考附图并结合优选实施例的方式对本发明进行了详细描述，但本发明并不限于此。在不脱离本发明的精神和实质的前提下，本领域普通技术人员可以对本发明的实施例进行各种等效的修改或替换，而这些修改或替换都应在本发明的涵盖范围内/任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应所述以权利要求的保护范围为准。

Claims

1.一种深度学习数据集缓存方法，其特征在于，包括：

获取容器待执行的训练任务；

将数据集在缓存设备的存储地址挂载至相应容器；

所述将用户存储系统中的所述训练任务对应的数据集复制到缓存设备中，包括：

将所述对应的数据集复制到Beegfs；

对所述用户存储系统进行数据更新监控，若监控到存在数据更新，则将更新的数据同步更新至所述Beegfs；

或者，所述将用户存储系统中的所述训练任务对应的数据集复制到缓存设备中，包括：

获取节点上容器待执行任务所需的数据集；

从用户存储系统将所需数据集复制到节点配置的SSD；

将SSD中存储的数据集信息上传至管理节点备份。

2.根据权利要求1所述的方法，其特征在于，所述方法还包括：

获取容器最新接收的训练任务的相关数据集所需存储空间；

获取容器所在节点的SSD剩余存储空间：

3.一种深度学习数据集缓存系统，其特征在于，包括：

任务获取单元，配置用于获取容器待执行的训练任务；

地址挂载单元，配置用于将数据集在缓存设备的存储地址挂载至相应容器；

所述数据复制单元包括：

数据共享模块，配置用于将所述对应的数据集复制到Beegfs；同步更新模块，配置用于对所述用户存储系统进行数据更新监控，若监控到存在数据更新，则将更新的数据同步更新至所述Beegfs；

或者，所述数据复制单元包括：

4.根据权利要求3所述的系统，其特征在于，所述系统还包括：

5.一种终端，其特征在于，包括：

处理器；

用于存储处理器的执行指令的存储器；

其中，所述处理器被配置为执行权利要求1-2任一项所述的方法。

6.一种存储有计算机程序的计算机可读存储介质，其特征在于，该程序被处理器执行时实现如权利要求1-2中任一项所述的方法。