CN112214310B

CN112214310B - 一种数据集缓存排队的方法和装置

Info

Publication number: CN112214310B
Application number: CN202010942263.XA
Authority: CN
Inventors: 邢良占
Original assignee: Suzhou Inspur Intelligent Technology Co Ltd
Current assignee: Suzhou Inspur Intelligent Technology Co Ltd
Priority date: 2020-09-09
Filing date: 2020-09-09
Publication date: 2022-08-02
Anticipated expiration: 2040-09-09
Also published as: CN112214310A

Abstract

本发明公开了一种数据集缓存排队的方法，包括：通过创建的资源池为每个训练任务分配相应的资源空间；为每个训练任务分配一个线程池，根据训练任务的数据集缓存配置相应的线程池的线程；将每个线程池配置为同一时刻只运行线程池中的一个线程；下载每个训练任务中运行的线程中的数据集缓存；响应于训练任务的所有数据集缓存全部下载完成，回收训练任务对应的线程池，并回收资源池中训练任务对应的资源空间。本发明还公开了一种相应的装置。本发明可以实现高效的数据集缓存能力，避免因为某个训练任务的某个数据集缓存耗时太长导致其他训练任务的数据集缓存进程长时间等待。

Description

一种数据集缓存排队的方法和装置

技术领域

本发明涉及计算机技术领域，更具体地，特别是指一种数据集缓存排队的方法和装置。

背景技术

目前，以深度学习为代表的人工智能技术取得了飞速的发展，这些技术正落地应用于各行各业。随着深度学习的广泛应用，很多领域产生了大量的、强烈的高效便捷训练人工智能模型方面的需求，而这些训练都是依赖于数据集，这些数据集小则几百G，大的甚至几T、几十T，甚至是PB级别的，这些数据大部分都是存储在私有的数据中心中，这些用户希望在构建私有的人工智能训练平台时，可以直接使用这些数据集数据，然而这种“私有存储+集群训练”的训练模式加剧了计算存储分离架构带来的远程数据访问的性能影响。计算存储分离这种基本架构虽然可以为计算资源和存储资源的配置和扩展带来更高的灵活性，但是如果从数据访问效率的角度来看，由于受限于网络传输带宽，用户在不经调优的情况下，简单使用这种架构通常会遇到模型训练性能下降的问题。

目前业界主要通过几种方式来实现训练任务加载数据集，一种是通过将数据集加载到内存中，一种是通过提高网络带宽，加速数据集远程访问，最后一种是将数据集缓存到每个节点的ssd中，当任务训练时直接读取本地磁盘的方式。针对最后一种情况，在目前的技术中，大多是通过对所有调度到某个节点的训练任务中所有数据集缓存的请求进行排队处理，这种排队策略会导致后续的训练任务的数据集缓存请求一直处于排队中，

发明内容

有鉴于此，本发明实施例的目的在于提供一种排队策略，可以实现按照训练任务作为一个单元进行排队，不管新建多少个训练任务，都能保证每个训练任务都有一个数据集在缓存。

基于上述目的，本发明一方面提供了一种数据集缓存排队的方法，该方法包括：

通过创建的资源池为每个训练任务分配相应的资源空间；

为每个训练任务分配一个线程池，根据训练任务的数据集缓存配置相应的线程池的线程；

将每个线程池配置为同一时刻只运行线程池中的一个线程；

下载每个训练任务中运行的线程中的数据集缓存；

响应于训练任务的所有数据集缓存全部下载完成，回收训练任务对应的线程池，并回收资源池中训练任务对应的资源空间。

在本发明的数据集缓存排队的方法的一些实施方式中，方法还包括：

通过创建的监控进程实时监控资源池中的训练任务，通过创建的资源池管理训练任务。

响应于接收到执行训练任务的请求，判断资源池中是否包含训练任务对应的资源空间；

响应于判断资源池中未包含训练任务对应的资源空间，在资源池中创建新的资源空间分配给训练任务。

将线程池中的若干线程配置为按照先进先出的顺序排队。

在本发明的数据集缓存排队的方法的一些实施方式中，为每个训练任务分配一个线程池，根据训练任务的数据集缓存配置相应的线程池的线程还包括：

将训练任务按照数据集缓存拆分为数据集下载任务的队列，并顺序将数据集下载任务发送至线程池中。

在本发明的数据集缓存排队的方法的一些实施方式中，将每个线程池配置为同一时刻只运行线程池中的一个线程还包括：

将数据集下载任务入栈至线程池中，将线程池的核心线程数配置为1。

在本发明的数据集缓存排队的方法的一些实施方式中，下载每个训练任务中运行的线程中的数据集缓存还包括：

响应于数据集下载任务出栈，调用底层的公用基础组件下载数据集缓存。

本发明实施例的另一方面，还提供了一种数据集缓存排队的装置，该装置包括：

资源空间分配模块，资源空间分配模块配置为通过创建的资源池为每个训练任务分配相应的资源空间；

线程池配置模块，线程池配置模块配置为为每个训练任务分配一个线程池，根据训练任务的数据集缓存配置相应的线程池的线程；

线程池运行模块，线程池运行模块配置为将每个线程池配置为同一时刻只运行线程池中的一个线程；

数据集缓存下载模块，数据集缓存下载模块配置为下载每个训练任务中运行的线程中的数据集缓存；

回收模块，回收模块配置为响应于训练任务的所有数据集缓存全部下载完成，回收训练任务对应的线程池，并回收资源池中训练任务对应的资源空间。

在本发明的数据集缓存排队的装置的一些实施方式中，装置还包括：

监控管理模块，监控管理模块配置为通过创建的监控进程实时监控资源池中的训练任务，通过创建的资源池管理训练任务。

资源空间判断模块，资源空间判断模块配置为响应于接收到执行训练任务的请求，判断资源池中是否包含训练任务对应的资源空间；响应于判断资源池中未包含训练任务对应的资源空间，在资源池中创建新的资源空间分配给训练任务。

本发明至少具有以下有益技术效果：适用于每个训练任务依赖多个数据集的场景，解决了这种多任务多数据集在同一个节点的公平性问题，当训练任务成功调度到某个节点后，在节点上进行数据集缓存时，可以实现高效的数据集缓存能力，避免因为某个训练任务的某个数据集缓存耗时太长导致其他训练任务的数据集缓存进程长时间等待，造成部分训练任务的训练时间的浪费、资源的浪费，可提高数据集缓存到本地的效率以及用户体验，保证每个训练任务都有数据集缓存在下载。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的实施例。

图1示出了根据本发明的数据集缓存排队的方法的实施例的示意性框图；

图2示出了根据本发明的数据集缓存排队的方法的实施例的结构性示意图；

图3示出了根据本发明的数据集缓存排队的方法的实施例的线程池的运行示意图；

图4示出了根据本发明的数据集缓存排队的方法的实施例的线程池的监控进程示意图；

图5示出了根据本发明的数据集缓存排队的装置的实施例的示意性框图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚明白，以下结合具体实施例，并参照附图，对本发明实施例进一步详细说明。

需要说明的是，本发明实施例中所有使用“第一”和“第二”的表述均是为了区分两个相同名称非相同的实体或者非相同的参量，可见“第一”和“第二”仅为了表述的方便，不应理解为对本发明实施例的限定，后续实施例对此不再一一说明。

基于上述目的，本发明实施例的第一个方面，提出了一种数据集缓存排队的方法的实施例。图1示出的是根据本发明的数据集缓存排队的方法的实施例的示意性框图。如图1所示的实施例中，该方法至少包括如下步骤：

S100、通过创建的资源池为每个训练任务分配相应的资源空间；

S200、为每个训练任务分配一个线程池，根据训练任务的数据集缓存配置相应的线程池的线程；

S300、将每个线程池配置为同一时刻只运行线程池中的一个线程；

S400、下载每个训练任务中运行的线程中的数据集缓存；

S500、响应于训练任务的所有数据集缓存全部下载完成，回收训练任务对应的线程池，并回收资源池中训练任务对应的资源空间。

在本发明的一些实施例中，图2示出的是根据本发明的数据集缓存排队的方法的实施例的结构性示意图，如图2所示，本发明主要用于提供一种深度学习训练平台的数据集缓存排队策略，当训练任务成功调度到某个节点后，在节点上进行数据集缓存时，通过数据集缓存排队策略，可以实现高效的数据集缓存能力，避免因为某个训练任务的某个数据集缓存耗时太长导致其他训练任务的数据集缓存进程长时间等待，造成部分训练任务的训练时间的浪费、资源的浪费。具体地，当接收到一个新的训练任务时，会在系统级别的资源池中分配一个资源空间给这个任务，在这个资源空间中维护这个训练任务；为每个训练任务分配一个线程池，管理这个训练任务的所有数据集缓存请求，保证每次只有一个线程在运行，其他的线程在排队；最终实现，每个训练任务都有一个数据集缓存的线程在运行，训练任务的数据集缓存结束后回收线程池，回收资源池中的资源。

根据本发明的数据集缓存排队的方法的一些实施方式，方法还包括：

在本发明的一些实施例中，图4示出的是根据本发明的数据集缓存排队的方法的实施例的线程池的监控进程示意图，如图4所示，通过创建一个系统级别的资源池管理所有的需要进行数据集缓存的训练任务，启动一个监控线程，实时监控资源池中所有的训练任务的数据集缓存信息，如果发现某个任务的资源空间已经处理完成，将回收训练任务在资源池中的数据，释放资源空间。

在本发明的一些实施例中，收到训练任务的请求，任务资源池模块开始处理，判断资源池中是否存在该训练任务的资源空间，如果不存在，任务资源池模块在资源池中创建一块资源空间并分配给该训练任务。根据数据集缓存的信息，判断训练任务的数据集缓存是否已经完成，如果已经完成，需要将该训练任务从资源池中清除。

将线程池中的若干线程配置为按照先进先出的顺序排队。

在本发明的一些实施例中，图3示出的是根据本发明的数据集缓存排队的方法的实施例的线程池的运行示意图，如图3所示，为每个训练任务分配一个线程池，管理这个训练任务的所有数据集缓存请求，按照先进先出的顺序进行排队，保证每次只有一个线程在运行，其他的线程在排队。

根据本发明的数据集缓存排队的方法的一些实施方式，为每个训练任务分配一个线程池，根据训练任务的数据集缓存配置相应的线程池的线程还包括：

在本发明的一些实施例中，任务资源池模块为任务分配资源空间，为任务创建一个线程池，同时将数据集拆分为数据集下载任务队列，将数据集下载任务push(发送)到线程池中。

根据本发明的数据集缓存排队的方法的一些实施方式，将每个线程池配置为同一时刻只运行线程池中的一个线程还包括：

在本发明的一些实施例中，设置核心线程数为1，即保证每次只有一个线程在运行，其他的线程在排队。

根据本发明的数据集缓存排队的方法的一些实施方式，下载每个训练任务中运行的线程中的数据集缓存还包括：

在本发明的一些实施例中，数据集下载池模块收到任务资源池模块自动出栈的数据集下载任务，开始调用底层CBB(common building blocks，公用组件，可重用组件)组件下载数据集。

本发明实施例的另一方面，提出了一种数据集缓存排队的装置的实施例。图5示出的是根据本发明的数据集缓存排队的装置的实施例的示意性框图，如图5所示，该装置101包括：

资源空间分配模块11，资源空间分配模块配置为通过创建的资源池为每个训练任务分配相应的资源空间；

线程池配置模块12，线程池配置模块配置为为每个训练任务分配一个线程池，根据训练任务的数据集缓存配置相应的线程池的线程；

线程池运行模块13，线程池运行模块配置为将每个线程池配置为同一时刻只运行线程池中的一个线程；

数据集缓存下载模块14，数据集缓存下载模块配置为下载每个训练任务中运行的线程中的数据集缓存；

回收模块15，回收模块配置为响应于训练任务的所有数据集缓存全部下载完成，回收训练任务对应的线程池，并回收资源池中训练任务对应的资源空间。

根据本发明的数据集缓存排队的装置的一些实施方式，装置还包括：

同样地，本领域技术人员应当理解，以上针对根据本发明的数据集缓存排队的方法阐述的所有实施方式、特征和优势同样地适用于根据本发明的装置。为了本公开的简洁起见，在此不再重复阐述。

需要特别指出的是，本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，可以通过计算机程序来指令相关硬件来完成，数据集缓存排队的方法的程序可存储于一计算机可读取存储介质中，该程序在执行时，可包括如上述各方法的实施例的流程。其中，程序的存储介质可为磁碟、光盘、只读存储记忆体(ROM)或随机存储记忆体(RAM)等。上述计算机程序的实施例，可以达到与之对应的前述任意方法实施例相同或者相类似的效果。

本领域技术人员还将明白的是，结合这里的公开所描述的各种示例性逻辑块、模块、电路和算法步骤可以被实现为电子硬件、计算机软件或两者的组合。为了清楚地说明硬件和软件的这种可互换性，已经就各种示意性组件、方块、模块、电路和步骤的功能对其进行了一般性的描述。这种功能是被实现为软件还是被实现为硬件取决于具体应用以及施加给整个系统的设计约束。本领域技术人员可以针对每种具体应用以各种方式来实现的功能，但是这种实现决定不应被解释为导致脱离本发明实施例公开的范围。

应当理解的是，在本文中使用的，除非上下文清楚地支持例外情况，单数形式“一个”旨在也包括复数形式。还应当理解的是，在本文中使用的“和/或”是指包括一个或者一个以上相关联地列出的项目的任意和所有可能组合。

上述本发明实施例公开实施例序号仅仅为了描述，不代表实施例的优劣。

所属领域的普通技术人员应当理解：以上任何实施例的讨论仅为示例性的，并非旨在暗示本发明实施例公开的范围(包括权利要求)被限于这些例子；在本发明实施例的思路下，以上实施例或者不同实施例中的技术特征之间也可以进行组合，并存在如上的本发明实施例的不同方面的许多其它变化，为了简明它们没有在细节中提供。因此，凡在本发明实施例的精神和原则之内，所做的任何省略、修改、等同替换、改进等，均应包含在本发明实施例的保护范围之内。

Claims

1.一种数据集缓存排队的方法，其特征在于，所述方法包括：

通过创建的资源池为每个训练任务分配相应的资源空间；

为每个所述训练任务分配一个线程池，根据所述训练任务的数据集缓存配置相应的所述线程池的线程；

将每个所述线程池配置为同一时刻只运行所述线程池中的一个所述线程；

下载每个所述训练任务中运行的所述线程中的所述数据集缓存；

响应于所述训练任务的所有所述数据集缓存全部下载完成，回收所述训练任务对应的所述线程池，并回收所述资源池中所述训练任务对应的所述资源空间。

2.根据权利要求1所述的数据集缓存排队的方法，其特征在于，所述方法还包括：

通过创建的监控进程实时监控所述资源池中的所述训练任务，通过创建的所述资源池管理所述训练任务。

3.根据权利要求1所述的数据集缓存排队的方法，其特征在于，所述方法还包括：

响应于接收到执行所述训练任务的请求，判断所述资源池中是否包含所述训练任务对应的所述资源空间；

响应于判断所述资源池中未包含所述训练任务对应的所述资源空间，在所述资源池中创建新的资源空间分配给所述训练任务。

4.根据权利要求1所述的数据集缓存排队的方法，其特征在于，所述方法还包括：

将所述线程池中的若干所述线程配置为按照先进先出的顺序排队。

5.根据权利要求1所述的数据集缓存排队的方法，其特征在于，所述为每个所述训练任务分配一个线程池，根据所述训练任务的数据集缓存配置相应的所述线程池的线程还包括：

将所述训练任务按照所述数据集缓存拆分为数据集下载任务的队列，并顺序将所述数据集下载任务发送至所述线程池中。

6.根据权利要求5所述的数据集缓存排队的方法，其特征在于，所述将每个所述线程池配置为同一时刻只运行所述线程池中的一个所述线程还包括：

将所述数据集下载任务入栈至所述线程池中，将所述线程池的核心线程数配置为1。

7.根据权利要求5所述的数据集缓存排队的方法，其特征在于，所述下载每个训练任务中运行的线程中的数据集缓存还包括：

响应于所述数据集下载任务出栈，调用底层的公用基础组件下载所述数据集缓存。

8.一种数据集缓存排队的装置，其特征在于，所述装置包括：

资源空间分配模块，所述资源空间分配模块配置为通过创建的资源池为每个训练任务分配相应的资源空间；

线程池配置模块，所述线程池配置模块配置为为每个所述训练任务分配一个线程池，根据所述训练任务的数据集缓存配置相应的所述线程池的线程；

线程池运行模块，所述线程池运行模块配置为将每个所述线程池配置为同一时刻只运行所述线程池中的一个所述线程；

数据集缓存下载模块，所述数据集缓存下载模块配置为下载每个所述训练任务中运行的所述线程中的所述数据集缓存；

回收模块，所述回收模块配置为响应于所述训练任务的所有所述数据集缓存全部下载完成，回收所述训练任务对应的所述线程池，并回收所述资源池中所述训练任务对应的所述资源空间。

9.根据权利要求8所述的数据集缓存排队的装置，其特征在于，所述装置还包括：

监控管理模块，所述监控管理模块配置为通过创建的监控进程实时监控所述资源池中的所述训练任务，通过创建的所述资源池管理所述训练任务。

10.根据权利要求8所述的数据集缓存排队的装置，其特征在于，所述装置还包括：

资源空间判断模块，所述资源空间判断模块配置为响应于接收到执行所述训练任务的请求，判断所述资源池中是否包含所述训练任务对应的所述资源空间；响应于判断所述资源池中未包含所述训练任务对应的所述资源空间，在所述资源池中创建新的资源空间分配给所述训练任务。