CN111966283A

CN111966283A - 一种基于企业级超算场景的客户端多级缓存方法及系统

Info

Publication number: CN111966283A
Application number: CN202010637952.XA
Authority: CN
Inventors: 吕冬冬; 陆阳
Original assignee: Unisound Intelligent Technology Co Ltd; Xiamen Yunzhixin Intelligent Technology Co Ltd
Current assignee: Unisound Intelligent Technology Co Ltd; Xiamen Yunzhixin Intelligent Technology Co Ltd
Priority date: 2020-07-06
Filing date: 2020-07-06
Publication date: 2020-11-20

Abstract

本发明提供了一种基于企业级超算场景的客户端多级缓存方法及系统，所述方法执行以下步骤：根据用户提交的训练任务，获取用户的UID和GID，对训练任务进行解析得到训练任务参数，在客户端创建相应的缓存目录；根据训练任务参数，按照优先级由高到低的顺序，从多级缓存中读取所需数据，多级缓存包括内存缓存、结合内存缓存与固定硬盘缓存的二级缓存和分布式存储系统；若为二级缓存，则将分布式存储系统中的数据同步缓存在与固态硬盘对应的缓存目录中。根据本发明的方法，采用多级缓存机制读取数据，灵活，加快深度学习模型训练速度，减轻分布式存储系统的压力；可减少客户端频繁的访问分布式存储系统，加快训练的速度，延长硬盘寿命，降低企业成本。

Description

一种基于企业级超算场景的客户端多级缓存方法及系统

技术领域

本发明涉及分布式技术领域，特别涉及一种基于企业级超算场景的客户端多级缓存方法及系统。

背景技术

目前，超算中心通常都需要配置海量的分布式存储系统，用于支持模型训练数据的存放，众多的计算节点通过网络访问同一个分布式存储系统。

超算训练场景下数据读取的特点是读多写少，而且允许有少量的数据丢失；另外，超算模型训练的数据大多是图片或者语音数据，这类数据的特点是都是小文件，在高并发的场景下，用于实现数据读写操作的IO模块成为了模型训练的瓶颈，模型训练成本增加，而高负载的IO频繁读取容易造成硬盘的损坏，增加了维护成本与经费成本，而且客户端与后端的存储的交互一般都是通过RPC(Remote Procedure Call，远程过程调用)通信，频繁的交互会增加服务端的压力。

发明内容

本发明提供一种基于企业级超算场景的客户端多级缓存方法及系统，用以通过多级缓存加快深度学习模型训练速度，减轻分布式存储压力。

本发明提供了一种基于企业级超算场景的客户端多级缓存方法，所述方法执行以下步骤：

步骤1：根据用户提交的训练任务，获取所述用户的UID和GID，并对所述训练任务进行解析，得到训练任务参数；

步骤2：根据所述用户的UID和GID，在客户端创建相应的缓存目录；

步骤3：根据所述训练任务参数，按照优先级由高到低的顺序，从多级缓存中读取所需数据，所述多级缓存包括内存缓存、同时使用内存缓存与固定硬盘缓存的二级缓存和分布式存储系统，且所述内存缓存的优先级最高，所述分布式存储系统的优先级最低；

步骤4：若所述多级缓存为所述二级缓存，则将所述分布式存储系统中的数据同步缓存在与客户端本地节点的固态硬盘对应的缓存目录中。

进一步地，在所述步骤4中，将所述分布式存储系统中的数据同步缓存在与客户端本地节点的固态硬盘对应的缓存目录中，执行以下步骤：

步骤S41：将缓存数据的所述缓存目录的开启标志位设置为true；

步骤S42：利用自动同步工具将所需数据同步缓存在与本地节点的固态硬盘对应的缓存目录中；

步骤S43：对缓存在所述固定硬盘上的缓存文件执行热点监控，根据监控结果对失效数据进行数据清理。

进一步地，在所述步骤S43中，所述失效数据包括以下数据中的至少一项：未被访问的时间超过预设时长、提交训练任务的用户的进程中断、应用程序或用户给出失效提示的缓存文件。

进一步地，在所述步骤S43中，所述根据监控结果对失效数据进行数据清理包括：

删除所述失效数据对应的缓存目录。

进一步地，所述步骤1：根据用户提交的训练任务，获取所述用户的UID和GID，执行以下步骤：

步骤S11：用户在客户端执行启动模型训练任务的训练命令；

步骤S12：在所述模型训练任务首次读取分布式存储系统中的数据时，读取提交训练任务的用户的UID和GID。

进一步地，在所述步骤S11中，所述用户在客户端执行启动任务训练命令包括：

用户在任务训练命令中设定用户的数据使用时间。

进一步地，所述步骤2：根据所述用户的UID和GID，在客户端创建相应的缓存目录包括：

步骤S21：根据所述用户的UID和GID，为所述用户在各自的客户端自动创建相应的缓存目录；

步骤S22：为每个用户的客户端对应的所述缓存目录设定相应的权限。

进一步地，在所述步骤3或所述步骤4之后，所述方法还包括以下步骤：

步骤5：执行模型的迭代训练任务。

本发明实施例提供的一种基于企业级超算场景的客户端多级缓存方法，具有以下有益效果：采用多级缓存机制读取数据，更加灵活自由，加快深度学习模型训练速度，减轻分布式存储系统的压力，优先使用本地的缓存能够有效的减少网络延迟，加快读取速度，而且针对深度学习模型训练场景的写一次读多次的情况，能够有效减少分布式存储系统的压力并且避免影响其他客户端读写数据；而且可以减少客户端频繁的访问分布式存储系统，加快了训练的速度，延长了硬盘的使用寿命，降低了企业的成本。

本发明还提供一种基于企业级超算场景的客户端多级缓存系统，包括：

获取模块，用于根据用户提交的训练任务，获取所述用户的UID和GID，并对所述训练任务进行解析，得到训练任务参数；

缓存目录创建模块，用于根据所述用户的UID和GID，在客户端创建相应的缓存目录；

多级缓存模块，用于根据所述训练任务参数，按照优先级由高到低的顺序，从多级缓存中读取所需数据，所述多级缓存包括内存缓存、同时使用内存缓存与固定硬盘缓存的二级缓存和分布式存储系统，且所述内存缓存的优先级最高，所述分布式存储系统的优先级最低；

同步缓存模块，用于在所述多级缓存为所述二级缓存时，则将所述分布式存储系统中的数据同步缓存在与客户端本地节点的固态硬盘对应的缓存目录中。

进一步地，所述同步缓存模块包括：

开启标志位设置单元，用于将缓存数据的所述缓存目录的开启标志位设置为true；

同步缓存单元，用于利用自动同步工具将所需数据同步缓存在与本地节点的固态硬盘对应的缓存目录中；

数据清理单元，用于对缓存在所述固定硬盘上的缓存文件执行热点监控，根据监控结果对失效数据进行数据清理。

本发明实施例提供的一种基于企业级超算场景的客户端多级缓存系统，具有以下有益效果：多级缓存模块采用多级缓存机制读取数据，更加灵活自由，加快深度学习模型训练速度，减轻分布式存储系统的压力，优先使用本地的缓存能够有效的减少网络延迟，加快读取速度，而且针对深度学习模型训练场景的写一次读多次的情况，能够有效减少分布式存储系统的压力并且避免影响其他客户端读写数据；而且同步缓存模块可以减少客户端频繁的访问分布式存储系统，加快了训练的速度，延长了硬盘的使用寿命，降低了企业的成本。

本发明的其它特征和优点将在随后的说明书中阐述，并且，部分地从说明书中变得显而易见，或者通过实施本发明而了解。本发明的目的和其他优点可通过在所写的说明书、权利要求书、以及附图中所特别指出的结构来实现和获得。

下面通过附图和实施例，对本发明的技术方案做进一步的详细描述。

附图说明

附图用来提供对本发明的进一步理解，并且构成说明书的一部分，与本发明的实施例一起用于解释本发明，并不构成对本发明的限制。在附图中：

图1为本发明实施例中一种基于企业级超算场景的客户端多级缓存方法的流程示意图；

图2为本发明实施例中一种基于企业级超算场景的客户端多级缓存系统的框图。

具体实施方式

以下结合附图对本发明的优选实施例进行说明，应当理解，此处所描述的优选实施例仅用于说明和解释本发明，并不用于限定本发明。

本发明实施例提供了一种基于企业级超算场景的客户端多级缓存方法，如图1所示，所述方法执行以下步骤：

上述技术方案的工作原理为：采用多级缓存机制，用户可以自由的根据自己的训练任务参数，优先选择使用速度最快的内存缓存进行数据交互，当内存缓存不足时则选择将内存缓存与客户端本地节点的固态硬盘(Solid State Drive，SSD)缓存相结合的二级缓存，如果数据量很大时则选择从分布式存储系统中加载数据，二级缓存的速度介于内存缓存和分布式存储系统之间。训练任务参数例如可以包括训练任务所采用的程序、框架、数据存储目录、生成文件的存储位置、训练任务的数据量大小、训练任务的紧急程度等。

在采用二级缓存读取数据时，将分布式存储系统中的数据同步缓存在与客户端本地节点的固态硬盘对应的缓存目录中，这样可以减少客户端频繁的访问分布式存储系统，加快了训练的速度，延长了硬盘的使用寿命，降低了企业的成本。

在内核中通过current_uid()和current_gid()接口函数获取当前创建内核文件进程的UID(用户身份的内核表示)和GID(用户组身份的内核表示)，当前用户的UID和GID就是当前创建内核文件进程的UID和GID。

上述技术方案的有益效果为：采用多级缓存机制读取数据，更加灵活自由，加快深度学习模型训练速度，减轻分布式存储系统的压力，优先使用本地的缓存能够有效的减少网络延迟，加快读取速度，而且针对深度学习模型训练场景的写一次读多次的情况，能够有效减少分布式存储系统的压力并且避免影响其他客户端读写数据；而且可以减少客户端频繁的访问分布式存储系统，加快了训练的速度，延长了硬盘的使用寿命，降低了企业的成本。

在一个实施例中，在所述步骤4中，将所述分布式存储系统中的数据同步缓存在与客户端本地节点的固态硬盘对应的缓存目录中，执行以下步骤：

上述技术方案的工作原理为：通过步骤S41，可以对进行缓存数据的缓存目录进行标记。

步骤S42中的自动同步工具的作用是将分布式存储上的文件镜像拷贝到了本地的固态硬盘上，类似于linux上的rsync工具。具体地，可以通过策略引擎启动自动同步工具。

在所述步骤S43中，所述失效数据包括以下数据中的至少一项：未被访问的时间超过预设时长、提交训练任务的用户的进程中断、应用程序或用户给出失效提示的缓存文件。

在所述步骤S43中，所述根据监控结果对失效数据进行数据清理包括：删除所述失效数据对应的缓存目录，这样可以节约存储空间。

上述技术方案的有益效果为：提供了将分布式存储系统中的数据同步缓存在与客户端本地节点的固态硬盘对应的缓存目录中的具体步骤，可以减少客户端频繁的访问分布式存储系统，通过热点监控以及数据清理步骤，可以节约存储空间。

在一个实施例中，所述步骤1：根据用户提交的训练任务，获取所述用户的UID和GID，执行以下步骤：

步骤S11：用户在客户端执行启动模型训练任务的训练命令；

上述技术方案的工作原理为：在所述步骤S11中，所述用户在客户端执行启动任务训练命令包括：用户在任务训练命令中设定用户的数据使用时间。在用户设定数据使用时间的情况下，根据未被访问的时间超过预设时长判断缓存文件是否为失效数据，用户设定的数据使用时间则为预设时长，预设时长例如为半小时，需要说明的是，本发明对预设时长不作限制。

当然，本发明在其他实施方式中，用户也可以不设定数据使用时间。在用户未设定数据使用时间的情况下，则根据提交训练任务的用户的进程是否中断、应用程序或用户是否给出失效提示等来判断缓存文件是否为失效数据。

在所述模型训练任务首次读取分布式存储系统中的数据时，通过策略引擎读取提交训练任务的用户的UID和GID。

上述技术方案的有益效果为：提供了获取用户的UID和GID的具体步骤。

在一个实施例中，所述步骤2：根据所述用户的UID和GID，在客户端创建相应的缓存目录包括：

上述技术方案的工作原理为：可以通过策略引擎根据用户的UID与GID，自动创建相应的缓存目录并设定相应的权限，这样可以对不同用户之间的目录权限进行控制，保证将数据缓存在该用户对应的缓存目录中，提高了数据的安全性。

上述技术方案的有益效果为：提供了在客户端创建相应的缓存目录的具体步骤，通过为每个用户的客户端对应的所述缓存目录设定相应的权限，可以提高数据的安全性。

在一个实施例中，在所述步骤3或所述步骤4之后，所述方法还包括以下步骤：

步骤5：执行模型的迭代训练任务。

上述技术方案的工作原理为：在采用的多级缓存为内存缓存或分布式存储系统的情况下，在读取数据结束后，则开始模型的迭代训练任务；在采用的多级缓存为二级缓存的情况下，将所述分布式存储系统中的数据同步缓存在与客户端本地节点的固态硬盘对应的缓存目录中后，即在完成数据同步后，开始模型的迭代训练任务。

上述技术方案的有益效果为：由于采用了多级缓存机制，在迭代训练任务中，可以有效的较少网络延迟，加快训练速度，而且针对深度学习模型训练场景的写一次读多次的情况，能够有效的减少分布式存储的压力并且避免影响其他客户端读写数据；另外，由于将分布式存储系统中的数据同步缓存在与客户端本地节点的固态硬盘对应的缓存目录中，可以减少客户端频繁的访问分布式存储系统，加快了训练的速度，延长了硬盘的使用寿命，降低了企业的成本。

如图2所示，本发明实施例提供了一种基于企业级超算场景的客户端多级缓存系统，包括：

获取模块201，用于根据用户提交的训练任务，获取所述用户的UID和GID，并对所述训练任务进行解析，得到训练任务参数；

缓存目录创建模块202，用于根据所述用户的UID和GID，在客户端创建相应的缓存目录；

多级缓存模块203，用于根据所述训练任务参数，按照优先级由高到低的顺序，从多级缓存中读取所需数据，所述多级缓存包括内存缓存、同时使用内存缓存与固定硬盘缓存的二级缓存和分布式存储系统，且所述内存缓存的优先级最高，所述分布式存储系统的优先级最低；

同步缓存模块204，用于在所述多级缓存为所述二级缓存时，则将所述分布式存储系统中的数据同步缓存在与客户端本地节点的固态硬盘对应的缓存目录中。

上述技术方案的工作原理为：采用多级缓存机制，用户可以自由的根据自己的训练任务参数，优先选择使用速度最快的内存缓存进行数据交互，当内存缓存不足时则选择将内存缓存与客户端本地节点的SSD固态硬盘(Solid State Drive，SSD)缓存相结合的二级缓存，如果数据量很大时则选择从分布式存储系统中加载数据，二级缓存的速度介于内存缓存和分布式存储系统之间。训练任务参数例如可以包括训练任务所采用的程序、数据存储目录、生成文件的存储位置、训练任务的数据量大小、训练任务的紧急程度等。

本发明的获取模块201根据用户提交的训练任务，获取所述用户的UID和GID，并对所述训练任务进行解析，得到训练任务参数；缓存目录创建模块202，根据所述用户的UID和GID，在客户端创建相应的缓存目录；多级缓存模块203根据所述训练任务参数，按照优先级由高到低的顺序，从多级缓存中读取所需数据，所述多级缓存包括内存缓存、同时使用内存缓存与固定硬盘缓存的二级缓存和分布式存储系统，且所述内存缓存的优先级最高，所述分布式存储系统的优先级最低；同步缓存模块204在所述多级缓存为所述二级缓存时，则将所述分布式存储系统中的数据同步缓存在与客户端本地节点的固态硬盘对应的缓存目录中。

在采用二级缓存读取数据时，同步缓存模块204将分布式存储系统中的数据同步缓存在与客户端本地节点的固态硬盘对应的缓存目录中，这样可以减少客户端频繁的访问分布式存储系统，加快了训练的速度，延长了硬盘的使用寿命，降低了企业的成本。

上述技术方案的有益效果为：多级缓存模块采用多级缓存机制读取数据，更加灵活自由，加快深度学习模型训练速度，减轻分布式存储系统的压力，优先使用本地的缓存能够有效的减少网络延迟，加快读取速度，而且针对深度学习模型训练场景的写一次读多次的情况，能够有效减少分布式存储系统的压力并且避免影响其他客户端读写数据；而且同步缓存模块可以减少客户端频繁的访问分布式存储系统，加快了训练的速度，延长了硬盘的使用寿命，降低了企业的成本。

在一个实施例中，所述同步缓存模块204包括：

上述技术方案的工作原理为：通过开启标志位设置单元，可以对进行缓存数据的缓存目录进行标记；同步缓存单元所利用的自动同步工具的作用是将分布式存储上的文件镜像拷贝到了本地的固态硬盘上，类似于linux上的rsync工具。具体地，可以通过策略引擎启动自动同步工具。

所述清理单元所清理的所述失效数据包括以下数据中的至少一项：未被访问的时间超过预设时长、提交训练任务的用户的进程中断、应用程序或用户给出失效提示的缓存文件。

清理单元包括删除子单元，用于删除所述失效数据对应的缓存目录，这样可以节约存储空间。

上述技术方案的有益效果为：借助于开启标志位设置单元、同步缓存单元以及数据清理单元，可以将分布式存储系统中的数据同步缓存在与客户端本地节点的固态硬盘对应的缓存目录中，这样可以减少客户端频繁的访问分布式存储系统，并节约存储空间。

显然，本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样，倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内，则本发明也意图包含这些改动和变型在内。

Claims

1.一种基于企业级超算场景的客户端多级缓存方法，其特征在于，所述方法执行以下步骤：

2.如权利要求1所述的方法，其特征在于，在所述步骤4中，将所述分布式存储系统中的数据同步缓存在与客户端本地节点的固态硬盘对应的缓存目录中，执行以下步骤：

3.如权利要求2所述的方法，其特征在于，在所述步骤S43中，所述失效数据包括以下数据中的至少一项：未被访问的时间超过预设时长、提交训练任务的用户的进程中断、应用程序或用户给出失效提示的缓存文件。

4.如权利要求2所述的方法，其特征在于，在所述步骤S43中，所述根据监控结果对失效数据进行数据清理包括：

删除所述失效数据对应的缓存目录。

5.如权利要求1所述的方法，其特征在于，所述步骤1：根据用户提交的训练任务，获取所述用户的UID和GID，执行以下步骤：

步骤S11：用户在客户端执行启动模型训练任务的训练命令；

6.如权利要求5所述的方法，其特征在于，在所述步骤S11中，所述用户在客户端执行启动任务训练命令包括：

用户在任务训练命令中设定用户的数据使用时间。

7.如权利要求1所述的方法，其特征在于，所述步骤2：根据所述用户的UID和GID，在客户端创建相应的缓存目录包括：

8.如权利要求1所述的方法，其特征在于，在所述步骤3或所述步骤4之后，所述方法还包括以下步骤：

步骤5：执行模型的迭代训练任务。

9.一种基于企业级超算场景的客户端多级缓存系统，其特征在于，包括：

10.如权利要求9所述的系统，其特征在于，所述同步缓存模块包括：