CN115016735A

CN115016735A - 一种分布式缓存系统的控制方法、装置及介质

Info

Publication number: CN115016735A
Application number: CN202210611185.4A
Authority: CN
Inventors: 荆荣讯; 陈培
Original assignee: Suzhou Inspur Intelligent Technology Co Ltd
Current assignee: Suzhou Inspur Intelligent Technology Co Ltd
Priority date: 2022-05-31
Filing date: 2022-05-31
Publication date: 2022-09-06
Anticipated expiration: 2042-05-31

Abstract

本申请涉及深度学习技术领域，公开了一种分布式缓存系统的控制方法、装置及介质，包括：将各计算节点进行分组，分组后各计算节点组中计算节点间距离小于预设值，其中，距离包括物理距离和网络距离，并为各计算节点组创建分布式缓存系统。获取待训练任务的数据集参数，其中，数据集参数包括待训练数据集名称、待训练数据集在存储系统中的存储路径和所需计算节点个数，将数据集参数和各分布式存储系统进行匹配果以提取目标计算节点组。由此，因各计算节点组的计算节点间距离相近，保证了计算节点间数据读取效率，且根据数据集参数与各分布式缓存系统的匹配结果，可直接从分布式缓存系统中提取待训练数据集，进一步提升数据读取效率。

Description

一种分布式缓存系统的控制方法、装置及介质

技术领域

本申请涉及深度学习技术领域，特别是涉及一种分布式缓存系统的控制方法、装置及介质。

背景技术

随着人工智能的快速发展，各行业正迅速的进行智能化改造。作为人工智能代表的深度学习技术，在各领域有着大量的需求。面对更大的数据集规模和更快的数据集读写效率以提高深度学习训练效果的需求，目前，通常使用缓存技术提高深度学习技术的数据读取效率，其中，主要使用的缓存技术为单机本地缓存和分布式缓存系统。

单机本地缓存：在深度学习训练任务发起后，将数据集全量下载至机器本地节点，训练任务时使用本地缓存的数据集。这样的缓存技术无法缓存超过单机存储容量的数据集，即存储容量有限。此外，多台服务器的训练任务会在多个节点同时下载同一份数据集，进而对底层存储系统产生较大的压力。

分布式缓存系统：在底层存储系统和深度学习训练集群间搭建一套分布式缓存系统用于缓存数据集。采用分布式缓存系统缓存数据集时，可以缓存超过单机存储容量的数据集，且仅需底层存储系统缓存一次数据即可。但是，由于训练的各计算节点间存在网络距离较远的情况，由此导致计算节点间数据交互效率低。此外，训练的计算节点与分布式缓存数据的存储节点间的网络距离过长，进而存在一定的时延导致数据使用效率低，即数据读取效率低。

由此可见，如何保证存储容量的同时，提高深度学习训练的数据读取效率，进而提升深度学习训练的效果，是本领域技术人员亟待解决的问题。

发明内容

本申请的目的是提供一种分布式缓存系统的控制方法、装置及介质，减少存储空间使用的同时，提高深度学习训练时的数据读取效率，进而提升深度学习的效果。

为解决上述技术问题，本申请提供一种分布式缓存系统的控制方法，包括：

系统启动后，将深度学习训练平台中各计算节点进行分组得到计算节点组；其中，各所述计算节点组中各计算节点之间的距离小于预设值，所述距离包括物理距离和网络距离；

为各所述计算节点组创建分布式缓存系统；

获取深度学习待训练任务的数据集参数；其中，所述数据集参数包括待训练数据集名称、待训练数据集在存储系统中的存储路径和所需计算节点个数；

依据所述数据集参数与各所述分布式缓存系统的匹配结果提取目标计算节点组。

优选地，所述依据所述数据集参数与各所述分布式缓存系统的匹配结果提取目标计算节点组包括：

判断各所述分布式缓存系统中是否存在已缓存所述待训练数据集的分布式缓存系统；

若存在，确定已缓存所述待训练数据集的各所述分布式缓存系统中是否存在对应计算节点数大于或等于所述所需计算节点个数的目标分布式缓存系统，若存在所述目标分布式缓存系统，则提取所述目标分布式缓存系统对应的所述计算节点组作为所述目标计算节点组；

若不存在，确定各所述计算节点组中是否存在计算节点数大于或等于所述所需计算节点个数的所述目标计算节点组，若存在所述目标计算节点组，则依据所述待训练数据集在存储系统中的存储路径将所述待训练数据集缓存至所述目标计算节点组对应的分布式缓存系统中，以便提取所述目标计算节点组。

优选地，若已缓存所述待训练数据集的各所述分布式缓存系统中不存在对应计算节点数大于或等于所述所需计算节点个数的目标分布式缓存系统，还包括：

将已缓存所述待训练数据集的各所述分布式缓存系统所对应的计算节点组按照所述物理距离和/或所述网络距离进行合并，直至节点数大于或等于所述所需计算节点个数为止；

对合并后产生的新的计算节点组创建对应的分布式缓存系统作为所述目标分布式缓存系统，并将所述目标分布式缓存系统对应的所述计算节点组作为所述目标计算节点组。

优选地，若各所述计算节点组中不存在计算节点数大于或等于所述所需计算节点个数的所述目标计算节点组，还包括：

将各所述计算节点组按照所述物理距离和/或所述网络距离进行合并，直至节点数大于或等于所述所需计算节点个数为止；

对合并后得到的所述目标计算节点组创建对应的分布式缓存系统，并依据所述待训练数据集在存储系统中的存储路径将所述待训练数据集缓存至所述目标计算节点组对应的分布式缓存系统中，以便提取所述目标计算节点组。

优选地，在所述依据所述数据集参数与各所述分布式缓存系统的匹配结果提取目标计算节点组之后还包括：

将所述深度学习待训练任务调度至所述目标计算节点组对应的计算节点中；

提取所述目标计算节点组对应分布式缓存系统中的数据集进行训练；

存储各所述分布式缓存系统对应的相关信息；其中，所述相关信息包括调用信息，计算节点信息和缓存信息。

优选地，所述调用信息包括调用频率，所述分布式缓存系统的控制方法还包括：

在预设周期内，分析各所述分布式缓存系统对应的调用频率；

清除所述调用频率低于第一预设次数的所述分布式缓存系统中缓存的数据集。

优选地，所述分布式缓存系统的控制方法还包括：

在确定预设时长内从各所述分布式缓存系统中提取所述待训练数据集的失败次数达到第二预设次数时，对各所述分布式缓存系统对应的调用频率进行排序得到排序结果；

依据所述排序结果清除对应所述分布式缓存系统中缓存的数据集。

为了解决上述技术问题，本申请还提供了一种分布式缓存系统的控制装置，包括：

分组模块，用于系统启动后，将深度学习训练平台中各计算节点进行分组得到计算节点组；其中，各所述计算节点组中各计算节点之间的距离小于预设值，所述距离包括物理距离和网络距离；

创建模块，用于为各所述计算节点组创建分布式缓存系统；

获取模块，用于获取深度学习待训练任务的数据集参数；其中，所述数据集参数包括待训练数据集名称、待训练数据集在存储系统中的存储路径和所需计算节点个数；

提取模块，用于依据所述数据集参数与各所述分布式缓存系统的匹配结果提取目标计算节点组。

为了解决上述技术问题，本申请还提供了一种分布式缓存系统的控制装置，包括存储器，用于存储计算机程序；

处理器，用于执行所述计算机程序时实现所述的分布式缓存系统的控制方法的步骤。

为了解决上述技术问题，本申请还提供了一种计算机可读存储介质，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器执行时实现所述的分布式缓存系统的控制方法的步骤。

本发明所提供的一种分布式缓存系统的控制方法，包括：在系统启动后，将深度学习训练平台中各计算节点进行分组得到计算节点组，分组后各计算节点组中各计算节点之间的距离小于预设值，其中，距离包括物理距离和网络距离，并为各计算节点组创建一个分布式缓存系统。获取深度学习待训练任务的数据集参数，其中，数据集参数包括待训练数据集名称、待训练数据集在存储系统中的存储路径和所需计算节点个数，将获取的深度学习待训练任务的数据集参数和创建的各分布式存储系统进行匹配得到匹配结果，并依据匹配结构提取目标计算节点组以便进行深度学习训练。由此可见，本申请所提供的技术方案，根据各计算节点距离进行分组得到计算节点组，并为每个计算节点组创建一个分布式缓存系统，由于各计算节点组的计算节点间距离小于预设值，即距离相近，进而保证了计算节点间数据读取效率高。此外，在进行深度学习训练时，根据数据集参数与各分布式缓存系统的匹配结果，可直接从分布式缓存系统中提取待训练数据集，避免从底层存储系统中读取数据导致数据使用效率低，进而提升深度学习训练的效果。

此外，本申请还提供一种分布式缓存系统的控制装置和介质，与上述的分布式缓存系统的控制方法相对应，效果同上。

附图说明

为了更清楚地说明本申请实施例，下面将对实施例中所需要使用的附图做简单的介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本申请实施例所提供的一种分布式缓存系统的控制方法的流程图

图2为本申请实施例所提供的计算节点分组的示意图；

图3为本申请实施例所提供的分布式缓存系统的结构示意图；

图4为本申请另一实施例所提供的分布式缓存系统的结构图示意图；

图5为本申请另一实施例所提供的一种分布式缓存系统的控制方法的流程图；

图6为本申请另一实施例所提供的一种分布式缓存系统的控制方法的流程图；

图7为本申请另一实施例所提供的一种分布式缓存系统的控制方法的流程图；

图8为本申请实施例所提供的一种分布式缓存系统的控制装置的结构图；

图9为本申请另一实施例提供的一种分布式缓存系统的控制装置的结构图；

附图标记如下：1为深度学习训练平台，2为分布式缓存系统，3为计算节点组，4为存储系统。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下，所获得的所有其他实施例，都属于本申请保护范围。

本申请的核心是提供一种分布式缓存系统的控制方法、装置及介质，通过对深度学习训练平台中各计算节点按距离进行分组，保证得到的各计算节点组中的计算节点距离相近，由此提升计算节点间的数据交互效率。并各计算节点组创建分布式缓存系统，以便根据获取的待训练任务的数据集参数和分布式缓存系统的匹配结果可直接从分布式缓存系统中读取数据集，进一步提升数据读取效率，提高深度学习效果。

为了使本技术领域的人员更好地理解本申请方案，下面结合附图和具体实施方式对本申请作进一步的详细说明。

为了保证存储容量，并提高深度学习训练的数据读取效率，进而提升深度学习训练的效果，本申请实施例提供了分布式缓存系统的控制方法，通过将计算节点相近的节点分为一组得到计算节点组，由此保证计算节点间的数据交互效率。并为计算节点组创建分布式缓存系统，以便根据深度学习待训练任务的数据集参数，直接从分布式缓存系统中读取待训练数据集，避免每次进行深度学习训练时均从底层存储系统中读取数据导致的低效率。

图1为本申请实施例所提供的一种分布式缓存系统的控制方法的流程图，如图1所示，该方法包括：

S10：系统启动后，将深度学习训练平台中各计算节点进行分组得到计算节点组；其中，各计算节点组中各计算节点之间的距离小于预设值，距离包括物理距离和网络距离。

在具体实施例中，系统启动后，根据各计算节点的距离将深度学习训练平台中的各计算节点进行分组得到计算节点组。其中，分组的依据为各计算节点的距离，而该距离包括物理距离和网络距离。例如，物理距离包括机柜的距离，机房距离等，网络距离包括IP地址距离和数据中心距离等。

为了便于理解，下面将举例说明，图2为本申请实施例所提供的计算节点分组的示意图，如图2所示，若图2中各计算节点的分组依据为按照机房距离进行分组，则同一机房的计算节点分为一组得到一个计算节点组，其中，将同一机房的计算节点1、计算节点2和计算节点3分为一组得到计算节点组1，将同一机房的计算节点4、计算节点5和计算节点6分为一组得到计算节点组2，以此为依据对深度学习训练平台中的所有计算节点进行分组得到不同的计算节点组。

可以理解的是，依据距离进行分组后，各计算节点组中各计算节点间的距离在一定范围内，即同一计算节点组中的计算节点间距离小于预设值。

当然，在进行分组时，可以选择物理距离中的一个距离因素或网络距离中的一个距离因素进行分组，也可以将选择多个距离因素综合分析进行分组，对此本申请不作限定。

S11：为各计算节点组创建分布式缓存系统。

通过步骤S10对深度学习训练平台中的各计算节点进行分组得到计算节点组后，为每个计算节点组创建一个分布式缓存系统。图3为本申请实施例所提供的分布式缓存系统的结构示意图，如图3所示，按照距离因素对深度学习训练平台1中的计算节点进行分组后，为各计算节点组3创建一个分布式缓存系统2，分布式缓存系统2可以根据深度学习训练任务从底层存储系统4中读取对应的待训练数据集。

S12：获取深度学习待训练任务的数据集参数；其中，数据集参数包括待训练数据集名称、待训练数据集在存储系统中的存储路径和所需计算节点个数。

S13：依据数据集参数与各分布式缓存系统的匹配结果提取目标计算节点组。

进行深度学习训练时，先获取深度学习待训练任务的数据集参数，其中，数据集参数包括待训练数据集名称、待训练数据集在存储系统4中的存储路径和所需计算节点个数等，确定数据集参数后，将数据参数和各分布式缓存系统2进行匹配，根据匹配结果获取目标计算节点组进行训练。

在进行数据集参数和分布式缓存系统2匹配时，需要确定各分布式缓存系统2中是否存在已经缓存了待训练数据集的分布式缓存系统2，若存在，从这些缓存了待训练数据集的分布式缓存系统2中寻找满足所需计算节点个数的分布式缓存系统2，并将该分布式缓存系统2作为目标分布式缓存系统2，由此，将目标分布式缓存系统2对应的计算节点组3作为目标计算节点组，训练时，将深度学习待训练任务调度至目标计算节点组中的计算节点上，并从目标分布式缓存系统2中读取待训练数据集进行训练。

当然，若存在已经缓存了待训练数据集的分布式缓存系统2，但是缓存了待训练数据集的各分布式缓存系统2所对应的计算节点数均小于所需计算节点个数时，需要将这些计算节点按照距离进行合并，合并至计算节点个数大于或等于所需计算节点个数为止。此时，将合并后的计算节点组3作为目标计算节点组，并为该目标计算节点组创建新的分布式缓存系统2，并将其作为目标分布式缓存系统2。最后，从如图3所示的底层存储系统4中缓存待训练数据集至目标分布式缓存系统2中。

若在匹配时，各分布式缓存系统2中不存在已经缓存了待训练数据集的分布式缓存系统2，则先从各计算节点组3中确定计算节点个数大于或等于所需计算节点个数的计算节点组3，并将该计算节点组3作为目标计算节点组，并将目标计算节点组对应的分布式缓存系统2作为目标缓存系统，然后从底层存储系统4中缓存待训练数据集至目标分布式缓存系统2中。

值得注意的是，若在匹配时，既不存在缓存了待训练数据集的分布式缓存系统2，且各计算节点组3对应的计算节点数均小于所需计算节点个数时。需要先按照距离将计算节点进行合并使得计算节点数大于或等于所需计算节点个数为止，然后为合并后的目标计算节点组创建新的分布式缓存系统2以作为目标分布式缓存系统2，最后从底层存储系统4中缓存待训练数据集至目标分布式缓存系统2中。

在确定目标分布式缓存系统2和目标计算节点组后，将深度学习待训练任务调度至目标计算节点组对应的计算节点中，并从目标分布式缓存系统2中读取待训练数据集进行训练。需要说明的是，在训练过程中，存储各分布式缓存系统2对应的相关信息，其中相关信息包括：调用信息，计算节点信息和缓存信息。由此，可以根据相关信息，将预设周期内调用频率低的分布式缓存系统2中的数据集进行清除。当然，也可以根据调取分布式缓存系统2中数据集时失败的次数达到预设次数时，对各分布式缓存系统2的调用频率进行排序以便清除调用频率低的分布式缓存系统2。

本申请实施例所提供的分布式缓存系统的控制方法，包括：在系统启动后，将深度学习训练平台中各计算节点进行分组得到计算节点组，分组后各计算节点组中各计算节点之间的距离小于预设值，其中，距离包括物理距离和网络距离，并为各计算节点组创建一个分布式缓存系统。获取深度学习待训练任务的数据集参数，其中，数据集参数包括待训练数据集名称、待训练数据集在存储系统中的存储路径和所需计算节点个数，将获取的深度学习待训练任务的数据集参数和创建的各分布式存储系统进行匹配得到匹配结果，并依据匹配结构提取目标计算节点组以便进行深度学习训练。由此可见，本申请所提供的技术方案，根据各计算节点距离进行分组得到计算节点组，并为每个计算节点组创建一个分布式缓存系统，由于各计算节点组的计算节点间距离小于预设值，即距离相近，进而保证了计算节点间数据读取效率高。此外，在进行深度学习训练时，根据数据集参数与各分布式缓存系统的匹配结果，可直接从分布式缓存系统中提取待训练数据集，避免从底层存储系统中读取数据导致数据使用效率低，进而提升深度学习训练的效果。

在具体实施例中，图4为本申请另一实施例所提供的分布式缓存系统的结构图示意图，如图4所示，分布式缓存系统2主要包括任务接口模块Request API、调度模块Scheduler、分布式缓存系统2实例管理模块Instance Manager和数据集缓存管理器Dataset Controller。

实施中，任务接口模块Request API对接深度学习待训练任务，当用户在深度学习训练平台提交深度学习待训练任务后，获取深度学习待训练任务的数据集参数，其中，数据集参数包括待训练数据集名称、待训练数据集在存储系统4中的存储路径和所需计算节点个数。任务接口模块Request API得到数据集参数后传输至调度模块Scheduler，调度模块Scheduler将数据集参数和分布式缓存系统2进行匹配得到目标计算节点组。在调度模块Scheduler将待训练任务调度至目标计算节点中进行训练时，需要调用数据集缓存管理器Dataset Controller实现从分布式缓存系统中读取数据集。此外，数据集缓存管理器Dataset Controller还用于清除数据集和更新数据集。

图5为本申请另一实施例所提供的一种分布式缓存系统的控制方法的流程图，如图5所示，依据数据集参数与各分布式缓存系统的匹配结果提取目标计算节点组包括：

S200：判断各分布式缓存系统中是否存在已缓存待训练数据集的分布式缓存系统，若存在，进入步骤S201，若不存在，进入步骤203。

S201：确定已缓存待训练数据集的各分布式缓存系统中是否存在对应计算节点数大于或等于所需计算节点个数的目标分布式缓存系统，若存在目标分布式缓存系统，进入步骤S202。

S202：提取目标分布式缓存系统对应的计算节点组作为目标计算节点组。

事实上，在进行匹配时，判断各分布式缓存系统2中是否存在已缓存待训练数据集的分布式缓存系统2，即判断各分布式缓存系统2中的数据集是否满足训练要求。若存在，则进一步确定已缓存待训练数据集的各分布式缓存系统2中是否存在对应计算节点数大于或等于所需计算节点个数的目标分布式缓存系统2，即确定计算节点数是否满足训练要求。若存在目标分布式缓存系统2，则提取目标分布式缓存系统2对应的计算节点组3作为目标计算节点组。

也就是说，将已缓存待训练数据集且计算节点数大于或等于所需计算节点个数的分布式缓存系统2作为目标分布式缓存系统2，并将目标分布式缓存系统2对应的计算节点组3作为目标计算节点组。

S203：确定各计算节点组中是否存在计算节点数大于或等于所需计算节点个数的目标计算节点组，若存在目标计算节点组，进入步骤S204。

S204：依据待训练数据集在存储系统中的存储路径将待训练数据集缓存至目标计算节点组对应的分布式缓存系统中，以便提取目标计算节点组。

若在匹配时，各分布式缓存系统2中不存在已缓存待训练数据集的分布式缓存系统2，即各分布式缓存系统2中已缓存的数据集不满足训练要求，则进一步确定各计算节点组3中是否存在计算节点数大于或等于所需计算节点个数的目标计算节点组，若存在目标计算节点组，依据待训练数据集在存储系统4中的存储路径将待训练数据集缓存至目标计算节点组对应的分布式缓存系统2中，以便提取目标计算节点组。

也就是说，当已缓存待训练数据集不满足训练要求时，先找到满足训练要求的计算节点组3作为目标计算节点组，然后将需要的待训练数据集缓存至目标计算节点组对应的分布式缓存系统2中。需要说明的是，将需要的待训练数据集缓存至目标分布式缓存系统2中时，可以将目标分布式缓存系统2中的原始数据集删除，也可以将其保留，对此本申请不作限定。

简单来说，在匹配时，若分布式缓存系统2中数据集和计算节点均满足要求，则直接调用对应的分布式缓存系统2和计算节点组3中的计算节点进行训练即可。若数据集不满足训练要求，先找到满足所需计算节点个数的计算节点组3，再缓存满足要求的数据集。

本申请实施例所提供的分布式缓存系统的控制方法，在进行深度学习训练时，依据深度学习待训练任务的数据集参数与分布式缓存系统的匹配结果提取目标计算节点组，以便在使用目标计算节点组中的计算节点和对应的分布式缓存系统中缓存的数据集进行训练，避免数据集重复下载，同时，避免每次从底层存储系统读取数据集的低效率，进而提升了深度学习训练的效果。

在上述实施例的基础上，图6为本申请另一实施例所提供的一种分布式缓存系统的控制方法的流程图，如图6所示，若已缓存待训练数据集的各分布式缓存系统中不存在对应计算节点数大于或等于所需计算节点个数的目标分布式缓存系统，还包括：

S300：将已缓存待训练数据集的各分布式缓存系统所对应的计算节点组按照物理距离和/或网络距离进行合并，直至节点数大于或等于所需计算节点个数为止；

S301：对合并后产生的新的计算节点组创建对应的分布式缓存系统作为目标分布式缓存系统，并将目标分布式缓存系统对应的计算节点组作为目标计算节点组。

当数据集满足训练要求，但计算节点数不满足所需计算节点个数时，将已缓存待训练数据集的各分布式缓存系统所对应的计算节点组按照物理距离和/或网络距离进行合并，直至节点数大于或等于所需计算节点个数为止。

对合并后产生的新的计算节点组创建对应的分布式缓存系统作为目标分布式缓存系统，当然合并产生的新的计算节点组即为目标计算节点组，需要注意的是，按照距离进行合并时，可以依据物理距离，也可以依据网络距离，当然还可以综合分析物理距离和网络距离进行合并，对此本申请不作限定。

值得注意的是，当所有已缓存待训练数据集的分布式缓存系统对应的计算节点合并后还小于所需计算节点个数时，从将满足与未缓存数据集的分布式缓存系统对应的计算节点组进行合并。

本申请实施例所提供的分布式缓存系统的控制方法，当数据集满足训练要求，但计算节点数不满足训练要求时，将数据集满足要求的计算节点组进行合并，并对合并产生的新的计算节点组创建分布式缓存系统，由此实现动态调整分布式缓存系统和对应的计算节点组，进而提升深度学习训练的效率和效果。

在上述实施例的基础上，图7为本申请另一实施例所提供的一种分布式缓存系统的控制方法的流程图，如图7所示，若各计算节点组中不存在计算节点数大于或等于所需计算节点个数的目标计算节点组，还包括：

S400：将各计算节点组按照物理距离和/或网络距离进行合并，直至节点数大于或等于所需计算节点个数为止；

S401：对合并后得到的目标计算节点组创建对应的分布式缓存系统，并依据待训练数据集在存储系统中的存储路径将待训练数据集缓存至目标计算节点组对应的分布式缓存系统中，以便提取目标计算节点组。

实施中，若数据集和计算节点个数均不满足训练要求时，先按照物理距离和/或网络距离对各计算节点组进行合并，直至节点数大于或等于所需计算节点个数为止，然后对合并后得到的目标计算节点组创建对应的分布式缓存系统，并将该分布式缓存系统作为目标分布式缓存系统。

本申请实施例所提供的分布式缓存系统的控制方法，当数据集和计算节点个数均不满足训练要求时，对各计算节点组按照物理距离和/或网络距离进行合并以便满足训练所需的计算节点个数，并后得到的目标计算节点组创建对应的分布式缓存系统得到目标计算节点组，由此实现动态管理分布式缓存系统和计算节点组，满足不同的深度学习训练任务，提高深度学习训练效果。

在具体实施中，通过动态调整分布式缓存系统和计算节点组满足深度学习训练任务要求后，将深度学习待训练任务调度至目标计算节点组对应的计算节点中，并提取目标计算节点组对应分布式缓存系统中的数据集进行训练。在训练中，实时存储各分布式缓存系统对应的调用信息，计算节点信息和缓存信息。

即分布式缓存系统实例管理模块Instance Manager实时存储和维护各分布式缓存系统对应的相关信息，需要存储记录各分布式缓存系统中存储的数据集名称，调用各分布式缓存系统中数据集的频率，各分布式缓存系统对应的计算节点组和计算节点数，调用各分布式缓存系统中数据集的训练任务的相关信息等，以便后续根据存储各分布式缓存系统对应的相关信息对各分布式缓存系统进行管理

本申请实施例所提供的分布式缓存系统的控制方法，通过动态调整和创建分布式缓存系统，并根据深度学习待训练任务的数据集参数确定目标分布式缓存系统和目标计算节点组，实现计算节点间的高速数据交互，以及从分布式缓存系统高速读取数据集的目的，提高深度学习训练效率。

事实上，调用信息包括调用频率和调用任务列表等信息，为了节约分布式存储系统的存储空间，在预设周期内，对各分布式存储系统对应的调用频率进行分析，清除调用频率低于第一预设次数的分布式缓存系统中缓存的数据集。

本申请实施例所提供的分布式缓存系统的控制方法，在预设周期内，分析各分布式缓存系统对应的调用频率，并清除调用频率低于第一预设次数的分布式缓存系统中缓存的数据集，节约分布式缓存系统的存储空间，避免存储空间不足影响深度学习训练效率和效果。

在具体实施中，在将深度学习待训练任务的数据集参数和各分布式缓存系统进行匹配时，在确定预设时长内从各分布式缓存系统中提取待训练数据集的失败次数达到第二预设次数时，对各分布式缓存系统对应的调用频率进行排序得到排序结果，并依据排序结果清除对应分布式缓存系统中缓存的数据集。

也就是说，在在预设时长进行匹配时，各分布式缓存系统中不存在已缓存待训练数据集的分布式缓存系统的次数达到第二预设次数，即使各分布式缓存系统以往的调用频率较高，也需要对其进行清除。

本申请实施例所提供的分布式缓存系统的控制方法，根据提取待训练数据集的失败次数对分布式缓存系统中缓存的数据集进行清除，进一步节约分布式缓存系统的存储空间，提升深度学习训练效率。

在上述实施例中，对于分布式缓存系统的控制方法进行了详细描述，本申请还提供分布式缓存系统的控制装置对应的实施例。需要说明的是，本申请从两个角度对装置部分的实施例进行描述，一种是基于功能模块的角度，另一种是基于硬件结构的角度。

图8为本申请实施例所提供的一种分布式缓存系统的控制装置的结构图，如图8所示，该装置包括：

分组模块10，用于系统启动后，将深度学习训练平台中各计算节点进行分组得到计算节点组；其中，各计算节点组中各计算节点之间的距离小于预设值，距离包括物理距离和网络距离。

创建模块11，用于为各计算节点组创建分布式缓存系统。

获取模块12，用于获取深度学习待训练任务的数据集参数；其中，数据集参数包括待训练数据集名称、待训练数据集在存储系统中的存储路径和所需计算节点个数。

提取模块13，用于依据数据集参数与各分布式缓存系统的匹配结果提取目标计算节点组。由于装置部分的实施例与方法部分的实施例相互对应，因此装置部分的实施例请参见方法部分的实施例的描述，这里暂不赘述。

本申请实施例所提供的分布式缓存系统的控制装置，包括：在系统启动后，将深度学习训练平台中各计算节点进行分组得到计算节点组，分组后各计算节点组中各计算节点之间的距离小于预设值，其中，距离包括物理距离和网络距离，并为各计算节点组创建一个分布式缓存系统。获取深度学习待训练任务的数据集参数，其中，数据集参数包括待训练数据集名称、待训练数据集在存储系统中的存储路径和所需计算节点个数，将获取的深度学习待训练任务的数据集参数和创建的各分布式存储系统进行匹配得到匹配结果，并依据匹配结构提取目标计算节点组以便进行深度学习训练。由此，根据各计算节点距离进行分组得到计算节点组，并为每个计算节点组创建一个分布式缓存系统，由于各计算节点组的计算节点间距离小于预设值，即距离相近，进而保证了计算节点间数据读取效率高。此外，在进行深度学习训练时，根据数据集参数与各分布式缓存系统的匹配结果，可直接从分布式缓存系统中提取待训练数据集，避免从底层存储系统中读取数据导致数据使用效率低，进而提升深度学习训练的效果。

图9为本申请另一实施例提供的一种分布式缓存系统的控制装置的结构图，如图9所示，分布式缓存系统的控制装置包括：存储器20，用于存储计算机程序；

处理器21，用于执行计算机程序时实现如上述实施例所提到的分布式缓存系统的控制方法的步骤。

本实施例提供的分布式缓存系统的控制装置可以包括但不限于智能手机、平板电脑、笔记本电脑或台式电脑等。

其中，处理器21可以包括一个或多个处理核心，比如4核心处理器、8核心处理器等。处理器21可以采用数字信号处理器(Digital Signal Processor，简称DSP)、现场可编程门阵列(Field－Programmable Gate Array，简称FPGA)、可编程逻辑阵列(ProgrammableLogic Array，简称PLA)中的至少一种硬件形式来实现。处理器21也可以包括主处理器和协处理器，主处理器是用于对在唤醒状态下的数据进行处理的处理器，也称中央处理器(Central Processing Unit，简称CPU)；协处理器是用于对在待机状态下的数据进行处理的低功耗处理器。在一些实施例中，处理器21可以集成有图像处理器(GraphicsProcessing Unit，简称GPU)，GPU用于负责显示屏所需要显示的内容的渲染和绘制。一些实施例中，处理器21还可以包括人工智能(Artificial Intelligence，简称AI)处理器，该AI处理器用于处理有关机器学习的计算操作。

存储器20可以包括一个或多个计算机可读存储介质，该计算机可读存储介质可以是非暂态的。存储器20还可包括高速随机存取存储器，以及非易失性存储器，比如一个或多个磁盘存储设备、闪存存储设备。本实施例中，存储器20至少用于存储以下计算机程序201，其中，该计算机程序被处理器21加载并执行之后，能够实现前述任一实施例公开的分布式缓存系统的控制方法的相关步骤。另外，存储器20所存储的资源还可以包括操作系统202和数据203等，存储方式可以是短暂存储或者永久存储。其中，操作系统202可以包括Windows、Unix、Linux等。数据203可以包括但不限于分布式缓存系统的控制方法中所涉及的相关数据。

在一些实施例中，分布式缓存系统的控制装置还可包括有显示屏22、输入输出接口23、通信接口24、电源25以及通信总线26。

本领域技术人员可以理解，图9中示出的结构并不构成对分布式缓存系统的控制装置的限定，可以包括比图示更多或更少的组件。

本申请实施例提供的分布式缓存系统的控制装置，包括存储器和处理器，处理器在执行存储器存储的程序时，能够实现如下方法：分布式缓存系统的控制方法。

本申请实施例所提供的分布式缓存系统的控制装置，根据各计算节点距离进行分组得到计算节点组，并为每个计算节点组创建一个分布式缓存系统，由于各计算节点组的计算节点间距离小于预设值，即距离相近，进而保证了计算节点间数据读取效率高。此外，在进行深度学习训练时，根据数据集参数与各分布式缓存系统的匹配结果，可直接从分布式缓存系统中提取待训练数据集，避免从底层存储系统中读取数据导致数据使用效率低，进而提升深度学习训练的效果。

最后，本申请还提供一种计算机可读存储介质对应的实施例。计算机可读存储介质上存储有计算机程序，计算机程序被处理器执行时实现如上述方法实施例中记载的步骤。

可以理解的是，如果上述实施例中的方法以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(Read-Only Memory，简称ROM)、随机存取存储器(Random Access Memory，简称RAM)、磁碟或者光盘等各种可以存储程序代码的介质。

以上对本申请所提供的一种分布式缓存系统的控制方法、装置及介质进行了详细介绍。说明书中各个实施例采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似部分互相参见即可。对于实施例公开的装置而言，由于其与实施例公开的方法相对应，所以描述的比较简单，相关之处参见方法部分说明即可。应当指出，对于本技术领域的普通技术人员来说，在不脱离本申请原理的前提下，还可以对本申请进行若干改进和修饰，这些改进和修饰也落入本申请权利要求的保护范围内。

还需要说明的是，在本说明书中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

Claims

1.一种分布式缓存系统的控制方法，其特征在于，包括：

为各所述计算节点组创建分布式缓存系统；

2.根据权利要求1所述的分布式缓存系统的控制方法，其特征在于，所述依据所述数据集参数与各所述分布式缓存系统的匹配结果提取目标计算节点组包括：

3.根据权利要求2所述的分布式缓存系统的控制方法，其特征在于，若已缓存所述待训练数据集的各所述分布式缓存系统中不存在对应计算节点数大于或等于所述所需计算节点个数的目标分布式缓存系统，还包括：

4.根据权利要求2所述的分布式缓存系统的控制方法，其特征在于，若各所述计算节点组中不存在计算节点数大于或等于所述所需计算节点个数的所述目标计算节点组，还包括：

5.根据权利要求1所述的分布式缓存系统的控制方法，其特征在于，在所述依据所述数据集参数与各所述分布式缓存系统的匹配结果提取目标计算节点组之后还包括：

6.根据权利要求5所述的分布式缓存系统的控制方法，其特征在于，所述调用信息包括调用频率，所述分布式缓存系统的控制方法还包括：

7.根据权利要求6所述的分布式缓存系统的控制方法，其特征在于，还包括：

8.一种分布式缓存系统的控制装置，其特征在于，包括：

创建模块，用于为各所述计算节点组创建分布式缓存系统；

9.一种分布式缓存系统的控制装置，其特征在于，包括存储器，用于存储计算机程序；

处理器，用于执行所述计算机程序时实现如权利要求1至7任一项所述的分布式缓存系统的控制方法的步骤。

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器执行时实现如权利要求1至7任一项所述的分布式缓存系统的控制方法的步骤。