CN114443581A

CN114443581A - 一种下载控制方法、装置、设备及存储介质

Info

Publication number: CN114443581A
Application number: CN202210371421.XA
Authority: CN
Inventors: 徐如庆
Original assignee: Suzhou Inspur Intelligent Technology Co Ltd
Current assignee: Suzhou Inspur Intelligent Technology Co Ltd
Priority date: 2022-04-11
Filing date: 2022-04-11
Publication date: 2022-05-06
Anticipated expiration: 2042-04-11
Also published as: CN114443581B; WO2023197674A1

Abstract

本发明公开了一种下载控制方法、装置、设备及存储介质，该方法包括：确定分布式文件系统中当前需要实现下载控制的数据集为当前数据集，并从当前数据集中获取预设量的未被获取过的数据；遍历当前获取的预设量的数据，针对遍历到的每条数据实现相应的文件下载；并且，在遍历当前获取的预设量的数据及实现相应文件下载的同时，继续执行从当前数据集中获取预设量的未被获取过的数据的步骤，直至获取完成当前数据集中的全部数据为止。本申请使得从数据集中获取数据的步骤及遍历获取到的数据以实现相应文件下载的步骤并行实现，大大减少文件下载的耗时，能够有效提高文件下载的效率。

Description

一种下载控制方法、装置、设备及存储介质

技术领域

本发明涉及数据处理技术领域，更具体地说，涉及一种下载控制方法、装置、设备及存储介质。

背景技术

AI（Artificial Intelligence，人工智能）场景的训练任务经常使用数据集，并且所使用的数据集为海量的小文件，而下载海量小文件的数据集成为训练平台的瓶颈。针对ceph（分布式文件系统）存储数据集来说，在实现文件下载时通常是遍历数据集所有的文件及文件夹，并对遍历到的文件或者文件夹进行下载，但是这种方式非常耗时，因此如何提供一种减少耗时的文件下载方案，则是目前本领域技术人员亟待解决的问题。

发明内容

本发明的目的是提供一种下载控制方法、装置、设备及存储介质，大大减少文件下载的耗时，能够有效提高文件下载的效率。

为了实现上述目的，本发明提供如下技术方案：

一种下载控制方法，包括：

确定分布式文件系统中当前需要实现下载控制的数据集为当前数据集，并从当前数据集中获取预设量的未被获取过的数据；

遍历当前获取的预设量的数据，针对遍历到的每条数据实现相应的文件下载；并且，在遍历当前获取的预设量的数据及实现相应文件下载的同时，继续执行从当前数据集中获取预设量的未被获取过的数据的步骤，直至获取完成当前数据集中的全部数据为止。

优选的，针对遍历到的每条数据实现相应的文件下载，包括：

如果当前遍历到的数据对应文件，则直接下载当前遍历到的数据对应文件，如果当前遍历到的数据对应文件夹，则确定当前遍历到的数据对应文件夹下全部数据为分布式文件系统中当前需要实现下载控制的数据集，执行确定分布式文件系统中当前需要实现下载控制的数据集为当前数据集的步骤。

优选的，确定分布式文件系统中当前需要实现下载控制的数据集为当前数据集之后，还包括：

获取当前数据集中的各项数据，如果获取当前数据集中数据的持续时长达到时长阈值但未获取完成当前数据集中的全部数据，则执行从当前数据集中获取预设量的未被获取过的数据的步骤，否则，遍历获取到的当前数据集中的各项数据，并针对遍历到的每条数据实现相应的文件下载。

优选的，从当前数据集中获取预设量的未被获取过的数据之前，还包括：

在当前数据集中设置多个分批获取标记，以基于各分批获取标记分别执行从当前数据集中获取预设量的未被获取过的数据的步骤。

利用预设的多个线程，以一一对应的关系分别针对遍历到的每条数据实现相应的文件下载。

优选的，从当前数据集中获取数据之前，还包括：

连接所述分布式文件系统的服务器，以实现对所述分布式文件系统的访问；指定当前数据集的存储位置及路径，以基于相应存储位置及路径实现当前数据集中的数据获取。

优选的，连接所述分布式文件系统的服务器，包括：

基于密钥参数及地址连接所述分布式文件系统的服务器；其中，所述密钥参数为连接所述分布式文件系统的服务器时所用的身份验证信息，所述地址为所述分布式文件系统的服务器的地址。

一种下载控制装置，包括：

确定模块，用于：确定分布式文件系统中当前需要实现下载控制的数据集为当前数据集，并从当前数据集中获取预设量的未被获取过的数据；

遍历模块，用于：遍历当前获取的预设量的数据，针对遍历到的每条数据实现相应的文件下载；并且，在遍历当前获取的预设量的数据及实现相应文件下载的同时，继续执行从当前数据集中获取预设量的未被获取过的数据的步骤，直至获取完成当前数据集中的全部数据为止。

一种下载控制设备，包括：

存储器，用于存储计算机程序；

处理器，用于执行所述计算机程序时实现如上任一项所述下载控制方法的步骤。

一种计算机可读存储介质，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器执行时实现如上任一项所述下载控制方法的步骤。

本发明提供了一种下载控制方法、装置、设备及存储介质，该方法包括：确定分布式文件系统中当前需要实现下载控制的数据集为当前数据集，并从当前数据集中获取预设量的未被获取过的数据；遍历当前获取的预设量的数据，针对遍历到的每条数据实现相应的文件下载；并且，在遍历当前获取的预设量的数据及实现相应文件下载的同时，继续执行从当前数据集中获取预设量的未被获取过的数据的步骤，直至获取完成当前数据集中的全部数据为止。本申请中对于需要实现下载控制的分布式文件系统中的数据集，从数据集中获取预设量的数据，然后遍历获取的预设量的数据以实现相应文件下载，并且遍历获取的预设量的数据以实现相应文件下载的同时，还会继续从数据集中获取预设量的数据，从而使得从数据集中获取数据的步骤及遍历获取到的数据以实现相应文件下载的步骤并行实现，大大减少文件下载的耗时，能够有效提高文件下载的效率。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据提供的附图获得其他的附图。

图1为本发明实施例提供的一种下载控制方法的流程图；

图2为本发明实施例提供的一种下载控制装置的结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

请参阅图1，其示出了本发明实施例提供的一种下载控制方法的流程图，具体可以包括：

S11：确定分布式文件系统中当前需要实现下载控制的数据集为当前数据集，并从当前数据集中获取预设量的未被获取过的数据。

需要说明的是，本申请实施例提供的下载控制方案可以是针对AI训练场景所需使用的海量小文件实现，也可以针对其他场景下所需使用的文件实现，均在本发明的保护范围之内。

当前数据集可以看作是一个变量，在需要对任意数据集实现下载控制时则可以将该任意数据集赋值给当前数据集，进而对当前数据集进行下载控制；具体来说，在需要下载分布式文件系统中的文件时，可以先确定出需要下载的文件或者该文件所属文件夹对应的数据集合即为当前需要下载控制的数据集，进而将该数据集作为当前数据集实现后续的下载控制。

其中，每条数据对应一个文件或者文件夹，文件或者文件夹对应的数据可以为文件或者文件夹的信息（如名称、编号等），进而基于文件或者文件夹的信息实现相应文件或者文件夹的定位及后续的下载等操作，当然也可以根据实际需要进行其他设定，均在本发明的保护范围之内。另外，预设量可以根据实际需要进行设定，如1000条；而在每次从当前数据集中获取预设量的数据时，获取的均为此次实现下载控制未被获取过的当前数据集中的数据，从而避免同一数据在此次下载控制中的重复获取。

S12：遍历当前获取的预设量的数据，针对遍历到的每条数据实现相应的文件下载；并且，在遍历当前获取的预设量的数据及实现相应文件下载的同时，继续执行从当前数据集中获取预设量的未被获取过的数据的步骤，直至获取完成当前数据集中的全部数据为止。

本申请实施例中在每次从当前数据集中获取到预设量的数据后，可以遍历当前次获取到的预设量的数据，进而针对遍历到的每条数据实现相应的文件下载操作。其中，从当前数据集中获取数据的步骤是连续进行的，也即从当前数据集中获取到预设量的数据后会继续从当前数据集中获取下一预设量的数据，直至获取完成当前数据集中的全部数据为止，从而实现当前数据集中数据的分批获取；并且每次从当前数据集中获取到预设量的数据后，均立即对最新获取到的预设量的数据进行遍历及相应文件下载；因此，在每次从当前数据集中获取到预设量的数据后，遍历最新获取到的预设量的数据并实现相应文件下载的同时，会继续从当前数据集获取下一预设量的数据，从而能够使得获取数据的步骤及遍历数据以实现相应文件下载的步骤一定程度上并行实现，大大提高文件下载效率。

本申请实施例中对于需要实现下载控制的分布式文件系统中的数据集，从数据集中获取预设量的数据，然后遍历获取的预设量的数据以实现相应文件下载，并且遍历获取的预设量的数据以实现相应文件下载的同时，还会继续从数据集中获取预设量的数据，从而使得从数据集中获取数据的步骤及遍历获取到的数据以实现相应文件下载的步骤并行实现，大大减少文件下载的耗时，能够有效提高文件下载的效率。

本发明实施例提供的一种下载控制方法，针对遍历到的每条数据实现相应的文件下载，可以包括：

需要说明的是，本申请实施例在每次从当前数据集中获取到预设量的数据后，可以得到包含有最新获取的预设量的数据的数据列表，进而通过遍历数据列表中的数据实现对最新获取的预设量的数据的遍历。具体来说，本申请实施例在遍历最新获取的预设量的数据并实现相应文件下载时，如果当前遍历到的数据为文件的信息，则可以直接对相应的文件进行下载，如果遍历到的数据为文件夹的信息，则可以将相应文件夹下包含的全部文件和/或文件夹的信息（即相应文件夹下的数据）集合作为当前数据集，进而针对当前数据集实现分批获取预设量的数据及遍历获取到的数据以进行相应文件下载等步骤。可见，本申请对于文件直接下载，对于文件夹则将其下的全部数据作为数据集按照本申请的下载控制方式实现数据获取及相应文件下载，从而能够进一步提高文件下载效率。

本发明实施例提供的一种下载控制方法，确定分布式文件系统中当前需要实现下载控制的数据集为当前数据集之后，还可以包括：

需要说明的是，如果当前数据集中的数据可以在较短时间内获得，则可以直接获取当前数据集中的全部数据，否则需要按照本申请实施例提供的上述方式实现数据集中数据的分批获取，从而提高了方案实现的灵活性，在保证文件下载效率的同时提高场景适配性。具体来说，可以预先根据实际需要设定一时长阈值（如2分钟），进而对于当前数据集中的数据获取来说，先尝试获取当前数据集中的全部数据，如果获取数据的时长达到时长阈值还没有获取完成当前数据集中的全部数据，则说明当前数据集中的数据无法在较短时间内获得，因此按照上述方式实现当前数据集中数据的分批获取及相应文件下载，否则，说明当前数据集中的数据能够在较短时间内获得，因此可以直接获取到当前数据集中的全部数据，并针对获取到的数据进行遍历及相应的文件下载操作。

本发明实施例提供的一种下载控制方法，从当前数据集中获取预设量的未被获取过的数据之前，还可以包括：

本申请实施例中在确定需要分批获取当前数据集中的数据时，为了实现数据的准确获取，可以在当前数据集中设置相应的分批获取标记（marker）；具体来说，在根据实际需要设定出预设量的值后，可以将当前数据集中的全部数据划分为多个数据子集，单个数据子集中的数据位置是连续的，并且位置位于最后的数据子集中的数据量不大于预设量，其他数据子集中的数据量等于预设量，然后在每个数据子集中的第一条数据处设置分批获取标记（这些分批获取标记可以形成相应的marker列表），以在每次获取预设量的数据时，可以从分批获取标记对应数据开始至获取到所属的整个子集的数据；如预设量为1000条，则在当前数据集中第1条、第1001条、第2001条等多个位置处设置分批获取标记，然后分别获取第1条至第1000条数据、第1001条至第2000条数据等。另外，为了提高执行准确率，本申请实施例中可以设置每个marker单独一个线程执行，当然根据实际需要进行的其他设定也均在本发明的保护范围之内。

本申请实施例中在遍历到最新获取的预设量的数据后，并确定需要实现这些数据对应的文件下载时，可以利用多个线程并行实现文件下载，从而进一步提高文件下载效率。

本发明实施例提供的一种下载控制方法，从当前数据集中获取数据之前，还可以包括：连接分布式文件系统的服务器，以实现对分布式文件系统的访问；指定当前数据集的存储位置及路径，以基于相应存储位置及路径实现当前数据集中的数据获取；

连接分布式文件系统的服务器，可以包括：基于密钥参数及地址连接分布式文件系统的服务器；其中，密钥参数为连接分布式文件系统的服务器时所用的身份验证信息，地址为分布式文件系统的服务器的地址。

需要说明的是，为了保证能够顺利实现分布式文件系统中数据集的数据获取，本申请实施例在从分布式文件系统中获取数据集之前，还可以先连接分布式文件系统的服务器，然后找到需要下载控制的数据集所在的位置（bucket），再指定数据集的路径（path），最后再按照path从bucket的数据集中获取数据。另外，在当前数据集发生变化时，需要重新制定相应的位置及路径，以使其与当前数据集相对应。

为了提高分布式文件系统的访问安全性，本申请实施例在连接分布式文件系统的服务器时，需要基于secretkey、accesskey这两项密钥参数来实现，以使得服务器在接收到上述密钥参数后，判断密钥参数是否合法，并在合法时允许访问，在不合法时拒绝访问；还需要基于服务器的地址（endPoint）来实现服务器的连接，也即连接相应地址的服务器。

在一种具体实现方式中，本发明实施例提供的一种下载控制方法具体可以包括以下步骤：

（1）设置连接分布式文件系统服务器的请求参数，实现语句可以如下所示（其中的参数均是假设的，可以根据实际修改）：

// endpoint以DNS域名为例，端口号默认8009，如果是IP则需将DNS域名替换为IP。

String endPoint = "inspur.objectstor:8009";

//用户信息内的AccessKey和SecretKey。

String AccessKey = "<yourAccessKey>";

String SecretKey = "<yourSecretKey>";

ClientConfiguration clientConfig = new ClientConfiguration();

clientConfig.setSignerOverride("S3SignerType");

clientConfig.setProtocol(Protocol.HTTP);

AWSCredentials awsCredentials = new BasicAWSCredentials(AccessKey,SecretKey);

// 创建S3Client实例

AmazonS3 s3client = newAmazonS3Client(awsCredentials, clientConfig);

s3client.setEndpoint(endPoint);

（2）指定bucket，用来获取当前bucket的数据集，实现语句可以如下所示（其中通过ListObjectsRequest设置bucket，方法为withBucketName，参数为假设的）：

ListObjectsRequest req = new ListObjectsRequest().withBucketName("bucket");

（3）设置path，因为分布式文件系统是key和value的形式，所以如果是文件可以用key指定path，如果是文件夹可以用withPrefix指定文件夹的前缀模糊匹配；通过withPrefix指定path的实现语句可以如下所示：

ListObjectsRequest req = new ListObjectsRequest().withBucketName("bucket").withPrefix("/");

通过keypath指定path的实现语句可以如下所示：

GetObjectRequest getObjectRequest = new GetObjectRequest("<yourBucketName>", "<yourKey>");

（4）获取数据集中的数据，并判断是否超时；

（5）如果不超时，遍历获取的各项数据，遍历时，判断是否是文件夹，如果是文件夹，指定文件夹下的数据集path，返回到（4），继续执行，如果是文件，执行下载；

（6）如果超时，则获取所有marker，遍历每个marker实现相应数据的获取，每个marker单独一个线程执行，返回到（4）去获取数据；

（7）结束。

本发明能够实现对AI资源管理平台的优化，增强系统灵活性和可用性，解决分布式文件系统存储的情况下载海量数据集的瓶颈问题，充分发挥技术优势，提高并发性能，有利于提高服务的稳定性，从而保证了业务系统的正常使用。具体来说，本申请具有以下特点：提高在分布式文件系统存储中的文件下载的性能；提高系统的并发处理能力和吞吐量；充分发挥技术优势，节省文件下载时间，增加灵活性；提高用户的体验，增加产品的卖点；有效保障服务的正常运行和使用。

本发明实施例还提供了一种下载控制装置，如图2所示，可以包括：

确定模块11，用于：确定分布式文件系统中当前需要实现下载控制的数据集为当前数据集，并从当前数据集中获取预设量的未被获取过的数据；

遍历模块12，用于：遍历当前获取的预设量的数据，针对遍历到的每条数据实现相应的文件下载；并且，在遍历当前获取的预设量的数据及实现相应文件下载的同时，继续执行从当前数据集中获取预设量的未被获取过的数据的步骤，直至获取完成当前数据集中的全部数据为止。

本发明实施例提供的一种下载控制装置，遍历模块可以包括：

遍历单元，用于：如果当前遍历到的数据对应文件，则直接下载当前遍历到的数据对应文件，如果当前遍历到的数据对应文件夹，则确定当前遍历到的数据对应文件夹下全部数据为分布式文件系统中当前需要实现下载控制的数据集，执行确定分布式文件系统中当前需要实现下载控制的数据集为当前数据集的步骤。

本发明实施例提供的一种下载控制装置，还可以包括：

判定模块，用于：确定分布式文件系统中当前需要实现下载控制的数据集为当前数据集之后，获取当前数据集中的各项数据，如果获取当前数据集中数据的持续时长达到时长阈值但未获取完成当前数据集中的全部数据，则执行从当前数据集中获取预设量的未被获取过的数据的步骤，否则，遍历获取到的当前数据集中的各项数据，并针对遍历到的每条数据实现相应的文件下载。

本发明实施例提供的一种下载控制装置，还可以包括：

设置模块，用于：从当前数据集中获取预设量的未被获取过的数据之前，在当前数据集中设置多个分批获取标记，以基于各分批获取标记分别执行从当前数据集中获取预设量的未被获取过的数据的步骤。

下载单元，用于：利用预设的多个线程，以一一对应的关系分别针对遍历到的每条数据实现相应的文件下载。

本发明实施例提供的一种下载控制装置，还可以包括：

指定模块，用于：从当前数据集中获取数据之前，连接分布式文件系统的服务器，以实现对分布式文件系统的访问；指定当前数据集的存储位置及路径，以基于相应存储位置及路径实现当前数据集中的数据获取。

本发明实施例提供的一种下载控制装置，指定模块可以包括：

连接单元，用于：基于密钥参数及地址连接分布式文件系统的服务器；其中，密钥参数为连接分布式文件系统的服务器时所用的身份验证信息，地址为分布式文件系统的服务器的地址。

本发明实施例还提供了一种下载控制设备，可以包括：

存储器，用于存储计算机程序；

处理器，用于执行计算机程序时实现如上任一项下载控制方法的步骤。

本发明实施例还提供了一种计算机可读存储介质，计算机可读存储介质上存储有计算机程序，计算机程序被处理器执行时可以实现如上任一项下载控制方法的步骤。

需要说明的是，本发明实施例提供的一种下载控制装置、设备及存储介质中相关部分的说明请参见本发明实施例提供的一种下载控制方法中对应部分的详细说明，在此不再赘述。另外本发明实施例提供的上述技术方案中与现有技术中对应技术方案实现原理一致的部分并未详细说明，以免过多赘述。

对所公开的实施例的上述说明，使本领域技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域技术人员来说将是显而易见的，本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下，在其它实施例中实现。因此，本发明将不会被限制于本文所示的这些实施例，而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims

1.一种下载控制方法，其特征在于，包括：

2.根据权利要求1所述的方法，其特征在于，针对遍历到的每条数据实现相应的文件下载，包括：

3.根据权利要求2所述的方法，其特征在于，确定分布式文件系统中当前需要实现下载控制的数据集为当前数据集之后，还包括：

4.根据权利要求3所述的方法，其特征在于，从当前数据集中获取预设量的未被获取过的数据之前，还包括：

5.根据权利要求4所述的方法，其特征在于，针对遍历到的每条数据实现相应的文件下载，包括：

6.根据权利要求5所述的方法，其特征在于，从当前数据集中获取数据之前，还包括：

7.根据权利要求6所述的方法，其特征在于，连接所述分布式文件系统的服务器，包括：

8.一种下载控制装置，其特征在于，包括：

9.一种下载控制设备，其特征在于，包括：

存储器，用于存储计算机程序；

处理器，用于执行所述计算机程序时实现如权利要求1至7任一项所述下载控制方法的步骤。

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器执行时实现如权利要求1至7任一项所述下载控制方法的步骤。