CN115712583B

CN115712583B - 一种提升分布式缓存跨节点访问性能的方法及装置、介质

Info

Publication number: CN115712583B
Application number: CN202310023205.0A
Authority: CN
Inventors: 梅飞; 陈起; 刘鹏; 刘鑫
Original assignee: Wuxi Jiangnan Computing Technology Institute; Zhejiang Lab
Current assignee: Wuxi Jiangnan Computing Technology Institute; Zhejiang Lab
Priority date: 2023-01-09
Filing date: 2023-01-09
Publication date: 2023-04-18
Anticipated expiration: 2043-01-09
Also published as: CN115712583A

Abstract

本发明公开了一种提升分布式缓存跨节点访问性能的方法及装置、介质。该方法依据轮次训练时预先生成的随机序列，在一个训练步骤中需要跨节点访问训练所需的样本时，查看当前步骤以及后续步骤所需的其他样本是否也存在于目标节点中，如果存在则将其一次性读取过来。本发明减少了训练过程中跨节点访问的次数带来的性能开销，有助于提升训练的总体性能。

Description

一种提升分布式缓存跨节点访问性能的方法及装置、介质

技术领域

本发明涉及人工智能领域，尤其涉及一种提升分布式缓存跨节点访问性能的方法及装置、介质。

背景技术

深度学习训练使用随机梯度下降算法，一般需要进行若干个轮次。每个轮次依据一个预先生成的随机序列遍历整个数据集样本，遍历分为多个步骤，每个步骤遍历一批样本。在分布式训练中，使用多个计算节点，对每一个步骤中的一批样本，将其均分到各个计算节点，各计算节点分配到的样本称为本地批，各计算节点对本地批样本特征根据训练模型进行计算并更新参数，然后再互相进行同步，完成一个训练步骤。计算节点共享一个基于并行文件系统的存储系统，称为共享存储，对分配的本地批样本，各计算节点从共享存储读取样本数据进行训练。

目前，深度学习训练需要的数据集越来越庞大，同时计算节点可以扩展到几百或几千个。节点数增多有助于减少计算过程耗时，但是由于共享存储带宽有上限，当节点数增多到一定数量时，从共享存储读取数据成为制约训练性能的瓶颈。为解决这个瓶颈问题，计算节点在本地配备了高速存储器比如SSD，作为本地缓存，在训练时先将数据从共享存储加载到本地缓存，后续的轮次训练均从本地缓存读取数据。然而，由于单个节点缓存无法容纳整个数据集，因此数据集以分片的方式分散存储在各个节点的缓存，形成一个分布式缓存系统，每个节点缓存保存整体数据集的一部分。在训练的时候，当需要的数据不在本节点缓存时，就从其他节点获取。然而，当节点数增多时，频繁的的跨节点访问带来的开销又成为新的需要解决的问题。

当前已有的对跨节点开销的解决方案是根据本地缓存的内容，对随机序列进行重排，以尽量使用本地缓存已有的数据进行训练。这种有目的的重排提升了本地缓存命中率，减少了跨节点访问，但是由于改变了训练序列的随机性，会影响训练结果的准确度。

发明内容

本发明的目的在于针对现有技术分布式缓存跨节点访问开销大的问题，提供一种提升分布式缓存跨节点访问性能的方法及装置、介质。

本发明的目的是通过以下技术方案来实现的：本发明实施例第一方面提供了一种提升分布式缓存跨节点访问性能的方法，包括以下步骤：

（1）将数据集从共享存储系统加载到各计算节点的本地缓存，每个计算节点保存所述数据集的一部分，所有计算节点共同保存了所述数据集的全部数据样本，将所述数据样本按照顺序进行编号，将所述计算节点按照顺序进行编号；

（2）根据随机序列进行轮次训练，一个轮次训练分为若干步骤，每个步骤训练一个批次的样本，批次样本会分发到各本地节点，称为本地批样本；

（3）计算节点A对分发到本节点的所述本地批样本进行训练，若所述本地批样本中的数据未在本计算节点缓存，而在另一个计算节点B缓存，则所述计算节点A通过网络从所述计算节点B中获取目标样本；

（4）所述计算节点A从所述计算节点B获取所述本地批样本的目标样本时，同时根据映射方法查看所述计算节点B中是否存在所述计算节点A在当前步骤或后续步骤所需的样本，若存在，将这些样本与目标样本的编号组成一个请求发送给所述计算节点B，所述计算节点B收到请求后将对应的数据组成一个结果返回给所述计算节点A，所述计算节点A将除当前步骤所需样本外的其他样本数据暂存在本地的暂存区；若不存在，则只获取所述目标样本；

（5）后续批次训练中，所述计算节点需要预取来的样本时，通过索引表进行访问，直接从所述暂存区读取，从所述暂存区读取样本后，将样本从所述暂存区删除，以将对应的存储空间释放。

进一步地，所述映射方法具体为：根据所述数据样本的编号映射到所述数据样本所在的计算节点。

进一步地，所述索引表用于记录预取来的样本在所述暂存区中的位置，还用于指示样本数据是否暂存在所述暂存区。

进一步地，所述计算节点A通过批量访问接口将需要预取的样本与目标样本的编号组成一个请求发送给所述计算节点B，所述批量访问接口将多个访问请求组成一个访问请求。

进一步地，所述方法包括并行请求方法，具体为：所述计算节点对当前步骤中需要预取的样本按照所述计算节点进行归属，对不同计算节点的样本批量预取并行执行。

进一步地，所述计算节点在跨节点访问时根据系统资源情况决定读取当前或后续的步骤数量，将该数量称为预取深度，所述预取深度大于等于0，小于等于轮次训练的总步骤数。

进一步地，所述预取深度根据训练环境情况配置，所述计算节点预取样本时向前查看的步骤不超过所述预取深度。

进一步地，所述计算节点在批次训练的步骤中，根据所述计算节点本地的可用存储空间及各个目标节点上的最大样本的尺寸，调整批量预取的数量。

本发明实施例第二方面提供了一种提升分布式缓存跨节点访问性能的装置，包括一个或多个处理器，用于实现上述的提升分布式缓存跨节点访问性能的方法。

本发明实施例第三方面提供了一种计算机可读存储介质，其上存储有程序，该程序被处理器执行时，用于实现上述的提升分布式缓存跨节点访问性能的方法。

本发明的有益效果是，本发明通过使用分布式缓存进行深度学习训练，能够将多个跨节点访问通过一次跨节点访问完成，减少跨节点访问开销对深度学习训练效率造成的影响；并且能够通过训练环境情况配置预取深度，避免预取过深造成的副作用；同时能够根据系统资源调节预取数量，避免预取过来的数据无处存放。另外，本发明提供的预取系统，在一个训练步骤中需要对多个节点跨节点访问时，能够通过并行请求执行多个跨节点访问请求，进一步减少跨节点访问带来的开销，有助于提升跨节点访问的性能。

附图说明

图1展示数据集从共享存储加载到计算节点本地SSD缓存的示意图，加载完成后各节点各自缓存了数据集的一部分；

图2展示了一个轮次的随机序列分配到本地批后的命中状态，灰色背景代表在本地命中的样本；

图3展示了对第一个批次进行训练时跨节点访问示例，以及跨节点时可进行预取的数据，其中，节点B和节点C处的粗线条表示一次读取超过一个样本；

图4展示了节点并行访问的示例；

图5展示了跨节点批量访问接口的实现形式；

图6展示了暂存区索引示意图；

图7为本发明提升分布式缓存跨节点访问性能的装置的一种结构示意图。

具体实施方式

下面根据图1-图7详细说明本发明。

本发明提出了一种提升深度学习训练分布式缓存跨节点访问性能的方法，具体包括以下步骤：

（1）将数据集从共享存储系统加载到各计算节点的本地缓存，每个计算节点保存数据集的一部分，所有计算节点共同保存了数据集的全部数据样本，将数据样本按照顺序进行编号，将计算节点按照顺序进行编号。

可选地，各计算节点基于MPI通信进行分布式训练，可根据MPI分配的rank号作为各计算节点的编号。

进一步可选地，对数据样本进行编号，然后根据特定的哈希算法决定一个数据样本应该加载到哪个rank节点上，如此各计算节点对任意一个数据样本进行访问时可直接通过哈希计算获得样本所在的计算节点。

在本实施例中，为使得阐述清晰易读，使用数字表示数据样本的编号，使用A、B、C、D依次表示编号为0、1、2、3的四个节点，样本编号从0开始递增，计算节点编号均从A开始递增。

如图1所示，展示了分布式深度学习训练的各个部件，以及数据加载到本地缓存后的状态。在本实施例中，原始数据集保存在基于并行文件系统的共享存储上，计算节点有4个，数据集包含16个样本，加载完成后每个计算节点的本地SSD缓存保存4个样本。样本以连续分片的方式保存到计算节点上，每4个样本分为一个片。本实施例中，将各个计算节点上的最大样本的尺寸用一个数组表示，各个计算节点维护一个数组MaxSize[]，如图1所示，该数组容量是4，在加载的过程中，各计算节点更新自己的最大尺寸；当加载完成后，各计算节点通过MPI通信获取其他计算节点的最大尺寸，对MaxSize[]数组进行填充，最终各自的MaxSize[]数组一致。

（2）根据随机序列进行轮次训练，一个轮次训练分为若干步骤，每个步骤训练一个批次的样本，批次样本会分发到各本地节点，称为本地批样本。

（3）计算节点A对分发到本节点的本地批样本进行训练，若本地批样本中的数据未在本计算节点缓存，而在另一个计算节点B缓存，则计算节点A通过网络从计算节点B中获取目标样本。

如图2所示，展示了一个轮次的随机序列划分的各个批次，以及各个批次分配到到各个计算节点的情况。在本实施例中，每个批次包含8个样本，每个计算节点分配到2个样本，分配到本地计算节点后的样本，有一部分会在本地计算节点命中（即灰色背景标注部分），而其他未命中的则需要跨节点访问。

在本实施例中，在有N个计算节点的情况下，每个本地计算节点保存了1/N的样本（应当注意，在节点可以保存任意比例数据集样本的情况下，若存在跨节点访问，本发明所提供的方法仍然适用）。由于序列是随机生成的，那么本地命中率也是1/N，即有(N-1)/N的数据需要跨节点访问。同理，在当前计算节点进行跨节点访问时，目标计算节点也保存了当前计算节点未来所需的1/N的样本。比如，如果每一个步骤本地批数量是64，总共有16个计算节点，那么每次跨节点访问时，目标节点理论上保存有64*(1/16)=4个当前步骤所需的样本。也就是说，只预取当前步骤的话，可以一次读取4个样本，减少3次后续的跨节点访问；如果预取10个步骤，那么一次可读取到40个样本，减少39次后续的跨节点访问。

（4）计算节点A从计算节点B获取本地批样本的目标样本时，同时根据映射方法查看计算节点B中是否存在计算节点A在当前步骤或后续步骤所需的样本，若存在，将这些样本与目标样本组成一个请求发送给计算节点B，计算节点B收到请求后将对应的数据组成一个结果返回给计算节点A，计算节点A将除当前步骤所需样本外的其他样本数据暂存在本地的暂存区；若不存在，则只获取目标样本。

应当理解的是，若不存在时，计算节点A向计算节点B发送只获取目标样本的请求，计算节点B收到请求后将目标样本发送给计算节点B。

其中，映射方法具体为：根据数据样本的编号映射到数据样本所在的计算节点，具体地，使用样本编号除以计算节点数并取整即可。计算节点A通过批量访问接口将这些样本与目标样本组成一个请求发送给计算节点B，批量访问接口可以将多个访问请求组成一个访问请求。

如图3所示，展示了跨节点访问的过程。在本实施例中，提前配置好预取深度，将预取深度设置为2，对于批次1，分配到计算节点A的两个样本，其中一个在本地命中（即样本2在本地命中），另一个未在本地命中（即样本13未在本地命中），根据映射方法应该去节点D获取；此时可查看后续步骤，计算节点A下一个步骤需要跨节点获取的是样本2，而样本2按照映射方法判断出不在计算节点D中，因此这次对计算节点D的跨节点访问只会取一个样本（即样本13）。再看对于批次1分配到计算节点B上的两个样本（即样本9和样本11）都保存在计算节点C中，而下一个步骤（即步骤2）需要访问的样本0和样本14都不在计算节点C中，因此针对计算节点C的跨节点访问会一次将两个样本（即样本9和样本11）预取过来。同理，对于批次1，由于预取深度为2，所以计算节点C跨节点去计算节点B一次获取两个样本，将样本6和下一个步骤中的样本4一起预取出来。另外，在本实施例中，当计算节点A查看到计算节点B中存在计算节点A在当前步骤或后续步骤所需的样本时，通过一个并行请求方法，将这些样本与目标样本组成一个请求，而并行请求方法具体为：计算节点对当前步骤中需要预取的样本按照所计算节点进行归属，对不同计算节点的样本批量预取并行执行。

如图4所示，展示了计算节点D并行发起对多个节点批量预取的示例。计算节点D中的样本8和样本7均需要跨节点访问，样本8和样本7分别对应计算节点C和计算节点B，本发明包含的并行策略针对计算节点C和计算节点B并行地发起预取请求。同时，因为计算节点B上还存在计算节点D下个步骤需要的样本5，因此对计算节点B会发起批量请求。

跨节点批量预取的访问模式如图5所示，每个计算节点均运行有客户端（client）和服务端（server），在本实施例中计算节点C充当客户端（client），计算节点B充当服务端（server）。计算节点C需要去计算节点B访问样本6时，根据当前步骤及后续步骤所分配到的样本，发现可以同时从计算节点B获取到样本4，于是通过批量访问接口将样本6和样本4的编号发送给计算节点B，计算节点B从其缓存中获取到两个样本对应的数据并返回给计算节点C。

本实施例中，计算节点在跨节点访问时可根据系统资源情况决定读取当前或后续步骤样本的数量，将该数量称为预取深度，其中，预取深度大于等于0，且小于等于轮次训练的总步骤数。

进一步地，预取深度可以根据训练环境情况配置，计算节点预取样本时向前查看的步骤不超过预取深度。应当理解的是，会设置一个配置接口，通过配置接口配置预取深度；另外，训练环境情况包括但不限于：数据集样本大小、网络条件等。

在本实施例中，一个轮次训练只有2个步骤，因此预取深度最大为2，上述说明也是基于预取深度为2进行展开描述的。应当理解的是，预取深度还可设为其它深度，只需满足大于等于0且小于等于轮次训练的总步骤数即可，例如，将预取深度配置为1，则每次需要跨节点访问时，只查看当前步骤需要预取的样本，比如对于计算节点C，只会预取样本6，不再预取下一个步骤所需的样本4了。具体的预取深度，用户根据样本数据大小、网络条件等资源等情况进行配置。

（5）后续批次训练中，计算节点需要预取来的样本时，通过索引表进行访问，直接从暂存区读取，从暂存区读取样本后，将样本从暂存区删除，以将对应的存储空间释放。其中，索引表用于记录预取来的样本在暂存区中的位置，还用于指示样本数据是否暂存在暂存区中。

本实施例中，计算节点在批次训练的步骤中，根据计算节点本地的可用存储空间及各个目标节点上的最大样本的尺寸，调整批量预取的数量。另外，当批量预取的样本无法完全保存在计算节点本地的可用存储空间时，将无法保存的样本舍弃。

本实施例中，计算节点A将除当前步骤所需样本外的其他样本数据暂存在本地的暂存区，无需写入本地SSD缓存，在后续步骤使用完后可从本地的暂存区中清除。在另外一些实施例中，若暂存区的内存资源不足，可以将预取过来的数据在本地SSD缓存，在后续步骤使用完后从本地SSD清除。

在配置了预取深度后，还可以根据本地暂存容量调整实际预取的数量。在本实施例中，在内存中分配了一块固定区域作为本地的暂存区，如图6所示。暂存区以循环日志的方式使用。计算节点维护一个索引表，根据该索引表能够知道一个样本是否已经在本地暂存区。索引表包含的条目数量等于计算节点的个数，并以计算节点的编号作为表入口。一个条目包含一个头信息和若干槽位。槽位的数量等于各节点MaxSize的平均值。因为预取过来的样本的使用顺序和预取顺序一致，因此有效槽位和暂存区一样，以循环的方式使用。头部信息包含有效槽位区的起始号码和结束号码，如图6中所示的Begin和End可以分别是1和3，表示1号至3号槽位是目前的有效槽位。每个槽位包含样本编号和暂存区位置指针。针对一个计算节点预取过来的数据将连续保存在暂存区中，并将对应信息记录到槽位中。如果发现暂存区或者槽位已满，则将数据丢弃。使用合理的设置，可以使得发生丢弃的情况比较少。

本发明通过使用分布式缓存进行深度学习训练，能够将多个跨节点访问通过一次跨节点访问完成，减少跨节点访问开销对深度学习训练效率造成的影响；并且能够通过训练环境情况配置预取深度，避免预取过深造成的副作用；同时能够根据系统资源调节预取数量，避免预取过来的数据无处存放。另外，本发明提供的预取系统，在一个训练步骤中需要对多个节点跨节点访问时，能够通过并行请求执行多个跨节点访问请求，进一步减少跨节点访问带来的开销，减少了训练过程中跨节点访问的次数带来的性能开销，有助于提升训练的总体性能，有助于提升跨节点访问的性能。

与前述提升分布式缓存跨节点访问性能的方法的实施例相对应，本发明还提供了提升分布式缓存跨节点访问性能的装置的实施例。

参见图7，本发明实施例提供的一种提升分布式缓存跨节点访问性能的装置，包括一个或多个处理器，用于实现上述实施例中的提升分布式缓存跨节点访问性能的方法。

本发明提升分布式缓存跨节点访问性能的装置的实施例可以应用在任意具备数据处理能力的设备上，该任意具备数据处理能力的设备可以为诸如计算机等设备或装置。装置实施例可以通过软件实现，也可以通过硬件或者软硬件结合的方式实现。以软件实现为例，作为一个逻辑意义上的装置，是通过其所在任意具备数据处理能力的设备的处理器将非易失性存储器中对应的计算机程序指令读取到内存中运行形成的。从硬件层面而言，如图7所示，为本发明提升分布式缓存跨节点访问性能的装置所在任意具备数据处理能力的设备的一种硬件结构图，除了图7所示的处理器、内存、网络接口、以及非易失性存储器之外，实施例中装置所在的任意具备数据处理能力的设备通常根据该任意具备数据处理能力的设备的实际功能，还可以包括其他硬件，对此不再赘述。

上述装置中各个单元的功能和作用的实现过程具体详见上述方法中对应步骤的实现过程，在此不再赘述。

对于装置实施例而言，由于其基本对应于方法实施例，所以相关之处参见方法实施例的部分说明即可。以上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本发明方案的目的。本领域普通技术人员在不付出创造性劳动的情况下，即可以理解并实施。

本发明实施例还提供一种计算机可读存储介质，其上存储有程序，该程序被处理器执行时，实现上述实施例中的提升分布式缓存跨节点访问性能的方法。

所述计算机可读存储介质可以是前述任一实施例所述的任意具备数据处理能力的设备的内部存储单元，例如硬盘或内存。所述计算机可读存储介质也可以是任意具备数据处理能力的设备，例如所述设备上配备的插接式硬盘、智能存储卡（Smart Media Card，SMC）、SD卡、闪存卡（Flash Card）等。进一步的，所述计算机可读存储介质还可以既包括任意具备数据处理能力的设备的内部存储单元也包括外部存储设备。所述计算机可读存储介质用于存储所述计算机程序以及所述任意具备数据处理能力的设备所需的其他程序和数据，还可以用于暂时地存储已经输出或者将要输出的数据。

最后还需要值得注意的是，以上列举的仅仅是本发明的具体实施例。显然本发明不仅限于以上实施例。本领域的普通技术人员能从本发明公开的内容直接导出或者联想到的所有变形，均认为是本发明的保护范围。

Claims

1.一种提升分布式缓存跨节点访问性能的方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的提升分布式缓存跨节点访问性能的方法，其特征在于，所述映射方法具体为：根据所述数据样本的编号映射到所述数据样本所在的计算节点。

3.根据权利要求1所述的提升分布式缓存跨节点访问性能的方法，其特征在于，所述索引表用于记录预取来的样本在所述暂存区中的位置，还用于指示样本数据是否暂存在所述暂存区。

4.根据权利要求1所述的提升分布式缓存跨节点访问性能的方法，其特征在于，所述计算节点A通过批量访问接口将需要预取的样本与目标样本的编号组成一个请求发送给所述计算节点B，所述批量访问接口将多个访问请求组成一个访问请求。

5.根据权利要求1所述的提升分布式缓存跨节点访问性能的方法，其特征在于，所述方法包括并行请求方法，具体为：所述计算节点对当前步骤中需要预取的样本按照所述计算节点进行归属，对不同计算节点的样本批量预取并行执行。

6.根据权利要求1所述的提升分布式缓存跨节点访问性能的方法，其特征在于，所述计算节点在跨节点访问时根据系统资源情况决定读取当前或后续的步骤数量，将该数量称为预取深度，所述预取深度大于等于0，且小于等于轮次训练的总步骤数。

7.根据权利要求6所述的提升分布式缓存跨节点访问性能的方法，其特征在于，所述预取深度根据训练环境情况配置，所述计算节点预取样本时向前查看的步骤不超过所述预取深度。

8.根据权利要求1所述的提升分布式缓存跨节点访问性能的方法，其特征在于，所述计算节点在批次训练的步骤中，根据所述计算节点本地的可用存储空间及各个目标节点上的最大样本的尺寸，调整批量预取的数量。

9.一种提升分布式缓存跨节点访问性能的装置，其特征在于，包括一个或多个处理器，用于实现权利要求1-8中任一项所述的提升分布式缓存跨节点访问性能的方法。

10.一种计算机可读存储介质，其特征在于，其上存储有程序，该程序被处理器执行时，用于实现权利要求1-8中任一项所述的提升分布式缓存跨节点访问性能的方法。