CN115934181B

CN115934181B - 数据加载方法、装置、电子设备和存储介质

Info

Publication number: CN115934181B
Application number: CN202211385832.0A
Authority: CN
Inventors: 沈亮; 郝宏翔; 刘鹏; 巩伟宝; 吴志华; 于佃海
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Priority date: 2022-11-07
Filing date: 2022-11-07
Publication date: 2023-10-13
Anticipated expiration: 2042-11-07
Also published as: CN115934181A

Abstract

本公开提供了一种数据加载方法、装置、电子设备和存储介质，涉及自然语言处理、深度学习、云计算等领域。具体实现方案为：加载深度学习模型的模型参数的参数信息，并获取用于对深度学习模型进行深度学习的第一GPU的第一数量，在第一数量为多个的情况下，对参数信息中模型参数的第一参数值集合进行分组，以得到第一数量的模型参数的第二参数值集合，并将第一数量的模型参数的第二参数值集合，加载至第一数量的第一GPU。由此，可以实现在模型训练意外中断、硬件资源等改变的情况下，通过多个第一GPU对之前训练过程中保存的模型参数的参数值集合进行加载，并根据加载的参数值集合对深度学习模型进行继续训练，以提升模型的训练效果。

Description

数据加载方法、装置、电子设备和存储介质

技术领域

本公开涉及人工智能领域，具体涉及自然语言处理、深度学习、云计算等技术领域，尤其涉及数据加载方法、装置、电子设备和存储介质。

背景技术

在使用多个GPU(graphics processing unit，图形处理器)(后续简称为多卡)对深度学习模型进行分布式训练中，如果模型训练意外终止或中断，则需要重启训练任务，并恢复训练现场，以对深度学习模型进行继续训练。或者，如果硬件资源、训练策略等改变，则需保存训练现场，并迁移到其他环境进行训练现场的恢复，以对深度学习模型进行继续训练。因此，如何实现训练现场的恢复，以尽可能少地丢失训练成果是非常重要的。

发明内容

本公开提供了一种用于数据加载方法、装置、电子设备和存储介质。

根据本公开的一方面，提供了一种数据加载方法，包括：

获取用于对深度学习模型进行深度学习的第一图形处理器GPU的第一数量；

加载所述深度学习模型的模型参数的参数信息；

在所述第一数量为多个的情况下，对所述参数信息中所述模型参数的第一参数值集合进行分组，以得到所述第一数量的所述模型参数的第二参数值集合；

将所述第一数量的所述模型参数的第二参数值集合，加载至所述第一数量的所述第一GPU。

根据本公开的另一方面，提供了一种数据加载装置，包括：

获取模块，用于获取用于对深度学习模型进行深度学习的第一图形处理器GPU的第一数量；

第一加载模块，用于加载所述深度学习模型的模型参数的参数信息；

分组模块，用于在所述第一数量为多个的情况下，对所述参数信息中所述模型参数的第一参数值集合进行分组，以得到所述第一数量的所述模型参数的第二参数值集合；

第二加载模块，用于将所述第一数量的所述模型参数的第二参数值集合，加载至所述第一数量的所述第一GPU。

根据本公开的又一方面，提供了一种电子设备，包括：

至少一个处理器；以及

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行本公开上述一方面提出的数据加载方法。

根据本公开的再一方面，提供了一种计算机指令的非瞬时计算机可读存储介质，所述计算机指令用于使所述计算机执行本公开上述一方面提出的数据加载方法。

根据本公开的还一方面，提供了一种计算机程序产品，包括计算机程序，所述计算机程序在被处理器执行时实现本公开上述一方面提出的数据加载方法。

应当理解，本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征，也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。

附图说明

附图用于更好地理解本方案，不构成对本公开的限定。其中：

图1为本公开实施例一所提供的数据加载方法的流程示意图；

图2为本公开实施例二所提供的数据加载方法的流程示意图；

图3为本公开实施例三所提供的数据加载方法的流程示意图；

图4为本公开实施例所提供的合并参数原理示意图；

图5为本公开实施例所提供的切分参数原理示意图；

图6为本公开实施例四所提供的数据加载方法的流程示意图；

图7为本公开实施例五所提供的数据加载方法的流程示意图；

图8为本公开实施例所提供的模型参数的保存和加载流程示意图；

图9为本公开实施例所提供的多卡的模型参数与单卡的模型参数之间的映射关系示意图；

图10为本公开实施例所提供的动态图转自动并行行推理流程示意图；

图11为本公开实施例六所提供的数据加载装置的结构示意图；

图12示出了可以用来实施本公开的实施例的示例电子设备的示意性框图。

具体实施方式

以下结合附图对本公开的示范性实施例做出说明，其中包括本公开实施例的各种细节以助于理解，应当将它们认为仅仅是示范性的。因此，本领域普通技术人员应当认识到，可以对这里描述的实施例做出各种改变和修改，而不会背离本公开的范围和精神。同样，为了清楚和简明，以下的描述中省略了对公知功能和结构的描述。

相关技术中，在采用多卡对深度学习模型进行分布式训练(简称多卡训练)时，可以通过以下两种方式，保存和恢复训练现场：

第一种，DeepSpeed(一种基于pytorch(一个开源的Python机器学习库)的大规模模型套件)。其中，DeepSpeed的核心是zero(Zero Redundancy Optimizer)，简单来说，它是一种显存优化的DP(data parallelism，数据并行)方案。

1、当保存的mp维度(用于保存模型参数的GPU数量)大于加载的mp维度(用于加载模型参数的GPU数量)，且保存的mp维度和加载的mp维度之间存在整数倍关系时，对加载的模型参数进行合并merge操作；

2、当保存的mp维度小于加载的mp维度，且保存的mp维度和加载的mp维度之间存在整数倍关系时，对加载的模型参数进行切分split操作。

3、当训练策略为PP(pipeline parallelism，流水线并行)时，采用多卡加载模型参数和多卡保存模型参数的方式，不进行模型参数的合并操作；

4、当训练策略为MP(model parallelism，模型并行，或翻译为tensorparallelism，简称TP)+PP组合时，分开处理：在模型参数保存时，多卡的模型参数(即MP的模型参数)进行merge操作；在模型参数加载时，多卡的模型参数(即MP的模型参数)进行split操作；

5、当训练策略为zero1或zero2时，不切分模型参数，类似于数据并行模型保存；

6、当训练策略为zero3时，模型参数分开保存，加载时调用all_gather(汇聚)实现模型参数的汇聚。

第二种，Megatron(一种分布式训练框架，用来训练超大规模的语言模型)。

模型参数的保存和加载主要用于复现现场、复用训练，训练推理均为动态图。

为了可以完全复用现场，保存的内容可以包括：模型的版本号；迭代轮数；优化器状态；调度器Scheduler状态、RNG(Random Numeral Generator，随机数生成器)的随机控制状态。

通过复用上述信息，可以保证完全复现训练之前的训练状态。

然而上述第一种方式，在使用不同MP策略保存或加载模型参数时，DeepSpeed只能支持整数倍关系的MP维度，不够灵活。

上述第二种方式，Megatron只专注于训练现场的保存，没有考虑对不同训练策略进行保存和加载。

此外，上述第一种方式和第二种方式均没有考虑为静态图推理保存模型参数的情况。

针对上述存在的至少一项问题，本公开提出一种数据加载方法、装置、电子设备和存储介质。

下面参考附图描述本公开实施例的数据加载方法、装置、电子设备和存储介质。

图1为本公开实施例一所提供的数据加载方法的流程示意图。

本公开实施例以该数据加载方法被配置于数据加载装置中来举例说明，该数据加载装置可以应用于任一电子设备中，以使该电子设备可以执行数据加载功能。

其中，电子设备可以为任一具有计算能力的设备，例如可以为PC(PersonalComputer，个人电脑)、移动终端、服务器等，移动终端例如可以为车载设备、手机、平板电脑、个人数字助理、穿戴式设备等具有各种操作系统、触摸屏和/或显示屏的硬件设备。

如图1所示，该数据加载方法可以包括以下步骤：

步骤101，获取用于对深度学习模型进行深度学习的第一GPU的第一数量。

在本公开实施例中，对深度学习模型的模型结构不作限制，比如，深度学习模型可以为以Transformer为基本结构的模型，或者，深度学习模型也可以为其他结构的模型。

在本公开实施例中，对深度学习模型的应用场景不作限制，比如，深度学习模型可以应用于文本或图片的特征提取(比如语义特征提取)、文本分类、知识抽取或实体抽取、情感分类、机器翻译、图片分类、目标检测(比如障碍物检测、行人检测等)等场景。

在本公开实施例中，第一GPU为用于对深度学习模型进行深度学习或训练的GPU。

在本公开实施例中，第一GPU和第一GPU的数量(本公开中记为第一数量)可以根据用户传入的模型信息确定的。

步骤102，加载深度学习模型的模型参数的参数信息。

在本公开实施例中，模型参数的数量可以为至少一个。

在本公开实施例中，参数信息可以包括以下至少一项：

1、模型参数的标识信息，比如名称、索引等；

2、模型参数的参数值集合，该参数值集合的展示形式可以为矩阵形式或向量形式，比如，当模型参数为权重参数时，该参数值集合中包含的多个参数值可以为权重参数对应的权重矩阵中的各个元素；

3、模型参数的切分方式，比如行切(按行切分，或称为横切)、列切(按列切分，或称为竖切)；

4、模型参数所在的切分通信组(比如MP通信组)的标识信息(比如序号)；

5、模型参数所在的深度学习模型的训练策略，其中，训练策略可以包括以下至少一项：PP、DP、MP、zero1、zero2、zero3。

在本公开实施例中，模型参数的参数信息可以保存在一个GPU中，或者也可以保存在多个GPU中。在模型参数的参数信息保存在一个GPU的情况下，可以从该唯一的GPU中加载模型参数的参数信息，而在模型参数的参数信息保存在多个GPU的情况下，可以从多个GPU中加载模型参数的参数信息。

步骤103，在第一数量为多个的情况下，对参数信息中模型参数的第一参数值集合进行分组，以得到第一数量的模型参数的第二参数值集合。

在本公开实施例中，第一参数值集合的展示形式可以为矩阵形式或向量形式。

在本公开实施例中，在第一GPU的第一数量为多个的情况下，可以对参数信息中模型参数的第一参数值集合进行分组，以得到第一数量的模型参数的第二参数值集合。

步骤104，将第一数量的模型参数的第二参数值集合，加载至第一数量的第一GPU。

在本公开实施例中，可以将第一数量的模型参数的第二参数值集合，加载至第一数量的第一GPU，即每个第一GPU加载模型参数的一个第二参数值集合，以使第一GPU根据加载的模型参数的第二参数值集合对深度学习模型进行继续训练。

本公开实施例的数据加载方法，通过加载深度学习模型的模型参数的参数信息，并获取用于对深度学习模型进行深度学习的第一GPU的第一数量，在第一数量为多个的情况下，对参数信息中模型参数的第一参数值集合进行分组，以得到第一数量的模型参数的第二参数值集合，并将第一数量的模型参数的第二参数值集合，加载至第一数量的第一GPU。由此，可以实现在模型训练意外中断、硬件资源等改变的情况下，通过多个第一GPU对之前训练过程中保存的模型参数的参数值集合进行加载，并根据加载的参数值集合对深度学习模型进行继续训练，以提升模型的训练效果。

需要说明的是，本公开的技术方案中，所涉及的用户个人信息的收集、存储、使用、加工、传输、提供和公开等处理，均在征得用户同意的前提下进行，并且均符合相关法律法规的规定，且不违背公序良俗。

为了清楚说明本公开上述实施例中是如何对参数信息中模型参数的第一参数值集合进行分组，以得到第一数量的第二参数值集合的，本公开还提出一种数据加载方法。

图2为本公开实施例二所提供的数据加载方法的流程示意图。

如图2所示，该数据加载方法可以包括以下步骤：

步骤201，获取用于对深度学习模型进行深度学习的第一GPU的第一数量。

步骤201的解释说明可以参见本公开任一实施例中的相关描述，在此不做赘述。

步骤202，从多个第二GPU中加载深度学习模型的模型参数的参数信息。

其中，参数信息的解释说明可以参见前述实施例中的相关描述，在此不做赘述。

在本公开实施例中，当模型参数的参数信息存储于多个GPU(本公开中记为第二GPU)的情况下，可以从多个第二GPU中加载模型参数的参数信息。

步骤203，在第一数量为多个的情况下，根据参数信息，确定模型参数的第一切分方式。

在本公开实施例中，在第一GPU的数量为多个的情况下，可以从参数信息中提取模型参数的第一切分方式(比如行切、列切)。

步骤204，根据第一切分方式和第一数量，对从多个第二GPU中加载的参数信息中的模型参数的第一参数值集合进行分组，以得到第一数量的模型参数的第二参数值集合。

在本公开实施例中，可以根据第一切分方式和第一数量，对从多个第二GPU中加载的参数信息中的模型参数的第一参数值集合进行分组，以得到第一数量的模型参数的第二参数值集合。

由此，可以使得第一GPU中加载的模型参数的第二参数值集合的切分方式与第二GPU中保存的模型参数的第一参数值集合的切分方式匹配，从而可以复现之前的训练状态，避免训练成果的丢失。

步骤205，将第一数量的模型参数的第二参数值集合，加载至第一数量的第一GPU。

步骤205的解释说明可以参见本公开任一实施例中的相关描述，在此不做赘述。

本公开实施例的数据加载方法，通过在第一数量为多个的情况下，根据参数信息，确定模型参数的第一切分方式；根据第一切分方式和第一数量，对从多个第二GPU中加载的参数信息中的模型参数的第一参数值集合进行分组，以得到第一数量的模型参数的第二参数值集合。由此，可以使得第一GPU中加载的模型参数的第二参数值集合的切分方式与第二GPU中保存的模型参数的第一参数值集合的切分方式匹配，从而可以复现之前的训练状态，避免训练成果的丢失。

为了清楚说明上述实施例中是如何根据第一切分方式和第一数量，对从多个第二GPU中加载的参数信息中的模型参数的第一参数值集合进行分组的，本公开还提出一种数据加载方法。

图3为本公开实施例三所提供的数据加载方法的流程示意图。

如图3所示，该数据加载方法可以包括以下步骤：

步骤301，获取用于对深度学习模型进行深度学习的第一GPU的第一数量。

步骤302，从多个第二GPU中加载深度学习模型的模型参数的参数信息。

步骤303，在第一数量为多个的情况下，根据参数信息，确定模型参数的第一切分方式。

步骤301至303的解释说明可以参见本公开任一实施例中的相关描述，在此不做赘述。

步骤304，确定第二GPU的第二数量。

在本公开实施例中，可以统计第二GPU的数量，本公开中记为第二数量。

步骤305，在第一数量为第二数量的非整数倍，或第二数量为第一数量的非整数倍的情况下，根据第一切分方式，将从多个第二GPU中加载的参数信息中的模型参数的第一参数值集合进行合并，以得到第三参数值集合。

在本公开实施例中，当第一数量为第二数量的非整数倍(比如，第一数量为4，第二数量为6)，和/或，当第二数量为第一数量的非整数倍(比如，第二数量为3，第一数量为4)的情况下，可以根据第一切分方式，将从多个GPU中加载的参数信息中的模型参数的第一参数值集合进行合并，以得到该模型参数的第三参数值集合。

作为一种示例，针对每个模型参数，可以根据该模型参数的标识信息(比如参数名)，从多个GPU中加载的参数信息中，确定与该标识信息匹配的各参数信息，并从与该标识信息匹配的各参数信息中提取该模型参数的第一切分方式，从而可以根据第一切分方式，对与该标识信息匹配的各参数信息中的该模型参数的第一参数值集合进行合并，以得到该模型参数的第三参数值集合。

一种示例，标记第二数量为S₂，假设模型参数1的参数名为P1，从多个GPU中加载的参数信息中，确定与P1匹配的多个参数信息分别为参数信息1、参数信息2、…、参数信息S₂，若从各参数信息中确定该模型参数1的第一切分方式为行切，则可以将与各参数信息中的模型参数1的第一参数值集合进行横向合并，以得到该模型参数1的第三参数值集合，若从各参数信息中确定该模型参数1的第一切分方式为列切，则可以将与各参数信息中的模型参数1的第一参数值集合进行纵向合并，以得到该模型参数1的第三参数值集合。

例如，当第一切分方式为行切时，参数信息中还可以包括第二GPU的进程序号，可以根据各第二GPU的进程序号，将各参数信息中的模型参数1的第一参数值集合进行横向合并，以得到该模型参数1的第三参数值集合。

举例而言，假设S₂＝3，参数信息1中的模型参数1的第一参数值集合为矩阵W₂'_×4，参数信息1中第二GPU的进程序号为0，参数信息2中模型参数1的第一参数值集合为矩阵W₂”_×4，参数信息2中第二GPU的进程序号为1，参数信息3中模型参数1的第一参数值集合为矩阵W₂”_×'₄，参数信息3中第二GPU的进程序号为2，则模型参数1的第三参数值集合可以为6×4的矩阵

再例如，当第一切分方式为列切时，参数信息中还可以包括第二GPU的进程序号，可以根据各第二GPU的进程序号，将各参数信息中的模型参数1的第一参数值集合进行纵向合并，以得到该模型参数1的第三参数值集合。

举例而言，假设S₂＝3，参数信息1中的模型参数1的第一参数值集合为矩阵A'_2×4，参数信息1中第二GPU的进程序号为0，参数信息2中模型参数1的第一参数值集合为矩阵A'₂'_×4，参数信息2中第二GPU的进程序号为1，参数信息3中模型参数1的第一参数值集合为矩阵A'₂”_×4，参数信息3中第二GPU的进程序号为2，则模型参数1的第三参数值集合可以为2×12的矩阵

步骤306，根据第一数量和第一切分方式，对第三参数值集合进行切分，以得到第一数量的第二参数值集合。

在本公开实施例中，可以根据第一数量和第一切分方式，对第三参数值集合进行切分，以得到第一数量的第二参数值集合。

举例而言，标记第一数量为S₁，假设第三参数值集合为u×v的矩阵，第一切分方式为行切，则第二参数值集合可以为(u/S₁)×v的矩阵，假设第三参数值集合为u×v的矩阵，第一切分方式为列切，则第二参数值集合可以为u×(v/S₁)的矩阵。

在本公开实施例的一种可能的实现方式中，在第二数量为第一数量的M倍的情况下，可以根据M和第一切分方式，将从多个第二GPU中加载的参数信息中的模型参数的第一参数值集合进行合并，以得到第一数量的第二参数值集合；其中，M为大于1的正整数。

也就是说，在第二数量为第一数量的M倍的情况下，可以根据第一切分方式，将从M个GPU中加载的参数信息中的模型参数的第一参数值集合合并为一个第二参数值集合。例如，假设第一参数值集合为a×b的矩阵，N＝2，当第一切分方式为行切时，可以将2个第一参数值集合合并为1个(2a)×b的矩阵(即第二参数值集合)，而当第一切分方式为列切时，可以将2个第一参数值集合合并为1个a×(2b)的矩阵(即第二参数值集合)。

作为一种示例，以训练策略为MP，第二数量为4，第一数量为2进行示例，如图4所示，模型参数P1的切分方式为行切(row)，模型参数P2的切分方式为列切(col)，可以根据存储P1的参数信息的第二GPU的进程序号(0、1、2、3)，将P1的参数信息中的第一参数值集合进行两两横向合并，即将进程序号为0和1对应的参数信息中的第一参数值集合进行横向合并，将进程序号为2和3对应的参数信息中的第一参数值集合进行横向合并，得到两个第二参数值集合。可以根据存储P2的参数信息的第二GPU的进程序号(0、1、2、3)，将P2的参数信息中的第一参数值集合进行两两纵向合并，得到两个第二参数值集合。

综上，在第二数量为第一数量的M倍的情况下，无需对从多个第二GPU中加载的参数信息中的模型参数的第一参数值集合进行合并后再切分，仅需将M个第一参数值集合直接合并为一个第二参数值集合即可，可以降低计算的复杂度，提升计算效率。

在本公开实施例的另一种可能的实现方式中，在第一数量为第二数量的N倍的情况下，可以根据N和第一切分方式，将从多个第二GPU中加载的参数信息中的模型参数的第一参数值集合进行切分，以得到第一数量的第二参数值集合。其中，N为大于1的正整数。

也就是说，在第一数量为第二数量的N倍的情况下，可以根据第一切分方式，将从每个GPU中加载的参数信息中的模型参数的第一参数值集合切分为N个第二参数值集合。例如，假设第一参数值集合为a×b的矩阵，N＝2，当第一切分方式为行切时，可以将第一参数值集合切分为2个(a/2)×b的矩阵(即第二参数值集合)，而当第一切分方式为列切时，可以将第一参数值集合切分为2个a×(b/2)的矩阵(即第二参数值集合)。

作为一种示例，以训练策略为MP，第一数量为4，第二数量为2进行示例，如图5所示，模型参数P1的切分方式为行切(row)，模型参数P2的切分方式为列切(col)，可以将每个P1的参数信息中的第一参数值集合进行横向切分，得到两个第二参数值集合。可以将每个P2的参数信息中的第一参数值集合进行纵向切分，得到两个第二参数值集合。

综上，在第一数量为第二数量的N倍的情况下，无需对从多个第二GPU中加载的参数信息中的模型参数的第一参数值集合进行合并后再切分，仅需将每个第一参数值集合直接切分为N个第二参数值集合即可，可以降低计算的复杂度，提升计算效率。

在本公开实施例的又一种可能的实现方式中，在第一数量等于第二数量的情况下，可以直接将从每个第二GPU中加载的参数信息中的模型参数的第一参数值集合，作为一个第二参数值集合。

由此，当第一数量和第二数量相等的情况下，无需对加载的参数信息中的模型参数的第一参数值集合进行合并后再切分，仅需将加载的多个第一参数值集合，分别加载至多个第一GPU，可以降低计算的复杂度，提升计算效率。

步骤307，将第一数量的模型参数的第二参数值集合，加载至第一数量的第一GPU。

步骤307的解释说明可以参见本公开任一实施例中的相关描述，在此不做赘述。

在本公开的任意一个实施例之中，每个第二参数值集合可以携带索引、序号或进程序号，比如，图4中的两个第二参数值集合的序号分别为0和1，图5中的四个第二参数值集合的序号分别为0、1、2和3，可以将各第二参数值集合，加载至进程序号与对应第二参数值集合的序号匹配的第一GPU。

仍以图4进行示例，可以将序号为0的第二参数值集合，加载至进程序号为0的第一GPU，将序号为1的第二参数值集合，加载至进程序号为1的第一GPU。

在本公开的任意一个实施例之中，当第一数量和第二数量相同时，可以从参数信息中，确定多个第二GPU对应的第一进程序号(或第一进程编号)，并确定多个第一GPU对应的第二进程序号，从而可以根据第一进程序号和第二进程序号，将从多个第二GPU中加载的参数信息中的模型参数的第一参数值集合，加载至第一数量的第一GPU。

例如，针对每个第一GPU，可以根据该第一GPU的第二进程序号，确定与该第一GPU的第二进程序号匹配或相同的第一进程序号，将该匹配或相同的第一进程序号所对应的参数信息中的第一参数值集合，加载至该第一GPU。

本公开实施例的数据加载方法，不仅适用于第一数量与第二数量之间存在整数倍关系的场景，还适用于第一数量与第二数量之间不存在整数倍关系的场景，可以提升该方法的灵活性和适用性。

图6为本公开实施例四所提供的数据加载方法的流程示意图。

如图6所示，该数据加载方法可以包括以下步骤：

步骤601，获取用于对深度学习模型进行深度学习的第一GPU的第一数量。

步骤602，从一个第三GPU中加载深度学习模型的模型参数的参数信息。

在本公开实施例中，当模型参数的参数信息存储于一个GPU(本公开中记为第三GPU)的情况下，可以从一个第三GPU中加载深度学习模型的模型参数的参数信息。

需要说明的是，在一个GPU无法存储深度学习模型的所有的模型参数的参数信息的情况下，还可以通过CPU(Central Processing Unit，中央处理器)存储部分模型参数的参数信息。

步骤603，在第一数量为多个的情况下，从参数信息中提取第二切分方式，其中，第一参数值集合是根据第二切分方式对模型参数对应的多个参数值子集进行合并得到的。

需要说明的是，在分布式训练场景中，模型参数的参数信息可存储在多个GPU中，如果想要将多个GPU中的参数信息保存在一个GPU中，则需要将参数信息进行合并。例如，可以确定多个GPU中存储的模型参数的参数值子集(比如矩阵形式)的切分方式，本公开中记为第二切分方式，并根据第二切分方式，将模型参数对应的多个参数值子集进行合并，得到该模型参数的参数信息中的第一参数值集合。

在本公开实施例中，可以从模型参数的参数信息中提取第二切分方式，其中，第一参数值集合是根据第二切分方式对模型参数在多个GPU中存储的参数值子集进行合并得到的。

步骤604，根据第二切分方式和第一数量，对参数信息中的模型参数的第一参数值集合进行切分，以得到第一数量的第二参数值集合。

在本公开实施例中，可以根据第二切分方式和第一数量，对参数信息中的模型参数的第一参数值集合进行切分，以得到第一数量的第二参数值集合。

作为一种示例，当第一切分方式为行切时，可以对第一参数值集合进行横向切分，得到第一数量的第二参数值集合。例如，标记第一数量为S₁，假设第一参数值集合为x×y的矩阵，则第二参数值集合可以为(x/S₁)×y的矩阵。

作为另一种示例，当第一切分方式为列切时，可以对第一参数值集合进行纵向切分，得到第一数量的第二参数值集合。例如，标记第一数量为S₁，假设第一参数值集合为x×y的矩阵，则第二参数值集合可以为x×(y/S₁)的矩阵。

步骤605，将第一数量的模型参数的第二参数值集合，加载至第一数量的第一GPU。

步骤605的解释说明可以参见本公开任一实施例中的相关描述，在此不做赘述。

在本公开的任一实施例之中，参数信息中还可以包括模型参数所在模型的训练策略，可以从参数信息中提取训练策略，并将训练策略加载至第一GPU，以使第一GPU根据加载的训练策略和模型参数的第二参数值集合进行深度学习模型的深度学习。

由此，通过对模型训练策略进行保存和加载，可以便于训练现场的完全复现，从而进一步降低训练成果的丢失。

本公开实施例的数据加载方法，通过在模型参数的参数信息存储于一个第三GPU的情况下，根据第二切分方式，将从该第三GPU中加载的参数信息中的模型参数的第一参数值集合进行直接切分，以得到第一数量的第二参数值集合，由此，可以使得第一GPU中加载的模型参数的第二参数值集合的切分方式与第三GPU中保存的模型参数的第一参数值集合对应的切分方式匹配，从而可以复现之前的训练状态，避免训练成果的丢失。

需要说明的是，上述为第一GPU的数量为多个所对应的各个实施例，在实际应用时，还可能存在第一GPU的数量为单个的情况，即模型参数的参数值集合为单卡加载的情况，为了清楚说明本公开实施例中是如何实现单卡加载模型参数的参数值集合的，本公开还提出一种数据加载方法。

图7为本公开实施例五所提供的数据加载方法的流程示意图。

如图7所示，该数据加载方法可以包括以下步骤：

步骤701，获取用于对深度学习模型进行深度学习的第一GPU的第一数量。

步骤701的解释说明可以参见本公开任一实施例中的相关描述，在此不做赘述。

步骤702，从第四GPU中加载深度学习模型的模型参数的参数信息。

在本公开实施例中，当模型参数的参数信息存储于至少一个第四GPU的情况下，可以从各第四GPU中加载模型参数的参数信息。

步骤703，在第一数量为多个的情况下，确定第四GPU的第三数量。

在本公开实施例中，可以统计第四GPU的数量，本公开中记为第三数量。

步骤704，在第三数量为多个的情况下，根据参数信息，确定模型参数的第三切分方式。

在本公开实施例中，在第四GPU的数量为多个的情况下，即通过多卡存储模型参数的参数信息，此时，可以从模型参数的参数信息中，提取该模型参数的第三切分方式。

步骤705，根据第三切分方式，将从多个第四GPU中加载的参数信息中的模型参数的第一参数值集合进行合并，以得到第四参数值集合。

在本公开实施例中，可以根据第三切分方式，将从多个第四GPU中加载的参数信息中的模型参数的第一参数值集合进行合并，以得到该模型参数的第四参数值集合。

作为一种示例，当第一切分方式为行切时，可以对第一参数值集合进行横向合并，得到第四参数值集合。例如，标记第三数量为S₃，假设第一参数值集合为x×y的矩阵，则第四参数值集合可以为(S₃*x)×y的矩阵。

比如，参数信息中还可以包括第四GPU的进程序号，可以根据各第四GPU的进程序号，将各参数信息中的模型参数的第一参数值集合进行横向合并，以得到该模型参数的第四参数值集合。

作为另一种示例，当第一切分方式为列切时，可以对第一参数值集合进行纵向合并，得到第四参数值集合。例如，标记第三数量为S₃，假设第一参数值集合为x×y的矩阵，则第四参数值集合可以为x×(S₃*y)的矩阵。

比如，参数信息中还可以包括第四GPU的进程序号，可以根据各第四GPU的进程序号，将各参数信息中的模型参数的第一参数值集合进行纵向合并，以得到该模型参数的第四参数值集合。

步骤706，将第四参数值集合，加载至第一GPU。

在本公开实施例中，可以将模型参数的第四参数值集合，加载至第一GPU。

步骤707，在第三数量为单个的情况下，将参数信息中的模型参数的第一参数值集合，加载至第一GPU。

在本公开实施例中，在第四GPU的数量为单个的情况下，即通过单卡存储模型参数的参数信息，此时，可以直接将参数信息中的模型参数的第一参数值集合，加载至第一GPU。由此，在单卡存储和单卡加载的情况下，无需对参数信息中的模型参数的第一参数值集合进行切分或合并，可以提升数据的加载效率。

需要说明的是，上述步骤704至706与步骤707为并列的两种实现方式，实际应用时，仅需择一执行。

在本公开的任意一个实施例之中，参数信息中还可以包括模型参数所在模型的训练策略，可以从参数信息中提取训练策略，并将训练策略加载至第一GPU，以使第一GPU根据加载的训练策略以及模型参数的第四参数值集合或第一参数值集合进行深度学习模型的深度学习。

由此，通过对模型训练策略进行保存和加载，便于训练现场的完全复现，从而进一步降低训练成果的丢失。

本公开实施例的数据加载方法，不仅可以适用于多个GPU加载模型参数的参数值集合的场景，还用于单个GPU加载模型参数的参数值集合的场景，可以提升该方法的灵活性和适用性。

在本公开的任意一个实施例之中，通过保存切分信息以及训练状态来实现分布式的模型参数在不同分布式训练策略(包含PP、DP、MP、zero1、zero2和zero3中的至少一项)下的灵活保存与加载并完全恢复。通过分布式的模型参数、切分信息和训练现场同时记录，可以对具体的分布式训练策略透明，对继续训练模型时的训练超参数透明，从而更加方便开发人员的模型训练、迁移训练与推理部署，无需考虑不同分布式训练策略配置下的模型参数的保存与加载问题。

作为一种示例，模型参数的保存和加载流程可以如图8所示，其中，rank0、rank1、rank2和rank3分别指GPU0、GPU1、GPU2和GPU3的进程编号。在模型参数的保存阶段，可以根据用户传入的参数，确定是单个GPU(单卡)存储模型参数还是多个GPU(多卡)存储模型参数。

在模型参数的加载阶段，可以根据传入的模型参数，确定是多个GPU加载模型参数还是单个GPU加载模型参数。

其中，需要建立多卡的模型参数与单卡的模型参数之间的映射关系。例如，假设模型参数包括P1、P2、P3、P4、P5和P6，这6个模型参数的切分方式均为列切，且假设多卡的数量为2，训练策略为MP+PP，则多卡的模型参数与单卡的模型参数之间的映射关系可以如图9所示。

可以记录每个模型参数的全局索引index和切分方式：DP和MP与单卡一致，PP与单卡不一致，例如，当训练策略为PP时，可以初始化记录每个训练参数在当前GPU中进程rank的编号，将同一PP的不同进程下的模型参数进行汇聚all_gather，并重新计算每个进程中模型参数的全局index，并记录进程所对应的PP(记为pprank)。

举例而言，假设模型参数的数量为20个，当训练策略为DP或MP，每个GPU中保存10个模型参数，其中一个GPU中10个模型参数的索引分别为0、1、2、3、…、9，另一个GPU中10个模型参数的索引分别为10、11、12、13、…、19，而当训练策略为PP时，每个GPU中保存10个模型参数，其中一个GPU中10个模型参数的索引分别为0、1、2、3、…、9，另一个GPU中10个模型参数的索引也为0、1、2、3、…、9，为了区别不同GPU上的模型参数，针对PP，可以将所有的模型参数进行汇聚，并重新确定每个模型参数的索引，比如，将另一个GPU中10个模型参数的索引加上一个偏移量，使得10个模型参数的索引分别为10、11、12、13、…、19。

需要说明的是，本公开的任意一个实施例之中，可以根据模型参数名称(即参数名)，定位多个GPU中属于同一模型参数的各个参数信息，保存模型参数的索引的作用为：当模型参数名称出错时，可以根据索引为模型参数重新命名。

图8中Merge参数的原理可以如图4所示，以训练策略为MP进行示例，可以映射index和模型参数，并根据index，确定属于同一模型参数的参数信息，根据参数信息，确定模型参数的切分方式，从而可以根据切分方式对模型参数的参数信息中的参数值集合进行合并，并赋值给GPU中对应的模型参数。

图8中Split参数的原理可以如图5所示，以训练策略为MP进行示例，可以映射index和模型参数，并根据index，确定属于同一模型参数的参数信息，根据参数信息，确定模型参数的切分方式，按照切分方式读取模型参数或读取完整模型参数的参数值集合后，再进行切分(可选地，有些被切分的模型参数不一定需要全部加载)，将切分后的参数值集合赋值给各GPU中对应的模型参数。

可选地，还可以将图8所示的分布式保存和加载的动态图保存为静态图自动并行推理所需的模型参数。

作为一种示例，动态图转自动并行行推理流程可以如图10所示，其中，AutoShard是指自动切分。用户可以首先组建单卡组网，然后使用设定的API(ApplicationProgramming Interface，应用程序接口)，比如FleetAPI(一种分布式训练的高级或统一API)将单卡组网封装成分布式组网。通过分布式保存API(DistSave API)将分布式的模型参数与模型参数的切分信息保存下来，同时可以提供一份参数对应表，来表示分布式(多卡)的模型参数与单卡的模型参数之间的对应关系，最终传入自动并行推理。需要保存的分布式的模型参数的参数信息可以包括参数名、模型参数的切分方式、模型参数所在模型的分布式训练策略以及模型参数所在切分通信组(比如MP通信组)的序号。

本公开所提供的数据加载方法可以适用于以下场景：

第一，模型训练过程中意外终止，需要重启恢复训练现场，以对模型进行继续训练。

第二，由于硬件资源等改变、模型训练过程中训练策略改变，需要保存训练现场，并迁移到其他训练环境对模型进行继续训练。

第三，训练完成用于静态图(自动并行)推理。

在采用多卡对深度学习模型进行训练时，将多卡上的模型参数保存至单个GPU(单卡)存储，需要对多卡上的模型参数进行整理后保存，满足后续动态图转静态图的需求。

综上，可以实现在模型训练出现意外中断的情况下，尽可能少地丢失训练成果，同时更加便于使用不同训练策略训练同一任务。支持保存为静态图自动并行推理所需的模型参数。

与上述图1至图7实施例提供的数据加载方法相对应，本公开还提供一种数据加载装置，由于本公开实施例提供的数据加载装置与上述图1至图7实施例提供的数据加载方法相对应，因此在数据加载方法的实施方式也适用于本公开实施例提供的数据加载装置，在本公开实施例中不再详细描述。

图11为本公开实施例六所提供的数据加载装置的结构示意图。

如图11所示，该数据加载装置1100可以包括：获取模块1101、第一加载模块1102、分组模块1103以及第二加载模块1104。

其中，获取模块1101，用于获取用于对深度学习模型进行深度学习的第一图形处理器GPU的第一数量。

第一加载模块1102，用于加载深度学习模型的模型参数的参数信息。

分组模块1103，用于在第一数量为多个的情况下，对参数信息中模型参数的第一参数值集合进行分组，以得到第一数量的模型参数的第二参数值集合。

第二加载模块1104，用于将第一数量的模型参数的第二参数值集合，加载至第一数量的第一GPU。

在本公开实施例的一种可能的实现方式中，参数信息存储于多个第二GPU中，分组模块1103，用于：根据参数信息，确定模型参数的第一切分方式；根据第一切分方式和第一数量，对从多个第二GPU中加载的参数信息中的模型参数的第一参数值集合进行分组，以得到第一数量的模型参数的第二参数值集合。

在本公开实施例的一种可能的实现方式中，分组模块1103，用于：确定第二GPU的第二数量；在第一数量为第二数量的非整数倍，或第二数量为第一数量的非整数倍的情况下，根据第一切分方式，将从多个第二GPU中加载的参数信息中的模型参数的第一参数值集合进行合并，以得到第三参数值集合；根据第一数量和第一切分方式，对第三参数值集合进行切分，以得到第一数量的第二参数值集合。

在本公开实施例的一种可能的实现方式中，分组模块1103，还用于：在第一数量为第二数量的N倍的情况下，根据N和第一切分方式，将从多个第二GPU中加载的参数信息中的模型参数的第一参数值集合进行切分，以得到第一数量的第二参数值集合；在第二数量为第一数量的M倍的情况下，根据M和第一切分方式，将从多个第二GPU中加载的参数信息中的模型参数的第一参数值集合进行合并，以得到第一数量的第二参数值集合；其中，N和M均为大于1的正整数。

在本公开实施例的一种可能的实现方式中，分组模块1103，还用于：在第一数量等于第二数量的情况下，将从每个第二GPU中加载的参数信息中的模型参数的第一参数值集合，作为一个第二参数值集合。

在本公开实施例的一种可能的实现方式中，参数信息存储于一个第三GPU中，分组模块1103，用于：从参数信息中提取第二切分方式，其中，第一参数值集合是根据第二切分方式对模型参数对应的多个参数值子集进行合并得到的；根据第二切分方式和第一数量，对参数信息中的模型参数的第一参数值集合进行切分，以得到第一数量的第二参数值集合。

在本公开实施例的一种可能的实现方式中，该数据加载装置1100还可以包括：

第一提取模块，用于从参数信息中提取第一训练策略。

第三加载模块，用于将第一训练策略加载至第一GPU，以使第一GPU根据加载的第一训练策略和模型参数的第二参数值集合进行深度学习模型的深度学习。

第一确定模块，用于在第一数量为单个的情况下，确定存储参数信息的第四GPU的第三数量。

第二确定模块，用于在第三数量为多个的情况下，根据参数信息，确定模型参数的第三切分方式。

合并模块，用于根据第三切分方式，将从多个第四GPU中加载的参数信息中的模型参数的第一参数值集合进行合并，以得到第四参数值集合。

第四加载模块，用于将第四参数值集合，加载至第一GPU。

第五加载模块，用于在第三数量为单个的情况下，将参数信息中的模型参数的第一参数值集合，加载至第一GPU。

第二提取模块，用于从参数信息中提取第二训练策略。

第六加载模块，用于将第二训练策略加载至第一GPU，以使第一GPU根据加载的第二训练策略以及模型参数的第一参数值集合或第四参数值集合进行深度学习模型的深度学习。

本公开实施例的数据加载装置，通过加载深度学习模型的模型参数的参数信息，并获取用于对深度学习模型进行深度学习的第一GPU的第一数量，在第一数量为多个的情况下，对参数信息中模型参数的第一参数值集合进行分组，以得到第一数量的模型参数的第二参数值集合，并将第一数量的模型参数的第二参数值集合，加载至第一数量的第一GPU。由此，可以实现在模型训练意外中断、硬件资源等改变的情况下，通过多个第一GPU对之前训练过程中保存的模型参数的参数值集合进行加载，并根据加载的参数值集合对深度学习模型进行继续训练，以提升模型的训练效果。

为了实现上述实施例，本公开还提供一种电子设备，该电子设备可以包括至少一个处理器；以及与至少一个处理器通信连接的存储器；其中，存储器存储有可被至少一个处理器执行的指令，指令被至少一个处理器执行，以使至少一个处理器能够执行本公开上述任一实施例提出的数据加载方法。

为了实现上述实施例，本公开还提供一种存储有计算机指令的非瞬时计算机可读存储介质，其中，计算机指令用于使计算机执行本公开上述任一实施例提出的数据加载方法。

为了实现上述实施例，本公开还提供一种计算机程序产品，该计算机程序产品包括计算机程序，计算机程序在被处理器执行时实现本公开上述任一实施例提出的数据加载方法。

根据本公开的实施例，本公开还提供了一种电子设备、一种可读存储介质和一种计算机程序产品。

图12示出了可以用来实施本公开的实施例的示例电子设备的示意性框图。其中，电子设备可以包括上述实施例中的服务端、客户端。电子设备旨在表示各种形式的数字计算机，诸如，膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置，诸如，个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例，并且不意在限制本文中描述的和/或者要求的本公开的实现。

如图12所示，电子设备1200包括计算单元1201，其可以根据存储在ROM(Read-OnlyMemory，只读存储器)1202中的计算机程序或者从存储单元1208加载到RAM(Random AccessMemory，随机访问/存取存储器)1203中的计算机程序，来执行各种适当的动作和处理。在RAM 1203中，还可存储电子设备1200操作所需的各种程序和数据。计算单元1201、ROM 1202以及RAM1203通过总线1204彼此相连。I/O(Input/Output，输入/输出)接口1205也连接至总线1204。

电子设备1200中的多个部件连接至I/O接口1205，包括：输入单元1206，例如键盘、鼠标等；输出单元1207，例如各种类型的显示器、扬声器等；存储单元1208，例如磁盘、光盘等；以及通信单元1209，例如网卡、调制解调器、无线通信收发机等。通信单元1209允许电子设备1200通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据。

计算单元1201可以是各种具有处理和计算能力的通用和/或专用处理组件。计算单元1201的一些示例包括但不限于CPU(Central Processing Unit，中央处理单元)、GPU(Graphic Processing Units，图形处理单元)、各种专用的AI(Artificial Intelligence，人工智能)计算芯片、各种运行机器学习模型算法的计算单元、DSP(Digital SignalProcessor，数字信号处理器)、以及任何适当的处理器、控制器、微控制器等。计算单元1201执行上文所描述的各个方法和处理，例如上述数据加载方法。例如，在一些实施例中，上述数据加载方法可被实现为计算机软件程序，其被有形地包含于机器可读介质，例如存储单元1208。在一些实施例中，计算机程序的部分或者全部可以经由ROM 1202和/或通信单元1209而被载入和/或安装到电子设备1200上。当计算机程序加载到RAM 1203并由计算单元1201执行时，可以执行上文描述的数据加载方法的一个或多个步骤。备选地，在其他实施例中，计算单元1201可以通过其他任何适当的方式(例如，借助于固件)而被配置为执行上述数据加载方法。

本文中以上描述的系统和技术的各种实施方式可以在数字电子电路系统、集成电路系统、FPGA(Field Programmable Gate Array，现场可编程门阵列)、ASIC(Application-Specific Integrated Circuit，专用集成电路)、ASSP(Application Specific StandardProduct，专用标准产品)、SOC(System On Chip，芯片上系统的系统)、CPLD(ComplexProgrammable Logic Device，复杂可编程逻辑设备)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括：实施在一个或者多个计算机程序中，该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释，该可编程处理器可以是专用或者通用可编程处理器，可以从存储系统、至少一个输入装置、和至少一个输出装置接收数据和指令，并且将数据和指令传输至该存储系统、该至少一个输入装置、和该至少一个输出装置。

用于实施本公开的方法的程序代码可以采用一个或多个编程语言的任何组合来编写。这些程序代码可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器或控制器，使得程序代码当由处理器或控制器执行时使流程图和/或框图中所规定的功能/操作被实施。程序代码可以完全在机器上执行、部分地在机器上执行，作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。

在本公开的上下文中，机器可读介质可以是有形的介质，其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备，或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、RAM、ROM、EPROM(Electrically Programmable Read-Only-Memory，可擦除可编程只读存储器)或快闪存储器、光纤、CD-ROM(Compact Disc Read-Only Memory，便捷式紧凑盘只读存储器)、光学储存设备、磁储存设备、或上述内容的任何合适组合。

为了提供与用户的交互，可以在计算机上实施此处描述的系统和技术，该计算机具有：用于向用户显示信息的显示装置(例如，CRT(Cathode-Ray Tube，阴极射线管)或者LCD(Liquid Crystal Display，液晶显示器)监视器)；以及键盘和指向装置(例如，鼠标或者轨迹球)，用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互；例如，提供给用户的反馈可以是任何形式的传感反馈(例如，视觉反馈、听觉反馈、或者触觉反馈)；并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。

可以将此处描述的系统和技术实施在包括后台部件的计算系统(例如，作为数据服务器)、或者包括中间件部件的计算系统(例如，应用服务器)、或者包括前端部件的计算系统(例如，具有图形用户界面或者网络浏览器的用户计算机，用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信(例如，通信网络)来将系统的部件相互连接。通信网络的示例包括：LAN(LocalArea Network，局域网)、WAN(Wide Area Network，广域网)、互联网和区块链网络。

计算机系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。服务器可以是云服务器，又称为云计算服务器或云主机，是云计算服务体系中的一项主机产品，以解决了传统物理主机与VPS服务(VirtualPrivate Server，虚拟专用服务器)中，存在的管理难度大，业务扩展性弱的缺陷。服务器也可以为分布式系统的服务器，或者是结合了区块链的服务器。

其中，需要说明的是，人工智能是研究使计算机来模拟人的某些思维过程和智能行为(如学习、推理、思考、规划等)的学科，既有硬件层面的技术也有软件层面的技术。人工智能硬件技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理等技术；人工智能软件技术主要包括计算机视觉技术、语音识别技术、自然语言处理技术以及机器学习/深度学习、大数据处理技术、知识图谱技术等几大方向。

深度学习是机器学习领域中一个新的研究方向。它是学习样本数据的内在规律和表示层次，这些学习过程中获得的信息对诸如文字，图像和声音等数据的解释有很大的帮助。它的最终目标是让机器能够像人一样具有分析学习能力，能够识别文字、图像和声音等数据。

云计算(cloud computing)，指的是通过网络接入弹性可扩展的共享物理或虚拟资源池，资源可以包括服务器、操作系统、网络、软件、应用和存储设备等，并可以以按需、自服务的方式对资源进行部署和管理的技术体系。通过云计算技术，可以为人工智能、区块链等技术应用、模型训练提供高效强大的数据处理能力。

根据本公开实施例的技术方案，通过加载深度学习模型的模型参数的参数信息，并获取用于对深度学习模型进行深度学习的第一GPU的第一数量，在第一数量为多个的情况下，对参数信息中模型参数的第一参数值集合进行分组，以得到第一数量的模型参数的第二参数值集合，并将第一数量的模型参数的第二参数值集合，加载至第一数量的第一GPU。由此，可以实现在模型训练意外中断、硬件资源等改变的情况下，通过多个第一GPU对之前训练过程中保存的模型参数的参数值集合进行加载，并根据加载的参数值集合对深度学习模型进行继续训练，以提升模型的训练效果。

应该理解，可以使用上面所示的各种形式的流程，重新排序、增加或删除步骤。例如，本公开中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行，只要能够实现本公开提出的技术方案所期望的结果，本文在此不进行限制。

上述具体实施方式，并不构成对本公开保护范围的限制。本领域技术人员应该明白的是，根据设计要求和其他因素，可以进行各种修改、组合、子组合和替代。任何在本公开的精神和原则之内所作的修改、等同替换和改进等，均应包含在本公开保护范围之内。

Claims

1.一种数据加载方法，所述方法包括：

加载所述深度学习模型的模型参数的参数信息；

将所述第一数量的所述模型参数的第二参数值集合，加载至所述第一数量的所述第一GPU；

在所述第一数量为单个的情况下，确定存储所述参数信息的第四GPU的第三数量；

在所述第三数量为多个的情况下，根据所述参数信息，确定所述模型参数的第三切分方式；

根据所述第三切分方式，将从所述多个第四GPU中加载的参数信息中的所述模型参数的第一参数值集合进行合并，以得到第四参数值集合；

将所述第四参数值集合，加载至所述第一GPU。

2.根据权利要求1所述的方法，其中，所述参数信息存储于多个第二GPU中，

所述对所述参数信息中所述模型参数的第一参数值集合进行分组，以得到所述第一数量的所述模型参数的第二参数值集合，包括：

根据所述参数信息，确定所述模型参数的第一切分方式；

根据所述第一切分方式和所述第一数量，对从所述多个第二GPU中加载的参数信息中的所述模型参数的第一参数值集合进行分组，以得到所述第一数量的所述模型参数的第二参数值集合。

3.根据权利要求2所述的方法，其中，所述根据所述第一切分方式和所述第一数量，对从所述多个第二GPU中加载的参数信息中的所述模型参数的第一参数值集合进行分组，包括：

确定所述第二GPU的第二数量；

在所述第一数量为所述第二数量的非整数倍，或所述第二数量为所述第一数量的非整数倍的情况下，根据所述第一切分方式，将从所述多个第二GPU中加载的参数信息中的所述模型参数的第一参数值集合进行合并，以得到第三参数值集合；

根据所述第一数量和所述第一切分方式，对所述第三参数值集合进行切分，以得到所述第一数量的第二参数值集合。

4.根据权利要求3所述的方法，其中，所述根据所述第一切分方式和所述第一数量，对从所述多个第二GPU中加载的参数信息中的所述模型参数的第一参数值集合进行分组，还包括：

在所述第一数量为第二数量的N倍的情况下，根据N和所述第一切分方式，将从所述多个第二GPU中加载的参数信息中的所述模型参数的第一参数值集合进行切分，以得到所述第一数量的第二参数值集合；

在所述第二数量为所述第一数量的M倍的情况下，根据M和所述第一切分方式，将从所述多个第二GPU中加载的参数信息中的所述模型参数的第一参数值集合进行合并，以得到所述第一数量的第二参数值集合；

其中，N和M均为大于1的正整数。

5.根据权利要求3所述的方法，其中，所述根据所述第一切分方式和所述第一数量，对从所述多个第二GPU中加载的参数信息中的所述模型参数的第一参数值集合进行分组，还包括：

在所述第一数量等于所述第二数量的情况下，将从每个所述第二GPU中加载的参数信息中的所述模型参数的第一参数值集合，作为一个所述第二参数值集合。

6.根据权利要求1所述的方法，其中，所述参数信息存储于一个第三GPU中，

从所述参数信息中提取第二切分方式，其中，所述第一参数值集合是根据所述第二切分方式对所述模型参数对应的多个参数值子集进行合并得到的；

根据所述第二切分方式和所述第一数量，对所述参数信息中的所述模型参数的第一参数值集合进行切分，以得到所述第一数量的第二参数值集合。

7.根据权利要求1-6中任一项所述的方法，其中，所述方法还包括：

从所述参数信息中提取第一训练策略；

将所述第一训练策略加载至所述第一GPU，以使所述第一GPU根据加载的所述第一训练策略和所述模型参数的第二参数值集合进行所述深度学习模型的深度学习。

8.根据权利要求1所述的方法，其中，所述方法，还包括：

在所述第三数量为单个的情况下，将从所述第四GPU中加载的参数信息中的所述模型参数的第一参数值集合，加载至所述第一GPU。

9.根据权利要求1或8所述的方法，其中，所述方法还包括：

从所述参数信息中提取第二训练策略；

将所述第二训练策略加载至所述第一GPU，以使所述第一GPU根据加载的所述第二训练策略以及所述模型参数的第一参数值集合或第四参数值集合进行所述深度学习模型的深度学习。

10.一种数据加载装置，所述装置包括：

第二加载模块，用于将所述第一数量的所述模型参数的第二参数值集合，加载至所述第一数量的所述第一GPU；

第一确定模块，用于在所述第一数量为单个的情况下，确定存储所述参数信息的第四GPU的第三数量；

第二确定模块，用于在所述第三数量为多个的情况下，根据所述参数信息，确定所述模型参数的第三切分方式；

合并模块，用于根据所述第三切分方式，将从所述多个第四GPU中加载的参数信息中的所述模型参数的第一参数值集合进行合并，以得到第四参数值集合；

第四加载模块，用于将所述第四参数值集合，加载至所述第一GPU。

11.根据权利要求10所述的装置，其中，所述参数信息存储于多个第二GPU中，所述分组模块，用于：

根据所述参数信息，确定所述模型参数的第一切分方式；

12.根据权利要求11所述的装置，其中，所述分组模块，用于：

确定所述第二GPU的第二数量；

13.根据权利要求12所述的装置，其中，所述分组模块，还用于：

其中，N和M均为大于1的正整数。

14.根据权利要求12所述的装置，其中，所述分组模块，还用于：

15.根据权利要求10所述的装置，其中，所述参数信息存储于一个第三GPU中，所述分组模块，用于：

16.根据权利要求10-11中任一项所述的装置，其中，所述装置还包括：

第一提取模块，用于从所述参数信息中提取第一训练策略；

第三加载模块，用于将所述第一训练策略加载至所述第一GPU，以使所述第一GPU根据加载的所述第一训练策略和所述模型参数的第二参数值集合进行所述深度学习模型的深度学习。

17.根据权利要求10所述的装置，其中，所述装置还包括：

第五加载模块，用于在所述第三数量为单个的情况下，将从所述第四GPU中加载的参数信息中的所述模型参数的第一参数值集合，加载至所述第一GPU。

18.根据权利要求10或17所述的装置，其中，所述装置还包括：

第二提取模块，用于从所述参数信息中提取第二训练策略；

第六加载模块，用于将所述第二训练策略加载至所述第一GPU，以使所述第一GPU根据加载的所述第二训练策略以及所述模型参数的第一参数值集合或第四参数值集合进行所述深度学习模型的深度学习。

19.一种电子设备，包括：

至少一个处理器；以及

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行权利要求1-9中任一项所述的数据加载方法。

20.一种存储有计算机指令的非瞬时计算机可读存储介质，其中，所述计算机指令用于使所述计算机执行根据权利要求1-9中任一项所述的数据加载方法。