CN117195997B

CN117195997B - 一种模型训练方法、装置、存储介质及电子设备

Info

Publication number: CN117195997B
Application number: CN202311464150.3A
Authority: CN
Inventors: 程稳; 曾令仿; 李勇; 侯瑞峥; 刘懿; 滕会刚
Original assignee: Zhejiang Lab
Current assignee: Zhejiang Lab
Priority date: 2023-11-06
Filing date: 2023-11-06
Publication date: 2024-03-01
Anticipated expiration: 2043-11-06
Also published as: CN117195997A

Abstract

本说明书公开了一种模型训练方法、装置、存储介质及电子设备，在此方法中，待训练模型部署在本地节点的计算区中，并在本地节点中部署高速缓存区以及在计算区中部署数据生成模型。在实际模型训练过程中，将训练所需要的目标数据缓存在高速缓存区中，以便计算区从高速缓存区直接进行数据读取，来进行模型训练，若没有读取到数据，则通过数据生成模型根据索引值生成的目标数据，进一步进行模型训练，并在模型训练过程中，保证模型准确度的情况下，对模型进行模型压缩，来减少模型参量。通过减少对存储区的数据访问次数以及对模型进行模型压缩，从而在一定程度上提高模型训练效率和减少存储资源浪费。

Description

一种模型训练方法、装置、存储介质及电子设备

技术领域

本说明书涉及计算机技术领域和人工智能领域，尤其涉及一种模型训练方法、装置、存储介质及电子设备。

背景技术

人工智能（Artificial Intelligence，AI）在近些年得到了大力的发展，而在AI技术发展中的关键因素是AI模型的训练效率，高能效的AI模型训练方法，不仅可以缩短训练时间，还可以节约硬件资源，从而大幅度降低训练大模型需要的能耗和成本。

目前，在AI模型训练过程中，训练数据和模型参数通常存储在存储节点，而模型需要在计算节点中进行训练，在进行模型训练过程中，需要进行跨节点的数据访问，来获得训练模型所需要的数据。

但是，当存储区中存储的数据过多时，执行模型训练的节点就需要等待（如：等待存储空间的满足要求、等待数据传输完成）若干个周期来获得所需要的数据，再使用获取到的数据进行模型训练，现有技术低效的数据访问及数据传输严重影响了训练数据的迁移和处理效率，造成AI模型训练效率低的问题。

发明内容

本说明书实施例提供一种模型训练方法、装置、存储介质及电子设备，以部分解决上述现有技术存在的问题。

本说明书实施例采用下述技术方案：

本说明书提供的一种模型训练方法，包括：

接收训练指令；

根据所述训练指令，确定待使用的训练数据的数据标识；

判断所述高速缓存区中是否缓存有所述数据标识对应的训练数据；

若否，则将所述数据标识输入到预先训练的所述数据生成模型中，以通过所述数据生成模型，生成所述数据标识对应的训练数据，作为生成数据；

将所述生成数据发送给部署在所述计算区中的待训练模型，以通过所述生成数据，对所述待训练模型进行训练。

可选地，所述方法还包括：

从预设的存储区中查询出所述数据标识对应的训练数据，作为真实数据；

以最小化所述真实数据与所述生成数据之间的偏差为优化目标，对所述数据生成模型进行再训练。

可选地，通过所述生成数据，对所述待训练模型进行训练，具体包括：

确定对待训练模型进行训练时所使用的数据，作为目标数据，所述目标数据包括所述生成数据以及所述待训练模型中包含的各网络层的网络参数；

根据所述高速缓存区的剩余存储空间，判断所述高速缓存区是否能够存储所述目标数据；

若是，将所述目标数据存储在所述高速缓存区中，以在所述待训练模型的模型训练过程中，通过调用所述高速缓存区中缓存的所述目标数据，对所述待训练模型进行训练；

若否，则将所述高速缓存区中的至少部分缓存空间进行清空，以将至少部分目标数据存储在所述高速缓存区中，以通过调用所述高速缓存区中缓存的所述至少部分目标数据，对所述待训练模型进行训练。

可选地，将所述高速缓存区中的至少部分缓存空间进行清空，以将至少部分所述目标数据存储在所述高速缓存区中，具体包括：

确定所述目标数据对应的需求顺序信息，所述需求顺序信息用于表示所述目标数据中包含的各项数据在所述待训练模型的训练过程中被使用的先后顺序；

根据所述需求顺序信息，将所述高速缓存区中的至少部分缓存空间进行清空，以将至少部分所述目标数据存储在所述高速缓存区中。

可选地，所述需求顺序信息中包含有所述待训练模型在训练过程中所使用的各项数据的使用顺序；

根据所述需求顺序信息，将所述高速缓存区中的至少部分缓存空间进行清空，以将至少部分所述目标数据存储在所述高速缓存区中，具体包括：

根据所述需求顺序信息中包含的所述待训练模型在训练过程中所使用的各项数据的使用顺序，将所述高速缓存区中在堆栈内存储至少部分数据清除，并根据所述至少部分目标数据中包含的各项数据以及所述堆栈内已存储的数据在使用顺序上的先后，其中，将所述至少部分目标数据存储在所述堆栈中。

可选地，根据所述需求顺序信息，将所述高速缓存区中的至少部分缓存空间进行清空，以将至少部分所述目标数据存储在所述高速缓存区中，具体包括：

在将所述至少部分目标数据存储在所述高速缓存区的过程中，确定所述高速缓存区的剩余缓存空间；

当确定所述高速缓存区存储所述至少部分目标数据后的剩余缓存空间不符合预设缓存条件，停止从所述存储区中获取剩余的目标数据，并通过已缓存在所述高速缓存区中的部分目标数据，对所述待训练模型进行训练；

当确定所述部分目标数据已在所述待训练模型的模型训练过程中被使用后，从所述高速缓存区中确定待释放数据，并将所述待释放数据从所述高速缓存区中释放，以继续从所述存储区中获取剩余的目标数据。

可选地，所述方法还包括：

若所述待释放数据从所述高速缓存区中被释放后所述剩余的目标数据未在预设时间内未缓存到所述高速缓存区中，则通过预设的高速通道，将从所述存储区中获取到所述剩余的目标数据发送给所述计算区中的所述待训练模型，以对所述待训练模型进行训练。

本说明书提供的一种模型训练装置，待训练模型部署在所述装置的计算区，所述装置部署有高速缓存区，所述计算区中还部署有数据生成模型，包括：

接收模块，用于接收训练指令；

确定模块，用于根据所述训练指令，确定待使用的训练数据的数据标识；

判断模块，用于判断所述高速缓存区中是否缓存有所述数据标识对应的训练数据；

生成模块，用于若否，则将所述数据标识输入到预先训练的所述数据生成模型中，以通过所述数据生成模型，生成所述数据标识对应的训练数据，作为生成数据；

应用模块，用于将所述生成数据发送给部署在所述计算区中的待训练模型，以通过所述生成数据，对所述待训练模型进行训练。

本说明书提供的一种计算机可读存储介质，所述存储介质存储有计算机程序，所述计算机程序被处理器执行时实现上述的一种模型训练方法。

本说明书提供的一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现上述的一种模型训练方法。

本说明书实施例采用的上述至少一个技术方案能够达到以下有益效果：

本说明书实施例中将待训练模型部署在本地节点的计算区中，并在计算区中部署数据生成模型以及在本地节点中部署有高速缓存区，在进行模型训练的同时，将训练所需的目标数据缓存在高速缓存区中，以使计算区可以根据训练数据对应的数据标识，从高速缓存层读取训练数据给到待训练模型，来进行模型训练，若计算区在读取过程中，没有获取到所需训练数据，则将数据标识发送给数据生成模型，数据生成模型根据数据标识生成所需训练数据，来给到待训练模型，依照生成数据来进行模型训练。

在此方法中，通过在本地节点部署高速缓存区，来缓存目标数据，计算区可以快速获取到训练数据进行模型训练，并且，当计算区没有从高速缓存区中读取到数据时，直接通过数据生成模型输出的生成数据，对模型进行训练，这样不仅可以加快数据获取效率，还可以快速获取到模型训练时需要的数据，大大提高了模型的训练效率。

附图说明

此处所说明的附图用来提供对本说明书的进一步理解，构成本说明书的一部分，本说明书的示意性实施例及其说明用于解释本说明书，并不构成对本说明书的不当限定。在附图中：

图1为本说明书实施例提供的一种模型训练方法的流程示意图；

图2为本说明书实施例提供的一种模型训练方法中数据生成模型的训练流程示意图；

图3为本说明书实施例提供的一种模型训练系统架构图；

图4为本说明书实施例提供的一种模型训练装置的结构示意图；

图5为本说明书实施例提供的电子设备的结构示意图。

具体实施方式

为使本说明书的目的、技术方案和优点更加清楚，下面将结合本说明书具体实施例及相应的附图对本说明书技术方案进行清楚、完整地描述。显然，所描述的实施例仅是本说明书一部分实施例，而不是全部的实施例。基于本说明书中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本说明书保护的范围。

以下结合附图，详细说明本说明书各实施例提供的技术方案。

图1为本说明书实施例提供的一种模型训练方法的流程示意图，包括：

S100：接收训练指令。

AI模型训练由于模型参数中包含的数据量过大，一般采用应用广泛的流水线的并行分布式训练方法，对模型进行训练。

训练开始时，待训练模型存储在一个或是多个节点中，将训练数据存储在另外其他节点的存储区中，通过向存储区的节点发送数据请求，来获得训练模型所需要的目标数据，进而通过获取的目标数据进行模型训练，经过多次训练，直到模型精度达到需求后，可将训练好的模型进行部署。

在使用大规模分布式训练方法进行训练的过程中，计算区会产生大量的计算结果，为了保证在训练过程中存储区数据的一致性，需要在不同的节点中频繁进行跨节点数据传输。

并且，为了能够提高训练出的模型的精度，在模型开始训练之前，会设置较多的模型参数，这样不仅会增加模型训练过程中的计算难度，同时，模型训练时需要多次遍历全部的参数，以便进行参数的更新，降低了模型训练效率，并造成资源浪费。

进一步地，模型训练时，要从存储区进行数据读取，以此来进行模型训练，但由于存储区中存储的数据量较大，需要等待若干个周期，来从存储区得到训练时需要用到的数据，频繁从存储区进行跨节点的数据访问，来进行模型训练，降低了模型训练效率。

再者，在进行模型训练时，由于训练数据中有大量冗余，造成数据传输效率低以及造成资源浪费。

综合上述问题，虽然现有技术也可以针对大规模模型进行训练，但仍会造成资源浪费以及模型训练效率低的问题。为了解决上述问题，在本说明书实施例中，将待训练模型部署在本地节点的计算区中，同时在计算区中部署数据生成模型以及在本地节点中部署有高速缓存区。在模型训练过程中，将训练所需要的目标数据缓存在高速缓存区中，以便计算区从高速缓存区直接进行数据读取，来进行模型训练，并在模型训练过程中，保证模型准确度的情况下，对模型进行模型压缩，来减少模型参量。其中，若在模型训练过程中没有从高速缓存区中读取到所需的数据，则通过数据生成模型根据数据标识来生成所需的数据，以加速模型训练过程。

在此方法中，通过在计算区中部署数据生成模型，在本地节点中部署有高速缓存区，来进行目标数据的缓存，这样可以加快模型训练过程中的数据读取效率，并且，当未从高速缓存区中读取到所需的数据时，可以通过数据生成模型来生成相应的数据，以推进模型的训练过程，这样不仅可以减少等待获取数据的时间，还可以快速获取到模型训练时需要的数据，大大提高了模型的训练效率。

对于本说明书提供的一种模型训练方法来说，可以通过诸如台式电脑、笔记本电脑等终端设备作为执行主体，也可以通过服务器作为执行主体。而为了便于描述，下面仅以终端设备为执行主体，对本说明书提供的一种模型训练方法进行描述。

接下来，终端设备需要先对模型进行训练。

在本说明书实施例中，终端设备接收训练指令。其中，这里提到的训练指令用于触发执行针对部署在本地节点的计算区的待训练模型的训练任务。

具体的，该训练指令具体可以有多种不同的形式，例如，该训练指令可以是模型训练任务起始时用户通过在终端设备中所执行的操作而生成的指令，即，用户可以根据自身的实际需求，来确定出需要训练的待训练模型对应的模型信息，而终端设备则可以通过用户确认的这些模型信息，来生成训练指令，并通过该训练指令，触发后续训练动作。其中，模型信息至少包括模型的各种参数以及资源需求，如，模型大小，层数，精度需求，学习率，输入数据，输入数据以及AI框架等信息。

再例如，由于在实际应用中，一个模型的训练过程需要通过多种步骤的执行来完成，那么，上述训练指令也可以是在模型训练开始后，其中一个步骤所对应的训练指令，即终端设备通过该训练指令，可以触发该步骤的执行。换个角度来说，在模型训练的整个过程中涉及多个训练指令，这些训练指令将按照一定的顺序逐个触发，以完成整个训练过程中的各项步骤。

在本说明书中，模型可以具有多种形式，例如，可以是大语言模型以及生成式AI模型，大语言模型可以根据用户输入文本进行推理，来输出用户所需内容，生成式AI模型主要是根据现有数据库根据用户的需求，合成用户所需内容。

S102：根据所述训练指令，确定待使用的训练数据的数据标识。

在本说明书实施例中，终端设备通过训练指令，确定待使用的训练数据的数据标识，通过数据标识来从高速缓存区中获取训练时所需要的数据。

在本说明书中，终端设备进行训练数据存储时，是使用键值对的形式进行存储的，即，以一个索引对应一组数据的形式进行数据信息的存储，依照这种形式进行数据存储，可以根据从训练指令中获取到的数据标识，确定索引值，再通过索引值从高速缓存区中获取训练时所需要的数据，其中，本说明书中提到的数据标识可以是指数据的索引值。

S104：判断所述高速缓存区中是否缓存有所述数据标识对应的训练数据。

在本说明书中，高速缓存区部署在本地节点中，终端设备发送数据请求指令给高速缓存区后，高速缓存区根据接收到的数据请求中包含的数据标识，查询是否缓存该数据标识所对应的数据，若有，则将该数据标识所对应的数据，返回给计算区，计算区再使用该数据进行模型训练。

通过使用高速缓存区进行训练数据访问，可以直接进行对已存储在高速缓存区中的数据进行读取，减少对存储区的数据访问，以此来提高数据访问速度，进一步提高模型的训练效率。

S106：若否，则将所述数据标识输入到预先训练的所述数据生成模型中，以通过所述数据生成模型，生成所述数据标识对应的训练数据，作为生成数据。

在本说明书中，数据生成模型是部署在计算区中，若高速缓存区中没有缓存数据标识对应的数据，则返回数据请求访问未命中的消息，终端设备基于该消息，可将数据标识发送给训练好的数据生成模型，使用数据生成模型生成数据标识对应的训练数据，作为生成数据。之后，将生成数据发送给待训练模型，同时，终端设备可以从存储区中获取高速缓存区中未缓存的数据标识所对应的训练数据。

需要说明的是，数据生成模型主要的作用在于高速缓存区中没有所需的目标数据时，能够快速的提供所需的目标数据，但是，数据生成模型毕竟是根据数据标识来生成目标数据的，其生成的数据与真实数据可能会存在一定的偏差，而为了保证模型的训练效果，所以，需要不断的对数据生成模型进行再训练，以提高数据生成模型生成的数据的准确性。

因此，高速缓存区接收到计算区发送的获取未命中数据标识对应的数据请求后，根据该请求中携带的数据相关信息，向存储区发送获取数据请求，来得到未缓存数据的数据标识所对应的目标数据，即，得到未缓存数据的数据标识的真实数据，并将数据信息发送给数据生成模型，以数据生成模型生成的数据和获取到的真实数据之间的偏差最小为优化目标，对数据生成模型进行再训练，以对数据生成模型中的参数做进一步地更新。

图2为本说明书实施例提供的一种模型训练方法中数据生成模型的训练流程示意图。

在实际应用中，可以通过使用模型训练过程中需要用到的数据，来构建数据生成模型并将其进行部署，并在部署完成后进行网络参数的初始化，得到初始化数据生成模型，之后，使用存储在存储区中的数据对数据生成模型进行训练，其中，存储在存储区中的数据均是以键值对的形式进行存储的，即，一个索引值对应一组数据信息，这样可以使数据生成模型根据索引值（即数据标识），生成输入到数据生成模型中的索引值所对应的数据，并将得到的生成数据发送给计算区，同时，数据生成模型还会获取到来自高速缓存区的数据，即，输入到数据生成模型中进行生成数据的索引值对应的真实数据，以生成数据和获取到的真实数据之间的偏差最小为优化目标，对数据生成模型进行再训练。

可以看出，在对待训练模型进行训练的过程中，数据生成模型处于不断使用，并不断训练的过程，这样可以保证随着待训练模型训练过程的不断深入，数据生成模型的预测精度也不断提升。而需要指出的是，在对数据生成模型进行部署之前，可以先对数据生成模型进行预训练，即通过将一些数据标识作为样本数据，将样本数据输入到数据生成模型中，得到预测数据，进而以最小化预测数据与数据标识对应的真实数据之间的偏差为优化目标，对数据生成模型进行预训练。

通过部署在计算区中的数据生成模型，来进行计算区向高速缓存层发送数据请求未命中时的训练数据生成，这样一来，减少模型训练过程中，对存储区的数据访问，提高获取训练数据的速度，来提高模型训练的效率。

S108：将所述生成数据发送给部署在所述计算区中的待训练模型，以通过所述生成数据，对所述待训练模型进行训练。

终端设备通过部署在计算区中的数据生成模型得到生成数据后，将生成数据发送给待训练模型，计算区通过使用生成数据进行模型训练，并在每次训练后，在保证模型准确性的前提下，对训练过程中的模型进行模型压缩，如，模型剪枝以及模型量化等操作，对模型参数进行删减，来减少模型训练过程中的计算量以及模型存储空间，提高资源利用率。

需要说明的是，终端设备在进行模型训练的过程中，是将目标数据逐步缓存在高速缓存区中，这里的缓存并不是确定好目标数据后，在高速缓存区中直接进行缓存，而是，需要判断高速缓存区的剩余空间是否充足。

具体的，终端设备根据需求顺序信息以及模型信息，来确定模型训练时所需要用到的数据，并根据数据缓存需求，向高速缓存区发送数据缓存请求，高速缓存区接收到数据缓存请求后，会启动高速存储空间预留等操作，即，当高速缓存区接收到数据缓存请求后，会根据需要缓存的目标数据的数据量，来判断剩余空间能否足够进行缓存，以便于进行后续的数据缓存操作。

其中，需求顺序信息是指终端设备通过模型信息得到的信息，主要用于反映待训练模型在训练过程中所使用的各项数据的使用顺序，而各项数据的使用顺序可以进一步地反映出各项数据在模型训练过程中的先后使用顺序。在本说明书中，该需求顺序信息可以缓存在高速缓存区中。

若高速缓存区剩余空间充足，则向存储区发送数据迁移请求，存储区接收到数据迁移请求后，根据数据迁移请求中携带的数据标识，对该数据标识对应的目标数据进行数据预处理，即，利用存储区的空闲算力，不断对目标数据进行数据去重、数据融合以及数据更新等操作，来减少数据冗余，加快数据传输效率以及提高资源利用率，并将预处理后的数据迁移到高速缓存层中。

若高速缓存区剩余空间不足，则高速缓存区会向本地节点发送高速缓存区空间不足的反馈信息，终端设备停止将从存储区中获取剩余目标数据缓存在高速缓存区中，进而，计算区使用已缓存在高速缓存区中的部分目标数据，进行模型训练，同时，高速缓存区会根据需求顺序信息对存储在高速缓存层中的至少部分目标数据进行释放，如，使用最近最少使用算法（Least Recently Used，LRU）进行驱逐操作，即，可以根据至少部分目标数据中包含的各项数据以及堆栈内已存储的数据在使用顺序上的先后，将各项数据在堆栈进行重排，使得可以将频繁被访问到的数据缓存在高速缓存区的栈顶，将需要访问但访问频次较低的数据放到栈底，将不经常访问的数据进行驱逐，其中，驱逐后的数据不仅有从存储区传输过来的，还包括在计算区计算后的数据。

需要说明的是，终端设备不一定非要将目标数据一次性的全部缓存到高速缓存区中，而是可以逐步将其进行缓存，而在逐步缓存的过程中，终端设备需要实时来确定高速缓存区的剩余缓存空间，当确定高速缓存区存储至少部分目标数据后的剩余缓存空间不符合预设缓存条件（如剩余的空间以不足以存储任何额外的数据），则可停止从存储区中获取剩余的目标数据，并通过已缓存在高速缓存区中的部分目标数据，对待训练模型进行训练。

而在待训练模型的训练过程中，高速缓存区中的部分数据被使用后可能在一段时间内不会被再次使用，那么，终端设备当确定部分目标数据已在待训练模型的模型训练过程中被使用后，则可从高速缓存区中确定待释放数据（如短时间内不会被二次使用的数据），并将待释放数据从高速缓存区中释放，以继续从存储区中获取剩余的目标数据，并进行缓存。

当然，对于存储在存储区中的数据，也可以按照需求顺序信息，将各项数据进行重排，使得在模型训练过程中，终端设备可以快速的从存储区中读取出所需的数据。

另外，若是上述待释放数据从高速缓存区被释放后，剩余的目标数据未在预设时间内缓存到高速缓存区中，则可通过预设的高速通道直接向存储区发送数据请求，存储区接收到数据请求后，根据数据请求对目标数据进行预处理，并将预处理后的数据暂时迁移到计算区中，当高速缓存区的空间通过不断的数据释放而留有充足的空间时，则可再通过计算区，将剩余的目标数据迁移到高速缓存区中。终端设备进行模型训练时，训练数据需要传输到部署在本地节点的计算区中进行计算，再使用计算后的训练数据，来进行模型训练。

进一步地，终端设备会根据高速缓存区的剩余存储空间的状态，提前进行存储空间的预留工作，即，当高速缓存区剩余空间充足时，可以依据各项数据的需求使用顺序，得到下一次任务需要使用的训练数据，提前在高速缓存区中预留相应的高速存储空间，并向存储区发送数据请求，提前进行下次任务的数据缓存，当高速缓存区剩余空间不足时，可以暂缓存储区或计算区的数据缓存请求。

这样一来，可以避免当高速缓存区空间不足时，直接进行数据缓存处理而导致的数据传输中断的情况，减少无效的数据传输，提高数据传输效率。

在本说明书中，通过在本地节点中部署高度缓存区，来进行目标数据的缓存，可以减少训练过程中计算区对存储区的数据访问次数，加速计算区获取目标数据的速度，进而，提高模型训练效率，并在本地节点的计算区中部署数据生成模型，以便计算区从高速缓存区中没有获取到目标数据后，通过使用数据生成模型根据数据标识生成目标数据，进一步进行模型训练，提高了模型训练效率。

除此之外，在进行模型训练的过程中，在保证模型精度的前提下，不断对训练后的模型进行模型压缩等操作，来减少模型参数，达到降低模型训练过程中的计算量，提高了模型训练效率及资源利用率。

图3为本说明书实施例提供的一种模型训练系统的流程示意图。

如图3所示，图3中的系统可以是指面向人工智能（Artificial Intelligence，AI）与高性能计算机（High Performance Computing, HPC）深度融合的大集群或系统，该系统可以通过基于流水线的并行分布式训练方法，对大模型进行训练，在本说明书中，该系统主要包括计算区、高速缓存区以及存储区。

具体的，如图3所示，在计算区中包括若干个独立的计算节点，主要用于为大模型的训练提供算力支持，如单个计算节点上可以设有多个AI芯片，为大模型的训练提供算力环境，且针对每个计算节点均单独部署了相应的数据生成模型。

系统中设置的高速缓存区若干个高速存储区域，如高速存储1、高速存储2及高速存储3等，主要用于将模型训练时使用的各项数据按照训练过程中的被使用的先后顺序来进行缓存，以便计算区进行模型训练的过程中会直接获取到训练所需数据，隔离计算区与存储区，减少两者之间的数据访问，若计算区无法在已存储到高速缓存区的数据中获取到训练所需数据，则使用部署在各计算节点中对应的数据生成模型进行未获取训练数据的生成，便于后续计算区进行模型训练，以此加速模型训练效率。

需要说明的是，为了保证数据生成模型的准确性，在数据生成模型针对未获取训练数据进行数据生成之后，还会接收到高速缓存区传输的从存储区读取到的未获取数据的真实数据，系统会以真实数据与生成数据之间的偏差最小化为优化目标，对数据生成模型进行参数更新，进一步保证模型训练的准确性。

存储区划分为若干个存储区域，如存储区a、存储区b以及存储区c等，每个存储区分别有各自的存储单元，如存储区a包括存储单元1、存储单元2以及存储单元3等，这些存储单元主要用于训练所需数据以及模型参数的存储。

另外，在系统向存储区发送数据传输请求时，存储区会对需要进行传输的训练数据进行数据预处理操作，如数据去重、融合以及更新等操作，减少数据冗余对存储空间的占用，压缩数据传输量，提高数据传输速度。

需要说明的是，高速缓存区、存储区均可以根据应用负载的资源需求进行资源（存储的容量、I/O带宽等）动态分配，它们可以是独立的小存储池，也可以通过资源重分配进行融合成为大存储池，独立小存储池（如由高速存储1和高速存储2组成的高速存储池，由存储区a、存储区b、存储区c组成的近存计算存储池）可以单独为某个小模型提供训练服务，达到资源隔离效果，保证QoS（服务质量）；大存储池（如由多个高速存储单元组成的高速共享存储池，由多个存储区组成的海量近存计算存储池）可以为相应的大模型提供海量存储资源，确保大模型高效训练资源需求。通过存储资源自适应分配，可以减少存储资源浪费、提供高效的数据共享（其中数据共享时，数据一致性可以由高效通信协议、锁机制等保证）、减少模型训练过程中数据迁移和通信开销，确保模型高效训练。

进一步地，在系统中还部署有交换机，包含若干个高速交换机，用于计算区、高速缓存区以及存储区等各区之间的连接，也可进行网络拥塞控制，如，高速缓存区进行空间清理时，还未将训练所需数据进行缓存操作，则计算区直接通过预设的高速通道，使用交换机来从存储区中进行获取训练所需数据，提高获取数据的数据，提高模型训练效率。

除此之外，高速缓存区按照训练数据在训练过程中被使用的先后顺序进行空间清理时，被释放的数据会存储到存储区的若干个存储池中，以便后续数据使用。

综上所述，通过在计算区各计算节点中部署对应的数据生成模型，来减少计算区对存储区的访问，并且，在进行模型训练的同时也可以对部署在该计算节点的数据生成模型进行训练，并不需要单独对数据生成模型进行训练，减少资源浪费，此外，在计算区进行模型时，使用高速缓存空间进行训练数据的缓存，是计算区直接从高速缓存区获取数据进行模型训练，进一步地，在存储区将训练数据发送给高速缓存区之前，利用存储区的空闲算力进行数据预处理，大幅度减少了数据存储和迁移量，减少了网络带宽需求以及计算区的计算力的要求，通过这些方法进行处理，进一步提高了模型训练效率以及减少了资源浪费。

以上为本说明书实施例提供的一种模型训练方法，基于同样的思路，本说明书还提供了相应的装置、存储介质和电子设备。

图4为本说明书实施例提供的一种模型训练装置的结构示意图，待训练模型部署在所述装置的计算区，所述装置部署有高速缓存区，所述计算区中还部署有数据生成模型，所述装置包括：

接收模块401，用于接收训练指令；

确定模块402，用于根据所述训练指令，确定待使用的训练数据的数据标识；

判断模块403，用于判断所述高速缓存区中是否缓存有所述数据标识对应的训练数据；

生成模块404，用于若否，则将所述数据标识输入到预先训练的所述数据生成模型中，以通过所述数据生成模型，生成所述数据标识对应的训练数据，作为生成数据；

应用模块405，用于将所述生成数据发送给部署在所述计算区中的待训练模型，以通过所述生成数据，对所述待训练模型进行训练。

可选地，所述生成模块404具体用于：从预设的存储区中查询出所述数据标识对应的训练数据，作为真实数据；以最小化所述真实数据与所述生成数据之间的偏差为优化目标，对所述数据生成模型进行再训练。

可选地，所述应用模块405具体用于，确定对待训练模型进行训练时所使用的数据，作为目标数据，所述目标数据包括所述生成数据以及所述待训练模型中包含的各网络层的网络参数；根据所述高速缓存区的剩余存储空间，判断所述高速缓存区是否能够存储所述目标数据；若是，将所述目标数据存储在所述高速缓存区中，以在所述待训练模型的模型训练过程中，通过调用所述高速缓存区中缓存的所述目标数据，对所述待训练模型进行训练；

可选地，所述应用模块405具体用于，确定所述目标数据对应的需求顺序信息，所述需求顺序信息用于表示所述目标数据中包含的各项数据在所述待训练模型的训练过程中被使用的先后顺序；根据所述需求顺序信息，将所述高速缓存区中的至少部分缓存空间进行清空，以将至少部分所述目标数据存储在所述高速缓存区中。

可选地，所述应用模块405具体用于，根据所述需求顺序信息中包含的所述待训练模型在训练过程中所使用的各项数据的使用顺序，将所述高速缓存区中在堆栈内存储至少部分数据清除，并根据所述至少部分目标数据中包含的各项数据以及所述堆栈内已存储的数据在使用顺序上的先后，其中，将所述至少部分目标数据存储在所述堆栈中。

可选地，所述应用模块405具体用于，在将所述至少部分目标数据存储在所述高速缓存区的过程中，确定所述高速缓存区的剩余缓存空间；当确定所述高速缓存区存储所述至少部分目标数据后的剩余缓存空间不符合预设缓存条件，停止从所述存储区中获取剩余的目标数据，并通过已缓存在所述高速缓存区中的部分目标数据，对所述待训练模型进行训练；当确定所述部分目标数据已在所述待训练模型的模型训练过程中被使用后，从所述高速缓存区中确定待释放数据，并将所述待释放数据从所述高速缓存区中释放，以继续从所述存储区中获取剩余的目标数据。

可选地，所述应用模块405还用于，若所述待释放数据从所述高速缓存区中被释放后所述剩余的目标数据未在预设时间内未缓存到所述高速缓存区中，则通过预设的高速通道，将从所述存储区中获取到所述剩余的目标数据发送给所述计算区中的所述待训练模型，以对所述待训练模型进行训练。

本说明书还提供了一种计算机可读存储介质，所述存储介质存储有计算机程序，所述计算机程序被处理器执行时可用于执行上述图1提供的一种模型训练方法。

基于图1所示的一种模型训练方法，本说明书实施例还提供了图5所示的电子设备的结构示意图。如图5，在硬件层面，该电子设备包括处理器、内部总线、网络接口、内存以及非易失性存储器，当然还可能包括其他业务所需要的硬件。处理器从非易失性存储器中读取对应的计算机程序到内存中然后运行，以实现上述图1所述的一种模型训练方法。

当然，除了软件实现方式之外，本说明书并不排除其他实现方式，比如逻辑器件抑或软硬件结合的方式等等，也就是说以下处理流程的执行主体并不限定于各个逻辑单元，也可以是硬件或逻辑器件。

在20世纪90年代，对于一个技术的改进可以很明显地区分是硬件上的改进（例如，对二极管、晶体管、开关等电路结构的改进）还是软件上的改进（对于方法流程的改进）。然而，随着技术的发展，当今的很多方法流程的改进已经可以视为硬件电路结构的直接改进。设计人员几乎都通过将改进的方法流程编程到硬件电路中来得到相应的硬件电路结构。因此，不能说一个方法流程的改进就不能用硬件实体模块来实现。例如，可编程逻辑器件（Programmable Logic Device, PLD）（例如现场可编程门阵列（Field Programmable GateArray，FPGA））就是这样一种集成电路，其逻辑功能由用户对器件编程来确定。由设计人员自行编程来把一个数字系统“集成”在一片PLD上，而不需要请芯片制造厂商来设计和制作专用的集成电路芯片。而且，如今，取代手工地制作集成电路芯片，这种编程也多半改用“逻辑编译器（logic compiler）”软件来实现，它与程序开发撰写时所用的软件编译器相类似，而要编译之前的原始代码也得用特定的编程语言来撰写，此称之为硬件描述语言（Hardware Description Language，HDL），而HDL也并非仅有一种，而是有许多种，如ABEL（Advanced Boolean Expression Language）、AHDL（Altera Hardware DescriptionLanguage）、Confluence、CUPL（Cornell University Programming Language）、HDCal、JHDL（Java Hardware Description Language）、Lava、Lola、MyHDL、PALASM、RHDL（RubyHardware Description Language）等，目前最普遍使用的是VHDL（Very-High-SpeedIntegrated Circuit Hardware Description Language）与Verilog。本领域技术人员也应该清楚，只需要将方法流程用上述几种硬件描述语言稍作逻辑编程并编程到集成电路中，就可以很容易得到实现该逻辑方法流程的硬件电路。

控制器可以按任何适当的方式实现，例如，控制器可以采取例如微处理器或处理器以及存储可由该（微）处理器执行的计算机可读程序代码（例如软件或固件）的计算机可读介质、逻辑门、开关、专用集成电路（Application Specific Integrated Circuit，ASIC）、可编程逻辑控制器和嵌入微控制器的形式，控制器的例子包括但不限于以下微控制器：ARC 625D、Atmel AT91SAM、Microchip PIC18F26K20 以及Silicone Labs C8051F320，存储器控制器还可以被实现为存储器的控制逻辑的一部分。本领域技术人员也知道，除了以纯计算机可读程序代码方式实现控制器以外，完全可以通过将方法步骤进行逻辑编程来使得控制器以逻辑门、开关、专用集成电路、可编程逻辑控制器和嵌入微控制器等的形式来实现相同功能。因此这种控制器可以被认为是一种硬件部件，而对其内包括的用于实现各种功能的装置也可以视为硬件部件内的结构。或者甚至，可以将用于实现各种功能的装置视为既可以是实现方法的软件模块又可以是硬件部件内的结构。

上述实施例阐明的系统、装置、模块或单元，具体可以由计算机芯片或实体实现，或者由具有某种功能的产品来实现。一种典型的实现设备为计算机。具体的，计算机例如可以为个人计算机、膝上型计算机、蜂窝电话、相机电话、智能电话、个人数字助理、媒体播放器、导航设备、电子邮件设备、游戏控制台、平板计算机、可穿戴设备或者这些设备中的任何设备的组合。

为了描述的方便，描述以上装置时以功能分为各种单元分别描述。当然，在实施本说明书时可以把各单元的功能在同一个或多个软件和/或硬件中实现。

本领域内的技术人员应明白，本说明书的实施例可提供为方法、系统、或计算机程序产品。因此，本说明书可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本说明书可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质（包括但不限于磁盘存储器、CD-ROM、光学存储器等）上实施的计算机程序产品的形式。

本说明书是参照根据本说明书实施例的方法、设备（系统）、和计算机程序产品的流程图和／或方框图来描述的。应理解可由计算机程序指令实现流程图和／或方框图中的每一流程和／或方框、以及流程图和／或方框图中的流程和／或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和／或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和／或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和／或方框图一个方框或多个方框中指定的功能的步骤。

在一个典型的配置中，计算设备包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存。

内存可能包括计算机可读介质中的非永久性存储器，随机存取存储器(RAM)和/或非易失性内存等形式，如只读存储器(ROM)或闪存(flash RAM)。内存是计算机可读介质的示例。

计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括，但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带，磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质，可用于存储可以被计算设备访问的信息。按照本文中的界定，计算机可读介质不包括暂存电脑可读媒体(transitory media)，如调制的数据信号和载波。

还需要说明的是，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、商品或者设备中还存在另外的相同要素。

本领域技术人员应明白，本说明书的实施例可提供为方法、系统或计算机程序产品。因此，本说明书可采用完全硬件实施例、完全软件实施例或结合软件和硬件方面的实施例的形式。而且，本说明书可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质（包括但不限于磁盘存储器、CD-ROM、光学存储器等）上实施的计算机程序产品的形式。

本说明书可以在由计算机执行的计算机可执行指令的一般上下文中描述，例如程序模块。一般地，程序模块包括执行特定任务或实现特定抽象数据类型的例程、程序、对象、组件、数据结构等等。也可以在分布式计算环境中实践本说明书，在这些分布式计算环境中，由通过通信网络而被连接的远程处理设备来执行任务。在分布式计算环境中，程序模块可以位于包括存储设备在内的本地和远程计算机存储介质中。

本说明书中的各个实施例均采用递进的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于系统实施例而言，由于其基本相似于方法实施例，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

以上所述仅为本说明书的实施例而已，并不用于限制本说明书。对于本领域技术人员来说，本说明书可以有各种更改和变化。凡在本说明书的精神和原理之内所作的任何修改、等同替换、改进等，均应包含在本说明书的权利要求范围之内。

Claims

1.一种模型训练方法，其特征在于，待训练模型部署在本地节点的计算区，所述本地节点部署有高速缓存区，所述计算区中还部署有数据生成模型，包括：

接收训练指令；

根据所述训练指令，确定待使用的训练数据的数据标识，其中，数据标识用于表征训练数据的索引值；

2.如权利要求1所述的方法，其特征在于，所述方法还包括：

3.如权利要求1所述的方法，其特征在于，通过所述生成数据，对所述待训练模型进行训练，具体包括：

若否，则将所述高速缓存区中的至少部分缓存空间进行清空，以将至少部分所述目标数据存储在所述高速缓存区中，以通过调用所述高速缓存区中缓存的所述至少部分目标数据，对所述待训练模型进行训练。

4.如权利要求3所述的方法，其特征在于，将所述高速缓存区中的至少部分缓存空间进行清空，以将至少部分所述目标数据存储在所述高速缓存区中，具体包括：

5.如权利要求4所述的方法，其特征在于，所述需求顺序信息中包含有所述待训练模型在训练过程中所使用的各项数据的使用顺序；

根据所述需求顺序信息中包含的所述待训练模型在训练过程中所使用的各项数据的使用顺序，将所述高速缓存区中在堆栈内存储至少部分数据清除，并根据所述至少部分目标数据中包含的各项数据以及所述堆栈内已存储的数据在使用顺序上的先后，将各项数据在堆栈中进行重排，其中，将所述至少部分目标数据存储在所述堆栈中。

6.如权利要求4所述的方法，其特征在于，根据所述需求顺序信息，将所述高速缓存区中的至少部分缓存空间进行清空，以将至少部分所述目标数据存储在所述高速缓存区中，具体包括：

7.如权利要求6所述的方法，其特征在于，所述方法还包括：

若所述待释放数据从所述高速缓存区中被释放后所述剩余的目标数据未在预设时间内缓存到所述高速缓存区中，则通过预设的高速通道，将从所述存储区中获取到所述剩余的目标数据发送给所述计算区中的所述待训练模型，以对所述待训练模型进行训练。

8.一种模型训练装置，其特征在于，包括：

接收模块，用于接收训练指令；

确定模块，用于根据所述训练指令，确定待使用的训练数据的数据标识，其中，数据标识用于表征训练数据的索引值；

9.一种计算机可读存储介质，其特征在于，所述存储介质存储有计算机程序，所述计算机程序被处理器执行时实现上述权利要求1-7任一项所述的方法。

10.一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现上述权利要求1-7任一项所述的方法。