CN116910537A

CN116910537A - 一种权重数据处理方法、系统、设备及可读存储介质

Info

Publication number: CN116910537A
Application number: CN202310710971.4A
Authority: CN
Inventors: 袁泉; 龙海涛; 黄安付
Original assignee: Qiyuan World Shenzhen Technology Co ltd
Current assignee: Qiyuan World Shenzhen Technology Co ltd
Priority date: 2023-06-15
Filing date: 2023-06-15
Publication date: 2023-10-20

Abstract

本申请提供了一种权重数据处理方法、系统、设备及可读存储介质，该方法应用于学习引擎，首先获取目标样本数据；响应于接收目标采样请求，根据目标采样策略对目标样本数据进行采样，获得已采样数据，利用已采样数据构成待训练数据组，待训练数据组中包括多个已采样数据，再基于待训练数据组中的多个已采样数据分别进行机器学习模型的多次权重更新迭代，获得每次权重更新迭代后的模型权重数据，在获得每次权重更新迭代后的模型权重数据之后，若接收到推送请求，通过权重订阅接口将模型权重数据推送至预测推断引擎。如此，可以对于每次更新迭代后的需要进行推送的数据，推送至预测推断引擎，提高了模型权重数据的更新效率和推送效率。

Description

一种权重数据处理方法、系统、设备及可读存储介质

技术领域

本申请涉及机器学习技术领域，尤其涉及一种权重数据处理方法、系统、设备及可读存储介质。

背景技术

大规模分布式持续学习引擎(以下简称：持续学习引擎)主要负责采样经验回放以及迭代模型，并实时将新的模型权重推送到对应的预测推断引擎。持续学习引擎分为三个模块，分别是经验回放中转站模块Replay Buffer，模型迭代模块和和模型权重推送模块。

现有技术中，Replay Buffer是持续学习引擎存放经验回放数据的中转站，ReplayBuffer没有独立的资源分配，需要和持续学习引擎的工作节点共享资源，而Replay Buffer中保存着大量的经验回放数据，并且在模型权重推送模块进行更新和推送时效率较低。

发明内容

有鉴于此，本申请提供了一种权重数据处理方法、系统、设备及可读存储介质，提高了模型权重推送模块进行权重更新并推送的效率。

第一方面，本申请提供了一种权重数据处理方法，所述方法应用于学习引擎，所述学习引擎和预测推断引擎之间配置有权重订阅接口，所述方法包括：

获取目标样本数据；

响应于接收目标采样请求，根据目标采样策略对所述目标样本数据进行采样，获得已采样数据；

利用所述已采样数据构成待训练数据组，所述待训练数据组中包括多个所述已采样数据；

基于所述待训练数据组中的多个所述已采样数据分别进行机器学习模型的多次权重更新迭代，获得每次权重更新迭代后的模型权重数据；

在所述获得每次权重更新迭代后的模型权重数据之后，若接收到推送请求，通过所述权重订阅接口将所述模型权重数据推送至所述预测推断引擎。

在一种可能实现的方式中，所述获取目标样本数据，包括：

采集目标环境中的状态数据、目标环境中的动作数据和目标环境中的奖励点数据；

基于所述目标环境中的状态数据、所述目标环境中的动作数据和所述目标环境中的奖励点数据生成待切分样本数据；

按照预设的数据切分规则，将所述待切分样本数据切分为所述目标样本数据。

在一种可能实现的方式中，所述响应于接收目标采样请求，根据目标采样策略对所述目标样本数据进行采样，获得已采样数据，包括：

获取所述目标样本的样本生成时间和所述目标采样请求的接收时间；

计算所述目标样本的样本生成时间和所述目标采样请求的接收时间之间的时间差值；

基于所述时间差值从小到大对所述目标样本进行采样排序；

基于所述采样排序对所述目标样本进行采样。

在一种可能实现的方式中，所述权重更新迭代过程为：

获取所述机器学习模型中的初始权重；

利用模型迭代模块学习预设待训练数据组，获取所述预设待训练数据组对应的更新后的模型权重数据。

在一种可能实现的方式中，所述方法还包括：

基于连续内存存储机制将所述已采样数据存储至预设内存空间中。

第二方面，本申请还提供了一种权重数据处理系统，所述系统应用于学习引擎，所述学习引擎和预测推断引擎之间配置有权重订阅接口，所述系统包括：获取模块、采样模块、构建模块、迭代模块和推送模块；

所述获取模块，用于获取目标样本数据；

所述采样模块，用于响应于接收目标采样请求，根据目标采样策略对所述目标样本数据进行采样，获得已采样数据；

所述构建模块，用于利用所述已采样数据构成待训练数据组，所述待训练数据组中包括多个所述已采样数据；

所述迭代模块，用于基于所述待训练数据组中的多个所述已采样数据分别进行机器学习模型的多次权重更新迭代，获得每次权重更新迭代后的模型权重数据；

所述推送模块，用于在所述获得每次权重更新迭代后的模型权重数据之后，若接收到推送请求，通过所述权重订阅接口将所述模型权重数据推送至所述预测推断引擎。

在一种可能实现的方式中，所述获取模块，包括获取子模块；

所述获取子模块，用于采集目标环境中的状态数据、目标环境中的动作数据和目标环境中的奖励点数据；基于所述目标环境中的状态数据、所述目标环境中的动作数据和所述目标环境中的奖励点数据生成待切分样本数据；按照预设的数据切分规则，将所述待切分样本数据切分为所述目标样本数据。

在一种可能实现的方式中，所述采样模块，包括采样子模块；

所述采样子模块，用于获取所述目标样本的样本生成时间和所述目标采样请求的接收时间；计算所述目标样本的样本生成时间和所述目标采样请求的接收时间之间的时间差值；基于所述时间差值从小到大对所述目标样本进行采样排序；基于所述采样排序对所述目标样本进行采样。

在一种可能实现的方式中，所述迭代模块，包括迭代子模块；

所述迭代子模块，用于获取所述机器学习模型中的初始权重；利用模型迭代模块学习预设待训练数据组，获取所述预设待训练数据组对应的更新后的模型权重数据。

在一种可能实现的方式中，所述系统还包括：存储模块；

所述存储模块，用于基于连续内存存储机制将所述已采样数据存储至预设内存空间中。

第三方面本申请提供了一种权重数据处理设备，包括：处理器和存储器；

所述存储器，用于存储一个或多个程序；

所述处理器，用于当所述一个或多个程序被所述处理器执行时，实现如第一方面所述的一种权重数据处理方法。

第四方面本申请提供了一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储指令，当所述指令在设备上运行时，使得所述设备执行如第一方面所述的一种权重数据处理方法。

由此可见，本申请具有如下有益效果：

本申请提供了一种权重数据处理方法、系统、设备及可读存储介质，所述方法应用于学习引擎，学习引擎和推测引擎之间配置有权重订阅接口，首先获取目标样本数据；响应于接收目标采样请求，根据目标采样策略对所述目标样本数据进行采样，获得已采样数据，利用所述已采样数据构成待训练数据组，所述待训练数据组中包括多个所述已采样数据，再基于所述待训练数据组中的多个所述已采样数据分别进行机器学习模型的多次权重更新迭代，获得每次权重更新迭代后的模型权重数据，在所述获得每次权重更新迭代后的模型权重数据之后，若接收到推送请求，通过所述权重订阅接口将所述模型权重数据推送至预测推断引擎。如此，对目标样本数据进行采样后，可以通过机器学习模型对已采样数据进行权重更新迭代，并可以对于每次更新迭代后的需要进行推送的数据，推送至预测推断引擎，提高了模型权重数据的更新效率和推送效率。

附图说明

为更清楚地说明本实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本申请实施例提供的一种权重数据处理方法的流程示意图；

图2为本申请实施例提供的又一种权重数据处理方法的流程示意图；

图3为本申请实施例提供的一种权重数据处理系统的结构示意图。

具体实施方式

为了便于理解和解释本申请实施例提供的技术方案，下面将先对本申请实施例可能涉及的名词及本申请的背景技术进行说明：

Actor(智能体)：Actor(智能体)可以持续不断的从Learner(学习模块)或参数服务器中读取模型参数。并且每个Actor(智能体)继续使用局部模型对动作进行采样，并生成完整的观察轨迹经验、行动、策略采取。最后，该轨迹经验(trajectories)和循环状态被转移到共享队列或经验回放中转站。采用异步方式，学习模块(Learner)从中读取成批的轨迹经验(trajectories)将其放入队列/经验回放中转站并优化了模型。

SeedRL(Scalable,EfficientDeep-RL，大规模分布式强化学习框架)中学习模块(Learner)的输入为智能体和环境交互后采集的态势(Observation)，输出为InferenceTPUs(推理处理单元)推理生成的环境能够接收的动作指令。

SeedRL学习引擎的三个线程结构分别为负责生成策略π(a|s)并保存trajectories(s,a,r,s')轨迹的Inference线程组、负责数据存储和采样的DataPrefetching(当trajectories(一组环境采样数据)完成时，通过quene(队列)存入replaybuffer)线程组以及负责模型批量学习训练及迭代和检查点记录的Training线程组。

SeedRL Learner Replay Buffer：当轨迹经验trajectories完全展开后，将其添加到FIFO(先进先出策略)队列或重放缓冲区，然后通过数据预取进行采样线程。

SeedRL Learner Model Update：在异步优化时评估策略后通过“近在策略”的更新模型参数。

SeedRL Learner Batching Module：通过使用远程调用框架(RPC)，Seed RL构建了一个批处理模块，可以有效地将多个对于智能体的推理调用批处理在一起。在智能体可以与Learner安装在同一台机器上的情况下，使用了特定传输协议，从而减少延迟、CPU和系统调用度过高。

态势(observation)：每次环境和智能体交互的时候，由环境发送给智能体的数据，称为引擎层的态势

指令(action)：每次环境和智能体交互的时候，由智能体发往环境对象的数据

经验重放(replay)：环境和智能体连续交互多次积累的轨迹经验(循环状态、态势和奖励的序列)

经验回放中转站模块(Replay Buffer)：经验回放中转站是持续学习引擎创建的存放经验回放的中转站。经验回放中转站没有独立的资源分配，需要和持续学习引擎工作节点共享资源。因此经验回放中转站必须和至少一个持续学习引擎工作节点绑定，但一个持续学习引擎工作节点可以有多个经验回放中转站模块。

经验回放中转站模块随机采样(random sample)的速度比较慢，并且单一的采样策略可能造成数据样本整体轨迹的一致性即采样数据整体相关性。有些无法调整好的经验回放中转站模块保存的数据量大，吞吐效率低下。随机内存中读取能力较慢从而使得吞吐效率不足，导致学习模块接收效率慢，模型训练速度慢。

由于经验回放中转站模块的内存分配问题的影响，并不能很好的传输所需要的迭代数据，传输速度，吞吐量缓慢，直接影响到学习速率。

在模型权重推送模块中，用户无法控制每一步训练后的权重更新是否分发到预测推断引擎中，只能等一个组batch或者整个训练完成，没有办法在训练中调整。

本申请提供了一种权重数据处理方法、系统、设备及可读存储介质，该方法应用于学习引擎，学习引擎和预测推断引擎之间配置有权重订阅接口，首先获取目标样本数据；响应于接收目标采样请求，根据目标采样策略对所述目标样本数据进行采样，获得已采样数据，利用所述已采样数据构成待训练数据组，所述待训练数据组中包括多个所述已采样数据，再基于所述待训练数据组中的多个所述已采样数据分别进行机器学习模型的多次权重更新迭代，获得每次权重更新迭代后的模型权重数据，在所述获得每次权重更新迭代后的模型权重数据之后，若接收到推送请求，将所述模型权重数据推送至预测推断引擎。如此，通过机器学习模型对已采样数据进行权重更新迭代，并可以对于每次更新迭代后的需要进行推送的数据，推送至预测推断引擎，提高了模型权重数据的更新效率和推送效率。

为了便于理解本申请实施例提供的技术方案，下面结合附图对本申请实施例提供的一种权重数据处理方法和装置进行说明。

首先，参见图1示出的一种权重数据处理方法的流程示意图，经验回放中转站模块按照预设的经验采样策略采集获得经验回放数据(经验回放数据即为下文中的已采样数据)推送至持续学习引擎，持续学习引擎执行模型的更新迭代，将获得的最新模型权重数据推送预测服务，即推送至预测推断引擎，由此完成权重数据的处理流程。

具体的，参见图2所述，该图为本申请实施例提供的一种权重数据处理方法的方法流程示意图，本方法可以应用于学习引擎，学习引擎和推测引擎之间配置有权重订阅接口，该方法具体包括S201-S205。

S201：获取目标样本数据。

具体的，获取目标样本数据可以是，采集目标环境中的状态数据，即observation(状态)、目标环境中的动作数据，即action(动作)，以及目标环境中的奖励点数据，即reward(奖励或者回报)。也就是说，在智能体和环境交互后可以采集到的observation(状态)、action(动作)、reward(奖励或者回报)。

再基于目标环境中的状态数据、目标环境中的动作数据和目标环境中的奖励点数据生成待切分样本数据，待切分样本数据即为transition(三元组：状态-动作-奖励)。也就是说，可以将采集到的observation(状态)、action(动作)、reward(奖励或者回报)打包生成transition(三元组：状态-动作-奖励)。

按照预设的数据切分规则，将待切分样本数据切分为所述目标样本数据，即切分为经验回放replay。也就是说，可以按照预设的切分规则将transition切分形成经验回放replay即为缓存的一段序列数据集，由一个个三元组构成，经验回放将被放入经验回放中转站模块。

S202：响应于接收目标采样请求，根据目标采样策略对所述目标样本数据进行采样，获得已采样数据。

在获取到样本数据之后，若接收到采样请求，可以采用目标样本采样策略对样本数据进行采样。

目标样本采样策略有两种：

一种是先进先出(Last In First Out，LIFO)，也就是，获取目标样本的样本生成时间和目标采样请求的接收时间，再计算目标样本的样本生成时间和目标采样请求的接收时间之间的时间差值；基于时间差值从小到大对目标样本进行采样排序，最后基于采样排序，确定时间差值最大的目标样本，并对该时间差值最大的目标样本进行采样。

另一种是，随机采样策略，也就是优先选择最新的未曾使用过的样本，如果没有则从数据库中随机选取未曾进行采样的样本数据。

如此，设置多种采样策略可以避免单一的采样策略对多种不同模型下内存使用效率低下从而使得内存爆炸，并且由于可以及时调整并且选取多种不同的采样模型，可以使得在不同模型下的训练效果更优。

更进一步的，用户可以通过多种方式对样本采样策略进行设置，作为一种可选的实施方式，可以在样本回放中转站模块Replay-Buffer预先设置应用程序编程接口API接口，用户可以通过该API接口从多种预置采样策略中设置所需的样本采样策略。另一种实施方式中，用户可以通过超文本传输协议(Hyper Text Transfer Protocol，HTTP)将所需要的样本采样策略传输至API接口实现样本采样策略的设置。

本实施例中还可以基于连续内存存储机制将经验回放中转站模块中的已采样数据存储至预设内存空间中，增加吞吐效率和算法处理效率。

S203：利用所述已采样数据构成待训练数据组，所述待训练数据组中包括多个所述已采样数据。

已处理经验回放组批次Batch是投入神经网络模型进行迭代更新的最小单位，每个Batch由预设数量的已处理经验回放数据构成，，用户还可以设置Batch的最大数据重用值，因此，我们需要将预设数量的已采样的数据构成一个待训练数据组。

S204：基于所述待训练数据组中的多个所述已采样数据分别进行机器学习模型的多次权重更新迭代，获得每次权重更新迭代后的模型权重数据。

将已经构成的待训练数据组中的已采样数据分别进行机器学习模型的权重更新迭代，进而可以获得每次权重更新迭代后的模型权重数据。

S205：在所述获得每次权重更新迭代后的模型权重数据之后，若接收到推送请求，通过所述权重订阅接口将所述模型权重数据推送至所述预测推断引擎。

可以理解的是，学习引擎和预测推断引擎之间配置有权重订阅接口，在每次进行机器学模型的权重更新迭代之后，需要判断是否接收到推送请求，若接收到推送请求，则需要马上将该次权重更新迭代后的模型权重数据，推送至预测推断引擎。

需要说明的是，若未接到权重推送请求，则可以在待训练数据组中的所有已采样数据分别进行机器学习模型的权重更新迭代之后，再将数据一起推送至预测推断引擎。

需要说的是，预测引擎，也就是预测推断引擎即为订阅者，权重即为模型各个超参数的权重，预测引擎收到模型权重数据之后可以根据权重更新自身模型的权重，以达到优化模型效果的目的

通过S101-S105的相关内容可知，本申请实施例中，对目标样本数据进行采样后，可以通过机器学习模型对已采样数据进行权重更新迭代，并可以对于每次更新迭代后的需要进行推送的数据，推送至预测推断引擎，如此可以自定义采样策略，及时调整并且选取多种不同的采样模型，使得在不同模型下的训练效果更优。将经验回放中转站模块的队列，也就是经验回放中转站中的已采样数据，用连续内存结构管理增加吞吐效率和算法处理效率。并且可以在模型权重推送模块中可以控制每一步训练后是否将更新后的权重更新到预测推断引擎，提高了模型权重数据的更新效率和推送效率。

与图2所述的方法相对应，本申请实施例还提供了一种权重数据处理系统，用于对图2中方法的具体实现，本申请实施例提供的权重数据处理系统可以应用计算机终端或各种移动设备中，其结构示意图如图3所示，该权重数据处理系统具体包括：

第二方面，本申请还提供了一种权重数据处理系统，所述系统包括：获取模块、采样模块、构建模块、迭代模块和推送模块；

所述获取模块301，用于获取目标样本数据；

所述采样模块302，用于响应于接收目标采样请求，根据目标采样策略对所述目标样本数据进行采样，获得已采样数据；

所述构建模块303，用于利用所述已采样数据构成待训练数据组，所述待训练数据组中包括多个所述已采样数据；

所述迭代模块304，用于基于所述待训练数据组中的多个所述已采样数据分别进行机器学习模型的多次权重更新迭代，获得每次权重更新迭代后的模型权重数据；

所述推送模块305，用于在所述获得每次权重更新迭代后的模型权重数据之后，若接收到推送请求，将所述模型权重数据推送至预测推断引擎。

在一种可能实现的方式中，所述获取模块301，包括获取子模块；

在一种可能实现的方式中，所述采样模块302，包括采样子模块；

在一种可能实现的方式中，所述迭代模块304，包括迭代子模块；

在一种可能实现的方式中，所述系统还包括：存储模块；

基于上述方法实施例提供的一种权重数据处理方法，本申请提供了一种权重数据处理设备，包括：处理器和存储器；

所述存储器，用于存储一个或多个程序；

所述处理器，用于当所述一个或多个程序被所述处理器执行时，实现上述任一项实施例所述的一种权重数据处理方法。

基于上述方法实施例提供的一种权重数据处理方法，本申请提供了一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储指令，当所述指令在设备上运行时，使得所述设备执行如上述任一项实施例所述的一种权重数据处理方法。

本说明书中各个实施例采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似部分互相参见即可。

本领域技术人员可以理解，图所示的流程图仅是本申请的实施方式可以在其中得以实现的一个示例，本申请实施方式的适用范围不受到该流程图任何方面的限制。

在本申请所提供的几个实施例中，应该理解到，所揭露的方法、装置和设备，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些通信接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。另外，在本申请各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。

所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

对所公开的实施例的上述说明，使本领域专业技术人员能够实现或使用本申请。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的，本文中所定义的一般原理可以在不脱离本申请的精神或范围的情况下，在其它实施例中实现。因此，本申请将不会被限制于本文所示的这些实施例，而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims

1.一种权重数据处理方法，其特征在于，所述方法应用于学习引擎，所述学习引擎和预测推断引擎之间配置有权重订阅接口，所述方法包括：

获取目标样本数据；

2.根据权利要求1所述的方法，其特征在于，所述获取目标样本数据，包括：

3.根据权利要求1所述的方法，其特征在于，所述响应于接收目标采样请求，根据目标采样策略对所述目标样本数据进行采样，获得已采样数据，包括：

基于所述时间差值从小到大对所述目标样本进行采样排序；

基于所述采样排序对所述目标样本进行采样。

4.根据权利要求1所述的方法，其特征在于，所述权重更新迭代过程为：

获取所述机器学习模型中的初始权重；

5.根据权利要求1所述的方法，其特征在于，所述方法还包括：

6.一种权重数据处理系统，其特征在于，所述系统应用于学习引擎，所述学习引擎和所述预测推断引擎之间配置有权重订阅接口，所述系统包括：获取模块、采样模块、构建模块、迭代模块和推送模块；

所述获取模块，用于获取目标样本数据；

7.根据权利要求6所述的系统，其特征在于，所述获取模块，包括获取子模块；

8.根据权利要求6所述的系统，其特征在于，所述采样模块，包括采样子模块；

9.一种权重数据处理设备，其特征在于，包括：处理器和存储器；

所述存储器，用于存储一个或多个程序；

所述处理器，用于当所述一个或多个程序被所述处理器执行时，实现如权利要求1-5中任一项所述的方法。

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储指令，当所述指令在设备上运行时，使得所述设备执行如权利要求1-5任一项所述的方法。