CN114020413A - 一种基于Kubernetes容器集群的分布式强化学习系统设计方法 - Google Patents

一种基于Kubernetes容器集群的分布式强化学习系统设计方法 Download PDF

Info

Publication number
CN114020413A
CN114020413A CN202111303747.0A CN202111303747A CN114020413A CN 114020413 A CN114020413 A CN 114020413A CN 202111303747 A CN202111303747 A CN 202111303747A CN 114020413 A CN114020413 A CN 114020413A
Authority
CN
China
Prior art keywords
training
container cluster
reinforcement learning
sampling
data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202111303747.0A
Other languages
English (en)
Other versions
CN114020413B (zh
Inventor
叶超
朴海音
陈永红
陶晓洋
樊松源
孙阳
郝一行
王汉
于津
韩玥
杨晟琦
彭宣淇
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shenyang Aircraft Design Institute Yangzhou Collaborative Innovation Research Institute Co ltd
Original Assignee
Shenyang Aircraft Design Institute Yangzhou Collaborative Innovation Research Institute Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shenyang Aircraft Design Institute Yangzhou Collaborative Innovation Research Institute Co ltd filed Critical Shenyang Aircraft Design Institute Yangzhou Collaborative Innovation Research Institute Co ltd
Priority to CN202111303747.0A priority Critical patent/CN114020413B/zh
Publication of CN114020413A publication Critical patent/CN114020413A/zh
Application granted granted Critical
Publication of CN114020413B publication Critical patent/CN114020413B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/44Arrangements for executing specific programs
    • G06F9/455Emulation; Interpretation; Software simulation, e.g. virtualisation or emulation of application or operating system execution engines
    • G06F9/45533Hypervisors; Virtual machine monitors
    • G06F9/45558Hypervisor-specific management and integration aspects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/46Multiprogramming arrangements
    • G06F9/50Allocation of resources, e.g. of the central processing unit [CPU]
    • G06F9/5083Techniques for rebalancing the load in a distributed system
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/44Arrangements for executing specific programs
    • G06F9/455Emulation; Interpretation; Software simulation, e.g. virtualisation or emulation of application or operating system execution engines
    • G06F9/45533Hypervisors; Virtual machine monitors
    • G06F9/45558Hypervisor-specific management and integration aspects
    • G06F2009/4557Distribution of virtual machine instances; Migration and load balancing

Landscapes

  • Engineering & Computer Science (AREA)
  • Software Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Medical Informatics (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明公开一种基于Kubernetes容器集群的分布式强化学习系统设计方法,属于大规模分布式强化学习系统设计领域通过使用了Kubernetes系统构建容器集群,将强化学习系统的功能模块抽象成一个个服务容器,将模型训练和采样部分构建成一个强化学习模型容器集群,并且通过Manager负责整个训练过程中任务分发、资源管理调度。本发明可以提高大规模强化学习的资源利用率,减少人工干预,加快大规模强化学习部署和训练。

Description

一种基于Kubernetes容器集群的分布式强化学习系统设计 方法
技术领域
本发明属大规模分布式强化学习系统设计领域,具体涉及一种基于Kubernetes容器集群的分布式强化学习系统设计方法
背景技术
大规模的强化学习需要海量的异构计算资源,批量快速启停训练任务,高频更新模型参数,跨机跨进程共享模型数据等。传统的手工管理模式操作繁琐,面临诸多不确定性,带来的各种挑战无法支撑大规模强化学习的场景。例如:强化学习实验需要多达数万个CPU核心和数百个GPU卡持续一周到两周。连续两次全量实验间隔从几天到几周不定。从整体上看资源使用率很低,实验间隔期资源浪费,经费有限,无法支撑长期持有如此大规模数量的物理机机器资源。此外,手动管理和运维几千台机器(折合几万核心),包括IP,账号、密码,GPU驱动安装,训练环境管理等,复杂性和难度极高。随着训练规模的进一步增大,管理复杂的问题更加突出。分布式训练代码架构,要求快速批量启停数万规模的角色进程。通过传统的脚本SSH的方式实现多个跨机器进程的启动和停止效率低下,可靠性不足。训练需要运行海量的进程,运行过程中异常退出缺少监控和自动拉起,容错性低。
发明内容
本发明的创新点在于利用Kubernetes容器集群的特性设计一种全新的分布式强化学习框架,目前公开的使用Kubernetes容器集群训练部署深度学习任务基本都是基于监督学习的,基于强化学习的目前还没有成熟的解决方案。这个本发明的目的为了解决前述的大规模强化学习在训练过程中,资源利用率低,实验效率低下的问题。基于Kubernetes的分布式强化学习系统,可以弹性的使用计算资源,按需按时去利用资源,压缩研发的成本。对于强化学习的进程可以实现出错后的自动拉起和负载均衡,进程的负载很高时,可以横向扩容实现负载均衡。
本发明的技术方案:
一种基于Kubernetes容器集群的分布式强化学习系统设计方法,具体如下:
1)基于Kubernetes构建容器集群,主要包括在CPU机器和GPU机器安装Kubernetes,并将这些机器全部加入到同一个容器集群中;2)将强化学习采样和训练代码制作成Docker镜像,根据需求在容器集群中启动多个容器实例;3)在容器集群中启动Manager管理程序,负责任务分发、资源调度、参数调优和模型保存等工作;
具体的,使用基于Actor-Learner架构的分布式强化学习训练,包括以下几种角色的进程,这些进程均以容器的形式运行在Kubernetes容器集群中。
Actor(采样器):从ParameterSever拿到最新的网络参数,使用多个CPU并行采样,产生一系列观测数据,观测数据放入ReplayBuffer中。
Learner(学习器):从Actor拿到观察数据,使用梯度下降更新神经网络模型。
ParameterServer(参数服务器):负责保存最新的网络参数。
ReplayBuffer(经验缓冲池):负责保存Actor产生的样本。
Manager(调度器):负责分发任务和资源管理。
用户只关心需要多少资源,不需要关心资源运行在哪一台机器上,编写配置脚本,通过用户接口向Manager发送指令,Manager再去分发任务和分配资源。
整个分布式强化学习流程分为以下几步:
1.采样。用户编写完采样脚本,将脚本制作成Docker镜像,通过Manager将采样任务以容器的形式运行在Kubernetes容器集群中,以容器的形式运行在集群中最大的好处是可以利用Kubernetes的特性实现高可用性和负载均衡。当一个采样进程意外结束时,Kubernetes容器集群根据用户的设定自动的重启这个采样进程。当采样进程的负载超过用户设定的阈值时,Kubernetes容器集群对该进程进行扩容。
采样任务主要流程包括:启动多个CPU进程,形成一个CPU Group负责与强化学习环境进行互动,产生数据。创建ReplayBuffer,存放采样得到的数据。采样进程定时去查询参数服务器中参数是否更新,当网络参数更新后,采样进程去获取最新的网络参数,并开始新的一轮采样任务。
2.训练。用户编写完训练脚本,将脚本制作成Docker镜像,通过Manager将训练任务以容器的形式运行在Kubernetes容器集群中。和采样任务一样,训练进程意外结束时,Kubernetes容器集群根据用户的设定自动的重启这个训练进程。当训练进程的负载超过用户设定的阈值时,Kubernetes容器集群对该进程进行扩容。
训练任务主要流程包括:启动多个GPU进程,形成一个GPU Group利用梯度下降算法去更新网络参数,一轮训练结束后,训练进程会将更新后的网络参数放置到参数服务器上供采样进程使用。训练进程会监控ReplayBuffer容量的大小,如果样本数满足训练要求,就会开始训练任务。
本发明的有益效果:
(1)大幅提升实验效率:不再需要手动管理和运维大批量机器,节省了大量机器环境初始化,密码管理和进程部署的时间。传统模式下,代码更新后需要手动更新程序。容器化以后,仅需要一条命令一键更新容器镜像,集群就会自动滚动更新,从小时级别缩短到分钟级别。
(2)节约成本:与传统模式相比,不再需要长期持有大批量的CPU和GPU设备。训练任务开始,根据预估的规模购买CPU和GPU设备。训练结束后,退还所有设备,设备可以提供给其他公有云客户使用,极大地缩减资源成本。综合考虑使用周期和使用规模、GPU机器折旧等因素,可以节省成本。
附图说明
图1基于Kubernetes的强化学习架构图。
图2采样流程。
图3训练流程。
图4 CartPole游戏模型。
具体实施方式
以下通过附图和实施例对本发明的技术方案进行进一步说明。
实施例:
1.实验环境搭建:三台装载Ubuntu18.04系统主机,硬件配置为i7,RTX2070显卡,分别作为master节点、slave1节点和slave2节点。配置网络和免密访问服务使得三个节点可以相互访问。三台机器完成时间同步,安装docker、nvidia-docker和显卡驱动。首先在master节点上安装kubeadm工具,通过kubeadm工具迅速的完成k8s集群master节点的初始化,并产生集群唯一的Token,slave1和slave2节点通过Token加入到k8s集群中来,至此完成3个节点总成的k8s集群搭建。
2.强化学习实验环境采用的是OpenAI Gym经典控制环境CartPole(倒立摆)。Gym是一个研究和开发强化学习相关算法的仿真平台,无需智能体先验知识,并兼容常见的数值运算库如TensorFlow、Pytorch等。CartPole游戏模型如图4所示。游戏里面有一个小车,上有竖着一根杆子,每次重置后的初始状态会有所不同。小车需要左右移动来保持杆子竖直,为了保证游戏继续进行需要满足以下两个条件:杆子倾斜的角度不能大于15°,小车移动的位置需保持在一定范围(中间到两边各2.4个单位长度)。
3.Actor(采样器)的实现方式是:首先通过深度强化学习算法DQN训练产生一个采样的Agent(智能体),其次利用该Agent不断的与强化学习环境进行交互产生样本存入到经验池中,最后Learner(学习器)利用采样器得到的训练数据更新Agent的网络参数,采样器使用新的网络参数继续采样如此循环往复。采样器的算法更新流程如下:
Figure BDA0003339358270000051
采集的数据样本的数据结构是四元组信息(s,a,r,s_)(当前输入的状态信息s、选择的动作a、执行动作后的下一个状态信息s_和环境反馈的奖励r),存储到初始好容量的经验回放存储器(ReplayBuffer)中,即采集足够的训练样本集,训练样本的个数是一个超参数,设置为10000。
4.深度强化神经网络。DQN算法中Q函数通过一个深度强化神经网络来拟合,网络结构包括以下几部分。特征表示层:卷积神经网络(CNN)的对实验环境图像进行特征学习,产生图像每个像素上对应的高层信息特征,该网络通过每一层的卷积操作和池化等非线性的变换学习不同尺度的视觉表达,这说明该网络可以捕获到丰富的高层信息。价值估计层:输入为特征表示层的输出,内部的结构为一个全连接层,输出为一个标量,代表Agent(智能体)在这个状态下执行该动作可以获得累计收益的期望,我们希望这个值越大越好。当实现DQN算法的代码模型编写调试好后,将代码打包成docker镜像上传到容器集群中。
5.ReplayBuffer(经验缓冲池)。在容器的任意一个节点启动redis数据库,采样器将采集的数据四元组信息(s,a,r,s_)存入到数据库中的特定字段data,当采购足够的数据时,把redis数据库中表明数据是否采购的标志flag置为1,否则默认为0。Learner(学习器)会监控flag字段,当flag字段为1时,会去redis数据库data字段取得数据用于智能体(Agent)参数得更新,并且把flag字段置换为0,清空data字段。
6.Learner(学习器)利用采样器产生的数据,利用梯度下降算法更新Agent(智能体)神经网络参数。Learner使用的深度神经网络结构和Actor是完全一样的,只是网络的参数不同。当Learner的实现代码编写好后需要打包成docker镜像上传到k8s集群中。

Claims (5)

1.一种基于Kubernetes容器集群的分布式强化学习系统设计方法,其特征在于,具体如下:
1)基于Kubernetes构建容器集群,包括在CPU机器和GPU机器安装Kubernetes,并将这些机器全部加入到同一个容器集群中;
2)将强化学习采样和训练代码制作成Docker镜像,根据需求在容器集群中启动多个容器实例;
3)在容器集群中启动调度器管理程序,负责任务分发、资源调度、参数调优和模型保存工作;
具体的,使用基于采样器-学习器架构的分布式强化学习训练,包括以下几种角色的进程,这些进程均以容器的形式运行在Kubernetes容器集群中;
采样器:从参数服务器拿到最新的网络参数,使用多个CPU并行采样,产生一系列观测数据,观测数据放入经验缓冲池中;
学习器:从采样器拿到观察数据,使用梯度下降更新神经网络模型;
参数服务器:负责保存最新的网络参数;
经验缓冲池:负责保存采样器产生的样本;
调度器:负责分发任务和资源管理;
用户只关心需要多少资源,不需要关心资源运行在哪一台机器上,编写配置脚本,通过用户接口向调度器发送指令,调度器再去分发任务和分配资源;整个分布式强化学习流程分为以下几步:
A)采样;用户编写完采样脚本,将脚本制作成Docker镜像,通过调度器将采样任务以容器的形式运行在Kubernetes容器集群中,当一个采样进程意外结束时,Kubernetes容器集群根据用户的设定自动的重启这个采样进程;当采样进程的负载超过用户设定的阈值时,Kubernetes容器集群对该进程进行扩容;
采样任务主要流程包括:启动多个CPU进程,形成一个CPU Group负责与强化学习环境进行互动,产生数据;创建经验缓冲池,存放采样得到的数据;采样进程定时去查询参数服务器中参数是否更新,当网络参数更新后,采样进程去获取最新的网络参数,并开始新的一轮采样任务;
B)训练;用户编写完训练脚本,将脚本制作成Docker镜像,通过调度器将训练任务以容器的形式运行在Kubernetes容器集群中;和采样任务一样,训练进程意外结束时,Kubernetes容器集群根据用户的设定自动的重启这个训练进程;当训练进程的负载超过用户设定的阈值时,Kubernetes容器集群对该进程进行扩容;
训练任务主要流程包括:启动多个GPU进程,形成一个GPU Group利用梯度下降算法去更新网络参数,一轮训练结束后,训练进程会将更新后的网络参数放置到参数服务器上供采样进程使用;训练进程会监控经验缓冲池容量的大小,如果样本数满足训练要求,就会开始训练任务。
2.根据权利要求1所述的一种基于Kubernetes容器集群的分布式强化学习系统设计方法,其特征在于,采样器的实现方式是:首先通过深度强化学习算法DQN训练产生一个采样的智能体,其次利用该智能体不断的与强化学习环境进行交互产生样本存入到经验池中,最后学习器利用采样器得到的训练数据更新智能体的网络参数,采样器使用新的网络参数继续采样如此循环往复;
采集的数据样本的数据结构是四元组信息(s,a,r,s_),其中,s为当前输入的状态信息、a为选择的动作、s_为执行动作后的下一个状态信息、r为环境反馈的奖励,四元组信息(s,a,r,s_)存储到初始好容量的经验缓冲池中,即采集足够的训练样本集,训练样本的个数是一个超参数。
3.根据权利要求2所述的一种基于Kubernetes容器集群的分布式强化学习系统设计方法,其特征在于,深度强化学习算法DQN中Q函数通过一个深度强化神经网络来拟合,深度强化神经网络的结构包括以下几部分:
特征表示层:卷积神经网络CNN对实验环境图像进行特征学习,产生图像每个像素上对应的高层信息特征,该网络通过每一层的卷积操作和池化这些非线性的变换学习不同尺度的视觉表达,使得网络可以捕获到丰富的高层信息;
价值估计层:输入为特征表示层的输出,内部的结构为一个全连接层,输出为一个标量,代表智能体在这个状态下执行该动作可以获得累计收益的期望;当实现深度强化学习算法DQN的模型训练好后,将代码打包成docker镜像上传到容器集群中。
4.根据权利要求1所述的一种基于Kubernetes容器集群的分布式强化学习系统设计方法,其特征在于,所述的经验缓冲池:在容器的任意一个节点启动redis数据库,采样器将采集的数据四元组信息(s,a,r,s_)存入到数据库中的特定字段data,当采购足够的数据时,把redis数据库中表明数据是否采购的标志flag置为1,否则默认为0;学习器会监控flag字段,当flag字段为1时,会去redis数据库data字段取得数据用于智能体参数得更新,并且把flag字段置换为0,清空data字段。
5.根据权利要求1所述的一种基于Kubernetes容器集群的分布式强化学习系统设计方法,其特征在于,学习器:利用采样器产生的数据,利用梯度下降算法更新智能体神经网络参数;学习器使用的深度神经网络结构和采样器是完全一样的,只是网络的参数不同;当学习器的实现代码编写好后需要打包成docker镜像上传到容器集群中。
CN202111303747.0A 2021-11-05 2021-11-05 一种基于Kubernetes容器集群的分布式强化学习系统设计方法 Active CN114020413B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111303747.0A CN114020413B (zh) 2021-11-05 2021-11-05 一种基于Kubernetes容器集群的分布式强化学习系统设计方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111303747.0A CN114020413B (zh) 2021-11-05 2021-11-05 一种基于Kubernetes容器集群的分布式强化学习系统设计方法

Publications (2)

Publication Number Publication Date
CN114020413A true CN114020413A (zh) 2022-02-08
CN114020413B CN114020413B (zh) 2024-07-23

Family

ID=80061107

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111303747.0A Active CN114020413B (zh) 2021-11-05 2021-11-05 一种基于Kubernetes容器集群的分布式强化学习系统设计方法

Country Status (1)

Country Link
CN (1) CN114020413B (zh)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114861826A (zh) * 2022-05-31 2022-08-05 中国科学技术大学 基于分布式设计的大规模强化学习训练框架系统
CN114881233A (zh) * 2022-04-20 2022-08-09 深圳市魔数智擎人工智能有限公司 一种基于容器的分布式模型推理服务方法
CN115344356A (zh) * 2022-10-18 2022-11-15 江苏智云天工科技有限公司 基于容器化实现分布式训练系统及其构建方法
CN115438805A (zh) * 2022-11-08 2022-12-06 江苏智云天工科技有限公司 基于工业质检领域机器学习模型的产品缺陷检测方法
CN116523030A (zh) * 2023-06-30 2023-08-01 支付宝(杭州)信息技术有限公司 动态调度模型训练资源的方法及装置

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109508238A (zh) * 2019-01-05 2019-03-22 咪付(广西)网络技术有限公司 一种用于深度学习的资源管理系统及方法
CN109885389A (zh) * 2019-02-19 2019-06-14 山东浪潮云信息技术有限公司 一种基于容器的并行深度学习调度训练方法及系统
KR20200027783A (ko) * 2018-09-05 2020-03-13 주식회사 나눔기술 분산 지능모듈의 통합관리 시스템

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20200027783A (ko) * 2018-09-05 2020-03-13 주식회사 나눔기술 분산 지능모듈의 통합관리 시스템
CN109508238A (zh) * 2019-01-05 2019-03-22 咪付(广西)网络技术有限公司 一种用于深度学习的资源管理系统及方法
CN109885389A (zh) * 2019-02-19 2019-06-14 山东浪潮云信息技术有限公司 一种基于容器的并行深度学习调度训练方法及系统

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
袁秀利;赵连胜;: "基于强化蚁群算法的任务DAG在线网格集群资源调度", 计算机测量与控制, no. 01, 25 January 2015 (2015-01-25) *

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114881233A (zh) * 2022-04-20 2022-08-09 深圳市魔数智擎人工智能有限公司 一种基于容器的分布式模型推理服务方法
CN114861826A (zh) * 2022-05-31 2022-08-05 中国科学技术大学 基于分布式设计的大规模强化学习训练框架系统
CN115344356A (zh) * 2022-10-18 2022-11-15 江苏智云天工科技有限公司 基于容器化实现分布式训练系统及其构建方法
CN115438805A (zh) * 2022-11-08 2022-12-06 江苏智云天工科技有限公司 基于工业质检领域机器学习模型的产品缺陷检测方法
CN116523030A (zh) * 2023-06-30 2023-08-01 支付宝(杭州)信息技术有限公司 动态调度模型训练资源的方法及装置
CN116523030B (zh) * 2023-06-30 2023-09-15 支付宝(杭州)信息技术有限公司 动态调度模型训练资源的方法及装置

Also Published As

Publication number Publication date
CN114020413B (zh) 2024-07-23

Similar Documents

Publication Publication Date Title
CN114020413B (zh) 一种基于Kubernetes容器集群的分布式强化学习系统设计方法
CN108564164B (zh) 一种基于spark平台的并行化深度学习方法
CN111552550A (zh) 一种基于图形处理器gpu资源的任务调度方法、设备及介质
CN102523249A (zh) 基于Web的分布式远程仿真系统及仿真方法
Ye et al. A new approach for resource scheduling with deep reinforcement learning
CN114492052A (zh) 一种全局流级别网络仿真方法、系统及装置
Zhang et al. DEVS/RMI-An auto-adaptive and reconfigurable distributed simulation environment for engineering studies
CN115658272B (zh) Etl任务调度方法、存储介质、电子设备
CN109550252A (zh) 一种游戏ai训练方法、装置及系统
CN113033806A (zh) 一种训练深度强化学习模型的方法、装置以及调度方法
CN112199154A (zh) 一种基于分布式协同采样中心式优化的强化学习训练系统及方法
CN114138488A (zh) 一种基于弹性高性能计算的云原生实现方法及系统
CN110490319B (zh) 一种基于融合神经网络参数的分布式深度强化学习方法
CN117909044A (zh) 面向异构计算资源的深度强化学习协同调度方法及装置
CN115934344A (zh) 异构分布式强化学习计算方法、系统及存储介质
CN116341652A (zh) 一种面向云际环境的大模型分布式训练方法及相关设备
CN114861826A (zh) 基于分布式设计的大规模强化学习训练框架系统
CN116775220B (zh) 基于异步进程的分布式仿真优化方法、系统、设备及介质
CN116938323B (zh) 一种基于强化学习的卫星转发器资源分配方法
CN112256653B (zh) 一种数据采样方法和装置
CN112257874A (zh) 分布式机器学习系统的机器学习方法、装置、系统
CN101969442B (zh) 基于进程运行环境感知与迁移的网络模拟框架实现方法
WO2021220616A1 (ja) 情報処理装置及び情報処理方法、コンピュータプログラム、並びに分散学習システム
CN114880079A (zh) 基于强化学习的Kubernetes集群规模调整方法、系统及设备
CN116205288A (zh) 强化学习架构及强化学习架构模型参数拷贝方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant