CN114020413A

CN114020413A - 一种基于Kubernetes容器集群的分布式强化学习系统设计方法

Info

Publication number: CN114020413A
Application number: CN202111303747.0A
Authority: CN
Inventors: 叶超; 朴海音; 陈永红; 陶晓洋; 樊松源; 孙阳; 郝一行; 王汉; 于津; 韩玥; 杨晟琦; 彭宣淇
Original assignee: Shenyang Aircraft Design Institute Yangzhou Collaborative Innovation Research Institute Co ltd
Current assignee: Shenyang Aircraft Design Institute Yangzhou Collaborative Innovation Research Institute Co ltd
Priority date: 2021-11-05
Filing date: 2021-11-05
Publication date: 2022-02-08
Anticipated expiration: 2041-11-05
Also published as: CN114020413B

Abstract

本发明公开一种基于Kubernetes容器集群的分布式强化学习系统设计方法，属于大规模分布式强化学习系统设计领域通过使用了Kubernetes系统构建容器集群，将强化学习系统的功能模块抽象成一个个服务容器，将模型训练和采样部分构建成一个强化学习模型容器集群，并且通过Manager负责整个训练过程中任务分发、资源管理调度。本发明可以提高大规模强化学习的资源利用率，减少人工干预，加快大规模强化学习部署和训练。

Description

一种基于Kubernetes容器集群的分布式强化学习系统设计方法

技术领域

本发明属大规模分布式强化学习系统设计领域，具体涉及一种基于Kubernetes容器集群的分布式强化学习系统设计方法

背景技术

大规模的强化学习需要海量的异构计算资源，批量快速启停训练任务，高频更新模型参数，跨机跨进程共享模型数据等。传统的手工管理模式操作繁琐，面临诸多不确定性，带来的各种挑战无法支撑大规模强化学习的场景。例如：强化学习实验需要多达数万个CPU核心和数百个GPU卡持续一周到两周。连续两次全量实验间隔从几天到几周不定。从整体上看资源使用率很低，实验间隔期资源浪费，经费有限，无法支撑长期持有如此大规模数量的物理机机器资源。此外，手动管理和运维几千台机器(折合几万核心)，包括IP，账号、密码，GPU驱动安装，训练环境管理等，复杂性和难度极高。随着训练规模的进一步增大，管理复杂的问题更加突出。分布式训练代码架构，要求快速批量启停数万规模的角色进程。通过传统的脚本SSH的方式实现多个跨机器进程的启动和停止效率低下，可靠性不足。训练需要运行海量的进程，运行过程中异常退出缺少监控和自动拉起，容错性低。

发明内容

本发明的创新点在于利用Kubernetes容器集群的特性设计一种全新的分布式强化学习框架，目前公开的使用Kubernetes容器集群训练部署深度学习任务基本都是基于监督学习的，基于强化学习的目前还没有成熟的解决方案。这个本发明的目的为了解决前述的大规模强化学习在训练过程中，资源利用率低，实验效率低下的问题。基于Kubernetes的分布式强化学习系统，可以弹性的使用计算资源，按需按时去利用资源，压缩研发的成本。对于强化学习的进程可以实现出错后的自动拉起和负载均衡，进程的负载很高时，可以横向扩容实现负载均衡。

本发明的技术方案：

一种基于Kubernetes容器集群的分布式强化学习系统设计方法，具体如下：

1)基于Kubernetes构建容器集群，主要包括在CPU机器和GPU机器安装Kubernetes，并将这些机器全部加入到同一个容器集群中；2)将强化学习采样和训练代码制作成Docker镜像，根据需求在容器集群中启动多个容器实例；3)在容器集群中启动Manager管理程序，负责任务分发、资源调度、参数调优和模型保存等工作；

具体的，使用基于Actor-Learner架构的分布式强化学习训练，包括以下几种角色的进程，这些进程均以容器的形式运行在Kubernetes容器集群中。

Actor(采样器)：从ParameterSever拿到最新的网络参数，使用多个CPU并行采样，产生一系列观测数据，观测数据放入ReplayBuffer中。

Learner(学习器)：从Actor拿到观察数据，使用梯度下降更新神经网络模型。

ParameterServer(参数服务器)：负责保存最新的网络参数。

ReplayBuffer(经验缓冲池)：负责保存Actor产生的样本。

Manager(调度器)：负责分发任务和资源管理。

用户只关心需要多少资源，不需要关心资源运行在哪一台机器上，编写配置脚本，通过用户接口向Manager发送指令，Manager再去分发任务和分配资源。

整个分布式强化学习流程分为以下几步：

1.采样。用户编写完采样脚本，将脚本制作成Docker镜像，通过Manager将采样任务以容器的形式运行在Kubernetes容器集群中，以容器的形式运行在集群中最大的好处是可以利用Kubernetes的特性实现高可用性和负载均衡。当一个采样进程意外结束时，Kubernetes容器集群根据用户的设定自动的重启这个采样进程。当采样进程的负载超过用户设定的阈值时，Kubernetes容器集群对该进程进行扩容。

采样任务主要流程包括：启动多个CPU进程，形成一个CPU Group负责与强化学习环境进行互动，产生数据。创建ReplayBuffer，存放采样得到的数据。采样进程定时去查询参数服务器中参数是否更新，当网络参数更新后，采样进程去获取最新的网络参数，并开始新的一轮采样任务。

2.训练。用户编写完训练脚本，将脚本制作成Docker镜像，通过Manager将训练任务以容器的形式运行在Kubernetes容器集群中。和采样任务一样，训练进程意外结束时，Kubernetes容器集群根据用户的设定自动的重启这个训练进程。当训练进程的负载超过用户设定的阈值时，Kubernetes容器集群对该进程进行扩容。

训练任务主要流程包括：启动多个GPU进程，形成一个GPU Group利用梯度下降算法去更新网络参数，一轮训练结束后，训练进程会将更新后的网络参数放置到参数服务器上供采样进程使用。训练进程会监控ReplayBuffer容量的大小，如果样本数满足训练要求，就会开始训练任务。

本发明的有益效果：

(1)大幅提升实验效率：不再需要手动管理和运维大批量机器，节省了大量机器环境初始化，密码管理和进程部署的时间。传统模式下，代码更新后需要手动更新程序。容器化以后，仅需要一条命令一键更新容器镜像，集群就会自动滚动更新，从小时级别缩短到分钟级别。

(2)节约成本：与传统模式相比，不再需要长期持有大批量的CPU和GPU设备。训练任务开始，根据预估的规模购买CPU和GPU设备。训练结束后，退还所有设备，设备可以提供给其他公有云客户使用，极大地缩减资源成本。综合考虑使用周期和使用规模、GPU机器折旧等因素，可以节省成本。

附图说明

图1基于Kubernetes的强化学习架构图。

图2采样流程。

图3训练流程。

图4 CartPole游戏模型。

具体实施方式

以下通过附图和实施例对本发明的技术方案进行进一步说明。

实施例：

1.实验环境搭建：三台装载Ubuntu18.04系统主机，硬件配置为i7,RTX2070显卡，分别作为master节点、slave1节点和slave2节点。配置网络和免密访问服务使得三个节点可以相互访问。三台机器完成时间同步，安装docker、nvidia-docker和显卡驱动。首先在master节点上安装kubeadm工具，通过kubeadm工具迅速的完成k8s集群master节点的初始化，并产生集群唯一的Token，slave1和slave2节点通过Token加入到k8s集群中来，至此完成3个节点总成的k8s集群搭建。

2.强化学习实验环境采用的是OpenAI Gym经典控制环境CartPole(倒立摆)。Gym是一个研究和开发强化学习相关算法的仿真平台，无需智能体先验知识，并兼容常见的数值运算库如TensorFlow、Pytorch等。CartPole游戏模型如图4所示。游戏里面有一个小车，上有竖着一根杆子，每次重置后的初始状态会有所不同。小车需要左右移动来保持杆子竖直，为了保证游戏继续进行需要满足以下两个条件：杆子倾斜的角度不能大于15°，小车移动的位置需保持在一定范围(中间到两边各2.4个单位长度)。

3.Actor(采样器)的实现方式是：首先通过深度强化学习算法DQN训练产生一个采样的Agent(智能体)，其次利用该Agent不断的与强化学习环境进行交互产生样本存入到经验池中，最后Learner(学习器)利用采样器得到的训练数据更新Agent的网络参数，采样器使用新的网络参数继续采样如此循环往复。采样器的算法更新流程如下：

采集的数据样本的数据结构是四元组信息(s，a，r，s_)(当前输入的状态信息s、选择的动作a、执行动作后的下一个状态信息s_和环境反馈的奖励r)，存储到初始好容量的经验回放存储器(ReplayBuffer)中，即采集足够的训练样本集，训练样本的个数是一个超参数，设置为10000。

4.深度强化神经网络。DQN算法中Q函数通过一个深度强化神经网络来拟合，网络结构包括以下几部分。特征表示层：卷积神经网络(CNN)的对实验环境图像进行特征学习，产生图像每个像素上对应的高层信息特征，该网络通过每一层的卷积操作和池化等非线性的变换学习不同尺度的视觉表达，这说明该网络可以捕获到丰富的高层信息。价值估计层：输入为特征表示层的输出，内部的结构为一个全连接层，输出为一个标量，代表Agent(智能体)在这个状态下执行该动作可以获得累计收益的期望，我们希望这个值越大越好。当实现DQN算法的代码模型编写调试好后，将代码打包成docker镜像上传到容器集群中。

5.ReplayBuffer(经验缓冲池)。在容器的任意一个节点启动redis数据库，采样器将采集的数据四元组信息(s，a，r，s_)存入到数据库中的特定字段data，当采购足够的数据时，把redis数据库中表明数据是否采购的标志flag置为1,否则默认为0。Learner(学习器)会监控flag字段，当flag字段为1时，会去redis数据库data字段取得数据用于智能体(Agent)参数得更新，并且把flag字段置换为0，清空data字段。

6.Learner(学习器)利用采样器产生的数据，利用梯度下降算法更新Agent(智能体)神经网络参数。Learner使用的深度神经网络结构和Actor是完全一样的，只是网络的参数不同。当Learner的实现代码编写好后需要打包成docker镜像上传到k8s集群中。

Claims

1.一种基于Kubernetes容器集群的分布式强化学习系统设计方法，其特征在于，具体如下：

1)基于Kubernetes构建容器集群，包括在CPU机器和GPU机器安装Kubernetes，并将这些机器全部加入到同一个容器集群中；

2)将强化学习采样和训练代码制作成Docker镜像，根据需求在容器集群中启动多个容器实例；

3)在容器集群中启动调度器管理程序，负责任务分发、资源调度、参数调优和模型保存工作；

具体的，使用基于采样器-学习器架构的分布式强化学习训练，包括以下几种角色的进程，这些进程均以容器的形式运行在Kubernetes容器集群中；

采样器：从参数服务器拿到最新的网络参数，使用多个CPU并行采样，产生一系列观测数据，观测数据放入经验缓冲池中；

学习器：从采样器拿到观察数据，使用梯度下降更新神经网络模型；

参数服务器：负责保存最新的网络参数；

经验缓冲池：负责保存采样器产生的样本；

调度器：负责分发任务和资源管理；

用户只关心需要多少资源，不需要关心资源运行在哪一台机器上，编写配置脚本，通过用户接口向调度器发送指令，调度器再去分发任务和分配资源；整个分布式强化学习流程分为以下几步：

A)采样；用户编写完采样脚本，将脚本制作成Docker镜像，通过调度器将采样任务以容器的形式运行在Kubernetes容器集群中，当一个采样进程意外结束时，Kubernetes容器集群根据用户的设定自动的重启这个采样进程；当采样进程的负载超过用户设定的阈值时，Kubernetes容器集群对该进程进行扩容；

采样任务主要流程包括：启动多个CPU进程，形成一个CPU Group负责与强化学习环境进行互动，产生数据；创建经验缓冲池，存放采样得到的数据；采样进程定时去查询参数服务器中参数是否更新，当网络参数更新后，采样进程去获取最新的网络参数，并开始新的一轮采样任务；

B)训练；用户编写完训练脚本，将脚本制作成Docker镜像，通过调度器将训练任务以容器的形式运行在Kubernetes容器集群中；和采样任务一样，训练进程意外结束时，Kubernetes容器集群根据用户的设定自动的重启这个训练进程；当训练进程的负载超过用户设定的阈值时，Kubernetes容器集群对该进程进行扩容；

训练任务主要流程包括：启动多个GPU进程，形成一个GPU Group利用梯度下降算法去更新网络参数，一轮训练结束后，训练进程会将更新后的网络参数放置到参数服务器上供采样进程使用；训练进程会监控经验缓冲池容量的大小，如果样本数满足训练要求，就会开始训练任务。

2.根据权利要求1所述的一种基于Kubernetes容器集群的分布式强化学习系统设计方法，其特征在于，采样器的实现方式是：首先通过深度强化学习算法DQN训练产生一个采样的智能体，其次利用该智能体不断的与强化学习环境进行交互产生样本存入到经验池中，最后学习器利用采样器得到的训练数据更新智能体的网络参数，采样器使用新的网络参数继续采样如此循环往复；

采集的数据样本的数据结构是四元组信息(s，a，r，s_)，其中，s为当前输入的状态信息、a为选择的动作、s_为执行动作后的下一个状态信息、r为环境反馈的奖励，四元组信息(s，a，r，s_)存储到初始好容量的经验缓冲池中，即采集足够的训练样本集，训练样本的个数是一个超参数。

3.根据权利要求2所述的一种基于Kubernetes容器集群的分布式强化学习系统设计方法，其特征在于，深度强化学习算法DQN中Q函数通过一个深度强化神经网络来拟合，深度强化神经网络的结构包括以下几部分：

特征表示层：卷积神经网络CNN对实验环境图像进行特征学习，产生图像每个像素上对应的高层信息特征，该网络通过每一层的卷积操作和池化这些非线性的变换学习不同尺度的视觉表达，使得网络可以捕获到丰富的高层信息；

价值估计层：输入为特征表示层的输出，内部的结构为一个全连接层，输出为一个标量，代表智能体在这个状态下执行该动作可以获得累计收益的期望；当实现深度强化学习算法DQN的模型训练好后，将代码打包成docker镜像上传到容器集群中。

4.根据权利要求1所述的一种基于Kubernetes容器集群的分布式强化学习系统设计方法，其特征在于，所述的经验缓冲池：在容器的任意一个节点启动redis数据库，采样器将采集的数据四元组信息(s，a，r，s_)存入到数据库中的特定字段data，当采购足够的数据时，把redis数据库中表明数据是否采购的标志flag置为1,否则默认为0；学习器会监控flag字段，当flag字段为1时，会去redis数据库data字段取得数据用于智能体参数得更新，并且把flag字段置换为0，清空data字段。

5.根据权利要求1所述的一种基于Kubernetes容器集群的分布式强化学习系统设计方法，其特征在于，学习器：利用采样器产生的数据，利用梯度下降算法更新智能体神经网络参数；学习器使用的深度神经网络结构和采样器是完全一样的，只是网络的参数不同；当学习器的实现代码编写好后需要打包成docker镜像上传到容器集群中。