CN113742065A

CN113742065A - 一种基于kubernetes容器集群的分布式强化学习方法及装置

Info

Publication number: CN113742065A
Application number: CN202110904681.4A
Authority: CN
Inventors: 叶超; 朴海音; 陈永红; 陶晓洋; 樊松源; 孙阳; 郝一行; 王汉; 于津; 韩玥; 杨晟琦; 彭宣淇
Original assignee: Shenyang Aircraft Design Institute Yangzhou Collaborative Innovation Research Institute Co Ltd; Shenyang Aircraft Design and Research Institute Aviation Industry of China AVIC
Current assignee: Shenyang Aircraft Design Institute Yangzhou Collaborative Innovation Research Institute Co Ltd; Shenyang Aircraft Design and Research Institute Aviation Industry of China AVIC
Priority date: 2021-08-07
Filing date: 2021-08-07
Publication date: 2021-12-03

Abstract

本申请涉及机器学习技术领域，具体涉及一种基于kubernetes容器集群的分布式强化学习方法及装置。该方法包括：步骤S1、将采样任务以容器的形式运行在第一Kubernetes集群中，所述采样任务用于在机器学习的网络参数中进行采样；步骤S2、将训练任务以容器的形式运行在第二Kubernetes集群中，所述训练任务用于根据采样的数据进行机器学习，形成网络参数。本申请能够大幅提升实验效率及节约成本，仅需要一条命令一键更新容器镜像，集群就会自动滚动更新，从小时级别缩短到分钟级别。

Description

一种基于kubernetes容器集群的分布式强化学习方法及装置

技术领域

本申请涉及机器学习技术领域，具体涉及一种基于kubernetes容器集群的分布式强化学习方法及装置。

背景技术

大规模的强化学习需要海量的异构计算资源，批量快速启停训练任务，高频更新模型参数，跨机跨进程共享模型数据等。传统的手工管理模式操作繁琐，面临诸多不确定性，带来的各种挑战无法支撑大规模强化学习的场景。例如：强化学习实验需要多达数万个CPU核心和数百个GPU卡持续一周到两周。连续两次全量实验间隔从几天到几周不定。从整体上看资源使用率很低，实验间隔期资源浪费，经费有限，无法支撑长期持有如此大规模数量的物理机机器资源。此外，手动管理和运维几千台机器(折合几万核心)，包括IP，账号、密码，GPU驱动安装，训练环境管理等，复杂性和难度极高。随着训练规模的进一步增大，管理复杂的问题更加突出。分布式训练代码架构，要求快速批量启停数万规模的角色进程。通过传统的脚本SSH的方式实现多个跨机器进程的启动和停止效率低下，可靠性不足。训练需要运行海量的进程，运行过程中异常退出缺少监控和自动拉起，容错性低。

发明内容

本发明的目的为了解决前述的大规模强化学习在训练过程中，资源利用率低，实验效率低下的问题。基于Kubernetes的分布式强化学习系统，可以弹性的使用计算资源，按需按时去利用资源，压缩研发的成本。对于强化学习的进程可以实现出错后的自动拉起和负载均衡，进程的负载很高时，可以横向扩容实现负载均衡。

本申请第一方面提供了一种基于kubernetes容器集群的分布式强化学习方法，主要包括：

步骤S1、将采样任务以容器的形式运行在第一Kubernetes集群中，所述采样任务用于在机器学习的网络参数中进行采样；

步骤S2、将训练任务以容器的形式运行在第二Kubernetes集群中，所述训练任务用于根据采样的数据进行机器学习，形成网络参数。

优选的是，步骤S1之前进一步包括，将包含采样任务的采样脚本制作成第一Docker镜像。

优选的是，步骤S1中，所述采样任务包括：

启动多个CPU进程，形成一个CPU Group负责与强化学习环境进行互动，从强化学习环境的参数服务器中产生采样数据；

创建经验缓冲池，用于存放所述采样数据。

优选的是，每个CPU进程定时查询参数服务器中参数是否更新，当网络参数更新后，采样进程去获取最新的网络参数，并开始新的一轮采样任务。

优选的是，步骤S2之前进一步包括，将包含训练任务的训练脚本制作成第二Docker镜像。

优选的是，步骤S2中，所述训练任务包括：

启动多个GPU进程，形成一个GPU Group，所述GPU Group利用梯度下降算法更新网络参数；

创建参数服务器，用于存放所述网络参数。

本申请第二方面提供了一种基于kubernetes容器集群的分布式强化学习装置，主要包括：

观测进程，用于将采样任务以容器的形式运行在第一Kubernetes集群中，所述采样任务用于在机器学习的网络参数中进行采样；

学习进程，用于将训练任务以容器的形式运行在第二Kubernetes集群中，所述训练任务用于根据采样的数据进行机器学习，形成网络参数；

经验缓冲池，用于保存所述观测进程产生的样本；

参数服务器，用于存放所述网络参数；

管理进程，用于分发任务和资源管理。

本申请另一方面提供了一种电子设备，所述电子设备包括存储器、处理器以及存储在存储器中并能够在处理器上运行的计算机程序，处理器执行计算机程序时实现如上的基于kubernetes容器集群的分布式强化学习方法。

本申请另一方面提供了一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，计算机程序被处理器执行时能够实现如上的基于kubernetes容器集群的分布式强化学习方法。

本申请能够大幅提升实验效率：不再需要手动管理和运维大批量机器，节省了大量机器环境初始化，密码管理和进程部署的时间。传统模式下，代码更新后需要手动更新程序。容器化以后，仅需要一条命令一键更新容器镜像，集群就会自动滚动更新，从小时级别缩短到分钟级别。

另一方面，本申请能够节约成本：与传统模式相比，不再需要长期持有大批量的CPU和GPU设备。训练任务开始，根据预估的规模购买CPU和GPU设备。训练结束后，退还所有设备，设备可以提供给其他公有云客户使用，极大地缩减资源成本。综合考虑使用周期和使用规模、GPU机器折旧等因素，可以节省成本。

附图说明

图1是本申请基于kubernetes容器集群的分布式强化学习方法的采样流程图。

图2本申请基于kubernetes容器集群的分布式强化学习方法的训练流程图。

图3是本申请基于kubernetes容器集群的分布式强化学习装置的架构图。

图4是本申请的电子设备的优选实施例示意图。

具体实施方式

为使本申请实施的目的、技术方案和优点更加清楚，下面将结合本申请实施方式中的附图，对本申请实施方式中的技术方案进行更加详细的描述。在附图中，自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。所描述的实施方式是本申请一部分实施方式，而不是全部的实施方式。下面通过参考附图描述的实施方式是示例性的，旨在用于解释本申请，而不能理解为对本申请的限制。基于本申请中的实施方式，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施方式，都属于本申请保护的范围。下面结合附图对本申请的实施方式进行详细说明。

参考图1-图3，整个分布式强化学习流程分为以下几步：

1.采样。用户编写完采样脚本，将脚本制作成Docker镜像，通过Manager将采样任务以容器的形式运行在Kubernetes集群中，以容器的形式运行在集群中最大的好处是可以利用Kubernetes的特性实现高可用性和负载均衡。当一个采样进程意外结束时，Kubernetes可以根据用户的设定自动的重启这个采样进程。当采样进程的负载超过用户设定的阈值时，Kubernetes可以对该进程进行扩容。采样任务主要流程包括：启动多个CPU进程，形成一个CPU Group负责与强化学习环境进行互动，产生数据。创建ReplayBuffer，存放采样得到的数据。采样进程定时去查询参数服务器中参数是否更新，当网络参数更新后，采样进程去获取最新的网络参数，并开始新的一轮采样任务。

2.训练。用户编写完训练脚本，将脚本制作成Docker镜像，通过Manager将训练任务以容器的形式运行在Kubernetes集群中。和采样任务一样，训练进程意外结束时，Kubernetes可以根据用户的设定自动的重启这个训练进程。当训练进程的负载超过用户设定的阈值时，Kubernetes可以对该进程进行扩容。训练任务主要流程包括：启动多个GPU进程，形成一个GPU Group利用梯度下降算法去更新网络参数，一轮训练结束后，训练进程会将更新后的网络参数放置到参数服务器上供采样进程使用。训练进程会监控ReplayBuffer容量的大小，如果样本数满足训练要求，就会开始训练任务。

本申请第二方面提供了一种与上述方法对应的基于kubernetes容器集群的分布式强化学习装置，主要包括：观测进程，用于将采样任务以容器的形式运行在第一Kubernetes集群中，所述采样任务用于在机器学习的网络参数中进行采样；学习进程，用于将训练任务以容器的形式运行在第二Kubernetes集群中，所述训练任务用于根据采样的数据进行机器学习，形成网络参数；经验缓冲池，用于保存所述观测进程产生的样本；参数服务器，用于存放所述网络参数；管理进程，用于分发任务和资源管理。

参考图3，使用基于Actor-Learner架构的分布式强化学习训练，包括以下几种角色的进程，这些进程均以容器的形式运行在Kubernetes集群中。Actor:从ParameterSever拿到最新的网络参数，使用多个CPU并行采样采样，产生一系列观测数据，观测数据放入ReplayBuffer中。Learner:从Actor拿到观察数据，使用梯度下降更新神经网络模型。ParameterServer:参数服务器，负责保存最新的网络参数。ReplayBuffer:经验缓冲池，负责保存Actor产生的样本。Manager:负责分发任务和资源管理。用户只关心需要多少资源，不需要关心资源运行在哪一台机器上，编写配置脚本，通过用户接口向Manager发送指令，Manager再去分发任务和分配资源。

本申请还提供了一种电子设备，包括存储器、处理器以及存储在存储器中并能够在处理器上运行的计算机程序，处理器执行计算机程序时实现如上的基于kubernetes容器集群的分布式强化学习方法。

本申请还提供了一种计算机可读存储介质，计算机可读存储介质存储有计算机程序，计算机程序被处理器执行时能够实现如上的基于kubernetes容器集群的分布式强化学习方法。

图4是能够实现根据本申请一个实施例提供的电子设备示例性结构图。如图4所示，电子设备包括输入设备501、输入接口502、中央处理器503、存储器504、输出接口505以及输出设备506。其中，输入接口502、中央处理器503、存储器504以及输出接口505通过总线507相互连接，输入设备501和输出设备506分别通过输入接口502和输出接口505与总线507连接，进而与电子设备的其他组件连接。具体地，输入设备504接收来自外部的输入信息，并通过输入接口502将输入信息传送到中央处理器503；中央处理器503基于存储器504中存储的计算机可执行指令对输入信息进行处理以生成输出信息，将输出信息临时或者永久地存储在存储器504中，然后通过输出接口505将输出信息传送到输出设备506；输出设备506将输出信息输出到电子设备的外部供用户使用。

也就是说，图4所示的电子设备也可以被实现为包括：存储有计算机可执行指令的存储器；以及一个或多个处理器，该一个或多个处理器在执行计算机可执行指令时可以实现结合图1描述的无人机自主寻径模型训练方法。

在一个实施例中，图4所示的电子设备可以被实现为包括：存储器504，被配置为存储可执行程序代码；一个或多个处理器503，被配置为运行存储器504中存储的可执行程序代码，以执行上述实施例中的基于kubernetes容器集群的分布式强化学习方法。

在一个典型的配置中，计算设备包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存。

内存可能包括计算机可读介质中的非永久性存储器，随机存取存储器(RAM)和/或非易失性内存等形式，如只读存储器(ROM)或闪存(flash RAM)。内存是计算机可读介质的示例。

计算机可读介质包括永久性和非永久性、可移动和非可移动，媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括，但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数据多功能光盘(DVD)或其他光学存储、磁盒式磁带、磁带磁盘存储或其他磁性存储设备或任何其他非传输介质，可用于存储可以被计算设备访问的信息。

本领域技术人员应明白，本申请的实施例可提供为方法、系统或计算机程序产品。因此，本申请可采用完全硬件实施例、完全软件实施例或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

此外，显然“包括”一词不排除其他单元或步骤。装置权利要求中陈述的多个单元、模块或装置也可以由一个单元或总装置通过软件或硬件来实现。第一、第二等词语用来标识名称，而不标识任何特定的顺序。

附图中的流程图和框图，图示了按照本申请各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分，模块、程序段、或代码的一部分包括一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意，在有些作为替换的实现中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个接连地标识的方框实际上可以基本并行地执行，他们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图和/或流程图中的每个方框、以及框图和/或总流程图中的方框的组合，可以用执行规定的功能或操作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。

在本实施例中所称处理器可以是中央处理单元(Central Processing Unit，CPU)，还可以是其他通用处理器、数字信号处理器(Digital Signal Processor，DSP)、专用集成电路(Application Specific Integrated Circuit，ASIC)、现成可编程门阵列(Field-Programmable Gate Array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。

存储器可用于存储计算机程序和/或模块，处理器通过运行或执行存储在存储器内的计算机程序和/或模块，以及调用存储在存储器内的数据，实现装置/终端设备的各种功能。存储器可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能等)等；存储数据区可存储根据手机的使用所创建的数据(比如音频数据、电话本等)等。此外，存储器可以包括高速随机存取存储器，还可以包括非易失性存储器，例如硬盘、内存、插接式硬盘，智能存储卡(Smart Media Card,SMC)，安全数字(Secure Digital,SD)卡，闪存卡(Flash Card)、至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。

在本实施例中，装置/终端设备集成的模块/单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明实现上述实施例方法中的全部或部分流程，也可以通过计算机程序来指令相关的硬件来完成，计算机程序可存储于一计算机可读存储介质中，该计算机程序在被处理器执行时，可实现上述各个方法实施例的步骤。其中，计算机程序包括计算机程序代码，计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。计算机可读介质可以包括：能够携带计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、电载波信号、电信信号以及软件分发介质等。

需要说明的是，计算机可读介质包含的内容可以根据司法管辖区内立法和专利实践的要求进行适当的增减。本申请虽然以较佳实施例公开如上，但其实并不是用来限定本申请，任何本领域技术人员在不脱离本申请的精神和范围内，都可以做出可能的变动和修改，因此，本申请的保护范围应当以本申请权利要求所界定的范围为准。

虽然，上文中已经用一般性说明及具体实施方案对本发明作了详尽的描述，但在本发明基础上，可以对之作一些修改或改进，这对本领域技术人员而言是显而易见的。因此，在不偏离本发明精神的基础上所做的这些修改或改进，均属于本发明要求保护的范围。

Claims

1.一种基于kubernetes容器集群的分布式强化学习方法，其特征在于，包括：

2.如权利要求1所述的基于kubernetes容器集群的分布式强化学习方法，其特征在于，步骤S1之前进一步包括，将包含采样任务的采样脚本制作成第一Docker镜像。

3.如权利要求1所述的基于kubernetes容器集群的分布式强化学习方法，其特征在于，步骤S1中，所述采样任务包括：

创建经验缓冲池，用于存放所述采样数据。

4.如权利要求3所述的基于kubernetes容器集群的分布式强化学习方法，其特征在于，每个CPU进程定时查询参数服务器中参数是否更新，当网络参数更新后，采样进程去获取最新的网络参数，并开始新的一轮采样任务。

5.如权利要求1所述的基于kubernetes容器集群的分布式强化学习方法，其特征在于，步骤S2之前进一步包括，将包含训练任务的训练脚本制作成第二Docker镜像。

6.如权利要求1所述的基于kubernetes容器集群的分布式强化学习方法，其特征在于，步骤S2中，所述训练任务包括：

创建参数服务器，用于存放所述网络参数。

7.一种基于kubernetes容器集群的分布式强化学习装置，其特征在于，包括：

经验缓冲池，用于保存所述观测进程产生的样本；

参数服务器，用于存放所述网络参数；

管理进程，用于分发任务和资源管理。

8.一种电子设备，其特征在于，所述电子设备包括存储器、处理器以及存储在存储器中并能够在处理器上运行的计算机程序，处理器执行计算机程序时实现如上的基于kubernetes容器集群的分布式强化学习方法。

9.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储有计算机程序，计算机程序被处理器执行时能够实现如上的基于kubernetes容器集群的分布式强化学习方法。