CN110728368A

CN110728368A - 一种仿真机器人深度强化学习的加速方法

Info

Publication number: CN110728368A
Application number: CN201911021049.4A
Authority: CN
Inventors: 唐玉华; 黄达; 杨绍武; 徐利洋; 蔡中轩; 李明龙; 粱震
Original assignee: National University of Defense Technology
Current assignee: National University of Defense Technology
Priority date: 2019-10-25
Filing date: 2019-10-25
Publication date: 2020-01-24
Anticipated expiration: 2039-10-25
Also published as: CN110728368B

Abstract

本发明属于机器人领域，公开了一种仿真机器人深度强化学习的加速方法，目的是加速学习过程从而减少机器人深度强化学习研究、调试、部署的时间开销。本发明的技术方案是：选取一个节点为学习节点，其他节点为环境节点；每个环境节点处理与一个机器人仿真器实例的交互细节，提供统一的环境交互消息接口；学习节点采用帧仿真的形式与各个环境节点之间通过消息接口进行环境交互，同时从多个环境中收集学习数据，从而加速强化学习。本发明通过环境节点抽象在适配各种机器人仿真器的同时，解耦了学习算法开发与仿真交互细节，且消息通信允许各环境节点与仿真器实例部署在分布式计算环境中，具有易部署、可扩展的优势。

Description

一种仿真机器人深度强化学习的加速方法

技术领域

本发明属于机器人领域，涉及机器人在仿真环境中深度强化学习的加速方法，可以应用到智能机器人的避障、导航、编队、多机器人协同等机器人控制任务中。

背景技术

强化学习是机器人领域采用的重要技术之一，通过强化学习，机器人可以通过不断尝试，自主学习一套完成任务的行动策略，这种自学习的能力在难以人工设计行动策略的复杂场景中具有重要意义。

强化学习用于解决序贯决策问题，学习者(即智能体)根据行动策略结合当前环境状态尝试做出行动(初始策略通常是一种随机策略)，根据这一步行动下的任务完成情况获取奖励或惩罚(即负奖励)的学习信号，通过学习信号调整优化行动策略，一步一步尝试直到学习到能够满足任务需求的行动策略。由于机器人的控制本身就是一个序贯决策问题，即不断地根据当前对环境的观察，做出采取何种行动的决策，因此强化学习在移动机器人避障、编队、机械臂控制、多机器人协同等领域都有广泛的应用。深度学习技术的引入使得深度强化学习算法可以直接从原始的高维传感器输入(如相机、激光雷达等)计算需要采取的行动，极大地提升了机器人强化学习的实用性。

然而，强化学习取得良好的结果需要建立在对行动的充分采样的基础上，即通过足够多次的尝试获取经验数据来更新行动策略，深度强化学习由于学习参数多，对经验数据的需求量非常巨大。在机器人领域，由于实物机器人行动慢且实验成本高，通常通过计算机仿真机器人进行行动尝试，收集学习数据。对于基于仿真的学习，一方面要求仿真环境尽可能的逼真，使学习结果更加便于向实际迁移，但另一方面，仿真环境越逼真，计算代价越大，因此基于仿真的机器人强化学习面临着巨大的训练时间成本，仿真环境演化部分成为了限制机器人深度强化学习速度的瓶颈。

如何加速机器人深度强化学习训练过程是本领域技术人员极为关注的技术问题。

发明内容

本发明要解决的技术问题是提供一种在单位时间内收集更多的机器人仿真经验数据的方法，在保持原有算法实现的基础上，加速机器人深度强化学习算法的学习过程。

本发明的技术方案是：

一种仿真机器人深度强化学习的加速方法，包括以下步骤：

第一步：选取一个节点为学习节点，其他节点为环境节点，进行初始化操作，具体启动的环境节点数根据应用所需的并行化规模确定，包括以下步骤：

1.1在学习节点中初始化需要加速的深度强化学习智能体与代理环境；

1.2为每个机器人仿真器实例初始化一个环境节点，环境节点维护与机器人仿真器实例通信细节，提供统一的消息接口与学习节点的代理环境通信；

第二步：学习节点通知所有环境节点重置仿真环境，包括以下步骤：

2.1在学习节点调用代理环境的重置方法；

2.2代理环境向各个环境节点发送重置消息；

2.3各个环境节点将对应的机器人仿真器重置，接收到重置后的传感器数据后，将传感器数据发回代理环境；

2.4代理环境将传感器数据作为重置方法的返回值返回；

在这一步中，学习节点与环境节点的交互通过一个代理环境来实现，代理环境为每个环境节点维护一个环境句柄从而与特定环境节点交互并维护环境信息，代理环境与强化学习智能体之间维持了原有强化学习算法与单个环境交互的接口，从而兼容原有的强化学习智能体实现。

第三步：学习节点采用帧仿真的形式通过代理环境与各个环境节点交互，同时从多个环境中收集学习数据进行强化学习，包括以下步骤：

3.1深度强化学习智能体根据各环境的传感器数据计算各环境中仿真机器人应当采取的行动，调用代理环境的迭代方法；

3.2代理环境向各个环境节点发送迭代消息，其中包含仿真机器人应当采取的行动；

3.3各个环境节点将行动指令发送给机器人仿真器，仿真机器人行动并接收到行动后的传感器数据后，根据任务目标计算本次行动的奖励值，判定任务尝试是否终止，将这些信息发回代理环境；

3.4学习节点从代理环境的重置方法返回值获取各个环境中这次行动的反馈数据，按照各个环境逐条保存到队列中，作为强化学习的经验数据；

3.5强化学习智能体根据经验数据进行策略更新，更新的频率可自由设置在一步尝试后、或几步尝试后、或一轮尝试后，强化学习智能体更新策略时按照各个环境的经验数据逐个串行更新；

3.6判断强化学习是否结束，如果结束，则保存强化学习策略并终止学习节点，如果未结束，则根据本轮尝试是否结束重置相应的仿真环境，返回步骤3.1，否则继续进行下一帧的仿真与经验收集，返回步骤3.2。

优选的，在所述第一步设置一个学习节点与多个从属环境节点，将强化学习算法与仿真环境通信解耦，学习节点运行强化学习算法，每个环境节点维护与对应机器人仿真器的通信细节，可采用的通信手段包括TCP(Transmission Control Protocol)、UDP(UserDatagram Protocol)、ROS(Robot Operating System)等通信协议或中间件。

优选的，第二步所述的代理环境具有与单个环境相同的接口：重置和迭代，从而基于代理环境的强化学习过程不需要改变已有的针对单个环境的强化学习算法的实现。

优选的，第三步所述的学习节点采用帧仿真的形式在各环境节点尝试行动，并将来自不同仿真环境的经验数据逐条存入队列。

采用本发明能达到以下有益效果：

(1)本发明通过环境节点的抽象，允许适配各种机器人仿真器，同时提供统一的环境调用接口，解耦了强化学习算法开发与机器人仿真器的交互细节，修改机器人仿真环境只需修改环境节点，而无需修改学习节点，因为环境节点提供了接口抽象；

(2)本发明通过在学习节点设计代理环境管理与所有的环境节点的通信，使环境节点对开发者透明，开发者只需关心强化学习智能体与代理环境的交互，通过保持代理环境的接口与串行的强化学习算法兼容，允许在不修改原有强化学习算法的基础上，以任意的并行规模进行加速；

(3)本发明中环境节点与学习节点的设计允许各环境节点与仿真器实例部署在分布式计算环境中，具有易部署、可扩展的优势，分布式的部署方式允许利用计算机集群大规模地并行机器人仿真器解决复杂的深度强化学习问题。

附图说明

图1是本发明总体系统框架图；

图2是环境节点消息订阅/发布图；

图3是学习节点中代理环境的消息订阅/发布图；

图4是学习节点中学习过程的流程图；

图5是不同并行规模加速下的效果图。

具体实施方式

下面结合附图和具体实施例对本发明作进一步说明。

一种仿真机器人深度强化学习的加速方法，包括以下步骤：

第一步：选取一个节点为学习节点，其他节点为环境节点，进行初始化操作，整个系统的结构如图1所示，具体启动的环境节点数根据应用所需的并行化规模确定，包括以下步骤：

在这一步中，环境节点既要与仿真器进行通信，又要与学习节点进行通信，环境节点与学习节点、仿真器之间的消息发布、订阅关系如图2所示；经过环境节点抽象后，学习节点无需关心仿真器，只需要与环境节点通信，图3给出了学习节点的消息发布与订阅关系。这些仿真器和环境节点可以在一台计算机上运行，也可以分布式地运行在多台计算机组成的集群上。

2.1在学习节点调用代理环境的重置方法；

2.2代理环境向各个环境节点发送重置消息；

2.4代理环境将传感器数据作为重置方法的返回值返回；

在这一步中，学习节点与环境节点的交互的通过一个代理环境来实现，代理环境为每个环境节点维护一个环境句柄从而与特定环境节点交互并维护环境信息，代理环境与强化学习智能体之间维持了原有强化学习算法与单个环境交互的接口，从而兼容原有的强化学习智能体实现。

第三步：学习节点采用帧仿真的形式通过代理环境与各个环境节点交互，同时从多个环境中收集学习数据进行强化学习，流程如图4所示，包括以下步骤：

3.6判断强化学习是否结束，如果结束，则保存强化学习策略并终止学习节点，如果未结束，则根据本轮尝试是否结束重置相应的仿真环境，返回步骤3.1，否则继续进行下一帧的仿真与经验收集，返回步骤3.2。优选的，在所述第一步设置一个学习节点与多个从属环境节点，将强化学习算法与仿真环境通信解耦，学习节点运行强化学习算法，每个环境节点维护与对应机器人仿真器的通信细节，可采用的通信手段包括TCP(TransmissionControl Protocol)、UDP(User Datagram Protocol)、ROS(Robot Operating System)等通信协议或中间件。

使用不同并行规模对强化学习效果进行了验证，验证场景为移动机器人在迷宫自主漫游，结果如图5所示，只要机器人没有碰撞障碍物就会持续获得奖励，奖励越高代表机器人漫游的时间越长，一旦碰撞障碍物，漫游结束并获得一个惩罚。由于初始策略是随机的，机器人初期尝试一轮漫游只能获得很少的奖励，随着强化学习过程进行，机器人不断收集尝试经验并更新策略，逐渐在一轮漫游中获得越来越多的奖励。验证结果表明，随着并行化规模的提升，机器人获得奖励的增长速度加快，取得相同学习效果所需的时间缩短，在相同学习时间下能够取得更好的学习效果。一方面，相同时间内经验数据的增多能够触发更多对策略的更新，另一方面，更多的经验数据意味着对行动的更充分的采样，即更多次数的尝试，因而能够支持强化学习算法最终取得更优的学习效果。

本发明通过并行地在多个仿真环境实例中进行学习加速仿真机器人的深度强化学习训练过程，采用由学习节点和环境节点构成的“主-从”架构。其中，学习节点运行强化学习算法，强化学习智能体与一个代理环境交互，代理环境具有和单个环境相同的交互接口以确保对已有强化学习算法实现的兼容，代理环境与多个环境节点通信以实现强化学习算法与环境的交互。环境节点提供了统一的交互接口供代理环境调用，维护与具体机器人仿真器的通信，从而解耦了强化学习算法部分与机器人仿真器通信部分，通过环境节点适配各种机器人仿真器。学习节点、环境节点、仿真环境实例能够分布式地部署在计算机集群，这种松耦合的设计提供了丰富的可扩展能力，支持更大的并行化规模以充分利用硬件的并行化资源。本发明能够加速机器人强化学习的训练过程，降低机器人强化学习的研究、调试、部署的时间成本，能够应用于移动机器人避障、编队、机械臂控制、多机器人协同等领域。

上述对实施例的描述是为便于本技术领域的普通技术人员能理解和应用本发明。熟悉本领域技术的人员显然可以容易地对上述实施例做出各种修改，并把在此说明的一般原理应用到其他实施例中而不必经过创造性的劳动。因此，本发明不限于上述实施例，本领域技术人员根据本发明的揭示，对于本发明做出的改进和修改都应该在本发明的保护范围之内。

Claims

1.一种仿真机器人深度强化学习的加速方法，其特征在于，包括以下步骤：

2.1在学习节点调用代理环境的重置方法；

2.2代理环境向各个环境节点发送重置消息；

2.4代理环境将传感器数据作为重置方法的返回值返回；

在这一步中，学习节点与环境节点的交互通过一个代理环境来实现，代理环境为每个环境节点维护一个环境句柄从而与特定环境节点交互并维护环境信息，代理环境与强化学习智能体之间维持了原有强化学习算法与单个环境交互的接口，从而兼容原有的强化学习智能体实现；

2.如权利要求1所述的一种仿真机器人深度强化学习的加速方法，其特征在于：在所述第一步设置一个学习节点与多个从属环境节点，将强化学习算法与仿真环境通信解耦，学习节点运行强化学习算法，每个环境节点维护与对应机器人仿真器的通信细节，采用的通信手段包括TCP、UDP、ROS等通信协议或中间件。

3.如权利要求1所述的一种仿真机器人深度强化学习的加速方法，其特征在于：第二步所述的代理环境具有与单个环境相同的接口：重置和迭代，从而基于代理环境的强化学习过程不需要改变已有的针对单个环境的强化学习算法的实现。

4.如权利要求1所述的仿真机器人深度强化学习的加速方法，其特征在于：第三步所述的学习节点采用帧仿真的形式在各环境节点尝试行动，并将来自不同仿真环境的经验数据逐条存入队列。