CN109540150A

CN109540150A - 一种应用于危化品环境下多机器人路径规划方法

Info

Publication number: CN109540150A
Application number: CN201811596806.6A
Authority: CN
Inventors: 曹政才; 田珂; 胡标; 周萌; 王晓彤
Original assignee: Beijing University of Chemical Technology
Current assignee: Beijing University of Chemical Technology
Priority date: 2018-12-26
Filing date: 2018-12-26
Publication date: 2019-03-29
Anticipated expiration: 2038-12-26
Also published as: CN109540150B

Abstract

本发明公开了一种应用于危化品环境下多机器人路径规划方法，属于机器人路径规划技术领域。此方法应用于智能机器人，可以在动态性强的复杂危化品环境下进行多机的全地图巡检，并对特殊事件实时编队反应。该方法的核心算法是好奇心驱使算法与深度确定性策略梯度相结合的深度强化学习算法，该算法避免了同类算法中人工设计环境奖励这一复杂繁琐的步骤，而是通过智能体自身内在奖励与稀疏的环境奖励对未知复杂环境进行探索、适应；同时，多机器人之间采用多Agent协作学习算法获得最优的协同工作策略。

Description

一种应用于危化品环境下多机器人路径规划方法

技术领域

本发明涉及机器人路径规划技术领域，具体是指一种应用于危化品环境下多机器人路径规划方法。

背景技术

近年来，随着诸多危化品环境事故的频繁发生，例如“8·12天津滨海新区爆炸事故”等，危化品环境等特殊环境的安全问题引起越来越大的关注。危化品环境具有布局复杂、危险系数高、实时响应性需求高等特点，考虑到环境的特殊性，具有无需建模，并不需要过多环境奖励的特点的基于好奇心驱使算法的多机路径规划算法及系统就提供了可行的解决方案。

近年来，深度学习与强化学习相结合的深度强化学习算法是机器学习领域的一个重要研究热点，已在多种分领域获得了令人瞩目的成就，深度学习方法侧重于对事物的感知和表达。强化学习方法更加侧重于学习解决问题的策略，深度强化学习作为两者的结合，具有两者的优点，形成了人工智能领域新的研究热点。但奖励函数的设计问题是其主要难点。

传统的深度强化学习算法需要人为的设计环境奖励函数，奖励函数的设计是一个冗长繁琐的过程，需要进行大量的尝试与调试，这便给技术工作者增加了很大的工作量，而且往往得不到较理想的仿真结果。此外，在动态环境发生变化时，奖励函数不再适配新环境，需要重新设计奖励函数，这便成了亟待解决的问题。

同时，在危化品环境中，多个机器人协同作业的工作效率、环境适应性与预防效果要远高于单个机器人的工作。但是多机器人之间的队形编队、动作策略选择等依旧是研究的难点。多个机器人的巡检、特殊事件(如火源、气体泄漏等)的及时响应等功能的良好实现，是实际机器人应用到化工环境需要解决的关键问题之一。

因此，如何解决以上问题，是解决机器人应用在危化品环境中的关键问题。

发明内容

以下给出一个或多个方面的主要概述以应对这些方面的基本理解。此概述不能将所有构想的方面进行详述，其唯一的目的是要以简化形式给出一个或多个方面的一些概念以为稍后给出的更加详细的描述之序。

本发明的目的在于解决上述问题，提供了一种应用于危化品环境下多机器人路径规划方法，该方法解决了奖励函数的设计问题，基于好奇心驱使算法，能够使机器人在稀疏环境奖励下进行训练，同时通过多Agent算法(Multi-AgentReinforcementLearning，MARL)，对多机进行策略训练，使机器人完成在复杂动态的危化品环境实现巡检及应对特殊事件实时响应的任务。

本发明提出一种应用于危化品环境下多机器人路径规划方法，包括：

步骤一：根据真实的危化品环境在Unity3D引擎中进行模型建立，加入动态障碍物以及特殊事件以模拟真实环境，并搭建Unity3D与Python接口进行训练；

步骤二：采用好奇心驱使算法与DDPG相结合的方法，在Python环境中对单个Agent智能体进行训练，使其能够在化工环境进行巡检，并在危险情况发生时做出实时响应，并规划最优路径；

步骤三：采用MARL使多Agent进行共同学习，并做出相应的决策，进而达成最优的联合动作策略，实现多机的巡检与对特殊事件的及时编队响应。

在步骤一中，包括以下步骤：

步骤1.1：危化品环境通过Unity3D引擎参照真实危化品环境进行建立；

步骤1.2：环境中加入动态障碍物，模拟真实的环境，并随机产生特殊事件，以模仿现实危化品环境中的火源、气体泄漏等特殊情况。

在步骤二中，包括以下进一步步骤：

步骤2.1：设计稀疏的环境奖励，该奖励只需在机器人到达目标点后给予一定奖励，并在发生碰撞或产生错误路径等事故情况下给予惩罚；

步骤2.2：在Agent原始状态下，将原始状态作为策略输入，进行动作选择，这里的策略选择采用DDPG算法进行训练；

步骤2.3：动作选择之后进行动作的执行，在此过程中，Agent与含有稀疏奖励的环境进行交互，到达下一状态；

步骤2.4：在下一状态，Agent通过决策再进行继续的动作，以此达到一个训练的步骤循环。

步骤2.5：在一次完整的训练过程中，前后状态值与动作均要通过ICM内在好奇心模块进行计算。此过程输出的结果值即内在奖励值。

步骤2.6：ICM将前后状态进行编码，用特征状态值进行表示；Agent的动作将经过正向模型进行编码，此编码与下一状态的编码进行误差计算，通过此结果值得到内在奖励。

步骤2.7：同时，原始状态与下一状态的编码结果会经过逆动力学模型进行动作预测。

步骤2.8：好奇心算法的最终奖励是由外界奖励与内在奖励相加，最终目的是使其最大化，即：

其中，r_t表示总奖励值，表示Agent在t时刻产生的内在好奇心奖励，表示同时刻的外界奖励，两者用符号i及符号ε加以区分。

在步骤三中，包括以下步骤：

步骤3.1：多Agent学习算法对多个协作者进行历史动作采样，计算长期得益的估计值，估计值最大的相应动作是当前最好的动作。

步骤3.2：对于所考察的Agent的协作者，对于每个动作需要维护一个一定长度的队列，按照时间顺序存放协作者的响应动作作为采样源。

步骤3.3：基于LR的动作选择策略。动作选择过程为：对于某一个状态s的访问次数小于记忆长度m时，随机选择动作为x；否则依据Pr′选择动作x。

步骤3.4：训练过程的实施步骤如下，首先初始化状态；

步骤3.5：之后循环执行以下循环步骤：随机选择动作x，观察协作者的局部联合动作，更新该状态下的协作者动作队列；若长期奖励l(s)收敛到稳定值，则循环结束。

附图说明

构成本申请的一部分的说明书附图用来提供对本申请的进一步理解，本申请的示意性实施例及其说明用于解释本申请，并不构成对本申请的不当限定。

图1为本发明中整体系统的框架图；

图2为本发明中在Unity3D引擎中搭建的机器人模型在仿真危化品环境中的示意图；

图3为DDPG算法的流程图；

图4为本发明中ICM模块实现的实施流程图；

图5为本发明中多Agent强化学习算法的实施流程图；

图6为本发明中Agent的阶段奖励平均值仿真结果；

图7为本发明中Agent的奖励标准值；

图8所示为Agent的动作选择矢量编码。

具体实施方式

以下结合附图和具体实施例对本发明作详细描述。注意，以下结合附图和具体实施例描述的诸方面仅是示例性的，而不应被理解为对本发明的保护范围进行任何限制。

步骤1：危化品环境通过Unity3D引擎依照真实的危化品环境进行搭建，其中设置了传统化工建筑的静态障碍物，如图2所示；

步骤2：在该环境中加入动态障碍物，模拟真实的环境中移动的物体，并规定目标点以模拟特殊事件发生地点；

步骤3：在Unity3D引擎中，只需设计稀疏的环境奖励就能进行仿真训练，该奖励只需基于机器人到达目标点后的奖励，以及碰撞障碍物后发生的惩罚即可；

步骤4：训练过程中，在Agent原始状态下，将原始状态s_t作为策略判断的输入，该策略由DDPG实现，进行动作选择，这里的策略选择采用DDPG算法进行计算，DDPG算法流程图如图3所示；

步骤5：DDPG算法的流程，首先初始化网络，

步骤5.1随机初始化Actor网络和Critic网络；

步骤5.2初始化target网络，target网络的结构和actor和critic的一样，并且参数也相同；

步骤5.3初始化ReplayBufferR，因为强化学习的马尔科夫序列之间的数据具有非常大的关联性，采用R的目的就是打乱数据之间的相关性，使得数据之间满足独立同分布。

步骤6：训练Episode，初始化一个随机的N；获得观察值s₁；选取动作，这个动作是由策略网络μ的输出与探索度两部分组成；执行代码，根据观察值s_t和动作，执行action，得到对应的奖励R和s′；

步骤7：将学习的序列存储到R中，然后随机批量的读取R中的序列进行学习模型。

步骤8：定义标签y_i，使用RMSE误差，更新的时候直接更新值函数的损失。

步骤9：DDPG进行动作选择之后，进行动作的执行，在此过程中，Agent通过环境的稀疏奖励获得外在奖励值，到达下一状态；

步骤10：在下一状态，Agent通过决策再进行继续的动作，以此达到一个训练的步骤循环。

步骤11：在一次完整的训练过程中，前后状态值，与动作均要通过ICM内在好奇心模块进行计算，ICM算法流程如图4所示。此过程输出的结果值即内在奖励值。

步骤12：好奇心算法的最终奖励是由外界奖励与内在奖励相加，最终目的是使其最大化，即：

步骤13：ICM中的编码器将前后状态进行编码，用特征状态值进行表示；Agent的动作将经过正向模型进行编码，其中，是动作的预测估计值，s_t与s_t+1表示Agent原始状态与下一状态，θ_I为神经网络参数。

步骤14：前向模型的状态预测与下一状态的编码进行误差计算，通过此计算结果得到内在奖励，编码原理如下公式：

其中，表示状态预估值，表示原始状态s_t编码的特征向量，θ_F为神经网络参数，学习函数f也称前向动力学模型。

步骤15：神经网络参数θ_F通过最小化损失函数L_F来优化：

步骤16：通过以下公式来计算内在奖励值：

其中，η为比例因子，满足η＞0。

步骤17：原始状态与下一状态的编码结果会经过逆动力学模型进行动作预测。

步骤18：好奇心算法的整体优化问题总结为：

其中，β与λ均为标量，β将逆模型与正向模型的损失进行加权，满足0≤β≤1，λ衡量梯度损失对学习内奖励信号的重要性，满足λ＞0，L_I为衡量预测和实际动作之间差异的损失函数。

步骤19：多Agent学习算法对多个协作者进行历史动作采样，计算长期得益的估计值，估计值最大的相应动作是当前最好的动作，算法流程如图5所示。

步骤20：对于所考察的Agent的协作者，对于每个动作需要维护一个一定长度的队列，按照时间顺序存放协作者的响应动作作为采样源。

步骤21：基于LR的动作选择策略，计算公式为：

其中，A_i表示有限动作集合，n个Agent采取的联合动作a＝{a₁，a₂，...，a_n，}，a_i∈A_i构成了联合动作空间的元素，LR表示动作长期得益的估计值，s表示状态，x表示动作。

步骤22：基于LR的动作选择策略。动作选择过程为：对于某一个状态s的访问次数小于记忆长度m时，随机选择动作为x；否则依据Pr′选择动作x。

步骤23：初始化状态；

步骤24：循环执行以下循环步骤：n(s)≤m，随机选择动作x，否则依据选择动作x，观察协作者的局部联合动作；更新该状态下的协作者动作队列；若长期奖励l(s)收敛到稳定值，则循环结束。

此系统经试验证明，能够运用所提出的算法达到良好的学习效果，Agent学习的实验结果如图6所示，在稀疏环境奖励的情况下，通过Agent在训练过程中的阶段奖励均值显示学习过程。

图7所示为奖励的标准值，代表Agent的学习效率。图8所示为多Agent动作中Agent在一定条件下动作选择的矢量编码，图中的变化显示了经过训练，Agent能够在面对相应情况时，动作达到收敛，做出正确的动作判断。

为了使得本方法的解释更简单化，已上述的图文描述为一系列步骤，但是应该理解并领会，这些方法不受操作的次序所限制，因为按照一个或多个步骤进行实施，一些动作可按不同的顺序发生，但本领域技术人员可以理解其动作发生的原理。

尽管方法已对本发明说明性的具体实施方式逐步进行了描述，以便于本技术领域的技术人员能够进行领会，但是本发明不仅限于具体实施方式的范围，本领域技术人员可以在权利要求的范围内做出各种变形或修改，只要各种变化只要在所附的权利要求限定和确定的本发明精神和范围内。

Claims

1.一种应用于危化品环境下多机器人路径规划方法，其特征在于，包括：

步骤一：根据真实的危化品环境在Unity 3D引擎中进行模型建立，加入动态障碍物以及特殊事件以模拟真实环境，并搭建Unity 3D与Python接口进行训练；

2.根据权利要求1所述的一种应用于危化品环境下多机器人路径规划方法，其特征在于，

步骤1.1：危化品环境通过Unity 3D引擎参照真实危化品环境进行建立；

3.根据权利要求1所述的一种应用于危化品环境下多机器人路径规划方法，其特征在于，

在步骤二中，包括以下进一步步骤：

步骤2.4：在下一状态，Agent通过决策再进行继续的动作，以此达到一个训练的步骤循环；

步骤2.5：在一次完整的训练过程中，前后状态值与动作均要通过ICM内在好奇心模块进行计算；此过程输出的结果值即内在奖励值；

步骤2.6：ICM将前后状态进行编码，用特征状态值进行表示；Agent的动作将经过正向模型进行编码，此编码与下一状态的编码进行误差计算，通过此结果值得到内在奖励；

步骤2.7：同时，原始状态与下一状态的编码结果会经过逆动力学模型进行动作预测；

4.根据权利要求1所述的一种应用于危化品环境下多机器人路径规划方法，其特征在于，步骤二中，训练过程中，在Agent当前状态下，动作选择的策略选择采用DDPG算法，DDPG要经历初始化、训练Episode、存储学习序列、随机批量的读取序列进行模型学习、更新函数损失、动作选择步骤。

5.根据权利要求1所述的一种应用于危化品环境下多机器人路径规划方法，其特征在于，

步骤3.1：多Agent学习算法对多个协作者进行历史动作采样，计算长期得益的估计值，估计值最大的相应动作是当前最好的动作；

步骤3.2：对于所考察的Agent的协作者，对于每个动作需要维护一个一定长度的队列，按照时间顺序存放协作者的响应动作作为采样源；

步骤3.3：基于LR的动作选择策略；动作选择过程为：对于某一个状态s的访问次数小于记忆长度m时，随机选择动作为x；否则依据Pr′选择动作x；

步骤3.4：训练过程的实施步骤如下，首先初始化状态；

6.根据权利要求1所述的一种应用于危化品环境下多机器人路径规划方法，其特征在于，步骤三中，多Agent学习算法是对协作者进行历史动作采样，计算长期得益的估计值LR，估计最大的相应动作是当前最好的动作；对于所考察的Agent的协作者，对于每个动作需要维护一个一定长度的队列，按照时间顺序存放协作者的响应动作作为采样源。

7.根据权利要求1所述的一种应用于危化品环境下多机器人路径规划方法，其特征在于，步骤三中，算法思路为：

初始化状态；循环执行以下步骤：①n(s)≤m，随机选择动作x，否则依据选择动作x，②观察协作者的局部联合动作，③更新该状态下的协作者动作队列④若长期奖励l(s)收敛到稳定值，则循环结束；m表示记忆长度，LR表示动作长期得益的估计值，s表示状态，x表示动作。