CN112132263A

CN112132263A - 一种基于强化学习的多智能体自主导航方法

Info

Publication number: CN112132263A
Application number: CN202010950487.5A
Authority: CN
Inventors: 刘婵娟; 马原野; 张强; 魏小鹏
Original assignee: Dalian University of Technology
Current assignee: Dalian University of Technology
Priority date: 2020-09-11
Filing date: 2020-09-11
Publication date: 2020-12-25
Anticipated expiration: 2040-09-11
Also published as: CN112132263B

Abstract

本发明提供了一种基于强化学习的多智能体自主导航方法，属于多智能体强化学习领域。本发明通过长短时记忆网络将环境历史状态编码为系统的隐状态特征向量，并将编码后的系统隐状态作为智能体的策略网络以及动作评价网络的输入，从而使得智能体的策略网络和动作评价网络都能基于环境全局的信息工作，使得智能体的策略更加鲁棒。

Description

一种基于强化学习的多智能体自主导航方法

技术领域

本发明属于多智能体强化学习领域，具体涉及一种对MADDPG算法改进的多智能体自主导航方法。

背景技术

智能体自主导航旨在让智能体像人一样具备安全高效的从起点移动到目标点、且不和其他障碍物发生碰撞的能力。该技术是移动机器人实现更多高级功能的基础，是人工智能领域研究的重点之一。传统的智能体导航算法主要基于采样路径搜索方法，通过在已知的地图空间进行路径规划完成导航。随着机器人应用场景的不断扩展，传统的智能体导航技术不能适应动态变化的场景，也无法在多智能体场景发挥作用，因此传统方法已经不能满足实际需要。

近年来人工智能技术快速发展，适用于序列决策问题的强化学习技术也在游戏AI和机器人控制领域取得瞩目成就。例如香港城市大学Tingxiang Fan等人，将多智能体系统中的智能体导航问题建模为深度强化学习模型，结合经典控制原理提出了去中心化的完全分布式多智能体避障导航算法，已经能够在人群密集的环境中实现良好的避障导航。香港科技大学的Lei Tai等人使用DDPG算法训练的智能体也已经可以在未知的地图中实现高效自主导航，并已经在实际场景实验成功；Google Brain的Aleksandra Faus等人提出了融合强化学习和概率路线图法的层次结构导航算法PRM-RL，该算法首先基于概率路线图方法进行静态地图路径规划，在规划出来的路径上采样若干个任务点，任务点和任务点之间由强化学习训练的避障导航算法驱动智能体运动，从而能够在地图范围比较大的场景比较出色的完成自主导航；类似的Google AI和新墨西哥大学合作的RL-RRT算法也采用相同的思路，快速扩展随机树方法负责规划路径，强化学习算法负责避障。

对于多智能体系统，可以将其他智能体都当做动态环境进行考虑，即对于当前智能体而言其他智能体都是会移动的障碍物，但是随着深度强化学习算法训练过程的进行，不同智能体的策略也在不断发生变化，会造成训练环境的不稳定，算法收敛速度慢甚至不收敛。近年来不少研究者尝试将博弈论领域的知识引入深度强化学习框架，比如OpenAI和加州大学伯克利分校合作提出的分散执行、集中训练的方法，在对智能体的状态进行评估的时候将矩阵博弈的状态空间用所有的智能体的观测以及状态代替；从而将不完全信息的博弈转换为了完全信息的博弈，降低了训练过程的不稳定性，在多智能体的合作或者竞争场景中都取得了不错的表现；同时英国牛津大学的团队也基于类似的思路提出了COMA算法，在星际争霸II的小规模战场环境也取得了很好的效果；Shihui Lid等人受对抗学习中在学习样本中增加噪声从而提高神经网络鲁棒性的启发，联合卡耐基梅隆大学、加州大学伯克利分校和清华大学合作，基于博弈论中的极大极小值原理将MADDPG进行改进提出了鲁棒性更强的M3DDPG，在多智能体对抗场景取得喜人成绩；Iqbal等人基于MADDPG算法引入注意力机制提出了MAAC算法，该算法首先通过注意力机制计算状态空间特征的相关性权重，之后使用该权重对状态特征进行加权，从而对状态特征进行了筛选，相较于MADDPG算法达到了更好的效果；清华大学的Jun Feng联合阿里巴巴的Heng Li等人，提出MA-RDPG算法，该算法通过一个LSTM编码的消息模块在多个智能体之间传递，从而改善了多智能体之间的协作，该算法成功应用于淘宝的商品排序推荐场景。

传统基于路径规划的导航技术不能适应环境的变化，不能很好地针对动态变化的环境做出合理的响应。越来越复杂的机器人应用场景，甚至多智能体系统等都对动态场景中智能体实现自主导航提出更多需求。近年来人工神经网络技术快速发展，以深度强化学习为代表的一系列方法在机器人方面取得显著进步，同时也为智能体自主导航问题提供了新思路。

发明内容

为了解决现有技术中的问题，本发明围绕智能体自主导航问题，利用深度强化学习技术提出一种改进的多智能体自主导航方法。

本发明的技术方案为：

一种基于强化学习的多智能体自主导航方法，该方法包括以下步骤：

步骤S1：初始化一个经验池，用以存储算法训练过程中产生的交互经验。所述的交互经验主要包括(s,A,r,s')，其中s表示当前时间步环境的状态，包含所有智能体通过传感器采集到的环境的观测；A表示智能体的联合动作；r表示智能体从环境中得到的及时奖励；s'表示下一时间步环境的状态。

步骤S2：针对每一个智能体初始化四个神经网络，所述四个神经网络为策略网络、目标策略网络、动作评价网络和目标动作评价网络。

步骤S3：将所有智能体从环境中采集到的信息传递给长短时间记忆网络进行编码，记编码后的特征向量为h，表示系统的隐状态。

步骤S4：将步骤S3中生成的h和智能体i(i表示第i个智能体，其中0<i≤n，n表示系统中智能体的数目)从环境中采集的信息o_i传递给智能体i的策略网络，智能体i的策略网络输出智能体i的动作a_i。

步骤S5：智能体i执行步骤S4中策略网络输出的动作a_i并和环境完成交互，并从环境中采集及时奖励

以及下一时刻的观测

所述及时奖励的计算方法如下：

其中，r_g表示智能体趋近目标点的距离奖励，其计算方式如公式(2)所示；r_c表示智能体发生碰撞时的惩罚值，其计算方式如公式(3)所示：

式(2)中，

表示第i个智能体在时间步t时的位置；g_i表示第i个智能体的目标点的位置；R表示智能体的半径；ω_g和r_arrival都是常数，分别表示智能体趋近目标点时的奖励系数和到达目标点时的奖励。式(3)中，B_k表示环境中第k个障碍物的位置，r_collision表示智能体发生碰撞时的惩罚系数。

步骤S6：将智能体与环境交互产生的经验存进经验池中。

步骤S7：针对每一个智能体i，重复步骤S4-S6。

步骤S8：从经验池中随机采集一个批次的经验。

步骤S9：根据公式(4)计算动作评价网络的损失Loss：

其中，

表示系统隐状态为h_t-1、所有智能体对环境的观测为o_t时求误差的期望；h_t-1表示t-1时刻系统的隐状态特征向量；o_t表示t时刻系统中所有智能体的观测；aⁱ表示智能体i的动作向量；yⁱ表示智能体i的动作评价网络的目标值；

表示智能体i在时刻t时得到的及时奖励；γ是奖励折扣因子，γ∈[0,1]，用以计算累计回报；表示未来的奖励对现在的影响，当γ＝0时，完全不考虑未来可能得到的奖励，当γ≠0时按照一定的折扣得到未来可能得到的奖励；

表示时刻t+1时智能体i对环境的观测；

表示目标动作评价网络，π^i′表示目标策略网络。

步骤S10：根据公式(6)计算策略网络的梯度：

式(6)中，θ表示神经网络的参数，

表示对参数求梯度；

表示策略梯度函数；

表示对动作a求梯度；πⁱ表示智能体i的策略网络，

表示智能体i需要采取的动作。

步骤S11：根据公式(7)的方式分别更新策略网络和动作评价网络的参数：

θ_i′←τθ_i+(1-τ)θ_i′ (7)

式(7)中，θ表示神经网络的参数；θ_i′表示更新后的动作评价网络的参数；τ∈[0,1]，表示神经网络参数的更新幅度，用于稳定训练过程中参数的变化。

步骤S12：针对每一个智能体i，重复步骤S9-S11。

本发明的有益效果：本发明通过长短时记忆网络将环境历史状态编码为系统的隐状态特征向量，并将编码后的系统隐状态作为智能体的策略网络以及动作评价网络的输入，从而使得智能体的策略网络和动作评价网络都能基于环境全局的信息工作，使得智能体的策略更加鲁棒。

附图说明

图1为本发明所述方法训练过程流程图。

图2为神经网络的参数更新流程图。

图3为本发明所述方法训练过程数据流向图。

图4为历史信息编码模块的结构图。

图5为策略网络的结构图。

图6为动作评价网络的结构图。

具体实施方式

下面结合附图及实施例对本发明做进一步说明。

本发明训练流程图如图1所示，步骤描述如下：

第一步：初始化经验池，用于存储训练过程中智能体的学习经验。

第二步：针对每一个智能体初始化四个神经网络，所述四个神经网络为策略网络、目标策略网络、动作评价网络和目标动作评价网络。

第三步：智能体通过自身的传感器采集对环境状态的观测信息，主要采集智能体在环境中的位置和速度、以及智能体周围的障碍物距离自己的方位信息。

第四步：智能体将采集到的观测信息作为策略网络的输入，用于计算智能体当前应该采取的动作。

第五步：智能体在环境中执行第四步中策略网络输出的动作。

第六步：智能体采集新的观测以及环境对智能体的及时奖励。及时奖励的计算方法如公式(1)，其中r_g表示智能体趋近目标点的距离奖励，其计算方式如公式(2)所示；r_c表示智能体发生碰撞时的惩罚值，其计算方式如公式(3)所示。

第七步：智能体将此次和环境的交互经验存进经验池中。

第八步：对策略网络和动作评价网络的参数进行更新。

第九步：如果训练过程没有完成，则重复第三步至第八步过程。

神经网络的参数更新流程如图2所示，具体步骤描述如下：

第1步：从经验池中随机抽样一个批次的交互经验，主要包括n条智能体与环境交互时产生的当前观测、当前所采取的动作、达到下一时刻的观测以及当前步所得到的及时奖励的序列。

第2步：根据公式(4)计算动作评价网络的损失，其中yⁱ为公式(5)所表示的内容。

第3步：根据公式(6)计算策略网络的梯度。

第4步：根据公式(7)所表示的形式，用第二步和第三步中计算的梯度对神经网络的参数进行软更新。

第5步：如果没有训练没有完成，则重复第1步至第4步的过程。

本发明所述方法训练过程的数据流如图3所示，对于智能体i，策略网络以智能体i在时刻t时的观测以及系统隐状态作为输入，输出t时刻智能体应该执行的动作；动作评价网络以t时刻所有智能体的观测以及动作作为输入，输出t时刻策略网络输出动作的评价值。系统隐状态编码网络由长短时记忆网络构成，数据流程如图4所示，该网络以系统中所有智能体的观测和动作作为输入。每一个时间步都先收集所有智能体的状态，并由每个智能体自己的策略网络输出当前动作，后经由编码模块编码从而生成下一步计算所需的新的系统隐状态编码信息。

策略网络结构如图5所示，非输出层激活函数采用leaky_relu；由于策略网络输出的是智能体的动作，取值范围为[0,1]的动作采用sigmoid为激活函数，取值范围为[-1,1]的动作采用hardtanh为激活函数；最后将策略网络输出的动作合并为向量。动作评价网络的结构如图6所示，激活函数全部为leaky_relu。

以上所述仅为本发明的具体实施方式，本发明保护范围并不局限于此，凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明的保护范围之内。