CN108803615A

CN108803615A - 一种基于深度强化学习的虚拟人未知环境导航算法

Info

Publication number: CN108803615A
Application number: CN201810727033.4A
Authority: CN
Inventors: 孙立博; 秦文虎; 王建鹏; 翟金凤
Original assignee: Southeast University
Current assignee: Southeast University
Priority date: 2018-07-03
Filing date: 2018-07-03
Publication date: 2018-11-13
Anticipated expiration: 2038-07-03
Also published as: CN108803615B

Abstract

本发明公开了基于深度强化学习的虚拟人未知环境导航算法。所述算法通过以下方式实现：首先对虚拟人可感知区域的环境状态、虚拟人状态、起始点信息、目标点信息和行为进行表达，然后构建基于Actor‑Critic框架的深度强化学习结构，最后Actor根据当前环境状态选择合适动作，并通过Critic给出的评价不断进行训练学习，从而获取最优控制策略，使得虚拟人能够成功躲避障碍物，顺利到达目标点。本发明提出的基于深度强化学习的虚拟人未知环境导航算法不仅具有较好的逼真性和较强的通用性，还体现了人类对未知环境的自学习能力。

Description

一种基于深度强化学习的虚拟人未知环境导航算法

技术领域：

本发明涉及虚拟人仿真和路径规划领域，特别涉及一种基于深度强化学习的虚拟人未知环境导航算法。

背景技术：

路径规划是人类基本的行为能力之一，是保证人类在现实生活中不与其他障碍物和个体发生碰撞，更好地向目标前进的关键。在虚拟人仿真研究中，也应该体现这一基本行为特性，使得虚拟人能够按照自然合理的路径运动，顺利到达目标位置。而真实有效地模拟路径规划行为，不仅能够提高虚拟人的智能性，还能够为更高层的虚拟人行为仿真提供重要保障。

虚拟人路径规划算法大体上可分为全局路径规划算法和局部路径规划算法两类。全局路径规划算法主要用于处理环境完全已知的情况，虚拟人可根据环境先验信息，找出从起始点到目标点的满足一定要求的最优路径。局部路径规划算法主要用于处理环境未知或者部分未知的情况。但是当虚拟人对环境信息完全未知时，局部路径规划算法只能保证其不与其他静动态障碍物和虚拟人发生碰撞，不能保证其顺利到达目标点，而且，已有的未知环境导航算法通常采用如Q学习等强化学习算法，但是这些算法要求状态和动作空间必须离散，也就是说，基于强化学习的未知环境导航算法在规划路径的真实性方面还有待进一步提高，因此，本发明从提高规划路径的真实性角度出发，研究基于深度强化学习的虚拟人未知环境导航算法。通过本发明的研究，不仅能够为虚拟人找出一条从起始点到目标点的无碰撞的平滑自然的路径，而且无需对环境进行建模，还体现了人类对未知环境的自学习能力。综上所述，研究基于深度强化学习的虚拟人未知环境导航算法具有重要的理论意义和工程应用价值。

发明内容

本发明的目的是提供一种基于深度强化学习的虚拟人未知环境导航算法，能够解决传统的强化学习方法应用于导航中状态和动作空间必须离散的问题。

上述的目的通过以下技术方案实现：

一种基于深度强化学习的虚拟人未知环境导航算法，该方法包括如下步骤：

S1.对虚拟人可感知区域的环境状态、虚拟人状态、起始点信息、目标点信息和行为进行表达；

S2.构建基于Actor-Critic框架的深度强化学习结构，该结构以虚拟人的当前状态、可感知区域的虚拟环境状态和目标点信息作为输入，虚拟人的行为作为输出；

S3.对深度强化学习结构中的Actor网络和Critic网络的参数进行训练，训练完成后，即可得到一条从起始点到目标点的无碰撞的平滑自然的路径。

进一步地，步骤S1中所述的对虚拟人可感知区域的环境状态、虚拟人状态、起始点信息、目标点信息和行为进行表达的具体方法，包括步骤：

S11.设定虚拟人可感知的虚拟场景范围为5m×5m，具体描述为，以虚拟人当前位置为参考，向前延伸4米，向后扩展1米；

S12.在可感知的虚拟场景范围内进行均匀网格采样，地形平坦无障碍物处采样为0，有障碍物处采样为1，进而得到虚拟人当前状态下可感知的虚拟场景范围的虚拟环境状态E，E表征为像素16×16的网格；

S13.将虚拟人的当前状态表征为C(p_c,θ_c)，其中，p_c为虚拟人当前状态下的位置，θ_c为虚拟人当前状态下的朝向；将起始点信息表征为p_s，即起始点的位置；将目标点信息表征为G(θ_tar,d_tar)，其中，θ_tar为虚拟人当前状态下的位置与目标点位置间连线与水平位置的夹角，d_tar为虚拟人当前状态下的位置与目标点位置之间的距离；将虚拟人的行为表征为A(ρ_a,θ_a)，其中，ρ_a为虚拟人单步运动的距离，θ_a为虚拟人单步运动的朝向，为更加真实地模拟虚拟人行为，θ_a需满足0≤θ_a≤π。

进一步地，步骤S2所述构建基于Actor-Critic框架的深度强化学习结构，该结构以虚拟人的当前状态、可感知区域的虚拟环境状态和目标点信息作为输入，虚拟人的行为作为输出，具体方法包括：

S21.分别为Actor和Critic构建结构相同的包括m层的深度卷积神经网络，该网络由若干卷积层和全连接层组成；

S22.虚拟人可感知区域的虚拟环境状态首先通过一系列的卷积以及一个全连接层获得一个中间特征向量，然后结合虚拟人的当前状态以及目标点信息再通过两次全连接层的变换，最后经过一层线性变换输出虚拟人的行为。

进一步地，步骤S3中所述对深度强化学习结构中的Actor网络和Critic网络的参数进行训练，包括步骤：

S31.Actor根据当前环境状态s和目标g选择合适动作a，在通过计算回报函数获得奖励r后，状态从s转移到s′，将s，g，a，r，s′组合为一个元组τ＝(s,g,a,r,s′)，并将其存放在经验回放池D中；

S32.虚拟人采用步骤(3.1)的方式向目标点运动，直至达到指定步数T；

S33.更新Critic网络参数θ_v；

S34.更新Actor网络参数θ_μ；

S35.重复步骤S31至步骤S34，直到迭代达到最大步数或损失值小于给定阈值。

进一步地，步骤S33中所述的更新Critic网络参数θ_v，包括步骤：

S331.从经验回放池D中随机采样n个元组τ_i＝(s_i,g_i,a_i,r_i,s_i′)；

S332.对每个τ_i，计算y_i＝r_i+γV(s_i′,g_i|θ_v)；

S333.更新θ_v，即

进一步地，步骤S34中所述更新Actor网络参数θ_μ，包括步骤：

S341.从经验回放池D中随机采样n个元组τ_j＝(s_j,g_j,a_j,r_j,s′_j)；

S342.对每个τ_j，计算δ_j＝r_j+γV(s′_j,g_j|θ_v)-V(s_i,g_j|θ_v)；

S343.更新θ_μ，即

本发明所产生的有益效果：

1、本发明的一种基于深度强化学习的虚拟人未知环境导航算法不受应用场景和环境因素的限制，无需对环境进行建模即可为虚拟人找出一条从起始点到目标点的无碰撞的路径，因此，该算法具有较强的通用性和灵活性。

2、本发明的一种基于深度强化学习的虚拟人未知环境导航算法解决了传统的强化学习应用于导航中状态和动作空间必须离散的问题，不仅提高了路径规划的真实性，还体现了人类对未知环境的自学习能力。

附图说明

图1为本发明的一种基于深度强化学习的虚拟人未知环境导航算法的框架图；

图2为本发明对虚拟人可感知范围进行均匀采样的示意图；

图3为本发明实施例中基于Actor-Critic框架的深度强化学习结构；

图4为本发明对深度强化学习结构中的Actor网络和Critic网络的参数进行训练的流程图。

具体实施方式

下面结合附图和具体实施例对本发明作进一步的详细说明。

在本实施例中，如图1所示的流程图给出了本实施例的具体过程：

步骤101、对虚拟人可感知区域的环境状态、虚拟人状态、起始点信息、目标点信息和行为进行表达，具体步骤包括：

(1)设定虚拟人可感知的虚拟场景范围为5m×5m，具体描述为，以虚拟人当前位置为参考，向前延伸4米，向后扩展1米；

(2)如图2所示，在感知范围内进行均匀网格采样，地形平坦无障碍物处采样为0，有障碍物处采样为1，进而得到虚拟人当前状态下可感知区域的虚拟环境状态E，E表征为像素16×16的网格；

(3)将虚拟人的当前状态表征为C(p_c,θ_c)，其中，p_c为虚拟人当前状态下的位置，θ_c为虚拟人当前状态下的朝向；将起始点信息表征为p_s，即起始点的位置；将目标点信息表征为G(θ_tar,d_tar)，其中，θ_tar为虚拟人当前状态下的位置与目标点位置间连线与水平位置的夹角，d_tar为虚拟人当前状态下的位置与目标点位置之间的距离；将虚拟人的行为表征为A(ρ_a,θ_a)，其中，ρ_a为虚拟人单步运动的距离，θ_a为虚拟人单步运动的朝向，为更加真实地模拟虚拟人行为，θ_a需满足0≤θ_a≤π；

步骤102、如图3所示，构建基于Actor-Critic框架的深度强化学习结构，该结构以虚拟人的当前状态、可感知区域的虚拟环境状态和目标点信息作为输入，虚拟人的行为作为输出，具体步骤包括：

(1)分别为Actor和Critic构建结构相同的包括6层的深度卷积神经网络，该网络由2个卷积层、3个全连接层和1个线性输出层组成，前5层激活函数均为Relu函数，其表达式为f(x)＝max(0,x)；

(2)虚拟人可感知区域的虚拟环境状态首先通过两个卷积核分别为5×5和3×3的卷积层以及一个节点数为64的全连接层获得一个中间特征向量，然后结合虚拟人的当前状态以及目标点信息再通过两个节点数分别为256和128的全连接层的变换，最后经过一层线性变换输出虚拟人的行为。

步骤103、对深度强化学习结构中的Actor网络和Critic网络的参数进行训练，如图4所示，具体步骤包括：

(1)Actor根据当前环境状态s和目标g选择合适动作a，在通过计算回报函数获得奖励r后，其中，状态从s转移到s′，将s，g，a，r，s′组合为一个元组τ＝(s,g,a,r,s′)，并将其存放在经验回放池D中；

(2)虚拟人采用步骤(1)的方式向目标点运动，直至达到指定步数T；

(3)更新Critic网络参数θ_v；

(4)更新Actor网络参数θ_μ；

(5)重复步骤(3)至步骤(4)，直到迭代达到最大步数或损失值小于给定阈值。

具体地，步骤(3)更新Critic网络参数θ_v，包括步骤：

(1)从经验回放池D中随机采样n个元组τ_i＝(s_i,g_i,a_i,r_i,s′_i)；

(2)对每个τ_i，计算y_i＝r_i+γV(s′_i,g_i|θ_v)；

(3)更新θ_v，即

具体地，步骤(4)更新Actor网络参数θ_μ，包括步骤：

(5.1)从经验回放池D中随机采样n个元组τ_j＝(s_j,g_j,a_j,r_j,s′_j)；

(5.2)对每个τ_j，计算δ_j＝r_j+γV(s′_j,g_j|θ_v)-V(s_i,g_j|θ_v)；

(5.3)更新θ_μ，即

以上所述仅是本发明的优选实施方式，应当指出：对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本发明的保护范围。

Claims

1.一种基于深度强化学习的虚拟人未知环境导航算法，其特征在于，该方法包括如下步骤：

2.根据权利要求1所述的基于深度强化学习的虚拟人未知环境导航算法，其特征在于，步骤S1中所述的对虚拟人可感知区域的环境状态、虚拟人状态、起始点信息、目标点信息和行为进行表达的具体方法，包括步骤：

3.根据权利要求1所述的基于深度强化学习的虚拟人未知环境导航算法，其特征在于，步骤S2所述构建基于Actor-Critic框架的深度强化学习结构，该结构以虚拟人的当前状态、可感知区域的虚拟环境状态和目标点信息作为输入，虚拟人的行为作为输出，具体方法包括：

4.根据权利要求1所述的基于深度强化学习的虚拟人未知环境导航算法，其特征在于，步骤S3中所述对深度强化学习结构中的Actor网络和Critic网络的参数进行训练，包括步骤：

S33.更新Critic网络参数θ_v；

S34.更新Actor网络参数θ_μ；

5.根据权利要求4所述的基于深度强化学习的虚拟人未知环境导航算法，其特征在于，步骤S33中所述的更新Critic网络参数θ_v，包括步骤：

S331.从经验回放池D中随机采样n个元组τ_i＝(s_i,g_i,a_i,r_i,s′_i)；

S332.对每个τ_i，计算y_i＝r_i+γV(s′_i,g_i|θ_v)；

S333.更新θ_v，即

6.根据权利要求4所述的基于深度强化学习的虚拟人未知环境导航算法，其特征在于，步骤S34中所述更新Actor网络参数θ_μ，包括步骤：

S342.对每个τ_j，计算δ_j＝r_j+γV(s′_j,g_j|θ_v)-V(s_i,g_j|θ_v)；

S343.更新θ_μ，即