CN110968102B - 一种基于深度强化学习的多agent避碰方法 - Google Patents

一种基于深度强化学习的多agent避碰方法 Download PDF

Info

Publication number
CN110968102B
CN110968102B CN201911375159.0A CN201911375159A CN110968102B CN 110968102 B CN110968102 B CN 110968102B CN 201911375159 A CN201911375159 A CN 201911375159A CN 110968102 B CN110968102 B CN 110968102B
Authority
CN
China
Prior art keywords
agent
target point
state
reinforcement learning
point information
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201911375159.0A
Other languages
English (en)
Other versions
CN110968102A (zh
Inventor
孙立博
秦文虎
翟金凤
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Southeast University
Original Assignee
Southeast University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Southeast University filed Critical Southeast University
Priority to CN201911375159.0A priority Critical patent/CN110968102B/zh
Publication of CN110968102A publication Critical patent/CN110968102A/zh
Application granted granted Critical
Publication of CN110968102B publication Critical patent/CN110968102B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05DSYSTEMS FOR CONTROLLING OR REGULATING NON-ELECTRIC VARIABLES
    • G05D1/00Control of position, course, altitude or attitude of land, water, air or space vehicles, e.g. using automatic pilots
    • G05D1/02Control of position or course in two dimensions
    • G05D1/021Control of position or course in two dimensions specially adapted to land vehicles
    • G05D1/0212Control of position or course in two dimensions specially adapted to land vehicles with means for defining a desired trajectory
    • G05D1/0221Control of position or course in two dimensions specially adapted to land vehicles with means for defining a desired trajectory involving a learning process
    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05DSYSTEMS FOR CONTROLLING OR REGULATING NON-ELECTRIC VARIABLES
    • G05D1/00Control of position, course, altitude or attitude of land, water, air or space vehicles, e.g. using automatic pilots
    • G05D1/02Control of position or course in two dimensions
    • G05D1/021Control of position or course in two dimensions specially adapted to land vehicles
    • G05D1/0276Control of position or course in two dimensions specially adapted to land vehicles using signals provided by a source external to the vehicle
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02TCLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
    • Y02T10/00Road transport of goods or passengers
    • Y02T10/10Internal combustion engine [ICE] based vehicles
    • Y02T10/40Engine management systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Aviation & Aerospace Engineering (AREA)
  • Radar, Positioning & Navigation (AREA)
  • Remote Sensing (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Automation & Control Theory (AREA)
  • Feedback Control In General (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明公开一种基于深度强化学习的多agent避碰方法,首先,对agent可感知区域的环境状态、agent状态、起始点信息、目标点信息、动作和奖励进行表达;然后,确定深度强化学习架构;最后采用基于近端策略优化的深度强化学习方法同时对多个场景进行训练,从而获取最优控制策略,使得agent能够成功躲避静态和动态障碍物,顺利到达目标点。本发明提不仅具有较好的逼真性和较强的通用性,还具有良好的扩展性,更大大提高了训练效率,缩短了训练时间;解决了传统的强化学习方法应用于避碰中状态和动作空间必须离散的问题,提高了传统深度学习方法的训练效率。

Description

一种基于深度强化学习的多agent避碰方法
技术领域
本发明属于虚拟现实及人工智能领域,具体涉及一种基于深度强化学习的多agent避碰方法。
背景技术
路径规划是人类基本的行为能力之一,是保证人类在现实生活中不与其他障碍物和个体发生碰撞,更好地向目标前进的关键。在虚拟人群仿真研究中,也应该体现这一基本行为特性,使得agent能够按照自然合理的路径运动,顺利到达目标位置。而真实有效地模拟路径规划行为,尤其是多agent的避碰行为,不仅能够提高agent的智能性,还能够为更高层的虚拟人群行为仿真提供基础。
基于人工势场法、速度障碍物方法、栅格的规则等传统的多agent避碰算法虽然对环境未知或者部分未知的情况具有较好的适应性,但是不能保证各agent顺利到达目标点,而且,若想获得很好的避碰效果,需要进行大量的参数调节;而基于强化学习的多agent避碰算法大多要求状态和动作空间必须离散,在规划路径的真实性方面还有待进一步提高,因此,本发明从提高规划路径的真实性和训练效率的角度出发,研究基于深度强化学习的多agent避碰算法。通过本发明的研究,不仅能够为多agent找出从起始点到目标点的无碰撞的路径,而且无需对环境进行建模,还使得学习到的避碰策略能够广泛应用到更多场景成为可能。综上所述,研究基于深度强化学习的多agent避碰算法具有重要的理论意义和工程应用价值。
发明内容
发明目的:本发明提供一种基于深度强化学习的多agent避碰方法,能够克服具有连续状态和动作空间的多agent强化学习所存在的维数灾难以及多agent深度强化学习训练时间长的问题,使得学习到的避碰策略能够广泛应用到更多场景。
技术方案:本发明所述的一种基于深度强化学习的多agent避碰方法,包括以下步骤:
(1)在每一场景中,对agent可感知区域的环境状态、agent状态、起始点信息、目标点信息、动作和奖励进行表达;
(2)确定深度强化学习架构,该架构以agent的当前状态、可感知区域的虚拟环境状态和目标点信息作为输入,agent的动作作为输出;
(3)采用近端策略优化方法同时对多个场景进行训练,调整网络参数,获取共享策略,训练完成后,即可得到一条从起始点到目标点的无碰撞的路径。
进一步地,所述步骤(1)包括以下步骤:
(11)设定agent可感知的最大视距为a米,最大视角为b度,其中,0<a≤5,b≤220;具体描述为:以agent当前位置为参考,向前延伸c米,最大视角为以聚焦方向为对称轴,和两侧的夹角分别为b/2度;
(12)在感知范围内向不同方向发射射线进行采样,地形平坦无障碍物处采样为0,有障碍物处采样为1,将静态障碍物的状态表示为绝对位置pstatic,将动态障碍物的状态表示为绝对位置pdynamic和运动速度vdynamic
(13)将agent的当前状态表征为C(pcc),其中,pc为agent当前状态下的位置,θc为agent当前状态下的朝向;将起始点信息表征为ps,即起始点的位置;将目标点信息表征为ptar,即目标点的位置;将agent的动作表征为A(ρaa),其中,ρa为agent的平移速度,θa为旋转速度;
(14)奖励函数设计如下:
R=rgoal+rapproach-(rc_static+rc_dynamic+rc_agents+rtime)
其中,rgoal为到达目标点所给奖励,rapproach为进一步接近目标点所给奖励,rc_static为agent与静态障碍物碰撞所给惩罚,rc_dynamic为agent与动态障碍物碰撞所给惩罚,rc_agents为agent之间发生碰撞所给惩罚,rtime为agent到达目标点花费时间太多时所给惩罚。
进一步地,所述步骤(2)包括以下步骤:
(21)分别为近端策略优化算法中的Actor和Critic构建结构相同的包括m层的深度卷积神经网络,该网络由若干卷积层和全连接层组成;
(22)agent可感知区域的虚拟环境状态首先通过一系列的卷积以及一个全连接层获得一个中间特征向量,然后结合agent的当前状态以及目标点信息再通过两层包含LSTM单元的隐藏层,最后经过一层线性变换输出agent的动作分布,值函数输出层为单一的线性单元。
进一步地,所述步骤(3)包括以下步骤:
(31)对于每一个agent,采用同一策略πθ同时训练T时间步,以获取πθ{st,at,rt};采用广义优势估计算法估计优势
Figure BDA0002340745330000031
(32)采用随机梯度下降方法更新策略,即最大化
Figure BDA0002340745330000032
更新θ;
(33)采用时序差分方法更新值函数,即最小化
Figure BDA0002340745330000033
更新φ;
(34)重复步骤(31)至步骤(32),直到迭代达到最大步数或损失值小于给定阈值。
有益效果:与现有技术相比,本发明的有益效果为:1、本发明不受应用场景和环境因素的限制,无需对环境进行建模即可为多agent的高层行为仿真提供技术手段,具有较强的通用性;2、解决了传统的强化学习在求解具有连续状态和动作空间的多agent避碰所出现的维数灾难问题,通过对多个场景同时训练,提高了训练的效率;3、通过训练共享策略使得该避碰策略可以广泛应用到更多场景,因此具有较好的可扩展性。
附图说明
图1为本发明的示意图;
图2为本发明对agent可感知区域的环境信息和agent状态的示意图。
具体实施方式
下面结合附图对本发明作进一步的详细说明。如图1所示,本发明具体包括以下步骤:
1、在每一场景中,对agent可感知区域的环境状态、agent状态、起始点信息、目标点信息、动作和奖励进行表达。
如图2所示,设定agent可感知的最大视距为a米,最大视角为b度,其中,0<a≤5,b≤220;具体描述为,以agent当前位置为参考,向前延伸c米,最大视角为以聚焦方向为对称轴,和两侧的夹角分别为b/2度。此处设定agent可感知的最大视距为4m,最大视角为180度,具体描述为,以agent当前位置为参考,向前延伸4米,最大视角为以聚焦方向为对称轴,和两侧的夹角分别为90°。
在感知范围内向不同方向发射射线进行采样,地形平坦无障碍物处采样为0,有障碍物处采样为1,将静态障碍物的状态表示为绝对位置pstatic,将动态障碍物的状态表示为绝对位置pdynamic和运动速度vdynamic
将agent的当前状态表征为C(pcc),其中,pc为agent当前状态下的位置,θc为agent当前状态下的朝向;将起始点信息表征为ps,即起始点的位置;将目标点信息表征为ptar,即目标点的位置;将agent的动作表征为A(ρaa),其中,ρa为agent的平移速度,θa为旋转速度。
设计奖励函数如下:
R=rgoal+rapproach-(rc_static+rc_dynamic+rc_agents+rtime)
其中,rgoal为到达目标点所给奖励,rapproach为进一步接近目标点所给奖励,rc_static为agent与静态障碍物碰撞所给惩罚,rc_dynamic为agent与动态障碍物碰撞所给惩罚,rc_agents为agent之间发生碰撞所给惩罚,rtime为agent到达目标点花费时间太多时所给惩罚。
2、确定深度强化学习架构,该架构以agent的当前状态、可感知区域的虚拟环境状态和目标点信息作为输入,agent的动作作为输出;
分别为近端策略优化(Proximal PolicyOptimization,PPO)算法中的Actor和Critic构建结构相同的包括m层的深度卷积神经网络,该网络由若干卷积层和全连接层组成。
agent可感知区域的虚拟环境状态首先通过一系列的卷积以及一个全连接层获得一个中间特征向量,然后结合agent的当前状态以及目标点信息再通过两层包含LSTM单元的隐藏层,最后经过一层线性变换输出agent的动作分布,值函数输出层为单一的线性单元。
3、采用PPO方法同时对多个场景进行训练,调整网络参数,获取共享策略,训练完成后,即可得到一条从起始点到目标点的无碰撞的路径。
(1)对于每一个agent,采用同一策略πθ同时训练T时间步,以获取πθ{st,at,rt};采用GAE(GeneralizedAdvantage Estimation,广义优势估计)估计优势
Figure BDA0002340745330000051
(2)采用随机梯度下降方法更新策略,即最大化
Figure BDA0002340745330000052
更新θ。
(3)采用时序差分方法更新值函数,即最小化
Figure BDA0002340745330000053
更新φ。
重复步骤(1)至步骤(3),直到迭代达到最大步数或损失值小于给定阈值。
以上所述仅是本发明的优选实施方式,应当指出:对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。

Claims (1)

1.一种基于深度强化学习的多agent避碰方法,其特征在于,包括以下步骤:
(1)在每一场景中,对agent可感知区域的环境状态、agent状态、起始点信息、目标点信息、动作和奖励进行表达;
(2)确定深度强化学习架构,该架构以agent的当前状态、可感知区域的虚拟环境状态和目标点信息作为输入,agent的动作作为输出;
(3)采用近端策略优化方法同时对多个场景进行训练,调整网络参数,获取共享策略,训练完成后,即可得到一条从起始点到目标点的无碰撞的路径;
所述步骤(1)包括以下步骤:
(11)设定agent可感知的最大视距为a米,最大视角为b度,其中,0<a≤5,b≤220;具体描述为:以agent当前位置为参考,向前延伸c米,最大视角为以聚焦方向为对称轴,和两侧的夹角分别为b/2度;
(12)在感知范围内向不同方向发射射线进行采样,地形平坦无障碍物处采样为0,有障碍物处采样为1,将静态障碍物的状态表示为绝对位置pstatic,将动态障碍物的状态表示为绝对位置pdynamic和运动速度vdynamic
(13)将agent的当前状态表征为C(pcc),其中,pc为agent当前状态下的位置,θc为agent当前状态下的朝向;将起始点信息表征为ps,即起始点的位置;将目标点信息表征为ptar,即目标点的位置;将agent的动作表征为A(ρaa),其中,ρa为agent的平移速度,θa为旋转速度;
(14)奖励函数设计如下:
R=rgoal+rapproach-(rc_static+rc_dynamic+rc_agents+rtime)
其中,rgoal为到达目标点所给奖励,rapproach为进一步接近目标点所给奖励,rc_static为agent与静态障碍物碰撞所给惩罚,rc_dynamic为agent与动态障碍物碰撞所给惩罚,rc_agents为agent之间发生碰撞所给惩罚,rtime为agent到达目标点花费时间太多时所给惩罚;
所述步骤(2)包括以下步骤:
(21)分别为近端策略优化算法中的Actor和Critic构建结构相同的包括m层的深度卷积神经网络,该网络由若干卷积层和全连接层组成;
(22)agent可感知区域的虚拟环境状态首先通过一系列的卷积以及一个全连接层获得一个中间特征向量,然后结合agent的当前状态以及目标点信息再通过两层包含LSTM单元的隐藏层,最后经过一层线性变换输出agent的动作分布,值函数输出层为单一的线性单元;
所述步骤(3)包括以下步骤:
(31)对于每一个agent,采用同一策略πθ同时训练T时间步,以获取πθ{st,at,rt};采用广义优势估计算法估计优势
Figure FDA0003663045670000021
(32)采用随机梯度下降方法更新策略,即最大化
Figure FDA0003663045670000022
更新θ;
(33)采用时序差分方法更新值函数,即最小化
Figure FDA0003663045670000023
更新φ;
(34)重复步骤(31)至步骤(32),直到迭代达到最大步数或损失值小于给定阈值。
CN201911375159.0A 2019-12-27 2019-12-27 一种基于深度强化学习的多agent避碰方法 Active CN110968102B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911375159.0A CN110968102B (zh) 2019-12-27 2019-12-27 一种基于深度强化学习的多agent避碰方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911375159.0A CN110968102B (zh) 2019-12-27 2019-12-27 一种基于深度强化学习的多agent避碰方法

Publications (2)

Publication Number Publication Date
CN110968102A CN110968102A (zh) 2020-04-07
CN110968102B true CN110968102B (zh) 2022-08-26

Family

ID=70036985

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911375159.0A Active CN110968102B (zh) 2019-12-27 2019-12-27 一种基于深度强化学习的多agent避碰方法

Country Status (1)

Country Link
CN (1) CN110968102B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112034887A (zh) * 2020-09-10 2020-12-04 南京大学 无人机躲避柱状障碍物到达目标点的最优路径训练方法
CN116755329B (zh) * 2023-05-12 2024-05-24 江南大学 一种基于深度强化学习的多智能体的避险逃生方法及装置

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108803615A (zh) * 2018-07-03 2018-11-13 东南大学 一种基于深度强化学习的虚拟人未知环境导航算法
CN109670270A (zh) * 2019-01-11 2019-04-23 山东师范大学 基于多智能体深度强化学习的人群疏散仿真方法及系统
CN109933086A (zh) * 2019-03-14 2019-06-25 天津大学 基于深度q学习的无人机环境感知与自主避障方法
CN109976340A (zh) * 2019-03-19 2019-07-05 中国人民解放军国防科技大学 一种基于深度增强学习的人机协同动态避障方法及系统
CN109992000A (zh) * 2019-04-04 2019-07-09 北京航空航天大学 一种基于分层强化学习的多无人机路径协同规划方法及装置
CN110084375A (zh) * 2019-04-26 2019-08-02 东南大学 一种基于深度强化学习的多agent协作框架
CN110471444A (zh) * 2019-08-19 2019-11-19 西安微电子技术研究所 基于自主学习的无人机智能避障方法
CN110472738A (zh) * 2019-08-16 2019-11-19 北京理工大学 一种基于深度强化学习的无人艇实时避障算法

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108803615A (zh) * 2018-07-03 2018-11-13 东南大学 一种基于深度强化学习的虚拟人未知环境导航算法
CN109670270A (zh) * 2019-01-11 2019-04-23 山东师范大学 基于多智能体深度强化学习的人群疏散仿真方法及系统
CN109933086A (zh) * 2019-03-14 2019-06-25 天津大学 基于深度q学习的无人机环境感知与自主避障方法
CN109976340A (zh) * 2019-03-19 2019-07-05 中国人民解放军国防科技大学 一种基于深度增强学习的人机协同动态避障方法及系统
CN109992000A (zh) * 2019-04-04 2019-07-09 北京航空航天大学 一种基于分层强化学习的多无人机路径协同规划方法及装置
CN110084375A (zh) * 2019-04-26 2019-08-02 东南大学 一种基于深度强化学习的多agent协作框架
CN110472738A (zh) * 2019-08-16 2019-11-19 北京理工大学 一种基于深度强化学习的无人艇实时避障算法
CN110471444A (zh) * 2019-08-19 2019-11-19 西安微电子技术研究所 基于自主学习的无人机智能避障方法

Also Published As

Publication number Publication date
CN110968102A (zh) 2020-04-07

Similar Documents

Publication Publication Date Title
US11747155B2 (en) Global path planning method and device for an unmanned vehicle
CN113110592B (zh) 一种无人机避障与路径规划方法
CN111142522B (zh) 一种分层强化学习的智能体控制方法
CN108803615B (zh) 一种基于深度强化学习的虚拟人未知环境导航算法
CN107168324B (zh) 一种基于anfis模糊神经网络的机器人路径规划方法
Lee et al. Crowd simulation by deep reinforcement learning
CN109343345B (zh) 基于qpso算法的机械臂多项式插值轨迹规划方法
CN113495578A (zh) 一种基于数字孪生式训练的集群航迹规划强化学习方法
Sun et al. Crowd navigation in an unknown and dynamic environment based on deep reinforcement learning
CN109543285B (zh) 一种融合数据驱动与强化学习的人群疏散仿真方法和系统
CN110968102B (zh) 一种基于深度强化学习的多agent避碰方法
CN110991972A (zh) 一种基于多智能体强化学习的货物运输系统
CN112132263A (zh) 一种基于强化学习的多智能体自主导航方法
Wei et al. Learning motion rules from real data: Neural network for crowd simulation
CN114185339A (zh) 一种动态环境下的移动机器人路径规划方法
Li et al. A deep reinforcement learning based approach for autonomous overtaking
CN113391633A (zh) 一种面向城市环境的移动机器人融合路径规划方法
CN116700327A (zh) 一种基于连续动作优势函数学习的无人机轨迹规划方法
Jiang et al. iTD3-CLN: Learn to navigate in dynamic scene through Deep Reinforcement Learning
CN111487992A (zh) 基于深度强化学习的无人机感知与避障一体化方法及设备
Yin et al. Diverse critical interaction generation for planning and planner evaluation
Zhang et al. Crowd evacuation simulation using hierarchical deep reinforcement learning
Sun et al. Event-triggered reconfigurable reinforcement learning motion-planning approach for mobile robot in unknown dynamic environments
Regier et al. Improving navigation with the social force model by learning a neural network controller in pedestrian crowds
Bai et al. Dynamic multi-UAVs formation reconfiguration based on hybrid diversity-PSO and time optimal control

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant