CN110968102A - 一种基于深度强化学习的多agent避碰方法 - Google Patents
一种基于深度强化学习的多agent避碰方法 Download PDFInfo
- Publication number
- CN110968102A CN110968102A CN201911375159.0A CN201911375159A CN110968102A CN 110968102 A CN110968102 A CN 110968102A CN 201911375159 A CN201911375159 A CN 201911375159A CN 110968102 A CN110968102 A CN 110968102A
- Authority
- CN
- China
- Prior art keywords
- agent
- target point
- reinforcement learning
- state
- collision avoidance
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 24
- 230000002787 reinforcement Effects 0.000 title claims abstract description 21
- 238000012549 training Methods 0.000 claims abstract description 18
- 230000009471 action Effects 0.000 claims abstract description 17
- 230000003068 static effect Effects 0.000 claims abstract description 7
- 238000005457 optimization Methods 0.000 claims abstract description 6
- 239000003795 chemical substances by application Substances 0.000 claims description 89
- 230000006870 function Effects 0.000 claims description 9
- 238000005070 sampling Methods 0.000 claims description 9
- 230000000007 visual effect Effects 0.000 claims description 8
- 238000013459 approach Methods 0.000 claims description 6
- 238000013527 convolutional neural network Methods 0.000 claims description 3
- 238000011478 gradient descent method Methods 0.000 claims description 3
- 230000009466 transformation Effects 0.000 claims description 3
- 238000013519 translation Methods 0.000 claims description 3
- 230000007613 environmental effect Effects 0.000 abstract description 2
- 238000011217 control strategy Methods 0.000 abstract 1
- 238000013135 deep learning Methods 0.000 abstract 1
- 230000006399 behavior Effects 0.000 description 6
- 230000008901 benefit Effects 0.000 description 3
- 238000011160 research Methods 0.000 description 3
- 238000004088 simulation Methods 0.000 description 3
- 241000282414 Homo sapiens Species 0.000 description 2
- 230000006978 adaptation Effects 0.000 description 1
- 238000013473 artificial intelligence Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G05—CONTROLLING; REGULATING
- G05D—SYSTEMS FOR CONTROLLING OR REGULATING NON-ELECTRIC VARIABLES
- G05D1/00—Control of position, course, altitude or attitude of land, water, air or space vehicles, e.g. using automatic pilots
- G05D1/02—Control of position or course in two dimensions
- G05D1/021—Control of position or course in two dimensions specially adapted to land vehicles
- G05D1/0212—Control of position or course in two dimensions specially adapted to land vehicles with means for defining a desired trajectory
- G05D1/0221—Control of position or course in two dimensions specially adapted to land vehicles with means for defining a desired trajectory involving a learning process
-
- G—PHYSICS
- G05—CONTROLLING; REGULATING
- G05D—SYSTEMS FOR CONTROLLING OR REGULATING NON-ELECTRIC VARIABLES
- G05D1/00—Control of position, course, altitude or attitude of land, water, air or space vehicles, e.g. using automatic pilots
- G05D1/02—Control of position or course in two dimensions
- G05D1/021—Control of position or course in two dimensions specially adapted to land vehicles
- G05D1/0276—Control of position or course in two dimensions specially adapted to land vehicles using signals provided by a source external to the vehicle
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02T—CLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
- Y02T10/00—Road transport of goods or passengers
- Y02T10/10—Internal combustion engine [ICE] based vehicles
- Y02T10/40—Engine management systems
Landscapes
- Engineering & Computer Science (AREA)
- Aviation & Aerospace Engineering (AREA)
- Radar, Positioning & Navigation (AREA)
- Remote Sensing (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Automation & Control Theory (AREA)
- Feedback Control In General (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明公开一种基于深度强化学习的多agent避碰方法,首先,对agent可感知区域的环境状态、agent状态、起始点信息、目标点信息、动作和奖励进行表达;然后,确定深度强化学习架构;最后采用基于近端策略优化的深度强化学习方法同时对多个场景进行训练,从而获取最优控制策略,使得agent能够成功躲避静态和动态障碍物,顺利到达目标点。本发明提不仅具有较好的逼真性和较强的通用性,还具有良好的扩展性,更大大提高了训练效率,缩短了训练时间;解决了传统的强化学习方法应用于避碰中状态和动作空间必须离散的问题,提高了传统深度学习方法的训练效率。
Description
技术领域
本发明属于虚拟现实及人工智能领域,具体涉及一种基于深度强化学习的多agent避碰方法。
背景技术
路径规划是人类基本的行为能力之一,是保证人类在现实生活中不与其他障碍物和个体发生碰撞,更好地向目标前进的关键。在虚拟人群仿真研究中,也应该体现这一基本行为特性,使得agent能够按照自然合理的路径运动,顺利到达目标位置。而真实有效地模拟路径规划行为,尤其是多agent的避碰行为,不仅能够提高agent的智能性,还能够为更高层的虚拟人群行为仿真提供基础。
基于人工势场法、速度障碍物方法、栅格的规则等传统的多agent避碰算法虽然对环境未知或者部分未知的情况具有较好的适应性,但是不能保证各agent顺利到达目标点,而且,若想获得很好的避碰效果,需要进行大量的参数调节;而基于强化学习的多agent避碰算法大多要求状态和动作空间必须离散,在规划路径的真实性方面还有待进一步提高,因此,本发明从提高规划路径的真实性和训练效率的角度出发,研究基于深度强化学习的多agent避碰算法。通过本发明的研究,不仅能够为多agent找出从起始点到目标点的无碰撞的路径,而且无需对环境进行建模,还使得学习到的避碰策略能够广泛应用到更多场景成为可能。综上所述,研究基于深度强化学习的多agent避碰算法具有重要的理论意义和工程应用价值。
发明内容
发明目的:本发明提供一种基于深度强化学习的多agent避碰方法,能够克服具有连续状态和动作空间的多agent强化学习所存在的维数灾难以及多agent深度强化学习训练时间长的问题,使得学习到的避碰策略能够广泛应用到更多场景。
技术方案:本发明所述的一种基于深度强化学习的多agent避碰方法,包括以下步骤:
(1)在每一场景中,对agent可感知区域的环境状态、agent状态、起始点信息、目标点信息、动作和奖励进行表达;
(2)确定深度强化学习架构,该架构以agent的当前状态、可感知区域的虚拟环境状态和目标点信息作为输入,agent的动作作为输出;
(3)采用近端策略优化方法同时对多个场景进行训练,调整网络参数,获取共享策略,训练完成后,即可得到一条从起始点到目标点的无碰撞的路径。
进一步地,所述步骤(1)包括以下步骤:
(11)设定agent可感知的最大视距为a米,最大视角为b度,其中,0<a≤5,b≤220;具体描述为:以agent当前位置为参考,向前延伸c米,最大视角为以聚焦方向为对称轴,和两侧的夹角分别为b/2度;
(12)在感知范围内向不同方向发射射线进行采样,地形平坦无障碍物处采样为0,有障碍物处采样为1,将静态障碍物的状态表示为绝对位置pstatic,将动态障碍物的状态表示为绝对位置pdynamic和运动速度vdynamic;
(13)将agent的当前状态表征为C(pc,θc),其中,pc为agent当前状态下的位置,θc为agent当前状态下的朝向;将起始点信息表征为ps,即起始点的位置;将目标点信息表征为ptar,即目标点的位置;将agent的动作表征为A(ρa,θa),其中,ρa为agent的平移速度,θa为旋转速度;
(14)奖励函数设计如下:
R=rgoal+rapproach-(rc_static+rc_dynamic+rc_agents+rtime)
其中,rgoal为到达目标点所给奖励,rapproach为进一步接近目标点所给奖励,rc_static为agent与静态障碍物碰撞所给惩罚,rc_dynamic为agent与动态障碍物碰撞所给惩罚,rc_agents为agent之间发生碰撞所给惩罚,rtime为agent到达目标点花费时间太多时所给惩罚。
进一步地,所述步骤(2)包括以下步骤:
(21)分别为近端策略优化算法中的Actor和Critic构建结构相同的包括m层的深度卷积神经网络,该网络由若干卷积层和全连接层组成;
(22)agent可感知区域的虚拟环境状态首先通过一系列的卷积以及一个全连接层获得一个中间特征向量,然后结合agent的当前状态以及目标点信息再通过两层包含LSTM单元的隐藏层,最后经过一层线性变换输出agent的动作分布,值函数输出层为单一的线性单元。
进一步地,所述步骤(3)包括以下步骤:
(34)重复步骤(31)至步骤(32),直到迭代达到最大步数或损失值小于给定阈值。
有益效果:与现有技术相比,本发明的有益效果为:1、本发明不受应用场景和环境因素的限制,无需对环境进行建模即可为多agent的高层行为仿真提供技术手段,具有较强的通用性;2、解决了传统的强化学习在求解具有连续状态和动作空间的多agent避碰所出现的维数灾难问题,通过对多个场景同时训练,提高了训练的效率;3、通过训练共享策略使得该避碰策略可以广泛应用到更多场景,因此具有较好的可扩展性。
附图说明
图1为本发明的示意图;
图2为本发明对agent可感知区域的环境信息和agent状态的示意图。
具体实施方式
下面结合附图对本发明作进一步的详细说明。如图1所示,本发明具体包括以下步骤:
1、在每一场景中,对agent可感知区域的环境状态、agent状态、起始点信息、目标点信息、动作和奖励进行表达。
如图2所示,设定agent可感知的最大视距为a米,最大视角为b度,其中,0<a≤5,b≤220;具体描述为,以agent当前位置为参考,向前延伸c米,最大视角为以聚焦方向为对称轴,和两侧的夹角分别为b/2度。此处设定agent可感知的最大视距为4m,最大视角为180度,具体描述为,以agent当前位置为参考,向前延伸4米,最大视角为以聚焦方向为对称轴,和两侧的夹角分别为90°。
在感知范围内向不同方向发射射线进行采样,地形平坦无障碍物处采样为0,有障碍物处采样为1,将静态障碍物的状态表示为绝对位置pstatic,将动态障碍物的状态表示为绝对位置pdynamic和运动速度vdynamic。
将agent的当前状态表征为C(pc,θc),其中,pc为agent当前状态下的位置,θc为agent当前状态下的朝向;将起始点信息表征为ps,即起始点的位置;将目标点信息表征为ptar,即目标点的位置;将agent的动作表征为A(ρa,θa),其中,ρa为agent的平移速度,θa为旋转速度。
设计奖励函数如下:
R=rgoal+rapproach-(rc_static+rc_dynamic+rc_agents+rtime)
其中,rgoal为到达目标点所给奖励,rapproach为进一步接近目标点所给奖励,rc_static为agent与静态障碍物碰撞所给惩罚,rc_dynamic为agent与动态障碍物碰撞所给惩罚,rc_agents为agent之间发生碰撞所给惩罚,rtime为agent到达目标点花费时间太多时所给惩罚。
2、确定深度强化学习架构,该架构以agent的当前状态、可感知区域的虚拟环境状态和目标点信息作为输入,agent的动作作为输出;
分别为近端策略优化(Proximal PolicyOptimization,PPO)算法中的Actor和Critic构建结构相同的包括m层的深度卷积神经网络,该网络由若干卷积层和全连接层组成。
agent可感知区域的虚拟环境状态首先通过一系列的卷积以及一个全连接层获得一个中间特征向量,然后结合agent的当前状态以及目标点信息再通过两层包含LSTM单元的隐藏层,最后经过一层线性变换输出agent的动作分布,值函数输出层为单一的线性单元。
3、采用PPO方法同时对多个场景进行训练,调整网络参数,获取共享策略,训练完成后,即可得到一条从起始点到目标点的无碰撞的路径。
重复步骤(1)至步骤(3),直到迭代达到最大步数或损失值小于给定阈值。
以上所述仅是本发明的优选实施方式,应当指出:对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。
Claims (4)
1.一种基于深度强化学习的多agent避碰方法,其特征在于,包括以下步骤:
(1)在每一场景中,对agent可感知区域的环境状态、agent状态、起始点信息、目标点信息、动作和奖励进行表达;
(2)确定深度强化学习架构,该架构以agent的当前状态、可感知区域的虚拟环境状态和目标点信息作为输入,agent的动作作为输出;
(3)采用近端策略优化方法同时对多个场景进行训练,调整网络参数,获取共享策略,训练完成后,即可得到一条从起始点到目标点的无碰撞的路径。
2.根据权利要求1所述的一种基于深度强化学习的多agent避碰方法,其特征在于,所述步骤(1)包括以下步骤:
(11)设定agent可感知的最大视距为a米,最大视角为b度,其中,0<a≤5,b≤220;具体描述为:以agent当前位置为参考,向前延伸c米,最大视角为以聚焦方向为对称轴,和两侧的夹角分别为b/2度;
(12)在感知范围内向不同方向发射射线进行采样,地形平坦无障碍物处采样为0,有障碍物处采样为1,将静态障碍物的状态表示为绝对位置pstatic,将动态障碍物的状态表示为绝对位置pdynamic和运动速度vdynamic;
(13)将agent的当前状态表征为C(pc,θc),其中,pc为agent当前状态下的位置,θc为agent当前状态下的朝向;将起始点信息表征为ps,即起始点的位置;将目标点信息表征为ptar,即目标点的位置;将agent的动作表征为A(ρa,θa),其中,ρa为agent的平移速度,θa为旋转速度;
(14)奖励函数设计如下:
R=rgoal+rapproach-(rc_static+rc_dynamic+rc_agents+rtime)
其中,rgoal为到达目标点所给奖励,rapproach为进一步接近目标点所给奖励,rc_xtatic为agent与静态障碍物碰撞所给惩罚,rc_dynamic为agent与动态障碍物碰撞所给惩罚,rc_agents为agent之间发生碰撞所给惩罚,rtime为agent到达目标点花费时间太多时所给惩罚。
3.根据权利要求1所述的一种基于深度强化学习的多agent避碰方法,其特征在于,所述步骤(2)包括以下步骤:
(21)分别为近端策略优化算法中的Actor和Critic构建结构相同的包括m层的深度卷积神经网络,该网络由若干卷积层和全连接层组成;
(22)agent可感知区域的虚拟环境状态首先通过一系列的卷积以及一个全连接层获得一个中间特征向量,然后结合agent的当前状态以及目标点信息再通过两层包含LSTM单元的隐藏层,最后经过一层线性变换输出agent的动作分布,值函数输出层为单一的线性单元。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911375159.0A CN110968102B (zh) | 2019-12-27 | 2019-12-27 | 一种基于深度强化学习的多agent避碰方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911375159.0A CN110968102B (zh) | 2019-12-27 | 2019-12-27 | 一种基于深度强化学习的多agent避碰方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110968102A true CN110968102A (zh) | 2020-04-07 |
CN110968102B CN110968102B (zh) | 2022-08-26 |
Family
ID=70036985
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201911375159.0A Active CN110968102B (zh) | 2019-12-27 | 2019-12-27 | 一种基于深度强化学习的多agent避碰方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110968102B (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112034887A (zh) * | 2020-09-10 | 2020-12-04 | 南京大学 | 无人机躲避柱状障碍物到达目标点的最优路径训练方法 |
CN116755329A (zh) * | 2023-05-12 | 2023-09-15 | 江南大学 | 一种基于深度强化学习的多智能体的避险逃生方法及装置 |
Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108803615A (zh) * | 2018-07-03 | 2018-11-13 | 东南大学 | 一种基于深度强化学习的虚拟人未知环境导航算法 |
CN109670270A (zh) * | 2019-01-11 | 2019-04-23 | 山东师范大学 | 基于多智能体深度强化学习的人群疏散仿真方法及系统 |
CN109933086A (zh) * | 2019-03-14 | 2019-06-25 | 天津大学 | 基于深度q学习的无人机环境感知与自主避障方法 |
CN109976340A (zh) * | 2019-03-19 | 2019-07-05 | 中国人民解放军国防科技大学 | 一种基于深度增强学习的人机协同动态避障方法及系统 |
CN109992000A (zh) * | 2019-04-04 | 2019-07-09 | 北京航空航天大学 | 一种基于分层强化学习的多无人机路径协同规划方法及装置 |
CN110084375A (zh) * | 2019-04-26 | 2019-08-02 | 东南大学 | 一种基于深度强化学习的多agent协作框架 |
CN110472738A (zh) * | 2019-08-16 | 2019-11-19 | 北京理工大学 | 一种基于深度强化学习的无人艇实时避障算法 |
CN110471444A (zh) * | 2019-08-19 | 2019-11-19 | 西安微电子技术研究所 | 基于自主学习的无人机智能避障方法 |
-
2019
- 2019-12-27 CN CN201911375159.0A patent/CN110968102B/zh active Active
Patent Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108803615A (zh) * | 2018-07-03 | 2018-11-13 | 东南大学 | 一种基于深度强化学习的虚拟人未知环境导航算法 |
CN109670270A (zh) * | 2019-01-11 | 2019-04-23 | 山东师范大学 | 基于多智能体深度强化学习的人群疏散仿真方法及系统 |
CN109933086A (zh) * | 2019-03-14 | 2019-06-25 | 天津大学 | 基于深度q学习的无人机环境感知与自主避障方法 |
CN109976340A (zh) * | 2019-03-19 | 2019-07-05 | 中国人民解放军国防科技大学 | 一种基于深度增强学习的人机协同动态避障方法及系统 |
CN109992000A (zh) * | 2019-04-04 | 2019-07-09 | 北京航空航天大学 | 一种基于分层强化学习的多无人机路径协同规划方法及装置 |
CN110084375A (zh) * | 2019-04-26 | 2019-08-02 | 东南大学 | 一种基于深度强化学习的多agent协作框架 |
CN110472738A (zh) * | 2019-08-16 | 2019-11-19 | 北京理工大学 | 一种基于深度强化学习的无人艇实时避障算法 |
CN110471444A (zh) * | 2019-08-19 | 2019-11-19 | 西安微电子技术研究所 | 基于自主学习的无人机智能避障方法 |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112034887A (zh) * | 2020-09-10 | 2020-12-04 | 南京大学 | 无人机躲避柱状障碍物到达目标点的最优路径训练方法 |
CN116755329A (zh) * | 2023-05-12 | 2023-09-15 | 江南大学 | 一种基于深度强化学习的多智能体的避险逃生方法及装置 |
CN116755329B (zh) * | 2023-05-12 | 2024-05-24 | 江南大学 | 一种基于深度强化学习的多智能体的避险逃生方法及装置 |
Also Published As
Publication number | Publication date |
---|---|
CN110968102B (zh) | 2022-08-26 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11747155B2 (en) | Global path planning method and device for an unmanned vehicle | |
CN108803615B (zh) | 一种基于深度强化学习的虚拟人未知环境导航算法 | |
CN113495578B (zh) | 一种基于数字孪生式训练的集群航迹规划强化学习方法 | |
CN111142522B (zh) | 一种分层强化学习的智能体控制方法 | |
Lee et al. | Crowd simulation by deep reinforcement learning | |
CN110991972B (zh) | 一种基于多智能体强化学习的货物运输系统 | |
CN109543285B (zh) | 一种融合数据驱动与强化学习的人群疏散仿真方法和系统 | |
Botteghi et al. | On reward shaping for mobile robot navigation: A reinforcement learning and SLAM based approach | |
CN110968102B (zh) | 一种基于深度强化学习的多agent避碰方法 | |
CN114185339A (zh) | 一种动态环境下的移动机器人路径规划方法 | |
Li et al. | A deep reinforcement learning based approach for autonomous overtaking | |
CN111487992A (zh) | 基于深度强化学习的无人机感知与避障一体化方法及设备 | |
CN116700327A (zh) | 一种基于连续动作优势函数学习的无人机轨迹规划方法 | |
CN113391633A (zh) | 一种面向城市环境的移动机器人融合路径规划方法 | |
CN111798494A (zh) | 广义相关熵准则下的机动目标鲁棒跟踪方法 | |
CN116841317A (zh) | 一种基于图注意力强化学习的无人机集群协同对抗方法 | |
CN105424043A (zh) | 一种基于判断机动的运动状态估计方法 | |
Niu et al. | An improved sand cat swarm optimization for moving target search by UAV | |
CN116432539A (zh) | 一种时间一致性协同制导方法、系统、设备及介质 | |
CN114548497B (zh) | 一种实现场景自适应的人群运动路径规划方法及系统 | |
CN114757092A (zh) | 基于队友感知的多智能体协作通信策略的训练系统和方法 | |
CN114911157A (zh) | 基于部分可观测强化学习的机器人导航控制方法及系统 | |
CN113487870A (zh) | 一种基于cw攻击对智能单交叉口的对抗扰动生成方法 | |
Lancaster et al. | Predicting the behavior of robotic swarms in search and tag tasks | |
CN118690786B (zh) | 一种基于深度强化学习的网联车辆协同控制方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |