CN112286203A - 一种基于蚁群算法的多智能体强化学习路径规划方法 - Google Patents

一种基于蚁群算法的多智能体强化学习路径规划方法 Download PDF

Info

Publication number
CN112286203A
CN112286203A CN202011257321.1A CN202011257321A CN112286203A CN 112286203 A CN112286203 A CN 112286203A CN 202011257321 A CN202011257321 A CN 202011257321A CN 112286203 A CN112286203 A CN 112286203A
Authority
CN
China
Prior art keywords
agent
information
cluster
path planning
pheromone
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202011257321.1A
Other languages
English (en)
Other versions
CN112286203B (zh
Inventor
张凯歌
候亚庆
葛宏伟
张强
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Dalian University of Technology
Original Assignee
Dalian University of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Dalian University of Technology filed Critical Dalian University of Technology
Priority to CN202011257321.1A priority Critical patent/CN112286203B/zh
Publication of CN112286203A publication Critical patent/CN112286203A/zh
Application granted granted Critical
Publication of CN112286203B publication Critical patent/CN112286203B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05DSYSTEMS FOR CONTROLLING OR REGULATING NON-ELECTRIC VARIABLES
    • G05D1/00Control of position, course, altitude or attitude of land, water, air or space vehicles, e.g. using automatic pilots
    • G05D1/02Control of position or course in two dimensions
    • G05D1/021Control of position or course in two dimensions specially adapted to land vehicles
    • G05D1/0212Control of position or course in two dimensions specially adapted to land vehicles with means for defining a desired trajectory
    • G05D1/0221Control of position or course in two dimensions specially adapted to land vehicles with means for defining a desired trajectory involving a learning process
    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05DSYSTEMS FOR CONTROLLING OR REGULATING NON-ELECTRIC VARIABLES
    • G05D1/00Control of position, course, altitude or attitude of land, water, air or space vehicles, e.g. using automatic pilots
    • G05D1/02Control of position or course in two dimensions
    • G05D1/021Control of position or course in two dimensions specially adapted to land vehicles
    • G05D1/0276Control of position or course in two dimensions specially adapted to land vehicles using signals provided by a source external to the vehicle

Landscapes

  • Engineering & Computer Science (AREA)
  • Aviation & Aerospace Engineering (AREA)
  • Radar, Positioning & Navigation (AREA)
  • Remote Sensing (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Automation & Control Theory (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明公开了一种基于蚁群算法的多智能体强化学习路径规划方法。此方法结合了多智能体深度强化学习方法和蚁群算法的思想,来解决多智能体的路径规划问题。具体包括:采用基于Q学习的改进DQN深度强化学习方法及蚁群“信息素”协同机制,利用智能体集群历史信息对神经网络进行训练更新,最终得到智能体集群中各智能体的最优路径规划策略。本发明采用了网络参数共享机制、优先经验回放机制并且改进了神经网络的架构,解决了传统多智能体路径规划方法自适应能力差的缺陷,提升了路径规划的效率,提高了路径规划的稳定性,最终为多智能体系统规划出更高效便捷的行进路径。

Description

一种基于蚁群算法的多智能体强化学习路径规划方法
技术领域
本发明属于智能优化技术领域,涉及一种基于蚁群算法的多智能体强化学习路径规划方法。
背景技术
路径规划问题是人工智能领域热点问题,该问题涉及许多方面,其中包括许多现实的问题,例如:移动机器人导航、飞行器航迹规划、游戏自动导航以及车辆交通导航等。尤其,随着城市化进程的不断加剧,越来越多的人口涌入城市,使城市的规模不断的扩大,与此同时也催生了城市中庞大而复杂的交通系统。所以,为网约车、私家车、货运车辆等这样的移动智能体在复杂的交通网络中高效便捷的规划通路,成为亟待解决的现实问题。
移动智能体路径规划问题指的是在给定的障碍物环境下,设计一定的算法使得智能体可以寻找一条从指定的起点到终点的无障碍最短路径。现有的路径规划算法主要包括从传统图论中建立起来的深度优先搜索(DFS)、广度优先搜索(BFS)、Dijkstra算法和A*算法以及近些年来兴起的一些智能优化算法。其中主要包括蚁群算法、遗传算法、模拟退火算法、免疫算法、粒子群算法以及各算法之间的一些组合优化算法等。这些方法在移动智能体路径规划中取得较好的效果,但面对复杂环境时依然存在种种缺陷。
蚁群算法是一种启发式的随机搜索算法,该算法来源于对自然界蚁群寻找从巢穴到食物源最短路径行为的模拟。蚁群算法通过信息素的积累产生的正向反馈来寻找最优路径,该算法具有分布式计算、无中心控制、易于与其他算法融合的优点。因此,许多学者将蚁群算法用于智能体的路径规划并在离线静态环境中取得较好的效果。但是蚁群算法存在收敛速度慢、易陷入局部最优、早熟收敛等问题,在未知环境下的效果较差,无法应对复杂多变的环境。
强化学习是机器学习中的一个重要领域,强调如何基于环境而行动,以取得最大化的预期利益。其旨在描述和解决智能体在与环境的交互过程中通过学习策略以达成回报最大化或实现特定目标的问题。其中,智能体是执行强化学习的主体,同时强化学习算法赋予智能体以真正的“智能”,两者相辅相成,互相依赖。
通过将蚁群算法融入强化学习范式之中,形成基于蚁群算法的多智能体强化学习路径规划方法,能够有效帮助移动智能体进行路径规划。其中考虑了智能体之间的相互影响,并促使智能体在与环境互动过程中灵活决策,生成真正意义上的最优路径。
发明内容
本发明提供了一种基于蚁群算法的多智能体强化学习路径规划方法,旨在快捷高效的为多智能体系统规划出最优路径。本发明方法结合了多智能体深度强化学习方法和蚁群算法的思想,来解决多智能体的路径规划问题。其中,利用深度学习的神经网络作为智能体的“大脑”,处理智能体所感知的环境信息并做出决策;利用蚁群算法中的信息素作为启发式信息,赋予智能体观察环境的能力;利用强化学习的范式来促使智能体与环境互动,让它在与环境的互动过程中规划出可行路径。
本发明采用了如下的技术方案:
一种基于蚁群算法的多智能体强化学习路径规划方法,包括如下步骤:
步骤(1):获取智能体集群当前环境信息及设置蚁群信息素地图;
步骤(2):获取智能体集群历史信息,所述历史信息包括历史状态信息及历史决策信息;
步骤(3):训练多智能体路径规划深度强化学习模型;多智能体路径规划深度强化学习模型采用基于Q学习的改进DQN深度强化学习方法,即基于优先经验回放的Dueling_DDQN算法,以及蚁群信息素协同机制;利用智能体集群历史信息对神经网络进行训练更新,神经网络的优化目标为获得最优的智能体路径规划策略;
步骤(4):利用训练好的多智能体路径规划深度强化学习模型为智能体集群规划最优路径。
进一步地,所述步骤(1)包括以下步骤:
(1.1)获取智能体集群中每个智能体的初始位置和目标位置信息,并以极坐标的形式存储;
(1.2)探测环境中的障碍物,并存储其极坐标信息;
(1.3)初始化环境中的信息素地图;
(1.4)智能体收集其状态信息,包括:自身传感器信号;自身距离目的地的偏角和距离;自身距离环境中信息素浓度最大位置,即吸引子的偏角和距离;以及自身在群体之中的序号;
(1.5)按照传感器信息、目标位置信息、信息素信息、自身序号的顺序,将收集到的状态信息抽象为一个多元组<传感器探测信号,最近目的地信息,吸引子信息,智能体自身序号>,作为当前的状态描述。
进一步地,所述步骤(3)包括以下步骤:
(3.1)初始化共享经验池D,设置共享经验池大小为N,初始化蚁群信息素地图,设置信息素的扩散速率η和衰减率ρ,智能体集群中智能体数量Ω;
(3.2)利用随机权值θ初始化动作行为值函数Q;
(3.3)令θ-=θ,用权值θ-初始化时间差分(Temporal-Difference,简称TD)目标动作行为值函数Q′;
(3.4)循环执行每个episode,episode=1,M,M为总的episode数量;
(3.5)对于智能体集群中的每个智能体i,选择吸引子j;其中,吸引子即环境中转移概率最大的位置,即j=argmaxj∈ξi(t)Ci,j(t);
Figure BDA0002773484690000041
Ci,j(t)表示智能体i选择吸引子j的概率。其中,t=0,表示获取当前episode的第一个状态Si(0)所需的信息;εj(t)为吸引子j在时间t的信息素总量,ξi(t)是智能体i感知范围内的吸引子集合;di,j(t)是智能体i与吸引子j之间的欧几里得距离;D(·)是一个单调函数,表示随着di,j(t),信息素的影响力逐渐减弱,如图3底部曲线图所示;
(3.6)对于智能体集群中的每个智能体i,将自身的观测值Oi和所选吸引子的极坐标(ρii)组成一个多元组作为当前状态Si(0)输入到Q中;
(3.7)循环当前episode的每个时间步t,t=1,T,T为最大试验次数;
(3.8)在当前时间步t,对于每个智能体i,依据贪婪概率ε选择一个随机动作at
(3.9)若小概率事件没有发生,则用ε-greedy贪婪策略选择当前值函数最大的动作at=argmaxa Q(Si(t),a;θ)。其中,Si(t)表示在时间步t智能体i的状态,a为可选的动作,θ为动作行为值函数Q(·)权值;
(3.10)智能体i执行动作at,并修改当前位置j的信息素含量;目的是在环境中留下额外的信息素,为后续吸引子的选择提供新的条件信息,这个过程可公式化为:
Figure BDA0002773484690000051
其中,εj(·)表示位置j的信息素含量,a表示在时间t+1智能体所释放的固定信息素量;ρ∈[0,1]表示信息素的衰减率,用来逐渐去除无用的吸引子;
式(2)表明,在智能体行进过程中,距离它较近的吸引子上的信息素浓度会被逐渐提升,而距离它较远的吸引子上的信息素浓度会被逐渐削弱。因为这些距离较远的吸引子,对于当前的智能体i已经不再重要,应该逐渐去除它们的影响,防止给智能体i造成干扰;
(3.11)以固定的扩散速率η将数字信息素小范围扩散到周围区域,并将数字信息素的数量在同一位置线性叠加,其中α是属于0到1之间的常数;
(3.12)智能体i根据式(3)计算其获得的奖励ri(t+1)并转移到状态Si(t+1)。采用了奖励塑造的方法,给予智能体启发式的引导信息,指引智能体走向它的目标位置,具体如下:
Figure BDA0002773484690000052
其中,rarrive为成功抵达目的地的奖励,rcollision为相互之间发生碰撞的惩罚,rturn行进过程中拐弯的惩罚,rclose为预防式的靠近障碍的惩罚,rrange为靠近或远离目标点的奖励或惩罚,rattractor为靠近或远离吸引子的奖励或惩罚;
(3.13)在当前时间步t,将智能体i的经验(Si(t),at,ri(t+1),Si(t+1))存入共享经验池D中;
(3.14)当环境中所有智能体i都完成步骤(3.5)-(3.13)后,对于当前环境中已经被智能体集群占据的位置,以衰减率ρ减少其上的信息素含量,ρ是介于0到1之间的常量;
(3.15)从经验池中随机抽取容量为batch的数据样本(Sj,aj,rj+1,Sj+1),输入Q进行训练;
(3.16)判断是否是一个事件的终止状态,若是则TD目标为rj+1,否则利用TD目标网络θ-计算TD目标;其中,使用优化的Double DQN方法计算TD目标,计算过程如式(4)所示;
Figure BDA0002773484690000061
(3.17)执行梯度下降算法,公式如下:
Figure BDA0002773484690000062
其中,Δθ表示权值θ的梯度,α为学习率,r为即时奖励,γ为折扣因子;Q′(·)为TD目标动作行为值函数,其权值为θ-
Figure BDA0002773484690000063
表示动作行为值函数Q的梯度;
(3.18)更新动作值函数逼近的网络参数θ=θ+Δθ;
(3.19)每隔C步更新一次TD目标函数权值θ-,即令θ-=θ;
(3.20)当t=T时,结束每个episode内循环;
(3.21)当episode=M时,结束整个训练。
进一步地,所述步骤(4)包括以下步骤:
(4.1)智能体集群获取当前状态信息及初始化蚁群信息素地图,组成多元组<传感器探测信号,最近目的地信息,吸引子信息,智能体自身序号>,作为当前的状态;
(4.2)对于集群中的每个智能体i,将步骤(4.1)中获取的状态多元组si传输给步骤(3)中训练好的多智能体路径规划深度强化学习模型;
(4.3)多智能体路径规划深度强化学习模型根据输入的状态信息si,输出智能体i动作空间中各个动作的价值,并按照ε-greedy方法选择前进方向作为自己将要执行的动作ai
(4.4)对于集群中每个智能体i,执行自己的动作ai,环境随之被改变,智能体集群转移到新的状态;
(4.5)对于集群中每个智能体i,检测它们的状态:如果已到达自己的终点位置,则结束路径规划;每个智能体i走过的路径,就是它的最优路径;否则,重复步骤(4.2)-(4.5)所示的路径规划过程;最终获得智能体集群规划最优路径。
本发明的有益效果:
(1)对于现实世界的路径规划任务,其环境是未知的,需要事先建立关于环境的模型,然后才能进行路径规划。而本发明使用了强化学习范式,可以在未知环境工作,使本路径规划方法具有自适应能力;
(2)信息素为多智能体系统提供了一个相互作用的媒介,使各个独立的智能体可以间接地相互沟通,分享其观察到的环境信息,减少自身行为的局部性,进而促进了多智能体在复杂环境中的协同。同时利用优先采样和优先经验回放机制加强了智能体对于过往经验的学习能力,提高路径规划的稳定性;
(3)使用奖励塑造和参数共享机制。奖励塑造机制引导智能体走向正确的目标位置,同时参数共享机制使得不同智能体之间共享网络参数和经验池,从而互相学习优质的经验从而大幅缩短训练时间,提高路径规划的效率和质量。
附图说明
图1为本发明公开的一种基于蚁群算法的多智能体强化学习路径规划方法实施流程图;
图2为基于优先经验回放的Dueling_DDQN算法流程图;
图3为信息素协同机制示意图;
图4为本发明具体实施方式中智能体获取历史信息示意图;
图5为本发明具体实施方式中多智能体路径规划强化学习模型训练流程。
具体实施方式
为使本发明的目的、技术方案和优点更加清晰,下面将结合附图和实例对本发明作进一步详细说明。
如图1所示,本发明公开了一种基于蚁群算法的多智能体强化学习路径规划方法,包括如下步骤:
步骤(1):获取智能体集群当前环境信息及设置蚁群信息素地图;
步骤(2):获取智能体集群历史信息,所述历史信息包括历史状态信息及历史决策信息;
步骤(3):训练多智能体路径规划深度强化学习模型。采用基于Q学习的改进DQN深度强化学习方法——基于优先经验回放的Dueling_DDQN算法,以及蚁群信息素协同机制,利用智能体集群历史信息对神经网络进行训练更新,神经网络的优化目标为获得最优的智能体动作选择策略;
其中深度强化模型主要涉及两种方法:即基于优先经验回放的Dueling_DDQN算法和蚁群信息素协同机制。以下分别详细介绍:
(3.1)基于优先经验回放的Dueling_DDQN算法
本发明从优化时间差分(Temporal-Difference,简称TD)目标值、优化神经网络结构和优化经验回放三个方面改进了传统的Nature DQN算法。改进后的算法流程如图2所示。
(3.1.1)优化TD目标值TDtarget
传统的Nature DQN算法中存在值函数过估计的问题,本发明使用Double Q-learning的方法解决这个问题。所谓Double Q-learning,是将动作的选择和动作的评估分别用不同的值函数Q(·)来实现。Double Q-learning的TD目标公式为:
Figure BDA0002773484690000081
从该公式可以看到,当前状态为S(t+1),动作选择所用的动作值函数为arg maxaQ(S(t+1),a;θ),此时选择动作值函数的参数为θ。当选出最大的动作a*后,动作评估的公式为rt+1+γQ(S(t+1),a*;θ′)。其中,rt+1为t+1时刻获得的即时奖励,γ为折扣因子,动作评估所用的动作值函数网络参数为θ′。
(3.1.2)优化神经网络结构
本发明采用Dueling Network的网络结构优化传统的Nature DQN中的网络结构,将Q网络的输出变为两部分,第一部分为仅仅与状态S有关的状态值函数V,记为V(s,θ,α),第二部分为状态S和选择的动作A均有关,称为优势函数A,记为A(s,a,θ,β),即:
Q(s,a,θ,α,β)=V(s,θ,α)+A(s,a,θ,β) (6)
(3.1.3)优化经验回放
传统的Nature DQN中的经验回放采用均匀分布。由于智能体的经验即为经历过的数据,对于智能体的学习并非具有同等重要的意义。智能体在某些状态的学习效率比其他状态的学习效率高。本发明采用优先经验回放的方法打破均匀采样,赋予学习效率高的状态以更大的采样权重。智能体的学习效率越高,权重越大。本发明使用TD偏差δ来衡量智能体的学习效率。TD偏差越大,说明该状态处的值函数与TD目标的差距越大,智能体的更新量越大,因此该处的学习效率越高。
设样本i处的TD偏差为δi,每次训练从经验池中均匀采样k=32个样本,则该样本处的采样概率为:
Figure BDA0002773484690000091
其中,δ为优先采样程度;pi为样本i的优先级,
Figure BDA0002773484690000092
由TD偏差δi决定,即pi=|δi|+∈。
由于动作值函数的估计值是一个有偏估计,为了矫正这个偏差,本发明使用重要性采样系数ωi,如公式(8)所示。
Figure BDA0002773484690000101
其中,经验池容量为N;β为退火因子,用于平衡样本利用率和无偏估计;P(i为样本i的采样概率,由公式(7)所示。
(3.2)蚁群信息素协同机制
与单智能体强化学习相比,控制多智能体集群在环境中进行学习要复杂得多,因为智能体不但要与环境互动,而且还潜在地彼此交互。在独立强化学习中,多智能体集群直接使用单智能体算法,每个智能体独立学习自己的策略,将其他智能体视为环境得一部分。由于环境不再是静态的,会使学习变得无效。本发明引入蚁群信息素协同机制来促进智能体之间的交流,其具体的作用机理如下:
a)将相同区域中不同来源的信息素线性叠加;
b)在智能体释放新的信息素后,以固定的扩散速率将信息素小范围扩散到周围区域;
c)以固定的速率减少智能体所在位置上信息素的含量。
信息素协同机制的示意图如图3所示。具体来说,在每个时间步,智能体在探测范围内探测地图上的信息素,并选取其中一处为吸引子,将其极坐标作为状态输入的一部分。
步骤(4):利用训练好的深度强化学习模型为智能体集群规划最优路径。
下面将通过实例来详细说明本发明的实施过程。选择“雷区导航模拟器”作为智能体集群的训练环境。该环境为32×32的二维平面空间,其中包括坦克、地雷和目标位置三个主要部分。坦克即为我们要操控的智能体,每个坦克具有8个方向的探测器,可以获得可感知范围内存在的障碍物并返回信号给自身;地雷是环境中的障碍物,坦克一旦触碰到地雷,即视为任务失败;当坦克到达目标位置,则视为任务成功。
以智能体集群中包含8个坦克且环境中存在15个地雷为例,详细说明具体实施方法。
具体实施时,步骤(1)包含的具体步骤如下:
(1.1)分别为智能体集群中的8个坦克设置初始位置和目标位置信息,并以极坐标的形式存储;
(1.2)探测环境中的障碍物即15个地雷的具体位置,并存储其极坐标信息;
(1.3)设置环境中的信息素地图,其具体为覆盖整个环境的,大小为32×32的矩阵空间,存储环境中每个位置的信息素浓度值;
(1.4)环境中的8个坦克分别收集其状态信息。具体包括:东、东南、南、西南、西、西北、北、东北共八个方向的传感器信号;自身距离目的地的偏角和距离;自身距离环境中信息素浓度最大位置——吸引子的偏角和距离;以及自身在群体之中的序号;
(1.5)8个坦克分别获得当前环境的状态信息。即按照传感器信息、目标位置信息、信息素信息、自身序号的顺序,将收集到的信息抽象为一个多元组<传感器探测信号,最近目的地信息,吸引子信息,智能体自身序号>,作为当前的状态描述。
具体实施时,步骤(2)的具体过程如图4所示。
t=0时刻,智能体集群中的每个坦克i,将步骤(1)中观测环境所得的状态多元组<传感器探测信号,最近目的地信息,吸引子信息,智能体自身序号>输入算法的深度神经网络中;此时随机初始化的算法参数θ0会给予每个坦克i相应的动作ai;对于集群中的每个坦克i都执行一个动作ai,并获得奖励值ri(1);环境随之发生变化,使智能体集群转移到新的状态S(t+1);将每个坦克i的历史信息(Si(0),at,ri(1),Si(t+1))作为经验存入共享经验池,给模型的训练启动提供最初的数据。
具体实施时,步骤(3)包含的具体步骤如下,训练的过程如图5所示。
(3.1)初始化共享经验池D,设置共享经验池大小为N=6000,样本容量batch=128,初始化蚁群信息素地图,将环境中每个位置的信息素含量初始化为0,设置信息素的扩散速率η=0.1和衰减率ρ=0.8,智能体集群中坦克数量Ω=8;
(3.2)利用随机权值θ初始化动作-行为值函数Q;
(3.3)令θ-=θ,用θ-初始化TD目标动作行为值函数Q′;
(3.4)循环执行每个episode(episode=1,M),M=20为总的episode数量;
(3.5)对于智能体集群中的每个坦克i,选择吸引子j;
(3.6)对于智能体集群中的每个坦克i,将自身的观测值Oi和所选吸引子的极坐标(ρii)组成一个多元组作为当前状态Si(0)输入到Q网络中;
(3.7)循环当前episode的每个时间步t(t=1,T),T=100为最大试验次数;
(3.8)对于每个坦克i,依据贪婪概率ε选择一个随机动作at
(3.9)若小概率事件没有发生,则用ε-greedy贪婪策略选择当前值函数最大的动作at=arg maxa Q(Si(t),a;θ);
(3.10)坦克i执行动作at,并修改当前位置j的信息素含量,如式(2)所示;
(3.11)以固定的扩散速率η=0.1将数字信息素小范围扩散到周围区域,并将数字信息素的数量在同一位置线性叠加;
(3.12)坦克i根据式(3)计算其获得的奖励ri(t+1)并转移到状态Si(t+1),其中ri(t+1)的计算过程如公式(7)所示;
(3.13)在当前时间步t,将智能体i的经验(Si(t),at,ri(t+1),Si(t+1))存入共享经验池D中;
(3.14)当环境中所有坦克i都完成步骤(3.5)——(3.13)后,对于当前环境中已经被智能体集群占据的位置,以衰减率ρ=0.8(ρ是介于0到1之间的常量)减少其上的信息素含量;
(3.15)从经验池中随机抽取容量为batch的数据样本(Sj,aj,rj+1,Sj+1),输入Q进行训练;
(3.16)判断是否是一个episode的终止状态,若是则TD目标为rj+1,否则利用TD目标网络θ-计算TD目标;其中,本发明使用优化的Double DQN方法计算TD目标,计算过程如式(4)所示;
(3.17)执行梯度下降算法:
Figure BDA0002773484690000131
(3.18)更新动作值函数逼近的网络参数θ=θ+Δθ;
(3.19)每隔C步更新一次TD目标函数权值θ-,即令θ-=θ;
(3.20)当t=T时,结束每个episode内循环;
(3.21)当episode=M时,结束整个训练。
具体实施时,步骤(4)包含的具体步骤如下:
(4.1)智能体集群获取当前状态信息及初始化蚁群信息素地图,组成多元组<传感器探测信号,最近目的地信息,吸引子信息,智能体自身序号>,作为当前的状态;
(4.2)对于集群中的每个坦克i,其将步骤(4.1)中获取的状态多元组si传输给步骤(3)中训练好的多智能体路径规划深度强化学习模型;
(4.3)该模型根据输入的状态信息si,输出坦克i的动作空间{东、东南、南、西南、西、西北、北、东北}中各个可选前进方向的价值,并按照ε-greedy方法选择一个前进方向,将其作为自己将要执行的动作ai
(4.4)对于集群中每个坦克i,执行自己的动作ai,环境随之被改变,智能体集群转移到新的状态;
(4.5)对于集群中每个坦克i,检测它们的状态:如果已到达自己的终点位置,则结束路径规划;每个坦克i所走过的路径,就是它所求的最优路径;否则,重复步骤(4.2)-(4.5)所示的路径规划过程。最终获得智能体集群规划最优路径。
本优选实施例所用算法参数如下表所示:
表1:算法参数设置
Figure BDA0002773484690000151

Claims (1)

1.一种基于蚁群算法的多智能体强化学习路径规划方法,其特征在于,包括如下步骤:
步骤(1):获取智能体集群当前环境信息及设置蚁群信息素地图;
步骤(2):获取智能体集群历史信息,所述历史信息包括历史状态信息及历史决策信息;
步骤(3):训练多智能体路径规划深度强化学习模型;多智能体路径规划深度强化学习模型采用基于Q学习的改进DQN深度强化学习方法,即基于优先经验回放的Dueling_DDQN算法,以及蚁群信息素协同机制;利用智能体集群历史信息对神经网络进行训练更新,神经网络的优化目标为获得最优的智能体路径规划策略;
步骤(4):利用训练好的多智能体路径规划深度强化学习模型为智能体集群规划最优路径;
所述步骤(1)具体如下:
(1.1)获取智能体集群中每个智能体的初始位置和目标位置信息,并以极坐标的形式存储;
(1.2)探测环境中的障碍物,并存储其极坐标信息;
(1.3)初始化环境中的信息素地图;
(1.4)智能体收集其状态信息,包括:自身传感器信号;自身距离目的地的偏角和距离;自身距离环境中信息素浓度最大位置,即吸引子的偏角和距离;以及自身在群体之中的序号;
(1.5)按照传感器信息、目标位置信息、信息素信息、自身序号的顺序,将收集到的状态信息抽象为一个多元组<传感器探测信号,最近目的地信息,吸引子信息,智能体自身序号>,作为当前的状态描述;
所述步骤(3)具体如下:
(3.1)初始化共享经验池D,设置共享经验池大小为N,初始化蚁群信息素地图,设置信息素的扩散速率η和衰减率ρ,智能体集群中智能体数量Ω;
(3.2)利用随机权值θ初始化动作行为值函数Q;
(3.3)令θ-=θ,用权值θ-初始化时间差分目标动作行为值函数Q′,时间差分目标简称为TD目标;
(3.4)循环执行每个episode,episode=1,M,M为总的episode数量;
(3.5)对于智能体集群中的每个智能体i,选择吸引子j;其中,吸引子即环境中转移概率最大的位置,即
Figure FDA0002773484680000021
Figure FDA0002773484680000022
Ci,j(t)表示智能体i选择吸引子j的概率;其中,t=0,表示获取当前episode的第一个状态Si(0)所需的信息;εj(t)为吸引子j在时间t的信息素总量,ξi(t)是智能体i感知范围内的吸引子集合;di,j(t)是智能体i与吸引子j之间的欧几里得距离;D(·)是一个单调函数,表示随着di,j(t),信息素的影响力逐渐减弱;
(3.6)对于智能体集群中的每个智能体i,将自身的观测值Oi和所选吸引子的极坐标(ρii)组成一个多元组作为当前状态Si(0)输入到Q中;
(3.7)循环当前episode的每个时间步t,t=1,T,T为最大试验次数;
(3.8)在当前时间步t,对于每个智能体i,依据贪婪概率ε选择一个随机动作at
(3.9)若小概率事件没有发生,则用ε-greedy贪婪策略选择当前值函数最大的动作at=arg maxa Q(Si(t),a;θ);其中,Si(t)表示在时间步t智能体i的状态,a为可选的动作,θ为动作行为值函数Q(·)权值;
(3.10)智能体i执行动作at,并修改当前位置j的信息素含量;目的是在环境中留下额外的信息素,为后续吸引子的选择提供新的条件信息,过程公式化为:
Figure FDA0002773484680000031
其中,εj(·)表示位置j的信息素含量,a表示在时间t+1智能体所释放的固定信息素量;ρ∈[0,1]表示信息素的衰减率,用来逐渐去除无用的吸引子;
(3.11)以固定的扩散速率η将数字信息素小范围扩散到周围区域,并将数字信息素的数量在同一位置线性叠加,其中α是属于0到1之间的常数;
(3.12)智能体i根据式(3)计算其获得的奖励ri(t+1)并转移到状态Si(t+1);采用奖励塑造的方法,给予智能体启发式的引导信息,指引智能体走向它的目标位置,具体如下:
Figure FDA0002773484680000032
其中,rarrive为成功抵达目的地的奖励,rcollision为相互之间发生碰撞的惩罚,rturn行进过程中拐弯的惩罚,rclose为预防式的靠近障碍的惩罚,rrange为靠近或远离目标点的奖励或惩罚,rattractor为靠近或远离吸引子的奖励或惩罚;
(3.13)在当前时间步t,将智能体i的经验(Si(t),at,ri(t+1),Si(t+1))存入共享经验池D中;
(3.14)当环境中所有智能体i都完成步骤(3.5)-(3.13)后,对于当前环境中已经被智能体集群占据的位置,以衰减率ρ减少其上的信息素含量,ρ是介于0到1之间的常量;
(3.15)从经验池中随机抽取容量为batch的数据样本(Sj,aj,rj+1,Sj+1),输入Q进行训练;
(3.16)判断是否是一个事件的终止状态,若是则TD目标为rj+1,否则利用TD目标网络θ-计算TD目标;其中,使用优化的Double DQN方法计算TD目标,计算过程如式(4)所示;
Figure FDA0002773484680000041
(3.17)执行梯度下降算法,公式如下:
Figure FDA0002773484680000042
其中,Δθ表示权值θ的梯度,α为学习率,r为即时奖励,γ为折扣因子;Q′(·)为TD目标动作行为值函数,其权值为θ-
Figure FDA0002773484680000043
表示动作行为值函数Q的梯度;
(3.18)更新动作值函数逼近的网络参数θ=θ+Δθ;
(3.19)每隔C步更新一次TD目标函数权值θ-,即令θ-=θ;
(3.20)当t=T时,结束每个episode内循环;
(3.21)当episode=M时,结束整个训练;
所述步骤(4)具体如下:
(4.1)智能体集群获取当前状态信息及初始化蚁群信息素地图,组成多元组<传感器探测信号,最近目的地信息,吸引子信息,智能体自身序号>,作为当前的状态;
(4.2)对于集群中的每个智能体i,将步骤(4.1)中获取的状态多元组si传输给步骤(3)中训练好的多智能体路径规划深度强化学习模型;
(4.3)多智能体路径规划深度强化学习模型根据输入的状态信息si,输出智能体i动作空间中各个动作的价值,并按照ε-greedy方法选择前进方向作为自己将要执行的动作ai
(4.4)对于集群中每个智能体i,执行自己的动作ai,环境随之被改变,智能体集群转移到新的状态;
(4.5)对于集群中每个智能体i,检测它们的状态:如果已到达自己的终点位置,则结束路径规划;每个智能体i走过的路径,就是它的最优路径;否则,重复步骤(4.2)-(4.5)所示的路径规划过程;最终获得智能体集群规划最优路径。
CN202011257321.1A 2020-11-11 2020-11-11 一种基于蚁群算法的多智能体强化学习路径规划方法 Active CN112286203B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011257321.1A CN112286203B (zh) 2020-11-11 2020-11-11 一种基于蚁群算法的多智能体强化学习路径规划方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011257321.1A CN112286203B (zh) 2020-11-11 2020-11-11 一种基于蚁群算法的多智能体强化学习路径规划方法

Publications (2)

Publication Number Publication Date
CN112286203A true CN112286203A (zh) 2021-01-29
CN112286203B CN112286203B (zh) 2021-10-15

Family

ID=74398653

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011257321.1A Active CN112286203B (zh) 2020-11-11 2020-11-11 一种基于蚁群算法的多智能体强化学习路径规划方法

Country Status (1)

Country Link
CN (1) CN112286203B (zh)

Cited By (25)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112819144A (zh) * 2021-02-20 2021-05-18 厦门吉比特网络技术股份有限公司 一种具有多智能体的神经网络提升收敛和训练速度的方法
CN113034718A (zh) * 2021-03-01 2021-06-25 启若人工智能研究院(南京)有限公司 一种基于多智能体的地铁管道巡检系统
CN113065709A (zh) * 2021-04-13 2021-07-02 西北工业大学 一种基于强化学习的跨域异构集群路径规划方法
CN113064422A (zh) * 2021-03-09 2021-07-02 河海大学 基于双神经网络强化学习的自主水下航行器路径规划方法
CN113159432A (zh) * 2021-04-28 2021-07-23 杭州电子科技大学 一种基于深度强化学习的多智能体路径规划方法
CN113218400A (zh) * 2021-05-17 2021-08-06 太原科技大学 一种基于深度强化学习的多智能体导航算法
CN113312832A (zh) * 2021-03-22 2021-08-27 哈尔滨工程大学 一种基于机器学习的水下爆炸载荷下船体板架结构动响应快速预报方法
CN113361915A (zh) * 2021-06-04 2021-09-07 聪明工厂有限公司 基于深度强化学习和多智能体图的柔性作业车间调度方法
CN113408796A (zh) * 2021-06-04 2021-09-17 北京理工大学 多任务深度强化学习的深空探测器软着陆路径规划方法
CN113554300A (zh) * 2021-07-19 2021-10-26 河海大学 一种基于深度强化学习的共享车位实时分配方法
CN113592099A (zh) * 2021-07-29 2021-11-02 中国科学技术大学 针对智能体意外出错情况的多智能体强化学习方法及系统
CN113612692A (zh) * 2021-08-11 2021-11-05 西安电子科技大学 基于dqn算法的集中式光片上网络自适应路由规划方法
CN113625716A (zh) * 2021-08-12 2021-11-09 西安电子科技大学 一种多智能体动态路径规划方法
CN113645317A (zh) * 2021-10-15 2021-11-12 中国科学院自动化研究所 一种松散的集群控制方法、装置、设备、介质和产品
CN113682293A (zh) * 2021-09-29 2021-11-23 厦门大学 智能网联混合动力汽车多系统动态协调控制系统及方法
CN113985870A (zh) * 2021-10-19 2022-01-28 复旦大学 一种基于元强化学习的路径规划方法
CN114355973A (zh) * 2021-12-28 2022-04-15 哈尔滨工程大学 一种基于多智能体分层强化学习的弱观测条件下无人集群协同方法
CN114362888A (zh) * 2022-01-24 2022-04-15 厦门大学 一种提升无线通信下行链路传输性能的方法
CN114355980A (zh) * 2022-01-06 2022-04-15 上海交通大学宁波人工智能研究院 基于深度强化学习的四旋翼无人机自主导航方法与系统
CN114415663A (zh) * 2021-12-15 2022-04-29 北京工业大学 基于深度强化学习的路径规划方法及系统
CN114596042A (zh) * 2022-05-10 2022-06-07 卡奥斯工业智能研究院(青岛)有限公司 一种货物运输的方法、装置、电子设备及存储介质
CN114879742A (zh) * 2022-06-17 2022-08-09 电子科技大学 基于多智能体深度强化学习的无人机集群动态覆盖方法
CN115290096A (zh) * 2022-09-29 2022-11-04 广东技术师范大学 一种基于强化学习差分算法的无人机动态航迹规划方法
CN116382304A (zh) * 2023-05-26 2023-07-04 国网江苏省电力有限公司南京供电分公司 基于dqn模型的多巡检机器人协同路径规划方法及系统
CN116523165A (zh) * 2023-06-30 2023-08-01 吉林大学 柔性作业车间amr路径规划与生产调度的协同优化方法

Citations (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5608843A (en) * 1994-08-01 1997-03-04 The United States Of America As Represented By The Secretary Of The Air Force Learning controller with advantage updating algorithm
CN104934968A (zh) * 2015-06-04 2015-09-23 国家电网公司 基于多智能体的配网应灾恢复协调控制方法及装置
CN108375379A (zh) * 2018-02-01 2018-08-07 上海理工大学 基于变异的双重dqn的快速路径规划方法及移动机器人
CN109992000A (zh) * 2019-04-04 2019-07-09 北京航空航天大学 一种基于分层强化学习的多无人机路径协同规划方法及装置
CN110515303A (zh) * 2019-09-17 2019-11-29 余姚市浙江大学机器人研究中心 一种基于ddqn的自适应动态路径规划方法
CN110703766A (zh) * 2019-11-07 2020-01-17 南京航空航天大学 一种基于迁移学习策略深度q网络的无人机路径规划方法
CN110945542A (zh) * 2018-06-29 2020-03-31 东莞理工学院 一种基于智能电网的多智能体深度强化学习代理方法
WO2020068141A1 (en) * 2018-09-26 2020-04-02 Google Llc Predicted variables in programming
CN111065145A (zh) * 2020-01-13 2020-04-24 清华大学 一种面向水下多智能体的q学习蚁群路由方法
CN111123963A (zh) * 2019-12-19 2020-05-08 南京航空航天大学 基于强化学习的未知环境自主导航系统及方法
US20200193226A1 (en) * 2018-12-17 2020-06-18 King Fahd University Of Petroleum And Minerals Enhanced deep reinforcement learning deep q-network models
CN111376954A (zh) * 2020-06-01 2020-07-07 北京全路通信信号研究设计院集团有限公司 一种列车自主调度方法和系统
CN111566583A (zh) * 2019-10-04 2020-08-21 香港应用科技研究院有限公司 自适应路径规划的系统和方法

Patent Citations (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5608843A (en) * 1994-08-01 1997-03-04 The United States Of America As Represented By The Secretary Of The Air Force Learning controller with advantage updating algorithm
CN104934968A (zh) * 2015-06-04 2015-09-23 国家电网公司 基于多智能体的配网应灾恢复协调控制方法及装置
CN108375379A (zh) * 2018-02-01 2018-08-07 上海理工大学 基于变异的双重dqn的快速路径规划方法及移动机器人
CN110945542A (zh) * 2018-06-29 2020-03-31 东莞理工学院 一种基于智能电网的多智能体深度强化学习代理方法
WO2020068141A1 (en) * 2018-09-26 2020-04-02 Google Llc Predicted variables in programming
US20200193226A1 (en) * 2018-12-17 2020-06-18 King Fahd University Of Petroleum And Minerals Enhanced deep reinforcement learning deep q-network models
CN109992000A (zh) * 2019-04-04 2019-07-09 北京航空航天大学 一种基于分层强化学习的多无人机路径协同规划方法及装置
CN110515303A (zh) * 2019-09-17 2019-11-29 余姚市浙江大学机器人研究中心 一种基于ddqn的自适应动态路径规划方法
CN111566583A (zh) * 2019-10-04 2020-08-21 香港应用科技研究院有限公司 自适应路径规划的系统和方法
CN110703766A (zh) * 2019-11-07 2020-01-17 南京航空航天大学 一种基于迁移学习策略深度q网络的无人机路径规划方法
CN111123963A (zh) * 2019-12-19 2020-05-08 南京航空航天大学 基于强化学习的未知环境自主导航系统及方法
CN111065145A (zh) * 2020-01-13 2020-04-24 清华大学 一种面向水下多智能体的q学习蚁群路由方法
CN111376954A (zh) * 2020-06-01 2020-07-07 北京全路通信信号研究设计院集团有限公司 一种列车自主调度方法和系统

Non-Patent Citations (7)

* Cited by examiner, † Cited by third party
Title
BEAKCHEOL JANG; MYEONGHWI KIM; GASPARD HARERIMANA; JONG WOOK KIM: "Q-Learning Algorithms: A Comprehensive Classification and Applications", 《IEEE ACCESS》 *
JIVITESH SHARMA; PER-ARNE ANDERSEN; OLE-CHRISTOFFER GRANMO: "Deep Q-Learning With Q-Matrix Transfer Learning for Novel Fire Evacuation Environment", 《 IEEE TRANSACTIONS ON SYSTEMS, MAN, AND CYBERNETICS: SYSTEMS》 *
RAMY E. ALI; BILGEHAN ERMAN; EJDER BAŞTUĞ; BRUCE CILLI: "Hierarchical Deep Double Q-Routing", 《 ICC 2020 - 2020 IEEE INTERNATIONAL CONFERENCE ON COMMUNICATIONS (ICC)》 *
XI TAO; ABDELHAKIM SENHAJI HAFID: "DeepSensing: A Novel Mobile Crowdsensing Framework With Double Deep Q-Network and Prioritized Experience Replay", 《 IEEE INTERNET OF THINGS JOURNAL》 *
牟诗璇: "动态环境下的无人机避碰技术研究", 《中国优秀硕士学位论文全文数据库·工程科技Ⅱ辑》 *
董培方: "无人作战移动平台控制系统及路径规划算法研究", 《中国优秀硕士学位论文全文数据库·工程科技Ⅱ辑》 *
邓力恺: "无人机集群智能规划系统研究", 《中国优秀硕士学位论文全文数据库·工程科技Ⅱ辑》 *

Cited By (41)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112819144A (zh) * 2021-02-20 2021-05-18 厦门吉比特网络技术股份有限公司 一种具有多智能体的神经网络提升收敛和训练速度的方法
CN112819144B (zh) * 2021-02-20 2024-02-13 厦门吉比特网络技术股份有限公司 一种具有多智能体的神经网络提升收敛和训练速度的方法
CN113034718A (zh) * 2021-03-01 2021-06-25 启若人工智能研究院(南京)有限公司 一种基于多智能体的地铁管道巡检系统
CN113064422A (zh) * 2021-03-09 2021-07-02 河海大学 基于双神经网络强化学习的自主水下航行器路径规划方法
CN113064422B (zh) * 2021-03-09 2022-06-28 河海大学 基于双神经网络强化学习的自主水下航行器路径规划方法
CN113312832B (zh) * 2021-03-22 2022-04-29 哈尔滨工程大学 一种基于机器学习的水下爆炸载荷下船体板架结构动响应快速预报方法
CN113312832A (zh) * 2021-03-22 2021-08-27 哈尔滨工程大学 一种基于机器学习的水下爆炸载荷下船体板架结构动响应快速预报方法
CN113065709A (zh) * 2021-04-13 2021-07-02 西北工业大学 一种基于强化学习的跨域异构集群路径规划方法
CN113065709B (zh) * 2021-04-13 2023-06-30 西北工业大学 一种基于强化学习的跨域异构集群路径规划方法
CN113159432A (zh) * 2021-04-28 2021-07-23 杭州电子科技大学 一种基于深度强化学习的多智能体路径规划方法
CN113218400A (zh) * 2021-05-17 2021-08-06 太原科技大学 一种基于深度强化学习的多智能体导航算法
CN113218400B (zh) * 2021-05-17 2022-04-19 太原科技大学 一种基于深度强化学习的多智能体导航算法
CN113408796A (zh) * 2021-06-04 2021-09-17 北京理工大学 多任务深度强化学习的深空探测器软着陆路径规划方法
CN113361915A (zh) * 2021-06-04 2021-09-07 聪明工厂有限公司 基于深度强化学习和多智能体图的柔性作业车间调度方法
CN113408796B (zh) * 2021-06-04 2022-11-04 北京理工大学 多任务深度强化学习的深空探测器软着陆路径规划方法
CN113554300A (zh) * 2021-07-19 2021-10-26 河海大学 一种基于深度强化学习的共享车位实时分配方法
CN113592099A (zh) * 2021-07-29 2021-11-02 中国科学技术大学 针对智能体意外出错情况的多智能体强化学习方法及系统
CN113592099B (zh) * 2021-07-29 2024-02-23 中国科学技术大学 针对智能体意外出错情况的多智能体强化学习方法及系统
CN113612692B (zh) * 2021-08-11 2022-06-07 西安电子科技大学 基于dqn算法的集中式光片上网络自适应路由规划方法
CN113612692A (zh) * 2021-08-11 2021-11-05 西安电子科技大学 基于dqn算法的集中式光片上网络自适应路由规划方法
CN113625716A (zh) * 2021-08-12 2021-11-09 西安电子科技大学 一种多智能体动态路径规划方法
CN113682293A (zh) * 2021-09-29 2021-11-23 厦门大学 智能网联混合动力汽车多系统动态协调控制系统及方法
CN113682293B (zh) * 2021-09-29 2023-08-22 厦门大学 智能网联混合动力汽车多系统动态协调控制系统及方法
CN113645317B (zh) * 2021-10-15 2022-01-18 中国科学院自动化研究所 一种松散的集群控制方法、装置、设备、介质和产品
CN113645317A (zh) * 2021-10-15 2021-11-12 中国科学院自动化研究所 一种松散的集群控制方法、装置、设备、介质和产品
CN113985870B (zh) * 2021-10-19 2023-10-03 复旦大学 一种基于元强化学习的路径规划方法
CN113985870A (zh) * 2021-10-19 2022-01-28 复旦大学 一种基于元强化学习的路径规划方法
CN114415663A (zh) * 2021-12-15 2022-04-29 北京工业大学 基于深度强化学习的路径规划方法及系统
CN114355973A (zh) * 2021-12-28 2022-04-15 哈尔滨工程大学 一种基于多智能体分层强化学习的弱观测条件下无人集群协同方法
CN114355973B (zh) * 2021-12-28 2023-12-08 哈尔滨工程大学 一种基于多智能体分层强化学习的弱观测条件下无人集群协同方法
CN114355980B (zh) * 2022-01-06 2024-03-08 上海交通大学宁波人工智能研究院 基于深度强化学习的四旋翼无人机自主导航方法与系统
CN114355980A (zh) * 2022-01-06 2022-04-15 上海交通大学宁波人工智能研究院 基于深度强化学习的四旋翼无人机自主导航方法与系统
CN114362888A (zh) * 2022-01-24 2022-04-15 厦门大学 一种提升无线通信下行链路传输性能的方法
CN114362888B (zh) * 2022-01-24 2024-01-19 厦门大学 一种提升无线通信下行链路传输性能的方法
CN114596042A (zh) * 2022-05-10 2022-06-07 卡奥斯工业智能研究院(青岛)有限公司 一种货物运输的方法、装置、电子设备及存储介质
CN114879742A (zh) * 2022-06-17 2022-08-09 电子科技大学 基于多智能体深度强化学习的无人机集群动态覆盖方法
CN115290096A (zh) * 2022-09-29 2022-11-04 广东技术师范大学 一种基于强化学习差分算法的无人机动态航迹规划方法
CN116382304B (zh) * 2023-05-26 2023-09-15 国网江苏省电力有限公司南京供电分公司 基于dqn模型的多巡检机器人协同路径规划方法及系统
CN116382304A (zh) * 2023-05-26 2023-07-04 国网江苏省电力有限公司南京供电分公司 基于dqn模型的多巡检机器人协同路径规划方法及系统
CN116523165B (zh) * 2023-06-30 2023-12-01 吉林大学 柔性作业车间amr路径规划与生产调度的协同优化方法
CN116523165A (zh) * 2023-06-30 2023-08-01 吉林大学 柔性作业车间amr路径规划与生产调度的协同优化方法

Also Published As

Publication number Publication date
CN112286203B (zh) 2021-10-15

Similar Documents

Publication Publication Date Title
CN112286203B (zh) 一种基于蚁群算法的多智能体强化学习路径规划方法
CN112241176B (zh) 一种水下自主航行器在大尺度连续性障碍物环境中路径规划避障控制方法
CN112937564B (zh) 换道决策模型生成方法和无人车换道决策方法及装置
CN110488859B (zh) 一种基于改进Q-learning算法的无人机航路规划方法
CN112180967B (zh) 基于评判-执行架构的多无人机协同对抗决策方法
Cao et al. Target search control of AUV in underwater environment with deep reinforcement learning
CN108762281A (zh) 一种基于记忆关联强化学习的嵌入式实时水下机器人智能决策方法
CN110659796B (zh) 一种可充电群车智能中的数据采集方法
Cao et al. Hunting algorithm for multi-auv based on dynamic prediction of target trajectory in 3d underwater environment
CN112698646B (zh) 一种基于强化学习的航行器路径规划方法
CN114625151B (zh) 一种基于强化学习的水下机器人避障路径规划方法
CN111338375B (zh) 基于混合策略的四旋翼无人机移动降落的控制方法及系统
CN109784201A (zh) 基于四维风险评估的auv动态避障方法
CN113741449A (zh) 一种面向海空协同观测任务的多智能体控制方法
CN114489059A (zh) 基于d3qn-per移动机器人路径规划方法
CN114952828A (zh) 一种基于深度强化学习的机械臂运动规划方法和系统
CN113421345B (zh) 基于深度强化学习技术的仿生机器鱼群集导航模拟方法
CN114510012A (zh) 一种基于元动作序列强化学习的无人集群演进系统及方法
CN114967721B (zh) 一种基于DQ-CapsNet的无人机自助路径规划和避障策略方法
CN116339316A (zh) 一种基于深度强化学习的深海采矿机器人路径规划方法
CN114089776B (zh) 一种基于深度强化学习的无人机避障方法
CN115033022A (zh) 面向移动平台基于专家经验的ddpg无人机降落方法
CN116449863A (zh) 一种基于信息素的强化学习的无人机集群多目标搜索方法
CN117590867B (zh) 基于深度强化学习的水下自主航行器接驳控制方法和系统
Huang et al. The USV path planning based on an improved DQN algorithm

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
CB03 Change of inventor or designer information

Inventor after: Hou Yaqing

Inventor after: Zhang Kaige

Inventor after: Ge Hongwei

Inventor after: Zhang Qiang

Inventor before: Zhang Kaige

Inventor before: Hou Yaqing

Inventor before: Ge Hongwei

Inventor before: Zhang Qiang

CB03 Change of inventor or designer information
GR01 Patent grant
GR01 Patent grant