CN113065709A - 一种基于强化学习的跨域异构集群路径规划方法 - Google Patents

一种基于强化学习的跨域异构集群路径规划方法 Download PDF

Info

Publication number
CN113065709A
CN113065709A CN202110391296.4A CN202110391296A CN113065709A CN 113065709 A CN113065709 A CN 113065709A CN 202110391296 A CN202110391296 A CN 202110391296A CN 113065709 A CN113065709 A CN 113065709A
Authority
CN
China
Prior art keywords
individual
cluster
cross
network
domain
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202110391296.4A
Other languages
English (en)
Other versions
CN113065709B (zh
Inventor
彭星光
刘硕
王童豪
宋保维
潘光
张福斌
高剑
李乐
张立川
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Northwestern Polytechnical University
Original Assignee
Northwestern Polytechnical University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Northwestern Polytechnical University filed Critical Northwestern Polytechnical University
Priority to CN202110391296.4A priority Critical patent/CN113065709B/zh
Publication of CN113065709A publication Critical patent/CN113065709A/zh
Application granted granted Critical
Publication of CN113065709B publication Critical patent/CN113065709B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/04Forecasting or optimisation specially adapted for administrative or management purposes, e.g. linear programming or "cutting stock problem"
    • G06Q10/047Optimisation of routes or paths, e.g. travelling salesman problem
    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05DSYSTEMS FOR CONTROLLING OR REGULATING NON-ELECTRIC VARIABLES
    • G05D1/00Control of position, course, altitude or attitude of land, water, air or space vehicles, e.g. using automatic pilots
    • G05D1/0088Control of position, course, altitude or attitude of land, water, air or space vehicles, e.g. using automatic pilots characterized by the autonomous decision making process, e.g. artificial intelligence, predefined behaviours
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/047Probabilistic or stochastic networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N7/00Computing arrangements based on specific mathematical models
    • G06N7/01Probabilistic graphical models, e.g. probabilistic networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • Business, Economics & Management (AREA)
  • Artificial Intelligence (AREA)
  • Computing Systems (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Biophysics (AREA)
  • Human Resources & Organizations (AREA)
  • Molecular Biology (AREA)
  • General Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biomedical Technology (AREA)
  • Strategic Management (AREA)
  • Probability & Statistics with Applications (AREA)
  • Game Theory and Decision Science (AREA)
  • Economics (AREA)
  • Mathematical Optimization (AREA)
  • Pure & Applied Mathematics (AREA)
  • Medical Informatics (AREA)
  • Aviation & Aerospace Engineering (AREA)
  • Radar, Positioning & Navigation (AREA)
  • Remote Sensing (AREA)
  • Automation & Control Theory (AREA)
  • Mathematical Analysis (AREA)
  • Development Economics (AREA)
  • Computational Mathematics (AREA)
  • Algebra (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Marketing (AREA)
  • Operations Research (AREA)
  • Quality & Reliability (AREA)
  • Tourism & Hospitality (AREA)

Abstract

本发明提出一种基于强化学习的跨域异构集群路径规划方法,通过添加集群的特征作为个体观测输入,并通过面向集群路径规划而设定的奖励函数,使得跨域的集群个体能够在保持安全距离的前提下,进行路径规划。本发明构建了跨域异构集群机动的马尔科夫决策过程和奖励函数,利用MADDPG算法求解集群个体机动策略,从而实现跨域异构集群的路径规划。只要集群个体具备相关的传感器,即能通过本发明的方法实现路径规划。该方法下,来自空域、海域、陆域等域的不同航行器可以共同地进行路径规划,从而实现“跨域异构路径规划”。

Description

一种基于强化学习的跨域异构集群路径规划方法
技术领域
本发明涉及路径规划技术领域,具体是一种基于强化学习的路径规划方法,适用于跨域异构机器组成的集群系统。
背景技术
随着人工智能技术的迅猛发展,无人机逐步朝着小型化、智能化、集群化等方向发展。因其成本低、灵活性高、隐蔽性强,被广泛应用于战场侦察、联合攻击、应急救援等行动,已成为未来智能化、无人化作战的重要组成部分。鉴于单架无人机在续航能力、广域侦察搜索等方面的局限性,多架无人机协同组成无人机集群执行任务成为当前无人机作战应用的重要模式。如今,若将无人机联合无人车、无人船等机动单元组成跨域异构机器集群,则该集群具有明显的规模优势、协同优势等,可有效提高任务完成的可靠性。然而,实现跨域异构集群高效协同的首要问题是如何科学合理地为跨域异构集群进行路径规划。
常用的路径规划算法有动态规划法、人工势场法、A*算法、遗传算法等。然而,上述路径规划仅适用于单智能体的路径规划,不一定适用于同构、异构、甚至跨域异构组成的多智能体机器集群。因此,发明一种能够适用于跨域异构集群的路径规划方法是很有必要的。
发明内容
针对现有路径规划方法的局限性,本发明基于强化学习,提出了一种能够适用于跨域异构集群的路径规划方法。只要集群个体具备相关的传感器,即能通过本发明的方法实现路径规划。该方法下,来自空域、海域、陆域等域的不同航行器可以共同地进行路径规划,从而实现“跨域异构路径规划”。
本发明通过添加集群的特征作为个体观测输入,并通过面向集群路径规划而设定的奖励函数,使得跨域的集群个体能够在保持安全距离的前提下,进行路径规划。本发明构建了跨域异构集群机动的马尔科夫决策过程和奖励函数,利用多智能体确定性策略算法(Multi-agent Deep Deterministic Policy Gradient,MADDPG)求解集群个体机动策略,从而实现跨域异构集群的路径规划。
具体包括以下步骤:
步骤1:确定跨域集群个体策略网络的状态变量、动作变量;状态变量作为个体的策略网络的输入,其输出的动作变量是个体在当前时刻采取的机动动作;所述状态变量包括跨域集群的特征;
步骤2:利用MADDPG框架建立跨域异构集群个体的“策略网络-Q网络”组合,并设置神经网络点数、学习率,初始化神经网络的参数;
步骤3:构建用于训练的经验缓存池:
根据状态变量、动作变量确定马尔科夫决策过程为<O,A,R,γ>;
其中O是个体状态变量观测,A是个体状态变量输入策略网络后输出的动作变量,R是个体奖励值,γ是折扣因子;
构建的经验回放元组为经验回放元组为
Figure BDA0003016835000000027
其中,
Figure BDA0003016835000000021
是跨域异构集群所有个体在t时刻的联合状态变量观测,由跨域异构集群内所有个体状态变量观测联结而成;
Figure BDA0003016835000000022
是跨域异构集群所有个体在t时刻的联合机动动作变量,由跨域异构集群内所有个体机动动作变量联结而成;
Figure BDA0003016835000000023
是跨域异构集群在t时刻的奖励值,由各个个体的奖励值求和得到;
Figure BDA0003016835000000024
是跨域异构集群在t时刻根据联合观测
Figure BDA0003016835000000025
采取联合动作
Figure BDA0003016835000000026
后,在t+1时刻更新的群体观测状态变量;
个体在机动时,通过与环境交互生成对应经验回放元组,并储存在经验回放缓存池中;
步骤4:,从经验缓存池中随机抽样,得到若干条经验回放元组,对跨域异构集群个体的“策略网络-Q网络”组合进行训练:
其中Q网络的损失函数公式为LQ=MSE(Rj+γ*Q′i(O′j,A′j)-Qi(Oj,Aj));
Rj是当前时刻的奖励值;γ是折扣因子;Oj,O′j分别是集群的当前状态变量观测和下一时刻状态变量观测,是每个个体状态变量观测的合集;Aj,A′j是在集群观测分别为Oj,O′j的前提下,每个个体策略网络根据自身的状态变量观测而输出的策略动作的联合;Qi,Q′i是集群个体i在当前时刻和下一时刻输出的Q估计值,其中,Qi是Oj,Aj作为个体i的Q网络的输入时,对应Q网络的输出值,Qi′是Oj′,Aj′作为个体i的Q网络的输入时,对应Q网络的输出值;MSE()是对括号值求解均方差误差值,带有梯度信息;
根据误差值LQ,采用梯度回传方法,对每个个体的Q网络参数值进行更新;
策略网络π的损失函数公式为Lπ=-MSE(Qi(Oj,Aj));
根据误差值Lπ,采用梯度回传方法,对每个个体的策略网络π的网络参数进行更新;
步骤5:利用训练得到的每个个体的策略网络对跨域异构集群进行路径规划。
进一步的,面对不同应用场景时,通过调整学习率、神经网络点数,训练得到对应场景下的策略网络模型,在实际使用阶段,根据具体的应用场景,采用相应的策略网络模型对跨域异构集群进行路径规划。
进一步的,所述状态变量由个体速度矢量、个体经纬度、目标方位、障碍物相对方位集合、其他个体相对方位集合构成的向量。
进一步的,各个个体的奖励值由集群个体与目标距离的奖励值、集群个体避开障碍物的奖励值、集群个体到达目标后的奖励值以及集群个体之间保持安全距离的奖励值求和得到。
进一步的,Rdis是集群个体与目标距离的奖励函数,计算方式如下:
Figure BDA0003016835000000031
其中,k是修正系数;
Figure BDA0003016835000000032
分别是个体i的经度,纬度;
Figure BDA0003016835000000033
分别是个体i路径规划目标的经度,纬度;
Ravo是集群个体避开障碍物的奖励函数,计算方式如下:
对于集群个体i和障碍区域中心j:
Figure BDA0003016835000000034
其中,
Figure BDA0003016835000000035
分别是个体i的经度,纬度;
Figure BDA0003016835000000036
分别是第j个障碍区域中心的经度,纬度;di是个体i的安全航行半径,个体航行时,其与任何障碍物的距离都应大于安全航行半径;
Rarr是集群个体到达目标后的奖励函数,计算方式如下:
Figure BDA0003016835000000041
其中,
Figure BDA0003016835000000042
分别是个体i的经度,纬度;
Figure BDA0003016835000000043
分别是个体i路径规划目标的经度,纬度。
Reva是确保集群个体之间保持安全距离的奖励函数,计算方式如下:
Figure BDA0003016835000000044
其中,D表示集群个体与其他个体之间距离的集合,Dsafe表示集群内设定的安全距离。
有益效果
与现有技术相比,本发明具有以下优点:
(1)本发明在已经适用于单智能体、同构机器集群、异构机器集群路径规划的前提下,还适用于跨域异构组成的机器集群的路径规划任务。
(2)将本发明的技术应用于路径规划任务时,不需要感知障碍物的半径大小,只需要感知障碍物的中心经纬度,算法即能够引导跨域异构集群自主远离障碍物。
(3)将本发明的技术应用于路径规划任务时,可以通过修改安全距离的大小,使得集群在宏观上显示为稀疏或密集。
(4)本发明通过构建虚拟力引导集群个体进行机动,通过策略网络输出一个虚拟力的方向作为机动方向,符合跨域异构集群的不同机动马力性质。
(5)本发明考虑了障碍物可能存在的静态、动态两种位置更新特性。
本发明的附加方面和优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本发明的实践了解到。
附图说明
本发明的上述和/或附加的方面和优点从结合下面附图对实施例的描述中将变得明显和容易理解,其中:
图1是MADDPG的算法训练框图;
图2是跨域异构集群个体观测获取示意图;
图3是跨域异构集群个体路径规划具体实施流程图。
具体实施方式
本发明通过添加集群的特征作为个体观测输入,并通过面向集群路径规划而设定的奖励函数,能够对于来自空域、海域、陆域等域的不同航行器在保持安全距离的前提下,共同地进行路径规划。具体步骤为:
步骤1:确定跨域集群个体策略网络的状态变量、动作变量、集群个体间的安全距离。
对于跨域集群中的个体i而言,状态变量Oi由图2所示的方式获取,是由个体速度矢量、个体经纬度、目标方位、障碍物相对方位集合、其他个体相对方位集合构成的向量。
将状态变量作为策略网络的输入,其输出的动作变量Ai是集群个体i在当前时刻应采取的机动动作,鉴于集群的跨域异构特性,机动能力存在差异,个体机动速度应不大于个体的最大机动速度。
集群个体间的安全距离是确保集群个体之间保持安全距离的参数,用于步骤(3)中奖励函数的计算。
步骤2:设定合适的神经网络隐藏层节点数,并依此初始化航行器运动策略网络π、Q网络的神经网络参数。跨域异构集群中有多少航行器个体,就初始化多少组“策略网络-Q网络”的组合。设定合适的学习率。
步骤3:在训练阶段,对集群中各个个体根据集群机动目标确定奖励函数,如下:
R=Rdis+Ravo+Rarr+Reva
其中,R是奖励函数,由Rdis,Ravo,Rarr,Reva四部分求和组成。Rdis是集群个体与目标距离的奖励函数,计算方式如下:
Figure BDA0003016835000000051
其中,k是修正系数;
Figure BDA0003016835000000052
分别是个体i的经度,纬度;
Figure BDA0003016835000000053
分别是个体i路径规划目标的经度,纬度。
Ravo是集群个体避开静态、动态障碍物的奖励函数,计算方式如下:
对于集群个体i和障碍区域中心j:
Figure BDA0003016835000000061
其中,
Figure BDA0003016835000000062
分别是个体i的经度,纬度;
Figure BDA0003016835000000063
分别是第j个障碍区域中心的经度,纬度;di是个体i的安全航行半径,个体航行时,其与任何障碍物的距离都应大于安全航行半径。
Rarr是集群个体关于到达目标后的奖励函数,计算方式如下:
Figure BDA0003016835000000064
其中,
Figure BDA0003016835000000065
分别是个体i的经度,纬度;
Figure BDA0003016835000000066
分别是个体i路径规划目标的经度,纬度。
Reva是确保集群个体之间保持安全距离的奖励函数,计算方式如下:
Figure BDA0003016835000000067
其中,D表示集群个体与其他个体之间距离的集合,Dsafe表示集群内设定的安全距离。步骤4:根据状态变量、动作变量确定马尔科夫决策过程,如下:
<O,A,R,γ>
其中,O是个体状态变量观测,A是个体状态变量输入策略网络后输出的动作变量,均已在步骤1中提及;R是根据奖励函数计算的个体奖励值,其计算方式如步骤3所示;γ是折扣因子,取值范围γ∈[0,1]。
经验回放元组如下:
Figure BDA0003016835000000068
其中,
Figure BDA0003016835000000069
是跨域异构集群所有个体在t时刻的联合状态变量观测,由异构集群内所有个体状态变量观测联结而成;
Figure BDA0003016835000000071
是跨域异构集群所有个体在t时刻的联合机动动作变量,由异构集群内所有个体机动动作变量联结而成;
Figure BDA0003016835000000072
是跨域异构集群在t时刻的奖励值,各个个体的计算方式如步骤3所示,各个个体的奖励值求和得到异构集群整体的奖励值。集群内所有个体共享的奖励值相等,这样确保了在训练完成后,航行器会彼此保持安全距离,并在远离障碍物的前提下,共同完成路径规划;
Figure BDA0003016835000000073
是集群在t时刻根据联合观测
Figure BDA0003016835000000074
采取联合动作
Figure BDA0003016835000000075
后,在t+1时刻更新的群体观测状态变量。
在训练阶段,个体在机动时,通过与环境交互生成对应经验回放元组,并被储存在经验回放缓存池中。经验回放缓存池用于存储采集的经验回放元组,经验回放元组用于步骤5的训练。
步骤5:常规的MADDPG框架如图1所示,本发明在如图1所示的训练框架下进行训练。每次训练,从经验缓存池中随机抽样,得到若干条经验回放元组。对抽样的元组进行堆叠,得到当前时刻观测的集合,当前动作策略的集合,当前时刻的奖励值集合,以及下一时刻观测的集合。
训练框架中,Q网络的损失函数公式如下:
LQ=MSE(Rj+γ*Q′i(O′j,A′j)-Qi(Oj,Aj))
其中,Rj是当前时刻的奖励值;γ是折扣因子;Oj,O′j分别是集群的当前状态变量观测和下一时刻状态变量观测,是每个个体状态变量观测的合集;Aj,A′j是在集群观测分别为Oj,O′j的前提下,每个个体策略网络根据自身的状态变量观测而输出的策略动作的联合;Qi,Q′i是集群个体i在当前时刻和下一时刻输出的Q估计值,其中,Qi是由Oj,Aj作为个体i的Q网络的输入时,对应Q网络的输出值,Qi′是由Oj′,Aj′作为个体i的Q网络的输入时,对应Q网络的输出值。MSE()是对括号值求解均方差误差值,带有梯度信息。由误差值LQ,根据常规的梯度回传的方法,对每个个体的神经网络Q网络参数值进行更新。每次训练,对每个个体的Q网络都进行如上的参数更新。
策略网络π的损失函数公式如下:
Lπ=-MSE(Qi(Oj,Aj))
由误差值Lπ,根据传统的梯度回传的方法,对每个个体的策略网络π的网络参数进行更新。每次训练,对每个个体的策略网络π进行如上的参数更新。
步骤6:当面对不同应用场景时,可以通过调整学习率、神经网络隐藏层节点数等超参数,进行训练得到对应场景下的策略网络模型。
步骤7:在实际使用阶段,根据具体的应用场景,采用相应的策略网络模型对跨域异构集群进行路径规划。
下面给出具体的仿真算例:
仿真环境下,参数设置方面,设定集群规模为N,包括M艘无人船,T台无人机,满足N=M+T。安全距离Dsafe应根据地图场景大小进行设定。神经网络方面,全部使用三层全连接层神经网络,隐藏节点数为64,三层全连接网络均使用RELU激活函数,学习率为0.001,使用Adam优化器。
按发明内容进行训练。
训练完毕后,不再使用Q网络,而仅使用个体策略网络π进行路径规划:
对个体i,按图2所示,整合个体自身的速度、自身的经纬度、目标的相对方位、所有威胁区域中心(障碍物)的相对方位、集群内其他个体相对方位、集群内其他个体相对距离等信息,作为策略网络π的输入,得到的输出值作为机动动作,进行机动。
对集群内每个个体i,策略网络输出一个方向Act,是一个速度矢量。个体i的位置按如下公式进行更新:
Figure BDA0003016835000000081
其中,
Figure BDA0003016835000000082
分别是个体i的经度,纬度,Actx,Acty分别是Act个体i在经度和纬度方向上的分速度,应满足航行器运动约束,如下:
Actx 2+Acty 2=Act2
||Act||≤Pi
其中,Pi是个体i的最大机动速度,由于跨域异构内成员个体机动能力互不相同,应各自满足其运动约束。
整个路径规划流程如图3所示。
尽管上面已经示出和描述了本发明的实施例,可以理解的是,上述实施例是示例性的,不能理解为对本发明的限制,本领域的普通技术人员在不脱离本发明的原理和宗旨的情况下在本发明的范围内可以对上述实施例进行变化、修改、替换和变型。

Claims (5)

1.一种基于强化学习的跨域异构集群路径规划方法,其特征在于:包括以下步骤:
步骤1:确定跨域集群个体策略网络的状态变量、动作变量;状态变量作为个体的策略网络的输入,其输出的动作变量是个体在当前时刻采取的机动动作;所述状态变量包括跨域集群的特征;
步骤2:利用MADDPG框架建立跨域异构集群个体的“策略网络-Q网络”组合,并设置神经网络点数、学习率,初始化神经网络的参数;
步骤3:构建用于训练的经验缓存池:
根据状态变量、动作变量确定马尔科夫决策过程为<O,A,R,γ>;
其中O是个体状态变量观测,A是个体状态变量输入策略网络后输出的动作变量,R是个体奖励值,γ是折扣因子;
构建的经验回放元组为经验回放元组为
Figure FDA0003016834990000011
其中,
Figure FDA0003016834990000012
是跨域异构集群所有个体在t时刻的联合状态变量观测,由跨域异构集群内所有个体状态变量观测联结而成;
Figure FDA0003016834990000013
是跨域异构集群所有个体在t时刻的联合机动动作变量,由跨域异构集群内所有个体机动动作变量联结而成;
Figure FDA0003016834990000014
是跨域异构集群在t时刻的奖励值,由各个个体的奖励值求和得到;
Figure FDA0003016834990000015
是跨域异构集群在t时刻根据联合观测
Figure FDA0003016834990000016
采取联合动作
Figure FDA0003016834990000017
后,在t+1时刻更新的群体观测状态变量;
个体在机动时,通过与环境交互生成对应经验回放元组,并储存在经验回放缓存池中;
步骤4:,从经验缓存池中随机抽样,得到若干条经验回放元组,对跨域异构集群个体的“策略网络-Q网络”组合进行训练:
其中Q网络的损失函数公式为LQ=MSE(Rj+γ*Q′i(O′j,A′j)-Qi(Oj,Aj));
Rj是当前时刻的奖励值;γ是折扣因子;Oj,O′j分别是集群的当前状态变量观测和下一时刻状态变量观测,是每个个体状态变量观测的合集;Aj,A′j是在集群观测分别为Oj,O′j的前提下,每个个体策略网络根据自身的状态变量观测而输出的策略动作的联合;Qi,Q′i是集群个体i在当前时刻和下一时刻输出的Q估计值,其中,Qi是Oj,Aj作为个体i的Q网络的输入时,对应Q网络的输出值,Q′i是O′j,A′j作为个体i的Q网络的输入时,对应Q网络的输出值;MSE()是对括号值求解均方差误差值,带有梯度信息;
根据误差值LQ,采用梯度回传方法,对每个个体的Q网络参数值进行更新;
策略网络π的损失函数公式为Lπ=-MSE(Qi(Oj,Aj));
根据误差值Lπ,采用梯度回传方法,对每个个体的策略网络π的网络参数进行更新;
步骤5:利用训练得到的每个个体的策略网络对跨域异构集群进行路径规划。
2.根据权利要求1所述一种基于强化学习的跨域异构集群路径规划方法,其特征在于:面对不同应用场景时,通过调整学习率、神经网络点数,训练得到对应场景下的策略网络模型,在实际使用阶段,根据具体的应用场景,采用相应的策略网络模型对跨域异构集群进行路径规划。
3.根据权利要求1所述一种基于强化学习的跨域异构集群路径规划方法,其特征在于:所述状态变量由个体速度矢量、个体经纬度、目标方位、障碍物相对方位集合、其他个体相对方位集合构成的向量。
4.根据权利要求1所述一种基于强化学习的跨域异构集群路径规划方法,其特征在于:各个个体的奖励值由集群个体与目标距离的奖励值、集群个体避开障碍物的奖励值、集群个体到达目标后的奖励值以及集群个体之间保持安全距离的奖励值求和得到。
5.根据权利要求4所述一种基于强化学习的跨域异构集群路径规划方法,其特征在于:Rdis是集群个体与目标距离的奖励函数,计算方式如下:
Figure FDA0003016834990000021
其中,k是修正系数;ψi,
Figure FDA0003016834990000022
分别是个体i的经度,纬度;ψtar,
Figure FDA0003016834990000023
分别是个体i路径规划目标的经度,纬度;
Ravo是集群个体避开障碍物的奖励函数,计算方式如下:
对于集群个体i和障碍区域中心j:
Figure FDA0003016834990000031
其中,ψi,
Figure FDA0003016834990000032
分别是个体i的经度,纬度;ψj,
Figure FDA0003016834990000033
分别是第j个障碍区域中心的经度,纬度;di是个体i的安全航行半径,个体航行时,其与任何障碍物的距离都应大于安全航行半径;
Rarr是集群个体到达目标后的奖励函数,计算方式如下:
Figure FDA0003016834990000034
其中,ψi,
Figure FDA0003016834990000035
分别是个体i的经度,纬度;ψtar,
Figure FDA0003016834990000036
分别是个体i路径规划目标的经度,纬度。
Reva是确保集群个体之间保持安全距离的奖励函数,计算方式如下:
Figure FDA0003016834990000037
其中,D表示集群个体与其他个体之间距离的集合,Dsafe表示集群内设定的安全距离。
CN202110391296.4A 2021-04-13 2021-04-13 一种基于强化学习的跨域异构集群路径规划方法 Active CN113065709B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110391296.4A CN113065709B (zh) 2021-04-13 2021-04-13 一种基于强化学习的跨域异构集群路径规划方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110391296.4A CN113065709B (zh) 2021-04-13 2021-04-13 一种基于强化学习的跨域异构集群路径规划方法

Publications (2)

Publication Number Publication Date
CN113065709A true CN113065709A (zh) 2021-07-02
CN113065709B CN113065709B (zh) 2023-06-30

Family

ID=76566441

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110391296.4A Active CN113065709B (zh) 2021-04-13 2021-04-13 一种基于强化学习的跨域异构集群路径规划方法

Country Status (1)

Country Link
CN (1) CN113065709B (zh)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113485119A (zh) * 2021-07-29 2021-10-08 中国人民解放军国防科技大学 一种改进群机器人进化能力的异质同质群体协同进化方法
CN113741525A (zh) * 2021-09-10 2021-12-03 南京航空航天大学 基于策略集合maddpg多无人机协同攻防对抗方法
CN114626836A (zh) * 2022-05-17 2022-06-14 浙江大学 基于多智能体强化学习的急救后送决策系统及方法
CN115524964A (zh) * 2022-08-12 2022-12-27 中山大学 一种基于强化学习的火箭着陆实时鲁棒制导方法及系统
CN117970931A (zh) * 2024-03-29 2024-05-03 青岛科技大学 一种机器人动态路径规划方法、设备及介质

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20200250486A1 (en) * 2019-01-31 2020-08-06 StradVision, Inc. Learning method and learning device for supporting reinforcement learning by using human driving data as training data to thereby perform personalized path planning
CN112241176A (zh) * 2020-10-16 2021-01-19 哈尔滨工程大学 一种水下自主航行器在大尺度连续性障碍物环境中路径规划避障控制方法
CN112286203A (zh) * 2020-11-11 2021-01-29 大连理工大学 一种基于蚁群算法的多智能体强化学习路径规划方法
US20210089868A1 (en) * 2019-09-23 2021-03-25 Adobe Inc. Reinforcement learning with a stochastic action set
CN112580537A (zh) * 2020-12-23 2021-03-30 中国人民解放军国防科技大学 一种用于多无人机系统持续覆盖特定区域的深度强化学习方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20200250486A1 (en) * 2019-01-31 2020-08-06 StradVision, Inc. Learning method and learning device for supporting reinforcement learning by using human driving data as training data to thereby perform personalized path planning
US20210089868A1 (en) * 2019-09-23 2021-03-25 Adobe Inc. Reinforcement learning with a stochastic action set
CN112241176A (zh) * 2020-10-16 2021-01-19 哈尔滨工程大学 一种水下自主航行器在大尺度连续性障碍物环境中路径规划避障控制方法
CN112286203A (zh) * 2020-11-11 2021-01-29 大连理工大学 一种基于蚁群算法的多智能体强化学习路径规划方法
CN112580537A (zh) * 2020-12-23 2021-03-30 中国人民解放军国防科技大学 一种用于多无人机系统持续覆盖特定区域的深度强化学习方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
FENG LIU 等: ""Research on path planning of robot based on deep reinforcement learning"", 《IEEE》 *
李辉;祁宇明;: "一种复杂环境下基于深度强化学习的机器人路径规划方法", 计算机应用研究, no. 1 *
随博文;黄志坚;姜宝祥;郑欢;温家一;: "基于深度Q网络的水面无人艇路径规划算法", 上海海事大学学报, no. 03 *

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113485119A (zh) * 2021-07-29 2021-10-08 中国人民解放军国防科技大学 一种改进群机器人进化能力的异质同质群体协同进化方法
CN113485119B (zh) * 2021-07-29 2022-05-10 中国人民解放军国防科技大学 一种改进群机器人进化能力的异质同质群体协同进化方法
CN113741525A (zh) * 2021-09-10 2021-12-03 南京航空航天大学 基于策略集合maddpg多无人机协同攻防对抗方法
CN113741525B (zh) * 2021-09-10 2024-02-06 南京航空航天大学 基于策略集合maddpg多无人机协同攻防对抗方法
CN114626836A (zh) * 2022-05-17 2022-06-14 浙江大学 基于多智能体强化学习的急救后送决策系统及方法
CN115524964A (zh) * 2022-08-12 2022-12-27 中山大学 一种基于强化学习的火箭着陆实时鲁棒制导方法及系统
CN117970931A (zh) * 2024-03-29 2024-05-03 青岛科技大学 一种机器人动态路径规划方法、设备及介质
CN117970931B (zh) * 2024-03-29 2024-07-05 青岛科技大学 一种机器人动态路径规划方法、设备及介质

Also Published As

Publication number Publication date
CN113065709B (zh) 2023-06-30

Similar Documents

Publication Publication Date Title
CN113065709B (zh) 一种基于强化学习的跨域异构集群路径规划方法
WO2021135554A1 (zh) 一种无人车全局路径规划方法和装置
CN108803321B (zh) 基于深度强化学习的自主水下航行器轨迹跟踪控制方法
CN106873628B (zh) 一种多无人机跟踪多机动目标的协同路径规划方法
Xiaofei et al. Global path planning algorithm based on double DQN for multi-tasks amphibious unmanned surface vehicle
CN112130566B (zh) 一种基于模糊逻辑和滑模控制策略的无人艇、无人机混合编队控制方法及其控制系统
Fu et al. Route planning for unmanned aerial vehicle (UAV) on the sea using hybrid differential evolution and quantum-behaved particle swarm optimization
CN111340868B (zh) 基于视觉深度估计的无人水下航行器自主决策控制方法
WO2022241944A1 (zh) 一种海空协同水下目标追踪的路径规划系统及方法
CN112132263A (zh) 一种基于强化学习的多智能体自主导航方法
CN112580537B (zh) 一种用于多无人机系统持续覆盖特定区域的深度强化学习方法
CN110262524B (zh) 一种无人艇集群最优聚集控制器的设计方法
Ke et al. Cooperative path planning for air–sea heterogeneous unmanned vehicles using search-and-tracking mission
Xia et al. Research on collision avoidance algorithm of unmanned surface vehicle based on deep reinforcement learning
CN109857117B (zh) 一种基于分布式模式匹配的无人艇集群编队方法
Li et al. A deep reinforcement learning based approach for autonomous overtaking
CN115657711B (zh) 一种基于深度强化学习的高超声速飞行器规避制导方法
CN114077258A (zh) 一种基于强化学习ppo2算法的无人艇位姿控制方法
CN112947541A (zh) 一种基于深度强化学习的无人机意图航迹预测方法
CN114326821B (zh) 基于深度强化学习的无人机自主避障系统及方法
CN114138022B (zh) 一种基于精英鸽群智能的无人机集群分布式编队控制方法
Wei et al. Deep hierarchical reinforcement learning based formation planning for multiple unmanned surface vehicles with experimental results
CN117873078B (zh) 一种基于人工势函数的无人水面船编队容错控制方法
CN116679710A (zh) 一种基于多任务学习的机器人避障策略训练与部署方法
CN116700269A (zh) 考虑环境扰动和多目标约束的无人艇路径规划方法及系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant