CN113065709A

CN113065709A - 一种基于强化学习的跨域异构集群路径规划方法

Info

Publication number: CN113065709A
Application number: CN202110391296.4A
Authority: CN
Inventors: 彭星光; 刘硕; 王童豪; 宋保维; 潘光; 张福斌; 高剑; 李乐; 张立川
Original assignee: Northwestern Polytechnical University
Current assignee: Northwestern Polytechnical University
Priority date: 2021-04-13
Filing date: 2021-04-13
Publication date: 2021-07-02
Anticipated expiration: 2041-04-13
Also published as: CN113065709B

Abstract

本发明提出一种基于强化学习的跨域异构集群路径规划方法，通过添加集群的特征作为个体观测输入，并通过面向集群路径规划而设定的奖励函数，使得跨域的集群个体能够在保持安全距离的前提下，进行路径规划。本发明构建了跨域异构集群机动的马尔科夫决策过程和奖励函数，利用MADDPG算法求解集群个体机动策略，从而实现跨域异构集群的路径规划。只要集群个体具备相关的传感器，即能通过本发明的方法实现路径规划。该方法下，来自空域、海域、陆域等域的不同航行器可以共同地进行路径规划，从而实现“跨域异构路径规划”。

Description

一种基于强化学习的跨域异构集群路径规划方法

技术领域

本发明涉及路径规划技术领域，具体是一种基于强化学习的路径规划方法，适用于跨域异构机器组成的集群系统。

背景技术

随着人工智能技术的迅猛发展，无人机逐步朝着小型化、智能化、集群化等方向发展。因其成本低、灵活性高、隐蔽性强，被广泛应用于战场侦察、联合攻击、应急救援等行动，已成为未来智能化、无人化作战的重要组成部分。鉴于单架无人机在续航能力、广域侦察搜索等方面的局限性，多架无人机协同组成无人机集群执行任务成为当前无人机作战应用的重要模式。如今，若将无人机联合无人车、无人船等机动单元组成跨域异构机器集群，则该集群具有明显的规模优势、协同优势等，可有效提高任务完成的可靠性。然而，实现跨域异构集群高效协同的首要问题是如何科学合理地为跨域异构集群进行路径规划。

常用的路径规划算法有动态规划法、人工势场法、A*算法、遗传算法等。然而，上述路径规划仅适用于单智能体的路径规划，不一定适用于同构、异构、甚至跨域异构组成的多智能体机器集群。因此，发明一种能够适用于跨域异构集群的路径规划方法是很有必要的。

发明内容

针对现有路径规划方法的局限性，本发明基于强化学习，提出了一种能够适用于跨域异构集群的路径规划方法。只要集群个体具备相关的传感器，即能通过本发明的方法实现路径规划。该方法下，来自空域、海域、陆域等域的不同航行器可以共同地进行路径规划，从而实现“跨域异构路径规划”。

本发明通过添加集群的特征作为个体观测输入，并通过面向集群路径规划而设定的奖励函数，使得跨域的集群个体能够在保持安全距离的前提下，进行路径规划。本发明构建了跨域异构集群机动的马尔科夫决策过程和奖励函数，利用多智能体确定性策略算法(Multi-agent Deep Deterministic Policy Gradient，MADDPG)求解集群个体机动策略，从而实现跨域异构集群的路径规划。

具体包括以下步骤：

步骤1：确定跨域集群个体策略网络的状态变量、动作变量；状态变量作为个体的策略网络的输入，其输出的动作变量是个体在当前时刻采取的机动动作；所述状态变量包括跨域集群的特征；

步骤2：利用MADDPG框架建立跨域异构集群个体的“策略网络-Q网络”组合，并设置神经网络点数、学习率，初始化神经网络的参数；

步骤3：构建用于训练的经验缓存池：

根据状态变量、动作变量确定马尔科夫决策过程为<O,A,R,γ>；

其中O是个体状态变量观测，A是个体状态变量输入策略网络后输出的动作变量，R是个体奖励值，γ是折扣因子；

构建的经验回放元组为经验回放元组为

其中，

是跨域异构集群所有个体在t时刻的联合状态变量观测，由跨域异构集群内所有个体状态变量观测联结而成；

是跨域异构集群所有个体在t时刻的联合机动动作变量，由跨域异构集群内所有个体机动动作变量联结而成；

是跨域异构集群在t时刻的奖励值，由各个个体的奖励值求和得到；

是跨域异构集群在t时刻根据联合观测

采取联合动作

后，在t+1时刻更新的群体观测状态变量；

个体在机动时，通过与环境交互生成对应经验回放元组，并储存在经验回放缓存池中；

步骤4：，从经验缓存池中随机抽样，得到若干条经验回放元组，对跨域异构集群个体的“策略网络-Q网络”组合进行训练：

其中Q网络的损失函数公式为L_Q＝MSE(R_j+γ*Q′_i(O′_j,A′_j)-Q_i(O_j,A_j))；

R_j是当前时刻的奖励值；γ是折扣因子；O_j,O′_j分别是集群的当前状态变量观测和下一时刻状态变量观测，是每个个体状态变量观测的合集；A_j,A′_j是在集群观测分别为O_j,O′_j的前提下，每个个体策略网络根据自身的状态变量观测而输出的策略动作的联合；Q_i,Q′_i是集群个体i在当前时刻和下一时刻输出的Q估计值，其中，Q_i是O_j,A_j作为个体i的Q网络的输入时，对应Q网络的输出值，Q_i′是O_j′,A_j′作为个体i的Q网络的输入时，对应Q网络的输出值；MSE()是对括号值求解均方差误差值，带有梯度信息；

根据误差值L_Q，采用梯度回传方法，对每个个体的Q网络参数值进行更新；

策略网络π的损失函数公式为L_π＝-MSE(Q_i(O_j,A_j))；

根据误差值L_π，采用梯度回传方法，对每个个体的策略网络π的网络参数进行更新；

步骤5：利用训练得到的每个个体的策略网络对跨域异构集群进行路径规划。

进一步的，面对不同应用场景时，通过调整学习率、神经网络点数，训练得到对应场景下的策略网络模型，在实际使用阶段，根据具体的应用场景，采用相应的策略网络模型对跨域异构集群进行路径规划。

进一步的，所述状态变量由个体速度矢量、个体经纬度、目标方位、障碍物相对方位集合、其他个体相对方位集合构成的向量。

进一步的，各个个体的奖励值由集群个体与目标距离的奖励值、集群个体避开障碍物的奖励值、集群个体到达目标后的奖励值以及集群个体之间保持安全距离的奖励值求和得到。

进一步的，R_dis是集群个体与目标距离的奖励函数，计算方式如下：

其中，k是修正系数；

分别是个体i的经度，纬度；

分别是个体i路径规划目标的经度，纬度；

R_avo是集群个体避开障碍物的奖励函数，计算方式如下：

对于集群个体i和障碍区域中心j：

其中，

分别是个体i的经度，纬度；

分别是第j个障碍区域中心的经度，纬度；d_i是个体i的安全航行半径，个体航行时，其与任何障碍物的距离都应大于安全航行半径；

R_arr是集群个体到达目标后的奖励函数，计算方式如下：

其中，

分别是个体i的经度，纬度；

分别是个体i路径规划目标的经度，纬度。

R_eva是确保集群个体之间保持安全距离的奖励函数，计算方式如下：

其中，D表示集群个体与其他个体之间距离的集合，D_safe表示集群内设定的安全距离。

有益效果

与现有技术相比，本发明具有以下优点：

(1)本发明在已经适用于单智能体、同构机器集群、异构机器集群路径规划的前提下，还适用于跨域异构组成的机器集群的路径规划任务。

(2)将本发明的技术应用于路径规划任务时，不需要感知障碍物的半径大小，只需要感知障碍物的中心经纬度，算法即能够引导跨域异构集群自主远离障碍物。

(3)将本发明的技术应用于路径规划任务时，可以通过修改安全距离的大小，使得集群在宏观上显示为稀疏或密集。

(4)本发明通过构建虚拟力引导集群个体进行机动，通过策略网络输出一个虚拟力的方向作为机动方向，符合跨域异构集群的不同机动马力性质。

(5)本发明考虑了障碍物可能存在的静态、动态两种位置更新特性。

本发明的附加方面和优点将在下面的描述中部分给出，部分将从下面的描述中变得明显，或通过本发明的实践了解到。

附图说明

本发明的上述和/或附加的方面和优点从结合下面附图对实施例的描述中将变得明显和容易理解，其中：

图1是MADDPG的算法训练框图；

图2是跨域异构集群个体观测获取示意图；

图3是跨域异构集群个体路径规划具体实施流程图。

具体实施方式

本发明通过添加集群的特征作为个体观测输入，并通过面向集群路径规划而设定的奖励函数，能够对于来自空域、海域、陆域等域的不同航行器在保持安全距离的前提下，共同地进行路径规划。具体步骤为：

步骤1：确定跨域集群个体策略网络的状态变量、动作变量、集群个体间的安全距离。

对于跨域集群中的个体i而言，状态变量O_i由图2所示的方式获取，是由个体速度矢量、个体经纬度、目标方位、障碍物相对方位集合、其他个体相对方位集合构成的向量。

将状态变量作为策略网络的输入，其输出的动作变量A_i是集群个体i在当前时刻应采取的机动动作，鉴于集群的跨域异构特性，机动能力存在差异，个体机动速度应不大于个体的最大机动速度。

集群个体间的安全距离是确保集群个体之间保持安全距离的参数，用于步骤(3)中奖励函数的计算。

步骤2：设定合适的神经网络隐藏层节点数，并依此初始化航行器运动策略网络π、Q网络的神经网络参数。跨域异构集群中有多少航行器个体，就初始化多少组“策略网络-Q网络”的组合。设定合适的学习率。

步骤3：在训练阶段，对集群中各个个体根据集群机动目标确定奖励函数，如下：

R＝R_dis+R_avo+R_arr+R_eva

其中，R是奖励函数，由R_dis,R_avo,R_arr,R_eva四部分求和组成。R_dis是集群个体与目标距离的奖励函数，计算方式如下：

其中，k是修正系数；

分别是个体i的经度，纬度；

分别是个体i路径规划目标的经度，纬度。

R_avo是集群个体避开静态、动态障碍物的奖励函数，计算方式如下：

对于集群个体i和障碍区域中心j：

其中，

分别是个体i的经度，纬度；

分别是第j个障碍区域中心的经度，纬度；d_i是个体i的安全航行半径，个体航行时，其与任何障碍物的距离都应大于安全航行半径。

R_arr是集群个体关于到达目标后的奖励函数，计算方式如下：

其中，

分别是个体i的经度，纬度；

分别是个体i路径规划目标的经度，纬度。

其中，D表示集群个体与其他个体之间距离的集合，D_safe表示集群内设定的安全距离。步骤4：根据状态变量、动作变量确定马尔科夫决策过程，如下：

<O,A,R,γ>

其中，O是个体状态变量观测，A是个体状态变量输入策略网络后输出的动作变量，均已在步骤1中提及；R是根据奖励函数计算的个体奖励值，其计算方式如步骤3所示；γ是折扣因子，取值范围γ∈[0,1]。

经验回放元组如下：

其中，

是跨域异构集群所有个体在t时刻的联合状态变量观测，由异构集群内所有个体状态变量观测联结而成；

是跨域异构集群所有个体在t时刻的联合机动动作变量，由异构集群内所有个体机动动作变量联结而成；

是跨域异构集群在t时刻的奖励值，各个个体的计算方式如步骤3所示，各个个体的奖励值求和得到异构集群整体的奖励值。集群内所有个体共享的奖励值相等，这样确保了在训练完成后，航行器会彼此保持安全距离，并在远离障碍物的前提下，共同完成路径规划；

是集群在t时刻根据联合观测

采取联合动作

后，在t+1时刻更新的群体观测状态变量。

在训练阶段，个体在机动时，通过与环境交互生成对应经验回放元组，并被储存在经验回放缓存池中。经验回放缓存池用于存储采集的经验回放元组，经验回放元组用于步骤5的训练。

步骤5：常规的MADDPG框架如图1所示，本发明在如图1所示的训练框架下进行训练。每次训练，从经验缓存池中随机抽样，得到若干条经验回放元组。对抽样的元组进行堆叠，得到当前时刻观测的集合，当前动作策略的集合，当前时刻的奖励值集合，以及下一时刻观测的集合。

训练框架中，Q网络的损失函数公式如下：

L_Q＝MSE(R_j+γ*Q′_i(O′_j,A′_j)-Q_i(O_j,A_j))

其中，R_j是当前时刻的奖励值；γ是折扣因子；O_j,O′_j分别是集群的当前状态变量观测和下一时刻状态变量观测，是每个个体状态变量观测的合集；A_j,A′_j是在集群观测分别为O_j,O′_j的前提下，每个个体策略网络根据自身的状态变量观测而输出的策略动作的联合；Q_i,Q′_i是集群个体i在当前时刻和下一时刻输出的Q估计值，其中，Q_i是由O_j,A_j作为个体i的Q网络的输入时，对应Q网络的输出值，Q_i′是由O_j′,A_j′作为个体i的Q网络的输入时，对应Q网络的输出值。MSE()是对括号值求解均方差误差值，带有梯度信息。由误差值L_Q，根据常规的梯度回传的方法，对每个个体的神经网络Q网络参数值进行更新。每次训练，对每个个体的Q网络都进行如上的参数更新。

策略网络π的损失函数公式如下：

L_π＝-MSE(Q_i(O_j,A_j))

由误差值L_π，根据传统的梯度回传的方法，对每个个体的策略网络π的网络参数进行更新。每次训练，对每个个体的策略网络π进行如上的参数更新。

步骤6：当面对不同应用场景时，可以通过调整学习率、神经网络隐藏层节点数等超参数，进行训练得到对应场景下的策略网络模型。

步骤7：在实际使用阶段，根据具体的应用场景，采用相应的策略网络模型对跨域异构集群进行路径规划。

下面给出具体的仿真算例：

仿真环境下，参数设置方面，设定集群规模为N，包括M艘无人船，T台无人机，满足N＝M+T。安全距离D_safe应根据地图场景大小进行设定。神经网络方面，全部使用三层全连接层神经网络，隐藏节点数为64，三层全连接网络均使用RELU激活函数，学习率为0.001，使用Adam优化器。

按发明内容进行训练。

训练完毕后，不再使用Q网络，而仅使用个体策略网络π进行路径规划：

对个体i，按图2所示，整合个体自身的速度、自身的经纬度、目标的相对方位、所有威胁区域中心(障碍物)的相对方位、集群内其他个体相对方位、集群内其他个体相对距离等信息，作为策略网络π的输入，得到的输出值作为机动动作，进行机动。

对集群内每个个体i，策略网络输出一个方向Act，是一个速度矢量。个体i的位置按如下公式进行更新：

其中，

分别是个体i的经度，纬度，Act_x,Act_y分别是Act个体i在经度和纬度方向上的分速度，应满足航行器运动约束，如下：

Act_x ²+Act_y ²＝Act²

||Act||≤P_i

其中，P_i是个体i的最大机动速度，由于跨域异构内成员个体机动能力互不相同，应各自满足其运动约束。

整个路径规划流程如图3所示。

尽管上面已经示出和描述了本发明的实施例，可以理解的是，上述实施例是示例性的，不能理解为对本发明的限制，本领域的普通技术人员在不脱离本发明的原理和宗旨的情况下在本发明的范围内可以对上述实施例进行变化、修改、替换和变型。

Claims

1.一种基于强化学习的跨域异构集群路径规划方法，其特征在于：包括以下步骤：

步骤3：构建用于训练的经验缓存池：

根据状态变量、动作变量确定马尔科夫决策过程为<O,A,R,γ>；

构建的经验回放元组为经验回放元组为

其中，

是跨域异构集群在t时刻根据联合观测

采取联合动作

后，在t+1时刻更新的群体观测状态变量；

R_j是当前时刻的奖励值；γ是折扣因子；O_j,O′_j分别是集群的当前状态变量观测和下一时刻状态变量观测，是每个个体状态变量观测的合集；A_j,A′_j是在集群观测分别为O_j,O′_j的前提下，每个个体策略网络根据自身的状态变量观测而输出的策略动作的联合；Q_i,Q′_i是集群个体i在当前时刻和下一时刻输出的Q估计值，其中，Q_i是O_j,A_j作为个体i的Q网络的输入时，对应Q网络的输出值，Q′_i是O′_j,A′_j作为个体i的Q网络的输入时，对应Q网络的输出值；MSE()是对括号值求解均方差误差值，带有梯度信息；

策略网络π的损失函数公式为L_π＝-MSE(Q_i(O_j,A_j))；

2.根据权利要求1所述一种基于强化学习的跨域异构集群路径规划方法，其特征在于：面对不同应用场景时，通过调整学习率、神经网络点数，训练得到对应场景下的策略网络模型，在实际使用阶段，根据具体的应用场景，采用相应的策略网络模型对跨域异构集群进行路径规划。

3.根据权利要求1所述一种基于强化学习的跨域异构集群路径规划方法，其特征在于：所述状态变量由个体速度矢量、个体经纬度、目标方位、障碍物相对方位集合、其他个体相对方位集合构成的向量。

4.根据权利要求1所述一种基于强化学习的跨域异构集群路径规划方法，其特征在于：各个个体的奖励值由集群个体与目标距离的奖励值、集群个体避开障碍物的奖励值、集群个体到达目标后的奖励值以及集群个体之间保持安全距离的奖励值求和得到。

5.根据权利要求4所述一种基于强化学习的跨域异构集群路径规划方法，其特征在于：R_dis是集群个体与目标距离的奖励函数，计算方式如下：