CN110631596B

CN110631596B - 一种基于迁移学习的装备车辆路径规划方法

Info

Publication number: CN110631596B
Application number: CN201910327893.3A
Authority: CN
Inventors: 张昊; 孙玉洁; 张勇; 张聪姗
Original assignee: Taiyuan University of Technology
Current assignee: Taiyuan University of Technology
Priority date: 2019-04-23
Filing date: 2019-04-23
Publication date: 2020-06-02
Anticipated expiration: 2039-04-23
Also published as: CN110631596A

Abstract

本发明属于车辆的路径规划技术领域，具体是一种基于迁移学习的装备车辆路径规划方法。包括以下步骤，S1～获取装备车辆的基础数据，S2～获取规划时间及规划目标；S3～获取静态规划环境数据，S4～获取装备车辆行驶数据，S5～利用DDPG算法构建路径规划模型，S7～获取动态规划环境的参数变化数据；S8～构建动态规划环境域；S9～微调深度神经网络的参数，S10～将训练好的网络参数作为路径规划算法的输入，通过实时获取战中的地形、情报数据，不停调整规划策略，生成装备车辆的路径规划结果。S11～通过不同战中动态规划环境可得到不同战场环境的路径规划结果，将路径规划结果及其对应的网络训练参数作为历史样本。

Description

一种基于迁移学习的装备车辆路径规划方法

技术领域

本发明属于车辆的路径规划技术领域，具体是一种基于迁移学习的装备车辆路径规划方法。

背景技术

装备车辆的路径规划问题一直在被学者研究，从简单的静态路网规划到复杂场景下的动态规划，路径规划的模型算法不断改进升级。装备车辆的路径规划不仅考虑装备车辆自身约束，包括装备长、宽、承重、转弯半径、涉水能力、越障能力、爬坡能力的固有约束，而且考虑复杂场景，尤其是战时多变的地形、气象环境对路径规划问题的约束，需要通过多种因素及匹配参数来控制输出合理路径。基于深度强化学习的DDPG算法能够很好的解决静态环境下基于多约束的路径规划问题，如何通过自主学习自动处理变换战时环境的动态路径规划问题，是本领域预解决的问题。

传统的路径规划算法，例如A^*算法、D^*算法、人工势场法、RRT算法，仅从已有拓扑结构的地图中，依据路径权重规划目标路径。然而，就装备车辆的路径规划而言，需要根据装备车辆、地形、气象多种约束进行路径规划，DDPG算法能够通过深度神经网络对路径规划算法进行预训练，得到静态环境下装备行驶所需的最优参数。

在实际的战中机动规划系统中，面临的战场环境多为动态变化的环境，不仅战中地形对装备车辆行驶影响较大，敌火力封锁区、核生化污染区的建立、销毁会导致装备车辆改道的可能。此时静态的DDPG算法由于预训练需要耗费大量时间，难以满足战中情况随时突发、计划临机改变的实时性要求。

发明内容

本发明为了解决上述问题，提供一种基于迁移学习的装备车辆路径规划方法。

本发明采取以下技术方案：一种基于迁移学习的装备车辆路径规划方法，包括以下步骤，

S1～获取装备车辆的基础数据，包括装备车辆的长、宽、高以及承重基础参数。

S2～获取规划时间及规划目标；战中行军设置有最晚到达时间，通过不同的规划目标，包括地表距离最短、时间最短、风险最小以及油耗最少，逆推通过各关键点的时间点及可休息时间，进而计算装备车辆的最晚出发时间。

S3～获取静态规划环境数据，包括影响装备车辆行驶的地表数据、地形数据以及气象数据。

S4～获取装备车辆行驶数据，基于已获取的地表地形数据以及特定气象数据，获取相应装备车辆的行驶数据，包括载重行驶速度、转弯半径、越障高度以及爬坡能力，为路径规划的每一路段的代价距离计算做数据准备；

S5～利用DDPG算法构建路径规划模型，通过装备车辆基础数据、规划时间及规划目标、静态规划环境数据、装备车辆行驶数据建立路径规划代价函数，利用深度神经网络的预训练得到代价函数中各约束条件的参数。

S6～构建静态规划环境域，环境域即实地的栅格地图；

S7～获取动态规划环境的参数变化数据；通过战场情报相关传感器将地形、气象、路况检测数据回传指挥控制系统，实时检测地形参数q_地，气象条件参数q_气，敌火力干扰下安全通行参数q_敌，第i个路段的风险参数R_i，路况参数q_路况，路段载重参数q_载重的变化。

S8～构建动态规划环境域；在静态规划环境域的基础上，通过步骤S7中获取的动态规划环境的变化数据进行实时修改，从而构建动态规划环境域；

S9～微调深度神经网络的参数，遍历深度神经网络，确定发生变化的数据相应的参数，通过人在回路的方式微调网络参数，为辅助指挥员网络调参，各参数依据相应数据变化范围迭代递增或递减。

S10～将训练好的网络参数：地形参数q_地，气象条件参数q_气，装备车辆破障能力参数q_破，敌火力干扰下安全通行参数q_敌，第i个路段的风险参数R_i，路况参数q_路况，路段载重参数q_载重作为路径规划算法的输入，动态调用DDPG规划算法，通过实时获取战中的地形、情报数据，不停调整规划策略，生成装备车辆的路径规划结果。

S11～通过不同战中动态规划环境可得到不同战场环境的路径规划结果，将路径规划结果及其对应的网络训练参数作为历史样本，作为静态规划环境下网络训练的测试数据，提高战场环境下路径规划的规划速度。

所述的步骤S2中装备车辆的最晚出发时间计算方法如下，

其中，T_start表示装备车辆的最晚出发时间，T_arrival表示装备车辆的最晚到达时间，T_relax表示n个关键点中各关键点的休息时间，S_m表示第m段道路的代价距离，V_m表示第m段道路上装备车辆的平均行驶速度。

所述的步骤S5采取以下方法，

不同规划目标的代价函数goal（D_min，T_min，R_min，U_min）建立如下：

a)地表距离最短目标：

计算公式：D_min= min(

)_所有路径，其中：D_i，i+1，n>1，为某路径上的第i个节点到第i+1个节点间的距离，n为路径上的节点个数；

b)时间最短目标：

计算公式：T_min= min(

)_所有路径；

式中，V_i = v_标×q_地×q_气×q_破×q_敌，0≤q_地≤1, 0≤q_气≤1, 0≤q_破≤1, 0≤q_敌≤1；

其中：D_i，i+1，n>1，为某路径上的第i个节点到第i+1个节点间的距离，n为路径上的节点个数，V_i为第i个路段的平均机动速度；v_标为在理想标准条件下的机动速度，q_地为地形系数，q_气为气象条件系数，q_破为机动部队破障能力系数，q_敌为敌火力干扰下安全程度系数。

c) 风险最小目标：

计算公式：R_min= min(

×R_i)_所有路径；

其中：D_i，i+1，n>1，为某路径上的第i个节点到第i+1个节点间的距离，n为路径上的节点个数，R_i为第i个路段的风险系数。

d)油耗最少目标：

计算公式：U_min= min(

×U_i)_所有路径；

U_i = u_标×q_地×q_气×q_路况×q_载重，0≤q_地≤1,0≤q_气≤1,0≤q_路况≤1,0≤q_载重≤1。

其中：u_标为理想标准条件下的每公里耗油量，q_路况为路况系数，q_地为地形系数，q_气为气象条件系数，q_载重为路段载重系数。

深度神经网络预训练的参数为地形参数q_地，气象条件参数q_气，装备车辆破障能力参数q_破，敌火力干扰下安全通行参数q_敌，第i个路段的风险参数R_i，路况参数q_路况，路段载重参数q_载重。

DDPG算法主要让装备车辆学习在动态环境中学习如何搜索下一步路径节点（act），从而得到最小的目标路径代价，通过卷积神经网络构建策略网络和Q网络，然后使用深度学习的方法来训练策略网络和Q网络。

其中，确定性行为策略u：定义为一个车辆行驶策略函数，上坡upx、下坡downx、左转lx、右转rx、直行gd、倒车rd，每一步的策略可通过a_t=u（s_t）计算获得，s_t是t时刻关于地形参数q_地，气象条件参数q_气，敌火力干扰下安全通行参数q_敌，第i个路段的风险参数R_i，路况参数q_路况，路段载重参数q_载重的函数。

策略函数：策略网络即使用卷积神经网络对策略函数进行模拟，参数为t时刻的地形参数q_地，气象条件参数q_气，敌火力干扰下安全通行参数q_敌，第i个路段的风险参数R_i，路况参数q_路况，路段载重参数q_载重，上坡upx、下坡downx、左转lx、右转rx、直行gd、倒车rd。

Q函数：Q网络即使用卷积神经网络对Q函数进行模拟，参数为t时刻的地形参数q_地，气象条件参数q_气，敌火力干扰下安全通行参数q_敌，第i个路段的风险参数R_i，路况参数q_路况，路段载重参数q_载重；

训练的目标：最小化目标代价函数，即最小化Q网络的loss。

基于此，DDPG分别为策略网络、Q网络各创建两个神经网络拷贝（online和target网络），在基于一个静态战场环境域下训练策略网络、Q网络中online网络参数，再通过战场情报软件传回的参数更新策略网络、Q网络中target网络的参数。由于动态战场环境中，target网络参数变化小，用于训练过程中计算online网络的梯度变化。

具体训练流程如下：

1）初始化Actor\critic的online网络参数，包括地形参数q_地，气象条件参数q_气，敌火力干扰下安全通行参数q_敌，第i个路段的风险参数R_i，路况参数q_路况，路段载重参数q_载重，上坡upx、下坡downx、左转lx、右转rx、直行gd、倒车rd；

2）将online网络的参数拷贝给对应的target网络参数；

3）初始化一个记忆缓存数据集Xs_t；

4）针对每一个状态时刻t：

5）装备车辆在s_t状态下根据online策略u选择一种策略a_t；

6）根据装备车辆选择的策略a_t返回相应的目标代价值goal及装备车辆新的状态s_t+1；

7）装备车辆将此状态s_t，a_t，goal_t，s_t+1存入记忆缓存数据集Xs_t中，作为训练online网络的数据集；

8）从记忆缓存数据集Xs_t中随机采样N个迁移数据作为online策略网络、onlineQ网络的一组训练数据，其中s_i，a_i，goal_i，s_i+1是一组训练数据中的单个迁移数据；

9）计算Q网络t时刻的目标代价函数goal_t及其标签Ys_t；

10）根据战场情报软件获取的参数变化更新网络参数。

与现有技术相比，本发明从几个方面比较分析了静态规划场景和动态规划场景的相似性。

1）在动态规划环境域中，当地表地形环境不随时间的推荐发生变化时，动态场景退化为静态规划场景；

2）在动态规划环境域中，气象数据发生的变化不足以影响装备车辆行驶参数时，动态场景沿用静态规划场景学习的知识数据；

3）在动态规划环境域中，当装备车辆行驶区域与发生变化的地表地形空间距离较远时，装备车辆周围的自由空间在动态和静态场景下基本保持一致。

4）基于DDPG 的路径规划方法，输入是每一帧的图像，输出是规划的路径，所以静态规划和动态规划在每一帧的处理算法上本质是相同的，动态场景可以理解为静态场景和动态目标的叠加。

静态环境和动态环境存在相似性，动态环境是以静态环境为基础，并且装备无人机在静态环境中学习到的知识可以迁移到动态环境，而知识存在是深度神经网络之中，因此，本文将静态模型的网络参数迁移到动态模型，帮助其更好地完成学习动态路径规划。

附图说明

图1为基于迁移学习的装备车辆路径规划方法流程图；

图2为DDPG规划示意图；

图3为装备车辆路径规划结果截图。

具体实施方式

一种基于迁移学习的装备车辆路径规划方法，包括以下步骤，

S6～构建静态规划环境域，环境域即实地的栅格地图；

所述的步骤S2中装备车辆的最晚出发时间计算方法如下，

所述的步骤S5采取以下方法，

a)地表距离最短目标：

计算公式：D_min= min(

b)时间最短目标：

计算公式：T_min= min(

)_所有路径；

c) 风险最小目标：

计算公式：R_min= min(

×R_i)_所有路径；

d)油耗最少目标：

计算公式：U_min= min(

×U_i)_所有路径；

训练的目标：最小化目标代价函数，即最小化Q网络的loss。

具体训练流程如下：

2）将online网络的参数拷贝给对应的target网络参数；

3）初始化一个记忆缓存数据集Xs_t；

4）针对每一个状态时刻t：

5）装备车辆在s_t状态下根据online策略u选择一种策略a_t；

9）计算Q网络t时刻的目标代价函数goal_t及其标签Ys_t；

10）根据战场情报软件获取的参数变化更新网络参数。

Claims

1.一种基于迁移学习的装备车辆路径规划方法，其特征在于：包括以下步骤，

S1～获取装备车辆的基础数据，包括装备车辆的长、宽、高以及承重基础参数；

S2～获取规划时间及规划目标；战中行军设置有最晚到达时间，通过不同的规划目标，包括地表距离最短、时间最短、风险最小以及油耗最少，逆推通过各关键点的时间点及可休息时间，进而计算装备车辆的最晚出发时间；

S3～获取静态规划环境数据，包括影响装备车辆行驶的地表数据、地形数据以及气象数据；

S5～利用DDPG算法构建路径规划模型，通过装备车辆基础数据、规划时间及规划目标、静态规划环境数据、装备车辆行驶数据建立路径规划代价函数，利用深度神经网络的预训练得到代价函数中各约束条件的参数；

S6～构建静态规划环境域，环境域即实地的栅格地图；

S7～获取动态规划环境的参数变化数据；通过战场情报相关传感器将地形、气象、路况检测数据回传指挥控制系统，实时检测地形参数q_地，气象条件参数q_气，敌火力干扰下安全通行参数q_敌，第i个路段的风险参数R_i，路况参数q_路况，路段载重参数q_载重的变化；

S9～微调深度神经网络的参数，遍历深度神经网络，确定发生变化的数据相应的参数，通过人在回路的方式微调网络参数，为辅助指挥员网络调参，各参数依据相应数据变化范围迭代递增或递减；

S10～将训练好的网络参数：地形参数q_地，气象条件参数q_气，装备车辆破障能力参数q_破，敌火力干扰下安全通行参数q_敌，第i个路段的风险参数R_i，路况参数q_路况，路段载重参数q_载重作为路径规划算法的输入，动态调用DDPG规划算法，通过实时获取战中的地形、情报数据，不停调整规划策略，生成装备车辆的路径规划结果；

2.根据权利要求1所述的基于迁移学习的装备车辆路径规划方法，其特征在于：所述的步骤S2中装备车辆的最晚出发时间计算方法如下，

3.根据权利要求2所述的基于迁移学习的装备车辆路径规划方法，其特征在于：所述的步骤S5采取以下方法，

a)地表距离最短目标：

计算公式：D_min= min(

b)时间最短目标：

计算公式：T_min= min(

)_所有路径；

其中：D_i，i+1，n>1，为某路径上的第i个节点到第i+1个节点间的距离，n为路径上的节点个数，V_i为第i个路段的平均机动速度；v_标为在理想标准条件下的机动速度，q_地为地形修正系数，q_气为气象条件修正系数，q_破为机动部队破障能力修正系数，q_敌为敌火力干扰下安全程度修正系数；

c) 风险最小目标：

计算公式：R_min= min(

×R_i)_所有路径；

其中：D_i，i+1，n>1，为某路径上的第i个节点到第i+1个节点间的距离，n为路径上的节点个数，R_i为第i个路段的风险系数；

d)油耗最少目标：

计算公式：U_min= min(

×U_i)_所有路径；

U_i = u_标×q_地×q_气×q_路况×q_载重，0≤q_地≤1,0≤q_气≤1,0≤q_路况≤1,0≤q_载重≤1；

其中：u_标为理想标准条件下的每公里耗油量，q_路况为路况修正系数，q_地为地形修正系数，q_气为气象条件修正系数，q_载重为路段载重修正系数；

深度神经网络预训练的参数为地形参数q_地，气象条件参数q_气，装备车辆破障能力参数q_破，敌火力干扰下安全通行参数q_敌，第i个路段的风险参数R_i，路况参数q_路况，路段载重参数q_载重；

DDPG算法中，

确定性行为策略u：定义为一个车辆行驶策略函数，上坡upx、下坡downx、左转lx、右转rx、直行gd、倒车rd，每一步的策略可通过a_t=u（s_t）计算获得，s_t是t时刻关于地形参数q_地，气象条件参数q_气，敌火力干扰下安全通行参数q_敌，第i个路段的风险参数R_i，路况参数q_路况，路段载重参数q_载重的函数；

策略函数：策略网络即使用卷积神经网络对策略函数进行模拟，参数为t时刻的地形参数q_地，气象条件参数q_气，敌火力干扰下安全通行参数q_敌，第i个路段的风险参数R_i，路况参数q_路况，路段载重参数q_载重，上坡upx、下坡downx、左转lx、右转rx、直行gd、倒车rd；

训练的目标：最小化目标代价函数，即最小化Q网络的loss；

基于此，DDPG分别为策略网络、Q网络各创建两个神经网络拷贝，online网络和target网络，在基于一个静态战场环境域下训练策略网络、Q网络中online网络参数，再通过战场情报软件传回的参数更新策略网络、Q网络中target网络的参数， target网络参数变化小，用于训练过程中计算online网络的梯度变化；

具体训练流程如下：

2）将online网络的参数拷贝给对应的target网络参数；

3）初始化一个记忆缓存数据集Xs_t；

4）针对每一个状态时刻t：

5）装备车辆在s_t状态下根据online策略u选择一种策略a_t；

9）计算Q网络t时刻的目标代价函数goal_t及其标签Ys_t；

10）根据战场情报软件获取的参数变化更新网络参数。