CN110631596B - 一种基于迁移学习的装备车辆路径规划方法 - Google Patents
一种基于迁移学习的装备车辆路径规划方法 Download PDFInfo
- Publication number
- CN110631596B CN110631596B CN201910327893.3A CN201910327893A CN110631596B CN 110631596 B CN110631596 B CN 110631596B CN 201910327893 A CN201910327893 A CN 201910327893A CN 110631596 B CN110631596 B CN 110631596B
- Authority
- CN
- China
- Prior art keywords
- parameter
- planning
- network
- data
- road
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G01—MEASURING; TESTING
- G01C—MEASURING DISTANCES, LEVELS OR BEARINGS; SURVEYING; NAVIGATION; GYROSCOPIC INSTRUMENTS; PHOTOGRAMMETRY OR VIDEOGRAMMETRY
- G01C21/00—Navigation; Navigational instruments not provided for in groups G01C1/00 - G01C19/00
- G01C21/26—Navigation; Navigational instruments not provided for in groups G01C1/00 - G01C19/00 specially adapted for navigation in a road network
- G01C21/34—Route searching; Route guidance
- G01C21/3446—Details of route searching algorithms, e.g. Dijkstra, A*, arc-flags, using precalculated routes
-
- G—PHYSICS
- G01—MEASURING; TESTING
- G01C—MEASURING DISTANCES, LEVELS OR BEARINGS; SURVEYING; NAVIGATION; GYROSCOPIC INSTRUMENTS; PHOTOGRAMMETRY OR VIDEOGRAMMETRY
- G01C21/00—Navigation; Navigational instruments not provided for in groups G01C1/00 - G01C19/00
- G01C21/26—Navigation; Navigational instruments not provided for in groups G01C1/00 - G01C19/00 specially adapted for navigation in a road network
- G01C21/34—Route searching; Route guidance
- G01C21/3453—Special cost functions, i.e. other than distance or default speed limit of road segments
-
- G—PHYSICS
- G01—MEASURING; TESTING
- G01C—MEASURING DISTANCES, LEVELS OR BEARINGS; SURVEYING; NAVIGATION; GYROSCOPIC INSTRUMENTS; PHOTOGRAMMETRY OR VIDEOGRAMMETRY
- G01C21/00—Navigation; Navigational instruments not provided for in groups G01C1/00 - G01C19/00
- G01C21/26—Navigation; Navigational instruments not provided for in groups G01C1/00 - G01C19/00 specially adapted for navigation in a road network
- G01C21/34—Route searching; Route guidance
- G01C21/3453—Special cost functions, i.e. other than distance or default speed limit of road segments
- G01C21/3461—Preferred or disfavoured areas, e.g. dangerous zones, toll or emission zones, intersections, manoeuvre types, segments such as motorways, toll roads, ferries
Landscapes
- Engineering & Computer Science (AREA)
- Radar, Positioning & Navigation (AREA)
- Remote Sensing (AREA)
- Automation & Control Theory (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Traffic Control Systems (AREA)
- Navigation (AREA)
Abstract
本发明属于车辆的路径规划技术领域,具体是一种基于迁移学习的装备车辆路径规划方法。包括以下步骤,S1~获取装备车辆的基础数据,S2~获取规划时间及规划目标;S3~获取静态规划环境数据,S4~获取装备车辆行驶数据,S5~利用DDPG算法构建路径规划模型,S7~获取动态规划环境的参数变化数据;S8~构建动态规划环境域;S9~微调深度神经网络的参数,S10~将训练好的网络参数作为路径规划算法的输入,通过实时获取战中的地形、情报数据,不停调整规划策略,生成装备车辆的路径规划结果。S11~通过不同战中动态规划环境可得到不同战场环境的路径规划结果,将路径规划结果及其对应的网络训练参数作为历史样本。
Description
技术领域
本发明属于车辆的路径规划技术领域,具体是一种基于迁移学习的装备车辆路径规划方法。
背景技术
装备车辆的路径规划问题一直在被学者研究,从简单的静态路网规划到复杂场景下的动态规划,路径规划的模型算法不断改进升级。装备车辆的路径规划不仅考虑装备车辆自身约束,包括装备长、宽、承重、转弯半径、涉水能力、越障能力、爬坡能力的固有约束,而且考虑复杂场景,尤其是战时多变的地形、气象环境对路径规划问题的约束,需要通过多种因素及匹配参数来控制输出合理路径。基于深度强化学习的DDPG算法能够很好的解决静态环境下基于多约束的路径规划问题,如何通过自主学习自动处理变换战时环境的动态路径规划问题,是本领域预解决的问题。
传统的路径规划算法,例如A*算法、D*算法、人工势场法、RRT算法,仅从已有拓扑结构的地图中,依据路径权重规划目标路径。然而,就装备车辆的路径规划而言,需要根据装备车辆、地形、气象多种约束进行路径规划,DDPG算法能够通过深度神经网络对路径规划算法进行预训练,得到静态环境下装备行驶所需的最优参数。
在实际的战中机动规划系统中,面临的战场环境多为动态变化的环境,不仅战中地形对装备车辆行驶影响较大,敌火力封锁区、核生化污染区的建立、销毁会导致装备车辆改道的可能。此时静态的DDPG算法由于预训练需要耗费大量时间,难以满足战中情况随时突发、计划临机改变的实时性要求。
发明内容
本发明为了解决上述问题,提供一种基于迁移学习的装备车辆路径规划方法。
本发明采取以下技术方案:一种基于迁移学习的装备车辆路径规划方法,包括以下步骤,
S1~获取装备车辆的基础数据,包括装备车辆的长、宽、高以及承重基础参数。
S2~获取规划时间及规划目标;战中行军设置有最晚到达时间,通过不同的规划目标,包括地表距离最短、时间最短、风险最小以及油耗最少,逆推通过各关键点的时间点及可休息时间,进而计算装备车辆的最晚出发时间。
S3~获取静态规划环境数据,包括影响装备车辆行驶的地表数据、地形数据以及气象数据。
S4~获取装备车辆行驶数据,基于已获取的地表地形数据以及特定气象数据,获取相应装备车辆的行驶数据,包括载重行驶速度、转弯半径、越障高度以及爬坡能力,为路径规划的每一路段的代价距离计算做数据准备;
S5~利用DDPG算法构建路径规划模型,通过装备车辆基础数据、规划时间及规划目标、静态规划环境数据、装备车辆行驶数据建立路径规划代价函数,利用深度神经网络的预训练得到代价函数中各约束条件的参数。
S6~构建静态规划环境域,环境域即实地的栅格地图;
S7~获取动态规划环境的参数变化数据;通过战场情报相关传感器将地形、气象、路况检测数据回传指挥控制系统,实时检测地形参数q地,气象条件参数q气,敌火力干扰下安全通行参数q敌,第i个路段的风险参数Ri,路况参数q路况,路段载重参数q载重的变化。
S8~构建动态规划环境域;在静态规划环境域的基础上,通过步骤S7中获取的动态规划环境的变化数据进行实时修改,从而构建动态规划环境域;
S9~微调深度神经网络的参数,遍历深度神经网络,确定发生变化的数据相应的参数,通过人在回路的方式微调网络参数,为辅助指挥员网络调参,各参数依据相应数据变化范围迭代递增或递减。
S10~将训练好的网络参数:地形参数q地,气象条件参数q气,装备车辆破障能力参数q破,敌火力干扰下安全通行参数q敌,第i个路段的风险参数Ri,路况参数q路况,路段载重参数q载重作为路径规划算法的输入,动态调用DDPG规划算法,通过实时获取战中的地形、情报数据,不停调整规划策略,生成装备车辆的路径规划结果。
S11~通过不同战中动态规划环境可得到不同战场环境的路径规划结果,将路径规划结果及其对应的网络训练参数作为历史样本,作为静态规划环境下网络训练的测试数据,提高战场环境下路径规划的规划速度。
所述的步骤S2中装备车辆的最晚出发时间计算方法如下,
其中,Tstart表示装备车辆的最晚出发时间,Tarrival表示装备车辆的最晚到达时间,Trelax表示n个关键点中各关键点的休息时间,Sm表示第m段道路的代价距离,Vm表示第m段道路上装备车辆的平均行驶速度。
所述的步骤S5采取以下方法,
不同规划目标的代价函数goal(Dmin,Tmin,Rmin,Umin)建立如下:
a)地表距离最短目标:
b)时间最短目标:
式中,Vi = v标×q地×q气×q破×q敌,0≤q地≤1, 0≤q气≤1, 0≤q破≤1, 0≤q敌≤1;
其中:D i,i+1,n>1,为某路径上的第i个节点到第i+1个节点间的距离,n为路径上的节点个数,Vi为第i个路段的平均机动速度;v标为在理想标准条件下的机动速度,q地为地形系数,q气为气象条件系数,q破为机动部队破障能力系数,q敌为敌火力干扰下安全程度系数。
c) 风险最小目标:
其中:D i,i+1,n>1,为某路径上的第i个节点到第i+1个节点间的距离,n为路径上的节点个数,Ri为第i个路段的风险系数。
d)油耗最少目标:
Ui = u标×q地×q气×q路况×q载重,0≤q地≤1,0≤q气≤1,0≤q路况≤1,0≤q载重≤1。
其中:u标为理想标准条件下的每公里耗油量,q路况为路况系数,q地为地形系数,q气为气象条件系数,q载重为路段载重系数。
深度神经网络预训练的参数为地形参数q地,气象条件参数q气,装备车辆破障能力参数q破,敌火力干扰下安全通行参数q敌,第i个路段的风险参数Ri,路况参数q路况,路段载重参数q载重。
DDPG算法主要让装备车辆学习在动态环境中学习如何搜索下一步路径节点(act),从而得到最小的目标路径代价,通过卷积神经网络构建策略网络和Q网络,然后使用深度学习的方法来训练策略网络和Q网络。
其中,确定性行为策略u:定义为一个车辆行驶策略函数,上坡upx、下坡downx、左转lx、右转rx、直行gd、倒车rd,每一步的策略可通过at=u(st)计算获得,st是t时刻关于地形参数q地,气象条件参数q气,敌火力干扰下安全通行参数q敌,第i个路段的风险参数Ri,路况参数q路况,路段载重参数q载重的函数。
策略函数:策略网络即使用卷积神经网络对策略函数进行模拟,参数为t时刻的地形参数q地,气象条件参数q气,敌火力干扰下安全通行参数q敌,第i个路段的风险参数Ri,路况参数q路况,路段载重参数q载重,上坡upx、下坡downx、左转lx、右转rx、直行gd、倒车rd。
Q函数:Q网络即使用卷积神经网络对Q函数进行模拟,参数为t时刻的地形参数q地,气象条件参数q气,敌火力干扰下安全通行参数q敌,第i个路段的风险参数Ri,路况参数q路况,路段载重参数q载重;
训练的目标:最小化目标代价函数,即最小化Q网络的loss。
基于此,DDPG分别为策略网络、Q网络各创建两个神经网络拷贝(online和target网络),在基于一个静态战场环境域下训练策略网络、Q网络中online网络参数,再通过战场情报软件传回的参数更新策略网络、Q网络中target网络的参数。由于动态战场环境中,target网络参数变化小,用于训练过程中计算online网络的梯度变化。
具体训练流程如下:
1)初始化Actor\critic的online网络参数,包括地形参数q地,气象条件参数q气,敌火力干扰下安全通行参数q敌,第i个路段的风险参数Ri,路况参数q路况,路段载重参数q载重,上坡upx、下坡downx、左转lx、右转rx、直行gd、倒车rd;
2)将online网络的参数拷贝给对应的target网络参数;
3)初始化一个记忆缓存数据集Xst;
4)针对每一个状态时刻t:
5)装备车辆在st状态下根据online策略u选择一种策略at;
6)根据装备车辆选择的策略at返回相应的目标代价值goal及装备车辆新的状态st+1;
7)装备车辆将此状态st,at,goalt,st+1存入记忆缓存数据集Xst中,作为训练online网络的数据集;
8)从记忆缓存数据集Xst中随机采样N个迁移数据作为online策略网络、onlineQ网络的一组训练数据,其中si,ai,goali,si+1是一组训练数据中的单个迁移数据;
9)计算Q网络t时刻的目标代价函数goalt及其标签Yst;
10)根据战场情报软件获取的参数变化更新网络参数。
与现有技术相比,本发明从几个方面比较分析了静态规划场景和动态规划场景的相似性。
1)在动态规划环境域中,当地表地形环境不随时间的推荐发生变化时,动态场景退化为静态规划场景;
2)在动态规划环境域中,气象数据发生的变化不足以影响装备车辆行驶参数时,动态场景沿用静态规划场景学习的知识数据;
3)在动态规划环境域中,当装备车辆行驶区域与发生变化的地表地形空间距离较远时,装备车辆周围的自由空间在动态和静态场景下基本保持一致。
4)基于DDPG 的路径规划方法,输入是每一帧的图像,输出是规划的路径,所以静态规划和动态规划在每一帧的处理算法上本质是相同的,动态场景可以理解为静态场景和动态目标的叠加。
静态环境和动态环境存在相似性,动态环境是以静态环境为基础,并且装备无人机在静态环境中学习到的知识可以迁移到动态环境,而知识存在是深度神经网络之中,因此,本文将静态模型的网络参数迁移到动态模型,帮助其更好地完成学习动态路径规划。
附图说明
图1为基于迁移学习的装备车辆路径规划方法流程图;
图2为DDPG规划示意图;
图3为装备车辆路径规划结果截图。
具体实施方式
一种基于迁移学习的装备车辆路径规划方法,包括以下步骤,
S1~获取装备车辆的基础数据,包括装备车辆的长、宽、高以及承重基础参数。
S2~获取规划时间及规划目标;战中行军设置有最晚到达时间,通过不同的规划目标,包括地表距离最短、时间最短、风险最小以及油耗最少,逆推通过各关键点的时间点及可休息时间,进而计算装备车辆的最晚出发时间。
S3~获取静态规划环境数据,包括影响装备车辆行驶的地表数据、地形数据以及气象数据。
S4~获取装备车辆行驶数据,基于已获取的地表地形数据以及特定气象数据,获取相应装备车辆的行驶数据,包括载重行驶速度、转弯半径、越障高度以及爬坡能力,为路径规划的每一路段的代价距离计算做数据准备;
S5~利用DDPG算法构建路径规划模型,通过装备车辆基础数据、规划时间及规划目标、静态规划环境数据、装备车辆行驶数据建立路径规划代价函数,利用深度神经网络的预训练得到代价函数中各约束条件的参数。
S6~构建静态规划环境域,环境域即实地的栅格地图;
S7~获取动态规划环境的参数变化数据;通过战场情报相关传感器将地形、气象、路况检测数据回传指挥控制系统,实时检测地形参数q地,气象条件参数q气,敌火力干扰下安全通行参数q敌,第i个路段的风险参数Ri,路况参数q路况,路段载重参数q载重的变化。
S8~构建动态规划环境域;在静态规划环境域的基础上,通过步骤S7中获取的动态规划环境的变化数据进行实时修改,从而构建动态规划环境域;
S9~微调深度神经网络的参数,遍历深度神经网络,确定发生变化的数据相应的参数,通过人在回路的方式微调网络参数,为辅助指挥员网络调参,各参数依据相应数据变化范围迭代递增或递减。
S10~将训练好的网络参数:地形参数q地,气象条件参数q气,装备车辆破障能力参数q破,敌火力干扰下安全通行参数q敌,第i个路段的风险参数Ri,路况参数q路况,路段载重参数q载重作为路径规划算法的输入,动态调用DDPG规划算法,通过实时获取战中的地形、情报数据,不停调整规划策略,生成装备车辆的路径规划结果。
S11~通过不同战中动态规划环境可得到不同战场环境的路径规划结果,将路径规划结果及其对应的网络训练参数作为历史样本,作为静态规划环境下网络训练的测试数据,提高战场环境下路径规划的规划速度。
所述的步骤S2中装备车辆的最晚出发时间计算方法如下,
其中,Tstart表示装备车辆的最晚出发时间,Tarrival表示装备车辆的最晚到达时间,Trelax表示n个关键点中各关键点的休息时间,Sm表示第m段道路的代价距离,Vm表示第m段道路上装备车辆的平均行驶速度。
所述的步骤S5采取以下方法,
不同规划目标的代价函数goal(Dmin,Tmin,Rmin,Umin)建立如下:
a)地表距离最短目标:
b)时间最短目标:
式中,Vi = v标×q地×q气×q破×q敌,0≤q地≤1, 0≤q气≤1, 0≤q破≤1, 0≤q敌≤1;
其中:D i,i+1,n>1,为某路径上的第i个节点到第i+1个节点间的距离,n为路径上的节点个数,Vi为第i个路段的平均机动速度;v标为在理想标准条件下的机动速度,q地为地形系数,q气为气象条件系数,q破为机动部队破障能力系数,q敌为敌火力干扰下安全程度系数。
c) 风险最小目标:
其中:D i,i+1,n>1,为某路径上的第i个节点到第i+1个节点间的距离,n为路径上的节点个数,Ri为第i个路段的风险系数。
d)油耗最少目标:
Ui = u标×q地×q气×q路况×q载重,0≤q地≤1,0≤q气≤1,0≤q路况≤1,0≤q载重≤1。
其中:u标为理想标准条件下的每公里耗油量,q路况为路况系数,q地为地形系数,q气为气象条件系数,q载重为路段载重系数。
深度神经网络预训练的参数为地形参数q地,气象条件参数q气,装备车辆破障能力参数q破,敌火力干扰下安全通行参数q敌,第i个路段的风险参数Ri,路况参数q路况,路段载重参数q载重。
DDPG算法主要让装备车辆学习在动态环境中学习如何搜索下一步路径节点(act),从而得到最小的目标路径代价,通过卷积神经网络构建策略网络和Q网络,然后使用深度学习的方法来训练策略网络和Q网络。
其中,确定性行为策略u:定义为一个车辆行驶策略函数,上坡upx、下坡downx、左转lx、右转rx、直行gd、倒车rd,每一步的策略可通过at=u(st)计算获得,st是t时刻关于地形参数q地,气象条件参数q气,敌火力干扰下安全通行参数q敌,第i个路段的风险参数Ri,路况参数q路况,路段载重参数q载重的函数。
策略函数:策略网络即使用卷积神经网络对策略函数进行模拟,参数为t时刻的地形参数q地,气象条件参数q气,敌火力干扰下安全通行参数q敌,第i个路段的风险参数Ri,路况参数q路况,路段载重参数q载重,上坡upx、下坡downx、左转lx、右转rx、直行gd、倒车rd。
Q函数:Q网络即使用卷积神经网络对Q函数进行模拟,参数为t时刻的地形参数q地,气象条件参数q气,敌火力干扰下安全通行参数q敌,第i个路段的风险参数Ri,路况参数q路况,路段载重参数q载重;
训练的目标:最小化目标代价函数,即最小化Q网络的loss。
基于此,DDPG分别为策略网络、Q网络各创建两个神经网络拷贝(online和target网络),在基于一个静态战场环境域下训练策略网络、Q网络中online网络参数,再通过战场情报软件传回的参数更新策略网络、Q网络中target网络的参数。由于动态战场环境中,target网络参数变化小,用于训练过程中计算online网络的梯度变化。
具体训练流程如下:
1)初始化Actor\critic的online网络参数,包括地形参数q地,气象条件参数q气,敌火力干扰下安全通行参数q敌,第i个路段的风险参数Ri,路况参数q路况,路段载重参数q载重,上坡upx、下坡downx、左转lx、右转rx、直行gd、倒车rd;
2)将online网络的参数拷贝给对应的target网络参数;
3)初始化一个记忆缓存数据集Xst;
4)针对每一个状态时刻t:
5)装备车辆在st状态下根据online策略u选择一种策略at;
6)根据装备车辆选择的策略at返回相应的目标代价值goal及装备车辆新的状态st+1;
7)装备车辆将此状态st,at,goalt,st+1存入记忆缓存数据集Xst中,作为训练online网络的数据集;
8)从记忆缓存数据集Xst中随机采样N个迁移数据作为online策略网络、onlineQ网络的一组训练数据,其中si,ai,goali,si+1是一组训练数据中的单个迁移数据;
9)计算Q网络t时刻的目标代价函数goalt及其标签Yst;
10)根据战场情报软件获取的参数变化更新网络参数。
Claims (3)
1.一种基于迁移学习的装备车辆路径规划方法,其特征在于:包括以下步骤,
S1~获取装备车辆的基础数据,包括装备车辆的长、宽、高以及承重基础参数;
S2~获取规划时间及规划目标;战中行军设置有最晚到达时间,通过不同的规划目标,包括地表距离最短、时间最短、风险最小以及油耗最少,逆推通过各关键点的时间点及可休息时间,进而计算装备车辆的最晚出发时间;
S3~获取静态规划环境数据,包括影响装备车辆行驶的地表数据、地形数据以及气象数据;
S4~获取装备车辆行驶数据,基于已获取的地表地形数据以及特定气象数据,获取相应装备车辆的行驶数据,包括载重行驶速度、转弯半径、越障高度以及爬坡能力,为路径规划的每一路段的代价距离计算做数据准备;
S5~利用DDPG算法构建路径规划模型,通过装备车辆基础数据、规划时间及规划目标、静态规划环境数据、装备车辆行驶数据建立路径规划代价函数,利用深度神经网络的预训练得到代价函数中各约束条件的参数;
S6~构建静态规划环境域,环境域即实地的栅格地图;
S7~获取动态规划环境的参数变化数据;通过战场情报相关传感器将地形、气象、路况检测数据回传指挥控制系统,实时检测地形参数q地,气象条件参数q气,敌火力干扰下安全通行参数q敌,第i个路段的风险参数Ri,路况参数q路况,路段载重参数q载重的变化;
S8~构建动态规划环境域;在静态规划环境域的基础上,通过步骤S7中获取的动态规划环境的变化数据进行实时修改,从而构建动态规划环境域;
S9~微调深度神经网络的参数,遍历深度神经网络,确定发生变化的数据相应的参数,通过人在回路的方式微调网络参数,为辅助指挥员网络调参,各参数依据相应数据变化范围迭代递增或递减;
S10~将训练好的网络参数:地形参数q地,气象条件参数q气,装备车辆破障能力参数q破,敌火力干扰下安全通行参数q敌,第i个路段的风险参数Ri,路况参数q路况,路段载重参数q载重作为路径规划算法的输入,动态调用DDPG规划算法,通过实时获取战中的地形、情报数据,不停调整规划策略,生成装备车辆的路径规划结果;
S11~通过不同战中动态规划环境可得到不同战场环境的路径规划结果,将路径规划结果及其对应的网络训练参数作为历史样本,作为静态规划环境下网络训练的测试数据,提高战场环境下路径规划的规划速度。
3.根据权利要求2所述的基于迁移学习的装备车辆路径规划方法,其特征在于:所述的步骤S5采取以下方法,
不同规划目标的代价函数goal(Dmin,Tmin,Rmin,Umin)建立如下:
a)地表距离最短目标:
b)时间最短目标:
式中,Vi = v标×q地×q气×q破×q敌,0≤q地≤1, 0≤q气≤1, 0≤q破≤1, 0≤q敌≤1;
其中:D i,i+1,n>1,为某路径上的第i个节点到第i+1个节点间的距离,n为路径上的节点个数,Vi为第i个路段的平均机动速度;v标为在理想标准条件下的机动速度,q地为地形修正系数,q气为气象条件修正系数,q破为机动部队破障能力修正系数,q敌为敌火力干扰下安全程度修正系数;
c) 风险最小目标:
其中:D i,i+1,n>1,为某路径上的第i个节点到第i+1个节点间的距离,n为路径上的节点个数,Ri为第i个路段的风险系数;
d)油耗最少目标:
Ui = u标×q地×q气×q路况×q载重,0≤q地≤1,0≤q气≤1,0≤q路况≤1,0≤q载重≤1;
其中:u标为理想标准条件下的每公里耗油量,q路况为路况修正系数,q地为地形修正系数,q气为气象条件修正系数,q载重为路段载重修正系数;
深度神经网络预训练的参数为地形参数q地,气象条件参数q气,装备车辆破障能力参数q破,敌火力干扰下安全通行参数q敌,第i个路段的风险参数Ri,路况参数q路况,路段载重参数q载重;
DDPG算法中,
确定性行为策略u:定义为一个车辆行驶策略函数,上坡upx、下坡downx、左转lx、右转rx、直行gd、倒车rd,每一步的策略可通过at=u(st)计算获得,st是t时刻关于地形参数q地,气象条件参数q气,敌火力干扰下安全通行参数q敌,第i个路段的风险参数Ri,路况参数q路况,路段载重参数q载重的函数;
策略函数:策略网络即使用卷积神经网络对策略函数进行模拟,参数为t时刻的地形参数q地,气象条件参数q气,敌火力干扰下安全通行参数q敌,第i个路段的风险参数Ri,路况参数q路况,路段载重参数q载重,上坡upx、下坡downx、左转lx、右转rx、直行gd、倒车rd;
Q函数:Q网络即使用卷积神经网络对Q函数进行模拟,参数为t时刻的地形参数q地,气象条件参数q气,敌火力干扰下安全通行参数q敌,第i个路段的风险参数Ri,路况参数q路况,路段载重参数q载重;
训练的目标:最小化目标代价函数,即最小化Q网络的loss;
基于此,DDPG分别为策略网络、Q网络各创建两个神经网络拷贝,online网络和target网络,在基于一个静态战场环境域下训练策略网络、Q网络中online网络参数,再通过战场情报软件传回的参数更新策略网络、Q网络中target网络的参数, target网络参数变化小,用于训练过程中计算online网络的梯度变化;
具体训练流程如下:
1)初始化Actor\critic的online网络参数,包括地形参数q地,气象条件参数q气,敌火力干扰下安全通行参数q敌,第i个路段的风险参数Ri,路况参数q路况,路段载重参数q载重,上坡upx、下坡downx、左转lx、右转rx、直行gd、倒车rd;
2)将online网络的参数拷贝给对应的target网络参数;
3)初始化一个记忆缓存数据集Xst;
4)针对每一个状态时刻t:
5)装备车辆在st状态下根据online策略u选择一种策略at;
6)根据装备车辆选择的策略at返回相应的目标代价值goal及装备车辆新的状态st+1;
7)装备车辆将此状态st,at,goalt,st+1存入记忆缓存数据集Xst中,作为训练online网络的数据集;
8)从记忆缓存数据集Xst中随机采样N个迁移数据作为online策略网络、onlineQ网络的一组训练数据,其中si,ai,goali,si+1是一组训练数据中的单个迁移数据;
9)计算Q网络t时刻的目标代价函数goalt及其标签Yst;
10)根据战场情报软件获取的参数变化更新网络参数。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910327893.3A CN110631596B (zh) | 2019-04-23 | 2019-04-23 | 一种基于迁移学习的装备车辆路径规划方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910327893.3A CN110631596B (zh) | 2019-04-23 | 2019-04-23 | 一种基于迁移学习的装备车辆路径规划方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110631596A CN110631596A (zh) | 2019-12-31 |
CN110631596B true CN110631596B (zh) | 2020-06-02 |
Family
ID=68968236
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910327893.3A Active CN110631596B (zh) | 2019-04-23 | 2019-04-23 | 一种基于迁移学习的装备车辆路径规划方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110631596B (zh) |
Families Citing this family (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111216132A (zh) * | 2020-01-21 | 2020-06-02 | 桂林电子科技大学 | 基于改进rrt算法的六自由度机械臂路径规划方法 |
CN111487864B (zh) * | 2020-05-14 | 2023-04-18 | 山东师范大学 | 一种基于深度强化学习的机器人路径导航方法及系统 |
CN111882474B (zh) * | 2020-06-22 | 2023-09-01 | 北京九曜智能科技有限公司 | 一种用于自动驾驶车辆集群调度的fds功能设计方法 |
WO2022006873A1 (en) * | 2020-07-10 | 2022-01-13 | Beijing Didi Infinity Technology And Development Co., Ltd. | Vehicle repositioning on mobility-on-demand platforms |
CN112819253A (zh) * | 2021-03-02 | 2021-05-18 | 华东师范大学 | 一种无人机避障和路径规划装置及方法 |
CN112948603B (zh) * | 2021-03-08 | 2023-05-05 | 北方自动控制技术研究所 | 一种基于迁移学习的运输投送知识问答方法 |
CN113625718B (zh) * | 2021-08-12 | 2023-07-21 | 上汽大众汽车有限公司 | 车辆的行驶路径规划方法 |
CN114355917B (zh) * | 2021-12-27 | 2023-11-21 | 广州极飞科技股份有限公司 | 超参确定方法、路径规划方法、装置、电子设备和可读存储介质 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105137967A (zh) * | 2015-07-16 | 2015-12-09 | 北京工业大学 | 一种深度自动编码器与q学习算法相结合的移动机器人路径规划方法 |
CN107065881A (zh) * | 2017-05-17 | 2017-08-18 | 清华大学 | 一种基于深度强化学习的机器人全局路径规划方法 |
CN108021754A (zh) * | 2017-12-06 | 2018-05-11 | 北京航空航天大学 | 一种无人机自主空战决策框架及方法 |
CN109249393A (zh) * | 2018-09-12 | 2019-01-22 | 中国人民解放军国防科技大学 | 一种基于经验控制的多参数机器人实时行为校正方法 |
-
2019
- 2019-04-23 CN CN201910327893.3A patent/CN110631596B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105137967A (zh) * | 2015-07-16 | 2015-12-09 | 北京工业大学 | 一种深度自动编码器与q学习算法相结合的移动机器人路径规划方法 |
CN107065881A (zh) * | 2017-05-17 | 2017-08-18 | 清华大学 | 一种基于深度强化学习的机器人全局路径规划方法 |
CN108021754A (zh) * | 2017-12-06 | 2018-05-11 | 北京航空航天大学 | 一种无人机自主空战决策框架及方法 |
CN109249393A (zh) * | 2018-09-12 | 2019-01-22 | 中国人民解放军国防科技大学 | 一种基于经验控制的多参数机器人实时行为校正方法 |
Non-Patent Citations (4)
Title |
---|
3D Convolutional Neural Networks for Human Action Recognition;Shuiwang Ji等;《IEEE TRANSACTIONS ON PATTERN ANALIYSIS AND MACHINE INTELLIGENCE》;20130131;第35卷(第1期);221-231 * |
Continuous control with deep reinforcement learning;Timothy P.Lillicrap等;《Published ans a conference paper at ICLR 2016》;20161231;1-14 * |
基于3D CNN-DDPG端到端无人驾驶控制;李国豪等;《电子设计工程》;20181130;第26卷(第22期);156-159,168 * |
基于DDPG的无人车智能避障方法研究;徐国艳等;《汽车工程》;20190228;第41卷(第2期);206-212 * |
Also Published As
Publication number | Publication date |
---|---|
CN110631596A (zh) | 2019-12-31 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110631596B (zh) | 一种基于迁移学习的装备车辆路径规划方法 | |
CN112099496B (zh) | 一种自动驾驶训练方法、装置、设备及介质 | |
WO2021135554A1 (zh) | 一种无人车全局路径规划方法和装置 | |
CN105526942B (zh) | 基于威胁估计的智能车辆路径规划方法 | |
CN112230678B (zh) | 基于粒子群算法的三维无人机路径规划方法及规划系统 | |
CN109947136B (zh) | 一种面向无人机群体快速目标搜索的协同主动感知方法 | |
CN108303982A (zh) | 自动引导运输车、其控制方法及控制系统 | |
CN113065709B (zh) | 一种基于强化学习的跨域异构集群路径规划方法 | |
CN113386790B (zh) | 一种面向跨海大桥路况的自动驾驶决策方法 | |
CN112256037B (zh) | 应用于自动驾驶的控制方法、装置、电子设备及介质 | |
CN114859932A (zh) | 基于强化学习的探索方法、装置和智能设备 | |
CN103218660A (zh) | 一种基于泛化模糊竞争神经网的航路选择方法 | |
CN116476863A (zh) | 基于深度强化学习的自动驾驶横纵向一体化决策方法 | |
CN114228690B (zh) | 一种基于ddpg和迭代控制的自动驾驶车辆侧倾控制方法 | |
CN114384916A (zh) | 一种越野车路径规划的自适应决策方法及系统 | |
CN111310919B (zh) | 基于场景切分和局部路径规划的驾驶控制策略训练方法 | |
CN116161056A (zh) | 一种基于强化学习的结构化道路车辆轨迹规划方法与系统 | |
CN114609925B (zh) | 水下探索策略模型的训练方法及仿生机器鱼水下探索方法 | |
CN113110550B (zh) | 一种基于强化学习与网络模型蒸馏的无人机飞行控制方法 | |
CN112319468B (zh) | 维持路肩间距的无人驾驶车道保持方法 | |
CN115107948A (zh) | 一种采用内部激励信号与学习经验复用的高效强化学习自主船舶避碰方法 | |
Gao | Autonomous soaring and surveillance in wind fields with an unmanned aerial vehicle | |
CN113867332B (zh) | 一种无人车自学习控制方法、装置、设备及可读存储介质 | |
CN114384929B (zh) | 一种基于偏差优化启发式算法的无人集群编队控制方法 | |
CN116412831B (zh) | 面向应召反潜的多无人机动态避障航路规划方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |