CN116882607A - 一种基于路径规划任务的关键节点识别方法 - Google Patents
一种基于路径规划任务的关键节点识别方法 Download PDFInfo
- Publication number
- CN116882607A CN116882607A CN202310848313.1A CN202310848313A CN116882607A CN 116882607 A CN116882607 A CN 116882607A CN 202310848313 A CN202310848313 A CN 202310848313A CN 116882607 A CN116882607 A CN 116882607A
- Authority
- CN
- China
- Prior art keywords
- threat
- path planning
- model
- threat source
- source
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 70
- 230000009471 action Effects 0.000 claims abstract description 49
- 238000012549 training Methods 0.000 claims abstract description 37
- 230000008569 process Effects 0.000 claims abstract description 26
- 238000012545 processing Methods 0.000 claims abstract description 17
- 238000001514 detection method Methods 0.000 claims description 17
- 238000004458 analytical method Methods 0.000 claims description 6
- 239000011159 matrix material Substances 0.000 claims description 3
- 230000006870 function Effects 0.000 abstract description 45
- 230000002787 reinforcement Effects 0.000 abstract description 19
- 238000005457 optimization Methods 0.000 abstract description 6
- 238000010586 diagram Methods 0.000 description 6
- 238000005516 engineering process Methods 0.000 description 6
- 238000011156 evaluation Methods 0.000 description 4
- 238000013459 approach Methods 0.000 description 2
- 230000007613 environmental effect Effects 0.000 description 2
- 230000002452 interceptive effect Effects 0.000 description 2
- 230000009191 jumping Effects 0.000 description 2
- 238000000137 annealing Methods 0.000 description 1
- 230000006399 behavior Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 238000005259 measurement Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/04—Forecasting or optimisation specially adapted for administrative or management purposes, e.g. linear programming or "cutting stock problem"
- G06Q10/047—Optimisation of routes or paths, e.g. travelling salesman problem
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F17/00—Digital computing or data processing equipment or methods, specially adapted for specific functions
- G06F17/10—Complex mathematical operations
- G06F17/16—Matrix or vector computation, e.g. matrix-matrix or matrix-vector multiplication, matrix factorization
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N7/00—Computing arrangements based on specific mathematical models
- G06N7/01—Probabilistic graphical models, e.g. probabilistic networks
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Business, Economics & Management (AREA)
- Data Mining & Analysis (AREA)
- Mathematical Analysis (AREA)
- Computing Systems (AREA)
- Pure & Applied Mathematics (AREA)
- Mathematical Optimization (AREA)
- General Engineering & Computer Science (AREA)
- Human Resources & Organizations (AREA)
- Computational Mathematics (AREA)
- Strategic Management (AREA)
- Economics (AREA)
- Evolutionary Computation (AREA)
- Algebra (AREA)
- Artificial Intelligence (AREA)
- Marketing (AREA)
- Probability & Statistics with Applications (AREA)
- General Business, Economics & Management (AREA)
- Tourism & Hospitality (AREA)
- Quality & Reliability (AREA)
- Operations Research (AREA)
- Entrepreneurship & Innovation (AREA)
- Game Theory and Decision Science (AREA)
- Development Economics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Medical Informatics (AREA)
- Databases & Information Systems (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明公开了一种基于路径规划任务的关键节点识别方法,该方法包括:构建路径规划过程中的威胁源威胁总概率模型;构建路径规划网络模型,设置网络初始化参数信息和动作空间信息;所述路径规划网络模型包括第一路径规划网络模型和第二路径规划网络模型;对所述威胁源威胁总概率模型进行处理,得到无人机的状态空间信息和奖赏函数信息;利用所述无人机的动作空间信息、状态空间信息、奖赏函数信息和初始化参数信息,对所述路径规划网络模型进行训练,得到关键节点识别模型;利用所述关键节点识别模型进行干扰节点识别,得到关键节点。本发明使用强化学习识别关键节点,可以通过反复的试错和优化,获得最优策略,识别出最优关键节点。
Description
技术领域
本发明涉及强化学习技术领域,尤其涉及一种基于路径规划任务的关键节点识别方法。
背景技术
随着现代战争的发展,环境变得越来越复杂和多变,敌情难以预测,资源也变得更加紧缺。因此,在实际环境中进行关键节点识别,找出敌方作战的重点、弱点和瓶颈予以打击,或者找出我方重点、薄弱点给予重点保护,成为了指挥者和决策者必须面对的一项重要任务。
目前,主流的关键节点识别主要集中在网络科学领域,即基于网络拓扑结构已知的情况下对节点在网络中的地位进行分析,该研究方向涉及到的方法主要分为三类,一是基于网络拓扑结构的位置分布进行评估,其思想认为重要性等价于显著性,根据设定好的重要程度衡量指标计算所有节点在网络中的重要度;二是将节点的重要度定义为删除节点前后对网络整体特性带来的影响程度,其思想认为重要性等价于破坏性,根据评估删除前后设定网络效能的评估指标的差值大小去衡量节点的重要度;三是考虑将多个关键节点评判指标综合考虑,共同联合从各个方面对重要性进行评判,前两类方法只是从单一方面反映网络某些维度的特征。
现有的关键节点识别方法都是从网络拓扑结构出发,提出一些能代表目标节点在网络中关键程度的指标,通过一个或多个综合评估并识别关键节点。因此,关键节点识别其实是在能准确识别网络拓扑结构的前提下进行的,然而在真实环境中几乎不可能成立。
强化学习可以用于解决复杂的动态环境下的路径规划问题,如机器人导航、自动驾驶、无人机路径规划等。相对于传统的路径规划方法,强化学习不需要预先建立环境模型,可以自主学习环境的动态变化,根据当前的状态和奖励信号,动态调整行为策略,实现更加优化的路径规划。此外,强化学习可以通过反复试错和优化,获得最优策略,并且在合理的假设下,可以保证收敛到最优解。
发明内容
本发明所要解决的技术问题在于,提供一种基于路径规划任务的关键节点识别方法,在路径规划下评估目标体系中节点的重要程度,无需过多数据支撑,仅需目标节点的经纬度及探测能力信息,就可以通过评估路径规划的性能识别关键节点,相较获取网络拓扑结构更容易。针对强化学习中固有的试错特性,提出一种基于深度强化学习的人工势场优化方法(Artificial Potential Field-Dueling Double Deep Q Network,APF-D3QN)算法,可以避免强化学习前期进行的无用试错尝试。针对现有关键节点识别技术中,通过节点多属性评估节点重要度,无法落实到具体应用场景中进行关键节点的识别,导致关键节点识别准确性降低。本发明将关键节点的识别落实到路径规划任务中,并实现了路径规划过程和关键节点识别过程同时进行。
为了解决上述技术问题,本发明实施例公开了一种基于路径规划任务的关键节点识别方法,所述方法包括:
S1,构建路径规划过程中的威胁源威胁总概率模型;
S2,构建路径规划网络模型,设置网络初始化参数信息和动作空间信息;
所述路径规划网络模型包括第一路径规划网络模型和第二路径规划网络模型;
S3,对所述威胁源威胁总概率模型进行处理,得到无人机的状态空间信息和奖赏函数信息;
S4,利用所述无人机的动作空间信息、状态空间信息、奖赏函数信息和初始化参数信息,对所述路径规划网络模型进行训练,得到关键节点识别模型;
S5,利用所述关键节点识别模型进行干扰节点识别,得到关键节点。
作为一种可选的实施方式,本发明实施例中,所述构建路径规划过程中的威胁源威胁总概率模型,包括:
S11,构建路径规划过程中的探测预警雷达威胁概率模型;
S12,构建路径规划过程中的地形障碍威胁源概率模型;
S13,构建路径规划过程中的天气因素威胁源模型;
S14,对所述探测预警雷达威胁概率模型、地形障碍威胁源概率模型和天气因素威胁源模型进行处理,得到威胁源威胁总概率模型。
作为一种可选的实施方式,本发明实施例中,所述探测预警雷达威胁概率模型为:
其中,x0和y0分别为当前雷达的横纵坐标位置,R为当前雷达最远探测距离,单位为km,Lthreat为威胁指数,pxy为探测预警雷达威胁概率值,det()为求矩阵的行列式值,exp()为指数函数。
作为一种可选的实施方式,本发明实施例中,所述地形障碍威胁源概率模型为:
其中,pij为地形障碍威胁源概率值,hij为位置(i,j)处的地形障碍威胁源概率值,m和n分别为路径规划区域长和宽。
作为一种可选的实施方式,本发明实施例中,所述天气因素威胁源模型为:
其中,dmax为最大威胁区域,deff为有效威胁范围,d为无人机目标与天气区域中心距离,Pd为天气因素威胁源概率值。
作为一种可选的实施方式,本发明实施例中,所述威胁源威胁总概率模型为:
其中,P为威胁源威胁总概率值,P1为预警雷达威胁概率值,P2为地形障碍威胁源概率值,P3为天气因素威胁源概率值。
作为一种可选的实施方式,本发明实施例中,所述对所述威胁源威胁总概率模型进行处理,得到无人机的状态空间信息和奖赏函数信息,包括:
S31,设定无人机路径规划的区域范围和运动方式,利用状态空间信息分析模型,对所述威胁源威胁总概率模型进行处理,得到无人机的状态空间信息;
所述状态空间信息分析模型为:
其中,C为状态空间信息,Cmin为最小像素值,Cmax为最大像素值,Ps为无人机当前位置对应的威胁源威胁总概率值,Pmin为威胁源威胁总概率最小值,Pmax为威胁源威胁总概率最大值;
S32,对所述威胁源威胁总概率模型进行处理,得到奖赏函数信息;
所述奖赏函数信息包括第一奖赏函数信息和第二奖赏函数信息。
作为一种可选的实施方式,本发明实施例中,所述第一奖赏函数信息为:
其中,R1(s)为第一奖赏函数信息,α为威胁源的威胁系数,β为无人机航程代价系数,dlast和dnow分别为无人机上一时刻和当前时刻相较于目标点的距离,Ps为无人机当前位置对应的威胁源威胁总概率值;
所述第二奖赏函数信息为:
R2(s)=Ps(t-1)-Ps(t)
其中,Ps(t)和Ps(t-1)分别为当前时刻和上一时刻无人机位置对应的威胁源威胁总概率值。
作为一种可选的实施方式,本发明实施例中,所述利用所述无人机的动作空间信息、状态空间信息、奖赏函数信息和初始化参数信息,对所述路径规划网络模型进行训练,得到关键节点识别模型,包括:
S41、根据所述初始化参数信息进行环境初始化;
S42、在前100次观察训练轮数中,将无人机的初始位置随机摆放,根据所述动作空间信息和状态空间信息随机设置初始位置,每个回合结束后不进行网络参数的更新;
S43、当训练轮数处于100~2000之间时,利用预设的干扰节点选择策略进行动作选取,选择当前场景中的目标节点实施干扰,使其节点保持静默停止工作,并记录第二路径规划网络模型选取的动作:
S44、每个回合结束后,根据第二路径规划网络模型选取的动作,记录每一个回合中的关键节点;
S45,当训练轮数达到10000轮时,结束训练,得到关键节点识别模型。
作为一种可选的实施方式,本发明实施例中,所述利用所述关键节点识别模型进行干扰节点识别,得到关键节点,包括:
S51、对所述关键节点识别模型进行干扰节点识别,将每一轮episode选择次数最多的关键节点作为当前轮的关键节点,判断所述关键节点的选择是否收敛,若收敛转S52,若不收敛,修改奖赏函数信息,重新所述路径规划网络模型训练;
S52,将收敛后的被选择节点作为当前环境路径规划任务下的关键节点。
与现有技术相比,本发明实施例具有以下有益效果:
(1)目前的关键节点技术,大多数是从网络拓扑结构出发,提出一些能代表目标节点在网络中关键程度的指标,通过一个或多个综合评估并识别关键节点。因此,现有技术其实是在能准确识别网络拓扑结构的前提下进行的,然而在真实环境中几乎不可能成立。本发明无需在得到拓扑结构的前提即可识别出关键节点,另外现有关键节点识别技术主要是从网络结构方面反映出节点的关键程度,本发明是将关键节点识别落实到具体的任务场景中,而不是一些通用的评价指标,能够增加关键节点识别结果的准确性。
(2)针对目前的路径规划技术,本发明提出了一种基于深度强化学习的人工势场优化方法(Artificial Potential Field-Dueling Double Deep Q Network,APF-D3QN)算法,将强化学习模型与人工势场法结合,能够提升强化学习模型的收敛性,避免前期无用的试错尝试。
(3)本发明将关键节点识别过程和路径规划过程相结合,采用双D3QN网络进行训练,实现关键节点识别和路径规划同时进行,提升关键节点识别的实时性。此外,使用强化学习识别关键节点,可以通过反复的试错和优化,获得最优策略,识别出最优关键节点。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明实施例公开的一种基于路径规划任务的关键节点识别方法的流程示意图;
图2是本发明实施例公开的另一种基于路径规划任务的关键节点识别方法的流程示意图;
图3是本发明实施例公开的威胁源模型示意图;
图4是本发明实施例公开的D3QN网络结构图;
图5是本发明实施例公开的两个D3QN网络连接示意图;
图6是本发明实施例公开的强化学习训练流程图;
图7是本发明实施例公开的关键节点识别结果图。
具体实施方式
为了使本技术领域的人员更好地理解本发明方案,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别不同对象,而不是用于描述特定顺序。此外,术语“包括”和“具有”以及它们任何变形,意图在于覆盖不排他的包含。例如包含了一系列步骤或单元的过程、方法、装置、产品或设备没有限定于已列出的步骤或单元,而是可选地还包括没有列出的步骤或单元,或可选地还包括对于这些过程、方法、产品或设备固有的其他步骤或单元。
在本文中提及“实施例”意味着,结合实施例描述的特定特征、结构或特性可以包含在本发明的至少一个实施例中。在说明书中的各个位置出现该短语并不一定均是指相同的实施例,也不是与其它实施例互斥的独立的或备选的实施例。本领域技术人员显式地和隐式地理解的是,本文所描述的实施例可以与其它实施例相结合。
本发明公开了一种基于路径规划任务的关键节点识别方法,该方法包括:构建路径规划过程中的威胁源威胁总概率模型;构建路径规划网络模型,设置网络初始化参数信息和动作空间信息;所述路径规划网络模型包括第一路径规划网络模型和第二路径规划网络模型;对所述威胁源威胁总概率模型进行处理,得到无人机的状态空间信息和奖赏函数信息;利用所述无人机的动作空间信息、状态空间信息、奖赏函数信息和初始化参数信息,对所述路径规划网络模型进行训练,得到关键节点识别模型;利用所述关键节点识别模型进行干扰节点识别,得到关键节点。本发明使用强化学习识别关键节点,可以通过反复的试错和优化,获得最优策略,识别出最优关键节点。以下分别进行详细说明。
实施例一
请参阅图1,图1是本发明实施例公开的一种基于路径规划任务的关键节点识别方法的流程示意图。其中,图1所描述的基于路径规划任务的关键节点识别方法应用于无人机路径规划、强化学习技术的应用等领域,本发明实施例不做限定。如图1所示,该基于路径规划任务的关键节点识别方法可以包括以下操作:
S1,构建路径规划过程中的威胁源威胁总概率模型;
S2,构建路径规划网络模型,设置网络初始化参数信息和动作空间信息;
所述路径规划网络模型包括第一路径规划网络模型和第二路径规划网络模型;
S3,对所述威胁源威胁总概率模型进行处理,得到无人机的状态空间信息和奖赏函数信息;
S4,利用所述无人机的动作空间信息、状态空间信息、奖赏函数信息和初始化参数信息,对所述路径规划网络模型进行训练,得到关键节点识别模型;
S5,利用所述关键节点识别模型进行干扰节点识别,得到关键节点。
可选的,所述构建路径规划过程中的威胁源威胁总概率模型,包括:
S11,构建路径规划过程中的探测预警雷达威胁概率模型;
S12,构建路径规划过程中的地形障碍威胁源概率模型;
S13,构建路径规划过程中的天气因素威胁源模型;
S14,对所述探测预警雷达威胁概率模型、地形障碍威胁源概率模型和天气因素威胁源模型进行处理,得到威胁源威胁总概率模型。
可选的,所述探测预警雷达威胁概率模型为:
其中,x0和y0分别为当前雷达的横纵坐标位置,R为当前雷达最远探测距离,单位为km,Lthreat为威胁指数,pxy为探测预警雷达威胁概率值,det()为求矩阵的行列式值,exp()为指数函数。
可选的,所述地形障碍威胁源概率模型为:
其中,pij为地形障碍威胁源概率模型,hij为位置(i,j)处的地形障碍威胁源概率值,m和n分别为路径规划区域长和宽。
可选的,所述天气因素威胁源模型为:
其中,dmax为最大威胁区域,deff为有效威胁范围,d为无人机目标与天气区域中心距离,Pd为天气因素威胁源概率值。
可选的,所述威胁源威胁总概率模型为:
其中,P为威胁源威胁总概率值,P1为预警雷达威胁概率值,P2为地形障碍威胁源概率值,P3为天气因素威胁源概率值。
可选的,对所述威胁源威胁总概率模型进行改进,引入权重因子λj:
权重因子λj用于调整预警雷达威胁概率模型、地形障碍威胁源概率模型、天气因素威胁源模型的权重,根据不同的应用场景,可以选择不同的权重值,用于表征不同的环境特征。该权重可以通过大量实验获取,本发明不做限定。
可选的,所述对所述威胁源威胁总概率模型进行处理,得到无人机的状态空间信息和奖赏函数信息,包括:
S31,设定无人机路径规划的区域范围和运动方式,利用状态空间信息分析模型,对所述威胁源威胁总概率模型进行处理,得到无人机的状态空间信息;
所述状态空间信息分析模型为:
其中,C为状态空间信息,Cmin为最小像素值,Cmax为最大像素值,Ps为无人机当前位置对应的威胁源威胁总概率值,Pmin为威胁源威胁总概率最小值,Pmax为威胁源威胁总概率最大值;
S32,对所述威胁源威胁总概率模型进行处理,得到奖赏函数信息;
所述奖赏函数信息包括第一奖赏函数信息和第二奖赏函数信息。
可选的,所述第一奖赏函数信息为:
其中,R1(s)为第一奖赏函数信息,α为威胁源的威胁系数,β为无人机航程代价系数,dlast和dnow分别为无人机上一时刻和当前时刻相较于目标点的距离,Ps为无人机当前位置对应的威胁源威胁总概率值;
所述第二奖赏函数信息为:
R2(s)=Ps(t-1)-Ps(t)
其中,Ps(t)和Ps(t-1)分别为当前时刻和上一时刻无人机位置对应的威胁源威胁总概率值。
可选的,所述利用所述无人机的动作空间信息、状态空间信息、奖赏函数信息和初始化参数信息,对所述路径规划网络模型进行训练,得到关键节点识别模型,包括:
S41、根据所述初始化参数信息进行环境初始化;
S42、在前100次观察训练轮数中,将无人机的初始位置随机摆放,根据所述动作空间信息和状态空间信息随机设置初始位置,每个回合结束后不进行网络参数的更新;
S43、当训练轮数处于100~2000之间时,利用预设的干扰节点选择策略进行动作选取,选择当前场景中的目标节点实施干扰,使其节点保持静默停止工作,并记录第二路径规划网络模型选取的动作:
S44、每个回合结束后,根据第二路径规划网络模型选取的动作,记录每一个回合中的关键节点;
S45,当训练轮数达到10000轮时,结束训练,得到关键节点识别模型。
可选的,所述利用所述关键节点识别模型进行干扰节点识别,得到关键节点,包括:
S51、对所述关键节点识别模型进行干扰节点识别,将每一轮episode选择次数最多的关键节点作为当前轮的关键节点,判断所述关键节点的选择是否收敛,若收敛转S52,若不收敛,修改奖赏函数信息,调整奖赏函数中威胁系数和航程代价系数,重新所述路径规划网络模型训练;
判断所述关键节点的选择是否收敛的方法为判断去是否持续固定干扰某个节点,如果是,该关键节点的选择收敛;
所述修改奖赏函数信息为调整奖赏函数中威胁系数和航程代价系数;
S52,将收敛后的被选择节点作为当前环境路径规划任务下的关键节点。
实施例二
请参阅图2,图2是本发明实施例公开的另一种基于路径规划任务的关键节点识别方法的流程示意图。其中,图2所描述的基于路径规划任务的关键节点识别方法应用于无人机路径规划、强化学习技术的应用等领域,本发明实施例不做限定。如图2所示,该基于路径规划任务的关键节点识别方法可以包括以下操作:
S1、构建路径规划过程中威胁源威胁概率模型,生成威胁概率地图,如图3所示;
步骤S1包括以下分步骤:
S11、根据公式建立探测预警雷达威胁概率模型,其中/>Lthreat为威胁指数,x0和y0分别为当前雷达的横纵坐标位置,R为当前雷达最远探测距离,单位为km;
S12、根据公式建立地形障碍威胁源概率模型,其中采用了数字高程模型,通过将有限地形高程数据对地形起伏状态的数字化展现,将地形栅格化并使用一组有序数值矩阵的方式表示地形高程,其中,pij为地形障碍威胁源概率值,hij为位置(i,j)处的地形障碍威胁源概率值,m和n分别为路径规划区域长和宽。
S13、根据公式建立天气因素威胁源模型,其中dmax为最大威胁区域,deff为有效威胁范围,d为无人机目标与天气区域中心距离;
S14、针对以上建立的三种类型的威胁源,需要进行概率有机结合,采用概率相加的方式,例如环境中有n个威胁源,那么通过下式求出总威胁概率:
S2、构建网络结构,设计无人机的动作空间、状态空间、奖赏函数以及初始化参数;
步骤S2包括以下分步骤:
S21、将动作空间设计为两个维度,一是无人机运动的动作空间,为了简化无人机在栅格化空间内的动作,设计了八个动作构成无人机运动动作空间,八个动作编号0,1…7分别代表北方,东北…西北方向;二是无人机干扰节点的动作空间,十个动作编号0,1…9分别代表干扰节点id为1,为2…为10的节点;
S22、路径规划的区域范围在30°N~35°N,103°E~108°E,为方便计算,将路径规划区域栅格化为500×500的正方形区域,每一方格近似于1km长度,并且将规划环境设置为某一水平高度平面,只考虑无人机的水平运动;
将S1中得到的概率威胁地图中每一个威胁概率值通过转换为RGB通道像素值,设置最小像素值Cmin=0,最大像素值Cmax=255,得到态势图表示无人机的状态;
S23、奖赏函数同样设计为两个维度,一是用于无人机躲避探测雷达的探测空域以及促进无人机接近目的地,结合传统人工势场法中引力势场的思想,将奖赏函数设计为非离散函数:
其中α为威胁源的威胁系数,β为无人机航程代价系数,dlast和dnow分别为无人机上一时刻的当前时刻相较于目标点的距离,Ps为无人机当前位置对应的威胁概率值;二是用于无人机在路径规划过程中干扰节点的选择,将奖赏函数设计为:
R2(s)=Ps(t-1)-Ps(t)
其中Ps(t)和Ps(t-1)分别为当前时刻和上一时刻无人机位置对应的威胁概率值。
S24、初始化参数,将总训练轮数设置为10000,观察轮数为100,探索轮数为2000,每轮最大步数设置为1000,经验池大小为50000,batch size为32,在线网络学习率为0.0001,折扣因子为0.972,网络参数更新频率为8,目标网络更新率为0.001,初始贪婪因子为1,最终贪婪因子为0.1;
构建D3QN的网络结构,如图4所示,输入为84×84×12的四帧RGB图像,前四层网络全是卷积层卷积核大小分别为8、4、3和7,步长分别为4,2,1,1,每层卷积层后设有Relu函数;第五层为大小为256的全连接层,最后设有大小分别为1和动作空间大小的全连接层,分别为了估计优势函数和状态价值函数。一共设有D3QN网络,分别为了估计两个不同维度的动作,具体两个网络的结合方式如图5所示;
图5中,本发明提出的APF-D3QN作为第一个网络,当前状态state1作为输入,网络输出为无人机飞行方位的动作选择,执行动作与环境交互得到两个输出,一是无人机选择该方向后的奖励值reward1,作为反馈返回到APF-D3QN网络中进行训练并更新网络参数,二是新状态state2,其作为第二个网络的输入;第二个网络输出无人机干扰节点id的动作选择,并执行动作与环境交互得到两个输出,一是无人机选择干扰该节点后的奖励值reward2,作为反馈返回到D3QN网络中进行训练并更新网络参数,二是新状态state1,返回到第一个网络作为其输入。如此往复,直至网络训练结束。
S3、开始训练,根据环境反馈奖赏更新目标和在线网络参数,并更新经验池内数据,如图6所示;
步骤S3包括以下分步骤:
S31、初始化环境,将无人机位置设置为起点处;
S32、在前100次观察训练轮数中,为收集无人机试错数据添加至经验库中,将无人机的初始位置随机摆放,在大小为500×500的栅格内随机指定初始位置,在(0,500)内使用随机生成函数,并且每个episode结束后不进行网络参数的更新训练;
S33、当训练轮数处于100至2000之间时,通过ε-greedy选择策略进行动作选取:
其中p是在区间[0,1]之间的产生随机数,ε也是位于区间[0,1]之间的超参数,an为动作空间,Q为动作状态值函数,a(t)为t时刻的动作,rand为求随机数;
记录第二个网络中选取的动作,即干扰的节点id,每训练一轮,需要对贪婪因子进行线性退火,并采用软更新的方式将在线网络的参数拷贝到目标网络中,相当于每过一段时间保留目标网络一部分原有参数,再更新一部分为最新的在线网络参数:
target_params=τ·online_params+(1-τ)·online_params;
其中τ为目标网络更新率,位于[0,1]之间,target_params和online_params分别为目标网络和在线网络的参数。
在线网络每次更新的公式为:
其中α为学习率,γ为折扣因子,r为奖赏值,Q(s,a;θ)为当前状态s和动作a下在线网络的输出值,Q(s′,a′;θ-)为当前状态s′和动作a′下目标网络的输出值,θt和θt+1分别当前时刻和下一时刻在线网络的参数值,θ和θ-为网络参数值。
S34、每个episode(回合)结束后,根据第二个网络中动作选择器选择的干扰节点id,记录每一个episode中的关键节点;当训练总轮数达到10000轮时,结束训练,保存网络参数模型;
S4、训练得到两个模型,模型1用于无人机路径规划,躲避威胁源的干扰并抵达目标点,模型2用于无人机选择干扰节点,最终识别出关键节点;
S4包括以下分步骤:
S41、训练结束,将每一轮episode选择次数最多的关键节点作为当轮的关键节点,判断关键节点的选择是否收敛,若收敛跳转步骤S42,否则跳转步骤S2,修改奖赏函数重新进行网络的训练;
S42、如图7所示,为每一轮识别出的关键节点示意图,将收敛后的被选择节点作为当前环境路径规划任务下的关键节点。
可见,本发明使用强化学习双D3QN网络训练,实现关键节点识别和路径规划同时进行,将干扰节点后对路径规划性能,包括航程步数、威胁概率等的优化作为关键节点识别的奖赏,将执行无人机飞行动作后安全程度和与目标点距离的改善作为路径规划的奖赏,对不同网络参数进行优化更新,从而实现了关键节点识别和路径规划同时进行。
本发明路径规划中采用了APF-D3QN算法,将人工势场法与强化学习模型相结合,使用人工势场法中的引力势场的定义与实现方式,改善强化学习奖赏函数的设置,从而使得无人机向目标点有效地逼近。
本发明构建了三种路径规划过程中威胁源模型,使用威胁概率模型作为搭建路径规划环境的要素,强化学习中无人机智能体需要与环境交互后得到下一时刻状态与奖赏值,奖赏值的依据则来自于威胁源模型的搭建。
以上所描述的装置实施例仅是示意性的,其中作为分离部件说明的模块可以是或者也可以不是物理上分开的,作为模块显示的部件可以是或者也可以不是物理模块,即可以位于一个地方,或者也可以分布到多个网络模块上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下,即可以理解并实施。
通过以上的实施例的具体描述,本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件。基于这样的理解,上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,存储介质包括只读存储器(Read-Only Memory,ROM)、随机存储器(Random Access Memory,RAM)、可编程只读存储器(Programmable Read-only Memory,PROM)、可擦除可编程只读存储器(ErasableProgrammable Read Only Memory,EPROM)、一次可编程只读存储器(One-timeProgrammable Read-Only Memory,OTPROM)、电子抹除式可复写只读存储器(Electrically-Erasable Programmable Read-Only Memory,EEPROM)、只读光盘(CompactDisc Read-Only Memory,CD-ROM)或其他光盘存储器、磁盘存储器、磁带存储器、或者能够用于携带或存储数据的计算机可读的任何其他介质。
最后应说明的是:本发明实施例公开的一种基于路径规划任务的关键节点识别方法所揭露的仅为本发明较佳实施例而已,仅用于说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解;其依然可以对前述各项实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或替换,并不使相应的技术方案的本质脱离本发明各项实施例技术方案的精神和范围。
Claims (10)
1.一种基于路径规划任务的关键节点识别方法,其特征在于,所述方法包括:
S1,构建路径规划过程中的威胁源威胁总概率模型;
S2,构建路径规划网络模型,设置网络初始化参数信息和动作空间信息;
所述路径规划网络模型包括第一路径规划网络模型和第二路径规划网络模型;
S3,对所述威胁源威胁总概率模型进行处理,得到无人机的状态空间信息和奖赏函数信息;
S4,利用所述无人机的动作空间信息、状态空间信息、奖赏函数信息和初始化参数信息,对所述路径规划网络模型进行训练,得到关键节点识别模型;
S5,利用所述关键节点识别模型进行干扰节点识别,得到关键节点。
2.根据权利要求1所述的基于路径规划任务的关键节点识别方法,其特征在于,所述构建路径规划过程中的威胁源威胁总概率模型,包括:
S11,构建路径规划过程中的探测预警雷达威胁概率模型;
S12,构建路径规划过程中的地形障碍威胁源概率模型;
S13,构建路径规划过程中的天气因素威胁源模型;
S14,对所述探测预警雷达威胁概率模型、地形障碍威胁源概率模型和天气因素威胁源模型进行处理,得到威胁源威胁总概率模型。
3.根据权利要求2所述的基于路径规划任务的关键节点识别方法,其特征在于,所述探测预警雷达威胁概率模型为:
其中,x0和y0分别为当前雷达的横纵坐标位置,R为当前雷达最远探测距离,单位为km,Lthreat为威胁指数,pxy为探测预警雷达威胁概率值,det()为求矩阵的行列式值,exp()为指数函数。
4.根据权利要求2所述的基于路径规划任务的关键节点识别方法,其特征在于,所述地形障碍威胁源概率模型为:
其中,pij为地形障碍威胁源概率值,hij为位置(i,j)处的地形障碍威胁源概率值,m和n分别为路径规划区域长和宽。
5.根据权利要求2所述的基于路径规划任务的关键节点识别方法,其特征在于,所述天气因素威胁源模型为:
其中,dmax为最大威胁区域,deff为有效威胁范围,d为无人机目标与天气区域中心距离,Pd为天气因素威胁源概率值。
6.根据权利要求2所述的基于路径规划任务的关键节点识别方法,其特征在于,所述威胁源威胁总概率模型为:
其中,P为威胁源威胁总概率值,P1为预警雷达威胁概率值,P2为地形障碍威胁源概率值,P3为天气因素威胁源概率值。
7.根据权利要求1所述的基于路径规划任务的关键节点识别方法,其特征在于,所述对所述威胁源威胁总概率模型进行处理,得到无人机的状态空间信息和奖赏函数信息,包括:
S31,设定无人机路径规划的区域范围和运动方式,利用状态空间信息分析模型,对所述威胁源威胁总概率模型进行处理,得到无人机的状态空间信息;
所述状态空间信息分析模型为:
其中,C为状态空间信息,Cmin为最小像素值,Cmax为最大像素值,Ps为无人机当前位置对应的威胁源威胁总概率值,Pmin为威胁源威胁总概率最小值,Pmax为威胁源威胁总概率最大值;
S32,对所述威胁源威胁总概率模型进行处理,得到奖赏函数信息;
所述奖赏函数信息包括第一奖赏函数信息和第二奖赏函数信息。
8.根据权利要求7所述的基于路径规划任务的关键节点识别方法,其特征在于,所述第一奖赏函数信息为:
其中,R1(s)为第一奖赏函数信息,α为威胁源的威胁系数,β为无人机航程代价系数,dlast和dnow分别为无人机上一时刻和当前时刻相较于目标点的距离,Ps为无人机当前位置对应的威胁源威胁总概率模型;
所述第二奖赏函数信息为:
R2(s)=Ps(t-1)-Ps(t)
其中,Ps(t)和Ps(t-1)分别为当前时刻和上一时刻无人机位置对应的威胁源威胁总概率模型。
9.根据权利要求1所述的基于路径规划任务的关键节点识别方法,其特征在于,所述利用所述无人机的动作空间信息、状态空间信息、奖赏函数信息和初始化参数信息,对所述路径规划网络模型进行训练,得到关键节点识别模型,包括:
S41、根据所述初始化参数信息进行环境初始化;
S42、在前100次观察训练轮数中,将无人机的初始位置随机摆放,根据所述动作空间信息和状态空间信息随机设置初始位置,每个回合结束后不进行网络参数的更新;
S43、当训练轮数处于100~2000之间时,利用预设的干扰节点选择策略进行动作选取,选择当前场景中的目标节点实施干扰,使其节点保持静默停止工作,并记录第二路径规划网络模型选取的动作:
S44、每个回合结束后,根据第二路径规划网络模型选取的动作,记录每一个回合中的关键节点;
S45,当训练轮数达到10000轮时,结束训练,得到关键节点识别模型。
10.根据权利要求1所述的基于路径规划任务的关键节点识别方法,其特征在于,所述利用所述关键节点识别模型进行干扰节点识别,得到关键节点,包括:
S51、对所述关键节点识别模型进行干扰节点识别,将每一轮episode选择次数最多的关键节点作为当前轮的关键节点,判断所述关键节点的选择是否收敛,若收敛转S52,若不收敛,修改奖赏函数信息,重新所述路径规划网络模型训练;
S52,将收敛后的被选择节点作为当前环境路径规划任务下的关键节点。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310848313.1A CN116882607B (zh) | 2023-07-11 | 2023-07-11 | 一种基于路径规划任务的关键节点识别方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310848313.1A CN116882607B (zh) | 2023-07-11 | 2023-07-11 | 一种基于路径规划任务的关键节点识别方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN116882607A true CN116882607A (zh) | 2023-10-13 |
CN116882607B CN116882607B (zh) | 2024-02-02 |
Family
ID=88254337
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310848313.1A Active CN116882607B (zh) | 2023-07-11 | 2023-07-11 | 一种基于路径规划任务的关键节点识别方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116882607B (zh) |
Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104834317A (zh) * | 2015-04-24 | 2015-08-12 | 华北计算技术研究所 | 一种智能识别威胁类型的无人机飞行路径规划方法 |
CN106295164A (zh) * | 2016-08-05 | 2017-01-04 | 中国兵器科学研究院 | 一种路径规划方法及电子设备 |
US20180150081A1 (en) * | 2018-01-24 | 2018-05-31 | GM Global Technology Operations LLC | Systems and methods for path planning in autonomous vehicles |
CN112824998A (zh) * | 2019-11-20 | 2021-05-21 | 南京航空航天大学 | 马尔可夫决策过程的多无人机协同航路规划方法和装置 |
CN114169591A (zh) * | 2021-11-19 | 2022-03-11 | 浙江大学 | 基于复杂网络的装备保障体系关键毁伤节点识别方法 |
CN114372603A (zh) * | 2020-11-13 | 2022-04-19 | 北京航空航天大学 | 一种仿鸽群多学习智能的无人靶机协同航路动态规划方法 |
CN115309179A (zh) * | 2022-05-31 | 2022-11-08 | 西安汇智信息科技有限公司 | 基于alce-ssa优化的三维无人机低空突防方法 |
CN115829278A (zh) * | 2022-12-09 | 2023-03-21 | 中国人民解放军军事科学院系统工程研究院 | 一种卫星通信任务规划方法及装置 |
CN116307331A (zh) * | 2023-05-15 | 2023-06-23 | 北京航空航天大学 | 航空器轨迹的规划方法 |
-
2023
- 2023-07-11 CN CN202310848313.1A patent/CN116882607B/zh active Active
Patent Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104834317A (zh) * | 2015-04-24 | 2015-08-12 | 华北计算技术研究所 | 一种智能识别威胁类型的无人机飞行路径规划方法 |
CN106295164A (zh) * | 2016-08-05 | 2017-01-04 | 中国兵器科学研究院 | 一种路径规划方法及电子设备 |
US20180150081A1 (en) * | 2018-01-24 | 2018-05-31 | GM Global Technology Operations LLC | Systems and methods for path planning in autonomous vehicles |
CN112824998A (zh) * | 2019-11-20 | 2021-05-21 | 南京航空航天大学 | 马尔可夫决策过程的多无人机协同航路规划方法和装置 |
CN114372603A (zh) * | 2020-11-13 | 2022-04-19 | 北京航空航天大学 | 一种仿鸽群多学习智能的无人靶机协同航路动态规划方法 |
CN114169591A (zh) * | 2021-11-19 | 2022-03-11 | 浙江大学 | 基于复杂网络的装备保障体系关键毁伤节点识别方法 |
CN115309179A (zh) * | 2022-05-31 | 2022-11-08 | 西安汇智信息科技有限公司 | 基于alce-ssa优化的三维无人机低空突防方法 |
CN115829278A (zh) * | 2022-12-09 | 2023-03-21 | 中国人民解放军军事科学院系统工程研究院 | 一种卫星通信任务规划方法及装置 |
CN116307331A (zh) * | 2023-05-15 | 2023-06-23 | 北京航空航天大学 | 航空器轨迹的规划方法 |
Non-Patent Citations (1)
Title |
---|
何金;丁勇;杨勇;黄鑫城;: "未知环境下基于PF-DQN的无人机路径规划", 兵工自动化, no. 09 * |
Also Published As
Publication number | Publication date |
---|---|
CN116882607B (zh) | 2024-02-02 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN113110509B (zh) | 一种基于深度强化学习的仓储系统多机器人路径规划方法 | |
CN110544296B (zh) | 一种敌方威胁不确定环境下无人机三维全局航迹智能规划方法 | |
CN111352417B (zh) | 异构多无人机协同路径的快速生成方法 | |
CN110991972B (zh) | 一种基于多智能体强化学习的货物运输系统 | |
EP3719603B1 (en) | Action control method and apparatus | |
CN112550314B (zh) | 适用于无人驾驶的嵌入优化式控制方法及其驾驶控制模块和自动驾驶控制系统 | |
CN110181508A (zh) | 水下机器人三维航路规划方法及系统 | |
CN113561986A (zh) | 自动驾驶汽车决策方法及装置 | |
CN112256037B (zh) | 应用于自动驾驶的控制方法、装置、电子设备及介质 | |
CN113391633A (zh) | 一种面向城市环境的移动机器人融合路径规划方法 | |
CN116679711A (zh) | 一种基于有模型与无模型强化学习的机器人避障方法 | |
CN113064422B (zh) | 基于双神经网络强化学习的自主水下航行器路径规划方法 | |
CN116882607B (zh) | 一种基于路径规划任务的关键节点识别方法 | |
CN110749325B (zh) | 航迹规划方法和装置 | |
CN110779526B (zh) | 一种路径规划方法、装置及存储介质 | |
CN116593962A (zh) | 一种基于在线无人机航迹规划的辐射源定位方法 | |
CN115909027B (zh) | 一种态势估计方法及装置 | |
CN116048126A (zh) | 一种基于abc快速收敛的无人机实时路径规划方法 | |
CN114237282A (zh) | 面向智慧化工业园区监测的无人机飞行路径智能规划方法 | |
CN117032247B (zh) | 海上救援搜索路径规划方法、装置及设备 | |
CN117350326B (zh) | 层次协同学习的多机围捕方法、装置、电子设备及介质 | |
CN115686071B (zh) | 一种多无人机协同攻击航路实时规划方法及装置 | |
CN118051063B (zh) | 一种低空无人机避障飞行的训练方法 | |
CN115951714A (zh) | 基于改进鸽群算法的无人机路径规划方法 | |
CN117666589A (zh) | 一种基于强化学习的无人艇导弹拦截和规避算法、拦截和规避系统及可读存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |