CN116736883B - 一种无人飞行集群智能协同运动规划的方法 - Google Patents

一种无人飞行集群智能协同运动规划的方法 Download PDF

Info

Publication number
CN116736883B
CN116736883B CN202310587479.2A CN202310587479A CN116736883B CN 116736883 B CN116736883 B CN 116736883B CN 202310587479 A CN202310587479 A CN 202310587479A CN 116736883 B CN116736883 B CN 116736883B
Authority
CN
China
Prior art keywords
target
aerial vehicle
unmanned aerial
decision
network
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202310587479.2A
Other languages
English (en)
Other versions
CN116736883A (zh
Inventor
窦立谦
唐艺璠
张秀云
张睿隆
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tianjin University
Original Assignee
Tianjin University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tianjin University filed Critical Tianjin University
Priority to CN202310587479.2A priority Critical patent/CN116736883B/zh
Publication of CN116736883A publication Critical patent/CN116736883A/zh
Application granted granted Critical
Publication of CN116736883B publication Critical patent/CN116736883B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/06Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
    • G06Q10/063Operations research, analysis or management
    • G06Q10/0637Strategic management or analysis, e.g. setting a goal or target of an organisation; Planning actions based on goals; Analysis or evaluation of effectiveness of goals
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F30/00Computer-aided design [CAD]
    • G06F30/20Design optimisation, verification or simulation
    • G06F30/27Design optimisation, verification or simulation using machine learning, e.g. artificial intelligence, neural networks, support vector machines [SVM] or training a model
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/004Artificial life, i.e. computing arrangements simulating life
    • G06N3/008Artificial life, i.e. computing arrangements simulating life based on physical entities controlled by simulated intelligence so as to replicate intelligent life forms, e.g. based on robots replicating pets or humans in their appearance or behaviour
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • G06N3/0442Recurrent networks, e.g. Hopfield networks characterised by memory or gating, e.g. long short-term memory [LSTM] or gated recurrent units [GRU]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/092Reinforcement learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/04Inference or reasoning models
    • G06N5/042Backward inferencing
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02TCLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
    • Y02T10/00Road transport of goods or passengers
    • Y02T10/10Internal combustion engine [ICE] based vehicles
    • Y02T10/40Engine management systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • General Engineering & Computer Science (AREA)
  • Software Systems (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Business, Economics & Management (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Biophysics (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Human Resources & Organizations (AREA)
  • Biomedical Technology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Strategic Management (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Economics (AREA)
  • Educational Administration (AREA)
  • Marketing (AREA)
  • Geometry (AREA)
  • Computer Hardware Design (AREA)
  • Medical Informatics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • General Business, Economics & Management (AREA)
  • Tourism & Hospitality (AREA)
  • Quality & Reliability (AREA)
  • Operations Research (AREA)
  • Game Theory and Decision Science (AREA)
  • Development Economics (AREA)
  • Robotics (AREA)
  • Control Of Position, Course, Altitude, Or Attitude Of Moving Bodies (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明公开了一种无人飞行集群智能协同运动规划的方法,包括以下步骤:S1.博弈建模,针对移动目标打击任务的任务要求建立动态随机博弈模型;S2.目标预测,考虑打击目标的历史状态预测其未来的轨迹信息;S3.迭代学习,采用多智能体强化学习方法根据奖惩机制迭代智能体决策结果的好坏;S4.在线决策,利用训练好的决策网络对无人飞行集群进行实时决策。本发明采用上述一种无人飞行集群智能协同运动规划的方法,针对现有技术中的打击任务多约束的特点、目标的动态性以及任务环境的不确定性因素的影响,设计一种成员数量可变的无人飞行集群决策网络框架,通过离线训练,获得最优的打击策略,实现无人飞行集群协同运动规划的目的。

Description

一种无人飞行集群智能协同运动规划的方法
技术领域
本发明涉及无人飞行控制技术领域,特别是涉及一种无人飞行集群智能协同运动规划的方法。
背景技术
无人飞行集群协同作战、协同打击是未来智能化战争中不可或缺的作战模式。智能无人飞行集群是基于无人平台协同工作的自主决策的体系系统,是人工智能与传统决策控制技术的紧密结合。面对强对抗性、强动态性以及高度不确定性的复杂战场环境,无人系统的作战样式从单一平台向集群式平台发展,通过集群成员中相互的能力补充和行动协调,从而实现对单个平台任务能力的扩展以及对整体作战效能的提升。
针对动态目标无人飞行集群智能协同打击任务很好地体现了己方飞行成员之间的合作与目标之间对抗作用。在执行任务的过程中,无人飞行集群成员的位置和速度是随着目标的行动轨迹不断变化,因此无人飞行集群需要根据目标的实时状态进行自身的行动规划,同时随着集群数量规模的增大,战场环境的不确定性以及动态性的加剧,运动规划问题的难度也随之增大。因此,对于动态目标打击任务的无人飞行集群智能协同运动规划问题来说,存在如下几个难点:1)考虑打击动态目标任务的特点,敌我双方状态都是动态变化的,这对无人集群的运动规划算法的运算速度有着更高的要求;2)针对不同目标的打击,无人集群的配置及数量是不同的,如何考虑无人集群规模的不确定性,设计一个泛用性较强的网络结构也是一个难点问题。考虑上述难点,研究有效的多智能体运动规划方法具有重要的意义。
2017年,美国OpenAI公司提出了一种中心式训练-分布式决策的多智能体确定性策略梯度强化学习框架(Multiagent Deep Deterministic Policy Gradient,MADDPG),其中,中心式训练是指在离线训练过程中,评价网络可以根据所有智能体的观测值及决策结果评估可获得的累计收益值,从而更好的指导其动作的选择;分布式决策是指在多智能体在执行任务过程中,每个智能体仅基于自身的观测状态,利用训练好的决策网络进行在线的运动规划。本发明在该方法的基础上,进一步考虑目标未来的轨迹信息及无人集群规模的不确定性,提出基于预测-决策策略的无人飞行集群智能协同运动规划方法解决无人飞行集群协同打击动态目标问题。
发明内容
本发明的目的是提供一种无人飞行集群智能协同运动规划的方法,针对现有技术中的打击任务多约束的特点、目标的动态性以及任务环境的不确定性因素的影响,提出一种博弈建模—目标预测—迭代学习—在线决策的求解策略,并设计一种成员数量可变的无人飞行集群决策网络框架,通过离线训练,获得最优的打击策略,实现无人飞行集群协同运动规划的目的。
为实现上述目的,本发明提供了一种无人飞行集群智能协同运动规划的方法,包括以下步骤:
S1.博弈建模,针对移动目标打击任务的任务要求建立动态随机博弈模型;
S2.目标预测,考虑打击目标的历史状态预测其未来的轨迹信息;
S3.迭代学习,采用多智能体强化学习方法根据奖惩机制迭代智能体决策结果的好坏;
S4.在线决策,利用训练好的决策网络对无人飞行集群进行实时决策。
优选的,步骤S1包括:
S1.1.针对无人飞行集群协同打击问题,根据打击任务的任务目标和高动态环境的约束条件,给出无人飞行集群的约束条件和性能指标函数;
S1.2.根据步骤S1.1的约束条件和性能指标,建立面向打击任务的随机博弈模型;
S1.3.建立面向围捕问题的经验数据库,通过步骤S1.2.建立的动态随机博弈模型,收集训练过程中无人飞行集群与智能仿真交互平台交互时产生的经验数据,将数据归一化后储存到经验数据库中,为后续迭代学习环节中决策网络和评估网络的迭代学习提供依据。
优选的,步骤S2包括:
S2.1.采用深度LSTM网络对目标的未来轨迹进行预测,建立基于深度学习方法的待打击目标轨迹预测网络框架;
S2.2.利用经验数据库中敌我双方博弈数据,采用通过时间的反向传播算法训练目标轨迹预测网络权值;
S2.3.采用训练好的预测网络,根据目标历史状态,预测其未来轨迹。
优选的,步骤S3包括:
S3.1.采用中心式训练-分布式决策的强化学习框架,针对无人飞行集群成员数量不固定的特点,设计一种具有目标预测能力的冠状双向联通网络,建立可变数量的多智能体决策网络和评价网络;
S3.2.根据仿真交互平台所提供的无人飞行集群每个成员的自身状态信息和目标预测网络提供的目标未来轨迹信息,决策无人飞行集群成员当前时刻的动作,评价网络根据状态信息、预测信息及决策信息评估决策结果的好坏,并将新的交互经验补充到经验数据库中;
S3.3.通过随机经验回放机制,随机抽取数据库中的经验逐步训练评价网络和决策网络,最终通过多次训练迭代的方式获取无人飞行集群运动规划的最优策略。
优选的,步骤S4包括:
S4.1.随机给出己方无人飞行集群和待打击目标的初始位置,采用训练好的决策网络实时决策无人飞行器动作,进行打击任务的运动规划;
S4.2.根据实际规划结果判断是否符合任务需求,当规划结果无法令人满意时,重复上述目标预测、迭代学习两个步骤,直至获得满意的结果。
本发明的有益效果:
(1)本发明借鉴人在解决问题时的思维方式,在决策之前先对目标进行预测,即在传统意义上的多智能体强化学习(多智能体确定性策略梯度)算法中,引入目标轨迹预测(深度长短期记忆神经网络神经网络)算法,使无人飞行集群能够在速度受限的情况下快速的打击目标,有效解决了目标动态性、任务环境复杂性给无人飞行集群运动规划的有效性带来的影响,实现多智能体快速智能运动规划。
(2)本发明考虑到无人飞行集群在执行对不同目标进行打击时,集群中成员数量是根据目标的属性及特点进行确定的,不是一个固定的常数,设计了一种面向成员数量可变的无人飞行集群协同打击的决策网络框架,即具有目标预测能力的冠状双向联通网络,扩展了传统强化学习方法的泛化性,又有效的解决了不定数量的多智能体协同打击问题。
下面通过附图和实施例,对本发明的技术方案做进一步的详细描述。
附图说明
图1是本发明一种无人飞行集群智能协同运动规划方法的流程图;
图2是本发明搭建Unity3D游戏引擎技术的虚拟仿真环境及智能体与环境之间的数据交互过程的示意图;
图3是本发明目标轨迹预测网络的示意图;
图4是本发明中心式训练-分布式决策网络框架的示意图;
图5是本发明决策网络结构的示意图;
图6是本发明评价网络结构的示意图;
图7是本发明迭代训练过程中无人飞行集群打击目标花费的时间步长与训练回合数的关系示意图;
图8是本发明在线决策阶段飞行集群成员协同打击目标花费的时间步长的示意图。
具体实施方式
下面结合实施例,对本发明进一步描述。除非另外定义,本发明使用的技术术语或者科学术语应当为本发明所属领域内具有一般技能的人士所理解的通常意义。本发明提到的上述特征或具体实例提到的特征可以任意组合,这些具体实施例仅用于说明本发明而不用于限制本发明的范围。
实施例
图1是本发明一种无人飞行集群智能协同运动规划方法的流程图,如图1所示,本发明提供了针对动态目标打击任务的基于预测-决策策略的无人飞行集群智能协同运动规划方法,具体技术方案如下:
S1.博弈建模,针对移动目标打击任务的任务要求建立动态随机博弈模型。
根据打击任务的任务目标和高动态环境的约束条件,以在最短时间内成功协同打击到移动目标为优化目标,根据专家经验,建立奖惩机制,确定每一时间步无人飞行集群成员的立即收益值。收集训练过程中无人飞行集群与智能仿真交互平台交互时产生的经验数据,将数据归一化后储存到经验数据库中,为后续的目标预测、迭代学习环节做准备。
具体的为:
S1.1.针对无人飞行集群协同打击问题,根据打击任务的任务目标和高动态环境的约束条件,给出无人飞行集群的约束条件和性能指标函数;约束条件包括速度约束、加速度约束和避碰约束。
(1)速度约束为:
‖vi‖≤vmax i,‖vj‖≤vmax j (1)
其中vi和vj分别为无人飞行集群成员和待打击目标的速度,i∈[1,In],j∈[1,Jn]。Un和Jn分别为无人飞行集群总数和目标总数,vmax i和vmax j分别代表各自的最大速度。
(2)加速度约束
‖ai‖≤amax i,‖aj‖≤amax j (2)
其中ai和aj分别表示无人飞行集群成员和待打击目标的加速度,amax i和amax j分别表示各自的最大加速度。
(3)避碰约束
在飞行过程中,无人飞行集群成员之间避免两者之间相互碰撞,因此无人机在飞行的过程中也需保持安全距离,即
其中为第i个成员与第/>个成员之间的距离,/> 为两个成员之间的安全距离。
(4)性能指标
假设有Ntask架无人飞行集群成员同时打击到目标,认定打击任务成功,则性能指标可以表示为
Jtask=Ttask (4)
其中Ttask表示为无人飞行集群打击任务成功需要的时间步,优化目标是使Jtask最小,即无人飞行集群用最短的时间打击目标。
根据以上的约束条件和任务成功条件,采用Unity3D游戏引擎技术搭建虚拟仿真环境,并采用ML-Agents Toolkit接口技术实现python语言与仿真环境之间的数据交互。
图2是本发明搭建Unity3D游戏引擎技术的虚拟仿真环境及智能体与环境之间的数据交互过程的示意图,如图2所示,每一架无人飞行群成员考虑任务目标和速度、避碰等约束条件,将自身位置、速度、合作者信息、目标位置信息作为观测信息,规划出当前时刻自身的加速度,并把加速度信息通过ML-Agents Toolkit接口传输到智能仿真交互平台中。仿真平台根据传入的加速度信息进行计算,获得飞行成员及目标的状态信息并反馈给智能决策系统。通过不断迭代这一过程,直至任务时间结束或完成打击任务。
S1.2.根据步骤S1.1中式(1)-(4)描述的约束条件和性能指标,建立面向打击任务的随机博弈模型。随机博弈模型包括:
(1)全局状态集S
根据打击任务的具体情况,t时刻的状态量s为己方无人飞行成员的位置pi和速度vi,i∈[1,In],待打击目标的位置pj和速度vj,j∈[1,Jn],己方无人飞行成员之间的相对位置信息
(2)观测集Oi
对于第i架无人飞行成员,i∈[1,In],将t时刻自身的速度信息vi,位置信息pi,己方无人飞行成员之间的相对位置信息相对速度信息/>与待打击目标之间的距离Δpij作为观测状态信息,即
(3)动作集Ai
无人飞行成员的动作为加速度ai∈Ai,i∈[1,In]。
4)立即回报收益
将无人飞行集群的立即回报收益值设计为:
Ri=rco,i+rself,i (7)
其中
式中ρ是一个正则因子,平衡奖励值范围在区间[-1,1]之间,k是一个常参数,一般设定为10-3
(5)状态转移概率Γp:
对于本发明研究的面向打击任务的运动规划问题,只需考虑无人飞行集群和待打击目标的状态转移函数Γp,将各自对应的的运动学方程作为状态转移函数Γp
(6)折扣因子γ
γ表示未来收益值相对于当前收益值的重要程度。当γ=0时,相当于只考虑当前收益不考虑未来收益,γ=1时,将未来收益和当前收益看得同等重要。这里选取折扣因子γ=0.95。
基于上述六个组成部分,面向打击任务的动态随机博弈模型可描述为:通过在执行任务环境的全局状态信息st,各无人飞行成员根据自身位置及速度、同伴速度及位置、待围捕目标的位置等信息作为观测量Oi,并基于此决策自身动作信息即加速度ai,获得当前的立即收益值Ri,根据状态转移概率函数,计算下一时刻的全局状态信息st+1,重复上述过程直至任务成功或达到任务终止时刻。
S1.3.建立面向围捕问题的经验数据库。
通过步骤S1.2.建立的动态随机博弈模型,收集训练过程中无人飞行集群与智能仿真交互平台交互时产生的经验数据,将数据归一化后储存到经验数据库中,为后续迭代学习环节中决策网络和评估网络的迭代学习提供依据。
S2.目标预测。
考虑打击目标的历史状态预测其未来的轨迹信息;预测待打击目标未来的位置有助于无人飞行集群做出更有效的决策。
S2.1.采用深度LSTM网络对目标的未来轨迹进行预测,建立基于深度学习方法的待打击目标轨迹预测网络框架;
S2.2.利用经验数据库中敌我双方博弈数据,采用通过时间的反向传播算法训练目标轨迹预测网络权值;
S2.3.采用训练好的预测网络,根据目标历史状态,预测其未来轨迹。
图3是本发明目标轨迹预测网络的示意图,如图3所示,采用深度LSTM网络对目标的未来轨迹进行预测。
值得注意的是,目标的未来轨迹不仅仅与它自身的历史状态相关,还与己方每一架无人飞行成员的历史位置相关,因此将待打击目标历史状态和无人飞行成员的历史状态共同作为目标轨迹预测网络的输入。
目标轨迹预测网络的输出是待打击目标未来t+1至t+m时刻的位置信息,这里设定m=3,即预测待打击目标未来3个时间步的位置信息:
其中hisi和hisj分别表示无人飞行成员和待打击目标的历史状态,表示目标轨迹预测网络,pj表示目标未来3个时间步的预测轨迹。
在目标轨迹预测网络的训练过程中,采取监督学习的方式,从经验数据库中提取10个时间步的目标与无人飞行成员的历史状态数据作为样本,未来3个时间步目标位置信息作为标签。
那么目标行为预测网络可以通过最小化式(11)中的损失函数进行训练:
其中表示目标预测网络的权值,py和px分别表示经验数据库中双方历史状态数据和目标未来位置信息。
S3.迭代学习,采用多智能体强化学习方法根据奖惩机制迭代智能体决策结果的好坏。
S3.1.采用中心式训练-分布式决策的强化学习框架,针对无人飞行集群成员数量不固定的特点,设计一种具有目标预测能力的冠状双向联通网络,建立可变数量的多智能体决策网络和评价网络;
S3.2.根据仿真交互平台所提供的无人飞行集群每个成员的自身状态信息和目标预测网络提供的目标未来轨迹信息,决策无人飞行集群成员当前时刻的动作,评价网络根据状态信息、预测信息及决策信息评估决策结果的好坏,并将新的交互经验补充到经验数据库中;
S3.3.通过随机经验回放机制,随机抽取数据库中的经验逐步训练评价网络和决策网络,最终通过多次训练迭代的方式获取无人飞行集群运动规划的最优策略。
图4是本发明中心式训练-分布式决策网络框架的示意图,如图4所示,采用图4的中心式训练-分布式决策的网络框架,建立决策与评价网络,分别用来输出当前决策结果与此时可能获得的平均总收益值。
(1)建立决策网络与评价网络
图5是本发明决策网络结构的示意图,如图5所示,设计一种具有目标预测能力的冠状双向联通网络架构(CBC-TP Net)的决策网络,CBC-TP Net是基于双向LSTM网络设计的网络架构,LSTM网络具有权值共享、网络时序长度可伸缩的特点。因此根据LSTM网络的特点,每个LSTM单元可以对应一架无人飞行成员,即使无人飞行成员的数量发生变化,也不影响网络的输出结果(LSTM网络时序长度可伸缩特性),从而实现不定数量的多智能体协同打击能力。整个决策网络包括1层双向LSTM层,两层全连接隐藏层和一层输出层;决策网络的输入是第i架无人飞行成员观测值、其他成员与第i架成员的相对状态、待打击目标位置、目标轨迹预测结果;决策网络的输出为第i架成员下一时刻的加速度。
图6是本发明评价网络结构的示意图,如图6所示,采用CBC-TP Net架构设计评价网络,对于第i架无人飞行成员,评价网络包括1层双向LSTM层,两层全连接隐藏层和一层输出层;评价网络的输入为无人飞行集群所有成员观测状态集O(t)、无人飞行集群所有成员的动作集Ai和待打击目标的轨迹预测结果;评价网络的输出为无人飞行集群所有成员观测状态集合下第i架无人飞行成员执行决策网络输出动作ai时获得的平均累计总收益,即Qi值,输出维度为1。
(2)网络参数更新方式
对于第i架无人飞行成员来说,其决策网络以最大化自身的平均总收益为目标,即:
因此可以通过最小化梯度来训练决策网络的网络参数。
接下来进一步给出评价网络的更新方程,若评价网络的输出值近似真实值Qi,需满足/>最小。结合贝尔曼方程:Qi′=Ri+γQi,其中Q′i表示在下一时刻的评价值。此时,评价网络的更新方程/>
考虑到训练网络所用的经验数据之间具有相关性,为了避免其影响网络的收敛效果,设计目标决策网络和目标评价网络,用来输出目标Qi值。需要注意的是,由于相邻的数据之间具有相关性,因此不能按照存储顺序直接从经验回放池中提取数据,因此这里采用随机经验回放机制训练决策网络与评价网络。
S4.在线决策,利用训练好的决策网络对无人飞行集群进行实时决策。
S4.1.随机给出己方无人飞行集群和待打击目标的初始位置,采用训练好的决策网络实时决策无人飞行器动作,进行打击任务的运动规划;
S4.2.根据实际规划结果判断是否符合任务需求,当规划结果无法令人满意时,重复上述目标预测、迭代学习两个步骤,直至获得满意的结果。
经过博弈建模、目标预测、迭代学习过程中的离线训练之后,确定了评价网络的网络权值和决策网络的网络权值,此时决策网络建立了近似最优行动策略的无人飞行集群观测状态空间与动作空间之间的映射关系。考虑到无人飞行集群在执行任务过程中,数量是不固定的,评价网络无法获得全局环境信息和无人飞行集群所有成员决策动作信息而不能工作,因此在无人飞行集群打击任务的在线决策过程中,仅根据离线训练获得的决策网络用于在线规划过程中,实现分布式无人飞行集群实时运动规划。
在打击过程中,无人飞行集群将探测到的自身位置、速度、成员之间的相对位置、与目标之间的相对位置输入到决策网络中;训练好的决策网络会快速给出该时刻的无人飞行成员的加速度,考虑到复杂环境中存在不确定及干扰的影响,通过状态转移函数计算出第i无人飞行成员实际的位置与速度。重复上述过程,直到无人飞行集群成功打击目标或者到达任务时间上限。
为了显示本发明的有效性,假设待打击目标采用深度确定性策略梯度(DeepDeterministic Policy Gradient,DDPG)方法进行自身躲避的运动规划。在评判改进环节中,共训练4000个回合,然后每1000次迭代进行一次性能评估。
图7是本发明迭代训练过程中无人飞行集群打击目标花费的时间步长与训练回合数的关系示意图,如图7所示,图7中CBC-TP Net表示具有目标预测能力的冠状双向联通网络,CBC Net表示不具有目标预测能力的冠状双向联通网络,训练过程中,采用本发明提出的方法,无人飞行集群打击目标花费的时间步长与训练回合数的关系,从图中可以看出,在1000回合之后,CBC-TP网络具有更高、更稳定的成功率且在训练3000回合之后,CBC-TP网络每回合成功打击目标所需的时间步比CBC网络大约少80时间步,证明了加入预测网络可以有效的提高协同打击的效率。
图8是本发明在线决策阶段飞行集群成员协同打击目标花费的时间步长的示意图,如图8示,给出了在线决策阶段,5架飞行集群成员、4架飞行集群成员、3架飞行集群成员协同打击目标花费的时间步长(这里设定3架无人飞行成员同时打击到目标认为打击成功),从图8中可以看出,虽然随着无人飞行集群损毁数量减少,协同打击所花费的时间步长有所增长(无人飞行集群执行任务时容错余量随着成员数量的减少在下降,因此花费更多的时间步长),但仍然能有效地完成目标协同打击任务,证明了本发明所提出的具有目标预测能力的冠状双向联通网络的多智能体协同决策方法的有效性
最后应说明的是:以上实施例仅用以说明本发明的技术方案而非对其进行限制,尽管参照较佳实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对本发明的技术方案进行修改或者等同替换,而这些修改或者等同替换亦不能使修改后的技术方案脱离本发明技术方案的精神和范围。

Claims (4)

1.一种无人飞行集群智能协同运动规划的方法,其特征在于,包括以下步骤:
S1.博弈建模,针对移动目标打击任务的任务要求建立动态随机博弈模型;
S2.目标预测,考虑打击目标的历史状态预测其未来的轨迹信息;
S2.1.采用深度LSTM网络对目标的未来轨迹进行预测,建立基于深度学习方法的待打击目标轨迹预测网络框架;
S2.2.利用经验数据库中敌我双方博弈数据,采用通过时间的反向传播算法训练目标轨迹预测网络权值;
S2.3.采用训练好的预测网络,根据目标历史状态,预测其未来轨迹;
S3.迭代学习,采用多智能体强化学习方法根据奖惩机制迭代智能体决策结果的好坏;
S4.在线决策,利用训练好的决策网络对无人飞行集群进行实时决策。
2.根据权利要求1所述的一种无人飞行集群智能协同运动规划的方法,其特征在于,步骤S1包括:
S1.1.针对无人飞行集群协同打击问题,根据打击任务的任务目标和高动态环境的约束条件,给出无人飞行集群的约束条件和性能指标函数;
S1.2.根据步骤S1.1的约束条件和性能指标,建立面向打击任务的随机博弈模型;
S1.3.建立面向围捕问题的经验数据库,通过步骤S1.2.建立的动态随机博弈模型,收集训练过程中无人飞行集群与智能仿真交互平台交互时产生的经验数据,将数据归一化后储存到经验数据库中,为后续迭代学习环节中决策网络和评估网络的迭代学习提供依据。
3.根据权利要求1所述的一种无人飞行集群智能协同运动规划的方法,其特征在于,步骤S3包括:
S3.1.采用中心式训练-分布式决策的强化学习框架,针对无人飞行集群成员数量不固定的特点,设计一种具有目标预测能力的冠状双向联通网络,建立可变数量的多智能体决策网络和评价网络;
S3.2.根据仿真交互平台所提供的无人飞行集群每个成员的自身状态信息和目标预测网络提供的目标未来轨迹信息,决策无人飞行集群成员当前时刻的动作,评价网络根据状态信息、预测信息及决策信息评估决策结果的好坏,并将新的交互经验补充到经验数据库中;
S3.3.通过随机经验回放机制,随机抽取数据库中的经验逐步训练评价网络和决策网络,最终通过多次训练迭代的方式获取无人飞行集群运动规划的最优策略。
4.根据权利要求1所述的一种无人飞行集群智能协同运动规划的方法,其特征在于,步骤S4包括:
S4.1.随机给出己方无人飞行集群和待打击目标的初始位置,采用训练好的决策网络实时决策无人飞行器动作,进行打击任务的运动规划;
S4.2.根据实际规划结果判断是否符合任务需求,当规划结果无法令人满意时,重复上述目标预测、迭代学习两个步骤,直至获得满意的结果。
CN202310587479.2A 2023-05-23 2023-05-23 一种无人飞行集群智能协同运动规划的方法 Active CN116736883B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310587479.2A CN116736883B (zh) 2023-05-23 2023-05-23 一种无人飞行集群智能协同运动规划的方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310587479.2A CN116736883B (zh) 2023-05-23 2023-05-23 一种无人飞行集群智能协同运动规划的方法

Publications (2)

Publication Number Publication Date
CN116736883A CN116736883A (zh) 2023-09-12
CN116736883B true CN116736883B (zh) 2024-03-08

Family

ID=87914263

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310587479.2A Active CN116736883B (zh) 2023-05-23 2023-05-23 一种无人飞行集群智能协同运动规划的方法

Country Status (1)

Country Link
CN (1) CN116736883B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117371812A (zh) * 2023-10-12 2024-01-09 中山大学 一种飞行器群协同决策生成方法、系统和设备

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108319132A (zh) * 2018-01-11 2018-07-24 合肥工业大学 用于无人机空中对抗的决策系统及方法
CN112947581A (zh) * 2021-03-25 2021-06-11 西北工业大学 基于多智能体强化学习的多无人机协同空战机动决策方法
CN112947562A (zh) * 2021-02-10 2021-06-11 西北工业大学 一种基于人工势场法和maddpg的多无人机运动规划方法
CN113467508A (zh) * 2021-06-30 2021-10-01 天津大学 面向围捕任务的多无人机智能协同决策方法
CN113900445A (zh) * 2021-10-13 2022-01-07 厦门渊亭信息科技有限公司 基于多智能体强化学习的无人机协同控制训练方法及系统
CN115964898A (zh) * 2023-01-18 2023-04-14 北京航空航天大学 面向兵力博弈对抗的bc-qmix离在线多智能体行为决策建模方法
CN116068990A (zh) * 2022-12-16 2023-05-05 天津大学 一种星群智能故障诊断交互式虚拟仿真平台验证方法
CN116090342A (zh) * 2023-01-06 2023-05-09 天津大学 基于联盟形成博弈的大规模无人机分布式任务分配方法
CN116136945A (zh) * 2023-02-28 2023-05-19 沈阳航空航天大学 一种基于反事实基线的无人机集群对抗博弈仿真方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110658829B (zh) * 2019-10-30 2021-03-30 武汉理工大学 一种基于深度强化学习的群无人艇智能避碰方法

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108319132A (zh) * 2018-01-11 2018-07-24 合肥工业大学 用于无人机空中对抗的决策系统及方法
CN112947562A (zh) * 2021-02-10 2021-06-11 西北工业大学 一种基于人工势场法和maddpg的多无人机运动规划方法
CN112947581A (zh) * 2021-03-25 2021-06-11 西北工业大学 基于多智能体强化学习的多无人机协同空战机动决策方法
CN113467508A (zh) * 2021-06-30 2021-10-01 天津大学 面向围捕任务的多无人机智能协同决策方法
CN113900445A (zh) * 2021-10-13 2022-01-07 厦门渊亭信息科技有限公司 基于多智能体强化学习的无人机协同控制训练方法及系统
CN116068990A (zh) * 2022-12-16 2023-05-05 天津大学 一种星群智能故障诊断交互式虚拟仿真平台验证方法
CN116090342A (zh) * 2023-01-06 2023-05-09 天津大学 基于联盟形成博弈的大规模无人机分布式任务分配方法
CN115964898A (zh) * 2023-01-18 2023-04-14 北京航空航天大学 面向兵力博弈对抗的bc-qmix离在线多智能体行为决策建模方法
CN116136945A (zh) * 2023-02-28 2023-05-19 沈阳航空航天大学 一种基于反事实基线的无人机集群对抗博弈仿真方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
非合作博弈的多机协同压制IADS攻防策略分析;李秋妮;杨任农;李浩亮;张欢;冯超;;西安电子科技大学学报(06);全文 *

Also Published As

Publication number Publication date
CN116736883A (zh) 2023-09-12

Similar Documents

Publication Publication Date Title
Zhao et al. Survey on computational-intelligence-based UAV path planning
Ma et al. Multi-robot target encirclement control with collision avoidance via deep reinforcement learning
CN113467508B (zh) 面向围捕任务的多无人机智能协同决策方法
Xia et al. Cooperative task assignment and track planning for multi-UAV attack mobile targets
Tang et al. A novel hierarchical soft actor-critic algorithm for multi-logistics robots task allocation
CN113900445A (zh) 基于多智能体强化学习的无人机协同控制训练方法及系统
CN116736883B (zh) 一种无人飞行集群智能协同运动规划的方法
CN114415735B (zh) 面向动态环境的多无人机分布式智能任务分配方法
CN113962012B (zh) 无人机对抗策略优化方法及装置
CN113050686A (zh) 一种基于深度强化学习的作战策略优化方法及系统
CN116360503B (zh) 一种无人机博弈对抗策略生成方法、系统及电子设备
Li et al. Collaborative decision-making method for multi-UAV based on multiagent reinforcement learning
CN116501086B (zh) 一种基于强化学习的飞行器自主规避决策方法
Cao et al. Autonomous maneuver decision of UCAV air combat based on double deep Q network algorithm and stochastic game theory
CN116700079A (zh) 基于ac-nfsp的无人机对抗占位机动控制方法
Wang et al. Deep reinforcement learning-based air combat maneuver decision-making: literature review, implementation tutorial and future direction
Liang et al. Multi-UAV autonomous collision avoidance based on PPO-GIC algorithm with CNN–LSTM fusion network
Sun et al. Event-triggered reconfigurable reinforcement learning motion-planning approach for mobile robot in unknown dynamic environments
CN112001120B (zh) 一种基于强化学习的航天器对多拦截器自主规避机动方法
CN113741186A (zh) 一种基于近端策略优化的双机空战决策方法
CN116796843A (zh) 一种基于pso-m3ddpg的无人机多对多追逃博弈方法
CN115963724A (zh) 一种基于群智激发联盟博弈的无人机集群任务分配方法
CN114757092A (zh) 基于队友感知的多智能体协作通信策略的训练系统和方法
CN115187056A (zh) 一种考虑公平性原则的多智能体协同资源分配方法
Wang et al. Deep reinforcement learning based multi-uuv cooperative control for target capturing

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant