CN108873936B - 一种基于势博弈的飞行器自主编队方法 - Google Patents

一种基于势博弈的飞行器自主编队方法 Download PDF

Info

Publication number
CN108873936B
CN108873936B CN201810745368.9A CN201810745368A CN108873936B CN 108873936 B CN108873936 B CN 108873936B CN 201810745368 A CN201810745368 A CN 201810745368A CN 108873936 B CN108873936 B CN 108873936B
Authority
CN
China
Prior art keywords
aircraft
formation
task
individual
principle
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201810745368.9A
Other languages
English (en)
Other versions
CN108873936A (zh
Inventor
贾翔
李珂
吴森堂
张美薇
王旭
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Institute of Electronic System Engineering
Original Assignee
Beijing Institute of Electronic System Engineering
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Institute of Electronic System Engineering filed Critical Beijing Institute of Electronic System Engineering
Priority to CN201810745368.9A priority Critical patent/CN108873936B/zh
Publication of CN108873936A publication Critical patent/CN108873936A/zh
Application granted granted Critical
Publication of CN108873936B publication Critical patent/CN108873936B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05DSYSTEMS FOR CONTROLLING OR REGULATING NON-ELECTRIC VARIABLES
    • G05D1/00Control of position, course, altitude or attitude of land, water, air or space vehicles, e.g. using automatic pilots
    • G05D1/10Simultaneous control of position or course in three dimensions
    • G05D1/101Simultaneous control of position or course in three dimensions specially adapted for aircraft
    • G05D1/104Simultaneous control of position or course in three dimensions specially adapted for aircraft involving a plurality of aircrafts, e.g. formation flying
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04BTRANSMISSION
    • H04B7/00Radio transmission systems, i.e. using radiation field
    • H04B7/14Relay systems
    • H04B7/15Active relay systems
    • H04B7/185Space-based or airborne stations; Stations for satellite systems
    • H04B7/18502Airborne stations
    • H04B7/18506Communications with or from aircraft, i.e. aeronautical mobile service

Landscapes

  • Engineering & Computer Science (AREA)
  • Aviation & Aerospace Engineering (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Radar, Positioning & Navigation (AREA)
  • Remote Sensing (AREA)
  • Automation & Control Theory (AREA)
  • Astronomy & Astrophysics (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Mobile Radio Communication Systems (AREA)
  • Information Transfer Between Computers (AREA)

Abstract

本发明公开一种基于势博弈的飞行器自主编队方法,包括:根据飞行器编队原则构建飞行器势博弈群体利益函数;根据每个飞行器获取的信息和群体利益函数构建势博弈个体利益函数;根据分布式原则定时更新飞行器信息以使群体利益和个体利益趋于最优。本发明在通信链路存在丢包情况下,提出一种基于势博弈和编队原则的飞行器自主编队分布式协同决策方法,充分考虑了个体利益和个体信息的本地化,同时兼顾群体利益的优化,可以保证较大规模的高动态飞行器自主编队在具有一定信息不确定性、组网通信存在丢包的条件下分布式地实现动态目标分配。

Description

一种基于势博弈的飞行器自主编队方法
技术领域
本发明涉及无人机自主控制技术领域。更具体地,涉及一种基于势博弈的飞行器自主编队方法。
背景技术
协同决策的方法一般按决策机制可以分为集中式、分布式和集散式,其中集中式的决策可以保证结果的一致性和最优性,但当编队规模较大时存在计算和通信信息量大,信息不确定性强或丢包严重情况下无法保证系统的鲁棒性和稳定性等特点;集散式介于分布式和集中式之间,例如分层递阶的决策,也一定程度的同样存在集中式决策的问题;而分布式决策可以保证每个编队成员按照自己的计算方式获得可行解,保证不确定环境、有限通信和计算量的情况下本地的优化,并在一定程度上兼顾全局的优化,但分布式决策的一致性和选择结果的优化收敛的证明是分布式决策的难点所在。
分布式决策与控制问题的研究已经大量的开展,其中基于势博弈的分布式决策是一种兼顾个体利益的自私性和群体利益的完整性的决策模式,可以很好地解决分布式系统的信息不完整问题,发挥不确定环境下群体中个体的自主性,并最终通过个体的优势选择,使整体逐渐趋于最优。
分布式协同决策方法是研究飞行器自主编队决策与管理系统的关键问题,而飞行器自主编队决策与管理系统是飞行器自主编队协同制导控制技术的重要组成部分。
因此,需要提供一种基于势博弈的飞行器自主编队方法。
发明内容
本发明的目的在于在通信链路存在丢包情况下,利用基于势博弈和编队原则的飞行器自主编队分布式协同决策方法,解决飞行器自主编队在复杂对抗环境下基于TDMA通信协议的分布式决策的可靠性、实时性和实用性问题。
为达到上述目的,本发明采用下述技术方案:
一种基于势博弈的飞行器自主编队方法,包括:
根据飞行器编队原则构建飞行器势博弈群体利益函数;
根据每个飞行器获取的信息和群体利益函数构建势博弈个体利益函数;
根据分布式原则定时更新飞行器信息以使群体利益和个体利益趋于最优。
进一步地,所述飞行器编队原则包括:
协同编队的必要性原则:判断多个飞行器协同组成编队执行任务,是否会比单枚飞行器单独执行任务利益高;
综合作战效能最大原则:同等条件时分配资源、编队队形后使完成任务效率最高;
编队的完整性惠顾原则:兼顾每个飞行器的性能差异,保证每个飞行器安全前提下完成任务。
进一步地,所述构建飞行器势博弈群体利益函数包括:
定义分配给飞行器群体的某个任务的分配结果为
Figure BDA0001724203710000021
分配结果对第Tj个任务的优势函数
Figure BDA0001724203710000022
为:
Figure BDA0001724203710000023
其中,
Figure BDA0001724203710000024
表示分配结果为
Figure BDA0001724203710000025
时,执行任意任务Tj的飞行器vi(ai=Tj)的优势值,
Figure BDA0001724203710000026
为执行任务Tj最大需要的飞行器数量,
Figure BDA0001724203710000027
为分配结果中执行任务Tj的飞行器中优势值最大的
Figure BDA0001724203710000028
个优势值的和。
所述群体利益函数Ug(a)为:
Figure BDA0001724203710000029
其中,
Figure BDA00017242037100000210
为惩罚分配结果中威胁度为
Figure BDA00017242037100000211
(认为是常数)的任务Tj被忽略的代价,λ为惩罚因子,
Figure BDA00017242037100000212
Figure BDA00017242037100000213
分配结果时执行任务Tj的飞行器数量。
进一步地,所述构建势博弈个体利益函数包括:当飞行器群体获取的信息完全、通信完备时,个体利益函数
Figure BDA00017242037100000214
当飞行器群体获取的信息不完整时,个体利益函数
Figure BDA00017242037100000215
为:
Figure BDA00017242037100000216
其中,Ai为执行的任务集合。
进一步地,所述构建的群体利益函数Ug(a)和个体利益函数
Figure BDA00017242037100000217
满足:
Figure BDA0001724203710000031
进一步地,所述分布式原则包括:定时随机选择一个飞行器进行任务信息更新,并将更新的信息通过网络发送至其他飞行器。
进一步地,定义a(k-1)为所有飞行器上一步的选择方案,则第k步选中的飞行器vi进行任务信息更新的选择方案的概率分布pi(k)为:
Figure BDA0001724203710000032
其中,i(i∈{1,2…n})为飞行器编号,σ(·)为罗吉特概率函数,τ>0,为随机性参数,调节决策过程的随机性,κi为信息丢包率。pi(k)满足概率分布pi(k)∈Δ(|Ai|)(Δ(n)={s∈Rn|s≥0,1Ts=1})。
进一步地,所述分布式原则采用TDMA协议的编队支撑网络,确定利益优化所需时间,通过多次优化迭代得到近似纳什平衡状态结果。
本发明还公开了一种计算机可读存储介质,所述计算机可读存储介质中存储有指令,当所述计算机可读存储介质在计算机上运行时,使得所述计算机执行上述的方法。
本发明的有益效果如下:
本发明所述技术方案涉及在通信链路存在丢包情况下,一种基于势博弈和编队原则的飞行器自主编队分布式协同决策方法,在给出飞行器编队协同制导与控制系统的概念后重点提出了一种基于势博弈的飞行器自主编队动态目标分配方法。首先构建了势博弈的个体利益函数和群体利益函数,个体利益函数充分考虑了个体利益和个体信息的本地化,同时兼顾群体利益的优化。随后给出了适用于飞行器自主编队分布式决策的本地优化协调机制,基于空间自适应选择法(SAP)的协调机制,引入“周期选择”和“基于编队支撑网络认知的宏观调节”的协调策略,并证明了该协调机制下,随着集群中飞行器本地优化的迭代,群体利益函数动态收敛到博弈的纳什平衡。采用该方法可以保证较大规模的高动态飞行器自主编队在具有一定信息不确定性、组网通信存在丢包的条件下分布式地实现动态目标分配。
附图说明
下面结合附图对本发明的具体实施方式作进一步详细的说明;
图1为基于势博弈的飞行器自主编队方法流程图;
图2为个体利益和群体利益函数变化曲线图;
图3为来实现本发明实施例的终端设备或服务器系统的结构示意图。
具体实施方式
为了更清楚地说明本发明,下面结合优选实施例和附图对本发明做进一步的说明。附图中相似的部件以相同的附图标记进行表示。本领域技术人员应当理解,下面所具体描述的内容是说明性的而非限制性的,不应以此限制本发明的保护范围。
分布式协同决策方法是研究飞行器自主编队决策与管理系统的关键问题,而飞行器自主编队决策与管理系统是飞行器自主编队协同制导控制技术的重要组成部分。编队中的飞行器成员在支撑网络中被称为节点。节点通过编队支撑网络和传感器系统获取相关的信息,包括局部(或全部,视编队规模和网络能力)节点的信息,网络的特征信息和任务环境特征信息,然后通过编队决策与管理系统对这些信息进行分析,权衡成员个体代价与群体代价,进行任务规划/目标分配、协同航路规划/队形优化、队形导引律和制导律生成,形成编队的队形导引轨迹和编队的队形优化指标,最后经编队飞行控制系统和成员飞行控制系统,按照编队的队形导引指令和队形要求完成编队飞行控制。
采用势博弈对该系统下分布式决策的建模机理如下:
以任务目标分布式分配为例,假设nv个无人平台分配nt个目标。每个目标或者无人平台都有其各自的特性,nv个无人平台表示为
Figure BDA0001724203710000041
相应的nt个目标表示为
Figure BDA0001724203710000042
其中T0表示一个虚拟目标“空目标”,可以分配给无人平台νi的目标的集合表示为
Figure BDA0001724203710000043
因此,某一时刻分配给无人平台νi的目标可表示为ai∈Ai,而
Figure BDA0001724203710000044
即为某一时刻整个群体的一个任务目标分配方案。
用Ug(a)表示群体的整体利益函数,表示无人平台νi的个体利益函数,每个个体成员依据群体的基本规则,在自己的可选目标集Ai内自主地选择自己的目标ai,实现自身利益的最大化,个体利益函数的设定通常会为整体利益的优化做一定的修正,分布式决策的过程中,每个个体的目标选择将在提前设定好的协调机制的制约和牵引下进行,当个体和群体利益函数的选取满足特定要求的时候,该优化和协调过程即表现为势博弈或广义势博弈的收敛过程,最终达到纳什平衡。
上述个体利益函数
Figure BDA0001724203710000051
和群体利益函数Ug(a)当满足下式时,即可成为一个广义势博弈:
Figure BDA0001724203710000052
其中ai′,ai″∈Ai
Figure BDA0001724203710000053
势博弈的利益函数选取和协调机制的设定将直接影响收敛的速率和平衡点的优劣,收敛的证明和平衡点的优劣也通常是博弈论在工程应用中具有较高难度的重要环节。另外,势博弈往往收敛较慢,同时优势函数和协调机制的选取多种多样,如选择性递归均值法(Selected Recursive Averaging Algorithm)、单步记忆空间自适应选择法(one-stepMemory Spatial Adaptive Play)。
如图1所示,本发明公开的一种基于势博弈的飞行器自主编队方法,包括:
S1、根据飞行器编队原则构建飞行器势博弈群体利益函数。
自主编队原则是选取决策方式、指导决策过程的重要依据。编队原则基本上可以概括为三大方面:协同编队的必要性原则、综合作战效能最大原则、编队的完整性惠顾原则。
协同编队的必要性原则:编队必要性的研究由多枚飞行器协同组成编队遂行任务,是否会比单枚飞行器单独遂行任务或者相互间无协同关系的多枚飞行器遂行任务所获得的综合作战效能有显著提高,同时保证当前使用的飞行器性能、遂行任务的作战环境、任务环境等条件下形成编队的编队效果和编队安全。
综合作战效能最大原则:编队综合作战效能最大原则是要研究同等作战环境条件、相同备弹情况下如何优化配置各种导引头等资源,采用何种编队机制、编队队形等编队管理策略,使飞行器成员的个体作战效能与协同编队的作战效能、协同编队的作战效能与编队成本费用得到优化平衡,进而使编队完成任务的能力最优的问题。
编队的完整性惠顾原则:编队完整性惠顾的原则是要充分兼顾飞行器成员的性能差异,在信息获取与共享、决策制定和协同行动中,应惠顾到编队所有的飞行器成员,保证飞行器编队顺利执行任务的情况下每个成员都有较高的生存几率和完成个体目标的概率。
本实施例中将一个任务作为一个打击目标,依据编队三原则,首先设计势博弈的群体利益函数,即Ug(a),依然以动态目标分配为例,首先定义对应分配方案
Figure BDA0001724203710000061
时,分配结果对目标Tj的优势函数
Figure BDA0001724203710000062
如下:
Figure BDA0001724203710000063
其中,
Figure BDA0001724203710000064
表示分配结果为
Figure BDA0001724203710000065
情况下,任意打击目标Tj的飞行器vi(ai=Tj)的优势值,
Figure BDA0001724203710000066
表示击毁目标Tj最大需要的飞行器数量,则上式表示分配结果中打击目标Tj的飞行器中优势值最大的
Figure BDA0001724203710000067
个优势值的和。
则给出Ug(a)定义如下:
Figure BDA0001724203710000068
其中,
Figure BDA0001724203710000071
表示惩罚分配结果中威胁度为
Figure BDA0001724203710000076
(认为是常数)的目标Tj被忽略的代价,其中λ为惩罚因子,
Figure BDA0001724203710000072
表示
Figure BDA0001724203710000073
分配结果时打击目标Tj的飞行器数量。
S2、根据每个飞行器获取的信息和群体利益函数构建势博弈个体利益函数;
势博弈的个体利益函数的选择一般要遵循两个基本原则,一个是保证与群体利益函数的关联性,一个是保证个体利益函数的本地化,即利用本地可以获取的有限信息构建个体利益函数。依据编队三原则,不同的任务环境和自然环境下需要设计不同的个体利益函数,下面给出了两种适用于飞行器自主编队动态目标分配的个体利益函数,同时给出了应用的任务环境和适用条件。
(1)假设编队支撑网络和信息获取系统给出的信息完全、通信完备,可采用个体利益函数:
Figure BDA0001724203710000074
此时,每个飞行器都将利用获取到的全局信息决策本地的选择结果,但由于其对网络服务质量有很强的依赖性,当编队规模较大时计算量和通信量都将急剧增加,因此仅适用于通信状况良好、节点数量较少的自主编队。
(2)假设编队支撑网络和信息获取系统可以给出临近飞行器较为完全的信息,则可以假设个体利益函数为:
Figure BDA0001724203710000075
此种个体利益函数要求本地获取到的信息包含本地任务集Ai中每个目标对应分配的所有飞行器的计算优势值时的所有数据,相对前一个体利益函数的设计,缩小了需求的信息量和计算量,也更符合不确定环境下的分布式决策问题。
可以证明所构造的群体利益函数和个体利益函数满足势博弈的要求:
Figure BDA0001724203710000081
S3、根据分布式原则定时更新飞行器信息以使群体利益和个体利益趋于最优。
除了设计适应任务环境满足势博弈要求的个体利益函数和群体利益函数,势博弈获得最优结果还需要与利益函数相对应的协调机制来使势博弈趋于平衡。协调机制的好坏将直接影响平衡点的优劣,本发明在分布自适应机制(SAP)的基础上,引入自主编队原则的思想,构造了适用于飞行器自主编队动态目标分配的协调机制,主要思想是“周期性选择的空间自适应博弈”、“基于编队支撑网络认知的宏观调节”。这里改进的SAP协调机制是采用TDMA协议的编队支撑网络。
SAP协调机制中,每一步都随机选择一个飞行器进行目标优化选择,并将更新的目标通过支撑网络告知其他飞行器,设a(k-1)所有飞行器上一步的选择方案,则设计第k步被选中的飞行器vi的选择方案,即按照一个特定的概率分布pi(k)∈Δ(|Ai|)(Δ(n)={s∈Rn|s≥0,1Ts=1})来选择目标,其中概率分布pi(k)使下式最大:
Figure BDA0001724203710000082
其中,H[·]是熵值函数,τ>0是随机性参数调节决策过程的随机性,则可以给出上式最大时候的pi(k)如下:
Figure BDA0001724203710000091
其中σ(·)是罗吉特概率函数。
σ:Rn→Δ(n)=logit or soft-max function
Figure BDA0001724203710000092
不同于文献中的SAP,本发明中通信使用的编队支撑网络采用的TDMA协议的AdHoc网络,每个通信周期(编队的网络更新率)选择需要更新的节点在分布式的机制下很难得到统一,因此采用“周期性选择的分布自适应机制”,即考虑让每个节点周期性的更新,虽然放弃了一定的随机性,但同样可以满足SAP协调机制的要求。即按照飞行器的编号i(i∈{1,2…n})顺序每个节点在n个周期内将更新一次。
同时为了加快SAP的收敛速度,在每个节点更新本地目标的时候加入基于编队支撑网络服务质量认知结果的不确定信息的全局修正,这里认为编队具备较为完善的支撑网络服务质量认知能力,即假设每个节点可得知自身的网络服务质量(文中主要考虑丢包率κi),则轮到某个节点更新自身目标的时候将以一定的概率Pii)放弃本节点的目标更新。
综上所述,本发明中采用的改进SAP协调机制如下:
第n·i个通信周期时更新飞行器vi的目标信息,依据:
Figure BDA0001724203710000093
下面证明该协调机制可以收敛到平衡点:
首先为了证明
Figure BDA0001724203710000101
是一个势博弈分配}=1,我们引入文献中的定理如下。
引理1:设G为具有势能函数ρ的一个对称势博弈,并设Γ为一个有限的加权图。对于每个β>0,空间适应性过程PΓ,β具有唯一的稳定分布
Figure BDA0001724203710000102
并且这个空间博弈的随机稳定状态是那些最大化ρ*(x)的状态。
根据上述引理,本发明改进的SAP协调机制引入了一个不可约的马尔科夫过程,状态空间为A,第k步的状态表示为a(k),则这个马尔科夫过程状态的转移频率将收敛于唯一的稳定分布,如引理1中给出的,稳定分布可写成如下格式:
Figure BDA0001724203710000103
详细的平衡条件为:
Figure BDA0001724203710000104
则由于协调机制的周期性选择更新节点的特点,只需要证明当a,b∈A两个状态只有一个量不同时是的平衡条件即可,即对特定的a,b∈A,ai≠bi,a-i=b-i
Figure BDA0001724203710000105
其中
Figure BDA0001724203710000111
Figure BDA0001724203710000112
可以得出
Figure BDA0001724203710000113
可以看出该协调机制可以有较高概率使自主编队在具有一定网络丢包条件下收敛到平衡状态,并具有低计算和通信负担的特点,适用于工程应用。
如图2所示,为了验证方法的有效性,采用系统由Vega Prime和Microsoft VisualStudio 2005软件搭建了一个综合数字仿真系统,在仿真系统中以某型反舰弹的模拟数据建立非线性六自由度模型,飞行器自主编队依照战场典型作战想定遂行作战任务,仿真试验的具体过程不再论述。从仿真图中可以看出个体利益函数和群体利益函数的曲线走势基本一致,最终决策结果的群体利益函数值明显比初始值得到了较大提高,但由于实际优化过程中随机性参数τ和支撑网络丢包率κ的值并非趋于0的小数,因而长期的势博弈结果将存在随机的波动,但在工程应用中特定的决策时间内可以保证分布式决策具有明显的优化效果。
下面参考图3,其示出了适于用实现本申请实施例的终端设备或服务器的计算机系统的结构示意图。
如图3所示,计算机系统包括中央处理单元(CPU),其可以根据存储在只读存储器(ROM)中的程序或者从存储部分加载到随机访问存储器(RAM)中的程序而执行各种适当的动作和处理。在RAM中,还存储有系统操作所需的各种程序和数据。CPU、ROM以及RAM通过总线彼此相连。输入/输出(I/O)接口也连接至总线。
以下部件连接至I/O接口:包括键盘、鼠标等的输入部分;包括诸如阴极射线管(CRT)、液晶显示器(LCD)等以及扬声器等的输出部分;包括硬盘等的存储部分;以及包括诸如LAN卡、调制解调器等的网络接口卡的通信部分。通信部分经由诸如因特网的网络执行通信处理。驱动器也根据需要连接至I/O接口。可拆卸介质,诸如磁盘、光盘、磁光盘、半导体存储器等等,根据需要安装在驱动器上,以便于从其上读出的计算机程序根据需要被安装入存储部分。
特别地,根据本公开的实施例,上文参考流程图描述的过程可以被实现为计算机软件程序。例如,本公开的实施例包括一种计算机程序产品,其包括有形地包含在机器可读介质上的计算机程序,所述计算机程序包含用于执行流程图所示的方法的程序代码。在这样的实施例中,该计算机程序可以通过通信部分从网络上被下载和安装,和/或从可拆卸介质被安装。
附图中的流程图和框图,图示了按照本发明各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分,所述模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个接连地表示的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或操作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
描述于本申请实施例中所涉及到的模块可以通过软件的方式实现,也可以通过硬件的方式来实现。所描述的模块也可以设置在处理器中,例如,可以描述为:一种处理器包括获取模块、确定模块和推荐模块。其中,这些模块的名称在某种情况下并不构成对该模块本身的限定。
作为另一方面,本申请还提供了一种计算机可读存储介质,该计算机可读存储介质可以是上述实施例中所述装置中所包含的计算机可读存储介质;也可以是单独存在,未装配入终端中的计算机可读存储介质。所述计算机可读存储介质存储有一个或者一个以上程序,所述程序被一个或者一个以上的处理器用来执行描述于本申请的用于基于势博弈的飞行器自主编队的方法。
显然,本发明的上述实施例仅仅是为清楚地说明本发明所作的举例,而并非是对本发明的实施方式的限定,对于所属领域的普通技术人员来说,在上述说明的基础上还可以做出其它不同形式的变化或变动,这里无法对所有的实施方式予以穷举,凡是属于本发明的技术方案所引伸出的显而易见的变化或变动仍处于本发明的保护范围之列。

Claims (6)

1.一种基于势博弈的飞行器自主编队方法,其特征在于,包括:
根据飞行器编队原则构建飞行器势博弈群体利益函数;
根据每个飞行器获取的信息和群体利益函数构建势博弈个体利益函数;
根据分布式原则定时更新飞行器信息以使群体利益和个体利益趋于最优;
所述构建飞行器势博弈群体利益函数包括:
定义分配给飞行器群体的某个任务的分配结果为
Figure FDA0002987838030000011
分配结果对第Tj个任务的优势函数
Figure FDA0002987838030000012
为:
Figure FDA0002987838030000013
其中,
Figure FDA0002987838030000014
表示分配结果为
Figure FDA0002987838030000015
时,执行任意任务Tj的飞行器vi(ai=Tj)的优势值,
Figure FDA0002987838030000016
为执行任务Tj最大需要的飞行器数量,
Figure FDA0002987838030000017
为分配结果中执行任务Tj的飞行器中优势值最大的
Figure FDA0002987838030000018
个优势值的和;
所述群体利益函数Ug(a)为:
Figure FDA0002987838030000019
其中,
Figure FDA00029878380300000110
为惩罚分配结果中威胁度为
Figure FDA00029878380300000111
的任务Tj被忽略的代价,λ为惩罚因子,
Figure FDA00029878380300000112
Figure FDA00029878380300000113
分配结果时执行任务Tj的飞行器数量,
Figure FDA00029878380300000114
是常数;
所述分布式原则包括:定时随机选择一个飞行器进行任务信息更新,并将更新的信息通过网络发送至其他飞行器;
定义a(k-1)为所有飞行器上一步的选择方案,则第k步选中的飞行器vi进行任务信息更新的选择方案的概率分布pi(k)为:
Figure FDA00029878380300000115
其中,i(i∈{1,2…n})为飞行器编号,σ(·)为罗吉特概率函数,τ>0,为随机性参数,调节决策过程的随机性,κi为信息丢包率,pi(k)满足概率分布pi(k)∈Δ(|Ai|)(Δ(n)={s∈Rn|s≥0,1Ts=1})。
2.根据权利要求1所述的方法,其特征在于,所述飞行器编队原则包括:
协同编队的必要性原则:判断多个飞行器协同组成编队执行任务,是否会比单枚飞行器单独执行任务利益高;
综合作战效能最大原则:同等条件时分配资源、编队队形后使完成任务效率最高;
编队的完整性惠顾原则:兼顾每个飞行器的性能差异,保证每个飞行器安全前提下完成任务。
3.根据权利要求1所述的方法,其特征在于,所述构建势博弈个体利益函数包括:当飞行器群体获取的信息完全、通信完备时,个体利益函数
Figure FDA0002987838030000021
当飞行器群体获取的信息不完整时,个体利益函数
Figure FDA0002987838030000022
为:
Figure FDA0002987838030000023
其中,Ai为执行的任务集合。
4.根据权利要求3所述的方法,其特征在于,所述构建的群体利益函数Ug(a)和个体利益函数
Figure FDA0002987838030000024
满足:
Figure FDA0002987838030000025
5.根据权利要求1所述的方法,其特征在于,所述分布式原则采用TDMA协议的编队支撑网络,确定利益优化所需时间,通过多次优化迭代得到近似纳什平衡状态结果。
6.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质中存储有指令,当所述计算机可读存储介质在计算机上运行时,使得所述计算机执行权利要求1-5中任一项所述的方法。
CN201810745368.9A 2018-07-09 2018-07-09 一种基于势博弈的飞行器自主编队方法 Active CN108873936B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810745368.9A CN108873936B (zh) 2018-07-09 2018-07-09 一种基于势博弈的飞行器自主编队方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810745368.9A CN108873936B (zh) 2018-07-09 2018-07-09 一种基于势博弈的飞行器自主编队方法

Publications (2)

Publication Number Publication Date
CN108873936A CN108873936A (zh) 2018-11-23
CN108873936B true CN108873936B (zh) 2021-06-04

Family

ID=64300205

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810745368.9A Active CN108873936B (zh) 2018-07-09 2018-07-09 一种基于势博弈的飞行器自主编队方法

Country Status (1)

Country Link
CN (1) CN108873936B (zh)

Families Citing this family (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109460065B (zh) * 2019-01-12 2021-07-16 中国人民解放军国防科技大学 基于势函数的无人机集群队形特征辨识方法及系统
CN109548084B (zh) * 2019-01-17 2021-11-30 重庆邮电大学 一种负载均衡的无人机自组网高效多跳tdma接入方法
CN110442146B (zh) * 2019-07-22 2022-10-25 合肥工业大学 无人机编队目标分配与空间占位联合决策方法及系统
CN112383872B (zh) * 2020-11-12 2022-09-20 中国空气动力研究与发展中心 一种分布式无人机编队状态信息广播发送频率的优化方法
CN112742028B (zh) * 2021-01-22 2024-05-21 中国人民解放军国防科技大学 一种对抗博弈的编队决策方法、系统、介质及设备
CN113353289B (zh) * 2021-04-25 2022-12-13 北京控制工程研究所 面向空间博弈的自主驱离方法、装置和存储介质
CN114047758B (zh) * 2021-11-08 2024-06-14 东南大学 基于Q-learning的多移动机器人编队方法
CN114267168B (zh) * 2021-12-24 2023-03-21 北京航空航天大学 一种应用于城市快速路环境下的编队资源分配方法
CN114326826B (zh) * 2022-01-11 2023-06-20 北方工业大学 多无人机队形变换方法及系统
CN115047892B (zh) * 2022-06-13 2024-05-03 西北工业大学 一种基于群体智能的水下无人集群编队关键节点识别方法

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104216289A (zh) * 2014-08-29 2014-12-17 北京航空航天大学 基于分布式进化算法的多飞行器编队的控制方法和装置
CN104539495A (zh) * 2015-01-23 2015-04-22 浙江大学 一种提高楼宇设备运行效率的非合作分布式优化方法
CN105488318A (zh) * 2014-09-19 2016-04-13 蔚承建 大规模数独问题的势博弈分布式机器学习求解方法
CN105700555A (zh) * 2016-03-14 2016-06-22 北京航空航天大学 一种基于势博弈的多无人机协同搜索方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104216289A (zh) * 2014-08-29 2014-12-17 北京航空航天大学 基于分布式进化算法的多飞行器编队的控制方法和装置
CN105488318A (zh) * 2014-09-19 2016-04-13 蔚承建 大规模数独问题的势博弈分布式机器学习求解方法
CN104539495A (zh) * 2015-01-23 2015-04-22 浙江大学 一种提高楼宇设备运行效率的非合作分布式优化方法
CN105700555A (zh) * 2016-03-14 2016-06-22 北京航空航天大学 一种基于势博弈的多无人机协同搜索方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
Cooperative Control and Potential Games;Jason R. Marden 等;《IEEE TRANSACTIONS ON SYSTEMS, MAN, AND CYBERNETICS—PART B: CYBERNETICS》;20091231;第39卷(第6期);第1393-1407页 *
基于微分博弈论的多无人机追逃协同机动技术研究;谢剑;《中国优秀硕士学位论文全文数据库 工程科技Ⅱ辑》;20160215;全文 *
基于进化势博弈的多无人机传感器网络K-覆盖;孙昌浩 等;《中国科学:技术科学》;20161231;第46卷(第10期);第1016-1023页 *

Also Published As

Publication number Publication date
CN108873936A (zh) 2018-11-23

Similar Documents

Publication Publication Date Title
CN108873936B (zh) 一种基于势博弈的飞行器自主编队方法
US20200065672A1 (en) Systems and Methods for Providing Reinforcement Learning in a Deep Learning System
CN113705610B (zh) 一种基于联邦学习的异构模型聚合方法和系统
CN113568727B (zh) 一种基于深度强化学习的移动边缘计算任务分配方法
US10715395B2 (en) Methods and apparatus for communication network
Pu et al. Asymptotic network independence in distributed stochastic optimization for machine learning: Examining distributed and centralized stochastic gradient descent
CN113469373B (zh) 基于联邦学习的模型训练方法、系统、设备及存储介质
CN113469325A (zh) 一种边缘聚合间隔自适应控制的分层联邦学习方法、计算机设备、存储介质
CN116416508A (zh) 一种加快全局联邦学习模型收敛的方法及联邦学习系统
CN110134007A (zh) 多无人机协同目标分配方法
CN116541106B (zh) 计算任务卸载方法、计算设备及存储介质
CN114690623A (zh) 一种值函数快速收敛的智能体高效全局探索方法及系统
CN116302569B (zh) 一种基于用户请求信息的资源分区智能化调度方法
Zhou et al. DRL-Based Workload Allocation for Distributed Coded Machine Learning
CN116501483A (zh) 基于多智能体强化学习的车辆边缘计算任务调度方法
CN115713009A (zh) 一种基于卫星和地面站连接密度的动态聚合联邦学习方法
CN114022731A (zh) 基于drl的联邦学习节点选择方法
CN114995157A (zh) 多智能体系统在合作竞争关系下的反同步优化控制方法
CN113992520A (zh) 一种虚拟网络资源的部署方法和系统
Jeong et al. Optimal Partitioning of Distributed Neural Networks for Various Communication Environments
CN117812564B (zh) 一种应用于车联网的联邦学习方法、装置、设备及介质
Yang et al. Distributed Imaging Satellite Mission Planning Based on Multi-Agent
CN117539640B (zh) 一种面向异构推理任务的边端协同系统及资源分配方法
Chen et al. Deep reinforcement learning based container cluster placement strategy in edge computing environment
CN117742917A (zh) 一种网络系统中的动态任务分配方法和系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant