CN112612300B - 多平台智能决策的多目标博弈方法及装置 - Google Patents

多平台智能决策的多目标博弈方法及装置 Download PDF

Info

Publication number
CN112612300B
CN112612300B CN202011356296.2A CN202011356296A CN112612300B CN 112612300 B CN112612300 B CN 112612300B CN 202011356296 A CN202011356296 A CN 202011356296A CN 112612300 B CN112612300 B CN 112612300B
Authority
CN
China
Prior art keywords
platform
optimization
countermeasures
sub
strategy
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202011356296.2A
Other languages
English (en)
Other versions
CN112612300A (zh
Inventor
罗贺
蒋儒浩
王国强
马滢滢
陈宇轩
朱默宁
胡笑旋
靳鹏
马华伟
夏维
唐奕城
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hefei University of Technology
Original Assignee
Hefei University of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hefei University of Technology filed Critical Hefei University of Technology
Priority to CN202011356296.2A priority Critical patent/CN112612300B/zh
Publication of CN112612300A publication Critical patent/CN112612300A/zh
Application granted granted Critical
Publication of CN112612300B publication Critical patent/CN112612300B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05DSYSTEMS FOR CONTROLLING OR REGULATING NON-ELECTRIC VARIABLES
    • G05D1/00Control of position, course, altitude or attitude of land, water, air or space vehicles, e.g. using automatic pilots
    • G05D1/12Target-seeking control
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02TCLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
    • Y02T10/00Road transport of goods or passengers
    • Y02T10/10Internal combustion engine [ICE] based vehicles
    • Y02T10/40Engine management systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Aviation & Aerospace Engineering (AREA)
  • Radar, Positioning & Navigation (AREA)
  • Remote Sensing (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Automation & Control Theory (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明提供了一种多平台智能决策的多目标博弈方法及装置,涉及战术决策技术领域。根据对抗双方的战术偏好,构建多个优化目标,并将各个优化目标表征为多个子优化目标,并设计各个子优化目标的支付函数,进而构建对抗双方的高维矩阵,最后通过混合策略纳什均衡求解算法,获得最终的战术决策。提供更加有效和全面的信息,避免了线性加权聚合为单一维度的信息导致的信息缺失的问题,进而提高决策的准确度。把目标分配方案融入到战术决策中,实现战术决策和目标分配的组合优化,实现最优配合。同时考虑平台性能优势和态势优势,把两种优势转换为不同的目标,为战术决策提供更细粒度的评价标准,评价更加全面。

Description

多平台智能决策的多目标博弈方法及装置
技术领域
本发明涉及战术决策技术领域,具体涉及一种多平台智能决策的多目标博弈方法及装置。
背景技术
在对抗环境下,作战平台例如无人机、无人车、无人潜航器等,已经成为现代空战武器装备的重要成员之一。由于单个无人机所携带武器和传感器数量及性能有限,其执行空战任务的能力受到相应的限制,而多个无人机进行有效协同可以更好的完成空战任务,因此,多无人机协同空战决策技术已受到了越来越多的关注。
在进行战术决策时,传统评估方法通常只从平台性能优势或者态势优势角度出发,把多个目标聚合为一个目标来进行决策评估。
但现有决策方法在面对平台性能优势或者态势优势时,由于量纲不同、也很难进行加权聚合成一个评价指标,同时通过加权聚合的方式容易产生信息缺失,会影响评价的精度。
发明内容
(一)解决的技术问题
针对现有技术的不足,本发明提供了一种多平台智能决策的多目标博弈方法及装置,解决了现有决策方法进行加权聚合导致的信息缺失的问题。
(二)技术方案
为实现以上目的,本发明通过以下技术方案予以实现:
第一方面,一种多平台智能决策的多目标博弈方法,该方法包括:
S1、获取对抗双方的总策略空间;
S2、基于战术偏好,设置至少一个优化目标;
S3、将所述优化目标转化为至少一个子优化目标,并基于每个所述子优化目标设置对应的支付函数;
S4、基于支付函数,分别构建对抗双方的用于评估总策略空间的高维矩阵;
S5、基于对抗双方的高维矩阵,利用多目标混合策略纳什均衡求解算法,输出混合策略纳什均衡解。
进一步的,所述S1、获取对抗双方的总策略空间,具体包括如下步骤:
S101、获取对抗双方的可选策略,并基于双方的平台数量,获取可选目标分配方案;
S102、计算对抗双方各自所有的可选策略-可选目标分配方案组合,每个可选策略-可选目标分配方案组合作为一个策略,得到对抗双方各自的策略空间X和Y;
S103、基于对抗双方各自的策略空间,获取对抗双方所有策略的组合,构建总策略空间O=X×Y。
进一步的,所述战术偏好包括平台性能偏好和/或态势偏好;每个战术偏好对应设置一个优化目标;
所述平台性能PP的计算公式如下:
PP=ln(A+1)+K
K=[lnB+lnC]ε1ε2ε3ε4
其中:K为常数项,C表示雷达探测能力参数,B表示机动性参数,A表示武器参数,ε1表示操纵效能系数,ε2表示生存力系数,ε3表示航程系数,ε4表示电子对抗能力系数;
所述S3、将所述优化目标转化为至少一个子优化目标,并基于每个所述子优化目标设置对应的支付函数,包括:
S301a、设置武器参数A的可选值和对应的权重;
S302a、构建与武器参数A的可选值数量对应的子优化目标;
S303a、分别构建每个子优化目标对应的对抗双方的平台性能优势矩阵EpG,l,G∈{R,B},包括我方平台性能优势矩阵EpR,l和敌方平台性能优势矩阵EpB,l
S304a、基于所述平台性能优势矩阵,构建每个子优化目标的支付函数;
所述态势包括高度和距离,则所述态势Sit的计算公式为:
Sit=w1ud+w2uh
Figure BDA0002802718920000031
Figure BDA0002802718920000032
其中,uh(hi,hj)指的是高度优势,hibest表示我方i平台的最佳飞行高度,hi表示我方i平台的飞行高度,hj表示敌方j平台的飞行高度;
ud(ri,j)指的是距离优势,ri,j指我方i平台与敌方j平台的距离,ri m指我方i平台与敌方j平台火力范围最大值与最小值的平均值,w1,w2分别表示对应权重,w1+w2=1;
所述S3、所述将所述优化目标转化为多个子优化目标,并基于每个所述子优化目标设置对应的支付函数,包括:
S301b、设置高度优势和距离优势的权重;
S302b、分别构建对应高度优势和距离优势的子优化目标;
S303b、分别构建每个子优化目标对应的对抗双方的态势优势矩阵EsG,l,G∈{R,B};包括我方平台态势优势矩阵EsR,l和敌方平台态势优势矩阵EsB,l
S304b、基于所述态势优势矩阵,构建每个子优化目标的支付函数。
进一步的,所述对抗双方的高维矩阵为:
Figure BDA0002802718920000041
其中,(xi,yj)表示对抗双方的策略对,xi表示我方策略,yj表示敌方策略,
Figure BDA0002802718920000042
表示第n个优化目标的支付函数,/>
Figure BDA0002802718920000043
表示第n个优化目标的第ln个子优化目标对应的支付函数;G表示对抗双方,R表示我方,B表示敌方。
进一步的,所述基于对抗双方的高维矩阵,利用多目标混合策略纳什均衡求解算法,输出混合策略纳什均衡解;具体包括如下步骤:
S501、输入对抗双方的高维矩阵;
S502、利用PROMETHEEII方法构建聚合矩阵;
S503、采用Lemke–Howson算法求解,输出所有混合策略纳什均衡解;
S504、选择概率输出时,直接输出混合策略纳什均衡解;选择离散战术策略输出时,采用轮盘赌转法选择一个混合策略纳什均衡解。
进一步的,所述S502、利用PROMETHEEII方法构建聚合矩阵;具体包括如下步骤:
S5021、定义多准则函数模型,包括:
设定一种fij,
Figure BDA0002802718920000051
的多准则函数/>
Figure BDA0002802718920000052
Figure BDA0002802718920000053
Figure BDA0002802718920000054
对于任意策略对组合(ork,or',k'),计算:
Figure BDA0002802718920000055
则得到:
Figure BDA0002802718920000056
其中,Ni表示优化目标的数量,j表示第j个优化目标,i表示对抗双方Pi,i=1或2,w表示对应的权重,(ork,or',k'),ork,or',k'∈O表示对抗双方的策略对组合,O为对抗双方的总策略空间;
Figure BDA0002802718920000057
表示ork优于or'k'的偏序水平;πi(ork,or'k')∈[0,1],πi(ork,or'k')的值越大,则ork就越优于or'k'
S5022、定义正流、负流和净流矩阵;包括:
从ork的正流、负流和净流的角度定义:
Figure BDA0002802718920000058
Figure BDA0002802718920000059
Figure BDA00028027189200000510
Figure BDA0002802718920000061
代表ork优于O\{ork}的策略集合的程度,/>
Figure BDA0002802718920000062
越大则ork越优;
Figure BDA0002802718920000063
代表O\{ork}的策略集合优于ork的程度,/>
Figure BDA0002802718920000064
越小则ork越优;
φ(i)(ork)是一个正流和负流的聚合,|O|是O集合的基数;
S5023、采用净流值构造聚合矩阵。
进一步的,所述S503、采用Lemke–Howson算法求解,输出所有混合策略纳什均衡解;具体包括如下步骤:
S5031、对博弈双矩阵进行线性不等式转化,包括:
构建对抗双方的线性不等式,并对所述线性不等式按照每个策略的编号添加标签;
S5032、构建对抗双方的最优反应多面体:
通过坐标系将对抗双方的线性不等式转化为对抗双方的最优反应多面体;其中,所述最优反应多面体的顶点即为各个线性不等式的交点,所述交点则标记相应的线性不等式的标签;
S5033、利用Lemke–Howson算法从最优反应多面体中寻找纳什均衡点,并在每次找到纳什均衡点后,变换起始搜索点,直至获得所有的纳什均衡。
进一步的,所述S5033、利用Lemke–Howson算法从最优反应多面体中寻找纳什均衡点包括:
任意选择最优反应多面体的人工均衡顶点对上其中一方的标签,作为遗失标签;
以人工均衡顶点作为起始搜索点,在该方所在最优反应多面体的顶点处丢弃标签;
在标签所在边的另一端,捡起一个新标签,作为重复标签;
在另一方的最优反应多面体上,将重复标签丢弃,重新捡起新标签作为重复标签,直到捡起的新标签为初始时遗失的标签,算法终止,对应的顶点对作为纳什均衡。
第二方面,提供了一种多平台智能决策的多目标博弈装置,包括:
一个或多个处理器;
存储器;以及
一个或多个程序,其中所述一个或多个程序被存储在所述存储器中,并且被配置成由所述一个或多个处理器执行,所述程序包括用于执行如下方法:
S1、获取对抗双方的总策略空间;
S2、基于战术偏好,设置至少一个优化目标;
S3、将所述优化目标转化为至少一个子优化目标,并基于每个所述子优化目标设置对应的支付函数;
S4、基于支付函数,分别构建对抗双方的用于评估总策略空间的高维矩阵;
S5、基于对抗双方的高维矩阵,利用多目标混合策略纳什均衡求解算法,输出混合策略纳什均衡解。
(三)有益效果
本发明提供了一种多平台智能决策的多目标博弈方法及装置。与现有技术相比,具备以下有益效果:
本发明根据对抗双方的战术偏好,构建多个优化目标,并将各个优化目标表征为多个子优化目标,并设计各个子优化目标的支付函数,进而构建对抗双方的高维矩阵,最后通过混合策略纳什均衡求解算法,获得最终的战术决策。无需通过加权聚合的方式进行求解,能够避免信息损失,进而提高决策的准确度。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例的流程图;
图2为本发明实施例的高维矩阵求解流程图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本申请实施例通过提供一种多平台智能决策的多目标博弈方法及装置,解决了现有决策方法进行加权聚合导致的信息缺失的问题,提高了多平台战术决策的准确度。
本申请实施例中的技术方案为解决上述技术问题,总体思路如下:
根据对抗双方的战术偏好,构建多个优化目标,并将各个优化目标表征为多个子优化目标,并设计各个子优化目标的支付函数,进而构建对抗双方的高维矩阵,最后通过混合策略纳什均衡求解算法,获得最终的战术决策。无需通过加权聚合的方式进行求解,能够避免信息损失,进而提高决策的准确度。
为了更好的理解上述技术方案,下面将结合说明书附图以及具体的实施方式对上述技术方案进行详细的说明。
实施例1:
如图1所示,本发明提供了一种多平台智能决策的多目标博弈方法,该方法由计算机执行,该方法包括:
S1、获取对抗双方的总策略空间;
S2、基于战术偏好,设置至少一个优化目标;
S3、将所述优化目标转化为至少一个子优化目标,并基于每个所述子优化目标设置对应的支付函数;
S4、基于支付函数,分别构建对抗双方的用于评估总策略空间的高维矩阵;
S5、基于对抗双方的高维矩阵,利用多目标混合策略纳什均衡求解算法,输出混合策略纳什均衡解。
本实施例的有益效果为:
根据对抗双方的战术偏好,构建多个优化目标,并将各个优化目标表征为多个子优化目标,并设计各个子优化目标的支付函数,进而构建对抗双方的高维矩阵,最后通过混合策略纳什均衡求解算法,获得最终的战术决策。无需通过加权聚合的方式进行求解,能够避免信息损失,进而提高决策的准确度。
下面对本发明实施例进行详细说明:
S1、获取对抗双方的总策略空间;
例如,我方策略空间为X={x1,...,xi,...,xm},敌方的策略空间记为Y={y1,...,yj,...,yn},则对抗双方的总策略空间记为O=X×Y。
在对抗双方的可选策略数量和平台数量均小于一定阈值时,可将目标分配方案融入总策略空间,具体包括如下步骤:
S101、获取对抗双方的可选策略,并基于双方的平台数量,获取可选目标分配方案;
S102、计算对抗双方各自所有的可选策略-可选目标分配方案组合,每个可选策略-可选目标分配方案组合作为一个策略,得到对抗双方各自的策略空间;我方的策略空间记为X={x1,...,xi,...,xm},敌方的策略空间记为Y={y1,...,yj,...,yn}。
S103、基于对抗双方的策略空间,获取对抗双方所有策略的组合,构建总策略空间。
举例说明:我方为红方记为R,敌方为蓝方记为B。
例如,我方可选策略有4个,例如进攻型、攻守兼备型、佯攻型和逃跑型等,平台数量1v2的场景下,我方目标分配方案为2个,则我方的策略空间可表示为:X={x1,x2,...,x10},其中,我方的策略-目标分配方案组合的数量m=10;敌方的策略有3个,目标分配方案只有1个,则敌方的策略空间可表示为:Y={y1,y2,y3},其中,敌方的策略-目标分配方案组合的数量n=3。则总策略空间可表示为O=X×Y,共具有30种策略对。每个策略对为对抗双方的策略组合,可记为(xi,yj)。
S2、基于战术偏好,设置至少一个优化目标。
其中,所述战术偏好可为平台性能偏好、态势偏好等,每个战术偏好均设置为一个优化目标。
所述平台性能PP的计算公式如下:
PP=ln(A+1)+K
K=[lnB+lnC]ε1ε2ε3ε4
其中:K为常数项,C表示雷达探测能力参数,B表示机动性参数,A表示武器参数,ε1表示操纵效能系数,ε2表示生存力系数,ε3表示航程系数,ε4表示电子对抗能力系数;
所述态势Sit包括高度和距离,则所述态势Sit的计算公式为:
Sit=w1ud+w2uh
Figure BDA0002802718920000101
Figure BDA0002802718920000111
其中,uh(hi,hj)指的是高度优势,hibest表示我方i平台的最佳飞行高度,hi表示我方i平台的飞行高度,hj表示敌方j平台的飞行高度;
ud(ri,j)指的是距离优势,ri,j指我方i平台与敌方j平台的距离,ri m指我方i平台与敌方j平台火力范围最大值与最小值的平均值,w1,w2分别表示对应权重,w1+w2=1。
S3、将所述优化目标转化为至少一个子优化目标,并基于每个所述子优化目标设置对应的支付函数。
以平台性能偏好为例:
S301a、设置武器参数A的可选值和对应的权重;
根据经验值设置武器参数A和权重,例如,可选值的数量l=3时,即包括A1,A2,A3,对应权重分别为wA1,wA2,wA3
S302a、构建与武器参数A的可选值数量对应的子优化目标;
S303a、分别构建每个子优化目标对应的对抗双方的平台性能优势矩阵EpG,l,G∈{R,B},包括我方平台性能优势矩阵EpR,l和敌方平台性能优势矩阵EpB,l
以我方平台数量为1与敌方平台数量为2的场景为例,由于我方攻击时需要考虑敌方两个平台,则第l个子优化目标对应的我方平台性能优势矩阵EpR,l为:
Figure BDA0002802718920000112
其中,
Figure BDA0002802718920000113
表示我方1平台相对敌方2平台的平台性能优势矩阵;/>
Figure BDA0002802718920000121
表示对抗双方的策略为xi=p,yj=q时,我方1平台相对敌方2平台的平台性能优势矩阵。
同理,由于敌方攻击时只考虑我方1个平台,则第l个子优化目标对应的敌方平台性能优势矩阵EpB,l为:
Figure BDA0002802718920000122
其中,平台性能优势矩阵的个数及权重(对应武器参数A的可选值数量和权重)可为基于经验值设定,也可按如下方法设置:
首先需要确定对抗双方的武器数量组合概率分布。
再确定平台性能优势矩阵的数量,平台性能优势矩阵的构建要分别考虑敌方平台武器数量的组合概率与我方平台武器数量的概率,分别进行比对。因此,平台性能优势矩阵的个数为敌方平台武器数量的组合可能个数与我方平台武器数量的可能个数的乘积。
最后确定平台性能优势矩阵的权重,根据不同武器组合的分布概率确定平台性能优势矩阵的权重。每个平台性能优势矩阵的权重等于我方平台性能偏好权重乘以武器组合概率分布得到。
S304a、基于所述平台性能优势矩阵,构建每个子优化目标的支付函数;
支付函数的个数与平台性能优势矩阵的个数有关,本质上是由A的可选值的数量决定;
下面仍以我方平台数量为1与敌方平台数量为2的场景为例,我方第l个子优化目标为例,给出两种支付函数的设计方式:
第一种:
Figure BDA0002802718920000131
/>
这种支付函数的构建方法可直接反应为平台性能偏好,计算简单。
第二种:
Figure BDA0002802718920000132
这种支付函数的构建方法采用平台性能优势的相对值反应平台性能偏好,是双方平台性能优势共同作用的结果。
再以态势偏好为例:
S301b、设置高度优势和距离优势的权重;
S302b、分别构建对应高度优势和距离优势的子优化目标;
S303b、分别构建每个子优化目标对应的对抗双方的态势优势矩阵EsG,l,G∈{R,B};包括我方平台态势优势矩阵EsR,l和敌方平台态势优势矩阵EsB,l
S304b、基于所述态势优势矩阵,构建每个子优化目标的支付函数。
可以理解的是,态势优势矩阵的构建和支付函数的设计与平台性能偏好相同,也可根据实际需要构建其他形式的支付函数。
S4、基于支付函数,分别构建对抗双方的用于评估总策略空间的高维矩阵。
对抗双方的高维矩阵为:
Figure BDA0002802718920000141
其中,(xi,yj)表示对抗双方的策略对,xi表示我方策略,yj表示敌方策略,
Figure BDA0002802718920000142
表示第n个优化目标的支付函数,/>
Figure BDA0002802718920000143
表示第n个优化目标的第ln个子优化目标对应的支付函数,例如第1个优化目标有9个子优化目标,第2个优化目标有4个子优化目标;G表示对抗双方,R表示我方,B表示敌方。
S5、基于对抗双方的高维矩阵,利用多目标混合策略纳什均衡求解算法,输出混合策略纳什均衡解。
如图2所示,具体包括如下步骤:
S501、输入对抗双方的高维矩阵;
S502、利用PROMETHEEII方法构建聚合矩阵;
S503、采用Lemke–Howson算法求解,输出所有混合策略纳什均衡解;
S504、当决策者选择概率输出时,直接输出混合策略纳什均衡解;当决策者选择离散战术策略输出时,采用轮盘赌转法选择一个混合策略纳什均衡解。
其中,S502、利用PROMETHEEII方法构建聚合矩阵;具体包括如下步骤:
S5021、定义多准则函数模型;
对于参与人Pi,i=1,2(即我方和敌方)的任意两个策略对ork,or′k′∈O,采用PROMETHEE方法建立了一种fij,
Figure BDA0002802718920000151
的多准则函数:
Figure BDA0002802718920000152
Ni表示优化目标的数量,j表示第j个优化目标,
Figure BDA0002802718920000153
代表ork优于or′k′的偏序水平,这是一个非增函数/>
Figure BDA0002802718920000154
现有包括六种不同的函数模型用于决策者决策偏序关系(决策者就是博弈G中的每个参与人)。本实施例采用六个函数中最常用的一种函数模型,定义如下:
Figure BDA0002802718920000155
对于任意策略对ork,or′k′∈O,PROTHEE方法计算:
Figure BDA0002802718920000156
这个式子代表了考虑整个规则集合的ork优于or′k′的程度。w表示权重,πi(ork,or′k′)∈[0,1],πi(ork,or′k′)数值越大,那么ork就越优于or′k′。综合以上两个式子:
Figure BDA0002802718920000157
S5022、定义正流、负流和净流矩阵;
为了使一个策略集合ork与所有其他的策略集合O相互比较,PROMETHEE方法从ork的正流、负流和净流的角度定义了以下式子:
Figure BDA0002802718920000158
Figure BDA0002802718920000159
Figure BDA0002802718920000161
Figure BDA0002802718920000162
代表ork优于O\{ork}的策略集合的程度(/>
Figure BDA0002802718920000163
越大则ork越优)
Figure BDA0002802718920000164
代表O\{ork}的策略集合优于ork的程度(/>
Figure BDA0002802718920000165
越小则ork越优);/>
φ(i)(ork)是一个正流和负流的聚合,|O|是O集合的基数;
S5023、采用净流值构造聚合矩阵。
净流为正流和负流的差值,表征了两个均衡策略的差异情况和偏好程度,这种构建方法与简单的线性加权方法相比,融入了偏序信息,使得衡量结果更加客观可靠。
构建聚合矩阵如下表1所示:
表1
双方策略 1 2 3 ……
1 φ(i)(o11) φ(i)(o12) φ(i)(o13) ……
2 φ(i)(o21) φ(i)(o22) φ(i)(o23) ……
3 φ(i)(o31) φ(i)(o32) φ(i)(o33) ……
…… …… …… …… ……
S503、采用Lemke–Howson算法求解,输出所有混合策略纳什均衡解;
基于混合策略纳什均衡的性质,将双矩阵博弈转换为两个线性规划模型,并构建双方参与人的最优反应多面体。基于此,将最优反应多面体进行封闭化,并对封闭最优反应多面体的每个面打上相应的数字标签,通过捡起-丢弃等多次迭代操作,路经寻找该博弈的纳什均衡点。另外,通过整数旋转迭代,换入基变量、换出非基变量等,通过数学规划的方法实现Lemke–Howson算法。
具体包括如下步骤:
S5031、对博弈双矩阵进行线性不等式转化;
首先,对双方的博弈策略进行编号。参与人1的m个策略分别记为1,2,...,m,参与人2的n个策略分别记为m+1,m+2,...,m+n。然后,基于每个参与人想要使己方可以获得的最小收益最大化的思想将双矩阵博弈转化为线性规划不等式。
如下所示:
Figure BDA0002802718920000171
Figure BDA0002802718920000172
参与人1的纯策略集合为M={1,2,...,m},参与人2的纯策略集合为N={m+1,m+2,...,m+n},参与人1和参与人2的支付矩阵为A和B。
记参与人1的混合策略为x,x=(x1,x2,...,xm),xi为参与人1选择纯策略i的概率。同理,记参与人2的混合策略为y,y=(ym+1,ym+2,...,ym+n),yj为参与人2选择纯策略j的概率,j∈{m+1,...,m+n}。
则参与人1选择纯策略i所取得的期望收益为:
Figure BDA0002802718920000173
参与人2选择纯策略j所取得的期望收益为:
Figure BDA0002802718920000174
双方均希望自己获得的收益最大,设参与人1可能取得的最大收益为u,参与人2可能取得的最大收益为v,则根据命题1可知,参与人1的每个策略的期望收益均小于或等于u,参与人2的每个策略的期望收益均小于或等于v。
命题1x和y分别为参与人1和参与人2的混合策略,x是y的最优反应当且仅当对于所有的i∈M,有:
Figure BDA0002802718920000181
将上述公式展开如下:
Figure BDA0002802718920000182
Figure BDA0002802718920000183
对上述不等式添加标签,按照每个策略的编号进行标记,如参与人1的纯策略1的期望收益不等式打上标签1,纯策略2的期望收益不等式打上标签2等,如下:
Figure BDA0002802718920000184
/>
Figure BDA0002802718920000191
S5032、构建对抗双方的最优反应多面体;
通过坐标系将上述线性规划不等式表示出来,形成参与人1的最优反应多面体和参与人2的最优反应多面体。最优反应多面体的顶点即为不同不等式的交点,该点则标记相应不等式的标签。通过枚举两个最优反应多面体中的顶点,并取顶点对的标签的并集,当枚举的顶点对的标签并集为完备的标签集(具有所有的标签)时,这个顶点对对应的不等式进行求解得到的混合策略即为纳什均衡。
将线性规划不等式转化为最优反应多面体如下,
参与人1的最优反应多面体:
Figure BDA0002802718920000192
参与人2的最优反应多面体:
Figure BDA0002802718920000193
其中,T表示转置,RM表示M维实数,RN分别表示N维实数
对上述约束条件进行转化,消除u,v,使最优反应多面体变成封闭的最优反应多面体,且收益规范化。
Figure BDA0002802718920000194
Figure BDA0002802718920000195
参与人1和参与人2的策略概率分布:
x→x·v
y→y·u
参与人1和参与人2的最大期望收益为:
Figure BDA0002802718920000201
Figure BDA0002802718920000202
S5033、利用Lemke–Howson算法从最优反应多面体中寻找纳什均衡点,并在每次找到纳什均衡点后,变换起始搜索点,直至获得所有的纳什均衡。
对于双矩阵博弈模型的封闭最优反应多面体,Lemke–Howson算法是从人工均衡(artificial equilibrium)——最优反应多面体的顶点(0,0)开始搜索,在纳什均衡点结束。Lemke–Howson算法通过不断重复“丢弃”和“捡起”的两个过程将所有满足条件的点集合搜集出来,拥有全标签的点集就是该双矩阵的纳什均衡。由于Lemke–Howson算法每次在找到纳什均衡顶点对时就会结束,所以想要找到所有的纳什均衡点,需要变换起始搜索点。
人工均衡顶点对(0,0)中,每个纯策略的概率都为零。算法初始时,任意选择顶点对上其中一个参与者的标签k∈M∪N,称为遗失标签。从均衡点(0,0)开始,在参与者所在最优反应多面体的顶点0处丢弃标签k。在标签k所在边的另一端,捡起一个新标签,称为重复标签,因为捡起的新标签也在另一个参与者的最优反应多面体的顶点上。同理,在另一个参与者的最优反应多面体上,将重复标签丢弃,重新捡起新标签作为重复标签。直到捡起的新标签为初始时遗失的标签,那么算法终止,对应的顶点对为找到的纳什均衡。
双矩阵博弈适用于博弈双方支付矩阵不同的情况,而Lemke–Howson算法在理论上能够求得所有的纳什均衡,是求解双矩阵博弈的一个有效的办法。根据Lemke–Howson算法不断捡起标签数据的输出结果,输出混合策略纳什均衡解;
S504、当决策者选择概率输出时,直接输出混合策略纳什均衡解;当决策者选择离散战术策略输出时,采用轮盘赌转法选择一个混合策略纳什均衡解。
实施例2
本发明还提供了一种多平台智能决策的多目标博弈装置,包括:
一个或多个处理器;
存储器;以及
一个或多个程序,其中所述一个或多个程序被存储在所述存储器中,并且被配置成由所述一个或多个处理器执行,所述程序包括用于执行如下方法:
S1、获取对抗双方的总策略空间;
S2、基于战术偏好,设置至少一个优化目标;
S3、将所述优化目标转化为至少一个子优化目标,并基于每个所述子优化目标设置对应的支付函数;
S4、基于支付函数,分别构建对抗双方的用于评估总策略空间的高维矩阵;
S5、基于对抗双方的高维矩阵,利用多目标混合策略纳什均衡求解算法,输出混合策略纳什均衡解。
可理解的是,本发明实施例提供的多平台智能决策的多目标博弈装置与上述多平台智能决策的多目标博弈方法相对应,其有关内容的解释、举例、有益效果等部分可以参考多平台智能决策的多目标博弈方法中的相应内容,此处不再赘述。
综上所述,与现有技术相比,本发明具备以下有益效果:
①根据对抗双方的战术偏好,构建多个优化目标,并将各个优化目标表征为多个子优化目标,并设计各个子优化目标的支付函数,进而构建对抗双方的高维矩阵,最后通过混合策略纳什均衡求解算法,获得最终的战术决策。提供更加有效和全面的信息,避免了线性加权聚合为单一维度的信息导致的信息缺失的问题,进而提高决策的准确度。
②把目标分配方案融入到战术决策中,实现战术决策和目标分配的组合优化,实现最优配合。
③同时考虑平台性能优势和态势优势,把两种优势转换为不同的目标,为战术决策提供更细粒度的评价标准,评价更加全面。
需要说明的是,通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现。基于这样的理解,上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims (7)

1.一种多平台智能决策的多目标博弈方法,其特征在于,该方法包括:
S1、获取对抗双方的总策略空间;
S2、基于战术偏好,设置至少一个优化目标;
S3、将所述优化目标转化为至少一个子优化目标,并基于每个所述子优化目标设置对应的支付函数;
S4、基于支付函数,分别构建对抗双方的用于评估总策略空间的高维矩阵;
S5、基于对抗双方的高维矩阵,利用多目标混合策略纳什均衡求解算法,输出混合策略纳什均衡解,且具体包括如下步骤:
S501、输入对抗双方的高维矩阵;
S502、利用PROMETHEEII方法构建聚合矩阵;
S503、采用Lemke-Howson算法求解,输出所有混合策略纳什均衡解;
S504、选择概率输出时,直接输出混合策略纳什均衡解;选择离散战术策略输出时,采用轮盘赌转法选择一个混合策略纳什均衡解;
其中,所述S502具体包括如下步骤:
S5021、定义多准则函数模型,包括:
设定一种
Figure QLYQS_1
的多准则函数/>
Figure QLYQS_2
Figure QLYQS_3
Figure QLYQS_4
对于任意策略对组合(ork,or′,k′),计算:
Figure QLYQS_5
则得到:
Figure QLYQS_6
其中,
Ni表示优化目标的数量,j表示第j个优化目标,i表示对抗双方Pi,i=1或2;w表示对应的权重,(ork,or′,k′),ork,or′,k′∈O表示对抗双方的策略对组合,O为对抗双方的总策略空间;
Figure QLYQS_7
表示ork优于or′k′的偏序水平;πi(ork,or′k′)∈[0,1],πi(ork,or′k′)的值越大,则ork就越优于or′k′
S5022、定义正流、负流和净流矩阵;包括:
从ork的正流、负流和净流的角度定义:
Figure QLYQS_8
Figure QLYQS_9
Figure QLYQS_10
/>
Figure QLYQS_11
代表ork优于O\{ork}的策略集合的程度,/>
Figure QLYQS_12
越大则ork越优;
Figure QLYQS_13
代表O\{ork}的策略集合优于ork的程度,/>
Figure QLYQS_14
越小则ork越优;
φ(i)(ork)是一个正流和负流的聚合,|O|是O集合的基数;
S5023、采用净流值构造聚合矩阵。
2.如权利要求1所述的一种多平台智能决策的多目标博弈方法,其特征在于,所述S1、获取对抗双方的总策略空间,具体包括如下步骤:
S101、获取对抗双方的可选策略,并基于双方的平台数量,获取可选目标分配方案;
S102、计算对抗双方各自所有的可选策略-可选目标分配方案组合,每个可选策略-可选目标分配方案组合作为一个策略,得到对抗双方各自的策略空间X和Y;
S103、基于对抗双方各自的策略空间,获取对抗双方所有策略的组合,构建总策略空间O=X×Y。
3.如权利要求1所述的一种多平台智能决策的多目标博弈方法,其特征在于,所述战术偏好包括平台性能偏好和/或态势偏好;每个战术偏好对应设置一个优化目标;
所述平台性能PP的计算公式如下:
PP=ln(A+1)+K
K=[lnB+lnC]ε1ε2ε3ε4
其中:K为常数项,C表示雷达探测能力参数,B表示机动性参数,A表示武器参数,ε1表示操纵效能系数,ε2表示生存力系数,ε3表示航程系数,ε4表示电子对抗能力系数;
所述S3、将所述优化目标转化为至少一个子优化目标,并基于每个所述子优化目标设置对应的支付函数,包括:
S301a、设置武器参数A的可选值和对应的权重;
S302a、构建与武器参数A的可选值数量对应的子优化目标;
S303a、分别构建每个子优化目标对应的对抗双方的平台性能优势矩阵EpG,l,G∈{R,B},包括我方平台性能优势矩阵EpR,l和敌方平台性能优势矩阵EpB,l
S304a、基于所述平台性能优势矩阵,构建每个子优化目标的支付函数;
所述态势包括高度和距离,则所述态势Sit的计算公式为:
Sit=w1ud+w2uh
Figure QLYQS_15
/>
Figure QLYQS_16
其中,uh(hi,hj)指的是高度优势,hibest表示我方i平台的最佳飞行高度,hi表示我方i平台的飞行高度,hj表示敌方j平台的飞行高度;
ud(ri,j)指的是距离优势,ri,j指我方i平台与敌方j平台的距离,ri m指我方i平台与敌方j平台火力范围最大值与最小值的平均值,w1,w2分别表示对应权重,w1+w2=1;
所述S3、所述将所述优化目标转化为多个子优化目标,并基于每个所述子优化目标设置对应的支付函数,包括:
S301b、设置高度优势和距离优势的权重;
S302b、分别构建对应高度优势和距离优势的子优化目标;
S303b、分别构建每个子优化目标对应的对抗双方的态势优势矩阵EsG,l,G∈{R,B};包括我方平台态势优势矩阵EsR,l和敌方平台态势优势矩阵EsB,l
S304b、基于所述态势优势矩阵,构建每个子优化目标的支付函数。
4.如权利要求1所述的一种多平台智能决策的多目标博弈方法,其特征在于,所述对抗双方的高维矩阵为:
Figure QLYQS_17
其中,(xi,yj)表示对抗双方的策略对,xi表示我方策略,yj表示敌方策略,
Figure QLYQS_18
表示第n个优化目标的支付函数,/>
Figure QLYQS_19
表示第n个优化目标的第ln个子优化目标对应的支付函数;G表示对抗双方,R表示我方,B表示敌方。
5.如权利要求1所述的一种多平台智能决策的多目标博弈方法,其特征在于,所述S503、采用Lemke-Howson算法求解,输出所有混合策略纳什均衡解;具体包括如下步骤:
S5031、对博弈双矩阵进行线性不等式转化,包括:
构建对抗双方的线性不等式,并对所述线性不等式按照每个策略的编号添加标签;
S5032、构建对抗双方的最优反应多面体:
通过坐标系将对抗双方的线性不等式转化为对抗双方的最优反应多面体;其中,所述最优反应多面体的顶点即为各个线性不等式的交点,所述交点则标记相应的线性不等式的标签;
S5033、利用Lemke-Howson算法从最优反应多面体中寻找纳什均衡点,并在每次找到纳什均衡点后,变换起始搜索点,直至获得所有的纳什均衡。
6.如权利要求5所述的一种多平台智能决策的多目标博弈方法,其特征在于,所述S5033、利用Lemke-Howson算法从最优反应多面体中寻找纳什均衡点包括:
任意选择最优反应多面体的人工均衡顶点对上其中一方的标签,作为遗失标签;
以人工均衡顶点作为起始搜索点,在该方所在最优反应多面体的顶点处丢弃标签;
在标签所在边的另一端,捡起一个新标签,作为重复标签;
在另一方的最优反应多面体上,将重复标签丢弃,重新捡起新标签作为重复标签,直到捡起的新标签为初始时遗失的标签,算法终止,对应的顶点对作为纳什均衡。
7.一种多平台智能决策的多目标博弈装置,其特征在于,包括:
一个或多个处理器;
存储器;以及
一个或多个程序,其中所述一个或多个程序被存储在所述存储器中,并且被配置成由所述一个或多个处理器执行,所述程序包括用于执行如权利要求1-6任一项所述的多平台智能决策的多目标博弈方法。
CN202011356296.2A 2020-11-27 2020-11-27 多平台智能决策的多目标博弈方法及装置 Active CN112612300B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011356296.2A CN112612300B (zh) 2020-11-27 2020-11-27 多平台智能决策的多目标博弈方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011356296.2A CN112612300B (zh) 2020-11-27 2020-11-27 多平台智能决策的多目标博弈方法及装置

Publications (2)

Publication Number Publication Date
CN112612300A CN112612300A (zh) 2021-04-06
CN112612300B true CN112612300B (zh) 2023-06-09

Family

ID=75225528

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011356296.2A Active CN112612300B (zh) 2020-11-27 2020-11-27 多平台智能决策的多目标博弈方法及装置

Country Status (1)

Country Link
CN (1) CN112612300B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113379054B (zh) * 2021-05-28 2022-09-27 中国科学院自动化研究所 开放式智能博弈生态平台

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110442146A (zh) * 2019-07-22 2019-11-12 合肥工业大学 无人机编队目标分配与空间占位联合决策方法及系统
CN110443473A (zh) * 2019-07-22 2019-11-12 合肥工业大学 对抗环境下多无人机协同目标分配方法及系统

Family Cites Families (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6360193B1 (en) * 1998-09-17 2002-03-19 21St Century Systems, Inc. Method and system for intelligent agent decision making for tactical aerial warfare
CN106020215B (zh) * 2016-05-09 2018-08-31 北京航空航天大学 一种基于单步预测矩阵博弈的近距空战自主决策方法
CN107463094A (zh) * 2017-07-13 2017-12-12 江西洪都航空工业集团有限责任公司 一种不确定信息下多无人机空战动态博弈方法
CN108549233B (zh) * 2018-05-04 2021-04-16 南京航空航天大学 一种带有直觉模糊信息的无人机空战机动博弈方法
CN110134138B (zh) * 2019-04-08 2022-06-21 合肥工业大学 对抗环境下无人机智能决策的纳什均衡博弈方法及系统
CN110134139B (zh) * 2019-05-08 2022-04-08 合肥工业大学 一种对抗环境下无人机编队的战术决策方法和装置
CN110377052B (zh) * 2019-07-22 2020-07-03 合肥工业大学 无人机编队协同目标分配的矩阵博弈方法及系统
CN111221352B (zh) * 2020-03-03 2021-01-29 中国科学院自动化研究所 基于多无人机协同博弈对抗的控制系统
CN111507825A (zh) * 2020-04-16 2020-08-07 安徽大学 一种p2p平台上基于博弈多目标优化的双向推荐方法

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110442146A (zh) * 2019-07-22 2019-11-12 合肥工业大学 无人机编队目标分配与空间占位联合决策方法及系统
CN110443473A (zh) * 2019-07-22 2019-11-12 合肥工业大学 对抗环境下多无人机协同目标分配方法及系统

Also Published As

Publication number Publication date
CN112612300A (zh) 2021-04-06

Similar Documents

Publication Publication Date Title
Li et al. A systematic approach to heterogeneous multiattribute group decision making
CN110083971B (zh) 一种基于作战推演的自爆式无人机集群作战兵力分配方法
CN112329934A (zh) 一种基于改进麻雀搜索算法的rbf神经网络优化算法
CN111224966B (zh) 基于演化网络博弈的最优防御策略选取方法
CN110348708B (zh) 一种基于极限学习机的地面目标动态威胁评估方法
CN112612300B (zh) 多平台智能决策的多目标博弈方法及装置
CN114444203B (zh) 基于战场态势变权的空中集群威胁评估方法
CN112307613A (zh) 基于自适应权重的无人机集群空-地对抗博弈仿真方法
CN115511109A (zh) 一种高泛化性的个性化联邦学习实现方法
CN112417710A (zh) 基于作战环的武器装备体系贡献度评估方法
CN113177583B (zh) 一种空中目标聚类分群方法
CN112612298B (zh) 对抗环境下多无人机战术决策的多目标博弈方法及装置
CN115222271A (zh) 基于神经网络的武器目标分配方法
CN115730743A (zh) 一种基于深度神经网络的战场作战趋势预测方法
CN116225049A (zh) 一种多无人机狼群协同作战攻防决策算法
CN109299491B (zh) 一种基于动态影响图对策的元模型建模方法及使用方法
CN115759754A (zh) 基于动态博弈变权的超视距空战模拟目标威胁评估方法
CN115328189B (zh) 多无人机协同博弈决策方法和系统
CN112612207B (zh) 不确定环境下多目标博弈求解方法及系统
CN115563519A (zh) 面向非独立同分布数据的联邦对比聚类学习方法及系统
CN116050515A (zh) 一种基于XGBoost的平行推演多分支态势预测方法
CN113095465B (zh) 量子大马哈鱼洄游机制演化博弈的水下无人集群任务分配方法
CN115329139A (zh) 一种基于群表示理论的知识图谱嵌入的方法
Wang et al. Social-aware clustered federated learning with customized privacy preservation
CN114677535A (zh) 域适应图像分类网络的训练方法、图像分类方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant