CN113255234A - 一种对导弹群进行在线目标分配的方法 - Google Patents

一种对导弹群进行在线目标分配的方法 Download PDF

Info

Publication number
CN113255234A
CN113255234A CN202110715726.3A CN202110715726A CN113255234A CN 113255234 A CN113255234 A CN 113255234A CN 202110715726 A CN202110715726 A CN 202110715726A CN 113255234 A CN113255234 A CN 113255234A
Authority
CN
China
Prior art keywords
target
missile
missiles
group
groups
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202110715726.3A
Other languages
English (en)
Other versions
CN113255234B (zh
Inventor
吕金虎
罗威林
刘克新
王薇
高庆
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beihang University
Academy of Mathematics and Systems Science of CAS
Original Assignee
Beihang University
Academy of Mathematics and Systems Science of CAS
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beihang University, Academy of Mathematics and Systems Science of CAS filed Critical Beihang University
Priority to CN202110715726.3A priority Critical patent/CN113255234B/zh
Publication of CN113255234A publication Critical patent/CN113255234A/zh
Application granted granted Critical
Publication of CN113255234B publication Critical patent/CN113255234B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F30/00Computer-aided design [CAD]
    • G06F30/20Design optimisation, verification or simulation
    • G06F30/27Design optimisation, verification or simulation using machine learning, e.g. artificial intelligence, neural networks, support vector machines [SVM] or training a model
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N7/00Computing arrangements based on specific mathematical models
    • G06N7/01Probabilistic graphical models, e.g. probabilistic networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2111/00Details relating to CAD techniques
    • G06F2111/08Probabilistic or stochastic CAD

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • Software Systems (AREA)
  • Artificial Intelligence (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Computing Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • General Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Computational Mathematics (AREA)
  • Computer Hardware Design (AREA)
  • Geometry (AREA)
  • Medical Informatics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Probability & Statistics with Applications (AREA)
  • Algebra (AREA)
  • Mathematical Analysis (AREA)
  • Pure & Applied Mathematics (AREA)
  • Mathematical Optimization (AREA)
  • Aiming, Guidance, Guns With A Light Source, Armor, Camouflage, And Targets (AREA)

Abstract

本发明公开了一种对导弹群进行在线目标分配的方法,包括:根据实时获取的各个目标的状态以及导弹群自身的状态,建立导弹群对目标群的打击优势矩阵;对于导弹群中未分配目标的导弹,根据打击优势矩阵、导弹群与目标群的作战相关信息以及导弹群的当前目标分配情况,分别构建导弹与目标群中各目标的联合状态向量;根据导弹与目标群中各目标的联合状态向量,利用估值神经网络为导弹分配目标;重复前两步,直至导弹群中所有导弹都被分配且仅分配了一个目标为止。通过本发明的技术方案,能够解决大规模弹群协同作战场景中复杂性高、对抗性强的问题,为最大化导弹群协同作战效能奠定基础。

Description

一种对导弹群进行在线目标分配的方法
技术领域
本发明属于导弹群协同攻击建模技术领域,尤其涉及一种导弹群实时在线目标分配方法。
背景技术
随着军事科技的发展,包含多类作战资源的大规模作战已经逐渐成为现代战争的常态,这对如何高效合理地协调多种作战资源提出了更高的要求。现代战争的战场环境复杂,拥有较强的对抗性与随机性,采用导弹群协同攻击的方式能有效提高对目标群的饱和打击能力。在弹群协同攻击的过程中,一个关键问题是如何实时在线地为导弹群分配合适的打击目标以实现作战效能的最大化。
由于战场环境瞬息万变,导弹群对目标群的协同打击也需要具有随机应变的能力。如何在敌方干扰拦截、部分导弹故障失灵、敌方目标数量变化等作战规模发生改变的情况下,实时在线地为各导弹分配合适的目标成为亟待解决的问题。
发明内容
针对战场环境复杂性高、对抗性强、作战规模动态变化的问题,本发明提出一种对导弹群进行实时在线目标分配的方法,能够解决大规模弹群协同作战场景中复杂性高、对抗性强的问题,为最大化导弹群协同作战效能奠定基础。本发明的具体技术方案如下:
一种对导弹群进行在线目标分配的方法,包括以下步骤:
S1:根据实时获取的各个目标的状态以及导弹群自身的状态,建立导弹群对目标群的打击优势矩阵;
S2:对于导弹群中未分配目标的导弹,根据步骤S1中打击优势矩阵、导弹群与目标群的作战相关信息以及导弹群的当前目标分配情况,分别构建待分配目标的导弹与目标群中各目标的导弹-目标联合状态向量;
S3:根据步骤S2导弹与目标群中各目标的导弹-目标联合状态向量,利用深度强化学习技术训练估值神经网络模型;
S4:利用步骤S3训练的估值神经网络模型为导弹分配目标;
S5:重复步骤S2和步骤S4,直至导弹群中所有导弹都被分配且仅分配了一个目标为止。
进一步地,所述步骤S1中的导弹群对目标群的打击优势矩阵为
Figure 667402DEST_PATH_IMAGE001
Figure 362826DEST_PATH_IMAGE002
其中,导弹
Figure 40670DEST_PATH_IMAGE003
对目标
Figure 722318DEST_PATH_IMAGE004
的打击优势为
Figure 896947DEST_PATH_IMAGE005
Figure 435376DEST_PATH_IMAGE006
MN分别表示导弹群中导弹的数量和目标群中目标的数量;
Figure 305243DEST_PATH_IMAGE007
为导弹对目标的捕获概率;
Figure 915216DEST_PATH_IMAGE008
为角度优势:
Figure 318253DEST_PATH_IMAGE009
,其中,
Figure 355479DEST_PATH_IMAGE010
为弹目视线角,
Figure 774959DEST_PATH_IMAGE011
为可变参数,假设
Figure 798410DEST_PATH_IMAGE011
与弹目距离成正比;
Figure 682052DEST_PATH_IMAGE012
为距离优势:
Figure 31125DEST_PATH_IMAGE013
Figure 170857DEST_PATH_IMAGE014
Figure 122633DEST_PATH_IMAGE015
,其中,
Figure 736148DEST_PATH_IMAGE016
为导弹导引头的探测距离的范围;
Figure 115177DEST_PATH_IMAGE017
为速度优势函数:
Figure 446932DEST_PATH_IMAGE018
,其中,
Figure 874502DEST_PATH_IMAGE019
分别为目标与导弹的速度。
进一步地,所述步骤S2的具体过程为:
S2-1:定义
Figure 467158DEST_PATH_IMAGE020
代表导弹
Figure 656568DEST_PATH_IMAGE003
类型的独热编码,
Figure 600253DEST_PATH_IMAGE021
表示导弹群中导弹的类型数;定义
Figure 565935DEST_PATH_IMAGE022
为代表目标
Figure 154043DEST_PATH_IMAGE023
类型的独热编码,
Figure 874874DEST_PATH_IMAGE024
表示目标群中目标的类型数;令
Figure 181222DEST_PATH_IMAGE025
表示指向目标
Figure 278491DEST_PATH_IMAGE023
的导弹数量;令
Figure 16377DEST_PATH_IMAGE026
表示选择目标
Figure 49055DEST_PATH_IMAGE023
作为打击对象的导弹集合,则
Figure 701753DEST_PATH_IMAGE027
表示
Figure 212500DEST_PATH_IMAGE026
中所有导弹对目标
Figure 899834DEST_PATH_IMAGE023
的联合打击优势:
Figure 900151DEST_PATH_IMAGE028
其中,h为选择目标
Figure 414046DEST_PATH_IMAGE023
作为打击对象的导弹集合
Figure 118697DEST_PATH_IMAGE026
中导弹的下标;
S2-2:令
Figure 270324DEST_PATH_IMAGE029
表示
Figure 769438DEST_PATH_IMAGE026
中所有导弹对目标
Figure 68833DEST_PATH_IMAGE030
的期望联合作战效能,设
Figure 921382DEST_PATH_IMAGE031
为目标
Figure 583308DEST_PATH_IMAGE030
的价值,则
Figure 361646DEST_PATH_IMAGE029
的计算公式为:
Figure 476232DEST_PATH_IMAGE032
其中,
Figure 132473DEST_PATH_IMAGE033
表示导弹群中第
Figure 321008DEST_PATH_IMAGE034
枚导弹;
S2-3:定义导弹
Figure 161925DEST_PATH_IMAGE035
与目标
Figure 373595DEST_PATH_IMAGE030
的导弹-目标联合状态向量为:
Figure 958160DEST_PATH_IMAGE036
则导弹
Figure 499738DEST_PATH_IMAGE035
与目标群中所有目标的导弹-目标联合状态向量的集合为:
Figure 386922DEST_PATH_IMAGE037
其中,
Figure 944943DEST_PATH_IMAGE038
为导弹
Figure 208565DEST_PATH_IMAGE035
与目标
Figure 434010DEST_PATH_IMAGE030
的导弹-目标联合状态向量,
Figure 288833DEST_PATH_IMAGE039
为导弹
Figure 239209DEST_PATH_IMAGE035
所对应下标,
Figure 899998DEST_PATH_IMAGE040
为目标
Figure 855316DEST_PATH_IMAGE030
所对应下标。
进一步地,所述步骤S3的具体处理过程为:
S3-1:将为导弹群中的导弹在线分配目标的决策过程建模为马尔可夫决策过程;马尔可夫决策过程由下述元素表示:
状态
Figure 474516DEST_PATH_IMAGE041
,当为导弹
Figure 944811DEST_PATH_IMAGE035
分配目标时,其导弹类型的独热编码
Figure 284657DEST_PATH_IMAGE042
即为导弹的状态,即
Figure 219115DEST_PATH_IMAGE043
动作
Figure 383118DEST_PATH_IMAGE044
,利用动作向量
Figure 403026DEST_PATH_IMAGE045
表示导弹
Figure 608880DEST_PATH_IMAGE035
选择的目标
Figure 538790DEST_PATH_IMAGE030
作为打击对象的决策;
奖励
Figure 234213DEST_PATH_IMAGE046
,将利用深度强化学习技术训练估值神经网络所需的奖励信号分为两个部分:基于决策边际收益的局部奖励和基于作战效能的全局奖励;
S3-2:基于决策边际收益的局部奖励表示单次决策所带来的预期作战收益的增加;已知变量
Figure 616784DEST_PATH_IMAGE047
为已选择目标
Figure 688645DEST_PATH_IMAGE030
作为打击对象的导弹群中除了导弹
Figure 791772DEST_PATH_IMAGE035
以外的所有导弹期望获得的作战效能,其数学描述为:
Figure 799042DEST_PATH_IMAGE048
对于将目标
Figure 793543DEST_PATH_IMAGE030
分配给导弹
Figure 278882DEST_PATH_IMAGE035
的决策,做出该决策后针对目标
Figure 308018DEST_PATH_IMAGE030
可获得的预期作战收益
Figure 17348DEST_PATH_IMAGE049
为:
Figure 138626DEST_PATH_IMAGE050
则该决策带来的预期作战收益的增加为:
Figure 552289DEST_PATH_IMAGE051
全局作战效能表示完成导弹群的目标分配后所获得的作战收益;定义决策变量
Figure 45719DEST_PATH_IMAGE052
表示导弹
Figure 253846DEST_PATH_IMAGE053
的目标分配情况:
Figure 895043DEST_PATH_IMAGE054
则全局决策矩阵
Figure 987764DEST_PATH_IMAGE055
表示全局目标分配情况;由此,定义全局作战效能的计算公式:
Figure 725913DEST_PATH_IMAGE056
将全局作战效能平均分给每一次决策,即得到单次决策所获得的基于全局作战效能的全局奖励:
Figure 478843DEST_PATH_IMAGE057
综上,定义奖励
Figure 935232DEST_PATH_IMAGE058
为:
Figure 362803DEST_PATH_IMAGE059
其中,
Figure 96403DEST_PATH_IMAGE060
为调整全局奖励与局部奖励各自重要性的控制因子。
进一步地,所述步骤S4的具体方法为:针对目标群中的N个目标,根据步骤S2得到N个导弹-目标联合状态向量,将其分别输入步骤S3得到的估值神经网络模型,从而得到N个输出估值,再从N个输出估值中找出最大估值,最大估值对应的目标即为导弹选择的打击目标。
本发明的有益效果在于:本发明提供了一种基于神经网络的弹群在线目标分配方法,构建弹群在线目标分配的马尔科夫决策过程,并基于深度强化学习技术训练估值神经网络,再利用估值神经网络实现弹群的实时在线目标分配,通过解决大规模弹群协同作战场景中复杂性高、对抗性强的问题,为最大化导弹群协同作战效能奠定基础。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,通过参考附图会更加清楚的理解本发明的特征和优点,附图是示意性的而不应理解为对本发明进行任何限制,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,可以根据这些附图获得其他的附图。其中:
图1是本发明的一种对导弹群进行在线目标分配的方法的流程图;
图2是本发明截断测试的无局部奖励版本训练曲线;
图3是本发明截断测试的无全局奖励版本训练曲线;
图4是本发明截断测试的完整版本训练曲线。
具体实施方式
为了能够更清楚地理解本发明的上述目的、特征和优点,下面结合附图和具体实施方式对本发明进行进一步的详细描述。需要说明的是,在不冲突的情况下,本发明的实施例及实施例中的特征可以相互组合。
在下面的描述中阐述了很多具体细节以便于充分理解本发明,但是,本发明还可以采用其他不同于在此描述的其他方式来实施,因此,本发明的保护范围并不受下面公开的具体实施例的限制。
一种对导弹群进行在线目标分配的方法,包括以下步骤:
S1:根据实时获取的各个目标的状态以及导弹群自身的状态,建立导弹群对目标群的打击优势矩阵;
S2:对于导弹群中未分配目标的导弹,根据步骤S1中打击优势矩阵、导弹群与目标群的作战相关信息以及导弹群的当前目标分配情况,分别构建待分配目标的导弹与目标群中各目标的导弹-目标联合状态向量;
S3:根据步骤S2导弹与目标群中各目标的导弹-目标联合状态向量,利用深度强化学习技术训练估值神经网络模型;
S4:利用步骤S3训练的估值神经网络模型为导弹分配目标;
S5:重复步骤S2和步骤S4,直至导弹群中所有导弹都被分配且仅分配了一个目标为止。
步骤S1中的导弹群对目标群的打击优势矩阵为
Figure 911913DEST_PATH_IMAGE001
Figure 199806DEST_PATH_IMAGE002
其中,导弹
Figure 758963DEST_PATH_IMAGE003
对目标
Figure 642343DEST_PATH_IMAGE004
的打击优势为
Figure 504120DEST_PATH_IMAGE005
Figure 935101DEST_PATH_IMAGE006
MN分别表示导弹群中导弹的数量和目标群中目标的数量;
Figure 642157DEST_PATH_IMAGE007
为导弹对目标的捕获概率;不同类型的导弹可能会携带不同的导引头,不同类型的导引头根据实际战场环境对于目标有着不同的捕获能力。
Figure 209405DEST_PATH_IMAGE008
为角度优势:
Figure 38820DEST_PATH_IMAGE009
,其中,
Figure 65420DEST_PATH_IMAGE010
为弹目视线角,
Figure 700801DEST_PATH_IMAGE011
为可变参数,随着弹目距离的改变而改变,由于距离越远角度优势的影响越小,因此假设
Figure 263500DEST_PATH_IMAGE011
与弹目距离成正比;一般来说,导弹的速度方向越接近弹目视线方向,导弹越容易攻击,也就是说导弹在朝向目标飞行时拥有较大角度优势。
Figure 263817DEST_PATH_IMAGE012
为距离优势:
Figure 403812DEST_PATH_IMAGE013
Figure 718249DEST_PATH_IMAGE014
Figure 994510DEST_PATH_IMAGE015
,其中,
Figure 664263DEST_PATH_IMAGE016
为导弹导引头的探测距离的范围;
Figure 166920DEST_PATH_IMAGE017
为速度优势函数:
Figure 144103DEST_PATH_IMAGE018
,其中,
Figure 681395DEST_PATH_IMAGE019
分别为目标与导弹的速度,多数情况下,只有导弹速度比目标速度大时,导弹才能攻击到目标。
步骤S2的具体过程为:
S2-1:定义
Figure 23515DEST_PATH_IMAGE020
代表导弹
Figure 872522DEST_PATH_IMAGE003
类型的独热编码,
Figure 27297DEST_PATH_IMAGE021
表示导弹群中导弹的类型数;定义
Figure 543729DEST_PATH_IMAGE022
为代表目标
Figure 56750DEST_PATH_IMAGE023
类型的独热编码,
Figure 268420DEST_PATH_IMAGE024
表示目标群中目标的类型数;令
Figure 852985DEST_PATH_IMAGE025
表示指向目标
Figure 833711DEST_PATH_IMAGE023
的导弹数量,例如
Figure 845529DEST_PATH_IMAGE061
表示现有1枚类型为1的导弹以及2枚类型为2的导弹指向目标
Figure 105347DEST_PATH_IMAGE023
;令
Figure 103390DEST_PATH_IMAGE026
表示选择目标
Figure 328835DEST_PATH_IMAGE023
作为打击对象的导弹集合,则
Figure 386921DEST_PATH_IMAGE027
表示
Figure 369920DEST_PATH_IMAGE026
中所有导弹对目标
Figure 296288DEST_PATH_IMAGE023
的联合打击优势:
Figure 15720DEST_PATH_IMAGE028
其中,h为选择目标
Figure 103762DEST_PATH_IMAGE023
作为打击对象的导弹集合
Figure 777319DEST_PATH_IMAGE026
中导弹的下标;
S2-2:令
Figure 507378DEST_PATH_IMAGE029
表示
Figure 379519DEST_PATH_IMAGE026
中所有导弹对目标
Figure 779408DEST_PATH_IMAGE030
的期望联合作战效能,设
Figure 799316DEST_PATH_IMAGE031
为目标
Figure 706967DEST_PATH_IMAGE030
的价值,则
Figure 761511DEST_PATH_IMAGE029
的计算公式为:
Figure 129038DEST_PATH_IMAGE032
其中,
Figure 777188DEST_PATH_IMAGE033
表示导弹群中第
Figure 583470DEST_PATH_IMAGE034
枚导弹;
S2-3:定义导弹
Figure 367887DEST_PATH_IMAGE035
与目标
Figure 499791DEST_PATH_IMAGE030
的导弹-目标联合状态向量为:
Figure 664931DEST_PATH_IMAGE036
则导弹
Figure 415849DEST_PATH_IMAGE035
与目标群中所有目标的导弹-目标联合状态向量的集合为:
Figure 913826DEST_PATH_IMAGE037
其中,
Figure 91998DEST_PATH_IMAGE038
为导弹
Figure 245899DEST_PATH_IMAGE035
与目标
Figure 659563DEST_PATH_IMAGE030
的导弹-目标联合状态向量,
Figure 651527DEST_PATH_IMAGE039
为导弹
Figure 125234DEST_PATH_IMAGE035
所对应下标,
Figure 969693DEST_PATH_IMAGE040
为目标
Figure 859152DEST_PATH_IMAGE030
所对应下标。
步骤S3的具体处理过程为:
S3-1:将为导弹群中的导弹在线分配目标的决策过程建模为马尔可夫决策过程;马尔可夫决策过程由下述元素表示:
状态
Figure 597300DEST_PATH_IMAGE041
,当为导弹
Figure 851695DEST_PATH_IMAGE035
分配目标时,其导弹类型的独热编码
Figure 308085DEST_PATH_IMAGE042
即为导弹的状态,即
Figure 234190DEST_PATH_IMAGE043
动作
Figure 967791DEST_PATH_IMAGE044
,利用动作向量
Figure 517721DEST_PATH_IMAGE045
表示导弹
Figure 71193DEST_PATH_IMAGE035
选择的目标
Figure 630350DEST_PATH_IMAGE030
作为打击对象的决策;
奖励
Figure 15195DEST_PATH_IMAGE046
,将利用深度强化学习技术训练估值神经网络所需的奖励信号分为两个部分:基于决策边际收益的局部奖励和基于作战效能的全局奖励;
S3-2:基于决策边际收益的局部奖励表示单次决策所带来的预期作战收益的增加;已知变量
Figure 375507DEST_PATH_IMAGE047
为已选择目标
Figure 540909DEST_PATH_IMAGE030
作为打击对象的导弹群中除了导弹
Figure 513545DEST_PATH_IMAGE035
以外的所有导弹期望获得的作战效能,其数学描述为:
Figure 80792DEST_PATH_IMAGE048
对于将目标
Figure 113470DEST_PATH_IMAGE030
分配给导弹
Figure 438272DEST_PATH_IMAGE035
的决策,做出该决策后针对目标
Figure 339232DEST_PATH_IMAGE030
可获得的预期作战收益
Figure 134888DEST_PATH_IMAGE049
为:
Figure 463101DEST_PATH_IMAGE050
则该决策带来的预期作战收益的增加为:
Figure 478461DEST_PATH_IMAGE051
全局作战效能表示完成导弹群的目标分配后所获得的作战收益;定义决策变量
Figure 589637DEST_PATH_IMAGE052
表示导弹
Figure 131477DEST_PATH_IMAGE053
的目标分配情况:
Figure 240378DEST_PATH_IMAGE054
则全局决策矩阵
Figure 867668DEST_PATH_IMAGE062
表示全局目标分配情况;由此,定义全局作战效能的计算公式:
Figure 484332DEST_PATH_IMAGE056
将全局作战效能平均分给每一次决策,即得到单次决策所获得的基于全局作战效能的全局奖励:
Figure 552782DEST_PATH_IMAGE057
综上,定义奖励
Figure 222798DEST_PATH_IMAGE058
为:
Figure 947172DEST_PATH_IMAGE059
其中,
Figure 993625DEST_PATH_IMAGE060
为调整全局奖励与局部奖励各自重要性的控制因子。
以一个带残差连接的4层BP神经网络作为估值神经网络,其输入为步骤S2中导弹与目标的联合状态向量,输出为一个1维标量,表示目标作为导弹的打击对象的战略估值。对于导弹
Figure 916582DEST_PATH_IMAGE053
,将导弹
Figure 154838DEST_PATH_IMAGE053
与目标群中所有目标的联合状态向量分别输入估值神经网络,即将联合状态向量集合
Figure 491141DEST_PATH_IMAGE063
中的元素分别作为估值神经网络的输入,则可得到
Figure 951072DEST_PATH_IMAGE064
个由估值神经网络输出的估值。令
Figure 994115DEST_PATH_IMAGE030
为最大估值所对应的目标,则将目标
Figure 5933DEST_PATH_IMAGE030
分配给导弹
Figure 970478DEST_PATH_IMAGE053
作为打击对象。因此,当目标数量或导弹数量发生变化而导致作战规模发生改变时,无需改变估值神经网络的网络结构,仅仅需要改变估值网络前向推断的次数即可在新的作战规模下为导弹群实时在线地分配合适的目标。
需要注意的是,尽管本发明实例以一个带残差连接的4层BP神经网络作为估值神经网络,但以其他任何参数化模型作为估值模型所获得的其他实施例,都属于本发明保护的范围。
步骤S4的具体方法为:针对目标群中的N个目标,根据步骤S2得到N个导弹-目标联合状态向量,将其分别输入步骤S3得到的估值神经网络模型,从而得到N个输出估值,再从N个输出估值中找出最大估值,最大估值对应的目标即为导弹选择的打击目标。
为了方便理解本发明的上述技术方案,以下通过具体实施例对本发明的上述技术方案进行详细说明。
实施例1
截断测试,截断测试是指去除模型或算法中的某一部分,然后观察其对算法或模型的影响。为了展示在所提出的对导弹群进行在线目标分配的方法中设计的各个部分的有效性,分别去除了所建模马尔可夫决策过程中的局部奖励信号与全局奖励信号,并利用所得的两个版本的算法与完整版本的算法进行比较,得到的相关训练曲线如图2-图4所示;
图中,深灰色曲线代表5次实验的平均值,而浅灰色区域表示对应的置信区间。由图2可以看出,去掉局部奖励的算法版本在训练中无法收敛,所获作战效能与随机选择目标的策略获得的作战效能相当,这意味着仅仅依靠全局奖励信号无法对目标分配策略的优化进行指导,神经网络难以在不同的条件下做出合适的决策。
在图3中,去掉全局奖励的版本虽然能够收敛,然而收敛的结果不理想,这是因为只考虑边际收益(局部奖励)的情况下算法会倾向于选择价值较高的目标,使得在高价值目标上出现火力过于重叠的现象,从而导致最终的作战收益降低;相比之下,完整的版本不仅拥有稳定、高质量的训练结果,同时能在200个训练回合左右即开始收敛,取得了最优的训练结果。
实施例2
性能测试,为了进一步展现本发明的性能,给定20组不同规模的问题实例(例如,N6ρ2代表目标数量为6,导弹-目标数量比为2)。在这些实例上,分别利用本发明提出的基于深度强化学习的目标分配策略优化方法(PODRL)与遗传算法(GA),基于最大化边际收益规则的启发式算法(MRHA),以及随机选择算法(RSA)进行导弹的目标分配,并对所获得的作战效能比较。为了去除随机性,所有实验均重复5次,所记录平均值与标准差结果如表1所示:
表1 四种算法在不同规模问题实例上的结果比较
Figure 827576DEST_PATH_IMAGE065
表中加粗字体表示在某一规模下,各方法所取得的最大作战效能,由表可以看到,本发明的算法在多组问题实例上,尤其是规模较大时,都取得了最佳的实验结果。即使在部分小规模实例中,基于深度强化学习的导弹目标分配方法的效果也接近其他算法的最优结果。值得一提的是,参与测试的神经网络仅仅在单一的目标数量为9的问题规模上进行了训练,却能适应多种不同规模的问题实例,这说明本发明的算法具有较强的泛化性与灵活性,相比于传统的启发式方法更能满足实际应用的需求。
基于所述马尔科夫决策过程,能够在仿真环境中利用深度强化学习技术训练所述估值神经网络。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下,仅仅通过改变所述马尔可夫决策过程中的参数值、调整深度强化学习中的训练策略等简单劳动得到的所有其他实施例,都属于本发明保护的范围。
以上所述仅为本发明的优选实施例而已,并不用于限制本发明,对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (5)

1.一种对导弹群进行在线目标分配的方法,其特征在于,包括以下步骤:
S1:根据实时获取的各个目标的状态以及导弹群自身的状态,建立导弹群对目标群的打击优势矩阵;
S2:对于导弹群中未分配目标的导弹,根据步骤S1中打击优势矩阵、导弹群与目标群的作战相关信息以及导弹群的当前目标分配情况,分别构建待分配目标的导弹与目标群中各目标的导弹-目标联合状态向量;
S3:根据步骤S2导弹与目标群中各目标的导弹-目标联合状态向量,利用深度强化学习技术训练估值神经网络模型;
S4:利用步骤S3训练的估值神经网络模型为导弹分配目标;
S5:重复步骤S2和步骤S4,直至导弹群中所有导弹都被分配且仅分配了一个目标为止。
2.根据权利要求1所述的一种对导弹群进行在线目标分配的方法,其特征在于,所述步骤S1中的导弹群对目标群的打击优势矩阵为
Figure 97064DEST_PATH_IMAGE001
Figure 347917DEST_PATH_IMAGE002
其中,导弹
Figure 329780DEST_PATH_IMAGE003
对目标
Figure 807029DEST_PATH_IMAGE004
的打击优势为
Figure 657173DEST_PATH_IMAGE005
Figure 169057DEST_PATH_IMAGE006
MN分别表示导弹群中导弹的数量和目标群中目标的数量;
Figure 820356DEST_PATH_IMAGE007
为导弹对目标的捕获概率;
Figure 909535DEST_PATH_IMAGE008
为角度优势:
Figure 173157DEST_PATH_IMAGE009
,其中,
Figure 273968DEST_PATH_IMAGE010
为弹目视线角,
Figure 987846DEST_PATH_IMAGE011
为可变参数,假设
Figure 174108DEST_PATH_IMAGE011
与弹目距离成正比;
Figure 739956DEST_PATH_IMAGE012
为距离优势:
Figure 85487DEST_PATH_IMAGE013
Figure 580053DEST_PATH_IMAGE014
Figure 519190DEST_PATH_IMAGE015
,其中,
Figure 249249DEST_PATH_IMAGE016
为导弹导引头的探测距离的范围;
Figure 590232DEST_PATH_IMAGE017
为速度优势函数:
Figure 114754DEST_PATH_IMAGE018
,其中,
Figure 774143DEST_PATH_IMAGE019
分别为目标与导弹的速度。
3.根据权利要求2所述的一种对导弹群进行在线目标分配的方法,其特征在于,所述步骤S2的具体过程为:
S2-1:定义
Figure 183259DEST_PATH_IMAGE020
代表导弹
Figure 237802DEST_PATH_IMAGE003
类型的独热编码,
Figure 339751DEST_PATH_IMAGE021
表示导弹群中导弹的类型数;定义
Figure 112535DEST_PATH_IMAGE022
为代表目标
Figure 794183DEST_PATH_IMAGE023
类型的独热编码,
Figure 968812DEST_PATH_IMAGE024
表示目标群中目标的类型数;令
Figure 498055DEST_PATH_IMAGE025
表示指向目标
Figure 633501DEST_PATH_IMAGE023
的导弹数量;令
Figure 243474DEST_PATH_IMAGE026
表示选择目标
Figure 413556DEST_PATH_IMAGE023
作为打击对象的导弹集合,则
Figure 716361DEST_PATH_IMAGE027
表示
Figure 339103DEST_PATH_IMAGE026
中所有导弹对目标
Figure 126668DEST_PATH_IMAGE023
的联合打击优势:
Figure 10311DEST_PATH_IMAGE028
其中,h为选择目标
Figure 624963DEST_PATH_IMAGE023
作为打击对象的导弹集合
Figure 594056DEST_PATH_IMAGE026
中导弹的下标;
S2-2:令
Figure 421198DEST_PATH_IMAGE029
表示
Figure 565871DEST_PATH_IMAGE026
中所有导弹对目标
Figure 210479DEST_PATH_IMAGE030
的期望联合作战效能,设
Figure 306349DEST_PATH_IMAGE031
为目标
Figure 61815DEST_PATH_IMAGE030
的价值,则
Figure 529837DEST_PATH_IMAGE029
的计算公式为:
Figure 345346DEST_PATH_IMAGE032
其中,
Figure 429977DEST_PATH_IMAGE033
表示导弹群中第
Figure 864500DEST_PATH_IMAGE034
枚导弹;
S2-3:定义导弹
Figure 577241DEST_PATH_IMAGE035
与目标
Figure 937553DEST_PATH_IMAGE030
的导弹-目标联合状态向量为:
Figure 368535DEST_PATH_IMAGE036
则导弹
Figure 606749DEST_PATH_IMAGE035
与目标群中所有目标的导弹-目标联合状态向量的集合为:
Figure 314942DEST_PATH_IMAGE037
其中,
Figure 206675DEST_PATH_IMAGE038
为导弹
Figure 318DEST_PATH_IMAGE035
与目标
Figure 166857DEST_PATH_IMAGE030
的导弹-目标联合状态向量,
Figure 962513DEST_PATH_IMAGE039
为导弹
Figure 290726DEST_PATH_IMAGE035
所对应下标,
Figure 571666DEST_PATH_IMAGE040
为目标
Figure 151683DEST_PATH_IMAGE030
所对应下标。
4.根据权利要求3所述的一种对导弹群进行在线目标分配的方法,其特征在于,所述步骤S3的具体处理过程为:
S3-1:将为导弹群中的导弹在线分配目标的决策过程建模为马尔可夫决策过程;马尔可夫决策过程由下述元素表示:
状态
Figure 693523DEST_PATH_IMAGE041
,当为导弹
Figure 333583DEST_PATH_IMAGE035
分配目标时,其导弹类型的独热编码
Figure 600354DEST_PATH_IMAGE042
即为导弹的状态,即
Figure 843116DEST_PATH_IMAGE043
动作
Figure 114829DEST_PATH_IMAGE044
,利用动作向量
Figure 50424DEST_PATH_IMAGE045
表示导弹
Figure 40376DEST_PATH_IMAGE035
选择的目标
Figure 821250DEST_PATH_IMAGE030
作为打击对象的决策;
奖励
Figure 478628DEST_PATH_IMAGE046
,将利用深度强化学习技术训练估值神经网络所需的奖励信号分为两个部分:基于决策边际收益的局部奖励和基于作战效能的全局奖励;
S3-2:基于决策边际收益的局部奖励表示单次决策所带来的预期作战收益的增加;已知变量
Figure 693446DEST_PATH_IMAGE047
为已选择目标
Figure 560908DEST_PATH_IMAGE030
作为打击对象的导弹群中除了导弹
Figure 20839DEST_PATH_IMAGE035
以外的所有导弹期望获得的作战效能,其数学描述为:
Figure 391778DEST_PATH_IMAGE048
对于将目标
Figure 278962DEST_PATH_IMAGE030
分配给导弹
Figure 243507DEST_PATH_IMAGE035
的决策,做出该决策后针对目标
Figure 631763DEST_PATH_IMAGE030
可获得的预期作战收益
Figure 231110DEST_PATH_IMAGE049
为:
Figure 679409DEST_PATH_IMAGE050
则该决策带来的预期作战收益的增加为:
Figure 131250DEST_PATH_IMAGE051
全局作战效能表示完成导弹群的目标分配后所获得的作战收益;定义决策变量
Figure 198563DEST_PATH_IMAGE052
表示导弹
Figure 278514DEST_PATH_IMAGE053
的目标分配情况:
Figure 773081DEST_PATH_IMAGE054
则全局决策矩阵
Figure 571272DEST_PATH_IMAGE055
表示全局目标分配情况;由此,定义全局作战效能的计算公式:
Figure 940812DEST_PATH_IMAGE056
将全局作战效能平均分给每一次决策,即得到单次决策所获得的基于全局作战效能的全局奖励:
Figure 875270DEST_PATH_IMAGE057
综上,定义奖励
Figure 806316DEST_PATH_IMAGE058
为:
Figure 967171DEST_PATH_IMAGE059
其中,
Figure 235341DEST_PATH_IMAGE060
为调整全局奖励与局部奖励各自重要性的控制因子。
5.根据权利要求4所述的一种对导弹群进行在线目标分配的方法,其特征在于,所述步骤S4的具体方法为:针对目标群中的N个目标,根据步骤S2得到N个导弹-目标联合状态向量,将其分别输入步骤S3得到的估值神经网络模型,从而得到N个输出估值,再从N个输出估值中找出最大估值,最大估值对应的目标即为导弹选择的打击目标。
CN202110715726.3A 2021-06-28 2021-06-28 一种对导弹群进行在线目标分配的方法 Active CN113255234B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110715726.3A CN113255234B (zh) 2021-06-28 2021-06-28 一种对导弹群进行在线目标分配的方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110715726.3A CN113255234B (zh) 2021-06-28 2021-06-28 一种对导弹群进行在线目标分配的方法

Publications (2)

Publication Number Publication Date
CN113255234A true CN113255234A (zh) 2021-08-13
CN113255234B CN113255234B (zh) 2021-09-28

Family

ID=77189925

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110715726.3A Active CN113255234B (zh) 2021-06-28 2021-06-28 一种对导弹群进行在线目标分配的方法

Country Status (1)

Country Link
CN (1) CN113255234B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114442666A (zh) * 2022-01-20 2022-05-06 北京理工大学 一种异构精导弹群协同毁伤评估方法

Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2001194097A (ja) * 2000-01-11 2001-07-17 Mitsubishi Electric Corp 飛しょう体の誘導装置
CN101136081A (zh) * 2007-09-13 2008-03-05 北京航空航天大学 基于蚁群智能的无人作战飞机多机协同任务分配方法
US20130092785A1 (en) * 2008-07-11 2013-04-18 Davidson Technologies, Inc. System and method for guiding and controlling a missile using high order sliding mode control
CN110163502A (zh) * 2019-05-21 2019-08-23 北京壹氢科技有限公司 一种多弹协同多阶段目标分配方法
CN110187640A (zh) * 2019-06-29 2019-08-30 东南大学 针对机动目标和允许通信时滞的多导弹协同作战制导律设计方法
CN110186328A (zh) * 2019-06-03 2019-08-30 北京航空航天大学 一种多目标拦截的导弹分配方法及系统
CN111091273A (zh) * 2019-11-29 2020-05-01 上海航天控制技术研究所 一种基于能力预测的多弹协同任务规划方法
CN112799429A (zh) * 2021-01-05 2021-05-14 北京航空航天大学 基于强化学习的多弹协同攻击制导律设计方法
CN112861257A (zh) * 2021-01-10 2021-05-28 西北工业大学 一种基于神经网络的飞机火控系统精度敏感性分析方法
CN112902767A (zh) * 2021-01-28 2021-06-04 西安交通大学 一种多弹时间协同的导弹制导方法及系统
CN112947581A (zh) * 2021-03-25 2021-06-11 西北工业大学 基于多智能体强化学习的多无人机协同空战机动决策方法

Patent Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2001194097A (ja) * 2000-01-11 2001-07-17 Mitsubishi Electric Corp 飛しょう体の誘導装置
CN101136081A (zh) * 2007-09-13 2008-03-05 北京航空航天大学 基于蚁群智能的无人作战飞机多机协同任务分配方法
US20130092785A1 (en) * 2008-07-11 2013-04-18 Davidson Technologies, Inc. System and method for guiding and controlling a missile using high order sliding mode control
CN110163502A (zh) * 2019-05-21 2019-08-23 北京壹氢科技有限公司 一种多弹协同多阶段目标分配方法
CN110186328A (zh) * 2019-06-03 2019-08-30 北京航空航天大学 一种多目标拦截的导弹分配方法及系统
CN110187640A (zh) * 2019-06-29 2019-08-30 东南大学 针对机动目标和允许通信时滞的多导弹协同作战制导律设计方法
CN111091273A (zh) * 2019-11-29 2020-05-01 上海航天控制技术研究所 一种基于能力预测的多弹协同任务规划方法
CN112799429A (zh) * 2021-01-05 2021-05-14 北京航空航天大学 基于强化学习的多弹协同攻击制导律设计方法
CN112861257A (zh) * 2021-01-10 2021-05-28 西北工业大学 一种基于神经网络的飞机火控系统精度敏感性分析方法
CN112902767A (zh) * 2021-01-28 2021-06-04 西安交通大学 一种多弹时间协同的导弹制导方法及系统
CN112947581A (zh) * 2021-03-25 2021-06-11 西北工业大学 基于多智能体强化学习的多无人机协同空战机动决策方法

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
JIANGLONG YU等: "Cooperative guidance strategy for multiple hypersonic gliding vehicles system", 《CHINESE JOURNAL OF AERONAUTICS》 *
张达等: "多约束条件下的协同制导研究进展", 《南京信息工程大学学报(自然科学版)》 *
李昌玺等: "弹道导弹群目标跟踪技术综述", 《战术导弹技术》 *
田秀丽等: "地空导弹群火力优化分配模型", 《现代防御技术》 *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114442666A (zh) * 2022-01-20 2022-05-06 北京理工大学 一种异构精导弹群协同毁伤评估方法
CN114442666B (zh) * 2022-01-20 2023-01-31 北京理工大学 一种异构精导弹群协同毁伤评估方法

Also Published As

Publication number Publication date
CN113255234B (zh) 2021-09-28

Similar Documents

Publication Publication Date Title
CN108680063B (zh) 一种针对大规模无人机集群动态对抗的决策方法
CN111666631A (zh) 犹豫模糊和动态深度强化学习相结合的无人机机动决策方法
CN111240353A (zh) 基于遗传模糊树的无人机协同空战决策方法
CN108549402A (zh) 基于量子乌鸦群搜索机制的无人机群任务分配方法
CN107063255A (zh) 一种基于改进果蝇优化算法的三维航路规划方法
CN110928329A (zh) 一种基于深度q学习算法的多飞行器航迹规划方法
CN114358141A (zh) 一种面向多作战单元协同决策的多智能体增强学习方法
CN113159266B (zh) 基于麻雀搜索神经网络的空战机动决策方法
CN113255234B (zh) 一种对导弹群进行在线目标分配的方法
CN115525058B (zh) 一种基于深度强化学习的无人潜航器集群协同对抗方法
CN105739304B (zh) 一种基于对立思想改进遗传算法的多ucav在线打击目标分配方法
CN112306070A (zh) 基于区间信息博弈的多auv动态机动决策方法
CN116225049A (zh) 一种多无人机狼群协同作战攻防决策算法
CN112305913A (zh) 基于直觉模糊博弈的多uuv协同动态机动决策方法
CN116680509A (zh) 一种用于多航天器追逃博弈任务的动态匹配方法
CN115951695A (zh) 空战模拟环境中基于三方博弈的动态战术控制域解算方法
CN111773722B (zh) 一种模拟环境中的战斗机规避机动策略集生成方法
CN113128021B (zh) 多无人平台协同对抗的实时重决策方法和系统
CN110782062A (zh) 一种用于防空系统的多对多分组拦截目标分配方法及系统
Wu et al. Dynamic multitarget assignment based on deep reinforcement learning
CN111797966B (zh) 一种基于改进羊群算法的多机协同全局目标分配方法
Yan et al. Research on intelligent minefield attack decision based on adaptive fireworks algorithm
CN113095465B (zh) 量子大马哈鱼洄游机制演化博弈的水下无人集群任务分配方法
CN113324545A (zh) 一种基于混合增强智能的多无人机协同任务规划方法
Wang et al. Research on naval air defense intelligent operations on deep reinforcement learning

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant