CN117057233A - 基于势博弈与深度强化学习的防空作战智能决策方法 - Google Patents
基于势博弈与深度强化学习的防空作战智能决策方法 Download PDFInfo
- Publication number
- CN117057233A CN117057233A CN202311020655.0A CN202311020655A CN117057233A CN 117057233 A CN117057233 A CN 117057233A CN 202311020655 A CN202311020655 A CN 202311020655A CN 117057233 A CN117057233 A CN 117057233A
- Authority
- CN
- China
- Prior art keywords
- target
- state
- office
- combat
- air
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 34
- 230000002787 reinforcement Effects 0.000 title claims abstract description 20
- 230000007123 defense Effects 0.000 claims abstract description 23
- 230000008569 process Effects 0.000 claims abstract description 9
- 238000007781 pre-processing Methods 0.000 claims abstract description 6
- 238000005457 optimization Methods 0.000 claims abstract description 5
- 230000006870 function Effects 0.000 claims description 41
- 230000009471 action Effects 0.000 claims description 24
- 230000007704 transition Effects 0.000 claims description 12
- 239000013598 vector Substances 0.000 claims description 10
- 239000011159 matrix material Substances 0.000 claims description 9
- 230000007246 mechanism Effects 0.000 claims description 7
- 230000009466 transformation Effects 0.000 claims description 7
- 241000288105 Grus Species 0.000 claims description 6
- 239000003795 chemical substances by application Substances 0.000 claims description 6
- 238000012546 transfer Methods 0.000 claims description 6
- 230000006399 behavior Effects 0.000 claims description 4
- 230000001186 cumulative effect Effects 0.000 claims description 2
- 238000000605 extraction Methods 0.000 claims description 2
- 238000013507 mapping Methods 0.000 claims description 2
- 238000012545 processing Methods 0.000 claims description 2
- 230000001131 transforming effect Effects 0.000 claims description 2
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 238000012795 verification Methods 0.000 description 1
- 239000002699 waste material Substances 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F30/00—Computer-aided design [CAD]
- G06F30/20—Design optimisation, verification or simulation
- G06F30/27—Design optimisation, verification or simulation using machine learning, e.g. artificial intelligence, neural networks, support vector machines [SVM] or training a model
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/31—Indexing; Data structures therefor; Storage structures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/29—Graphical models, e.g. Bayesian networks
- G06F18/295—Markov models or related models, e.g. semi-Markov models; Markov random fields; Networks embedding Markov models
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/284—Lexical analysis, e.g. tokenisation or collocates
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/044—Recurrent networks, e.g. Hopfield networks
- G06N3/0442—Recurrent networks, e.g. Hopfield networks characterised by memory or gating, e.g. long short-term memory [LSTM] or gated recurrent units [GRU]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/092—Reinforcement learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N5/00—Computing arrangements using knowledge-based models
- G06N5/04—Inference or reasoning models
- G06N5/042—Backward inferencing
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
- G06Q50/10—Services
- G06Q50/26—Government or public services
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F2111/00—Details relating to CAD techniques
- G06F2111/04—Constraint-based CAD
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Software Systems (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Business, Economics & Management (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Molecular Biology (AREA)
- Databases & Information Systems (AREA)
- Tourism & Hospitality (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Educational Administration (AREA)
- Geometry (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Medical Informatics (AREA)
- Development Economics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computer Hardware Design (AREA)
- Economics (AREA)
- Human Resources & Organizations (AREA)
- Marketing (AREA)
- Primary Health Care (AREA)
- Strategic Management (AREA)
- General Business, Economics & Management (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明公开了基于势博弈与深度强化学习的防空作战智能决策方法,属于数据安全领域,该决策方法具体步骤如下:(1)收集防空作战所需数据并进行预处理;(2)通过Bi‑GRU网络提取空情特征;(3)依据防空作战环境和参与者进行势博弈建模;(4)建立马尔可夫过程模型制定优化决策;本发明能够提升目标分配合理性,实现高效分配,节约火力资源,对环境的探索效率更高,对计算资源利用率较高同时可以实现更好的策略,从而取得更高的胜率。
Description
技术领域
本发明涉及数据安全领域,尤其涉及基于势博弈与深度强化学习的防空作战智能决策方法。
背景技术
现代战争是高科技的战争,高科技武器是决定战争胜负的重要因素。决策是作战的核心,其内涵是根据对手的信息,对多类型、多平台武器装备进行高效运用,合理分配来袭目标,完成抗击。随着无人集群等新型空袭兵器的发展,防空作战面临的战场情况变得日趋复杂多变,作战决策系统面临新挑战,防空作战过程示意图如图1所示。在防空作战中,高效的决策与自由决策相比作战效能提高3倍以上。合理配置作战资源,提升拦截效率已成为作战决策系统亟待解决的问题;因此,发明出基于势博弈与深度强化学习的防空作战智能决策方法变得尤为重要。
现有的防空作战智能决策方法目标分配合理性低,无法高效分配目标,火力资源浪费严重,对环境探索效率低下;为此,我们提出基于势博弈与深度强化学习的防空作战智能决策方法。
发明内容
本发明的目的是为了解决现有技术中存在的缺陷,而提出的基于势博弈与深度强化学习的防空作战智能决策方法。
为了实现上述目的,本发明采用了如下技术方案:
基于势博弈与深度强化学习的防空作战智能决策方法,该决策方法具体步骤如下:
(1)收集防空作战所需数据并进行预处理;
(2)通过Bi-GRU网络提取空情特征;
(3)依据防空作战环境和参与者进行势博弈建模;
(4)建立马尔可夫过程模型制定优化决策。
作为本发明的进一步方案,步骤(1)中所述防空作战所需数据具体包括状态数据以及动作空间;
其中,状态数据具体分为我方保卫要地状态、我方火力单元状态、被侦察到的敌方目标状态以及可被攻击的敌方目标状态;
我方保卫要地状态包括要地编号、位置、类型以及受攻击状态;我方火力单元状态包括火力单元标编号、位置、剩余导弹数量、剩余导弹是否可用、本单元能攻击的目标编号以及受攻击状态;被侦察到的敌方目标状态包括目标编号、位置、类型、运动状态以及受攻击状态;
动作空间具体包括目标选择、目标威胁度、雷达选择以及雷达动作。
作为本发明的进一步方案,步骤(1)中所述防空作战所需数据预处理步骤如下:
步骤一:将收集到的防空作战所需数据分类完成后,对各组数据进行标准化处理,根据处理后的数据,构建一个词汇表,将每个不同的词分配一个唯一的索引;
步骤二:将防空作战所需数据转换为序列化的表示形式,并将每个句子分割为单词,并将每个单词映射为词汇表中的索引,同时对序列进行填充或截断,使它们具有相同的长度。
作为本发明的进一步方案,步骤(2)中所述Bi-GRU网络特征提取具体步骤如下:
步骤①:将序列化后的防空作战所需数据映射为固定维度的向量,之后通过一组正向GRU和一组反向GRU构建Bi-GRU网络,将多个注意力头添加到Bi-GRU网络中,并确定Bi-GRU网络参数信息;
步骤②:拼接多个自注意力层,获取对应多头注意力机制,并通过多个注意力层从不同角度对相同输入进行线性变换,提取防空作战所需数据中的重要特征,将多个注意力头的输出进行融合,并将融合后的特征向量输入到后续的层中。
作为本发明的进一步方案,步骤②中所述线性变换具体计算公式如下:
P=Wpx,P∈(Q,K,V) (1)
其中,Wp代表对应向量的线性变换矩阵;
所述多头注意力机制具体计算公式如下:
MultiHead(Q,K,V)=Concat(head1,…,headh)WO (3)
wherehead=Attention(QWi Q,KWi K,VWi V) (4)
其中,WO、Wi Q、Wi K以及Wi V代表数据投影中可学习的参数矩阵,h代表注意力头的数量。
作为本发明的进一步方案,步骤(3)中所述势博弈建模具体步骤如下:
步骤Ⅰ:收集DRL-TSRC给出的待拦截目标和制导雷达已经开机的火力单元,并定义目标集Nt={1,2,…,T},其中,元素为待拦截目标,将防空作战中制导雷达已经开机的火力单元作为局中人,并定义局中人集合Nm={LM1,…,LMs,SM1,…SMk},其中,远程火力单元集合为LM={LM1,…,LMs},近程火力单元集合为SM={SM1,…SMk};
步骤Ⅱ:收集各局中人的策略集,并定义各局中人射击策略,同时通过远程火力单元和近程火力单元数量确认该策略约束条件,之后依据最小化拦截成本设计罚函数;
步骤Ⅲ:将罚函数添加至各局中人上以获取对应效用函数,之后设定最大等待时间,并进行迭代,每组局中人在最大等待时间内随机产生一组等待时间,并开始计时;
步骤Ⅳ:若该局中人在迭代开始前的等待时间接收到其他局中人发出的DR信号,则停止计时,并放弃决策者推选,否则,该局中人向其他局中人发送DR信号,并确定为本轮决策者;
步骤Ⅴ:初始化目标分配博弈,分别确定火力单元数量和目标数量,之后随机初始化策略组合和迭代次数,将决策者作为在迭代中改变策略的局中人,获取随机火力单元的可用策略集以及火力单元的策略,并计算其策略效用函数;
步骤Ⅵ:从火力单元的策略中任选一组更新策略集,暂时更新策略,同时重新计算其效用函数,若该效用函数优于原有效用函数,则更新策略组合。
作为本发明的进一步方案,步骤Ⅱ中所述局中人射击策略具体表示形式如下:
其中,若目标j满足局中人i拦截条件,记作Cij=1,否则记作Cij=0;
步骤Ⅲ中所述效用函数具体计算公式如下:
其中,αj代表目标j的威胁度,t代表目标类型,ft i代表火力单元i拦截1架/枚t类型目标所获得的奖励值,Ji={i′|i′∈Nm,Cij=1,Ci′j=1,i′≠i}代表i的临近火力单元集,代表火力单元i与目标j的航路捷径,/>代表目标j到所能拦截该目标的火力单元中航路捷径最大值,β代表罚系数。
作为本发明的进一步方案,步骤(4)中所述优化决策具体制定步骤如下;
第一步:依据收集到的各组数据构建马尔可夫过程模型,收集状态集S=[s1,s2,…,sn]以及动作集A=[a1,a2,…,an],之后智能体通过策略π:S×A→[0,1],在状态si时从动作集中选取动作ai,同时战场环境按照状态转移函数P:S×A×S→[0,1]转移到下一个状态;
第二步:通过状态转移矩阵对每对状态之间的转移概率进行计算,之后定义在初始时刻的状态分布概率,并计算智能体采取动作ai经过转移后的期望预期奖励,同时计算策略π处于状态si时的预期累积奖励,然后通过策略梯度方法获取更大的期望奖励函数;
第三步:对不同类型火力单元给出不同的奖励值,根据火力单元类型不同,给出不同的雷达被攻击奖励、发射导弹奖励和拦截目标奖励,再验证构建的马尔可夫模型是否符合实际系统的特征和行为,根据实际数据和观测结果,对模型进行调整和优化,以提高模型的准确性和适应性,再使用马尔可夫模型进行决策。
作为本发明的进一步方案,第二步所述转移概率具体计算公式如下:
Pss′=P[st+1=s′|st=s] (9)
其中,s代表当前状态,s′代表后续状态;
第二步中所述预期累积奖励具体计算公式如下:
Vπ(s)=E[Rt|st=s,π] (10)
π(a|s)=P[at=a|st=s] (11)
Qπ(s,a)=E[Rt|st=s,at=a,π] (12)
其中,Vπ(s)代表状态值函数,E代表期望运算符,Qπ(s,a)代表动作状态值函数。
相比于现有技术,本发明的有益效果在于:
该基于势博弈与深度强化学习的防空作战智能决策方法通过将收集到的防空作战所需数据预处理成统一格式数据后,将其映射为固定维度的向量,并将多头注意力机制添加到Bi-GRU网络中,之后通过多个注意力层从不同角度对相同输入进行线性变换,提取防空作战所需数据中的重要特征,收集待拦截目标和制导雷达已经开机的火力单元,依据最小化拦截成本设计罚函数,将罚函数添加至各局中人上以获取对应效用函数,之后设定最大等待时间,并进行迭代,并确定决策者,初始化目标分配博弈,分别确定火力单元数量和目标数量,之后随机初始化策略组合和迭代次数以更新策略组合,然后构建马尔可夫过程模型,并对不同类型火力单元给出不同的奖励值,根据火力单元类型不同,给出不同的雷达被攻击奖励、发射导弹奖励和拦截目标奖励,再验证构建的马尔可夫模型是否符合实际系统的特征和行为,根据实际数据和观测结果,对模型进行调整和优化,以提高模型的准确性和适应性,再使用马尔可夫模型进行决策,能够提升目标分配合理性,实现高效分配,节约火力资源,对环境的探索效率更高,对计算资源利用率较高同时可以实现更好的策略,从而取得更高的胜率。
附图说明
附图用来提供对本发明的进一步理解,并且构成说明书的一部分,与本发明的实施例一起用于解释本发明,并不构成对本发明的限制。
图1为本发明提出的基于势博弈与深度强化学习的防空作战智能决策方法的流程框图。
具体实施方式
参照图1,基于势博弈与深度强化学习的防空作战智能决策方法,该决策方法具体步骤如下:
收集防空作战所需数据并进行预处理。
具体的,将收集到的防空作战所需数据分类完成后,对各组数据进行标准化处理,根据处理后的数据,构建一个词汇表,将每个不同的词分配一个唯一的索引,将防空作战所需数据转换为序列化的表示形式,并将每个句子分割为单词,并将每个单词映射为词汇表中的索引,同时对序列进行填充或截断,使它们具有相同的长度。
需要进一步说明的是,防空作战所需数据具体包括状态数据以及动作空间;
状态数据具体分为我方保卫要地状态、我方火力单元状态、被侦察到的敌方目标状态以及可被攻击的敌方目标状态;动作空间具体包括目标选择、目标威胁度、雷达选择以及雷达动作;
我方保卫要地状态包括要地编号、位置、类型以及受攻击状态;我方火力单元状态包括火力单元标编号、位置、剩余导弹数量、剩余导弹是否可用、本单元能攻击的目标编号以及受攻击状态;被侦察到的敌方目标状态包括目标编号、位置、类型、运动状态以及受攻击状态。
通过Bi-GRU网络提取空情特征。
具体的,将序列化后的防空作战所需数据映射为固定维度的向量,之后通过一组正向GRU和一组反向GRU构建Bi-GRU网络,将多个注意力头添加到Bi-GRU网络中,并确定Bi-GRU网络参数信息,拼接多个自注意力层,获取对应多头注意力机制,并通过多个注意力层从不同角度对相同输入进行线性变换,提取防空作战所需数据中的重要特征,将多个注意力头的输出进行融合,并将融合后的特征向量输入到后续的层中。
需要进一步说明的是,线性变换具体计算公式如下:
P=Wpx,P∈(Q,K,V) (1)
其中,Wp代表对应向量的线性变换矩阵;
所述多头注意力机制具体计算公式如下:
MultiHead(Q,K,V)=Concat(head1,…,headh)WO (3)
wherehead=Attention(QWi Q,KWi K,VWi V) (4)
其中,WO、Wi Q、Wi K以及Wi V代表数据投影中可学习的参数矩阵,h代表注意力头的数量。
依据防空作战环境和参与者进行势博弈建模。
具体的,收集DRL-TSRC给出的待拦截目标和制导雷达已经开机的火力单元,并定义目标集Nt={1,2,…,T},其中,元素为待拦截目标,将防空作战中制导雷达已经开机的火力单元作为局中人,并定义局中人集合Nm={LM1,…,LMs,SM1,…SMk},其中,远程火力单元集合为LM={LM1,…,LMs},近程火力单元集合为SM={SM1,…SMk},收集各局中人的策略集,并定义各局中人射击策略,同时通过远程火力单元和近程火力单元数量确认该策略约束条件,之后依据最小化拦截成本设计罚函数,将罚函数添加至各局中人上以获取对应效用函数,之后设定最大等待时间,并进行迭代,每组局中人在最大等待时间内随机产生一组等待时间,并开始计时,若该局中人在迭代开始前的等待时间接收到其他局中人发出的DR信号,则停止计时,并放弃决策者推选,否则,该局中人向其他局中人发送DR信号,并确定为本轮决策者,初始化目标分配博弈,分别确定火力单元数量和目标数量,之后随机初始化策略组合和迭代次数,将决策者作为在迭代中改变策略的局中人,获取随机火力单元的可用策略集以及火力单元的策略,并计算其策略效用函数,从火力单元的策略中任选一组更新策略集,暂时更新策略,同时重新计算其效用函数,若该效用函数优于原有效用函数,则更新策略组合。
此外,需要说明的是,局中人射击策略具体表示形式如下:
其中,若目标j满足局中人i拦截条件,记作Cij=1,否则记作Cij=0;
效用函数具体计算公式如下:
其中,αj代表目标j的威胁度,t代表目标类型,ft i代表火力单元i拦截1架/枚t类型目标所获得的奖励值,Ji={i′|i′∈Nm,Cij=1,Ci′j=1,i′≠i}代表i的临近火力单元集,代表火力单元i与目标j的航路捷径,/>代表目标j到所能拦截该目标的火力单元中航路捷径最大值,β代表罚系数。
建立马尔可夫过程模型制定优化决策。
具体的,依据收集到的各组数据构建马尔可夫过程模型,收集状态集S=[s1,s2,…,sn]以及动作集A=[a1,a2,…,an],之后智能体通过策略π:S×A→[0,1],在状态si时从动作集中选取动作ai,同时战场环境按照状态转移函数P:S×A×S→[0,1]转移到下一个状态,通过状态转移矩阵对每对状态之间的转移概率进行计算,之后定义在初始时刻的状态分布概率,并计算智能体采取动作ai经过转移后的期望预期奖励,同时计算策略π处于状态si时的预期累积奖励,然后通过策略梯度方法获取更大的期望奖励函数,对不同类型火力单元给出不同的奖励值,根据火力单元类型不同,给出不同的雷达被攻击奖励、发射导弹奖励和拦截目标奖励,再验证构建的马尔可夫模型是否符合实际系统的特征和行为,根据实际数据和观测结果,对模型进行调整和优化,以提高模型的准确性和适应性,再使用马尔可夫模型进行决策。
需要进一步说明的是,转移概率具体计算公式如下:
Pss′=P[st+1=s′|st=s] (9)
其中,s代表当前状态,s′代表后续状态;
预期累积奖励具体计算公式如下:
Vπ(s)=E[Rt|st=s,π] (10)
π(a|s)=P[at=a|st=s] (11)
Qπ(s,a)=E[Rt|st=s,at=a,π] (12)
其中,Vπ(s)代表状态值函数,E代表期望运算符,Qπ(s,a)代表动作状态值函数。
Claims (9)
1.基于势博弈与深度强化学习的防空作战智能决策方法,其特征在于,该决策方法具体步骤如下:
(1)收集防空作战所需数据并进行预处理;
(2)通过Bi-GRU网络提取空情特征;
(3)依据防空作战环境和参与者进行势博弈建模;
(4)建立马尔可夫过程模型制定优化决策。
2.根据权利要求1所述的基于势博弈与深度强化学习的防空作战智能决策方法,其特征在于,步骤(1)中所述防空作战所需数据具体包括状态数据以及动作空间;
其中,状态数据具体分为我方保卫要地状态、我方火力单元状态、被侦察到的敌方目标状态以及可被攻击的敌方目标状态;
我方保卫要地状态包括要地编号、位置、类型以及受攻击状态;我方火力单元状态包括火力单元标编号、位置、剩余导弹数量、剩余导弹是否可用、本单元能攻击的目标编号以及受攻击状态;被侦察到的敌方目标状态包括目标编号、位置、类型、运动状态以及受攻击状态;
动作空间具体包括目标选择、目标威胁度、雷达选择以及雷达动作。
3.根据权利要求2所述的基于势博弈与深度强化学习的防空作战智能决策方法,其特征在于,步骤(1)中所述防空作战所需数据预处理步骤如下:
步骤一:将收集到的防空作战所需数据分类完成后,对各组数据进行标准化处理,根据处理后的数据,构建一个词汇表,将每个不同的词分配一个唯一的索引;
步骤二:将防空作战所需数据转换为序列化的表示形式,并将每个句子分割为单词,并将每个单词映射为词汇表中的索引,同时对序列进行填充或截断,使它们具有相同的长度。
4.根据权利要求3所述的基于势博弈与深度强化学习的防空作战智能决策方法,其特征在于,步骤(2)中所述Bi-GRU网络特征提取具体步骤如下:
步骤①:将序列化后的防空作战所需数据映射为固定维度的向量,之后通过一组正向GRU和一组反向GRU构建Bi-GRU网络,将多个注意力头添加到Bi-GRU网络中,并确定Bi-GRU网络参数信息;
步骤②:拼接多个自注意力层,获取对应多头注意力机制,并通过多个注意力层从不同角度对相同输入进行线性变换,提取防空作战所需数据中的重要特征,将多个注意力头的输出进行融合,并将融合后的特征向量输入到后续的层中。
5.根据权利要求4所述的基于势博弈与深度强化学习的防空作战智能决策方法,其特征在于,步骤②中所述线性变换具体计算公式如下:
P=Wpx,P∈(Q,K,V) (1)
其中,Wp代表对应向量的线性变换矩阵;
所述多头注意力机制具体计算公式如下:
MultiHead(Q,K,V)=Concat(head1,…,headh)WO (3)
wherehead=Attention(QWi Q,KWi K,VWi V) (4)
其中,WO、Wi Q、Wi K以及Wi V代表数据投影中可学习的参数矩阵,h代表注意力头的数量。
6.根据权利要求4所述的基于势博弈与深度强化学习的防空作战智能决策方法,其特征在于,步骤(3)中所述势博弈建模具体步骤如下:
步骤Ⅰ:收集DRL-TSRC给出的待拦截目标和制导雷达已经开机的火力单元,并定义目标集Nt={1,2,…,T},其中,元素为待拦截目标,将防空作战中制导雷达已经开机的火力单元作为局中人,并定义局中人集合Nm={LM1,…,LMs,SM1,…SMk},其中,远程火力单元集合为LM={LM1,…,LMs},近程火力单元集合为SM={SM1,…SMk};
步骤Ⅱ:收集各局中人的策略集,并定义各局中人射击策略,同时通过远程火力单元和近程火力单元数量确认该策略约束条件,之后依据最小化拦截成本设计罚函数;
步骤Ⅲ:将罚函数添加至各局中人上以获取对应效用函数,之后设定最大等待时间,并进行迭代,每组局中人在最大等待时间内随机产生一组等待时间,并开始计时;
步骤Ⅳ:若该局中人在迭代开始前的等待时间接收到其他局中人发出的DR信号,则停止计时,并放弃决策者推选,否则,该局中人向其他局中人发送DR信号,并确定为本轮决策者;
步骤Ⅴ:初始化目标分配博弈,分别确定火力单元数量和目标数量,之后随机初始化策略组合和迭代次数,将决策者作为在迭代中改变策略的局中人,获取随机火力单元的可用策略集以及火力单元的策略,并计算其策略效用函数;
步骤Ⅵ:从火力单元的策略中任选一组更新策略集,暂时更新策略,同时重新计算其效用函数,若该效用函数优于原有效用函数,则更新策略组合。
7.根据权利要求6所述的基于势博弈与深度强化学习的防空作战智能决策方法,其特征在于,步骤Ⅱ中所述局中人射击策略具体表示形式如下:
其中,若目标j满足局中人i拦截条件,记作Cij=1,否则记作Cij=0;
步骤Ⅲ中所述效用函数具体计算公式如下:
其中,αj代表目标j的威胁度,t代表目标类型,ft i代表火力单元i拦截1架/枚t类型目标所获得的奖励值,Ji={i′|i′∈Nm,Cij=1,Ci′j=1,i′≠i}代表i的临近火力单元集,代表火力单元i与目标j的航路捷径,/>代表目标j到所能拦截该目标的火力单元中航路捷径最大值,β代表罚系数。
8.根据权利要求1所述的基于势博弈与深度强化学习的防空作战智能决策方法,其特征在于,步骤(4)中所述优化决策具体制定步骤如下;
第一步:依据收集到的各组数据构建马尔可夫过程模型,收集状态集S=[s1,s2,…,sn]以及动作集A=[a1,a2,…,an],之后智能体通过策略π:S×A→[0,1],在状态si时从动作集中选取动作ai,同时战场环境按照状态转移函数P:S×A×S→[0,1]转移到下一个状态;
第二步:通过状态转移矩阵对每对状态之间的转移概率进行计算,之后定义在初始时刻的状态分布概率,并计算智能体采取动作ai经过转移后的期望预期奖励,同时计算策略π处于状态si时的预期累积奖励,然后通过策略梯度方法获取更大的期望奖励函数;
第三步:对不同类型火力单元给出不同的奖励值,根据火力单元类型不同,给出不同的雷达被攻击奖励、发射导弹奖励和拦截目标奖励,再验证构建的马尔可夫模型是否符合实际系统的特征和行为,根据实际数据和观测结果,对模型进行调整和优化,以提高模型的准确性和适应性,再使用马尔可夫模型进行决策。
9.根据权利要求8所述的基于势博弈与深度强化学习的防空作战智能决策方法,其特征在于,第二步所述转移概率具体计算公式如下:
Pss′=P[st+1=s′|st=s] (9)
其中,s代表当前状态,s′代表后续状态;
第二步中所述预期累积奖励具体计算公式如下:
Vπ(s)=E[Rt|st=s,π] (10)
π(a|s)=P[at=a|st=s] (11)
Qπ(s,a)=E[Rt|st=s,at=a,π] (12)
其中,Vπ(s)代表状态值函数,E代表期望运算符,Qπ(s,a)代表动作状态值函数。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311020655.0A CN117057233A (zh) | 2023-08-14 | 2023-08-14 | 基于势博弈与深度强化学习的防空作战智能决策方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311020655.0A CN117057233A (zh) | 2023-08-14 | 2023-08-14 | 基于势博弈与深度强化学习的防空作战智能决策方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN117057233A true CN117057233A (zh) | 2023-11-14 |
Family
ID=88662045
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202311020655.0A Pending CN117057233A (zh) | 2023-08-14 | 2023-08-14 | 基于势博弈与深度强化学习的防空作战智能决策方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117057233A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117950322A (zh) * | 2024-03-26 | 2024-04-30 | 北京航空航天大学 | 一种分布式协同作战场景下博弈制导策略的确定方法 |
-
2023
- 2023-08-14 CN CN202311020655.0A patent/CN117057233A/zh active Pending
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117950322A (zh) * | 2024-03-26 | 2024-04-30 | 北京航空航天大学 | 一种分布式协同作战场景下博弈制导策略的确定方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110083971B (zh) | 一种基于作战推演的自爆式无人机集群作战兵力分配方法 | |
CN102506863B (zh) | 一种基于万有引力搜索的无人机航路规划方法 | |
CN112329348A (zh) | 一种面向非完全信息条件下军事对抗博弈的智能决策方法 | |
CN112364972B (zh) | 基于深度强化学习的无人战车分队火力分配方法 | |
CN111240353A (zh) | 基于遗传模糊树的无人机协同空战决策方法 | |
CN117057233A (zh) | 基于势博弈与深度强化学习的防空作战智能决策方法 | |
CN106779210A (zh) | 基于蚁群算法的火力分配方法 | |
CN112070418B (zh) | 一种多目标鲸鱼优化算法的武器目标分配方法 | |
CN113625569B (zh) | 一种基于混合决策模型的小型无人机防控决策方法及系统 | |
CN111773722B (zh) | 一种模拟环境中的战斗机规避机动策略集生成方法 | |
CN113324545A (zh) | 一种基于混合增强智能的多无人机协同任务规划方法 | |
CN116596343A (zh) | 一种基于深度强化学习的智能兵棋推演决策方法 | |
Kong et al. | Hierarchical multi‐agent reinforcement learning for multi‐aircraft close‐range air combat | |
CN118095778A (zh) | 基于改进型神经进化算法的作战指挥动态资源分配方法 | |
CN116050515A (zh) | 一种基于XGBoost的平行推演多分支态势预测方法 | |
Liu et al. | Multi-AUV dynamic maneuver decision-making based on intuitionistic fuzzy counter-game and fractional-order particle swarm optimization | |
CN114047761A (zh) | 基于编队跨平台资源调度的弹性杀伤网构建方法及装置 | |
Cheng et al. | Weapon-target assignment of ballistic missiles based on Q-learning and genetic algorithm | |
Zhao et al. | Deep Reinforcement Learning‐Based Air Defense Decision‐Making Using Potential Games | |
CN117077428A (zh) | 一种针对战场多维需求的火力规划目标函数的构造方法 | |
Wu et al. | Dynamic multitarget assignment based on deep reinforcement learning | |
CN115964640B (zh) | 一种改进的基于模板匹配的二次目标分群方法 | |
CN116036613A (zh) | 一种实现兵棋推演智能决策的系统和方法 | |
CN115457809A (zh) | 对面支援场景下基于多智能体强化学习的航迹规划方法 | |
CN114202175A (zh) | 一种基于人工智能的作战任务规划方法及系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |