CN117057233A

CN117057233A - 基于势博弈与深度强化学习的防空作战智能决策方法

Info

Publication number: CN117057233A
Application number: CN202311020655.0A
Authority: CN
Inventors: 赵敏睿; 王刚; 付强; 郭相科; 李腾达; 刘祥雨
Original assignee: Air Force Engineering University of PLA
Current assignee: Air Force Engineering University of PLA
Priority date: 2023-08-14
Filing date: 2023-08-14
Publication date: 2023-11-14

Abstract

本发明公开了基于势博弈与深度强化学习的防空作战智能决策方法，属于数据安全领域，该决策方法具体步骤如下：(1)收集防空作战所需数据并进行预处理；(2)通过Bi‑GRU网络提取空情特征；(3)依据防空作战环境和参与者进行势博弈建模；(4)建立马尔可夫过程模型制定优化决策；本发明能够提升目标分配合理性，实现高效分配，节约火力资源，对环境的探索效率更高，对计算资源利用率较高同时可以实现更好的策略，从而取得更高的胜率。

Description

基于势博弈与深度强化学习的防空作战智能决策方法

技术领域

本发明涉及数据安全领域，尤其涉及基于势博弈与深度强化学习的防空作战智能决策方法。

背景技术

现代战争是高科技的战争，高科技武器是决定战争胜负的重要因素。决策是作战的核心，其内涵是根据对手的信息，对多类型、多平台武器装备进行高效运用，合理分配来袭目标，完成抗击。随着无人集群等新型空袭兵器的发展，防空作战面临的战场情况变得日趋复杂多变，作战决策系统面临新挑战，防空作战过程示意图如图1所示。在防空作战中，高效的决策与自由决策相比作战效能提高3倍以上。合理配置作战资源，提升拦截效率已成为作战决策系统亟待解决的问题；因此，发明出基于势博弈与深度强化学习的防空作战智能决策方法变得尤为重要。

现有的防空作战智能决策方法目标分配合理性低，无法高效分配目标，火力资源浪费严重，对环境探索效率低下；为此，我们提出基于势博弈与深度强化学习的防空作战智能决策方法。

发明内容

本发明的目的是为了解决现有技术中存在的缺陷，而提出的基于势博弈与深度强化学习的防空作战智能决策方法。

为了实现上述目的，本发明采用了如下技术方案：

基于势博弈与深度强化学习的防空作战智能决策方法，该决策方法具体步骤如下：

(1)收集防空作战所需数据并进行预处理；

(2)通过Bi-GRU网络提取空情特征；

(3)依据防空作战环境和参与者进行势博弈建模；

(4)建立马尔可夫过程模型制定优化决策。

作为本发明的进一步方案，步骤(1)中所述防空作战所需数据具体包括状态数据以及动作空间；

其中，状态数据具体分为我方保卫要地状态、我方火力单元状态、被侦察到的敌方目标状态以及可被攻击的敌方目标状态；

我方保卫要地状态包括要地编号、位置、类型以及受攻击状态；我方火力单元状态包括火力单元标编号、位置、剩余导弹数量、剩余导弹是否可用、本单元能攻击的目标编号以及受攻击状态；被侦察到的敌方目标状态包括目标编号、位置、类型、运动状态以及受攻击状态；

动作空间具体包括目标选择、目标威胁度、雷达选择以及雷达动作。

作为本发明的进一步方案，步骤(1)中所述防空作战所需数据预处理步骤如下：

步骤一：将收集到的防空作战所需数据分类完成后，对各组数据进行标准化处理，根据处理后的数据，构建一个词汇表，将每个不同的词分配一个唯一的索引；

步骤二：将防空作战所需数据转换为序列化的表示形式，并将每个句子分割为单词，并将每个单词映射为词汇表中的索引，同时对序列进行填充或截断，使它们具有相同的长度。

作为本发明的进一步方案，步骤(2)中所述Bi-GRU网络特征提取具体步骤如下：

步骤①：将序列化后的防空作战所需数据映射为固定维度的向量，之后通过一组正向GRU和一组反向GRU构建Bi-GRU网络，将多个注意力头添加到Bi-GRU网络中，并确定Bi-GRU网络参数信息；

步骤②：拼接多个自注意力层，获取对应多头注意力机制，并通过多个注意力层从不同角度对相同输入进行线性变换，提取防空作战所需数据中的重要特征，将多个注意力头的输出进行融合，并将融合后的特征向量输入到后续的层中。

作为本发明的进一步方案，步骤②中所述线性变换具体计算公式如下：

P＝W_px,P∈(Q,K,V) (1)

其中，W_p代表对应向量的线性变换矩阵；

所述多头注意力机制具体计算公式如下：

MultiHead(Q,K,V)＝Concat(head₁,…,head_h)W^O (3)

wherehead＝Attention(QW_i ^Q,KW_i ^K,VW_i ^V) (4)

其中，W^O、W_i ^Q、W_i ^K以及W_i ^V代表数据投影中可学习的参数矩阵，h代表注意力头的数量。

作为本发明的进一步方案，步骤(3)中所述势博弈建模具体步骤如下：

步骤Ⅰ：收集DRL-TSRC给出的待拦截目标和制导雷达已经开机的火力单元，并定义目标集N_t＝{1,2,…,T}，其中，元素为待拦截目标，将防空作战中制导雷达已经开机的火力单元作为局中人，并定义局中人集合N_m＝{LM₁,…,LM_s,SM₁,…SM_k}，其中，远程火力单元集合为LM＝{LM₁,…,LM_s}，近程火力单元集合为SM＝{SM₁,…SM_k}；

步骤Ⅱ：收集各局中人的策略集，并定义各局中人射击策略，同时通过远程火力单元和近程火力单元数量确认该策略约束条件，之后依据最小化拦截成本设计罚函数；

步骤Ⅲ：将罚函数添加至各局中人上以获取对应效用函数，之后设定最大等待时间，并进行迭代，每组局中人在最大等待时间内随机产生一组等待时间，并开始计时；

步骤Ⅳ：若该局中人在迭代开始前的等待时间接收到其他局中人发出的DR信号，则停止计时，并放弃决策者推选，否则，该局中人向其他局中人发送DR信号，并确定为本轮决策者；

步骤Ⅴ：初始化目标分配博弈，分别确定火力单元数量和目标数量，之后随机初始化策略组合和迭代次数，将决策者作为在迭代中改变策略的局中人，获取随机火力单元的可用策略集以及火力单元的策略，并计算其策略效用函数；

步骤Ⅵ：从火力单元的策略中任选一组更新策略集，暂时更新策略，同时重新计算其效用函数，若该效用函数优于原有效用函数，则更新策略组合。

作为本发明的进一步方案，步骤Ⅱ中所述局中人射击策略具体表示形式如下：

其中，若目标j满足局中人i拦截条件，记作C_ij＝1，否则记作C_ij＝0；

步骤Ⅲ中所述效用函数具体计算公式如下：

其中，α_j代表目标j的威胁度，t代表目标类型，f_t ⁱ代表火力单元i拦截1架/枚t类型目标所获得的奖励值，J_i＝{i′|i′∈N_m,C_ij＝1,C_i′j＝1,i′≠i}代表i的临近火力单元集，代表火力单元i与目标j的航路捷径，/>代表目标j到所能拦截该目标的火力单元中航路捷径最大值，β代表罚系数。

作为本发明的进一步方案，步骤(4)中所述优化决策具体制定步骤如下；

第一步：依据收集到的各组数据构建马尔可夫过程模型，收集状态集S＝[s₁,s₂,…,s_n]以及动作集A＝[a₁,a₂,…,a_n]，之后智能体通过策略π:S×A→[0，1]，在状态s_i时从动作集中选取动作a_i，同时战场环境按照状态转移函数P:S×A×S→[0，1]转移到下一个状态；

第二步：通过状态转移矩阵对每对状态之间的转移概率进行计算，之后定义在初始时刻的状态分布概率，并计算智能体采取动作a_i经过转移后的期望预期奖励，同时计算策略π处于状态s_i时的预期累积奖励，然后通过策略梯度方法获取更大的期望奖励函数；

第三步：对不同类型火力单元给出不同的奖励值，根据火力单元类型不同，给出不同的雷达被攻击奖励、发射导弹奖励和拦截目标奖励，再验证构建的马尔可夫模型是否符合实际系统的特征和行为，根据实际数据和观测结果，对模型进行调整和优化，以提高模型的准确性和适应性，再使用马尔可夫模型进行决策。

作为本发明的进一步方案，第二步所述转移概率具体计算公式如下：

P_ss′＝P[s_t+1＝s′|s_t＝s] (9)

其中，s代表当前状态，s′代表后续状态；

第二步中所述预期累积奖励具体计算公式如下：

V_π(s)＝E[R_t|s_t＝s,π] (10)

π(a|s)＝P[a_t＝a|s_t＝s] (11)

Q_π(s,a)＝E[R_t|s_t＝s,a_t＝a,π] (12)

其中，V_π(s)代表状态值函数，E代表期望运算符，Q_π(s,a)代表动作状态值函数。

相比于现有技术，本发明的有益效果在于：

该基于势博弈与深度强化学习的防空作战智能决策方法通过将收集到的防空作战所需数据预处理成统一格式数据后，将其映射为固定维度的向量，并将多头注意力机制添加到Bi-GRU网络中，之后通过多个注意力层从不同角度对相同输入进行线性变换，提取防空作战所需数据中的重要特征，收集待拦截目标和制导雷达已经开机的火力单元，依据最小化拦截成本设计罚函数，将罚函数添加至各局中人上以获取对应效用函数，之后设定最大等待时间，并进行迭代，并确定决策者，初始化目标分配博弈，分别确定火力单元数量和目标数量，之后随机初始化策略组合和迭代次数以更新策略组合，然后构建马尔可夫过程模型，并对不同类型火力单元给出不同的奖励值，根据火力单元类型不同，给出不同的雷达被攻击奖励、发射导弹奖励和拦截目标奖励，再验证构建的马尔可夫模型是否符合实际系统的特征和行为，根据实际数据和观测结果，对模型进行调整和优化，以提高模型的准确性和适应性，再使用马尔可夫模型进行决策，能够提升目标分配合理性，实现高效分配，节约火力资源，对环境的探索效率更高，对计算资源利用率较高同时可以实现更好的策略，从而取得更高的胜率。

附图说明

附图用来提供对本发明的进一步理解，并且构成说明书的一部分，与本发明的实施例一起用于解释本发明，并不构成对本发明的限制。

图1为本发明提出的基于势博弈与深度强化学习的防空作战智能决策方法的流程框图。

具体实施方式

参照图1，基于势博弈与深度强化学习的防空作战智能决策方法，该决策方法具体步骤如下：

收集防空作战所需数据并进行预处理。

具体的，将收集到的防空作战所需数据分类完成后，对各组数据进行标准化处理，根据处理后的数据，构建一个词汇表，将每个不同的词分配一个唯一的索引，将防空作战所需数据转换为序列化的表示形式，并将每个句子分割为单词，并将每个单词映射为词汇表中的索引，同时对序列进行填充或截断，使它们具有相同的长度。

需要进一步说明的是，防空作战所需数据具体包括状态数据以及动作空间；

状态数据具体分为我方保卫要地状态、我方火力单元状态、被侦察到的敌方目标状态以及可被攻击的敌方目标状态；动作空间具体包括目标选择、目标威胁度、雷达选择以及雷达动作；

我方保卫要地状态包括要地编号、位置、类型以及受攻击状态；我方火力单元状态包括火力单元标编号、位置、剩余导弹数量、剩余导弹是否可用、本单元能攻击的目标编号以及受攻击状态；被侦察到的敌方目标状态包括目标编号、位置、类型、运动状态以及受攻击状态。

通过Bi-GRU网络提取空情特征。

具体的，将序列化后的防空作战所需数据映射为固定维度的向量，之后通过一组正向GRU和一组反向GRU构建Bi-GRU网络，将多个注意力头添加到Bi-GRU网络中，并确定Bi-GRU网络参数信息，拼接多个自注意力层，获取对应多头注意力机制，并通过多个注意力层从不同角度对相同输入进行线性变换，提取防空作战所需数据中的重要特征，将多个注意力头的输出进行融合，并将融合后的特征向量输入到后续的层中。

需要进一步说明的是，线性变换具体计算公式如下：

P＝W_px,P∈(Q,K,V) (1)

其中，W_p代表对应向量的线性变换矩阵；

所述多头注意力机制具体计算公式如下：

MultiHead(Q,K,V)＝Concat(head₁,…,head_h)W^O (3)

wherehead＝Attention(QW_i ^Q,KW_i ^K,VW_i ^V) (4)

依据防空作战环境和参与者进行势博弈建模。

具体的，收集DRL-TSRC给出的待拦截目标和制导雷达已经开机的火力单元，并定义目标集N_t＝{1,2,…,T}，其中，元素为待拦截目标，将防空作战中制导雷达已经开机的火力单元作为局中人，并定义局中人集合N_m＝{LM₁,…,LM_s,SM₁,…SM_k}，其中，远程火力单元集合为LM＝{LM₁,…,LM_s}，近程火力单元集合为SM＝{SM₁,…SM_k}，收集各局中人的策略集，并定义各局中人射击策略，同时通过远程火力单元和近程火力单元数量确认该策略约束条件，之后依据最小化拦截成本设计罚函数，将罚函数添加至各局中人上以获取对应效用函数，之后设定最大等待时间，并进行迭代，每组局中人在最大等待时间内随机产生一组等待时间，并开始计时，若该局中人在迭代开始前的等待时间接收到其他局中人发出的DR信号，则停止计时，并放弃决策者推选，否则，该局中人向其他局中人发送DR信号，并确定为本轮决策者，初始化目标分配博弈，分别确定火力单元数量和目标数量，之后随机初始化策略组合和迭代次数，将决策者作为在迭代中改变策略的局中人，获取随机火力单元的可用策略集以及火力单元的策略，并计算其策略效用函数，从火力单元的策略中任选一组更新策略集，暂时更新策略，同时重新计算其效用函数，若该效用函数优于原有效用函数，则更新策略组合。

此外，需要说明的是，局中人射击策略具体表示形式如下：

效用函数具体计算公式如下：

建立马尔可夫过程模型制定优化决策。

具体的，依据收集到的各组数据构建马尔可夫过程模型，收集状态集S＝[s₁,s₂,…,s_n]以及动作集A＝[a₁,a₂,…,a_n]，之后智能体通过策略π:S×A→[0，1]，在状态s_i时从动作集中选取动作a_i，同时战场环境按照状态转移函数P:S×A×S→[0，1]转移到下一个状态，通过状态转移矩阵对每对状态之间的转移概率进行计算，之后定义在初始时刻的状态分布概率，并计算智能体采取动作a_i经过转移后的期望预期奖励，同时计算策略π处于状态s_i时的预期累积奖励，然后通过策略梯度方法获取更大的期望奖励函数，对不同类型火力单元给出不同的奖励值，根据火力单元类型不同，给出不同的雷达被攻击奖励、发射导弹奖励和拦截目标奖励，再验证构建的马尔可夫模型是否符合实际系统的特征和行为，根据实际数据和观测结果，对模型进行调整和优化，以提高模型的准确性和适应性，再使用马尔可夫模型进行决策。

需要进一步说明的是，转移概率具体计算公式如下：

P_ss′＝P[s_t+1＝s′|s_t＝s] (9)

其中，s代表当前状态，s′代表后续状态；

预期累积奖励具体计算公式如下：

V_π(s)＝E[R_t|s_t＝s,π] (10)

π(a|s)＝P[a_t＝a|s_t＝s] (11)

Q_π(s,a)＝E[R_t|s_t＝s,a_t＝a,π] (12)

Claims

1.基于势博弈与深度强化学习的防空作战智能决策方法，其特征在于，该决策方法具体步骤如下：

(1)收集防空作战所需数据并进行预处理；

(2)通过Bi-GRU网络提取空情特征；

(3)依据防空作战环境和参与者进行势博弈建模；

(4)建立马尔可夫过程模型制定优化决策。

2.根据权利要求1所述的基于势博弈与深度强化学习的防空作战智能决策方法，其特征在于，步骤(1)中所述防空作战所需数据具体包括状态数据以及动作空间；

3.根据权利要求2所述的基于势博弈与深度强化学习的防空作战智能决策方法，其特征在于，步骤(1)中所述防空作战所需数据预处理步骤如下：

4.根据权利要求3所述的基于势博弈与深度强化学习的防空作战智能决策方法，其特征在于，步骤(2)中所述Bi-GRU网络特征提取具体步骤如下：

5.根据权利要求4所述的基于势博弈与深度强化学习的防空作战智能决策方法，其特征在于，步骤②中所述线性变换具体计算公式如下：

P＝W_px,P∈(Q,K,V) (1)

其中，W_p代表对应向量的线性变换矩阵；

所述多头注意力机制具体计算公式如下：

MultiHead(Q,K,V)＝Concat(head₁,…,head_h)W^O (3)

wherehead＝Attention(QW_i ^Q,KW_i ^K,VW_i ^V) (4)

6.根据权利要求4所述的基于势博弈与深度强化学习的防空作战智能决策方法，其特征在于，步骤(3)中所述势博弈建模具体步骤如下：

7.根据权利要求6所述的基于势博弈与深度强化学习的防空作战智能决策方法，其特征在于，步骤Ⅱ中所述局中人射击策略具体表示形式如下：

步骤Ⅲ中所述效用函数具体计算公式如下：

8.根据权利要求1所述的基于势博弈与深度强化学习的防空作战智能决策方法，其特征在于，步骤(4)中所述优化决策具体制定步骤如下；

9.根据权利要求8所述的基于势博弈与深度强化学习的防空作战智能决策方法，其特征在于，第二步所述转移概率具体计算公式如下：

P_ss′＝P[s_t+1＝s′|s_t＝s] (9)

其中，s代表当前状态，s′代表后续状态；

第二步中所述预期累积奖励具体计算公式如下：

V_π(s)＝E[R_t|s_t＝s,π] (10)

π(a|s)＝P[a_t＝a|s_t＝s] (11)

Q_π(s,a)＝E[R_t|s_t＝s,a_t＝a,π] (12)