CN117217100B

CN117217100B - 一种基于强化学习的某分队数智化建模方法及仿真系统

Info

Publication number: CN117217100B
Application number: CN202311481235.2A
Authority: CN
Inventors: 赵俊严; 史力晨; 李世民; 吕亮; 杨永利; 朱锐; 刘朔; 吴溪; 陈悦峰; 李立春
Original assignee: 63963 TROOPS PLA
Current assignee: 63963 TROOPS PLA
Priority date: 2023-11-08
Filing date: 2023-11-08
Publication date: 2024-01-30
Anticipated expiration: 2043-11-08
Also published as: CN117217100A

Abstract

一种基于强化学习的某分队数智化建模方法及仿真系统，属于人工智能技术领域。方法包括：通过概率神经网络分别计算与打击目标相连的智能体实体对该打击目标的毁伤概率；通过智能体选择模块根据毁伤概率的高低依次选择N个智能体实体；通过图注意力机制模块生成对该打击目标实体的摧毁向量;通过BP神经网络根据摧毁向量生成Q个指标项。本发明提供的建模方法及仿真系统能够展现强对抗、动态变化的战场态势，且推演作战指标项的速度快、效率高。

Description

一种基于强化学习的某分队数智化建模方法及仿真系统

技术领域

本发明涉及一种基于强化学习的某分队数智化建模方法及仿真系统，属于人工智能技术领域。

背景技术

当前，作战实验系统主要通过仿真推演手段分析联合作战背景下的作战行动，因而作战实验的效率和效果受到仿真推演系统的制约。传统的体系对抗仿真推演系统中，仿真实体基于有限状态机构建，推演过程中仿真实体按照固定规则采取行动。这导致推演过程中存在战术固定、对抗流程固化、智能化程度低问题，无法展现强对抗、动态变化的战场态势特点。

为解决上述技术问题，公开号为CN116227361A的中国发明专利申请公开了一种智能体决策方法及装置，该方法包括：构建智能体决策模型；获取环境态势信息；基于智能体决策模型对环境态势信息进行处理，确定出智能体决策结果；智能体决策结果用于指示智能体的战术动作执行。该发明有利于提升决策灵活度，进而提高智能体战术策略探索能力。

公开号为CN115906673A的中国发明专利申请公开了一种作战实体行为模型一体化建模方法及系统，该方法包括：获取当前战场环境态势；应用深度神经网络构建感知行为模型；将当前战场环境态势输入至训练好的感知行为模型得到感知结果；当感知的结果为各规则外战场事件的标签时，确定与所述规则外战场事件对应的未知决策行为模型，将当前战场环境态势输入与所述规则外战场事件对应的训练好的未知决策行为模型，确定作战实体物理行为；当感知的结果为既定规则战场事件的标签时，根据已知决策行为模型，确定作战实体物理行为。该发明能够提高作战实体在复杂战场环境中感知并处理规则外未知事件的能力。

但是现有技术中未见根据战场环境中的实时测量数据快速推演作战指标项的报道。

发明内容

本发明要解决的技术问题在于，针对不确定性战场态势下的智能博弈与决策问题，提出了一种基于强化学习的某分队数智化建模方法及仿真系统, 能够展现强对抗、动态变化的战场态势，且推演作战指标项的速度快，效率高。

为实现所述发明目的，本发明一方面提供一种基于强化学习的某分队数智化建模方法，其包括如下步骤：

根据实时测量数据生成包括实体和连接实体之间的边的动态知识图谱，实体包括多个智能体和多个打击目标；

通过打击目标选择模块在t时刻根据作战任务从动态知识图谱中选择1个打击目标实体；

通过概率神经网络分别计算与该打击目标相连的智能体实体对该打击目标的毁伤概率；

通过智能体选择模块根据毁伤概率的高低依次选择N个智能体实体，并将所选择的智能体的测量数据组成特征向量提供给图注意力机制模型模块，第n个智能体实体的特征向量为A_n;

通过图注意力机制模型模块根据N个智能体实体的特征向量生成对该打击目标实体的摧毁向量为E={e¹ _t,…,eⁿ _t,…,e^N _t}，其中，图注意力机制模型模块包括N个图注意力机制模型，eⁿ _t为第n个图注意力机制模型在t时刻输出对打击目标的摧毁向量,n=1,2,…,N;

通过BP神经网络根据N个智能体实体的特征向量和摧毁向量E={e¹ _t,…,eⁿ _t,…,e^N _t}生成t时刻输出的Q个指标项。

为实现所述发明目的，本发明还提供一种基于强化学习的某分队数智化仿真系统，其特征在于，包括动态知识图谱构建模块和智能决策模块，其中，

动态知识图谱构建模块被配置为根据实时测量数据生成包括实体和连接实体之间的边的动态知识图谱，实体包括多个智能体和多个打击目标；

智能决策模块包括通过打击目标选择模块、概率神经网络、智能体选择模块、图注意力机制模型模块和BP神经网络模块，其中，

打击目标选择模块被配置为在t时刻根据作战任务从动态知识图谱中选择1个打击目标实体；

概率神经网络被配置为分别计算与该打击目标相连的智能体实体对该打击目标的毁伤概率；

智能体选择模块被配置为根据毁伤概率的高低依次选择N个智能体实体，并将所选择的智能体的测量数据组成特征向量并提供给图注意力机制模型模块，第n个智能体实体的特征向量为A_n;

图注意力机制模型模块被配置根据N个智能体实体的特征向量生成对该打击目标实体的摧毁向量为E={e¹ _t,…,eⁿ _t,…,e^N _t}，其中，图注意力机制模型模块包括K个图注意力机制模型，eⁿ _t为第k个图注意力机制模型在t时刻输出对打击目标的摧毁向量, ,n=1,2,…,N;

BP神经网络被配置为根据N个智能体实体的特征向量和摧毁向量E={e¹ _t,…,eⁿ _t,…,e^N _t}生成t时刻输出的Q个指标项。

为实现所述发明目的，本发明还提供一种存储装置，其存储有计算机程序代码，其特征在于，所述计算机程序代码能够被处理器调用以执行上述方法。

有益效果

与现有技术相比，本发明提供基于强化学习的某分队数智化建模方法及仿真系统具有如下有益效果：

（1）本发明通过构建构参战的动态知识图谱而达到能够展现强对抗、动态变化的战场态势；

（2）本发明通过概率神经网络分别计算与该打击目标相连的智能体实体对该打击目标的毁伤概率，从而可以快速地确定选择哪些智能体对打击目标进行打击；

（3）本发明通过图注意力机制模型模块根据所选择的N个智能体实体的特征向量生成对该打击目标实体的摧毁向量，不仅考虑的一个智能体自身对打击目标打击能力，还考虑了其它智能体对本智能体的贡献度，从而使得最终计算的打击目标的指标项更加科学和准确;

（4）本发明通过BP神经网络根据智能体的特征向量和摧毁向量生成t时刻输出的Q个指标项，推演作战指标项的速度快，效率高。

附图说明

图1是本发明提供的基于强化学习的某分队数智化建模方法的流程图；

图2是本发明提供的存储装置的电路图。

具体实施方式

为了使本发明所要解决的技术问题、技术方案及有益效果更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

第一实施例

图1是本发明提供的基于强化学习的某分队数智化建模方法的流程图，如图1所示，本发明第一实施例提供的一种基于强化学习的某分队数智化建模方法，其包括如下步骤：

通过图注意力机制模型模块根据N个智能体实体的特征向量生成对该打击目标实体的摧毁向量为E={e¹ _t,…,eⁿ _t,…,e^N _t}，其中，图注意力机制模型模块包括N个图注意力机制模型，eⁿ _t为第k个图注意力机制模型在t时刻输出对打击目标的摧毁向量, ,n=1,2,…,N;

优选地，，式中σ为第一激活函数，为智能体中的第j个智能体打击目标的特征向量A_j对第n个智能体打击目标的特征向量A_n的贡献度； ε为第二激活函数；ρ为图注意力机制模型的输入模块到隐含模块的参数；W表示参数矩阵；||表示将WA_n和WA_j拼接起来。

优选地，BP神经网络包括第一输入模块、第一隐含模块和第一输出模块，所述第一输入模块包括N个神经元，第n个神经元t时刻输入的值为：

bⁿ _t=A_n+w_e ⁿ eⁿ _t

式中，w_e ⁿ为第n个特征值eⁿ _t的加权系数;

第一隐含模块包括I个神经元，第i个神经元t时刻的输出为：

式中, wⁿⁱ为第一输入模块第n个神经元与第一隐含模块的第i个神经元之间的权重；Sⁱ为高斯函数的带宽, Mⁱ为高斯函数的中心; u_t-1 ⁱ为第i个神经元t-1时刻的输出；Ψ₀为初始调整系数；P为调整次数；Ψ为调整函数,i=1,2,…,I；

第一输出模块包括Q个神经元，第q个神经元t时刻输出的指标项为：，式中，w^iq为第一隐含模块第i个神经元和第一输出模块第q个神经元之间的权重，q=1,…,Q。

优选地，概率神经网络包括第二输入模块、第二隐含模块、求和模块和竞争模块，其中，第二输入模块包括初级输入模块和归一化模块，所述初级输入模块输入第n个智能体实体打击目标实体的特征向量为：

A_n=[x_n1 … x_na …x_nA]

式中，特征向量中任一元素x_na为智能体实体特征向量中第a个指标的测量值，,A为特征向量中的数值个数，,a=1,2,…,A；

归一化被配置为利用归一化系数向量对特征向量进行归一化处理，得到归一化向量，归一化系数向量如下式：，归一化向量如下式：/>，归一化模块将归一化向量输入到要就概率神经网络的第二隐含模块，第二隐含模块中利用标准差的激活函数将神经元激活，得到初始概率向量如下式：

P_n=[p_n1 … p_na …p_nA]，

式中，，z_na归一化矩阵Z_n中第a个值,C_an为激活函数的中心值,δ为激活函数的带宽；

求和模块通过下式求出第n个智能体实体对打击目标实体的毁伤概率，最后由竞争模块输出毁伤概率p_n:,式中,ω_a为第二隐含模块神经元与求和模块神经元之间的互相关系数，由训练数据反复训练确定。

本发明第一实施例提供的基于强化学习的某分队数智化建模方法具有如下有益效果：

第二实施例

第二实施例仅描述与第一实施例不同的内容，相同的内容不再重复描述。第二实施例提供一种基于强化学习的某分队数智化仿真系统，其包括动态知识图谱构建模块和智能决策模块，其中，

图注意力机制模型模块被配置根据N个智能体实体的特征向量生成对该打击目标实体的摧毁向量为E={e¹ _t,…,eⁿ _t,…,e^N _t}，其中，图注意力机制模型模块包括K个图注意力机制模型，eⁿ _t为第n个图注意力机制模型在t时刻输出对打击目标的摧毁向量，n=1,2,…,N;

BP神经网络被配置为根据特征向量E={e¹ _t,…,eⁿ _t,…,e^N _t}生成t时刻输出的Q个指标项。

本发明第二实施例提供的基基于强化学习的某分队数智化仿真系统的有益效果与第一实施例的有益效果相同，这里不再重复。

第三实施例

本发明第三实施例提供一种存储装置，其存储有计算机程序代码，所述计算机程序代码能够被处理器调用以执行第一实施例所述的方法，处理器包括CPU100。

图2是本发明提供的存储装置的电路图，如图2所示，本发明将存储装置包括第一存储单元601、第二存储单元602和验正装置。存储装置具有两种工作模式：第一种工作模式为：向第一存储单元601写入数据，向第二存储单元602写入用于对写入第一存储单元601中的数据进行验正的错误验正数据。第二种工作模式为：当第一存储单元601的剩余容量变为零时，一边擦除已写入第二存储单元602的验正数据，一边向该第二存储单元602中也写入通常的数据，所述数据包括计算机程序代码及获取的数据。

验正装置包括存储控制器，存储器控制器包括地址转换电路（图中未示）。地址转换电路是将虚拟地址转换成第一存储单元601或第二存储单元602的实际地址的电路。在该地址转换电路中使用存储在寄存器中的地址指针的值。如上所述，第三实施例的数据存储装置具有第一种工作模式和第二种工作模式这两种动作状态，其中，在第二种工作模式下，对第二存储单元602也写入包括计算机程序代码及获取的数据。

验正装置还包括场效应晶体管K1、场效应晶体管K2、场效应晶体管K5、缓冲器605、缓冲器611和验正数据编码器，所述存储区控制器中的地址转换电路依次经缓冲器605和场效应晶体管K1的源极及漏极连接于第一存储单元601，还经场效应晶体管K2的源极及漏极和缓冲 611连接于第二存储单元602，验正数据编码器经场效应晶体管K5的源极及漏极连接于第一存储单元，验正数据编码器包括验正数据生成器604、奇偶校验生器607、异或门609和异或门610，其中奇偶校验生器607经场效应晶体管K5的源极及漏极连接于第一存储单元601或者第二存储单元602，第一种工作模式时，奇偶校验生器607根据第一存储单元601的物理地址生成第一奇偶校验码。验正数据生成器604用于生成校正存存储于第一存储单元中的数据的错误检查校正字节，第一奇偶校验码分别通过异或门609和610分别与错误检查校正字节的至少两位进行异或运算，从而对校正数据进行加扰以生成新的错误校正数据，该错误校正数据存储于第二存储单元602中。第二种工作模式时，奇偶校验生器607根据第二存储单元602的物理地址生成第一奇偶校验码。验正数据生成器604用于生成校正存存储于第二存储区中的数据的错误检查校正数据，第一奇偶校验码分别通过异或门609和610分别与错误检查校正数据的至少两位进行异或运算，从而对错误检查校正数据进行加扰以生成新的错误检查错误校正数据，该错误校正数据存储于第二存储单元中。场效应晶体管K1、场效应晶体管K2、场效应晶体管K5的栅极由存储单元控制器进行控制。

验正装置还包括场效应晶体管K3、场效应晶体管K4、场效应晶体管K6和缓冲器612、缓冲器613和验正数据解码器，所述存储控制器中的地址转换电路依次经场效应晶体管K3的源极和漏极连接于第二存储单元，验正数据解码器经场效应晶体管K5的源极和漏极连接于第一存储单元601或者第二存储单元602，验正数据解码器包括验正数据生成器604、奇偶校验生器607、异或门613和异或门614，其中奇偶校验生器607经场效应晶体管K6的源极和漏极连接于第一存储单元601或者第二存储单元602，第一种工作模式时，奇偶校验生器607根据第一存储单元601的物理地址生成第二奇偶校验码。验正数据生成器604用于生成校正从第一存储单元中取出数据的校正数据，第二奇偶校验码分别通过异或门613和614分别与从第二存储区中取出的已加扰的错误校正数据的至少两位进行异或运算，该至少两位是在存储时进行加扰的位，从而进行解扰，数据验正数据生成器根据异或门613和614提供的数据和从第二存储区中取出的验正数据生成用于校正从第一存储区中取出数据。第二种工作模式时，奇偶校验生器607根据第二存储单元602的物理地址生成第二奇偶校验码。验正数据生成器604用于生成校正从第二存储单元中取出数据的错误检查校正数据，第二奇偶校验码分别通过异或门613和614分别与从第二存储单元中取出的已加扰的校正数据的至少两位进行异或运算，从而进行解扰，数据验正数据生成器根据异或门613和614提供的数据和从第二存储单元中取出的验正数据生成用于校正从第二存储区中取出数据。场效应晶体管K3、场效应晶体管K4、场效应晶体管K6的栅极由存储单元控制器进行控制。

本发明第三实施例提供的存储装置的有益效果除与第一实施例具有相同的有益效果外，还具有如下有益效果：

(5)本发明通过校正装置来对存储的数据和或计算机程序代码进行验正，从而使得存储的数据或者计算机程序代码被取出或执行时，不易发生错误，提高了正确率。

需要说明的是，当元件被称为“固定于”或“设置于”另一个元件，它可以直接在另一个元件上或者间接在该另一个元件上。当一个元件被称为是“连接于”另一个元件，它可以是直接连接到另一个元件或间接连接至该另一个元件上。

此外，术语“第一”、“第二”仅用于描述目的，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”的特征可以明示或者隐含地包括一个或者更多个该特征。在本发明的描述中，“多个”的含义是两个或两个以上，除非另有明确具体的限定。“若干”的含义是一个或一个以上，除非另有明确具体的限定。

在本发明的描述中，需要说明的是，除非另有明确的规定和限定，术语“安装”、“相连”、“连接”应做广义理解，例如，可以是固定连接，也可以是可拆卸连接，或一体地连接；可以是机械连接，也可以是电连接；可以是直接相连，也可以通过中间媒介间接相连，可以是两个元件内部的连通或两个元件的相互作用关系。对于本领域的普通技术人员而言，可以根据具体情况理解上述术语在本发明中的具体含义。

以上显示和描述了本发明的基本原理和主要特征和本发明的优点。本行业的技术人员应该了解，本发明不受上述实施例的限制，上述实施例和说明书中描述的只是说明本发明的原理，在不脱离本发明精神和范围的前提下，本发明还会有各种变化和改进，这些变化和改进都落入要求保护的本发明范围内。本发明要求保护范围由所附的权利要求书及其等效物界定。

Claims

1.一种基于强化学习的某分队数智化建模方法，其特征在于，包括如下步骤：

通过图注意力机制模型模块根据N个智能体实体的特征向量生成对该打击目标实体的摧毁向量为E={e¹ _t,…,eⁿ _t,…,e^N _t}，其中，图注意力机制模型模块包括N个图注意力机制模型，eⁿ _t为第k个图注意力机制模型在t时刻输出对打击目标的摧毁向量;

通过BP神经网络根据N个智能体实体的特征向量和摧毁向量E={e¹ _t,…,eⁿ _t,…,e^N _t}生成t时刻输出的Q个指标项，n=1,2,…,N；

其中，

，式中σ为第一激活函数，/>为智能体中的第j个智能体打击目标的特征向量A_j对第n个智能体打击目标的特征向量A_n的贡献度； ε为第二激活函数；ρ为图注意力机制模型的输入模块到隐含模块的参数；W表示参数矩阵；||表示将WA_n和WA_j拼接起来；

BP神经网络包括第一输入模块、第一隐含模块和第一输出模块，所述第一输入模块包括N个神经元，第n个神经元t时刻输入的值为：

bⁿ _t=A_n+w_e ⁿ eⁿ _t

式中，w_e ⁿ为第n个特征值eⁿ _t的加权系数;

第一隐含模块包括I个神经元，第i个神经元t时刻的输出为:

，式中, wⁿⁱ为第一输入模块第n个神经元与第一隐含模块的第i个神经元之间的权重；Sⁱ为高斯函数的带宽, Mⁱ为高斯函数的中心; u_t-1 ⁱ为第i个神经元t-1时刻的输出；Ψ₀为初始调整系数；P为调整次数；Ψ为调整函数,i=1,2,…,I；

第一输出模块包括Q个神经元，第q个神经元t时刻输出的指标项为：

，式中，w^iq为第一隐含模块第i个神经元和第一输出模块第q个神经元之间的权重，q=1,…,Q。

2.根据权利要求1项所述的基于强化学习的某分队数智化建模方法，其特征在于，概率神经网络包括第二输入模块、第二隐含模块、求和模块和竞争模块，其中，第二输入模块包括初级输入模块和归一化模块，所述初级输入模块输入第n个智能体实体打击目标实体的特征向量为：

，式中，特征向量A_n中任一元素x_na为智能体实体特征向量中第a个指标的测量值,A为特征向量A_n中元素的个数,a=1,2,…,A；

归一化被配置为利用归一化系数向量对特征向量进行归一化处理，得到归一化向量，归一化系数向量如下式：

，归一化向量如下式：

，归一化模块将归一化向量输入到要就概率神经网络的第二隐含模块，第二隐含模块中利用标准差的激活函数将神经元激活，得到初始概率向量如下式：

，式中，/>，z_na归一化矩阵Z_n中第a个值,C_na为激活函数的中心值,δ为激活函数的带宽；

求和模块通过下式求出第n个智能体实体对打击目标实体的毁伤概率，最后由竞争模块输出毁伤概率P_n：

，

式中,ω_a为第二隐含模块神经元与求和模块神经元之间的互相关系数，由训练数据反复训练确定。

3.一种基于强化学习的某分队数智化仿真系统，其特征在于，包括动态知识图谱构建模块和智能决策模块，其中，

图注意力机制模型模块被配置根据N个智能体实体的特征向量生成对该打击目标实体的摧毁向量为E={e¹ _t,…,eⁿ _t,…,e^N _t}，其中，图注意力机制模型模块包括N个图注意力机制模型，eⁿ _t为第n个图注意力机制模型在t时刻输出对打击目标的摧毁向量n=1,2,…,N;

BP神经网络被配置为根据N个智能体实体的特征向量和摧毁向量E={e¹ _t,…,eⁿ _t,…,e^N _t}生成t时刻输出的Q个指标项；

其中，

bⁿ _t=A_n+w_e ⁿ eⁿ _t

式中，w_e ⁿ为第n个特征值eⁿ _t的加权系数;

第一隐含模块包括I个神经元，第i个神经元t时刻的输出为:

4.根据权利要求3所述的基于强化学习的某分队数智化仿真系统，其特征在于，概率神经网络包括第二输入模块、第二隐含模块、求和模块和竞争模块，其中，第二输入模块包括初级输入模块和归一化模块，所述初级输入模块输入第n个智能体实体打击目标实体的特征向量为：

，式中，特征向量A_n中任一元素x_na为智能体实体特征向量中第a个指标的测量值， A为特征向量A_n中元素的个数，a=1,2,…,A；

归一化被配置为利用归一化系数对特征向量进行归一化处理，得到归一化向量，归一化系数如下式：

，归一化向量如下式：

求和模块通过下式求出第n个智能体实体对打击目标实体的毁伤概率，最后由竞争模块输出毁率P_n：

，

式中, ω_a为第二隐含模块神经元与求和模块神经元之间的互相关系数，由训练数据反复训练确定。

5.一种存储装置，其存储有计算机程序代码，其特征在于，所述计算机程序代码能够被处理器调用以执行权利要求1-2任一项所述的方法。