CN117217100B - 一种基于强化学习的某分队数智化建模方法及仿真系统 - Google Patents
一种基于强化学习的某分队数智化建模方法及仿真系统 Download PDFInfo
- Publication number
- CN117217100B CN117217100B CN202311481235.2A CN202311481235A CN117217100B CN 117217100 B CN117217100 B CN 117217100B CN 202311481235 A CN202311481235 A CN 202311481235A CN 117217100 B CN117217100 B CN 117217100B
- Authority
- CN
- China
- Prior art keywords
- module
- entity
- intelligent
- vector
- neuron
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 32
- 230000002787 reinforcement Effects 0.000 title claims abstract description 18
- 238000004088 simulation Methods 0.000 title claims abstract description 16
- 239000013598 vector Substances 0.000 claims abstract description 86
- 239000003795 chemical substances by application Substances 0.000 claims abstract description 60
- 230000007246 mechanism Effects 0.000 claims abstract description 39
- 238000013528 artificial neural network Methods 0.000 claims abstract description 33
- 230000006378 damage Effects 0.000 claims abstract description 23
- 210000002569 neuron Anatomy 0.000 claims description 42
- 230000006870 function Effects 0.000 claims description 21
- 238000010606 normalization Methods 0.000 claims description 14
- 230000004913 activation Effects 0.000 claims description 12
- 238000004590 computer program Methods 0.000 claims description 9
- 238000005259 measurement Methods 0.000 claims description 7
- 238000010276 construction Methods 0.000 claims description 6
- 239000011159 matrix material Substances 0.000 claims description 6
- 238000012549 training Methods 0.000 claims description 6
- 230000008859 change Effects 0.000 abstract description 5
- 238000013473 artificial intelligence Methods 0.000 abstract description 2
- 238000012795 verification Methods 0.000 description 17
- 230000005669 field effect Effects 0.000 description 15
- 238000012937 correction Methods 0.000 description 14
- 210000004027 cell Anatomy 0.000 description 13
- 230000006399 behavior Effects 0.000 description 8
- 230000009286 beneficial effect Effects 0.000 description 5
- 230000007613 environmental effect Effects 0.000 description 5
- 230000008569 process Effects 0.000 description 4
- 230000009471 action Effects 0.000 description 3
- 238000006243 chemical reaction Methods 0.000 description 3
- 230000008447 perception Effects 0.000 description 3
- 238000013524 data verification Methods 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 238000002474 experimental method Methods 0.000 description 2
- 238000013519 translation Methods 0.000 description 2
- 238000013500 data storage Methods 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000001537 neural effect Effects 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 238000007711 solidification Methods 0.000 description 1
- 230000008023 solidification Effects 0.000 description 1
Landscapes
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
一种基于强化学习的某分队数智化建模方法及仿真系统,属于人工智能技术领域。方法包括:通过概率神经网络分别计算与打击目标相连的智能体实体对该打击目标的毁伤概率;通过智能体选择模块根据毁伤概率的高低依次选择N个智能体实体;通过图注意力机制模块生成对该打击目标实体的摧毁向量;通过BP神经网络根据摧毁向量生成Q个指标项。本发明提供的建模方法及仿真系统能够展现强对抗、动态变化的战场态势,且推演作战指标项的速度快、效率高。
Description
技术领域
本发明涉及一种基于强化学习的某分队数智化建模方法及仿真系统,属于人工智能技术领域。
背景技术
当前,作战实验系统主要通过仿真推演手段分析联合作战背景下的作战行动,因而作战实验的效率和效果受到仿真推演系统的制约。传统的体系对抗仿真推演系统中,仿真实体基于有限状态机构建,推演过程中仿真实体按照固定规则采取行动。这导致推演过程中存在战术固定、对抗流程固化、智能化程度低问题,无法展现强对抗、动态变化的战场态势特点。
为解决上述技术问题,公开号为CN116227361A的中国发明专利申请公开了一种智能体决策方法及装置,该方法包括:构建智能体决策模型;获取环境态势信息;基于智能体决策模型对环境态势信息进行处理,确定出智能体决策结果;智能体决策结果用于指示智能体的战术动作执行。该发明有利于提升决策灵活度,进而提高智能体战术策略探索能力。
公开号为CN115906673A的中国发明专利申请公开了一种作战实体行为模型一体化建模方法及系统,该方法包括:获取当前战场环境态势;应用深度神经网络构建感知行为模型;将当前战场环境态势输入至训练好的感知行为模型得到感知结果;当感知的结果为各规则外战场事件的标签时,确定与所述规则外战场事件对应的未知决策行为模型,将当前战场环境态势输入与所述规则外战场事件对应的训练好的未知决策行为模型,确定作战实体物理行为;当感知的结果为既定规则战场事件的标签时,根据已知决策行为模型,确定作战实体物理行为。该发明能够提高作战实体在复杂战场环境中感知并处理规则外未知事件的能力。
但是现有技术中未见根据战场环境中的实时测量数据快速推演作战指标项的报道。
发明内容
本发明要解决的技术问题在于,针对不确定性战场态势下的智能博弈与决策问题,提出了一种基于强化学习的某分队数智化建模方法及仿真系统, 能够展现强对抗、动态变化的战场态势,且推演作战指标项的速度快,效率高。
为实现所述发明目的,本发明一方面提供一种基于强化学习的某分队数智化建模方法,其包括如下步骤:
根据实时测量数据生成包括实体和连接实体之间的边的动态知识图谱,实体包括多个智能体和多个打击目标;
通过打击目标选择模块在t时刻根据作战任务从动态知识图谱中选择1个打击目标实体;
通过概率神经网络分别计算与该打击目标相连的智能体实体对该打击目标的毁伤概率;
通过智能体选择模块根据毁伤概率的高低依次选择N个智能体实体,并将所选择的智能体的测量数据组成特征向量提供给图注意力机制模型模块,第n个智能体实体的特征向量为An;
通过图注意力机制模型模块根据N个智能体实体的特征向量生成对该打击目标实体的摧毁向量为E={e1 t,…,en t,…,eN t},其中,图注意力机制模型模块包括N个图注意力机制模型,en t为第n个图注意力机制模型在t时刻输出对打击目标的摧毁向量,n=1,2,…,N;
通过BP神经网络根据N个智能体实体的特征向量和摧毁向量E={e1 t,…,en t,…,eN t}生成t时刻输出的Q个指标项。
为实现所述发明目的,本发明还提供一种基于强化学习的某分队数智化仿真系统,其特征在于,包括动态知识图谱构建模块和智能决策模块,其中,
动态知识图谱构建模块被配置为根据实时测量数据生成包括实体和连接实体之间的边的动态知识图谱,实体包括多个智能体和多个打击目标;
智能决策模块包括通过打击目标选择模块、概率神经网络、智能体选择模块、图注意力机制模型模块和BP神经网络模块,其中,
打击目标选择模块被配置为在t时刻根据作战任务从动态知识图谱中选择1个打击目标实体;
概率神经网络被配置为分别计算与该打击目标相连的智能体实体对该打击目标的毁伤概率;
智能体选择模块被配置为根据毁伤概率的高低依次选择N个智能体实体,并将所选择的智能体的测量数据组成特征向量并提供给图注意力机制模型模块,第n个智能体实体的特征向量为An;
图注意力机制模型模块被配置根据N个智能体实体的特征向量生成对该打击目标实体的摧毁向量为E={e1 t,…,en t,…,eN t},其中,图注意力机制模型模块包括K个图注意力机制模型,en t为第k个图注意力机制模型在t时刻输出对打击目标的摧毁向量, ,n=1,2,…,N;
BP神经网络被配置为根据N个智能体实体的特征向量和摧毁向量E={e1 t,…,en t,…,eN t}生成t时刻输出的Q个指标项。
为实现所述发明目的,本发明还提供一种存储装置,其存储有计算机程序代码,其特征在于,所述计算机程序代码能够被处理器调用以执行上述方法。
有益效果
与现有技术相比,本发明提供基于强化学习的某分队数智化建模方法及仿真系统具有如下有益效果:
(1)本发明通过构建构参战的动态知识图谱而达到能够展现强对抗、动态变化的战场态势;
(2)本发明通过概率神经网络分别计算与该打击目标相连的智能体实体对该打击目标的毁伤概率,从而可以快速地确定选择哪些智能体对打击目标进行打击;
(3)本发明通过图注意力机制模型模块根据所选择的N个智能体实体的特征向量生成对该打击目标实体的摧毁向量,不仅考虑的一个智能体自身对打击目标打击能力,还考虑了其它智能体对本智能体的贡献度,从而使得最终计算的打击目标的指标项更加科学和准确;
(4)本发明通过BP神经网络根据智能体的特征向量和摧毁向量生成t时刻输出的Q个指标项,推演作战指标项的速度快,效率高。
附图说明
图1是本发明提供的基于强化学习的某分队数智化建模方法的流程图;
图2是本发明提供的存储装置的电路图。
具体实施方式
为了使本发明所要解决的技术问题、技术方案及有益效果更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
第一实施例
图1是本发明提供的基于强化学习的某分队数智化建模方法的流程图,如图1所示,本发明第一实施例提供的一种基于强化学习的某分队数智化建模方法,其包括如下步骤:
根据实时测量数据生成包括实体和连接实体之间的边的动态知识图谱,实体包括多个智能体和多个打击目标;
通过打击目标选择模块在t时刻根据作战任务从动态知识图谱中选择1个打击目标实体;
通过概率神经网络分别计算与该打击目标相连的智能体实体对该打击目标的毁伤概率;
通过智能体选择模块根据毁伤概率的高低依次选择N个智能体实体,并将所选择的智能体的测量数据组成特征向量提供给图注意力机制模型模块,第n个智能体实体的特征向量为An;
通过图注意力机制模型模块根据N个智能体实体的特征向量生成对该打击目标实体的摧毁向量为E={e1 t,…,en t,…,eN t},其中,图注意力机制模型模块包括N个图注意力机制模型,en t为第k个图注意力机制模型在t时刻输出对打击目标的摧毁向量, ,n=1,2,…,N;
通过BP神经网络根据N个智能体实体的特征向量和摧毁向量E={e1 t,…,en t,…,eN t}生成t时刻输出的Q个指标项。
优选地,,式中σ为第一激活函数,为智能体中的第j个智能体打击目标的特征向量Aj对第n个智能体打击目标的特征向量An的贡献度; ε为第二激活函数;ρ为图注意力机制模型的输入模块到隐含模块的参数;W表示参数矩阵;||表示将WAn和WAj拼接起来。
优选地,BP神经网络包括第一输入模块、第一隐含模块和第一输出模块,所述第一输入模块包括N个神经元,第n个神经元t时刻输入的值为:
bn t=An+we n en t
式中,we n为第n个特征值en t的加权系数;
第一隐含模块包括I个神经元,第i个神经元t时刻的输出为:
式中, wni为第一输入模块第n个神经元与第一隐含模块的第i个神经元之间的权重;Si为高斯函数的带宽, Mi为高斯函数的中心; ut-1 i为第i个神经元t-1时刻的输出;Ψ0为初始调整系数;P为调整次数;Ψ为调整函数,i=1,2,…,I;
第一输出模块包括Q个神经元,第q个神经元t时刻输出的指标项为:,式中,wiq为第一隐含模块第i个神经元和第一输出模块第q个神经元之间的权重,q=1,…,Q。
优选地,概率神经网络包括第二输入模块、第二隐含模块、求和模块和竞争模块,其中,第二输入模块包括初级输入模块和归一化模块,所述初级输入模块输入第n个智能体实体打击目标实体的特征向量为:
An=[xn1 … xna …xnA]
式中,特征向量中任一元素xna为智能体实体特征向量中第a个指标的测量值,,A为特征向量中的数值个数,,a=1,2,…,A;
归一化被配置为利用归一化系数向量对特征向量进行归一化处理,得到归一化向量,归一化系数向量如下式:,归一化向量如下式:/>,归一化模块将归一化向量输入到要就概率神经网络的第二隐含模块,第二隐含模块中利用标准差的激活函数将神经元激活,得到初始概率向量如下式:
Pn=[pn1 … pna …pnA],
式中,,zna归一化矩阵Zn中第a个值,Can为激活函数的中心值,δ为激活函数的带宽;
求和模块通过下式求出第n个智能体实体对打击目标实体的毁伤概率,最后由竞争模块输出毁伤概率pn:,式中,ωa为第二隐含模块神经元与求和模块神经元之间的互相关系数,由训练数据反复训练确定。
本发明第一实施例提供的基于强化学习的某分队数智化建模方法具有如下有益效果:
(1)本发明通过构建构参战的动态知识图谱而达到能够展现强对抗、动态变化的战场态势;
(2)本发明通过概率神经网络分别计算与该打击目标相连的智能体实体对该打击目标的毁伤概率,从而可以快速地确定选择哪些智能体对打击目标进行打击;
(3)本发明通过图注意力机制模型模块根据所选择的N个智能体实体的特征向量生成对该打击目标实体的摧毁向量,不仅考虑的一个智能体自身对打击目标打击能力,还考虑了其它智能体对本智能体的贡献度,从而使得最终计算的打击目标的指标项更加科学和准确;
(4)本发明通过BP神经网络根据智能体的特征向量和摧毁向量生成t时刻输出的Q个指标项,推演作战指标项的速度快,效率高。
第二实施例
第二实施例仅描述与第一实施例不同的内容,相同的内容不再重复描述。第二实施例提供一种基于强化学习的某分队数智化仿真系统,其包括动态知识图谱构建模块和智能决策模块,其中,
动态知识图谱构建模块被配置为根据实时测量数据生成包括实体和连接实体之间的边的动态知识图谱,实体包括多个智能体和多个打击目标;
智能决策模块包括通过打击目标选择模块、概率神经网络、智能体选择模块、图注意力机制模型模块和BP神经网络模块,其中,
打击目标选择模块被配置为在t时刻根据作战任务从动态知识图谱中选择1个打击目标实体;
概率神经网络被配置为分别计算与该打击目标相连的智能体实体对该打击目标的毁伤概率;
智能体选择模块被配置为根据毁伤概率的高低依次选择N个智能体实体,并将所选择的智能体的测量数据组成特征向量并提供给图注意力机制模型模块,第n个智能体实体的特征向量为An;
图注意力机制模型模块被配置根据N个智能体实体的特征向量生成对该打击目标实体的摧毁向量为E={e1 t,…,en t,…,eN t},其中,图注意力机制模型模块包括K个图注意力机制模型,en t为第n个图注意力机制模型在t时刻输出对打击目标的摧毁向量,n=1,2,…,N;
BP神经网络被配置为根据特征向量E={e1 t,…,en t,…,eN t}生成t时刻输出的Q个指标项。
本发明第二实施例提供的基基于强化学习的某分队数智化仿真系统的有益效果与第一实施例的有益效果相同,这里不再重复。
第三实施例
本发明第三实施例提供一种存储装置,其存储有计算机程序代码,所述计算机程序代码能够被处理器调用以执行第一实施例所述的方法,处理器包括CPU100。
图2是本发明提供的存储装置的电路图,如图2所示,本发明将存储装置包括第一存储单元601、第二存储单元602和验正装置。存储装置具有两种工作模式:第一种工作模式为:向第一存储单元601写入数据,向第二存储单元602写入用于对写入第一存储单元601中的数据进行验正的错误验正数据。第二种工作模式为:当第一存储单元601的剩余容量变为零时,一边擦除已写入第二存储单元602的验正数据,一边向该第二存储单元602中也写入通常的数据,所述数据包括计算机程序代码及获取的数据。
验正装置包括存储控制器,存储器控制器包括地址转换电路(图中未示)。地址转换电路是将虚拟地址转换成第一存储单元601或第二存储单元602的实际地址的电路。在该地址转换电路中使用存储在寄存器中的地址指针的值。如上所述,第三实施例的数据存储装置具有第一种工作模式和第二种工作模式这两种动作状态,其中,在第二种工作模式下,对第二存储单元602也写入包括计算机程序代码及获取的数据。
验正装置还包括场效应晶体管K1、场效应晶体管K2、场效应晶体管K5、缓冲器605、缓冲器611和验正数据编码器,所述存储区控制器中的地址转换电路依次经缓冲器605和场效应晶体管K1的源极及漏极连接于第一存储单元601,还经场效应晶体管K2的源极及漏极和缓冲 611连接于第二存储单元602, 验正数据编码器经场效应晶体管K5的源极及漏极连接于第一存储单元,验正数据编码器包括验正数据生成器604、奇偶校验生器607、异或门609和异或门610,其中奇偶校验生器607经场效应晶体管K5的源极及漏极连接于第一存储单元601或者第二存储单元602,第一种工作模式时,奇偶校验生器607根据第一存储单元601的物理地址生成第一奇偶校验码。验正数据生成器604用于生成校正存存储于第一存储单元中的数据的错误检查校正字节,第一奇偶校验码分别通过异或门609和610分别与错误检查校正字节的至少两位进行异或运算,从而对校正数据进行加扰以生成新的错误校正数据,该错误校正数据存储于第二存储单元602中。第二种工作模式时,奇偶校验生器607根据第二存储单元602的物理地址生成第一奇偶校验码。验正数据生成器604用于生成校正存存储于第二存储区中的数据的错误检查校正数据,第一奇偶校验码分别通过异或门609和610分别与错误检查校正数据的至少两位进行异或运算,从而对错误检查校正数据进行加扰以生成新的错误检查错误校正数据,该错误校正数据存储于第二存储单元中。场效应晶体管K1、场效应晶体管K2、场效应晶体管K5的栅极由存储单元控制器进行控制。
验正装置还包括场效应晶体管K3、场效应晶体管K4、场效应晶体管K6和缓冲器612、缓冲器613和验正数据解码器,所述存储控制器中的地址转换电路依次经场效应晶体管K3的源极和漏极连接于第二存储单元, 验正数据解码器经场效应晶体管K5的源极和漏极连接于第一存储单元601或者第二存储单元602,验正数据解码器包括验正数据生成器604、奇偶校验生器607、异或门613和异或门614,其中奇偶校验生器607经场效应晶体管K6的源极和漏极连接于第一存储单元601或者第二存储单元602,第一种工作模式时,奇偶校验生器607根据第一存储单元601的物理地址生成第二奇偶校验码。验正数据生成器604用于生成校正从第一存储单元中取出数据的校正数据,第二奇偶校验码分别通过异或门613和614分别与从第二存储区中取出的已加扰的错误校正数据的至少两位进行异或运算,该至少两位是在存储时进行加扰的位,从而进行解扰,数据验正数据生成器根据异或门613和614提供的数据和从第二存储区中取出的验正数据生成用于校正从第一存储区中取出数据。第二种工作模式时,奇偶校验生器607根据第二存储单元602的物理地址生成第二奇偶校验码。验正数据生成器604用于生成校正从第二存储单元中取出数据的错误检查校正数据,第二奇偶校验码分别通过异或门613和614分别与从第二存储单元中取出的已加扰的校正数据的至少两位进行异或运算,从而进行解扰,数据验正数据生成器根据异或门613和614提供的数据和从第二存储单元中取出的验正数据生成用于校正从第二存储区中取出数据。场效应晶体管K3、场效应晶体管K4、场效应晶体管K6的栅极由存储单元控制器进行控制。
本发明第三实施例提供的存储装置的有益效果除与第一实施例具有相同的有益效果外,还具有如下有益效果:
(5)本发明通过校正装置来对存储的数据和或计算机程序代码进行验正,从而使得存储的数据或者计算机程序代码被取出或执行时,不易发生错误,提高了正确率。
需要说明的是,当元件被称为“固定于”或“设置于”另一个元件,它可以直接在另一个元件上或者间接在该另一个元件上。当一个元件被称为是“连接于”另一个元件,它可以是直接连接到另一个元件或间接连接至该另一个元件上。
此外,术语“第一”、“第二”仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括一个或者更多个该特征。在本发明的描述中,“多个”的含义是两个或两个以上,除非另有明确具体的限定。“若干”的含义是一个或一个以上,除非另有明确具体的限定。
在本发明的描述中,需要说明的是,除非另有明确的规定和限定,术语“安装”、“相连”、“连接”应做广义理解,例如,可以是固定连接,也可以是可拆卸连接,或一体地连接;可以是机械连接,也可以是电连接;可以是直接相连,也可以通过中间媒介间接相连,可以是两个元件内部的连通或两个元件的相互作用关系。对于本领域的普通技术人员而言,可以根据具体情况理解上述术语在本发明中的具体含义。
以上显示和描述了本发明的基本原理和主要特征和本发明的优点。本行业的技术人员应该了解,本发明不受上述实施例的限制,上述实施例和说明书中描述的只是说明本发明的原理,在不脱离本发明精神和范围的前提下,本发明还会有各种变化和改进,这些变化和改进都落入要求保护的本发明范围内。本发明要求保护范围由所附的权利要求书及其等效物界定。
Claims (5)
1.一种基于强化学习的某分队数智化建模方法,其特征在于,包括如下步骤:
根据实时测量数据生成包括实体和连接实体之间的边的动态知识图谱,实体包括多个智能体和多个打击目标;
通过打击目标选择模块在t时刻根据作战任务从动态知识图谱中选择1个打击目标实体;
通过概率神经网络分别计算与该打击目标相连的智能体实体对该打击目标的毁伤概率;
通过智能体选择模块根据毁伤概率的高低依次选择N个智能体实体,并将所选择的智能体的测量数据组成特征向量提供给图注意力机制模型模块,第n个智能体实体的特征向量为An;
通过图注意力机制模型模块根据N个智能体实体的特征向量生成对该打击目标实体的摧毁向量为E={e1 t,…,en t,…,eN t},其中,图注意力机制模型模块包括N个图注意力机制模型,en t为第k个图注意力机制模型在t时刻输出对打击目标的摧毁向量;
通过BP神经网络根据N个智能体实体的特征向量和摧毁向量E={e1 t,…,en t,…,eN t}生成t时刻输出的Q个指标项,n=1,2,…,N;
其中,
,式中σ为第一激活函数,/>为智能体中的第j个智能体打击目标的特征向量Aj对第n个智能体打击目标的特征向量An的贡献度; ε为第二激活函数;ρ为图注意力机制模型的输入模块到隐含模块的参数;W表示参数矩阵;||表示将WAn和WAj拼接起来;
BP神经网络包括第一输入模块、第一隐含模块和第一输出模块,所述第一输入模块包括N个神经元,第n个神经元t时刻输入的值为:
bn t=An+we n en t
式中,we n为第n个特征值en t的加权系数;
第一隐含模块包括I个神经元,第i个神经元t时刻的输出为:
,式中, wni为第一输入模块第n个神经元与第一隐含模块的第i个神经元之间的权重;Si为高斯函数的带宽, Mi为高斯函数的中心; ut-1 i为第i个神经元t-1时刻的输出;Ψ0为初始调整系数;P为调整次数;Ψ为调整函数,i=1,2,…,I;
第一输出模块包括Q个神经元,第q个神经元t时刻输出的指标项为:
,式中,wiq为第一隐含模块第i个神经元和第一输出模块第q个神经元之间的权重,q=1,…,Q。
2.根据权利要求1项所述的基于强化学习的某分队数智化建模方法,其特征在于,概率神经网络包括第二输入模块、第二隐含模块、求和模块和竞争模块,其中,第二输入模块包括初级输入模块和归一化模块,所述初级输入模块输入第n个智能体实体打击目标实体的特征向量为:
,式中,特征向量An中任一元素xna为智能体实体特征向量中第a个指标的测量值,A为特征向量An中元素的个数,a=1,2,…,A;
归一化被配置为利用归一化系数向量对特征向量进行归一化处理,得到归一化向量,归一化系数向量如下式:
,归一化向量如下式:
,归一化模块将归一化向量输入到要就概率神经网络的第二隐含模块,第二隐含模块中利用标准差的激活函数将神经元激活,得到初始概率向量如下式:
,式中,/>,zna归一化矩阵Zn中第a个值,Cna为激活函数的中心值,δ为激活函数的带宽;
求和模块通过下式求出第n个智能体实体对打击目标实体的毁伤概率,最后由竞争模块输出毁伤概率Pn:
,
式中,ωa为第二隐含模块神经元与求和模块神经元之间的互相关系数,由训练数据反复训练确定。
3.一种基于强化学习的某分队数智化仿真系统,其特征在于,包括动态知识图谱构建模块和智能决策模块,其中,
动态知识图谱构建模块被配置为根据实时测量数据生成包括实体和连接实体之间的边的动态知识图谱,实体包括多个智能体和多个打击目标;
智能决策模块包括通过打击目标选择模块、概率神经网络、智能体选择模块、图注意力机制模型模块和BP神经网络模块,其中,
打击目标选择模块被配置为在t时刻根据作战任务从动态知识图谱中选择1个打击目标实体;
概率神经网络被配置为分别计算与该打击目标相连的智能体实体对该打击目标的毁伤概率;
智能体选择模块被配置为根据毁伤概率的高低依次选择N个智能体实体,并将所选择的智能体的测量数据组成特征向量并提供给图注意力机制模型模块,第n个智能体实体的特征向量为An;
图注意力机制模型模块被配置根据N个智能体实体的特征向量生成对该打击目标实体的摧毁向量为E={e1 t,…,en t,…,eN t},其中,图注意力机制模型模块包括N个图注意力机制模型,en t为第n个图注意力机制模型在t时刻输出对打击目标的摧毁向量n=1,2,…,N;
BP神经网络被配置为根据N个智能体实体的特征向量和摧毁向量E={e1 t,…,en t,…,eN t}生成t时刻输出的Q个指标项;
其中,
,式中σ为第一激活函数,/>为智能体中的第j个智能体打击目标的特征向量Aj对第n个智能体打击目标的特征向量An的贡献度; ε为第二激活函数;ρ为图注意力机制模型的输入模块到隐含模块的参数;W表示参数矩阵;||表示将WAn和WAj拼接起来;
BP神经网络包括第一输入模块、第一隐含模块和第一输出模块,所述第一输入模块包括N个神经元,第n个神经元t时刻输入的值为:
bn t=An+we n en t
式中,we n为第n个特征值en t的加权系数;
第一隐含模块包括I个神经元,第i个神经元t时刻的输出为:
,式中, wni为第一输入模块第n个神经元与第一隐含模块的第i个神经元之间的权重;Si为高斯函数的带宽, Mi为高斯函数的中心; ut-1 i为第i个神经元t-1时刻的输出;Ψ0为初始调整系数;P为调整次数;Ψ为调整函数,i=1,2,…,I;
第一输出模块包括Q个神经元,第q个神经元t时刻输出的指标项为:
,式中,wiq为第一隐含模块第i个神经元和第一输出模块第q个神经元之间的权重,q=1,…,Q。
4.根据权利要求3所述的基于强化学习的某分队数智化仿真系统,其特征在于,概率神经网络包括第二输入模块、第二隐含模块、求和模块和竞争模块,其中,第二输入模块包括初级输入模块和归一化模块,所述初级输入模块输入第n个智能体实体打击目标实体的特征向量为:
,式中,特征向量An中任一元素xna为智能体实体特征向量中第a个指标的测量值, A为特征向量An中元素的个数,a=1,2,…,A;
归一化被配置为利用归一化系数对特征向量进行归一化处理,得到归一化向量,归一化系数如下式:
,归一化向量如下式:
,归一化模块将归一化向量输入到要就概率神经网络的第二隐含模块,第二隐含模块中利用标准差的激活函数将神经元激活,得到初始概率向量如下式:
,式中,/>,zna归一化矩阵Zn中第a个值,Cna为激活函数的中心值,δ为激活函数的带宽;
求和模块通过下式求出第n个智能体实体对打击目标实体的毁伤概率,最后由竞争模块输出毁率Pn:
,
式中, ωa为第二隐含模块神经元与求和模块神经元之间的互相关系数,由训练数据反复训练确定。
5.一种存储装置,其存储有计算机程序代码,其特征在于,所述计算机程序代码能够被处理器调用以执行权利要求1-2任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311481235.2A CN117217100B (zh) | 2023-11-08 | 2023-11-08 | 一种基于强化学习的某分队数智化建模方法及仿真系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311481235.2A CN117217100B (zh) | 2023-11-08 | 2023-11-08 | 一种基于强化学习的某分队数智化建模方法及仿真系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN117217100A CN117217100A (zh) | 2023-12-12 |
CN117217100B true CN117217100B (zh) | 2024-01-30 |
Family
ID=89051471
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202311481235.2A Active CN117217100B (zh) | 2023-11-08 | 2023-11-08 | 一种基于强化学习的某分队数智化建模方法及仿真系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117217100B (zh) |
Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112131786A (zh) * | 2020-09-14 | 2020-12-25 | 中国人民解放军军事科学院评估论证研究中心 | 基于多智能体强化学习的目标探测与分配方法及装置 |
CN113298260A (zh) * | 2021-06-11 | 2021-08-24 | 中国人民解放军国防科技大学 | 一种基于深度强化学习的对抗仿真推演方法 |
CN113627596A (zh) * | 2021-08-10 | 2021-11-09 | 中国科学院自动化研究所 | 基于动态图神经网络的多智能体对抗方法及系统 |
CN115186097A (zh) * | 2022-01-07 | 2022-10-14 | 东北大学 | 一种基于知识图谱和强化学习的交互式推荐方法 |
CN115631165A (zh) * | 2022-10-24 | 2023-01-20 | 华东理工大学 | 面向群智夺旗博弈的深度强化学习方法和系统 |
CN116502915A (zh) * | 2023-04-30 | 2023-07-28 | 北京中科智易科技股份有限公司 | 一种无人作战车辆火力分配方法及系统 |
CN116596343A (zh) * | 2023-05-26 | 2023-08-15 | 西安理工大学 | 一种基于深度强化学习的智能兵棋推演决策方法 |
CN116841317A (zh) * | 2023-07-05 | 2023-10-03 | 北京航空航天大学 | 一种基于图注意力强化学习的无人机集群协同对抗方法 |
Family Cites Families (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US11657266B2 (en) * | 2018-11-16 | 2023-05-23 | Honda Motor Co., Ltd. | Cooperative multi-goal, multi-agent, multi-stage reinforcement learning |
CN109635917B (zh) * | 2018-10-17 | 2020-08-25 | 北京大学 | 一种多智能体合作决策及训练方法 |
KR20230034751A (ko) * | 2021-09-03 | 2023-03-10 | 한국전자통신연구원 | 하이퍼그래프 기반 멀티에이전트 전장상황인지 시스템 및 방법 |
-
2023
- 2023-11-08 CN CN202311481235.2A patent/CN117217100B/zh active Active
Patent Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112131786A (zh) * | 2020-09-14 | 2020-12-25 | 中国人民解放军军事科学院评估论证研究中心 | 基于多智能体强化学习的目标探测与分配方法及装置 |
CN113298260A (zh) * | 2021-06-11 | 2021-08-24 | 中国人民解放军国防科技大学 | 一种基于深度强化学习的对抗仿真推演方法 |
CN113627596A (zh) * | 2021-08-10 | 2021-11-09 | 中国科学院自动化研究所 | 基于动态图神经网络的多智能体对抗方法及系统 |
CN115186097A (zh) * | 2022-01-07 | 2022-10-14 | 东北大学 | 一种基于知识图谱和强化学习的交互式推荐方法 |
CN115631165A (zh) * | 2022-10-24 | 2023-01-20 | 华东理工大学 | 面向群智夺旗博弈的深度强化学习方法和系统 |
CN116502915A (zh) * | 2023-04-30 | 2023-07-28 | 北京中科智易科技股份有限公司 | 一种无人作战车辆火力分配方法及系统 |
CN116596343A (zh) * | 2023-05-26 | 2023-08-15 | 西安理工大学 | 一种基于深度强化学习的智能兵棋推演决策方法 |
CN116841317A (zh) * | 2023-07-05 | 2023-10-03 | 北京航空航天大学 | 一种基于图注意力强化学习的无人机集群协同对抗方法 |
Non-Patent Citations (2)
Title |
---|
基于多智能体的作战模拟仿真模型框架研究;迟妍, 谭跃进;计算机仿真(第04期);全文 * |
基于深度强化学习的智能仿真平台设计;吴昭欣;李辉;王壮;陶伟;吴昊霖;侯贤乐;;战术导弹技术(第04期);全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN117217100A (zh) | 2023-12-12 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11870462B2 (en) | Fault tolerant and error correction decoding method and apparatus for quantum circuit, and chip | |
Graves et al. | Automated curriculum learning for neural networks | |
Kapelner et al. | Bartmachine: Machine learning with bayesian additive regression trees | |
KR20200004700A (ko) | 뉴럴 네트워크에서 파라미터를 처리하는 방법 및 장치 | |
KR20190044878A (ko) | 뉴럴 네트워크에서 파라미터를 처리하는 방법 및 장치 | |
US11093714B1 (en) | Dynamic transfer learning for neural network modeling | |
WO2001018667A9 (en) | Relevance vector machine | |
JP7059458B2 (ja) | 生成的敵対神経網ベースの分類システム及び方法 | |
Huang et al. | LTNN: A layerwise tensorized compression of multilayer neural network | |
US20060284761A1 (en) | Methods and apparatus for target discrimination using observation vector weighting | |
US20220114494A1 (en) | Model-agnostic approach to interpreting sequence predictions | |
CN113361685A (zh) | 一种基于学习者知识状态演化表示的知识追踪方法及系统 | |
CN117940936A (zh) | 用于评估对抗鲁棒性的方法和装置 | |
Fine et al. | Query by committee, linear separation and random walks | |
CN117217100B (zh) | 一种基于强化学习的某分队数智化建模方法及仿真系统 | |
Jiang et al. | Deep metric learning based on meta-mining strategy with semiglobal information | |
Zhang et al. | WOA-based echo state network for chaotic time series prediction | |
CN110717601A (zh) | 一种基于有监督学习和无监督学习的反欺诈方法 | |
CN110866403B (zh) | 基于卷积循环实体网络的端对端对话状态跟踪方法及系统 | |
Phalak et al. | Approximate quantum random access memory architectures | |
CN113705724B (zh) | 基于自适应l-bfgs算法的深度神经网络的批量学习方法 | |
Steil | Memory in backpropagation-decorrelation O (N) efficient online recurrent learning | |
Gomes et al. | Machine Learning architectures for price formation models with common noise | |
Wehenkel et al. | Addressing Misspecification in Simulation-based Inference through Data-driven Calibration | |
Zhang et al. | Using orthogonal grey wolf optimizer with mutation for training multi-layer perceptron neural network |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |