CN114049242A - 一种基于深度强化学习的武器目标智能分配方法 - Google Patents
一种基于深度强化学习的武器目标智能分配方法 Download PDFInfo
- Publication number
- CN114049242A CN114049242A CN202111178278.4A CN202111178278A CN114049242A CN 114049242 A CN114049242 A CN 114049242A CN 202111178278 A CN202111178278 A CN 202111178278A CN 114049242 A CN114049242 A CN 114049242A
- Authority
- CN
- China
- Prior art keywords
- weapon
- reinforcement learning
- deep reinforcement
- weapon target
- target
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 230000002787 reinforcement Effects 0.000 title claims abstract description 47
- 238000000034 method Methods 0.000 title claims abstract description 37
- 238000012549 training Methods 0.000 claims abstract description 34
- 238000013461 design Methods 0.000 claims abstract description 10
- 230000000694 effects Effects 0.000 claims abstract description 7
- 230000009471 action Effects 0.000 claims description 46
- 230000006870 function Effects 0.000 claims description 21
- 230000006378 damage Effects 0.000 claims description 13
- 230000008569 process Effects 0.000 claims description 10
- 238000005457 optimization Methods 0.000 claims description 6
- 230000008901 benefit Effects 0.000 claims description 4
- 238000011156 evaluation Methods 0.000 claims description 4
- 238000011478 gradient descent method Methods 0.000 claims 1
- 238000013528 artificial neural network Methods 0.000 abstract description 3
- 238000010586 diagram Methods 0.000 description 9
- 238000004364 calculation method Methods 0.000 description 8
- 230000008859 change Effects 0.000 description 3
- 230000003993 interaction Effects 0.000 description 3
- 238000011160 research Methods 0.000 description 2
- 238000010845 search algorithm Methods 0.000 description 2
- 238000007493 shaping process Methods 0.000 description 2
- 241000251468 Actinopterygii Species 0.000 description 1
- 241000283153 Cetacea Species 0.000 description 1
- IOYNQIMAUDJVEI-BMVIKAAMSA-N Tepraloxydim Chemical group C1C(=O)C(C(=N/OC\C=C\Cl)/CC)=C(O)CC1C1CCOCC1 IOYNQIMAUDJVEI-BMVIKAAMSA-N 0.000 description 1
- 230000003044 adaptive effect Effects 0.000 description 1
- 238000013473 artificial intelligence Methods 0.000 description 1
- 239000003795 chemical substances by application Substances 0.000 description 1
- 238000000354 decomposition reaction Methods 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000002068 genetic effect Effects 0.000 description 1
- 230000002452 interceptive effect Effects 0.000 description 1
- 239000000463 material Substances 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 230000009525 mild injury Effects 0.000 description 1
- 230000009526 moderate injury Effects 0.000 description 1
- 239000002245 particle Substances 0.000 description 1
- 230000035515 penetration Effects 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 238000013468 resource allocation Methods 0.000 description 1
- 230000009528 severe injury Effects 0.000 description 1
- 239000013598 vector Substances 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
- G06Q50/10—Services
- G06Q50/26—Government or public services
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/044—Recurrent networks, e.g. Hopfield networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/084—Backpropagation, e.g. using gradient descent
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/06—Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
- G06Q10/063—Operations research, analysis or management
- G06Q10/0639—Performance analysis of employees; Performance analysis of enterprise or organisation operations
- G06Q10/06393—Score-carding, benchmarking or key performance indicator [KPI] analysis
Landscapes
- Engineering & Computer Science (AREA)
- Business, Economics & Management (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Human Resources & Organizations (AREA)
- General Physics & Mathematics (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Software Systems (AREA)
- Tourism & Hospitality (AREA)
- Data Mining & Analysis (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Mathematical Physics (AREA)
- Biophysics (AREA)
- Biomedical Technology (AREA)
- Artificial Intelligence (AREA)
- Development Economics (AREA)
- Educational Administration (AREA)
- Evolutionary Computation (AREA)
- Economics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Strategic Management (AREA)
- Marketing (AREA)
- General Business, Economics & Management (AREA)
- Entrepreneurship & Innovation (AREA)
- Primary Health Care (AREA)
- Game Theory and Decision Science (AREA)
- Operations Research (AREA)
- Quality & Reliability (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
针对传统武器目标分配算法建模困难、搜索效率低等问题,本发明提出一种基于深度强化学习的武器目标智能分配方法,通过训练得到具有较强决策能力的武器目标智能分配模型。本发明首先针对武器目标分配问题设计了武器目标分配问题的规划求解环境,然后使用SAC算法进行实现,同时在神经网络上使用了全连接网络、卷积网络和GRU网络等神经网络,提升了模型的效果。本发明无论在学习能力、适应性和计算效率都要比传统算法更加优秀。
Description
技术领域
本发明涉及作战任务决策领域,尤其是涉及一种武器目标分配智能分配方法。
背景技术
武器目标分配亦称“武器-目标分配”,是指在作战指挥中为目标明确打击武器的一项决策活动,根据给定的目标和毁伤要求清单,依托平时预先为每个目标所规划的对应不同毁伤要求的多套打击方案,基于打击方案所明确的使用武器类型、数量及可达到的毁伤效果,在满足可用武器资源的条件下,通过为每个目标选择打击方案的方式确定武器目标分配关系,使总体投入武器资源最省或可达到毁伤效果的期望值极大。
武器目标分配作为任务规划系统的关键组成要素,其核心和基础是解决好武器与目标间的适应性匹配问题,以提高武器打击目标的可行性与毁伤效能。当前伴随着新军事理论的提出,现代作战不仅重视作战的输赢,同时还要保证以最少的物资消耗、人员伤亡在最短时间内获得胜利。作战时,要求能够快速制定作战方案,完成作战任务并达成作战效益的最大化。然而,针对有限的武器资源,如何将资源有效合理的分配给每个任务,给作战人员带来了一定的困扰。因此,有效合理的分配武器资源成为制定作战方案的难点,也成为作战研究的重点之一,是各级指挥机构进行作战筹划时首要解决的关键问题之一,对于武器作战效能的发挥具有重要意义。
本发明涉及军事运筹和智能规划双重技术领域,具体是一种基于深度强化学习的武器目标智能分配方法。
以往对于武器目标分配问题的求解方法,主要包括传统算法和随机搜索算法两大类。其中,传统算法主要包括整数规划、动态规划、匈牙利算法或搜索论等,这些算法在单种武器打击多目标的武器目标分配方面取得较好的运用效果,但是对于多种武器打击多目标的武器目标分配问题,则存在建模困难、搜索效率低等困境,且很容易出现“维数灾难”导致求解失败。随机搜索算法主要包括粒子群、遗传算法、差分进化算法、鲸鱼算法、人工鱼群算法,这些算法因其计算过程随机性大,算法收敛速度和计算结果均不可控,无法满足实际应用需求。
随着可用武器和打击目标种类、数量的不断增加,以及作战决策时效性要求的不断提高,传统的武器目标分配规划作业方式因其存在的自动化程度低、应变能力差等缺点,已无法适应现代高技术战争需要。
近年来,以深度强化学习为代表的人工智能技术在围棋、德州扑克以及即时战略游戏如星际争霸II、刀塔等中取得了瞩目成就,在实际应用中有巨大的应用潜力。这种方法中智能体和环境在交互过程中生成的样本进行训练,在不断交互的自学习方式中进行算法模型的强化,所以不需要样本集也不受样本集的束缚,在无样本的情况仍然能够解决实际问题,同时解决了有限样本情况下算法模型延展性限制问题,可为武器目标分配问题的高效求解提供新的突破口。
发明内容
本发明提出一种基于深度强化学习的武器目标智能分配方法,以解决传统的武器目标分配规划作业方式因其存在的自动化程度低、应变能力差等技术问题。为解决上述技术问题,本发明通过设计武器目标分配深度强化学习求解环境的状态、动作和奖励,建立由基于CONV/FC/GRU混合架构的武器目标分配决策动作网络和武器目标分配决策价值网络构成的武器目标分配深度强化学习网络模型,搭建武器目标智能分配算法的前台应用与后台训练一体化综合运用环境,完成武器目标分配深度强化学习网络训练与优化,实现了武器目标分配问题的快速、高效求解,并在应用场景发生改变时,提供武器目标智能分配算法的自学习和在线升级能力。
附图说明
图1为本发明基于深度强化学习的武器目标智能分配方法的总体流程图;
图2为武器目标分配环境逻辑处理的流程图;
图3为武器目标分配决策动作网络模型示意图;
图4为武器目标分配决策价值网络模型示意图;
图5为Dueling DQN结构变化图;
图6为武器目标智能分配算法的前台应用与后台训练一体化综合运用环境示意图;
图7为武器目标分配算法模型训练流程图。
具体实施方式
本发明提供的基于深度强化学习的武器目标智能分配方法,其总体实现流程如图1所示,包括如下步骤:
步骤101、设计武器目标分配问题的规划求解环境,主要完成状态模型、动作模型和奖励模型的设计;
步骤102、建立武器目标分配问题的规划网络模型,主要包括:建立基于CONV/FC/GRU(一维卷积/全连接网络/门循环单元)混合架构的武器目标分配决策动作网络和武器目标分配决策价值网络,并计算武器目标分配决策动作的分布概率;
步骤103、设计基于SAC(Soft Actor Critic,柔性制动/评价)的深度强化学习武器目标分配算法;SAC深度学习是一种基于off-policy和最大熵的深度强化学习算法。
步骤104、基于深度强化学习算法训练武器目标分配网络;
步骤105、应用训练成果实现武器目标问题求解;
步骤106、针对应用场景变化开展武器目标分配深度强化学习网络优化,完成算法的自我学习和在线升级,流程结束。
图2为武器目标分配环境逻辑处理的流程图,为图1中步骤101的具体实现过程,其具体流程如下:
步骤201、武器目标分配环境初始化;
步骤202至203、输出武器目标分配初始状态信息,设计武器目标分配深度强化学习求解环境的状态St,包括:
目标序号stx:独热编码(one-hot)类型,目标数量为N时,采用N位独热编码记录对应目标序号;
例:武器目标分配环境中打击目标数量上限为10,即目标序号K≤10,则目标序号独热编码案例如下:
目标序号 | 目标序号独热编码 |
1 | 0000000001 |
6 | 0000100000 |
10 | 1000000000 |
目标价值系数stv:整型,描述目标价值,取值为0-100,值越大表明该目标的价值最大;
毁伤等级std:整型,描述对目标的毁伤程度要求,取值为0、1、2,0表示轻度毁伤、1表示中度毁伤、2表示重度毁伤;
打击方案列表sdl:列表类型,存储每个目标可用的打击方案清单;
其他目标信息列表sot:列表类型,存储其他未完成分配的目标清单;
打击方案标签sdf:列表类型,描述打击方案是否可选,取值为0、1,1表示打击方案可选,0表示不可选;
步骤204至205、武器目标分配模型前向计算,输出武器目标分配模型决策动作,设计武器目标分配深度强化学习求解环境的动作Mt::
Mt=i,i∈[1,N]
Mt为武器目标分配动作,i为[1,N]区间的离散整数值,表示当前为对应的目标选择第i个打击方案以完成武器分配,N表示每个目标最多可用的打击方案数量;
步骤206、接受武器目标分配模型决策动作;
步骤207、动作转换为具体毁伤方案;
步骤208、进行毁伤方案决策逻辑计算;
步骤209、基于决策完成环境进行奖励值计算;
设计武器目标分配深度强化学习求解环境的奖励R。建立基于预期打击效益、使用武器数量、使用武器种类数量和剩余武器能力四个指标综合评价的武器目标分配决策效果评价函数,作为该问题的奖励函数R:
其中,R为奖励值;ω0、ω1、ω2、ω3为四个指标的权重,通常根据决策意图由指挥人员明确;vi为第i个目标的价值系数,di为对第i个目标的毁伤概率,Nmb为目标总数;nj为第j种武器使用数量,NW为全部武器总数,Nwq为武器种类数量;twq为被使用的武器种类数量;为第k武器的剩余数量;δk表示第k种武器的作战能力指数,δk=psc·ptf·(mkk/mall),psc、ptf分别为武器战技术指标给定的生存概率和突防概率,mkk为第k种武器可打击的目标数量,mall为全部待打击的目标数量;
步骤210、判断是否所有目标毁伤完成,如果否执行步骤211,如果是执行步骤215;
步骤211至212、输出武器目标分配状态信息、结束标识(否)和奖励;
步骤213至214、武器目标分配模型前向计算,输出武器目标分配模型决策动作,继续执行步骤206;
步骤215、216输出武器目标分配状态信息、结束标识(是)和奖励,流程结束。
图3为武器目标分配决策动作网络模型示意图,建立基于CONV/FC/GRU(一维卷积/全连接网络/门循环单元)混合架构的武器目标分配决策动作网络;
其中,fc1指全连接网络,conv指卷积网络,gru指GRU神经网络,squa指平方计算,Q(s,a)是状态动作价值函数,V(s)是状态价值函数,A(s,a)是优势函数,s为状态,a为决策动作。
武器目标分配决策动作网络的状态输入state由x1、x2、x3三部分组成,均为一维向量。其中,x1为目标基本信息,x2为目标使用的打击方案,x3为打击方案标签。
这里的GRU网络用来提取时序特征,其计算过程如下:
a)在获得前一目标的状态信息提取特征的输入St-1和当前目标特征输入Xt之后,将两者记性合并计算重置门:
r(t)=sigmoid(netr(t))
b)将前一目标的状态信息提取特征的输入St-1和当前目标特征输入Xt合并计算为更新门z(t)::
z(t)=sigmoid(netz(t))
d)计算该单元的输出值:
e)最后计算输出层输出值:
o(t)=sigmoid(neto(t))
图4为武器目标分配决策价值网络模型示意图,其中,fc2、fc3指全连接网络,Q(s,a)是状态动作价值函数,V(s)是状态价值函数,A(s,a)是优势函数。
武器目标分配价值网络模型设计时吸收了Dueling DQN算法的思想,将基于状态和动作的值函数q分解成了基于状态的值函数v和优势函数A:
q(st,at)=v(st)+A(st,at)
这样的设计不只是单纯的分解,需要对两部分的输出做出一定的限制。如果不对两部分输出做限制,当Q(s,a)一定时,V(s)和A(s,a)有无穷种组合,但只有很小的一部分是合理的,大部分都是对策略更新无价值的。为了解决该问题,这里对优势函数A(s,a)做出限制,如下:
Ea[A(st,at)]=Ea[Q(st,at)-V(st)]
=V(st)-V(st)
=0
若优势函数的期望为0,那么在计算Q(s,a)时,优势函数部分减去优势函数的期望会将该部分控制在一定范围内。这样Q(s,a)函数如下:
让每一个优势函数值减去当前状态下所有优势函数值的平均数,这样可以将期望值约束为0,从而增加了V(s)和A(s,a)的输出稳定性。网络结构变化图示如图5所示。
计算武器目标分配决策动作的分布概率,具体为:
其中,P(y=j)表示选择第j(j∈[1,K])个决策动作的概率,xj表示决策动作网络第j个动作对应的原始输出值,Wj表示是否进行动作屏蔽,用于规避无效决策,取值为0时表示第j个动作为无效动作,取值为1时表示第j个动作为有效动作。
选取对应概率值最大的决策动作作为武器目标分配结果,即:
图6为武器目标智能分配算法的前台应用与后台训练一体化综合运用环境示意图,武器目标智能分配算法的前台应用与后台训练一体化综合运用环境可分为训练环境和应用环境两部分。在训练环境,武器目标分配深度强化学习网络模型和武器目标分配训练环境不断进行交互生成样本,然后基于SAC深度强化学习算法进行网络模型调优,实现武器目标分配模型训练优化。在应用环境中,将训练好的武器目标分配深度强化学习网络模型接入应用环境中的任务规划系统,提供武器目标分配后台算法支持,实现对真实作战环境中的武器目标分配问题的求解。
图7为武器目标分配算法模型训练流程图,主要是搭建武器目标智能分配算法的前台应用与后台训练一体化综合运用环境,并完成深度强化学习网络训练,具体过程如下:
步骤701、武器目标分配深度强化学习网络模型初始化;
步骤702、武器目标分配训练环境初始化;
步骤703至704、武器目标分配训练环境输出武器目标分配初始状态信息St给武器目标分配深度强化学习网络模型;
步骤705至706、武器目标分配深度强化学习网络模型前向计算,并输出武器目标分配模型决策动作at;
步骤707、武器目标分配训练环境接收武器目标分配模型决策动作at;
步骤708、武器目标分配训练环境将动作at转换为具体毁伤方案;
步骤709、武器目标分配训练环境进行毁伤方案决策逻辑计算;
步骤710、基于决策完成情况,环境进行奖励值r计算;
步骤711、判断是否所有目标毁伤完成;如果否,执行步骤712;如果是,执行步骤716;
步骤712至713、交互过程中输出武器目标分配状态信息St、结束标志(否)、奖励r到武器目标分配样本池中;
步骤714-715、武器目标分配深度强化学习网络模型前向计算,并输出武器目标分配模型决策动作at,继续执行步骤707;
步骤716-718、交互过程中输出武器目标分配状态信息St、结束标志(否)、奖励r到武器目标分配样本池中;
步骤719、判断是否达到更新步数,如果否,执行步骤702;如果是,执行步骤720;
步骤720、武器目标分配深度强化学习网络模型反向传播更新参数;
步骤721、判断是否训练完成,如果否,执行步骤702;如果是,流程结束。
应用时,将训练好的武器目标分配深度强化学习网络模型接入应用环境中的任务规划系统,提供武器目标分配后台算法支持,实现对真实作战环境中的武器目标分配问题的求解。当应用场景发生改变时,由应用环境提供训练场景想定更新数据,通过步骤701-721实现算法自学习和在线升级。
Claims (8)
1.一种基于深度强化学习的武器目标智能分配方法,其特征在于,包括:
设计武器目标分配问题的SAC深度强化学习求解环境;
建立武器目标分配SAC深度强化学习网络模型;
训练武器目标分配SAC深度强化学习网络模型;
应用武器目标分配SAC深度强化学习网络模型的训练结果,实现武器目标分配问题求解,并针对应用场景变化开展武器目标分配SAC深度强化学习网络模型优化,完成SAC深度强化学习算法的自学习和在线升级。
2.如权利要求1所述的方法,其特征在于,所述设计武器目标分配问题的SAC深度强化学习求解环境,包括状态模型设计、动作模型设计和奖励模型设计;
其中,状态模型设计,具体包括:选取目标序号、目标价值系数、毁伤等级、打击方案列表、其他目标信息列表和打击方案标签作为状态信息;
动作模型设计,具体包括:根据每个目标最多可用的打击方案数量,设计武器目标分配SAC深度强化学习求解环境的动作,为对应的目标选择打击方案以完成武器目标动作分配;
奖励模型设计,具体包括:建立基于预期打击效益、使用武器数量、使用武器种类数量和剩余武器能力四个指标综合评价的武器目标分配决策效果评价函数,作为该问题的奖励函数。
3.如权利要求1所述的方法,其特征在于,所述建立武器目标分配SAC深度强化学习网络模型,包括:建立基于(CONV/FC/GRU)混合架构的武器目标分配决策动作网络,建立武器目标分配决策价值网络。
4.如权利要求1所述的方法,其特征在于,所述建立武器目标分配SAC深度强化学习网络模型,还包括计算武器目标分配决策动作的分布概率,对无效动作进行屏蔽、规避无效决策,选取概率值最大的决策动作,作为武器目标分配结果。
5.如权利要求1所述的方法,其特征在于,所述训练武器目标分配SAC深度强化学习网络模型,包括搭建武器目标智能分配算法的前台应用与后台训练一体化综合运用环境,完成SAC深度强化学习网络训练。
6.如权利要求5所述的方法,其特征在于,所述前台应用与后台训练一体化综合运用环境,包括训练环境和应用环境;
搭建前台应用与后台训练一体化综合运用环境的具体过程,包括:训练场景想定、生成状态特征、SAC深度强化学习网络模型、执行决策动作、采用SAC深度强化学习算法完成训练与优化、进行目标分配、输出SAC深度强化学习网络模型结果。
7.如权利要求6所述的方法,其特征在于,所述采用SAC深度强化学习算法完成训练与优化、进行目标分配、输出SAC深度强化学习网络模型结果包括两步:
第一步,利用武器目标分配价值网络计算动作价值;
第二步,采用梯度下降法更新武器目标分配价值网络,使用梯度上升法更新武器分配决策动作网络模型。
8.如权利要求1所述的方法,其特征在于,所述武器目标分配问题求解包括将训练好的武器目标分配SAC深度强化学习网络模型接入应用环境中的任务规划系统。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111178278.4A CN114049242A (zh) | 2021-10-09 | 2021-10-09 | 一种基于深度强化学习的武器目标智能分配方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111178278.4A CN114049242A (zh) | 2021-10-09 | 2021-10-09 | 一种基于深度强化学习的武器目标智能分配方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN114049242A true CN114049242A (zh) | 2022-02-15 |
Family
ID=80205064
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202111178278.4A Pending CN114049242A (zh) | 2021-10-09 | 2021-10-09 | 一种基于深度强化学习的武器目标智能分配方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114049242A (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114926026A (zh) * | 2022-05-21 | 2022-08-19 | 中国电子科技集团公司第二十研究所 | 一种多维特征深度学习的目标分配优化方法 |
CN115826623A (zh) * | 2023-02-17 | 2023-03-21 | 中国人民解放军96901部队 | 一种基于不完备信息的移动目标攻击规划方法 |
CN116485039A (zh) * | 2023-06-08 | 2023-07-25 | 中国人民解放军96901部队 | 一种基于强化学习的打击序列智能规划方法 |
-
2021
- 2021-10-09 CN CN202111178278.4A patent/CN114049242A/zh active Pending
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114926026A (zh) * | 2022-05-21 | 2022-08-19 | 中国电子科技集团公司第二十研究所 | 一种多维特征深度学习的目标分配优化方法 |
CN114926026B (zh) * | 2022-05-21 | 2023-02-14 | 中国电子科技集团公司第二十研究所 | 一种多维特征深度学习的目标分配优化方法 |
CN115826623A (zh) * | 2023-02-17 | 2023-03-21 | 中国人民解放军96901部队 | 一种基于不完备信息的移动目标攻击规划方法 |
CN116485039A (zh) * | 2023-06-08 | 2023-07-25 | 中国人民解放军96901部队 | 一种基于强化学习的打击序列智能规划方法 |
CN116485039B (zh) * | 2023-06-08 | 2023-10-13 | 中国人民解放军96901部队 | 一种基于强化学习的打击序列智能规划方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN114049242A (zh) | 一种基于深度强化学习的武器目标智能分配方法 | |
CN106990792B (zh) | 混合引力搜索算法的多无人机协同时序耦合任务分配方法 | |
Mohammadzadeh et al. | A multi‐agent system based for solving high‐dimensional optimization problems: a case study on email spam detection | |
CN112367353A (zh) | 基于多智能体强化学习的移动边缘计算卸载方法 | |
CN108734202A (zh) | 一种基于改进bp神经网络的高压断路器故障诊断方法 | |
CN110197270A (zh) | 集成电路芯片装置及相关产品 | |
CN108989098B (zh) | 一种混合云环境面向时延优化的科学工作流数据布局方法 | |
CN111325356A (zh) | 一种基于演化计算的神经网络搜索分布式训练系统及训练方法 | |
CN109409773A (zh) | 一种基于合同网机制的对地观测资源动态规划方法 | |
CN107179077A (zh) | 一种基于elm‑lrf的自适应视觉导航方法 | |
CN116187787B (zh) | 作战资源跨域调配问题的智能规划方法 | |
CN112685138A (zh) | 云环境下基于多种群混合智能优化的多工作流调度方法 | |
CN113821973A (zh) | 一种多阶段武器目标分配的自适应优化方法 | |
CN110232492A (zh) | 一种基于改进离散粒子群算法的多无人机协同任务调度方法 | |
CN113869511A (zh) | 一种基于策略迁移的多智能体协同进化方法 | |
CN114202175A (zh) | 一种基于人工智能的作战任务规划方法及系统 | |
CN114840024A (zh) | 基于情景记忆的无人机控制决策方法 | |
CN111382896B (zh) | 一种自适应混沌并行克隆选择算法的wta目标优化方法 | |
Bulbul et al. | Quasi-oppositional gravitational search algorithm applied to complex economic load dispatch problem | |
CN114510876B (zh) | 基于共生搜索生物地理学优化的多平台武器目标分配方法 | |
CN116596287B (zh) | 一种任务驱动决策方法及系统 | |
Li et al. | Position deployment optimization of maneuvering conventional missile based on improved whale optimization algorithm | |
CN114924587B (zh) | 一种无人机路径规划方法 | |
CN112926729B (zh) | 人机对抗智能体策略制定方法 | |
CN113869615B (zh) | 一种基于目标态势感知的干扰资源调度优化方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |