CN112364972B - 基于深度强化学习的无人战车分队火力分配方法 - Google Patents

基于深度强化学习的无人战车分队火力分配方法 Download PDF

Info

Publication number
CN112364972B
CN112364972B CN202010715792.6A CN202010715792A CN112364972B CN 112364972 B CN112364972 B CN 112364972B CN 202010715792 A CN202010715792 A CN 202010715792A CN 112364972 B CN112364972 B CN 112364972B
Authority
CN
China
Prior art keywords
target
unmanned
combat vehicle
enemy
state
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010715792.6A
Other languages
English (en)
Other versions
CN112364972A (zh
Inventor
王明
闫秀燕
金敬强
刘诗瑶
张耀
姜明霞
李飞
高飞
许典
习朝晖
何华伟
韩小康
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NORTH AUTOMATIC CONTROL TECHNOLOGY INSTITUTE
Original Assignee
NORTH AUTOMATIC CONTROL TECHNOLOGY INSTITUTE
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NORTH AUTOMATIC CONTROL TECHNOLOGY INSTITUTE filed Critical NORTH AUTOMATIC CONTROL TECHNOLOGY INSTITUTE
Priority to CN202010715792.6A priority Critical patent/CN112364972B/zh
Publication of CN112364972A publication Critical patent/CN112364972A/zh
Application granted granted Critical
Publication of CN112364972B publication Critical patent/CN112364972B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/06Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
    • G06Q10/063Operations research, analysis or management
    • G06Q10/0631Resource planning, allocation, distributing or scheduling for enterprises or organisations
    • G06Q10/06312Adjustment or analysis of established resource schedule, e.g. resource or task levelling, or dynamic rescheduling
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/06Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
    • G06Q10/063Operations research, analysis or management
    • G06Q10/0637Strategic management or analysis, e.g. setting a goal or target of an organisation; Planning actions based on goals; Analysis or evaluation of effectiveness of goals

Landscapes

  • Engineering & Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • Human Resources & Organizations (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Strategic Management (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Economics (AREA)
  • Educational Administration (AREA)
  • Software Systems (AREA)
  • Biomedical Technology (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • Mathematical Physics (AREA)
  • Evolutionary Computation (AREA)
  • Data Mining & Analysis (AREA)
  • Computational Linguistics (AREA)
  • Biophysics (AREA)
  • Development Economics (AREA)
  • Molecular Biology (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Game Theory and Decision Science (AREA)
  • Health & Medical Sciences (AREA)
  • Marketing (AREA)
  • Operations Research (AREA)
  • Quality & Reliability (AREA)
  • Tourism & Hospitality (AREA)
  • General Business, Economics & Management (AREA)
  • Fire-Extinguishing By Fire Departments, And Fire-Extinguishing Equipment And Control Thereof (AREA)
  • Control Of Position, Course, Altitude, Or Attitude Of Moving Bodies (AREA)

Abstract

本发明涉及一种基于深度强化学习的无人战车分队火力分配方法,属于火力分配、深度强化学习技术领域。本发明综合考虑作战任务、战场态势、目标威胁度、目标毁伤概率等多种因素,基于MDP建立无人战车分队的多回合火力分配模型,利用DQN算法对该模型进行求解,通过训练可以实现无人战车分队的多回合火力分配,整个作战过程中不再需要人为调整火力分配模型和参数,无人战车分队根据战场态势自行决定每个回合的打击目标,提高了火力分配决策的鲁棒性,弥补了现有火力分配方法的不足。

Description

基于深度强化学习的无人战车分队火力分配方法
技术领域
本发明属于火力分配、深度强化学习技术领域,具体涉及一种基于深度强化学习的无人战车分队火力分配方法。
背景技术
新时代的战争形态正在由机械化、信息化向智能化、无人化加速变革,无人系统作战将成为一种颠覆性的新型作战样式主导未来战场。无人系统作战将不再是纯粹的武器与武器、平台与平台之间的较量,更是一种以分队为最小作战单元的体系与体系之间的对抗。地面无人战车作为未来陆军的主要无人作战装备,分队作战将会占有非常重要的地位。火力分配是根据作战任务、战场态势和武器性能等因素,将一定类型和数量的火力单元以某种准则进行分配,攻击一定数量敌方目标的过程。对于传统的有人装甲装备作战,可以通过直瞄方式进行协同火力打击;而对于无人战车分队作战,迫切需要通过合理的火力分配方法实现自动火力分配。
目前的火力分配方法解决的都是有人装备的火力分配问题,而且是单回合火力分配问题,即根据人为划分的作战阶段每次输出一个火力分配结果。解算火力分配模型的算法主要是启发式算法,有遗传算法、粒子群算法、模拟退火算法等。
目前的面向有人装备的单回合火力分配方法,由于只能根据人为划分的作战阶段每次输出一个火力分配结果,只能保证当前回合局部最优,但每一回合的火力分配局部最优解并不一定是整个作战过程的火力分配全局最优解。无人战车分队作战过程是敌我双方对抗博弈的动态过程,一般会持续多个回合,期间需要进行多回合的火力分配,本质上属于序贯决策问题。因此目前的火力分配方法不适用于解决高动态环境、强博弈对抗条件下的无人战车分队火力分配问题。
发明内容
(一)要解决的技术问题
本发明要解决的技术问题是:如何设计一种无人战车分队多回合火力分配方法,提高火力分配决策的鲁棒性。
(二)技术方案
为了解决上述技术问题,本发明提供了一种基于深度强化学习的无人战车分队火力分配方法,包括以下步骤:
1)建立目标威胁度模型和目标毁伤概率模型,确定火力分配准则和火力分配的约束条件;
2)基于马尔科夫决策过程MDP建立无人战车分队的火力分配模型,包括状态集和动作集;
3)设计解算火力分配模型的DQN算法;
4)基于步骤1至步骤3求解无人战车分队火力分配模型。
优选地,步骤1具体包括以下步骤:
1-1)建立所述目标威胁度模型:假设我方m个无人战车打击敌方n个目标,每个无人战车每回合只能打击一个目标,用tij表示第j个目标对第i个无人战车的战场威胁度,得到目标威胁度矩阵W,维度为m×n,敌方目标对我方第i个无人战车的威胁度Wi计算公式为:式中yj表示第j个敌方目标是否被损毁,取值为{0,1},0表示目标j被损毁,1表示目标j未被损毁;
1-2)建立所述目标毁伤概率模型:用qij表示我方第i个无人战车对第j个敌方目标的射击毁伤概率,得到毁伤概率矩阵P,维度为m×n,我方第i个无人战车对第j个敌方目标的毁伤概率Pj的计算公式为式中si表示我方第i个无人战车的状态,取值为{0,1},0表示我方第i个无人战车被损毁,1表示我方第i个无人战车未被损毁;
1-3)确定火力分配准则和约束条件:本发明中无人战车分队进攻作战的多回合火力分配准则设定主要目标为敌方全灭,次要目标为最大限度保存自身,即在确保战争胜利的前提下尽可能多地保证我方无人战车不被摧毁,最大限度保存自身的原则为:式中,si表示我方第i个无人战车的状态,取值为{0,1},0表示已被损毁,1表示未被损毁,作战过程中应满足约束条件为:/>且xij∈{0,1},式中,xij为我方第i个无人战车对第j个敌方目标的火力分配决策变量,当xij=1时表示第i个无人战车对第j个敌方目标实施打击,xij=0表示不打击。
优选地,步骤2具体包括以下步骤:
2-1)设置所述状态集为S={sM1,sM2,…,sMi,…,sMm,sN1,sN2,…,sNj,…,sNn},集合中的元素sMi表示我方第i个无人战车的状态,sNj表示第j个敌方目标的状态,sMi、sNj取值均为{0,1},0表示被损毁,1表示未被损毁,初始状态时所有元素的值都为1,即未被损毁;
2-2)设置所述动作集A={A1,A2,…,Ai,…,Am},其中元素Ai对应我方第i个无人战车的动作集,有Ai={1,2,…,j,…,n},即作战开始时,我方每个无人战车的可选攻击目标为第j个敌方目标到第n个敌方目标,随着作战回合的进行,当第j个敌方目标被击毁,将第j个动作从动作集A中移除,该敌方目标对应的威胁度的值变为0;当我方第i个无人战车被击毁,去掉动作集Ai,该无人战车对应的毁伤概率的值变为0。
优选地,步骤3具体包括以下步骤:
3-1)每个无人战车最多有n个目标选择,利用值函数Q对每个选择进行评估,也用Q表示对应的评估网络,即DQN算法的输入是战场态势,即状态集S,输出为{a1,a2,…,ai,…,am},ai为第i个无人战车的当前动作,输入和输出之间的映射关系用值函数表示,用神经网络对值函数进行近似,利用损失函数进行梯度下降,使用的损失函数为其中/>其中,θi为神经网络内部参数集合、s为无人战车或目标的当前状态、ai'为第i个无人战车的下一个动作,s’为无人战车或目标的下一个状态、/>为目标神经网络的内部参数集合;γ为折扣率,r为奖励函数R中的值,梯度下降的公式为/>
3-2)设计DQN的双网络结构,即评估网络Q:eval_net和目标网络target_net,损失函数中的Q(s,ai;θi)由eval_net求得,y值由target_net求得,两个神经网络的结构和初始参数完全相同,其中eval_net的参数随状态的转移实时更新,target_net的参数在步长C内保持不变,每经过C步长后将eval_net的参数复制给target_net,将利用eval_net训练得到的数据以记忆单元(s,ai,r,s')的形式储存起来,然后利用随机样本采样的方法,每次取出一批更新和训练神经网络参数;其中,两个深度神经网络eval_net和target_net均采用三层全连接层网络;
3-3)设计解算模型的DQN算法,具体步骤为:
3-3-1)利用DQN对我方m个无人战车进行控制,对每个无人战车建立一个网络Q,并分别对应一个目标网络根据每个无人战车的Q和/>分别求损失函数,网络Q:eval_net和目标网络/>target_net的输入分别是战车或目标的当前状态s和下一状态s'。
3-3-2)对每个无人战车的指令是从n个敌方目标中选择一个进行攻击,因此Q和的输出是n个动作对应的q值:q_eval和q_target,并分别对每个无人战车单元的网络进行训练,当前状态s转移到的下一状态s'由所有无人战车的当前动作集合{a1,a2,…,am}决定;
3-3-3)每C步分别用m个无人战车的网络Q替换对应的目标网络
3-4)设定奖励函数R,根据步骤1-3中确定的火力分配准则,对奖励函数R进行设计,深度强化学习中的状态转移符合MDP,状态分为终止状态和非终止状态,对于终止状态,包括我方无人战车分队全被损毁以及敌方目标全被损毁但我方无人战车分队未全被损毁两种;对于非终止状态,包括我方无人战车i被损毁或敌方目标j被损毁两种。
优选地,步骤4具体为:依据战场态势信息确定我方无人战车数目和敌方目标数目,根据步骤1,确定我方无人战车分队对敌方目标群的毁伤概率矩阵P和敌方目标群对我方无人战车分队的威胁度矩阵W,同时设定火力分配准则和火力分配的约束条件;根据步骤2建立状态集S和动作集A,建立无人战车分队多回合的火力分配模型,根据步骤3设计的DQN算法对火力分配模型进行训练和解算。
优选地,步骤3-1中,采用ε-greedy实现每个无人战车的n个目标选择。
优选地,两个深度神经网络eval_net和target_net的内部参数均为权重w和偏置b。
优选地,θi为神经网络内部参数权重w和偏置b的集合,为目标神经网络的内部参数权重w和偏置b的集合。
本发明又提供了一种所述的方法在无人战车分队作战的火力分配决策中的应用。
本发明还提供了一种所述的方法在无人战车分队作战中的的应用。
(三)有益效果
针对现有火力分配方法中存在的问题,本发明提出了一种基于深度强化学习的无人战车分队多回合火力分配方法。本发明综合考虑作战任务、战场态势、目标威胁度、目标毁伤概率等多种因素,基于MDP建立无人战车分队的多回合火力分配模型,利用DQN算法对该模型进行求解,通过训练可以实现无人战车分队的多回合火力分配,整个作战过程中不再需要人为调整火力分配模型和参数,无人战车分队根据战场态势自行决定每个回合的打击目标,提高了火力分配决策的鲁棒性,弥补了现有火力分配方法的不足。未来可用于实际无人战车分队作战的火力分配决策中。
附图说明
图1为本发明方法的多回合火力分配模型示意图;
图2为本发明方法的MDP概念图;
图3为本发明方法的基于DQN的深度神经网络结构图;
图4为本发明方法的单个战车单元的DQN结构图;
图5为本发明方法的单个战车单元的深度神经网络训练图;
图6为本发明方法的基于DQN算法的火力分配流程图。
具体实施方式
为使本发明的目的、内容、和优点更加清楚,下面结合附图和实施例,对本发明的具体实施方式作进一步详细描述。
本发明提出一种基于深度强化学习的无人战车分队多回合火力分配方法,多回合火力分配模型的示意图如图1所示,包括以下步骤:
1)建立目标威胁度模型和目标毁伤概率模型,确定火力分配准则和火力分配的约束条件,具体步骤如下:
1-1)建立目标威胁度模型。假设我方9个无人战车打击敌方7个目标,每个无人战车每回合只能打击一个目标。用tij表示第j个目标对第i个无人战车的战场威胁度,得到目标威胁度矩阵W,维度为(9×7),敌方目标对我方无人战车i的威胁度Wi计算公式为:式中yj表示敌方目标j是否被损毁,取值为{0,1},0表示目标j被损毁,1表示目标j未被损毁。
1-2)建立目标毁伤概率模型。用qij表示我方无人战车i对敌方目标j射击毁伤概率,得到毁伤概率矩阵P,维度为(9×7),我方无人战车i对敌方目标j的毁伤概率Pj计算公式为式中si表示我方无人战车i是否被损毁,取值为{0,1},0表示我方无人战车i被损毁,1表示我方无人战车i未被损毁。
1-3)确定火力分配准则和约束条件。本发明中无人战车分队进攻作战的多回合火力分配准则设定主要目标为敌方全灭,次要目标为最大限度保存自身,即在确保战争胜利的前提下尽可能多的保证我方无人战车不被摧毁。最大限度保存自身原则为:式中,si表示我方无人战车的状态,取值为{0,1},0表示已被损毁,1表示未被损毁。作战过程中应满足约束条件为:/>且xij∈{0,1},式中,xij为我方无人战车i对敌方目标j的火力分配决策变量。当xij=1时表示i对j实施打击,xij=0表示不打击。
2)基于MDP(Markov Decision Process,马尔科夫决策过程)建立无人战车分队的火力分配模型。基于图2的MDP概念图,结合步骤1中的火力分配任务,设计状态集和动作集。具体步骤包括:
2-1)设置状态集为S={sM1,sM2,…,sMi,…,sM9,sN1,sN2,…,sNj,…,sN7},集合中的元素sMi表示我方第i个无人战车的状态,sNj表示第j个敌方目标的状态,取值为{0,1},0表示单元si被损毁,1表示单元si未被损毁,初始状态时所有单元的状态值都为1,即未被损毁。
2-2)设置动作集A={A1,A2,…,Ai,…,A9},其中元素Ai对应我方无人战车i的动作集,有Ai={1,2,…,j,…,7},即作战开始时,我方每个无人战车的可选攻击目标为目标1到目标7。随着作战回合的进行,当目标j被击毁,将动作j从动作集A中移除,该目标对应的威胁度的值变为0;当我方无人战车i被击毁,去掉动作集Ai,该无人战车对应的毁伤概率的值变为0。
3)设计解算火力分配模型的DQN算法结构,并设定各项超参数。具体步骤包括:
3-1)每个无人战车最多有7个目标选择,本发明利用值函数Q对每个选择进行评估(采用ε-greedy策略得到合理选择,将ε的值设为0.9),也用Q表示对应的评估网络,即本发明的算法输入是战场态势S,输出为{a1,a2,…,ai,…,a9},ai表示第i个无人战车的当前动作,输入和输出之间的映射关系用值函数表示。用神经网络对值函数进行近似,利用损失函数进行梯度下降,本发明使用的损失函数为其中/>θi为神经网络内部参数权重w和偏置b的集合、s为无人战车或目标的当前状态、ai'为第i个无人战车的下一个动作,s’为无人战车或目标的下一个状态、/>为目标神经网络的内部参数权重w和偏置b的集合;γ为折扣率,在本发明中取值为0.9,r为奖励函数R中的值,奖励函数的具体设定方法见步骤3-5。梯度下降的公式为/>
3-2)设计DQN的双网络结构,即评估网络Q:eval_net和目标网络target_net,损失函数中的Q(s,ai;θi)由eval_net求得,y值由target_net求得。两个神经网络的结构和初始参数完全相同,其中eval_net的参数随状态的转移实时更新,target_net的参数在步长C内保持不变,每经过C步长后将eval_net的参数复制给target_net,本发明的步长C取值为300。采用经验库(Experience Replay Buffer)将利用eval_net训练得到的数据以记忆单元(s,ai,r,s')的形式储存起来,然后利用随机小样本采样的方法,每次取出一批(batch)更新和训练神经网络参数。本发明的经验库容量取值为500,批处理样本的大小取值为32;本发明的两个深度神经网络eval_net和target_net均采用三层全连接层网络,学习率设为0.01,参数为权重w和偏置b,对参数进行初始化:w为均值0,标准差0.3,控制参数量纲因子(使参数期望能保持在接近0的较小数值范围内)0.001;b为0.001。本发明的深度神经网络结构如图3所示。
3-3)设计解算模型的DQN算法。具体步骤为:
3-3-1)利用DQN对我方9个无人战车进行控制,对每个无人战车建立一个网络Q,并分别对应一个目标网络根据每个无人战车的Q和/>分别求损失函数。网络Q:eval_net和目标网络/>target_net的输入分别是当前状态s和下一状态s',单个战车单元的DQN结构图如附图4所示。
3-3-2)对每个无人战车的指令是从7个敌方目标中选择一个进行攻击,因此Q和的输出是7个动作对应的q值:q_eval和q_target。并分别对每个无人战车单元的网络进行训练。当前状态s转移到状态下一状态s'由所有无人战车的当前动作集合{a1,a2,…,a9}决定,因此不同无人战车的动作q值相互耦合单个战车单元的深度神经网络训练图如附图5所示。
3-3-3)每C步分别用9个无人战车的Q网络通过soft_replacement环节(其中,eval_net的参数随状态的转移实时更新,target_net的参数在步长C内保持不变,每经过C步长后将eval_net的参数复制给target_net)替换对应的目标网络
3-4)设定奖励函数R。奖励值的目的是评估当前状态的好坏,根据步骤1中的火力分配准则,对奖励函数R进行设计。深度强化学习中的状态转移符合MDP,状态分为终止状态和非终止状态。对于终止状态,包括我方无人战车分队全被损毁和敌方目标全被损毁但我方无人战车分队未全被损毁两种,设定我方无人战车分队全被损毁的状态奖励值r为-100,敌方目标全被损毁但我方无人战车分队未全被损毁的状态奖励值r为100;对于非终止状态,包括我方无人战车i被损毁或敌方目标j被损毁两种,设定我方无人战车i被损毁的状态奖励值为-1,敌方目标j被损毁的状态奖励值为1。
4)利用DQN算法求解无人战车分队火力分配模型。流程图如附图6所示。具体为:依据战场态势信息确定我方无人战车数目和敌方目标数目,根据步骤1,利用评估方法确定我方无人战车分队对敌方目标群的毁伤概率矩阵P和敌方目标群对我方无人战车分队的威胁度矩阵W,同时设定相关约束条件;根据步骤2,建立状态集S和动作集A,建立无人战车分队多回合火力分配模型,根据步骤3,利用设计的DQN算法对模型进行训练和解算。
本发明的有益效果在于:
1、多回合全局最优。传统方法只能针对当前战场态势做出当前单回合的最优或局部最优的火力分配决策,难以保证整个作战过程的最终结果。而本发明提出的火力分配方法面向整个作战过程的多个回合,以取得作战的最终胜利为准则,实现无人战车分队的多回合火力分配,得到多回合分配的全局最优结果,更符合实际作战需求;
2、环境适应性更强。传统方法在作战过程中需要对火力分配模型进行多次人为修改,同时只能对当前回合的战场态势信息进行分析,难以对战场态势变化做出预测,无法正确识别敌方用于迷惑对手的行为进而造成严重后果。而本发明提出的火力分配方法可以根据战场态势变化对模型做出自动调整,能够对战场上可能出现的态势变化提出合理的应对方法,进而在一定程度上避免单回合火力分配的不利影响,更好地适应高动态强对抗的战场环境。
以上所述仅是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明技术原理的前提下,还可以做出若干改进和变形,这些改进和变形也应视为本发明的保护范围。

Claims (9)

1.一种基于深度强化学习的无人战车分队火力分配方法,其特征在于,包括以下步骤:
1)建立目标威胁度模型和目标毁伤概率模型,确定火力分配准则和火力分配的约束条件;
2)基于马尔科夫决策过程MDP建立无人战车分队的火力分配模型,包括状态集和动作集;
3)设计解算火力分配模型的DQN算法;
4)基于步骤1至步骤3求解无人战车分队火力分配模型;
步骤1具体包括以下步骤:
1-1)建立所述目标威胁度模型:假设我方m个无人战车打击敌方n个目标,每个无人战车每回合只能打击一个目标,用tij表示第j个目标对第i个无人战车的战场威胁度,得到目标威胁度矩阵W,维度为m×n,敌方目标对我方第i个无人战车的威胁度Wi计算公式为:式中yj表示第j个敌方目标是否被损毁,取值为{0,1},0表示目标j被损毁,1表示目标j未被损毁;
1-2)建立所述目标毁伤概率模型:用qij表示我方第i个无人战车对第j个敌方目标的射击毁伤概率,得到毁伤概率矩阵P,维度为m×n,我方第i个无人战车对第j个敌方目标的毁伤概率Pj的计算公式为式中si表示我方第i个无人战车的状态,取值为{0,1},0表示我方第i个无人战车被损毁,1表示我方第i个无人战车未被损毁;
1-3)确定火力分配准则和约束条件:无人战车分队进攻作战的多回合火力分配准则设定主要目标为敌方全灭,次要目标为最大限度保存自身,即在确保战争胜利的前提下尽可能多地保证我方无人战车不被摧毁,最大限度保存自身的原则为:式中,si表示我方第i个无人战车的状态,取值为{0,1},0表示已被损毁,1表示未被损毁,作战过程中应满足约束条件为:/>且xij∈{0,1},式中,xij为我方第i个无人战车对第j个敌方目标的火力分配决策变量,当xij=1时表示第i个无人战车对第j个敌方目标实施打击,xij=0表示不打击。
2.如权利要求1所述的方法,其特征在于,步骤2具体包括以下步骤:
2-1)设置所述状态集为S={sM1,sM2,…,sMi,…,sMm,sN1,sN2,…,sNj,…,sNn},集合中的元素sMi表示我方第i个无人战车的状态,sNj表示第j个敌方目标的状态,sMi、sNj取值均为{0,1},0表示被损毁,1表示未被损毁,初始状态时所有元素的值都为1,即未被损毁;
2-2)设置所述动作集A={A1,A2,…,Ai,…,Am},其中元素Ai对应我方第i个无人战车的动作集,有Ai={1,2,…,j,…,n},即作战开始时,我方每个无人战车的可选攻击目标为第1个敌方目标到第n个敌方目标,随着作战回合的进行,当第j个敌方目标被击毁,将第j个动作从动作集A中移除,该敌方目标对应的威胁度的值变为0;当我方第i个无人战车被击毁,去掉动作集Ai,该无人战车对应的毁伤概率的值变为0。
3.如权利要求2所述的方法,其特征在于,步骤3具体包括以下步骤:
3-1)每个无人战车最多有n个目标选择,利用值函数Q对每个选择进行评估,也用Q表示对应的评估网络,即DQN算法的输入是战场态势,即状态集S,输出为{a1,a2,…,ai,…,am},ai为第i个无人战车的当前动作,输入和输出之间的映射关系用值函数表示,用神经网络对值函数进行近似,利用损失函数进行梯度下降,使用的损失函数为其中/>其中,θi为神经网络内部参数集合、s为无人战车或目标的当前状态、ai'为第i个无人战车的下一个动作,s’为无人战车或目标的下一个状态、/>为目标神经网络的内部参数集合;γ为折扣率,r为奖励函数R中的值,梯度下降的公式为
3-2)设计DQN的双网络结构,即评估网络Q:eval_net和目标网络target_net,损失函数中的Q(s,ai;θi)由eval_net求得,y值由target_net求得,两个神经网络的结构和初始参数完全相同,其中eval_net的参数随状态的转移实时更新,target_net的参数在步长C内保持不变,每经过C步长后将eval_net的参数复制给target_net,将利用eval_net训练得到的数据以记忆单元(s,ai,r,s')的形式储存起来,然后利用随机样本采样的方法,每次取出一批更新和训练神经网络参数;其中,两个深度神经网络eval_net和target_net均采用三层全连接层网络;
3-3)设计解算模型的DQN算法,具体步骤为:
3-3-1)利用DQN对我方m个无人战车进行控制,对每个无人战车建立一个网络Q,并分别对应一个目标网络根据每个无人战车的Q和/>分别求损失函数,网络Q:eval_net和目标网络/>的输入分别是战车或目标的当前状态s和下一状态s';
3-3-2)对每个无人战车的指令是从n个敌方目标中选择一个进行攻击,因此Q和的输出是n个动作对应的q值:q_eval和q_target,并分别对每个无人战车单元的网络进行训练,当前状态s转移到的下一状态s'由所有无人战车的当前动作集合{a1,a2,…,am}决定;
3-3-3)每C步分别用m个无人战车的网络Q替换对应的目标网络
3-4)设定奖励函数R,根据步骤1-3中确定的火力分配准则,对奖励函数R进行设计,深度强化学习中的状态转移符合MDP,状态分为终止状态和非终止状态,对于终止状态,包括我方无人战车分队全被损毁以及敌方目标全被损毁但我方无人战车分队未全被损毁两种;对于非终止状态,包括我方无人战车i被损毁或敌方目标j被损毁两种。
4.如权利要求1所述的方法,其特征在于,步骤4具体为:依据战场态势信息确定我方无人战车数目和敌方目标数目,根据步骤1,确定我方无人战车分队对敌方目标群的毁伤概率矩阵P和敌方目标群对我方无人战车分队的威胁度矩阵W,同时设定火力分配准则和火力分配的约束条件;根据步骤2建立状态集S和动作集A,建立无人战车分队多回合的火力分配模型,根据步骤3设计的DQN算法对火力分配模型进行训练和解算。
5.如权利要求3所述的方法,其特征在于,步骤3-1中,采用ε-greedy实现每个无人战车的n个目标选择。
6.如权利要求3所述的方法,其特征在于,两个深度神经网络eval_net和target_net的内部参数均为权重w和偏置b。
7.如权利要求6所述的方法,其特征在于,θi为神经网络内部参数权重w和偏置b的集合,为目标神经网络的内部参数权重w和偏置b的集合。
8.一种如权利要求1至7中任一项所述的方法在无人战车分队作战的火力分配决策中的应用。
9.一种如权利要求1至7中任一项所述的方法在无人战车分队作战中的的应用。
CN202010715792.6A 2020-07-23 2020-07-23 基于深度强化学习的无人战车分队火力分配方法 Active CN112364972B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010715792.6A CN112364972B (zh) 2020-07-23 2020-07-23 基于深度强化学习的无人战车分队火力分配方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010715792.6A CN112364972B (zh) 2020-07-23 2020-07-23 基于深度强化学习的无人战车分队火力分配方法

Publications (2)

Publication Number Publication Date
CN112364972A CN112364972A (zh) 2021-02-12
CN112364972B true CN112364972B (zh) 2024-01-05

Family

ID=74516656

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010715792.6A Active CN112364972B (zh) 2020-07-23 2020-07-23 基于深度强化学习的无人战车分队火力分配方法

Country Status (1)

Country Link
CN (1) CN112364972B (zh)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113128021B (zh) * 2021-03-12 2022-10-25 合肥工业大学 多无人平台协同对抗的实时重决策方法和系统
CN114926026B (zh) * 2022-05-21 2023-02-14 中国电子科技集团公司第二十研究所 一种多维特征深度学习的目标分配优化方法
CN114897267B (zh) * 2022-06-14 2024-02-27 哈尔滨工业大学(深圳) 面向多对多智能体协同作战场景的火力分配方法及系统
CN116502915B (zh) * 2023-04-30 2023-09-22 北京中科智易科技股份有限公司 一种无人作战车辆火力分配方法及系统
CN117313972B (zh) * 2023-09-28 2024-04-12 烟台大学 一种无人艇集群的攻击方法、系统、装置及存储介质

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1848159A (zh) * 2006-05-12 2006-10-18 孙玲 战场导弹火力高命中率分配的指挥控制方法
JP2009110256A (ja) * 2007-10-30 2009-05-21 Hitachi Ltd プラントの制御装置および火力発電プラントの制御装置
EP2748555A1 (en) * 2012-04-11 2014-07-02 Aselsan Elektronik Sanayi ve Ticaret Anonim Sirketi A test and analysis system and a method for threat evaluation and sensor/weapon assignment algorithms
CN105590142A (zh) * 2015-12-17 2016-05-18 中国人民解放军装甲兵工程学院 一种合成分队协同火力分配方法
CN108537710A (zh) * 2018-03-26 2018-09-14 重庆交通大学 一种基于Markov-FLUS模型的城市增长边界划定方法
CN110083971A (zh) * 2019-05-08 2019-08-02 南京航空航天大学 一种基于作战推演的自爆式无人机集群作战兵力分配方法
CN110930016A (zh) * 2019-11-19 2020-03-27 三峡大学 一种基于深度q学习的梯级水库随机优化调度方法
CN111260031A (zh) * 2020-01-14 2020-06-09 西北工业大学 一种基于深度强化学习的无人机集群目标防卫方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20180082210A1 (en) * 2016-09-18 2018-03-22 Newvoicemedia, Ltd. System and method for optimizing communications using reinforcement learning

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1848159A (zh) * 2006-05-12 2006-10-18 孙玲 战场导弹火力高命中率分配的指挥控制方法
JP2009110256A (ja) * 2007-10-30 2009-05-21 Hitachi Ltd プラントの制御装置および火力発電プラントの制御装置
EP2748555A1 (en) * 2012-04-11 2014-07-02 Aselsan Elektronik Sanayi ve Ticaret Anonim Sirketi A test and analysis system and a method for threat evaluation and sensor/weapon assignment algorithms
CN105590142A (zh) * 2015-12-17 2016-05-18 中国人民解放军装甲兵工程学院 一种合成分队协同火力分配方法
CN108537710A (zh) * 2018-03-26 2018-09-14 重庆交通大学 一种基于Markov-FLUS模型的城市增长边界划定方法
CN110083971A (zh) * 2019-05-08 2019-08-02 南京航空航天大学 一种基于作战推演的自爆式无人机集群作战兵力分配方法
CN110930016A (zh) * 2019-11-19 2020-03-27 三峡大学 一种基于深度q学习的梯级水库随机优化调度方法
CN111260031A (zh) * 2020-01-14 2020-06-09 西北工业大学 一种基于深度强化学习的无人机集群目标防卫方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
基于强化学习与神经网络的动态目标分配算法;丁振林;刘冠龙;谢艺;刘钦;吴建设;;电子设计工程(第13期);全文 *

Also Published As

Publication number Publication date
CN112364972A (zh) 2021-02-12

Similar Documents

Publication Publication Date Title
CN112364972B (zh) 基于深度强化学习的无人战车分队火力分配方法
CN108255983B (zh) 一种基于武器数据的部队战斗能力分析与交战毁伤估计方法
CN110083971B (zh) 一种基于作战推演的自爆式无人机集群作战兵力分配方法
CN112295229A (zh) 一种智能博弈对抗平台
CN109408877B (zh) 一种反坦克导弹分队的智能射击决策方法
CN107886184A (zh) 一种多型防空武器混编火力群目标分配优化方法
CN113893539B (zh) 智能体的协同对战方法及装置
CN110210115A (zh) 基于决策点和分支仿真的作战仿真方案设计及运行方法
CN115222271A (zh) 基于神经网络的武器目标分配方法
CN109460565B (zh) 一种炮兵营的自主射击决策建模方法
CN110782062A (zh) 一种用于防空系统的多对多分组拦截目标分配方法及系统
CN112287591B (zh) 基于期望体系效能的舰艇编队等级修理计划编制方法
CN117057233A (zh) 基于势博弈与深度强化学习的防空作战智能决策方法
CN116596343A (zh) 一种基于深度强化学习的智能兵棋推演决策方法
Showalter Tactics and Recruitment in Eighteenth Century Prussia
CN109447398B (zh) 一种炮兵团的智能射击决策方法
CN114282442A (zh) 基于dqn算法的多目标多弹种多平台的智能火力分配方法
Kirkland Combat leadership styles: Empowerment versus authoritarianism
Cieślak Poland's Armed Forces in NATO
Zheng et al. Dynamic weapon-target assignment of armored units based on improved mopso algorithm
CN115018166A (zh) 一种基于启发式强化学习的反导防御系统火力分配方法
Bar-Joseph The hubris of initial victory: The IDF and the Second Lebanon War
Baldwin et al. Gunners in Normandy: The History of the Royal Artillery in North-west Europe, January 1942 to August 1944
CN114693492A (zh) 基于模拟和技术发展水平的指挥控制效能提升量化方法
KR20220111348A (ko) 몬테칼로 시뮬레이션 기반의 최적 조준점 산출 방법, 시스템 및 컴퓨터 판독 가능한 기록매체

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant