CN114935893A - 基于双层模型的作战场景中飞机的动作控制方法及装置 - Google Patents

基于双层模型的作战场景中飞机的动作控制方法及装置 Download PDF

Info

Publication number
CN114935893A
CN114935893A CN202210889235.5A CN202210889235A CN114935893A CN 114935893 A CN114935893 A CN 114935893A CN 202210889235 A CN202210889235 A CN 202210889235A CN 114935893 A CN114935893 A CN 114935893A
Authority
CN
China
Prior art keywords
model
party
target
aircraft
combat
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202210889235.5A
Other languages
English (en)
Other versions
CN114935893B (zh
Inventor
皮雄军
彭鹏
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Baiyang Times Beijing Technology Co ltd
Original Assignee
Baiyang Times Beijing Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Baiyang Times Beijing Technology Co ltd filed Critical Baiyang Times Beijing Technology Co ltd
Priority to CN202210889235.5A priority Critical patent/CN114935893B/zh
Publication of CN114935893A publication Critical patent/CN114935893A/zh
Application granted granted Critical
Publication of CN114935893B publication Critical patent/CN114935893B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05BCONTROL OR REGULATING SYSTEMS IN GENERAL; FUNCTIONAL ELEMENTS OF SUCH SYSTEMS; MONITORING OR TESTING ARRANGEMENTS FOR SUCH SYSTEMS OR ELEMENTS
    • G05B13/00Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion
    • G05B13/02Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric
    • G05B13/04Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric involving the use of models or simulators
    • G05B13/042Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric involving the use of models or simulators in which a parameter or coefficient is automatically adjusted to optimise the performance
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02TCLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
    • Y02T10/00Road transport of goods or passengers
    • Y02T10/10Internal combustion engine [ICE] based vehicles
    • Y02T10/40Engine management systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Software Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Medical Informatics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Data Mining & Analysis (AREA)
  • Health & Medical Sciences (AREA)
  • Automation & Control Theory (AREA)
  • Control Of Position, Course, Altitude, Or Attitude Of Moving Bodies (AREA)
  • Toys (AREA)

Abstract

本发明公开了一种基于双层模型的作战场景中飞机的动作控制方法及装置,包括:获取第一输入信息,其包括第一方以及第二方的每个作战飞机的位置信息、每个作战飞机的剩余导弹数量以及在空中双方的导弹位置信息,第一方和第二方为对立方;基于第一模型对第一输入信息进行处理,得到第一方的目标作战飞机;基于第二模型对获得的第二输入信息以及第一输入信息、目标作战飞机进行处理,确定与目标作战飞机的目标动作类型相匹配的动作控制信息,以使得通过动作控制信息控制目标作战飞机的执行动作。在本发明中采用双层模型来确定作战飞机以及对应的动作控制信息,提升了作战过程中飞机动作控制的精准性。

Description

基于双层模型的作战场景中飞机的动作控制方法及装置
技术领域
本发明涉及作战场景智能化技术领域,特别是涉及一种基于双层模型的作战场景中飞机的动作控制方法及装置。
背景技术
目前的战争形态正在由机械化向智能化进行转变,在以飞机为作战对象的作战演习、模拟作战或者实际作战等应用场景中,通常仅能确定出本轮作战的飞机,但是在各个飞机之间的配合或者提供飞机更精确的动作控制方面存在一定的缺陷,降低了作战过程中飞机动作控制的精准性。
发明内容
针对于上述问题,本发明提供一种基于双层模型的作战场景中飞机的动作控制方法及装置,提升了作战过程中飞机动作控制的精准性。
为了实现上述目的,本发明提供了如下技术方案:
一种基于双层模型的作战场景中飞机的动作控制方法,包括:
获取第一输入信息,所述第一输入信息包括第一方以及第二方的每个作战飞机的位置信息、每个作战飞机的剩余导弹数量以及在空中双方的导弹位置信息,所述第一方和所述第二方为对立方;
基于第一模型对所述第一输入信息进行处理,得到第一方的目标作战飞机;
基于第二模型对获得的第二输入信息以及所述第一输入信息、所述目标作战飞机进行处理,确定与所述目标作战飞机的目标动作类型相匹配的动作控制信息,以使得通过所述动作控制信息控制目标作战飞机的执行动作;所述第二输入信息包括双方作战飞机和导弹相对于所述目标作战飞机的相对信息;
其中,所述第一模型和所述第二模型为通过各自对应的训练样本训练得到的强化学习模型。
可选地,所述确定与所述目标作战飞机的目标动作类型相匹配的动作控制信息,包括:
若所述目标作战飞机的目标动作类型为移动,确定所述目标作战飞机的移动位置信息;
若所述目标作战飞机的目标动作类型为攻击,在所述第二方的作战飞机中确定所述目标作战飞机的待攻击飞机。
可选地,所述方法还包括:
获取第一训练样本,所述第一训练样本包括第一方以及第二方的每个作战飞机的位置信息、每个作战飞机的剩余导弹数量以及在空中双方的导弹位置信息;
将所述第一训练样本输入至初始第一模型,得到所述初始第一模型输出的第一方的当前目标作战飞机;
获得所述第一方和所述第二方的模拟对战结果;
基于所述模拟对战结果,确定所述当前目标作战飞机的奖励值参数;
基于所述奖励值参数,对所述初始第一模型的模型参数进行调整,得到第一模型。
可选地,所述方法还包括:
通过模型参数固定的第二模型对所述第一模型进行优化,得到优化后的第一模型。
可选地,所述获得所述第一方和所述第二方的模拟对战结果,包括:
基于所述第二模型,确定与所述当前目标作战飞机对应的动作控制信息;
基于所述动作控制信息对所述当前目标作战飞机进行控制,获得所述第一方和所述第二方的模拟对战结果,其中,所述第二模型为模型参数固定的强化学习模型。
可选地,所述方法还包括:
获取第二训练样本,所述第二训练样本包括第一方以及第二方的每个作战飞机的位置信息、每个作战飞机的剩余导弹数量以及在空中双方的导弹位置信息、第一方的目标作战飞机、双方作战飞机和导弹相对于所述目标作战飞机的相对信息;
将所述第二训练样本输入至初始第二模型,得到所述初始第二模型输出的与目标作战飞机的目标动作类型相匹配的当前动作控制信息;
获得所述第一方和所述第二方的模拟对战结果;
基于所述模拟对战结果,确定所述当前动作控制信息的奖励值参数;
基于所述奖励值参数,对所述初始第二模型的模型参数进行调整,得到第二模型。
可选地,所述方法还包括:
通过模型参数固定的第一模型对所述第二模型进行优化,得到优化后的第二模型。
可选地,所述获得所述第一方和所述第二方的模拟对战结果,包括:
基于所述第一模型,确定目标作战飞机;
基于所述当前动作控制信息控制所述目标作战飞机在模拟作战中的执行动作,得到所述第一方和所述第二方的模拟作战结果,其中,第一模型为模型参数固定的强化学习模型。
一种基于双层模型的作战场景中飞机的动作控制装置,包括:
获取单元,用于获取第一输入信息,所述第一输入信息包括第一方以及第二方的每个作战飞机的位置信息、每个作战飞机的剩余导弹数量以及在空中双方的导弹位置信息,所述第一方和所述第二方为对立方;
第一处理单元,用于基于第一模型对所述第一输入信息进行处理,得到第一方的目标作战飞机;
第二处理单元,用于基于第二模型对获得的第二输入信息以及所述第一输入信息、所述目标作战飞机进行处理,确定与所述目标作战飞机的目标动作类型相匹配的动作控制信息,以使得通过所述动作控制信息控制所述目标作战飞机的执行动作;所述第二输入信息包括双方作战飞机和导弹相对于所述目标作战飞机的相对信息;
其中,所述第一模型和所述第二模型为通过各自对应的训练样本训练得到的强化学习模型。
一种电子设备,包括:
存储器,用于存储程序;
处理器,用于执行所述程序,所述程序具体用于实现如上述中任意一项所述的基于双层模型的作战场景中飞机的动作控制方法。
相较于现有技术,本发明提供了一种基于双层模型的作战场景中飞机的动作控制方法及装置,包括:获取第一输入信息,第一输入信息包括第一方以及第二方的每个作战飞机的位置信息、每个作战飞机的剩余导弹数量以及在空中双方的导弹位置信息,第一方和第二方为对立方;基于第一模型对第一输入信息进行处理,得到第一方的目标作战飞机;基于第二模型对获得的第二输入信息以及第一输入信息、目标作战飞机进行处理,确定与目标作战飞机的目标动作类型相匹配的动作控制信息,以使得通过动作控制信息控制目标作战飞机的执行动作;第二输入信息包括双方作战飞机和导弹相对于目标作战飞机的相对信息。在本发明中第一模型和第二模型为通过各自对应的训练样本训练得到的强化学习模型,采用双层模型来确定作战飞机以及对应的动作控制信息,提升了作战过程中飞机动作控制的精准性。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图获得其他的附图。
图1为本发明实施例提供的一种基于双层模型的作战场景中飞机的动作控制方法的流程示意图;
图2为本发明实施例提供的一种基于双层模型的作战场景中飞机的动作控制装置的结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明的说明书和权利要求书及上述附图中的术语“第一”和“第二”等是用于区别不同的对象,而不是用于描述特定的顺序。此外术语“包括”和“具有”以及他们任何变形,意图在于覆盖不排他的包含。例如包含了一系列步骤或单元的过程、方法、系统、产品或设备没有设定于已列出的步骤或单元,而是可包括没有列出的步骤或单元。
在本发明实施例中提供了一种基于双层模型的作战场景中飞机的动作控制方法,该方法可以应用实际飞机作战演练场景中,也可以应用于模拟作战场景中,还可以应用实战场景中。应用该基于双层模型的作战场景中飞机的动作控制方法,可以选择出当前方需要派出的作战飞机,并且可以确定出该作战飞机的动作控制信息,以使得该作战飞机能够依据该动作控制信息进行移动或进攻,进一步提升了作战过程中针对作战飞机动作控制的精准性。
参见图1,为本发明实施例提供的一种基于双层模型的作战场景中飞机的动作控制方法的流程示意图,该方法可以包括以下步骤:
S101、获取第一输入信息。
在飞机作战演练、模拟或者实战过程中,一般会存在作战双方,为了便于描述在本发明实施例中以“第一方”和“第二方”来表示对立的两方,在实际应用过程中,也可以是“红方”和“蓝方”,或者“我方”和“敌方”,本发明对此不进行限制。
首先获得当前时刻或者当前状态下,第一方和第二方的作战飞机以及导弹的相关信息,即获得第一输入信息,其中,第一输入信息包括第一方以及第二方的每个作战飞机的位置信息、每个作战飞机的剩余导弹数量以及在空中双方的导弹位置信息,其中,每个作战飞机的位置信息可以包括每个作战飞机的绝对位置信息(例如,在目标坐标系中的空间三维坐标信息),还可以包括各个作战飞机相对于参考位置的相对位置信息,或者每个作战飞机相对于其临近作战飞机的相对位置信息;对应的,空中双方的导弹位置信息也可以包括每个导弹的绝对位置以及与其他导弹或者参考位置的相对位置信息。
需要说明的是,本发明实施例提供的基于双层模型的作战场景中飞机的动作控制方法是一个实时应用在作战过程中的方法,即可以在每一个决策周期或者每一个作战周期均进行一次第一输入信息的获取,这样可以便于在每一周期确定与当前作战场景相匹配的作战飞机和其对应的动作控制信息,以提升战胜率。
S102、基于第一模型对第一输入信息进行处理,得到第一方的目标作战飞机。
其中,第一方为当前作战决策方,第一模型是通过其对应的第一训练样本采用强化学习训练方式得到的模型,其训练目标是最大程度消灭第二方的作战飞机和保留第一方的作战飞机。因此,可以将第一输入信息输入第一模型中,以使得第一模型输出第一方的目标作战飞机,即本轮作战选择出的第一方的作战飞机。
在本发明实施例中还提供了一种生成第一模型的方法,具体的包括:获取第一训练样本,所述第一训练样本包括第一方以及第二方的每个作战飞机的位置信息、每个作战飞机的剩余导弹数量以及在空中双方的导弹位置信息;将所述第一训练样本输入至初始第一模型,得到所述初始第一模型输出的第一方的当前目标作战飞机;获得所述第一方和所述第二方的模拟对战结果;基于所述模拟对战结果,确定所述当前目标作战飞机的奖励值参数;基于所述奖励值参数,对所述初始第一模型的模型参数进行调整,得到第一模型。
其中,第一训练样本是经过强化学习获得的训练样本,主要是针对在不同状态下第一方以及第二方的每个作战飞机的位置信息、每个作战飞机的剩余导弹数量以及在空中双方的导弹位置信息进行数据采集。初始第一模型是以初始默认的模型参数形成的模型,根据该第一训练样本对初始第一模型进行训练,以能够调整该初始第一模型的模型参数,使得其最终输出的结果更加准确。
对应的,将第一训练样本输入至初始第一模型后,第一模型会输出第一方的当前目标作战飞机,即其当前选择出的待与第二方进行作战的作战飞机。需要说明的是,由于初始第一模型是以默认模型参数训练得到的,其当前准确性不一定是最优的,即初始第一模型此时输出的当前目标作战飞机可能是准确率较高的作战飞机,也可能不是。因此,需要根据初始第一模型当前输出的当前目标作战飞机进行模拟作战,以根据模拟结果来调整该初始第一模型的模型参数。即基于初始第一模型选定的当前目标作战飞机对第一方和第二方的作战过程进行模拟,得到模拟作战结果,根据该模拟结果,确定当前目标作战飞机的奖励值参数,其中,奖励值参数是基于选择出的当前目标作战飞机在进行实战或模拟战后的战胜或战败情况确定得到的衡量参数。其中,第一模型的训练目标是最大程度的消灭第二方,保留第一方。假设初始第一模型选定的第一方的当前目标作战飞机分别为第一飞机,然后以第一飞机去攻击第二方的飞机,若第一飞机被第二方的飞机消灭,则此时第一飞机对应的奖励值参数可以设置为负数,如,此时对应的奖励值为-0.5;若选定的当前目标作战飞机为第二飞机,以第二飞机去攻击第二方的飞机,若其歼灭了第二方的某架飞机,则此时第二飞机对应的奖励值参数可以为正数,如,可以为1。将奖励值参数最大的当前目标作战飞机作为当前场景下最准确的输出,然后,记录当初始第一模型输出奖励值参数最大的当前目标作战飞机时的模型参数,并以此参数结合实际的应用场景特征,调整初始第一模型的模型参数,使得其在当前场景下能够输出该奖励值参数最大的当前目标作战飞机,此时,得到的模型参数就是第一模型的模型参数。
S103、基于第二模型对获得的第二输入信息以及第一输入信息、目标作战飞机进行处理,确定与目标作战飞机的目标动作类型相匹配的动作控制信息。
其中,在实际应用中,可以通过得到的动作控制信息控制目标作战飞机的执行动作,该执行动作就是目标作战飞机在本次作战中的作战动作,其可以包括作战动作,如攻击、移动,还可以包括其待攻击或者待躲避的作战飞机或者导弹的相关信息,进一步,还可以包括具体的移动位置参数等信息。第二模型主要用于确定第一模型得到的目标作战飞机的动作控制信息。即第二模型的输入信息包括第一输入信息、第一模型确定出的目标作战飞机,以及第二输入信息,第二输入信息主要是包括其他作战飞机以及空中导弹相对于该目标作战飞机的相对信息,具体的,第二输入信息包括双方作战飞机和导弹相对于目标作战飞机的位置信息以及相对作战能力信息,其中,相对作战能力信息可以包括对方作战飞机相对于目标作战飞机的攻击力信息,目标作战飞机相对于其他可对其进行攻击的飞机的防御能力信息等,例如,相对位置信息包括双方作战飞机和导弹在坐标轴上的坐标差异信息,例如,在三维坐标系中,可以是在x、y、z轴上的坐标差异等。
对应的,在本发明实施例的一种实施方式中,生成第二模型的过程主要包括:获取第二训练样本,所述第二训练样本包括第一方以及第二方的每个作战飞机的位置信息、每个作战飞机的剩余导弹数量以及在空中双方的导弹位置信息、第一方的目标作战飞机、双方作战飞机和导弹相对于目标作战飞机的相对信息;将所述第二训练样本输入至初始第二模型,得到所述初始第二模型输出的与目标作战飞机的目标动作类型相匹配的当前动作控制信息;获得所述第一方和所述第二方的模拟对战结果;基于所述模拟对战结果,确定所述当前动作控制信息的奖励值参数;基于所述奖励值参数,对所述初始第二模型的模型参数进行调整,得到第二模型。
需要说明的是,第二模型的训练过程与第一模型的训练过程类似,只是在进行第一方和第二方的模拟作战时,是基于确定的目标作战飞机,即第一模型是一个训练完成且输出准确率较高的模型,可以认为其输出的目标作战飞机是一个准确的结果。基于初始第二模型确定与之对应的当前动作控制信息,该当前动作控制信息的准确率是未知,需要根据以当前动作控制信息进行模拟作战,才能确定该当前动作控制信息是否准确。然后基于该当前动作控制信息进行模拟作战,基于作战结果(如目标作战飞机被第二方消灭,还是消灭了第二方的作战飞机),确定当前动作控制信息的奖励值参数,该奖励参数值是针对初始第二模型输出的当前动作控制参数,若奖励值参数较低,则说明初始第二模型输出的当前动作控制信息的准确率小于准确率阈值,需要对初始第二模型进行优化,即可以基于该奖励参数对初始第二模型的模型参数进行不断调整,以使得第二模型能够输出奖励值参数最大的动作控制信息,此时完成了针对初始第二模型的优化过程,得到了可以应用在实际场景中的第二模型。
其中,目标动作类型是指目标作战飞机进行移动还是攻击,具体的,当目标动作类型不同时,对应的动作控制信息不同,若所述目标作战飞机的目标动作类型为移动,确定所述目标作战飞机的移动位置信息;若所述目标作战飞机的目标动作类型为攻击,在所述第二方的作战飞机中确定所述目标作战飞机的待攻击飞机。
在本发明实施例中,对第一模型和第二模型的训练过程是一个迭代更新的过程,由于是两个模型,可以基于其中一个模型去训练优化另一个模型。即以其中一个模型为训练好的标准模型,去根据该模型的输出以及另一个模型当前的输出,来调整另一个模型的训练参数,直至另一个模型训练完成,且能够输出准确率大于等于准确率阈值的结果为止。例如,固定住第一模型,采用强化学习训练第二模型;还可以固定住第二模型,采用强化学习第一模型,如此循环往复,直到训练效果满足要求即可。
在一种实施方式中,可以通过模型参数固定的第二模型对第一模型进行优化,得到优化后的第一模型。
模型参数固定的第二模型是指已经训练完成且训练效果准确性满足实际场景需求的第二模型,此时的第二模型的模型参数不会再进行调整,即该模型参数固定的第二模型输出的动作控制信息是准确率大于等于准确率阈值的信息,可以认为此时第二模型输出的动作控制信息是最优的。在该场景下,第二模型的当前模型参数可以无需调整,当第一模型输出目标作战飞机后,通过第二模型确定该目标作战飞机的动作控制信息,从而以该动作控制信息控制该目标作战飞机进行作战,以获得模拟作战结果。若作战结果不满足预期,则可以调整第一模型的模型参数,使得第一模型在调整后重新输出目标作战飞机,然后再进行模拟作战,直至作战结果满足预期,停止调整。即,在第一模型训练过程中的所述获得所述第一方和所述第二方的模拟对战结果,包括:基于所述第二模型,确定与目标作战飞机对应的动作控制信息;基于所述动作控制信息对所述目标作战飞机进行控制,获得所述第一方和所述第二方的模拟对战结果,其中,第二模型为模型参数固定的强化学习模型。
在另一种实施方式中,可以通过模型参数固定的第一模型对第二模型进行优化,得到优化后的第二模型。
其中,模型参数固定的第一模型是指已经训练完成且训练效果准确性满足实际场景需求的第一模型,即此时第一模型输出的目标作战飞机是一个较为准确的结果,即满足实际预期的结果。然后基于第二模型确定与该目标作战飞机对应的当前动作控制信息,以该当前动作控制信息控制目标作战飞机在模拟作战中的执行动作,得到第一方和第二方的模拟作战结果,若该模拟作战结果不满足预期,则调整第二模型的模型参数,以使得第二模型能够再次输出新的动作控制信息,再以该新的动作控制信息模拟作战,直至结果满足预期,停止对第二模型的优化。对应的,在第二模型训练过程的所述获得所述第一方和所述第二方的模拟对战结果,包括:基于所述第一模型,确定目标作战飞机;对所述目标作战飞机的动作控制信息进行模拟,得到第一方和第二方的模拟作战结果,其中,第一模型为模型参数固定的强化学习模型。
下面以实际的应用场景为例,对本发明实施例中的基于双层模型的作战场景中飞机的动作控制方法进行说明。假设需要控制红方,可以每10s决策一次,那么在每一次决策时间点都会采用第一模型输出现在应该选择哪架红方飞机(假定为A)操作,第二个模型输出A的具体动作,比如向什么方向移动或者攻击谁。10s之后就再决策一次,直到有一方飞机被消灭完为止。
在本发明实施例中,采用双层模型即通过第一模型选择目标作战飞机,通过第二模型确定目标作战飞机的动作控制信息,解决了单一模型指挥官或者智能体进行决策的确定,可以形成各个作战飞机之间的良好配合,并提升了作战过程中的飞机动作控制的精准性。
参见图2,在本发明的另一实施例中还提供了一种基于双层模型的作战场景中飞机的动作控制装置,该装置可以包括:
获取单元201,用于获取第一输入信息,所述第一输入信息包括第一方以及第二方的每个作战飞机的位置信息、每个作战飞机的剩余导弹数量以及在空中双方的导弹位置信息,所述第一方和所述第二方为对立方;
第一处理单元202,用于基于第一模型对所述第一输入信息进行处理,得到第一方的目标作战飞机;
第二处理单元203,用于基于第二模型对获得的第二输入信息以及所述第一输入信息、所述目标作战飞机进行处理,确定与所述目标作战飞机的目标动作类型相匹配的动作控制信息,所述第二输入信息包括双方作战飞机和导弹相对于所述目标作战飞机的相对信息;
其中,所述第一模型和所述第二模型为通过各自对应的训练样本训练得到的强化学习模型。
进一步的,所述第二处理单元包括:
第一确定子单元,用于若所述目标作战飞机的目标动作类型为移动,确定所述目标作战飞机的移动位置信息;
第二确定子单元,用于若所述目标作战飞机的目标动作类型为攻击,在所述第二方的作战飞机中确定所述目标作战飞机的待攻击飞机。
在一种实施方式中,所述装置还包括第一模型生成单元,所述第一模型生成单元包括:
第一获取子单元,用于获取第一训练样本,所述第一训练样本包括第一方以及第二方的每个作战飞机的位置信息、每个作战飞机的剩余导弹数量以及在空中双方的导弹位置信息;
第一输入子单元,用于将所述第一训练样本输入至初始第一模型,得到所述初始第一模型输出的第一方的当前目标作战飞机;
第二获取子单元,用于获得所述第一方和所述第二方的模拟对战结果;
第三确定子单元,用于基于所述模拟对战结果,确定所述当前目标作战飞机的奖励值参数;
第一调整子单元,用于基于所述奖励值参数,对所述初始第一模型的模型参数进行调整,得到第一模型。
可选地,所述第一模型生成单元还包括:
第一优化子单元,用于通过模型参数固定的第二模型对所述第一模型进行优化,得到优化后的第一模型。
进一步地,所述第二获取子单元具体用于:
基于所述第二模型,确定与所述当前目标作战飞机对应的动作控制信息;
基于所述动作控制信息对所述当前目标作战飞机进行控制,获得所述第一方和所述第二方的模拟对战结果,其中,所述第二模型为模型参数固定的强化学习模型。
在另一种实施方式中,所述装置还包括第二模型生成单元,所述第二模型生成单元包括:
第三获取子单元,用于获取第二训练样本,所述第二训练样本包括第一方以及第二方的每个作战飞机的位置信息、每个作战飞机的剩余导弹数量以及在空中双方的导弹位置信息、第一方的目标作战飞机、双方作战飞机和导弹相对于所述目标作战飞机的相对信息;
第二输入子单元,用于将所述第二训练样本输入至初始第二模型,得到所述初始第二模型输出的与目标作战飞机的目标动作类型相匹配的当前动作控制信息;
第四获取子单元,用于获得所述第一方和所述第二方的模拟对战结果;
第四确定子单元,用于基于所述模拟对战结果,确定所述当前动作控制信息的奖励值参数;
第二调整子单元,用于基于所述奖励值参数,对所述初始第二模型的模型参数进行调整,得到第二模型。
可选地,所述第二模型生成还包括:
第二优化子单元,用于通过模型参数固定的第一模型对所述第二模型进行优化,得到优化后的第二模型。
进一步地,所述第四获取子单元具体用于:
基于所述第一模型,确定目标作战飞机;
基于所述当前动作控制信息控制所述目标作战飞机在模拟作战中的执行动作,得到所述第一方和所述第二方的模拟作战结果,其中,所述第一模型为模型参数固定的强化学习模型。
本发明实施例提供了一种基于双层模型的作战场景中飞机的动作控制装置,包括:获取第一输入信息,第一输入信息包括第一方以及第二方的每个作战飞机的位置信息、每个作战飞机的剩余导弹数量以及在空中双方的导弹位置信息,第一方和第二方为对立方;基于第一模型对第一输入信息进行处理,得到第一方的目标作战飞机;基于第二模型对获得的第二输入信息以及第一输入信息、目标作战飞机进行处理,确定与目标作战飞机的目标动作类型相匹配的动作控制信息,第二输入信息包括双方作战飞机和导弹相对于目标作战飞机的相对信息。在本发明中第一模型和第二模型为通过各自对应的训练样本训练得到的强化学习模型,采用双层模型来确定作战飞机以及对应的动作控制信息,提升了作战过程中飞机动作控制的精准性。
基于前述实施例,本发明的实施例提供一种计算机可读存储介质,计算机可读存储介质存储有一个或者多个程序,该一个或者多个程序可被一个或者多个处理器执行,以实现如上任一项的基于双层模型的作战场景中飞机的动作控制的步骤。
本发明实施例还提供了一种电子设备,该电子设备可以包括:
存储器,用于存储程序;
处理器,用于执行所述程序,所述程序具体用于实现如上述中任意一项所述的基于双层模型的作战场景中飞机的动作控制方法。
需要说明的是,该电子设备的处理器的执行过程可以参见前述实施例的描述,此处不再详述。
在本发明实施例中的计算机可读存储介质和电子设备均可以执行该基于双层模型的作战场景中飞机的动作控制方法中的各个步骤,以及相关信息、模型的生成过程中产生的步骤,从而提升了作战过程中作战飞机动作控制的精准性。
需要说明的是,上述处理器或CPU可以为特定用途集成电路(ApplicationSpecific Integrated Circuit,ASIC)、数字信号处理器(Digital Signal Processor,DSP)、数字信号处理装置(Digital Signal Processing Device,DSPD)、可编程逻辑装置(Programmable Logic Device,PLD)、现场可编程门阵列(Field Programmable GateArray,FPGA)、中央处理器(Central Processing Unit,CPU)、控制器、微控制器、微处理器中的至少一种。可以理解地,实现上述处理器功能的电子器件还可以为其它,本发明实施例不作具体限定。
需要说明的是,上述计算机存储介质/存储器可以是只读存储器(Read OnlyMemory,ROM)、可编程只读存储器(Programmable Read-Only Memory,PROM)、可擦除可编程只读存储器(Erasable Programmable Read-Only Memory,EPROM)、电可擦除可编程只读存储器(Electrically Erasable Programmable Read-Only Memory,EEPROM)、磁性随机存取存储器(Ferromagnetic Random Access Memory,FRAM)、快闪存储器(Flash Memory)、磁表面存储器、光盘、或只读光盘(Compact Disc Read-Only Memory,CD-ROM)等存储器;也可以是包括上述存储器之一或任意组合的各种终端,如移动电话、计算机、平板设备、个人数字助理等。
以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应以所述权利要求的保护范围为准。
本说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似部分互相参见即可。对于实施例公开的装置而言,由于其与实施例公开的方法相对应,所以描述的比较简单,相关之处参见方法部分说明即可。
对所公开的实施例的上述说明,使本领域专业技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下,在其它实施例中实现。因此,本发明将不会被限制于本文所示的这些实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims (10)

1.一种基于双层模型的作战场景中飞机的动作控制方法,其特征在于,包括:
获取第一输入信息,所述第一输入信息包括第一方以及第二方的每个作战飞机的位置信息、每个作战飞机的剩余导弹数量以及在空中双方的导弹位置信息,所述第一方和所述第二方为对立方;
基于第一模型对所述第一输入信息进行处理,得到第一方的目标作战飞机;
基于第二模型对获得的第二输入信息以及所述第一输入信息、所述目标作战飞机进行处理,确定与所述目标作战飞机的目标动作类型相匹配的动作控制信息,以使得通过所述动作控制信息控制所述目标作战飞机的执行动作;所述第二输入信息包括双方作战飞机和导弹相对于所述目标作战飞机的相对信息;
其中,所述第一模型和所述第二模型为通过各自对应的训练样本训练得到的强化学习模型。
2.根据权利要求1所述的方法,其特征在于,所述确定与所述目标作战飞机的目标动作类型相匹配的动作控制信息,包括:
若所述目标作战飞机的目标动作类型为移动,确定所述目标作战飞机的移动位置信息;
若所述目标作战飞机的目标动作类型为攻击,在所述第二方的作战飞机中确定所述目标作战飞机的待攻击飞机。
3.根据权利要求1所述的方法,其特征在于,所述方法还包括:
获取第一训练样本,所述第一训练样本包括第一方以及第二方的每个作战飞机的位置信息、每个作战飞机的剩余导弹数量以及在空中双方的导弹位置信息;
将所述第一训练样本输入至初始第一模型,得到所述初始第一模型输出的第一方的当前目标作战飞机;
获得所述第一方和所述第二方的模拟对战结果;
基于所述模拟对战结果,确定所述当前目标作战飞机的奖励值参数;
基于所述奖励值参数,对所述初始第一模型的模型参数进行调整,得到第一模型。
4.根据权利要求3所述的方法,其特征在于,所述方法还包括:
通过模型参数固定的第二模型对所述第一模型进行优化,得到优化后的第一模型。
5.根据权利要求4所述的方法,其特征在于,所述获得所述第一方和所述第二方的模拟对战结果,包括:
基于所述第二模型,确定与所述当前目标作战飞机对应的动作控制信息;
基于所述动作控制信息对所述当前目标作战飞机进行控制,获得所述第一方和所述第二方的模拟对战结果,其中,所述第二模型为模型参数固定的强化学习模型。
6.根据权利要求1所述的方法,其特征在于,所述方法还包括:
获取第二训练样本,所述第二训练样本包括第一方以及第二方的每个作战飞机的位置信息、每个作战飞机的剩余导弹数量以及在空中双方的导弹位置信息、第一方的目标作战飞机、双方作战飞机和导弹相对于所述目标作战飞机的相对信息;
将所述第二训练样本输入至初始第二模型,得到所述初始第二模型输出的与目标作战飞机的目标动作类型相匹配的当前动作控制信息;
获得所述第一方和所述第二方的模拟对战结果;
基于所述模拟对战结果,确定所述当前动作控制信息的奖励值参数;
基于所述奖励值参数,对所述初始第二模型的模型参数进行调整,得到第二模型。
7.根据权利要求6所述的方法,其特征在于,所述方法还包括:
通过模型参数固定的第一模型对所述第二模型进行优化,得到优化后的第二模型。
8.根据权利要求7所述的方法,其特征在于,所述获得所述第一方和所述第二方的模拟对战结果,包括:
基于所述第一模型,确定目标作战飞机;
基于所述当前动作控制信息控制所述目标作战飞机在模拟作战中的执行动作,得到所述第一方和所述第二方的模拟作战结果,其中,所述第一模型为模型参数固定的强化学习模型。
9.一种基于双层模型的作战场景中飞机的动作控制装置,其特征在于,包括:
获取单元,用于获取第一输入信息,所述第一输入信息包括第一方以及第二方的每个作战飞机的位置信息、每个作战飞机的剩余导弹数量以及在空中双方的导弹位置信息,所述第一方和所述第二方为对立方;
第一处理单元,用于基于第一模型对所述第一输入信息进行处理,得到第一方的目标作战飞机;
第二处理单元,用于基于第二模型对获得的第二输入信息以及所述第一输入信息、所述目标作战飞机进行处理,确定与所述目标作战飞机的目标动作类型相匹配的动作控制信息,以使得通过所述动作控制信息控制所述目标作战飞机的执行动作;所述第二输入信息包括双方作战飞机和导弹相对于所述目标作战飞机的相对信息;
其中,所述第一模型和所述第二模型为通过各自对应的训练样本训练得到的强化学习模型。
10.一种电子设备,其特征在于,包括:
存储器,用于存储程序;
处理器,用于执行所述程序,所述程序具体用于实现如权利要求1-8中任意一项所述的基于双层模型的作战场景中飞机的动作控制方法。
CN202210889235.5A 2022-07-27 2022-07-27 基于双层模型的作战场景中飞机的动作控制方法及装置 Active CN114935893B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210889235.5A CN114935893B (zh) 2022-07-27 2022-07-27 基于双层模型的作战场景中飞机的动作控制方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210889235.5A CN114935893B (zh) 2022-07-27 2022-07-27 基于双层模型的作战场景中飞机的动作控制方法及装置

Publications (2)

Publication Number Publication Date
CN114935893A true CN114935893A (zh) 2022-08-23
CN114935893B CN114935893B (zh) 2023-05-19

Family

ID=82868971

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210889235.5A Active CN114935893B (zh) 2022-07-27 2022-07-27 基于双层模型的作战场景中飞机的动作控制方法及装置

Country Status (1)

Country Link
CN (1) CN114935893B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115146018A (zh) * 2022-09-06 2022-10-04 白杨时代(北京)科技有限公司 一种目标确定方法及装置

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO1994002795A1 (en) * 1992-07-21 1994-02-03 Teledyne Industries, Inc. System and method for combat training
CN109091868A (zh) * 2018-08-14 2018-12-28 腾讯科技(深圳)有限公司 对战行为确定的方法、装置、计算机设备及存储介质
CN109513215A (zh) * 2018-11-23 2019-03-26 腾讯科技(深圳)有限公司 一种对象匹配方法、模型训练方法以及服务器
CN111330279A (zh) * 2020-02-24 2020-06-26 网易(杭州)网络有限公司 一种游戏ai的策略决策模型训练方法和装置
CN114404975A (zh) * 2022-01-20 2022-04-29 腾讯科技(深圳)有限公司 决策模型的训练方法、装置、设备、存储介质及程序产品

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO1994002795A1 (en) * 1992-07-21 1994-02-03 Teledyne Industries, Inc. System and method for combat training
CN109091868A (zh) * 2018-08-14 2018-12-28 腾讯科技(深圳)有限公司 对战行为确定的方法、装置、计算机设备及存储介质
CN109513215A (zh) * 2018-11-23 2019-03-26 腾讯科技(深圳)有限公司 一种对象匹配方法、模型训练方法以及服务器
CN111330279A (zh) * 2020-02-24 2020-06-26 网易(杭州)网络有限公司 一种游戏ai的策略决策模型训练方法和装置
CN114404975A (zh) * 2022-01-20 2022-04-29 腾讯科技(深圳)有限公司 决策模型的训练方法、装置、设备、存储介质及程序产品

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115146018A (zh) * 2022-09-06 2022-10-04 白杨时代(北京)科技有限公司 一种目标确定方法及装置

Also Published As

Publication number Publication date
CN114935893B (zh) 2023-05-19

Similar Documents

Publication Publication Date Title
WO2020259502A1 (zh) 神经网络模型的生成方法及装置、计算机可读存储介质
KR101502397B1 (ko) 무기체계 전투효과분석을 위한 모의 전투 시뮬레이션 시스템 및 그 방법
US20190118085A1 (en) Data processing method and apparatus, and storage medium
JP5563709B2 (ja) タッチセンシティブ表面を介した仮想空間とのインタラクションを容易にするシステム及び方法
CN113705102B (zh) 海空集群对抗的推演仿真系统及方法、设备、存储介质
CN114139637B (zh) 多智能体信息融合方法、装置、电子设备及可读存储介质
Park et al. Simulation framework for small scale engagement
CN109063845B (zh) 基于生成样本的深度学习方法和机器人系统
CN114935893B (zh) 基于双层模型的作战场景中飞机的动作控制方法及装置
CN109731338B (zh) 游戏中的人工智能训练方法及装置、存储介质及电子装置
CN113509726B (zh) 交互模型训练方法、装置、计算机设备和存储介质
CN111437605B (zh) 确定虚拟对象行为及托管虚拟对象行为的方法
US20220161132A1 (en) Method and apparatus for facilitating progress between nodes on a rail
CN115438499A (zh) 一种多层次复杂设备毁伤仿真平台
TR2021014085A2 (tr) Tecrübe i̇le sürekli̇ öğrenen otonom sanal si̇mülatör varliklari
CN108958030B (zh) 基于知识库的人工智能作战方法和机器人系统
Möbius et al. AI-based Military Decision Support Using Natural Language
CN111068322A (zh) 一种对象移动方法、装置、终端及存储介质
CN114247144B (zh) 多智能体对抗仿真方法、装置、电子设备及存储介质
CN114254722B (zh) 一种面向博弈对抗的多智能模型融合方法
CN113769392B (zh) 虚拟场景的状态处理方法、装置、电子设备及存储介质
CN116842761B (zh) 基于自博弈的蓝军智能体模型构建方法和装置
CN113181635B (zh) 虚拟道具的装配方法、装置、终端及存储介质
Reinhardt A probabilistic analysis of the risk of nuclear deterrence failure
KR102662286B1 (ko) 자율 기동 및 교전이 가능한 표적 솔루션 제공 시스템 및 방법

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant