CN113705102A - 海空集群对抗的推演仿真系统及方法、设备、存储介质 - Google Patents
海空集群对抗的推演仿真系统及方法、设备、存储介质 Download PDFInfo
- Publication number
- CN113705102A CN113705102A CN202111011672.9A CN202111011672A CN113705102A CN 113705102 A CN113705102 A CN 113705102A CN 202111011672 A CN202111011672 A CN 202111011672A CN 113705102 A CN113705102 A CN 113705102A
- Authority
- CN
- China
- Prior art keywords
- simulation system
- sea
- simulation
- air
- model
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000004088 simulation Methods 0.000 title claims abstract description 192
- 238000000034 method Methods 0.000 title claims abstract description 45
- 230000002787 reinforcement Effects 0.000 claims abstract description 60
- 238000004422 calculation algorithm Methods 0.000 claims abstract description 34
- 238000012549 training Methods 0.000 claims abstract description 30
- 230000008485 antagonism Effects 0.000 claims abstract description 4
- 238000003062 neural network model Methods 0.000 claims description 35
- 230000009471 action Effects 0.000 claims description 20
- 230000008569 process Effects 0.000 claims description 18
- 238000004364 calculation method Methods 0.000 claims description 15
- 238000004590 computer program Methods 0.000 claims description 13
- 238000004806 packaging method and process Methods 0.000 claims description 12
- 230000006399 behavior Effects 0.000 claims description 6
- 238000011156 evaluation Methods 0.000 claims description 6
- 238000012545 processing Methods 0.000 claims description 6
- 238000013528 artificial neural network Methods 0.000 claims description 3
- 230000003993 interaction Effects 0.000 claims description 3
- 238000013461 design Methods 0.000 abstract description 9
- 230000001133 acceleration Effects 0.000 abstract description 4
- 238000001514 detection method Methods 0.000 description 9
- 238000010586 diagram Methods 0.000 description 4
- 238000005516 engineering process Methods 0.000 description 4
- 238000011160 research Methods 0.000 description 4
- 230000005540 biological transmission Effects 0.000 description 3
- 230000000694 effects Effects 0.000 description 3
- 238000002474 experimental method Methods 0.000 description 3
- 238000010304 firing Methods 0.000 description 3
- 238000004891 communication Methods 0.000 description 2
- 230000006872 improvement Effects 0.000 description 2
- 230000009916 joint effect Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 230000004044 response Effects 0.000 description 2
- RYGMFSIKBFXOCR-UHFFFAOYSA-N Copper Chemical compound [Cu] RYGMFSIKBFXOCR-UHFFFAOYSA-N 0.000 description 1
- 230000009194 climbing Effects 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 230000007123 defense Effects 0.000 description 1
- 239000000835 fiber Substances 0.000 description 1
- 238000005429 filling process Methods 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000009877 rendering Methods 0.000 description 1
- 238000012827 research and development Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F30/00—Computer-aided design [CAD]
- G06F30/20—Design optimisation, verification or simulation
- G06F30/27—Design optimisation, verification or simulation using machine learning, e.g. artificial intelligence, neural networks, support vector machines [SVM] or training a model
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Evolutionary Computation (AREA)
- Software Systems (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Medical Informatics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- General Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- Computing Systems (AREA)
- Data Mining & Analysis (AREA)
- Mathematical Physics (AREA)
- Computer Hardware Design (AREA)
- Geometry (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明公开了一种海空集群对抗的推演仿真系统及方法、设备、存储介质,所述推演仿真系统通过将深度强化学习系统部署在一台服务器上,将仿真系统分别部署在多台计算节点上,多台计算节点与服务器通过网络连接,每台计算节点的仿真系统中运行多个仿真系统实例,从而构建了一个并行分布式的网络架构,实现了分布式并行和加速,并具有良好的扩展性。所述深度强化学习系统可以从这个并行分布式的仿真架构中获取大量样本数据进行训练,使得训练样本的生成速度和算法的学习效率大大提高,并且仿真系统和深度强化学习系统采用模块化设计,具有良好的扩展性,便于定制化设计。
Description
技术领域
本发明涉及兵棋推演仿真技术领域,特别地,涉及一种海空集群对抗的推演仿真系统及方法、设备、计算机可读取的存储介质。
背景技术
海空集群对抗的决策控制是兵棋推演仿真研究领域的一个重要研究方向,是跨域跨平台群体作战单元完成作战任务目标的关键技术,而应用深度强化学习技术来解决海空集群对抗的决策控制问题是一种有效的方法。但是,目前针对海空集群对抗的深度强化学习算法,首先需要研究平台生成大量的样本数据用于算法训练,如果直接使用海空实际装备进行大量演习实验来获取这些数据,不仅耗费巨大,效率低,而且风险极高;其次,需要研究平台能够合理评估算法性能,指导算法的演化改进,迭代持续提升算法性能直至收敛。因此,如何为深度强化学习技术提供大量样本数据以便于进行算法训练以及训练完成后如何对算法性能进行评价成为了海空集群对抗推演仿真技术亟待解决的关键问题。
发明内容
本发明提供了一种海空集群对抗的推演仿真系统及方法、设备、计算机可读取的存储介质,以解决现有技术的上述缺陷。
根据本发明的一个方面,提供一种海空集群对抗的推演仿真系统,包括仿真系统和深度强化学习系统,所述仿真系统部署在多台计算节点上,所述深度强化学习系统部署在一台服务器上,多台计算节点与服务器通过网络连接,每台计算节点的仿真系统中运行多个仿真系统实例;
所述仿真系统包括用于设置作战对抗初始状态和作战任务的想定模块,用于生成海空集群交战的战场环境模型的海空环境设定模块,用于生成海空集群交战的海空装备模型的海空装备设定模块,用于对海空装备模型的交火行为进行裁决、给出海空装备模型的受损信息并更新其状态的交战裁决模块,以及用于与深度强化学习系统进行信息交互的外部访问接口;
所述深度强化学习系统包括深度强化学习算法模块和接口封装模块,所述深度强化学习算法模块用于通过所述仿真系统的外部访问接口控制多个仿真系统实例的运行、读取每个仿真系统实例的战场态势信息,基于读取的战场态势信息对神经网络模型进行训练,并利用神经网络模型输出每个仿真系统实例的海空集群联合动作,所述接口封装模块用于将神经网络模型输出的海空集群联合动作转换为仿真系统实例的作战命令,并通过调用外部访问接口将作战命令传输至对应的仿真系统,所述仿真系统根据接收的作战命令对运行的多个仿真系统实例进行控制并更新状态。
进一步地,所述仿真系统采用定步长的时间推进方式,在每个步长,所述深度强化学习系统通过仿真系统的外部访问接口控制仿真系统实例运行、获取战场态势信息和下发任务命令。
进一步地,所述想定模块设置作战对抗初始状态和作战任务的过程为:
新建想定,输入想定名称;
输入想定基本信息,包括想定推演方及其敌对关系、作战仿真开始/结束时间、想定描述,推演双方中的一方由所述深度强化学习算法模块进行控制,另一方由预先制定的作战规划或预设算法进行控制;
设置作战区域;
部署作战兵力;
设置条令规则,包括兵力和武器装备的交战规则;
设计由非深度强化学习算法控制的推演方的作战任务;
保存想定。
进一步地,所述海空装备设定模块包括机动模型设定单元、侦查模型设定单元、火力模型设定单元和任务处理单元,所述机动模型设定单元用于设定海空装备模型的机动能力,所述侦查模型设定单元用于设定海空装备模型的侦查能力,所述火力模型设定单元用于设定海空装备模型的作战武器,所述任务处理单元用于基于所述机动模型设定单元、侦查模型设定单元、火力模型设定单元的设定信息生成海空装备模型。
进一步地,所述交战裁决模块对海空装备模型的交火行为进行裁决、给出海空装备模型的受损信息并更新其状态的过程具体为:
加载作战武器信息、目标信息、环境信息、武器到目标的距离信息;
基于加载的信息和击中概率计算规则计算击中概率;
采用随机数生成器生成0到1的随机数;
将随机数与计算得到的击中概率进行比较,若随机数小于等于击中概率则判定为击中,否则判定为未击中;
基于击中次数和预设的毁伤计算规则进行毁伤计算,并输出毁伤结果。
进一步地,所述外部访问接口包括系统控制接口、态势获取接口和控制命令接口,所述系统控制接口用于供所述深度强化学习系统控制仿真系统实例的启动、停止和加载想定,所述态势获取接口用于供所述深度强化学习系统获取仿真系统实例的战场态势信息,所述控制命令接口用于接收所述深度强化学习系统发送的作战命令并进行对应响应。
另外,本发明还提供一种海空集群对抗的推演仿真方法,采用如上所述的推演仿真系统,所述推演仿真方法包括以下内容:
通过深度强化学习系统调用多个仿真系统的外部访问接口,开启多个仿真系统实例;
仿真系统实例启动后加载想定,海空装备状态进行初始化;
初始化深度神经网络的参数;
在每个时间步,通过深度强化学习系统调用仿真系统的外部访问接口,获取仿真系统实例的战场态势信息并作为训练样本收集起来;
当训练样本的数量超过设定的阈值时,对神经网络模型进行训练,训练完成后保存模型,并利用训练的神经网络模型为不同的仿真系统实例生成作战行动;当训练样本的数量未达到阈值时,则使用初始化的神经网络模型为不同的仿真系统实例生成作战行动;
通过接口封装模块将作战行动转换为作战命令,并调用对应的外部访问接口将作战命令传输至相应的仿真系统;
仿真系统执行作战命令并更新仿真系统实例的状态,若对战完成则重新加载想定进行下一局的推演仿真;
当训练的神经网络模型收敛后,保存训练好的神经网络模型。
进一步地,所述推演仿真方法还包括以下内容:
对训练好的神经网络模型进行评价;
其中,对训练好的神经网络模型进行评价的过程包括以下内容:
调用仿真系统的外部访问接口,开启一个仿真系统实例,加载想定;
加载训练好的神经网络模型;
调用仿真系统的外部仿真接口以获取当前仿真信息;
判断想定是否完成,若完成则判断是否评价完成,否则执行后续内容,若评价完成则保存评价结果并结束流程,否则执行后续内容;
神经网络模型生成作战行动;
将作战行动封装为作战命令,并调用仿真系统的外部访问接口将作战命令传输至仿真系统;
仿真系统执行作战命令并更新状态。
另外,本发明还提供一种设备,包括处理器和存储器,所述存储器中存储有计算机程序,所述处理器通过调用所述存储器中存储的所述计算机程序,用于执行如上所述的方法的步骤。
另外,本发明还提供一种计算机可读取的存储介质,用于存储进行海空集群对抗的推演仿真的计算机程序,其特征在于,所述计算机程序在计算机上运行时执行如上所述的方法的步骤。
本发明具有以下效果:
本发明的海空集群对抗的推演仿真系统,通过将深度强化学习系统部署在一台服务器上,将仿真系统分别部署在多台计算节点上,多台计算节点与服务器通过网络连接,每台计算节点的仿真系统中运行多个仿真系统实例,从而构建了一个并行分布式的网络架构,实现了分布式并行和加速,并具有良好的扩展性。所述深度强化学习系统可以从这个并行分布式的仿真架构中获取大量样本数据进行训练,使得训练样本的生成速度和算法的学习效率大大提高,并且仿真系统和深度强化学习系统采用模块化设计,具有良好的扩展性,便于定制化设计。
另外,本发明的海空集群对抗的推演仿真方法、设备、计算机可读取的存储介质同样具有上述优点。
除了上面所描述的目的、特征和优点之外,本发明还有其它的目的、特征和优点。下面将参照图,对本发明作进一步详细的说明。
附图说明
构成本申请的一部分的附图用来提供对本发明的进一步理解,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。在附图中:
图1是本发明优选实施例的海空集群对抗的推演仿真系统的网络架构部署示意图。
图2是本发明优选实施例的海空集群对抗的推演仿真系统的模块结构示意图。
图3是本发明优选实施例的想定模块设置作战对抗初始状态和作战任务的逻辑流程示意图。
图4是本发明优选实施例的交战裁决模块进行火力裁决的逻辑流程示意图。
图5是本发明另一实施例的海空集群对抗的推演仿真方法的流程示意图。
图6是本发明又一实施例的海空集群对抗的推演仿真方法的流程示意图。
图7是图6中步骤S9的子流程示意图。
具体实施方式
以下结合附图对本发明的实施例进行详细说明,但是本发明可以由下述所限定和覆盖的多种不同方式实施。
如图1和图2所示,本发明的优选实施例提供一种海空集群对抗的推演仿真系统,包括海空集群对抗仿真系统(后续简称仿真系统)和深度强化学习系统,所述仿真系统部署在多台计算节点上,所述深度强化学习系统部署在一台服务器上,多台计算节点与服务器通过网络连接,例如通过gRPC协议进行网络通信,每台计算节点的仿真系统中运行多个仿真系统实例。所述仿真系统包括想定模块、海空环境设定模块、海空装备设定模块、交战裁决模块和外部访问接口,所述想定模块用于设置作战对抗初始状态和作战任务,所述海空环境设定模块用于生成海空集群交战的战场环境模型,所述海空装备设定模块用于生成海空集群交战的海空装备模型,所述交战裁决模块用于对海空装备模型的交火行为进行裁决、给出海空装备模型的受损信息并更新其状态,所述外部访问接口用于与深度强化学习系统进行信息交互。所述深度强化学习系统包括深度强化学习算法模块和接口封装模块,所述深度强化学习算法模块用于通过所述仿真系统的外部访问接口控制多个仿真系统实例的运行、读取每个仿真系统实例的战场态势信息,所述战场态势信息包括战场环境信息、敌方兵力部署和状态信息、我方兵力部署和状态信息等,基于读取的战场态势信息对神经网络模型进行训练,并利用神经网络模型输出每个仿真系统实例的海空集群联合动作,所述接口封装模块用于将神经网络模型输出的海空集群联合动作转换为仿真系统实例的作战命令,并通过调用外部访问接口将作战命令传输至对应的仿真系统,所述仿真系统根据接收的作战命令对运行的多个仿真系统实例进行控制并更新状态。其中,所述仿真系统采用定步长的时间推进方式,在每个步长,所述深度强化学习系统通过仿真系统的外部访问接口控制仿真系统实例运行、获取战场态势信息和下发任务命令。所述仿真系统在具体硬件实现时可以划分为仿真内核与显示模块,仿真内核关注于仿真的高效推演计算,不包括界面显示,其推演过程展现由显示模块完成。这两者的分离,使得算法在训练时只需要使用其仿真内核,而无需显示模块,避免由此耗费的计算渲染资源,加快仿真推演进程;在对算法模型进行评价分析时,同时运用仿真内核和显示模块详细展示海空集群对抗仿真全程,便于用户直观理解战斗过程。另外,所述服务器和计算节点还可以根据需要配置图形处理单元(GPU)来实现仿真和算法的高效运行和训练。
可以理解,本实施例的海空集群对抗的推演仿真系统,通过将深度强化学习系统部署在一台服务器上,将仿真系统分别部署在多台计算节点上,多台计算节点与服务器通过网络连接,每台计算节点的仿真系统中运行多个仿真系统实例,从而构建了一个并行分布式的网络架构,实现了分布式并行和加速,并具有良好的扩展性。所述深度强化学习系统可以从这个并行分布式的仿真架构中获取大量样本数据进行训练,使得训练样本的生成速度和算法的学习效率大大提高,并且仿真系统和深度强化学习系统采用模块化设计,具有良好的扩展性,便于定制化设计。
其中,所述想定模块主要包括想定设置推演方和时间、部署兵力、设置条令规则、作战任务规划、想定打开与保存等功能,用于定义和设置作战对抗问题初始状态,如战场区域设置、推演方、作战时间、作战兵力、作战目标、作战行动等。作战任务规划可以设计海空装备的作战任务,如巡逻任务、打击任务、拦截任务等,在不同的条件下将实施相应的作战任务。在想定中,推演双方中的一方由深度强化学习算法进行控制,另一方由预先制定的作战规划或预设算法进行控制,一般为人工设计、采用预设规则或智能算法对兵力的作战任务进行规划。所述想定模块是在想定模板的支撑下进行想定设定,具体采用格式化的标准形式描述想定的所有要素,例如XML文件格式,想定设定过程也是想定模板的填充过程。具体地,如图3所示,所述想定模块设置作战对抗初始状态和作战任务的过程为:
新建想定,输入想定名称;
输入想定基本信息,具体包括想定推演方及其敌对关系、作战仿真开始/结束时间、想定描述等;
设置作战区域,确定想定对抗所在的物理空间,例如在GIS系统中划分一块区域作为作战区域;
部署作战兵力,具体对想定初始状态下各个推演方所拥有的兵力进行设置,包括种类、数量、位置和状态等;
设置条令规则,包括设置兵力和武器装备的交战规则,例如开火时机、开火方式等;
规划作战任务,具体包括设计由非深度强化学习算法控制的推演方的作战任务;
保存想定。
可以理解,所述海空装备设定模块用于生成海空集群交战的战场环境模型,包括海域、岛礁和空域等三维模型,海空集群在此环境模型中进行作战活动,一般采用支持三维的地理信息系统实现。
可以理解,所述海空装备设定模块包括机动模型设定单元、侦查模型设定单元、火力模型设定单元和任务处理单元,所述机动模型设定单元用于设定海空装备模型的机动能力,主要包括模型的平均速度、最大速度、航程、爬升率等信息。所述侦查模型设定单元用于设定海空装备模型的侦查能力,主要包括雷达、红外和可见光等侦察设备的侦察范围,对各类目标的发现概率等。所述火力模型设定单元用于设定海空装备模型的作战武器,主要包括各类炮弹、导弹、机关枪等。所述任务处理单元用于基于所述机动模型设定单元、侦查模型设定单元、火力模型设定单元的设定信息生成海空装备模型。所述海空装备模型包括海上舰艇模型和空中战机模型,两种模型的参数化建模框架相同,只是选择的参数和参数值不同。
可以理解,如图4所述,所述交战裁决模块对海空装备模型的交火行为进行裁决、给出海空装备模型的受损信息并更新其状态的过程具体为:
加载作战武器信息、目标信息、环境信息、距离信息,其中,作战武器信息包括武器类型、战纪指标等,目标信息包括目标类型、装甲防护能力等,环境信息包括当前战场的地理、气象、水文和电磁环境等信息,距离信息包括武器到目标的距离信息;
计算击中概率,具体基于加载的上述信息和预设的击中概率计算规则计算击中概率;
生成随机数,具体采用随机数生成器生成0到1的随机数;
判定是否击中,具体将随机数与计算得到的击中概率进行比较,若随机数小于等于击中概率则判定为击中,否则判定为未击中,结束流程;
毁伤计算,具体基于击中次数和预设的毁伤计算规则进行毁伤计算,并输出毁伤结果,结束流程。例如对舰船目标的毁伤计算规则为:被击中1发反舰导弹失去动力,无法机动,被击中2发失去防空能力,被击中3发判为击沉。
可以理解,所述外部访问接口包括系统控制接口、态势获取接口和控制命令接口,所述系统控制接口用于供所述深度强化学习系统控制仿真系统实例的启动、停止和加载想定等,所述态势获取接口用于供所述深度强化学习系统获取仿真系统实例的战场态势信息,即仿真信息,主要包括仿真的时间、双方海空装备的状态、环境信息等,所述控制命令接口用于接收所述深度强化学习系统发送的作战命令并进行对应响应,例如机动、开火、侦查装备的开关机等控制命令。
另外,如图5所示,本发明的另一实施例还提供一种海空集群对抗的推演仿真方法,优选采用如上所述的推演仿真系统,所述推演仿真方法包括以下内容:
步骤S1:通过深度强化学习系统调用多个仿真系统的外部访问接口,开启多个仿真系统实例;
步骤S2:仿真系统实例启动后加载想定,海空装备状态进行初始化;
步骤S3:初始化深度神经网络的参数;
步骤S4:在每个时间步,通过深度强化学习系统调用仿真系统的外部访问接口,获取仿真系统实例的战场态势信息并作为训练样本收集起来;
步骤S5:当训练样本的数量超过设定的阈值时,对神经网络模型进行训练,训练完成后保存模型,并利用训练的神经网络模型为不同的仿真系统实例生成作战行动;当训练样本的数量未达到阈值时,则使用初始化的神经网络模型为不同的仿真系统实例生成作战行动;
步骤S6:通过接口封装模块将作战行动转换为作战命令,并调用对应的外部访问接口将作战命令传输至相应的仿真系统;
步骤S7:仿真系统执行作战命令并更新仿真系统实例的状态,若对战完成则重新加载想定进行下一局的推演仿真;
步骤S8:当训练的神经网络模型收敛后,保存训练好的神经网络模型。
可以理解,本实施例的海空集群对抗的推演仿真方法,通过将深度强化学习系统部署在一台服务器上,将仿真系统分别部署在多台计算节点上,多台计算节点与服务器通过网络连接,每台计算节点的仿真系统中运行多个仿真系统实例,从而构建了一个并行分布式的网络架构,实现了分布式并行和加速,并具有良好的扩展性。所述深度强化学习系统可以从这个并行分布式的仿真架构中获取大量样本数据进行训练,使得训练样本的生成速度和算法的学习效率大大提高,并且仿真系统和深度强化学习系统采用模块化设计,具有良好的扩展性,便于定制化设计。
可以理解,如图6所示,在本发明的另一实施例中,所述推演仿真方法还包括以下内容:
步骤S9:对训练好的神经网络模型进行评价。
具体地,如图7所示,所述步骤S9包括以下内容:
步骤S91:调用仿真系统的外部访问接口,开启一个仿真系统实例,加载想定;
步骤S92:加载训练好的神经网络模型;
步骤S93:调用仿真系统的外部仿真接口以获取当前仿真信息;
步骤S94:判断想定是否完成,若完成则判断是否评价完成,否则执行后续内容,若评价完成则保存评价结果并结束流程,否则执行后续内容;
步骤S95:神经网络模型生成作战行动;
步骤S96:将作战行动封装为作战命令,并调用仿真系统的外部访问接口将作战命令传输至仿真系统;
步骤S97:仿真系统执行作战命令并更新状态。
可以理解,本实施例的推演仿真方法不仅可以快速对所研究的深度强化学习算法进行训练,而且还能对其决策控制效果进行验证评价,避免了直接进行海空装备实物实验所耗费的大量时间和可能产生的未知风险,满足了算法研究人员对实验的需求,从而极大地提高了海空集群对抗仿真的深度强化学习算法研发效率。
另外,本发明的另一实施例还提供一种设备,包括处理器和存储器,所述存储器中存储有计算机程序,所述处理器通过调用所述存储器中存储的所述计算机程序,用于执行如上所述的方法的步骤。
另外,本发明的另一实施例还提供一种计算机可读取的存储介质,用于存储进行海空集群对抗的推演仿真的计算机程序,所述计算机程序在计算机上运行时执行如上所述的方法的步骤。
一般计算机可读取存储介质的形式包括:软盘(floppy disk)、可挠性盘片(flexible disk)、硬盘、磁带、任何其与的磁性介质、CD-ROM、任何其余的光学介质、打孔卡片(punch cards)、纸带(paper tape)、任何其余的带有洞的图案的物理介质、随机存取存储器(RAM)、可编程只读存储器(PROM)、可抹除可编程只读存储器(EPROM)、快闪可抹除可编程只读存储器(FLASH-EPROM)、其余任何存储器芯片或卡匣、或任何其余可让计算机读取的介质。指令可进一步被一传输介质所传送或接收。传输介质这一术语可包含任何有形或无形的介质,其可用来存储、编码或承载用来给机器执行的指令,并且包含数字或模拟通信信号或其与促进上述指令的通信的无形介质。传输介质包含同轴电缆、铜线以及光纤,其包含了用来传输一计算机数据信号的总线的导线。
以上所述仅为本发明的优选实施例而已,并不用于限制本发明,对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (10)
1.一种海空集群对抗的推演仿真系统,其特征在于,包括仿真系统和深度强化学习系统,所述仿真系统部署在多台计算节点上,所述深度强化学习系统部署在一台服务器上,多台计算节点与服务器通过网络连接,每台计算节点的仿真系统中运行多个仿真系统实例;
所述仿真系统包括用于设置作战对抗初始状态和作战任务的想定模块,用于生成海空集群交战的战场环境模型的海空环境设定模块,用于生成海空集群交战的海空装备模型的海空装备设定模块,用于对海空装备模型的交火行为进行裁决、给出海空装备模型的受损信息并更新其状态的交战裁决模块,以及用于与深度强化学习系统进行信息交互的外部访问接口;
所述深度强化学习系统包括深度强化学习算法模块和接口封装模块,所述深度强化学习算法模块用于通过所述仿真系统的外部访问接口控制多个仿真系统实例的运行、读取每个仿真系统实例的战场态势信息,基于读取的战场态势信息对神经网络模型进行训练,并利用神经网络模型输出每个仿真系统实例的海空集群联合动作,所述接口封装模块用于将神经网络模型输出的海空集群联合动作转换为仿真系统实例的作战命令,并通过调用外部访问接口将作战命令传输至对应的仿真系统,所述仿真系统根据接收的作战命令对运行的多个仿真系统实例进行控制并更新状态。
2.如权利要求1所述的海空集群对抗的推演仿真系统,其特征在于,所述仿真系统采用定步长的时间推进方式,在每个步长,所述深度强化学习系统通过仿真系统的外部访问接口控制仿真系统实例运行、获取战场态势信息和下发任务命令。
3.如权利要求1所述的海空集群对抗的推演仿真系统,其特征在于,所述想定模块设置作战对抗初始状态和作战任务的过程为:
新建想定,输入想定名称;
输入想定基本信息,包括想定推演方及其敌对关系、作战仿真开始/结束时间、想定描述,推演双方中的一方由所述深度强化学习算法模块进行控制,另一方由预先制定的作战规划或预设算法进行控制;
设置作战区域;
部署作战兵力;
设置条令规则,包括兵力和武器装备的交战规则;
设计由非深度强化学习算法控制的推演方的作战任务;
保存想定。
4.如权利要求1所述的海空集群对抗的推演仿真系统,其特征在于,所述海空装备设定模块包括机动模型设定单元、侦查模型设定单元、火力模型设定单元和任务处理单元,所述机动模型设定单元用于设定海空装备模型的机动能力,所述侦查模型设定单元用于设定海空装备模型的侦查能力,所述火力模型设定单元用于设定海空装备模型的作战武器,所述任务处理单元用于基于所述机动模型设定单元、侦查模型设定单元、火力模型设定单元的设定信息生成海空装备模型。
5.如权利要求1所述的海空集群对抗的推演仿真系统,其特征在于,所述交战裁决模块对海空装备模型的交火行为进行裁决、给出海空装备模型的受损信息并更新其状态的过程具体为:
加载作战武器信息、目标信息、环境信息、武器到目标的距离信息;
基于加载的信息和击中概率计算规则计算击中概率;
采用随机数生成器生成0到1的随机数;
将随机数与计算得到的击中概率进行比较,若随机数小于等于击中概率则判定为击中,否则判定为未击中;
基于击中次数和预设的毁伤计算规则进行毁伤计算,并输出毁伤结果。
6.如权利要求1所述的海空集群对抗的推演仿真系统,其特征在于,所述外部访问接口包括系统控制接口、态势获取接口和控制命令接口,所述系统控制接口用于供所述深度强化学习系统控制仿真系统实例的启动、停止和加载想定,所述态势获取接口用于供所述深度强化学习系统获取仿真系统实例的战场态势信息,所述控制命令接口用于接收所述深度强化学习系统发送的作战命令并进行对应响应。
7.一种海空集群对抗的推演仿真方法,采用如权利要求1~6任一项所述的推演仿真系统,其特征在于,所述推演仿真方法包括以下内容:
通过深度强化学习系统调用多个仿真系统的外部访问接口,开启多个仿真系统实例;
仿真系统实例启动后加载想定,海空装备状态进行初始化;
初始化深度神经网络的参数;
在每个时间步,通过深度强化学习系统调用仿真系统的外部访问接口,获取仿真系统实例的战场态势信息并作为训练样本收集起来;
当训练样本的数量超过设定的阈值时,对神经网络模型进行训练,训练完成后保存模型,并利用训练的神经网络模型为不同的仿真系统实例生成作战行动;当训练样本的数量未达到阈值时,则使用初始化的神经网络模型为不同的仿真系统实例生成作战行动;
通过接口封装模块将作战行动转换为作战命令,并调用对应的外部访问接口将作战命令传输至相应的仿真系统;
仿真系统执行作战命令并更新仿真系统实例的状态,若对战完成则重新加载想定进行下一局的推演仿真;
当训练的神经网络模型收敛后,保存训练好的神经网络模型。
8.如权利要求7所述的海空集群对抗的推演仿真方法,其特征在于,所述推演仿真方法还包括以下内容:
对训练好的神经网络模型进行评价;
其中,对训练好的神经网络模型进行评价的过程包括以下内容:
调用仿真系统的外部访问接口,开启一个仿真系统实例,加载想定;
加载训练好的神经网络模型;
调用仿真系统的外部仿真接口以获取当前仿真信息;
判断想定是否完成,若完成则判断是否评价完成,否则执行后续内容,若评价完成则保存评价结果并结束流程,否则执行后续内容;
神经网络模型生成作战行动;
将作战行动封装为作战命令,并调用仿真系统的外部访问接口将作战命令传输至仿真系统;
仿真系统执行作战命令并更新状态。
9.一种设备,其特征在于,包括处理器和存储器,所述存储器中存储有计算机程序,所述处理器通过调用所述存储器中存储的所述计算机程序,用于执行如权利要求7或8所述的方法的步骤。
10.一种计算机可读取的存储介质,用于存储进行海空集群对抗的推演仿真的计算机程序,其特征在于,所述计算机程序在计算机上运行时执行如权利要求7或8所述的方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111011672.9A CN113705102B (zh) | 2021-08-31 | 2021-08-31 | 海空集群对抗的推演仿真系统及方法、设备、存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111011672.9A CN113705102B (zh) | 2021-08-31 | 2021-08-31 | 海空集群对抗的推演仿真系统及方法、设备、存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113705102A true CN113705102A (zh) | 2021-11-26 |
CN113705102B CN113705102B (zh) | 2024-05-10 |
Family
ID=78657915
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202111011672.9A Active CN113705102B (zh) | 2021-08-31 | 2021-08-31 | 海空集群对抗的推演仿真系统及方法、设备、存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113705102B (zh) |
Cited By (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114722644A (zh) * | 2022-06-09 | 2022-07-08 | 西安羚控电子科技有限公司 | 一种集群对抗仿真想定编辑建模方法及建模系统 |
CN114862168A (zh) * | 2022-04-27 | 2022-08-05 | 中国人民解放军军事科学院战略评估咨询中心 | 一种推演仿真环境下多方案智能切换系统 |
CN115080053A (zh) * | 2022-06-10 | 2022-09-20 | 西北工业大学 | 一种面向监督学习应用的集群机器人控制方法 |
CN115114723A (zh) * | 2022-06-07 | 2022-09-27 | 中国船舶集团有限公司系统工程研究院 | 一种水面无人艇任务规划学习器设计方法及系统 |
CN115358477A (zh) * | 2022-08-29 | 2022-11-18 | 中国兵器科学研究院 | 一种作战想定随机生成系统及其应用 |
CN117252111A (zh) * | 2023-11-15 | 2023-12-19 | 中国电建集团贵阳勘测设计研究院有限公司 | 一种堤坝隐患和险情区域主动监测方法 |
CN117591232A (zh) * | 2023-10-31 | 2024-02-23 | 厦门渊亭信息科技有限公司 | 一种数据并行推演仿真方法及系统 |
CN117877348A (zh) * | 2024-01-05 | 2024-04-12 | 青岛航讯科技有限公司 | 基于数据处理的3d模拟仿真训练方法及系统 |
Citations (19)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR20110049947A (ko) * | 2009-11-06 | 2011-05-13 | 국방과학연구소 | 네트워크 기반 훈련을 위한 함정전투체계의 훈련시스템 및 그 운용방법 |
KR20130039364A (ko) * | 2011-10-12 | 2013-04-22 | 국방과학연구소 | 지상군 교전모의체계에서 다중해상도 모의를 위해 부대분해를 위한 외삽 방법 |
CN106508012B (zh) * | 2010-04-16 | 2013-07-24 | 中国人民解放军国防科学技术大学 | 面向服务的群体行为并行仿真方法 |
KR20150084596A (ko) * | 2014-01-14 | 2015-07-22 | 국방과학연구소 | 최적 설계 파라미터 탐색을 위한 최적화 방법 |
CN107203415A (zh) * | 2017-06-10 | 2017-09-26 | 中国人民解放军海军潜艇学院 | 一种分布式仿真训练系统 |
KR20180016756A (ko) * | 2016-08-08 | 2018-02-20 | 박준현 | 실시간 3차원 해양공간정보를 이용한 전술 지원 시스템 |
CN108520664A (zh) * | 2018-03-28 | 2018-09-11 | 北京华如科技股份有限公司 | 陆空实兵实装对抗训练系统 |
CN109636699A (zh) * | 2018-11-06 | 2019-04-16 | 中国电子科技集团公司第五十二研究所 | 一种基于深度强化学习的无监督智能作战推演系统 |
CN109740283A (zh) * | 2019-01-17 | 2019-05-10 | 清华大学 | 自主多智能体对抗仿真方法及系统 |
WO2020106908A1 (en) * | 2018-11-21 | 2020-05-28 | Amazon Technologies, Inc. | Reinforcement learning model training through simulation |
CN111919225A (zh) * | 2018-03-27 | 2020-11-10 | 辉达公司 | 使用模拟环境对自主机器进行培训、测试和验证 |
US20200412743A1 (en) * | 2019-06-25 | 2020-12-31 | International Business Machines Corporation | Detection of an adversarial backdoor attack on a trained model at inference time |
CN112308422A (zh) * | 2020-10-30 | 2021-02-02 | 西北工业大学 | 面向远程空中支援载机的任务规划与解算仿真系统及方法 |
CN112349393A (zh) * | 2019-08-09 | 2021-02-09 | 通用电气精准医疗有限责任公司 | 对机器学习模型创作和部署的主动监测和学习 |
CN112381237A (zh) * | 2020-12-09 | 2021-02-19 | 中国船舶工业系统工程研究院 | 基于岸海协同的水面无人系统的持续自主学习架构系统 |
KR102228621B1 (ko) * | 2020-04-29 | 2021-03-16 | 엘아이지넥스원 주식회사 | 인공 지능 기반의 함정 전투체계 장치 및 그 구현 방법 |
CN112784445A (zh) * | 2021-03-11 | 2021-05-11 | 四川大学 | 一种飞行控制智能体的并行分布式计算系统及方法 |
CN113177368A (zh) * | 2021-05-31 | 2021-07-27 | 中国人民解放军国防科技大学 | 一种面向人机交互的智能化指控训练仿真系统 |
CN113298260A (zh) * | 2021-06-11 | 2021-08-24 | 中国人民解放军国防科技大学 | 一种基于深度强化学习的对抗仿真推演方法 |
-
2021
- 2021-08-31 CN CN202111011672.9A patent/CN113705102B/zh active Active
Patent Citations (19)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR20110049947A (ko) * | 2009-11-06 | 2011-05-13 | 국방과학연구소 | 네트워크 기반 훈련을 위한 함정전투체계의 훈련시스템 및 그 운용방법 |
CN106508012B (zh) * | 2010-04-16 | 2013-07-24 | 中国人民解放军国防科学技术大学 | 面向服务的群体行为并行仿真方法 |
KR20130039364A (ko) * | 2011-10-12 | 2013-04-22 | 국방과학연구소 | 지상군 교전모의체계에서 다중해상도 모의를 위해 부대분해를 위한 외삽 방법 |
KR20150084596A (ko) * | 2014-01-14 | 2015-07-22 | 국방과학연구소 | 최적 설계 파라미터 탐색을 위한 최적화 방법 |
KR20180016756A (ko) * | 2016-08-08 | 2018-02-20 | 박준현 | 실시간 3차원 해양공간정보를 이용한 전술 지원 시스템 |
CN107203415A (zh) * | 2017-06-10 | 2017-09-26 | 中国人民解放军海军潜艇学院 | 一种分布式仿真训练系统 |
CN111919225A (zh) * | 2018-03-27 | 2020-11-10 | 辉达公司 | 使用模拟环境对自主机器进行培训、测试和验证 |
CN108520664A (zh) * | 2018-03-28 | 2018-09-11 | 北京华如科技股份有限公司 | 陆空实兵实装对抗训练系统 |
CN109636699A (zh) * | 2018-11-06 | 2019-04-16 | 中国电子科技集团公司第五十二研究所 | 一种基于深度强化学习的无监督智能作战推演系统 |
WO2020106908A1 (en) * | 2018-11-21 | 2020-05-28 | Amazon Technologies, Inc. | Reinforcement learning model training through simulation |
CN109740283A (zh) * | 2019-01-17 | 2019-05-10 | 清华大学 | 自主多智能体对抗仿真方法及系统 |
US20200412743A1 (en) * | 2019-06-25 | 2020-12-31 | International Business Machines Corporation | Detection of an adversarial backdoor attack on a trained model at inference time |
CN112349393A (zh) * | 2019-08-09 | 2021-02-09 | 通用电气精准医疗有限责任公司 | 对机器学习模型创作和部署的主动监测和学习 |
KR102228621B1 (ko) * | 2020-04-29 | 2021-03-16 | 엘아이지넥스원 주식회사 | 인공 지능 기반의 함정 전투체계 장치 및 그 구현 방법 |
CN112308422A (zh) * | 2020-10-30 | 2021-02-02 | 西北工业大学 | 面向远程空中支援载机的任务规划与解算仿真系统及方法 |
CN112381237A (zh) * | 2020-12-09 | 2021-02-19 | 中国船舶工业系统工程研究院 | 基于岸海协同的水面无人系统的持续自主学习架构系统 |
CN112784445A (zh) * | 2021-03-11 | 2021-05-11 | 四川大学 | 一种飞行控制智能体的并行分布式计算系统及方法 |
CN113177368A (zh) * | 2021-05-31 | 2021-07-27 | 中国人民解放军国防科技大学 | 一种面向人机交互的智能化指控训练仿真系统 |
CN113298260A (zh) * | 2021-06-11 | 2021-08-24 | 中国人民解放军国防科技大学 | 一种基于深度强化学习的对抗仿真推演方法 |
Cited By (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114862168B (zh) * | 2022-04-27 | 2023-06-06 | 中国人民解放军军事科学院战略评估咨询中心 | 一种推演仿真环境下多方案智能切换系统 |
CN114862168A (zh) * | 2022-04-27 | 2022-08-05 | 中国人民解放军军事科学院战略评估咨询中心 | 一种推演仿真环境下多方案智能切换系统 |
CN115114723A (zh) * | 2022-06-07 | 2022-09-27 | 中国船舶集团有限公司系统工程研究院 | 一种水面无人艇任务规划学习器设计方法及系统 |
CN114722644B (zh) * | 2022-06-09 | 2022-09-02 | 西安羚控电子科技有限公司 | 一种集群对抗仿真想定编辑建模方法及建模系统 |
CN114722644A (zh) * | 2022-06-09 | 2022-07-08 | 西安羚控电子科技有限公司 | 一种集群对抗仿真想定编辑建模方法及建模系统 |
CN115080053A (zh) * | 2022-06-10 | 2022-09-20 | 西北工业大学 | 一种面向监督学习应用的集群机器人控制方法 |
CN115080053B (zh) * | 2022-06-10 | 2024-02-27 | 西北工业大学 | 一种面向监督学习应用的集群机器人控制方法 |
CN115358477A (zh) * | 2022-08-29 | 2022-11-18 | 中国兵器科学研究院 | 一种作战想定随机生成系统及其应用 |
CN115358477B (zh) * | 2022-08-29 | 2023-10-31 | 中国兵器科学研究院 | 一种作战想定随机生成系统及其应用 |
CN117591232A (zh) * | 2023-10-31 | 2024-02-23 | 厦门渊亭信息科技有限公司 | 一种数据并行推演仿真方法及系统 |
CN117252111A (zh) * | 2023-11-15 | 2023-12-19 | 中国电建集团贵阳勘测设计研究院有限公司 | 一种堤坝隐患和险情区域主动监测方法 |
CN117252111B (zh) * | 2023-11-15 | 2024-02-23 | 中国电建集团贵阳勘测设计研究院有限公司 | 一种堤坝隐患和险情区域主动监测方法 |
CN117877348A (zh) * | 2024-01-05 | 2024-04-12 | 青岛航讯科技有限公司 | 基于数据处理的3d模拟仿真训练方法及系统 |
Also Published As
Publication number | Publication date |
---|---|
CN113705102B (zh) | 2024-05-10 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN113705102B (zh) | 海空集群对抗的推演仿真系统及方法、设备、存储介质 | |
CN113791634B (zh) | 一种基于多智能体强化学习的多机空战决策方法 | |
Hu et al. | Improved Ant Colony Optimization for Weapon‐Target Assignment | |
CN112131786A (zh) | 基于多智能体强化学习的目标探测与分配方法及装置 | |
CN113723013B (zh) | 一种用于连续空间兵棋推演的多智能体决策方法 | |
Zhang et al. | Maneuver decision-making of deep learning for UCAV thorough azimuth angles | |
CN108427286B (zh) | 用于强对抗环境下无人机深度决策的训练方法及训练网络 | |
CN113893539A (zh) | 智能体的协同对战方法及装置 | |
CN112580221A (zh) | 一种攻防对抗仿真系统 | |
Fawkes | Developments in Artificial Intelligence: Opportunities and Challenges for Military Modeling and Simulation | |
CN112800679A (zh) | 一种光电装备防御规划方法、装置、设备及存储介质 | |
CN114997054A (zh) | 一种兵棋对弈模拟方法及装置 | |
CN118171572A (zh) | 无人机集群演进式的仿真训练方法、系统、介质及设备 | |
Jinjun et al. | Dynamic WTA optimization model of air defense operation of warships' formation | |
CN118036911A (zh) | 一种基于规则分层强化学习的作战任务规划方法 | |
CN112818496B (zh) | 基于蚁群算法的要地防空策略 | |
Deng et al. | Research on intelligent decision technology for multi-UAVs prevention and control | |
CN114935893A (zh) | 基于双层模型的作战场景中飞机的动作控制方法及装置 | |
CN114247144A (zh) | 多智能体对抗仿真方法、装置、电子设备及存储介质 | |
CN113987849A (zh) | 空战对抗算法的评估方法及装置 | |
CN113656963A (zh) | 一种可实时交互控制的分布式作战推演仿真系统 | |
TR2021014085A2 (tr) | Tecrübe i̇le sürekli̇ öğrenen otonom sanal si̇mülatör varliklari | |
US12061673B1 (en) | Multi-agent planning and autonomy | |
CN114239833B (zh) | 基于概率软逻辑的军事对抗规则置信度计算方法和装置 | |
Mao et al. | Construction method of air combat agent based on reinforcement learning |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |