CN113705102A

CN113705102A - 海空集群对抗的推演仿真系统及方法、设备、存储介质

Info

Publication number: CN113705102A
Application number: CN202111011672.9A
Authority: CN
Inventors: 刘宝宏
Original assignee: Hunan Cangshu Aerospace Technology Co ltd
Current assignee: Hunan Cangshu Aerospace Technology Co ltd
Priority date: 2021-08-31
Filing date: 2021-08-31
Publication date: 2021-11-26
Anticipated expiration: 2041-08-31
Also published as: CN113705102B

Abstract

本发明公开了一种海空集群对抗的推演仿真系统及方法、设备、存储介质，所述推演仿真系统通过将深度强化学习系统部署在一台服务器上，将仿真系统分别部署在多台计算节点上，多台计算节点与服务器通过网络连接，每台计算节点的仿真系统中运行多个仿真系统实例，从而构建了一个并行分布式的网络架构，实现了分布式并行和加速，并具有良好的扩展性。所述深度强化学习系统可以从这个并行分布式的仿真架构中获取大量样本数据进行训练，使得训练样本的生成速度和算法的学习效率大大提高，并且仿真系统和深度强化学习系统采用模块化设计，具有良好的扩展性，便于定制化设计。

Description

海空集群对抗的推演仿真系统及方法、设备、存储介质

技术领域

本发明涉及兵棋推演仿真技术领域，特别地，涉及一种海空集群对抗的推演仿真系统及方法、设备、计算机可读取的存储介质。

背景技术

海空集群对抗的决策控制是兵棋推演仿真研究领域的一个重要研究方向，是跨域跨平台群体作战单元完成作战任务目标的关键技术，而应用深度强化学习技术来解决海空集群对抗的决策控制问题是一种有效的方法。但是，目前针对海空集群对抗的深度强化学习算法，首先需要研究平台生成大量的样本数据用于算法训练，如果直接使用海空实际装备进行大量演习实验来获取这些数据，不仅耗费巨大，效率低，而且风险极高；其次，需要研究平台能够合理评估算法性能，指导算法的演化改进，迭代持续提升算法性能直至收敛。因此，如何为深度强化学习技术提供大量样本数据以便于进行算法训练以及训练完成后如何对算法性能进行评价成为了海空集群对抗推演仿真技术亟待解决的关键问题。

发明内容

本发明提供了一种海空集群对抗的推演仿真系统及方法、设备、计算机可读取的存储介质，以解决现有技术的上述缺陷。

根据本发明的一个方面，提供一种海空集群对抗的推演仿真系统，包括仿真系统和深度强化学习系统，所述仿真系统部署在多台计算节点上，所述深度强化学习系统部署在一台服务器上，多台计算节点与服务器通过网络连接，每台计算节点的仿真系统中运行多个仿真系统实例；

所述仿真系统包括用于设置作战对抗初始状态和作战任务的想定模块，用于生成海空集群交战的战场环境模型的海空环境设定模块，用于生成海空集群交战的海空装备模型的海空装备设定模块，用于对海空装备模型的交火行为进行裁决、给出海空装备模型的受损信息并更新其状态的交战裁决模块，以及用于与深度强化学习系统进行信息交互的外部访问接口；

所述深度强化学习系统包括深度强化学习算法模块和接口封装模块，所述深度强化学习算法模块用于通过所述仿真系统的外部访问接口控制多个仿真系统实例的运行、读取每个仿真系统实例的战场态势信息，基于读取的战场态势信息对神经网络模型进行训练，并利用神经网络模型输出每个仿真系统实例的海空集群联合动作，所述接口封装模块用于将神经网络模型输出的海空集群联合动作转换为仿真系统实例的作战命令，并通过调用外部访问接口将作战命令传输至对应的仿真系统，所述仿真系统根据接收的作战命令对运行的多个仿真系统实例进行控制并更新状态。

进一步地，所述仿真系统采用定步长的时间推进方式，在每个步长，所述深度强化学习系统通过仿真系统的外部访问接口控制仿真系统实例运行、获取战场态势信息和下发任务命令。

进一步地，所述想定模块设置作战对抗初始状态和作战任务的过程为：

新建想定，输入想定名称；

输入想定基本信息，包括想定推演方及其敌对关系、作战仿真开始/结束时间、想定描述，推演双方中的一方由所述深度强化学习算法模块进行控制，另一方由预先制定的作战规划或预设算法进行控制；

设置作战区域；

部署作战兵力；

设置条令规则，包括兵力和武器装备的交战规则；

设计由非深度强化学习算法控制的推演方的作战任务；

保存想定。

进一步地，所述海空装备设定模块包括机动模型设定单元、侦查模型设定单元、火力模型设定单元和任务处理单元，所述机动模型设定单元用于设定海空装备模型的机动能力，所述侦查模型设定单元用于设定海空装备模型的侦查能力，所述火力模型设定单元用于设定海空装备模型的作战武器，所述任务处理单元用于基于所述机动模型设定单元、侦查模型设定单元、火力模型设定单元的设定信息生成海空装备模型。

进一步地，所述交战裁决模块对海空装备模型的交火行为进行裁决、给出海空装备模型的受损信息并更新其状态的过程具体为：

加载作战武器信息、目标信息、环境信息、武器到目标的距离信息；

基于加载的信息和击中概率计算规则计算击中概率；

采用随机数生成器生成0到1的随机数；

将随机数与计算得到的击中概率进行比较，若随机数小于等于击中概率则判定为击中，否则判定为未击中；

基于击中次数和预设的毁伤计算规则进行毁伤计算，并输出毁伤结果。

进一步地，所述外部访问接口包括系统控制接口、态势获取接口和控制命令接口，所述系统控制接口用于供所述深度强化学习系统控制仿真系统实例的启动、停止和加载想定，所述态势获取接口用于供所述深度强化学习系统获取仿真系统实例的战场态势信息，所述控制命令接口用于接收所述深度强化学习系统发送的作战命令并进行对应响应。

另外，本发明还提供一种海空集群对抗的推演仿真方法，采用如上所述的推演仿真系统，所述推演仿真方法包括以下内容：

通过深度强化学习系统调用多个仿真系统的外部访问接口，开启多个仿真系统实例；

仿真系统实例启动后加载想定，海空装备状态进行初始化；

初始化深度神经网络的参数；

在每个时间步，通过深度强化学习系统调用仿真系统的外部访问接口，获取仿真系统实例的战场态势信息并作为训练样本收集起来；

当训练样本的数量超过设定的阈值时，对神经网络模型进行训练，训练完成后保存模型，并利用训练的神经网络模型为不同的仿真系统实例生成作战行动；当训练样本的数量未达到阈值时，则使用初始化的神经网络模型为不同的仿真系统实例生成作战行动；

通过接口封装模块将作战行动转换为作战命令，并调用对应的外部访问接口将作战命令传输至相应的仿真系统；

仿真系统执行作战命令并更新仿真系统实例的状态，若对战完成则重新加载想定进行下一局的推演仿真；

当训练的神经网络模型收敛后，保存训练好的神经网络模型。

进一步地，所述推演仿真方法还包括以下内容：

对训练好的神经网络模型进行评价；

其中，对训练好的神经网络模型进行评价的过程包括以下内容：

调用仿真系统的外部访问接口，开启一个仿真系统实例，加载想定；

加载训练好的神经网络模型；

调用仿真系统的外部仿真接口以获取当前仿真信息；

判断想定是否完成，若完成则判断是否评价完成，否则执行后续内容，若评价完成则保存评价结果并结束流程，否则执行后续内容；

神经网络模型生成作战行动；

将作战行动封装为作战命令，并调用仿真系统的外部访问接口将作战命令传输至仿真系统；

仿真系统执行作战命令并更新状态。

另外，本发明还提供一种设备，包括处理器和存储器，所述存储器中存储有计算机程序，所述处理器通过调用所述存储器中存储的所述计算机程序，用于执行如上所述的方法的步骤。

另外，本发明还提供一种计算机可读取的存储介质，用于存储进行海空集群对抗的推演仿真的计算机程序，其特征在于，所述计算机程序在计算机上运行时执行如上所述的方法的步骤。

本发明具有以下效果：

本发明的海空集群对抗的推演仿真系统，通过将深度强化学习系统部署在一台服务器上，将仿真系统分别部署在多台计算节点上，多台计算节点与服务器通过网络连接，每台计算节点的仿真系统中运行多个仿真系统实例，从而构建了一个并行分布式的网络架构，实现了分布式并行和加速，并具有良好的扩展性。所述深度强化学习系统可以从这个并行分布式的仿真架构中获取大量样本数据进行训练，使得训练样本的生成速度和算法的学习效率大大提高，并且仿真系统和深度强化学习系统采用模块化设计，具有良好的扩展性，便于定制化设计。

另外，本发明的海空集群对抗的推演仿真方法、设备、计算机可读取的存储介质同样具有上述优点。

除了上面所描述的目的、特征和优点之外，本发明还有其它的目的、特征和优点。下面将参照图，对本发明作进一步详细的说明。

附图说明

构成本申请的一部分的附图用来提供对本发明的进一步理解，本发明的示意性实施例及其说明用于解释本发明，并不构成对本发明的不当限定。在附图中：

图1是本发明优选实施例的海空集群对抗的推演仿真系统的网络架构部署示意图。

图2是本发明优选实施例的海空集群对抗的推演仿真系统的模块结构示意图。

图3是本发明优选实施例的想定模块设置作战对抗初始状态和作战任务的逻辑流程示意图。

图4是本发明优选实施例的交战裁决模块进行火力裁决的逻辑流程示意图。

图5是本发明另一实施例的海空集群对抗的推演仿真方法的流程示意图。

图6是本发明又一实施例的海空集群对抗的推演仿真方法的流程示意图。

图7是图6中步骤S9的子流程示意图。

具体实施方式

以下结合附图对本发明的实施例进行详细说明，但是本发明可以由下述所限定和覆盖的多种不同方式实施。

如图1和图2所示，本发明的优选实施例提供一种海空集群对抗的推演仿真系统，包括海空集群对抗仿真系统(后续简称仿真系统)和深度强化学习系统，所述仿真系统部署在多台计算节点上，所述深度强化学习系统部署在一台服务器上，多台计算节点与服务器通过网络连接，例如通过gRPC协议进行网络通信，每台计算节点的仿真系统中运行多个仿真系统实例。所述仿真系统包括想定模块、海空环境设定模块、海空装备设定模块、交战裁决模块和外部访问接口，所述想定模块用于设置作战对抗初始状态和作战任务，所述海空环境设定模块用于生成海空集群交战的战场环境模型，所述海空装备设定模块用于生成海空集群交战的海空装备模型，所述交战裁决模块用于对海空装备模型的交火行为进行裁决、给出海空装备模型的受损信息并更新其状态，所述外部访问接口用于与深度强化学习系统进行信息交互。所述深度强化学习系统包括深度强化学习算法模块和接口封装模块，所述深度强化学习算法模块用于通过所述仿真系统的外部访问接口控制多个仿真系统实例的运行、读取每个仿真系统实例的战场态势信息，所述战场态势信息包括战场环境信息、敌方兵力部署和状态信息、我方兵力部署和状态信息等，基于读取的战场态势信息对神经网络模型进行训练，并利用神经网络模型输出每个仿真系统实例的海空集群联合动作，所述接口封装模块用于将神经网络模型输出的海空集群联合动作转换为仿真系统实例的作战命令，并通过调用外部访问接口将作战命令传输至对应的仿真系统，所述仿真系统根据接收的作战命令对运行的多个仿真系统实例进行控制并更新状态。其中，所述仿真系统采用定步长的时间推进方式，在每个步长，所述深度强化学习系统通过仿真系统的外部访问接口控制仿真系统实例运行、获取战场态势信息和下发任务命令。所述仿真系统在具体硬件实现时可以划分为仿真内核与显示模块，仿真内核关注于仿真的高效推演计算，不包括界面显示，其推演过程展现由显示模块完成。这两者的分离，使得算法在训练时只需要使用其仿真内核，而无需显示模块，避免由此耗费的计算渲染资源，加快仿真推演进程；在对算法模型进行评价分析时，同时运用仿真内核和显示模块详细展示海空集群对抗仿真全程，便于用户直观理解战斗过程。另外，所述服务器和计算节点还可以根据需要配置图形处理单元(GPU)来实现仿真和算法的高效运行和训练。

可以理解，本实施例的海空集群对抗的推演仿真系统，通过将深度强化学习系统部署在一台服务器上，将仿真系统分别部署在多台计算节点上，多台计算节点与服务器通过网络连接，每台计算节点的仿真系统中运行多个仿真系统实例，从而构建了一个并行分布式的网络架构，实现了分布式并行和加速，并具有良好的扩展性。所述深度强化学习系统可以从这个并行分布式的仿真架构中获取大量样本数据进行训练，使得训练样本的生成速度和算法的学习效率大大提高，并且仿真系统和深度强化学习系统采用模块化设计，具有良好的扩展性，便于定制化设计。

其中，所述想定模块主要包括想定设置推演方和时间、部署兵力、设置条令规则、作战任务规划、想定打开与保存等功能，用于定义和设置作战对抗问题初始状态，如战场区域设置、推演方、作战时间、作战兵力、作战目标、作战行动等。作战任务规划可以设计海空装备的作战任务，如巡逻任务、打击任务、拦截任务等，在不同的条件下将实施相应的作战任务。在想定中，推演双方中的一方由深度强化学习算法进行控制，另一方由预先制定的作战规划或预设算法进行控制，一般为人工设计、采用预设规则或智能算法对兵力的作战任务进行规划。所述想定模块是在想定模板的支撑下进行想定设定，具体采用格式化的标准形式描述想定的所有要素，例如XML文件格式，想定设定过程也是想定模板的填充过程。具体地，如图3所示，所述想定模块设置作战对抗初始状态和作战任务的过程为：

新建想定，输入想定名称；

输入想定基本信息，具体包括想定推演方及其敌对关系、作战仿真开始/结束时间、想定描述等；

设置作战区域，确定想定对抗所在的物理空间，例如在GIS系统中划分一块区域作为作战区域；

部署作战兵力，具体对想定初始状态下各个推演方所拥有的兵力进行设置，包括种类、数量、位置和状态等；

设置条令规则，包括设置兵力和武器装备的交战规则，例如开火时机、开火方式等；

规划作战任务，具体包括设计由非深度强化学习算法控制的推演方的作战任务；

保存想定。

可以理解，所述海空装备设定模块用于生成海空集群交战的战场环境模型，包括海域、岛礁和空域等三维模型，海空集群在此环境模型中进行作战活动，一般采用支持三维的地理信息系统实现。

可以理解，所述海空装备设定模块包括机动模型设定单元、侦查模型设定单元、火力模型设定单元和任务处理单元，所述机动模型设定单元用于设定海空装备模型的机动能力，主要包括模型的平均速度、最大速度、航程、爬升率等信息。所述侦查模型设定单元用于设定海空装备模型的侦查能力，主要包括雷达、红外和可见光等侦察设备的侦察范围，对各类目标的发现概率等。所述火力模型设定单元用于设定海空装备模型的作战武器，主要包括各类炮弹、导弹、机关枪等。所述任务处理单元用于基于所述机动模型设定单元、侦查模型设定单元、火力模型设定单元的设定信息生成海空装备模型。所述海空装备模型包括海上舰艇模型和空中战机模型，两种模型的参数化建模框架相同，只是选择的参数和参数值不同。

可以理解，如图4所述，所述交战裁决模块对海空装备模型的交火行为进行裁决、给出海空装备模型的受损信息并更新其状态的过程具体为：

加载作战武器信息、目标信息、环境信息、距离信息，其中，作战武器信息包括武器类型、战纪指标等，目标信息包括目标类型、装甲防护能力等，环境信息包括当前战场的地理、气象、水文和电磁环境等信息，距离信息包括武器到目标的距离信息；

计算击中概率，具体基于加载的上述信息和预设的击中概率计算规则计算击中概率；

生成随机数，具体采用随机数生成器生成0到1的随机数；

判定是否击中，具体将随机数与计算得到的击中概率进行比较，若随机数小于等于击中概率则判定为击中，否则判定为未击中，结束流程；

毁伤计算，具体基于击中次数和预设的毁伤计算规则进行毁伤计算，并输出毁伤结果，结束流程。例如对舰船目标的毁伤计算规则为：被击中1发反舰导弹失去动力，无法机动，被击中2发失去防空能力，被击中3发判为击沉。

可以理解，所述外部访问接口包括系统控制接口、态势获取接口和控制命令接口，所述系统控制接口用于供所述深度强化学习系统控制仿真系统实例的启动、停止和加载想定等，所述态势获取接口用于供所述深度强化学习系统获取仿真系统实例的战场态势信息，即仿真信息，主要包括仿真的时间、双方海空装备的状态、环境信息等，所述控制命令接口用于接收所述深度强化学习系统发送的作战命令并进行对应响应，例如机动、开火、侦查装备的开关机等控制命令。

另外，如图5所示，本发明的另一实施例还提供一种海空集群对抗的推演仿真方法，优选采用如上所述的推演仿真系统，所述推演仿真方法包括以下内容：

步骤S1：通过深度强化学习系统调用多个仿真系统的外部访问接口，开启多个仿真系统实例；

步骤S2：仿真系统实例启动后加载想定，海空装备状态进行初始化；

步骤S3：初始化深度神经网络的参数；

步骤S4：在每个时间步，通过深度强化学习系统调用仿真系统的外部访问接口，获取仿真系统实例的战场态势信息并作为训练样本收集起来；

步骤S5：当训练样本的数量超过设定的阈值时，对神经网络模型进行训练，训练完成后保存模型，并利用训练的神经网络模型为不同的仿真系统实例生成作战行动；当训练样本的数量未达到阈值时，则使用初始化的神经网络模型为不同的仿真系统实例生成作战行动；

步骤S6：通过接口封装模块将作战行动转换为作战命令，并调用对应的外部访问接口将作战命令传输至相应的仿真系统；

步骤S7：仿真系统执行作战命令并更新仿真系统实例的状态，若对战完成则重新加载想定进行下一局的推演仿真；

步骤S8：当训练的神经网络模型收敛后，保存训练好的神经网络模型。

可以理解，本实施例的海空集群对抗的推演仿真方法，通过将深度强化学习系统部署在一台服务器上，将仿真系统分别部署在多台计算节点上，多台计算节点与服务器通过网络连接，每台计算节点的仿真系统中运行多个仿真系统实例，从而构建了一个并行分布式的网络架构，实现了分布式并行和加速，并具有良好的扩展性。所述深度强化学习系统可以从这个并行分布式的仿真架构中获取大量样本数据进行训练，使得训练样本的生成速度和算法的学习效率大大提高，并且仿真系统和深度强化学习系统采用模块化设计，具有良好的扩展性，便于定制化设计。

可以理解，如图6所示，在本发明的另一实施例中，所述推演仿真方法还包括以下内容：

步骤S9：对训练好的神经网络模型进行评价。

具体地，如图7所示，所述步骤S9包括以下内容：

步骤S91：调用仿真系统的外部访问接口，开启一个仿真系统实例，加载想定；

步骤S92：加载训练好的神经网络模型；

步骤S93：调用仿真系统的外部仿真接口以获取当前仿真信息；

步骤S94：判断想定是否完成，若完成则判断是否评价完成，否则执行后续内容，若评价完成则保存评价结果并结束流程，否则执行后续内容；

步骤S95：神经网络模型生成作战行动；

步骤S96：将作战行动封装为作战命令，并调用仿真系统的外部访问接口将作战命令传输至仿真系统；

步骤S97：仿真系统执行作战命令并更新状态。

可以理解，本实施例的推演仿真方法不仅可以快速对所研究的深度强化学习算法进行训练，而且还能对其决策控制效果进行验证评价，避免了直接进行海空装备实物实验所耗费的大量时间和可能产生的未知风险，满足了算法研究人员对实验的需求，从而极大地提高了海空集群对抗仿真的深度强化学习算法研发效率。

另外，本发明的另一实施例还提供一种设备，包括处理器和存储器，所述存储器中存储有计算机程序，所述处理器通过调用所述存储器中存储的所述计算机程序，用于执行如上所述的方法的步骤。

另外，本发明的另一实施例还提供一种计算机可读取的存储介质，用于存储进行海空集群对抗的推演仿真的计算机程序，所述计算机程序在计算机上运行时执行如上所述的方法的步骤。

一般计算机可读取存储介质的形式包括：软盘(floppy disk)、可挠性盘片(flexible disk)、硬盘、磁带、任何其与的磁性介质、CD-ROM、任何其余的光学介质、打孔卡片(punch cards)、纸带(paper tape)、任何其余的带有洞的图案的物理介质、随机存取存储器(RAM)、可编程只读存储器(PROM)、可抹除可编程只读存储器(EPROM)、快闪可抹除可编程只读存储器(FLASH-EPROM)、其余任何存储器芯片或卡匣、或任何其余可让计算机读取的介质。指令可进一步被一传输介质所传送或接收。传输介质这一术语可包含任何有形或无形的介质，其可用来存储、编码或承载用来给机器执行的指令，并且包含数字或模拟通信信号或其与促进上述指令的通信的无形介质。传输介质包含同轴电缆、铜线以及光纤，其包含了用来传输一计算机数据信号的总线的导线。

以上所述仅为本发明的优选实施例而已，并不用于限制本发明，对于本领域的技术人员来说，本发明可以有各种更改和变化。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种海空集群对抗的推演仿真系统，其特征在于，包括仿真系统和深度强化学习系统，所述仿真系统部署在多台计算节点上，所述深度强化学习系统部署在一台服务器上，多台计算节点与服务器通过网络连接，每台计算节点的仿真系统中运行多个仿真系统实例；

2.如权利要求1所述的海空集群对抗的推演仿真系统，其特征在于，所述仿真系统采用定步长的时间推进方式，在每个步长，所述深度强化学习系统通过仿真系统的外部访问接口控制仿真系统实例运行、获取战场态势信息和下发任务命令。

3.如权利要求1所述的海空集群对抗的推演仿真系统，其特征在于，所述想定模块设置作战对抗初始状态和作战任务的过程为：

新建想定，输入想定名称；

设置作战区域；

部署作战兵力；

设置条令规则，包括兵力和武器装备的交战规则；

设计由非深度强化学习算法控制的推演方的作战任务；

保存想定。

4.如权利要求1所述的海空集群对抗的推演仿真系统，其特征在于，所述海空装备设定模块包括机动模型设定单元、侦查模型设定单元、火力模型设定单元和任务处理单元，所述机动模型设定单元用于设定海空装备模型的机动能力，所述侦查模型设定单元用于设定海空装备模型的侦查能力，所述火力模型设定单元用于设定海空装备模型的作战武器，所述任务处理单元用于基于所述机动模型设定单元、侦查模型设定单元、火力模型设定单元的设定信息生成海空装备模型。

5.如权利要求1所述的海空集群对抗的推演仿真系统，其特征在于，所述交战裁决模块对海空装备模型的交火行为进行裁决、给出海空装备模型的受损信息并更新其状态的过程具体为：

基于加载的信息和击中概率计算规则计算击中概率；

采用随机数生成器生成0到1的随机数；

6.如权利要求1所述的海空集群对抗的推演仿真系统，其特征在于，所述外部访问接口包括系统控制接口、态势获取接口和控制命令接口，所述系统控制接口用于供所述深度强化学习系统控制仿真系统实例的启动、停止和加载想定，所述态势获取接口用于供所述深度强化学习系统获取仿真系统实例的战场态势信息，所述控制命令接口用于接收所述深度强化学习系统发送的作战命令并进行对应响应。

7.一种海空集群对抗的推演仿真方法，采用如权利要求1～6任一项所述的推演仿真系统，其特征在于，所述推演仿真方法包括以下内容：

仿真系统实例启动后加载想定，海空装备状态进行初始化；

初始化深度神经网络的参数；

8.如权利要求7所述的海空集群对抗的推演仿真方法，其特征在于，所述推演仿真方法还包括以下内容：

对训练好的神经网络模型进行评价；

加载训练好的神经网络模型；

调用仿真系统的外部仿真接口以获取当前仿真信息；

神经网络模型生成作战行动；

仿真系统执行作战命令并更新状态。

9.一种设备，其特征在于，包括处理器和存储器，所述存储器中存储有计算机程序，所述处理器通过调用所述存储器中存储的所述计算机程序，用于执行如权利要求7或8所述的方法的步骤。

10.一种计算机可读取的存储介质，用于存储进行海空集群对抗的推演仿真的计算机程序，其特征在于，所述计算机程序在计算机上运行时执行如权利要求7或8所述的方法的步骤。