CN112560184B

CN112560184B - 一种飞行器仿真模型并行计算系统及方法

Info

Publication number: CN112560184B
Application number: CN202011533523.4A
Authority: CN
Inventors: 李景; 佟佳慧; 赵亚斌; 杨展
Original assignee: Beijing Electromechanical Engineering Research Institute
Current assignee: Beijing Electromechanical Engineering Research Institute
Priority date: 2020-12-22
Filing date: 2020-12-22
Publication date: 2023-09-12
Anticipated expiration: 2040-12-22
Also published as: CN112560184A

Abstract

本发明涉及一种飞行器仿真模型并行计算系统及方法，该系统包括N个计算服务节点、N个计算服务节点间的通信网络及安装在各计算服务节点上的并行计算软件；计算服务节点包括GPU、RMDA光纤通讯网卡和并行计算软件；第一计算服务节点上运行并行计算软件的主控端，并在GPU上运行并行计算软件的节点终端；其余N‑1个计算服务节点的GPU上分别运行并行计算软件的节点终端；GPU为设置为参战节点的飞行器仿真模型提供并行解算；RMDA光纤通讯网卡，用于构建N个计算服务节点间通信网络，并通过上述通信网络对飞行器仿真模型间进行数据分发。本发明解决了目前飞行器仿真模型没有采用GPU计算芯片对参战仿真节点进行并行计算以及仿真数据传输效率不高的问题。

Description

一种飞行器仿真模型并行计算系统及方法

技术领域

本发明涉及半实物仿真技术领域，尤其涉及一种飞行器仿真模型并行计算系统及方法。

背景技术

多飞行器协同对抗通常使用一种或多种打击单元，通过飞行器系统、发射平台间的信息配合，完成与目标之间的火力对抗。因此，对协同打击与对抗过程的仿真需要解决多参战节点仿真模型计算及仿真数据通信问题。

目前尚没有采用GPU计算芯片对参战仿真节点进行并行计算，并基于直接内存读取访问技术实现仿真数据的高效传输，并在协同制导半实物、数学仿真试验中采用上述方法进行多节点模型解算的应用案例。

发明内容

鉴于上述的分析，本发明旨在提供一种飞行器模型并行计算的仿真系统及方法，以解决目前飞行器仿真模型存在的上述部分或全部问题。

本发明的目的主要是通过以下技术方案实现的：

一方面，本发明提供了一种飞行器仿真模型并行计算系统，包括N个计算服务节点、N个计算服务节点间的通信网络及安装在各计算服务节点上的并行计算软件；

所述计算服务节点包括GPU、RMDA光纤通讯网卡和并行计算软件；其中，第一计算服务节点上运行并行计算软件的主控端，并在GPU上运行并行计算软件的节点终端；其余N-1个计算服务节点的GPU上分别运行并行计算软件的节点终端；

所述GPU，用于为设置为参战节点的飞行器仿真模型提供并行解算；

所述RMDA光纤通讯网卡，用于构建所述N个计算服务节点间通信网络，并通过上述通信网络对飞行器仿真模型间进行数据分发。

进一步地，仿真试验开始时，第一计算服务节点运行所述并行计算软件的主控端，通过飞行器协同工作流程配置文件设置参战节点的飞行器仿真模型的名称和参战节点个数；所述参战节点个数为参与仿真的模型实例的个数；

第一计算服务节点运行所述并行计算软件的主控端，还用于根据所述配置文件对所述参战节点的飞行器仿真模型进行模型实例化，并采用静态平均分配或动态负载均衡的方式将模型实例分发到上述N个计算服务节点上，根据参战节点个数使得每个计算服务节点运行多个模型实例；

N个所述计算服务节点运行所述并行计算软件的节点终端，用于完成本地计算服务节点的GPU内存对主控端所在的第一计算服务节点的GPU内存的地址映射。

进一步地，参战节点的飞行器仿真模型运行时，各计算服务节点上运行并行计算软件的节点终端在GPU的SP计算核上并发运行模型实例，每个SP计算核心运行一个模型实例，并以配置的周期输出数据；

上述各模型实例的周期输出数据直接通过所述地址映射写入主控端所在的第一计算服务节点的GPU内存。

进一步地，所述第一计算服务节点上运行并行计算软件的主控端，包括：

编制并输入飞行器协同工作流程配置文件ModleSetting.xml，进行各个计算服务节点的数据存储地址的配置和映射；

对各个计算服务节点的模型实例完成包括类型、数量和周期在内的参数配置。

进一步地，所述其余N-1个计算服务节点的GPU上分别运行并行计算软件的节点终端，包括以下步骤：

S1，接收第一计算服务节点下发的参数，并对本地GPU进行初始化和计算资源分配；

S2，根据所述第一计算服务节点下发的参数进行模型实例化生成多个GPU并行计算模型节点；

S3，接收第一计算服务节点的主控端发送的仿真运行及帧计算开始消息；

S4，各本地GPU计算线程从本地GPU内存读取输入数据，并完成一帧模型计算；

S5，各本地GPU计算线程向第一计算服务节点的GPU内存写入输出数据，并返回帧计算完成消息；

S6，接收下一帧计算开始消息，转至执行S4，直至多个GPU并行计算模型节点全部完成仿真计算后结束。

另一方面，本发明提供了一种飞行器仿真模型并行计算方法，包括以下步骤：

构建N个计算服务节点间通信网络，所述通信网络用于对飞行器仿真模型间进行数据分发；

在N个计算服务节点上安装并行计算软件；其中，第一计算服务节点上运行主控端的并行计算软件，并在GPU上运行并行计算软件的节点终端；其余N-1个计算服务节点的GPU上分别运行并行计算软件的节点终端；

基于所述并行计算软件并通过各计算服务节点的GPU为设置为参战节点的飞行器仿真模型提供并行解算。

第一计算服务节点运行所述并行计算软件的主控端，根据所述配置文件对所述参战节点的飞行器仿真模型进行模型实例化，并采用静态平均分配或动态负载均衡的方式将模型实例分发到上述N个计算服务节点上，根据参战节点个数使得每个计算服务节点运行多个模型实例；

N个所述计算服务节点运行所述并行计算软件的节点终端，完成本地计算服务节点的GPU内存对主控端所在的第一计算服务节点的GPU内存的地址映射。

进一步地，参战节点仿真模型运行时，各计算服务节点上运行并行计算软件的节点终端在GPU的SP计算核上并发运行模型实例，每个SP计算核心运行一个模型实例，并以配置的周期输出数据；

S4，各本地GPU计算线程从GPU内存读取输入数据，并完成一帧模型计算；

S5，各本地GPU计算线程向GPU内存写入输出数据，并返回帧计算完成消息；

本技术方案有益效果如下：本发明公开了一种飞行器仿真模型并行计算系统及方法，采用GPU计算芯片对参战节点的飞行器仿真模型进行并行计算，提高了单个计算节点对大量细粒度模型的计算处理能力；同时采用直接内存读取访问(Remote Direct MemoryAccess，RDMA)解决了计算服务节点间的数据高通量、低延迟传输问题。

本发明的其他特征和优点将在随后的说明书中阐述，并且，部分的从说明书中变得显而易见，或者通过实施本发明而了解。本发明的目的和其他优点可通过在所写的说明书、权利要求书、以及附图中所特别指出的结构来实现和获得。

附图说明

附图仅用于示出具体实施例的目的，而并不认为是对本发明的限制，在整个附图中，相同的参考符号表示相同的部件。

图1为本发明实施例的飞行器仿真模型并行计算系统架构图；

图2为本发明实施例的飞行器仿真模型并行计算系统的数据流示意图；

图3为本发明实施例的飞行器仿真模型并行计算系统的数据处理流程框图；

图4为本发明实施例的飞行器仿真模型并行计算方法的流程图。

具体实施方式

下面结合附图来具体描述本发明的优选实施例，其中，附图构成本申请一部分，并与本发明的实施例一起用于阐释本发明的原理，并非用于限定本发明的范围。

本发明的一个具体实施例，如图1所示，公开了一种飞行器仿真模型并行计算系统，包括N个计算服务节点、N个计算服务节点间的通信网络及安装在各计算服务节点上的并行计算软件；

具体地，如图1所示的飞行器仿真模型并行计算系统由计算服务节点1到N、计算服务节点间的通信网络、并行计算软件(主控端和节点终端)组成。计算服务节点为高性能工作站，配置支持GPUDirect的GPU和RDMA光纤网卡服务器，计算服务节点个数的确定需结合战场场景中参战节点规模、GPU计算能力、模型的计算周期要求、仿真实验加速比等指标要求。飞行仿真模型行计算系统的软件部分由并行计算软件的主控端和节点终端构成，在计算服务节点1中运行并行计算软件的主控端和节点终端，在计算服务节点2到N中运行并行计算软件的节点终端，其中，节点终端均运行在GPU上。

本发明基于GPU的飞行器仿真模型并行计算构建起支持数百量级细粒度模型高效计算架构，解决了细粒度模型计算算力大、高通量数据交互延迟等制约对抗仿真精细度发展的问题，为协同智能算法、飞行器协同工作模式提供高效、逼真的仿真试验环境。

本发明的一个具体实施例，仿真试验开始时，第一计算服务节点运行所述并行计算软件的主控端，通过飞行器协同工作流程配置文件设置参战节点的飞行器仿真模型的名称和参战节点个数；所述参战节点个数为参与仿真的模型实例的个数；

具体地，试验准备阶段，在飞行器协同工作流程配置文件ModleSetting.xml中定义参战节点的飞行器仿真模型的名称、节点个数信息。主控端软件根据配置文件对所涉及仿真模型进行实例化，节点终端软件完成本地GPU内存对主控端软件所在计算服务节点1的GPU内存地址映射。

具体地，内存地址映射，将远程节点的内存地址映射到本地内存地址，通过此映射在向本地内存写入数据时，数据会自动拷贝到远程节点的内存。

具体地，模型实例分发采用静态分配和负载均衡相结合的方式。对于仿真开始时直接运行的模型采用静态分配的方式，将所有的模型实例平均分配到多个计算节点中；而对于仿真过程中动态加入的模型实例，则采用负载均衡的方式，通过计数器和计时器对每个计算服务节点的计算耗时进行记录，来判断每个计算服务节点的负载情况，并将新加入的模型实例分发到负载最低的计算节点上。

本发明的一个具体实施例，参战节点的飞行器仿真模型运行时，各计算服务节点上运行并行计算软件的节点终端在GPU的SP计算核上并发运行模型实例，每个SP计算核心运行一个模型实例，并以配置的周期输出数据；

具体地，仿真运行阶段，各计算服务节点上的节点终端软件在GPU的SP计算核上并发运行各模型实例，模型实例的周期输出数据直接通过地址映射写入主控端所在计算服务节点1的GPU内存，同理，所有模型实例对周期输出数据的读取仍通过映射地址，访问计算服务节点1的GPU内存。

本发明的一个具体实施例，所述第一计算服务节点上运行并行计算软件的主控端，包括：

具体地，编制协同工作过程说明文件ModleSetting.xml，在计算服务节点1运行主控端软件：

1)输入ModleSetting.xml，完成对各个计算节点的数据存储地址进行配置和映射；

2)完成对各个计算节点的模型实例类型、数量、周期等参数进行配置。

具体举例来说，所述飞行器协同工作流程配置文件设置参战节点个数为256个，并分别部署于两个计算服务节点。如图2所示的并行计算系统的数据流示意图。

本发明的一个具体实施例，所述其余N-1个计算服务节点的GPU上分别运行并行计算软件的节点终端，包括以下步骤：

多个GPU并行计算模型节点全部完成仿真计算后，仿真结束。

具体举例来说，计算服务节点1、计算服务节点2分别运行节点终端软件，依次进行以下操作：

1)接收主控端下发参数；

2)对GPU进行初始化和计算资源分配；

3)按主控端参数对模型进行实例化生成多个GPU并行计算模型节点；

4)接收仿真计算开始消息；

5)接收帧计算开始消息；

6)各GPU计算线程从GPU内存读取输入数据；

7)各GPU计算线程完成一帧模型计算；

8)各GPU计算线程向GPU内存写入输出数据，并返回帧计算完成消息；

9)接收下一帧计算开始消息。

以上结合计算服务节点间数据流，如图2所示，模型实例线程将计算结果作为输出写入相应的数据块，并从GPU内存中获取其它模型实例输出数据，待参战节点的模型全部完成仿真计算后，仿真结束。

如图3所示的飞行器仿真模型并行计算系统的数据处理流程框图。

仿真数据包括作战想定数据、模型基本信息、模型初始化数据、模型运行时数据、仿真主题数据。其中，作战想定数据和模型基本信息都保存在作战想定文件中，主要用于模型的多节点实例化和基本信息设置；每个模型实例对应一份模型初始化数据，包括发射点、目标点等需要装订的初始化数据；模型运行时数据为仿真开始后，模型每帧计算输出的数据；仿真主题数据是在模型运行时数据的基础上，根据数据的用途进行格式化装配后的结构化数据。

仿真开始后，平台首先加载作战想定文件，根据想定数据中的模型数量、模型类型、基本信息进行多节点实例化，并通过仿真网络将模型实例分配到各个计算节点上。在进行初始化数据加载时，多节点模型实例各自加载本实例所对应的初始化数据，进行模型初始状态的设置。模型运行开始后，各模型实例在帧同步下进行逐帧解算，并输出模型运行时数据。在数据装配阶段，模型运行时数据被装配为有特定用途的主题数据，包括用于场景显示的主题数据、用于数据链通信的主题数据以及用于其他仿真节点的主题数据等。装配完成后的各类主题数据在数据分发时，会根据预先设定的网络地址被分发到需要使用相应主题数据的各个节点上。

本发明的一个具体实施例，如图4所示，公开了一种飞行器仿真模型并行计算方法，包括以下步骤：

步骤1、构建N个计算服务节点间通信网络，所述通信网络用于对飞行器仿真模型间进行数据分发；

步骤2、在N个计算服务节点上安装并行计算软件；其中，第一计算服务节点上运行主控端的并行计算软件，并在GPU上运行并行计算软件的节点终端；其余N-1个计算服务节点的GPU上分别运行并行计算软件的节点终端；

步骤3、基于所述并行计算软件并通过各计算服务节点的GPU为设置为参战节点的飞行器仿真模型提供并行解算。

本发明的一个具体实施例，参战节点仿真模型运行时，各计算服务节点上运行并行计算软件的节点终端在GPU的SP计算核上并发运行模型实例，每个SP计算核心运行一个模型实例，并以配置的周期输出数据；

多个GPU并行计算模型节点全部完成仿真计算后，仿真结束。

综上所述，本发明公开了一种飞行器仿真模型并行计算系统，包括N个计算服务节点、N个计算服务节点间的通信网络及安装在各计算服务节点上的并行计算软件；所述计算服务节点包括GPU、RMDA光纤通讯网卡和并行计算软件；其中，第一计算服务节点上运行并行计算软件的主控端，并在GPU上运行并行计算软件的节点终端；其余N-1个计算服务节点的GPU上分别运行并行计算软件的节点终端；所述GPU，用于为设置为参战节点的飞行器仿真模型提供并行解算；所述RMDA光纤通讯网卡，用于构建所述N个计算服务节点间通信网络，并通过上述通信网络对飞行器仿真模型间进行数据分发。同时公开了与上述系统构成同一发明构思的并行计算方法。本发明实施例采用GPU计算芯片对参战节点的飞行器仿真模型进行并行计算，提高了单个计算节点对大量细粒度模型的计算处理能力；同时采用直接内存读取访问(Remote Direct Memory Access，RDMA)解决了计算服务节点间的数据高通量、低延迟传输问题。

本领域技术人员可以理解，实现上述实施例中方法的全部或部分流程，可以通过计算机程序来指令相关的硬件来完成，所述的程序可存储于计算机可读存储介质中。其中，所述计算机可读存储介质为磁盘、光盘、只读存储记忆体或随机存储记忆体等。

以上所述，仅为本发明较佳的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到的变化或替换，都应涵盖在本发明的保护范围之内。

Claims

1.一种飞行器仿真模型并行计算系统，其特征在于，包括N个计算服务节点、N个计算服务节点间的通信网络及安装在各计算服务节点上的并行计算软件；

所述RMDA光纤通讯网卡，用于构建所述N个计算服务节点间通信网络，并通过上述通信网络对飞行器仿真模型间进行数据分发；

仿真试验开始时，第一计算服务节点运行所述并行计算软件的主控端，通过飞行器协同工作流程配置文件设置参战节点的飞行器仿真模型的名称和参战节点个数；所述参战节点个数为参与仿真的模型实例的个数；

2.根据权利要求1所述的系统，其特征在于，参战节点的飞行器仿真模型运行时，各计算服务节点上运行并行计算软件的节点终端在GPU的SP计算核上并发运行模型实例，每个SP计算核心运行一个模型实例，并以配置的周期输出数据；

3.根据权利要求1或2所述的系统，其特征在于，所述第一计算服务节点上运行并行计算软件的主控端，包括：

4.根据权利要求1或2所述的系统，其特征在于，所述其余N-1个计算服务节点的GPU上分别运行并行计算软件的节点终端，包括以下步骤：

5.一种飞行器仿真模型并行计算方法，其特征在于，包括以下步骤：

基于所述并行计算软件并通过各计算服务节点的GPU为设置为参战节点的飞行器仿真模型提供并行解算；

6.根据权利要求5所述的方法，其特征在于，参战节点仿真模型运行时，各计算服务节点上运行并行计算软件的节点终端在GPU的SP计算核上并发运行模型实例，每个SP计算核心运行一个模型实例，并以配置的周期输出数据；

7.根据权利要求5或6所述的方法，其特征在于，所述第一计算服务节点上运行并行计算软件的主控端，包括：

8.根据权利要求5或6所述的方法，其特征在于，所述其余N-1个计算服务节点的GPU上分别运行并行计算软件的节点终端，包括以下步骤：