CN112395736B

CN112395736B - 一种分布交互仿真系统的并行仿真作业调度方法

Info

Publication number: CN112395736B
Application number: CN202011071818.4A
Authority: CN
Inventors: 林廷宇; 郭丽琴; 贾政轩; 施国强; 肖莹莹; 曾犇
Original assignee: Beijing Simulation Center
Current assignee: Beijing Simulation Center
Priority date: 2020-10-09
Filing date: 2020-10-09
Publication date: 2023-07-07
Anticipated expiration: 2040-10-09
Also published as: CN112395736A

Abstract

本发明一个实施例公开一种分布交互仿真系统的并行仿真作业调度方法，包括：S10、将系统的仿真程序和依赖库部署到高性能集群，注册系统为能提交的作业应用模板；S20、将系统的输入文件上传到输入读取路径，确定每个组成仿真程序的输入文件，并解析输入参数；S30、为每个组成仿真程序分配仿真节点，并确保都分配到仿真节点；S40、加载各组成仿真程序的输入参数，并运行启动脚本，启动成功则成功启动运行所述系统实例；S50、支持外部程序或用户页面与所述系统实例的指定组成仿真程序进行接口调用交互或图形界面交互，支持在仿真过程中给外部输入指令或反馈内部仿真状态；S60、发送分布交互仿真停止命令，或等待分布交互仿真结束。

Description

一种分布交互仿真系统的并行仿真作业调度方法

技术领域

本发明涉及并行仿真作业调度方法领域，更具体地，涉及一种分布交互仿真系统的并行仿真作业调度方法、计算机设备和可读存储介质。

背景技术

当前，随着基于模型系统工程、赛博物理融合系统、大数据人工智能等技术在产品全生命周期活动中应用的不断深入及其对仿真互操作要求的不断增加，仿真的开发大大突破了传统的局域网范围向全球的互联网范围延伸，仿真的部署突破了传统的单一桌面模式向各类异构终端模式扩展，仿真的运行突破了传统的离线小规模验证向按需随时在线大规模分析发展。

分布交互仿真系统因其能够实现不同专业仿真模型及求解器的互联、互通和互操作，将能够有效整合来自不同地域、不同主体的团队协作实现仿真系统的开发。同时，因为不同专业各司其职，仿真系统能够更逼真地反映对应的产品的真实功能、性能和构造。然而，分布交互仿真系统存在的问题是，通常和分布的(异构)终端紧密绑定，基本上只能串行地进行仿真，无法开展大规模仿真分析。

并行仿真是专门为了开展大规模仿真分析而设计的技术，能够将一个仿真程序分解到包含多个处理器的计算机系统上并行执行。但是，并行仿真和分布交互仿真还是有很大不同，如表1所示，从计算平台体系结构上讲，并行仿真使用的并行计算机多为紧耦合类型，而分布交互仿真使用的计算环境多为松耦合型；从计算模型上讲，并行仿真多采用SPMD(单程序多数据，Single Program Multi Data)模式，每个处理器上执行相同的程序，而分布交互仿真更加注重不同仿真模型之间的互操作性以及协同完成仿真计算的能力，运行在每个计算平台上的仿真程序并不相同。目前，并行仿真框架还不能支持对分布交互仿真进行调度。

表1并行仿真与分布式仿真的对比

现有的并行仿真技术的发展也在考虑作业级并行、模型级并行和算法级并行等多级并行，但是因为分布交互仿真系统存在异构性，并不能支持对分布交互仿真系统进行并行调度。分布交互仿真系统存在的异构性包括仿真程序(含模型、求解器)的不同、依赖的软件环境(主要是依赖库、环境变量和操作系统等)的不同以及依赖的硬件环境(主要是CPU/GPU、内存、网络等)的不同，目前的并行仿真引擎不能够动态实现这些方面的资源分配、环境配置和程序调度。

另外，目前的并行仿真主要在高性能集群中执行，但是目前高性能集群中的调度手段也都不能支持对分布交互仿真系统进行并行调度。面向并行仿真的分布交互仿真系统调度属于作业级并行，目前的作业调度软件(如PBS、LFS等)只能支持单仿真软件的作业调度(包括在多计算节点上的同构程序并行求解)和图形交互，也不能面向分布交互仿真系统进行资源分配、环境配置和程序调度。

发明内容

为了解决上述问题中的至少一个，本发明第一方面提供一种分布交互仿真系统的并行仿真作业调度方法，包括：

S10、将分布交互仿真系统的仿真程序和依赖库部署到高性能集群，注册所述分布交互仿真系统为能提交的作业应用模板；

S20、将所述分布交互仿真系统的输入文件上传到所述高性能集群中的共享存储下的输入读取路径，根据注册时作业应用描述文件中的配置确定分布交互仿真系统的每个组成仿真程序的输入文件，并解析所需要的输入参数；

S30、在已部署分布交互仿真系统的高性能集群并且能够运行分布交互仿真系统的资源集合上为每个组成仿真程序分别分配仿真节点，并确保每个组成仿真程序都分配到仿真节点，若没有将每个组成仿真程序都分配到仿真节点，则进行重新分配，不能重新分配成功，则反馈分配异常，重新排队分配或退出作业，其中

分配的仿真节点是每个组成仿真程序将它们各自的资源子集作为候选节点进行分配的；

S40、根据注册时作业应用描述文件对启动顺序的描述，加载各组成仿真程序的输入参数，并运行各组成仿真程序的启动脚本，都启动成功则成功启动运行分布交互仿真系统实例，若没有都启动成功，则进行重新启动，不能重新启动成功，则反馈启动异常，退出作业；

S50、支持外部程序或者用户页面与所述分布交互仿真系统实例的指定组成仿真程序进行接口调用交互或者图形界面交互，支持在仿真过程中给入外部输入指令或者反馈内部仿真状态；

S60、发送分布交互仿真停止命令，或者等待分布交互仿真结束。

在一个具体实施例中，所述S10还包括：

S100、根据遍历分布交互仿真系统各组成仿真程序，根据其所依赖的运行环境，选择高性能集群中适合的节点构成资源子集，并在资源子集相应的节点上配置该仿真程序的环境变量和安装分布交互仿真中间件；

S105、注册作业应用时添加作业应用描述文件，包括分布交互仿真系统各组成仿真程序输入输出文件的文件夹结构、各组成仿真程序启动顺序的说明以及各组成仿真程序的安装路径、启动脚本和输入参数的名称和格式。

在一个具体实施例中，所述S20还包括：

给每个分布交互仿真系统运行实例对应的分布交互仿真作业建立一个文件夹；在所述文件夹下，给分布交互仿真系统的每个组成仿真程序建立一个子文件夹。

在一个具体实施例中，所述S30还包括：

对分布交互仿真系统的每个组成仿真程序所在的资源子集进行分配。

在一个具体实施例中，所述S50还包括：

通过分布交互仿真系统实例的监控功能，获取到指定作业的指定仿真程序的IP地址信息，根据所述IP地址信息与分布交互仿真系统实例的指定组成仿真程序进行交互。

在一个具体实施例中，所述S60之后还包括S70：

S700、通过约定路径，获取仿真结果数据文件；

S705、自动释放所分配的各资源子集中的仿真节点；

S710、能注销所注册的作业应用信息，并删除对分布交互仿真系统的部署。

本发明第二方面提供一种计算机设备，包括：

一个或多个处理器；

存储装置，用于存储一个或多个程序；

当所述一个或多个程序被所述一个或多个处理器执行，使得所述一个或多个处理器实现如本发明第一方面的方法。

本发明第三方面提供一种非易失性计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现如本发明第一方面的方法。

本发明的有益效果如下：

本发明通过改进现有高性能集群的调度手段，使其能够针对分布交互仿真系统存在的多个方面的异构性，将分布交互仿真系统调度到高性能集群上进行并行仿真，一方面能够实现不同团队协作开发的分布交互仿真系统直接调度到高性能集群，既方便又不损失仿真的逼真性；另一方面实现了基于分布交互仿真系统的大规模仿真分析，可用于基于模型系统工程的统计仿真验证、赛博物理融合系统的决策生成以及大数据人工智能的强化学习训练。

附图说明

下面结合附图对本发明的具体实施方式作进一步详细的说明。

图1示出本发明的一个实施例的分布交互仿真系统的并行仿真作业调度方法的流程图。

图2示出本发明的一个实施例的实施本发明的作业调度方法的计算机设备的结构示意图。

具体实施方式

为了更清楚地说明本发明，下面结合优选实施例和附图对本发明做进一步的说明。附图中相似的部件以相同的附图标记进行表示。本领域技术人员应当理解，下面所具体描述的内容是说明性的而非限制性的，不应以此限制本发明的保护范围。

实施例一

如图1所示，本发明的一个实施例提供了一种分布交互仿真系统的并行仿真作业调度方法，包括：

S10、将分布交互仿真系统的仿真程序和依赖库部署到高性能集群，注册所述分布交互仿真系统为能提交的作业应用模板。

在一个具体实施例中，所述S10还包括：

S100、根据遍历分布交互仿真系统各组成仿真程序，根据其所依赖的运行环境，选择高性能集群中适合的节点构成资源子集，并在资源子集相应的节点上配置该仿真程序的环境变量和安装分布交互仿真中间件。

S105注册作业应用时添加作业应用描述文件，包括分布交互仿真系统各组成仿真程序输入输出文件的文件夹结构、各组成仿真程序启动顺序的说明以及各组成仿真程序的安装路径、启动脚本和输入参数的名称和格式。

S20、将所述分布交互仿真系统的输入文件上传到所述高性能集群中的共享存储下的输入读取路径，根据注册时作业应用描述文件中的配置确定分布交互仿真系统的每个组成仿真程序的输入文件，并解析所需要的输入参数。

在一个具体实施例中，所述S20还包括：

在一个具体实施例中，分布交互仿真系统的输入文件可以约定通过高性能集群中的共享存储下的输入读取路径方式实现输入上传，也可以约定通过数据库等方式实现输入上传，每个分布交互仿真作业对应一个分布交互仿真系统运行实例，也就可能对应一组不同的输入文件，给每个分布交互仿真作业都建立一个文件夹；同时在该文件夹之下，为分布交互仿真系统的每一个组成的仿真程序都建立一个子文件夹。文件夹构成如下：

-------作业1文件夹

-----------仿真程序1输入文件夹

-----------仿真程序2输入文件夹

-----------仿真程序n输入文件夹

-------作业2文件夹

-----------仿真程序1输入文件夹

-----------仿真程序2输入文件夹

-----------仿真程序n输入文件夹

-------作业m文件夹

-----------仿真程序1输入文件夹

-----------仿真程序2输入文件夹

-----------仿真程序n输入文件夹，其中，m和n为自然数。

建好文件夹后，根据注册时作业应用描述文件中登记的分布交互仿真系统的每一个组成的仿真程序的安装路径、启动脚本和需要输入的所有参数的名称和格式，确定输入文件夹中的文件内容。

分配的仿真节点是每个组成仿真程序将它们各自的资源子集作为候选节点进行分配的。

在一个具体实施例中，如果已部署分布交互仿真系统的高性能集群并且能够运行分布交互仿真系统的资源集合不能为每个组成仿真程序都分配到仿真节点，则进行重新分配，不能重新分配成功，则反馈分配异常，重新排队分配或退出作业。

在一个具体实施例中，所述S30还包括：

在一个具体实施例中，对分布交互仿真系统的每一个组成的仿真程序所在的资源子集进行分配，如有的在CPU节点子集上，有的在GPU节点子集上，还有的在图站节点子集上；应确保分布交互仿真系统的各个组成的仿真程序同时分配到仿真节点。

S40、根据注册时作业应用描述文件对启动顺序的描述，加载各组成仿真程序的输入参数，并运行各组成仿真程序的启动脚本，都启动成功则成功启动运行分布交互仿真系统实例，若没有都启动成功，则进行重新启动，不能重新启动成功，则反馈启动异常，退出作业。

在一个具体实施例中，根据注册时作业应用描述文件中登记的分布交互仿真系统的每一个组成的仿真程序的安装路径、启动脚本以及需要输入的所有参数的名称和格式等信息，启动分布交互仿真系统实例，若都启动成功则成功启动运行分布交互仿真系统实例，若没有都启动成功，则进行重新启动，不能重新启动成功，则反馈启动异常，退出作业。

S50、支持外部程序或者用户页面与所述分布交互仿真系统实例的指定组成仿真程序进行接口调用交互或者图形界面交互，支持在仿真过程中给入外部输入指令或者反馈内部仿真状态。

在一个具体实施例中，通过分布交互仿真系统实例的监控功能，获取到指定作业的指定仿真程序的IP地址信息，根据所述IP地址信息与分布交互仿真系统实例的指定仿真程序进行交互，具体交互内容包括：图形界面交互和接口调用交互等，凡是能够获取到指定作业的指定仿真程序的IP地址信息的都可以根据该信息与分布交互仿真系统实例的指定仿真程序进行交互，本发明对此不作限定，这一过程支持在仿真过程中提供外部输入或者获取内部状态。

在一个具体实施例中，所述S60之后还包括S70：

S700、通过约定路径，获取仿真结果数据文件。

在一个具体实施例中，在高性能集群上将仿真程序运行起来并结束后，将仿真结果取回分布交互仿真系统。

S705、自动释放所分配的各资源子集中的仿真节点。

本发明针对目前现有的问题，提供一种分布交互仿真系统的并行仿真作业调度方法，通过改进现有高性能集群的调度手段，使其能够针对分布交互仿真系统存在的多个方面的异构性，将分布交互仿真系统调度到高性能集群上进行并行仿真，一方面能够实现不同团队协作开发的分布交互仿真系统直接调度到高性能集群，既方便又不损失仿真的逼真性；另一方面实现了基于分布交互仿真系统的大规模仿真分析，可用于基于模型系统工程的统计仿真验证、赛博物理融合系统的决策生成以及大数据人工智能的强化学习训练。

实施例二

如图2所示，本发明的一个实施例提供了一种计算机设备的结构示意图，图2显示的计算机设备12仅仅是一个示例，不应对本发明实施例的功能和使用范围带来任何限制。

如图2所示，计算机设备12以通用计算设备的形式表现。计算机设备12的组件可以包括但不限于：一个或者多个处理器或者处理单元16，系统存储器28，连接不同系统组件(包括系统存储器28和处理单元16)的总线18。

总线18表示几类总线结构中的一种或多种，包括存储器总线或者存储器控制器，外围总线，图形加速端口，处理器或者使用多种总线结构中的任意总线结构的局域总线。举例来说，这些体系结构包括但不限于工业标准体系结构(ISA)总线，微通道体系结构(MAC)总线，增强型ISA总线、视频电子标准协会(VESA)局域总线以及外围组件互连(PCI)总线。

计算机设备12典型地包括多种计算机系统可读介质。这些介质可以是任何能够被计算机设备12访问的可用介质，包括易失性和非易失性介质，可移动的和不可移动的介质。

系统存储器28可以包括易失性存储器形式的计算机系统可读介质，例如随机存取存储器(RAM)30和/或高速缓存存储器32。计算机设备12可以进一步包括其它可移动/不可移动的、易失性/非易失性计算机系统存储介质。仅作为举例，存储系统34可以用于读写不可移动的、非易失性磁介质(图2未显示，通常称为“硬盘驱动器”)。尽管图2中未示出，可以提供用于对可移动非易失性磁盘(例如“软盘”)读写的磁盘驱动器，以及对可移动非易失性光盘(例如CD-ROM，DVD-ROM或者其它光介质)读写的光盘驱动器。在这些情况下，每个驱动器可以通过一个或者多个数据介质接口与总线18相连。存储器28可以包括至少一个程序产品，该程序产品具有一组(例如至少一个)程序模块，这些程序模块被配置以执行本发明各实施例的功能。

具有一组(至少一个)程序模块42的程序/实用工具40，可以存储在例如存储器28中，这样的程序模块42包括但不限于操作系统、一个或者多个应用程序、其它程序模块以及程序数据，这些示例中的每一个或某种组合中可能包括网络环境的实现。程序模块42通常执行本发明所描述的实施例中的功能和/或方法。

计算机设备12也可以与一个或多个外部设备14(例如键盘、指向设备、显示器24等)通信，还可与一个或者多个使得用户能与该计算机设备12交互的设备通信，和/或与使得该计算机设备12能与一个或多个其它计算设备进行通信的任何设备(例如网卡，调制解调器等等)通信。这种通信可以通过输入/输出(I/O)接口22进行。并且，计算机设备12还可以通过网络适配器20与一个或者多个网络(例如局域网(LAN)，广域网(WAN)和/或公共网络，例如因特网)通信。如图2所示，网络适配器20通过总线18与计算机设备12的其它模块通信。应当明白，尽管图2中未示出，可以结合计算机设备12使用其它硬件和/或软件模块，包括但不限于：微代码、设备驱动器、冗余处理单元、外部磁盘驱动阵列、RAID系统、磁带驱动器以及数据备份存储系统等。

处理器单元16通过运行存储在系统存储器28中的程序，从而执行各种功能应用以及数据处理，例如实现本发明实施例一所提供的方法。

本发明针对目前现有的问题，提供一种计算机设备，通过改进现有高性能集群的调度手段，使其能够针对分布交互仿真系统存在的多个方面的异构性，将分布交互仿真系统调度到高性能集群上进行并行仿真，一方面能够实现不同团队协作开发的分布交互仿真系统直接调度到高性能集群，既方便又不损失仿真的逼真性；另一方面实现了基于分布交互仿真系统的大规模仿真分析，可用于基于模型系统工程的统计仿真验证、赛博物理融合系统的决策生成以及大数据人工智能的强化学习训练。

实施例三

本发明的另一个实施例提供了一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现如上述实施例一所提供的方法。

在实际应用中，所述计算机可读存储介质可以采用一个或多个计算机可读的介质的任意组合。计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质。计算机可读存储介质例如可以是但不限于电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。计算机可读存储介质的更具体的例子(非穷举的列表)包括：具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本实施例中，计算机可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。

计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式，包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质，该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。

计算机可读介质上包含的程序代码可以用任何适当的介质传输，包括但不限于无线、电线、光缆、RF等等，或者上述的任意合适的组合。

可以以一种或多种程序设计语言或其组合来编写用于执行本发明操作的计算机程序代码，所述程序设计语言包括面向对象的程序设计语言—诸如Java、Smalltalk、C++，还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中，远程计算机可以通过任意种类的网络——包括局域网(LAN)或广域网(WAN)—连接到用户计算机，或者，可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。

本发明针对目前现有的问题，提供一种非易失性计算机可读存储介质，通过改进现有高性能集群的调度手段，使其能够针对分布交互仿真系统存在的多个方面的异构性，将分布交互仿真系统调度到高性能集群上进行并行仿真，一方面能够实现不同团队协作开发的分布交互仿真系统直接调度到高性能集群，既方便又不损失仿真的逼真性；另一方面实现了基于分布交互仿真系统的大规模仿真分析，可用于基于模型系统工程的统计仿真验证、赛博物理融合系统的决策生成以及大数据人工智能的强化学习训练。

显然，本发明的上述实施例仅仅是为清楚地说明本发明所作的举例，而并非是对本发明的实施方式的限定，对于所属领域的普通技术人员来说，在上述说明的基础上还可以做出其它不同形式的变化或变动，这里无法对所有的实施方式予以穷举，凡是属于本发明的技术方案所引伸出的显而易见的变化或变动仍处于本发明的保护范围之列。

Claims

1.一种分布交互仿真系统的并行仿真作业调度方法，其特征在于，包括：

2.根据权利要求1所述的方法，其特征在于，所述S10还包括：

3.根据权利要求1所述的方法，其特征在于，所述S20还包括：

4.根据权利要求1所述的方法，其特征在于，所述S30还包括：

5.根据权利要求1所述的方法，其特征在于，所述S50还包括：

6.根据权利要求1所述的方法，其特征在于，所述S60之后还包括S70：

S700、通过约定路径，获取仿真结果数据文件；

S705、自动释放所分配的各资源子集中的仿真节点；

7.一种计算机设备，其特征在于，包括：

一个或多个处理器；

存储装置，用于存储一个或多个程序；

当所述一个或多个程序被所述一个或多个处理器执行，使得所述一个或多个处理器实现如权利要求1-6中任一项所述的方法。

8.一种非易失性计算机可读存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现如权利要求1-6中任一项所述的方法。