CN116560968A

CN116560968A - 一种基于机器学习的仿真计算时间预测方法、系统及设备

Info

Publication number: CN116560968A
Application number: CN202310841155.7A
Authority: CN
Inventors: 郑奕; 白高峰
Original assignee: Beijing Jh Innovation Software Co ltd
Current assignee: Beijing Jh Innovation Software Co ltd
Priority date: 2023-07-11
Filing date: 2023-07-11
Publication date: 2023-08-08

Abstract

本发明提供了一种基于机器学习的仿真计算时间预测方法、系统及设备，涉及计算机仿真时间预测领域。该方法包括：对集群系统的日志或者作业提交的数据库进行监控，收集历史作业执行数据；对所述历史作业执行数据进行预处理，生成预处理后的历史执行数据；将待预测集群系统的作业执行数据输入至利用所述预处理后的历史执行数据训练的仿真时间预测模型中，预测仿真计算时间。本发明能够快速准确地预测出仿真计算时间，提高仿真作业的整体调度效率。

Description

一种基于机器学习的仿真计算时间预测方法、系统及设备

技术领域

本发明涉及计算机仿真时间预测领域，特别是涉及一种基于机器学习的仿真计算时间预测方法、系统及设备。

背景技术

近年来，仿真技术在工业和科学计算中得到了广泛的应用。仿真计算通过数值模拟的方式，可以对各种复杂的物理、化学、流体力学等问题进行建模和分析，以便在实际应用中优化设计方案，提高产品质量和生产效率，降低成本和风险等。仿真计算已经成为了工程设计、制造和生产等领域中不可或缺的工具。

传统的作业提交流程是用户将作业提交至计算集群，然后集群进行调度，分配计算资源并执行作业。由于集群中有许多用户的作业在等待执行，且计算集群资源的有限性，作业提交的数量和规模可能会导致集群资源紧张，传统的调度方式可能会出现资源分配不均衡的情况，从而导致一些作业等待的时间过长，造成资源浪费。

然而，对于大规模的仿真计算问题，计算时间通常会非常长，而且难以精确预测。这不仅会浪费大量计算资源，还会给工程师和科学家带来不必要的等待和不确定性。因此，提高仿真计算的预测的准确性，对于推动工业和科学计算的发展具有重要的意义。

发明内容

本发明的目的是提供一种基于机器学习的仿真计算时间预测方法、系统及设备，以解决仿真计算时间难以精确预测的问题。

为实现上述目的，本发明提供了如下方案：

一种基于机器学习的仿真计算时间预测方法，包括：

对集群系统的日志或者作业提交的数据库进行监控，收集历史作业执行数据；所述历史作业执行数据包括作业的提交时间、作业的运行时间以及仿真数据；所述仿真数据为日志文件和结果文件，所述仿真数据包括CFD的网格数据、仿真算法类别数据、材料属性以及时间步；

对所述历史作业执行数据进行预处理，生成预处理后的历史执行数据；

将待预测集群系统的作业执行数据输入至利用所述预处理后的历史执行数据训练的仿真时间预测模型中，预测仿真计算时间。

可选的，对所述历史作业执行数据进行预处理，生成预处理后的历史执行数据，具体包括：

对所述历史作业执行数据进行异常数据和缺失值处理，生成异常处理后的作业执行数据；

对所述异常处理后的作业执行数据进行归一化和标准化处理，生成预处理后的历史执行数据。

可选的，所述仿真时间预测模型为：

其中，为仿真计算时间；/>（/>）为通过机器学习算法学习得到的仿真时间预测模型；/>为仿真数据；/>为集群数据。

可选的，所述仿真时间预测模型的损失函数为：

其中，j为所述仿真时间预测模型的叶子节点；为叶子节点j所包含样本的一阶偏导累加之和；/>为叶子节点j所包含样本的二阶偏导累加之和；/>为叶子节点j的权重；/>为叶子节点的个数；/>为第一超参数；γ为第二超参数。

可选的，将待预测集群系统的作业执行数据输入至利用所述预处理后的历史执行数据训练的仿真时间预测模型中，预测仿真计算时间，之后还包括：

获取所述待预测集群系统的实际运行时间；

对比所述实际运行时间以及所述仿真计算时间，得到对比结果；

若所述对比结果在设定误差范围内，保留所述仿真时间预测模型；

若所述对比结果未在设定误差范围内，在原有的历史作业执行数据基础上，重新获取历史作业执行数据，优化所述仿真时间预测模型。

一种基于机器学习的仿真计算时间预测系统，包括：

历史作业执行数据收集模块，用于对集群系统的日志或者作业提交的数据库进行监控，收集历史作业执行数据；所述历史作业执行数据包括作业的提交时间、作业的运行时间以及仿真数据；所述仿真数据为日志文件和结果文件，所述仿真数据包括CFD的网格数据、仿真算法类别数据、材料属性以及时间步；

预处理模块，用于对所述历史作业执行数据进行预处理，生成预处理后的历史执行数据；

仿真计算时间预测模块，用于将待预测集群系统的作业执行数据输入至利用所述预处理后的历史执行数据训练的仿真时间预测模型中，预测仿真计算时间。

可选的，所述预处理模块，具体包括：

异常处理单元，用于对所述历史作业执行数据进行异常数据和缺失值处理，生成异常处理后的作业执行数据；

归一化处理单元，用于对所述异常处理后的作业执行数据进行归一化和标准化处理，生成预处理后的历史执行数据。

可选的，所述仿真时间预测模型为：

一种电子设备，包括存储器及处理器，所述存储器用于存储计算机程序，所述处理器运行所述计算机程序以使所述电子设备执行上述所述的基于机器学习的仿真计算时间预测方法。

一种计算机可读存储介质，其存储有计算机程序，所述计算机程序被处理器执行时实现上述所述的基于机器学习的仿真计算时间预测方法。

根据本发明提供的具体实施例，本发明公开了以下技术效果：本发明提供了一种基于机器学习的仿真计算时间预测方法、系统及设备，对集群系统的日志或作业提交的数据库进行监控，收集历史作业执行数据，基于历史作业执行数据建立的仿真时间预测模型快速准确地预测出仿真计算时间，从而帮助工程师和科学家更好地管理计算资源，提高仿真作业的整体调度效率。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为本发明所提供的基于机器学习的仿真计算时间预测方法流程图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明的目的是提供一种基于机器学习的仿真计算时间预测方法、系统及设备，快速准确地预测出仿真计算时间，提高仿真作业的整体调度效率。

为使本发明的上述目的、特征和优点能够更加明显易懂，下面结合附图和具体实施方式对本发明作进一步详细的说明。

以在Fluent中进行稳态流体仿真为例，如图1所示，本发明提供了一种基于机器学习的仿真计算时间预测方法，包括：

步骤101：对集群系统的日志或者作业提交的数据库进行监控，收集历史作业执行数据；所述历史作业执行数据包括作业的提交时间、作业的运行时间以及仿真数据；所述仿真数据为日志文件和结果文件，所述仿真数据包括CFD的网格数据、仿真算法类别数据、材料属性以及时间步。

其中，计算流体力学（Computational Fluid Dynamics，CFD）的网格数据中包含节点个数、单元个数以及单元类型等；仿真算法类别数据在本实施例中指仿真程序运行时使用的仿真算法类别与对应的参数，例如使用的是有限体积法、k-epsilon算法等；材料属性在本实施例中指流体的属性，例如粘性以及温度等；时间步为仿真时指定的求解步数，如果设定了提前收敛条件，也可以提取出来。

将预测得到的仿真求解时长（即仿真计算时间）作为时间数据，将作业在执行时使用了多少核CPU资源作为集群数据，时间数据和集群数据可以统称为作业数据。

在提取作业数据的过程中，仿真数据的存放基本都以可读格式、压缩格式或二进制私有格式进行存储。具体的提取方法对于不同的软件可能不同，但基本分为三种，对于文本数据可以直接通过字符串过滤进行提取；对于压缩格式则需要根据官方文档了解压缩算法，解压后进行提取，对于私有格式可以使用官方的api进行提取；对于本实施例中的Fluent软件，仿真数据均以可读方式存储，因此可以直接提取。

尽管Fluent软件的不同版本和计算平台可能有差异，但是具体的仿真数据提取方式并没有太大差别。时间数据和集群数据一般都直接记录在集群数据库中，可以直接使用。对以上这些作业数据的收集和提取，建立一个详细的作业数据集，用于后续的数据处理和仿真时间预测模型的训练。

步骤102：对所述历史作业执行数据进行预处理，生成预处理后的历史执行数据。

在实际应用中，在数据预处理过程中，可以针对历史作业数据中存在的异常数据和缺失值进行处理，例如数据收集阶段如对仿真求解失败或中断的数据进行了收集，则需要根据集群中的数据库记录或者仿真软件自身日志等对这些数据进行排除。

下一步，根据需要对作业数据进行归一化和标准化处理，以便更好地进行后续的数据分析和建模。最后还需要将处理好的作业数据集划分为训练集、验证集和测试集，以便在训练和调整模型参数时使用验证集来验证模型的准确性，最终使用测试集来测试模型的泛化能力。

步骤103：将待预测集群系统的作业执行数据输入至利用所述预处理后的历史执行数据训练的仿真时间预测模型中，预测仿真计算时间。

在实际应用中，因为本发明的目的是对仿真的时间进行预测，所以模型的输出是以上提到的时间数据。模型的输入特征为仿真数据和集群数据。

使用S_i表示仿真数据，H_i表示集群数据，使用 _i表示预测得到的时间数据，/>（/>）为通过机器学习算法学习到的仿真时间预测模型。

。

t_i表示真实的时间数据，i为样本编号，表示的是n个样本里的每个独立的样本，样本数为n时损失函数可以写为：

为了最小化损失函数值，使用的是XGBoost算法对仿真时间预测模型进行训练，本质上其他合适的机器学习算法均可。

XGBoost是一种基于GBDT的集成学习算法，它是通过多个弱分类器的组合来构建一个强分类器。XGBoost的核心思想是，在每一次迭代中，添加一个新的弱分类器来纠正已有模型的误差，从而逐步逼近真实结果。

因此损失函数变换为如下形式：

其中：为叶子节点j所包含样本的一阶偏导累加之和，是一个常数；/>为叶子节点j所包含样本的二阶偏导累加之和，是一个常数；/>为叶子节点的权重；/>为叶子节点的个数；/>与γ为与模型复杂度相关的超参数，其中，/>为第一超参数，γ为第二超参数。

训练过程中可以使用交叉验证来评估模型的性能与表现，包括均方差等指标。在评估完模型性能之后，可以根据模型的表现对模型的参数进行调整和优化，进一步提高模型的精度和泛化能力。

在实际应用中，步骤103之后还包括：获取所述待预测集群系统的实际运行时间；对比所述实际运行时间以及所述仿真计算时间，得到对比结果；若所述对比结果在设定误差范围内，保留所述仿真时间预测模型；若所述对比结果未在设定误差范围内，在原有的历史作业执行数据基础上，重新获取历史作业执行数据，优化所述仿真时间预测模型。

在预测仿真时间时，首先需要从工程师提交到集群的工况文件中提取数据，然后将新的数据按照在训练集上使用的方法进行预处理，包括数据清洗和缺失值处理等。

将处理好的仿真数据与集群数据等输入到训练好的XGBoost模型中；利用训练好的仿真时间预测模型进行预测，得到预测结果（即为仿真计算时间）；使用预测结果与仿真作业的实际运行时间做对比，如果仿真时间预测模型对新的仿真作业的预测准确率降低，则需要收集更多的数据对仿真时间预测模型进行训练并调整参数，以提升仿真时间预测模型的性能，从而达到对仿真时间预测模型的不断优化。

本发明通过对仿真计算时间进行预测，使得用户能够提前知晓自己的作业所需要的时间，从而更好地安排作业提交的时间，避免在集群资源紧张的情况下提交过多的作业，同时避免等待时间过长。

本发明采用人工智能技术，可以预测每个作业的求解时间（即仿真计算时间），从而使得集群能够更加合理地调度资源，优化计算资源的利用效率，提高集群调度作业的效率。

实施例二

为了执行上述实施例一对应的方法，以实现相应的功能和技术效果，下面提供一种基于机器学习的仿真计算时间预测系统。

一种基于机器学习的仿真计算时间预测系统，包括：

历史作业执行数据收集模块，用于对集群系统的日志或者作业提交的数据库进行监控，收集历史作业执行数据；所述历史作业执行数据包括作业的提交时间、作业的运行时间以及仿真数据；所述仿真数据为日志文件和结果文件，所述仿真数据包括CFD的网格数据、仿真算法类别数据、材料属性以及时间步。

预处理模块，用于对所述历史作业执行数据进行预处理，生成预处理后的历史执行数据。

在实际应用中，所述预处理模块，具体包括：

异常处理单元，用于对所述历史作业执行数据进行异常数据和缺失值处理，生成异常处理后的作业执行数据；归一化处理单元，用于对所述异常处理后的作业执行数据进行归一化和标准化处理，生成预处理后的历史执行数据。

在实际应用中，所述仿真时间预测模型为：；其中，/>为仿真计算时间；/>（/>）为通过机器学习算法学习得到的仿真时间预测模型；/>为仿真数据；/>为集群数据。

实施例三

本发明实施例提供一种电子设备包括存储器及处理器，该存储器用于存储计算机程序，该处理器运行计算机程序以使电子设备执行实施例一提供的基于机器学习的仿真计算时间预测方法。

在实际应用中，上述电子设备可以是服务器。

在实际应用中，电子设备包括：至少一个处理器（processor）、存储器（memory）、总线及通信接口（Communications Interface）。

其中：处理器、通信接口、以及存储器通过通信总线完成相互间的通信。

通信接口，用于与其它设备进行通信。

处理器，用于执行程序，具体可以执行上述实施例所述的方法。

具体地，程序可以包括程序代码，该程序代码包括计算机操作指令。

处理器可能是中央处理器CPU，或者是特定集成电路ASIC（Application SpecificIntegrated Circuit），或者是被配置成实施本发明实施例的一个或多个集成电路。电子设备包括的一个或多个处理器，可以是同一类型的处理器，如一个或多个CPU；也可以是不同类型的处理器，如一个或多个CPU以及一个或多个ASIC。

存储器，用于存放程序。存储器可能包含高速RAM存储器，也可能还包括非易失性存储器（non-volatile memory），例如至少一个磁盘存储器。

基于以上实施例的描述，本申请实施例提供一种存储介质，其上存储有计算机程序指令，计算机程序指令可被处理器执行以实现任意实施例所述的方法

本申请实施例提供的基于机器学习的仿真计算时间预测系统以多种形式存在，包括但不限于：

（1）移动通信设备：这类设备的特点是具备移动通信功能，并且以提供语音、数据通信为主要目标。这类终端包括：智能手机（例如iPhone）、多媒体手机、功能性手机，以及低端手机等。

（2）超移动个人计算机设备：这类设备属于个人计算机的范畴，有计算和处理功能，一般也具备移动上网性能。这类终端包括：PDA、MID和UMPC设备等，例如iPad。

（3）便携式娱乐设备：这类设备可以显示和播放多媒体内容。该类设备包括：音频、视频播放器（例如iPod），掌上游戏机，电子书，以及智能玩具和便携式车载导航设备。

（4）其他具有数据交互功能的电子设备。

至此，已经对本主题的特定实施例进行了描述。其它实施例在所附权利要求书的范围内。在一些情况下，在权利要求书中记载的动作可以按照不同的顺序来执行并且仍然可以实现期望的结果。另外，在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序，以实现期望的结果。在某些实施方式中，多任务处理和并行处理可以是有利的。

上述实施例阐明的系统、装置、模块或单元，具体可以由计算机芯片或实体实现，或者由具有某种功能的产品来实现。一种典型的实现设备为计算机。具体的，计算机例如可以为个人计算机、膝上型计算机、蜂窝电话、相机电话、智能电话、个人数字助理、媒体播放器、导航设备、电子邮件设备、游戏控制台、平板计算机、可穿戴设备或者这些设备中的任何设备的组合。

为了描述的方便，描述以上装置时以功能分为各种单元分别描述。当然，在实施本申请时可以把各单元的功能在同一个或多个软件和/或硬件中实现。本领域内的技术人员应明白，本申请的实施例可提供为方法、系统或计算机程序产品。因此，本申请可采用完全硬件实施例、完全软件实施例或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质（包括但不限于磁盘存储器、CD-ROM、光学存储器等）上实施的计算机程序产品的形式。

本申请是参照根据本申请实施例的方法、设备（系统）和计算机程序产品的流程图和／或方框图来描述的。应理解可由计算机程序指令实现流程图和／或方框图中的每一流程和／或方框、以及流程图和／或方框图中的流程和／或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和／或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和／或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和／或方框图一个方框或多个方框中指定的功能的步骤。

在一个典型的配置中，计算设备包括一个或多个处理器（CPU）、输入/输出接口、网络接口和内存。

内存可能包括计算机可读介质中的非永久性存储器，随机存取存储器（RAM）和/或非易失性内存等形式，如只读存储器（ROM）或闪存（flash RAM）。内存是计算机可读介质的示例。

计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括，但不限于相变内存（PRAM）、静态随机存取存储器（SRAM）、动态随机存取存储器（DRAM）、其他类型的随机存取存储器（RAM）、只读存储器（ROM）、电可擦除可编程只读存储器（EEPROM）、快闪记忆体或其他内存技术、只读光盘只读存储器（CD-ROM）、

数字多功能光盘（DVD）或其他光学存储、磁盒式磁带，磁带、磁盘存储或其他磁性存储设备

或任何其他非传输介质，可用于存储可以被计算设备访问的信息。按照本文中的界定，计算机可读介质不包括暂存电脑可读媒体（transitory media），如调制的数据信号和载波。

还需要说明的是，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、商品或者设备中还存在另外的相同要素。

本申请可以在由计算机执行的计算机可执行指令的一般上下文中描述，例如程序模块。一般地，程序模块包括执行特定事务或实现特定抽象数据类型的例程、程序、对象、组件、数据结构等等。也可以在分布式计算环境中实践本申请，在这些分布式计算环境中，由通过通信网络而被连接的远程处理设备来执行事务。在分布式计算环境中，程序模块可以位于包括存储设备在内的本地和远程计算机存储介质中。

本说明书中各个实施例采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似部分互相参见即可。对于实施例公开的系统而言，由于其与实施例公开的方法相对应，所以描述的比较简单，相关之处参见方法部分说明即可。

本文中应用了具体个例对本发明的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本发明的方法及其核心思想；同时，对于本领域的一般技术人员，依据本发明的思想，在具体实施方式及应用范围上均会有改变之处。综上所述，本说明书内容不应理解为对本发明的限制。

Claims

1.一种基于机器学习的仿真计算时间预测方法，其特征在于，包括：

2.根据权利要求1所述的基于机器学习的仿真计算时间预测方法，其特征在于，对所述历史作业执行数据进行预处理，生成预处理后的历史执行数据，具体包括：

3.根据权利要求1所述的基于机器学习的仿真计算时间预测方法，其特征在于，所述仿真时间预测模型为：

4.根据权利要求3所述的基于机器学习的仿真计算时间预测方法，其特征在于，所述仿真时间预测模型的损失函数为：

5.根据权利要求1所述的基于机器学习的仿真计算时间预测方法，其特征在于，将待预测集群系统的作业执行数据输入至利用所述预处理后的历史执行数据训练的仿真时间预测模型中，预测仿真计算时间，之后还包括：

获取所述待预测集群系统的实际运行时间；

6.一种基于机器学习的仿真计算时间预测系统，其特征在于，包括：

7.根据权利要求6所述的基于机器学习的仿真计算时间预测系统，其特征在于，所述预处理模块，具体包括：

8.根据权利要求6所述的基于机器学习的仿真计算时间预测系统，其特征在于，所述仿真时间预测模型为：

9.一种电子设备，其特征在于，包括存储器及处理器，所述存储器用于存储计算机程序，所述处理器运行所述计算机程序以使所述电子设备执行如权利要求1-5中任一项所述的基于机器学习的仿真计算时间预测方法。

10.一种计算机可读存储介质，其特征在于，其存储有计算机程序，所述计算机程序被处理器执行时实现如权利要求1-5中任一项所述的基于机器学习的仿真计算时间预测方法。