CN111754017A

CN111754017A - 一种基于机器学习的ls-dyna计算时间自动预测算法

Info

Publication number: CN111754017A
Application number: CN202010313317.6A
Authority: CN
Inventors: 吴光宇
Original assignee: Huaixi Intelligent Technology Shanghai Co ltd
Current assignee: Huaixi Intelligent Technology Shanghai Co ltd
Priority date: 2020-04-20
Filing date: 2020-04-20
Publication date: 2020-10-09

Abstract

本发明公开了一种基于机器学习的ls‑dyna计算时间自动预测算法，涉及ls‑dyna计算技术领域，包括以下步骤：S1、训练数据的提取：从历史使用数据log中提出样本数据；S2、对工况编码：工况是标准化的，以不同的数字进行不同工况的标记；S3、对壁障、假人编码：根据不同的壁障，假人类型分不同的大类；S4、集群相关的参数控制测试：将计算因素标准化。本发明通过预测ls‑dyna计算集群中作业的计算时间、自动提交等关键技术，并将该技术与主流调度系统结合使用，从而显著降低碎片率、大幅度提高资源利用效率、以及提高使用人员工作效。

Description

一种基于机器学习的ls-dyna计算时间自动预测算法

技术领域

本发明涉及ls-dyna计算技术领域，尤其涉及一种基于机器学习的ls-dyna计算时间自动预测算法。

背景技术

LS-DYNA程序是功能齐全的几何非线性(大位移、大转动和大应变)、材料非线性和接触非线性程序。它以Lagrange算法为主，兼有ALE和Euler算法；以显式求解为主，兼有隐式求解功能；以结构分析为主，兼有热分析、流体、电磁、流体-结构等多物理场耦合功能。

LS-DYNA能够模拟真实世界中的复杂问题。它被广泛应用于汽车、航空航天、电子、船舶、土木工程、制造和生物工程等行业。在全球汽车行业，它已经成为汽车安全仿真的事实上的标准，其计算量(作业数量、消耗的资源)约占企业总体高性能计算资源的60％，高峰期可占满企业所有HPC计算资源，从而影响其他作业的执行。

一、企业高性能计算

企业高性能计算设施，包括相关的基于x86架构、Linux操作系统、高速互联Infiniband、并行高速文件系统等，主要是为CAE仿真工作服务，少数用于机器学习及大数据分析。

以汽车行业为例，仿真主要包括碰撞安全(包括主动、被动安全)、流体、结构、NVH等几大分析领域，其中安全和流体合计占总计算量的80-90％，尤其是安全领域，其作业数量大(如行人保护分析，短时间数10个到数百个计算时间10-15小时，核数16-32核)、运算时间长(如整车安全性分析、各种安全法规和工况组合)等特点。一般而言，汽车整车厂OEM其仿真工作人员规模在200-300人之间，整车安全仿真工作量占比60％。

二、企业高性能计算的困境及分析

企业高性能在中国近15年获得了快速的发展，计算核心从数十核发展到如今的15000核心，投入了巨大的资金，但随着法规的不断增强、企业海外市场的拓展、企业市场竞争的加剧，仿真分析手段不断深入，尤其是DOE、优化、多物理场分析等的兴起(实验设计、多变量设计、多目标优化、多物理场分析、硬件在环分析)，对计算资源的渴求变得越来越大，企业必须投入巨大的资金，来购置、维护庞大的计算设施、昂贵的商业求解器许可证，并通过不断优化内部计算设施的利用率、借用云资源满足尖峰需求等手段来满足最基本的资源需求。其中，商业软件的许可数量与同时计算的核数基本相等、商业许可的周转率，则直接影响所需的采购的最低，这也是企业计算的最大的投入所在。鉴于高性能云计算模式尚未成熟，目前主要以企业内部计算为主要形式。

目前最大的困境体现在：业务的不规律波动和时效性(CAE仿真工作对资源的需求，在产品开发的不同阶段起伏不定，受产品策略、设计方案、制造质量、试验结果等影响)带来对资源的需求的剧烈波动，并直接导致尖峰不够、低谷空闲、总体利用效率底下，投入巨大且需要不断投入的困境。

如图5，企业的计算能力的规划都是周期性的，对业务的需求评估，是在粗略的尖峰需要评估的基础上，进行一定比率折扣得到的。其最终结果是，尖峰不够、低谷空闲；买的越多，浪费越多。

解决以上的困境，企业有诸多技术及非技术手段。非技术手段包括：使用云资源进行高峰期补充、使用开源求解器降低商业软件许可数量；技术手段主要指，采用智能的调度策略，在不影响业务日程的情况下，灵活调度作业，减少资源碎片，提高已有计算资源尤其是昂贵许可证的利用效率。也就是在利用率和业务优先级之间找到最佳的平衡，既不会因为追求利用率减少碎片延误了重要任务的执行、也不会因为需要确保重要任务的执行而让资源空闲等待。

其中，碎片是指资源在一段时间内的空闲，一般用core*hours来描述，如图6中，白色部分面积即为“碎片”；

碎片形成的原因在于：

作业资源请求的不规整性和静态性，即作业请求的资源，目前的调度系统下，都是一个预定的固定的值，考虑到计算的规模、所需的周转时间、加速比等因素，使用者通常会指定某个固定的核数，根据经验判断，一旦开始计算，所需的时间；如指定核数太少，则可能计算时间超长，影响业务时效性；如果指定核数太多，则可能排队时间太长、加速比不够、或占用许可太多影响其他任务，也不可取。作业资源请求的不规整性，导致资源释放出来后，未必能满足排队作业的需求，即便满足某些作业的资源需求，但又很可能和业务的优先级不匹配。从而导致一个困境，此时要不要运行匹配现有空闲资源的作业。如运行，则可提高资源利用率，降低显示碎片率，但很可能会导致高优先级的作业的启动和完成时间得不到保障，从而破坏了业务的时效性。主流调度系统不运行1个任务请求多个资源数量或一定范围内的资源数量，主要是为了提高调度的效率和响应速度。这点未来可能会得到改善，从而在一定程度上改善作业不规整带来的问题。但下述作业因计算规模、所需资源的差异依然存在。

作业计算时间的不规整性，作业计算规模、请求的资源数量的差异，导致了单个作业或任务计算耗时的不规整性，从而导致资源释放的实际、实际可用资源在时间上的不规整性，这种不规则和排队作业的优先级形成冲突，导致上述运行低优先级作业则可能破坏业务时效性、不运行则可能导致更多碎片的困境。

作业业务优先级/业务时效性的不规整性，CAE业务本身充满动态性，很难预先排程，会出现很多意外或突发需求，同时学科众多，相互间有一定制约、各学科之前应用节点也有差异、不同的任务其要求的最晚交付时间不同，准备完毕可以计算的时间点也不同。因为资源碎片的存在以及消减资源碎片的冲动、由此引发的延迟高优先级作业的可能性、处理低优先级作业为高优先级作业让路在技术(实施断点重启的代价高昂)和管理上的困难(中断已运行作业带来的组织障碍)等，导致确保高优先级任务交付时间是非常困难或代价高昂的事情。

碎片带来的直接影响：碎片在某种意义上不可避免，但可以采取技术手段进行削减，并兼顾业务优先级，提升调度系统对外部业务优先级的响应速度和响应能力。

资源碎片带来的显而易见的直接影响是整体利用率的低下，统计数据表明，企业计算资源闲置率超过30％，有些达到40％，这对企业进一步投资带来巨大的问题。

为了降低碎片率，企业尝试采取回填技术，即允许低优先级作业在碎片上运行。但带回填带来了直接的严重后果是，对高优先级作业启动和交付时间的延迟，这个后果比资源闲置甚至更为不可接受。业界为减轻其影响，尝试的手段主要包括：实施抢占，即让现在正在运行的作业中断运行，或重新排队、或从断点处退出，从而为高优先级作业让路。但重新排队会引起管理上的挑战，并导致资源的浪费，而从断点处退出，则需要应用软件或操作系统层面或第三方中间件的支持，成本、代价和可行性都不高，因此业界采用很少。还有一种手段是，确保回填不影响前N个高优先级作业的TopN回填策略，遗憾的是，因为系统中多数作业无法得知其可能需要的执行时间，导致为保证TopN作业执行优先级和启动时候，不得不阻塞其他无法判断其运行时间的小作业的执行，从而形成很多碎片，甚至在高峰时期出现非常明显的现象，即一方面其他人作业在排队，一方面资源在空闲等待更多资源释以满足高优先级的其他人、其他性能方向的人的作业，这在管理上形成较大的挑战，很难平衡。

最终，碎片回填、抢占调度在企业应用越来越少，业务部门为了确保各高优先级的响应时间，都采取了对有限的资源池进行静态划分(或部分静态划分)、并打开碎片回填的策略。

虽然此举在某种程度上保障了高优先级作业的交付，但对有限资源池做进一步的静态划分，进一步降低了总体资源利用率，即进一步提高了碎片率。同时在划分后的资源池内部可能采取一些不涉及抢占的优先级管理策略，如设置高优先级队列，优先调度此类作业。

由上所述，为此我们设计出了一种基于机器学习的ls-dyna计算时间自动预测算法来解决以上问题。

发明内容

本发明的目的是为了解决现有技术中存在的缺点，而提出的一种基于机器学习的ls-dyna计算时间自动预测算法。

为了实现上述目的，本发明采用了如下技术方案：

一种基于机器学习的ls-dyna计算时间自动预测算法，包括以下步骤：

S1、训练数据的提取：从历史使用数据log中提出样本数据；

S2、对工况编码：工况是标准化的，以不同的数字进行不同工况的标记；

S3、对壁障、假人编码：根据不同的壁障，假人类型分不同的大类；

S4、集群相关的参数控制测试：将计算因素标准化，通过选择某典型的工况A，在不同的硬件平台下计算1-N核的计算所需要的时间，得到核数与计算时间曲线；其中，集群并不是同构的，是由不同时期采购的节点组成；

S5、计算通过python进行估算，利用三维线性规划以及回归的方式进行估计。

优选的，所述步骤S1中提出的样本数据包括：Jobid：作业的批处理id；Cores：作业计算总核数；Walltime：作业实际计算时间；Loadcase：工况编码；Casetime：工况总时长Dt：工况步长；Model_size：模型文件大小。

优选的，所述Walltime：作业实际计算时间为去除无效样本作业数据，如失败退出、运行时取消的时间，所述Casetime：工况总时长的单位为ms，所述工况总时长从solverdeck中读取，所述Model_size：模型文件大小的单位为MB。

优选的，所述步骤S2中的工况编码相当于建立一个integer工况号->string工况名称的map。

优选的，所述步骤S4中的参数与实际平台相关，到一个新的硬件环境与旧的平台有硬件改动时，参考曲线则必须重新测试获得，不具有可移植性，所述硬件改动包括换交换机和换内存/硬盘中的一种或多种。

与现有技术相比，本发明的有益效果是：本发明中，

1、基于多项式回归的机器学习算法，随着集群使用时间增长、训练数据会增加，预测会更加精确，且可以根据预测结果的精度，自我强化学习；

2、基于mapreduce的训练数据提取方法有助于快速持续为算法提供训练数据；

3、由此可能形成的可视化调度、全自动智能提交可彻底改变当前高性能计算资源管理、调度和使用的现有技术框架，有利于高性能计算相关业务流程的排程与调度；

本发明相在不影响业务优先级的情况下，通过预测ls-dyna计算集群中作业的计算时间、自动提交等关键技术，并将该技术与主流调度系统结合使用，从而显著降低碎片率、大幅度提高资源利用效率、以及提高使用人员工作效。

附图说明

图1为本发明提出的一种基于机器学习的ls-dyna计算时间自动预测算法的步骤S1的样本数据图；

图2为本发明提出的一种基于机器学习的ls-dyna计算时间自动预测算法的步骤S2的工况编码图；

图3为本发明提出的一种基于机器学习的ls-dyna计算时间自动预测算法的步骤S3的编码图；

图4为本发明提出的一种基于机器学习的ls-dyna计算时间自动预测算法的步骤S4的参数图；

图5为本发明的背景技术中企业的计算能力的规划图；

图6为本发明的背景技术中的显示碎片面积图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。

本着逐步推进、化繁为简的策略，为实现预测完成时间的技术突破，做以下前期假设：1)假设当前集群所有运行的作业均为ls-dyna作业；2)假设当前集群的硬件配置在一段时间内维持不变且为单一平台；3)假设企业的仿真规范，如模型、分析类型等较为成熟；

实施例一

参照图1-4，一种基于机器学习的ls-dyna计算时间自动预测算法，应用在高性能计算调度系统中，包括以下步骤：

S1、训练数据的提取：从历史使用数据log中提出样本数据；如图1，样本数据包括：Jobid：作业的批处理id；Cores：作业计算总核数；Walltime：作业实际计算时间；Loadcase：工况编码；Casetime：工况总时长Dt：工况步长；Model_size：模型文件大小；

其中，所述Walltime：作业实际计算时间为去除无效样本作业数据，如失败退出、运行时取消的时间，所述Casetime：工况总时长的单位为ms，所述工况总时长从solverdeck中读取，所述Model_size：模型文件大小的单位为MB；

需要说明的是，

以上数据从站点/var/spool/PBS/server_logs/accounting文件夹读取；并需及时读取对应作业之solver deck里的关键字，以便提取casetime、loadcase、dt、model_size等数据。如需提取单元个数，或更多单元信息，则需批处理调用商业前后处理器来计算；

S2、对工况编码：工况是标准化的，以不同的数字进行不同工况的标记；其中，由于工况是标准化的，以不同的数字进行不同工况的标记，相当于建立一个integer(工况号)->string(工况名称)的map,从而可以将字符串操作简化为简单的逻辑操作，并且不失扩展性；如图2，将A_test1工况标为1,A_test2标为2,B_exp_1标为3等；

S3、对壁障、假人编码：如图3，根据不同的壁障，假人类型分不同的大类；

S4、集群相关的参数控制测试：将计算因素标准化，通过选择某典型的工况A，在不同的硬件平台下计算1-N核的计算所需要的时间，得到核数与计算时间曲线；由于这些参数与实际平台相关，所以到一个新的硬件环境，或者旧的平台有硬件改动(如换交换机，换内存/硬盘等)，该参考曲线则必须重新测试获得，不具有可移植性，其中，由于历史原因，集群并不是同构的，而是由不同时期采购的节点组成，由于计算能力依赖非常多的因素，如CPU主频，内存主频，PCI通道，是否高速互联，交换机性能，存储硬盘性能，电力供应等，这应因素无法在该过程中一一考虑，所以我们以抽象的方式对它进行建模，这里借鉴了加速比测试的概念，将计算因素标准化；

具体地，预测作业计算完成时间的重要意义：

如果系统可以智能地、较准确地、事先预测任何或特定作业，在给定的1种或多种资源的前提下计算完成的时间，将在各个方面带来企业HPC的深刻变化：

1、调度系统将拥有较精确预测任何作业启动时间的能力。因为若调度系统知道任何一个作业，分配不同数量资源所需的计算时间、结束时间，则调度器就可以通过计算得知当前任何作业何时会结束并释放资源，甚至可以计算得到未来一段时间、甚至未来任何时刻空闲资源的数量。调度系统掌握了所有资源在时间线上的空闲与占用情况、以及当前排队、运行作业的周转要求即“期望最晚完成时间”、所需的资源。

2、调度系统将拥有较精确预测任何当前作业结束时间的能力。如果知道了任何作业何时可以使用功能多少资源开始计算、计算需要多长时间，那么调度系统将知道任何作业，依照一定的算法得出的运行顺序，其结束时间是多少。

3、调度系统依据优先级策略、作业资源消耗情况、作业期待最晚交付时间，可以做出不影响优先级且最大限度提高系统利用率的、透明的调度决定，系统的碎片将得以显著降低。

4、最终使用者，将在业界第一次可以发现，自己、他人投入系统的任务，将何时、在哪些机器、以多少核数启动计算、以及将在何时可以完成。

5、同时，可能首次在业内实现用户提交作业时无需指定核数或核数范围，从而为全自动、大规模的自动提交、自动调度打下基础。

基于此，使用者将可以和系统展开智能的对话，提出自己作业需要完成的最晚时间，系统给出快速的反馈，并可和系统“讨价还价”，并在无法协调矛盾时，提升管理层仲裁，并可根据实际运行情况，对调度策略进行调整。这将是真正智慧的、人机交互的、完全透明公开运作的系统，一举改变当前调度系统黑匣子的状态，并为未来计算载荷向云上迁移做比较的技术准备。

需要说明的是，该技术创造性地提出通过机器学习算法，使用历史数据训练模型，成功预测特定类型作业，在使用不同计算资源时所需的计算时间，并将其应用在日益扩大的高性能计算领域，将取得显著的经济和社会价值，并为实现创造性的、全新的、适应混合计算环境的调度系统，其技术效果有：

可基于此技术，结合历史数据，预测企业特定类型的计算任务/作业的运行时间；可基于此技术，预测的运行时间、配置的其他调度策略，给出作业的预计启动时间；可基于此技术，业内首次实现提交作业无需指定核数；可基于此技术，业内首先实现可视化调度，作业排队顺序、执行时间、结束时间一目了然；可基于此技术，实现全新的、全自动的、数据或者流程驱动的作业提交及调度引擎；在混合hpc云环境下，有利于实现有效的载荷转移、数据传输并确保云上租赁资源最高的利用效率。

该发明基于多项式回归的机器学习算法，随着集群使用时间增长、训练数据会增加，预测会更加精确，且可以根据预测结果的精度，自我强化学习；基于mapreduce的训练数据提取方法有助于快速持续为算法提供训练数据；

由此可能形成的可视化调度、全自动智能提交可彻底改变当前高性能计算资源管理、调度和使用的现有技术框架，有利于高性能计算相关业务流程的排程与调度。

以上所述，仅为本发明较佳的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，根据本发明的技术方案及其发明构思加以等同替换或改变，都应涵盖在本发明的保护范围之内。

Claims

1.一种基于机器学习的ls-dyna计算时间自动预测算法，其特征在于，包括以下步骤：

S1、训练数据的提取：从历史使用数据log中提出样本数据；

2.根据权利要求1所述的一种基于机器学习的ls-dyna计算时间自动预测算法，其特征在于，所述步骤S1中提出的样本数据包括：Jobid：作业的批处理id；Cores：作业计算总核数；Walltime：作业实际计算时间；Loadcase：工况编码；Casetime：工况总时长Dt：工况步长；Model_size：模型文件大小。

3.根据权利要求2所述的一种基于机器学习的ls-dyna计算时间自动预测算法，其特征在于，所述Walltime：作业实际计算时间为去除无效样本作业数据，如失败退出、运行时取消的时间，所述Casetime：工况总时长的单位为ms，所述工况总时长从solver deck中读取，所述Model_size：模型文件大小的单位为MB。

4.根据权利要求1所述的一种基于机器学习的ls-dyna计算时间自动预测算法，其特征在于，所述步骤S2中的工况编码相当于建立一个integer工况号->string工况名称的map。

5.根据权利要求1所述的一种基于机器学习的ls-dyna计算时间自动预测算法，其特征在于，所述步骤S4中的参数与实际平台相关，到一个新的硬件环境与旧的平台有硬件改动时，参考曲线则必须重新测试获得，不具有可移植性，所述硬件改动包括换交换机和换内存/硬盘中的一种或多种。