CN111754017A - 一种基于机器学习的ls-dyna计算时间自动预测算法 - Google Patents
一种基于机器学习的ls-dyna计算时间自动预测算法 Download PDFInfo
- Publication number
- CN111754017A CN111754017A CN202010313317.6A CN202010313317A CN111754017A CN 111754017 A CN111754017 A CN 111754017A CN 202010313317 A CN202010313317 A CN 202010313317A CN 111754017 A CN111754017 A CN 111754017A
- Authority
- CN
- China
- Prior art keywords
- time
- calculation
- dyna
- machine learning
- different
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000004364 calculation method Methods 0.000 title claims abstract description 41
- 238000004422 calculation algorithm Methods 0.000 title claims abstract description 26
- 238000010801 machine learning Methods 0.000 title claims abstract description 21
- 238000012549 training Methods 0.000 claims abstract description 11
- 230000004888 barrier function Effects 0.000 claims abstract description 9
- 238000012360 testing method Methods 0.000 claims abstract description 6
- 238000000605 extraction Methods 0.000 claims abstract description 4
- 230000015654 memory Effects 0.000 claims description 4
- 239000002904 solvent Substances 0.000 claims 1
- 238000005516 engineering process Methods 0.000 abstract description 11
- 238000013467 fragmentation Methods 0.000 abstract description 9
- 238000006062 fragmentation reaction Methods 0.000 abstract description 9
- 239000012634 fragment Substances 0.000 description 11
- 238000000034 method Methods 0.000 description 10
- 238000004458 analytical method Methods 0.000 description 9
- 238000004088 simulation Methods 0.000 description 7
- 230000009286 beneficial effect Effects 0.000 description 6
- 238000007726 management method Methods 0.000 description 6
- 238000010586 diagram Methods 0.000 description 4
- 230000004044 response Effects 0.000 description 4
- 238000012384 transportation and delivery Methods 0.000 description 4
- 230000008859 change Effects 0.000 description 3
- 239000012530 fluid Substances 0.000 description 3
- 230000006870 function Effects 0.000 description 3
- 230000001788 irregular Effects 0.000 description 3
- 230000008569 process Effects 0.000 description 3
- 230000007306 turnover Effects 0.000 description 3
- 230000000007 visual effect Effects 0.000 description 3
- 230000001133 acceleration Effects 0.000 description 2
- 238000013075 data extraction Methods 0.000 description 2
- 238000013461 design Methods 0.000 description 2
- 238000013400 design of experiment Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 238000011156 evaluation Methods 0.000 description 2
- 238000004519 manufacturing process Methods 0.000 description 2
- 238000005457 optimization Methods 0.000 description 2
- 101100228469 Caenorhabditis elegans exp-1 gene Proteins 0.000 description 1
- 238000012356 Product development Methods 0.000 description 1
- 230000003044 adaptive effect Effects 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 230000008901 benefit Effects 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 230000015572 biosynthetic process Effects 0.000 description 1
- 239000006227 byproduct Substances 0.000 description 1
- 230000008878 coupling Effects 0.000 description 1
- 238000010168 coupling process Methods 0.000 description 1
- 238000005859 coupling reaction Methods 0.000 description 1
- 235000019788 craving Nutrition 0.000 description 1
- 238000007405 data analysis Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 230000001934 delay Effects 0.000 description 1
- 238000006073 displacement reaction Methods 0.000 description 1
- 238000013401 experimental design Methods 0.000 description 1
- 230000002452 interceptive effect Effects 0.000 description 1
- 239000000463 material Substances 0.000 description 1
- 238000013508 migration Methods 0.000 description 1
- 230000005012 migration Effects 0.000 description 1
- 230000000737 periodic effect Effects 0.000 description 1
- 238000013439 planning Methods 0.000 description 1
- 238000002360 preparation method Methods 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 230000031877 prophase Effects 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 238000003860 storage Methods 0.000 description 1
- 238000012916 structural analysis Methods 0.000 description 1
- 239000013589 supplement Substances 0.000 description 1
- 238000002076 thermal analysis method Methods 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/04—Forecasting or optimisation specially adapted for administrative or management purposes, e.g. linear programming or "cutting stock problem"
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/06—Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
- G06Q10/063—Operations research, analysis or management
- G06Q10/0631—Resource planning, allocation, distributing or scheduling for enterprises or organisations
Landscapes
- Engineering & Computer Science (AREA)
- Business, Economics & Management (AREA)
- Human Resources & Organizations (AREA)
- Theoretical Computer Science (AREA)
- Strategic Management (AREA)
- Economics (AREA)
- Entrepreneurship & Innovation (AREA)
- General Physics & Mathematics (AREA)
- Physics & Mathematics (AREA)
- Operations Research (AREA)
- Game Theory and Decision Science (AREA)
- General Business, Economics & Management (AREA)
- Software Systems (AREA)
- Tourism & Hospitality (AREA)
- Quality & Reliability (AREA)
- Development Economics (AREA)
- Marketing (AREA)
- Computer Vision & Pattern Recognition (AREA)
- General Engineering & Computer Science (AREA)
- Educational Administration (AREA)
- Artificial Intelligence (AREA)
- Data Mining & Analysis (AREA)
- Computing Systems (AREA)
- Evolutionary Computation (AREA)
- Medical Informatics (AREA)
- Mathematical Physics (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明公开了一种基于机器学习的ls‑dyna计算时间自动预测算法,涉及ls‑dyna计算技术领域,包括以下步骤:S1、训练数据的提取:从历史使用数据log中提出样本数据;S2、对工况编码:工况是标准化的,以不同的数字进行不同工况的标记;S3、对壁障、假人编码:根据不同的壁障,假人类型分不同的大类;S4、集群相关的参数控制测试:将计算因素标准化。本发明通过预测ls‑dyna计算集群中作业的计算时间、自动提交等关键技术,并将该技术与主流调度系统结合使用,从而显著降低碎片率、大幅度提高资源利用效率、以及提高使用人员工作效。
Description
技术领域
本发明涉及ls-dyna计算技术领域,尤其涉及一种基于机器学习的ls-dyna计算时间自动预测算法。
背景技术
LS-DYNA程序是功能齐全的几何非线性(大位移、大转动和大应变)、材料非线性和接触非线性程序。它以Lagrange算法为主,兼有ALE和Euler算法;以显式求解为主,兼有隐式求解功能;以结构分析为主,兼有热分析、流体、电磁、流体-结构等多物理场耦合功能。
LS-DYNA能够模拟真实世界中的复杂问题。它被广泛应用于汽车、航空航天、电子、船舶、土木工程、制造和生物工程等行业。在全球汽车行业,它已经成为汽车安全仿真的事实上的标准,其计算量(作业数量、消耗的资源)约占企业总体高性能计算资源的60%,高峰期可占满企业所有HPC计算资源,从而影响其他作业的执行。
一、企业高性能计算
企业高性能计算设施,包括相关的基于x86架构、Linux操作系统、高速互联Infiniband、并行高速文件系统等,主要是为CAE仿真工作服务,少数用于机器学习及大数据分析。
以汽车行业为例,仿真主要包括碰撞安全(包括主动、被动安全)、流体、结构、NVH等几大分析领域,其中安全和流体合计占总计算量的80-90%,尤其是安全领域,其作业数量大(如行人保护分析,短时间数10个到数百个计算时间10-15小时,核数16-32核)、运算时间长(如整车安全性分析、各种安全法规和工况组合)等特点。一般而言,汽车整车厂OEM其仿真工作人员规模在200-300人之间,整车安全仿真工作量占比60%。
二、企业高性能计算的困境及分析
企业高性能在中国近15年获得了快速的发展,计算核心从数十核发展到如今的15000核心,投入了巨大的资金,但随着法规的不断增强、企业海外市场的拓展、企业市场竞争的加剧,仿真分析手段不断深入,尤其是DOE、优化、多物理场分析等的兴起(实验设计、多变量设计、多目标优化、多物理场分析、硬件在环分析),对计算资源的渴求变得越来越大,企业必须投入巨大的资金,来购置、维护庞大的计算设施、昂贵的商业求解器许可证,并通过不断优化内部计算设施的利用率、借用云资源满足尖峰需求等手段来满足最基本的资源需求。其中,商业软件的许可数量与同时计算的核数基本相等、商业许可的周转率,则直接影响所需的采购的最低,这也是企业计算的最大的投入所在。鉴于高性能云计算模式尚未成熟,目前主要以企业内部计算为主要形式。
目前最大的困境体现在:业务的不规律波动和时效性(CAE仿真工作对资源的需求,在产品开发的不同阶段起伏不定,受产品策略、设计方案、制造质量、试验结果等影响)带来对资源的需求的剧烈波动,并直接导致尖峰不够、低谷空闲、总体利用效率底下,投入巨大且需要不断投入的困境。
如图5,企业的计算能力的规划都是周期性的,对业务的需求评估,是在粗略的尖峰需要评估的基础上,进行一定比率折扣得到的。其最终结果是,尖峰不够、低谷空闲;买的越多,浪费越多。
解决以上的困境,企业有诸多技术及非技术手段。非技术手段包括:使用云资源进行高峰期补充、使用开源求解器降低商业软件许可数量;技术手段主要指,采用智能的调度策略,在不影响业务日程的情况下,灵活调度作业,减少资源碎片,提高已有计算资源尤其是昂贵许可证的利用效率。也就是在利用率和业务优先级之间找到最佳的平衡,既不会因为追求利用率减少碎片延误了重要任务的执行、也不会因为需要确保重要任务的执行而让资源空闲等待。
其中,碎片是指资源在一段时间内的空闲,一般用core*hours来描述,如图6中,白色部分面积即为“碎片”;
碎片形成的原因在于:
作业资源请求的不规整性和静态性,即作业请求的资源,目前的调度系统下,都是一个预定的固定的值,考虑到计算的规模、所需的周转时间、加速比等因素,使用者通常会指定某个固定的核数,根据经验判断,一旦开始计算,所需的时间;如指定核数太少,则可能计算时间超长,影响业务时效性;如果指定核数太多,则可能排队时间太长、加速比不够、或占用许可太多影响其他任务,也不可取。作业资源请求的不规整性,导致资源释放出来后,未必能满足排队作业的需求,即便满足某些作业的资源需求,但又很可能和业务的优先级不匹配。从而导致一个困境,此时要不要运行匹配现有空闲资源的作业。如运行,则可提高资源利用率,降低显示碎片率,但很可能会导致高优先级的作业的启动和完成时间得不到保障,从而破坏了业务的时效性。主流调度系统不运行1个任务请求多个资源数量或一定范围内的资源数量,主要是为了提高调度的效率和响应速度。这点未来可能会得到改善,从而在一定程度上改善作业不规整带来的问题。但下述作业因计算规模、所需资源的差异依然存在。
作业计算时间的不规整性,作业计算规模、请求的资源数量的差异,导致了单个作业或任务计算耗时的不规整性,从而导致资源释放的实际、实际可用资源在时间上的不规整性,这种不规则和排队作业的优先级形成冲突,导致上述运行低优先级作业则可能破坏业务时效性、不运行则可能导致更多碎片的困境。
作业业务优先级/业务时效性的不规整性,CAE业务本身充满动态性,很难预先排程,会出现很多意外或突发需求,同时学科众多,相互间有一定制约、各学科之前应用节点也有差异、不同的任务其要求的最晚交付时间不同,准备完毕可以计算的时间点也不同。因为资源碎片的存在以及消减资源碎片的冲动、由此引发的延迟高优先级作业的可能性、处理低优先级作业为高优先级作业让路在技术(实施断点重启的代价高昂)和管理上的困难(中断已运行作业带来的组织障碍)等,导致确保高优先级任务交付时间是非常困难或代价高昂的事情。
碎片带来的直接影响:碎片在某种意义上不可避免,但可以采取技术手段进行削减,并兼顾业务优先级,提升调度系统对外部业务优先级的响应速度和响应能力。
资源碎片带来的显而易见的直接影响是整体利用率的低下,统计数据表明,企业计算资源闲置率超过30%,有些达到40%,这对企业进一步投资带来巨大的问题。
为了降低碎片率,企业尝试采取回填技术,即允许低优先级作业在碎片上运行。但带回填带来了直接的严重后果是,对高优先级作业启动和交付时间的延迟,这个后果比资源闲置甚至更为不可接受。业界为减轻其影响,尝试的手段主要包括:实施抢占,即让现在正在运行的作业中断运行,或重新排队、或从断点处退出,从而为高优先级作业让路。但重新排队会引起管理上的挑战,并导致资源的浪费,而从断点处退出,则需要应用软件或操作系统层面或第三方中间件的支持,成本、代价和可行性都不高,因此业界采用很少。还有一种手段是,确保回填不影响前N个高优先级作业的TopN回填策略,遗憾的是,因为系统中多数作业无法得知其可能需要的执行时间,导致为保证TopN作业执行优先级和启动时候,不得不阻塞其他无法判断其运行时间的小作业的执行,从而形成很多碎片,甚至在高峰时期出现非常明显的现象,即一方面其他人作业在排队,一方面资源在空闲等待更多资源释以满足高优先级的其他人、其他性能方向的人的作业,这在管理上形成较大的挑战,很难平衡。
最终,碎片回填、抢占调度在企业应用越来越少,业务部门为了确保各高优先级的响应时间,都采取了对有限的资源池进行静态划分(或部分静态划分)、并打开碎片回填的策略。
虽然此举在某种程度上保障了高优先级作业的交付,但对有限资源池做进一步的静态划分,进一步降低了总体资源利用率,即进一步提高了碎片率。同时在划分后的资源池内部可能采取一些不涉及抢占的优先级管理策略,如设置高优先级队列,优先调度此类作业。
由上所述,为此我们设计出了一种基于机器学习的ls-dyna计算时间自动预测算法来解决以上问题。
发明内容
本发明的目的是为了解决现有技术中存在的缺点,而提出的一种基于机器学习的ls-dyna计算时间自动预测算法。
为了实现上述目的,本发明采用了如下技术方案:
一种基于机器学习的ls-dyna计算时间自动预测算法,包括以下步骤:
S1、训练数据的提取:从历史使用数据log中提出样本数据;
S2、对工况编码:工况是标准化的,以不同的数字进行不同工况的标记;
S3、对壁障、假人编码:根据不同的壁障,假人类型分不同的大类;
S4、集群相关的参数控制测试:将计算因素标准化,通过选择某典型的工况A,在不同的硬件平台下计算1-N核的计算所需要的时间,得到核数与计算时间曲线;其中,集群并不是同构的,是由不同时期采购的节点组成;
S5、计算通过python进行估算,利用三维线性规划以及回归的方式进行估计。
优选的,所述步骤S1中提出的样本数据包括:Jobid:作业的批处理id;Cores:作业计算总核数;Walltime:作业实际计算时间;Loadcase:工况编码;Casetime:工况总时长Dt:工况步长;Model_size:模型文件大小。
优选的,所述Walltime:作业实际计算时间为去除无效样本作业数据,如失败退出、运行时取消的时间,所述Casetime:工况总时长的单位为ms,所述工况总时长从solverdeck中读取,所述Model_size:模型文件大小的单位为MB。
优选的,所述步骤S2中的工况编码相当于建立一个integer工况号->string工况名称的map。
优选的,所述步骤S4中的参数与实际平台相关,到一个新的硬件环境与旧的平台有硬件改动时,参考曲线则必须重新测试获得,不具有可移植性,所述硬件改动包括换交换机和换内存/硬盘中的一种或多种。
与现有技术相比,本发明的有益效果是:本发明中,
1、基于多项式回归的机器学习算法,随着集群使用时间增长、训练数据会增加,预测会更加精确,且可以根据预测结果的精度,自我强化学习;
2、基于mapreduce的训练数据提取方法有助于快速持续为算法提供训练数据;
3、由此可能形成的可视化调度、全自动智能提交可彻底改变当前高性能计算资源管理、调度和使用的现有技术框架,有利于高性能计算相关业务流程的排程与调度;
本发明相在不影响业务优先级的情况下,通过预测ls-dyna计算集群中作业的计算时间、自动提交等关键技术,并将该技术与主流调度系统结合使用,从而显著降低碎片率、大幅度提高资源利用效率、以及提高使用人员工作效。
附图说明
图1为本发明提出的一种基于机器学习的ls-dyna计算时间自动预测算法的步骤S1的样本数据图;
图2为本发明提出的一种基于机器学习的ls-dyna计算时间自动预测算法的步骤S2的工况编码图;
图3为本发明提出的一种基于机器学习的ls-dyna计算时间自动预测算法的步骤S3的编码图;
图4为本发明提出的一种基于机器学习的ls-dyna计算时间自动预测算法的步骤S4的参数图;
图5为本发明的背景技术中企业的计算能力的规划图;
图6为本发明的背景技术中的显示碎片面积图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。
本着逐步推进、化繁为简的策略,为实现预测完成时间的技术突破,做以下前期假设:1)假设当前集群所有运行的作业均为ls-dyna作业;2)假设当前集群的硬件配置在一段时间内维持不变且为单一平台;3)假设企业的仿真规范,如模型、分析类型等较为成熟;
实施例一
参照图1-4,一种基于机器学习的ls-dyna计算时间自动预测算法,应用在高性能计算调度系统中,包括以下步骤:
S1、训练数据的提取:从历史使用数据log中提出样本数据;如图1,样本数据包括:Jobid:作业的批处理id;Cores:作业计算总核数;Walltime:作业实际计算时间;Loadcase:工况编码;Casetime:工况总时长Dt:工况步长;Model_size:模型文件大小;
其中,所述Walltime:作业实际计算时间为去除无效样本作业数据,如失败退出、运行时取消的时间,所述Casetime:工况总时长的单位为ms,所述工况总时长从solverdeck中读取,所述Model_size:模型文件大小的单位为MB;
需要说明的是,
以上数据从站点/var/spool/PBS/server_logs/accounting文件夹读取;并需及时读取对应作业之solver deck里的关键字,以便提取casetime、loadcase、dt、model_size等数据。如需提取单元个数,或更多单元信息,则需批处理调用商业前后处理器来计算;
S2、对工况编码:工况是标准化的,以不同的数字进行不同工况的标记;其中,由于工况是标准化的,以不同的数字进行不同工况的标记,相当于建立一个integer(工况号)->string(工况名称)的map,从而可以将字符串操作简化为简单的逻辑操作,并且不失扩展性;如图2,将A_test1工况标为1,A_test2标为2,B_exp_1标为3等;
S3、对壁障、假人编码:如图3,根据不同的壁障,假人类型分不同的大类;
S4、集群相关的参数控制测试:将计算因素标准化,通过选择某典型的工况A,在不同的硬件平台下计算1-N核的计算所需要的时间,得到核数与计算时间曲线;由于这些参数与实际平台相关,所以到一个新的硬件环境,或者旧的平台有硬件改动(如换交换机,换内存/硬盘等),该参考曲线则必须重新测试获得,不具有可移植性,其中,由于历史原因,集群并不是同构的,而是由不同时期采购的节点组成,由于计算能力依赖非常多的因素,如CPU主频,内存主频,PCI通道,是否高速互联,交换机性能,存储硬盘性能,电力供应等,这应因素无法在该过程中一一考虑,所以我们以抽象的方式对它进行建模,这里借鉴了加速比测试的概念,将计算因素标准化;
S5、计算通过python进行估算,利用三维线性规划以及回归的方式进行估计。
具体地,预测作业计算完成时间的重要意义:
如果系统可以智能地、较准确地、事先预测任何或特定作业,在给定的1种或多种资源的前提下计算完成的时间,将在各个方面带来企业HPC的深刻变化:
1、调度系统将拥有较精确预测任何作业启动时间的能力。因为若调度系统知道任何一个作业,分配不同数量资源所需的计算时间、结束时间,则调度器就可以通过计算得知当前任何作业何时会结束并释放资源,甚至可以计算得到未来一段时间、甚至未来任何时刻空闲资源的数量。调度系统掌握了所有资源在时间线上的空闲与占用情况、以及当前排队、运行作业的周转要求即“期望最晚完成时间”、所需的资源。
2、调度系统将拥有较精确预测任何当前作业结束时间的能力。如果知道了任何作业何时可以使用功能多少资源开始计算、计算需要多长时间,那么调度系统将知道任何作业,依照一定的算法得出的运行顺序,其结束时间是多少。
3、调度系统依据优先级策略、作业资源消耗情况、作业期待最晚交付时间,可以做出不影响优先级且最大限度提高系统利用率的、透明的调度决定,系统的碎片将得以显著降低。
4、最终使用者,将在业界第一次可以发现,自己、他人投入系统的任务,将何时、在哪些机器、以多少核数启动计算、以及将在何时可以完成。
5、同时,可能首次在业内实现用户提交作业时无需指定核数或核数范围,从而为全自动、大规模的自动提交、自动调度打下基础。
基于此,使用者将可以和系统展开智能的对话,提出自己作业需要完成的最晚时间,系统给出快速的反馈,并可和系统“讨价还价”,并在无法协调矛盾时,提升管理层仲裁,并可根据实际运行情况,对调度策略进行调整。这将是真正智慧的、人机交互的、完全透明公开运作的系统,一举改变当前调度系统黑匣子的状态,并为未来计算载荷向云上迁移做比较的技术准备。
需要说明的是,该技术创造性地提出通过机器学习算法,使用历史数据训练模型,成功预测特定类型作业,在使用不同计算资源时所需的计算时间,并将其应用在日益扩大的高性能计算领域,将取得显著的经济和社会价值,并为实现创造性的、全新的、适应混合计算环境的调度系统,其技术效果有:
可基于此技术,结合历史数据,预测企业特定类型的计算任务/作业的运行时间;可基于此技术,预测的运行时间、配置的其他调度策略,给出作业的预计启动时间;可基于此技术,业内首次实现提交作业无需指定核数;可基于此技术,业内首先实现可视化调度,作业排队顺序、执行时间、结束时间一目了然;可基于此技术,实现全新的、全自动的、数据或者流程驱动的作业提交及调度引擎;在混合hpc云环境下,有利于实现有效的载荷转移、数据传输并确保云上租赁资源最高的利用效率。
该发明基于多项式回归的机器学习算法,随着集群使用时间增长、训练数据会增加,预测会更加精确,且可以根据预测结果的精度,自我强化学习;基于mapreduce的训练数据提取方法有助于快速持续为算法提供训练数据;
由此可能形成的可视化调度、全自动智能提交可彻底改变当前高性能计算资源管理、调度和使用的现有技术框架,有利于高性能计算相关业务流程的排程与调度。
以上所述,仅为本发明较佳的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,根据本发明的技术方案及其发明构思加以等同替换或改变,都应涵盖在本发明的保护范围之内。
Claims (5)
1.一种基于机器学习的ls-dyna计算时间自动预测算法,其特征在于,包括以下步骤:
S1、训练数据的提取:从历史使用数据log中提出样本数据;
S2、对工况编码:工况是标准化的,以不同的数字进行不同工况的标记;
S3、对壁障、假人编码:根据不同的壁障,假人类型分不同的大类;
S4、集群相关的参数控制测试:将计算因素标准化,通过选择某典型的工况A,在不同的硬件平台下计算1-N核的计算所需要的时间,得到核数与计算时间曲线;其中,集群并不是同构的,是由不同时期采购的节点组成;
S5、计算通过python进行估算,利用三维线性规划以及回归的方式进行估计。
2.根据权利要求1所述的一种基于机器学习的ls-dyna计算时间自动预测算法,其特征在于,所述步骤S1中提出的样本数据包括:Jobid:作业的批处理id;Cores:作业计算总核数;Walltime:作业实际计算时间;Loadcase:工况编码;Casetime:工况总时长Dt:工况步长;Model_size:模型文件大小。
3.根据权利要求2所述的一种基于机器学习的ls-dyna计算时间自动预测算法,其特征在于,所述Walltime:作业实际计算时间为去除无效样本作业数据,如失败退出、运行时取消的时间,所述Casetime:工况总时长的单位为ms,所述工况总时长从solver deck中读取,所述Model_size:模型文件大小的单位为MB。
4.根据权利要求1所述的一种基于机器学习的ls-dyna计算时间自动预测算法,其特征在于,所述步骤S2中的工况编码相当于建立一个integer工况号->string工况名称的map。
5.根据权利要求1所述的一种基于机器学习的ls-dyna计算时间自动预测算法,其特征在于,所述步骤S4中的参数与实际平台相关,到一个新的硬件环境与旧的平台有硬件改动时,参考曲线则必须重新测试获得,不具有可移植性,所述硬件改动包括换交换机和换内存/硬盘中的一种或多种。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010313317.6A CN111754017A (zh) | 2020-04-20 | 2020-04-20 | 一种基于机器学习的ls-dyna计算时间自动预测算法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010313317.6A CN111754017A (zh) | 2020-04-20 | 2020-04-20 | 一种基于机器学习的ls-dyna计算时间自动预测算法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN111754017A true CN111754017A (zh) | 2020-10-09 |
Family
ID=72673549
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010313317.6A Pending CN111754017A (zh) | 2020-04-20 | 2020-04-20 | 一种基于机器学习的ls-dyna计算时间自动预测算法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111754017A (zh) |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2008293130A (ja) * | 2007-05-22 | 2008-12-04 | Auto Network Gijutsu Kenkyusho:Kk | 処理実行方法、処理実行装置及びコンピュータプログラム |
US20120311586A1 (en) * | 2011-05-31 | 2012-12-06 | Fujitsu Limited | Apparatus and method for predicting a processing time of a computer |
CN109636212A (zh) * | 2018-12-19 | 2019-04-16 | 中国科学技术大学 | 作业实际运行时间的预测方法 |
CN109743200A (zh) * | 2018-12-25 | 2019-05-10 | 人和未来生物科技(长沙)有限公司 | 基于资源特征的云计算平台计算任务成本预测方法及系统 |
CN110390345A (zh) * | 2018-04-20 | 2019-10-29 | 复旦大学 | 一种基于云平台的大数据集群自适应资源调度方法 |
CN110825522A (zh) * | 2019-10-31 | 2020-02-21 | 武汉联图时空信息科技有限公司 | Spark参数自适应优化方法及系统 |
-
2020
- 2020-04-20 CN CN202010313317.6A patent/CN111754017A/zh active Pending
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2008293130A (ja) * | 2007-05-22 | 2008-12-04 | Auto Network Gijutsu Kenkyusho:Kk | 処理実行方法、処理実行装置及びコンピュータプログラム |
US20120311586A1 (en) * | 2011-05-31 | 2012-12-06 | Fujitsu Limited | Apparatus and method for predicting a processing time of a computer |
CN110390345A (zh) * | 2018-04-20 | 2019-10-29 | 复旦大学 | 一种基于云平台的大数据集群自适应资源调度方法 |
CN109636212A (zh) * | 2018-12-19 | 2019-04-16 | 中国科学技术大学 | 作业实际运行时间的预测方法 |
CN109743200A (zh) * | 2018-12-25 | 2019-05-10 | 人和未来生物科技(长沙)有限公司 | 基于资源特征的云计算平台计算任务成本预测方法及系统 |
CN110825522A (zh) * | 2019-10-31 | 2020-02-21 | 武汉联图时空信息科技有限公司 | Spark参数自适应优化方法及系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN103064746B (zh) | 基于当前credit进行预测调度的处理器资源精确分配方法 | |
Schwetman | Hybrid simulation models of computer systems | |
CN108376315B (zh) | 一种基于图模型的不确定炼钢-连铸柔性优化调度方法及系统 | |
CN108376221A (zh) | 一种基于aadl模型扩展的软件系统安全性验证与评估方法 | |
CN101201753A (zh) | 一种多状态机管理引擎的配置管理方法 | |
US8656102B2 (en) | Method for preloading configurations of a reconfigurable heterogeneous system for information processing into a memory hierarchy | |
US20130198757A1 (en) | Resource allocation method and apparatus of gpu | |
CN103823706A (zh) | 一种基于RTLinux的被控对象模型模拟仿真实时调度方法 | |
CN109947532A (zh) | 一种教育云平台中的大数据任务调度方法 | |
CN110750345A (zh) | 一种数字孪生系统复杂任务高效调度系统 | |
US8612597B2 (en) | Computing scheduling using resource lend and borrow | |
CN110134504A (zh) | 一种基于有限状态机的操作系统需求层形式化建模方法及装置 | |
CN113190359B (zh) | 一种仿真请求处理方法、装置、电子设备及可读存储介质 | |
CN111930485B (zh) | 一种基于性能表现的作业调度方法 | |
CN103309676A (zh) | 用于海洋数值模拟ROMS的Web服务封装方法以及系统 | |
CN111754017A (zh) | 一种基于机器学习的ls-dyna计算时间自动预测算法 | |
CN102508720B (zh) | 一种提高前处理模块和后处理模块效率的方法及系统 | |
CN111625352A (zh) | 调度方法、装置及存储介质 | |
CN110928659A (zh) | 一种具有自适应功能的数值水池系统远程多平台接入方法 | |
KR20120133362A (ko) | 로딩 시뮬레이션 기반 동적 피드백 스케줄링 알고리즘을 장착한 최적화된 생산 스케줄링 시스템 | |
CN115640278A (zh) | 一种数据库性能智能优化的方法及系统 | |
CN113946440A (zh) | 一种绿色云环境下的资源调度方法 | |
CN113504966A (zh) | Gpu集群调度策略模拟方法及gpu集群模拟器 | |
CN116661962B (zh) | 基于云计算技术的数据分析方法 | |
CN111274667A (zh) | 一种跨尺度材料计算软件集成计算系统及方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |