CN115756822B - 高性能计算应用性能调优的方法及系统 - Google Patents

高性能计算应用性能调优的方法及系统 Download PDF

Info

Publication number
CN115756822B
CN115756822B CN202211277045.4A CN202211277045A CN115756822B CN 115756822 B CN115756822 B CN 115756822B CN 202211277045 A CN202211277045 A CN 202211277045A CN 115756822 B CN115756822 B CN 115756822B
Authority
CN
China
Prior art keywords
parameter
computing node
memory
configuration information
disk
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202211277045.4A
Other languages
English (en)
Other versions
CN115756822A (zh
Inventor
吴祥智
周新中
胡耀国
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
XFusion Digital Technologies Co Ltd
Original Assignee
XFusion Digital Technologies Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by XFusion Digital Technologies Co Ltd filed Critical XFusion Digital Technologies Co Ltd
Priority to CN202211277045.4A priority Critical patent/CN115756822B/zh
Publication of CN115756822A publication Critical patent/CN115756822A/zh
Priority to PCT/CN2023/117104 priority patent/WO2024082853A1/zh
Application granted granted Critical
Publication of CN115756822B publication Critical patent/CN115756822B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/46Multiprogramming arrangements
    • G06F9/50Allocation of resources, e.g. of the central processing unit [CPU]

Landscapes

  • Engineering & Computer Science (AREA)
  • Software Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Stored Programmes (AREA)
  • Computer And Data Communications (AREA)

Abstract

本申请提供了一种高性能计算应用性能调优的方法及系统,该方法包括在本地设备运行HPC应用软件的场景中,管理节点可以对本地设备发送的作业进行分配处理,并根据作业的类型选择出与其匹配的最佳参数调优模板,管理节点可以将最佳参数调优模板与作业发送给计算节点,计算节点根据最佳参数调优模板调整好系统参数,并高效率的运行作业。本申请技术方案可以自动根据作业类型配置不同的参数,提高运行HPC应用软件的效率,还可以提高网络资源以及计算资源的使用效率。

Description

高性能计算应用性能调优的方法及系统
技术领域
本申请实施例涉及计算集群领域,尤其涉及高性能计算应用性能调优的方法及系统。
背景技术
在高性能计算的场景中,用户在提交作业时,计算集群系统需要根据不同的应用配置不同的系统参数,以此来提高计算性能或集群吞吐量。
目前,计算集群系统大多都是在出厂时配置一个默认的参数模板,在使用时再根据用户需求进行参数的调试匹配。高性能计算应用性能调优的方法可以提高作业运行效率,同时可以避免重复调试。
发明内容
本申请提供了高性能计算应用性能调优的方法及系统,可以提高运行HPC应用软件的效率,提高执行作业的效率,还提供了更为详尽的参数类型,可以更好的提高网络资源以及计算资源的使用率。
第一方面,本申请提供了一种计算节点的配置方法,该方法应用于管理节点,该计算节点为至少一个,在该方法中,
该管理节点接收第一应用业务;
该管理节点根据该第一应用业务的业务类型确定第一配置信息和目标计算节点;
该目标计算节点为该计算节点中的任意一个;
该第一应用业务为该管理节点分配给该目标计算节点进行执行的业务;
该管理节点向该目标计算节点发送所述第一配置信息;该第一配置信息用于指示该目标计算节点运行该第一应用业务所采用的配置信息;
其中,该第一配置信息包括:第一中央处理器CPU参数、第一内存参数、第一操作系统参数、第一磁盘参数以及第一网络参数中的一项或多项。
在一种可能的实现方式中,管理节点可以接收由本地设备所发送的第一应用业务,管理节点在向该目标计算节点发送所述第一配置信息之后,可以指示该目标计算节点运行第一应用业务并将运行结果发送给存储系统。
由上述方法可知管理节点可以根据第一应用业务的作业类型选择出一系列参数,这样可以提高运行HPC应用软件的效率。
这样的方式相比于目前管理人员手动配置参数的方式来说,参数种类更多,并且参数的数据更为细致,能更为精准的调整HPC应用软件的运行效率。并且能更好的提高网络资源以及计算资源的使用率。
结合第一方面,在一些实施方式中,该第一中央处理器CPU参数可以包括CPU运行速度。该第一内存参数可以包括内存大小、内存带宽中一项或多项。该第一操作系统参数可以包括操作系统的类型。该第一磁盘参数可以包括磁盘大小、磁盘带宽中一项或多项。该第一网络参数可以包括网络协议类型。
在一种可能的实现方式中,该第一配置信息还可以包括:是否开启传输控制协议(Transmission Control Protocol,TCP)快速打开(TCP Fast Open,TFO),即TFO参数。具体的,可以将TFO参数设有1、2、3种参数,其中,当TFO参数为参数1时,表示客户端开启TFO,即可以在本地设备中开启TFO;当TFO参数为参数2时,表示服务器开启TFO,即可以在管理节点以及计算节点中开启TFO;当TFO参数为参数3时,表示客户端和服务器都开启TFO,即高性能计算系统中的设备节点均开启TFO。
结合第一方面,在一些实施方式中,该计算节点的CPU运行速度可以包括多个CPU运行速度,该多个CPU运行速度可以包括所述第一中央处理器CPU参数所指示的CPU运行速度。
在一种可能的实现方式中,CPU参数可以是指计算节点执行作业时的CPU的性能参数,CPU参数除了可以指示CPU运行速度,还可以用于指示CPU的运行频率以及时钟信号等等,对此不作限定。
结合第一方面,在一些实施方式中,该计算节点的内存有多个内存大小,该多个内存大小包括所述第一内存参数所指示的内存大小;该计算节点的内存有多个内存带宽,该多个内存带宽包括所述第一内存参数所指示的内存带宽。
结合第一方面,在一些实施方式中,该计算节点所运行的操作系统的类型包括多个操作系统类型,该多个操作系统类型包括所述第一操作系统参数所指示的操作系统类型。
在一种可能的实现方式中,操作系统类型可以包括但不限于Windows系统、Mac系统、Linux系统、Chrome OS系统、UNIX操作系统以及鸿蒙HarmonyOS系统等。
结合第一方面,在一些实施方式中,该计算节点的磁盘有多个磁盘大小,该多个磁盘大小包括该第一磁盘参数所指示的磁盘大小。
该计算节点的磁盘有多个磁盘带宽,该多个磁盘带宽包括该第一磁盘参数所指示的磁盘带宽。
结合第一方面,在一些实施方式中,该计算节点所采用的网络协议的类型可以包括多个网络协议类型,该多个网络协议类型可以包括所述第一网络参数所指示的网络协议类型。
结合第一方面,在一些实施方式中,多种配置信息存储于该管理节点中,该多种配置信息可以包括所述第一配置信息。
该第一配置信息为使得:运行第一应用业务或者第二应用业务的该目标计算节点的运行效率高于第一阈值的配置信息。
在一种可能的实现方式中,第一配置信息也可以是指运行效率最高的配置信息。这样,管理节点可以根据作业的作业类型选择出最优系统参数模板,可以提高执行作业时的工作效率。
结合第一方面,在一些实施方式中,当该管理节点接收所述第二应用业务时,该管理节点可以向该计算节点发送采集指令以及该第二应用业务。
该第二应用业务为业务类型未知的业务,该采集指令可以用于指示该计算节点采集特征值。
该管理节点可以接收该计算节点发送的该特征值,该特征值为该计算节点基于该第一配置信息之前使用的配置信息运行该第二应用业务时所采集的数据。
该管理节点可以根据该特征值确定出该第一配置信息。
在一种可能的实现方式中,管理节点所接收到的作业未指明作业类型,未知名作业类型的作业可以被称为第二应用业务。
为了可以高效的执行第二应用业务,管理节点可以根据计算节点执行第二应用业务时所采集的特征值,确定出存储在管理节点中最为相似的作业类型,并以此确定出最为相似的作业类型所对应的最优系统参数模板。
这样,即使管理节点所接收的作业类型未知,也可以通过上述方法来使用最优系统参数模板来执行作业,提高执行作业的效率。
结合第一方面,在一些实施方式中,该第一配置信息用于指示该目标计算节点运行该第一应用业务所采用的配置信息具体包括:
该第一配置信息用于将该目标计算节点中的CPU运行速度调整为该第一中央处理器CPU参数所指示的CPU运行速度、将该目标计算节点中的内存大小或内存带宽中的一项或多项调整为该第一内存参数所指示的内存大小或内存带宽中的一项或多项、将该目标计算节点中的操作系统类型调整为该第一操作系统参数所指示的操作系统类型、将该目标计算节点中的磁盘大小或磁盘带宽中的一项或多项调整为该第一磁盘参数所指示的磁盘大小或磁盘带宽中的一项或多项、将该目标计算节点中的网络协议类型调整为该第一网络参数所指示的网络协议类型运行所述第一应用业务。
这样,计算节点可以根据第一配置信息来调节运行作业时的各个参数,以此来提高运行效率。
结合第一方面,在一些实施方式中,该管理节点向该目标计算节点发送回滚指令。该回滚指令可以用于将该目标计算节点中的配置信息还原为接收该第一配置信息之前使用的配置信息。
这样,在运行多种作业类型的各个作业时,能够更迅速的调节各个参数。
第二方面,本申请提供了一种计算节点的配置方法,该方法应用于计算节点,该计算节点为至少一个,在该方法中,
管理节点用于接收第一应用业务;
该管理节点用于根据该第一应用业务的业务类型确定第一配置信息和目标计算节点;
该目标计算节点为该计算节点中的任意一个;
该第一应用业务为该管理节点分配给该目标计算节点进行执行的业务;
该目标计算节点接收该管理节点所发送所述第一配置信息;该第一配置信息用于指示该目标计算节点运行该第一应用业务所采用的配置信息。
其中,该第一配置信息包括:第一中央处理器CPU参数、第一内存参数、第一操作系统参数、第一磁盘参数以及第一网络参数中的一项或多项。
在一种可能的实现方式中,管理节点可以用于接收由本地设备所发送的第一应用业务,管理节点在向该目标计算节点发送所述第一配置信息之后,该目标计算节点可以运行第一应用业务并将运行结果发送给存储系统。
由上述方法可知管理节点可以根据第一应用业务的作业类型选择出一系列参数,这样可以提高运行HPC应用软件的效率。计算节点可以根据管理节点发送的一系列参数调整自身运行作业时的各个参数。
这样的方式相比于目前管理人员手动配置参数的方式来说,参数种类更多,并且参数的数据更为细致,能更为精准的调整HPC应用软件的运行效率。并且能更好的提高网络资源以及计算资源的使用率。
结合第二方面,在一些实施方式中,该第一中央处理器CPU参数可以包括CPU运行速度。该第一内存参数可以包括内存大小、内存带宽中一项或多项。该第一操作系统参数可以包括操作系统的类型。该第一磁盘参数可以包括磁盘大小、磁盘带宽中一项或多项。该第一网络参数可以包括网络协议类型。
在一种可能的实现方式中,该第一配置信息还可以包括:是否开启传输控制协议(Transmission Control Protocol,TCP)快速打开(TCP Fast Open,TFO),即TFO参数。具体的,可以将TFO参数设有1、2、3种参数,其中,当TFO参数为参数1时,表示客户端开启TFO,即可以在本地设备中开启TFO;当TFO参数为参数2时,表示服务器开启TFO,即可以在管理节点以及计算节点中开启TFO;当TFO参数为参数3时,表示客户端和服务器都开启TFO,即高性能计算系统中的设备节点均开启TFO。
结合第二方面,在一些实施方式中,该计算节点的CPU运行速度可以包括多个CPU运行速度,该多个CPU运行速度可以包括所述第一中央处理器CPU参数所指示的CPU运行速度。
在一种可能的实现方式中,CPU参数可以是指计算节点执行作业时的CPU的性能参数,CPU参数除了可以指示CPU运行速度,还可以用于指示CPU的运行频率以及时钟信号等等,对此不作限定。
结合第二方面,在一些实施方式中,该计算节点的内存有多个内存大小,该多个内存大小包括所述第一内存参数所指示的内存大小;该计算节点的内存有多个内存带宽,该多个内存带宽包括所述第一内存参数所指示的内存带宽。
结合第二方面,在一些实施方式中,该计算节点所运行的操作系统的类型包括多个操作系统类型,该多个操作系统类型包括所述第一操作系统参数所指示的操作系统类型。
在一种可能的实现方式中,操作系统类型可以包括但不限于Windows系统、Mac系统、Linux系统、Chrome OS系统、UNIX操作系统以及鸿蒙HarmonyOS系统等。
结合第二方面,在一些实施方式中,该计算节点的磁盘有多个磁盘大小,该多个磁盘大小包括该第一磁盘参数所指示的磁盘大小。
该计算节点的磁盘有多个磁盘带宽,该多个磁盘带宽包括该第一磁盘参数所指示的磁盘带宽。
结合第二方面,在一些实施方式中,该计算节点所采用的网络协议的类型可以包括多个网络协议类型,该多个网络协议类型可以包括所述第一网络参数所指示的网络协议类型。
结合第二方面,在一些实施方式中,多种配置信息存储于该管理节点中,该多种配置信息可以包括所述第一配置信息。
该第一配置信息为使得:运行第一应用业务或者第二应用业务的该目标计算节点的运行效率高于第一阈值的配置信息。
在一种可能的实现方式中,第一配置信息也可以是指运行效率最高的配置信息。这样,管理节点可以根据作业的作业类型选择出最优系统参数模板,可以提高执行作业时的工作效率。
结合第二方面,在一些实施方式中,当该管理节点所接收的业务为所述第二应用业务时,该计算节点可以接收该管理节点发送的采集指令以及该第二应用业务。
该第二应用业务为业务类型未知的业务,该采集指令可以用于指示该计算节点采集特征值。
该计算节点可以向该管理节点发送该特征值,该特征值为该计算节点基于该第一配置信息之前使用的配置信息运行该第二应用业务时所采集的数据。
该管理节点可以用于根据该特征值确定出该第一配置信息。
在一种可能的实现方式中,管理节点所接收到的作业未指明作业类型,未知名作业类型的作业可以被称为第二应用业务。
为了可以高效的执行第二应用业务,管理节点可以根据计算节点执行第二应用业务时所采集的特征值,确定出存储在管理节点中最为相似的作业类型,并以此确定出最为相似的作业类型所对应的最优系统参数模板。
这样,即使管理节点所接收的作业类型未知,也可以通过上述方法来使用最优系统参数模板来执行作业,提高执行作业的效率。
结合第二方面,在一些实施方式中,该第一配置信息用于指示该目标计算节点运行该第一应用业务所采用的配置信息具体包括:
该第一配置信息用于将该目标计算节点中的CPU运行速度调整为该第一中央处理器CPU参数所指示的CPU运行速度、将该目标计算节点中的内存大小或内存带宽中的一项或多项调整为该第一内存参数所指示的内存大小或内存带宽中的一项或多项、将该目标计算节点中的操作系统类型调整为该第一操作系统参数所指示的操作系统类型、将该目标计算节点中的磁盘大小或磁盘带宽中的一项或多项调整为该第一磁盘参数所指示的磁盘大小或磁盘带宽中的一项或多项、将该目标计算节点中的网络协议类型调整为该第一网络参数所指示的网络协议类型运行所述第一应用业务。
这样,计算节点可以根据第一配置信息来调节运行作业时的各个参数,以此来提高运行效率。
结合第二方面,在一些实施方式中,该目标计算节点可以接收该管理节点所发送的回滚指令。
该回滚指令可以用于将该目标计算节点中的配置信息还原为接收该第一配置信息之前使用的配置信息。
这样,在运行多种作业类型的各个作业时,能够更迅速的调节各个参数。
第三方面,本申请提供了一种管理装置,该管理装置包括接收单元、处理单元以及发送单元,其中:
该接收单元,可以用于接收第一应用业务,
该处理单元,可以用于根据该第一应用业务的业务类型确定第一配置信息和目标计算节点,该目标计算节点为计算节点中的任意一个,
该发送单元,可以用于向所述目标计算节点发送所述第一配置信息;
所述第一配置信息可以包括第一中央处理器CPU参数、第一内存参数、第一操作系统参数、第一磁盘参数以及第一网络参数中的一项或多项。该第一应用业务为该管理节点分配给该目标计算节点进行执行的业务。该第一配置信息用于指示该目标计算节点运行该第一应用业务所采用的配置信息。
在一种可能的实现方式中,管理节点可以用于接收由本地设备所发送的第一应用业务,管理节点在向该目标计算节点发送所述第一配置信息之后,还可以用于指示该目标计算节点运行第一应用业务并将运行结果发送给存储系统。
由上述方法可知管理装置可以根据第一应用业务的作业类型选择出一系列参数,这样可以提高运行HPC应用软件的效率。
这样的方式相比于目前管理人员手动配置参数的方式来说,参数种类更多,并且参数的数据更为细致,能更为精准的调整HPC应用软件的运行效率。并且能更好的提高网络资源以及计算资源的使用率。
结合第三方面,在一些实施方式中,该第一中央处理器CPU参数可以包括CPU运行速度。该第一内存参数可以包括内存大小、内存带宽中一项或多项。该第一操作系统参数可以包括操作系统的类型。该第一磁盘参数可以包括磁盘大小、磁盘带宽中一项或多项。该第一网络参数可以包括网络协议类型。
在一种可能的实现方式中,该第一配置信息还可以包括:是否开启传输控制协议(Transmission Control Protocol,TCP)快速打开(TCP Fast Open,TFO),即TFO参数。具体的,可以将TFO参数设有1、2、3种参数,其中,当TFO参数为参数1时,表示客户端开启TFO,即可以在本地设备中开启TFO;当TFO参数为参数2时,表示服务器开启TFO,即可以在管理节点以及计算节点中开启TFO;当TFO参数为参数3时,表示客户端和服务器都开启TFO,即高性能计算系统中的设备节点均开启TFO。
结合第三方面,在一些实施方式中,该计算节点的CPU运行速度可以包括多个CPU运行速度,该多个CPU运行速度可以包括所述第一中央处理器CPU参数所指示的CPU运行速度。
在一种可能的实现方式中,CPU参数可以是指计算节点执行作业时的CPU的性能参数,CPU参数除了可以指示CPU运行速度,还可以用于指示CPU的运行频率以及时钟信号等等,对此不作限定。
结合第三方面,在一些实施方式中,该计算节点的内存有多个内存大小,该多个内存大小包括所述第一内存参数所指示的内存大小;该计算节点的内存有多个内存带宽,该多个内存带宽包括所述第一内存参数所指示的内存带宽。
结合第三方面,在一些实施方式中,该计算节点所运行的操作系统的类型包括多个操作系统类型,该多个操作系统类型包括所述第一操作系统参数所指示的操作系统类型。
在一种可能的实现方式中,操作系统类型可以包括但不限于Windows系统、Mac系统、Linux系统、Chrome OS系统、UNIX操作系统以及鸿蒙HarmonyOS系统等。
结合第三方面,在一些实施方式中,该计算节点的磁盘有多个磁盘大小,该多个磁盘大小包括该第一磁盘参数所指示的磁盘大小。
该计算节点的磁盘有多个磁盘带宽,该多个磁盘带宽包括该第一磁盘参数所指示的磁盘带宽。
结合第三方面,在一些实施方式中,该计算节点所采用的网络协议的类型可以包括多个网络协议类型,该多个网络协议类型可以包括所述第一网络参数所指示的网络协议类型。
结合第三方面,在一些实施方式中,多种配置信息存储于该管理节点中,该多种配置信息可以包括所述第一配置信息。
该第一配置信息为使得:运行第一应用业务或者第二应用业务的该目标计算节点的运行效率高于第一阈值的配置信息。
在一种可能的实现方式中,第一配置信息也可以是指运行效率最高的配置信息。这样,管理节点可以根据作业的作业类型选择出最优系统参数模板,可以提高执行作业时的工作效率。
结合第三方面,在一些实施方式中,该接收单元,还可以用于接收该计算节点发送的特征值;
该处理单元,还可以用于根据该特征值确定出该第一配置信息;
该发送单元,还可以用于当该管理装置接收该第二应用业务时,向该计算节点发送采集指令以及该第二应用业务;
该第二应用业务为业务类型未知的业务,
该采集指令可以用于指示该计算节点采集该特征值,
该特征值为该计算节点基于第一配置信息之前使用的配置信息运行该第二应用业务时所采集的数据。
在一种可能的实现方式中,管理节点所接收到的作业未指明作业类型,未知名作业类型的作业可以被称为第二应用业务。
为了可以高效的执行第二应用业务,管理节点可以根据计算节点执行第二应用业务时所采集的特征值,确定出存储在管理节点中最为相似的作业类型,并以此确定出最为相似的作业类型所对应的最优系统参数模板。
这样,即使管理节点所接收的作业类型未知,也可以通过上述方法来使用最优系统参数模板来执行作业,提高执行作业的效率。
结合第三方面,在一些实施方式中,该第一配置信息用于指示该目标计算节点运行该第一应用业务所采用的配置信息具体包括:
该第一配置信息用于将该目标计算节点中的CPU运行速度调整为该第一中央处理器CPU参数所指示的CPU运行速度、将该目标计算节点中的内存大小或内存带宽中的一项或多项调整为该第一内存参数所指示的内存大小或内存带宽中的一项或多项、将该目标计算节点中的操作系统类型调整为该第一操作系统参数所指示的操作系统类型、将该目标计算节点中的磁盘大小或磁盘带宽中的一项或多项调整为该第一磁盘参数所指示的磁盘大小或磁盘带宽中的一项或多项、将该目标计算节点中的网络协议类型调整为该第一网络参数所指示的网络协议类型运行所述第一应用业务。
这样,计算节点可以根据第一配置信息来调节运行作业时的各个参数,以此来提高运行效率。
结合第三方面,在一些实施方式中,该发送单元还可以用于向该目标计算节点发送回滚指令。
该回滚指令可以用于将该目标计算节点中的配置信息还原为该第一配置信息之前使用的配置信息。
这样,在运行多种作业类型的各个作业时,能够更迅速的调节各个参数。
第四方面,本申请提供了一种计算装置,所述计算装置包括接收单元、计算单元,其中:
所述接收单元,用于接收管理节点发送的第一配置信息以及第一应用业务;
该第一配置信息用于指示该目标计算装置运行该第一应用业务所采用的配置信息。该目标计算装置为该计算装置中的任意一个;
该目标计算装置以及该第一配置信息由该管理节点根据该第一应用业务的业务类型所确定;
所述计算单元,用于根据所述第一配置信息运行该第一应用业务;
其中,该第一配置信息包括:第一中央处理器CPU参数、第一内存参数、第一操作系统参数、第一磁盘参数以及第一网络参数中的一项或多项。
在一种可能的实现方式中,管理节点可以用于接收由本地设备所发送的第一应用业务,管理节点在向该目标计算节点发送所述第一配置信息之后,该目标计算节点可以用于运行第一应用业务并将运行结果发送给存储系统。
由上述方法可知管理节点可以根据第一应用业务的作业类型选择出一系列参数,这样可以提高运行HPC应用软件的效率。计算装置可以根据管理节点发送的一系列参数调整自身运行作业时的各个参数。
这样的方式相比于目前管理人员手动配置参数的方式来说,参数种类更多,并且参数的数据更为细致,能更为精准的调整HPC应用软件的运行效率。并且能更好的提高网络资源以及计算资源的使用率。
结合第四方面,在一些实施方式中,该第一中央处理器CPU参数可以包括CPU运行速度。该第一内存参数可以包括内存大小、内存带宽中一项或多项。该第一操作系统参数可以包括操作系统的类型。该第一磁盘参数可以包括磁盘大小、磁盘带宽中一项或多项。该第一网络参数可以包括网络协议类型。
在一种可能的实现方式中,该第一配置信息还可以包括:是否开启传输控制协议(Transmission Control Protocol,TCP)快速打开(TCP Fast Open,TFO),即TFO参数。具体的,可以将TFO参数设有1、2、3种参数,其中,当TFO参数为参数1时,表示客户端开启TFO,即可以在本地设备中开启TFO;当TFO参数为参数2时,表示服务器开启TFO,即可以在管理节点以及计算节点中开启TFO;当TFO参数为参数3时,表示客户端和服务器都开启TFO,即高性能计算系统中的设备节点均开启TFO。
结合第四方面,在一些实施方式中,该计算装置的CPU运行速度可以包括多个CPU运行速度,该多个CPU运行速度可以包括所述第一中央处理器CPU参数所指示的CPU运行速度。
在一种可能的实现方式中,CPU参数可以是指计算装置执行作业时的CPU的性能参数,CPU参数除了可以指示CPU运行速度,还可以用于指示CPU的运行频率以及时钟信号等等,对此不作限定。
结合第四方面,在一些实施方式中,该计算装置的内存有多个内存大小,该多个内存大小包括所述第一内存参数所指示的内存大小;该计算装置的内存有多个内存带宽,该多个内存带宽包括所述第一内存参数所指示的内存带宽。
结合第四方面,在一些实施方式中,该计算装置所运行的操作系统的类型包括多个操作系统类型,该多个操作系统类型包括所述第一操作系统参数所指示的操作系统类型。
在一种可能的实现方式中,操作系统类型可以包括但不限于Windows系统、Mac系统、Linux系统、Chrome OS系统、UNIX操作系统以及鸿蒙HarmonyOS系统等。
结合第四方面,在一些实施方式中,该计算装置的磁盘有多个磁盘大小,该多个磁盘大小包括该第一磁盘参数所指示的磁盘大小。
该计算装置的磁盘有多个磁盘带宽,该多个磁盘带宽包括该第一磁盘参数所指示的磁盘带宽。
结合第四方面,在一些实施方式中,该计算装置所采用的网络协议的类型可以包括多个网络协议类型,该多个网络协议类型可以包括所述第一网络参数所指示的网络协议类型。
结合第四方面,在一些实施方式中,多种配置信息存储于该管理节点中,该多种配置信息可以包括所述第一配置信息。
该第一配置信息为使得:运行第一应用业务或者第二应用业务的该目标计算装置的运行效率高于第一阈值的配置信息。
在一种可能的实现方式中,第一配置信息也可以是指运行效率最高的配置信息。这样,管理节点可以根据作业的作业类型选择出最优系统参数模板,可以提高执行作业时的工作效率。
结合第四方面,在一些实施方式中,当该管理节点所接收的业务为所述第二应用业务时,该接收单位还可以用于接收该管理节点发送的采集指令以及该第二应用业务。
该第二应用业务为业务类型未知的业务,该采集指令可以用于指示该计算节点采集特征值。
该计算装置还可以包括发送单位,该发送单位可以用于向该管理节点发送该特征值,该特征值为该计算装置基于该第一配置信息之前使用的配置信息运行该第二应用业务时所采集的数据。
该管理节点可以用于根据该特征值确定出该第一配置信息。
在一种可能的实现方式中,管理节点所接收到的作业未指明作业类型,未知名作业类型的作业可以被称为第二应用业务。
为了可以高效的执行第二应用业务,管理节点可以根据计算装置执行第二应用业务时所采集的特征值,确定出存储在管理节点中最为相似的作业类型,并以此确定出最为相似的作业类型所对应的最优系统参数模板。
这样,即使管理节点所接收的作业类型未知,也可以通过上述方法来使用最优系统参数模板来执行作业,提高执行作业的效率。
结合第四方面,在一些实施方式中,该第一配置信息用于指示该目标计算装置运行该第一应用业务所采用的配置信息具体包括:
该第一配置信息用于将该目标计算装置中的CPU运行速度调整为该第一中央处理器CPU参数所指示的CPU运行速度、将该目标计算装置中的内存大小或内存带宽中的一项或多项调整为该第一内存参数所指示的内存大小或内存带宽中的一项或多项、将该目标计算装置中的操作系统类型调整为该第一操作系统参数所指示的操作系统类型、将该目标计算装置中的磁盘大小或磁盘带宽中的一项或多项调整为该第一磁盘参数所指示的磁盘大小或磁盘带宽中的一项或多项、将该目标计算装置中的网络协议类型调整为该第一网络参数所指示的网络协议类型运行所述第一应用业务。
这样,计算装置可以根据第一配置信息来调节运行作业时的各个参数,以此来提高运行效率。
结合第四方面,在一些实施方式中,该目标计算装置中的接收单位可以用于接收该管理节点所发送的回滚指令。
该回滚指令可以用于将该目标计算节点中的配置信息还原为接收该第一配置信息之前使用的配置信息。
这样,在运行多种作业类型的各个作业时,能够更迅速的调节各个参数。
第五方面,本申请实施例提供了一种通信系统,该通信系统包括管理节点和计算节点。
该管理节点包括:一个或多个处理器和存储器;该存储器与该一个或多个处理器耦合,该存储器用于存储计算机程序代码,该计算机程序代码包括计算机指令,该第一设备用于执行如第一方面描述的方法。
该计算节点包括:一个或多个处理器和存储器;该存储器与该一个或多个处理器耦合,该存储器用于存储计算机程序代码,该计算机程序代码包括计算机指令,该第二设备用于执行第二方面描述的方法。
第六方面,本申请实施例提供了一种电子设备,该电子设备包括:一个或多个处理器和存储器;该存储器与该一个或多个处理器耦合,该存储器用于存储计算机程序代码,该计算机程序代码包括计算机指令,该一个或多个处理器调用该计算机指令以使得该电子设备执行如第一方面或第二方面描述的方法。
第七方面,本申请实施例提供一种计算机可读存储介质,包括计算机指令,当上述计算机指令在电子设备上运行时,使得上述电子设备执行如第一方面或第二方面描述的方法。
可以理解地,上述第五方面提供的通信系统、第六方面提供的电子设备和第七方面提供的计算机程序产品均用于执行本申请实施例所提供的方法。因此,其所能达到的有益效果可参考对应方法中的有益效果,此处不再赘述。
附图说明
图1为本申请实施例提供的一种高性能计算系统的框架示意图。
图2A为本申请实施例提供的一种管理节点的结构示意框图。
图2B为本申请实施例提供的一种计算节点的结构示意框图。
图3为本申请实施例提供的一种高性能计算系统的组件示意图。
图4为本申请实施例提供的一种高性能计算应用性能调优的方法的流程示意图。
具体实施方式
下面将结合附图对本申请实施例中的技术方案进行清楚、详尽地描述。其中,在本申请实施例的描述中,除非另有说明,“/”表示或的意思,例如,A/B可以表示A或B;文本中的“和/或”仅仅是一种描述关联对象的关联关系,表示可以存在三种关系,例如,A和/或B,可以表示:单独存在A,同时存在A和B,单独存在B这三种情况,另外,在本申请实施例的描述中,“多个”是指两个或多于两个。
以下,术语“第一”、“第二”仅用于描述目的,而不能理解为暗示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括一个或者更多个该特征,在本申请实施例的描述中,除非另有说明,“多个”的含义是两个或两个以上。
本申请以下实施例中的术语“用户界面(user interface,UI)”,是应用程序或操作系统与用户之间进行交互和信息交换的介质接口,它实现信息的内部形式与用户可以接受形式之间的转换。用户界面是通过java、可扩展标记语言(extensible markuplanguage,XML)等特定计算机语言编写的源代码,界面源代码在电子设备上经过解析,渲染,最终呈现为用户可以识别的内容。用户界面常用的表现形式是图形用户界面(graphicuser interface,GUI),是指采用图形方式显示的与计算机操作相关的用户界面。它可以是在电子设备的显示屏中显示的文本、图标、按钮、菜单、选项卡、文本框、对话框、状态栏、导航栏、Widget等可视的界面元素。
高性能计算(High-performance computing,HPC)可以是指利用聚集起来的计算能力来处理标准工作站无法完成的数据密集型计算任务(例如仿真、建模和渲染等)。也就是说,HPC作为计算机集群系统,可以对大量的计算任务进行分解,还可以由不同的计算节点进行计算,以此来解决大型计算问题。在科学研究、气象预报、仿真实验、生物制药、基因测序、图像处理等行业均有广泛的应用。
一般来说,进行高性能计算的流程为:用户在本地设备上安装有HPC应用软件,并通过HPC应用软件上传数据,也就是上传作业。管理节点接收用户提交的作业脚本,并申请计算资源,将作业分配至计算集群(多个计算节点)上。计算节点运行管理节点所分配的作业,并将运行结果通过网络上传至存储系统。用户可以通过访问存储系统获取作业运行的计算结果。
HPC应用软件的用户期望可以在更短的时间内运行更多的应用以及更多的作业,并且想要通过调整系统参数提高作业效率。而不同的行业的HPC应用软件具有不同的特征(例如,计算密集型、访存密集型、通信密集型、复合型等等),不同的特征所对应的系统参数也有所不同。因此,若想要针对各个特征的应用配置最优的系统参数,需要根据HPC应用软件的类型进行不断调整匹配。
目前,HPC的生产方在出厂HPC设备时基于用户的需求(例如在本地上所运行的HPC应用软件类型)对系统参数进行大量的测试模拟,HPC性能达到用户需求之后再进行生产。这样,由于应用软件类型众多,需要进行多次调试,工作量大。并且当在同一环境下运行多个HPC应用软件时,配置的系统参数对于每一个应用软件而言可能不是最优的,这样可能影响运行效率。
为了解决上述问题,本申请实施例提供了一种高性能计算应用性能调优的方法。
在该方法中,作为调度器的大型小型Linux集群作业调度系统(Simple LinuxUtility for Resource Management,Slurm)可以搭载在管理节点上,管理节点可以对用户提交的作业进行分配处理,并根据作业的作业类型选择出与其匹配的最佳参数调优模板,管理节点可以将最佳参数调优模板与作业发送给计算节点,计算节点根据最佳参数调优模板调整本计算节点的系统参数,再执行作业。
其中,最佳参数调优模板中的系统参数设置可以包括但不限于中央处理器(central processing unit,CPU)的参数配置、内存大小的分配参数、操作系统的参数设置、磁盘的分配参数以及网络的参数设置等等。
通过上述方法,可以根据作业类型配置不同的参数,可以提高运行HPC应用软件的效率,提高执行作业的效率。
并且,本申请实施例提供了高性能计算应用性能调优的方法中所配置的参数相比于目前手动配置参数的类别更多,参数的数据更为细致,可以更好的提高网络资源以及计算资源的使用率。
为了更加清楚地介绍本申请实施例中提供的方法,下面先介绍本申请实施例中提供的高性能计算系统框架。
参考图1,图1示例性示出了本申请实施例中提供的高性能计算系统的框架示意图。
如图1所示,高性能计算系统可以包括但不限于本地设备、交换机、管理节点、多个计算节点以及存储系统等等。
该高性能计算系统可以应用于通过多种类型的HPC应用软件运行作业的场景。
在本申请实施例中,HPC应用软件的类型可以包括但不限于:气象预报(WeatherResearch and Forecasting,WRF)、天气预报前处理(WRF Preprocessing System,WPS)、天气预报数据同化(WRF data assimilation,WRFDA)、全球区域同化预报系统(Global-Regional Assimilation and PrEdiction System,GRAPES)、欧洲海洋模型核心(Nucleusfor European Modelling of the Ocean,NEMO)、通用算子海洋模式(GeneralizedOperators Modelling of Ocean,GOMO)、通用地球系统模式(Community Earth SystemModel,CESM)、基于有限体积法的开源场的操作系统(Open Field Operation andMunipilation,OpenFOAM)(例如应用于流体力学或工业制造方面等)、电子结构计算和量子力学-分子动力学模拟软件包(Vienna Ab-initio Simulation Package、VASP)(例如应用于材料模拟和计算物质科学方面等)、格罗宁根化学模拟机(GROningen MAchine forChemical Simulations、GROMACS)(例如应用于分子动力学模拟等)、纳米级粒度分子动力学(Nanoscale Molecular Dynamics,NAMD)(例如应用于分子动力学模拟等)、大规模原子分子并行模拟器(Large-scale Atomic/Molecular Massively Parallel Simulator,LAMMPS)(例如应用于分子动力学模拟等)、quantum-espresso(例如应用于量子化学方面等)、CP2K模拟软件(例如应用于量子化学方面等)、NWchem计算化学软件(例如应用于量子化学方面等)、数字孪生工具包(Unity Manufacturing Toolkits,UMT)(例如应用于高能物理方面等)、蒙特卡洛盒子定位(monte-carlolocationboxed,mcb)等等。
值得说明的是,在本申请实施例中,对上述HPC应用软件的类型不作限定,可以包括其他类型的HPC应用软件。
其中,本地设备可以是指用户使用的输入作业脚本的电子设备,电子设备可以是手机、平板电脑、桌面型计算机、膝上型计算机、手持计算机、笔记本电脑、超级移动个人计算机(ultra-mobile personal computer,UMPC)、上网本,以及蜂窝电话、个人数字助理(personal digital assistant,PDA)、增强现实(augmented reality,AR)设备、虚拟现实(virtual reality,VR)设备、人工智能(artificial intelligence,AI)设备、可穿戴式设备、车载设备、智能家居设备和/或智慧城市设备,本申请实施例对该电子设备的具体类型不作特殊限制。
本地设备中的通信模块(有线通信模块或者无线通信模块)可以向管理节点发送作业并接收管理节点所发送的作业执行结束的消息。
在一些实现方式中,在计算节点得到最优系统参数模板之后,本地设备中的显示屏的用户界面可以弹出提示信息,该提示信息用于提示用户计算节点运行作业时使用的最优系统参数模板。在计算节点得到作业运行结果之后,本地设备中的显示屏的用户界面也可以弹出提示信息,该提示信息用于提示用户可以访问运行结果。
在一些实施例中,用户所提交的作业脚本可以包括但不限于:作业名称、作业类型、作业的任务属性等等。
其中,任务属性可以是指扫描任务的起始值和结束值,例如,用户可以将起始值设置为“0”,最终值输入为“9”。
任务属性还可以是指扫描任务的每个步骤的增量,例如,用户可以将增量值设置为“1”或者HPC应用软件针对于增量值设置有默认值。
任务属性还可以是指扫描任务的命令行,例如,用户可以输入命令行“AsianOptions.exe1.0*”。
任务属性还可以是指工作目录以及文件位置,例如,用户可以输入\\<headnode>\Applications,其中<headnode>为具体的头节点名。在本申请实施例中,任务属性还可以包括更多或更少的信息,对此不作限定。
管理节点可以是一个或者多个,除了图1示出的管理节点的数量以外,还可以存在多个管理节点,例如,管理节点的数量可以为2,一个为主管理节点,一个为次管理节点。
管理节点用于管理计算节点与存储系统。具体的,管理节点可以搭载有Slurm,对用户上传的作业进行分配处理,并可以选择运行作业的计算节点,还可以匹配出作业所对应的最优系统参数模板并指示指定的计算节点调整自身的系统参数。除此之外,还可以确定计算节点运行结果所存储的存储系统。
为了更好的理解管理节点的分配处理功能,下面具体介绍Slurm作业调度系统。
Slurm作为一种可用于大型计算节点集群的高度可伸缩和容错的集群管理器和作业调度系统,被世界范围内的超级计算机和计算集群广泛采用。Slurm可以维护待处理工作的队列并管理整体网络资源利用。Slurm还可以为任务队列合理地分配资源,并监视作业至其完成。在本申请实施例中,管理节点使用的是Slurm作业调度系统,在一些可能的实现方式中,在采用本申请实施例提供的高性能计算应用性能调优的方法的情况下,也可以使用其他作业调度系统。
在一些实现方式中,管理节点可以为一个硬件装置,如服务器、路由器等等,也可以只一个软件装置(例如为运行在硬件装置上的软件程序),在本申请实施例中,对此不作限定。
多个计算节点可以组成计算集群。计算节点可以接收管理节点发送的分配任务,执行计算任务(例如,执行作业或运行作业),并将运行结果发送至存储设备。
在本申请实施例中,计算节点还可以接收管理节点发送的最优系统参数模板,并根据最优系统参数模板的设置调整自身的参数配置,然后执行作业,以此提高软件应用运行作业的性能。
在一些实现方式中,计算节点可以是硬件装置,如服务器等。
存储系统可以存储作业运行之后得到的运行结果。存储系统可以是分布式存储的方式,可以包括多个存储节点,存储节点可以为服务器,存储系统可以提供文件存储服务,一般来说,为了向用户提供更好的存储服务,存储系统中的存储节点大多为实体设备,并非虚拟设备。
交换机(Ethernet switch)作为一种用于电信号转发的网络设备,可以为接入交换机的任意两个节点提供独享的电信号通路。从传输介质和传输速度方面上看,交换机可以分为以太网交换机、快速以太网交换机、千兆以太网交换机、光纤分布式数据接口(FiberDistributed Data Interface,FDDI)交换机、异步传输模式(Asynchronous TransferMode,ATM)交换机和令牌环交换机等。
具体的,考虑交换机在系统中的位置以及传输数据的方式,在如图1所示的高性能计算系统框架中,连接在本地设备与管理节点之间的交换机可以为千兆以太网交换机,连接在管理节点与计算节点之间的交换机可以为以太网交换机。在本申请实施例中,对高性能计算系统框架中采用的交换机的种类不作限定。
下面具体介绍本申请实施例中提供的管理节点以及计算节点。
参考图2A,图2A为本申请实施例中提供的管理节点的结构示意图。在图2A中,以管理节点为服务器100为例来进行介绍。
如图2A所示,服务器100可以包括:一个或者多个处理器101、存储器102、通信接口103、发射器105、接收器106、耦合器107以及天线108。
上述部件可以通过总线104或者其他方式进行连接,图2A是以通过总线连接为例。其中:
在本申请实施例中,处理器101可以用于读取和执行计算机可读指令。
具体的,处理器101可以用于调用存储于存储器102中的程序,例如本申请实施例提供的高性能计算应用性能调优的方法在服务器100的实现程序,并执行该程序包含的指令。
处理器101还可以用于根据作业类型选择出最优系数参数模板。
可选的,处理器101可以为中央处理器(Central Processing Unit,CPU),还可以集成为多核处理器。
存储器102与处理器101耦合,用于存储各种软件程序和/或多组计算机指令。具体的,存储器102可包括高速随机存取的存储器,并且也可包括非易失性存储器(如只读存储器(Read-Only Memory,ROM)、固态硬盘(Solid StateDisk,SSD)、硬盘(Hard Disk Drive,HDD)),例如一个或多个磁盘存储设备、闪存设备或其他非易失性固态存储设备。
存储器102可以存储实现本申请实施例提供的高性能计算应用性能调优的方法所需的计算机指令和数据。例如,存储器102存储用于实现本申请实施例提供的匹配最优系数模板步骤的指令。
存储器102还可以存储多种类型应用程序所匹配的最优系数模板步骤的指令。
存储器102可以存储操作系统(下述简称系统),例如uCOS、VxWorks、RTLinux等嵌入式操作系统。存储器102还可以存储网络通信程序,该网络通信程序可用于与计算节点以及本地设备进行通信。
通信接口103可用于服务器100与其他设备(例如计算节点、本地设备)进行数据通信。具体的,通信接口103可以是3G通信接口、长期演进(LTE)(4G)通信接口、5G通信接口、WLAN通信接口、WAN通信接口等等。不限于无线通信接口,服务器100还可以配置有线的通信接口103来支持有线通信。在一些实现方式中,通信接口103可以接收本地设备所发送的作业。
发射器105和接收器106可看作一个无线调制解调器。发射器105可用于对处理器101输出的信号进行发射处理。接收器106可用于接收信号。
在服务器100中,发射器105和接收器106的数量均可以是一个或者多个。
天线108可用于将传输线中的电磁能转换成自由空间中的电磁波,或者将自由空间中的电磁波转换成传输线中的电磁能。
耦合器107可用于将移动通信号分成多路,分配给多个的接收器106。可理解的,网络设备的天线108可以实现为大规模天线阵列。
在一些实现方式中,发射器105可以用于发送调优指令、采集指令以及回调指令。接收器106可以接收其他设备响应于调优指令、采集指令以及回调指令的反馈指令。
需要说明的,图2A所示的服务器100仅仅是本申请实施例的一种实现方式,实际应用中,服务器100还可以包括更多或更少的部件,这里不作限制。
参考图2B,图2B为本申请实施例中提供的计算节点的结构示意图。在图2B中,以计算节点为服务器200为例来进行介绍。值得说明的是,高性能计算系统框架中可以包含多个服务器200。
如图2B所示,服务器200可以包括:一个或者多个处理器201、存储器202、通信接口203、发射器205、接收器206、耦合器207以及天线208。上述部件可以通过总线204或者其他方式进行连接,图2B是以通过总线连接为例。其中:
在本申请实施例中,处理器201可以用于读取和执行计算机可读指令。具体的,处理器201可以用于调用存储于存储器202中的程序,例如本申请实施例中提供的高性能计算应用性能调优的方法在服务器200的实现程序,并执行该程序包含的指令。处理器201还可以用于根据管理节点发送的最优系数参数模板运行作业。可选的,处理器201可以为CPU,还可以集成为多核处理器。
存储器202与处理器201耦合,用于存储各种软件程序和/或多组计算机指令。具体的,存储器202可包括高速随机存取的存储器,并且也可包括非易失性存储器(如ROM、SSD、HDD),例如一个或多个磁盘存储设备、闪存设备或其他非易失性固态存储设备。
存储器202可以存储实现本申请实施例提供的高性能计算应用性能调优的方法所需的计算机指令和数据。例如,存储器202存储用于实现本申请实施例提供的运行作业步骤的指令。
存储器202还可以多种运行作业步骤的指令。
存储器202可以存储操作系统(下述简称系统),例如uCOS、VxWorks、RTLinux等嵌入式操作系统。存储器202还可以存储网络通信程序,该网络通信程序可用于与其他服务器200以及管理节点进行通信。
通信接口203可用于服务器200与其他设备(例如管理节点、其他计算节点)进行数据通信。具体的,通信接口203可以是3G通信接口、长期演进(LTE)(4G)通信接口、5G通信接口、WLAN通信接口、WAN通信接口等等。不限于无线通信接口,服务器200还可以配置有线的通信接口203来支持有线通信。
发射器205和接收器206可看作一个无线调制解调器。发射器205可用于对处理器201输出的信号进行发射处理。接收器206可用于接收信号。
在服务器200中,发射器205和接收器206的数量均可以是一个或者多个。
天线208可用于将传输线中的电磁能转换成自由空间中的电磁波,或者将自由空间中的电磁波转换成传输线中的电磁能。
耦合器207可用于将移动通信号分成多路,分配给多个的接收器206。可理解的,网络设备的天线208可以实现为大规模天线阵列。
在一些实现方式中,接收器206可以用于接收调优指令、采集指令以及回调指令。发射器205可以用于发送响应于调优指令、采集指令以及回调指令的多个反馈指令。
需要说明的,图2B所示的服务器200仅仅是本申请实施例的一种实现方式,实际应用中,服务器200还可以包括更多或更少的部件,这里不作限制。
下面介绍本申请实施例中提供的高性能计算系统的组件示意图。
参考图3,图3示例性示出了本申请实施例提供的高性能计算系统的组件示意图。值得说明的是,图3所示的组件示意图为一个管理节点与两个计算节点所构成的高性能计算系统。在本申请实施例中,对计算节点的个数不作限制,高性能计算系统可以是由多个管理节点以及多个计算节点组成的。
如图3所示,本申请实施例提供的高性能计算应用性能调优的方法主要包括以下组件:调优触发器(Trigger)、调优服务器(Server)、调优Agent。
其中,调优Trigger可以设置在管理节点上,调优Server也可以设置管理节点上,调优Agent可以设置在各个计算节点上。也就是说,各个计算节点上都安装有调优Agent。
可选地,调优Server除了可以设置在管理节点上还可以独立设置在其他硬件装置上,在本申请实施例中对此不作限定,以下实施例以调优Server设置在管理节点上为例。
在本申请实施例中,不限于上述调优触发器(Trigger)、调优服务器(Server)、调优Agent三个组件,还可以包括更多组件,在此不作赘述。
其中,调优Trigger可以用于接收作业消息(例如,作业类型、作业标识、所分配的计算节点的标识)。在一些实现方式中,调优Trigger可以接收Slurm发送的作业消息。具体的,用户上传作业至管理节点之后,Slurm将作业排列在执行队伍中等待分配,然后Slurm可以通过设置环境变量的方式将作业信息传递给调优Trigger。
在一些实现方式中,管理节点需要在Slurm的配置文件Slurm.conf中的配置项PrologSlurmctld和EpilogSlurmctld中分别配置上调优Triggrt,这样可以捕获作业开始和作业结束事件。
调优Trigger还可以用于发送调优指令、采集指令至调优Server。
在一些实现方式中,调优Trigger可以在运算作业结束之后,向调优Server发送回滚指令。
调优Server可以用于接收调优Trigger的调优指令,还可以选择出最优系统参数模板,并将调优指令下发至调优Agent。
在一些实施例中,调优Server可以根据调优Trigger接收到的作业类型,从模板数据库中选择出该作业类型对应的最优系统参数模板,然后再根据调优Trigger接收到的所分配的计算节点信息以及作业标识,向对应的计算节点中的调优Agent下发调优指令。
在一种可能的实现方式中,若用户所提交的作业未指定类型,则调优Server还需要向调优Agent下发作业特征值采集命令。调优Server可以根据该作业特征值匹配出最优系统参数模板。在这里,对如何根据作业特征值采集的方式匹配到最优系统参数模板不做详细介绍,可以参考下述具体方法流程中的内容。
在一些实现方式中,已指定类型的作业或调优Server可以识别出作业类型的作业可以被称为第一应用业务,未指定作业类型并且可以使用第一应用业务的最优系统参数模板进行运算的作业可以被称为第二应用业务。
在一些实现方式中,在运行作业完成之后,调优Server可以接收到调优Trigger发送的回滚指令,并将回滚指令下发至调优Agent。
在一些实现方式中,调优Server可以通过在CPU空闲时发送调优指令来维护待处理工作的队列。
调优Agent可以接收调优Server发送的调优指令、采集指令以及回滚指令。
在一些实现方式中,调优Agent可以根据调优Server所发送的最优系统参数模板对参数进行修改,具体的,可以通过调用系统命令或者接口对参数进行修改。
调优Agent还可以对修改之前的默认参数进行保存,以便在运行作业结束之后对参数进行回滚处理,即将各个计算节点中的参数恢复至默认参数。
可选的,当调优Agent接收到来自于调优Server的作业特征值采集命令之后,可以使用perf和vtune等工具对作业进行特征值数据采集。其中,perf和vtune等工具是用来进行软件性能分析的工具,它可以利用PMU,tracepoint和内核中的特殊计数器来进行性能统计,以此来获得可以分析作业类型进行的数据。
具体的,调优Agent可以使用默认参数的情况下运行未指定作业类型的作业,并使用工具对运行中的作业进行特征值采集,一段时间之后将采集到的数据发送给调优Server进行作业类型的分析识别。
基于图3所示的组件框架图,下面介绍本申请实施例中提供的一种高性能计算应用性能调优的方法。该实施例以调优Trigger、调优Server安装在管理节点上,调优Agent安装在计算节点上为例来介绍高性能计算应用性能调优的方法。
图4示例性示出了本申请实施例中提供的一种高性能计算应用性能调优的方法的流程示意图。
S401、管理节点接收本地设备发送的作业。
在一些实现方式中,本地设备可以基于用户操作生成作业,本地设备可以将作业发送给管理节点。
其中,本地设备可以指定作业类型,具体的,本地设备可以通过运行多种HPC应用软件来生成不同类型的作业。
可选的,本地设备可以不指定作业类型,在后续的步骤中作业类型可以由调优Server识别出来。针对HPC应用软件类型的详细介绍可以参考前述部分,对此不作赘述。
S402、Slurm可以根据作业得到相关信息,并将相关信息发送给调优Trigger。
在一些实现方式中,管理节点上安装有Slurm,Slurm可以用于分配作业。
具体的,当管理节点接收到作业之后,Slurm可以获得作业类型,并根据作业的计算量、复杂程度、操作步骤以及可用资源等因素设置指定的计算节点进行作业计算,可理解的是,作业类型包括作业的计算量、复杂程度、操作步骤以及可用资源。
Slurm根据作业得到的相关信息可以包括但不限于:作业类型、作业ID、所分配的计算节点的标识等等,还可以包括其他信息,对此不作限定。
Slurm可以基于prolog机制发生将相关信息给调优Trigger。其中,prolog机制为Slurm特有的前处理机制。
在一些实现方式中,Slurm通过调优Trigger分配作业可以是指Slurm触发作业分配事件。
在一些实现方式中,管理节点指定根据最优系统参数模板执行作业的计算节点可以被称为目标计算节点。
S403、调优Trigger将调优指令以及相关信息发送给调优Server。
在一些实现方式中,管理节点上设置有调优Trigger以及调优Server,同一管理节点的调优Trigger可以将调优指令以及相关信息发送给同一管理节点的调优Server。调优Trigger所发送的调优指令用于指示调优Server根据作业的相关信息来匹配出最优系统参数模板。其中,相关信息可以包括但不限于:作业类型、作业ID、所分配的计算节点的标识等等。
S404、调优Server可以根据作业类型,从模板数据库中匹配出最优系统参数模板。
在一些实现方式中,管理节点中的模板数据库中存储多种作业类型以及与其匹配的多种系统参数模板。上述匹配可以是指若运行作业时采用的是其匹配的系统参数模板,则计算节点运行作业的效率是采用多种系统参数模板中最高的。上述多种作业类型可以参考上述HPC应用软件类型,不同的HPC应用软件所生成的作业类型可以不同。
管理节点可以通过各种运行HPC应用软件生成的大量作业来得到系统参数模板。
例如,在正式执行作业之前,计算节点运行A类型的HPC应用软件所生成的多个作业,管理节点再通过数据分析的算法或者是深度学习的方法进行分析得出A类型的HPC应用软件对应的最优系统参数模板;
或者,计算节点运行A类型的HPC应用软件所生成的一个或多个作业,并且每个作业进行多次执行,每次执行计算节点配置有不同的系统参数,管理节点通过分析每次执行时的效果来分析得出A类型的HPC应用软件对应的最优系统参数模板。
在本申请实施例中,对计算节点中多种系统参数模板的获取方式不作限定,除了上述两种实现方式,还可以存在其他实现方式。
在一些实现方式中,最优系统参数模板可以被称为第一配置信息。
在一些实现方式中,管理节点中的模板数据库中存储的系统参数模板所包含的具体参数信息可以包括但不限于:CPU参数、内存参数、操作系统(Operating System,OS)参数、磁盘参数以及网络参数等等。在本申请实施例中,还可以包括更多具体参数,对此不作限定。
在一些实现方式中,最优系统参数模板中的CPU参数可以被称为第一中央处理器CPU参数,最优系统参数模板中的内存参数可以被称为第一内存参数,最优系统参数模板中的OS参数可以被称为第一操作系统参数,最优系统参数模板中的磁盘参数可以被称为第一磁盘参数,最优系统参数模板中的网络参数可以被称为第一网络参数。
其中,CPU参数可以是指计算节点执行作业时的CPU的性能参数。例如,CPU参数可以是指CPU的运行速度。具体的,可以将一个CPU的执行能力分为多个等级,根据不同的作业可以设置有不同的等级,一般来说,等级越高,CPU的执行能力越强。
值得说明的是,这里提及的CPU参数区别于CPU的个数参数,CPU的个数在调优Server设置指定的计算节点时已确定,指定的计算节点所包含的CPU个数在计算节点出厂时也已确定,计算节点中的CPU个数即为执行作业时的CPU个数。因此本申请实施例中所调整的CPU参数并非CPU的个数参数。这样,通过设置CPU参数来更加合理、更加充分的分配CPU资源。
例如,CPU的参数可以为CPU根据不同作业所调整的CPU的运行频率,时钟信号等参数。
内存参数可以是指计算节点执行作业时可使用的内存大小或内存带宽中的一项或多项。内存用于暂时存放处理器中的运行数据。
在一些实现方式中,设定内存参数可以在不浪费资源的前提下保证作业高效的完成,还可以防止运行作业中内存泄露并保证各个作业在各自的内存空间中运行,互不冲突。设置合适的内存大小和内存带宽既可以避免使用过大的内存大小和内存带宽时出现浪费资源的情况,还可以避免出现使用过小的内存大小和内存带宽时出现数据溢出的情况。
OS参数可以是指计算节点执行作业时所搭载的操作系统,例如Windows系统、Mac系统、Linux系统、Chrome OS系统、UNIX操作系统以及鸿蒙HarmonyOS系统等。在一种可能的实现方式中,存在某些HPC应用软件对OS有限制的情况,因此需要根据HPC应用软件自身的操作系统设置来选择出合适的计算节点,或者在指定的计算节点上选择出合适的操作系统。
磁盘参数可以是指计算节点中的存储介质。例如磁盘参数可以用来指示磁盘大小或磁盘带宽中的一项或多项。计算节点可以根据不同的作业类型来分配不同的磁盘大小或磁盘带宽,以此来优化执行作业时的工作效率以及工作速度。在一些实现方式中,运行作业时需要在磁盘上建立文件以及删除文件等操作,这样需要根据运行作业所需的资源合理化的分配磁盘资源。
除此之外,具体参数还可以包括是否开启传输控制协议(Transmission ControlProtocol,TCP)快速打开(TCP Fast Open,TFO)。
TFO作为计算机网络中TCP连接的一种简化握手手续的拓展,可以用于提高两端点间连接的打开速度。由于,TFO相对于TCP修改了三次握手时的数据交换,具体优化内容在此不做赘述,在一种可能的实现方式中,TFO相对于TCP在客户端页面加载时间优化大约提升了4%~5%,平均性能提升大约在25%。因此,计算节点可以在系统参数模板中设置有TFO参数。
具体的,可以将TFO参数设有1、2、3种参数,其中,当TFO参数为参数1时,表示客户端开启TFO,即可以在本地设备中开启TFO;当TFO参数为参数2时,表示服务器开启TFO,即可以在管理节点以及计算节点中开启TFO;当TFO参数为参数3时,表示客户端和服务器都开启TFO,即高性能计算系统中的设备节点均开启TFO。
可选的,可以将默认参数中TFO参数设为参数1。值得说明的是,上述TFO参数的相关设定仅为示例性说明,在本申请实施例中,TFO参数可以有其他设定方式。
S405、调优Server将调优指令、作业以及最优系统参数模板发送至调优Agent。
在一些实现方式中,每一个计算节点上都可以设置有调优Agent。
当运行作业的队伍没有阻塞的情况下,调优Server可以将调优指令发生给指定的计算节点(即目标计算节点)中的调优Agent,同时将作业以及最优系统参数模板发送至调优Agent。
也就是说,管理节点可以通过将作业以及对应的最优系统参数模板发送至指定的计算节点来完成其分配作业的功能。
调优Server所发送的调优指令用于指示计算节点根据调优Server所发送的最优系统参数模板来调整自身的系统参数,以提高运行作业的效率。
S406、调优Agent可以根据最优系统参数模板运行作业得到作业结果,并将作业结果发送至存储设备。
在一些实现方式中,管理节点指定的计算节点可以根据最优系统参数模板运行作业,管理节点未指定的计算节点(计算节点中除目标节点外的其他计算节点)可以不接收管理节点发送的调优指令、作业以及最优系统参数模板,也不运行作业。
在调优Agent接收调优指令之前,目标计算节点中的系统参数为默认参数。其中,默认参数可以是计算节点在出厂时所设置的参数配置,也可以是管理节点所发送给计算节点的参数配置,对此不做限定。
调优Agent在接收调优指令之后,可以根据所接收的最优系统参数模板调整计算节点的系统参数。
可选的,在调整系统参数之前,调优Agent可以将默认参数存储在计算节点中,以便后续进行系统参数的回滚处理。
在调优Agent对计算节点中的系统参数进行调整之后,可以运行管理节点所发送的作业计算节点在进行参数调整之后执行作业具有较高执行效率以及较合理的资源分配。
在计算节点运行作业结束之后,计算节点可以将作业结果发送至存储设备。
在一些实现方式中,管理节点可以指定特定的存储设备来存储作业结果,也可以由计算节点来选组存储设备,并将所选择的存储设备的信息发送给管理节点。
在一些实现方式中,作业结果可以存储在存储设备中,用户可以通过访问存储设备来获取作业结果。具体的,本地设备可以基于用户的输入操作来访问存储设备。
值得说明的是,当执行上述S403之后,若调优Server接收到的作业的相关信息中包含作业类型,或调优Server可以根据本地设备提交的作业来识别出作业类型,则执行上述S403-S404。
可选的,当执行上述S403之后,调优Server接收到的作业的相关信息中不包含作业类型,并且调优Server根据本地设备提交的作业无法识别出作业类型,那么可以由执行以下S407-S410来替换执行上述S403-S404。
下面所示的S407-S410具体介绍在作业的作业类型未知的情况下如何获取到最优系统参数模板。
S407、调优Server将采集指令以及作业发送至调优Agent。
在一些实现方式中,调优Server可以将采集命令发送给计算节点中调优Agent,同时将作业也发送至调优Agent。
也就是说,管理节点可以通过将采集指令以及作业发送至指定的计算节点来完成作业类型识别的功能。采集指令用于指示在计算节点以默认参数模板运行作业时,通过perf或vtune等工具来采集特征值。
S408、调优Agent可以通过在默认参数模板下运行作业从而采集到作业的特征值。
在一些实现方式中,管理节点可以运行作业。具体的,调优Agent可以在计算节点中的系统参数为默认参数的情况下运行作业。
在一些实现方式中,调优Agent在接收到采集命令之后,可以在系统参数为默认参数的情况下运行作业。调优Agent还可以在运行作业时,对作业执行过程中的数据以及作业结果进行数据采集。例如,调优Agent可以通过perf工具或者vtune工具进行数据采集,得到特征值。
在一些实现方式中,调优Agent可以在一段固定的时间内运行作业时,对作业执行过程中的数据以及作业结果进行数据采集,上述固定的时间可以有管理节点所确定并发送给计算节点。
S409、调优Agent将采集到的特征值发送至调优Server。
在一些实现方式中,在计算节点采集到特征值之后,可以将特征值发送给管理节点。具体的,在调优Agent采集特征值之后,可以将特征值发送给调优Server。
S410、调优Server可以对调优Agent发送的特征值进行分析得到相类似的作业类型,并在调优Server中的模板数据库中进行匹配对比,进而匹配出最优系统参数模板。
在一些实现方式中,调优Server中可以存储有多种系统参数模板以及多种已知的作业类型。
调优Server在接收到调优Agent发送的特征值之后,可以根据该特征值分析得到相类似的已知的作业类型。上述相类似可以是指运行未知作业类型的作业时所需的条件、环境以及配置与管理节点中所存储的已知的作业类型的作业所需的条件、环境以及配置相类似。也就是说以相类似的作业类型所匹配的最优系统参数模板来运行未知作业类型的作业是多种系统参数模板中运行效率最高的。
调优Server再根据相类似的作业类型匹配出最优系统参数模板。这样,可以实现即使在本地设备提交的作业未指定作业类型的情况下,也选择出该未指定作业类型所匹配的最佳参数模板。
在调优Agent完成作业运行之后,即执行上述S406之后,还可以对计算节点的系统参数进行回滚处理。
下面具体介绍本申请实施例中提供的高性能计算应用性能调优的方法如何对参数进行回滚处理。
在一些实现方式中,调优Agent完成作业运行之后,可以向调优Trigger发送作业结束消息。
调优Trigger在接收到作业结束的消息之后,基于Slurm的epilog机制,触发作业结束事件,向调优Server发送回滚指令,同时发送作业的相关信息以确定进行回滚处理的计算节点的标识以及进行修改前后的具体参数。其中,上述epilog机制是Slurm特有的后处理机制,用于提醒高性能计算系统Slurm已完成分配任务。
调优Server在接收到调优Trigger回滚指令之后,向需要进行回滚处理的调优Agent发送回滚指令。调优Agent在接收到调优Server发送的回滚指令之后,根据之前所存储在计算节点中的默认参数进行系统参数的调整,这样可以避免影响非同类型作业的运行时设定系统参数。
在一些实现方式中,高性能计算系统可以完成提交作业、分配作业、运行作业以及作业完成等步骤,具体流程可以参考图4所示的方法流程图。值得说明的是,高性能计算系统完成一个作业之后,可以开始执行下一个作业的提交作业步骤,以此来保证作业队伍处于有序状态。
通过上述方法,可以基于Slurm进行作业的分配,还可以根据作业类型配置不同的参数,无须用户再次手动操作进行参数配置,可以提高运行HPC应用软件的效率,提高执行作业的效率,可以在作业结束之后对参数进行回滚处理,这样可以避免不同类型的作业运行时相互影响。并且,本申请实施例提供了高性能计算应用性能调优的方法中所配置的参数相比于目前手动配置参数的类别更多,参数的数据更为精确细化,可以更好的提高网络资源以及计算资源的使用率。
本申请的各实施方式可以任意进行组合,以实现不同的技术效果。
在上述实施例中,可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时,可以全部或部分地以计算机程序产品的形式实现。所述计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行所述计算机程序指令时,全部或部分地形成按照本申请所述的流程或功能。所述计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中,或者从一个计算机可读存储介质向另一个计算机可读存储介质传输,例如,所述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线)或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。所述计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质,(例如,软盘、硬盘、磁带)、光介质(例如,DVD)、或者半导体介质(例如固态硬盘(solidstate disk,SSD))等。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,该流程可以由计算机程序来指令相关的硬件完成,该程序可存储于计算机可读取存储介质中,该程序在执行时,可包括如上述各方法实施例的流程。而前述的存储介质包括:ROM或随机存储记忆体RAM、磁碟或者光盘等各种可存储程序代码的介质。
总之,以上所述仅为本发明技术方案的实施例而已,并非用于限定本发明的保护范围。凡根据本发明的揭露,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (19)

1.一种计算节点的配置方法,所述方法应用于管理节点,所述计算节点为至少一个,其特征在于,所述方法包括:所述管理节点接收第一应用业务;
所述管理节点根据所述第一应用业务的业务类型确定第一配置信息和目标计算节点;
所述目标计算节点为所述计算节点中的任意一个;
所述第一应用业务为所述管理节点分配给所述目标计算节点进行执行的业务;
所述管理节点向所述目标计算节点发送所述第一配置信息;所述第一配置信息用于指示所述目标计算节点运行所述第一应用业务所采用的配置信息,多种配置信息存储于所述管理节点中,所述多种配置信息包括所述第一配置信息,所述第一配置信息为使得:运行所述第一应用业务或第二应用业务的所述目标计算节点的运行效率高于第一阈值的配置信息;
其中,所述第一配置信息包括:第一中央处理器CPU参数、第一内存参数、第一操作系统参数、第一磁盘参数以及第一网络参数中的一项或多项;
当所述管理节点接收第二应用业务时,所述管理节点向所述计算节点发送采集指令以及所述第二应用业务,所述第二应用业务为业务类型未知的业务,所述采集指令用于指示所述计算节点采集特征值;
所述管理节点接收所述计算节点发送的所述特征值,所述特征值为所述计算节点基于所述第一配置信息之前使用的配置信息运行所述第二应用业务时所采集的数据;
所述管理节点根据所述特征值确定出所述第一配置信息。
2.根据权利要求1所述的方法,其特征在于,所述第一中央处理器CPU参数包括CPU运行速度;所述第一内存参数包括内存大小、内存带宽中一项或多项;所述第一操作系统参数包括操作系统的类型;所述第一磁盘参数包括磁盘大小、磁盘带宽中一项或多项;所述第一网络参数包括网络协议类型。
3.根据权利要求2所述的方法,其特征在于,所述计算节点的CPU运行速度包括多个CPU运行速度,所述多个CPU运行速度包括所述第一中央处理器CPU参数所指示的CPU运行速度。
4.根据权利要求2或3所述的方法,其特征在于,所述计算节点的内存有多个内存大小,所述多个内存大小包括所述第一内存参数所指示的内存大小;所述计算节点的内存有多个内存带宽,所述多个内存带宽包括所述第一内存参数所指示的内存带宽。
5.根据权利要求2或3所述的方法,其特征在于,所述计算节点所运行的操作系统的类型包括多个操作系统类型,所述多个操作系统类型包括所述第一操作系统参数所指示的操作系统类型。
6.根据权利要求2或3所述的方法,其特征在于,所述计算节点的磁盘有多个磁盘大小,所述多个磁盘大小包括所述第一磁盘参数所指示的磁盘大小;所述计算节点的磁盘有多个磁盘带宽,所述多个磁盘带宽包括所述第一磁盘参数所指示的磁盘带宽。
7.根据权利要求2或3所述的方法,其特征在于,所述计算节点所采用的网络协议的类型包括多个网络协议类型,所述多个网络协议类型包括所述第一网络参数所指示的网络协议类型。
8.根据权利要求2或3所述的方法,其特征在于,所述第一配置信息用于指示所述目标计算节点运行所述第一应用业务所采用的配置信息具体包括:
所述第一配置信息用于将所述目标计算节点中的CPU运行速度调整为所述第一中央处理器CPU参数所指示的CPU运行速度、将所述目标计算节点中的内存大小或内存带宽中的一项或多项调整为所述第一内存参数所指示的内存大小或内存带宽中的一项或多项、将所述目标计算节点中的操作系统类型调整为所述第一操作系统参数所指示的操作系统类型、将所述目标计算节点中的磁盘大小或磁盘带宽中的一项或多项调整为所述第一磁盘参数所指示的磁盘大小或磁盘带宽中的一项或多项、将所述目标计算节点中的网络协议类型调整为所述第一网络参数所指示的网络协议类型运行所述第一应用业务。
9.根据权利要求1-3中任一项所述的方法,其特征在于,所述方法还包括:
所述管理节点向所述目标计算节点发送回滚指令;所述回滚指令用于将所述目标计算节点中的配置信息还原为接收所述第一配置信息之前使用的配置信息。
10.一种管理装置,所述管理装置包括接收单元、处理单元以及发送单元,其中:
所述接收单元,用于接收第一应用业务;
所述处理单元,用于根据所述第一应用业务的业务类型确定第一配置信息和目标计算节点,所述目标计算节点为计算节点中的任意一个;
所述发送单元,用于向所述目标计算节点发送所述第一配置信息;所述第一配置信息包括第一中央处理器CPU参数、第一内存参数、第一操作系统参数、第一磁盘参数以及第一网络参数中的一项或多项;所述第一应用业务为所述管理装置分配给所述目标计算节点进行执行的业务;所述第一配置信息用于指示所述目标计算节点运行所述第一应用业务所采用的配置信息,多种配置信息存储于所述管理装置中,所述多种配置信息包括所述第一配置信息,所述第一配置信息为使得:运行所述第一应用业务的所述目标计算节点的运行效率高于第一阈值的配置信息;
所述接收单元,还用于接收所述计算节点发送的特征值;
所述处理单元,还用于根据所述特征值确定出所述第一配置信息;
所述发送单元,还用于当所述管理装置接收第二应用业务时,向所述计算节点发送采集指令以及所述第二应用业务;
所述第二应用业务为业务类型未知的业务;所述采集指令用于指示所述计算节点采集所述特征值;所述特征值为所述计算节点基于所述第一配置信息之前使用的配置信息运行所述第二应用业务时所采集的数据。
11.根据权利要求10所述的装置,其特征在于,所述第一中央处理器CPU参数包括CPU运行速度;所述第一内存参数包括内存大小、内存带宽中一项或多项;所述第一操作系统参数包括操作系统的类型;所述第一磁盘参数包括磁盘大小、磁盘带宽中一项或多项;所述第一网络参数包括网络协议类型。
12.根据权利要求11所述的装置,其特征在于,所述计算节点的CPU运行速度包括多个CPU运行速度,所述多个CPU运行速度包括所述第一中央处理器CPU参数所指示的CPU运行速度。
13.根据权利要求11或12所述的装置,其特征在于,所述计算节点的内存有多个内存大小,所述多个内存大小包括所述第一内存参数所指示的内存大小;所述计算节点的内存有多个内存带宽,所述多个内存带宽包括所述第一内存参数所指示的内存带宽。
14.根据权利要求11或12所述的装置,其特征在于,所述计算节点所运行的操作系统的类型包括多个操作系统类型,所述多个操作系统类型包括所述第一操作系统参数所指示的操作系统类型。
15.根据权利要求11或12所述的装置,其特征在于,所述计算节点的磁盘有多个磁盘大小,所述多个磁盘大小包括所述第一磁盘参数所指示的磁盘大小;所述计算节点的磁盘有多个磁盘带宽,所述多个磁盘带宽包括所述第一磁盘参数所指示的磁盘带宽。
16.根据权利要求11或12所述的装置,其特征在于,所述计算节点所采用的网络协议的类型包括多个网络协议类型,所述多个网络协议类型包括所述第一网络参数所指示的网络协议类型。
17.根据权利要求11或12所述的装置,其特征在于,所述第一配置信息用于指示所述目标计算节点运行所述第一应用业务所采用的配置信息具体包括:
所述第一配置信息用于将所述目标计算节点中的CPU运行速度调整为所述第一中央处理器CPU参数所指示的CPU运行速度、将所述目标计算节点中的内存大小或内存带宽中的一项或多项调整为所述第一内存参数所指示的内存大小或内存带宽中的一项或多项、将所述目标计算节点中的操作系统类型调整为所述第一操作系统参数所指示的操作系统类型、将所述目标计算节点中的磁盘大小或磁盘带宽中的一项或多项调整为所述第一磁盘参数所指示的磁盘大小或磁盘带宽中的一项或多项、将所述目标计算节点中的网络协议类型调整为所述第一网络参数所指示的网络协议类型运行所述第一应用业务。
18.根据权利要求10-12中任一项所述的装置,其特征在于,
所述发送单元还用于向所述目标计算节点发送回滚指令;所述回滚指令用于将所述目标计算节点中的配置信息还原为所述第一配置信息之前使用的配置信息。
19.一种电子设备,其特征在于,包括存储器和一个或多个处理器;所述存储器与所述一个或多个处理器耦合,用于存储计算机程序代码,所述计算机程序代码包括计算机指令,当所述一个或多个处理器执行所述计算机指令时,使得所述电子设备执行如权利要求1-9中任一项所述的方法。
CN202211277045.4A 2022-10-18 2022-10-18 高性能计算应用性能调优的方法及系统 Active CN115756822B (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN202211277045.4A CN115756822B (zh) 2022-10-18 2022-10-18 高性能计算应用性能调优的方法及系统
PCT/CN2023/117104 WO2024082853A1 (zh) 2022-10-18 2023-09-05 高性能计算应用性能调优的方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211277045.4A CN115756822B (zh) 2022-10-18 2022-10-18 高性能计算应用性能调优的方法及系统

Publications (2)

Publication Number Publication Date
CN115756822A CN115756822A (zh) 2023-03-07
CN115756822B true CN115756822B (zh) 2024-03-19

Family

ID=85353777

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211277045.4A Active CN115756822B (zh) 2022-10-18 2022-10-18 高性能计算应用性能调优的方法及系统

Country Status (2)

Country Link
CN (1) CN115756822B (zh)
WO (1) WO2024082853A1 (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115756822B (zh) * 2022-10-18 2024-03-19 超聚变数字技术有限公司 高性能计算应用性能调优的方法及系统
CN116582537A (zh) * 2023-07-13 2023-08-11 国家超级计算天津中心 远程仿真方法、装置、设备、存储介质及系统

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103078759A (zh) * 2013-01-25 2013-05-01 北京润通丰华科技有限公司 计算节点的管理方法及装置、系统
CN109165093A (zh) * 2018-07-31 2019-01-08 宁波积幂信息科技有限公司 一种计算节点集群弹性分配系统及方法
CN110727506A (zh) * 2019-10-18 2020-01-24 北京航空航天大学 一种基于成本模型的spark参数自动调优方法
CN112035238A (zh) * 2020-09-11 2020-12-04 曙光信息产业(北京)有限公司 任务调度处理方法、装置、集群系统及可读存储介质

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112306383B (zh) * 2019-08-02 2023-04-11 华为技术有限公司 执行作业的方法、计算节点、管理节点及计算设备
CN114675975B (zh) * 2022-05-24 2022-09-30 新华三人工智能科技有限公司 一种基于强化学习的作业调度方法、装置及设备
CN115756822B (zh) * 2022-10-18 2024-03-19 超聚变数字技术有限公司 高性能计算应用性能调优的方法及系统

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103078759A (zh) * 2013-01-25 2013-05-01 北京润通丰华科技有限公司 计算节点的管理方法及装置、系统
CN109165093A (zh) * 2018-07-31 2019-01-08 宁波积幂信息科技有限公司 一种计算节点集群弹性分配系统及方法
CN110727506A (zh) * 2019-10-18 2020-01-24 北京航空航天大学 一种基于成本模型的spark参数自动调优方法
CN112035238A (zh) * 2020-09-11 2020-12-04 曙光信息产业(北京)有限公司 任务调度处理方法、装置、集群系统及可读存储介质

Also Published As

Publication number Publication date
WO2024082853A1 (zh) 2024-04-25
CN115756822A (zh) 2023-03-07

Similar Documents

Publication Publication Date Title
CN115756822B (zh) 高性能计算应用性能调优的方法及系统
US10282234B2 (en) Server consolidation using virtual machine resource tradeoffs
CN108496324B (zh) 云工作负载发放系统和方法
CN109478147B (zh) 分布式计算系统中的自适应资源管理
US20230072358A1 (en) Tenant resource optimization (tro) in clouds
US11030009B2 (en) Systems and methods for automatically scaling compute resources based on demand
EP3588295B1 (en) Self-managed intelligent elastic cloud stack
US8056079B1 (en) Adding tasks to queued or running dynamic jobs
CN105049268A (zh) 分布式计算资源分配系统和任务处理方法
CN112114950A (zh) 任务调度方法和装置、以及集群管理系统
CN103995735A (zh) 用于调度工作流作业的设备和方法
WO2022007781A1 (zh) 任务处理方法、边缘计算设备、计算机设备和介质
Cheong et al. SCARL: Attentive reinforcement learning-based scheduling in a multi-resource heterogeneous cluster
US10776966B2 (en) Graph processing system that allows flexible manipulation of edges and their properties during graph mutation
US11080159B2 (en) Monitor-mine-manage cycle
CN111078404B (zh) 一种计算资源确定方法、装置、电子设备及介质
US20190332441A1 (en) Interoperable neural network operation scheduler
CN114610474A (zh) 一种异构超算环境下多策略的作业调度方法及系统
Sundas et al. An introduction of CloudSim simulation tool for modelling and scheduling
US20220100566A1 (en) Metrics-based scheduling for hardware accelerator resources in a service mesh environment
Zhengbing et al. Resource management in a distributed computer system with allowance for the level of trust to computational components
CN114490048A (zh) 任务执行方法、装置、电子设备及计算机存储介质
CN111143033B (zh) 基于可伸缩操作系统的操作执行方法及装置
KR101494864B1 (ko) 클라우드 컴퓨팅 네트워크 기반의 프로테오믹스 서비스 제공 시스템 및 그에 의한 서비스 제공방법
CN114564249B (zh) 推荐调度引擎、推荐调度方法及计算机可读存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant