CN112015615A - 存储介质、作业功率评估方法和作业功率评估设备 - Google Patents

存储介质、作业功率评估方法和作业功率评估设备 Download PDF

Info

Publication number
CN112015615A
CN112015615A CN202010412296.3A CN202010412296A CN112015615A CN 112015615 A CN112015615 A CN 112015615A CN 202010412296 A CN202010412296 A CN 202010412296A CN 112015615 A CN112015615 A CN 112015615A
Authority
CN
China
Prior art keywords
power
time
job
consumed
evaluation
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202010412296.3A
Other languages
English (en)
Inventor
铃木成人
白石崇
山本拓司
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujitsu Ltd
Original Assignee
Fujitsu Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fujitsu Ltd filed Critical Fujitsu Ltd
Publication of CN112015615A publication Critical patent/CN112015615A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F1/00Details not covered by groups G06F3/00 - G06F13/00 and G06F21/00
    • G06F1/26Power supply means, e.g. regulation thereof
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/3058Monitoring arrangements for monitoring environmental properties or parameters of the computing system or of the computing system component, e.g. monitoring of power, currents, temperature, humidity, position, vibrations
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F1/00Details not covered by groups G06F3/00 - G06F13/00 and G06F21/00
    • G06F1/26Power supply means, e.g. regulation thereof
    • G06F1/28Supervision thereof, e.g. detecting power-supply failure by out of limits supervision
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F1/00Details not covered by groups G06F3/00 - G06F13/00 and G06F21/00
    • G06F1/26Power supply means, e.g. regulation thereof
    • G06F1/32Means for saving power
    • G06F1/3203Power management, i.e. event-based initiation of a power-saving mode
    • G06F1/3234Power saving characterised by the action undertaken
    • G06F1/329Power saving characterised by the action undertaken by task scheduling
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/3058Monitoring arrangements for monitoring environmental properties or parameters of the computing system or of the computing system component, e.g. monitoring of power, currents, temperature, humidity, position, vibrations
    • G06F11/3062Monitoring arrangements for monitoring environmental properties or parameters of the computing system or of the computing system component, e.g. monitoring of power, currents, temperature, humidity, position, vibrations where the monitored property is the power consumption
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/3065Monitoring arrangements determined by the means or processing involved in reporting the monitored data
    • G06F11/3072Monitoring arrangements determined by the means or processing involved in reporting the monitored data where the reporting involves data filtering, e.g. pattern matching, time or event triggered, adaptive or policy-based reporting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/34Recording or statistical evaluation of computer activity, e.g. of down time, of input/output operation ; Recording or statistical evaluation of user activity, e.g. usability assessment
    • G06F11/3409Recording or statistical evaluation of computer activity, e.g. of down time, of input/output operation ; Recording or statistical evaluation of user activity, e.g. usability assessment for performance assessment
    • G06F11/3419Recording or statistical evaluation of computer activity, e.g. of down time, of input/output operation ; Recording or statistical evaluation of user activity, e.g. usability assessment for performance assessment by assessing time
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/46Multiprogramming arrangements
    • G06F9/48Program initiating; Program switching, e.g. by interrupt
    • G06F9/4806Task transfer initiation or dispatching
    • G06F9/4843Task transfer initiation or dispatching by program, e.g. task dispatcher, supervisor, operating system
    • G06F9/4881Scheduling strategies for dispatcher, e.g. round robin, multi-level priority queues
    • G06F9/4893Scheduling strategies for dispatcher, e.g. round robin, multi-level priority queues taking into account power or heat criteria
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
    • G06Q50/06Energy or water supply
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computing Systems (AREA)
  • Software Systems (AREA)
  • Biophysics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Evolutionary Computation (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computational Linguistics (AREA)
  • Biomedical Technology (AREA)
  • Artificial Intelligence (AREA)
  • Mathematical Physics (AREA)
  • Data Mining & Analysis (AREA)
  • Health & Medical Sciences (AREA)
  • Quality & Reliability (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Computer Hardware Design (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)
  • Supply And Distribution Of Alternating Current (AREA)
  • Power Sources (AREA)

Abstract

本发明提供了存储介质、作业功率评估方法和作业功率评估设备。一种功率评估方法包括:获取第一消耗功率信息和第二消耗功率信息,第一消耗功率信息指示在从开始执行第一作业经过的时间段内的从第一时间到第二时间的第一时间段内消耗的功率的改变,第二消耗功率信息指示在从开始执行第一作业经过的时间段内的从第三时间到第四时间的第二时间段内消耗的功率的改变,第三时间在第二时间之后;根据第一消耗功率信息来生成用于评估在第一时间段内要由作业消耗的功率的第一评估模型;以及根据第二消耗功率信息来生成用于评估在第二时间段内要由作业消耗的功率的第二评估模型。

Description

存储介质、作业功率评估方法和作业功率评估设备
技术领域
本文中讨论的实施方式涉及作业功率评估程序、作业功率评估方法和作业功率评估设备。
背景技术
在诸如高性能计算(HPC)系统的大型计算机系统(以下简称为系统)中,大量的功率被消耗。因此,为了稳定地操作系统,适当地管理系统的功率消耗是重要的。例如,当系统的功耗能够被保持在固定水平时,施加至功率供给设施的负荷是小的。
为了管理系统的功率消耗,期望能够预先评估对要由系统消耗的功率的需求。作为评估要由整个系统消耗的功率的方法,考虑以下方法:从包括作业名称等的过去的作业输入信息中识别相似的作业;将要由识别到的作业消耗的功率视为评估值;以及评估要由输入的作业消耗的功率。
在作业开始被执行之后,能够基于由直到当前时间为止正在被执行的作业消耗的功率的时间序列改变(功率波形),通过回归来评估要由作业消耗的功率。可以通过将评估要由正在被执行的作业消耗的功率的结果相加来获得要由正在被执行的所有作业消耗的总功率。
作为能够被用于评估要消耗的功率的技术,例如,已经提出了一种用于根据从信息技术(IT)系统生成的各种数据来检测相关关系的检测设备。已经提出了一种混沌时间序列短期评估设备,该设备的特征在于:处理以评估为目标的时间序列数据以提高评估的准确度。
例如,作为相关技术,国际公布小册子第WO 2014/184928号、日本公开特许公报第9-146915号等已经被公开。
发明内容
作为评估要由正在被执行的作业消耗的功率的方法,使用递归神经网络(RNN)的方法被考虑。RNN是一种支持时间序列数据的神经网络。例如,计算机基于指示由在过去执行的作业消耗的功率的时间序列改变的时间序列功率信息,使用RNN来生成用于评估要消耗的功率的评估模型。计算机可以使用评估模型来评估要由正在被执行的作业消耗的功率的转变。然而,基于由所有作业消耗的功率的时间序列改变来生成一种类型的评估模型,指示由各个作业消耗的功率的时间序列改变的数据(时间序列功率数据)不同,因此学习结果不收敛。因此,即使当通过生成的评估模型来评估要由正在被执行的作业消耗的功率时,预期评估的准确度可能不会很高。
根据一个方面,本公开内容的目的是提高评估要由作业消耗的功率的准确度。
根据实施方式的一个方面,一种功率评估方法包括:获取第一消耗功率信息和第二消耗功率信息,第一消耗功率信息指示在从开始执行第一作业经过的时间段内的从第一时间到第二时间的第一时间段内消耗的功率的改变,第二消耗功率信息指示在从开始执行第一作业经过的时间段内的从第三时间到第四时间的第二时间段内消耗的功率的改变,第三时间在第二时间之后;根据第一消耗功率信息来生成用于评估在第一时间段内要由作业消耗的功率的第一评估模型;以及根据第二消耗功率信息来生成用于评估在第二时间段内要由作业消耗的功率的第二评估模型。
附图说明
图1是示出了根据第一实施方式的作业功率评估方法的示例的图;
图2是示出了使用用于各个评估时段的多个评估模型来评估要由作业消耗的功率的处理的示例的图;
图3是示出了根据第二实施方式的系统的配置的示例的图;
图4是示出了管理服务器的硬件配置的示例的图;
图5是描述RNN的图;
图6是示出了作业的时间序列功率信息的示例的图;
图7是示出了指示由每个作业消耗的功率的时间序列改变的时间序列数据的特性的图;
图8是示出了用于学习的数据集的比较示例的图;
图9是示出了用于学习的数据集的第一修改示例的图;
图10是示出了用于学习的数据集的第二修改示例的图;
图11是示出了学习模型生成示例比较表的图;
图12是示出了一直到作业完成被执行的时间为止作业的执行时间的分布的示例的图;
图13是示出了要获取问题数据的时间段的长度与相对误差之间的关系的图;
图14是示出了用于功率管理的设备的功能的框图;
图15是示出了存储在管理服务器的数据库(DB)中的信息的示例的图;
图16是示出了作业消耗功率信息的示例的图;
图17是示出了样本数据的示例的图;
图18是示出了学习结果信息的示例的图;
图19是示出了评估结果信息的示例的图;
图20是示出了数据集的生成的示例(参考示例)的图;
图21是示出了数据集的生成的第一示例的图;
图22是示出了数据集的生成的第二示例的图;
图23是示出了数据集的生成的第三示例的图;
图24是示出了生成评估模型的处理的概况的图;
图25是示出了评估模型的示例的图;
图26是示出了用于生成评估模型的处理的过程的示例的流程图;
图27是示出了评估要消耗的功率的处理的概况的图;
图28是示出了用于评估功率的处理的过程的示例的流程图;
图29是示出了用于强制停止作业的处理的过程的示例的流程图;
图30是示出了将应用的技术中的平均误差与比较示例中的平均误差进行比较的图;
图31是示出了评估要由正常作业消耗的功率的结果的相对误差的分布的图;
图32是示出了评估要由大型作业消耗的功率的结果的相对误差的分布的图;以及
图33是描述了按需定价系统的图。
具体实施方式
根据一个方面,提高了评估要由作业消耗的功率的准确度。
在下文中,参照附图描述实施方式。可以通过在没有任何矛盾的情况下将多个实施方式彼此组合来实现实施方式中的每一个。
[第一实施方式]
首先,描述第一实施方式。
图1是示出了根据第一实施方式的作业功率评估方法的示例的图。图1示出了执行作业功率评估方法的作业功率评估设备10。作业功率评估设备10可以通过例如执行描述作业功率评估方法的处理过程的作业功率评估程序来执行作业功率评估方法。
作业功率评估设备10耦接至例如HPC系统1。HPC系统1评估要由正在被执行的作业消耗的功率的时间序列改变。作业功率评估设备10包括存储单元11和处理单元12以实现作业功率评估方法。存储单元11是例如包括在作业功率评估设备10中的存储器或存储设备。处理单元12是例如包括在作业功率评估设备10中的处理器或算术电路系统。
存储单元11存储第一消耗功率信息4和多个评估模型6a、6b、6c、…。第一消耗功率信息4是指示在已经完成被执行的第一作业2a、2b、…的执行期间由多个第一作业2a、2b、…消耗的功率的时间序列改变的信息。评估模型6a、6b、6c、…是要被用于评估在从开始执行第一作业2a、2b、…经过的时间段内的由时间间隔限定的多个评估时段中的每一个内要由多个第一作业2a、2b、…消耗的功率的时间序列改变的信息。评估模型6a、6b、6c、…是例如神经网络。
处理单元12基于第一消耗功率信息4生成样本数据5a、5b、5c、…(在步骤S1中),该样本数据5a、5b、5c、…指示在与该样本数据5a、5b、5c、…相关联的评估时段之前由一个或更多个作业消耗的功率的时间序列改变。例如,处理单元12使在相关联的评估时段之前的时间段内由一个或更多个第一作业消耗的功率的时间序列改变作为问题数据被包括在样本数据5a、5b、5c、…中。处理单元12使在相关联的评估时段内要由一个或更多个第一作业消耗的功率的时间序列改变作为答案数据被包括在样本数据5a、5b、5c、…中。答案数据是用于监督机器学习的教师数据。
接下来,处理单元12基于与多个评估时段相关联的样本数据5a、5b、5c、…来生成用于评估在相关联的评估时段内要由一个或更多个作业消耗的功率的时间序列改变的评估模型6a、6b、6c、…(在步骤S2中)。例如,处理单元12基于样本数据5a、5b、5c、…的问题数据,使用评估模型6a、6b、6c、…来评估要在相关联的评估时段内消耗的功率的时间序列改变。然后,处理单元12基于评估的结果与答案数据之间的差来修改评估模型6a、6b、6c、…。处理单元12通过重复修改评估模型6a、6b、6c、…来生成最终评估模型6a、6b、6c、…。处理单元12使生成的评估模型6a、6b、6c、…被存储在存储单元11中。
之后,处理单元12从HPC系统1获取第二消耗功率信息(在步骤S3中),该第二消耗功率信息指示直到当前时间为止由正在被执行的第二作业3消耗的功率的时间序列改变。例如,处理单元12基于第二消耗功率信息来识别单个评估时段(在步骤S4中),该单个评估时段用于基于直到当前时间为止正在被执行的第二作业3的执行时间来评估要由第二作业3消耗的功率。例如,处理单元12将紧接在直到当前时间为止第二作业3的执行时间之后的评估时段识别为用于评估要由第二作业3消耗的功率的单个评估时段。然后,处理单元12基于第二消耗功率信息使用用于评估在单个评估时段内要由作业消耗的功率的时间序列改变的评估模型来评估在单个评估时段内要由第二作业消耗的功率的时间序列改变(在步骤S5中)。
处理单元12将例如评估的结果发送至HPC系统1(在步骤S6中)。HPC系统1基于评估要由第二作业3消耗的功率的结果来管理HPC系统1的功率消耗。例如,当存在要消耗的功率超过预先确定的值的可能性时,HPC系统1执行减少正在被执行的作业的数目的处理等。
根据作业功率评估设备10,处理单元12使用适当的样本数据来生成用于各个评估时段的评估模型。然后,处理单元12使用基于直到当前时间为止第二作业3的执行时间的评估模型来评估要由第二作业3消耗的功率。
图2是示出了使用用于各个评估时段的多个评估模型来评估要由作业消耗的功率的处理的示例的图。在图2中所示的示例中,处理单元12从时间轴提取多个30分钟的时间段并且将提取的时间段视为评估时段,所述时间轴指示在开始执行多个第一作业2a、2b、…之后经过的时间段。例如,处理单元12将在开始执行多个第一作业2a、2b、…之后经过的从30分钟至60分钟的时间段视为单个评估时段。处理单元12将在开始执行多个第一作业2a、2b、…之后经过的从60分钟至90分钟的时间段视为单个评估时段。处理单元12将在开始执行多个第一作业2a、2b、…之后经过的从90分钟至120分钟的时间段视为单个评估时段。以这种方式,处理单元12将彼此不交叠的多个连续的时间段视为多个评估时段。
处理单元12生成用于各个评估时段的样本数据5a、5b、5c、…。在图2中所示的示例中,处理单元12生成样本数据5a、5b、5c、…,所述样本数据5a、5b、5c、…指示在从开始执行一个或更多个第一作业到相关联的评估时段结束的时间段内消耗的功率的时间序列改变。
处理单元12可以使指示由所有第一作业2a、2b、…消耗的功率的时间序列改变的信息被包括在样本数据5a、5b、5c、…中。对于评估时段中的每一个,处理单元12可以确定要被用于评估要消耗的功率的一个或更多个第一作业,并且使指示要由确定的一个或更多个作业消耗的功率的时间序列改变的信息被包括在与评估时段相关联的样本数据中。例如,处理单元12从多个第一作业中提取一个或更多个第一作业,所述一个或更多个第一作业的执行时间是从执行的开始到执行的结束并且比基于与要生成的样本数据相关联的评估时段确定的阈值更长。该阈值是例如紧接在评估时段的开始之前的时间段。然后,处理单元12生成指示由提取的一个或更多个第一作业消耗的功率的时间序列改变的样本数据。
处理单元12使用用于各个评估时段的样本数据5a、5b、5c、…来生成用于各个评估时段的评估模型6a、6b、6c、…。之后,处理单元12获取正在被执行的第二作业3的第二消耗功率信息7,并且识别用于评估要由第二作业3消耗的功率的评估时段。在图2中所示的示例中,在开始执行第二作业3之后经过了60分钟的时间段。在该情况下,处理单元12将在开始执行第二作业3之后从60分钟至90分钟的评估时段识别为用于评估要由第二作业3消耗的功率的评估时段。
处理单元12基于第二消耗功率信息7使用与识别的评估时段相关联的评估模型6b来评估在评估时段(从60分钟到90分钟)内要由第二作业3消耗的功率,并且输出评估结果8。
以这种方式,通过以前述方式生成指示在相关联的评估时段之前由一个或更多个第一作业消耗的功率的时间序列改变的样本数据5a、5b、5c、…来减少包括在样本数据5a、5b、5c、…中的要消耗的功率的时间序列改变的变化。因此,当基于样本数据5a、5b、5c、…来学习评估模型6a、6b、6c、…时,学习结果适当地收敛并且使实现高准确度评估的评估模型6a、6b、6c、…被生成。然后,处理单元12使用生成的评估模型6a、6b、6c、…中的用于与直到当前时间为止第二作业3的执行时间相对应的评估时段的评估模型来评估要由第二作业3消耗的功率,从而提高评估要由作业消耗的功率的准确度。
[第二实施方式]
接下来,描述第二实施方式。在第二实施方式中,使用神经网络学习的评估模型被用于评估要由作业消耗的功率。
图3是示出了根据第二实施方式的系统的配置的示例的图。HPC系统30包括多个计算节点31、32、…。计算节点31、32、…是计算机,所述计算机中的每一个执行输入作业。
包括在HPC系统30中的计算节点31、32、…被耦接至HPC操作管理服务器200。HPC操作管理服务器200是管理HPC系统30的操作的计算机。例如,HPC操作管理服务器200监测在作业的执行期间由计算节点31、32、…消耗的功率的时间序列改变。HPC操作管理服务器200从管理服务器100接收评估要由等待被执行的作业消耗的功率的模式的结果,并且执行作业调度,使得例如要由系统消耗的功率是均匀的。然后,HPC操作管理服务器200根据由HPC操作管理服务器200生成的作业执行调度来指示计算节点31、32、…执行作业。
HPC操作管理服务器200经由网络20耦接至终端设备41、42、…和管理服务器100。终端设备41、42、…是要由想要HPC系统30执行作业的用户使用的计算机。终端设备41、42、…基于由用户的输入来生成指示要由HPC系统30执行的作业的细节的作业信息,并且将包括所生成的作业信息的作业输入请求发送至HPC操作管理服务器200。作业信息包括状态信息,例如要被用于作业的应用程序的名称。
管理服务器100是支持HPC系统30的功率消耗的管理的计算机,而HPC系统30的功率消耗由HPC操作管理服务器200管理。管理服务器100从HPC操作管理服务器200获取指示由正在被执行的作业和由已经完成被执行的作业消耗的功率的时间序列改变的时间序列功率数据。管理服务器100基于从HPC操作管理服务器200获取的时间序列功率数据来评估要由正在被执行的作业消耗的功率的时间序列改变。然后,管理服务器100向HPC操作管理服务器200发送评估要由正在被执行的作业消耗的功率的时间序列改变的结果。
图4是示出了管理服务器的硬件配置的示例的图。管理服务器100完全由处理器101控制。处理器101经由总线109耦接至存储器102和多个外围设备。处理器101可以是多处理器。处理器101是例如中央处理单元(CPU)、微处理器单元(MPU)或数字信号处理器(DSP)。通过使处理器101执行程序实现的功能中的一些或全部可以通过诸如专用集成电路(ASIC)或可编程逻辑器件(PLD)的电子电路系统来实现。
存储器102被用作管理服务器100的主存储设备。在存储器102中,临时存储应用程序和要由处理器101执行的操作系统(OS)程序中的一部分或全部。在存储器102中,存储要由处理器101用于处理的各种数据。例如,使用诸如随机存取存储器(RAM)的易失性半导体存储设备作为存储器102。
作为耦接至总线109的外围设备,存在存储设备103、图形处理设备104、输入接口105、光学驱动设备106、设备耦接接口107和网络接口108。
存储设备103向内置记录介质电地或磁地写入数据以及从内置记录介质电地或磁地读取数据。存储设备103被用作计算机的辅助存储设备。在存储设备103中,存储OS程序、应用程序和各种数据。例如,可以使用硬盘驱动器(HDD)或固态驱动器(SSD)作为存储设备103。
图形处理设备104耦接至显示器21。图形处理设备104根据来自处理器101的命令将图像显示在监视器21的屏幕上。存在有机电致发光(EL)显示设备、液晶显示设备等作为监视器21。
输入接口105耦接至键盘22和鼠标23。输入接口105向处理器101发送从键盘22和鼠标23发送的信号。鼠标23是定点设备的示例。可以使用另一个定点设备。存在触摸面板、平板计算机、触摸板、轨迹球等作为其他定点设备。
光学驱动设备106使用激光等读取记录在光盘24中的数据。光盘24是数据被记录成使得数据能够通过光反射被读取的便携式记录介质。存在数字通用光盘(DVD)、DVD-RAM、光盘只读存储器(CD-ROM)、可记录(R)-CD、可重写(RW)-CD等作为光盘24。
设备耦接接口107是用于将外围设备耦接至管理服务器100的通信接口。例如,设备耦接接口107耦接至存储器设备25和存储器读取器写入器26。存储器设备25是具有与设备耦接接口107进行通信的功能的记录介质。存储器读取器写入器26是将数据写入存储卡27或从存储卡27读取数据的设备。存储卡27是卡类型的记录介质。
网络接口108耦接至网络20。网络接口108经由网络20向另一计算机或另一通信设备发送数据以及从另一计算机或另一通信设备接收数据。
管理服务器100可以借助于前述硬件配置来实现根据第二实施方式的处理功能。还可以通过与图4中所示的管理服务器100相同的硬件来实现HPC操作管理服务器200和计算节点31、32、…中的每一个。还可以通过与图4中所示的管理服务器100相同的硬件来实现在第一实施方式中描述的作业功率评估设备10。
管理服务器100通过执行存储在例如计算机可读记录介质中的程序来实现根据第二实施方式的处理功能。描述要由管理服务器100执行的处理的细节的程序可以被记录在各种记录介质中。例如,要由管理服务器100执行的程序可以被存储在存储设备103中。处理器101将存储在存储设备103中的程序的一部分或全部加载至存储器102中并执行该程序。要由管理服务器100执行的程序可以被记录在诸如光盘24、存储器设备25或存储卡27的便携式记录介质中。存储在便携式记录介质中的程序在例如处理器101的控制下被安装在存储设备103中之后,该程序能够被执行。处理器101能够直接从便携式记录介质读取程序并且执行该程序。
在图3中所示的系统中,HPC操作管理服务器200和管理服务器100彼此协作,并且基于以作业为单位评估要消耗的功率的结果来适当地管理功率。例如,管理服务器100基于直到当前时间为止由作业消耗的功率的测量值来评估要由正在被执行的作业消耗的功率的时间序列改变。通过例如功率波形来表示要消耗的功率的时间序列改变。HPC操作管理服务器200基于要由正在被执行的所有作业消耗的功率的时间序列改变的评估值来控制作业的执行,使得HPC系统30的最大消耗功率被抑制到低水平。例如,当HPC操作管理服务器200评估HPC系统30的最大消耗功率超过阈值时,HPC操作管理服务器200停止一个或更多个作业的执行。
为了以前述方式适当地管理功率,以高准确度评估要由作业消耗的功率是重要的。通过例如RNN学习的评估模型可以被用于评估要由作业消耗的功率。
图5是描述RNN的图。RNN 300是一种类型的神经网络并且被用于学习时间序列数据。在RNN中,在时间t处的隐藏层的详细信息被用作在下一个时间t+1处的输入。作为RNN300,存在长短期记忆网络(LSTM)或门控循环单元(GRU)。
由于在LSTM中实现了选通机制,因此LSTM可以存储遥远的过去信息。因此,LSTM对于不能参考过去的信息被评估的问题是有效的。GRU是对LSTM的改进。通过简化LSTM的结构来形成GRU,并且GRU具有通过对遗忘门和输入门进行组合而获得的单个更新门301。
在更新门301中,可以设置使用多么久远的过去的信息。在RNN 300中,使用多么久远的过去的信息被设置为延迟时间。延迟时间是用于使用如下信息来确定是否执行学习和评估的超参数,所述信息指示相对于用于评估的测量时间点多么久远的过去的信息被使用。
当要由RNN 300来评估要由作业消耗的功率的时间序列改变时,可以使用测量由已经完成被执行的作业消耗的功率的结果来生成评估模型。
图6是示出了作业的时间序列功率信息的示例的图。对于已经完成被执行的作业中的每一个,在作业的时间序列功率信息302中设置在开始执行作业之后经过的时间段中的每一个内消耗的功率(在图6中由“x”指示)。在图6中所示的示例中,在以5分钟为间隔的时间点中的每一个处测量由作业消耗的功率,5分钟的时间段被用作最小单位,并且由测量时间点的编号(从0开始按照升序)指示经过的时间段。
作业的执行时间中的最大值由用户指定的参数来确定。在图6中所示的示例中,能够由用户设置的最大值为24小时(1440分钟)。由于在时间序列功率信息302中设置的值是在以5分钟为间隔的时间点处的功率值,所以功率的测量时间点的编号中的最大值为“287”。在图6中所示的示例中,在时间序列功率信息302中设置要消耗的功率的时间序列改变的作业的数目为“1000”。要被用于生成时间序列功率信息302的作业的执行时间中的最大值和作业的数目不限于图6中所示的数目。
可以通过使RNN 300学习由作业消耗的功率并且基于图6中所示的时间序列功率信息302生成评估模型来评估要由正在被执行的作业消耗的功率。然而,在诸如HPC系统的大型系统中,各种作业被执行并且作业的执行时间不同。例如,在图6中所示的示例中,大多数作业在第288个测量时间点处消耗的功率的测量之前完成被执行,并且仅存在具有在所有288个测量时间点处测量的消耗的功率的一些作业。
执行时间彼此大不相同的作业具有不同的消耗的功率的时间序列改变的模式。因此,即使当使用由在过去执行的作业消耗的功率的时间序列数据简单地学习消耗的功率的时间序列改变的模式时,也可能无法生成适当的评估模型。
图7是示出了指示由每个作业消耗的功率的时间序列改变的时间序列数据的特性的图。当所有作业的时间序列功率信息302由单个长的时间序列数据项表示时,能够通过单个回归方程来表示消耗的功率的时间序列改变。回归方程是用于使用偏回归系数、解释变量和误差来计算目标变量的方程。然而,由HPC系统等执行的作业的执行时间不同,并且所有作业的时间序列功率信息302是具有不同长度的大量时间序列数据。作业的时间序列数据不仅具有不同的长度,而且具有不同的特性。在这种情况下,难以使用单个回归方程来表示由作业消耗的功率的时间序列改变。
图7指示是否由单个回归方程来表示消耗的功率的时间序列改变,但是可以将相同的考虑应用于RNN的评估模型。例如,难以使用单个评估模型来表示所有作业的时间序列功率信息302。管理服务器100基于数据的长度对所有作业的时间序列功率信息302进行分类,并且针对长度彼此几乎相等或相等的各个时间序列数据组来生成评估模型。因此,可以生成在长度彼此相等或几乎相等的时间序列数据中反映共同特性的评估模型。
管理服务器100不仅可以提高评估要消耗的功率的准确度,而且可以减少由于评估模型的生成要施加的处理负荷。下面参照图8至图10描述一种生成数据集的方法,该方法使得能够提高评估要消耗的功率的准确度并且减少处理负荷。
图8是示出了用于学习的数据集的比较示例的图。图8示出了一个示例,在该示例中,根据包括所有作业的时间序列功率数据的时间序列功率信息302来生成单个评估模型311。在图8中所示的示例中,将作为在30分钟的特定时间段内的时间序列功率数据的问题数据和作为在紧接在该特定时间段之后的30分钟的时间段内的时间序列功率数据的答案数据进行组合作为用于学习的数据集。根据时间序列功率信息302来生成用于学习的多个数据集,而用于提取问题数据和答案数据的时间区域彼此偏移了5分钟。
当使用这样的数据集通过RNN来生成评估模型311时,大量的数据集被生成,因此执行学习需要时间。例如,当功率值已经被测量的作业的数目是“1000”时,管理服务器100向评估模型311重复地输入1000个时间序列功率数据项276次,同时使问题数据和答案数据的范围偏移,从而学习评估模型311。在图8中所示的比较示例中,使用各种数据集来学习单个评估模型311,因此可能无法适当地学习RNN,并且由生成的评估模型311评估的准确度是低的。
在这种情况下,减少用于学习的数据集的数目对减少用于学习的时间段是有效的。
图9是示出了用于学习的数据集的第一修改示例的图。在图9中所示的示例中,根据包括所有作业的时间序列功率数据的时间序列功率信息302来生成在彼此偏移了30分钟的时间段内用于学习的数据集。这可以减少数据集的数目。例如,当功率值已经被测量的作业的数目是“1000”时,管理服务器100向评估模型312重复地输入1000个时间序列功率数据项47次,同时使问题数据和答案数据的范围偏移,从而学习评估模型312。因此,由于数据集的数目的减少,减少了用于生成评估模型312的时间段。然而,使用各种数据集学习单个评估模型312与图8中所示的比较示例相同,并且与比较示例一样,由生成的评估模型312评估的准确度是低的。
因此,管理服务器100通过生成用于在开始执行作业之后经过的时间段的各个时间段(评估时段)的模型来减少数据集的变化。
图10是示出了用于学习的数据集的第二修改示例的图。在图10中所示的示例中,在开始执行作业之后经过的时间段被划分为多个时间区域,并且针对经过的时间段的各个时间区域生成评估模型313至315。在用于评估模型313至315的学习的数据集中的每一个中,由问题数据指示在相应的时间区域之前的时间段内的功率,并且由答案数据指示在相应的时间区域内的功率。
例如,管理服务器100将在开始执行作业之后经过的时间段划分为30分钟的时间区域。然后,管理服务器100生成用于30分钟的各个时间区域的数据集。例如,当功率值已经被测量的作业的数目是“1000”时,管理服务器100将1000个时间序列功率数据项输入至评估模型313、314、315、…中的每一个,从而学习评估模型313、314、315、…中的每一个。
例如,管理服务器100从时间序列功率信息302中提取在开始执行之后经过的从0分钟至30分钟的时间区域内由作业消耗的功率(测量时间点的编号“0”至编号“5”)作为问题数据。然后,管理服务器100从时间序列功率信息302中提取在开始执行之后经过的从30分钟至60分钟的时间区域内由作业消耗的功率(测量时间点的编号“6”至编号“11”)作为答案数据。然后,管理服务器100将提取的问题数据和提取的答案数据的组合视为用于评估模型313的生成的数据集,该评估模型313用于评估在从30分钟至60分钟的时间区域内要消耗的功率。
管理服务器100从时间序列功率信息302中提取在开始执行之后经过的从0分钟至60分钟的时间区域内由作业消耗的功率(测量时间点的编号“0”至编号“11”)作为问题数据。然后,管理服务器100从时间序列功率信息302中提取在开始执行之后经过的从60分钟至90分钟的时间区域内由作业消耗的功率(测量时间点的编号“12”至编号“17”)作为答案数据。然后,管理服务器100将提取的问题数据和提取的答案数据的组合视为用于评估模型314的生成的数据集,该评估模型314用于评估在从60分钟至90分钟的时间区域内要消耗的功率。
管理服务器100从时间序列功率信息302中提取在开始执行之后经过的从0分钟至90分钟的时间区域内由作业消耗的功率(测量时间点的编号“0”至编号“17”)作为问题数据。然后,管理服务器100从时间序列功率信息302中提取在开始执行之后经过的从90分钟至120分钟的时间区域内由作业消耗的功率(测量时间点的编号“18”至编号“23”)作为答案数据。然后,管理服务器100将提取的问题数据和提取的答案数据的组合视为用于评估模型315的生成的数据集,该评估模型315用于评估在从90分钟至120分钟的时间区域内要消耗的功率。
以这种方式,管理服务器100将在开始执行作业之后经过的时间段划分为时间区域,并且生成用于各个时间区域的评估模型313、314、315、…。为了生成评估模型313、314、315、…,在各个评估时段之前的所有时间段内由作业消耗的功率的时间序列改变被用作问题数据。例如,要从单个作业的时间序列功率数据中提取的数据作为要被输入至单个评估模型的数据在仅一个范围内,因此减少了数据集的变化。如上所述,由于数据集限于适合于评估在评估时段内要消耗的功率的数据,因此可以正确地学习在评估时段内要消耗的功率的趋势。因此,提高了评估的准确度。通过将评估时段的长度设置成约30分钟,可以减少数据集的数目,并且用于学习的时间段是短的。
下面描述比较示例以及第一修改示例和第二修改示例中的计算量和评估准确度之间的差异。
图11是示出了学习模型生成示例比较表的图。学习模型生成示例比较表321指示在图8至图10中示出的比较示例、第一修改示例和第二修改示例中生成学习模型的比较处理的结果。要比较的项是数据集量、RNN大小、用于学习的计算量和评估准确度。在图11中所示的示例中,时间序列功率数据已经被获取的作业的数目为“1000”,并且时间序列功率数据包括在以5分钟为时间间隔的288个时间点(一天内)处测量功率值的结果。
学习模型生成示例比较表321指示数据集功率值的总数、模型的数目和每个评估模型的数据集功率值的数目作为数据集量。
数据集功率值的总数是包括在要被用于生成评估模型的数据集中的功率值的总数。在比较示例中,作为问题数据要被输入的功率值的总数为“6×276×1000”。在比较示例中,表示学习结果的输出的答案数据的功率值的总数为“6×276×1000”。在第一修改示例中,作为问题数据要被输入的功率值的总数为“6×47×1000”。在第一修改示例中,表示学习结果的输出的答案数据的功率值的总数为“6×47×1000”。在第二修改示例中,作为问题数据要被输入的功率值的总数为“Σ6N×1000”(N为1至47的范围内的整数)(Σ为指示求和的符号)。在第二修改示例中,表示学习结果的输出的答案数据的功率值的总数为“6×47×1000”。
模型的数目是要生成的评估模型的数目。在比较示例中,单个评估模型被生成。在第一修改示例中,单个模型被生成。在第二修改示例中,47个评估模型被生成。
每个评估模型的数据集功率值的数目是要被用于生成单个评估模型的数据集中的功率值的数目。在比较示例和第一修改示例中,每个评估模型的数据集功率值的数目等于数据集功率值的总数。在第二修改示例中,要被用于评估模型的数据集中的功率值的数目变化。当在第二修改示例中生成的评估模型按照从开始执行作业到评估时段结束的时间段的升序被布置并且数1至数N被分配给布置的评估模型时,作为问题数据要被输入至第N评估模型的功率值的数目是“6N×1000”。在第二修改示例中,表示学习评估模型中的每一个的结果的输出的答案数据的功率值的数目是“6×1000”。
学习模型生成示例比较表321将输入数目和输出数目以及输入/输出表示为RNN大小。
输入数目和输出数目表示要被输入至RNN的输入层的功率值的数目以及要从RNN的输出层输出的功率值的数目。在比较示例和第一修改示例中,要被输入的功率值的数目是“6”,并且要被输出的功率值的数目是“6”。在第二修改示例中,要被输入至第N评估模型的功率值的数目是“6N”,并且要被输出的功率值的数目是“6”。
输入/输出表示要被输入至RNN的输入层的功率值的数目与要从RNN的输出层输出的功率值的数目的比率的值。在比较示例和第一修改示例中,输入/输出为“1”。在第二修改示例中,第N评估模型的输入/输出是“N”。
学习模型生成示例比较表321使用用于在第一修改示例中学习单个评估模型的计算量(最小计算量和最大计算量为“1”)作为参考单位,指示最小计算量和最大计算量作为用于学习每个评估模型的计算量。比较示例中的最小计算量和最大计算量为“6”(是第一修改示例中的计算量的六倍)。当要被输入的功率值的数目是最小值“6”的第一评估模型被生成时,第二修改示例中的计算量处于最小水平。第二修改示例中的最小计算量为“1/47”(第一修改示例中的计算量的1/47)。当要被输入的功率值的数目是最大值“6N”的第N评估模型被生成时,第二修改示例中的计算量处于最大水平。第二修改示例中的最大计算量为“47”(是第一修改示例中的计算量的47倍)。
学习模型生成示例比较表321中指示的评估准确度是基于所生成的评估模型评估的功率值相对于通过测量功率获得的功率值的相对误差的平均值(%)。通过将绝对误差(评估的值与测量的值之间的差)除以测量的值来获得相对误差中的每一个。作为评估准确度,指示比较示例和第二修改示例中的实验结果。当比较示例中的相对误差为“65”时,第二修改示例中的相对误差为“8.8”。
在第二修改示例中,对于某个生成的评估模型,计算量是小的,而对于另一生成的评估模型,计算量是大的。当计算量大时,从开始执行作业到评估时段结束经过的时间段是长的。实际上,许多作业在比执行时间中的最大值(图11中所示的示例中的一天(24小时))更短的时间段内完成被执行,并且一直到作业完成被执行的时间为止在长时间段内执行的作业的数目是小的。
图12是示出了一直到作业完成被执行的时间为止作业的执行时间的分布的示例的图。图12指示作业的执行时间分布表322。在作业的执行时间分布表322中,横坐标表示使用5分钟作为单位时间段从开始执行作业到执行作业结束的时间段(执行时间)(是以分钟指示执行时间的执行时间的数目的5倍)。纵坐标表示在通过划分整个执行时间获得的多个预先确定长度的时间段中的每个时间段中已经完成被执行的作业的数目。如图12中所示,大多数作业的执行时间是短的。因此,随着使用评估模型的评估时段更晚,包括在数据集中的实际测量结果的功率值的量减少,并且用于计算的时间段减少。
在图11中所示的示例中,第二修改示例中的相对误差比比较示例中的相对误差小得多。图11中所示的第二修改示例中的相对误差是多个生成的评估模型的相对误差的平均值。然而,随着要获取问题数据的时间段更长(要被输入的功率值的数目更大),评估模型的相对误差减小。
图13是示出了要获取问题数据的时间段的长度与相对误差之间的关系的图。图13在曲线图中示出了第一比较示例中的相对误差331和第二修改示例中的相对误差332。通过与要获取问题数据的时间段的长度对应的线图来指示第二修改示例中的相对误差332。
如图13中所示,随着要获取问题数据的时间段更长,第二修改示例中的相对误差332减小。即使当要获取问题数据的时间段中的每一个都是30分钟(要被输入的功率值的数目为“6”)时,第二修改示例中的相对误差332也显著小于第一比较示例中的相对误差331。例如,即使当要获取问题数据的时间段彼此相等或几乎相等时,在第二修改示例中也能够以比比较示例更高的准确度来执行评估。
这表明,在第二修改示例与比较示例之间的两个大的差异(RNN大小(要被输入的功率值的数目)之间的差异和数据集的变化之间的差异)中,数据集的变化之间的差异很大程度上有助于评估准确度。例如,在第二修改示例中要被用于生成单个评估模型的数据集的变化低于在比较示例中要被用于生成单个评估模型的数据集的变化。较低的变化引起评估准确度的提高。
下面详细地描述经由通过管理服务器100的作业功率评估来管理HPC系统30的功率消耗的方法。在以下示例中,与图10中所示的第二修改示例相比,管理服务器100进一步减少了数据集的量(至于更多细节,请参照图20至图23)。
图14是示出了用于功率管理的设备的功能的框图。HPC操作管理服务器200包括DB210、定时器部220、信息获取器230、作业调度部240和控制指示部250。
DB 210存储指示执行和要执行的作业的状态的作业状态信息以及指示由执行的作业消耗的功率的时间序列改变的作业消耗功率信息。
定时器部220管理从HPC系统30收集作业中的每一个的消耗的功率信息的定时。例如,定时器部220指示信息获取器230以固定的时间间隔收集作业消耗的功率信息。
信息获取器230根据来自定时器部220的指令从HPC系统30获取在HPC系统30中已经完成被执行的作业的时间序列功率数据。信息获取器230使获取的消耗的功率信息被存储在DB 210中。
HPC系统30包括测量作业中的每一个的功率的功能。例如,包括在HPC系统30中的计算节点31、32、…中的每一个包括用于测量消耗的功率的设备,并且可以将在不执行作业的状态下消耗的功率与在执行作业的状态下消耗的功率之间的差视为由作业中的每一个消耗的功率。计算节点31、32、…中的每一个可以基于温度传感器等的信息来测量由作业消耗的功率。例如,计算节点31、32、…中的每一个使温度传感器收集CPU的温度和从系统板(SB)排放的空气的温度。计算节点31、32、…中的每一个基于收集的温度数据来计算CPU的温度的改变(Tcpu)和从SB排放的空气的温度的改变(Tair)。
可以根据以下等式来计算CPU的温度的改变(Tcpu)。CPU的温度的改变(Tcpu)=CPU的温度-输入的冷却水的温度…(1)
可以根据以下等式来计算从SB排放的空气的温度的改变(Tair)。从SB排放的空气的温度的改变(Tair)=从SB排放的空气的温度-吸入至机架中的空气的温度…(2)
计算节点31、32、…中的每一个根据CPU的温度的改变来计算由CPU消耗的功率(例如,由CPU消耗的功率=1.02·Tcpu)。计算节点31、32、…中的每一个根据从SB排放的空气的温度来计算由存储器消耗的功率(例如,由存储器消耗的功率=0.254·Tair)。计算节点31、32、…中的每一个将由互连控制器(ICC)消耗的功率视为固定值(例如,由ICC消耗的功率=8.36)。计算节点31、32、…中的每一个根据以下等式来评估要由作业消耗的功率P。P=1.02·Tcpu+0.254·Tair+8.36…(3)
作业调度部240生成新输入的作业的执行调度。当从管理服务器100接收评估要由正在被执行的作业消耗的功率的结果时,作业调度部240确定要由HPC系统30消耗的功率是否超过预先确定的阈值。例如,作业调度部240将要由正在被执行的作业消耗的总功率视为要由HPC系统30消耗的功率。当作业调度部240评估要由HPC系统30消耗的功率超过阈值时,作业调度部240确定要强制地停止作业中的一个或更多个。
控制指示部250根据由作业调度部240生成的作业的执行调度来指示HPC系统30执行作业。当作业调度部240确定要强制停止作业时,控制指示部250指示HPC系统30停止该作业。
管理服务器100包括DB 110、定时器部120、度量收集器130、样本生成器140、学习部150、评估值计算器160和评估结果发送器170。
DB 110存储要被用于评估要由作业中的每一个消耗的功率的模式的信息。定时器部120管理获取已经执行的作业的时间序列功率数据的定时。例如,定时器部120指示度量收集器130以固定的时间间隔从HPC操作管理服务器200收集信息。当作业开始被执行时,定时器部120指示评估值计算器160以固定的时间间隔来评估要由作业消耗的功率。
度量收集器130根据来自定时器部120的指令从HPC操作管理服务器200收集信息。例如,度量收集器130从HPC操作管理服务器200获取等待被执行的作业和已经完成被执行的作业的作业状态信息以及指示由已经完成被执行的作业消耗的功率的模式的时间序列功率数据。度量收集器130使获取的信息被存储在DB 110中。
样本生成器140基于存储在DB 110中的时间序列功率数据来生成要被用于生成用于评估要消耗的功率的评估模型的样本数据。例如,样本生成器140将通过划分在开始执行作业之后经过的时间段获得的多个时间区域视为评估时段,并且针对各个评估时间段生成用于学习的数据集。然后,样本生成器140使一组生成的数据集作为样本数据被存储在DB110中。
学习部150使用神经网络根据作业的过去消耗的功率信息来生成用于评估要消耗的功率的评估模型。例如,针对评估时段中的每一个,学习部150使用用于该评估时段的数据集来借助于RNN生成评估模型。
在由定时器部120指示的时间处,评估值计算器160使用评估模型来评估要由正在被执行的作业消耗的功率的时间序列改变。例如,评估值计算器160使用用于基于一组中的当前作业的执行时间的时间段的评估模型来评估要消耗的功率,以评估要消耗的功率为目标的作业属于该组。
评估结果发送器170向HPC操作管理服务器200发送评估要由未执行的作业消耗的功率的结果和评估要由正在被执行的作业消耗的功率的结果。
将图14中示出的部彼此耦接的线指示连通路径中的一些。可以设置除了图14中所示的连通路径以外的连通路径。可以通过例如使计算机执行与部相对应的程序模块来启用图14中示出的部的功能。
图15是示出了存储在管理服务器的DB中的信息的示例的图。在图15中所示的示例中,作业消耗功率信息111、样本数据112、学习结果信息113和评估结果信息114被存储在DB110中。
作业消耗功率信息111是关于由已经完成被执行的作业消耗的功率的时间序列信息。样本数据112是从作业消耗功率信息111中提取的并且要被用于生成用于各个评估时段的评估模型的时间序列功率数据。学习结果信息113是指示学习评估模型的结果的信息。评估结果信息114是指示评估在预先确定的后续时间段内要由正在被执行的作业消耗的功率的结果的信息。
图16是示出了作业消耗功率信息的示例的图。作业消耗功率信息111例如是数据表,在该数据表中,在开始执行作业之后经过的时间段被设置在行标签中,并且作业名称被设置在列标签中。在行和列彼此相交的位置处,设置在开始执行在列中指示的作业之后经过在行中指示的时间段的时间点处由在列中指示的作业消耗的功率。在图16中所示的示例中,针对经过的时间段,指示与经过的时间段相对应的测量时间点的编号。
图17是示出了样本数据的示例的图。样本数据112包括多个数据集112a、112b、…。例如,样本生成器140按照从最早的时间段开始的顺序将标识符“间隔0”、“间隔1”、“间隔2”、…分配给通过划分在开始执行作业之后经过的时间段而获得的时间段。在这种情况下,由于“间隔0”的时间段之前的时间序列功率数据不存在,因此从评估时段中排除了“间隔0”的时间段。因此,样本生成器140将时间段“间隔1”和以后的时间段设置为评估时段。然后,样本生成器140生成用于各个评估时段的数据集112a、112b、…。
例如,数据集112a包括要被用于生成用于“间隔1”的评估时段的评估模型的时间序列功率数据。在数据集112a中,与作业的作业名称和作业的作业编号的组合关联地设置已经被执行的作业的时间序列功率数据。在时间序列功率数据字段中,与测量时间点的编号关联地设置在功率的测量时间点处测量的功率值。
包括在数据集112a中的时间序列功率数据被划分为问题数据和答案数据。问题数据包括在数据集112a中指示的评估时段之前测量的功率值。答案数据包括在数据集112a中指示的评估时段中测量的功率值。
与数据集112a类似,其他数据集112b、…包括要被用于生成用于各个评估时段的评估模型的时间序列功率数据。
图18是示出了学习结果信息的示例的图。例如,学习结果信息113包括用于组的评估模型113a、113b、…。例如,评估模型113a是神经网络(例如,RNN)的用于评估在以单位时段(5分钟的)的时间间隔设置的第一测量时间点(5分钟后)至第六测量时间点中的每一个处要消耗的功率的评估模型。神经网络中的学习是为了计算输入至与神经元相对应的单元的数据的适当的权重值。在学习结果中,例如,RNN的结构和学习的权重值被设置。
图19是示出了评估结果信息的示例的图。评估结果信息114包括正在被执行的作业的评估功率数据114a、114b、…。在评估的功率数据114a、114b、…中,例如,作业名称、评估时间和在评估时间处要消耗的功率被设置。
接下来,详细地描述生成用于评估时段的包括在样本数据112中的数据集的方法。
在图10中所示的示例中,从所有作业的时间序列功率信息302中提取要被用于生成评估模型313至315的数据集。然而,在评估时段之前完成被执行的作业的时间序列功率数据可能不会对生成用于该评估时段的评估模型有用。例如,在开始执行作业之后的不到30分钟内完成被执行的作业的时间序列功率数据不会对生成用于评估在开始执行作业之后经过的从120分钟至150分钟的时间段内的功率的评估模型有效。例如,样本生成器140可以将要被用于生成评估模型的时间序列功率数据限制为直到由有关的评估模型进行评估的评估时段为止继续被执行的作业的时间序列功率数据。
图20是示出了数据集的生成的示例(参考示例)的图。在图20中所示的示例中,基于作业消耗功率信息111来生成与“间隔2”的评估时段相对应的数据集333。
当在作业中的每一个正在被执行的测量时间点处测量的功率值不是“0”时,在图20中所示的作业消耗功率信息111中的相应测量时间点的单元格中指示“x”。在作业消耗功率信息111中,在作业中的每一个执行结束之后的测量时间点的单元格中指示“0”。
如从图20理解的,执行时间的长度随着作业而不同。因此,在要被用于生成评估模型的时间序列功率数据被限制为直到由该评估模型进行评估的评估时段为止继续被执行的作业的时间序列功率数据的情况下,随着从开始执行作业到评估时段结束的时间段越长,包括在数据集中的功率值的数目越小。
例如,可以在以下过程中生成用于“间隔2”的评估时段的数据集333。
在图20中所示的示例中,作业“作业A”、“作业B”、“作业C”、“作业D”和“作业E”在“间隔2”的评估时段开始之前完成被执行。在“间隔2”的评估时段中不执行这些作业,并且可以认为作业的时间序列功率数据不会对评估要由在“间隔2”的评估时段期间连续被执行的作业消耗的功率那么有效。因此,样本生成器140能够从用于生成用于“间隔2”的评估时段的评估模型的数据集333中排除由作业消耗的功率的测量值。
然而,在被执行的作业中,存在紧接在“间隔2”的评估时间段开始之后(在测量时间点“11”之后并且在测量时间点“12”之前)完成的作业,例如作业“作业F”。为了正确地评估要由与作业“作业F”相同类型的作业消耗的功率,期望的是,在等于或几乎等于作业“作业F”的执行时间的时间段内已经完成被执行的作业的大量时间序列功率数据被包括在数据集333中。然而,在图20中所示的示例中,在“间隔2”的评估时段内已经完成被执行的作业的时间序列功率数据的量是小的。因此,对于使用数据集333生成的评估模型而言,难以正确地评估要由在“间隔2”的评估时段内完成被执行并且其消耗功率变为“0”的作业消耗的功率的时间序列改变。
样本生成器140将在评估时段之前的预先确定的时间段内已经完成被执行的作业的时间序列功率数据添加至数据集。例如,样本生成器140使在测量时间点“6x-5”处和在测量时间点“6x-5”之后已经完成被执行的作业的时间序列功率数据被包括在数据集中,以被用于评估在“间隔x”(x是1或更大的整数)的评估时段内要消耗的功率。下面参照图21至图23描述数据集的生成的示例,所述数据集中的每一个包括在评估时段之前的预先确定的时间段内已经完成被执行的作业的时间序列功率数据。
图21是示出了数据集的生成的第一示例的图。在图21中所示的示例中,基于作业消耗功率信息111来生成与“间隔1”(x=1)的评估时段相对应的数据集112a。在这种情况下,样本生成器140使在测量时间点“1”(6×1-5)处和在测量时间点“1”之后已经完成被执行的作业的时间序列功率数据被包括在数据集112a中。在数据集112a中,在测量时间点“0至5”处的功率值是问题数据,而在测量时间点“6至11”处的功率值是答案数据。
图22是示出了数据集的生成的第二示例的图。在图22中所示的示例中,基于作业消耗功率信息111来生成与“间隔2”(x=2)的评估时段相对应的数据集112b。在这种情况下,样本生成器140使在测量时间点“7”(6×2-5)处和在测量时间点“7”之后已经完成被执行的作业的时间序列功率数据被包括在数据集112b中。在数据集112b中,在测量时间点“0至11”处的功率值是问题数据,而在测量时间点“12至17”处的功率值是答案数据。
图23是示出了数据集的生成的第三示例的图。在图23中所示的示例中,基于作业消耗功率信息111来生成与“间隔3”(x=3)的评估时段相对应的数据集112c。在这种情况下,样本生成器140使在测量时间点“13”(6×3-5)处和在测量时间点“13”之后已经完成被执行的作业的时间序列功率数据被包括在数据集112c中。在数据集112c中,在测量时间点“0至17”处的功率值是问题数据,而在测量时间点“18至23”处的功率值是答案数据。
样本生成器140以与图21和图22中所示的数据集112a、112b和112c相同的方式生成用于后续的评估时段的数据集。然后,样本生成器140使所有生成的数据集中的集合作为样本数据112被存储在DB 110中。之后,在预先确定的时间处,学习部150基于样本数据112生成用于各个评估时段的评估模型。
图24是示出了生成评估模型的处理的概况的图。例如,学习部150基于包括在数据集112a中的作业的时间序列功率数据51、52、…使用RNN来执行学习。然后,学习部150生成用于“间隔1”的评估时段的评估的评估模型113a。学习部150基于包括在数据集112b中的作业的时间序列功率数据61、62、…使用RNN来执行学习。然后,学习部150生成用于“间隔2”的评估时段的评估的评估模型113b。之后,学习部150基于用于其他评估时段的数据集使用RNN来执行学习,并且以与上述方式相同的方式生成用于评估时段的评估模型。
图25是示出了评估模型的示例的图。在图25中所示的示例中,生成用于评估在第一测量时间点至第六测量时间点中的每一个处要消耗的功率的评估模型113a。学习部150基于问题数据使用RNN来评估在评估时段内要消耗的功率,同时读取包括已经被执行的作业的时间序列功率数据的数据集112a。然后,学习部150计算评估值与答案数据之间的差,并且学习减小该差的权重值的参数。例如,学习部150使用通过时间反向传播(BPTT)算法来学习测量值与评估值之间的差。BPTT算法在时间方向上对神经网络权重执行误差反向传播。
在获取由正被执行的作业消耗的功率的测量值时,评估值计算器160可以使用图25中所示的评估模型113a来评估在多个后续测量时间点处要由作业消耗的功率。
下面详细地描述用于生成评估模型的处理的过程。
图26是示出了用于生成评估模型的处理的过程的示例的流程图。下面按照步骤编号的顺序描述在图26中所示的处理。根据从定时器部120以预先确定的时间间隔输出的指令来执行生成评估模型的处理。以下描述假设作业的执行时间中的最大值为24小时并且评估时段的长度为30分钟。在这种情况下,关于“间隔x”的x的上限是“47”。
[步骤S101]度量收集器130从HPC操作管理服务器200获取作业的时间序列功率数据。度量收集器130使获取的时间序列功率数据作为作业消耗功率信息111被存储在DB 110中。在这种情况下,度量收集器130将不执行测量并且在与作业的执行时间中的最大值相对应的时间段内的测量时间点中的测量时间点处的所有功率值设置为“0”。
[步骤S102]样本生成器140为变量x设置初始值“1”。
[步骤S103]样本生成器140从存储在DB 110中的作业消耗功率信息111中提取作业的时间序列功率数据,所述作业中的每一个在测量时间点“6x-5”处或稍后已经完成被执行。
[步骤S104]样本生成器140基于在步骤S103中提取的时间序列功率数据来生成用于学习的数据集。生成的数据集被用于生成用于评估在“间隔x”的评估时段(从测量时间点“6x”到测量时间点“6x-5”)内要消耗的功率的模型。例如,样本生成器140生成数据集,在该数据集中,在测量时间点“0”至“6x-1”处的功率值是问题数据,并且在测量时间点“6x”至“6x+5”处的功率值是答案数据。样本生成器140使生成的数据集被存储在DB 110中。
[步骤S105]学习部150使用在步骤S104中生成的数据集来借助于RNN学习用于“间隔x”的评估时段的评估模型。学习部150使学习到的评估模型被存储在DB 110中。
[步骤S106]样本生成器140将1与变量x相加(x=x+1)。
[步骤S107]样本生成器140确定x的值是否超过上限(例如,“47”)。当x的值超过上限时,样本生成器140终止处理。当x的值不超过上限时,样本生成器140使处理继续进行至步骤S103。
以这种方式,生成用于评估时段的评估模型。然后,评估值计算器160使用评估模型来计算在(例如,30分钟的)预先确定的后续时间段内要由正在被执行的作业消耗的功率的时间序列改变的评估值。
图27是示出了评估要消耗的功率的处理的概况的图。例如,当作业新近开始被执行时,评估值计算器160等待度量收集器130在固定时间段内获取作业的时间序列功率数据70。当时间序列功率数据70被获取时,评估值计算器160从多个评估模型113a、113b、…中选择与下一个评估时段相对应的评估模型。然后,评估值计算器160将时间序列功率数据70输入至选择的评估模型,并且评估在下一个评估时段内要由作业消耗的功率。评估值计算器160使指示评估结果的评估的功率数据71被存储在DB110中。
接下来,详细地描述用于评估功率的处理的过程。
图28是示出了用于评估功率的处理的过程的示例的流程图。按照步骤编号的顺序描述在图28中所示的处理。每当作业新近开始被执行时,都会执行评估功率的处理。
[步骤S111]评估值计算器160将开始被执行的作业设置为以评估为目标的作业。然后,评估值计算器160在开始执行以评估为目标的作业之后等待30分钟。例如,由定时器部120测量30分钟的等待时间。在这种情况下,评估值计算器160从定时器部120接收指示经过30分钟的通知,并且使处理继续进行至下一个步骤S112。
[步骤S112]评估值计算器160为变量x设置初始值“1”。
[步骤S113]度量收集器130从HPC操作管理服务器200获取以评估为目标的作业的时间序列功率数据。然后,度量收集器130使获取的时间序列功率数据被存储在DB 110中。在这种情况下,度量收集器130为功率信息不存在的时间段(从当前时间到与作业的执行时间中的最大值相对应的时间段经过的时间点)中的所有测量时间点设置功率值“0”。当作业已经被完成时,度量收集器130为从执行作业结束到与作业的执行时间中的最大值相对应的时间段经过的测量时间点的时间段中的测量时间点设置功率值“0”。
[步骤S114]评估值计算器160将“间隔x”的时间段设置为评估时段,并且使用用于该时间段的评估模型来评估在后续的30分钟的时间段内的测量时间点(例如,以5分钟为固定时间间隔的6个时间点)处要由以评估为目标的作业消耗的功率。例如,评估值计算器160基于在以评估为目标的作业的时间序列功率数据中指示的在测量时间点“0”至“6x-1”处的功率值来评估在6个测量时间点“6x”至“6x+5”处要消耗的功率。
[步骤S115]评估值计算器160将以评估为目标的作业的作业名称和当前时间分配给指示评估要消耗的功率的信息,并且使具有分配的作业名称和分配的时间的信息作为评估结果数据被存储在DB 110中。
[步骤S116]评估值计算器160仅等待30分钟。例如,由定时器部120测量30分钟的等待时间。在这种情况下,评估值计算器160从定时器部120接收指示经过30分钟的通知,并且使处理继续进行至下一个步骤S117。
[步骤S117]评估值计算器160确定以评估为目标的作业是否已经完成被执行。例如,当由以评估为目标的作业消耗的功率变为“0”时,评估值计算器160可以确定该作业已经完成被执行。当以评估为目标的作业已经完成被执行时,评估值计算器160终止评估功率的处理。当以评估为目标的作业还没有完成被执行时,评估值计算器160使处理继续进行至步骤S118。
[步骤S118]评估值计算器160将1与变量x相加(x=x+1)。
[步骤S119]评估值计算器160确定x的值是否超过上限(例如,“47”)。当x的值超过上限时,评估值计算器160终止处理。当x的值不超过上限时,评估值计算器160使处理继续进行至步骤S113。
以这种方式,可以使用适当的评估模型来评估要消耗的功率,并且提高了计算评估值的准确度。
接下来,描述由HPC操作管理服务器200强制停止作业的处理的过程。
图29是示出了用于强制停止作业的处理的过程的示例的流程图。按照步骤编号的顺序描述在图29中所示的处理。
[步骤S131]作业调度部240基于用于作业的专用节点的数目和最大时间来执行作业调度。调度的结果被发送至控制指示部250。控制指示部250根据调度来指示HPC系统30执行作业。
[步骤S132]当作业调度部240接收评估要由正在被执行的作业消耗的功率的结果时,作业调度部240基于接收到的评估结果来计算要由HPC系统30消耗的所有功率的时间序列改变。例如,作业调度部240对作业的功率波形进行求和,并且将求和的结果视为HPC系统30的功率。
[步骤S133]作业调度部240确定HPC系统30的功率是否超过最大供给功率。当HPC系统30的功率超过最大供给功率时,作业调度部240使处理继续进行至步骤S134。当HPC系统30的功率不超过最大供给功率时,作业调度部240终止处理。
[步骤S134]作业调度部240强制停止一个正在被执行的作业。例如,作业调度部240强制停止正在被执行的作业中消耗最大功率的作业。之后,作业调度部240使处理继续进行至步骤S133。
如上所述,能够基于评估要由正在被执行的作业消耗的功率的结果来控制要由HPC系统30消耗的功率,从而使得由HPC系统30消耗的功率不超过最大供给功率。由于评估要由正在被执行的作业消耗的功率的结果是正确的,因此不会浪费地强制停止作业,并且提高了作业的执行效率。由于评估要由正在被执行的作业消耗的功率的结果是正确的,因此可以抑制由HPC系统30消耗的功率超过最大供给功率的意想不到的过量,并且提高了HPC系统30的稳定性。
接下来,描述通过第二实施方式中应用的技术评估的要消耗的功率与实际消耗的功率之间的差。
图30是示出了将应用的技术中的平均误差与比较示例中的平均误差进行比较的图。在图30中,将通过在第二实施方式中描述的技术评估的在30分钟内要消耗的功率的平均误差与使用在参照图8的比较示例中描述的评估模型评估的在30分钟内要消耗的功率的平均误差进行比较。
对于应用的技术,指示了评估要由消耗小于2MW的功率的正常作业消耗的功率的平均误差和评估要由消耗2MW或更多的功率的大型作业消耗的功率的平均误差。对于比较示例,指示了评估要由消耗2MW或更多的功率的大型作业消耗的功率的平均误差。
当通过所应用的第二实施方式中描述的技术来评估要由正常作业消耗的功率时,可以以5.5%的误差来执行评估。当通过所应用的第二实施方式中描述的技术来评估要由大型作业消耗的功率时,可以以8.8%的误差来执行评估。在另一方面,当通过比较示例中描述的评估模型来评估要由大型作业消耗的功率时,以65.0%的误差来执行评估。以这种方式,根据所应用的第二实施方式中描述的技术,可以以高准确度评估要由作业消耗的功率。
图31是示出了评估要由正常作业消耗的功率的结果的相对误差的分布的图。在图31中,横坐标表示相对误差的范围,并且纵坐标表示具有与评估结果相对应的范围内的误差的作业的数目与所有作业的数目的比率。在图31中所示的示例中,相对误差为0%或更高且小于5%的作业占所有作业的69%。相对误差为5%或更高且小于10%的作业占所有作业的25%。相对误差为10%或更高且小于20%的作业占所有作业的5%。如上所述,大多数正常作业的相对误差小于20%。
图32是示出了评估要由大型作业消耗的功率的结果的相对误差的分布的图。在图32中,横坐标表示相对误差的范围,并且纵坐标表示具有与评估结果相对应的范围内的误差的作业的数目与所有作业的数目的比率。在图32中所示的示例中,相对误差为0%或更高且小于5%的作业占所有作业的60%。相对误差为5%或更高且小于10%的作业占所有作业的18%。相对误差为10%或更高且小于20%的作业占所有作业的10%。相对误差为20%或更高且小于30%的作业占所有作业的4%。相对误差为30%或更高且小于40%的作业占所有作业的4%。相对误差为40%或更高且小于50%的作业占所有作业的3%。相对误差为70%或更高且小于80%的作业占所有作业的1%。如上所述,尽管大型作业的相对误差大于正常作业的相对误差,但是60%的大型作业的相对误差小于5%,并且实现了高评估准确度。
可以正确地评估要由作业消耗的功率。因此,当基于按需定价系统制定关于电功率费用的合同时,可以适当地控制要由HPC系统30消耗的功率,从而使得由HPC系统30消耗的功率不超过合同功率。
图33是描述了按需定价系统的图。图33示出了指示由整个HPC系统30消耗的功率的功率波形341的曲线图。该曲线图的横坐标表示HPC系统的操作时间,并且该曲线图的纵坐标表示消耗的功率。在(例如,30分钟的)预先确定的时间段内改变并且由功率波形341指示的功率的平均功率342是该时间段内使用的功率的量。在图33中所示的示例中,瞬时最大消耗功率为150kw,并且所使用的功率的量被计算为100kw。
根据按需定价系统,使用以下等式来计算每个月的电功率费用:电功率费用=合同电功率费用+电功率单位费用×一个月内使用的功率的量。因为由HPC系统30消耗大量的功率,因此合同电功率费用是高的。基于在如下30分钟的时间段内消耗的功率的量(最大需求功率)来确定合同电功率费用,在所述30分钟的时间段中,已经使用了去年(过去一年)中的最大功率量。因此,当在30分钟的单位时间区域中使用的功率的量超过合同功率哪怕只有一次时,下一年的电功率费用也会增加。
当由新输入的作业消耗的功率被正确地评估时,HPC操作管理服务器200可以适当地确定要在后续的30分钟的时间区域中使用的功率的量是否可能超过过去一年中的最大需求功率。当HPC操作管理服务器200确定要在30分钟的时间区域中使用的功率的量可能超过过去一年中的最大需求功率时,HPC操作管理服务器200延迟开始执行新输入的作业或者强制停止正在被执行的作业,并且可以抑制使用的功率的量超过在过去一年中的最大需求功率的过量。因此,抑制了电功率费用。
[其他实施方式]
在第二实施方式中,与图10中所示的第二修改示例相比,通过减少数据集的量来提高处理的效率。然而,管理服务器100可以使用在第二修改示例中描述的数据集来生成评估模型。
尽管举例说明了实施方式,但是可以用具有与实施方式中描述的功能相同的功能的另一配置来代替实施方式中描述的部分中的每一个的配置。可以添加另一个任意的构成部分和另一个任意的处理。可以对实施方式中描述的配置中的任意两个或更多个配置(特征)进行组合。

Claims (15)

1.一种非暂态计算机可读存储介质,其存储使包括在计算机中的处理器执行处理的程序,所述处理包括:
获取第一消耗功率信息和第二消耗功率信息,所述第一消耗功率信息指示在从开始执行第一作业经过的时间段内的从第一时间到第二时间的第一时间段内消耗的功率的改变,所述第二消耗功率信息指示在从开始执行所述第一作业经过的时间段内的从第三时间到第四时间的第二时间段内消耗的功率的改变,所述第三时间在所述第二时间之后;
根据所述第一消耗功率信息来生成用于评估在所述第一时间段内要由所述作业消耗的功率的第一评估模型;以及
根据所述第二消耗功率信息来生成用于评估在所述第二时间段内要由所述作业消耗的功率的第二评估模型。
2.根据权利要求1所述的非暂态计算机可读存储介质,其中,所述处理还包括:
基于在所述第一时间段内由与所述第一作业不同的第二作业消耗的功率的改变,使用所述第一评估模型来评估在所述第二时间段内要由所述第二作业消耗的功率的时间序列改变。
3.根据权利要求1所述的非暂态计算机可读存储介质,其中,
存在多个所述第一作业,并且基于指示在所述第一时间段内由所述多个第一作业消耗的功率的改变的多个第一消耗功率信息项来生成所述第一评估模型。
4.根据权利要求1所述的非暂态计算机可读存储介质,其中,
使用所述第一作业的第一消耗功率信息作为问题数据并且使用所述第一作业的第二消耗功率信息作为所述问题数据的答案数据来生成所述第一评估模型。
5.根据权利要求3所述的非暂态计算机可读存储介质,其中,
从所述多个第一作业中提取执行时间为从开始执行到执行结束并且比阈值更长的一个或更多个第一作业,并且基于要由所提取的一个或更多个第一作业消耗的功率的时间序列改变来生成所述第一评估模型。
6.一种功率评估方法,包括:
获取第一消耗功率信息和第二消耗功率信息,所述第一消耗功率信息指示在从开始执行第一作业经过的时间段内的从第一时间到第二时间的第一时间段内消耗的功率的改变,所述第二消耗功率信息指示在从开始执行所述第一作业经过的时间段内的从第三时间到第四时间的第二时间段内消耗的功率的改变,所述第三时间在所述第二时间之后;
根据所述第一消耗功率信息来生成用于评估在所述第一时间段内要由所述作业消耗的功率的第一评估模型;以及
根据所述第二消耗功率信息来生成用于评估在所述第二时间段内要由所述作业消耗的功率的第二评估模型。
7.根据权利要求6所述的功率评估方法,还包括:
基于在所述第一时间段内由与所述第一作业不同的第二作业消耗的功率的改变,使用所述第一评估模型来评估在所述第二时间段内要由所述第二作业消耗的功率的时间序列改变。
8.根据权利要求6所述的功率评估方法,其中,
存在多个所述第一作业,并且基于指示在所述第一时间段内由所述多个第一作业消耗的功率的改变的多个第一消耗功率信息项来生成所述第一评估模型。
9.根据权利要求6所述的功率评估方法,其中,
使用所述第一作业的第一消耗功率信息作为问题数据并且使用所述第一作业的第二消耗功率信息作为所述问题数据的答案数据来生成所述第一评估模型。
10.根据权利要求8所述的功率评估方法,其中,
从所述多个第一作业中提取执行时间为从开始执行到执行结束并且比阈值更长的一个或更多个第一作业,并且基于要由所提取的一个或更多个第一作业消耗的功率的时间序列改变来生成所述第一评估模型。
11.一种功率评估设备,包括:
存储单元;以及
处理单元,其被配置成:
获取第一消耗功率信息和第二消耗功率信息,所述第一消耗功率信息指示在从开始执行第一作业经过的时间段内的从第一时间到第二时间的第一时间段内消耗的功率的改变,所述第二消耗功率信息指示在从开始执行所述第一作业经过的时间段内的从第三时间到第四时间的第二时间段内消耗的功率的改变,所述第三时间在所述第二时间之后;
根据所述第一消耗功率信息来生成用于评估在所述第一时间段内要由所述作业消耗的功率的第一评估模型;以及
根据所述第二消耗功率信息来生成用于评估在所述第二时间段内要由所述作业消耗的功率的第二评估模型。
12.根据权利要求11所述的功率评估设备,其中,
所述处理单元被配置成:基于在所述第一时间段内要由与所述第一作业不同的第二作业消耗的功率的改变,使用所述第一评估模型来评估在所述第二时间段内要由所述第二作业消耗的功率的时间序列改变。
13.根据权利要求11所述的功率评估设备,其中,
存在多个所述第一作业,并且基于指示在所述第一时间段内由所述多个第一作业消耗的功率的改变的多个第一消耗功率信息项来生成所述第一评估模型。
14.根据权利要求11所述的功率评估设备,其中,
使用所述第一作业的第一消耗功率信息作为问题数据并且使用所述第一作业的第二消耗功率信息作为所述问题数据的答案数据来生成所述第一评估模型。
15.根据权利要求13所述的功率评估设备,其中,
从所述多个第一作业中提取执行时间为从开始执行到执行结束并且比阈值更长的一个或更多个第一作业,并且基于要由所提取的一个或更多个第一作业消耗的功率的时间序列改变来生成所述第一评估模型。
CN202010412296.3A 2019-05-29 2020-05-15 存储介质、作业功率评估方法和作业功率评估设备 Pending CN112015615A (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2019099871A JP7288189B2 (ja) 2019-05-29 2019-05-29 ジョブ電力予測プログラム、ジョブ電力予測方法、およびジョブ電力予測装置
JP2019-099871 2019-05-29

Publications (1)

Publication Number Publication Date
CN112015615A true CN112015615A (zh) 2020-12-01

Family

ID=70480132

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010412296.3A Pending CN112015615A (zh) 2019-05-29 2020-05-15 存储介质、作业功率评估方法和作业功率评估设备

Country Status (4)

Country Link
US (1) US11402889B2 (zh)
EP (1) EP3745262A1 (zh)
JP (1) JP7288189B2 (zh)
CN (1) CN112015615A (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20210397476A1 (en) * 2020-06-18 2021-12-23 International Business Machines Corporation Power-performance based system management
EP3979021A1 (en) * 2020-09-30 2022-04-06 Ricoh Company, Ltd. Scheduling system, scheduling method, and carrier means

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1748194A (zh) * 2003-02-10 2006-03-15 索尼株式会社 信息处理设备及功率消耗控制方法
CN102844724A (zh) * 2010-03-25 2012-12-26 微软公司 管理分布式计算系统中的功率供应
US20140195178A1 (en) * 2013-01-10 2014-07-10 International Business Machines Corporation Estimating component power usage from aggregate power usage
US20170242728A1 (en) * 2016-02-24 2017-08-24 Fujitsu Limited Parallel processing apparatus, power coefficient calculation program, and power coefficient calculation method
US20180144272A1 (en) * 2016-11-22 2018-05-24 Fujitsu Limited Parallel processing apparatus and method of estimating power consumption of jobs

Family Cites Families (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH09146915A (ja) 1995-11-20 1997-06-06 Meidensha Corp カオス時系列短期予測装置
JP5256967B2 (ja) * 2008-09-26 2013-08-07 富士通株式会社 動的再構成支援プログラム、動的再構成支援装置および動的再構成支援方法
JP5320985B2 (ja) 2008-10-30 2013-10-23 日本電気株式会社 予測システム、予測方法および予測プログラム
JP2011114944A (ja) 2009-11-26 2011-06-09 Fuji Electric Systems Co Ltd 電力需要予測装置、そのプログラム
JP6052043B2 (ja) 2013-04-26 2016-12-27 富士通株式会社 消費電力予測プログラム、消費電力予測方法及び消費電力予測装置
GB2528792A (en) 2013-05-16 2016-02-03 Hitachi Ltd Detection device, detection method, and recording medium
JP6128624B2 (ja) * 2015-02-19 2017-05-17 日本電気株式会社 電力消費量推定装置、電力消費量推定方法およびプログラム
US11074151B2 (en) * 2018-03-30 2021-07-27 Intel Corporation Processor having embedded non-volatile random access memory to support processor monitoring software
KR102047866B1 (ko) * 2018-04-10 2019-11-22 아주대학교산학협력단 모바일 장치의 전력 측정 및 분석 시스템 및 그 방법
US10732690B2 (en) * 2018-05-17 2020-08-04 Arm Ip Limited Systems and methods for monitoring state transitions
US11579680B2 (en) * 2019-02-01 2023-02-14 Alibaba Group Holding Limited Methods and devices for power management based on synthetic machine learning benchmarks

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1748194A (zh) * 2003-02-10 2006-03-15 索尼株式会社 信息处理设备及功率消耗控制方法
CN102844724A (zh) * 2010-03-25 2012-12-26 微软公司 管理分布式计算系统中的功率供应
US20140195178A1 (en) * 2013-01-10 2014-07-10 International Business Machines Corporation Estimating component power usage from aggregate power usage
US20170242728A1 (en) * 2016-02-24 2017-08-24 Fujitsu Limited Parallel processing apparatus, power coefficient calculation program, and power coefficient calculation method
US20180144272A1 (en) * 2016-11-22 2018-05-24 Fujitsu Limited Parallel processing apparatus and method of estimating power consumption of jobs

Also Published As

Publication number Publication date
EP3745262A1 (en) 2020-12-02
US20200379533A1 (en) 2020-12-03
JP7288189B2 (ja) 2023-06-07
JP2020194377A (ja) 2020-12-03
US11402889B2 (en) 2022-08-02

Similar Documents

Publication Publication Date Title
US7702485B2 (en) Method and apparatus for predicting remaining useful life for a computer system
Li et al. Day-ahead electricity price forecasting in a grid environment
JP7177350B2 (ja) ジョブ電力予測プログラム、ジョブ電力予測方法、およびジョブ電力予測装置
JP4756675B2 (ja) コンピュータ資源のキャパシティを予測するためのシステム、方法およびプログラム
Aytac et al. Characterization of demand for short life-cycle technology products
US20170116624A1 (en) Systems and methods for pricing optimization with competitive influence effects
JP2019032185A (ja) センサ制御支援装置、センサ制御支援方法およびコンピュータプログラム
TWI663510B (zh) 設備保養預測系統及其操作方法
CN112015615A (zh) 存储介质、作业功率评估方法和作业功率评估设备
JP2019159604A (ja) 異常検知装置、異常検知方法及び異常検知プログラム
Tuli et al. MCDS: AI augmented workflow scheduling in mobile edge cloud computing systems
US20210359514A1 (en) Information processing apparatus and job scheduling method
JP2020160622A (ja) ジョブスケジューラ及びジョブスケジュール制御方法
Bin Othman et al. Determination of transmission reliability margin using parametric bootstrap technique
Barlow et al. A performance-centred approach to optimising maintenance of complex systems
Zou et al. Indicator-directed dynamic power management for iterative workloads on GPU-accelerated systems
JP6159056B2 (ja) 選択プログラム、選択方法及び選択装置
JP7235960B2 (ja) ジョブ電力予測プログラム、ジョブ電力予測方法、およびジョブ電力予測装置
Zheng et al. An application of machine learning for a smart grid resource allocation problem
US20220222580A1 (en) Deterioration detection method, non-transitory computer-readable storage medium, and information processing device
US20210365094A1 (en) Storage medium, method and apparatus for job power consumption prediction
US20220222579A1 (en) Deterioration detection method, non-transitory computer-readable storage medium, and information processing device
JP7070775B1 (ja) モデル管理装置及びモデル管理方法
WO2021240664A1 (ja) モデル訓練プログラム、モデル訓練方法および情報処理装置
CN102096624A (zh) 一种对机群运行状况进行预测的方法和机群平台管理装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination