JP2020129180A - ジョブ電力予測プログラム、ジョブ電力予測方法、およびジョブ電力予測装置 - Google Patents

ジョブ電力予測プログラム、ジョブ電力予測方法、およびジョブ電力予測装置 Download PDF

Info

Publication number
JP2020129180A
JP2020129180A JP2019020579A JP2019020579A JP2020129180A JP 2020129180 A JP2020129180 A JP 2020129180A JP 2019020579 A JP2019020579 A JP 2019020579A JP 2019020579 A JP2019020579 A JP 2019020579A JP 2020129180 A JP2020129180 A JP 2020129180A
Authority
JP
Japan
Prior art keywords
job
similarity
jobs
power consumption
information
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2019020579A
Other languages
English (en)
Other versions
JP7235960B2 (ja
Inventor
成人 鈴木
Shigeto Suzuki
成人 鈴木
美智子 白神
Michiko Shirakami
美智子 白神
浩史 遠藤
Hiroshi Endo
浩史 遠藤
崇 白石
Takashi Shiraishi
崇 白石
義康 土肥
Yoshiyasu Doi
義康 土肥
裕幸 福田
Hiroyuki Fukuda
裕幸 福田
拓司 山本
Takuji Yamamoto
拓司 山本
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujitsu Ltd
Original Assignee
Fujitsu Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fujitsu Ltd filed Critical Fujitsu Ltd
Priority to JP2019020579A priority Critical patent/JP7235960B2/ja
Priority to US16/748,476 priority patent/US11385700B2/en
Publication of JP2020129180A publication Critical patent/JP2020129180A/ja
Application granted granted Critical
Publication of JP7235960B2 publication Critical patent/JP7235960B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F7/00Methods or arrangements for processing data by operating upon the order or content of the data handled
    • G06F7/02Comparing digital values
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F1/00Details not covered by groups G06F3/00 - G06F13/00 and G06F21/00
    • G06F1/26Power supply means, e.g. regulation thereof
    • G06F1/32Means for saving power
    • G06F1/3203Power management, i.e. event-based initiation of a power-saving mode
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F1/00Details not covered by groups G06F3/00 - G06F13/00 and G06F21/00
    • G06F1/26Power supply means, e.g. regulation thereof
    • G06F1/32Means for saving power
    • G06F1/3203Power management, i.e. event-based initiation of a power-saving mode
    • G06F1/3206Monitoring of events, devices or parameters that trigger a change in power modality
    • G06F1/3228Monitoring task completion, e.g. by use of idle timers, stop commands or wait commands
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F1/00Details not covered by groups G06F3/00 - G06F13/00 and G06F21/00
    • G06F1/26Power supply means, e.g. regulation thereof
    • G06F1/32Means for saving power
    • G06F1/3203Power management, i.e. event-based initiation of a power-saving mode
    • G06F1/3234Power saving characterised by the action undertaken
    • G06F1/329Power saving characterised by the action undertaken by task scheduling
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Analysis (AREA)
  • Computational Mathematics (AREA)
  • Mathematical Optimization (AREA)
  • Pure & Applied Mathematics (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)
  • Power Sources (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Stored Programmes (AREA)
  • Debugging And Monitoring (AREA)
  • Supply And Distribution Of Alternating Current (AREA)

Abstract

【課題】ジョブの消費電力の予測精度を向上させる。【解決手段】ジョブ電力予測装置10は、第1ジョブと複数の第2ジョブそれぞれとの第1類似度を、所定の計算式を用いて計算し、ジョブ情報類似の第2ジョブを特定する。次にジョブ電力予測装置10は、特定した第2ジョブの消費電力情報に示される消費電力を、第1ジョブを実行することによる消費電力と予測する。次にジョブ電力予測装置10は、第1ジョブ消費電力情報と複数の第2ジョブの少なくとも一部との第2類似度を計算し、消費電力類似の第2ジョブを特定する。そしてジョブ電力予測装置10は、第1ジョブと消費電力類似の第2ジョブとのジョブ情報の類似度が補正前よりも高くなるように、計算式を補正する。【選択図】図1

Description

本発明は、ジョブ電力予測プログラム、ジョブ電力予測方法、およびジョブ電力予測装置に関する。
HPC(High Performance Computing)システムなどの大規模なコンピュータシステム(以下、単にシステムと呼ぶこともある)では大量の電力を消費する。そのためシステムを安定して稼働させるには、システムの適切な消費電力管理が重要となる。例えばシステムの消費電力を一定に保つことができれば、給電設備への負荷が少なくなる。
システムの消費電力を管理するためには、システムによる電力需要を事前に予測できることが望ましい。システム全体の電力を予測する方法として、ジョブ名などを含む過去のジョブ投入情報から類似するジョブを特定し、特定したジョブの消費電力を予測値として、投入されたジョブの消費電力を予測する方法が考えられる。
ジョブの消費電力の予測に利用可能な技術として、例えば同一の事象が記述された2種類のテキストを用いて、特定のトピックに対する単語の出現度合いを推定するための統計的モデルを生成する、情報分析装置が提案されている。
またユーザの好みを反映させることで、快適性を損なわずに機器を自動制御する情報処理装置が提案されている。この情報処理装置は、第1の期間の機器毎の消費電力の実績値に基づいて、次の第2の期間の機器毎の消費電力を予測する。そして情報処理装置は、次期間消費電力予測部と、第2の期間の機器毎の消費電力の統計値と、予め設定されている目標値とを比較して、目標値に近づける方向に機器の状態を変更する。
さらにジョブスケジューリングによってHPCシステムの消費電力の上限の制約を満たす技術も提案されている。
国際公開第2010/150464号 国際公開第2014/175041号
Andrea Borghesi, et al., "Scheduling-based power capping in high performance computing systems", Sustainable Computing: Informatics and Systems, Volume 19, September 2018, Pages 1-13
しかし、ジョブ投入情報が類似していても、電力消費パターンも類似するとは限らない。そのため、新たに投入するジョブの電力消費パターンが、そのジョブとジョブ投入情報が類似する過去に実行したジョブの電力消費パターンと同じになると予測すると、実測値と予測値とに大きな誤差が生じる可能性がある。ジョブの予測値に大きな誤差があると、システムの総電力の予測ではさらに大きな誤差が生じ、予測結果が不正確となる。
1つの側面では、本件は、ジョブの消費電力の予測精度を向上させることを目的とする。
1つの案では、コンピュータに以下の処理を実行させるジョブ電力予測プログラムが提供される。
コンピュータは、新規に投入する第1ジョブおよび実行が終了した複数の第2ジョブそれぞれに関連する事項が示された、第1ジョブおよび複数の第2ジョブそれぞれのジョブ情報に基づいて、第1ジョブと複数の第2ジョブそれぞれとの第1類似度を、所定の計算式を用いて計算する。次にコンピュータは、複数の第2ジョブそれぞれについて計算した第1類似度に基づいて、ジョブ情報類似の第2ジョブを特定する。次にコンピュータは、複数の第2ジョブを実行したことで消費した電力が示された、複数の第2ジョブそれぞれの消費電力情報に基づいて、ジョブ情報類似の第2ジョブの消費電力情報に示されている消費電力を、第1ジョブを実行することによる消費電力と予測する。次にコンピュータは、第1ジョブの実行終了後に、第1ジョブを実行したことで消費した電力が示された第1ジョブ消費電力情報を取得する。次にコンピュータは、第1ジョブ消費電力情報と複数の第2ジョブの消費電力情報とに基づいて、第1ジョブと複数の第2ジョブの少なくとも一部との第2類似度を計算する。次にコンピュータは、複数の第2ジョブの少なくとも一部について計算した第2類似度に基づいて、消費電力類似の第2ジョブを特定する。そしてコンピュータは、第1ジョブと消費電力類似の第2ジョブとの第1類似度が補正前よりも高くなるように、計算式を補正する。
1態様によれば、ジョブの消費電力の予測精度を向上させることができる。
第1の実施の形態に係るジョブ電力予測方法の一例を示す図である。 トピックごとに重み付けを行う計算式の補正例を示す図である。 第2の実施の形態のシステム構成例を示す図である。 管理サーバのハードウェアの一構成例を示す図である。 類似度の算出例を示す図である。 ジョブステイタス情報が類似するジョブそれぞれの電力波形の一例を示す図である。 電力管理のための各装置の機能を示すブロック図である。 管理サーバのDBに格納される情報の一例を示す図である。 ジョブ情報の一例を示す図である。 ジョブ消費電力情報の一例を示す図である。 学習結果情報の一例を示す図である。 トピック重み情報の一例を示す図である。 類似ジョブ情報の一例を示す図である。 LDA推定モデルと補正用推定モデルとを用いたジョブの消費電力予測方法の一例を示す図である。 消費電力予測処理の手順の一例を示すフローチャートである。 類似ジョブ抽出処理の手順の一例を示すフローチャートである。 重み更新処理の手順の一例を示すフローチャートである。 オンデマンド料金制度を説明する図である。 第3の実施の形態における類似ジョブ抽出処理の手順の一例を示すフローチャートである。
以下、本実施の形態について図面を参照して説明する。なお各実施の形態は、矛盾のない範囲で複数の実施の形態を組み合わせて実施することができる。
〔第1の実施の形態〕
まず第1の実施の形態について説明する。
図1は、第1の実施の形態に係るジョブ電力予測方法の一例を示す図である。図1には、ジョブ電力予測方法を、ジョブ電力予測装置10を用いて実施した場合の例を示している。ジョブ電力予測装置10は、例えばジョブ電力予測方法の処理手順が記述されたジョブ電力予測プログラムを実行することにより、ジョブ電力予測方法を実施することができる。
ジョブ電力予測装置10は、ジョブ電力予測方法を実現するために、記憶部11と処理部12とを有する。記憶部11は、例えばジョブ電力予測装置10が有するメモリ、またはストレージ装置である。処理部12は、例えばジョブ電力予測装置10が有するプロセッサ、または演算回路である。
ジョブ電力予測装置10は、例えばHPCシステム1に接続されている。ジョブ電力予測装置10は、HPCシステム1において新規に投入された未実行のジョブの消費電力を予測し、予測結果をHPCシステム1に通知する。HPCシステム1は、例えばジョブの消費電力の予測値を用いて、システム全体の消費電力の最大値を低減するように、ジョブスケジューリングを行う。
ジョブ電力予測装置10の記憶部11は、例えば新規に投入する第1ジョブおよび実行が終了した複数の第2ジョブそれぞれに関連する事項が示された、第1ジョブおよび複数の第2ジョブそれぞれのジョブ情報2,3a,3b,・・・を記憶する。ジョブ情報2,3a,3b,・・・には、例えばジョブの投入を指示したユーザに関する情報(ユーザID、グループIDなど)、ジョブの実行条件(並列実行するノード数、実行時間など)が含まれる。また記憶部11は、複数の第2ジョブを実行したことで消費した電力が示された、複数の第2ジョブそれぞれの消費電力情報4a,4b,・・・を記憶する。消費電力情報4a,4b,・・・には、例えばジョブを実行することでHPCシステム1が消費した電力の時系列変化が電力波形で示される。
処理部12は、例えば新規に投入する第1ジョブがあることを検知すると、その第1ジョブの消費電力を、以下の手順で予測する。
まず処理部12は、第1ジョブおよび複数の第2ジョブそれぞれのジョブ情報2,3a,3b,・・・に基づいて、第1ジョブと複数の第2ジョブそれぞれとのジョブ情報の類似度(第1類似度)を、所定の計算式を用いて計算する(ステップS1)。次に処理部12は、複数の第2ジョブそれぞれについて計算したジョブ情報の類似度に基づいて、ジョブ情報類似の第2ジョブを特定する(ステップS2)。次に処理部12は、複数の第2ジョブそれぞれの消費電力情報に基づいて、ジョブ情報類似の第2ジョブの消費電力情報に示される消費電力を、第1ジョブを実行することによる消費電力と予測する(ステップS3)。そして処理部12は、予測結果をHPCシステム1に送信する(ステップS4)。
その後、処理部12は、HPCシステム1による第1ジョブの実行終了後に、第1ジョブを実行したことで消費した電力が示された消費電力情報(第1ジョブ消費電力情報)を、HPCシステム1から取得する(ステップS5)。次に処理部12は、第1ジョブの消費電力情報と複数の第2ジョブのそれぞれの消費電力情報に基づいて、第1ジョブと複数の第2ジョブの少なくとも一部との消費電力の類似度(第2類似度)を計算する(ステップS6)。次に処理部12は、複数の第2ジョブの少なくとも一部についての消費電力の類似度に基づいて、消費電力類似の第2ジョブを特定する(ステップS7)。そして処理部12は、第1ジョブと消費電力類似の第2ジョブとのジョブ情報の類似度が補正前よりも高くなるように、計算式を補正する(ステップS8)。
このように、ジョブ情報の類似度を計算するための計算式を、実行したジョブの消費電力情報に基づいて補正することで、消費電力が類似するジョブ間のジョブ情報の類似度を高めることができる。このような補正を繰り返せば、新規に投入するジョブのジョブ情報に基づいて、そのジョブと消費電力が類似するジョブを正確に特定できるようになる。その結果、ジョブの消費電力の予測精度が向上する。
なお、ジョブ情報2,3a,3b,・・・は、例えばテキストデータである。この場合、処理部12におけるジョブ情報の類似度の計算では、トピックモデルを用いることができる。トピックモデルとは、テキストデータ中で扱われている話題を推定する統計的手法である。トピックモデルを用いる場合、処理部12は、第1ジョブおよび複数の第2ジョブそれぞれのジョブ情報に含まれるトピックの出現確率を示すトピック分布を計算する。そして処理部12は、第1ジョブと複数の第2ジョブそれぞれとのトピック分布の類似度を、第1ジョブと複数の第2ジョブそれぞれとのジョブ情報の類似度とする。
また処理部12は、トピックモデルを用いた場合、トピックごとに重み付けを行うことで、計算式を補正することができる。例えば処理部12は、ジョブ情報の類似度の計算において、トピックごとの重みを用い、重みの値が大きいトピックを含むジョブ情報ほど類似度が高くなる計算式によって、ジョブ情報の類似度を計算する。さらに処理部12は、計算式の補正において、ジョブ情報類似の第2ジョブのジョブ情報に含まれるトピックの重みの値を増加させる。
図2は、トピックごとに重み付けを行う計算式の補正例を示す図である。例えばジョブXが新たに投入される場合を想定する。ジョブXが、図1の説明における第1ジョブである。既に実行が終了しているジョブとして、ジョブAとジョブBがある。ジョブAとジョブBが、図1の説明における第2ジョブである。
処理部12は、各ジョブのジョブ情報に基づいて、トピック分布を計算する。トピック分布には、ジョブ情報におけるトピックの出現確率が数値で示される。ジョブXのトピック分布には、出現確率が高い順に、トピックa、トピックb、トピックcであることが示されている。ジョブAのトピック分布には、出現確率が高い順に、トピックa、トピックb、トピックdであることが示されている。ジョブBのトピック分布には、出現確率が高い順に、トピックa、トピックe、トピックcであることが示されている。
この時点では、各トピックの重みが同じであるものとする。ジョブXとジョブAとのトピック分布は、トピックaとトピックbが共通である。ジョブXとジョブBとのトピック分布は、トピックaとトピックcが共通である。ジョブXとジョブAとにおけるトピックbの出現確率を示す値は、ジョブXとジョブBとにおけるトピックcの出現確率を示す値よりも大きい。そのため、ジョブXとジョブAとの類似度の方が、ジョブXとジョブBとの類似度よりも大きくなる。
この場合、処理部12は、ジョブBの消費電力をジョブXの消費電力として予測する。その後、ジョブXが実行されると、ジョブXの消費電力の実測値(電力波形)が得られる。処理部12は、ジョブXの電力波形を、ジョブAとジョブBそれぞれの電力波形と比較する。図2の例では、ジョブBの電力波形の方が、ジョブXの電力波形に類似している。そこで処理部12は、ジョブBのトピック分布に含まれるトピックa,e,cについて、重みを増加させる。重みが増加したトピックは、トピック分布の計算において、該当トピックの出現確率を示す数値が、重みの補正前よりも大きくなる。
その後、例えばジョブXとほぼ同じトピック分布のジョブ情報を有するジョブYが新規に投入されたものとする。例えばジョブXの実行を指示したユーザが、ジョブを実行するプログラムの微細な修正を行い、修正後のプログラムを実行するジョブYの実行を指示した場合、ジョブYのジョブ情報は、ジョブXのジョブ情報とほぼ同じとなる。
処理部12は、各ジョブのジョブ情報に基づいて、補正後の重みを用いてトピック分布を計算する。すると各ジョブのトピック分布のうち、重みの大きなトピックの値は、重みの補正前よりも高い値となる。図2では、重みによる増加分を網掛けで示している。重みの違いが作用し、ジョブYとジョブBとにおけるトピックcの出現確率を示す値は、ジョブYとジョブAとにおけるトピックbの出現確率を示す値よりも大きくなっている。そのため、ジョブYとジョブBとの類似度の方が、ジョブYとジョブAとの類似度よりも大きくなる。
この場合、処理部12は、ジョブBの消費電力をジョブYの消費電力として予測する。ジョブYは、ジョブXとほぼ同じ条件で実行され、ジョブYの電力波形はジョブXと同様であると考えられる。ジョブBの電力波形はジョブXの電力波形に類似しており、処理部12がジョブBの消費電力をジョブYの消費電力として予測したことで、正しい予測が行われたこととなる。このように、トピックの重みを補正することで、ジョブの消費電力の予測精度が向上する。
なお、消費電力が類似するジョブのトピック分布に含まれるトピックの重みを増加させていくと、出現頻度の低いトピックについては重みが低いままとなる。すると新たに実行する第1ジョブのトピック分布に出現頻度の低いトピックが含まれる場合、そのトピックの存在が考慮されなくなり、電力予測の精度が低下するおそれがある。そこで処理部12は、トピックごとの重みを用いた計算式と、トピックごとの重みを用いない補正無し計算式との一方を選択して、ジョブ情報の類似度を計算してもよい。例えば処理部12は、第1ジョブのジョブ情報に含まれるトピックの重みに応じて、トピックごとの重みを用いた計算式を用いるのか、トピックごとの重みを用いない補正無し計算式を用いるのかを判定する。そして処理部12は、判定結果に応じて、重みを用いた計算式または重みを用いない補正無し計算式を用いてジョブ情報の類似度を計算する。これにより、第1ジョブのトピック分布が出現頻度の低いトピックを含む場合における電力予測の精度劣化を抑止できる。
また処理部12は、消費電力情報の類似度を計算する際、例えば第1ジョブとのジョブ情報の類似度が高い方から所定数の第2ジョブについて、消費電力情報の類似度を計算してもよい。元々ジョブ情報の類似度が類似していない第2ジョブについては、ジョブ情報の類似度の計算式の補正の根拠として利用するには不適切である。例えばジョブ情報の類似度が類似していない第2ジョブの電力波形が第1ジョブの電力波形と類似していたとしても、電力波形が類似している要因はジョブ情報の類似性に表れていない。そのため、ジョブ情報の類似度が高い方から所定数の第2ジョブについて、消費電力情報の類似度を計算することで、計算量を減らすことができるとともに、ジョブ情報の類似度の計算式が不適切に補正されることを抑止できる。
なお、処理部12は、第1ジョブとのジョブ情報の類似度が閾値以上の第2ジョブについて、消費電力情報の類似度を計算するようにしてもよい。類似度が閾値以上の第2ジョブについて、消費電力情報の類似度を計算することで、類似度が高い第2ジョブが多数になったときに、消費電力が最も類似の第2ジョブが、消費電力情報の類似度の計算対象から漏れてしまうことを抑止できる。
〔第2の実施の形態〕
次に第2の実施の形態について説明する。第2の実施の形態は、HPCシステムに投入するジョブの消費電力を予測し、システム全体の消費電力を適切に管理するものである。
図3は、第2の実施の形態のシステム構成例を示す図である。HPCシステム30は、複数の計算ノード31,32,・・・を有している。計算ノード31,32,・・・は、投入されたジョブを実行するコンピュータである。
HPCシステム30内の計算ノード31,32,・・・は、HPC運用管理サーバ200に接続されている。HPC運用管理サーバ200は、HPCシステム30の運用管理を行うコンピュータである。例えばHPC運用管理サーバ200は、ジョブ実行時の計算ノード31,32,・・・の消費電力の時系列変化を監視する。またHPC運用管理サーバ200は、実行待ちのジョブについて、管理サーバ100からのジョブの電力消費パターンの予測結果を受信し、例えばシステムの消費電力が均一化されるように、ジョブスケジューリングを行う。そしてHPC運用管理サーバ200は、作成したジョブの実行スケジュールに従って、計算ノード31,32,・・・にジョブの実行を指示する。
HPC運用管理サーバ200は、ネットワーク20を介して端末装置41,42,・・・および管理サーバ100に接続されている。端末装置41,42,・・・は、HPCシステム30によるジョブの実行を希望するユーザが使用するコンピュータである。端末装置41,42,・・・は、ユーザの入力に基づいてHPCシステム30に実行させるジョブの内容を示すジョブ情報を生成し、生成したジョブ情報を含むジョブ投入要求を、HPC運用管理サーバ200に送信する。
管理サーバ100は、HPC運用管理サーバ200によるHPCシステム30の消費電力の管理を支援するコンピュータである。管理サーバ100は、HPC運用管理サーバ200から、実行するジョブのジョブ情報および実行が終了したジョブの電力消費パターンを示す電力情報を取得する。管理サーバ100は、HPC運用管理サーバ200から取得した情報に基づいて、実行待ちのジョブの電力消費パターンを予測する。そして管理サーバ100は、HPC運用管理サーバ200に、ジョブの電力消費パターンの予測結果を送信する。
図4は、管理サーバのハードウェアの一構成例を示す図である。管理サーバ100は、プロセッサ101によって装置全体が制御されている。プロセッサ101には、バス109を介してメモリ102と複数の周辺機器が接続されている。プロセッサ101は、マルチプロセッサであってもよい。プロセッサ101は、例えばCPU(Central Processing Unit)、MPU(Micro Processing Unit)、またはDSP(Digital Signal Processor)である。プロセッサ101がプログラムを実行することで実現する機能の少なくとも一部を、ASIC(Application Specific Integrated Circuit)、PLD(Programmable Logic Device)などの電子回路で実現してもよい。
メモリ102は、管理サーバ100の主記憶装置として使用される。メモリ102には、プロセッサ101に実行させるOS(Operating System)のプログラムやアプリケーションプログラムの少なくとも一部が一時的に格納される。また、メモリ102には、プロセッサ101による処理に利用する各種データが格納される。メモリ102としては、例えばRAM(Random Access Memory)などの揮発性の半導体記憶装置が使用される。
バス109に接続されている周辺機器としては、ストレージ装置103、グラフィック処理装置104、入力インタフェース105、光学ドライブ装置106、機器接続インタフェース107およびネットワークインタフェース108がある。
ストレージ装置103は、内蔵した記録媒体に対して、電気的または磁気的にデータの書き込みおよび読み出しを行う。ストレージ装置103は、コンピュータの補助記憶装置として使用される。ストレージ装置103には、OSのプログラム、アプリケーションプログラム、および各種データが格納される。なお、ストレージ装置103としては、例えばHDD(Hard Disk Drive)やSSD(Solid State Drive)を使用することができる。
グラフィック処理装置104には、モニタ21が接続されている。グラフィック処理装置104は、プロセッサ101からの命令に従って、画像をモニタ21の画面に表示させる。モニタ21としては、有機EL(Electro Luminescence)を用いた表示装置や液晶表示装置などがある。
入力インタフェース105には、キーボード22とマウス23とが接続されている。入力インタフェース105は、キーボード22やマウス23から送られてくる信号をプロセッサ101に送信する。なお、マウス23は、ポインティングデバイスの一例であり、他のポインティングデバイスを使用することもできる。他のポインティングデバイスとしては、タッチパネル、タブレット、タッチパッド、トラックボールなどがある。
光学ドライブ装置106は、レーザ光などを利用して、光ディスク24に記録されたデータの読み取りを行う。光ディスク24は、光の反射によって読み取り可能なようにデータが記録された可搬型の記録媒体である。光ディスク24には、DVD(Digital Versatile Disc)、DVD−RAM、CD−ROM(Compact Disc Read Only Memory)、CD−R(Recordable)/RW(ReWritable)などがある。
機器接続インタフェース107は、管理サーバ100に周辺機器を接続するための通信インタフェースである。例えば機器接続インタフェース107には、メモリ装置25やメモリリーダライタ26を接続することができる。メモリ装置25は、機器接続インタフェース107との通信機能を搭載した記録媒体である。メモリリーダライタ26は、メモリカード27へのデータの書き込み、またはメモリカード27からのデータの読み出しを行う装置である。メモリカード27は、カード型の記録媒体である。
ネットワークインタフェース108は、ネットワーク20に接続されている。ネットワークインタフェース108は、ネットワーク20を介して、他のコンピュータまたは通信機器との間でデータの送受信を行う。
管理サーバ100は、以上のようなハードウェア構成によって、第2の実施の形態の処理機能を実現することができる。計算ノード31,32,・・・、HPC運用管理サーバ200、および端末装置41,42,・・・も、管理サーバ100と同様のハードウェアで実現できる。なお計算ノード31,32,・・・は、計算ノード31,32,・・・同士で高速通信を行うためのインターコネクト用インタフェースをさらに有している。図1に示した第1の実施の形態のジョブ電力予測装置10も、図4に示した管理サーバ100と同様のハードウェアにより実現することができる。
管理サーバ100は、例えばコンピュータ読み取り可能な記録媒体に記録されたプログラムを実行することにより、第2の実施の形態の処理機能を実現する。管理サーバ100に実行させる処理内容を記述したプログラムは、様々な記録媒体に記録しておくことができる。例えば、管理サーバ100に実行させるプログラムをストレージ装置103に格納しておくことができる。プロセッサ101は、ストレージ装置103内のプログラムの少なくとも一部をメモリ102にロードし、プログラムを実行する。また管理サーバ100に実行させるプログラムを、光ディスク24、メモリ装置25、メモリカード27などの可搬型記録媒体に記録しておくこともできる。可搬型記録媒体に格納されたプログラムは、例えばプロセッサ101からの制御により、ストレージ装置103にインストールされた後、実行可能となる。またプロセッサ101が、可搬型記録媒体から直接プログラムを読み出して実行することもできる。
図3に示すシステムにおいて、HPC運用管理サーバ200と管理サーバ100とが連係動作し、ジョブ単位での電力消費パターンの予測結果に基づく適切な電力管理が行われる。例えば管理サーバ100が、新たに実行する新規投入ジョブを実行した場合の消費電力の時系列変化を予測する。消費電力の時系列変化は、例えば電力波形で表される。HPC運用管理サーバ200は、新規投入ジョブの電力波形に基づいて、例えばHPCシステム30の最大消費電力が低く抑えられるように、ジョブスケジューリングを行う。
管理サーバ100は、実行済みのジョブのうちの新規投入ジョブに類似するジョブの電力波形を、新規投入ジョブの電力波形と予測することができる。そのために、管理サーバ100は、まず例えば新規投入ジョブに類似するジョブを特定する。ジョブ間の類似度は、ジョブの実行要求を入力したユーザのユーザID、ジョブの種別、ジョブ実行時の並列度(何台の計算ノードで並列実行させるか)などの、ジョブのステイタスを示す情報(以下、ジョブステイタス情報と呼ぶ)の類似度で表すことができる。ジョブステイタス情報は、第1の実施の形態で説明したジョブ情報の一例である。
各ジョブのジョブステイタス情報は、ジョブのステイタスに関する項目の項目名とその項目の値との組を複数含む文書である。文書間の類似度の算出に利用可能な技術として、潜在的ディリクレ配分法(LDA:Latent Dirichlet Allocation)推定モデルがある。例えば管理サーバ100は、LDA推定モデルを用いて、各ジョブのジョブステイタス情報に表されるトピック分布を算出し、ジョブ間のトピック分布の類似度をジョブの類似度とする。
LDA推定モデルは、トピックモデルの一種である。トピックモデルは、文書が複数の潜在的なトピックから確率的に生成される(文書内の各単語はあるトピックが持つ確率分布に従って出現する)と仮定したモデルである。LDA推定モデルを用いると、分析対象となる文書データの集合から、各文書に表されているトピックの混合比率を推定することができる。
各文書のトピック分布の生成には、多項分布の共役事前分布であるディリクレ分布(dirichlet distribution)が利用される。なお、ディリクレ分布は、以下の式で表される。
Figure 2020129180
式(1)は、パラメータであるベクトルαの元で、ベクトルxが生じる確率を示している。Γはガンマ関数である。ベクトルxは、確率変数を示す実数ベクトルである。Kはトピック数である。kはトピックのインデックスである。
管理サーバ100は、トレーニングデータセットであるジョブステイタス情報群から、各文章(ジョブステイタス情報)にどんな単語が出現するかをそれぞれ調べる。そして管理サーバ100は、同じ文章内にどの単語が多く出現するかカウントすることで、同じ文章内に出現する確立が高い単語をグルーピングし、これをトピックとする。
具体的には、管理サーバ100は、各文書および各単語について以下の式(2)により、確率を計算する。
Figure 2020129180
Nは文書集合の全単語数である。Vは全語彙数(全文書集合に含まれる単語の種類数)である。dは文書のインデックスである。nは単語のインデックスである。vは語彙のインデックスである。wはある1つの単語である。zはある1つのトピックである。バックスラッシュは、集合からの差を示す。βは、単語分布のパラメータである。式(2)は、文書dにおける単語wd,nについてのトピックzd,nのサンプリング式である。
管理サーバ100は、式(2)で得られる確率が高い(例えば所定値以上の)単語の組み合わせをトピックとする。すなわち管理サーバ100は、LDA推定モデルを用いた学習の結果、トピックに属する単語の集合を得る。
管理サーバ100は、各ジョブのジョブステイタス情報に含まれる単語が属するトピックに基づいて、ジョブステイタス情報のトピック分布を計算する。管理サーバ100は、各ジョブのジョブステイタス情報に基づいて生成されたトピック分布をジョブ間で比較して、ジョブ間の類似度を算出することができる。
例えば管理サーバ100は、新規投入ジョブに類似するジョブを、トピック分布の類似度によって推定する。例えば管理サーバ100は、トピック分布間のコサイン類似度を計算することで、ジョブの類似度を算出する。
図5は、類似度の算出例を示す図である。管理サーバ100は、ジョブごとにトピック分布を算出する。トピック分布は、トピックのインデックスを要素番号とし、文書(ジョブステイタス情報)内での該当トピックの出現頻度の値を要素とするベクトルで表すことができる。管理サーバ100は、新規投入ジョブのトピック分布を示すベクトルと、実行が終了しているジョブのトピック分布を示すベクトルとのコサイン類似度を算出し、ジョブ間の類似度とする。これにより、比較対象のジョブそれぞれのトピック分布に共通のトピックが多く含まれるほど、類似度が高くなる。
なお管理サーバ100は、新規投入ジョブのトピック分布に含まれる各トピックと、実行が終了しているジョブのトピック分布に含まれる各トピックとの類似度を算出し、トピック間の類似度に基づいて、ジョブ分布間の類似度を算出してもよい。例えば管理サーバ100は、比較対象のトピック分布それぞれに含まれるトピック間の類似度の合計を、トピック分布の類似度とする。
管理サーバ100は、トピック間の類似度Skk'を、例えばベクトル空間法で計測することができる。ベクトル空間法は,語彙空間Vにおけるトピックごとの語彙の出現頻度ベクトルの余弦で定義される。k番目のトピックとk’番目のトピック間の類似度を式で表すと、以下の式で表される。
Figure 2020129180
kは、k番目のトピックの出現頻度ベクトルである。nk'は、k’番目のトピックの出現頻度ベクトルnkである。
このように、LDA推定モデルを用いて各ジョブのトピック分布を計算し、トピック分布間の類似度によって、ジョブの類似度を算出することができる。そして、管理サーバ100は、すでに実行が終了しているジョブのうち、新規投入ジョブに最も類似するジョブの電力波形を、新規投入ジョブの電力波形として予測することができる。
ただし、新規投入ジョブの実際の電力波形が、トピック分布が最も類似するジョブの電力波形と異なる場合がある。
図6は、ジョブステイタス情報が類似するジョブそれぞれの電力波形の一例を示す図である。図6の例には、ジョブID「6960998」のジョブと、ジョブID「6958268」のジョブとの比較結果が示されている。
ジョブID「6960998」のジョブのジョブステイタス情報91と、ジョブID「6958268」のジョブのジョブステイタス情報92とは、多くの単語が共通しており、互いに類似する。すなわちLDA推定モデルを用いてトピック分布を生成すると、類似度の高いトピック分布が生成される。
各ジョブを実行した場合の消費電力の電力波形93,94を比較すると、大きく異なる。すなわちジョブID「6958268」のジョブは、実行終了に30秒を要し、最大で50kw程度の電力を消費している。それに対して、ジョブID「6960998」のジョブは、5秒以内に実行が終了しており、その間の消費電力も2kw程度と少ない。
このように、単純にLDA推定モデルだけを用いると、ジョブステイタス情報は類似するものの、電力波形は異なるジョブがある場合に、誤った電力波形の予測を行う可能性がある。そこで管理サーバ100は、新規投入ジョブとトピック分布が類似する上位所定数のジョブの電力波形と、新規投入ジョブの実行後に採取した電力波形とを比較する。そして管理サーバ100は、新規投入ジョブと類似する電力波形を有するジョブのトピック分布を用いて、電力波形が類似するジョブの類似度を上げるように修正した補正用LDA推定モデルを生成する。例えば管理サーバ100は、式(2)を用いた計算において、電力波形が類似するジョブのトピック分布に示されるトピックの重みを大きくするように、重み付けを行う。例えば管理サーバ100は、各トピックに関する単語の生成確率の計算時に、式(2)のβの値を該当トピックの重みに応じて変更する。βの値を大きくすることで、該当トピックに関する各単語の生成確率が増加し、該当トピックを表す単語の量が増える。すると、各文書のトピック分布を生成した際に、該当トピックの値が大きくなる。
以下、補正用LDAモデルを用いたジョブの消費電力を予測し、ジョブの消費電力に基づいたHPCの電力管理方法について詳細に説明する。
図7は、電力管理のための各装置の機能を示すブロック図である。HPC運用管理サーバ200は、DB210、タイマ部220、情報取得部230、ジョブスケジューリング部240、および制御指示部250を有する。
DB210は、実行するジョブのステイタスを示すジョブステイタス情報や、実行したジョブの消費電力の時系列変化を示すジョブ電力消費情報を記憶する。
タイマ部220は、HPCシステム30からジョブごとの電力消費情報を収集するタイミングを管理する。例えばタイマ部220は、一定の時間間隔で、ジョブ電力消費情報の収集を情報取得部230に指示する。
情報取得部230は、タイマ部220からの指示に応じて、HPCシステム30から、HPCシステム30での実行が終了したジョブの時系列電力データを取得する。情報取得部230は、取得した電力消費情報を、DB210に格納する。
管理サーバ100は、DB110、タイマ部120、メトリクス収集部130、LDA学習部140、LDA予測値計算部150、予測結果送信部160、およびLDA重み更新部170を有する。
DB110は、ジョブごとの電力消費パターンの予測に使用する情報を記憶する。タイマ部120は、未実行のジョブの電力消費パターンの予測タイミングを管理する。例えばタイマ部120は、一定の時間間隔で、HPC運用管理サーバ200からの情報収集を、メトリクス収集部130に指示する。またタイマ部120は、一定の時間間隔で、電力消費パターンの予測を、LDA予測値計算部150に指示する。
メトリクス収集部130は、タイマ部120の指示に応じて、HPC運用管理サーバ200から情報を収集する。例えばメトリクス収集部130は、実行待ちのジョブおよび実行が終了したジョブのジョブステイタス情報と、実行が終了したジョブの電力消費パターンを示す時系列電力データとを、HPC運用管理サーバ200から取得する。メトリクス収集部130は、取得した情報をDB110に格納する。
LDA学習部140は、ジョブ情報に基づいて、LDA推定モデルを生成する。例えばLDA学習部140は、複数のジョブのジョブ情報に含まれる単語を解析し、トピックごとのグループに単語を分類する。LDA学習部140は、学習結果をDB110に格納する。
LDA予測値計算部150は、LDA推定モデルに基づいて、実行待ちのジョブの電力消費パターンを予測する。例えばLDA予測値計算部150は、予測対象のジョブとジョブ情報が類似する、すでに実行が終了したジョブを特定し、特定したジョブの電力消費パターンを、予測対象のジョブの電力消費パターンとして予測する。LDA予測値計算部150は、例えば予測結果をDB110に格納する。
予測結果送信部160は、実行待ちのジョブの電力消費パターンの予測結果を、HPC運用管理サーバ200に送信する。
LDA重み更新部170は、LDA推定モデルの生成時に使用するトピックごとの重みを更新する。例えばLDA重み更新部170は、新たに実行が終了したジョブを対象ジョブとし、対象ジョブとジョブ情報の類似する一定数の類似ジョブのうち、電力消費パターンが対象ジョブと最も類似する類似ジョブを特定する。そしてLDA重み更新部170は、特定した類似ジョブのジョブ情報に基づくトピック分布を求め、そのトピック分布に示されるトピックの重みを大きくする。LDA重み更新部170は、更新後の各トピックの重みをDB110に格納する。
なお、図7に示した各要素間を接続する線は通信経路の一部を示すものであり、図示した通信経路以外の通信経路も設定可能である。また、図7に示した各要素の機能は、例えば、その要素に対応するプログラムモジュールをコンピュータに実行させることで実現することができる。
図8は、管理サーバのDBに格納される情報の一例を示す図である。図8の例では、DB110には、ジョブ情報111、ジョブ消費電力情報112、学習結果情報113、トピック重み情報114、および類似ジョブ情報115が格納されている。
ジョブ情報111は、ジョブごとのジョブ名などのジョブステイタス情報である。ジョブ消費電力情報112は、実行が終了したジョブの時系列の消費電力に関する情報である。学習結果情報113は、LDAによる学習結果を示す情報である。トピック重み情報114は、トピックごとの重み値を示す情報である。類似ジョブ情報115は、消費電力予測対象のジョブに類似するジョブを示す情報である。
図9は、ジョブ情報の一例を示す図である。ジョブ情報111には、例えばジョブごとのジョブステイタス情報111a,111b,・・・が含まれている。ジョブステイタス情報111a,111b,・・・には、ジョブID、ジョブの名称、ジョブの実行を要求しているユーザのユーザ名、該当ユーザが属するグループのグループIDなど、ジョブの実行に関連する各種情報が含まれる。
図10は、ジョブ消費電力情報の一例を示す図である。ジョブ消費電力情報112には、例えば実行が終了したジョブごとの時系列電力データ112a,112b,・・・が格納されている。時系列電力データ112a,112b,・・・には、例えばジョブIDに対応づけて、実行時間ごとの消費電力が示されている。実行時間は、電力測定時における、ジョブの実行を開始してからの経過時間である。電力測定は、例えば所定の時間間隔で各計算ノードにより行われる。消費電力は、ジョブの実行による、計算ノードの消費電力の増加量である。
図11は、学習結果情報の一例を示す図である。学習結果情報113には、例えば、ジョブ情報に含まれる単語を複数のトピックに分類するための推定モデルごとの学習結果113a,113bが含まれている。学習結果113aは、LDA推定モデルによる学習結果である。学習結果113bは、補正用LDA推定モデルによる学習結果である。補正用LDA推定モデルは、LDA推定モデルにトピックごとの重み付けを行ったものである。学習結果113a,113bには、トピックを示すトピック番号に対応づけて、そのトピックに属する単語が登録されている。
図12は、トピック重み情報の一例を示す図である。トピック重み情報114には、トピックを示すトピック番号ごとに、そのトピックの重みが設定されている。トピックの重みは、例えば、LDA重み更新部170によって、新たなジョブの実行が終了するごとに更新される。各トピックの重みは、例えば該当トピックに関する式(2)の計算時のβの値として用いられる。
図13は、類似ジョブ情報の一例を示す図である。例えば類似ジョブ情報115には、推定モデルごとの学習結果113a,113bに基づいて判定された、消費電力の予測対象である対象ジョブに対する類似ジョブ115aまたは類似ジョブリスト115bが含まれる。例えば類似ジョブ115aには、LDA推定モデルの学習結果113aに基づいて判定された、対象ジョブに最も類似する1つのジョブのジョブIDが示される。また類似ジョブリスト115bには、補正用LDA推定モデルの学習結果113aに基づいて判定された、対象ジョブに類似する所定数のジョブのジョブIDが示される。
次に、LDA推定モデルと補正用推定モデルとを用いたジョブの消費電力予測方法について、具体的に説明する。
図14は、LDA推定モデルと補正用推定モデルとを用いたジョブの消費電力予測方法の一例を示す図である。管理サーバ100は、新規投入ジョブ51を検知すると、新規投入ジョブ51のジョブ情報に示されるトピックの出現頻度に応じて、LDA推定モデルまたは補正用LDA推定モデルの学習結果に基づいて、実行が終了したジョブの中から類似ジョブを特定する。例えば管理サーバ100は、新規投入ジョブ51のトピックの、ジョブ全体における出現頻度が所定値以上の場合、補正用LDA推定モデルの学習結果を用いる。また管理サーバ100は、新規投入ジョブ51のトピックの、ジョブ全体における出現頻度が所定値未満の場合、LDA推定モデルの学習結果を用いる。
管理サーバ100は、新規投入ジョブ51に最も類似するジョブを特定し、そのジョブの消費電力を示す電力波形を、新規投入ジョブ51の消費電力の電力波形として予測する。また管理サーバ100は、補正用LDA推定モデルの学習結果を用いて類似ジョブを判定した場合、新規投入ジョブ51の実行終了後に、その新規投入ジョブ51の時系列電力データを取得し、電力波形を生成する。次に管理サーバ100は、新規投入ジョブ51に類似する所定数のジョブそれぞれの電力波形と、新規投入ジョブ51の電力波形とを比較する。
そして、管理サーバ100は、電力波形が最も類似するジョブを特定し、該当ジョブのトピックに基づいて、トピックの重みを更新する。例えば管理サーバ100は、特定したジョブのジョブ情報に示されるトピックの重みの値を所定量だけ増加させる。
このように管理サーバ100は、ジョブ実行終了後に出力されるそのジョブの電力波形と、ジョブ情報が類似する所定数のジョブの電力波形とを比較し、最も近い電力波形を持つジョブ情報のトピックを元に、トピックの重みを変更する。これにより、補正用LDA推定モデルの学習結果を用いた類似ジョブの予測精度が向上する。
なお、補正用LDA推定モデルでは、新規投入ジョブ51と電力波形が類似するジョブのトピックの重みが増加する。この処理が繰り返されると、出現頻度が高いトピックの重みの値が大きくなっていき、出現頻度が低いトピックの重みとの差が大きくなる。その結果、新規投入ジョブ51のトピックとして出現頻度の低いトピックが含まれていた場合、類似判断においてそのトピックの影響が適切に反映されなくなってしまい、類似判断の精度の劣化を招く。そこで、管理サーバ100は、新規投入ジョブに含まれるトピックの出現頻度が低い場合には、LDA推定モデルの学習結果を用いて類似ジョブを判断する。これにより、出現頻度が低いトピックを有するジョブに関する予測精度の劣化を抑止することができる。
以下、ジョブの消費電力予測処理の手順について、詳細に説明する。
図15は、消費電力予測処理の手順の一例を示すフローチャートである。以下、図15に示す処理をステップ番号に沿って説明する。
[ステップS101]タイマ部120は、前回の消費電力予測処理の実行からの経過時間を計測し、所定時間が経過した場合、情報収集の開始をメトリクス収集部130に指示する。メトリクス収集部130は、HPC運用管理サーバ200から情報を収集する。例えばメトリクス収集部130は、HPC運用管理サーバ200内のDB210から、各ジョブのジョブステイタス情報と実行が終了した各ジョブの時系列電力データとを取得する。例えばジョブステイタス情報には、該当ジョブが実行待ちの新規投入ジョブなのか否かを示す情報が含まれる。メトリクス収集部130は、取得した情報をDB110に格納する。
[ステップS102]LDA学習部140は、取得したジョブステイタス情報に示されるジョブのうち新規投入ジョブを識別する。例えばLDA学習部140は、新規投入ジョブのジョブIDを、消費電力予測対象として抽出する。
[ステップS103]LDA学習部140とLDA予測値計算部150が連携して、新規投入ジョブのジョブ情報に類似するジョブ情報を有するジョブ(類似ジョブ)を抽出する。類似ジョブ抽出処理の詳細については後述する(図16参照)。
[ステップS104]LDA予測値計算部150は、新規投入ジョブのトピック分布に示されるトピックの重みを加味した値の平均を算出する。例えばLDA予測値計算部150は、補正用LDA推定モデルに基づいて、新規投入ジョブのトピック分布を算出する。トピック分布には、新規投入モデルのジョブ情報に示される複数のトピックについて、該当トピックの情報がどの程度含まれるかが数値で示される。算出された数値には、トピックごとの重みが反映されており、重みが大きいトピックほど高い数値となる。
[ステップS105]LDA予測値計算部150は、すべてのジョブのトピック分布に示されるトピックの重みを加味した値の平均を算出する(すべてのジョブのすべてのトピックの平均)。
[ステップS106]LDA予測値計算部150は、ステップS104で算出した新規投入ジョブについての平均値と、ステップS105で算出したすべてのジョブについての平均値とを比較する。そしてLDA予測値計算部150は、新規投入ジョブについての平均値がすべてのジョブについての平均値より大きければ、処理をステップS108に進める。またLDA予測値計算部150は、新規投入ジョブについての平均値がすべてのジョブについての平均値以下であれば、処理をステップS107に進める。
[ステップS107]LDA予測値計算部150は、LDA推定モデルに基づいて、新規投入ジョブのトピック分布と最も類似するトピック分布を有するジョブを特定する。そしてLDA予測値計算部150は、特定したジョブの電力波形を、新規投入ジョブの電力波形の予測結果として出力する。予測結果送信部160は、LDA予測値計算部150が出力した予測結果を、HPC運用管理サーバ200に送信する。LDA予測値計算部150は、その後、処理をステップS109に進める。
[ステップS108]LDA予測値計算部150は、補正用LDA推定モデルに基づいて、新規投入ジョブのトピック分布と最も類似するトピック分布を有するジョブを特定する。そしてLDA予測値計算部150は、特定したジョブの電力波形を、新規投入ジョブの電力波形の予測結果として出力する。予測結果送信部160は、LDA予測値計算部150が出力した予測結果を、HPC運用管理サーバ200に送信する。
[ステップS109]LDA重み更新部170は、重み更新処理を行う。重み更新処理の詳細は後述する(図17参照)。
このようにして、LDA推定モデルまたは補正用LDA推定モデルに基づいて新規投入ジョブの消費電力を予測できると共に、補正用LDA推定モデルに適用するトピックごとの重みを更新することができる。
次に、類似ジョブの抽出処理について詳細に説明する。
図16は、類似ジョブ抽出処理の手順の一例を示すフローチャートである。以下、図16に示す処理をステップ番号に沿って説明する。
[ステップS111]LDA学習部140は、すべてのジョブのジョブステイタス情報内の出現単語を抽出する。
[ステップS112]LDA学習部140は、LDA推定モデルを用いて単語をトピックに分類する。すなわちLDA学習部140は、前述の式(2)を用いて、共通のジョブステイタス情報に出現する確率の高い単語同士を同じグループにグルーピングし、生成されたグループをトピックとする。LDA学習部140は、生成したトピックと、各トピックに属する単語のリストとを、学習結果としてDB110に格納する。
[ステップS113]LDA予測値計算部150は、LDA推定モデルによる学習結果に基づいて、すべてのジョブについて、該当ジョブのジョブステイタス情報に含まれるトピック分布を算出する。
[ステップS114]LDA予測値計算部150は、LDA推定モデルによる学習結果から得られたトピック分布に基づいて、新規投入ジョブのトピック分布と、既に実行が終了している他のジョブのトピック分布との類似度を計算する。
[ステップS115]LDA予測値計算部150は、ステップS114の類似度の計算において、新規投入ジョブと最も類似するジョブの情報(例えばジョブID)を、DB110に格納する。
[ステップS116]LDA学習部140は、補正用LDA推定モデルを用いて単語をトピックに分類する。すなわちLDA学習部140は、トピックに応じて単語の生成確率を得る際に、前述の式(2)のβの値にトピックごとの重みを設定する。そしてLDA学習部140は、共通のジョブステイタス情報に出現する確率の高い単語同士を同じグループにグルーピングし、生成されたグループをトピックとする。LDA学習部140は、生成したトピックと、各トピックに属する単語のリストとを、学習結果としてDB110に格納する。
[ステップS117]LDA予測値計算部150は、補正用LDA推定モデルによる学習結果に基づいて、すべてのジョブについて、該当ジョブのジョブステイタス情報に含まれるトピック分布を算出する。
[ステップS118]LDA予測値計算部150は、補正用LDA推定モデルによる学習結果から得られたトピック分布に基づいて、新規投入ジョブのトピック分布と、既に実行が終了している他のジョブのトピック分布との類似度を計算する。
[ステップS119]LDA予測値計算部150は、ステップS118の類似度の計算において、新規投入ジョブと類似する上位所定数(例えば10個)のジョブの情報(例えばジョブID)を、DB110に格納する。
このようにして、LDA推定モデルと補正用LDA推定モデルとのそれぞれに基づいてジョブ間の類似度が計算され、上位のジョブが抽出される。
次に重み更新処理について詳細に説明する。
図17は、重み更新処理の手順の一例を示すフローチャートである。以下、図17に示す処理をステップ番号に沿って説明する。
[ステップS121]LDA重み更新部170は、新規投入ジョブの時系列電力データをDB110から取得する。
[ステップS122]LDA重み更新部170は、補正用LDA推定モデルによる類似ジョブの出力結果(類似ジョブリスト)をDB110から取得する。
[ステップS123]LDA重み更新部170は、類似ジョブの時系列電力データを、DB110から取得する。
[ステップS124]LDA重み更新部170は、新規投入ジョブと類似ジョブとの電力波形の類似度を算出する。電力波形の類似度は、例えば動的時間伸縮法(DTW:Dynamic Time Warping)により計算することができる。
DTWにより電力波形の類似度を計算する場合、LDA重み更新部170は、横軸に実行時間、縦軸に電力を示すグラフ上に、比較対象の2つの電力波形を示す2つの折れ線グラフを定義する。折れ線グラフは、実行時間に応じた電力を示す点(測定点)を結ぶことで生成される。
LDA重み更新部170は、2つの電力波形上の時系列の各測定点の値の距離を総当りで比較していき、時系列同士の距離の値が最も小さくなるような関係(ワーピングパス)を見つける。そしてLDA重み更新部170は、ワーピングパスに対応する距離を、電力波形間の類似度とする。
DTWは、実行時間が違うジョブ間でも評価できるという利点がある。すなわち相関係数などを用いて類似度を算出すると、実行時間が大きく異なるジョブ間の類似度が正しく評価できない。それに対して、DTWは、ジョブの実行時間が大きく異なっていても、類似度を正しく評価できる。
[ステップS125]LDA重み更新部170は、新規投入ジョブに対して電力波形が最も類似するジョブのトピック分布を、補正用LDA推定モデルで計算する。
[ステップS126]LDA重み更新部170は、算出されたトピック分布に示される全てのトピックの重みを大きくする。例えばLDA重み更新部170は、該当トピックの重みの値に「0.01」を加算する。
このように、電力波形が類似するジョブのトピック分布に含まれるトピックの重みの値を大きくすることで、該当トピックを含むジョブほど、トピック分布の類似度判定の際に類似度の値が高くなる。すなわち、新規投入ジョブと電力波形が類似するジョブについて、LDA推定モデルでトピック分布の類似度を計算した場合より、補正用LDA推定モデルでトピック分布の類似度を計算した場合の方が、類似度が高くなる。その結果、新規投入ジョブと類似する電力波形を有するジョブを、正しく特定することが可能となる。
新規投入ジョブの電力を正確に予測できることで、HPC運用管理サーバ200では、例えばHPCシステム30全体の消費電力を平準化させるように、ジョブスケジューリングを行うことができる。消費電力を平準化させることで、HPCシステム30の瞬間最大消費電力を低減することができる。これにより、例えばHPCシステム30を運用するために用意する電力設備の規模の縮小が可能となる。
また、ジョブごとの消費電力を正確に予測できることで、オンデマンド料金制度に基づいて電力料金の契約をしていた場合に、HPCシステム30の消費電力が契約電力を超えないように適切に制御することができる。
図18は、オンデマンド料金制度を説明する図である。図18には、HPCシステム30全体の消費電力を示す電力波形61のグラフを示している。グラフの横軸がHPCシステム30の稼働時間であり、縦軸が消費電力である。電力波形61で示される消費電力の時系列変化の所定期間(例えば30分)の平均値62が、該当期間の電力使用量となる。図18の例では、瞬間最大消費電力は150kwであるが、電力使用量は100kwと換算される。
ここでオンデマンド料金制度では、「電気料金=契約電力料金+電力料金単価×1ヶ月の電力使用量」という計算式で、各月の電力料金が算出される。HPCシステム30では膨大な電力を消費するため、契約電力料金が高額になる。契約電力料金は前年(過去1年間)で最も電力を使用した30分間の電力使用量(最大需要電力)に応じて決定される。そのため30分間単位の時間帯で一度でも契約電力を超過すれば、次年度の電力料金が増加する。
新規投入ジョブの消費電力を正確に予測することができれば、HPC運用管理サーバ200は、以後の30分の時間帯における電力使用量が、過去1年の最大需要電力を超えそうか否かを適切に判断できる。HPC運用管理サーバ200は、過去1年の最大需要電力を超えそうと判断した場合、新規投入ジョブの実行開始を遅らせることで、電力使用量が過去1年の最大需要電力を超えることを抑止できる。その結果、電力料金が抑えられる。
〔第3の実施の形態〕
次に第3の実施の形態について説明する。第3の実施の形態は、新規投入ジョブとの間のトピック分布の類似度が所定値以上のジョブについて、重み更新処理の際の電力波形の比較対象とするものである。第3の実施の形態は、類似ジョブ抽出処理の詳細が、第2の実施の形態と異なる。
図19は、第3の実施の形態における類似ジョブ抽出処理の手順の一例を示すフローチャートである。図19に示す処理のうち、ステップS201〜S208は、図16に示した第2の実施の形態の類似ジョブ抽出処理のステップS111〜S118と同様である。第2の実施の形態と異なるステップS209の処理は以下の通りである。
[ステップS209]LDA予測値計算部150は、ステップS208の類似度の計算において、新規投入ジョブとの類似度が閾値以上のジョブの情報(例えばジョブID)を、DB110に格納する。
このようにして、新規投入ジョブとの間のトピック分布の類似度が閾値以上のジョブのジョブIDが、DB110に格納される。そして重み更新処理では、ステップS209でDB110に格納したジョブIDが類似ジョブとして抽出され、該当ジョブの電力波形と新規投入ジョブの電力波形との類似度が計算される。
トピック分布の類似度が閾値以上のジョブを類似ジョブとすることで、類似ジョブが多数存在した場合であっても、新規投入ジョブと類似する電力波形を有するジョブが、類似ジョブから漏れることを抑止できる。
[その他の実施の形態]
第2の実施の形態ではジョブ情報の類似度を、トピックモデルを用いて計算しているが、管理サーバ100は、他の方法で類似度を計算してもよい。例えば管理サーバ100は、各ジョブ情報の単語の出現頻度を示すベクトル間の類似度(例えばコサイン類似度)を、ジョブ情報間の類似度とすることもできる。
また第2の実施の形態では重みの値を式(2)のβに設定しているが、管理サーバ100は他の方法で、各トピックの重みをトピック分布に反映してもよい。例えば管理サーバ100は、トピック分布における各トピックの出現頻度を示す値に、重みの値を乗算することで、重み付けを行ってもよい。
さらに第2の実施の形態では、管理サーバ100の機能とHPC運用管理サーバ200の機能とを分けているが、例えばHPC運用管理サーバ200が、管理サーバ100の機能を有していてもよい。
以上、実施の形態を例示したが、実施の形態で示した各部の構成は同様の機能を有する他のものに置換することができる。また、他の任意の構成物や工程が付加されてもよい。さらに、前述した実施の形態のうちの任意の2以上の構成(特徴)を組み合わせたものであってもよい。
1 HPCシステム
2,3a,3b,・・・ ジョブ情報
4a,4b,・・・ 消費電力情報
10 ジョブ電力予測装置
11 記憶部
12 処理部

Claims (8)

  1. コンピュータに、
    新規に投入する第1ジョブおよび実行が終了した複数の第2ジョブそれぞれに関連する事項が示された、前記第1ジョブおよび前記複数の第2ジョブそれぞれのジョブ情報に基づいて、前記第1ジョブと前記複数の第2ジョブそれぞれとの第1類似度を、所定の計算式を用いて計算し、
    前記複数の第2ジョブそれぞれについて計算した前記第1類似度に基づいて、ジョブ情報類似の第2ジョブを特定し、
    前記複数の第2ジョブを実行したことで消費した電力が示された、前記複数の第2ジョブそれぞれの消費電力情報に基づいて、前記ジョブ情報類似の第2ジョブの前記消費電力情報に示されている消費電力を、前記第1ジョブを実行することによる消費電力と予測し、
    前記第1ジョブの実行終了後に、前記第1ジョブを実行したことで消費した電力が示された第1ジョブ消費電力情報を取得し、
    前記第1ジョブ消費電力情報と前記複数の第2ジョブの前記消費電力情報とに基づいて、前記第1ジョブと前記複数の第2ジョブの少なくとも一部との第2類似度を計算し、
    前記複数の第2ジョブの少なくとも一部について計算した前記第2類似度に基づいて、消費電力類似の第2ジョブを特定し、
    前記第1ジョブと前記消費電力類似の第2ジョブとの前記第1類似度が補正前よりも高くなるように、前記計算式を補正する、
    処理を実行させるジョブ電力予測プログラム。
  2. 前記第1類似度の計算では、前記第1ジョブおよび前記複数の第2ジョブそれぞれの前記ジョブ情報に含まれるトピックの出現確率を示すトピック分布を計算し、前記第1ジョブと前記複数の第2ジョブそれぞれとのトピック分布の類似度を、前記第1ジョブと前記複数の第2ジョブそれぞれとの前記第1類似度とする、
    請求項1記載のジョブ電力予測プログラム。
  3. 前記第1類似度の計算では、トピックごとの重みを用い、重みの値が大きいトピックを含む前記ジョブ情報ほど類似度が高くなる前記計算式によって、前記第1類似度を計算し、
    前記計算式の補正では、前記ジョブ情報類似の第2ジョブの前記ジョブ情報に含まれるトピックの重みの値を増加させる、
    請求項2記載のジョブ電力予測プログラム。
  4. 前記第1類似度の計算では、前記第1ジョブの前記ジョブ情報に含まれるトピックの重みに応じて、トピックごとの重みを用いた前記計算式によって前記第1類似度を計算するのか、トピックごとの重みを用いない補正無し計算式によって前記第1類似度を計算するのかを判定し、判定結果に応じて、前記計算式または前記補正無し計算式を用いて前記第1類似度を計算する、
    請求項3記載のジョブ電力予測プログラム。
  5. 前記第2類似度の計算では、前記第1ジョブとの前記第1類似度が高い方から所定数の第2ジョブについて、前記第2類似度を計算する、
    請求項1ないし4のいずれかに記載のジョブ電力予測プログラム。
  6. 前記第2類似度の計算では、前記第1ジョブとの前記第1類似度が閾値以上の第2ジョブについて、前記第2類似度を計算する、
    請求項1ないし4のいずれかに記載のジョブ電力予測プログラム。
  7. コンピュータが、
    新規に投入する第1ジョブおよび実行が終了した複数の第2ジョブそれぞれに関連する事項が示された、前記第1ジョブおよび前記複数の第2ジョブそれぞれのジョブ情報に基づいて、前記第1ジョブと前記複数の第2ジョブそれぞれとの第1類似度を、所定の計算式を用いて計算し、
    前記複数の第2ジョブそれぞれについて計算した前記第1類似度に基づいて、ジョブ情報類似の第2ジョブを特定し、
    前記複数の第2ジョブを実行したことで消費した電力が示された、前記複数の第2ジョブそれぞれの消費電力情報に基づいて、前記ジョブ情報類似の第2ジョブの前記消費電力情報に示されている消費電力を、前記第1ジョブを実行することによる消費電力と予測し、
    前記第1ジョブの実行終了後に、前記第1ジョブを実行したことで消費した電力が示された第1ジョブ消費電力情報を取得し、
    前記第1ジョブ消費電力情報と前記複数の第2ジョブの前記消費電力情報とに基づいて、前記第1ジョブと前記複数の第2ジョブの少なくとも一部との第2類似度を計算し、
    前記複数の第2ジョブの少なくとも一部について計算した前記第2類似度に基づいて、消費電力類似の第2ジョブを特定し、
    前記第1ジョブと前記消費電力類似の第2ジョブとの前記第1類似度が補正前よりも高くなるように、前記計算式を補正する、
    ジョブ電力予測方法。
  8. 新規に投入する第1ジョブおよび実行が終了した複数の第2ジョブそれぞれに関連する事項が示された、前記第1ジョブおよび前記複数の第2ジョブそれぞれのジョブ情報と、前記複数の第2ジョブを実行したことで消費した電力が示された、前記複数の第2ジョブそれぞれの消費電力情報とを記憶する記憶部と、
    前記第1ジョブおよび前記複数の第2ジョブそれぞれの前記ジョブ情報に基づいて、前記第1ジョブと前記複数の第2ジョブそれぞれとの第1類似度を、所定の計算式を用いて計算し、前記複数の第2ジョブそれぞれについて計算した前記第1類似度に基づいて、ジョブ情報類似の第2ジョブを特定し、前記複数の第2ジョブそれぞれの前記消費電力情報に基づいて、前記ジョブ情報類似の第2ジョブの前記消費電力情報に示されている消費電力を、前記第1ジョブを実行することによる消費電力と予測し、前記第1ジョブの実行終了後に、前記第1ジョブを実行したことで消費した電力が示された第1ジョブ消費電力情報を取得し、前記第1ジョブ消費電力情報と前記複数の第2ジョブの前記消費電力情報とに基づいて、前記第1ジョブと前記複数の第2ジョブの少なくとも一部との第2類似度を計算し、前記複数の第2ジョブの少なくとも一部について計算した前記第2類似度に基づいて、消費電力類似の第2ジョブを特定し、前記第1ジョブと前記消費電力類似の第2ジョブとの前記第1類似度が補正前よりも高くなるように、前記計算式を補正する処理部と、
    を有するジョブ電力予測装置。
JP2019020579A 2019-02-07 2019-02-07 ジョブ電力予測プログラム、ジョブ電力予測方法、およびジョブ電力予測装置 Active JP7235960B2 (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP2019020579A JP7235960B2 (ja) 2019-02-07 2019-02-07 ジョブ電力予測プログラム、ジョブ電力予測方法、およびジョブ電力予測装置
US16/748,476 US11385700B2 (en) 2019-02-07 2020-01-21 Estimation of power consumption for a job based on adjusted calculation of similarities between jobs

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2019020579A JP7235960B2 (ja) 2019-02-07 2019-02-07 ジョブ電力予測プログラム、ジョブ電力予測方法、およびジョブ電力予測装置

Publications (2)

Publication Number Publication Date
JP2020129180A true JP2020129180A (ja) 2020-08-27
JP7235960B2 JP7235960B2 (ja) 2023-03-09

Family

ID=71946107

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2019020579A Active JP7235960B2 (ja) 2019-02-07 2019-02-07 ジョブ電力予測プログラム、ジョブ電力予測方法、およびジョブ電力予測装置

Country Status (2)

Country Link
US (1) US11385700B2 (ja)
JP (1) JP7235960B2 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116069143A (zh) * 2023-04-06 2023-05-05 山东省计算中心(国家超级计算济南中心) 一种基于作业相似性判断功耗预测的节能方法及系统

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP3979021A1 (en) * 2020-09-30 2022-04-06 Ricoh Company, Ltd. Scheduling system, scheduling method, and carrier means

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20160048413A1 (en) * 2014-08-18 2016-02-18 Fujitsu Limited Parallel computer system, management apparatus, and control method for parallel computer system
JP2018084907A (ja) * 2016-11-22 2018-05-31 富士通株式会社 ジョブ消費電力推定プログラム、並列処理装置およびジョブ消費電力推定方法

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5966143A (en) * 1997-10-14 1999-10-12 Motorola, Inc. Data allocation into multiple memories for concurrent access
JP2001255967A (ja) * 2000-03-13 2001-09-21 Toshiba Corp 情報処理装置及びその電力制御方法
JP5440815B2 (ja) 2009-06-26 2014-03-12 日本電気株式会社 情報分析装置、情報分析方法、及びプログラム
JP6181411B2 (ja) 2013-04-24 2017-08-16 シャープ株式会社 情報処理装置、情報処理方法、及びプログラム
US9692231B2 (en) * 2013-09-06 2017-06-27 Amazon Technologies, Inc. Managing power feeds through waveform monitoring
EP3460807A1 (en) * 2017-09-20 2019-03-27 Koninklijke Philips N.V. Subject clustering method and apparatus

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20160048413A1 (en) * 2014-08-18 2016-02-18 Fujitsu Limited Parallel computer system, management apparatus, and control method for parallel computer system
JP2018084907A (ja) * 2016-11-22 2018-05-31 富士通株式会社 ジョブ消費電力推定プログラム、並列処理装置およびジョブ消費電力推定方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
宇野 篤也: "消費電力の変動を考慮したジョブスケジューリングの検討", 情報処理学会 研究報告 ハイパフォーマンスコンピューティング(HPC) 2017−HPC−161 [, JPN6022045953, 12 September 2017 (2017-09-12), ISSN: 0004914668 *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116069143A (zh) * 2023-04-06 2023-05-05 山东省计算中心(国家超级计算济南中心) 一种基于作业相似性判断功耗预测的节能方法及系统
CN116069143B (zh) * 2023-04-06 2023-07-18 山东省计算中心(国家超级计算济南中心) 一种基于作业相似性判断功耗预测的节能方法及系统

Also Published As

Publication number Publication date
US11385700B2 (en) 2022-07-12
JP7235960B2 (ja) 2023-03-09
US20200257350A1 (en) 2020-08-13

Similar Documents

Publication Publication Date Title
US11762918B2 (en) Search method and apparatus
TWI433035B (zh) 按比例調整指令間隔以識別用於代表性指令追蹤的收集點
US10942763B2 (en) Operation management apparatus, migration destination recommendation method, and storage medium
JP7177350B2 (ja) ジョブ電力予測プログラム、ジョブ電力予測方法、およびジョブ電力予測装置
US11700210B2 (en) Enhanced selection of cloud architecture profiles
JP7011162B2 (ja) 性能調整プログラム、および性能調整方法
US20150066598A1 (en) Predicting service delivery costs under business changes
JP6493006B2 (ja) 人口推計方法、人口推計プログラム、および人口推計装置
US20210359514A1 (en) Information processing apparatus and job scheduling method
US11861664B2 (en) Keyword bids determined from sparse data
JPWO2017188419A1 (ja) 計算資源管理装置、計算資源管理方法、及びプログラム
US8560827B1 (en) Automatically determining configuration parameters for a system based on business objectives
JP7235960B2 (ja) ジョブ電力予測プログラム、ジョブ電力予測方法、およびジョブ電力予測装置
CN112015615A (zh) 存储介质、作业功率评估方法和作业功率评估设备
Chen et al. Silhouette: Efficient cloud configuration exploration for large-scale analytics
CN115033377A (zh) 基于集群服务器的服务资源预测方法、装置和电子设备
US20220027758A1 (en) Information processing apparatus and information processing method
CN112463378B (zh) 一种服务器资产扫描方法、系统、电子设备及存储介质
US20190034825A1 (en) Automatically selecting regression techniques
EP3826233B1 (en) Enhanced selection of cloud architecture profiles
KR20140008241A (ko) 모델 안정성 및 핏을 평가하는 방법 및 장치
Han et al. Clap: Component-level approximate processing for low tail latency and high result accuracy in cloud online services
Glasner et al. An architecture for an adaptive run-time prediction system
US12038822B2 (en) Tenant database placement in oversubscribed database-as-a-service cluster
JP2021190001A (ja) ジョブスケジューリングプログラム、情報処理装置およびジョブスケジューリング方法

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20211109

RD02 Notification of acceptance of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7422

Effective date: 20211111

RD04 Notification of resignation of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7424

Effective date: 20211111

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20220912

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20221108

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20230104

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20230124

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20230206

R150 Certificate of patent or registration of utility model

Ref document number: 7235960

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150