JP2017123048A - 並列処理装置、ジョブ監視方法及びジョブ監視プログラム - Google Patents

並列処理装置、ジョブ監視方法及びジョブ監視プログラム Download PDF

Info

Publication number
JP2017123048A
JP2017123048A JP2016001668A JP2016001668A JP2017123048A JP 2017123048 A JP2017123048 A JP 2017123048A JP 2016001668 A JP2016001668 A JP 2016001668A JP 2016001668 A JP2016001668 A JP 2016001668A JP 2017123048 A JP2017123048 A JP 2017123048A
Authority
JP
Japan
Prior art keywords
job
service
execution
abnormality
monitoring
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2016001668A
Other languages
English (en)
Other versions
JP6555131B2 (ja
Inventor
良輔 小久保
Ryosuke Kokubo
良輔 小久保
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujitsu Ltd
Original Assignee
Fujitsu Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fujitsu Ltd filed Critical Fujitsu Ltd
Priority to JP2016001668A priority Critical patent/JP6555131B2/ja
Publication of JP2017123048A publication Critical patent/JP2017123048A/ja
Application granted granted Critical
Publication of JP6555131B2 publication Critical patent/JP6555131B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Debugging And Monitoring (AREA)

Abstract

【課題】計算ノードに異常が発生した場合に、ジョブの無駄な再実行を防ぐこと。
【解決手段】モデル作成部21fが、過去のデータに基づいて重度評価モデルを作成し、重度評価モデルに関する情報をモデル情報記憶部21dに格納する。そして、異常重度判定部21eが、異常なサービス41が動作する計算ノード4から異常なサービス41の状態を取得する。また、異常重度判定部21eは、異常なサービス41が動作する計算ノード4で実行されているジョブ42の規模及び実行時間をジョブスケジューラ32から取得する。そして、異常重度判定部21eは、異常なサービス41の状態、実行ジョブ42の規模及び実行時間と重度評価モデルとを用いて実行ジョブ42の継続可否を判定する。
【選択図】図3

Description

本発明は、並列処理装置、ジョブ監視方法及びジョブ監視プログラムに関する。
HPC(High Performance Computing)システム等の並列処理システムは、複数の計算ノードを管理し並列に動作させることで、システム全体の性能を高めており、システム全体の性能を向上させるためには、大量の計算ノードが必要になる。ここで、計算ノードとは、情報処理を行う情報処理装置である。
計算ノードの台数が増加すると、計算ノードの台数に比例して計算ノードの故障率や計算ノード内のソフトウェアの異常発生率が大きくなる。このため、並列処理システムは、異常が発生していない計算ノードにジョブを割り当てるために、計算ノードの稼働状況や計算ノードで動作しているサービスの状態を監視するシステム監視機構を有する。ここで、サービスとは、計算ノードで動作するプロセスである。
システム監視機構により計算ノードの異常が検知された場合、計算ノード上で実行中のジョブは、ジョブ管理機構により停止され、ジョブ属性に応じて再キューイングされる。
なお、異常処理については、複数の異常処理プログラムから1つを選択させ、選択された異常処理プログラムを異常時に実行することで、システムの利便性を向上させる技術がある。また、ジョブの障害影響度と実行サーバの障害リスク度を評価し、障害影響度の高いジョブを障害リスク度の低い実行サーバで実行することで、障害影響度の高いジョブの正常終了確率を向上させる技術がある。
特開2001−273153号公報 特開2011−215661号公報
しかしながら、異常が発生した計算ノード上で実行中のジョブを常に停止させると、異常発生までのジョブの実行が無駄になるという問題がある。計算ノードの異常には、ハードウェアの異常、ユーザサービスの異常等様々な異常があり、異常の種類によってはジョブの継続が可能な場合がある。また、計算資源を多く使用し、ほぼ完走の状態にあり、異常の影響を受けない大規模ジョブを最初から再度実行することは、計算資源を無駄に使うことになる。
本発明は、1つの側面では、計算ノードに異常が発生した場合に、ジョブの継続可否を判定し、継続可能なときは、ジョブの実行を継続することで、ジョブの無駄な再実行を防ぐことを目的とする。
1つの態様では、並列処理装置は、ジョブを並列に処理する複数の情報処理装置と該複数の情報処理装置を監視する監視装置とジョブの実行を管理するジョブ管理装置とを有する。前記監視装置は、作成部と、第1取得部と、第2取得部と、判定部とを有する。前記作成部は、過去に発生したサービスの異常について該サービスの状態、異常発生時に該サービスが動作する情報処理装置で実行されていたジョブの規模及び該ジョブの実行時間と該ジョブの継続の可否とを学習することによって継続判定モデルを作成する。前記第1取得部は、サービスに異常が発生すると、該異常が発生したサービスを実行する情報処理装置から該サービスの状態を含む異常情報を取得する。前記第2取得部は、前記異常が発生したサービスが動作する情報処理装置で実行されている実行ジョブの規模及び該実行ジョブの実行時間を含む実行ジョブ情報を前記ジョブ管理装置から取得する。前記判定部は、前記作成部により作成された継続判定モデルと前記第1取得部が取得した異常情報及び前記第2取得部が取得した実行ジョブ情報とを用いて前記実行ジョブの継続の可否を判定する。
1つの側面では、ジョブの無駄な再実行を防ぐことができる。
図1は、実施例に係るHPCシステムの構成を示す図である。 図2は、HPCシステムのサービス監視を説明するための図である。 図3は、各ノードの機能構成を示す図である。 図4は、重度評価モデルで使用される値の一例を示す図である。 図5は、モデル情報記憶部が記憶する情報の一例を示す図である。 図6は、サービス異常検出時のシーケンスを示す図である。 図7は、異常重度判定部の機能構成を示す図である。 図8は、異常重度判定処理のフローを示すフローチャートである。 図9は、実施例に係るジョブ監視プログラムを実行するコンピュータのハードウェア構成を示す図である。
以下に、本願の開示する並列処理装置、ジョブ監視方法及びジョブ監視プログラムの実施例を図面に基づいて詳細に説明する。なお、この実施例は開示の技術を限定するものではない。
まず、実施例に係るHPCシステムの構成について説明する。図1は、実施例に係るHPCシステムの構成を示す図である。図1に示すように、実施例に係るHPCシステム1は、監視マスタノード2と、2台の監視サブノード3と、4台の計算ノード4を有する。監視マスタノード2、2台の監視サブノード3及び4台の計算ノード4は、ネットワークで接続され、相互に通信することができる。なお、ここでは説明の便宜上、4台の計算ノード4及び2台の監視サブノード3のみを示したが、HPCシステム1はより多くの計算ノード4及び監視サブノード3を有する。
監視マスタノード2は、HPCシステム1を監視する装置である。監視サブノード3は、計算ノード4から監視情報を受信して監視マスタノード2に送信する中継装置である。計算ノード4は、他の計算ノード4と連携してジョブを並列に処理する情報処理装置である。
次に、HPCシステム1のサービス監視について説明する。図2は、HPCシステム1のサービス監視を説明するための図である。図2に示すように、計算ノード4では、ジョブ依存サービス4a、非ジョブ依存サービス4b及びサービス監視デーモン4cが動作する。なお、ここでは説明の便宜上、1つのジョブ依存サービス4a及び非ジョブ依存サービス4bのみを示したが、計算ノード4では、より多くのジョブ依存サービス4a及び非ジョブ依存サービス4bが動作する。
ジョブ依存サービス4aは、ジョブ実行のために必要なサービスである。例えば、ジョブ依存サービス4aは、ジョブの計算ノード4への割り当て、ジョブ実行結果の関連ノードへの通知等を行う。
非ジョブ依存サービス4bは、利用者が投入したジョブに関係なく、ジョブ運用に必要なサービスである。例えば、非ジョブ依存サービス4bには、OS(Operating System)が動作するためのサービス、HPCシステム1の管理者が実行させるサービス等がある。
サービス監視デーモン4cは、ジョブ依存サービス4a及び非ジョブ依存サービス4bを定期的に監視し、異常が発生すると、対応する監視サブノード3に異常が発生したサービスすなわち異常サービスと異常サービスの状態を通知する。
監視サブノード3は、分担して計算ノード4を監視する。ジョブ管理ノード3aは、HPCシステム1で実行されるジョブを管理する装置であり、監視サブノード3としての機能を有する。監視サブノード3は、配下の計算ノード4を監視し、異常が発生すると、異常サービスと異常サービスの状態を異常が発生した計算ノード4から受け取って監視マスタノード2に通知する。
監視マスタノード2は、異常が発生した計算ノード4で実行されるジョブの情報をジョブ管理ノード3aから取得し、取得したジョブ情報と異常サービスの状態に基づいて当該ジョブの継続可否を判定する。そして、監視マスタノード2は、当該ジョブの継続が不可であると判定すると、当該ジョブの停止をジョブ管理ノード3aに指示し、当該ジョブの継続が可であると判定すると、新規ジョブの割り当てを抑止する。
次に、各ノードの機能構成について説明する。図3は、各ノードの機能構成を示す図である。図3に示すように、ジョブ42の実行に関連するサービス41が計算ノード4で実行されることにより、ジョブ42が実行される。計算ノード4は、計算ノード4の監視を行うシステム監視部43を有する。
システム監視部43は、ノード監視部43aとサービス監視部43bとを有する。ノード監視部43aは、自装置で実行されるサービス41の監視結果を監視サブノード3又は監視サブノード3の機能を有するジョブ管理ノード3aに通知する。図3は、ジョブ管理ノード3aにノード監視部43aが通知する場合を示す。
また、ノード監視部43aは、サービス41に異常が発生すると、監視サブノード3を介した監視マスタノード2からの要求に基づいて、異常サービス41の状態を監視サブノード3を介して監視マスタノード2に通知する。
サービス監視部43bは、サービス41が停止していないかあるいはスローダウンしていないか等、サービス41の監視を行う。サービス監視部43bは、サービス41に監視用のメッセージを送信し、サービス41からの応答の有無あるいは応答を受信するまでの時間に基づいてサービス41の停止あるいはサービス41のスローダウンを監視する。
サービス監視部43bは、サービス41の監視結果をノード監視部43aに渡す。なお、図3では、説明の便宜上、1つのサービス41のみを示したが、サービス監視部43bは、より多くのサービス41を監視する。また、サービス監視部43bは、図2に示したサービス監視デーモン4cに対応する。
ジョブ管理ノード3aは、システム監視部31とジョブスケジューラ32とを有する。システム監視部31は、監視サブノード3の機能としてHPCシステム1の監視を行う。システム監視部31は、ノード監視部31aと、サービス監視部31bと、ジョブ連携依頼部31cとを有する。
ノード監視部31aは、配下の計算ノード4から監視に関して通知された情報を監視マスタノード2に通知する。また、ノード監視部31aは、自装置で実行されるサービス41の監視結果を監視マスタノード2に通知する。サービス監視部31bは、自装置で実行されるサービスの監視を行い、監視結果をノード監視部31aに渡す。
ジョブ連携依頼部31cは、監視マスタノード2からジョブ42の停止依頼を受信すると、ジョブスケジューラ32にジョブ42の停止を指示する。また、ジョブ連携依頼部31cは、監視マスタノード2から新規ジョブ42の割り当て抑止依頼を受信すると、ジョブスケジューラ32に新規ジョブ42の割り当て抑止を指示する。
ジョブスケジューラ32は、HPCシステム1で実行されるジョブ42のスケジューリングを行う。ジョブスケジューラ32は、ジョブ管理ノード3aが有するジョブ管理機能の1つである。
監視マスタノード2は、HPCシステム1の監視を行うシステム監視部21を有する。システム監視部21は、ノード監視部21aと、サービス監視部21bと、ジョブ連携依頼部21cと、モデル情報記憶部21dと、異常重度判定部21eと、モデル作成部21fとを有する。
ノード監視部21aは、ジョブ管理ノード3a及び監視サブノード3から計算ノード4の監視情報を受け取る。また、ノード監視部21aは、異常サービス41の状態に関する情報を異常が発生した計算ノード4からジョブ管理ノード3a又は監視サブノード3を介して取得し、取得した情報を異常重度判定部21eに渡す。また、ノード監視部21aは、異常重度判定部21eからジョブ42の停止指示を受け取ると、ジョブ42の停止指示をジョブ連携依頼部21cに渡す。
サービス監視部21bは、自装置で実行されるサービスの監視を行い、監視結果をノード監視部21aに渡す。ジョブ連携依頼部21cは、異常重度判定部21eからジョブ42の停止指示をノード監視部21aを介して受け取ると、ジョブ管理ノード3aにジョブ42の停止依頼を送る。また、ジョブ連携依頼部21cは、異常重度判定部21eから新規ジョブ42の割り当て抑止指示をノード監視部21aを介して受け取ると、ジョブ管理ノード3aに新規ジョブ42の割り当て抑止依頼を送る。
モデル情報記憶部21dは、異常重度判定部21eが異常重度の判定に用いる重度評価モデルに関する情報を記憶する。異常重度判定部21eは、計算ノード4で実行されているサービス41に異常が発生した場合に、異常が発生した計算ノード4で実行されているジョブ42を継続実行するか否かを重度評価モデルを用いて判定する。モデル作成部21fは、過去のデータに基づいて重度評価モデルを作成し、重度評価モデルに関する情報をモデル情報記憶部21dに格納する。
モデル作成部21fは、重回帰分析を用いて重度評価モデルを作成する。図4は、重度評価モデルで使用される値の一例を示す図である。図4に示すように、重度評価モデルでは、独立変数として、異常サービス41の状態(x1)と、異常が発生した計算ノード4で実行されているジョブの規模(x2)と、そのジョブの実行時間(x3)とが用いるれる。
例えば、異常サービス41がジョブ依存サービス4aであって停止の状態である場合には、x1=1である。異常サービス41がジョブ依存サービス4aであってスローダウンの状態である場合には、x1=0.5である。
異常が発生した計算ノード4で実行されているジョブの規模がHPCシステム1の全CPU(Central Processing Unit)のうち8割以上である場合には、x2=1である。ここで、CPUは計算ノード4が有する演算処理装置であり、計算ノード4は1以上のCPUを有する。また、異常が発生した計算ノード4で実行されているジョブの実行時間が経過時間制限の8割経過している場合には、x3=1である。
また、重度評価モデルでは、従属変数としてジョブ継続可否の実績(y)が用いられる。例えば、ジョブ継続が可能であった場合には、y=0であり、ジョブ継続が不可であった場合には、y=2である。
図5は、モデル情報記憶部21dが記憶する情報の一例を示す図である。図5に示すように、モデル情報記憶部21dは、過去の実績に関する情報と、重回帰式の係数の値を記憶する。過去の実績に関する情報には、異常サービス41の状態(x1)と、異常が発生した計算ノード4で実行されているジョブの規模(x2)と、そのジョブの実行時間(x3)と、ジョブ継続可否実績(y)が含まれる。重回帰式の係数(a1,a2,a3,b)の値は、過去の実績に関する情報から重回帰分析を用いてモデル作成部21fにより計算される。
異常重度判定部21eは、異常サービス41に関してx1〜x3の値を図4を参照して取得し、取得したx1〜x3の値を重回帰式y=a11+a22+a33+bに代入することによって、yの値を計算する。そして、異常重度判定部21eは、例えば、y>1であればジョブの継続を不可と判定し、y≦1であればジョブの継続を可能と判定する。
このように、異常重度判定部21eは、過去の実績データに基づいてジョブ継続可否を判定することで、ジョブ継続可否を適切に判定することができる。なお、ここでは、重回帰分析を用いて重度評価モデルを作成する場合について説明したが、重度評価モデルとしては、ニューラルネットワークに基づくモデル等過去の実績データを学習することによって作成される他のモデルを用いてもよい。
次に、サービス異常検出時のシーケンスについて説明する。図6は、サービス異常検出時のシーケンスを示す図である。図6に示すように、計算ノード4のシステム監視部43は、異常を検出する(t1)と、監視サブノード3に異常を通知する(t2)。そして、監視サブノード3のシステム監視部31は、通知された異常を監視マスタノード2に通知する(t3)。
そして、監視マスタノード2の異常重度判定部21eがジョブ刈り取り可否を判断する(t4)。ここで、ジョブ刈り取りとは、ジョブ42の停止である。そして、異常重度判定部21eは、ジョブ刈り取り可と判断した場合には、ジョブ管理ノード3aのジョブスケジューラ32にジョブ42の刈り取りを依頼し(t5)、ジョブスケジューラ32がジョブ42の刈り取りを行う(t6)。
一方、ジョブ刈り取り不可と判断した場合には、異常重度判定部21eは、ジョブスケジューラ32に異常が発生した計算ノード4への新規ジョブ42の割り当て抑止を依頼し(t7)、ジョブスケジューラ32が新規ジョブ42の割り当て抑止を行う(t8)。
このように、監視マスタノード2の異常重度判定部21eがジョブ刈り取り可否を判断することで、不要なジョブ刈り取りを防ぐことができる。
次に、異常重度判定部21eの機能構成について説明する。図7は、異常重度判定部21eの機能構成を示す図である。図7に示すように、異常重度判定部21eは、監視情報取得部22と、ジョブ情報取得部23と、モデル情報読込部24と、継続可否判定部25とを有する。
監視情報取得部22は、異常サービス41が動作する計算ノード4から異常サービス41の状態を取得する。ジョブ情報取得部23は、異常サービス41が動作する計算ノード4で実行されているジョブ42の情報すなわち実行ジョブ42の規模及び実行時間をジョブ管理ノード3aのジョブスケジューラ32から取得する。
モデル情報読込部24は、モデル情報記憶部21dが記憶する重度評価モデルを読み込む。具体的には、モデル情報読込部24は、モデル情報記憶部21dから重回帰式の係数a1〜a3及びbを読み込む。
継続可否判定部25は、異常サービス41の状態、実行ジョブ42の規模及び実行時間と重回帰式y=a11+a22+a33+bとを用いて実行ジョブ42の継続可否を判定する。
具体的には、継続可否判定部25は、異常サービス41の状態に対応する値をx1の値とし、実行ジョブ42の規模に対応する値をx2の値とし、実行ジョブ42の実行時間に対応する値をx3の値として、重回帰式からyの値を計算する。そして、継続可否判定部25は、yが1より大きければ実行ジョブ42を停止すると判定し、yが1以下であれば実行ジョブ42を継続すると判定する。
そして、継続可否判定部25は、実行ジョブ42を停止すると判定した場合に、ジョブ連携依頼部21cに実行ジョブ42の停止を依頼する。また、継続可否判定部25は、実行ジョブ42を継続すると判定した場合に、ジョブ連携依頼部21cに新規ジョブ42の割り当て抑止を依頼する。
次に、異常サービス41の異常重度を判定する異常重度判定処理のフローについて説明する。図8は、異常重度判定処理のフローを示すフローチャートである。図8に示すように、異常重度判定部21eは、異常サービス41が動作する計算ノード4から異常サービス41の状態を取得する(ステップS1)。
そして、異常重度判定部21eは、ジョブ管理ノード3aのジョブスケジューラ32から、異常サービス41が動作する計算ノード4で実行されている実行ジョブ42の規模及び実行時間を取得する(ステップS2)。そして、異常重度判定部21eは、モデル情報記憶部21dから重度評価モデルを読み込む(ステップS3)。
そして、異常重度判定部21eは、異常サービス41の状態、実行ジョブ42の規模及び実行時間と重度評価モデルを用いて、ジョブ継続が可能か否か、すなわち、重回帰式のyが1以下か否かを判定する(ステップS4)。その結果、yが1より大きい場合には、異常重度判定部21eは、ジョブスケジューラ32にジョブ停止を依頼する(ステップS5)。
一方、yが1以下である場合には、異常重度判定部21eは、ジョブスケジューラ32に異常が発生した計算ノード4への新規ジョブ42の割り当て抑止を依頼する(ステップS6)。
このように、異常重度判定部21eは、重回帰式を用いて実行ジョブ42の継続可否を判定することで、実行ジョブ42の不要な停止を防ぐことができる。
上述してきたように、実施例では、モデル作成部21fが、過去のデータに基づいて重度評価モデルを作成し、重度評価モデルに関する情報をモデル情報記憶部21dに格納する。そして、監視情報取得部22が、異常サービス41が動作する計算ノード4から異常サービス41の状態を取得する。また、ジョブ情報取得部23が、異常サービス41が動作する計算ノード4で実行されている実行ジョブ42の規模及び実行時間をジョブスケジューラ32から取得する。そして、継続可否判定部25が、異常サービス41の状態、実行ジョブ42の規模及び実行時間と重度評価モデルとを用いて実行ジョブ42の継続可否を判定する。したがって、監視マスタノード2は、異常重度が低く異常の影響を受けない実行ジョブ42を継続して実行させることができ、実行ジョブ42の不要な停止を防ぐことができる。
また、実施例では、継続可否判定部25が、ジョブ依存サービス4aと非ジョブ依存サービス4bを区別して異常重度を評価することで、実行ジョブ42の継続可否を正確に判定することができる。
また、実施例では、継続可否判定部25が、サービス41の停止とスローダウンを区別して異常重度を評価することで、実行ジョブ42の継続可否を正確に判定することができる。
なお、実施例では、監視マスタノード2のシステム監視部21について説明したが、システム監視部21の構成をソフトウェアによって実現することで、同様の機能を有するジョブ監視プログラムを得ることができる。そこで、ジョブ監視プログラムを実行するコンピュータについて説明する。
図9は、実施例に係るジョブ監視プログラムを実行するコンピュータのハードウェア構成を示す図である。図9に示すように、コンピュータ50は、メインメモリ51と、CPU52と、LAN(Local Area Network)インタフェース53と、HDD(Hard Disk Drive)54とを有する。また、コンピュータ50は、スーパーIO(Input Output)55と、DVI(Digital Visual Interface)56と、ODD(Optical Disk Drive)57とを有する。
メインメモリ51は、プログラムやプログラムの実行途中結果などを記憶するメモリである。CPU52は、メインメモリ51からプログラムを読み出して実行する中央処理装置である。CPU52は、メモリコントローラを有するチップセットを含む。
LANインタフェース53は、コンピュータ50をLAN経由で他のコンピュータに接続するためのインタフェースである。HDD54は、プログラムやデータを格納するディスク装置であり、スーパーIO55は、マウスやキーボードなどの入力装置を接続するためのインタフェースである。DVI56は、液晶表示装置を接続するインタフェースであり、ODD57は、DVDの読み書きを行う装置である。
LANインタフェース53は、PCIエクスプレス(PCIe)によりCPU52に接続され、HDD54及びODD57は、SATA(Serial Advanced Technology Attachment)によりCPU52に接続される。スーパーIO55は、LPC(Low Pin Count)によりCPU52に接続される。
そして、コンピュータ50において実行されるジョブ監視プログラムは、DVDに記憶され、ODD57によってDVDから読み出されてコンピュータ50にインストールされる。あるいは、ジョブ監視プログラムは、LANインタフェース53を介して接続された他のコンピュータシステムのデータベースなどに記憶され、これらのデータベースから読み出されてコンピュータ50にインストールされる。そして、インストールされたジョブ監視プログラムは、HDD54に記憶され、メインメモリ51に読み出されてCPU52によって実行される。
また、実施例では、HPCシステム1について説明したが、本発明はこれに限定されるものではなく、複数の情報処理装置が並列処理を行う任意の並列処理装置にも同様に適用することができる。
1 HPCシステム
2 監視マスタノード
3 監視サブノード
3a ジョブ管理ノード
4 計算ノード
4a ジョブ依存サービス
4b 非ジョブ依存サービス
4c サービス監視デーモン
21 システム監視部
21a ノード監視部
21b サービス監視部
21c ジョブ連携依頼部
21d モデル情報記憶部
21e 異常重度判定部
21f モデル作成部
22 監視情報取得部
23 ジョブ情報取得部
24 モデル情報読込部
25 継続可否判定部
31 システム監視部
31a ノード監視部
31b サービス監視部
31c ジョブ連携依頼部
32 ジョブスケジューラ
41 サービス
42 ジョブ
43 システム監視部
43a ノード監視部
43b サービス監視部
50 コンピュータ
51 メインメモリ
52 CPU
53 LANインタフェース
54 HDD
55 スーパーIO
56 DVI
57 ODD

Claims (6)

  1. ジョブを並列に処理する複数の情報処理装置と該複数の情報処理装置を監視する監視装置とジョブの実行を管理するジョブ管理装置とを有する並列処理装置において、
    前記監視装置は、
    過去に発生したサービスの異常について該サービスの状態、異常発生時に該サービスが動作する情報処理装置で実行されていたジョブの規模及び該ジョブの実行時間と該ジョブの継続の可否とを学習することによって継続判定モデルを作成する作成部と、
    サービスに異常が発生すると、該異常が発生したサービスを実行する情報処理装置から該サービスの状態を含む異常情報を取得する第1取得部と、
    前記異常が発生したサービスが動作する情報処理装置で実行されている実行ジョブの規模及び該実行ジョブの実行時間を含む実行ジョブ情報を前記ジョブ管理装置から取得する第2取得部と、
    前記作成部により作成された継続判定モデルと前記第1取得部が取得した異常情報及び前記第2取得部が取得した実行ジョブ情報とを用いて前記実行ジョブの継続の可否を判定する判定部と
    を有することを特徴とする並列処理装置。
  2. 前記判定部は、前記実行ジョブの継続不可と判定した場合には、前記実行ジョブの停止を前記ジョブ管理装置に依頼し、前記実行ジョブの継続可と判定した場合には、異常が発生したサービスを実行する情報処理装置への新規ジョブの割り当ての抑止を前記ジョブ管理装置に依頼することを特徴とする請求項1に記載の並列処理装置。
  3. 前記サービスは、ジョブの実行のために必要なサービスとジョブの運用に必要なサービスを含むことを特徴とする請求項1又は2に記載の並列処理装置。
  4. 前記サービスの状態は、サービスの停止及びサービスのスローダウンを含むことを特徴とする請求項1、2又は3に記載の並列処理装置。
  5. ジョブを並列に処理する複数の情報処理装置とジョブの実行を管理するジョブ管理装置とともに並列処理装置を構築し、前記複数の情報処理装置を監視する監視装置によるジョブ監視方法において、
    過去に発生したサービスの異常について該サービスの状態、異常発生時に該サービスが動作する情報処理装置で実行されていたジョブの規模及び該ジョブの実行時間と該ジョブの継続の可否とを学習することによって継続判定モデルを作成し、
    サービスに異常が発生すると、該異常が発生したサービスを実行する情報処理装置から該サービスの状態を含む異常情報を取得し、
    前記異常が発生したサービスが動作する情報処理装置で実行されている実行ジョブの規模及び該実行ジョブの実行時間を含む実行ジョブ情報を前記ジョブ管理装置から取得し、
    作成した継続判定モデルと取得した異常情報及び実行ジョブ情報とを用いて前記実行ジョブの継続の可否を判定する
    ことを特徴とするジョブ監視方法。
  6. ジョブを並列に処理する複数の情報処理装置とジョブの実行を管理するジョブ管理装置とともに並列処理装置を構築し、前記複数の情報処理装置を監視する監視装置が有するコンピュータで実行されるジョブ監視プログラムにおいて、
    過去に発生したサービスの異常について該サービスの状態、異常発生時に該サービスが動作する情報処理装置で実行されていたジョブの規模及び該ジョブの実行時間と該ジョブの継続の可否とを学習することによって継続判定モデルを作成し、
    サービスに異常が発生すると、該異常が発生したサービスを実行する情報処理装置から該サービスの状態を含む異常情報を取得し、
    前記異常が発生したサービスが動作する情報処理装置で実行されている実行ジョブの規模及び該実行ジョブの実行時間を含む実行ジョブ情報を前記ジョブ管理装置から取得し、
    作成した継続判定モデルと取得した異常情報及び実行ジョブ情報とを用いて前記実行ジョブの継続の可否を判定する
    処理を前記コンピュータに実行させることを特徴とするジョブ監視プログラム。
JP2016001668A 2016-01-07 2016-01-07 並列処理装置、ジョブ監視方法及びジョブ監視プログラム Active JP6555131B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2016001668A JP6555131B2 (ja) 2016-01-07 2016-01-07 並列処理装置、ジョブ監視方法及びジョブ監視プログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2016001668A JP6555131B2 (ja) 2016-01-07 2016-01-07 並列処理装置、ジョブ監視方法及びジョブ監視プログラム

Publications (2)

Publication Number Publication Date
JP2017123048A true JP2017123048A (ja) 2017-07-13
JP6555131B2 JP6555131B2 (ja) 2019-08-07

Family

ID=59305837

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2016001668A Active JP6555131B2 (ja) 2016-01-07 2016-01-07 並列処理装置、ジョブ監視方法及びジョブ監視プログラム

Country Status (1)

Country Link
JP (1) JP6555131B2 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2021002298A1 (ja) * 2019-07-01 2021-01-07 日本電信電話株式会社 故障影響推定装置、故障影響推定方法、及びプログラム

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002108839A (ja) * 2000-09-28 2002-04-12 Mitsubishi Electric Corp 通信ネットワークシステム、ジョブ割当方法およびその方法をコンピュータに実行させるプログラムを記録したコンピュータ読み取り可能な記録媒体
JP2004145536A (ja) * 2002-10-23 2004-05-20 Hitachi Ltd 管理システム
JP2006163543A (ja) * 2004-12-03 2006-06-22 Canon Inc 画像処理システム
US20060168584A1 (en) * 2004-12-16 2006-07-27 International Business Machines Corporation Client controlled monitoring of a current status of a grid job passed to an external grid environment
JP2006277696A (ja) * 2005-03-30 2006-10-12 Nec Corp ジョブ実行監視システム、ジョブ制御装置、ジョブ実行方法及びジョブ制御プログラム
WO2015001850A1 (ja) * 2013-07-03 2015-01-08 日本電気株式会社 タスク割り当て判定装置、制御方法、及びプログラム
JP2015064806A (ja) * 2013-09-26 2015-04-09 株式会社日立ソリューションズ 障害復旧支援システム

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002108839A (ja) * 2000-09-28 2002-04-12 Mitsubishi Electric Corp 通信ネットワークシステム、ジョブ割当方法およびその方法をコンピュータに実行させるプログラムを記録したコンピュータ読み取り可能な記録媒体
JP2004145536A (ja) * 2002-10-23 2004-05-20 Hitachi Ltd 管理システム
JP2006163543A (ja) * 2004-12-03 2006-06-22 Canon Inc 画像処理システム
US20060168584A1 (en) * 2004-12-16 2006-07-27 International Business Machines Corporation Client controlled monitoring of a current status of a grid job passed to an external grid environment
JP2006277696A (ja) * 2005-03-30 2006-10-12 Nec Corp ジョブ実行監視システム、ジョブ制御装置、ジョブ実行方法及びジョブ制御プログラム
WO2015001850A1 (ja) * 2013-07-03 2015-01-08 日本電気株式会社 タスク割り当て判定装置、制御方法、及びプログラム
JP2015064806A (ja) * 2013-09-26 2015-04-09 株式会社日立ソリューションズ 障害復旧支援システム

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2021002298A1 (ja) * 2019-07-01 2021-01-07 日本電信電話株式会社 故障影響推定装置、故障影響推定方法、及びプログラム
JP2021010105A (ja) * 2019-07-01 2021-01-28 日本電信電話株式会社 故障影響推定装置、故障影響推定方法、及びプログラム
JP7298343B2 (ja) 2019-07-01 2023-06-27 日本電信電話株式会社 故障影響推定装置、故障影響推定方法、及びプログラム
US11736343B2 (en) 2019-07-01 2023-08-22 Nippon Telegraph And Telephone Corporation Failure influence estimation apparatus, failure influence estimation method and program

Also Published As

Publication number Publication date
JP6555131B2 (ja) 2019-08-07

Similar Documents

Publication Publication Date Title
US9275172B2 (en) Systems and methods for analyzing performance of virtual environments
US10462027B2 (en) Cloud network stability
WO2020093637A1 (zh) 设备状态预测方法、系统、计算机装置及存储介质
US9519869B2 (en) Predictive computer system resource monitoring
KR20190070659A (ko) 컨테이너 기반의 자원 할당을 지원하는 클라우드 컴퓨팅 장치 및 방법
US20080082663A1 (en) Management of tools that process data to describe a physical layout of a circuit
US10972555B2 (en) Function based dynamic traffic management for network services
JP5245711B2 (ja) 分散データ処理システム、分散データ処理方法および分散データ処理用プログラム
EP3935503B1 (en) Capacity management in a cloud computing system using virtual machine series modeling
JP6424273B2 (ja) コンピュータ・インフラストラクチャの管理におけるポリシーの自己調整のための半教師あり機械学習の活用
US9852007B2 (en) System management method, management computer, and non-transitory computer-readable storage medium
CN115373835A (zh) Flink集群的任务资源调整方法、装置及电子设备
JP4117299B2 (ja) サーバの多重度の上限値を制御するための方法、管理サーバ、サーバ、およびプログラム
KR101770191B1 (ko) 자원 할당 방법 및 그 장치
CN110727508A (zh) 一种任务调度系统和调度方法
US7818630B2 (en) Framework for automatically analyzing I/O performance problems using multi-level analysis
JP5321195B2 (ja) 監視制御システム、監視制御方法、監視制御サーバ及び監視制御プログラム
JP6555131B2 (ja) 並列処理装置、ジョブ監視方法及びジョブ監視プログラム
JP4761229B2 (ja) 運用管理装置、運用管理方法ならびにプログラム
JP2014078160A (ja) 仮想リソースの組み合わせの決定を支援する装置及び方法
JP2022011579A (ja) 運用管理装置及び運用管理方法
US20180341519A1 (en) Node-local-unscheduler for scheduling remediation
CN117093335A (zh) 分布式存储系统的任务调度方法及装置
JP5500301B2 (ja) 監視制御システム、監視制御方法、監視制御サーバ及び監視制御プログラム
Gupta et al. Astro: A predictive model for anomaly detection and feedback-based scheduling on Hadoop

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20180912

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20190527

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20190611

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20190624

R150 Certificate of patent or registration of utility model

Ref document number: 6555131

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150