JP2017123048A - 並列処理装置、ジョブ監視方法及びジョブ監視プログラム - Google Patents
並列処理装置、ジョブ監視方法及びジョブ監視プログラム Download PDFInfo
- Publication number
- JP2017123048A JP2017123048A JP2016001668A JP2016001668A JP2017123048A JP 2017123048 A JP2017123048 A JP 2017123048A JP 2016001668 A JP2016001668 A JP 2016001668A JP 2016001668 A JP2016001668 A JP 2016001668A JP 2017123048 A JP2017123048 A JP 2017123048A
- Authority
- JP
- Japan
- Prior art keywords
- job
- service
- execution
- abnormality
- monitoring
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Landscapes
- Debugging And Monitoring (AREA)
Abstract
【解決手段】モデル作成部21fが、過去のデータに基づいて重度評価モデルを作成し、重度評価モデルに関する情報をモデル情報記憶部21dに格納する。そして、異常重度判定部21eが、異常なサービス41が動作する計算ノード4から異常なサービス41の状態を取得する。また、異常重度判定部21eは、異常なサービス41が動作する計算ノード4で実行されているジョブ42の規模及び実行時間をジョブスケジューラ32から取得する。そして、異常重度判定部21eは、異常なサービス41の状態、実行ジョブ42の規模及び実行時間と重度評価モデルとを用いて実行ジョブ42の継続可否を判定する。
【選択図】図3
Description
2 監視マスタノード
3 監視サブノード
3a ジョブ管理ノード
4 計算ノード
4a ジョブ依存サービス
4b 非ジョブ依存サービス
4c サービス監視デーモン
21 システム監視部
21a ノード監視部
21b サービス監視部
21c ジョブ連携依頼部
21d モデル情報記憶部
21e 異常重度判定部
21f モデル作成部
22 監視情報取得部
23 ジョブ情報取得部
24 モデル情報読込部
25 継続可否判定部
31 システム監視部
31a ノード監視部
31b サービス監視部
31c ジョブ連携依頼部
32 ジョブスケジューラ
41 サービス
42 ジョブ
43 システム監視部
43a ノード監視部
43b サービス監視部
50 コンピュータ
51 メインメモリ
52 CPU
53 LANインタフェース
54 HDD
55 スーパーIO
56 DVI
57 ODD
Claims (6)
- ジョブを並列に処理する複数の情報処理装置と該複数の情報処理装置を監視する監視装置とジョブの実行を管理するジョブ管理装置とを有する並列処理装置において、
前記監視装置は、
過去に発生したサービスの異常について該サービスの状態、異常発生時に該サービスが動作する情報処理装置で実行されていたジョブの規模及び該ジョブの実行時間と該ジョブの継続の可否とを学習することによって継続判定モデルを作成する作成部と、
サービスに異常が発生すると、該異常が発生したサービスを実行する情報処理装置から該サービスの状態を含む異常情報を取得する第1取得部と、
前記異常が発生したサービスが動作する情報処理装置で実行されている実行ジョブの規模及び該実行ジョブの実行時間を含む実行ジョブ情報を前記ジョブ管理装置から取得する第2取得部と、
前記作成部により作成された継続判定モデルと前記第1取得部が取得した異常情報及び前記第2取得部が取得した実行ジョブ情報とを用いて前記実行ジョブの継続の可否を判定する判定部と
を有することを特徴とする並列処理装置。 - 前記判定部は、前記実行ジョブの継続不可と判定した場合には、前記実行ジョブの停止を前記ジョブ管理装置に依頼し、前記実行ジョブの継続可と判定した場合には、異常が発生したサービスを実行する情報処理装置への新規ジョブの割り当ての抑止を前記ジョブ管理装置に依頼することを特徴とする請求項1に記載の並列処理装置。
- 前記サービスは、ジョブの実行のために必要なサービスとジョブの運用に必要なサービスを含むことを特徴とする請求項1又は2に記載の並列処理装置。
- 前記サービスの状態は、サービスの停止及びサービスのスローダウンを含むことを特徴とする請求項1、2又は3に記載の並列処理装置。
- ジョブを並列に処理する複数の情報処理装置とジョブの実行を管理するジョブ管理装置とともに並列処理装置を構築し、前記複数の情報処理装置を監視する監視装置によるジョブ監視方法において、
過去に発生したサービスの異常について該サービスの状態、異常発生時に該サービスが動作する情報処理装置で実行されていたジョブの規模及び該ジョブの実行時間と該ジョブの継続の可否とを学習することによって継続判定モデルを作成し、
サービスに異常が発生すると、該異常が発生したサービスを実行する情報処理装置から該サービスの状態を含む異常情報を取得し、
前記異常が発生したサービスが動作する情報処理装置で実行されている実行ジョブの規模及び該実行ジョブの実行時間を含む実行ジョブ情報を前記ジョブ管理装置から取得し、
作成した継続判定モデルと取得した異常情報及び実行ジョブ情報とを用いて前記実行ジョブの継続の可否を判定する
ことを特徴とするジョブ監視方法。 - ジョブを並列に処理する複数の情報処理装置とジョブの実行を管理するジョブ管理装置とともに並列処理装置を構築し、前記複数の情報処理装置を監視する監視装置が有するコンピュータで実行されるジョブ監視プログラムにおいて、
過去に発生したサービスの異常について該サービスの状態、異常発生時に該サービスが動作する情報処理装置で実行されていたジョブの規模及び該ジョブの実行時間と該ジョブの継続の可否とを学習することによって継続判定モデルを作成し、
サービスに異常が発生すると、該異常が発生したサービスを実行する情報処理装置から該サービスの状態を含む異常情報を取得し、
前記異常が発生したサービスが動作する情報処理装置で実行されている実行ジョブの規模及び該実行ジョブの実行時間を含む実行ジョブ情報を前記ジョブ管理装置から取得し、
作成した継続判定モデルと取得した異常情報及び実行ジョブ情報とを用いて前記実行ジョブの継続の可否を判定する
処理を前記コンピュータに実行させることを特徴とするジョブ監視プログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2016001668A JP6555131B2 (ja) | 2016-01-07 | 2016-01-07 | 並列処理装置、ジョブ監視方法及びジョブ監視プログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2016001668A JP6555131B2 (ja) | 2016-01-07 | 2016-01-07 | 並列処理装置、ジョブ監視方法及びジョブ監視プログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2017123048A true JP2017123048A (ja) | 2017-07-13 |
JP6555131B2 JP6555131B2 (ja) | 2019-08-07 |
Family
ID=59305837
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2016001668A Active JP6555131B2 (ja) | 2016-01-07 | 2016-01-07 | 並列処理装置、ジョブ監視方法及びジョブ監視プログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP6555131B2 (ja) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2021002298A1 (ja) * | 2019-07-01 | 2021-01-07 | 日本電信電話株式会社 | 故障影響推定装置、故障影響推定方法、及びプログラム |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2002108839A (ja) * | 2000-09-28 | 2002-04-12 | Mitsubishi Electric Corp | 通信ネットワークシステム、ジョブ割当方法およびその方法をコンピュータに実行させるプログラムを記録したコンピュータ読み取り可能な記録媒体 |
JP2004145536A (ja) * | 2002-10-23 | 2004-05-20 | Hitachi Ltd | 管理システム |
JP2006163543A (ja) * | 2004-12-03 | 2006-06-22 | Canon Inc | 画像処理システム |
US20060168584A1 (en) * | 2004-12-16 | 2006-07-27 | International Business Machines Corporation | Client controlled monitoring of a current status of a grid job passed to an external grid environment |
JP2006277696A (ja) * | 2005-03-30 | 2006-10-12 | Nec Corp | ジョブ実行監視システム、ジョブ制御装置、ジョブ実行方法及びジョブ制御プログラム |
WO2015001850A1 (ja) * | 2013-07-03 | 2015-01-08 | 日本電気株式会社 | タスク割り当て判定装置、制御方法、及びプログラム |
JP2015064806A (ja) * | 2013-09-26 | 2015-04-09 | 株式会社日立ソリューションズ | 障害復旧支援システム |
-
2016
- 2016-01-07 JP JP2016001668A patent/JP6555131B2/ja active Active
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2002108839A (ja) * | 2000-09-28 | 2002-04-12 | Mitsubishi Electric Corp | 通信ネットワークシステム、ジョブ割当方法およびその方法をコンピュータに実行させるプログラムを記録したコンピュータ読み取り可能な記録媒体 |
JP2004145536A (ja) * | 2002-10-23 | 2004-05-20 | Hitachi Ltd | 管理システム |
JP2006163543A (ja) * | 2004-12-03 | 2006-06-22 | Canon Inc | 画像処理システム |
US20060168584A1 (en) * | 2004-12-16 | 2006-07-27 | International Business Machines Corporation | Client controlled monitoring of a current status of a grid job passed to an external grid environment |
JP2006277696A (ja) * | 2005-03-30 | 2006-10-12 | Nec Corp | ジョブ実行監視システム、ジョブ制御装置、ジョブ実行方法及びジョブ制御プログラム |
WO2015001850A1 (ja) * | 2013-07-03 | 2015-01-08 | 日本電気株式会社 | タスク割り当て判定装置、制御方法、及びプログラム |
JP2015064806A (ja) * | 2013-09-26 | 2015-04-09 | 株式会社日立ソリューションズ | 障害復旧支援システム |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2021002298A1 (ja) * | 2019-07-01 | 2021-01-07 | 日本電信電話株式会社 | 故障影響推定装置、故障影響推定方法、及びプログラム |
JP2021010105A (ja) * | 2019-07-01 | 2021-01-28 | 日本電信電話株式会社 | 故障影響推定装置、故障影響推定方法、及びプログラム |
JP7298343B2 (ja) | 2019-07-01 | 2023-06-27 | 日本電信電話株式会社 | 故障影響推定装置、故障影響推定方法、及びプログラム |
US11736343B2 (en) | 2019-07-01 | 2023-08-22 | Nippon Telegraph And Telephone Corporation | Failure influence estimation apparatus, failure influence estimation method and program |
Also Published As
Publication number | Publication date |
---|---|
JP6555131B2 (ja) | 2019-08-07 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US9275172B2 (en) | Systems and methods for analyzing performance of virtual environments | |
US10462027B2 (en) | Cloud network stability | |
WO2020093637A1 (zh) | 设备状态预测方法、系统、计算机装置及存储介质 | |
US9519869B2 (en) | Predictive computer system resource monitoring | |
KR20190070659A (ko) | 컨테이너 기반의 자원 할당을 지원하는 클라우드 컴퓨팅 장치 및 방법 | |
US20080082663A1 (en) | Management of tools that process data to describe a physical layout of a circuit | |
US10972555B2 (en) | Function based dynamic traffic management for network services | |
JP5245711B2 (ja) | 分散データ処理システム、分散データ処理方法および分散データ処理用プログラム | |
EP3935503B1 (en) | Capacity management in a cloud computing system using virtual machine series modeling | |
JP6424273B2 (ja) | コンピュータ・インフラストラクチャの管理におけるポリシーの自己調整のための半教師あり機械学習の活用 | |
US9852007B2 (en) | System management method, management computer, and non-transitory computer-readable storage medium | |
CN115373835A (zh) | Flink集群的任务资源调整方法、装置及电子设备 | |
JP4117299B2 (ja) | サーバの多重度の上限値を制御するための方法、管理サーバ、サーバ、およびプログラム | |
KR101770191B1 (ko) | 자원 할당 방법 및 그 장치 | |
CN110727508A (zh) | 一种任务调度系统和调度方法 | |
US7818630B2 (en) | Framework for automatically analyzing I/O performance problems using multi-level analysis | |
JP5321195B2 (ja) | 監視制御システム、監視制御方法、監視制御サーバ及び監視制御プログラム | |
JP6555131B2 (ja) | 並列処理装置、ジョブ監視方法及びジョブ監視プログラム | |
JP4761229B2 (ja) | 運用管理装置、運用管理方法ならびにプログラム | |
JP2014078160A (ja) | 仮想リソースの組み合わせの決定を支援する装置及び方法 | |
JP2022011579A (ja) | 運用管理装置及び運用管理方法 | |
US20180341519A1 (en) | Node-local-unscheduler for scheduling remediation | |
CN117093335A (zh) | 分布式存储系统的任务调度方法及装置 | |
JP5500301B2 (ja) | 監視制御システム、監視制御方法、監視制御サーバ及び監視制御プログラム | |
Gupta et al. | Astro: A predictive model for anomaly detection and feedback-based scheduling on Hadoop |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20180912 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20190527 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20190611 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20190624 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 6555131 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |