JP2015141601A - ジョブ性能分析システム、ジョブ性能分析方法及びプログラム - Google Patents

ジョブ性能分析システム、ジョブ性能分析方法及びプログラム Download PDF

Info

Publication number
JP2015141601A
JP2015141601A JP2014014546A JP2014014546A JP2015141601A JP 2015141601 A JP2015141601 A JP 2015141601A JP 2014014546 A JP2014014546 A JP 2014014546A JP 2014014546 A JP2014014546 A JP 2014014546A JP 2015141601 A JP2015141601 A JP 2015141601A
Authority
JP
Japan
Prior art keywords
job
performance
execution
user
processing unit
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2014014546A
Other languages
English (en)
Other versions
JP6273867B2 (ja
Inventor
貴弘 末政
Takahiro Suemasa
貴弘 末政
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NEC Corp
Original Assignee
NEC Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NEC Corp filed Critical NEC Corp
Priority to JP2014014546A priority Critical patent/JP6273867B2/ja
Publication of JP2015141601A publication Critical patent/JP2015141601A/ja
Application granted granted Critical
Publication of JP6273867B2 publication Critical patent/JP6273867B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Debugging And Monitoring (AREA)

Abstract

【課題】特定のユーザジョブの性能劣化原因を推定することができるジョブ性能分析システム、ジョブ性能分析方法及びプログラムを提供する。
【解決手段】ジョブ性能分析システム100は、ユーザジョブの実行を制御するユーザジョブ実行管理処理部111、ユーザジョブ固有のジョブIDを発行するジョブID発行処理部131、1以上の実行サーバ121乃至123を含み、ユーザジョブ実行管理処理部111の指示に応じて、実行サーバ121乃至123のいずれかがユーザジョブを実行する実行サーバ群120、性能データベース151を含む。ユーザジョブを実行する実行サーバ実行サーバは、ユーザジョブ実行時の、実行サーバが有する資源の性能を示す性能値を、ユーザジョブのジョブIDと関連付けて性能データベース151に格納する。
【選択図】図1

Description

本発明はジョブ性能分析システム、ジョブ性能分析方法及びプログラムに関し、例えば特定のユーザジョブの性能劣化原因を推定する技術に関する。
従来より、複数のサーバを含むシステム、典型的にはクラウドシステム上で情報処理を実行することが広く行われている。また、かかる処理の性能を分析し、問題発生時にはその原因を推定する方法が提案されている。
例えば特許文献1は、SaaS(Software as a Service)システムにおいて実行されるサービスの性能分析方法、及び性能問題発生時の原因(ソフトウェア故障、ハードウェア故障、ネットワーク故障等)推定方法を開示している。具体的には、特許文献1においては、システム管理者がサービスを管理しており、個々のサービスを一意に識別することができる。そして、サーバの性能データやネットワークの性能データを、過去のそれら性能データと比較することで、サービスの性能分析を行うことができる。
特開2006−072784号公報
しかし、ユーザが作成したジョブ(以下、ユーザジョブ)を実行するクラウドシステム等、例えばIaaS(Infrastructure as a Service)やPaaS(Platform as a Service)等において、ユーザジョブの性能分析を行おうとする場合には、以下のような問題があった。
ユーザジョブは、システム内の単一のサーバで実行される場合だけでなく、複数のサーバで分散実行される場合がある。一方、ジョブの性能分析を行う際には、ジョブの性能データを、サーバ単位で採取する必要がある。そのため、特定のユーザジョブの性能分析を行おうとする際には、サーバ毎に保持されている性能データの中から、所望のユーザジョブを特定して性能データを抽出する必要がある。
ここで、ユーザジョブを特定するためのキーとしては、例えばユーザジョブ名や実行時刻が用いられる。しかし、これらのキーはいずれも重複する可能性があり、所望のユーザジョブの性能データを確実に特定するには不十分であった。
それゆえ、これまでシステム管理者は、所望のユーザジョブの性能データを確実に抽出することができなかった。したがって、従来の方法を適用してユーザジョブの性能分析を行うことができなかった。このため、ユーザジョブの性能劣化を発見することができず、まして性能劣化の原因推定を行うことは困難であった。
本発明は、このような問題点を解決するためになされたものであり、特定のユーザジョブの性能劣化原因を推定することができるジョブ性能分析システム、ジョブ性能分析方法及びプログラムを提供することを目的とする。
その他の課題と新規な特徴は、本明細書の記述及び添付図面から明らかになるであろう。
本発明に係るジョブ性能分析システムは、ユーザジョブの実行を制御するユーザジョブ実行管理処理部と、前記ユーザジョブ固有のジョブIDを発行するジョブID発行処理部と、1以上の実行サーバを含み、前記ユーザジョブ実行管理処理部の指示に応じて、前記実行サーバのいずれかが前記ユーザジョブを実行する実行サーバ群と、性能データベースと、を含み、前記ユーザジョブを実行する前記実行サーバは、前記ユーザジョブ実行時の、前記実行サーバが有する資源の性能を示す性能値を、前記ユーザジョブの前記ジョブIDと関連付けて性能データベースに格納するものである。
本発明に係るジョブ性能分析方法は、ユーザジョブ固有のジョブIDを発行するジョブID発行処理ステップと、実行サーバ群にユーザジョブの実行を指示するユーザジョブ実行管理処理ステップと、前記実行サーバ群に含まれる所定の実行サーバが、前記ユーザジョブを実行するステップと、前記ユーザジョブ実行時の、前記実行サーバが有する資源の性能を示す性能値を、前記ユーザジョブの前記ジョブIDと関連付けて性能データベースに格納するステップと、を有するものである。
本発明に係るプログラムは、上記ジョブ性能分析方法をコンピュータに実行させるためのプログラムである。
本発明により、特定のユーザジョブの性能劣化原因を推定することができるジョブ性能分析システム、ジョブ性能分析方法及びプログラムを提供することができる。
本発明の実施の形態の一構成を示す図である。 本発明の実施の形態の一構成を示す図である。 本発明の実施の形態にかかるジョブID発行処理を示す図である。 本発明の実施の形態にかかるジョブ実行結果返却時刻格納処理を示す図である。 本発明の実施の形態にかかるユーザジョブ性能劣化原因推定処理を示す図である。 本発明の実施の形態にかかるユーザジョブ性能劣化原因推定処理を示す図である。 本発明の実施の形態における性能データベース151の例を示す図である。 本発明の実施の形態における性能データの例を示す図である。 本発明の実施の形態における実行サーバ性能比格納テーブル152の例を示す図である。 本発明の実施の形態における想定原因リスト153の例を示す図である。
本発明は、ユーザジョブ実行時、ユーザジョブを一意に識別するための識別子(以下、ジョブID)を発行し、ジョブIDと性能データとを関連付けて蓄積しておくことに特徴がある。これにより、特定のユーザジョブの性能データを確実に取得し、性能分析及び性能劣化の原因(ソフトウェア故障、ハードウェア故障、ネットワーク故障など)推定を可能とするものである。
以下、本発明を適用した具体的な実施の形態について、図面を参照しながら詳細に説明する。まず、図1及び図2のブロック図を用いて、本発明の実施の形態にかかるジョブ性能分析システムの構成について説明する。
ジョブ性能分析システム100は、ユーザが操作する端末装置(以下、単にユーザと称する)及びシステム管理者が操作する端末装置(以下、単にシステム管理者と称する)と、通信ネットワーク等を介して通信可能に接続される。また、ユーザとシステム管理者との間も同様に通信可能に接続される。
ジョブ性能分析システム100は、システム管理サーバ110、実行サーバ群120、システム性能監視サーバ130、ユーザジョブ性能劣化原因推定システム140、記憶装置150を含む。
システム管理サーバ110は、ユーザジョブ実行管理処理部111を有する。ユーザジョブ実行管理処理部111は、ユーザから実行依頼されたユーザジョブを入力とし、ユーザジョブの実行結果をユーザに対する出力とする。ユーザジョブ実行管理処理部111は、ユーザジョブの実行を実行サーバ群120の特定の実行サーバに割り当て、実行サーバから実行結果を受け取って、これを出力する。
実行サーバ群120は、ユーザジョブを実行する複数の実行サーバを含む。本実施の形態では、実行サーバ群120は実行サーバA121、実行サーバB122、実行サーバC123を含むものとする。
図1におけるシステム管理サーバ110及び実行サーバ群120は、配下の実行サーバの負荷状況に応じて、ユーザジョブを実行すべき実行サーバを変更する、並列実行型のクラウドシステムを示している。また、図2におけるシステム管理サーバ110及び実行サーバ群120は、実行サーバA121と、実行サーバA121から受け取ったデータを処理する実行サーバB122と、実行サーバB122から受け取ったデータを処理し、実行サーバB122に返却する実行サーバC123を含む、階層実行型のクラウドシステムを示している。本実施の形態は、いずれの構成のクラウドシステムにも適用可能である。
本実施の形態における実行サーバA121、実行サーバB122、実行サーバC123は、ユーザジョブの実行時、各実行サーバにおける処理資源の性能値(例えばCPU使用量、メモリ使用量等)や、ユーザジョブの実行開始時刻及び終了時刻等を含む、ユーザジョブ処理に関する性能データを、性能データベース151に記録する。
また、ジョブ性能分析システム100は、システム管理サーバ110及び実行サーバ群120からなる従来型のクラウドシステムに加え、システム性能監視サーバ130及びユーザジョブ性能劣化原因推定システム140を有する。
システム性能監視サーバ130は、ジョブID発行処理部131、ユーザジョブ実行結果返却時刻格納処理部132を有する。
ジョブID発行処理部131は、システム管理サーバ110のユーザジョブ実行管理処理部111が、ユーザからユーザジョブ実行依頼を受け取った際に発行するジョブ実行通知を受け取り、これを契機として、実行依頼のあったユーザジョブを一意に識別できるジョブIDを発行し、ユーザとユーザジョブ実行管理処理部111に返却する。ジョブIDは、ユーザジョブ実行管理処理部111を介して実行サーバ群120配下の実行サーバに転送され、最終的には、ユーザジョブが実行された際の性能データと共に後述の性能データベース151に格納する。
ユーザジョブ実行結果返却時刻格納処理部132は、ユーザジョブのジョブIDと、ユーザジョブの実行結果がユーザに返却された時刻とをユーザ端末から取得し、性能データベース151に格納する。
ユーザジョブ性能劣化原因推定システム140は、ジョブID受取処理部141、性能データ検索処理部142、異常箇所発見処理部143、原因推定処理部144を有する。
ユーザジョブ性能劣化原因推定システム140は、システム管理者が、ユーザから受け取ったジョブIDを投入することで動作を開始する。ここで投入されるジョブIDは、1つであっても2つ以上であっても良い。
ジョブID受取処理部141は、ジョブIDの投入を受け付け、受け付けたジョブIDを性能データ検索処理部142に引き渡す。
性能データ検索処理部142は、性能データベース151からジョブIDに該当する性能データを取得し、異常箇所発見処理部143に引き渡す。
異常箇所発見処理部143は、投入されたジョブIDが2つ以上である場合、それぞれのジョブIDに対応する性能データを比較し、その比較結果に基づいて異常箇所(例えばCPU使用量が多い、ネットワーク転送時間が遅い等)を特定する。投入されたジョブIDが1つである場合、あらかじめシステム管理者が設定した閾値を用いて、性能データが閾値を逸脱していないかを判定することで、異常箇所を特定する。異常箇所発見処理部143は、異常箇所に係る情報を原因推定処理部144に引き渡す。
原因推定処理部144は、特定された異常箇所をキーとして、後述の想定原因リスト153を参照し、異常の原因を自動的に推定する。
記憶装置150は、性能データベース151、実行サーバ性能比格納テーブル152、想定原因リスト実行サーバ性能比格納テーブル153を有する。
性能データベース151は、ユーザジョブ処理に関する性能データを格納するための記憶領域である。ジョブIDをキーとして、実行サーバにおいてユーザジョブ処理に使用された資源の性能値(例えばCPU使用量、メモリ使用量等)、ユーザジョブの実行開始時刻及び終了時刻、ユーザへの実行結果返却時刻等を格納し得る。
実行サーバ性能比格納テーブル152は、各実行サーバが有する処理資源の性能比を示す指標を格納した記憶領域である。
想定原因リスト153は、異常箇所、想定される異常の原因、および原因毎の危険度を関連付けて格納した記憶領域である。異常の原因としては、例えば保守や開発作業(部材の交換、ジョブの更新など)、及びシステム構成等に起因する、資源の競合、ハードウェア故障、ソフトウェアバグ、ネットワーク遅延等があり得る。想定原因リスト153では、これらの原因夫々について、保守履歴等に基づいて定義された危険度が付与されている。
つづいて、図3乃至図5のフローチャートを用いて、ジョブ性能分析システム100の動作について説明する。ジョブ性能分析システム100は、ジョブID発行処理(図3)、ジョブ実行結果返却時刻格納処理(図4)、及びユーザジョブ性能劣化原因推定処理(図5A及び図5B)の3つの機能を実行可能である。以下、これらの機能についてそれぞれ説明する。
(ジョブID発行処理)
図3は、ジョブID発行処理に関するフローチャートである。
S101:ユーザは、システム管理サーバ110のユーザジョブ実行管理処理部111に、ユーザジョブの実行依頼を行う。クラウドシステムに対するユーザジョブの投入方法に関しては、種々の手法が既知であり、ここでは詳細な説明を省略する。これを契機として、ユーザジョブ実行管理処理部111は、システム性能監視サーバ130のジョブID発行処理部131に対し、ユーザジョブの実行通知を送信する。
S102乃至S103:ジョブID発行処理部131は、ジョブIDを発行する。
ジョブIDは、典型的には、投入日に基づいた一意の数字とすることができる。また、最新のジョブIDが同日に発行されている場合は、発行済みの最新のジョブIDに1を足したIDを発行することが好ましい。例えば、2013年10月1日に、1つ目のユーザジョブの実行依頼が投入された場合、ジョブIDを“1310010001”とする。次に、同日に2つ目のユーザジョブの実行依頼が投入された場合、ジョブIDを“1310010002”とする。
S104:ジョブID発行処理部131は、発行したジョブIDを、ユーザと、ユーザジョブ実行管理処理部111と、に通知する。
なお、フローチャートには記載していないが、ユーザジョブ実行管理処理部111は、S103の処理の後、ユーザから実行依頼されたユーザジョブの実行を、実行サーバ群120に指示する。以降、ユーザジョブは、クラウドシステムにおける既知のジョブ処理手法に従って処理される。すなわち、実行サーバ群120は、配下の実行サーバA121乃至実行サーバC123のいずれかにユーザジョブの実行を割り当てる。実行サーバ群120は、典型的には、上述の並列実行型又は階層実行型の構成を有しており、ユーザジョブは、上記実行型に従って1又は複数の実行サーバに割り当てられる。ユーザジョブの実行が終了すると、実行サーバ群120は、ユーザジョブの実行結果を、ジョブIDとともにユーザジョブ実行管理処理部111に返却する。ユーザジョブ実行管理処理部111は、受け取った実行結果及びジョブIDを、ユーザに返却する。
また、実行サーバA121乃至実行サーバC123は、ユーザジョブの実行時、各実行サーバにおける処理資源の性能値(例えばCPU使用量、メモリ使用量等)や、ユーザジョブの実行開始時刻及び終了時刻等を含む、ユーザジョブ処理に関する性能データを測定又は取得し、性能データベース151に記録する。
(ジョブ実行結果返却時刻格納処理)
図4は、ユーザジョブ実行結果返却時刻格納処理に関するフローチャートである。
S201:システム管理サーバ110のユーザジョブ実行管理処理部111が、実行サーバ群120配下の実行サーバで実行されたユーザジョブの実行結果及びジョブIDを、ユーザに返却する。かかる後、システム性能監視サーバ130のユーザジョブ実行結果返却時刻格納処理部132は、ユーザから、実行結果が返却されたユーザジョブのジョブIDと、実行結果が返却された時刻(実行結果返却時刻)と、を取得する。
S202:ユーザジョブ実行結果返却時刻格納処理部132は、取得したジョブIDと実行結果返却時刻とを紐付けて、記憶装置150の性能データベース151に格納する。例えば、図6に示す性能データベース151には、実行結果返却時刻が「ジョブ実行結果受取時刻」として格納されている。
(ジョブ性能劣化原因推定処理)
図5A及び図5Bは、ジョブ性能劣化原因推定処理に関するフローチャートである。
S301:ユーザは、あるユーザジョブについて処理性能に問題が発生している疑いを抱く場合(例えば通常より処理時間に遅延が生じた場合等)、システムに管理者にそのユーザジョブのジョブIDを通知する。システム管理者は、ユーザから受信したジョブIDを、ユーザジョブ性能劣化原因推定システム140のジョブID受取処理部141に投入する。
ジョブID受取処理部141は、1又は複数のジョブIDを受け付けることができる。例えば、ユーザが過去にも同一内容のユーザジョブを実行したことがあり、その際はユーザジョブが正常に処理されたというような場合においては、システム管理者は、問題発生が疑われるジョブIDとともに、過去に正常動作した際のジョブIDを、ジョブID受取処理部141に投入することができる。この場合、ジョブID受取処理部141は、正常動作時のジョブIDと、問題発生時のジョブIDと、を区別できるよう、適切な入力インターフェイスを備え、かつこれらのジョブIDを峻別して管理することが好ましい。
S302乃至S303:ジョブID受取処理部141は、受け取ったジョブIDを、性能データ検索処理部142に引き渡す。性能データ検索処理部142は、受け取ったジョブIDをキーとして、記憶装置150の性能データベース151を検索する。検索に際しては、ハッシュ法など既知の手法を適宜用いることができる。性能データベース151内に、ジョブIDに紐付けられた性能データが存在する場合、性能データ検索処理部142はその性能データを取得する。
一方、性能データが存在しない場合、性能データ検索処理部142は、ジョブIDが有効なものでなかったものとみなし、処理を終了する。このとき、ジョブID受取処理部141がジョブID投入の待機状態に遷移しても良い。また、性能データ検索処理部142がシステム管理者にエラー通知を行うこととしても良い。
性能データ検索処理部142は、取得した性能データを、異常箇所発見処理部143に引き渡す。複数のジョブIDが投入されている場合は、性能データ検索処理部142は、上述の一連の処理を複数のジョブIDそれぞれについて実行し、複数の性能データを異常箇所発見処理部143に引き渡す。
S304:複数のジョブIDが投入されている場合、異常箇所発見処理部143は、正常動作時の性能データと、問題発生時の性能データと、を比較する。比較の結果、2つの性能データ間で異常な相関関係を示す資源を発見した場合、異常箇所発見処理部143は、かかる資源を異常箇所と判定する。
図6に、性能データベース151の一例を示す。この性能データベース151には、ジョブIDに対応させて、ユーザジョブを実行した実行サーバ(「実行サーバ」)、ユーザジョブ実行管理処理部111からユーザジョブ実行指示がなされた時刻(「ジョブ実行命令時刻」)、実行サーバがユーザジョブの実行を開始及び終了した時刻(「ジョブ実行開始時刻」及び「ユーザジョブ実行終了時刻」)、ユーザがユーザジョブ実行管理処理部111から実行結果を返却された時刻(「ジョブ実行結果受取時刻))、実行サーバにおいてユーザジョブ実行中に測定された各種処理資源の性能値(「CPU使用量」「メモリ使用量」等)が格納されている。
この性能データベース151を前提として、ジョブID受取処理部141が、正常動作時のジョブID“1310010002”と、問題発生時のジョブID“1310020002”と、の2つのジョブIDを受け取った場合の、性能データ検索処理部142及び異常箇所発見処理部143の動作について説明する。
性能データ検索処理部142は、正常動作時のジョブID“1310010002”及び問題発生時のジョブID“1310020002”をキーとして性能データベース151を検索し、2つのレコードを取得する(図7)。
S305:異常箇所発見処理部143は、図7の複数のレコードを比較する処理を行う。図7の例では、2つのユーザジョブはいずれも同一の実行サーバA121が実行したジョブであるから、実行サーバ間の性能差を意識する必要はない。
S306乃至S307:なお、比較対象の複数のユーザジョブを実行した実行サーバがそれぞれ異なる場合、異常箇所発見処理部143は、図8に示す実行サーバ性能比格納テーブル152を参照し、各実行サーバの性能比を、各実行サーバに係る性能データに掛け合わせることで、実行サーバ間の性能差を吸収する。
例えば、実行サーバA121と実行サーバB122とのCPU性能比は10:8である場合、実行サーバ性能比格納テーブル152には、実行サーバA121の「CPU」性能比として“1.0”、実行サーバB122の「CPU」性能比として“0.8”を予め格納しておく。そして、異常箇所発見処理部143は、実行サーバA121で実行されたユーザジョブの「CPU使用量」については「CPU」性能比“1.0”を乗じる。また、実行サーバB122で実行されたユーザジョブの「CPU使用量」については「CPU」性能比“0.8”を乗じる。
なお、各実行サーバの性能比は、事前に全ての実行サーバでテストユーザジョブを実行し、その際の性能データの比に基づいて算出することができる。
S308乃至S309:異常箇所発見処理部143は、S305又はS307で得られた各性能値について比較を行う。ここでは、一例として、図7に示す2つのレコードに含まれる性能値を比較する処理について説明する。
異常箇所発見処理部143は、「CPU使用量」「メモリ使用量」など、計算資源の稼働状態を直接的に示す性能値については、2つのレコードが含む性能値を互いに比較し、それらの差分が予め設定された閾値を逸脱していないかを判断する。
例えば、図7においては、ジョブID「1310010002」の「CPU使用量」は“36000”であり、ジョブID「1310020002」の「CPU使用量」は“37000”である。また、図示しないが、「CPU使用量」について“10%”の閾値が予め設定されており、任意の記憶領域に保持されているものとする。これは、10%以内のCPU稼働率変動については正常動作の範囲内であるものとみなして許容することを示している。この場合、まず、異常箇所発見処理部143は、これらの2つのレコードの「CPU使用量」の差分1000を算出する。つぎに、異常箇所発見処理部143は、この差分1000が閾値を超えないか判定する。ここで、正常動作時のジョブID「1310010002」の「CPU使用量」“36000”を基準とすれば、これに閾値“10%”を乗じた指標は3600である。異常箇所発見処理部143は、閾値に基づいて求めたこの指標と上記差分とを比較し、差分が指標未満であることから、「CPU使用量」を正常と判断する。
一方、時刻データなど、計算資源の稼働状態を間接的に示す性能値については、異常箇所発見処理部143は、性能値を計算資源の稼働状態を直接的に示す量に一旦変換してから同様の比較を行う。例えば、「ジョブ実行命令時刻」と「ジョブ実行開始時刻」との差を一旦計算することにより、ネットワーク転送時間を算出することができる。これは、ネットワークの状態を直接的に示す量である。同様に、「ジョブ実行終了時刻」と「ジョブ実行結果受取時刻」との差を計算することにより、ネットワーク転送時間を算出可能である。また、「ジョブ実行開始時刻」と「ジョブ実行終了時刻」との差を計算することにより、ジョブ実行時間を算出できる。
例えば、図7においては、ジョブID「1310010002」の「ジョブ実行命令時刻」は“01:01:25”、「ジョブ実行開始時刻」は“01:01:30”であり、ジョブID「1310020002」の「ジョブ実行命令時刻」は“01:00:00”、「ジョブ実行開始時刻」は“01:02:30”である。また、「ジョブ実行命令時刻」と「ジョブ実行開始時刻」との差分であるネットワーク転送時間について、“10%”の閾値が予め設定されているものとする。これは、10%以内のネットワーク転送時間の変動については正常動作の範囲内であるものとみなして許容することを示している。この場合、まず、異常箇所発見処理部143は、これらの2つのレコードそれぞれについて、「ジョブ実行命令時刻」と「ジョブ実行開始時刻」との差分であるネットワーク転送時間を計算する。計算の結果、ジョブID「1310010002」のネットワーク転送時間は00:00:05(5秒)、ジョブID「1310020002」のネットワーク転送時間は00:02:30(2分30秒)となる。つぎに、異常箇所発見処理部143は、これらの2つのレコードのネットワーク転送時間の差分を00:02:25(2分25秒)と算出する。最後に、異常箇所発見処理部143は、この差分00:02:25が閾値を超えないか判定する。ここで、正常動作時のジョブID「1310010002」のネットワーク転送時間00:00:05(5秒)を基準とすれば、これに閾値“10%”を乗じた指標は0.5秒である。異常箇所発見処理部143は、閾値に基づいて求めたこの指標と上記差分とを比較し、差分が指標以上であることから、問題発生時のユーザジョブ実行時にネットワーク転送時間に異常が発生したものと判断する。
ここで、上述の例のように閾値が割合等(例えば10%)によって相対的に定義されている場合、典型的には、正常動作時のレコードを基準として性能値を比較する。すなわち、正常動作時のレコードの性能値に閾値を適用して比較のための指標を算出する。なお、正常動作時のレコードが特定されていない場合、いずれのレコードを基準として性能値を比較するかは任意である。例えば、時間的に古いレコードの性能値を基準として、新しいレコードの性能値が閾値を超えていないかを判定して良い。あるいは、基準とすべきレコードを、システム管理者が任意に指定できるようにしても良い。さらには、例えば先に投入されたレコードを基準とするなど、レコードが投入された順序に基づいて基準レコードを決定しても良い。
異常箇所発見処理部143は、異常が認識された性能値に関連する資源を異常箇所として特定する。上述の例では、ネットワーク転送時間に異常が発生していることから、異常箇所発見処理部143は、ネットワークを異常箇所と判定する。なお、「CPU使用量」又は「メモリ使用量」に異常が認められた場合は、異常箇所発見処理部143は、CPU又はメモリを異常箇所と判定する。また、ジョブ実行時間に異常が認められた場合、異常箇所発見処理部143は、ネットワークを除く演算処理資源を異常箇所と特定する。この場合、より詳細な異常箇所、すなわちCPU、メモリ、I/O等にかかる異常の有無が、他の性能値に基づいて同時に明らかになるであろう。
S310:投入されたジョブIDが1つである場合、異常箇所発見処理部143は、性能データベース151から取得したレコードに含まれる性能値が、予め資源毎に設定された閾値(例えばCPU使用量やメモリ使用量の上限など)を超える資源が存在するか否か判定する。
S311乃至S312:閾値を超える性能値が存在する場合、異常箇所発見処理部143は、その性能値にかかる資源を異常箇所と判定する。一方、閾値を超える性能値が存在しない場合、異常箇所発見処理部143は、異常箇所は無いものと判定する。この場合、異常箇所発見処理部143は、その旨をシステム管理者に通知することとしても良い。
S313乃至S314:異常箇所発見処理部143は、異常箇所と判定された資源を、原因推定処理部144に通知する。原因推定処理部144は、想定原因リスト153を参照して、異常の推定原因を特定し、システム管理者に提示する。
ここで、想定原因リスト153には、資源に対応付けて、想定される原因と、その原因の危険度と、が予め格納されているものとする。原因推定処理部144は、想定原因リスト153から、異常箇所発見処理部143から通知された資源に対応付けられている原因のうち、最も危険度の高いものを抽出して、推定原因として特定する。
図9に、想定原因リスト153の一例を示す。この想定原因リスト153には、資源「CPU」について、想定される複数の故障「原因」と、その「危険度」と、が格納されている。
例えば、異常箇所発見処理部143が、異常箇所としてCPUを特定した場合、原因推定処理部144は、想定原因リスト153を参照して、資源「CPU」に関連付けられた「原因」を抽出する。原因推定処理部144は、抽出された複数の原因のうち、「危険度」が最も高い“77”であるレコードを特定し、かかるレコードの「原因」“ジョブA修正”を、推定原因とする。そして、原因推定処理部144は、問題の原因が“ジョブA修正”と推定されることをシステム管理者に提示する。
ここで、想定原因リスト153は、例えばクラウドシステムの構成図や、ユーザジョブのリビジョン管理履歴等に基づいて、予め作成しておくことができる。また、危険度については、ハードウェアとソフトウェアとの二つの観点に鑑みて、適宜設定することが好ましい。例えば、ハードウェア部品は、部品が古くなるほど異常が発生する可能性が高いため、最新の部品交換日から時間が経過するにしたがって危険度を加算することができる。さらに、ハードウェア部品に障害が起こった場合に、同ロットの他の部品や、製造日時が近い他の部品について、危険度を加算することができる。ソフトウェアについては、プログラムの修正作業を行った場合に異常が発生する可能性が高くなると考えられるため、修正直後に所定の初期値を設定し、ユーザジョブが実行される(すなわち実績を積む)たびに危険度を減算することができる。例えば、修正後の初期値を100とし、ユーザジョブが実行されるたびに1ずつ危険度を減算する。
本実施の形態においては、ジョブID発行処理部131が、クラウドシステム上において一意にユーザジョブを識別することが出来るジョブIDを発行する。また、性能データベース151が、このジョブID毎に、ユーザジョブ実行時の性能データを蓄積する。これにより、ジョブ性能分析システム100は、ユーザジョブがどの実行サーバで実行されたかに関わりなく、特定のユーザジョブの性能分析を実行することができる。
また、本実施の形態においては、ユーザジョブ性能劣化原因推定システム140が、ジョブIDをキーとして性能データを抽出し、想定原因リスト153を参照して異常原因を推定する。これにより、ジョブ性能分析システム100は、ユーザジョブの性能劣化時の原因を自動的に推定することができる。
また、本実施の形態においては、実行サーバ性能比格納テーブル152が、各実行サーバの資源の性能比を格納する。そして、異常箇所発見処理部143が、異なる実行サーバで実行されたユーザジョブの性能データを、上記性能比を用いて補正する。これにより、ジョブ性能分析システム100は、ユーザジョブが毎度異なる実行サーバで実行されるような場合であっても、実行サーバ間の性能格差を補正して適切に異常箇所を検知することができる。
<その他の実施の形態>
なお、本発明は上記実施の形態に限られたものではなく、趣旨を逸脱しない範囲で適宜変更することが可能である。例えば、上述の実施の形態では、本発明を主にハードウェアの構成として説明したが、これに限定されるものではなく、任意の処理を、CPU(Central Processing Unit)にコンピュータプログラムを実行させることにより実現することも可能である。この場合、コンピュータプログラムは、様々なタイプの非一時的なコンピュータ可読媒体(non−transitory computer readable medium)を用いて格納され、コンピュータに供給することができる。非一時的なコンピュータ可読媒体は、様々なタイプの実体のある記録媒体(tangible storage medium)を含む。非一時的なコンピュータ可読媒体の例は、磁気記録媒体(例えばフレキシブルディスク、磁気テープ、ハードディスクドライブ)、光磁気記録媒体(例えば光磁気ディスク)、CD−ROM(Read Only Memory)、CD−R、CD−R/W、半導体メモリ(例えば、マスクROM、PROM(Programmable ROM)、EPROM(Erasable PROM)、フラッシュROM、RAM(random access memory))を含む。また、プログラムは、様々なタイプの一時的なコンピュータ可読媒体(transitory computer readable medium)によってコンピュータに供給されてもよい。一時的なコンピュータ可読媒体の例は、電気信号、光信号、及び電磁波を含む。一時的なコンピュータ可読媒体は、電線及び光ファイバ等の有線通信路、又は無線通信路を介して、プログラムをコンピュータに供給できる。
<付記>
本発明は、例えば以下のように記述し得る。
(付記1)
ユーザジョブの実行を制御するユーザジョブ実行管理処理部と、
前記ユーザジョブ固有のジョブIDを発行するジョブID発行処理部131と、
1以上の実行サーバを含み、前記ユーザジョブ実行管理処理部の指示に応じて、前記実行サーバのいずれかが前記ユーザジョブを実行する実行サーバ群と、
性能データベースと、を含み、
前記ユーザジョブを実行する前記実行サーバは、前記ユーザジョブ実行時の、前記実行サーバが有する資源の性能を示す性能値を、前記ユーザジョブの前記ジョブIDと関連付けて性能データベースに格納する
ジョブ性能分析システム。
(付記2)
1つの前記ジョブIDをキーとして、前記性能データベースから前記性能値を取得する性能データ検索処理部と、
前記性能値と所定の閾値を比較することにより前記性能値の異常を検出し、異常が検出された前記性能値にかかる前記資源を異常箇所として特定する異常箇所発見処理部と、をさらに有する
付記1記載のジョブ性能分析システム。
(付記3)
複数の前記ジョブIDをキーとして、前記性能データベースから前記性能値を含む複数の情報セットを取得する性能データ検索処理部と、
前記情報セットに含まれる前記性能値を比較することにより前記性能値の異常を検出し、異常が検出された前記性能値にかかる前記資源を異常箇所として特定する異常箇所発見処理部と、をさらに有する
付記1記載のジョブ性能分析システム。
(付記4)
複数の前記実行サーバそれぞれについて、前記実行サーバが有する前記資源の性能比を格納した実行サーバ性能比格納テーブルをさらに有し、
前記性能データベースは、前記ユーザジョブを実行した前記実行サーバを、前記ジョブIDと関連付けてさらに格納しており、
前記異常箇所発見処理部は、前記性能データベース及び前記実行サーバ性能比格納テーブルを参照し、前記性能値を前記性能比を用いて補正した後、前記性能値の異常を検出する処理を行う
付記3記載のジョブ性能分析システム。
(付記5)
前記異常箇所と関連付けて1以上の想定原因を格納した想定原因リストと、
前記想定原因リストを参照し、前記想定原因のいずれかを異常の原因として推定する原因推定処理部をさらに含む
付記2乃至4いずれか1項記載のジョブ性能分析システム。
(付記6)
前記想定原因リストは、前記想定原因に対応する危険度をさらに格納しており、
前記原因推定処理部は、前記危険度に基づいて、特定の前記想定原因を異常の原因として推定する
付記5記載のジョブ性能分析システム。
(付記7)
ユーザジョブ固有のジョブIDを発行するジョブID発行処理ステップと、
実行サーバ群にユーザジョブの実行を指示するユーザジョブ実行管理処理ステップと、
前記実行サーバ群に含まれる所定の実行サーバが、前記ユーザジョブを実行するステップと、

前記ユーザジョブ実行時の、前記実行サーバが有する資源の性能を示す性能値を、前記ユーザジョブの前記ジョブIDと関連付けて性能データベースに格納するステップと、を有する
ジョブ性能分析方法。
(付記8)
1つの前記ジョブIDをキーとして、前記性能データベースから前記性能値を取得する性能データ検索処理ステップと、
前記性能値と所定の閾値を比較することにより前記性能値の異常を検出し、異常が検出された前記性能値にかかる前記資源を異常箇所として特定する異常箇所発見処理ステップと、をさらに有する
付記7記載のジョブ性能分析方法。
(付記9)
複数の前記ジョブIDをキーとして、前記性能データベースから前記性能値を含む複数の情報セットを取得する性能データ検索処理ステップと、
前記情報セットに含まれる前記性能値を比較することにより前記性能値の異常を検出し、異常が検出された前記性能値にかかる前記資源を異常箇所として特定する異常箇所発見処理ステップと、をさらに有する
付記7記載のジョブ性能分析方法。
(付記10)
前記性能データベースに格納するステップでは、ステップ前記ユーザジョブを実行した前記実行サーバを、前記ジョブIDと関連付けてさらに格納し、
前記異常箇所発見処理ステップでは、前記性能データベース、及び、複数の前記実行サーバそれぞれについて、前記実行サーバが有する前記資源の性能比を格納した実行サーバ性能比格納テーブルを参照し、前記性能値を前記性能比を用いて補正した後、前記性能値の異常を検出する処理を行う
付記9記載のジョブ性能分析方法。
(付記11)
前記異常箇所と関連付けて1以上の想定原因を格納した想定原因リストを参照し、前記想定原因のいずれかを異常の原因として推定する原因推定処理ステップをさらに有する
付記8乃至10いずれか1項記載のジョブ性能分析方法。
(付記12)
前記想定原因リストは、前記想定原因に対応する危険度をさらに格納しており、
前記原因推定処理ステップでは、前記危険度に基づいて、特定の前記想定原因を異常の原因として推定する
付記11記載のジョブ性能分析方法。
(付記13)
付記7乃至12いずれか1項記載のジョブ性能分析方法を、コンピュータに実行させるためのプログラム。
100 ジョブ性能分析システム
110 システム管理サーバ
111 ユーザジョブ実行管理処理部
120 実行サーバ群
121 実行サーバA
122 実行サーバB
123 実行サーバC
130 システム性能監視サーバ
131 ジョブID発行処理部
132 ユーザジョブ実行結果返却時刻格納処理部
140 ユーザジョブ性能劣化原因推定システム
141 ジョブID受取処理部
142 性能データ検索処理部
143 異常箇所発見処理部
144 原因推定処理部
150 記憶装置
151 性能データベース
152 実行サーバ性能比格納テーブル
153 想定原因リスト

Claims (10)

  1. ユーザジョブの実行を制御するユーザジョブ実行管理処理部と、
    前記ユーザジョブ固有のジョブIDを発行するジョブID発行処理部と、
    1以上の実行サーバを含み、前記ユーザジョブ実行管理処理部の指示に応じて、前記実行サーバのいずれかが前記ユーザジョブを実行する実行サーバ群と、
    性能データベースと、を含み、
    前記ユーザジョブを実行する前記実行サーバは、前記ユーザジョブ実行時の、前記実行サーバが有する資源の性能を示す性能値を、前記ユーザジョブの前記ジョブIDと関連付けて性能データベースに格納する
    ジョブ性能分析システム。
  2. 1つの前記ジョブIDをキーとして、前記性能データベースから前記性能値を取得する性能データ検索処理部と、
    前記性能値と所定の閾値を比較することにより前記性能値の異常を検出し、異常が検出された前記性能値にかかる前記資源を異常箇所として特定する異常箇所発見処理部と、をさらに有する
    請求項1記載のジョブ性能分析システム。
  3. 複数の前記ジョブIDをキーとして、前記性能データベースから前記性能値を含む複数の情報セットを取得する性能データ検索処理部と、
    前記情報セットに含まれる前記性能値を比較することにより前記性能値の異常を検出し、異常が検出された前記性能値にかかる前記資源を異常箇所として特定する異常箇所発見処理部と、をさらに有する
    請求項1記載のジョブ性能分析システム。
  4. 複数の前記実行サーバそれぞれについて、前記実行サーバが有する前記資源の性能比を格納した実行サーバ性能比格納テーブルをさらに有し、
    前記性能データベースは、前記ユーザジョブを実行した前記実行サーバを、前記ジョブIDと関連付けてさらに格納しており、
    前記異常箇所発見処理部は、前記性能データベース及び前記実行サーバ性能比格納テーブルを参照し、前記性能値を前記性能比を用いて補正した後、前記性能値の異常を検出する処理を行う
    請求項3記載のジョブ性能分析システム。
  5. 前記異常箇所と関連付けて1以上の想定原因を格納した想定原因リストと、
    前記想定原因リストを参照し、前記想定原因のいずれかを異常の原因として推定する原因推定処理部をさらに含む
    請求項2乃至4いずれか1項記載のジョブ性能分析システム。
  6. 前記想定原因リストは、前記想定原因に対応する危険度をさらに格納しており、
    前記原因推定処理部は、前記危険度に基づいて、特定の前記想定原因を異常の原因として推定する
    請求項5記載のジョブ性能分析システム。
  7. ユーザジョブ固有のジョブIDを発行するジョブID発行処理ステップと、
    実行サーバ群にユーザジョブの実行を指示するユーザジョブ実行管理処理ステップと、
    前記実行サーバ群に含まれる所定の実行サーバが、前記ユーザジョブを実行するステップと、

    前記ユーザジョブ実行時の、前記実行サーバが有する資源の性能を示す性能値を、前記ユーザジョブの前記ジョブIDと関連付けて性能データベースに格納するステップと、を有する
    ジョブ性能分析方法。
  8. 1つの前記ジョブIDをキーとして、前記性能データベースから前記性能値を取得する性能データ検索処理ステップと、
    前記性能値と所定の閾値を比較することにより前記性能値の異常を検出し、異常が検出された前記性能値にかかる前記資源を異常箇所として特定する異常箇所発見処理ステップと、をさらに有する
    請求項7記載のジョブ性能分析方法。
  9. 複数の前記ジョブIDをキーとして、前記性能データベースから前記性能値を含む複数の情報セットを取得する性能データ検索処理ステップと、
    前記情報セットに含まれる前記性能値を比較することにより前記性能値の異常を検出し、異常が検出された前記性能値にかかる前記資源を異常箇所として特定する異常箇所発見処理ステップと、をさらに有する
    請求項7記載のジョブ性能分析方法。
  10. 請求項7乃至9いずれか1項記載のジョブ性能分析方法を、コンピュータに実行させるためのプログラム。
JP2014014546A 2014-01-29 2014-01-29 ジョブ性能分析システム、ジョブ性能分析方法及びプログラム Active JP6273867B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2014014546A JP6273867B2 (ja) 2014-01-29 2014-01-29 ジョブ性能分析システム、ジョブ性能分析方法及びプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2014014546A JP6273867B2 (ja) 2014-01-29 2014-01-29 ジョブ性能分析システム、ジョブ性能分析方法及びプログラム

Publications (2)

Publication Number Publication Date
JP2015141601A true JP2015141601A (ja) 2015-08-03
JP6273867B2 JP6273867B2 (ja) 2018-02-07

Family

ID=53771894

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2014014546A Active JP6273867B2 (ja) 2014-01-29 2014-01-29 ジョブ性能分析システム、ジョブ性能分析方法及びプログラム

Country Status (1)

Country Link
JP (1) JP6273867B2 (ja)

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH06222963A (ja) * 1992-11-27 1994-08-12 Nec Corp 高負荷資源評価システム
JPH11306048A (ja) * 1998-04-21 1999-11-05 Toshiba Tec Corp コンピュータの業務スケジュール監視装置及び業務スケジュール監視プログラムを記録した記録媒体
JP2004164424A (ja) * 2002-11-14 2004-06-10 Matsushita Electric Ind Co Ltd ジョブモニタリング方法
JP2006195709A (ja) * 2005-01-13 2006-07-27 Hitachi Ltd Webサービスシステム
JP2007148728A (ja) * 2005-11-28 2007-06-14 Hitachi Ltd ポリシ制御方法、装置及びプログラム
JP2009181496A (ja) * 2008-01-31 2009-08-13 Nomura Research Institute Ltd ジョブ処理システムおよびジョブ管理方法
JP2009282754A (ja) * 2008-05-22 2009-12-03 Hitachi Ltd バッチ処理監視装置、方法及びプログラム
WO2012073407A1 (ja) * 2010-11-29 2012-06-07 日本電気株式会社 表示処理システム、表示処理方法、およびプログラム

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH06222963A (ja) * 1992-11-27 1994-08-12 Nec Corp 高負荷資源評価システム
JPH11306048A (ja) * 1998-04-21 1999-11-05 Toshiba Tec Corp コンピュータの業務スケジュール監視装置及び業務スケジュール監視プログラムを記録した記録媒体
JP2004164424A (ja) * 2002-11-14 2004-06-10 Matsushita Electric Ind Co Ltd ジョブモニタリング方法
JP2006195709A (ja) * 2005-01-13 2006-07-27 Hitachi Ltd Webサービスシステム
JP2007148728A (ja) * 2005-11-28 2007-06-14 Hitachi Ltd ポリシ制御方法、装置及びプログラム
JP2009181496A (ja) * 2008-01-31 2009-08-13 Nomura Research Institute Ltd ジョブ処理システムおよびジョブ管理方法
JP2009282754A (ja) * 2008-05-22 2009-12-03 Hitachi Ltd バッチ処理監視装置、方法及びプログラム
WO2012073407A1 (ja) * 2010-11-29 2012-06-07 日本電気株式会社 表示処理システム、表示処理方法、およびプログラム

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
高橋 隆雄 他: "「シスログ・マシンを構築しよう 複数サーバのログを一括管理!」", リナックスワールド, vol. 第5巻 第9号, JPN6017037389, 1 September 2001 (2001-09-01), JP, pages 第66頁〜第79頁 *

Also Published As

Publication number Publication date
JP6273867B2 (ja) 2018-02-07

Similar Documents

Publication Publication Date Title
US8645769B2 (en) Operation management apparatus, operation management method, and program storage medium
US10102097B2 (en) Transaction server performance monitoring using component performance data
US8707386B2 (en) Policy processing system, method, and program
US8533731B2 (en) Apparatus and method for distrubuting complex events based on correlations therebetween
US10831622B2 (en) Method and apparatus for processing gateway device fault
EP3239840B1 (en) Fault information provision server and fault information provision method
US9558091B2 (en) Information processing device, fault avoidance method, and program storage medium
US20150215426A1 (en) Non-transitory computer-readable recording medium having stored therein control program, control apparatus and control method
WO2014013603A1 (ja) 監視システム及び監視プログラム
KR20200078328A (ko) 소프트웨어 애플리케이션 프로세스를 모니터링하는 시스템 및 방법
US20180101413A1 (en) Control device and control method
US20160036654A1 (en) Cluster system
US20160080267A1 (en) Monitoring device, server, monitoring system, monitoring method and program recording medium
WO2019034095A1 (zh) 软件处理方法、装置、电子设备及计算机可读存储介质
JP6252309B2 (ja) 監視漏れ特定処理プログラム,監視漏れ特定処理方法及び監視漏れ特定処理装置
CN107025129B (zh) 一种数据处理方法以及装置
JP5321195B2 (ja) 監視制御システム、監視制御方法、監視制御サーバ及び監視制御プログラム
CN112804333B (zh) 出块节点的异常处理方法、装置、设备和存储介质
US10339019B2 (en) Packet capturing system, packet capturing apparatus and method
JP6273867B2 (ja) ジョブ性能分析システム、ジョブ性能分析方法及びプログラム
US9881046B2 (en) Recording medium having stored therein process managing program, process managing apparatus and process managing method
US10067778B2 (en) Management system, recording medium and method for managing virtual machines
JP5500301B2 (ja) 監視制御システム、監視制御方法、監視制御サーバ及び監視制御プログラム
KR101630088B1 (ko) 가상머신의 라이프사이클 모니터링 방법 및 그 장치
US20120072160A1 (en) Measure presentation device, measure presentation method, and non-transitory computer readable storage medium

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20161207

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20170920

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20171003

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20171127

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20171212

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20171225

R150 Certificate of patent or registration of utility model

Ref document number: 6273867

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150