JP2015036963A - 情報処理システム、情報処理システムの制御方法および制御装置の制御プログラム - Google Patents
情報処理システム、情報処理システムの制御方法および制御装置の制御プログラム Download PDFInfo
- Publication number
- JP2015036963A JP2015036963A JP2013169233A JP2013169233A JP2015036963A JP 2015036963 A JP2015036963 A JP 2015036963A JP 2013169233 A JP2013169233 A JP 2013169233A JP 2013169233 A JP2013169233 A JP 2013169233A JP 2015036963 A JP2015036963 A JP 2015036963A
- Authority
- JP
- Japan
- Prior art keywords
- information processing
- server
- information
- statistical information
- aggregation
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L43/00—Arrangements for monitoring or testing data switching networks
- H04L43/06—Generation of reports
- H04L43/067—Generation of reports using time frame reporting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F11/00—Error detection; Error correction; Monitoring
- G06F11/30—Monitoring
- G06F11/34—Recording or statistical evaluation of computer activity, e.g. of down time, of input/output operation ; Recording or statistical evaluation of user activity, e.g. usability assessment
- G06F11/3466—Performance evaluation by tracing or monitoring
- G06F11/3476—Data logging
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F11/00—Error detection; Error correction; Monitoring
- G06F11/30—Monitoring
- G06F11/3065—Monitoring arrangements determined by the means or processing involved in reporting the monitored data
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F11/00—Error detection; Error correction; Monitoring
- G06F11/30—Monitoring
- G06F11/34—Recording or statistical evaluation of computer activity, e.g. of down time, of input/output operation ; Recording or statistical evaluation of user activity, e.g. usability assessment
- G06F11/3466—Performance evaluation by tracing or monitoring
- G06F11/3495—Performance evaluation by tracing or monitoring for systems
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- General Engineering & Computer Science (AREA)
- Quality & Reliability (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Computer Hardware Design (AREA)
- Computer Networks & Wireless Communication (AREA)
- Signal Processing (AREA)
- Debugging And Monitoring (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
【解決手段】複数のサーバ4と、複数のサーバ4を制御する制御ノード2とを備えた情報処理システム1において、制御ノード2は、複数のサーバ4のうちのいずれかを集約サーバ4−2として選択する選択部を備え、複数のサーバ4の各々は、集約サーバ4−2として選択されると、複数のサーバ4のそれぞれから個別統計情報32を回収する回収部と、個別統計情報32を集約して集約統計情報33を生成する集約部とを有する。
【選択図】図1
Description
図14に、このような情報処理システム201のシステム構成を模式的に示す。
情報処理システム201は、制御ノード202、ジョブ管理サーバ203、複数のサーバ204−1〜4−i(iは2以上の整数)、管理用端末205、及び複数の計算ノード206−1〜206−j(jは2以上の整数)を備える。ここで、例えば、iは3000、jは80000である。
制御ノード202は、制御サーバとも呼ばれ、情報処理システム201全体の管理及び構成を行なうサーバである。制御ノード202は、情報処理システム201に関するあらゆる管理を担い、後述するファイルシステム241や、システム構成、ジョブ、ユーザの管理を行なう。制御ノード202は、管理用端末205経由で、システム管理者からの各種操作を受け付けたり、情報処理システム201の状態の監視などを行なう。
本情報処理システム201においては、後述する計算ノード206−1〜206−jのユーザがジョブを実行すると、そのジョブがジョブ管理サーバ203に登録され、ジョブが実行される。
管理用端末205は、システム管理者が、情報処理システム201の管理や保守の作業に用いる情報処理装置である。
計算ノード206−1〜206−jは、ネットワークを介してサーバ204−1〜204−iに接続されている。計算ノード206−1〜206−jは、ファイルシステム241のクライアントとしてサーバ204−1〜204−iのデータにアクセスし、当該データを使用して各種処理を行ない、処理結果をサーバ204−1〜204−iに書き込む。
情報処理システム201のトラブルはシステムの運用中に発生し、かつ情報処理システム201のユーザの利用状況はリアルタイムに変化する。このため、ユーザからトラブルの報告があった場合や、システム管理者がシステムの異常に気付いた際に、システム管理者はできるだけ迅速にファイルシステム241の統計情報を確認し、トラブルや異常の原因を特定することが望ましい。すなわち、情報処理システム201で取得される統計情報にはリアルタイム性が求められる。
例えば、クライアント(計算ノード)206が10000台存在する場合、1台のサーバ204が1クライアントから統計情報を回収する時間を0.01秒とすると、10000クライアントの統計情報の回収には、10000×0.01=100秒かかる。
加えて、各サーバ204が取得した統計情報を、制御ノード202が回収して集計する時間もかかるので、統計情報の取得までに、最終的に数分〜数十分の時間がかかってしまう。
さらに、システム規模が大きくなるほど、情報処理システム101に存在するサーバ204の故障数も増え、故障等により応答できないサーバ204に対処する必要も生じ、統計情報の取得にさらに時間を要するようになる。
なお、前記目的に限らず、後述する発明を実施するための形態に示す各構成により導かれる作用効果であって、従来の技術によっては得られない作用効果を奏することも本発明の他の目的の1つとして位置付けることができる。
(A)システム構成
最初に、図1〜図8を参照して、情報処理システム1の構成について説明する。
図1は、実施形態の一例としての情報処理システム1のシステム構成を示す図である。
情報処理システム1は、制御ノード(制御装置)2、ジョブ管理サーバ(管理装置)3、複数のサーバ(情報処理装置)4−1〜4−n(nは2以上の整数)、管理用端末5、及び複数の計算ノード(クライアント装置)6−1〜6−m(mは2以上の整数)を備える。ここで、例えば、nは3000、mは80000である。
制御ノード2は、制御サーバとも呼ばれ、情報処理システム1全体の管理及び構成を行なうサーバである。制御ノード2は、情報処理システム1に関するあらゆる管理を担い、ファイルシステム41や、システム構成、ジョブ、ユーザの管理を行なう。後述する制御ノード2は、管理用端末5経由で、システム管理者からの各種操作を受け付けたり、情報処理システム1の状態の監視などを行なう。
又、後述するように、制御ノード2は、ローテーション間隔(t1;第1の時間間隔)おきに、サーバ4−1〜4−nのうちのいずれかを、統計情報を集約する集約サーバ(収集装置)の候補(以下、単に「集約サーバ候補」とも呼ぶ)として選択する。なお、制御ノード2の詳細な構成及び機能については図2を参照して後述する。
ジョブ管理サーバ3は、サーバ機能を備えた情報処理装置であり、情報処理システム1で実行される全ジョブを管理し、これらジョブの情報をジョブ情報34として有している。ジョブ管理サーバ3は、制御ノード2からのジョブ情報問い合わせに応答して、ジョブ情報34をジョブ管理サーバ3に送信する。ジョブ管理サーバ3としては、一般的なサーバコンピュータを用いることができる。
サーバ4−1〜4−nは、それぞれ、同様の構成を有し、大量のデータを格納しているサーバであり、情報処理システム1の分散ファイルシステム41を構築している。サーバ4−1〜4−nの詳細な構成及び機能については図3を参照して後述する。
サーバ4−1〜4−nに対しては、ファイルシステム41のクライアントである後述する計算ノード6−1〜6−mによってデータの読み書きが行なわれる。
ここで、統計情報とは、ファイルシステム41に対して行なわれる各種アクティビティを記録している情報である。ファイルシステム41に対して行なわれるアクティビティには、例えば、ファイルの書き込み、ファイルの読み込み、ファイルの作成又は削除、ファイルデータの同期、更新、属性変更など、ファイルやディレクトリに関するあらゆる操作が含まれる。
管理用端末5は、システム管理者が、情報処理システム1の管理や保守の作業に用いる情報処理装置である。例えば、ファイルシステム41で問題が発生した際に、システム管理者は、管理用端末5を用いて、ファイルシステム41の負荷の状況やファイルアクセスの傾向を確認するためにファイルシステム41の集約統計情報33を確認する。集約統計情報33については後述する。
計算ノード6−1〜6−mは、サーバ機能を備えた情報処理装置であり、主として各種演算処理を実行する。計算ノード6−1〜6−mは、同様の構成を有し、集合的に計算ノード群42を構成している。
なお、以下、サーバを示す符号としては、複数のサーバのうち1つを特定する必要があるときには符号4−1〜4−nを用いるが、任意のサーバを指すときには符号4を用いる。
情報処理システム1においては、ファイルシステム41の規模が大きくなるほどサーバ4の数も増え、ファイルシステム41のクライアント(計算ノード5)の数も増える。
制御ノード2は、Central Processing Unit(CPU)11、メモリ12、ディスクドライブ13、Network Interface Card(NIC)14、及びInput/Output Interface(I/O I/F)15を備える。
メモリ12は、CPU11が実行するプログラムや種々のデータや、CPU11の動作により得られたデータ等を一時的に格納する。メモリ12としては、例えば、Random Access Memory(RAM)などの公知のメモリを用いることができる。
I/O I/F15は、制御ノード2を外部の機器に接続するためのインタフェースであり、例えば、Universal Serial Bus(USB)アダプタである。
制御ノード2には、I/O I/F15を介して、媒体リーダ16やディスプレイ17が接続されている。
CPU11は、例えば、ディスクドライブ13に格納されている不図示のプログラムを実行することにより、統計情報取得部18として機能する。
統計情報取得部18は、集約サーバ選択部(選択部)181、集約サーバ通知部(通知部)182、統計情報取得依頼部183、統計情報受信部184、ジョブ情報取得部185、及び統計情報出力部(送信部)186を備える。
ここで、ローテーション間隔は、情報処理システム1におけるジョブの運用状況に応じて管理者が決定する。例えば、システム管理者はローテーション間隔として10分を設定する。
集約サーバ通知部182は、集約サーバ選択部181が選択した集約サーバ4の候補に対して、集約サーバ4として選択された旨の通知を行なう。この通知に対し、選択したサーバ4から応答がなければ、集約サーバ選択部181はサーバリスト31の次のサーバ4を集約サーバ候補として選択する。この選択は、集約サーバ4の候補から応答があるまで繰り返される。
統計情報取得依頼部183は、管理用端末5経由でシステム管理者から統計情報取得指示を受信し、集約サーバ4に統計情報取得依頼を送信する。
統計情報受信部184は、後述する集約サーバ4の統計情報送信部286から、クライアント6毎に集計された集約統計情報33を受け取る。
統計情報出力部186は、後述するノードリスト30と、ジョブ情報取得部185が取得したジョブ情報34とを基に、統計情報受信部184が取得した集約統計情報33から、ジョブ毎の統計情報であるジョブ統計情報35(図8参照)を集計し、管理用端末5に送信する。
なお、統計情報取得部18、集約サーバ選択部181、集約サーバ通知部182、統計情報取得依頼部183、統計情報受信部184、ジョブ情報取得部185、及び統計情報出力部186としての機能を実現するためのプログラム(制御装置の制御プログラム)は、例えばフレキシブルディスク,CD(CD−ROM,CD−R,CD−RW等),DVD(DVD−ROM,DVD−RAM,DVD−R,DVD+R,DVD−RW,DVD+RW,HD DVD等),ブルーレイディスク,磁気ディスク,光ディスク,光磁気ディスク等の、コンピュータ読取可能な記録媒体に記録された形態で提供される。そして、コンピュータ(制御装置)はその記録媒体19から媒体リーダ16を介してプログラムを読み取って内部記録装置又は外部記録装置に転送し格納して用いる。又、そのプログラムを、例えば磁気ディスク,光ディスク,光磁気ディスク等の記憶装置(記録媒体19)に記録しておき、その記憶装置から通信経路を介してコンピュータ(制御装置)に提供してもよい。
サーバ4は、CPU21、メモリ22、ディスクドライブ23、NIC24、及びI/O I/F25を備える。
CPU21は、種々の制御や演算を行なう処理装置であり、後述するメモリ22やディスクドライブ23に格納されたOSやプログラムを実行することにより、種々の機能を実現する。CPU21としては、例えば、公知のCPUを用いることができる。
ディスクドライブ23は、データを記憶するための記憶領域を有する記憶装置であり、例えば、後述する集約統計情報33のほか、プログラムやデータを格納している。ディスクドライブ23としては、公知のHDDやSSDなどを用いることができる。
I/O I/F25は、サーバ4を外部の機器に接続するためのインタフェースであり、例えば、USBアダプタである。
サーバ4には、I/O I/F25を介して、媒体リーダ26やディスプレイ27が接続されている。
CPU21は、例えば、ディスクドライブ23に格納されている不図示のプログラムを実行することにより、統計情報管理部28として機能する。
各サーバ4は、ファイルシステム41のサービスが起動した時点からの累積の統計情報を保持しており、統計情報生成部281は、この累積統計情報から、所定時間(回収間隔)における統計情報32を切り出し(抽出し)て、個別統計情報32を生成する。
ここで、回収間隔とは、統計情報回収部282が他のサーバ4に対して個別統計情報転送依頼を発行する時間間隔を指す。この回収間隔は、ジョブの運用状況に応じて管理者が決定する。例えば、管理者は、ジョブ運用中に制御ノード2からジョブ統計情報35を参照して、実行されるジョブの実行時間の傾向から回収間隔を決定する。
受信部283は、制御ノード2から通知される集約サーバ4のIPアドレスを受信する。又、受信部283は、制御ノード2から統計情報取得依頼を受信する。
統計情報集約部285は、自サーバ4が集約サーバ4である場合、自サーバ4の統計情報生成部281が生成した個別統計情報32と、他サーバ4から受け取った個別統計情報32とを集約し、ファイルシステム41全体の集約統計情報33(図6参照)を生成する。
なお、統計情報管理部28、統計情報生成部281、統計情報回収部282、受信部283、集約サーバ判定部284、統計情報集約部285、及び統計情報送信部286としての機能を実現するためのプログラム(情報処理装置の制御プログラム)は、例えばフレキシブルディスク,CD(CD−ROM,CD−R,CD−RW等),DVD(DVD−ROM,DVD−RAM,DVD−R,DVD+R,DVD−RW,DVD+RW,HD DVD等),ブルーレイディスク,磁気ディスク,光ディスク,光磁気ディスク等の、コンピュータ読取可能な記録媒体に記録された形態で提供される。そして、コンピュータ(情報処理装置)はその記録媒体29から媒体リーダ26を介してプログラムを読み取って内部記録装置又は外部記録装置に転送し格納して用いる。又、そのプログラムを、例えば磁気ディスク,光ディスク,光磁気ディスク等の記憶装置(記録媒体29)に記録しておき、その記憶装置から通信経路を介してコンピュータ(情報処理装置)に提供してもよい。
ノードリスト30は、情報処理システム1に存在する全ノード(制御ノード2、ジョブ管理サーバ3、サーバ4、管理用端末5、計算ノード6等)を列挙するテーブルである。
ノードリスト30は、ノードID301と、IPアドレス302とを対応付けている。
IPアドレス302は、ノードのIPアドレスを示す。
図5は、実施形態の一例としての情報処理システム1で使用されるサーバリスト31を例示する図である。
なお、図5の例ではサーバ4のIPアドレスしか図示されていないが、サーバ4のIPアドレスと共にサーバ4のID(名称等)が列挙されていてもよい。
図6は、実施形態の一例としてのサーバ4が生成する個別統計情報32を例示する図である。
図6の例では、個別統計情報32には、IPADDR、OPEN、CLOSE、UNLINK、MKDIR、RMDIR、RENAME、GETATTR、SETATTR、及びSTATFSの各エントリが含まれる。
本例では、IPADDRは、ジョブを実行したクライアント(計算ノード)6のIPアドレスを示す。
OPENは、ジョブによってファイルがオープンされた回数を示す。
UNLINKは、ジョブによってファイルが削除された回数を示す。
MKDIRは、ジョブによってディレクトリが作成された回数を示す。
RMDIRは、ジョブによってディレクトリが削除された回数を示す。
RENAMEは、ジョブによってファイル又はディレクトリがリネームされた回数を示す。
SETATTRは、ジョブによってファイル又はディレクトリの属性が設定された回数を示す。
STATFSは、ジョブによって、ファイルシステム41のステータスが確認された回数を示す。
なお、集約サーバ4は、各サーバ4が集計した個別統計情報32を足し合わせることで、集計統計情報33を生成するので、集計統計情報33は、図6の個別統計情報32と同様のデータを有する。このため、集計統計情報33についてはその図示並びに説明を省略する。
ジョブ情報34は、情報処理システム1で実行されるジョブに関する情報であり、ジョブ情報取得部185によって、ジョブ管理サーバ3から取得される。
図7の例では、ジョブ情報34には、JOB ID、JOB NAME、JOB TYPE、JOB MODEL、RETRY NUM、SUB JOB NUM、USER、GROUP、RESOURCE UNIT、RESOURCE GROUP、LAST STATE、STATE RUN、NODE NUM(ALLOC)、NODE NUM(USE)、NODE ID(USE)341、TOFU COORDINATE(USE)の各エントリが含まれる。
JOB NAMEは、ジョブを実行したユーザ等によって指定されたジョブの名称を示す。
JOB MODELは、ジョブのモデルであり、例えば、ジョブがバルクジョブ(1台の計算ノードで複数のジョブを実行する)であることを示す「BU」などが使用される。
RETRY NUMは、ジョブのリトライ回数を示す。
USERは、ジョブを実行したジョブ実行ユーザのユーザ名を示す。
GROUPは、ジョブを実行したユーザが所属するグループを示す。
RESOURCE UNITは、ジョブの実行単位であるリソースユニットの名称を示す。
LAST STATEは、ジョブの以前のステータス(準備中、実行中等)を示す。例えば、「RNA」はジョブが準備中であったことを示す。
STATEは、ジョブの以前のステータス(準備中、実行中等)を示す。例えば、「RUN」はジョブが実行中であることを示す。
NODE NUM(USE)は、ジョブに使用される計算ノード6の数を示す。
NODE ID(USE)341は、ジョブに使用される計算ノード6のIDを示す。ここに記載される計算ノード6のノードIDは、図4に列挙されているIDに対応する。このノードIDは、前述の制御ノード2の統計情報出力部186によって、クライアント6毎のジョブ統計情報35を生成する際に使用される。
なお、図7のジョブ情報34は例示に過ぎず、情報処理システム1やジョブ管理サーバ3の構成や実装などに応じて、ジョブ管理サーバ3から取得されるジョブ情報34の形式等が適宜変更されてもよい。
ジョブ統計情報35は、情報処理システム1で実行されている全ジョブについて、ジョブ毎の各種情報や統計情報を含む。
図8の例では、ジョブ統計情報35には、JOB_ID、JOB_NAME、USER、GROUP、OPEN、CLOSE、UNLINK、MKDIR、RMDIR、RENAME、GETATTR、SETATTR、及びSTATFSの各エントリが含まれる。
本例では、JOB_IDは、情報処理システム1上で実行されるジョブを一意に特定するためのジョブIDである。ジョブIDは、ジョブ毎にジョブ管理サーバ3によって割り当てられる。
USERは、ジョブを実行したジョブ実行ユーザのユーザ名を示す。
GROUPは、ジョブを実行したユーザが所属するグループを示す。
CLOSEは、ファイルシステム41の全体で、ジョブによってファイルがクローズされた回数を示す。
UNLINKは、ファイルシステム41の全体で、ジョブによってファイルが削除された回数を示す。
RMDIRは、ファイルシステム41の全体で、ジョブによってディレクトリが削除された回数を示す。
RENAMEは、ファイルシステム41の全体で、ジョブによってファイル又はディレクトリがリネームされた回数を示す。
SETATTRは、ファイルシステム41の全体で、ジョブによって属性が設定された回数を示す。
STATFSは、ファイルシステム41の全体で、ジョブによって、ファイルシステム41のステータスが確認された回数を示す。
(B)システム動作
以下、図9〜図13を参照して、情報処理システム1の動作について説明する。
図9は、実施形態の一例としての制御ノード2の統計情報取得部18の集約サーバ選択部181の動作を模式的に示す図(ステップS1〜S5)である。
ステップS1において、集約サーバ選択部181はサーバリスト31の先頭に記載されているIPアドレスが割り振られているサーバ4を、集約サーバ4として選択する。
ステップS1の10分後、ステップS2において、集約サーバ選択部181はサーバリスト31の2番目に記載されているIPアドレスが割り振られているサーバ4を、集約サーバ4として選択する。
ステップS3の10分後、ステップS4において、集約サーバ選択部181はサーバリスト31の最後(本例では4番目)に記載されているIPアドレスが割り振られているサーバ4を、集約サーバ4として選択する。
又、図9の例では、サーバリスト31に4つのIPアドレスが記載されていたが、サーバリスト31に記載されているIPアドレスの個数は4以外であってもよい。
ステップS11において、制御ノード2の統計情報取得部18の集約サーバ選択部181が、サーバリスト31から集約サーバ候補(本例ではサーバ4−1)を選択する。
ステップS12において、統計情報取得部18の集約サーバ通知部183が、ステップS11で集約サーバ選択部181が選択した集約サーバ候補のサーバ4に、集約サーバ候補通知を送信する。
次にステップS14において、統計情報取得部18の集約サーバ通知部183は、全サーバ4に対し、集約サーバ通知として、ステップS11で選択した集約サーバ4のIPアドレスを通知する。
ステップS16において、集約サーバ4−1の統計情報集約部285は、自サーバ4のメモリ22に記憶している個別統計情報32と、ステップS15で回収した個別統計情報32とをクライアント6毎に合算し、クライアント6毎の集約統計情報33を作成する。
ステップS21において、制御ノード2の統計情報取得部18の集約サーバ選択部181が、サーバリスト31から集約サーバ候補(本例ではサーバ4−2)を選択する。
ステップS22において、統計情報取得部18の集約サーバ通知部183が、ステップS21で集約サーバ選択部181が選択した集約サーバ候補のサーバ4に、集約サーバ候補通知を送信する。
例えば、集約サーバ候補通知を送信した後、所定時間内に応答を受信しない場合には、ステップS24において、集約サーバ選択部181が、サーバリスト31から次の集約サーバ候補(本例ではサーバ4−3)を選択する。
ステップS26において、集約サーバ候補4−3の受信部283が、集約サーバ候補通知を受信して、制御ノード2に応答を返す。
ステップS27において、サーバ4−2,4−3以外のサーバ4の統計情報送信部286は、自サーバ4の統計情報生成部281が集計し、メモリ22に記憶している個別統計情報32を集約サーバ4−3に転送する。しかしサーバ4−2は故障等が発生しているため、個別統計情報32を転送することができない。
図12は、実施形態の一例としての情報処理システム1全体の動作を模式的に示す図(ステップS31〜S49)である。
ステップS32において、サーバ4−1の受信部283が集約サーバ候補通知を受信して、制御ノード2に対して応答を返す。
ステップS34〜S36において、サーバ4−1〜4−nの統計情報生成部281が、自サーバ4にアクセスするクライアント6毎の個別統計情報32を生成する。なお、ステップS34〜S36は、ステップS31〜S33の前又は後に行なわれても、ステップS31〜S33の実行中に行なわれてもよい。又、ステップS34〜S36は、サーバ4−1〜4−nによって任意の順序で実行される。
ステップS38において、集約サーバ4−1の統計情報集約部285が、ステップS34で自サーバ4の統計情報回収部282が集計した個別統計情報32と、ステップS27で回収した個別統計情報32とをクライアント6毎に合算し、集約統計情報33を作成する。
ステップS40において、サーバ4−2の受信部283が集約サーバ候補通知を受信して、制御ノード2に対して応答を返す。
ステップS42〜S44において、サーバ4−1〜4−nの統計情報生成部281が、自サーバ4にアクセスするクライアント6毎の個別統計情報32を生成する。ここでも、ステップS42〜S44は、ステップS39〜S41の前又は後に行なわれても、ステップS39〜S41の実行中に行なわれてもよい。又、ステップS42〜S44は、サーバ4−1〜4−nによって任意の順序で実行される。
任意のタイミングのステップS45において、システム管理者が管理用端末5を使用して、統計情報の取得を指示すると、管理用端末5から制御ノード2に、統計情報取得指示が送信される。
ステップS47において、集約サーバ4の受信部283がステップS46で送信された統計情報取得依頼を受信し、統計情報送信部286が、ステップS38で集約した集約統計情報33を制御ノード2に送信する。
ステップS49において、システム管理用端末5は、ジョブ統計情報35を不図示の画面に表示することで、システム管理者にジョブ統計情報35を提示する。
最初に、制御ノード2の処理を説明する。ステップS51〜S55は制御ノード2で反復的に実行される処理である。
まず、ステップS52において、制御ノード2の集約サーバ選択部181が、サーバリスト31から複数のサーバ4のうちのいずれかを集約サーバ候補として選択する。
ステップS54において、制御サーバ通知部182が、ステップS52で集約サーバ候補通知を送信したサーバ4からの応答の受信を待機する。
ステップS54でサーバ4からの応答を受信した場合(ステップS54のYESルート参照)、ステップS55において、制御ノード2の集約サーバ通知部182が、全サーバ4に対して集約サーバのIPアドレスを、集約サーバ通知として送信する。
その後、ローテーション間隔(t1)の経過後に、ステップS51に戻り、ステップS52において制御ノード2の集約サーバ選択部181が、サーバリスト31の次のサーバ4を集約サーバ4として選択し、ステップS53〜S55の処理を繰り返す。
ステップS62において、各サーバ4の統計情報生成部281が、自サーバ4にアクセスするクライアント6毎の個別統計情報32を生成する。
ステップS62の前又は後、或いはステップS62と並行して、ステップS63において、ステップS52で集約サーバとして選択されたサーバ4の受信部283が、集約サーバ候補通知を受信して、制御ノード2に対して応答を返す。
自サーバ4が集約サーバ4ではない場合(ステップS64のNOルート参照)、ステップS65において、統計情報送信部286は、ステップS62で生成した個別統計情報32を、ステップS63で通知された集約サーバ4に送信する。
次に、任意のタイミングで実行されるステップS71〜77の処理を説明する。ステップS71〜S77は、前述のステップS51〜S55、ステップS61〜S66の処理とは独立したタイミングで実行される。
この指示を受けて、ステップS72において、制御ノード2の統計情報取得依頼部183が、統計情報取得依頼を集約サーバ4に送信する。
ステップS73において、集約サーバ4の受信部283が、ステップS72で送信された統計情報取得依頼を受信する。そして、ステップS74において、統計情報送信部286が、ステップS66で集約した集約統計情報33を制御ノード2に送信する。
ステップS76において、ジョブ情報取得部185が、ジョブ管理サーバ3からジョブ情報34を取得する。統計情報出力部186が、ノードリスト30とジョブ情報34とを使用して、ジョブ統計情報35を生成する
ステップS77において、統計情報出力部186は、ステップS76で生成したジョブ統計情報35をシステム管理用端末5の不図示のディスプレイに出力する。
従来、図14に示したように、制御ノード202が各サーバ204に統計情報取得依頼を発行して、統計情報を集め、クライアント毎の統計情報に集約していたので、統計情報の取得まで長い時間がかかっていた。
一方、上記の実施形態の一例としての情報処理システム1においては、制御ノード2の集約サーバ選択部181が複数のサーバ4の中から集約サーバ4を選択して、集約サーバ通知部182が当該サーバ4に、制御サーバ4として選択された旨を、集約サーバ候補通知により通知する。通知を受けたこの集約サーバ4の統計情報集約部285が、各サーバ4が収集したクライアント毎の個別統計情報32を予め回収しておく。その後、管理用端末5から制御ノード2に統計情報取得依頼を送信した時に、この集約済みのクライアント毎の統計情報が集約サーバ4の統計情報送信部286によって送信され、管理用端末5にジョブ統計情報35が出力される。
例えば、クライアント数が10000の場合、従来手法では、各サーバが、10000の統計情報ファイルから統計情報を算出していた。一方、上記の実施形態の一例としての情報処理システム1においては、各サーバ4の統計情報生成部281が、個別統計情報32を回収間隔(t2)毎に予め算出しておくので、統計情報の時間が大幅に短縮される。
又、集約サーバ選択部181は、集約サーバ4として選択したサーバ4が応答しない場合には、故障したサーバ4を除外して別のサーバ4を集約サーバ4として選択するので、統計情報取得処理の冗長性及び対故障性が担保される。
(D)その他
なお、開示の技術は上述した実施形態に限定されるものではなく、本実施形態の趣旨を逸脱しない範囲で種々変形して実施することができる。
又、上記の実施形態においては、集約サーバ選択部181が10分間隔で集約サーバ4を選択していたが、集約サーバ4を選択するローテーション間隔は、例えば、情報処理システム1の運用状況等に応じて、システム管理者が任意に設定することができる。
或いは、上記の実施形態においては、集約サーバ通知部182が、集約サーバ候補4に集約サーバ候補通知を送信し、当該集約サーバ候補4から応答を受けた後に、全てのサーバ4に対し、集約サーバ4のアドレスを集約サーバ通知として送信していた。しかし、集約サーバ通知部182が、集約サーバ候補通知と集約サーバ通知とをまとめてもよい。例えば、集約サーバ通知部182が集約サーバ通知のみを送信してもよい。
以上の実施形態に関し、更に以下の付記を開示する。
(付記1)
複数の情報処理装置と、前記複数の情報処理装置を制御する制御装置とを備えた情報処理システムにおいて、
前記制御装置は、
前記複数の情報処理装置のうちのいずれかを集約装置として選択する選択部を備え、
前記複数の情報処理装置の各々は、
集約装置として選択されると、前記複数の情報処理装置のそれぞれから履歴情報を回収する回収部と、
前記履歴情報を集約して集約情報を生成する集約部と、を有する
ことを特徴とする情報処理システム。
前記制御装置は、前記集約情報の送信依頼を受けると、前記集約装置によって生成された前記集約情報を送信する送信部をさらに備える
ことを特徴とする付記1記載の情報処理システム。
(付記3)
前記複数の情報処理装置はそれぞれ、複数のクライアント装置によってアクセスされ、
前記複数の情報処理装置の各々は、
前記複数のクライアント装置のそれぞれからの該情報処理装置へのアクセス状況を前記履歴情報として生成する情報生成部をさらに備える
ことを特徴とする付記1又は2記載の情報処理システム。
前記選択部は、第1の時間間隔毎に、前記複数の情報処理装置のうちのいずれかを順に前記集約装置として選択する
ことを特徴とする付記1〜3のいずれか1項に記載の情報処理システム。
(付記5)
前記回収部は、第2の時間間隔毎に、前記複数の情報処理装置のそれぞれから前記履歴情報を回収する
ことを特徴とする付記1〜4のいずれか1項に記載の情報処理システム。
前記選択部による前記集約装置の選択と、前記回収部による前記履歴情報の収集とは非同期に行なわれる
ことを特徴とする付記5記載の情報処理システム。
(付記7)
複数の情報処理装置と、前記複数の情報処理装置を制御する制御装置とを備えた情報処理システムの制御方法において、
前記制御装置が、複数の情報処理装置のうちのいずれかを集約装置として選択し、
前記制御装置が、前記複数の情報処理装置のそれぞれから履歴情報を収集し、
前記制御装置が、前記複数の情報処理装置のそれぞれから収集した履歴情報を集約した集約情報を、前記集約装置に生成させることを特徴とする情報処理システムの制御方法。
前記集約情報の送信依頼を受けると、前記集約装置によって生成された前記集約情報を送信する
ことを特徴とする付記7記載の情報処理システムの制御方法。
(付記9)
前記複数の情報処理装置はそれぞれ、複数のクライアント装置によってアクセスされ、
前記複数の情報処理装置の各々によって、前記複数のクライアント装置のそれぞれからの該情報処理装置へのアクセス状況が前記履歴情報として生成される
ことを特徴とする付記7又は8記載の情報処理システムの制御方法。
前記選択時に、第1の時間間隔毎に、前記複数の情報処理装置のうちのいずれかを順に前記集約装置として選択する
ことを特徴とする付記7〜9のいずれか1項に記載の情報処理システムの制御方法。
(付記11)
前記前記集約装置によって、第2の時間間隔毎に、前記複数の情報処理装置のそれぞれから前記履歴情報が収集される
ことを特徴とする付記7〜10のいずれか1項に記載の情報処理システムの制御方法。
前記集約装置の選択と、前記履歴情報の収集とは非同期に行なわれる
ことを特徴とする付記11記載の情報処理システムの制御方法。
(付記13)
複数の情報処理装置を制御する制御装置の制御プログラムにおいて、
前記制御装置に、
複数の情報処理装置のうちのいずれかを集約装置として選択させ、
前記複数の情報処理装置のそれぞれから履歴情報を収集させ、
前記複数の情報処理装置のそれぞれから収集した履歴情報を集約した集約情報を、前記集約装置に生成させる処理を実行させることを特徴とする制御装置の制御プログラム。
前記集約情報の送信依頼を受けると、前記集約装置によって生成された前記集約情報を送信する
処理を前記制御装置に実行させることを特徴とする付記13記載の制御装置の制御プログラム。
前記複数の情報処理装置はそれぞれ、複数のクライアント装置によってアクセスされ、
前記複数の情報処理装置の各々によって、前記複数のクライアント装置のそれぞれからの該情報処理装置へのアクセス状況が前記履歴情報として生成される
ことを特徴とする付記13又は14記載の制御装置の制御プログラム。
前記選択時に、第1の時間間隔毎に、前記複数の情報処理装置のうちのいずれかを順に前記集約装置として選択する
処理を前記制御装置に実行させることを特徴とする付記13〜15のいずれか1項に記載の制御装置の制御プログラム。
前記集約装置によって、第2の時間間隔毎に、前記複数の情報処理装置のそれぞれから前記履歴情報が収集される
ことを特徴とする付記13〜16のいずれか1項に記載の制御装置の制御プログラム。
(付記18)
前記集約装置の選択と、前記履歴情報の収集とは非同期に行なわれる
ことを特徴とする付記17記載の制御装置の制御プログラム。
制御装置によって、集約装置として選択されると、複数の情報処理装置のそれぞれから履歴情報を回収する回収部と、
前記履歴情報を集約して集約情報を生成する集約部と、
を備えることを特徴とする情報処理装置。
複数の情報処理装置のうちのいずれかを前記集約装置として選択する選択部と、
前記複数の情報処理装置のうちの前記1つの情報処理装置に前記集約装置として選択した旨を通知する通知部と、
を備えることを特徴とする制御装置。
2 制御ノード(制御装置)
3 ジョブ管理サーバ(管理装置)
4−1〜4−n サーバ(情報処理装置)
4 集約サーバ(集約装置)
5 管理用端末
6−1〜6−m 計算ノード(クライアント装置)
18 統計情報取得部
181 集約サーバ選択部(選択部)
182 集約サーバ通知部(通知部)
183 統計情報取得依頼部
184 統計情報受信部
185 ジョブ情報取得部
186 統計情報出力部(送信部)
28 統計情報管理部
281 統計情報生成部
282 統計情報回収部(回収部)
283 受信部
284 集約サーバ判定部
285 統計情報集約部(集約部)
286 統計情報送信部
31 サーバリスト
32 個別統計情報(統計情報)
33 集約統計情報(集計情報)
34 ジョブ情報
35 ジョブ統計情報
Claims (8)
- 複数の情報処理装置と、前記複数の情報処理装置を制御する制御装置とを備えた情報処理システムにおいて、
前記制御装置は、
前記複数の情報処理装置のうちのいずれかを集約装置として選択する選択部を備え、
前記複数の情報処理装置の各々は、
集約装置として選択されると、前記複数の情報処理装置のそれぞれから履歴情報を回収する回収部と、
前記履歴情報を集約して集約情報を生成する集約部と、を有する
ことを特徴とする情報処理システム。 - 前記制御装置は、前記集約情報の送信依頼を受けると、前記集約装置によって生成された前記集約情報を送信する送信部をさらに備える
ことを特徴とする請求項1記載の情報処理システム。 - 前記複数の情報処理装置はそれぞれ、複数のクライアント装置によってアクセスされ、
前記複数の情報処理装置の各々は、
前記複数のクライアント装置のそれぞれからの該情報処理装置へのアクセス状況を前記履歴情報として生成する情報生成部をさらに備える
ことを特徴とする請求項1又は2記載の情報処理システム。 - 前記選択部は、第1の時間間隔毎に、前記複数の情報処理装置のうちのいずれかを順に前記集約装置として選択する
ことを特徴とする請求項1〜3のいずれか1項に記載の情報処理システム。 - 前記回収部は、第2の時間間隔毎に、前記複数の情報処理装置のそれぞれから前記履歴情報を回収する
ことを特徴とする請求項1〜4のいずれか1項に記載の情報処理システム。 - 前記選択部による前記集約装置の選択と、前記回収部による前記履歴情報の収集とは非同期に行なわれる
ことを特徴とする請求項5記載の情報処理システム。 - 複数の情報処理装置と、前記複数の情報処理装置を制御する制御装置とを備えた情報処理システムの制御方法において、
前記制御装置が、複数の情報処理装置のうちのいずれかを集約装置として選択し、
前記制御装置が、前記複数の情報処理装置のそれぞれから履歴情報を収集し、
前記制御装置が、前記複数の情報処理装置のそれぞれから収集した履歴情報を集約した集約情報を、前記集約装置に生成させることを特徴とする情報処理システムの制御方法。 - 複数の情報処理装置を制御する制御装置の制御プログラムにおいて、
前記制御装置に、
複数の情報処理装置のうちのいずれかを集約装置として選択させ、
前記複数の情報処理装置のそれぞれから履歴情報を収集させ、
前記複数の情報処理装置のそれぞれから収集した履歴情報を集約した集約情報を、前記集約装置に生成させる処理を実行させることを特徴とする制御装置の制御プログラム。
Priority Applications (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2013169233A JP6213038B2 (ja) | 2013-08-16 | 2013-08-16 | 情報処理システム、情報処理システムの制御方法および制御装置の制御プログラム |
US14/332,457 US20150052242A1 (en) | 2013-08-16 | 2014-07-16 | Information processing system, method of controlling information processing system, and computer-readable recording medium storing control program for controller |
EP14178416.5A EP2838023A3 (en) | 2013-08-16 | 2014-07-24 | Centralised information reporting in a large scale information processing system |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2013169233A JP6213038B2 (ja) | 2013-08-16 | 2013-08-16 | 情報処理システム、情報処理システムの制御方法および制御装置の制御プログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2015036963A true JP2015036963A (ja) | 2015-02-23 |
JP6213038B2 JP6213038B2 (ja) | 2017-10-18 |
Family
ID=51260609
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2013169233A Expired - Fee Related JP6213038B2 (ja) | 2013-08-16 | 2013-08-16 | 情報処理システム、情報処理システムの制御方法および制御装置の制御プログラム |
Country Status (3)
Country | Link |
---|---|
US (1) | US20150052242A1 (ja) |
EP (1) | EP2838023A3 (ja) |
JP (1) | JP6213038B2 (ja) |
Families Citing this family (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20160306810A1 (en) * | 2015-04-15 | 2016-10-20 | Futurewei Technologies, Inc. | Big data statistics at data-block level |
US11256440B2 (en) | 2016-12-21 | 2022-02-22 | Hitachi, Ltd. | Method and distributed storage system for aggregating statistics |
US11113114B2 (en) * | 2019-04-09 | 2021-09-07 | Cisco Technology, Inc. | Distributed object placement, replication, and retrieval for cloud-scale storage and data delivery |
CN113835953A (zh) * | 2021-09-08 | 2021-12-24 | 曙光信息产业股份有限公司 | 作业信息的统计方法、装置、计算机设备和存储介质 |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH04264976A (ja) * | 1991-02-20 | 1992-09-21 | Hitachi Ltd | 電子ファイル装置 |
JPH0973411A (ja) * | 1995-09-06 | 1997-03-18 | Hitachi Ltd | アクセス負荷の分散制御システム |
US6023507A (en) * | 1997-03-17 | 2000-02-08 | Sun Microsystems, Inc. | Automatic remote computer monitoring system |
JP2005032127A (ja) * | 2003-07-10 | 2005-02-03 | Toshiba Corp | 履歴情報前処理装置、履歴情報処理装置、並びにその方法およびプログラム |
JP2005326911A (ja) * | 2004-05-12 | 2005-11-24 | Hitachi Ltd | San管理方法 |
JP2011191807A (ja) * | 2010-03-11 | 2011-09-29 | Hitachi Ltd | 計算機モニタリングシステム及びプログラム |
JP2013089055A (ja) * | 2011-10-19 | 2013-05-13 | Hitachi Ltd | データ通信制御方法及びデータ通信制御システム |
Family Cites Families (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP0668564A1 (en) * | 1994-02-22 | 1995-08-23 | International Business Machines Corporation | Resource measurement facility in a multiple operating system complex |
US6360256B1 (en) * | 1996-07-01 | 2002-03-19 | Sun Microsystems, Inc. | Name service for a redundant array of internet servers |
JPH11175373A (ja) | 1997-12-15 | 1999-07-02 | Hitachi Information Systems Ltd | 分散サーバ運用管理業務における稼働統計情報収集・蓄積方式およびそれに用いる記憶媒体 |
JP3626458B2 (ja) * | 2001-06-04 | 2005-03-09 | 株式会社ソニー・コンピュータエンタテインメント | ログ収集解析システム、ログ収集方法、コンピュータに実行させるためのログ収集プログラム、ログ解析方法、コンピュータに実行させるためのログ解析プログラム、ログ収集装置、ログ解析装置、ログ収集端末、ログサーバ |
CN103297257B (zh) * | 2012-02-27 | 2016-10-19 | 北京东土科技股份有限公司 | 一种冗余网络的实现方法 |
US8955036B2 (en) * | 2012-04-11 | 2015-02-10 | Mcafee, Inc. | System asset repository management |
US9674589B2 (en) * | 2012-05-04 | 2017-06-06 | Itron, Inc. | Coordinated collection of metering data |
US20140286178A1 (en) * | 2013-03-19 | 2014-09-25 | Unisys Corporation | Communication protocol for wireless sensor networks using communication and energy costs |
-
2013
- 2013-08-16 JP JP2013169233A patent/JP6213038B2/ja not_active Expired - Fee Related
-
2014
- 2014-07-16 US US14/332,457 patent/US20150052242A1/en not_active Abandoned
- 2014-07-24 EP EP14178416.5A patent/EP2838023A3/en not_active Withdrawn
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH04264976A (ja) * | 1991-02-20 | 1992-09-21 | Hitachi Ltd | 電子ファイル装置 |
JPH0973411A (ja) * | 1995-09-06 | 1997-03-18 | Hitachi Ltd | アクセス負荷の分散制御システム |
US6023507A (en) * | 1997-03-17 | 2000-02-08 | Sun Microsystems, Inc. | Automatic remote computer monitoring system |
JP2005032127A (ja) * | 2003-07-10 | 2005-02-03 | Toshiba Corp | 履歴情報前処理装置、履歴情報処理装置、並びにその方法およびプログラム |
JP2005326911A (ja) * | 2004-05-12 | 2005-11-24 | Hitachi Ltd | San管理方法 |
JP2011191807A (ja) * | 2010-03-11 | 2011-09-29 | Hitachi Ltd | 計算機モニタリングシステム及びプログラム |
JP2013089055A (ja) * | 2011-10-19 | 2013-05-13 | Hitachi Ltd | データ通信制御方法及びデータ通信制御システム |
Also Published As
Publication number | Publication date |
---|---|
US20150052242A1 (en) | 2015-02-19 |
EP2838023A3 (en) | 2015-03-11 |
EP2838023A2 (en) | 2015-02-18 |
JP6213038B2 (ja) | 2017-10-18 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US10831526B2 (en) | System and method of application discovery | |
KR101221205B1 (ko) | Http 세션 작업부하를 특성화하기 위한 데이터를수집하는 방법 및 장치 | |
JP5324958B2 (ja) | データ処理システムの複数の資源に対するパフォーマンス傾向の統合された表示を発生する方法、プログラム及び装置(資源のパフォーマンス傾向の統合された表示) | |
US11570235B2 (en) | Systems and methods for cloud migration readiness | |
JP6224824B2 (ja) | コンピュータリソースサービスの性能能力の決定及び監視 | |
US20080109547A1 (en) | Method, system and program product for determining a number of concurrent users accessing a system | |
WO2012072344A1 (en) | Endpoint-to-endpoint communications status monitoring | |
JP6213038B2 (ja) | 情報処理システム、情報処理システムの制御方法および制御装置の制御プログラム | |
Agelastos et al. | Toward rapid understanding of production HPC applications and systems | |
US20080120320A1 (en) | Apparatus, system, and method for reporting on enterprise data processing system configurations | |
Agelastos et al. | Continuous whole-system monitoring toward rapid understanding of production HPC applications and systems | |
EP3306471B1 (en) | Automatic server cluster discovery | |
US10706073B1 (en) | Partitioned batch processing for a usage analysis system | |
US10348596B1 (en) | Data integrity monitoring for a usage analysis system | |
US20230049207A1 (en) | Intuitive graphical network mapping based on collective intelligence | |
JP7424052B2 (ja) | 制御プログラム、制御方法および制御装置 | |
WO2024123307A1 (en) | Implementing a topology lock for a plurality of dynamically deployed components | |
WO2024123338A1 (en) | Application provisioning with active and available inventory | |
WO2024123306A1 (en) | Agentless generation of a topology of components in a distributed computing system | |
WO2024129097A1 (en) | Cluster consolidation using active and available inventory | |
WO2024129095A1 (en) | Application redeployment using active and available inventory | |
WO2024129065A1 (en) | Agentless topology analysis | |
WO2024123305A1 (en) | Agentless active and available inventory discovery | |
Garg | A Realistic and Reliable Approach for Real Time Monitoring of Infrastructure | |
WO2012157044A1 (ja) | 業務フロー管理方法、装置及びプログラム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20160510 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20170214 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20170314 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20170515 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20170822 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20170904 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 6213038 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
LAPS | Cancellation because of no payment of annual fees |