JP6957936B2 - 障害解析装置、障害解析方法および障害解析プログラム - Google Patents

障害解析装置、障害解析方法および障害解析プログラム Download PDF

Info

Publication number
JP6957936B2
JP6957936B2 JP2017069822A JP2017069822A JP6957936B2 JP 6957936 B2 JP6957936 B2 JP 6957936B2 JP 2017069822 A JP2017069822 A JP 2017069822A JP 2017069822 A JP2017069822 A JP 2017069822A JP 6957936 B2 JP6957936 B2 JP 6957936B2
Authority
JP
Japan
Prior art keywords
failure
log
script
unit
server
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2017069822A
Other languages
English (en)
Other versions
JP2018173703A (ja
Inventor
宮崎 淳
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NEC Corp
Original Assignee
NEC Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NEC Corp filed Critical NEC Corp
Priority to JP2017069822A priority Critical patent/JP6957936B2/ja
Publication of JP2018173703A publication Critical patent/JP2018173703A/ja
Application granted granted Critical
Publication of JP6957936B2 publication Critical patent/JP6957936B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Debugging And Monitoring (AREA)
  • Stored Programmes (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Description

本発明は、システムの障害発生時に効率的に問題を解決するための障害解析装置等に関する。
ハードウェアのトータルな管理を実行する際にBMC(Baseboard Management Controller)が使用される。BMCは、サーバに取り付けられたシステムボード上のさまざまなセンサと通信することによって、重要なイベントをモニタし、一定のパラメータがプリセットしきい値を超えると警告とログイベントを送信する。例えば、BMCにより遠隔地からのリモート操作、例えば、電源ON/OFF操作、ハードウェアモジュールの状態監視、ハードウェアのシステムイベントログ(SEL: System Event Log)の確認、LAN(Local Area Network)を経由したシリアルポートへの入出力(シリアルオーバーLAN)等が可能となる。
BMCを使用するシステムとしては特許文献1がある。特許文献1は、BMCを制御手段として使用し、オペレーティングシステムの起動中に障害が発生した場合に、被監視対象装置の状態を把握する技術を開示する。
国際公開第2015/194651号
しかしながら、特許文献1に開示されるような、BMCを使用するシステムには以下のような問題がある。
BMCは、採取するログのログ解析を人手で行い、エラーログメッセージから既知問題(解決手法が存在する)か否かを人手で切り分ける。切り分けには、既知問題と判断可能な過去問題の熟知者やログの解析ができる有識者が必要である。
BMCでは、保守員は、障害が発生した時のオペレーション、ユーザ先(フィールドとも称呼する)のリモート端末におけるクライアント環境(Webブラウザ、JAVA(登録商標、以下同様))の設定情報を確認または採取する必要がある。また採取したログから、オペレータが、ログ採取時点での構成情報および設定値を確認し、人手による設定および操作を行い、再現環境を構築する必要がある。
BMCは、障害発生前後での操作、当該操作のパラメータおよび設定変更値が不明である場合、フィールド障害発生時と同一な設定および構成でシステム構築を再現することができず、ひいては、障害解析に要する時間が長くなる。
そこで、本発明は、上述した課題に鑑み、BMCが管理するサーバにおいて、フィールドで障害が発生した場合に、保守員等の手作業に頼らす、効率よく問題を解析する障害解析装置等を提供することを目的とする。
上記の問題を鑑みて、本発明の第1の観点に係る障害解析装置は、第1のシステムで過去に発生した障害事象、当該障害事象に紐付けられたエラーログ、当該障害事象に紐付けられた障害事象の解決手法情報を備える障害ログデータ情報を格納する問題記憶手段と、
入力されるログデータが、問題記憶手段に格納される障害ログデータ情報と合致するかを判断し、合致しないと判断した場合に、入力されるログデータに含まれる情報を基に、第1のシステムで発生した新たな障害を、第1のシステムとBMCユーザインタフェース経由で接続が可能な第2のシステムにおいて、再現して検証するための再現スクリプトを作成するログ解析手段
を備える。
本発明の第2の観点に係る障害解析システムは、
サーバおよび当該サーバの処理に関するログを格納する記憶手段を備える、第1のシステムおよび第2のシステムを備え、
第1のシステムおよび第2のシステムが備えるサーバおよび記憶手段は同構成であり、
第2のシステムは、請求項1乃至請求項5のいずれかに記載のテストクライアント端末を含み、
第1のシステムとテストクライアント端末とは、BMCユーザインタフェース経由で通信可能である。
本発明の第3の観点に係る障害解析方法は、
問題記憶手段に格納される、第1のシステムで過去に発生した障害事象、当該障害事象に紐付けられたエラーログ、当該障害事象に紐付けられた障害事象の解決手法情報を備える障害ログデータ情報と、入力されるログデータとを比較し、
比較の結果、障害ログデータ情報と入力されるログデータとが合致しない場合、入力されるログデータに含まれる情報を基に、第1のシステムで発生した新たな障害を、第1のシステムとBMCユーザインタフェース経由で接続が可能な第2のシステムにおいて、再現して検証するための再現スクリプトを作成することを備える。
本発明の第4の観点に係る障害解析プログラムは、
問題記憶手段に格納される、第1のシステムで過去に発生した障害事象、当該障害事象に紐付けられたエラーログ、当該障害事象に紐付けられた障害事象の解決手法情報を備える障害ログデータ情報と、入力されるログデータとを比較し、
比較の結果、障害ログデータ情報と入力されるログデータとが合致しない場合、入力されるログデータに含まれる情報を基に、第1のシステムで発生した新たな障害を、第1のシステムとBMCユーザインタフェース経由で接続が可能な第2のシステムにおいて、再現して検証するための再現スクリプトを作成することをコンピュータに実現させる。
尚、障害解析プログラムは非一時的な記憶媒体に格納されていてもよい。
本発明によれば、BMCが管理するサーバにおいて、フィールドで障害が発生した場合に、保守員等の手作業に頼らす、効率よく問題を解析する障害解析装置等を提供することができる。
本発明の第1の実施形態にかかる障害解析システムの全体構成例を示すブロック図である。 サーバ側の記憶部の内部構成例を示す図である。 サーバの内部構成例を示す図である。 クライアント端末の内部構成例を示す構成図である。 テストクライアント端末の内部構成例を示す図である。 本発明の第1の実施形態にかかる障害解析システムの動作例を示すフローチャートである。 パラメータの使用例を示す図である。 本発明の第2の実施形態にかかる障害解析装置の全体構成例を示すブロック図である。 各実施形態を実行するための情報処理装置の内部構成例を示す構成図である。
<第1の実施形態>
本発明の第1の実施形態に係る障害解析システム1000について図1を参照して説明する。図1に示すように、障害解析システム1000は、ユーザ環境システム100と、再現テスト環境システム200とを備える。ユーザ環境システム100は、ユーザ先で実行されているシステム環境(フィールド環境とも称呼する)である。再現テスト環境システム200は、ユーザ環境システムにて障害が発生した際に、ユーザ環境システム100にて収集されたログを基に、障害発生時のユーザ環境システム100の状態を再現する。再現テスト環境システム200は、障害発生の原因を究明し、一時的措置として、ユーザ環境システム100にパッチを適用し、更に抜本的なシステムのアップデート、修理等が必要かを判定する。尚、再現テスト環境システム200は、ユーザ環境システム100を再現したシステムであるため、2つのシステム100,200において、サーバ1、1aおよび記憶部3、3aの構成は同じものである。
(ユーザ環境システム)
ユーザ環境システム100は、サーバ1、クライアント端末2および記憶部3を備え、サーバ1とクライアント端末2とは、LAN等の通信ネットワーク4で接続されている。サーバ1は、クライアント端末2からのリクエストに応じた様々なタスクを実行する。サーバ1は、障害発生時に使用するBMC10を備え、障害発生時に実行環境を再現するためのテストに使用するログの収集を内部および外部からでも可能とする。クライアント端末2は、サーバ1に対し、様々なリクエストを発行する。記憶部3は、サーバ1と接続される又はサーバ1の内部に搭載されるメモリであり、サーバ1が登録する障害解析用のログや、これに関する情報を格納する。
(記憶部)
記憶部3は、図2に示すように、構成変更ログ記憶部31、設定変更ログ記憶部32、操作ログ記憶部33、BMCログ記憶部34およびクライアント設定情報ログ記憶部35を備える。記憶部3は、フラッシュメモリで構成されることが好ましい。
構成変更ログ記憶部31は、BMC10が提供するユーザインタフェース(後述するユーザI/F(Inter Face)部10d)を介してサーバ1の構成が変更された際に収集されるログである構成変更ログを履歴データとして格納する。例えば、構成変更ログは、サーバ1の構成が変更された際に収集されるログであるの、日時、構成コンポーネントの状態を含むデータである。
設定変更ログ記憶部32は、BMC10が提供するユーザインタフェース(後述するユーザI/F部10d)を介して設定が変更された際に収集されるログである設定変更ログを履歴データとして格納する。例えば、設定変更ログは、BMC10が関与して設定が変更された際の、日時、設定項目および変更値を含むデータである。
操作ログ記憶部33は、BMC10が提供するユーザインタフェース(後述するユーザI/F部10d)を介してオペレータ等に操作された際に収集されるログである操作履歴ログを履歴データとして格納する。例えば、操作履歴ログは、BMC10が関与して操作された際の、日時、操作種類および操作パラメータを含むデータである。
BMCログ記憶部34は、BMC10の動作やBMC10の制御下で行われる各種ハードウェア制御に関するBMCログを格納する。BMCログは、正常ログ、エラーログおよび障害ログを含むデータである。正常ログとは、設定や動作が正常に実行されたことを表わすログ、ネットワークアクセスが正常に実行されたことを表わすログである。正常ログには、操作が正常に実行されたことを表わすログ、および、ハードウェアへのアクセスが正常に実行されたことを表わすログが含まれる。エラーログとは、設定や動作にエラーが発生したことを表わすログである。エラーログには、ネットワークアクセスにエラーが発生したことを表わすログ、操作にエラーが発生したことを表わすログ、ハードウェアへのアクセスにてエラーが発生したことを表わすログが含まれる。障害ログは、ハードウェアに障害が発生した時に採取されるログである。
クライアント設定情報ログ記憶部35は、クライアント設定情報として、例えば、HTTP(Hypertext Transfer Protocol)設定、SSL/TLS(Secure Sockets Layer/ Transport Layer Security)設定およびJAVA動作設定を格納する。
(サーバ)
サーバ1は、図3に示すように、BMC10、CPU(Central Processing Unit)モジュール部11、MEM(Memory)モジュール部12およびI/O(Input/Output)モジュール部13を備える。尚、サーバ1のBMC10は、ユーザI/F部10dを介して、クライアント端末2からのアクセスを可能にする。
BMC10は、BMC_FW(BMC Firmware)を備え、サーバ1の管理および制御を司る。BMC10は、ログ読取部10a、論理構成変更部10b、クライアント設定情報読取部10c、ユーザI/F部10d、LAN_I/F部10eおよびSPI(Serial Peripheral Interface)_I/F部10fを備える。
ユーザI/F部10dとは、サーバ1が提供するインタフェースの一つである。オペレータは、クライアント端末2から、ユーザI/F部10dを介して、サーバ1を操作する。ユーザI/F部10dは、サーバ1とは異なるWebサーバ5、CLP(Command Line Protocol)サーバ6とアクセスが可能である。
Webサーバ5について説明する。ユーザは、クライアント端末2のWebブラウザ22(図4参照)から、BMC10のネットワークアドレスにHTTP/HTTPS(Hyper Text Transfer Protocol/HTTP Secure)でアクセスする。これにより、ユーザは、Webクライアント(クライアント端末2)から、Webサーバ5を介して、BMC10にアクセスし、サーバ1を操作する。この際、クライアント端末2は、SSLを適用し、HTTPS(HTTP Secure)によるセキュアなアクセスを実現することも可能である。
CLPサーバ6について説明する。CLPサーバ6は、CLI(Command Line Interface)機能を備え、サーバー・ハードウェア向けシステム管理アーキテクチャーであるSMASH(Systems Management Architecture for Server Hardware)に準拠したプロトコル(CLP)で異種混在サーバ群を管理する。当該管理では、管理ソフトウェアを用いて、電源制御、ステータス(状態)取得、ログ採取等を行う。CLPサーバ6は、これらの管理ソフトウェアを使用することで、サーバー・ハードウェアのローカル管理およびリモート管理を容易とする。クライアント端末2からBMC10へのアクセス時には、SSH(Secure SHell)クライアント(クライアント端末2)からBMC10のネットワークアドレスにSSHアクセスを実行する。これにより、クライアント端末2からの、CLPサーバ6(例えばSMASH-CLPサーバ)を介した、コマンドラインによるサーバ1への操作が可能となる。
BMC10の制御に係る操作のうち、Webサーバ5に係る操作は、Webサーバ5に格納されている操作ファイルに対応するものとする。Webブラウザ22上で任意のWebコンテンツにおける任意の操作が行われると、当該Webサーバ5上の操作ファイルが実行される。この時、操作ログは、「GET/PUT <プロトコル>://< BMCネットワークアドレス>/<操作ファイル名>?<クエリパラメータ>」の形式のデータとなる。ログ読取部10aは、操作ログを上記の形式にて操作ログ記憶部33に保存する。
BMC10の制御に係る操作のうち、CLPサーバ6に係る操作は、上記のCLPサーバ6に格納されている操作ファイルに対応するものとする。CLPサーバ6において、SSHクライアントソフトウェアを使用した任意の操作が行われると、当該CLPサーバ6上の操作ファイルが実行される。この時、操作ログは、「ssh <ユーザ名>@<BMCネットワークアドレス> <コマンド名> <ターゲット> <コマンド・パラメータ>」の形式のデータとなる。ログ読取部10aは、操作ログを上記の形式にて操作ログ記憶部33に保存する。
ログ読取部10aは、クライアント端末2側からユーザI/F部10dを介して、BMC10の制御に係る処理が行われた時に、当該処理に関するログを収集し、記憶部3に記録する。
例えば、オペレータが、BMC10のユーザI/F部10dを介して、BMC10に対する操作を行ったとする。この場合、ログ読取部10aは、操作ログ(操作種別、操作日時、操作名および操作パラメータ等)を取得し、SPI_I/F部10fを介して、記憶部3内の操作ログ記憶部33に格納する。
オペレータが、BMC10のユーザI/F部10dを介して、BMC10で管理するサーバ制御および動作に関する設定、BMC動作設定に関する設定変更を行ったとする。この場合、ログ読取部10aは、設定変更ログ(設定種別、設定時、設定項目名および設定値等)を取得し、SPI_I/F部10fを介して、記憶部3内の設定変更ログ記憶部32に記録する。
オペレータが、BMC10のユーザI/F部10dを介して構成変更操作を実行したとする。この場合、ログ読取部10aは、構成変更ログ(操作種別、操作日時、コンポーネント名およびコンポーネント状態値等)を、SPI_I/F部10fを介して記憶部3内の構成変更ログ記憶部31に記録する。
BMC10において、ハードウェア管理および制御を行うBMC_FWが動作する場合、ログ読取部10aは、BMC10の動作やBMC10の制御下で行われる各種ハードウェア制御に関する正常ログ、エラーログおよびハードウェア障害ログを、記憶部3内のBMCログ記憶部34に格納する。
尚、ログ読取部10aは、各ログ履歴およびBMCログの採取時には、時系列にロギングし、ログ記録が可能な最大件数を超えると、記憶部3に対しラウンドロビンしてログの先頭レコードから上書きするよう設計しても良い。
論理構成変更部10bは、ハードウェアコンポーネントおよびハードウェアコンポーネント状態を指定することで、コンポーネント状態を論理的に、実装/未実装の状態、正常/異常の状態、組み込み/切り離しの状態にする機能を有している。未実装、障害切り離し状態にあるハードウェアコンポーネントに関しては、ハードウェアからの割込またはハードウェアアクセスを抑止し、BIOS(Basic Input Output System)を介してサーバ上のハードウェアコンポーネントとして、実装状態、正常状態若しくは組み込みの状態をOS(Operating System)に提示するようにする。尚、後述する再現テストにおいては、論理構成変更部10bは、サーバ1aの物理的なハードウェア構成と、ユーザ先の環境(サーバ1)とを論理的に完全に合致させる。
クライアント設定情報読取部10cは、クライアント設定情報のログを取得する。例えば、クライアント端末2内のWebブラウザ22からユーザI/F部10dにHTTP/HTTPSプロトコルでBMC10のアドレスを用いてアクセスされたとする。この場合、クライアント設定情報読取部10cは、クライアント端末2内において、当該Webブラウザ22の設定情報ファイルおよびJAVA設定ファイルを読み取る。クライアント設定情報読取部10cは、読み取ったファイル内のデータに含まれるクライアント設定情報(例えば、HTTPバージョン、SSL/TLSセキュリティ設定等のブラウジング設定およびJAVA動作設定)を、LAN_I/F部10eを介して、BMC10に送信する。更に、クライアント設定情報読取部10cは、読み取ったクライアント設定情報ログを、SPI_I/F部10fを介して、記憶部3内のクライアント設定情報ログ記憶部35に格納する。
LAN_I/F部10eは、サーバ1とリモート側のクライアント端末2とを、LANを介して通信可能に接続するためのインタフェースである。
SPI_I/F部10fは、サーバ1と記憶部3とを通信可能に接続するためのインタフェースである。
CPUモジュール部11は、クライアント端末2のクライアント設定部21からクライアント設定情報(例えば、Webブラウザ22の設定情報ファイルおよびJAVA設定ファイル)をLAN_I/F部10eを介して取得する。CPUモジュール部11は、取得したデータをSPI_I/F部10fを介して記憶部3内のクライアント設定情報ログ記憶部35に格納する。この際、CPUモジュール部11は、クライアント設定情報ログ記憶部35にHTTP情報、SSL/TLS設定情報およびJAVA動作設定を格納してもよい。
MEMモジュール部12は、メモリモジュールであり、例えば、DIMM(Dual Inline Memory Module)である。
I/Oモジュール部13は、I/Oデバイスであり、例えば、ディスク、NIC(Network Interface Card)である。
(クライアント端末)
クライアント端末2は、所定のプログラムがインストールされた、ユーザ(オペレータ)側にあるリモート端末である。所定のプログラムには、OS(Operating System)、当該OSで動作するWebブラウザ用のアプリケーション(例えば、InternetExplore(登録商標)、Firefox(登録商標))、JAVAアップレットまたはJAVAアプリケーションが動作するためのJAVA実行環境(例えば、JRE:Java Runtime Environment)が含まれる。尚、JAVAアプレットまたはJAVAアプリケーションは、BMC10が提供するWebサービスであって、特定のWebコンテンツにおける特定操作が実行された際に、クライアント端末2上のJAVA実行環境において動作する。
オペレータは、クライアント端末2を介し、クライアント端末2にインストールされているWebブラウザや、SSHクライアント等のリモートログオンクライアントのソフトウェアを操作することで、サーバ1側のBMC10にアクセスする。
クライアント端末2は、図4に示すように、クライアント設定部21、Webブラウザ22、Webブラウザ設定ファイル22a、JAVA実行環境設定部23、JAVA設定ファイル23a、SSHクライアント設定部24およびLAN_I/F部25を備える。
クライアント設定部21は、クライアント端末2のクライアント設定情報(例えば、Webブラウザ情報、JAVA実行環境の設定情報)に従い、クライアント端末の設定を行う。
Webブラウザ22は、クライアント端末2で動作するWebブラウザである。
Webブラウザ設定ファイル22aは、Webブラウザ22の設定のための情報および設定時の情報を格納するファイルである。
JAVA実行環境設定部23は、クライアント端末2で動作するJAVA実行環境を設定する。
JAVA設定ファイル23aは、JAVA実行環境設定部23がJAVA実行環境を設定するための情報および設定時の情報を格納するファイルである。
SSHクライアント設定部24は、SSHプロトコルを使用可能なSSHクライアントソフトウェアを、クライアント端末2に設定する。
LAN_I/F部25は、サーバ1とクライアント端末2との間を、通信ネットワーク4を介して接続(LAN接続)するためのインタフェースである。
オペレータは、クライアント端末2のWebブラウザ22を使用してBMC10のユーザI/F部10dにアクセスする。このアクセスにより、クライアント端末2は、Webサーバ5が提供するサーバ動作、構成変更、サーバ1およびBMC10に関する各種設定変更向けに提供されるWebサービスを、当該Webブラウザ22上のWebコンテンツで操作可能となる。
更にこのBMC10のユーザI/F部10dを介したアクセスにより、クライアント端末2は、SMASH-CLP規格に準拠したCLPサーバ6の操作が可能となる。
クライアント端末2は、当該操作を、SSHプロトコルを使用可能なSSHクライアントソフトウェアを介して実行する。オペレータは、クライアント端末2内のSSHクライアント設定部24にSSHクライアント設定を行わせ、BMC10のユーザI/F部10dにSSHプロトコルを介しアクセスする。これにより、クライアント端末2は、CLPサーバ6が提供するCLPサービス(サーバ動作、構成変更、サーバおよびBMCに関する各種設定変更向けに提供されているサービス)をコマンドライン操作で実行する。
(テストクライアント端末)
ユーザ環境システム100(図1参照)において障害が発生した場合に、当該事故等の検証を行うためにユーザ環境システム100と同じシステム構成に再現された再現テスト環境システム200が構築される。再現テスト環境システム200は、サーバ1a、テストクライアント端末2a(障害解析装置)および記憶部3aを備える。サーバ1aおよび記憶部3aは、ユーザ環境システム100に含まれるサーバ1および記憶部3と同様の構成を備える。
テストクライアント端末2aは、図5に示すように、問題記憶部41、再現スクリプト記憶部42、JAVA実行環境設定部43、クライアント設定情報記憶部44および再現環境生成部45を備えている。
問題記憶部41は、障害が発生したユーザ環境システム100の記憶部3に格納される各ログを基に再現環境生成部45が生成する、複数の障害ログデータ41aを、リレーショナルデータベースとして格納する。各障害ログデータ41aには、障害事象41b、関連エラーログ41cおよび既知問題情報41dが記録されている。障害事象41bは、具体的な障害を示す情報である。関連エラーログ41cは、障害事象41bに関係するBMC10のエラーログである。エラーログには障害発生日時が含まれていても良い。既知問題情報41dとは、当該関連エラーログ41cに関する障害が既知問題か否かを示す情報であり、更に、当該障害の解決手法を含んでいても良い。
再現スクリプト記憶部42は、障害原因の検証のためにユーザ環境システム100(第1のシステム)と同期するように再現テスト環境システム200(第2のシステム)200を実行するためものであり、構成変更スクリプト記憶部42a、設定変更スクリプト記憶部42bおよび操作スクリプト記憶部42cを備える。構成変更スクリプト記憶部42aは、構成変更の手順等が記載されたプログラム(構成変更スクリプト)を格納する。設定変更スクリプト記憶部42bは、設計変更の手順等が記載されたプログラム(設定変更スクリプト)を格納する。操作スクリプト記憶部42cは、操作の手順等が記載されたプログラム(操作スクリプト)を格納する。操作スクリプトには、操作毎の操作名が、所定の形式に従い、実行履歴として時系列に記録される。操作スクリプトにおいては、新たな障害の発生前後のユーザ環境システム(第1のシステム)100における操作について、操作に関連する複数のパラメータを時系列に沿って変化させる。この他、操作スクリプトは、当該実行履歴の項目として「操作間隔」を備える。操作間隔とは、ある操作とその直後の操作までの時間間隔(差)を指す。
JAVA実行環境設定部43は、テストクライアント端末2aにおいて再現すべき、クライアント端末2と同じJAVA実行環境を設定する。
クライアント設定情報記憶部44は、テストクライアント端末2aにおいて再現すべき、クライアント端末2のクライアント設定情報を記憶する。
再現環境生成部45は、ログ解析部45a、再現環境構築部45b、インタプリタ45c、再現テスト実行部45d、I/F部45e、LAN_I/F部45fおよびテストパラメータ記憶部45gから構成される。
I/F部45eは、テストクライアント端末2aとユーザ環境システム100との間で、ログデータの入出力、解析指示の入出力、解析結果の出力等を可能とする入出力装置である。尚、ログデータの入出力は、保守員やオペレータ等の人手で行うことも可能である。
ログ解析部45aは、入力されるログデータが、問題記憶部41に格納される障害ログデータ41aと合致するかを判断し、合致しないと判断した場合に、次の処理を実行する。即ち、ログ解析部45aは、入力されるログデータに含まれる情報を基に、再現スクリプトを作成する。作成される再現スクリプトは、ユーザ環境システム(第1のシステム)100で発生した新たな障害を、ユーザ環境システムとBMCユーザインタフェース(図3のユーザI/F部10d)経由で接続が可能な再現テスト環境システム(第2のシステム)200において、再現して検証するためのスクリプトである。
ログ解析部45aは、ユーザ環境システム100の記憶部3に格納される各ログデータ(構成変更ログ、設定変更ログ、操作ログ、BMCログ)を、I/F部45eを介して取得する。ログ解析部45aは、再現テスト環境システム200にて、障害発生側(例えば工場)のシステム環境を再現したシステムを構築する際に、取得したログデータを基に解析を行う。ログ解析部45aは、解析の結果、障害が未知の問題であった場合、発生した障害に関する障害ログデータ41aを生成する。障害ログデータ41aには、障害事象41b、関連エラーログ41cおよび既知問題情報41dが含まれる。ログ解析部45aは、生成した障害ログデータ41aを、問題記憶部41に格納する。
尚、解析の結果、障害が既知の問題であった場合、即ち、過去に発生して解決済みの障害ログデータ41aが存在した場合、ログ解析部45aは、当該障害の障害事象41bに紐付けられた既知問題情報41dに含まれる解決方法を出力してもよい。換言すると、ログ解析部45aは、既知の問題の場合は、再現環境構築、再現テストを省略し、障害対応の短縮化を図る。
更に、ログ解析部45aは、障害が未知の問題であった場合、構成変更スクリプト、設計変更スクリプトおよび操作スクリプトを生成し、生成された構成変更スクリプト、設計変更スクリプトおよび操作スクリプトを再現スクリプト記憶部42に格納する。
ログ解析部45aは、ユーザ環境システム100内の記憶部3の構成変更ログ記憶部31に格納される障害日時までの設定変更ログをI/F部45e等を介して取得する。ログ解析部45aは、取得した構成変更ログを基に、構成変更スクリプトを生成する。ログ解析部45aは、当該構成変更スクリプトを問題記憶部41の構成変更スクリプト記憶部42aに格納する。構成変更スクリプトは、操作種別にCLPを、操作を“ssh <ユーザ名>@<BMCネットワークアドレス> <設定コマンド名> <ターゲット名><コンポーネント名>=<コンポーネント状態値>”の形式で記述することが好ましい。
ログ解析部45aは、ユーザ環境システム100内の記憶部3の設定変更ログ記憶部32に格納される障害日時までの設定変更ログを取得する。ログ解析部45aは、取得した設定変更ログ基に、サーバ1aの設定を行うための設定変更スクリプトを生成する。ログ解析部45aは、当該設定変更スクリプトを問題記憶部41の設定変更スクリプト記憶部42bに格納する。
ログ解析部45aは、ユーザ環境システム100内の記憶部3の操作ログ記憶部33に格納される障害日時までの操作ログをI/F部45e等を介して取得する。ログ解析部45aは、取得した操作ログを基に、操作スクリプトを生成する。ログ解析部45aは、当該操作スクリプトを、問題記憶部41の操作スクリプト記憶部42cに格納する。
ログ解析部45aは、障害日時近辺で行われた操作ログをnパターン分、操作ログ記憶部33から抽出し、nパターン分の操作スクリプトを準備する。nは障害発生前後の操作ログの数を示す。
ログ解析部45aは、解析の結果、障害が未知の問題であった場合、即ち、解決済みの障害ログデータ41aが存在しない場合、再現環境生成部45が再現テストによって取得する障害の事象、障害の解決方法等を新たな障害ログデータ41aとして問題記憶部41に格納してもよい。
操作スクリプト記憶部42cには、障害発生前後に実行された操作毎の操作名が所定形式に従い、時系列で格納される。また、操作スクリプト記憶部42cには、ある操作から次の操作までの時間差の情報(操作間隔パラメータ)を含めても良い。
インタプリタ45cは、再現スクリプト記憶部42内に格納される各スクリプトの記述を読み込み、CLPサーバ6およびWebサーバ5が解釈可能な命令(機械言語等)に変換する。
再現環境構築部45bは、構成変更スクリプト記憶部42aに格納される構成変更スクリプトをインタプリタ45cに実行させる。この実行により、インタプリタ45cは、ユーザI/F部10dを介して、論理構成変更部10bにアクセスする。このアクセスにより、論理構成変更部10bは、ユーザ環境システム100のサーバ1が備えるCPU、メモリ、I/Oの実装状態、障害状態、組み込み状態と同期するように、再現テスト環境システム200のサーバ1aにおける各部を構成するコンポーネントの論理管理状態を変更させる。
再現環境構築部45bは、設定変更スクリプト記憶部42bに格納される設定変更スクリプトをインタプリタ45cに実行させる。この実行により、インタプリタ45cは、サーバ1aの管理、サーバ1aの動作、サーバ1aが備えるBMC10の制御およびBMC10の動作に関する設定変更を行う。
再現環境構築部45bは、操作スクリプト記憶部42cに格納される操作スクリプトをインタプリタ45cに実行させる。
再現環境構築部45bは、記憶部3のクライアント設定情報ログ記憶部35に格納されるクライアント設定情報ログを、ログ解析部45aを介して取得し、当該クライアント設定情報ログから、障害前に使用されていたHTTPプロトコルバージョン情報、TLS/SSLバージョン情報を読み取る。再現環境構築部45bは、読み取った情報をテストクライアント端末2a内のクライアント設定情報記憶部44に同期(反映)させる。同期された情報は、インタプリタ45c用のWebブラウザを設定する情報として使用される。
再現環境構築部45bは、記憶部3のクライアント設定情報ログ記憶部35に格納されるクライアント設定情報ログを、ログ解析部45aを介して取得し、当該クライアント設定情報ログから、JAVA設定情報を読み取る。再現環境構築部45bは、読み取られたJAVA設定情報を、テストクライアント端末2aのJAVA実行環境設定部43に同期(設定)させる。即ち、再現環境構築部45bは、再現テスト環境システム200のサーバ1aで実行可能なユーザI/Fスクリプトを自動生成する。
インタプリタ45cは、再現スクリプト記憶部42に格納される各スクリプトの内容に従い、サーバ1aのBMC10が提供するユーザI/F部10dに対してアクセスする。インタプリタ45cは、HTTP/HTTPSプロトコルによるWebサーバアクセス機能とSSHプロトコルによるSSH接続機能を有している。インタプリタ45cは、受け取った各スクリプトに含まれるコマンド及びパラメータを読み取り、読み取られたコマンド及びパラメータに従って、サーバ1aのユーザI/F部10dにHTTP/HTTPS、またはSSHプロトコルでアクセスする。
具体的に、インタプリタ45cは、サーバ1aのユーザI/F部10dにアクセスする際に、受け取った各スクリプトにURI(Uniform Resource Identifier)が含まれるかを判断する。
スクリプトにURIが含まれる場合、インタプリタ45cは、当該スクリプトからプロトコル、アドレスおよびクエリパラメータを読み取り、読み取ったアドレス等を基に、HTTP/HTTPS接続でGETリクエストまたはPOSTリクエストをサーバ1aのユーザI/F部10dに対して発行し、当該URIに対するWebアクセスを行う。
スクリプトにURIが含まれない場合、インタプリタ45cは、CLPターゲットパス、CLPコマンドおよび当該コマンドのパラメータを読み取り、サーバ1aにおけるBMC10のユーザI/F部10dに、SSHプロトコルでSSHアクセスする。
テストパラメータ記憶部45gは、再現テスト実行時に使用するテストパラメータを格納する。テストパラメータにより、操作の繰り返し回数、実行する操作のパターン、操作するタイミング等を指定することが可能となる。例えば、障害が発生したユーザ環境システム100における、障害発生前後の操作に関するテストパラメータや、操作間隔を制御するためのパラメータである。テストパラメータ記憶部45gは再現テスト実行部45dと接続されている。
再現テスト実行部45dは、再現テストの実行を制御する。再現テスト実行部45dが、テスト開始の指示を出すると、インタプリタ45cは、操作スクリプト記憶部42c内の操作スクリプトを使用し、再現テストを実行させる。再現テストでは、テストパラメータにより変動可能な、ユーザ環境システム100のサーバ1において障害発生前後に実行された複数の操作を、サーバ1aに実行させる。
再現テスト実行部45dは、割り込み処理についても再現テストを実行する。割り込み処理とは、オペレータが複数種類の操作を短い間隔で連続して実行させた場合に、サーバ1aのBMC10側で、ある操作に対する制御中に別の操作の制御が割り込んでしまうことである。この場合、再現テスト実行部45dは、テストパラメータ記憶部45gに格納される操作間隔を制御するパラメータを用いて、ある操作とその直後の操作との間隔(操作間隔)を複数段階に変更し、これらの段階に基づき複数の再現テストのパターンを自動生成し、インタプリタ45cを介してサーバ1aに実行させる。
(障害解析システムの動作)
次に図6のフローチャートを参照して、障害解析システム1000の動作を説明する。
まず、ステップS101において、ユーザ環境システム100において障害が発生すると、保守員等の操作により、障害が発生したサーバ1のユーザI/F部10dを介して、当該サーバ1の記憶部3内のログが取得される。このログ取得の操作は、サーバ1のBMC10におけるユーザI/F部10dが提供するサービス(Webサーバ5が提供するサービス)を使用して実行される。取得された各ログデータは、再現テスト環境システム200のテストクライアント端末2aに引き渡される。尚、ログを取得するためのWebブラウザとして、テストクライアント端末2a以外の別端末のブラウザを使用しても良い。取得されたログデータは、再現テスト環境システム200とオペレータ側の別端末との間でファイル共有してもよい。又は、保守員が当該別端末からメール等にて再現テスト環境システム200側に送付してもよい。尚、保守員とオペレータは同一人物であってもよい。
ステップS102において、再現テスト環境システム200は、オペレータ等の操作により、再現環境生成部45に対して取得されたログデータを解析するよう要求する。当該ログデータには、ユーザ環境システム100で発生した障害事象が含まれている。
障害事象とは、障害の具体的な内容(事象)である。例えば、BMC10へのネットワークアクセスが不可能であること、ハードウェアのエラーが発生したこと等である。この他、ユーザ環境システム100における具体的な障害の事象(フィールド事象)を含めても良い。例えば、障害発生コンポーネントのLEDが異常な状態を示していること、BMC10からWebサーバ5へのアクセスが不可能であること、JAVAモジュールが起動不可能であること等である。
ステップS103において、再現環境生成部45のログ解析部45aは、取得したログデータを基に、発生した障害が既知問題であるか否かを判断する。ログ解析部45aは、取得されたログデータが、問題記憶部41の障害事象41bに関連づけられた既知問題情報41dのいずれかに一致するか検索する。検索の結果、取得されたログデータが、既知問題情報41dのいずれかと一致する場合、I/F部45eに既知問題である旨(結果)を出力して、以下の処理(ステップS104〜S108)を省略する。即ち、既知問題の場合は、再現環境構築および再現テストを省略し、障害対応の短縮化を図る。
検索の結果、取得されたログデータが、既知問題情報41dのいずれとも一致しない場合、ログ解析部45aは、入力されたログデータ内のエラーログに含まれる障害日時、またはエラーログの採取日から障害発生日時を特定する。
ステップS104において、ログ解析部45aは、取得されたログデータから、構成変更ログを抽出し、当該構成変更ログから構成変更スクリプトを生成する。ログ解析部45aは、生成した構成変更スクリプトを、構成変更スクリプト記憶部42aに格納する。
ステップS105において、ログ解析部45aは、取得されたログデータから、設定変更ログを抽出し、当該設定変更ログから設定変更スクリプトを生成する。ログ解析部45aは、生成した設定変更スクリプトを設定変更スクリプト記憶部42bに格納する。
ステップS106において、ログ解析部45aは、取得されたログデータから、操作ログを抽出し、当該操作ログから操作スクリプトを生成する。ログ解析部45aは、生成した操作スクリプトを操作スクリプト記憶部42cに格納する。具体的に、ログ解析部45aは、障害日時近辺で行われた操作ログをnパターン分、抽出する。尚、nパターンとは、障害発生時から所定時間以前までのn個の操作ログを指す。
再現スクリプト記憶部42の操作スクリプト記憶部42cには、実行された操作毎の操作名が所定形式に従い、時系列で格納される。また、操作スクリプト記憶部42cは、ある操作から次の操作までの時間差の情報(操作間隔パラメータ)が含まれている。
ステップS107において、再現環境生成部45の再現テスト実行部45dは、サーバ1aで再現テストを実行するためのユーザI/Fスクリプト(プログラム)を自動生成する。ユーザI/Fスクリプトでは、パラメータの設定により、実行操作数分前から障害発生時までの操作を、パラメータを変更しつつ実行することが可能である。
ステップS108において、再現テスト実行部45dは、操作スクリプトを、インタプリタ45cを介して、パラメータで指定された回数分繰り返し実行する。即ち、再現テスト実行部45dは、障害が発生したフィールドと同じ条件下のテスト環境で、パラメータを変更しながら、再現テストを実行する。インタプリタ45cは、ユーザI/F部10dを介してWebサーバ5またはCLPサーバ6にアクセスし、操作スクリプトをHTTP/HTTPSリクエストまたは実行コマンドに変換する。インタプリタ45cは、変換したリクエストや実行コマンドを、テストパラメータ記憶部45gに格納されるパラメータで指定された回数分繰り返し発行する。
再現テストにおけるパラメータの使用例を図7のフローチャートを参照して説明する。再現テスト実行部45dが実行する操作数、(操作(A)、操作(B)、および、障害発生時操作)をY(パラメータ)とする。ある操作A終了から次の操作B開始までの待ち時間を操作間隔Z(パラメータ)とする。操作数Y個を繰り返し実行する回数をX(パラメータ)とする。これらのパラメータX,Y,Zはいずれも変更可能である。再現テスト実行部45dは、インタプリタ45cを介して、これらのパラメータに応じ、操作間のタイミングを自動的に変更することができる。
尚、再現環境生成部45による再現テスト結果は、新たな障害ログデータ41aとして、問題記憶部41に格納することが好ましい。
以上により、障害解析システム1000の動作を終了する。
(第1の実施形態の効果)
上述のように、本発明の第1の実施形態によれば、BMC10が管理するサーバにおいて、フィールドで障害が発生した場合に、保守員等の手作業に頼らす、効率よく問題を解析することができ、ひいては問題の解決に要する時間が長期化することを防ぐことができる。この理由は、ログ解析部45aが、過去事例と比較して、既知問題か否かの判定を自動で行い、既知問題の場合は、再現環境構築、再現テストを省略し、障害対応の短縮化を図るからである。また、ログ解析部45aが、障害事象と関連エラーログとを解析することで障害発生日を特定し、障害発生時の設定状況、構成状態を割り出すため、フィールド障害発生時の状態を忠実に再現できるからである。更に、再現環境構築部45bおよび再現テスト実行部45dが、サーバ1aで実行可能なユーザI/Fスクリプトを自動生成し、フィールド障害発生時と同じ条件下のテスト環境で再現テストを自動実行するからである。更に、再現テスト実行部45dは、インタプリタ45cを介して、再現テストパラメータに応じた、操作間の自動タイミング変更を可能とする。
<第2の実施形態>
図8に示すように、本発明の第2の実施形態に係る障害解析装置2bは、問題記憶部410およびログ解析部450を備える。障害解析装置2bは、第1のシステム(第1の実施形態におけるユーザ環境システム100)で発生した原因不明の障害を、第1のシステムと同期をとった第2のシステム(第1の実施形態における再現テスト環境システム200)で再現し、検証するための装置であり、第2のシステムに含まれる。第2の実施形態は、第1の実施形態を実施するための最小構成である。障害解析装置2bの例示は、第1の実施形態における再現テストクライアント端末2aである。
問題記憶部410は、第1のシステムで過去に発生した障害事象、当該障害事象に紐付けられたエラーログ、当該障害事象に紐付けられた障害事象の解決手法情報を備える障害ログデータ情報を格納する。
ログ解析部450は、入力されるログデータが、問題記憶部410に格納される障害ログデータ情報と合致するかを判断し、合致しないと判断した場合に、入力されるログデータに含まれる情報を基に、第1のシステムで発生した新たな障害を、第1のシステムとBMCユーザインタフェース経由で接続が可能な第2のシステムにおいて、再現して検証するための再現スクリプトを作成する。
本発明の第2の実施形態によれば、BMC10が管理する第1のサーバにおいて、フィールドで障害が発生した場合に、保守員等の手作業に頼らす、効率よく問題を解析することができ、ひいては問題の解決に要する時間が長期化することを防ぐことができる。この理由は、ログ解析部450が、過去事例と比較して、既知問題か否かの判定を自動で行い、既知問題の場合は、再現環境構築、再現テストを省略し、障害対応の短縮化を図るからである。
(情報処理装置の構成)
上述した本発明の各実施形態において、図1等に示す障害解析システムの各装置の各構成要素は、機能単位のブロックを示している障害解析システムの各構成要素の一部又は全部は、例えば図9に示すような情報処理装置500とプログラムとの任意の組み合わせを用いて実現される。情報処理装置1は、一例として、以下のような構成を含む。
・CPU(Central Processing Unit)501
・ROM(Read Only Memory)502
・RAM(Random Access Memory)503
・RAM503にロードされるプログラム504
・プログラム504を格納する記憶装置505
・記録媒体506の読み書きを行うドライブ装置507
・通信ネットワーク509と接続する通信インタフェース508
・データの入出力を行う入出力インタフェース510
・各構成要素を接続するバス511
本願の各実施形態における障害解析システムの各構成要素は、これらの機能を実現するプログラム504をCPU501が取得して実行することで実現される。障害解析システムの各構成要素の機能を実現するプログラム504は、例えば、予め記憶装置505やRAM503に格納されており、必要に応じてCPU501が読み出す。なお、プログラム504は、通信ネットワーク509を介してCPU501に供給されてもよいし、予め記録媒体506に格納されており、ドライブ装置507が当該プログラムを読み出してCPU501に供給してもよい。
各装置の実現方法には、様々な変形例がある。例えば、障害解析システムは、構成要素毎にそれぞれ別個の情報処理装置とプログラムとの任意の組み合わせにより実現されてもよい。また、障害解析システムが備える複数の構成要素が、一つの情報処理装置1とプログラムとの任意の組み合わせにより実現されてもよい。
また、障害解析システムの各構成要素の一部又は全部は、その他の汎用または専用の回路、プロセッサ等やこれらの組み合わせによって実現される。これらは、単一のチップによって構成されてもよいし、バスを介して接続される複数のチップによって構成されてもよい。
障害解析システムの各構成要素の一部又は全部は、上述した回路等とプログラムとの組み合わせによって実現されてもよい。
障害解析システムの各構成要素の一部又は全部が複数の情報処理装置や回路等により実現される場合には、複数の情報処理装置や回路等は、集中配置されてもよいし、分散配置されてもよい。例えば、情報処理装置や回路等は、クライアントアンドサーバシステム、クラウドコンピューティングシステム等、各々が通信ネットワークを介して接続される形態として実現されてもよい。
以上、本実施形態および実施例を参照して本願発明を説明したが、本願発明は上記実施形態および実施例に限定されるものではない。本願発明の構成や詳細には、本願発明のスコープ内で当業者が理解し得る様々な変更をすることができる。
1 :サーバ
1a :サーバ
2 :クライアント端末
2a :テストクライアント端末
2b :障害解析装置
3 :記憶部
3a :記憶部
3b :記憶部
4 :通信ネットワーク
5 :Webサーバ
6 :CLPサーバ
10 :BMC
10a :ログ読取部
10b :論理構成変更部
10c :クライアント設定情報読取部
10d :ユーザI/F部
10e :LAN_I/F部
10f :SPI_I/F部
11 :CPUモジュール部
12 :MEMモジュール部
13 :I/Oモジュール部
21 :クライアント設定部
22 :Webブラウザ
22a :Webブラウザ設定ファイル
23 :JAVA実行環境設定部
23a :JAVA設定ファイル
24 :SSHクライアント設定部
25 :LAN_I/F部
31 :構成変更ログ記憶部
32 :設定変更ログ記憶部
33 :操作ログ記憶部
34 :BMCログ記憶部
35 :クライアント設定情報ログ記憶部
41 :問題記憶部
41a :障害ログデータ
41b :障害事象
41c :関連エラーログ
41d :既知問題情報
42 :再現スクリプト記憶部
42a :構成変更スクリプト記憶部
42b :設定変更スクリプト記憶部
42c :操作スクリプト記憶部
43 :JAVA実行環境設定部
44 :クライアント設定情報記憶部
45 :再現環境生成部
45a :ログ解析部
45b :再現環境構築部
45c :インタプリタ
45d :再現テスト実行部
45e :I/F部
45f :LAN_I/F部
45g :テストパラメータ記憶部
100 :ユーザ環境システム
200 :再現テスト環境システム
410 :問題記憶部
450 :ログ解析部
500 :情報処理装置
501 :CPU
503 :RAM
504 :プログラム
505 :記憶装置
506 :記録媒体
507 :ドライブ装置
508 :通信インタフェース
509 :通信ネットワーク
510 :入出力インタフェース
511 :バス
1000 :障害解析システム

Claims (8)

  1. 第1のシステムで過去に発生した障害事象、当該障害事象に紐付けられたエラーログ、当該障害事象に紐付けられた前記障害事象の解決手法情報を備える障害ログデータ情報を格納する問題記憶手段と、
    入力されるログデータが、前記問題記憶手段に格納される前記障害ログデータ情報と合致するかを判断し、合致しないと判断した場合に、前記入力されるログデータに含まれる情報を基に、前記第1のシステムで発生した新たな障害を、前記第1のシステムとBMC(Baseboard Management Controller)ユーザインタフェース経由で接続が可能な第2のシステムにおいて、再現して検証するための再現スクリプトを作成するログ解析手段
    を備え
    前記再現スクリプトは、前記検証のために前記第1のシステムと同期するように前記第2のシステムを実行するためのものであり、前記第2のシステムの構成を変更するための構成変更スクリプトと、前記第2のシステムの設計を変更するための設定変更スクリプトと、前記第2のシステムにおいて動作させるべき操作を実行するための操作スクリプトを少なくとも備え、
    前記ログ解析手段は、前記新たな障害の発生前後の前記第1のシステムにおける操作について、当該操作に関連する複数のパラメータを時系列に沿って変化させた前記操作スクリプトを複数生成し、
    前記複数のパラメータは、前記新たな障害の発生前後の前記第1のシステムにおける前記操作についての実行操作間隔および実行操作数を少なくとも含む、
    障害解析装置。
  2. 前記構成変更スクリプトおよび前記設定変更スクリプトをインタプリタに実行させ、前記BMCユーザインタフェース経由で、前記第2のシステムにおいて前記第1のシステムの環境を構築する再現環境構築手段
    を備える請求項1に記載の障害解析装置。
  3. 前記操作スクリプトをインタプリタに実行させ、前記BMCユーザインタフェース経由で、前記環境が構築された前記第2のシステムにおいて、前記第1のシステムで実行された操作を再現する再現テスト実行部
    を備える請求項2に記載の障害解析装置。
  4. 前記インタプリタは、WebサーバまたはSSH(Secure SHell)サーバへアクセス可能である
    請求項2または請求項3に記載の障害解析装置。
  5. サーバおよび当該サーバの処理に関するログを格納する記憶手段を備える、前記第1のシステムおよび前記第2のシステム
    を備え、
    前記第1のシステムおよび前記第2のシステムが備える前記サーバおよび前記記憶手段は同構成であり、
    前記第2のシステムは、請求項1乃至請求項3のいずれかに記載の障害解析装置を含み、
    前記第1のシステムと前記障害解析装置とは、前記BMCユーザインタフェース経由で通信可能である、
    障害解析システム。
  6. 前記第1のシステムが備える前記記憶手段は、
    前記BMCユーザインタフェースを介して前記第1のシステムが備える前記サーバが構成変更された時の構成変更ログと、
    前記BMCユーザインタフェースを介して前記第1のシステムが備える前記サーバが設定変更された時の設定変更ログと、
    前記BMCユーザインタフェースを介して前記第1のシステムが備える前記サーバが操作された時の操作ログと、を少なくとも格納する
    請求項5に記載の障害解析システム。
  7. 問題記憶手段に格納される、第1のシステムで過去に発生した障害事象、当該障害事象に紐付けられたエラーログ、当該障害事象に紐付けられた前記障害事象の解決手法情報を備える障害ログデータ情報と、入力されるログデータとを比較し、
    前記比較の結果、前記障害ログデータ情報と前記入力されるログデータとが合致しない場合、前記入力されるログデータに含まれる情報を基に、前記第1のシステムで発生した新たな障害を、前記第1のシステムとBMCユーザインタフェース経由で接続が可能な第2のシステムにおいて、再現して検証するための再現スクリプトを作成する
    ことを備え、
    前記再現スクリプトは、前記検証のために前記第1のシステムと同期するように前記第2のシステムを実行するためのものであり、前記第2のシステムの構成を変更するための構成変更スクリプトと、前記第2のシステムの設計を変更するための設定変更スクリプトと、前記第2のシステムにおいて動作させるべき操作を実行するための操作スクリプトを少なくとも備え、
    前記再現スクリプトを作成する処理では、前記新たな障害の発生前後の前記第1のシステムにおける操作について、当該操作に関連する複数のパラメータを時系列に沿って変化させた前記操作スクリプトを複数生成し、
    前記複数のパラメータは、前記新たな障害の発生前後の前記第1のシステムにおける前記操作についての実行操作間隔および実行操作数を少なくとも含む、
    障害解析方法。
  8. 問題記憶手段に格納される、第1のシステムで過去に発生した障害事象、当該障害事象に紐付けられたエラーログ、当該障害事象に紐付けられた前記障害事象の解決手法情報を備える障害ログデータ情報と、入力されるログデータとを比較し、
    前記比較の結果、前記障害ログデータ情報と前記入力されるログデータとが合致しない場合、前記入力されるログデータに含まれる情報を基に、前記第1のシステムで発生した新たな障害を、前記第1のシステムとBMCユーザインタフェース経由で接続が可能な第2のシステムにおいて、再現して検証するための再現スクリプトを作成する
    ことをコンピュータに実現させ、
    前記再現スクリプトは、前記検証のために前記第1のシステムと同期するように前記第2のシステムを実行するためのものであり、前記第2のシステムの構成を変更するための構成変更スクリプトと、前記第2のシステムの設計を変更するための設定変更スクリプトと、前記第2のシステムにおいて動作させるべき操作を実行するための操作スクリプトを少なくとも備え、
    前記再現スクリプトを作成する処理では、前記新たな障害の発生前後の前記第1のシステムにおける操作について、当該操作に関連する複数のパラメータを時系列に沿って変化させた前記操作スクリプトを複数生成し、
    前記複数のパラメータは、前記新たな障害の発生前後の前記第1のシステムにおける前記操作についての実行操作間隔および実行操作数を少なくとも含む、
    プログラム。
JP2017069822A 2017-03-31 2017-03-31 障害解析装置、障害解析方法および障害解析プログラム Active JP6957936B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2017069822A JP6957936B2 (ja) 2017-03-31 2017-03-31 障害解析装置、障害解析方法および障害解析プログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2017069822A JP6957936B2 (ja) 2017-03-31 2017-03-31 障害解析装置、障害解析方法および障害解析プログラム

Publications (2)

Publication Number Publication Date
JP2018173703A JP2018173703A (ja) 2018-11-08
JP6957936B2 true JP6957936B2 (ja) 2021-11-02

Family

ID=64106681

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2017069822A Active JP6957936B2 (ja) 2017-03-31 2017-03-31 障害解析装置、障害解析方法および障害解析プログラム

Country Status (1)

Country Link
JP (1) JP6957936B2 (ja)

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP7260388B2 (ja) * 2019-05-07 2023-04-18 シャープ株式会社 画像形成装置、制御プログラムおよび制御方法
CN110597707A (zh) * 2019-08-02 2019-12-20 华为技术有限公司 一种内存越界故障检测方法及终端设备
JP6797991B1 (ja) * 2019-09-30 2020-12-09 レノボ・シンガポール・プライベート・リミテッド 電子機器、及び稼働情報の出力方法
CN113553243A (zh) * 2020-04-24 2021-10-26 捷普科技(上海)有限公司 远端侦错方法
CN112988439B (zh) * 2021-02-09 2023-07-28 北京奇艺世纪科技有限公司 服务器故障发现方法、装置、电子设备及存储介质
JP2023005300A (ja) * 2021-06-28 2023-01-18 日立Astemo株式会社 解析装置、解析方法

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4178605B2 (ja) * 1998-07-30 2008-11-12 ヤマハ株式会社 カラオケ装置およびカラオケ装置の操作再現システム
JP3792532B2 (ja) * 2001-04-19 2006-07-05 エヌ・ティ・ティ・アドバンステクノロジ株式会社 情報共有化システム
WO2010097953A1 (ja) * 2009-02-27 2010-09-02 富士通株式会社 情報処理装置における障害再現装置及び障害再現方法並びに障害再現プログラム
JP5459405B2 (ja) * 2010-08-27 2014-04-02 富士通株式会社 障害処理方法,障害処理システム,障害処理装置及び障害処理プログラム

Also Published As

Publication number Publication date
JP2018173703A (ja) 2018-11-08

Similar Documents

Publication Publication Date Title
JP6957936B2 (ja) 障害解析装置、障害解析方法および障害解析プログラム
EP3036633B1 (en) Cloud deployment infrastructure validation engine
CN109495308B (zh) 一种基于管理信息系统的自动化运维系统
CN107317724B (zh) 基于云计算技术的数据采集系统及方法
US9569325B2 (en) Method and system for automated test and result comparison
JP5657475B2 (ja) 運用管理装置、及び方法
JP2009519544A (ja) 自動ソフトウェアテストフレームワーク
KR20060066570A (ko) 분산 환경에서 어플리케이션의 성능을 모니터링하는 방법및 시스템
JP2013156993A (ja) コンピュータシステムにおけるbiosの設定方法とコンピュータプログラム製品
CN111078490B (zh) 一种基于操作系统监控分析的服务器安全保障方法及系统
CN110460476B (zh) 一种网络运维管理方法
CN111324599B (zh) 一种区块链实验系统及管理方法
CN110971464A (zh) 一种适合灾备中心的运维自动化系统
CN111966465B (zh) 一种实时修改宿主机配置参数的方法、系统、设备及介质
WO2022042007A1 (zh) 一种定位微服务熔断异常的方法、系统、设备及介质
Veeraraghavan et al. Maelstrom: Mitigating datacenter-level disasters by draining interdependent traffic safely and efficiently
US20150370619A1 (en) Management system for managing computer system and management method thereof
CN106033384A (zh) 撷取控制台消息的系统及其方法和非暂态计算机可读媒体
CN112506969A (zh) 一种bmc地址查询方法、系统、设备及可读存储介质
CN113127009A (zh) 大数据管理平台的自动化部署方法和装置
WO2014049854A1 (ja) 計算機システム、及びプログラム
KR102194974B1 (ko) 프로세스 검증 기능이 구비된 전력 계통 감시 및 제어 시스템
CN114510381A (zh) 故障注入方法、装置、设备和存储介质
JP2011159011A (ja) ジョブ監視システム及びジョブ監視プログラム
WO2023276039A1 (ja) サーバ管理装置、サーバ管理方法およびプログラム

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20200217

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20210303

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20210316

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20210511

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20210907

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20210920

R150 Certificate of patent or registration of utility model

Ref document number: 6957936

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150