JP6957936B2 - 障害解析装置、障害解析方法および障害解析プログラム - Google Patents
障害解析装置、障害解析方法および障害解析プログラム Download PDFInfo
- Publication number
- JP6957936B2 JP6957936B2 JP2017069822A JP2017069822A JP6957936B2 JP 6957936 B2 JP6957936 B2 JP 6957936B2 JP 2017069822 A JP2017069822 A JP 2017069822A JP 2017069822 A JP2017069822 A JP 2017069822A JP 6957936 B2 JP6957936 B2 JP 6957936B2
- Authority
- JP
- Japan
- Prior art keywords
- failure
- log
- script
- unit
- server
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Landscapes
- Debugging And Monitoring (AREA)
- Stored Programmes (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Description
入力されるログデータが、問題記憶手段に格納される障害ログデータ情報と合致するかを判断し、合致しないと判断した場合に、入力されるログデータに含まれる情報を基に、第1のシステムで発生した新たな障害を、第1のシステムとBMCユーザインタフェース経由で接続が可能な第2のシステムにおいて、再現して検証するための再現スクリプトを作成するログ解析手段
を備える。
サーバおよび当該サーバの処理に関するログを格納する記憶手段を備える、第1のシステムおよび第2のシステムを備え、
第1のシステムおよび第2のシステムが備えるサーバおよび記憶手段は同構成であり、
第2のシステムは、請求項1乃至請求項5のいずれかに記載のテストクライアント端末を含み、
第1のシステムとテストクライアント端末とは、BMCユーザインタフェース経由で通信可能である。
問題記憶手段に格納される、第1のシステムで過去に発生した障害事象、当該障害事象に紐付けられたエラーログ、当該障害事象に紐付けられた障害事象の解決手法情報を備える障害ログデータ情報と、入力されるログデータとを比較し、
比較の結果、障害ログデータ情報と入力されるログデータとが合致しない場合、入力されるログデータに含まれる情報を基に、第1のシステムで発生した新たな障害を、第1のシステムとBMCユーザインタフェース経由で接続が可能な第2のシステムにおいて、再現して検証するための再現スクリプトを作成することを備える。
問題記憶手段に格納される、第1のシステムで過去に発生した障害事象、当該障害事象に紐付けられたエラーログ、当該障害事象に紐付けられた障害事象の解決手法情報を備える障害ログデータ情報と、入力されるログデータとを比較し、
比較の結果、障害ログデータ情報と入力されるログデータとが合致しない場合、入力されるログデータに含まれる情報を基に、第1のシステムで発生した新たな障害を、第1のシステムとBMCユーザインタフェース経由で接続が可能な第2のシステムにおいて、再現して検証するための再現スクリプトを作成することをコンピュータに実現させる。
本発明の第1の実施形態に係る障害解析システム1000について図1を参照して説明する。図1に示すように、障害解析システム1000は、ユーザ環境システム100と、再現テスト環境システム200とを備える。ユーザ環境システム100は、ユーザ先で実行されているシステム環境(フィールド環境とも称呼する)である。再現テスト環境システム200は、ユーザ環境システムにて障害が発生した際に、ユーザ環境システム100にて収集されたログを基に、障害発生時のユーザ環境システム100の状態を再現する。再現テスト環境システム200は、障害発生の原因を究明し、一時的措置として、ユーザ環境システム100にパッチを適用し、更に抜本的なシステムのアップデート、修理等が必要かを判定する。尚、再現テスト環境システム200は、ユーザ環境システム100を再現したシステムであるため、2つのシステム100,200において、サーバ1、1aおよび記憶部3、3aの構成は同じものである。
ユーザ環境システム100は、サーバ1、クライアント端末2および記憶部3を備え、サーバ1とクライアント端末2とは、LAN等の通信ネットワーク4で接続されている。サーバ1は、クライアント端末2からのリクエストに応じた様々なタスクを実行する。サーバ1は、障害発生時に使用するBMC10を備え、障害発生時に実行環境を再現するためのテストに使用するログの収集を内部および外部からでも可能とする。クライアント端末2は、サーバ1に対し、様々なリクエストを発行する。記憶部3は、サーバ1と接続される又はサーバ1の内部に搭載されるメモリであり、サーバ1が登録する障害解析用のログや、これに関する情報を格納する。
記憶部3は、図2に示すように、構成変更ログ記憶部31、設定変更ログ記憶部32、操作ログ記憶部33、BMCログ記憶部34およびクライアント設定情報ログ記憶部35を備える。記憶部3は、フラッシュメモリで構成されることが好ましい。
サーバ1は、図3に示すように、BMC10、CPU(Central Processing Unit)モジュール部11、MEM(Memory)モジュール部12およびI/O(Input/Output)モジュール部13を備える。尚、サーバ1のBMC10は、ユーザI/F部10dを介して、クライアント端末2からのアクセスを可能にする。
クライアント端末2は、所定のプログラムがインストールされた、ユーザ(オペレータ)側にあるリモート端末である。所定のプログラムには、OS(Operating System)、当該OSで動作するWebブラウザ用のアプリケーション(例えば、InternetExplore(登録商標)、Firefox(登録商標))、JAVAアップレットまたはJAVAアプリケーションが動作するためのJAVA実行環境(例えば、JRE:Java Runtime Environment)が含まれる。尚、JAVAアプレットまたはJAVAアプリケーションは、BMC10が提供するWebサービスであって、特定のWebコンテンツにおける特定操作が実行された際に、クライアント端末2上のJAVA実行環境において動作する。
ユーザ環境システム100(図1参照)において障害が発生した場合に、当該事故等の検証を行うためにユーザ環境システム100と同じシステム構成に再現された再現テスト環境システム200が構築される。再現テスト環境システム200は、サーバ1a、テストクライアント端末2a(障害解析装置)および記憶部3aを備える。サーバ1aおよび記憶部3aは、ユーザ環境システム100に含まれるサーバ1および記憶部3と同様の構成を備える。
次に図6のフローチャートを参照して、障害解析システム1000の動作を説明する。
上述のように、本発明の第1の実施形態によれば、BMC10が管理するサーバにおいて、フィールドで障害が発生した場合に、保守員等の手作業に頼らす、効率よく問題を解析することができ、ひいては問題の解決に要する時間が長期化することを防ぐことができる。この理由は、ログ解析部45aが、過去事例と比較して、既知問題か否かの判定を自動で行い、既知問題の場合は、再現環境構築、再現テストを省略し、障害対応の短縮化を図るからである。また、ログ解析部45aが、障害事象と関連エラーログとを解析することで障害発生日を特定し、障害発生時の設定状況、構成状態を割り出すため、フィールド障害発生時の状態を忠実に再現できるからである。更に、再現環境構築部45bおよび再現テスト実行部45dが、サーバ1aで実行可能なユーザI/Fスクリプトを自動生成し、フィールド障害発生時と同じ条件下のテスト環境で再現テストを自動実行するからである。更に、再現テスト実行部45dは、インタプリタ45cを介して、再現テストパラメータに応じた、操作間の自動タイミング変更を可能とする。
図8に示すように、本発明の第2の実施形態に係る障害解析装置2bは、問題記憶部410およびログ解析部450を備える。障害解析装置2bは、第1のシステム(第1の実施形態におけるユーザ環境システム100)で発生した原因不明の障害を、第1のシステムと同期をとった第2のシステム(第1の実施形態における再現テスト環境システム200)で再現し、検証するための装置であり、第2のシステムに含まれる。第2の実施形態は、第1の実施形態を実施するための最小構成である。障害解析装置2bの例示は、第1の実施形態における再現テストクライアント端末2aである。
上述した本発明の各実施形態において、図1等に示す障害解析システムの各装置の各構成要素は、機能単位のブロックを示している障害解析システムの各構成要素の一部又は全部は、例えば図9に示すような情報処理装置500とプログラムとの任意の組み合わせを用いて実現される。情報処理装置1は、一例として、以下のような構成を含む。
・ROM(Read Only Memory)502
・RAM(Random Access Memory)503
・RAM503にロードされるプログラム504
・プログラム504を格納する記憶装置505
・記録媒体506の読み書きを行うドライブ装置507
・通信ネットワーク509と接続する通信インタフェース508
・データの入出力を行う入出力インタフェース510
・各構成要素を接続するバス511
本願の各実施形態における障害解析システムの各構成要素は、これらの機能を実現するプログラム504をCPU501が取得して実行することで実現される。障害解析システムの各構成要素の機能を実現するプログラム504は、例えば、予め記憶装置505やRAM503に格納されており、必要に応じてCPU501が読み出す。なお、プログラム504は、通信ネットワーク509を介してCPU501に供給されてもよいし、予め記録媒体506に格納されており、ドライブ装置507が当該プログラムを読み出してCPU501に供給してもよい。
1a :サーバ
2 :クライアント端末
2a :テストクライアント端末
2b :障害解析装置
3 :記憶部
3a :記憶部
3b :記憶部
4 :通信ネットワーク
5 :Webサーバ
6 :CLPサーバ
10 :BMC
10a :ログ読取部
10b :論理構成変更部
10c :クライアント設定情報読取部
10d :ユーザI/F部
10e :LAN_I/F部
10f :SPI_I/F部
11 :CPUモジュール部
12 :MEMモジュール部
13 :I/Oモジュール部
21 :クライアント設定部
22 :Webブラウザ
22a :Webブラウザ設定ファイル
23 :JAVA実行環境設定部
23a :JAVA設定ファイル
24 :SSHクライアント設定部
25 :LAN_I/F部
31 :構成変更ログ記憶部
32 :設定変更ログ記憶部
33 :操作ログ記憶部
34 :BMCログ記憶部
35 :クライアント設定情報ログ記憶部
41 :問題記憶部
41a :障害ログデータ
41b :障害事象
41c :関連エラーログ
41d :既知問題情報
42 :再現スクリプト記憶部
42a :構成変更スクリプト記憶部
42b :設定変更スクリプト記憶部
42c :操作スクリプト記憶部
43 :JAVA実行環境設定部
44 :クライアント設定情報記憶部
45 :再現環境生成部
45a :ログ解析部
45b :再現環境構築部
45c :インタプリタ
45d :再現テスト実行部
45e :I/F部
45f :LAN_I/F部
45g :テストパラメータ記憶部
100 :ユーザ環境システム
200 :再現テスト環境システム
410 :問題記憶部
450 :ログ解析部
500 :情報処理装置
501 :CPU
503 :RAM
504 :プログラム
505 :記憶装置
506 :記録媒体
507 :ドライブ装置
508 :通信インタフェース
509 :通信ネットワーク
510 :入出力インタフェース
511 :バス
1000 :障害解析システム
Claims (8)
- 第1のシステムで過去に発生した障害事象、当該障害事象に紐付けられたエラーログ、当該障害事象に紐付けられた前記障害事象の解決手法情報を備える障害ログデータ情報を格納する問題記憶手段と、
入力されるログデータが、前記問題記憶手段に格納される前記障害ログデータ情報と合致するかを判断し、合致しないと判断した場合に、前記入力されるログデータに含まれる情報を基に、前記第1のシステムで発生した新たな障害を、前記第1のシステムとBMC(Baseboard Management Controller)ユーザインタフェース経由で接続が可能な第2のシステムにおいて、再現して検証するための再現スクリプトを作成するログ解析手段
を備え、
前記再現スクリプトは、前記検証のために前記第1のシステムと同期するように前記第2のシステムを実行するためのものであり、前記第2のシステムの構成を変更するための構成変更スクリプトと、前記第2のシステムの設計を変更するための設定変更スクリプトと、前記第2のシステムにおいて動作させるべき操作を実行するための操作スクリプトを少なくとも備え、
前記ログ解析手段は、前記新たな障害の発生前後の前記第1のシステムにおける操作について、当該操作に関連する複数のパラメータを時系列に沿って変化させた前記操作スクリプトを複数生成し、
前記複数のパラメータは、前記新たな障害の発生前後の前記第1のシステムにおける前記操作についての実行操作間隔および実行操作数を少なくとも含む、
障害解析装置。 - 前記構成変更スクリプトおよび前記設定変更スクリプトをインタプリタに実行させ、前記BMCユーザインタフェース経由で、前記第2のシステムにおいて前記第1のシステムの環境を構築する再現環境構築手段
を備える請求項1に記載の障害解析装置。 - 前記操作スクリプトをインタプリタに実行させ、前記BMCユーザインタフェース経由で、前記環境が構築された前記第2のシステムにおいて、前記第1のシステムで実行された操作を再現する再現テスト実行部
を備える請求項2に記載の障害解析装置。 - 前記インタプリタは、WebサーバまたはSSH(Secure SHell)サーバへアクセス可能である
請求項2または請求項3に記載の障害解析装置。 - サーバおよび当該サーバの処理に関するログを格納する記憶手段を備える、前記第1のシステムおよび前記第2のシステム
を備え、
前記第1のシステムおよび前記第2のシステムが備える前記サーバおよび前記記憶手段は同構成であり、
前記第2のシステムは、請求項1乃至請求項3のいずれかに記載の障害解析装置を含み、
前記第1のシステムと前記障害解析装置とは、前記BMCユーザインタフェース経由で通信可能である、
障害解析システム。 - 前記第1のシステムが備える前記記憶手段は、
前記BMCユーザインタフェースを介して前記第1のシステムが備える前記サーバが構成変更された時の構成変更ログと、
前記BMCユーザインタフェースを介して前記第1のシステムが備える前記サーバが設定変更された時の設定変更ログと、
前記BMCユーザインタフェースを介して前記第1のシステムが備える前記サーバが操作された時の操作ログと、を少なくとも格納する
請求項5に記載の障害解析システム。 - 問題記憶手段に格納される、第1のシステムで過去に発生した障害事象、当該障害事象に紐付けられたエラーログ、当該障害事象に紐付けられた前記障害事象の解決手法情報を備える障害ログデータ情報と、入力されるログデータとを比較し、
前記比較の結果、前記障害ログデータ情報と前記入力されるログデータとが合致しない場合、前記入力されるログデータに含まれる情報を基に、前記第1のシステムで発生した新たな障害を、前記第1のシステムとBMCユーザインタフェース経由で接続が可能な第2のシステムにおいて、再現して検証するための再現スクリプトを作成する
ことを備え、
前記再現スクリプトは、前記検証のために前記第1のシステムと同期するように前記第2のシステムを実行するためのものであり、前記第2のシステムの構成を変更するための構成変更スクリプトと、前記第2のシステムの設計を変更するための設定変更スクリプトと、前記第2のシステムにおいて動作させるべき操作を実行するための操作スクリプトを少なくとも備え、
前記再現スクリプトを作成する処理では、前記新たな障害の発生前後の前記第1のシステムにおける操作について、当該操作に関連する複数のパラメータを時系列に沿って変化させた前記操作スクリプトを複数生成し、
前記複数のパラメータは、前記新たな障害の発生前後の前記第1のシステムにおける前記操作についての実行操作間隔および実行操作数を少なくとも含む、
障害解析方法。 - 問題記憶手段に格納される、第1のシステムで過去に発生した障害事象、当該障害事象に紐付けられたエラーログ、当該障害事象に紐付けられた前記障害事象の解決手法情報を備える障害ログデータ情報と、入力されるログデータとを比較し、
前記比較の結果、前記障害ログデータ情報と前記入力されるログデータとが合致しない場合、前記入力されるログデータに含まれる情報を基に、前記第1のシステムで発生した新たな障害を、前記第1のシステムとBMCユーザインタフェース経由で接続が可能な第2のシステムにおいて、再現して検証するための再現スクリプトを作成する
ことをコンピュータに実現させ、
前記再現スクリプトは、前記検証のために前記第1のシステムと同期するように前記第2のシステムを実行するためのものであり、前記第2のシステムの構成を変更するための構成変更スクリプトと、前記第2のシステムの設計を変更するための設定変更スクリプトと、前記第2のシステムにおいて動作させるべき操作を実行するための操作スクリプトを少なくとも備え、
前記再現スクリプトを作成する処理では、前記新たな障害の発生前後の前記第1のシステムにおける操作について、当該操作に関連する複数のパラメータを時系列に沿って変化させた前記操作スクリプトを複数生成し、
前記複数のパラメータは、前記新たな障害の発生前後の前記第1のシステムにおける前記操作についての実行操作間隔および実行操作数を少なくとも含む、
プログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2017069822A JP6957936B2 (ja) | 2017-03-31 | 2017-03-31 | 障害解析装置、障害解析方法および障害解析プログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2017069822A JP6957936B2 (ja) | 2017-03-31 | 2017-03-31 | 障害解析装置、障害解析方法および障害解析プログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2018173703A JP2018173703A (ja) | 2018-11-08 |
JP6957936B2 true JP6957936B2 (ja) | 2021-11-02 |
Family
ID=64106681
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2017069822A Active JP6957936B2 (ja) | 2017-03-31 | 2017-03-31 | 障害解析装置、障害解析方法および障害解析プログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP6957936B2 (ja) |
Families Citing this family (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP7260388B2 (ja) * | 2019-05-07 | 2023-04-18 | シャープ株式会社 | 画像形成装置、制御プログラムおよび制御方法 |
CN110597707A (zh) * | 2019-08-02 | 2019-12-20 | 华为技术有限公司 | 一种内存越界故障检测方法及终端设备 |
JP6797991B1 (ja) * | 2019-09-30 | 2020-12-09 | レノボ・シンガポール・プライベート・リミテッド | 電子機器、及び稼働情報の出力方法 |
CN113553243A (zh) * | 2020-04-24 | 2021-10-26 | 捷普科技(上海)有限公司 | 远端侦错方法 |
CN112988439B (zh) * | 2021-02-09 | 2023-07-28 | 北京奇艺世纪科技有限公司 | 服务器故障发现方法、装置、电子设备及存储介质 |
JP2023005300A (ja) * | 2021-06-28 | 2023-01-18 | 日立Astemo株式会社 | 解析装置、解析方法 |
Family Cites Families (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP4178605B2 (ja) * | 1998-07-30 | 2008-11-12 | ヤマハ株式会社 | カラオケ装置およびカラオケ装置の操作再現システム |
JP3792532B2 (ja) * | 2001-04-19 | 2006-07-05 | エヌ・ティ・ティ・アドバンステクノロジ株式会社 | 情報共有化システム |
JP5263384B2 (ja) * | 2009-02-27 | 2013-08-14 | 富士通株式会社 | 情報処理装置における障害再現装置及び障害再現方法並びに障害再現プログラム |
JP5459405B2 (ja) * | 2010-08-27 | 2014-04-02 | 富士通株式会社 | 障害処理方法,障害処理システム,障害処理装置及び障害処理プログラム |
-
2017
- 2017-03-31 JP JP2017069822A patent/JP6957936B2/ja active Active
Also Published As
Publication number | Publication date |
---|---|
JP2018173703A (ja) | 2018-11-08 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP6957936B2 (ja) | 障害解析装置、障害解析方法および障害解析プログラム | |
CN108600029B (zh) | 一种配置文件更新方法、装置、终端设备及存储介质 | |
CN109495308B (zh) | 一种基于管理信息系统的自动化运维系统 | |
EP3036633B1 (en) | Cloud deployment infrastructure validation engine | |
US20150100296A1 (en) | Method and system for automated test and result comparison | |
US20110276675A1 (en) | Methods and systems for migrating networked systems across administrative domains | |
US8990372B2 (en) | Operation managing device and operation management method | |
Ghoshal et al. | Provenance from log files: a BigData problem | |
WO2021072861A1 (zh) | 应用服务处理方法、装置、终端及存储介质 | |
JP2013156993A (ja) | コンピュータシステムにおけるbiosの設定方法とコンピュータプログラム製品 | |
CN111324599B (zh) | 一种区块链实验系统及管理方法 | |
WO2022042007A1 (zh) | 一种定位微服务熔断异常的方法、系统、设备及介质 | |
Veeraraghavan et al. | Maelstrom: Mitigating datacenter-level disasters by draining interdependent traffic safely and efficiently | |
CN110971464A (zh) | 一种适合灾备中心的运维自动化系统 | |
CN111078490A (zh) | 一种基于操作系统监控分析的服务器安全保障方法及系统 | |
GB2522301A (en) | Obtaining a configuration of a network | |
CN106033384A (zh) | 撷取控制台消息的系统及其方法和非暂态计算机可读媒体 | |
GB2524434A (en) | Management system for managing computer system and management method thereof | |
CN111966465A (zh) | 一种实时修改宿主机配置参数的方法、系统、设备及介质 | |
CN112506969A (zh) | 一种bmc地址查询方法、系统、设备及可读存储介质 | |
JP5968451B2 (ja) | 計算機システム、及びプログラム | |
KR102194974B1 (ko) | 프로세스 검증 기능이 구비된 전력 계통 감시 및 제어 시스템 | |
CN114510381A (zh) | 故障注入方法、装置、设备和存储介质 | |
CN113553243A (zh) | 远端侦错方法 | |
WO2023276039A1 (ja) | サーバ管理装置、サーバ管理方法およびプログラム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20200217 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20210303 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20210316 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20210511 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20210907 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20210920 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 6957936 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |