JPH1188471A - 試験方法及び試験装置 - Google Patents

試験方法及び試験装置

Info

Publication number
JPH1188471A
JPH1188471A JP9244180A JP24418097A JPH1188471A JP H1188471 A JPH1188471 A JP H1188471A JP 9244180 A JP9244180 A JP 9244180A JP 24418097 A JP24418097 A JP 24418097A JP H1188471 A JPH1188471 A JP H1188471A
Authority
JP
Japan
Prior art keywords
failure
information processing
information
test
processing server
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP9244180A
Other languages
English (en)
Inventor
Toshihiko Wakahara
俊彦 若原
Mitsuhiro Yuhito
光宏 由比藤
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP9244180A priority Critical patent/JPH1188471A/ja
Publication of JPH1188471A publication Critical patent/JPH1188471A/ja
Pending legal-status Critical Current

Links

Landscapes

  • Test And Diagnosis Of Digital Computers (AREA)
  • Maintenance And Management Of Digital Transmission (AREA)

Abstract

(57)【要約】 【課題】 アプリケーションレベルの故障の発見及びそ
の対処を自動的に行うことができる情報処理サーバの試
験方法及び試験装置を提供すること。 【解決手段】 サービスの提供中、監視エージェント2
2で常時、情報共有サービスプログラム12の動作を監
視し、異常を検出したら情報収集エージェント21が収
集したユーザからの申告情報及びログ情報を故障分析エ
ージェント23で解析し、故障切分けエージェント24
でどの部分に異常が発生したのかを切り分け、その結果
に応じて試験エージェント26でファイルの修復やプロ
セスの再起動等を行う。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は、ネットワークを介
して接続された複数のコンピュータ間で情報処理サービ
スを授受するシステムにおける、情報処理サーバのプロ
グラムの試験方法及び試験装置に関するものである。
【0002】
【従来の技術】ネットワークを介して複数のコンピュー
タ端末が情報処理サーバと接続され、これらの間で情報
処理サービスを授受するシステム、いわゆるサーバ/ク
ライアント型のコンピュータシステムにおいて、回線レ
ベルやネットワークレベルについては、従来より監視機
能や故障時の復旧処理機能が取り入れられ、予備回線へ
の自動切り替え等が一般的に行われていた。しかし、ユ
ーザに近いアプリケーションレベルについては、(1)
サーバ及びクライアント間のメッセージのログを解析す
る、(2)端末ユーザからの申告によりサーバ側で調査
し、故障を発見し、必要なプロセスを再起動したり、リ
ブートして復旧処理を行う、等の対処を、システム管理
者等のオペレータが必要に応じてコンピュータにコマン
ド入力することにより行い、特に24時間サービスを提
供する場合には、オペレータが交替で対処する必要があ
った。
【0003】図1は従来のこの種の情報処理サービスシ
ステム、ここでは複数のコンピュータ端末に情報共有サ
ービスを提供するシステムの一例を示すもので、図中、
1,2はコンピュータ端末、3はネットワーク、4はサ
ーバ、5は入出力部、6はデータベースである。また、
図2はサーバ4の詳細構成を示すもので、図中、11は
ネットワークインタフェース、12は情報共有サービス
プログラム、13は端末1,2と本サーバとの間でのメ
ッセージのやりとりの履歴をトレースしたログを収集す
るログ収集部、14は制御部である。
【0004】端末1あるいは2はネットワーク3を介し
てサーバ4にアクセスし、これらの装置間でデータベー
ス6を介して情報共有を行っている。即ち、端末1が書
き込んだデータベース6内の情報を端末2が参照した
り、端末1が質問メッセージを送出すると端末2が回答
メッセージを送出したりして、端末1,2間でデータを
共有することができる。
【0005】このシステムにおいて、サーバ4内のプロ
グラムの一部のデーモンが停止する等の、故障の原因と
対処方法が予め特定されているものについては、監視項
目を設定し、故障の監視を行っていた。
【0006】しかし、監視項目を設定した項目以外の故
障では、問題が発生すると直ちにエラーメッセージやア
ラームが発生するわけではなく、通常は端末のユーザが
サーバ4にアクセスして始めて異常に気がつき、これを
サーバ4側に伝え、オペレータが入出力部5から試験を
行っていた。
【0007】具体的には、オペレータがユーザの申告情
報を分析したり、入出力部5からメンテナンス用のコマ
ンドを入力し、ログ収集部13のメッセージのログを解
析したり、プログラムの動作状況(プロセスの動作状
況)を把握し、故障部の切り分けを行い、必要なプログ
ラムを再起動したり、リブート等を行うことにより、復
旧作業を行っていた。
【0008】
【発明が解決しようとする課題】このように、従来は、
情報共有サービス等のアプリケーションレベルでは、故
障の原因と対処方法が予め特定されているものについて
は、監視項目を設定し、故障の監視を行っていたが、監
視項目を設定した項目以外の故障では、ユーザからの申
告があってから対処していたので、発見までに時間がか
かるという問題があった。
【0009】また、従来は、オペレータが端末(ユー
ザ)とサーバとの間でのメッセージのシーケンスを分析
し、どこでおかしくなったか、どのプログラムが異常動
作をしたか等の分析を行い、異常部分を切り分けた後、
異常部分を停止・再起動させたりするという、人手によ
る復旧作業が必要であり、24時間サービスを提供する
場合にはオペレータが交替で行う必要があった。
【0010】本発明の目的は、アプリケーションレベル
の故障の発見及びその対処を自動的に行うことができる
情報処理サーバの試験方法及び試験装置を提供すること
にある。
【0011】
【課題を解決するための手段】前記課題を解決するた
め、本発明では、アプリケーションプログラムが正常に
動作しているかどうかを監視する機能、システムのどの
部分に異常が発生しているかを切り分ける機能、異常部
分を切り離して再起動させ、正常に動作するかどうかを
試験する機能等をエージェントとして実現し、これらの
機能を協調して動作させることにより最適な処理を行う
ようになした。
【0012】前記構成によれば、情報処理サービスの提
供中、サーバ内で常時、監視エージェントが情報共有サ
ービスプログラムの動作を監視するとともに、異常を検
出したら収集したログ情報及びユーザからの申告情報を
故障切分けエージェントが解析し、どの部分に異常が発
生したのかを切り分けるとともに、故障を復旧するため
のプロセスの再起動等の必要な措置を行い、試験エージ
ェントが試験を行い、復旧動作を確認して終了するよう
一連の動作が制御される。
【0013】なお、故障部分が直ちに復旧する見通しの
たたない場合には、アクセスしてきた端末にサービスが
停止している旨のメッセージを送出する。また、複数の
サーバで構成する場合には、他のサーバに代替を依頼す
る等の非常手段をとり、故障部分の対処が終わってから
切り戻しの処理を行う。
【0014】
【発明の実施の形態】図3は本発明によるサーバの実施
の形態の一例を示すもので、図中、従来例と同一構成部
分は同一符号をもって表す。即ち、5は入出力部、6は
データベース、7は本発明によるサーバであり、該サー
バ7はネットワークインタフェース11、情報共有サー
ビスプログラム12、情報収集エージェント21、監視
エージェント22、故障分析エージェント23、故障切
分けエージェント24、故障措置エージェント25、試
験エージェント26、エージェント協調制御部27及び
制御部28からなっている。
【0015】前記構成において、従来と同様に端末1あ
るいは2はサーバ7にアクセスし、これらの装置間でデ
ータベース6を介して情報共有を行っている。
【0016】情報収集エージェント21は、ユーザから
の申告情報及び端末及びサーバ間のメッセージのシーケ
ンス等の情報を収集している。また、監視エージェント
22は、情報共有サービスプログラム12の各プロセス
の動作状況の監視、CPUやメモリの動作監視、ファイ
ルの監視等を行っている。また、故障分析エージェント
23は、ユーザからの申告情報及び収集したログのシー
ケンスを分析して異常を検出するとともに、監視エージ
ェント22からの報告を受け、ファイル、プロセスある
いはその他の中から故障部分を探索し、どの部分が故障
しているのかを分析する。
【0017】また、故障切分けエージェント24は、試
験エージェント26と連携して故障分析エージェント2
3が分析したファイルまたはプロセス等の切り分けを行
うため、メンテナンスコマンドや試験コマンドを送出し
て故障部分を切り分ける。また、故障措置エージェント
25は、故障の影響が大きいと判断した場合には、代替
の情報共有サーバに転送したり、現在サービスを停止し
ている等の故障通知のアナウンスを端末のユーザにメッ
セージとして通知する。また、試験エージェント26
は、故障切分けエージェント24の結果を参照し、ファ
イル修復を行ったり、バックアップファイルと入れ替え
たり、プロセスが停止している場合には再起動させ、復
旧を試みる。
【0018】エージェント協調制御部27は、エラーメ
ッセージや異常が監視エージェント22で検出されなく
なるまで試験を繰り返し、正常な状態への復帰を確認し
たら情報共有サービスを再開させるため、前述した各エ
ージェント21〜26が連携して動作するよう各エージ
ェント間の依頼・報告等のデータのやりとりをチェック
するとともに、一連の処理が円滑に進むよう判断及び制
御を行う。
【0019】図4は各エージェント間の連携のようすを
示すもので、図中、実線は依頼や報告等のデータの流れ
を、破線は制御情報の流れを示すものである。
【0020】次に、故障が発生した時の分析及び復旧動
作を図5のフローチャートを用いて説明する。
【0021】情報共有プログラムの場合の監視すべきフ
ァイルとしては、ユーザ管理ファイル、データ管理ファ
イル、リンク管理ファイル、インデックス管理ファイル
(データ、キーワード等の対応関係を記述したファイ
ル)等があり、所定のディレクトリにファイルがあるか
どうか、各ファイルの情報が対応しているかどうか、あ
るいは壊れていないか等をチェックする。
【0022】ファイルチェックの結果、コアダンプを吐
き出している場合には、コアファイルを分析する。さら
に、コアファイルの原因を取り除き、コアファイルを消
去するとともにシステムを一旦停止し、再起動させる。
さらに、何らかの原因でファイルの異常を検出すれば、
ファイルの修復及び再構築を行うとともにシステムを一
旦停止し、再度起動させる。
【0023】一方、プログラムの動作状態をチェックし
た結果、プロセスやデーモンが停止している場合は、各
端末とプロセスの番号及びコネクション設定状態の対応
関係等を確認し、再起動させる。再起動させた後、各プ
ログラムの動作状態及びファイルをチェックし、故障措
置エージェント25により情報共有サービスを開始さ
せ、擬似的に遠隔の端末からアクセスしている場合と同
様に情報共有サービスプログラム12を動作させてサー
ビスの正常性をチェックする。
【0024】なお、故障の切分けがうまくいかず、異常
や故障部分を切分けられなかった場合には、入出力部5
からオペレータにメッセージ等で通知し、オペレータか
らの指示を待って動作する。
【0025】さらに、故障部分に対応した処理法が記憶
されていれば、この分析の結果から必要な措置を行う。
例えば、シーケンスの分析結果からいずれかのプロセス
が停止しているような場合には、どのプロセスが停止し
ているかを探索し、対応するプロセスの再起動をかけ
る。
【0026】図6は複数の情報処理サーバで情報共有サ
ービスを提供する場合の各エージェント間の連携のよう
すを示すもので、この場合、他のサーバに故障が発生
し、このサーバに協力して試験を行うことになるので、
自サーバ内の故障分析や切り分けは行わず、監視エージ
ェント22及び試験エージェント26が連携して動作
し、試験結果のみを該当サーバに報告する。
【0027】
【発明の効果】以上説明したように、本発明によれば、
情報収集エージェント、監視エージェント、情報分析エ
ージェント、故障切分けエージェント、故障措置エージ
ェント及び試験エージェント等の複数のエージェント
が、エージェント協調制御部からの指示に基づき、故障
の監視から復旧、動作確認までの一連の動作を行うた
め、ユーザからの申告情報だけでなく、端末及びサーバ
間のメッセージのシーケンスの履歴を収集し、エラーメ
ッセージやログから分析を行って故障部分を推定し、特
定のファイルに不具合が生じているのか、プロセスが停
止しているのか等の故障分析を行い、故障に対応して最
適と判断した処理を行って故障を復旧させることが可能
となり、オペレータ等を介さずに故障を復旧できるので
自動化できるとともに、迅速に対処することができる。
【0028】また、他のサーバからの依頼に基づいて監
視及び試験を行い、その結果を依頼されたサーバに報告
するようにすれば、複数のサーバにより提供されている
情報処理サービスの故障をより迅速に復旧させることが
できる。
【図面の簡単な説明】
【図1】情報共有サービスシステムの一例を示す構成図
【図2】従来のサーバの詳細を示す構成図
【図3】本発明によるサーバの実施の形態の一例を示す
構成図
【図4】サーバ内の各エージェント間の連携のようすの
一例を示す図
【図5】故障分析及び復旧動作のフローチャート
【図6】サーバ内の各エージェント間の連携のようすの
他の例を示す図
【符号の説明】
1,2:端末、3:ネットワーク、5:入出力部、6:
データベース、7:サーバ、11:ネットワークインタ
フェース、12:情報共有サービスプログラム、21:
情報収集エージェント、22:監視エージェント、2
3:故障分析エージェント、24:故障切分けエージェ
ント、25:故障措置エージェント、26:試験エージ
ェント、27:エージェント協調制御部、28:制御
部。

Claims (4)

    【特許請求の範囲】
  1. 【請求項1】 複数のコンピュータ端末にネットワーク
    を介して情報処理サービスを提供する情報処理サーバの
    試験方法において、 ユーザからの申告情報及び端末とのメッセージ授受の履
    歴を収集し、 情報処理サーバ内のプログラムの動作状況及びファイル
    を監視し、 前記収集情報及び監視情報から故障部分を分析し、 該故障の分析結果から故障部分を推定し、 試験コマンドを送出して動作確認を行うとともに故障が
    他に影響を及ぼさないための措置を行い、 情報処理サーバ内のプログラム及びファイルを再構成し
    た後、情報処理サービスを再起動することを特徴とする
    試験方法。
  2. 【請求項2】 他の情報処理サーバからのメッセージに
    基づいて、情報処理サーバ内のプログラムの動作状況及
    びファイルの監視を行い、試験コマンドを送出して動作
    確認を行い、結果を前記他の情報処理サーバに報告する
    ことを特徴とする請求項1記載の試験方法。
  3. 【請求項3】 複数のコンピュータ端末にネットワーク
    を介して情報処理サービスを提供する情報処理サーバの
    試験装置において、 ユーザからの申告情報及び端末とのメッセージ授受の履
    歴を収集する情報収集手段と、 情報処理サーバ内のプログラムの動作状況及びファイル
    を監視する監視手段と、 前記収集情報及び監視情報から故障部分を分析する故障
    分析手段と、 該故障の分析結果から故障部分を推定する故障切分け手
    段と、 故障が他に影響を及ぼさないための措置を行う故障措置
    手段と、 試験コマンドを送出して動作確認を行い、情報処理サー
    バ内のプログラム及びファイルを再構成した後、情報処
    理サービスを再起動する試験手段と、 前記各手段と連携して処理順序を決定し、処理内容を適
    応的に制御する協調制御手段とを具備したことを特徴と
    する試験装置。
  4. 【請求項4】 他の情報処理サーバからのメッセージに
    基づいて、情報処理サーバ内のプログラムの動作状況及
    びファイルの監視を行う監視手段と、試験コマンドを送
    出して動作確認を行い、結果を前記他の情報処理サーバ
    に報告する試験手段とを具備することを特徴とする請求
    項3記載の試験装置。
JP9244180A 1997-09-09 1997-09-09 試験方法及び試験装置 Pending JPH1188471A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP9244180A JPH1188471A (ja) 1997-09-09 1997-09-09 試験方法及び試験装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP9244180A JPH1188471A (ja) 1997-09-09 1997-09-09 試験方法及び試験装置

Publications (1)

Publication Number Publication Date
JPH1188471A true JPH1188471A (ja) 1999-03-30

Family

ID=17114964

Family Applications (1)

Application Number Title Priority Date Filing Date
JP9244180A Pending JPH1188471A (ja) 1997-09-09 1997-09-09 試験方法及び試験装置

Country Status (1)

Country Link
JP (1) JPH1188471A (ja)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20000054324A (ko) * 2000-02-24 2000-09-05 이장혁 네트워크 사이트 감시 방법 및 장치
JP2001057673A (ja) * 1999-08-18 2001-02-27 Daiei Media Solutions Inc 放映配信システム
JP2008527879A (ja) * 2005-01-14 2008-07-24 ノキア コーポレイション 移動体デバイスの自動個別化又は構成
JP2018026709A (ja) * 2016-08-10 2018-02-15 日本電信電話株式会社 障害復旧システム及び方法
CN109101354A (zh) * 2017-06-20 2018-12-28 深圳中电长城信息安全系统有限公司 一种故障信息的监测方法及其装置
CN109783263A (zh) * 2018-12-27 2019-05-21 郑州云海信息技术有限公司 一种服务器老化测试故障的处理方法和系统

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2001057673A (ja) * 1999-08-18 2001-02-27 Daiei Media Solutions Inc 放映配信システム
KR20000054324A (ko) * 2000-02-24 2000-09-05 이장혁 네트워크 사이트 감시 방법 및 장치
JP2008527879A (ja) * 2005-01-14 2008-07-24 ノキア コーポレイション 移動体デバイスの自動個別化又は構成
JP2018026709A (ja) * 2016-08-10 2018-02-15 日本電信電話株式会社 障害復旧システム及び方法
CN109101354A (zh) * 2017-06-20 2018-12-28 深圳中电长城信息安全系统有限公司 一种故障信息的监测方法及其装置
CN109783263A (zh) * 2018-12-27 2019-05-21 郑州云海信息技术有限公司 一种服务器老化测试故障的处理方法和系统
CN109783263B (zh) * 2018-12-27 2021-11-09 郑州云海信息技术有限公司 一种服务器老化测试故障的处理方法和系统

Similar Documents

Publication Publication Date Title
CN106789306B (zh) 通信设备软件故障检测收集恢复方法和系统
US7281040B1 (en) Diagnostic/remote monitoring by email
CN100394394C (zh) 容错双工计算机系统及其控制方法
US10489232B1 (en) Data center diagnostic information
EP3148116A1 (en) Information system fault scenario information collection method and system
JP2013130901A (ja) 監視サーバおよびそれを用いたネットワーク機器復旧システム
CN114020509A (zh) 工作负载集群的修复方法、装置、设备及可读存储介质
JPH1188471A (ja) 試験方法及び試験装置
JP2003173272A (ja) 情報処理システム,情報処理装置及び保守センタ
WO2011051999A1 (ja) 情報処理装置及び情報処理装置の制御方法
JP2001005692A (ja) 計算機システムおよびその保守管理システム並びに障害通知方法
CN116340045A (zh) 数据库异常处理方法、装置、设备和计算机可读存储介质
CN116074180A (zh) 故障定位方法、故障修复方法、装置及存储介质
JP6070040B2 (ja) データベースシステム、データベース装置、データベースの障害回復方法およびプログラム
JPH0962626A (ja) 分散処理システムのオンラインテスト方法
KR100506248B1 (ko) 사설 교환시스템에서 링크를 진단하는 방법
JP2001216166A (ja) 情報処理装置の保守管理方法および情報処理装置ならびにソフトウェアの作成方法およびソフトウェア
KR20170127876A (ko) 로그 결함 분석 기반 장애 대응 시스템 및 방법
CN111447329A (zh) 呼叫中心中状态服务器的监控方法、系统、设备及介质
CN105677515A (zh) 一种数据库联机备份方法及系统
KR100257162B1 (ko) 이중화 시스템에서 상대 시스템의 감시방법 및 장치
JPH0877119A (ja) サービス処理機能監視方法及びその装置
CN118550747A (zh) 一种PCIe致命错误的快速定位方法、系统、电子设备及介质
JPS58144263A (ja) 分散処理システムの障害処理方式
JPH07321799A (ja) 入出力機器管理方法