JPH1083382A - 分散システム運用保守支援装置および運用保守支援方法 - Google Patents

分散システム運用保守支援装置および運用保守支援方法

Info

Publication number
JPH1083382A
JPH1083382A JP8237721A JP23772196A JPH1083382A JP H1083382 A JPH1083382 A JP H1083382A JP 8237721 A JP8237721 A JP 8237721A JP 23772196 A JP23772196 A JP 23772196A JP H1083382 A JPH1083382 A JP H1083382A
Authority
JP
Japan
Prior art keywords
maintenance
distributed system
maintenance support
business
prediction
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP8237721A
Other languages
English (en)
Inventor
Yukiteru Nozawa
幸輝 野澤
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Toshiba Corp
Original Assignee
Toshiba Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Toshiba Corp filed Critical Toshiba Corp
Priority to JP8237721A priority Critical patent/JPH1083382A/ja
Publication of JPH1083382A publication Critical patent/JPH1083382A/ja
Pending legal-status Critical Current

Links

Landscapes

  • Debugging And Monitoring (AREA)
  • Multi Processors (AREA)

Abstract

(57)【要約】 【課題】 分散システムの運用保守を効果的、経済的か
つ計画的に行えるようにした分散システム運用保守支援
装置および運用保守支援方法を提供する。 【解決手段】 本発明に係る分散システム運用保守支援
装置11は、運用保守支援を開始し、さらにその後に続
く運用保守支援の一連の動作を制御する運用保守制御手
段110と、業務を体現するアプリケーションとそれが
実装される分散システムとの間の対応関係を所定の仕様
として管理し、所定の業務情報及び所定の構成要素情報
の少なくともいずれか一方を提供する業務仕様管理手段
111と、運用保守が必要な分散システムの構成要素に
対して、将来的な動向を予測する予測手段112と、分
散システムから収集した運用保守情報を予測手段に伝え
る監視手段113とから構成されている。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は、複数の計算機およ
びその周辺機器をネットワークを介して構成した分散シ
ステムの運用保守を支援するための分散システム運用保
守支援装置および運用保守支援方法に関する。
【0002】
【従来の技術】従来、複数の計算機およびその周辺機器
をネットワークを介して構成した分散システム(以下、
分散システムと総称する)については、いかにして分散
システムの処理性能を上げるか、あるいは信頼性を上げ
るかといった観点からの研究開発に重点が置かれてい
た。しかし、この分散システムをどのように運用保守し
ていくべきかという点も非常に重要である。
【0003】ここで、上記「分散システムの運用保守」
とは、「分散システムの利用者であるエンドユーザが、
分散システム上に実装された業務アプリケーションを、
十分有効に、かつ支障なく利用できるようにするため
に、分散システムの管理者が、既にサービスの提供を実
施している分散システムの構成要素を適切に維持してい
くこと」と定義される。
【0004】たとえば、ある業務において重要な役割を
担うサーバがある場合、当サーバが十分なパフォーマン
スを発揮しつづけられるように、当サーバのディスクや
メモリ、あるいは当サーバに関係するネットワークなど
のシステムリソースを、必要に応じて強化していくとい
った、ハードウェアに対する作業が挙げられる。また、
別の例としては、ある業務に関連したトランザクション
を構成するプロセスについて、その実行をクライアント
側からサーバ側へ移すといった、ソフトウェアに対する
作業が挙げられる。
【0005】このような分散システムの運用保守に関す
る技術としては、例えば、特開平6−149737号公
報に示された発明がある。この発明は、負荷分散による
処理性能の向上や、危険分散による信頼性の向上、ある
いはいわゆるダウンサイジングによるコストの抑制な
ど、分散システムの利点を活かしつつ、集中管理方式を
導入することで、分散システムの運用保守を容易にする
ことを目的としている。
【0006】また、前記集中管理方式の導入にあたって
は、まず、島と呼ばれる任意数の計算機およびその周辺
機器からなる管理単位を設定し、この島毎にコントロー
ルサーバと呼ばれる管理システムを割り当てる。さら
に、任意数の島を一括して管理するために、マスターサ
ーバと呼ばれる管理システムを割り当てる。
【0007】このように構成することによって、マスタ
ーサーバによる集中的/一元的な運用保守が可能とな
り、マスターサーバの過負荷が問題になるような場合で
も、ある島に特有の運用保守は、その島に割り当てられ
ているコントロールサーバに任せることで、マスターサ
ーバの過負荷を防ぐことを可能としている。また、この
ような集中管理方式を採用することによる効果として、
ユーザ管理、アカウント管理、プログラム配布、ネット
ワーク構成管理、ネットワーク状況監視、障害対応、周
辺機器の管理などを、効果的かつ容易に行うことができ
るとしている。
【0008】しかし、分散システムの運用保守にあたっ
て、前記発明によっても解決されない課題がいくつか存
在する。すなわち、前記発明においては、分散システム
を、その上に実装されている業務アプリケーションの持
つ「意味」とは無関係に運用保守しているので、業務上
重要と思われる管理対象と、さほど重要と思われない管
理対象とが、同レベルで等しく管理されることになる。
その結果、分散システムのエンドユーザが「もっとも重
要である」と考えている業務に関連した運用保守対象が
優先して運用保守されないという問題が生じていた。ま
た、すべての管理対象が同レベルで管理されるため、運
用保守にかかるコストに無駄が生じるといった問題も生
じていた。
【0009】例えば、前記発明に示されているサーバの
障害検知の実施例についてみると、前記発明において
は、分散システムのエンドユーザがもっとも重要である
と考えている業務のためのサービスを、どのサーバが請
け負っているのかについて把握することができないた
め、エンドユーザにとって重要度の高い業務に関連した
サーバが優先して運用保守されなかった。また、分散シ
ステムの管理者は、分散システムに含まれるすべてのサ
ーバについて、一様なコストをかけて管理しなければな
らず、分散システムの運用保守にかかるコストに無駄が
生じていた。
【0010】さらに、前記発明においては、分散システ
ム内で発生した障害などについての運用保守上必要な情
報は、それらの障害などが起こったあとに初めて分散シ
ステムの管理者によって把握されるので、運用保守が常
に後手にまわってしまうという問題が生じていた。その
結果、分散システムのエンドユーザは、分散システム内
で発生した障害などによって、本来受けられるべきサー
ビスが突然受けられなくなったり、あるいは非常に低い
処理性能のもとでしかサービスを受けられなくなったり
するなど、本来の品質を保ったサービスを受けることが
できず、多大な不利益を被る危険性が高かった。
【0011】すなわち、前記発明によって得られる運用
保守装置においては、各サーバのディスク使用量などの
情報を監視できることが示されているものの、その情報
をどのように扱うかについての詳細が記述されておら
ず、上述したような運用保守が後手にまわってしまうと
いう問題を解決できていない。
【0012】次に、分散システムの運用保守に関する他
の技術としては、例えば、特開平7−21059号公報
に示された発明がある。この発明は、分散システム内で
発生する障害などについての情報を、一括して採取/収
集/編集/転送できるような集中管理方式を導入するこ
とで、分散システムの構成要素単位ではなく、分散シス
テム全体にわたる運用保守を可能にすることを目的とし
ている。
【0013】また、前記集中管理方式の導入にあたって
は、上述した特開平6−149737号公報に示された
発明とほぼ同じく、最上位の統合サーバ、営業店毎の営
業店サーバ、そしてクライアントからなる階層を構成
し、運用保守上必要な情報が下位の階層から上位の階層
に転送されていくようにすることで、集中管理を可能と
している。さらに、この発明においては、運用保守上必
要な情報の形式および内容を、オブジェクト指向の考え
方に基づいて規定することを提案している。これによ
り、運用保守上必要な情報を、特定のソフトウェアなど
の環境に依存しない形で管理することができるようにし
ている。
【0014】しかし、分散システムの運用保守にあたっ
て、前記発明によっても解決されない課題がいくつか存
在する。すなわち、業務毎に異なる特性が意識されない
ことに起因して、重点を置くべき運用保守対象が優先さ
れて処理されず、また、すべての運用保守対象を同レベ
ルで扱うため、無駄なコストが発生するという点であ
る。すなわち、この発明においても、業務アプリケーシ
ョンの「意味」と分散システムとを関連付ける技術につ
いてはなんら示されておらず、結果として、優先的に運
用保守を行うべき対象を特定することができないまま、
無駄な運用保守コストが発生している。
【0015】さらに、この発明においても、運用保守上
必要な情報が管理者に伝わるのが、障害などが発生した
後になってしまうので、運用保守が常に後手にまわって
しまうという問題も生じていた。なお、この発明におい
ては、「予防保守」という表現によって、運用保守が後
手にまわってしまう課題を意識していることが表わされ
ているが、定期的かつ定量的に分散システムの構成要素
を管理すること以上の、具体的な運用保守の方法につい
ては言及されておらず、運用保守が後手にまわってしま
う課題を解決できているとはいえない。
【0016】また、分散システムの運用保守の観点に基
づく他の技術としては、米国Hewlett−Pack
ard社の、HP OpenViewという製品がある
(日経データプロ・ソフト 1995年 2月号 p.
251−269)。この製品は大きくネットワーク管理
製品群とシステム管理製品群に分かれている。ネットワ
ーク管理製品群の中核となるのは、HP OpenVi
ew ネットワーク・ノード・マネージャと呼ばれる製
品であり、SNMP(Simple Network
Management Protocol)ベースで、
ネットワークについての障害管理、構成管理、性能管理
を行う。また、システム管理製品群の中核となるのは、
HP OpenView Operations Ce
nterと呼ばれる製品であり、SNMPベースで、シ
ステムについてのイベント管理、ソフトウェア配布、フ
ァイル等のバックアップ、負荷状況の把握などを行う。
【0017】しかし、この製品によっても先に示した運
用保守上の課題は解決されない。すなわち、この製品に
おいても、分散システム上に実装されている業務アプリ
ケーションの「意味」と分散システムとを明示的に関連
付ける手段は提供されておらず、重点を置くべき運用保
守対象が優先されて処理されず、また、すべての運用保
守対象を同レベルで扱うため、無駄なコストが発生する
という問題が生じている。
【0018】確かに、ネットワーク管理のサブ製品であ
る HP OpenView History Ana
lyzer では、特定のサービスを多く利用している
ユーザの状況を把握でき、このことによって一部の局面
では、業務の「意味」と分散システムの関連付けはなさ
れているということができるが、業務のもつ重要性は、
ユーザのサービス利用数とは直接相関関係にあるとはい
えない。例えば、非常に重要な基幹業務などは、ごく限
られたユーザがごく限られたタイミングでしかサービス
を受けないものと考えられるからである。
【0019】さらに、この製品においては、システム管
理のサブ製品である HP Per−fRX および
HP PCS と呼ばれる製品によって、分散システム
の構成要素に対しての性能管理データの収集および将来
動向予測などのデータ分析を可能にしている。しかし、
業務の特性を意識した、重点をおくべき運用保守対象を
特定できていないため、データ分析を適切に行えず、結
果として適切でない分析結果による運用保守が行われて
しまう危険性があった。
【0020】
【発明が解決しようとする課題】上述したように、従来
の分散システムの運用保守支援技術は、どの業務が重要
であるかといった業務のもつ「意味」と、分散システム
の構成要素を適切に関連付けるための十分な手段を提供
しておらず、また、分散システムに対する適切な分析手
段を提供しないまま、運用保守を支援していた。
【0021】その結果、解決すべき課題として次の3点
が挙げられる。すなわち、(1)分散システムのエンド
ユーザがもっとも重要であると考えている業務に関連し
た運用保守対象が、優先して運用保守されない。(2)
重要でない業務に関連した運用保守対象も、すべて平等
に運用保守されてしまい、運用保守コストに無駄が発生
してしまう。(3)運用保守対象を特定するための分析
が適切に行えず、有効な運用保守計画を立案することが
できない。
【0022】本発明は、上述したような従来技術の問題
点を解決するために提案されたもので、その目的は、分
散システムの運用保守を効果的、経済的かつ計画的に行
えるようにした分散システム運用保守支援装置および運
用保守支援方法を提供することにある。
【0023】
【課題を解決するための手段】上記の目的を達成するた
めに、請求項1に記載の発明は、複数の計算機およびそ
の周辺機器をネットワークを介して構成した分散システ
ムに対する運用保守支援装置であって、前記分散システ
ムの運用保守支援を開始し、さらにその後に続く運用保
守支援動作を制御する運用保守制御手段と、前記分散シ
ステムの構成要素とその分散システムに実装される業務
アプリケーションとの間の対応関係を所定の仕様として
管理し、前記運用保守制御手段からの問い合わせに応じ
て、所定の業務情報及び所定の構成要素情報の少なくと
もいずれか一方を提供する業務仕様管理手段と、前記分
散システムから、運用保守支援のために必要な運用保守
情報を収集する監視手段とを備えたことを特徴とするも
のである。
【0024】また、請求項5に記載の発明は、請求項1
に記載の発明を方法の観点から捉えたものであり、複数
の計算機およびその周辺機器をネットワークを介して構
成した分散システムに対する運用保守支援方法であっ
て、前記分散システムの運用保守支援を開始し、さらに
その後に続く運用保守支援動作を制御する運用保守制御
ステップと、前記分散システムの構成要素とその分散シ
ステムに実装される業務アプリケーションとの間の対応
関係を所定の仕様として管理し、前記運用保守制御ステ
ップにおける問い合わせに応じて、所定の業務情報及び
所定の構成要素情報の少なくともいずれか一方を提供す
る業務仕様管理ステップと、前記分散システムから、運
用保守支援のために必要な運用保守情報を収集する監視
ステップとを含むことを特徴とするものである。
【0025】このような構成を有する請求項1に記載の
分散システム運用保守支援装置あるいは請求項5に記載
の分散システム運用保守支援方法においては、運用保守
支援を進める上での全体的な流れを、運用保守制御手段
が制御する。この流れは、運用保守制御手段内に保持さ
れている起動を司る仕組みによって開始され、それとと
もに分散システムのエンドユーザがもっとも重要である
と考えている業務が何であるかについての情報とそれに
付随する情報が取得される。この段階で、エンドユーザ
にとって優先されるべき運用保守が正しく実施されるこ
とが保証され、効果的な運用保守が可能となる。さら
に、業務仕様管理手段によって、分散システムのエンド
ユーザがもっとも重要であると考えている業務と、運用
保守が必要になるかも知れない分散システム内の構成要
素が関連づけられる。この段階で、無駄な運用保守コス
トの発生を抑えることができるようになり、経済的な運
用保守が可能となる。
【0026】請求項2に記載の発明は、複数の計算機お
よびその周辺機器をネットワークを介して構成した分散
システムに対する運用保守支援装置であって、前記分散
システムの運用保守支援を開始し、さらにその後に続く
運用保守支援動作を制御する運用保守制御手段と、前記
分散システムの構成要素とその分散システムに実装され
る業務アプリケーションとの間の対応関係を所定の仕様
として管理し、前記運用保守制御手段からの問い合わせ
に応じて、所定の業務情報及び所定の構成要素情報の少
なくともいずれか一方を提供する業務仕様管理手段と、
前記分散システムの構成要素の内、運用保守制御手段に
より指示された構成要素の将来的な動向を予測する予測
手段と、前記分散システムから、運用保守支援のために
必要な運用保守情報を収集する監視手段とを備えたこと
を特徴とするものである。
【0027】また、請求項6に記載の発明は、請求項2
に記載の発明を方法の観点から捉えたものであり、複数
の計算機およびその周辺機器をネットワークを介して構
成した分散システムに対する運用保守支援方法であっ
て、前記分散システムの運用保守支援を開始し、さらに
その後に続く運用保守支援動作を制御する運用保守制御
ステップと、前記分散システムの構成要素とその分散シ
ステムに実装される業務アプリケーションとの間の対応
関係を所定の仕様として管理し、前記運用保守制御ステ
ップにおける問い合わせに応じて、所定の業務情報及び
所定の構成要素情報の少なくともいずれか一方を提供す
る業務仕様管理ステップと、前記分散システムの構成要
素の内、運用保守制御ステップにおいて指示された構成
要素の将来的な動向を予測する予測ステップと、前記分
散システムから、運用保守支援のために必要な運用保守
情報を収集する監視ステップとを含むことを特徴とする
ものである。
【0028】このような構成を有する請求項2に記載の
分散システム運用保守支援装置あるいは請求項6に記載
の分散システム運用保守支援方法においては、請求項1
あるいは請求項5に記載の発明と同様に、運用保守制御
手段によって全体的な流れが制御され、業務仕様管理手
段によって業務と分散システム内の構成要素が関連づら
れる。次に、予測手段において、運用保守が必要になる
かも知れない分散システム内の構成要素の将来動向を予
測し、運用保守が必要であることが判明した分散システ
ム内の構成要素のみを特定する。この段階で、請求項1
あるいは請求項5に記載した発明よりも、さらに無駄な
運用保守コストの発生を抑えることができるようにな
り、より経済的な運用保守が可能となる。また、それと
同時に、予測結果をもとにした適切な分析によって、有
効な運用保守計画を立案することができるようになり、
計画的な運用保守が可能となる。
【0029】請求項3に記載の発明は、請求項2に記載
の分散システム運用保守支援装置において、前記予測手
段が、前記監視手段によって収集された運用保守情報
と、予測に当てはめられる予測モデルとに基づいて、分
散システムの構成要素の将来的な動向を予測するように
構成されていることを特徴とするものである。
【0030】また、請求項7に記載の発明は、請求項3
に記載の発明を方法の観点から捉えたものであり、請求
項6に記載の分散システム運用保守支援方法において、
前記予測ステップが、前記監視ステップによって収集さ
れた運用保守情報と、予測に当てはめられる予測モデル
とに基づいて、分散システムの構成要素の将来的な動向
を予測するように構成されていることを特徴とするもの
である。
【0031】このような構成を有する請求項3に記載の
分散システム運用保守支援装置あるいは請求項7に記載
の分散システム運用保守支援方法においては、適切な予
測モデルから得られた予測結果をもとにして、適切な分
析を行うことができるので、有効な運用保守計画を立案
することができるようになり、計画的な運用保守が可能
となる。
【0032】請求項4に記載の発明は、請求項1乃至請
求項3のいずれか一に記載の分散システム運用保守支援
装置において、前記運用保守制御手段が、運用保守対象
とすべき業務の重要度を自動的に設定するように構成さ
れていることを特徴とするものである。
【0033】また、請求項8に記載の発明は、請求項4
に記載の発明を方法の観点から捉えたものであり、請求
項5乃至請求項7のいずれか一に記載の分散システム運
用保守支援方法において、前記運用保守制御ステップ
が、運用保守対象とすべき業務の重要度を自動的に設定
するように構成されていることを特徴とするものであ
る。
【0034】このような構成を有する請求項4に記載の
分散システム運用保守支援装置あるいは請求項8に記載
の分散システム運用保守支援方法においては、管理者が
当初はあまり重要でないと考えていた業務を見逃す危険
性を低く抑えることができるようになるので、より確実
な運用保守を実施することが可能となる。
【0035】
【発明の実施の形態】以下、本発明の実施形態につい
て、図面を参照して具体的に説明する。
【0036】[1.本発明による運用保守支援の全体
像]図1は、本発明による運用保守支援の全体像を示し
たものである。すなわち、運用保守の対象となる分散シ
ステム(以下、運用保守対象分散システムと称する)1
0は、エンドユーザ12によって各種業務に利用され、
また、本発明に係る運用保守支援装置11によってその
挙動が監視され、さらに、管理者13によって運用保守
される。一方、運用保守支援装置11は、前記運用保守
対象分散システム10の挙動を監視し、管理者13に対
して運用保守支援を行う。また、エンドユーザ12は、
運用保守対象分散システム10を業務に利用する上で、
管理者13に対して、どの業務が重要かといった業務の
「意味」を要求として伝え、また、管理者13から、運
用保守対象分散システム10をどのように運用保守する
かについてアナウンスを受ける。さらに、管理者13
は、運用保守対象分散システム10を運用保守支援装置
11の支援を受けながら運用保守し、また、エンドユー
ザ12に運用保守対象分散システム10をどのように運
用保守するかについてアナウンスし、エンドユーザ12
からどの業務が重要かといった業務の「意味」を要求と
して受けとる。
【0037】なお、前記運用保守対象分散システム10
と運用保守支援装置11は、物理的に同じシステム上に
実装されても、分けて実装されても良いし、さらには、
一部混在する形で実装されても良い。論理上、運用保守
対象分散システム10と運用保守支援装置11の間の区
別がつけば良い。また、同様に、エンドユーザ12と管
理者13が、実際には同一の個人、あるいは複数からな
るグループでも構わない。
【0038】[2.運用保守対象分散システムの構成]
図2は、運用保守対象分散システム10の詳細を示した
ものである。すなわち、運用保守対象分散システム10
は、複数の計算機100(CPU103あるいはメモリ
104などを含む)、およびその周辺機器であるディス
ク105、ネットワーク106などから構成されてい
る。ここで、前記計算機100については、分散システ
ムのアーキテクチャあるいはモデルによって、サーバ1
01やクライアント102といった区別を持たせること
ができる。なお周辺機器については、運用保守の必要性
に応じてどのようなものを対象にするかが決まり、図2
に示したディスク105に限定されるものではない。
【0039】また、この運用保守対象分散システム10
には、本発明に係る運用保守支援装置11と連携するた
めの、分散システム内監視手段107が含まれている。
この分散システム内監視手段107は、CPU103や
メモリ104、ディスク105、ネットワーク106な
どから、運用保守対象分散システムに必要な運用保守情
報を収集する。すなわち、分散システム内監視手段10
7は、単にデータを収集する手段であり、既存の技術に
よって容易に構築できる部位である。例えば、従来の技
術の項において挙げた HP OpenView で
は、HP OpenView Traffic Exp
ert/UX という製品によって、LANを流れるト
ラフィックを監視することができる。なお、分散システ
ム内監視手段107が行う収集の方法などについては、
本発明に係る運用保守支援装置11から指示を受けて決
定されるように構成されている。
【0040】[3.運用保守支援装置の構成]図3は、
本発明の対象である運用保守支援装置11の構成を示し
たものである。すなわち、運用保守支援装置11は、以
下に詳述する運用保守制御手段110、業務仕様管理手
段111、予測手段112、監視手段113とから構成
されている。
【0041】ここで、前記運用保守制御手段110は、
管理者13から明示的な運用保守支援依頼を受けるか、
内部的な動機が発生することによって、運用保守支援を
開始し、さらにその後に続く運用保守支援の一連の動作
を制御するものである。また、前記業務仕様管理手段1
11は、業務を体現するアプリケーションと、それが実
装される分散システムとの間の対応関係を仕様として管
理しており、前記運用保守制御手段110からの問い合
わせに応じて、必要な情報を提供するものである。さら
に、前記予測手段112は、前記運用保守制御手段11
0から指示された、運用保守が必要と思われる分散シス
テムの構成要素に対して、将来的な動向を予測するもの
である。また、監視手段113は、運用保守対象分散シ
ステム10内に含まれている前記分散システム内監視手
段107に、データウェアハウスとしての側面を与え
る。すなわち、運用保守上必要なデータの収集の仕方に
関して指示を与え、前記予測手段112が必要とする運
用保守情報を収集させ、収集された運用保守情報を予測
手段112に伝えるものである。
【0042】なお、運用保守対象分散システム10内の
監視手段107は、単なるデータ収集の手段であった
が、これに対して、運用保守支援装置11内の監視手段
113は、分散システム内監視手段107から取り出し
たデータを、運用保守上利用しやすいような形式に変換
するといった付加的な機能を有している。
【0043】[3−1.運用保守制御手段の構成]図4
は、前記運用保守制御手段110の構成を示したもので
ある。すなわち、運用保守制御手段110は、以下に詳
述する窓口1100あるいはタイマ1101、またはそ
の両方と、運用保守制御リスト1102、予測対象リス
ト1103、要求特性データ1104、予測データ11
05、判断部1106および運用保守対象リスト110
7とから構成されている。
【0044】(窓口)窓口1100は、管理者13が明
示的/意識的に、運用保守対象分散システム10の運用
保守支援を受けようと考えたときの窓口となる。すなわ
ち、管理者13が、窓口1100から、どの業務につい
て運用保守を行うかを入力することによって、運用保守
制御手段110による制御が開始される。
【0045】ここで、図5は、窓口1100で行われる
前記入力処理を受け付ける画面の一例を示したものであ
る。すなわち、図5に示した例においては、「業務」
と、その業務が投入される「ノード」が入力できるよう
になっている。また、ボタン20は、運用保守の必要が
あるかどうかが頻繁にチェックされる業務をまとめて指
定できるボタンである。一方、運用保守の必要があるか
どうかを個別にチェックしたい場合には、リストボック
ス21から所望の「業務」を個別に選んで指定すること
もできる。さらに、ボタン22は、ボタン20あるいは
リストボックス21で選ばれた業務が通常投入されるノ
ードをまとめて指定できるボタンである。一方、業務投
入ノードを個別に指定したい場合には、リストボックス
23から指定することもできる。なお、窓口1100か
ら入力される情報、および窓口1100が提供するガイ
ダンスは、必ずしも上記の通りでなくとも良い。
【0046】(タイマ)タイマ1101は、管理者13
が明示的/意識的に運用保守を行おうとしない場合で
も、運用保守支援装置11として自発的に運用保守支援
を行うために必要とされるものである。すなわち、予め
タイマ1101に設定された日時/時刻になると、運用
保守制御手段110による制御が開始されるように構成
されている。
【0047】(運用保守制御リスト)前記窓口1100
あるいはタイマ1101によって、運用保守制御手段1
10が起動されると、運用保守制御リスト1102に記
述された内容にしたがって、どの業務を運用保守の対象
とするかが決定される。
【0048】ここで、図6は、運用保守制御リスト11
02の一例を示したものである。すなわち、窓口110
0においてデフォルト業務が指定されたときには、受注
業務と発注業務を対象とし、さらに窓口1100におい
てデフォルトノードが指定されたときには、東京都と大
阪を対象とすることが記述されている。また、図6の例
では、タイマ1101によって起動される場合、毎月1
日の午前4時と毎日午前5時に運用保守制御手段110
を起動し、それぞれの場合に対象とすべき業務が何であ
るのかが記述されている。なお、運用保守制御リスト1
102記述する内容および記述の方法は、必ずしも上記
の通りでなくとも良い。
【0049】(予測対象リストおよび要求特性データ)
運用保守制御手段110は、前記運用保守制御リスト1
102の内容をもとに、業務仕様管理手段111に問い
合わせを行い、業務に関連して運用保守の対象となり得
る分散システムの構成要素(CPU103やメモリ10
4、ディスク105、ネットワーク106など)を記述
した予測対象リスト1103、およびそれらの構成要素
が満たすべき特性を要求として記述した要求特性データ
1104を得る。
【0050】ここで、図7は、予測対象リスト1103
の一例を示したものである。すなわち、図7の例では、
予測を行うべき運用保守対象分散システム10内の構成
要素として、“svr1”と名付けられているサーバの
CPU、メモリ、ディスク、および“cli1”、“c
li2”と名付けられているクライアントのCPU、メ
モリ、ディスク、および“svr1”と“cli1”を
結ぶネットワーク、および“svr1”と“cli2”
とを結ぶネットワークが指示されている。なお、予測対
象リスト1103に記述する内容および記述の方法は、
必ずしも上記の通りでなくとも良い。
【0051】また、図8は、要求特性データ1104の
一例を示したものである。すなわち、図8の例では、予
測を行うべき運用保守対象分散システム10内の構成要
素が満たしていなければならない特性として、“svr
1”と名付けられているサーバについて、そのCPUの
最大負荷/平均負荷がどのようでなければならないか、
およびメモリの最大ページフォールト数/平均ページフ
ォールト数がどのようでなければならないか、およびデ
ィスクの許容量がどのようでなければならないかといっ
た情報が示されている。また、同様の内容が、“cli
1”、“cli2”と名付けられているクライアントに
ついても示されている。さらに、“svr1”と“cl
i1”を結ぶネットワーク、および“svr1”と“c
li2”とを結ぶネットワークについて、それらの間を
流れる最大パケット数/平均パケット数がどのようでな
ければならないかが示されている。なお、この要求特性
データ1104に載せられるデータは、後述する業務仕
様管理手段111から得られるように構成されている。
また、要求特性データ1104に記述する内容および記
述の方法は、必ずしも上記の通りでなくとも良い。
【0052】(予測データ)さらに、運用保守制御手段
110は、予測対象リスト1103の内容を前記予測手
段112に引き渡し、それぞれの分散システムの構成要
素の予測動向を、予測データ1105として得る。この
予測データ1105は、ある時系列なデータとして得ら
れる。
【0053】図9は、予測データ1105の一例を示し
たものである。すなわち、予測が行われた運用保守分散
システム10内の構成要素の予測動向として、一日単位
で各構成要素がどのように推移するかが示されている。
なお、予測データ1105に記述する内容、記述の方法
および予測の時間間隔/期限などは、必ずしも上記の通
りでなくとも良い。
【0054】(判断部)さらに、運用保守制御手段11
0は、判断部1106において、運用保守制御リスト1
102と要求特性データ1104と予測データ1105
の内容を比較することにより、管理者13に通告すべき
運用保守対象リスト1107を作成する。
【0055】ここで、前記判断部1106の動作につい
て、図10乃至図12に示したフローチャートに基づい
て説明する。まず、要求特性データ1104からデータ
を一つ取り出す(ステップ1001)。例えば、図8に
示した要求特性データ1104の例では、「“svr
1”のCPUについての平均負荷が0.1以下でなけれ
ばならない」といったデータを取り出す。次に、予測デ
ータ1105のうち、現在に最も近い予測時点を選び
(ステップ1002)、予測データ1105から該当す
るデータを取り出す(ステップ1003)。例えば、図
9に示した予測データ1105の例では、現在に最も近
い予測時点である翌日(=1day)を選ぶ。そして、
その時点での予測値が、前記要求特性データ1104に
示された要求値を越えているか否かを判定し(ステップ
1004)、越えている場合には、その構成要素を「問
題あり」として記録する(ステップ1005)。例え
ば、図9に示した予測データ1105の翌日(=1da
y)の例では、“svr1”のCPUについての平均負
荷は“0.12”であり、図8に示された要求特性デー
タ1104の要求値である“0.1”を越えているの
で、その旨記録する。そして、要求を越えていたことが
わかった場合には、その時点をもってその構成要素の問
題発生時点とし、それ以降については、その構成要素に
ついては調べない。
【0056】一方、要求を越えていなければ次の予測時
点に移り(ステップ1006)、その予測時点における
予測値が、前記要求特性データ1104に示された要求
値を越えているか否かを判定し(ステップ1004)、
越えている場合には、その構成要素を「問題あり」とし
て記録する(ステップ1005)。そして、同様の処理
を予測データが尽きるまで調べる(ステップ100
7)。例えば、図9に示した予測データ1105の場合
には、問題が発見されない限り、100日後(=100
days)まで調べ続けられる。上記の処理を、要求特
性データ1104に示されたすべてのデータについて繰
り返す(ステップ1008、ステップ1009)。
【0057】要求特性データ1104に示されたすべて
のデータについて、上記の処理が終了した後、判断部1
106においては、運用保守制御リスト1102から重
要業務を一つ取り出す(ステップ1010)。例えば、
図6に示した運用保守制御リスト1102の例では、重
要業務として「受注業務」が選ばれる。さらに、事前の
処理(ステップ1001〜ステップ1009)による記
録から、問題が発生する構成要素を一つ取り出す(ステ
ップ1011)。例えば、先の例では、「“svr1”
のCPU」が選ばれる。
【0058】このとき、後述する業務仕様管理手段11
1に問い合わせて、重要業務がその構成要素を含んでい
るか否かを判断する(ステップ1012)。そして、重
要業務がその構成要素を含んでいる場合には、その構成
要素に問題が発生する時点が、その重要業務を構成する
他の構成要素に問題が発生する時点より早いか否かを調
べ(ステップ1013)、それらのどれよりも早い発生
時点であれば、その構成要素を問題発生の原因とし、か
つ、その発生時点を重要業務の問題発生時点とし(ステ
ップ1014)、「どの重要業務に、いつ、何の問題が
発生するか」を、運用保守対象リスト1107に載せる
(ステップ1015)。例えば、先の例では、『重要業
務として選ばれた「受注業務」が、「“svr1”のC
PU」の平均負荷の増大により、翌日には問題を引き起
こす』といった内容が、運用保守対象リスト1107に
記述される。
【0059】また、原因に対する対策を示すことができ
る場合には、合わせてその対策も運用保守対象リスト1
107に示される(ステップ1016、ステップ101
7)。このような対策を示すためには、様々な方法が考
えられるが、一つの方法としては、個々の構成要素毎
に、それが原因となった場合の対策についての情報を持
たせ、これを業務仕様管理手段111において直接管理
させる方法が考えられる。また、判断部1106内に判
断知識をルール化したものを置き、それを参照させる方
法なども考えられる。
【0060】以上の対応付けを、事前の処理(ステップ
1001〜ステップ1009)による記録のすべてにつ
いて繰り返す(ステップ1018、ステップ101
9)。さらに、運用保守制御リスト1102に挙げられ
たすべての重要業務について、上記処理を繰り返す(ス
テップ1020、ステップ1021)。
【0061】(運用保守対象リスト)次に、前記運用保
守対象リスト1107について説明する。すなわち、図
13は、運用保守対象リスト1107の一例を示したも
のであるが、この例では、将来的に支障が出る業務とそ
の日時および原因、さらに運用保守が必要な分散システ
ム10内の構成要素が指摘されており、これが管理者1
3に通告されることになる。
【0062】管理者13は、この運用保守対象リスト1
107を参照することによって、運用保守対象分散シス
テム10に問題が発生する前にそれを検知し、運用保守
が必要な構成要素についてだけ、計画的に運用保守を実
施することができるようになる。さらに、エンドユーザ
12は、運用保守対象リスト1107にしたがってなさ
れる管理者13からのアナウンスによって、突然十分な
サービスを受けられなくなる状況を回避できるようにな
る。
【0063】[3−2.運用保守制御手段における制御
の流れ]図14は、運用保守制御手段110における制
御の流れを示したものである。すなわち、管理者13
が、窓口1100から、どの業務について運用保守を行
うかを入力することによって、運用保守制御手段110
による制御が開始される(ステップ141)。あるい
は、所定の日時/時刻を設定したタイマ1101によっ
て、運用保守制御手段110による制御が自動的に開始
される(ステップ142)。
【0064】続いて、運用保守制御リスト1102に記
述された内容にしたがって、どの業務を運用保守の対象
とするかが決定され(ステップ143)、また、運用保
守制御リスト1102の内容をもとに、業務仕様管理手
段111に問い合わせることにより、運用保守の対象と
なり得る分散システムの構成要素を記述した予測対象リ
スト1103、およびそれらの構成要素が満たすべき特
性を要求として記述した要求特性データ1104が得ら
れる(ステップ144)。
【0065】次に、予測手段112に予測を依頼するこ
とにより、それぞれの分散システムの構成要素の予測動
向が、予測データ1105として得られる(ステップ1
45)。また、判断部1106において、運用保守制御
リスト1102と要求特性データ1104と予測データ
1105の内容が比較され(ステップ146)、運用保
守対象リスト1107が作成されて、管理者13に通告
される(ステップ147)。
【0066】[3−3.業務仕様管理手段の構成及び作
用]図15は、業務仕様管理手段111の構成を示した
ものである。すなわち、業務仕様管理手段111は、そ
の内部に「業務」とその業務に関連した運用保守対象分
散システム10の構成要素との関係を保持したデータベ
ース1110を保持している。また、このデータベース
1110では、業務1111、プロセス1112、テー
ブル1113、ノード1114、CPU1115、メモ
リ1116、ディスク1117、ネットワーク1118
の各構成要素と、各構成要素間の関係が管理されてい
る。なお、図15に示したデータベースにおいては、そ
れぞれの関係をエンティティリレーションシップ図を用
いて表している。また、ここでいう「ノード」とは、例
えば、一つのIPアドレスを持つような計算機のことを
意味している。
【0067】次に、前記データベース1110をリレー
ショナルデータベースとして構築したときに、業務11
11やプロセス1112などがどのように格納されるか
について、図16〜図23を参照して説明する。
【0068】すなわち、図16には、「業務」について
記述したテーブル(A)と、業務に関連する「プロセ
ス」を記述したテーブル(B)の2つが示されている。
そして、この2つのテーブルから、「ある業務がどのよ
うなプロセスから構築されているか」、また「その業務
がどれだけの時間で処理を終えなければならないか」に
ついての情報を得ることができる。
【0069】また、図17には、「プロセス」について
記述したテーブル(A)と、プロセスが配置されている
「ノード」を記述したテーブル(B)と、プロセスが処
理の対象とする「テーブル」およびその配置先を記述し
たテーブル(C)の3つが示されている。そして、この
3つのテーブルから、「どのプロセスがどのノードで実
行され」、「どのノードにあるどのテーブルにアクセス
するか」、また「実行にあたって、どれだけの処理時間
とメモリを消費するか」についての情報を得ることがで
きる。なお、処理時間としては、仮定されたある処理性
能を有する標準的な計算機によって処理が実行された場
合に、必要とされる時間が表示されている。
【0070】次に、図18には、「テーブル」について
記述したテーブル(A)と、テーブルが配置されている
「ノード」を記述したテーブル(B)の2つが示されて
いる。また、図19には、「ノード」について記述した
テーブル(A)と、ノードが保持しているCPU、メモ
リ、ディスク、ネットワークとの関連を記述したテーブ
ル(B)〜(E)の5つが示されている。さらに、図2
0には「CPU」について記述したテーブルが記述さ
れ、図21には「メモリ」について記述したテーブルが
記述されている。また、図22には、「ディスク」につ
いて記述したテーブルが記述され、図23には、「ネッ
トワーク」について記述したテーブルが記述されてい
る。
【0071】そして、上記の図20から図23までに示
された各テーブルの値は、図16で示された業務111
1のレスポンスタイムを満たすことができるように決定
されている。例えば、受注業務(業務ID=100)の
レスポンスタイムは3秒であることが要求されており
(図16参照)、このとき受注業務によって使用される
受注プロセス(プロセスID=101)の処理時間が3
00であり(図17参照)、さらに、“svr1”のC
PUについてみると、その性能は標準として設定された
CPUの2倍の性能であることから(図20参照)、
『“svr1”のCPUがそれぞれ最大負荷が2、平均
負荷が0.1を越えていては受注業務に要求されている
レスポンスタイムを実現できない』といった判断を管理
者13が行うことで、値が決定される。
【0072】なお、業務仕様管理手段111あるいはデ
ータベース1110が管理する、上記図16から図23
までに示されている構成要素の種類、管理方法について
は、必ずしも上記の通りでなくとも良い。
【0073】[3−4.予測手段の構成及び作用]図2
4は、予測手段112の構成を示したものである。すな
わち、予測手段112は、その内部に、運用保守制御手
段110から引き継いだ予測対象リスト1103と、各
構成要素毎に適用される予測モデル1121、各構成要
素毎の過去の推移リスト1120、各構成要素毎の予測
データ1122、および運用保守制御手段110に引き
渡す予測データ1105を保持している。
【0074】ここで、各構成要素毎に適用される予測モ
デル1121は、予測を行いたい構成要素の過去の推移
リスト1120と、他の構成要素の過去の推移リスト1
120とを組み合わせて使用される。例えば、CPUの
負荷予測を行うことを考えた場合、当然のことながらC
PU自身の過去の推移も参照するべきであるし、また、
メモリの影響を受けるのであれば、メモリについての過
去の推移を参照しても良い。さらに予測モデル1121
は、統計的な算術式によるものでも良いし、いわゆるニ
ューラルネットワークモデルに基づくような自己学習型
の予測手段をモデル化したものでも良い。
【0075】そして、最終的に予測手段112は、各構
成要素毎の予測データ1122を編集してまとめ、予測
データ1105として運用保守制御手段110に引き渡
すように構成されている。
【0076】(統計的な手段を用いた予測モデルの一
例)ここで、統計的な手段を用いた予測モデルの一例と
して、ディスク105の使用量の将来動向の予測を扱っ
てみる。なお、予測にあたっては、次の2つの前提を置
く。すなわち、(1)ディスク105の使用量は、ユー
ザ数と強い相関関係にある。(2)ユーザ数は、時間と
共に直線的に増加する。
【0077】このような前提のもとでは、先にユーザ数
の変化を予測し、それを基にディスク105の使用量の
変化を予測することになる。まず、ある時刻xi のもと
でユーザ数がyi であったとすると、前提(2)より、
両者の関係は次のように表わされる。
【0078】
【数1】y=ax+b …(1) 上式における“a”および“b”は、増加(あるいは減
少)傾向を表すための係数である。この“a”および
“b”を最小2乗法によって求めるために、以下の連立
方程式を解く。
【0079】
【数2】 すると、解は、以下のようになる。
【0080】
【数3】 次に、以上によって求められたユーザ数yi を基に、デ
ィスク105の使用量zi を求める。前提(1)より、
両者の関係は以下のような回帰直線によって表わされ
る。なお、この回帰直線は、zのyへの回帰直線とす
る。
【0081】
【数4】 上式において、σy はyの標準偏差、σz はzの標準偏
差、ρyzはyとzの相関係数を表し、yの平均値はyの
上にバーを付し、zの平均値はzの上にバーを付して表
している。
【0082】以上に示した一連の式(1)から式(4)
が予測モデルとして機能することによって、ディスク1
05の使用量の将来動向を予測することが可能となる。
【0083】(自己学習的な手段を用いた予測モデルの
一例)次に、自己学習的な手段を用いた予測モデルの一
例として、ネットワーク106の負荷の将来動向の予測
を扱ってみる。なお、ここでは自己学習型の予測手段と
して、図25に示すような多層型ニューラルネットワー
ク30を採用するものとする。また、予測にあたって、
ネットワーク106の負荷は、自己の過去の推移から予
測可能であるという前提を置く。さらに、このニューラ
ルネットワーク30を構成するニューロン32は、図2
6に示すようなシグモイド関数31と呼ばれる非線型モ
デルによって表現されるものとする。
【0084】まず、本予測手段112を含んだ運用保守
支援装置11の利用に先立って準備を行う。すなわち、
ネットワーク106の負荷の過去の推移を教師値とし
て、対応する入力層33の値34(=x)およびネット
ワークの重みに基づく出力層37の値38(=z)との
誤差が最小になるように、ニューロン間の重み係数39
(=w)を更新しておく。
【0085】なお、この学習のためには、バックプロパ
ゲーション法が用いられる。また、予測を行うには、予
測を行おうとする時点および、それより過去の時点のネ
ットワーク106の負荷からなる値のリストx=
(x1 ,x2 ,x3 ,....,xn )を入力として、
以下の式(5)から式(8)によってネットワークの出
力値38(=z)が求められる。
【0086】
【数5】
【数6】
【数7】
【数8】 なお、入力値34や中間値36、あるいは出力値38
は、実際の値から正規化/逆正規化して扱う必要があ
る。すなわち、ネットワーク106の負荷の場合、実際
に流れるパケットの量を表す数百や数千といった値を正
規化して0近傍の値に変換してから入力値34とした
り、0から1の間までの値として出力された出力値も逆
正規化して実際のパケット量を表すようにしてやる必要
がある。この正規化/逆正規化は、ニューラルネットワ
ークの反応性を高めるという意味からも必要なものであ
る。
【0087】以上に示した多層型ニューラルネットワー
クが予測モデルとして機能することによって、ネットワ
ーク106の負荷の将来動向を予測することが可能とな
る。また、このような自己学習型の予測モデルを採用す
ることで、どの時間帯に業務が集中するかといった情報
を明示的に示さなくても、それらの情報を考慮できるよ
うになる。
【0088】[4.本実施形態の運用保守支援装置の効
果]上述したように、本実施形態の運用保守支援装置に
おいては、この装置を構成する上記各手段によって、
「どの業務を運用保守の対象とすべきか」、「その業務
に関連する分散システム内の構成要素は何か」、「その
構成要素が満たすべき特性はどのようなものか」、「そ
の構成要素の将来的な動向はどのようなものか」といっ
た観点で、分散システムの運用保守を支援する処理が進
められる。
【0089】その結果、重要な業務に関連した運用保守
対象を優先して運用保守することができ、また、運用保
守に対して優先度をつけることができるので、無駄な運
用保守コストの発生を抑えることができる。さらに、運
用保守を行うための分析が適切に行えるので、有効な運
用保守計画を立てることができる。
【0090】
【実施例】以下に、より具体的な実施例を用いて、運用
保守が想定される幾つかの場面において、本発明が提案
する運用保守支援装置および方法によって得られる作用
・効果について説明する。
【0091】まず始めの例として、World Wid
e Webを利用した情報提供を行うための分散システ
ムを取り上げる。図27は、この分散システムの概要を
示したものである。すなわち、図27において、分散シ
ステム50では、ネットワーク53に接続された多数の
クライアント52が、HTTP(Hyper Text
Transfer Protocol)サーバ51a
および51bへアクセスする。また、この分散システム
50のエンドユーザ54は、この分散システム50を利
用して、情報検索を行うものとする。
【0092】ここで、情報検索には2種類あり、随時頻
繁に行われ、結果も数秒で返ってこなければならない検
索処理50aと、不定期でそれほど頻繁でもなく、結果
も翌日返ってくればよい検索処理50bがあるものとす
る。なお、想定している状況では、クライアント52の
台数が、なおも日に日に増加している最中であるとす
る。
【0093】これまでの運用保守技術では、クライアン
ト52の台数の増加に伴って、分散システム50内のす
べての構成要素の増強を検討しなければならず、その結
果、実施する運用保守も必ずしも適切なものであるとい
う保証はなかった。
【0094】しかしながら、本発明による運用保守技術
では、管理者55が運用保守支援装置から運用保守支援
を受けることにより、業務の「意味」を考慮した適切な
運用保守を行うことができるようになる。すなわち、上
述した図1から図24にしたがって説明すると、管理者
55が任意の時点で運用保守支援を受けるために窓口1
100を介するか、あるいはタイマ1101に設定され
た日時になるかのいずれかによって、運用保守支援装置
11が起動される。この運用保守支援装置11内の運用
保守制御手段110は、窓口1100あるいは運用保守
制御リスト1102から得られる情報(業務や、それに
対する付随情報)により、運用保守の対象となる業務を
特定し、業務仕様管理手段111に運用保守の必要があ
るかも知れない分散システム50内の構成要素の選択を
依頼する。
【0095】続いて、業務仕様管理手段111は、指定
された業務と、業務仕様管理手段111内で管理されて
いるデータベース1110内の情報と照らし合わせるこ
とで、分散システム50内において運用保守が必要にな
るかもしれない構成要素のみを選びだす。本例において
は、重要な業務であると考えられる検索処理50aに関
連した構成要素のみが選びだされ、検索処理50bだけ
に関連した構成要素は選びだされない。
【0096】この結果、運用保守制御手段110は、検
索処理50aが行われるHTTPサーバ51aについて
記載した予測対象リスト1103と、「検索処理50a
は数秒で処理を終えなければならない」という要求特性
データ1104を得る。さらに、運用保守制御手段11
0は、予測手段112に対して、HTTPサーバ51a
に関して、それに接続されるクライアント52の増加に
関連したCPUやメモリ、あるいはディスク、ネットワ
ークなどの構成要素の将来動向を、それぞれの過去の推
移状況とモデルに照らし合わせて予測するよう依頼す
る。
【0097】この予測の結果は、予測データ1105と
して運用保守制御手段110に渡され、判断部1106
が運用保守制御リスト1102および要求特性データ1
104と照らし合わせることで、運用保守上問題が発生
する箇所とその時期を判断し、運用保守対象リスト11
07としてまとめ、最終的に管理者55に提示される。
【0098】[5.他の実施形態]本発明は、上述した
実施形態に限定されるものではなく、運用保守支援装置
を運用保守制御手段110、業務仕様管理手段111及
び監視手段113のみから構成することも可能である。
なお、この場合は、分散システムのエンドユーザがもっ
とも重要であると考えている業務に関連した運用保守対
象が優先して運用保守され、かつ、重要な業務に関連し
た運用保守対象が重点的に運用保守されることで、無駄
な運用保守コストの発生を抑えることができる。
【0099】また、前記運用保守制御手段110に設け
られる窓口において、運用保守すべき業務の重要度を自
動的に設定できるように構成することもできる。すなわ
ち、図28に示したように、窓口1100には、保守指
示履歴データベース11000と閾値11001が備え
られている。なお、この保守指示履歴データベース11
000は、窓口1100から管理者13が運用保守対象
業務及び業務投入ノード等を明示するたびに、その業務
が明示されたのは何回目か、あるいはその業務に対して
そのノードが指定されたのは何回目なのかといった情報
を格納するものである。また、閾値11001は、窓口
1100に予め設定されており、業務あるいは業務とノ
ードの組み合わせについての保守指示回数がこの値を越
えた場合には、運用保守制御リスト1102にその業務
を重要業務として記載すべきか否かの検討が必要である
との判断を下す基準となるものである。
【0100】そして、この判断の結果、その保守指示回
数が閾値11001を越えた業務を重要業務として強制
的に運用保守制御リスト1102に追加しても良いし、
図29に示したように、ダイアログボックスなどのユー
ザインターフェースを提供することにより、管理者13
の了解を得たあとで運用保守制御リスト1102に追加
しても良い。
【0101】このように構成することにより、管理者1
3が当初はあまり重要でないと考えていた業務を見逃す
危険性を低く抑えることができるようになる。なお、前
記保守指示履歴データベース11000に格納する内容
は、上述したものに限定されるものではなく、また、閾
値11001についても、すべての業務あるいは業務と
ノードの組み合わせについて同じ値に設定しても、異な
る値に設定しても良い。
【0102】
【発明の効果】以上説明したように本発明によれば、分
散システム上に実装される業務の「意味」を意識するこ
とによって、分散システムのエンドユーザがもっとも重
要であると考えている業務に関連した運用保守対象が優
先して運用保守され、かつ、重要な業務に関連した運用
保守対象が重点的に運用保守されることで、無駄な運用
保守コストの発生を抑えることができ、かつ、運用保守
を行うための分析が適切に行え、有効な運用保守計画を
立てることができるようになる。
【図面の簡単な説明】
【図1】本発明による運用保守支援の全体像
【図2】運用保守対象分散システムの構成図
【図3】運用保守支援装置の構成図
【図4】運用保守制御手段の構成図
【図5】「窓口」で行われる入力処理を受け付ける画面
の一例を示す図
【図6】運用保守制御リストの一例を示す図
【図7】予測対象リストの一例を示す図
【図8】要求特性データの一例を示す図
【図9】予測データの一例を示す図
【図10】判断部における制御の流れの前段部を示すフ
ローチャート
【図11】判断部における制御の流れの中段部を示すフ
ローチャート
【図12】判断部における制御の流れの後段部を示すフ
ローチャート
【図13】運用保守対象リストの一例を示す図
【図14】運用保守制御手段の制御の流れを示すフロー
チャート
【図15】業務仕様管理手段の構成図
【図16】業務の格納方法の一例を示す図
【図17】プロセスの格納方法の一例を示す図
【図18】テーブルの格納方法の一例を示す図
【図19】ノードの格納方法の一例を示す図
【図20】CPUの格納方法の一例を示す図
【図21】メモリの格納方法の一例を示す図
【図22】ディスクの格納方法の一例を示す図
【図23】ネットワークの格納方法の一例を示す図
【図24】予測手段の構成図
【図25】多層型ニューラルネットワークの一例を示す
【図26】ニューロンの一例を示す図
【図27】本発明の一実施例を示す図
【図28】本発明の他の実施形態における窓口の構成を
示す図
【図29】本発明の他の実施形態における運用保守制御
リストの更新確認画面の一例を示す図

Claims (8)

    【特許請求の範囲】
  1. 【請求項1】 複数の計算機およびその周辺機器をネッ
    トワークを介して構成した分散システムに対する運用保
    守支援装置であって、 前記分散システムの運用保守支援を開始し、さらにその
    後に続く運用保守支援動作を制御する運用保守制御手段
    と、 前記分散システムの構成要素とその分散システムに実装
    される業務アプリケーションとの間の対応関係を所定の
    仕様として管理し、前記運用保守制御手段からの問い合
    わせに応じて、所定の業務情報及び所定の構成要素情報
    の少なくともいずれか一方を提供する業務仕様管理手段
    と、 前記分散システムから、運用保守支援のために必要な運
    用保守情報を収集する監視手段とを備えたことを特徴と
    する分散システム運用保守支援装置。
  2. 【請求項2】 複数の計算機およびその周辺機器をネッ
    トワークを介して構成した分散システムに対する運用保
    守支援装置であって、 前記分散システムの運用保守支援を開始し、さらにその
    後に続く運用保守支援動作を制御する運用保守制御手段
    と、 前記分散システムの構成要素とその分散システムに実装
    される業務アプリケーションとの間の対応関係を所定の
    仕様として管理し、前記運用保守制御手段からの問い合
    わせに応じて、所定の業務情報及び所定の構成要素情報
    の少なくともいずれか一方を提供する業務仕様管理手段
    と、 前記分散システムの構成要素の内、運用保守制御手段に
    より指示された構成要素の将来的な動向を予測する予測
    手段と、 前記分散システムから、運用保守支援のために必要な運
    用保守情報を収集する監視手段とを備えたことを特徴と
    する分散システム運用保守支援装置。
  3. 【請求項3】 前記予測手段が、前記監視手段によって
    収集された運用保守情報と、予測に当てはめられる予測
    モデルとに基づいて、分散システムの構成要素の将来的
    な動向を予測するように構成されていることを特徴とす
    る請求項2に記載の分散システム運用保守支援装置。
  4. 【請求項4】 前記運用保守制御手段が、運用保守対象
    とすべき業務の重要度を自動的に設定するように構成さ
    れていることを特徴とする請求項1乃至請求項3のいず
    れか一に記載の分散システム運用保守支援装置。
  5. 【請求項5】 複数の計算機およびその周辺機器をネッ
    トワークを介して構成した分散システムに対する運用保
    守支援方法であって、 前記分散システムの運用保守支援を開始し、さらにその
    後に続く運用保守支援動作を制御する運用保守制御ステ
    ップと、 前記分散システムの構成要素とその分散システムに実装
    される業務アプリケーションとの間の対応関係を所定の
    仕様として管理し、前記運用保守制御ステップにおける
    問い合わせに応じて、所定の業務情報及び所定の構成要
    素情報の少なくともいずれか一方を提供する業務仕様管
    理ステップと、 前記分散システムから、運用保守支援のために必要な運
    用保守情報を収集する監視ステップとを含むことを特徴
    とする分散システム運用保守支援方法。
  6. 【請求項6】 複数の計算機およびその周辺機器をネッ
    トワークを介して構成した分散システムに対する運用保
    守支援方法であって、 前記分散システムの運用保守支援を開始し、さらにその
    後に続く運用保守支援動作を制御する運用保守制御ステ
    ップと、 前記分散システムの構成要素とその分散システムに実装
    される業務アプリケーションとの間の対応関係を所定の
    仕様として管理し、前記運用保守制御ステップにおける
    問い合わせに応じて、所定の業務情報及び所定の構成要
    素情報の少なくともいずれか一方を提供する業務仕様管
    理ステップと、 前記分散システムの構成要素の内、運用保守制御ステッ
    プにおいて指示された構成要素の将来的な動向を予測す
    る予測ステップと、 前記分散システムから、運用保守支援のために必要な運
    用保守情報を収集する監視ステップとを含むことを特徴
    とする分散システム運用保守支援方法。
  7. 【請求項7】 前記予測ステップが、前記監視ステップ
    によって収集された運用保守情報と、予測に当てはめら
    れる予測モデルとに基づいて、分散システムの構成要素
    の将来的な動向を予測するように構成されていることを
    特徴とする請求項6に記載の分散システム運用保守支援
    方法。
  8. 【請求項8】 前記運用保守制御ステップが、運用保守
    対象とすべき業務の重要度を自動的に設定するように構
    成されていることを特徴とする請求項5乃至請求項7の
    いずれか一に記載の分散システム運用保守支援方法。
JP8237721A 1996-09-09 1996-09-09 分散システム運用保守支援装置および運用保守支援方法 Pending JPH1083382A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP8237721A JPH1083382A (ja) 1996-09-09 1996-09-09 分散システム運用保守支援装置および運用保守支援方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP8237721A JPH1083382A (ja) 1996-09-09 1996-09-09 分散システム運用保守支援装置および運用保守支援方法

Publications (1)

Publication Number Publication Date
JPH1083382A true JPH1083382A (ja) 1998-03-31

Family

ID=17019517

Family Applications (1)

Application Number Title Priority Date Filing Date
JP8237721A Pending JPH1083382A (ja) 1996-09-09 1996-09-09 分散システム運用保守支援装置および運用保守支援方法

Country Status (1)

Country Link
JP (1) JPH1083382A (ja)

Cited By (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2001101134A (ja) * 1999-09-30 2001-04-13 Fujitsu Ltd サービス振り分け装置
JP2002268920A (ja) * 2001-03-09 2002-09-20 Daiwa Securities Group Inc 負荷監視システム、負荷監視方法、およびプログラム
JP2003501716A (ja) * 1999-05-28 2003-01-14 ヒューレット・パッカード・カンパニー コンピューティングプラットフォームにおけるデータイベントの記録
JP2003067352A (ja) * 2001-08-30 2003-03-07 Nec Corp パーティション構成変更方式、パーティション構成変更方法およびパーティション構成変更用プログラム
JP2003085005A (ja) * 2001-09-14 2003-03-20 Nec Corp 計算機システム構成自動変更方式
JP2003178040A (ja) * 2001-12-10 2003-06-27 Hitachi Information Systems Ltd ウェブサイトの構成決定支援方法
JP2005031893A (ja) * 2003-07-10 2005-02-03 Hitachi Ltd 運用管理方法及び装置
JP2005128866A (ja) * 2003-10-24 2005-05-19 Hitachi Ltd 計算機装置及び計算機装置の制御方法
US7069473B2 (en) 2001-10-05 2006-06-27 Nec Corporation Computer recovery method and system for recovering automatically from fault, and fault monitoring apparatus and program used in computer system
JP2006221400A (ja) * 2005-02-10 2006-08-24 Yokogawa Electric Corp 構成管理方法及びこれを用いた管理装置
JP2007122358A (ja) * 2005-10-27 2007-05-17 Fujitsu Ltd 想定外需要検出システムおよび想定外需要検出プログラム
JP2008041100A (ja) * 2006-08-07 2008-02-21 Internatl Business Mach Corp <Ibm> データ処理システムにおけるリソース共有とアプリケーション待ち時間のバランシング方法
JP2008257397A (ja) * 2007-04-03 2008-10-23 Hitachi Ltd 設備業務統合管理方法及びシステム並びにそのプログラム
US8424002B2 (en) 2005-12-14 2013-04-16 Hitachi, Ltd. Method, system and program of outputting information
JP2014225081A (ja) * 2013-05-15 2014-12-04 株式会社日立システムズ 仮想サーバリソース制御システム及び仮想サーバリソース制御方法

Cited By (18)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2003501716A (ja) * 1999-05-28 2003-01-14 ヒューレット・パッカード・カンパニー コンピューティングプラットフォームにおけるデータイベントの記録
JP4860856B2 (ja) * 1999-05-28 2012-01-25 ヒューレット・パッカード・カンパニー コンピュータ装置
JP2001101134A (ja) * 1999-09-30 2001-04-13 Fujitsu Ltd サービス振り分け装置
JP2002268920A (ja) * 2001-03-09 2002-09-20 Daiwa Securities Group Inc 負荷監視システム、負荷監視方法、およびプログラム
JP2003067352A (ja) * 2001-08-30 2003-03-07 Nec Corp パーティション構成変更方式、パーティション構成変更方法およびパーティション構成変更用プログラム
JP2003085005A (ja) * 2001-09-14 2003-03-20 Nec Corp 計算機システム構成自動変更方式
US7069473B2 (en) 2001-10-05 2006-06-27 Nec Corporation Computer recovery method and system for recovering automatically from fault, and fault monitoring apparatus and program used in computer system
JP2003178040A (ja) * 2001-12-10 2003-06-27 Hitachi Information Systems Ltd ウェブサイトの構成決定支援方法
JP2005031893A (ja) * 2003-07-10 2005-02-03 Hitachi Ltd 運用管理方法及び装置
US7350100B2 (en) 2003-07-10 2008-03-25 Hitachi, Ltd. Method and apparatus for monitoring data-processing system
US8250400B2 (en) 2003-07-10 2012-08-21 Hitachi, Ltd. Method and apparatus for monitoring data-processing system
JP2005128866A (ja) * 2003-10-24 2005-05-19 Hitachi Ltd 計算機装置及び計算機装置の制御方法
JP2006221400A (ja) * 2005-02-10 2006-08-24 Yokogawa Electric Corp 構成管理方法及びこれを用いた管理装置
JP2007122358A (ja) * 2005-10-27 2007-05-17 Fujitsu Ltd 想定外需要検出システムおよび想定外需要検出プログラム
US8424002B2 (en) 2005-12-14 2013-04-16 Hitachi, Ltd. Method, system and program of outputting information
JP2008041100A (ja) * 2006-08-07 2008-02-21 Internatl Business Mach Corp <Ibm> データ処理システムにおけるリソース共有とアプリケーション待ち時間のバランシング方法
JP2008257397A (ja) * 2007-04-03 2008-10-23 Hitachi Ltd 設備業務統合管理方法及びシステム並びにそのプログラム
JP2014225081A (ja) * 2013-05-15 2014-12-04 株式会社日立システムズ 仮想サーバリソース制御システム及び仮想サーバリソース制御方法

Similar Documents

Publication Publication Date Title
US8099379B2 (en) Performance evaluating apparatus, performance evaluating method, and program
CN101084680B (zh) 在电信服务和/或网络管理平台中管理资源的方法、相应平台及其计算机程序产品
CN100484119C (zh) 用于在计算网格中创建服务实例的方法、系统和装置
JPH1083382A (ja) 分散システム運用保守支援装置および運用保守支援方法
Balasangameshwara et al. Performance-driven load balancing with a primary-backup approach for computational grids with low communication cost and replication cost
US8640132B2 (en) Jobstream planner considering network contention and resource availability
US7451226B1 (en) Method for grouping content requests by behaviors that relate to an information system&#39;s ability to deliver specific service quality objectives
US8930521B2 (en) Method, apparatus, and computer program product for enabling monitoring of a resource
US8447848B2 (en) Preparing execution of systems management tasks of endpoints
CN112882813A (zh) 任务调度方法、装置、系统及电子设备
CN101014036A (zh) 用于节点簇的分散应用程序资源分配的方法与系统
CN104144183A (zh) 数据中心系统及数据中心系统的管理方法
US7085831B2 (en) Intelligent system control agent for managing jobs on a network by managing a plurality of queues on a client
US7996507B2 (en) Intelligent system control agent for managing jobs on a network by managing a plurality of queues on a client
WO2006052286A2 (en) Renderfarm monitoring system
US11722558B2 (en) Server-side resource monitoring in a distributed data storage environment
US7707080B2 (en) Resource usage metering of network services
US20050165854A1 (en) System for managing job performance and status reporting on a computing grid
US8250212B2 (en) Requester-side autonomic governor
US7552215B2 (en) Method, system, and computer program product for supporting a large number of intermittently used application clusters
CN101576831A (zh) 一种分布式计算系统及实现方法
WO2024021469A1 (zh) 一种系统运维管理方法、装置及电子设备
CN112214303A (zh) Kubernetes集群自动缩放系统
JP2005539312A (ja) フォールトトレランススキームを動的に切換えるための方法
CN116719623A (zh) 作业调度方法、作业结果处理方法及其装置