JP5466622B2 - 運用監視装置、運用監視方法、および運用監視プログラム - Google Patents

運用監視装置、運用監視方法、および運用監視プログラム Download PDF

Info

Publication number
JP5466622B2
JP5466622B2 JP2010262778A JP2010262778A JP5466622B2 JP 5466622 B2 JP5466622 B2 JP 5466622B2 JP 2010262778 A JP2010262778 A JP 2010262778A JP 2010262778 A JP2010262778 A JP 2010262778A JP 5466622 B2 JP5466622 B2 JP 5466622B2
Authority
JP
Japan
Prior art keywords
server
information
economic
application
operation monitoring
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2010262778A
Other languages
English (en)
Other versions
JP2012113556A (ja
Inventor
真法 堂宮
卓也 島川
政洋 吉澤
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hitachi Ltd
Original Assignee
Hitachi Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hitachi Ltd filed Critical Hitachi Ltd
Priority to JP2010262778A priority Critical patent/JP5466622B2/ja
Priority to PCT/JP2011/067629 priority patent/WO2012070284A1/ja
Publication of JP2012113556A publication Critical patent/JP2012113556A/ja
Application granted granted Critical
Publication of JP5466622B2 publication Critical patent/JP5466622B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/06Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling

Landscapes

  • Engineering & Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • Human Resources & Organizations (AREA)
  • Strategic Management (AREA)
  • Economics (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Educational Administration (AREA)
  • Game Theory and Decision Science (AREA)
  • Development Economics (AREA)
  • Marketing (AREA)
  • Operations Research (AREA)
  • Quality & Reliability (AREA)
  • Tourism & Hospitality (AREA)
  • Physics & Mathematics (AREA)
  • General Business, Economics & Management (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)
  • Debugging And Monitoring (AREA)

Description

本発明は、システムの運用を監視する技術に関する。
インターネット技術の進歩に伴い、従来のように自社で保有していた情報システム資産を保有せず、クラウドサービスを利用する、つまりインターネットを介してハードウェアやソフトウェアを利用する企業が増えている。これにより、利用側の企業にとっては情報システムの運用管理が不要となり、必要なリソースまたは機能を必要な時に必要なだけ利用することが可能となった。
一方、データセンタにあらかじめ情報システム資産を保有し、その資産を利用した様々なサービスを提供するようなクラウドサービスプロバイダが増えている。サービス形態での分類としては、ハードウェアをサービスとして提供する形態(PaaS:Platform as a Service)やハードウェア上で稼働するアプリケーションをサービスとして提供する形態(SaaS:Software as a Service)がある。また、サービスの適用範囲での分類としては、ある企業占有の環境を提供する形態(プライベートクラウド)やサービス企業や多種多様な企業や組織、あるいは個人といった不特定多数の利用に対して提供する形態(パブリッククラウド)がある。
クラウドサービスプロバイダは、今までユーザ自身が行っていた情報システム資産の運用管理業務を代行することとなるため、ユーザとの契約において提供するサービスの内容と範囲、品質などに対する要求(達成)水準を明確にして、それが達成できなかった場合のルールを含めて、あらかじめ合意(Service Level Agreement:SLA)しておくことが必要となる。したがって、クラウドサービスプロバイダにとってSLAを守るためにいかに運用管理業務を遂行するかが重要となっている。
従来型の情報システム資産を保有して自社で運用を行う環境やプライベートクラウド環境においては、情報システムの利用方法や利用頻度などが明確に把握できており、その利用要件に合わせた運用設計が可能であった。一方、パブリッククラウド環境においては、複数のユーザが共有リソース上で稼働しており、またそのユーザの利用方法も様々な状況下でどのような運用設計を行うべきかが課題となっており、先行技術文献の中でいくつかの技術が開示されている。
特許文献1では、各々の要素の性能情報間の相関関係を適切に抽出しモデル化することで、実際の運用状況で発生するボトルネックを正確に予測する技術を開示している。
特許文献2では、過去の時系列データの変動傾向が現状の時系列データの変動傾向と明らかに異なる場合でも高精度に予測する技術を開示している。
特許文献3では、アプリケーションサーバに対するリクエストごとにサーバに与える負荷が異なる動的コンテンツについてもリクエストからサーバ負荷の予測値を計測する技術を開示している。
特許文献4では、アクセス数の変動などに対しても、チャネルやユーザ属性などに応じてサーバの負荷や性能を調整して適切に対処、応答する技術を開示している。
特開2009−199534号公報 特開2010−108283号公報 特開2008−225651号公報 特開2010−152818号公報
昨今インターネット技術の進歩に伴いクラウドビジネスが拡大しつつあり、パブリッククラウド環境を提供するクラウドサービスプロバイダにとっては信頼性の高いサービスを提供していくための仕掛けが望まれている。本明細書にて「信頼性の高いサービス」とは、サービスを停止させることなくSLAを遵守し続けることと定義する。信頼性の高いサービスの実現のためには、データセンタで稼働するサーバ負荷を監視し、障害が発生する前に適切な対応を実施することが必要となる。しかし、パブリッククラウド環境下では、複数のユーザが共有リソース上で稼働しており、またそのユーザの利用方法も様々なため、いつどのような対応を事前に講じるべきかを把握することが大きな課題となっている。
特許文献1と特許文献2では、過去の蓄積データのみからのボトルネックを予測する手法が提唱されているものの、ユーザの利用状況の急激な変化への対応などの過去の実績値からでは想定できない不確定要因への考慮が不足している。
特許文献3と特許文献4では、高度な負荷分散技術を用いて現状のリソースを有効活用するための重要な技術であるが、現状のリソースで負荷分散しきれなくなる時期の予測という観点では考慮されていない。
そこで本発明は、将来もっとも負荷が高くなりボトルネックとなりうるサーバを高精度に予測することを課題とする。
前記課題を解決するため、本発明では、データセンタで稼働する各サーバから収集した性能情報(内部で収集できる情報)だけでなく、外部に公開されている経済指標を示す情報(内部で収集できない情報)を用いることで、将来のユーザの利用方法の変動やユーザ数の変動に対応可能な予測式(重回帰式)を算出する。
詳細は、後記する。
本発明によれば、将来もっとも負荷が高くなりボトルネックとなりうるサーバを高精度に予測することが可能となる。
本実施形態に係る運用監視システム1の全体構成の例を示す図である。 本実施形態に係る運用監視サーバ11のハードウェア構成の例を示す図である。 本実施形態に係る統合サービスプラットフォーム14のハードウェア構成の例を示す図である。 本実施形態に係る運用監視サーバ11が有する認証情報221のデータ構成の例を示す図である。 本実施形態に係る運用監視サーバ11が有する性能情報223のデータ構成の例を示す図である。 本実施形態に係る運用監視サーバ11が有する経済情報224のデータ構成の例を示す図である。 本実施形態に係る運用監視サーバ11が有するアプリケーション情報225のデータ構成の例を示す図である。 本実施形態に係る運用監視サーバ11が有する予測情報226のデータ構成の例を示す図である。 本実施形態に係る運用監視サーバ11のデータ取得機能215の性能情報取得処理シーケンスを示す図である。 本実施形態に係る運用監視サーバ11のデータ取得機能215の経済情報の取得処理シーケンスを示す図である。 本実施形態に係る運用監視サーバ11のアプリケーション情報登録処理を示す図である。 本実施形態に係る運用監視サーバ11のボトルネック予測機能214の分析ロジックを示す図である。 本実施形態に係る変数増加法による説明変数(経済指標)の選定ロジックを示す図である。 本実施形態に係る運用監視サーバ11に運用者端末16からアクセスし、稼働統計情報を検索する際のフローチャートを示す図である。 本実施形態に係る運用監視サーバ11に運用者端末16からアクセスし、予測情報を検索する際フローチャートを示す図である。 本実施形態に係るアプリケーション情報登録画面1600の例を示す図である。 本実施形態に係る稼働統計情報のグラフ表示画面1700の例を示す図である。 本実施形態に係るボトルネックおよび予測情報検索画面1800の例を示す図である。 本実施形態に係る予測情報のグラフ表示画面1900の例を示す図である。
以下、本発明の一実施形態について、図面を参照して詳細に説明する。
(概要)
本発明は、データセンタで稼働する機器(サーバ)と接続された運用監視サーバに実装するボトルネック予測ロジックである。前記の運用監視サーバは、各監視対象機器から稼働データを取得するためのネットワークインタフェース部と監視対象機器からボトルネックを算出するための性能情報、経済情報、アプリケーション情報を格納する記憶部と、制御部とを具備する。
「性能情報」とは、例えば、各監視対象機器からCPU(Central Processing Unit)利用率、メモリ利用率、ディスクビジー率、ネットワークトラフィック量などハードウェアから取得する情報とそのハードウェア上で稼働しているアプリケーションサーバなどのサーバから取得する情報である。つまり、性能情報はデータセンタの内部で収集することが可能なデータのことである。
「経済情報」とは、例えば、インターネット上に公開されているサイトから取得する経済指標の情報である。つまり、経済情報は、データセンタの外部から収集するデータのことである。
監視対象機器からボトルネックを予測するにあたり、内部で収集することができる過去からの蓄積データによる回帰予測を実施する点では先行文献と共通している。しかし、本発明では、上記回帰予測に対してより予測精度を高めるために、経済指標の情報という観点を取り込んだ。「経済指標」とは、現状の経済状況を表す指標であり、製造業向けアプリケーションを例にとってみると、その利用状況の推移は、製造業全体の売上高や設備投資額の推移と相関が見られる。そこで、パブリッククラウド環境におけるユーザの利用頻度などの不確定要素を経済指標から明らかにしようということである。
経済指標を取り込むにあたりどのような経済指標を取り込むべきかが次の課題となってくる。この課題に対しては、パブリッククラウド環境上で稼働するアプリケーションを、その利用対象ユーザや利用対象業種という観点で分類化することで対応した。利用対象ユーザの観点において、パブリッククラウド環境を構築するシステムを、例えば「企業向けシステム」、オンラインショッピングやオークションサイトなどの「一般消費者向けシステム」、勤休管理やスケジュール管理などの「従業員向けシステム」、電子申請などの「官公庁向けシステム」の4つに分類した。さらに、「企業向けシステム」に対しては、利用対象業種の観点において、主に、「建設業向けシステム」、「生産財製造業向けシステム」、「消費財製造業向けシステム」、「卸業向けシステム」、「小売業向けシステム」、「サービス業向けシステム」の6つの業種に分類した。そして本発明で提示する運用ツールにおいては、経済指標をやみくもに取り込むのではなく、前記分類ごとに取り込む経済指標を定義し、下記予測において全く相関が表れないような経済指標を取り込まないように制御している。
また、将来の負荷を予測する回帰式の精度をさらに高めるため、前記分類で定義した経済指標を無条件で取り込むのではなく、重回帰分析においてよく利用される変数増加法を用いて1つ1つの経済指標の相関度合いを評価し、最適な説明変数(経済指標)のみを取り込むような仕掛けを取り込んだ。これにより、過去の蓄積した稼働データと経済指標を示すデータとのマッチングを実現している。
(システム全体構成)
図1は、本実施形態に係る運用監視システム1の全体構成の例を示す図である。
運用監視システム1は、ストレージ(記憶部)12を内蔵する運用監視サーバ11と、ネットワーク機器13と、ストレージ(記憶部)15と外部接続している統合サービスプラットフォーム14と、運用者端末16と外部サイト17とから構成される。本実施形態では、統合サービスプラットフォーム14により、パブリッククラウド環境が実現されているものとする。データセンタは、このパブリッククラウド環境を提供する。このデータセンタは、運用監視サーバ11と、ネットワーク機器13と、統合サービスプラットフォーム14を備え、インターネット網18を介して運用者端末16と外部サイト17に通信可能に接続することができる。
運用監視サーバ11は、パブリッククラウド環境を構築し、監視対象機器となる1以上のサーバの運用状況を監視する。このサーバは、統合サービスプラットフォーム14が備える(詳細は後記)。
ネットワーク機器13は、データセンタの内部にある運用監視サーバ11および統合サービスプラットフォーム14と、データセンタの外部にある運用者端末16および外部サイト17との通信を中継する機器である。ネットワーク機器13は、例えばスイッチングハブ(SW)や、ファイアウォール(F/W)の機能を備えている。
運用者端末16は、インターネット網18を介して運用監視サーバ11にアクセスするために運用担当者が使用する管理コンソールである。運用者端末16は、その入力部から検索条件を入力して運用監視サーバ11が記憶する情報をモニタリングする機能を備える。
また、統合サービスプラットフォーム14は、自身が備えるサーバの一部または全部において仮想化環境を実現する。統合サービスプラットフォーム14は、LAN(Local Area Network)を介して運用監視サーバ11に接続されており、SAN(Storage Area Network)を介してストレージ15に接続されている。
外部サイト17は、経済指標などを公表しているインターネットサイトのことであるが、本実施形態ではそのようなインターネットサイトをブラウザなどで画面に表示するコンピュータ(外部のコンピュータ)として取り扱うことにする。
なお、運用監視サーバ11、ネットワーク機器13、統合サービスプラットフォーム14、運用者端末16、外部サイト17は、一般的なコンピュータとしての入力部、表示部、制御部、記憶部を備える。制御部は、例えばCPUとして実装され、記憶部は、例えばROM(Read Only Memory)、RAM(Random Access Memory)、HDD(Hard Disk Drive)として実装される。
図2は、本実施形態に係る運用監視サーバ11のハードウェア構成の例を示す図である。運用監視サーバ11は、一般的なコンピュータあるいは情報処理装置により実現でき、制御部201と、ネットワークインタフェース部202と、記憶部203とを具備する。
ネットワークインタフェース部202は、他のコンピュータと所定のデータを送受信する。
記憶部203は、後記するプログラム210とデータベース220から構成されている。
制御部201は、プログラム210(運用監視プログラムを含む)の有する機能を実行(演算処理)する。各部は、BUS(バス)などにより接続されている。制御部201が、プログラム210に記述されているコードを読み出し、相応の機能を実行することにより、ソフトウェアとハードウェアとの協働が実現される。
プログラム210は、ユーザ認証機能211と、統計データ出力機能212と、グラフ作成機能213と、ボトルネック予測機能214と、データ取得機能215と、データ変換機能216を備え、制御部201からの命令により、以下に説明する処理を実現する。
ユーザ認証機能211は、運用者端末16からのアクセスに対する認証処理を行う。
統計データ出力機能212は、蓄積された稼働データおよび稼働ログから指定された検索条件を満たす情報を稼働統計情報として抽出する。なお、稼働データおよび稼働ログは、サーバの稼働状況を示すデータであり、詳細については後記する。
グラフ作成機能213は、稼働統計情報を、例えば運用者端末16の表示部にグラフ出力する。
ボトルネック予測機能214は、蓄積された稼働データを用いて将来の負荷状況を予測する。
データ取得機能215は、データセンタの各機器(主に、サーバ)から稼働データを取得する。
データ変換機能216は、取得したデータをデータベース220に登録できる形式に変換する。
データベース220には、認証情報221と、会員情報222と、性能情報223と、経済情報224と、アプリケーション情報225と、予測情報226が格納されている。
認証情報221は、運用者端末16を用いる運用担当者の認証のためにユーザ認証機能211が参照する情報である。
会員情報222は、データセンタのサーバで稼働するアプリケーションを利用して所定のサービスを提供するサイトを利用している会員について、各サイトの会員数(ID数)などを管理する情報である。
性能情報223は、データセンタの各機器から取得した稼働データを管理する情報である。
経済情報224は、外部サイト17から取得した経済指標を示すデータを管理する情報である。
アプリケーション情報225は、データセンタのサーバで稼働するアプリケーションを分類するための定義を示す分類情報を管理する情報である。
予測情報226は、ボトルネック予測結果を管理する情報である。
これらの情報の詳細については、後記する。
図3は、本実施形態に係る統合サービスプラットフォーム14のハードウェア構成の例を示す図である。統合サービスプラットフォーム14は、制御部301と、ネットワークインタフェース部302と、内蔵LANスイッチ303と、ブレードサーバ304と、内蔵FC(Fibre Channel)スイッチ305とを具備する。
制御部301は、各ブレードサーバ304の内部制御を行う。一般的には、ブレードサーバ304には、自身が備える仮想化ソフトウェア310上に複数のOS(Operating System)311が格納されているものと、OS312がそのまま物理ディスクに格納されているものとがある。ブレードサーバ304は、運用監視サーバ11の監視対象機器である。
ネットワークインタフェース部302は、内蔵LANスイッチ303による外部ネットワークとの通信を中継する。
内蔵LANスイッチ303と、ブレードサーバ304と、内蔵FCスイッチ305は、内部ネットワークで通信可能に接続されている。内蔵LANスイッチ303は、ネットワークインタフェース部302を経由して外部ネットワークと通信を行う。
内蔵FCスイッチ305は、外部のストレージ15と通信可能に接続されている。なお、運用監視サーバ11が統合サービスプラットフォーム14から稼働データを取得する際は、OS単位に取得することとなる。
(テーブル構成)
図4は、本実施形態に係る運用監視サーバ11が有する認証情報221のデータ構成の例を示す図である。認証情報221は、運用者端末16からアクセス許可をするためのユーザ認証情報テーブル2221が定義されている。ユーザ認証情報テーブル2221は、ログインID(Identifier)401と、パスワード402と、利用者権限403と、管理ドメイン404と、メールアドレス405とで構成されている。
ログインID401には、運用者端末16を用いる運用担当者の識別情報が登録される。
パスワード402には、運用者端末16を用いる運用担当者が本人であることを確認する情報が登録される。この情報は、例えば、文字や数字の羅列で構成される。
ログインID401と、パスワード402は、運用監視サーバ11にアクセスするための認証情報として利用される。
利用者権限403には、主に、運用監視システム1に携わる者に与えられた権限を示す情報が登録される。利用者権限403には、運用管理者(admin)と運用担当者(operator)の2種類がある。運用管理者は全てのサーバの稼働状況を参照できるのに対して、運用担当者は管理ドメイン404に指定されているサーバのみの稼働状況を参照できる。
管理ドメイン404には、管理対象のサーバに付与されたドメインのドメイン名が登録される。
メールアドレス405には、ユーザ認証情報テーブル2221により関連付けられたドメインのサーバに発生したイベントを通知するときの宛先を示す情報が登録される。例えば、サーバの負荷が閾値を超えると予想される時期の通知などを記録した運用メールの宛先を示す情報が登録される。
運用監視サーバ11にアクセスする運用担当者が追加された場合には、運用管理者は、自身が閲覧可能な運用管理者専用ページにおいて、その運用担当者に関する認証情報221を作成する。作成された認証情報221はユーザ認証情報テーブル2221として登録される。
なお、会員情報222に関するデータ構成については、特に図示しないが、会員情報222は、少なくとも、対象とする会員の会員数、その会員が利用するサービスを提供するアプリケーションのアプリケーション名を関連付けている。会員情報222は、他にも対象とする会員のID、職業などを関連付けていてもよい。
図5は、本実施形態に係る運用監視サーバ11が有する性能情報223のデータ構成の例を示す図である。性能情報223は、データセンタの各機器から取得した稼働データを格納するためのサーバ稼働情報テーブル2231、およびその各機器から取得した稼働ログを格納するためのサーバ処理時間情報テーブル2232から定義されている。稼働データとは、サーバ稼働情報テーブル2231のレコードを意味し、稼働ログとは、サーバ処理時間情報テーブル2232のレコードを意味する。
サーバ稼働情報テーブル2231は、ホスト名501と、ドメイン名502と、取得日時503、種別A504と、種別B505と、種別C506と、値507とで構成されている。運用監視サーバ11のデータ取得機能215により、各サーバから取得した稼働データが本テーブルに登録される。
ホスト名501には、運用監視対象となるサーバのホスト名が登録される。
ドメイン名502には、サーバに付与されたドメインのドメイン名が登録される。
取得日時503には、運用監視サーバ11がサーバから、サーバの稼働状況を示す稼働データを取得した日時が登録される。この日時は、取得元のサーバのその日時における稼働状況も示している。
種別A504には、稼働データを分類する情報の一つが登録される。具体的には、ログの種別が登録され、該当するサーバが稼働していれば、[稼働]と登録される。
種別B505には、稼働データを分類する情報の一つが登録される。具体的には、該当するサーバに用いられるOSのOS名、またはソフトウェアのソフトウェア名が登録される。
種別C506には、稼働データを分類する情報の一つが登録される。具体的には、該当するサーバの稼働データとして取得したデータの内容(例:CPU使用率、アクティブセッション数)が登録される。
なお、種別A504、種別B505、種別C506に登録された情報を「種別情報」と称する場合がある。種別情報は、後記する統計処理を行う上で、サーバから取得した稼働データを分類するために利用される。
値507には、運用監視サーバ11がサーバから取得した稼働データの値(例:20パーセント、4セッション)が登録される。
サーバ処理時間情報テーブル2232は、ホスト名511と、ドメイン名512と、実行開始日時513(処理の開始時点)と、実行終了日時514(処理の終了時点)と、種別A515(処理内容)と、種別B516(処理内容)と、種別C517(処理内容)と、戻り値518とで構成されている。運用監視サーバ11のデータ取得機能215により、各サーバの稼働状況を示す稼働ログが本テーブルに登録される。
ホスト名511には、運用監視対象となるサーバのホスト名が登録される。
ドメイン名512には、サーバに付与されたドメインのドメイン名が登録される。
実行開始日時513には、該当するサーバにおいて実行された処理の開始タイミングを示す日時が登録される。
実行終了日時514には、該当するサーバにおいて実行された処理の終了タイミングを示す日時が登録される。
種別A515には、稼働ログを分類する情報の一つが登録される。具体的には、ログの種別が登録され稼働ログの場合は[処理]と登録される。
種別B516には、稼働ログを分類する情報の一つが登録される。具体的には、サーバの種類が登録される。
種別C517には、稼働ログを分類する情報の一つが登録される。具体的には、サーバ内での処理の内容(例:プロセス名)が登録される。
戻り値518には、種別C517に登録された内容に係る処理の戻り値が登録される。
図6は、本実施形態に係る運用監視サーバ11が有する経済情報224のデータ構成の例を示す図である。経済情報224は、外部サイト17から経済指標を取得するための定義情報および取得した経済指標のデータを格納するための経済指標取得定義情報テーブル2241と、経済指標の詳細を示す経済指標情報テーブル2242から定義されている。
経済指標取得定義情報テーブル2241は、経済指標名601と、取得先(URL)602と、取得周期603から構成されている。
経済指標名601には、経済指標の名称が登録される。
取得先(URL)602には、経済指標が公開されているサイトのURLが登録される。
取得周期603には、外部サイト17に対してどのような周期でデータを取得するかを示す値が登録される。
なお、外部サイト17から取得する経済指標の定義が追加された場合には、運用管理者は、自身が閲覧可能な運用管理者専用ページにおいて、その定義に関する経済情報224を作成する。作成された経済情報224は経済指標取得定義情報テーブル2241に登録される。
経済指標情報テーブル2242は、経済指標名611と、取得日時612と、データ種別613と、値614とで構成されている。運用監視サーバ11のデータ取得機能215によりあらかじめ定義された経済指標取得定義情報テーブル2241に基づき外部サイト17から取得した経済指標のデータが本テーブルに登録される。
経済指標名611には、経済指標の名称が登録される。
取得日時612には、外部サイト17からデータを取得した日時が登録される。
データ種別613には、外部サイト17から取得したデータの種別が登録される。具体的には、経済指標のデータを取得した場合は、[経済指標]と登録される。しかし、何も登録されず、ブランクとなるまたはNULL値が登録される場合もある。
値614には、外部サイト17から取得したデータの値が登録される。
図7は、本実施形態に係る運用監視サーバ11が有するアプリケーション情報225のデータ構成の例を示す図である。アプリケーション情報225は、アプリケーションを分類するための定義を示す分類情報を格納するためのアプリケーション大分類情報テーブル2251と、アプリケーション小分類情報テーブル2252と、アプリケーション情報テーブル2253から定義されている。
アプリケーション大分類情報テーブル2251は、大分類701と、一般的には複数個の指標(指標(1)〜指標(n))をまとめた指標702とで構成されている。
大分類701は、運用監視サーバ11が監視するアプリケーションの7つの分類名称が登録される。この分類名称には、例えば、前記アプリケーションを利用するユーザが所属する企業が採り得る事業の形態を示す名称(事業の属性)が用いられる。例えば、アプリケーション大分類情報テーブル2251の最上段のレコードは、国内においてBtoB型の事業を行う企業に対して作成されたものである。この場合、大分類701には、「BtoB国内」という値が登録される。ちなみに、「BtoB海外」とは、国内に拠点を構えても、BtoB型の事業を行っている場所が主に海外である企業を分類するときに用いる。
指標702は、大分類701ごとに予測回帰式(後記)に取り込む候補となる経済指標が登録される。
アプリケーション小分類情報テーブル2252は、小分類711と、一般的には複数個の指標(指標(1)〜指標(n))をまとめた指標712とで構成されている。
小分類711は、アプリケーション大分類情報テーブル2251の大分類701をさらに分類するときの分類名称が登録される。この分類名称には、国内においてBtoB型の事業を行う企業を業種によって分類するときの業種の名称が用いられる。本実施形態では、「建設」、「生産財製造業」、「消費財製造業」、「卸業」、「小売業」、「サービス」といった6つの業種の名称が用いられ、小分類711に登録されている。なお、国内においてBtoB型の事業を行う企業について小分類711を用いて細分類を行うようにしたのは、国内に存在する企業の大部分がそのような事業を行っているという現状を踏まえ、よりきめ細かな予測を行うことを可能にするためである。
指標712は、小分類711ごとに予測回帰式に取り込む候補となる経済指標が登録される。
アプリケーション大分類情報テーブル2251およびアプリケーション小分類情報テーブル2252は、運用管理者がボトルネック予測機能214で取り込む候補となる経済指標をあらかじめ定義しなければならない情報であり、運用管理者専用ページよりメンテナンスを行う。このメンテナンスには、例えば、前記定義を行う経済指標を更新する処理が含まれる。
アプリケーション情報テーブル2253は、アプリケーション名721と、所属ドメイン名722と、大分類723と、小分類724とで構成されている。
アプリケーション名721には、監視対象のアプリケーション(つまり、監視対象サーバで稼働するアプリケーション)の名称が登録される。
所属ドメイン名722には、アプリケーションが所属するドメインのドメイン名が登録される。
大分類723には、アプリケーション大分類情報テーブル2251の大分類701に登録される値のうち、アプリケーション名721に登録される名称のアプリケーションを用いる企業が行う事業の形態を示す値が登録される。
小分類724には、アプリケーション小分類情報テーブル2252の小分類711に登録される値のうち、アプリケーション名721に登録される名称のアプリケーションを用いる企業が行う事業の業種を示す値が登録される。
なお、監視対象のアプリケーションが追加された場合には、運用管理者または運用担当者は、自身が閲覧可能な専用ページにおいて、大分類723または小分類724へ相応の値を登録する。
図8は、本実施形態に係る運用監視サーバ11が有する予測情報226のデータ構成の例を示す図である。予測情報226は、ボトルネック予測結果およびアラートを通知するための閾値定義を格納するための予測情報テーブル2261および閾値情報テーブル2262から定義されている。運用監視サーバ11のボトルネック予測機能214により算出された結果が、予測情報テーブル2261および閾値情報テーブル2262に登録される。
予測情報テーブル2261は、ホスト名801と、ドメイン名802と、回帰分析実施日時803と、回帰式804と、閾値到達予測年月805と、警告通知実施日時806と、警告通知フラグ807と、回帰式算出フラグ808とで構成されている。
ホスト名801には、運用監視対象となるサーバのホスト名が登録される。
ドメイン名802には、サーバに付与されたドメインのドメイン名が登録される。
回帰分析実施日時803には、回帰分析を実施した日時が登録される。
回帰式804には、回帰分析を実施したときに用いた回帰式が登録される。
閾値到達予測年月805には、回帰分析から予測された閾値(後記)に到達する年月が登録される。
警告通知実施日時806は、運用担当者に対してサーバの負荷が閾値情報テーブル2262で定義された値を超える時期(到達する年月)を通知した日時が登録される。
警告通知フラグ807は、運用担当者に通知済みの場合は「1」が登録され、未通知の場合は「0」が登録される。なお、警告通知フラグ807はあらかじめ定義された周期で「1」のフラグが「0」のフラグにクリアされる。
回帰式算出フラグ808は、警告後、回帰式804に登録された回帰式を新たに算出(決定)したか否かを示す値が登録される。算出したら「1」のフラグが登録され、算出してないときは「0」のフラグが登録される。警告が行われると「1」のフラグが「0」のフラグに更新される。
閾値情報テーブル2262は、ホスト名811と、ドメイン名812と、種別A813と、種別B814と、種別C815と、閾値816とで構成されている。
ホスト名811と、ドメイン名812と、種別A813と、種別B814と、種別C815は、サーバ稼働情報テーブル2231のホスト名501と、ドメイン名502と、種別A504と、種別B505と、種別C506に対応している。
閾値816は、種別A504と、種別B505と、種別C506それぞれの種別に対してサーバの負荷が耐えられなくなると判断される値が登録される。なお、閾値が設定されていない種別に対しては、基本的には、サーバの負荷が耐えられなくなる時期を予測することができない。また、この閾値816に登録される値は、基本的には、SLAを守ることができる値である。
(処理フローチャート)
図9は、本実施形態に係る運用監視サーバ11のデータ取得機能215の性能情報取得処理シーケンスを示す図である。
ネットワーク機器13は、SNMP(Simple Network Management Protocol)を利用して定期的に稼働データを収集する(ステップS901)。ここで、「稼働データ」とは、ネットワークトラフィックなどの情報を意味している。
また、統合サービスプラットフォーム14は、図3に示すとおり複数のOSが稼働している。そして、各OSにはデータ取得用の専用ソフトウェアが稼働しており、定期的に稼働データおよび稼働ログを収集する(ステップS902)。ここで、「稼働データ」とは、サーバのCPU利用率やメモリ使用率やDiskビジー率などのサーバ負荷に関する情報を意味している。また、「稼働ログ」とは、サーバの処理時間やユーザのアクセス状況などのアプリケーションのログを意味している。
運用監視サーバ11は、ネットワーク機器13と統合サービスプラットフォーム14に対して定期的にデータ取得要求をする(ステップS903)。このとき、稼働データを収集するプロトコルと同様にネットワーク機器13に対してはSNMPで稼働データの取得要求を出し、統合サービスプラットフォーム14に対しては専用ソフトウェアを利用して稼働データの取得要求を出す。なお、前記した2つの稼働データの取得要求には、取得する稼働データが示す期間、つまり、ネットワーク機器13やサーバが稼働していた期間を指定するコマンドが含まれており、その指定された期間に稼働していたことを示す稼働データが取得される。
ネットワーク機器13は、運用監視サーバ11からデータ取得要求を受信すると、指定された期間の稼働データを抽出し(ステップS904)、運用監視サーバ11に対して稼働データを転送する(ステップS906)。
また、統合サービスプラットフォーム14は、運用監視サーバ11からデータ取得要求を受信すると、指定された期間の稼働データと稼働ログを抽出し(ステップS905)、運用監視サーバに対して稼働データと稼働ログを転送する(ステップS907)。
次に、運用監視サーバ11は、ネットワーク機器13と統合サービスプラットフォーム14からそれぞれ転送されたデータを受信する(ステップS908)。ネットワーク機器13からは稼働データを受信する。統合サービスプラットフォーム14からは稼働データと稼働ログを受信する。
ここで、受信したデータは、一般的には、各々データ形式が異なるため、データ変換機能216により必要に応じてデータベース220に登録できる、例えばCSV(Comma Separated Values)形式のデータ(CSVデータ)に変換する(ステップS909)。
最後に、運用監視サーバ11は、データ変換されたCSVデータをデータベース220に登録する(ステップS910)。このとき、稼働データはサーバ稼働情報テーブル2231に登録され、稼働ログは、サーバ処理時間情報テーブル2232に登録される。なお、図9に示した処理シーケンスは、定期的なサイクルで実行することで、運用監視サーバ11のデータベース220に性能情報223を蓄積していく。
図10は、本実施形態に係る運用監視サーバ11のデータ取得機能215の経済情報の取得処理シーケンスを示す図である。
外部サイト17は、さまざまな経済指標を公開しているサイトを表しており、定期的に最新の指標にてサイトの統計データを更新している(ステップS1001)。
運用監視サーバ11のデータ取得機能215は、外部サイト17に対してHTTP(Hyper Text Transfer Protocol)リクエストを発行する(ステップS1002)。このリクエストは経済指標取得定義情報テーブル2241を参照し、取得周期603に登録されている間隔で取得先(URL)602に登録されているURLに対して自動アクセスする。
外部サイト17は、前記HTTPリクエストに対してHTTPレスポンスを返す(ステップS1003)。すなわち、指定されたURLに対応したコンテンツ(HTMLファイル)を返すこと意味する。
運用監視サーバ11は、外部サイト17から返されることで受信したコンテンツから統計データを取得する(ステップS1004)。ここでは、例えば受信したHTMLファイルから経済指標が記述されているソース部分を解析し、数値データのみを取得する。
次に、運用監視サーバ11は、取得した統計データを、データ変換機能216によりデータベース220に登録できるCSV形式のデータ(CSVデータ)に変換する(ステップS1005)。
最後に、運用監視サーバ11は、データ変換されたCSVデータをデータベース220に登録する(ステップS1006)。このとき、統計データは経済指標情報テーブル2242に登録する。なお、図10に示した処理シーケンスは、定期的なサイクルで実行することで、運用監視サーバ11のデータベース220に経済情報224を蓄積していく。
図11は、本実施形態に係る運用監視サーバ11のアプリケーション情報登録処理を示す図である。ここで登録されたアプリケーション情報は、ボトルネック予測機能214が各サーバの将来の負荷を予測する際の重要な情報となる。なお、アプリケーション情報登録処理は、監視対象のアプリケーションが追加となった場合に運用管理者もしくは運用担当者が登録する。
まず、運用監視サーバ11の表示部または運用者端末16の表示部にて、アプリケーション情報の登録の登録画面を表示する(ステップS1101)。
図16は、アプリケーション情報の登録画面の例である。この画面では、アプリケーション名称1601と、所属ドメイン1602と、対象ユーザ1603と、対象業種1604と、海外ユーザの利用1605の入力項目がある。
アプリケーション名称1601は、監視対象となるアプリケーションの名称を入力する項目である。
所属ドメイン1602は、前記アプリケーションが稼働するサーバに付与されたドメインのドメイン名を入力する項目である。
対象ユーザ1603は、前記アプリケーションによるサービスを利用するユーザを特定(分類)するためプルダウン形式の入力フォームとなっており、「企業(B)」「一般消費者(C)」「従業員(E)」「公共団体(G)」(事業の4つの属性)から選択する形式となっている。
対象業種1604は、デフォルトでは入力フォームが非活性されており、活性化された場合には前記アプリケーションによるサービスを利用するユーザをより詳細に特定(分類)するためプルダウン形式の入力フォームとなり、「建設」「生産財製造業」「消費財製造業」「卸業」「小売業」「サービス」(6つの業種)から選択する形式となっている。
海外ユーザの利用1605は、前記アプリケーションによるサービスの適用範囲を特定するためチェックボックス形式の入力フォームとなっており、「あり」(つまり、海外)および「なし」(つまり、国内)から選択する形式となっている。
アプリケーション名称1601と、所属ドメイン1602と、対象ユーザ1603と、対象業種1604と、海外ユーザの利用1605の入力項目への入力は、例えば運用監視サーバ11の入力部または運用者端末16の入力部から行われる。
運用監視サーバ11は、運用監視サーバ11の入力部または運用者端末16の入力部からアプリケーション名称を受信し(ステップS1102)、アプリケーション名称をアプリケーション情報テーブル2253のアプリケーション名721に登録する(ステップS1103)。
次に、運用監視サーバ11の入力部または運用者端末16の入力部からドメイン名を受信し(ステップS1104)、ドメイン名をアプリケーション情報テーブル2253の所属ドメイン名722に登録する(ステップS1105)。
次に、登録するアプリケーションがサービスとして提供する対象ユーザ(そのユーザが利用するアプリケーションの分類情報を意味する)を受信し(ステップS1106)、対象ユーザをアプリケーション情報テーブル2253の大分類723に登録する(ステップS1107)。
次に、受信した対象ユーザについて判定処理を行い(ステップS1108)、ステップS1106で受信した内容が「企業」向けサービスの場合(ステップS1108でYes)、つまり、対象ユーザ1603(図16)に「企業(B)」と入力された場合、対象業種1604(図16)の入力欄を活性化する(ステップS1109)。そして、登録するアプリケーションがサービスとして提供する対象の業種を受信し(ステップS1110)、対象の業種情報をアプリケーション情報テーブル2253の小分類724に登録する(ステップS1111)。一方、「企業(B)」向け以外のサービスの場合(ステップS1108でNo)、つまり、対象ユーザ1603(図16)に「企業(B)」以外の値が入力された場合、ステップS1110とステップS1111の処理はスキップされる。
最後に、登録するアプリケーションがサービスの適用範囲、つまり海外ユーザの利用1605(図16)への入力による海外ユーザの利用有無を受信し(ステップS1112)、適用範囲を示す情報をアプリケーション情報テーブル2253の大分類723に登録する(ステップS1113)。ここで、アプリケーション情報テーブル2253の大分類723には、対象ユーザ1603と海外ユーザの利用1605の情報が組み合わされて登録される。例えば、対象ユーザ1603が「企業(B)」、海外ユーザの利用1605が「なし」の場合は、「BtoB国内」と登録される。
図12は、本実施形態に係る運用監視サーバ11のボトルネック予測機能214の分析ロジックを示す図である。本処理は、運用監視サーバ11のボトルネック予測機能214は、データベース220に蓄積されているサーバ稼働情報テーブル2231と、サーバ処理時間情報テーブル2232と経済指標情報テーブル2242から各サーバの将来の負荷を予測する回帰式を算出する。また、閾値情報テーブル2262の定義情報を参照し、各サーバが閾値を超える時期、つまりサーバが負荷に耐えられなくなる時期を算出する。
まず、回帰式を算出していない未処理のサーバを取得する(ステップS1201)。
次に、アプリケーション情報テーブル2253を参照し、ステップS1201で取得したサーバに関する分類情報、具体的にはそのサーバの大分類723と小分類724を取得する(ステップS1202)。
次に、アプリケーション大分類情報テーブル2251の指標702とアプリケーション小分類情報テーブル2252の指標712に登録されている経済指標を、後記する選定の候補として取得する(ステップS1203)。
ステップS1203で取得した経済指標の中から回帰式に取り込む説明変数(経済指標)を変数増加法により選定する(ステップS1204)。なお、変数増加法による説明変数の選定ロジックに関しては、図13に示しており、後記する。
次に、サーバ稼働情報テーブル2231の稼働データと、サーバ処理時間情報テーブル2232の稼働ログと、経済指標情報テーブル2242の経済指標のデータのうちステップS1204で選定された経済指標のみとを用いて重回帰分析を行い、将来の負荷を予測する回帰式を回帰分析結果として算出する(ステップS1205)。
次に、ステップS1205で算出した回帰式に対して、閾値情報テーブル2262の値(図8符号816参照)を代入し、対象のサーバが閾値に到達すると予想される時期を回帰分析結果として算出する(ステップS1206)。ただし、閾値情報テーブル2262に値がセットされていない場合は、閾値に到達すると予想される時期を算出することができない。
次に、回帰分析結果をデータベース220の予測情報テーブル2261の回帰式804と閾値到達予測年月805に登録し(ステップS1207)、回帰式算出フラグ808を「1」に更新する。ただし、ステップS1206で予想される時期を算出することができなかった場合、閾値到達予測年月805にNULL値が登録される。
次に、ステップS1207にて閾値到達予測年月805に登録した年月が現在から1年以内に到達するか判定する(ステップS1208)。
現在から1年以内に到達する場合(ステップS1208でYes)、対応する運用者端末16に警告メールを通知する(ステップS1209)。この警告メールの通知先は、ユーザ認証情報テーブル2221における対象サーバのドメイン名と一致する管理ドメイン404が登録される者(一般的には、運用担当者)のメールアドレス405である。また、警告メール通知が完了したら予測情報テーブル2261の警告通知実施日時806と警告通知フラグ807が更新される。一方、現在から1年以内に到達しない場合(ステップS1208でNo)、当該サーバについては、特に警告の必要性はないことを意味しており、ステップS1210に進む。
全ての監視サーバの回帰式を算出したかを確認し(ステップS1210)、未算出サーバが存在する場合は(ステップS1210でNo)、ステップS1201に戻る。なお、サーバの回帰式を算出したかどうかの判別には、予測情報テーブル2261の回帰式算出フラグ808が「0」のレコードがあるかどうかの判定がなされる。一方、未算出サーバが存在しない場合は(ステップS1210でYes)、この処理全体を終了する。
図13は、本実施形態に係る変数増加法による説明変数(経済指標)の選定ロジックを示す図である。この選定ロジックは、図12のステップS1204の詳細なフローを説明するものである。
まず、必須の説明変数だけの回帰式を算出し、その回帰式をモデル0と定義する(ステップS1301)。ここで必須の説明変数とは、運用監視サーバ11のデータベース220に蓄積されている会員情報222と性能情報223の2変数である。この場合、モデル0の回帰式は、例えば以下のように示される。
Figure 0005466622
ここで、yは、被説明変数であり、β,β,βは偏回帰係数であり、xi1,xi2は説明変数であり、εは残差である。残差εは、ある統計的なデータにおいて、そのデータから求められる期待値が0であり、分散がσである正規分布N(0,σ)を用いて、ε〜N(0,σ)と評価される。yは、この2つの説明変数を用いたときの実測値(例:監視するサーバに生じる負荷)であるといえるが、この実測値に対する予測値は、
Figure 0005466622
と表すことができる。よって、残差εは、
Figure 0005466622
として算出することができる。
例えば、あるサーバのCPUにおける回帰式を算出する場合には、会員情報222から得られるユーザ数と、性能情報223から得られる平均CPU利用率の2変数が説明変数となる。
次に、回帰分析に用いられる統計手法である変数増加法による演算処理を実施し、モデル0に対して、ステップS1203で取得した経済指標のうち1つ(X)を暫定的に取り込んだ場合の回帰式を算出する(ステップS1302)。なお、この処理をステップS1203で取得した全ての経済指標(X〜Xのn個の経済指標)に対して実施する。
次に、暫定的に取り込んだ経済指標Xを実際に回帰式に取り込むべきか否か判定する(ステップS1303)。そこで、追加する経済指標(X)を評価するために、ステップS1302にて算出した回帰式のうちF統計量が最大のものを抽出する。まず、暫定的に取り込んだ経済指標Xをモデル0の回帰式に導入したときの回帰式を(暫定的な)モデル1とすると、このモデル1の回帰式は、例えば以下のように示される。
Figure 0005466622
ここで、βは偏回帰係数であり、xi3は経済指標Xを示す説明変数である。前記F統計量は、モデル0の回帰式とモデル1の回帰式とに対するF統計量であることを意味し、
Figure 0005466622
と表すことができる。
ここで、Se(M0),Se(M1)は、それぞれモデル0、モデル1の残差平方和であり、φe(M0),φe(M1)は、それぞれモデル0、モデル1の自由度である。なお、より一般的に残差平方和Sは、残差εを用いて、
Figure 0005466622
と表すことができる。
また、「F統計量」とは、回帰分散/残差分散で算出される指標(相関度)であり、回帰変数が意味を持つかどうかを評価することができる。F統計量Fは、自由度φe(M0)−φe(M1)、φe(M1)のF分布に従う。
各経済指標Xについて、n個分のF統計量Fを求め、それらのうちの最大ものを特定する。その後、その特定したF統計量Fが、その特定したF統計量Fに係るF分布の棄却限界値a(φe(M0)−φe(M1)、φe(M1))(所定値)より大きいか否か判定する。なお、「棄却限界値」とは、統計的仮説検定を行う場合に帰無仮説を棄却するかどうかを判定する基準であり、本発明の分析では有意水準5%の両側検定を行う。
F統計量Fが棄却限界値a(φe(M0)−φe(M1)、φe(M1))以下である場合(ステップS1303でNo)、すべての経済指標(X〜X)を無効な変数と判断し、モデル0を回帰式として選定する(ステップS1304)。この選定により、本選定ロジックの処理を終了する。
また、F統計量Fが棄却限界値a(φe(M0)−φe(M1)、φe(M1))より大きい場合(ステップS1303でYes)は、F統計量Fが最大である経済指標、つまり前記特定したF統計量Fを提供可能な最も評価値の高い経済指標(相関度が最も大きな経済指標)を取り込んだ回帰式を改めてモデル1と定義する(ステップS1305)。
次に、ステップS1302と同様に、モデル1に対して、ステップS1203で取得した経済指標のうち1つ(X)を2つめとして暫定的に取り込んだ場合の回帰式を算出する(ステップS1306)。なお、この処理をモデル1に取り込んだ経済指標を除くステップS1203で取得した全ての経済指標(X〜Xi−1、Xi+1〜Xのn−1個の経済指標)に対して実施する。
次に、暫定的に取り込んだ経済指標Xを実際に回帰式に取り込むべきか否か判定する(ステップS1307)。そこで、追加する経済指標(X)を評価するために、ステップS1305にて算出した回帰式のうちF統計量が最大のものを抽出する。まず、暫定的に取り込んだ経済指標Xをモデル1の回帰式に導入したときの回帰式を(暫定的な)モデル2とすると、このモデル2の回帰式は、例えば以下のように示される。
Figure 0005466622
ここで、βは偏回帰係数であり、xi4は経済指標Xを示す説明変数である。前記F統計量は、モデル1の回帰式とモデル2の回帰式とに対するF統計量であることを意味し、
Figure 0005466622
と表すことができる。F統計量Fは、自由度φe(M1)−φe(M2)、φe(M2)のF分布に従う。
各経済指標Xについて、n−1個分のF統計量Fを求め、それらのうちの最大ものを特定する。その後、その特定したF統計量Fが、その特定したF統計量Fに係るF分布の棄却限界値a(φe(M1)−φe(M2)、φe(M2))より大きいか否か判定する。
F統計量Fが棄却限界値a(φe(M1)−φe(M2)、φe(M2))以下である場合(ステップS1307でNo)、すべての経済指標(X〜Xi−1、Xi+1〜X)を無効な変数と判断し、モデル1を回帰式として選定する(ステップS1308)。この選定により、本選定ロジックの処理を終了する。
また、F統計量Fが棄却限界値a(φe(M1)−φe(M2)、φe(M2))より大きい場合(ステップS1307でYes)は、F統計量Fが最大である経済指標、つまり前記特定したF統計量Fを提供可能な最も評価値の高い経済指標を取り込んだ回帰式を改めてモデル2と定義する(ステップS1309)。そして、モデル2を回帰式として選定する(ステップS1310)。この選定により、本選定ロジックの処理を終了する。
なお、図13に示す選定ロジックでは、経済指標を2つ取り込む処理を示したものであるが、より多くの経済指標を取り込み、相応のモデルを回帰式として選定することは勿論可能である。
図14は、本実施形態に係る運用監視サーバ11に運用者端末16からアクセスし、稼働統計情報を検索する際のフローチャートを示す図である。運用者端末16からログイン後に稼働統計情報検索画面に遷移し、監視対象機器であるサーバを指定して検索するまでのフローについて説明する。
まず、運用監視サーバ11の制御部201は、運用者端末16のWebブラウザから送信されてきたログインページのURLを受信する(ステップS1401)。次に、運用監視サーバ11は、ログイン画面を運用者端末16に送信する(ステップS1402)。
次に、運用監視サーバ11の制御部201は、ユーザ認証機能211により、運用者端末16から送信されてきたIDとパスワードを受信する(ステップS1403)。次に、運用担当者の認証のため、ユーザ認証情報テーブル2221のログインID401とパスワード402が一致するレコードがあるかどうかを判定する(ステップS1404)。
一致するログインID401とパスワード402が存在しない場合(ステップS1404にて「認証NG」)、運用監視サーバ11は、ユーザ認証機能211により、認証失敗のメッセージを運用者端末16に送信する(ステップS1405)。
一致するログインID401とパスワード402が存在する場合(ステップS1404にて「認証OK」)、運用監視サーバ11は、稼働監視メニューを運用者端末16に送信する(ステップS1406)。
運用監視サーバ11の制御部201は、統計データ出力機能212により、運用者端末16が送信した監視項目の検索画面要求を受信する(ステップS1407)。次に、運用監視サーバ11の制御部201は、稼働統計情報の検索画面を運用者端末16に送信する(ステップS1408)。
運用監視サーバ11の制御部201は、統計データ出力機能212により、運用者端末16が稼働統計情報を要求するための検索条件を取得する(ステップS1409)。次に、運用監視サーバ11の制御部201は、データベース220を検索して、検索条件と一致する情報がサーバ稼働情報テーブル2231あるいはサーバ処理時間情報テーブル2232にあるかどうかを判定する(ステップS1410)。
検索条件と一致する情報がない場合(ステップS1410で「検索ヒットなし」)、運用監視サーバ11の制御部201は、統計データ出力機能212により、検索条件に合致するデータが存在しないメッセージを運用者端末16に送信する(ステップS1411)。その後、ステップS1408に戻る。
検索条件と一致する情報がある場合(ステップS1410で「検索ヒットあり」)、運用監視サーバ11の制御部201は、検索結果を運用者端末16に送信する(ステップS1412)。次に、運用監視サーバ11の制御部201は、グラフ作成機能213を呼び出し、稼働統計情報のグラフ出力結果を運用者端末16に送信する(ステップS1413)。その後、図14に示した処理全体が終了する。
図17は、稼働統計情報のグラフ表示画面の例である。この例は、稼働統計情報として、ホスト名XXXXX上で稼働しているWEB−EDIというアプリケーションのアップロード件数の時間推移を示している。
サーバ処理時間情報テーブル2232に登録されているアップロードの処理の値(件数)を時系列にグラフ表示している(1701)(第1の表示欄)。その右には数値データ表示1702のリンクがあり、運用者端末16の入力部を操作してカーソルを移動してそのリンクのリンク先にアクセスすると、グラフで読み取りづらい詳細な数値データを表示する画面を拡大表示するなどして参照することも可能である。
また、運用者端末16の入力部を操作して、時間軸を表示する時刻バー1703(第2の表示欄)が示すある時間帯にカーソルを合わせて、クリックすると、同一時間帯の他の取得項目(1704の画面例参照)のグラフ表示画面へのリンクがポップアップ表示される(第3の表示欄)。これにより、例えばアップロード件数が異常に多い時間帯で、「CPU利用率はどうなっているか?」、あるいは「どのユーザが多くのデータをアップロードしているか」など時間で紐付けて調査することが可能である。これは、サーバ稼働情報テーブル2231の実績データ(レコード)とサーバ処理時間情報テーブル2232の実績データ(レコード)を同一時間帯で紐付け処理を行うことで実現している。
図15は、本実施形態に係る運用監視サーバ11に運用者端末16からアクセスし、予測情報を検索する際のフローチャートを示す図である。運用者端末16からログイン後に予測情報検索画面に遷移し、ボトルネックサーバを確認するとともに監視対象サーバを指定して閾値到達予測年月を検索するまでのフローについて説明する。
まず、運用監視サーバ11の制御部201は、運用者端末16のWebブラウザから送信されてきたログインページのURLを受信する(ステップS1501)。次に、運用監視サーバ11の制御部201は、は、ログイン画面を運用者端末16に送信する(ステップS1502)。
次に、運用監視サーバ11の制御部201は、ユーザ認証機能211により、運用者端末16から送信されてきたIDとパスワードを受信する(ステップS1503)。次に、運用担当者の認証のため、ユーザ認証情報テーブル2221のログインID401とパスワード402が一致するレコードがあるかどうかを判定する(ステップS1504)。
一致するログインID401とパスワード402が存在しない場合(ステップS1504にて「認証NG」)、運用監視サーバ11は、ユーザ認証機能211により、 認証失敗のメッセージを運用者端末16に送信する(ステップS1505)。
一致するログインID401とパスワード402が存在する場合(ステップS1504にて「認証OK」)、運用監視サーバ11は、稼働監視メニューを運用者端末16に送信する(ステップS1506)。
運用監視サーバ11の制御部201は、統計データ出力機能212により、運用者端末16が送信した予測情報の検索画面要求を受信する(ステップS1507)。次に、運用監視サーバ11の制御部201は、現在のボトルネックサーバの表示画面と予測情報検索画面を運用者端末16に送信する(ステップS1508)。
図18は、現在のボトルネックサーバと予測情報検索画面の例である。統計データ出力機能212は、予測情報テーブル2261の閾値到達予測年月805に格納されている年月が最も現在から近いサーバをボトルネックと判定する。運用者端末16に送信する画面において、画面上部には、ボトルネックと判定されたサーバが表示される(1801)。
また、画面下部には、予測情報検索画面が表示される(1802)。予測情報検索画面には、運用者端末16を用いる運用担当者が予測情報を検索するための入力項目として「ホスト名」および「絞込条件」がプルダウンメニュー形式で表示されている。前記絞込条件は、「所属ドメイン」および「アプリケーション名」からなる。運用担当者は、運用者端末16の入力部を操作して、少なくともホスト名、さらに追加で所属ドメインおよびアプリケーション名の値を指定する。指定した後、「予測情報グラフ表示」ボタン1803を押すと、後記する予測情報のグラフが表示される。
運用監視サーバ11の制御部201は、統計データ出力機能212により、運用者端末16が予測情報を要求するための検索条件を取得する(ステップS1509)。次に、運用監視サーバ11の制御部201は、データベース220を検索して、検索条件と一致する情報があるかどうかを判定する(ステップS1510)。つまり、予測情報テーブル2261において、検索条件の「ホスト名」(図18)と一致する、予測情報テーブル2261のホスト名801(図8)が存在するか否か判定する。もし、検索条件の「所属ドメイン」および「アプリケーション名」の値も指定していれば、さらに、アプリケーション情報テーブル2253において、指定した値と一致するアプリケーション名721および所属ドメイン722が存在するか否か判定する。
検索条件と一致する情報がない場合(ステップS1510で「検索ヒットなし」)、運用監視サーバ11の制御部201は、統計データ出力機能212により、検索条件に合致するデータが存在しないメッセージを運用者端末16に送信する(ステップS1511)。その後、ステップS1508に戻る。
検索条件と一致する情報がある場合(ステップS1510で「検索ヒットあり」)、運用監視サーバ11の制御部201は、検索結果を運用者端末16に送信する(ステップS1512)。前記検索結果は、検索ヒットした予測情報テーブル2261のレコードの回帰式804に登録された回帰式により算出された結果を含む。次に、運用監視サーバ11の制御部201は、グラフ作成機能213を呼び出し、予測情報のグラフ出力結果を運用者端末16に送信する(ステップS1513)。その後、図15に示した処理全体が終了する。
図19は、予測情報のグラフ表示画面の例である。この例は、予測情報として、ホスト名XXXXXのサーバの平均CPU利用率の回帰式による予測を示している。グラフ1901の横軸が年月を表しており、現時点より左側が実績値の推移を示している。また、右肩上がりの破線1902は、回帰式により予測される将来のCPU利用率を表している。なお、閾値情報テーブル2262(図8参照)において、ホスト名811がXXXXXのサーバ(ドメイン名812はaaa.ne.jp)のCPUの閾値が70と登録されているため、グラフの縦軸上の「70」の部分に一点鎖線の直線1903が引かれている。この閾値の直線1903と回帰式による右肩上がりの破線1902が交差する時点が、サーバが負荷に耐えられなくなる時期であると定める。この交差する時点を示す情報は、予測情報テーブル2261の閾値到達予測年月805に登録されている。なお、運用監視サーバ11の入力部からの操作により、平均CPU利用率の他にも、例えば平均メモリ利用率や、平均Diskビジー率についても予測情報を表示することができる。
(まとめ)
本実施形態によれば、パブリッククラウド環境におけるデータセンタで稼働するサーバの中で、将来もっとも負荷が高くなりボトルネックとなりうるサーバを高精度に予測することができる。換言すると、本実施形態は、クラウドサービスプロバイダにとって信頼性の高いクラウドサービスを提供するための運用ツールとして利用できる。
また、本発明によるボトルネック予測プログラムは、ボトルネック予測だけでなく、リアルタイムの性能監視および障害調査に利用可能となるように、過去の蓄積された稼働データを時系列に紐付けて、分析を支援するツールとしても利用できる。例えば、あるサーバのCPU利用率が上昇していた場合に、その時間帯にアプリケーションを利用しているユーザは誰で、どのような操作をしていたかを時刻情報を元にログを紐付けて分析することが可能となる。
(その他)
なお、前記実施形態は、本発明を実施するために好適のものであるが、その実施形式はこれらに限定されるものでなく、本発明の要旨を変更しない範囲内において種々変形することが可能である。
例えば、本実施形態では、パブリッククラウド環境を構築するサーバについて監視するということで説明した。しかし、本発明を、プライベートクラウド環境を構築するサーバについて監視する処理について適用することもできる。さらに、クラウド環境とはならない1以上のサーバについても本発明を適用することもできる。
また、本実施形態では、図13に示した経済指標の選定ロジックにおいて、変数増加法を用いて重回帰分析を行うことについて説明した。しかし、変数減少法を用いて重回帰分析を行うこともできる。
また、本実施形態で説明した種々の技術を適宜組み合わせた技術を実現することもできる。
その他、ハードウェア、ソフトウェア、各フローチャート等の具体的な構成について、本発明の趣旨を逸脱しない範囲で適宜変更が可能である。
11・・・運用監視サーバ(運用監視装置)
12・・・ストレージ
13・・・ネットワーク機器
14・・・統合サービスプラットフォーム
15・・・ストレージ
16・・・運用者端末
17・・・外部サイト
201・・・制御部
202・・・ネットワークインタフェース部
203・・・記憶部
210・・・プログラム(運用監視プログラムを含む)
220・・・データベース
221・・・認証情報
222・・・会員情報
223・・・性能情報
224・・・経済情報
225・・・アプリケーション情報
226・・・予測情報
301・・・制御部
302・・・ネットワークインタフェース部
303・・・内蔵LANスイッチ
304・・・ブレードサーバ(サーバ)
305・・・内蔵FCスイッチ
310・・・仮想化ソフト
311・・・OS

Claims (6)

  1. ユーザが利用するアプリケーションが実装されているサーバの運用を監視し、前記サーバと通信可能に接続されている運用監視装置において、
    前記運用監視装置の記憶部は、
    前記サーバごとに定められ、前記サーバが稼働している時間、前記サーバで実行される処理の処理内容、当該処理の開始時点および当該処理の終了時点を含む性能情報と、
    前記アプリケーションごとに定められ、前記アプリケーションを利用するユーザの数を含む会員情報と、
    外部のコンピュータから取得可能な経済指標ごとに定められ、前記経済指標を取得した時点および前記時点における前記経済指標の値を含む経済情報と、
    前記アプリケーションごとに定められ、前記ユーザが行う事業の属性と、前記経済指標のうち当該属性に対して適用する経済指標とを含むアプリケーション情報と、を記憶しており、
    前記運用監視装置の制御部は、
    運用を監視するサーバに関する前記性能情報、当該サーバに実装されているアプリケーションに関する前記会員情報、および前記経済情報を前記記憶部から取得する制御と、
    前記アプリケーション情報に基づいて、前記経済情報に含まれる経済指標のうち、当該サーバに実装されているアプリケーションに定められた経済指標を特定する制御と、
    前記取得した性能情報、会員情報、及び、前記特定した経済指標を用いた重回帰分析により、当該サーバに生じる負荷の時間変化を示す回帰式を算出する制御と、
    前記算出した回帰式により、当該サーバに生じる負荷が当該サーバに予め設定された負荷の閾値に到達すると予測される時点を算出する制御と、を実行し、
    前記事業の属性は、少なくとも(1)企業向け、(2)一般消費者向け、(3)従業員向け、(4)官公庁向けといった4つの属性を含み、
    前記企業向けの属性は、少なくとも(1)建設業、(2)生産財製造業、(3)消費財製造業、(4)卸業、(5)小売業、(6)サービス業といった6つの業種に分類されていること、
    を特徴とする運用監視装置。
  2. 前記運用監視装置の制御部は、
    前記重回帰分析を行うとき、変数増分法により、前記経済情報に含まれる経済指標のうち、運用を監視するサーバに生じる負荷との相関度が最も大きな経済指標を選定する制御と、
    前記選定した経済指標を用いた前記重回帰分析により、当該サーバに生じる負荷の時間変化を示す回帰式を算出する制御と、を実行する
    ことを特徴とする請求項1に記載の運用監視装置。
  3. 前記運用監視装置の制御部は、
    前記相関度が所定値以下である経済指標は、前記選定において除外する制御と、を実行する
    ことを特徴とする請求項に記載の運用監視装置。
  4. 前記運用監視装置の制御部は、
    前記サーバおよび前記運用監視装置と通信可能に接続されており、前記サーバを運用するための運用者端末から、当該サーバの稼働状況を示す稼働統計情報の取得要求を受信する制御と、
    前記性能情報を参照して、前記取得要求がなされたサーバに関する前記稼動統計情報を取得する制御と、
    前記取得した稼働統計情報を前記運用者端末に送信するとき、前記運用者端末の表示部に、当該サーバで実行される処理の処理内容を所定の表示態様で表示する第1の表示欄と、時間軸を表示する第2の表示欄と、前記運用者端末の入力部を操作して前記時間軸のある時点を指定することによって当該時点を含む時間帯において当該サーバで実行される他の処理の処理内容をリンク表示する第3の表示欄とを含む画面を送信する制御と、を実行する
    ことを特徴とする請求項1に記載の運用監視装置。
  5. ユーザが利用するアプリケーションが実装されているサーバの運用を監視し、前記サーバと通信可能に接続されている運用監視装置における運用監視方法において、
    前記運用監視装置の記憶部は、
    前記サーバごとに定められ、前記サーバが稼働している時間、前記サーバで実行される処理の処理内容、当該処理の開始時点および当該処理の終了時点を含む性能情報と、
    前記アプリケーションごとに定められ、前記アプリケーションを利用するユーザの数を含む会員情報と、
    外部のコンピュータから取得可能な経済指標ごとに定められ、前記経済指標を取得した時点および前記時点における前記経済指標の値を含む経済情報と、
    前記アプリケーションごとに定められ、前記ユーザが行う事業の属性と、前記経済指標のうち当該属性に対して適用する経済指標とを含むアプリケーション情報と、を記憶しており、
    前記運用監視装置の制御部は、
    運用を監視するサーバに関する前記性能情報、当該サーバに実装されているアプリケーションに関する前記会員情報、および前記経済情報を前記記憶部から取得するステップと、
    前記アプリケーション情報に基づいて、前記経済情報に含まれる経済指標のうち、当該サーバに実装されているアプリケーションに定められた経済指標を特定するステップと、
    前記取得した性能情報、会員情報、及び、前記特定した経済指標を用いた重回帰分析により、当該サーバに生じる負荷の時間変化を示す回帰式を算出するステップと、
    前記算出した回帰式により、当該サーバに生じる負荷が当該サーバに予め設定された負荷の閾値に到達すると予測される時点を算出するステップと、を実行し、
    前記事業の属性は、少なくとも(1)企業向け、(2)一般消費者向け、(3)従業員向け、(4)官公庁向けといった4つの属性を含み、
    前記企業向けの属性は、少なくとも(1)建設業、(2)生産財製造業、(3)消費財製造業、(4)卸業、(5)小売業、(6)サービス業といった6つの業種に分類されていること、
    特徴とする運用監視方法。
  6. ユーザが利用するアプリケーションが実装されているサーバの運用を監視し、前記サーバと通信可能に接続されている運用監視装置としてコンピュータを機能させる運用監視プログラムにおいて、
    前記運用監視装置の記憶部は、
    前記サーバごとに定められ、前記サーバが稼働している時間、前記サーバで実行される処理の処理内容、当該処理の開始時点および当該処理の終了時点を含む性能情報と、
    前記アプリケーションごとに定められ、前記アプリケーションを利用するユーザの数を含む会員情報と、
    外部のコンピュータから取得可能な経済指標ごとに定められ、前記経済指標を取得した時点および前記時点における前記経済指標の値を含む経済情報と、
    前記アプリケーションごとに定められ、前記ユーザが行う事業の属性と、前記経済指標のうち当該属性に対して適用する経済指標とを含むアプリケーション情報と、を記憶しており、
    前記運用監視装置の制御部に、
    運用を監視するサーバに関する前記性能情報、当該サーバに実装されているアプリケーションに関する前記会員情報、および前記経済情報を前記記憶部から取得する処理と、
    前記アプリケーション情報に基づいて、前記経済情報に含まれる経済指標のうち、当該サーバに実装されているアプリケーションに定められた経済指標を特定する処理と、
    前記取得した性能情報、会員情報、及び、前記特定した経済指標を用いた重回帰分析により、当該サーバに生じる負荷の時間変化を示す回帰式を算出する処理と、
    前記算出した回帰式により、当該サーバに生じる負荷が当該サーバに予め設定された負荷の閾値に到達すると予測される時点を算出する処理と、を実行させ
    前記事業の属性は、少なくとも(1)企業向け、(2)一般消費者向け、(3)従業員向け、(4)官公庁向けといった4つの属性を含み、
    前記企業向けの属性は、少なくとも(1)建設業、(2)生産財製造業、(3)消費財製造業、(4)卸業、(5)小売業、(6)サービス業といった6つの業種に分類されていること、
    特徴とする運用監視プログラム。
JP2010262778A 2010-11-25 2010-11-25 運用監視装置、運用監視方法、および運用監視プログラム Expired - Fee Related JP5466622B2 (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP2010262778A JP5466622B2 (ja) 2010-11-25 2010-11-25 運用監視装置、運用監視方法、および運用監視プログラム
PCT/JP2011/067629 WO2012070284A1 (ja) 2010-11-25 2011-08-01 運用監視装置、運用監視方法、および運用監視プログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2010262778A JP5466622B2 (ja) 2010-11-25 2010-11-25 運用監視装置、運用監視方法、および運用監視プログラム

Publications (2)

Publication Number Publication Date
JP2012113556A JP2012113556A (ja) 2012-06-14
JP5466622B2 true JP5466622B2 (ja) 2014-04-09

Family

ID=46145645

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2010262778A Expired - Fee Related JP5466622B2 (ja) 2010-11-25 2010-11-25 運用監視装置、運用監視方法、および運用監視プログラム

Country Status (2)

Country Link
JP (1) JP5466622B2 (ja)
WO (1) WO2012070284A1 (ja)

Families Citing this family (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8745713B1 (en) * 2012-08-31 2014-06-03 Cloud Cover Safety, Inc. Method and service for securing a system networked to a cloud computing environment from malicious code attacks
JP5948257B2 (ja) * 2013-01-11 2016-07-06 株式会社日立製作所 情報処理システム監視装置、監視方法、及び監視プログラム
SG11201508013YA (en) * 2013-03-29 2015-10-29 Cumulus Systems Inc Organizing and fast searching of data
WO2015092920A1 (ja) * 2013-12-20 2015-06-25 株式会社日立製作所 性能予測方法、性能予測システム及びプログラム
CN103685541B (zh) * 2013-12-23 2016-10-05 重庆广播电视大学 IaaS云系统运行速率动态控制装置、系统及方法
JP6426408B2 (ja) * 2014-09-03 2018-11-21 株式会社東芝 電子機器、方法及びプログラム
CN110166500B (zh) * 2018-02-11 2021-12-14 腾讯科技(深圳)有限公司 业务服务器开放方法、装置、存储介质和计算机设备

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2001356939A (ja) * 2000-06-13 2001-12-26 Tokyo Electric Power Co Inc:The ログ情報解析装置、方法および記録媒体
JP4644377B2 (ja) * 2001-03-09 2011-03-02 株式会社大和証券グループ本社 負荷監視システム
JP2004046734A (ja) * 2002-07-15 2004-02-12 Fuji Electric Holdings Co Ltd Webシステム性能予測装置、Webシステム性能予測方法、及びプログラム
JP4756675B2 (ja) * 2004-07-08 2011-08-24 インターナショナル・ビジネス・マシーンズ・コーポレーション コンピュータ資源のキャパシティを予測するためのシステム、方法およびプログラム

Also Published As

Publication number Publication date
JP2012113556A (ja) 2012-06-14
WO2012070284A1 (ja) 2012-05-31

Similar Documents

Publication Publication Date Title
JP5466622B2 (ja) 運用監視装置、運用監視方法、および運用監視プログラム
US11429627B2 (en) System monitoring driven by automatically determined operational parameters of dependency graph model with user interface
US11620300B2 (en) Real-time measurement and system monitoring based on generated dependency graph models of system components
US10803394B2 (en) Integrated monitoring and communications system using knowledge graph based explanatory equipment management
AU2020276284B2 (en) Continuous data sensing of functional states of networked computing devices to determine efficiency metrics for servicing electronic messages asynchronously
JP5948257B2 (ja) 情報処理システム監視装置、監視方法、及び監視プログラム
US20170109657A1 (en) Machine Learning-Based Model for Identifying Executions of a Business Process
CN103532780B (zh) 用于it领域的运维监控一体化系统及一体化监控方法
US20170109676A1 (en) Generation of Candidate Sequences Using Links Between Nonconsecutively Performed Steps of a Business Process
JP5468837B2 (ja) 異常検出方法、装置、及びプログラム
US11409645B1 (en) Intermittent failure metrics in technological processes
US20170109668A1 (en) Model for Linking Between Nonconsecutively Performed Steps in a Business Process
KR20190075972A (ko) 로그 파일들로부터 프로세스 흐름들을 식별하고 흐름을 시각화하기 위한 시스템들 및 방법들
US20170109667A1 (en) Automaton-Based Identification of Executions of a Business Process
JP5245211B2 (ja) 監視システム
US20170109636A1 (en) Crowd-Based Model for Identifying Executions of a Business Process
US20170109639A1 (en) General Model for Linking Between Nonconsecutively Performed Steps in Business Processes
JP2012164318A5 (ja)
US11610136B2 (en) Predicting the disaster recovery invocation response time
KR101735312B1 (ko) 소셜 미디어 분석을 기반으로 복합이슈를 탐지하기 위한 장치, 시스템 및 그 방법
US11921737B2 (en) ETL workflow recommendation device, ETL workflow recommendation method and ETL workflow recommendation system
US20170109638A1 (en) Ensemble-Based Identification of Executions of a Business Process
US9736031B2 (en) Information system construction assistance device, information system construction assistance method, and information system construction assistance program
US20170109640A1 (en) Generation of Candidate Sequences Using Crowd-Based Seeds of Commonly-Performed Steps of a Business Process
EP2887285A1 (en) Data process system and data process method

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20121128

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20131105

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20131211

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20140114

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20140124

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

LAPS Cancellation because of no payment of annual fees