JP2019079120A - 情報処理装置、情報処理方法、及びプログラム - Google Patents

情報処理装置、情報処理方法、及びプログラム Download PDF

Info

Publication number
JP2019079120A
JP2019079120A JP2017203645A JP2017203645A JP2019079120A JP 2019079120 A JP2019079120 A JP 2019079120A JP 2017203645 A JP2017203645 A JP 2017203645A JP 2017203645 A JP2017203645 A JP 2017203645A JP 2019079120 A JP2019079120 A JP 2019079120A
Authority
JP
Japan
Prior art keywords
time
system load
load
unit
prediction
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2017203645A
Other languages
English (en)
Other versions
JP7001422B2 (ja
Inventor
魁 相原
Isao Aihara
魁 相原
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Lifull Co Ltd
Original Assignee
Lifull Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Lifull Co Ltd filed Critical Lifull Co Ltd
Priority to JP2017203645A priority Critical patent/JP7001422B2/ja
Publication of JP2019079120A publication Critical patent/JP2019079120A/ja
Application granted granted Critical
Publication of JP7001422B2 publication Critical patent/JP7001422B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Debugging And Monitoring (AREA)

Abstract

【課題】負荷予測に基づき、好適にシステムを運用することを可能とする情報処理装置、情報処理方法、及びプログラムを提供する。【解決手段】各々の時刻と、各々の時刻において測定されたシステム負荷である実測システム負荷とが対応付けられた学習データの深層学習により生成される予測モデルを用いて、第1時刻までに検出された実測システム負荷に基づき、第1時刻よりも後の第2時刻におけるシステム負荷を予測した予測システム負荷を生成する第1予測部と、前記第2時刻における実測システム負荷を検出する検出部と、前記第2時刻における予測システム負荷と実測システム負荷との差分が閾値を超過する場合に、その旨を出力する出力部とを備える。【選択図】図1

Description

本発明は、情報処理装置、情報処理方法、及びプログラムに関する。
各種のサーバ等の機器を運用するシステムにおいては、負荷を予測し、当該予測負荷に基づいて最適化が図られることが多い(例えば、特許文献1参照)。特許文献1には、負荷実績データを定期的に収集した負荷実績データに基づいて負荷予測を行うことが記載されている。特許文献1に記載の負荷予測においては、1日の時間帯ごとに同じような変化を示す日パターンの変動等が考慮される。
特開2017−021497号公報
ここで、特許文献1には、予測精度を高めることについては開示されているものの、予測された負荷がどのように利用されるかについては十分な記載がない。
本発明のいくつかの態様は前述の課題に鑑みてなされたものであり、負荷予測に基づき、好適にシステムを運用することを可能とする情報処理装置、情報処理方法、及びプログラムを提供することを目的の1つとする。
本発明の一態様に係る情報処理装置は、各々の時刻と、各々の時刻において測定されたシステム負荷である実測システム負荷とが対応付けられた学習データの深層学習により生成される予測モデルを用いて、第1時刻までに検出された実測システム負荷に基づき、第1時刻よりも後の第2時刻におけるシステム負荷を予測した予測システム負荷を生成する第1予測部と、前記第2時刻における実測システム負荷を検出する検出部と、前記第2時刻における予測システム負荷と実測システム負荷との差分が閾値を超過する場合に、その旨を出力する出力部とを備える。
本発明の一態様に係る情報処理方法は、各々の時刻と、各々の時刻において測定されたシステム負荷である実測システム負荷とが対応付けられた学習データの深層学習により生成される予測モデルを用いて、第1時刻までに検出された実測システム負荷に基づき、第1時刻よりも後の第2時刻におけるシステム負荷を予測した予測システム負荷を生成するステップと、前記第2時刻における実測システム負荷を検出するステップと、前記第2時刻における予測システム負荷と実測システム負荷との差分が閾値を超過する場合に、その旨を出力するステップとを情報処理装置が行う。
本発明の一態様に係るプログラムは、各々の時刻と、各々の時刻において測定されたシステム負荷である実測システム負荷とが対応付けられた学習データの深層学習により生成される予測モデルを用いて、第1時刻までに検出された実測システム負荷に基づき、第1時刻よりも後の第2時刻におけるシステム負荷を予測した予測システム負荷を生成する処理と、前記第2時刻における実測システム負荷を検出する処理と、前記第2時刻における予測システム負荷と実測システム負荷との差分が閾値を超過する場合に、その旨を出力する処理とをコンピュータに実行させる。
なお、本発明において、「部」や「手段」、「装置」、「システム」とは、単に物理的手段を意味するものではなく、その「部」や「手段」、「装置」、「システム」が有する機能をソフトウェアによって実現する場合も含む。また、1つの「部」や「手段」、「装置」、「システム」が有する機能が2つ以上の物理的手段や装置により実現されても、2つ以上の「部」や「手段」、「装置」、「システム」の機能が1つの物理的手段や装置により実現されても良い。
情報処理装置の実施形態であるシステム監視装置を含むシステムの機能構成を示す図である。 図1に示したシステム監視装置の処理の流れを示すフローチャートである。 図1に示したシステム監視装置の処理の流れを示すフローチャートである。 図1に示したシステム監視装置のハードウェア構成の具体例を示す図である。
以下、図面を参照して本発明の実施形態を説明する。ただし、以下に説明する実施形態は、あくまでも例示であり、以下に明示しない種々の変形や技術の適用を排除する意図はない。即ち、本発明は、その趣旨を逸脱しない範囲で種々変形して実施することができる。また、以下の図面の記載において、同一又は類似の部分には同一又は類似の符号を付して表している。図面は模式的なものであり、必ずしも実際の寸法や比率等とは一致しない。図面相互間においても互いの寸法の関係や比率が異なる部分が含まれていることがある。
[実施形態]
[1 概要]
複数台のサーバ等からなる情報処理システムを用いてウェブサービス等の各種情報処理サービスを提供する場合、ユーザ等からのリクエストが常時変化する等の理由から、情報処理システムの負荷(プロセッサの処理能力、ネットワークの通信容量、メモリの使用量、ストレージの使用量等)も時々刻々変化する。もしシステム負荷が情報処理システムの処理能力を超えるとサービス停止等の深刻な事態が生じかねないため、情報処理システムの負荷を計測し、異常を検知することは極めて重要である。
従来、情報処理システムの異常は、管理者が手動で静的な監視閾値を設定することにより行われてきた。この場合、システム負荷が監視閾値を超過した場合、又は下回った場合にシステム異常として検知される。しかしながら、近年、システム要件が複雑になっていることから、システム負荷に対して手動で基準となる監視閾値を設定したのでは、十分にシステム異常を検出しきれない事態が生じている。例えば、慣例的に監視閾値は高負荷時のみを検知するように設定されることが多いことから、低負荷時の異常、例えばキャッシュストレージの負荷の減少に伴うキャッシュヒット率の低下等のシステム異常の検知が遅れたり見逃されたりすることが多い。このような低負荷時の異常を検知できるような監視閾値の設定は、情報処理システム毎に特性を深く調査する必要があるため、全てのシステムにおいて適切な監視閾値を設定するのは困難である。
また、ウェブサービス等の多くのサービスは負荷傾向に季節要因が含まれるが、例えばシステム負荷が上昇又は低下した場合であっても、それがシステム異常によるものなのか季節要因なのかの判断は管理者の判断に委ねられるのが通常であるため、このことが運用コストの肥大化を招いている。加えて、システム負荷が高くなった際にはサーバ台数を増やす等の対応が取られるが、あくまでも負荷が高くなったことが検出された後の事後的な対応となるため、異常検知後、一時的にパフォーマンスが低下する等の事態が生じやすい。すなわち、負荷が高まること等を事前に検知して、サーバ台数の増加等の対処を取ることが望ましい。
そこで本実施形態にかかるシステム監視装置では、深層学習を用いた予測モデルを用いた負荷予測、及びそれに基づく異常検知を行う。システム監視装置が自動で異常を検知して管理者に報知することで、異常の検知が遅れたり見逃されたりすることを抑制し、また、管理者が調査を行う作業負荷を軽減することが可能である。また、未来のシステム負荷を予測することにより、予め高負荷に備えてサーバ台数を増やしてサービスのパフォーマンス低下を防ぐこともできる。
本実施形態におけるシステム監視装置の負荷予測では、LSTM(Long Short Term Memory)による予測モデルを利用する。LSTMは、長期記憶が可能な再帰的ニューラルネットワークであるため、長期的な季節要因を考慮した高速な負荷予測が可能である。また、本実施形態にかかるシステム監視装置は、このような負荷予測と実測負荷とを比較して異常検知を行うことで、長期的な季節要因を考慮した上での高速な異常検知を可能としている。
また、LSTMによる予測モデルを生成する際、長期的な季節要因を当該予測モデルに反映させるためには、長期間にわたる負荷情報を学習させる必要がある。すなわち、長期間に渡る負荷情報を、学習データとして全て保持する必要がある。しかしながら、過去の全ての負荷情報を保持しておくためには、膨大な記憶容量が必要であり、またそれを用いた学習にも膨大な時間を要する。よって、本実施形態におけるシステム監視装置では、学習済みの予測モデルに対し、学習以降に新たに得られた負荷情報のみの再学習を転移学習により行う。これにより、システム監視装置は、前回予測モデルを生成する際に用いた時点以降の負荷情報のみを保持し、それを学習させればよいことから、負荷情報の保持コスト及び再学習に要する時間の低減を図ることを可能としている。
また、本実施形態におけるシステム監視装置は、異常が検知された場合に、検知された異常や予測負荷に応じて、好適なオペレーション情報(ワークフロー)を実行する。これにより、管理者による運用負荷を低減することができる。
[2 機能構成]
[2.1 情報処理システム1の概要]
以下、図1を参照しながら、本実施形態にかかるシステム監視装置100を含む情報処理システム1の全体構成を説明する。情報処理システム1は、大きく分けて、ウェブサービス等の各種サービスを提供するサーバ200a乃至200n(以下、総称してサーバ200という。)と、サーバ200に係るシステム負荷状況を監視するシステム監視装置100とを含む。
システム監視装置100は、各々のサーバ200と通信可能に接続され、少なくともサーバ200のシステム負荷状況、例えばCPU(Central Processing Unit)の処理状況、ネットワークの通信容量、メモリの使用量、ストレージの使用量等を逐次監視する。またシステム監視装置100は、システム異常が検出された際に、当該システム異常に対応するための処置(オペレーション)、例えば新たなサーバ200の稼働等の対処を行う。なお、サーバ200が提供するサービスはウェブサービスに限られず、任意のものとすることができる。
図1に示すように、システム監視装置100は、負荷検出部101、負荷情報DB(データベース)103、第1予測部107、第2予測部109、学習部111、異常判定部113、出力部115、対処部117、及びオペレーションDB119を含む。
ここで、本実施形態に係るシステム監視装置100では、現在時刻(例えば時刻Tとする)から一定時間前の時点(例えば時刻T−t1。t1>0)までの負荷情報105を用いて、現在時刻Tのシステム負荷を第1予測部107で予測する(予測システム負荷)。一方、また負荷検出部101は現在時刻Tにおける実際のシステム負荷を検出する(実測システム負荷)。異常判定部113は、時刻Tにおける予測システム負荷と実測システム負荷とを比較し、もし両者の乖離が閾値よりも大きければ、予期しない異常が発生しているものとして、出力部115から管理者へ報知等する。
またこれと併せて、第2予測部109では、現在時刻Tまでの負荷情報105を用いて、現在時刻Tから一定時間後の時点(時刻T+t2。t2>0)のシステム負荷を予測する。対処部117は、異常判定部113で異常が検出された場合には、未来である時刻T+t2に生じると予想されるシステム負荷に応じたオペレーション情報121を読込み、当該オペレーション情報121に基づいて、検出されたシステム異常及び将来予想されるシステム負荷への対処を行うことができる。
なお、本実施形態では、現在時刻T+t2の予測システム負荷に応じたオペレーション情報121を読み込んで対処を行うが、これに限られるものではない。例えば、異常判定部113で検出された異常の種類に応じたオペレーション情報121を読み込んで対処を行うことも考えられる。この場合には、システム監視装置100は第2予測部109を必ずしも備えている必要はない。
[2.2 システム監視装置100の機能]
以下、システム監視装置100が有する各機能を説明する。なお、図1に示したシステム監視装置100の各機能は、必ずしも物理的に1台の装置として実現される必要はなく、複数台の協働するコンピュータにより実現することも考えられる。例えば第1予測部107及び第2予測部109が有する予測モデル107a及び予測モデル109aを生成及び再学習するための学習部111と、他の機能とを異なる装置上に実現することも考えられる。
負荷検出部101は、各々のサーバ200と通信可能に設けられ、サーバ200の実際のシステム負荷を検出する。システム負荷の検出方法は種々考えられるが、例えば、サーバ200からサーバ自身で測定した情報を受信する方法も考えられるし、負荷検出部101がサーバ200の動作を観察することによりシステム負荷を測定することも考えられる。なお、負荷検出部101は、プロセッサの稼働状況やメモリの使用状況等、複数種類のシステム負荷を検出するように構成することができる。
負荷情報DB103は、負荷情報105を管理する。負荷情報105には、負荷検出部101で検出されたシステム負荷の値と、検出或いは測定された時刻(絶対時刻であるか、或いは所定の時点を基準とした相対時刻であるかは問わない)の情報とが少なくとも含まれる。ここで、もし監視対象の負荷が、例えばプロセッサの稼働状況、メモリの使用状況、ネットワーク帯域の使用状況など、複数種類あるのであれば、各々のシステム負荷の値が、時刻情報と対応付けられて負荷情報105として負荷情報DB103に格納される。
第1予測部107及び第2予測部109は、各々、予測モデル107a及び予測モデル109aを用いて、負荷情報DB103から得られる負荷情報105に基づいて、例えば30分後等の所定時間後の予測システム負荷を予測する。例えば、予測モデル107a及び予測モデル109aは、時刻Txまでの負荷情報105に基づいて、時刻Txよりも時間t(t>0。以下同じ)先のシステム負荷、すなわち時刻Tx+tのシステム負荷を算出することができる。第1予測部107及び第2予測部109は、このようなシステム負荷の予測を、例えば60秒毎等、定期的に行う。
なお、第1予測部107及び第2予測部109は、プロセッサの稼働状況やメモリの使用状況、ネットワーク帯域の使用状況等の、監視対象のシステム負荷の種類毎に、各々複数用意することもできるし、或いは複数のシステム負荷を併せて処理するものとして用意することもできる。ここでは、システム負荷毎に用意するものとする。その場合、後述の学習部111は、システム負荷の種類毎に、予測モデル107a及び予測モデル109aの学習及び再学習を行う。
なお、予測モデル107a及び予測モデル109aは同一であっても、異なるモデルであっても良い。もし異なるものとする場合には、予測モデル107aでは時刻Txまでの負荷情報105に基づき時刻Tx+t1(t1>0)のシステム負荷が、予測モデル109aでは時刻Txまでの負荷情報105に基づき時刻Tx+t2(t2>0)のシステム負荷が、それぞれ予測できる。ここでは、第1予測部107で使用される予測モデル107aと、第2予測部109で使用される予測モデル109aとは同一であるもの、つまり同じ負荷情報105を入力すれば、同一の予測システム負荷が得られるものとして説明する。予測モデル107a及び109aを同一のものとすることにより、予測モデル107a及び予測モデル109aを生成するための学習及び再学習は各々1回となるため、運用コストを下げることが可能である。
また、予測モデル107a及び予測モデル109aが入力とする負荷情報105は、1つの時刻Txにおける負荷情報105のみとしても良いし、或いは、一定の時間幅にかかる負荷情報105、例えば時刻Tx−tから時刻Txまでの負荷情報105とすることも考えられる。
第1予測部107と第2予測部109とでは、入力される負荷情報105が異なる。例えば、第1予測部107は時刻T−tまでの負荷情報105を入力として時刻Tのシステム負荷を予測し、第2予測部109は時刻Tまでの負荷情報105を入力として時刻T+tのシステム負荷を予測する。時刻Tを現在時刻として運用する場合には、第1予測部107では、過去である時刻T−t(例えば現在時刻の30分前)までのシステム稼働状況から予測される現在時刻Tのシステム負荷が算出される。一方、第2予測部109では、現在時刻Tまでのシステム稼働状況から、未来である時刻T+t(例えば現在時刻の30分後)におけるシステム負荷が算出される。
学習部111は、予測モデル107a及び予測モデル109aを生成するための学習、及びその再学習を行う。先述の通り、本実施形態においては予測モデル107a及び109aは同一であるため、ここでは予測モデル107aを生成/再学習するものとして説明する。なお、もし予測モデル107a及び予測モデル109aを別のものとする場合には、各々について、下記の学習及び再学習の処理を行えば良い。
学習部111は、負荷情報DB103に格納される負荷情報105を学習データとして、LSTMによる学習を行うことで予測モデル107aを生成する。先述の通り、サーバ200が提供するサービスは、季節や月、曜日、時間帯等の種々の季節要因に応じて変化する。よって、最初に予測モデル107aを生成する際に用いる負荷情報105は、なるべく長期間のものとすることが好ましい。LSTMは長期記憶が可能な再帰的ニューラルネットワークであるため、より長期間にわたる負荷情報105を学習させることで、長期的な季節要因を考慮した予測モデル107aを生成することが可能となる。
また、学習部111は、既に生成されている予測モデル107aに対し、転移学習により再学習を行う機能も有する。この際、例えば任意の時刻Tnまでの負荷情報105を学習データとして予測モデル107aが生成されているのであれば、例えば時刻Tn+1(時間軸で時刻Tnよりも先にある任意の時刻)〜時刻Tn+xの負荷情報105を学習データとして、学習部111は予測モデル107aの再学習を行えば良い。もし時刻Tn+xまでの負荷情報105の再学習が終了し、予測モデル107aにそれらの負荷情報105が反映されたのであれば、負荷情報DB103から、時刻Tn+xまでの負荷情報105を削除することが可能である。これにより、負荷情報105を長期間保持する必要がなくなるため、システム監視装置100の運営コストを抑制させることが可能となる。
なお、学習部111は、例えば1日に1回、1週間に1回等、定期的に自動で予測モデル107aの再学習処理を行うことができる。定期的に学習部111が再学習を行うことで、1回の再学習に用いる学習データである負荷情報105の量が減るため、予測モデル107aの再学習に要する1回あたりの時間を低減させることができる。
異常判定部113は、第1予測部107で予測された予測システム負荷の値と、負荷検出部101で検出された実際のシステム負荷(実測システム負荷)との差異に基づき、異常を検出する。すなわち、時刻T−tまでのシステム稼働状況から予測される時刻Tの予測システム負荷の値と、実際に観測された時刻Tのシステム負荷の値とが、例えば閾値以上乖離していれば、異常判定部113は異常と判定する。これは、第1予測部107で生成される予測システム負荷は、一定時間t前までのシステム稼働状況から、季節要因を考慮して算出されるものであるため、この予測システム負荷の値と、実際の実測システム負荷の値とが大きく乖離している場合には、予期しない何らかの事態(想定しない大量の処理要求を受けている、サーバ200の何らかの部位の稼動状態に問題がある等)と考えられるからである。
出力部115は、異常判定部113による異常判定結果を出力する。出力方法としては、例えば、表示装置へのメッセージの表示やスピーカからの音声出力、メールやメッセンジャーアプリケーション等のメッセージ通知を行うことにより、管理者へ報知すること、或いは、ログファイルとして、時刻及びその時刻における正常/異常状態を出力すること、等が考えられる。
対処部117は、異常判定部113により異常が検出された際に、当該異常に対する対処(オペレーション)を行う。この際、対処部117は、オペレーションDB119に予め格納されたオペレーション情報121を参照することができる。オペレーション情報121に記載されるオペレーションの内容としては、例えば、異常が検知されたシステム負荷の種類に応じて、休止中のサーバ200の稼働や一部のサーバ200の稼働停止、サーバ200の再起動等を行うためのものが考えられる。
なおこの際、対処部117は、予想される未来の予測システム負荷に応じた対処を行うことも考えられる。この場合には、対処部117は、異常判定部113から出力される現在時刻T時点での異常判定結果と、第2予測部109で生成される時刻T+tの予測システム負荷とを用いてオペレーション情報121を参照すればよい。これにより、例えば現在時刻Tでの異常が異常判定部113により検出された場合に、第2予測部109で算出される時刻T+tのシステム負荷に応じた対処を対処部117が行うことが可能となる。また、例えば時刻T+tに予想される予測システム負荷が高ければサーバの新規稼働等を行うものの、時刻T+tで予想される予測システム負荷は正常範囲内である場合には、何ら対処を行わない、といったオペレーションも可能となる。
[3 処理の流れ]
以下、図2及び図3を参照しながら、システム監視装置100の処理の流れを説明する。図2及び図3は、システム監視装置100の処理の流れを示すフローチャートである。
なお、後述の各処理ステップは、処理内容に矛盾を生じない範囲で、任意に順番を変更して若しくは並列に実行することができ、また、各処理ステップ間に他のステップを追加しても良い。更に、便宜上1つのステップとして記載されているステップは複数のステップに分けて実行することもでき、便宜上複数に分けて記載されているステップを1ステップとして実行することもできる。
[3.1 異常検出時の処理の流れ]
まず、図2を参照しながら、システム監視装置100によるシステム異常検出にかかる処理を説明する。図2は、システム異常検出にかかるシステム監視装置100の処理の流れを示すフローチャートである。
まず負荷検出部101は、現在時刻Tにおけるサーバ200のシステム負荷(実測システム負荷)を検出する(S201)。先述の通り、負荷検出部101によるシステム負荷の検出方法は、サーバ200等のシステム稼働状況を負荷検出部101を観測することにより検出しても良いし、或いは、サーバ200側から受信することにより検出することも考えられる。検出された実測システム負荷は、時刻Tと対応付けられて負荷情報DB103に負荷情報105として格納される。
第1予測部107は、負荷情報DB103に格納された、時刻Tよりも時間t(t>0)早い、時刻T−tまでの負荷情報105を読込み、当該負荷情報105を予測モデル107aに入力することにより、時刻Tの予測システム負荷を算出する(S203)。
異常判定部113は、第1予測部107で算出された時刻Tの予測システム負荷の値と、負荷検出部101で検出された時刻Tにおける実測システム負荷の値との差異を算出する(S205)。この結果、予測システム負荷と実測システム負荷との差異が予め定められた閾値以上であった場合には(S207のYes)、異常判定部113は異常が発生しているものとして判定し、その旨を出力部115から出力させる(S115)。管理者は、当該出力を見ることで、サーバ200からなるシステムに何らかの異常が発生していることを把握することができるため、これに応じて異常への何らかの対処を行うことが可能である。
また、第2予測部109では、時刻Tまでの実測システム負荷である負荷情報105を読込み、当該負荷情報105を予測モデル109aに入力することにより、時刻T+tの予測システム負荷を算出する(S211)。対処部117は、異常判定部113で検出された異常と、当該時刻T+tの予測システム負荷とに基づくオペレーション情報121をオペレーションDB119から読出し、オペレーションを実行する(S215)。なお、主にシステム異常への対応を管理者が行う場合には、S211乃至S215の処理は必ずしも行う必要はない。
なお、S207において、予測システム負荷の値と実測システム負荷の値との乖離が閾値未満である場合には(S207のNo)、S209乃至S215にかかる処理は不要である。
システム監視装置100でのシステム管理を継続する場合には(S217のNo)、システム監視装置100は、時刻TをT+1(時間軸で所定時間単位先にある任意の時刻。例えば時刻Tの30秒後)に更新して(S219)、再度S201以降の処理を行えば良い。
[3.2 予測モデル107aの学習に関する処理の流れ]
次に、図3を参照しながら、システム監視装置100がシステム負荷を予測するために利用する予測モデル107aの学習にかかる処理を説明する。図3は、予測モデル107aの学習にかかるシステム監視装置100の処理の流れを示すフローチャートである。なお、先述の通り、本実施形態においては、予測モデル109aは予測モデル107aと同一であるため、図3の処理により、予測モデル107a及び予測モデル109aの両者が生成される。もし両者を違うものとするのであれば、学習データとする負荷情報105の相違はあるものの、同様の手順により予測モデル109aも生成することができる。
まだ予測モデル107aが生成されていない場合には、システム監視装置100の学習部111は、予測モデル107aを生成するために時刻Tnまでの全ての負荷情報105を読込み(S301)、これを学習データとして、LSTMにより予測モデル107aを生成する(S303)。生成された予測モデル107aを第1予測部107に読み込ませることで、第1予測部107は負荷情報105に基づいてシステム負荷を予測できるようになる。
その後、予め設定された、予測モデル107aの再学習時刻が到来すると(S305のYes)、学習部111は、時刻Tまでの負荷情報105による学習で生成された予測モデル107aを読み込むとともに(S307)、時刻Tn+1乃至Tn+t(Tn+t>Tn+1であり、tは任意の時間)までの負荷情報105を負荷情報DB103から読み込む(S309)。学習部111は、読み込んだ時刻Tn+1乃至Tn+tの負荷情報105を用いて、予測モデル107aの転移学習による再学習を行う。これにより学習部111は、時刻Tnまでの負荷情報105を考慮した予測モデル107aを、時刻Tn+tまでの負荷情報105を考慮したものとすることができる。よって学習部111は、予測モデル107aに反映された最新の時刻を示す時刻Tnを、時刻Tn+tで更新する(S313)。またこのとき、学習部111は、負荷情報DB103に格納された時刻Tn+tまでの負荷情報105を削除しても良い。
システム監視装置100でのシステム管理を継続する場合には(S315のNo)、システム監視装置100は、S305乃至S313の処理を繰り返すことにより、予測モデル107aの定期的な更新を行うことができる。
[4 ハードウェア構成]
以下、図4を参照しながら、システム監視装置100を実現可能なコンピュータ(情報処理装置)のハードウェア構成を説明する。システム監視装置100は、制御部401と、記憶部405と、通信インタフェース(I/F)部411と、入力部413と、表示部415とを含み、各部はバスライン417を介して接続される。
制御部401は、CPU(Central Processing Unit。図示せず)、ROM(Read Only Memory。図示せず)、RAM(Random Access Memory)403等を含む。制御部401は、記憶部405に記憶される制御プログラム407を実行することにより、一般的なコンピュータとしての機能に加え、図1に示したシステム監視装置100の各構成に関する処理を実行可能に構成される。例えば、図1に示した負荷検出部101、第1予測部107、第2予測部109、学習部111、異常判定部113、出力部115、及び対処部117は、RAM403に一時記憶された上で、CPU上で動作する制御プログラム407として実現可能である。
また、RAM403は、制御プログラム407に含まれるコードの他、負荷情報105やオペレーション情報121、異常判定部113による判定結果等の一部又は全部を一時的に記憶する。更にRAM403は、CPUが各種処理を実行する際のワークエリアとしても使用される。
記憶部405は、例えばHDD(Hard Disk Drive)やフラッシュメモリ等の不揮発性の記憶媒体である。記憶部405は、一般的なコンピュータとしての機能を実現するためのオペレーティングシステム(OS)や制御プログラム407、及びその実行に必要となるデータであるDB409を記憶する。DB409には、負荷情報DB103及びオペレーションDB119を含みうる。
通信I/F部411は、必要に応じて、サーバ200や、その他の情報処理装置と有線又は無線によるデータ通信を行うためのデバイスである。例えば、サーバ200の負荷を検出するための負荷検出部101による負荷検出処理は、通信I/F部411を介して行うことが考えられる。
入力部413は、システム監視装置100の管理者から各種入力操作を受け付けるためのデバイスである。入力部413の具体例としては、キーボードやマウス、タッチパネル等を挙げることができる。
表示部415は、システム監視装置100を管理する管理者に各種情報を提示するためのディスプレイ装置である。表示部415の具体例としては、例えば液晶ディスプレイや有機EL(Electro−Luminescence)ディスプレイ等が挙げられる。例えば、異常判定部113によりシステム異常が検出された際には、出力部115が表示部415にその旨を表示させること等が考えられる。
[5 本実施形態の効果]
以上説明したように、本実施形態に係るシステム監視装置100では、長期的な季節要因を考慮しうる予測モデル107aを用いて、予測システム負荷を算出し、この予測システム負荷と、実測システム負荷とを比較することにより、異常を検出する。これにより、システム負荷が高くない場合であっても、予測と異なる状況にあれば異常が検出されるため、異常の検知漏れ等を抑制することができる。
また、監視対象となる時刻Tよりも先の時刻T+tの予測システム負荷を算出し、これに基づく対処を可能とすることで、将来的に高負荷等によるパフォーマンス低下が見込まれる場合には、予めサーバを増強する等の措置をとることが可能である。
更に、異常の検知、及びその対処を自動的に行うことを可能とするため、管理者による運用コストの低減を図ることができる。
[6 付記]
以上説明した実施形態は、本発明の理解を容易にするためのものであり、本発明を限定して解釈するためのものではない。実施形態が備える各要素並びにその配置、材料、条件、形状及びサイズ等は、例示したものに限定されるわけではなく適宜変更することができる。また、異なる実施形態で示した構成同士を部分的に置換し又は組み合わせることが可能である。
1…情報処理システム、100…システム監視装置、101…負荷検出部、103・・・負荷情報データベース(DB)、105…負荷情報、107…第1予測部、107a…予測モデル、109…第2予測部、109a…予測モデル、111…学習部、113…異常判定部、115…出力部、117…対処部、119…オペレーションDB、121…オペレーション情報、200…サーバ、401…制御部、403…RAM、405…記憶部、407…制御プログラム、411…通信インタフェース(I/F)部、413…入力部、415…表示部、417…バスライン

Claims (6)

  1. 各々の時刻と、各々の時刻において測定されたシステム負荷である実測システム負荷とが対応付けられた学習データの深層学習により生成される予測モデルを用いて、第1時刻までに検出された実測システム負荷に基づき、第1時刻よりも後の第2時刻におけるシステム負荷を予測した予測システム負荷を生成する第1予測部と、
    前記第2時刻における実測システム負荷を検出する検出部と、
    前記第2時刻における予測システム負荷と実測システム負荷との差分が閾値を超過する場合に、その旨を出力する出力部と
    を備える情報処理装置。
  2. 前記第2時刻までに検出された実測システム負荷に基づき、前記予測モデルを用いて、前記第2時刻よりも後の第3時刻における予測システム負荷を生成する第2予測部
    を更に備える、請求項1記載の情報処理装置。
  3. システム負荷に応じたオペレーションを管理する管理部と、
    前記第2時刻における前記差分が前記閾値を超過する場合に、前記第3時刻における予測システム負荷に応じた前記オペレーションを実行する制御部と
    を更に備える、請求項2記載の情報処理装置。
  4. 第4時刻までの実測システム負荷に係る第1学習データにより生成された前記予測モデルを、前記第4時刻から第5時刻までの実測システム負荷に係る第2学習データを用いて、前記予測モデルを再学習させる、再学習部
    を更に備える、請求項1乃至請求項3のいずれか1項記載の情報処理装置。
  5. 各々の時刻と、各々の時刻において測定されたシステム負荷である実測システム負荷とが対応付けられた学習データの深層学習により生成される予測モデルを用いて、第1時刻までに検出された実測システム負荷に基づき、第1時刻よりも後の第2時刻におけるシステム負荷を予測した予測システム負荷を生成するステップと、
    前記第2時刻における実測システム負荷を検出するステップと、
    前記第2時刻における予測システム負荷と実測システム負荷との差分が閾値を超過する場合に、その旨を出力するステップと
    を情報処理装置が行う、情報処理方法。
  6. 各々の時刻と、各々の時刻において測定されたシステム負荷である実測システム負荷とが対応付けられた学習データの深層学習により生成される予測モデルを用いて、第1時刻までに検出された実測システム負荷に基づき、第1時刻よりも後の第2時刻におけるシステム負荷を予測した予測システム負荷を生成する処理と、
    前記第2時刻における実測システム負荷を検出する処理と、
    前記第2時刻における予測システム負荷と実測システム負荷との差分が閾値を超過する場合に、その旨を出力する処理と
    をコンピュータに実行させる、プログラム。
JP2017203645A 2017-10-20 2017-10-20 情報処理装置、情報処理方法、及びプログラム Active JP7001422B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2017203645A JP7001422B2 (ja) 2017-10-20 2017-10-20 情報処理装置、情報処理方法、及びプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2017203645A JP7001422B2 (ja) 2017-10-20 2017-10-20 情報処理装置、情報処理方法、及びプログラム

Publications (2)

Publication Number Publication Date
JP2019079120A true JP2019079120A (ja) 2019-05-23
JP7001422B2 JP7001422B2 (ja) 2022-01-19

Family

ID=66626558

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2017203645A Active JP7001422B2 (ja) 2017-10-20 2017-10-20 情報処理装置、情報処理方法、及びプログラム

Country Status (1)

Country Link
JP (1) JP7001422B2 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP6950911B1 (ja) * 2020-07-31 2021-10-13 株式会社アイデミ— 需要予測プログラム、需要予測装置、需要予測方法、需要予測通知プログラム、需要予測通知装置及び需要予測通知方法

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7281041B2 (en) 2002-10-31 2007-10-09 Hewlett-Packard Development Company, L.P. Method and apparatus for providing a baselining and auto-thresholding framework
JP4936072B2 (ja) 2008-02-13 2012-05-23 日本電気株式会社 システム負荷監視方法
JP5448787B2 (ja) 2009-12-21 2014-03-19 三菱重工業株式会社 計算機管理装置、計算機管理方法及び計算機管理プログラム

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP6950911B1 (ja) * 2020-07-31 2021-10-13 株式会社アイデミ— 需要予測プログラム、需要予測装置、需要予測方法、需要予測通知プログラム、需要予測通知装置及び需要予測通知方法
JP2022026878A (ja) * 2020-07-31 2022-02-10 株式会社アイデミ― 需要予測プログラム、需要予測装置、需要予測方法、需要予測通知プログラム、需要予測通知装置及び需要予測通知方法

Also Published As

Publication number Publication date
JP7001422B2 (ja) 2022-01-19

Similar Documents

Publication Publication Date Title
US10891182B2 (en) Proactive failure handling in data processing systems
US10048996B1 (en) Predicting infrastructure failures in a data center for hosted service mitigation actions
CN108733509B (zh) 用于在集群系统中备份和恢复数据的方法和系统
JP2020126655A (ja) コンピューティング・デバイスについてのシステム性能およびイベント・データを収集、追跡、および記憶するためのシステムおよび方法
JP6025753B2 (ja) パフォーマンス・メトリックを監視するためのコンピュータによって実施される方法、コンピュータ可読記憶媒体、およびシステム
JP5440273B2 (ja) スナップショット管理方法、スナップショット管理装置、及びプログラム
US9450876B1 (en) Wear leveling and management in an electronic environment
US20120053925A1 (en) Method and System for Computer Power and Resource Consumption Modeling
US9971664B2 (en) Disaster recovery protection based on resource consumption patterns
JP4811830B1 (ja) コンピュータリソース制御システム
US9489138B1 (en) Method and apparatus for reliable I/O performance anomaly detection in datacenter
JP2011175357A5 (ja) 管理装置及び管理プログラム
US10769641B2 (en) Service request management in cloud computing systems
US8949653B1 (en) Evaluating high-availability configuration
US20140351644A1 (en) System and method to proactively and intelligently schedule disaster recovery (dr) drill(s)/test(s) in computing system environment
JP2019079120A (ja) 情報処理装置、情報処理方法、及びプログラム
US20150113090A1 (en) Selecting a primary storage device
EP3742670A1 (en) Analytics based cloud brokering of data protection operations system and method
US10409662B1 (en) Automated anomaly detection
US11210159B2 (en) Failure detection and correction in a distributed computing system
Saadatfar et al. A job submission manager for large-scale distributed systems based on job futurity predictor
JP2012089109A (ja) コンピュータリソース制御システム
JP2012008935A (ja) 分散サーバシステムの状態推定装置

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20201019

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20211025

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20211129

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20211224

R150 Certificate of patent or registration of utility model

Ref document number: 7001422

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150