JP6992896B2 - システム状態推定装置、システム状態推定方法、及びプログラム - Google Patents

システム状態推定装置、システム状態推定方法、及びプログラム Download PDF

Info

Publication number
JP6992896B2
JP6992896B2 JP2020525658A JP2020525658A JP6992896B2 JP 6992896 B2 JP6992896 B2 JP 6992896B2 JP 2020525658 A JP2020525658 A JP 2020525658A JP 2020525658 A JP2020525658 A JP 2020525658A JP 6992896 B2 JP6992896 B2 JP 6992896B2
Authority
JP
Japan
Prior art keywords
system state
action
user
state
log data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2020525658A
Other languages
English (en)
Other versions
JPWO2019240229A1 (ja
Inventor
光希 池内
暁 渡邉
丈浩 川田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Publication of JPWO2019240229A1 publication Critical patent/JPWO2019240229A1/ja
Application granted granted Critical
Publication of JP6992896B2 publication Critical patent/JP6992896B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/0706Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation the processing taking place on a specific hardware platform or in a specific software environment
    • G06F11/0709Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation the processing taking place on a specific hardware platform or in a specific software environment in a distributed system consisting of a plurality of standalone computer nodes, e.g. clusters, client-server systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/0751Error or fault detection not based on redundancy
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/34Recording or statistical evaluation of computer activity, e.g. of down time, of input/output operation ; Recording or statistical evaluation of user activity, e.g. usability assessment
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/34Recording or statistical evaluation of computer activity, e.g. of down time, of input/output operation ; Recording or statistical evaluation of user activity, e.g. usability assessment
    • G06F11/3438Recording or statistical evaluation of computer activity, e.g. of down time, of input/output operation ; Recording or statistical evaluation of user activity, e.g. usability assessment monitoring of user actions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/34Recording or statistical evaluation of computer activity, e.g. of down time, of input/output operation ; Recording or statistical evaluation of user activity, e.g. usability assessment
    • G06F11/3466Performance evaluation by tracing or monitoring
    • G06F11/3476Data logging
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N7/00Computing arrangements based on specific mathematical models
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N7/00Computing arrangements based on specific mathematical models
    • G06N7/01Probabilistic graphical models, e.g. probabilistic networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/004Error avoidance
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2201/00Indexing scheme relating to error detection, to error correction, and to monitoring
    • G06F2201/81Threshold
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/004Artificial life, i.e. computing arrangements simulating life
    • G06N3/006Artificial life, i.e. computing arrangements simulating life based on simulated virtual individual or collective life forms, e.g. social simulations or particle swarm optimisation [PSO]

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Quality & Reliability (AREA)
  • Computer Hardware Design (AREA)
  • Software Systems (AREA)
  • Evolutionary Computation (AREA)
  • Data Mining & Analysis (AREA)
  • Artificial Intelligence (AREA)
  • Mathematical Physics (AREA)
  • Computing Systems (AREA)
  • Computational Mathematics (AREA)
  • Pure & Applied Mathematics (AREA)
  • Mathematical Optimization (AREA)
  • Mathematical Analysis (AREA)
  • Algebra (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Medical Informatics (AREA)
  • Probability & Statistics with Applications (AREA)
  • Debugging And Monitoring (AREA)

Description

本発明は、ユーザ行動に伴いログを出力するシステムにおけるシステム状態を推定する技術に関連するものである。
近年急速に大規模化してきた通信システムは、数千・数万台の装置から構成され、発生する障害の種類も多岐に渡るため、障害対応には非常に多くの時間を要している。特に、障害の要因を突き止める切り分け作業は、オペレータの多大な稼働を割くものであるため、自動化する機構の需要が高まっている。
一般に障害の要因特定では、装置が出力するシステムログ(以下単にログと呼ぶ)に含まれる情報を活用することが多い。通常、ログは人力での確認が困難なほど膨大な量が出力されるため、自動で解析する技術が開発されてきた。多くの従来技術では、膨大な量の観測ログデータを入力とした機械学習的手法により、イベント間の因果関係を獲得したり、ログデータと障害要因を関連付けるルール作成を行ったりすることで、障害発生時の要因特定を自動化、迅速化している(非特許文献1)。
しかしながら、そうした手法の多くは機器の定期監視により受動的に得られるログ(これを監視ログと呼ぶ)に基づいているため、異なる障害要因で同じようなログを出力してしまうものに関しては、それらを切り分けることができないという問題点があった。
そこで、監視ログだけでなく、「仮想マシンの起動」や「ボリュームの削除」などのシステムユーザが通常行うような行動(これをユーザ行動と呼ぶ)を、システム管理者が能動的に実行し、その際に出力されるログ(これを行動ログと呼ぶ)も合わせて要因特定に用いる手法が開発された(非特許文献2)。
非特許文献2に開示された技術は、異なる障害要因において、監視ログには差異が表れなくても、行動ログには差異が表れることがあるという事実を利用したものである。非特許文献2では、事前に、テストベッド環境システム又は運用前の実環境システムにおいて様々な障害時における様々なユーザ行動に対する行動ログを網羅的に蓄積しておいて、運用中の実環境システムで障害が発生した際は、管理者側が網羅的にあらゆるユーザ行動を(自動)実行しその際の行動ログを収集、分析して障害要因を特定するというものである。
管理者側がなんらかの行動を実行して情報を得るという観点からは、有効と思われる行動を優先的に選択して実行し要因特定を自動化、迅速化するという技術が存在する(非特許文献3、4)。非特許文献3、4では管理者の行動に対しシステムがフィードバックを返し、そのフィードバックに応じて次にとるべき行動を決定する、という動作をし、適切な行動を適切な順序で実行することが可能となり迅速な要因特定が達成される。しかしこれらの手法は、ユーザ行動ではなく、pingコマンドなどの運用管理用の切り分け行動を対象としており、特にそのフィードバックが「ping疎通成功」、「ping疎通失敗」のように二値をとるような簡単なものに限定されている。
S. P. Kavulya, K. Joshi, F. D. Giandomenico, and P. Narasimhan, "Failure diagnosis of complex systems," Resilience assessment and evaluation of computing systems, Springer, pp. 239-261, 2012. 池内光希,渡邉暁,川田丈浩,川原亮一,「ユーザ行動に起因するログを用いた障害要因推定技術の検討」, 信学会総合大会,B-7-18,2018. K. R. Joshi, M. A. Hiltunen, W. H. Sanders, and R. D. Schlichting, "Probabilistic model-driven recovery in distributed systems," IEEE Transaction on Dependable and Secure Computing, vol. 8, no. 6, pp. 913-928, 2011. M. L. Littman, N. Ravi, E. Fenson, and R. Howard, "An Instance-based State Representation for Network Repair", in Proc. of the 19th National Conference on American Association for Artificial Intelligence (AAAI), pp. 287-292, 2004.
非特許文献2に開示された技術では実際の障害要因特定の際に、障害中の実環境システムに対し網羅的にユーザ行動を実行してログを収集する必要がある。しかしこの行為は、実環境システムに多大な負荷を与えシステム状態を悪化させる危険性がある。また、例えばクラウドシステムの場合、ユーザ行動の種類は少なくとも数十にのぼり、これらを全て実行しログを収集することは長い時間を要し、結果として障害要因特定が長引いてしまう恐れがある。したがって、非特許文献2の障害要因特定においては、適切なユーザ行動を適切な順番で行えるような機構が必要となる。
非特許文献3、4に開示された技術は、行動の選択という同じような課題の解決に関するものであるが、管理者の実行した行動に対して、システムが二値では表せないログデータのような複雑なフィードバックを返すような状況に適用することはできない。
本発明は上記の点に鑑みてなされたものであり、ユーザ行動を用いたシステム状態の特定の際に、適切なユーザ行動を適切な順番に実行することを可能とする技術を提供することを目的とする。
開示の技術によれば、ユーザ行動を実行することによりログデータを出力するシステムにおけるシステム状態を推定するシステム状態推定装置であって、
予め蓄積したログデータを用いて、システム状態及びユーザ行動と、当該システム状態において当該ユーザ行動をとったときのログデータとを関連付ける確率モデルを作成するモデル作成部と、
システム状態の確率分布及び前記確率モデルに基づいて、前記システムにおけるシステム状態の特定に寄与するユーザ行動を決定する行動決定部と
を備えることを特徴とするシステム状態推定装置が提供される。
開示の技術によれば、ユーザ行動を用いたシステム状態の特定の際に、適切なユーザ行動を適切な順番に実行することを可能とする技術が提供される。
障害要因推定装置10の機能構成図である。 障害要因推定装置10のハードウェア構成例を示す図である。 ログメッセージ列のID化を説明するための図である。 ログID番号列の特徴ベクトル化を説明するための図である。 行動決定部12の処理のフローチャートである。 実施例における処理を説明するための図である。 実施例における処理を説明するための図である。
以下、本発明の実施の形態(本実施の形態)を説明する。以下で説明する実施の形態は、本発明をシステム障害の要因特定に適用する場合の例であるが、本発明はシステム障害の要因特定に限らず、他のシステム状態の特定にも適用することが可能である。
(実施の形態の概要)
本実施の形態では、システム運用において、通信システム内で発生した障害の要因を自動で特定することとしている。特に定期的な監視ログだけでは差異が見いだせず切り分けが困難な障害に対し、ユーザ行動に伴い出力されるログも用いることで従来技術より迅速かつシステムに与える処理負荷の少ない要因特定を可能にする。
後述するように、障害要因推定装置10が使用される。障害要因推定装置10は、正常時及び障害時のあらゆるユーザ行動に伴うログデータが蓄積してある学習データ蓄積部内のログデータを用いて、システム状態及びユーザ行動とそのときに現れやすいログデータを関連付けるモデルを作成する。また、運用中のシステムから観測ログデータを収集し、当該モデルを用いて、システム状態の切り分けのために有効なユーザ行動を決定し、それを実行しフィードバックとして観測ログデータを新たに取得することで、障害要因候補を逐次的に絞っていく。
システム状態の切り分けのために有効なユーザ行動を決定するために、障害要因推定装置10は、例えば、オンラインのシステムから得られるログを元に、上記モデルを用い、最も障害要因の候補を狭めることが出来そうなユーザ行動をその都度算出し選択する。
また、システム状態の切り分けのために有効なユーザ行動を決定するために、障害要因推定装置10は、行動に対してログのような数値化されていないフィードバックを返すようなシステムにおいて、上記モデル内で要因特定問題をシミュレートし様々な行動を実行することで、オンラインの切り分け時に実行すべき適切なユーザ行動を決めるための方策を事前に学習しておき、オンラインでの切り分けの際にはその方策に従ってユーザ行動を選択することとしてもよい。
(装置構成、動作概要)
図1に、本発明の実施の形態における障害要因推定装置10の機能構成例を示す。図1に示すように、障害要因推定装置10は、モデル作成部11、行動決定部12、ベクトル変換部13、14、ユーザインタフェース15、行動実行部16を有する。また、図示されるとおり、障害要因推定装置10は、実環境システム20及び学習データ蓄積部30と通信可能に接続されている。なお、モデル作成部11がベクトル変換部14を含み、行動決定部12がベクトル変換部13を含むこととしてもよい。また、障害要因推定装置10はシステム状態を推定する装置であるので、これをシステム状態推定装置と称しても良い。動作の概要は下記のとおりである。
学習データ蓄積部30には、非特許文献2に開示された技術により生成された障害時の行動ログデータが学習データとして蓄積されている。ベクトル変換部14は、学習データ蓄積部30から学習データを取得し、当該学習データを特徴ベクトル化する。モデル作成部11は、特徴ベクトル化された学習データからモデルを作成する。
ベクトル変換部13は、実環境システム20からオンラインでログデータを収集し、実データを特徴ベクトル化する。行動決定部12は、モデル作成部11により作成されたモデル、及び実環境システム20からオンラインで得られたログデータ(特徴ベクトル化されたもの)に基づき、次にどの行動を実行すればよいかを決定する。ユーザインタフェース15は、運用者等のユーザに、実行すべき行動や要因特定結果を通知する。行動実行部16は、行動決定部12により決定された行動を実環境システム20に対して実行する。
モデル作成部11では、特徴ベクトル化した学習データに基づき、ある障害時にある行動をとったとき、どのような特徴ベクトル(に対応するログ)が得られやすいかというモデルを作成する。ここで作成したモデルによって、例えば実環境システム20からログが得られたときに、ある障害時にあるユーザ行動をとった確率に相当する値が数値的に計算できるようになる。このモデルは行動決定部12で用いられる。
行動決定部12は、まず障害要因候補に対し、各候補の確率分布を定義する。その確率分布に基づき所定のアルゴリズムに基づいて実行すべきユーザ行動を決定する。決定したユーザ行動は行動実行部16により実行される。続いて、行動決定部12は、そのフィードバックとして得られたログを特徴ベクトル化したものに基づき、障害要因候補の確率分布を更新する。更新された確率分布を元に次のユーザ行動を決定、実行する。
以上の過程を繰り返すことで、最終的に障害要因候補を一意に絞りこみ要因特定を達成する。このようなユーザ行動の順序考慮、選択実行により、全ユーザ行動を実行する非特許文献2の技術よりも少ないユーザ行動数で要因特定を達成することができる。
上述した障害要因推定装置10は、例えば、コンピュータに、本実施の形態で説明する処理内容を記述したプログラムを実行させることにより実現可能である。
すなわち、障害要因推定装置10は、コンピュータに内蔵されるCPUやメモリ等のハードウェア資源を用いて、障害要因推定装置10で実施される処理に対応するプログラムを実行することによって実現することが可能である。上記プログラムは、コンピュータが読み取り可能な記録媒体(可搬メモリ等)に記録して、保存したり、配布したりすることが可能である。また、上記プログラムをインターネットや電子メール等、ネットワークを通して提供することも可能である。
図2は、本実施の形態における上記コンピュータのハードウェア構成例を示す図である。図2のコンピュータは、それぞれバスBで相互に接続されているドライブ装置150、補助記憶装置152、メモリ装置153、CPU154、インタフェース装置155、表示装置156、及び入力装置157等を有する。
当該コンピュータでの処理を実現するプログラムは、例えば、CD-ROM又はメモリカード等の記録媒体151によって提供される。プログラムを記憶した記録媒体151がドライブ装置150にセットされると、プログラムが記録媒体151からドライブ装置150を介して補助記憶装置152にインストールされる。但し、プログラムのインストールは必ずしも記録媒体151より行う必要はなく、ネットワークを介して他のコンピュータよりダウンロードするようにしてもよい。補助記憶装置152は、インストールされたプログラムを格納すると共に、必要なファイルやデータ等を格納する。
メモリ装置153は、プログラムの起動指示があった場合に、補助記憶装置152からプログラムを読み出して格納する。CPU154は、メモリ装置153に格納されたプログラムに従って、当該装置に係る機能を実現する。インタフェース装置155は、ネットワークに接続するためのインタフェースとして用いられる。表示装置156はプログラムによるGUI(Graphical User Interface)等を表示する。入力装置157はキーボード及びマウス、ボタン、又はタッチパネル等で構成され、様々な操作指示を入力させるために用いられる。
(各部の詳細説明)
以下、上述した構成における主要な機能部をより詳細に説明する。以下では、まず、非特許文献2の技術に基づく学習データ蓄積部30の蓄積データについてその概要を説明し、その後に、モデル作成部11、行動決定部12について詳細に説明する。特に行動決定部12の処理内容に関しては、二つの実現方式「最小エントロピー法」、「強化学習による方法」を説明する。
(学習データ蓄積部30)
まず、本明細書で使用するいくつかの用語の定義を説明する。「システム状態s」とは、システムの障害の種類を表し、オペレータが特定したい障害要因と同一視する。システム状態の集合Sは、S={0,1,...,m}のように記す。例えば、高々一つのプロセスが異常終了した状況において、異常終了したプロセスを(存在するかも含め)特定したいのであれば、s=0を正常状態(障害が起きていない状態)、s∈S-{0}をs番目のプロセスが異常終了した状態、といったように定義すればよい。「ユーザ行動a」とは、システムを利用する際に、ユーザが行うことのできるアクションを表す。
例えば、システムとして本発明の適用先の好例であるIaaSクラウドサービスを考えると、「仮想マシン(Virtual Machine;VM)を起動する」、「VMにsshログインする」などがユーザ行動にあたる。ユーザ行動集合をA={0,1,...,n}で表す。特にaは何も行動を起こさないことを表すものとする。
「行動ログ」とはシステム状態sの際にユーザ行動aをとったときに発生する一連のログメッセージ列のことである。例えば参考文献1(T. Kimura, A. Watanabe, T. Toyono, and K. Ishibashi, "Proactive failure detection learning generation patterns of large-scale network logs," in Proc. of the 11th International Conference on Network and Service Management (CNSM), pp. 8-14, 2015.)のログテンプレート化技術を用い、同種のログメッセージには同じID番号、異種のログメッセージには異なるID番号を付与することで、行動ログはID番号列とみなすことができる。これをLsaのように表す。sがm+1種類(|S|=m+1)、aがn+1種類(|A|=n+1)なので、行動ログは(m+1)(n+1)種類あることになる:{Lsa|s∈S,a∈A}。
非特許文献2に開示された技術では、テストベッド環境システム又は運用前の実環境システムにおいて、この(m+1)(n+1)種類の行動ログをデータベースに保管している状況を考えている。なお、a=0に対応するLs0は、行動なしの際に発生するログなので監視ログとみなすことができる。すなわち、この定義の下では行動ログは監視ログを含む。
行動ログLsaは試行のたびに毎回少しずつ揺らぎが生ずることが考えられる。そこで本実施の形態では、各(s,a)に対しLsaは一つずつではなく複数のサンプルLsa (1),Lsa (2),...,Lsa (K)(Kは試行回数)を蓄積している状況を仮定する。
図3に、ログメッセージ列のID番号列化の例として、6つのログメッセージからなるログメッセージ列を示す。当該ログメッセージ列は、システム状態sのときにユーザ行動aを実行した際に生じたものとする。図3に示すとおり、Lsa (k)=[1,2,4,5,7,5]としてログID番号列が生成されている。
なお、この例において、四番目と六番目のログメッセージはパラメタ(req-13579とreq-43210など)は違うものの内容は同種のものなので,同じID番号5が振られている。また、本例は、クラウド環境においてsとしてVM関連プロセス停止、aとしてVM起動コマンド実行とした際に得られる行動ログから一部を抜粋した上でプロセス名やパラメタを加工して作られているものである。
(モデル作成部11)
次に、モデル作成部11について説明する。モデル作成部11の処理は、上述した学習データの蓄積に続き、オフラインで事前に実行しておく。モデル作成部11の役割は、学習データ蓄積部30に蓄積された行動ログを体系的な形で加工することであり、実際に要因特定に関わる行動決定部12で必要となるモデルを作ることである。モデル作成は次の「<ステップ101>行動ログの特徴ベクトル化」、「<ステップ102>代表ベクトルの生成」、「<ステップ103>確率モデルの作成」のステップで実行される。以下のステップ101はベクトル変換部14により実行され、ステップ102、103はモデル作成部11により実行される。
<ステップ101>行動ログの特徴ベクトル化
各(s,a)に対し、学習データとして学習データ蓄積部30に蓄積されている行動ログの各サンプルLsa (k)(k=1,2,...,K)を特徴ベクトルxsa (k)(k=1,2,...,K)に変換する。変換の方法は任意であるが、ここでは、一例として、各ログIDが出たか出ないかを特徴量として並べたもの特徴ベクトルとする。すなわち全ログIDを1,2,...,Nとして、xsa (k)はN次元ベクトルであり、ログID番号iがLsa (k)の中に出現していたらxsa,i (k)=1、出現していなかったらxsa,i (k)=0とする。ただし、xsa,i (k)はN次元ベクトルxsa (k)の第i成分である。
特徴ベクトル化の例を図4に示す。図4は、図3に示したログID番号列を特徴ベクトルとした例を示す。なお、ここではログID番号の最大値をN=8とした。ID番号1,2,4,5,7はLsa (k)に登場しているので、xsa (k)の第1,2,4,5,7成分は1となり、ID番号3,6,8はLsa (k)に登場していないのでxsa (k)の第3,6,8成分は0となる。
<ステップ102>代表ベクトルの生成
次に、特徴ベクトルxsa (k)(k=1,2,...,K)を用いて、各(s,a)に対して代表ベクトル^xsaをひとつずつ生成する。なお、本明細書のテキストにおいては、記載の便宜上、"^x"のように、文字の頭に付けられる^を当該文字の前に記述する。代表ベクトルの各要素は、下記の式により計算される。
Figure 0006992896000001
ここでα、βは有効観測数と呼ばれる任意の正パラメタ―である。^xsaは過去のサンプルに基づき、システム状態sにおいてユーザ行動aを実行した際に各ログIDが出る確率を表したベクトルとみなすことができる。
<ステップ103>確率モデルの作成
次に、代表ベクトル^xsaを用い、(s,a)が与えられたもとで(つまり、システム状態sのときにユーザ行動aを実行したもとで)どのような特徴ベクトル(に対応した行動ログ)が得られやすいか、その確率を表す確率モデルを作成する。確率モデルの与え方も任意ではあるが、ここでは一例として、(s,a)が与えられたもとで各ログIDの出現が独立であるという仮定を設けたベルヌーイ分布を使用する。なわち、(s,a)が与えられたもとで特徴ベクトルx∈{0,1}が観測される確率P(x|s)は
Figure 0006992896000002
となる。
(行動決定部12)
続いて、行動決定部12について説明する。なお、本明細書のテキストにおいては、記載の便宜上、"s"のように、文字の頭に付けられるを当該文字の前に記述する。
行動決定部12は、実環境システムの障害要因特定の際にオンラインで動作する。より詳細には、別技術である異常検知技術(既存技術の何を用いてもよい)やユーザ申告などにより、実環境システムに何かしらの異常が認められてから行動決定部12は動作を始める。このときの(未知の)システム状態をsと記す。
行動決定部12の役割は、システム状態sが未知の実環境システムにおいて、ユーザ行動実行により得られる行動ログ(を特徴ベクトル化したものx∈{0,1})及びモデル作成部11で作成した確率モデルに基づき、できるだけ少ない手数で要因特定、すなわちsの特定ができるようにユーザ行動を選択、実行すること、またそれにより障害要因を絞り込んでいくことである。行動決定部12は、次のステップ201~205の手順を実行する。図5は、当該手順のフローチャートである。
<ステップ201>
まず、システム状態候補を表す初期確率分布φ(s)(s∈S)を定義する(0≦φ(s)≦1 for ∀s∈S,Σs∈Sφ(s)=1)。これは実環境システムがシステム状態s∈Sである確率を示すものである。この初期確率分布の定め方は任意であり、例えば一様分布として定めたり、過去の障害頻度に応じて定めたり、監視ログのみから得られる情報に基づき従来技術を用いて定めたりすればよい。行動決定部12には、当該初期確率分布φ(s)が予め格納されていてもよいし、行動決定部12が動作開始するタイミングで初期確率分布φ(s)を計算してもよい。
<ステップ202>
次に、行動決定部12は状態確率分布φ(s)及び確率モデルP(x|s)を入力として「方策」に基づき、次に実行すべき最も有効なユーザ行動a∈Aを出力する。「方策」については後で詳しく説明する。
<ステップ203>
行動決定部12により決定されたユーザ行動aを行動実行部16により実行し行動ログを得る。なお、ユーザ行動aの実行は、ユーザインタフェース15によりユーザ行動aを通知された運用者(人間)が行うこととしてもよい。この行動ログをモデル作成部11と同様の方法で特徴ベクトル化したものを
Figure 0006992896000003
と記述する。行動決定部12は当該特徴ベクトルを取得する。
<ステップ204>
行動決定部12は、観測した特徴ベクトル
Figure 0006992896000004
及び確率モデルP(x|s)に基づき状態確率分布φ(s)を「更新式」に基づき更新する:φ(s)→φ´(s)。「更新式」については後で詳しく説明する。
<ステップ205>
行動決定部12は、更新された状態確率分布φ´(s)について、あるs∈Sに対する値がある閾値よりも高ければそのsを要因推定結果として出力する。閾値を0.5より大きく設定した場合には出力される状態は0~mのいずれか一つであるが、0.5以下に設定した場合は複数のsが出力されることもある。sの出力を以て行動決定部12は動作を終了する。該当するsが存在しなければ、更新された状態確率分布φ´(s)を用いてステップ202からの処理を繰り返す。なお、行動決定部12から出力されたsは、例えばユーザインタフェース15により運用者に提示される。
本実施の形態では、ステップ204のように、ユーザ行動を実行した行動ログを特徴ベクトル化したものを用いて状態確率分布を更新することで、2値ではないフィードバックを次に実行すべき行動に反映させている。また、非特許文献2に開示された技術ではn+1種類のユーザ行動を全て実行していたのに対し、本実施の形態では確率モデルに基づき適切な行動順序を算出することで極力早くステップ202~205のループを終了させ少ないユーザ行動数でとどめシステムへの処理負荷を減らしている。
以下、前述したステップ202の「方策」、及びステップ204の「更新式」について詳細に説明する。ここではそれらの実現方式として「エントロピー最小化法」と「強化学習に基づく方法」の二つの方法を説明する。いずれの方法に従った「方策」、「更新式」を実装しても、上述の課題を解決することができる。なお、「エントロピー最小化法」と「強化学習に基づく方法」に限定されるわけではなく、これら以外の方法を用いることも可能である。
(エントロピー最小化法)
<エントロピー最小化法:方策>
まず、エントロピー最小化法を用いる場合の「方策」を説明する。
本方法では、状態確率分布φ(s)をあるs∈Sに一番偏らせると思われるユーザ行動aを、確率モデルを用いて計算し選択する。もしユーザ行動実行の結果、実際に状態確率分布が大きく偏れば、少ないループ(ステップ202~ステップ205の繰り返し)数で要因が特定されることになる。
確率分布φ(s)の偏り具合は一般にエントロピーI(φ(s))=-Σφ(s)lnφ(s)で表すことができ、偏りを大きくすることはエントロピーを小さくすることに対応するため、本方法をエントロピー最小化法と呼ぶ。本方法の詳細は下記のとおりである。
ユーザ行動aを実行したとき特徴ベクトルxを観測する確率P(x)は、状態確率分布φ(s)及び確率モデルP(x|s)を用いてP(x)=Σ(x|s)φ(s)と計算される。ユーザ行動aを実行した結果、特徴ベクトルxを得たとすると、そのときの状態確率分布の事後分布P(s|x)は、Bayesの定理を用いてP(s|x)=P(x|s)φ(s)/P(x)と求められる。ここで「事後分布のエントロピーの期待値(EI)」という概念を導入し、それを次式で定める。
Figure 0006992896000005
上記の第一式におけるs、第二式におけるs´は確率分布の引数を表す記号であり、明示的に現れる変数ではないことに注意されたい。第一式(EIの定義式)によると、EI(a)はユーザ行動aをとった際に状態確率分布の事後分布がどの程度偏るかの期待値を、状態確率分布φ(s)及び確率モデルP(x|s)のみを用いて計算しているものであると見なすことができる。ただし、この定義式はΣとあるように、2個の項の和となっており計算量が多いため、実際の計算ではある条件下で成立する第二式(EIの近似式)を用いる。ここで、x sa≡arg max(x|s)であり、これは次のように簡単に得られる。
Figure 0006992896000006
さて本方法における、最も有効なユーザ行動a∈Aを決める「方策」とは次式のことである。
Figure 0006992896000007
ここでDoneはこれまでのループの中で既に行ったユーザ行動の集合である。すなわち、0~nのユーザ行動は、それぞれ1回までしか行わない。
<エントロピー最小化法:更新式>
エントロピー最小化法を用いる場合の「更新式」は以下のとおりである。
ユーザ行動aを実行し特徴ベクトル
Figure 0006992896000008
を得た際の状態確率分布の更新φ(s)→φ´(s)は、Bayesの定理を用いて次式で行う。
Figure 0006992896000009
(強化学習に基づく方法)
次に、強化学習に基づく方法について説明する。
一般に、「『状態』そのものは観測できないが、そこに何らかの『行動』を実行することで、それに応じて確率的な『観測値』及び『報酬』が得られるという状況の中で、状態を推定しながら多くの報酬をもらえるような行動を選択し実行していくことを目指す」という意思決定問題は部分観測マルコフ決定過程(Partially Observable Markov Decision Process; POMDP)として定式化できる(参考文献2:L. P. Kaelblinga, M. L. Littman, and A. R. Cassandra, "Planning and acting in partially observable stochastic domains," Artificial Intelligence, vol. 101, no. 1-2, pp. 99-134, 1998.)。本実施の形態における問題設定も、「状態」としてシステム状態s、「行動」としてユーザ行動a、観測値として特徴ベクトル化された観測ログysaとし、「報酬」として適当な関数を定めれば、POMDPの枠組みに落とし込むことができる。一般のPOMDPは計算量的に解くことが困難な場合も多いため、本実施の形態では、本実施の形態での問題設定に合わせて簡略化した定式化を行った上で、「方策」、「更新式」を実現している。
<強化学習に基づく方法:方策>
強化学習に基づく方法を用いる場合における「方策」を説明する。
POMDPでは、前に導入した状態確率分布φ(s)のことを信念状態と呼ぶ。信念状態及び行動の関数であるQ関数Q(φ(s),a)というものを定める。一般的にPOMDPにおける方策は、下記の式に示すように、現在の信念状態φ(s)において、Q関数を最大にするような行動aをとるというものである。
Figure 0006992896000010
上記の式においては、(i)Q関数の引数であるφ(s)は連続値であるので計算量の観点から扱いにくい、(ii)そもそもQ関数をどのように得るのか、という問題がある。以下では本実施の形態の問題設定を考慮した(i)、(ii)に対する解決策について説明する。
(i)に対する解決策:
通常、φ(s)の離散化を行うことでこの問題を回避する。ここでは次のように状態候補Bを導入することにする:B=Ψ(φ(s))≡{s∈S|φ(s)≧q}∈2。ここでq∈[0,1]は適当な閾値である。つまり、s∈Sのうちで、ある一定確率qの可能性があるものだけを集めたものをBとしている。これにより、無限個あったφ(s)が、高々2|S|個に落とし込める。以下、Q関数もQ(φ(s),a)の代わりにQ(B,a)を用いればよい。
(ii)に対する解決策:
事前に「方策学習」を行う。これには様々な方法があるが、ここでは強化学習の一手法Q学習(参考文献3:R. Sutton and A. Barto, (邦訳 三上貞芳, 皆川雅章),「強化学習」, 森北出版, pp. 159-161, 2000.)に準ずる方法を説明する。
方策学習では、事前に様々な行動を試していく中で、最大の報酬が得られるようなQ関数を獲得するというものである。本実施の形態では、事前に作成した確率モデルP(x|s)を用いて、多くの要因特定問題をシミュレーション上で生成し、方策学習を行う。要因特定問題のシミュレーションは次のように行う。
まず適当なs∈Sをサンプルしこれを真の状態とする。もちろんこれは直接観測できない。続いて、確率1-εでQ(B,a)を最大化するaを実行し、確率εでそれ以外のaを適当に選んで実行する。ただし、初めのQ(B,a)の値としては適当な初期値を与えておけばよい。また行動の種類としては、ユーザ行動a∈A={0,1,...,n}に加え、終了行動a=n+1も加えておく。とった行動によって次のように要因推定は進む。もしa∈A={0,1,...,n}をとれば、状態候補は
Figure 0006992896000011
のように遷移し、報酬R(B)=0を受け取る(つまり報酬はなし)。もしa=n+1をとれば、要因特定は終了し、|B|≧1かつs∈Bであれば報酬R(B)=1/|B|を受け取り、それ以外の場合はR(B)=0とする。これは、a=n+1は「答え合わせ」の行動に相当し、状態候補の中に正解の状態が含まれていれば、その絞り込み具合に応じて候補数が小さいほど高報酬が得られるようになっている、ということである。また、いずれのaをとった場合も、Q関数Q(B,a)を一般的なQ学習の更新式Q(B,a)←Q(B,a)+α(R(B)+γmaxa´Q(B,a´)-Q(B,a))に従って更新する。ここでα、γはそれぞれ、学習率、割引率と呼ばれるパラメタである。このように、要因特定が終了するまで(つまりa=n+1がとられるまで)行動選択、実行を繰り返すのが要因特定のシミュレーションである。要因特定が終了したら、また新しいsをサンプルしてシミュレーションを繰り返す。
何度もシミュレーションを繰り返していくうちに、Q関数が適当なものに収束していくというのがQ学習の理論で保証されている。今回のケースの場合、主に報酬関数R(B)及び割引率γ∈(0,1)の与え方のおかげで、なるべく少ない行動数で正しく状態候補が一つに絞られていくような方策が学習されることになる。
以上をまとめると、本方法による「方策」は次のように与えられる。事前に十分な数のシミュレーションによる方策学習を行った後得られるQ関数Q(B,a)を用いて、オンラインでの要因特定におけるステップ202では次式で行動を決定する。
Figure 0006992896000012
ただし状態候補Bとは現在の状態確率分布(信念状態)φ(s)によってB=Ψ(φ(s))≡{s∈S|φ(s)≧q}で求められるものである。また、エントロピー最小化法のときと同様、一度とった行動は記録しておき、二度以上実行しないようにする。
<強化学習に基づく方法:更新式>
強化学習に基づく方法を用いる場合における更新式は以下のとおりである。
状態確率分布φ(s)の更新はエントロピー最小化法と同様で次式に従う。
Figure 0006992896000013
したがって、状態候補Bも同時に次式で更新される:B=Ψ(φ(s))→B´=Ψ(φ´(s))。
「エントロピー最小化法」、「強化学習の方法」のいずれの場合も、全てのユーザ行動を実行しても要因が特定されない場合、つまりステップ202~205をn+1回繰り返しても与えられた閾値を超えるφ´(s)が算出されなかった場合はエラー(特定失敗)を出力し終了するか、一番確率の高いsを出力して停止するものとする。また「強化学習の方法」において、状態候補Bの要素がひとつに絞られた場合には、それを要因特定結果として出力して停止するものとし、状態候補Bが空集合となってしまった場合にはエラーを返し終了するものとする。
(実施例)
以下、実施例として、障害要因推定装置10の具体的な動作例を説明する。本実施例における動作は、オフラインでの準備段階の動作と、オンラインでの要因特定の動作からなる。
まず、オフラインでの準備段階について、図6を参照して説明する。本実施例では、S={0,1,2,3}、A={0,1,2,3}とし、各(s,a)に対するLsaのサンプル数をK=100とした。
ここではテストベッド環境システム又は運用前の実環境システム20を用いて、十分な数(K=100)の行動ログが学習データ蓄積部30に蓄積されていると仮定する。図6に示すように、障害要因推定装置10は、学習データ蓄積部30にアクセスし、各学習データ{Lsa (k)}をベクトル変換部14により特徴ベクトル{xsa (k)}に変換する。これをモデル作成部11に引き渡し、モデル作成部11は、上述の方法により確率モデルP(x|s)を作成する。以上はあらかじめオフラインで実行しておく。なお、ここで作成した確率モデルP(x|s)は、オンラインで用いる行動決定部12に事前に入力しておく。
続いてオンラインでの要因特定について、図7を参照して説明する。S1からS11までのS(ステップ)に付けられた番号は時系列を表す。ここでは、未知の状態sを推定するために、前述したステップ205~205を二ループ回し、最終的に要因推定結果s=2を出力する例を示す。ステップ205における閾値を0.7とする。以下では図7の具体例に沿って要因特定の流れを説明する。
まず、他の異常検知技術やユーザ申告を発端として要因特定が開始されると、行動決定部12は、S0において、初期状態確率φ(s)を設定する。ここでは一様分布を考える。これを図示したのが図7の左下図のグラフ(S0)であり、φ(0)=φ(1)=φ(2)=φ(3)=0.25となっている。
次に、行動決定部12は、確率モデルP(x|s)に基づき作られた「方策」に従って、S1において、最適な行動a=2を決定したとする。それをS2において行動実行部16に通知することとしてもよい。運用者にユーザインタフェース15を通して通知することとしてもよい。
S3において行動実行部16あるいは運用者はa=2を実環境システム20で実行する。その結果、実環境システム20は行動ログを出力し、それがベクトル変換部13(モデル作成のときと同じ動作をするものであれば、モデル作成のときと異なる機能を用意してもよい)を経由して、S4において、特徴ベクトル
Figure 0006992896000014
として得られたとする。この
Figure 0006992896000015
を行動決定部12への入力とし「更新式」を計算することで、S5において、行動決定部12は新たな状態確率分布φ´(s)を得る。これを図示したものが左下図のグラフ(S5)である。ここでどのsに対してもφ(s)が閾値0.7を超えていないので、要因特定のループはステップ202に戻る。
S6において、行動決定部12が「方策」でa=1を決定し、S7でそれを通知して、S8において運用者又は行動実行部16は実環境システム20に対しa=1を実行する。
S9において、実環境システム20はa=1に対するフィードバックとして行動ログを出力し、ベクトル変換部13を経て特徴ベクトル
Figure 0006992896000016
を与える。これを入力として、S10において、行動決定部12は「更新式」に従って状態確率分布の更新を行う。更新後の状態確率分布φ´(s)が左下図のグラフ(S10)である。これによるとφ(s=2)≧0.7となっているため、要因特定のループから脱出し、S11において、行動決定部12は要因推定結果s=2を出力して、要因推定の動作を終了する。
(実施の形態の効果)
本実施の形態により、監視ログだけでは差異が見いだせず切り分けが困難であった障害に対し、有効なユーザ行動を選択実行し、その際に生ずる行動ログを用いて要因候補を絞っていくことで、運用者の知識や経験に依存することなく、従来技術よりも迅速かつ安全な要因特定が可能になる。
すなわち、ユーザ行動を用いた要因特定システムにおいて、障害発生時の要因特定の際に、適切な行動を適切な順番に実行することが可能となる。特に、ユーザ行動に対する実環境システムのフィードバックが行動ログのようにそのまま数値的に扱うのが困難なものでも本技術は適用できる。本技術により、ユーザ行動を用いた要因特定システムにおいて、従来よりも迅速かつ実環境システムへの負担が軽減された要因特定が可能となる。
(実施の形態のまとめ)
以上、説明したように、本実施の形態によれば、ユーザ行動を実行することによりログデータを出力するシステムにおけるシステム状態を推定するシステム状態推定装置であって、予め蓄積したログデータを用いて、システム状態及びユーザ行動と、当該システム状態において当該ユーザ行動をとったときのログデータとを関連付ける確率モデルを作成するモデル作成部と、システム状態の確率分布及び前記確率モデルに基づいて、前記システムにおけるシステム状態の特定に寄与するユーザ行動を決定する行動決定部とを備えることを特徴とするシステム状態推定装置が提供される。
前記行動決定部は、例えば、決定されたユーザ行動を実行した前記システムから出力されるログデータを収集し、当該ログデータに基づいて前記確率分布を更新し、更新した確率分布及び前記確率モデルに基づいて、前記システムにおけるシステム状態の特定に寄与するユーザ行動を決定する処理を、前記システムにおけるシステム状態を特定できるまで繰り返し実行する。
前記行動決定部は、前記繰り返し実行する処理において、あるシステム状態の確率が閾値を超えた場合に、当該システム状態を前記システムのシステム状態として特定することとしてもよい。
前記行動決定部は、システム状態の特定に寄与するユーザ行動として、システム状態の確率分布のエントロピーを最小化するユーザ行動を決定することとしてもよいし、Q学習で決定された関数に状態候補とユーザ行動を入力して得られる値を最大とするユーザ行動を決定することとしてもよい。
以上、本実施の形態について説明したが、本発明はかかる特定の実施形態に限定されるものではなく、特許請求の範囲に記載された本発明の要旨の範囲内において、種々の変形・変更が可能である。
本特許出願は2018年6月14日に出願した日本国特許出願第2018-113872号に基づきその優先権を主張するものであり、日本国特許出願第2018-113872号の全内容を本願に援用する。
10 障害要因推定装置
11 モデル作成部
12 行動決定部
13、14 ベクトル変換部
15 ユーザインタフェース
16 行動実行部
20 実環境システム
30 学習データ蓄積部
150 ドライブ装置
151 記録媒体
152 補助記憶装置
153 メモリ装置
154 CPU
155 インタフェース装置
156 表示装置
157 入力装置

Claims (7)

  1. ユーザ行動を実行することによりログデータを出力するシステムにおけるシステム状態を推定するシステム状態推定装置であって、
    予め蓄積したログデータを用いて、システム状態及びユーザ行動と、当該システム状態において当該ユーザ行動をとったときのログデータとを関連付ける確率モデルを作成するモデル作成部と、
    システム状態の確率分布及び前記確率モデルに基づいて、前記システムにおけるシステム状態の特定に寄与するユーザ行動を決定する行動決定部と
    を備えることを特徴とするシステム状態推定装置。
  2. 前記行動決定部は、決定されたユーザ行動を実行した前記システムから出力されるログデータを収集し、当該ログデータに基づいて前記確率分布を更新し、更新した確率分布及び前記確率モデルに基づいて、前記システムにおけるシステム状態の特定に寄与するユーザ行動を決定する処理を、前記システムにおけるシステム状態を特定できるまで繰り返し実行する
    ことを特徴とする請求項1に記載のシステム状態推定装置。
  3. 前記行動決定部は、前記繰り返し実行する処理において、あるシステム状態の確率が閾値を超えた場合に、当該システム状態を前記システムのシステム状態として特定する
    ことを特徴とする請求項2に記載のシステム状態推定装置。
  4. 前記行動決定部は、システム状態の特定に寄与するユーザ行動として、システム状態の確率分布のエントロピーを最小化するユーザ行動を決定する
    ことを特徴とする請求項1ないし3のうちいずれか1項に記載のシステム状態推定装置。
  5. 前記行動決定部は、システム状態の特定に寄与するユーザ行動として、Q学習で決定された関数に状態候補とユーザ行動を入力して得られる値を最大とするユーザ行動を決定する
    ことを特徴とする請求項1ないし3のうちいずれか1項に記載のシステム状態推定装置。
  6. ユーザ行動を実行することによりログデータを出力するシステムにおけるシステム状態を推定するシステム状態推定装置により実行されるシステム状態推定方法であって、
    予め蓄積したログデータを用いて、システム状態及びユーザ行動と、当該システム状態において当該ユーザ行動をとったときのログデータとを関連付ける確率モデルを作成するモデル作成ステップと、
    システム状態の確率分布及び前記確率モデルに基づいて、前記システムにおけるシステム状態の特定に寄与するユーザ行動を決定する行動決定ステップと
    を備えることを特徴とするシステム状態推定方法。
  7. コンピュータを、請求項1ないし5のうちいずれか1項に記載のシステム状態推定装置における各部として機能させるためのプログラム。
JP2020525658A 2018-06-14 2019-06-13 システム状態推定装置、システム状態推定方法、及びプログラム Active JP6992896B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
JP2018113872 2018-06-14
JP2018113872 2018-06-14
PCT/JP2019/023539 WO2019240229A1 (ja) 2018-06-14 2019-06-13 システム状態推定装置、システム状態推定方法、及びプログラム

Publications (2)

Publication Number Publication Date
JPWO2019240229A1 JPWO2019240229A1 (ja) 2021-06-10
JP6992896B2 true JP6992896B2 (ja) 2022-01-13

Family

ID=68842599

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2020525658A Active JP6992896B2 (ja) 2018-06-14 2019-06-13 システム状態推定装置、システム状態推定方法、及びプログラム

Country Status (3)

Country Link
US (1) US20210255945A1 (ja)
JP (1) JP6992896B2 (ja)
WO (1) WO2019240229A1 (ja)

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20110214006A1 (en) 2010-02-26 2011-09-01 Microsoft Corporation Automated learning of failure recovery policies
WO2012053104A1 (ja) 2010-10-22 2012-04-26 株式会社日立製作所 管理システム、及び管理方法

Family Cites Families (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8463734B2 (en) * 2007-07-17 2013-06-11 Momme Von Sydow System implemented by a processor controlled machine for inductive determination of pattern probabilities of logical connectors
US8774515B2 (en) * 2011-04-20 2014-07-08 Xerox Corporation Learning structured prediction models for interactive image labeling
JP2013206104A (ja) * 2012-03-28 2013-10-07 Sony Corp 情報処理装置、情報処理方法、及びプログラム
US10261851B2 (en) * 2015-01-23 2019-04-16 Lightbend, Inc. Anomaly detection using circumstance-specific detectors
US11074513B2 (en) * 2015-03-13 2021-07-27 International Business Machines Corporation Disruption forecasting in complex schedules
EP3295327A4 (en) * 2015-05-13 2018-09-26 Sikorsky Aircraft Corporation Integrated model for failure diagnosis and prognosis
US20180020622A1 (en) * 2016-07-25 2018-01-25 CiBo Technologies Inc. Agronomic Database and Data Model
US10127125B2 (en) * 2016-10-21 2018-11-13 Accenture Global Solutions Limited Application monitoring and failure prediction
BR112019008530A2 (pt) * 2016-10-28 2019-07-09 Illumina Inc plataforma de análise de genoma
US10983853B2 (en) * 2017-03-31 2021-04-20 Microsoft Technology Licensing, Llc Machine learning for input fuzzing
US10585739B2 (en) * 2017-04-28 2020-03-10 International Business Machines Corporation Input data correction
US10396919B1 (en) * 2017-05-12 2019-08-27 Virginia Tech Intellectual Properties, Inc. Processing of communications signals using machine learning
US20190051174A1 (en) * 2017-08-11 2019-02-14 Lyft, Inc. Travel path and location predictions
US10776166B2 (en) * 2018-04-12 2020-09-15 Vmware, Inc. Methods and systems to proactively manage usage of computational resources of a distributed computing system

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20110214006A1 (en) 2010-02-26 2011-09-01 Microsoft Corporation Automated learning of failure recovery policies
WO2012053104A1 (ja) 2010-10-22 2012-04-26 株式会社日立製作所 管理システム、及び管理方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
池内 光希 外3名,「ユーザ行動に起因するログを用いた障害要因推定技術の検討」,電子情報通信学会2018年総合大会講演論文集 通信2,一般社団法人 電子情報通信学会,2018年03月06日,p.108,ISSN:1349-1369

Also Published As

Publication number Publication date
US20210255945A1 (en) 2021-08-19
WO2019240229A1 (ja) 2019-12-19
JPWO2019240229A1 (ja) 2021-06-10

Similar Documents

Publication Publication Date Title
JP6585654B2 (ja) 判定装置、分析システム、判定方法および判定プログラム
Falsone et al. A randomized algorithm for nonlinear model structure selection
US11755955B2 (en) Anomaly detection and tuning recommendation system
Moghadam et al. Machine learning to guide performance testing: An autonomous test framework
JP2019174870A (ja) 情報処理装置、情報処理方法、及びプログラム
CN113269359A (zh) 用户财务状况预测方法、设备、介质及计算机程序产品
JP6649294B2 (ja) 状態判定装置、状態判定方法及びプログラム
Zhang et al. Pace: Prompting and augmentation for calibrated confidence estimation with gpt-4 in cloud incident root cause analysis
JP6992896B2 (ja) システム状態推定装置、システム状態推定方法、及びプログラム
Lu et al. Eliciting Informative Text Evaluations with Large Language Models
Baras et al. Automatic boosting of cross-product coverage using Bayesian networks
US20230161637A1 (en) Automated reasoning for event management in cloud platforms
JP2018190129A (ja) 判定装置、分析システム、判定方法および判定プログラム
JPWO2020039610A1 (ja) 異常要因推定装置、異常要因推定方法、及びプログラム
Liu et al. A learning-based adjustment model with genetic algorithm of function point estimation
US11481267B2 (en) Reinforcement learning approach to root cause analysis
Rawat et al. A review on software reliability: metrics, models and tools.
JP6407205B2 (ja) ラベル列生成装置、ラベル列生成方法、及びプログラム
WO2024189853A1 (ja) 学習装置、学習方法、及びプログラム
WO2024201611A1 (ja) 学習装置、学習方法、及びプログラム
Shastry et al. Bayesian Network Based Bug-fix Effort Prediction Model
Wang et al. Incremental Causal Graph Learning for Online Unsupervised Root Cause Analysis
EP4310736A1 (en) Method and system of generating causal structure
US20160154724A1 (en) Non-functional evaluation assistance device, system, method, and program
JP2022138837A (ja) ポイント役割推定装置および方法

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20201116

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20211109

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20211122

R150 Certificate of patent or registration of utility model

Ref document number: 6992896

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150