JP6407205B2

JP6407205B2 - ラベル列生成装置、ラベル列生成方法、及びプログラム

Info

Publication number: JP6407205B2
Application number: JP2016123822A
Authority: JP
Inventors: 暁渡邉; 石橋　圭介; 圭介石橋; 敬志郎渡辺; 松尾　洋一; 洋一松尾
Original assignee: Nippon Telegraph and Telephone Corp
Current assignee: Nippon Telegraph and Telephone Corp
Priority date: 2016-06-22
Filing date: 2016-06-22
Publication date: 2018-10-17
Anticipated expiration: 2036-06-22
Also published as: JP2017228094A

Description

本発明は、ラベル列生成装置、ラベル列生成方法、及びプログラムに関する。

大規模化・構成機器の多様化が進むＩＴネットワークシステムにおいて、システム上で発生する故障事例が多様化しており、発生した異常の原因究明と対処判断とが従来よりも困難になっている。一方で、あらゆる故障事例を解決可能なエキスパートと呼ばれるオペレータは、運用管理すべきシステムの数と比較して圧倒的に少ない。また、近年では特に運用管理の対象となるシステムの大規模化と運用期間の長期化が進んだため、特定の個人のエキスパートのみの活動に依存したシステム運用は困難である。そのため、高いスキルを持つエキスパートによる故障回復手順を、オペレーションチーム全体へ共有する手段が求められている。ここでは、エキスパートを含むオペレータらによる、問題の見極めから対処完了までの一連の故障回復手順を、プロセスと定義する。

一般に、プロセスは、問題が複雑であるほど暗黙知であることが多い。そのため、プロセスの獲得には、オペレータ自身も把握していない情報を得る手段が必要となる。プロセスの把握を自動的に行うために、故障が発生したときの状況を記述した、作業記録と呼ばれる文書を用いる方法がある（非特許文献２）。当該技術では、非定型な文書から作業の記録を抽出した後（例えば、特許文献１）、同一の作業を示す文を特定してＩＤを与えることで（例えば、特許文献２）、まず非定型な作業の文書を構造化された作業ログ列に変換する。なお、文書が得られない場合でも、入力コマンドの記録を作業ログとみなすことで、作業ログは得られる。

故障したシステムの復旧においては、同じシステム障害の発生条件であっても、作業者が実際に行なった対処が複数あり得るため、異なる作業ログ列が記録される。例えば、あるＷｅｂサーバが接続不可となった場合の対処を考える。Ｗｅｂサーバに接続不可の場合、オペレータは、まず、ｐｉｎｇコマンド等で外部端末からＷｅｂサーバに疎通可能かどうかを確認する。疎通不可能であれば、オペレータは、Ｗｅｂサーバの配置場所に赴き原因確認を行う。疎通可能ならば、オペレータは、原因となるアプリケーションをログ確認等によって特定する。アプリケーションが原因であれば、オペレータは、当該アプリケーションに応じた負荷を下げる対処を行う。そのため、Ｗｅｂサーバ接続不可の故障が複数回発生すると、毎回実施される作業は少しずつ異なるが、＜"ｐｉｎｇコマンドによる疎通確認"、"サーバ配置場所への移動"、"原因究明作業"＞と、＜"ｐｉｎｇコマンドによる疎通確認"、"サーバへのログイン"、"アプリケーションの停止ログ確認"＞とのどちらかに類似した作業ログ列が複数蓄積されることとなる。このとき、両者に共通して出現する部分ログ列＜Ａ＞＝＜"ｐｉｎｇコマンドによる疎通確認"＞と、片方にのみ出現する部分ログ列＜Ｂ＞＝＜"サーバ配置場所への移動"、"原因究明作業"＞、＜Ｃ＞＝＜"サーバへのログイン"、"アプリケーションの停止ログ確認"＞に類似した部分作業ログ列が、回数は異なるが作業ログ列中に頻出する。このような頻出する作業ログ列を、「対処パターン」と呼ぶこととする。再びＷｅｂサーバが接続不可となった場合に、作業者は、Ｗｅｂサーバ接続不可時の作業ログ列から対処パターンを把握し、＜Ａ＞を行なった後に結果に応じて＜Ｂ＞または＜Ｃ＞を実施することが、解決のためのプロセスであると分かる。このように、作業ログ列の集合からプロセスを得るためには、複数の作業ログ列の集合に含まれる、頻出の類似する作業ログ列、すなわち、対処パターンの把握が必要である。

非特許文献１では、異なる対処パターンへ遷移する作業を作業分岐点と呼び、作業分岐点を自動的に抽出する方法が開示されている。非特許文献１では、選択された特定の作業ログより後の作業ログ列を２つにクラスタリングし、クラスタリング結果による分割の良さを所定のスコアを用いて評価する。良いクラスタリングであると判断された場合には、後続の作業ログ列が頻出の２種類のパターンで構成されているとし、選択された作業ログが作業分岐点とみなされ、後続の作業列のクラスタリング結果が対処パターンであるとみなされる。

特開２０１５−１５３１８８公報特開２０１６−０５３８７１公報

渡邉, 木村, 豊野, 石橋,"運用手順の獲得に向けた作業ログにおける業務分岐点の抽出"，電子情報通信学会技術研究報告. ICM, 情報通信マネジメント 114(523), 55-60, 2015-03-12 Akio Watanabe, Keisuke Ishibashi, Tsuyoshi Toyono, Tatsuaki Kimura, Keishiro Watanabe, Yoichi Matsuo, and Kohei Shiomoto, "Workflow Extraction for Service Operation using Multiple Unstructured Trouble Tickets," In Proc. of NOMS, 2016.

しかしながら、非特許文献１による方法では、複数の作業分岐点が存在する場合に、組み合わせによる最適な作業分岐点の抽出が行えず、精度が低下しやすいという問題が有る。例として、次に示す作業ログ列集合Ｔが与えられたとする。なお、作業ログ列集合Ｔは、図１に図示されている。
Ｔ＝｛＜ａ，ｂ，ｃ，ｅ，ｆ，ｇ，ｈ，ｉ，ｊ，ｋ，ｑ，ｒ＞，＜ａ，ｂ，ｃ，ｅ，ｆ，ｇ，ｈ，ｉ，ｊ，ｋ，ｑ，ｒ＞，＜ａ，ｂ，ｃ，ｌ，ｍ，ｎ，ｑ，ｒ＞，＜ａ，ｂ，ｃ，ｌ，ｍ，ｎ，ｑ，ｒ＞，＜ａ，ｂ，ｏ，ｐ，ｑ，ｒ＞，＜ａ，ｂ，ｏ，ｐ，ｑ，ｒ＞｝
このとき、同時に出現する作業ログができるだけ一つの対処パターンに含まれるように作業分岐点を獲得すると、理想的な作業分岐点は、図２に示されるように、ｂとｃとである。図２では、作業が変化した瞬間に作業ログ列が分岐し、対処パターン列が明確である。

一方、従来技術を用いて作業分岐点を獲得した結果は、図３に示したようになる。従来技術では、対処パターンの作業分岐点の獲得に失敗することがある。すなわち、図３では、ｃが作業分岐点として獲得されていない。このような作業分岐点の獲得の失敗は、従来技術において、（ｉ）対処パターンへの作業分岐点を、スコアを最大化させる作業分岐点から先に獲得し、作業分岐点の順序を考慮しないことと、（ｉｉ）作業分岐点の探索を再帰的に実施すること、に起因する。従来技術では、任意の作業ログに対して、その作業ログより後ろにある作業ログ列をクラスタリングし、クラスタリングの良さを示すスコアが大きい作業ログを作業分岐点とみなす。このとき、作業分岐点の位置は考慮しない。複数の作業分岐点があるとき、異なる作業ログが多く含まれる長い作業ログ列は、スコアが高くなり、先に作業分岐点だと判別される傾向にある。図３の例の場合、本来は後に分岐すべき作業ログ列＜ｅ，ｆ，ｇ，ｈ，ｉ，ｊ，ｋ，ｑ，ｒ＞を、先に分岐すると判断してしまい、作業ログ列ｂが作業分岐点として獲得されてしまっている。手法の特性上、一度作業分岐点で分割された作業ログ列においてのみ作業分岐点を再探索しない。言い換えると、作業分岐点と判断された作業ログよりも前にある作業ログは、作業分岐点になり得ない。そのため、２度目の作業分岐点探索で、部分作業ログ列集合｛＜ａ，ｂ，ｃ，ｌ，ｍ，ｎ，ｑ，ｒ＞，＜ａ，ｂ，ｃ，ｄ，ｌ，ｍ，ｎ，ｑ，ｒ＞，＜ａ，ｂ，ｏ，ｐ，ｑ，ｒ＞，＜ａ，ｂ，ｏ，ｐ，ｑ，ｒ＞｝から、再びｂを作業分岐点として見つけ出してしまう。結果として、長いログ列への作業分岐点よりも手前に別の作業分岐点があると、獲得位置の間違いが起こる。

本発明は、上記の点に鑑みてなされたものであって、記号列の集合から複数の分岐点を抽出可能とすることを目的とする。

そこで上記課題を解決するため、ラベル列生成装置は、記号の系列である記号列の集合である記号列集合Ｔ＝｛Ｙ_１，...，Ｙ_｜Ｔ｜｝，Ｙ_ｉ＝＜ｙ_ｉ１...ｙ_{ｉ｜Ｙｉ｜}＞を入力し、前記記号列集合Ｔを記号の並び順の類似性に基づいて複数の部分記号列に分類した場合の前記部分記号列の分類ごとに割り当てられるラベルを前記記号列集合Ｔに付与した結果であるラベル列集合Ｌ＝｛Ｘ_１，...，Ｘ_｜Ｔ｜｝，Ｘ_ｉ＝＜ｘ_ｉ１...ｘ_{ｉ｜Ｘｉ｜}＞を生成する生成部を有し、
前記生成部は、隠れマルコフモデルへの適合度を示すＳｃｏｒｅ（Ｔ，Ｌ）＝Π_ｉ＝１ ^｜Ｔ｜ｐ_ｉｎ（ｘ_ｉ１）ｐ_ｅｍ（ｙ_ｉ１｜ｘ_ｉ１）Π_ｔ＝２ ^｜Ｙｉ｜ｐ_ｔｒ（ｘ_ｉｔ｜ｘ_ｉｔ−１）ｐ_ｅｍ（ｙ_ｉｔ｜ｘ_ｉｔ）
但し、ｐ_ｉｎ（ｘ_ｉ１）は、先頭のラベルがｘ_ｉ１である確率、ｐ_ｅｍ（ｙ_ｉｔ｜ｘ_ｉｔ）は、ｔ番目のラベルがｘ_ｉｔのときに前記記号がｙ_ｉｔである確率、ｐ_ｔｒ（ｘ_ｉｔ｜ｘ_ｉｔ−１）は、ｔ−１番目のラベルがｘ_ｉｔ−１のときにｔ番目のラベルがｘ_ｉｔである確率
が最大となるラベル列集合Ｌを生成する。

記号列の集合から複数の分岐点を抽出可能とすることができる。

作業ログ列集合の一例を示す図である。作業ログ列集合に対する対処パターン列の理想的な獲得結果を示す図である。従来技術による対処パターン列の獲得の結果と過程とを示す図である。対処パターン集合の一例を示す図である。第１の実施の形態における対処ラベル列生成装置のハードウェア構成例を示す図である。第１の実施の形態における対処ラベル列生成装置の機能構成例を示す図である。二分木を説明するための図である。対処ラベル列生成部が実行する処理手順の一例を説明するためのフローチャートである。対処ラベル列集合の生成結果を示す図である。ワークフローの一例を示す図である。第２の実施の形態における対処ラベル列生成装置の機能構成例を示す図である。

以下、図面に基づいて本発明の実施の形態を説明する。まず、本実施の形態における問題を定式化する。入力となる作業ログ列とは、Ｙ＝＜ｙ_１...ｙ_｜Ｙ｜＞のように表される、作業（作業ログ）を表す記号の系列であるとし、記号の並び順は作業の実行順に対応する。但し、出現する全ての作業の集合をΩとしてｙ_ｊ∈Ωであるとする。本実施の形態の入力は、作業ログ列集合Ｔ＝｛Ｙ_１，...，Ｙ_｜Ｔ｜｝とする。すなわち、作業ログ列集合Ｔは、複数の作業ログ列の集合である。なお、｜Ｙ｜は、作業ログ列Ｙに含まれる作業ログの数を示す。また、｜Ｔ｜は、作業ログ列集合Ｔに含まれる作業ログ列の数を示す。すなわち、本実施の形態において、｜Ｘ｜という表記は、Ｘ内の要素数を示す。

また、本実施の形態では、対処ラベルという概念が導入される。対処ラベルとは、同じの対処パターンに属する作業ログを識別するためのラベルである。より詳しくは、対処ラベルとは、作業ログ列集合Ｔを作業ログの並び順の類似性に基づいて複数の部分作業ログ列に分類した場合の部分作業ログ列の分類ごとに割り当てられるラベルをいう。したがって、作業ログ列のうち、同じ対処パターンに属する作業ログに対して、同じ値の対処ラベルが付与される。なお、対処パターンとは、作業ログ列中に頻出する部分作業ログ列をいい、作業ログ列集合から、エキスパートを含むオペレータらによる、問題の見極めから対処完了までの一連の故障回復手順であるプロセスを抽出した場合に、作業分岐点によって区切られる部分作業ログ列をいう。

本実施の形態では、入力として作業ログ列集合が与えられた場合に、当該作業ログ列集合中の任意の作業ログに対して、対応する対処ラベル列が出力される。ｉ番目の作業ログ列をＹ_ｉ＝＜ｙ_ｉ１...ｙ_{ｉ｜Ｙｉ｜}＞としたとき、ｙ_ｉｊに対応する対処ラベルをｘ_ｉｊとすると、出力の対処ラベル列集合はＬ＝｛Ｘ_１，...，Ｘ_｜Ｔ｜｝、Ｘ_ｉ＝＜ｘ_ｉ１...ｘ_{ｉ｜Ｘｉ｜}＞となお。但し、ｘ_ｉｊは、｛１，...，Ｋ｝のいずれかの値をとり、対処ラベルの数Ｋは、利用者によって指定される。

ある作業ログ列において特定の対処ラベルｋに対応する部分作業ログ列を、対処ｋの対処パターン集合と呼ぶ。また、ｘ_ｉｊ≠ｘ_ｉｊ＋１であるとき、ｘ_ｉｊは次の作業において対処が変化していると考え、ｙ_ｉｊを異なる対処に遷移した作業分岐点であるとみなせる。例として、作業ログ列集合Ｔ＝｛＜ａ，ｂ，ｃ，ｄ＞，＜ａ，ｂ，ｃ，ｄ＞，＜ａ，ｂ，ｅ，ｆ，ｇ＞，＜ａ，ｂ，ｅ，ｆ，ｈ＞｝、Ｋ＝５が入力として与えられ、対処ラベル列集合Ｌ＝｛＜１，１，２，２＞，＜１，１，２，２＞，＜１，１，３，３，４＞，＜１，１，３，３，５＞｝が出力されたとする。図４の上段には、作業ログ列集合Ｔを構成する作業ログ列Ｙごとに、各作業ログｙに対して対処ラベル（１〜５）が付与されている。また、図４の下段には、対処パターン集合の遷移図が示されている。

図４において、ｘ_１２＝１、ｘ_１３＝２であるため、ｙ_１２＝ｂが作業分岐点として考えられる。同様にして、ｙ_３４＝ｆも、作業分岐点として考えられる。実際に、図４の例では、作業ログｂの後に続く作業ログ列は｛＜ｃ，ｄ＞，＜ｃ，ｄ＞｝と｛＜ｅ，ｆ，ｇ＞，＜ｅ，ｆ，ｈ＞｝の類似した２種類があり、また作業ログｆの後に続く作業ログ列は｛＜ｇ＞，＜ｈ＞｝の２種類があり、頻出の対処パターンは｛＜ａ，ｂ＞，＜ｃ，ｄ＞，＜ｅ，ｆ＞，＜ｇ＞，＜ｈ＞｝と考え、この出力結果は、作業ログ列集合が生成されたと考えられる頻出の対処パターン列を表していると考えられる。

従来技術の課題を解決するために、本実施の形態では、スコアを最大化する対処ラベル列集合の獲得を行いたい。なお、従来技術の非特許文献１を用いても、対処ラベル列集合の獲得は可能である。従来技術において複数の作業分岐点を得る場合は、スコアを最大化するひとつの作業分岐点を選択した後、選択された作業に後続する作業ログ列のみを部分列として取り出し、作業ログ列の部分列集合に対して、部分的にスコアを最大化する作業分岐点を再帰的に探索する。スコアを最大化する作業分岐点の組は、入力の作業ログ列集合から、類似した部分作業ログ列を対処パターンとして取り出すことに該当する。

但し、従来技術は、スコアの大きい分岐点を順に得る貪欲法を用いて対処ラベルの組み合わせを部分的に探索する。そのため、計算は容易だが最適解の近似解しか得られず、分岐順序の入れ替えがあると、得られる対処ラベル列集合が最大スコアとならない。そのため、図２で示したスコアが最大化される作業分岐点が得られず、図３の近似解となる。

しかしながら、スコアを最大化する対処ラベル列集合（作業分岐点）の獲得は、対処ラベルの組み合わせの数だけ解があり得る。そのため、一般には全てのとり得る対処ラベルの組み合わせのスコアが現実的な時間で計算出来ない。

そこで、本実施の形態では、隠れマルコフモデルを入力データに対して適用し、対処パターンの抽出のスコアを隠れマルコフモデルへの適合度を表す尤度で定義し、分岐点の数に関わらず、スコアを最大化する対処ラベル列集合を獲得可能にする。

隠れマルコフモデルは、対処ラベルがひとつ前の対処ラベルにのみ依存するという、現実のデータの近似に適した仮定を置くモデルである。この仮定がある場合において、モデルへの適合度を示す尤度という値を最大化するラベル列を効率的に得る手法が、既に確立されている。また、この尤度という値は、従来技術におけるスコアと同様に、対処パターンの集まりの良さを示すスコアであるとみなせる。したがって、複数の分岐点がある場合でも、従来技術と比較して合計スコアがより高くなる対処ラベル列を獲得でき、分岐点の数に依らず最適な対処パターンの推定が可能となる。このように、隠れマルコフモデルを用いる利点は、スコアが最大化される対処ラベル列を効率的に獲得できることである。

以下、上記を実現する対処ラベル列生成装置１０について具体的に説明する。図５は、第１の実施の形態における対処ラベル列生成装置のハードウェア構成例を示す図である。図５の対処ラベル列生成装置１０は、それぞれバスＢで相互に接続されているドライブ装置１００、補助記憶装置１０２、メモリ装置１０３、ＣＰＵ１０４、インタフェース装置１０５、表示装置１０６、及び入力装置１０７等を有する。

対処ラベル列生成装置１０での処理を実現するプログラムは、ＣＤ−ＲＯＭ等の記録媒体１０１によって提供される。プログラムを記憶した記録媒体１０１がドライブ装置１００にセットされると、プログラムが記録媒体１０１からドライブ装置１００を介して補助記憶装置１０２にインストールされる。但し、プログラムのインストールは必ずしも記録媒体１０１より行う必要はなく、ネットワークを介して他のコンピュータよりダウンロードするようにしてもよい。補助記憶装置１０２は、インストールされたプログラムを格納すると共に、必要なファイルやデータ等を格納する。

メモリ装置１０３は、プログラムの起動指示があった場合に、補助記憶装置１０２からプログラムを読み出して格納する。ＣＰＵ１０４は、メモリ装置１０３に格納されたプログラムに従って対処ラベル列生成装置１０に係る機能を実現する。インタフェース装置１０５は、ネットワークに接続するためのインタフェースとして用いられる。表示装置１０６はプログラムによるＧＵＩ（Graphical User Interface）等を表示する。入力装置１０７はキーボード及びマウス等で構成され、様々な操作指示を入力させるために用いられる。

図６は、第１の実施の形態における対処ラベル列生成装置の機能構成例を示す図である。図６において、対処ラベル列生成装置１０は、対処ラベル列生成部１１、状態遷移グラフ生成部１２、及びワークフロー表示部１３等を有する。これら各部は、対処ラベル列生成装置１０にインストールされた１以上のプログラムが、ＣＰＵ１０４に実行させる処理により実現される。対処ラベル列生成装置１０は、また、作業ログ列ＤＢ１４を利用する。作業ログ列ＤＢ１４は、例えば、補助記憶装置１０２、又は対処ラベル列生成装置１０にネットワークを介して接続可能な記憶装置等を用いて実現可能である。

作業ログ列ＤＢ１４には、作業者が作業を実施した際に記録された作業ログ列の集合である作業ログ列集合Ｔが記憶されている。

対処ラベル列生成部１１は、作業ログ列集合Ｔと対処ラベル数Ｋとを入力とし、作業ログ列集合Ｔに対応する対処ラベル列集合Ｌを生成する。より詳しくは、対処ラベル列生成部１１は、作業ログ列ＤＢ１４に記憶されている作業ログ列集合Ｔの各作業ログに、同じ対処パターンから生成されたと思われる場合に同一の対処パターンであることを示す対処ラベルを与える。対処ラベル列生成部１１は、また、同一対処パターンに同一の対処ラベルが与えられていることを示すスコアを最大化させる対処ラベルの組み合わせ（対処ラベル列集合Ｌ）を自動的に算出する。

状態遷移グラフ生成部１２は、作業ログ列集合Ｔ及び対処ラベル列集合Ｌを用いて、作業ログ列集合Ｔの根本となるプロセスを表示可能な状態遷移グラフを生成する。

ワークフロー表示部１３は、状態遷移グラフを出力する。

本実施の形態において、対処ラベル列生成部１１は、潜在的な対処列から生成される隠れマルコフモデル（ＨＭＭ）に基づく、以下の尤度関数Ｓｃｏｒｅ（Ｔ，Ｌ）を最大化させる対処ラベル列集合Ｌを生成する。なお、ＨＭＭについては、例えば、「C.M.ビショップ, パターン認識と機械学習下 - ベイズ理論による統計的予測, 丸善出版,pp.328--330,2012.」に詳しい。
Ｓｃｏｒｅ（Ｔ，Ｌ）＝Π_ｉ＝１ ^｜Ｔ｜ｐ_ｉｎ（ｘ_ｉ１）ｐ_ｅｍ（ｙ_ｉ１｜ｘ_ｉ１）Π_ｔ＝２ ^｜Ｙｉ｜ｐ_ｔｒ（ｘ_ｉｔ｜ｘ_ｉｔ−１）ｐ_ｅｍ（ｙ_ｉｔ｜ｘ_ｉｔ）（１）
但し、ｐ_ｉｎ（ｘ_ｉ１）は、先頭の対処ラベルがｘ_ｉ１である確率、ｐ_ｅｍ（ｙ_ｉｔ｜ｘ_ｉｔ）は、ｔ番目の対処ラベルがｘ_ｉｔのときに作業ログがｙ_ｉｔである確率、ｐ_ｔｒ（ｘ_ｉｔ｜ｘ_ｉｔ−１）は、ｔ−１番目の対処ラベルがｘ_ｉｔ−１のときにｔ番目の対処ラベルがｘ_ｉｔである確率を表し、以下の条件を満たす。
Σ_ｋ＝１ ^Ｋｐ_ｉｎ（ｘ＝ｋ）＝１，
Σ_ｏ∈Ωｐ_ｅｍ（ｏ｜ｘ＝ｋ）＝１（ｋ＝１，...，Ｋ），
Σ_ｋ'＝１ ^Ｋｐ_ｔｒ（ｘ'＝ｋ'｜ｘ＝ｋ）＝１（ｋ＝１，...，Ｋ）
本実施の形態において、ＨＭＭを用いる利点は、確率ｐ_ｉｎ、ｐ_ｅｍ、ｐ_ｔｒのパラメータを求めることで、Ｓｃｏｒｅ（Ｔ，Ｌ）を最大化させるＬを容易に求められる点である。非特許文献１は、作業分岐点集合（図４の例では｛ｂ、ｆ｝）を出力するものであるが、途中の処理過程のデータを用いて、対処ラベル列集合＝｛＜１，１，２，２＞，＜１，１，２，２＞，＜１，１，３，３，４＞，＜１，１，３，３，５＞｝を出力可能である。定義は異なるが、非特許文献１でも分岐点としての良さを表すスコアを定義し、スコアをより大きくする分岐点を候補の中から選択している。しかしながら、分岐点を再帰的に探索する非特許文献１の方法では、分岐点が複数、すなわちＫ≧５の場合に得られるＬが、必ずしもスコアを最大化させる最適解とならない。本実施の形態はＨＭＭを用いることで、よく知られたＶｉｔｅｒｂｉアルゴリズムを用いて、非常に効率的に最適解を得ることができる。

また、本実施の形態では、ＨＭＭにおける状態遷移確率ｐ_ｔｒに、二分木に基づく制約を加えた、二分木ＨＭＭを用いる。ＨＭＭは、確率ｐ_ｔｒに様々な制約条件を与えることで、多様な応用が可能なことが知られている（例えば、「C.M.ビショップ, パターン認識と機械学習下- ベイズ理論による統計的予測, 丸善出版,pp.331--333, 2012.」参照）。有名なものでは、ｋ'＜ｋのときにｐ_ｔｒ（ｋ'｜ｋ）＝０とする、ｌｅｆｔ−ｔｏ−ｒｉｇｈｔＨＭＭが挙げられる。

二分木とは、図７に示すような、任意のノードにおいて子ノードの数が２個以下であるグラフである。二分木ＨＭＭでは、任意の対処ラベルｋにおいて、二分木でｋの子孫に当たる対処ラベルのみ、次のラベルとしての出現確率が与えられる。そのため、二分木ＨＭＭではｐ_ｔｒに次の制約条件が与えられる。
ｐ_ｔｒ（ｋ'｜ｋ）＝０ｉｆ（ｋ'が二分木においてｋの子孫ノードでない）
上記制約があっても、殆ど通常のＨＭＭと同様に、確率分布のパラメータ推定から対処ラベル列の推定を実施可能である。尚、状態遷移に制約条件を用いたＨＭＭは多数存在するが、二分木ＨＭＭと同じ制約を与えた事例は見当たらない。

本実施の形態は、隠れマルコフモデルに基づいている。そのため、対処ラベル列生成部１１は、隠れマルコフモデルに基づく確率分布を、対処ラベル列集合Ｌのランダムサンプリングによって推定する確率分布推定部１１１と、推定した確率分布に基づいて、最適な対処ラベル列集合Ｌを隠れマルコフモデルに基づいて算出する最適対処ラベル列算出部１１２とを含む。隠れマルコフモデルに基づく確率分布は、ｐ_ｉｎ（ｘ_ｉ１）、ｐ_ｅｍ（ｙ_ｉｔ｜ｘ_ｉｔ）、及びｐ_ｔｒ（ｘ_ｉｔ｜ｘ_ｉｔ−１）によって規定される。したがって、確率分布の推定とは、これら３つのパラメータの値を推定することをいう。

確率分布を対処ラベル列集合Ｌランダムサンプリングによって推定する場合、前のサンプリング時点ｔ−１のサンプリング結果Ｌ^{（ｔ−１）}を元に、ｐ_ｉｎ ^{（ｔ−１）}（ｘ_ｉ１）、ｐ_ｔｒ ^{（ｔ−１）}（ｘ_ｉｊ｜ｘ_ｉｊ−１）、ｐ_ｅｍ ^{（ｔ−１）}（ｙ_ｉｊ｜ｘ_ｉｊ）を算出する（例えば、「C.M.ビショップ, パターン認識と機械学習下- ベイズ理論による統計的予測, 丸善出版,pp.257--261, 2012.」参照）。このとき、それぞれの確率は次の様になる。
ｐ_ｉｎ ^{（ｔ−１）}（ｋ）＝（ｃ^{（ｔ−１）}（ｘ_＊１＝ｋ）＋１）／（｜Ｌ^{（ｔ−１）}｜＋Ｋ）（２）
ｐ_ｔｒ ^{（ｔ−１）}（ｋ'｜ｋ）＝（ｃ^{（ｔ−１）}（ｘ_＊ｊ＝ｋ'，ｘ_＊ｊ−１＝ｋ）＋１）／（ｃ^{（ｔ−１）}（ｘ_＊ｊ−１＝ｋ）＋Ｋ）（３）
ｐ_ｅｍ ^{（ｔ−１）}（ｏ｜ｋ）＝（ｃ^{（ｔ−１）}（ｙ_＊ｊ＝ｏ，ｘ_＊ｊ＝ｋ）＋１）／（ｃ^{（ｔ−１）}（ｘ_＊ｊ＝ｋ）＋Ｋ）（４）
但し、ｃ^{（ｔ−１）}（ｘ_＊１＝ｋ）は、Ｌ^{（ｔ−１）}においてｘ^{（ｔ−１）} _ｉ１＝ｋであるｉの数、ｃ^{（ｔ−１）}（ｘ_＊ｊ＝ｋ'，ｘ_＊ｊ−１＝ｋ）は、Ｌ^{（ｔ−１）}においてｘ_ｉｊ＝ｋ'、ｘ_ｉｊ−１＝ｋである（ｉ，ｊ）の数、ｃ^{（ｔ−１）}（ｙ_＊ｊ＝ｏ，ｘ_＊ｊ＝ｋ）は、Ｌ^{（ｔ−１）}においてｘ_ｉｊ＝ｋ、ｙ_ｉｊ＝ｏである（ｉ，ｊ）の数を表す。

なお、各サンプリング時点ｔにおけるサンプリング結果Ｌ^（ｔ）は、入力である作業ログ列集合Ｔの各作業ログ列及び各作業ログに対応する対処ラベル列及び対処ラベルによって構成される。

確率分布推定部１１１におけるサンプリングでは、一般的に用いられる手法であるギブスサンプリングのような全てのラベルｘ_ｉｊを一つずつランダム決定する方法は用いない。特定の観測列、この場合、作業ログ列に対するラベル列Ｘ_ｉを一度にランダム決定する、Ｆｏｒｗａｒｄ−ｆｉｌｔｅｒｉｎｇ−ｂａｃｋｗａｒｄ−ｓａｍｐｌｉｎｇ（ＦＦＢＳ）が用いられる（例えば、「V. Rao, Y. W. Teh, "Fast MCMC Sampling for Markov Jump Processes and Extensions, " Journal of Machine Learning Research, Vol. 14, pp. 3295--3320, 2013.」参照）。二分木ＨＭＭの制約条件では、前後のラベルが決まると、その中間でとり得るラベルが限定される。サンプリング可能なラベルが、特定のラベルだけを見ると限定されてしまうため、ギブスサンプリングではランダムなラベル獲得が殆どできず、サンプリング回数を現実的でない程多く行わないと良いサンプルが得られない。これに対してＦＦＢＳでは一度にラベル列をランダム決定するため、前後のラベルも同時に変更することで、二分木ＨＭＭにおける収束が非常に高速となる。

一方、最適対処ラベル列算出部１１２は、隠れマルコフモデルにおいて効率的に最適解を得ることが可能な、Ｖｉｔｅｒｂｉアルゴリズムを用いる。

図８は、対処ラベル列生成部が実行する処理手順の一例を説明するためのフローチャートである。

ステップＳ１０１において、確率分布推定部１１１は、作業ログ列ＤＢ１４から、作業ログ列集合Ｔ＝｛Ｙ_１，...，Ｙ_｜Ｔ｜｝，Ｙ_ｉ＝＜ｙ_ｉ１...ｙ_{ｉ｜Ｙｉ｜}＞を読み込む。ここで、ｙ_ｉｊ∈Ω、Ωは出現する作業ログの集合である。なお、第１の実施の形態では、或る一つのプロセスに関する作業ログ列集合Ｔが読み込まれる。

続いて、確率分布推定部１１１は、対処ラベル列集合Ｌの初期値Ｌ^（０）に、｛Ｘ^（０） _１，...，Ｘ^（０） _｜Ｔ｜｝，Ｘ^（０） _ｉ＝＜ｘ^（０） _ｉ１...ｘ^（０） _{ｉ｜Ｘｉ｜}＞，ｘ^（０） _ｉｊ＝１を代入する（Ｓ１０２）。すなわち、全ての対処ラベルが１である対処ラベル列集合が、初期値Ｌ^（０）とされる。

続いて、確率分布推定部１１１は、変数ｔに０を代入する（Ｓ１０３）。続いて、確率分布推定部１１１は、変数ｔに１を加算する（Ｓ１０４）。

続いて、確率分布推定部１１１は、ｐ_ｉｎ ^{（ｔ−１）}（ｘ_ｉ１）、ｐ_ｔｒ ^{（ｔ−１）}（ｘ_ｉｊ｜ｘ_ｉｊ−１）、ｐ_ｅｍ ^{（ｔ−１）}（ｙ_ｉｊ｜ｘ_ｉｊ）を、Ｌ^{（ｔ−１）}における対処ラベルの出現数に基づき、式（２）、式（３）、及び式（４）を利用して算出する（Ｓ１０５）。

続いて、確率分布推定部１１１は、Ｌ^（ｔ）＝｛Ｘ^（ｔ） _１，...，Ｘ^（ｔ） _｜Ｔ｜｝，Ｘ^（ｔ） _ｉ＝ｘ^（ｔ） _ｉ１...ｘ^（ｔ） _{ｉ｜Ｘｉ｜、}ｘ^（ｔ） _ｉｊ∈｛１，...，Ｋ｝（ｉ＝１，...，｜Ｔ｜）を、ステップＳ１０５において算出されたｐ_ｉｎ ^{（ｔ−１）}（ｘ_ｉ１）、ｐ_ｔｒ ^{（ｔ−１）}（ｘ_ｉｊ｜ｘ_ｉｊ−１）、及びｐ_ｅｍ ^{（ｔ−１）}（ｙ_ｉｊ｜ｘ_ｉｊ）に従うＦＦＢＳに基づいて決定する（Ｓ１０６）。なお、Ｋは、入力として与えられた対処パターン数である。

確率分布推定部１１１は、ステップＳ１０４〜Ｓ１０５を、ｍａｘ＿ｌｏｏｐ回数分繰り返す（Ｓ１０７）。ｍａｘ＿ｌｏｏｐは、予め設定される値である。ステップＳ１０４〜Ｓ１０５が、ｍａｘ＿ｌｏｏｐ回数分実行されると（Ｓ１０７でＹｅｓ）、確率分布推定部１１１は、得られたＬ^（１），…，Ｌ^{（ｍａｘ＿ｌｏｏｐ）}における全ての対処ラベルの出現数に基づいて、ｐ_ｉｎ（ｘ_ｉ１）、ｐ_ｔｒ（ｘ_ｉｊ｜ｘ_ｉｊ−１）、ｐ_ｅｍ（ｙ_ｉｊ｜ｘ_ｉｊ）を算出する（Ｓ１０８）。

続いて、対処ラベル列算出部は、ステップＳ１０８において算出されたｐ_ｉｎ（ｘ_ｉ１）、ｐ_ｔｒ（ｘ_ｉｊ｜ｘ_ｉｊ−１）、ｐ_ｅｍ（ｙ_ｉｊ｜ｘ_ｉｊ）に基づいて、Ｖｉｔｅｒｂｉアルゴリズムで式（１）が最大となる対処ラベル列集合Lを推定する（Ｓ１０９）。その結果、尤度関数Ｓｃｏｒｅ（Ｔ，Ｌ）を最大化させる対処ラベル列集合Ｌが得られる。例えば、図１の作業ログ列集合Ｔについては、図９に示されるような対処ラベル列集合Ｌ＝｛＜１，１，２，４，４，４，４，４，４，４，４，４＞，＜１，１，２，４，４，４，４，４，４，４，４，４＞，＜１，１，２，５，５，５，５，５＞，＜１，１，２，５，５，５，５，５＞，＜１，１，３，３，３，３＞，＜１，１，３，３，３，３＞｝が生成される。図９では、作業ログ列集合Ｔの各作業ログに対して、対処ラベルが付与されている。図９に示した対処ラベル列集合Ｌによれば、図２に示したように作業分岐点｛ｂ，ｃ｝が得られる。

式（１）を最大化することは、スコアを最大化する最適な対処パターン集合の獲得と同値である。ＶｉｔｅｒｂｉアルゴリズムとＦＦＢＳとからなる図８のアルゴリズムは、一例であり、二分木ＨＭＭに基づいた複数の分岐点を与えたときの尤度を示す式（１）を最大化する対処ラベル列集合Ｌが得られれば、他のアルゴリズムが採用されてもよい。例えば、ＦＦＢＳに基づくランダムサンプリングではなく、Ｂａｕｍ−Ｗｅｌｃｈアルゴリズムによりｐ_ｉｎ（ｘ_ｉ１）、ｐ_ｔｒ（ｘ_ｉｊ｜ｘ_ｉｊ−１）、ｐ_ｅｍ（ｙ_ｉｊ｜ｘ_ｉｊ）を獲得する方法も考えられる。

また、上記説明では二分木ＨＭＭを用いた場合について説明したが、制約のない通常のＨＭＭや、それ以外の制約条件を用いても良い。

第１の実施の形態では、対処ラベル列生成部１１の出力結果である対処ラベル列集合Ｌが、状態遷移グラフ生成部１２によって利用される。

状態遷移グラフ生成部１２は、作業ログ列集合Ｔと対処ラベル列集合Ｌとを用いて、作業ログ列集合Ｔの根本に有る一つのプロセスを表示可能な状態遷移グラフを獲得する。

作業ログ列集合Ｔ＝｛Ｙ_１，...，Ｙ_｜Ｔ｜｝と、対処ラベル列集合Ｌ＝｛Ｘ_１，...，Ｘ_｜Ｔ｜｝の、対応する作業ログ列Ｙ_ｉ＝＜ｙ_ｉ１...ｙ_{ｉ｜Ｙｉ｜}＞と対処ラベル列Ｘ_ｉ＝＜ｘ^（０） _ｉ１...ｘ^（０） _{ｉ｜Ｘｉ｜}＞との、対応する作業ログと対処ラベルとのペアを作業ノードと呼び、ｗ_ｉｊ＝（ｙ_ｉｊ，ｘ_ｉｊ）で示す。作業ノードの系列Ｗ_ｉ＝＜ｗ_ｉ１...ｗ_{ｉ｜Ｙｉ｜}＞を、作業フローと呼び、また、Ｆ＝｛Ｗ_１，...，Ｗ_｜Ｔ｜｝を、作業フロー集合と呼ぶ。

このとき、作業フロー集合Ｆに含まれる全ての作業ノードの集合をＶとする。また、作業フロー集合Ｆに含まれる作業フローのうち、連続する作業ノードｅ_ｉｔ＝（ｗ_ｉｔ，ｗ_ｉｔ＋１）（１≦ｔ≦｜Ｘ_ｉ｜−１）を作業順序と呼ぶ。作業フロー集合Ｆに含まれる全ての作業フローに含まれる作業順序の集合をＥとする。状態遷移グラフ生成部１２は、Ｇ＝（Ｖ，Ｅ）を状態遷移グラフとして出力する。

例として、
Ｔ＝｛＜ａ，ｂ，ｃ，ｄ＞，＜ａ，ｂ，ｃ，ｄ＞，＜ａ，ｂ，ｅ，ｆ，ｇ＞，＜ａ，ｂ，ｅ，ｆ，ｈ＞｝
Ｌ＝｛＜１，１，２，２＞，＜１，１，２，２＞，＜１，１，３，３，４＞，＜１，１，３，３，５＞｝
が入力に与えられたとする。このとき、
Ｆ＝｛＜（ａ，１），（ｂ，１），（ｃ，２），（ｄ，２）＞，＜（ａ，１），（ｂ，１），（ｃ，２），（ｄ，２）＞，＜（ａ，１），（ｂ，１），（ｅ，３），（ｆ，３），（ｇ，４）＞，＜（ａ，１），（ｂ，１），（ｅ，３），（ｆ，３），（ｈ，５）＞｝
Ｖ＝｛（ａ，１），（ｂ，１），（ｃ，２），（ｄ，２），（ｅ，３），（ｆ，３），（ｇ，４），（ｈ，５）｝
Ｅ＝｛（（ａ，１），（ｂ，１）），（（ｂ，１）），（ｃ，２）），（（ｃ，２），（ｄ，２）），（（ｂ，１），（ｅ，３）），（（ｅ，３），（ｆ，３）），（（ｆ，３），（ｇ，４）），（（ｆ，３），（ｈ，５））｝
となる。Ｇ＝（Ｖ，Ｅ）は、ワークフロー表示部１３に入力される。

ワークフロー表示部１３は、入力であるＧ＝（Ｖ，Ｅ）に従い、ワークフローを示す図を表示装置１０６に表示する。図１０は、ワークフローの一例を示す図である。図１０では、Ｖの全ての要素をノードとし、またＥの任意の要素ｅ＝（ｓ，ｄ）に対して、ｓからｄへのエッジを表現する線が描画されている。

上述したように、第１の実施の形態によれば、複数の作業分岐点が存在する作業ログ列集合が与えられた場合において各作業分岐点を抽出可能とすることができる。すなわち、目標とするスコアを最大化する最適な対処パターン集合を抽出可能とすることができる。

したがって、任意のシステム異常を復旧させた際の作業ログ列集合から、その作業ログ列集合の根本であると考えられる対処パターン列の集合からなる、システム異常を解決するまでのプロセスを把握することができる。これにより、故障時に実施すべきプロセスを自動的に獲得し、把握することができ、故障対応時間の短縮化が実現できる。従来の技術（非特許文献１）の利用では、得られる作業分岐点と対処パターンが、スコア最大化の最適解とならないため、複数の作業分岐点がある、すなわち対処の候補が３つ以上ある場合には正しい作業分岐点の組が得られず、適用可能な故障の種類が限定的であった。これに対して、本実施の形態を用いることで、オペレータにとって問題となりやすい、３つ以上の対処パターンが考えられるケースでの故障対応のプロセスを、把握することが可能となる。

次に、第２の実施の形態について説明する。第２の実施の形態では第１の実施の形態と異なる点について説明する。第２の実施の形態において特に言及されない点については、第１の実施の形態と同様でもよい。

図１１は、第２の実施の形態における対処ラベル列生成装置の機能構成例を示す図である。図１１中、図６と同一部分には同一符号を付し、その説明は省略する。

図１１において、対処ラベル列生成装置１０は、状態遷移グラフ生成部１２及びワークフロー表示部１３の代わりに対処パターン集合獲得部１５を有する。対処パターン集合獲得部１５は、対処ラベル列生成装置１０にインストールされた１以上のプログラムが、ＣＰＵ１０４に実行させる処理により実現される。

対処パターン集合獲得部１５は、作業ログ列集合Ｔと、対応する対処ラベル列集合Ｌとを入力とし、同一の対処ラベルを持つ作業ログだけで構成した作業ログ列の部分列を全て出力する。

作業ログ列集合Ｔ＝｛Ｙ_１，...，Ｙ_｜Ｔ｜｝と、対処ラベル列集合Ｌ＝｛Ｘ_１，...，Ｘ_｜Ｔ｜｝の、対応する作業ログと対処ラベルのペアを作業ノードと呼び、ｗ_ｉｊ＝（ｙ_ｉｊ，ｘ_ｉｊ）で示す。作業ノードの系列Ｗ_ｉ＝＜ｗ_ｉ１...ｗ_{ｉ｜Ｙｉ｜}＞を、作業フローと呼び、また、Ｆ＝｛Ｗ_１，...，Ｗ_｜Ｔ｜｝を、作業フロー集合と呼ぶ。

任意の作業フローＷ_ｉにおいて、対処ラベルがｋである作業ノードの作業ログだけを取り出した部分列をＸ'_ｉ（ｋ）とする。例えば、Ｗ_３＝＜（ａ，１），（ｂ，１），（ｅ，３），（ｆ，３），（ｇ，４）＞において、Ｘ'_３（３）＝＜ｅ，ｆ＞である。作業フロー集合Ｆにおける全ての部分列Ｘ'_ｉ（ｋ）の集合Ｓ＝｛Ｘ'_ｉ（ｋ）；ｉ＝１，...，｜Ｔ｜，ｋ＝１，...，Ｋ｝を、対処パターン集合とする。対処パターン集合獲得部１５は、対処パターン集合Ｓを出力する。

例えば、
Ｔ＝｛＜ａ，ｂ，ｃ，ｄ＞，＜ａ，ｂ，ｃ，ｄ＞，＜ａ，ｂ，ｅ，ｆ，ｇ＞，＜ａ，ｂ，ｅ，ｆ，ｈ＞｝、
Ｌ＝｛＜１，１，２，２＞，＜１，１，２，２＞，＜１，１，３，３，４＞，＜１，１，３，３，５＞｝が与えられたとき、
Ｓ＝｛＜ａ，ｂ＞，＜ｃ，ｄ＞，＜ｅ，ｆ＞，＜ｇ＞，＜ｈ＞｝となる。

なお、第２の実施の形態では、複数のプロセスに係る作業ログ列を含む作業ログ列集合が対処ラベル列生成部１１に対して入力される。例えば、過去に蓄積された全ての作業ログ列集合が入力されてもよい。したがって、対処パターン集合獲得部１５による出力結果によれば、複数のプロセスに関する作業ログ列集合に含まれる対処パターンを総覧することができる。

上述したように、第２の実施形態によれば、蓄積された作業ログ列集合から、頻出の作業ログ列である対処パターン列を獲得することができる。これにより、例えば、故障時に実施した作業ログにおいて頻出する対処パターンを部分作業ログ列として蓄積しておくことで、対処パターン列を回復措置として、故障が再発した際の業務マニュアル制定を効率的に実施することが可能となる。

なお、上記各実施の形態は、作業ログ列以外の記号列に対して適用されてもよい。すなわち、上記各実施の形態は、記号列の集合から類似した記号列の出現領域を取り出し、当該出現領域の変遷を獲得するに際し、様々な場合に適用可能である。ここで、類似した記号列の出現領域は、上記各実施の形態において、同じ対処ラベルが付与される作業列に該当する。作業ログ列以外の記号列で考えられる例としては、任意のシステムにおいて動作中に生成されるシステムログや、装置の安全監視において生成されるエラーログやセキュリティログを、それぞれエラーＩＤなどＩＤのみを取り出して記号列としたものなどが挙げられる。

なお、上記各実施の形態において、対処ラベル列生成装置１０は、ラベル列生成装置の一例である。対処ラベル列生成部１１は、生成部の一例である。確率分布推定部１１１は、推定部の一例である。最適対処ラベル列算出部１１２は、算出部の一例である。作業ログ列集合は、記号列集合の一例である。対処ラベルは、ラベルの一例である。

以上、本発明の実施例について詳述したが、本発明は斯かる特定の実施形態に限定されるものではなく、特許請求の範囲に記載された本発明の要旨の範囲内において、種々の変形・変更が可能である。

１０対処ラベル列生成装置
１１対処ラベル列生成部
１２状態遷移グラフ生成部
１３ワークフロー表示部
１４作業ログ列ＤＢ
１５対処パターン集合獲得部
１００ドライブ装置
１０１記録媒体
１０２補助記憶装置
１０３メモリ装置
１０４ＣＰＵ
１０５インタフェース装置
１０６表示装置
１０７入力装置
１１１確率分布推定部
１１２最適対処ラベル列算出部
Ｂバス

Claims

記号の系列である記号列の集合である記号列集合Ｔ＝｛Ｙ_１，...，Ｙ_｜Ｔ｜｝，Ｙ_ｉ＝＜ｙ_ｉ１...ｙ_{ｉ｜Ｙｉ｜}＞を入力し、前記記号列集合Ｔを記号の並び順の類似性に基づいて複数の部分記号列に分類した場合の前記部分記号列の分類ごとに割り当てられるラベルを前記記号列集合Ｔに付与した結果であるラベル列集合Ｌ＝｛Ｘ_１，...，Ｘ_｜Ｔ｜｝，Ｘ_ｉ＝＜ｘ_ｉ１...ｘ_{ｉ｜Ｘｉ｜}＞を生成する生成部を有し、
前記生成部は、隠れマルコフモデルへの適合度を示すＳｃｏｒｅ（Ｔ，Ｌ）＝Π_ｉ＝１ ^｜Ｔ｜ｐ_ｉｎ（ｘ_ｉ１）ｐ_ｅｍ（ｙ_ｉ１｜ｘ_ｉ１）Π_ｔ＝２ ^｜Ｙｉ｜ｐ_ｔｒ（ｘ_ｉｔ｜ｘ_ｉｔ−１）ｐ_ｅｍ（ｙ_ｉｔ｜ｘ_ｉｔ）
但し、ｐ_ｉｎ（ｘ_ｉ１）は、先頭のラベルがｘ_ｉ１である確率、ｐ_ｅｍ（ｙ_ｉｔ｜ｘ_ｉｔ）は、ｔ番目のラベルがｘ_ｉｔのときに前記記号がｙ_ｉｔである確率、ｐ_ｔｒ（ｘ_ｉｔ｜ｘ_ｉｔ−１）は、ｔ−１番目のラベルがｘ_ｉｔ−１のときにｔ番目のラベルがｘ_ｉｔである確率
が最大となるラベル列集合Ｌを生成することを特徴とするラベル列生成装置。
前記生成部は、
隠れマルコフモデルに基づいて、ｐ_ｉｎ（ｘ_ｉ１）、ｐ_ｅｍ（ｙ_ｉ１｜ｘ_ｉ１）、及びｐ_ｔｒ（ｘ_ｉｔ｜ｘ_ｉｔ−１）を推定する推定部と、
前記推定部によって推定されたｐ_ｉｎ（ｘ_ｉ１）、ｐ_ｅｍ（ｙ_ｉ１｜ｘ_ｉ１）、及びｐ_ｔｒ（ｘ_ｉｔ｜ｘ_ｉｔ−１）を前記Ｓｃｏｒｅ（Ｔ，Ｌ）に当てはめて、前記ラベル列集合Ｌを算出する算出部と、
を有することを特徴とする請求項１記載のラベル列生成装置。
ｐ_ｔｒ（ｘ_ｉｔ｜ｘ_ｉｔ−１）に、二分木に基づく制約が与えられる、
ことを特徴とする請求項１又は２記載のラベル列生成装置。
記号の系列である記号列の集合である記号列集合Ｔ＝｛Ｙ_１，...，Ｙ_｜Ｔ｜｝，Ｙ_ｉ＝＜ｙ_ｉ１...ｙ_{ｉ｜Ｙｉ｜}＞を入力し、前記記号列集合Ｔを記号の並び順の類似性に基づいて複数の部分記号列に分類した場合の前記部分記号列の分類ごとに割り当てられるラベルを前記記号列集合Ｔに付与した結果であるラベル列集合Ｌ＝｛Ｘ_１，...，Ｘ_｜Ｔ｜｝，Ｘ_ｉ＝＜ｘ_ｉ１...ｘ_{ｉ｜Ｘｉ｜}＞を生成する生成手順をコンピュータが実行し、
前記生成手順は、隠れマルコフモデルへの適合度を示すＳｃｏｒｅ（Ｔ，Ｌ）＝Π_ｉ＝１ ^｜Ｔ｜ｐ_ｉｎ（ｘ_ｉ１）ｐ_ｅｍ（ｙ_ｉ１｜ｘ_ｉ１）Π_ｔ＝２ ^｜Ｙｉ｜ｐ_ｔｒ（ｘ_ｉｔ｜ｘ_ｉｔ−１）ｐ_ｅｍ（ｙ_ｉｔ｜ｘ_ｉｔ）
但し、ｐ_ｉｎ（ｘ_ｉ１）は、先頭のラベルがｘ_ｉ１である確率、ｐ_ｅｍ（ｙ_ｉｔ｜ｘ_ｉｔ）は、ｔ番目のラベルがｘ_ｉｔのときに前記記号がｙ_ｉｔである確率、ｐ_ｔｒ（ｘ_ｉｔ｜ｘ_ｉｔ−１）は、ｔ−１番目のラベルがｘ_ｉｔ−１のときにｔ番目のラベルがｘ_ｉｔである確率
が最大となるラベル列集合Ｌを生成することを特徴とするラベル列生成方法。
前記生成手順は、
隠れマルコフモデルに基づいて、ｐ_ｉｎ（ｘ_ｉ１）、ｐ_ｅｍ（ｙ_ｉ１｜ｘ_ｉ１）、及びｐ_ｔｒ（ｘ_ｉｔ｜ｘ_ｉｔ−１）を推定する推定手順と、
前記推定手順において推定されたｐ_ｉｎ（ｘ_ｉ１）、ｐ_ｅｍ（ｙ_ｉ１｜ｘ_ｉ１）、及びｐ_ｔｒ（ｘ_ｉｔ｜ｘ_ｉｔ−１）を前記Ｓｃｏｒｅ（Ｔ，Ｌ）に当てはめて、前記ラベル列集合Ｌを算出する算出手順と、
を含むことを特徴とする請求項４記載のラベル列生成方法。
ｐ_ｔｒ（ｘ_ｉｔ｜ｘ_ｉｔ−１）に、二分木に基づく制約が与えられる、
ことを特徴とする請求項４又は５記載のラベル列生成方法。
請求項１乃至３いずれか一項記載の生成部としてコンピュータを機能させることを特徴とするプログラム。