JP7056765B2

JP7056765B2 - 情報処理装置、制御方法および非一時的記憶媒体

Info

Publication number: JP7056765B2
Application number: JP2020564957A
Authority: JP
Inventors: デベンドラダーカ; 雅人石井; 敦佐藤
Original assignee: NEC Corp
Current assignee: NEC Corp
Priority date: 2018-06-04
Filing date: 2018-06-04
Publication date: 2022-04-19
Anticipated expiration: 2038-06-04
Also published as: WO2019234802A1; JP2021524112A; US11281686B2; US20210216563A1

Description

本発明の実施形態は、広く時系列分析およびデータマイニングの分野に関する。

インターネット時代の現在のデータ変革の段階において、蓄積されたデータの莫大な増加は、慎重な分析のための包括的かつ効率的なアルゴリズムを求めている。そのような分野の１つは時系列またはシーケンシャルデータの分析であり、それは、追跡された物体の軌跡、財務データの流れ、日々のユーザアクティビティデータまたはカテゴリカルデータ、および、車両の交通量カウントまたは患者の到着などのようなカウントデータを含む。非常に多くの場合、そのようなデータの分析はクラスタリングまたは異常検出を含み、それは巨大なデータ集合の意味のある理解を意図している。理論的には、クラスタリングも異常検出タスクも、データセットの生成モデリングまたは密度モデリングを必要とする。しかしながら、これまで文献では、クラスタリングアルゴリズムはただ一つの型のデータセットに限定され、したがって、これらのモデルは非常に限定され、異なるデータ型にわたって一般化するのが困難である。

時系列モデリングおよび認識タスクは、訓練段階（モデリング段階とも呼ばれる）および試験段階の２つの段階で実行することができる。訓練段階は、ほとんどの場合に教師無しであり、入力データストリームの生成モデリングを狙う。なお、データストリームとは、時系列データのようなデータのシーケンスを意味する。訓練段階の間の生成モデルは、グローバル潜在変数およびローカル潜在変数から成り、これらはベイズモデルの確率変数と考えることができる。グローバル変数は、時間に対するデータの全体的なダイナミクスを表し、複数のデータストリームにわたり共有され類似性を強制する。一方、ローカル変数は、各データストリームのローカルダイナミクスおよび潜在的な構造を表すために用いられる。ローカル変数は、グローバル変数および観測されたデータを用いて導き出され、そこで、グローバル変数は事前のまたは当初の信念、およびローカル変数から得られる。一旦訓練段階が完了すると、ローカル変数およびグローバル変数の両方に関する事後分布(posterior)情報がモデルデータとして保存され、この情報は、各入力データストリームの尤度を評価するために用いられる。

モデルデータの情報は、教師データセットに対する学習の間に最適化されるすべての事後分布パラメータを含み、これらのパラメータは、推論の間に定義される事後分布を通してデータセットを表すのに十分である。直観的に、これらのパラメータは、教師データを所与としてパラメータの事後分布を最大にする最善または最適なパラメータのセットである考えることができ、したがって、異なるデータセットに対しては、これらの最適パラメータは異なるものとなる。しかしながら、同じ教師および試験データセットに対して、これらのパラメータは試験データをよく表すこともできる。

試験段階の間、グローバル変数は、試験データごとに事後分布予測または試験尤度を決定するために用いられる。

入力データストリームのクラスタリングは、そのデータがそのクラスタに属するデータ尤度を計算することを更に要求する、クラスタ割り当て規則を含む。異常検出タスクに対しては、データ尤度を計算することが必要であり、尤度は、正常データに対しては、小さな尤度値を持つ異常データより大きな値を取る。単純な教師無し／半教師ありの分類アルゴリズムを、試験データを正常および異常データに分類するために尤度計算の上に構築することができる。

時系列分析に関するいくつかの特許文献がある。特許文献１には、ディリクレ混合過程(Dirichlet process mixture)モデルを用いた時系列データのクラスタリングアルゴリズムが開示されており、そこで、クラスタリングに寄与する真の特徴およびクラスタリングに寄与しないノイズ特徴が区別される。特許文献２には、因子化漸近ベイズ推論に基づいて潜在特徴モデルのモデル選択問題を解決する技術が開示されている。

特開２０１３－９７６１５号公報特表２０１６－５２０２２０号公報

従来の方法では、クラスタリング／異常検出手法は、データ型に特有の方法で提供される。本発明の目的は、異なるデータ型に適応することができる、時系列モデリングの普遍的なフレームワークを提供することである。

プロセッサおよび命令を保存するメモリを備える情報処理装置が提供される。プロセッサは、以下の命令を実行するように構成される。１）それぞれが、そのタイムスタンプとともに観測されたデータの時間シーケンスを表わす、複数データストリームを取得する、２）予め設定された終了条件が満たされるまで以下を再帰的に実行する、２－１）同時事後分布および提案事後分布のダイバージェンスの最適化の結果を示しており、前記提案事後分布のパラメータを含むクラスタアイデンティティ分布のパラメータを、勾配降下最適化を通して更新する、２－２）クラスタごとに、クラスタのダイナミクスに対する提案事後分布を最適化することによりクラスタのダイナミクスを更新する、２－３）データストリームごとに、データストリームの個別応答に対する提案事後分布を最適化することによりデータストリームの個別応答を更新し、データストリームの個別応答は、データストリームが割り当てられたクラスタのダイナミクスに対するデータストリームの感度を表わす、２－４）データストリームごとに、データストリームの更新された個別応答に基づいて、データストリームの潜在状態を更新する、２－５）データストリームごと、タイムスタンプごとに、データストリームのデータ型に対応する、データ型ごとに異なる変換関数を用いて、タイムスタンプにおけるデータストリームの潜在状態を観測モデルのパラメータに変換することによって、タイムスタンプにおけるデータストリームの観測モデルを更新する、３）クラスタごとに、クラスタアイデンティティ分布の前記パラメータ、クラスタのダイナミクス、クラスタに割り当てられた各データストリームのダイナミクス、および、クラスタに割り当てられた各データストリームに対応する潜在状態、に基づいてモデルデータを生成する。

計算機によって実行される制御方法が提供される。制御方法は、以下を含む。１）それぞれが、そのタイムスタンプとともに観測されたデータの時間シーケンスを表わす、複数データストリームを取得すること、２）予め設定された終了条件が満たされるまで以下を再帰的に実行すること、２－１）同時事後分布および提案事後分布のダイバージェンスの最適化の結果を示しており、前記提案事後分布のパラメータを含むクラスタアイデンティティ分布のパラメータを、勾配降下最適化を通して更新すること、２－２）クラスタごとに、クラスタのダイナミクスに対する提案事後分布を最適化することによりクラスタのダイナミクスを更新すること、２－３）データストリームごとに、データストリームの個別応答に対する提案事後分布を最適化することによりデータストリームの個別応答を更新し、データストリームの個別応答は、データストリームが割り当てられたクラスタのダイナミクスに対するデータストリームの感度を表わすこと、２－４）データストリームごとに、データストリームの更新された個別応答に基づいて、データストリームの潜在状態を更新すること、２－５）データストリームごと、タイムスタンプごとに、データストリームのデータ型に対応する、データ型ごとに異なる変換関数を用いて、タイムスタンプにおけるデータストリームの潜在状態を観測モデルのパラメータに変換することによって、タイムスタンプにおけるデータストリームの観測モデルを更新すること、３）クラスタごとに、クラスタアイデンティティ分布の前記パラメータ、クラスタのダイナミクス、クラスタに割り当てられた各データストリームのダイナミクス、および、クラスタに割り当てられた各データストリームに対応する潜在状態、に基づいてモデルデータを生成すること。

本発明に従い、異なるデータ型に適応することができる、時系列モデリングの普遍的なフレームワークが提供される。

上述した目的、手順および動作モデリングの技術は、以下に記載されている選択された実施形態、および補助図面を通して分かりやすくなる。
図１は、実施形態１の情報処理装置の機能ベースの構成を例示する図を示す。図２は、実施形態１の情報処理装置によって実行される処理の流れを示すフローチャートである。図３は、実施形態１の情報処理装置によって実行される処理の流れを示すフローチャートである。図４は、実施形態１の情報処理装置２０００を実現する計算機１０００のハードウェア構成の例を示すブロック図である。

以下、本発明の実施形態が、添付の図面を参照して記載される。すべての図面において、類似の要素は類似の参照番号によって参照され、それについての説明は繰り返されない。

実施形態１

＜概要＞
実施形態１の情報処理装置（図１において記載される情報処理装置２０００）は、教師データから複数の入力データストリームを取り込み、共有されるクラスタダイナミクスとの各データの尤度に基づきクラスタ割り当てを実行する。情報処理装置２０００は、定義された変換関数の使用を通して、潜在状態を、観測されたデータを表す観測モデルのパラメータに更に変換する。その結果、すべての学習モデルパラメータが学習される。他の意味では、実施形態１の情報処理装置２０００は、時系列モデリングのための訓練段階を実行する。

情報処理装置２０００に対する入力データは、異なるデータ型、例えば離散データと実数データとの両方、の時系列データを含む。これは、時系列データ、例えば、カテゴリカル、カウント、軌跡および財務データの時系列など、広大な範囲をカバーする。情報処理装置２０００の潜在変数は、時系列の中に類似性を見いだす。学習されたモデルデータは、各クラスタおよび個々のデータストリームの、潜在変数／パラメータの上の、学習された事後分布情報に対応する。クラスタサイズは無制限でありデータ駆動型である、すなわち、クラスタの数はデータセットサイズとともに増大する。さらに、すべてのデータ入力に対して、データの総尤度が最大になるように、クラスタが見いだされる。

図１は、実施形態１の情報処理装置２０００の機能ベースの構成を例示する図を示す。実施形態１の情報処理装置２０００は、取得部２０２０、クラスタリング部２０４０、変換部２０６０、およびモデリング部２０８０を含む。取得部２０２０は、教師データセットから複数の入力データストリームを取得する。

モデル化の観点から、クラスタ割り当ての規則はディリクレ混合過程モデルまたはＤＰＭＭに従い、したがって、すべての入力データストリームがいくつかのクラスタにクラスタ化されることがある。データが到着すると、ＤＰＭＭは入力データを既存のクラスタの１つに割り当てるか、またはいくらかの正の確率で新しいクラスタをつくる。したがって、そのような割り当ては、場合により無限の数のクラスタをもたらしうる。

一旦、一連の各入力データストリームの表現が潜在変数のマルコフ連鎖を通してされると、続いて、潜在状態は、潜在状態を観測モデルのパラメータに変換するための予め定義された関数を用いて変換される。なお、予め定義された変換関数は、異なる観測分布に対しては異なる範囲、例えばカテゴリカル観測モデルに対してはシンプレックスにわたる範囲、をとる。時間枠ごとに、観測された時系列値は、変換部２０６０によって与えられたパラメータを有する観測モデルからのランダム出力とみなされる。

ベイズモデルとして、各データ入力のクラスタ割り当て分布は、ディリクレ過程のStick-breaking構成法を介して構築される。ＤＰＭＭのStick-breaking構成法は、ノンパラメトリックベイズ法（Bayesian non-parametrics）の文献において周知である。クラスタごと、および時間枠ごとに、クラスタリング部２０４０は、予め定義された分布パラメータによる分布または事前分布を有するグローバル潜在変数を更にモデル化する。クラスタのグローバル潜在変数は、そのクラスタに割り当てられたすべての入力データストリームで共有される。グローバル潜在変数の１つは、クラスタダイナミクスである。

クラスタリング部２０４０は、各クラスタのグローバル潜在変数を個々のパラメータ、例えばクラスタのダイナミクスに対する個別応答、に結合する。このパラメータは、本実施形態では個別応答パラメータと呼ばれる。個々のデータストリームのダイナミクス、または個々のダイナミクスは、そのパラメータがクラスタダイナミクスの縮尺を変更されたバージョンである分布から得られる。個々のダイナミクスは、続いて、経時的な個々の展開に対応する潜在状態を得るために潜在プロセスに結合される。

変換部２０６０は、潜在プロセスの状態と観測分布のパラメータ範囲との間の変換を行う。これは、ユーザによって初期化された、予め定義された関数を通して実現することができる。この関数のドメインは潜在プロセスによって決定され、関数の範囲は観測分布のパラメータ範囲に依存する。この機能部は、潜在状態を観測モデルのパラメータの有効なセットに変換すると考えることができる。

モデリング部２０８０は、すべてのモデル潜在変数の、クラスタリング部（２０４０）内部で最適化された、すべての最適化されたパラメータを含むモデルデータを生成する。モデルデータの情報は、データストリームに対する学習の間に最適化されたすべての事後分布パラメータを含む。

＜作用効果＞
本発明の主要な貢献は、異なるデータ型に適応することができる、時系列モデリングの普遍的なフレームワークを提供することにある。したがって、データ型に従って変わる観測特有モデルの構築に伴う労力を低減させる。時系列モデリングの潜在モデルはすべてのデータ型にわたり同じに保つことができ、したがって、推論アルゴリズムはモデルの潜在構造に対して同じままであり、異なるデータ型にしたがって観測モデルの更新構造を修正する必要があるのみである。加えて、本発明は、一般の観測モデルと時系列モデルのノンパラメトリックベイズ法との間の橋渡しを提供する。このことは、ノンパラメトリックベイズ法がクラスタの数を固定することを必要とせず、したがって、モデル検証に関わる時間を減らすので、学習の複雑さを更に単純化する。

以下、実施形態１の情報処理装置２０００の、より詳細が記載される。

＜処理の流れ＞
図２は、時系列クラスタリングのための実施形態１の情報処理装置２０００によって実行される処理手順を示すフローチャートである。取得部２０２０は、入力データストリームを取得する（Ｓ１０２）。

ステップＳ１０４からＳ１１４までは、予め設定された終了条件が満たされるまで繰り返し実行されるループ処理Ａの１つの周期を表す。予め設定された終了条件は、ループ処理Ａが実行されなければならない回数でも、データ対数尤度の飽和でも、または、好ましくはパフォーマンスに影響を及ぼさない最適化アルゴリズムの収束を判定する等価な手法でもよい。

クラスタリング部２０４０は、入力データストリームを決められたクラスタに割り当て（Ｓ１０６）、割り当て規則は各入力データストリームのクラスタアイデンティティ分布により決定される。クラスタアイデンティティ分布は、同時事後分布および提案事後分布のダイバージェンスの最適化の結果である。各データストリームのクラスタアイデンティティ分布の最適パラメータは、Ｓ１０６で取得される。一旦これらの最適パラメータが取り込まれると、クラスタリング部２０４０は、続いて、グローバル潜在変数を用いて、最適化されたクラスタダイナミクス（Ｓ１０８）およびクラスタダイナミクスに対する個別応答（Ｓ１１０）を通して、個々のデータストリームのダイナミクスを表す。個々のダイナミクスは、続いて、観測モデルのパラメータとしての役割をはたす潜在プロセスの状態を表すために用いられる（Ｓ１１２）。

変換部２０６０は、観測モデルのパラメータを生成するために、潜在プロセスの状態を用いる（Ｓ１１２）。パラメータは、最初にユーザによって初期化された予め定義された変換関数を用いて、状態をパラメータ空間に変換することによって取得される。上述のように、変換関数はパラメータ領域に範囲を有し、観測された時系列値は、この変換された潜在状態をパラメータとする観測分布からのランダムサンプルとして実現される。訓練段階の間、潜在状態に依存する観測の対数尤度を近似することによって、最適潜在状態分布が取得され（Ｓ１１２）、したがって、それは変換関数および観測密度の複合を一緒に近似することを含む。近似方法は提案事後分布に依存し、一般に近似は、近似モデルの他の提案事後分布に関する共役形として表すことができるようなものである。

一旦、ループ処理Ａが予め設定された終了条件によって終了すると、モデリング部２０８０は、グループごとにモデルデータを生成する（Ｓ１１６）。

＜入力データ＞
入力データは、データストリームの集合、等価的にはタイムスタンプを有する一連の観測である。入力データは、離散または実数のデータ値でありうる。現在の実施形態の離散値のケースは、カウントデータまたはカテゴリカルデータを含んでもよく、一方、実数のケースは、正の実数値をとるように制限される財務時系列、物価指数、または、任意の実数値をとることができる実世界平面の追跡された物体の軌跡データを含んでもよい。カテゴリカルデータに対しては、データはone-hotベクトル、すなわち０と１のベクトル、によって表され、１が選択されたカテゴリに対応する。他のデータ型については、入力データは、観測と同じフォーマットを有してもよい。なお、そのようなデータセットを取得することで、各データ型に対して提案された膨大な数の従来手法を用いることができる。

＜クラスタリング＞
入力データストリームごとに、クラスタリング部２０４０は決定されたクラスタにデータを割り当てる。クラスタ割り当て規則は、ディリクレ混合過程モデル（ＤＰＭＭ）のStick-breaking構成法によって決定されてもよい。クラスタ指標変数は、正の整数値をとることができるｃｉで表される。なお、ＤＰＭＭのStick-breaking構成法はノンパラメトリックベイズ法で広く普及しているため、我々はそれについて論じることを省略する。

＜クラスタダイナミクス＞
クラスタごとに、関連するグローバルパラメータは、クラスタダイナミクス、または等価的には値のグローバルな変化を表すシーケンス、を含む。時刻ｔにおけるクラスタｋのクラスタダイナミクスは、η［ｋ，ｔ］と表される。クラスタダイナミクスの事前分布は、パラメータの予め設定されたリストを通して、予め定義することができる。クラスタダイナミクスの事前分布の可能な１つの見方は、多変量正規分布であり、他の見方は、次元のそれぞれの要素が指数分布で分布する多変量指数分布でありうる。

クラスタのクラスタダイナミクスは、そのクラスタに割り当てられたすべてのデータストリームで共有され、したがって、それは割り当てられたデータストリーム間の類似性を生じさせる。

＜個別応答＞
個々のデータストリームに対して、個別応答パラメータと呼ばれるローカル潜在変数が指定される。個々のデータストリームｉに対して、個別応答パラメータは、スカラー変数λ［ｉ］と表される。クラスタｋに割り当てられたデータストリームの時刻ｔにおける個別応答は、平均パラメータλ［ｉ］＊η［ｋ，ｔ］を有する予め定義された分布を有する、確率変数δ［ｉ，ｔ］を通して実現され、形としては以下のとおりである。

なお、応答変数は個別応答項のスケーリング量として作用し、したがって、λ［ｉ］が正値だけをとることが必要である。実際にこの条件を満たす広範囲にわたる分布の選択が利用できる。例えば、λ［ｉ］は、適切な予め設定されたパラメータを有するガウス分布に従い、または、予め定義された平均値変数を有する指数分布として分布することができる。

＜潜在プロセス＞
入力データストリームは、パラメータが潜在プロセスに従う分布から得られる。時刻ｔにおけるデータストリームｉの潜在状態は、ｚ［ｉ，ｔ］と表される。潜在状態は、有限次数ｑを有する自己回帰モデルとして定式化される、すなわち、時刻ｔにおける潜在状態は、線形関係を通してそれ以前のｑの状態に依存する。ｑ＝１に対しては、以下のように書くことができるＡＲ（１）モデルの意味になる。

ここで、ａ［ｉ］は自己回帰パラメータを表し、δ［ｉ，ｔ］は個別ダイナミクスを表す。

時間ｔ＝０の潜在状態の最初の分布が多変量正規分布で、個別応答が多変量正規分布から得られると仮定すると、潜在状態のシーケンスは多変量正規分布として同時分布することになる。

＜変換関数＞
変換関数は、観測モデルのパラメータを提供する。観測モデルは、更に以下のように分解することができる。

ここで、ｘ［ｉ，ｔ］はデータストリームｉによって表される時刻ｔにおける観測を表し、Ｐは観測分布を表す。

データストリームのデータ型を所与として、観測モデルは以下の経験則に従って選択することができる。
１．データセットのデータストリームは、観測分布に従って分布しなければならない。例えば、歩行者の軌跡データの場合、同じ時間枠の個々人の位置は、多変量正規分布（または多変量正規分布の混合）を有すると考えることができる。したがって、そのようなデータに対して、観測モデルは、多変量正規分布に選択することができる。

観測分布Ｐは、変換関数ｆ（）によって以下のように与えられるパラメータθ［ｉ，ｔ］を有する。

なお、θ［ｉ，ｔ］が観測分布の有効なパラメータであるためには、変換関数ｆ（）の範囲は、観測分布のパラメータ空間の中にあることが必要である。例えば、指数観測分布に対して、パラメータθは分布の平均パラメータであると考えることができ、常に０以上の値をとる。

論じたデータ型の４つのカテゴリ事例に対して、観測分布、および潜在変数を通してモデル化される分布パラメータの一対の表の事例を提供する。なお、データストリームのデータ型は、データストリームとともに取得される。

データ型および観測分布を仮定すると、変換関数は、一定の条件を満たす必要があり、それらは以下のとおりである。
１．変換関数のドメインは、多次元実数空間になければならない。
２．変換関数の範囲は、与えられたパラメータおよび観測分布の対に対するパラメータ空間になければならない。
３．変換関数は、多次元実数空間上の滑らかで、凹で単調な関数でなければならない。
４．変換関数の１次および２次の導関数が存在しなければならず、加えて、１次導関数は連続でなければならない。

一旦、すべてのこれらの条件が満たされて、予め設定された変換関数が利用可能であれば、非共役変分推論アルゴリズムなどの事後分布最大化アルゴリズムが適用可能である。各反復で、非共役変分推論アルゴリズムは、潜在状態が与えられると多変量正規分布密度を有する観測分布密度をローカルに近似する。理論的には、この近似は、変換関数についての上述した条件が満たされる場合だけ有効である。非共役変分推論アルゴリズムおよび他の関連する事後分布近似技術については、これらの手法は確立されているので、論じるのを省略する。

事後分布最大化のための変分推論アルゴリズムは、観測分布密度を近似することにより観測分布から情報を収集する。観測密度の近似は、潜在状態についての局所傾斜度および湾曲、すなわち観測密度のローカルな傾き、を捕える。ローカル情報のこのセットは、続いて潜在プロセスにマージされ、それにより、局所近似による変換関数を用いて、モデル化段階と一般の観測分布を結び付ける。

最も単純な形として、観測分布としての多変量正規分布、変換部としての恒等関数に対して、ローカルな湾曲は共分散行列をもたらし、ここで局所傾斜度として変化の傾きを捕える。これは、通常の事後分布更新における多変量正規分布の結果の場合に、正確に観測モデルを近似する。このようにして、本発明はある程度従来方法を一般化する。

以下、上述の条件を満たす、適切な変換関数のリスト事例を示す表２を提供する。

カテゴリカルデータの変換関数は、すべてのカテゴリ確率の合計が１になることを確実にするために、正の正規化定数ｃ０を有する。

＜観測モデル＞
本発明において、以前に記載しているように、観測分布および変換関数のペアから構成される一般観測モデルを提案する。観測モデルは、観測データ型によって、そして対応する変換関数によっても異なる。この一般観測モデル用の推論アルゴリズムは、変分推論アルゴリズムとなるように選択される。しかしながら、観測分布がモデル潜在変数の周辺分布とは分布の異なる系統にあるので、この差はモデルの非共役性となり、したがって、以下に論じるように非共役変分推論方法を必要とする。

＜推論アルゴリズム＞
このセクションにおいて、現在のモデリングタスクにおいてモデル推論を実行するアルゴリズム例を提供する。一般の観測モデルが、残りのモデル潜在変数よりも非共役観測分布を有するので、非共役変分推論と呼ばれる、モデル推論のための最適化ベースの特別なクラスのアルゴリズムを用いることができる。

図３は、それぞれ時系列クラスタリングのための非共役変分推論アルゴリズムである、アルゴリズム例を示す。推論アルゴリズムは、提案事後分布を通して、現在のモデルの近似構造を探求することを目指す。また、変分推論および提案事後分布（近似事後分布）という用語はベイズモデリングにおいて周知であり、したがって、両者の理論的な導入を省略する。なお、図３の詳細は後に説明される。

＜提案事後分布＞
現在のモデルの事後分布の正確な計算は困難であるので、評価するのが比較的容易である近似事後分布を固守する。この近似事後分布は、しばしば提案事後分布と呼ばれる。

我々は、以下の提案事後分布を有する構造化平均場近似を提案する。

上記の式の左辺の項は、変分推論アルゴリズムにおいてモデル事後分布を近似するための提案事後分布を表す。右辺の各事後分布項は、いくつかの事後分布パラメータを有する、潜在変数上の分布を表す。

提案事後分布の右辺の各項は、以下の表３にて説明されるように理解することができる。

なお、提案事後分布の各要素は、変分推論アルゴリズムを介して最適化されるべき、それ自身のパラメータを有する。

＜損失関数＞
現在のモデルの損失関数は、実際のモデルの同時事後分布と提案事後分布の間のダイバージェンスとみなされる。変分推論アルゴリズムにおいて、このダイバージェンスは、カルバック・ライブラーダイバージェンスまたはＫＬダイバージェンスとすることができる。一般に、ＫＬダイバージェンスは、総データ対数尤度上の下限として単純化される。したがって、最適化問題としては、下限を最大にすることが必要である。したがって、結果として生じる損失関数は、変分下限または短縮形としてＥＬＢＯと呼ばれる。

提案事後分布の最適要素は、各要素に関してのＥＬＢＯの勾配をゼロにセットすることによって取得される。これが、最適化プロセスを通じて反復的に更新されるパラメータ更新式を与える。

図３は、最適化処理の流れを示すフローチャートである。クラスタリング部２０４０は、提案事後分布のパラメータ初期化ステップを実行する（Ｓ２０２）。

一旦パラメータ初期化ステップが終わると、クラスタリング部２０４０は、すべての利用可能なデータストリームについて、予め設定された終了条件が満たされるまで、ループ処理Ａを実行する（Ｓ２０４）。ループ処理Ａは更に、すべてのデータストリームにわたり一つずつ繰り返すループ処理Ｂを含む（Ｓ２０６）。データストリームｉごとに、ループ処理Ｂにおいてクラスタリング部２０４０は、勾配降下最適化を通して、提案事後分布のクラスタ指標変数の事後分布パラメータを更新する（Ｓ２０８）。一旦クラスタ指標変数の更新がされると、クラスタリング部２０４０は、提案事後分布の個別応答パラメータの更新に進む（Ｓ２１０）。クラスタ指標および個別応答パラメータの両方の更新は、提案事後分布の対応する分布に関して、事後分布最適化の変分下限の勾配を測ることを通して得ることができる。

クラスタ指標パラメータおよび個別応答パラメータの更新の後、クラスタリング部２０４０は、個々のデータごとにすべての時間枠にわたり繰り返すループ処理Ｃに進む（Ｓ２１２）。クラスタリング部２０４０は、続いて提案事後分布のクラスタダイナミクスパラメータ（Ｓ２１４）および潜在プロセスパラメータを更新する（Ｓ２１６）。なお、クラスタリング部２０４０は、潜在プロセスパラメータを更新すると共に、対数密度項のテイラー展開を用いて観測モデルの対数密度を近似する。

一旦すべてのモデル潜在変数の更新が終わると、クラスタリング部２０４０は事後分布ハイパーパラメータの更新に進む（Ｓ２２２）。ベイズモデルのハイパーパラメータは、潜在変数のパラメータ上の分布を決定する。

ループ処理Ａが予め設定された終了条件に従って終了すると、モデルデータが保存される。モデルデータは、ループ処理Ａの最後の反復の中で更新されたパラメータから成る、すべての学習された事後分布パラメータを含む。

＜クラスタリング＞
一旦提案事後分布の最適化されたモデルパラメータが取得されると、モデリング部２０８０は、各入力データストリームのクラスタインデックスを、そのクラスタ割り当てパラメータを通して決定する。入力データストリームのクラスタインデックスを決定するにはいくつかの方法がある。例えば、モデリング部２０８０は、最適化されたパラメータによってパラメータが与えられる分布から、クラスタインデックスをサンプリングする。

＜ハードウェア構成例＞
情報処理装置２０００に含まれる各機能部は、少なくとも１つのハードウェア構成要素で実装されてもよく、各ハードウェア構成要素は一つ以上の機能部を実現してもよい。一部の実施形態では、各機能部は、少なくとも１つのソフトウェア構成要素によって実装されてもよい。一部の実施形態では、各機能部は、ハードウェア構成要素およびソフトウェア構成要素の組合せによって実装されてもよい。

情報処理装置２０００は、情報処理装置２０００を実装するために製造された特別な目的の計算機によって実装されてもよく、また、パーソナルコンピュータ（ＰＣ）、サーバマシンまたはモバイル機器のような日用計算機によって実装されてもよい。

図４は、実施形態１の情報処理装置２０００を実現する計算機１０００のハードウェア構成の例を示すブロック図である。図４において、計算機１０００は、バス１０２０、プロセッサ１０４０、メモリ１０６０、記憶装置１０８０、入出力（Ｉ／Ｏ）インタフェース１１００、およびネットワークインタフェース１１２０を含む。

バス１０２０は、プロセッサ１０４０、メモリ１０６０および記憶装置１０８０が相互にデータを送信および受信するためのデータ伝送チャネルである。
プロセッサ１０４０は、ＣＰＵ（中央演算処理装置）、ＧＰＵ（画像処理装置）、またはＦＰＧＡ（フィールドプログラマブルゲートアレイ）などのプロセッサである。メモリ１０６０は、ＲＡＭ（ランダムアクセスメモリ）などの主記憶装置である。記憶媒体１０８０は、ハードディスク装置、ＳＳＤ（ソリッドステートドライブ）、またはＲＯＭ（リードオンリーメモリー）などの二次記憶装置である。

Ｉ／Ｏインタフェース１１００は、計算機１０００と周辺装置、例えばキーボード、マウスまたは表示装置、との間のインタフェースである。ネットワークインタフェース１１２０は、計算機１０００と、計算機１０００が他の計算機と通信する通信回線と、の間のインタフェースである。

記憶装置１０８０は、それぞれが情報処理装置２０００の機能部（図１を参照）の実装であるプログラムモジュールを格納してもよい。ＣＰＵ１０４０は各プログラムモジュールを実行し、それにより情報処理装置２０００の各機能部を実現する。

上述の通り、本発明の実施形態が添付の図面を参照して記載されたが、これらの実施形態は単に本発明の実例となるだけであり、上記の実施形態の組合せ、および上述の実施形態中の構成以外の種々の構成も採用することができる。

Claims

プロセッサ、および命令を保存するメモリを備える情報処理装置であって、前記プロセッサが、
それぞれが、そのタイムスタンプとともに観測されたデータの時間シーケンスを表わす、複数データストリームを取得し、
予め設定された終了条件が満たされるまで再帰的に、
同時事後分布および提案事後分布のダイバージェンスの最適化の結果を示しており、前記提案事後分布のパラメータを含むクラスタアイデンティティ分布のパラメータを、勾配降下最適化を通して更新する、
クラスタごとに、前記クラスタのダイナミクスに対する提案事後分布を最適化することにより前記クラスタの前記ダイナミクスを更新する、
データストリームごとに、前記データストリームの個別応答に対する提案事後分布を最適化することにより前記データストリームの前記個別応答を更新し、前記データストリームの前記個別応答は、前記データストリームが割り当てられた前記クラスタの前記ダイナミクスに対する前記データストリームの感度を表わす、
データストリームごとに、前記データストリームの前記更新された個別応答に基づいて、前記データストリームの潜在状態を更新する、
データストリームごと、タイムスタンプごとに、前記データストリームのデータ型に対応する、データ型ごとに異なる変換関数を用いて、前記タイムスタンプにおける前記データストリームの前記潜在状態を観測モデルのパラメータに変換することによって、前記タイムスタンプにおける前記データストリームの前記観測モデルを更新する、および、
クラスタごとに、クラスタアイデンティティ分布の前記パラメータ、前記クラスタの前記ダイナミクス、前記クラスタに割り当てられた各データストリームの前記ダイナミクス、および、前記クラスタに割り当てられた各データストリームに対応する前記潜在状態、に基づいてモデルデータを生成する、ことを実行する、前記命令を実行するように構成される情報処理装置。
前記プロセッサが、前記提案事後分布を最大にすることによって、前記クラスタアイデンティティ分布の前記パラメータの前記更新を実行するように更に構成される、請求項１に記載の情報処理装置。
前記変換関数が以下の制約、
前記変換関数のドメインは、多次元実数空間になければならない、
前記変換関数の範囲は、与えられたパラメータおよび観測分布の対に対するパラメータ空間になければならない、
前記変換関数は、多次元実数空間上の滑らかで、凹で単調な関数である、および、
前記変換関数の１次および２次の導関数が存在し、前記１次導関数が連続である、の全てを満たす、請求項１又は２に記載の情報処理装置。
計算機によって実行される制御方法であって、
それぞれが、そのタイムスタンプとともに観測されたデータの時間シーケンスを表わす、複数データストリームを取得することと、
予め設定された終了条件が満たされるまで再帰的に、
同時事後分布および提案事後分布のダイバージェンスの最適化の結果を示しており、前記提案事後分布のパラメータを含むクラスタアイデンティティ分布のパラメータを、勾配降下最適化を通して更新すること、
クラスタごとに、前記クラスタのダイナミクスに対する提案事後分布を最適化することにより前記クラスタの前記ダイナミクスを更新すること、
データストリームごとに、前記データストリームの個別応答に対する提案事後分布を最適化することにより前記データストリームの前記個別応答を更新し、前記データストリームの前記個別応答は、前記データストリームが割り当てられた前記クラスタの前記ダイナミクスに対する前記データストリームの感度を表わすこと、
データストリームごとに、前記データストリームの前記更新された個別応答に基づいて、前記データストリームの潜在状態を更新すること、
データストリームごと、タイムスタンプごとに、前記データストリームのデータ型に対応する、データ型ごとに異なる変換関数を用いて、前記タイムスタンプにおける前記データストリームの前記潜在状態を観測モデルのパラメータに変換することによって、前記タイムスタンプにおける前記データストリームの前記観測モデルを更新すること、および、
クラスタごとに、クラスタアイデンティティ分布の前記パラメータ、前記クラスタの前記ダイナミクス、前記クラスタに割り当てられた各データストリームの前記ダイナミクス、および、前記クラスタに割り当てられた各データストリームに対応する前記潜在状態、に基づいてモデルデータを生成すること、を実行することと、を含む制御方法。
前記提案事後分布を最大にすることによって、前記クラスタアイデンティティ分布の前記パラメータの前記更新が実行される、請求項４に記載の制御方法。
前記変換関数が以下の制約、
前記変換関数のドメインは、多次元実数空間になければならない、
前記変換関数の範囲は、与えられたパラメータおよび観測分布の対に対するパラメータ空間になければならない、
前記変換関数は、多次元実数空間上の滑らかで、凹で単調な関数である、および、
前記変換関数の１次および２次の導関数が存在し、前記１次導関数が連続である、の全てを満たす、請求項４または５に記載の制御方法。
計算機読み取り可能な非一時的記憶媒体であって、
それぞれが、そのタイムスタンプとともに観測されたデータの時間シーケンスを表わす、複数データストリームを取得し、
予め設定された終了条件が満たされるまで再帰的に、
同時事後分布および提案事後分布のダイバージェンスの最適化の結果を示しており、前記提案事後分布のパラメータを含むクラスタアイデンティティ分布のパラメータを、勾配降下最適化を通して更新する、
クラスタごとに、前記クラスタのダイナミクスに対する提案事後分布を最適化することにより前記クラスタの前記ダイナミクスを更新する、
データストリームごとに、前記データストリームの個別応答に対する提案事後分布を最適化することにより前記データストリームの前記個別応答を更新し、前記データストリームの前記個別応答は、前記データストリームが割り当てられた前記クラスタの前記ダイナミクスに対する前記データストリームの感度を表わす、
データストリームごとに、前記データストリームの前記更新された個別応答に基づいて、前記データストリームの潜在状態を更新する、
データストリームごと、タイムスタンプごとに、前記データストリームのデータ型に対応する、データ型ごとに異なる変換関数を用いて、前記タイムスタンプにおける前記データストリームの前記潜在状態を観測モデルのパラメータに変換することによって、前記タイムスタンプにおける前記データストリームの前記観測モデルを更新する、および、
クラスタごとに、クラスタアイデンティティ分布の前記パラメータ、前記クラスタの前記ダイナミクス、前記クラスタに割り当てられた各データストリームの前記ダイナミクス、および、前記クラスタに割り当てられた各データストリームに対応する前記潜在状態、に基づいてモデルデータを生成する、ことを実行する、プログラムを保存する非一時的記憶媒体。
前記計算機が、前記提案事後分布を最大にすることによって、前記クラスタアイデンティティ分布の前記パラメータの前記更新を更に実行する、請求項７に記載の記憶媒体。
前記変換関数が以下の制約、
前記変換関数のドメインは、多次元実数空間になければならない、
前記変換関数の範囲は、与えられたパラメータおよび観測分布の対に対するパラメータ空間になければならない、
前記変換関数は、多次元実数空間上の滑らかで、凹で単調な関数である、および、
前記変換関数の１次および２次の導関数が存在し、前記１次導関数が連続である、の全てを満たす、請求項７または８に記載の記憶媒体。