JP7056765B2 - 情報処理装置、制御方法および非一時的記憶媒体 - Google Patents

情報処理装置、制御方法および非一時的記憶媒体 Download PDF

Info

Publication number
JP7056765B2
JP7056765B2 JP2020564957A JP2020564957A JP7056765B2 JP 7056765 B2 JP7056765 B2 JP 7056765B2 JP 2020564957 A JP2020564957 A JP 2020564957A JP 2020564957 A JP2020564957 A JP 2020564957A JP 7056765 B2 JP7056765 B2 JP 7056765B2
Authority
JP
Japan
Prior art keywords
data stream
cluster
data
distribution
parameters
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2020564957A
Other languages
English (en)
Other versions
JP2021524112A (ja
Inventor
デベンドラ ダーカ
雅人 石井
敦 佐藤
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NEC Corp
Original Assignee
NEC Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NEC Corp filed Critical NEC Corp
Publication of JP2021524112A publication Critical patent/JP2021524112A/ja
Application granted granted Critical
Publication of JP7056765B2 publication Critical patent/JP7056765B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/25Integrating or interfacing systems involving database management systems
    • G06F16/254Extract, transform and load [ETL] procedures, e.g. ETL data flows in data warehouses
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/21Design, administration or maintenance of databases
    • G06F16/211Schema design and management
    • G06F16/212Schema design and management with details for data modelling support
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2455Query execution
    • G06F16/24568Data stream processing; Continuous queries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/28Databases characterised by their database models, e.g. relational or object models
    • G06F16/284Relational databases
    • G06F16/285Clustering or classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N7/00Computing arrangements based on specific mathematical models
    • G06N7/01Probabilistic graphical models, e.g. probabilistic networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Software Systems (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Mathematical Physics (AREA)
  • Computing Systems (AREA)
  • Computational Linguistics (AREA)
  • Computational Mathematics (AREA)
  • Pure & Applied Mathematics (AREA)
  • Mathematical Optimization (AREA)
  • Mathematical Analysis (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Medical Informatics (AREA)
  • Algebra (AREA)
  • Probability & Statistics with Applications (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Description

本発明の実施形態は、広く時系列分析およびデータマイニングの分野に関する。
インターネット時代の現在のデータ変革の段階において、蓄積されたデータの莫大な増加は、慎重な分析のための包括的かつ効率的なアルゴリズムを求めている。そのような分野の1つは時系列またはシーケンシャルデータの分析であり、それは、追跡された物体の軌跡、財務データの流れ、日々のユーザアクティビティデータまたはカテゴリカルデータ、および、車両の交通量カウントまたは患者の到着などのようなカウントデータを含む。非常に多くの場合、そのようなデータの分析はクラスタリングまたは異常検出を含み、それは巨大なデータ集合の意味のある理解を意図している。理論的には、クラスタリングも異常検出タスクも、データセットの生成モデリングまたは密度モデリングを必要とする。しかしながら、これまで文献では、クラスタリングアルゴリズムはただ一つの型のデータセットに限定され、したがって、これらのモデルは非常に限定され、異なるデータ型にわたって一般化するのが困難である。
時系列モデリングおよび認識タスクは、訓練段階(モデリング段階とも呼ばれる)および試験段階の2つの段階で実行することができる。訓練段階は、ほとんどの場合に教師無しであり、入力データストリームの生成モデリングを狙う。なお、データストリームとは、時系列データのようなデータのシーケンスを意味する。訓練段階の間の生成モデルは、グローバル潜在変数およびローカル潜在変数から成り、これらはベイズモデルの確率変数と考えることができる。グローバル変数は、時間に対するデータの全体的なダイナミクスを表し、複数のデータストリームにわたり共有され類似性を強制する。一方、ローカル変数は、各データストリームのローカルダイナミクスおよび潜在的な構造を表すために用いられる。ローカル変数は、グローバル変数および観測されたデータを用いて導き出され、そこで、グローバル変数は事前のまたは当初の信念、およびローカル変数から得られる。一旦訓練段階が完了すると、ローカル変数およびグローバル変数の両方に関する事後分布(posterior)情報がモデルデータとして保存され、この情報は、各入力データストリームの尤度を評価するために用いられる。
モデルデータの情報は、教師データセットに対する学習の間に最適化されるすべての事後分布パラメータを含み、これらのパラメータは、推論の間に定義される事後分布を通してデータセットを表すのに十分である。直観的に、これらのパラメータは、教師データを所与としてパラメータの事後分布を最大にする最善または最適なパラメータのセットである考えることができ、したがって、異なるデータセットに対しては、これらの最適パラメータは異なるものとなる。しかしながら、同じ教師および試験データセットに対して、これらのパラメータは試験データをよく表すこともできる。
試験段階の間、グローバル変数は、試験データごとに事後分布予測または試験尤度を決定するために用いられる。
入力データストリームのクラスタリングは、そのデータがそのクラスタに属するデータ尤度を計算することを更に要求する、クラスタ割り当て規則を含む。異常検出タスクに対しては、データ尤度を計算することが必要であり、尤度は、正常データに対しては、小さな尤度値を持つ異常データより大きな値を取る。単純な教師無し/半教師ありの分類アルゴリズムを、試験データを正常および異常データに分類するために尤度計算の上に構築することができる。
時系列分析に関するいくつかの特許文献がある。特許文献1には、ディリクレ混合過程(Dirichlet process mixture)モデルを用いた時系列データのクラスタリングアルゴリズムが開示されており、そこで、クラスタリングに寄与する真の特徴およびクラスタリングに寄与しないノイズ特徴が区別される。特許文献2には、因子化漸近ベイズ推論に基づいて潜在特徴モデルのモデル選択問題を解決する技術が開示されている。
特開2013-97615号公報 特表2016-520220号公報
従来の方法では、クラスタリング/異常検出手法は、データ型に特有の方法で提供される。本発明の目的は、異なるデータ型に適応することができる、時系列モデリングの普遍的なフレームワークを提供することである。
プロセッサおよび命令を保存するメモリを備える情報処理装置が提供される。プロセッサは、以下の命令を実行するように構成される。1)それぞれが、そのタイムスタンプとともに観測されたデータの時間シーケンスを表わす、複数データストリームを取得する、2)予め設定された終了条件が満たされるまで以下を再帰的に実行する、2-1)同時事後分布および提案事後分布のダイバージェンスの最適化の結果を示しており、前記提案事後分布のパラメータを含むクラスタアイデンティティ分布のパラメータを、勾配降下最適化を通して更新する、2-2)クラスタごとに、クラスタのダイナミクスに対する提案事後分布を最適化することによりクラスタのダイナミクスを更新する、2-3)データストリームごとに、データストリームの個別応答に対する提案事後分布を最適化することによりデータストリームの個別応答を更新し、データストリームの個別応答は、データストリームが割り当てられたクラスタのダイナミクスに対するデータストリームの感度を表わす、2-4)データストリームごとに、データストリームの更新された個別応答に基づいて、データストリームの潜在状態を更新する、2-5)データストリームごと、タイムスタンプごとに、データストリームのデータ型に対応する、データ型ごとに異なる変換関数を用いて、タイムスタンプにおけるデータストリームの潜在状態を観測モデルのパラメータに変換することによって、タイムスタンプにおけるデータストリームの観測モデルを更新する、3)クラスタごとに、クラスタアイデンティティ分布の前記パラメータ、クラスタのダイナミクス、クラスタに割り当てられた各データストリームのダイナミクス、および、クラスタに割り当てられた各データストリームに対応する潜在状態、に基づいてモデルデータを生成する。
計算機によって実行される制御方法が提供される。制御方法は、以下を含む。1)それぞれが、そのタイムスタンプとともに観測されたデータの時間シーケンスを表わす、複数データストリームを取得すること、2)予め設定された終了条件が満たされるまで以下を再帰的に実行すること、2-1)同時事後分布および提案事後分布のダイバージェンスの最適化の結果を示しており、前記提案事後分布のパラメータを含むクラスタアイデンティティ分布のパラメータを、勾配降下最適化を通して更新すること、2-2)クラスタごとに、クラスタのダイナミクスに対する提案事後分布を最適化することによりクラスタのダイナミクスを更新すること、2-3)データストリームごとに、データストリームの個別応答に対する提案事後分布を最適化することによりデータストリームの個別応答を更新し、データストリームの個別応答は、データストリームが割り当てられたクラスタのダイナミクスに対するデータストリームの感度を表わすこと、2-4)データストリームごとに、データストリームの更新された個別応答に基づいて、データストリームの潜在状態を更新すること、2-5)データストリームごと、タイムスタンプごとに、データストリームのデータ型に対応する、データ型ごとに異なる変換関数を用いて、タイムスタンプにおけるデータストリームの潜在状態を観測モデルのパラメータに変換することによって、タイムスタンプにおけるデータストリームの観測モデルを更新すること、3)クラスタごとに、クラスタアイデンティティ分布の前記パラメータ、クラスタのダイナミクス、クラスタに割り当てられた各データストリームのダイナミクス、および、クラスタに割り当てられた各データストリームに対応する潜在状態、に基づいてモデルデータを生成すること。
本発明に従い、異なるデータ型に適応することができる、時系列モデリングの普遍的なフレームワークが提供される。
上述した目的、手順および動作モデリングの技術は、以下に記載されている選択された実施形態、および補助図面を通して分かりやすくなる。
図1は、実施形態1の情報処理装置の機能ベースの構成を例示する図を示す。 図2は、実施形態1の情報処理装置によって実行される処理の流れを示すフローチャートである。 図3は、実施形態1の情報処理装置によって実行される処理の流れを示すフローチャートである。 図4は、実施形態1の情報処理装置2000を実現する計算機1000のハードウェア構成の例を示すブロック図である。
以下、本発明の実施形態が、添付の図面を参照して記載される。すべての図面において、類似の要素は類似の参照番号によって参照され、それについての説明は繰り返されない。
実施形態1
<概要>
実施形態1の情報処理装置(図1において記載される情報処理装置2000)は、教師データから複数の入力データストリームを取り込み、共有されるクラスタダイナミクスとの各データの尤度に基づきクラスタ割り当てを実行する。情報処理装置2000は、定義された変換関数の使用を通して、潜在状態を、観測されたデータを表す観測モデルのパラメータに更に変換する。その結果、すべての学習モデルパラメータが学習される。他の意味では、実施形態1の情報処理装置2000は、時系列モデリングのための訓練段階を実行する。
情報処理装置2000に対する入力データは、異なるデータ型、例えば離散データと実数データとの両方、の時系列データを含む。これは、時系列データ、例えば、カテゴリカル、カウント、軌跡および財務データの時系列など、広大な範囲をカバーする。情報処理装置2000の潜在変数は、時系列の中に類似性を見いだす。学習されたモデルデータは、各クラスタおよび個々のデータストリームの、潜在変数/パラメータの上の、学習された事後分布情報に対応する。クラスタサイズは無制限でありデータ駆動型である、すなわち、クラスタの数はデータセットサイズとともに増大する。さらに、すべてのデータ入力に対して、データの総尤度が最大になるように、クラスタが見いだされる。
図1は、実施形態1の情報処理装置2000の機能ベースの構成を例示する図を示す。実施形態1の情報処理装置2000は、取得部2020、クラスタリング部2040、変換部2060、およびモデリング部2080を含む。取得部2020は、教師データセットから複数の入力データストリームを取得する。
モデル化の観点から、クラスタ割り当ての規則はディリクレ混合過程モデルまたはDPMMに従い、したがって、すべての入力データストリームがいくつかのクラスタにクラスタ化されることがある。データが到着すると、DPMMは入力データを既存のクラスタの1つに割り当てるか、またはいくらかの正の確率で新しいクラスタをつくる。したがって、そのような割り当ては、場合により無限の数のクラスタをもたらしうる。
一旦、一連の各入力データストリームの表現が潜在変数のマルコフ連鎖を通してされると、続いて、潜在状態は、潜在状態を観測モデルのパラメータに変換するための予め定義された関数を用いて変換される。なお、予め定義された変換関数は、異なる観測分布に対しては異なる範囲、例えばカテゴリカル観測モデルに対してはシンプレックスにわたる範囲、をとる。時間枠ごとに、観測された時系列値は、変換部2060によって与えられたパラメータを有する観測モデルからのランダム出力とみなされる。
ベイズモデルとして、各データ入力のクラスタ割り当て分布は、ディリクレ過程のStick-breaking構成法を介して構築される。DPMMのStick-breaking構成法は、ノンパラメトリックベイズ法(Bayesian non-parametrics)の文献において周知である。クラスタごと、および時間枠ごとに、クラスタリング部2040は、予め定義された分布パラメータによる分布または事前分布を有するグローバル潜在変数を更にモデル化する。クラスタのグローバル潜在変数は、そのクラスタに割り当てられたすべての入力データストリームで共有される。グローバル潜在変数の1つは、クラスタダイナミクスである。
クラスタリング部2040は、各クラスタのグローバル潜在変数を個々のパラメータ、例えばクラスタのダイナミクスに対する個別応答、に結合する。このパラメータは、本実施形態では個別応答パラメータと呼ばれる。個々のデータストリームのダイナミクス、または個々のダイナミクスは、そのパラメータがクラスタダイナミクスの縮尺を変更されたバージョンである分布から得られる。個々のダイナミクスは、続いて、経時的な個々の展開に対応する潜在状態を得るために潜在プロセスに結合される。
変換部2060は、潜在プロセスの状態と観測分布のパラメータ範囲との間の変換を行う。これは、ユーザによって初期化された、予め定義された関数を通して実現することができる。この関数のドメインは潜在プロセスによって決定され、関数の範囲は観測分布のパラメータ範囲に依存する。この機能部は、潜在状態を観測モデルのパラメータの有効なセットに変換すると考えることができる。
モデリング部2080は、すべてのモデル潜在変数の、クラスタリング部(2040)内部で最適化された、すべての最適化されたパラメータを含むモデルデータを生成する。モデルデータの情報は、データストリームに対する学習の間に最適化されたすべての事後分布パラメータを含む。
<作用効果>
本発明の主要な貢献は、異なるデータ型に適応することができる、時系列モデリングの普遍的なフレームワークを提供することにある。したがって、データ型に従って変わる観測特有モデルの構築に伴う労力を低減させる。時系列モデリングの潜在モデルはすべてのデータ型にわたり同じに保つことができ、したがって、推論アルゴリズムはモデルの潜在構造に対して同じままであり、異なるデータ型にしたがって観測モデルの更新構造を修正する必要があるのみである。加えて、本発明は、一般の観測モデルと時系列モデルのノンパラメトリックベイズ法との間の橋渡しを提供する。このことは、ノンパラメトリックベイズ法がクラスタの数を固定することを必要とせず、したがって、モデル検証に関わる時間を減らすので、学習の複雑さを更に単純化する。
以下、実施形態1の情報処理装置2000の、より詳細が記載される。
<処理の流れ>
図2は、時系列クラスタリングのための実施形態1の情報処理装置2000によって実行される処理手順を示すフローチャートである。取得部2020は、入力データストリームを取得する(S102)。
ステップS104からS114までは、予め設定された終了条件が満たされるまで繰り返し実行されるループ処理Aの1つの周期を表す。予め設定された終了条件は、ループ処理Aが実行されなければならない回数でも、データ対数尤度の飽和でも、または、好ましくはパフォーマンスに影響を及ぼさない最適化アルゴリズムの収束を判定する等価な手法でもよい。
クラスタリング部2040は、入力データストリームを決められたクラスタに割り当て(S106)、割り当て規則は各入力データストリームのクラスタアイデンティティ分布により決定される。クラスタアイデンティティ分布は、同時事後分布および提案事後分布のダイバージェンスの最適化の結果である。各データストリームのクラスタアイデンティティ分布の最適パラメータは、S106で取得される。一旦これらの最適パラメータが取り込まれると、クラスタリング部2040は、続いて、グローバル潜在変数を用いて、最適化されたクラスタダイナミクス(S108)およびクラスタダイナミクスに対する個別応答(S110)を通して、個々のデータストリームのダイナミクスを表す。個々のダイナミクスは、続いて、観測モデルのパラメータとしての役割をはたす潜在プロセスの状態を表すために用いられる(S112)。
変換部2060は、観測モデルのパラメータを生成するために、潜在プロセスの状態を用いる(S112)。パラメータは、最初にユーザによって初期化された予め定義された変換関数を用いて、状態をパラメータ空間に変換することによって取得される。上述のように、変換関数はパラメータ領域に範囲を有し、観測された時系列値は、この変換された潜在状態をパラメータとする観測分布からのランダムサンプルとして実現される。訓練段階の間、潜在状態に依存する観測の対数尤度を近似することによって、最適潜在状態分布が取得され(S112)、したがって、それは変換関数および観測密度の複合を一緒に近似することを含む。近似方法は提案事後分布に依存し、一般に近似は、近似モデルの他の提案事後分布に関する共役形として表すことができるようなものである。
一旦、ループ処理Aが予め設定された終了条件によって終了すると、モデリング部2080は、グループごとにモデルデータを生成する(S116)。
<入力データ>
入力データは、データストリームの集合、等価的にはタイムスタンプを有する一連の観測である。入力データは、離散または実数のデータ値でありうる。現在の実施形態の離散値のケースは、カウントデータまたはカテゴリカルデータを含んでもよく、一方、実数のケースは、正の実数値をとるように制限される財務時系列、物価指数、または、任意の実数値をとることができる実世界平面の追跡された物体の軌跡データを含んでもよい。カテゴリカルデータに対しては、データはone-hotベクトル、すなわち0と1のベクトル、によって表され、1が選択されたカテゴリに対応する。他のデータ型については、入力データは、観測と同じフォーマットを有してもよい。なお、そのようなデータセットを取得することで、各データ型に対して提案された膨大な数の従来手法を用いることができる。
<クラスタリング>
入力データストリームごとに、クラスタリング部2040は決定されたクラスタにデータを割り当てる。クラスタ割り当て規則は、ディリクレ混合過程モデル(DPMM)のStick-breaking構成法によって決定されてもよい。クラスタ指標変数は、正の整数値をとることができるciで表される。なお、DPMMのStick-breaking構成法はノンパラメトリックベイズ法で広く普及しているため、我々はそれについて論じることを省略する。
<クラスタダイナミクス>
クラスタごとに、関連するグローバルパラメータは、クラスタダイナミクス、または等価的には値のグローバルな変化を表すシーケンス、を含む。時刻tにおけるクラスタkのクラスタダイナミクスは、η[k,t]と表される。クラスタダイナミクスの事前分布は、パラメータの予め設定されたリストを通して、予め定義することができる。クラスタダイナミクスの事前分布の可能な1つの見方は、多変量正規分布であり、他の見方は、次元のそれぞれの要素が指数分布で分布する多変量指数分布でありうる。
クラスタのクラスタダイナミクスは、そのクラスタに割り当てられたすべてのデータストリームで共有され、したがって、それは割り当てられたデータストリーム間の類似性を生じさせる。
<個別応答>
個々のデータストリームに対して、個別応答パラメータと呼ばれるローカル潜在変数が指定される。個々のデータストリームiに対して、個別応答パラメータは、スカラー変数λ[i]と表される。クラスタkに割り当てられたデータストリームの時刻tにおける個別応答は、平均パラメータλ[i]*η[k,t]を有する予め定義された分布を有する、確率変数δ[i,t]を通して実現され、形としては以下のとおりである。
Figure 0007056765000001
なお、応答変数は個別応答項のスケーリング量として作用し、したがって、λ[i]が正値だけをとることが必要である。実際にこの条件を満たす広範囲にわたる分布の選択が利用できる。例えば、λ[i]は、適切な予め設定されたパラメータを有するガウス分布に従い、または、予め定義された平均値変数を有する指数分布として分布することができる。
<潜在プロセス>
入力データストリームは、パラメータが潜在プロセスに従う分布から得られる。時刻tにおけるデータストリームiの潜在状態は、z[i,t]と表される。潜在状態は、有限次数qを有する自己回帰モデルとして定式化される、すなわち、時刻tにおける潜在状態は、線形関係を通してそれ以前のqの状態に依存する。q=1に対しては、以下のように書くことができるAR(1)モデルの意味になる。
Figure 0007056765000002
ここで、a[i]は自己回帰パラメータを表し、δ[i,t]は個別ダイナミクスを表す。
時間t=0の潜在状態の最初の分布が多変量正規分布で、個別応答が多変量正規分布から得られると仮定すると、潜在状態のシーケンスは多変量正規分布として同時分布することになる。
<変換関数>
変換関数は、観測モデルのパラメータを提供する。観測モデルは、更に以下のように分解することができる。
Figure 0007056765000003
ここで、x[i,t]はデータストリームiによって表される時刻tにおける観測を表し、Pは観測分布を表す。
データストリームのデータ型を所与として、観測モデルは以下の経験則に従って選択することができる。
1.データセットのデータストリームは、観測分布に従って分布しなければならない。例えば、歩行者の軌跡データの場合、同じ時間枠の個々人の位置は、多変量正規分布(または多変量正規分布の混合)を有すると考えることができる。したがって、そのようなデータに対して、観測モデルは、多変量正規分布に選択することができる。
観測分布Pは、変換関数f()によって以下のように与えられるパラメータθ[i,t]を有する。
Figure 0007056765000004
なお、θ[i,t]が観測分布の有効なパラメータであるためには、変換関数f()の範囲は、観測分布のパラメータ空間の中にあることが必要である。例えば、指数観測分布に対して、パラメータθは分布の平均パラメータであると考えることができ、常に0以上の値をとる。
論じたデータ型の4つのカテゴリ事例に対して、観測分布、および潜在変数を通してモデル化される分布パラメータの一対の表の事例を提供する。なお、データストリームのデータ型は、データストリームとともに取得される。
Figure 0007056765000005
データ型および観測分布を仮定すると、変換関数は、一定の条件を満たす必要があり、それらは以下のとおりである。
1.変換関数のドメインは、多次元実数空間になければならない。
2.変換関数の範囲は、与えられたパラメータおよび観測分布の対に対するパラメータ空間になければならない。
3.変換関数は、多次元実数空間上の滑らかで、凹で単調な関数でなければならない。
4.変換関数の1次および2次の導関数が存在しなければならず、加えて、1次導関数は連続でなければならない。
一旦、すべてのこれらの条件が満たされて、予め設定された変換関数が利用可能であれば、非共役変分推論アルゴリズムなどの事後分布最大化アルゴリズムが適用可能である。各反復で、非共役変分推論アルゴリズムは、潜在状態が与えられると多変量正規分布密度を有する観測分布密度をローカルに近似する。理論的には、この近似は、変換関数についての上述した条件が満たされる場合だけ有効である。非共役変分推論アルゴリズムおよび他の関連する事後分布近似技術については、これらの手法は確立されているので、論じるのを省略する。
事後分布最大化のための変分推論アルゴリズムは、観測分布密度を近似することにより観測分布から情報を収集する。観測密度の近似は、潜在状態についての局所傾斜度および湾曲、すなわち観測密度のローカルな傾き、を捕える。ローカル情報のこのセットは、続いて潜在プロセスにマージされ、それにより、局所近似による変換関数を用いて、モデル化段階と一般の観測分布を結び付ける。
最も単純な形として、観測分布としての多変量正規分布、変換部としての恒等関数に対して、ローカルな湾曲は共分散行列をもたらし、ここで局所傾斜度として変化の傾きを捕える。これは、通常の事後分布更新における多変量正規分布の結果の場合に、正確に観測モデルを近似する。このようにして、本発明はある程度従来方法を一般化する。
以下、上述の条件を満たす、適切な変換関数のリスト事例を示す表2を提供する。
Figure 0007056765000006
カテゴリカルデータの変換関数は、すべてのカテゴリ確率の合計が1になることを確実にするために、正の正規化定数c0を有する。
<観測モデル>
本発明において、以前に記載しているように、観測分布および変換関数のペアから構成される一般観測モデルを提案する。観測モデルは、観測データ型によって、そして対応する変換関数によっても異なる。この一般観測モデル用の推論アルゴリズムは、変分推論アルゴリズムとなるように選択される。しかしながら、観測分布がモデル潜在変数の周辺分布とは分布の異なる系統にあるので、この差はモデルの非共役性となり、したがって、以下に論じるように非共役変分推論方法を必要とする。
<推論アルゴリズム>
このセクションにおいて、現在のモデリングタスクにおいてモデル推論を実行するアルゴリズム例を提供する。一般の観測モデルが、残りのモデル潜在変数よりも非共役観測分布を有するので、非共役変分推論と呼ばれる、モデル推論のための最適化ベースの特別なクラスのアルゴリズムを用いることができる。
図3は、それぞれ時系列クラスタリングのための非共役変分推論アルゴリズムである、アルゴリズム例を示す。推論アルゴリズムは、提案事後分布を通して、現在のモデルの近似構造を探求することを目指す。また、変分推論および提案事後分布(近似事後分布)という用語はベイズモデリングにおいて周知であり、したがって、両者の理論的な導入を省略する。なお、図3の詳細は後に説明される。
<提案事後分布>
現在のモデルの事後分布の正確な計算は困難であるので、評価するのが比較的容易である近似事後分布を固守する。この近似事後分布は、しばしば提案事後分布と呼ばれる。
我々は、以下の提案事後分布を有する構造化平均場近似を提案する。
Figure 0007056765000007
上記の式の左辺の項は、変分推論アルゴリズムにおいてモデル事後分布を近似するための提案事後分布を表す。右辺の各事後分布項は、いくつかの事後分布パラメータを有する、潜在変数上の分布を表す。
提案事後分布の右辺の各項は、以下の表3にて説明されるように理解することができる。
Figure 0007056765000008
なお、提案事後分布の各要素は、変分推論アルゴリズムを介して最適化されるべき、それ自身のパラメータを有する。
<損失関数>
現在のモデルの損失関数は、実際のモデルの同時事後分布と提案事後分布の間のダイバージェンスとみなされる。変分推論アルゴリズムにおいて、このダイバージェンスは、カルバック・ライブラーダイバージェンスまたはKLダイバージェンスとすることができる。一般に、KLダイバージェンスは、総データ対数尤度上の下限として単純化される。したがって、最適化問題としては、下限を最大にすることが必要である。したがって、結果として生じる損失関数は、変分下限または短縮形としてELBOと呼ばれる。
提案事後分布の最適要素は、各要素に関してのELBOの勾配をゼロにセットすることによって取得される。これが、最適化プロセスを通じて反復的に更新されるパラメータ更新式を与える。
図3は、最適化処理の流れを示すフローチャートである。クラスタリング部2040は、提案事後分布のパラメータ初期化ステップを実行する(S202)。
一旦パラメータ初期化ステップが終わると、クラスタリング部2040は、すべての利用可能なデータストリームについて、予め設定された終了条件が満たされるまで、ループ処理Aを実行する(S204)。ループ処理Aは更に、すべてのデータストリームにわたり一つずつ繰り返すループ処理Bを含む(S206)。データストリームiごとに、ループ処理Bにおいてクラスタリング部2040は、勾配降下最適化を通して、提案事後分布のクラスタ指標変数の事後分布パラメータを更新する(S208)。一旦クラスタ指標変数の更新がされると、クラスタリング部2040は、提案事後分布の個別応答パラメータの更新に進む(S210)。クラスタ指標および個別応答パラメータの両方の更新は、提案事後分布の対応する分布に関して、事後分布最適化の変分下限の勾配を測ることを通して得ることができる。
クラスタ指標パラメータおよび個別応答パラメータの更新の後、クラスタリング部2040は、個々のデータごとにすべての時間枠にわたり繰り返すループ処理Cに進む(S212)。クラスタリング部2040は、続いて提案事後分布のクラスタダイナミクスパラメータ(S214)および潜在プロセスパラメータを更新する(S216)。なお、クラスタリング部2040は、潜在プロセスパラメータを更新すると共に、対数密度項のテイラー展開を用いて観測モデルの対数密度を近似する。
一旦すべてのモデル潜在変数の更新が終わると、クラスタリング部2040は事後分布ハイパーパラメータの更新に進む(S222)。ベイズモデルのハイパーパラメータは、潜在変数のパラメータ上の分布を決定する。
ループ処理Aが予め設定された終了条件に従って終了すると、モデルデータが保存される。モデルデータは、ループ処理Aの最後の反復の中で更新されたパラメータから成る、すべての学習された事後分布パラメータを含む。
<クラスタリング>
一旦提案事後分布の最適化されたモデルパラメータが取得されると、モデリング部2080は、各入力データストリームのクラスタインデックスを、そのクラスタ割り当てパラメータを通して決定する。入力データストリームのクラスタインデックスを決定するにはいくつかの方法がある。例えば、モデリング部2080は、最適化されたパラメータによってパラメータが与えられる分布から、クラスタインデックスをサンプリングする。
<ハードウェア構成例>
情報処理装置2000に含まれる各機能部は、少なくとも1つのハードウェア構成要素で実装されてもよく、各ハードウェア構成要素は一つ以上の機能部を実現してもよい。一部の実施形態では、各機能部は、少なくとも1つのソフトウェア構成要素によって実装されてもよい。一部の実施形態では、各機能部は、ハードウェア構成要素およびソフトウェア構成要素の組合せによって実装されてもよい。
情報処理装置2000は、情報処理装置2000を実装するために製造された特別な目的の計算機によって実装されてもよく、また、パーソナルコンピュータ(PC)、サーバマシンまたはモバイル機器のような日用計算機によって実装されてもよい。
図4は、実施形態1の情報処理装置2000を実現する計算機1000のハードウェア構成の例を示すブロック図である。図において、計算機1000は、バス1020、プロセッサ1040、メモリ1060、記憶装置1080、入出力(I/O)インタフェース1100、およびネットワークインタフェース1120を含む。
バス1020は、プロセッサ1040、メモリ1060および記憶装置1080が相互にデータを送信および受信するためのデータ伝送チャネルである。
プロセッサ1040は、CPU(中央演算処理装置)、GPU(画像処理装置)、またはFPGA(フィールドプログラマブルゲートアレイ)などのプロセッサである。メモリ1060は、RAM(ランダムアクセスメモリ)などの主記憶装置である。記憶媒体1080は、ハードディスク装置、SSD(ソリッドステートドライブ)、またはROM(リードオンリーメモリー)などの二次記憶装置である。
I/Oインタフェース1100は、計算機1000と周辺装置、例えばキーボード、マウスまたは表示装置、との間のインタフェースである。ネットワークインタフェース1120は、計算機1000と、計算機1000が他の計算機と通信する通信回線と、の間のインタフェースである。
記憶装置1080は、それぞれが情報処理装置2000の機能部(図1を参照)の実装であるプログラムモジュールを格納してもよい。CPU1040は各プログラムモジュールを実行し、それにより情報処理装置2000の各機能部を実現する。
上述の通り、本発明の実施形態が添付の図面を参照して記載されたが、これらの実施形態は単に本発明の実例となるだけであり、上記の実施形態の組合せ、および上述の実施形態中の構成以外の種々の構成も採用することができる。

Claims (9)

  1. プロセッサ、および命令を保存するメモリを備える情報処理装置であって、前記プロセッサが、
    それぞれが、そのタイムスタンプとともに観測されたデータの時間シーケンスを表わす、複数データストリームを取得し、
    予め設定された終了条件が満たされるまで再帰的に、
    同時事後分布および提案事後分布のダイバージェンスの最適化の結果を示しており、前記提案事後分布のパラメータを含むクラスタアイデンティティ分布のパラメータを、勾配降下最適化を通して更新する
    クラスタごとに、前記クラスタのダイナミクスに対する提案事後分布を最適化することにより前記クラスタの前記ダイナミクスを更新する、
    データストリームごとに、前記データストリームの個別応答に対する提案事後分布を最適化することにより前記データストリームの前記個別応答を更新し、前記データストリームの前記個別応答は、前記データストリームが割り当てられた前記クラスタの前記ダイナミクスに対する前記データストリームの感度を表わす、
    データストリームごとに、前記データストリームの前記更新された個別応答に基づいて、前記データストリームの潜在状態を更新する、
    データストリームごと、タイムスタンプごとに、前記データストリームのデータ型に対応する、データ型ごとに異なる変換関数を用いて、前記タイムスタンプにおける前記データストリームの前記潜在状態を観測モデルのパラメータに変換することによって、前記タイムスタンプにおける前記データストリームの前記観測モデルを更新する、および、
    クラスタごとに、クラスタアイデンティティ分布の前記パラメータ、前記クラスタの前記ダイナミクス、前記クラスタに割り当てられた各データストリームの前記ダイナミクス、および、前記クラスタに割り当てられた各データストリームに対応する前記潜在状態、に基づいてモデルデータを生成する、ことを実行する、前記命令を実行するように構成される情報処理装置。
  2. 前記プロセッサが、前記提案事後分布を最大にすることによって、前記クラスタアイデンティティ分布の前記パラメータの前記更新を実行するように更に構成され、請求項1に記載の情報処理装置。
  3. 前記変換関数が以下の制約、
    前記変換関数のドメインは、多次元実数空間になければならない、
    前記変換関数の範囲は、与えられたパラメータおよび観測分布の対に対するパラメータ空間になければならない、
    前記変換関数は、多次元実数空間上の滑らかで、凹で単調な関数である、および、
    前記変換関数の1次および2次の導関数が存在し、前記1次導関数が連続である、の全てを満たす、請求項1又は2に記載の情報処理装置。
  4. 計算機によって実行される制御方法であって、
    それぞれが、そのタイムスタンプとともに観測されたデータの時間シーケンスを表わす、複数データストリームを取得することと、
    予め設定された終了条件が満たされるまで再帰的に、
    同時事後分布および提案事後分布のダイバージェンスの最適化の結果を示しており、前記提案事後分布のパラメータを含むクラスタアイデンティティ分布のパラメータを、勾配降下最適化を通して更新すること、
    クラスタごとに、前記クラスタのダイナミクスに対する提案事後分布を最適化することにより前記クラスタの前記ダイナミクスを更新すること、
    データストリームごとに、前記データストリームの個別応答に対する提案事後分布を最適化することにより前記データストリームの前記個別応答を更新し、前記データストリームの前記個別応答は、前記データストリームが割り当てられた前記クラスタの前記ダイナミクスに対する前記データストリームの感度を表わすこと、
    データストリームごとに、前記データストリームの前記更新された個別応答に基づいて、前記データストリームの潜在状態を更新すること、
    データストリームごと、タイムスタンプごとに、前記データストリームのデータ型に対応する、データ型ごとに異なる変換関数を用いて、前記タイムスタンプにおける前記データストリームの前記潜在状態を観測モデルのパラメータに変換することによって、前記タイムスタンプにおける前記データストリームの前記観測モデルを更新すること、および、
    クラスタごとに、クラスタアイデンティティ分布の前記パラメータ、前記クラスタの前記ダイナミクス、前記クラスタに割り当てられた各データストリームの前記ダイナミクス、および、前記クラスタに割り当てられた各データストリームに対応する前記潜在状態、に基づいてモデルデータを生成すること、を実行することと、を含む制御方法。
  5. 前記提案事後分布を最大にすることによって、前記クラスタアイデンティティ分布の前記パラメータの前記更新が実行され、請求項4に記載の制御方法。
  6. 前記変換関数が以下の制約、
    前記変換関数のドメインは、多次元実数空間になければならない、
    前記変換関数の範囲は、与えられたパラメータおよび観測分布の対に対するパラメータ空間になければならない、
    前記変換関数は、多次元実数空間上の滑らかで、凹で単調な関数である、および、
    前記変換関数の1次および2次の導関数が存在し、前記1次導関数が連続である、の全てを満たす、請求項4または5に記載の制御方法。
  7. 計算機読み取り可能な非一時的記憶媒体であって、
    それぞれが、そのタイムスタンプとともに観測されたデータの時間シーケンスを表わす、複数データストリームを取得し、
    予め設定された終了条件が満たされるまで再帰的に、
    同時事後分布および提案事後分布のダイバージェンスの最適化の結果を示しており、前記提案事後分布のパラメータを含むクラスタアイデンティティ分布のパラメータを、勾配降下最適化を通して更新する
    クラスタごとに、前記クラスタのダイナミクスに対する提案事後分布を最適化することにより前記クラスタの前記ダイナミクスを更新する、
    データストリームごとに、前記データストリームの個別応答に対する提案事後分布を最適化することにより前記データストリームの前記個別応答を更新し、前記データストリームの前記個別応答は、前記データストリームが割り当てられた前記クラスタの前記ダイナミクスに対する前記データストリームの感度を表わす、
    データストリームごとに、前記データストリームの前記更新された個別応答に基づいて、前記データストリームの潜在状態を更新する、
    データストリームごと、タイムスタンプごとに、前記データストリームのデータ型に対応する、データ型ごとに異なる変換関数を用いて、前記タイムスタンプにおける前記データストリームの前記潜在状態を観測モデルのパラメータに変換することによって、前記タイムスタンプにおける前記データストリームの前記観測モデルを更新する、および、
    クラスタごとに、クラスタアイデンティティ分布の前記パラメータ、前記クラスタの前記ダイナミクス、前記クラスタに割り当てられた各データストリームの前記ダイナミクス、および、前記クラスタに割り当てられた各データストリームに対応する前記潜在状態、に基づいてモデルデータを生成する、ことを実行する、プログラムを保存する非一時的記憶媒体。
  8. 前記計算機が、前記提案事後分布を最大にすることによって、前記クラスタアイデンティティ分布の前記パラメータの前記更新を更に実行する、請求項7に記載の記憶媒体。
  9. 前記変換関数が以下の制約、
    前記変換関数のドメインは、多次元実数空間になければならない、
    前記変換関数の範囲は、与えられたパラメータおよび観測分布の対に対するパラメータ空間になければならない、
    前記変換関数は、多次元実数空間上の滑らかで、凹で単調な関数である、および、
    前記変換関数の1次および2次の導関数が存在し、前記1次導関数が連続である、の全てを満たす、請求項7または8に記載の記憶媒体。
JP2020564957A 2018-06-04 2018-06-04 情報処理装置、制御方法および非一時的記憶媒体 Active JP7056765B2 (ja)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/JP2018/021423 WO2019234802A1 (en) 2018-06-04 2018-06-04 Information processing apparatus, method, and program

Publications (2)

Publication Number Publication Date
JP2021524112A JP2021524112A (ja) 2021-09-09
JP7056765B2 true JP7056765B2 (ja) 2022-04-19

Family

ID=68769516

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2020564957A Active JP7056765B2 (ja) 2018-06-04 2018-06-04 情報処理装置、制御方法および非一時的記憶媒体

Country Status (3)

Country Link
US (1) US11281686B2 (ja)
JP (1) JP7056765B2 (ja)
WO (1) WO2019234802A1 (ja)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11636390B2 (en) * 2020-03-19 2023-04-25 International Business Machines Corporation Generating quantitatively assessed synthetic training data
US20230087758A1 (en) * 2021-09-14 2023-03-23 The Nielsen Company (Us), Llc Methods and apparatus to accurately credit streaming sessions
JPWO2023073837A1 (ja) * 2021-10-27 2023-05-04

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2013097615A (ja) 2011-11-01 2013-05-20 Nippon Telegr & Teleph Corp <Ntt> クラスタリング装置、方法、及びプログラム

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9336533B2 (en) * 2013-03-13 2016-05-10 Salesforce.Com, Inc. Systems, methods, and apparatuses for implementing a similar command with a predictive query interface
US20140344183A1 (en) 2013-05-20 2014-11-20 Nec Corporation Latent feature models estimation device, method, and program
US10026114B2 (en) * 2014-01-10 2018-07-17 Betterdoctor, Inc. System for clustering and aggregating data from multiple sources
US10037592B2 (en) * 2015-06-05 2018-07-31 Mindaptiv LLC Digital quaternion logarithm signal processing system and method for images and other data types
US10515101B2 (en) * 2016-04-19 2019-12-24 Strava, Inc. Determining clusters of similar activities
US11327797B2 (en) * 2016-05-09 2022-05-10 Oracle International Corporation Memory usage determination techniques

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2013097615A (ja) 2011-11-01 2013-05-20 Nippon Telegr & Teleph Corp <Ntt> クラスタリング装置、方法、及びプログラム

Also Published As

Publication number Publication date
WO2019234802A1 (en) 2019-12-12
JP2021524112A (ja) 2021-09-09
US11281686B2 (en) 2022-03-22
US20210216563A1 (en) 2021-07-15

Similar Documents

Publication Publication Date Title
Kucukelbir et al. Automatic differentiation variational inference
Jones et al. Experiments in stochastic computation for high-dimensional graphical models
US8438162B2 (en) Method and apparatus for selecting clusterings to classify a predetermined data set
JP7056765B2 (ja) 情報処理装置、制御方法および非一時的記憶媒体
Jemai et al. FBWN: An architecture of fast beta wavelet networks for image classification
Gonzalez-Vidal et al. Beats: Blocks of eigenvalues algorithm for time series segmentation
Xu et al. Graph partitioning and graph neural network based hierarchical graph matching for graph similarity computation
Otneim et al. Conditional density estimation using the local Gaussian correlation
Jin et al. Approximated penalized maximum likelihood for exploratory factor analysis: An orthogonal case
Vila et al. Bayesian nonlinear model selection and neural networks: A conjugate prior approach
Koskela Neural network methods in analysing and modelling time varying processes
Chen et al. A spectral method for identifiable grade of membership analysis with binary responses
Cobb The practicalities of scaling Bayesian neural networks to real-world applications
JP6468653B2 (ja) 予測モデル構築装置
Cipolli et al. Supervised learning via smoothed Polya trees
Korotin et al. Integral mixability: a tool for efficient online aggregation of functional and probabilistic forecasts
Duan et al. Bayesian spanning tree: estimating the backbone of the dependence graph
JP6395261B2 (ja) 予測モデル構築装置及びプログラム
Shustin et al. PCENet: High dimensional surrogate modeling for learning uncertainty
Hirayama et al. Sparse and low-rank matrix regularization for learning time-varying Markov networks
Xiong et al. Bayesian nonparametric regression modeling of panel data for sequential classification
Tao et al. Scalable Bayesian Tensor Ring Factorization for Multiway Data Analysis
JP5766753B2 (ja) システムパラメータ学習装置、情報処理装置、方法、及びプログラム
Jiang et al. AgFlow: fast model selection of penalized PCA via implicit regularization effects of gradient flow
Xu et al. Graph-Regularized Tensor Regression: A Domain-Aware Framework for Interpretable Modeling of Multiway Data on Graphs

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20201119

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20201119

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20211116

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20220117

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20220308

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20220321

R151 Written notification of patent or utility model registration

Ref document number: 7056765

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R151