JP2019016983A

JP2019016983A - 情報処理装置、情報処理装置の制御方法及びプログラム

Info

Publication number: JP2019016983A
Application number: JP2017134950A
Authority: JP
Inventors: 健二塚本; Kenji Tsukamoto; 大岳八谷; Hirotaka Hachiya; 克彦森; Katsuhiko Mori
Original assignee: Canon Inc
Current assignee: Canon Inc
Priority date: 2017-07-10
Filing date: 2017-07-10
Publication date: 2019-01-31

Abstract

【課題】学習したモデルにおいて、対象についてどのような行動が学習されているかを容易に把握するための技術を提供する。【解決手段】情報処理装置であって、映像データから学習されたモデルから、状態別に対象の時系列データを生成するデータ生成部と、時系列データの中から１以上の代表時系列データを選択するデータ選択部と、１以上の代表時系列データを状態別に映像データに合成して可視化する可視化部とを備える。【選択図】図５

Description

本発明は、情報処理装置、情報処理装置の制御方法及びプログラムに関する。

従来、映像データから対象物の行動・状態を学習してモデルを作成し、学習した対象物の行動・状態から外れる行動・状態を識別する方法が提案されている。特許文献１では、監視カメラの映像に対して映像内の対象物を追跡して移動体の動き・見た目の特徴量を生成し、あらかじめ学習した特徴量との距離に基づいて重要度を算出し、重要度に基づいて要約した映像を生成する技術が提案されている。

一般に、識別結果として、正常な行動でも異常行動と判定される誤検知や、異常行動でも正常な行動と判定される未検知となる事例が発生しうる。その場合、誤検知・未検知となった原因を調査するため、学習に用いた映像と、学習データの特徴量の分布と、判定の対象となる判定データの特徴量とを表示し、学習データの特徴量の分布と、判定データの特徴量との距離関係を調べることが行われる。なお、通常、特徴量は高次元で表示が困難であるため、ＭＤＳ（ＭｕｌｔｉＤｉｍｅｎｓｉｏｎａｌＳｃａｌｉｎｇ）やＩｓｏｍａｐ（Ｉｓｏｍｅｔｒｉｃｆｅａｔｕｒｅｍａｐｐｉｎｇ）などが次元削減の目的で用いられることが多い。

特開２０１２−２０５０９７号公報

Ｎ．ＤａｌａｌａｎｄＢ．Ｔｒｉｇｇｓ，ＨｉｓｔｏｇｒａｍｓｏｆＯｒｉｅｎｔｅｄＧｒａｄｉｅｎｔｓｆｏｒＨｕｍａｎＤｅｔｅｃｔｉｏｎ，ＩｎＰｒｏｃｅｅｄｉｎｇｓｏｆＣｏｍｐｕｔｅｒＶｉｓｉｏｎａｎｄＰｅｔｔｅｒｎＲｅｃｏｇｎｉｔｉｏｎ（ＣＶＰＲ），ｐｐ．８８６−８９３，２００５Ｊ．Ｐｅｒｓ，ｅｔａｌ，ＨｉｓｔｏｇｒａｍｓｏｆＯｐｔｉｃａｌＦｌｏｗｆｏｒＥｆｆｉｃｉｅｎｔＲｅｐｒｅｓｅｎｔａｔｉｏｎｏｆＢｏｄｙＭｏｔｉｏｎ，ＰａｔｔｅｒｎＲｅｃｏｇｎｉｔｉｏｎＬｅｔｔｅｒｓ，ｖｏｌ．３１，ｎｏ．１１，ｐｐ．１３６９−１３７６，２０１０Ｋ．Ｐ．Ｍｕｒｐｈｙ，ＤｙｎａｍｉｃＢａｙｅｓｉａｎＮｅｔｗｏｒｋ：Ｒｅｐｒｅｓｅｎｔａｔｉｏｎ，ＩｎｆｅｒｅｎｃｅａｎｄＬｅａｒｎｉｎｇ．ＰｈＤｔｈｅｓｉｓ，ＵＣＢｅｒｋｅｌｅｙ，２００２Ｃ．Ｖｏｎｄｒｉｃｋ，Ａ．Ｋｈｏｓｌａ，Ｔ．Ｍａｌｉｓｉｅｗｉｃｚ，Ａ．Ｔｏｒｒａｌｂａ，"ＨＯＧｇｌｅｓ：ＶｉｓｕａｌｉｚｉｎｇＯｂｊｅｃｔＤｅｔｅｃｔｉｏｎＦｅａｔｕｒｅ"，ＩＣＣＶ２０１３．Ｇ．Ｅ．Ｈｉｎｔｏｎ，"ＡＰｒａｃｔｉｃａｌｇｕｉｄｅｔｏｔｒａｉｎｉｎｇｒｅｓｔｒｉｃｔｅｄＢｏｌｔｚｍａｎｎｍａｃｈｉｎｅｓ"，Ｔｅｃｈ．Ｒｅｐ．ＵＴＭＬＴＲ２０１０−００３，Ｄｅｐｔ．Ｃｏｍｐｕｔ．Ｓｃｉ．，Ｕｎｉｔｖ．Ｔｒｏｎｔｏ，２０１０．

しかしながら、判定データの特徴量と、学習データの特徴量の分布との距離関係を表示するだけでは、これらの差異が映像における変化の差異にどのように対応しているかが分かりにくい。従って、学習したモデルにおいて、対象についてどのような行動が学習されているかを把握することが難しく、誤検知・未検知の原因をユーザが理解するのが難しい。

本発明は、上記の課題に鑑みてなされたものであり、学習したモデルにおいて、対象についてどのような行動が学習されているかを容易に把握するための技術を提供する。

上記の目的を達成する本発明の一態様による情報処理装置は、
映像データから学習されたモデルから、状態別に対象の時系列データを生成するデータ生成手段と、
前記時系列データの中から１以上の代表時系列データを選択するデータ選択手段と、
前記１以上の代表時系列データを前記状態別に映像データに合成して可視化する可視化手段と、
を備えることを特徴とする。

本発明によれば、学習したモデルにおいて、対象についてどのような行動が学習されているかを容易に把握することが可能である。

第１の実施形態に係る情報処理装置の構成図である。第１の実施形態に係る情報処理装置の映像取得部より取得される映像の例を示す図である。第１の実施形態に係る情報処理装置で学習したモデル構造の例を示す図である。第１の実施形態に係る情報処理装置で学習したモデルにおける事前確率テーブル、状態遷移確率テーブル、観測確率テーブルの例を示した図である。第１の実施形態に係る情報処理装置で学習モデルから作成した代表時系列データを可視化した例の図である。第１の実施形態に係る情報処理装置の処理の手順を示すフローチャートである。第２の実施形態に係る情報処理装置の構成図である。第２の実施形態に係るデータ指定について説明する図である。第２の実施形態に係る情報処理装置の処理の手順を示すフローチャートである。第３の実施形態に係る情報処理装置の構成図である。第３の実施形態に係る、学習した分布の境界付近の時系列データを可視化した例を示す図である。第３の実施形態に係る情報処理装置の処理の手順を示すフローチャートである。第４の実施形態に係る情報処理装置の構成図である。第４の実施形態に係る情報処理装置の処理の手順を示すフローチャートである。

以下、図面を参照しながら実施形態を説明する。なお、以下の実施形態において示す構成は一例に過ぎず、本発明は図示された構成に限定されるものではない。

（第１の実施形態）
＜概要＞
第１の実施形態では、監視カメラの映像を用いて映像内で発生する対象の行動を学習したモデルから、映像内で発生する対象の行動を状態別に可視化してユーザに対して提示する例を説明する。これにより、学習したモデルにおいて、どのような行動が学習されているかを容易に把握することができる。

＜装置構成＞
図１は、本実施形態に係る情報処理装置１００の構成を示している。なお、本実施形態では屋外の交差点のシーンを例として説明するが、その他には商業施設などの屋内や、病院、介護施設、駅などの公共施設であってもよい。

情報処理装置１００は、映像取得部１０１と、軌跡抽出部１０２と、特徴抽出部１０３と、モデル学習部１０４と、データ生成部１０５と、データ選択部１０６と、可視化部１０７と、モデル保存部１１０と、記憶部１１１とを備えている。

映像取得部１０１は、設置された監視カメラ等により撮影された監視対象の映像データを取得する。この映像データの例を図２に示す。接続された監視カメラから直接映像データを取得してもよいし、監視カメラから出力されて録画された映像データをＨＤＤ（ハードディスク）、デジタルビデオレコーダから取得してもよい。映像取得部１０１により取得された映像データ２０１は、軌跡抽出部１０２へと出力される。

軌跡抽出部１０２は、映像取得部１０１から取得した映像データ２０１に対して映像内の対象２０２、２０３、２０４、２０５の軌跡を抽出する。あらかじめ用意したテンプレートを用いたテンプレートマッチングにより映像内の対象２０２、２０３、２０４、２０５を検出し、テンプレートを対象毎に更新しながら以降のフレームでテンプレートマッチングを行う。これにより、映像内の対象２０２、２０３、２０４、２０５の軌跡を抽出することができる。

また、軌跡の抽出方法は上記の方法に限定されるものではなく、他の公知の技術を用いて行ってもよい。また、軌跡を抽出する対象は人物や自転車に限定するものではなく、バイクや車両であってもよい。また、撮影シーンに合わせて軌跡を抽出する対象をユーザが予め設定してもよい。軌跡抽出部１０２により抽出された軌跡の情報は、特徴抽出部１０３へと出力される。

特徴抽出部１０３は、軌跡抽出部１０２により抽出された軌跡の抽出結果を用いて、軌跡が抽出された時刻の画像に対して、その時刻における対象の領域の特徴量を抽出する。例えば、非特許文献１に記載の勾配方向ヒストグラムやテクスチャ特徴量を抽出する。または、非特許文献２に記載の映像データから動きベクトルを抽出して動きベクトルを方向別に分けて強度を足し合わせてヒストグラムにしたＭＨＯＦ（ＭｕｌｔｉＨｉｓｔｏｇｒａｍｏｆＯｐｔｉｃａｌＦｌｏｗ）特徴量を抽出する。また、特徴量の種類は上記に例に限定されるものではなく、その他の特徴量を使用してもよい。

軌跡抽出部１０２により抽出された軌跡の情報、及び、特徴抽出部１０３により抽出された対象の領域の特徴量は、モデル学習部１０４へと出力される。

モデル学習部１０４は、軌跡抽出部１０２により抽出された軌跡と、特徴抽出部１０３により抽出された特徴量とを用いて、映像内で発生する対象の行動のモデルを学習する。例えば、非特許文献３に示すＤｙｎａｍｉｃＢａｙｅｓｉａｎＮｅｔｗｏｒｋ（以後、ＤＢＮ）を用いてモデルを学習する。

ここで、図３は、ＤＢＮで学習したモデルのグラフ構造の例を示す。モデル３０１は、観測可能な観測ノード３０２〜３０５と、観測ノード３０２〜３０５の出現を表す隠れ状態３０６（観測から直接観測することができない変数）と、事前状態の確率、状態遷移の確率、各観測ノード３０２〜３０５の観測確率とで構成される。

観測ノード３０２〜３０５は、軌跡抽出部１０２により抽出された軌跡と、特徴抽出部１０３により抽出された特徴量とを用いて、ＧａｕｓｓｉａｎＭｉｘｔｕｒｅＭｏｄｅｌ（以後、ＧＭＭと称する。）の当てはめを収束するまで繰り返すことによりクラスタリングを行って作成される。各ＧＭＭの各クラスタが観測ノード３０２〜３０５に対応する。例えば、図２に示す映像データ２０１の場合、右に歩く歩行者２０２、左に歩く歩行者２０３、左に走行する自転車２０４、停止している自転車２０５が、それぞれクラスタリングにより分類され、各クラスタが観測ノード３０２〜３０５に対応付けられる。また、本実施形態では、ＧＭＭクラスタリングによる方法で各クラスタを観測ノードと対応付けているが、当該方法に限定されるわけではなく、その他の方法を用いて観測ノードと各クラスタとを対応付けてもよい。

そして、各クラスタが発生する時の隠れ状態３０６が構築される。また、モデル３０１は、事前状態の確率、状態遷移確率、各観測ノード３０２〜３０５の観測確率の情報を含み、これらの確率を学習する。ここで、図４に、ＤＢＮで学習した各確率テーブルを示す。事前状態の確率テーブル４０１、状態遷移確率テーブル４０２、隠れ状態別の各観測ノード３０２〜３０５の観測確率テーブル４０３は、映像データ２０１の出現頻度によって学習される。学習したモデル３０１（ＧＭＭクラスタを含む）と、各確率テーブル４０１、４０２、４０３とは、モデル保存部１１０に保存される。

データ生成部１０５は、モデル保存部１１０から取得したモデル３０１と、各確率テーブル４０１、４０２、４０３とを用いて、時系列データを生成する。時系列データ生成の手順は、以下の通りである。

１．事前状態の確率テーブル４０１に基づいて隠れ状態を決定する。

２．事前の隠れ状態と状態遷移確率テーブル４０２とに基づき、隠れ状態を遷移させる。

３．遷移した隠れ状態に基づいて、各観測ノード３０２〜３０５が観測されるかを観測確率テーブル４０３に基づいて選択する。

４．選択した観測ノードに対応するガウス分布をサンプリングし、時系列データを生成する。

最初に、事前状態の確率テーブル４０１に基づいて、サンプリングによって隠れ状態を決定する。まず、事前状態の確率テーブル４０１を参照して、累積和のデータ列ｙとデータ列ｚを作成する。事前状態の確率テーブル４０１から事前確率を要素としたデータ列ｘ（＝［状態１の事前確率、状態２の事前確率］＝［０．５，０．５］）を作成する。このデータ列ｘに式（１）を適用して、累積和のデータ列ｙを作成する。また、ｙ_０＝０と仮定する。なお、計算式は一例に過ぎず、他の計算式を用いてもよいことは言うまでもない。

ここで、ｉはインデックス番号、ｍａｘ（ｘ）はデータ列ｘの最大値を意味する。この式（１）よりｙ＝［ｙ_１，ｙ_２］＝［１，２］が得られる。

次に、一様分布に従う乱数を生成し、一様分布に基づく乱数（０〜１）を生成して、ｒとし、式（２）を用いて累積和のデータ列ｙの各要素と比較し、累積和の要素が大きければ１、小さければ０としたデータ列ｚを作成する。

ｒは乱数で生成した値（０〜１）、ｙ_ｅｎｄは累積和データ列の最後の要素である。例えばｒ＝０．２３５である場合、ｙ_ｅｎｄ＝２なので、ｚ_１は、１＞０．２３５＊２なのでｚ_１＝１、ｚ_２は、２＞０．２３５＊２なのでｚ_２＝１となる。従って、ｚ＝［ｚ_１，ｚ_２］＝［１，１］である。

作成されたデータ列ｚの要素において、値が１である最初の要素のインデックス番号を事前状態として決定する。上記の例の場合、値が１である最初の要素のインデックス番号は１であるため、事前状態は１となる。

次に、決定した事前状態を、状態遷移確率テーブル４０２に基づいて遷移させる。隠れ状態の遷移は、上記と同様のサンプリング法を用いて行う。

事前状態は１であるので、事前状態１における状態遷移確率を状態遷移確率テーブル４０２から取得して、データ列ｘ＝［事前状態１における状態１への遷移確率，事前状態１における状態２への遷移確率］を作成する。状態遷移確率テーブル４０２より、ｘ＝［０．８，０．２］である。式（１）を適用して累積和のデータ列ｙを作成すると、ｙ＝［１，１．５４８８］となる。この例ではｙ_ｅｎｄ＝１．５４８８である。また、一様分布により生成した乱数ｒ＝０．１２４７とする。ｙ_ｅｎｄ＝１．５４８８と、乱数ｒ＝０．１２４７とを用いて、式（２）を適用してデータ列ｚを作成すると、ｚ＝［１，１］となる。

データ列ｚの各要素において値が１である最初の要素のインデックス番号は１であるので、隠れ状態は状態１に遷移する。この時、インデックス番号が２であれば隠れ状態は状態２に遷移することになる。

最後に、遷移した隠れ状態に基づいて観測確率テーブル４０３から状態に対応する実現値の確率を用いて、各観測ノード３０２〜３０５のデータを生成するかどうかを、サンプリングによって決定する。

具体的には、観測ノード３０２において隠れ状態１における実現値の確率を要素としたデータ列ｘ＝［状態１での実現値０の確率，状態１での実現値１の確率］として作成する。観測確率テーブル４０３より、ｘ＝［０．１，０．９］であるから、式（１）を用いて累積和ｙ＝［０．４４９３，１．４４９３］が求まる。よって、累積和データ列ｙの最後の要素の値ｙ_ｅｎｄ＝１．４４９３である。また、一様分布から生成した乱数ｒ＝０．８１４７とする。これらを用いて式（２）よりデータ列ｚを作成すると、ｚ＝［０，１］となる。

この例では、このデータ列ｚの値が１である最初の要素のインデックス番号が２であるので、観測ノード３０２は選択しない。一方、データ列ｚの値が１である最初の要素のインデックス番号が１の場合には観測ノード３０２を選択することになる。他の観測ノード３０３〜３０５についても同様の方法を用いてデータを生成するかどうかを選択する。

データを生成する観測ノードを選択したら、各観測ノードが持つクラスタ（ガウス分布）に基づいて軌跡・特徴量をサンプリングして、指定したフレーム数分繰り返すことで、１つの時系列データが生成される。

この時、生成した特徴量を用いて、非特許文献４の方法を用いて画像を作成することもできる。生成した特徴量のうち、アピアランスに関する特徴量を抽出して、特徴量から画像へと変換する行列を適用することで画像が生成される。

入力画像をｘとして、画像ｘから特徴量ｙに変換する式をφ（ｘ）とし、その逆変換をφ^―１（ｙ）とした場合、式（３）で表される関係が得られる。

この時、φ^―１の変換式は、映像取得部１０１により取得された映像データ２０１と、特徴量生成部１０２により生成された特徴量とに基づいて算出することが可能である。この時、画像と特徴量との関係をガウス分布

として、そのパラメータを

、

とする。特徴量ｙを画像ｘに変換する場合、条件付きガウス分布

に基づいて、式（４）により変換することができる。

これにより、特徴量から画像を生成することができる。この変換式φ^−１（ｙ）は、各観測ノード３０２〜３０５についてそれぞれ別に学習して作成し、それぞれ作成したφ^−１（ｙ）を使用して画像を生成してもよい。

また、画像生成は上記の方法に限定されるわけではない。非特許文献５に示すＲＢＭ（ＲｅｓｔｒｉｃｔｅｄＢｏｌｔｚｍａｎｎＭａｃｈｉｎｅ）を用いて観測ノード毎にそれぞれモデルを作成し、ＭＣＭＣ（ＭａｒｋｏｖＣｈａｉｎＭｏｎｔｅＣａｒｌｏ）によってモデルをサンプリングすることで画像を生成する方法を用いてもよい。

この処理をユーザが指定した回数実行することで、複数の時系列データが生成される。生成された複数の時系列データは記憶部１１１へと記憶される。

データ選択部１０６は、データ生成部１０５により生成された複数の時系列データのうち、類似する時系列データをまとめて、代表時系列データを選択する。時系列データをまとめる方法としては、状態別に生成した時系列データの位置に対してｋ−ｍｅａｎｓクラスタリングを適用し、クラスタリング結果からクラスタ重心に最も近い時系列データを選択して代表時系列データとすることができる。選択するデータ数はモデル３０１のクラスタ数と合わせてもよいし、ユーザが入力したクラスタ数でクラスタリングを行い、代表時系列データを選択してもよい。また、時系列データをまとめる方法は、ｋ−ｍｅａｎｓクラスタリングに限定されるものではなく、他の公知の方法を用いてもよい。選択された代表時系列データと、各時系列データが属するクラスタ番号とが、記憶部１１１に記憶される。

可視化部１０７は、データ選択部１０６により選択された代表時系列データを記憶部１１１から読み込み、映像データ２０１に重ねて表示する。映像データ２０１については、映像データ取得部１０１により取得された映像データ２０１の中から背景画像をユーザが１枚選択することにより取得されてもよいし、映像データ２０１の中からランダムに選択されてもよい。

可視化部１０７は、例えば図５に示されるように、データ選択部１０６により選択された代表時系列データを、データ生成部１０５により時系列データが作成された時の状態別に分けて表示する。例えば、状態１で発生する行動を可視化した例が５０１であり、状態２で発生する時系列データを可視化した例が５０２である。このとき、データ生成部１０５が画像を生成している場合、映像に画像を重ねて表示してもよい。以上が、本実施形態に係る情報処理装置１００の構成である。

また、本実施形態の説明では、データ生成部１０５において、隠れ状態を決定して時系列データを生成しているが、データ生成中に隠れ状態を遷移させてもよい。その場合、データ生成の開始時の状態を基準として、状態別に表示を行う。

＜処理＞
続いて、図６に示すフローチャートを用いて、本実施形態における情報処理装置１００が実施する処理の手順を説明する。なお、同フローチャートに従ったプログラムコードは、不図示のＲＡＭやＲＯＭなどのメモリに格納され、不図示のＣＰＵなどの制御部により読み出されて実行される。

（ステップＳ６０１）
ステップＳ６０１において、映像取得部１０１は、映像データ２０１を取得する。映像データ２０１は、あらかじめ撮影された映像データから取得されてもよいし、設置されたカメラから順次取得されてもよい。映像取得部１０１により取得された映像データ２０１は、軌跡抽出部１０２へと送られ、処理はステップＳ６０２へと進む。

（ステップＳ６０２）
ステップＳ６０２において、軌跡抽出部１０２は、映像取得部１０１から取得した映像データ２０１に対して映像内の対象２０２、２０３、２０４、２０５の軌跡を抽出する。軌跡の抽出には、あらかじめテンプレートを用意し、テンプレートマッチングを用いて映像内の画像から対象を検出し、テンプレートを更新しながら検出する。また、対象に対してパーティクルフィルタを用いて追跡することにより、映像内での対象の軌跡を抽出してもよい。

また、軌跡抽出方法は、上記の方法に限定されるものではなく、他の方法を用いてもよい。また、軌跡を抽出する対象は人や自転車に限定されるものではなく、バイクや自動車などの車両、動物、その他の移動体であってもよい。軌跡抽出部１０２により抽出された軌跡情報と各フレームでの軌跡の位置における物体領域の情報とは、特徴抽出部１０３へと送られ、処理はステップＳ６０３へと進む。

（ステップＳ６０３）
ステップＳ６０３において、特徴抽出部１０３は、軌跡抽出部１０２により抽出された軌跡情報及び物体領域情報と、映像データ２０１とに基づいて特徴量を抽出する。特徴量の抽出は、フレーム毎に、抽出された軌跡位置の物体領域に対して、ＨＯＧ特徴量やテクスチャ特徴量や、ＭＨＯＦ特徴量を抽出することにより行う。また、他の特徴量を併せて抽出してもよい。

特徴抽出部１０３により抽出された特徴量は、モデル学習部１０４へと送られ、処理はステップＳ６０４へと進む。

（ステップＳ６０４）
ステップＳ６０４において、モデル学習部１０４は、映像データ２０１から抽出した軌跡・特徴量を用いてモデルの学習を行う。モデルの学習にはＤＢＮなどの公知の方法を用いて学習する。ＤＢＮにより学習したモデル、特徴量をクラスタリングして作成した観測ノード３０２〜３０５と隠れ状態３０６の構造のモデル３０１が作られる。そして、モデル３０１について、事前状態の確率テーブル、状態遷移確率テーブル４０２、各状態の各観測ノードの観測確率テーブル４０３が学習される。

学習したモデル３０１と、各確率テーブル４０１、４０２、４０３はモデル保存部１１０に保存される。そして、処理はステップＳ６０５へと進む。

（ステップＳ６０５）
ステップＳ６０５において、データ生成部１０５は、モデル保存部１１０に保存されている学習モデル３０１と各確率テーブル４０１、４０２、４０３とを取得し、時系列データを生成する。当該データ生成処理の詳細は、図６（ｂ）のフローチャートを参照して後述する。データ生成部１０５により生成された時系列データは、記憶部１１１に記憶される。そして、処理はステップＳ６０６へと進む。

（ステップＳ６０６）
ステップＳ６０６において、データ選択部１０６は、記憶部１１１から読み込んだ時系列データの中から代表時系列データを選択する。代表時系列データの選択方法の一例としては、生成された特徴量からｋ−ｍｅａｎｓクラスタリングでクラスタリングし、クラスタ重心に近い特徴量の時系列データを選択することにより、代表時系列データを選択することができる。データ選択部１０６により選択された代表時系列データは記憶部１１１へと記憶され、代表時系列データに対応するクラスタのインデックス番号が記憶される。そして、処理はステップＳ６０７へと進む。

（ステップＳ６０７）
ステップＳ６０７において、可視化部１０７は、記憶部１１１に記憶された代表時系列データを、映像データ２０１に重畳して表示する。表示する際には、代表時系列データを生成した時の状態別に分けて、状態１に対応する代表時系列データを例えば図５の５０１のように、状態２に対応する代表時系列データを例えば５０２のように、それぞれ表示する。以上が、本実施形態に係る可視化処理の手順である。

次に、図６（ｂ）のフローチャートを参照して、ステップＳ６０５のデータ生成処理の詳細について説明する。

（ステップＳ６１１）
ステップＳ６１１において、データ生成部１０５は、生成する時系列データのインデックスｎを初期化する。初期化が完了したら、処理はステップＳ６１２へと進む。

（ステップＳ６１２）
ステップＳ６１２において、データ生成部１０５は、学習モデル３０１の事前状態を決定する。事前状態の決定には、学習した事前確率テーブル４０１を用いて、状態１及び状態２の確率を要素ｘとしたサンプリング法を用いる。事前状態の確率を要素ｘとし、式（１）を用いて累積和ｙを算出し、一様分布で生成した乱数ｒに基づいて、式（２）を用いて要素が０もしくは１のデータ列ｚを求める。このデータ列ｚの要素において始めに値が１となる要素のインデックス番号を事前状態として選択する。事前状態が決定したら、処理はステップＳ６１３へと進む。

（ステップＳ６１３）
ステップＳ６１３において、データ生成部１０５は、事前状態を学習した状態遷移確率テーブル４０２を用いて、モデル３０１の隠れ状態を遷移させる。ステップＳ６１２で選択された事前状態に基づいて、サンプリング法を用いて状態を遷移させる。

ここで、事前状態が状態１の場合を例に説明する。状態１における状態遷移確率テーブル４０２の状態１の行を要素としたデータ列ｘを用いて、式（１）で累積和データ列ｙを作成し、０〜１の一様分布から生成した乱数ｒから式（２）を用いてデータ列ｚを求める。データ列ｚの要素において始めに値が１である要素のインデックス番号を求める。インデックス番号が１であれば隠れ状態は状態１のままであり、インデックス番号が２であれば隠れ状態が状態２に遷移したことになる。隠れ状態を遷移させたら、処理はステップＳ６１４へと進む。

（ステップＳ６１４）
ステップＳ６１４において、データ生成部１０５は、遷移した隠れ状態に基づいて各観測ノード３０２〜３０５のうち、どの観測ノードの時系列データを生成するかを選択する。まず、遷移した隠れ状態に基づいて使用する観測確率を観測確率テーブル４０３から選択する。そして、観測ノード３０２の実現値の確率を要素ｘとし、式（１）を用いて累積和ｙを算出し、一様分布で生成した乱数ｒに基づいて式（２）を用いてデータ列ｚを作成する。データ列ｚにおいて始めに値が１となる要素のインデックス番号が１であれば実現値０として観測ノード３０２は選択されず、インデックス番号が２であれば実現値１として観測ノード３０２が選択される。当該処理を観測ノード３０３〜３０５に対しても行う。

これにより、時系列データを生成する観測ノードが選択される。選択されれば、処理はステップＳ６１５へと進む。

（ステップＳ６１５）
ステップＳ６１５において、データ生成部１０５は、時系列のインデックスｔを初期化する。初期化が完了したら処理はステップＳ６１６へと進む。

（ステップＳ６１６）
ステップＳ６１６において、データ生成部１０５は、選択された観測ノードのクラスタ（ガウス分布）に対してサンプリングを実行し、観測ノードに対応する時系列データが発生する位置・特徴量を生成する。また、データ生成部１０５は、生成した特徴量から、式（４）を用いて画像を併せて生成する。生成した時系列データ（位置・特徴量・隠れ状態・画像）は記憶部１１１に記憶され、処理はステップＳ６１７へと進む。

（ステップＳ６１７）
ステップＳ６１７において、データ生成部１０５は、時系列のインデックスｔが指定した時系列数Ｔ以上であるか否かを判定する。指定した時系列数Ｔ未満であれば、処理はステップＳ６１８へと進む。一方、指定した時系列数Ｔ以上であれば、処理はステップＳ６１９へと進む。

（ステップＳ６１８）
ステップＳ６１８において、データ生成部１０５は、時系列のインデックスｔを更新する。更新が完了すれば、処理はステップＳ６１６へと戻る。

（ステップＳ６１９）
ステップＳ６１９において、データ生成部１０５は、生成するデータ数のインデックスｎが指定数Ｎ以上であるか否かを判定する。指定数Ｎ未満であれば、処理はステップＳ６２０へと進む。一方、指定数Ｎ以上であれば、処理は終了する。

（ステップＳ６２０）
ステップＳ６２０において、データ生成部１０５は、生成するデータ数のインデックスｎをインクリメントして更新する。そして、処理はステップＳ６１２へと戻る。以降、時系列データの生成処理が、インデックスｎが指定数Ｎに到達するまで繰り返し実行される。以上が、本実施形態に係るデータ生成部の処理フローである。

以上説明したように、第１の実施形態では、監視カメラの映像を用いて映像データ内で発生する対象の行動を学習したモデルから、映像データ内で発生する対象の行動を状態別に可視化してユーザに対して提示する。これにより、学習したモデルにおいて、どのような行動が学習されているかを容易に把握することができる。

（第２の実施形態）
＜概要＞
第２の実施形態では、学習したモデルに基づいて映像に合成して表示した代表時系列データの中から１つをユーザが選択し、選択された代表時系列データと類似するものとしてまとめられた時系列データを表示する。これにより、１つの時系列データに対してどのようなバリエーションが学習されているかを容易に理解することができる。

＜装置構成＞
図７は、本実施形態に係る情報処理装置７００の構成例を示している。なお、上述した第１の実施形態における各構成と同一の構成については、同一の符号を付して説明を省略する。情報処理装置７００は、情報処理装置１００の構成に加えて、データ指定部７０８を備えている。データ指定部７０８の機能について図８を併せて参照して説明する。図８は、選択した代表時系列データを表示している例を示している。

データ指定部７０８は、データ選択部１０６により選択された代表時系列データを合成した映像データ８０１の中から、ユーザのＧＵＩ操作８０２に基づいて、代表時系列データを１つ指定する。

指定方法としては、ユーザがＧＵＩ操作８０２でクリックした画像上の座標に対して、表示されている代表時系列データの中で最も近い軌跡の位置のデータが指定される。ユーザが代表時系列データを指定したら、指定された代表時系列データのインデックス番号が可視化部１０７へと出力される。

可視化部１０７は、データ選択部１０６により選択された代表時系列データを映像データに重ねて表示する際、データ指定部７０８により指定されたインデックス番号と同一のインデックス番号を有する時系列データを記憶部１１１から取得して映像に合成する。例えば、映像データ８０３に示されるように、データ指定部７０８により指定されたインデックス番号のみを有する時系列データを表示する。このとき、表示方法としては、別の画面に表示してもよいし、代表時系列データを合成した映像データ８０１から、詳細行動を示す映像データ８０３へ切り替えて表示してもよい。

これにより、時系列データで発生するデータのバリエーションを可視化して表示することが可能となる。

＜処理＞
続いて、図９に示すフローチャートを用いて、本実施形態における情報処理装置が実施する処理の手順を説明する。なお、同フローチャートに従ったプログラムコードは、不図示のＲＡＭやＲＯＭなどのメモリに格納され、不図示のＣＰＵなどの制御部により読み出されて実行される。第１の実施形態で説明した図６（ａ）と同一の番号を付与したステップについては説明を省略する。

（ステップＳ９０７）
ステップＳ９０７において、データ指定部７０８は、ユーザのＧＵＩ操作８０２に基づいて、可視化部１０７によりで表示されている代表時系列データの中から１つを選択することにより、代表時系列データを指定する。例えば、ＧＵＩ操作８０２で映像データ内の特定の位置をクリックすることにより選択を行う。クリックされた位置と、表示されている代表時系列データの軌跡の位置との距離が最も近い代表時系列データが指定される。データ指定部７０８により指定された代表時系列データのインデックス番号が可視化部１０７へと出力され、処理はステップＳ９０８へと進む。

（ステップＳ９０８）
ステップＳ９０８において、可視化部１０７は、データ指定部７０８により指定された代表時系列データのインデックス番号を取得する。そして、データ選択部１０６によりクラスタリングされた代表時系列データとインデックス番号が同一のクラスタと判定された時系列データを、映像に合成して映像データ８０３として表示する。以上が、本実施形態に係るデータ生成部の処理フローである。

以上説明したように、第２の実施形態によれば、学習したモデルに基づいて映像に合成して表示した代表時系列データの中から１つをユーザが選択し、選択された代表時系列データと類似するものとしてまとめられた時系列データを表示する。これにより、１つの時系列データに対してどのようなバリエーションが学習されているかを容易に理解することができる。

（第３の実施形態）
＜概要＞
第３の実施形態では、学習したモデルに基づいて、学習した特徴量の分布境界内・分布境界外の時系列データを、異なる表示態様で可視化して表示する。これにより、ユーザは実際にモデルが学習した行動・学習していない行動の内容を確認することが可能となる。また、ユーザは、学習された行動と、学習されていない行動との差異を容易に理解することが可能となる。

＜装置構成＞
図１０は、本実施形態に係る情報処理装置１０００の構成例を示している。なお、上述した第１の実施形態、第２の実施形態における各構成と同一の構成については、同一の符号を付して説明を省略する。

情報処理装置１０００は、情報処理装置７００の構成と同様であるが、データ生成部１０５、可視化部１０７に代えてデータ生成部１００５、可視化部１００７を備えており、各処理の内容が異なっている。

データ生成部１００５は、事前状態をサンプリングによる方法で決定し、状態遷移確率に基づいて遷移させて隠れ状態を決定し、時系列データを生成する観測ノードを選択する。観測ノードを選択したら、対応する観測ノードのガウス分布に対してサンプリングを行って時系列データを生成するが、この時、ユーザが設定した距離の範囲内にある時系列データを選択する。

図１１は、分布境界付近の時系列データを選択して可視化した様子を示している。観測ノードが持つ特徴量のガウス分布１１０１に対してサンプリングにより時系列データを生成し、生成した時系列データとガウス分布重心との距離を、式（５）を用いて評価する。

ここで、dist_min及びdist_maxはそれぞれ指定した値でもよいし、ガウス分布の偏差σを基準に一定の範囲内としてもよい。本実施形態では、距離として、ガウス分布の分散を用いてマハラノビス距離を算出するが、それ以外の方法を用いてもよい。生成した時系列データが式（５）を満たす場合、時系列データをさらに式（６）を用いて評価する。

ここで、σはガウス分布１１０１の偏差である。式（６）が真であれば分布境界内の時系列データ１１０２として記憶され、偽であれば分布境界外の時系列データ１１０３として記憶される。図１１における軌跡１１０４及び軌跡１１０５については後述する。このようにして生成された時系列データ１１０２、時系列データ１１０３は、記憶部１１１に記憶される。

可視化部１００７は、ユーザが選択した時系列データの詳細を表示する。この際、選択された代表時系列データの各時系列データ１１０２、１１０３を記憶部１１１から読み込み、映像データに合成する。図１１において、時系列データ１１０２を映像データに合成した結果が軌跡１１０４であり、時系列データ１１０３を映像データに合成した結果が軌跡１１０５である。

この例では、モデルには車道を走る自転車が学習されているが、車道から歩道を走る自転車は学習されていないことを示している。この時、軌跡１１０４と、軌跡１１０５とで、軌跡の線の種類（表示態様）を変更して表示することにより、学習したモデルの分布の境界内外を表現している。また、ガウス分布を併せて表示し、ガウス分布境界内の時系列データ１１０２と軌跡１１０４とを対応付け、ガウス分布境界外の時系列データ１１０３と軌跡１１０５とを対応付けて、それぞれ表示してもよい。以上が、本実施形態に係る情報処理装置１０００の構成である。

＜処理＞
続いて、図１２に示すフローチャートを用いて、本実施形態における情報処理装置１０００が実施する処理の手順を説明する。なお、同フローチャートに従ったプログラムコードは、不図示のＲＡＭやＲＯＭなどのメモリに格納され、不図示のＣＰＵなどの制御部により読み出されて実行される。第１の実施形態で説明した図６（ａ）、第２の実施形態で説明した図９と同一の番号を付与したステップについては説明を省略する。

（ステップＳ１２０５）
ステップＳ１２０５において、データ生成部１００５は、事前状態をサンプリングによる方法で決定し、状態遷移確率に基づいて遷移させて隠れ状態を決定し、時系列データを生成する観測ノードを選択する。観測ノードを選択したら、対応する観測ノードのガウス分布に対してサンプリングを行って時系列データを生成するが、この時、ユーザが設定した距離の範囲内にある時系列データを選択する。例えば、図１１に示すように、観測ノードが持つ特徴量のガウス分布１１０１に対して乱数により時系列データを生成し、生成した時系列データの分布重心との距離を、式（５）を用いて評価する。生成した時系列データが式（５）を満たす場合、次に、その時系列データを、式（６）を用いて評価する。式（６）が真であれば分布境界内の時系列データ１１０２として記憶され、偽であれば分布境界外の時系列データ１１０３として記憶される。データ生成部１００５により生成された時系列データ１１０２及び時系列データ１１０３は、データ選択部１０６へと送られ、処理はステップＳ６０６へと進む。

（ステップＳ１２０８）
ステップＳ１２０８において、可視化部１００７は、ユーザが選択した時系列データの詳細を表示する。この際、選択された代表時系列データの各時系列データ１１０２及び時系列データ１１０３を映像データに合成する。図１１において、時系列データ１１０２を映像データに合成した結果が軌跡１１０４であり、時系列データ１１０３を映像データに合成した結果が軌跡１１０５である。この例では、モデルには、車道を走る自転車が学習されているが、車道から歩道を走る自転車は学習されていないことを示している。この時、合成した軌跡１１０４と軌跡１１０５とでは、時系列データの生成時に記憶したガウス分布内のデータであるかどうかに基づいて軌跡の線の種類を変更して示すなどして、異なる表示態様で表示する。以上が、本実施形態に係る処理フローである。

以上説明したように、第３の実施形態によれば、学習したモデルに基づいて、学習した特徴量の分布境界内・分布境界外の時系列データを、異なる表示態様で可視化して表示する。これにより、ユーザは実際にモデルが学習した行動・学習していない行動の内容を確認することが可能となる。また、ユーザは、学習された行動と、学習されていない行動との差異を容易に理解することが可能となる。

（第４の実施形態）
＜概要＞
第４の実施形態では、モデルを学習するのに用いる映像データを、ユーザが選択してリストを作成する。そして、リストに含まれる映像データを用いてモデルを学習し、モデルを可視化する。ユーザが確認し、ユーザ操作に応じてモデルの学習が十分であるかを判定する。これにより、学習が不十分である場合、ユーザが映像データを追加・削除してリストを再作成し、モデルを再学習させることを容易に行うことが可能となる。

＜装置構成＞
図１３は、本実施形態に係る情報処理装置１３００の構成例を示している。なお、上述した第１の実施形態、第２の実施形態、第３の実施形態における各構成と同一の構成については、同一の符号を付して説明を省略する。

情報処理装置１３００は、情報処理装置１０００の構成と同様であるが、映像取得部１０１に代えて映像取得部１３０１を備えており、処理の内容が異なっている。また、リスト作成部１３０９、リスト保存部１３１１、映像保存部１３１２をさらに備えている。

リスト作成部１３０９は、モデルを学習するのに用いる映像データを、ユーザ操作に基づいて選択してリストを作成する。例えば、ＧＵＩ操作により映像ファイルをドラッグ＆ドロップすることで映像データを選択することができる。また、映像ファイルが保存された場所を記述したリストを作成してもよい。また、リストを作成するだけでなく、既存のリストに対して新たに映像データの追加又は削除が可能に構成してもよい。リスト作成部１３０９により作成されたリストは、リスト保存部１３１１へ出力されて保存される。

リスト保存部１３１１は、リスト作成部１３０９により作成された、モデルを学習するのに用いる映像データのリストを保存する。映像保存部１３１２は、映像データを保存する。

映像取得部１３０１は、リスト保存部１３１１に保存されているリストを読み込み、リストに含まれる映像データを映像保存部１３１２から取得する。

このように、ユーザが映像データを選択してモデルを学習し、可視化することで、学習結果を容易に把握することが可能となる。従って、学習が足りないと判断したら新たに映像データを追加したり、不必要な行動があることを確認した場合に、映像データのリストから該当する行動の映像を削除したりする操作が可能となる。このように、リストを更新し、再度学習モデルを作成することができるため、ユーザが意図した学習モデルを作成することが可能となる。

＜処理＞
続いて、図１４に示すフローチャートを用いて、本実施形態における情報処理装置１３００が実施する処理の手順を説明する。なお、同フローチャートに従ったプログラムコードは、不図示のＲＡＭやＲＯＭなどのメモリに格納され、不図示のＣＰＵなどの制御部により読み出されて実行される。第１の実施形態で説明した図６（ａ）、第２の実施形態で説明した図９、第３の実施形態で説明した図１２と同一の番号を付与したステップについては説明を省略する。

（ステップＳ１４１１）
ステップＳ１４１１において、リスト作成部１３０９は、モデルを学習するのに用いる映像データを、ユーザ操作に基づいて選択してリストを作成する。例えば、可視化ソフトウェアの映像データリスト表示画面上に映像ファイルをドラッグ＆ドロップすることで、映像データをリストに追加可能に構成する。また、画面上のリストに表示されている、すでに選択された映像ファイルをクリック選択し、ＤＥＬキーを押下することでリストからファイルを削除可能に構成してもよい。

リスト作成部１３０９によりリストが作成されると、リストのファイルがリスト保存部１３１０へと出力されて保存され、処理はステップＳ１４１２へと進む。

（ステップＳ１４１２）
ステップＳ１４１２において、映像取得部１３０１は、リスト保存部１３１０から取得したリストに基づいて、映像保存部１３１２から映像データを読み込む。全ての映像データが読み込まれると、映像データは軌跡抽出部１０２へと送られ、処理はステップＳ６０２へと進む。

（ステップＳ１４１３）
ステップＳ１４１３において、可視化部１００７は、ユーザ操作に基づいてモデルの学習が十分であるかどうかを判定する。当該判定は、可視化された学習したモデルをユーザが確認し、ユーザ操作による入力を受け付けることにより行う。必要な時系列データが不足しているか、あるいは、不必要な時系列データが表示されており、ユーザ操作の結果、モデルの学習が十分ではないと判定された場合、処理はステップＳ１４１１へと戻り、リスト作成部１３０９により再度映像データリストを作成する。一方、モデルの学習が十分であると判定された場合、さらに、ユーザによる終了ボタンの押下に応じて、処理が終了する。以上が、本実施形態に係る処理フローである。

以上説明したように、第４の実施形態によれば、モデルを学習するのに用いる映像データをユーザが選択してリストを作成する。そして、リストに含まれる映像データを用いてモデルを学習し、モデルを可視化する。ユーザが確認し、ユーザ操作に応じてモデルの学習が十分であるかを判定する。これにより、学習が不十分である場合、ユーザが映像データを追加・削除してリストを再作成し、モデルを再学習させることを容易に行うことが可能となる。

以上、本発明の実施の形態について図面を参照して詳述したが、具体的な構成はその実施形態に限られるものではなく、本発明の要旨を逸脱しない範囲の設計等も含まれる。また、各実施形態は、上記の各実施形態を組み合せて実施してもよい。

また、上記の各実施形態においては、複数の状態・行動を可視化する問題を例に本発明の実施形態について説明したが、本発明の装置は、この発明の要旨を逸脱しない範囲内において一般的な可視化問題に適用することが可能である。例えば、本発明の装置は、映像シーンにおいて発生する正常な行動を学習したモデルを可視化する問題に適用することができる。

また、分布境界内を正常の時系列データ、分布境界外を異常の時系列データとして表示することで、どのような行動が正常と判定され、どのような行動が異常と判定されるかを、ユーザが容易に理解することができる。

（その他の実施形態）
本発明は、上述の実施形態の１以上の機能を実現するプログラムを、ネットワーク又は記憶媒体を介してシステム又は装置に供給し、そのシステム又は装置のコンピュータにおける１つ以上のプロセッサがプログラムを読出し実行する処理でも実現可能である。また、１以上の機能を実現する回路（例えば、ＡＳＩＣ）によっても実現可能である。

１００：情報処理装置、１０１：映像取得部、１０２：軌跡抽出部、１０３：特徴抽出部、１０４：モデル学習部、１０５：データ生成部、１０６：データ選択部、１０７：可視化部、１１０：モデル保存部、１１１：記憶部

Claims

映像データから学習されたモデルから、状態別に対象の時系列データを生成するデータ生成手段と、
前記時系列データの中から１以上の代表時系列データを選択するデータ選択手段と、
前記１以上の代表時系列データを前記状態別に映像データに合成して可視化する可視化手段と、
を備えることを特徴とする情報処理装置。
前記映像データを取得する映像取得手段と、
前記映像データ内の対象の軌跡を抽出する軌跡抽出手段と、
前記映像データから前記対象の特徴を抽出する特徴抽出手段と、
前記軌跡と前記特徴とを用いて、前記対象の行動のモデルを学習するモデル学習手段と、
をさらに備えることを特徴とする請求項１に記載の情報処理装置。
前記特徴抽出手段は、前記軌跡の時刻及び位置の情報に基づいて前記対象の特徴を抽出することを特徴とする請求項２に記載の情報処理装置。
前記可視化手段により可視化されている前記１以上の代表時系列データの中から、ユーザ操作に基づいて１つの代表時系列データを指定するデータ指定手段をさらに備え、
前記可視化手段は、前記ユーザ操作に基づいて前記１つの代表時系列データが指定された場合、当該指定された代表時系列データと類似する時系列データを前記映像データに合成して可視化することを特徴とする請求項１乃至３の何れか１項に記載の情報処理装置。
前記データ生成手段は、生成された時系列データの中から、前記モデルの分布境界付近で生成された時系列データを選択し、
前記可視化手段は、さらに、前記分布境界内の時系列データと前記分布境界外の時系列データとを異なる表示態様で前記映像データに合成して可視化することを特徴とする請求項１乃至４の何れか１項に記載の情報処理装置。
前記データ生成手段は、ユーザにより設定された前記分布境界付近の範囲内の時系列データを選択することを特徴とする請求項５に記載の情報処理装置。
ユーザ操作に基づいて、モデルの学習に用いる映像データを選択してリストを作成するリスト作成手段をさらに備え、
前記映像取得手段は、前記リスト作成手段により作成された前記リストに基づいて映像データを取得することを特徴とする請求項２に記載の情報処理装置。
情報処理装置の制御方法であって、
データ生成手段が、映像データから学習されたモデルから、状態別に対象の時系列データを生成するデータ生成工程と、
データ選択手段が、前記時系列データの中から１以上の代表時系列データを選択するデータ選択工程と、
可視化手段が、前記１以上の代表時系列データを前記状態別に映像データに合成して可視化する可視化工程と、
を有することを特徴とする情報処理装置の制御方法。
コンピュータを、請求項１乃至７の何れか１項に記載の情報処理装置の各手段として機能させるためのプログラム。