JP2019016983A - 情報処理装置、情報処理装置の制御方法及びプログラム - Google Patents

情報処理装置、情報処理装置の制御方法及びプログラム Download PDF

Info

Publication number
JP2019016983A
JP2019016983A JP2017134950A JP2017134950A JP2019016983A JP 2019016983 A JP2019016983 A JP 2019016983A JP 2017134950 A JP2017134950 A JP 2017134950A JP 2017134950 A JP2017134950 A JP 2017134950A JP 2019016983 A JP2019016983 A JP 2019016983A
Authority
JP
Japan
Prior art keywords
data
series data
processing apparatus
information processing
video
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2017134950A
Other languages
English (en)
Inventor
健二 塚本
Kenji Tsukamoto
健二 塚本
大岳 八谷
Hirotaka Hachiya
大岳 八谷
克彦 森
Katsuhiko Mori
克彦 森
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Canon Inc
Original Assignee
Canon Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Canon Inc filed Critical Canon Inc
Priority to JP2017134950A priority Critical patent/JP2019016983A/ja
Publication of JP2019016983A publication Critical patent/JP2019016983A/ja
Pending legal-status Critical Current

Links

Images

Landscapes

  • Closed-Circuit Television Systems (AREA)
  • User Interface Of Digital Computer (AREA)
  • Image Analysis (AREA)

Abstract

【課題】学習したモデルにおいて、対象についてどのような行動が学習されているかを容易に把握するための技術を提供する。【解決手段】情報処理装置であって、映像データから学習されたモデルから、状態別に対象の時系列データを生成するデータ生成部と、時系列データの中から1以上の代表時系列データを選択するデータ選択部と、1以上の代表時系列データを状態別に映像データに合成して可視化する可視化部とを備える。【選択図】 図5

Description

本発明は、情報処理装置、情報処理装置の制御方法及びプログラムに関する。
従来、映像データから対象物の行動・状態を学習してモデルを作成し、学習した対象物の行動・状態から外れる行動・状態を識別する方法が提案されている。特許文献1では、監視カメラの映像に対して映像内の対象物を追跡して移動体の動き・見た目の特徴量を生成し、あらかじめ学習した特徴量との距離に基づいて重要度を算出し、重要度に基づいて要約した映像を生成する技術が提案されている。
一般に、識別結果として、正常な行動でも異常行動と判定される誤検知や、異常行動でも正常な行動と判定される未検知となる事例が発生しうる。その場合、誤検知・未検知となった原因を調査するため、学習に用いた映像と、学習データの特徴量の分布と、判定の対象となる判定データの特徴量とを表示し、学習データの特徴量の分布と、判定データの特徴量との距離関係を調べることが行われる。なお、通常、特徴量は高次元で表示が困難であるため、MDS(Multi Dimensional Scaling)やIsomap(Isometric feature mapping)などが次元削減の目的で用いられることが多い。
特開2012−205097号公報
N.Dalal and B. Triggs, Histograms of Oriented Gradients for Human Detection, In Proceedings of Computer Vision and Pettern Recognition(CVPR),pp.886−893,2005 J.Pers, et al, Histograms of Optical Flow for Efficient Representation of Body Motion, Pattern Recognition Letters, vol.31, no.11, pp.1369−1376,2010 K.P.Murphy,Dynamic Bayesian Network:Representation,Inference and Learning.PhD thesis,UC Berkeley,2002 C.Vondrick,A.Khosla,T.Malisiewicz,A.Torralba,"HOGgles:Visualizing Object Detection Feature",ICCV 2013. G.E.Hinton,"A Practical guide to training restricted Boltzmann machines",Tech.Rep.UTML TR2010−003,Dept.Comput.Sci.,Unitv.Tronto,2010.
しかしながら、判定データの特徴量と、学習データの特徴量の分布との距離関係を表示するだけでは、これらの差異が映像における変化の差異にどのように対応しているかが分かりにくい。従って、学習したモデルにおいて、対象についてどのような行動が学習されているかを把握することが難しく、誤検知・未検知の原因をユーザが理解するのが難しい。
本発明は、上記の課題に鑑みてなされたものであり、学習したモデルにおいて、対象についてどのような行動が学習されているかを容易に把握するための技術を提供する。
上記の目的を達成する本発明の一態様による情報処理装置は、
映像データから学習されたモデルから、状態別に対象の時系列データを生成するデータ生成手段と、
前記時系列データの中から1以上の代表時系列データを選択するデータ選択手段と、
前記1以上の代表時系列データを前記状態別に映像データに合成して可視化する可視化手段と、
を備えることを特徴とする。
本発明によれば、学習したモデルにおいて、対象についてどのような行動が学習されているかを容易に把握することが可能である。
第1の実施形態に係る情報処理装置の構成図である。 第1の実施形態に係る情報処理装置の映像取得部より取得される映像の例を示す図である。 第1の実施形態に係る情報処理装置で学習したモデル構造の例を示す図である。 第1の実施形態に係る情報処理装置で学習したモデルにおける事前確率テーブル、状態遷移確率テーブル、観測確率テーブルの例を示した図である。 第1の実施形態に係る情報処理装置で学習モデルから作成した代表時系列データを可視化した例の図である。 第1の実施形態に係る情報処理装置の処理の手順を示すフローチャートである。 第2の実施形態に係る情報処理装置の構成図である。 第2の実施形態に係るデータ指定について説明する図である。 第2の実施形態に係る情報処理装置の処理の手順を示すフローチャートである。 第3の実施形態に係る情報処理装置の構成図である。 第3の実施形態に係る、学習した分布の境界付近の時系列データを可視化した例を示す図である。 第3の実施形態に係る情報処理装置の処理の手順を示すフローチャートである。 第4の実施形態に係る情報処理装置の構成図である。 第4の実施形態に係る情報処理装置の処理の手順を示すフローチャートである。
以下、図面を参照しながら実施形態を説明する。なお、以下の実施形態において示す構成は一例に過ぎず、本発明は図示された構成に限定されるものではない。
(第1の実施形態)
<概要>
第1の実施形態では、監視カメラの映像を用いて映像内で発生する対象の行動を学習したモデルから、映像内で発生する対象の行動を状態別に可視化してユーザに対して提示する例を説明する。これにより、学習したモデルにおいて、どのような行動が学習されているかを容易に把握することができる。
<装置構成>
図1は、本実施形態に係る情報処理装置100の構成を示している。なお、本実施形態では屋外の交差点のシーンを例として説明するが、その他には商業施設などの屋内や、病院、介護施設、駅などの公共施設であってもよい。
情報処理装置100は、映像取得部101と、軌跡抽出部102と、特徴抽出部103と、モデル学習部104と、データ生成部105と、データ選択部106と、可視化部107と、モデル保存部110と、記憶部111とを備えている。
映像取得部101は、設置された監視カメラ等により撮影された監視対象の映像データを取得する。この映像データの例を図2に示す。接続された監視カメラから直接映像データを取得してもよいし、監視カメラから出力されて録画された映像データをHDD(ハードディスク)、デジタルビデオレコーダから取得してもよい。映像取得部101により取得された映像データ201は、軌跡抽出部102へと出力される。
軌跡抽出部102は、映像取得部101から取得した映像データ201に対して映像内の対象202、203、204、205の軌跡を抽出する。あらかじめ用意したテンプレートを用いたテンプレートマッチングにより映像内の対象202、203、204、205を検出し、テンプレートを対象毎に更新しながら以降のフレームでテンプレートマッチングを行う。これにより、映像内の対象202、203、204、205の軌跡を抽出することができる。
また、軌跡の抽出方法は上記の方法に限定されるものではなく、他の公知の技術を用いて行ってもよい。また、軌跡を抽出する対象は人物や自転車に限定するものではなく、バイクや車両であってもよい。また、撮影シーンに合わせて軌跡を抽出する対象をユーザが予め設定してもよい。軌跡抽出部102により抽出された軌跡の情報は、特徴抽出部103へと出力される。
特徴抽出部103は、軌跡抽出部102により抽出された軌跡の抽出結果を用いて、軌跡が抽出された時刻の画像に対して、その時刻における対象の領域の特徴量を抽出する。例えば、非特許文献1に記載の勾配方向ヒストグラムやテクスチャ特徴量を抽出する。または、非特許文献2に記載の映像データから動きベクトルを抽出して動きベクトルを方向別に分けて強度を足し合わせてヒストグラムにしたMHOF(Multi Histogram of Optical Flow)特徴量を抽出する。また、特徴量の種類は上記に例に限定されるものではなく、その他の特徴量を使用してもよい。
軌跡抽出部102により抽出された軌跡の情報、及び、特徴抽出部103により抽出された対象の領域の特徴量は、モデル学習部104へと出力される。
モデル学習部104は、軌跡抽出部102により抽出された軌跡と、特徴抽出部103により抽出された特徴量とを用いて、映像内で発生する対象の行動のモデルを学習する。例えば、非特許文献3に示すDynamic Bayesian Network(以後、DBN)を用いてモデルを学習する。
ここで、図3は、DBNで学習したモデルのグラフ構造の例を示す。モデル301は、観測可能な観測ノード302〜305と、観測ノード302〜305の出現を表す隠れ状態306(観測から直接観測することができない変数)と、事前状態の確率、状態遷移の確率、各観測ノード302〜305の観測確率とで構成される。
観測ノード302〜305は、軌跡抽出部102により抽出された軌跡と、特徴抽出部103により抽出された特徴量とを用いて、Gaussian Mixture Model(以後、GMMと称する。)の当てはめを収束するまで繰り返すことによりクラスタリングを行って作成される。各GMMの各クラスタが観測ノード302〜305に対応する。例えば、図2に示す映像データ201の場合、右に歩く歩行者202、左に歩く歩行者203、左に走行する自転車204、停止している自転車205が、それぞれクラスタリングにより分類され、各クラスタが観測ノード302〜305に対応付けられる。また、本実施形態では、GMMクラスタリングによる方法で各クラスタを観測ノードと対応付けているが、当該方法に限定されるわけではなく、その他の方法を用いて観測ノードと各クラスタとを対応付けてもよい。
そして、各クラスタが発生する時の隠れ状態306が構築される。また、モデル301は、事前状態の確率、状態遷移確率、各観測ノード302〜305の観測確率の情報を含み、これらの確率を学習する。ここで、図4に、DBNで学習した各確率テーブルを示す。事前状態の確率テーブル401、状態遷移確率テーブル402、隠れ状態別の各観測ノード302〜305の観測確率テーブル403は、映像データ201の出現頻度によって学習される。学習したモデル301(GMMクラスタを含む)と、各確率テーブル401、402、403とは、モデル保存部110に保存される。
データ生成部105は、モデル保存部110から取得したモデル301と、各確率テーブル401、402、403とを用いて、時系列データを生成する。時系列データ生成の手順は、以下の通りである。
1.事前状態の確率テーブル401に基づいて隠れ状態を決定する。
2.事前の隠れ状態と状態遷移確率テーブル402とに基づき、隠れ状態を遷移させる。
3.遷移した隠れ状態に基づいて、各観測ノード302〜305が観測されるかを観測確率テーブル403に基づいて選択する。
4.選択した観測ノードに対応するガウス分布をサンプリングし、時系列データを生成する。
最初に、事前状態の確率テーブル401に基づいて、サンプリングによって隠れ状態を決定する。まず、事前状態の確率テーブル401を参照して、累積和のデータ列yとデータ列zを作成する。事前状態の確率テーブル401から事前確率を要素としたデータ列x(=[状態1の事前確率、状態2の事前確率]=[0.5,0.5])を作成する。このデータ列xに式(1)を適用して、累積和のデータ列yを作成する。また、y=0と仮定する。なお、計算式は一例に過ぎず、他の計算式を用いてもよいことは言うまでもない。
Figure 2019016983
ここで、iはインデックス番号、max(x)はデータ列xの最大値を意味する。この式(1)よりy=[y,y]=[1,2]が得られる。
次に、一様分布に従う乱数を生成し、一様分布に基づく乱数(0〜1)を生成して、rとし、式(2)を用いて累積和のデータ列yの各要素と比較し、累積和の要素が大きければ1、小さければ0としたデータ列zを作成する。
Figure 2019016983
rは乱数で生成した値(0〜1)、yendは累積和データ列の最後の要素である。例えばr=0.235である場合、yend=2なので、zは、1>0.235*2なのでz=1、zは、2>0.235*2なのでz=1となる。従って、z=[z1,]=[1,1]である。
作成されたデータ列zの要素において、値が1である最初の要素のインデックス番号を事前状態として決定する。上記の例の場合、値が1である最初の要素のインデックス番号は1であるため、事前状態は1となる。
次に、決定した事前状態を、状態遷移確率テーブル402に基づいて遷移させる。隠れ状態の遷移は、上記と同様のサンプリング法を用いて行う。
事前状態は1であるので、事前状態1における状態遷移確率を状態遷移確率テーブル402から取得して、データ列x=[事前状態1における状態1への遷移確率,事前状態1における状態2への遷移確率]を作成する。状態遷移確率テーブル402より、x=[0.8,0.2]である。式(1)を適用して累積和のデータ列yを作成すると、y=[1,1.5488]となる。この例ではyend=1.5488である。また、一様分布により生成した乱数r=0.1247とする。yend=1.5488と、乱数r=0.1247とを用いて、式(2)を適用してデータ列zを作成すると、z=[1,1]となる。
データ列zの各要素において値が1である最初の要素のインデックス番号は1であるので、隠れ状態は状態1に遷移する。この時、インデックス番号が2であれば隠れ状態は状態2に遷移することになる。
最後に、遷移した隠れ状態に基づいて観測確率テーブル403から状態に対応する実現値の確率を用いて、各観測ノード302〜305のデータを生成するかどうかを、サンプリングによって決定する。
具体的には、観測ノード302において隠れ状態1における実現値の確率を要素としたデータ列x=[状態1での実現値0の確率,状態1での実現値1の確率]として作成する。観測確率テーブル403より、x=[0.1,0.9]であるから、式(1)を用いて累積和y=[0.4493,1.4493]が求まる。よって、累積和データ列yの最後の要素の値yend=1.4493である。また、一様分布から生成した乱数r=0.8147とする。これらを用いて式(2)よりデータ列zを作成すると、z=[0,1]となる。
この例では、このデータ列zの値が1である最初の要素のインデックス番号が2であるので、観測ノード302は選択しない。一方、データ列zの値が1である最初の要素のインデックス番号が1の場合には観測ノード302を選択することになる。他の観測ノード303〜305についても同様の方法を用いてデータを生成するかどうかを選択する。
データを生成する観測ノードを選択したら、各観測ノードが持つクラスタ(ガウス分布)に基づいて軌跡・特徴量をサンプリングして、指定したフレーム数分繰り返すことで、1つの時系列データが生成される。
この時、生成した特徴量を用いて、非特許文献4の方法を用いて画像を作成することもできる。生成した特徴量のうち、アピアランスに関する特徴量を抽出して、特徴量から画像へと変換する行列を適用することで画像が生成される。
入力画像をxとして、画像xから特徴量yに変換する式をφ(x)とし、その逆変換をφ―1(y)とした場合、式(3)で表される関係が得られる。
Figure 2019016983
この時、φ―1の変換式は、映像取得部101により取得された映像データ201と、特徴量生成部102により生成された特徴量とに基づいて算出することが可能である。この時、画像と特徴量との関係をガウス分布
Figure 2019016983
として、そのパラメータを
Figure 2019016983
Figure 2019016983
とする。特徴量yを画像xに変換する場合、条件付きガウス分布
Figure 2019016983
に基づいて、式(4)により変換することができる。
Figure 2019016983
これにより、特徴量から画像を生成することができる。この変換式φ−1(y)は、各観測ノード302〜305についてそれぞれ別に学習して作成し、それぞれ作成したφ−1(y)を使用して画像を生成してもよい。
また、画像生成は上記の方法に限定されるわけではない。非特許文献5に示すRBM(Restricted Boltzmann Machine)を用いて観測ノード毎にそれぞれモデルを作成し、MCMC(Markov Chain Monte Carlo)によってモデルをサンプリングすることで画像を生成する方法を用いてもよい。
この処理をユーザが指定した回数実行することで、複数の時系列データが生成される。生成された複数の時系列データは記憶部111へと記憶される。
データ選択部106は、データ生成部105により生成された複数の時系列データのうち、類似する時系列データをまとめて、代表時系列データを選択する。時系列データをまとめる方法としては、状態別に生成した時系列データの位置に対してk−meansクラスタリングを適用し、クラスタリング結果からクラスタ重心に最も近い時系列データを選択して代表時系列データとすることができる。選択するデータ数はモデル301のクラスタ数と合わせてもよいし、ユーザが入力したクラスタ数でクラスタリングを行い、代表時系列データを選択してもよい。また、時系列データをまとめる方法は、k−meansクラスタリングに限定されるものではなく、他の公知の方法を用いてもよい。選択された代表時系列データと、各時系列データが属するクラスタ番号とが、記憶部111に記憶される。
可視化部107は、データ選択部106により選択された代表時系列データを記憶部111から読み込み、映像データ201に重ねて表示する。映像データ201については、映像データ取得部101により取得された映像データ201の中から背景画像をユーザが1枚選択することにより取得されてもよいし、映像データ201の中からランダムに選択されてもよい。
可視化部107は、例えば図5に示されるように、データ選択部106により選択された代表時系列データを、データ生成部105により時系列データが作成された時の状態別に分けて表示する。例えば、状態1で発生する行動を可視化した例が501であり、状態2で発生する時系列データを可視化した例が502である。このとき、データ生成部105が画像を生成している場合、映像に画像を重ねて表示してもよい。以上が、本実施形態に係る情報処理装置100の構成である。
また、本実施形態の説明では、データ生成部105において、隠れ状態を決定して時系列データを生成しているが、データ生成中に隠れ状態を遷移させてもよい。その場合、データ生成の開始時の状態を基準として、状態別に表示を行う。
<処理>
続いて、図6に示すフローチャートを用いて、本実施形態における情報処理装置100が実施する処理の手順を説明する。なお、同フローチャートに従ったプログラムコードは、不図示のRAMやROMなどのメモリに格納され、不図示のCPUなどの制御部により読み出されて実行される。
(ステップS601)
ステップS601において、映像取得部101は、映像データ201を取得する。映像データ201は、あらかじめ撮影された映像データから取得されてもよいし、設置されたカメラから順次取得されてもよい。映像取得部101により取得された映像データ201は、軌跡抽出部102へと送られ、処理はステップS602へと進む。
(ステップS602)
ステップS602において、軌跡抽出部102は、映像取得部101から取得した映像データ201に対して映像内の対象202、203、204、205の軌跡を抽出する。軌跡の抽出には、あらかじめテンプレートを用意し、テンプレートマッチングを用いて映像内の画像から対象を検出し、テンプレートを更新しながら検出する。また、対象に対してパーティクルフィルタを用いて追跡することにより、映像内での対象の軌跡を抽出してもよい。
また、軌跡抽出方法は、上記の方法に限定されるものではなく、他の方法を用いてもよい。また、軌跡を抽出する対象は人や自転車に限定されるものではなく、バイクや自動車などの車両、動物、その他の移動体であってもよい。軌跡抽出部102により抽出された軌跡情報と各フレームでの軌跡の位置における物体領域の情報とは、特徴抽出部103へと送られ、処理はステップS603へと進む。
(ステップS603)
ステップS603において、特徴抽出部103は、軌跡抽出部102により抽出された軌跡情報及び物体領域情報と、映像データ201とに基づいて特徴量を抽出する。特徴量の抽出は、フレーム毎に、抽出された軌跡位置の物体領域に対して、HOG特徴量やテクスチャ特徴量や、MHOF特徴量を抽出することにより行う。また、他の特徴量を併せて抽出してもよい。
特徴抽出部103により抽出された特徴量は、モデル学習部104へと送られ、処理はステップS604へと進む。
(ステップS604)
ステップS604において、モデル学習部104は、映像データ201から抽出した軌跡・特徴量を用いてモデルの学習を行う。モデルの学習にはDBNなどの公知の方法を用いて学習する。DBNにより学習したモデル、特徴量をクラスタリングして作成した観測ノード302〜305と隠れ状態306の構造のモデル301が作られる。そして、モデル301について、事前状態の確率テーブル、状態遷移確率テーブル402、各状態の各観測ノードの観測確率テーブル403が学習される。
学習したモデル301と、各確率テーブル401、402、403はモデル保存部110に保存される。そして、処理はステップS605へと進む。
(ステップS605)
ステップS605において、データ生成部105は、モデル保存部110に保存されている学習モデル301と各確率テーブル401、402、403とを取得し、時系列データを生成する。当該データ生成処理の詳細は、図6(b)のフローチャートを参照して後述する。データ生成部105により生成された時系列データは、記憶部111に記憶される。そして、処理はステップS606へと進む。
(ステップS606)
ステップS606において、データ選択部106は、記憶部111から読み込んだ時系列データの中から代表時系列データを選択する。代表時系列データの選択方法の一例としては、生成された特徴量からk−meansクラスタリングでクラスタリングし、クラスタ重心に近い特徴量の時系列データを選択することにより、代表時系列データを選択することができる。データ選択部106により選択された代表時系列データは記憶部111へと記憶され、代表時系列データに対応するクラスタのインデックス番号が記憶される。そして、処理はステップS607へと進む。
(ステップS607)
ステップS607において、可視化部107は、記憶部111に記憶された代表時系列データを、映像データ201に重畳して表示する。表示する際には、代表時系列データを生成した時の状態別に分けて、状態1に対応する代表時系列データを例えば図5の501のように、状態2に対応する代表時系列データを例えば502のように、それぞれ表示する。以上が、本実施形態に係る可視化処理の手順である。
次に、図6(b)のフローチャートを参照して、ステップS605のデータ生成処理の詳細について説明する。
(ステップS611)
ステップS611において、データ生成部105は、生成する時系列データのインデックスnを初期化する。初期化が完了したら、処理はステップS612へと進む。
(ステップS612)
ステップS612において、データ生成部105は、学習モデル301の事前状態を決定する。事前状態の決定には、学習した事前確率テーブル401を用いて、状態1及び状態2の確率を要素xとしたサンプリング法を用いる。事前状態の確率を要素xとし、式(1)を用いて累積和yを算出し、一様分布で生成した乱数rに基づいて、式(2)を用いて要素が0もしくは1のデータ列zを求める。このデータ列zの要素において始めに値が1となる要素のインデックス番号を事前状態として選択する。事前状態が決定したら、処理はステップS613へと進む。
(ステップS613)
ステップS613において、データ生成部105は、事前状態を学習した状態遷移確率テーブル402を用いて、モデル301の隠れ状態を遷移させる。ステップS612で選択された事前状態に基づいて、サンプリング法を用いて状態を遷移させる。
ここで、事前状態が状態1の場合を例に説明する。状態1における状態遷移確率テーブル402の状態1の行を要素としたデータ列xを用いて、式(1)で累積和データ列yを作成し、0〜1の一様分布から生成した乱数rから式(2)を用いてデータ列zを求める。データ列zの要素において始めに値が1である要素のインデックス番号を求める。インデックス番号が1であれば隠れ状態は状態1のままであり、インデックス番号が2であれば隠れ状態が状態2に遷移したことになる。隠れ状態を遷移させたら、処理はステップS614へと進む。
(ステップS614)
ステップS614において、データ生成部105は、遷移した隠れ状態に基づいて各観測ノード302〜305のうち、どの観測ノードの時系列データを生成するかを選択する。まず、遷移した隠れ状態に基づいて使用する観測確率を観測確率テーブル403から選択する。そして、観測ノード302の実現値の確率を要素xとし、式(1)を用いて累積和yを算出し、一様分布で生成した乱数rに基づいて式(2)を用いてデータ列zを作成する。データ列zにおいて始めに値が1となる要素のインデックス番号が1であれば実現値0として観測ノード302は選択されず、インデックス番号が2であれば実現値1として観測ノード302が選択される。当該処理を観測ノード303〜305に対しても行う。
これにより、時系列データを生成する観測ノードが選択される。選択されれば、処理はステップS615へと進む。
(ステップS615)
ステップS615において、データ生成部105は、時系列のインデックスtを初期化する。初期化が完了したら処理はステップS616へと進む。
(ステップS616)
ステップS616において、データ生成部105は、選択された観測ノードのクラスタ(ガウス分布)に対してサンプリングを実行し、観測ノードに対応する時系列データが発生する位置・特徴量を生成する。また、データ生成部105は、生成した特徴量から、式(4)を用いて画像を併せて生成する。生成した時系列データ(位置・特徴量・隠れ状態・画像)は記憶部111に記憶され、処理はステップS617へと進む。
(ステップS617)
ステップS617において、データ生成部105は、時系列のインデックスtが指定した時系列数T以上であるか否かを判定する。指定した時系列数T未満であれば、処理はステップS618へと進む。一方、指定した時系列数T以上であれば、処理はステップS619へと進む。
(ステップS618)
ステップS618において、データ生成部105は、時系列のインデックスtを更新する。更新が完了すれば、処理はステップS616へと戻る。
(ステップS619)
ステップS619において、データ生成部105は、生成するデータ数のインデックスnが指定数N以上であるか否かを判定する。指定数N未満であれば、処理はステップS620へと進む。一方、指定数N以上であれば、処理は終了する。
(ステップS620)
ステップS620において、データ生成部105は、生成するデータ数のインデックスnをインクリメントして更新する。そして、処理はステップS612へと戻る。以降、時系列データの生成処理が、インデックスnが指定数Nに到達するまで繰り返し実行される。以上が、本実施形態に係るデータ生成部の処理フローである。
以上説明したように、第1の実施形態では、監視カメラの映像を用いて映像データ内で発生する対象の行動を学習したモデルから、映像データ内で発生する対象の行動を状態別に可視化してユーザに対して提示する。これにより、学習したモデルにおいて、どのような行動が学習されているかを容易に把握することができる。
(第2の実施形態)
<概要>
第2の実施形態では、学習したモデルに基づいて映像に合成して表示した代表時系列データの中から1つをユーザが選択し、選択された代表時系列データと類似するものとしてまとめられた時系列データを表示する。これにより、1つの時系列データに対してどのようなバリエーションが学習されているかを容易に理解することができる。
<装置構成>
図7は、本実施形態に係る情報処理装置700の構成例を示している。なお、上述した第1の実施形態における各構成と同一の構成については、同一の符号を付して説明を省略する。情報処理装置700は、情報処理装置100の構成に加えて、データ指定部708を備えている。データ指定部708の機能について図8を併せて参照して説明する。図8は、選択した代表時系列データを表示している例を示している。
データ指定部708は、データ選択部106により選択された代表時系列データを合成した映像データ801の中から、ユーザのGUI操作802に基づいて、代表時系列データを1つ指定する。
指定方法としては、ユーザがGUI操作802でクリックした画像上の座標に対して、表示されている代表時系列データの中で最も近い軌跡の位置のデータが指定される。ユーザが代表時系列データを指定したら、指定された代表時系列データのインデックス番号が可視化部107へと出力される。
可視化部107は、データ選択部106により選択された代表時系列データを映像データに重ねて表示する際、データ指定部708により指定されたインデックス番号と同一のインデックス番号を有する時系列データを記憶部111から取得して映像に合成する。例えば、映像データ803に示されるように、データ指定部708により指定されたインデックス番号のみを有する時系列データを表示する。このとき、表示方法としては、別の画面に表示してもよいし、代表時系列データを合成した映像データ801から、詳細行動を示す映像データ803へ切り替えて表示してもよい。
これにより、時系列データで発生するデータのバリエーションを可視化して表示することが可能となる。
<処理>
続いて、図9に示すフローチャートを用いて、本実施形態における情報処理装置が実施する処理の手順を説明する。なお、同フローチャートに従ったプログラムコードは、不図示のRAMやROMなどのメモリに格納され、不図示のCPUなどの制御部により読み出されて実行される。第1の実施形態で説明した図6(a)と同一の番号を付与したステップについては説明を省略する。
(ステップS907)
ステップS907において、データ指定部708は、ユーザのGUI操作802に基づいて、可視化部107によりで表示されている代表時系列データの中から1つを選択することにより、代表時系列データを指定する。例えば、GUI操作802で映像データ内の特定の位置をクリックすることにより選択を行う。クリックされた位置と、表示されている代表時系列データの軌跡の位置との距離が最も近い代表時系列データが指定される。データ指定部708により指定された代表時系列データのインデックス番号が可視化部107へと出力され、処理はステップS908へと進む。
(ステップS908)
ステップS908において、可視化部107は、データ指定部708により指定された代表時系列データのインデックス番号を取得する。そして、データ選択部106によりクラスタリングされた代表時系列データとインデックス番号が同一のクラスタと判定された時系列データを、映像に合成して映像データ803として表示する。以上が、本実施形態に係るデータ生成部の処理フローである。
以上説明したように、第2の実施形態によれば、学習したモデルに基づいて映像に合成して表示した代表時系列データの中から1つをユーザが選択し、選択された代表時系列データと類似するものとしてまとめられた時系列データを表示する。これにより、1つの時系列データに対してどのようなバリエーションが学習されているかを容易に理解することができる。
(第3の実施形態)
<概要>
第3の実施形態では、学習したモデルに基づいて、学習した特徴量の分布境界内・分布境界外の時系列データを、異なる表示態様で可視化して表示する。これにより、ユーザは実際にモデルが学習した行動・学習していない行動の内容を確認することが可能となる。また、ユーザは、学習された行動と、学習されていない行動との差異を容易に理解することが可能となる。
<装置構成>
図10は、本実施形態に係る情報処理装置1000の構成例を示している。なお、上述した第1の実施形態、第2の実施形態における各構成と同一の構成については、同一の符号を付して説明を省略する。
情報処理装置1000は、情報処理装置700の構成と同様であるが、データ生成部105、可視化部107に代えてデータ生成部1005、可視化部1007を備えており、各処理の内容が異なっている。
データ生成部1005は、事前状態をサンプリングによる方法で決定し、状態遷移確率に基づいて遷移させて隠れ状態を決定し、時系列データを生成する観測ノードを選択する。観測ノードを選択したら、対応する観測ノードのガウス分布に対してサンプリングを行って時系列データを生成するが、この時、ユーザが設定した距離の範囲内にある時系列データを選択する。
図11は、分布境界付近の時系列データを選択して可視化した様子を示している。観測ノードが持つ特徴量のガウス分布1101に対してサンプリングにより時系列データを生成し、生成した時系列データとガウス分布重心との距離を、式(5)を用いて評価する。
Figure 2019016983
ここで、distmin及びdistmaxはそれぞれ指定した値でもよいし、ガウス分布の偏差σを基準に一定の範囲内としてもよい。本実施形態では、距離として、ガウス分布の分散を用いてマハラノビス距離を算出するが、それ以外の方法を用いてもよい。生成した時系列データが式(5)を満たす場合、時系列データをさらに式(6)を用いて評価する。
Figure 2019016983
ここで、σはガウス分布1101の偏差である。式(6)が真であれば分布境界内の時系列データ1102として記憶され、偽であれば分布境界外の時系列データ1103として記憶される。図11における軌跡1104及び軌跡1105については後述する。このようにして生成された時系列データ1102、時系列データ1103は、記憶部111に記憶される。
可視化部1007は、ユーザが選択した時系列データの詳細を表示する。この際、選択された代表時系列データの各時系列データ1102、1103を記憶部111から読み込み、映像データに合成する。図11において、時系列データ1102を映像データに合成した結果が軌跡1104であり、時系列データ1103を映像データに合成した結果が軌跡1105である。
この例では、モデルには車道を走る自転車が学習されているが、車道から歩道を走る自転車は学習されていないことを示している。この時、軌跡1104と、軌跡1105とで、軌跡の線の種類(表示態様)を変更して表示することにより、学習したモデルの分布の境界内外を表現している。また、ガウス分布を併せて表示し、ガウス分布境界内の時系列データ1102と軌跡1104とを対応付け、ガウス分布境界外の時系列データ1103と軌跡1105とを対応付けて、それぞれ表示してもよい。以上が、本実施形態に係る情報処理装置1000の構成である。
<処理>
続いて、図12に示すフローチャートを用いて、本実施形態における情報処理装置1000が実施する処理の手順を説明する。なお、同フローチャートに従ったプログラムコードは、不図示のRAMやROMなどのメモリに格納され、不図示のCPUなどの制御部により読み出されて実行される。第1の実施形態で説明した図6(a)、第2の実施形態で説明した図9と同一の番号を付与したステップについては説明を省略する。
(ステップS1205)
ステップS1205において、データ生成部1005は、事前状態をサンプリングによる方法で決定し、状態遷移確率に基づいて遷移させて隠れ状態を決定し、時系列データを生成する観測ノードを選択する。観測ノードを選択したら、対応する観測ノードのガウス分布に対してサンプリングを行って時系列データを生成するが、この時、ユーザが設定した距離の範囲内にある時系列データを選択する。例えば、図11に示すように、観測ノードが持つ特徴量のガウス分布1101に対して乱数により時系列データを生成し、生成した時系列データの分布重心との距離を、式(5)を用いて評価する。生成した時系列データが式(5)を満たす場合、次に、その時系列データを、式(6)を用いて評価する。式(6)が真であれば分布境界内の時系列データ1102として記憶され、偽であれば分布境界外の時系列データ1103として記憶される。データ生成部1005により生成された時系列データ1102及び時系列データ1103は、データ選択部106へと送られ、処理はステップS606へと進む。
(ステップS1208)
ステップS1208において、可視化部1007は、ユーザが選択した時系列データの詳細を表示する。この際、選択された代表時系列データの各時系列データ1102及び時系列データ1103を映像データに合成する。図11において、時系列データ1102を映像データに合成した結果が軌跡1104であり、時系列データ1103を映像データに合成した結果が軌跡1105である。この例では、モデルには、車道を走る自転車が学習されているが、車道から歩道を走る自転車は学習されていないことを示している。この時、合成した軌跡1104と軌跡1105とでは、時系列データの生成時に記憶したガウス分布内のデータであるかどうかに基づいて軌跡の線の種類を変更して示すなどして、異なる表示態様で表示する。以上が、本実施形態に係る処理フローである。
以上説明したように、第3の実施形態によれば、学習したモデルに基づいて、学習した特徴量の分布境界内・分布境界外の時系列データを、異なる表示態様で可視化して表示する。これにより、ユーザは実際にモデルが学習した行動・学習していない行動の内容を確認することが可能となる。また、ユーザは、学習された行動と、学習されていない行動との差異を容易に理解することが可能となる。
(第4の実施形態)
<概要>
第4の実施形態では、モデルを学習するのに用いる映像データを、ユーザが選択してリストを作成する。そして、リストに含まれる映像データを用いてモデルを学習し、モデルを可視化する。ユーザが確認し、ユーザ操作に応じてモデルの学習が十分であるかを判定する。これにより、学習が不十分である場合、ユーザが映像データを追加・削除してリストを再作成し、モデルを再学習させることを容易に行うことが可能となる。
<装置構成>
図13は、本実施形態に係る情報処理装置1300の構成例を示している。なお、上述した第1の実施形態、第2の実施形態、第3の実施形態における各構成と同一の構成については、同一の符号を付して説明を省略する。
情報処理装置1300は、情報処理装置1000の構成と同様であるが、映像取得部101に代えて映像取得部1301を備えており、処理の内容が異なっている。また、リスト作成部1309、リスト保存部1311、映像保存部1312をさらに備えている。
リスト作成部1309は、モデルを学習するのに用いる映像データを、ユーザ操作に基づいて選択してリストを作成する。例えば、GUI操作により映像ファイルをドラッグ&ドロップすることで映像データを選択することができる。また、映像ファイルが保存された場所を記述したリストを作成してもよい。また、リストを作成するだけでなく、既存のリストに対して新たに映像データの追加又は削除が可能に構成してもよい。リスト作成部1309により作成されたリストは、リスト保存部1311へ出力されて保存される。
リスト保存部1311は、リスト作成部1309により作成された、モデルを学習するのに用いる映像データのリストを保存する。映像保存部1312は、映像データを保存する。
映像取得部1301は、リスト保存部1311に保存されているリストを読み込み、リストに含まれる映像データを映像保存部1312から取得する。
このように、ユーザが映像データを選択してモデルを学習し、可視化することで、学習結果を容易に把握することが可能となる。従って、学習が足りないと判断したら新たに映像データを追加したり、不必要な行動があることを確認した場合に、映像データのリストから該当する行動の映像を削除したりする操作が可能となる。このように、リストを更新し、再度学習モデルを作成することができるため、ユーザが意図した学習モデルを作成することが可能となる。
<処理>
続いて、図14に示すフローチャートを用いて、本実施形態における情報処理装置1300が実施する処理の手順を説明する。なお、同フローチャートに従ったプログラムコードは、不図示のRAMやROMなどのメモリに格納され、不図示のCPUなどの制御部により読み出されて実行される。第1の実施形態で説明した図6(a)、第2の実施形態で説明した図9、第3の実施形態で説明した図12と同一の番号を付与したステップについては説明を省略する。
(ステップS1411)
ステップS1411において、リスト作成部1309は、モデルを学習するのに用いる映像データを、ユーザ操作に基づいて選択してリストを作成する。例えば、可視化ソフトウェアの映像データリスト表示画面上に映像ファイルをドラッグ&ドロップすることで、映像データをリストに追加可能に構成する。また、画面上のリストに表示されている、すでに選択された映像ファイルをクリック選択し、DELキーを押下することでリストからファイルを削除可能に構成してもよい。
リスト作成部1309によりリストが作成されると、リストのファイルがリスト保存部1310へと出力されて保存され、処理はステップS1412へと進む。
(ステップS1412)
ステップS1412において、映像取得部1301は、リスト保存部1310から取得したリストに基づいて、映像保存部1312から映像データを読み込む。全ての映像データが読み込まれると、映像データは軌跡抽出部102へと送られ、処理はステップS602へと進む。
(ステップS1413)
ステップS1413において、可視化部1007は、ユーザ操作に基づいてモデルの学習が十分であるかどうかを判定する。当該判定は、可視化された学習したモデルをユーザが確認し、ユーザ操作による入力を受け付けることにより行う。必要な時系列データが不足しているか、あるいは、不必要な時系列データが表示されており、ユーザ操作の結果、モデルの学習が十分ではないと判定された場合、処理はステップS1411へと戻り、リスト作成部1309により再度映像データリストを作成する。一方、モデルの学習が十分であると判定された場合、さらに、ユーザによる終了ボタンの押下に応じて、処理が終了する。以上が、本実施形態に係る処理フローである。
以上説明したように、第4の実施形態によれば、モデルを学習するのに用いる映像データをユーザが選択してリストを作成する。そして、リストに含まれる映像データを用いてモデルを学習し、モデルを可視化する。ユーザが確認し、ユーザ操作に応じてモデルの学習が十分であるかを判定する。これにより、学習が不十分である場合、ユーザが映像データを追加・削除してリストを再作成し、モデルを再学習させることを容易に行うことが可能となる。
以上、本発明の実施の形態について図面を参照して詳述したが、具体的な構成はその実施形態に限られるものではなく、本発明の要旨を逸脱しない範囲の設計等も含まれる。また、各実施形態は、上記の各実施形態を組み合せて実施してもよい。
また、上記の各実施形態においては、複数の状態・行動を可視化する問題を例に本発明の実施形態について説明したが、本発明の装置は、この発明の要旨を逸脱しない範囲内において一般的な可視化問題に適用することが可能である。例えば、本発明の装置は、映像シーンにおいて発生する正常な行動を学習したモデルを可視化する問題に適用することができる。
また、分布境界内を正常の時系列データ、分布境界外を異常の時系列データとして表示することで、どのような行動が正常と判定され、どのような行動が異常と判定されるかを、ユーザが容易に理解することができる。
(その他の実施形態)
本発明は、上述の実施形態の1以上の機能を実現するプログラムを、ネットワーク又は記憶媒体を介してシステム又は装置に供給し、そのシステム又は装置のコンピュータにおける1つ以上のプロセッサがプログラムを読出し実行する処理でも実現可能である。また、1以上の機能を実現する回路(例えば、ASIC)によっても実現可能である。
100:情報処理装置、101:映像取得部、102:軌跡抽出部、103:特徴抽出部、104:モデル学習部、105:データ生成部、106:データ選択部、107:可視化部、110:モデル保存部、111:記憶部

Claims (9)

  1. 映像データから学習されたモデルから、状態別に対象の時系列データを生成するデータ生成手段と、
    前記時系列データの中から1以上の代表時系列データを選択するデータ選択手段と、
    前記1以上の代表時系列データを前記状態別に映像データに合成して可視化する可視化手段と、
    を備えることを特徴とする情報処理装置。
  2. 前記映像データを取得する映像取得手段と、
    前記映像データ内の対象の軌跡を抽出する軌跡抽出手段と、
    前記映像データから前記対象の特徴を抽出する特徴抽出手段と、
    前記軌跡と前記特徴とを用いて、前記対象の行動のモデルを学習するモデル学習手段と、
    をさらに備えることを特徴とする請求項1に記載の情報処理装置。
  3. 前記特徴抽出手段は、前記軌跡の時刻及び位置の情報に基づいて前記対象の特徴を抽出することを特徴とする請求項2に記載の情報処理装置。
  4. 前記可視化手段により可視化されている前記1以上の代表時系列データの中から、ユーザ操作に基づいて1つの代表時系列データを指定するデータ指定手段をさらに備え、
    前記可視化手段は、前記ユーザ操作に基づいて前記1つの代表時系列データが指定された場合、当該指定された代表時系列データと類似する時系列データを前記映像データに合成して可視化することを特徴とする請求項1乃至3の何れか1項に記載の情報処理装置。
  5. 前記データ生成手段は、生成された時系列データの中から、前記モデルの分布境界付近で生成された時系列データを選択し、
    前記可視化手段は、さらに、前記分布境界内の時系列データと前記分布境界外の時系列データとを異なる表示態様で前記映像データに合成して可視化することを特徴とする請求項1乃至4の何れか1項に記載の情報処理装置。
  6. 前記データ生成手段は、ユーザにより設定された前記分布境界付近の範囲内の時系列データを選択することを特徴とする請求項5に記載の情報処理装置。
  7. ユーザ操作に基づいて、モデルの学習に用いる映像データを選択してリストを作成するリスト作成手段をさらに備え、
    前記映像取得手段は、前記リスト作成手段により作成された前記リストに基づいて映像データを取得することを特徴とする請求項2に記載の情報処理装置。
  8. 情報処理装置の制御方法であって、
    データ生成手段が、映像データから学習されたモデルから、状態別に対象の時系列データを生成するデータ生成工程と、
    データ選択手段が、前記時系列データの中から1以上の代表時系列データを選択するデータ選択工程と、
    可視化手段が、前記1以上の代表時系列データを前記状態別に映像データに合成して可視化する可視化工程と、
    を有することを特徴とする情報処理装置の制御方法。
  9. コンピュータを、請求項1乃至7の何れか1項に記載の情報処理装置の各手段として機能させるためのプログラム。
JP2017134950A 2017-07-10 2017-07-10 情報処理装置、情報処理装置の制御方法及びプログラム Pending JP2019016983A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2017134950A JP2019016983A (ja) 2017-07-10 2017-07-10 情報処理装置、情報処理装置の制御方法及びプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2017134950A JP2019016983A (ja) 2017-07-10 2017-07-10 情報処理装置、情報処理装置の制御方法及びプログラム

Publications (1)

Publication Number Publication Date
JP2019016983A true JP2019016983A (ja) 2019-01-31

Family

ID=65358106

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2017134950A Pending JP2019016983A (ja) 2017-07-10 2017-07-10 情報処理装置、情報処理装置の制御方法及びプログラム

Country Status (1)

Country Link
JP (1) JP2019016983A (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112040115A (zh) * 2019-06-03 2020-12-04 佳能株式会社 图像处理设备及其控制方法和存储介质

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112040115A (zh) * 2019-06-03 2020-12-04 佳能株式会社 图像处理设备及其控制方法和存储介质
JP2020198556A (ja) * 2019-06-03 2020-12-10 キヤノン株式会社 画像処理装置及びその制御方法、プログラム、記憶媒体
JP7348754B2 (ja) 2019-06-03 2023-09-21 キヤノン株式会社 画像処理装置及びその制御方法、プログラム、記憶媒体
CN112040115B (zh) * 2019-06-03 2024-02-20 佳能株式会社 图像处理设备及其控制方法和存储介质

Similar Documents

Publication Publication Date Title
CN108304795B (zh) 基于深度强化学习的人体骨架行为识别方法及装置
Zhang et al. SPFTN: A joint learning framework for localizing and segmenting objects in weakly labeled videos
CN110428428B (zh) 一种图像语义分割方法、电子设备和可读存储介质
JP5645079B2 (ja) 画像処理装置および方法、プログラム、並びに記録媒体
US6256033B1 (en) Method and apparatus for real-time gesture recognition
Korschens et al. Elpephants: A fine-grained dataset for elephant re-identification
CN113269237A (zh) 基于注意力机制的装配体变化检测方法、设备和介质
US11335118B2 (en) Signal retrieval apparatus, method, and program
JP6908863B2 (ja) 信号変更装置、方法、及びプログラム
CN105205782A (zh) 超解像方法和系统、服务器、用户设备及其方法
JP2019057836A (ja) 映像処理装置、映像処理方法、コンピュータプログラム、及び記憶媒体
CN113012054B (zh) 基于抠图的样本增强方法和训练方法及其系统和电子设备
Naseer et al. Pixels to precision: features fusion and random forests over labelled-based segmentation
CN111027610B (zh) 图像特征融合方法、设备和介质
Cai et al. Human action recognition using improved sparse Gaussian process latent variable model and hidden conditional random filed
Chen et al. Uni-and-bi-directional video prediction via learning object-centric transformation
JP6435049B2 (ja) 画像検索装置及び方法、撮影時刻推定装置及び方法、反復構造抽出装置及び方法、並びにプログラム
JP5244438B2 (ja) データ分類装置、データ分類方法、データ分類プログラムおよび電子機器
CN115131366A (zh) 基于生成式对抗网络和半监督领域自适应的多模态小目标图像全自动分割方法及系统
JP2019016983A (ja) 情報処理装置、情報処理装置の制御方法及びプログラム
Alsultani et al. The use of spatial relationships and object identification in image understanding
CN114708307B (zh) 基于相关滤波器的目标跟踪方法、系统、存储介质及设备
CN115565253A (zh) 一种动态手势实时识别方法、装置、电子设备和存储介质
CN109784244A (zh) 一种指定目标的低分辨率人脸精确识别方法
JP2010271787A (ja) 特徴量生成装置、特徴量生成方法および特徴量生成プログラム、ならびにクラス判別装置、クラス判別方法およびクラス判別プログラム