JP2016110653A

JP2016110653A - ビデオストリーム内のコンテンツを分割及び追跡する方法

Info

Publication number: JP2016110653A
Application number: JP2015238600A
Authority: JP
Inventors: ハッサン・マンソール; Mansour Hassan; シン・ジアン; Xin Jiang
Original assignee: Mitsubishi Electric Corp
Current assignee: Mitsubishi Electric Corp
Priority date: 2014-12-08
Filing date: 2015-12-07
Publication date: 2016-06-20
Also published as: US9697614B2; US20160162577A1

Abstract

【課題】ビデオストリーム内のコンテンツを分割及び追跡する方法を提供する。【解決手段】測定データにおけるコンテンツの動きを特徴付ける適応ステップサイズパラメーター及び低次元部分空間が初期化される。低次元部分空間によって特徴付けられたコンテンツの動きとは異なるコンテンツの動きを特徴付ける疎成分を表す疎ベクトルが求められる。測定データの低次元部分空間における変化が、近接点反復及び上記パラメーターを用いて求められ、このパラメーターは、この変化に従って更新される。低次元部分空間を表す低ランク部分空間行列が、上記変化及び上記パラメーターに従って更新される。次に、低次元部分空間を表す低ランク行列及び疎ベクトルが出力される。【選択図】図１

Description

本発明は、包括的には、コンピュータービジョンに関し、より詳細には、ビデオ内のコンテンツを分割及び追跡することに関する。

高次元データに組み込まれた低次元部分空間を分割及び追跡する問題は、背景セグメンテーション、異常検出、動きセグメンテーション、及び、ターゲット位置特定等の多くの用途において発生する。例えば、固定カメラ又は移動カメラによって取得されたシーンは、このシーン内の比較的静止した背景を特徴付ける部分空間にまたがる低ランク成分と、このビデオシーン内の通常は前景における移動物体に対応する疎成分（スパース成分（sparse component））とに分割することができる。

この問題は、あらゆる時間ステップｔ、例えば、画像のシーケンス内の各画像において、不完全で雑音を有する測定値

からランクｒ行列

の列によってスパンされたｒ≪ｎを有する

内のｒ次元部分空間

を特定することである。ここで、Ω_ｔは、時刻ｔにおける１つ又は複数の画像のセットのサブセットを指定する選択演算子であり、

は、部分空間Ｕ_ｔの列の線形結合を指定する係数であり、

は、スパース異常値（又は、スパース外れ値）のベクトルである。

部分空間

が静止しているとき、下付き文字ｔはＵ_ｔから省略され、上記問題は、行列補完、又は、主成分解析（ＰＣＡ）に置き換えられる。なお、主成分解析とは、タスクが、不完全な測定値

を用いて、行列

を、低ランク成分ＵＡと疎成分Ｓとに分離する解析方法のことである。

行列Ａ及びＳの列は、それぞれ、全てのｔ∈｛１．．．ｍ｝について水平に積み重ねられたベクトルａ_ｔ及びｓ_ｔであり、選択演算子Ωは、行列Ｂにおける測定データを指定する。

低次元部分空間特定の従来の方法は、まず、測定データを行列に編成し、次いで、様々な技法、例えば低ランク行列因数分解を用いて部分空間にまたがる基底ベクトルを求める。

それらの方法を拡張したものは、行列を、部分空間に対応する低ランク成分と、雑音を表す疎成分とに因数分解する。

しかしながら、データの次元数が、ビデオの場合のように大きくなったとき、レイテンシー（latency）が問題となる。したがって、データがリアルタイムで取得又は処理されるとき、そのデータが不完全であり、疎雑音によって破損していても、低次元部分空間を分割及び追跡することができる方法を提供することが必要である。別の問題は、低次元部分空間（背景）が時間とともに変動する可能性があるということである。その場合、全てのデータが１つの行列にグループ化されているとき、部分空間は、低ランク行列によって表すことができない。例えば、戸外のシーンにおける背景は、日中の照明が変動する可能性がある。同様に、監視ビデオでは、以前移動していた物体が、当該物体が静止した状態で背景に追加されたり、背景から取り除かれたりする可能性がある。

１つの従来技術の方法である特許文献１は、動画ビデオに表されるような物体の適応型確率的追跡の方法を記載している。この方法は、追跡されている物体を表す固有基底を特定する。この固有基底の現在の推定値を用いて、物体ロケーションの最大事後推定値が求められる。固有基底は、その後、ターゲット物体の外観の変化を考慮するために更新される。

別の従来技術である特許文献２は、長い時間的経過にわたって学習される安定したモデル構成要素と、比較的短い時間的経過にわたって学習される一時的な構成要素との双方を含む外観モデルの学習を記載している。モデルパラメーターは、オンライン期待値最大化（ＥＭ（expectation-maximization））アルゴリズムを用いて時間とともに適応される。

特許文献３は、姿勢モデル、アライメント確信度スコア（alignment confidence score）、及び適応項値に基づいて物体の追跡状態を求めることによって、ビデオに表された物体を追跡することを記載している。この追跡状態は、ビデオ内の以前のフレームのセットにおける物体が存在する可能性の高い位置（the object's likely position）を所与として、フレーム内の物体が存在する可能性の高い位置を定義する。

グラスマンランク１更新部分空間推定（ＧＲＯＵＳＥ：Grassmannian Rank-One Update Subspace Estimation）は、不完全なデータからのリアルタイム部分空間推定を取り扱うことができる１つの方法である。これについては、非特許文献１を参照されたい。ＧＲＯＵＳＥは、グラスマン多様体上で部分空間のランク１更新を用いる。しかしながら、ＧＲＯＵＳＥは、極小値（local minima）において捕捉される可能性がある。

並列部分空間推定及び再帰的最小二乗による追跡（ＰＥＴＲＥＬＳ：Parallel Subspace Estimation and Tracking by Recursive Least Squares）も、リアルタイムで低次元部分空間を特定することができる。これについては、非特許文献２を参照されたい。ＰＥＴＲＥＬＳは、時間ステップごとのデータに関する射影残差の幾何級数的にディスカウントされる合計（geometrically discounted sum）を、部分空間行列の各行を考慮しない再帰的手順を用いて並列に最小化する。ＧＲＯＵＳＥ及びＰＥＴＲＥＬＳの双方は、破損したデータ及び非ガウス雑音を受けるデータを正しく取り扱うことができない。

グラスマンロバスト適応型部分空間追跡アルゴリズム（ＧＲＡＳＴＡ：Grassmannian Robust Adaptive Subspace Tracking Algorithm）は、ＧＲＯＵＳＥと類似している。これについては、非特許文献３を参照されたい。ＧＲＡＳＴＡも、グラスマン多様体を更新するが、ＧＲＯＵＳＥのｌ_２コスト関数をｌ_１ノルムコスト関数に置き換える。このコスト関数は、データ内の異常値を正しく取り扱いながら、絶対誤差の合計を最小化する。

別のリアルタイムな方法は、再帰的射影圧縮センシング（ＲｅＰｒｏＣＳ：Recursive Projected Compressive Sensing）である。これについては、非特許文献４を参照されたい。ＲｅＰｒｏＣＳは、データを部分空間の直交補空間上に再帰的に射影し、その後、スパース復元（疎復元）を行って異常値を求める。しかしながら、その方法は、部分空間の正確な初期推定値を必要とする。

米国特許第７４６３７５４号「Adaptive probabilistic visual tracking with incremental subspace update」米国特許出願公開第２００３／０１０８２２０号「Robust, on-line, view-based appearance models for visual motion analysis and visual tracking」米国特許第８４７７９９８号「Object tracking in video with visual constraints」

Balzano他，「Online identification and tracking of subspaces from highly incomplete information」，48th Annual Allerton Conference on Communication, Control, and Computing (Allerton), pp. 704−711, Sep. 2010 Chi他，「Petrels: Parallel subspace estimation and tracking by recursive least squares from partial observations」，IEEE Transactions on Signal Processing, vol. 61, no. 23, pp. 5947−5959, 2013 Cornell University, arXiv:1109.3827, Sep. 2011 Qiu他，「ReProCS: A missing link between recursive robust PCA and recursive sparse recovery in large but correlated noise」，CoRR, vol. abs/1106.3286, 2011

本発明の実施の形態は、ビデオの時間変化するコンテンツをリアルタイムで分割及び追跡する方法及びシステムを提供する。このコンテンツは、支配的成分（dominant component）及び疎成分を含むことができる。支配的成分は、例えば、低次元部分空間として表される大部分が静止した背景を含むことができる。疎成分は、疎ベクトルによって表される移動物体を含むことができる。

ビデオは、不完全な測定値から、雑音を有する異常値の存在下で取得することができる。本方法は、測定値と、それらの測定値を部分空間の推定値上に射影したものとの間のｌ_１ノルムコスト関数を最小化する。

例えば乗算器の交番方向法（ＡＤＭＭ：alternating direction method of multipliers）を用いて、射影の係数及びスパース異常値が、部分空間の現在の推定値について最初に求められ、この部分空間の推定値は、適応ステップサイズパラメーター（adaptive step-size parameter）とともに近接点反復手順（proximal point iterative procedure）を用いて更新される。近接点反復手順は、ニュートン法と類似しており、高次元データを伴う制約無し平滑最小化問題（unconstrained smooth minimization problems）を解く。

本発明の１つの実施の形態では、測定値は、ビデオ内の画像のシーケンスである。１つ又は複数の画像のセットが、時間ステップごとに処理される。例えば、このセットは、グループオブピクチャ（ＧｏＰ：group of pictures）とすることができる。本方法は、ビデオの支配的な静止した背景を低次元部分空間として特徴付け、この比較的大きな背景を、ビデオ内の通常は前景におけるそれよりも小さな移動物体を通常特徴付けるスパース物体から分離する。

本発明の別の実施の形態では、測定値は、圧縮ビデオ内の画像のシーケンスから抽出された動きベクトルである。これらの動きベクトルは、ビデオ内のオプティカルフローを表すことができる。この実施の形態による方法は、低次元部分空間を用いてビデオ内の支配的なオプティカルフローを特定及び追跡し、この支配的なオプティカルフローを、交互に変化する（alternate）オプティカルフロー、例えば、支配的なオプティカルフローと異なるオプティカルフローから分離する。

別の実施の形態では、測定データは、ストリーミングビデオにおいて抽出及び追跡される特徴記述子（feature descriptors）を有する特徴点（interest points）に対応する。１つの例では、抽出された特徴点のサブセットのみが追跡される。受信されたビデオ画像にわたって画像内の特徴記述子間の類似点（affinities）を特徴付ける隣接行列（adjacency matrix）が構築される。この実施の形態による方法は、グラフのスペクトルの一部分を占有する部分空間のうちの１つ又はそれらの結合体によって表される特徴点のクラスターを特定及び追跡する。

本発明の実施形態によるビデオを処理する方法及びシステムのブロック図である。図１の方法の擬似コードのブロック図である。

本発明の実施形態は、データストリームの測定値を用いて、低次元部分空間に存在するデータストリーム内の物体を分割及び追跡するための方法及びシステムを提供する。例えば、ビデオ内の物体の大きな集合体が、静的であるか又はゆっくりと変化する支配的な動き軌道（dominant motion trajectory）を有するとともに、ビデオ内の他の物体は支配的な軌道とは異なる動き軌道を有するビデオストリーム内の画像のシーケンスを考える。

１つの実施形態では、本発明において説明する方法は、画像が取得された後にプロセッサに達したビデオの画像の形態における、測定値の静止した比較的大きな背景成分を、ビデオ内の通常は前景における、より小さな移動物体を特徴付ける、典型的な疎な物体（typically sparse objects）から分離する。

本発明の別の実施形態では、測定値は、非ガウス雑音によって破損されている可能性がある圧縮ビデオ内の画像のシーケンスから抽出された動きベクトルである。これらの動きベクトルは、ビデオ内の物体の大きな集合体の動きを追跡するビデオ内のオプティカルフローを表す。本方法は、低次元部分空間又は複数の低次元部分空間の結合体（a union of low-dimensional subspaces）を用いて、支配的なオプティカルフローを分割及び追跡する。

更に別の実施形態では、測定値は、欠落したデータ点を有する。例えば、動きベクトルが、圧縮ビデオ内の画像のシーケンスのサブセットのみから抽出される場合、本発明の方法は、低次元部分空間又は複数の低次元部分空間の結合体を特定した後、支配的なオプティカルフローに対応する欠落したデータ点を求める。

図１に示すように、本方法及びシステムは、測定データ１０１、例えば、カメラ１０３によってシーン１０２から取得されたビデオ１０１内の画像のシーケンスを処理する。カメラは、静止している場合もあるし、移動している場合もある。画像は、リアルタイムで、例えば、画像が取得された速度と同じフレームレート（２４ｆｐｓ又は６０ｆｐｓ）で処理することができる。本方法は、当該技術分野において知られているようにバスによってメモリ及び入出力インターフェースに接続されたプロセッサ１００において実行される。このメモリは、画像を表す測定データに加えて、本方法によって用いられるベクトル、行列及びパラメーター等の他のデータ構造体も記憶するのに用いられる。

ストリーム内の最初の測定データ１０４、例えばビデオシーケンス内の最初の画像について、初期部分空間行列１３１及び初期ステップサイズパラメーター１２６が初期化される（１０５）。疎ベクトルの形態における疎成分１１１、及び、部分空間係数１１２が、反復的ソルバー（iterative solver）、例えば乗算器の交番方向法（ＡＤＭＭ：alternating direction method of multipliers）を用いて、第１の測定データから求められる（１１０）。次に、部分空間における変化１２１が、最初の測定データ１０４、疎成分１１１、及び、部分空間係数１１２に従って求められる（１２０）。適応ステップサイズパラメーター１２６が、部分空間における変化１２１に従って更新される（１２５）。次に、部分空間行列１３１は、部分空間における変化１２１及び更新された適応ステップサイズパラメーター１２６を用いて更新される（１３０）。ストリーム内の２番目の測定データ及び後続のあらゆる測定データについて、更新された部分空間行列１３１及び更新された適応ステップサイズパラメーターが、初期部分空間行列及び初期ステップサイズパラメーターとして用いられる。このプロセスは、データストリームからの全ての測定データ１０１が処理されるまで反復的に繰り返される。

ストリームからのあらゆる新たな測定データの到着後、疎ベクトルによって表される移動物体１０８は、現在の部分空間行列１３１において表される背景から既に分離されている。

図２は、本方法の詳細なステップの擬似コードを示している。この擬似コードによって用いられる変数は、以下に定義されている。

１つの実施形態では、測定データは、ビデオシーケンス内の特徴点（interest points）の特徴に対応する。特徴点の間にエッジ及び重みを割り当てるために、グラフが、特徴点に対応する、スケール不変特徴変換（ＳＩＦＴ：Scale Invariant Feature Transform）、高速網膜キーポイント（ＦＲＥＡＫ：Fast Retina Keypoint）、バイナリーロバスト不変スケーラブルキーポイント（ＢＲＩＳＫ：Binary Robust Invariant Scalable Keypoints）等の特徴記述子を用いて、測定データから構築される。本方法は、次に、グラフのスペクトルの一部分を占有するとともに特徴点の間の支配的な関連付けを特徴付ける低次元部分空間のうちの１つ又はそれらの結合体を特定する。また、本方法は、グラフスペクトルに存在する疎な関連付け又は非ガウス分布の関連付けから支配的な関連付けをセグメンテーションする。

リアルタイム部分空間推定
非ガウス雑音によって破損される場合がある不完全なストリーミング測定値１０１、例えば圧縮ビデオからの低次元部分空間行列１３１のリアルタイム推定を説明する。まず、本発明の課題を説明するとともに、用いられる表記を定義する。次に、測定値の間のｌ_１ノルムコスト関数を最小化すること、及び、それらの測定値を部分空間上に射影して部分空間係数１１２及びスパース異常値（または、スパース外れ値）１１１を求めることを説明する。次に、部分空間は、最小二乗推定を用いることに基づく近接点反復手順を用いて更新される（１３０）とともに、適応ステップサイズパラメーター１２６が更新される（１２５）。

利点として、本発明の方法は、従来技術のように部分空間更新をグラスマン多様体に制限せず、適応ステップサイズを用いる。加えて、本方法は、部分空間の正確な初期推定値を必要とせず、例えば、部分空間は、ランダムな部分空間に設定される。

拡張ラグランジアンに基づく近接点反復手順
本方法は、ｌ_１ノルムコスト関数を用いて拡張ラグランジアンを最小化し、変数（Ｕ_ｔ，ｓ_ｔ，ａ_ｔ，ｙ_ｔ）に関する以前の部分空間推定値への更新の近接性を維持する平滑化項を用いる。目的コストは、以下の式によって表すことができる。

ここで、ｅ_ｔは、Ω_ｔ（ｅ_ｔ）＝０であり、かつ

であるように、

で表される、選択演算子Ω_ｔの補演算子（complement）によって支えられている（supported on）。

式（２）は、変数Ｕ_ｔ及びａ_ｔに関して非凸である。したがって、本発明は、変数（ｓ_ｔ，ａ_ｔ，ｙ_ｔ）及びその後の変数Ｕ_ｔにわたる最小化を交番するＰＥＴＲＥＬＳ手法及びＧＲＡＳＴＡ手法に従うものとする。Ｕ_ｔを固定することによって、式（２）の複数の最小点（minimizers）は等しくなる。すなわち、以下の式となる。

次に、部分空間Ｕ_ｔは、適応ステップサイズμを用いて、以下の関数を最小化するように勾配ステップを選ぶことによって更新される。

方法
図２の擬似コードによって示すように、準備段階の後、第１段階（ステップ４〜１１）は、反復的方法、例えばＡＤＭＭを用いて、式（３）を解く。変数ａ_ｔ、ｓ_ｔ、及びｙ_ｔは、終了条件が満たされるまで、以下の更新シーケンスを反復することによって求められる（ステップ７〜１０）。

ここで、

は、閾値τを用いた要素単位のソフト閾値処理演算子を示し、ｋは反復数を示し、†は行列のムーア・ペンローズ擬似逆行列を表す。

第２段階（ステップ１２〜１７）では、以下の式を用いて式（４）を最小化することによって、部分空間Ｕ_ｔが更新される（ステップ１９）。

ここで、Ｉ_ｒは、ｒ×ｒ単位行列であり、ステップサイズμ_ｔ１２６は、適応的に更新される。

適応ステップサイズパラメーター
適応ステップサイズパラメーターについて、本方法は、正則化項（regularizer）μ_ｔを用いて、部分空間１３１の推定の収束の速度を制御する。特に、μの値が小さいほど、変化する部分空間に対するＵ_ｔのより高速な適応、すなわち、降下方向がより大きくなることが可能になるのに対して、μの値が大きいほど、Ｕ_ｔのより低速な変化しか可能でない。

降下方向

を考慮し、以前の部分空間推定値の直交補空間上へのこの降下方向の射影を求めて、以下の式の部分空間における変化１２１が取得される。

次に、適応ステップサイズパラメーターμ_ｔ１２６を、以下の式に従って更新することができる（１２５）。

ここで、

であり、ｌ∈｛−１，０，１，２｝は、η_ｔの所定の閾値に従って設定される。ここで、或る事前に規定されたｆについて、ｓｉｇｍｏｉｄ（ｘ）＝ｆ＋２ｆ／（１＋ｅ^１０ｘ）である。

ＧＲＡＳＴＡと同様に、そのような更新ルールを選択することの背後にある直観は、２つの連続した部分空間更新Ｇ_ｔ−１及びＧ_ｔが同じ方向を有する場合、すなわち、〈Ｇ_ｔ−１，Ｇ_ｔ〉＞０である場合、ターゲットの部分空間が依然として現在の部分空間推定値から遠く離れているという考えに由来している。その結果、更新されるステップサイズμ_ｔは、高速な適応を可能にするようにより小さくあるべきであり、これは、η_ｔを増加させることによって達成される。同様に、〈Ｇ_ｔ−１，Ｇ_ｔ〉＜０であるとき、部分空間更新は、ターゲットの部分空間を中心にして発振する可能性があり、したがって、より大きなμ_ｔが必要とされる。部分空間更新のノルムの積（||Ｇ_ｔ−１||_Ｆ・||Ｇ_ｔ||_Ｆ）が過度に小さいとき、例えば、１０^−６よりも小さいとき、現在の部分空間推定値はターゲット部分空間に近いと仮定され、η_ｔがシグモイドの大きさだけ強制的に減少されることに留意されたい。

Claims

ビデオストリーム内のコンテンツを分割及び追跡する方法であって、前記ビデオは、画像のシーケンスを含み、該方法は、前記ビデオストリーム内の１つ又は複数の画像の各セットについて、各時間ステップにおいて、
前記セットから測定データを求めるステップと、
前記測定データにおける前記コンテンツの動きを特徴付けるパラメーター及び低次元部分空間を初期化するステップであって、前記パラメーターは、適応ステップサイズパラメーターである、初期化するステップと、
前記低次元部分空間によって特徴付けられた前記コンテンツの前記動きと異なる前記コンテンツの前記動きを特徴付ける疎成分を表す疎ベクトルを求めるステップと、
近接点反復及び前記パラメーターを用いて、前記測定データの前記低次元部分空間における変化を求めるステップと、
前記変化に従って前記パラメーターを更新するステップと、
前記変化及び前記パラメーターに従って、前記低次元部分空間を表す低ランク部分空間行列を更新するステップと、
前記低次元部分空間を表す前記低ランク部分空間行列、及び、前記疎ベクトルを出力するステップと、
を含み、
各前記ステップは、前記測定データを記憶するメモリに接続されたプロセッサが実行し、
前記ビデオストリームは、カメラによってシーンから取得される、
ビデオストリーム内のコンテンツを分割及び追跡する方法。
前記低ランク部分空間行列の推定値及び前記パラメーターの推定値が利用可能であり、
前記測定データと、前記測定データを前記低ランク部分空間行列の前記推定値上に射影したものとの間の相違を定量化するデータミスフィット関数を求めることと、
前記データミスフィット関数を最小化する前記疎ベクトル及び部分空間係数ベクトルを求めることと、
を更に含む、請求項１に記載の方法。
前記測定データは事前に処理され、新たな測定データが利用可能であり、
前記更新された低ランク部分空間行列及び前記事前に処理された測定データの前記パラメーターから、前記低ランク部分空間行列の前記推定値及び前記パラメーターの前記推定値を求めること、
を更に含む、請求項２に記載の方法。
前記低次元部分空間の推定値を用いて前記測定データから欠落したデータ点を決定するエラー成分を求めること、
を更に含む、請求項１に記載の方法。
前記更新された低ランク部分空間行列と、以前の測定データの推定された値との間の相違を前記低次元部分空間の直交補空間上に射影することによって、前記変化を求めることと、
前記低次元部分空間が速く変化するときは前記パラメーターを減少させ、前記低次元部分空間がゆっくりと変化するときは前記パラメーターを増加させることによって、前記パラメーターを更新することと、
を更に含む、請求項１に記載の方法。
前記測定データは、前記セットのピクセル値、前記セット内のオプティカルフロー動きベクトル、前記セット内の特徴点の動き軌道、及び、それらの組み合わせからなる群から選択される、請求項１に記載の方法。
前記ビデオストリームは圧縮され、前記方法は、
前記測定データを、各画像の圧縮された動きベクトルとして求めることと、
前記ビデオストリーム内の支配的な動きフローを特徴付ける前記低次元部分空間を求めることと、
前記支配的な動きフローから交互に変化する動きフローを特徴付ける前記疎成分を求めることと、
前記支配的な動きフローを表す低ランク行列及び前記交互に変化する動きフローを表す前記疎ベクトルを出力することと、
を更に含む、請求項１に記載の方法。
グラフが、前記測定データから構築され、前記方法は、
グラフ隣接行列及びグラフラプラシアンのうちの一方又はそれらの組み合わせからグラフ行列を求めることと、
前記グラフ行列のスペクトルの一部分を占有する部分空間のうちの１つ又はそれらの結合体から前記低次元部分空間を求めることと、
を更に含む、請求項１に記載の方法。
前記データミスフィット関数は、ｌ_１ノルムコスト関数である、請求項２に記載の方法。