JP2015170358A

JP2015170358A - シーンから取得されるビデオの低階数記述子を抽出する方法

Info

Publication number: JP2015170358A
Application number: JP2015025130A
Authority: JP
Inventors: ハッサン・マンソール; Mansour Hassan; シャンタヌ・ラーネ; Shantanu Rane; ペトロス・ティー・ボウフォウノス; Petros T Boufounos; アンソニー・ヴェトロ; Vetro Anthony
Original assignee: Mitsubishi Electric Corp
Current assignee: Mitsubishi Electric Corp
Priority date: 2014-03-10
Filing date: 2015-02-12
Publication date: 2015-09-28
Anticipated expiration: 2035-02-12
Also published as: US9639761B2; US20150254513A1; JP6333190B2

Abstract

【課題】ビデオシーンの代表的な記述子を記憶するのに必要とされる情報量を削減する一方で、異なるビデオシーンから生成される記述子に対する弁別性を維持する低階数記述子を生成する。【解決手段】方法は、シーン１０２から取得されるビデオ１０１の低階数記述子を、まず、そのビデオ内の画像ごとに記述子の集合を抽出することによって抽出する１１０。ビデオのための記述子の集合を集約１２０して、記述子行列１２１を形成する。反復的に、記述子行列から低階数記述子行列を求める１３０とともに、記述子行列内の各列と、低階数記述子行列１３１内の対応する列とを関連付ける選択行列を求める１４０。収束時に低階数記述子行列１３１が出力される。【選択図】図１

Description

本発明は、包括的には画像処理に関し、より詳細には、画像及びビデオから、クエリ実行、分類及びオブジェクト検出のために用いることができる記述子を抽出することに関する。

安価なカメラ及び安価なストレージの出現により、画像及びビデオをまとめて非常に大きなデータベースに記憶することが現実的になった。例えば、人気のある１つのソーシャルメディアプロバイダーは、約８００億の画像を記憶し、毎秒６０００００の画像を処理すると推定される。

そのようなデータベースの商業的実現可能性は、探索及び検索アプリケーションの利用可能性に大きく依拠する。このため、画像のための探索及び検索メカニズムに対し、多大な労力が注がれてきた。通常、そのようなメカニズムは、多くの場合にキーポイントと呼ばれる画像内の関心点を特定し、次にこれらの点から、平行移動、回転、拡大縮小及び照明における変動の影響下で正確なままである特徴を抽出することに頼る。

そのような特徴の例は、スケール不変特徴変換（ＳＩＦＴ）、高速化ロバスト特徴（ＳＵＲＦ）、バイナリロバスト不変性スケーラブルキーポイント（ＢＲＩＳＫ）、高速レティーナキーポイント（ＦＲＥＡＫ）、勾配ヒストグラム（ＨｏＧ）、円形フーリエＨＯＧ（ＣＨＯＧ）等を含む。

そのようなアプリケーションの帯域幅及び複雑度を削減する一方で、マッチングの正確性及び速度を保つために、特徴は多くの場合に、よりコンパクトな記述子に集約及び要約される。特徴空間を小型化するための手法は、主成分分析（ＰＣＡ）、線形判別分析（ＬＤＡ）、ブースティング、スペクトルハッシング及び普及しているバッグオブフィーチャーズ手法を含む。バッグオブフィーチャーズ手法は、平均クラスタリングによって生成されるクラスター中心を用いて、特徴をコンパクト記述子（符号語）に変換する。

クエリ画像又はクエリビデオから抽出されるコンパクト記述子を、データベース内の画像から抽出される記述子と比較して、類似した画像を確定することができる。一方、ビデオクエリに関しては、効率的な特徴マッチングメカニズムを開発する努力があまりなされてこなかった。

従来の画像記述子を拡張してビデオ記述子を導出することは簡単でない。１つの単純な方法は、ビデオシーケンス内の各画像から、各画像を別々に扱って画像記述子を抽出する。その方法は、連続したビデオ画像から抽出される特徴が非常に類似しており、類似したキーポイントを記述する傾向にあり、結果として非常に冗長な表現となることを利用できていない。さらに、その方法は、画像間で持続性がない特徴を除去せず、おそらくビデオシーケンスをあまり良好に記述していない。このため、個々の画像記述子を単に収集することは、帯域幅の効率が悪く、マッチングの複雑度を大幅に増大させる。

より有効な手法は、各ビデオ画像から導出される記述子を、ビデオシーケンスにわたるこれらの記述子の動きを利用して圧縮することである。これらの方法は、動き補償予測及びレート歪み最適化等のビデオ圧縮からの強力な理論的枠組みを利用して、送信される記述子のビットレートを低減する。しかしながら、これらの方法は、視覚的に顕著なオブジェクトを表すことができる記述子の小さな集合を発見する問題に対処していない。

本発明の実施形態は、シーンから取得されるビデオの低階数記述子を抽出する方法を提供する。ビデオは画像のシーケンスを含む。

したがって、本発明の目的は、ビデオシーンの代表的な記述子を記憶するのに必要とされる情報量を削減する一方で、異なるビデオシーンから生成される記述子に対する弁別性を維持する低階数記述子を生成することである。本発明の別の目的は、低階数記述子を、クエリ実行、及び大きなデータベースからのビデオの検索、並びにオブジェクト検出に利用することである。

本発明の１つの実施形態において、低階数記述子は、ビデオ内のピクチャー群（ＧｏＰ）から視覚記述子を抽出し、ビデオシーン記述子の低階数記述子表現を求め、全ての抽出された記述子を低階数記述子内の対応する列に関連付ける選択行列を求めることによって生成される。

本発明の別の実施形態は、非負値行列因子分解（ＮＭＦ）を用いてビデオ記述子の大きな集合体から低階数記述子を抽出する。これは一連のステップを含み、まず非負最小二乗最小化によって低階数因子が求められ、次に、近接点最小二乗問題を最小化し、その後、選択行列の全ての列における最大のエントリを保持し、全ての他のエントリをゼロに設定することによって、選択因子が求められる。この一連のステップは、低階数因子及び選択行列が変化しなくなるまで繰り返される。

本発明の別の実施形態は、低階数記述子を用いることによってビデオシーンを分類する。これは、クエリビデオの低階数記述子を求めることと、データベース内で利用可能な多くのビデオのそれぞれの低階数記述子を求めることと、クエリビデオの低階数記述子と、データベースビデオのそれぞれの低階数記述子との間の相関係数を求めることと、クエリビデオを、このクエリビデオの低階数記述子との最大の相関係数を有する低階数記述子を有するデータベースビデオに割り当てることと、を含む。

本発明の別の実施形態はビデオ内のオブジェクトを検出する。これは、オブジェクトのビデオを取得することと、ビデオから背景ピクセルを減算して、オブジェクトを表すピクセルのみを保持することと、オブジェクトのみを含む全ての画像から視覚記述子を抽出することと、背景を減算されたビデオから抽出される視覚記述子から低階数記述子を求めることと、低階数記述子と、データベース内で利用可能な幾つかのビデオに属する視覚記述子との間の相関関係を求めることと、オブジェクトを、クエリオブジェクトの低階数記述子に対する最大の相関係数を有する視覚記述子を有するデータベース内のビデオに割り当てることと、を含む。

実施形態は、ビデオシーケンスの視覚的に顕著な部分を表す記述子を抽出する問題を検討する。ほとんどの最新技術による方式は、特徴、例えばＳＩＦＴ特徴又はＳＵＲＦ特徴又は他のキーポイントに基づく特徴を個々のビデオ画像から抽出することによってビデオ記述子を生成する。これらの手法は、ストレージ、通信オーバーヘッドに対し、及びビデオクエリ実行の許容可能な計算複雑度に対し制約を課すシナリオにおいて無駄である。より重要なことには、その手法によって得られる記述子は通常、ビデオコンテンツに関する意味論的手がかりを与えない。

したがって、実施形態は、類似したビデオコンテンツの効率的な検索のための、特徴にとらわれない新規の手法を提供する。検索の効率及び正確性は、ビデオ画像から抽出される画像特徴にｋ平均クラスタリングを適用することと比べて評価される。また、実施形態は、低階数ビデオ記述子の抽出が非負値行列因子分解（ＮＭＦ）問題として与えられる新規な手法も提案する。

本発明の実施形態による、ビデオから記述子を抽出する方法の流れ図である。本発明の実施形態による、ビデオから記述子を抽出する方法の概略図である。本発明の実施形態によって用いられる、投影近接点交互最小二乗最小化手順（projected proximal-point alternating least squares minimization procedure）のブロック図である。本発明の実施形態による、ビデオを分類する方法のブロック図である。

本発明の実施形態は、シーンから取得されたビデオの低階数記述子を抽出する方法を提供する。ビデオは画像のシーケンスを含む。視覚シーンの低階数記述子によって、ビデオビットストリームとともに圧縮及び記憶されるメタデータ量を低減することができる一方で、シーンコンテンツの弁別的表現を維持することが可能になる。本発明の枠組みは、ＳＩＦＴ特徴又はＨｏＧ特徴等のローカルシーン記述子がピクチャー群（ＧｏＰ）内の全てのビデオ画像から抽出されると想定する。記述子は、サイズｍ×Ｎの行列Ｘを形成するようにスタックされる。ここで、ｍは特徴ベクトルの長さであり、ＮはＧｏＰから抽出される記述子の総数である。多くの状況において、記述子の数は、画像あたり数百個の特徴に達する可能性がある。

この説明において、個々の記述子の階数は１である。記述子を行列Ｘに集約することによって、階数は、ＳＩＦＴの場合１２８と、行列Ｘ内の列数とのうちの最小値となる。したがって、１２８未満の階数を有する任意のコンパクト記述子は低階数であるとみなされる。

図１に示すように、本発明の実施形態は、カメラ１０３によってシーン１０２から取得されるビデオ１０１の低階数記述子１３１を抽出する方法を提供する。ビデオは画像シーケンスを含む。

ビデオ内の画像ごとに記述子１１１の集合が抽出される（１１０）。この記述子の集合は、記述子行列１２１を形成するように集約される（１２０）。シーンの低階数記述子行列１３１表現が求められる（１３０）。次に、全ての抽出された記述子を低階数記述子における対応する列に関連付ける選択行列１４１も求められる。ステップ１３０及び１４０は、収束するまで反復され、収束すると低階数記述子行列が出力される。本方法のステップは、当該技術分野において知られているように、バスによってメモリ及び入／出力インターフェースに接続されたプロセッサ１００において実行することができる。

ＮＭＦを用いて低階数記述子を求める
行列因子分解は、高次元データの低次元表現を求めるのに用いられる技法である。ｍ×Ｎ行列Ｘは、２つの成分Ｌ及びＲの積が元の行列を厳密に近似するように、これらの成分Ｌ及びＲに因子分解される。

行列及びその因子が非負のエントリを有する特殊な場合、この問題は非負値行列因子分解（ＮＭＦ）として知られている。ＮＭＦは、機械学習及びデータマイニングにおいて、例えば非常に大きなデータベースに記憶されたデータの探索において普及している。

中でも、近似コスト行列、非負の因子に課される構造、アプリケーション、及び因子分解を達成する計算方法に変形形態を伴う、幾つかのＮＭＦ定式化が存在する。

本発明の関心対象は、クラスタリングに用いられるＮＭＦ定式化である。特に、本発明ではスパースＮＭＦ定式化及び直交ＮＭＦ定式化を検討する。直交ＮＭＦ問題は以下のように定義される。

ここで、Ｔはベクトル転置演算子であり、Ｉは単位行列である。この定式化はｋ平均クラスタリングに等しい。

代替的に、スパースＮＭＦ問題は、Ｒを、Ｒの列に対する

ノルム正則化項及びＬに対する平滑化フロベニウスノルムと置き換えて、Ｒに対する直交性制約を緩和する。スパースＮＭＦ問題は以下のように明示的に定義される。

ここで、α及びβは問題固有の正規化パラメーターである。

ＮＭＦ問題が非凸であることに留意されたい。これらの問題を解く手順は、一般的に、大域最適性保証を有しない。したがって、同じ問題を解く異なる手順が異なる解に達する可能性がある。以下では、直交ＮＭＦ問題に対処する手順を展開し、本発明の手順によって生成される解が、ｋ平均及びスパースＮＭＦと比較して良好な分類特性を有することを実証する。

低階数シーン記述子
視覚シーンの低階数記述子によって、ビデオビットストリームとともに圧縮及び記憶されるメタデータの量を低減する一方で、シーンコンテンツの弁別的表現を維持することが可能になる。本発明の枠組みは、ＳＩＦＴ特徴又はＨｏＧ特徴等のローカルシーン記述子がピクチャー群（ＧｏＰ）内の全てのビデオ画像から抽出されると想定する。記述子は、サイズｍ×Ｎの記述子行列Ｘを形成するようにスタックされる。ここで、ｍは特徴ベクトルの長さであり、ＮはＧｏＰから抽出される記述子の総数である。

多くの状況において、記述子の数Ｎは、画像あたり数百個の特徴に達する可能性がある。したがって、これらの記述子をコンパクトに符号化することが必須である。このセクションにおいて、ビデオシーンにおける顕著な視覚情報を表す低階数記述子を抽出するための枠組みを展開する。

ＮＭＦを用いて低階数記述子を求める
シーン内の視覚的に顕著なオブジェクトは、ＧｏＰを通じてほぼ固定の記述子表現を維持することがわかっている。したがって、ビデオシーンの低階数記述子を求める問題を、行列Ｘの低次元表現を求める問題として定式化する。理想的には、ＧｏＰにおける顕著なオブジェクトを表す特徴ベクトルの集合は、行列Ｌ∈Ｒ^ｍ×ｒを用いて符号化することができ、ここで、ｒ＜＜Ｎは顕著なオブジェクトを明瞭に表す記述子数を表す。

図２は、ビデオＧｏＰからＳＩＦＴ特徴を抽出し、低階数表現Ｌ１３１及びバイナリ選択行列Ｒ１４１を求めるプロセスを概略的に示している。ＳＩＦＴ記述子の場合、行列Ｘ１２１内の列は非負の単位ノルムベクトルである。したがって、

を求める問題を、以下の非負値行列因子分解（ＮＭＦ）問題として与えることができる。

ここで、Ｌ_ｉ及びＲ_ｊは、それぞれｉ及びｊによってインデックス付けされた行列Ｌ及びＲの列であり、

は正の象限（orthant）である。

式（４）におけるＮＭＦ定式化は、ｋ平均分類子と類似した機能を果たし、十分に大きなｒの場合に、

の列が行列Ｘ内の主要な特徴のクラスター中心を含む一方で、選択行列

がデータに最も合致する

内のクラスター中心を選択することを確実にする。

図３に示すように、投影近接点交互最小二乗最小化手順を提供して式（４）を解く。手順の反復ｋごとに、近接最小二乗項のミニマイザーを求めることによって、因子Ｌ_ｋ及びＲ_ｋが更新される。

ここで、ρは問題の平滑性を制御するパラメーターである。

次に、

の列は、非負の

単位球面に投影される一方、

の列は、各列内の最大の非負のエントリを１に設定し、残りのエントリをゼロに設定することによって、標準規定ベクトルの許容集合

に投影される。

は、図３に示すような閉形式解を許容することに留意されたい。因子Ｌ_０及びＲ_０は、独立同一分布に従う一様乱数エントリを用いて初期化される。反復

は、近接点を交互にする最小二乗汎関数を解き、次に、因子における正のエントリ

のみを保持することによって求められる。因子は、

の場合、単位列ノルム球上に投影され、

の場合、バイナリ選択子集合Ｅ_ｒ上に投影される。

低階数記述子を用いる分類
図４に示すように、低階数記述子を用いてクエリビデオを分類することができる。ビデオＧｏＰから低階数記述子

を抽出することによって、クエリＧｏＰ内のすべての特徴ベクトルを、データベース内の既に分類されたビデオの特徴とマッチングする問題を、クエリＧｏＰとデータベース内のＧｏＰとの間で低階数記述子をマッチングする問題に縮約することができる。

クエリビデオ及びデータベースビデオがサイズｎのビデオ画像のＧｏＰに分割されると仮定する。

がＧｏＰの低階数クエリ記述子を表し、

がｇによってインデックス付けされたデータベース内のＧｏＰの低階数クラス記述子を表すものとする。

によってインデックス付けされたデータベースＧｏＰは、

に対し最大の相関係数を有する場合、すなわち、

である場合、クエリＧｏＰに合致する。ここで、無限ノルム‖・‖_∞は、行列積

をベクトル化した後に適用される。したがって、データベース内の合致するＧｏＰは、その低階数記述子がクエリ記述子と最も良好に相関するＧｏＰであり、合致するＧｏＰのクラスをクエリＧｏＰに割り当てることができる。

図４は、本発明の実施形態による分類方法を示している。クエリビデオ４０１から低階数クエリ記述子４１１が求められる（４１０）。データベース４０２内のビデオ（Ｖ）４０５のそれぞれについて、低階数クラス記述子４２１が求められる。データベース内の各ビデオはクラスと関連付けられている。低階数クエリ記述子と各低階数クラス記述子との間の相関係数４３１が求められる（４３０）。最も高い相関係数を有するデータベース内のビデオ４０６のクラス４０３がクエリビデオに割り当てられる（４４０）。

低階数記述子を用いたビデオ検索
上記で説明した分類方法は、ビデオ検索にも用いることができる。この場合、検索方法は、所定の閾値よりも大きい相関係数を有するデータベースからビデオを得る。

低階数記述子を用いたオブジェクト検出
低階数記述子を用いてビデオ内のオブジェクトを検出することもできる。このプロセスは図４に示すものに類似している。この場合、クエリビデオの代わりに前景ビデオが用いられる。前景ビデオは、ビデオ内の各画像から背景ピクセルを減算することによって得られる。このプロセスは、データベース内のビデオにも適用される。

このため、シーンが特定のオブジェクトを含むとき、ビデオ内の各画像から背景ピクセルが減算されて、前景ビデオが得られる。前景ビデオから低階数オブジェクト記述子が求められる。データベース内の各ビデオの低階数オブジェクトクラス記述子も求められる。データベース内の各ビデオはオブジェクトクラスと関連付けられている。最大の相関係数を有するデータベース内のビデオのオブジェクトクラスが前景ビデオに割り当てられる。

発明の効果
本発明の実験データは、本発明の実施形態による視覚的特徴の低次元クラスタリングによって、ビデオシーン内の視覚的に顕著なオブジェクトを表すためのメモリ要件を大幅に削減することができることを実証している。

階数３０の記述子は、９７％を超え、平均で９９％のストレージ削減を達成する。さらに、低階数記述子は、大幅な圧縮にもかかわらず、９０％をはるかに超えるマッチング精度で弁別性を維持する。

続いて、低次元のクラスターを求めるための、本発明の提案される直交ＮＭＦ（ＯＮＭＦ）法が、ｋ平均クラスタリング及びスパースＮＭＦの双方よりも弁別的であることを実証する。また、本発明の手法は、ｋ平均よりも、クラスター数の変動に対しロバストである。

１つの著しい観測結果は、非常に低階数の表現の場合にスパースＮＭＦがｋ平均よりも性能が優れている一方で、スパースＮＭＦは、クラスター数、すなわち因子の階数が増大すると、すぐに不安定になることである。上述のクラスタリング問題の全てが非凸であるので、これらの問題に対する解は初期化に依拠することにも留意している。

Claims

シーンから取得されるビデオの低階数記述子を抽出する方法であって、前記ビデオは画像のシーケンスを含み、該方法は、
前記ビデオ内の画像ごとに記述子の集合を抽出することと、
前記ビデオのための前記記述子の集合を集約することであって、記述子行列を形成することと、
収束するまで反復的に、前記記述子行列から低階数記述子行列を求めるとともに、前記記述子行列内の各列と、前記低階数記述子行列内の対応する列とを関連付ける選択行列を求めることと、
収束時に前記低階数記述子行列を出力することと、
を含み、前記ステップはプロセッサにおいて実行される、シーンから取得されるビデオの低階数記述子を抽出する方法。
前記低階数記述子行列は、非負値行列因子分解を用いて求められ、前記方法は、
前記非負最小二乗最小化によって低階数因子を求めることと、
近接点最小二乗問題を最小化し、前記選択行列の全ての列における最大のエントリを保持し、全ての他のエントリをゼロに設定することによって、選択行列因子を求めることと、
を更に含む、請求項１に記載の方法。
前記低階数記述子行列及び前記選択行列が変化しないときに収束が生じる、請求項１に記載の方法。
前記ビデオ内の各画像から特徴を抽出することと、
前記記述子内の前記特徴を集約することと、
を更に含む、請求項１に記載の方法。
前記特徴はスケール不変特徴変換を用いて抽出される、請求項４に記載の方法。
前記記述子は、サイズｍ×Ｎの行列Ｘを形成するようにスタックされ、ここで、ｍは特徴ベクトルの長さであり、Ｎは前記ビデオから抽出される記述子の総数である、請求項１に記載の方法。
前記階数は、前記特徴ベクトルの長さ未満である、請求項１に記載の方法。
クエリビデオの低階数クエリ記述子を求めることと、
データベース内の各ビデオの低階数クラス記述子を求めることであって、前記データベース内の各ビデオはクラスと関連付けられていることと、
前記低階数クエリ記述子と、前記低階数クラス記述子のそれぞれとの間の相関係数を求めることと、
最大の相関係数を有する前記データベース内の前記ビデオの前記クラスを前記クエリビデオに割り当てることと、
を更に含む、請求項１に記載の方法。
前記ビデオはピクチャー群に分割され、前記求めるステップ及び前記割り当てるステップが前記ピクチャー群に適用される、請求項８に記載の方法。
クエリビデオの低階数クエリ記述子を求めることと、
データベース内の各ビデオの低階数クラス記述子を求めることと、
前記低階数クエリ記述子と、各低階数クラス記述子との間の相関係数を求めることと、
所定の閾値よりも大きい相関係数を有する前記データベース内の前記ビデオを検索することと、
を更に含む、請求項１に記載の方法。
前記シーンはオブジェクトを含み、前記方法は、
前記ビデオ内の各画像から背景ピクセルを減算することであって、前景ビデオを得ることと、
前記前景ビデオの低階数オブジェクト記述子を求めることと、
データベース内の各ビデオの低階数オブジェクトクラス記述子を求めることであって、前記データベース内の各ビデオはオブジェクトクラスと関連付けられていることと、
最大の相関係数を有する前記データベース内の前記ビデオの前記オブジェクトクラスを前記前景ビデオに割り当てることと、
を更に含む、請求項１に記載の方法。
前記シーンはオブジェクトを含み、前記方法は、
前記ビデオ内の各画像から背景ピクセルを減算することであって、前景ビデオを得ることと、
前記前景ビデオの低階数オブジェクト記述子を求めることと、
データベース内の各ビデオの各画像から背景ピクセルを減算することであって、データベース内の前景ビデオを得ることと、
データベース内の各前景ビデオの低階数オブジェクトクラス記述子を求めることであって、前記データベース内の各ビデオはオブジェクトクラスと関連付けられていることと、
最大の相関係数を有する前記データベース内の前記ビデオの前記オブジェクトクラスを前記前景ビデオに割り当てることと、
を更に含む、請求項１に記載の方法。