JP2015170358A - シーンから取得されるビデオの低階数記述子を抽出する方法 - Google Patents

シーンから取得されるビデオの低階数記述子を抽出する方法 Download PDF

Info

Publication number
JP2015170358A
JP2015170358A JP2015025130A JP2015025130A JP2015170358A JP 2015170358 A JP2015170358 A JP 2015170358A JP 2015025130 A JP2015025130 A JP 2015025130A JP 2015025130 A JP2015025130 A JP 2015025130A JP 2015170358 A JP2015170358 A JP 2015170358A
Authority
JP
Japan
Prior art keywords
video
descriptor
low rank
matrix
database
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2015025130A
Other languages
English (en)
Other versions
JP6333190B2 (ja
JP2015170358A5 (ja
Inventor
ハッサン・マンソール
Mansour Hassan
シャンタヌ・ラーネ
Shantanu Rane
ペトロス・ティー・ボウフォウノス
Petros T Boufounos
アンソニー・ヴェトロ
Vetro Anthony
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Mitsubishi Electric Corp
Original Assignee
Mitsubishi Electric Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Mitsubishi Electric Corp filed Critical Mitsubishi Electric Corp
Publication of JP2015170358A publication Critical patent/JP2015170358A/ja
Publication of JP2015170358A5 publication Critical patent/JP2015170358A5/ja
Application granted granted Critical
Publication of JP6333190B2 publication Critical patent/JP6333190B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/7715Feature extraction, e.g. by transforming the feature space, e.g. multi-dimensional scaling [MDS]; Mappings, e.g. subspace methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/70Information retrieval; Database structures therefor; File system structures therefor of video data
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/70Information retrieval; Database structures therefor; File system structures therefor of video data
    • G06F16/78Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/783Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/70Information retrieval; Database structures therefor; File system structures therefor of video data
    • G06F16/78Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/783Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • G06F16/7847Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using low-level visual features of the video content
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/213Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods
    • G06F18/2135Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods based on approximation criteria, e.g. principal component analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/46Extracting features or characteristics from the video content, e.g. video fingerprints, representative shots or key frames
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/46Extracting features or characteristics from the video content, e.g. video fingerprints, representative shots or key frames
    • G06V20/47Detecting features for summarising video content
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/48Matching video sequences

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Multimedia (AREA)
  • General Physics & Mathematics (AREA)
  • Physics & Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • Library & Information Science (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Computing Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Software Systems (AREA)
  • Medical Informatics (AREA)
  • General Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Image Analysis (AREA)

Abstract

【課題】ビデオシーンの代表的な記述子を記憶するのに必要とされる情報量を削減する一方で、異なるビデオシーンから生成される記述子に対する弁別性を維持する低階数記述子を生成する。【解決手段】方法は、シーン102から取得されるビデオ101の低階数記述子を、まず、そのビデオ内の画像ごとに記述子の集合を抽出することによって抽出する110。ビデオのための記述子の集合を集約120して、記述子行列121を形成する。反復的に、記述子行列から低階数記述子行列を求める130とともに、記述子行列内の各列と、低階数記述子行列131内の対応する列とを関連付ける選択行列を求める140。収束時に低階数記述子行列131が出力される。【選択図】図1

Description

本発明は、包括的には画像処理に関し、より詳細には、画像及びビデオから、クエリ実行、分類及びオブジェクト検出のために用いることができる記述子を抽出することに関する。
安価なカメラ及び安価なストレージの出現により、画像及びビデオをまとめて非常に大きなデータベースに記憶することが現実的になった。例えば、人気のある1つのソーシャルメディアプロバイダーは、約800億の画像を記憶し、毎秒600000の画像を処理すると推定される。
そのようなデータベースの商業的実現可能性は、探索及び検索アプリケーションの利用可能性に大きく依拠する。このため、画像のための探索及び検索メカニズムに対し、多大な労力が注がれてきた。通常、そのようなメカニズムは、多くの場合にキーポイントと呼ばれる画像内の関心点を特定し、次にこれらの点から、平行移動、回転、拡大縮小及び照明における変動の影響下で正確なままである特徴を抽出することに頼る。
そのような特徴の例は、スケール不変特徴変換(SIFT)、高速化ロバスト特徴(SURF)、バイナリロバスト不変性スケーラブルキーポイント(BRISK)、高速レティーナキーポイント(FREAK)、勾配ヒストグラム(HoG)、円形フーリエHOG(CHOG)等を含む。
そのようなアプリケーションの帯域幅及び複雑度を削減する一方で、マッチングの正確性及び速度を保つために、特徴は多くの場合に、よりコンパクトな記述子に集約及び要約される。特徴空間を小型化するための手法は、主成分分析(PCA)、線形判別分析(LDA)、ブースティング、スペクトルハッシング及び普及しているバッグオブフィーチャーズ手法を含む。バッグオブフィーチャーズ手法は、平均クラスタリングによって生成されるクラスター中心を用いて、特徴をコンパクト記述子(符号語)に変換する。
クエリ画像又はクエリビデオから抽出されるコンパクト記述子を、データベース内の画像から抽出される記述子と比較して、類似した画像を確定することができる。一方、ビデオクエリに関しては、効率的な特徴マッチングメカニズムを開発する努力があまりなされてこなかった。
従来の画像記述子を拡張してビデオ記述子を導出することは簡単でない。1つの単純な方法は、ビデオシーケンス内の各画像から、各画像を別々に扱って画像記述子を抽出する。その方法は、連続したビデオ画像から抽出される特徴が非常に類似しており、類似したキーポイントを記述する傾向にあり、結果として非常に冗長な表現となることを利用できていない。さらに、その方法は、画像間で持続性がない特徴を除去せず、おそらくビデオシーケンスをあまり良好に記述していない。このため、個々の画像記述子を単に収集することは、帯域幅の効率が悪く、マッチングの複雑度を大幅に増大させる。
より有効な手法は、各ビデオ画像から導出される記述子を、ビデオシーケンスにわたるこれらの記述子の動きを利用して圧縮することである。これらの方法は、動き補償予測及びレート歪み最適化等のビデオ圧縮からの強力な理論的枠組みを利用して、送信される記述子のビットレートを低減する。しかしながら、これらの方法は、視覚的に顕著なオブジェクトを表すことができる記述子の小さな集合を発見する問題に対処していない。
本発明の実施形態は、シーンから取得されるビデオの低階数記述子を抽出する方法を提供する。ビデオは画像のシーケンスを含む。
したがって、本発明の目的は、ビデオシーンの代表的な記述子を記憶するのに必要とされる情報量を削減する一方で、異なるビデオシーンから生成される記述子に対する弁別性を維持する低階数記述子を生成することである。本発明の別の目的は、低階数記述子を、クエリ実行、及び大きなデータベースからのビデオの検索、並びにオブジェクト検出に利用することである。
本発明の1つの実施形態において、低階数記述子は、ビデオ内のピクチャー群(GoP)から視覚記述子を抽出し、ビデオシーン記述子の低階数記述子表現を求め、全ての抽出された記述子を低階数記述子内の対応する列に関連付ける選択行列を求めることによって生成される。
本発明の別の実施形態は、非負値行列因子分解(NMF)を用いてビデオ記述子の大きな集合体から低階数記述子を抽出する。これは一連のステップを含み、まず非負最小二乗最小化によって低階数因子が求められ、次に、近接点最小二乗問題を最小化し、その後、選択行列の全ての列における最大のエントリを保持し、全ての他のエントリをゼロに設定することによって、選択因子が求められる。この一連のステップは、低階数因子及び選択行列が変化しなくなるまで繰り返される。
本発明の別の実施形態は、低階数記述子を用いることによってビデオシーンを分類する。これは、クエリビデオの低階数記述子を求めることと、データベース内で利用可能な多くのビデオのそれぞれの低階数記述子を求めることと、クエリビデオの低階数記述子と、データベースビデオのそれぞれの低階数記述子との間の相関係数を求めることと、クエリビデオを、このクエリビデオの低階数記述子との最大の相関係数を有する低階数記述子を有するデータベースビデオに割り当てることと、を含む。
本発明の別の実施形態はビデオ内のオブジェクトを検出する。これは、オブジェクトのビデオを取得することと、ビデオから背景ピクセルを減算して、オブジェクトを表すピクセルのみを保持することと、オブジェクトのみを含む全ての画像から視覚記述子を抽出することと、背景を減算されたビデオから抽出される視覚記述子から低階数記述子を求めることと、低階数記述子と、データベース内で利用可能な幾つかのビデオに属する視覚記述子との間の相関関係を求めることと、オブジェクトを、クエリオブジェクトの低階数記述子に対する最大の相関係数を有する視覚記述子を有するデータベース内のビデオに割り当てることと、を含む。
実施形態は、ビデオシーケンスの視覚的に顕著な部分を表す記述子を抽出する問題を検討する。ほとんどの最新技術による方式は、特徴、例えばSIFT特徴又はSURF特徴又は他のキーポイントに基づく特徴を個々のビデオ画像から抽出することによってビデオ記述子を生成する。これらの手法は、ストレージ、通信オーバーヘッドに対し、及びビデオクエリ実行の許容可能な計算複雑度に対し制約を課すシナリオにおいて無駄である。より重要なことには、その手法によって得られる記述子は通常、ビデオコンテンツに関する意味論的手がかりを与えない。
したがって、実施形態は、類似したビデオコンテンツの効率的な検索のための、特徴にとらわれない新規の手法を提供する。検索の効率及び正確性は、ビデオ画像から抽出される画像特徴にk平均クラスタリングを適用することと比べて評価される。また、実施形態は、低階数ビデオ記述子の抽出が非負値行列因子分解(NMF)問題として与えられる新規な手法も提案する。
本発明の実施形態による、ビデオから記述子を抽出する方法の流れ図である。 本発明の実施形態による、ビデオから記述子を抽出する方法の概略図である。 本発明の実施形態によって用いられる、投影近接点交互最小二乗最小化手順(projected proximal-point alternating least squares minimization procedure)のブロック図である。 本発明の実施形態による、ビデオを分類する方法のブロック図である。
本発明の実施形態は、シーンから取得されたビデオの低階数記述子を抽出する方法を提供する。ビデオは画像のシーケンスを含む。視覚シーンの低階数記述子によって、ビデオビットストリームとともに圧縮及び記憶されるメタデータ量を低減することができる一方で、シーンコンテンツの弁別的表現を維持することが可能になる。本発明の枠組みは、SIFT特徴又はHoG特徴等のローカルシーン記述子がピクチャー群(GoP)内の全てのビデオ画像から抽出されると想定する。記述子は、サイズm×Nの行列Xを形成するようにスタックされる。ここで、mは特徴ベクトルの長さであり、NはGoPから抽出される記述子の総数である。多くの状況において、記述子の数は、画像あたり数百個の特徴に達する可能性がある。
この説明において、個々の記述子の階数は1である。記述子を行列Xに集約することによって、階数は、SIFTの場合128と、行列X内の列数とのうちの最小値となる。したがって、128未満の階数を有する任意のコンパクト記述子は低階数であるとみなされる。
図1に示すように、本発明の実施形態は、カメラ103によってシーン102から取得されるビデオ101の低階数記述子131を抽出する方法を提供する。ビデオは画像シーケンスを含む。
ビデオ内の画像ごとに記述子111の集合が抽出される(110)。この記述子の集合は、記述子行列121を形成するように集約される(120)。シーンの低階数記述子行列131表現が求められる(130)。次に、全ての抽出された記述子を低階数記述子における対応する列に関連付ける選択行列141も求められる。ステップ130及び140は、収束するまで反復され、収束すると低階数記述子行列が出力される。本方法のステップは、当該技術分野において知られているように、バスによってメモリ及び入/出力インターフェースに接続されたプロセッサ100において実行することができる。
NMFを用いて低階数記述子を求める
行列因子分解は、高次元データの低次元表現を求めるのに用いられる技法である。m×N行列Xは、2つの成分L及びRの積が元の行列を厳密に近似するように、これらの成分L及びRに因子分解される。
Figure 2015170358
行列及びその因子が非負のエントリを有する特殊な場合、この問題は非負値行列因子分解(NMF)として知られている。NMFは、機械学習及びデータマイニングにおいて、例えば非常に大きなデータベースに記憶されたデータの探索において普及している。
中でも、近似コスト行列、非負の因子に課される構造、アプリケーション、及び因子分解を達成する計算方法に変形形態を伴う、幾つかのNMF定式化が存在する。
本発明の関心対象は、クラスタリングに用いられるNMF定式化である。特に、本発明ではスパースNMF定式化及び直交NMF定式化を検討する。直交NMF問題は以下のように定義される。
Figure 2015170358
ここで、Tはベクトル転置演算子であり、Iは単位行列である。この定式化はk平均クラスタリングに等しい。
代替的に、スパースNMF問題は、Rを、Rの列に対する
Figure 2015170358
ノルム正則化項及びLに対する平滑化フロベニウスノルムと置き換えて、Rに対する直交性制約を緩和する。スパースNMF問題は以下のように明示的に定義される。
Figure 2015170358
ここで、α及びβは問題固有の正規化パラメーターである。
NMF問題が非凸であることに留意されたい。これらの問題を解く手順は、一般的に、大域最適性保証を有しない。したがって、同じ問題を解く異なる手順が異なる解に達する可能性がある。以下では、直交NMF問題に対処する手順を展開し、本発明の手順によって生成される解が、k平均及びスパースNMFと比較して良好な分類特性を有することを実証する。
低階数シーン記述子
視覚シーンの低階数記述子によって、ビデオビットストリームとともに圧縮及び記憶されるメタデータの量を低減する一方で、シーンコンテンツの弁別的表現を維持することが可能になる。本発明の枠組みは、SIFT特徴又はHoG特徴等のローカルシーン記述子がピクチャー群(GoP)内の全てのビデオ画像から抽出されると想定する。記述子は、サイズm×Nの記述子行列Xを形成するようにスタックされる。ここで、mは特徴ベクトルの長さであり、NはGoPから抽出される記述子の総数である。
多くの状況において、記述子の数Nは、画像あたり数百個の特徴に達する可能性がある。したがって、これらの記述子をコンパクトに符号化することが必須である。このセクションにおいて、ビデオシーンにおける顕著な視覚情報を表す低階数記述子を抽出するための枠組みを展開する。
NMFを用いて低階数記述子を求める
シーン内の視覚的に顕著なオブジェクトは、GoPを通じてほぼ固定の記述子表現を維持することがわかっている。したがって、ビデオシーンの低階数記述子を求める問題を、行列Xの低次元表現を求める問題として定式化する。理想的には、GoPにおける顕著なオブジェクトを表す特徴ベクトルの集合は、行列L∈Rm×rを用いて符号化することができ、ここで、r<<Nは顕著なオブジェクトを明瞭に表す記述子数を表す。
図2は、ビデオGoPからSIFT特徴を抽出し、低階数表現L131及びバイナリ選択行列R141を求めるプロセスを概略的に示している。SIFT記述子の場合、行列X121内の列は非負の単位ノルムベクトルである。したがって、
Figure 2015170358
を求める問題を、以下の非負値行列因子分解(NMF)問題として与えることができる。
Figure 2015170358
ここで、L及びRは、それぞれi及びjによってインデックス付けされた行列L及びRの列であり、
Figure 2015170358
は正の象限(orthant)である。
式(4)におけるNMF定式化は、k平均分類子と類似した機能を果たし、十分に大きなrの場合に、
Figure 2015170358
の列が行列X内の主要な特徴のクラスター中心を含む一方で、選択行列
Figure 2015170358
がデータに最も合致する
Figure 2015170358
内のクラスター中心を選択することを確実にする。
図3に示すように、投影近接点交互最小二乗最小化手順を提供して式(4)を解く。手順の反復kごとに、近接最小二乗項のミニマイザーを求めることによって、因子L及びRが更新される。
Figure 2015170358
ここで、ρは問題の平滑性を制御するパラメーターである。
次に、
Figure 2015170358
の列は、非負の
Figure 2015170358
単位球面に投影される一方、
Figure 2015170358
の列は、各列内の最大の非負のエントリを1に設定し、残りのエントリをゼロに設定することによって、標準規定ベクトルの許容集合
Figure 2015170358
に投影される。
Figure 2015170358
は、図3に示すような閉形式解を許容することに留意されたい。因子L及びRは、独立同一分布に従う一様乱数エントリを用いて初期化される。反復
Figure 2015170358
は、近接点を交互にする最小二乗汎関数を解き、次に、因子における正のエントリ
Figure 2015170358
のみを保持することによって求められる。因子は、
Figure 2015170358
の場合、単位列ノルム球上に投影され、
Figure 2015170358
の場合、バイナリ選択子集合E上に投影される。
低階数記述子を用いる分類
図4に示すように、低階数記述子を用いてクエリビデオを分類することができる。ビデオGoPから低階数記述子
Figure 2015170358
を抽出することによって、クエリGoP内のすべての特徴ベクトルを、データベース内の既に分類されたビデオの特徴とマッチングする問題を、クエリGoPとデータベース内のGoPとの間で低階数記述子をマッチングする問題に縮約することができる。
クエリビデオ及びデータベースビデオがサイズnのビデオ画像のGoPに分割されると仮定する。
Figure 2015170358
がGoPの低階数クエリ記述子を表し、
Figure 2015170358
がgによってインデックス付けされたデータベース内のGoPの低階数クラス記述子を表すものとする。
Figure 2015170358
によってインデックス付けされたデータベースGoPは、
Figure 2015170358
に対し最大の相関係数を有する場合、すなわち、
Figure 2015170358
である場合、クエリGoPに合致する。ここで、無限ノルム‖・‖は、行列積
Figure 2015170358
をベクトル化した後に適用される。したがって、データベース内の合致するGoPは、その低階数記述子がクエリ記述子と最も良好に相関するGoPであり、合致するGoPのクラスをクエリGoPに割り当てることができる。
図4は、本発明の実施形態による分類方法を示している。クエリビデオ401から低階数クエリ記述子411が求められる(410)。データベース402内のビデオ(V)405のそれぞれについて、低階数クラス記述子421が求められる。データベース内の各ビデオはクラスと関連付けられている。低階数クエリ記述子と各低階数クラス記述子との間の相関係数431が求められる(430)。最も高い相関係数を有するデータベース内のビデオ406のクラス403がクエリビデオに割り当てられる(440)。
低階数記述子を用いたビデオ検索
上記で説明した分類方法は、ビデオ検索にも用いることができる。この場合、検索方法は、所定の閾値よりも大きい相関係数を有するデータベースからビデオを得る。
低階数記述子を用いたオブジェクト検出
低階数記述子を用いてビデオ内のオブジェクトを検出することもできる。このプロセスは図4に示すものに類似している。この場合、クエリビデオの代わりに前景ビデオが用いられる。前景ビデオは、ビデオ内の各画像から背景ピクセルを減算することによって得られる。このプロセスは、データベース内のビデオにも適用される。
このため、シーンが特定のオブジェクトを含むとき、ビデオ内の各画像から背景ピクセルが減算されて、前景ビデオが得られる。前景ビデオから低階数オブジェクト記述子が求められる。データベース内の各ビデオの低階数オブジェクトクラス記述子も求められる。データベース内の各ビデオはオブジェクトクラスと関連付けられている。最大の相関係数を有するデータベース内のビデオのオブジェクトクラスが前景ビデオに割り当てられる。
発明の効果
本発明の実験データは、本発明の実施形態による視覚的特徴の低次元クラスタリングによって、ビデオシーン内の視覚的に顕著なオブジェクトを表すためのメモリ要件を大幅に削減することができることを実証している。
階数30の記述子は、97%を超え、平均で99%のストレージ削減を達成する。さらに、低階数記述子は、大幅な圧縮にもかかわらず、90%をはるかに超えるマッチング精度で弁別性を維持する。
続いて、低次元のクラスターを求めるための、本発明の提案される直交NMF(ONMF)法が、k平均クラスタリング及びスパースNMFの双方よりも弁別的であることを実証する。また、本発明の手法は、k平均よりも、クラスター数の変動に対しロバストである。
1つの著しい観測結果は、非常に低階数の表現の場合にスパースNMFがk平均よりも性能が優れている一方で、スパースNMFは、クラスター数、すなわち因子の階数が増大すると、すぐに不安定になることである。上述のクラスタリング問題の全てが非凸であるので、これらの問題に対する解は初期化に依拠することにも留意している。

Claims (12)

  1. シーンから取得されるビデオの低階数記述子を抽出する方法であって、前記ビデオは画像のシーケンスを含み、該方法は、
    前記ビデオ内の画像ごとに記述子の集合を抽出することと、
    前記ビデオのための前記記述子の集合を集約することであって、記述子行列を形成することと、
    収束するまで反復的に、前記記述子行列から低階数記述子行列を求めるとともに、前記記述子行列内の各列と、前記低階数記述子行列内の対応する列とを関連付ける選択行列を求めることと、
    収束時に前記低階数記述子行列を出力することと、
    を含み、前記ステップはプロセッサにおいて実行される、シーンから取得されるビデオの低階数記述子を抽出する方法。
  2. 前記低階数記述子行列は、非負値行列因子分解を用いて求められ、前記方法は、
    前記非負最小二乗最小化によって低階数因子を求めることと、
    近接点最小二乗問題を最小化し、前記選択行列の全ての列における最大のエントリを保持し、全ての他のエントリをゼロに設定することによって、選択行列因子を求めることと、
    を更に含む、請求項1に記載の方法。
  3. 前記低階数記述子行列及び前記選択行列が変化しないときに収束が生じる、請求項1に記載の方法。
  4. 前記ビデオ内の各画像から特徴を抽出することと、
    前記記述子内の前記特徴を集約することと、
    を更に含む、請求項1に記載の方法。
  5. 前記特徴はスケール不変特徴変換を用いて抽出される、請求項4に記載の方法。
  6. 前記記述子は、サイズm×Nの行列Xを形成するようにスタックされ、ここで、mは特徴ベクトルの長さであり、Nは前記ビデオから抽出される記述子の総数である、請求項1に記載の方法。
  7. 前記階数は、前記特徴ベクトルの長さ未満である、請求項1に記載の方法。
  8. クエリビデオの低階数クエリ記述子を求めることと、
    データベース内の各ビデオの低階数クラス記述子を求めることであって、前記データベース内の各ビデオはクラスと関連付けられていることと、
    前記低階数クエリ記述子と、前記低階数クラス記述子のそれぞれとの間の相関係数を求めることと、
    最大の相関係数を有する前記データベース内の前記ビデオの前記クラスを前記クエリビデオに割り当てることと、
    を更に含む、請求項1に記載の方法。
  9. 前記ビデオはピクチャー群に分割され、前記求めるステップ及び前記割り当てるステップが前記ピクチャー群に適用される、請求項8に記載の方法。
  10. クエリビデオの低階数クエリ記述子を求めることと、
    データベース内の各ビデオの低階数クラス記述子を求めることと、
    前記低階数クエリ記述子と、各低階数クラス記述子との間の相関係数を求めることと、
    所定の閾値よりも大きい相関係数を有する前記データベース内の前記ビデオを検索することと、
    を更に含む、請求項1に記載の方法。
  11. 前記シーンはオブジェクトを含み、前記方法は、
    前記ビデオ内の各画像から背景ピクセルを減算することであって、前景ビデオを得ることと、
    前記前景ビデオの低階数オブジェクト記述子を求めることと、
    データベース内の各ビデオの低階数オブジェクトクラス記述子を求めることであって、前記データベース内の各ビデオはオブジェクトクラスと関連付けられていることと、
    最大の相関係数を有する前記データベース内の前記ビデオの前記オブジェクトクラスを前記前景ビデオに割り当てることと、
    を更に含む、請求項1に記載の方法。
  12. 前記シーンはオブジェクトを含み、前記方法は、
    前記ビデオ内の各画像から背景ピクセルを減算することであって、前景ビデオを得ることと、
    前記前景ビデオの低階数オブジェクト記述子を求めることと、
    データベース内の各ビデオの各画像から背景ピクセルを減算することであって、データベース内の前景ビデオを得ることと、
    データベース内の各前景ビデオの低階数オブジェクトクラス記述子を求めることであって、前記データベース内の各ビデオはオブジェクトクラスと関連付けられていることと、
    最大の相関係数を有する前記データベース内の前記ビデオの前記オブジェクトクラスを前記前景ビデオに割り当てることと、
    を更に含む、請求項1に記載の方法。
JP2015025130A 2014-03-10 2015-02-12 ビデオのデータベースをクエリ実行する方法 Active JP6333190B2 (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US14/202,327 2014-03-10
US14/202,327 US9639761B2 (en) 2014-03-10 2014-03-10 Method for extracting low-rank descriptors from images and videos for querying, classification, and object detection

Publications (3)

Publication Number Publication Date
JP2015170358A true JP2015170358A (ja) 2015-09-28
JP2015170358A5 JP2015170358A5 (ja) 2017-11-30
JP6333190B2 JP6333190B2 (ja) 2018-05-30

Family

ID=54017663

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2015025130A Active JP6333190B2 (ja) 2014-03-10 2015-02-12 ビデオのデータベースをクエリ実行する方法

Country Status (2)

Country Link
US (1) US9639761B2 (ja)
JP (1) JP6333190B2 (ja)

Families Citing this family (29)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10013476B2 (en) * 2014-04-28 2018-07-03 Moogsoft, Inc. System for decomposing clustering events from managed infrastructures
US10700920B2 (en) 2013-04-29 2020-06-30 Moogsoft, Inc. System and methods for decomposing events from managed infrastructures that includes a floating point unit
US10007716B2 (en) * 2014-04-28 2018-06-26 Moogsoft, Inc. System for decomposing clustering events from managed infrastructures coupled to a data extraction device
US11010220B2 (en) 2013-04-29 2021-05-18 Moogsoft, Inc. System and methods for decomposing events from managed infrastructures that includes a feedback signalizer functor
US10803133B2 (en) 2013-04-29 2020-10-13 Moogsoft Inc. System for decomposing events from managed infrastructures that includes a reference tool signalizer
US11303502B2 (en) 2015-01-27 2022-04-12 Moogsoft Inc. System with a plurality of lower tiers of information coupled to a top tier of information
US10979304B2 (en) 2015-01-27 2021-04-13 Moogsoft Inc. Agent technology system with monitoring policy
US10873508B2 (en) 2015-01-27 2020-12-22 Moogsoft Inc. Modularity and similarity graphics system with monitoring policy
US11924018B2 (en) 2015-01-27 2024-03-05 Dell Products L.P. System for decomposing events and unstructured data
US10686648B2 (en) * 2015-01-27 2020-06-16 Moogsoft Inc. System for decomposing clustering events from managed infrastructures
US10425291B2 (en) 2015-01-27 2019-09-24 Moogsoft Inc. System for decomposing events from managed infrastructures with prediction of a networks topology
US11817993B2 (en) 2015-01-27 2023-11-14 Dell Products L.P. System for decomposing events and unstructured data
US10515127B2 (en) * 2015-04-09 2019-12-24 Oath Inc. Inductive matrix completion and graph proximity for content item recommendation
US10929707B2 (en) 2017-03-02 2021-02-23 Ricoh Company, Ltd. Computation of audience metrics focalized on displayed content
US10720182B2 (en) 2017-03-02 2020-07-21 Ricoh Company, Ltd. Decomposition of a video stream into salient fragments
US10949463B2 (en) 2017-03-02 2021-03-16 Ricoh Company, Ltd. Behavioral measurements in a video stream focalized on keywords
US10956495B2 (en) 2017-03-02 2021-03-23 Ricoh Company, Ltd. Analysis of operator behavior focalized on machine events
US10708635B2 (en) 2017-03-02 2020-07-07 Ricoh Company, Ltd. Subsumption architecture for processing fragments of a video stream
US10719552B2 (en) 2017-03-02 2020-07-21 Ricoh Co., Ltd. Focalized summarizations of a video stream
US10929685B2 (en) 2017-03-02 2021-02-23 Ricoh Company, Ltd. Analysis of operator behavior focalized on machine events
US10949705B2 (en) 2017-03-02 2021-03-16 Ricoh Company, Ltd. Focalized behavioral measurements in a video stream
US10956773B2 (en) 2017-03-02 2021-03-23 Ricoh Company, Ltd. Computation of audience metrics focalized on displayed content
US10943122B2 (en) 2017-03-02 2021-03-09 Ricoh Company, Ltd. Focalized behavioral measurements in a video stream
US10956494B2 (en) 2017-03-02 2021-03-23 Ricoh Company, Ltd. Behavioral measurements in a video stream focalized on keywords
US10713391B2 (en) 2017-03-02 2020-07-14 Ricoh Co., Ltd. Tamper protection and video source identification for video processing pipeline
US11302361B2 (en) * 2019-12-23 2022-04-12 Samsung Electronics Co., Ltd. Apparatus for video searching using multi-modal criteria and method thereof
US11784888B2 (en) 2019-12-25 2023-10-10 Moogsoft Inc. Frequency-based sorting algorithm for feature sparse NLP datasets
US11082731B1 (en) * 2020-01-22 2021-08-03 Microsoft Technology Licensing, Llc Privacy-preserving video analytics
CN111667399B (zh) * 2020-05-14 2023-08-25 华为技术有限公司 风格迁移模型的训练方法、视频风格迁移的方法以及装置

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2008536345A (ja) * 2005-01-27 2008-09-04 インダストリー−ユニバーシティー コオペレーション ファウンデーション ハンヤン ユニバーシティー イメージシーケンスデータ検索のための情報要素抽出方法及びその方法を記録した記録媒体

Family Cites Families (22)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3123587B2 (ja) * 1994-03-09 2001-01-15 日本電信電話株式会社 背景差分による動物体領域抽出方法
US6751354B2 (en) * 1999-03-11 2004-06-15 Fuji Xerox Co., Ltd Methods and apparatuses for video segmentation, classification, and retrieval using image class statistical models
US6411724B1 (en) 1999-07-02 2002-06-25 Koninklijke Philips Electronics N.V. Using meta-descriptors to represent multimedia information
US20050021499A1 (en) 2000-03-31 2005-01-27 Microsoft Corporation Cluster-and descriptor-based recommendations
US7143352B2 (en) 2002-11-01 2006-11-28 Mitsubishi Electric Research Laboratories, Inc Blind summarization of video content
US7375731B2 (en) 2002-11-01 2008-05-20 Mitsubishi Electric Research Laboratories, Inc. Video mining using unsupervised clustering of video content
US7424150B2 (en) * 2003-12-08 2008-09-09 Fuji Xerox Co., Ltd. Systems and methods for media summarization
US20080159622A1 (en) * 2006-12-08 2008-07-03 The Nexus Holdings Group, Llc Target object recognition in images and video
US7925112B2 (en) 2007-02-28 2011-04-12 Honeywell International Inc. Video data matching using clustering on covariance appearance
US7844116B2 (en) * 2007-04-30 2010-11-30 Xerox Corporation Method for identifying images after cropping
US8170280B2 (en) * 2007-12-03 2012-05-01 Digital Smiths, Inc. Integrated systems and methods for video-based object modeling, recognition, and tracking
CN101727568B (zh) * 2008-10-10 2013-04-17 索尼(中国)有限公司 前景动作估计装置和前景动作估计方法
US8891813B2 (en) * 2008-11-17 2014-11-18 Dolby Laboratories Licensing Corporation Media fingerprints that reliably correspond to media content with projection of moment invariants
WO2010080857A2 (en) * 2009-01-07 2010-07-15 Dolby Laboratories Licensing Corporation Scalable media fingerprint extraction
US8396286B1 (en) * 2009-06-25 2013-03-12 Google Inc. Learning concepts for video annotation
US8442977B2 (en) 2010-02-16 2013-05-14 Honeywell International Inc. Distance-space embedding for multi-descriptor matching and retrieval
US8542869B2 (en) * 2010-06-02 2013-09-24 Dolby Laboratories Licensing Corporation Projection based hashing that balances robustness and sensitivity of media fingerprints
US20120011119A1 (en) 2010-07-08 2012-01-12 Qualcomm Incorporated Object recognition system with database pruning and querying
US8805653B2 (en) * 2010-08-11 2014-08-12 Seiko Epson Corporation Supervised nonnegative matrix factorization
US8755605B2 (en) 2011-07-11 2014-06-17 Futurewei Technologies, Inc. System and method for compact descriptor for visual search
US9177208B2 (en) 2011-11-04 2015-11-03 Google Inc. Determining feature vectors for video volumes
US8913835B2 (en) * 2012-08-03 2014-12-16 Kodak Alaris Inc. Identifying key frames using group sparsity analysis

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2008536345A (ja) * 2005-01-27 2008-09-04 インダストリー−ユニバーシティー コオペレーション ファウンデーション ハンヤン ユニバーシティー イメージシーケンスデータ検索のための情報要素抽出方法及びその方法を記録した記録媒体

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
亀岡 弘和: ""計測・センシングのアルゴリズム"", 計測と制御, vol. 51, no. 9, JPN6018010493, 10 September 2012 (2012-09-10), JP, pages 835 - 844 *
安倍 満、吉田 悠一: ""事前知識を用いたNon−negative Matrix Factorization"", 電子情報通信学会技術研究報告, vol. 109, no. 306, JPN6018010490, 19 November 2009 (2009-11-19), JP, pages 265 - 270 *

Also Published As

Publication number Publication date
US9639761B2 (en) 2017-05-02
US20150254513A1 (en) 2015-09-10
JP6333190B2 (ja) 2018-05-30

Similar Documents

Publication Publication Date Title
JP6333190B2 (ja) ビデオのデータベースをクエリ実行する方法
Liu et al. Dense 3D-convolutional neural network for person re-identification in videos
Delhumeau et al. Revisiting the VLAD image representation
Naikal et al. Informative feature selection for object recognition via sparse PCA
JP5950864B2 (ja) スケール不変の画像特徴の量子化された埋込みを用いて画像を表現する方法
Zhao et al. Oriented pooling for dense and non-dense rotation-invariant features
Haldar et al. Content based image retrieval using histogram, color and edge
WO2023108995A1 (zh) 向量相似度计算方法、装置、设备及存储介质
CN111325245A (zh) 重复图像识别方法、装置、电子设备及计算机可读存储介质
Ballas et al. Irim at TRECVID 2014: Semantic indexing and instance search
WO2016142285A1 (en) Method and apparatus for image search using sparsifying analysis operators
CN105760875B (zh) 基于随机森林算法的判别二进制图像特征相似实现方法
WO2021007999A1 (zh) 视频帧处理方法及装置
JP6373292B2 (ja) 特徴量生成装置、方法、及びプログラム
Mansour et al. Video querying via compact descriptors of visually salient objects
Wu et al. Codebook-free compact descriptor for scalable visual search
Tavakolian et al. Avd: Adversarial video distillation
Garcia et al. Asymmetric spatio-temporal embeddings for large-scale image-to-video retrieval
Liu et al. Selection of canonical images of travel attractions using image clustering and aesthetics analysis
JP2014146207A (ja) コンテンツをバイナリ特徴ベクトルの集合で表現することによって高速に検索する検索装置、プログラム及び方法
Jena et al. Content based image retrieval using adaptive semantic signature
JP5713398B2 (ja) 画像照合装置、画像照合方法及びコンピュータプログラム
Lyu et al. Hierarchically structured multi-view features for mobile visual search
Mennesson et al. Elementary block extraction for mobile image search
Shi et al. Efficient Image Retrieval via Feature Fusion and Adaptive Weighting

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20171016

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20171016

A871 Explanation of circumstances concerning accelerated examination

Free format text: JAPANESE INTERMEDIATE CODE: A871

Effective date: 20171016

A975 Report on accelerated examination

Free format text: JAPANESE INTERMEDIATE CODE: A971005

Effective date: 20180315

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20180315

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20180327

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20180424

R150 Certificate of patent or registration of utility model

Ref document number: 6333190

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250