JP2005513929A6 - 画像のシーケンスにおける主要な動きを推定する方法 - Google Patents
画像のシーケンスにおける主要な動きを推定する方法 Download PDFInfo
- Publication number
- JP2005513929A6 JP2005513929A6 JP2003555818A JP2003555818A JP2005513929A6 JP 2005513929 A6 JP2005513929 A6 JP 2005513929A6 JP 2003555818 A JP2003555818 A JP 2003555818A JP 2003555818 A JP2003555818 A JP 2003555818A JP 2005513929 A6 JP2005513929 A6 JP 2005513929A6
- Authority
- JP
- Japan
- Prior art keywords
- motion
- regression
- image
- images
- sequence
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 230000014509 gene expression Effects 0.000 claims abstract description 23
- 238000004422 calculation algorithm Methods 0.000 claims description 5
- 238000007906 compression Methods 0.000 claims description 5
- 238000004364 calculation method Methods 0.000 abstract description 5
- 238000000034 method Methods 0.000 description 15
- 230000000875 corresponding Effects 0.000 description 10
- 238000001514 detection method Methods 0.000 description 4
- 238000004091 panning Methods 0.000 description 4
- 230000000007 visual effect Effects 0.000 description 4
- 238000010192 crystallographic characterization Methods 0.000 description 3
- 238000010606 normalization Methods 0.000 description 3
- 230000003068 static Effects 0.000 description 3
- 238000004458 analytical method Methods 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 230000011218 segmentation Effects 0.000 description 2
- 238000007476 Maximum Likelihood Methods 0.000 description 1
- 238000000540 analysis of variance Methods 0.000 description 1
- 238000007635 classification algorithm Methods 0.000 description 1
- 238000006073 displacement reaction Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 230000001771 impaired Effects 0.000 description 1
- 238000007781 pre-processing Methods 0.000 description 1
- 230000035807 sensation Effects 0.000 description 1
- 230000011664 signaling Effects 0.000 description 1
- 230000002123 temporal effect Effects 0.000 description 1
Images
Abstract
本発明は、座標xi,yiを有する画像の要素に対して、成分ui,viを有する1つまたは複数の動きベクトルを定める、画像に関連する動きのベクトル場の計算(1)を行って、画像のシーケンスにおける主要な動きを推定することに関し、その特徴は、またつぎのステップを含むことである。すなわち、単純化されたパラメトリック表現、ui = tx+k・xi,vi = ty+k・yi(ただし、tx,tyは動きの平行移動成分を表すベクトルの成分、kは動きのズーム成分を特徴付ける発散のファクタである)に基づいて動きをモデル化するステップ(2)と、x,y,uおよびvがそれぞれ変数xi,yi,uiおよびviの軸を表す時、平面(x,u)および(y,v)によって定められる2つ動きの表現空間の各々にて、ロバストな線形回帰を行って回帰直線を得るステップ(3)と、この該回帰直線の傾きと原点における縦座標とに基づいて上記パラメタtx,tyおよびkを計算するステップ(4,5)とを含むことである。本発明は、ビデオインデクシングまたはメタデータ生成に対してキー画像を選択するのに有利である。
Description
本発明は、ビデオショットにおける主要な動きを推定する方法および装置に関する。詳しくいうと、この方法は、動き補償を使用する圧縮方式のビデオで転送される動きの場を分析することに基づいている。このような方式は、MPEG−1,MPEG−2およびMPEG−4ビデオ圧縮標準によって実現されている。
MPEG形の圧縮ビデオストリームから発生する、動きモデルの動きベクトルをベースにした推定に基づいて動きを分析する方法が公知である。ここでこの動きモデルは、通常、以下のアフィン形である。すなわち、
この動きモデルのアフィンパラメタa,b,c,d,eおよびfの推定は、最小2乗誤差最小化法(least square error minimization)に基づいている。このような方法は、M.A. SmithおよびT. Kanadeによる論文"Video Skimming and Characterization through the Combination of Image and Language Understanding"(IEEE 1998 International Workshop of Content-Based Access of Image and Video Databaseの紀要、第61および70頁)に記載されている。この論文の著者は、動きのアフィンモデルのパラメタと、場のベクトルの空間的な成分の平均uおよびvとを使用して、見掛けの動きを識別して分類している。例えば、動きがズームであるか否かを決定するため、著者はつぎをチェックする。すなわち、u(x0,y0)=0かつv(x0,y0)=0なる、ベクトル場の収束点(x0,y0)が存在すること、つぎの条件、すなわち、
動きモデルの識別を必要とすることなく、MPEGビデオストリームから発生するベクトル場を直接利用する動き分析方法も公知である。O.N. GerekおよびY. Altunbasakによる論文"Key Frame Selection from MPEG Video Data"(Visual Communicaions and Image Processing '97 congressの紀要、第920〜925頁)にはこのような方法が記載されている。この方法では、MPEGバイナリ列の画像に関連する動きの場毎にベクトル場の2つのヒストグラムを作成し、その1つはベクトルの発生をその方向の関数として示し、他の1つは、その振幅の関数として示している。これらのヒストグラムの例は図1および2に示されている。すなわち、図1には、画像における見掛けの動きがズームである構成が示されており、これに対して図2では主要な動きはパニングショットである。
この場合、2つのヒストグラムの各々に対し、ヒストグラムの各クラス(または「ビン」"bin")において、動きベクトルの数に関連する分散(Variance)の閾値設定(thresholding)を使用して、「ズーム」および「パニング」形の主要な動きが存在することを識別する。
例えばGerekおよびAltunbasakによって提案された方法は単に、主要な動きのカテゴリについて質的な情報しか提供しないが、動きの振幅についての量的な推定が要求されることが多い。例えばSmithおよびKanadeによって提案された、動きのパラメトリックモデルの推定に基づく方法により、このような量的な情報が得られるが、これらはまったく信頼できないことが多い。殊にこれらの方法が考慮していないのは、処理するビデオシーンに、別個の見掛けの動きにしたがう複数のオブジェクトが存在することである。副次的なオブジェクトに関連するベクトルを考慮すると、主要な動きのモデルのパラメタの最小2乗推定が著しく大きく損なわれてしまいがちである。ここで副次的なオブジェクトは、画像において、この画像の別の少なくとも1つのオブジェクトよりも小さなエリアを占めるオブジェクトとして定義され、ここで主要な動きに関連しているオブジェクトが、この画像において最大のエリアを占めているオブジェクトである。さらに、この画像において動いているオブジェクトが1つ存在する場合であっても、動きの分析に対するベースとして使用される、圧縮されたビデオストリームのベクトルがつねに、画像の見掛け上の真の動きを実際に表すとは限らない。殊にこれらのベクトルは、動き補償の後、転送される情報の処理を最小化するために計算されたのであり、画像のピクセルの物理的な動きを推定するために計算されたのではない。
圧縮されたストリームから発生するベクトルに基づいて、動きのモデルを高い信頼性で推定するためには、ロバストな方法を使用しなければならない。ここでこのロバストな方法では、主要な動きにしたがわない副次的なオブジェクトに関する動きベクトルと、この画像の主要なオブジェクトの物理的な動きに相応しないベクトルとが自動的に計算から取り除かれる。
主要な動きのパラメトリックモデルを推定するロバストな方法は、圧縮されたビデオストリームを使用するのとは異なる状況においてすでに提案されている。1つの方法の例は、IEEE journal Circuits and Systems for Video Technology volume 9, No.7, October 1999,第1030〜1044頁に掲載された"A unified approach to shot change detection and camera motion characterization"なる題名のP. Bouthemy,M. GelgonおよびF. Ganansiaによる論文に記載されている。これらの手法は、実現が極めて複雑であるという欠点を有する。
本発明の目的は、上に示した主要な動きを推定する様々な方法ファミリの欠点を解消することである。
本発明の1テーマは、座標xi,yiを有する画像の要素に対して、成分ui,viを有する1つまたは複数の動きベクトルを定める、画像に関連する動きのベクトル場の計算を行って、画像のシーケンスにおける主要な動きを検出する方法であり、さらにつぎのようなステップも実行するという特徴を有する。すなわち、
− 単純化されたパラメトリック表現
ui = tx+k・xi
vi = ty+k・yi
ただし、
tx,ty 動きの平行移動成分を表すベクトルの成分
k 動きのズーム成分を特徴付ける発散のファクタ
に基づいて動きをモデル化するステップと、
− x,y,uおよびvがそれぞれ変数xi,yi,uiおよびviの軸を表す時、平面(x,u)および(y,v)によって定められる2つの動き表現空間の各々においてロバストな線形回帰を行い回帰直線を得るステップと、
− この回帰直線の傾きと原点における縦座標とに基づいてパラメタtx,tyおよびkを計算するステップも実行するという特徴を有する。
− 単純化されたパラメトリック表現
ui = tx+k・xi
vi = ty+k・yi
ただし、
tx,ty 動きの平行移動成分を表すベクトルの成分
k 動きのズーム成分を特徴付ける発散のファクタ
に基づいて動きをモデル化するステップと、
− x,y,uおよびvがそれぞれ変数xi,yi,uiおよびviの軸を表す時、平面(x,u)および(y,v)によって定められる2つの動き表現空間の各々においてロバストな線形回帰を行い回帰直線を得るステップと、
− この回帰直線の傾きと原点における縦座標とに基づいてパラメタtx,tyおよびkを計算するステップも実行するという特徴を有する。
1実施形態では、上記のロバストな回帰は、the least median of the square方式であり、この方式では、直線jについて座標xi,uiまたはyi,viを有するi番目の残差をri,jとするとき、残差の2乗からなる集合の最も小さい中央値を供給する直線を、直線jの集合から探索する。すなわち、
1実施形態では、上記の残差の2乗の最小中央値に対する探索を所定数の直線に行い、ここで各直線は、考察する動きの表現空間においてランダムに抜き出したサンプルのペアによって定められる。
1実施形態では、上記のロバストな線形回帰の後、第2のロバストでない線形回帰を行って、動きのモデルのパラメタの推定が一層精確にできるようにする。この第2の線形回帰により、上記の第1のロバストな回帰から得た回帰の残差が所定の閾値を上回る表現空間の点を除外することができる。
1実施形態では、この方法において、各表現空間で計算した回帰直線の方向係数が等しいか否かをテストし、ここでこのテストは、第1に各表現空間において別個の2つの回帰を行うことによって得られた残差の2乗の和と、第2に2つの表現空間のサンプルの集合にグローバルな傾きの回帰を行うことによって得られた残差の2乗の和とを比較することに基づいており、このテストの結果がイエスの場合、各表現空間において得られた回帰直線の方向係数の算術平均によってこのモデルのパラメタkを推定する。
本発明はまた上記の方法を実施する装置にも関する。
極めて単純化されているが、それにもかかわらず十分に実際的である、ビデオ画像における主要な動きのパラメトリックモデルを利用すれば、上記の方法により、低減されたコストで、動きモデルを識別するロバストな手法を実現することができる。詳しくいうと、本発明に記載された方法の主要な利点は、動きベクトルの成分を表現する適切な空間を使用することにあり、これによって、動きモデルのパラメタの識別を2回の線形回帰に還元することができるのである。
本発明のその他の特徴および利点は、制限的でない実施例によって示され、また添付の図面に関連して示される以下の説明において明らかになる。ここで、
図1は、「ズーム」に相応する理論的な動きベクトルの場を示しており、
図2は、背景の主要な動きが「パニング」形であるシーンに相応する理論的な動きベクトルの場を示しており、これはまたこの主要な動きとは異なる動きにしたがう副次的なオブジェクトを有しており、
図3は、本発明で使用される動きベクトルの表現空間を示しており、
図4は、本発明で使用される表現空間の中央におけるズーム運動に対する理論的なベクトルの分布を示しており、
図5は、本発明で使用される表現空間における画像のグローバルな斜めの平行移動に対する理論的なベクトルの分布を示しており、
図6は、本発明で使用される表現空間において平行移動とズームとが組み合わされた動きに対する理論的なベクトルの分布を示しており、
図7は、本発明で使用される表現空間における静的なシーン(ゼロモーション)に対する理論的なベクトルの分布を示しており、
図8は、主要な動きを検出する方法のフローチャートを示している。
図1は、「ズーム」に相応する理論的な動きベクトルの場を示しており、
図2は、背景の主要な動きが「パニング」形であるシーンに相応する理論的な動きベクトルの場を示しており、これはまたこの主要な動きとは異なる動きにしたがう副次的なオブジェクトを有しており、
図3は、本発明で使用される動きベクトルの表現空間を示しており、
図4は、本発明で使用される表現空間の中央におけるズーム運動に対する理論的なベクトルの分布を示しており、
図5は、本発明で使用される表現空間における画像のグローバルな斜めの平行移動に対する理論的なベクトルの分布を示しており、
図6は、本発明で使用される表現空間において平行移動とズームとが組み合わされた動きに対する理論的なベクトルの分布を示しており、
図7は、本発明で使用される表現空間における静的なシーン(ゼロモーション)に対する理論的なベクトルの分布を示しており、
図8は、主要な動きを検出する方法のフローチャートを示している。
画像のシーケンスにおける主要な動きを特徴付けるためには、見掛け上の主要な動きのパラメトリックモデルを識別する必要がある。圧縮ビデオストリームから発生する動きのベクトル場を利用する状況では、このモデルは、2D画像平面における見掛けの動きを表さなければならない。このようなモデルは、3次元空間におけるオブジェクトの動きの画像平面への投影に近似させることによって得られる。例えば、上に示した6つのパラメタ(a,b,c,d,e,f)を有するアフィンモデルは文献において広く採用されている。
提案される方法では基本的に、動きベクトルの場に基づいてこの動きのパラメトリックモデルを識別する。ここでこの動きベクトルの場は、例えば、MPEG−1,MPEG−2およびMPEG−4で利用されているようにコーディング原理が動き補償テクニックに要求する場合には、ビデオストリームにおいて供給されてこれがデコードされる。しかしながら、本発明に記載された方法は、処理するビデオシーケンスを構成する画像に基づいて別の方法で計算される動きベクトル場にも適用可能である。
本発明のコンテキスト内では、採用される動きモデルは、4つのパラメタ(tx,ty,k,θ)を有する単純化された線形モデルから導出され、ここではこれをSLM(Simplified Linear Modelの表す頭字語である)と称し、つぎによって定義される。
ここで
(ui,vi)t :座標(xi,yi)tを有する画像平面のピクセルに関連する見掛け上の動きベクトルの成分、
(xg,yg)t :カメラによって2Dシーンとして撮影された、3Dシーンの近似に対する基準点の座標、この基準点は、画像の座標(0,0)tを有する点とみなされる、
(tx,ty)t :動きの平行移動成分を表すベクトル、
k :動きのズーム成分を表す発散項、
θ :カメラの軸のまわりの動きの回転角である。
(ui,vi)t :座標(xi,yi)tを有する画像平面のピクセルに関連する見掛け上の動きベクトルの成分、
(xg,yg)t :カメラによって2Dシーンとして撮影された、3Dシーンの近似に対する基準点の座標、この基準点は、画像の座標(0,0)tを有する点とみなされる、
(tx,ty)t :動きの平行移動成分を表すベクトル、
k :動きのズーム成分を表す発散項、
θ :カメラの軸のまわりの動きの回転角である。
達成すべき目標は、動きとカメラの視覚的な平行移動とによって生じた主要な動き、例えば、ビデオシーケンスにおける視覚のズームを識別することである。これには、殊にカメラの動きを識別する必要があり、ここでこれらのカメラの動きは、ビデオドキュメントの構成物において、主に平行移動の動き、ズームの動き、これらの組み合わせ、および動きの欠如すなわち静的または静止のショットに一緒にまとめるのが統計的に最も一般的である。実践的には極めてまれにしか見られないカメラの回転の効果は考慮しない。したがってこのモデルは、θ≒0と仮定することによって3つのパラメタ(tx,ty,k)に限定される。
この場合、ベクトルの成分と、画像におけるその空間的な位置との間に2つの線形の関係式が得られる。すなわち、
この単純化された動きのパラメトリック表現の利点は、この動きモデルの平行移動およびズームパラメタの2つの成分をそれぞれ表すパラメタtx,tyおよびkが、動きui = f(xi)およびvi = f(yi)の表現空間における線形回帰によって推定できることである。したがって図3によって示したように、これらの空間における動きベクトル場の表現により、それらの各々に対して、傾きkの直線のまわりに分布する点のクラスタが得られるのである。
単純化された動きモデルのパラメタを推定するプロシージャは、動きの表現空間においてそれぞれロバスト形の線形回帰を適用することに基づいている。線形回帰は、点のクラスタに最もあてはまる直線を決定する数学的な演算であり、これは例えば、各点と、直線との距離の2乗の和を最小化することによって決定される。この演算は、本発明のコンテキスト内では、ロバストな統計的推定テクニックを使用して実現され、これにより、このデータにアウトライアが存在することに関して、不感度を保証することができる。殊に主要な動きのモデルの推定は、つぎを無視しなければならない。すなわち、
− いくつかのオブジェクトが主要な動きとは異なる副次的な動きにしたがうオブジェクトが画像にいくつか存在すること、
− オブジェクトの物理的動きを表さない動きベクトルが存在することを無視しなければならない。殊に、圧縮されたビデオストリームにおいて転送される動きベクトルは、動き補償の後、転送される残りの情報を最小化することを目的として計算されているのであり、映像化されたシーンを構成するオブジェクトの実際の動きを示すことを目的としてはいないのである。
− いくつかのオブジェクトが主要な動きとは異なる副次的な動きにしたがうオブジェクトが画像にいくつか存在すること、
− オブジェクトの物理的動きを表さない動きベクトルが存在することを無視しなければならない。殊に、圧縮されたビデオストリームにおいて転送される動きベクトルは、動き補償の後、転送される残りの情報を最小化することを目的として計算されているのであり、映像化されたシーンを構成するオブジェクトの実際の動きを示すことを目的としてはいないのである。
図8には、シーケンスにおける主要な動きを推定する方法の様々なステップが示されている。以下、各ステップをより詳しく説明する。
第1ステップ1では、処理するビデオシーケンスの画像にそれぞれ関連する動きのベクトル場を正規化する。これらのベクトル場は、アルゴリズムを適用する前に動き推定器を用いて計算されているとする。動きの推定は、画像のピクセルの正方形ブロックに対して、いわゆる「ブロックマッチング」方式のように行うことができるか、または画像のピクセル毎にベクトルが推定される密なベクトル場を提供する。本発明は、排他的にではないが、有利にはつぎのようなケースを扱う。すなわち、使用するベクトル場が、ビデオエンコーダによって計算され、またデコーディングを目的として圧縮ビデオデータストリームで転送されるケースを扱うのである。使用するエンコーディング方式がMPEG−1またはMPEG−2標準のいずれかに準拠する通例のケースでは、動きベクトルは、目下の画像に対して、この画像の正方形ブロック毎に1ベクトルの割合で、基準フレームを基準にして推定される。ここでこの基準フレームと目下の画像との時間的な間隔は可変である。さらに、双方向に予想されるいわゆる「B」フレームに対して、2つの動きベクトルが同一のブロックに対して計算されていることがあり、1つは目下の画像から過去の基準フレームをポイントし、別の1つは目下の画像から将来の基準フレームをポイントする。したがってベクトル場を正規化するステップは必須であり、これにより、後続のステップにおいて、同じ持続時間の時間区間にわたって計算されかつ同じ方向をポイントするベクトルが扱えるようにするのである。Proceedings of the SPIE vol. 3022, 1997,第200〜211頁の"Compressed domain video indexing techniques using DCT and motion vector information in MPEG video"なる題名のV. KoblaおよびD. Doermannによる論文の第3.2節には、この正規化を実行することのできる例示的な方法が示されている。MPEGベクトル計算区間にわたる、線形近似に基づく比較的単純な別のテクニックも使用可能である。
動きの場のベクトルの表現に相応する点(xi,ui)および(yi,vi)の各ペアは、つぎのようにして、各空間において回帰直線を基準にしてモデル化することができる。すなわち、
(a0,b0)は、空間ui = f(xi)において計算される回帰直線のパラメタであり、εuiは、相応する残余誤差であり、
(a1,b1)は、空間vi = f(yi)において計算される回帰直線のパラメタであり、εuiは、相応する残余誤差である。
図3には、正規化された動きベクトル場に基づいてこれらの2つの空間を構成した後に得られる点のクラスタが示されている。
各表現空間における線形回帰の完了時に得られるパラメタ(a0,b0)および(a1,b1)により、主要な動きモデルのパラメタが推定される。したがって傾きa0およびa1は、ズーム成分を特徴付ける発散パラメタkの2重の推定に相応し、原点における縦座標b0およびb1は、平行移動成分txおよびtyの評価に相応するのである。
図4〜7に示されているのは、考えられる構成のいくつかの例である。
− 図4については中央がズームされた場合のデータの分布、
− 図5については斜めの平行移動の場合のデータの分布、
− 図6については中央を外れたズーム(ズームと平行移動とを組み合わせた動き)の場合のデータの分布、
− 図7については動きがない場合のデータの分布がそれぞれ示されている。
− 図4については中央がズームされた場合のデータの分布、
− 図5については斜めの平行移動の場合のデータの分布、
− 図6については中央を外れたズーム(ズームと平行移動とを組み合わせた動き)の場合のデータの分布、
− 図7については動きがない場合のデータの分布がそれぞれ示されている。
つぎのステップ3では、上記の動きの表現空間毎にロバストな線形回帰を行う。これは、実際の主要な動きを表すデータ点と、この画像の副次的なオブジェクトの動きかまたは関連するピクセルの物理的な動きを伝達しないベクトルのいずれかに相応するデータ点とを分離することを目的として行われる。
ロバストな推定テクニックにはいくつかのファミリが存在する。本発明の有利な実施形態では、回帰直線は、least median of the squareの判定基準を満たすように計算される。以下に簡単に示すこの計算手法は、International Journal of Computer Vision, volume 6 No.1, 1991,第59〜70頁に掲載されたP. Meer,D. MintzおよびA. Rosenfeldによる論文"Robust Regression Method for Computer Vision: A Review"の第3段落にもっと完全に記載されている。
回帰パラメタ(回帰直線の傾きおよび切片)の集合Ejを評価推定しようとしている動き表現空間のi番目のサンプルの残差をri,jと称することにすると、Ejはつぎのような判定基準をみたすように計算される。すなわち、
残差ri,jは、(考察する表現空間にしたがい)、複数のパラメタEjを有する回帰直線によるi番目のサンプルのモデリングに関連して、残余誤差εuiまたはεviに等しい。この非線形な最小化問題を解くためには、考えられるすべての直線から、Ejによって定まる直線を探し出す必要がある。計算を制限するため、この探索をp個の回帰直線からなる有限集合に限定する。ここでこれは、考察中の表現空間のサンプルからランダムに抜き出したp組のペアによって定義される。p個の直線の各々に対して、残差の2乗が計算されて、残差の2乗で中央値を示すものが識別されるようにソートされるのである。回帰直線は、残差の2乗のこれらの中央値のうちで最も小さいものを供給する直線として推定される。
残差の集合についてではなく、残差の中央値の2乗だけついて回帰直線を選択することによって、回帰のプロシージャはロバストになる。殊に、アウトライアのデータ点に相応しがちでありしたがって回帰を損なわせる極端な値の残差を無視することできる。
例えばp=12個の直線をテストすることによって、p個のペアのうちの少なくとも1つのペアがアウトライアでない2つのサンプルからなる確率、すなわち、これらが主要な動きの代表である確率は、極めて1に近い。アウトライアであるサンプルの比率が50%よりも小さい場合、仮定したように、アウトライアのサンプルを含まないこのようなペアにより、これらのサンプルのクラスタにより良好にあてはまる回帰直線が得られる。それは、少なくとも1つのアウトライアのサンプルを含む点の任意のペアよりも残差の2乗の中央値が小さいからである。この場合にほとんど確実であるのは、最終的に得られる回帰直線がアウトライアでない2つのサンプルによって定められることであり、これによって、アウトライアのサンプルに関してこの方法のロバストネスが保証される。
しかしながらこのステップ3では最終的に、アウトライアと識別されたサンプルは除かれ、慣用のロバストでない線形回帰が各表現空間のサンプルに対して実行される。これらの回帰によってパラメタ(a0,b0)および(a1,b1)のより精確な推定が得られ、これが後続の処理で使用される。
つぎのステップ4では各表現空間における回帰直線の直線性(linearity)がテストされる。このテストは、各空間における点のクラスタが実際に近似的に直線に沿って分布しているか否かを検査することを目的としており、回帰直線がいつでも存在することを保証しない。
直線性のテストは、各表現空間において、アウトライアではないサンプルに当てはまる線形回帰から得られる残差の標準偏差と、あらかじめ定めた閾値とを比較することによって行われる。この閾値は、この方法のステップ1における動きベクトルに適用される時間的な正規化に依存する。正規化の後、各ベクトルが、インタレースされた2つのフレームを隔てる時間区間、すなわち50Hzでの転送に対して40msに相応する変位を表す場合、この閾値は有利には6に固定される。
2つの表現空間において行われた直線性のテストの少なくとも1つが失敗すると、目下の画像に相応する動きの場は、主要の動きのモデルの信頼性の推定を可能にしないとみなれさる。この場合、主要な動きを推定するプロシージャの失敗をシグナリングするフラグがセットされて、つぎの画像が処理される。
上記とは逆の場合、つぎのステップ5に進む。ここでは、この動きモデルの発散パラメタkの2重の推定を供給する傾きa0およびa1が大きく相違しないことが検査される。2つの回帰の傾きが等しいことをテストすることは周知の問題であり、統計の著書で扱われている。例えば、Wiley社刊のC.R Raoによる書籍"Linear Statistical Inference and its Application"(第2版)の分散の分析に充てた章を当たることができる。このテストは慣用のように、動きのベクトル場に対する2つの表現空間の、アウトライアでないサンプルの集合に関係する大域的な回帰の傾きを計算することによって行われる。つぎにデータの集合にわたるこの大域的な傾きの推定に関連する残差の2乗の和と、(アウトライアでないサンプルだけに関連する)別の回帰に関連する残差の2乗の和の2つの空間にわたる和との比を形成する。この比はあらかじめ定めた閾値と比較される。この比がこの閾値を上回る場合、2つの動きの表現空間における回帰の傾きが等しいという仮定は、統計的に有効でない。この場合、主要な動きを推定するこのプロシージャが失敗したことをシグナリングするフラグがセットされて、つぎの画像が処理される。このテストの結果がイエスの場合、主要な動きのモデルの発散ファクタkの値が、各表現空間において得られた回帰の傾きa0とa1との算術平均によって推定される。パラメタtxおよびtyは、表現空間における線形回帰から得られる切片b0およびb1の値によってそれぞれ推定される。
この動きのモデルが有効であるとみなされる場合、すなわち、ステップ4および5によって行われるテストにパスした場合、参照符号6が付されたつぎのステップ中に主要な動きの分類が行われる。
推定されたパラメタのベクトルθ=(k,tx,ty)tが利用されてカテゴリが決定され、このカテゴリにこの主要な動きが分類される。すなわち、
− 静止、
− 純粋な平行移動、
− 純粋なズーム、
− ズームが組み合わされた平行移動
に分類される。
− 静止、
− 純粋な平行移動、
− 純粋なズーム、
− ズームが組み合わされた平行移動
に分類される。
分類アルゴリズムは、以下の表にしたがってこのモデルの上記のパラメタがゼロであるか否かをテストすることに基づく。すなわち、
単純なテクニックによれば、このモデルのパラメタの推定値がゼロであるか否かのテストは、その絶対値と閾値とを単純に比較することよって行うことができる。データの分布の統計的なモデリングに基づくさらに入念なテクニックも使用可能である。このような統計的な枠組み内では、最尤度テストに基づいてモデルのパラメタがゼロであるか否かを決定する例示的なアルゴリズムが、IEEE journal of Circuits and Systems for Video Technology volume 9 No.7,1999年10月の第1030〜1044頁に掲載された"A unified approach to shot change detection and camera motion characterization"なる題名のP. Bouthemy,M. GelgonおよびF. Ganasiaによる論文に示されている。
本発明の応用は、キー画像の選択に基づくビデオインデクシングに関連する。
殊に、ビデオインデクシングプロシージャは一般的に事前処理ではじまり、ここでこの事前処理によって試みられるのは、ビデオストリームの処理する情報の量を、このシーケンスから選択されたキー画像の集合に制限することである。ビデオインデクシング処理、および殊に視覚属性(visual attribute)の抽出は、もっぱらこれらキー画像に行われ、これらのキー画像の各々は、このビデオのセグメントのコンテンツを代表する。理想的にはキー画像の集合は、ビデオの網羅的な要約を形成すべきであり、またキー画像の映像コンテンツ間の冗長性を回避して、インデクシング処理の計算負荷を最小化すべきである。各ビデオショット内の主要な動きを推定する上記の方法によって可能になるのは、各ショット内で、これらの判定基準に関連し、これを主要な動きに適用することによってキー画像の選択を最適化することである。例えば、ショット内でパラメタtx(ないしはty)によって推定される画像の水平方向(ないしは垂直方向)の平行移動を総計して、この総計が画像の幅(ないしは高さ)を上回った場合に新たなキー画像をサンプルすることが可能である。
上記の方法は、メタデータの生成にも使用可能である。主要な動きは、ビデオ撮影中のカメラの動きに一致することが多い。特殊なカメラモーションシーケンスを使用して、見る人に所定の感情または感覚を伝える監督もいる。本発明に記載された方法によって可能になるのは、ビデオにおけるこれらの特殊なシーケンスを検出することであり、また結果的にビデオの所定の部分において、監督が創出した雰囲気に関連するメタデータを得ることができる。
主要な動き検出の別の応用は、ショットにおける中断の検出またはその補助手段である。殊にシーケンスにおける主要な動きの特性の急峻な変化は、ショットにおける中断だけによって発生し得るのである。
最後に本発明に記載された方法により、各画像において、主要な動きのサポート(support)の識別が可能である。このサポートは実際に、主要な動きの意味で、関連するベクトルがアウトライアとして識別されていないピクセルの集合と一致している。主要な動きのサポートがわかることによって、この動きにしたがうオブジェクトのセグメンテーションが得られる。このセグメンテーションは、この画像を構成するオブジェクトを別個にインデクシングし、これによって画像全体ではなく、これらのオブジェクトに関連する部分的な要求の処理を可能にするために利用されるか、または例えばMPEG−4ビデオ圧縮標準に規定されている、オブジェクトベースのビデオ圧縮アルゴリズムの枠組み内で利用される。
Claims (10)
- 座標xi,yiを有する画像の要素に対して、成分ui,viを有する1つまたは複数の動きベクトルを定める、画像に関連する動きのベクトル場の計算(1)を行って、画像のシーケンスにおける主要な動きを推定する方法において、
さらに以下のステップ、すなわち、
− 単純化されたパラメトリック表現
ui = tx+k・xi
vi = ty+k・yi
ただし、
tx,ty 動きの平行移動成分を表すベクトルの成分
k 動きのズーム成分を特徴付ける発散のファクタ
に基づいて動きをモデル化するステップ(2)と、
− x,y,uおよびvがそれぞれ変数xi,yi,uiおよびviの軸を表す時、平面(x,u)および(y,v)によって定められる2つ動きの表現空間の各々にて、ロバストな線形回帰を行って回帰直線を得るステップ(3)と、
− 該回帰直線の傾きと原点における縦座標とに基づいて前記パラメタtx,tyおよびkを計算するステップ(4,5)とを実行することを特徴とする、
画像のシーケンスにおける主要な動きを推定する方法。 - 前記のロバストな回帰(3)は、least median of the square方式であり、
当該方式では、直線jについて座標xi,uiまたはyi,viを有するi番目の残差をri,jとするとき、残差の2乗からなる集合の最も小さい中央値を供給する直線を、直線jの集合から探索する、
請求項1に記載の方法。 - 前記の残差の2乗の最小中央値に対する探索(3)を所定数の直線に行い、ここで当該の各直線は、考察する動きの表現空間にてランダムに抜き出したサンプルのペアによってそれぞれ定められている、
請求項2に記載の方法。 - 前記のロバストな線形回帰(3)の後、第2のロバストでない線形回帰を行って、動きのモデルのパラメタの推定が一層精確にできるようにする、
請求項1に記載の方法。 - 前記の第2の線形回帰により、前記の第1のロバストな回帰から得た回帰の残差が所定の上回る表現空間の点を除外する、
請求項3に記載の方法。 - 各表現空間で計算した回帰直線(4)の方向係数が等しいか否かをテスト(5)し、
ここで当該テストは、第1に各表現空間にて別個に2つの回帰を行うことによって得られた残差の2乗の和と、第2に前記の2つの表現空間のサンプルの集合にグローバルな傾きの回帰を行うことによって得られた残差の2乗の和との比較に基づいており、
このテストの結果がイエスの場合、各表現空間にて得られた回帰直線の方向係数の算術平均によって前記モデルのパラメタkを推定する、
請求項1に記載の方法。 - 前記の主要な動きを、tx,tyおよびkの値に依存して、
平行移動、ズーム、平行移動とズームとの組み合わせ、静止画像
のカテゴリのうちの1つに分類する、
請求項1に記載の方法。 - MPEG−1,MPEG−2またはMPEG−4圧縮標準に準拠したアルゴリズムのような動き補償を使用した圧縮アルゴリズムによって考察される、ビデオシーケンスのエンコーディングから前記の動きベクトル場を得る、
請求項1に記載の方法。 - 画像のシーケンスにおける主要な動きを推定する方法の使用において、
キー画像の選択に適用され、
計算したパラメタtx,tyまたはkに関連する情報の、複数の画像にわたる総計の関数として1画像が選択されることを特徴とする、
請求項1に記載の方法の使用。 - 座標xi,yiを有する画像の要素に対して、成分ui,viを有する1つまたは複数の動きベクトルを定める、画像に関連する動きのベクトル場を計算する回路(1)を含む、画像のシーケンスにおける主要な動きを推定する装置において、
該装置は、また以下を行うための計算手段を含む、すなわち、
− 単純化されたパラメトリック表現
ui = tx+k・xi
vi = ty+k・yi
ただし、
tx,ty 動きの平行移動成分を表すベクトルの成分
k 動きのズーム成分を表す発散のファクタ
に基づいて動きをモデル化し(2)、
− x,y,uおよびvがそれぞれ変数xi,yi,uiおよびviの軸を表す時、平面(x,u)および(y,v)によって定められる2つ動きの表現空間の各々にて、ロバストな線形回帰を行って回帰直線を得て(3)、
− 該回帰直線の傾きと原点における縦座標とに基づいて前記パラメタtx,tyおよびkを計算する(4,5)ための計算手段と含むことを特徴とする、
画像のシーケンスにおける主要な動きを推定する装置。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
FR0116466A FR2833797B1 (fr) | 2001-12-19 | 2001-12-19 | Procede d'estimation du mouvement dominant dans une sequence d'images |
FR01/16466 | 2001-12-19 | ||
PCT/FR2002/004316 WO2003055228A1 (fr) | 2001-12-19 | 2002-12-12 | Procede d'estimation du mouvement dominant dans une sequence d'images |
Publications (4)
Publication Number | Publication Date |
---|---|
JP2005513929A JP2005513929A (ja) | 2005-05-12 |
JP2005513929A6 true JP2005513929A6 (ja) | 2005-08-04 |
JP2005513929A5 JP2005513929A5 (ja) | 2006-01-19 |
JP4880198B2 JP4880198B2 (ja) | 2012-02-22 |
Family
ID=8870690
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2003555818A Expired - Fee Related JP4880198B2 (ja) | 2001-12-19 | 2002-12-12 | 画像のシーケンスにおける主要な動きを推定する方法 |
Country Status (9)
Country | Link |
---|---|
US (1) | US20050163218A1 (ja) |
EP (1) | EP1468568A1 (ja) |
JP (1) | JP4880198B2 (ja) |
KR (1) | KR100950617B1 (ja) |
CN (1) | CN100411443C (ja) |
AU (1) | AU2002364646A1 (ja) |
FR (1) | FR2833797B1 (ja) |
MX (1) | MXPA04005991A (ja) |
WO (1) | WO2003055228A1 (ja) |
Families Citing this family (19)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPWO2005002206A1 (ja) * | 2003-06-25 | 2006-08-10 | ノキア コーポレイション | 画像データの圧縮パラメータの値を制御するデジタル撮影装置、及び画像データの圧縮パラメータ値決定方法 |
US7978770B2 (en) * | 2004-07-20 | 2011-07-12 | Qualcomm, Incorporated | Method and apparatus for motion vector prediction in temporal video compression |
FR2875662A1 (fr) | 2004-09-17 | 2006-03-24 | Thomson Licensing Sa | Procede de visualisation de document audiovisuels au niveau d'un recepteur, et recepteur apte a les visualiser |
DE602006014723D1 (de) * | 2005-11-30 | 2010-07-15 | Nippon Kogaku Kk | Bewegungsvektorschätzung |
US8879631B2 (en) | 2007-11-30 | 2014-11-04 | Dolby Laboratories Licensing Corporation | Temporally smoothing a motion estimate |
JP5039921B2 (ja) * | 2008-01-30 | 2012-10-03 | インターナショナル・ビジネス・マシーンズ・コーポレーション | 圧縮システム、プログラムおよび方法 |
WO2009128208A1 (ja) * | 2008-04-16 | 2009-10-22 | 株式会社日立製作所 | 動画像符号化装置、動画像復号化装置、動画像符号化方法、および動画像復号化方法 |
BRPI0918028A2 (pt) * | 2008-09-24 | 2015-12-01 | Sony Corp | dispositivo e método de processamento de imagem. |
TWI477144B (zh) * | 2008-10-09 | 2015-03-11 | Htc Corp | 影像調整參數計算方法及裝置,及其電腦程式產品 |
CN101726256B (zh) * | 2008-10-27 | 2012-03-28 | 鸿富锦精密工业(深圳)有限公司 | 从影像轮廓中搜寻拐点的计算机系统及方法 |
CN102377992B (zh) * | 2010-08-06 | 2014-06-04 | 华为技术有限公司 | 运动矢量的预测值的获取方法和装置 |
JP2012084056A (ja) * | 2010-10-14 | 2012-04-26 | Foundation For The Promotion Of Industrial Science | 物体検出装置 |
US9442904B2 (en) * | 2012-12-21 | 2016-09-13 | Vmware, Inc. | Systems and methods for applying a residual error image |
US9939253B2 (en) * | 2014-05-22 | 2018-04-10 | Brain Corporation | Apparatus and methods for distance estimation using multiple image sensors |
AU2015406855A1 (en) | 2015-08-24 | 2018-03-15 | Huawei Technologies Co., Ltd. | Motion vector field coding and decoding method, coding apparatus, and decoding apparatus |
US20210049793A1 (en) * | 2018-02-02 | 2021-02-18 | Koninklijke Philips N.V. | Correcting standardized uptake values in pre-treatment and post-treatment positron emission tomography studies |
KR20190110858A (ko) | 2018-03-21 | 2019-10-01 | 삼성전자주식회사 | 이미지 데이터 처리 방법 및 이를 위한 장치 |
CN111491183B (zh) * | 2020-04-23 | 2022-07-12 | 百度在线网络技术(北京)有限公司 | 一种视频处理方法、装置、设备及存储介质 |
US11227396B1 (en) * | 2020-07-16 | 2022-01-18 | Meta Platforms, Inc. | Camera parameter control using face vectors for portal |
Family Cites Families (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
TW257924B (en) * | 1995-03-18 | 1995-09-21 | Daewoo Electronics Co Ltd | Method and apparatus for encoding a video signal using feature point based motion estimation |
US5802220A (en) * | 1995-12-15 | 1998-09-01 | Xerox Corporation | Apparatus and method for tracking facial motion through a sequence of images |
AU710565B2 (en) * | 1996-01-22 | 1999-09-23 | Matsushita Electric Industrial Co., Ltd. | Digital image encoding and decoding method and digital image encoding and decoding device using the same |
CN1293782A (zh) * | 1999-02-01 | 2001-05-02 | 皇家菲利浦电子有限公司 | 视频序列描述符和使用该描述符的影像检索系统 |
EP1050850A1 (en) * | 1999-05-03 | 2000-11-08 | THOMSON multimedia | Process for estimating a dominant motion between two frames |
EP1050849B1 (en) * | 1999-05-03 | 2017-12-27 | Thomson Licensing | Process for estimating a dominant motion between two frames |
US6865582B2 (en) * | 2000-01-03 | 2005-03-08 | Bechtel Bwxt Idaho, Llc | Systems and methods for knowledge discovery in spatial data |
JP3681342B2 (ja) * | 2000-05-24 | 2005-08-10 | 三星電子株式会社 | 映像コーディング方法 |
AU2001273306A1 (en) * | 2000-07-05 | 2002-01-14 | Camo, Inc. | Method and system for the dynamic analysis of data |
US7499077B2 (en) * | 2001-06-04 | 2009-03-03 | Sharp Laboratories Of America, Inc. | Summarization of football video content |
-
2001
- 2001-12-19 FR FR0116466A patent/FR2833797B1/fr not_active Expired - Fee Related
-
2002
- 2002-12-12 US US10/499,560 patent/US20050163218A1/en not_active Abandoned
- 2002-12-12 CN CNB028258886A patent/CN100411443C/zh not_active Expired - Fee Related
- 2002-12-12 MX MXPA04005991A patent/MXPA04005991A/es active IP Right Grant
- 2002-12-12 WO PCT/FR2002/004316 patent/WO2003055228A1/fr active Application Filing
- 2002-12-12 KR KR1020047009616A patent/KR100950617B1/ko not_active IP Right Cessation
- 2002-12-12 AU AU2002364646A patent/AU2002364646A1/en not_active Abandoned
- 2002-12-12 EP EP02805377A patent/EP1468568A1/fr not_active Withdrawn
- 2002-12-12 JP JP2003555818A patent/JP4880198B2/ja not_active Expired - Fee Related
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP4880198B2 (ja) | 画像のシーケンスにおける主要な動きを推定する方法 | |
JP2005513929A6 (ja) | 画像のシーケンスにおける主要な動きを推定する方法 | |
Deng et al. | Unsupervised segmentation of color-texture regions in images and video | |
Ebdelli et al. | Video inpainting with short-term windows: application to object removal and error concealment | |
US8897512B1 (en) | Video hashing system and method | |
Kalirajan et al. | Moving object detection for video surveillance | |
US20080253617A1 (en) | Method and Apparatus for Determining the Shot Type of an Image | |
Li et al. | Structuring lecture videos by automatic projection screen localization and analysis | |
Heuer et al. | Global motion estimation in image sequences using robust motion vector field segmentation | |
Li et al. | Detection of blotch and scratch in video based on video decomposition | |
Benedek et al. | Detection of object motion regions in aerial image pairs with a multilayer Markovian model | |
JPH10301948A (ja) | 画像および映像検索方法 | |
JP2004348741A (ja) | 画像の比較方法、方法を実行するためのプログラムを記憶するコンピュータ可読記憶媒体、および方法を実行する装置 | |
Babu et al. | Compressed domain video retrieval using object and global motion descriptors | |
Farin | Evaluation of a feature-based global-motion estimation system | |
Linnemann et al. | Temporally consistent soccer field registration | |
Zhu et al. | Occlusion registration in video-based augmented reality | |
Chien et al. | Efficient video segmentation algorithm for real-time MPEG-4 camera system | |
Wei et al. | Multiple feature clustering algorithm for automatic video object segmentation | |
Cheng et al. | A fast global motion estimation for moving objects segmentation using moment-preserving technique | |
Ling-Yu et al. | Foreground segmentation using motion vectors in sports video | |
Miah et al. | MeNToS: Tracklets association with a space-time memory network | |
Minetto et al. | Reliable detection of camera motion based on weighted optical flow fitting. | |
Mochamad et al. | Semi-automatic video object segmentation using LVQ with color and spatial features | |
Yang et al. | Motion object detection by three-view constraint using moving camera |