JP2005513929A

JP2005513929A - 画像のシーケンスにおける主要な動きを推定する方法

Info

Publication number: JP2005513929A
Application number: JP2003555818A
Authority: JP
Inventors: レクレールフランソワ; マレックシルヴァン
Original assignee: Thomson Licensing SAS
Current assignee: Thomson Licensing SAS
Priority date: 2001-12-19
Filing date: 2002-12-12
Publication date: 2005-05-12
Anticipated expiration: 2022-12-12
Also published as: EP1468568A1; FR2833797B1; US20050163218A1; CN100411443C; CN1608380A; KR100950617B1; AU2002364646A1; WO2003055228A1; FR2833797A1; MXPA04005991A; KR20040068291A; JP4880198B2

Abstract

本発明は、座標ｘi，ｙiを有する画像の要素に対して、成分ｕi，ｖiを有する１つまたは複数の動きベクトルを定める、画像に関連する動きのベクトル場の計算（１）を行って、画像のシーケンスにおける主要な動きを推定することに関し、その特徴は、またつぎのステップを含むことである。すなわち、単純化されたパラメトリック表現、ｕi＝ｔx＋ｋ・ｘi，ｖi＝ｔy＋ｋ・ｙi（ただし、ｔx，ｔyは動きの平行移動成分を表すベクトルの成分、ｋは動きのズーム成分を特徴付ける発散のファクタである）に基づいて動きをモデル化するステップ（２）と、ｘ，ｙ，ｕおよびｖがそれぞれ変数ｘi，ｙi，ｕiおよびｖiの軸を表す時、平面（ｘ，ｕ）および（ｙ，ｖ）によって定められる２つ動きの表現空間の各々にて、ロバストな線形回帰を行って回帰直線を得るステップ（３）と、この該回帰直線の傾きと原点における縦座標とに基づいて上記パラメタｔx，ｔyおよびｋを計算するステップ（４，５）とを含むことである。本発明は、ビデオインデクシングまたはメタデータ生成に対してキー画像を選択するのに有利である。

Description

本発明は、ビデオショットにおける主要な動きを推定する方法および装置に関する。詳しくいうと、この方法は、動き補償を使用する圧縮方式のビデオで転送される動きの場を分析することに基づいている。このような方式は、ＭＰＥＧ−１，ＭＰＥＧ−２およびＭＰＥＧ−４ビデオ圧縮標準によって実現されている。

ＭＰＥＧ形の圧縮ビデオストリームから発生する、動きモデルの動きベクトルをベースにした推定に基づいて動きを分析する方法が公知である。ここでこの動きモデルは、通常、以下のアフィン形である。すなわち、

この動きモデルのアフィンパラメタａ，ｂ，ｃ，ｄ，ｅおよびｆの推定は、最小２乗誤差最小化法（least square error minimization）に基づいている。このような方法は、M.A. SmithおよびT. Kanadeによる論文"Video Skimming and Characterization through the Combination of Image and Language Understanding"（IEEE 1998 International Workshop of Content-Based Access of Image and Video Databaseの紀要、第６１および７０頁）に記載されている。この論文の著者は、動きのアフィンモデルのパラメタと、場のベクトルの空間的な成分の平均ｕおよびｖとを使用して、見掛けの動きを識別して分類している。例えば、動きがズームであるか否かを決定するため、著者はつぎをチェックする。すなわち、ｕ(ｘ_０，ｙ_０)＝０かつｖ(ｘ_０，ｙ_０)＝０なる、ベクトル場の収束点（ｘ_０，ｙ_０）が存在すること、つぎの条件、すなわち、

動きモデルの識別を必要とすることなく、ＭＰＥＧビデオストリームから発生するベクトル場を直接利用する動き分析方法も公知である。O.N. GerekおよびY. Altunbasakによる論文"Key Frame Selection from MPEG Video Data"（Visual Communicaions and Image Processing '97 congressの紀要、第９２０〜９２５頁）にはこのような方法が記載されている。この方法では、ＭＰＥＧバイナリ列の画像に関連する動きの場毎にベクトル場の２つのヒストグラムを作成し、その１つはベクトルの発生をその方向の関数として示し、他の１つは、その振幅の関数として示している。これらのヒストグラムの例は図１および２に示されている。すなわち、図１には、画像における見掛けの動きがズームである構成が示されており、これに対して図２では主要な動きはパニングショットである。

この場合、２つのヒストグラムの各々に対し、ヒストグラムの各クラス（または「ビン」"bin"）において、動きベクトルの数に関連する分散（Variance）の閾値設定（thresholding）を使用して、「ズーム」および「パニング」形の主要な動きが存在することを識別する。

例えばGerekおよびAltunbasakによって提案された方法は単に、主要な動きのカテゴリについて質的な情報しか提供しないが、動きの振幅についての量的な推定が要求されることが多い。例えばSmithおよびKanadeによって提案された、動きのパラメトリックモデルの推定に基づく方法により、このような量的な情報が得られるが、これらはまったく信頼できないことが多い。殊にこれらの方法が考慮していないのは、処理するビデオシーンに、別個の見掛けの動きにしたがう複数のオブジェクトが存在することである。副次的なオブジェクトに関連するベクトルを考慮すると、主要な動きのモデルのパラメタの最小２乗推定が著しく大きく損なわれてしまいがちである。ここで副次的なオブジェクトは、画像において、この画像の別の少なくとも１つのオブジェクトよりも小さなエリアを占めるオブジェクトとして定義され、ここで主要な動きに関連しているオブジェクトが、この画像において最大のエリアを占めているオブジェクトである。さらに、この画像において動いているオブジェクトが１つ存在する場合であっても、動きの分析に対するベースとして使用される、圧縮されたビデオストリームのベクトルがつねに、画像の見掛け上の真の動きを実際に表すとは限らない。殊にこれらのベクトルは、動き補償の後、転送される情報の処理を最小化するために計算されたのであり、画像のピクセルの物理的な動きを推定するために計算されたのではない。

圧縮されたストリームから発生するベクトルに基づいて、動きのモデルを高い信頼性で推定するためには、ロバストな方法を使用しなければならない。ここでこのロバストな方法では、主要な動きにしたがわない副次的なオブジェクトに関する動きベクトルと、この画像の主要なオブジェクトの物理的な動きに相応しないベクトルとが自動的に計算から取り除かれる。

主要な動きのパラメトリックモデルを推定するロバストな方法は、圧縮されたビデオストリームを使用するのとは異なる状況においてすでに提案されている。１つの方法の例は、IEEE journal Circuits and Systems for Video Technology volume 9, No.7, October 1999，第１０３０〜１０４４頁に掲載された"A unified approach to shot change detection and camera motion characterization"なる題名のP. Bouthemy，M. GelgonおよびF. Ganansiaによる論文に記載されている。これらの手法は、実現が極めて複雑であるという欠点を有する。

本発明の目的は、上に示した主要な動きを推定する様々な方法ファミリの欠点を解消することである。

本発明の１テーマは、座標ｘ_ｉ，ｙ_ｉを有する画像の要素に対して、成分ｕi，ｖiを有する１つまたは複数の動きベクトルを定める、画像に関連する動きのベクトル場の計算を行って、画像のシーケンスにおける主要な動きを検出する方法であり、さらにつぎのようなステップも実行するという特徴を有する。すなわち、
− 単純化されたパラメトリック表現
ｕi ＝ｔx＋ｋ・ｘi
ｖi ＝ｔy＋ｋ・ｙi
ただし、
ｔx，ｔy 動きの平行移動成分を表すベクトルの成分
ｋ動きのズーム成分を特徴付ける発散のファクタ
に基づいて動きをモデル化するステップと、
− ｘ，ｙ，ｕおよびｖがそれぞれ変数ｘi，ｙi，ｕiおよびｖiの軸を表す時、平面（ｘ，ｕ）および（ｙ，ｖ）によって定められる２つの動き表現空間の各々においてロバストな線形回帰を行い回帰直線を得るステップと、
− この回帰直線の傾きと原点における縦座標とに基づいてパラメタｔx，ｔyおよびｋを計算するステップも実行するという特徴を有する。

１実施形態では、上記のロバストな回帰は、the least median of the square方式であり、この方式では、直線ｊについて座標ｘi，ｕiまたはｙi，ｖiを有するｉ番目の残差をｒ_ｉ，ｊとするとき、残差の２乗からなる集合の最も小さい中央値を供給する直線を、直線ｊの集合から探索する。すなわち、

である。

１実施形態では、上記の残差の２乗の最小中央値に対する探索を所定数の直線に行い、ここで各直線は、考察する動きの表現空間においてランダムに抜き出したサンプルのペアによって定められる。

１実施形態では、上記のロバストな線形回帰の後、第２のロバストでない線形回帰を行って、動きのモデルのパラメタの推定が一層精確にできるようにする。この第２の線形回帰により、上記の第１のロバストな回帰から得た回帰の残差が所定の閾値を上回る表現空間の点を除外することができる。

１実施形態では、この方法において、各表現空間で計算した回帰直線の方向係数が等しいか否かをテストし、ここでこのテストは、第１に各表現空間において別個の２つの回帰を行うことによって得られた残差の２乗の和と、第２に２つの表現空間のサンプルの集合にグローバルな傾きの回帰を行うことによって得られた残差の２乗の和とを比較することに基づいており、このテストの結果がイエスの場合、各表現空間において得られた回帰直線の方向係数の算術平均によってこのモデルのパラメタｋを推定する。

本発明はまた上記の方法を実施する装置にも関する。

極めて単純化されているが、それにもかかわらず十分に実際的である、ビデオ画像における主要な動きのパラメトリックモデルを利用すれば、上記の方法により、低減されたコストで、動きモデルを識別するロバストな手法を実現することができる。詳しくいうと、本発明に記載された方法の主要な利点は、動きベクトルの成分を表現する適切な空間を使用することにあり、これによって、動きモデルのパラメタの識別を２回の線形回帰に還元することができるのである。

本発明のその他の特徴および利点は、制限的でない実施例によって示され、また添付の図面に関連して示される以下の説明において明らかになる。ここで、
図１は、「ズーム」に相応する理論的な動きベクトルの場を示しており、
図２は、背景の主要な動きが「パニング」形であるシーンに相応する理論的な動きベクトルの場を示しており、これはまたこの主要な動きとは異なる動きにしたがう副次的なオブジェクトを有しており、
図３は、本発明で使用される動きベクトルの表現空間を示しており、
図４は、本発明で使用される表現空間の中央におけるズーム運動に対する理論的なベクトルの分布を示しており、
図５は、本発明で使用される表現空間における画像のグローバルな斜めの平行移動に対する理論的なベクトルの分布を示しており、
図６は、本発明で使用される表現空間において平行移動とズームとが組み合わされた動きに対する理論的なベクトルの分布を示しており、
図７は、本発明で使用される表現空間における静的なシーン（ゼロモーション）に対する理論的なベクトルの分布を示しており、
図８は、主要な動きを検出する方法のフローチャートを示している。

画像のシーケンスにおける主要な動きを特徴付けるためには、見掛け上の主要な動きのパラメトリックモデルを識別する必要がある。圧縮ビデオストリームから発生する動きのベクトル場を利用する状況では、このモデルは、２Ｄ画像平面における見掛けの動きを表さなければならない。このようなモデルは、３次元空間におけるオブジェクトの動きの画像平面への投影に近似させることによって得られる。例えば、上に示した６つのパラメタ（ａ，ｂ，ｃ，ｄ，ｅ，ｆ）を有するアフィンモデルは文献において広く採用されている。

提案される方法では基本的に、動きベクトルの場に基づいてこの動きのパラメトリックモデルを識別する。ここでこの動きベクトルの場は、例えば、ＭＰＥＧ−１，ＭＰＥＧ−２およびＭＰＥＧ−４で利用されているようにコーディング原理が動き補償テクニックに要求する場合には、ビデオストリームにおいて供給されてこれがデコードされる。しかしながら、本発明に記載された方法は、処理するビデオシーケンスを構成する画像に基づいて別の方法で計算される動きベクトル場にも適用可能である。

本発明のコンテキスト内では、採用される動きモデルは、４つのパラメタ（ｔ_ｘ，ｔ_ｙ，ｋ，θ）を有する単純化された線形モデルから導出され、ここではこれをＳＬＭ（Simplified Linear Modelの表す頭字語である）と称し、つぎによって定義される。

ここで
（ｕ_ｉ，ｖ_ｉ）^ｔ：座標（ｘ_ｉ，ｙ_ｉ）^ｔを有する画像平面のピクセルに関連する見掛け上の動きベクトルの成分、
（ｘ_ｇ，ｙ_ｇ）^ｔ：カメラによって２Ｄシーンとして撮影された、３Ｄシーンの近似に対する基準点の座標、この基準点は、画像の座標（０，０）^ｔを有する点とみなされる、
（ｔ_ｘ，ｔ_ｙ）^ｔ：動きの平行移動成分を表すベクトル、
ｋ：動きのズーム成分を表す発散項、
θ ：カメラの軸のまわりの動きの回転角である。

達成すべき目標は、動きとカメラの視覚的な平行移動とによって生じた主要な動き、例えば、ビデオシーケンスにおける視覚のズームを識別することである。これには、殊にカメラの動きを識別する必要があり、ここでこれらのカメラの動きは、ビデオドキュメントの構成物において、主に平行移動の動き、ズームの動き、これらの組み合わせ、および動きの欠如すなわち静的または静止のショットに一緒にまとめるのが統計的に最も一般的である。実践的には極めてまれにしか見られないカメラの回転の効果は考慮しない。したがってこのモデルは、θ≒０と仮定することによって３つのパラメタ（ｔ_ｘ，ｔ_ｙ，ｋ）に限定される。

この場合、ベクトルの成分と、画像におけるその空間的な位置との間に２つの線形の関係式が得られる。すなわち、

である。

この単純化された動きのパラメトリック表現の利点は、この動きモデルの平行移動およびズームパラメタの２つの成分をそれぞれ表すパラメタｔ_ｘ，ｔ_ｙおよびｋが、動きｕ_ｉ＝ｆ(ｘ_ｉ)およびｖ_ｉ＝ｆ(ｙ_ｉ)の表現空間における線形回帰によって推定できることである。したがって図３によって示したように、これらの空間における動きベクトル場の表現により、それらの各々に対して、傾きｋの直線のまわりに分布する点のクラスタが得られるのである。

単純化された動きモデルのパラメタを推定するプロシージャは、動きの表現空間においてそれぞれロバスト形の線形回帰を適用することに基づいている。線形回帰は、点のクラスタに最もあてはまる直線を決定する数学的な演算であり、これは例えば、各点と、直線との距離の２乗の和を最小化することによって決定される。この演算は、本発明のコンテキスト内では、ロバストな統計的推定テクニックを使用して実現され、これにより、このデータにアウトライアが存在することに関して、不感度を保証することができる。殊に主要な動きのモデルの推定は、つぎを無視しなければならない。すなわち、
− いくつかのオブジェクトが主要な動きとは異なる副次的な動きにしたがうオブジェクトが画像にいくつか存在すること、
− オブジェクトの物理的動きを表さない動きベクトルが存在することを無視しなければならない。殊に、圧縮されたビデオストリームにおいて転送される動きベクトルは、動き補償の後、転送される残りの情報を最小化することを目的として計算されているのであり、映像化されたシーンを構成するオブジェクトの実際の動きを示すことを目的としてはいないのである。

図８には、シーケンスにおける主要な動きを推定する方法の様々なステップが示されている。以下、各ステップをより詳しく説明する。

第１ステップ１では、処理するビデオシーケンスの画像にそれぞれ関連する動きのベクトル場を正規化する。これらのベクトル場は、アルゴリズムを適用する前に動き推定器を用いて計算されているとする。動きの推定は、画像のピクセルの正方形ブロックに対して、いわゆる「ブロックマッチング」方式のように行うことができるか、または画像のピクセル毎にベクトルが推定される密なベクトル場を提供する。本発明は、排他的にではないが、有利にはつぎのようなケースを扱う。すなわち、使用するベクトル場が、ビデオエンコーダによって計算され、またデコーディングを目的として圧縮ビデオデータストリームで転送されるケースを扱うのである。使用するエンコーディング方式がＭＰＥＧ−１またはＭＰＥＧ−２標準のいずれかに準拠する通例のケースでは、動きベクトルは、目下の画像に対して、この画像の正方形ブロック毎に１ベクトルの割合で、基準フレームを基準にして推定される。ここでこの基準フレームと目下の画像との時間的な間隔は可変である。さらに、双方向に予想されるいわゆる「Ｂ」フレームに対して、２つの動きベクトルが同一のブロックに対して計算されていることがあり、１つは目下の画像から過去の基準フレームをポイントし、別の１つは目下の画像から将来の基準フレームをポイントする。したがってベクトル場を正規化するステップは必須であり、これにより、後続のステップにおいて、同じ持続時間の時間区間にわたって計算されかつ同じ方向をポイントするベクトルが扱えるようにするのである。Proceedings of the SPIE vol. 3022, 1997，第２００〜２１１頁の"Compressed domain video indexing techniques using DCT and motion vector information in MPEG video"なる題名のV. KoblaおよびD. Doermannによる論文の第３．２節には、この正規化を実行することのできる例示的な方法が示されている。ＭＰＥＧベクトル計算区間にわたる、線形近似に基づく比較的単純な別のテクニックも使用可能である。

動きの場のベクトルの表現に相応する点（ｘ_ｉ，ｕ_ｉ）および（ｙ_ｉ，ｖ_ｉ）の各ペアは、つぎのようにして、各空間において回帰直線を基準にしてモデル化することができる。すなわち、

ここで、
（ａ_０，ｂ_０）は、空間ｕ_ｉ＝ｆ(ｘ_ｉ)において計算される回帰直線のパラメタであり、ε_ｕｉは、相応する残余誤差であり、
（ａ_１，ｂ_１）は、空間ｖ_ｉ＝ｆ(ｙ_ｉ)において計算される回帰直線のパラメタであり、ε_ｕｉは、相応する残余誤差である。

図３には、正規化された動きベクトル場に基づいてこれらの２つの空間を構成した後に得られる点のクラスタが示されている。

各表現空間における線形回帰の完了時に得られるパラメタ（ａ_０，ｂ_０）および（ａ_１，ｂ_１）により、主要な動きモデルのパラメタが推定される。したがって傾きａ_０およびａ_１は、ズーム成分を特徴付ける発散パラメタｋの２重の推定に相応し、原点における縦座標ｂ_０およびｂ_１は、平行移動成分ｔ_ｘおよびｔ_ｙの評価に相応するのである。

図４〜７に示されているのは、考えられる構成のいくつかの例である。
− 図４については中央がズームされた場合のデータの分布、
− 図５については斜めの平行移動の場合のデータの分布、
− 図６については中央を外れたズーム（ズームと平行移動とを組み合わせた動き）の場合のデータの分布、
− 図７については動きがない場合のデータの分布がそれぞれ示されている。

つぎのステップ３では、上記の動きの表現空間毎にロバストな線形回帰を行う。これは、実際の主要な動きを表すデータ点と、この画像の副次的なオブジェクトの動きかまたは関連するピクセルの物理的な動きを伝達しないベクトルのいずれかに相応するデータ点とを分離することを目的として行われる。

ロバストな推定テクニックにはいくつかのファミリが存在する。本発明の有利な実施形態では、回帰直線は、least median of the squareの判定基準を満たすように計算される。以下に簡単に示すこの計算手法は、International Journal of Computer Vision, volume 6 No.1, 1991，第５９〜７０頁に掲載されたP. Meer，D. MintzおよびA. Rosenfeldによる論文"Robust Regression Method for Computer Vision: A Review"の第３段落にもっと完全に記載されている。

回帰パラメタ（回帰直線の傾きおよび切片）の集合Ｅ_ｊを評価推定しようとしている動き表現空間のｉ番目のサンプルの残差をｒ_ｉ，ｊと称することにすると、Ｅ_ｊはつぎのような判定基準をみたすように計算される。すなわち、

である。

残差ｒ_ｉ，ｊは、（考察する表現空間にしたがい）、複数のパラメタＥ_ｊを有する回帰直線によるｉ番目のサンプルのモデリングに関連して、残余誤差ε_ｕｉまたはε_ｖｉに等しい。この非線形な最小化問題を解くためには、考えられるすべての直線から、Ｅ_ｊによって定まる直線を探し出す必要がある。計算を制限するため、この探索をｐ個の回帰直線からなる有限集合に限定する。ここでこれは、考察中の表現空間のサンプルからランダムに抜き出したｐ組のペアによって定義される。ｐ個の直線の各々に対して、残差の２乗が計算されて、残差の２乗で中央値を示すものが識別されるようにソートされるのである。回帰直線は、残差の２乗のこれらの中央値のうちで最も小さいものを供給する直線として推定される。

残差の集合についてではなく、残差の中央値の２乗だけついて回帰直線を選択することによって、回帰のプロシージャはロバストになる。殊に、アウトライアのデータ点に相応しがちでありしたがって回帰を損なわせる極端な値の残差を無視することできる。

例えばｐ＝１２個の直線をテストすることによって、ｐ個のペアのうちの少なくとも１つのペアがアウトライアでない２つのサンプルからなる確率、すなわち、これらが主要な動きの代表である確率は、極めて１に近い。アウトライアであるサンプルの比率が５０％よりも小さい場合、仮定したように、アウトライアのサンプルを含まないこのようなペアにより、これらのサンプルのクラスタにより良好にあてはまる回帰直線が得られる。それは、少なくとも１つのアウトライアのサンプルを含む点の任意のペアよりも残差の２乗の中央値が小さいからである。この場合にほとんど確実であるのは、最終的に得られる回帰直線がアウトライアでない２つのサンプルによって定められることであり、これによって、アウトライアのサンプルに関してこの方法のロバストネスが保証される。

しかしながらこのステップ３では最終的に、アウトライアと識別されたサンプルは除かれ、慣用のロバストでない線形回帰が各表現空間のサンプルに対して実行される。これらの回帰によってパラメタ（ａ_０，ｂ_０）および（ａ_１，ｂ_１）のより精確な推定が得られ、これが後続の処理で使用される。

つぎのステップ４では各表現空間における回帰直線の直線性（linearity）がテストされる。このテストは、各空間における点のクラスタが実際に近似的に直線に沿って分布しているか否かを検査することを目的としており、回帰直線がいつでも存在することを保証しない。

直線性のテストは、各表現空間において、アウトライアではないサンプルに当てはまる線形回帰から得られる残差の標準偏差と、あらかじめ定めた閾値とを比較することによって行われる。この閾値は、この方法のステップ１における動きベクトルに適用される時間的な正規化に依存する。正規化の後、各ベクトルが、インタレースされた２つのフレームを隔てる時間区間、すなわち５０Ｈｚでの転送に対して４０ｍｓに相応する変位を表す場合、この閾値は有利には６に固定される。

２つの表現空間において行われた直線性のテストの少なくとも１つが失敗すると、目下の画像に相応する動きの場は、主要の動きのモデルの信頼性の推定を可能にしないとみなれさる。この場合、主要な動きを推定するプロシージャの失敗をシグナリングするフラグがセットされて、つぎの画像が処理される。

上記とは逆の場合、つぎのステップ５に進む。ここでは、この動きモデルの発散パラメタｋの２重の推定を供給する傾きａ_０およびａ_１が大きく相違しないことが検査される。２つの回帰の傾きが等しいことをテストすることは周知の問題であり、統計の著書で扱われている。例えば、Wiley社刊のC.R Raoによる書籍"Linear Statistical Inference and its Application"（第２版）の分散の分析に充てた章を当たることができる。このテストは慣用のように、動きのベクトル場に対する２つの表現空間の、アウトライアでないサンプルの集合に関係する大域的な回帰の傾きを計算することによって行われる。つぎにデータの集合にわたるこの大域的な傾きの推定に関連する残差の２乗の和と、（アウトライアでないサンプルだけに関連する）別の回帰に関連する残差の２乗の和の２つの空間にわたる和との比を形成する。この比はあらかじめ定めた閾値と比較される。この比がこの閾値を上回る場合、２つの動きの表現空間における回帰の傾きが等しいという仮定は、統計的に有効でない。この場合、主要な動きを推定するこのプロシージャが失敗したことをシグナリングするフラグがセットされて、つぎの画像が処理される。このテストの結果がイエスの場合、主要な動きのモデルの発散ファクタｋの値が、各表現空間において得られた回帰の傾きａ_０とａ_１との算術平均によって推定される。パラメタｔ_ｘおよびｔ_ｙは、表現空間における線形回帰から得られる切片ｂ_０およびｂ_１の値によってそれぞれ推定される。

この動きのモデルが有効であるとみなされる場合、すなわち、ステップ４および５によって行われるテストにパスした場合、参照符号６が付されたつぎのステップ中に主要な動きの分類が行われる。

推定されたパラメタのベクトルθ＝（ｋ，ｔ_ｘ，ｔ_ｙ）^ｔが利用されてカテゴリが決定され、このカテゴリにこの主要な動きが分類される。すなわち、
− 静止、
− 純粋な平行移動、
− 純粋なズーム、
− ズームが組み合わされた平行移動
に分類される。

分類アルゴリズムは、以下の表にしたがってこのモデルの上記のパラメタがゼロであるか否かをテストすることに基づく。すなわち、

である。

単純なテクニックによれば、このモデルのパラメタの推定値がゼロであるか否かのテストは、その絶対値と閾値とを単純に比較することよって行うことができる。データの分布の統計的なモデリングに基づくさらに入念なテクニックも使用可能である。このような統計的な枠組み内では、最尤度テストに基づいてモデルのパラメタがゼロであるか否かを決定する例示的なアルゴリズムが、IEEE journal of Circuits and Systems for Video Technology volume 9 No.7，１９９９年１０月の第１０３０〜１０４４頁に掲載された"A unified approach to shot change detection and camera motion characterization"なる題名のP. Bouthemy，M. GelgonおよびF. Ganasiaによる論文に示されている。

本発明の応用は、キー画像の選択に基づくビデオインデクシングに関連する。

殊に、ビデオインデクシングプロシージャは一般的に事前処理ではじまり、ここでこの事前処理によって試みられるのは、ビデオストリームの処理する情報の量を、このシーケンスから選択されたキー画像の集合に制限することである。ビデオインデクシング処理、および殊に視覚属性（visual attribute）の抽出は、もっぱらこれらキー画像に行われ、これらのキー画像の各々は、このビデオのセグメントのコンテンツを代表する。理想的にはキー画像の集合は、ビデオの網羅的な要約を形成すべきであり、またキー画像の映像コンテンツ間の冗長性を回避して、インデクシング処理の計算負荷を最小化すべきである。各ビデオショット内の主要な動きを推定する上記の方法によって可能になるのは、各ショット内で、これらの判定基準に関連し、これを主要な動きに適用することによってキー画像の選択を最適化することである。例えば、ショット内でパラメタｔ_ｘ（ないしはｔ_ｙ）によって推定される画像の水平方向（ないしは垂直方向）の平行移動を総計して、この総計が画像の幅（ないしは高さ）を上回った場合に新たなキー画像をサンプルすることが可能である。

上記の方法は、メタデータの生成にも使用可能である。主要な動きは、ビデオ撮影中のカメラの動きに一致することが多い。特殊なカメラモーションシーケンスを使用して、見る人に所定の感情または感覚を伝える監督もいる。本発明に記載された方法によって可能になるのは、ビデオにおけるこれらの特殊なシーケンスを検出することであり、また結果的にビデオの所定の部分において、監督が創出した雰囲気に関連するメタデータを得ることができる。

主要な動き検出の別の応用は、ショットにおける中断の検出またはその補助手段である。殊にシーケンスにおける主要な動きの特性の急峻な変化は、ショットにおける中断だけによって発生し得るのである。

最後に本発明に記載された方法により、各画像において、主要な動きのサポート（support）の識別が可能である。このサポートは実際に、主要な動きの意味で、関連するベクトルがアウトライアとして識別されていないピクセルの集合と一致している。主要な動きのサポートがわかることによって、この動きにしたがうオブジェクトのセグメンテーションが得られる。このセグメンテーションは、この画像を構成するオブジェクトを別個にインデクシングし、これによって画像全体ではなく、これらのオブジェクトに関連する部分的な要求の処理を可能にするために利用されるか、または例えばＭＰＥＧ−４ビデオ圧縮標準に規定されている、オブジェクトベースのビデオ圧縮アルゴリズムの枠組み内で利用される。

「ズーム」に相応する理論的な動きベクトルの場を示す図である。主要な動きとは異なる動きにしたがう副次的なオブジェクトを有し、背景の主要な動きが「パニング」形であるシーンに相応する理論的な動きベクトルの場を示す図である。本発明で使用される動きベクトルの表現空間を示す図である。本発明で使用される表現空間の中央におけるズーム運動に対する理論的なベクトルの分布を示す図である。本発明で使用される表現空間における画像のグローバルな斜めの平行移動に対する理論的なベクトルの分布を示す図である。本発明で使用される表現空間において平行移動とズームとが組み合わされた動きに対する理論的なベクトルの分布を示す図である。本発明で使用される表現空間における静的なシーン（ゼロモーション）に対する理論的なベクトルの分布を示す図である。主要な動きを検出する方法のフローチャートである。

Claims

座標ｘi，ｙiを有する画像の要素に対して、成分ｕi，ｖiを有する１つまたは複数の動きベクトルを定める、画像に関連する動きのベクトル場の計算（１）を行って、画像のシーケンスにおける主要な動きを推定する方法において、
さらに以下のステップ、すなわち、
− 単純化されたパラメトリック表現
ｕi ＝ｔx＋ｋ・ｘi
ｖi ＝ｔy＋ｋ・ｙi
ただし、
ｔx，ｔy 動きの平行移動成分を表すベクトルの成分
ｋ動きのズーム成分を特徴付ける発散のファクタ
に基づいて動きをモデル化するステップ（２）と、
− ｘ，ｙ，ｕおよびｖがそれぞれ変数ｘi，ｙi，ｕiおよびｖiの軸を表す時、平面（ｘ，ｕ）および（ｙ，ｖ）によって定められる２つ動きの表現空間の各々にて、ロバストな線形回帰を行って回帰直線を得るステップ（３）と、
− 該回帰直線の傾きと原点における縦座標とに基づいて前記パラメタｔx，ｔyおよびｋを計算するステップ（４，５）とを実行することを特徴とする、
画像のシーケンスにおける主要な動きを推定する方法。
前記のロバストな回帰（３）は、least median of the square方式であり、
当該方式では、直線ｊについて座標ｘi，ｕiまたはｙi，ｖiを有するｉ番目の残差をｒ_ｉ，ｊとするとき、残差の２乗からなる集合の最も小さい中央値を供給する直線を、直線ｊの集合から探索する、
請求項１に記載の方法。
前記の残差の２乗の最小中央値に対する探索（３）を所定数の直線に行い、ここで当該の各直線は、考察する動きの表現空間にてランダムに抜き出したサンプルのペアによってそれぞれ定められている、
請求項２に記載の方法。
前記のロバストな線形回帰（３）の後、第２のロバストでない線形回帰を行って、動きのモデルのパラメタの推定が一層精確にできるようにする、
請求項１に記載の方法。
前記の第２の線形回帰により、前記の第１のロバストな回帰から得た回帰の残差が所定の上回る表現空間の点を除外する、
請求項３に記載の方法。
各表現空間で計算した回帰直線（４）の方向係数が等しいか否かをテスト（５）し、
ここで当該テストは、第１に各表現空間にて別個に２つの回帰を行うことによって得られた残差の２乗の和と、第２に前記の２つの表現空間のサンプルの集合にグローバルな傾きの回帰を行うことによって得られた残差の２乗の和との比較に基づいており、
このテストの結果がイエスの場合、各表現空間にて得られた回帰直線の方向係数の算術平均によって前記モデルのパラメタｋを推定する、
請求項１に記載の方法。
前記の主要な動きを、ｔx，ｔyおよびｋの値に依存して、
平行移動、ズーム、平行移動とズームとの組み合わせ、静止画像
のカテゴリのうちの１つに分類する、
請求項１に記載の方法。
ＭＰＥＧ−１，ＭＰＥＧ−２またはＭＰＥＧ−４圧縮標準に準拠したアルゴリズムのような動き補償を使用した圧縮アルゴリズムによって考察される、ビデオシーケンスのエンコーディングから前記の動きベクトル場を得る、
請求項１に記載の方法。
画像のシーケンスにおける主要な動きを推定する方法の使用において、
キー画像の選択に適用され、
計算したパラメタｔx，ｔyまたはｋに関連する情報の、複数の画像にわたる総計の関数として１画像が選択されることを特徴とする、
請求項１に記載の方法の使用。
座標ｘi，ｙiを有する画像の要素に対して、成分ｕi，ｖiを有する１つまたは複数の動きベクトルを定める、画像に関連する動きのベクトル場を計算する回路（１）を含む、画像のシーケンスにおける主要な動きを推定する装置において、
該装置は、また以下を行うための計算手段を含む、すなわち、
− 単純化されたパラメトリック表現
ｕi ＝ｔx＋ｋ・ｘi
ｖi ＝ｔy＋ｋ・ｙi
ただし、
ｔx，ｔy 動きの平行移動成分を表すベクトルの成分
ｋ動きのズーム成分を表す発散のファクタ
に基づいて動きをモデル化し（２）、
− ｘ，ｙ，ｕおよびｖがそれぞれ変数ｘi，ｙi，ｕiおよびｖiの軸を表す時、平面（ｘ，ｕ）および（ｙ，ｖ）によって定められる２つ動きの表現空間の各々にて、ロバストな線形回帰を行って回帰直線を得て（３）、
− 該回帰直線の傾きと原点における縦座標とに基づいて前記パラメタｔx，ｔyおよびｋを計算する（４，５）ための計算手段と含むことを特徴とする、
画像のシーケンスにおける主要な動きを推定する装置。