JP2009512246A

JP2009512246A - 画像のショットタイプを決定する方法及び装置

Info

Publication number: JP2009512246A
Application number: JP2008532915A
Authority: JP
Inventors: ファビアンイーエルンスト; ヨハンネスヴェーダ; マウロバルビエリ; ヴァエレステインデ
Original assignee: Koninklijke Philips NV; Koninklijke Philips Electronics NV
Current assignee: Koninklijke Philips NV
Priority date: 2005-09-29
Filing date: 2006-09-11
Publication date: 2009-03-19
Also published as: CN101278314A; WO2007036823A2; US20080253617A1; WO2007036823A3; EP1932117A2

Abstract

画像のショットタイプを決定する方法及び装置が開示されている。この方法は、少なくとも第１クラスタ又は第２クラスタに前記画像の一部を割り当てるステップであって、これらクラスタは、異なる範囲の、当該クラスタに対応する深さ値を持つ、ステップ２０３、２０５と、前記第１クラスタ及び前記第２クラスタの両方が少なくとも１つの部分に割り当てられているかどうか、または前記第１クラスタ及び前記第２クラスタの深さの差の段階的若しくは漸次的な変化があるかどうかに基づいて前記画像のショットタイプを決定するステップ２０７、２０９とを有する。

Description

本発明は、画像のショットタイプ(shot type)を決定する方法及び装置に関する。

ビデオコンテンツは、異なる種類のショットタイプからなる。これらショットタイプは、監督により、異なる種類の情報を伝えることが目論まれている。典型的には、これらのショットは、３つのタイプ、すなわち、ロングショット、ミディアムショット及びクローズアップショット、すなわち、ショートショットに分類される。ロングショットは、場所、人及び物体全体を含むアクションエリア全体を含む。ミディアムショットにおいては、主題及びその設定が、フレームにおおよそ等しい面積を占める。クローズアップショット、すなわち、ショートショットは、人物の顔等のシーンの小部分を詳細に示し、ゆえに、該小部分が当該シーンを満たす。図１ａは、ロングショットの一例を示し、図１ｂは、ミディアムショットの一例を示している。

ショット（またさらには個々のフレーム）のロングショット、ミディアムショット及びクローズアップへの自動的な分類は、シーンの章分け(chaptering)等のビデオコンテンツ分析アプリケーションのための有用な情報を与える。自動的な分類はまた、いくつかのビデオ信号処理アプローチ、例えば、３Ｄシーンのレンダリング（この場合、ロングショットは、例えば、可能な限り鮮鋭にするためにシーン面近くにクローズアップ内の前景をレンダリングすることによるクローズアップと異なってレンダリングされても良く、然るに、ロングショットについては、シーンのより大きな部分がスクリーン前方にレンダリングされても良い）に役立つことを保証する。

自動分類のため、フレーム又はショットから演算可能な特徴が必要とされる。この特徴は、ロングショット、ミディアムショット及びクローズアップを区別できる必要がある。既知の技術の一つは、ショットタイプを決定するための幾つかのタイプの情報を用いる。これは、動き、焦点、テクスチャ、カメラの動き、視野、その他多くのものを含む。しかしながら、この技術は複雑であり、ショットのタイプを区別する不正確さがあり得る。

精度が改善された演算的に簡単なショットの自動的な分類を提供することが望ましい。

これは、本発明の一態様によって、画像のショットタイプを決定する方法であって、少なくとも第１クラスタ又は第２クラスタに前記画像の一部を割り当てるステップであって、これらクラスタは、異なる範囲の、当該クラスタに対応する深さ値を持つ、ステップ、及び前記第１クラスタ及び前記第２クラスタの両方が少なくとも１つの部分に割り当てられているかどうか、または前記第１クラスタ及び前記第２クラスタの深さ値の差の段階的(stepped)若しくは漸次的(gradual)な変化があるかどうかに基づいて前記画像のショットタイプを決定するステップ、を有する方法を提供することにより達成される。

これはまた、本発明の他の態様によって、画像のショットタイプを決定する装置であって、画像入力用のインタフェース手段、及び少なくとも第１クラスタ又は第２クラスタに前記画像の一部を割り当てるプロセッサであって、これらクラスタは、異なる範囲の、当該クラスタに対応する深さ値を持ち、当該プロセッサは、前記第１クラスタ及び前記第２クラスタの両方が少なくとも１つの部分に割り当てられているかどうか、または前記第１クラスタ及び前記第２クラスタの深さの差の段階的若しくは漸次的な変化があるかどうかに基づいて前記画像のショットタイプを決定する、プロセッサ、を有する装置を提供することにより達成される。

基本的な概念は、少なくとも２つのクラスタの深さ値が区別され得る場合、すなわち、深さの著しい(marked)又は段階的な差がある場合、ビデオフレームはクローズアップ又はミディアムショットタイプであるのに対し、そのようなクラスタの区別が存在しない、漸次的なプロファイル、又は１つのクラスタしかない場合、これはロングショットを示している、ということにある。好ましい実施例においては、深さ信号が、シーンと非常に直接的な関係があるので、単純にシーンを分類するもの(scene classifier)として直接用いられ得る。

好ましくは、深さ値の著しい又は段階的な差があるかどうかの決定は、前記クラスタの統計的特性に基づく。前記統計的特性は、前記第１クラスタ及び前記第２クラスタの前記深さ値の平均値の差、クラスタにおける深さ値の標準偏差及びクラスタの面積のうちの少なくとも１つを含んでも良い。

これらは、高速、効果的且つ精度の高い単純な演算方法を提供する。

前記第１クラスタ及び前記第２クラスタの深さの差の段階的若しくは漸次的な変化があるかどうかを決定する前記ステップは、前記第１クラスタ及び前記第２クラスタの一方における深さ値の標準偏差を前記第１クラスタ及び前記第２クラスタの平均深さ値の差と比較するステップ、及び前記標準偏差が前記平均深さ値の差と比較してかなり小さい場合、前記第１クラスタ及び前記第２クラスタの深さの差の段階的な変化があり、前記画像はショートショットタイプとして分類されるステップ、を有しても良い。

この場合、ミディアムショットタイプ又はショートショットタイプ、すなわち、クローズアップが、クラスタの統計的特性の単純な検定により簡単に特定される。

前記第１クラスタ及び前記第２クラスタの深さの差の漸次的な変化があるかどうかを決定する前記ステップは、前記第１クラスタ及び前記第２クラスタの平均深さ値の差を比較するステップ、前記平均深さ値の差が閾値より小さいかどうか決定するステップ、及び前記平均深さ値の差が前記閾値より小さい場合、前記第１クラスタ及び前記第２クラスタの深さの差の漸次的な変化があり、前記画像はロングショットであると決定されるステップ、を有しても良い。

さらに、当該方法は、前記第１クラスタ及び前記第２クラスタの各々の面積を比較するステップ、及び前記第１クラスタ及び前記第２クラスタの一方が小さい若しくはゼロである場合、または面積の差が閾値よりも大きい場合、前記画像はロングショットタイプとして決定されるステップ、を有しても良い。

前記第１クラスタ及び前記第２クラスタは、前記画像の背景及び前景を有しても良い。

前記第１クラスタ及び前記第２クラスタの境界上にある前記画像の一部が特定されても良く、前記特定された一部に対するピクセルの深さと前記第１クラスタ及び前記第２クラスタの各々の平均深さ値との差が演算されても良く、次いで、前記一部が最小の深さの差を持つクラスタに割り当てられても良い。

このようにして、前記境界上にある部分がより高精度に割り当てられ得る。

前記画像が３Ｄ画像である場合、当該画像に対応する深さプロファイルマップが利用されても良く、前記深さ値は前記深さプロファイルマップから導出され得る。斯くして、当該好ましい実施例の演算は、予め利用可能な又は容易に導出され得るデータを用いる。

前記画像が２Ｄ画像である場合、前記深さ値は前記２Ｄ画像の推定された深さプロファイルマップから導出されても良く、処理は３Ｄ画像に対するのと同じである。

深さプロファイルマップが推定されない又は２Ｄ画像に対して演算するのが困難であるような場合、前記第１クラスタ及び前記第２クラスタは複数の異なるキュー、例えば、動き及び焦点等から獲得されても良い。

それゆえ、当該好ましい実施例においては、深さプロファイルが与えられて、このプロファイルのフィット性(fit)が、２つの異なる深さモデル、すなわち、滑らかな深さプロファイル（例えば、縦の画像座標に伴う線形の深さ変化）及び２つのクラスタからなるプロファイル（例えば、前景深さ及び背景深さ）と比較されることができる。ロングショットに対しては、滑らかなプロファイルが、より良好にフィットすると見込まれているのに対し、ミディアムショット又はクローズアップに対しては、クラスタプロファイルが、より良好にフィットすると見込まれている。

本発明のより完全な理解のため、添付図面と関連した以下の記載を参照する。

本記載はロングショットのタイプとクローズアップとの区別に言及しているが、当該実施例は、閾値のただ適切な設定によってミディアムショットを分類することにも等しく適用可能であることを理解されたい。

第１の好ましい実施例の方法は、２Ｄ画像又は３Ｄ画像の何れかの分類に適用可能である。

通例２Ｄビデオにおいて深さプロファイル(depth profile)は存在しないので、このプロファイルはビデオ自体から演算され得る。２Ｄから３Ｄへのビデオ変換のため、画像データから演算される深さキュー(depth cues)が用いられる。斯かる技術は当該技術分野においてよく知られており、ここでは詳細に述べない。３Ｄビデオの場合、深さプロファイルが存在し得る。例えば、３Ｄカメラが用いられた場合、通常のビデオストリームとは別個に、ダイレクト深さストリーム(direct depth stream)も記録される。さらに、ステレオ材料が利用できるかもしれない。このステレオ材料からは深さ情報が抽出され得る。

図２を参照すると、第１の好ましい実施例による方法は、入力ビデオ信号を読み取るステップ（ステップ２０１）、（深さプロファイルが記録されていない３Ｄ画像又は２Ｄ画像の場合）深さプロファイルを演算するステップ又は（関連する深さプロファイルが記録されている３Ｄ画像の場合）深さプロファイルを読み取るステップ（ステップ２０３）、検定統計量(test statistic(s))を演算するステップ（ステップ２０５）、検定統計量を関連する閾値と比較するステップ（ステップ２０７）及びこの比較からショットタイプを定義するステップ（ステップ２０９）を有する。

本発明の好ましい実施例による装置は、画像入力用のインタフェース手段を有する。インタフェース手段は、図２の方法のステップを実行するように構成されたプロセッサに接続される。

検定統計量を演算するステップ２０５の詳細が図３に示されている。

先ず、ビデオフレームが深さでクラスタ化される（ステップ３０１）ビデオフレームのピクセルが、２つの深さ値のクラスタ、すなわち、前景及び遠景に分けられる。最初のクラスタ化は、左、上及び右境界（例えば、画像の１／４）上の画像部分、すなわち、ピクセルブロックを"背景"クラスタに割り当て、他のピクセルを"前景"クラスタに割り当てることからなる。次いで、反復プロシージャ（ステップ３０３乃至３０７）が、このクラスタをより正確にする(refine)ために実行される。

ステップ３０３において、２つのクラスタの各々に対して、平均クラスタ深さが演算される。次いで、ステップ３０５において、画像が掃引され(swept)、クラスタ境界上の各部分に対して、クラスタの平均深さに最小の差を持つクラスタに割り当てられる。これらのステップは、収斂が生じる（ステップ３０７）まで繰り返される。これは典型的には４回の反復を要することが分かった。

生成された２つのクラスタを持って、これらクラスタを検定するために用いられる種々の統計量が演算される（ステップ３０８）。

演算される統計量は、例えば、これらクラスタの平均値の差、これらクラスタの標準偏差及びこれらクラスタの面積である。

一般に、平均値の小さな差、又はこれらクラスタのうちの一つに対する小さな面積は、クラスタのための証拠が無いこと、すなわち、フレームはロングショットであることを示すのに対し、（平均値の差と比較して）小さな標準偏差は、クラスタ化が有意であること、すなわち、クローズアップショットであることを示す。

ショットタイプを区別するために用いられる検定統計量は、以下のように与えられる。

ここで、α_１及びα_２は、（α_１＋α_２＝１であるように）各クラスタの面積の割合であり、Δμは、クラスタの平均値の差であり、σ_ｔは、深さ信号の標準偏差である。

各クラスタが画像の半分を占める場合に対して、この式は、平均値の差が有意であるかどうかを検定するための従来の検定になる。したがって、９５％の信頼区間(confidence interval)に対して、

である。

これは、２つの異なるクラスタの存在、すなわち、クローズアップショットの存在を意味するであろう。前景の深さ及び背景の深さの割合は典型的にはちょうど５０％ではないので、閾値を少し小さめに選択しても良い。他のアプローチは、多量のビデオコンテンツの統計量に基づく、例えば、適合率曲線(precision curve)／再現率曲線(recall curve)に基づく閾値の経験的決定であろう。

深さが２Ｄビデオから演算される場合、上述の実施例が直接実行され得る。しかしながら、代替例が図４を参照して以下に述べられている。

目下の深さ推定プロセスにおいては、異なるキューから導出される深さ信号が（線形に）マージされる。したがって、組み合わされた深さプロファイルを用いることに代えて、キューの限定的なサブセットが用いられてもよい。深さキューは、本質的に生理学的又は心理学的であっても良い。本発明のこの実施例においては、動き及び焦点分析から導出される深さ信号しか用いられていない。以下の表１は、異なる状況を区別している。

基本的に、（深さキューの何れかにおいて）２つの明らかに区別できるクラスタからなる深さ信号が得られた場合、これはクローズアップを示し、明らかなクラスタ化を伴う深さキューがない場合、これはロングショットを示す。しかしながら、静止シーン（カメラ又は物体の移動がない）の場合、区別は不可能である。

図４を参照して、本発明の第２の実施例が述べられている。

先ず、入力ビデオ信号が読み取られる（ステップ４０１）。次いで、動き推定(motion estimation)が演算される（ステップ４０３）。これは、例えば、G de Haan及びP.W.A.C. Biezenによる1998年発行の "An efficient true-motion estimator using candidate vectors from a parametric motion model", IEEE Transactions on Circuits and Systems for Video Technology, vol. 8, 85-91頁に述べられているような従来の３ＤＲＳ動き推定を用いて実行される。（動きフィールドがそれ程滑らかではないため）好ましさが低い代替例は、ＭＰＥＧ動きベクトルを用いることであろう。

ステップ４０５において、動き検出検定統計量が演算される。動きがあるかどうかを検出するため、以下の検定統計量が用いられる。

ここで、ｂは全てのブロックのラベルであり、Ｎ_ｂはブロックの数であり、ｍ（ｂ）は動きベクトルである。したがって、ｔ_ｃは動きの平均の大きさである。

次いで、これは、動き検出閾値と比較される（ステップ４０７）。もし

の場合、フレームは、動きを持たないものとして分類される。

ステップ４０９において、動きからの深さが演算される。動きフィールドから深さ信号を演算するため、背景の動きが減算される。背景の動きの推定は、（変換(translation)及びズームパラメータからなる）パン−ズームモデルを推定することからなる。これは当該技術分野において既知である。次いで、動きからの深さの信号ｄ_ｍが以下のように演算される。

ここで、ｍ_ｂｇは、特定ブロックの予測された背景動きベクトルである。

次いで、ステップ４１１において、動きからの深さのクラスタ化の検定統計量が演算され、上述した式（１）及び（２）により与えられる方法と同様にステップ４１３において閾値と比較される。

さらに、ステップ４１５において、焦点からの深さが演算される。焦点は、例えば、J.H. Elder及びS.W. Zuckerによる1998年発行の"Local scale control for edge detection and blur estimation", IEEE Transactions on Pattern Analysis and Machine Intelligence", vol. 20, 689-716頁に開示されている方法を用いて演算され得る。

次いで、ステップ４１７において、焦点からの深さのクラスタ化の検定統計量が演算され、上述した式（１）及び（２）により与えられる方法と同様にステップ４１９において閾値と比較される。

表１にしたがって、ショットタイプに関する決定がなされる（ステップ４２１）。これは、個々のフレームに基づいてなされ得るし、又はショットの全てのフレームにわたる多数決としてなされ得る。代替的な実施例においては、検定統計量の値が与えられる特定のショットタイプの確率が割り当てられても良く、これから、ショットタイプが導出される。

本発明の好ましい実施例が、添付の図面を参照して図示され、上述の詳細な説明において述べられたが、本発明は、開示された実施例に限定されるものではなく、請求項に述べられる発明の範囲から逸脱することなく多くの変形が可能であることを理解されたい。

図１ａは、ロングショットのビデオフレームの一例である。図１ｂは、ミディアムショットのビデオフレームの一例である。図２は、本発明の好ましい実施例によるショット分類システムの各ステップのフローチャートを示す。図３は、図２のステップ２０５の詳細のフローチャートを示す。図４は、本発明の第２の好ましい実施例によるショット分類システムの各ステップのフローチャートを示す。

Claims

画像のショットタイプを決定する方法であって、
少なくとも第１クラスタ又は第２クラスタに前記画像の一部を割り当てるステップであって、これらクラスタは、異なる範囲の、当該クラスタに対応する深さ値を持つ、ステップ、及び
前記第１クラスタ及び前記第２クラスタの両方が少なくとも１つの部分に割り当てられているかどうか、または前記第１クラスタ及び前記第２クラスタの深さ値の差の段階的若しくは漸次的な変化があるかどうかに基づいて前記画像のショットタイプを決定するステップ、
を有する方法。
深さ値の差の段階的若しくは漸次的な変化があるかどうかに基づく前記決定は、前記クラスタの統計的特性に基づくことを特徴とする請求項１に記載の方法。
前記統計的特性は、前記第１クラスタ及び前記第２クラスタの前記深さ値の平均値の差、クラスタにおける深さ値の標準偏差及びクラスタの面積のうちの少なくとも１つを含むことを特徴とする請求項２に記載の方法。
前記第１クラスタ及び前記第２クラスタの深さの差の段階的若しくは漸次的な変化があるかどうかを決定する前記ステップは、
前記第１クラスタ及び前記第２クラスタの一方における深さ値の標準偏差を前記第１クラスタ及び前記第２クラスタの平均深さ値の差と比較するステップ、及び
前記標準偏差が前記平均深さ値の差と比較してかなり小さい場合、前記第１クラスタ及び前記第２クラスタの深さの差の段階的な変化があり、前記画像はショートショットタイプとして分類されるステップ、
を有することを特徴とする請求項３に記載の方法。
前記第１クラスタ及び前記第２クラスタの深さの差の漸次的な変化があるかどうかを決定する前記ステップは、
前記第１クラスタ及び前記第２クラスタの平均深さ値の差を比較するステップ、
前記平均深さ値の差が閾値より小さいかどうか決定するステップ、及び
前記平均深さ値の差が前記閾値より小さい場合、前記第１クラスタ及び前記第２クラスタの深さの差の漸次的な変化があり、前記画像はロングショットであると決定されるステップ、
を有することを特徴とする請求項３又は４に記載の方法。
当該方法は、
前記第１クラスタ及び前記第２クラスタの各々の面積を比較するステップ、及び
前記第１クラスタ及び前記第２クラスタの一方が小さい若しくはゼロである場合、または面積の差が閾値よりも大きい場合、前記画像はロングショットタイプとして決定されるステップ、
を有することを特徴とする請求項３、４又は５に記載の方法。
前記第１クラスタ及び前記第２クラスタは前記画像の背景及び前景を有することを特徴とする請求項１乃至６の何れか一項に記載の方法。
当該方法は、
前記第１クラスタ及び前記第２クラスタの境界上にある前記画像の前記一部を特定するステップ、
前記画像の前記特定された一部のピクセルの深さと前記第１クラスタ及び前記第２クラスタの各々の平均深さ値との差を演算するステップ、及び
前記一部を最小の深さの差を持つクラスタに割り当てるステップ、
を有することを特徴とする請求項１乃至７の何れか一項に記載の方法。
前記画像は当該画像に対応する深さプロファイルマップを持つ３Ｄ画像であり、前記深さ値は前記深さプロファイルマップから導出されることを特徴とする請求項１乃至８の何れか一項に記載の方法。
前記画像は２Ｄ画像であることを特徴とする請求項１乃至８の何れか一項に記載の方法。
前記深さ値は前記２Ｄ画像の推定された深さプロファイルマップから導出されることを特徴とする請求項１０に記載の方法。
前記第１クラスタ及び前記第２クラスタは複数の異なるキューから獲得されることを特徴とする請求項１０又は１１に記載の方法。
前記キューは動き及び焦点を含むことを特徴とする請求項１２に記載の方法。
画像のショットタイプを決定する装置であって、
画像入力用のインタフェース手段、及び
少なくとも第１クラスタ又は第２クラスタに前記画像の一部を割り当てるプロセッサであって、これらクラスタは、異なる範囲の、当該クラスタに対応する深さ値を持ち、当該プロセッサは、前記第１クラスタ及び前記第２クラスタの両方が少なくとも１つの部分に割り当てられているかどうか、または前記第１クラスタ及び前記第２クラスタの深さ値の差の段階的若しくは漸次的な変化があるかどうかに基づいて前記画像のショットタイプを決定する、プロセッサ、
を有する装置。
請求項１乃至１３の何れか一項に記載の方法を実行するための複数のプログラムコード部分を有するコンピュータプログラム。