JP4320141B2

JP4320141B2 - 要約映像生成のための方法とシステム

Info

Publication number: JP4320141B2
Application number: JP2001504689A
Authority: JP
Inventors: アブデルジャード，ユスリ; エブラヒミ，トゥーラジ; クリストポロス，シャリラオス; イバルス，イグナシオマス
Original assignee: テレフオンアクチーボラゲットエルエムエリクソン（パブル）
Priority date: 1999-06-18
Filing date: 2000-06-07
Publication date: 2009-08-26
Anticipated expiration: 2020-06-07
Also published as: JP2003502957A; US6690725B1; DE60039611D1; CN1213610C; EP1210826B1; WO2000079800A1; AU771922B2; EP1210826A1; CA2375862A1; CN1365574A; SE9902328L; SE9902328D0; SE9902328A0; AU5583100A

Description

【０００１】
（技術分野）
本発明は映像の要約方法とシステムに関し、特にキーフレームの抽出とショットの境界検出に関する。
【０００２】
（本発明の背景と従来技術）
近年のパーソナルコンピューティングや通信の進歩によって、ハンドヘルドコンピュータ、パーソナルデジタル支援（ＰＤＡｓ）、スマートフォン、車載コンピュータ装置、およびコンピュータのような装置の新しい分野を創成し、ユーザがより情報を利用できるようになっている。
【０００３】
セルラー電話、ＰＤＡ、およびハンドヘルドコンピュータを含む、多くの製造業者はこれらの装置の機能性を高めており、該装置はカレンダー、アドレス帳、ページング装置、広域位置情報装置、旅行および地図用ツール、イーメールクライアント、およびウェブブラウザとして働く機能を有するに至っている。結果として、これらの装置へあらゆる種類の情報を提供することに関連して多くの新しいビジネスが形成されている。しかしながら、これらの多くの装置には、ディスプレイの大きさ、記憶装置、処理能力、およびネットワークアクセスに関して性能の限界があるため、これらの装置を用いて情報へアクセス、保存、処理するアプリケーションを開発する余地がある。
【０００４】
これら開発と同時に、保存、収集、およびネットワーク接続の技術の利点は、大量で豊富なマルチメディアコンテンツを扱うことができる点である。結果として、使用される豊富な内容と顧客の装置のアクセスおよび処理能力との間の格差を広げることになる。
【０００５】
この観点では、キーフレームに基づく映像要約と呼ばれる技術が映像情報の管理と伝送に効果的である。この描画法は、C.Christopoulos et al.,”ＭＰＥＧ７アプリケーション：内容再利用とメディア変換による自在アクセス”,Seoul,Korea,１９９９年５月,ISO/IEC/JTC1/SC29/WG11 M4433,に、顧客装置へ映像データを適合させることが記載されている。
【０００６】
音声−映像素材に対するキーフレーム抽出は顧客のバンド幅や計算能力に適合させることができる。例えば、低バンド幅または低容量の顧客は配信される情報に音声情報のみかまたは、いくつかのキーフレームに音声を結合させたものを要求するかもしれない。高バンド幅と高い計算能率を有する顧客はＡＶ素材全てを要求できる。他の応用例はデジタル映像の高速閲覧である。一定間隔での映像フレームの飛び越しは映像の閲覧時間を短縮する。
【０００７】
以後以下の定義を使用する。
【０００８】
ショット
ショットは、単一の連続動作において１つのカメラで撮影したフレームのシーケンスとして定義する。J.Monaco,”How to read a film”,Oxford Press,1981を参照。
ショット境界
ショット間には多数の異なるタイプの境界がある。カットは単一のフレーム内の急激なショットの変化である。フェードは明るさが次第に暗くなる（フェードアウト）かまたは次第に明るくなる（フェードイン）ような明るさの勾配的変化である。ある画像が他の画像へ合成されて移り変わるフレームでは、第１のショットの映像が減光し、第２のショットの映像が増光するとき消滅が発生する。一掃は、第２のショットのピクセルが、フレームの左端のラインのような規則的な形状で、第１のショットと置き換わる時に発生する。
キーフレーム
キーフレームは各ショットの内部に定義される。それらは、キーフレームは、少ない数のフレームで、いくつかの主観的または客観的な計測による最も関連のあるショット情報を表す。
【０００９】
従来の映像要約は２つの段階から成り、
１．ショット境界検出。
２．キーフレーム抽出。
である。
【００１０】
色、動き、形のような多くのフレームの属性が映像要約に用いられる。映像要約のショット境界検出の標準的なアルゴリズムはヒストグラムに基づいている。ヒストグラムに基づく技術が安定で効果的であることが文献、A.Smeulders and R.Jain,”画像データベースとマルチメディア検索”,Singapore,1988、およびJ.S.Boreczky, and L.A.Rowe,”映像ショット境界検出技術の比較”,画像と映像データベースの保存と検索４,Proc.of IS&T/SPIE 1996 Int’l Symp. On Elec.Imaging:Science and Technology, San Jose, CA, １９９６年２月、に記載されている。
【００１１】
このように２つの画像のカラーヒストグラムが計算される。もし２つのヒストグラム間のユークリッド距離が特定の閾値以上である場合、ショット境界が仮定される。しかしながら、動きに関する情報は使用されない。ゆえに、この技術はカメラまたは被写体が動く状況では弱点を有している。
【００１２】
さらに、キーフレームは要約映像を生成するために異なるショットから抽出されなければならない。従来のキーフレーム抽出アルゴリズムは例えば、Wayne Wolf,”動作解析によるキーフレーム抽出”,in proceedings,ICASSP96,に記載されている。視覚的な動作の流れはショット内の局所的な最小の動きを識別するために使用される。これらの局所的な最小の動きはキーフレームに対応して判定される。W.Xiong,and J.C.M.Lee,and R.H.Ma,”ショット分割とキーフレーム抽出による自動映像データ構築”,Machine Vision and Applications,vol.10,no.2,pp.51-65,1997,によると、シーク−アンド−スプレッドアルゴリズムは前のキーフレームを次のキーフレーム抽出の参考として使用する。R.L.Lagendijk,and A.Hanjalic,and M.Ceccarelli,and M.Soletic,and E.Persoon,”ＳＭＡＳＨシステム内の視覚的な検索”,Proceedings of IEEE ICIP 97,pp.671-674,1997,においても、シーク−アンド−スプレッドアルゴリズムが各ショットへ割り当てるキーフレームの数と位置を計算するために使用される。２つのフレーム間の動作はヒストグラム差分を用いて計算する。この方法の１つの利点は、キーフレームの数を事前に定めることができる。
【００１３】
（要旨）
本発明の目的はショット境界検出とキーフレーム抽出のための方法とシステムを提供することである。該システムと方法は映像要約およびカメラと被写体の動きに対応することができる。
【００１４】
上記の目的と他の目的は、特徴点のリストを生成するキーフレーム抽出方法とシステムによって達成される。該リストは映像シーケンスの連続するフレーム間の個々の特徴点の履歴を保存する。
【００１５】
２つの連続するフレーム間で多くの新しい特徴点がリストに加えられたとき、または多くの特徴点がリストから削除されたとき、ショット境界が決定される。キーフレームとしては、２つの境界ショットの間から、特徴点のリストにおいてリストに追加または削除される特徴点がほとんどないか全くない状態のフレームが抽出される。
【００１６】
画像そして／またはカメラの動きにおいて、映像シーケンスの動きからキーフレームを抽出する方法を用いることができる。該キーフレーム抽出アルゴリズムはより不安定なカメラの動きに対応できる。
【００１７】
（詳細な記載）
図１ａおよび１ｂに、第１の好適な実施例によるショット境界検出のアルゴリズムにおける、１反復間の実行ステップのフローチャートを示した。
【００１８】
図１ａに示すように、最初にブロック１０１において最初のフレームを入力し、最初のフレームの特徴点を抽出し、次のフレームの特徴点を予測するための入力として用いる。次に、ブロック１０３において、次のフレームの特徴点を計算して予測する。さらに、ブロック１０５において次のフレームを入力し、ブロック１０７で該フレームの特徴点を抽出し、ブロック１０１で同じ特徴点の抽出アルゴリズムを用いる。
【００１９】
このような、隅の点に対応する特徴点の抽出アルゴリズムは文献に多数記載されている。例えば、B.Lucas and T.Kanade,”立体視を用いたインタレーティブ画像位置あわせ技術”,in proc.7th Int.Joint Conf.on Artificial Intelligence,1981,pp.674-679 にこのような方法の１つが記載されている。また、S.K.Bhattacharjee,”エンドストップウェーブレットを用いた特徴点の検出”,submitted to IEEE Trans.On Image Processing 1999,を使用することが出来る。
【００２０】
次に、ブロック１０９において、推定された特徴点とブロック１０７内で抽出された特徴点間のデータを関連づける。特徴点のリストの更新はブロック１１１内で行われる。さらに、特徴点のリスト上における推定された各特徴点の更新はブロック１１３内で行われる。最後に、アルゴリズムはブロック１０３へ戻り、次のフレームを、現在の推定された特徴点と次のフレームの特徴点間のデータを関連づけるために、ブロック１０５内で入力する。
【００２１】
図１ａのアルゴリズムはブロック１１１内では、特徴点のリストの更新をするときはいつもショット境界が発生しているかどうかを検査する。このショット境界検出処理は図１ｂに示した。このようにして、最初のブロック１３１において更新リストを入力する。現在の特徴点のリストと以前の特徴点のリストの比較はブロック１３３内で実行される。
【００２２】
もし以前の特徴点のリストから失われた特徴点の数が、またはもし現時の特徴点のリスト内の新しい特徴点の数が、所定の閾値より大きい場合、ブロック１３５へ処理は移り、現在のフレームはショット境界であると表示する。
【００２３】
処理はブロック１３１へ戻り、もし、一方で、ブロック１３３内で現在のフレームがショット境界と対応しないことが決定されると処理はブロック１３１へ直接戻る。
【００２４】
図２に、記載した図１ａおよびｂを結合させた、ショット境界検出処理を用いてキーフレーム抽出のアルゴリズムの１回の反復のブロック図を示した。時間ｋにおけるフレームはＰ個の特徴点の集合として以下のように表される。
【数１】

上式は、
＊動的要素：位置（ｘ，ｙ）および以下に表される速度
【数２】

＊測光要素：ガボール反応のような（ｆ_１，ｆ_２，ｆ_３，・・・）。
を含む。ここで、時間ｋ（またはフレームｋ）での特定の特徴点を表す変数ｎの特徴点の数は時間の関数である。
【００２５】
測光要素は、入力として画像の明るさを用いて計算する、ガボール応答またはガウシアン微分応答のような一般的なフィルタ応答である。J.Malik,and P.Perona,”初期の機構による前注意的構成識別法”,J.Opt.Soc.Am.,vol.7,no.5,pp.923-932,１９９０年５月を参照。ここで記載したアルゴリズム内の測光要素の使用することは、特徴点の抽出において縮尺や回転に対する感度を改良する。しかしこれは必須の要件ではない。
【００２６】
特徴ベクトル
【数３】

は状態ベクトルと称する。その要素は、将来の軌道を予測するために、特徴点ｎの現在および過去の履歴を要約する。
【００２７】
特徴点は隅の点のような有効な構成数を含む点に対応する。このような点は相対的に追跡が容易である。
【００２８】
図２を参照して、特徴点抽出段階での最初のブロック２０１は、時間ｋ＋１でｎ番目の測定ベクトルとして定義されるベクトル、
【数４】

はｎ＝１，２，・・・Ｐとして計算される。
【００２９】
次に、ブロック２０３内の測定予測段階では、式
【数５】

は最後のフレームｋの状態ベクトル
【数６】

が予測されることで推定される。A.Gelb,”最適推定の応用”,MIT Press,1974に記載されているカルマンフィルタは推定アルゴリズムとして使用できる。
【００３０】
次に、ブロック２０５で、予測された測定
【数７】

と、抽出された測定
【数８】

との間の対応は、特徴点のリストの更新によって実行される。
【００３１】
式
【数９】

は、時間ｋ＋１までの特徴点のｎ番目のリストである。Y.Bar-Shalom, and T.E.Fortmann,”追跡とデータのかかわり”Academic Press,1988に記載されている近隣フィルタは、特徴点のリストの更新のためにデータの関連付けのために使用できる。推定された測定ベクトル
【数１０】

最後のフレームｋからの特徴点のリストＺ_ｎ（ｋ）、および現在のフレームｋ＋１による測定ベクトル
【数１１】

は、データ関連付けの段階で入力として使用される。特徴点の数Ｐは時間と共に変化することは特筆すべきである。これは、各データ関連付け周期は特徴点の開始も含み、特徴点の終了だけでなく特徴点の維持も含む。
【００３２】
異なる型の特徴点の処理の定義を以下に説明する。
１．特徴点の開始：新しい特徴点が抽出されたときに新しい特徴点を生成する。
２．特徴点の終了：特徴点がもはや抽出されないときに特徴点を削除する。
３．特徴点の管理：対応する特徴点が抽出された時に特徴点を更新する。
【００３３】
最後に、多くの特徴点が同時に終了（例えば、切断、フェードイン、分解または一掃の状況）または開始（例えば、切断、フェードイン、分解または一掃の状況）したとき、フレームはフレームはショット境界であると判断する。
【００３４】
さらに、ショット境界を検出するために特徴点内の変化の比率に対する動作の測定が定義される。そのような測定は以下に動作変化と称する。この動作測定は連続するフレーム間の終了または開始特徴点に数に依存する。該測定は、例えば比率として計算される終了および開始特徴点間の最大値として定義する。該開始特徴点の比率は、現在のフレーム内で、新しい特徴点の数を特徴点の数全体で割って求められる。終了特徴点の比率は、以前のフレーム内で、削除された特徴点の数を特徴点の数全体で割って求められる。
【００３５】
適切な閾値が設定され、もし終了および開始特徴点間の最大値が閾値より大きいとき、ショット境界が発生したと判断される。動作変化の他の定義も当然可能である。
【００３６】
図４に連続するフレームｋ（５３７）、ｋ＋１（５４０）、ｋ＋２（５４１）、ｋ＋３（５４２）の集合内の検出した特徴点を示した。フレームｋ＋１（５４０）内でフレームｋ（５３７）からのほとんどの特徴点が検出されている。
【００３７】
その間、最初のフレームの数個の点が消滅し、少数の点が現れる。フレームｋ＋３（５４２）で、ほとんどの特徴点が失われている。ゆえにこれはショット境界（省略）に相当すると判断される。ショットは最も重要な情報内容で連続する静的な状態の集合を構成する。動作変化のピークに相当する２つの状態の遷移は図３に示した。図３では、時間（またはフレーム）の関数としての動作変化を示している。該静的な状態、すなわち、動作変化の小さい平坦な部分が検出され、キーフレームの抽出に用いられる。
【００３８】
再び図４を参照してに示すように、フレームｋ＋１（５４０）では、フレームｋ（５３７）からのほとんどの特徴点が検出されている。その間、最初のフレームの数個の点が消滅し、少数の点が現れる。よって、フレームｋ＋１はキーフレームとして適切である。
【００３９】
一度、上で記載したアルゴリズムを用いてショット境界が検出されると、ショット境界間の１つまたはいくつかの極小値がキーフレームとして抽出される。動作変化により現れる極小値は一定である。よって、それ自体極小値であるフレームを抽出する必要はない。しかし、どんなフレームも、動作変化が一定で良い結果をもたらす訳ではない。しかしながら、ショット境界間の動作変化の極小値に対応するフレームは良い結果をもたらす。
【００４０】
したがって、例えば、映画監督は２つの場面を結合するのにカメラの動き（カメラを回したりズーム撮影）を用いる。ＡとＢ２人の俳優が静止した背景の前で互いに会話をしている場合を仮定すると、俳優Ａが話すとカメラは彼に焦点を当てる。これは長時間に渡る低動作に相当する（抽出した特徴点の主要な変化がない）。俳優Ｂが話し出すと、カメラは彼の方へ向く。このとき、カメラは俳優Ｂで停止し、動作レベルは再び低くなる。キーフレームは低動作フレームから選択される、すなわち、図３の平坦な部分である。
【００４１】
圧縮された画像を使用するときはより速いアルゴリズムを用いる。しかしながら、マルチターゲット追跡を実行するために圧縮された範囲に使用できる情報には限界がある。妥協により映像シーケンスのＩ−フレームのみ検出することができる。該Ｉ−フレームはここで記載した要約映像アルゴリズムに対して使用される。
【００４２】
この選択は３つの要素によって実行される。第１はＩ−フレームが、例えば１２フレームごとに頻繁に現れる。このフレーム副サンプリングは最後のショットの５から２３秒間である。D.Colla,and G.Ghoma,”テレビ放送における画像の動作特性”,IEEE Trans.Communications,vol.26,pp.1201-1206,1976.参照。第２は、ここで記載したアルゴリズムは、２つの連続するフレーム間の大きな動きを取り扱うことができる。第３に、または他の形式で像をフォーマットできるＪＰＥＧ、Ｉ−フレームは、（Ｂ−，Ｐ−フレーム）のような映像シーケンス内の他のフレームを独立に受け入れられる。
【図面の簡単な説明】
本発明を、対応する図を用いてより詳細に説明する。
【図１】図１ａおよび１ｂはショット境界検出のアルゴリズムのフローチャートである。
【図２】図２は、連続する映像フレーム内の特徴点の追跡用の機器の基本ブロックを示したブロック図である。
【図３】図３はショット内の動きの変化を示した図である。
【図４】図４は特徴点を検出した連続するフレームの集合を示した。

Claims

映像信号からキーフレームを抽出する方法であって、映像信号内のフレームから特徴点を抽出し、連続するフレーム間の特徴点を追跡し、連続するフレーム間の新しいまたは失った特徴点の数を測定し、新しいまたは失った特徴点の数が所定の閾値を超えたときに、映像信号内のショット境界であると判定し、新しいまたは失った特徴点の数が所定の基準と合致する２つのショット境界間に位置しているフレームを、キーフレームとして選択することを特徴とする方法。
新しいまたは失った特徴点の数が前記所定の閾値を超え、特徴点の変化率を示す動作測定が最大値を有するフレームとして映像信号内のショット境界が判定されることを特徴とする請求項１記載の方法。
前記動作測定がそのフレームに対して終了する特徴点の数またはそのフレームに対して開始する特徴点の数であることを特徴とする請求項２記載の方法。
該キーフレームとして、映像信号内の連続する複数のフレームを通じて新しいまたは失った特徴点の数が一定であるフレームが選択されることを特徴とする請求項１ないし３のいずれかに記載の方法。
キーフレームが、新しい特徴点または失った特徴点の数が２つのショット境界間の極小値に相当するフレームとしてまたは新しい特徴点または失った特徴点が所定のしきい値以下となるフレームとして選択されることを特徴とする請求項１ないし３のいずれかに記載の方法。
映像信号がＩ−フレームを有する圧縮された映像信号であり、Ｉ−フレームはショット境界の判定およびキーフレームの選択をするための入力フレームとして、符号化され用いられることを特徴とする請求項１ないし５のいずれかに記載の方法。
映像信号のフレーム内の特徴点は、映像信号の運動要素と測光要素の両方を用いて抽出されることを特徴とする請求項１ないし６のいずれかに記載の方法。
映像信号内のショット境界を検出する方法であって、映像信号内のフレームから特徴点を抽出し、連続するフレーム間の特徴点を追跡し、連続するフレーム間の新しいまたは失った特徴点の数を測定し、新しいまたは失った特徴点の数が所定の閾値以上であれば、それが映像信号内のショット境界であると判定することを特徴とする方法。
新しいまたは失った特徴点の数が前記所定の閾値を超え、特徴点の変化率を示す動作測定が最大値を有するフレームとして映像信号内のショット境界が判定されることを特徴とする請求項８記載の方法。
前記動作測定がそのフレームに対して終了する特徴点の数またはそのフレームに対して開始する特徴点の数であることを特徴とする請求項９記載の方法。
映像信号のフレーム内の特徴点は運動要素と測光要素の両方を用いて抽出されることを特徴とする請求項８ないし１０のいずれかに記載の方法。
映像信号がＩ−フレームを有する圧縮された映像信号であり、Ｉ−フレームはショット境界の判定およびキーフレームの選択をするための入力フレームとして符号化され用いられることを特徴とする請求項８ないし１１のいずれかに記載の方法。
映像信号からキーフレームを抽出する装置であって、連続するフレーム間の新しいまたは失った特徴点の数を測定する手段と、新しいまたは失った特徴点の数が所定の閾値以上の時映像信号内のショット境界を判定する手段と、新しいまたは失った特徴点の数が所定の基準と合致する２つのショット境界に位置するフレームをキーフレームとして選択する手段を有することを特徴とする装置。
映像信号のショット境界を判定する手段が、新しいまたは失った特徴点の数が前記所定の閾値以上であり、特徴点の変化率を示す動作測定が最大値を有するフレームとして映像信号内のショット境界が判定されるように構成されたことを特徴とする請求項１３記載の装置。
ショット境界を判定する手段がそのフレームに対しての終了する特徴点の数またはそのフレームに対して開始する特徴点の数として動作測定を計算するように構成されことを特徴とする請求項１４記載の装置。
新しいまたは失った特徴点の数が映像信号内の連続する多数のフレームで一定であるフレームをキーフレームとして選択する手段を有することを特徴とする請求項１３ないし１５のいずれかに記載の装置。
新しいまたは失った特徴点の数が２つのショット境界間の極小値に対応するか、または、新しいまたは失った特徴点の数が所定の閾値以下であるフレームとしてキーフレームを選択する手段を有することを特徴とする請求項１３ないし１５のいずれかに記載の装置。
映像信号がＩ−フレームを有する圧縮された映像信号であり、Ｉ−フレームだけを復号化し、ショット境界の判定およびキーフレームの選択をするための入力フレームとしてＩ−フレームを用いる手段を有することを特徴とする請求項１３ないし１７のいずれかに記載の装置。
映像信号のフレーム内の特徴点を運動要素と測光要素の両方を用いて抽出する装置を有することを特徴とする請求項１３ないし１８のいずれかに記載の方法。
映像信号内のショット境界を検出する装置であって、連続するフレーム間の新しいまたは失った特徴点の数を測定する手段と、新しいまたは失った特徴点が所定の閾値以上の時、映像信号内のショット境界であると判定する手段を具備することを特徴とする装置。
映像信号のショット境界を判定する手段が、新しいまたは失った特徴点の数が前記所定の閾値以上であり、特徴点の変化率を示す動作測定が最大値を有するフレームとして映像信号内のショット境界が判定されるように構成されたことを特徴とする請求項２０記載の装置。
ショット境界を判定する手段がそのフレームに対しての終了する特徴点の数またはそのフレームに対して開始する特徴点の数として動作測定を計算するように構成されことを特徴とする請求項２１記載の装置。
映像信号のフレーム内の特徴点を、映像信号の運動要素と測光要素の両方を用いて抽出する手段を有することを特徴とする請求項２０ないし２２のいずれかにに記載の装置。
映像信号がＩ―フレームを有する圧縮された映像信号であり、Ｉ−フレームだけを復号化し、ショット境界の判定をするための入力フレームとしてＩ−フレームを用いる手段を有することを特徴とする請求項２０ないし２３のいずれかに記載の装置。
請求項１３ないし２４の何れかに記載の装置を具備する映像要約システム。