JP2006314090A

JP2006314090A - コンピュータ実施される、ビデオを変換して表示する方法

Info

Publication number: JP2006314090A
Application number: JP2006104253A
Authority: JP
Inventors: Clifton L Forlines; クリフトン・エル・フォーラインズ
Original assignee: Mitsubishi Electric Research Laboratories Inc
Current assignee: Mitsubishi Electric Research Laboratories Inc
Priority date: 2005-04-08
Filing date: 2006-04-05
Publication date: 2006-11-16
Also published as: US20060228048A1; US7526725B2

Abstract

【課題】ビデオのコンテキストをその提示に反映し、視聴体験を向上させる。
【解決手段】コンピュータ実施される方法は、ビデオを変換して表示する。或るシーンについて取得された入力ビデオがショットに分割される。類似ショットが順次合成されて対応するチェーンになる。次に、入力ビデオの各フレームがチェーン及びテンプレートに従ってレンダリングされて合成画像になる。
【選択図】図１

Description

本発明は、包括的にはビデオの処理に関し、特に、後にビデオをそのコンテキストに応じて再生するための処理に関する。

表示面、例えばテレビ、プロジェクタ及び端末画面は、物理的に大きく解像度が高くなってきているが、ビデオの表示方法はほとんど同じままである。通常は、小型表示面用に生成されたビデオが単に表示面全体を埋めるように拡大される。大型表示面の持つ特徴を最大限に活かす工夫はほとんどなされていない。

例えば、１９２０×１０８０画素を表示することができる高品位テレビ（ＨＤＴＶ）は、解像度が６４０×４８０画素の標準品位テレビ信号を受け取り、この低解像度のビデオを単に、高解像度の表示面を埋めるようにスケーリングする。

ビデオはフレームシーケンスから成り、これらのフレームは多くの場合、帯域幅要件及びメモリ要件を低減するために符号化及び圧縮される。各フレームは、前のフレーム又は次のフレームとは別個に表示される。

従来の装置が同一ビデオからの２つ以上のフレームを同時に表示することは決してない。

本発明は、入力ビデオを出力ビデオに変換する。入力ビデオは、通常表示面上に順次表示されるショットを含む。出力ビデオは、表示面の異なる領域に同時に並行して表示されるショットを含む。

ショットを選択する方法、ショットの長さ、及び前に表示されたショットの扱いは、入力ビデオのコンテキストに基づく。このコンテキストは、入力ビデオの内容及びカメラの動き、例えば、パニング又はズームを含み得る。

この方法でショットを表示することによって、ビデオのコンテキストをその提示に反映し、視聴体験を向上させる。

図１は、本発明により処理される入力ビデオ１００を示す。図２は、本発明による、入力ビデオ１００を処理して出力ビデオ２６１を生成する方法２００を示す。図３は、出力ビデオの１つのフレーム３００を示す。

通常、出力ビデオは、入力ビデオよりも実質的に高い解像度を有する。すなわち、出力ビデオは、大型表示面、例えばＨＤＴＶでの表示向けにフォーマットされる。しかし、入力ビデオと出力ビデオは、同一解像度を含む任意の適当な解像度を有し得ることを理解すべきである。

図１に示すように、入力ビデオ１００は、１つ又は複数のシーン１１０を含み、各シーンが１つ又は複数の「ショット」１２０を含み、各ショットが１つ又は複数のフレーム１３０を含む階層構造を有する。ショットはショット境界１２１によって分離される。本発明は１つのシーンについて説明されるが、本発明は、任意数のシーンとそのいずれかに任意数のショットを含む任意のビデオに適用できることを理解すべきである。

本発明を説明する目的で、応用例において、ビデオは、２人の人物が互いに話し合っているシーンのものである。これはビデオにおいて非常に一般的なシーンである。通常、ショットは、２人の人物が話している最中にこの２人の間で交互に順次切り替わり、ショットは順次録画され表示面に表示される。両方の人物が同時に現れるような出力ビデオを生成し表示面に表示することが望ましい。

図２は、本発明による、ビデオ１００を変換して表示する方法２００を示す。先ず、ショット境界１２１を検出することによって、ビデオ１００をショット１２０に分割２１０する。ショットを比較２２０して、類似ショット２２１の組を検出する。類似ショット２２１を合成２３０して、対応する「チェーン」２３１を形成する。

任意のステップにおいて、ビデオの動きベクトル１０１からカメラの動き２４１を推定２４０する。入力ビデオ１００、チェーン２３１、及びカメラの動き２４１を用いて、シーンをレンダリング２５０し、画像２５１を生成する。これらの画像を順次並べて２６０、再生装置２７０、例えばテレビ又はパーソナルコンピュータを用いて表示することができる出力ビデオ２６１を生成する。

図６は、このプロセスを要約する。入力ビデオ１００は、交互のショット（１、２、３、４）及び（Ａ、Ｂ、Ｃ、Ｄ）を含む。各ショットの最後のフレーム６０１を小文字で示す。入力ビデオを解析して２本のチェーン２３１及び２３１’にする。チェーンのフレームを次に合成して合成画像２５１にする。なお、第１のチェーンの最初のショットの合成画像は、第２のチェーンのいずれのフレームも含まない。なおまた、以後のショットの合成画像は、前のショットの最後のフレームを、黒にフェードしていく静止フレームとして含む。

ビデオの分割
ショット境界１２１を検出することによってビデオをショット１２０に分割するいくつものプロセスが既知である。この方法は、画素の差異、符号化マクロブロック、及びエッジに基づくことができる（Ｘ．Ｕ．カベド（Cabedo）及びＳ．Ｋ．バッタチャルジー（Bhattacharjee）著「Shot Detection Tools in Digital Video」（Proc. of Non-linear Model Based Image Analysis 1998, Springer Verlag, pp 121-126, July 1998）、Ｈ．Ｊ．チャン（Zhang）等著「Automatic Partitioning of Full-Motion Video」（ACM Multimedia Systems, Vol 1, pp 10-28, 1993）、並びにＲ．リエンハルト（Lienhart）著「Comparison of Automatic Shot Boundary Detection Algorithms」（Image and Video Processing VII 1999, Proc. SPIE 3656-29, Jan. 1999））。

これらのプロセスは全て、隣接フレームを比較して、ショット境界を示す、フレーム間の大きな差異があるときを検出するという点で類似している。

本発明では、カラーヒストグラム２１１を使用することを好む。本発明では、入力ビデオ１００のフレーム１３０毎にカラーヒストグラムを構築する。各ヒストグラムは、ＲＧＢの色成分毎に２５６個のビンを有する。本発明では、隣接フレームのヒストグラムを以下のように比較する。

３つの色成分のそれぞれについて、対応するビンの対の値間の絶対差を総和して、２フレーム間の赤、緑、及び青の合計差を得る。３つの合計差をそれぞれ、以前のＮ対のフレームのそれぞれの色の平均差と比較する。３色いずれかの差が、所定の閾値にその色の平均差を掛けた値よりも大きい場合、ショット境界１２１を検出する。符号化ビデオの誤差に対処するために、Ｍ個、例えば５個未満のフレームを含むショットは、直後のショットと合成する。

類似性についてショットを比較
本発明の例示的な話している人物のシーンのようなシーンは、通常、内容により論理的に関連するショットの連続シーケンスである（Ｔ．リン（Lin）、Ｈ．Ｊ．チャン著「Video Scene Extraction by Force Competition」（2001 IEEE Intl Conf on Multimedia and Expo, Aug 22-25, 2001）、Ｌ．チャオ（Zhao）等著「Video Shot Grouping Using Best-First Model Merging」（Proc. 13th SPIE symposium on Electronic Imaging - Storage and Retrieval for Image and Video Databases, Jan 2001）、並びにＸ．ルー（Lu）、Ｙ．Ｆ．マー（Ma）、Ｈ．Ｊ．チャン及びＬ．ウー（Wu）著「An Integrated Correlation Measure for Semantic Video Segmentation」（2002 IEEE Intl Conf on Multimedia and Expo, Aug 26-29, 2002））。

ショットの類似度を比較するために、本発明では、上述のようなカラーヒストグラム２１１を使用することを好む。本発明では、現在のショットの最初のフレームを上述のように、以前のＳ個、例えば５個のショットの最後のＮ個のフレームと比較する。ショットが、前のショットの最後のフレームと類似したフレームで始まる場合、これらのショットは同一シーンに関連している可能性が高い。２つ以上のショットが類似したものである、すなわちそれらのショットが同一の人物、物体、又は背景を有することが分かったときは常にチェーン２３１を作成する。チェーンはいくつかのショットを含むことができ、チェーン中の類似ショットは時間的に連続している必要はない。

時間的に比較的近接して位置する、視覚的に類似するショットのチェーンを生成する任意の技法、又は技法の組み合わせが本発明に対応する。

類似ショットの合成
本発明では、類似ショットを合成することによって、対応するチェーン２３１を生成する。本発明の例として、２つのチェーンがある。１つのチェーンはすべて話している１人の人物の類似ショットであり、もう１つのチェーンはすべて話しているもう１人の人物の類似ショットである。３人の人物がいてもよく、その場合、チェーンは３つになることを理解すべきである。これらのチェーンは時間的に重複するため、本発明では、それらを出力ビデオ２６１の１つのシーンにまとめる。

また、１つ以上のシーンがあってもよい。例えば、１つのシーンには２人の人物が、もう１つのシーンには３人の人物がいて、これらのシーンが交互に切り替わり、各シーンのショットが交互に切り替わる。この場合、チェーンは５つになる。

全てのショットがチェーンの一部となる必要はないことに留意すべきである。本発明はまた、各チェーンの開始ショット及び最終ショットを比較して、本明細書においてシーンと呼ぶ重複チェーンを判断する。シーンの最初のショットと最後のショットの間にあって、チェーンに含まれていないショットは、１つのショットを含むチェーンとしてそのシーンに追加する。

どのチェーンにも含まれず、１つのシーンの始まりと終わりの間にないショットは、オーファン（orphans）としてラベル付けする。連続するオーファンは合成してオーファンチェーンとする。両側をシーンで囲まれたオーファンは終端（trailing）チェーンに追加する。

カメラの動きの推定
ＭＰＥＧ規格に従って符号化されたビデオは、Ｐフレームに動きベクトル１０１を含む。動きベクトルからカメラの動きを推定するいくつかの技法が知られている（マウリツィオ・ピル（Maurizio Pilu）著「On Using Raw MPEG Motion Vectors To Determine Global Camera Motion」（Digital Media Department, HP Laboratories, HPL-97-102, August, 1997）、ライアン（Ryan）Ｃ．ジョーンズ（Jones）、ダニエル・デメントン（Daniel DeMenthon）、デビット（David）Ｓ．ドエルマン（Doermann）著「Building mosaics from video using MPEG motion vectors」（Language and Media Processing Laboratory, Institute for Advanced Computer Studies, University of Maryland, Technical Report: LAMP-TR-035/CAR-TR-918/CS-TR-4034, University of Maryland, College Park, July 1999））。これらの技法はすべて、像平面におけるカメラの動きをＭＰＥＧ符号化ビデオの動きベクトルから推定する。

カメラの移動を推定する他の技法は、特徴に基づく追跡（Ｃ．森本（Morimoto）及びＲ．シェラッパ（Chellappa）著「Fast 3D stabilization and mosaic construction」（Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, pages 660-665, 1997））、又は階層的な直接位置合わせ（イラニ（Irani）、Ｐ．アナンダン（Anandan）、及びＳ．スウ（Hsu）著「Mosaic based representations of video sequences and their applications」（Proceedings of the International Conference on Computer Vision, pages 22-30, 1995））、又はオプティカルフロー（Ｌ．テオドイソ（Teodoiso）及びＷ．ベンダー（Bender）著「Salient video stills: Content and context preserved」（Proceedings of the ACM Multimedia Conference, pages 39-46, 1993））を含む。

本発明では、ＭＰＥＧ−２規格に従って符号化された入力ビデオ１００から直接、動きベクトルデータを解析することを好む。ショット中のフレーム毎に、全てのベクトルについてＸ方向及びＹ方向の両方における動きの分散を求める。分散が所定の閾値未満である場合、全ての動きベクトルの平均の動きを記録する。

言い換えれば、１つのフレームの動きベクトルのほとんどが全て多少とも同じ方向を指している場合、本発明では、カメラがその方向に移動していると仮定し、動きを記録する。変動が閾値を上回る場合、長さゼロのベクトルを記録する。

このようにして、ショット毎に、そのショットの各フレームに対応する１つのベクトルを有する平均ベクトルのリストを生成する。これらの、ビデオの各セグメントにつき１つのリストは、対応するショットのカメラパス２４１である。本発明では、これらのカメラパスを用いて、後述するような新規な方法で入力ビデオを表示面にレンダリングすることができる。

シーン画像のレンダリング
画像２５１をレンダリングするために、本発明では、入力として、入力ビデオ１００、チェーン２３１、及びカメラパス２４１を有する。レンダリング２５０は、入力ビデオからの各フレームを受け取り、元フレーム、このフレームが一部を成すショット及びシーン、すなわちチェーン２３１のうちの１つ、及び任意で、そのフレームが一部を成すショットのカメラパス２４１を用いて新たな画像をレンダリングする。このステップの結果は、入力ビデオ中のフレーム数に等しい長さの画像シーケンスである。

テンプレート
シーンリストの各シーンについて、そのシーンのフレームに最も適したレンダリングを選択するために、そのシーンの構造を所定のテンプレート２６２と比較する。構造とは、シーン中のチェーンの数及びパターン、シーン中にショットチェーンに含まれないショットがあること、チェーンの長さ、並びにシーンのチェーンの重なり量を意味する。

例示的なシーンの場合、２つの重複チェーンが各話者につき１つずつある。テンプレートは、そのシーンの特徴が、テンプレートによって提示される理想的なシーンに対する適合度に基づいて格付けされる。本方法は次に、シーンに対する適合度が最も高いテンプレートを用いて、入力ビデオのシーンの各フレームについて新たな画像をレンダリングする。

各テンプレートは先ずブランク画像を生成する。次に、入力ビデオからのフレームをブランク画像の領域にレンダリングし、おそらくは画像全体を埋める。次にこの画像を記録し、入力ビデオからの新たなフレームを画像の領域にレンダリングする。この次のフレームが描画される領域は前の領域と重複してもしなくてもよく、前の画像の内容は消去されてもされなくてもよい。

図３に示すように、例示的なシーンは話し合う２人の人物を含む。通常、ショットは、２人の話者が話している最中にこの２人の間で交互に順次切り替わる。本発明による、このシーンをレンダリングするテンプレートは、第１のチェーンからの各フレームを画像３００の左側の領域３０１にレンダリングし、第２のチェーンからの各フレームを画像３００の右側の領域３０２にレンダリングする。

結果として、話者が画像の左側と右側に現れる画像シーケンスが得られる。再生中、この画像シーケンスの視聴者は、左側領域又は右側領域の話し手（actively talking character）、及びもう一方の領域に静止フレームとして表示される聞き手を交互に見る。静止フレームは、その話者が話しているショットの最後のフレームに対応する。アクティブなショットが静止フレームと交互に切り替わる際に、フェード技法を用いることができる。例えば、左側のアクティブなショットの継続中、右側の静止フレームは徐々にフェードしていき、この右側の静止フレームが再びアクティブなショットになると、左側の領域は、徐々にフェードしていく静止フレームを表示することができる。

フェード技法に加えて、任意数の従来の画像フィルタリング技法を用いることができる。静止フレームは、彩度を徐々に下げることができる。すなわち、静止フレームは白黒画像に変化する。静止フレームはまた、ぼかす、画素化する、又はセピア調に変換することができる。

本発明の変形例において、テンプレートは、チェーンの各々におけるフレームに対して視線方向検出プロセスを用いることができる。アクセル・クリスチャン・バルクミン（Axel Christian Varchmin）、ロバート・レイ（Robert Rae）、ヘルガ・リッテル（Helge Ritter）著「Image Based Recognition of Gaze Direction Using Adaptive Methods」（Lecture Notes in Computer Science, Volume 1371, Jan 1998, Page 245）を含む、画像中の顔の視線方向を推定するいくつかの技法が知られている。このようなプロセスは、図３の女性が右を向いていること、及び図３の男性が左を向いていることを認識する。次に、この２人の人物が向かい合って見えるように、チェーンのフレームを合成することができる。

図４に示すように、テンプレートは、入力ビデオのショットのフレームをレンダリングする出力画像の領域を動画化するように設計することができる。この動画化は、時間、すなわちショットの長さを考慮することができる。図４は、テンプレートによって生成される４つの連続する出力画像４０１、４０２、４０３、４０４を示す。このシーンをレンダリングするために用いられるテンプレートは、第１のチェーンの第１のショットからの各フレームを動画化領域４１０、４１１、４１２にレンダリングする。なお、これらの領域は、動画の効果を与えるためにサイズ及び位置が変わる。第１のチェーンの最後のフレーム４１３は、画像４０４の左側に静止フレームとしてレンダリングされ、フレーム４１４は、以後の出力画像の右側の領域にレンダリングされる。領域のサイズ及び位置を変えるだけでなく、テンプレートは、領域を歪め、回転させ、その境界を反映させることができる。

図５に示すように、テンプレートは、カメラパス５０２に従って出力画像５００の領域５０１を動画化することができる。この例において、走者は初め、ショットの最初のフレームの左上に現れる。走者が近づくにつれて、カメラは走者を追うようにパン及びズームする。したがって、カメラパスに従って動画化するために、入力ビデオからのフレームをレンダリングするために用いられる出力画像の領域は、左上から右下に移動するにつれてサイズが大きくなる。図７は、いくつかの例示的なテンプレートを示す。

レンダリングした画像を出力ビデオに合成
レンダリングした画像２５１を順次並べて２６０、出力ビデオ２６１を生成する。上記のように、各画像は、同時におそらくは動画化して表示される１つ又は複数のフレームを含み得る。出力ビデオは、ＭＰＥＧ−２規格に従って記録される。合成２６０はまた、入力ビデオ１００からの音声トラック１０２を挿入する。この音声トラックは、レンダリングに従って同期される。

出力ビデオ２６１は、従来のビデオ再生装置を用いて再生することができる。

本発明を好ましい実施の形態の例として説明してきたが、本発明の精神及び範囲内で様々な他の適応例及び修正例を実施できることが理解される。したがって、添付の特許請求の範囲の目的は、本発明の真の精神及び範囲に入るそのような変形例及び修正例をすべて網羅することである。

本発明により処理される入力ビデオのブロック図である。入力ビデオを処理して出力ビデオを生成する方法のフロー図である。本発明により変換された入力ビデオの２つのフレームを含む出力ビデオのフレームのブロック図である。本発明による動画化されたフレームのブロック図である。本発明による、カメラパスをコンテキストとして用いて動画化されたフレームのブロック図である。本発明による入力ビデオ、チェーン、及び合成画像のブロック図である。例示的なテンプレートの表である。

Claims

コンピュータ実施される、ビデオを変換して表示する方法であって、
或るシーンについて取得された入力ビデオをショットに分割すること、
前記ショットを比較することにより類似ショットを判定すること、
類似ショットを対応するチェーンに合成すること、
前記入力ビデオのフレーム毎に前記チェーン及びテンプレートに従って合成画像をレンダリングすること、
前記合成画像を出力ビデオに順次並べること
を含む、コンピュータ実施される、ビデオを変換して表示する方法。
前記出力ビデオを表示面上で再生することをさらに含む、請求項１に記載の方法。
前記入力ビデオは、前記入力ビデオのフレーム毎にカラーヒストグラムを用いて分割される、請求項１に記載の方法。
前記出力ビデオの解像度は、前記入力ビデオの解像度よりも実質的に高い、請求項１に記載の方法。
前記入力ビデオは、話している第１の人物の第１のショットと話している第２の人物の第２のショットを含み、前記テンプレートは、前記第１のショットのフレームを前記合成画像の第１の領域に、前記第２のショットのフレームを前記合成画像の第２の領域に同時にレンダリングするように設計される、請求項１に記載の方法。
前記第１のショットの静止フレームは、前記第２の人物が話しており、前記第２の人物のフレームが前記第２の領域にレンダリングされているとき、前記第１の領域にレンダリングされ、前記第２のショットの静止フレームは、前記第１の人物が話しており、前記第１の人物のフレームが前記第１の領域にレンダリングされているとき、前記第２の領域にレンダリングされる、請求項５に記載の方法。
ショット境界を検出することにより前記入力ビデオを分割することをさらに含む、請求項１に記載の方法。
前記入力ビデオのフレーム毎にカラーヒストグラムを構築すること、
隣接フレームの前記カラーヒストグラムを比較することにより、類似フレームを判定すること、
類似フレームを対応する類似ショットに合成すること
をさらに含む、請求項１に記載の方法。
直後のショットと重複するフレームが所定数未満であるショットを合成することをさらに含む、請求項８に記載の方法。
前記カラーヒストグラムは、前記類似ショットを判定するために用いられる、請求項８に記載の方法。
現在のショットの第１のフレームの前記カラーヒストグラムを以前のショットの所定数の最後のフレームの所定数の前記カラーヒストグラムと比較することにより前記類似ショットを判定することをさらに含む、請求項１０に記載の方法。
前記チェーンは重複する、請求項１に記載の方法。
前記入力ビデオにおけるカメラの動きを推定すること、
前記フレームを前記カメラの動きに従って前記合成画像にレンダリングすること
をさらに含む、請求項１に記載の方法。
前記カメラの動きは、前記入力ビデオ内の動きベクトルから推定される、請求項１３に記載の方法。
選択される画像は複数の領域を含み、選択されるチェーンにそれぞれ１つの領域があり、
前記選択されるチェーンからのフレームを対応する前記領域に同時にレンダリングすることをさらに含む、請求項１に記載の方法。
前記テンプレートは、前記ビデオの構造に基づき、前記構造は、前記チェーンの数及びパターン、前記チェーン中のショットの数、前記チェーンの長さ、及び前記チェーンの重なり量を含む、請求項１に記載の方法。
前記静止フレームをフェードすることをさらに含む、請求項６に記載の方法。
前記静止フレームの彩度を徐々に下げることをさらに含む、請求項６に記載の方法。
前記静止フレームをぼかすことをさらに含む、請求項６に記載の方法。
前記静止フレームを画素化することをさらに含む、請求項６に記載の方法。
前記静止フレームをセピア調に変換することをさらに含む、請求項６に記載の方法。
前記ショット中の人物の視線方向に従って前記領域を並べることをさらに含む、請求項１５に記載の方法。
前記領域を動画化することをさらに含む、請求項１５に記載の方法。