JP2006314090A - コンピュータ実施される、ビデオを変換して表示する方法 - Google Patents
コンピュータ実施される、ビデオを変換して表示する方法 Download PDFInfo
- Publication number
- JP2006314090A JP2006314090A JP2006104253A JP2006104253A JP2006314090A JP 2006314090 A JP2006314090 A JP 2006314090A JP 2006104253 A JP2006104253 A JP 2006104253A JP 2006104253 A JP2006104253 A JP 2006104253A JP 2006314090 A JP2006314090 A JP 2006314090A
- Authority
- JP
- Japan
- Prior art keywords
- shot
- frame
- video
- shots
- region
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 50
- 239000002131 composite material Substances 0.000 claims abstract description 11
- 239000013598 vector Substances 0.000 claims description 14
- 238000009877 rendering Methods 0.000 claims description 8
- 241000238370 Sepia Species 0.000 claims description 2
- 230000003247 decreasing effect Effects 0.000 claims 1
- 238000005562 fading Methods 0.000 claims 1
- 230000002194 synthesizing effect Effects 0.000 claims 1
- 238000010586 diagram Methods 0.000 description 6
- 238000001514 detection method Methods 0.000 description 3
- 239000003086 colorant Substances 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 230000006978 adaptation Effects 0.000 description 1
- 230000003044 adaptive effect Effects 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 238000001914 filtration Methods 0.000 description 1
- 238000010191 image analysis Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000004091 panning Methods 0.000 description 1
- 238000003909 pattern recognition Methods 0.000 description 1
- 230000011218 segmentation Effects 0.000 description 1
- 238000000638 solvent extraction Methods 0.000 description 1
- 230000006641 stabilisation Effects 0.000 description 1
- 238000011105 stabilization Methods 0.000 description 1
- 230000001360 synchronised effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G11—INFORMATION STORAGE
- G11B—INFORMATION STORAGE BASED ON RELATIVE MOVEMENT BETWEEN RECORD CARRIER AND TRANSDUCER
- G11B27/00—Editing; Indexing; Addressing; Timing or synchronising; Monitoring; Measuring tape travel
- G11B27/10—Indexing; Addressing; Timing or synchronising; Measuring tape travel
- G11B27/19—Indexing; Addressing; Timing or synchronising; Measuring tape travel by using information detectable on the record carrier
- G11B27/28—Indexing; Addressing; Timing or synchronising; Measuring tape travel by using information detectable on the record carrier by using information signals recorded by the same method as the main recording
-
- G—PHYSICS
- G11—INFORMATION STORAGE
- G11B—INFORMATION STORAGE BASED ON RELATIVE MOVEMENT BETWEEN RECORD CARRIER AND TRANSDUCER
- G11B27/00—Editing; Indexing; Addressing; Timing or synchronising; Monitoring; Measuring tape travel
- G11B27/10—Indexing; Addressing; Timing or synchronising; Measuring tape travel
- G11B27/102—Programmed access in sequence to addressed parts of tracks of operating record carriers
- G11B27/105—Programmed access in sequence to addressed parts of tracks of operating record carriers of operating discs
Abstract
【課題】ビデオのコンテキストをその提示に反映し、視聴体験を向上させる。
【解決手段】コンピュータ実施される方法は、ビデオを変換して表示する。或るシーンについて取得された入力ビデオがショットに分割される。類似ショットが順次合成されて対応するチェーンになる。次に、入力ビデオの各フレームがチェーン及びテンプレートに従ってレンダリングされて合成画像になる。
【選択図】図1
【解決手段】コンピュータ実施される方法は、ビデオを変換して表示する。或るシーンについて取得された入力ビデオがショットに分割される。類似ショットが順次合成されて対応するチェーンになる。次に、入力ビデオの各フレームがチェーン及びテンプレートに従ってレンダリングされて合成画像になる。
【選択図】図1
Description
本発明は、包括的にはビデオの処理に関し、特に、後にビデオをそのコンテキストに応じて再生するための処理に関する。
表示面、例えばテレビ、プロジェクタ及び端末画面は、物理的に大きく解像度が高くなってきているが、ビデオの表示方法はほとんど同じままである。通常は、小型表示面用に生成されたビデオが単に表示面全体を埋めるように拡大される。大型表示面の持つ特徴を最大限に活かす工夫はほとんどなされていない。
例えば、1920×1080画素を表示することができる高品位テレビ(HDTV)は、解像度が640×480画素の標準品位テレビ信号を受け取り、この低解像度のビデオを単に、高解像度の表示面を埋めるようにスケーリングする。
ビデオはフレームシーケンスから成り、これらのフレームは多くの場合、帯域幅要件及びメモリ要件を低減するために符号化及び圧縮される。各フレームは、前のフレーム又は次のフレームとは別個に表示される。
従来の装置が同一ビデオからの2つ以上のフレームを同時に表示することは決してない。
本発明は、入力ビデオを出力ビデオに変換する。入力ビデオは、通常表示面上に順次表示されるショットを含む。出力ビデオは、表示面の異なる領域に同時に並行して表示されるショットを含む。
ショットを選択する方法、ショットの長さ、及び前に表示されたショットの扱いは、入力ビデオのコンテキストに基づく。このコンテキストは、入力ビデオの内容及びカメラの動き、例えば、パニング又はズームを含み得る。
この方法でショットを表示することによって、ビデオのコンテキストをその提示に反映し、視聴体験を向上させる。
図1は、本発明により処理される入力ビデオ100を示す。図2は、本発明による、入力ビデオ100を処理して出力ビデオ261を生成する方法200を示す。図3は、出力ビデオの1つのフレーム300を示す。
通常、出力ビデオは、入力ビデオよりも実質的に高い解像度を有する。すなわち、出力ビデオは、大型表示面、例えばHDTVでの表示向けにフォーマットされる。しかし、入力ビデオと出力ビデオは、同一解像度を含む任意の適当な解像度を有し得ることを理解すべきである。
図1に示すように、入力ビデオ100は、1つ又は複数のシーン110を含み、各シーンが1つ又は複数の「ショット」120を含み、各ショットが1つ又は複数のフレーム130を含む階層構造を有する。ショットはショット境界121によって分離される。本発明は1つのシーンについて説明されるが、本発明は、任意数のシーンとそのいずれかに任意数のショットを含む任意のビデオに適用できることを理解すべきである。
本発明を説明する目的で、応用例において、ビデオは、2人の人物が互いに話し合っているシーンのものである。これはビデオにおいて非常に一般的なシーンである。通常、ショットは、2人の人物が話している最中にこの2人の間で交互に順次切り替わり、ショットは順次録画され表示面に表示される。両方の人物が同時に現れるような出力ビデオを生成し表示面に表示することが望ましい。
図2は、本発明による、ビデオ100を変換して表示する方法200を示す。先ず、ショット境界121を検出することによって、ビデオ100をショット120に分割210する。ショットを比較220して、類似ショット221の組を検出する。類似ショット221を合成230して、対応する「チェーン」231を形成する。
任意のステップにおいて、ビデオの動きベクトル101からカメラの動き241を推定240する。入力ビデオ100、チェーン231、及びカメラの動き241を用いて、シーンをレンダリング250し、画像251を生成する。これらの画像を順次並べて260、再生装置270、例えばテレビ又はパーソナルコンピュータを用いて表示することができる出力ビデオ261を生成する。
図6は、このプロセスを要約する。入力ビデオ100は、交互のショット(1、2、3、4)及び(A、B、C、D)を含む。各ショットの最後のフレーム601を小文字で示す。入力ビデオを解析して2本のチェーン231及び231’にする。チェーンのフレームを次に合成して合成画像251にする。なお、第1のチェーンの最初のショットの合成画像は、第2のチェーンのいずれのフレームも含まない。なおまた、以後のショットの合成画像は、前のショットの最後のフレームを、黒にフェードしていく静止フレームとして含む。
ビデオの分割
ショット境界121を検出することによってビデオをショット120に分割するいくつものプロセスが既知である。この方法は、画素の差異、符号化マクロブロック、及びエッジに基づくことができる(X.U.カベド(Cabedo)及びS.K.バッタチャルジー(Bhattacharjee)著「Shot Detection Tools in Digital Video」(Proc. of Non-linear Model Based Image Analysis 1998, Springer Verlag, pp 121-126, July 1998)、H.J.チャン(Zhang)等著「Automatic Partitioning of Full-Motion Video」(ACM Multimedia Systems, Vol 1, pp 10-28, 1993)、並びにR.リエンハルト(Lienhart)著「Comparison of Automatic Shot Boundary Detection Algorithms」(Image and Video Processing VII 1999, Proc. SPIE 3656-29, Jan. 1999))。
ショット境界121を検出することによってビデオをショット120に分割するいくつものプロセスが既知である。この方法は、画素の差異、符号化マクロブロック、及びエッジに基づくことができる(X.U.カベド(Cabedo)及びS.K.バッタチャルジー(Bhattacharjee)著「Shot Detection Tools in Digital Video」(Proc. of Non-linear Model Based Image Analysis 1998, Springer Verlag, pp 121-126, July 1998)、H.J.チャン(Zhang)等著「Automatic Partitioning of Full-Motion Video」(ACM Multimedia Systems, Vol 1, pp 10-28, 1993)、並びにR.リエンハルト(Lienhart)著「Comparison of Automatic Shot Boundary Detection Algorithms」(Image and Video Processing VII 1999, Proc. SPIE 3656-29, Jan. 1999))。
これらのプロセスは全て、隣接フレームを比較して、ショット境界を示す、フレーム間の大きな差異があるときを検出するという点で類似している。
本発明では、カラーヒストグラム211を使用することを好む。本発明では、入力ビデオ100のフレーム130毎にカラーヒストグラムを構築する。各ヒストグラムは、RGBの色成分毎に256個のビンを有する。本発明では、隣接フレームのヒストグラムを以下のように比較する。
3つの色成分のそれぞれについて、対応するビンの対の値間の絶対差を総和して、2フレーム間の赤、緑、及び青の合計差を得る。3つの合計差をそれぞれ、以前のN対のフレームのそれぞれの色の平均差と比較する。3色いずれかの差が、所定の閾値にその色の平均差を掛けた値よりも大きい場合、ショット境界121を検出する。符号化ビデオの誤差に対処するために、M個、例えば5個未満のフレームを含むショットは、直後のショットと合成する。
類似性についてショットを比較
本発明の例示的な話している人物のシーンのようなシーンは、通常、内容により論理的に関連するショットの連続シーケンスである(T.リン(Lin)、H.J.チャン著「Video Scene Extraction by Force Competition」(2001 IEEE Intl Conf on Multimedia and Expo, Aug 22-25, 2001)、L.チャオ(Zhao)等著「Video Shot Grouping Using Best-First Model Merging」(Proc. 13th SPIE symposium on Electronic Imaging - Storage and Retrieval for Image and Video Databases, Jan 2001)、並びにX.ルー(Lu)、Y.F.マー(Ma)、H.J.チャン及びL.ウー(Wu)著「An Integrated Correlation Measure for Semantic Video Segmentation」(2002 IEEE Intl Conf on Multimedia and Expo, Aug 26-29, 2002))。
本発明の例示的な話している人物のシーンのようなシーンは、通常、内容により論理的に関連するショットの連続シーケンスである(T.リン(Lin)、H.J.チャン著「Video Scene Extraction by Force Competition」(2001 IEEE Intl Conf on Multimedia and Expo, Aug 22-25, 2001)、L.チャオ(Zhao)等著「Video Shot Grouping Using Best-First Model Merging」(Proc. 13th SPIE symposium on Electronic Imaging - Storage and Retrieval for Image and Video Databases, Jan 2001)、並びにX.ルー(Lu)、Y.F.マー(Ma)、H.J.チャン及びL.ウー(Wu)著「An Integrated Correlation Measure for Semantic Video Segmentation」(2002 IEEE Intl Conf on Multimedia and Expo, Aug 26-29, 2002))。
ショットの類似度を比較するために、本発明では、上述のようなカラーヒストグラム211を使用することを好む。本発明では、現在のショットの最初のフレームを上述のように、以前のS個、例えば5個のショットの最後のN個のフレームと比較する。ショットが、前のショットの最後のフレームと類似したフレームで始まる場合、これらのショットは同一シーンに関連している可能性が高い。2つ以上のショットが類似したものである、すなわちそれらのショットが同一の人物、物体、又は背景を有することが分かったときは常にチェーン231を作成する。チェーンはいくつかのショットを含むことができ、チェーン中の類似ショットは時間的に連続している必要はない。
時間的に比較的近接して位置する、視覚的に類似するショットのチェーンを生成する任意の技法、又は技法の組み合わせが本発明に対応する。
類似ショットの合成
本発明では、類似ショットを合成することによって、対応するチェーン231を生成する。本発明の例として、2つのチェーンがある。1つのチェーンはすべて話している1人の人物の類似ショットであり、もう1つのチェーンはすべて話しているもう1人の人物の類似ショットである。3人の人物がいてもよく、その場合、チェーンは3つになることを理解すべきである。これらのチェーンは時間的に重複するため、本発明では、それらを出力ビデオ261の1つのシーンにまとめる。
本発明では、類似ショットを合成することによって、対応するチェーン231を生成する。本発明の例として、2つのチェーンがある。1つのチェーンはすべて話している1人の人物の類似ショットであり、もう1つのチェーンはすべて話しているもう1人の人物の類似ショットである。3人の人物がいてもよく、その場合、チェーンは3つになることを理解すべきである。これらのチェーンは時間的に重複するため、本発明では、それらを出力ビデオ261の1つのシーンにまとめる。
また、1つ以上のシーンがあってもよい。例えば、1つのシーンには2人の人物が、もう1つのシーンには3人の人物がいて、これらのシーンが交互に切り替わり、各シーンのショットが交互に切り替わる。この場合、チェーンは5つになる。
全てのショットがチェーンの一部となる必要はないことに留意すべきである。本発明はまた、各チェーンの開始ショット及び最終ショットを比較して、本明細書においてシーンと呼ぶ重複チェーンを判断する。シーンの最初のショットと最後のショットの間にあって、チェーンに含まれていないショットは、1つのショットを含むチェーンとしてそのシーンに追加する。
どのチェーンにも含まれず、1つのシーンの始まりと終わりの間にないショットは、オーファン(orphans)としてラベル付けする。連続するオーファンは合成してオーファンチェーンとする。両側をシーンで囲まれたオーファンは終端(trailing)チェーンに追加する。
カメラの動きの推定
MPEG規格に従って符号化されたビデオは、Pフレームに動きベクトル101を含む。動きベクトルからカメラの動きを推定するいくつかの技法が知られている(マウリツィオ・ピル(Maurizio Pilu)著「On Using Raw MPEG Motion Vectors To Determine Global Camera Motion」(Digital Media Department, HP Laboratories, HPL-97-102, August, 1997)、ライアン(Ryan)C.ジョーンズ(Jones)、ダニエル・デメントン(Daniel DeMenthon)、デビット(David)S.ドエルマン(Doermann)著「Building mosaics from video using MPEG motion vectors」(Language and Media Processing Laboratory, Institute for Advanced Computer Studies, University of Maryland, Technical Report: LAMP-TR-035/CAR-TR-918/CS-TR-4034, University of Maryland, College Park, July 1999))。これらの技法はすべて、像平面におけるカメラの動きをMPEG符号化ビデオの動きベクトルから推定する。
MPEG規格に従って符号化されたビデオは、Pフレームに動きベクトル101を含む。動きベクトルからカメラの動きを推定するいくつかの技法が知られている(マウリツィオ・ピル(Maurizio Pilu)著「On Using Raw MPEG Motion Vectors To Determine Global Camera Motion」(Digital Media Department, HP Laboratories, HPL-97-102, August, 1997)、ライアン(Ryan)C.ジョーンズ(Jones)、ダニエル・デメントン(Daniel DeMenthon)、デビット(David)S.ドエルマン(Doermann)著「Building mosaics from video using MPEG motion vectors」(Language and Media Processing Laboratory, Institute for Advanced Computer Studies, University of Maryland, Technical Report: LAMP-TR-035/CAR-TR-918/CS-TR-4034, University of Maryland, College Park, July 1999))。これらの技法はすべて、像平面におけるカメラの動きをMPEG符号化ビデオの動きベクトルから推定する。
カメラの移動を推定する他の技法は、特徴に基づく追跡(C.森本(Morimoto)及びR.シェラッパ(Chellappa)著「Fast 3D stabilization and mosaic construction」(Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, pages 660-665, 1997))、又は階層的な直接位置合わせ(イラニ(Irani)、P.アナンダン(Anandan)、及びS.スウ(Hsu)著「Mosaic based representations of video sequences and their applications」(Proceedings of the International Conference on Computer Vision, pages 22-30, 1995))、又はオプティカルフロー(L.テオドイソ(Teodoiso)及びW.ベンダー(Bender)著「Salient video stills: Content and context preserved」(Proceedings of the ACM Multimedia Conference, pages 39-46, 1993))を含む。
本発明では、MPEG−2規格に従って符号化された入力ビデオ100から直接、動きベクトルデータを解析することを好む。ショット中のフレーム毎に、全てのベクトルについてX方向及びY方向の両方における動きの分散を求める。分散が所定の閾値未満である場合、全ての動きベクトルの平均の動きを記録する。
言い換えれば、1つのフレームの動きベクトルのほとんどが全て多少とも同じ方向を指している場合、本発明では、カメラがその方向に移動していると仮定し、動きを記録する。変動が閾値を上回る場合、長さゼロのベクトルを記録する。
このようにして、ショット毎に、そのショットの各フレームに対応する1つのベクトルを有する平均ベクトルのリストを生成する。これらの、ビデオの各セグメントにつき1つのリストは、対応するショットのカメラパス241である。本発明では、これらのカメラパスを用いて、後述するような新規な方法で入力ビデオを表示面にレンダリングすることができる。
シーン画像のレンダリング
画像251をレンダリングするために、本発明では、入力として、入力ビデオ100、チェーン231、及びカメラパス241を有する。レンダリング250は、入力ビデオからの各フレームを受け取り、元フレーム、このフレームが一部を成すショット及びシーン、すなわちチェーン231のうちの1つ、及び任意で、そのフレームが一部を成すショットのカメラパス241を用いて新たな画像をレンダリングする。このステップの結果は、入力ビデオ中のフレーム数に等しい長さの画像シーケンスである。
画像251をレンダリングするために、本発明では、入力として、入力ビデオ100、チェーン231、及びカメラパス241を有する。レンダリング250は、入力ビデオからの各フレームを受け取り、元フレーム、このフレームが一部を成すショット及びシーン、すなわちチェーン231のうちの1つ、及び任意で、そのフレームが一部を成すショットのカメラパス241を用いて新たな画像をレンダリングする。このステップの結果は、入力ビデオ中のフレーム数に等しい長さの画像シーケンスである。
テンプレート
シーンリストの各シーンについて、そのシーンのフレームに最も適したレンダリングを選択するために、そのシーンの構造を所定のテンプレート262と比較する。構造とは、シーン中のチェーンの数及びパターン、シーン中にショットチェーンに含まれないショットがあること、チェーンの長さ、並びにシーンのチェーンの重なり量を意味する。
シーンリストの各シーンについて、そのシーンのフレームに最も適したレンダリングを選択するために、そのシーンの構造を所定のテンプレート262と比較する。構造とは、シーン中のチェーンの数及びパターン、シーン中にショットチェーンに含まれないショットがあること、チェーンの長さ、並びにシーンのチェーンの重なり量を意味する。
例示的なシーンの場合、2つの重複チェーンが各話者につき1つずつある。テンプレートは、そのシーンの特徴が、テンプレートによって提示される理想的なシーンに対する適合度に基づいて格付けされる。本方法は次に、シーンに対する適合度が最も高いテンプレートを用いて、入力ビデオのシーンの各フレームについて新たな画像をレンダリングする。
各テンプレートは先ずブランク画像を生成する。次に、入力ビデオからのフレームをブランク画像の領域にレンダリングし、おそらくは画像全体を埋める。次にこの画像を記録し、入力ビデオからの新たなフレームを画像の領域にレンダリングする。この次のフレームが描画される領域は前の領域と重複してもしなくてもよく、前の画像の内容は消去されてもされなくてもよい。
図3に示すように、例示的なシーンは話し合う2人の人物を含む。通常、ショットは、2人の話者が話している最中にこの2人の間で交互に順次切り替わる。本発明による、このシーンをレンダリングするテンプレートは、第1のチェーンからの各フレームを画像300の左側の領域301にレンダリングし、第2のチェーンからの各フレームを画像300の右側の領域302にレンダリングする。
結果として、話者が画像の左側と右側に現れる画像シーケンスが得られる。再生中、この画像シーケンスの視聴者は、左側領域又は右側領域の話し手(actively talking character)、及びもう一方の領域に静止フレームとして表示される聞き手を交互に見る。静止フレームは、その話者が話しているショットの最後のフレームに対応する。アクティブなショットが静止フレームと交互に切り替わる際に、フェード技法を用いることができる。例えば、左側のアクティブなショットの継続中、右側の静止フレームは徐々にフェードしていき、この右側の静止フレームが再びアクティブなショットになると、左側の領域は、徐々にフェードしていく静止フレームを表示することができる。
フェード技法に加えて、任意数の従来の画像フィルタリング技法を用いることができる。静止フレームは、彩度を徐々に下げることができる。すなわち、静止フレームは白黒画像に変化する。静止フレームはまた、ぼかす、画素化する、又はセピア調に変換することができる。
本発明の変形例において、テンプレートは、チェーンの各々におけるフレームに対して視線方向検出プロセスを用いることができる。アクセル・クリスチャン・バルクミン(Axel Christian Varchmin)、ロバート・レイ(Robert Rae)、ヘルガ・リッテル(Helge Ritter)著「Image Based Recognition of Gaze Direction Using Adaptive Methods」(Lecture Notes in Computer Science, Volume 1371, Jan 1998, Page 245)を含む、画像中の顔の視線方向を推定するいくつかの技法が知られている。このようなプロセスは、図3の女性が右を向いていること、及び図3の男性が左を向いていることを認識する。次に、この2人の人物が向かい合って見えるように、チェーンのフレームを合成することができる。
図4に示すように、テンプレートは、入力ビデオのショットのフレームをレンダリングする出力画像の領域を動画化するように設計することができる。この動画化は、時間、すなわちショットの長さを考慮することができる。図4は、テンプレートによって生成される4つの連続する出力画像401、402、403、404を示す。このシーンをレンダリングするために用いられるテンプレートは、第1のチェーンの第1のショットからの各フレームを動画化領域410、411、412にレンダリングする。なお、これらの領域は、動画の効果を与えるためにサイズ及び位置が変わる。第1のチェーンの最後のフレーム413は、画像404の左側に静止フレームとしてレンダリングされ、フレーム414は、以後の出力画像の右側の領域にレンダリングされる。領域のサイズ及び位置を変えるだけでなく、テンプレートは、領域を歪め、回転させ、その境界を反映させることができる。
図5に示すように、テンプレートは、カメラパス502に従って出力画像500の領域501を動画化することができる。この例において、走者は初め、ショットの最初のフレームの左上に現れる。走者が近づくにつれて、カメラは走者を追うようにパン及びズームする。したがって、カメラパスに従って動画化するために、入力ビデオからのフレームをレンダリングするために用いられる出力画像の領域は、左上から右下に移動するにつれてサイズが大きくなる。図7は、いくつかの例示的なテンプレートを示す。
レンダリングした画像を出力ビデオに合成
レンダリングした画像251を順次並べて260、出力ビデオ261を生成する。上記のように、各画像は、同時におそらくは動画化して表示される1つ又は複数のフレームを含み得る。出力ビデオは、MPEG−2規格に従って記録される。合成260はまた、入力ビデオ100からの音声トラック102を挿入する。この音声トラックは、レンダリングに従って同期される。
レンダリングした画像251を順次並べて260、出力ビデオ261を生成する。上記のように、各画像は、同時におそらくは動画化して表示される1つ又は複数のフレームを含み得る。出力ビデオは、MPEG−2規格に従って記録される。合成260はまた、入力ビデオ100からの音声トラック102を挿入する。この音声トラックは、レンダリングに従って同期される。
出力ビデオ261は、従来のビデオ再生装置を用いて再生することができる。
本発明を好ましい実施の形態の例として説明してきたが、本発明の精神及び範囲内で様々な他の適応例及び修正例を実施できることが理解される。したがって、添付の特許請求の範囲の目的は、本発明の真の精神及び範囲に入るそのような変形例及び修正例をすべて網羅することである。
Claims (23)
- コンピュータ実施される、ビデオを変換して表示する方法であって、
或るシーンについて取得された入力ビデオをショットに分割すること、
前記ショットを比較することにより類似ショットを判定すること、
類似ショットを対応するチェーンに合成すること、
前記入力ビデオのフレーム毎に前記チェーン及びテンプレートに従って合成画像をレンダリングすること、
前記合成画像を出力ビデオに順次並べること
を含む、コンピュータ実施される、ビデオを変換して表示する方法。 - 前記出力ビデオを表示面上で再生することをさらに含む、請求項1に記載の方法。
- 前記入力ビデオは、前記入力ビデオのフレーム毎にカラーヒストグラムを用いて分割される、請求項1に記載の方法。
- 前記出力ビデオの解像度は、前記入力ビデオの解像度よりも実質的に高い、請求項1に記載の方法。
- 前記入力ビデオは、話している第1の人物の第1のショットと話している第2の人物の第2のショットを含み、前記テンプレートは、前記第1のショットのフレームを前記合成画像の第1の領域に、前記第2のショットのフレームを前記合成画像の第2の領域に同時にレンダリングするように設計される、請求項1に記載の方法。
- 前記第1のショットの静止フレームは、前記第2の人物が話しており、前記第2の人物のフレームが前記第2の領域にレンダリングされているとき、前記第1の領域にレンダリングされ、前記第2のショットの静止フレームは、前記第1の人物が話しており、前記第1の人物のフレームが前記第1の領域にレンダリングされているとき、前記第2の領域にレンダリングされる、請求項5に記載の方法。
- ショット境界を検出することにより前記入力ビデオを分割することをさらに含む、請求項1に記載の方法。
- 前記入力ビデオのフレーム毎にカラーヒストグラムを構築すること、
隣接フレームの前記カラーヒストグラムを比較することにより、類似フレームを判定すること、
類似フレームを対応する類似ショットに合成すること
をさらに含む、請求項1に記載の方法。 - 直後のショットと重複するフレームが所定数未満であるショットを合成することをさらに含む、請求項8に記載の方法。
- 前記カラーヒストグラムは、前記類似ショットを判定するために用いられる、請求項8に記載の方法。
- 現在のショットの第1のフレームの前記カラーヒストグラムを以前のショットの所定数の最後のフレームの所定数の前記カラーヒストグラムと比較することにより前記類似ショットを判定することをさらに含む、請求項10に記載の方法。
- 前記チェーンは重複する、請求項1に記載の方法。
- 前記入力ビデオにおけるカメラの動きを推定すること、
前記フレームを前記カメラの動きに従って前記合成画像にレンダリングすること
をさらに含む、請求項1に記載の方法。 - 前記カメラの動きは、前記入力ビデオ内の動きベクトルから推定される、請求項13に記載の方法。
- 選択される画像は複数の領域を含み、選択されるチェーンにそれぞれ1つの領域があり、
前記選択されるチェーンからのフレームを対応する前記領域に同時にレンダリングすることをさらに含む、請求項1に記載の方法。 - 前記テンプレートは、前記ビデオの構造に基づき、前記構造は、前記チェーンの数及びパターン、前記チェーン中のショットの数、前記チェーンの長さ、及び前記チェーンの重なり量を含む、請求項1に記載の方法。
- 前記静止フレームをフェードすることをさらに含む、請求項6に記載の方法。
- 前記静止フレームの彩度を徐々に下げることをさらに含む、請求項6に記載の方法。
- 前記静止フレームをぼかすことをさらに含む、請求項6に記載の方法。
- 前記静止フレームを画素化することをさらに含む、請求項6に記載の方法。
- 前記静止フレームをセピア調に変換することをさらに含む、請求項6に記載の方法。
- 前記ショット中の人物の視線方向に従って前記領域を並べることをさらに含む、請求項15に記載の方法。
- 前記領域を動画化することをさらに含む、請求項15に記載の方法。
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US11/102,116 US7526725B2 (en) | 2005-04-08 | 2005-04-08 | Context aware video conversion method and playback system |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2006314090A true JP2006314090A (ja) | 2006-11-16 |
Family
ID=37083238
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2006104253A Pending JP2006314090A (ja) | 2005-04-08 | 2006-04-05 | コンピュータ実施される、ビデオを変換して表示する方法 |
Country Status (2)
Country | Link |
---|---|
US (1) | US7526725B2 (ja) |
JP (1) | JP2006314090A (ja) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2011217374A (ja) * | 2010-03-31 | 2011-10-27 | Polycom Inc | 会議出席者間の相互作用に従ってcp配置を適合させるための方法およびシステム |
Families Citing this family (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7075683B1 (en) * | 1999-02-15 | 2006-07-11 | Canon Kabushiki Kaisha | Dynamic image digest automatic editing system and dynamic image digest automatic editing method |
US8704833B2 (en) | 2007-06-06 | 2014-04-22 | Apple Inc. | Method and apparatus for displaying a video signal on a computer system |
US20090150570A1 (en) * | 2007-12-07 | 2009-06-11 | Bo Tao | Sharing Assets Between UPnP Networks |
US20090150481A1 (en) * | 2007-12-08 | 2009-06-11 | David Garcia | Organizing And Publishing Assets In UPnP Networks |
US8433993B2 (en) * | 2009-06-24 | 2013-04-30 | Yahoo! Inc. | Context aware image representation |
US9111582B2 (en) * | 2009-08-03 | 2015-08-18 | Adobe Systems Incorporated | Methods and systems for previewing content with a dynamic tag cloud |
US9271035B2 (en) * | 2011-04-12 | 2016-02-23 | Microsoft Technology Licensing, Llc | Detecting key roles and their relationships from video |
US8724701B1 (en) * | 2011-04-18 | 2014-05-13 | Google Inc. | Using object decomposition to improve the selection of example-based predictors |
US9219880B2 (en) * | 2014-02-19 | 2015-12-22 | International Business Machines Corporation | Video conference window activator |
Family Cites Families (30)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5459830A (en) * | 1991-07-22 | 1995-10-17 | Sony Corporation | Animation data index creation drawn from image data sampling composites |
US5657402A (en) * | 1991-11-01 | 1997-08-12 | Massachusetts Institute Of Technology | Method of creating a high resolution still image using a plurality of images and apparatus for practice of the method |
US5859663A (en) * | 1994-09-15 | 1999-01-12 | Intel Corporation | Audio control system for video teleconferencing |
EP0711078B1 (en) * | 1994-11-04 | 2002-05-15 | Matsushita Electric Industrial Co., Ltd. | Picture coding apparatus and method |
US5956026A (en) * | 1997-12-19 | 1999-09-21 | Sharp Laboratories Of America, Inc. | Method for hierarchical summarization and browsing of digital video |
US6278446B1 (en) * | 1998-02-23 | 2001-08-21 | Siemens Corporate Research, Inc. | System for interactive organization and browsing of video |
US6266068B1 (en) * | 1998-03-13 | 2001-07-24 | Compaq Computer Corporation | Multi-layer image-based rendering for video synthesis |
US6154771A (en) * | 1998-06-01 | 2000-11-28 | Mediastra, Inc. | Real-time receipt, decompression and play of compressed streaming video/hypervideo; with thumbnail display of past scenes and with replay, hyperlinking and/or recording permissively intiated retrospectively |
US6278466B1 (en) * | 1998-06-11 | 2001-08-21 | Presenter.Com, Inc. | Creating animation from a video |
KR100313713B1 (ko) * | 1998-12-18 | 2002-02-28 | 이계철 | 화소샘플링을이용한시각율동생성방법 |
US6870573B2 (en) * | 1999-01-22 | 2005-03-22 | Intel Corporation | Method and apparatus for dynamically generating a visual program summary from a multi-source video feed |
US6996171B1 (en) * | 1999-01-29 | 2006-02-07 | Sony Corporation | Data describing method and data processor |
US6744922B1 (en) * | 1999-01-29 | 2004-06-01 | Sony Corporation | Signal processing method and video/voice processing device |
US6807306B1 (en) * | 1999-05-28 | 2004-10-19 | Xerox Corporation | Time-constrained keyframe selection method |
KR100357261B1 (ko) * | 1999-12-30 | 2002-10-18 | 엘지전자 주식회사 | 멀티미디어 데이터의 의미적/구조적 정보 생성방법 및 그 정보의 기록매체와 멀티미디어 검색 및 브라우징 방법 |
US6636220B1 (en) * | 2000-01-05 | 2003-10-21 | Microsoft Corporation | Video-based rendering |
US6785421B1 (en) * | 2000-05-22 | 2004-08-31 | Eastman Kodak Company | Analyzing images to determine if one or more sets of materials correspond to the analyzed images |
US20020051077A1 (en) * | 2000-07-19 | 2002-05-02 | Shih-Ping Liou | Videoabstracts: a system for generating video summaries |
US20040125124A1 (en) * | 2000-07-24 | 2004-07-01 | Hyeokman Kim | Techniques for constructing and browsing a hierarchical video structure |
US6964021B2 (en) * | 2000-08-19 | 2005-11-08 | Lg Electronics Inc. | Method and apparatus for skimming video data |
US6665450B1 (en) * | 2000-09-08 | 2003-12-16 | Avid Technology, Inc. | Interpolation of a sequence of images using motion analysis |
JP2005506643A (ja) * | 2000-12-22 | 2005-03-03 | ミュビー テクノロジーズ ピーティーイー エルティーディー | メディアプロダクションシステムとその方法 |
US6567536B2 (en) * | 2001-02-16 | 2003-05-20 | Golftec Enterprises Llc | Method and system for physical motion analysis |
US6904159B2 (en) * | 2001-12-20 | 2005-06-07 | Mitsubishi Electric Research Laboratories, Inc. | Identifying moving objects in a video using volume growing and change detection masks |
JP2004038746A (ja) * | 2002-07-05 | 2004-02-05 | Toshiba Corp | 画像編集方法および画像編集システム |
US7177470B2 (en) * | 2002-11-13 | 2007-02-13 | Koninklijke Philips Electronics N. V. | Method of and system for detecting uniform color segments |
US7343289B2 (en) * | 2003-06-25 | 2008-03-11 | Microsoft Corp. | System and method for audio/video speaker detection |
US20050058431A1 (en) * | 2003-09-12 | 2005-03-17 | Charles Jia | Generating animated image file from video data file frames |
JP4166707B2 (ja) * | 2004-01-20 | 2008-10-15 | パイオニア株式会社 | 映像内容認識装置、録画装置、映像内容認識方法、録画方法、映像内容認識プログラム、および録画プログラム |
US7469074B2 (en) * | 2004-11-17 | 2008-12-23 | Lexmark International, Inc. | Method for producing a composite image by processing source images to align reference points |
-
2005
- 2005-04-08 US US11/102,116 patent/US7526725B2/en not_active Expired - Fee Related
-
2006
- 2006-04-05 JP JP2006104253A patent/JP2006314090A/ja active Pending
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2011217374A (ja) * | 2010-03-31 | 2011-10-27 | Polycom Inc | 会議出席者間の相互作用に従ってcp配置を適合させるための方法およびシステム |
Also Published As
Publication number | Publication date |
---|---|
US20060228048A1 (en) | 2006-10-12 |
US7526725B2 (en) | 2009-04-28 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US7526725B2 (en) | Context aware video conversion method and playback system | |
US10956749B2 (en) | Methods, systems, and media for generating a summarized video with video thumbnails | |
US10367997B2 (en) | Enriched digital photographs | |
TWI253860B (en) | Method for generating a slide show of an image | |
JP4981128B2 (ja) | 映像からのキーフレーム抽出 | |
US8421871B2 (en) | Method and apparatus for image pickup and image processing | |
JP4885982B2 (ja) | ビデオ・フレームからキー・フレームを選択すること | |
US7904815B2 (en) | Content-based dynamic photo-to-video methods and apparatuses | |
US20050232588A1 (en) | Video processing device | |
JP2009539273A (ja) | ビデオクリップからのキーフレーム候補の抽出 | |
JP2001285712A (ja) | Mpeg圧縮ビデオ環境でのディゾルブ/フェード検出方法 | |
KR20060135667A (ko) | 이미지 포맷 변환 | |
JP2010039877A (ja) | 要約コンテンツ生成装置および要約コンテンツ生成プログラム | |
Teodosio et al. | Salient stills | |
US10555036B2 (en) | Transfer viability measurement system for conversion of two-dimensional content to 360 degree content | |
JP2008166895A (ja) | 映像表示装置及びその制御方法、プログラム、記録媒体 | |
Lie et al. | News video summarization based on spatial and motion feature analysis | |
JP5070179B2 (ja) | シーン類似判定装置、そのプログラム及びサマリ映像生成システム | |
JP2000261757A (ja) | 編集用映像区間分類方法及び装置、並びにこの方法を記録した記録媒体 | |
JP2011243156A (ja) | 映像変換装置,文書変換装置,映像変換方法,文書変換方法,映像変換プログラムおよび文書変換プログラム | |
JP4881045B2 (ja) | 動画生成装置、動画生成方法、及びプログラム | |
Lavigne et al. | Automatic Video Zooming for Sport Team Video Broadcasting on Smart Phones. | |
Forlines | Content aware video presentation on high-resolution displays | |
JP4934066B2 (ja) | 情報生成装置、情報生成方法及び情報生成プログラム | |
JP2014175739A (ja) | 動画処理装置 |