JP5534798B2 - 映像を時間的に編集する方法 - Google Patents

映像を時間的に編集する方法 Download PDF

Info

Publication number
JP5534798B2
JP5534798B2 JP2009287789A JP2009287789A JP5534798B2 JP 5534798 B2 JP5534798 B2 JP 5534798B2 JP 2009287789 A JP2009287789 A JP 2009287789A JP 2009287789 A JP2009287789 A JP 2009287789A JP 5534798 B2 JP5534798 B2 JP 5534798B2
Authority
JP
Japan
Prior art keywords
pixels
image
cost
video
pixel
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2009287789A
Other languages
English (en)
Other versions
JP2010238221A (ja
Inventor
マッシュー・イー・ブランド
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Mitsubishi Electric Research Laboratories Inc
Original Assignee
Mitsubishi Electric Research Laboratories Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Priority claimed from US12/413,744 external-priority patent/US8290298B2/en
Application filed by Mitsubishi Electric Research Laboratories Inc filed Critical Mitsubishi Electric Research Laboratories Inc
Publication of JP2010238221A publication Critical patent/JP2010238221A/ja
Application granted granted Critical
Publication of JP5534798B2 publication Critical patent/JP5534798B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Processing Or Creating Images (AREA)
  • Image Processing (AREA)
  • Television Signal Processing For Recording (AREA)

Description

この発明は、一般には画像処理関し、また、さらに詳細には、ビデオ(映像)を異なる時間長へ編集することに関する。
この一部継続出願は、参照により本明細書に組込まれる、2009年1月20日に出願されたマシュー・ブランド(Matthew Brand)による正規の出願(番号12/356,398で名称「Method for Editing Images and Videos」(画像および映像を編集するための方法))に関する。
印刷および表示装置の多様性と汎用性はマルチメディアコンテンツのデザイナにレンダリングおよびビューイング(視聴)に対する要求を課する。たとえば、デザイナはウェブコンテンツに異なる選択肢を提供しなければならないし、また、選択メニューや、小さな低解像度の携帯電話スクリーンや、僅かに大きなPDAスクリーンなどでしばしば見られる画像の小さな「サムプリント(指紋程度の大きさの版)」から、大きな高解像度の細長い平面パネルディスプレイやプロジェクタスクリーンまで、異なるレンダリングアプリケーションやデバイス用に異なるレイアウトを設計しなければならない。もともと意図されたものと異なるレンダリングアプリケーションやデバイスに画像を適応させることは、画像リターゲティング(再標識化)と呼ばれる。
従来のリターゲティングによる画像編集は、典型的には、スケーリングとトリミングとを必要とする。イメージスケーリングは、画像コンテンツを無視し、また典型的には、単に一様に適用することができるのみなので、不十分である。また、スケーリングも、視覚的な歪みを導入するので、画像のアスペクト比が変わる必要がある場合には、うまくいかない。トリミングは、画像周囲からピクセルを取り除くことができるだけなので、制限されている。より有効なサイズ変更は、出力装置の幾何学的な制約と共に、画像コンテンツを全体として考慮することによりのみ達成されるかもしれない。
画像をサイズ変更している間、画像のコンテンツ中で重要な特徴を維持しながら画像のサイズ(大きさ)を変更したいという希望がある。これはトップダウン法またはボトムアップ法で行うことができる。トップダウン法は、画像の重要な領域を発見するためにフェース(顔)検出器のようなツールを使用する。しかし、ボトムアップ法は、ソース画像の視覚的な顕著性(特徴)マップを構築する視覚的顕著性方法に依存する。顕著性マップが構築された後、画像の最も重要な領域を表示するために、トリミングを使用することができる(たとえば、特許文献1、特許文献2参照)。
他の編集方法は画像輪郭に基づくことができる。画像の輪郭を検出するために、離散型プログラミングを使用することができる(たとえば、非特許文献1参照)。
画像編集のためのそのような輪郭の使用は知的な鋏を端緒とする(たとえば、非特許文献2参照)。
また、テクスチャー合成における新しいピクセル隣接を構成するために、たとえば、非特許文献3、非特許文献4を参照。
アフロス外およびクワトラ外(Efros et al.and Kwatra et al.)は、画像に最小の差異があるところの輪郭を使用する。すなわち、これらは継ぎ目と呼ばれる。
アビダン他(Avidan et al.)(上記特許文献1を参照)は、1列または1行だけ画像を狭くするために、低コントラストの画像にまたがる継ぎ目に沿ってピクセルをカービングする(切り取る)ことを記述している。このように繰り返し行うことにより、非常に人目を引く(印象的な)アニメーションが生み出される。歪みに対するペナルティはないが、継ぎ目(シーム)がフォアグラウンド(前景)シーンオブジェクトを横断しない場合、これらのオブジェクトはそのままにして置かれる。この方法は非常に簡単で速い。
しかしながら、シームカービングは画像輪郭をしばしば歪めて破損する。継ぎ目は目的画像の大きさに対して最適ではない。また、貪欲な順次型戦略は、映像に対する使用を妨げる。ルーベンシュタイン他(Rubenstein et al)(上記特許文献2)は、映像を扱うグラフーカット・リフォーメーションを使用するが、オプティマイザは非実用的に遅く、まだ貪欲な継ぎ目の削除に制限されている。
別の方法は、複数のピクセルを一緒にスクウィーズ(圧搾)した1次または2次のペナルティについて記述する(たとえば、非特許文献5参照)。
2次のバージョンは、平面でグラフの重みを加えたタトル埋め込み(Tutte embedding)を与えるのと同じスパース(疎)最小自乗法によって解決される(たとえば、非特許文献6参照)。
しかしながら、その方法は、画像の領域が反転して他の領域上にオーバラップ(重畳)する、すなわち、ピクセル順序が必ずしも保存されない、という望ましくない埋め込み「カタストロフィ(突発的破局)」を受けやすい。
画像編集も、1つの画像を複数のセグメントに区分し、そしてそれらのセグメントを再構成することにより行うことができる(たとえば、非特許文献7、非特許文献8、非特許文献9参照)。
他の画像編集機能は、オブジェクトを削除したり、オブジェクトを画像または映像へ加えたりすることを含んでいる。
米国特許7,477,800、Avidan et al., 米国特許出願PCT/US08/83252、Rubenstein et al.,
Montanari、「On the optimal detection of curves in noisy pictures(ノイズの多い画像における曲線の最適な検出に関して)」、Communications of the ACM,14(5):335−345、1971 Mortensen et al.,「 Intelligent Scissors(知的な鋏)」、Proc SIGGRAPH、1995 Afros et al.,「Image Quilting for Texture Synthesis and Transfer(テクスチャー合成および転写のための画像キルティング)」、Proc.SIGGRAPH、2001、Kwatra et al., 「Image and Video Synthesis Using Graph Cuts(グラフカットを使用する画像およびビデオ合成)」、Proc.SIGGRAPH、2003 Wolf et al.,「Non−Homogeneous content−driven video−retargeting(非一様なコンテンツ駆動型のビデオ・リターゲティング)」、Proc.ICCV、2007 Tutte、「How to draw a graph(グラフの描き方)」、Proc.London Mathematical Society(ロンドン数学会)、13(1):743−767、1963 Setlur et al.,「Automatic image retargeting(自動的な画像リターゲティング)」、Proc.Mobile and Ubiquitous Multimedia(モバイルおよびユビキタスマルチメディア)、2005 Simakov et al.,「Summarizing visual data using bidirectional similarity(双方向類似性を使用して画像データを要約する)」、Proc.CVPR Cho et al.,「The Patch Transform and its Applications to Image Editing(パッチ変換およびその画像編集への応用)」、CVPR、2008
従来の方法は、上記特許文献1のシームカービングでは、画像輪郭をしばしば歪めて破損する。継ぎ目は目的画像の大きさに対して最適ではない。また、貪欲な順次型戦略は、映像に対する使用を妨げる。
上記特許文献2では、映像を扱うグラフーカット・リフォーメーションを使用するが、オプティマイザは非実用的に遅く、まだ貪欲な継ぎ目の削除に制限されている。
非特許文献5、6の方法では、画像の領域が反転して他の領域上にオーバーラップ(重畳)する、すなわち、ピクセル順序が必ずしも保存されない、という望ましくない埋め込み「カタストロフィ(突発的破局)」を受けやすい。
この発明は、ピクセルを移動、削除、挿入、修正するようなアクション(動作)により、画像および映像を編集する方法を提供する。ユーザは、出力画像中で幾つかのピクセルに対して希望の場所および(または)値を指定し、また、本方法は、画像のコンテンツへの最小のアーティファクトおよび歪み有する出力に帰着する他のすべてのピクセルに対する編集を見つけ出す。
たとえば、ユーザは、映像に対する新しい時間長を指定してもよい。この場合、本方法は、その望ましい長さに到達するのに適切なところで、画像を短縮したり伸長したりするために、ピクセルを微細に再配置する。
1組のピクセルがその画像内の新しい時間へ移されるべきであることをユーザが指定すれば、本方法は移動されたピクセルのまわりのピクセルを削除および埋めてその変更が自然に見えるようにする。本方法は、画像を複数のピクセル組へ分割し、各組に対して可能な複数の編集のグラフを構築し、それらの編集の最も顕著でないシーケンスを表わすグラフを通るパスを見つけて、出力を生成するためにそれらの編集を適用する。
この発明によれば、ピクセルを移動、削除、挿入、修正するようなアクション(動作)により画像および映像を編集する方法を得ることができる。
この発明の実施の形態による、出力画像を生成するために入力画像を編集するための方法のフローチャートである。 図1Aの本方法によって使用されるトレリス(格子)である。 図1Aの本方法によって使用されるトレリス(格子)である。 図1Aの本方法によって使用されるトレリス(格子)である。 図1Aの本方法によるバックプロバゲーション(逆伝播法)格子を備えたビデオボリュームのブロック図である。 時間的ドメイン内でダーティングを示すボリュームのブロック図である。 この発明の実施の形態による時間的なダーティング方法のフローチャートである。 図1Aの本方法によって使用される挿入格子である。 図1Aの本方法によって使用される挿入格子である。 図1Aの本方法によって使用される混合挿入削除格子である。 この発明の実施の形態によるダーツを備えた画像例である。 入力画像例である。 この発明の実施形態による対応出力画像である。 従来の出力画像である。 この発明の実施の形態によるストレッチング前後の画像である。 この発明の実施の形態によるストレッチング前後の画像である。 削除用ピクセルのスラブを示すためのアクションマップの図である。 この発明の実施の形態による時間的ダーティングの前後の画像である。
実施の形態1.
図1A−1Bは、この発明の実施の形態による、出力画像102を生成するために入力画像101を編集するための方法を示す。本方法は、入力画像をサイズ変更された出力画像へ変形する。本方法のステップ(工程)はプロセッサ100内で行なわれる。画像編集は図1B−図7に示されるようなダイナミックプログラミング(DP)トレリス(格子)を使用する。
画像ダーティング(Image Darting)
ダーティング(darting:ダーツを形成すること)によって入力画像を編集することは、衣服を変更するために縫う際のダーティングに類似している。裁縫では、生地の小さな領域は、つまみ取られて折り目となり、ダーツ(縫い込み部分)を形成するために縫い閉じられ、それは局部的に衣服のサイズおよび(または)形状を変更する。折り目における必要な生地は、衣服の外観の変化を最小にするために裁断によって削除することができる。同様に、ダーツは衣服のサイズを増加させるために生地に挿入することができる。
同様に、画像ダーティングは、出力画像が入力画像と比較される場合、出力画像の外観の変化が最小化されながら、画像の局部的なサイズや形状が変更されるように、ピクセルの1つのダーツを局部的に削除したり或いは加えたり、また、そのダーツに隣接しているピクセル同士を近づくように或いは離れるように移動させる。
このようなダーティングのための方法が2次的プログラム(quadratic program:QP)として実行される場合、ピクセル同士も詰め込まれて、画像の部分を効果的にサイズ変更したり、「曲げる」たりすることになる。QPは、ギャップを残したり、ピクセルの水平方向或いは垂直方向のピクセル順序を変更したりせずに、出力画像が或る所定のサイズおよび形状となるように、全てのピクセルに対して新しい座標を出力するように強制される。QPの目的は、目に見えるアーティファクト、たとえば、新しく隣接するピクセルによって引き起こされたコントラストや、関連するピクセルがダーティング・オペレーション中に一緒に移動しない場合に生じる歪み、を最小化することである。
QPでは、補助変数はシヤー、画像輪郭に沿った2つのピクセル間の勾配の変化、輪郭に沿った3つのピクセル間の曲率の変化および公比の摂動のような歪みを検知するために定義される。そして、これらのイベントは目的関数中の1次(linear)或いは2次(quadratic)のペナルティを蒙りやすい。ダーティングの1つの利点は、他の従来の画像リターゲティング方式よりも、歪みが明確に特徴づけられ、最小化されるということである。
QPの構築の間の1つの工程はコストを凸状にする。ここに定義されるように、任意のセット(組)メンバx<y<zに対して、距離(x、z)c(y)≦距離(y、z)c(x)+距離(x、y)c(z)であれば、コスト関数c()は距離関数を有する或る順序のセット(組)で凸状である。
たとえば、周期的なテクスチャーのシヤーコスト自体は周期的であるが、QPはこのコストの上限を使用するが、それはシヤーのサイズが増大する凸状である。これは単一のグローバル(広域的)最適を保証する。このような凸状化をしなければ、局地的最適点の数は指数関数的に増大する場合がある。QPは希薄であるが、保存される像構造が多い程、より多くの補助変数が必要とされる。これと、本質的に連続的な凸状のソルバー(解法)への依存とは、多大な時間を必要とする。
2次のペナルティが必要でない場合、QPはリニア(1次)プログラム(LP)に単純化することができ、それは、画像歪上のL1ノルムを評価する。この実施の形態では、フル(完全)L1ノルム・ダーティング目的(コスト)関数は、画像走査線に沿ったダイナミックプログラミング(DP)および或るピクセル・グラフによって最小化される。本方法の1つの実施の形態は広域的最適を達成し、別の実施の形態は非凸状のコストを考慮する。別の実施の形態は、削除されたピクセル数には関係なく、1つのピクセル当たりのO(1)整数演算を使用するので、映像を編集するのに適している。
ダーティング
ダーティングは、1つの画像のサイズがたとえば水平に変更されるように、画像を編集する方法である。特に、最適な1組のピクセルが、画像の各走査ラインから削除および/または挿入される。削除されたピクセル或いは挿入されたピクセルはダーツを形成する。以後、ピクセルの削除に焦点が当てられる。ピクセルを挿入するための同様の処理が下記に述べられる。
ピクセルの削除は2つのローカル・コストを招く。それは、以前に連続していなかったピクセルをくっつける(接合する)という知覚インパクトを反映する。
走査ライン内の複数のピクセルを、通常それらの間に介在するピクセルの削除によって、接合するためのコストは、集合コストである。言いかえれば、集合コストは、現在のセット(組)内のピクセルを一緒にするように移動させることによるアーティファクトと歪みを表わす。
集合コストは、削除に関連したいかなるテクスチャーコスト、たとえば失われた画像エネルギー、をも組込むことができる。
ピクセルを異なる走査ラインから接触するように移動させるためのコストは、画像をシヤー(剪断)することが隣接する走査ラインにおける隣接ピクセルを変化させるので、シヤー(剪断)コストと呼ばれる。シヤーコストは、1つのピクセルを他のピクセルの組の中のピクセルに対して新しい位置へ相対的に移動させることによるアーティファクトと歪みを表わす。シヤーコストは、削除に関連したいかなる幾何学的なコスト、たとえば失われた輪郭品質、をも組込むことができる。シヤーコストは出力位置および以前に処理されたピクセルの値から決定することができる。
典型的には、集合コストは走査線のコンテンツによって決定され、また、シヤーコストは隣接した走査線中のダーツの組によって決定される。これらのコストが分かっている場合、興味のある走査線に対して1組の最小のコストの折り目は、ダイナミックプログラミング(DP)によって決定することができる。
当該技術分野では、ダイナミックプログラミングは、重複する下位の問題を有する問題および従来手法より非常に少ない時間しか要しない最適な下部構造を解決する方法である。「ダイナミックプログラミング」において「プログラミング」という語は、コンピュータプログラミングと何ら特別の関係を有さない。代わりに、その用語は、「数理計画法」(最適化の同義語)という用語から来ている。従って、「プログラム」とは、生成される最適な行動計画である。最適な下部構造、たとえば格子、は、全体的な問題の最適解を見つけるために下位の問題の最適解を使用することができることを意味する。たとえば、格子中の1つのノードへの最小のコスト経路は全ての隣接ノードからの該ノードへの経路(trellis)を最初に計算し、次に、最小のコスト経路を選択するためにこれを使用することにより見つけることができる。
一般的な編集方法
図1A−1Bで示されるように、入力イメージ101のピクセルは複数組のピクセル111に分割110される。その後、各組について、次の工程が行なわれる。
その区分は、ユーザ選択パラメーター、つまり各組に対して構築120された1つの格子122の帯域幅および周囲の寸法(大きさ:girth)、に依存して任意に行われうる。その格子は方向付けされたリンク126によって接続されたノード125を有する。その格子の両側(互いに対向する側)の角には、始端リンク122および終端リンク123がある。コスト132がノードおよびリンク131へ割り当て130られる。
その格子内の各ノードは、その組の中で1つのピクセルを表わし、また、画像編集のための1つのアクション、たとえば移動、削除、挿入、修正、と出力画像中のそのピクセルに対する1つの位置とに対応付けられる。図1Bの格子例は、(p+r=14)のピクセルの走査線から(r=4)のピクセルを取り除くためのものである。その格子内の各コラム(列)はその結果内のコラムに対応する。上向きの対角線のリンクはピクセル削除に対応する。各ノードは関連するシヤーコスト133を有する。各対角線のリンク102は関連する集合コスト134を有する。
1つの走査線の始めか終わりに1つの新しいピクセルを置くことは、元のピクセルの色を変更することと知覚的に等価であるため、開始ノードおよび終了ノードに接続されたリンクは色変更コスト135を有する。全てのノードは固有(一意)のコストを有するが、反対角線(counter−diagonals)、すなわち勾配ー1の線、の上のノードは異なる位置で同じピクセルを表し、従ってそれらから出て行くリンク上で同一の集合コストを有する。
一般に、DP格子は次の形式を有する。ノードはグリッド上に配列される。列i、行jのノード、は、ピクセルが入力画像の列i+jー1から出力画像の列iにコピーされるイベントを表わす。
このノードを通る経路141はそのイベントのシヤーコストを招く。ノードi、jは、k>jである全てのノードi+1、kにリンクされる。k>jの場合、このリンクを通る経路は、k−j(kからjまで)のピクセルを削除することによりピクセルi+j−1をピクセルi+kの隣にする集合コストを招く。
最初の列の全てのノードは、最初のピクセルをj番目のピクセルに取り替えることがどれくらい知覚可能であるかを表すリンクコスト付きで、開始ノード132に接続される。同様に、最後の列の全てのノードは、最後の列のピクセルを変更するためのコスト付きで、終了ノード133に接続される。
格子上のDPは、最小コストの経路141を決定140する。その後、入力画像からのピクセルは、最小コストの経路の上のノードによって指定された位置で出力画像へ複製150される。
最適性および凸状
本方法は、格子を通る最小コストの経路を見出すために、ミニ−プラス(min−plus)ダイナミックプログラミングを使用する。ミニ−プラス(min−plus)代数では、従来の代数の算術加算は点別最小化に置き換えられ、また、算術乗算は点別加算に置き換えられる。ミニ−プラス(min−plus)DPの性能は、ピクセル数において1次的(線形)であり、削除の数において2次的である。
図2−図3は、時間複雑性がピクセル数において1次的であり、また1行当たりのピクセル削除の数とは無関係であるように、格子の大きさ(girth)(g)およびリンク帯域幅(f)をコントロールする方法を示す。実際上、そのような格子上のダイナミックプログラミングは、出力ピクセル当たりの少数の整数演算となる。多数の効率が可能であり、たとえば、1つは明確に格子を構築もせずに(すなわち、格子は暗黙に知られている)、最適経路を計算することができる。
図2は、各ダーツから削除することができるピクセルの数fを2(すなわちf=2)へ制限する格子を示す。これは格子の帯域幅を縮小する。帯域幅はノードの2つの列の間のリンクの数である。
図3は、格子がf=2の最大のダーツ幅を有する格子に対して、周囲の大きさg=4にトリミングされることを示す。その格子の大きさは、格子の任意の列のノードの最大値である。大きさを制限することは、画像中のダーツの濃度(集中度)を制限し、画像を横切って広がることをダーツに強いる。周囲の大きさの制限はまた帯域幅をも制御する。fとgの両方が希望されるピクセル編集の総数に依存しない場合、DPの実行時間は厳密に1次(線形)である。
隣接する1組のピクセルを削除するコストがその組のサイズにおいて凸状である場合、グローバル(広域的)な問題、すなわち全ての走査線の共同のダーティング、もまた、連続的な座標においてではあるが、線形性により、凸状である。上述のように、この共同のダーティングの問題は等価な1次(線形)プログラム(LP)として記載することができる。
DP格子は、分数のピクセル位置に対処するために、たとえば、半分のピクセルおよびピクセル値の混合によって拡張することができる。各走査線DPが、そのシヤーコストが変わる毎に、隣接した走査線におけるアップデートにより更新される方式について検討する。これは、本質的に、等価なLP多面体の部分空間内における最適な整数値化された移動であり、その部分空間は走査線に関連した全てのLP変数に亘っている。任意の部分空間内における真に最適な移動は分数的かもしれないが、LP制約および目的関数は全て有界値の整数係数を含んでいるので、このような分数は限定された精度で記述することができる。
従って、DPが小さな有限レベルの分数精度に拡張される場合、そのような反復が広域的最適に収束し、また、より低いレベルの分数精度については、そのような反復は近似最適で早期に終了することになる。
精度はまた、保護された画像構造に関する情報が遠い(離れた)走査線間を往復して伝播する割合(速度)、従って更新が最適に達する割合、を決定する。
以下に述べられる「2パス(通過)」ソリューション(解法)は、この遠隔情報をDPの前に効率的に伝播して、高品質の結果を生む、速い非反復的で非分数的方法を生み出す。
そのコストは非凸状であり、最大の単一のダーツより狭い、顔の画像内のそばかすのようなテクスチャー「アイランド」は不注意に削除されることがある。凸状のコストはそのような削除に強いペナルティを課する。従って、コストを凸状にすることが殆どのアプリケーションにおいて望ましい。
コストシーケンス(順序)[c、c、・・・]で最も厳しい凸状の減少しない上限[c’、c’、・・・]が、c’=max(c、c’i−1、c’i−2)によって与えられる。これは、そのコスト差のシーケンスを減少しないようにする。たとえば、シヤーコスト0、1、3、4、8のシーケンスはそれぞれ1、2、1、4の差を有する。また、シヤーコスト0、1、3、5および8の「凸状化」はそれぞれ1、2、2、3の差を有する。
コストの操作および編集の強制
単一のピクセルに対するシヤーコストを操作することによって、該ピクセルは、その上下のピクセル或いは出力画像内における特定の列のピクセル、に対して一定の関係を維持することができる。これは顔のような形状を維持するために使用することができる。同様に、集合コストは、或るピクセルが現われるか消えるようにするために操作することができる。選択的にピンで留めることは、画像輪郭が一定間隔で折り重ねられ、それによってその形状を維持することを保証するために使用されてもよい。或いはまた、1つの輪郭ピクセルに対するシヤーコストは、その輪郭の他の部分のダーツ化された(襞を付けられた)勾配と一致するような該ピクセルの配置を促進するように設定することができる。
より一般には、一連のピクセルを強制的にピンで留めたり、保存したり、或いは削除したりするためには、望まない削除に対応する格子リンクを単に省略すればよい。全ての場合に、格子を明示的に構築せずに、格子を通る最適経路を見つけることができるので、格子の影響を受けた部分を明確に構築する必要はない。
1パスソリューション
非常に速い1パスの方法では、1つは走査線を上から下まで、或いは中央の走査線を外側へ順次「折り重ねる」ことができる。各走査線のシヤーコストはその正当に折り重ねられた隣接走査線から来る。これは情報を外へ伝播するのみであるが、それは簡易画像では著しくうまくいく。
2パスソリューション
DPがグローバル(広域的)コストの上限を最適化し、その結果次の走査線におけるコストへの局部的な削除の影響をDPに効果的に考慮させるように、ローカル(局所的)コストを増大することにより、相当によい結果を得ることができる。
主な洞察は、現在の走査線内のピクセルの削除が、次の走査線DPのために、対応するピクセルを削除するか或いは近くのピクセルを剪断して削除することをDPに強いるということである。
最適原理の下では、DPは、局部的に最も安価な選択肢(代替案)を回避することにより、他の位置でより大きなコスト削減ができるならば、そのようにするだけである。従って、最も安価な選択肢が、次の走査線におけるコストへの単一の削除の影響の上限を与える。この議論を最終走査線から現在の走査線に戻って再帰的に適用することにより、局部的なピクセル削除が画像ダーティングに対して総コストをどれほど増加させうるかについての上限が与えられる。
この上限は、効率的なmin−plusアキュミュレーション(累算)における全てのピクセルに対して計算することができる。1つの走査線内の1つのピクセルの削除コストは、次の走査線内の最小のシヤープラス増大された削除コスト(shear−plus−augmented−deletion cost)で増大される。或る次の走査線では、オブジェクトの境界が剪断されるか折り重ねられるので、この増大は、DPが前景シーンオブジェクトの内部で、たとえば顔の滑らかな頬の上で、ダーツを始めることを防止する。
厳密に言えば、LP目的関数内の何も、走査線と完全に平行になる入力画像においてハイコントラスト輪郭のダーティングを防止しない。たとえば、大きなピクセルにエイリアスされた円は、完全にフラット(平坦)である、トップおよびボトムでダーティングされるかもしれない。そのような振る舞いを回避するために、たとえばキャニーエッジ検出器等のエッジ検出器のレスポンスを、逆伝播中のピクセル削除コストに加えることができる。
凸状化されたコストでは、シヤーが小さな集合コストを有していても、高速に増大するコストがmin−plus DPにおける考察から大きなシヤーを素早く排除するので、min−plus逆伝播において小さなシヤーだけを考慮する必要がある。
映像
1パスおよび2パスソリューション(解法)は、3次元(X、YおよびT)における画像、すなわち映像、のダーティングに特に適している。各X走査線は時間的および空間的に前の走査線からシヤーコストを受け取り、従って、YおよびTにおける走査線の「ウェッジ」内の走査線は並列にダーティングされうる。1パスソリューションはストリームビデオをダーティングすることができる。すなわち、2パスが可能な場合には、逆伝播はよりよい結果を与えるであろう。ミニ−プラス(min−plus)逆伝播は、YおよびTの両方における後続走査線でプラスステップ(プラス工程)にmin効果の最大をとらせることにより、映像まで拡張される。
図4Aは、各XY面およびXT面の上の1つのピクセル402に対して図解されたミニ−プラス(min−plus)コスト逆伝播を備えたXYTビデオボリューム401を示す。この逆伝播は、全てのピクセルに亘って再帰的に計算され、YT面上に示されたデータフローパターン403を与える。YT面上の収束する(一点に集まる)矢線404は1つのマックス−プラス(max−plus)オペレーションを表し、そこでは、各ピクセルがY次元での後続ピクセルおよびT次元での後続ピクセルからそれぞれ1つのミニ・シヤープラス−削除・コスト(min shear−plus−deletion cost)を受け取り、その後、これらの2つのコストのより大きな方を該ピクセルのその削除コストへ加える。
実際には、コストの時間的に前後への伝搬は動き補償される。従って、ウェッジにおける走査線のうちの幾つかは、動き補償される前者(先行走査線)が処理されるまで、待たなければならないかもしれない。
ここで、前景オブジェクトが左から入り右に出ていく映像について検討する。ダーティングは、背景および前景テクスチャーの動き補償された歪みを最小化するピクセルを削除することにより、生ビデオを正確にリターゲティングする(新たな目標に向かわせる)ことができる。先行技術の方式では避けられない歪みを有する。いかなる継ぎ目も、前景ピクセルのボリュームと交差する、YTにおける接続された平面を形成しなければならないので、シームカービングは、他のフレームには手を加えずに、幾つかのフレーム内の前景オブジェクトを切り取らねばならない。非一様なリターゲティングは、あたかも背景が移動オブジェクトに付けられているゴムシートに描かれるかのように、オブジェクトの前方の背景を圧縮し、オブジェクトの後方の背景を復元する。
非矩形フレーム
ダーティング方法も、画像或いは映像をたとえば楕円形やハート形等の非矩形のフレームへリターゲティングするために、変更なしで使用することができる。
フレームの伸長
さらに、ピクセルの複製(あるいは補間)を示す下方へのリンクの延長された格子で、走査線の最適な伸長を計算することも可能である(図12−13を参照)。下方へのリンクは、画像内のテクスチャーが滑らかでないところで複製を思いとどまらせるようなコストを有する。たとえば、局所画像エネルギー或いは逆伝播されたエネルギーである。
図5は、8ピクセルの走査線を12ピクセルまで拡張するように設計された格子例を示す。単一画素の多数の複写という形のアーティファクトを回避するために、この格子は、偶数列の複製のみを許可する。
図6は、異なるコンテキスト中で同一のピクセル位置イベントを表わすために積み重ねられたレプリカノードを使用した、より精巧な格子を示す。この格子内のノード同士は、小さなピクセル・シーケンスの繰り返しにより走査線を拡大させることをDPに強いる方法で接続される。これは、テクスチャー合成の基本的な形式を与える。
画像輪郭の再成形
走査線を短くするための格子および走査線を伸長するための格子は、後者内の非レプリカノードを前者内の対応ノードにマージ(併合)することにより、結合される。その結果生じる格子は削除と挿入の両方を許容する。そのような1つの格子が図7のように示される。複数の輪郭ピクセル701をピンで留めることにより、1つの画像内の輪郭を要望通りに作り変えるために、この格子を使用することができる。たとえば、肖像写真では、1つは、顔と胴の側面に対して新しい輪郭線を指定することにより、主題を「薄く」してもよい。その後、格子上のDPは、必要に応じてピクセルを削除したり充填したりする。画像の大きさが変化する必要はなく、また、ピンで留められたピクセルから遠く離れた走査線は変更されない。2つの輪郭をピンで一緒に留めることは、それらの間のオブジェクトを入力イメージから取り除く。同様に、画像に新しいオブジェクトを挿入するために、隣接した2列のピクセルを分離してそれらを互いに離れるように移動させることができる。そのオブジェクトは別の第2の画像から得ることができる。その第2の画像は入力イメージ内のオフセットでもよい。
切り離し(Tear−Outs)
図1Aの格子の単一のインスタンスも、画像から「切り離す」ピクセルの最良の不揃いなエッジの垂直なストリップ(帯片)を見つけるために、使用することができる。その帯片は、行毎に異なる所定の幅を持つことができる。適切な格子リンクの削除によって、その帯片が様々な画像領域を含んだり、および/または、除外したりすることを保証することができる。
時間ダーティング
図4Bで示されるように、ダーティングは映像の時間(T)の長さを時間的に変更するためにも使用することができる。本方法は、走査線が空間的なダーティング用のX軸或いはY軸の代わりに時間(T)軸411に沿って走る以外は、空間のビデオ(映像)ダーティングと同じであり、動き補償はない。時間におけるダーティングの効果は、映像内のより多くのアクションがより少ない時間に詰め込まれるということである。
最初のT走査線415は、如何なる(x、y、t)位置に配置されることもでき、また、t<tである如何なる(x、y、t)位置でも、たとえば、シーケンスの最初のフレーム(画像)の中央で、或いはその後(たとえば、最後)の或るフレームの中央で、終了することができる。
ダーティングはTにおける走査線を伸長および縮小させることができる。而して、ダーティングは、映像の一部分でアクション(動作)を「スピードアップ」させたり、また、他のところで時間を遅くさせたりすることができる。ダーティングは、同一のフレームの異なる部分においてもそのようにすることができる。映像の長さを短くすることは、ビデオ監視および要約(summarization)アプリケーションに役立つ。映像を長くすることは、スポーツイベントのビデオリプレイにおけるスローモーション(スローモー)によく似ているかもしれない。同一の映像において短くしたり長くしたりすることは、イベントのタイミングおよび順序を変更するかもしれない。
図4Bでは、ダーティングによりコンテンツ(X)420が効果的に削除されるが、それは、トータル(合計)された時、2つのフレームに対応する。
映像内の運動(動き)が主に水平の場合、それは殆どの映像において最も一般的であるが、XYTビデオキューブ(映像立方体)から除去すべき最適な組の垂直な走査線を、以下のように、且つ図4Cに示されるように、計算することで十分かもしれない。
運動431すなわち時間の経過に伴うピクセル値の変化は、各フレーム411内の各ピクセルで測定430される。運動(動き)ベクトルは、圧縮された映像すなわちMPEGで容易に利用可能である。運動値は、XT(或いはYT)アクションマップ441を得るために、Y(或いはX)走査線に沿って合計440される。
ダーティングによるT方向411に映像を短縮するために、アクションマップ内の特定点(x、y)での1ピクセル毎の合計(和)が、空間的なダーティングに関するコントラスト(差)の代わりに使用される。すなわち、アクションマップはシヤーおよび集合コスト132を決めるために使用される。その後、本方法は最小コストの経路141の計算140に進む。アクションマップから除去された各ピクセルに対して、XYTビデオキューブ400から対応するY走査線を取り除く。垂直運動が優勢(主)な映像に対しては、XとYとを交換して同様に行なう。
切り離し(tear−outs)は、上述したように、アクションマップからストリップ(帯片)を順次除去するために使用してもよい。そして、対応する走査線がビデオキューブから除去される。さらに多くの映像(ビデオ)が利用可能になる場合、追加の列をアクションマップに付加してもよく、また、さらに多くの切り離しを計算してもよい。反復してそのようにすることにより、ストリームビデオを短縮する方法が提供される。
実施例
図8は、この発明の方法によって決定されるような、12の帯域幅および周囲の大きさ90の格子を備えた512列のピクセルを除去112するためのダーティングパターンを示す。この例において、ダーツは、トップおよびボトム走査線から逆伝播された情報を使用して、中央走査線から伝播された。
図9は入力画像例を示す。
図10はダーツの除去後の結果を示す。譬え、多くの切り離されたグループのピクセルが削除されても、輪郭は、ピクセル全体に渡るテザーライン(係留線)801でさえ、よく維持されている。
図10は、112列を削除し、その後40行を削除した結果を示す。
図11は、従来のシームカービングを使用して得られた同様の結果を示す。シームカービングは、左の宇宙飛行士の上方のコーストライン(境界線)および底部の係留ロープを破壊し(切り取り)、上部でアンテナを切り取り、そのアンテナの近くのコンティネント(大陸のような部分)同士を融合させている。
ダーティングの結果は、それらのアーティファクトがなく、一般に、画像テクスチャーを保存してそれを密に詰め込むという、よい仕事をしている。たとえば、それはより多くのランドおよび雲テクスチャーを保存し、より多くの滑らかなオーシャン(海のような部分)を除去している。シームカービングコードが、カービングアーティファクトを隠すために、画像をピクセルブレンドで後処理するので、明暗度は2つの画像間で多少異なる。
図12および図13は、どこか他の所から原画像にテクスチャーを挿入する格子を使用して、ストレッチング(伸長処理)した前後の画像である。シームカービング或いは非一様なリターゲティングによって同一の画像を伸長することは、明白で望ましくない滑らかなバンドの複写或いは補間されたピクセルを生成するであろう。
図14は、削除用の静的なピクセルの「スラブ」442を識別するために、ピクセル分散のY−Tアクションマップ441をどのように使用することができるかを示す図である。図14では、明暗度は運動(動き)に比例し、たとえば、白は静である。
図15は、時間的なダーティングの前後の、映像からのフレームをそれぞれ示す画像である。
この発明は或る好ましい実施の形態に関連して記述されたが、この発明の趣旨および範囲内で様々な他の改変および変更を行うことができることが理解されるであろう。従って、この発明の真実の趣旨および範囲内に入るような、全ての変更例および変形例をカバーすることが、添付のクレームの目的である。

Claims (12)

  1. 出力映像を生成するために入力映像を編集するための方法であって、その方法の工程を行なうためのプロセッサを含み、
    入力映像のピクセルを複数組のピクセルに区分する工程であって、各組のピクセルは隣接し、また各組のピクセルに対して、更に以下の工程を含んでいる工程と、
    方向付けられたリンクによって接続されるノードを有する格子を定義する工程であって、各ノードはそのピクセル組の複数のピクセルの内の1つに対応し、また各ノードが出力画像のピクセルのアクションおよび位置と対応付けられている工程と
    ストをノードおよびリンクに割り当てる工程と、
    前記格子を通る最小コストの経路を決定する工程と、
    前記経路上の各ノードに対して、該ノードに関連したアクションを前記入力映像内の対応するピクセルへ付加して、該ノードに関連する出力映像内の前記位置で該対応するピクセルを編集する工程と、
    を備え
    前記割り当てることは、
    シヤーコストを各ノードへ割り当てること、
    集合コストを各リンクへ割り当てること、
    を更に備える方法。
  2. 前記決定することはダイナミックプログラミングを前記格子に適用することである、請求項1の方法。
  3. 映像XYTボリューム内の各ピクセルに対して変動の測度(measure of variability)を計算すること、およびアクションマップを生成するためにそのボリュームのX軸或いはY軸に沿ってこれらの測度を合計すること、を更に備え、また、前記コストを決定するために前記アクションマップが使用される、請求項の方法。
  4. 前記ピクセル組は、映像の時間軸Tに沿って走査線中に配列される、請求項1の方法。
  5. 前記走査線は、如何なる(x、y、ts)位置でもスタートすることができ、また、如何なる位置(x、y、te)でも終了することができる、請求項1の方法。
  6. 前記アクションは、前記入力映像と比較して前記出力映像を時間的に短縮するためにピクセルを削除する、請求項1の方法。
  7. 前記アクションは、前記入力映像と比較して前記出力映像を時間的に伸長するためにピクセルを追加する、請求項1の方法。
  8. 前記入力映像は監視映像である、請求項1の方法。
  9. 前記出力映像は前記入力映像の要約である、請求項の方法。
  10. 前記入力映像はスポーツイベントである、請求項の方法。
  11. 前記運動は主に水平であり、また、前記走査線は水平方向に変化する、請求項1の方法。
  12. 前記入力映像は運動ベクトルを使用して圧縮され、また、前記コストは運動ベクトルに基づくものである、請求項1の方法。
JP2009287789A 2009-03-30 2009-12-18 映像を時間的に編集する方法 Expired - Fee Related JP5534798B2 (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US12/413,744 2009-03-30
US12/413,744 US8290298B2 (en) 2009-01-20 2009-03-30 Method for temporally editing videos

Publications (2)

Publication Number Publication Date
JP2010238221A JP2010238221A (ja) 2010-10-21
JP5534798B2 true JP5534798B2 (ja) 2014-07-02

Family

ID=43092438

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2009287789A Expired - Fee Related JP5534798B2 (ja) 2009-03-30 2009-12-18 映像を時間的に編集する方法

Country Status (1)

Country Link
JP (1) JP5534798B2 (ja)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP5719271B2 (ja) * 2011-10-12 2015-05-13 日本電信電話株式会社 画像処理方法、画像処理装置及び画像処理プログラム

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7747107B2 (en) * 2007-03-06 2010-06-29 Mitsubishi Electric Research Laboratories, Inc. Method for retargeting images

Also Published As

Publication number Publication date
JP2010238221A (ja) 2010-10-21

Similar Documents

Publication Publication Date Title
JP5534791B2 (ja) 画像および映像を編集するための方法
US8290298B2 (en) Method for temporally editing videos
US7477800B2 (en) Method for retargeting images
JP5058341B2 (ja) 画像処理方法
US6987520B2 (en) Image region filling by exemplar-based inpainting
US8472753B2 (en) Method and system of adaptive reformatting of digital image
RU2368006C1 (ru) Способ и система адаптивного переформатирования цифровых изображений
US8134578B2 (en) Hybrid importance maps for content aware digital image resizing
US8184928B2 (en) Combining seam carving an image resizing
US8213745B2 (en) Seam carving for image resizing
JP2002514359A (ja) モザイク画像を作成する方法及び装置
US9275486B2 (en) Collage image creating method and collage image creating device
JP5451313B2 (ja) 画像処理装置、画像処理方法、及びプログラム
Li et al. Seam carving based aesthetics enhancement for photos
US20050031225A1 (en) System for removing unwanted objects from a digital image
JP5534798B2 (ja) 映像を時間的に編集する方法
US7734118B2 (en) Automatic image feature embedding
JP5614835B2 (ja) 画像レイアウト設定方法および装置
JPH1153534A (ja) 画像の修復方法及び装置
JP4166646B2 (ja) デジタル画像の拡大補間方法、デジタル画像の圧縮方法、デジタル画像の復元方法、デジタル画像の拡大補間プログラムが記録された記録媒体、デジタル画像の圧縮プログラムが記録された記録媒体、デジタル画像の復元プログラムが記録された記録媒体
JP4116325B2 (ja) 画像表示制御装置
US7986322B1 (en) Parallax compensation
KR102606373B1 (ko) 영상에서 검출되는 얼굴의 랜드마크를 조절하기 위한 방법 및 장치
Rachor Image Resizing using Seam Carving
Borodajkewycz Tomorrow’s Photoshop Effects

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20121003

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20131022

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20131029

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20131219

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20140325

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20140422

R150 Certificate of patent or registration of utility model

Ref document number: 5534798

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

LAPS Cancellation because of no payment of annual fees