JP5846663B2 - 動画編集方法及び装置 - Google Patents
動画編集方法及び装置 Download PDFInfo
- Publication number
- JP5846663B2 JP5846663B2 JP2014548550A JP2014548550A JP5846663B2 JP 5846663 B2 JP5846663 B2 JP 5846663B2 JP 2014548550 A JP2014548550 A JP 2014548550A JP 2014548550 A JP2014548550 A JP 2014548550A JP 5846663 B2 JP5846663 B2 JP 5846663B2
- Authority
- JP
- Japan
- Prior art keywords
- editing
- image
- matrix
- frame
- information map
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
- 238000000034 method Methods 0.000 title claims description 129
- 239000011159 matrix material Substances 0.000 claims description 177
- 238000004364 calculation method Methods 0.000 claims description 26
- 239000013598 vector Substances 0.000 claims description 19
- 238000005457 optimization Methods 0.000 claims description 12
- 238000004590 computer program Methods 0.000 claims description 3
- 230000006870 function Effects 0.000 description 31
- 230000008569 process Effects 0.000 description 29
- 238000012546 transfer Methods 0.000 description 16
- 238000004040 coloring Methods 0.000 description 15
- 238000012545 processing Methods 0.000 description 15
- 238000003860 storage Methods 0.000 description 12
- 230000003287 optical effect Effects 0.000 description 10
- 238000007796 conventional method Methods 0.000 description 9
- 230000008859 change Effects 0.000 description 8
- 230000000644 propagated effect Effects 0.000 description 8
- 230000006641 stabilisation Effects 0.000 description 7
- 238000011105 stabilization Methods 0.000 description 7
- 239000003086 colorant Substances 0.000 description 6
- 235000014101 wine Nutrition 0.000 description 5
- 241000208140 Acer Species 0.000 description 4
- 238000012937 correction Methods 0.000 description 4
- 238000009499 grossing Methods 0.000 description 4
- 238000006243 chemical reaction Methods 0.000 description 3
- 238000010586 diagram Methods 0.000 description 3
- 238000009826 distribution Methods 0.000 description 3
- 238000002474 experimental method Methods 0.000 description 3
- 230000001902 propagating effect Effects 0.000 description 3
- 238000005070 sampling Methods 0.000 description 3
- 238000000354 decomposition reaction Methods 0.000 description 2
- 230000004069 differentiation Effects 0.000 description 2
- 239000011521 glass Substances 0.000 description 2
- 230000002441 reversible effect Effects 0.000 description 2
- 238000001228 spectrum Methods 0.000 description 2
- 241000242759 Actiniaria Species 0.000 description 1
- 241000251468 Actinopterygii Species 0.000 description 1
- 241000722921 Tulipa gesneriana Species 0.000 description 1
- 238000009825 accumulation Methods 0.000 description 1
- 230000006978 adaptation Effects 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 230000008901 benefit Effects 0.000 description 1
- 230000015572 biosynthetic process Effects 0.000 description 1
- 230000007423 decrease Effects 0.000 description 1
- 238000009795 derivation Methods 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 238000007781 pre-processing Methods 0.000 description 1
- 235000020095 red wine Nutrition 0.000 description 1
- 230000000087 stabilizing effect Effects 0.000 description 1
- 238000003786 synthesis reaction Methods 0.000 description 1
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N5/00—Details of television systems
- H04N5/76—Television signal recording
Landscapes
- Engineering & Computer Science (AREA)
- Multimedia (AREA)
- Signal Processing (AREA)
- Television Signal Processing For Recording (AREA)
- Management Or Editing Of Information On Record Carriers (AREA)
- Processing Or Creating Images (AREA)
Description
本発明は、動画を形成するフレーム間の連続性を保持する動画編集方法及び装置に係り、詳しくは、動画におけるフレーム間の連続性を保持しながら、動画の色調やテクスチャなどを編集するための手法に関する。
近年、携帯電話やデジタルカメラなどの比較的安価なデバイスを用いて動画が撮影できるようになったことで、これまで一部の映像制作においてしか用いられてこなかった動画の編集技術に対する一般利用者からの要望が高まりつつある。
静止画の外観、すなわち色調や露光、テクスチャなどを編集するための技術は多く研究がなされている。近年では、ユーザの入力を元にして静止画を編集する手法が数多く提案されており、例えば、ユーザ制御によるモノクロ画像の着色(非特許文献1)やトーン・マッピング(非特許文献2)、色調補正(非特許文献3)、色転写(非特許文献4)などが挙げられる。これらの手法は、少ないユーザの入力情報から静止画全体を編集するものであり、ユーザが画像の一部にストロークの形で入力した編集パラメータを元にして、静止画の全てのピクセルに編集パラメータを割り当てる。これらの手法の特徴は、割り当てられた編集パラメータが静止画中の物体領域をマスクするだけでなく、領域の境界における合成の程度も同時に計算できるという点にある。
上記手法に一貫する技術思想は、ユーザによる入力を基にした最適化問題を解くことにより、ユーザ入力に潜む意図を静止画全体に適応するというものであり、この考え方は動画においても有用と考えられる。しかしながら、動画は多くのフレームから構成されるが故に、静止画における既存手法を動画にそのまま適応しようとする場合には多くのユーザ入力が必要である。より具体的には、ビデオなどの動画像に対して、部分的な編集処理(例えば、特定の物体の色を変えるなど)を施そうとすると、1フレームごとに指示するか、多くても10〜20フレームに1枚に指示を入れる必要がある。ビデオは1秒間に30フレームを含むため、ちょっとした長さであっても相当の手間が必要となる。
ここで、特定のフレームに施されたユーザ入力を元にして、ユーザの意図をフレーム間で次々に移送していく手法が考えられる。従来、動画処理におけるフレーム間の連続性は、オプティカルフローと呼ばれる連続する2枚のフレーム間での位置の対応関係を基本としていた。しかし、物体や背景が他の物体によって遮られて見えなくなったり、フレームから出入りしたりする現象が頻繁に発生するために、位置の対応関係を採り続けることは非常に困難であり、自動的な対応関係付けは数十フレームがせいぜいであった。
また、オプティカルフローを利用しようとすると、対応のつかない部分が生じるために、当該部分を埋めるべく平滑化などの処理によって不特定領域を解消する必要があった。この平滑化は、ぼかし操作に相当するもので、編集対象部分が過度に平均化されてしまうという不具合がある。
一般に、オプティカルフローを用いる手法では、(i)フレームの全てのピクセルに位置の対応関係を正確に与えるのに時間を要する、(ii)遮蔽などの影響で全てのピクセルに対応関係を与えることができない場合がある、という課題があり、対応のつかない場所に情報を与える目的でエッジ保持フィルタなどが用いられるが(例えば、非特許文献5には、エッジ保存型平滑化フィルタに基づく近似的なオプティカルフローを用いて、領域分割のラベルを移送する手法が開示されている)、対応付けの失敗や対応関係の不足により、移送に失敗することがある。
Levin, A., Lischinski, D. and Weiss, Y.: Colorization using optimization, ACM Trans. Graph., Vol. 23, No. 3, pp. 689-694 (2004).
Lischinski, D., Farbman, Z., Uyttendaele, M. and Szeliski, R.: Interactive local adjustment of tonal values, ACM Trans. Graph., Vol. 25, No. 3, pp. 646-653(2006).
An, X. and Pellacini, F.: AppProp: all-pairs appearancespace edit propagation, ACM Trans. Graph., Vol. 27, No. 3, pp. 40:1-40:9 (2008).
An, X. and Pellacini, F.: User-Controllable Color Transfer, Computer Graphics Forum, Vol. 29, No. 2, pp. 263-271 (2010).
Lang, M., Wang, O., Aydin, T., Smolic, A. and Gross, M.: Practical temporal consistency for image-based graphics applications, ACM Trans. Graph., Vol. 31, No. 4, pp. 34:1-34:8 (2012).
Williams, C. and Seeger, M.: Using the Nystrom Method to Speed Up Kernel Machines, Advances in Neural Information Processing Systems 13, pp. 682-688 (2001).
ZHANG K., TSANG I. W., KWOK J. T.: Improved nystrom low-rank approximation and error analysis. In Proc. of Int'l Conf. on Machine Learning (2008), pp. 1232-1239.
Gastal, E. S. L. and Oliveira, M. M.: Domain transform for edge-aware image and video processing, ACM Trans. Graph., Vol. 30, No. 4, pp. 69:1-69:12 (2011).
Yatziv, L. and Sapiro, G.: Fast image and video colorization using chrominance blending, IEEE Trans. On Image Processing, Vol. 15, No. 5, pp. 1120-1129 (2006).
Farbman, Z. and Lischinski, D.: Tonal stabilization of video, ACM Trans. Graph., Vol. 30, No. 4, pp. 89:1-89:10 (2011).
Reinhard, E., Adhikhmin, M., Gooch, B. and Shirley, P.: Color transfer between images, Computer Graphics and Applications, IEEE, Vol. 21, No. 5, pp. 34 -41 (2001).
本発明は、このような位置の対応関係に基づかないフレーム間の編集パラメータの移送を用いたフレーム間の連続性を保持する動画編集方法及び装置を提供することを目的とするものである。
本発明は、
動画を形成する複数枚の時系列画像を記憶する手段と、
時間軸方向に隣接する2枚の画像、すなわち第1の画像及び第2の画像のピクセル位置情報及びピクセル値情報を用いた最適化計算によって、第1の画像のピクセル値の線形結合として、第2の画像の各ピクセル値を規定する継承行列を生成する継承行列生成手段と、
前記第1の画像を編集するための第1の編集情報マップが記憶されており、前記継承行列を用いて、前記第1の編集情報マップから前記第2の画像に対応する第2の編集情報マップを生成する編集情報マップ生成手段と、
前記第2の画像に対して、前記第2の編集情報マップを適用して当該第2画像の編集画像を生成する編集画像生成手段と、
を備えた動画編集装置、である。
動画を形成する複数枚の時系列画像を記憶する手段と、
時間軸方向に隣接する2枚の画像、すなわち第1の画像及び第2の画像のピクセル位置情報及びピクセル値情報を用いた最適化計算によって、第1の画像のピクセル値の線形結合として、第2の画像の各ピクセル値を規定する継承行列を生成する継承行列生成手段と、
前記第1の画像を編集するための第1の編集情報マップが記憶されており、前記継承行列を用いて、前記第1の編集情報マップから前記第2の画像に対応する第2の編集情報マップを生成する編集情報マップ生成手段と、
前記第2の画像に対して、前記第2の編集情報マップを適用して当該第2画像の編集画像を生成する編集画像生成手段と、
を備えた動画編集装置、である。
1つの態様では、前記複数枚の時系列画像から選択された少なくとも1枚の画像(後述する「アンカーフレーム」)を編集するための初期編集情報マップを生成する初期編集情報マップ生成手段を備えており、
前記第1の画像は前記選択された画像であり、前記第1の画像を編集するための編集情報マップは前記初期編集情報マップである。
1つの態様では、前記初期編集情報マップ生成手段は、ユーザ入力に基づいて前記初期編集情報マップを生成する。
ユーザ入力(例えば、ポインティングデバイスを用いた入力)によって静止画を編集する手段としては、様々な手法が当業者に知られており、ある画像を編集するための編集情報(編集情報マップ)が得られるものであれば、初期編集情報マップ生成手段の具体的な構成は限定されない。
前記第1の画像は前記選択された画像であり、前記第1の画像を編集するための編集情報マップは前記初期編集情報マップである。
1つの態様では、前記初期編集情報マップ生成手段は、ユーザ入力に基づいて前記初期編集情報マップを生成する。
ユーザ入力(例えば、ポインティングデバイスを用いた入力)によって静止画を編集する手段としては、様々な手法が当業者に知られており、ある画像を編集するための編集情報(編集情報マップ)が得られるものであれば、初期編集情報マップ生成手段の具体的な構成は限定されない。
1つの態様では、前記初期編集情報マップから出発して、前記継承行列生成手段及び前記編集情報マップ生成手段を用いて、各時系列画像に対応する編集情報マップを時間軸方向に順次生成(移送)し、
前記編集画像生成手段によって、各時系列画像を、対応する編集情報マップを用いて編集することで複数枚の時系列編集画像からなる動画を生成する。
1つの態様では、継承行列の計算及び当該継承行列を用いた編集情報マップの移送は、早い時刻から遅い時刻(t→t+1)への処理として実行されるが、継承行列の計算及び当該継承行列を用いた編集情報マップの移送は、遅い時刻から早い時刻(t→t‐1)への処理として実行してもよい。
1つの態様では、1枚のアンカーフレームtから早い時刻から遅い時刻(t→t+1)、遅い時刻から早い時刻(t→t‐1)の両方向に処理を実行してもよい。
1つの態様では、時間軸方向に離隔した2枚のアンカーフレームが選択され、一方のアンカーフレームを基準に早い時刻から遅い時刻(t→t+1)へ処理が実行され、他方のアンカーフレームを基準に遅い時刻から早い時刻(t→t‐1)へ処理が実行される。
1つの態様では、編集情報マップ生成時に計算された継承行列(近似継承行列を含む)は、記憶部に記憶しておいても、あるいは、対応する編集情報マップを生成した後に破棄してもよい。
1つの態様では、時間軸方向に隣接する各画像対の間の継承行列は、編集情報マップを生成する前に予め取得され記憶部に記憶されている。
前記編集画像生成手段によって、各時系列画像を、対応する編集情報マップを用いて編集することで複数枚の時系列編集画像からなる動画を生成する。
1つの態様では、継承行列の計算及び当該継承行列を用いた編集情報マップの移送は、早い時刻から遅い時刻(t→t+1)への処理として実行されるが、継承行列の計算及び当該継承行列を用いた編集情報マップの移送は、遅い時刻から早い時刻(t→t‐1)への処理として実行してもよい。
1つの態様では、1枚のアンカーフレームtから早い時刻から遅い時刻(t→t+1)、遅い時刻から早い時刻(t→t‐1)の両方向に処理を実行してもよい。
1つの態様では、時間軸方向に離隔した2枚のアンカーフレームが選択され、一方のアンカーフレームを基準に早い時刻から遅い時刻(t→t+1)へ処理が実行され、他方のアンカーフレームを基準に遅い時刻から早い時刻(t→t‐1)へ処理が実行される。
1つの態様では、編集情報マップ生成時に計算された継承行列(近似継承行列を含む)は、記憶部に記憶しておいても、あるいは、対応する編集情報マップを生成した後に破棄してもよい。
1つの態様では、時間軸方向に隣接する各画像対の間の継承行列は、編集情報マップを生成する前に予め取得され記憶部に記憶されている。
1つの態様では、前記編集情報マップは、動画を形成する各画像のピクセル数と同数のピクセル数からなり、当該編集情報マップの全てあるいは一部のピクセルに編集パラメータが割り当てられている。
本発明に用いることができる編集処理の種類は、各ピクセルを編集するための関数が特定の有限個のパラメータからなっているものであればいかなる編集処理であってもよく、編集処理の種類は限定されない。
編集処理の種類としては、色調変換(色転写、グレースケールの着色を含む)、色変化の安定化、テクスチャの鮮明化等が例示される。
編集情報ないし編集パラメータは、編集処理の具体的な内容に応じて当業者において適宜設定される。
本発明に用いることができる編集処理の種類は、各ピクセルを編集するための関数が特定の有限個のパラメータからなっているものであればいかなる編集処理であってもよく、編集処理の種類は限定されない。
編集処理の種類としては、色調変換(色転写、グレースケールの着色を含む)、色変化の安定化、テクスチャの鮮明化等が例示される。
編集情報ないし編集パラメータは、編集処理の具体的な内容に応じて当業者において適宜設定される。
前記継承行列生成手段は、編集情報マップの時間軸方向の連続性を保証する項と、同じフレーム内での編集パラメータの一貫性を保証する項と、を含む関数の最適化計算によって継承行列を生成する。
最適化計算に用いるエネルギー関数について説明する。
表1は、後述する実施形態で用いたエネルギー関数であり、左の列に示しているものが、正方向の継承、すなわちtフレームからt+1フレームへの継承行列を導き出すための式に係るものであり、右の列に示しているものは逆方向の継承、すなわちt+1フレームからtフレームへの継承を表す継承行列を導き出すための式を示している。
上記高速版t→t+1において、
上記高速版t+1→tにおいて、
である。
etはフレームtにおける編集情報(編集パラメータ、定数)、
et+1はフレームt+1における編集情報(編集パラメータ、変数)、
ct iはフレームtの位置iに存在するピクセルのL*a*b*色情報、
xt iはフレームtのピクセルの位置情報(座標)、
σctは時間軸方向における色情報の差に関する重み定数、
σsは位置情報に関する重み定数、
σcは色情報に関する重み定数、
||・||2はベクトルのL2ノルム、
である。
表2は、上記の高速版をより一般的な形で記載したものである。
上記一般化版t→t+1において、
上記一般化版t+1→tにおいて、
である。
各記号の説明については、上述の記載を援用することができる。
σstは、時間軸方向を含めた位置の差に対する重み定数、である。
上記複数の式について、ある技術思想を表現する数式の形は当業者において適宜設定し得るものであり、当業者において等価な式は、本発明の技術的範囲に属するものである。
1つの態様では、編集情報マップの時間軸方向の連続性を保証する項は、「隣接する二枚のフレームにおいて同じ位置にあるピクセルが、類似した色を持つ場合には、その二つのピクセルがもつ編集パラメータも類似している。」という仮定に基づき、同じフレーム内での編集パラメータの一貫性を保証する項は、「ある一枚のフレームに注目すると、そのフレーム内で距離が近く、色が類似している場合には、その二つのピクセルが持つ編集パラメータも類似している。」という仮定に基づくものである。
後述する実施形態(tフレームからt+1フレーム)では、前記関数は、
であり、
である。
各記号の説明については、上述の記載を援用することができる。
後述する他の実施形態では、継承行列は、以下の目的関数を用いたフレーム間でのエネルギー最小化問題として定義される。
この目的関数は、画素特徴が類似した画素同士には同じような編集パラメータが割り当てられるという仮定に基づく。前項は前フレームからの拘束、後項は現フレーム内での拘束を表す。
ζkl ijは、フレームkのピクセルiとフレームlのピクセルjの類似度 であり、詳しくは、
となる。
fk iは、フレームkのピクセルiが持つ画素特徴。一般にはL*a*b*色表現が3次元、フレーム内位置(x, y)が2次元、時間成分tが1次元の計6次元ベクトルである。
ek iは、フレームkのピクセルiに対する編集パラメータである。
nは、動画の各フレームに含まれるピクセル数である。
最適化計算に用いるエネルギー関数について説明する。
表1は、後述する実施形態で用いたエネルギー関数であり、左の列に示しているものが、正方向の継承、すなわちtフレームからt+1フレームへの継承行列を導き出すための式に係るものであり、右の列に示しているものは逆方向の継承、すなわちt+1フレームからtフレームへの継承を表す継承行列を導き出すための式を示している。
上記高速版t+1→tにおいて、
である。
etはフレームtにおける編集情報(編集パラメータ、定数)、
et+1はフレームt+1における編集情報(編集パラメータ、変数)、
ct iはフレームtの位置iに存在するピクセルのL*a*b*色情報、
xt iはフレームtのピクセルの位置情報(座標)、
σctは時間軸方向における色情報の差に関する重み定数、
σsは位置情報に関する重み定数、
σcは色情報に関する重み定数、
||・||2はベクトルのL2ノルム、
である。
表2は、上記の高速版をより一般的な形で記載したものである。
上記一般化版t+1→tにおいて、
である。
各記号の説明については、上述の記載を援用することができる。
σstは、時間軸方向を含めた位置の差に対する重み定数、である。
上記複数の式について、ある技術思想を表現する数式の形は当業者において適宜設定し得るものであり、当業者において等価な式は、本発明の技術的範囲に属するものである。
1つの態様では、編集情報マップの時間軸方向の連続性を保証する項は、「隣接する二枚のフレームにおいて同じ位置にあるピクセルが、類似した色を持つ場合には、その二つのピクセルがもつ編集パラメータも類似している。」という仮定に基づき、同じフレーム内での編集パラメータの一貫性を保証する項は、「ある一枚のフレームに注目すると、そのフレーム内で距離が近く、色が類似している場合には、その二つのピクセルが持つ編集パラメータも類似している。」という仮定に基づくものである。
後述する実施形態(tフレームからt+1フレーム)では、前記関数は、
であり、
である。
各記号の説明については、上述の記載を援用することができる。
後述する他の実施形態では、継承行列は、以下の目的関数を用いたフレーム間でのエネルギー最小化問題として定義される。
この目的関数は、画素特徴が類似した画素同士には同じような編集パラメータが割り当てられるという仮定に基づく。前項は前フレームからの拘束、後項は現フレーム内での拘束を表す。
ζkl ijは、フレームkのピクセルiとフレームlのピクセルjの類似度 であり、詳しくは、
となる。
fk iは、フレームkのピクセルiが持つ画素特徴。一般にはL*a*b*色表現が3次元、フレーム内位置(x, y)が2次元、時間成分tが1次元の計6次元ベクトルである。
ek iは、フレームkのピクセルiに対する編集パラメータである。
nは、動画の各フレームに含まれるピクセル数である。
継承行列の計算において、密行列が含まれる場合には、当該密行列をより小さなサイズの行列同士の積に分解して近似し、疎行列のみの場合には、そのまま計算することも可能である。そして、編集情報マップの生成手段は、前記の近似手段ないし直接計算によって生成された継承行列を用いて、編集情報マップを生成することができる。
後述する実施形態では、前記継承行列生成手段は、密行列が含まれる場合には、当該密行列をより小さなサイズの行列同士の積に分解して近似する近似手段を備えており、
編集情報マップ生成手段は、前記近似手段によって生成された近似継承行列を用いて編集情報マップを生成する。
1つの態様では、前記近似手段は、Nystrom法を用いた近似手段である。後述する実施形態では、k-means法に基づくNystrom法を採用している。
なお、行列計算を高速に行なう手段としては、幾つかの手法が当業者に知られており、例えば、行列が疎行列の場合には値を持つ要素のみを計算することで高速に計算してもよい。
後述する実施形態では、前記継承行列生成手段は、密行列が含まれる場合には、当該密行列をより小さなサイズの行列同士の積に分解して近似する近似手段を備えており、
編集情報マップ生成手段は、前記近似手段によって生成された近似継承行列を用いて編集情報マップを生成する。
1つの態様では、前記近似手段は、Nystrom法を用いた近似手段である。後述する実施形態では、k-means法に基づくNystrom法を採用している。
なお、行列計算を高速に行なう手段としては、幾つかの手法が当業者に知られており、例えば、行列が疎行列の場合には値を持つ要素のみを計算することで高速に計算してもよい。
本発明は、方法の発明としても規定することができ、
時間軸方向に隣接する第1の画像及び第2の画像のピクセル位置情報及びピクセル値情報を用いた最適化計算によって、第1の画像のピクセル値の線形結合として、第2の画像の各ピクセル値を規定する継承行列を生成する継承行列生成ステップと、
前記第1の画像を編集するための第1の編集情報マップが記憶されており、前記継承行列を用いて、前記第1の編集情報マップから前記第2の画像に対応する第2の編集情報マップを生成する編集情報マップ生成ステップと、
前記第2の画像に対して、前記第2の編集情報マップを適用して当該第2画像の編集画像を生成する編集画像生成ステップと、
を備えた動画編集方法、である。
時間軸方向に隣接する第1の画像及び第2の画像のピクセル位置情報及びピクセル値情報を用いた最適化計算によって、第1の画像のピクセル値の線形結合として、第2の画像の各ピクセル値を規定する継承行列を生成する継承行列生成ステップと、
前記第1の画像を編集するための第1の編集情報マップが記憶されており、前記継承行列を用いて、前記第1の編集情報マップから前記第2の画像に対応する第2の編集情報マップを生成する編集情報マップ生成ステップと、
前記第2の画像に対して、前記第2の編集情報マップを適用して当該第2画像の編集画像を生成する編集画像生成ステップと、
を備えた動画編集方法、である。
本発明に係る動画像編集装置を構成する各手段のハードウェア構成は、1つあるいは複数のコンピュータから構成することができる。コンピュータは、典型的には、動画像を形成する複数の時系列画像、各種画像編集プログラム、編集情報マップ、編集処理画像等の各種データを格納する記憶部、各種計算を行う演算処理部、各映像(元動画像、編集動画像)を表示する表示部、コンピュータを操作するための入力部、計算結果等のデータを出力する出力部、を備えており、汎用コンピュータ(入力部、出力部、演算部、記憶部、表示部等を備える)を用いることができる。
本発明に係る動画像編集方法は、1つあるいは複数のコンピュータによって実行することができる。
本発明は、さらに、動画編集方法をコンピュータに実行させるためのコンピュータプログラム、あるいは、当該コンピュータプログラムが記録された記録媒体としても定義される。
本発明に係る動画像編集方法は、1つあるいは複数のコンピュータによって実行することができる。
本発明は、さらに、動画編集方法をコンピュータに実行させるためのコンピュータプログラム、あるいは、当該コンピュータプログラムが記録された記録媒体としても定義される。
本発明はオプティカルフローには依拠せずに、連続するフレームのピクセル間の対応関係を表現し、編集操作の伝播を実行するものであり、位置の対応関係を用いた処理に起因する課題を解決でき、また、ユーザが一部のフレームに対して入力した編集パラメータの安定な移送を実現する。従来、物体による相互遮蔽やフレームアウトなどに起因する対応関係の欠落を避けられないオプティカルフローでは、平滑化処理などを必要とするが、結果として、編集情報が急速に平均化され、数十フレーム程度で消失してしまうという問題があった。継承行列表現を用いることによって、この問題を解決し、安定的に編集情報を伝播することが可能となる。
本発明は、編集情報と独立して得られる継承行列により生成される編集情報マップを用いることで、多くの編集処理に対応できる。編集操作の表現は、あるピクセルを編集するための関数を規定するパラメータから成る多次元情報である。たとえば、色調補正において、色相、彩度、明度を編集することを考えた場合には、各ピクセルはそれぞれの変化量を表す三次元ベクトルを有することになる。すなわち、編集操作の表現は、汎用的な表現となっており、多くの応用に適用できる。例えば、部分的な色の変更、色変化の安定化、テクスチャの鮮明化など、様々な応用が考えられる。
[1]概要
フレーム間連続性を保持する動画編集法の実施形態について説明する。本実施形態の概念図を図1に示す。上段が元動画の時系列画像(入力画像)、中段が編集情報(編集情報マップ)、下段が編集時系列画像(出力画像)である。本実施形態では、時間軸方向に隣接するフレーム(静止画)間の位置の対応関係を用いず、フレーム間の対応関係を1つの正方行列により記述する。これは、あるフレームの各ピクセルが持つ性質は、前のフレームのピクセルが持つ性質の線形結合(凸結合)により表現できるという仮定に基づいている。この線形結合の係数により構成される正方行列によってフレーム間の対応関係を記述する。本明細書ではこの行列を「継承行列(inheritance matrix)」ないし編集量伝搬行列(Edit-Propagation Matrix)と呼ぶ。なお、各フレームに含まれる画素数が同じ場合は正方行列となるが、本発明に係る手法は正方行列を用いるものに限定されない。
フレーム間連続性を保持する動画編集法の実施形態について説明する。本実施形態の概念図を図1に示す。上段が元動画の時系列画像(入力画像)、中段が編集情報(編集情報マップ)、下段が編集時系列画像(出力画像)である。本実施形態では、時間軸方向に隣接するフレーム(静止画)間の位置の対応関係を用いず、フレーム間の対応関係を1つの正方行列により記述する。これは、あるフレームの各ピクセルが持つ性質は、前のフレームのピクセルが持つ性質の線形結合(凸結合)により表現できるという仮定に基づいている。この線形結合の係数により構成される正方行列によってフレーム間の対応関係を記述する。本明細書ではこの行列を「継承行列(inheritance matrix)」ないし編集量伝搬行列(Edit-Propagation Matrix)と呼ぶ。なお、各フレームに含まれる画素数が同じ場合は正方行列となるが、本発明に係る手法は正方行列を用いるものに限定されない。
継承行列において、t+1フレームの画像の各ピクセルが、tフレームの画像のピクセルの重み付けで表される。重み付けの計算には、ピクセル間の類似性が用いられる。類似性は、空間的な距離の類似(近さ)、色としての類似(色が近い)で測る。継承行列によって、t+1フレームの画像の全てのピクセルが、前のフレームtの画像の類似したピクセルの重み付けで表現される。これに対して、オプティカルフローを用いた処理では、t+1フレームの画像でフレームインしたピクセル、tフレームの画像では隠されていたピクセルは、前のtフレームの画像のピクセルとtフレームの画像のピクセルの組み合わせとしては表現できない。
本明細書において、ユーザが入力を行うフレーム(静止画)をアンカーフレームと呼び、最初にアンカーフレーム上の編集情報を作成する。この編集情報を以下では編集情報マップと呼ぶ。編集情報マップは、以下のような要件を備えている。
(i)動画像を形成する各画像(フレーム)のピクセル数と同数のピクセル数からなる。なお、要件(i)は、典型的な実施態様を示すものであり、編集情報マップのピクセル数と動画を形成する各画像のピクセル数は同数でなくてもよい。
(ii)各画像tに対応して編集情報マップtが存在する。
(iii)一部あるいは全てのピクセルに編集パラメータが割り当てられている。一部のピクセルに編集パラメータが割り当てられている場合には、編集を要しないピクセルには編集パラメータが割り当てられていない。全てのピクセルに編集パラメータが割り当てられている場合に、編集を要しないピクセルについては、編集情報マップに保存されている編集度合の大きさは0である。編集パラメータは、各ピクセルのピクセル値をどのように編集するかの関数を決定する。例えば、編集パラメータ=(元の色情報→編集後の色情報の変化量)として規定できる。また、ある画像のピクセルiがIiであり、変更後のピクセルを、編集パラメータeiを用いて、I'i=f(Ii, ei)のように決定する。たとえば、Iiがピクセルの色(c1,c2,c3)であり、変更後の色が(c'1,c'2,c'3)=(a1*c1,a2*c2,a3*c3)のように計算される場合に、(a1,a2,a3)が編集パラメータとなる。
(iv)画像tの各ピクセルについて、編集情報マップtの対応するピクセルの編集パラメータによって編集処理を適用することで編集画像tが得られる。
(i)動画像を形成する各画像(フレーム)のピクセル数と同数のピクセル数からなる。なお、要件(i)は、典型的な実施態様を示すものであり、編集情報マップのピクセル数と動画を形成する各画像のピクセル数は同数でなくてもよい。
(ii)各画像tに対応して編集情報マップtが存在する。
(iii)一部あるいは全てのピクセルに編集パラメータが割り当てられている。一部のピクセルに編集パラメータが割り当てられている場合には、編集を要しないピクセルには編集パラメータが割り当てられていない。全てのピクセルに編集パラメータが割り当てられている場合に、編集を要しないピクセルについては、編集情報マップに保存されている編集度合の大きさは0である。編集パラメータは、各ピクセルのピクセル値をどのように編集するかの関数を決定する。例えば、編集パラメータ=(元の色情報→編集後の色情報の変化量)として規定できる。また、ある画像のピクセルiがIiであり、変更後のピクセルを、編集パラメータeiを用いて、I'i=f(Ii, ei)のように決定する。たとえば、Iiがピクセルの色(c1,c2,c3)であり、変更後の色が(c'1,c'2,c'3)=(a1*c1,a2*c2,a3*c3)のように計算される場合に、(a1,a2,a3)が編集パラメータとなる。
(iv)画像tの各ピクセルについて、編集情報マップtの対応するピクセルの編集パラメータによって編集処理を適用することで編集画像tが得られる。
編集情報マップを逐次、時間軸方向の隣接フレームに移送していくことで、動画全体に編集情報の付与を行う。本実施形態では動画の特定のフレームに対して施した編集結果それ自体を移送するのではなく、あるフレームのピクセルごとに割り当てられる編集パラメータを編集情報マップの形で、次のフレームに移送する。継承行列により編集情報マップを移送することで、ユーザの意図に沿った編集を、より少ないユーザ入力で動画全体に実現する。本実施形態に係る手法は大きく2つの処理に分けられる。
第1の処理は、ユーザが入力を行ったフレーム(アンカーフレーム)上での処理である。静止画上でユーザ入力から画像全体の編集情報マップを推定する手法はすでに幾つか提案されており、本実施形態ではAnとPellaciniによる外観編集法(非特許文献3)を用いる。なお、本発明に適用される編集情報マップの推定法は非特許文献3に係る手法に限定されるものではない。
第2の処理は、アンカーフレームに対して作成された編集情報マップを隣接するフレームに移送する処理である。この処理は隣接する2枚の画像から計算される継承行列を用いて行われる。継承行列はエネルギー関数の最適化により求められる行列であり、移送するマップの種類や値に依存しないという特徴を持つ。
本実施形態に係る手法をより詳細に説明すると、以下のようなソフトウェアモジュールないしステップから構成される。
1.編集情報の初期化
アンカーフレームに対するユーザからの入力(scribble)をもとに、動画像と同じ画素数からなる「編集情報マップe0」を生成する。
1.編集情報の初期化
アンカーフレームに対するユーザからの入力(scribble)をもとに、動画像と同じ画素数からなる「編集情報マップe0」を生成する。
2.編集情報の適用
編集情報マップに応じて、当該フレームに編集処理を施す。
編集情報マップに応じて、当該フレームに編集処理を施す。
3.最適化による継承行列の計算
現在のフレームtの画像のピクセルの位置情報及びピクセル値情報(色情報)と、次のフレームt+1の画像のピクセルの位置情報及びピクセル値情報(色情報)と、を用いた最適化計算によって時間軸方向に隣接する2つのフレームの画像のピクセル同士の対応関係である「継承行列Mt+1/t」を求める。継承行列は、次のフレームt+1の各ピクセル値を、現在のフレームtのピクセル値の線形結合によって表現する。
現在のフレームtの画像のピクセルの位置情報及びピクセル値情報(色情報)と、次のフレームt+1の画像のピクセルの位置情報及びピクセル値情報(色情報)と、を用いた最適化計算によって時間軸方向に隣接する2つのフレームの画像のピクセル同士の対応関係である「継承行列Mt+1/t」を求める。継承行列は、次のフレームt+1の各ピクセル値を、現在のフレームtのピクセル値の線形結合によって表現する。
4.編集情報の更新
現在のフレームtの画像に対応する編集情報マップetに、継承行列Mt+1/tを適用して、次のフレームt+1の編集情報マップet+1を作成する。
現在のフレームtの画像に対応する編集情報マップetに、継承行列Mt+1/tを適用して、次のフレームt+1の編集情報マップet+1を作成する。
[2]アンカーフレームにおける編集情報マップの作成
動画の各フレームがnピクセルから成るとすると、各ピクセルに対してi=1,….,nという番号を与えることができる。ここで、ユーザによりピクセルiに与えられる編集パラメータを^giとおく。またユーザ入力が行われているかを表すラベルを^wiとおく。具体的には^wiはピクセルiに入力が行われているとき1、行われていないとき0をとる。
動画の各フレームがnピクセルから成るとすると、各ピクセルに対してi=1,….,nという番号を与えることができる。ここで、ユーザによりピクセルiに与えられる編集パラメータを^giとおく。またユーザ入力が行われているかを表すラベルを^wiとおく。具体的には^wiはピクセルiに入力が行われているとき1、行われていないとき0をとる。
最終的にピクセルiに与えられる編集パラメータを^eiを求めるためのエネルギー関数^Eを次のように定義することができる。
この式において^zijはピクセルiとjの間の類似度を表し、次のように定義される:
ここで、^xiはピクセルiの位置情報、^ciはピクセルiのL*a*b*からなる色情報を表すベクトルである。また、定数σsおよびσcは編集情報マップの一貫性を保つべき位置および色近傍の範囲を制御するパラメータである。具体的には、定数σsは位置情報に関する重み付け、定数σcは色情報に関する重み付けである。式(1)は狭義凸関数をなすので、各^eiでの偏微分が全て0になる点で最小値を取る。||・||2はベクトルのL2ノルムである。上記エネルギー関数は、2つの項からなり、前項は、ユーザ入力の編集パラメータと最終の編集情報マップの編集パラメータとの整合性を保証しており、後項は、類似の色を備えた近隣のピクセルには同様の編集パラメータが割り当てられることを保証している。定数^λは、上記2つの項をバランスさせるものであり、当業者により適宜設定できる。
この式において^zijはピクセルiとjの間の類似度を表し、次のように定義される:
ここで、^xiはピクセルiの位置情報、^ciはピクセルiのL*a*b*からなる色情報を表すベクトルである。また、定数σsおよびσcは編集情報マップの一貫性を保つべき位置および色近傍の範囲を制御するパラメータである。具体的には、定数σsは位置情報に関する重み付け、定数σcは色情報に関する重み付けである。式(1)は狭義凸関数をなすので、各^eiでの偏微分が全て0になる点で最小値を取る。||・||2はベクトルのL2ノルムである。上記エネルギー関数は、2つの項からなり、前項は、ユーザ入力の編集パラメータと最終の編集情報マップの編集パラメータとの整合性を保証しており、後項は、類似の色を備えた近隣のピクセルには同様の編集パラメータが割り当てられることを保証している。定数^λは、上記2つの項をバランスさせるものであり、当業者により適宜設定できる。
よって、式(1)を最小化する^eiはベクトル形式で次のように得られる。
ここで^Zは^zijを成分に持つ行列であり、^D、^Wはi番目の対角成分にそれぞれ
を持つ対角行列である。また、gはピクセルiに入力された編集パラメータgiを成分に持つベクトルを表す。式(2)は大規模密行列^Zを含むため、一般の計算機によってこれを計算することは困難である。そこで^Zが低ランクかつ半正定値であるという特徴を用いた近似法であるNystrom 法を用いて近似を行う(非特許文献3参照)。
ここで^Zは^zijを成分に持つ行列であり、^D、^Wはi番目の対角成分にそれぞれ
を持つ対角行列である。また、gはピクセルiに入力された編集パラメータgiを成分に持つベクトルを表す。式(2)は大規模密行列^Zを含むため、一般の計算機によってこれを計算することは困難である。そこで^Zが低ランクかつ半正定値であるという特徴を用いた近似法であるNystrom 法を用いて近似を行う(非特許文献3参照)。
[3]継承行列による編集情報マップの移送
アンカーフレームにおいて計算された編集情報マップは継承行列によって、隣接するフレームから順々に伝搬されていく。継承行列は、隣接する2枚のフレームのピクセルの位置情報及びピクセル値情報から計算される行列であり、2枚のフレームが持つピクセルの色を縦に並べたベクトルをIt, It+1のように置くと、
のような関係を持つ。
アンカーフレームにおいて計算された編集情報マップは継承行列によって、隣接するフレームから順々に伝搬されていく。継承行列は、隣接する2枚のフレームのピクセルの位置情報及びピクセル値情報から計算される行列であり、2枚のフレームが持つピクセルの色を縦に並べたベクトルをIt, It+1のように置くと、
のような関係を持つ。
式(3)において、
が継承行列であり、右上の添え字は、フレームtからフレームt+1の継承を表す行列であることを示す。
が継承行列であり、右上の添え字は、フレームtからフレームt+1の継承を表す行列であることを示す。
本発明では、各フレームに与えられるべき編集情報マップが式(3)のような関係を持っていることを仮定している。すなわち、フレームtにおける編集情報マップをetのように表すことにすれば、次のような関係式が成り立っていることを仮定している。
ここで解くべき問題は、このような線形の関係式を導くような継承行列Mt+1/tをどのように導くかということである。今、あるエネルギー関数の最適解として、式(4)が与えられると考えると、そのエネルギー関数はある行列に関する二次形式をしていると考えられる。そのようなエネルギー関数を定義するために、次のような仮定を置く。
(i)隣接する二枚のフレームにおいて同じ位置にあるピクセルが、類似した色を持つ場合には、その二つのピクセルがもつ編集パラメータも類似している。
(ii)ある一枚のフレームに注目すると、そのフレーム内で距離が近く、色が類似している場合には、その二つのピクセルが持つ編集パラメータも類似している。
(ii)ある一枚のフレームに注目すると、そのフレーム内で距離が近く、色が類似している場合には、その二つのピクセルが持つ編集パラメータも類似している。
この仮定をもとに次のような二つの重みづけ関数を定義する。
式(5)および(6)において、ct iはフレームtの位置iに存在するピクセルのL*a*b*色情報を表し、xt iはフレームtのピクセルの位置を表す。またこれらの式において用いられている三種類のパラメータσct、σsおよびσcは各成分の違いをどの程度許容するかという値になっている。具体的には、定数σctは時間軸方向における色情報の差に関する重み付け、定数σsは位置情報に関する重み付け、定数σcは色情報に関する重み付けであり、当業者により適宜設定される。
実験において用いられているパラメータは表3に示した。
式(5)および(6)において、ct iはフレームtの位置iに存在するピクセルのL*a*b*色情報を表し、xt iはフレームtのピクセルの位置を表す。またこれらの式において用いられている三種類のパラメータσct、σsおよびσcは各成分の違いをどの程度許容するかという値になっている。具体的には、定数σctは時間軸方向における色情報の差に関する重み付け、定数σsは位置情報に関する重み付け、定数σcは色情報に関する重み付けであり、当業者により適宜設定される。
実験において用いられているパラメータは表3に示した。
これらの重み付け関数を用いて、次のようなエネルギー関数を定義する。
エネルギー関数は2つの項からなる。前項は、編集情報マップの時間軸方向の連続性を保証するものであり、後項は、同じフレーム内での編集パラメータの一貫性を保証している。式(6)に規定するように、編集パラメータの一貫性は、ピクセルの空間位置及び色の類似性に従うものである。λは、上記2つの項をバランスさせる定数であり、当業者により適宜設定される。このエネルギー関数も式(1)同様に狭義凸関数をなすため、これを最小化するような解は一つに決まる。
エネルギー関数は2つの項からなる。前項は、編集情報マップの時間軸方向の連続性を保証するものであり、後項は、同じフレーム内での編集パラメータの一貫性を保証している。式(6)に規定するように、編集パラメータの一貫性は、ピクセルの空間位置及び色の類似性に従うものである。λは、上記2つの項をバランスさせる定数であり、当業者により適宜設定される。このエネルギー関数も式(1)同様に狭義凸関数をなすため、これを最小化するような解は一つに決まる。
式(7) を各et+1 i、i=1,….,nで偏微分することで得られるn本の方程式が0になるとすると、
という関係式が得られる。これを改めてベクトルと行列を用いて書き直すと次のようになる。
ただしDt+1/tはn×nの対角行列で、そのi番目の対角要素が
となっている。
Wt+1/tも同様にn×nの対角行列で、その対角要素はwt+1/t iである。この関係式は式(4)と同じ形をしており、目的の継承行列が求められている。この継承行列も計算のためには大規模密行列Zt+1の積を計算する必要があり、式(2)同様にNystrom法を用いた近似が必要である。
という関係式が得られる。これを改めてベクトルと行列を用いて書き直すと次のようになる。
ただしDt+1/tはn×nの対角行列で、そのi番目の対角要素が
となっている。
Wt+1/tも同様にn×nの対角行列で、その対角要素はwt+1/t iである。この関係式は式(4)と同じ形をしており、目的の継承行列が求められている。この継承行列も計算のためには大規模密行列Zt+1の積を計算する必要があり、式(2)同様にNystrom法を用いた近似が必要である。
次に、改良された編集量伝搬行列の導出について説明する。あるフレームに与えられた編集量を伝搬する問題では一般にフレームtからt+1への編集量の伝搬を考える。ここでは簡単のため、フレーム1から2 への伝搬を説明する。前処理として、フレーム1について予め編集量を計算しておく。各フレームに含まれる画素数をn として、フレーム1に対する編集量をe1=(e1 1,…,e1 n)Tのように表す。目的は、このe1からe2を求めることである。e2 を求めるため、色と位置が近い二つの画素は似た編集量を持つと仮定して目的関数を導く。
画素特徴ベクトルf t i (t=1,2,i=1,…,n) を画素のL*a*b*色情報と位置(xt i, yt i )から、
と表す。この際、ft iの各成分は色成分がσcで、位置成分がσsで適当にスケーリングされている。画素間の類似度はft iから、
と定義する。先ほどの仮定に基づくと、e2を求めるための目的関数は次のようになる。
この目的関数を最小化するe2が編集量である。
目的関数を最小化するため、目的関数を各e2 iで偏微分すると、次式が得られる。
各iに対して求まる式を行列形式で書き直す。そのために、新たに二つのn次正方行列Zkl、Dklを次のように定める。
但し、diag{・・・}は{・・・}を対角成分に持つ対角行列を表す。すると、上記式は、
と書き直せる。証明は省略するがD22+1/2D21−Z22は正定値行列なので逆行列が求まり、
となる。M21が編集量伝搬行列である。
編集量伝搬行列 は大規模行列の積によって書き表されるため、そのまま計算するのは現実的でない。そこで従来法(非特許文献3)と同様Nystrom 法を用いて行列を近似する。提案法と従来法 の相違点は以下の二点である。
1) 一般のNystrom 法を拡張し、非対称の類似度行列を近似する。
2) 行列自体の近似精度ではなく、行列とベクトルの積の近似精度に注目する。
一般のNystrom 法は対称半正定値行列を対象としているため、Z21のような非対称の類似度行列を扱うことはできない。そこで、次のようなブロック行列を考える。
この行列は対称半正定値であり、Nystrom法により近似できる。
画素特徴ベクトルf t i (t=1,2,i=1,…,n) を画素のL*a*b*色情報と位置(xt i, yt i )から、
と表す。この際、ft iの各成分は色成分がσcで、位置成分がσsで適当にスケーリングされている。画素間の類似度はft iから、
と定義する。先ほどの仮定に基づくと、e2を求めるための目的関数は次のようになる。
この目的関数を最小化するe2が編集量である。
目的関数を最小化するため、目的関数を各e2 iで偏微分すると、次式が得られる。
各iに対して求まる式を行列形式で書き直す。そのために、新たに二つのn次正方行列Zkl、Dklを次のように定める。
但し、diag{・・・}は{・・・}を対角成分に持つ対角行列を表す。すると、上記式は、
と書き直せる。証明は省略するがD22+1/2D21−Z22は正定値行列なので逆行列が求まり、
となる。M21が編集量伝搬行列である。
編集量伝搬行列 は大規模行列の積によって書き表されるため、そのまま計算するのは現実的でない。そこで従来法(非特許文献3)と同様Nystrom 法を用いて行列を近似する。提案法と従来法 の相違点は以下の二点である。
1) 一般のNystrom 法を拡張し、非対称の類似度行列を近似する。
2) 行列自体の近似精度ではなく、行列とベクトルの積の近似精度に注目する。
一般のNystrom 法は対称半正定値行列を対象としているため、Z21のような非対称の類似度行列を扱うことはできない。そこで、次のようなブロック行列を考える。
この行列は対称半正定値であり、Nystrom法により近似できる。
[4]継承行列の近似
継承行列を含め、式(2)なども計算には大規模密行列Zt+1/tあるいは^Zの計算を行う必要がある。ところが、これらの行列は画像のピクセル数nに対してn×nの大きさであり、一般的な計算機で計算を行うことは、行列を保持するための記憶部の容量と計算時間の両面から困難である。以下では、簡単のために、行列の添え字を省略する。
継承行列を含め、式(2)なども計算には大規模密行列Zt+1/tあるいは^Zの計算を行う必要がある。ところが、これらの行列は画像のピクセル数nに対してn×nの大きさであり、一般的な計算機で計算を行うことは、行列を保持するための記憶部の容量と計算時間の両面から困難である。以下では、簡単のために、行列の添え字を省略する。
Nystrom法の適用方法
Nystrom法は行列が低ランクである場合、少ない数の固有値と固有ベクトルだけを用いて効率的に行列を近似することができる。この固有値および固有ベクトルを近似的に求めるためにNystrom 法では元の行列の列ないし行をサンプリングする(非特許文献6)。
Nystrom法は行列が低ランクである場合、少ない数の固有値と固有ベクトルだけを用いて効率的に行列を近似することができる。この固有値および固有ベクトルを近似的に求めるためにNystrom 法では元の行列の列ないし行をサンプリングする(非特許文献6)。
本手法は2枚の隣接するフレームごとにNystrom法による近似が必要であるため、従来の列をサンプリングするNystrom法では精度が不十分であった。そのため、本実施形態ではZhangらが提案したk-means法に基づくNystrom法(非特許文献7)を用いる。
まず、入力されたフレームをピクセルのL*a*b*色情報と位置の情報に基づきk-means法でクラスタリングする。本来は、行列Zのランクを用いてk個のクラスタに分割するのが理想的であるが、実際にこのkを求めるには、ある程度の計算量が必要であること、無視しても差し支えない小さな固有値によりkが必要以上に大きくなってしまうことを防ぐためサンプル数mを設定する。入力データをm個のクラスタに分解したとすると、それぞれのクラスタについてクラスタ中心
が得られる。これを用いて、次の行列
を計算する。
が得られる。これを用いて、次の行列
を計算する。
この行列UおよびAを用いると、Nystrom 法により
という近似が得られる。
継承行列の近似に必要な残りの計算は
であるが、これはWoodburyの公式あるいは逆行列の補題と呼ばれる定理を用いることで次のように計算が可能である。
この式は、小さな行列同士の積のみから成り立っており、実際に計算が可能である。以上の計算方法を用いることで、継承行列は以下のように近似される。
この近似した継承行列をアンカーフレームにおいて計算された編集情報マップに順々に適用していくことで、最終的な動画編集の結果を得る。
行列Zは、下記のように、より小さなサイズの行列U、Aの積で表現され、継承行列を再現するためには上述の式の行列U、行列A、行列Wを保存しておけばよい。
という近似が得られる。
継承行列の近似に必要な残りの計算は
であるが、これはWoodburyの公式あるいは逆行列の補題と呼ばれる定理を用いることで次のように計算が可能である。
この式は、小さな行列同士の積のみから成り立っており、実際に計算が可能である。以上の計算方法を用いることで、継承行列は以下のように近似される。
この近似した継承行列をアンカーフレームにおいて計算された編集情報マップに順々に適用していくことで、最終的な動画編集の結果を得る。
行列Zは、下記のように、より小さなサイズの行列U、Aの積で表現され、継承行列を再現するためには上述の式の行列U、行列A、行列Wを保存しておけばよい。
さらに、Nystrom法による近似の他の態様について説明する。
通常のNystrom 法は半正定値対象行列Z とその低ランク近似Z〜の間で、
ができる限り小さくなるように行列を近似をする。このとき‖・‖*は行列のスペクトル・ノルムあるいはフロベニウス・ノルムを指す。スペクトル・ノルムとは行列の最大特異値に対応する値であり、フロベニウス・ノルムとは行列の各成分の二乗和の平方根をとったもので、それぞれ次のように表される。
応用においては半正定値行列Z がデータ列{xi}N i=1からガウス・カーネルを用いて計算される行列として、
のように計算されることが多い。ただし、Z = (zij)1≦I,j≦Nのように書くとき、Zの(i,j)成分がzijであることを表すものとする。この式に示す行列を、データ列から計算される類似度行列とよぶ。
Zhangらのk-means法を用いたNystrom法はこのデータ列をあらかじめK個のクラスタに分割する。これを{ck}K k=1とする。元の行列Zは次のように近似される。
提案するNystrom 法におけるサンプリングについて説明する。本発明に係る動画編集法では第1フレームと第2フレームがそれぞれもつN個の画素、すなわち合計2N個の画素特徴から計算される巨大な行列を近似する必要がある。一般にk-means法の計算量は入力データ数n、出力クラスタ数k、反復回数sに対してO(nks)となり、それほど高速でない。
また、ZhangらのNystrom法をそのまま適用すると編集パラメータの情報を全く反映することなくクラスタ中心が計算されるため、比較的小さな画像領域に編集パラメータが割り当てられている場合に適切な編集結果が得られないことがある。
そこで、より高速に、かつ編集パラメータを反映した行列近似を行うことを考える。
改良手法では、k-means 法により特徴ベクトルをクラスタリングする際、第1フレームと第2フレームでは画素特徴(色と位置と編集パラメータ)の分布が非常に近いと仮定し、第1フレームのみを以下の距離関数に従ってクラスタリングする。すなわち、画像情報(色情報、位置情報)に加えて編集パラメータもクラスタリングに利用する。
ただし画素特徴fi 〜はこれまでの色と位置のみによる定義fiから
という定義に拡張したものである。この画素特徴ベクトルを拡張画素特徴ベクトルと呼ぶ。
これにより得られたクラスタ中心を{ck 〜} とする。各ck 〜は拡張画素特徴ベクトルと同じ次元を持つ。このクラスタ中心から色と位置の成分だけを取り出した物をckとする。あとはこれをサンプル点として上述の近似式に従い、Zhang らのNystrom 法を実行する。
通常のNystrom 法は半正定値対象行列Z とその低ランク近似Z〜の間で、
ができる限り小さくなるように行列を近似をする。このとき‖・‖*は行列のスペクトル・ノルムあるいはフロベニウス・ノルムを指す。スペクトル・ノルムとは行列の最大特異値に対応する値であり、フロベニウス・ノルムとは行列の各成分の二乗和の平方根をとったもので、それぞれ次のように表される。
応用においては半正定値行列Z がデータ列{xi}N i=1からガウス・カーネルを用いて計算される行列として、
のように計算されることが多い。ただし、Z = (zij)1≦I,j≦Nのように書くとき、Zの(i,j)成分がzijであることを表すものとする。この式に示す行列を、データ列から計算される類似度行列とよぶ。
Zhangらのk-means法を用いたNystrom法はこのデータ列をあらかじめK個のクラスタに分割する。これを{ck}K k=1とする。元の行列Zは次のように近似される。
提案するNystrom 法におけるサンプリングについて説明する。本発明に係る動画編集法では第1フレームと第2フレームがそれぞれもつN個の画素、すなわち合計2N個の画素特徴から計算される巨大な行列を近似する必要がある。一般にk-means法の計算量は入力データ数n、出力クラスタ数k、反復回数sに対してO(nks)となり、それほど高速でない。
また、ZhangらのNystrom法をそのまま適用すると編集パラメータの情報を全く反映することなくクラスタ中心が計算されるため、比較的小さな画像領域に編集パラメータが割り当てられている場合に適切な編集結果が得られないことがある。
そこで、より高速に、かつ編集パラメータを反映した行列近似を行うことを考える。
改良手法では、k-means 法により特徴ベクトルをクラスタリングする際、第1フレームと第2フレームでは画素特徴(色と位置と編集パラメータ)の分布が非常に近いと仮定し、第1フレームのみを以下の距離関数に従ってクラスタリングする。すなわち、画像情報(色情報、位置情報)に加えて編集パラメータもクラスタリングに利用する。
ただし画素特徴fi 〜はこれまでの色と位置のみによる定義fiから
という定義に拡張したものである。この画素特徴ベクトルを拡張画素特徴ベクトルと呼ぶ。
これにより得られたクラスタ中心を{ck 〜} とする。各ck 〜は拡張画素特徴ベクトルと同じ次元を持つ。このクラスタ中心から色と位置の成分だけを取り出した物をckとする。あとはこれをサンプル点として上述の近似式に従い、Zhang らのNystrom 法を実行する。
[5]動画編集の結果
本実施形態に係る手法による動画編集の結果を図2、3および4に示す。それぞれの結果から、継承行列を用いた動画編集法の特徴について説明を行う。なお、各図はグレースケール画像であるが、望ましいと考えた場合には、審査時に物件提出書でカラー画像を提出する用意がある。
本実施形態に係る手法による動画編集の結果を図2、3および4に示す。それぞれの結果から、継承行列を用いた動画編集法の特徴について説明を行う。なお、各図はグレースケール画像であるが、望ましいと考えた場合には、審査時に物件提出書でカラー画像を提出する用意がある。
図2に注目すると、入力を行ったフレームに写りこんでいなかった物体についても同系統の色調を有するものを自動的に編集できていることがわかる。これはエネルギー関数である式(7)の第二項においてフレーム内での編集の一貫性を考慮しているためで、新たな物体が入り込んでくるたびにユーザ入力を追加しなくても良いというのは動画編集において利点となるといってもよい。
図3には詳細強調の結果を示した。この詳細強調は定義域変換(domain transform)によるエッジ保存フィルタ(非特許文献8)を用いて各フレームをマルチスケール分解(multi scale decomposition)した後、どのスケールの詳細をどの程度、強調・抑制するかを決定するパラメータ(テクスチャの細かさの度合いを表すパラメータ)を継承行列により伝搬している。この結果からもわかる通り、本手法はどのような編集を行うかという目的に依存せず、その編集が独立したいくつかのパラメータにより行われている場合にはいかなる編集法にも適応が可能である。
図4には複数のアンカーフレームにユーザ入力を行った場合の編集結果を示した。通常、複数のフレームにユーザ入力を行う目的は、フレームの進行に伴い蓄積したエラーが原因で起こる不適切な領域分割を防ぐためであることが多い。本手法でもそのような目的でユーザ入力を追加することは可能であるが、実験を行ったいくつかの動画について、編集パラメータの伝搬は適切かつ安定に行われており、その必要性は低いと考えられる。その一方で複数のアンカーフレームに異なる編集を施すことで、より自由度の高い編集を行うことが可能であり、図4には元の動画において黄色であるモミジの葉を、時間経過とともに徐々に赤色に色づかせるという編集を行っている。このように、編集パラメータを安定的に伝搬できるようになったことで、従来は行うことの難しかった複数フレームに対するユーザ入力の可能性を示すことができた。t+1フレームからtフレームへの継承を表す継承行列を導き出すためのエネルギー関数は、表1の右列の式を用いた。
[6]提案手法の応用
本実施形態に係る継承行列を用いた動画編集法は処理の過程を少し変更するだけで、様々な応用が可能である。本節では、その応用例として、グレースケール動画に対する着色処理、動画の色調安定化、および静止画から動画への色転写の手法を紹介する。
本実施形態に係る継承行列を用いた動画編集法は処理の過程を少し変更するだけで、様々な応用が可能である。本節では、その応用例として、グレースケール動画に対する着色処理、動画の色調安定化、および静止画から動画への色転写の手法を紹介する。
[6−1]グレースケール動画の着色処理
グレースケールの静止画に色をつけるという処理は、従来から多くの研究が存在しており、大きく分けると、ユーザ入力をもとにした着色処理(非特許文献1、9)と参照画像を用いた処理に分けられる。ここでは、前者のユーザ入力をもとにした手法を継承行列を用いて動画に拡張する。
グレースケールの静止画に色をつけるという処理は、従来から多くの研究が存在しており、大きく分けると、ユーザ入力をもとにした着色処理(非特許文献1、9)と参照画像を用いた処理に分けられる。ここでは、前者のユーザ入力をもとにした手法を継承行列を用いて動画に拡張する。
着色処理に対し、式(7)をそのまま用いようとすると、第二項のフレーム内の一貫性を保つ項が強く働きすぎてしまい、全体的にぼやけた着色結果となってしまう。これは、グレースケールの画像ないし動画において、全てのピクセルが輝度値の一次元情報のみを持っており、なおかつ全体でその輝度値がそれほど大きくは変わらないということに原因があると考えられる。そこで、本手法を着色処理に用いる場合には、式(7)の第二項をピクセルの近傍のみとの一貫性を保つように変更する。
具体的には以下のような式となる。
ただし、この式においてN4(i)はピクセルiの四近傍を指す。この式を用いて得られた動画の着色結果を図5に示す。この結果はアンカーフレームをグラフ探索による静止画像の着色処理(非特許文献9)において行い、その結果を継承行列で伝搬している。
ここで、着色処理について、表1、表2に示す4つの式に対応してまとめると、以下の通りとなる。
ただし、この式においてN4(i)はピクセルiの四近傍を指す。この式を用いて得られた動画の着色結果を図5に示す。この結果はアンカーフレームをグラフ探索による静止画像の着色処理(非特許文献9)において行い、その結果を継承行列で伝搬している。
ここで、着色処理について、表1、表2に示す4つの式に対応してまとめると、以下の通りとなる。
[6−2]色調安定化処理
動画の色調安定化処理とは、安価なデジタルカメラや携帯電話で動画を撮影した際に起こる色度の揺れを除去する処理である。近年、FarbmanとLischinskiにより提案されたこの処理は、基準となるアンカーフレームから他のフレームの各画素がどの程度色度のずれを起こしているかというのを計算することで実現される(非特許文献10)。従来手法においては、各フレームごとに信頼度マップやアピアランスマップと呼ばれる複数のパラメータマップを計算する必要があったが、継承行列を用いることで、これらの処理を単純化することが可能である。
動画の色調安定化処理とは、安価なデジタルカメラや携帯電話で動画を撮影した際に起こる色度の揺れを除去する処理である。近年、FarbmanとLischinskiにより提案されたこの処理は、基準となるアンカーフレームから他のフレームの各画素がどの程度色度のずれを起こしているかというのを計算することで実現される(非特許文献10)。従来手法においては、各フレームごとに信頼度マップやアピアランスマップと呼ばれる複数のパラメータマップを計算する必要があったが、継承行列を用いることで、これらの処理を単純化することが可能である。
あるフレームtにおいて、各ピクセルがアンカーフレームからどの程度の色度のずれを持つかという情報(編集パラメータ)をet iと表すことにする。フレームの進行に伴い、色度のずれは蓄積されていくと考えられるので、その増加分をフレーム間の色度の差により
のように表す。
のように表す。
すると、フレームt +1における色度のずれは次のようにして与えられる。
ただしLtはフレームtにおける各ピクセルの色度Lt iを成分に持つベクトルで
を表す。このようにして得られた動画の色調安定化の結果を図6に示す。
ただしLtはフレームtにおける各ピクセルの色度Lt iを成分に持つベクトルで
を表す。このようにして得られた動画の色調安定化の結果を図6に示す。
[6−3]画像から動画への色転写
色転写(color transfer)とは、目的とする静止画の色調を参照する静止画の色調に合わせるという手法である(非特許文献11)。色転写の基本的な考え方は、画像をヒストグラムやガウス混合モデルなどの確率モデルにし、その目的画像の確率モデルを参照画像の確率モデルに近づけることで、目的画像の色調を変化させるというものである。
色転写(color transfer)とは、目的とする静止画の色調を参照する静止画の色調に合わせるという手法である(非特許文献11)。色転写の基本的な考え方は、画像をヒストグラムやガウス混合モデルなどの確率モデルにし、その目的画像の確率モデルを参照画像の確率モデルに近づけることで、目的画像の色調を変化させるというものである。
本手法による静止画から動画への色転写は、まずユーザ入力により領域間の対応付けを行い、その領域間でReinhardのガウス分布に基づいた色転写のパラメータを計算する。Reinhardの手法はL*a*b*の各色成分が目的画像と参照画像の両方でガウス分布をしていると仮定する。今、目的画像のk番目の色成分の平均を
標準偏差を
参照画像のk 番目の色成分の平均を
標準偏差を
と表すことにする。
標準偏差を
参照画像のk 番目の色成分の平均を
標準偏差を
と表すことにする。
目的画像の元の色を
とすると、色転写後の目的画像の色
は次のように表される。
式(10)は、
とおくことで
と表せる。そこで本研究ではL*a*b*色空間で各成分についてakおよびbkを計算し、計6次元の情報を継承行列により伝搬した。これにより得られた色転写の結果を図7に示す。
とすると、色転写後の目的画像の色
は次のように表される。
式(10)は、
とおくことで
と表せる。そこで本研究ではL*a*b*色空間で各成分についてakおよびbkを計算し、計6次元の情報を継承行列により伝搬した。これにより得られた色転写の結果を図7に示す。
[7]付記
[7−1]継承行列の性質
継承行列Mt+1/tは添え字などを省略すると、対称半正定値行列
と二つの対角行列
および実数定数
を用いて
の形で表せる。この行列は次のような特性を持つ。
[7−1]継承行列の性質
継承行列Mt+1/tは添え字などを省略すると、対称半正定値行列
と二つの対角行列
および実数定数
を用いて
の形で表せる。この行列は次のような特性を持つ。
(i)行列(D−Z)が正則であり、かつWが0かつ非負の対角成分を持つためMt+1/tも正則であり、ゆえに逆行列(Mt+1/t)−1が存在する。
(ii)継承行列Mt+1/tに逆行列が存在すれば式(4)から、それはフレームt+1からフレームtへの逆方向のパラメータの継承を表す。すなわち(Mt+1/t)−1=Mt+1/tである。
(iii)フレームtからフレームt + kまでの間の継承行列Mt+1/t,…, Mt+k-1/t+kの積はフレームtからフレームt + kへのパラメータの継承を表す。すなわち
である。
(ii)継承行列Mt+1/tに逆行列が存在すれば式(4)から、それはフレームt+1からフレームtへの逆方向のパラメータの継承を表す。すなわち(Mt+1/t)−1=Mt+1/tである。
(iii)フレームtからフレームt + kまでの間の継承行列Mt+1/t,…, Mt+k-1/t+kの積はフレームtからフレームt + kへのパラメータの継承を表す。すなわち
である。
(i)および(ii)の性質はオプティカルフローなどの位置の対応関係を考えた場合には存在しない性質である。位置の対応関係を行列として表現する場合を考えると、フレーム間でピクセルとピクセル同士の一対一の対応関係が与えられている場合にのみその行列は逆行列を持つ、すなわちフレームt+1のあるピクセルiがフレームtの二つ以上のピクセルと対応関係を持つ場合には、その行列表現が逆行列を持たない。これは位置の対応関係を取る場合においてしばしば起こりうることであり、その点で継承行列は性質が優れた行列であるといってよい。
(iii)の性質は例えばあるフレームに対して行ったユーザ入力から100フレーム後の結果をいきなり求めたい場合などに役に立つ。実際には、Mt/t+kという行列は大規模な行列であり、あらかじめ計算しておくことはできない。そのため、フレームの順序にしたがって結果を求めていく。大容量記憶部を用意して、継承行列を記憶部に保存しておくことで、継承行列をより有用に扱うことができる。
[7−2]編集伝搬の精度とパラメータ
時間軸方向の伝搬の精度は従来法と比べて著しい改善が行えている。なお、フレーム内での編集伝搬の精度については、あまりに細かなユーザ入力を適切に伝搬することは簡単ではない。細かなユーザ入力を区別するためには一貫性を保つべきピクセルの近傍範囲を制御するパラメータσsを小さな値にすることが採用され得るが、σsが0に近づくと類似度行列Zの低ランクであるという性質が失われてしまい、Nystrom法による近似の精度が低下するおそれがある。
時間軸方向の伝搬の精度は従来法と比べて著しい改善が行えている。なお、フレーム内での編集伝搬の精度については、あまりに細かなユーザ入力を適切に伝搬することは簡単ではない。細かなユーザ入力を区別するためには一貫性を保つべきピクセルの近傍範囲を制御するパラメータσsを小さな値にすることが採用され得るが、σsが0に近づくと類似度行列Zの低ランクであるという性質が失われてしまい、Nystrom法による近似の精度が低下するおそれがある。
近似的なオプティカルフローにより領域ラベルの伝搬を行う従来法(非特許文献5)との比較を図8に示した。従来法は細かなテクスチャに対応できず、またフレームの進行に伴うエラー蓄積も大きいが、本手法では各結果画像に示した通り一般的な動画で5秒程度にあたる150フレームを超えてもおおむね良好に編集の伝搬が行えている。なお、本手法の実装はMATLABおよびC++を用いて行っており、実験は3.6GHzのCPU上で行った。実験で用いたパラメータを表3に示す。mは、継承行列の近似におけるサンプル数、sは、継承行列計算内の近似にあたって利用されるk-means法の繰り返し計算の回数である。
本発明は、フレーム間の連続性を保持した動画編集法に係り、従来の動画を扱う処理において一般的であるとされてきたフレーム間の位置の対応関係に頼らず、継承行列を用いたフレーム間の線形結合性によってこれを実現した。継承行列による動画編集は従来法と比べ安定的に編集の伝搬を行うことが可能で、本手法により動画の編集がより少ない手間で行えるようになることが期待される。また継承行列の適応範囲は、色調補正や詳細強調といった単純な編集に限らない。グレースケール動画の着色や色調の安定化、静止画像から動画への色転写など、様々な用途への応用が可能である。本手法の安定性や適応範囲の広さは有用である。
Claims (21)
- 動画を形成する複数枚の時系列画像を記憶する手段と、
時間軸方向に隣接する第1の画像及び第2の画像のピクセル位置情報及びピクセル値情報を用いた最適化計算によって、第1の画像のピクセル値の線形結合として、第2の画像の各ピクセル値を規定する継承行列を生成する継承行列生成手段と、
前記第1の画像を編集するための第1の編集情報マップが記憶されており、前記継承行列を用いて、前記第1の編集情報マップから前記第2の画像に対応する第2の編集情報マップを生成する編集情報マップ生成手段と、
前記第2の画像に対して、前記第2の編集情報マップを適用して当該第2の画像の編集画像を生成する編集画像生成手段と、
を備えた動画編集装置。 - 前記複数枚の時系列画像から選択された少なくとも1枚の画像を編集するための初期編集情報マップを生成する初期編集情報マップ生成手段を備えており、
前記第1の画像は前記選択された画像であり、前記第1の画像を編集するための編集情報マップは前記初期編集情報マップである、
請求項1に記載の動画編集装置。 - 前記初期編集情報マップ生成手段は、ユーザ入力に基づいて前記初期編集情報マップを生成する、請求項2に記載の動画編集装置。
- 前記初期編集情報マップから出発して、前記継承行列生成手段及び前記編集情報マップ生成手段を用いて、各時系列画像に対応する編集情報マップを時間軸方向に順次生成し、
前記編集画像生成手段によって、各時系列画像を、対応する編集情報マップを用いて編集することで複数枚の時系列編集画像からなる動画を生成する、
請求項2、3いずれか1項に記載の動画編集装置。 - 前記編集情報マップは、動画を形成する各画像のピクセル数と同数のピクセル数からなり、当該編集情報マップの全てあるいは一部のピクセルに編集パラメータが割り当てられている、請求項1〜4いずれか1項に記載の動画編集装置。
- 前記継承行列生成手段は、編集情報マップの時間軸方向の連続性を保証する項と、同じフレーム内での編集パラメータの一貫性を保証する項と、を含む関数の最適化計算によって継承行列を生成する、請求項1〜5いずれか1項に記載の動画編集装置。
- 前記関数は、
であり、
であり、
etはフレームtにおける編集情報(編集パラメータ)、
et+1はフレームt+1における編集情報(編集パラメータ)、
ct iはフレームtの位置iに存在するピクセルのL*a*b*色情報、
xt iはフレームtのピクセルの位置情報(座標)、
σctは時間軸方向における色情報の差に関する重み定数、
σsは位置情報に関する重み定数、
σcは色情報に関する重み定数、
||・||2はベクトルのL2ノルム、
である、請求項6に記載の動画編集装置。 - 前記関数は、
であり、
ζkl ijは、フレームkのピクセルiとフレームlのピクセルjの類似度 であって、
であり、
fk iは、フレームkのピクセルiが持つ画素特徴であり、
ek iは、フレームkのピクセルiに対する編集パラメータであり、
nは、動画の各フレームに含まれるピクセル数である、請求項6に記載の動画編集装置。 - 前記継承行列生成手段は、継承行列の計算において密行列が含まれる場合には、当該密行列をより小さなサイズの行列同士の積に分解して近似する近似手段を備えており、
編集情報マップ生成手段は、前記近似手段によって生成された近似継承行列を用いて編集情報マップを生成する、
請求項1〜8いずれか1項に記載の動画編集装置。 - 前記近似手段は、Nystrom法を用いた近似手段である、請求項9に記載の動画編集装置。
- 動画を形成する複数枚の時系列画像において時間軸方向に隣接する第1の画像及び第2の画像のピクセル位置情報及びピクセル値情報を用いた最適化計算によって、第1の画像のピクセル値の線形結合として、第2の画像の各ピクセル値を規定する継承行列を生成する継承行列生成ステップと、
前記第1の画像を編集するための第1の編集情報マップが記憶されており、前記継承行列を用いて、前記第1の編集情報マップから前記第2の画像に対応する第2の編集情報マップを生成する編集情報マップ生成ステップと、
前記第2の画像に対して、前記第2の編集情報マップを適用して当該第2の画像の編集画像を生成する編集画像生成ステップと、
を備えた動画編集方法。 - 前記複数枚の時系列画像から選択された少なくとも1枚の画像を編集するための初期編集情報マップを生成する初期編集情報マップ生成ステップを備えており、
前記第1の画像は前記選択された画像であり、前記第1の画像を編集するための編集情報マップは前記初期編集情報マップである、
請求項11に記載の動画編集方法。 - 前記初期編集情報マップ生成ステップは、ユーザ入力に基づいて前記初期編集情報マップを生成する、請求項12に記載の動画編集方法。
- 前記初期編集情報マップから出発して、各時系列画像に対応する編集情報マップを時間軸方向に順次生成し、
各時系列画像を、対応する編集情報マップを用いて編集することで複数枚の時系列編集画像からなる動画を生成する、
請求項12、13いずれか1項に記載の動画編集方法。 - 前記編集情報マップは、動画を形成する各画像のピクセル数と同数のピクセル数からなり、当該編集情報マップの全てあるいは一部のピクセルに編集パラメータが割り当てられている、請求項11〜14いずれか1項に記載の動画編集方法。
- 前記継承行列生成ステップは、編集情報マップの時間軸方向の連続性を保証する項と、同じフレーム内での編集パラメータの一貫性を保証する項と、を含む関数の最適化計算によって継承行列を生成する、請求項11〜15いずれか1項に記載の動画編集方法。
- 前記関数は、
であり、
であり、
etはフレームtにおける編集情報(編集パラメータ)、
et+1はフレームt+1における編集情報(編集パラメータ)、
ct iはフレームtの位置iに存在するピクセルのL*a*b*色情報、
xt iはフレームtのピクセルの位置情報(座標)、
σctは時間軸方向における色情報の差に関する重み定数、
σsは位置情報に関する重み定数、
σcは色情報に関する重み定数、
||・||2はベクトルのL2ノルム、
である、請求項16に記載の動画編集方法。 - 前記関数は、
であり、
ζkl ijは、フレームkのピクセルiとフレームlのピクセルjの類似度 であって、
であり、
fk iは、フレームkのピクセルiが持つ画素特徴であり、
ek iは、フレームkのピクセルiに対する編集パラメータであり、
nは、動画の各フレームに含まれるピクセル数である、請求項16に記載の動画編集方法。 - 前記継承行列生成ステップは、継承行列の計算において密行列が含まれる場合に、当該密行列をより小さなサイズの行列同士の積に分解して近似する近似ステップを備えており、
編集情報マップ生成ステップでは、前記近似ステップによって生成された近似継承行列を用いて編集情報マップを生成する、
請求項11〜18いずれか1項に記載の動画編集方法。 - 前記近似ステップは、Nystrom法を用いた近似である、請求項19に記載の動画編集方法。
- 請求項11〜20いずれか1項に記載の動画編集方法をコンピュータに実行させるためのコンピュータプログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2014548550A JP5846663B2 (ja) | 2012-11-22 | 2013-11-18 | 動画編集方法及び装置 |
Applications Claiming Priority (4)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2012256274 | 2012-11-22 | ||
JP2012256274 | 2012-11-22 | ||
PCT/JP2013/081019 WO2014080861A1 (ja) | 2012-11-22 | 2013-11-18 | 動画編集方法及び装置 |
JP2014548550A JP5846663B2 (ja) | 2012-11-22 | 2013-11-18 | 動画編集方法及び装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP5846663B2 true JP5846663B2 (ja) | 2016-01-20 |
JPWO2014080861A1 JPWO2014080861A1 (ja) | 2017-01-05 |
Family
ID=50776044
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2014548550A Expired - Fee Related JP5846663B2 (ja) | 2012-11-22 | 2013-11-18 | 動画編集方法及び装置 |
Country Status (2)
Country | Link |
---|---|
JP (1) | JP5846663B2 (ja) |
WO (1) | WO2014080861A1 (ja) |
Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2009545052A (ja) * | 2006-07-25 | 2009-12-17 | ヒューマンアイズ テクノロジーズ リミテッド | 単一スクリブルによる画像の対話型セグメンテーション |
-
2013
- 2013-11-18 WO PCT/JP2013/081019 patent/WO2014080861A1/ja active Application Filing
- 2013-11-18 JP JP2014548550A patent/JP5846663B2/ja not_active Expired - Fee Related
Patent Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2009545052A (ja) * | 2006-07-25 | 2009-12-17 | ヒューマンアイズ テクノロジーズ リミテッド | 単一スクリブルによる画像の対話型セグメンテーション |
Non-Patent Citations (1)
Title |
---|
JPN6014005375; 成田 裕介: '画像の輝度情報を利用した奥行きマップの半自動生成' 電子情報通信学会2011年総合大会講演論文集 情報・システム2 , 20110228, p.47 * |
Also Published As
Publication number | Publication date |
---|---|
JPWO2014080861A1 (ja) | 2017-01-05 |
WO2014080861A1 (ja) | 2014-05-30 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US10529078B2 (en) | Locating and augmenting object features in images | |
US9922432B1 (en) | Systems and methods for providing convolutional neural network based image synthesis using stable and controllable parametric models, a multiscale synthesis framework and novel network architectures | |
US10803546B2 (en) | Systems and methods for unsupervised learning of geometry from images using depth-normal consistency | |
CN111199531B (zh) | 基于泊松图像融合及图像风格化的交互式数据扩展方法 | |
US11836880B2 (en) | Adjusting a digital representation of a head region | |
AU2014277220B2 (en) | Online modeling for real-time facial animation | |
Xu et al. | A sparse control model for image and video editing | |
JP5645842B2 (ja) | スケールスペースを使用した画像処理装置及び方法 | |
US20220343525A1 (en) | Joint depth prediction from dual-cameras and dual-pixels | |
Li et al. | 2D amodal instance segmentation guided by 3D shape prior | |
Golla et al. | Temporal upsampling of point cloud sequences by optimal transport for plant growth visualization | |
Wang et al. | INSPIRATION: A reinforcement learning-based human visual perception-driven image enhancement paradigm for underwater scenes | |
CN109242885B (zh) | 一种基于时空非局部正则的相关滤波视频跟踪方法 | |
Lin et al. | Video stylization: painterly rendering and optimization with content extraction | |
JP5846663B2 (ja) | 動画編集方法及び装置 | |
Anderson et al. | Using bounded diameter minimum spanning trees to build dense active appearance models | |
Ivanovska et al. | Tomatodiff: On–plant tomato segmentation with denoising diffusion models | |
Doron et al. | User directed multi-view-stereo | |
Yan et al. | Re-texturing by intrinsic video | |
GB2585722A (en) | Image manipulation | |
Yatagawa et al. | Sparse pixel sampling for appearance edit propagation | |
CN113658227B (zh) | 一种基于协同低秩图模型的rgbt目标跟踪方法及系统 | |
US20240005581A1 (en) | Generating 3d facial models & animations using computer vision architectures | |
WO2024007968A1 (en) | Methods and system for generating an image of a human | |
Du et al. | Palette-Based Content-Aware Image Recoloring |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20151026 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20151119 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 5846663 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
LAPS | Cancellation because of no payment of annual fees |