JP6563964B2

JP6563964B2 - 映像生成装置、映像生成方法、プログラム

Info

Publication number: JP6563964B2
Application number: JP2017004487A
Authority: JP
Inventors: 麻理子五十川; 弾三上; 康輔高橋; 木全　英明; 英明木全
Original assignee: Nippon Telegraph and Telephone Corp
Current assignee: Nippon Telegraph and Telephone Corp
Priority date: 2017-01-13
Filing date: 2017-01-13
Publication date: 2019-08-21
Anticipated expiration: 2037-01-13
Also published as: JP2018113648A

Description

本発明は、映像生成技術に関し、特に本来あるべき被写体の一部が覆い隠された場合に、その覆い隠された部分を補完した映像を生成する技術に関する。

写真や映像を撮影すると、撮影したい被写体に被さって不要なものを撮影してしまうことがある。被写体に被さって不要なものを撮影した写真や映像は、視聴の体感品質を大きく損なう恐れがあるため、このような不要な映り込みを見た目に違和感なく除去し本来あるべき被写体の画像情報を補完するという手法に対する需要は、極めて高い。

以下、写真や映像における、不要なものが映り込んだ領域や遮蔽などで観測されていない領域などの、本来あるべき被写体の画像情報で補完する領域を欠損領域という。この欠損領域は、本来あるべき被写体の一部が覆い隠された領域を含む領域である。また、欠損領域を示すマスク情報を用いて、欠損領域を含む画像から、被写体の一部が覆い隠された領域と当該領域以外の領域との見た目が違和感ないよう補完された画像である補完画像を生成する処理を補完処理（コンプリーション）という。

欠損領域を示すマスク情報は、静止画・動画いずれの場合も、ユーザが直接指定してもよいし、非特許文献１にあるような公知の手法を用いて与えてもよい。また、静止画・動画の補完処理の方法（コンプリーション方法）として、非特許文献２のようにパッチと呼ばれる小領域単位で逐次補完を行う方法がある。

なお、補完処理の対象となる欠損領域を示す情報であるマスク情報を与える方法として、例えば、図１(a)に示すように欠損領域を含む画像とマスク情報を別々に与える方法がある。この方法では、マスク情報を補完処理の対象となる領域とそれ以外の領域を二値画像として与える。また、図１(b)に示すように欠損領域を含む画像にマスク情報を重畳して与える方法がある。この方法では、マスク情報を画像で使用されていない判別が容易な色を用いて与える。

X. Bai, J. Wang, D. Simons, G. Sapiro, "Video snapcut: robust video object cutout using localized classifiers", ACM Trans. on Graphics, Vol.28, Issue 3, 2009. A. Criminisi, P. Perez, K. Toyama, "Region filling and object removal by examplar-based inpainting", IEEE Trans. on Image Processing, Vol.13, No. 9, pp.1200-1212, 2004.

欠損領域を含む映像（欠損領域を含むフレームを含む映像）を補完する映像補完処理では、データベースに格納した画像群やネットワーク上に存在する画像群の中から欠損領域を含むフレームの補完に用いる画像を決定するのでなく、映像を構成するフレーム群から補完に用いる画像（フレーム）を決定することができる。この場合、同一映像の全フレームの中から補完に用いるフレーム（以下、参照フレームという）を決定し補完する方が、例えば、欠損領域を含むフレームを参照フレームとして補完するのと比較して、より補完に適した領域を含む参照フレームが見つかる可能性があるため、より良好な補完映像を生成することができる。

しかし、補完に用いる参照フレームの決定に要する時間と生成される補完映像の品質には、トレードオフの関係が存在する。つまり、同一映像の全フレームを対象として参照フレームを決定するようにすると、参照フレーム決定に膨大な計算コストが必要となり、長時間要してしまうという問題がある。

そのため、参照フレーム決定にかかる時間が長時間に及ぶことが許容できない場合、ユーザが参照フレームの候補を映像の全フレームから手動で絞り込むことにより、計算コストの低減を図るなどの対応が必要になるが、ユーザが処理に介在するため、著しくユーザビリティを損ねてしまう。

そこで本発明は、欠損領域を含むフレームを補完するために用いる参照フレームを映像に含まれるフレームの中から効率的に決定し、補完映像を生成することができる映像生成技術を提供することを目的とする。

本発明の一態様は、欠損領域を含む映像V₁(x,y,t)(t=1,…,N、Nはフレーム総数、(x,y)はフレームの画素の座標位置)と前記映像V₁(x,y,t)(t=1,…,N)の欠損領域を示すマスク情報D(x,y,t)(t=1,…,N)から、各フレーム時刻tのフレームV₁(x,y,t)に含まれる欠損領域を補完したフレームV₂(x,y,t)から構成される補完映像V₂(x,y,t)(t=1,…,N)を生成する映像生成装置であって、フレーム時刻ｔにおけるマスク情報D(x,y,t)が示す欠損領域に含まれる画素の位置座標(x,y)から構成される領域をフレーム時刻ｔにおける参照フレーム決定用領域Ω_t、参照フレーム決定用領域Ω_tからの距離がd（dは0以上の整数）以下の、参照フレーム決定用領域Ω_tの外部または境界の画素の位置座標(x,y) から構成される領域を参照フレーム決定用領域Ω_tのd-近傍N(Ω_t,d)とし、前記参照フレーム決定用領域Ω_tに含まれるフレーム時刻tのフレームV₁(x,y,t)の画素の情報と前記d-近傍N(Ω_t,d)に含まれるフレーム時刻t’のフレームV₁(x,y,t’)の画素の情報を用いて、フレーム時刻tのフレームV₁(x,y,t)に含まれる欠損領域を補完する際に用いる参照フレームのフレーム時刻R(t)を決定し、前記フレーム時刻R(t)の列である参照フレーム列{R(t)}(t=1,…,N)を生成する参照フレーム生成部と、前記参照フレーム列{R(t)}(t=1,…,N)を用いて、前記映像V₁(x,y,t)(t=1,…,N)と前記マスク情報D(x,y,t)(t=1,…,N)から、前記補完映像V₂(x,y,t)(t=1,…,N)を生成する映像補完部とを含む。

本発明によれば、欠損領域を含むフレームを補完するために用いる参照フレームを映像に含まれるフレームの中から効率的に決定することが可能となる。

欠損領域を含む画像とマスク情報の例を示す図。映像生成装置１００の構成の一例を示す図。参照フレーム決定用領域Ω_tを示す図。映像生成装置１００の動作の一例を示す図。映像生成装置２００の構成の一例を示す図。映像生成装置２００の動作の一例を示す図。

以下、本発明の実施の形態について、詳細に説明する。なお、同じ機能を有する構成部には同じ番号を付し、重複説明を省略する。

＜定義＞
欠損領域を含む映像とは、当該映像を構成する少なくとも１つのフレームに欠損領域がある映像のことをいう。また、映像の欠損領域を示すマスク情報とは、映像の各フレームの欠損領域を示す情報のことをいう。例えば、ピッチングシーンの映像を欠損領域を含む映像、ボールを注目する被写体とし、ボールの一部が他の被写体により覆い隠されている場合、ボールの一部を含む領域をマスク情報として指定することになる。

以下、詳しく説明する。欠損領域を含む映像を各フレーム時刻tのフレームV₁(x,y,t)の集合として表す。ここで、(x,y)はフレームの画素の座標位置を表し、V₁(x,y,t)は(x,y)にある画素の色を表すp次元ベクトルである。例えば、画素の色を表すためにＲＧＢ階調値を用いる場合は、p=3となる。欠損領域を含む映像に含まれる総フレーム数をN(Nは1以上の整数)とすると、V₁(x,y,t)(t=1,…,N)は欠損領域を含む映像を表す。

また、映像の欠損領域を示すマスク情報を各フレーム時刻tにおけるマスク情報V_D(x,y,t)の集合として表す。ここで、(x,y)はフレームの画素の座標位置を表し、V_D(x,y,t)は(x,y)が欠損領域に含まれるか否かを示す値である。例えば、(x,y)が欠損領域に含まれる場合、V_D(x,y,t)=1、含まれない場合、V_D(x,y,t)=0とするとよい。このようにすると、映像の欠損領域を示すマスク情報は、当該映像と同一サイズのフレームを同数含む二値動画として表されることになる。

映像の欠損領域を示すマスク情報は、各フレーム時刻tのフレームの欠損領域の和集合としても扱えるので、欠損領域に含まれる画素の座標位置(x,y)とフレーム時刻tの組を要素とする集合P={(x₁, y₁, t₁), …,(x_n, y_n, t_n)}として表すこともできる（ただし、フレーム時刻t_i(1≦i≦n)において(x_i, y_i)は欠損領域に含まれる）。この表現によると、あるフレーム時刻tにおける欠損領域は、{(x_i, y_i)|(x_i, y_i)は、t_i=tとなる集合Pの要素(x_i, y_i, t_i)の第１成分と第２成分の組である}と表すことができる。

画素の座標位置とフレーム時刻を用いて映像に含まれるすべての欠損領域を特定することができるという点で、上記２つの表現方法は等価であるので、以下、映像の欠損領域を示すマスク情報をD(x,y,t)(t=1,…,N)と表すこととする。

欠損領域を含む映像V₁(x,y,t)(t=1,…,N)の補完映像V₂(x,y,t)(t=1,…,N)とは、各フレーム時刻tのフレームV₁(x,y,t)に含まれる欠損領域を補完したフレームV₂(x,y,t)から構成される映像のことをいう。

＜第一実施形態＞
まず、図２〜図４を参照して映像生成装置１００について説明する。図２に示すように映像生成装置１００は、参照フレーム決定部１１０、映像補完部１２０、記録部１９０を含む。記録部１９０は、映像生成装置１００の処理に必要な情報を適宜記録する構成部である。

映像生成装置１００は、欠損領域を含む映像V₁(x,y,t)(t=1,…,N)と当該映像の欠損領域を示すマスク情報D(x,y,t)(t=1,…,N)から、各フレーム時刻tのフレームV₁(x,y,t)に含まれる欠損領域を補完したフレームV₂(x,y,t)から構成される補完映像V₂(x,y,t)(t=1,…,N)を生成する。

ここで、フレーム時刻ｔにおけるマスク情報D(x,y,t)が示す欠損領域に含まれる画素の位置座標(x,y)から構成される領域をフレーム時刻ｔにおける参照フレーム決定用領域Ω_tとする。フレーム時刻ｔにおける参照フレーム決定用領域Ω_tは、各フレームの同一位置を占める領域となる。例として、フレーム時刻t-1のフレーム、フレーム時刻tのフレーム、フレーム時刻t+1のフレームにおける参照フレーム決定用領域Ω_tを図３に示す。例えば、マスク情報を二値動画V_D(x,y,t)として表現している場合は、参照フレーム決定用領域Ω_t={(x,y)|V_D(x,y,t)=1}となる。

一般に、領域の境界を境にして、フレームの画素はその領域の内部の画素、外部の画素、境界上の画素に区別される。このことを踏まえて、参照フレーム決定用領域Ω_tのd-近傍N(Ω_t,d)を定義する。具体的には、dを0以上の整数として、参照フレーム決定用領域Ω_tのd-近傍N(Ω_t,d)とは、参照フレーム決定用領域Ω_tからの距離がd以下の、参照フレーム決定用領域Ω_tの外部または境界の画素の位置座標(x,y) から構成される領域であるとする。領域からの距離がdであるとは、領域のある点からの距離がdになることをいう。なお、dは画素を単位として測定するものであるので、フレームの縦横の解像度より小さい任意の値でよい。ただし、参照フレーム決定用領域Ω_tのd-近傍N(Ω_t,d)を用いて、参照フレーム決定用領域Ω_tに近接する領域の画素の情報（例えば、画素の色情報、前景・背景いずれの画素であるかの情報、どの被写体の画素であるかの情報など）を調べることが目的であるため、dを5以下の整数とするなど、dを比較的小さい値に設定する方が好ましい。特に、厳密に隣接するか否かを調べるのであれば、d=0とすればよい。この場合、参照フレーム決定用領域Ω_tのd-近傍N(Ω_t,d)は、参照フレーム決定用領域Ω_tの境界となる。

なお、参照フレーム決定用領域Ω_tのd-近傍N(Ω_t,d)も、フレーム時刻ｔにおける参照フレーム決定用領域Ω_tと同様、各フレームの同一位置を占める領域となる。

図４に従い映像生成装置１００の動作について説明する。参照フレーム決定部１１０は、参照フレーム決定用領域Ω_tに含まれるフレーム時刻tのフレームV₁(x,y,t)の画素の情報と参照フレーム決定用領域Ω_tのd-近傍N(Ω_t,d)に含まれるフレーム時刻t’のフレームV₁(x,y,t’)の画素の情報を用いて、フレーム時刻tのフレームV₁(x,y,t)に含まれる欠損領域を補完する際に用いる参照フレームのフレーム時刻R(t)を決定し、フレーム時刻R(t)の列である参照フレーム列{R(t)}(t=1,…,N)を生成する（Ｓ１１０）。ここで、R(t)はフレーム時刻tのフレームV₁(x,y,t)を補完するために用いる参照フレームV₁(x,y,t_r)のフレーム時刻t_rの集合である。また、参照フレーム決定用領域Ω_tに含まれるフレーム時刻tのフレームV₁(x,y,t)の画素の情報、参照フレーム決定用領域Ω_tのd-近傍N(Ω_t,d)に含まれるフレーム時刻t’のフレームV₁(x,y,t’)の画素の情報は、欠損領域を含む映像V₁(x,y,t)(t=1,…,N)から算出される。

参照フレーム決定部１１０での処理は、具体的には、以下のようになる。まず、参照フレーム決定部１１０は、参照フレーム決定用領域Ω_tに含まれるフレーム時刻tのフレームV₁(x,y,t)の画素の情報と参照フレーム決定用領域Ω_tのd-近傍N(Ω_t,d)に含まれるフレーム時刻tのフレームV₁(x,y,t)の画素の情報を用いて、フレームV₁(x,y,t)における参照フレーム決定用領域Ω_tの特徴と参照フレーム決定用領域Ω_tのd-近傍N(Ω_t,d)の特徴が類似していると判断される場合は、フレーム時刻tを参照フレームのフレーム時刻R(t)として決定する（つまり、R(t)={t}とする）。それ以外の場合は、参照フレーム決定用領域Ω_tに含まれるフレーム時刻tのフレームV₁(x,y,t)の画素の情報と参照フレーム決定用領域Ω_tのd-近傍N(Ω_t,d)に含まれるフレーム時刻t+1のフレームV₁(x,y,t+1)の画素の情報を用いて、フレームV₁(x,y,t)における参照フレーム決定用領域Ω_tの特徴とフレームV₁(x,y,t+1)における参照フレーム決定用領域Ω_tのd-近傍N(Ω_t,d)の特徴が類似しているか、参照フレーム決定用領域Ω_tに含まれるフレーム時刻tのフレームV₁(x,y,t)の画素の情報と参照フレーム決定用領域Ω_tのd-近傍N(Ω_t,d)に含まれるフレーム時刻t-1のフレームV₁(x,y,t-1)の画素の情報を用いて、フレームV₁(x,y,t)における参照フレーム決定用領域Ω_tの特徴とフレームV₁(x,y,t-1)における参照フレーム決定用領域Ω_tのd-近傍N(Ω_t,d)の特徴が類似していると判断されるとき、その類似していると判断されたフレーム時刻を参照フレームのフレーム時刻R(t)として決定する。このとき、２つとも類似していると判断された場合は、フレーム時刻t+1のみをR(t)として決定してもよいし（R(t)={t+1}）、フレーム時刻t-1のみをR(t)として決定してもよいし（R(t)={t-1}）、フレーム時刻t+1とフレーム時刻t-1の２つをR(t)として決定してもよい（R(t)={t-1,t+1}）。また、１つのみ類似していると判断された場合は、その類似していると判断されたフレーム時刻のみをR(t)として決定する（例えば、フレーム時刻t+1について類似していると判断されたときは、R(t)={t+1}）。２つとも類似していないと判断された場合は、フレーム時刻t+2のフレームV₁(x,y,t+2)とフレーム時刻t-2のフレームV₁(x,y,t-2)に対して同様の処理を繰り返す。このように、類似性の判断処理をフレーム時刻tから時間軸上近い順に繰り返していき、類似していると判断されるフレーム時刻t’が見つかった段階で処理を終了する。

以下、類似性判断方法の例として、色特徴量u(x,y,t)を用いる方法について説明する。例えば、色特徴量u(x,y,t)として、フレームV₁(x,y,t)の画素のＲＧＢ輝度情報を示す3次元ベクトルを用いることができる。この場合、当該ベクトルの各要素は0から255の値をとる。また、色特徴量u(x,y,t)として、当該ベクトルの各要素の平均値を用いることもできる。

以下、色特徴量u(x,y,t)として、上記平均値のようなスカラー量を用いる場合について説明する。参照フレーム決定用領域Ω_tに含まれるフレーム時刻tのフレームの画素の情報、d-近傍N(Ω_t,d)に含まれるフレーム時刻t’のフレームの画素の情報として、それぞれ参照フレーム決定用領域Ω_tに含まれるフレーム時刻tのフレームV₁(x,y,t)の画素の色特徴量u(x,y,t)から算出される平均色U_in(t)と参照フレーム決定用領域Ω_tのd-近傍N(Ω_t,d)に含まれるフレーム時刻t’のフレームV₁(x,y,t’)の画素の色特徴量u(x,y,t)から算出される平均色U_out(t)を用いる。この平均色U_in(t)と平均色U_out(t)を用いて、参照フレームのフレーム時刻R(t)を決定する。

参照フレーム決定用領域Ω_tに含まれるフレーム時刻tのフレームV₁(x,y,t)の平均色U_in(t)を次式で定義する。

ただし、u(x,y,t)はフレーム時刻tのフレームV₁(x,y,t)から算出される色特徴量である。ちなみに、分母は参照フレーム決定用領域Ω_tに含まれる画素の数に等しい。

また、参照フレーム決定用領域Ω_tのd-近傍N(Ω_t,d)に含まれるフレーム時刻t’のフレームV₁(x,y,t’)の平均色U_out(t’)を次式で定義する。

ただし、u(x,y,t’)はフレーム時刻t’のフレームV₁(x,y,t’)から算出される色特徴量である。ちなみに、分母は参照フレーム決定用領域Ω_tのd-近傍N(Ω_t,d)に含まれる画素の数に等しい。

以下、色特徴量u(x,y,t)を用いた類似性判断方法について説明する。まず、参照フレーム決定部１１０は、平均色U_in(t)と平均色U_out(t)の差である類似度ΔU(t)=|U_in(t)-U_out(t)|を算出し、類似度ΔU(t)が所定の閾値Thよりも小さい（以下である）場合、類似していると判断し、フレーム時刻tを参照フレームのフレーム時刻R(t)として決定し、R(t)={t}とする。なお、閾値Thは0以上255以下であれば任意の値を設定して構わないが、実用上は50〜150程度に設定するとよい。そうでない場合、つまり類似度ΔU(t)=|U_in(t)-U_out(t)|が閾値Th以上である（大きい）の場合は、例えば、フレーム時刻t+1,t-1,t+2,t-2,…のように、フレーム時刻ｔに時系列軸上で近い順から、類似度ΔU(t’)=|U_in(t)-U_out(t’)|を算出し、類似度ΔU(t’)と閾値Thと比較をし、U(t’)<Th(U(t’)≦Th)を満たすフレーム時刻t’を参照フレームのフレーム時刻R(t)として決定し、R(t)={t’}とする。

なお、類似度ΔU(t)が所定の閾値Thよりも小さい、または、類似度ΔU(t)が所定の閾値Th以下であることを、類似度ΔU(t)が小さいことを示す所定の範囲にあるという。

また、色特徴量u(x,y,t)としてp次元ベクトルを用いる場合は、ベクトルの要素ごとに同様の処理を行えばよい。例えば、ＲＧＢ輝度情報を示す3次元ベクトルを色特徴量u(x,y,t)として用いる場合、ＲＧＢの要素ごとに算出される平均色U_in ^R(t)とU_out ^R(t)、平均色U_in ^G(t)とU_out ^G(t)、平均色U_in ^B(t)とU_out ^B(t)を用いて、類似度ΔU(t)=|U_in ^R(t)-U_out ^R(t)|+ |U_in ^G(t)-U_out ^G(t)|+ |U_in ^B(t)-U_out ^B(t)|を算出し、閾値Thと大小比較をすればよい。もちろん、類似度ΔU(t)の算出は、上記L1ノルムに限られるものではなく、L2ノルムなどを用いてもよい。

映像補完部１２０は、Ｓ１１０で生成した参照フレーム列{R(t)}(t=1,…,N)を用いて、映像V₁(x,y,t)(t=1,…,N)とマスク情報D(x,y,t)(t=1,…,N)から、欠損領域を補完した補完映像V₂(x,y,t)(t=1,…,N)を生成する（Ｓ１２０）。映像補完部１２０は、例えば非特許文献２の方法を用いて映像V₁(x,y,t)(t=1,…,N)の各フレーム時刻tのフレームV₁(x,y,t)について、欠損領域を補完した補完フレームV₂(x,y,t)を生成していき、最終的に補完映像V₂(x,y,t)(t=1,…,N)を生成する。補完処理は、非特許文献２のようなパッチ単位で処理するもので限られるものではなく、欠損領域を補完できるものであればどのような方法を用いてもよい。非特許文献２により補完フレームV₂(x,y,t)を生成する場合は、R(t)で指定される参照フレームを探索空間として見つけだした類似パッチを用いて、マスク情報D(x,y,t)が示す欠損領域をパッチ単位で逐次補完していく。

本実施形態の発明によれば、欠損領域を含むフレームを補完するために用いる参照フレームを映像に含まれるフレームの中から効率的に決定することができる。したがって、補完に用いる画像群を格納したデータベースを事前に用意する必要がなくなる。また、補完処理の実行中、補完に用いる画像群をネットワーク上で検索する必要がなくなるため、より高速に補完処理を実行することができる。

また、同一のカメラで撮影した一連の映像のフレームの中から補完処理に用いる参照フレームを探索することにより、補完処理に用いる参照フレームが決定できないという問題が発生することを避けることもできる。

＜第二実施形態＞
まず、図５〜図６を参照して映像生成装置２００について説明する。図５に示すように映像生成装置２００は、参照フレーム決定部２１０、映像補完部１２０、記録部１９０を含む。記録部１９０は、映像生成装置２００の処理に必要な情報を適宜記録する構成部である。

映像生成装置２００の入力となる欠損領域を含む映像は、映像生成装置１００と異なり、各フレーム時刻tのフレームV₁(x,y,t)がセグメントと呼ばれる領域に分割されており、各セグメントにはタグが付与されている。このタグが付与された欠損領域を含む映像のことを、欠損領域を含むタグ付き映像という。また、セグメントとは、類似する画素からなる領域であり、タグとはセグメントの種別情報（例えば、被写体名、前景・背景の種別）である。

この欠損領域を含むタグ付き映像を、欠損領域を含む映像から生成する方法について説明する。ここでは、画像を複数のセグメントに分割する手法であるセグメンテーションと呼ばれる手法を用いる。セグメンテーション手法の例として、参考非特許文献１の手法がある。この手法では、類似した色や構造を用いて類似した画素群を１つのセグメントにまとめ、入力画像を複数のセグメントに分割する。
（参考非特許文献１）S. Chen, L. Cao, Y. Wang, J. Liu, X. Tang, “Image Segmentation by MAP-ML Estimations”, IEEE Trans. on Image Processing, Vol.19, Issue 9, pp.2254-2264, 2010.

この手法を用いると、映像の各フレームで背景に属する画素の位置座標を知ることが可能となる。

欠損領域を含むタグ付き映像を生成する方法について、具体的に説明する。まず、映像の各フレームをセグメンテーション処理によりセグメント化し、各フレームに対してセグメントの集合を生成しておく。次に、先頭のフレームの各セグメントに対して、ユーザが手動で被写体名と前景・背景の種別のタグを付与する。２番目以降のフレームについては、直前のフレームの各セグメントにタグが付与されていることから、現フレームの各セグメントに対して同一・類似する直前のフレームのセグメントを検出し、検出したセグメントに付与されたタグを現フレームのセグメントに対して付与する。この処理を最後のフレームまで繰り返す。これにより欠損領域を含むタグ付き映像が生成され、映像の各フレームのセグメントが背景であるのか、前景であるのかを知ることが可能となる。例えば、ピッチングシーンの映像が入力された場合、セグメントに付されるタグの例としては、（マウンド、背景）、（選手、前景）、（フェンス、背景）等がある。

映像生成装置２００は、欠損領域を含むタグ付き映像V₁(x,y,t)(t=1,…,N)と当該映像の欠損領域を示すマスク情報D(x,y,t)(t=1,…,N)から、各フレーム時刻tのフレームV₁(x,y,t)に含まれる欠損領域を補完したフレームV₂(x,y,t)から構成される補完映像V₂(x,y,t)(t=1,…,N)を生成する。

図６に従い映像生成装置２００の動作について説明する。参照フレーム決定部２１０は、参照フレーム決定用領域Ω_tのd-近傍N(Ω_t,d)に含まれるフレーム時刻t’のフレームV₁(x,y,t’)の画素の情報を用いて、フレーム時刻tのフレームV₁(x,y,t)に含まれる欠損領域を補完する際に用いる参照フレームのフレーム時刻R(t)を決定し、フレーム時刻R(t)の列である参照フレーム列{R(t)}(t=1,…,N)を生成する（Ｓ２１０）。ここで、参照フレーム決定用領域Ω_tのd-近傍N(Ω_t,d)に含まれるフレーム時刻t’のフレームV₁(x,y,t’)の画素の情報は、欠損領域を含むタグ付き映像V₁(x,y,t)(t=1,…,N)から算出される。

参照フレーム決定部２１０での処理は、具体的には、以下のようになる。まず、参照フレーム決定部２１０は、参照フレーム決定用領域Ω_tのd-近傍N(Ω_t,d)に含まれるフレーム時刻tのフレームV₁(x,y,t)の画素が属するセグメントに付与されているタグが背景を示す情報を含んでいると判断される場合は、フレーム時刻tを参照フレームのフレーム時刻R(t)として決定する（つまり、R(t)={t}とする）。それ以外の場合は、参照フレーム決定用領域Ω_tのd-近傍N(Ω_t,d)に含まれるフレーム時刻t+1のフレームV₁(x,y,t+1)の画素が属するセグメントに付与されているタグが背景を示す情報を含んでいるか、参照フレーム決定用領域Ω_tのd-近傍N(Ω_t,d)に含まれるフレーム時刻t-1のフレームV₁(x,y,t-1)の画素が属するセグメントに付与されているタグが背景を示す情報を含んでいると判断されるとき、その含んでいると判断されたフレーム時刻を参照フレームのフレーム時刻R(t)として決定する。このとき、２つとも含んでいる場合は、フレーム時刻t+1のみをR(t)として決定してもよいし（R(t)={t+1}）、フレーム時刻t-1のみをR(t)として決定してもよいし（R(t)={t-1}）、フレーム時刻t+1とフレーム時刻t-1の２つをR(t)として決定してもよい（R(t)={t-1,t+1}）。また、１つのみ含んでいると判断された場合は、その含んでいるフレーム時刻のみをR(t)として決定する（例えば、フレーム時刻t+1について含んでいると判断されたときは、R(t)={t+1}）。２つとも含んでいない場合は、フレーム時刻t+2のフレームV₁(x,y,t+2)とフレーム時刻t-2のフレームV₁(x,y,t-2)に対して同様の処理を繰り返す。このように、背景に属する画素の有無の判定処理をフレーム時刻tから時間軸上近い順に繰り返していき、含んでいるフレーム時刻t’が見つかった段階で処理を終了する。

映像補完部１２０は、Ｓ２１０で生成した参照フレーム列{R(t)}(t=1,…,N)を用いて、映像V₁(x,y,t)(t=1,…,N)とマスク情報D(x,y,t)(t=1,…,N)から、欠損領域を補完した補完映像V₂(x,y,t)(t=1,…,N)を生成する（Ｓ１２０）。

本実施形態では、欠損領域を含むタグ付き映像を映像生成装置２００の入力としたが、映像生成装置１００と同様、欠損領域を含む映像を映像生成装置２００の入力としてもよい。つまり、映像生成装置２００における処理を実行中に、逐次各フレームに対してセグメンテーションを行い、タグを付与していくように処理をしてもよい。この場合、先頭のフレームについてのみ各セグメントにタグが事前に付与されている必要がある。また、各フレーム時刻tのフレームV₁(x,y,t)には、参照フレーム決定部２１０での処理対象となるまでに、例えば、参考非特許文献１の手法により生成した各セグメントにタグが付与しておけばよい。

＜変形例＞
この発明は上述の実施形態に限定されるものではなく、この発明の趣旨を逸脱しない範囲で適宜変更が可能であることはいうまでもない。上記実施形態において説明した各種の処理は、記載の順に従って時系列に実行されるのみならず、処理を実行する装置の処理能力あるいは必要に応じて並列的にあるいは個別に実行されてもよい。

＜補記＞
本発明の装置は、例えば単一のハードウェアエンティティとして、キーボードなどが接続可能な入力部、液晶ディスプレイなどが接続可能な出力部、ハードウェアエンティティの外部に通信可能な通信装置（例えば通信ケーブル）が接続可能な通信部、ＣＰＵ（Central Processing Unit、キャッシュメモリやレジスタなどを備えていてもよい）、メモリであるＲＡＭやＲＯＭ、ハードディスクである外部記憶装置並びにこれらの入力部、出力部、通信部、ＣＰＵ、ＲＡＭ、ＲＯＭ、外部記憶装置の間のデータのやり取りが可能なように接続するバスを有している。また必要に応じて、ハードウェアエンティティに、ＣＤ−ＲＯＭなどの記録媒体を読み書きできる装置（ドライブ）などを設けることとしてもよい。このようなハードウェア資源を備えた物理的実体としては、汎用コンピュータなどがある。

ハードウェアエンティティの外部記憶装置には、上述の機能を実現するために必要となるプログラムおよびこのプログラムの処理において必要となるデータなどが記憶されている（外部記憶装置に限らず、例えばプログラムを読み出し専用記憶装置であるＲＯＭに記憶させておくこととしてもよい）。また、これらのプログラムの処理によって得られるデータなどは、ＲＡＭや外部記憶装置などに適宜に記憶される。

ハードウェアエンティティでは、外部記憶装置（あるいはＲＯＭなど）に記憶された各プログラムとこの各プログラムの処理に必要なデータが必要に応じてメモリに読み込まれて、適宜にＣＰＵで解釈実行・処理される。その結果、ＣＰＵが所定の機能（上記、…部、…手段などと表した各構成要件）を実現する。

本発明は上述の実施形態に限定されるものではなく、本発明の趣旨を逸脱しない範囲で適宜変更が可能である。また、上記実施形態において説明した処理は、記載の順に従って時系列に実行されるのみならず、処理を実行する装置の処理能力あるいは必要に応じて並列的にあるいは個別に実行されるとしてもよい。

既述のように、上記実施形態において説明したハードウェアエンティティ（本発明の装置）における処理機能をコンピュータによって実現する場合、ハードウェアエンティティが有すべき機能の処理内容はプログラムによって記述される。そして、このプログラムをコンピュータで実行することにより、上記ハードウェアエンティティにおける処理機能がコンピュータ上で実現される。

この処理内容を記述したプログラムは、コンピュータで読み取り可能な記録媒体に記録しておくことができる。コンピュータで読み取り可能な記録媒体としては、例えば、磁気記録装置、光ディスク、光磁気記録媒体、半導体メモリ等どのようなものでもよい。具体的には、例えば、磁気記録装置として、ハードディスク装置、フレキシブルディスク、磁気テープ等を、光ディスクとして、ＤＶＤ（Digital Versatile Disc）、ＤＶＤ−ＲＡＭ（Random Access Memory）、ＣＤ−ＲＯＭ（Compact Disc Read Only Memory）、ＣＤ−Ｒ（Recordable）／ＲＷ（ReWritable）等を、光磁気記録媒体として、ＭＯ（Magneto-Optical disc）等を、半導体メモリとしてＥＥＰ−ＲＯＭ（Electronically Erasable and Programmable-Read Only Memory）等を用いることができる。

また、このプログラムの流通は、例えば、そのプログラムを記録したＤＶＤ、ＣＤ−ＲＯＭ等の可搬型記録媒体を販売、譲渡、貸与等することによって行う。さらに、このプログラムをサーバコンピュータの記憶装置に格納しておき、ネットワークを介して、サーバコンピュータから他のコンピュータにそのプログラムを転送することにより、このプログラムを流通させる構成としてもよい。

このようなプログラムを実行するコンピュータは、例えば、まず、可搬型記録媒体に記録されたプログラムもしくはサーバコンピュータから転送されたプログラムを、一旦、自己の記憶装置に格納する。そして、処理の実行時、このコンピュータは、自己の記録媒体に格納されたプログラムを読み取り、読み取ったプログラムに従った処理を実行する。また、このプログラムの別の実行形態として、コンピュータが可搬型記録媒体から直接プログラムを読み取り、そのプログラムに従った処理を実行することとしてもよく、さらに、このコンピュータにサーバコンピュータからプログラムが転送されるたびに、逐次、受け取ったプログラムに従った処理を実行することとしてもよい。また、サーバコンピュータから、このコンピュータへのプログラムの転送は行わず、その実行指示と結果取得のみによって処理機能を実現する、いわゆるＡＳＰ（Application Service Provider）型のサービスによって、上述の処理を実行する構成としてもよい。なお、本形態におけるプログラムには、電子計算機による処理の用に供する情報であってプログラムに準ずるもの（コンピュータに対する直接の指令ではないがコンピュータの処理を規定する性質を有するデータ等）を含むものとする。

また、この形態では、コンピュータ上で所定のプログラムを実行させることにより、ハードウェアエンティティを構成することとしたが、これらの処理内容の少なくとも一部をハードウェア的に実現することとしてもよい。

Claims

欠損領域を含む映像V₁(x,y,t)(t=1,…,N、Nはフレーム総数、(x,y)はフレームの画素の座標位置)と前記映像V₁(x,y,t)(t=1,…,N)の欠損領域を示すマスク情報D(x,y,t)(t=1,…,N)から、各フレーム時刻tのフレームV₁(x,y,t)に含まれる欠損領域を補完したフレームV₂(x,y,t)から構成される補完映像V₂(x,y,t)(t=1,…,N)を生成する映像生成装置であって、
フレーム時刻ｔにおけるマスク情報D(x,y,t)が示す欠損領域に含まれる画素の位置座標(x,y)から構成される領域をフレーム時刻ｔにおける参照フレーム決定用領域Ω_t、参照フレーム決定用領域Ω_tからの距離がd（dは0以上の整数）以下の、参照フレーム決定用領域Ω_tの外部または境界の画素の位置座標(x,y) から構成される領域を参照フレーム決定用領域Ω_tのd-近傍N(Ω_t,d)とし、
前記参照フレーム決定用領域Ω_tに含まれるフレーム時刻tのフレームV₁(x,y,t)の画素の情報と前記d-近傍N(Ω_t,d)に含まれるフレーム時刻t’のフレームV₁(x,y,t’)の画素の情報を用いて、フレーム時刻tのフレームV₁(x,y,t)に含まれる欠損領域を補完する際に用いる参照フレームのフレーム時刻R(t)を決定し、前記フレーム時刻R(t)の列である参照フレーム列{R(t)}(t=1,…,N)を生成する参照フレーム生成部と、
前記参照フレーム列{R(t)}(t=1,…,N)を用いて、前記映像V₁(x,y,t)(t=1,…,N)と前記マスク情報D(x,y,t)(t=1,…,N)から、前記補完映像V₂(x,y,t)(t=1,…,N)を生成する映像補完部と
を含む映像生成装置。
請求項１に記載の映像生成装置であって、
前記参照フレーム生成部は、前記フレーム時刻t’=tとし、前記参照フレーム決定用領域Ω_tに含まれるフレーム時刻tのフレームV₁(x,y,t)の画素の情報と前記d-近傍N(Ω_t,d)に含まれるフレーム時刻tのフレームV₁(x,y,t)の画素の情報を用いて、フレームV₁(x,y,t)における参照フレーム決定用領域Ω_tの特徴と参照フレーム決定用領域Ω_tのd-近傍N(Ω_t,d)の特徴が類似していると判断される場合は、フレーム時刻tを参照フレームのフレーム時刻R(t)として決定し、それ以外の場合は、フレーム時刻tとは異なるフレーム時刻t’を参照フレームのフレーム時刻R(t)として決定する
ことを特徴とする映像生成装置。
請求項１または２に記載の映像生成装置であって、
前記参照フレーム決定用領域Ω_tに含まれるフレーム時刻tのフレームV₁(x,y,t)の画素の情報とは、次式で定義される前記参照フレーム決定用領域Ω_tに含まれる画素の平均色U_in(t)であり、

（ただし、u(x,y,t)はフレーム時刻tのフレームV₁(x,y,t)から算出される色特徴量である）
前記参照フレーム決定用領域Ω_tのd-近傍N(Ω_t,d)に含まれるフレーム時刻t’のフレームV₁(x,y,t’) の画素の情報とは、次式で定義される前記d-近傍N(Ω_t,d)に含まれる画素の平均色U_out(t’)である

（ただし、u(x,y,t’)はフレーム時刻t’のフレームV₁(x,y,t’)から算出される色特徴量である）
ことを特徴とする映像生成装置。
映像生成装置が、欠損領域を含む映像V₁(x,y,t)(t=1,…,N、Nはフレーム総数、(x,y)はフレームの画素の座標位置)と前記映像V₁(x,y,t)(t=1,…,N)の欠損領域を示すマスク情報D(x,y,t)(t=1,…,N)から、各フレーム時刻tのフレームV₁(x,y,t)に含まれる欠損領域を補完したフレームV₂(x,y,t)から構成される補完映像V₂(x,y,t)(t=1,…,N)を生成する映像生成方法であって、
フレーム時刻ｔにおけるマスク情報D(x,y,t)が示す欠損領域に含まれる画素の位置座標(x,y)から構成される領域をフレーム時刻ｔにおける参照フレーム決定用領域Ω_t、参照フレーム決定用領域Ω_tからの距離がd（dは0以上の整数）以下の、参照フレーム決定用領域Ω_tの外部または境界の画素の位置座標(x,y) から構成される領域を参照フレーム決定用領域Ω_tのd-近傍N(Ω_t,d)とし、
前記映像生成装置が、前記参照フレーム決定用領域Ω_tに含まれるフレーム時刻tのフレームV₁(x,y,t)の画素の情報と前記d-近傍N(Ω_t,d)に含まれるフレーム時刻t’のフレームV₁(x,y,t’)の画素の情報を用いて、フレーム時刻tのフレームV₁(x,y,t)に含まれる欠損領域を補完する際に用いる参照フレームのフレーム時刻R(t)を決定し、前記フレーム時刻R(t)の列である参照フレーム列{R(t)}(t=1,…,N)を生成する参照フレーム生成ステップと、
前記映像生成装置が、前記参照フレーム列{R(t)}(t=1,…,N)を用いて、前記映像V₁(x,y,t)(t=1,…,N)と前記マスク情報D(x,y,t)(t=1,…,N)から、前記補完映像V₂(x,y,t)(t=1,…,N)を生成する映像補完ステップと
を含む映像生成方法。
請求項１ないし３のいずれか１項に記載の映像生成装置としてコンピュータを機能させるためのプログラム。