JP6563964B2 - 映像生成装置、映像生成方法、プログラム - Google Patents

映像生成装置、映像生成方法、プログラム Download PDF

Info

Publication number
JP6563964B2
JP6563964B2 JP2017004487A JP2017004487A JP6563964B2 JP 6563964 B2 JP6563964 B2 JP 6563964B2 JP 2017004487 A JP2017004487 A JP 2017004487A JP 2017004487 A JP2017004487 A JP 2017004487A JP 6563964 B2 JP6563964 B2 JP 6563964B2
Authority
JP
Japan
Prior art keywords
frame
video
reference frame
time
frame time
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2017004487A
Other languages
English (en)
Other versions
JP2018113648A (ja
Inventor
麻理子 五十川
麻理子 五十川
弾 三上
弾 三上
康輔 高橋
康輔 高橋
木全 英明
英明 木全
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP2017004487A priority Critical patent/JP6563964B2/ja
Publication of JP2018113648A publication Critical patent/JP2018113648A/ja
Application granted granted Critical
Publication of JP6563964B2 publication Critical patent/JP6563964B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Studio Devices (AREA)

Description

本発明は、映像生成技術に関し、特に本来あるべき被写体の一部が覆い隠された場合に、その覆い隠された部分を補完した映像を生成する技術に関する。
写真や映像を撮影すると、撮影したい被写体に被さって不要なものを撮影してしまうことがある。被写体に被さって不要なものを撮影した写真や映像は、視聴の体感品質を大きく損なう恐れがあるため、このような不要な映り込みを見た目に違和感なく除去し本来あるべき被写体の画像情報を補完するという手法に対する需要は、極めて高い。
以下、写真や映像における、不要なものが映り込んだ領域や遮蔽などで観測されていない領域などの、本来あるべき被写体の画像情報で補完する領域を欠損領域という。この欠損領域は、本来あるべき被写体の一部が覆い隠された領域を含む領域である。また、欠損領域を示すマスク情報を用いて、欠損領域を含む画像から、被写体の一部が覆い隠された領域と当該領域以外の領域との見た目が違和感ないよう補完された画像である補完画像を生成する処理を補完処理(コンプリーション)という。
欠損領域を示すマスク情報は、静止画・動画いずれの場合も、ユーザが直接指定してもよいし、非特許文献1にあるような公知の手法を用いて与えてもよい。また、静止画・動画の補完処理の方法(コンプリーション方法)として、非特許文献2のようにパッチと呼ばれる小領域単位で逐次補完を行う方法がある。
なお、補完処理の対象となる欠損領域を示す情報であるマスク情報を与える方法として、例えば、図1(a)に示すように欠損領域を含む画像とマスク情報を別々に与える方法がある。この方法では、マスク情報を補完処理の対象となる領域とそれ以外の領域を二値画像として与える。また、図1(b)に示すように欠損領域を含む画像にマスク情報を重畳して与える方法がある。この方法では、マスク情報を画像で使用されていない判別が容易な色を用いて与える。
X. Bai, J. Wang, D. Simons, G. Sapiro, "Video snapcut: robust video object cutout using localized classifiers", ACM Trans. on Graphics, Vol.28, Issue 3, 2009. A. Criminisi, P. Perez, K. Toyama, "Region filling and object removal by examplar-based inpainting", IEEE Trans. on Image Processing, Vol.13, No. 9, pp.1200-1212, 2004.
欠損領域を含む映像(欠損領域を含むフレームを含む映像)を補完する映像補完処理では、データベースに格納した画像群やネットワーク上に存在する画像群の中から欠損領域を含むフレームの補完に用いる画像を決定するのでなく、映像を構成するフレーム群から補完に用いる画像(フレーム)を決定することができる。この場合、同一映像の全フレームの中から補完に用いるフレーム(以下、参照フレームという)を決定し補完する方が、例えば、欠損領域を含むフレームを参照フレームとして補完するのと比較して、より補完に適した領域を含む参照フレームが見つかる可能性があるため、より良好な補完映像を生成することができる。
しかし、補完に用いる参照フレームの決定に要する時間と生成される補完映像の品質には、トレードオフの関係が存在する。つまり、同一映像の全フレームを対象として参照フレームを決定するようにすると、参照フレーム決定に膨大な計算コストが必要となり、長時間要してしまうという問題がある。
そのため、参照フレーム決定にかかる時間が長時間に及ぶことが許容できない場合、ユーザが参照フレームの候補を映像の全フレームから手動で絞り込むことにより、計算コストの低減を図るなどの対応が必要になるが、ユーザが処理に介在するため、著しくユーザビリティを損ねてしまう。
そこで本発明は、欠損領域を含むフレームを補完するために用いる参照フレームを映像に含まれるフレームの中から効率的に決定し、補完映像を生成することができる映像生成技術を提供することを目的とする。
本発明の一態様は、欠損領域を含む映像V1(x,y,t)(t=1,…,N、Nはフレーム総数、(x,y)はフレームの画素の座標位置)と前記映像V1(x,y,t)(t=1,…,N)の欠損領域を示すマスク情報D(x,y,t)(t=1,…,N)から、各フレーム時刻tのフレームV1(x,y,t)に含まれる欠損領域を補完したフレームV2(x,y,t)から構成される補完映像V2(x,y,t)(t=1,…,N)を生成する映像生成装置であって、フレーム時刻tにおけるマスク情報D(x,y,t)が示す欠損領域に含まれる画素の位置座標(x,y)から構成される領域をフレーム時刻tにおける参照フレーム決定用領域Ωt、参照フレーム決定用領域Ωtからの距離がd(dは0以上の整数)以下の、参照フレーム決定用領域Ωtの外部または境界の画素の位置座標(x,y) から構成される領域を参照フレーム決定用領域Ωtのd-近傍N(Ωt,d)とし、前記参照フレーム決定用領域Ωtに含まれるフレーム時刻tのフレームV1(x,y,t)の画素の情報と前記d-近傍N(Ωt,d)に含まれるフレーム時刻t’のフレームV1(x,y,t’)の画素の情報を用いて、フレーム時刻tのフレームV1(x,y,t)に含まれる欠損領域を補完する際に用いる参照フレームのフレーム時刻R(t)を決定し、前記フレーム時刻R(t)の列である参照フレーム列{R(t)}(t=1,…,N)を生成する参照フレーム生成部と、前記参照フレーム列{R(t)}(t=1,…,N)を用いて、前記映像V1(x,y,t)(t=1,…,N)と前記マスク情報D(x,y,t)(t=1,…,N)から、前記補完映像V2(x,y,t)(t=1,…,N)を生成する映像補完部とを含む。
本発明によれば、欠損領域を含むフレームを補完するために用いる参照フレームを映像に含まれるフレームの中から効率的に決定することが可能となる。
欠損領域を含む画像とマスク情報の例を示す図。 映像生成装置100の構成の一例を示す図。 参照フレーム決定用領域Ωtを示す図。 映像生成装置100の動作の一例を示す図。 映像生成装置200の構成の一例を示す図。 映像生成装置200の動作の一例を示す図。
以下、本発明の実施の形態について、詳細に説明する。なお、同じ機能を有する構成部には同じ番号を付し、重複説明を省略する。
<定義>
欠損領域を含む映像とは、当該映像を構成する少なくとも1つのフレームに欠損領域がある映像のことをいう。また、映像の欠損領域を示すマスク情報とは、映像の各フレームの欠損領域を示す情報のことをいう。例えば、ピッチングシーンの映像を欠損領域を含む映像、ボールを注目する被写体とし、ボールの一部が他の被写体により覆い隠されている場合、ボールの一部を含む領域をマスク情報として指定することになる。
以下、詳しく説明する。欠損領域を含む映像を各フレーム時刻tのフレームV1(x,y,t)の集合として表す。ここで、(x,y)はフレームの画素の座標位置を表し、V1(x,y,t)は(x,y)にある画素の色を表すp次元ベクトルである。例えば、画素の色を表すためにRGB階調値を用いる場合は、p=3となる。欠損領域を含む映像に含まれる総フレーム数をN(Nは1以上の整数)とすると、V1(x,y,t)(t=1,…,N)は欠損領域を含む映像を表す。
また、映像の欠損領域を示すマスク情報を各フレーム時刻tにおけるマスク情報VD(x,y,t)の集合として表す。ここで、(x,y)はフレームの画素の座標位置を表し、VD(x,y,t)は(x,y)が欠損領域に含まれるか否かを示す値である。例えば、(x,y)が欠損領域に含まれる場合、VD(x,y,t)=1、含まれない場合、VD(x,y,t)=0とするとよい。このようにすると、映像の欠損領域を示すマスク情報は、当該映像と同一サイズのフレームを同数含む二値動画として表されることになる。
映像の欠損領域を示すマスク情報は、各フレーム時刻tのフレームの欠損領域の和集合としても扱えるので、欠損領域に含まれる画素の座標位置(x,y)とフレーム時刻tの組を要素とする集合P={(x1, y1, t1), …,(xn, yn, tn)}として表すこともできる(ただし、フレーム時刻ti(1≦i≦n)において(xi, yi)は欠損領域に含まれる)。この表現によると、あるフレーム時刻tにおける欠損領域は、{(xi, yi)|(xi, yi)は、ti=tとなる集合Pの要素(xi, yi, ti)の第1成分と第2成分の組である}と表すことができる。
画素の座標位置とフレーム時刻を用いて映像に含まれるすべての欠損領域を特定することができるという点で、上記2つの表現方法は等価であるので、以下、映像の欠損領域を示すマスク情報をD(x,y,t)(t=1,…,N)と表すこととする。
欠損領域を含む映像V1(x,y,t)(t=1,…,N)の補完映像V2(x,y,t)(t=1,…,N)とは、各フレーム時刻tのフレームV1(x,y,t)に含まれる欠損領域を補完したフレームV2(x,y,t)から構成される映像のことをいう。
<第一実施形態>
まず、図2〜図4を参照して映像生成装置100について説明する。図2に示すように映像生成装置100は、参照フレーム決定部110、映像補完部120、記録部190を含む。記録部190は、映像生成装置100の処理に必要な情報を適宜記録する構成部である。
映像生成装置100は、欠損領域を含む映像V1(x,y,t)(t=1,…,N)と当該映像の欠損領域を示すマスク情報D(x,y,t)(t=1,…,N)から、各フレーム時刻tのフレームV1(x,y,t)に含まれる欠損領域を補完したフレームV2(x,y,t)から構成される補完映像V2(x,y,t)(t=1,…,N)を生成する。
ここで、フレーム時刻tにおけるマスク情報D(x,y,t)が示す欠損領域に含まれる画素の位置座標(x,y)から構成される領域をフレーム時刻tにおける参照フレーム決定用領域Ωtとする。フレーム時刻tにおける参照フレーム決定用領域Ωtは、各フレームの同一位置を占める領域となる。例として、フレーム時刻t-1のフレーム、フレーム時刻tのフレーム、フレーム時刻t+1のフレームにおける参照フレーム決定用領域Ωtを図3に示す。例えば、マスク情報を二値動画VD(x,y,t)として表現している場合は、参照フレーム決定用領域Ωt={(x,y)|VD(x,y,t)=1}となる。
一般に、領域の境界を境にして、フレームの画素はその領域の内部の画素、外部の画素、境界上の画素に区別される。このことを踏まえて、参照フレーム決定用領域Ωtのd-近傍N(Ωt,d)を定義する。具体的には、dを0以上の整数として、参照フレーム決定用領域Ωtのd-近傍N(Ωt,d)とは、参照フレーム決定用領域Ωtからの距離がd以下の、参照フレーム決定用領域Ωtの外部または境界の画素の位置座標(x,y) から構成される領域であるとする。領域からの距離がdであるとは、領域のある点からの距離がdになることをいう。なお、dは画素を単位として測定するものであるので、フレームの縦横の解像度より小さい任意の値でよい。ただし、参照フレーム決定用領域Ωtのd-近傍N(Ωt,d)を用いて、参照フレーム決定用領域Ωtに近接する領域の画素の情報(例えば、画素の色情報、前景・背景いずれの画素であるかの情報、どの被写体の画素であるかの情報など)を調べることが目的であるため、dを5以下の整数とするなど、dを比較的小さい値に設定する方が好ましい。特に、厳密に隣接するか否かを調べるのであれば、d=0とすればよい。この場合、参照フレーム決定用領域Ωtのd-近傍N(Ωt,d)は、参照フレーム決定用領域Ωtの境界となる。
なお、参照フレーム決定用領域Ωtのd-近傍N(Ωt,d)も、フレーム時刻tにおける参照フレーム決定用領域Ωtと同様、各フレームの同一位置を占める領域となる。
図4に従い映像生成装置100の動作について説明する。参照フレーム決定部110は、参照フレーム決定用領域Ωtに含まれるフレーム時刻tのフレームV1(x,y,t)の画素の情報と参照フレーム決定用領域Ωtのd-近傍N(Ωt,d)に含まれるフレーム時刻t’のフレームV1(x,y,t’)の画素の情報を用いて、フレーム時刻tのフレームV1(x,y,t)に含まれる欠損領域を補完する際に用いる参照フレームのフレーム時刻R(t)を決定し、フレーム時刻R(t)の列である参照フレーム列{R(t)}(t=1,…,N)を生成する(S110)。ここで、R(t)はフレーム時刻tのフレームV1(x,y,t)を補完するために用いる参照フレームV1(x,y,tr)のフレーム時刻trの集合である。また、参照フレーム決定用領域Ωtに含まれるフレーム時刻tのフレームV1(x,y,t)の画素の情報、参照フレーム決定用領域Ωtのd-近傍N(Ωt,d)に含まれるフレーム時刻t’のフレームV1(x,y,t’)の画素の情報は、欠損領域を含む映像V1(x,y,t)(t=1,…,N)から算出される。
参照フレーム決定部110での処理は、具体的には、以下のようになる。まず、参照フレーム決定部110は、参照フレーム決定用領域Ωtに含まれるフレーム時刻tのフレームV1(x,y,t)の画素の情報と参照フレーム決定用領域Ωtのd-近傍N(Ωt,d)に含まれるフレーム時刻tのフレームV1(x,y,t)の画素の情報を用いて、フレームV1(x,y,t)における参照フレーム決定用領域Ωtの特徴と参照フレーム決定用領域Ωtのd-近傍N(Ωt,d)の特徴が類似していると判断される場合は、フレーム時刻tを参照フレームのフレーム時刻R(t)として決定する(つまり、R(t)={t}とする)。それ以外の場合は、参照フレーム決定用領域Ωtに含まれるフレーム時刻tのフレームV1(x,y,t)の画素の情報と参照フレーム決定用領域Ωtのd-近傍N(Ωt,d)に含まれるフレーム時刻t+1のフレームV1(x,y,t+1)の画素の情報を用いて、フレームV1(x,y,t)における参照フレーム決定用領域Ωtの特徴とフレームV1(x,y,t+1)における参照フレーム決定用領域Ωtのd-近傍N(Ωt,d)の特徴が類似しているか、参照フレーム決定用領域Ωtに含まれるフレーム時刻tのフレームV1(x,y,t)の画素の情報と参照フレーム決定用領域Ωtのd-近傍N(Ωt,d)に含まれるフレーム時刻t-1のフレームV1(x,y,t-1)の画素の情報を用いて、フレームV1(x,y,t)における参照フレーム決定用領域Ωtの特徴とフレームV1(x,y,t-1)における参照フレーム決定用領域Ωtのd-近傍N(Ωt,d)の特徴が類似していると判断されるとき、その類似していると判断されたフレーム時刻を参照フレームのフレーム時刻R(t)として決定する。このとき、2つとも類似していると判断された場合は、フレーム時刻t+1のみをR(t)として決定してもよいし(R(t)={t+1})、フレーム時刻t-1のみをR(t)として決定してもよいし(R(t)={t-1})、フレーム時刻t+1とフレーム時刻t-1の2つをR(t)として決定してもよい(R(t)={t-1,t+1})。また、1つのみ類似していると判断された場合は、その類似していると判断されたフレーム時刻のみをR(t)として決定する(例えば、フレーム時刻t+1について類似していると判断されたときは、R(t)={t+1})。2つとも類似していないと判断された場合は、フレーム時刻t+2のフレームV1(x,y,t+2)とフレーム時刻t-2のフレームV1(x,y,t-2)に対して同様の処理を繰り返す。このように、類似性の判断処理をフレーム時刻tから時間軸上近い順に繰り返していき、類似していると判断されるフレーム時刻t’が見つかった段階で処理を終了する。
以下、類似性判断方法の例として、色特徴量u(x,y,t)を用いる方法について説明する。例えば、色特徴量u(x,y,t)として、フレームV1(x,y,t)の画素のRGB輝度情報を示す3次元ベクトルを用いることができる。この場合、当該ベクトルの各要素は0から255の値をとる。また、色特徴量u(x,y,t)として、当該ベクトルの各要素の平均値を用いることもできる。
以下、色特徴量u(x,y,t)として、上記平均値のようなスカラー量を用いる場合について説明する。参照フレーム決定用領域Ωtに含まれるフレーム時刻tのフレームの画素の情報、d-近傍N(Ωt,d)に含まれるフレーム時刻t’のフレームの画素の情報として、それぞれ参照フレーム決定用領域Ωtに含まれるフレーム時刻tのフレームV1(x,y,t)の画素の色特徴量u(x,y,t)から算出される平均色Uin(t)と参照フレーム決定用領域Ωtのd-近傍N(Ωt,d)に含まれるフレーム時刻t’のフレームV1(x,y,t’)の画素の色特徴量u(x,y,t)から算出される平均色Uout(t)を用いる。この平均色Uin(t)と平均色Uout(t)を用いて、参照フレームのフレーム時刻R(t)を決定する。
参照フレーム決定用領域Ωtに含まれるフレーム時刻tのフレームV1(x,y,t)の平均色Uin(t)を次式で定義する。
ただし、u(x,y,t)はフレーム時刻tのフレームV1(x,y,t)から算出される色特徴量である。ちなみに、分母は参照フレーム決定用領域Ωtに含まれる画素の数に等しい。
また、参照フレーム決定用領域Ωtのd-近傍N(Ωt,d)に含まれるフレーム時刻t’のフレームV1(x,y,t’)の平均色Uout(t’)を次式で定義する。
ただし、u(x,y,t’)はフレーム時刻t’のフレームV1(x,y,t’)から算出される色特徴量である。ちなみに、分母は参照フレーム決定用領域Ωtのd-近傍N(Ωt,d)に含まれる画素の数に等しい。
以下、色特徴量u(x,y,t)を用いた類似性判断方法について説明する。まず、参照フレーム決定部110は、平均色Uin(t)と平均色Uout(t)の差である類似度ΔU(t)=|Uin(t)-Uout(t)|を算出し、類似度ΔU(t)が所定の閾値Thよりも小さい(以下である)場合、類似していると判断し、フレーム時刻tを参照フレームのフレーム時刻R(t)として決定し、R(t)={t}とする。なお、閾値Thは0以上255以下であれば任意の値を設定して構わないが、実用上は50〜150程度に設定するとよい。そうでない場合、つまり類似度ΔU(t)=|Uin(t)-Uout(t)|が閾値Th以上である(大きい)の場合は、例えば、フレーム時刻t+1,t-1,t+2,t-2,…のように、フレーム時刻tに時系列軸上で近い順から、類似度ΔU(t’)=|Uin(t)-Uout(t’)|を算出し、類似度ΔU(t’)と閾値Thと比較をし、U(t’)<Th(U(t’)≦Th)を満たすフレーム時刻t’を参照フレームのフレーム時刻R(t)として決定し、R(t)={t’}とする。
なお、類似度ΔU(t)が所定の閾値Thよりも小さい、または、類似度ΔU(t)が所定の閾値Th以下であることを、類似度ΔU(t)が小さいことを示す所定の範囲にあるという。
また、色特徴量u(x,y,t)としてp次元ベクトルを 用いる場合は、ベクトルの要素ごとに同様の処理を行えばよい。例えば、RGB輝度情報を示す3次元ベクトルを色特徴量u(x,y,t)として用いる場合、RGBの要素ごとに算出される平均色Uin R(t)とUout R(t)、平均色Uin G(t)とUout G(t)、平均色Uin B(t)とUout B(t)を用いて、類似度ΔU(t)=|Uin R(t)-Uout R(t)|+ |Uin G(t)-Uout G(t)|+ |Uin B(t)-Uout B(t)|を算出し、閾値Thと大小比較をすればよい。もちろん、類似度ΔU(t)の算出は、上記L1ノルムに限られるものではなく、L2ノルムなどを用いてもよい。
映像補完部120は、S110で生成した参照フレーム列{R(t)}(t=1,…,N)を用いて、映像V1(x,y,t)(t=1,…,N)とマスク情報D(x,y,t)(t=1,…,N)から、欠損領域を補完した補完映像V2(x,y,t)(t=1,…,N)を生成する(S120)。映像補完部120は、例えば非特許文献2の方法を用いて映像V1(x,y,t)(t=1,…,N)の各フレーム時刻tのフレームV1(x,y,t)について、欠損領域を補完した補完フレームV2(x,y,t)を生成していき、最終的に補完映像V2(x,y,t)(t=1,…,N)を生成する。補完処理は、非特許文献2のようなパッチ単位で処理するもので限られるものではなく、欠損領域を補完できるものであればどのような方法を用いてもよい。非特許文献2により補完フレームV2(x,y,t)を生成する場合は、R(t)で指定される参照フレームを探索空間として見つけだした類似パッチを用いて、マスク情報D(x,y,t)が示す欠損領域をパッチ単位で逐次補完していく。
本実施形態の発明によれば、欠損領域を含むフレームを補完するために用いる参照フレームを映像に含まれるフレームの中から効率的に決定することができる。したがって、補完に用いる画像群を格納したデータベースを事前に用意する必要がなくなる。また、補完処理の実行中、補完に用いる画像群をネットワーク上で検索する必要がなくなるため、より高速に補完処理を実行することができる。
また、同一のカメラで撮影した一連の映像のフレームの中から補完処理に用いる参照フレームを探索することにより、補完処理に用いる参照フレームが決定できないという問題が発生することを避けることもできる。
<第二実施形態>
まず、図5〜図6を参照して映像生成装置200について説明する。図5に示すように映像生成装置200は、参照フレーム決定部210、映像補完部120、記録部190を含む。記録部190は、映像生成装置200の処理に必要な情報を適宜記録する構成部である。
映像生成装置200の入力となる欠損領域を含む映像は、映像生成装置100と異なり、各フレーム時刻tのフレームV1(x,y,t)がセグメントと呼ばれる領域に分割されており、各セグメントにはタグが付与されている。このタグが付与された欠損領域を含む映像のことを、欠損領域を含むタグ付き映像という。また、セグメントとは、類似する画素からなる領域であり、タグとはセグメントの種別情報(例えば、被写体名、前景・背景の種別)である。
この欠損領域を含むタグ付き映像を、欠損領域を含む映像から生成する方法について説明する。ここでは、画像を複数のセグメントに分割する手法であるセグメンテーションと呼ばれる手法を用いる。セグメンテーション手法の例として、参考非特許文献1の手法がある。この手法では、類似した色や構造を用いて類似した画素群を1つのセグメントにまとめ、入力画像を複数のセグメントに分割する。
(参考非特許文献1)S. Chen, L. Cao, Y. Wang, J. Liu, X. Tang, “Image Segmentation by MAP-ML Estimations”, IEEE Trans. on Image Processing, Vol.19, Issue 9, pp.2254-2264, 2010.
この手法を用いると、映像の各フレームで背景に属する画素の位置座標を知ることが可能となる。
欠損領域を含むタグ付き映像を生成する方法について、具体的に説明する。まず、映像の各フレームをセグメンテーション処理によりセグメント化し、各フレームに対してセグメントの集合を生成しておく。次に、先頭のフレームの各セグメントに対して、ユーザが手動で被写体名と前景・背景の種別のタグを付与する。2番目以降のフレームについては、直前のフレームの各セグメントにタグが付与されていることから、現フレームの各セグメントに対して同一・類似する直前のフレームのセグメントを検出し、検出したセグメントに付与されたタグを現フレームのセグメントに対して付与する。この処理を最後のフレームまで繰り返す。これにより欠損領域を含むタグ付き映像が生成され、映像の各フレームのセグメントが背景であるのか、前景であるのかを知ることが可能となる。例えば、ピッチングシーンの映像が入力された場合、セグメントに付されるタグの例としては、(マウンド、背景)、(選手、前景)、(フェンス、背景)等がある。
映像生成装置200は、欠損領域を含むタグ付き映像V1(x,y,t)(t=1,…,N)と当該映像の欠損領域を示すマスク情報D(x,y,t)(t=1,…,N)から、各フレーム時刻tのフレームV1(x,y,t)に含まれる欠損領域を補完したフレームV2(x,y,t)から構成される補完映像V2(x,y,t)(t=1,…,N)を生成する。
図6に従い映像生成装置200の動作について説明する。参照フレーム決定部210は、参照フレーム決定用領域Ωtのd-近傍N(Ωt,d)に含まれるフレーム時刻t’のフレームV1(x,y,t’)の画素の情報を用いて、フレーム時刻tのフレームV1(x,y,t)に含まれる欠損領域を補完する際に用いる参照フレームのフレーム時刻R(t)を決定し、フレーム時刻R(t)の列である参照フレーム列{R(t)}(t=1,…,N)を生成する(S210)。ここで、参照フレーム決定用領域Ωtのd-近傍N(Ωt,d)に含まれるフレーム時刻t’のフレームV1(x,y,t’)の画素の情報は、欠損領域を含むタグ付き映像V1(x,y,t)(t=1,…,N)から算出される。
参照フレーム決定部210での処理は、具体的には、以下のようになる。まず、参照フレーム決定部210は、参照フレーム決定用領域Ωtのd-近傍N(Ωt,d)に含まれるフレーム時刻tのフレームV1(x,y,t)の画素が属するセグメントに付与されているタグが背景を示す情報を含んでいると判断される場合は、フレーム時刻tを参照フレームのフレーム時刻R(t)として決定する(つまり、R(t)={t}とする)。それ以外の場合は、参照フレーム決定用領域Ωtのd-近傍N(Ωt,d)に含まれるフレーム時刻t+1のフレームV1(x,y,t+1)の画素が属するセグメントに付与されているタグが背景を示す情報を含んでいるか、参照フレーム決定用領域Ωtのd-近傍N(Ωt,d)に含まれるフレーム時刻t-1のフレームV1(x,y,t-1)の画素が属するセグメントに付与されているタグが背景を示す情報を含んでいると判断されるとき、その含んでいると判断されたフレーム時刻を参照フレームのフレーム時刻R(t)として決定する。このとき、2つとも含んでいる場合は、フレーム時刻t+1のみをR(t)として決定してもよいし(R(t)={t+1})、フレーム時刻t-1のみをR(t)として決定してもよいし(R(t)={t-1})、フレーム時刻t+1とフレーム時刻t-1の2つをR(t)として決定してもよい(R(t)={t-1,t+1})。また、1つのみ含んでいると判断された場合は、その含んでいるフレーム時刻のみをR(t)として決定する(例えば、フレーム時刻t+1について含んでいると判断されたときは、R(t)={t+1})。2つとも含んでいない場合は、フレーム時刻t+2のフレームV1(x,y,t+2)とフレーム時刻t-2のフレームV1(x,y,t-2)に対して同様の処理を繰り返す。このように、背景に属する画素の有無の判定処理をフレーム時刻tから時間軸上近い順に繰り返していき、含んでいるフレーム時刻t’が見つかった段階で処理を終了する。
映像補完部120は、S210で生成した参照フレーム列{R(t)}(t=1,…,N)を用いて、映像V1(x,y,t)(t=1,…,N)とマスク情報D(x,y,t)(t=1,…,N)から、欠損領域を補完した補完映像V2(x,y,t)(t=1,…,N)を生成する(S120)。
本実施形態では、欠損領域を含むタグ付き映像を映像生成装置200の入力としたが、映像生成装置100と同様、欠損領域を含む映像を映像生成装置200の入力としてもよい。つまり、映像生成装置200における処理を実行中に、逐次各フレームに対してセグメンテーションを行い、タグを付与していくように処理をしてもよい。この場合、先頭のフレームについてのみ各セグメントにタグが事前に付与されている必要がある。また、各フレーム時刻tのフレームV1(x,y,t)には、参照フレーム決定部210での処理対象となるまでに、例えば、参考非特許文献1の手法により生成した各セグメントにタグが付与しておけばよい。
本実施形態の発明によれば、欠損領域を含むフレームを補完するために用いる参照フレームを映像に含まれるフレームの中から効率的に決定することができる。したがって、補完に用いる画像群を格納したデータベースを事前に用意する必要がなくなる。また、補完処理の実行中、補完に用いる画像群をネットワーク上で検索する必要がなくなるため、より高速に補完処理を実行することができる。
また、同一のカメラで撮影した一連の映像のフレームの中から補完処理に用いる参照フレームを探索することにより、補完処理に用いる参照フレームが決定できないという問題が発生することを避けることもできる。
<変形例>
この発明は上述の実施形態に限定されるものではなく、この発明の趣旨を逸脱しない範囲で適宜変更が可能であることはいうまでもない。上記実施形態において説明した各種の処理は、記載の順に従って時系列に実行されるのみならず、処理を実行する装置の処理能力あるいは必要に応じて並列的にあるいは個別に実行されてもよい。
<補記>
本発明の装置は、例えば単一のハードウェアエンティティとして、キーボードなどが接続可能な入力部、液晶ディスプレイなどが接続可能な出力部、ハードウェアエンティティの外部に通信可能な通信装置(例えば通信ケーブル)が接続可能な通信部、CPU(Central Processing Unit、キャッシュメモリやレジスタなどを備えていてもよい)、メモリであるRAMやROM、ハードディスクである外部記憶装置並びにこれらの入力部、出力部、通信部、CPU、RAM、ROM、外部記憶装置の間のデータのやり取りが可能なように接続するバスを有している。また必要に応じて、ハードウェアエンティティに、CD−ROMなどの記録媒体を読み書きできる装置(ドライブ)などを設けることとしてもよい。このようなハードウェア資源を備えた物理的実体としては、汎用コンピュータなどがある。
ハードウェアエンティティの外部記憶装置には、上述の機能を実現するために必要となるプログラムおよびこのプログラムの処理において必要となるデータなどが記憶されている(外部記憶装置に限らず、例えばプログラムを読み出し専用記憶装置であるROMに記憶させておくこととしてもよい)。また、これらのプログラムの処理によって得られるデータなどは、RAMや外部記憶装置などに適宜に記憶される。
ハードウェアエンティティでは、外部記憶装置(あるいはROMなど)に記憶された各プログラムとこの各プログラムの処理に必要なデータが必要に応じてメモリに読み込まれて、適宜にCPUで解釈実行・処理される。その結果、CPUが所定の機能(上記、…部、…手段などと表した各構成要件)を実現する。
本発明は上述の実施形態に限定されるものではなく、本発明の趣旨を逸脱しない範囲で適宜変更が可能である。また、上記実施形態において説明した処理は、記載の順に従って時系列に実行されるのみならず、処理を実行する装置の処理能力あるいは必要に応じて並列的にあるいは個別に実行されるとしてもよい。
既述のように、上記実施形態において説明したハードウェアエンティティ(本発明の装置)における処理機能をコンピュータによって実現する場合、ハードウェアエンティティが有すべき機能の処理内容はプログラムによって記述される。そして、このプログラムをコンピュータで実行することにより、上記ハードウェアエンティティにおける処理機能がコンピュータ上で実現される。
この処理内容を記述したプログラムは、コンピュータで読み取り可能な記録媒体に記録しておくことができる。コンピュータで読み取り可能な記録媒体としては、例えば、磁気記録装置、光ディスク、光磁気記録媒体、半導体メモリ等どのようなものでもよい。具体的には、例えば、磁気記録装置として、ハードディスク装置、フレキシブルディスク、磁気テープ等を、光ディスクとして、DVD(Digital Versatile Disc)、DVD−RAM(Random Access Memory)、CD−ROM(Compact Disc Read Only Memory)、CD−R(Recordable)/RW(ReWritable)等を、光磁気記録媒体として、MO(Magneto-Optical disc)等を、半導体メモリとしてEEP−ROM(Electronically Erasable and Programmable-Read Only Memory)等を用いることができる。
また、このプログラムの流通は、例えば、そのプログラムを記録したDVD、CD−ROM等の可搬型記録媒体を販売、譲渡、貸与等することによって行う。さらに、このプログラムをサーバコンピュータの記憶装置に格納しておき、ネットワークを介して、サーバコンピュータから他のコンピュータにそのプログラムを転送することにより、このプログラムを流通させる構成としてもよい。
このようなプログラムを実行するコンピュータは、例えば、まず、可搬型記録媒体に記録されたプログラムもしくはサーバコンピュータから転送されたプログラムを、一旦、自己の記憶装置に格納する。そして、処理の実行時、このコンピュータは、自己の記録媒体に格納されたプログラムを読み取り、読み取ったプログラムに従った処理を実行する。また、このプログラムの別の実行形態として、コンピュータが可搬型記録媒体から直接プログラムを読み取り、そのプログラムに従った処理を実行することとしてもよく、さらに、このコンピュータにサーバコンピュータからプログラムが転送されるたびに、逐次、受け取ったプログラムに従った処理を実行することとしてもよい。また、サーバコンピュータから、このコンピュータへのプログラムの転送は行わず、その実行指示と結果取得のみによって処理機能を実現する、いわゆるASP(Application Service Provider)型のサービスによって、上述の処理を実行する構成としてもよい。なお、本形態におけるプログラムには、電子計算機による処理の用に供する情報であってプログラムに準ずるもの(コンピュータに対する直接の指令ではないがコンピュータの処理を規定する性質を有するデータ等)を含むものとする。
また、この形態では、コンピュータ上で所定のプログラムを実行させることにより、ハードウェアエンティティを構成することとしたが、これらの処理内容の少なくとも一部をハードウェア的に実現することとしてもよい。

Claims (5)

  1. 欠損領域を含む映像V1(x,y,t)(t=1,…,N、Nはフレーム総数、(x,y)はフレームの画素の座標位置)と前記映像V1(x,y,t)(t=1,…,N)の欠損領域を示すマスク情報D(x,y,t)(t=1,…,N)から、各フレーム時刻tのフレームV1(x,y,t)に含まれる欠損領域を補完したフレームV2(x,y,t)から構成される補完映像V2(x,y,t)(t=1,…,N)を生成する映像生成装置であって、
    フレーム時刻tにおけるマスク情報D(x,y,t)が示す欠損領域に含まれる画素の位置座標(x,y)から構成される領域をフレーム時刻tにおける参照フレーム決定用領域Ωt、参照フレーム決定用領域Ωtからの距離がd(dは0以上の整数)以下の、参照フレーム決定用領域Ωtの外部または境界の画素の位置座標(x,y) から構成される領域を参照フレーム決定用領域Ωtのd-近傍N(Ωt,d)とし、
    前記参照フレーム決定用領域Ωtに含まれるフレーム時刻tのフレームV1(x,y,t)の画素の情報と前記d-近傍N(Ωt,d)に含まれるフレーム時刻t’のフレームV1(x,y,t’)の画素の情報を用いて、フレーム時刻tのフレームV1(x,y,t)に含まれる欠損領域を補完する際に用いる参照フレームのフレーム時刻R(t)を決定し、前記フレーム時刻R(t)の列である参照フレーム列{R(t)}(t=1,…,N)を生成する参照フレーム生成部と、
    前記参照フレーム列{R(t)}(t=1,…,N)を用いて、前記映像V1(x,y,t)(t=1,…,N)と前記マスク情報D(x,y,t)(t=1,…,N)から、前記補完映像V2(x,y,t)(t=1,…,N)を生成する映像補完部と
    を含む映像生成装置。
  2. 請求項1に記載の映像生成装置であって、
    前記参照フレーム生成部は、前記フレーム時刻t’=tとし、前記参照フレーム決定用領域Ωtに含まれるフレーム時刻tのフレームV1(x,y,t)の画素の情報と前記d-近傍N(Ωt,d)に含まれるフレーム時刻tのフレームV1(x,y,t)の画素の情報を用いて、フレームV1(x,y,t)における参照フレーム決定用領域Ωtの特徴と参照フレーム決定用領域Ωtのd-近傍N(Ωt,d)の特徴が類似していると判断される場合は、フレーム時刻tを参照フレームのフレーム時刻R(t)として決定し、それ以外の場合は、フレーム時刻tとは異なるフレーム時刻t’を参照フレームのフレーム時刻R(t)として決定する
    ことを特徴とする映像生成装置。
  3. 請求項1または2に記載の映像生成装置であって、
    前記参照フレーム決定用領域Ωtに含まれるフレーム時刻tのフレームV1(x,y,t)の画素の情報とは、次式で定義される前記参照フレーム決定用領域Ωtに含まれる画素の平均色Uin(t)であり、

    (ただし、u(x,y,t)はフレーム時刻tのフレームV1(x,y,t)から算出される色特徴量である)
    前記参照フレーム決定用領域Ωtのd-近傍N(Ωt,d)に含まれるフレーム時刻t’のフレームV1(x,y,t’) の画素の情報とは、次式で定義される前記d-近傍N(Ωt,d)に含まれる画素の平均色Uout(t’)である

    (ただし、u(x,y,t’)はフレーム時刻t’のフレームV1(x,y,t’)から算出される色特徴量である)
    ことを特徴とする映像生成装置。
  4. 映像生成装置が、欠損領域を含む映像V1(x,y,t)(t=1,…,N、Nはフレーム総数、(x,y)はフレームの画素の座標位置)と前記映像V1(x,y,t)(t=1,…,N)の欠損領域を示すマスク情報D(x,y,t)(t=1,…,N)から、各フレーム時刻tのフレームV1(x,y,t)に含まれる欠損領域を補完したフレームV2(x,y,t)から構成される補完映像V2(x,y,t)(t=1,…,N)を生成する映像生成方法であって、
    フレーム時刻tにおけるマスク情報D(x,y,t)が示す欠損領域に含まれる画素の位置座標(x,y)から構成される領域をフレーム時刻tにおける参照フレーム決定用領域Ωt、参照フレーム決定用領域Ωtからの距離がd(dは0以上の整数)以下の、参照フレーム決定用領域Ωtの外部または境界の画素の位置座標(x,y) から構成される領域を参照フレーム決定用領域Ωtのd-近傍N(Ωt,d)とし、
    前記映像生成装置が、前記参照フレーム決定用領域Ωtに含まれるフレーム時刻tのフレームV1(x,y,t)の画素の情報と前記d-近傍N(Ωt,d)に含まれるフレーム時刻t’のフレームV1(x,y,t’)の画素の情報を用いて、フレーム時刻tのフレームV1(x,y,t)に含まれる欠損領域を補完する際に用いる参照フレームのフレーム時刻R(t)を決定し、前記フレーム時刻R(t)の列である参照フレーム列{R(t)}(t=1,…,N)を生成する参照フレーム生成ステップと、
    前記映像生成装置が、前記参照フレーム列{R(t)}(t=1,…,N)を用いて、前記映像V1(x,y,t)(t=1,…,N)と前記マスク情報D(x,y,t)(t=1,…,N)から、前記補完映像V2(x,y,t)(t=1,…,N)を生成する映像補完ステップと
    を含む映像生成方法。
  5. 請求項1ないし3のいずれか1項に記載の映像生成装置としてコンピュータを機能させるためのプログラム。
JP2017004487A 2017-01-13 2017-01-13 映像生成装置、映像生成方法、プログラム Active JP6563964B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2017004487A JP6563964B2 (ja) 2017-01-13 2017-01-13 映像生成装置、映像生成方法、プログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2017004487A JP6563964B2 (ja) 2017-01-13 2017-01-13 映像生成装置、映像生成方法、プログラム

Publications (2)

Publication Number Publication Date
JP2018113648A JP2018113648A (ja) 2018-07-19
JP6563964B2 true JP6563964B2 (ja) 2019-08-21

Family

ID=62912558

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2017004487A Active JP6563964B2 (ja) 2017-01-13 2017-01-13 映像生成装置、映像生成方法、プログラム

Country Status (1)

Country Link
JP (1) JP6563964B2 (ja)

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3906201B2 (ja) * 2003-12-12 2007-04-18 沖電気工業株式会社 補間画像生成装置および隠蔽領域推定方法
EP2339534A1 (en) * 2009-11-18 2011-06-29 Panasonic Corporation Specular reflection compensation

Also Published As

Publication number Publication date
JP2018113648A (ja) 2018-07-19

Similar Documents

Publication Publication Date Title
Tursun et al. The state of the art in HDR deghosting: A survey and evaluation
JP4700892B2 (ja) 画像のマッチング
US10366504B2 (en) Image processing apparatus and image processing method for performing three-dimensional reconstruction of plurality of images
US20150117784A1 (en) Image foreground detection
CN105635588B (zh) 一种稳像方法及装置
US8879894B2 (en) Pixel analysis and frame alignment for background frames
US10430962B2 (en) Three-dimensional shape measuring apparatus, three-dimensional shape measuring method, and storage medium that calculate a three-dimensional shape of an object by capturing images of the object from a plurality of directions
US20180144485A1 (en) Image processing apparatus, image processing method, and non-transitory computer-readable storage medium
US7450778B2 (en) Artifact reduction in a digital video
CN110622214B (zh) 基于超体素的时空视频分割的快速渐进式方法
US20130120438A1 (en) Methods and Apparatuses for Generating Co-Salient Thumbnails for Digital Images
WO2020042004A1 (en) Training one-shot instance segmenters using synthesized images
WO2016120132A1 (en) Method and apparatus for generating an initial superpixel label map for an image
CN109934873B (zh) 标注图像获取方法、装置及设备
CN112055249B (zh) 一种视频插帧方法及装置
US11076140B2 (en) Information processing apparatus and method of controlling the same
KR101982258B1 (ko) 오브젝트 검출 방법 및 오브젝트 검출 장치
JP6713422B2 (ja) 学習装置、イベント検出装置、学習方法、イベント検出方法、プログラム
JP7027776B2 (ja) 移動ベクトル算出方法、装置、プログラム、及びノイズ除去処理を含む移動ベクトル算出方法
Nugroho et al. Comparison of deep learning-based object classification methods for detecting tomato ripeness
JP7185194B2 (ja) ポイントクラウドグローバルテトリスパッキング
Xu et al. Fast and accurate object detection using image cropping/resizing in multi-view 4K sports videos
JP5737387B2 (ja) 画像処理装置
JP6563964B2 (ja) 映像生成装置、映像生成方法、プログラム
WO2023160061A1 (zh) 图像中运动对象的确定方法、装置、电子设备和存储介质

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20181129

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20190708

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20190723

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20190725

R150 Certificate of patent or registration of utility model

Ref document number: 6563964

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150