JP2021072615A

JP2021072615A - 映像復元装置及び方法

Info

Publication number: JP2021072615A
Application number: JP2020155697A
Authority: JP
Inventors: 世鎬李; Se Ho Lee; 良鎬趙; Yang-Ho Cho; 徳寧姜; Deog Ning Kang
Original assignee: Samsung Electronics Co Ltd
Current assignee: Samsung Electronics Co Ltd
Priority date: 2019-10-30
Filing date: 2020-09-16
Publication date: 2021-05-06
Also published as: KR20210051242A; EP3816929A1; US11663691B2; CN112750085A; US20210133920A1; EP3816929B1

Abstract

【課題】実施形態に係る映像復元装置は、マルチレンズ映像から単一の映像を復元することにある。【解決手段】一実施形態に係る映像復元装置は、複数の入力映像それぞれを複数のディスパリティに対応する深度を用いてワーピングすることで、複数のワーピング映像を生成し、複数の入力映像及び複数のワーピング映像から映像復元モデルを用いて高解像度の出力映像を生成する。【選択図】図３

Description

以下、マルチレンズ映像を復元する技術であって、複数のイメージセンサによりキャプチャーされたり、マルチレンズアレイを含むイメージセンサによりキャプチャーされたりした複数の入力映像に基づいて映像を復元するための方法及び装置が提供される。

光学技術及び映像処理技術の発達に伴って、マルチメディアコンテンツ、セキュリティー及び認識などの広範囲な分野に撮影装置が活用されている。例えば、撮影装置は、モバイル機器、カメラ、車両及びコンピュータなどに搭載され、映像を撮影したり、オブジェクトを認識したり、機器を制御するためのデータを取得したりすることができる。撮影装置の体積は、レンズのサイズ、レンズの焦点距離（ｆｏｃａｌｌｅｎｇｔｈ）及びセンサのサイズなどによって決定され、体積を低減するために小型レンズで構成されたマルチレンズが用いられる。

一実施形態に係る映像復元装置は、マルチレンズ映像から単一の映像を復元することにある。

一実施形態に係る映像復元方法は、複数の入力映像情報を取得するステップと、前記複数の入力映像情報に基づいて複数のディスパリティのそれぞれに対して複数のワーピング映像情報を生成するステップと、前記複数の入力映像情報及び前記複数のワーピング映像情報に基づいて、映像復元モデルを使用することによって出力映像を生成するステップとを含む。

前記複数の入力映像情報は、互いに異なる位置に配置されたレンズを介して撮影された複数の入力映像を含むことができる。

前記複数のワーピング映像情報を生成するステップは、前記複数の入力映像それぞれを前記複数のディスパリティそれぞれに対応する深度を用いてターゲット映像に対応する画素座標系にワーピングすることで、前記複数のディスパリティのそれぞれに対して複数のワーピング映像を前記ワーピング映像情報として生成するステップを含む。

前記ワーピング映像を生成するステップは、前記複数の入力映像のうち第１入力映像で全ての画素を前記複数のディスパリティのうち第１ディスパリティに対応する単一の深度を用いて前記ターゲット映像に対応する画素座標系にワーピングすることで、ワーピング映像を生成するステップを含むことができる。

ディスパリティは、前記ターゲット映像を基準として入力映像に対して設定され、前記ディスパリティに対応する前記深度は、前記ディスパリティ及び前記ターゲット映像と前記入力映像を撮影した検出部同士の間の間隔に基づくことができる。

前記出力映像を生成するステップは、前記複数の入力映像及び前記複数のディスパリティのそれぞれに対応する前記複数のワーピング映像を結合することにより取得されたデータを前記映像復元モデルに入力として提供することで、前記出力映像を生成するステップを含むことができる。

前記複数の入力映像情報は、特徴抽出モデルを用いて複数の入力映像から抽出された複数の入力特徴マップを含むことができる。

前記複数のワーピング映像情報を生成するステップは、前記複数の入力特徴マップそれぞれを前記複数のディスパリティそれぞれに対応する深度を用いてターゲット映像に対応する画素座標系にワーピングすることで、前記複数のディスパリティのそれぞれに対して複数のワーピング特徴マップを前記複数のワーピング映像情報として生成するステップを含むことができる。

前記出力映像を生成するステップは、前記複数の入力特徴マップ及び前記複数のディスパリティのそれぞれに対応する前記複数のワーピング特徴マップを結合したデータを前記映像復元モデルに入力として提供することで、前記出力映像を生成するステップを含むことができる。

前記映像復元モデルは、入力されるデータに対して畳み込みフィルタリングを適用するように構成された少なくとも１つの畳み込みレイヤを含むニューラルネットワークであり得る。

前記複数のディスパリティは、最大のディスパリティ以下及び最小のディスパリティ以上であり、前記最大のディスパリティは、前記検出部の焦点距離、前記検出部同士の間の間隔、及び検出部の最小の撮影距離に基づいており、前記検出部は、前記複数の入力イメージ情報に対応する入力イメージをキャプチャーするように構成され得る。

前記複数のディスパリティは、有限個数（ｆｉｎｉｔｅｎｕｍｂｅｒ）であり得る。

前記出力映像を生成するステップは、個別画素に対応するターゲット地点までの深度検出なしに前記出力映像を生成するステップを含むことができる。

前記複数のワーピング映像情報を生成するステップは、座標マッピング関数を入力映像情報に対応する入力映像に適用することによってワーピング映像情報を生成するステップを含み、前記座標マッピング関数は、前記入力イメージをキャプチャーするように構成される検出部及びターゲットイメージをキャプチャーするように構成されるターゲット検出部に対して予め決定され得る。

前記出力映像の解像度は、前記複数の入力映像情報それぞれの解像度よりも高くてもよい。

複数の入力映像情報は、マルチレンズアレイを含むイメージセンサによってキャプチャーされたマルチレンズ映像を含み、前記マルチレンズ映像は複数の入力映像を含むことができる。

前記複数の入力映像情報は、複数のイメージセンサによって個別的にキャプチャーされた複数の入力映像を含むことができる。

一実施形態に係る映像復元装置は、複数の入力映像情報を取得するイメージセンサと、前記複数の入力映像情報それぞれに基づいて、複数のディスパリティのそれぞれに対して複数のワーピング映像情報を生成し、前記複数の入力映像情報及び前記複数のワーピング映像情報に基づいて映像復元モデルを用いて出力映像を生成するプロセッサとを含む。

映像復元装置は、複数のレンズを含むレンズアレイと、前記レンズアレイを通過した光を検出する複数の検出エレメントを含み、前記複数の検出エレメントは、前記複数のレンズに個別的に対応する検出領域を含み、複数の入力情報を取得するように構成される検出アレイと、複数の入力情報それぞれに基づいて複数のディスパリティのそれぞれに対して複数のワーピング情報を生成し、前記複数の入力情報及び複数のワーピング情報に基づいて映像復元モデルを用いて出力映像を生成するプロセッサとを含むことができる。

前記出力映像の解像度が前記複数の入力情報に該当する解像度よりも高くてもよい。

前記プロセッサは、前記複数の入力情報それぞれを前記複数のディスパリティそれぞれに対応する深度を用いてターゲット映像に対応する画素座標系にワーピングすることで、前記複数のディスパリティのそれぞれに対して前記複数のワーピング情報を生成することができる。

前記プロセッサは、前記複数の入力情報のうち、入力情報に対応する全ての画素を前記複数のディスパリティのうち第１ディスパリティに対応する単一の深度を用いて前記ターゲット映像に対応する画素座標系にワーピングすることで、ワーピング情報を生成することができる。

前記プロセッサは、前記複数の入力情報及び前記複数のディスパリティのそれぞれに対応するワーピング情報を結合したデータを前記映像復元モデルに入力として提供することで、前記出力映像を生成することができる。

前記プロセッサは、特徴抽出モデルを用いて複数の入力映像から複数の入力特徴マップを前記複数の入力情報として抽出することができる。

前記プロセッサは、前記複数の入力特徴マップそれぞれを前記複数のディスパリティそれぞれに対応する深度を用いてターゲット映像に対応する画素座標系にワーピングすることで、前記複数のディスパリティのそれぞれに対して複数のワーピング特徴マップを前記複数のワーピング情報として生成することができる。

前記プロセッサは、前記複数の入力特徴マップ及び前記複数のディスパリティのそれぞれに対応するワーピング特徴マップを結合したデータを前記映像復元モデルに入力として提供することで、前記出力映像を生成することができる。

一実施形態に係る映像復元装置は、ディスパリティごとにワーピング映像を生成し、ワーピング映像からニューラルネットワークを用いて高解像度映像を復元することができる。

一実施形態に係る映像復元の概略的な過程を説明する。一実施形態に係る映像復元方法を説明するフローチャートである。一実施形態に係る映像復元モデルを用いた映像復元を説明する。一実施形態に係る映像復元モデルに入力するためのワーピング映像の生成を説明する。一実施形態に係るワーピング映像の画素とターゲット映像の画素との間のマッチングを説明する図である。一実施形態に係るワーピング映像の整合を通した出力映像の生成を説明する図である。一実施形態に係るカメラキャリブレーション過程を説明する図である。一実施形態に係る映像復元モデルの構造を示す図である。一実施形態に係る映像ワーピングモデル及び映像復元モデルを用いた映像復元過程を説明する図である。一実施形態に係る映像ワーピングモデルの詳細構造を示す図である。一実施形態に係る映像復元装置の構成を示すブロック図である。一実施形態に係るコンピューティング装置を示すブロック図である。

下記で説明する実施形態は様々な変更が加えられ得る。特許出願の範囲はこのような実施形態によって制限も限定もされない。各図面に提示した同じ参照符号は同じ部材を示す。

本明細書で開示する特定の構造的又は機能的な説明は単に実施形態を説明するための目的として例示したものであり、実施形態は様々な異なる形態で実施され、本発明は本明細書で説明した実施形態に限定されるものではない。

本明細書で用いる用語は、単に特定の実施形態を説明するために用いられるものであって、本発明を限定しようとする意図はない。単数の表現は、文脈上、明白に異なる意味をもたない限り複数の表現を含む。本明細書において、「含む」又は「有する」等の用語は明細書上に記載した特徴、数字、ステップ、動作、構成要素、部品、又はこれらを組み合わせたものが存在することを示すものであって、一つ又はそれ以上の他の特徴や数字、ステップ、動作、構成要素、部品、又はこれらを組み合わせたものなどの存在又は付加の可能性を予め排除しないものとして理解しなければならない。

異なる定義がされない限り、技術的であるか又は科学的な用語を含むここで用いる全ての用語は、本発明が属する技術分野で通常の知識を有する者によって一般的に理解されるものと同じ意味を有する。一般的に用いられる予め定義された用語は、関連技術の文脈上で有する意味と一致する意味を有するものと解釈すべきであって、本明細書で明白に定義しない限り、理想的又は過度に形式的な意味として解釈されることはない。

また、図面を参照して説明する際に、図面符号に拘わらず同じ構成要素は同じ参照符号を付与し、これに対する重複する説明は省略する。実施形態の説明において関連する公知技術に対する具体的な説明が本発明の要旨を不要に曖昧にすると判断される場合、その詳細な説明は省略する。

図１は、一実施形態に係る映像復元の概略的な過程を説明する。

一実施形態に係るイメージセンサ１１０によって撮影及び復元されるイメージの品質は、検出アレイ１１２に含まれている検出エレメントの数、及び検出エレメントに入射される光量に応じて決定される。例えば、イメージの解像度は、検出アレイ１１２に含まれた検出エレメントの数に応じて決定され、イメージの感度は検出エレメントに入射される光量に応じて決定される。検出エレメントに入射される光量は検出エレメントのサイズに基づいて決定され、サイズが大きいほど入射される光量は増加し、検出アレイ１１２の動的範囲（ｄｙｎａｍｉｃｒａｎｇｅ）が増加する。従って、検出アレイ１１２に含まれた検出エレメントの数が増加することにより、イメージセンサ１１０は高解像度イメージを撮影することができ、検出エレメントのサイズが増加することにより、イメージセンサ１１０は低照度で高感度イメージの撮影に有利に働く。

イメージセンサ１１０の体積は、レンズエレメント１１１の焦点距離（ｆｏｃａｌｌｅｎｇｔｈ）によって決定される。より具体的に、イメージセンサ１１０の体積は、レンズエレメント１１１と検出アレイ１１２との間の間隔によって決定されるが、レンズエレメント１１１によって屈折された光を収集するために、レンズエレメント１１１と検出アレイ１１２がレンズエレメント１１１の焦点距離だけ離隔して配置されなければならないためである。

レンズエレメント１１１の焦点距離は、イメージセンサ１１０の視野角とレンズエレメント１１１のサイズによって決定される。例えば、視野角が固定される場合、レンズエレメント１１１のサイズに比例して焦点距離が長くなり、一定の視野角範囲のイメージを撮影するために、検出アレイ１１２のサイズが増加することによりレンズエレメント１１１のサイズが増加しなければならない。
前述したとおりに、視野角及びイメージの解像度を保持しながらイメージの感度を増加させるためには、イメージセンサ１１０の体積が増加される。例えば、イメージの解像度を保持しながらイメージの感度を増加させるためには、検出アレイ１１２に含まれている検出エレメントの数を保持しつつ、各検出エレメントのサイズを増加させなければならないため、検出アレイ１１２のサイズが増加する。ここで、視野角を保持するためには、検出アレイ１１２のサイズが増加することによりレンズエレメント１１１のサイズが増加し、レンズエレメント１１１の焦点距離が長くなることから、イメージセンサ１１０の体積は増加される。

図１を参照すると、イメージセンサ１１０は、レンズアレイ及び検出アレイ１１２を含む。レンズアレイは、レンズエレメントを含み、検出アレイ１１２は検出エレメントを含む。レンズエレメントは、レンズアレイの平面に沿って配置され、検出エレメントは、検出アレイ１１２の平面に沿って配置される。検出アレイ１１２の検出エレメントは、レンズエレメントそれぞれに対応する検出領域に区分される。レンズアレイの平面は、検出アレイ１１２の平面と平行であり、レンズアレイに含まれているレンズエレメント１１１の焦点距離だけ離隔している。レンズアレイは、マイクロマルチレンズアレイ（ＭＭＬＡ、ｍｉｃｒｏｍｕｌｔｉｌｅｎｓａｒｒａｙ）又はマルチレンズアレイのように示すことができる。

一実施形態によれば、レンズアレイに含まれたレンズエレメントそれぞれのサイズを低減するほど、言い換えれば、レンズアレイ上で同じ広さに含まれているレンズの数を増加させるほど、レンズエレメント１１１の焦点距離は小さくなり、イメージセンサ１１０の厚さは減少する。従って、薄型カメラ（ｔｈｉｎｃａｍｅｒａ）が実現されるのである。この場合、イメージセンサ１１０は、各レンズエレメント１１１で撮影された低解像度入力映像１２０を再配列（ｒｅａｒｒａｎｇｅ）及び組み合わせて高解像度出力映像１９０を復元することができる。

レンズアレイの個別レンズエレメント１１１は、自身のレンズの大きさ（ｌｅｎｓｓｉｚｅ）に対応する検出アレイ１１２の一定の検出領域１１３をカバーすることができる。検出アレイ１１２でレンズエレメント１１１によってカバーされる検出領域１１３は、該当レンズエレメント１１１のレンズの大きさに応じて決定される。検出領域１１３は、一定の視野角範囲の光線が該当レンズエレメント１１１を通過した後に到達する検出アレイ１１２上の領域を示す。検出領域１１３の大きさは、検出領域１１３の中心から最外郭地点までの距離又は対角の長として表現することができ、レンズの大きさはレンズの直径に対応する。

検出アレイ１１２の検出エレメントそれぞれは、レンズアレイのレンズを通過した光線に基づいて検出情報を生成する。例えば、検出エレメントは、レンズエレメント１１１を介して受信された光の強度値を検出情報として検出することができる。イメージセンサ１１０は、検出アレイ１１２によって出力された検出情報に基づいて、イメージセンサ１１０の視野に含まれた地点に関するオリジナル信号（ｏｒｉｇｉｎａｌｓｉｇｎａｌ）に対応する強度情報を決定し、決定された強度情報に基づいて撮影イメージを復元することができる。例えば、検出アレイ１１２は、ＣＭＯＳ（ｃｏｍｐｌｅｍｅｎｔａｒｙｍｅｔａｌｏｘｉｄｅｓｅｍｉｃｏｎｄｕｃｔｏｒ）又はＣＣＤ（Ｃｈａｒｇｅ−ＣｏｕｐｌｅｄＤｅｖｉｃｅ）などで構成されるイメージ検出モジュールであってもよい。

また、検出エレメントは、所望する色を検出するための色フィルタを含んで、特定の色に対応する色の強度値を検出情報として生成する。検出アレイ１１２を構成している複数の検出エレメントそれぞれは、空間的に隣接した隣接の検出エレメントと異なる色を検出するように配置されてもよい。

検出情報の多様性が十分に確保され、イメージセンサ１１０の視野に含まれた地点に対応するオリジナル信号情報と検出情報との間に完全ランク（ｆｕｌｌｒａｎｋ）関係が形成されるとき、検出アレイ１１２の最大の解像度に対応する撮影イメージが導き出される。検出情報の多様性は、レンズアレイに含まれたレンズの数及び検出アレイ１１２に含まれている検出エレメントの数のような、イメージセンサ１１０のパラメータに基づいて確保される。

さらに、個別レンズエレメント１１１によってカバーされる検出領域１１３は、非整数次（ｎｏｎ−ｉｎｔｅｇｅｒ）の検出エレメントを含む。一実施形態に係るマルチレンズアレイ構造は、分数整列構造（ｆｒａｃｔｉｏｎａｌａｌｉｇｎｍｅｎｔｓｔｒｕｃｔｕｒｅ）のように実現される。例えば、レンズアレイに含まれているレンズエレメントが同じレンズの大きさを有する場合、レンズアレイに含まれているレンズエレメントの数と検出アレイ１１２に含まれている検出エレメントの数は、互いに素（ｒｅｌａｔｉｖｅｌｙｐｒｉｍｅ）の関係であってもよい。レンズアレイのレンズエレメントの個数Ｌと検出アレイ１１２の一軸に該当する検出エレメントの個数Ｐとの間の比率Ｐ／Ｌは、実数（ｒｅａｌｎｕｍｂｅｒ）として決定される。レンズエレメントのそれぞれは、Ｐ／Ｌに対応するピクセルオフセットと同じ個数の検出エレメントをカバーすることができる。

上述したような分数整列構造により、イメージセンサ１１０は、各レンズエレメント１１１の光学中心軸（ＯＣＡ、ｏｐｔｉｃａｌｃｅｎｔｅｒａｘｉｓ）が検出アレイ１１２に対して互いに少しずつ（ｓｌｉｇｈｔｌｙ）異なる配置を有してもよい。言い換えれば、レンズエレメント１１１は、検出エレメントに対してずれて（ｅｃｃｅｎｔｒｉｃ）配置されてもよい。従って、レンズアレイの各レンズエレメント１１１は、互いに異なるライトフィールド情報を受信する。参考として、ライトフィールド（ＬＦ、ｌｉｇｈｔｆｉｅｌｄ）は、任意のターゲット地点から放出されてもよく、被写体（ｓｕｂｊｅｃｔ）上の任意の地点から反射された光線の方向及び強度を示すフィールドを示す。ライトフィールド情報は、複数のライトフィールドが組み合せられた情報を示す。各レンズエレメント１１１の主光線（ｃｈｉｅｆｒａｙ）の方向も変わり得るため、各検出領域１１３が互いに異なるライトフィールド情報を受信することから、複数の検出領域で少しずつ異なる複数の入力情報（例えば、入力映像情報）が取得されることがある。少しずつ異なる複数の入力情報を介して、イメージセンサ１１０は、光学的により多くの検出情報を取得することができる。

上述したイメージセンサ１１０は、複数の検出部（ｓｅｎｓｉｎｇｕｎｉｔｓ）に区分されてもよい。複数の検出部それぞれは、マルチレンズアレイを構成しているレンズ単位に区別される。例えば、各検出部は、レンズ及び該当レンズによってカバーされる検出領域１１３の検出エレメントを含む。一実施形態によれば、イメージセンサ１１０は、各レンズに対応する検出領域１１３ごとに取得された検出情報から個別入力映像を生成する。言い換えれば、複数の検出部それぞれは、個別的に入力映像を取得し得る。上述したように、複数の検出部は、互いに異なるライトフィールド情報を取得するため、各検出部によって撮影された入力映像は、少しずつ異なる場面を撮影することがある。イメージセンサ１１０はＮ個のレンズを含んでもよく、Ｎ個の検出部に区別されてもよい。Ｎ個の検出部が個別的に入力映像を撮影するため、イメージセンサ１１０は、Ｎ個の入力映像１２０を取得し得る。ここで、Ｎは２以上の整数であってもよい。図１において、マルチレンズアレイは、Ｎ＝５×５＝２５個のレンズを含んでもよく、イメージセンサは２５個の低解像度入力映像１２０を撮影する。異なる例として、マルチレンズ映像は、Ｎ＝６×６＝３６個の入力映像で構成されてもよい。参考として、１つのイメージセンサ１１０に複数の検出部が含まれている例示を説明したが、検出部がこれに限定されることはない。検出部は、立的なイメージ検出モジュール（例えば、カメラセンサ）を示してもよく、この場合、各検出部は他の検出部と異なる位置に配置されてもよい。

以下では、イメージセンサ１１０が上述したように取得された様々な検出情報から複数の低解像度入力映像１２０を生成し、複数の低解像度入力映像１２０のうち、ターゲット映像１２１を基準として高解像度出力映像１９０を復元することができる。参考として、図１では、ターゲット映像１２１が複数の入力映像１２０のうち中央の映像に決定されているが、これに限定されることなく、中央ではない他の入力映像がターゲット映像として使用されてもよい。また、イメージセンサ１１０は、別個の他の追加イメージセンサの映像をターゲット映像として使用することもできる。追加イメージセンサは、イメージセンサ１１０よりも高解像度映像を撮影可能なカメラセンサであってもよい。

図２は、一実施形態に係る映像復元方法を説明するフローチャートである。図３は、一実施形態に係る映像復元モデルを用いた映像復元を説明する。

まず、ステップＳ２１０において、映像復元装置が複数の入力映像情報を取得する。入力映像情報は入力映像そのものであってもよいが、これに限定されることなく、入力映像から特徴抽出モデルを用いて抽出された入力特徴マップであってもよい。参考として、入力映像情報が入力映像そのものである例示については、下記の図４〜図８を参照して説明し、入力特徴マップである例示については、下記の図９及び図１０を参照して説明する。

一実施形態によれば、映像復元装置は、図３に示すイメージセンサ３１０を介して複数の入力映像を撮影する。例えば、映像復元装置でマルチレンズアレイを含むイメージセンサ３１０が、複数の入力映像が含まれているマルチレンズ映像３２０を撮影する。マルチレンズ映像３２０で入力映像それぞれは、イメージセンサ３１０を構成している個別検出部によって撮影される。第１入力映像ないし第Ｎ入力映像は、それぞれ個別的に第１検出部Ｃ_１〜第Ｎ検出部Ｃ_Ｎによって撮影される。異なる例として、映像復元装置で複数のイメージセンサ３１０それぞれが入力映像を撮影してもよい。ここで、検出部それぞれは、独立的なイメージセンサ３１０であってもよい。

そして、ステップＳ２２０において、映像復元装置は、複数の入力情報（例えば、入力映像情報）それぞれから複数のディスパリティ（ｄｉｓｐａｒｉｔｉｅｓ）に対応する複数のワーピング情報（例えば、ワーピング映像情報３３０（ｗａｒｐｅｄｉｍａｇｅｉｎｆｏｒｍａｔｉｏｎ））を生成する。ディスパリティは、任意の２つの映像で同じターゲット地点に対する位置の差であって、例えば、画素座標の差を示す。一実施形態によれば、各入力映像に対して、ターゲット映像とのディスパリティが任意の値に設定され、設定されたディスパリティによりイメージセンサ３１０からターゲット地点までの仮想の距離が決定される。映像復元装置は、設定されたディスパリティにより決定される距離を用いて、ワーピング映像情報３３０を生成する。ワーピング映像情報３３０は、入力映像がターゲット映像の画素座標系に変換されたワーピング映像そのものであるが、これに限定されることなく、入力映像から抽出された入力特徴マップがターゲット映像を撮影したターゲット検出部の画素座標系に変換されたワーピング特徴マップであってもよい。上述したディスパリティにより決定される仮想の深度及び仮想の深度を用いたワーピングについては下記の図４を参照して説明する。参考として、本明細書において、深度値はターゲット地点までの距離を示す。

例えば、図３に示すように、映像復元装置は、マルチレンズ映像３２０に含まれている入力映像それぞれに対して、最小のディスパリティｄ_ｍｉｎに対応するワーピング映像情報３３０ないし最大のディスパリティｄ_ｍａｘに対応するワーピング映像情報３３０をカメラキャリブレーションパラメータ３１９に基づいて生成する。最小のディスパリティｄ_ｍｉｎ＝０であれば、ワーピング映像は、入力映像そのものである。カメラキャリブレーションパラメータ３１９については、下記の図７を参照して説明する。ディスパリティの個数がＤである場合、映像復元装置は、Ｎ個の入力映像それぞれに対してＤ個のワーピング映像情報３３０を生成するため、総Ｎ×Ｄ個のワーピング映像情報３３０が生成される。ここで、Ｄは、１以上の整数であってもよい。

次に、ステップＳ２３０において、映像復元装置は、複数の入力映像情報及び複数のワーピング映像情報３３０に基づいて映像復元モデル３４０を用いて出力映像３９０を生成する。一実施形態によれば、映像復元モデル３４０は、入力映像情報から出力映像３９０を出力するように、トレーニングされたモデルであってもよい。映像復元モデル３４０は、例えば、機械学習構造として、ニューラルネットワークであってもよい。ニューラルネットワークは、ディープランニングに基づいて、非線形関係にある入力データ及び出力データを互いにマッピングすることで、映像整合（ｉｍａｇｅｒｅｇｉｓｔｒａｔｉｏｎ：映像位置合わせ）による映像復元などを行う。ディープランニングは、ビッグデータセットから映像整合の問題を解決するための機械学習方式により、教師あり（ｓｕｐｅｒｖｉｓｅｄ）又は教師なし（ｕｎｓｕｐｅｒｖｉｓｅｄ）学習を介して入力データ及び出力データを互いにマッピングする。ニューラルネットワークは、入力層３４１、複数の隠れ層３４２、及び出力層３４３を含む。入力層３４１を介して入力されたデータは、複数の隠れ層３４２を介して伝播し、出力層３４３から出力される。但し、入力層３４１及び出力層３４３の代わりに、隠れ層３４２にデータが直接入力されたり、隠れ層３４２からデータが直接出力されたりしてもよい。ニューラルネットワークは、例えば、逆伝播（ｂａｃｋｐｒｏｐａｇａｔｉｏｎ）を介してトレーニングされてもよい。

上述した映像復元モデル３４０は、畳み込みニューラルネットワークに実現することができる。畳み込みニューラルネットワークは、畳み込みレイヤを含むニューラルネットワークであって、畳み込みニューラルネットワークの隠れ層３４２は畳み込みレイヤを含む。例えば、畳み込みニューラルネットワークは、ノードがカーネルを介して接続される畳み込みレイヤを含む。畳み込みニューラルネットワークは、トレーニングデータに基づいて、複数の入力映像情報及び複数のワーピング映像情報から高解像度の出力映像を出力するよう、予めトレーニングされたネットワークであってもよい。出力映像は、例えば、入力映像及びワーピング映像でターゲット映像にマッチングする画素が整合（ｒｅｇｉｓｔｒａｔｉｏｎ：位置合わせ）された映像として、出力映像の解像度は、複数の入力情報（例えば、入力映像）に該当する解像度よりも高い。参考として、映像復元装置は、畳み込みレイヤに入力されるデータに対して畳み込みフィルタリングを行うことで、特徴データを抽出することができる。特徴データは、映像の特徴が抽象化されたデータとして、例えば、畳み込みレイヤのカーネルによる畳み込み演算の結果値を示すことができる。映像復元装置は、映像で任意の位置の画素及び周辺画素に対してカーネルの元素値を用いて畳み込み演算を行ってもよい。映像復元装置は、カーネルを映像の画素に対してスイープ（ｓｗｅｅｐ）しながら、画素それぞれに対する畳み込み演算値を算出する。映像復元モデル３４０の畳み込みニューラルネットワークの実現の例示については、下記の図８を参照して詳細に説明する。

例えば、映像復元装置はステップＳ２１０で取得されたＮ個の入力映像情報、及びステップＳ２２０で生成されたＮ×Ｄ個のワーピング映像情報３３０を映像復元モデル３４０に提供することができる。先に説明したように、映像復元モデル３４０は、入力されるデータに対して畳み込みフィルタリングを適用する畳み込みレイヤを含むことができる。従って、映像復元装置は、映像復元モデル３４０を用いて、Ｎ個の入力映像情報及びＮ×Ｄ個のワーピング映像情報３３０に畳み込みフィルタリングを適用し、その結果として、高解像度の出力映像３９０を生成することができる。

図４は、一実施形態に係る映像復元モデルに入力するためのワーピング映像の生成を説明する。

一実施形態に係る映像復元装置は、複数の入力情報（例えば、入力映像）それぞれを複数のディスパリティそれぞれに対応する深度を用いてターゲット映像４３０（ｔａｒｇｅｔｉｍａｇｅ）に対応する画素座標系にワーピングすることで、複数のワーピング情報（例えば、ワーピング映像）を生成する。例えば、図４は、Ｎ個の入力映像のうち、ｉ番目の入力映像４２０がターゲット映像４３０に対応する画素座標系にワーピングされたワーピング映像を説明する。

参考として、本明細書において、ワールド座標系は、３次元座標系としてワールド上の任意の地点を基準とする座標系を示すことができる。カメラ座標系は、カメラを基準とする３次元座標系として、例えば、検出部の主点（ｐｒｉｎｃｉｐａｌｐｏｉｎｔ）を原点とし、検出部の光学軸方向をｚ軸、検出部の縦方向をｙ軸、検出部の横方向をｘ軸に示すことができる。画素座標系は、映像座標系（ｉｍａｇｅｃｏｏｒｄｉｎａｔｅｓｙｓｔｅｍ）とも表わし、映像内で画素の２次元座標を示すことができる。

例えば、イメージセンサから離隔した任意のターゲット地点４９０のワールド座標をＸ、Ｙ、Ｚと仮定する。ターゲット地点４９０がＮ個の検出部のうち、ｉ番目の検出部４１１Ｃ_ｉによって検知された画素座標はｕ、ｖに仮定する。ターゲット検出部４１２Ｃ_Ｔによって検知された画素座標はｕ’、ｖ’として仮定する。但し、各検出部から検出される画素値だけでは、ターゲット地点４９０までの距離を正確に決定し難い。一実施形態に係る映像復元装置は、ターゲット映像４３０を基準にして、入力映像が任意のディスパリティを有するものと仮定し、仮定されたディスパリティに対応する距離値を用いて、入力映像をターゲット映像４３０の画素座標系にワーピングさせることができる。

まず、映像復元装置は、ｉ番目の入力映像４２０の個別画素に対する画素座標

を下記の数式（１）のように正規化することで、ｉ番目の入力映像４２０の正規化された座標

を算出する。

上述した数式（１）において、

はそれぞれｉ番目の検出部４１１Ｃ_ｉでｘ軸とｙ軸に対するｉ番目の検出部４１１Ｃ_ｉの主点（ｐｒｉｎｃｉｐａｌｐｏｉｎｔ）の座標を示すことができ、

はそれぞれｉ番目の検出部４１１Ｃｉ_ｉｘ軸とｙ軸に対する焦点距離を示すことができる。映像復元装置は上述した数式（１）のように、ｉ番目の検出部４１１Ｃ_ｉの主点を原点（ｏｒｉｇｉｎａｌｐｏｉｎｔ）として利用することで、即ち、ｉ番目の検出部４１１Ｃ_ｉの主点及び個別画素の画素座標間の差を焦点距離で割ることによって、ｉ番目の入力映像４２０の個別画素を正規化することができる。

そして、映像復元装置は、正規化された座標

に対応する深度（ｄｅｐｔｈ）

を用いてｉ番目の検出部４１１Ｃ_ｉに対する３次元カメラ座標

を下記の数式（２）のように算出することができる。

上述した数式（２）のように、映像復元装置は、正規化された座標

それぞれに深度（ｄｅｐｔｈ）

を乗算することによって

を取得することができる。映像復元装置は、３次元カメラ座標の深度値

を深度

に設定する。従って、映像復元装置は、各画素に対応する深度を用いて該当入力映像を撮影したｉ番目の検出部４１１Ｃ_ｉの光学軸を基準とする３次元カメラ座標を算出することができる。

先に説明したように、入力映像の画素値だけでは該当画素が指示しているターゲット地点４９０までの深度値を正確に推定することが難しいところ、一実施形態に係る映像復元装置は、限定された範囲内のディスパリティのうち、一部のディスパリティに対応する深度値を用いて上述した数式（２）による座標変換を行うことができる。ここで、ディスパリティの範囲は［ｄ_ｍｉｎ、ｄ_ｍａｘ］に限定してもよく、深度値も

に限定してもよい。Ｚ_ｍｉｎはイメージセンサの最小の撮影距離として、例えば、１０ｃｍであってもよい。例えば、図４に示す映像復元装置は、ｉ番目の入力映像４２０がターゲット映像４３０に対してｄ＝１のディスパリティを有するものと仮定し、ｄ＝１に対応する深度値（例えば、ｚ_１）を使用することができる。上述した数式（２）において、深度

としてｚ_１が使用されてもよい。ここで、映像復元装置は、ｉ番目の入力映像４２０の全ての画素がターゲット映像４３０に対して同じディスパリティを有するものと設定し、全ての画素を同じ深度値（例えば、ｄ＝１に対応する深度値）を用いて座標を変換することができる。同様に、映像復元装置は、ｉ番目の入力映像４２０がターゲット映像４３０に対してｄ＝２、３、４、ないしｄ_ｍａｘのディスパリティを有するものと仮定し、各ディスパリティに対応する深度値を使用することができる。言い換えれば、映像復元装置は、ｄ＝２であるディスパリティに対応する深度値ｚ_２を用いて変換された３次元カメラ座標値、ｄ＝３であるディスパリティに対応する深度値ｚ_３を用いて変換された３次元カメラ座標値、ｄ＝４であるディスパリティに対応する深度値ｚ_４を用いて変換された３次元カメラ座標値、ないしｄ＝ｄ_ｍａｘであるディスパリティに対応する深度値ｚ_ｍｉｎを用いて変換された３次元カメラ座標値を個別的に取得することができる。参考として、図４において、整数値を有するディスパリティを例に挙げて説明したが、これに限定されることはない。

映像復元装置は、上述した数式（２）によりディスパリティを用いて変換されたｉ番目の入力映像４２０の３次元カメラ座標をターゲット検出部４１２Ｃ_Ｔに対する３次元カメラ座標

に下記の数式（３）のように変換することができる。

上述した数式（３）において、Ｒ_Ｔは、ターゲット検出部４１２Ｃ_Ｔのワールド座標系に対する回転情報、Ｔ_Ｔはターゲット検出部４１２Ｃ_Ｔのワールド座標系に対する平行移動（ｔｒａｎｓｌａｔｉｏｎ）情報を示すことができる。Ｒ_ｉはｉ番目の検出部４１１Ｃ_ｉのワールド座標系に対する回転情報、Ｔ_ｉはｉ番目の検出部４１１Ｃ_ｉのワールド座標系に対する平行移動（ｔｒａｎｓｌａｔｉｏｎ）情報を示す。回転情報及び平行移動情報は、キャリブレーション情報として下記の図７を参照して説明する。上述した数式（３）のように、映像復元装置は、３次元カメラ座標

をｉ番目の検出部４１１Ｃ_ｉのワールド座標系に対する回転情報Ｒ_ｉ及び平行移動情報Ｔ_ｉを用いて変換し、ターゲット検出部４１２Ｃ_Ｔのワールド座標系に対する回転情報Ｒ_Ｔ及び平行移動情報Ｔ_Ｔを用いて変換することで、ターゲット検出部４１２Ｃ_Ｔを基準とする３次元カメラ座標

を算出することができる。

映像復元装置は、入力映像の各画素座標から算出されたターゲット検出部４１２Ｃ_Ｔを基準とする３次元カメラ座標

を下記の数式（４）のように正規化することができる。

上述した数式（４）のように、映像復元装置は、ターゲット検出部４１２Ｃ_Ｔを基準とする３次元カメラ座標のうち

を深度

で割ることで、ターゲット検出部４１２Ｃ_Ｔに対して正規化された座標

を取得することができる。

最後に、映像復元装置は、ターゲット検出部４１２Ｃ_Ｔに対して正規化された座標

からターゲット映像４３０に対応する画素座標系の画素座標

を下記の数式（５）のように算出することができる。

上述した数式（５）において、

では、それぞれｘ軸とｙ軸に対するターゲット検出部４１２Ｃ_Ｔの主点（ｐｒｉｎｃｉｐａｌｐｏｉｎｔ）を示すことができ、

は、それぞれターゲット検出部４１２Ｃ_Ｔでｘ軸とｙ軸に対する焦点距離を示すことができる。

及び

は以下の図７を参照して説明する。

上述した数式（１）〜数式（５）により、映像復元装置は、ｉ番目の検出部４１１Ｃ_ｉの画素座標

をターゲット検出部の画素座標

に変換することで、ｉ番目の入力映像４２０をターゲット映像４３０に対応する画素座標系にワーピングすることができる。上述した数式（１）〜数式（５）による一連の演算をワーピング演算のように示す。説明の便宜のためにワーピング演算を時系列的に説明したが、これに限定されることなく、上述した数式（１）〜数式（５）による演算が結合された演算（例えば、単一化された行列演算など）が使用されてもよい。

一実施形態に係る映像復元装置は、入力情報（例えば、入力映像）それぞれに対して、該当入力映像の全ての画素を複数のディスパリティの１つに対応する単一の深度を用いて、ターゲット映像４３０に対応する画素座標系にワーピングすることで、１つのワーピング映像を生成することができる。例えば、ティスレピティｄが「ｊ」の値を有する場合、ｄ＝ｊのディスパリティに対応する深度値ｚ_ｊを用いて、ｉ番目の入力映像４２０から生成されたｊ番目のワーピング映像の全ての画素は、同じ深度値ｚ_ｊを用いてワーピングされたものである。ここで、ｊは１以上ｄ_ｍａｘ以下の整数であってもよいが、これに限定されることなく、０以上ｄ_ｍａｘ以下の実数であってもよい。参考として、最大のディスパリティｄ_ｍａｘは、下記の数式（６）のように決定される。

上述した数式（６）において、ｂは２つの検出部の間の間隔、ｆは検出部の焦点距離、ｚ_ｍｉｎは検出部の最小の撮影距離を示す。例えば、複数のディスパリティは、検出部の最小の撮影距離ｚ_ｍｉｎ、検出部同士の間の間隔ｂ、及び検出部の焦点距離ｆに基づいて決定される最大のディスパリティｄ_ｍａｘ以下及び最小のディスパリティｄ_ｍｉｎ以上である。

複数のディスパリティのうち１つのディスパリティに対応する深度は、ターゲット映像４３０を基準として入力映像に対して設定された該当ディスパリティ及びターゲット映像４３０と入力映像を撮影した検出部Ｃ_ｉ、Ｃ_Ｔ間の間隔ｂに基づいて決定される。もし、外部の場面に示される全てのターゲット地点４９０の深度がｚ_ｊとして同一であれば、複数のディスパリティの１つに対応するｊ番目のワーピング映像の全ての画素は、ターゲット映像４３０に対して正確に整列され得る。但し、実際の被写体の深度は多様であるため、入力映像で一部の画素のみがターゲット映像４３０と整列される。

例えば、図４に示すように、映像復元装置は、ｉ番目の入力映像４２０から複数のディスパリティに対応するワーピング映像を生成する。複数のワーピング映像は、ｄ＝１に対応する深度ｚ_１を用いて生成された第１ワーピング映像４２１、ｄ＝２に対応する深度ｚ_２を用いて生成された第２ワーピング映像４２２、ｄ＝３に対応する深度ｚ_３を用いて生成された第３ワーピング映像４２３、ｄ＝４に対応する深度ｚ_４を用いて生成された第４ワーピング映像４２４、ないしｄ＝ｄ_ｍａｘに対応する深度ｚ_ｍｉｎを用いて生成されたワーピング映像４２５を含む。説明の便宜のために入力映像及び各ワーピング映像の一部を１次元に示したが、これに限定されることなく、各映像は２次元であってもよい。

任意のターゲット地点４９０がターゲット映像４３０ではターゲット画素４３９から検出され、入力映像では入力画素４２９から検出される。入力映像及びターゲット映像４３０間のディスパリティがｄ＝１に設定される場合、映像復元装置は、ターゲット画素４３９から上述したディスパリティ（例えば、ｄ＝１）だけ離隔した位置の入力映像内画素がターゲット映像４３０のターゲット画素４３９に整列するように入力映像をワーピングすることで、第１ワーピング映像４２１を生成することができる。第２ワーピング映像４２２は、ターゲット画素４３９からｄ＝２のディスパリティだけ離隔した画素がターゲット画素４３９に整列するように入力映像がワーピングされた映像であってもよい。残りのワーピング映像４２３〜４２５において、それぞれ設定されたディスパリティだけターゲット画素４３９から離隔した画素がターゲット画素４３９に整列するように入力映像からワーピングされたものである。図４に示すように、第１ワーピング映像４２１、第２ワーピング映像４２２、及びワーピング映像４２５では、入力画素４２９がターゲット画素４３９とは異なる位置で整列される。但し、第３ワーピング映像４２３及び第４ワーピング映像４２４では、入力画素４２９が１つの画素誤差以下にターゲット画素４３９に対して整列されてもよい。ワーピング映像及びターゲット映像間の画素整列については、下記の図５を参照して説明する。

図５は、一実施形態に係るワーピング映像の画素とターゲット映像の画素との間のマッチングを説明する図である。

一実施形態によれば、複数のディスパリティを用いて入力映像５２０からワーピングされた複数のワーピング映像のそれぞれで、該当ワーピング映像に含まれている画素のうち少なくともいずれかの画素は、ターゲット映像５３０内の対応するターゲット画素と１つ画素以下の誤差を示すことがある。結果的に、ターゲット地点に対する正確な深度推定が省略されても、映像復元装置は、予め設定されたディスパリティに対応する深度を用いてワーピング映像を生成することで、複数のワーピング映像のうち少なくともいずれか１つのワーピング映像で少なくともいずれか１つの画素をターゲット地点にマッチングさせることができる。例えば、図５において、入力映像５２０からワーピングされた第１ワーピング映像５２１の第１画素５０１は、ターゲット映像５３０の画素５３１とマッチングされ得る。また、第２ワーピング映像５２２の第２画素５０２がターゲット映像５３０の画素５３２とマッチングされ得る。

図５では、説明の便宜のためにワーピング映像で任意の画素がターゲット映像５３０にマッチングされる例示について説明したが、これに限定されることはない。入力映像内の任意の領域がターゲット映像でそれに対応する領域と同じ光学情報を含んでもよく、該当の入力映像からワーピングされたワーピング映像のうち、一部の該当領域はターゲット映像でそれに対応する領域にマッチングされてもよい。

図６は、一実施形態に係るワーピング映像の整合を通した出力映像の生成を説明する図である。

一実施形態によれば、映像復元装置は、複数の入力映像６２０からワーピング映像６３１〜６３５を生成する。例えば、映像復元装置は、第１入力映像６２１から任意のディスパリティに対応する深度値を用いて第１ワーピング映像６３１を生成する。第２ワーピング映像６３２は第２入力映像６２２からワーピングされた映像であってもよく、第３ワーピング映像６３３は第３入力映像６２３からワーピングされた映像であってもよく、第４ワーピング映像６３４は第４入力映像６２４からワーピングされた映像であってもよく、第５ワーピング映像６３５は第５入力映像６２５からワーピングされた映像であってもよい。第１入力映像〜第５入力映像６２１〜６２５では、第１画素６０１がターゲット映像にマッチングされる。ターゲット映像は、入力映像のうちの１つとして選択されるが、これに限定されることはない。第２ワーピング映像６３２では第２画素６０２、第３ワーピング映像６３３では第３画素６０３、第４ワーピング映像６３４９では第４画素６０４がそれぞれターゲット映像にマッチングされてもよい。残りのワーピング映像でもターゲット映像にマッチングする画素が存在し、説明の簡略化のために省略する。

映像復元装置は、複数の入力映像６２０及びワーピング映像６３１〜６３５を映像復元モデル６４０に提供する。映像復元モデル６４０は、上述したように畳み込みレイヤを含む畳み込みニューラルネットワークを含んでもよく、入力映像情報及びワーピング映像情報から高解像度出力映像６９０を出力するようにトレーニングされる。例えば、映像復元装置は、映像復元モデル６４０を用いて様々な映像情報でターゲット映像にマッチングされる画素を整合（ｒｅｇｉｓｔｒａｔｉｏｎ：位置合わせ）することで、高解像度の出力映像６９０を生成することができる。

図７は、一実施形態に係るカメラキャリブレーション過程を説明する図である。

一実施形態によれば、映像復元装置は、ワーピング映像情報を生成するための情報を予め格納する。

例えば、ステップＳ７１０において、映像復元装置は、カメラキャリブレーションを行う。イメージセンサに含まれた複数の検出部は、全て整列された状態７０１と設計されているが、実際に製造されたイメージセンサでは整列がずれた状態７０２を示すことがある。映像復元装置は、チェッカーボードを用いてカメラキャリブレーションを行う。映像復元装置は、カメラキャリブレーションを介して内部カメラパラメータとして検出部でｘ軸とｙ軸に対する主点

、及び検出部でｘ軸とｙ軸に対する焦点距離

を算出する。また、映像復元装置は、カメラキャリブレーションを介して外部パラメータとして検出部のワールド座標系に対する回転情報Ｒ_ｉ、検出部のワールド座標系に対する平行移動情報Ｔ_ｉを算出する。

そして、ステップＳ７２０において、映像復元装置は、ディスパリティごとの深度情報を生成して格納する。例えば、映像復元装置は、検出部同士の間の配置関係（例えば、各光軸が互いになしている角度、検出部同士の間の間隔など）に基づいて、２つの検出部によって検出される入力映像間の与えられたディスパリティに対応する深度値を算出する。上述したように、ディスパリティは、限定された範囲内で有限個数に構成される。例えば、ディスパリティは、整数ディスパリティから構成されてもよいが、これに限定されることはない。

一実施形態によれば、映像復元装置は、内部カメラパラメータ及び外部パラメータを用いてワーピング演算として適用される座標マッピング関数（ｍａｐｐｉｎｇｆｕｎｃｔｉｏｎ）を予め（例えば、ステップＳ２１０以前に）算出することができる。座標マッピング関数は、上述した内部カメラパラメータ、外部パラメータ、及び与えられたディスパリティに対応する深度を用いて、入力映像の各画素の座標をターゲット映像に対応する画素座標系に変換させる関数として、例えば、数式（１）〜数式（５）による一連の演算が統合された関数を示す。映像復元装置は、個別ディスパリティごと及び検出部ごとに座標マッピング関数を予め算出して格納することができる。

映像復元装置は、上述した図２に示すステップＳ２２０で、ワーピング映像情報を生成するために、複数の入力映像のいずれか１つの入力映像に対して、該当の入力映像を撮影した他の検出部及びターゲット検出部に対して予め算出された座標マッピング関数をロードする。映像復元装置は、予め算出して格納された座標マッピング関数を入力映像に適用することでワーピング映像情報を生成し、演算量を最小化しながらも、高解像度の出力映像を生成するために映像復元モデルに提供されるワーピング映像情報を迅速に生成することができる。

但し、座標マッピング関数が上述したように、予め算出されて格納されなければならないものではない。映像復元装置は、予め算出された座標マッピング関数の代わりに、内部カメラパラメータ及び外部パラメータを格納してもよい。映像復元装置は、このように格納された内部カメラパラメータ及び外部パラメータをロードして座標マッピング関数を算出し、算出された座標マッピング関数を用いて入力映像に対するワーピング映像情報を生成することができる。

図８は、一実施形態に係る映像復元モデルの構造を示す図である。

一実施形態に係る映像復元装置は、複数の入力情報（例えば、入力映像）及びワーピング情報（例えば、ワーピング映像）を結合（ｃｏｎｃａｔｅｎａｔｅ）したデータを映像復元モデルの入力に提供することで、出力映像を生成することができる。

例えば、映像復元装置は、先に説明したように入力映像情報８２０から生成された複数のワーピング映像情報８２９と入力映像情報８２０とを結合することにより、結合データ（ｃｏｎｃａｔｅｎａｔｅｄｄａｔａ）８４１を生成する。例えば、映像復元装置は、Ｎ個の検出部から取得されたＮ個の入力映像と共に、各入力映像に対して生成されたＤ個のワーピング映像を結合することができる。図８に示すように、結合データ８４１は、入力映像情報及びワーピング映像情報が結合されたものであるため、（Ｄ＋１）×Ｎ個の映像を含む。各映像の解像度は、Ｈ×Ｗであってもよく、Ｈは映像の高さに対応する画素個数、Ｗは映像の幅に対応する画素個数を示す。結合動作は、映像復元モデルの一部の演算として含まれてもよい。

映像復元装置は、結合データ８４１から畳み込みレイヤ８４２を介して特徴データを抽出する。映像復元装置は、抽出された複数の特徴データで同じ地点を示す画素値が互いに隣接するようにシャッフル（ｓｈｕｆｆｌｅ）８４３を行ってもよい。映像復元装置は、レジデュアル（残差）ブロック８４４，８４５を介して特徴データから高解像度の出力映像を生成することができる。レジデュアルブロックは、該当ブロックに入力されたデータから抽出された特徴データ及び該当ブロックに入力されたデータ間のレジデュアルデータ（ｒｅｓｉｄｕａｌｄａｔａ：残差データ）を出力するブロックを示す。出力映像の解像度は（Ａ×Ｈ）×（Ａ×Ｗ）であるため、複数の入力映像のそれぞれの解像度であるＨ×Ｗよりも高い。

参考として、被写体がイメージセンサから［ｚ_ｍｉｎ、ｚ_ｍａｘ］の間の距離内にあれば、ターゲット映像の各領域は、上述した結合データ８４１に含まれた（Ｄ＋１）×Ｎ個の再構成された映像のうち少なくとも１つの同じ位置の領域に類似する情報を含む（図５及び図６参照）。従って、映像復元装置は、結合データ８４１を映像復元モデル３４０に提供することで、各入力映像及びワーピング映像でターゲット映像と類似の情報を含んでいる領域の情報を使用可能であるため、映像復元の性能が改善される。入力映像の個別画素が指示するターゲット地点の深度情報が与えられなくても、映像復元装置は、比較的に高解像度の出力映像を生成可能にする。また、映像復元装置は入力映像間の整列がなくても、カメラパラメータ情報のみを知っていれば、映像を復元することができる。

図１〜図８では、入力映像を直接ワーピングする例示を主に説明したが、これに限定されることはない。以下、図９において、入力映像から抽出された特徴データをワーピングする例示について説明する。

図９は、一実施形態に係る映像ワーピングモデル及び映像復元モデルを用いた映像復元過程を説明する図である。

一実施形態に係る映像復元装置は、映像復元モデルと共に映像ワーピングモデル９５０も利用することができる。映像ワーピングモデル９５０は、特徴抽出モデル９５１及びワーピング演算９５２を含む。映像ワーピングモデル９５０は、入力映像９２０からそれぞれ特徴マップを抽出し、抽出された特徴マップをワーピングするようにトレーニングされたモデルである。特徴抽出モデル９５１のパラメータ（例えば、接続加重値）は、トレーニングによって可変されるが、ワーピング演算９５２は、上述した数式（１）〜数式（６）による演算として一定であり得る。

例えば、映像復元装置は、特徴抽出モデル９５１を用いて複数の入力映像から複数の入力特徴マップを、複数の入力映像情報として抽出する。特徴抽出モデル９５１は、例えば、１つ以上の畳み込みレイヤを含んでもよく、入力特徴マップは、畳み込みフィルタリングの結果値である。映像復元装置は、複数の入力特徴マップそれぞれを複数のディスパリティのそれぞれに対応する深度を用いて、ターゲット映像に対応する画素座標系にワーピングすることで、ワーピング特徴マップをワーピング映像情報として生成することができる。入力特徴マップに特定のディスパリティに対応する深度を用いて、ターゲット検出部の画素座標系にワーピングされた特徴マップをワーピング特徴マップとして示すことができる。入力特徴マップに適用されるワーピング演算９５２は、上述した数式（１）〜数式（５）により入力映像９２０に適用されるワーピング演算９５２と同一であるため、その詳細な説明は省略する。

参考として、ベイヤーパターンで撮影される入力映像がターゲット検出部の画素座標系に直接ワーピングされる場合、該当の入力映像からワーピングされたワーピング映像ではベイヤーパターンが損失されることがある。ワーピングによって各チャネルの色情報が混合しながらワーピング映像で色情報が損失されることがある。一実施形態に係る映像復元装置は、ワーピング演算９５２によって色情報が損失される前に入力映像から入力特徴マップを抽出するため、入力特徴マップに色情報が保存される。映像復元装置は、色情報が格納された状態から抽出された入力特徴マップにワーピング演算９５２を適用することで、ワーピング特徴マップを算出する。従って、映像復元装置は、複数の入力特徴マップ及びワーピング特徴マップを結合したデータを映像復元モデルの入力に提供することで、色情報の格納されている高解像度の出力映像９９０を生成することができる。上述したように、映像復元装置は、色情報の損失を最小化することができる。

映像ワーピングモデルの例示的な詳細構造については、下記の図１０を参照して説明する。

図１０は、一実施形態に係る映像ワーピングモデルの詳細構造を示す図である。

一実施形態によれば、映像復元装置は、映像ワーピングモデル９５０を用いて複数の入力映像から入力特徴マップ及びワーピング特徴マップを生成する。例えば、映像復元装置は、複数の入力映像のそれぞれから特徴抽出モデルを用いて入力特徴マップを抽出する。特徴抽出モデルは、上述したように、１つ以上の畳み込みレイヤ１０５１を含む。また、特徴抽出モデルは、レジデュアルブロック１０５２を含んでもよい。例えば、図１０では、特徴抽出モデルが１つの畳み込みレイヤ及びＭ個の特徴レジデュアルブロックを含む。Ｍは１以上の整数である。映像復元装置は、個別入力映像１０２０に畳み込みフィルタリングを適用した結果値として入力特徴マップを抽出することができる。

そして、映像復元装置は、抽出された入力特徴マップにワーピング演算を適用する。先に説明したように、映像復元装置は、イメージセンサ１０１０のキャリブレーション情報１０１９（例えば、内部パラメータ及び外部パラメータなど）及び複数のディスパリティに対応する深度を用いて、各検出部に対応する入力特徴マップをターゲット検出部の画素座標系にワーピングする。例えば、映像復元装置は、それぞれの入力特徴マップに対してＤ個のディスパリティに対応する深度にワーピング演算を行うことで、１つの入力特徴マップに対してＤ個のワーピング特徴マップを生成する。映像復元装置は、複数の入力特徴マップ及びワーピング特徴マップを結合したデータ１０５３を生成する。結合されたデータ１０５３は、Ｎ個の入力特徴マップ及びＮ×Ｄ個のワーピング特徴マップに関する情報を含む。

映像復元装置は、結合されたデータ１０５３を映像復元モデル３４０の入力に提供することで、高解像度（例えば、個別入力映像の解像度に比べてＡ倍だけ増加した解像度）の出力映像１０９０を生成することができる。例えば、映像復元モデル３４０は、図１０に示すように、１つの畳み込みレイヤ１０４２及び複数のレジデュアルブロック１０４４，１０４５を含む。複数のレジデュアルブロック１０４４，１０４５のうち、結合されたデータ１０５３が入力されるレジデュアルブロック１０４４は、結合されたデータ１０５３で同じ地点を示す画素値が互いに隣接するように、シャッフル１０４３の適用されたデータを受信することができる。

上述した映像ワーピングモデル９５０及び映像復元モデル３４０は、トレーニング間に同時及び／又は順次にトレーニングされてもよい。色情報の損失を誘発するワーピング演算が映像ワーピングモデル９５０に含まれているため、映像ワーピングモデル９５０は、トレーニングを介して色損失が最小化されるパラメータを学習する。映像ワーピングモデル９５０及び映像復元モデル３４０は、逆伝播を介してトレーニングされてもよい。例えば、映像ワーピングモデル９５０及び映像復元モデル３４０は、低解像度のトレーニング入力（例えば、複数の低解像度映像）から高解像度のトレーニング出力（例えば、高解像度の正解値の映像（ｇｒｏｕｎｄｔｒｕｔｈｉｍａｇｅ））が出力されるようにトレーニングされる。トレーニング途中の映像ワーピングモデル９５０及び映像復元モデル３４０は、それぞれ臨時映像ワーピングモデル９５０及び臨時映像復元モデル３４０と示すことができる。任意のトレーニング入力から臨時映像ワーピングモデル９５０及び臨時映像復元モデル３４０が臨時出力を生成し、臨時出力及び正解の値映像間の損失が最小化されるよう、臨時映像ワーピングモデル９５０及び臨時映像復元モデル３４０のパラメータ（例えば、ノード間の接続加重値）が調整され得る。

図１１は、一実施形態に係る映像復元装置の構成を示すブロック図である。

一実施形態に係る映像復元装置１１００は、イメージセンサ１１１０、プロセッサ１１２０、及びメモリ１１３０を含む。

イメージセンサ１１１０は、複数の入力映像情報を取得する。一実施形態によれば、イメージセンサ１１１０は、互いに異なる位置に配置されたレンズを介して撮影された複数の入力映像を複数の入力映像情報として取得する。例えば、イメージセンサ１１１０は、複数の入力映像情報それぞれを取得する検出部を含む。Ｎ個の入力映像情報を取得するために、イメージセンサ１１１０はＮ個の検出部を含む。但し、単一イメージセンサ１１１０内にＮ個の検出部が含まれるものとして限定されることなく、Ｎ個のイメージセンサ１１１０それぞれが検出部を含んでもよい。

プロセッサ１１２０は、複数の入力映像情報それぞれから複数のディスパリティ（ｄｉｓｐａｒｉｔｉｅｓ）に対応する複数のワーピング映像情報（ｗａｒｐｅｄｉｍａｇｅｉｎｆｏｒｍａｔｉｏｎ）を生成し、複数の入力映像情報及び複数のワーピング映像情報に基づいて映像復元モデルを用いて出力映像を生成することができる。プロセッサ１１２０は、個別画素に対応するターゲット地点までの深度検出をスキップし、深度検出動作を行うことなく出力映像を生成することができる。

但し、プロセッサ１１２０の動作がこれに限定されることなく、プロセッサ１１２０は、図１〜図１０を参照して上述した動作のうち少なくとも１つを同時に又は順次行ってもよい。

メモリ１１３０は、映像復元方法の実行に要求されるデータを臨時的又は永久的に格納できる。例えば、メモリ１１３０は、入力映像情報、ワーピング映像情報、及び出力映像を格納する。また、メモリ１１３０は、映像ワーピングモデル及びそのパラメータ、映像復元モデル及びそのパラメータを格納してもよい。各モデルのパラメータは、すでにトレーニングされたものであってもよい。

図１２は、一実施形態に係るコンピューティング装置を示すブロック図である。

図１２を参照すると、コンピューティング装置１２００は、上記で説明した映像復元方法を用いて高解像度映像を生成する装置である。一実施形態では、コンピューティング装置１２００は、図１１を参照して説明された装置１１００に対応する。コンピューティング装置１２００は、例えば、映像処理装置、スマートフォン、ウェアラブル機器（ｗｅａｒａｂｌｅｄｅｖｉｃｅ）、タブレットコンピュータ、ネットブック、ラップトップ、デスクトップ、ＰＤＡ（ｐｅｒｓｏｎａｌｄｉｇｉｔａｌａｓｓｉｓｔａｎｔ）、ＨＭＤ（ｈｅａｄｍｏｕｎｔｅｄｄｉｓｐｌａｙ）であってもよい。また、コンピューティング装置１２００は、車両、ドローン（Ｄｒｏｎｅ）、及びＣＣＴＶなどのための非専用カメラ装置として実現されてもよい。異なる例として、コンピューティング装置１２００は、イメージ通話のためのウェブカム用カメラ装置、３６０度撮影ＶＲカメラ装置、ＶＲ及びＡＲカメラ装置にも実現され得る。

図１２を参照すると、コンピューティング装置１２００は、プロセッサ１２１０、格納装置１２２０、カメラ１２３０、入力装置１２４０、出力装置１２５０及びネットワークインターフェース１２６０を含む。プロセッサ１２１０、格納装置１２２０、カメラ１２３０、入力装置１２４０、出力装置１２５０、及びネットワークインターフェース１２６０は、通信バス１２７０を介して通信する。

プロセッサ１２１０は、コンピューティング装置１２００内で実行するための機能及び命令を実行する。例えば、プロセッサ１２１０は、格納装置１２２０に格納された命令を処理する。プロセッサ１２１０は、図１〜図１１を参照して前述した１つ以上の動作を行うことができる。

格納装置１２２０は、プロセッサの実行に必要な情報ないしデータを格納する。格納装置１２２０は、コンピュータで読み出し可能な格納媒体又はコンピュータで読み出し可能な格納装置を含む。格納装置１２２０は、プロセッサ１２１０によって実行するための命令を格納し、コンピューティング装置１２００によってソフトウェア又はアプリケーションが実行される間に関連情報を格納する。

カメラ１２３０は、複数の入力映像をキャプチャーする。また、上記では映像を主に静止画（ｓｔｉｌｌｉｍａｇｅ）として説明したが、これに限定されることなく、カメラ１２３０は、１つ以上のイメージフレームで構成される映像をキャプチャーしてもよい。例えば、カメラ１２３０は、複数のレンズのそれぞれに対応するフレーム映像を生成してもよい。この場合、コンピューティング装置１２００は、個別フレームに対応する複数の入力映像から上述した映像ワーピングモデル及び映像復元モデルを用いてフレームごとの高解像度出力映像を生成することができる。

入力装置１２４０は、触覚、ビデオ、オーディオ又はタッチ入力によってユーザから入力を受信する。入力装置１２４０は、キーボード、マウス、タッチスクリーン、マイクロホン、又は、ユーザから入力を検出し、検出された入力を伝達できる任意の他の装置を含む。

出力装置１２５０は、視覚的、聴覚的、又は触覚的なチャネルを介してユーザにコンピューティング装置１２００の出力を提供する。出力装置１２５０は、例えば、ディスプレイ、タッチスクリーン、スピーカ、振動発生装置、又はユーザに出力を提供できる任意の他の装置を含んでもよい。ネットワークインターフェース１２６０は、有線又は無線ネットワークを介して外部装置と通信する。一実施形態によれば、出力装置１２５０は、データを処理した結果などを視覚情報（ｖｉｓｕａｌｉｎｆｏｒｍａｔｉｏｎ）、聴覚情報（ａｕｄｉｔｏｒｙｉｎｆｏｒｍａｔｉｏｎ）、及び触覚情報（ｈａｐｔｉｃｉｎｆｏｒｍａｔｉｏｎ）のうち少なくとも１つを用いてユーザに提供することができる。例えば、コンピューティング装置１２００は、生成された高解像度の出力映像をディスプレイを介して可視化することができる。

以上述した装置は、ハードウェア構成要素、ソフトウェア構成要素、又はハードウェア構成要素及びソフトウェア構成要素の組み合せで具現化される。例えば、本実施形態で説明した装置及び構成要素は、例えば、プロセッサ、コントローラ、ＡＬＵ（ａｒｉｔｈｍｅｔｉｃｌｏｇｉｃｕｎｉｔ）、デジタル信号プロセッサ（ｄｉｇｉｔａｌｓｉｇｎａｌｐｒｏｃｅｓｓｏｒ）、マイクロコンピュータ、ＦＰＡ（ｆｉｅｌｄｐｒｏｇｒａｍｍａｂｌｅａｒｒａｙ）、ＰＬＵ（ｐｒｏｇｒａｍｍａｂｌｅｌｏｇｉｃｕｎｉｔ）、マイクロプロセッサー、又は命令（ｉｎｓｔｒｕｃｔｉｏｎ）を実行して応答する異なる装置のように、１つ以上の汎用コンピュータ又は特殊目的コンピュータを用いて具現化される。処理装置は、オペレーティングシステム（ＯＳ）及びオペレーティングシステム上で実行される１つ以上のソフトウェアアプリケーションを実行する。また、処理装置は、ソフトウェアの実行に応答してデータをアクセス、格納、操作、処理、及び生成する。理解の便宜のために、処理装置は１つが使用されるものとして説明する場合もあるが、当技術分野で通常の知識を有する者は、処理装置が複数の処理要素（ｐｒｏｃｅｓｓｉｎｇｅｌｅｍｅｎｔ）及び／又は複数類型の処理要素を含むことを把握する。例えば、処理装置は、複数のプロセッサ又は１つのプロセッサ及び１つのコントローラを含む。また、並列プロセッサ（ｐａｒａｌｌｅｌｐｒｏｃｅｓｓｏｒ）のような、他の処理構成も可能である。

ソフトウェアは、コンピュータプログラム、コード、命令、又はそのうちの一つ以上の組合せを含み、希望の通りに動作するよう処理装置を構成したり、独立的又は結合的に処理装置を命令したりすることができる。ソフトウェア及び／又はデータは、処理装置によって解釈されたり処理装置に命令又はデータを提供したりするために、いずれかの類型の機械、構成要素、物理的装置、仮想装置、コンピュータ格納媒体又は装置、又は送信される信号波に永久的又は一時的に具体化することができる。ソフトウェアはネットワークに連結されたコンピュータシステム上に分散され、分散した方法で格納されたり実行されたりし得る。ソフトウェア及びデータは一つ以上のコンピュータで読出し可能な記録媒体に格納され得る。

本実施形態による方法は、様々なコンピュータ手段を介して実施されるプログラム命令の形態で具現化され、コンピュータ読み取り可能な記録媒体に記録される。記録媒体は、プログラム命令、データファイル、データ構造などを単独又は組み合せて含む。記録媒体及びプログラム命令は、本発明の目的のために特別に設計して構成されたものでもよく、コンピュータソフトウェア分野の技術を有する当業者にとって公知のものであり使用可能なものであってもよい。コンピュータ読み取り可能な記録媒体の例として、ハードディスク、フロッピー（登録商標）ディスク及び磁気テープのような磁気媒体、ＣＤ−ＲＯＭ、ＤＶＤのような光記録媒体、フロプティカルディスクのような磁気−光媒体、及びＲＯＭ、ＲＡＭ、フラッシュメモリなどのようなプログラム命令を保存して実行するように特別に構成されたハードウェア装置を含む。プログラム命令の例としては、コンパイラによって生成されるような機械語コードだけでなく、インタプリタなどを用いてコンピュータによって実行される高級言語コードを含む。ハードウェア装置は、本発明に示す動作を実行するために１つ以上のソフトウェアモジュールとして作動するように構成してもよく、その逆も同様である。

上述したように実施形態をたとえ限定された図面によって説明したが、当技術分野で通常の知識を有する者であれば、上記の説明に基づいて様々な技術的な修正及び変形を適用することができる。例えば、説明された技術が説明された方法と異なる順で実行されるし、及び／又は説明されたシステム、構造、装置、回路などの構成要素が説明された方法と異なる形態で結合又は組み合わせられてもよいし、他の構成要素又は均等物によって置き換え又は置換されたとしても適切な結果を達成することができる。

したがって、本発明の範囲は、開示された実施形態に限定されて定められるものではなく、特許請求の範囲及び特許請求の範囲と均等なものなどによって定められるものである。

Claims

映像復元方法において、
複数の入力映像情報を取得するステップと、
前記複数の入力映像情報に基づいて複数のディスパリティのそれぞれに対して複数のワーピング映像情報を生成するステップと、
前記複数の入力映像情報及び前記複数のワーピング映像情報に基づいて、映像復元モデルを使用することによって出力映像を生成するステップと、
を含む映像復元方法。
前記複数の入力映像情報は、互いに異なる位置に配置されたレンズを介して撮影された複数の入力映像を含む、請求項１に記載の映像復元方法。
前記複数のワーピング映像情報を生成するステップは、前記複数の入力映像それぞれを前記複数のディスパリティそれぞれに対応する深度を用いてターゲット映像に対応する画素座標系にワーピングすることで、前記複数のディスパリティのそれぞれに対して複数のワーピング映像を前記ワーピング映像情報として生成するステップを含む、請求項２に記載の映像復元方法。
前記ワーピング映像を生成するステップは、前記複数の入力映像のうち第１入力映像で全ての画素を前記複数のディスパリティのうち第１ディスパリティに対応する単一の深度を用いて前記ターゲット映像に対応する画素座標系にワーピングすることで、ワーピング映像を生成するステップを含む、請求項３に記載の映像復元方法。
ディスパリティは、前記ターゲット映像を基準として入力映像に対して設定され、
前記ディスパリティに対応する前記深度は、前記ディスパリティ及び前記ターゲット映像と前記入力映像を撮影した検出部同士の間の間隔に基づく、請求項３に記載の映像復元方法。
前記出力映像を生成するステップは、前記複数の入力映像及び前記複数のディスパリティのそれぞれに対応する前記複数のワーピング映像を結合することにより取得されたデータを前記映像復元モデルに入力として提供することで、前記出力映像を生成するステップを含む、請求項３に記載の映像復元方法。
前記複数の入力映像情報は、特徴抽出モデルを用いて複数の入力映像から抽出された複数の入力特徴マップを含む、請求項１乃至６のいずれか一項に記載の映像復元方法。
前記複数のワーピング映像情報を生成するステップは、前記複数の入力特徴マップそれぞれを前記複数のディスパリティそれぞれに対応する深度を用いてターゲット映像に対応する画素座標系にワーピングすることで、前記複数のディスパリティのそれぞれに対して複数のワーピング特徴マップを前記複数のワーピング映像情報として生成するステップを含む、請求項７に記載の映像復元方法。
前記出力映像を生成するステップは、前記複数の入力特徴マップ及び前記複数のディスパリティのそれぞれに対応する前記複数のワーピング特徴マップを結合したデータを前記映像復元モデルに入力として提供することで、前記出力映像を生成するステップを含む、請求項７に記載の映像復元方法。
前記映像復元モデルは、入力されるデータに対して畳み込みフィルタリングを適用するように構成された少なくとも１つの畳み込みレイヤを含むニューラルネットワークである、請求項１乃至９のいずれか一項に記載の映像復元方法。
前記複数のディスパリティは、最大のディスパリティ以下及び最小のディスパリティ以上であり、
前記最大のディスパリティは、検出部の焦点距離、前記検出部同士の間の間隔、及び検出部の最小の撮影距離に基づいており、
前記検出部は、前記複数の入力イメージ情報に対応する入力イメージをキャプチャーするように構成される、請求項１乃至１０のいずれか一項に記載の映像復元方法。
前記複数のディスパリティは、有限個数（ｆｉｎｉｔｅｎｕｍｂｅｒ）である、請求項１１に記載の映像復元方法。
前記出力映像を生成するステップは、個別画素に対応するターゲット地点までの深度検出なしに前記出力映像を生成するステップを含む、請求項１乃至１２のいずれか一項に記載の映像復元方法。
前記複数のワーピング映像情報を生成するステップは、座標マッピング関数を入力映像情報に対応する入力映像に適用することによってワーピング映像情報を生成するステップを含み、
前記座標マッピング関数は、入力イメージをキャプチャーするように構成される検出部及びターゲットイメージをキャプチャーするように構成されるターゲット検出部に対して予め決定される、請求項１乃至１３のいずれか一項に記載の映像復元方法。
前記出力映像の解像度は、前記複数の入力映像情報それぞれの解像度よりも高い、請求項１乃至１４のいずれか一項に記載の映像復元方法。
複数の入力映像情報は、マルチレンズアレイを含むイメージセンサによってキャプチャーされたマルチレンズ映像を含み、
前記マルチレンズ映像は複数の入力映像を含む、請求項１乃至１５のいずれか一項に記載の映像復元方法。
前記複数の入力映像情報は、複数のイメージセンサによって個別的にキャプチャーされた複数の入力映像を含む、請求項１乃至１６のいずれか一項に記載の映像復元方法。
請求項１乃至１７のいずれか一項に記載の方法を行うための命令語を含む１つ以上のコンピュータプログラムを格納したコンピュータで読み出し可能な記録媒体。
映像復元装置であって、
複数の入力映像情報を取得するイメージセンサと、
前記複数の入力映像情報それぞれに基づいて、複数のディスパリティのそれぞれに対して複数のワーピング映像情報を生成し、前記複数の入力映像情報及び前記複数のワーピング映像情報に基づいて映像復元モデルを用いて出力映像を生成するプロセッサと、
を含む、映像復元装置。
複数のレンズを含むレンズアレイと、
前記レンズアレイを通過した光を検出する複数の検出エレメントを含み、前記複数の検出エレメントは、前記複数のレンズに個別的に対応する検出領域を含み、複数の入力情報を取得するように構成される検出アレイと、
複数の入力情報それぞれに基づいて複数のディスパリティのそれぞれに対して複数のワーピング情報を生成し、前記複数の入力情報及び複数のワーピング情報に基づいて映像復元モデルを用いて出力映像を生成するプロセッサと、
を含む、映像復元装置。
前記出力映像の解像度が前記複数の入力情報に該当する解像度よりも高い、請求項２０に記載の映像復元装置。
前記プロセッサは、前記複数の入力情報それぞれを前記複数のディスパリティそれぞれに対応する深度を用いてターゲット映像に対応する画素座標系にワーピングすることで、前記複数のディスパリティのそれぞれに対して前記複数のワーピング情報を生成する、請求項２０又は２１に記載の映像復元装置。
前記プロセッサは、前記複数の入力情報のうち、入力情報に対応する全ての画素を前記複数のディスパリティのうち第１ディスパリティに対応する単一の深度を用いて前記ターゲット映像に対応する画素座標系にワーピングすることで、ワーピング情報を生成する、請求項２２に記載の映像復元装置。
前記プロセッサは、前記複数の入力情報及び前記複数のディスパリティのそれぞれに対応するワーピング情報を結合したデータを前記映像復元モデルに入力として提供することで、前記出力映像を生成する、請求項２２に記載の映像復元装置。
前記プロセッサは、特徴抽出モデルを用いて複数の入力映像から複数の入力特徴マップを前記複数の入力情報として抽出する、請求項２０乃至２４のいずれか一項に記載の映像復元装置。
前記プロセッサは、前記複数の入力特徴マップそれぞれを前記複数のディスパリティそれぞれに対応する深度を用いてターゲット映像に対応する画素座標系にワーピングすることで、前記複数のディスパリティのそれぞれに対して複数のワーピング特徴マップを前記複数のワーピング情報として生成する、請求項２５に記載の映像復元装置。
前記プロセッサは、前記複数の入力特徴マップ及び前記複数のディスパリティのそれぞれに対応するワーピング特徴マップを結合したデータを前記映像復元モデルに入力として提供することで、前記出力映像を生成する、請求項２６に記載の映像復元装置。