JP2021072615A - 映像復元装置及び方法 - Google Patents
映像復元装置及び方法 Download PDFInfo
- Publication number
- JP2021072615A JP2021072615A JP2020155697A JP2020155697A JP2021072615A JP 2021072615 A JP2021072615 A JP 2021072615A JP 2020155697 A JP2020155697 A JP 2020155697A JP 2020155697 A JP2020155697 A JP 2020155697A JP 2021072615 A JP2021072615 A JP 2021072615A
- Authority
- JP
- Japan
- Prior art keywords
- video
- input
- warping
- information
- image
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims description 39
- 238000001514 detection method Methods 0.000 claims description 149
- 238000013507 mapping Methods 0.000 claims description 15
- 238000000605 extraction Methods 0.000 claims description 13
- 238000013528 artificial neural network Methods 0.000 claims description 8
- 239000000284 extract Substances 0.000 claims description 7
- 238000001914 filtration Methods 0.000 claims description 7
- 238000004590 computer program Methods 0.000 claims description 2
- 238000003384 imaging method Methods 0.000 claims description 2
- 230000006870 function Effects 0.000 description 15
- 238000012545 processing Methods 0.000 description 13
- 238000010586 diagram Methods 0.000 description 10
- 230000003287 optical effect Effects 0.000 description 8
- 230000008569 process Effects 0.000 description 8
- 238000012549 training Methods 0.000 description 8
- 238000013519 translation Methods 0.000 description 8
- 238000013527 convolutional neural network Methods 0.000 description 7
- 238000004364 calculation method Methods 0.000 description 5
- 238000005516 engineering process Methods 0.000 description 3
- 230000014509 gene expression Effects 0.000 description 3
- 238000012986 modification Methods 0.000 description 3
- 230000004048 modification Effects 0.000 description 3
- 230000035945 sensitivity Effects 0.000 description 3
- 230000000007 visual effect Effects 0.000 description 3
- 238000006243 chemical reaction Methods 0.000 description 2
- 230000009977 dual effect Effects 0.000 description 2
- 238000010801 machine learning Methods 0.000 description 2
- 238000011084 recovery Methods 0.000 description 2
- 230000008859 change Effects 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 230000000295 complement effect Effects 0.000 description 1
- 230000006837 decompression Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 239000011159 matrix material Substances 0.000 description 1
- 239000002184 metal Substances 0.000 description 1
- 230000002093 peripheral effect Effects 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 238000010408 sweeping Methods 0.000 description 1
Images
Classifications
-
- G06T5/80—
-
- G06T3/18—
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G06T3/04—
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T3/00—Geometric image transformation in the plane of the image
- G06T3/40—Scaling the whole image or part thereof
- G06T3/4053—Super resolution, i.e. output image resolution higher than sensor resolution
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T5/00—Image enhancement or restoration
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T5/00—Image enhancement or restoration
- G06T5/20—Image enhancement or restoration by the use of local operators
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T5/00—Image enhancement or restoration
- G06T5/50—Image enhancement or restoration by the use of more than one image, e.g. averaging, subtraction
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/50—Depth or shape recovery
- G06T7/55—Depth or shape recovery from multiple images
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/50—Depth or shape recovery
- G06T7/55—Depth or shape recovery from multiple images
- G06T7/557—Depth or shape recovery from multiple images from light fields, e.g. from plenoptic cameras
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/50—Depth or shape recovery
- G06T7/55—Depth or shape recovery from multiple images
- G06T7/593—Depth or shape recovery from multiple images from stereo images
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N23/00—Cameras or camera modules comprising electronic image sensors; Control thereof
- H04N23/45—Cameras or camera modules comprising electronic image sensors; Control thereof for generating image signals from two or more image sensors being of different type or operating in different modes, e.g. with a CMOS sensor for moving images in combination with a charge-coupled device [CCD] for still images
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N23/00—Cameras or camera modules comprising electronic image sensors; Control thereof
- H04N23/95—Computational photography systems, e.g. light-field imaging systems
- H04N23/951—Computational photography systems, e.g. light-field imaging systems by using two or more images to influence resolution, frame rate or aspect ratio
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/10—Image acquisition modality
- G06T2207/10028—Range image; Depth image; 3D point clouds
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/10—Image acquisition modality
- G06T2207/10052—Images from lightfield camera
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20081—Training; Learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20084—Artificial neural networks [ANN]
Abstract
【課題】実施形態に係る映像復元装置は、マルチレンズ映像から単一の映像を復元することにある。【解決手段】一実施形態に係る映像復元装置は、複数の入力映像それぞれを複数のディスパリティに対応する深度を用いてワーピングすることで、複数のワーピング映像を生成し、複数の入力映像及び複数のワーピング映像から映像復元モデルを用いて高解像度の出力映像を生成する。【選択図】図3
Description
以下、マルチレンズ映像を復元する技術であって、複数のイメージセンサによりキャプチャーされたり、マルチレンズアレイを含むイメージセンサによりキャプチャーされたりした複数の入力映像に基づいて映像を復元するための方法及び装置が提供される。
光学技術及び映像処理技術の発達に伴って、マルチメディアコンテンツ、セキュリティー及び認識などの広範囲な分野に撮影装置が活用されている。例えば、撮影装置は、モバイル機器、カメラ、車両及びコンピュータなどに搭載され、映像を撮影したり、オブジェクトを認識したり、機器を制御するためのデータを取得したりすることができる。撮影装置の体積は、レンズのサイズ、レンズの焦点距離(focal length)及びセンサのサイズなどによって決定され、体積を低減するために小型レンズで構成されたマルチレンズが用いられる。
一実施形態に係る映像復元装置は、マルチレンズ映像から単一の映像を復元することにある。
一実施形態に係る映像復元方法は、複数の入力映像情報を取得するステップと、前記複数の入力映像情報に基づいて複数のディスパリティのそれぞれに対して複数のワーピング映像情報を生成するステップと、前記複数の入力映像情報及び前記複数のワーピング映像情報に基づいて、映像復元モデルを使用することによって出力映像を生成するステップとを含む。
前記複数の入力映像情報は、互いに異なる位置に配置されたレンズを介して撮影された複数の入力映像を含むことができる。
前記複数のワーピング映像情報を生成するステップは、前記複数の入力映像それぞれを前記複数のディスパリティそれぞれに対応する深度を用いてターゲット映像に対応する画素座標系にワーピングすることで、前記複数のディスパリティのそれぞれに対して複数のワーピング映像を前記ワーピング映像情報として生成するステップを含む。
前記ワーピング映像を生成するステップは、前記複数の入力映像のうち第1入力映像で全ての画素を前記複数のディスパリティのうち第1ディスパリティに対応する単一の深度を用いて前記ターゲット映像に対応する画素座標系にワーピングすることで、ワーピング映像を生成するステップを含むことができる。
ディスパリティは、前記ターゲット映像を基準として入力映像に対して設定され、前記ディスパリティに対応する前記深度は、前記ディスパリティ及び前記ターゲット映像と前記入力映像を撮影した検出部同士の間の間隔に基づくことができる。
前記出力映像を生成するステップは、前記複数の入力映像及び前記複数のディスパリティのそれぞれに対応する前記複数のワーピング映像を結合することにより取得されたデータを前記映像復元モデルに入力として提供することで、前記出力映像を生成するステップを含むことができる。
前記複数の入力映像情報は、特徴抽出モデルを用いて複数の入力映像から抽出された複数の入力特徴マップを含むことができる。
前記複数のワーピング映像情報を生成するステップは、前記複数の入力特徴マップそれぞれを前記複数のディスパリティそれぞれに対応する深度を用いてターゲット映像に対応する画素座標系にワーピングすることで、前記複数のディスパリティのそれぞれに対して複数のワーピング特徴マップを前記複数のワーピング映像情報として生成するステップを含むことができる。
前記出力映像を生成するステップは、前記複数の入力特徴マップ及び前記複数のディスパリティのそれぞれに対応する前記複数のワーピング特徴マップを結合したデータを前記映像復元モデルに入力として提供することで、前記出力映像を生成するステップを含むことができる。
前記映像復元モデルは、入力されるデータに対して畳み込みフィルタリングを適用するように構成された少なくとも1つの畳み込みレイヤを含むニューラルネットワークであり得る。
前記複数のディスパリティは、最大のディスパリティ以下及び最小のディスパリティ以上であり、前記最大のディスパリティは、前記検出部の焦点距離、前記検出部同士の間の間隔、及び検出部の最小の撮影距離に基づいており、前記検出部は、前記複数の入力イメージ情報に対応する入力イメージをキャプチャーするように構成され得る。
前記複数のディスパリティは、有限個数(finite number)であり得る。
前記出力映像を生成するステップは、個別画素に対応するターゲット地点までの深度検出なしに前記出力映像を生成するステップを含むことができる。
前記複数のワーピング映像情報を生成するステップは、座標マッピング関数を入力映像情報に対応する入力映像に適用することによってワーピング映像情報を生成するステップを含み、前記座標マッピング関数は、前記入力イメージをキャプチャーするように構成される検出部及びターゲットイメージをキャプチャーするように構成されるターゲット検出部に対して予め決定され得る。
前記出力映像の解像度は、前記複数の入力映像情報それぞれの解像度よりも高くてもよい。
複数の入力映像情報は、マルチレンズアレイを含むイメージセンサによってキャプチャーされたマルチレンズ映像を含み、前記マルチレンズ映像は複数の入力映像を含むことができる。
前記複数の入力映像情報は、複数のイメージセンサによって個別的にキャプチャーされた複数の入力映像を含むことができる。
一実施形態に係る映像復元装置は、複数の入力映像情報を取得するイメージセンサと、前記複数の入力映像情報それぞれに基づいて、複数のディスパリティのそれぞれに対して複数のワーピング映像情報を生成し、前記複数の入力映像情報及び前記複数のワーピング映像情報に基づいて映像復元モデルを用いて出力映像を生成するプロセッサとを含む。
映像復元装置は、複数のレンズを含むレンズアレイと、前記レンズアレイを通過した光を検出する複数の検出エレメントを含み、前記複数の検出エレメントは、前記複数のレンズに個別的に対応する検出領域を含み、複数の入力情報を取得するように構成される検出アレイと、複数の入力情報それぞれに基づいて複数のディスパリティのそれぞれに対して複数のワーピング情報を生成し、前記複数の入力情報及び複数のワーピング情報に基づいて映像復元モデルを用いて出力映像を生成するプロセッサとを含むことができる。
前記出力映像の解像度が前記複数の入力情報に該当する解像度よりも高くてもよい。
前記プロセッサは、前記複数の入力情報それぞれを前記複数のディスパリティそれぞれに対応する深度を用いてターゲット映像に対応する画素座標系にワーピングすることで、前記複数のディスパリティのそれぞれに対して前記複数のワーピング情報を生成することができる。
前記プロセッサは、前記複数の入力情報のうち、入力情報に対応する全ての画素を前記複数のディスパリティのうち第1ディスパリティに対応する単一の深度を用いて前記ターゲット映像に対応する画素座標系にワーピングすることで、ワーピング情報を生成することができる。
前記プロセッサは、前記複数の入力情報及び前記複数のディスパリティのそれぞれに対応するワーピング情報を結合したデータを前記映像復元モデルに入力として提供することで、前記出力映像を生成することができる。
前記プロセッサは、特徴抽出モデルを用いて複数の入力映像から複数の入力特徴マップを前記複数の入力情報として抽出することができる。
前記プロセッサは、前記複数の入力特徴マップそれぞれを前記複数のディスパリティそれぞれに対応する深度を用いてターゲット映像に対応する画素座標系にワーピングすることで、前記複数のディスパリティのそれぞれに対して複数のワーピング特徴マップを前記複数のワーピング情報として生成することができる。
前記プロセッサは、前記複数の入力特徴マップ及び前記複数のディスパリティのそれぞれに対応するワーピング特徴マップを結合したデータを前記映像復元モデルに入力として提供することで、前記出力映像を生成することができる。
一実施形態に係る映像復元装置は、ディスパリティごとにワーピング映像を生成し、ワーピング映像からニューラルネットワークを用いて高解像度映像を復元することができる。
下記で説明する実施形態は様々な変更が加えられ得る。特許出願の範囲はこのような実施形態によって制限も限定もされない。各図面に提示した同じ参照符号は同じ部材を示す。
本明細書で開示する特定の構造的又は機能的な説明は単に実施形態を説明するための目的として例示したものであり、実施形態は様々な異なる形態で実施され、本発明は本明細書で説明した実施形態に限定されるものではない。
本明細書で用いる用語は、単に特定の実施形態を説明するために用いられるものであって、本発明を限定しようとする意図はない。単数の表現は、文脈上、明白に異なる意味をもたない限り複数の表現を含む。本明細書において、「含む」又は「有する」等の用語は明細書上に記載した特徴、数字、ステップ、動作、構成要素、部品、又はこれらを組み合わせたものが存在することを示すものであって、一つ又はそれ以上の他の特徴や数字、ステップ、動作、構成要素、部品、又はこれらを組み合わせたものなどの存在又は付加の可能性を予め排除しないものとして理解しなければならない。
異なる定義がされない限り、技術的であるか又は科学的な用語を含むここで用いる全ての用語は、本発明が属する技術分野で通常の知識を有する者によって一般的に理解されるものと同じ意味を有する。一般的に用いられる予め定義された用語は、関連技術の文脈上で有する意味と一致する意味を有するものと解釈すべきであって、本明細書で明白に定義しない限り、理想的又は過度に形式的な意味として解釈されることはない。
また、図面を参照して説明する際に、図面符号に拘わらず同じ構成要素は同じ参照符号を付与し、これに対する重複する説明は省略する。実施形態の説明において関連する公知技術に対する具体的な説明が本発明の要旨を不要に曖昧にすると判断される場合、その詳細な説明は省略する。
図1は、一実施形態に係る映像復元の概略的な過程を説明する。
一実施形態に係るイメージセンサ110によって撮影及び復元されるイメージの品質は、検出アレイ112に含まれている検出エレメントの数、及び検出エレメントに入射される光量に応じて決定される。例えば、イメージの解像度は、検出アレイ112に含まれた検出エレメントの数に応じて決定され、イメージの感度は検出エレメントに入射される光量に応じて決定される。検出エレメントに入射される光量は検出エレメントのサイズに基づいて決定され、サイズが大きいほど入射される光量は増加し、検出アレイ112の動的範囲(dynamic range)が増加する。従って、検出アレイ112に含まれた検出エレメントの数が増加することにより、イメージセンサ110は高解像度イメージを撮影することができ、検出エレメントのサイズが増加することにより、イメージセンサ110は低照度で高感度イメージの撮影に有利に働く。
イメージセンサ110の体積は、レンズエレメント111の焦点距離(focal length)によって決定される。より具体的に、イメージセンサ110の体積は、レンズエレメント111と検出アレイ112との間の間隔によって決定されるが、レンズエレメント111によって屈折された光を収集するために、レンズエレメント111と検出アレイ112がレンズエレメント111の焦点距離だけ離隔して配置されなければならないためである。
レンズエレメント111の焦点距離は、イメージセンサ110の視野角とレンズエレメント111のサイズによって決定される。例えば、視野角が固定される場合、レンズエレメント111のサイズに比例して焦点距離が長くなり、一定の視野角範囲のイメージを撮影するために、検出アレイ112のサイズが増加することによりレンズエレメント111のサイズが増加しなければならない。
前述したとおりに、視野角及びイメージの解像度を保持しながらイメージの感度を増加させるためには、イメージセンサ110の体積が増加される。例えば、イメージの解像度を保持しながらイメージの感度を増加させるためには、検出アレイ112に含まれている検出エレメントの数を保持しつつ、各検出エレメントのサイズを増加させなければならないため、検出アレイ112のサイズが増加する。ここで、視野角を保持するためには、検出アレイ112のサイズが増加することによりレンズエレメント111のサイズが増加し、レンズエレメント111の焦点距離が長くなることから、イメージセンサ110の体積は増加される。
前述したとおりに、視野角及びイメージの解像度を保持しながらイメージの感度を増加させるためには、イメージセンサ110の体積が増加される。例えば、イメージの解像度を保持しながらイメージの感度を増加させるためには、検出アレイ112に含まれている検出エレメントの数を保持しつつ、各検出エレメントのサイズを増加させなければならないため、検出アレイ112のサイズが増加する。ここで、視野角を保持するためには、検出アレイ112のサイズが増加することによりレンズエレメント111のサイズが増加し、レンズエレメント111の焦点距離が長くなることから、イメージセンサ110の体積は増加される。
図1を参照すると、イメージセンサ110は、レンズアレイ及び検出アレイ112を含む。レンズアレイは、レンズエレメントを含み、検出アレイ112は検出エレメントを含む。レンズエレメントは、レンズアレイの平面に沿って配置され、検出エレメントは、検出アレイ112の平面に沿って配置される。検出アレイ112の検出エレメントは、レンズエレメントそれぞれに対応する検出領域に区分される。レンズアレイの平面は、検出アレイ112の平面と平行であり、レンズアレイに含まれているレンズエレメント111の焦点距離だけ離隔している。レンズアレイは、マイクロマルチレンズアレイ(MMLA、micro multi lens array)又はマルチレンズアレイのように示すことができる。
一実施形態によれば、レンズアレイに含まれたレンズエレメントそれぞれのサイズを低減するほど、言い換えれば、レンズアレイ上で同じ広さに含まれているレンズの数を増加させるほど、レンズエレメント111の焦点距離は小さくなり、イメージセンサ110の厚さは減少する。従って、薄型カメラ(thin camera)が実現されるのである。この場合、イメージセンサ110は、各レンズエレメント111で撮影された低解像度入力映像120を再配列(rearrange)及び組み合わせて高解像度出力映像190を復元することができる。
レンズアレイの個別レンズエレメント111は、自身のレンズの大きさ(lens size)に対応する検出アレイ112の一定の検出領域113をカバーすることができる。検出アレイ112でレンズエレメント111によってカバーされる検出領域113は、該当レンズエレメント111のレンズの大きさに応じて決定される。検出領域113は、一定の視野角範囲の光線が該当レンズエレメント111を通過した後に到達する検出アレイ112上の領域を示す。検出領域113の大きさは、検出領域113の中心から最外郭地点までの距離又は対角の長として表現することができ、レンズの大きさはレンズの直径に対応する。
検出アレイ112の検出エレメントそれぞれは、レンズアレイのレンズを通過した光線に基づいて検出情報を生成する。例えば、検出エレメントは、レンズエレメント111を介して受信された光の強度値を検出情報として検出することができる。イメージセンサ110は、検出アレイ112によって出力された検出情報に基づいて、イメージセンサ110の視野に含まれた地点に関するオリジナル信号(original signal)に対応する強度情報を決定し、決定された強度情報に基づいて撮影イメージを復元することができる。例えば、検出アレイ112は、CMOS(complementary metal oxide semiconductor)又はCCD(Charge−Coupled Device)などで構成されるイメージ検出モジュールであってもよい。
また、検出エレメントは、所望する色を検出するための色フィルタを含んで、特定の色に対応する色の強度値を検出情報として生成する。検出アレイ112を構成している複数の検出エレメントそれぞれは、空間的に隣接した隣接の検出エレメントと異なる色を検出するように配置されてもよい。
検出情報の多様性が十分に確保され、イメージセンサ110の視野に含まれた地点に対応するオリジナル信号情報と検出情報との間に完全ランク(full rank)関係が形成されるとき、検出アレイ112の最大の解像度に対応する撮影イメージが導き出される。検出情報の多様性は、レンズアレイに含まれたレンズの数及び検出アレイ112に含まれている検出エレメントの数のような、イメージセンサ110のパラメータに基づいて確保される。
さらに、個別レンズエレメント111によってカバーされる検出領域113は、非整数次(non−integer)の検出エレメントを含む。一実施形態に係るマルチレンズアレイ構造は、分数整列構造(fractional alignment structure)のように実現される。例えば、レンズアレイに含まれているレンズエレメントが同じレンズの大きさを有する場合、レンズアレイに含まれているレンズエレメントの数と検出アレイ112に含まれている検出エレメントの数は、互いに素(relatively prime)の関係であってもよい。レンズアレイのレンズエレメントの個数Lと検出アレイ112の一軸に該当する検出エレメントの個数Pとの間の比率P/Lは、実数(real number)として決定される。レンズエレメントのそれぞれは、P/Lに対応するピクセルオフセットと同じ個数の検出エレメントをカバーすることができる。
上述したような分数整列構造により、イメージセンサ110は、各レンズエレメント111の光学中心軸(OCA、optical center axis)が検出アレイ112に対して互いに少しずつ(slightly)異なる配置を有してもよい。言い換えれば、レンズエレメント111は、検出エレメントに対してずれて(eccentric)配置されてもよい。従って、レンズアレイの各レンズエレメント111は、互いに異なるライトフィールド情報を受信する。参考として、ライトフィールド(LF、light field)は、任意のターゲット地点から放出されてもよく、被写体(subject)上の任意の地点から反射された光線の方向及び強度を示すフィールドを示す。ライトフィールド情報は、複数のライトフィールドが組み合せられた情報を示す。各レンズエレメント111の主光線(chief ray)の方向も変わり得るため、各検出領域113が互いに異なるライトフィールド情報を受信することから、複数の検出領域で少しずつ異なる複数の入力情報(例えば、入力映像情報)が取得されることがある。少しずつ異なる複数の入力情報を介して、イメージセンサ110は、光学的により多くの検出情報を取得することができる。
上述したイメージセンサ110は、複数の検出部(sensing units)に区分されてもよい。複数の検出部それぞれは、マルチレンズアレイを構成しているレンズ単位に区別される。例えば、各検出部は、レンズ及び該当レンズによってカバーされる検出領域113の検出エレメントを含む。一実施形態によれば、イメージセンサ110は、各レンズに対応する検出領域113ごとに取得された検出情報から個別入力映像を生成する。言い換えれば、複数の検出部それぞれは、個別的に入力映像を取得し得る。上述したように、複数の検出部は、互いに異なるライトフィールド情報を取得するため、各検出部によって撮影された入力映像は、少しずつ異なる場面を撮影することがある。イメージセンサ110はN個のレンズを含んでもよく、N個の検出部に区別されてもよい。N個の検出部が個別的に入力映像を撮影するため、イメージセンサ110は、N個の入力映像120を取得し得る。ここで、Nは2以上の整数であってもよい。図1において、マルチレンズアレイは、N=5×5=25個のレンズを含んでもよく、イメージセンサは25個の低解像度入力映像120を撮影する。異なる例として、マルチレンズ映像は、N=6×6=36個の入力映像で構成されてもよい。参考として、1つのイメージセンサ110に複数の検出部が含まれている例示を説明したが、検出部がこれに限定されることはない。検出部は、立的なイメージ検出モジュール(例えば、カメラセンサ)を示してもよく、この場合、各検出部は他の検出部と異なる位置に配置されてもよい。
以下では、イメージセンサ110が上述したように取得された様々な検出情報から複数の低解像度入力映像120を生成し、複数の低解像度入力映像120のうち、ターゲット映像121を基準として高解像度出力映像190を復元することができる。参考として、図1では、ターゲット映像121が複数の入力映像120のうち中央の映像に決定されているが、これに限定されることなく、中央ではない他の入力映像がターゲット映像として使用されてもよい。また、イメージセンサ110は、別個の他の追加イメージセンサの映像をターゲット映像として使用することもできる。追加イメージセンサは、イメージセンサ110よりも高解像度映像を撮影可能なカメラセンサであってもよい。
図2は、一実施形態に係る映像復元方法を説明するフローチャートである。図3は、一実施形態に係る映像復元モデルを用いた映像復元を説明する。
まず、ステップS210において、映像復元装置が複数の入力映像情報を取得する。入力映像情報は入力映像そのものであってもよいが、これに限定されることなく、入力映像から特徴抽出モデルを用いて抽出された入力特徴マップであってもよい。参考として、入力映像情報が入力映像そのものである例示については、下記の図4〜図8を参照して説明し、入力特徴マップである例示については、下記の図9及び図10を参照して説明する。
一実施形態によれば、映像復元装置は、図3に示すイメージセンサ310を介して複数の入力映像を撮影する。例えば、映像復元装置でマルチレンズアレイを含むイメージセンサ310が、複数の入力映像が含まれているマルチレンズ映像320を撮影する。マルチレンズ映像320で入力映像それぞれは、イメージセンサ310を構成している個別検出部によって撮影される。第1入力映像ないし第N入力映像は、それぞれ個別的に第1検出部C1〜第N検出部CNによって撮影される。異なる例として、映像復元装置で複数のイメージセンサ310それぞれが入力映像を撮影してもよい。ここで、検出部それぞれは、独立的なイメージセンサ310であってもよい。
そして、ステップS220において、映像復元装置は、複数の入力情報(例えば、入力映像情報)それぞれから複数のディスパリティ(disparities)に対応する複数のワーピング情報(例えば、ワーピング映像情報330(warped image information))を生成する。ディスパリティは、任意の2つの映像で同じターゲット地点に対する位置の差であって、例えば、画素座標の差を示す。一実施形態によれば、各入力映像に対して、ターゲット映像とのディスパリティが任意の値に設定され、設定されたディスパリティによりイメージセンサ310からターゲット地点までの仮想の距離が決定される。映像復元装置は、設定されたディスパリティにより決定される距離を用いて、ワーピング映像情報330を生成する。ワーピング映像情報330は、入力映像がターゲット映像の画素座標系に変換されたワーピング映像そのものであるが、これに限定されることなく、入力映像から抽出された入力特徴マップがターゲット映像を撮影したターゲット検出部の画素座標系に変換されたワーピング特徴マップであってもよい。上述したディスパリティにより決定される仮想の深度及び仮想の深度を用いたワーピングについては下記の図4を参照して説明する。参考として、本明細書において、深度値はターゲット地点までの距離を示す。
例えば、図3に示すように、映像復元装置は、マルチレンズ映像320に含まれている入力映像それぞれに対して、最小のディスパリティdminに対応するワーピング映像情報330ないし最大のディスパリティdmaxに対応するワーピング映像情報330をカメラキャリブレーションパラメータ319に基づいて生成する。最小のディスパリティdmin=0であれば、ワーピング映像は、入力映像そのものである。カメラキャリブレーションパラメータ319については、下記の図7を参照して説明する。ディスパリティの個数がDである場合、映像復元装置は、N個の入力映像それぞれに対してD個のワーピング映像情報330を生成するため、総N×D個のワーピング映像情報330が生成される。ここで、Dは、1以上の整数であってもよい。
次に、ステップS230において、映像復元装置は、複数の入力映像情報及び複数のワーピング映像情報330に基づいて映像復元モデル340を用いて出力映像390を生成する。一実施形態によれば、映像復元モデル340は、入力映像情報から出力映像390を出力するように、トレーニングされたモデルであってもよい。映像復元モデル340は、例えば、機械学習構造として、ニューラルネットワークであってもよい。ニューラルネットワークは、ディープランニングに基づいて、非線形関係にある入力データ及び出力データを互いにマッピングすることで、映像整合(image registration:映像位置合わせ)による映像復元などを行う。ディープランニングは、ビッグデータセットから映像整合の問題を解決するための機械学習方式により、教師あり(supervised)又は教師なし(unsupervised)学習を介して入力データ及び出力データを互いにマッピングする。ニューラルネットワークは、入力層341、複数の隠れ層342、及び出力層343を含む。入力層341を介して入力されたデータは、複数の隠れ層342を介して伝播し、出力層343から出力される。但し、入力層341及び出力層343の代わりに、隠れ層342にデータが直接入力されたり、隠れ層342からデータが直接出力されたりしてもよい。ニューラルネットワークは、例えば、逆伝播(back propagation)を介してトレーニングされてもよい。
上述した映像復元モデル340は、畳み込みニューラルネットワークに実現することができる。畳み込みニューラルネットワークは、畳み込みレイヤを含むニューラルネットワークであって、畳み込みニューラルネットワークの隠れ層342は畳み込みレイヤを含む。例えば、畳み込みニューラルネットワークは、ノードがカーネルを介して接続される畳み込みレイヤを含む。畳み込みニューラルネットワークは、トレーニングデータに基づいて、複数の入力映像情報及び複数のワーピング映像情報から高解像度の出力映像を出力するよう、予めトレーニングされたネットワークであってもよい。出力映像は、例えば、入力映像及びワーピング映像でターゲット映像にマッチングする画素が整合(registration:位置合わせ)された映像として、出力映像の解像度は、複数の入力情報(例えば、入力映像)に該当する解像度よりも高い。参考として、映像復元装置は、畳み込みレイヤに入力されるデータに対して畳み込みフィルタリングを行うことで、特徴データを抽出することができる。特徴データは、映像の特徴が抽象化されたデータとして、例えば、畳み込みレイヤのカーネルによる畳み込み演算の結果値を示すことができる。映像復元装置は、映像で任意の位置の画素及び周辺画素に対してカーネルの元素値を用いて畳み込み演算を行ってもよい。映像復元装置は、カーネルを映像の画素に対してスイープ(sweep)しながら、画素それぞれに対する畳み込み演算値を算出する。映像復元モデル340の畳み込みニューラルネットワークの実現の例示については、下記の図8を参照して詳細に説明する。
例えば、映像復元装置はステップS210で取得されたN個の入力映像情報、及びステップS220で生成されたN×D個のワーピング映像情報330を映像復元モデル340に提供することができる。先に説明したように、映像復元モデル340は、入力されるデータに対して畳み込みフィルタリングを適用する畳み込みレイヤを含むことができる。従って、映像復元装置は、映像復元モデル340を用いて、N個の入力映像情報及びN×D個のワーピング映像情報330に畳み込みフィルタリングを適用し、その結果として、高解像度の出力映像390を生成することができる。
図4は、一実施形態に係る映像復元モデルに入力するためのワーピング映像の生成を説明する。
一実施形態に係る映像復元装置は、複数の入力情報(例えば、入力映像)それぞれを複数のディスパリティそれぞれに対応する深度を用いてターゲット映像430(target image)に対応する画素座標系にワーピングすることで、複数のワーピング情報(例えば、ワーピング映像)を生成する。例えば、図4は、N個の入力映像のうち、i番目の入力映像420がターゲット映像430に対応する画素座標系にワーピングされたワーピング映像を説明する。
参考として、本明細書において、ワールド座標系は、3次元座標系としてワールド上の任意の地点を基準とする座標系を示すことができる。カメラ座標系は、カメラを基準とする3次元座標系として、例えば、検出部の主点(principal point)を原点とし、検出部の光学軸方向をz軸、検出部の縦方向をy軸、検出部の横方向をx軸に示すことができる。画素座標系は、映像座標系(image coordinate system)とも表わし、映像内で画素の2次元座標を示すことができる。
例えば、イメージセンサから離隔した任意のターゲット地点490のワールド座標をX、Y、Zと仮定する。ターゲット地点490がN個の検出部のうち、i番目の検出部411Ciによって検知された画素座標はu、vに仮定する。ターゲット検出部412CTによって検知された画素座標はu’、v’として仮定する。但し、各検出部から検出される画素値だけでは、ターゲット地点490までの距離を正確に決定し難い。一実施形態に係る映像復元装置は、ターゲット映像430を基準にして、入力映像が任意のディスパリティを有するものと仮定し、仮定されたディスパリティに対応する距離値を用いて、入力映像をターゲット映像430の画素座標系にワーピングさせることができる。
はそれぞれi番目の検出部411Ciでx軸とy軸に対するi番目の検出部411Ciの主点(principal point)の座標を示すことができ、
はそれぞれi番目の検出部411 Ciix軸とy軸に対する焦点距離を示すことができる。映像復元装置は上述した数式(1)のように、i番目の検出部411 Ciの主点を原点(original point)として利用することで、即ち、i番目の検出部411 Ciの主点及び個別画素の画素座標間の差を焦点距離で割ることによって、i番目の入力映像420の個別画素を正規化することができる。
それぞれに深度(depth)
を乗算することによって
を取得することができる。映像復元装置は、3次元カメラ座標の深度値
を深度
に設定する。従って、映像復元装置は、各画素に対応する深度を用いて該当入力映像を撮影したi番目の検出部411 Ciの光学軸を基準とする3次元カメラ座標を算出することができる。
先に説明したように、入力映像の画素値だけでは該当画素が指示しているターゲット地点490までの深度値を正確に推定することが難しいところ、一実施形態に係る映像復元装置は、限定された範囲内のディスパリティのうち、一部のディスパリティに対応する深度値を用いて上述した数式(2)による座標変換を行うことができる。ここで、ディスパリティの範囲は[dmin、dmax]に限定してもよく、深度値も
に限定してもよい。Zminはイメージセンサの最小の撮影距離として、例えば、10cmであってもよい。例えば、図4に示す映像復元装置は、i番目の入力映像420がターゲット映像430に対してd=1のディスパリティを有するものと仮定し、d=1に対応する深度値(例えば、z1)を使用することができる。上述した数式(2)において、深度
としてz1が使用されてもよい。ここで、映像復元装置は、i番目の入力映像420の全ての画素がターゲット映像430に対して同じディスパリティを有するものと設定し、全ての画素を同じ深度値(例えば、d=1に対応する深度値)を用いて座標を変換することができる。同様に、映像復元装置は、i番目の入力映像420がターゲット映像430に対してd=2、3、4、ないしdmaxのディスパリティを有するものと仮定し、各ディスパリティに対応する深度値を使用することができる。言い換えれば、映像復元装置は、d=2であるディスパリティに対応する深度値z2を用いて変換された3次元カメラ座標値、d=3であるディスパリティに対応する深度値z3を用いて変換された3次元カメラ座標値、d=4であるディスパリティに対応する深度値z4を用いて変換された3次元カメラ座標値、ないしd=dmaxであるディスパリティに対応する深度値zminを用いて変換された3次元カメラ座標値を個別的に取得することができる。参考として、図4において、整数値を有するディスパリティを例に挙げて説明したが、これに限定されることはない。
に限定してもよい。Zminはイメージセンサの最小の撮影距離として、例えば、10cmであってもよい。例えば、図4に示す映像復元装置は、i番目の入力映像420がターゲット映像430に対してd=1のディスパリティを有するものと仮定し、d=1に対応する深度値(例えば、z1)を使用することができる。上述した数式(2)において、深度
としてz1が使用されてもよい。ここで、映像復元装置は、i番目の入力映像420の全ての画素がターゲット映像430に対して同じディスパリティを有するものと設定し、全ての画素を同じ深度値(例えば、d=1に対応する深度値)を用いて座標を変換することができる。同様に、映像復元装置は、i番目の入力映像420がターゲット映像430に対してd=2、3、4、ないしdmaxのディスパリティを有するものと仮定し、各ディスパリティに対応する深度値を使用することができる。言い換えれば、映像復元装置は、d=2であるディスパリティに対応する深度値z2を用いて変換された3次元カメラ座標値、d=3であるディスパリティに対応する深度値z3を用いて変換された3次元カメラ座標値、d=4であるディスパリティに対応する深度値z4を用いて変換された3次元カメラ座標値、ないしd=dmaxであるディスパリティに対応する深度値zminを用いて変換された3次元カメラ座標値を個別的に取得することができる。参考として、図4において、整数値を有するディスパリティを例に挙げて説明したが、これに限定されることはない。
映像復元装置は、上述した数式(2)によりディスパリティを用いて変換されたi番目の入力映像420の3次元カメラ座標をターゲット検出部412CTに対する3次元カメラ座標
に下記の数式(3)のように変換することができる。
に下記の数式(3)のように変換することができる。
をi番目の検出部411 Ciのワールド座標系に対する回転情報Ri及び平行移動情報Tiを用いて変換し、ターゲット検出部412CTのワールド座標系に対する回転情報RT及び平行移動情報TTを用いて変換することで、ターゲット検出部412CTを基準とする3次元カメラ座標
を算出することができる。
を深度
で割ることで、ターゲット検出部412 CTに対して正規化された座標
を取得することができる。
では、それぞれx軸とy軸に対するターゲット検出部412 CTの主点(principal point)を示すことができ、
は、それぞれターゲット検出部412 CTでx軸とy軸に対する焦点距離を示すことができる。
及び
は以下の図7を参照して説明する。
上述した数式(1)〜数式(5)により、映像復元装置は、i番目の検出部411 Ciの画素座標
をターゲット検出部の画素座標
に変換することで、i番目の入力映像420をターゲット映像430に対応する画素座標系にワーピングすることができる。上述した数式(1)〜数式(5)による一連の演算をワーピング演算のように示す。説明の便宜のためにワーピング演算を時系列的に説明したが、これに限定されることなく、上述した数式(1)〜数式(5)による演算が結合された演算(例えば、単一化された行列演算など)が使用されてもよい。
をターゲット検出部の画素座標
に変換することで、i番目の入力映像420をターゲット映像430に対応する画素座標系にワーピングすることができる。上述した数式(1)〜数式(5)による一連の演算をワーピング演算のように示す。説明の便宜のためにワーピング演算を時系列的に説明したが、これに限定されることなく、上述した数式(1)〜数式(5)による演算が結合された演算(例えば、単一化された行列演算など)が使用されてもよい。
一実施形態に係る映像復元装置は、入力情報(例えば、入力映像)それぞれに対して、該当入力映像の全ての画素を複数のディスパリティの1つに対応する単一の深度を用いて、ターゲット映像430に対応する画素座標系にワーピングすることで、1つのワーピング映像を生成することができる。例えば、ティスレピティdが「j」の値を有する場合、d=jのディスパリティに対応する深度値zjを用いて、i番目の入力映像420から生成されたj番目のワーピング映像の全ての画素は、同じ深度値zjを用いてワーピングされたものである。ここで、jは1以上dmax以下の整数であってもよいが、これに限定されることなく、0以上dmax以下の実数であってもよい。参考として、最大のディスパリティdmaxは、下記の数式(6)のように決定される。
複数のディスパリティのうち1つのディスパリティに対応する深度は、ターゲット映像430を基準として入力映像に対して設定された該当ディスパリティ及びターゲット映像430と入力映像を撮影した検出部Ci、CT間の間隔bに基づいて決定される。もし、外部の場面に示される全てのターゲット地点490の深度がzjとして同一であれば、複数のディスパリティの1つに対応するj番目のワーピング映像の全ての画素は、ターゲット映像430に対して正確に整列され得る。但し、実際の被写体の深度は多様であるため、入力映像で一部の画素のみがターゲット映像430と整列される。
例えば、図4に示すように、映像復元装置は、i番目の入力映像420から複数のディスパリティに対応するワーピング映像を生成する。複数のワーピング映像は、d=1に対応する深度z1を用いて生成された第1ワーピング映像421、d=2に対応する深度z2を用いて生成された第2ワーピング映像422、d=3に対応する深度z3を用いて生成された第3ワーピング映像423、d=4に対応する深度z4を用いて生成された第4ワーピング映像424、ないしd=dmaxに対応する深度zminを用いて生成されたワーピング映像425を含む。説明の便宜のために入力映像及び各ワーピング映像の一部を1次元に示したが、これに限定されることなく、各映像は2次元であってもよい。
任意のターゲット地点490がターゲット映像430ではターゲット画素439から検出され、入力映像では入力画素429から検出される。入力映像及びターゲット映像430間のディスパリティがd=1に設定される場合、映像復元装置は、ターゲット画素439から上述したディスパリティ(例えば、d=1)だけ離隔した位置の入力映像内画素がターゲット映像430のターゲット画素439に整列するように入力映像をワーピングすることで、第1ワーピング映像421を生成することができる。第2ワーピング映像422は、ターゲット画素439からd=2のディスパリティだけ離隔した画素がターゲット画素439に整列するように入力映像がワーピングされた映像であってもよい。残りのワーピング映像423〜425において、それぞれ設定されたディスパリティだけターゲット画素439から離隔した画素がターゲット画素439に整列するように入力映像からワーピングされたものである。図4に示すように、第1ワーピング映像421、第2ワーピング映像422、及びワーピング映像425では、入力画素429がターゲット画素439とは異なる位置で整列される。但し、第3ワーピング映像423及び第4ワーピング映像424では、入力画素429が1つの画素誤差以下にターゲット画素439に対して整列されてもよい。ワーピング映像及びターゲット映像間の画素整列については、下記の図5を参照して説明する。
図5は、一実施形態に係るワーピング映像の画素とターゲット映像の画素との間のマッチングを説明する図である。
一実施形態によれば、複数のディスパリティを用いて入力映像520からワーピングされた複数のワーピング映像のそれぞれで、該当ワーピング映像に含まれている画素のうち少なくともいずれかの画素は、ターゲット映像530内の対応するターゲット画素と1つ画素以下の誤差を示すことがある。結果的に、ターゲット地点に対する正確な深度推定が省略されても、映像復元装置は、予め設定されたディスパリティに対応する深度を用いてワーピング映像を生成することで、複数のワーピング映像のうち少なくともいずれか1つのワーピング映像で少なくともいずれか1つの画素をターゲット地点にマッチングさせることができる。例えば、図5において、入力映像520からワーピングされた第1ワーピング映像521の第1画素501は、ターゲット映像530の画素531とマッチングされ得る。また、第2ワーピング映像522の第2画素502がターゲット映像530の画素532とマッチングされ得る。
図5では、説明の便宜のためにワーピング映像で任意の画素がターゲット映像530にマッチングされる例示について説明したが、これに限定されることはない。入力映像内の任意の領域がターゲット映像でそれに対応する領域と同じ光学情報を含んでもよく、該当の入力映像からワーピングされたワーピング映像のうち、一部の該当領域はターゲット映像でそれに対応する領域にマッチングされてもよい。
図6は、一実施形態に係るワーピング映像の整合を通した出力映像の生成を説明する図である。
一実施形態によれば、映像復元装置は、複数の入力映像620からワーピング映像631〜635を生成する。例えば、映像復元装置は、第1入力映像621から任意のディスパリティに対応する深度値を用いて第1ワーピング映像631を生成する。第2ワーピング映像632は第2入力映像622からワーピングされた映像であってもよく、第3ワーピング映像633は第3入力映像623からワーピングされた映像であってもよく、第4ワーピング映像634は第4入力映像624からワーピングされた映像であってもよく、第5ワーピング映像635は第5入力映像625からワーピングされた映像であってもよい。第1入力映像〜第5入力映像621〜625では、第1画素601がターゲット映像にマッチングされる。ターゲット映像は、入力映像のうちの1つとして選択されるが、これに限定されることはない。第2ワーピング映像632では第2画素602、第3ワーピング映像633では第3画素603、第4ワーピング映像6349では第4画素604がそれぞれターゲット映像にマッチングされてもよい。残りのワーピング映像でもターゲット映像にマッチングする画素が存在し、説明の簡略化のために省略する。
映像復元装置は、複数の入力映像620及びワーピング映像631〜635を映像復元モデル640に提供する。映像復元モデル640は、上述したように畳み込みレイヤを含む畳み込みニューラルネットワークを含んでもよく、入力映像情報及びワーピング映像情報から高解像度出力映像690を出力するようにトレーニングされる。例えば、映像復元装置は、映像復元モデル640を用いて様々な映像情報でターゲット映像にマッチングされる画素を整合(registration:位置合わせ)することで、高解像度の出力映像690を生成することができる。
図7は、一実施形態に係るカメラキャリブレーション過程を説明する図である。
一実施形態によれば、映像復元装置は、ワーピング映像情報を生成するための情報を予め格納する。
例えば、ステップS710において、映像復元装置は、カメラキャリブレーションを行う。イメージセンサに含まれた複数の検出部は、全て整列された状態701と設計されているが、実際に製造されたイメージセンサでは整列がずれた状態702を示すことがある。映像復元装置は、チェッカーボードを用いてカメラキャリブレーションを行う。映像復元装置は、カメラキャリブレーションを介して内部カメラパラメータとして検出部でx軸とy軸に対する主点
、及び検出部でx軸とy軸に対する焦点距離
を算出する。また、映像復元装置は、カメラキャリブレーションを介して外部パラメータとして検出部のワールド座標系に対する回転情報Ri、検出部のワールド座標系に対する平行移動情報Tiを算出する。
、及び検出部でx軸とy軸に対する焦点距離
を算出する。また、映像復元装置は、カメラキャリブレーションを介して外部パラメータとして検出部のワールド座標系に対する回転情報Ri、検出部のワールド座標系に対する平行移動情報Tiを算出する。
そして、ステップS720において、映像復元装置は、ディスパリティごとの深度情報を生成して格納する。例えば、映像復元装置は、検出部同士の間の配置関係(例えば、各光軸が互いになしている角度、検出部同士の間の間隔など)に基づいて、2つの検出部によって検出される入力映像間の与えられたディスパリティに対応する深度値を算出する。上述したように、ディスパリティは、限定された範囲内で有限個数に構成される。例えば、ディスパリティは、整数ディスパリティから構成されてもよいが、これに限定されることはない。
一実施形態によれば、映像復元装置は、内部カメラパラメータ及び外部パラメータを用いてワーピング演算として適用される座標マッピング関数(mapping function)を予め(例えば、ステップS210以前に)算出することができる。座標マッピング関数は、上述した内部カメラパラメータ、外部パラメータ、及び与えられたディスパリティに対応する深度を用いて、入力映像の各画素の座標をターゲット映像に対応する画素座標系に変換させる関数として、例えば、数式(1)〜数式(5)による一連の演算が統合された関数を示す。映像復元装置は、個別ディスパリティごと及び検出部ごとに座標マッピング関数を予め算出して格納することができる。
映像復元装置は、上述した図2に示すステップS220で、ワーピング映像情報を生成するために、複数の入力映像のいずれか1つの入力映像に対して、該当の入力映像を撮影した他の検出部及びターゲット検出部に対して予め算出された座標マッピング関数をロードする。映像復元装置は、予め算出して格納された座標マッピング関数を入力映像に適用することでワーピング映像情報を生成し、演算量を最小化しながらも、高解像度の出力映像を生成するために映像復元モデルに提供されるワーピング映像情報を迅速に生成することができる。
但し、座標マッピング関数が上述したように、予め算出されて格納されなければならないものではない。映像復元装置は、予め算出された座標マッピング関数の代わりに、内部カメラパラメータ及び外部パラメータを格納してもよい。映像復元装置は、このように格納された内部カメラパラメータ及び外部パラメータをロードして座標マッピング関数を算出し、算出された座標マッピング関数を用いて入力映像に対するワーピング映像情報を生成することができる。
図8は、一実施形態に係る映像復元モデルの構造を示す図である。
一実施形態に係る映像復元装置は、複数の入力情報(例えば、入力映像)及びワーピング情報(例えば、ワーピング映像)を結合(concatenate)したデータを映像復元モデルの入力に提供することで、出力映像を生成することができる。
例えば、映像復元装置は、先に説明したように入力映像情報820から生成された複数のワーピング映像情報829と入力映像情報820とを結合することにより、結合データ(concatenated data)841を生成する。例えば、映像復元装置は、N個の検出部から取得されたN個の入力映像と共に、各入力映像に対して生成されたD個のワーピング映像を結合することができる。図8に示すように、結合データ841は、入力映像情報及びワーピング映像情報が結合されたものであるため、(D+1)×N個の映像を含む。各映像の解像度は、H×Wであってもよく、Hは映像の高さに対応する画素個数、Wは映像の幅に対応する画素個数を示す。結合動作は、映像復元モデルの一部の演算として含まれてもよい。
映像復元装置は、結合データ841から畳み込みレイヤ842を介して特徴データを抽出する。映像復元装置は、抽出された複数の特徴データで同じ地点を示す画素値が互いに隣接するようにシャッフル(shuffle)843を行ってもよい。映像復元装置は、レジデュアル(残差)ブロック844,845を介して特徴データから高解像度の出力映像を生成することができる。レジデュアルブロックは、該当ブロックに入力されたデータから抽出された特徴データ及び該当ブロックに入力されたデータ間のレジデュアルデータ(residual data:残差データ)を出力するブロックを示す。出力映像の解像度は(A×H)×(A×W)であるため、複数の入力映像のそれぞれの解像度であるH×Wよりも高い。
参考として、被写体がイメージセンサから[zmin、zmax]の間の距離内にあれば、ターゲット映像の各領域は、上述した結合データ841に含まれた(D+1)×N個の再構成された映像のうち少なくとも1つの同じ位置の領域に類似する情報を含む(図5及び図6参照)。従って、映像復元装置は、結合データ841を映像復元モデル340に提供することで、各入力映像及びワーピング映像でターゲット映像と類似の情報を含んでいる領域の情報を使用可能であるため、映像復元の性能が改善される。入力映像の個別画素が指示するターゲット地点の深度情報が与えられなくても、映像復元装置は、比較的に高解像度の出力映像を生成可能にする。また、映像復元装置は入力映像間の整列がなくても、カメラパラメータ情報のみを知っていれば、映像を復元することができる。
図1〜図8では、入力映像を直接ワーピングする例示を主に説明したが、これに限定されることはない。以下、図9において、入力映像から抽出された特徴データをワーピングする例示について説明する。
図9は、一実施形態に係る映像ワーピングモデル及び映像復元モデルを用いた映像復元過程を説明する図である。
一実施形態に係る映像復元装置は、映像復元モデルと共に映像ワーピングモデル950も利用することができる。映像ワーピングモデル950は、特徴抽出モデル951及びワーピング演算952を含む。映像ワーピングモデル950は、入力映像920からそれぞれ特徴マップを抽出し、抽出された特徴マップをワーピングするようにトレーニングされたモデルである。特徴抽出モデル951のパラメータ(例えば、接続加重値)は、トレーニングによって可変されるが、ワーピング演算952は、上述した数式(1)〜数式(6)による演算として一定であり得る。
例えば、映像復元装置は、特徴抽出モデル951を用いて複数の入力映像から複数の入力特徴マップを、複数の入力映像情報として抽出する。特徴抽出モデル951は、例えば、1つ以上の畳み込みレイヤを含んでもよく、入力特徴マップは、畳み込みフィルタリングの結果値である。映像復元装置は、複数の入力特徴マップそれぞれを複数のディスパリティのそれぞれに対応する深度を用いて、ターゲット映像に対応する画素座標系にワーピングすることで、ワーピング特徴マップをワーピング映像情報として生成することができる。入力特徴マップに特定のディスパリティに対応する深度を用いて、ターゲット検出部の画素座標系にワーピングされた特徴マップをワーピング特徴マップとして示すことができる。入力特徴マップに適用されるワーピング演算952は、上述した数式(1)〜数式(5)により入力映像920に適用されるワーピング演算952と同一であるため、その詳細な説明は省略する。
参考として、ベイヤーパターンで撮影される入力映像がターゲット検出部の画素座標系に直接ワーピングされる場合、該当の入力映像からワーピングされたワーピング映像ではベイヤーパターンが損失されることがある。ワーピングによって各チャネルの色情報が混合しながらワーピング映像で色情報が損失されることがある。一実施形態に係る映像復元装置は、ワーピング演算952によって色情報が損失される前に入力映像から入力特徴マップを抽出するため、入力特徴マップに色情報が保存される。映像復元装置は、色情報が格納された状態から抽出された入力特徴マップにワーピング演算952を適用することで、ワーピング特徴マップを算出する。従って、映像復元装置は、複数の入力特徴マップ及びワーピング特徴マップを結合したデータを映像復元モデルの入力に提供することで、色情報の格納されている高解像度の出力映像990を生成することができる。上述したように、映像復元装置は、色情報の損失を最小化することができる。
映像ワーピングモデルの例示的な詳細構造については、下記の図10を参照して説明する。
図10は、一実施形態に係る映像ワーピングモデルの詳細構造を示す図である。
一実施形態によれば、映像復元装置は、映像ワーピングモデル950を用いて複数の入力映像から入力特徴マップ及びワーピング特徴マップを生成する。例えば、映像復元装置は、複数の入力映像のそれぞれから特徴抽出モデルを用いて入力特徴マップを抽出する。特徴抽出モデルは、上述したように、1つ以上の畳み込みレイヤ1051を含む。また、特徴抽出モデルは、レジデュアルブロック1052を含んでもよい。例えば、図10では、特徴抽出モデルが1つの畳み込みレイヤ及びM個の特徴レジデュアルブロックを含む。Mは1以上の整数である。映像復元装置は、個別入力映像1020に畳み込みフィルタリングを適用した結果値として入力特徴マップを抽出することができる。
そして、映像復元装置は、抽出された入力特徴マップにワーピング演算を適用する。先に説明したように、映像復元装置は、イメージセンサ1010のキャリブレーション情報1019(例えば、内部パラメータ及び外部パラメータなど)及び複数のディスパリティに対応する深度を用いて、各検出部に対応する入力特徴マップをターゲット検出部の画素座標系にワーピングする。例えば、映像復元装置は、それぞれの入力特徴マップに対してD個のディスパリティに対応する深度にワーピング演算を行うことで、1つの入力特徴マップに対してD個のワーピング特徴マップを生成する。映像復元装置は、複数の入力特徴マップ及びワーピング特徴マップを結合したデータ1053を生成する。結合されたデータ1053は、N個の入力特徴マップ及びN×D個のワーピング特徴マップに関する情報を含む。
映像復元装置は、結合されたデータ1053を映像復元モデル340の入力に提供することで、高解像度(例えば、個別入力映像の解像度に比べてA倍だけ増加した解像度)の出力映像1090を生成することができる。例えば、映像復元モデル340は、図10に示すように、1つの畳み込みレイヤ1042及び複数のレジデュアルブロック1044,1045を含む。複数のレジデュアルブロック1044,1045のうち、結合されたデータ1053が入力されるレジデュアルブロック1044は、結合されたデータ1053で同じ地点を示す画素値が互いに隣接するように、シャッフル1043の適用されたデータを受信することができる。
上述した映像ワーピングモデル950及び映像復元モデル340は、トレーニング間に同時及び/又は順次にトレーニングされてもよい。色情報の損失を誘発するワーピング演算が映像ワーピングモデル950に含まれているため、映像ワーピングモデル950は、トレーニングを介して色損失が最小化されるパラメータを学習する。映像ワーピングモデル950及び映像復元モデル340は、逆伝播を介してトレーニングされてもよい。例えば、映像ワーピングモデル950及び映像復元モデル340は、低解像度のトレーニング入力(例えば、複数の低解像度映像)から高解像度のトレーニング出力(例えば、高解像度の正解値の映像(ground truth image))が出力されるようにトレーニングされる。トレーニング途中の映像ワーピングモデル950及び映像復元モデル340は、それぞれ臨時映像ワーピングモデル950及び臨時映像復元モデル340と示すことができる。任意のトレーニング入力から臨時映像ワーピングモデル950及び臨時映像復元モデル340が臨時出力を生成し、臨時出力及び正解の値映像間の損失が最小化されるよう、臨時映像ワーピングモデル950及び臨時映像復元モデル340のパラメータ(例えば、ノード間の接続加重値)が調整され得る。
図11は、一実施形態に係る映像復元装置の構成を示すブロック図である。
一実施形態に係る映像復元装置1100は、イメージセンサ1110、プロセッサ1120、及びメモリ1130を含む。
イメージセンサ1110は、複数の入力映像情報を取得する。一実施形態によれば、イメージセンサ1110は、互いに異なる位置に配置されたレンズを介して撮影された複数の入力映像を複数の入力映像情報として取得する。例えば、イメージセンサ1110は、複数の入力映像情報それぞれを取得する検出部を含む。N個の入力映像情報を取得するために、イメージセンサ1110はN個の検出部を含む。但し、単一イメージセンサ1110内にN個の検出部が含まれるものとして限定されることなく、N個のイメージセンサ1110それぞれが検出部を含んでもよい。
プロセッサ1120は、複数の入力映像情報それぞれから複数のディスパリティ(disparities)に対応する複数のワーピング映像情報(warped image information)を生成し、複数の入力映像情報及び複数のワーピング映像情報に基づいて映像復元モデルを用いて出力映像を生成することができる。プロセッサ1120は、個別画素に対応するターゲット地点までの深度検出をスキップし、深度検出動作を行うことなく出力映像を生成することができる。
但し、プロセッサ1120の動作がこれに限定されることなく、プロセッサ1120は、図1〜図10を参照して上述した動作のうち少なくとも1つを同時に又は順次行ってもよい。
メモリ1130は、映像復元方法の実行に要求されるデータを臨時的又は永久的に格納できる。例えば、メモリ1130は、入力映像情報、ワーピング映像情報、及び出力映像を格納する。また、メモリ1130は、映像ワーピングモデル及びそのパラメータ、映像復元モデル及びそのパラメータを格納してもよい。各モデルのパラメータは、すでにトレーニングされたものであってもよい。
図12は、一実施形態に係るコンピューティング装置を示すブロック図である。
図12を参照すると、コンピューティング装置1200は、上記で説明した映像復元方法を用いて高解像度映像を生成する装置である。一実施形態では、コンピューティング装置1200は、図11を参照して説明された装置1100に対応する。コンピューティング装置1200は、例えば、映像処理装置、スマートフォン、ウェアラブル機器(wearable device)、タブレットコンピュータ、ネットブック、ラップトップ、デスクトップ、PDA(personal digital assistant)、HMD(head mounted display)であってもよい。また、コンピューティング装置1200は、車両、ドローン(Drone)、及びCCTVなどのための非専用カメラ装置として実現されてもよい。異なる例として、コンピューティング装置1200は、イメージ通話のためのウェブカム用カメラ装置、360度撮影VRカメラ装置、VR及びARカメラ装置にも実現され得る。
図12を参照すると、コンピューティング装置1200は、プロセッサ1210、格納装置1220、カメラ1230、入力装置1240、出力装置1250及びネットワークインターフェース1260を含む。プロセッサ1210、格納装置1220、カメラ1230、入力装置1240、出力装置1250、及びネットワークインターフェース1260は、通信バス1270を介して通信する。
プロセッサ1210は、コンピューティング装置1200内で実行するための機能及び命令を実行する。例えば、プロセッサ1210は、格納装置1220に格納された命令を処理する。プロセッサ1210は、図1〜図11を参照して前述した1つ以上の動作を行うことができる。
格納装置1220は、プロセッサの実行に必要な情報ないしデータを格納する。格納装置1220は、コンピュータで読み出し可能な格納媒体又はコンピュータで読み出し可能な格納装置を含む。格納装置1220は、プロセッサ1210によって実行するための命令を格納し、コンピューティング装置1200によってソフトウェア又はアプリケーションが実行される間に関連情報を格納する。
カメラ1230は、複数の入力映像をキャプチャーする。また、上記では映像を主に静止画(still image)として説明したが、これに限定されることなく、カメラ1230は、1つ以上のイメージフレームで構成される映像をキャプチャーしてもよい。例えば、カメラ1230は、複数のレンズのそれぞれに対応するフレーム映像を生成してもよい。この場合、コンピューティング装置1200は、個別フレームに対応する複数の入力映像から上述した映像ワーピングモデル及び映像復元モデルを用いてフレームごとの高解像度出力映像を生成することができる。
入力装置1240は、触覚、ビデオ、オーディオ又はタッチ入力によってユーザから入力を受信する。入力装置1240は、キーボード、マウス、タッチスクリーン、マイクロホン、又は、ユーザから入力を検出し、検出された入力を伝達できる任意の他の装置を含む。
出力装置1250は、視覚的、聴覚的、又は触覚的なチャネルを介してユーザにコンピューティング装置1200の出力を提供する。出力装置1250は、例えば、ディスプレイ、タッチスクリーン、スピーカ、振動発生装置、又はユーザに出力を提供できる任意の他の装置を含んでもよい。ネットワークインターフェース1260は、有線又は無線ネットワークを介して外部装置と通信する。一実施形態によれば、出力装置1250は、データを処理した結果などを視覚情報(visual information)、聴覚情報(auditory information)、及び触覚情報(haptic information)のうち少なくとも1つを用いてユーザに提供することができる。例えば、コンピューティング装置1200は、生成された高解像度の出力映像をディスプレイを介して可視化することができる。
以上述した装置は、ハードウェア構成要素、ソフトウェア構成要素、又はハードウェア構成要素及びソフトウェア構成要素の組み合せで具現化される。例えば、本実施形態で説明した装置及び構成要素は、例えば、プロセッサ、コントローラ、ALU(arithmetic logic unit)、デジタル信号プロセッサ(digital signal processor)、マイクロコンピュータ、FPA(field programmable array)、PLU(programmable logic unit)、マイクロプロセッサー、又は命令(instruction)を実行して応答する異なる装置のように、1つ以上の汎用コンピュータ又は特殊目的コンピュータを用いて具現化される。処理装置は、オペレーティングシステム(OS)及びオペレーティングシステム上で実行される1つ以上のソフトウェアアプリケーションを実行する。また、処理装置は、ソフトウェアの実行に応答してデータをアクセス、格納、操作、処理、及び生成する。理解の便宜のために、処理装置は1つが使用されるものとして説明する場合もあるが、当技術分野で通常の知識を有する者は、処理装置が複数の処理要素(processing element)及び/又は複数類型の処理要素を含むことを把握する。例えば、処理装置は、複数のプロセッサ又は1つのプロセッサ及び1つのコントローラを含む。また、並列プロセッサ(parallel processor)のような、他の処理構成も可能である。
ソフトウェアは、コンピュータプログラム、コード、命令、又はそのうちの一つ以上の組合せを含み、希望の通りに動作するよう処理装置を構成したり、独立的又は結合的に処理装置を命令したりすることができる。ソフトウェア及び/又はデータは、処理装置によって解釈されたり処理装置に命令又はデータを提供したりするために、いずれかの類型の機械、構成要素、物理的装置、仮想装置、コンピュータ格納媒体又は装置、又は送信される信号波に永久的又は一時的に具体化することができる。ソフトウェアはネットワークに連結されたコンピュータシステム上に分散され、分散した方法で格納されたり実行されたりし得る。ソフトウェア及びデータは一つ以上のコンピュータで読出し可能な記録媒体に格納され得る。
本実施形態による方法は、様々なコンピュータ手段を介して実施されるプログラム命令の形態で具現化され、コンピュータ読み取り可能な記録媒体に記録される。記録媒体は、プログラム命令、データファイル、データ構造などを単独又は組み合せて含む。記録媒体及びプログラム命令は、本発明の目的のために特別に設計して構成されたものでもよく、コンピュータソフトウェア分野の技術を有する当業者にとって公知のものであり使用可能なものであってもよい。コンピュータ読み取り可能な記録媒体の例として、ハードディスク、フロッピー(登録商標)ディスク及び磁気テープのような磁気媒体、CD−ROM、DVDのような光記録媒体、フロプティカルディスクのような磁気−光媒体、及びROM、RAM、フラッシュメモリなどのようなプログラム命令を保存して実行するように特別に構成されたハードウェア装置を含む。プログラム命令の例としては、コンパイラによって生成されるような機械語コードだけでなく、インタプリタなどを用いてコンピュータによって実行される高級言語コードを含む。ハードウェア装置は、本発明に示す動作を実行するために1つ以上のソフトウェアモジュールとして作動するように構成してもよく、その逆も同様である。
上述したように実施形態をたとえ限定された図面によって説明したが、当技術分野で通常の知識を有する者であれば、上記の説明に基づいて様々な技術的な修正及び変形を適用することができる。例えば、説明された技術が説明された方法と異なる順で実行されるし、及び/又は説明されたシステム、構造、装置、回路などの構成要素が説明された方法と異なる形態で結合又は組み合わせられてもよいし、他の構成要素又は均等物によって置き換え又は置換されたとしても適切な結果を達成することができる。
したがって、本発明の範囲は、開示された実施形態に限定されて定められるものではなく、特許請求の範囲及び特許請求の範囲と均等なものなどによって定められるものである。
Claims (27)
- 映像復元方法において、
複数の入力映像情報を取得するステップと、
前記複数の入力映像情報に基づいて複数のディスパリティのそれぞれに対して複数のワーピング映像情報を生成するステップと、
前記複数の入力映像情報及び前記複数のワーピング映像情報に基づいて、映像復元モデルを使用することによって出力映像を生成するステップと、
を含む映像復元方法。 - 前記複数の入力映像情報は、互いに異なる位置に配置されたレンズを介して撮影された複数の入力映像を含む、請求項1に記載の映像復元方法。
- 前記複数のワーピング映像情報を生成するステップは、前記複数の入力映像それぞれを前記複数のディスパリティそれぞれに対応する深度を用いてターゲット映像に対応する画素座標系にワーピングすることで、前記複数のディスパリティのそれぞれに対して複数のワーピング映像を前記ワーピング映像情報として生成するステップを含む、請求項2に記載の映像復元方法。
- 前記ワーピング映像を生成するステップは、前記複数の入力映像のうち第1入力映像で全ての画素を前記複数のディスパリティのうち第1ディスパリティに対応する単一の深度を用いて前記ターゲット映像に対応する画素座標系にワーピングすることで、ワーピング映像を生成するステップを含む、請求項3に記載の映像復元方法。
- ディスパリティは、前記ターゲット映像を基準として入力映像に対して設定され、
前記ディスパリティに対応する前記深度は、前記ディスパリティ及び前記ターゲット映像と前記入力映像を撮影した検出部同士の間の間隔に基づく、請求項3に記載の映像復元方法。 - 前記出力映像を生成するステップは、前記複数の入力映像及び前記複数のディスパリティのそれぞれに対応する前記複数のワーピング映像を結合することにより取得されたデータを前記映像復元モデルに入力として提供することで、前記出力映像を生成するステップを含む、請求項3に記載の映像復元方法。
- 前記複数の入力映像情報は、特徴抽出モデルを用いて複数の入力映像から抽出された複数の入力特徴マップを含む、請求項1乃至6のいずれか一項に記載の映像復元方法。
- 前記複数のワーピング映像情報を生成するステップは、前記複数の入力特徴マップそれぞれを前記複数のディスパリティそれぞれに対応する深度を用いてターゲット映像に対応する画素座標系にワーピングすることで、前記複数のディスパリティのそれぞれに対して複数のワーピング特徴マップを前記複数のワーピング映像情報として生成するステップを含む、請求項7に記載の映像復元方法。
- 前記出力映像を生成するステップは、前記複数の入力特徴マップ及び前記複数のディスパリティのそれぞれに対応する前記複数のワーピング特徴マップを結合したデータを前記映像復元モデルに入力として提供することで、前記出力映像を生成するステップを含む、請求項7に記載の映像復元方法。
- 前記映像復元モデルは、入力されるデータに対して畳み込みフィルタリングを適用するように構成された少なくとも1つの畳み込みレイヤを含むニューラルネットワークである、請求項1乃至9のいずれか一項に記載の映像復元方法。
- 前記複数のディスパリティは、最大のディスパリティ以下及び最小のディスパリティ以上であり、
前記最大のディスパリティは、検出部の焦点距離、前記検出部同士の間の間隔、及び検出部の最小の撮影距離に基づいており、
前記検出部は、前記複数の入力イメージ情報に対応する入力イメージをキャプチャーするように構成される、請求項1乃至10のいずれか一項に記載の映像復元方法。 - 前記複数のディスパリティは、有限個数(finite number)である、請求項11に記載の映像復元方法。
- 前記出力映像を生成するステップは、個別画素に対応するターゲット地点までの深度検出なしに前記出力映像を生成するステップを含む、請求項1乃至12のいずれか一項に記載の映像復元方法。
- 前記複数のワーピング映像情報を生成するステップは、座標マッピング関数を入力映像情報に対応する入力映像に適用することによってワーピング映像情報を生成するステップを含み、
前記座標マッピング関数は、入力イメージをキャプチャーするように構成される検出部及びターゲットイメージをキャプチャーするように構成されるターゲット検出部に対して予め決定される、請求項1乃至13のいずれか一項に記載の映像復元方法。 - 前記出力映像の解像度は、前記複数の入力映像情報それぞれの解像度よりも高い、請求項1乃至14のいずれか一項に記載の映像復元方法。
- 複数の入力映像情報は、マルチレンズアレイを含むイメージセンサによってキャプチャーされたマルチレンズ映像を含み、
前記マルチレンズ映像は複数の入力映像を含む、請求項1乃至15のいずれか一項に記載の映像復元方法。 - 前記複数の入力映像情報は、複数のイメージセンサによって個別的にキャプチャーされた複数の入力映像を含む、請求項1乃至16のいずれか一項に記載の映像復元方法。
- 請求項1乃至17のいずれか一項に記載の方法を行うための命令語を含む1つ以上のコンピュータプログラムを格納したコンピュータで読み出し可能な記録媒体。
- 映像復元装置であって、
複数の入力映像情報を取得するイメージセンサと、
前記複数の入力映像情報それぞれに基づいて、複数のディスパリティのそれぞれに対して複数のワーピング映像情報を生成し、前記複数の入力映像情報及び前記複数のワーピング映像情報に基づいて映像復元モデルを用いて出力映像を生成するプロセッサと、
を含む、映像復元装置。 - 複数のレンズを含むレンズアレイと、
前記レンズアレイを通過した光を検出する複数の検出エレメントを含み、前記複数の検出エレメントは、前記複数のレンズに個別的に対応する検出領域を含み、複数の入力情報を取得するように構成される検出アレイと、
複数の入力情報それぞれに基づいて複数のディスパリティのそれぞれに対して複数のワーピング情報を生成し、前記複数の入力情報及び複数のワーピング情報に基づいて映像復元モデルを用いて出力映像を生成するプロセッサと、
を含む、映像復元装置。 - 前記出力映像の解像度が前記複数の入力情報に該当する解像度よりも高い、請求項20に記載の映像復元装置。
- 前記プロセッサは、前記複数の入力情報それぞれを前記複数のディスパリティそれぞれに対応する深度を用いてターゲット映像に対応する画素座標系にワーピングすることで、前記複数のディスパリティのそれぞれに対して前記複数のワーピング情報を生成する、請求項20又は21に記載の映像復元装置。
- 前記プロセッサは、前記複数の入力情報のうち、入力情報に対応する全ての画素を前記複数のディスパリティのうち第1ディスパリティに対応する単一の深度を用いて前記ターゲット映像に対応する画素座標系にワーピングすることで、ワーピング情報を生成する、請求項22に記載の映像復元装置。
- 前記プロセッサは、前記複数の入力情報及び前記複数のディスパリティのそれぞれに対応するワーピング情報を結合したデータを前記映像復元モデルに入力として提供することで、前記出力映像を生成する、請求項22に記載の映像復元装置。
- 前記プロセッサは、特徴抽出モデルを用いて複数の入力映像から複数の入力特徴マップを前記複数の入力情報として抽出する、請求項20乃至24のいずれか一項に記載の映像復元装置。
- 前記プロセッサは、前記複数の入力特徴マップそれぞれを前記複数のディスパリティそれぞれに対応する深度を用いてターゲット映像に対応する画素座標系にワーピングすることで、前記複数のディスパリティのそれぞれに対して複数のワーピング特徴マップを前記複数のワーピング情報として生成する、請求項25に記載の映像復元装置。
- 前記プロセッサは、前記複数の入力特徴マップ及び前記複数のディスパリティのそれぞれに対応するワーピング特徴マップを結合したデータを前記映像復元モデルに入力として提供することで、前記出力映像を生成する、請求項26に記載の映像復元装置。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR10-2019-0136237 | 2019-10-30 | ||
KR1020190136237A KR20210051242A (ko) | 2019-10-30 | 2019-10-30 | 멀티 렌즈 영상 복원 장치 및 방법 |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2021072615A true JP2021072615A (ja) | 2021-05-06 |
Family
ID=72355811
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2020155697A Pending JP2021072615A (ja) | 2019-10-30 | 2020-09-16 | 映像復元装置及び方法 |
Country Status (5)
Country | Link |
---|---|
US (1) | US11663691B2 (ja) |
EP (1) | EP3816929B1 (ja) |
JP (1) | JP2021072615A (ja) |
KR (1) | KR20210051242A (ja) |
CN (1) | CN112750085A (ja) |
Families Citing this family (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US11410439B2 (en) * | 2019-05-09 | 2022-08-09 | Snap Inc. | Sequence-of-sequences model for 3D object recognition |
US11288771B2 (en) * | 2020-04-29 | 2022-03-29 | Adobe Inc. | Texture hallucination for large-scale image super-resolution |
US11595575B2 (en) | 2020-05-11 | 2023-02-28 | Samsung Electronics Co., Ltd. | Image sensor |
KR20220013183A (ko) * | 2020-07-24 | 2022-02-04 | 삼성전자주식회사 | 영상 복원 장치 및 방법 |
KR20220053361A (ko) | 2020-10-22 | 2022-04-29 | 삼성전자주식회사 | 이미징 장치 |
CN114830168A (zh) * | 2020-11-16 | 2022-07-29 | 京东方科技集团股份有限公司 | 图像重建方法、电子设备和计算机可读存储介质 |
AU2020281143B1 (en) * | 2020-12-04 | 2021-03-25 | Commonwealth Scientific And Industrial Research Organisation | Creating super-resolution images |
KR20220080249A (ko) | 2020-12-07 | 2022-06-14 | 삼성전자주식회사 | 영상 처리 방법 및 장치 |
KR20220121533A (ko) | 2021-02-25 | 2022-09-01 | 삼성전자주식회사 | 어레이 카메라를 통해 획득된 영상을 복원하는 영상 복원 방법 및 영상 복원 장치 |
CN113362242B (zh) * | 2021-06-03 | 2022-11-04 | 杭州电子科技大学 | 基于多特征融合网络的图像修复方法 |
Family Cites Families (23)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1131495C (zh) * | 1996-08-29 | 2003-12-17 | 三洋电机株式会社 | 特征信息赋予方法及装置 |
JP3821614B2 (ja) | 1999-08-20 | 2006-09-13 | 独立行政法人科学技術振興機構 | 画像入力装置 |
JP2007532916A (ja) | 2004-04-14 | 2007-11-15 | ビーコ インストルメンツ インコーポレイテッド | プローブベース機器を用いて定量的測定を獲得する方法および装置 |
US7561620B2 (en) * | 2004-08-03 | 2009-07-14 | Microsoft Corporation | System and process for compressing and decompressing multiple, layered, video streams employing spatial and temporal encoding |
US7412107B2 (en) | 2004-12-17 | 2008-08-12 | The Regents Of The University Of California, Santa Cruz | System and method for robust multi-frame demosaicing and color super-resolution |
KR100827242B1 (ko) | 2006-06-26 | 2008-05-07 | 삼성전기주식회사 | 이미지 복원 방법 및 장치 |
US7724439B2 (en) | 2007-10-24 | 2010-05-25 | Aptina Imaging Corporation | Lens, a lens array and imaging device and system having a lens, and method of forming the same |
JP2009206922A (ja) | 2008-02-28 | 2009-09-10 | Funai Electric Co Ltd | 複眼撮像装置 |
WO2011156928A2 (en) | 2010-06-14 | 2011-12-22 | Heptagon Oy | Camera, and method of manufacturing a plurality of cameras |
US9456134B2 (en) | 2013-11-26 | 2016-09-27 | Pelican Imaging Corporation | Array camera configurations incorporating constituent array cameras and constituent cameras |
DE102014212104A1 (de) | 2014-06-24 | 2015-12-24 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Vorrichtung und verfahren zur relativen positionierung einer multiaperturoptik mit mehreren optischen kanälen relativ zu einem bildsensor |
CN106331439B (zh) | 2015-07-10 | 2019-10-25 | 深圳超多维科技有限公司 | 微透镜阵列成像装置与成像方法 |
CN105136315A (zh) | 2015-08-18 | 2015-12-09 | 佛山市南海区欧谱曼迪科技有限责任公司 | 一种实时定量相位恢复装置 |
US20170269340A1 (en) | 2016-02-19 | 2017-09-21 | Almalence Inc. | Collapsible imaging system having lenslet arrays for aberration correction |
CN106296711B (zh) | 2016-08-22 | 2019-04-09 | 华南理工大学 | 一种手机摄像头模组的多轴主动对准方法 |
KR102646437B1 (ko) | 2016-11-25 | 2024-03-11 | 삼성전자주식회사 | 멀티 렌즈 기반의 촬영 장치 및 방법 |
JP6729428B2 (ja) | 2017-02-01 | 2020-07-22 | オムロン株式会社 | 画像処理システム、光学センサ、及び学習装置 |
JP2018136211A (ja) | 2017-02-22 | 2018-08-30 | オムロン株式会社 | 環境認識システム及び学習装置 |
US10587828B2 (en) | 2017-06-27 | 2020-03-10 | Wipro Limited | System and method for generating distortion free images |
US20190035113A1 (en) * | 2017-07-27 | 2019-01-31 | Nvidia Corporation | Temporally stable data reconstruction with an external recurrent neural network |
US10733714B2 (en) | 2017-11-09 | 2020-08-04 | Samsung Electronics Co., Ltd | Method and apparatus for video super resolution using convolutional neural network with two-stage motion compensation |
US10970816B2 (en) * | 2018-08-13 | 2021-04-06 | Nvidia Corporation | Motion blur and depth of field reconstruction through temporally stable neural networks |
US10963745B2 (en) | 2018-11-21 | 2021-03-30 | Intel Corporation | Real time adaptive training face detection for ultra low power always on architecture |
-
2019
- 2019-10-30 KR KR1020190136237A patent/KR20210051242A/ko active IP Right Grant
-
2020
- 2020-04-17 CN CN202010306100.2A patent/CN112750085A/zh active Pending
- 2020-07-10 US US16/926,126 patent/US11663691B2/en active Active
- 2020-09-03 EP EP20194220.8A patent/EP3816929B1/en active Active
- 2020-09-16 JP JP2020155697A patent/JP2021072615A/ja active Pending
Also Published As
Publication number | Publication date |
---|---|
KR20210051242A (ko) | 2021-05-10 |
EP3816929A1 (en) | 2021-05-05 |
US11663691B2 (en) | 2023-05-30 |
CN112750085A (zh) | 2021-05-04 |
US20210133920A1 (en) | 2021-05-06 |
EP3816929B1 (en) | 2022-11-23 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP2021072615A (ja) | 映像復元装置及び方法 | |
CN110799991B (zh) | 用于使用卷积图像变换执行同时定位和映射的方法和系统 | |
JP7039265B2 (ja) | マルチレンズ基盤の撮影装置及び方法 | |
JP7101646B2 (ja) | イメージ復元方法及び装置 | |
JP7264624B2 (ja) | 映像復元装置及び方法 | |
Chakrabarti et al. | Modeling radiometric uncertainty for vision with tone-mapped color images | |
Punnappurath et al. | Modeling defocus-disparity in dual-pixel sensors | |
KR20210066366A (ko) | 영상 복원 방법 및 장치 | |
US11734877B2 (en) | Method and device for restoring image obtained from array camera | |
Zhang et al. | Combining inertial measurements with blind image deblurring using distance transform | |
WO2021193391A1 (ja) | データ生成方法、学習方法及び推定方法 | |
JP7398938B2 (ja) | 情報処理装置およびその学習方法 | |
KR102614908B1 (ko) | 이미지 복원 방법 및 장치 | |
WO2020215263A1 (zh) | 一种图像处理方法及装置 | |
CN115598744A (zh) | 一种基于微透镜阵列的高维光场事件相机及提取方法 | |
JP5086120B2 (ja) | 奥行き情報取得方法、奥行き情報取得装置、プログラムおよび記録媒体 | |
JP2018133064A (ja) | 画像処理装置、撮像装置、画像処理方法および画像処理プログラム | |
US11651475B2 (en) | Image restoration method and device | |
JP7444585B2 (ja) | 認識装置、認識方法 | |
Mattur et al. | Deep High Dynamic Range Imaging Using Differently Exposed Stereo Images | |
KR20200043778A (ko) | 영상 처리 장치 및 방법 | |
CN115760576A (zh) | 图像处理方法、图像处理装置及电子设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20230828 |