JP2019079565A

JP2019079565A - 深層畳み込みニューラルネットワークを用いる新ビュー合成

Info

Publication number: JP2019079565A
Application number: JP2019009850A
Authority: JP
Inventors: クォンジュンヒョン; Junghyun Kwon; ジディンホアン; Dinghuang Ji; マクファーランドマックス; Max Mcfarland; サヴァレーゼシルヴィオ; Savarese Silvio
Original assignee: Ricoh Co Ltd
Current assignee: Ricoh Co Ltd
Priority date: 2016-11-14
Filing date: 2019-01-24
Publication date: 2019-05-23
Also published as: JP6471780B2; US20180137611A1; JP2018081672A; US10846836B2; CA2985045A1; EP3321881A1

Abstract

【課題】２つの受信画像の間の中間ビューを生成するシステム及び方法が開示される。【解決手段】中間ビューを生成するために、修正器ネットワークは２つの画像を修正し、符号器ネットワークは、２つの修正画像を符号化して、畳み込みニューラルネットワーク特徴を生成する。畳み込みニューラルネットワーク特徴は、復号器ネットワークに供給される。復号器ネットワークは、特徴を復号化して、２つの修正画像の間の対応と、中間ビュー画像の中の修正画像のピクセルの可視性を予測するために混合マスクと、を生成する。２つの修正画像の間の対応と、混合マスクとを用いて、ビューモーフィングネットワークは、２つの画像の間のビューで２つの画像の中のオブジェクトを示す中間ビュー画像を合成する。【選択図】図２

Description

本願明細書は、概して、ビュー合成の分野に関し、より具体的には、深層畳み込みニューラルネットワークを用いる新ビュー合成に関連する。

新ビュー合成は、殆どのコンピュータビジョン及び仮想現実において、実用的用途を有する。例えば、画像内のオブジェクトを認識するためにコンピュータビジョンを使用すると、全ての可能な異なるビューの中のオブジェクトの画像を得るために有用である場合がある。異なるビューにおけるオブジェクトの限られた画像により、ビュー合成方法は、元の画像の中に無いビューの中でオブジェクトを示す画像を生成できる。さらに、ビュー合成は、限られた画像又はビデオ映像に基づき、完全な仮想現実環境を作り出すために使用できる。近年、深層畳み込みニューラルネットワークを利用する学習に基づく技術が、ビュー合成問題への適用に成功している。しかしながら、このような技術は、通常、テクスチャ詳細の欠如、地理的形状の歪み、又は過度の計算の複雑性に苦しむ。

本願明細書で紹介する技術は、深層畳み込みニューラルネットワークを用いて画像の新ビューを生成するシステム及び方法により、少なくとも部分的に従来技術の欠点及び限界を克服する。中間ビューを生成するために、修正ネットワークは２つの画像を修正し、符号器ネットワークは、２つの修正画像を符号化して、畳み込みニューラルネットワーク特徴を生成する。畳み込みニューラルネットワーク特徴は、復号器ネットワークに供給される。復号器ネットワークは、特徴を復号化して、２つの修正画像の間の高密度点対応と混合マスクとを生成する。２つの修正画像の間の対応及び混合マスクを用いて、ビューモーフィングネットワークは、２つの画像をモーフィングして、２つの画像の間のビューで２つの画像の中のオブジェクトを示す中間ビュー画像を生成する。

他の態様は、上述の及び他の新規な態様のための対応する方法、システム、装置及びコンピュータプログラムを有する。

本願明細書に記載される特徴及び利点は網羅的ではなく、図面及び説明を参照して多くの追加の特徴及び利点が当業者に明らかになるだろう。さらに、留意すべき点は、本願明細書で用いられる語は、基本的に読み易さ及び説明的目的で選択されており、記載の技術の範囲を制限しない。

本開示は、例を用いて説明され、添付の図面に限定されるものではない。図中、同様の参照符号は同様の要素を表すために用いられる。
新ビューが生成される２つの画像を示す一例である。図１Ａの例示的な画像から生成される新ビューを示す一例である。本願明細書に開示の技術による、新ビューを生成する例示的なネットワークを示すブロック図である。本願明細書に開示の技術による、例示的な修正ネットワークを示すブロック図である。本願明細書に開示の技術による、例示的な修正ネットワークを示すブロック図である。本願明細書に開示の技術による、例示的な符号器ネットワークを示すブロック図である。本願明細書に開示の技術による、例示的な符号器ネットワークを示すブロック図である。本願明細書に開示の技術による、例示的な復号器ネットワークを示すブロック図である。本願明細書に開示の技術による、例示的なビューモーフィングネットワークを示すブロック図である。本願明細書に開示の技術による、新ビューを生成する例示的な処理を示すブロック図である。本願明細書に開示の技術による、ネットワークを実装する例示的なコンピューティングシステムを示すブロック図である。

本開示の技術に従うシステム及び方法は、深層畳み込みニューラルネットワークを用いて画像の新ビューを生成する技術を提供する。

現在、新ビュー合成は、２つの広範なカテゴリ、つまり形状に基づくアプローチ及び学習に基づくアプローチで取り組まれている。形状アプローチは、先ず、オブジェクトの概略基本３Ｄ構造を推定し、次に、入力画像の中のピクセルに対して何らかの変換を提供して出力画像を生成する。３Ｄ構造を何とかして推定する要件に加えて、形状アプローチの他の主な弱点は、それらが、ソース画像が十分な視覚的コンテンツを有しない場所（例えば、オブジェクトの背面）にホールを生成することである。このような場合には、様々な種類のテクスチャホールフィリングが用いられるが、ホールフィリングｆｉ術は常に有効なわけではない。

他方で、学習に基づくアプローチは、新ビューを生成するために、入力画像からのより多くの情報を用いる。例えば、車の側面ビューが与えられる場合、システムが知識に基づく推測を行うために他の車の前面を観察していない限り、車の前面がどのように見えるかを推定する方法が存在しない。学習に基づくアプローチは、標準的に、訓練画像を使用して、オブジェクトクラスのパラメータモデルを構築し、次に、入力画像と共に該パラメータモデルを用いて、新ビューを生成する。しかしながら、パラメータ画像生成からの結果は、非常にぼけている場合が多い。

ビューモーフィングは、形状を保存するビュー合成結果を生成できる。ビューモーフィングは、３つのステップの概念であり得る。つまり、（ｉ）修正、（ｉｉ）補間によるビュー合成、（ｉｉｉ）事後ワーピング、である。２つの入力画像Ｉ_１及びＩ_２は、同じ行にある２つの画像の対応点を揃えるために、それぞれホモグラフィＨ_１及びＨ_２をＩ_１及びＩ_２に適用することにより、修正される。このようなホモグラフィは、画像間の７個以上の点対応から得られる基本行列から計算できる。修正画像対Ｒ_１及びＲ_２は、２つの並列ビューカメラからキャプチャされるように見え、並列ビューの線形補間は、形状を保存するビュー合成結果を生じる。新ビュー画像は、Ｒ_１及びＲ_２の対応点の位置及び色を線形補間することにより合成できる。画像対は既に修正されているので、このような合成は、行毎に行うことができる。

及び

は、Ｒ_１及びＲ_２の間の点対応セットを示すとする。ここで、

及び

は、ｉ＝ｊのときにのみ対応点である。αは０乃至１の間であり、新ビューＲ_αは次式のように合成できる。

ここでｉ＝１，．．．，Ｎである。α＝０はＲ_１に対応し、α＝１はＲ_２に対応することに留意する。特徴マッチングにより発見される点対応は通常粗いので、より多くの対応が、存在する対応を補間することにより決定されることがある。ホモグラフィによる事後ワーピングは、任意的に、所望のビューを得るためにＲ_αに適用され得る。このようなホモグラフィは、ユーザ指定の制御点により決定できる。

ここで導入される技術は、画像対の間の形状制約を明示的にモデル化することにより新ビューを生成する。これらの技術は、ビュー合成問題の範囲内で２つの入力画像の修正表現を生成すること、及び２つの入力画像の修正表現の間の高密度点対応を生成することを含む。入力画像が修正されるので、対応検索は、１次元の推定問題に簡略化される。これは、対応推定問題を有意に容易にし且つ既存の方法より集約的計算が少ない。ここで導入される技術は、１次元の高密度点対応を用いて、出力画像の中のピクセルの可視性を明示的にモデル化するために混合マスクと一緒に出力画像を生成する。ここで導入される技術は、幾何学的形状歪みのより少ない且つより明確なテクスチャ詳細を有する結果を生成し、同時に、既存の方法より集約的計算が少ない。

本開示の目的のために、参照符号は、それらの参照符号が説明中の図に示されるか否かに関わらず、いずれかの図中に見られるコンポーネントを参照するために使用されて良い。さらに、参照符号が複数の同様のコンポーネントのうちの１つを参照する文字を含む場合（例えば、コンポーネント０００ａ、０００ｂ、０００ｎ）、該参照符号は、同様のコンポーネントのうちの１つ又は全部を参照するために、該文字を有しないで使用されることがある。

図１Ａは、新ビューが生成される２つの画像を示す一例である。図１Ａの例では、椅子の画像１０２ａは左ビューから示され、椅子の画像１０２ｂは右ビューから示される。上述のように、本願明細書で導入される技術は、図１Ａに示すような２つのビューを与えられると、画像の新ビューを生成する。図１Ｂは、本願明細書で導入される技術を用いて、図１Ａの例示的な椅子の画像から生成される新ビュー１０４を示す一例である。

図２は、本願明細書に開示の技術による、新ビューを生成する例示的なネットワーク２００を示すブロック図である。深層畳み込みニューラルネットワークを利用する、ある既存のビュー合成方法は、２つの入力画像の各々と目標ビューとの間の外観フロー（例えば、高密度点対応）を、目標ビューを再構成するために適応できる２次元フローフィールドとして推定する。この方法の主な問題は、幾何学的形状の一貫性が、外観フローを生成する処理において考慮されないことである。これに対し、ネットワーク２００は、２つの入力画像の２つの修正表現の間の高密度点対応をモデル化する。修正の結果として、ネットワーク２００は、２次元対応の代わりに、１次元高密度点対応を推定する必要があるだけである。これは、対応推定問題を簡単にし、したがって、ネットワーク２００に高密度点対応をより正確に推定させる。ネットワーク２００は、したがって、画像対の修正ビュー及びそれらの中の１次元高密度点対応を自動的に学習できるアーキテクチャを有する。

残りの図を参照して更に詳細に記載するように、ネットワーク２００は、画像２０２ａ及び２０２ｂを修正ネットワーク２０４への入力として取り入れ、修正画像２０６ａ及び２０６ｂを生成する。修正画像２０６ａ及び２０６ｂは、符号器ネットワーク２０８への入力として使用される。符号器ネットワーク２０８は、畳み込みレイヤを用いて修正画像２０６を符号化して、画像特徴セットを生成する。画像特徴は、１次元高密度点対応及び混合マスクを生成するために復号器ネットワーク２１０により使用される。ビューモーフィングネットワーク２１２は、１次元高密度点対応、混合マスク、及び修正画像２０６を用いて、出力画像２１４を生成する。

留意すべきことに、ネットワーク２００ネットワークは、現在のビュー合成方法が行うような、入力としてビューポイント変換情報を有しない。代わりに、本願明細書で導入される技術は、ネットワーク２００が、ネットワーク２００の中でビューポイント変換情報を有しないで２つの入力画像を修正するために使用されるホモグラフィ変換を学習することを可能にする。テスト結果は、ビューポイント変換情報を有しないネットワーク２００が、ビューポイント変換情報を有する従来の方法より良好に実行することを示している。

ネットワーク２００のユニークなアーキテクチャの幾つかの利点は、次を含む。（１）ユニークな１次元高密度点対応が、幾何学的形状歪みに苦しむ標準的な２次元高密度点対応よりも、高品質画像を合成する。この改良は、修正画像対の間の対応検索を１次元検索に限定するネットワーク２００による２つの入力画像の自動修正により課される幾何学的制約に起因する。（２）ネットワーク２００は、入力としてビューポイント変換情報を要求しない。（３）ネットワーク２００は、推定された高密度点対応及び混合マスクに基づき、２つの入力画像の間の無限の画像ビューを合成できる。

図２の例のネットワーク２００に示すように、画像２０２ａ及び画像２０２ｂは、修正ネットワーク２０４を通過する。画像を修正するために、修正ネットワーク２０４は、２つの射影変換行列（つまり、可逆的３×３実数行列）を学習し、画像対を射影変換行列によりワーピング（warp）する。

図３は、本願明細書に開示の技術による、例示的な修正ネットワークを示すブロック図である。図３の例に示すように、修正ネットワーク２０４は、画像２０２ａ及び画像２０２ｂのスタックを入力として受信する畳み込みレイヤ３０２を有する。畳み込みレイヤ３０２は、画像２０２ａのためのホモグラフィ変換行列３０４ａと、画像２０２ｂのためのホモグラフィ変換行列３０４ｇと、を生成する。ホモグラフィ変換行列３０４ａは、ホモグラフィ変換レイヤ３０６ａにより画像２０２ａをワーピングし及び修正画像２０６ａを生成するために使用される。また、ホモグラフィ変換行列３０４ｂは、ホモグラフィ変換レイヤ３０６ｂにより画像２０２ｂをワーピングし及び修正画像２０６ｂを生成するために使用される。

図４は、本願明細書に開示の技術による、別の例示的な修正ネットワークを示すブロック図である。図４の例では、画像２０２ａは、画像２０２ａに対応する特徴４０４ａのセットを生成するために、畳み込みレイヤ４０４ａを通じて処理される。同様に、画像２０２ｂは、画像２０２ｂに対応する特徴４０４ｂのセットを生成するために、畳み込みレイヤ４０４ｂを通じて処理される。特徴４０４ａ及び４０４ｂは、ホモグラフィ変換行列４０８ａ及びホモグラフィ変換行列４０８ｂを生成するために畳み込みレイヤ４０６ａ及び畳み込みレイヤ４０６ｂにより結合され処理される。ホモグラフィ変換レイヤ４１０ａは、ホモグラフィ変換行列４０８ａを用いて画像２０２ａを処理し、修正画像２０６ａを生成する。また、ホモグラフィ変換レイヤ４１０ｂは、ホモグラフィ変換行列４０８ｂを用いて画像２０２ｂを処理し、修正画像２０６ｂを生成する。

図５は、本願明細書に開示の技術による、例示的な符号器ネットワーク２０８を示すブロック図である。符号器ネットワーク２０８は、修正画像２０６ａ及び修正画像２０６ｂのスタックを取り入れ、畳み込みレイヤ５０２を用いて特徴５０４のセットとして、これらの画像を符号化する。図６は、本願明細書に開示の技術による、例示的な符号器ネットワーク２０８を示すブロック図である。一実施形態では、図６の例に示すように、符号器ネットワーク２０８は、２つの修正画像のために２つの符号器の間の共有重みを有する２つの畳み込みレイヤ６０２ａ及び６０２ｂを有する。畳み込みレイヤ６０２ａ及び６０２ｂの出力特徴６０４ａ及び６０４ｂは、特徴６０６のセットとして入力画像の間のビューポイント変換を符号化するために連結される。

図７は、本願明細書に開示の技術による、例示的な復号器ネットワークを示すブロックである。復号器ネットワークは、符号器ネットワーク（例えば、図５及び６に示す符号器ネットワーク）から特徴７０１のセットを取り入れ、対応する復号器７０２を用いて特徴７０１を復号化して、２つの修正画像２０６ａ及び２０６ｂの間の高密度点対応７０６を生成する。可視性マスク復号器７０４は、特徴７０１を用いて、出力画像２１４を合成する際にビューモーフィングネットワーク２１４により使用される混合マスク７０８ａ及び７０８ｂを生成する。マスク７０８ａ及び７０８ｂは、出力画像２１４において隠される又は見えるが入力ビューのうちの１又は複数において見える（又は見えない）入力画像の部分を考慮に入れる。一実施形態では、ビューモーフィングネットワークの仮出力は、入力ビューの形状に更に揃えられる出力を提供するために、混合マスクにより乗算される。

図８は、本願明細書に開示の技術による、例示的なビューモーフィングネットワークを示すブロック図である。復号器ネットワーク２１０の出力高密度点対応７０６及び修正画像２０６ａ及び２０６ｂを用いて、ビューモーフィングネットワーク２１２は、修正画像２０６ａ及び２０６ｂの間の中間ビューである出力画像２１４を生成する。Ｃ（ｑ）は対応する復号器７０２の出力７０６を示し、ｑは合成されるべき中間ビューのピクセル座標であるとする。次に、修正画像２０６ａと２０６ｂとの間の点対応セットである

及び

は、それぞれ、以下の式により決定できる。

Ｍ_１及びＭ_２＝１−Ｍ_１は、可視性復号器７０４により予測される混合マスク７０８ａ及び７０８ｂを示し、Ｒ_１及びＲ_２は、２つの修正画像２０６ａ及び２０６ｂを示すとする。次に、Ｒ_１とＲ_２との間の中間ビュー出力画像２１４Ｒ_ｍは、次式により合成できる。

ここで、

は、要素に関する乗算を表し、Ｒ_１（Ｐ_１）及びＲ_２（Ｐ_２）は補間によりＲ_１及びＲ_２からサンプリングされた画像である。図８の例に示すようなビューモーフィングネットワーク２１２は、それぞれサンプリング画像８０４ａ及び８０４ｂを生成するために、高密度対応７０６を用いる修正画像２０６ａのサンプリング８０２ａと、高密度対応を用いる修正画像２０６ｂのサンプリング８０２ｂと、を有する。ビューモーフィングネットワーク２１２は、サンプリング画像８０４ａ及び８０４ｂを混合マスク７０８ａ及び７０８ｂと混合して８０６、最終的に出力画像２１４を合成する。

ネットワーク２００は、２つの入力画像ビュー、つまり画像２０２ａ及び２０２ｂ、並びに対応する所望のグラウンドトゥルース中間ビュー画像を用いて訓練される。ネットワーク２００を訓練するために使用される損失関数は、次式により定められるような、出力２１４とグラウンドトゥルース画像との間のユークリッド損失である。

ここで、Ｒ_ＧＴはグラウンドトゥルース画像であり、Ｍはピクセル数である。

幾つかの実施形態では、２つの修正画像２０６ａ及び２０６ｂの間に中心のある合成ビューが想定できない場合、Ｒ_１とＲ_２との間の任意の中間ビューが、次式により後処理ステップとして合成できる。

ここで、０≦α≦１、
且つ

且つ
ｗ_２＝１−ｗ_１である。ここで、α＝０及びα＝１は、それぞれＲ_１及びＲ_２に対応する。これらのＲ_αは修正画像２０６ａ及び２０６ｂの間の中間ビューなので、ホモグラフィによる適正な事後ワーピングは、任意的に、入力画像２０２ａ及び２０２ｂの間の中間ビューを生成するために、Ｒ_αに適用できる。

図９は、本願明細書に開示の技術による、新ビューを生成する例示的な処理を示すブロック図である。９０２で、ネットワーク２００は、オブジェクトの第１ビューを示す第１画像を受信する。例えば、図２の例に示すように、ネットワーク２００は画像２０２ａを受信する。９０４で、ネットワーク２００は、オブジェクトの第２ビューを示す第２画像（例えば、画像２０２ｂ）を受信する。第１画像２０２ａ及び第２画像２０２ｂは、例えば画像２０２ａ及び２０２ｂ内に示されるオブジェクトの第１及び第２ビューに対応する右視野及び左視野からオブジェクトを示して良い。

９０６で、修正ネットワーク２０４は、第１画像及び第２画像を修正して、第１修正画像及び第２修正画像を生成する。上述のように、第１画像及び第２画像の修正は、対応する推定を１次元検索に限定することにより、ビュー合成処理における残りのステップを簡略化する。

９０８で、符号器ネットワーク２０８は、第１及び第２修正画像（例えば、修正画像２０６ａ及び２０６ｂ）を符号化して、畳み込みニューラルネットワーク特徴を生成する。そして、９１０で、復号器ネットワーク２１０は、畳み込みニューラルネットワーク特徴を処理して、第１修正画像のピクセルと第２修正画像のピクセルとの間の対応、及び合成中間ビューの中の修正画像のピクセルの可視性を表す混合マスクを生成する。

９１２で、ビューモーフィングネットワーク２１２は、第１修正画像のピクセルと第２修正画像のピクセルとの間の対応及び混合マスクを用いて、新中間ビュー出力を合成する。

留意すべきことに、上述のコンポーネント及びステップは、説明のために与えられ、他のコンポーネント及び処理が本願明細書に記載の技術において可能であり想定される。さらに、ステップは、列挙された順序と異なる順序で実行されて良く、追加又は少ないステップが可能であり、ステップ及びステップを実行するコンポーネントは、提供される例と異なるように区分されて良い。

図１０は、例示的なコンピューティングシステム１０００のブロック図であり、ビュー合成ネットワーク２００を実装するコンピューティング装置、コンピューティングエンティティ、又はサーバのコンピュータアーキテクチャを表し得る。図１０に示すように、コンピューティングシステム１０００は、構成に依存して通信バス１００２により接続される、通信ユニット１００４、１又は複数のプロセッサ１００８、１又は複数のメモリ１０１８、データストア１０１２、及び／又は１又は複数の入力／出力装置１０１４、を有して良い。図１０に示すコンピューティングシステム１０００は、例として与えられ、他の形式を取ることができ、本開示の範囲から逸脱することなくより多くの又は少ないコンポーネントを有して良いことが理解されるべきである。例えば、コンピューティング装置の種々のコンポーネントは、例えば通信バス、ソフトウェア通信機構、コンピュータネットワーク、等を含む種々の通信プロトコル及び／又は技術を用いて通信のために結合されて良い。図示しないが、コンピューティングシステム１０００は、種々のオペレーティングシステム、センサ、追加プロセッサ、及び他の物理的構成を有して良い。明確化のために図１０は単一の通信ユニット１００４、プロセッサ１００８、データストア１０１２、入力／出力装置１０１４、及びメモリ１０１８しか示さないが、コンピューティングシステム１０００がこれらのコンポーネントのうちの１又は複数のうちの複数を有する又はいずれも有しない場合があることが理解されるべきである。

バス１００２は、コンピューティング装置のコンポーネント間又はコンピューティング装置間でデータを転送する通信バス、ネットワークバスシステム、プロセッサメッシュ、それらの組合せ、等を有して良い。通信バスは、例えば、インター方式通信、ローカル関数又はプロシジャ呼び出し、リモートプロシジャ呼び出し、オブジェクトブローカ（例えば、ＣＯＲＢＡ）、ソフトウェアモジュールの中でも特に直接ソケット通信（例えば、ＴＣＰ／ＩＰソケット）、ＵＤＰブロードキャスト及び受信、ＨＴＴＰ接続、等を有し及び／又は実現できる。さらに、通信のうちの任意のもの又は全部はセキュアであり得る（例えば、ＳＳＨ、ＨＴＴＰＳ、等）。

通信ユニット１００４は、大規模コンピューティングエンティティネットワークの中での有線及び無線接続のための１又は複数のインタフェース装置（Ｉ／Ｆ）を有して良い。例えば、通信ユニット１００４は、限定ではないが、様々な種類の知られている接続及びインタフェースオプションを有して良い。通信ユニット１００４は、バス１００２を介してコンピューティングシステム１０００の他のコンポーネントに結合されて良い。通信ユニット１００４は、本願明細書の他の場所に記載されるように、種々の標準通信プロトコル又は独自通信プロトコルを用いて、他の接続をネットワークに及び他のエンティティに提供できる。

プロセッサ１００８は、種々の入力、論理、及び／又は演算動作を実行することによりソフトウェア命令を実行して良い。プロセッサ１００８は、例えばＣＩＳＣ（complex instruction set computer）アーキテクチャ、ＲＩＳＣ（reduced instruction set computer）アーキテクチャ、及び／又は命令セットの組合せを実施するアーキテクチャを含むコンピューティングアーキテクチャを有して良い。プロセッサ１００８は、１又は複数のプロセッサを含んで良く、物理的及び／又は仮想的であって良く、及び単一コア又は複数の処理ユニット及び／又はコアを有して良い。幾つかの実装では、プロセッサ１００８は、電子ディスプレイ信号を生成しディスプレイ装置に提供し、画像の表示をサポートし、画像をキャプチャ及び送信し、種々の特徴抽出及びサンプリングを含む複雑なタスクを実行する、等が可能であって良い。幾つかの実装では、プロセッサ１００８は、バス１００２を介してメモリ１０１８に結合されて良く、メモリ１０１８からのデータ及び命令にアクセスし、メモリ１０１８内にデータを格納して良い。

１又は複数のメモリ１０１８は、コンピューティングシステム１０００の他のコンポーネントにデータを格納しデータへのアクセスを提供して良い。メモリ１０１８は、単一のコンピューティング装置又は複数のコンピューティング装置に含まれて良い。幾つかの実装では、メモリ１０１８は、プロセッサ１００８により実行され得る命令及び／又はデータを格納して良い。例えば、メモリ１０１８は、ビューモーフィングネットワーク１０２０を格納して良い。メモリ１０１８は、例えばオペレーティングシステム、ハードウェアドライバ、他のソフトウェアアプリケーション、データベース、等を含む他の命令及びデータも格納可能である。メモリ１０１８は、プロセッサ１００８及びコンピューティングシステム１０００の他のコンポーネントと通信するために、バス４０２に結合されて良い。

メモリ１０１８は、プロセッサ１００８により又はそれと接続して処理するためにデータ、コンピュータプログラム、ソフトウェア、コード、ルーチンなどを含むことができる任意の非一時的機器又は装置であり得る非一時的コンピュータ使用可能（例えば、読み取り可能、書き込み可能、等）媒体を含んで良い。幾つかの実装では、メモリ１０１６は、揮発性メモリ及び不揮発性メモリ（例えば、ＲＡＭ、ＲＯＭ、ハードディスク、光ディスク、等）のうちの１又は複数を有して良い。理解されるべきことに、メモリ１０１６は、単一の装置であって良く、又は複数種類の装置及び構成を有して良い。

幾つかの実装では、ビューモーフィングネットワーク１０２０は、ＦＰＧＡ（field−programmable gate array）又はＡＳＩＣ（application−specific integrated circuit）を含むプログラマブル又は専用ハードウェアを用いて実装できる。幾つかの実装では、ビューモーフィングネットワーク１０２０は、ハードウェアとプロセッサ１００８により実行可能なソフトウェアとの組み合わせを用いて実装できる。幾つかの実装では、ビューモーフィングネットワーク１０２０は、プロセッサ１００８により実行可能な命令セットであって良い。

データストア１０１２は、データを格納し及びデータへのアクセスを提供する情報ソースである。データストア１０１２により格納されるデータは、それらにより格納される任意のデータ型を含む種々の基準を用いて編成され及びクエリされて良い。データストア１０１２は、データテーブル、データベース、又は他の編成されたデータ集合を有して良い。

１又は複数の入力／出力装置１０１４は、コンピューティングシステム１０００に情報を入力する又は出力する任意の装置を有して良い。例えば、１又は複数の入力／出力装置１０１４は、キーボード、ポインティングデバイス、マイクロフォン、画像／ビデオキャプチャ装置（例えば、カメラ）、タッチスクリーンディスプレイ、等のような１又は複数の入力装置を有して良い。１又は複数の入力／出力装置１０１４は、ディスプレイ（ＬＣＤ、ＯＬＥＤ、等）、プリンタ、触覚装置、音声再生装置、タッチスクリーンディスプレイ、等のうちの１又は複数のような、１又は複数の出力装置を有して良い。幾つかの実装では、出力装置は、ユーザに提示するためにコンピューティングシステム１０００により出力される電子画像及びデータを表示できるディスプレイである。幾つかの実装では、コンピューティングシステム１０００は、出力装置上で提示するために画像及びデータをレンダリングし及び出力するグラフィックアダプタ（図示しない）を有して良い。グラフィックアダプタ（図示しない）は、別個のプロセッサ及びメモリ（図示しない）を有する別個の処理装置であって良く、又はプロセッサ１００８及びメモリ１０１８と統合されて良い。

留意すべきことに、例えば図１０を参照して本願明細書に記載したコンポーネントは、本願明細書に記載の技術から逸脱することなく更に線引きされ又は変更されて良い。例えば、本開示を通じて記載された処理は、より少数の、多数の、又は異なるコンポーネントにより実行されて良い。以上の説明は、説明及び解説を目的として提示された。上述の記載は、網羅的であること又は本願明細書を開示の特定の形式に限定することを意図しない。上述の教示に照らして多くの修正及び変形が可能である。本開示の範囲はこの詳細な説明に限定されず、本願の特許請求の範囲により定められる。当業者により理解されるように、仕様は、本発明の精神又は基本的特徴から逸脱することなく他の特定の形式で実施できる。同様に、モジュール、ルーチン、特徴、属性、方法及び他の態様の特定の名称及び区分は、必須でも重要でない場合があり、明細書及びその特徴を実施するメカニズムは、異なる名称、区分及び／又はフォーマットを有して良い。

２００ネットワーク
２０２ａ、ｂ画像
２０４修正ネットワーク
２０６ａ，ｂ修正画像
２０８符号器ネットワーク
２１４出力画像
２１２ビューモーフィングネットワーク
２１０復号器ネットワーク

Claims

オブジェクトの第１ビューを示す第１画像を受信するステップと、
前記オブジェクトの第２ビューを示す第２画像を受信するステップと、
前記第１画像及び前記第２画像を修正するステップであって、第１修正画像及び第２修正画像を生成する、ステップと、
前記第１及び第２修正画像を符号化するステップであって、複数の畳み込みニューラルネットワーク特徴を生成する、ステップと、
前記複数の畳み込みニューラルネットワーク特徴を処理するステップであって、前記第１修正画像のピクセルと前記第２修正画像のピクセルとの間の対応を生成する、ステップと、
前記第１修正画像のピクセルと前記第２修正画像のピクセルとの間の前記対応を用いて出力画像を合成するステップであって、前記出力画像は、前記第１ビューと前記第２ビューとの間のビューにおける前記オブジェクトを示す中間ビュー画像である、ステップと、
を有する方法。