JP2019079565A - 深層畳み込みニューラルネットワークを用いる新ビュー合成 - Google Patents

深層畳み込みニューラルネットワークを用いる新ビュー合成 Download PDF

Info

Publication number
JP2019079565A
JP2019079565A JP2019009850A JP2019009850A JP2019079565A JP 2019079565 A JP2019079565 A JP 2019079565A JP 2019009850 A JP2019009850 A JP 2019009850A JP 2019009850 A JP2019009850 A JP 2019009850A JP 2019079565 A JP2019079565 A JP 2019079565A
Authority
JP
Japan
Prior art keywords
image
network
images
view
generate
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2019009850A
Other languages
English (en)
Inventor
クォン ジュンヒョン
Junghyun Kwon
クォン ジュンヒョン
ジ ディンホアン
Dinghuang Ji
ジ ディンホアン
マクファーランド マックス
Max Mcfarland
マクファーランド マックス
サヴァレーゼ シルヴィオ
Savarese Silvio
サヴァレーゼ シルヴィオ
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ricoh Co Ltd
Original Assignee
Ricoh Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ricoh Co Ltd filed Critical Ricoh Co Ltd
Publication of JP2019079565A publication Critical patent/JP2019079565A/ja
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T5/00Image enhancement or restoration
    • G06T5/50Image enhancement or restoration using two or more images, e.g. averaging or subtraction
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/97Determining parameters from multiple pictures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T3/00Geometric image transformations in the plane of the image
    • G06T3/18Image warping, e.g. rearranging pixels individually
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10004Still image; Photographic image
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20084Artificial neural networks [ANN]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20212Image combination
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20228Disparity calculation for image-based rendering

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Software Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Image Processing (AREA)
  • Image Generation (AREA)

Abstract

【課題】 2つの受信画像の間の中間ビューを生成するシステム及び方法が開示される。【解決手段】 中間ビューを生成するために、修正器ネットワークは2つの画像を修正し、符号器ネットワークは、2つの修正画像を符号化して、畳み込みニューラルネットワーク特徴を生成する。畳み込みニューラルネットワーク特徴は、復号器ネットワークに供給される。復号器ネットワークは、特徴を復号化して、2つの修正画像の間の対応と、中間ビュー画像の中の修正画像のピクセルの可視性を予測するために混合マスクと、を生成する。2つの修正画像の間の対応と、混合マスクとを用いて、ビューモーフィングネットワークは、2つの画像の間のビューで2つの画像の中のオブジェクトを示す中間ビュー画像を合成する。【選択図】 図2

Description

本願明細書は、概して、ビュー合成の分野に関し、より具体的には、深層畳み込みニューラルネットワークを用いる新ビュー合成に関連する。
新ビュー合成は、殆どのコンピュータビジョン及び仮想現実において、実用的用途を有する。例えば、画像内のオブジェクトを認識するためにコンピュータビジョンを使用すると、全ての可能な異なるビューの中のオブジェクトの画像を得るために有用である場合がある。異なるビューにおけるオブジェクトの限られた画像により、ビュー合成方法は、元の画像の中に無いビューの中でオブジェクトを示す画像を生成できる。さらに、ビュー合成は、限られた画像又はビデオ映像に基づき、完全な仮想現実環境を作り出すために使用できる。近年、深層畳み込みニューラルネットワークを利用する学習に基づく技術が、ビュー合成問題への適用に成功している。しかしながら、このような技術は、通常、テクスチャ詳細の欠如、地理的形状の歪み、又は過度の計算の複雑性に苦しむ。
本願明細書で紹介する技術は、深層畳み込みニューラルネットワークを用いて画像の新ビューを生成するシステム及び方法により、少なくとも部分的に従来技術の欠点及び限界を克服する。中間ビューを生成するために、修正ネットワークは2つの画像を修正し、符号器ネットワークは、2つの修正画像を符号化して、畳み込みニューラルネットワーク特徴を生成する。畳み込みニューラルネットワーク特徴は、復号器ネットワークに供給される。復号器ネットワークは、特徴を復号化して、2つの修正画像の間の高密度点対応と混合マスクとを生成する。2つの修正画像の間の対応及び混合マスクを用いて、ビューモーフィングネットワークは、2つの画像をモーフィングして、2つの画像の間のビューで2つの画像の中のオブジェクトを示す中間ビュー画像を生成する。
他の態様は、上述の及び他の新規な態様のための対応する方法、システム、装置及びコンピュータプログラムを有する。
本願明細書に記載される特徴及び利点は網羅的ではなく、図面及び説明を参照して多くの追加の特徴及び利点が当業者に明らかになるだろう。さらに、留意すべき点は、本願明細書で用いられる語は、基本的に読み易さ及び説明的目的で選択されており、記載の技術の範囲を制限しない。
本開示は、例を用いて説明され、添付の図面に限定されるものではない。図中、同様の参照符号は同様の要素を表すために用いられる。
新ビューが生成される2つの画像を示す一例である。 図1Aの例示的な画像から生成される新ビューを示す一例である。 本願明細書に開示の技術による、新ビューを生成する例示的なネットワークを示すブロック図である。 本願明細書に開示の技術による、例示的な修正ネットワークを示すブロック図である。 本願明細書に開示の技術による、例示的な修正ネットワークを示すブロック図である。 本願明細書に開示の技術による、例示的な符号器ネットワークを示すブロック図である。 本願明細書に開示の技術による、例示的な符号器ネットワークを示すブロック図である。 本願明細書に開示の技術による、例示的な復号器ネットワークを示すブロック図である。 本願明細書に開示の技術による、例示的なビューモーフィングネットワークを示すブロック図である。 本願明細書に開示の技術による、新ビューを生成する例示的な処理を示すブロック図である。 本願明細書に開示の技術による、ネットワークを実装する例示的なコンピューティングシステムを示すブロック図である。
本開示の技術に従うシステム及び方法は、深層畳み込みニューラルネットワークを用いて画像の新ビューを生成する技術を提供する。
現在、新ビュー合成は、2つの広範なカテゴリ、つまり形状に基づくアプローチ及び学習に基づくアプローチで取り組まれている。形状アプローチは、先ず、オブジェクトの概略基本3D構造を推定し、次に、入力画像の中のピクセルに対して何らかの変換を提供して出力画像を生成する。3D構造を何とかして推定する要件に加えて、形状アプローチの他の主な弱点は、それらが、ソース画像が十分な視覚的コンテンツを有しない場所(例えば、オブジェクトの背面)にホールを生成することである。このような場合には、様々な種類のテクスチャホールフィリングが用いられるが、ホールフィリングfi術は常に有効なわけではない。
他方で、学習に基づくアプローチは、新ビューを生成するために、入力画像からのより多くの情報を用いる。例えば、車の側面ビューが与えられる場合、システムが知識に基づく推測を行うために他の車の前面を観察していない限り、車の前面がどのように見えるかを推定する方法が存在しない。学習に基づくアプローチは、標準的に、訓練画像を使用して、オブジェクトクラスのパラメータモデルを構築し、次に、入力画像と共に該パラメータモデルを用いて、新ビューを生成する。しかしながら、パラメータ画像生成からの結果は、非常にぼけている場合が多い。
ビューモーフィングは、形状を保存するビュー合成結果を生成できる。ビューモーフィングは、3つのステップの概念であり得る。つまり、(i)修正、(ii)補間によるビュー合成、(iii)事後ワーピング、である。2つの入力画像I及びIは、同じ行にある2つの画像の対応点を揃えるために、それぞれホモグラフィH及びHをI及びIに適用することにより、修正される。このようなホモグラフィは、画像間の7個以上の点対応から得られる基本行列から計算できる。修正画像対R及びRは、2つの並列ビューカメラからキャプチャされるように見え、並列ビューの線形補間は、形状を保存するビュー合成結果を生じる。新ビュー画像は、R及びRの対応点の位置及び色を線形補間することにより合成できる。画像対は既に修正されているので、このような合成は、行毎に行うことができる。
Figure 2019079565
及び
Figure 2019079565
は、R及びRの間の点対応セットを示すとする。ここで、
Figure 2019079565
及び
Figure 2019079565
は、i=jのときにのみ対応点である。αは0乃至1の間であり、新ビューRαは次式のように合成できる。
Figure 2019079565
ここでi=1,...,Nである。α=0はRに対応し、α=1はRに対応することに留意する。特徴マッチングにより発見される点対応は通常粗いので、より多くの対応が、存在する対応を補間することにより決定されることがある。ホモグラフィによる事後ワーピングは、任意的に、所望のビューを得るためにRαに適用され得る。このようなホモグラフィは、ユーザ指定の制御点により決定できる。
ここで導入される技術は、画像対の間の形状制約を明示的にモデル化することにより新ビューを生成する。これらの技術は、ビュー合成問題の範囲内で2つの入力画像の修正表現を生成すること、及び2つの入力画像の修正表現の間の高密度点対応を生成することを含む。入力画像が修正されるので、対応検索は、1次元の推定問題に簡略化される。これは、対応推定問題を有意に容易にし且つ既存の方法より集約的計算が少ない。ここで導入される技術は、1次元の高密度点対応を用いて、出力画像の中のピクセルの可視性を明示的にモデル化するために混合マスクと一緒に出力画像を生成する。ここで導入される技術は、幾何学的形状歪みのより少ない且つより明確なテクスチャ詳細を有する結果を生成し、同時に、既存の方法より集約的計算が少ない。
本開示の目的のために、参照符号は、それらの参照符号が説明中の図に示されるか否かに関わらず、いずれかの図中に見られるコンポーネントを参照するために使用されて良い。さらに、参照符号が複数の同様のコンポーネントのうちの1つを参照する文字を含む場合(例えば、コンポーネント000a、000b、000n)、該参照符号は、同様のコンポーネントのうちの1つ又は全部を参照するために、該文字を有しないで使用されることがある。
図1Aは、新ビューが生成される2つの画像を示す一例である。図1Aの例では、椅子の画像102aは左ビューから示され、椅子の画像102bは右ビューから示される。上述のように、本願明細書で導入される技術は、図1Aに示すような2つのビューを与えられると、画像の新ビューを生成する。図1Bは、本願明細書で導入される技術を用いて、図1Aの例示的な椅子の画像から生成される新ビュー104を示す一例である。
図2は、本願明細書に開示の技術による、新ビューを生成する例示的なネットワーク200を示すブロック図である。深層畳み込みニューラルネットワークを利用する、ある既存のビュー合成方法は、2つの入力画像の各々と目標ビューとの間の外観フロー(例えば、高密度点対応)を、目標ビューを再構成するために適応できる2次元フローフィールドとして推定する。この方法の主な問題は、幾何学的形状の一貫性が、外観フローを生成する処理において考慮されないことである。これに対し、ネットワーク200は、2つの入力画像の2つの修正表現の間の高密度点対応をモデル化する。修正の結果として、ネットワーク200は、2次元対応の代わりに、1次元高密度点対応を推定する必要があるだけである。これは、対応推定問題を簡単にし、したがって、ネットワーク200に高密度点対応をより正確に推定させる。ネットワーク200は、したがって、画像対の修正ビュー及びそれらの中の1次元高密度点対応を自動的に学習できるアーキテクチャを有する。
残りの図を参照して更に詳細に記載するように、ネットワーク200は、画像202a及び202bを修正ネットワーク204への入力として取り入れ、修正画像206a及び206bを生成する。修正画像206a及び206bは、符号器ネットワーク208への入力として使用される。符号器ネットワーク208は、畳み込みレイヤを用いて修正画像206を符号化して、画像特徴セットを生成する。画像特徴は、1次元高密度点対応及び混合マスクを生成するために復号器ネットワーク210により使用される。ビューモーフィングネットワーク212は、1次元高密度点対応、混合マスク、及び修正画像206を用いて、出力画像214を生成する。
留意すべきことに、ネットワーク200ネットワークは、現在のビュー合成方法が行うような、入力としてビューポイント変換情報を有しない。代わりに、本願明細書で導入される技術は、ネットワーク200が、ネットワーク200の中でビューポイント変換情報を有しないで2つの入力画像を修正するために使用されるホモグラフィ変換を学習することを可能にする。テスト結果は、ビューポイント変換情報を有しないネットワーク200が、ビューポイント変換情報を有する従来の方法より良好に実行することを示している。
ネットワーク200のユニークなアーキテクチャの幾つかの利点は、次を含む。(1)ユニークな1次元高密度点対応が、幾何学的形状歪みに苦しむ標準的な2次元高密度点対応よりも、高品質画像を合成する。この改良は、修正画像対の間の対応検索を1次元検索に限定するネットワーク200による2つの入力画像の自動修正により課される幾何学的制約に起因する。(2)ネットワーク200は、入力としてビューポイント変換情報を要求しない。(3)ネットワーク200は、推定された高密度点対応及び混合マスクに基づき、2つの入力画像の間の無限の画像ビューを合成できる。
図2の例のネットワーク200に示すように、画像202a及び画像202bは、修正ネットワーク204を通過する。画像を修正するために、修正ネットワーク204は、2つの射影変換行列(つまり、可逆的3×3実数行列)を学習し、画像対を射影変換行列によりワーピング(warp)する。
図3は、本願明細書に開示の技術による、例示的な修正ネットワークを示すブロック図である。図3の例に示すように、修正ネットワーク204は、画像202a及び画像202bのスタックを入力として受信する畳み込みレイヤ302を有する。畳み込みレイヤ302は、画像202aのためのホモグラフィ変換行列304aと、画像202bのためのホモグラフィ変換行列304gと、を生成する。ホモグラフィ変換行列304aは、ホモグラフィ変換レイヤ306aにより画像202aをワーピングし及び修正画像206aを生成するために使用される。また、ホモグラフィ変換行列304bは、ホモグラフィ変換レイヤ306bにより画像202bをワーピングし及び修正画像206bを生成するために使用される。
図4は、本願明細書に開示の技術による、別の例示的な修正ネットワークを示すブロック図である。図4の例では、画像202aは、画像202aに対応する特徴404aのセットを生成するために、畳み込みレイヤ404aを通じて処理される。同様に、画像202bは、画像202bに対応する特徴404bのセットを生成するために、畳み込みレイヤ404bを通じて処理される。特徴404a及び404bは、ホモグラフィ変換行列408a及びホモグラフィ変換行列408bを生成するために畳み込みレイヤ406a及び畳み込みレイヤ406bにより結合され処理される。ホモグラフィ変換レイヤ410aは、ホモグラフィ変換行列408aを用いて画像202aを処理し、修正画像206aを生成する。また、ホモグラフィ変換レイヤ410bは、ホモグラフィ変換行列408bを用いて画像202bを処理し、修正画像206bを生成する。
図5は、本願明細書に開示の技術による、例示的な符号器ネットワーク208を示すブロック図である。符号器ネットワーク208は、修正画像206a及び修正画像206bのスタックを取り入れ、畳み込みレイヤ502を用いて特徴504のセットとして、これらの画像を符号化する。図6は、本願明細書に開示の技術による、例示的な符号器ネットワーク208を示すブロック図である。一実施形態では、図6の例に示すように、符号器ネットワーク208は、2つの修正画像のために2つの符号器の間の共有重みを有する2つの畳み込みレイヤ602a及び602bを有する。畳み込みレイヤ602a及び602bの出力特徴604a及び604bは、特徴606のセットとして入力画像の間のビューポイント変換を符号化するために連結される。
図7は、本願明細書に開示の技術による、例示的な復号器ネットワークを示すブロックである。復号器ネットワークは、符号器ネットワーク(例えば、図5及び6に示す符号器ネットワーク)から特徴701のセットを取り入れ、対応する復号器702を用いて特徴701を復号化して、2つの修正画像206a及び206bの間の高密度点対応706を生成する。可視性マスク復号器704は、特徴701を用いて、出力画像214を合成する際にビューモーフィングネットワーク214により使用される混合マスク708a及び708bを生成する。マスク708a及び708bは、出力画像214において隠される又は見えるが入力ビューのうちの1又は複数において見える(又は見えない)入力画像の部分を考慮に入れる。一実施形態では、ビューモーフィングネットワークの仮出力は、入力ビューの形状に更に揃えられる出力を提供するために、混合マスクにより乗算される。
図8は、本願明細書に開示の技術による、例示的なビューモーフィングネットワークを示すブロック図である。復号器ネットワーク210の出力高密度点対応706及び修正画像206a及び206bを用いて、ビューモーフィングネットワーク212は、修正画像206a及び206bの間の中間ビューである出力画像214を生成する。C(q)は対応する復号器702の出力706を示し、qは合成されるべき中間ビューのピクセル座標であるとする。次に、修正画像206aと206bとの間の点対応セットである
Figure 2019079565
及び
Figure 2019079565
は、それぞれ、以下の式により決定できる。
Figure 2019079565
及びM=1−Mは、可視性復号器704により予測される混合マスク708a及び708bを示し、R及びRは、2つの修正画像206a及び206bを示すとする。次に、RとRとの間の中間ビュー出力画像214Rは、次式により合成できる。
Figure 2019079565
ここで、
Figure 2019079565
は、要素に関する乗算を表し、R(P)及びR(P)は補間によりR及びRからサンプリングされた画像である。図8の例に示すようなビューモーフィングネットワーク212は、それぞれサンプリング画像804a及び804bを生成するために、高密度対応706を用いる修正画像206aのサンプリング802aと、高密度対応を用いる修正画像206bのサンプリング802bと、を有する。ビューモーフィングネットワーク212は、サンプリング画像804a及び804bを混合マスク708a及び708bと混合して806、最終的に出力画像214を合成する。
ネットワーク200は、2つの入力画像ビュー、つまり画像202a及び202b、並びに対応する所望のグラウンドトゥルース中間ビュー画像を用いて訓練される。ネットワーク200を訓練するために使用される損失関数は、次式により定められるような、出力214とグラウンドトゥルース画像との間のユークリッド損失である。
Figure 2019079565
ここで、RGTはグラウンドトゥルース画像であり、Mはピクセル数である。
幾つかの実施形態では、2つの修正画像206a及び206bの間に中心のある合成ビューが想定できない場合、RとRとの間の任意の中間ビューが、次式により後処理ステップとして合成できる。
Figure 2019079565
ここで、0≦α≦1、
且つ
Figure 2019079565
且つ
=1−wである。ここで、α=0及びα=1は、それぞれR及びRに対応する。これらのRαは修正画像206a及び206bの間の中間ビューなので、ホモグラフィによる適正な事後ワーピングは、任意的に、入力画像202a及び202bの間の中間ビューを生成するために、Rαに適用できる。
図9は、本願明細書に開示の技術による、新ビューを生成する例示的な処理を示すブロック図である。902で、ネットワーク200は、オブジェクトの第1ビューを示す第1画像を受信する。例えば、図2の例に示すように、ネットワーク200は画像202aを受信する。904で、ネットワーク200は、オブジェクトの第2ビューを示す第2画像(例えば、画像202b)を受信する。第1画像202a及び第2画像202bは、例えば画像202a及び202b内に示されるオブジェクトの第1及び第2ビューに対応する右視野及び左視野からオブジェクトを示して良い。
906で、修正ネットワーク204は、第1画像及び第2画像を修正して、第1修正画像及び第2修正画像を生成する。上述のように、第1画像及び第2画像の修正は、対応する推定を1次元検索に限定することにより、ビュー合成処理における残りのステップを簡略化する。
908で、符号器ネットワーク208は、第1及び第2修正画像(例えば、修正画像206a及び206b)を符号化して、畳み込みニューラルネットワーク特徴を生成する。そして、910で、復号器ネットワーク210は、畳み込みニューラルネットワーク特徴を処理して、第1修正画像のピクセルと第2修正画像のピクセルとの間の対応、及び合成中間ビューの中の修正画像のピクセルの可視性を表す混合マスクを生成する。
912で、ビューモーフィングネットワーク212は、第1修正画像のピクセルと第2修正画像のピクセルとの間の対応及び混合マスクを用いて、新中間ビュー出力を合成する。
留意すべきことに、上述のコンポーネント及びステップは、説明のために与えられ、他のコンポーネント及び処理が本願明細書に記載の技術において可能であり想定される。さらに、ステップは、列挙された順序と異なる順序で実行されて良く、追加又は少ないステップが可能であり、ステップ及びステップを実行するコンポーネントは、提供される例と異なるように区分されて良い。
図10は、例示的なコンピューティングシステム1000のブロック図であり、ビュー合成ネットワーク200を実装するコンピューティング装置、コンピューティングエンティティ、又はサーバのコンピュータアーキテクチャを表し得る。図10に示すように、コンピューティングシステム1000は、構成に依存して通信バス1002により接続される、通信ユニット1004、1又は複数のプロセッサ1008、1又は複数のメモリ1018、データストア1012、及び/又は1又は複数の入力/出力装置1014、を有して良い。図10に示すコンピューティングシステム1000は、例として与えられ、他の形式を取ることができ、本開示の範囲から逸脱することなくより多くの又は少ないコンポーネントを有して良いことが理解されるべきである。例えば、コンピューティング装置の種々のコンポーネントは、例えば通信バス、ソフトウェア通信機構、コンピュータネットワーク、等を含む種々の通信プロトコル及び/又は技術を用いて通信のために結合されて良い。図示しないが、コンピューティングシステム1000は、種々のオペレーティングシステム、センサ、追加プロセッサ、及び他の物理的構成を有して良い。明確化のために図10は単一の通信ユニット1004、プロセッサ1008、データストア1012、入力/出力装置1014、及びメモリ1018しか示さないが、コンピューティングシステム1000がこれらのコンポーネントのうちの1又は複数のうちの複数を有する又はいずれも有しない場合があることが理解されるべきである。
バス1002は、コンピューティング装置のコンポーネント間又はコンピューティング装置間でデータを転送する通信バス、ネットワークバスシステム、プロセッサメッシュ、それらの組合せ、等を有して良い。通信バスは、例えば、インター方式通信、ローカル関数又はプロシジャ呼び出し、リモートプロシジャ呼び出し、オブジェクトブローカ(例えば、CORBA)、ソフトウェアモジュールの中でも特に直接ソケット通信(例えば、TCP/IPソケット)、UDPブロードキャスト及び受信、HTTP接続、等を有し及び/又は実現できる。さらに、通信のうちの任意のもの又は全部はセキュアであり得る(例えば、SSH、HTTPS、等)。
通信ユニット1004は、大規模コンピューティングエンティティネットワークの中での有線及び無線接続のための1又は複数のインタフェース装置(I/F)を有して良い。例えば、通信ユニット1004は、限定ではないが、様々な種類の知られている接続及びインタフェースオプションを有して良い。通信ユニット1004は、バス1002を介してコンピューティングシステム1000の他のコンポーネントに結合されて良い。通信ユニット1004は、本願明細書の他の場所に記載されるように、種々の標準通信プロトコル又は独自通信プロトコルを用いて、他の接続をネットワークに及び他のエンティティに提供できる。
プロセッサ1008は、種々の入力、論理、及び/又は演算動作を実行することによりソフトウェア命令を実行して良い。プロセッサ1008は、例えばCISC(complex instruction set computer)アーキテクチャ、RISC(reduced instruction set computer)アーキテクチャ、及び/又は命令セットの組合せを実施するアーキテクチャを含むコンピューティングアーキテクチャを有して良い。プロセッサ1008は、1又は複数のプロセッサを含んで良く、物理的及び/又は仮想的であって良く、及び単一コア又は複数の処理ユニット及び/又はコアを有して良い。幾つかの実装では、プロセッサ1008は、電子ディスプレイ信号を生成しディスプレイ装置に提供し、画像の表示をサポートし、画像をキャプチャ及び送信し、種々の特徴抽出及びサンプリングを含む複雑なタスクを実行する、等が可能であって良い。幾つかの実装では、プロセッサ1008は、バス1002を介してメモリ1018に結合されて良く、メモリ1018からのデータ及び命令にアクセスし、メモリ1018内にデータを格納して良い。
1又は複数のメモリ1018は、コンピューティングシステム1000の他のコンポーネントにデータを格納しデータへのアクセスを提供して良い。メモリ1018は、単一のコンピューティング装置又は複数のコンピューティング装置に含まれて良い。幾つかの実装では、メモリ1018は、プロセッサ1008により実行され得る命令及び/又はデータを格納して良い。例えば、メモリ1018は、ビューモーフィングネットワーク1020を格納して良い。メモリ1018は、例えばオペレーティングシステム、ハードウェアドライバ、他のソフトウェアアプリケーション、データベース、等を含む他の命令及びデータも格納可能である。メモリ1018は、プロセッサ1008及びコンピューティングシステム1000の他のコンポーネントと通信するために、バス402に結合されて良い。
メモリ1018は、プロセッサ1008により又はそれと接続して処理するためにデータ、コンピュータプログラム、ソフトウェア、コード、ルーチンなどを含むことができる任意の非一時的機器又は装置であり得る非一時的コンピュータ使用可能(例えば、読み取り可能、書き込み可能、等)媒体を含んで良い。幾つかの実装では、メモリ1016は、揮発性メモリ及び不揮発性メモリ(例えば、RAM、ROM、ハードディスク、光ディスク、等)のうちの1又は複数を有して良い。理解されるべきことに、メモリ1016は、単一の装置であって良く、又は複数種類の装置及び構成を有して良い。
幾つかの実装では、ビューモーフィングネットワーク1020は、FPGA(field−programmable gate array)又はASIC(application−specific integrated circuit)を含むプログラマブル又は専用ハードウェアを用いて実装できる。幾つかの実装では、ビューモーフィングネットワーク1020は、ハードウェアとプロセッサ1008により実行可能なソフトウェアとの組み合わせを用いて実装できる。幾つかの実装では、ビューモーフィングネットワーク1020は、プロセッサ1008により実行可能な命令セットであって良い。
データストア1012は、データを格納し及びデータへのアクセスを提供する情報ソースである。データストア1012により格納されるデータは、それらにより格納される任意のデータ型を含む種々の基準を用いて編成され及びクエリされて良い。データストア1012は、データテーブル、データベース、又は他の編成されたデータ集合を有して良い。
1又は複数の入力/出力装置1014は、コンピューティングシステム1000に情報を入力する又は出力する任意の装置を有して良い。例えば、1又は複数の入力/出力装置1014は、キーボード、ポインティングデバイス、マイクロフォン、画像/ビデオキャプチャ装置(例えば、カメラ)、タッチスクリーンディスプレイ、等のような1又は複数の入力装置を有して良い。1又は複数の入力/出力装置1014は、ディスプレイ(LCD、OLED、等)、プリンタ、触覚装置、音声再生装置、タッチスクリーンディスプレイ、等のうちの1又は複数のような、1又は複数の出力装置を有して良い。幾つかの実装では、出力装置は、ユーザに提示するためにコンピューティングシステム1000により出力される電子画像及びデータを表示できるディスプレイである。幾つかの実装では、コンピューティングシステム1000は、出力装置上で提示するために画像及びデータをレンダリングし及び出力するグラフィックアダプタ(図示しない)を有して良い。グラフィックアダプタ(図示しない)は、別個のプロセッサ及びメモリ(図示しない)を有する別個の処理装置であって良く、又はプロセッサ1008及びメモリ1018と統合されて良い。
留意すべきことに、例えば図10を参照して本願明細書に記載したコンポーネントは、本願明細書に記載の技術から逸脱することなく更に線引きされ又は変更されて良い。例えば、本開示を通じて記載された処理は、より少数の、多数の、又は異なるコンポーネントにより実行されて良い。以上の説明は、説明及び解説を目的として提示された。上述の記載は、網羅的であること又は本願明細書を開示の特定の形式に限定することを意図しない。上述の教示に照らして多くの修正及び変形が可能である。本開示の範囲はこの詳細な説明に限定されず、本願の特許請求の範囲により定められる。当業者により理解されるように、仕様は、本発明の精神又は基本的特徴から逸脱することなく他の特定の形式で実施できる。同様に、モジュール、ルーチン、特徴、属性、方法及び他の態様の特定の名称及び区分は、必須でも重要でない場合があり、明細書及びその特徴を実施するメカニズムは、異なる名称、区分及び/又はフォーマットを有して良い。
200 ネットワーク
202a、b 画像
204 修正ネットワーク
206a,b 修正画像
208 符号器ネットワーク
214 出力画像
212 ビューモーフィングネットワーク
210 復号器ネットワーク

Claims (1)

  1. オブジェクトの第1ビューを示す第1画像を受信するステップと、
    前記オブジェクトの第2ビューを示す第2画像を受信するステップと、
    前記第1画像及び前記第2画像を修正するステップであって、第1修正画像及び第2修正画像を生成する、ステップと、
    前記第1及び第2修正画像を符号化するステップであって、複数の畳み込みニューラルネットワーク特徴を生成する、ステップと、
    前記複数の畳み込みニューラルネットワーク特徴を処理するステップであって、前記第1修正画像のピクセルと前記第2修正画像のピクセルとの間の対応を生成する、ステップと、
    前記第1修正画像のピクセルと前記第2修正画像のピクセルとの間の前記対応を用いて出力画像を合成するステップであって、前記出力画像は、前記第1ビューと前記第2ビューとの間のビューにおける前記オブジェクトを示す中間ビュー画像である、ステップと、
    を有する方法。
JP2019009850A 2016-11-14 2019-01-24 深層畳み込みニューラルネットワークを用いる新ビュー合成 Pending JP2019079565A (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US15/351,340 2016-11-14
US15/351,340 US10846836B2 (en) 2016-11-14 2016-11-14 View synthesis using deep convolutional neural networks

Related Parent Applications (1)

Application Number Title Priority Date Filing Date
JP2017152835A Division JP6471780B2 (ja) 2016-11-14 2017-08-08 深層畳み込みニューラルネットワークを用いる新ビュー合成

Publications (1)

Publication Number Publication Date
JP2019079565A true JP2019079565A (ja) 2019-05-23

Family

ID=60301826

Family Applications (2)

Application Number Title Priority Date Filing Date
JP2017152835A Expired - Fee Related JP6471780B2 (ja) 2016-11-14 2017-08-08 深層畳み込みニューラルネットワークを用いる新ビュー合成
JP2019009850A Pending JP2019079565A (ja) 2016-11-14 2019-01-24 深層畳み込みニューラルネットワークを用いる新ビュー合成

Family Applications Before (1)

Application Number Title Priority Date Filing Date
JP2017152835A Expired - Fee Related JP6471780B2 (ja) 2016-11-14 2017-08-08 深層畳み込みニューラルネットワークを用いる新ビュー合成

Country Status (4)

Country Link
US (1) US10846836B2 (ja)
EP (1) EP3321881A1 (ja)
JP (2) JP6471780B2 (ja)
CA (1) CA2985045A1 (ja)

Families Citing this family (18)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11972522B2 (en) 2016-03-25 2024-04-30 Outward, Inc. Arbitrary view generation
US11989820B2 (en) 2016-03-25 2024-05-21 Outward, Inc. Arbitrary view generation
US10163249B2 (en) 2016-03-25 2018-12-25 Outward, Inc. Arbitrary view generation
US11989821B2 (en) 2016-03-25 2024-05-21 Outward, Inc. Arbitrary view generation
GB2563004A (en) * 2017-05-23 2018-12-05 Nokia Technologies Oy Methods and apparatuses for handling visual virtual reality content
US10762359B2 (en) * 2017-08-31 2020-09-01 Nec Corporation Computer aided traffic enforcement using dense correspondence estimation with multi-level metric learning and hierarchical matching
JP7179515B2 (ja) * 2018-07-13 2022-11-29 キヤノン株式会社 装置、制御方法、及びプログラム
US11064180B2 (en) * 2018-10-15 2021-07-13 City University Of Hong Kong Convolutional neural network based synthesized view quality enhancement for video coding
CN109472360B (zh) * 2018-10-30 2020-09-04 北京地平线机器人技术研发有限公司 神经网络的更新方法、更新装置和电子设备
KR102641423B1 (ko) 2018-12-11 2024-02-28 삼성전자주식회사 영상 처리 장치 및 그 동작방법
CN109685750A (zh) * 2018-12-14 2019-04-26 厦门美图之家科技有限公司 图像增强方法及计算设备
CN110197458B (zh) * 2019-05-14 2023-08-01 广州视源电子科技股份有限公司 视角合成网络的训练方法、装置、电子设备和存储介质
CN110689514B (zh) * 2019-10-11 2022-11-11 深圳大学 一种透明物体的新视角合成模型的训练方法和计算机设备
KR20220078651A (ko) * 2019-11-08 2022-06-10 아웃워드, 인코포레이티드 임의적 뷰 생성
CN110798673B (zh) * 2019-11-13 2021-03-19 南京大学 基于深度卷积神经网络的自由视点视频生成及交互方法
JP7427467B2 (ja) * 2020-02-14 2024-02-05 キヤノン株式会社 画像処理装置、画像処理方法、学習済みモデルの生成方法、およびプログラム
US11783510B2 (en) * 2020-08-25 2023-10-10 Nvidia Corporation View generation using one or more neural networks
CN113077401B (zh) * 2021-04-09 2022-06-24 浙江大学 一种视点合成技术进行立体校正的方法

Family Cites Families (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO1995006297A1 (en) 1993-08-27 1995-03-02 Massachusetts Institute Of Technology Example-based image analysis and synthesis using pixelwise correspondence
US6724417B1 (en) * 2000-11-29 2004-04-20 Applied Minds, Inc. Method and apparatus maintaining eye contact in video delivery systems using view morphing
JP5184824B2 (ja) * 2007-06-15 2013-04-17 キヤノン株式会社 演算処理装置及び方法
US8503539B2 (en) 2010-02-26 2013-08-06 Bao Tran High definition personal computer (PC) cam
SG176327A1 (en) 2010-05-20 2011-12-29 Sony Corp A system and method of image processing
US8873813B2 (en) 2012-09-17 2014-10-28 Z Advanced Computing, Inc. Application of Z-webs and Z-factors to analytics, search engine, learning, recognition, natural language, and other utilities
CN103493093B (zh) * 2011-11-17 2017-07-18 松下知识产权经营株式会社 图像处理装置、摄像装置及图像处理方法
US9430834B2 (en) * 2014-01-20 2016-08-30 Nokia Corporation Visual perception matching cost on binocular stereo images
KR102265109B1 (ko) * 2014-01-24 2021-06-15 삼성전자주식회사 영상 처리 방법 및 장치
EP3086279A1 (en) * 2015-04-24 2016-10-26 KNORR-BREMSE Systeme für Nutzfahrzeuge GmbH Image synthesizer for a driver assisting system
US10157452B1 (en) * 2015-09-28 2018-12-18 Amazon Technologies, Inc. Image processing system for image rectification
US20170161607A1 (en) * 2015-12-04 2017-06-08 Pilot Ai Labs, Inc. System and method for improved gesture recognition using neural networks

Also Published As

Publication number Publication date
JP6471780B2 (ja) 2019-02-20
US20180137611A1 (en) 2018-05-17
JP2018081672A (ja) 2018-05-24
US10846836B2 (en) 2020-11-24
CA2985045A1 (en) 2018-05-14
EP3321881A1 (en) 2018-05-16

Similar Documents

Publication Publication Date Title
JP6471780B2 (ja) 深層畳み込みニューラルネットワークを用いる新ビュー合成
CN114549731B (zh) 视角图像的生成方法、装置、电子设备及存储介质
JP5011168B2 (ja) 仮想視点画像生成方法、仮想視点画像生成装置、仮想視点画像生成プログラムおよびそのプログラムを記録したコンピュータ読み取り可能な記録媒体
CN111325693B (zh) 一种基于单视点rgb-d图像的大尺度全景视点合成方法
CN113994366A (zh) 用于视频超分辨率的多阶段多参考自举
AU2019226134B2 (en) Environment map hole-filling
CN112734890B (zh) 基于三维重建的人脸替换方法及装置
CN110049303A (zh) 立体图像的视觉风格化
CN108470324A (zh) 一种鲁棒的双目立体图像拼接方法
US11276150B2 (en) Environment map generation and hole filling
CN111371966B (zh) 一种在虚拟演播室中合成前景人物阴影的方法、装置及存储介质
TW201610915A (zh) 用以轉換二維影像為三維模型的影像處理方法
WO2021226862A1 (en) Neural opacity point cloud
JP2007004578A (ja) 三次元形状取得方法、三次元形状取得装置、及びプログラムの記録媒体
CN110136083A (zh) 一种结合交互式的底图更新方法及装置
Lan et al. Development of a virtual reality teleconference system using distributed depth sensors
CN111028279A (zh) 点云数据处理方法及装置、电子设备和存储介质
CN112509106A (zh) 文档图片展平方法、装置以及设备
CN108090877A (zh) 一种基于图像序列的rgb-d相机深度图像修复方法
CN115358949A (zh) 全景图像处理方法、计算机设备和存储介质
Zhou et al. From NeRFLiX to NeRFLiX++: A General NeRF-Agnostic Restorer Paradigm
Schnyder et al. Depth image based compositing for stereo 3D
Chen et al. A Vehicle Driving Simulator Based on Mixed Reality
CN117557722A (zh) 3d模型的重建方法、装置、增强实现设备及存储介质
CN117635685A (zh) 道路静态要素重建方法、系统、介质及设备