JP2023098597A - 映像処理方法及び装置 - Google Patents

映像処理方法及び装置 Download PDF

Info

Publication number
JP2023098597A
JP2023098597A JP2022161314A JP2022161314A JP2023098597A JP 2023098597 A JP2023098597 A JP 2023098597A JP 2022161314 A JP2022161314 A JP 2022161314A JP 2022161314 A JP2022161314 A JP 2022161314A JP 2023098597 A JP2023098597 A JP 2023098597A
Authority
JP
Japan
Prior art keywords
information
image
neural network
input image
generate
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2022161314A
Other languages
English (en)
Inventor
▲みん▼廷 孫
Minjung Son
現盛 張
Hyun-Sung Chang
仁友 河
Inwoo Ha
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Samsung Electronics Co Ltd
Original Assignee
Samsung Electronics Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Samsung Electronics Co Ltd filed Critical Samsung Electronics Co Ltd
Publication of JP2023098597A publication Critical patent/JP2023098597A/ja
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T19/00Manipulating 3D models or images for computer graphics
    • G06T19/20Editing of 3D images, e.g. changing shapes or colours, aligning objects or positioning parts
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T17/00Three dimensional [3D] modelling, e.g. data description of 3D objects
    • G06T17/20Finite element generation, e.g. wire-frame surface description, tesselation
    • G06T17/205Re-meshing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T3/00Geometric image transformations in the plane of the image
    • G06T3/40Scaling of whole images or parts thereof, e.g. expanding or contracting
    • G06T3/4046Scaling of whole images or parts thereof, e.g. expanding or contracting using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T3/00Geometric image transformations in the plane of the image
    • G06T3/14Transformations for image registration, e.g. adjusting or mapping for alignment of images
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T3/00Geometric image transformations in the plane of the image
    • G06T3/18Image warping, e.g. rearranging pixels individually
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20081Training; Learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20084Artificial neural networks [ANN]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2219/00Indexing scheme for manipulating 3D models or images for computer graphics
    • G06T2219/20Indexing scheme for editing of 3D models
    • G06T2219/2004Aligning objects, relative positioning of parts
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2219/00Indexing scheme for manipulating 3D models or images for computer graphics
    • G06T2219/20Indexing scheme for editing of 3D models
    • G06T2219/2012Colour editing, changing, or manipulating; Use of colour codes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2219/00Indexing scheme for manipulating 3D models or images for computer graphics
    • G06T2219/20Indexing scheme for editing of 3D models
    • G06T2219/2016Rotation, translation, scaling
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2219/00Indexing scheme for manipulating 3D models or images for computer graphics
    • G06T2219/20Indexing scheme for editing of 3D models
    • G06T2219/2021Shape modification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2219/00Indexing scheme for manipulating 3D models or images for computer graphics
    • G06T2219/20Indexing scheme for editing of 3D models
    • G06T2219/2024Style variation

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Software Systems (AREA)
  • Computer Graphics (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • General Engineering & Computer Science (AREA)
  • Architecture (AREA)
  • Computer Hardware Design (AREA)
  • Geometry (AREA)
  • Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Image Analysis (AREA)
  • Processing Or Creating Images (AREA)
  • Image Generation (AREA)

Abstract

【課題】一実施形態に係る映像処理方法を提供される。【解決手段】映像処理方法は、第1ニューラルネットワークを実現して第1入力イメージから複数の正規グリッドを含む立面体に定義される標準空間に対応する外観情報を生成するステップと、第2ニューラルネットワークを実現して第2入力イメージから標準空間に対応する幾何情報を生成するステップと、生成された幾何情報に基づいて複数の正規グリッドを変形するステップと、変形された複数の正規グリッドに外観情報を適用することによって標準化された映像情報を生成するステップと、標準化された映像情報に基づいて出力イメージを生成するステップを含む。【選択図】図1

Description

以下の実施形態は、映像処理方法及び装置に関する。
近年、例えば、仮想現実(virtual reality;VR)、拡張現実(augmented reality;AR)又は混合現実(mixed reality;MR)を実現できる電子装置が開発されつつある。このうち、拡張現実は、現実世界の環境上、仮想のオブジェクトや情報を結合して示すディスプレイ技術である。拡張現実は、外部全景と仮想イメージの結合によってユーザに新しい経験を提供することができ、情報をより効果的でリアルに伝達できる手段となっている。
また、映像処理分野でニューラルネットワーク(神経網)技術の発展から見るとき、ニューラルネットワークを適用してARを提供することが有利である。
本発明の目的は、映像処理方法及び装置を提供する。
一実施形態に係るニューラルネットワークを実現する具現されたプロセッサの映像処理方法は、第1ニューラルネットワークを実現して第1入力イメージから複数の正規グリッドを含むスタンダード空間に対応する外観情報を生成するステップと、第2ニューラルネットワークを用いて、第2入力イメージからスタンダード空間に対応する幾何情報を生成するステップと、生成された幾何情報に基づいて複数の正規グリッドを変形するステップと、変形された複数の正規グリッドに外観情報を適用することによって、標準化された映像情報を生成するステップと、標準化された映像情報に基づいて出力イメージを生成するステップとを含む。
一実施形態に係るスタンダード空間は、複数の正規グリッドを含むキューブによって定義される標準空間を含むことができる。
一実施形態に係る外観情報は、フィーチャー情報、色情報、及びテクスチャ情報のうち少なくとも1つを含むことができる。
一実施形態に係る幾何情報は、オフセット情報、深度情報、及びスケール情報のうち少なくとも1つを含むことができる。
一実施形態に係る複数の正規グリッドを変形するステップは、スケール情報に基づいて複数の正規グリッドそれぞれに対応する座標を変形するステップと、オフセット情報及び深度情報のうち少なくとも1つに基づいて変形された座標を移動させるステップとを含むことができる。
一実施形態に係る標準空間は、1点透視図に基づいて5個の面を含む立面体の形態に表現された空間を含むことができる。
一実施形態に係る第1入力イメージと第2入力イメージとは類似してもよい。
一実施形態に係る第1入力イメージと第2入力イメージとは異なってもよい。
一実施形態に係る映像処理方法は、視点情報を受信するステップをさらに含み、出力イメージを生成するステップは、受信された視点情報に対応する出力イメージを生成するステップを含むことができる。
一実施形態に係る視点情報に対応する出力イメージを生成するステップは、第3入力イメージを第4ニューラルネットワークに印加して視点情報を生成するステップと、生成された視点情報及び第1入力イメージに対応する映像情報を第3ニューラルネットワークに印加し、出力イメージを生成するステップとを含むことができる。
一実施形態に係るニューラルネットワークは、第1ニューラルネットワーク、第2ニューラルネットワーク、及び出力イメージを生成するように学習された第3ニューラルネットワークのうち少なくとも1つを含むことができる。
一実施形態に係るニューラルネットワークは、第1入力イメージを第3入力イメージの視点情報に基づいて変形されたイメージを生成するように学習されることができる。
一実施形態に係る前記ニューラルネットワークは、損失関数を低減するように学習されたニューラルネットワークを含み、損失関数は、第3入力イメージから第4ニューラルネットワークを実現して生成された視点情報及び第1入力イメージに対応する映像情報を前記第3ニューラルネットワークに印加して生成された出力イメージと第3入力イメージとの差に基づいて決定されることができる。
一実施形態に係る第2ニューラルネットワークは、オフセット正規化損失関数及び深度正規化損失関数のうち少なくとも1つに基づいて学習されるように構成されることができる。
一実施形態に係る映像情報を第3ニューラルネットワークに印加するステップは、映像情報を2次元イメージに変換するステップと、2次元イメージを第3ニューラルネットワークに印加するステップとを含むことができる。
一実施形態に係る出力イメージを生成するステップは、第3入力イメージの第1視点情報を生成するステップと、第2視点情報に基づいて第3入力イメージの第1視点情報を変形するステップと、映像情報及び変形された第1視点情報を第3ニューラルネットワークに印加して出力イメージを生成するステップとを含むことができる。
一実施形態に係る出力イメージは、第2入力イメージの幾何情報に基づいて第1入力イメージの幾何情報を変形させたイメージ、又は、第2入力イメージの外観情報に基づいて第1入力イメージの外観情報を変形させたイメージを含むことができる。
一実施形態に係る標準化された映像情報を生成するステップは、第1入力イメージの幾何情報に基づいて変形された複数のグリッド及び第2入力イメージの外観情報に基づいて標準化された映像情報を生成するステップを含むことがでいる。
他の一実施形態に係る電子装置は、以下を行うように構成された1つ以上のプロセッサを含み、第1ニューラルネットワークを実現して第1入力イメージから複数の正規グリッドを含む立面体として定義されるスタンダード空間に対応する外観情報を生成し、第2ニューラルネットワークを実現して第2入力イメージからスタンダード空間に対応する幾何情報を生成し、生成された幾何情報に基づいて複数の正規グリッドを変形し、変形された複数の正規グリッドに外観情報を適用することで標準化された映像情報を生成し、そして、標準化された映像情報に基づいて出力イメージを生成するプロセッサを含む。
他の一実施形態に係る電子装置は、以下を行うように構成された1つ以上のプロセッサを含み、入力イメージを第1ニューラルネットワークに印加して第1スタンダード空間で複数のグリッドに対応する外観情報を生成し、入力イメージを第2ニューラルネットワークに印加して複数のグリッドそれぞれに対応する幾何情報を生成し、生成された幾何情報に基づいて、複数のグリッドそれぞれに対応する座標を変形して第2スタンダード空間を生成し、第2スタンダード空間に外観情報を適用して標準化された映像情報を生成し、標準化された映像情報を2次元2Dイメージに変換し、2Dイメージを第3ニューラルネットワークに印加し、2Dイメージを第3ニューラルネットワークに印加して出力イメージ生成することができる。
一実施形態に係る第3ニューラルネットワークは、出力イメージを生成するように訓練されることができる。
一実施形態に係るスタンダード空間は、変更可能な場面を単一視点の空間に整列するための空間を含むことができる。
本発明によると、映像処理方法及び装置を提供することができる。
1つ以上の実施形態に係るイメージを生成するための方法を説明するための図である。 1つ以上の実施形態に係る標準空間を説明するための図である。 1つ以上の実施形態に係る正規グリッドを変形する方法を説明するための図である。 1つ以上の実施形態に係るニューラルネットワークの学習方法を説明するための図である。 1つ以上の実施形態に係る視点情報が変換された映像処理方法を説明するための図である。 1つ以上の実施形態に係る外観情報又は幾何情報が変換された映像処理方法を説明するための図である。 1つ以上の実施形態に係るイメージを生成するための方法を説明するためのフローチャートである。 1つ以上の実施形態に係る電子装置を説明するためのブロック図である。
実施形態に対する特定な構造的又は機能的な説明は単なる例示のための目的として開示されたものであって、様々な形態に変更されることができる。したがって、実施形態は特定な開示形態に限定されるものではなく、本明細書の範囲は技術的な思想に含まれる変更、均等物ないし代替物を含む。
第1又は第2などの用語を複数の構成要素を説明するために用いることがあるが、このような用語は1つの構成要素を他の構成要素から区別する目的としてのみ解釈されなければならない。例えば、第1構成要素は第2構成要素と命名することができ、同様に、第2構成要素は第1構成要素にも命名することができる。
いずれかの構成要素が他の構成要素に「連結」されているか「接続」されていると言及されたときには、その他の構成要素に直接的に連結されているか又は接続されているが、中間に他の構成要素が存在し得るものと理解されなければならない。
単数の表現は、文脈上、明白に異なる意味をもたない限り複数の表現を含む。本明細書において、「含む」又は「有する」等の用語は、明細書上に記載した特徴、数字、ステップ、動作、構成要素、部品又はこれを組み合わせたものが存在することを示すものであって、1つ又はそれ以上の他の特徴や数字、ステップ、動作、構成要素、部品、又はこれを組み合わせたものなどの存在又は付加の可能性を予め排除しないものとして理解しなければならない。
異なるように定義さがれない限り、技術的又は科学的な用語を含んで、ここで用いる全ての用語は、本実施形態が属する技術分野で通常の知識を有する者によって一般的に理解されるものと同じ意味を有する。一般的に用いられる予め定義された用語は、関連技術の文脈上で有する意味と一致する意味を有するものと解釈されなければならず、本明細書で明白に定義しない限り、理想的又は過度に形式的な意味として解釈されることはない。
一実施形態に係るプロセッサは、例えば、ソフトウェア(例えば、プログラム)を実行し、プロセッサに接続された電子装置の少なくとも1つの他の構成要素(例えば、ハードウェア又はソフトウェア構成要素)を制御し、様々なデータ処理又は演算を行うことができる。一実施形態によれば、データ処理又は演算の少なくとも一部として、プロセッサは、他の構成要素から受信された命令又はデータを揮発性メモリに格納し、揮発性メモリに格納された命令又はデータを処理し、結果データを不揮発性メモリに格納してもよい。一実施形態によれば、プロセッサは、メインプロセッサ(例えば、中央処理装置又はアプリケーションプロセッサ)又はこれとは独立的又は共に運営可能な補助プロセッサ(例えば、グラフィック処理装置、ニューラルネットワーク(神経網)処理装置(NPU:neural processing unit)、イメージ信号処理部、センサハブプロセッサ、又は、コミュニケーションプロセッサ)を含んでもよい。例えば、電子装置がメインプロセッサ及び補助プロセッサを含む場合、補助プロセッサは、メインプロセッサよりも低電力を使用したり、指定された機能に特化するように設定されたりしてもよい。補助プロセッサは、メインプロセッサとは別個に、又は、その一部として実現され得る。
以下、添付する図面を参照しながら実施形態を詳細に説明する。各図面に提示された同一の参照符号は同一の部材を示す。
図1は、1つ以上の実施形態に係るイメージを生成するための方法を説明するための図である。
図1において、入力イメージ(1)110、入力イメージ(2)160、第1ニューラルネットワーク130、第2ニューラルネットワーク150、外観情報131、幾何情報151、標準化された映像情報140、第3ニューラルネットワーク170、出力イメージ180及び第4ニューラルネットワーク190が図示されている。
制限されていない例として、第1入力イメージ及び第2入力イメージは同じイメージであってもよい。例えば、同じ入力イメージが第1ニューラルネットワーク130及び第2ニューラルネットワーク150に印加されてもよい。第1入力イメージ及び第2入力イメージが異なる例は、図6を参照して具体的に後述する。第3入力イメージが適用された例として、第3入力イメージは、第4ニューラルネットワーク190に印加されるイメージを含んでいる。ここで、例えば、例又は実施形態を含んだり実現できるものに関して、例又は実施形態に関連して「~してもよい(may)」という用語の使用は、そのような特徴が含まれたり実現される箇所の少なくとも1つの例又は実施形態が存在するものの、全ての例及び実施形態がこれに制限されないことを留意する。
一実施例によるプロセッサ810は、第1入力イメージ(例えば、入力イメージ(1)110)を第1ニューラルネットワーク130に印加して外観情報131を生成することができる。一実施形態に係るプロセッサ810は、第1ニューラルネットワーク130を具現して入力イメージ110から標準空間に対応する外観情報を生成することができる。
一実施形態に係る標準空間は、変形可能な場面を単一視点の空間に整列させるための空間を含んでもよい。一実施形態に係る標準空間における変数は、全ての環境条件及び/又は変形に変わらないものとして考慮されてもよい。一実施形態に係る標準空間に対応する外観情報131及び幾何情報151は、それぞれの変形に独立的であってもよい。一実施形態に係る標準空間は複数の正規グリッドを含むことができる。例えば、複数のグリッドは、それぞれ1つのピクセルに対応してもよい。異なる例として、グリッドは、複数のピクセルを含んでもよい。一実施形態に係る正規グリッドは、形状及び/又は大きさが同じグリッドを含んでもよい。
一実施形態に係る立面体は、透視図に基づいて生成されたものである。一実施形態に係る透視図は、遠いほど小さくなる地平線上の消失点を用いて遠近法を表現するビューを含む。一実施形態に係る立面体は、1点透視図に基づいて5個の面を含む形態に表現された空間を含む。一実施形態に係る1点透視図は、目に見えるものと同じ遠近感を表現する方式であって、水平線に消失点が1つのみが含まれている投影図を含んでもよい。一実施形態に係る立面体は、正面から見る方向を基準にして、正面にある面は第1面、左側にある面は第2面、右側にある面は第3面、上部にある面は第4面、下部にある面は第5面を含んでもよい。立面体は、図2を参照して具体的に後述する。
一実施形態に係る場面は、複数のオブジェクト(例えば、これに制限されず、家具、ヒト、自動車、木、建物、窓、家電など)を含んでもよい。一実施形態に係る入力イメージは場面を含んでもよい。一実施形態に係る場面は、立面体に表現されてもよい。一実施形態に係る場面は、複数のグリッドを含む1点透視図に表現されてもよい。従って、一実施形態に係る場面は、複数のグリッドを含む透視図に表現された空間として表現されることができる。透視図に表現された空間は、5個の面に表現される。従って、入力イメージは5個の面に分割され、各面は複数のグリッドを含むことができる。
一実施形態に係る第1ニューラルネットワーク130は、外観情報131を生成するためのニューラルネットワークを含むことができる。一実施形態に係る第1ニューラルネットワーク130は、複数の畳込みレイヤ及び/又は複数のプーリングレイヤを含むことができる。例えば、第1ニューラルネットワーク130は、単なる例であって、GAN(Generative Adversarial Network)、Large scale GAN、ResNet(residual neural network)及び/又はVGGNet(Very Deep Convolutional Networks)を含んでもよい。前述した第1ニューラルネットワークは例示に過ぎず、本開示はこれに制限されることはない。
一実施形態に係る外観情報131は、イメージで視覚的に認知できる特徴に関する情報を含むことができる。一実施形態に係る外観情報131は、イメージに含まれた内容の外観に関する情報を含んでもよい。一実施形態に係る外観情報131は、フィーチャー情報、色情報及びテクスチャ情報のうち少なくとも1つを含んでもよい。
一実施形態に係るフィーチャー情報は、特定グリッドの特徴情報を含む。例えば、フィーチャー情報は、ピクセル値に対する畳み込み演算を介して算出された値を含んでもよい。
一実施形態に係る色情報は、特定グリッドの色情報を含む。例えば、色情報は、特定グリッドがいずれかの色であるかに関する情報を含んでもよい。別の例として、色情報は、オブジェクトの材質成分として視点や照明に関係のない物質の固有の色情報を含んでもよい。一実施形態に係る色情報は、フィーチャー情報に基づいて生成されてもよい。一実施形態に係るプロセッサ810は、色情報を生成するためのニューラルネットワークにフィーチャー情報を印加して色情報を生成してもよい。他の一実施形態に係るプロセッサは、第1ニューラルネットワークを実現して色情報を生成してもよく、フィーチャー情報を用いて色情報が必ず生成されなくてもよい。
一実施形態に係るテクスチャ情報は、視覚的なディテールを与えるために表面に適用される情報を含むことができる。一実施形態に係るテクスチャは、質感を視覚的に表現したものを含んでもよい。一実施形態に係るテクスチャ情報は、フィーチャー情報に基づいて生成されてもよい。一実施形態に係るプロセッサは、テクスチャ情報を生成するためのニューラルネットワークにフィーチャー情報を印加し、テクスチャ情報を生成してもよい。他の一実施形態に係るプロセッサ810は、第1ニューラルネットワーク130を実現してテクスチャ情報を生成してもよく、フィーチャー情報を用いてテクスチャ情報が必ず生成されなくてもよい。
一実施形態に係る標準空間に対応する外観情報は、基準となる標準空間に場面が変形されたときの外観情報を含むことができる。例えば、標準空間に対応する外観情報は、視点や照明が関係のない物質固有の外観情報を含んでもよい。一実施形態に係る標準空間におけるフィーチャー情報は、基準となる標準空間に場面が変形されたときのフィーチャー情報を含んでもよい。一実施形態に係る標準空間における色情報は、基準となる標準空間に場面が変形されたときの色情報を含んでもよい。一実施形態に係る標準空間におけるテクスチャ情報は、基準となる標準空間に場面が変形されたときのテクスチャ情報を含んでもよい。
一実施形態に係るプロセッサ810は、入力イメージ(1)110を第2ニューラルネットワーク150に印加して幾何情報151を生成することができる。一実施形態に係るプロセッサ810は、第2ニューラルネットワーク150を用いて入力イメージ(1)110から標準空間における複数のグリッドそれぞれに対応する幾何情報151を生成する。
一実施形態に係る第2ニューラルネットワーク150は、制限されていない例として、幾何情報を生成するためのニューラルネットワークを含んでもよい。一実施形態に係る第2ニューラルネットワーク150は、複数の畳込みレイヤ及び/又は複数のプーリングレイヤを含むことができる。例えば、第2ニューラルネットワーク150は、U-net(Convolutional Networks for Biomedical Image Segmentation)を含んでもよい。前述した第2ニューラルネットワーク150は例示に過ぎず、本開示がこれに制限されることはない。
一実施形態に係る幾何情報151は、距離、形状、大きさ及び/又は相対的な位置に関する空間の特性情報を含むことができる。一実施形態に係る幾何情報151は、スケール情報、オフセット情報、及び深度情報のうち少なくとも1つを含んでもよい。
一実施形態に係るスケール情報は、基準となる標準空間に入力イメージ(又は、場面)を変形させるために場面の大きさを調整するための情報を含むことができる。例えば、標準空間における物体Aと場面における同じ物体Aは、視点に応じてその大きさが異なってもよい。従って、場面に存在する物体の大きさを標準空間に存在する物体の大きさに変換するためには、入力イメージの大きさを調整することが有利である。従って、プロセッサ810は、スケール情報を用いて標準空間に場面を変換させることができる。
一実施形態に係るオフセット情報は、基準となる標準空間に場面を変形させるために場面における一位置(例えば、ピクセルの位置、グリッドで一点の位置)を移動させるための情報を含むことができる。例えば、標準空間と場面において同じ物体であっても、視点に応じて座標系での位置が異なる。従って、場面に存在する物体を標準空間に存在するものに変換するためには、物体の位置を調整することが有利である。プロセッサ810は、オフセット情報に基づいて場面の一位置(又は、座標)を標準空間に移動させてもよい。
一実施形態に係る深度情報は、2次元イメージから3次元空間情報を取得するために、2次元イメージの特定ピクセルの深さに関する情報を含むことができる。例えば、深度情報は、x、y座標における深度値に表現されてもよい。異なる例として、深度情報は、2次元の正規グリッド上に示されているオブジェクトのポイントクラウド(point cloud)を定義する情報を含んでもよい。
一実施形態に係る標準空間に対応する幾何情報151は、基準となる標準空間に場面が変形されたときの幾何情報を含む。標準空間に対応する幾何情報は、幾何学的変化(geometric change)を含んでもよい。一実施形態に係る標準空間に対応する幾何情報は、基準となる標準空間に場面が変形されたときのスケール変化量を含んでもよい。一実施形態に係る標準空間におけるオフセット情報は、基準となる標準空間に場面が変形されたときのグリッド(又は、ピクセル)の位置変化量を含んでもよい。一実施形態に係る標準空間における深度情報は、基準となる標準空間に場面が変形されたときの深度情報を含んでもよい。
一実施形態に係るプロセッサ810は、外観情報131及び幾何情報151に基づいて標準化された映像情報140を生成することができる。一実施形態に係る標準化された映像情報140は、入力イメージを標準空間に整列させるために、幾何情報151に基づいて生成された映像情報を含む。従って、標準化された映像情報140は、入力イメージを基準となる標準空間に整列させた予測空間に関する情報を含むことができる。
一実施形態に係るプロセッサ810は、幾何情報に基づいて複数の正規グリッドをそれぞれ変形し得る。
一実施形態に係るプロセッサ810は、標準化された映像情報を生成する。一実施形態に係るプロセッサ810は、スケール情報に基づいて第1スタンダード空間における複数の正規グリッドの大きさを変形し、これにより第2スタンダード空間を生成し得る。一実施形態に係るプロセッサ810は、スケール情報に基づいて標準空間における複数の正規グリッドそれぞれに対応する座標を変形することができる。例えば、標準空間におけるグリッドの一点座標がx、y、zであってもよい。そして、スケール情報はs、s、sであってもよい。例えば、プロセッサ810は、スケール情報を座標に乗算してもよい。従って、変形された座標は、sx、sy、szになる。
一実施形態に係るプロセッサ810は、オフセット情報及び深度情報のうち少なくとも1つに基づいて変形された座標(例えば、sx、sy、sz)を移動させることができる。
一実施形態に係るプロセッサ810は、オフセット情報を用いて変形された座標を移動させ得る。例えば、プロセッサ810は、オフセット情報Δx、Δy、Δzを用いて変形された座標にオフセットを加えてもよい。一例として、移動した座標はsx+Δx、sy+Δy、sz+Δzであってもよい。
一実施形態に係るプロセッサ810は、深度情報を用いて変形された座標を移動させることができる。例えば、深度情報は、空間座標系でz軸に対応してもよい。例えば、特定の正規グリッドに対応する深度情報がdである場合、深度情報に基づいて変形された座標はsx、sy、sdであってもよい。
一実施形態に係るプロセッサ810は、オフセット情報及び深度情報に基づいて変形された座標を移動させることができる。例えば、深度情報はdであり、オフセット情報はΔx、Δyであってもよい。一例として、変形された座標は、sx+Δx、sy+Δy、sdであってもよい。
一実施形態に係るプロセッサ810は、変形された複数の正規グリッドに外観情報131を適用することで、標準化された映像情報140を生成し得る。
一実施形態に係るプロセッサ810は、標準化された映像情報に基づいて出力イメージを生成することができる。一実施形態に係るプロセッサ810は、第3ニューラルネットワーク170に標準化された映像情報140を印加することによって、出力イメージを生成し得る。一実施形態に係る第3ニューラルネットワーク170は、出力イメージを生成するように学習されたニューラルネットワークを含んでもよい。一実施形態に係る第3ニューラルネットワーク170は、イメージを再構成するように学習されたニューラルネットワークを含んでもよい。例えば、第3ニューラルネットワークは、GAN(Generative Adversarial Network)を含んでもよい。
他の一実施形態に係るプロセッサ810は、映像情報を2次元イメージに変換してもよい。一実施形態に係るプロセッサ810は、映像情報を2次元に投射(projection)することで、2次元イメージを生成することができる。一実施形態に係る映像情報は3次元空間情報を含むため、プロセッサは、2次元で映像情報を投射し得る。一実施形態に係るプロセッサ810は、2次元イメージを第3ニューラルネットワーク170に印加してもよい。プロセッサ810は、2次元イメージを第3ニューラルネットワーク170に印加することで、出力イメージ180を生成することができる。
一実施形態に係るプロセッサ810は視点情報を受信することができる。一実施形態に係る視点情報は、標準空間における視点と入力イメージ(又は、場面)視点との差に基づいて決定された情報を含む。例えば、入力イメージの視点は、標準空間における視点からx軸方向に30度回転した視点を含んでもよい。プロセッサ810は、視点情報に基づいて入力イメージを変形された視点に変形した出力イメージ180を生成してもよい。一実施形態に係るプロセッサ810は、入力イメージ(2)160(又は、第3入力イメージ)を第4ニューラルネットワーク190に印加することで、視点情報を生成することができる。
一実施形態に係るプロセッサ810は、視点情報に対応する出力イメージ180を生成することができる。一例として、視点情報及び標準化された映像情報140は、第4ニューラルネットワーク190を実現して生成されてもよい。一実施形態に係るプロセッサ810は、第4ニューラルネットワーク190を実現して生成した視点情報及び標準化された映像情報140を第3ニューラルネットワーク170に印加することで、出力イメージ180を生成することができる。一実施形態に係る出力イメージ180は、入力イメージ(1)110を入力イメージ(2)160の視点情報に変換したイメージを含む。例えば、入力イメージ(1)110の視点と入力イメージ(2)160の視点は、x軸方向に30度の差が生じ得る。一例として、プロセッサは、入力イメージ(1)110をx軸方向に30度回転した視点から見たときの出力イメージ180を生成してもよい。
一実施形態に係る視点が変更された場合、入力イメージに含まれていない他の情報が有利であり得る。例えば、視点が変更される場合、場面が変わることから背景又は場面に存在する物体が変わり得る。したがって、プロセッサ810は、第3ニューラルネットワーク170を介して視点変更により入力イメージに含まれていない映像情報を生成することで、出力イメージから空いている領域が存在しないようにすることができる。
制限されていない例として、第1入力イメージ110及び第2入力イメージ160は他のイメージであってもよい。第1入力イメージ110と第2入力イメージ160が異なる場合、第1入力イメージ110の幾何情報を第2入力イメージ160の幾何情報に変形するための場合を含んでもよい。又は、第1入力イメージ110の外観情報を第2入力イメージ160の外観情報に変形するための場合を含んでもよい。第1入力イメージ110の外観情報及び/又は幾何情報を第2入力イメージ160に基づいて変形する例示については、図6を参照して具体的に後述される。
図2は、1つ以上の実施形態に係る標準空間を説明するための図である。
図2において、立面体200、立面体の5個の面が広げられた図面201、及び複数の面210、211、230、231、250、251、270、271、290、291が図示されている。
一実施形態に係る標準空間は、変形可能な場面を単一視点の空間に整列させるための空間を含む。一実施形態に係る標準空間における変数は、全ての環境条件及び/又は変形において変わらないものと考慮される。
一実施形態に係る標準空間は、複数の正規グリッドを含むことができる。例えば、複数のグリッドはそれぞれ1つのピクセルに対応する。一実施形態に係る正規グリッドは、形状及び/又は大きさが同じグリッドを含んでもよい。
一実施形態に係る立面体は、透視図に基づいて生成されたものある。一実施形態に係る透視図は、遠いほど小さくなる地平線上の消失点を用いて遠近法を表現するビューを含んでもよい。一実施形態に係る立面体は、1点透視図に基づいて5個の面を含む形態に表現された空間を含んでもよい。一実施形態に係る1点透視図は、目に見えるような遠近感を表現する方式に基づいて、水平線に消失点が1つのみ含まれている投影図を含んでもよい。
一実施形態に係る立面体200は、正面に向かう方向を基準にして立面体200の正面にある面は第1面210、立面体200の左側にある面は第2面230、立面体200の右側にある面は第3面250、立面体200の上部にある面は第4面270、及び立面体200の下部にある面は第5面290を含む。そして、それぞれの面は複数の正規グリッドを含んでもよい。
一実施形態に係る立面体200の各面を広げると5個の面が展開される。立面体の5個の面が広げられた図面201において、第1面211、第2面231、第3面251、第4面271及び第5面291が図示されている。図面201における各面は、立面体200のそれぞれの面にそれぞれ対応する。図面201における各面は、複数の正規グリッドを含んでもよい。そして、複数の正規グリッドは、それぞれ1つのピクセルに対応する。異なる例として、正規グリッドに複数のピクセルが存在してもよい。
一実施形態に係る場面は、背景及び複数のオブジェクト(例えば、家具、ヒト、自動車、木、建物、窓、家電など)を含んでもよい。例えば、場面は、室内の場面及び/又は室外の場面を含んでもよい。一実施形態に係る入力イメージは、場面を含んでもよい。一実施形態に係る場面は、立面体に表現されてもよい。一実施形態に係る場面は、複数のグリッドを含む1点透視図に表現されてもよい。従って、一実施形態に係る場面は、複数のグリッドを含む透視図に表現された空間に表現され得る。透視図に表現された空間は、5個の面に表現されてもよい。従って、入力イメージは5個の面に分割され、各面は複数のグリッドを含み得る。
一実施形態に係るプロセッサ810は、場面は立面体の形態の標準空間として定義されることで、場面を含んでいる入力イメージを様々な形態に変形することができる。
図3は、1つ以上の実施形態に係る正規グリッドを変形する方法を説明するための図である。
図3において、入力イメージの第1面300、正規グリッド220、幾何情報320,330,340,350、標準化された映像情報301、変形された第1面390、オフセット情報に基づいて変形した場合の座標360、深度情報に基づいて変形した場合の座標370、オフセット情報及び深度情報に基づいて変形した場合の座標380が図示されている。
一実施形態に係るプロセッサ810は、標準化された映像情報301を生成することができる。一実施形態に係るプロセッサ810は、スケール情報320に基づいて標準空間における複数の正規グリッドの大きさを変形してもよい。一実施形態に係るプロセッサ810は、スケール情報320に基づいて標準空間における複数の正規グリッドそれぞれに対応する座標を変形することができる。例えば、第1面300における正規グリッド220の一点座標がx、y、zであってもよい。そして、スケール情報320はs、s、sであってもよい。一例として、プロセッサ810は、スケール情報320を正規グリッド220の一点座標x、y、zに乗算することができる。従って、変形された座標はsx、sy、szであってもよい。
一実施形態に係るプロセッサ810は、オフセット情報及び深度情報のうち少なくとも1つに基づいて変形された座標(例えば、sx、sy、sz)を移動させることができる。
一実施形態に係るプロセッサ810は、オフセット情報330に基づいて変形された座標を移動させることができる。例えば、プロセッサ810は、オフセット情報330(Δx、Δy、Δz)に基づいて変形された座標にオフセットを加えてもよい。一例において、オフセット情報に基づいて変形した場合の座標360は、sx+Δx,sy+Δy,sz+Δzであってもよい。
一実施形態に係るプロセッサ810は、深度情報340を用いて変形された座標を移動させることができる。例えば、深度情報340は、空間座標系でz軸に対応してもよい。例えば、特定正規グリッド220に対応する深度情報がdである場合、深度情報に基づいて変形した場合の座標370はsx、sy、sdであってもよい。
一実施形態に係るプロセッサ810は、オフセット情報及び深度情報350に基づいて変形された座標を移動させることができる。例えば、深度情報はdであり、オフセット情報はΔx、Δyであってもよい。この場合、オフセット情報及び深度情報に基づいて変形した場合の座標380は、sx+Δx、sy+Δy、sdであってもよい。
図4は、1つ以上の実施形態に係るニューラルネットワークの学習方法を説明するための図である。
図4において、入力イメージ(1)410、標準空間430、標準空間変換モジュール又は装置450、第3ニューラルネットワーク470、出力イメージ490、入力イメージ(2)420、第4ニューラルネットワーク440、及び損失関数480が図示されている。
一実施形態に係るニューラルネットワークは、第1ニューラルネットワーク、第2ニューラルネットワーク及び第3ニューラルネットワーク170のうち少なくとも1つを含んでもよい。一実施形態に係るニューラルネットワークは、推論過程で第1ニューラルネットワーク、第2ニューラルネットワーク、及び第3ニューラルネットワーク170を含んでもよい。他の一実施形態に係るニューラルネットワークは、学習過程で第1ニューラルネットワーク、第2ニューラルネットワーク、第3ニューラルネットワーク、及び第4ニューラルネットワーク440を含んでもよい。従って、学習過程では、第4ニューラルネットワーク440も共に学習され得る。
一実施形態に係るニューラルネットワークは、入力イメージ(1)410を入力イメージ(2)420の視点情報に基づいて変形されたイメージを生成するよう学習されたニューラルネットワークを含むことができる。一実施形態に係るプロセッサ810は、第4ニューラルネットワーク440を実現して入力イメージ(2)420の視点情報を生成してもよい。一実施形態に係る入力イメージ(1)410と入力イメージ(2)420は、それぞれ動画に含まれているフレームであってもよい。例えば、入力イメージ(1)410がフレーム1である場合、入力イメージ(2)420は、フレーム1の次のフレームインフレーム2であってもよい。
一実施形態に係るニューラルネットワークは、損失関数(Loss Function)を低減するように学習されたニューラルネットワークを含むことができる。一実施形態に係るニューラルネットワークは、損失関数を低減する方向にニューラルネットワークのパラメータをアップデートし得る。一実施形態に係る損失関数は、正解データとニューラルネットワークの出力データとの差に基づいて決定される。一実施形態に係るプロセッサは、損失関数を低減する方向にニューラルネットワークのパラメータをアップデートすることができる。
一実施形態に係る損失関数480は、出力イメージ490と入力イメージ(2)420との差に基づいて決定され得る。一実施形態に係る損失関数480は、入力イメージ(2)420から第4ニューラルネットワーク440を用いて生成された視点情報、及び入力イメージ(1)410に対応する映像情報を第3ニューラルネットワーク470に印加して生成された出力イメージ490と入力イメージ(2)420との差に基づいて決定される。制限されていない例として、入力イメージ(2)420は、正解データであってもよい。従って、プロセッサ810は、ニューラルネットワークをセルフ地図学習(Self-Supervised Learning)させることができる。
一実施形態に係るプロセッサ810は、ニューラルネットワーク学習過程において、入力イメージ(1)410を立面体に定義される標準空間に表現することができる。一実施形態に係るプロセッサ810は、標準空間変換モジュール450を実現し、標準空間を標準化された映像情報に変換してもよい。一実施形態に係るプロセッサ810は、標準化された映像情報及び入力イメージ(2)420に対応する視点情報を第3ニューラルネットワーク470に印加してもよい。一実施形態に係る標準空間変換モジュール又は装置450は、幾何情報に基づいて複数の正規グリッドを変形するためのモジュールを含んでもよい。一実施形態に係るプロセッサ810は、第3ニューラルネットワーク470を実現して出力イメージ490を生成する。一実施形態に係るプロセッサ810は、出力イメージ490と入力イメージ(2)420との差に基づいて損失関数480を算出することができる。プロセッサ810は、損失関数480に基づいてニューラルネットワークのパラメータを損失関数が減少する方向にアップデートすることができる。
一実施形態に係るニューラルネットワーク(例えば、第1ニューラルネットワーク、第2ニューラルネットワーク、及び第3ニューラルネットワーク470)は、オフセット正規化損失関数及び深度正規化損失関数のうち少なくとも1つに基づいて学習され得る。一実施形態に係るオフセット正規化損失関数は、出力されるオフセット情報が過剰適合しないように、ニューラルネットワーク(例えば、第1ニューラルネットワーク、第2ニューラルネットワーク、第3ニューラルネットワーク470)を学習させるための損失関数を含んでもよい。一実施形態に係るオフセット正規化損失関数は、各軸のオフセット値の和であるΣ(Δx+Δy+Δz)が最小になるよう、ニューラルネットワーク(又は、第2ニューラルネットワーク)を学習させるための損失関数を含んでもよい。従って、プロセッサ810は、オフセット正規化損失関数を最小化させる方向にニューラルネットワーク(又は、第2ニューラルネットワーク)のパラメータをアップデートすることができる。そのため、プロセッサ810は、様々な視点から見た同じ場面又は歪んだ場面に対しても、標準化された映像情報を取得することができる。
一実施形態に係る深度正規化損失関数は、出力される深度情報が過剰適合されないようにするための損失関数を含むことができる。一実施形態に係る深度正規化損失関数は、出力される深度情報が過剰適合されないよう、ニューラルネットワーク(又は、第2ニューラルネットワーク)を学習させるための損失関数を含んでもよい。一実施形態に係る深度正規化損失関数は、Σ(d-1)が最小化されるように損失関数を学習させることができる。従って、プロセッサ810は、深度正規化損失関数を最小化させる方向にニューラルネットワーク(又は、第2ニューラルネットワーク)のパラメータをアップデートし得る。そのため、プロセッサ810は、様々な視点から見た同じ場面又は歪んだ場面に対しても、標準化された映像情報を取得することができる。一実施形態に係るΣ(d-1)において、1は基準となる深度情報を含んでもよい。従って、dが1に近づくほど、標準化された映像情報を生成する確率が増加し得る。
一実施形態に係るニューラルネットワークは、オフセット正規化レイヤ及び深度正規化レイヤのうち少なくとも1つを含んでもよい。一実施形態に係る第2ニューラルネットワークは、オフセット正規化レイヤ及び深度正規化レイヤのうち少なくとも1つを含んでもよい。一実施形態に係る正規化レイヤは、ニューラルネットワークの過剰適合の問題を解決してニューラルネットワークの学習性を高めるためのレイヤを含むことができる。
一実施形態に係るオフセット正規化レイヤは、第2ニューラルネットワークの出力データがオフセット情報である場合、出力されるオフセット情報が過剰適合されないように、ニューラルネットワークを学習させるためのレイヤを含むことができる。例えば、プロセッサ810は、オフセット正規化のために各軸のオフセット値の和であるΣ(Δx+Δy+Δz)を使用することができる。そのため、プロセッサは、第2ニューラルネットワークを介して一般的なオフセット値よりも極めて大きいか極めて小さいオフセット値を生成する確率を低減させ得る。
一実施形態による深度正規化レイヤは、第2ニューラルネットワークの出力データが深度情報である場合、出力される深度情報が過剰適合しないようにするためのレイヤを含むことができる。例えば、プロセッサは、Σ(d-1)を用いて深度情報を正規化させることができる。これにより、プロセッサは、第2ニューラルネットワークを通じて一般的な深度値よりも極めて大きいか、極めて小さい深度値を生成する確率を減少させ得る。
図5は、1つ以上の実施形態に係る視点情報が変換された映像処理方法を説明するための図である。
図5を参照すれば入力イメージ510、標準空間530、標準空間変換モジュール又は装置550、第3ニューラルネットワーク570、視点が変形された出力イメージ590、視点情報520、第4ニューラルネットワーク540及び視点変形560が図示されている。
一実施形態に係る入力イメージは、所望する視点のイメージに変換することが好ましい。例えば、ユーザが着用しているウェアラブル装置を介して表示される画面が変更された場合、ユーザが見ている方向に変更された画面が整列されることが好ましい。従って、プロセッサ810は、ニューラルネットワークを実現して変更された画面を所望する視点(例えば、ユーザが現在見ている方向の視点)のイメージに変換することができる。
一実施形態に係るプロセッサ810は、入力イメージ510を標準空間530に表現することができる。そして、プロセッサ810は、標準空間変換モジュール又は装置550を用いて標準化された映像情報を生成することができる。
一実施形態に係るプロセッサ810は、入力イメージ510を第4ニューラルネットワーク540に印加する。プロセッサ810は、第4ニューラルネットワーク540を用いて入力イメージ510の視点情報を生成することができる。
一実施形態に係るプロセッサ810は、視点情報520を受信することができる。例えば、視点情報520は、変更しようとするターゲット視点情報を含んでもよい。一実施形態に係るプロセッサ810は、入力イメージ510の視点情報を受信した視点情報520に基づいて視点を変形560する。
一実施形態に係るプロセッサ810は、変形された視点情報及び標準化された映像情報を第3ニューラルネットワーク570に印加することで、視点の変形された出力イメージ590を生成することができる。一実施形態に係る視点が変形された出力イメージ590は、視点情報520に基づいて視点が変形された出力イメージを含んでもよい。
図6は、1つ以上の実施形態に係る外観情報又は幾何情報の変換された映像処理方法を説明するための図である。
図6を参照すれば第1入力イメージ610、第2入力イメージ620、外観情報(1)611、幾何情報(1)612、外観情報(2)621、幾何情報(2)622、標準空間変換モジュール又は装置650、及び幾何情報又は外観情報が変形された出力イメージ690が図示されている。
一実施形態に係る第1入力イメージ610の幾何情報は、第1入力イメージと異なるイメージである第2入力イメージ620の幾何情報に変更されてもよい。他の一実施形態に係る第1入力イメージ610の外観情報は、第2入力イメージ620の外観情報で変更されてもよい。一実施形態に係るプロセッサ810は、第1入力イメージの外観情報又は幾何情報が変更されたイメージを生成することができる。
一実施形態に係るプロセッサ810は、第1入力イメージ610を第1ニューラルネットワーク130に印加して外観情報(1)611を生成する。一実施形態に係るプロセッサ810は、第2入力イメージを第2ニューラルネットワーク150に印加して幾何情報(2)622を生成してもよい。一実施形態に係るプロセッサは、第2入力イメージ620の幾何情報(2)622に基づいて複数の正規グリッドを変形してもよい。一実施形態に係るプロセッサ810は、標準空間変換モジュール又は装置650に基づいて複数の正規グリッドを変形してもよい。そして、プロセッサ810は、変形された複数の正規グリッドに第1入力イメージ610の外観情報(1)611を適用することで、標準化された映像情報を生成してもよい。従って、標準化された映像情報は、第1入力イメージ610の外観情報(1)611及び第2入力イメージ620の幾何情報(2)622に基づいて生成された映像情報を含むことができる。プロセッサ810は、該当する映像情報を第3ニューラルネットワークに印加することで、第1入力イメージ610の幾何情報が変形された出力イメージ690を生成し得る。
一実施形態に係るプロセッサ810は、第1入力イメージ610を第2ニューラルネットワーク150に印加して幾何情報(1)612を生成することができる。一実施形態に係るプロセッサ810は、第2入力イメージ620を第1ニューラルネットワーク130に印加して外観情報(2)621を生成してもよい。一実施形態に係るプロセッサ810は、第1入力イメージ610の幾何情報(1)612に基づいて複数の正規グリッドを変形してもよい。一実施形態に係るプロセッサ810は、標準空間変換モジュール650を用いて複数の正規グリッドを変形してもよい。そして、プロセッサ810は、変形された複数の正規グリッドに第2入力イメージ620の外観情報(2)621を適用することによって、標準化された映像情報を生成してもよい。従って、標準化された映像情報は、第1入力イメージ610の幾何情報(1)612及び第2入力イメージ620の外観情報(2)621に基づいて生成された映像情報を含むことができる。プロセッサ810は、該当する映像情報を第3ニューラルネットワークに印加することで、第1入力イメージ610の外観情報が変形された出力イメージ690を生成し得る。
図7は、1つ以上の実施形態に係るイメージを生成するための方法を説明するためのフローチャートである。
図7の動作は、示されたような順序及び方式で実行され得るが、説明された例示的な例の思想及び範囲を離脱することなく、一部動作の順序が変更されたり一部動作が省略されてもよい。図7に示された多くの動作は、並列又は同時に実行されてもよい。図7に示す1つ以上のブロック及びブロックの組み合せは、特定の機能を行う特殊目的のハードウェアに基づいたコンピュータ又は特殊目的のハードウェア及びコンピュータ命令の組み合わせによって実現され得る。以下の図7の説明に加えて、図1~図6に示す説明は図7に適用可能であり、参考として、これに含まれる。従って、ここでは上記の説明を繰り返さない。
一実施形態に係る電子装置800(例えば、図8に示された電子装置800)は、第1ニューラルネットワークを実現して第1入力イメージから複数の正規グリッドを含む立面体に定義される標準空間に対応する外観情報を生成する(S710)。
一実施形態に係る外観情報は、制限されていない例として、フィーチャー情報、色情報及びテクスチャ情報のうち少なくとも1つを含んでもよい。
一実施形態に係る電子装置800は、第2ニューラルネットワークを実現して第2入力イメージから前記標準空間に対応する幾何情報を生成する(S720)。
一実施形態に係る幾何情報は、オフセット情報及び深度情報のうち少なくとも1つ及びスケール情報を含んでもよい。
一実施形態に係る電子装置800は、幾何情報に基づいて複数の正規グリッドを変形する(S730)。
一実施形態に係る電子装置800は、スケール情報に基づいて複数の正規グリッドそれぞれに対応する座標を変形してもよい。一実施形態に係る電子装置800は、オフセット情報及び深度情報のうち少なくとも1つに基づいて変形された座標を移動させ得る。
一実施形態に係る電子装置800は、変形された複数の正規グリッドに外観情報を適用することで、標準化された映像情報を生成する(S740)。
一実施形態に係る電子装置800は、標準化された映像情報に基づいて出力イメージを生成する(S750)。
一実施形態に係る電子装置800は、映像情報を2次元イメージに変換し、2次元イメージを第3ニューラルネットワークに印加してもよい。
一実施形態に係る電子装置800は、入力イメージの第1視点情報を生成し、第2視点情報に基づいて第1視点情報を変形してもよい。一実施形態に係る電子装置800は、映像情報及び変形された第1視点情報を第3ニューラルネットワークに印加して出力イメージを生成してもよい。
一実施形態に係る電子装置800は、第1入力イメージの幾何情報に基づいて変形された複数のグリッド、及び第2入力イメージの外観情報に基づいて標準化された映像情報を生成することができる。
一実施形態に係る電子装置800は、視点情報を受信して視点情報に対応する出力イメージを生成することができる。
一実施形態に係る電子装置800は、第3入力イメージを第4ニューラルネットワークに印加して視点情報を生成する。一実施形態に係る電子装置800は、視点情報及び第1入力イメージに対応する映像情報を第3ニューラルネットワークに印加し、出力イメージを生成してもよい。一実施形態に係る第3入力イメージは、第4ニューラルネットワークに印加される入力イメージとして、第1入力イメージと同じイメージを含んだり、第1入力イメージ及び/又は第2入力イメージと同一又は異なるイメージを含んでもよい。
図8は、1つ以上の実施形態に係る電子装置を説明するためのブロック図である。
図8を参照すると、一実施形態に係る電子装置800は、1つ以上のメモリ820、プロセッサ810、及び通信インターフェース830を含む。メモリ820、プロセッサ810、及び通信インターフェース830は、通信バス840を介して接続される。
メモリ820は、上述したプロセッサ810の処理過程で生成される様々な情報を格納することができる。その他にも、メモリ820は、各種のデータとプログラムなどを格納してもよい。メモリ820は、揮発性メモリ又は不揮発性メモリを含んでもよい。メモリ820は、ハードディスクなどのような大容量の格納媒体を備えて各種のデータを格納し得る。
プロセッサ810は、目的とする動作(desired operations)を実行させるための物理的な構造を有する回路を有するハードウェアで具現された装置であってもよい。例えば、目的とする動作は、プログラムに含まれたコード(code)又は命令(instructions)を含んでもよい。例えば、ハードウェアで具現された分類装置は、マイクロプロセッサ(microprocessor)、中央処理装置(Central Processing Unit;CPU)、グラフィック処理装置(Graphic Processing Unit;GPU)、プロセッサコア(processor core)、マルチ-コアプロセッサ(multi-core processor)、マルチプロセッサ(multiprocessor)、ASIC(Application-Specific Integrated Circuit)、FPGA(Field Programmable Gate Array)、NPU(Neural Processing Unit)などを含んでもよい。
プロセッサ810はプログラムを実行し、電子装置を制御する。プロセッサ810によって実行されるプログラムコードは、メモリ820に格納されてもよい。
ニューラルネットワークは、入力データに対する応答で内部パラメータによって算出された値を出力する。ニューラルネットワークの少なくとも一部は、ソフトウェアで具現されたり、ニューラルプロセッサ(neural processor)を含むハードウェアで具現されたり、又は、ソフトウェア及びハードウェアの組み合せで実現されてもよい。ニューラルネットワークは、完全接続ネットワーク(fully connected network)、ディープコンボリューショナルネットワーク(deep convolutional network)及びリカレントニューラルネットワーク(recurrent neural network)などを含むディープニューラルネットワーク(deep neural network、DNN)に該当する。DNNは、複数のレイヤを含んでもよい。複数のレイヤは、入力層(input layer)、1つ以上の隠れ層(hidden layer)、及び出力層(output layer)を含んでもよい。ニューラルネットワークは、ディープラーニングに基づいて非線形関係にある入力データ及び出力データを互いにマッピングすることで、与えられた動作を行うようにトレーニングされてもよい。ディープラーニングは、ビッグデータセットから与えられた問題を解決するための機械学習方式である。ディープラーニングは、準備されたトレーニングデータを用いてニューラルネットワークを学習させ、エネルギーが最小化される地点を訪ねて行くニューラルネットワークの最適化過程である。
以上で説明された実施形態は、ハードウェア構成要素、ソフトウェア構成要素、又はハードウェア構成要素及びソフトウェア構成要素の組み合せで具現される。例えば、本実施形態で説明した装置及び構成要素は、例えば、プロセッサ、コントローラ、ALU(arithmetic logic unit)、デジタル信号プロセッサ(digital signal processor)、マイクロコンピュータ、FPA(field programmable array)、PLU(programmable logic unit)、マイクロプロセッサ、又は命令(instruction)を実行して応答する異なる装置のように、1つ以上の汎用コンピュータ又は特殊目的コンピュータを用いて具現される。処理装置は、オペレーティングシステム(OS)及びオペレーティングシステム上で実行される1つ以上のソフトウェアアプリケーションを実行する。また、処理装置は、ソフトウェアの実行に応答してデータをアクセス、格納、操作、処理、及び生成する。理解の便宜のために、処理装置は1つが使用されるものとして説明する場合もあるが、当技術分野で通常の知識を有する者は、処理装置が複数の処理要素(processing element)及び/又は複数類型の処理要素を含むことが把握する。例えば、処理装置は、複数のプロセッサ又は1つのプロセッサ及び1つのコントローラを含む。また、並列プロセッサ(parallel processor)のような、他の処理構成も可能である。
ソフトウェアは、コンピュータプログラム、コード、命令、又はそのうちの一つ以上の組合せを含み、希望の通りに動作するよう処理装置を構成したり、独立的又は結合的に処理装置を命令したりすることができる。ソフトウェア及び/又はデータは、処理装置によって解釈されたり処理装置に命令又はデータを提供したりするために、いずれかの類型の機械、構成要素、物理的装置、仮想装置、コンピュータ格納媒体又は装置、又は送信される信号波に永久的又は一時的に具体化することができる。ソフトウェアはネットワークに連結されたコンピュータシステム上に分散され、分散した方法で格納されたり実行されたりし得る。ソフトウェア及びデータは一つ以上のコンピュータで読出し可能な記録媒体に格納され得る。
本実施形態による方法は、様々なコンピュータ手段を介して実施されるプログラム命令の形態で具現され、コンピュータ読み取り可能な記録媒体に記録される。記録媒体は、プログラム命令、データファイル、データ構造などを単独又は組み合せて含む。記録媒体及びプログラム命令は、本発明の目的のために特別に設計して構成されたものでもよく、コンピュータソフトウェア分野の技術を有する当業者にとって公知のものであり使用可能なものであってもよい。コンピュータ読み取り可能な記録媒体の例として、ハードディスク、フロッピー(登録商標)ディスク及び磁気テープのような磁気媒体、CD-ROM、DVDのような光記録媒体、フロプティカルディスクのような磁気-光媒体、及びROM、RAM、フラッシュメモリなどのようなプログラム命令を保存して実行するように特別に構成されたハードウェア装置を含む。プログラム命令の例としては、コンパイラによって生成されるような機械語コードだけでなく、インタプリタなどを用いてコンピュータによって実行される高級言語コードを含む。
上記で説明したハードウェア装置は、本発明に示す動作を実行するために1つ以上のソフトウェアモジュールとして作動するように構成してもよく、その逆も同様である。
上述したように実施形態をたとえ限定された図面によって説明したが、当技術分野で通常の知識を有する者であれば、上記の説明に基づいて様々な技術的な修正及び変形を適用することができる。例えば、説明された技術が説明された方法と異なる順に実行され、及び/又は説明されたシステム、構造、装置、回路などの構成要素が説明された方法とは異なる形態に結合又は組み合わせられてもよく、他の構成要素又は均等物によって置き換え又は置換されたとしても適切な結果を達成することができる。
したがって、他の具現、他の実施形態および特許請求の範囲と均等なものも後述する特許請求範囲の範囲に属する。
110 入力イメージ(1)
130 第1ニューラルネットワーク
131 外観情報
140 標準化された映像情報
150 第2ニューラルネットワーク
151 幾何情報
160 入力イメージ(2)
170 第3ニューラルネットワーク
180 出力イメージ
190 第4ニューラルネットワーク
810 プロセッサ

Claims (23)

  1. ニューラルネットワークを実現する具現されたプロセッサの映像処理方法であって、
    第1ニューラルネットワークを実現して第1入力イメージから複数の正規グリッドを含むスタンダード空間に対応する外観情報を生成するステップと、
    第2ニューラルネットワークを用いて、第2入力イメージから前記スタンダード空間に対応する幾何情報を生成するステップと、
    前記生成された幾何情報に基づいて前記複数の正規グリッドを変形するステップと、
    前記変形された複数の正規グリッドに前記外観情報を適用することによって、標準化された映像情報を生成するステップと、
    前記標準化された映像情報に基づいて出力イメージを生成するステップと、を含む、
    映像処理方法。
  2. 前記スタンダード空間は、前記複数の正規グリッドを含むキューブによって定義される標準空間を含む、請求項1に記載の映像処理方法。
  3. 前記外観情報は、フィーチャー情報、色情報、及びテクスチャ情報のうち少なくとも1つを含む、請求項1に記載の映像処理方法。
  4. 前記幾何情報は、オフセット情報、深度情報、及びスケール情報のうち少なくとも1つを含む、請求項1に記載の映像処理方法。
  5. 前記複数の正規グリッドを変形するステップは、
    スケール情報に基づいて前記複数の正規グリッドそれぞれに対応する座標を変形するステップと、
    オフセット情報及び深度情報のうち少なくとも1つに基づいて前記変形された座標を移動させるステップと、を含む、
    請求項1に記載の映像処理方法。
  6. 前記標準空間は、1点透視図に基づいて5個の面を含む立面体の形態に表現された空間を含む、請求項2に記載の映像処理方法。
  7. 前記第1入力イメージと前記第2入力イメージとは類似する、請求項1に記載の映像処理方法。
  8. 前記第1入力イメージと前記第2入力イメージとは異なる、請求項1に記載の映像処理方法。
  9. 視点情報を受信するステップをさらに含み、
    前記出力イメージを生成するステップは、前記受信された視点情報に対応する出力イメージを生成するステップを含む、
    請求項1に記載の映像処理方法。
  10. 前記視点情報に対応する出力イメージを生成するステップは、
    第3入力イメージを第4ニューラルネットワークに印加して前記視点情報を生成するステップと、
    前記生成された視点情報及び第1入力イメージに対応する映像情報を第3ニューラルネットワークに印加し、出力イメージを生成するステップと、を含む、
    請求項9に記載の映像処理方法。
  11. 前記ニューラルネットワークは、前記第1ニューラルネットワーク、前記第2ニューラルネットワーク、及び前記出力イメージを生成するように学習された第3ニューラルネットワークのうち少なくとも1つを含む、請求項1に記載の映像処理方法。
  12. 前記ニューラルネットワークは、第1入力イメージを第3入力イメージの視点情報に基づいて変形されたイメージを生成するように学習される、請求項1に記載の映像処理方法。
  13. 前記ニューラルネットワークは、損失関数を低減するように学習されたニューラルネットワークを含み、
    前記損失関数は、第3入力イメージから第4ニューラルネットワークを実現して生成された視点情報及び第1入力イメージに対応する映像情報を前記第3ニューラルネットワークに印加して生成された出力イメージと前記第3入力イメージとの差に基づいて決定される、
    請求項11に記載の映像処理方法。
  14. 前記第2ニューラルネットワークは、オフセット正規化損失関数及び深度正規化損失関数のうち少なくとも1つに基づいて学習されるように構成される、請求項1に記載の映像処理方法。
  15. 前記映像情報を第3ニューラルネットワークに印加するステップは、
    前記映像情報を2次元イメージに変換するステップと、
    前記2次元イメージを第3ニューラルネットワークに印加するステップと、を含む、
    請求項1に記載の映像処理方法。
  16. 前記出力イメージを生成するステップは、
    第3入力イメージの第1視点情報を生成するステップと、
    第2視点情報に基づいて前記第3入力イメージの前記第1視点情報を変形するステップと、
    前記映像情報及び前記変形された第1視点情報を第3ニューラルネットワークに印加して出力イメージを生成するステップと、を含む、
    請求項1に記載の映像処理方法。
  17. 前記出力イメージは、第2入力イメージの幾何情報に基づいて第1入力イメージの幾何情報を変形させたイメージ、又は前記第2入力イメージの外観情報に基づいて前記第1入力イメージの外観情報を変形させたイメージを含む、請求項1に記載の映像処理方法。
  18. 前記標準化された映像情報を生成するステップは、第1入力イメージの幾何情報に基づいて変形された複数のグリッド及び第2入力イメージの外観情報に基づいて標準化された映像情報を生成するステップを含む、請求項1に記載の映像処理方法。
  19. ハードウェアと結合して請求項1に記載の方法を実行させるためにコンピュータで読み出し可能な記録媒体に格納されたコンピュータプログラム。
  20. 1つ以上のプロセッサを含む電子装置であって、
    前記1つ以上のプロセッサは、
    第1ニューラルネットワークを実現して第1入力イメージから複数の正規グリッドを含む立面体として定義されるスタンダード空間に対応する外観情報を生成し、
    第2ニューラルネットワークを実現して第2入力イメージから前記スタンダード空間に対応する幾何情報を生成し、
    前記生成された幾何情報に基づいて前記複数の正規グリッドを変形し、
    前記変形された複数の正規グリッドに前記外観情報を適用することで標準化された映像情報を生成し、
    前記標準化された映像情報に基づいて出力イメージを生成する、
    ように構成される、
    電子装置。
  21. 1つ以上のプロセッサを含む電子装置であって、
    前記1つ以上のプロセッサは、
    入力イメージを第1ニューラルネットワークに印加して第1スタンダード空間で複数のグリッドに対応する外観情報を生成し、
    前記入力イメージを第2ニューラルネットワークに印加して前記複数のグリッドそれぞれに対応する幾何情報を生成し、
    前記生成された幾何情報に基づいて、前記複数のグリッドそれぞれに対応する座標を変形して第2スタンダード空間を生成し、
    前記第2スタンダード空間に外観情報を適用して標準化された映像情報を生成し、
    前記標準化された映像情報を2次元(2D)イメージに変換し、前記2Dイメージを第3ニューラルネットワークに印加し、
    前記2Dイメージを前記第3ニューラルネットワークに印加して出力イメージ生成する、
    ように構成される、
    電子装置。
  22. 第3ニューラルネットワークは、出力イメージを生成するように訓練される、請求項21に記載の電子装置。
  23. 前記スタンダード空間は、変更可能な場面を単一視点の空間に整列するための空間を含む、請求項21に記載の電子装置。
JP2022161314A 2021-12-28 2022-10-06 映像処理方法及び装置 Pending JP2023098597A (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
KR1020210189898A KR20230100205A (ko) 2021-12-28 2021-12-28 영상 처리 방법 및 장치
KR10-2021-0189898 2021-12-28

Publications (1)

Publication Number Publication Date
JP2023098597A true JP2023098597A (ja) 2023-07-10

Family

ID=83457429

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2022161314A Pending JP2023098597A (ja) 2021-12-28 2022-10-06 映像処理方法及び装置

Country Status (5)

Country Link
US (1) US20230206562A1 (ja)
EP (1) EP4207089A1 (ja)
JP (1) JP2023098597A (ja)
KR (1) KR20230100205A (ja)
CN (1) CN116362966A (ja)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102610505B1 (ko) * 2023-08-08 2023-12-06 주식회사 에이오팜 인공지능 기반의 농산물 외부 결함 측정 장치, 방법및 프로그램

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10706699B1 (en) * 2017-05-18 2020-07-07 Alarm.Com Incorporated Projector assisted monitoring system
US10909746B1 (en) * 2018-06-22 2021-02-02 Imbellus, Inc. Systems and methods for asset generation in immersive cognitive assessments
US10692277B1 (en) * 2019-03-21 2020-06-23 Adobe Inc. Dynamically estimating lighting parameters for positions within augmented-reality scenes using a neural network
US11270415B2 (en) * 2019-08-22 2022-03-08 Adobe Inc. Image inpainting with geometric and photometric transformations
CN110531860B (zh) * 2019-09-02 2020-07-24 腾讯科技(深圳)有限公司 一种基于人工智能的动画形象驱动方法和装置
CN113469180A (zh) * 2020-03-31 2021-10-01 阿里巴巴集团控股有限公司 医学图像的处理方法和系统、数据处理方法
US20210350620A1 (en) * 2020-05-07 2021-11-11 Imperial College Innovations Limited Generative geometric neural networks for 3d shape modelling

Also Published As

Publication number Publication date
CN116362966A (zh) 2023-06-30
US20230206562A1 (en) 2023-06-29
KR20230100205A (ko) 2023-07-05
EP4207089A1 (en) 2023-07-05

Similar Documents

Publication Publication Date Title
US11189094B2 (en) 3D object reconstruction using photometric mesh representation
CN109003325B (zh) 一种三维重建的方法、介质、装置和计算设备
JP7448566B2 (ja) クロスリアリティシステムにおけるスケーラブル3次元オブジェクト認識
WO2011075082A1 (en) Method and system for single view image 3 d face synthesis
CN112784621B (zh) 图像显示方法及设备
KR102294806B1 (ko) 온 디바이스 얼굴 라이트필드 합성 방법 및 장치
TW201907270A (zh) 針對虛擬實境漫步式的掃視重新定向
US20230351724A1 (en) Systems and Methods for Object Detection Including Pose and Size Estimation
US10885708B2 (en) Automated costume augmentation using shape estimation
CN116097316A (zh) 用于非模态中心预测的对象识别神经网络
US20230140170A1 (en) System and method for depth and scene reconstruction for augmented reality or extended reality devices
JP2023098597A (ja) 映像処理方法及び装置
CN110008873B (zh) 面部表情捕捉方法、系统及设备
Freer et al. Novel-view synthesis of human tourist photos
JP2022136963A (ja) 再構成されたイメージを生成するイメージ処理方法及び装置
CN112862981B (zh) 用于呈现虚拟表示的方法和装置、计算机设备和存储介质
Zhang et al. A portable multiscopic camera for novel view and time synthesis in dynamic scenes
JP2023527438A (ja) リアルタイム深度マップを用いたジオメトリ認識拡張現実効果
Jian et al. Realistic face animation generation from videos
Liu et al. See360: Novel panoramic view interpolation
US11202053B2 (en) Stereo-aware panorama conversion for immersive media
US20240169673A1 (en) Mesh transformation with efficient depth reconstruction and filtering in passthrough augmented reality (ar) systems
US20240096041A1 (en) Avatar generation based on driving views
US20230245364A1 (en) Method for Processing Video, Electronic Device, and Storage Medium
Siddiqui et al. Surface reconstruction from multiple views using rational B-splines and knot insertion