JP2022136963A - 再構成されたイメージを生成するイメージ処理方法及び装置 - Google Patents
再構成されたイメージを生成するイメージ処理方法及び装置 Download PDFInfo
- Publication number
- JP2022136963A JP2022136963A JP2021204115A JP2021204115A JP2022136963A JP 2022136963 A JP2022136963 A JP 2022136963A JP 2021204115 A JP2021204115 A JP 2021204115A JP 2021204115 A JP2021204115 A JP 2021204115A JP 2022136963 A JP2022136963 A JP 2022136963A
- Authority
- JP
- Japan
- Prior art keywords
- data
- image data
- albedo
- value
- depth
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000003672 processing method Methods 0.000 title claims abstract description 21
- 238000000605 extraction Methods 0.000 claims abstract description 79
- 238000013528 artificial neural network Methods 0.000 claims abstract description 49
- 238000005286 illumination Methods 0.000 claims abstract description 45
- 238000012545 processing Methods 0.000 claims description 63
- 238000000034 method Methods 0.000 claims description 36
- 238000012549 training Methods 0.000 claims description 20
- 230000006870 function Effects 0.000 claims description 15
- 230000009466 transformation Effects 0.000 claims description 9
- 238000004590 computer program Methods 0.000 claims description 3
- 230000008569 process Effects 0.000 description 26
- 238000010586 diagram Methods 0.000 description 13
- 239000000463 material Substances 0.000 description 13
- 230000015654 memory Effects 0.000 description 12
- 230000003190 augmentative effect Effects 0.000 description 11
- 238000009877 rendering Methods 0.000 description 9
- 230000008921 facial expression Effects 0.000 description 8
- 230000000694 effects Effects 0.000 description 6
- 238000004891 communication Methods 0.000 description 5
- 230000008901 benefit Effects 0.000 description 3
- 238000013135 deep learning Methods 0.000 description 3
- 239000000284 extract Substances 0.000 description 3
- 230000014509 gene expression Effects 0.000 description 3
- 239000011159 matrix material Substances 0.000 description 3
- 230000004048 modification Effects 0.000 description 3
- 238000012986 modification Methods 0.000 description 3
- 230000009471 action Effects 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 239000011521 glass Substances 0.000 description 2
- 230000033001 locomotion Effects 0.000 description 2
- 238000013507 mapping Methods 0.000 description 2
- 230000001537 neural effect Effects 0.000 description 2
- 230000007935 neutral effect Effects 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 230000004044 response Effects 0.000 description 2
- 230000000007 visual effect Effects 0.000 description 2
- 238000003491 array Methods 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 230000015572 biosynthetic process Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 239000000470 constituent Substances 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 230000007613 environmental effect Effects 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 230000000306 recurrent effect Effects 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 238000003786 synthesis reaction Methods 0.000 description 1
- 230000001131 transforming effect Effects 0.000 description 1
- 238000013519 translation Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T15/00—3D [Three Dimensional] image rendering
- G06T15/005—General purpose rendering architectures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T19/00—Manipulating 3D models or images for computer graphics
- G06T19/20—Editing of 3D images, e.g. changing shapes or colours, aligning objects or positioning parts
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T15/00—3D [Three Dimensional] image rendering
- G06T15/50—Lighting effects
- G06T15/80—Shading
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T13/00—Animation
- G06T13/20—3D [Three Dimensional] animation
- G06T13/40—3D [Three Dimensional] animation of characters, e.g. humans, animals or virtual beings
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T15/00—3D [Three Dimensional] image rendering
- G06T15/50—Lighting effects
- G06T15/506—Illumination models
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T3/00—Geometric image transformations in the plane of the image
- G06T3/18—Image warping, e.g. rearranging pixels individually
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/50—Depth or shape recovery
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/70—Determining position or orientation of objects or cameras
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20081—Training; Learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20084—Artificial neural networks [ANN]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/30—Subject of image; Context of image processing
- G06T2207/30196—Human being; Person
- G06T2207/30201—Face
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2210/00—Indexing scheme for image generation or computer graphics
- G06T2210/44—Morphing
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2219/00—Indexing scheme for manipulating 3D models or images for computer graphics
- G06T2219/20—Indexing scheme for editing of 3D models
- G06T2219/2021—Shape modification
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Computer Graphics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- General Engineering & Computer Science (AREA)
- Software Systems (AREA)
- Life Sciences & Earth Sciences (AREA)
- Mathematical Physics (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Artificial Intelligence (AREA)
- Health & Medical Sciences (AREA)
- Architecture (AREA)
- Computer Hardware Design (AREA)
- Processing Or Creating Images (AREA)
- Image Generation (AREA)
- Image Analysis (AREA)
Abstract
【課題】再構成されたイメージを生成するイメージ処理方法及び装置を開示する。
【解決手段】イメージ処理方法は、ニューラルネットワーク基盤の抽出モデルを用いてオブジェクトが示された入力イメージデータから標準空間におけるアルベドデータ、及び標準空間における深度データを決定するステップと、アルベドデータと深度データそれぞれにターゲット形状変形値を適用して変形されたアルベドデータ及び変形された深度データを生成するステップと、変形された深度データ及びターゲット照明値に基づいてシェーディングを行ってシェーディング結果データを生成するステップと、シェーディング結果データと変形されたアルベドデータに基づいて中間イメージデータを生成するステップと、ターゲットポーズ値に基づいて、中間イメージデータ及び変形された深度データから再構成されたイメージデータを生成するステップとを含む。
【選択図】図3
【解決手段】イメージ処理方法は、ニューラルネットワーク基盤の抽出モデルを用いてオブジェクトが示された入力イメージデータから標準空間におけるアルベドデータ、及び標準空間における深度データを決定するステップと、アルベドデータと深度データそれぞれにターゲット形状変形値を適用して変形されたアルベドデータ及び変形された深度データを生成するステップと、変形された深度データ及びターゲット照明値に基づいてシェーディングを行ってシェーディング結果データを生成するステップと、シェーディング結果データと変形されたアルベドデータに基づいて中間イメージデータを生成するステップと、ターゲットポーズ値に基づいて、中間イメージデータ及び変形された深度データから再構成されたイメージデータを生成するステップとを含む。
【選択図】図3
Description
以下の実施形態は、再構成されたイメージを生成するイメージ処理技術に関する。
最近、仮想現実(virtual reality;VR)、拡張現実(augmented reality;AR)又は混合現実(mixed reality;MR)を実現可能な電子機器が開発され、これに対する関心が高まっている。このうち、拡張現実は、現実世界の環境上に仮想のオブジェクトや情報を結合して示すディスプレイ技術である。拡張現実は、様々な現実環境に応用可能であるという長所があり、ユビキタス(ubiquitous)環境やモノのインターネット(internet of things;IoT)環境に適切な次世代ディスプレイ技術として注目されている。拡張現実は、外部全景と仮想イメージの結合によってユーザに新しい経験を提供することができ、情報をより効率よく実感できるように伝達できる手段となる。拡張現実のためのコンテンツを実感できるように実現するためには、ユーザのポーズや照明環境などに応じて仮想のオブジェクトの特性を調整する必要がある。
本発明の目的は、再構成されたイメージを生成するイメージ処理技術を提供することにある。
一実施形態に係る再構成されたイメージを生成するイメージ処理方法は、ニューラルネットワーク基盤の抽出モデルを用いてオブジェクトが示された入力イメージデータから標準空間におけるアルベドデータ及び前記標準空間における深度データを決定するステップと、前記アルベドデータと前記深度データそれぞれにターゲット形状変形値を適用して変形されたアルベドデータ及び変形された深度データを生成するステップと、前記変形された深度データ及びターゲット照明値に基づいてシェーディングを行ってシェーディング結果データを生成するステップと、前記シェーディング結果データと前記変形されたアルベドデータに基づいて中間イメージデータを生成するステップと、ターゲットポーズ値に基づいて、前記中間イメージデータ及び前記変形された深度データから再構成されたイメージデータを生成するステップとを含む。
前記アルベドデータ及び前記深度データを決定するステップは、ニューラルネットワーク基盤のアルベド抽出モデルを用いて、前記入力イメージデータから前記標準空間におけるアルベドデータを決定するステップと、ニューラルネットワーク基盤の深度抽出モデルを用いて、前記入力イメージデータから前記標準空間における深度データを決定するステップとを含むことができる。
前記標準空間におけるアルベドデータは、前記オブジェクトが基準となる標準形態に変形された時のアルベドデータに対応し、前記標準空間における深度データは、前記オブジェクトが前記標準形態に変形された時の深度データに対応することができる。
前記変形されたアルベドデータ及び前記変形された深度データを生成するステップは、前記ターゲット形状変形値に基づいて前記アルベドデータ及び前記深度データそれぞれに対して後方ワーピング演算を行うステップを含むことができる。
前記シェーディング結果データを生成するステップは、前記変形された深度データから前記オブジェクトの表面ノーマル成分を抽出するステップと、前記抽出された表面ノーマル成分と前記ターゲット照明値に基づいてシェーディングを行って前記シェーディング結果データを生成するステップとを含むことができる。
前記再構成されたイメージデータを生成するステップは、前記中間イメージデータ及び前記変形された深度データそれぞれに示された前記オブジェクトのポーズを前記ターゲットポーズ値に基づいて変形し、前記オブジェクトのポーズが変形された中間イメージデータ及び前記オブジェクトのポーズが変形された深度データを組み合わせることで、前記再構成されたイメージデータを生成するステップを含むことができる。
前記ターゲット形状変形値、前記ターゲット照明値、及び前記ターゲットポーズ値は、前記ニューラルネットワーク基盤の第1抽出モデルでない他のニューラルネットワーク基盤の第2抽出モデルを用いて他の入力イメージデータから抽出された値であってもよい。
一実施形態に係る再構成されたイメージを生成するイメージ処理装置は、少なくとも1つのプロセッサを含み、前記少なくとも1つのプロセッサは、前記イメージ処理装置が、ニューラルネットワーク基盤の第1抽出モデルを用いて、オブジェクトが示された入力イメージデータから標準空間におけるアルベドデータ及び前記標準空間における深度データを決定する動作と、前記アルベドデータと前記深度データそれぞれにターゲット形状変形値を適用して変形されたアルベドデータ及び変形された深度データを生成する動作と、前記変形された深度データ及びターゲット照明値に基づいてシェーディングを行ってシェーディング結果データを生成する動作と、前記シェーディング結果データと前記変形されたアルベドデータに基づいて中間イメージデータを生成する動作と、ターゲットポーズ値に基づいて、前記中間イメージデータ及び前記変形された深度データから再構成されたイメージデータを生成する動作とを行うように制御する。
一実施形態に係る学習方法は、ニューラルネットワーク基盤の第1抽出モデルを用いて、第1学習イメージデータから標準空間におけるアルベドデータ及び前記標準空間における深度データを決定するステップと、前記第2学習イメージデータから形状変形値、照明値、及びポーズ値を抽出するステップと、前記アルベドデータと前記深度データそれぞれに前記形状変形値を適用して変形されたアルベドデータ及び変形された深度データを生成するステップと、前記変形された深度データ及び前記照明値に基づいてシェーディングを行ってシェーディング結果データを生成するステップと、前記シェーディング結果データと前記変形されたアルベドデータに基づいて中間イメージデータを生成するステップと、前記ポーズ値に基づいて、前記中間イメージデータ及び前記変形された深度データから再構成されたイメージデータを生成するステップと、前記再構成されたイメージデータと前記第2学習イメージデータに基づいて、前記第1抽出モデルのパラメータをアップデートするステップとを含む。
一実施形態に係る電子装置は、入力イメージデータに基づいて再構成されたイメージデータを生成するプロセッサと、前記再構成されたイメージデータを視覚化するディスプレイとを含み、前記プロセッサは、前記電子装置が、ニューラルネットワーク基盤の抽出モデルを用いてオブジェクトが示された入力イメージデータから標準空間におけるアルベドデータ及び前記標準空間における深度データを決定する動作と、前記アルベドデータと前記深度データそれぞれにターゲット形状変形値を適用して変形されたアルベドデータ及び変形された深度データを生成する動作と、前記変形された深度データ及びターゲット照明値に基づいてシェーディングを行ってシェーディング結果データを生成する動作と、前記シェーディング結果データと前記変形されたアルベドデータに基づいて中間イメージデータを生成する動作と、
ターゲットポーズ値に基づいて、前記中間イメージデータ及び前記変形された深度データから再構成されたイメージデータを生成する動作とを行うように制御することができる。
ターゲットポーズ値に基づいて、前記中間イメージデータ及び前記変形された深度データから再構成されたイメージデータを生成する動作とを行うように制御することができる。
一実施形態によると、様々な視点、ポーズ、又は照明環境でイメージデータのオブジェクトを効率よくレンダリングすることができる。
一実施形態によると、固定されたオブジェクトだけでなく、動きのある様々な種類のオブジェクトに対してもレンダリングを効率よく行うことができる。
本明細書で開示する特定の構造的又は機能的な説明は単に実施形態を説明するための目的として例示したものであり、実施形態は様々な異なる形態で実施され、本発明は本明細書で説明した実施形態に限定されるものではなく、本発明の範囲は、実施形態で説明した技術的な思想に含まれている変更、均等物、または代替物を含む。
第1又は第2などの用語を複数の構成要素を説明するために用いることがあるが、このような用語は1つの構成要素を他の構成要素から区別する目的としてのみ解釈されなければならない。例えば、第1構成要素は第2構成要素と命名することができ、同様に第2構成要素は第1構成要素にも命名することができる。
いずれかの構成要素が他の構成要素に「連結」されているか「接続」されていると言及されたときには、その他の構成要素に直接的に連結されているか又は接続されているが、中間に他の構成要素が存在し得るものと理解されなければならない。
単数の表現は、文脈上、明白に異なる意味をもたない限り複数の表現を含む。本明細書において、「含む」又は「有する」等の用語は明細書上に記載した特徴、数字、ステップ、動作、構成要素、部品又はこれらを組み合わせたものが存在することを示すものであって、1つ又はそれ以上の他の特徴や数字、ステップ、動作、構成要素、部品、又はこれを組み合わせたものなどの存在又は付加の可能性を予め排除しないものとして理解しなければならない。
異なるように定義されない限り、技術的であるか又は科学的な用語を含むここで用いる全ての用語は、本実施形態が属する技術分野で通常の知識を有する者によって一般的に理解されるものと同じ意味を有する。一般的に用いられる予め定義された用語は、関連技術の文脈上で有する意味と一致する意味を有するものと解釈すべきであって、本明細書で明白に定義しない限り、理想的又は過度に形式的な意味として解釈されることはない。
以下、添付する図面を参照しながら実施形態を詳細に説明する。添付図面を参照して説明するにおいて、図面符号に関係なく同じ構成要素には同じ参照符号を付与し、これに対する重複する説明は省略することにする。
図1は、一実施形態に係る再構成されたイメージデータ生成の概要を説明するための図である。
図1を参照すると、イメージ処理装置100(例えば、図7に示すイメージ処理装置700)は、1つ以上の入力イメージデータから再構成されたイメージデータ(reconstructed image data)を生成する装置であって、例えば、ソフトウェアモジュール、ハードウェアモジュール又はこれらの組み合せにより実現することができる。イメージ処理装置100は、中央処理装置(central processing unit;CPU)及び/又はグラフィック処理装置(graphic processing unit;GPU)を含んでもよく、中央処理装置及び/又はグラフィック処理装置を用いて入力イメージデータに示されたオブジェクトの形状、オブジェクトのポーズ、照明環境などを再構成したイメージデータを生成することができる。オブジェクトは、例えば、人の顔、モノなどであるが、実施形態の範囲がこれに限定されず、オブジェクトの種類にはその制限がない。
イメージ処理装置100によって実行される再構成されたイメージデータの生成は、拡張現実、イメージレンダリング、ビデオ会議、顔面再現(face reenactment)、ランドマーク検出(landmark detection)、イメージ再照明(image relighting)、3Dユーザインターフェース、イメージ修正などの応用で用いられる。拡張現実を、例えば、拡張現実でリアル世界イメージと仮想オブジェクトとの間を結合するために、リアル世界イメージに対する3D空間モデリングが必要である。3D空間モデリングを基盤に、イメージレンダリングを介して適切な照明環境及びポーズを有する仮想オブジェクトが生成される。イメージレンダリングは、コンピュータプログラムを用いてオブジェクトの含まれた3D場面からイメージを作り出す過程又はそのような方式である。3D場面をレンダリングすることは、3Dコンピュータグラフィックスにおける仮想の光源である1つ以上の仮想光源から出力される光に基づいて、3D場面に照明効果及びシェーディング効果などの視覚効果を適用する過程を含む。照明効果を適用することによって3D場面に含まれている3Dモデルのカラーが決定され、シェーディング効果を適用することによって遮られることによる陰影、反射光、透明な効果などが決定される。このような効果は、仮想光源から放射された光の特性(例、カラー及び方向など)、3Dモデルの特性(例、カラー、表面ノーマル、テクスチャ(texture)など)、仮想光源と3Dモデルとの間の配置関係などに基づく。イメージ処理装置100は、入力イメージデータでイメージ成分を分解し、目的とするターゲット形状変形(deformation)値、ターゲット照明値とターゲットポーズ値に基づいて該当イメージ成分を変形し、変形されたイメージ成分を組み合わせることで適切な照明環境及びポーズを有する再構成されたイメージデータ(例えば、再構成された仮想オブジェクト)を生成することができる。
再構成されたイメージデータを生成するために、イメージ処理装置100は、教師なし学習(unsupervised learning)を用いて学習されたニューラルネットワーク基盤のイメージ再構成フレームワークを使用することができる。イメージ再構成フレームワークは、1つ以上のニューラルネットワークを含み、1つ以上のニューラルネットワークは、正解データセット(ground truth dataset)の必要なしに、ラベルのないデータ(unlabeled data)によって学習されてもよい。従って、イメージ再構成フレームワークは、多様で大量の学習データに基づいて学習されることができる。イメージ再構成フレームワークについて、図2、図4及び図5を参照して下記で詳しく説明し、イメージ再構成フレームワークの学習については、図6を参照して下記で詳しく説明する。
図2は、一実施形態に係るイメージ再構成フレームワークを説明するための図である。
図2を参照すると、入力イメージデータ210から再構成されたイメージデータ270を生成するイメージ再構成フレームワークの一構造が示されている。オブジェクトが示された入力イメージデータ210がイメージ処理装置(例えば、図1に示すイメージ処理装置100、図7に示すイメージ処理装置700)に伝達される。オブジェクトが顔である場合、入力イメージデータ210は顔領域を含む顔イメージに対応する。
イメージ処理装置は、ニューラルネットワーク基盤の第1抽出モデル220を用いて、入力イメージデータ210からオブジェクトに対する材質成分データ230と幾何学的成分データ240を取得する。第1抽出モデル220は、入力イメージデータ210に基づいて材質成分データ230と幾何学的成分データ240を推定する。材質成分データ230は、オブジェクトに対するアルベド(albedo)データを含み、幾何学的成分データ240は、オブジェクトに対する深度データを含む。第1抽出モデル220から取得されるアルベドデータ及び深度データは、それぞれ標準空間(canonical space)でワーピングされた標準空間におけるアルベドデータと、標準空間における深度データに対応する。標準空間は、正規化されたポーズ空間に対応する。入力イメージデータ210のオブジェクトポーズは様々であるが、イメージ処理装置は、第1抽出モデル220を介して基準ポーズに対応する標準空間におけるアルベドデータと深度データを取得することができる。本明細書において、アルベドデータ及び深度データを取得することは、アルベドデータ及び深度データを決定するものに代替されてもよい。
第1抽出モデル220は、1つ以上のニューラルネットワークを含む。例えば、第1抽出モデル220は、入力イメージデータ210からオブジェクトの材質成分データ230を抽出するためのニューラルネットワークであるアルベド抽出モデル222と、オブジェクトの幾何学的成分データ240を抽出するためのニューラルネットワークである深度抽出モデル224とを含む。異なる例として、第1抽出モデル220は、単一のニューラルネットワークから材質成分データ230と、幾何学的成分データ240が共に出力されるものと実現されてもよい。
ニューラルネットワークは入力データに対する応答として、内部パラメータによって算出された値を出力する。ニューラルネットワークの少なくとも一部はソフトウェアで具現されたり、ニューラルプロセッサを含むハードウェアで具現されるか、又は、ソフトウェア及びハードウェアの組み合せで具現されてもよい。ニューラルネットワークは、完全接続ネットワーク(fully connected network)、ディープ畳み込みネットワーク(deep convolutional network)及びリカレントニューラルネットワーク(recurrent neural network)などを含むディープニューラルネットワーク(deep neural network、DNN)に該当する。DNNは複数のレイヤを含む。複数のレイヤは、入力層、1つ以上の隠れ層、及び出力層を含む。ニューラルネットワークは、ディープラーニング(deep learning)に基づいて、非線形関係にある入力データ及び出力データを互いにマッピングすることで、与えられた動作を行うようトレーニングされてもよい。ディープラーニングは、ビッグデータセットから与えられた問題を解決するための機械学習方式である。ディープラーニングは、準備されたトレーニングデータを用いてニューラルネットワークを学習させ、エネルギーが最小化される地点を行くニューラルネットワークの最適化過程である。
イメージ処理装置は、イメージ再構成処理器250を介して材質成分データ230、幾何学的成分データ240、及びターゲット構成データ260から再構成されたイメージデータ270を生成する。ターゲット構成データ260は、入力イメージデータ210を再構成するための1つ以上の設定値を含む構成データとして、ターゲット形状変形(target shape deformation)値、ターゲット照明値、及びターゲットポーズ値を含む。ターゲット構成データ260は、入力イメージデータ210のオブジェクトと同一のオブジェクトが示された他の入力イメージデータから抽出されたり、又は入力イメージデータ210のオブジェクトと異なるオブジェクトが示されている他の入力イメージデータから抽出されてもよい。ターゲット構成データ260のターゲット形状変形値、ターゲット照明値、及びターゲットポーズ値は、ニューラルネットワーク基盤の第2抽出モデルを用いて、他の入力イメージデータから抽出されることができる。
イメージ再構成処理器250は、ターゲット形状変形値に基づいて材質成分データ230と幾何学的成分データ240に示された形状を変形し、ターゲット照明値に基づいてシェーディングを行うことで、シェーディング結果データを生成することができる。イメージ再構成処理器250は、シェーディング結果データとターゲットポーズ値に基づいてレンダリングを行い、再構成されたイメージデータ270を生成する。再構成されたイメージデータ270は、入力イメージデータ210がターゲット構成データ260によってオブジェクトの形態、ポーズ、及び照明の変形されたイメージデータに対応する。もし、ターゲット構成データ260が入力イメージデータ210と他の入力イメージデータから抽出されたものであれば、再構成されたイメージデータ270は、入力イメージデータ210と他の入力イメージデータが組み合せわせられた形態を示す。
上記のような過程を通じて、イメージ処理装置は、入力イメージデータ210のオブジェクトに対して任意の視点やポーズでレンダリングしてもよい。上記で説明したイメージ再構成フレームワークにおけるイメージ処理は、拡張現実環境で様々な視点、ポーズ、照明環境でオブジェクトをレンダリングすることが必要なときに効果的である。また、イメージ再構成フレームワークは、イメージのうちオブジェクトが固定されることを要求せず、動きのある様々な種類のオブジェクトに適用可能である。
図3は、一実施形態に係る再構成されたイメージデータを生成するイメージ処理方法を説明するためのフローチャートである。イメージ処理方法は、本明細書で説明されるイメージ処理装置によって実行される。
図3を参照すると、ステップS310において、イメージ処理装置は、オブジェクトが示された入力イメージデータからアルベドデータ及び深度データを取得する。イメージ処理装置は、学習されたニューラルネットワーク基盤の抽出モデルを用いて、標準空間におけるアルベドデータと標準空間における深度データを取得する。標準空間におけるアルベドデータは、オブジェクトが基準となる標準形態に変形されたときのアルベドデータを示し、標準空間における深度データは、オブジェクトが標準形態に変形されたときの深度データを示す。
一実施形態において、イメージ処理装置は、ニューラルネットワーク基盤のアルベド抽出モデルを用いて入力イメージデータから標準空間におけるアルベドデータを取得し、ニューラルネットワーク基盤の深度抽出モデルを用いて入力イメージデータから標準空間における深度データを取得することができる。
ステップS320において、イメージ処理装置は、ターゲット形状変形値に基づいて変形された(deformed)アルベドデータ及び変形された深度データを生成する。イメージ処理装置は、ステップS310で取得されたアルベドデータと深度データそれぞれにターゲット形状変形値を適用し、オブジェクトの形状が変形されたアルベドデータ及び変形された深度データを生成する。変形されたアルベドデータ及び変形された深度データの生成過程は、ターゲット形状の変換値に基づいてアルベドデータ及び深度データそれぞれに対して後方ワーピング演算(backward warping operation)を行う過程を含む。
ステップS330において、イメージ処理装置は、変形された深度データ及びターゲット照明値に基づいてシェーディングを行ってシェーディング結果データを生成する。イメージ処理装置は、変形された深度データからオブジェクトの表面ノーマル成分を抽出し、抽出された表面ノーマル成分及びターゲット照明値に基づいてシェーディングを行ってシェーディング結果データを生成することができる。オブジェクトの表面ノーマル成分は、オブジェクトで表面の法線(normal)方向成分を示す。イメージ処理装置は、2次の球面調和関数(spherical harmonics)を用いてシェーディングを行ってもよい。シェーディングは、ターゲット照明値が示す光源の照射方向とオブジェクトの表面ノーマル成分との間のベクトル内積によって決定されるシェーディング値を決定することを含む。
ステップS340において、イメージ処理装置は、シェーディング結果データ及び変形されたアルベドデータに基づいて中間イメージデータを生成する。中間イメージデータは、入力イメージデータにターゲット形状変形値とターゲット照明値が適用されたカラーイメージデータに対応する。オブジェクトのある点で見られるカラーは、オブジェクトの形態と材質、光源、及び視点の要素に影響を受ける。オブジェクトのカラーは、アルベド成分(又は、反射成分)とシェーディング成分に分類される。アルベド成分は、オブジェクトの形態と材質により決定されるオブジェクト固有のカラー成分ないし材質特性であって、光源及び視点とは関係ない。シェーディング成分は、光源から照射された光がオブジェクトの表面ノーマルと反応して示される照明特性値を示す。入力イメージデータでアルベド成分とシェーディング成分を目的とする形状変形、及び目的とする照明変形に適するように変形した後、互いに結合することで中間イメージデータを生成することができる。
ステップS350において、イメージ処理装置は、ターゲットポーズ値に基づいて中間イメージデータ及び変形された深度データから再構成されたイメージデータを生成する。イメージ処理装置は、中間イメージデータ及び変形された深度データそれぞれに示されたオブジェクトのポーズをターゲットポーズ値に基づいて変更してもよい。イメージ処理装置は、ターゲットポーズ値によって決定される投影行列(projection matrix)を介して、中間イメージデータ及び変形された深度データそれぞれに示されたオブジェクトのポーズをターゲットポーズ値が示されるポーズに変形してもよい。イメージ処理装置は、オブジェクトのポーズが変形された中間イメージデータ及びオブジェクトのポーズが変形された深度データを組み合わせることで、再構成されたイメージデータを生成することができる。
上記でターゲット形状変形値、ターゲット照明値、及びターゲットポーズ値は、入力イメージデータと異なる入力イメージデータから抽出される値であってもよい。ここで、他の入力イメージデータに示されたオブジェクトは、入力イメージデータに示されたオブジェクトと同一であるか、又は異なってもよい。一実施形態では、ターゲット形状変形値、ターゲット照明値、及びターゲットポーズ値は、学習されたニューラルネットワーク基盤の第2抽出モデルを用いて他の入力イメージデータから抽出される値であってもよい。この場合、第2抽出モデルに他の入力イメージデータが第2抽出モデルに入力され、第2抽出モデルから他の入力イメージデータのオブジェクト特性を示す形状変形値、照明値、及びポーズ値それぞれがターゲット形状変形値、ターゲット照明値、及びターゲットポーズ値として出力されることができる。入力イメージデータとは異なる入力イメージデータに基づいて再構成されたイメージデータが生成される場合、再構成されたイメージデータのオブジェクトの材質や全体的な形状の特性は、入力イメージデータに示されたオブジェクトの特性を示し、表情などのような局部的な形状変形、照明、及びポーズの特性は、他の入力イメージデータに示されたオブジェクトの特性を示す。
図4及び図5は、一実施形態に係る再構成されたイメージデータを生成する過程をより具体的に説明するための図である。以下で説明する再構成されたイメージデータを生成する過程は、本明細書で説明されるイメージ処理装置によって実行され得る。
図4を参照すると、学習されたニューラルネットワーク基盤の抽出モデル415(例えば、図2に示す第1抽出モデル220)によって入力イメージデータ410からオブジェクトの物理的要素が抽出される。抽出モデル415を介して標準空間におけるアルベドデータ420及び標準空間における深度データ425が抽出される。アルベドデータ420は、オブジェクトの材質成分として視点や照明に関係のない物質の固有カラーを示す。深度データ425は、オブジェクトの形状を示す。深度データ425は、x、y座標における深度値に表現される。アルベドデータ420及び深度データ425は、入力イメージデータ410の解像度と同じ解像度を有するイメージデータに表現される。アルベドデータ420及び深度データ425は、2次元の規則的なグリッド(grid)上で示されたオブジェクトの高密度ポイントクラウド(dense point cloud)を定義する属性であり得る。
標準空間におけるアルベドデータ420及び標準空間における深度データ425は、それぞれ標準空間が示す基準ポーズで整列されたアルベドデータと深度データを示す。標準空間は、変形可能なオブジェクトを単一のポーズ空間内に整列させるための空間であって、変形のない(deformation-free)正規化されたポーズ空間に対応する。標準空間における変数は、全ての環境条件及び/又は変形に変わらないものと考慮される。標準空間におけるアルベドデータ420及び標準空間における深度データ425は、それぞれ変形に独立的である。オブジェクトが顔である場合、変形は表情に対応する。
標準空間におけるアルベドデータ420及び標準空間における深度データ425それぞれにターゲット形状変形値430を適用したものにより変形されたアルベドデータ460及び変形された深度データ465が取得される。ターゲット形状変形値430を適用する関数fw455は、3D空間におけるポイントクラウドを移動するものに対応する後方ワーピング演算(backward warping operation)に該当する。関数fw455は、ターゲット形状変形値430が示す形状変形の程度をポイントクラウドの移動のためのxy軸及びz軸それぞれにおける3Dオフセット量として定義し、該当3Dオフセットの量を標準空間におけるアルベドデータ420及び標準空間における深度データ425それぞれに適用することで、変形されたアルベドデータ460と変形された深度データ465を生成することができる。
ターゲット形状変形値430は、オブジェクトが顔である場合に表情などを反映する値であって、オブジェクトの局部的な幾何学的な変化を反映する。ターゲット形状変形値430は、標準空間におけるポーズで形状に対する局部的な差値に対応する。例えば、標準空間のポーズが中立表情であり、目的とする表情が笑っている表情であれば、ターゲット形状変形値430は、中立表情と笑っている表情との間の形状差に対応する。
変形された深度データ465から表面ノーマルデータ470が生成されてもよい。表面ノーマルデータ470は、オブジェクトの幾何学的な形状成分を示す。表面ノーマルデータ470の表面ノーマル値は、局部的な隣ピクセルに対してピクセル単位回帰分析(per-pixel regression)を介して変形された深度データ465から算出される。現在のピクセルの深度値と周辺隣ピクセルの各深度値に基づいて、二乗距離の合計を最小化する平面が決定されれば、その決定された平面のノーマルベクトルを該当の現在ピクセルの表面ノーマル値として決定することができる。
その後、表面ノーマルデータ470及びターゲット照明値440に基づいてシェーディング475が実行される。ターゲット照明値440は、目的とする照明効果を表現するためのもので、多次元のベクトルに表現されてもよい。シェーディング475では、ターゲット照明値440によって照明成分を表面ノーマルデータ470に反映する。ランバートモデル(Lambertian model)において、シェーディング475は、表面ノーマルデータ470及びターゲット照明値440に基づいて決定されるものとして表現されてもよい。シェーディング475のために、各ピクセルに対してシェーディング値を表面ノーマル値及び多次元のベクトル値に表現されるターゲット照明値440の2次組み合せ(quadratic combination)として表現する球面調和関数が用いられてもよい。このようなシェーディング475過程を各ピクセルに対して行うことで、シェーディング結果のデータを生成することができる。
シェーディング結果データが生成された後、シェーディング結果データと変形されたアルベドデータ460との間のベクトル内積(vector dot product)演算480を介して中間イメージデータ485が生成される。中間イメージデータ485は、拡散カラー情報を含んでもよい。
中間イメージデータ485、変形された深度データ465、及びターゲットポーズ値450に基づいて再構成されたイメージデータ495が生成される。ターゲットポーズ値450は、3D変換行列を定義する多次元のベクトルに表現されてもよい。3D変換行列は、移動及び回転などのための要素を含む。ターゲットポーズ値450は、標準空間から入力空間におけるポイントクラウド上にマッピングすることを定義する。ターゲットポーズ値450が与えられたとき、関数fr490は、変形された深度データ465と中間イメージデータ485に関する高密度ポイントクラウドを入力空間に送信し、形状を定義している全てのポイント又はメッシュを対応するカメラのイメージ平面上で投影させることができる。その過程は、レンダリング処理によって行われてもよい。関数fr490の処理結果として、再構成されたイメージデータ495が生成されてもよい。
上記のようなイメージ再構成フレームワークを介して入力イメージデータ410に示された各物理的な要素(視点、照明、及びポーズなど)を自在に操作可能である。一方、ターゲット形状変形値430、ターゲット照明値440、及びターゲットポーズ値450は与えられた値であってもよく、図5に示す実施形態のようにイメージデータから抽出される値であってもよい。
図5を参照すると、一実施形態において、同じオブジェクト又は互いに異なるオブジェクトの第1及び第2イメージデータ510,530がイメージ再構成フレームワークに入力されてもよい。第1及び第2イメージデータ510,530は、マルチフレームイメージを構成するイメージデータであってもよい。
学習されたニューラルネットワーク基盤の第1抽出モデル515(例えば、図4に示す抽出モデル415)を介して第1イメージデータ510から標準空間におけるアルベドデータ520及び標準空間における深度データ525が取得される。標準空間における整列を通じて、第1及び第2イメージデータ510,530に示された同じオブジェクトのポーズや形態が互いに異なる場合、又は、第1及び第2イメージデータ510,530に示されたオブジェクトが互いに異なる場合においても、第1及び第2イメージデータ510,530間の比較及び合成が可能である。
学習されたニューラルネットワーク基盤の第2抽出モデル535を介して第2イメージデータ530から形状変形値(例えば、表情値)540、照明値545、及びポーズ値550の物理的要素が抽出されることができる。抽出された形状変形値540、照明値545、及びポーズ値550は、それぞれ図4に示すターゲット形状変形値430、ターゲット照明値440、及びターゲットポーズ値450に対応する。第1抽出モデル515及び第2抽出モデル535は、互いに別個のニューラルネットワーク又は単一のニューラルネットワークに具現されてもよい。第1抽出モデル515として、エンコーダ-デコーダネットワークが利用され、第2抽出モデル535としてエンコーダネットワークが利用されてもよい。
標準空間におけるアルベドデータ520及び標準空間における深度データ525それぞれに形状変形値540を適用する関数fw555によって、変形されたアルベドデータ560及び変形された深度データ565が取得される。変形された深度データ565から表面ノーマルデータ570が生成され、表面ノーマルデータ570及び照明値545に基づいてシェーディング575が行われる。シェーディング575の実行結果としてシェーディング結果データが生成され、シェーディング結果データと変形されたアルベドデータ560との間のベクトル内積演算580を介して中間イメージデータ585が生成されることができる。ポーズ値550に基づいて中間イメージデータ585及び変形された深度データ565のオブジェクトポーズを変更し、レンダリング処理を行う関数fr590によって再構成されたイメージデータ595を生成することができる。
上記のようなイメージ再構成フレームワークにおいて、第2イメージデータ530から特定の物理的要素が抽出され、第1イメージデータ510の物理的要素を、これに対応する第2イメージデータ530の物理的要素に代替した再構成されたイメージデータ595が生成され得る。一方、図5に示す実施形態において、図4に示す実施形態と重複する部分に対する詳説は省略し、図4の実施形態に対する説明が図5の実施形態にも適用され得る。
図6は、一実施形態に係る抽出モデルに対する学習過程を説明するための図である。
図6において、図5に示すイメージ再構成フレームワークを学習させる学習過程について説明する。学習過程は、変形可能なオブジェクトの潜在された物理的要素を区分することを学習させる。学習過程は、プロセッサとメモリを含む学習装置によって行われてもよい。学習装置は、形状変形、照明環境、及びポーズのうちの1つ以上で差異が生じた複数の学習イメージデータを用いて学習過程を行ってもよい。第1学習イメージデータ610及び第2学習イメージデータ630は、例えば、マルチフレームイメージを構成しているイメージシーケンスから選択されたイメージとして同じ種類のオブジェクトを含んでもよい。
学習装置は、ニューラルネットワーク基盤の第1抽出モデル615を用いて、オブジェクトが示された第1学習イメージデータ610から標準空間におけるアルベドデータ620及び前記標準空間における深度データ625を取得することができる。
学習装置は、ニューラルネットワーク基盤の第2抽出モデル635を用いて、第2学習イメージデータ630から形状変形値640、照明値645、及びポーズ値650を抽出することができる。
学習装置は、標準空間におけるアルベドデータ620と標準空間における深度データ625それぞれに形状変形値640を適用する関数fw655によって、変形されたアルベドデータ660及び変形された深度データ665を生成することができる。学習装置は、変形された深度データ665から表面ノーマルデータ670を生成し、表面ノーマルデータ670及び照明値645に基づいてシェーディング675を行ってもよい。
シェーディング675の実行結果としてシェーディング結果データが生成され、学習装置は、シェーディング結果データ及び変形されたアルベドデータ660に基づいて中間イメージデータ685を生成する。学習装置は、シェーディング結果データと変形されたアルベドデータ660との間のベクトル内積演算680を通じて、中間イメージデータ685を生成する。学習装置は、ポーズ値650に基づいて中間イメージデータ685及び変形された深度データ665から再構成されたイメージデータ695を生成する。学習装置はポーズ値650、中間イメージデータ685、及び変形された深度データ665に基づいて、レンダリング処理を行う関数fr690を用いて再構成されたイメージデータ695を生成することができる。
学習器600は、再構成されたイメージデータ695と第2学習イメージデータ630とを比較し、両方間の差に基づいて損失を定義する損失関数(loss function)を定義する。損失関数を定義するために、例えば、フォトメトリック再構成損失(photometric reconstruction loss)を用いてもよい。フォトメトリック再構成損失は、再構成されたイメージデータ695と第2学習イメージデータ630との間のエラーを最小化することを目的とする。
学習器600は、前記損失が減少するように第1抽出モデル615及び第2抽出モデル635を学習させることができる。学習過程は、第1抽出モデル615及び第2抽出モデル635のパラメータをアップデートする過程を含む。学習器600は、再構成されたイメージデータ695と第2学習イメージデータ630との間の差が減少するように、第1抽出モデル615及び第2抽出モデル635それぞれのパラメータを繰り返し矯正する過程を含む。再構成されたイメージデータ695が第2学習イメージデータ630にフィッティング(fitting)されるように第1抽出モデル615及び第2抽出モデル635の学習過程は自動に行われる。学習の完了した第1抽出モデル615は、図4に示す抽出モデル415及び図5に示す第1抽出モデル515として利用されてもよく、学習の完了した第2抽出モデル635は、図5に示す第2抽出モデル535として利用されてもよい
他の実施形態において、ターゲット形状変形値、ターゲット照明値、及びターゲットポーズ値は、他の入力イメージデータから抽出されてもよく、学習器600は、再構成されたイメージデータ695と異なる入力イメージデータに基づいて抽出モデル615,635のパラメータをアップデートすることで、抽出モデル615,635を学習させてもよい。
他の実施形態において、ターゲット形状変形値、ターゲット照明値、及びターゲットポーズ値は、他の入力イメージデータから抽出されてもよく、学習器600は、再構成されたイメージデータ695と異なる入力イメージデータに基づいて抽出モデル615,635のパラメータをアップデートすることで、抽出モデル615,635を学習させてもよい。
上記のような学習過程は、オブジェクトが固定される必要がなく、動きのあるオブジェクトに対しても適用可能であり、複雑な書き込みステージなどを必要としないことから、様々で複数の学習イメージデータを使用できるという利点がある。また、本学習過程は、互いに異なるポーズ及び照明環境で得られたラベルのない(unlabeled)学習イメージデータを用いて自己教師あり学習(self-supervised learning)が可能である利点がある。
図7は、一実施形態に係るイメージ処理装置の構成を示す図である。
図7を参照すると、イメージ処理装置700(例えば、図1のイメージ処理装置100)は、イメージデータを処理して再構成されたイメージデータを生成する装置である。イメージ処理装置700は、1つ以上のプロセッサ710及びメモリ720を含む。
メモリ720は、コンピュータで読込み可能な命令語を格納する。メモリ720に格納された命令語がプロセッサ710によって実行されれば、プロセッサ710は、命令語によって定義される動作を処理する。メモリ720は、例えば、RAM(random access memories)、DRAM(dynamic random access memories)、SRAM(static random access memories)又は、この技術分野で知られた他の形態の不揮発性メモリを含んでもよい。
プロセッサ710は、イメージ処理装置700の全体的な動作を制御する。プロセッサ710は、目的とする動作を実行させるための物理的な構造を有する回路つきハードウェアで具現された装置であってもよい。目的とする動作は、プログラムに含まれたコード又は命令語を含んでもよい。ハードウェアで具現された装置は、マイクロプロセッサー(microprocessor)、中央処理装置(Central Processing Unit;CPU)、グラフィック処理装置(Graphic Processing Unit;GPU)、プロセッサコア(processor core)、マルチコアプロセッサ(multi-core processor)、マルチプロセッサ(multiprocessor)、ASIC(Application-Specific Integrated Circuit)、FPGA(Field Programmable Gate Array)、NPU(Neural Processing Unit)などを含んでもよい。
プロセッサ710は、イメージ処理装置700が実行するための機能及び命令語を実行することで、イメージ処理装置700を制御することができる。プロセッサ710は、図1~図6を参照して前述した少なくとも1つの動作及び/又は機能を行うようにイメージ処理装置700を制御することができる。
プロセッサ710の制御によりイメージ処理装置700は、ニューラルネットワーク基盤の第1抽出モデルを用いて、オブジェクトが示された入力イメージデータから標準空間におけるアルベドデータ及び標準空間における深度データを取得することができる。
一実施形態において、イメージ処理装置700は、ニューラルネットワーク基盤のアルベド抽出モデルを用いて入力イメージデータから標準空間におけるアルベドデータを取得し、ニューラルネットワーク基盤の深度抽出モデルを用いて、入力イメージデータから標準空間における深度データを取得することができる。イメージ処理装置700は、取得されたアルベドデータと深度データそれぞれにターゲット形状変形値を適用して変形されたアルベドデータ、及び変形された深度データを生成する。イメージ処理装置700は、変形された深度データ及びターゲット照明値に基づいてシェーディングを行ってシェーディング結果データを生成する。イメージ処理装置700は、変形された深度データからオブジェクトの表面ノーマル成分を抽出し、抽出された表面ノーマル成分及びターゲット照明値に基づいてシェーディングを行ってシェーディング結果データを生成する。イメージ処理装置700は、シェーディング結果データ及び変形されたアルベドデータに基づいて中間イメージデータを生成し、ターゲットポーズ値に基づいて中間イメージデータ及び変形された深度データから再構成されたイメージデータを生成する。ターゲット形状変形値、ターゲット照明値、及びターゲットポーズ値は、ニューラルネットワーク基盤の第2抽出モデルを用いて他の入力イメージデータから抽出される値であってもよい。イメージ処理装置700は、中間イメージデータ及び変形された深度データそれぞれに示されたオブジェクトのポーズをターゲットポーズ値に基づいて変形し、オブジェクトのポーズが変形された中間イメージデータ及びオブジェクトのポーズが変形された深度データを組み合わせることで、再構成されたイメージデータを生成することができる。
図8は、一実施形態に係る電子装置の構成を示すブロック図である。
図8を参照すると、電子装置800は、再構成されたイメージデータを生成し、生成された再構成されたイメージデータをユーザに提供することができる。電子装置800は、上記で説明したイメージ処理装置(図1に示すイメージ処理装置100又は図7に示すイメージ処理装置700)を含む。
電子装置800は、コンピューティング装置、イメージ取得装置、又はディスプレイ装置であってもよい。例えば、電子装置800は、パーソナルコンピュータ、先進運転支援システム(Advanced Drivers Assistance System;ADAS)、HUD(Head Up Display)装置、カメラ、3Dデジタル情報ディスプレイ(Digital Information Display、DID)、ナビゲーション装置、ニューロモルフィック装置(neuromorphic device)、3Dモバイル機器、スマートフォン、スマートTV、スマート車両、IoT(Internet of Things)デバイス、及び医療デバイスなどのように様々な分野の装置であり得る。ここで、3Dモバイル機器は、拡張現実、仮想現実、及び/又は混合現実を表示するためのディスプレイ装置、ヘッドマウントディスプレイ(Head Mounted Display;HMD)、フェイスマウントディスプレイ(Face Mounted Display;FMD)、及び拡張現実メガネ(AR glasses)などを含む。
電子装置800は、プロセッサ810、格納装置820、センサ830、入力装置840、出力装置850、及び通信装置860を含む。電子装置800の各構成要素は、通信バス870を介して通信することができる。
プロセッサ810は、電子装置800の全体的な動作を制御し、電子装置800内で実行するための機能及び命令語を実行する。プロセッサ810は、図1~図7を参照して前述した1つ以上の動作を行ってもよい。プロセッサ810は、入力イメージデータに基づいて再構成されたイメージデータを生成する。プロセッサ810は、ニューラルネットワーク基盤の抽出モデルを用いてオブジェクトが示された入力イメージデータから標準空間におけるアルベドデータ及び標準空間における深度データを取得し、アルベドデータと深度データそれぞれにターゲット形状変形値を適用して変形されたアルベドデータ及び変形された深度データを生成することができる。プロセッサ810は、変形された深度データ及びターゲット照明値に基づいてシェーディングを行ってシェーディング結果データを生成し、シェーディング結果データに変形されたアルベドデータに基づいて中間イメージデータを生成する。プロセッサ810は、ターゲットポーズ値に基づいて中間イメージデータ及び変形された深度データから再構成されたイメージデータを生成することができる。
格納装置820は、プロセッサ810が演算を行うために必要な情報を格納する。例えば、格納装置820は、プロセッサ810によって実行するための命令語を格納し、電子装置800でソフトウェア又はプログラムが実行される間に関連情報を格納する。格納装置820は、メモリとしてRAM、DRAM、SRAM、又はこの技術分野で知られた他の形態の不揮発性メモリを含んでもよい。また、格納装置820は、ストレージ、磁気ハードディスク、光ディスク、フラッシュメモリ装置などのようなコンピュータ読み出し可能な格納媒体又はコンピュータ読み出し可能な格納装置を含んでもよい。
センサ830は、イメージデータを取得するイメージ取得装置、動きセンサなどのセンサを含む。イメージ取得装置は入力イメージデータを取得し、取得された入力イメージデータをプロセッサ810に伝達することができる。
入力装置840は、ユーザからユーザ入力を受信する。例えば、入力装置840は、キーボード、マウス、タッチスクリーン、マイクロホン、又は、ユーザからユーザ入力を検出し、検出されたユーザ入力を電子装置800に伝達できる任意の他の装置を含む。
出力装置850は、視覚的、聴覚的、又は触覚的なチャネルを介してユーザに電子装置800の出力を提供する。出力装置850は、ディスプレイ、タッチスクリーン、スピーカ、振動発生装置又はユーザに出力を提供できる任意の他の装置を含む。ディスプレイは、プロセッサ810によって生成された再構成されたイメージデータを視覚化して示すことができる。
通信装置860は、有線ネットワーク及び/又は無線ネットワークを介して外部装置と通信することができる。
以上で説明した実施形態は、ハードウェア構成要素、ソフトウェア構成要素、又はハードウェア構成要素及びソフトウェア構成要素の組み合せで具現される。例えば、本実施形態で説明した装置及び構成要素は、例えば、プロセッサ、コントローラ、ALU(arithmetic logic unit)、デジタル信号プロセッサ(digital signal processor)、マイクロコンピュータ、FPA(field programmable array)、PLU(programmable logic unit)、マイクロプロセッサー、又は命令(instruction)を実行して応答する異なる装置のように、1つ以上の汎用コンピュータ又は特殊目的コンピュータを用いて具現される。処理装置は、オペレーティングシステム(OS)及び前記オペレーティングシステム上で行われる1つ以上のソフトウェアアプリケーションを行うことができる。また、処理装置は、ソフトウェアの実行に応答してデータをアクセス、格納、操作、処理及び生成することもできる。理解の利便のために、処理装置は、1つが使用されるものと説明される場合もあるが、当該技術分野において通常の知識を有する者は、処理装置が複数の処理要素(processing element)及び又は複数のタイプの処理要素を含んでいることが分かる。例えば、処理装置は、複数のプロセッサ又は一のプロセッサ及び一つのコントローラを含んでもよい。また、並列プロセッサのような、他の処理構成も可能である。
ソフトウェアは、コンピュータプログラム、コード、命令、又はそのうちの一つ以上の組合せを含み、希望の通りに動作するよう処理装置を構成したり、独立的又は結合的に処理装置を命令することができる。ソフトウェア及び/又はデータは、処理装置によって解釈されたり処理装置に命令又はデータを提供するために、いずれかの類型の機械、構成要素、物理的装置、仮想装置、コンピュータ格納媒体又は装置、又は送信される信号波に永久的又は一時的に具体化することができる。ソフトウェアはネットワークに連結されたコンピュータシステム上に分散され、分散した方法で格納されたり実行され得る。ソフトウェア及びデータは一つ以上のコンピュータで読出し可能な記録媒体に格納され得る。
実施形態に係る方法は、様々なコンピュータ手段を介して実施されるプログラム命令の形態で具現され、コンピュータ読み取り可能な記録媒体に記録される。記録媒体は、プログラム命令、データファイル、データ構造などを単独又は組み合せて含む。記録媒体及びプログラム命令は、本発明の目的のために特別に設計して構成されたものでもよく、コンピュータソフトウェア分野の技術を有する当業者にとって公知のものであり使用可能なものであってもよい。コンピュータ読み取り可能な記録媒体の例として、ハードディスク、フロッピー(登録商標)ディスク及び磁気テープのような磁気媒体、CD-ROM、DVDのような光記録媒体、フロプティカルディスクのような磁気-光媒体、及びROM、RAM、フラッシュメモリなどのようなプログラム命令を保存して実行するように特別に構成されたハードウェア装置を含む。プログラム命令の例としては、コンパイラによって生成されるような機械語コードだけでなく、インタプリタなどを用いてコンピュータによって実行される高級言語コードを含む。上記で説明したハードウェア装置は、本発明に示す動作を実行するために1つ以上のソフトウェアモジュールとして作動するように構成してもよく、その逆も同様である。
上述したように実施形態をたとえ限定された図面によって説明したが、当技術分野で通常の知識を有する者であれば、上記の説明に基づいて様々な技術的な修正及び変形を適用することができる。例えば、説明された技術が説明された方法と異なる順で実行されるし、及び/又は説明されたシステム、構造、装置、回路などの構成要素が説明された方法と異なる形態で結合又は組み合わせられてもよいし、他の構成要素又は均等物によって置き換え又は置換されたとしても適切な結果を達成することができる。
したがって、本発明の範囲は、開示された実施形態に限定されて定められるものではなく、特許請求の範囲及び特許請求の範囲と均等なものなどによって定められるものである。
100、700:イメージ処理装置
222:アルベド抽出モデル
224:深度抽出モデル
250:イメージ再構成処理器
415:抽出モデル
220、515、615:第1抽出モデル
535、635:第2抽出モデル
600:学習器
710、810:プロセッサ
720:メモリ
800:電子装置
820:格納装置
830:センサ
840:入力装置
850:出力装置
860:通信装置
870:通信バス
222:アルベド抽出モデル
224:深度抽出モデル
250:イメージ再構成処理器
415:抽出モデル
220、515、615:第1抽出モデル
535、635:第2抽出モデル
600:学習器
710、810:プロセッサ
720:メモリ
800:電子装置
820:格納装置
830:センサ
840:入力装置
850:出力装置
860:通信装置
870:通信バス
Claims (17)
- 再構成されたイメージを生成するイメージ処理方法であって、
ニューラルネットワーク基盤の抽出モデルを用いてオブジェクトが示された入力イメージデータから標準空間におけるアルベドデータ及び前記標準空間における深度データを決定するステップと、
前記アルベドデータと前記深度データそれぞれにターゲット形状変形値を適用して変形されたアルベドデータ及び変形された深度データを生成するステップと、
前記変形された深度データ及びターゲット照明値に基づいてシェーディングを行ってシェーディング結果データを生成するステップと、
前記シェーディング結果データと前記変形されたアルベドデータに基づいて中間イメージデータを生成するステップと、
ターゲットポーズ値に基づいて、前記中間イメージデータ及び前記変形された深度データから再構成されたイメージデータを生成するステップと、
を含むイメージ処理方法。 - 前記アルベドデータ及び前記深度データを決定するステップは、
ニューラルネットワーク基盤のアルベド抽出モデルを用いて、前記入力イメージデータから前記標準空間におけるアルベドデータを決定するステップと、
ニューラルネットワーク基盤の深度抽出モデルを用いて、前記入力イメージデータから前記標準空間における深度データを決定するステップと、
を含む、請求項1に記載のイメージ処理方法。 - 前記標準空間におけるアルベドデータは、前記オブジェクトが基準となる標準形態に変形された時のアルベドデータに対応し、
前記標準空間における深度データは、前記オブジェクトが前記標準形態に変形された時の深度データに対応する、請求項1又は2に記載のイメージ処理方法。 - 前記変形されたアルベドデータ及び前記変形された深度データを生成するステップは、前記ターゲット形状変形値に基づいて前記アルベドデータ及び前記深度データそれぞれに対して後方ワーピング演算を行うステップを含む、請求項1乃至3のいずれか1項に記載のイメージ処理方法。
- 前記シェーディング結果データを生成するステップは、
前記変形された深度データから前記オブジェクトの表面ノーマル成分を抽出するステップと、
前記抽出された表面ノーマル成分と前記ターゲット照明値に基づいてシェーディングを行って前記シェーディング結果データを生成するステップと、
を含む、請求項1乃至4のいずれか1項に記載のイメージ処理方法。 - 前記シェーディング結果データを生成するステップは、2次の球面調和関数を用いて前記シェーディングを行うステップを含む、請求項1乃至4のいずれか1項に記載のイメージ処理方法。
- 前記再構成されたイメージデータを生成するステップは、前記中間イメージデータ及び前記変形された深度データそれぞれに示された前記オブジェクトのポーズを前記ターゲットポーズ値に基づいて変形し、前記オブジェクトのポーズが変形された前記中間イメージデータ及び前記オブジェクトのポーズが変形された前記深度データを組み合わせることで、前記再構成されたイメージデータを生成するステップを含む、請求項1乃至6のいずれか1項に記載のイメージ処理方法。
- 前記ターゲット形状変形値、前記ターゲット照明値、及び前記ターゲットポーズ値は、
前記入力イメージデータと異なる入力イメージデータから抽出される値であり、
前記異なる入力イメージデータに示されたオブジェクトは、前記入力イメージデータに示されたオブジェクトと同一である、請求項1乃至7のいずれか1項に記載のイメージ処理方法。 - 前記ターゲット形状変形値、前記ターゲット照明値、及び前記ターゲットポーズ値は、前記オブジェクトと異なるオブジェクトが示されたイメージデータから抽出された値である、請求項1乃至7のいずれか1項に記載のイメージ処理方法。
- 前記ターゲット形状変形値、前記ターゲット照明値、及び前記ターゲットポーズ値は、前記ニューラルネットワーク基盤の抽出モデルでない他のニューラルネットワーク基盤の第2抽出モデルを用いて他の入力イメージデータから抽出された値である、請求項1乃至7のいずれか1項に記載のイメージ処理方法。
- 前記ターゲット形状変形値、前記ターゲット照明値、及び前記ターゲットポーズ値は、他の入力イメージデータから抽出され、
前記抽出モデルは、前記再構成されたイメージデータと前記他の入力イメージデータに基づいて、前記抽出モデルのパラメータをアップデートすることによって学習される、請求項1乃至7のいずれか1項に記載のイメージ処理方法。 - 請求項1乃至11のいずれか1項に記載のイメージ処理方法を行うための命令語を含む1つ以上のコンピュータプログラムを格納したコンピュータで読み出し可能な記録媒体。
- 再構成されたイメージを生成するイメージ処理装置であって、
少なくとも1つのプロセッサを含み、
前記少なくとも1つのプロセッサは、前記イメージ処理装置に、請求項1乃至11のいずれか1項に記載のイメージ処理方法を実行させる、
イメージ処理装置。 - 学習方法であって、
ニューラルネットワーク基盤の第1抽出モデルを用いて、第1学習イメージデータから標準空間におけるアルベドデータ及び前記標準空間における深度データを決定するステップと、
第2学習イメージデータから形状変形値、照明値、及びポーズ値を抽出するステップと、
前記アルベドデータと前記深度データそれぞれに前記形状変形値を適用して変形されたアルベドデータ及び変形された深度データを生成するステップと、
前記変形された深度データ及び前記照明値に基づいてシェーディングを行ってシェーディング結果データを生成するステップと、
前記シェーディング結果データと前記変形されたアルベドデータに基づいて中間イメージデータを生成するステップと、
前記ポーズ値に基づいて、前記中間イメージデータ及び前記変形された深度データから再構成されたイメージデータを生成するステップと、
前記再構成されたイメージデータと前記第2学習イメージデータに基づいて、前記第1抽出モデルのパラメータをアップデートするステップと、
を含む学習方法。 - 前記第1抽出モデルのパラメータをアップデートするステップは、前記再構成されたイメージデータと前記第2学習イメージデータとの間の差が減少するように前記第1抽出モデルのパラメータを繰り返し矯正するステップを含む、請求項14に記載の学習方法。
- 前記形状変形値、前記照明値、及び前記ポーズ値を抽出するステップは、ニューラルネットワーク基盤の第2抽出モデルを用いて、前記第2学習イメージデータから前記形状変形値、前記照明値、及び前記ポーズ値を抽出するステップを含み、
前記第1抽出モデルのパラメータをアップデートするステップは、前記再構成されたイメージデータと前記第2学習イメージデータとの間の差が減少するように、前記第1抽出モデル及び第2抽出モデルそれぞれのパラメータを繰り返し矯正するステップを含む、請求項14又は15に記載の学習方法。 - 電子装置であって、
入力イメージデータに基づいて再構成されたイメージデータを生成するプロセッサと、
前記再構成されたイメージデータを視覚化するディスプレイと、を含み、
前記プロセッサは、前記電子装置が、
ニューラルネットワーク基盤の抽出モデルを用いてオブジェクトが示された入力イメージデータから標準空間におけるアルベドデータ及び前記標準空間における深度データを決定する動作と、
前記アルベドデータと前記深度データそれぞれにターゲット形状変形値を適用して変形されたアルベドデータ及び変形された深度データを生成する動作と、
前記変形された深度データ及びターゲット照明値に基づいてシェーディングを行ってシェーディング結果データを生成する動作と、
前記シェーディング結果データと前記変形されたアルベドデータに基づいて中間イメージデータを生成する動作と、
ターゲットポーズ値に基づいて、前記中間イメージデータ及び前記変形された深度データから再構成されたイメージデータを生成する動作と、
を行うように制御する、電子装置。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR10-2021-0030200 | 2021-03-08 | ||
KR1020210030200A KR20220126063A (ko) | 2021-03-08 | 2021-03-08 | 재구성된 이미지를 생성하는 이미지 처리 방법 및 장치 |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2022136963A true JP2022136963A (ja) | 2022-09-21 |
Family
ID=79024864
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2021204115A Pending JP2022136963A (ja) | 2021-03-08 | 2021-12-16 | 再構成されたイメージを生成するイメージ処理方法及び装置 |
Country Status (5)
Country | Link |
---|---|
US (1) | US20220284663A1 (ja) |
EP (1) | EP4057231A1 (ja) |
JP (1) | JP2022136963A (ja) |
KR (1) | KR20220126063A (ja) |
CN (1) | CN115035224A (ja) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20240037859A1 (en) * | 2022-07-28 | 2024-02-01 | Lenovo (Singapore) Pte. Ltd. | Use of 3d/ai models to generate 3d representations of video stream users based on scene lighting not satisfying one or more criteria |
Family Cites Families (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US11295514B2 (en) * | 2018-11-16 | 2022-04-05 | Nvidia Corporation | Inverse rendering of a scene from a single image |
US11915355B2 (en) * | 2019-01-18 | 2024-02-27 | Snap Inc. | Realistic head turns and face animation synthesis on mobile device |
US11288857B2 (en) * | 2019-04-04 | 2022-03-29 | Google Llc | Neural rerendering from 3D models |
US10665011B1 (en) * | 2019-05-31 | 2020-05-26 | Adobe Inc. | Dynamically estimating lighting parameters for positions within augmented-reality scenes based on global and local features |
US20220198617A1 (en) * | 2020-12-18 | 2022-06-23 | Meta Platforms, Inc. | Altering a facial identity in a video stream |
-
2021
- 2021-03-08 KR KR1020210030200A patent/KR20220126063A/ko active Search and Examination
- 2021-08-18 CN CN202110947157.5A patent/CN115035224A/zh active Pending
- 2021-09-28 US US17/487,240 patent/US20220284663A1/en active Pending
- 2021-12-16 JP JP2021204115A patent/JP2022136963A/ja active Pending
- 2021-12-22 EP EP21217137.5A patent/EP4057231A1/en active Pending
Also Published As
Publication number | Publication date |
---|---|
US20220284663A1 (en) | 2022-09-08 |
EP4057231A1 (en) | 2022-09-14 |
KR20220126063A (ko) | 2022-09-15 |
CN115035224A (zh) | 2022-09-09 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
AU2020200811B2 (en) | Direct meshing from multiview input using deep learning | |
Li et al. | Monocular real-time volumetric performance capture | |
US11880927B2 (en) | Three-dimensional object reconstruction from a video | |
US10762620B2 (en) | Deep-learning method for separating reflection and transmission images visible at a semi-reflective surface in a computer image of a real-world scene | |
TWI693531B (zh) | 針對虛擬實境漫步式的掃視重新定向 | |
US11734890B2 (en) | Three-dimensional model recovery from two-dimensional images | |
US11615602B2 (en) | Appearance-driven automatic three-dimensional modeling | |
US11954830B2 (en) | High dynamic range support for legacy applications | |
US11610370B2 (en) | Joint shape and appearance optimization through topology sampling | |
US11967024B2 (en) | Extracting triangular 3-D models, materials, and lighting from images | |
CN116391206A (zh) | 采用神经渲染的立体表演捕获 | |
US11475549B1 (en) | High dynamic range image generation from tone mapped standard dynamic range images | |
US11361507B1 (en) | Articulated body mesh estimation using three-dimensional (3D) body keypoints | |
US11875478B2 (en) | Dynamic image smoothing based on network conditions | |
JP2022136963A (ja) | 再構成されたイメージを生成するイメージ処理方法及び装置 | |
US20230298243A1 (en) | 3d digital avatar generation from a single or few portrait images | |
EP4207089A1 (en) | Image processing method and apparatus | |
US20220189011A1 (en) | End-to-end training for a three-dimensional tomography reconstruction pipeline | |
US20220189100A1 (en) | Three-dimensional tomography reconstruction pipeline | |
US11270161B2 (en) | Deep-learning method for separating reflection and transmission images visible at a semi-reflective surface in a computer image of a real-world scene | |
US11783532B1 (en) | View synthesis using attribute correspondences and geometric relationship constraints | |
US20240112308A1 (en) | Joint neural denoising of surfaces and volumes | |
US20240104842A1 (en) | Encoder-based approach for inferring a three-dimensional representation from an image | |
US20240135630A1 (en) | Image synthesis using diffusion models created from single or multiple view images |