JP2022136963A

JP2022136963A - 再構成されたイメージを生成するイメージ処理方法及び装置

Info

Publication number: JP2022136963A
Application number: JP2021204115A
Authority: JP
Inventors: 仁友河; Inwoo Ha; 現盛張; Hyun-Sung Chang; ▲みん▼廷孫; Minjung Son
Original assignee: Samsung Electronics Co Ltd
Current assignee: Samsung Electronics Co Ltd
Priority date: 2021-03-08
Filing date: 2021-12-16
Publication date: 2022-09-21
Also published as: EP4057231A1; US20220284663A1; CN115035224A; KR20220126063A

Abstract

【課題】再構成されたイメージを生成するイメージ処理方法及び装置を開示する。
【解決手段】イメージ処理方法は、ニューラルネットワーク基盤の抽出モデルを用いてオブジェクトが示された入力イメージデータから標準空間におけるアルベドデータ、及び標準空間における深度データを決定するステップと、アルベドデータと深度データそれぞれにターゲット形状変形値を適用して変形されたアルベドデータ及び変形された深度データを生成するステップと、変形された深度データ及びターゲット照明値に基づいてシェーディングを行ってシェーディング結果データを生成するステップと、シェーディング結果データと変形されたアルベドデータに基づいて中間イメージデータを生成するステップと、ターゲットポーズ値に基づいて、中間イメージデータ及び変形された深度データから再構成されたイメージデータを生成するステップとを含む。
【選択図】図３

Description

以下の実施形態は、再構成されたイメージを生成するイメージ処理技術に関する。

最近、仮想現実（ｖｉｒｔｕａｌｒｅａｌｉｔｙ；ＶＲ）、拡張現実（ａｕｇｍｅｎｔｅｄｒｅａｌｉｔｙ；ＡＲ）又は混合現実（ｍｉｘｅｄｒｅａｌｉｔｙ；ＭＲ）を実現可能な電子機器が開発され、これに対する関心が高まっている。このうち、拡張現実は、現実世界の環境上に仮想のオブジェクトや情報を結合して示すディスプレイ技術である。拡張現実は、様々な現実環境に応用可能であるという長所があり、ユビキタス（ｕｂｉｑｕｉｔｏｕｓ）環境やモノのインターネット（ｉｎｔｅｒｎｅｔｏｆｔｈｉｎｇｓ；ＩｏＴ）環境に適切な次世代ディスプレイ技術として注目されている。拡張現実は、外部全景と仮想イメージの結合によってユーザに新しい経験を提供することができ、情報をより効率よく実感できるように伝達できる手段となる。拡張現実のためのコンテンツを実感できるように実現するためには、ユーザのポーズや照明環境などに応じて仮想のオブジェクトの特性を調整する必要がある。

本発明の目的は、再構成されたイメージを生成するイメージ処理技術を提供することにある。

一実施形態に係る再構成されたイメージを生成するイメージ処理方法は、ニューラルネットワーク基盤の抽出モデルを用いてオブジェクトが示された入力イメージデータから標準空間におけるアルベドデータ及び前記標準空間における深度データを決定するステップと、前記アルベドデータと前記深度データそれぞれにターゲット形状変形値を適用して変形されたアルベドデータ及び変形された深度データを生成するステップと、前記変形された深度データ及びターゲット照明値に基づいてシェーディングを行ってシェーディング結果データを生成するステップと、前記シェーディング結果データと前記変形されたアルベドデータに基づいて中間イメージデータを生成するステップと、ターゲットポーズ値に基づいて、前記中間イメージデータ及び前記変形された深度データから再構成されたイメージデータを生成するステップとを含む。

前記アルベドデータ及び前記深度データを決定するステップは、ニューラルネットワーク基盤のアルベド抽出モデルを用いて、前記入力イメージデータから前記標準空間におけるアルベドデータを決定するステップと、ニューラルネットワーク基盤の深度抽出モデルを用いて、前記入力イメージデータから前記標準空間における深度データを決定するステップとを含むことができる。

前記標準空間におけるアルベドデータは、前記オブジェクトが基準となる標準形態に変形された時のアルベドデータに対応し、前記標準空間における深度データは、前記オブジェクトが前記標準形態に変形された時の深度データに対応することができる。

前記変形されたアルベドデータ及び前記変形された深度データを生成するステップは、前記ターゲット形状変形値に基づいて前記アルベドデータ及び前記深度データそれぞれに対して後方ワーピング演算を行うステップを含むことができる。

前記シェーディング結果データを生成するステップは、前記変形された深度データから前記オブジェクトの表面ノーマル成分を抽出するステップと、前記抽出された表面ノーマル成分と前記ターゲット照明値に基づいてシェーディングを行って前記シェーディング結果データを生成するステップとを含むことができる。

前記再構成されたイメージデータを生成するステップは、前記中間イメージデータ及び前記変形された深度データそれぞれに示された前記オブジェクトのポーズを前記ターゲットポーズ値に基づいて変形し、前記オブジェクトのポーズが変形された中間イメージデータ及び前記オブジェクトのポーズが変形された深度データを組み合わせることで、前記再構成されたイメージデータを生成するステップを含むことができる。

前記ターゲット形状変形値、前記ターゲット照明値、及び前記ターゲットポーズ値は、前記ニューラルネットワーク基盤の第１抽出モデルでない他のニューラルネットワーク基盤の第２抽出モデルを用いて他の入力イメージデータから抽出された値であってもよい。

一実施形態に係る再構成されたイメージを生成するイメージ処理装置は、少なくとも１つのプロセッサを含み、前記少なくとも１つのプロセッサは、前記イメージ処理装置が、ニューラルネットワーク基盤の第１抽出モデルを用いて、オブジェクトが示された入力イメージデータから標準空間におけるアルベドデータ及び前記標準空間における深度データを決定する動作と、前記アルベドデータと前記深度データそれぞれにターゲット形状変形値を適用して変形されたアルベドデータ及び変形された深度データを生成する動作と、前記変形された深度データ及びターゲット照明値に基づいてシェーディングを行ってシェーディング結果データを生成する動作と、前記シェーディング結果データと前記変形されたアルベドデータに基づいて中間イメージデータを生成する動作と、ターゲットポーズ値に基づいて、前記中間イメージデータ及び前記変形された深度データから再構成されたイメージデータを生成する動作とを行うように制御する。

一実施形態に係る学習方法は、ニューラルネットワーク基盤の第１抽出モデルを用いて、第１学習イメージデータから標準空間におけるアルベドデータ及び前記標準空間における深度データを決定するステップと、前記第２学習イメージデータから形状変形値、照明値、及びポーズ値を抽出するステップと、前記アルベドデータと前記深度データそれぞれに前記形状変形値を適用して変形されたアルベドデータ及び変形された深度データを生成するステップと、前記変形された深度データ及び前記照明値に基づいてシェーディングを行ってシェーディング結果データを生成するステップと、前記シェーディング結果データと前記変形されたアルベドデータに基づいて中間イメージデータを生成するステップと、前記ポーズ値に基づいて、前記中間イメージデータ及び前記変形された深度データから再構成されたイメージデータを生成するステップと、前記再構成されたイメージデータと前記第２学習イメージデータに基づいて、前記第１抽出モデルのパラメータをアップデートするステップとを含む。

一実施形態に係る電子装置は、入力イメージデータに基づいて再構成されたイメージデータを生成するプロセッサと、前記再構成されたイメージデータを視覚化するディスプレイとを含み、前記プロセッサは、前記電子装置が、ニューラルネットワーク基盤の抽出モデルを用いてオブジェクトが示された入力イメージデータから標準空間におけるアルベドデータ及び前記標準空間における深度データを決定する動作と、前記アルベドデータと前記深度データそれぞれにターゲット形状変形値を適用して変形されたアルベドデータ及び変形された深度データを生成する動作と、前記変形された深度データ及びターゲット照明値に基づいてシェーディングを行ってシェーディング結果データを生成する動作と、前記シェーディング結果データと前記変形されたアルベドデータに基づいて中間イメージデータを生成する動作と、
ターゲットポーズ値に基づいて、前記中間イメージデータ及び前記変形された深度データから再構成されたイメージデータを生成する動作とを行うように制御することができる。

一実施形態によると、様々な視点、ポーズ、又は照明環境でイメージデータのオブジェクトを効率よくレンダリングすることができる。

一実施形態によると、固定されたオブジェクトだけでなく、動きのある様々な種類のオブジェクトに対してもレンダリングを効率よく行うことができる。

一実施形態に係る再構成されたイメージデータ生成の概要（ｏｖｅｒｖｉｅｗ）を説明するための図である。一実施形態に係るイメージ再構成フレームワークを説明するための図である。一実施形態に係る再構成されたイメージデータを生成するイメージ処理方法を説明するためのフローチャートである。一実施形態に係る再構成されたイメージデータを生成する過程をより具体的に説明するための図である。一実施形態に係る再構成されたイメージデータを生成する過程をより具体的に説明するための図である。一実施形態に係る抽出モデルに対する学習過程を説明するための図である。一実施形態に係るイメージ処理装置の構成を示す図である。一実施形態に係る電子装置の構成を示すブロック図である。

本明細書で開示する特定の構造的又は機能的な説明は単に実施形態を説明するための目的として例示したものであり、実施形態は様々な異なる形態で実施され、本発明は本明細書で説明した実施形態に限定されるものではなく、本発明の範囲は、実施形態で説明した技術的な思想に含まれている変更、均等物、または代替物を含む。

第１又は第２などの用語を複数の構成要素を説明するために用いることがあるが、このような用語は１つの構成要素を他の構成要素から区別する目的としてのみ解釈されなければならない。例えば、第１構成要素は第２構成要素と命名することができ、同様に第２構成要素は第１構成要素にも命名することができる。

いずれかの構成要素が他の構成要素に「連結」されているか「接続」されていると言及されたときには、その他の構成要素に直接的に連結されているか又は接続されているが、中間に他の構成要素が存在し得るものと理解されなければならない。

単数の表現は、文脈上、明白に異なる意味をもたない限り複数の表現を含む。本明細書において、「含む」又は「有する」等の用語は明細書上に記載した特徴、数字、ステップ、動作、構成要素、部品又はこれらを組み合わせたものが存在することを示すものであって、１つ又はそれ以上の他の特徴や数字、ステップ、動作、構成要素、部品、又はこれを組み合わせたものなどの存在又は付加の可能性を予め排除しないものとして理解しなければならない。

異なるように定義されない限り、技術的であるか又は科学的な用語を含むここで用いる全ての用語は、本実施形態が属する技術分野で通常の知識を有する者によって一般的に理解されるものと同じ意味を有する。一般的に用いられる予め定義された用語は、関連技術の文脈上で有する意味と一致する意味を有するものと解釈すべきであって、本明細書で明白に定義しない限り、理想的又は過度に形式的な意味として解釈されることはない。

以下、添付する図面を参照しながら実施形態を詳細に説明する。添付図面を参照して説明するにおいて、図面符号に関係なく同じ構成要素には同じ参照符号を付与し、これに対する重複する説明は省略することにする。

図１は、一実施形態に係る再構成されたイメージデータ生成の概要を説明するための図である。

図１を参照すると、イメージ処理装置１００（例えば、図７に示すイメージ処理装置７００）は、１つ以上の入力イメージデータから再構成されたイメージデータ（ｒｅｃｏｎｓｔｒｕｃｔｅｄｉｍａｇｅｄａｔａ）を生成する装置であって、例えば、ソフトウェアモジュール、ハードウェアモジュール又はこれらの組み合せにより実現することができる。イメージ処理装置１００は、中央処理装置（ｃｅｎｔｒａｌｐｒｏｃｅｓｓｉｎｇｕｎｉｔ；ＣＰＵ）及び／又はグラフィック処理装置（ｇｒａｐｈｉｃｐｒｏｃｅｓｓｉｎｇｕｎｉｔ；ＧＰＵ）を含んでもよく、中央処理装置及び／又はグラフィック処理装置を用いて入力イメージデータに示されたオブジェクトの形状、オブジェクトのポーズ、照明環境などを再構成したイメージデータを生成することができる。オブジェクトは、例えば、人の顔、モノなどであるが、実施形態の範囲がこれに限定されず、オブジェクトの種類にはその制限がない。

イメージ処理装置１００によって実行される再構成されたイメージデータの生成は、拡張現実、イメージレンダリング、ビデオ会議、顔面再現（ｆａｃｅｒｅｅｎａｃｔｍｅｎｔ）、ランドマーク検出（ｌａｎｄｍａｒｋｄｅｔｅｃｔｉｏｎ）、イメージ再照明（ｉｍａｇｅｒｅｌｉｇｈｔｉｎｇ）、３Ｄユーザインターフェース、イメージ修正などの応用で用いられる。拡張現実を、例えば、拡張現実でリアル世界イメージと仮想オブジェクトとの間を結合するために、リアル世界イメージに対する３Ｄ空間モデリングが必要である。３Ｄ空間モデリングを基盤に、イメージレンダリングを介して適切な照明環境及びポーズを有する仮想オブジェクトが生成される。イメージレンダリングは、コンピュータプログラムを用いてオブジェクトの含まれた３Ｄ場面からイメージを作り出す過程又はそのような方式である。３Ｄ場面をレンダリングすることは、３Ｄコンピュータグラフィックスにおける仮想の光源である１つ以上の仮想光源から出力される光に基づいて、３Ｄ場面に照明効果及びシェーディング効果などの視覚効果を適用する過程を含む。照明効果を適用することによって３Ｄ場面に含まれている３Ｄモデルのカラーが決定され、シェーディング効果を適用することによって遮られることによる陰影、反射光、透明な効果などが決定される。このような効果は、仮想光源から放射された光の特性（例、カラー及び方向など）、３Ｄモデルの特性（例、カラー、表面ノーマル、テクスチャ（ｔｅｘｔｕｒｅ）など）、仮想光源と３Ｄモデルとの間の配置関係などに基づく。イメージ処理装置１００は、入力イメージデータでイメージ成分を分解し、目的とするターゲット形状変形（ｄｅｆｏｒｍａｔｉｏｎ）値、ターゲット照明値とターゲットポーズ値に基づいて該当イメージ成分を変形し、変形されたイメージ成分を組み合わせることで適切な照明環境及びポーズを有する再構成されたイメージデータ（例えば、再構成された仮想オブジェクト）を生成することができる。

再構成されたイメージデータを生成するために、イメージ処理装置１００は、教師なし学習（ｕｎｓｕｐｅｒｖｉｓｅｄｌｅａｒｎｉｎｇ）を用いて学習されたニューラルネットワーク基盤のイメージ再構成フレームワークを使用することができる。イメージ再構成フレームワークは、１つ以上のニューラルネットワークを含み、１つ以上のニューラルネットワークは、正解データセット（ｇｒｏｕｎｄｔｒｕｔｈｄａｔａｓｅｔ）の必要なしに、ラベルのないデータ（ｕｎｌａｂｅｌｅｄｄａｔａ）によって学習されてもよい。従って、イメージ再構成フレームワークは、多様で大量の学習データに基づいて学習されることができる。イメージ再構成フレームワークについて、図２、図４及び図５を参照して下記で詳しく説明し、イメージ再構成フレームワークの学習については、図６を参照して下記で詳しく説明する。

図２は、一実施形態に係るイメージ再構成フレームワークを説明するための図である。

図２を参照すると、入力イメージデータ２１０から再構成されたイメージデータ２７０を生成するイメージ再構成フレームワークの一構造が示されている。オブジェクトが示された入力イメージデータ２１０がイメージ処理装置（例えば、図１に示すイメージ処理装置１００、図７に示すイメージ処理装置７００）に伝達される。オブジェクトが顔である場合、入力イメージデータ２１０は顔領域を含む顔イメージに対応する。

イメージ処理装置は、ニューラルネットワーク基盤の第１抽出モデル２２０を用いて、入力イメージデータ２１０からオブジェクトに対する材質成分データ２３０と幾何学的成分データ２４０を取得する。第１抽出モデル２２０は、入力イメージデータ２１０に基づいて材質成分データ２３０と幾何学的成分データ２４０を推定する。材質成分データ２３０は、オブジェクトに対するアルベド（ａｌｂｅｄｏ）データを含み、幾何学的成分データ２４０は、オブジェクトに対する深度データを含む。第１抽出モデル２２０から取得されるアルベドデータ及び深度データは、それぞれ標準空間（ｃａｎｏｎｉｃａｌｓｐａｃｅ）でワーピングされた標準空間におけるアルベドデータと、標準空間における深度データに対応する。標準空間は、正規化されたポーズ空間に対応する。入力イメージデータ２１０のオブジェクトポーズは様々であるが、イメージ処理装置は、第１抽出モデル２２０を介して基準ポーズに対応する標準空間におけるアルベドデータと深度データを取得することができる。本明細書において、アルベドデータ及び深度データを取得することは、アルベドデータ及び深度データを決定するものに代替されてもよい。

第１抽出モデル２２０は、１つ以上のニューラルネットワークを含む。例えば、第１抽出モデル２２０は、入力イメージデータ２１０からオブジェクトの材質成分データ２３０を抽出するためのニューラルネットワークであるアルベド抽出モデル２２２と、オブジェクトの幾何学的成分データ２４０を抽出するためのニューラルネットワークである深度抽出モデル２２４とを含む。異なる例として、第１抽出モデル２２０は、単一のニューラルネットワークから材質成分データ２３０と、幾何学的成分データ２４０が共に出力されるものと実現されてもよい。

ニューラルネットワークは入力データに対する応答として、内部パラメータによって算出された値を出力する。ニューラルネットワークの少なくとも一部はソフトウェアで具現されたり、ニューラルプロセッサを含むハードウェアで具現されるか、又は、ソフトウェア及びハードウェアの組み合せで具現されてもよい。ニューラルネットワークは、完全接続ネットワーク（ｆｕｌｌｙｃｏｎｎｅｃｔｅｄｎｅｔｗｏｒｋ）、ディープ畳み込みネットワーク（ｄｅｅｐｃｏｎｖｏｌｕｔｉｏｎａｌｎｅｔｗｏｒｋ）及びリカレントニューラルネットワーク（ｒｅｃｕｒｒｅｎｔｎｅｕｒａｌｎｅｔｗｏｒｋ）などを含むディープニューラルネットワーク（ｄｅｅｐｎｅｕｒａｌｎｅｔｗｏｒｋ、ＤＮＮ）に該当する。ＤＮＮは複数のレイヤを含む。複数のレイヤは、入力層、１つ以上の隠れ層、及び出力層を含む。ニューラルネットワークは、ディープラーニング（ｄｅｅｐｌｅａｒｎｉｎｇ）に基づいて、非線形関係にある入力データ及び出力データを互いにマッピングすることで、与えられた動作を行うようトレーニングされてもよい。ディープラーニングは、ビッグデータセットから与えられた問題を解決するための機械学習方式である。ディープラーニングは、準備されたトレーニングデータを用いてニューラルネットワークを学習させ、エネルギーが最小化される地点を行くニューラルネットワークの最適化過程である。

イメージ処理装置は、イメージ再構成処理器２５０を介して材質成分データ２３０、幾何学的成分データ２４０、及びターゲット構成データ２６０から再構成されたイメージデータ２７０を生成する。ターゲット構成データ２６０は、入力イメージデータ２１０を再構成するための１つ以上の設定値を含む構成データとして、ターゲット形状変形（ｔａｒｇｅｔｓｈａｐｅｄｅｆｏｒｍａｔｉｏｎ）値、ターゲット照明値、及びターゲットポーズ値を含む。ターゲット構成データ２６０は、入力イメージデータ２１０のオブジェクトと同一のオブジェクトが示された他の入力イメージデータから抽出されたり、又は入力イメージデータ２１０のオブジェクトと異なるオブジェクトが示されている他の入力イメージデータから抽出されてもよい。ターゲット構成データ２６０のターゲット形状変形値、ターゲット照明値、及びターゲットポーズ値は、ニューラルネットワーク基盤の第２抽出モデルを用いて、他の入力イメージデータから抽出されることができる。

イメージ再構成処理器２５０は、ターゲット形状変形値に基づいて材質成分データ２３０と幾何学的成分データ２４０に示された形状を変形し、ターゲット照明値に基づいてシェーディングを行うことで、シェーディング結果データを生成することができる。イメージ再構成処理器２５０は、シェーディング結果データとターゲットポーズ値に基づいてレンダリングを行い、再構成されたイメージデータ２７０を生成する。再構成されたイメージデータ２７０は、入力イメージデータ２１０がターゲット構成データ２６０によってオブジェクトの形態、ポーズ、及び照明の変形されたイメージデータに対応する。もし、ターゲット構成データ２６０が入力イメージデータ２１０と他の入力イメージデータから抽出されたものであれば、再構成されたイメージデータ２７０は、入力イメージデータ２１０と他の入力イメージデータが組み合せわせられた形態を示す。

上記のような過程を通じて、イメージ処理装置は、入力イメージデータ２１０のオブジェクトに対して任意の視点やポーズでレンダリングしてもよい。上記で説明したイメージ再構成フレームワークにおけるイメージ処理は、拡張現実環境で様々な視点、ポーズ、照明環境でオブジェクトをレンダリングすることが必要なときに効果的である。また、イメージ再構成フレームワークは、イメージのうちオブジェクトが固定されることを要求せず、動きのある様々な種類のオブジェクトに適用可能である。

図３は、一実施形態に係る再構成されたイメージデータを生成するイメージ処理方法を説明するためのフローチャートである。イメージ処理方法は、本明細書で説明されるイメージ処理装置によって実行される。

図３を参照すると、ステップＳ３１０において、イメージ処理装置は、オブジェクトが示された入力イメージデータからアルベドデータ及び深度データを取得する。イメージ処理装置は、学習されたニューラルネットワーク基盤の抽出モデルを用いて、標準空間におけるアルベドデータと標準空間における深度データを取得する。標準空間におけるアルベドデータは、オブジェクトが基準となる標準形態に変形されたときのアルベドデータを示し、標準空間における深度データは、オブジェクトが標準形態に変形されたときの深度データを示す。

一実施形態において、イメージ処理装置は、ニューラルネットワーク基盤のアルベド抽出モデルを用いて入力イメージデータから標準空間におけるアルベドデータを取得し、ニューラルネットワーク基盤の深度抽出モデルを用いて入力イメージデータから標準空間における深度データを取得することができる。

ステップＳ３２０において、イメージ処理装置は、ターゲット形状変形値に基づいて変形された（ｄｅｆｏｒｍｅｄ）アルベドデータ及び変形された深度データを生成する。イメージ処理装置は、ステップＳ３１０で取得されたアルベドデータと深度データそれぞれにターゲット形状変形値を適用し、オブジェクトの形状が変形されたアルベドデータ及び変形された深度データを生成する。変形されたアルベドデータ及び変形された深度データの生成過程は、ターゲット形状の変換値に基づいてアルベドデータ及び深度データそれぞれに対して後方ワーピング演算（ｂａｃｋｗａｒｄｗａｒｐｉｎｇｏｐｅｒａｔｉｏｎ）を行う過程を含む。

ステップＳ３３０において、イメージ処理装置は、変形された深度データ及びターゲット照明値に基づいてシェーディングを行ってシェーディング結果データを生成する。イメージ処理装置は、変形された深度データからオブジェクトの表面ノーマル成分を抽出し、抽出された表面ノーマル成分及びターゲット照明値に基づいてシェーディングを行ってシェーディング結果データを生成することができる。オブジェクトの表面ノーマル成分は、オブジェクトで表面の法線（ｎｏｒｍａｌ）方向成分を示す。イメージ処理装置は、２次の球面調和関数（ｓｐｈｅｒｉｃａｌｈａｒｍｏｎｉｃｓ）を用いてシェーディングを行ってもよい。シェーディングは、ターゲット照明値が示す光源の照射方向とオブジェクトの表面ノーマル成分との間のベクトル内積によって決定されるシェーディング値を決定することを含む。

ステップＳ３４０において、イメージ処理装置は、シェーディング結果データ及び変形されたアルベドデータに基づいて中間イメージデータを生成する。中間イメージデータは、入力イメージデータにターゲット形状変形値とターゲット照明値が適用されたカラーイメージデータに対応する。オブジェクトのある点で見られるカラーは、オブジェクトの形態と材質、光源、及び視点の要素に影響を受ける。オブジェクトのカラーは、アルベド成分（又は、反射成分）とシェーディング成分に分類される。アルベド成分は、オブジェクトの形態と材質により決定されるオブジェクト固有のカラー成分ないし材質特性であって、光源及び視点とは関係ない。シェーディング成分は、光源から照射された光がオブジェクトの表面ノーマルと反応して示される照明特性値を示す。入力イメージデータでアルベド成分とシェーディング成分を目的とする形状変形、及び目的とする照明変形に適するように変形した後、互いに結合することで中間イメージデータを生成することができる。

ステップＳ３５０において、イメージ処理装置は、ターゲットポーズ値に基づいて中間イメージデータ及び変形された深度データから再構成されたイメージデータを生成する。イメージ処理装置は、中間イメージデータ及び変形された深度データそれぞれに示されたオブジェクトのポーズをターゲットポーズ値に基づいて変更してもよい。イメージ処理装置は、ターゲットポーズ値によって決定される投影行列（ｐｒｏｊｅｃｔｉｏｎｍａｔｒｉｘ）を介して、中間イメージデータ及び変形された深度データそれぞれに示されたオブジェクトのポーズをターゲットポーズ値が示されるポーズに変形してもよい。イメージ処理装置は、オブジェクトのポーズが変形された中間イメージデータ及びオブジェクトのポーズが変形された深度データを組み合わせることで、再構成されたイメージデータを生成することができる。

上記でターゲット形状変形値、ターゲット照明値、及びターゲットポーズ値は、入力イメージデータと異なる入力イメージデータから抽出される値であってもよい。ここで、他の入力イメージデータに示されたオブジェクトは、入力イメージデータに示されたオブジェクトと同一であるか、又は異なってもよい。一実施形態では、ターゲット形状変形値、ターゲット照明値、及びターゲットポーズ値は、学習されたニューラルネットワーク基盤の第２抽出モデルを用いて他の入力イメージデータから抽出される値であってもよい。この場合、第２抽出モデルに他の入力イメージデータが第２抽出モデルに入力され、第２抽出モデルから他の入力イメージデータのオブジェクト特性を示す形状変形値、照明値、及びポーズ値それぞれがターゲット形状変形値、ターゲット照明値、及びターゲットポーズ値として出力されることができる。入力イメージデータとは異なる入力イメージデータに基づいて再構成されたイメージデータが生成される場合、再構成されたイメージデータのオブジェクトの材質や全体的な形状の特性は、入力イメージデータに示されたオブジェクトの特性を示し、表情などのような局部的な形状変形、照明、及びポーズの特性は、他の入力イメージデータに示されたオブジェクトの特性を示す。

図４及び図５は、一実施形態に係る再構成されたイメージデータを生成する過程をより具体的に説明するための図である。以下で説明する再構成されたイメージデータを生成する過程は、本明細書で説明されるイメージ処理装置によって実行され得る。

図４を参照すると、学習されたニューラルネットワーク基盤の抽出モデル４１５（例えば、図２に示す第１抽出モデル２２０）によって入力イメージデータ４１０からオブジェクトの物理的要素が抽出される。抽出モデル４１５を介して標準空間におけるアルベドデータ４２０及び標準空間における深度データ４２５が抽出される。アルベドデータ４２０は、オブジェクトの材質成分として視点や照明に関係のない物質の固有カラーを示す。深度データ４２５は、オブジェクトの形状を示す。深度データ４２５は、ｘ、ｙ座標における深度値に表現される。アルベドデータ４２０及び深度データ４２５は、入力イメージデータ４１０の解像度と同じ解像度を有するイメージデータに表現される。アルベドデータ４２０及び深度データ４２５は、２次元の規則的なグリッド（ｇｒｉｄ）上で示されたオブジェクトの高密度ポイントクラウド（ｄｅｎｓｅｐｏｉｎｔｃｌｏｕｄ）を定義する属性であり得る。

標準空間におけるアルベドデータ４２０及び標準空間における深度データ４２５は、それぞれ標準空間が示す基準ポーズで整列されたアルベドデータと深度データを示す。標準空間は、変形可能なオブジェクトを単一のポーズ空間内に整列させるための空間であって、変形のない（ｄｅｆｏｒｍａｔｉｏｎ－ｆｒｅｅ）正規化されたポーズ空間に対応する。標準空間における変数は、全ての環境条件及び／又は変形に変わらないものと考慮される。標準空間におけるアルベドデータ４２０及び標準空間における深度データ４２５は、それぞれ変形に独立的である。オブジェクトが顔である場合、変形は表情に対応する。

標準空間におけるアルベドデータ４２０及び標準空間における深度データ４２５それぞれにターゲット形状変形値４３０を適用したものにより変形されたアルベドデータ４６０及び変形された深度データ４６５が取得される。ターゲット形状変形値４３０を適用する関数ｆ_ｗ４５５は、３Ｄ空間におけるポイントクラウドを移動するものに対応する後方ワーピング演算（ｂａｃｋｗａｒｄｗａｒｐｉｎｇｏｐｅｒａｔｉｏｎ）に該当する。関数ｆ_ｗ４５５は、ターゲット形状変形値４３０が示す形状変形の程度をポイントクラウドの移動のためのｘｙ軸及びｚ軸それぞれにおける３Ｄオフセット量として定義し、該当３Ｄオフセットの量を標準空間におけるアルベドデータ４２０及び標準空間における深度データ４２５それぞれに適用することで、変形されたアルベドデータ４６０と変形された深度データ４６５を生成することができる。

ターゲット形状変形値４３０は、オブジェクトが顔である場合に表情などを反映する値であって、オブジェクトの局部的な幾何学的な変化を反映する。ターゲット形状変形値４３０は、標準空間におけるポーズで形状に対する局部的な差値に対応する。例えば、標準空間のポーズが中立表情であり、目的とする表情が笑っている表情であれば、ターゲット形状変形値４３０は、中立表情と笑っている表情との間の形状差に対応する。

変形された深度データ４６５から表面ノーマルデータ４７０が生成されてもよい。表面ノーマルデータ４７０は、オブジェクトの幾何学的な形状成分を示す。表面ノーマルデータ４７０の表面ノーマル値は、局部的な隣ピクセルに対してピクセル単位回帰分析（ｐｅｒ－ｐｉｘｅｌｒｅｇｒｅｓｓｉｏｎ）を介して変形された深度データ４６５から算出される。現在のピクセルの深度値と周辺隣ピクセルの各深度値に基づいて、二乗距離の合計を最小化する平面が決定されれば、その決定された平面のノーマルベクトルを該当の現在ピクセルの表面ノーマル値として決定することができる。

その後、表面ノーマルデータ４７０及びターゲット照明値４４０に基づいてシェーディング４７５が実行される。ターゲット照明値４４０は、目的とする照明効果を表現するためのもので、多次元のベクトルに表現されてもよい。シェーディング４７５では、ターゲット照明値４４０によって照明成分を表面ノーマルデータ４７０に反映する。ランバートモデル（Ｌａｍｂｅｒｔｉａｎｍｏｄｅｌ）において、シェーディング４７５は、表面ノーマルデータ４７０及びターゲット照明値４４０に基づいて決定されるものとして表現されてもよい。シェーディング４７５のために、各ピクセルに対してシェーディング値を表面ノーマル値及び多次元のベクトル値に表現されるターゲット照明値４４０の２次組み合せ（ｑｕａｄｒａｔｉｃｃｏｍｂｉｎａｔｉｏｎ）として表現する球面調和関数が用いられてもよい。このようなシェーディング４７５過程を各ピクセルに対して行うことで、シェーディング結果のデータを生成することができる。

シェーディング結果データが生成された後、シェーディング結果データと変形されたアルベドデータ４６０との間のベクトル内積（ｖｅｃｔｏｒｄｏｔｐｒｏｄｕｃｔ）演算４８０を介して中間イメージデータ４８５が生成される。中間イメージデータ４８５は、拡散カラー情報を含んでもよい。

中間イメージデータ４８５、変形された深度データ４６５、及びターゲットポーズ値４５０に基づいて再構成されたイメージデータ４９５が生成される。ターゲットポーズ値４５０は、３Ｄ変換行列を定義する多次元のベクトルに表現されてもよい。３Ｄ変換行列は、移動及び回転などのための要素を含む。ターゲットポーズ値４５０は、標準空間から入力空間におけるポイントクラウド上にマッピングすることを定義する。ターゲットポーズ値４５０が与えられたとき、関数ｆ_ｒ４９０は、変形された深度データ４６５と中間イメージデータ４８５に関する高密度ポイントクラウドを入力空間に送信し、形状を定義している全てのポイント又はメッシュを対応するカメラのイメージ平面上で投影させることができる。その過程は、レンダリング処理によって行われてもよい。関数ｆ_ｒ４９０の処理結果として、再構成されたイメージデータ４９５が生成されてもよい。

上記のようなイメージ再構成フレームワークを介して入力イメージデータ４１０に示された各物理的な要素（視点、照明、及びポーズなど）を自在に操作可能である。一方、ターゲット形状変形値４３０、ターゲット照明値４４０、及びターゲットポーズ値４５０は与えられた値であってもよく、図５に示す実施形態のようにイメージデータから抽出される値であってもよい。

図５を参照すると、一実施形態において、同じオブジェクト又は互いに異なるオブジェクトの第１及び第２イメージデータ５１０，５３０がイメージ再構成フレームワークに入力されてもよい。第１及び第２イメージデータ５１０，５３０は、マルチフレームイメージを構成するイメージデータであってもよい。

学習されたニューラルネットワーク基盤の第１抽出モデル５１５（例えば、図４に示す抽出モデル４１５）を介して第１イメージデータ５１０から標準空間におけるアルベドデータ５２０及び標準空間における深度データ５２５が取得される。標準空間における整列を通じて、第１及び第２イメージデータ５１０，５３０に示された同じオブジェクトのポーズや形態が互いに異なる場合、又は、第１及び第２イメージデータ５１０，５３０に示されたオブジェクトが互いに異なる場合においても、第１及び第２イメージデータ５１０，５３０間の比較及び合成が可能である。

学習されたニューラルネットワーク基盤の第２抽出モデル５３５を介して第２イメージデータ５３０から形状変形値（例えば、表情値）５４０、照明値５４５、及びポーズ値５５０の物理的要素が抽出されることができる。抽出された形状変形値５４０、照明値５４５、及びポーズ値５５０は、それぞれ図４に示すターゲット形状変形値４３０、ターゲット照明値４４０、及びターゲットポーズ値４５０に対応する。第１抽出モデル５１５及び第２抽出モデル５３５は、互いに別個のニューラルネットワーク又は単一のニューラルネットワークに具現されてもよい。第１抽出モデル５１５として、エンコーダ－デコーダネットワークが利用され、第２抽出モデル５３５としてエンコーダネットワークが利用されてもよい。

標準空間におけるアルベドデータ５２０及び標準空間における深度データ５２５それぞれに形状変形値５４０を適用する関数ｆ_ｗ５５５によって、変形されたアルベドデータ５６０及び変形された深度データ５６５が取得される。変形された深度データ５６５から表面ノーマルデータ５７０が生成され、表面ノーマルデータ５７０及び照明値５４５に基づいてシェーディング５７５が行われる。シェーディング５７５の実行結果としてシェーディング結果データが生成され、シェーディング結果データと変形されたアルベドデータ５６０との間のベクトル内積演算５８０を介して中間イメージデータ５８５が生成されることができる。ポーズ値５５０に基づいて中間イメージデータ５８５及び変形された深度データ５６５のオブジェクトポーズを変更し、レンダリング処理を行う関数ｆ_ｒ５９０によって再構成されたイメージデータ５９５を生成することができる。

上記のようなイメージ再構成フレームワークにおいて、第２イメージデータ５３０から特定の物理的要素が抽出され、第１イメージデータ５１０の物理的要素を、これに対応する第２イメージデータ５３０の物理的要素に代替した再構成されたイメージデータ５９５が生成され得る。一方、図５に示す実施形態において、図４に示す実施形態と重複する部分に対する詳説は省略し、図４の実施形態に対する説明が図５の実施形態にも適用され得る。

図６は、一実施形態に係る抽出モデルに対する学習過程を説明するための図である。

図６において、図５に示すイメージ再構成フレームワークを学習させる学習過程について説明する。学習過程は、変形可能なオブジェクトの潜在された物理的要素を区分することを学習させる。学習過程は、プロセッサとメモリを含む学習装置によって行われてもよい。学習装置は、形状変形、照明環境、及びポーズのうちの１つ以上で差異が生じた複数の学習イメージデータを用いて学習過程を行ってもよい。第１学習イメージデータ６１０及び第２学習イメージデータ６３０は、例えば、マルチフレームイメージを構成しているイメージシーケンスから選択されたイメージとして同じ種類のオブジェクトを含んでもよい。

学習装置は、ニューラルネットワーク基盤の第１抽出モデル６１５を用いて、オブジェクトが示された第１学習イメージデータ６１０から標準空間におけるアルベドデータ６２０及び前記標準空間における深度データ６２５を取得することができる。

学習装置は、ニューラルネットワーク基盤の第２抽出モデル６３５を用いて、第２学習イメージデータ６３０から形状変形値６４０、照明値６４５、及びポーズ値６５０を抽出することができる。

学習装置は、標準空間におけるアルベドデータ６２０と標準空間における深度データ６２５それぞれに形状変形値６４０を適用する関数ｆ_ｗ６５５によって、変形されたアルベドデータ６６０及び変形された深度データ６６５を生成することができる。学習装置は、変形された深度データ６６５から表面ノーマルデータ６７０を生成し、表面ノーマルデータ６７０及び照明値６４５に基づいてシェーディング６７５を行ってもよい。

シェーディング６７５の実行結果としてシェーディング結果データが生成され、学習装置は、シェーディング結果データ及び変形されたアルベドデータ６６０に基づいて中間イメージデータ６８５を生成する。学習装置は、シェーディング結果データと変形されたアルベドデータ６６０との間のベクトル内積演算６８０を通じて、中間イメージデータ６８５を生成する。学習装置は、ポーズ値６５０に基づいて中間イメージデータ６８５及び変形された深度データ６６５から再構成されたイメージデータ６９５を生成する。学習装置はポーズ値６５０、中間イメージデータ６８５、及び変形された深度データ６６５に基づいて、レンダリング処理を行う関数ｆ_ｒ６９０を用いて再構成されたイメージデータ６９５を生成することができる。

学習器６００は、再構成されたイメージデータ６９５と第２学習イメージデータ６３０とを比較し、両方間の差に基づいて損失を定義する損失関数（ｌｏｓｓｆｕｎｃｔｉｏｎ）を定義する。損失関数を定義するために、例えば、フォトメトリック再構成損失（ｐｈｏｔｏｍｅｔｒｉｃｒｅｃｏｎｓｔｒｕｃｔｉｏｎｌｏｓｓ）を用いてもよい。フォトメトリック再構成損失は、再構成されたイメージデータ６９５と第２学習イメージデータ６３０との間のエラーを最小化することを目的とする。

学習器６００は、前記損失が減少するように第１抽出モデル６１５及び第２抽出モデル６３５を学習させることができる。学習過程は、第１抽出モデル６１５及び第２抽出モデル６３５のパラメータをアップデートする過程を含む。学習器６００は、再構成されたイメージデータ６９５と第２学習イメージデータ６３０との間の差が減少するように、第１抽出モデル６１５及び第２抽出モデル６３５それぞれのパラメータを繰り返し矯正する過程を含む。再構成されたイメージデータ６９５が第２学習イメージデータ６３０にフィッティング（ｆｉｔｔｉｎｇ）されるように第１抽出モデル６１５及び第２抽出モデル６３５の学習過程は自動に行われる。学習の完了した第１抽出モデル６１５は、図４に示す抽出モデル４１５及び図５に示す第１抽出モデル５１５として利用されてもよく、学習の完了した第２抽出モデル６３５は、図５に示す第２抽出モデル５３５として利用されてもよい
他の実施形態において、ターゲット形状変形値、ターゲット照明値、及びターゲットポーズ値は、他の入力イメージデータから抽出されてもよく、学習器６００は、再構成されたイメージデータ６９５と異なる入力イメージデータに基づいて抽出モデル６１５，６３５のパラメータをアップデートすることで、抽出モデル６１５，６３５を学習させてもよい。

上記のような学習過程は、オブジェクトが固定される必要がなく、動きのあるオブジェクトに対しても適用可能であり、複雑な書き込みステージなどを必要としないことから、様々で複数の学習イメージデータを使用できるという利点がある。また、本学習過程は、互いに異なるポーズ及び照明環境で得られたラベルのない（ｕｎｌａｂｅｌｅｄ）学習イメージデータを用いて自己教師あり学習（ｓｅｌｆ－ｓｕｐｅｒｖｉｓｅｄｌｅａｒｎｉｎｇ）が可能である利点がある。

図７は、一実施形態に係るイメージ処理装置の構成を示す図である。

図７を参照すると、イメージ処理装置７００（例えば、図１のイメージ処理装置１００）は、イメージデータを処理して再構成されたイメージデータを生成する装置である。イメージ処理装置７００は、１つ以上のプロセッサ７１０及びメモリ７２０を含む。

メモリ７２０は、コンピュータで読込み可能な命令語を格納する。メモリ７２０に格納された命令語がプロセッサ７１０によって実行されれば、プロセッサ７１０は、命令語によって定義される動作を処理する。メモリ７２０は、例えば、ＲＡＭ（ｒａｎｄｏｍａｃｃｅｓｓｍｅｍｏｒｉｅｓ）、ＤＲＡＭ（ｄｙｎａｍｉｃｒａｎｄｏｍａｃｃｅｓｓｍｅｍｏｒｉｅｓ）、ＳＲＡＭ（ｓｔａｔｉｃｒａｎｄｏｍａｃｃｅｓｓｍｅｍｏｒｉｅｓ）又は、この技術分野で知られた他の形態の不揮発性メモリを含んでもよい。

プロセッサ７１０は、イメージ処理装置７００の全体的な動作を制御する。プロセッサ７１０は、目的とする動作を実行させるための物理的な構造を有する回路つきハードウェアで具現された装置であってもよい。目的とする動作は、プログラムに含まれたコード又は命令語を含んでもよい。ハードウェアで具現された装置は、マイクロプロセッサー（ｍｉｃｒｏｐｒｏｃｅｓｓｏｒ）、中央処理装置（ＣｅｎｔｒａｌＰｒｏｃｅｓｓｉｎｇＵｎｉｔ；ＣＰＵ）、グラフィック処理装置（ＧｒａｐｈｉｃＰｒｏｃｅｓｓｉｎｇＵｎｉｔ；ＧＰＵ）、プロセッサコア（ｐｒｏｃｅｓｓｏｒｃｏｒｅ）、マルチコアプロセッサ（ｍｕｌｔｉ－ｃｏｒｅｐｒｏｃｅｓｓｏｒ）、マルチプロセッサ（ｍｕｌｔｉｐｒｏｃｅｓｓｏｒ）、ＡＳＩＣ（Ａｐｐｌｉｃａｔｉｏｎ－ＳｐｅｃｉｆｉｃＩｎｔｅｇｒａｔｅｄＣｉｒｃｕｉｔ）、ＦＰＧＡ（ＦｉｅｌｄＰｒｏｇｒａｍｍａｂｌｅＧａｔｅＡｒｒａｙ）、ＮＰＵ（ＮｅｕｒａｌＰｒｏｃｅｓｓｉｎｇＵｎｉｔ）などを含んでもよい。

プロセッサ７１０は、イメージ処理装置７００が実行するための機能及び命令語を実行することで、イメージ処理装置７００を制御することができる。プロセッサ７１０は、図１～図６を参照して前述した少なくとも１つの動作及び／又は機能を行うようにイメージ処理装置７００を制御することができる。

プロセッサ７１０の制御によりイメージ処理装置７００は、ニューラルネットワーク基盤の第１抽出モデルを用いて、オブジェクトが示された入力イメージデータから標準空間におけるアルベドデータ及び標準空間における深度データを取得することができる。

一実施形態において、イメージ処理装置７００は、ニューラルネットワーク基盤のアルベド抽出モデルを用いて入力イメージデータから標準空間におけるアルベドデータを取得し、ニューラルネットワーク基盤の深度抽出モデルを用いて、入力イメージデータから標準空間における深度データを取得することができる。イメージ処理装置７００は、取得されたアルベドデータと深度データそれぞれにターゲット形状変形値を適用して変形されたアルベドデータ、及び変形された深度データを生成する。イメージ処理装置７００は、変形された深度データ及びターゲット照明値に基づいてシェーディングを行ってシェーディング結果データを生成する。イメージ処理装置７００は、変形された深度データからオブジェクトの表面ノーマル成分を抽出し、抽出された表面ノーマル成分及びターゲット照明値に基づいてシェーディングを行ってシェーディング結果データを生成する。イメージ処理装置７００は、シェーディング結果データ及び変形されたアルベドデータに基づいて中間イメージデータを生成し、ターゲットポーズ値に基づいて中間イメージデータ及び変形された深度データから再構成されたイメージデータを生成する。ターゲット形状変形値、ターゲット照明値、及びターゲットポーズ値は、ニューラルネットワーク基盤の第２抽出モデルを用いて他の入力イメージデータから抽出される値であってもよい。イメージ処理装置７００は、中間イメージデータ及び変形された深度データそれぞれに示されたオブジェクトのポーズをターゲットポーズ値に基づいて変形し、オブジェクトのポーズが変形された中間イメージデータ及びオブジェクトのポーズが変形された深度データを組み合わせることで、再構成されたイメージデータを生成することができる。

図８は、一実施形態に係る電子装置の構成を示すブロック図である。

図８を参照すると、電子装置８００は、再構成されたイメージデータを生成し、生成された再構成されたイメージデータをユーザに提供することができる。電子装置８００は、上記で説明したイメージ処理装置（図１に示すイメージ処理装置１００又は図７に示すイメージ処理装置７００）を含む。

電子装置８００は、コンピューティング装置、イメージ取得装置、又はディスプレイ装置であってもよい。例えば、電子装置８００は、パーソナルコンピュータ、先進運転支援システム（ＡｄｖａｎｃｅｄＤｒｉｖｅｒｓＡｓｓｉｓｔａｎｃｅＳｙｓｔｅｍ；ＡＤＡＳ）、ＨＵＤ（ＨｅａｄＵｐＤｉｓｐｌａｙ）装置、カメラ、３Ｄデジタル情報ディスプレイ（ＤｉｇｉｔａｌＩｎｆｏｒｍａｔｉｏｎＤｉｓｐｌａｙ、ＤＩＤ）、ナビゲーション装置、ニューロモルフィック装置（ｎｅｕｒｏｍｏｒｐｈｉｃｄｅｖｉｃｅ）、３Ｄモバイル機器、スマートフォン、スマートＴＶ、スマート車両、ＩｏＴ（ＩｎｔｅｒｎｅｔｏｆＴｈｉｎｇｓ）デバイス、及び医療デバイスなどのように様々な分野の装置であり得る。ここで、３Ｄモバイル機器は、拡張現実、仮想現実、及び／又は混合現実を表示するためのディスプレイ装置、ヘッドマウントディスプレイ（ＨｅａｄＭｏｕｎｔｅｄＤｉｓｐｌａｙ；ＨＭＤ）、フェイスマウントディスプレイ（ＦａｃｅＭｏｕｎｔｅｄＤｉｓｐｌａｙ；ＦＭＤ）、及び拡張現実メガネ（ＡＲｇｌａｓｓｅｓ）などを含む。

電子装置８００は、プロセッサ８１０、格納装置８２０、センサ８３０、入力装置８４０、出力装置８５０、及び通信装置８６０を含む。電子装置８００の各構成要素は、通信バス８７０を介して通信することができる。

プロセッサ８１０は、電子装置８００の全体的な動作を制御し、電子装置８００内で実行するための機能及び命令語を実行する。プロセッサ８１０は、図１～図７を参照して前述した１つ以上の動作を行ってもよい。プロセッサ８１０は、入力イメージデータに基づいて再構成されたイメージデータを生成する。プロセッサ８１０は、ニューラルネットワーク基盤の抽出モデルを用いてオブジェクトが示された入力イメージデータから標準空間におけるアルベドデータ及び標準空間における深度データを取得し、アルベドデータと深度データそれぞれにターゲット形状変形値を適用して変形されたアルベドデータ及び変形された深度データを生成することができる。プロセッサ８１０は、変形された深度データ及びターゲット照明値に基づいてシェーディングを行ってシェーディング結果データを生成し、シェーディング結果データに変形されたアルベドデータに基づいて中間イメージデータを生成する。プロセッサ８１０は、ターゲットポーズ値に基づいて中間イメージデータ及び変形された深度データから再構成されたイメージデータを生成することができる。

格納装置８２０は、プロセッサ８１０が演算を行うために必要な情報を格納する。例えば、格納装置８２０は、プロセッサ８１０によって実行するための命令語を格納し、電子装置８００でソフトウェア又はプログラムが実行される間に関連情報を格納する。格納装置８２０は、メモリとしてＲＡＭ、ＤＲＡＭ、ＳＲＡＭ、又はこの技術分野で知られた他の形態の不揮発性メモリを含んでもよい。また、格納装置８２０は、ストレージ、磁気ハードディスク、光ディスク、フラッシュメモリ装置などのようなコンピュータ読み出し可能な格納媒体又はコンピュータ読み出し可能な格納装置を含んでもよい。

センサ８３０は、イメージデータを取得するイメージ取得装置、動きセンサなどのセンサを含む。イメージ取得装置は入力イメージデータを取得し、取得された入力イメージデータをプロセッサ８１０に伝達することができる。

入力装置８４０は、ユーザからユーザ入力を受信する。例えば、入力装置８４０は、キーボード、マウス、タッチスクリーン、マイクロホン、又は、ユーザからユーザ入力を検出し、検出されたユーザ入力を電子装置８００に伝達できる任意の他の装置を含む。

出力装置８５０は、視覚的、聴覚的、又は触覚的なチャネルを介してユーザに電子装置８００の出力を提供する。出力装置８５０は、ディスプレイ、タッチスクリーン、スピーカ、振動発生装置又はユーザに出力を提供できる任意の他の装置を含む。ディスプレイは、プロセッサ８１０によって生成された再構成されたイメージデータを視覚化して示すことができる。

通信装置８６０は、有線ネットワーク及び／又は無線ネットワークを介して外部装置と通信することができる。

以上で説明した実施形態は、ハードウェア構成要素、ソフトウェア構成要素、又はハードウェア構成要素及びソフトウェア構成要素の組み合せで具現される。例えば、本実施形態で説明した装置及び構成要素は、例えば、プロセッサ、コントローラ、ＡＬＵ（ａｒｉｔｈｍｅｔｉｃｌｏｇｉｃｕｎｉｔ）、デジタル信号プロセッサ（ｄｉｇｉｔａｌｓｉｇｎａｌｐｒｏｃｅｓｓｏｒ）、マイクロコンピュータ、ＦＰＡ（ｆｉｅｌｄｐｒｏｇｒａｍｍａｂｌｅａｒｒａｙ）、ＰＬＵ（ｐｒｏｇｒａｍｍａｂｌｅｌｏｇｉｃｕｎｉｔ）、マイクロプロセッサー、又は命令（ｉｎｓｔｒｕｃｔｉｏｎ）を実行して応答する異なる装置のように、１つ以上の汎用コンピュータ又は特殊目的コンピュータを用いて具現される。処理装置は、オペレーティングシステム（ＯＳ）及び前記オペレーティングシステム上で行われる１つ以上のソフトウェアアプリケーションを行うことができる。また、処理装置は、ソフトウェアの実行に応答してデータをアクセス、格納、操作、処理及び生成することもできる。理解の利便のために、処理装置は、１つが使用されるものと説明される場合もあるが、当該技術分野において通常の知識を有する者は、処理装置が複数の処理要素（ｐｒｏｃｅｓｓｉｎｇｅｌｅｍｅｎｔ）及び又は複数のタイプの処理要素を含んでいることが分かる。例えば、処理装置は、複数のプロセッサ又は一のプロセッサ及び一つのコントローラを含んでもよい。また、並列プロセッサのような、他の処理構成も可能である。

ソフトウェアは、コンピュータプログラム、コード、命令、又はそのうちの一つ以上の組合せを含み、希望の通りに動作するよう処理装置を構成したり、独立的又は結合的に処理装置を命令することができる。ソフトウェア及び／又はデータは、処理装置によって解釈されたり処理装置に命令又はデータを提供するために、いずれかの類型の機械、構成要素、物理的装置、仮想装置、コンピュータ格納媒体又は装置、又は送信される信号波に永久的又は一時的に具体化することができる。ソフトウェアはネットワークに連結されたコンピュータシステム上に分散され、分散した方法で格納されたり実行され得る。ソフトウェア及びデータは一つ以上のコンピュータで読出し可能な記録媒体に格納され得る。

実施形態に係る方法は、様々なコンピュータ手段を介して実施されるプログラム命令の形態で具現され、コンピュータ読み取り可能な記録媒体に記録される。記録媒体は、プログラム命令、データファイル、データ構造などを単独又は組み合せて含む。記録媒体及びプログラム命令は、本発明の目的のために特別に設計して構成されたものでもよく、コンピュータソフトウェア分野の技術を有する当業者にとって公知のものであり使用可能なものであってもよい。コンピュータ読み取り可能な記録媒体の例として、ハードディスク、フロッピー（登録商標）ディスク及び磁気テープのような磁気媒体、ＣＤ－ＲＯＭ、ＤＶＤのような光記録媒体、フロプティカルディスクのような磁気－光媒体、及びＲＯＭ、ＲＡＭ、フラッシュメモリなどのようなプログラム命令を保存して実行するように特別に構成されたハードウェア装置を含む。プログラム命令の例としては、コンパイラによって生成されるような機械語コードだけでなく、インタプリタなどを用いてコンピュータによって実行される高級言語コードを含む。上記で説明したハードウェア装置は、本発明に示す動作を実行するために１つ以上のソフトウェアモジュールとして作動するように構成してもよく、その逆も同様である。

上述したように実施形態をたとえ限定された図面によって説明したが、当技術分野で通常の知識を有する者であれば、上記の説明に基づいて様々な技術的な修正及び変形を適用することができる。例えば、説明された技術が説明された方法と異なる順で実行されるし、及び／又は説明されたシステム、構造、装置、回路などの構成要素が説明された方法と異なる形態で結合又は組み合わせられてもよいし、他の構成要素又は均等物によって置き換え又は置換されたとしても適切な結果を達成することができる。

したがって、本発明の範囲は、開示された実施形態に限定されて定められるものではなく、特許請求の範囲及び特許請求の範囲と均等なものなどによって定められるものである。

１００、７００：イメージ処理装置
２２２：アルベド抽出モデル
２２４：深度抽出モデル
２５０：イメージ再構成処理器
４１５：抽出モデル
２２０、５１５、６１５：第１抽出モデル
５３５、６３５：第２抽出モデル
６００：学習器
７１０、８１０：プロセッサ
７２０：メモリ
８００：電子装置
８２０：格納装置
８３０：センサ
８４０：入力装置
８５０：出力装置
８６０：通信装置
８７０：通信バス

Claims

再構成されたイメージを生成するイメージ処理方法であって、
ニューラルネットワーク基盤の抽出モデルを用いてオブジェクトが示された入力イメージデータから標準空間におけるアルベドデータ及び前記標準空間における深度データを決定するステップと、
前記アルベドデータと前記深度データそれぞれにターゲット形状変形値を適用して変形されたアルベドデータ及び変形された深度データを生成するステップと、
前記変形された深度データ及びターゲット照明値に基づいてシェーディングを行ってシェーディング結果データを生成するステップと、
前記シェーディング結果データと前記変形されたアルベドデータに基づいて中間イメージデータを生成するステップと、
ターゲットポーズ値に基づいて、前記中間イメージデータ及び前記変形された深度データから再構成されたイメージデータを生成するステップと、
を含むイメージ処理方法。
前記アルベドデータ及び前記深度データを決定するステップは、
ニューラルネットワーク基盤のアルベド抽出モデルを用いて、前記入力イメージデータから前記標準空間におけるアルベドデータを決定するステップと、
ニューラルネットワーク基盤の深度抽出モデルを用いて、前記入力イメージデータから前記標準空間における深度データを決定するステップと、
を含む、請求項１に記載のイメージ処理方法。
前記標準空間におけるアルベドデータは、前記オブジェクトが基準となる標準形態に変形された時のアルベドデータに対応し、
前記標準空間における深度データは、前記オブジェクトが前記標準形態に変形された時の深度データに対応する、請求項１又は２に記載のイメージ処理方法。
前記変形されたアルベドデータ及び前記変形された深度データを生成するステップは、前記ターゲット形状変形値に基づいて前記アルベドデータ及び前記深度データそれぞれに対して後方ワーピング演算を行うステップを含む、請求項１乃至３のいずれか１項に記載のイメージ処理方法。
前記シェーディング結果データを生成するステップは、
前記変形された深度データから前記オブジェクトの表面ノーマル成分を抽出するステップと、
前記抽出された表面ノーマル成分と前記ターゲット照明値に基づいてシェーディングを行って前記シェーディング結果データを生成するステップと、
を含む、請求項１乃至４のいずれか１項に記載のイメージ処理方法。
前記シェーディング結果データを生成するステップは、２次の球面調和関数を用いて前記シェーディングを行うステップを含む、請求項１乃至４のいずれか１項に記載のイメージ処理方法。
前記再構成されたイメージデータを生成するステップは、前記中間イメージデータ及び前記変形された深度データそれぞれに示された前記オブジェクトのポーズを前記ターゲットポーズ値に基づいて変形し、前記オブジェクトのポーズが変形された前記中間イメージデータ及び前記オブジェクトのポーズが変形された前記深度データを組み合わせることで、前記再構成されたイメージデータを生成するステップを含む、請求項１乃至６のいずれか１項に記載のイメージ処理方法。
前記ターゲット形状変形値、前記ターゲット照明値、及び前記ターゲットポーズ値は、
前記入力イメージデータと異なる入力イメージデータから抽出される値であり、
前記異なる入力イメージデータに示されたオブジェクトは、前記入力イメージデータに示されたオブジェクトと同一である、請求項１乃至７のいずれか１項に記載のイメージ処理方法。
前記ターゲット形状変形値、前記ターゲット照明値、及び前記ターゲットポーズ値は、前記オブジェクトと異なるオブジェクトが示されたイメージデータから抽出された値である、請求項１乃至７のいずれか１項に記載のイメージ処理方法。
前記ターゲット形状変形値、前記ターゲット照明値、及び前記ターゲットポーズ値は、前記ニューラルネットワーク基盤の抽出モデルでない他のニューラルネットワーク基盤の第２抽出モデルを用いて他の入力イメージデータから抽出された値である、請求項１乃至７のいずれか１項に記載のイメージ処理方法。
前記ターゲット形状変形値、前記ターゲット照明値、及び前記ターゲットポーズ値は、他の入力イメージデータから抽出され、
前記抽出モデルは、前記再構成されたイメージデータと前記他の入力イメージデータに基づいて、前記抽出モデルのパラメータをアップデートすることによって学習される、請求項１乃至７のいずれか１項に記載のイメージ処理方法。
請求項１乃至１１のいずれか１項に記載のイメージ処理方法を行うための命令語を含む１つ以上のコンピュータプログラムを格納したコンピュータで読み出し可能な記録媒体。
再構成されたイメージを生成するイメージ処理装置であって、
少なくとも１つのプロセッサを含み、
前記少なくとも１つのプロセッサは、前記イメージ処理装置に、請求項１乃至１１のいずれか１項に記載のイメージ処理方法を実行させる、
イメージ処理装置。
学習方法であって、
ニューラルネットワーク基盤の第１抽出モデルを用いて、第１学習イメージデータから標準空間におけるアルベドデータ及び前記標準空間における深度データを決定するステップと、
第２学習イメージデータから形状変形値、照明値、及びポーズ値を抽出するステップと、
前記アルベドデータと前記深度データそれぞれに前記形状変形値を適用して変形されたアルベドデータ及び変形された深度データを生成するステップと、
前記変形された深度データ及び前記照明値に基づいてシェーディングを行ってシェーディング結果データを生成するステップと、
前記シェーディング結果データと前記変形されたアルベドデータに基づいて中間イメージデータを生成するステップと、
前記ポーズ値に基づいて、前記中間イメージデータ及び前記変形された深度データから再構成されたイメージデータを生成するステップと、
前記再構成されたイメージデータと前記第２学習イメージデータに基づいて、前記第１抽出モデルのパラメータをアップデートするステップと、
を含む学習方法。
前記第１抽出モデルのパラメータをアップデートするステップは、前記再構成されたイメージデータと前記第２学習イメージデータとの間の差が減少するように前記第１抽出モデルのパラメータを繰り返し矯正するステップを含む、請求項１４に記載の学習方法。
前記形状変形値、前記照明値、及び前記ポーズ値を抽出するステップは、ニューラルネットワーク基盤の第２抽出モデルを用いて、前記第２学習イメージデータから前記形状変形値、前記照明値、及び前記ポーズ値を抽出するステップを含み、
前記第１抽出モデルのパラメータをアップデートするステップは、前記再構成されたイメージデータと前記第２学習イメージデータとの間の差が減少するように、前記第１抽出モデル及び第２抽出モデルそれぞれのパラメータを繰り返し矯正するステップを含む、請求項１４又は１５に記載の学習方法。
電子装置であって、
入力イメージデータに基づいて再構成されたイメージデータを生成するプロセッサと、
前記再構成されたイメージデータを視覚化するディスプレイと、を含み、
前記プロセッサは、前記電子装置が、
ニューラルネットワーク基盤の抽出モデルを用いてオブジェクトが示された入力イメージデータから標準空間におけるアルベドデータ及び前記標準空間における深度データを決定する動作と、
前記アルベドデータと前記深度データそれぞれにターゲット形状変形値を適用して変形されたアルベドデータ及び変形された深度データを生成する動作と、
前記変形された深度データ及びターゲット照明値に基づいてシェーディングを行ってシェーディング結果データを生成する動作と、
前記シェーディング結果データと前記変形されたアルベドデータに基づいて中間イメージデータを生成する動作と、
ターゲットポーズ値に基づいて、前記中間イメージデータ及び前記変形された深度データから再構成されたイメージデータを生成する動作と、
を行うように制御する、電子装置。