JP7005712B2

JP7005712B2 - 圧縮された画像を生成するための方法、システムおよび媒体

Info

Publication number: JP7005712B2
Application number: JP2020150528A
Authority: JP
Inventors: ライアン・オーバーベック
Original assignee: Google LLC
Current assignee: Google LLC
Priority date: 2020-01-07
Filing date: 2020-09-08
Publication date: 2022-01-24
Anticipated expiration: 2040-09-08
Also published as: KR102493860B1; JP2021111335A; US20240073551A1; US20210211593A1; CN112055213A; KR20210089068A; CN112055213B; EP3848903A1; US20220030184A1; US11758295B2; US11172148B2

Description

技術分野
開示される主題は、圧縮された画像を生成するための方法、システムおよび媒体に関する。より特定的には、開示される主題は、多深度画像、または多平面画像の圧縮された表現を生成することに関する。

背景
仮想現実コンテンツ、および他の３次元または没入型のコンテンツの拡散に伴い、ユーザーは、レンダリングするための比較的リソース集約的なコンテンツをダウンロード、ストリーミングおよび視聴することにますます興味を持っている。例えば、３次元の動画または画像は、サーバー上で比較的大きいファイルとして格納され得る。しかしながら、これらの大きいファイルは、格納することが困難であるか、または厄介であり得る。追加的に、いくつかの場合において、３次元のコンテンツは、当該３次元のコンテンツを形成するためにその後に重ねられるかまたは合成される複数のレイヤーを含むファイルとして格納され得る。そのようなコンテンツは、ユーザー装置上でレンダリングするためにリソース集約的であり得る。

したがって、圧縮された画像を生成するための、新たな方法、システムおよび媒体を提供することが望ましい。

概要
圧縮された画像を生成するための、方法、システムおよび媒体が提供される。

開示される主題のいくつかの実施形態に従うと、圧縮された画像を生成するための方法が提供され、当該方法は、３次元の画像を表す多平面画像（ＭＰＩ：multi-plane image）を識別することを含み、ＭＰＩは複数の正対する平面を含み、各正対する平面は、当該複数の正対する平面の各ピクセルの色および透過度を示す画像に関連付けられ、当該方法は、さらに、複数のサブボリュームにＭＰＩを分割することを含み、当該複数のサブボリュームにおける各サブボリュームは、当該複数の正対する平面のサブセットを含み、当該方法は、さらに、ＭＰＩの各サブボリュームに対して深度マップを算出することと、各深度マップをメッシュに変換することとを含み、各メッシュは、レンダリングされる多深度画像（ＭＤＩ：multi-depth image）に関連付けられた複数のレイヤーのうちのレイヤーに対応し、各深度マップは、ＭＤＩの対応するレイヤーに含まれる、ＭＤＩの各ボクセルの位置および深度を示し、ＭＤＩに関連付けられた当該複数のレイヤーにおけるレイヤーの数は、ＭＰＩに関連付けられた当該複数の正対する平面に含まれる正対する平面の数よりも小さく、当該方法は、さらに、当該複数のレイヤーの各レイヤーに対して、当該レイヤーに含まれる各ボクセルの色および透過度を示す画像を算出することと、ＭＤＩの当該複数のレイヤーに対応するメッシュ、および、ＭＤＩの当該複数のレイヤーに対応する画像を、ＭＤＩとして格納することと、ユーザー装置から３次元の画像に対する要求を受信することに応答して当該ユーザー装置にＭＤＩを伝達することとを含み、当該ユーザー装置は、ＭＤＩの各レイヤーに対して、当該レイヤーに対応するメッシュ上に、テクスチャとしての、当該レイヤーに対応する画像をマッピングすることによりＭＤＩをレンダリングするように構成されている。

いくつかの実施形態において、当該方法は、ＭＰＩ画像のシーケンスに対応する、ＭＤＩ画像のシーケンスを生成することをさらに含み、ＭＰＩ画像のシーケンスは、３次元の動画コンテンツに対応する。

いくつかの実施形態において、当該複数のサブボリュームにＭＰＩを分割することは、当該複数のサブボリュームを用いてＭＤＩをレンダリングすることにより生成されるレンダリング誤差を最小化することにより、当該複数のサブボリュームを生成する複数のカットを最適化することを含む。

いくつかの実施形態において、レンダリング誤差は、当該複数のカットのうちのカットを用いてＭＤＩをレンダリングすることから結果として生ずる深度における誤差を示す単一項を含む。

いくつかの実施形態において、レンダリング誤差は、当該複数のカットのうちのカットの平滑度を示す平滑度項を含み、当該平滑度は、当該カットに対応するサブボリュームに含まれるボクセルにわたる平滑度を含む。

いくつかの実施形態において、当該複数のサブボリュームにＭＰＩを分割することは、当該複数のサブボリュームを生成する複数のカットを識別するために、訓練されたニューラルネットワークを用いることを含む。

いくつかの実施形態において、ＭＤＩの各レイヤーに対応する各メッシュは、三角形のメッシュである。

開示される主題のいくつかの実施形態に従うと、圧縮された画像を生成するためのシステムが提供され、当該システムは、ハードウェアプロセッサを備え、当該ハードウェアプロセッサは、３次元の画像を表す多平面画像（ＭＰＩ）を識別するように構成されており、ＭＰＩは複数の正対する平面を含み、各正対する平面は、当該複数の正対する平面の各ピクセルの色および透過度を示す画像に関連付けられ、当該ハードウェアプロセッサは、さらに、複数のサブボリュームにＭＰＩを分割するように構成されており、当該複数のサブボリュームにおける各サブボリュームは、当該複数の正対する平面のサブセットを含み、当該ハードウェアプロセッサは、さらに、ＭＰＩの各サブボリュームに対して深度マップを算出し、各深度マップをメッシュに変換するように構成されており、各メッシュは、レンダリングされる多深度画像（ＭＤＩ）に関連付けられた複数のレイヤーのうちのレイヤーに対応し、各深度マップは、ＭＤＩの対応するレイヤーに含まれる、ＭＤＩの各ボクセルの位置および深度を示し、ＭＤＩに関連付けられた当該複数のレイヤーにおけるレイヤーの数は、ＭＰＩに関連付けられた当該複数の正対する平面に含まれる正対する平面の数よりも小さく、当該ハードウェアプロセッサは、さらに、当該複数のレイヤーの各レイヤーに対して、当該レイヤーに含まれる各ボクセルの色および透過度を示す画像を算出し、ＭＤＩの当該複数のレイヤーに対応するメッシュと、ＭＤＩの当該複数のレイヤーに対応する画像とをＭＤＩとして格納し、ユーザー装置から３次元の画像に対する要求を受信することに応答して当該ユーザー装置にＭＤＩを伝達するように構成されており、当該ユーザー装置は、ＭＤＩの各レイヤーに対して、当該レイヤーに対応するメッシュ上に、テクスチャとしての、当該レイヤーに対応する画像をマッピングすることによりＭＤＩをレンダリングするように構成されている。

開示される主題のいくつかの実施形態に従うと、コンピュータ実行可能な命令を含む非一時的なコンピュータ読み取り可能な媒体が提供され、当該命令は、プロセッサにより実行されると、当該プロセッサに、圧縮された画像を生成するための方法を行わせ、当該方法は、３次元の画像を表す多平面画像（ＭＰＩ）を識別することを含み、ＭＰＩは複数の正対する平面を含み、各正対する平面は、当該複数の正対する平面の各ピクセルの色および透過度を示す画像に関連付けられ、当該方法は、さらに、複数のサブボリュームにＭＰＩを分割することを含み、当該複数のサブボリュームにおける各サブボリュームは、当該複数の正対する平面のサブセットを含み、当該方法は、さらに、ＭＰＩの各サブボリュームに対して深度マップを算出することと、各深度マップをメッシュに変換することとを含み、各メッシュは、レンダリングされる多深度画像（ＭＤＩ）に関連付けられた複数のレイヤーのうちのレイヤーに対応し、各深度マップは、ＭＤＩの対応するレイヤーに含まれる、ＭＤＩの各ボクセルの位置および深度を示し、ＭＤＩに関連付けられた当該複数のレイヤーにおけるレイヤーの数は、ＭＰＩに関連付けられた当該複数の正対する平面に含まれる正対する平面の数よりも小さく、当該方法は、さらに、当該複数のレイヤーの各レイヤーに対して、当該レイヤーに含まれる各ボクセルの色および透過度を示す画像を算出することと、ＭＤＩの当該複数のレイヤーに対応するメッシュ、および、ＭＤＩの当該複数のレイヤーに対応する画像をＭＤＩとして格納することと、ユーザー装置から３次元の画像に対する要求を受信することに応答して当該ユーザー装置にＭＤＩを伝達することとを含み、当該ユーザー装置は、ＭＤＩの各レイヤーに対して、当該レイヤーに対応するメッシュ上に、テクスチャとしての、当該レイヤーに対応する画像をマッピングすることによりＭＤＩをレンダリングするように構成されている。

開示される主題のいくつかの実施形態に従うと、圧縮された画像を生成するためのシステムが提供され、当該システムは、３次元の画像を表す多平面画像（ＭＰＩ）を識別するための手段を備え、ＭＰＩは複数の正対する平面を含み、各正対する平面は、当該複数の正対する平面の各ピクセルの色および透過度を示す画像に関連付けられ、当該システムは、さらに、複数のサブボリュームにＭＰＩを分割するための手段を備え、当該複数のサブボリュームにおける各サブボリュームは、当該複数の正対する平面のサブセットを含み、当該システムは、さらに、ＭＰＩの各サブボリュームに対して深度マップを算出するための手段と、各深度マップをメッシュに変換するための手段とを備え、各メッシュは、レンダリングされる多深度画像（ＭＤＩ）に関連付けられた複数のレイヤーのうちのレイヤーに対応し、各深度マップは、ＭＤＩの対応するレイヤーに含まれる、ＭＤＩの各ボクセルの位置および深度を示し、ＭＤＩに関連付けられた当該複数のレイヤーにおけるレイヤーの数は、ＭＰＩに関連付けられた当該複数の正対する平面に含まれる正対する平面の数よりも小さく、当該システムは、さらに、当該複数のレイヤーの各レイヤーに対して、当該レイヤーに含まれる各ボクセルの色および透過度を示す画像を算出するための手段と、ＭＤＩの当該複数のレイヤーに対応するメッシュ、および、ＭＤＩの当該複数のレイヤーに対応する画像をＭＤＩとして格納するための手段と、ユーザー装置から３次元の画像に対する要求を受信することに応答して当該ユーザー装置にＭＤＩを伝達するための手段とを備え、当該ユーザー装置は、ＭＤＩの各レイヤーに対して、当該レイヤーに対応するメッシュ上に、テクスチャとしての、当該レイヤーに対応する画像をマッピングすることによりＭＤＩをレンダリングするように構成されている。

開示される主題の種々の対象、特徴および利点は、同様の参照番号が同様の要素を同定する以下の図面に関連して考慮されると、開示される主題の以下の詳細な説明を参照して、より十分に理解され得る。

開示される主題のいくつかの実施形態に従う、圧縮された画像を生成し、圧縮された画像をユーザー装置に伝達するためのプロセスの実例を示す図である。

開示される主題のいくつかの実施形態に従う、多平面画像（ＭＰＩ）のカットを最適化することにより、圧縮された画像を生成するためのプロセスの実例を示す図である。

開示される主題のいくつかの実施形態に従う、圧縮された画像を生成するためにニューラルネットワークを訓練するためのプロセスの実例を示す図である。

開示される主題のいくつかの実施形態に従う、圧縮された画像を生成するための、本明細書で説明されるメカニズムの実現に対して好適な例示的なシステムの模式的なダイアグラムを示す図である。

開示される主題のいくつかの実施形態に従う、図４のサーバーおよび／またはユーザー装置において用いられ得るハードウェアの詳細な例を示す図である。

開示される主題のいくつかの実施形態に従う、多平面画像の模式的なダイアグラムを示す図である。

詳細な説明
種々の実施形態に従うと、圧縮された画像を生成するための、（方法、システムおよび媒体を含み得る）メカニズムが提供される。

いくつかの実施形態において、本明細書で説明されるメカニズムは、３次元の画像または他の没入型のコンテンツに対応する、圧縮された画像を生成できる。例えば、いくつかの実施形態において、３次元の画像は、正対する平面（例えば、５０の平面、１００の平面、５００の平面、および／または任意の他の好適な数）の任意の好適な数の集合を含む画像であって、各正対する平面が赤－緑－青－アルファ（ＲＧＢＡ：Red-Green-Blue-Alpha）画像に関連付けられている多平面画像（ＭＰＩ）であり得る。いくつかの実施形態において、ＭＰＩ画像は、当該平面の各々のＲＧＢＡ画像の各々を重ねて合成することによりレンダリングされ得る。いくつかの実施形態において、本明細書で説明されるメカニズムは、ＭＰＩに対応する多深度画像（ＭＤＩ）を生成でき、ＭＤＩは、比較的より単純な、ＭＰＩの表現である。例えば、いくつかの実施形態において、本明細書で説明されるメカニズムは、ＭＰＩに関連付けられた正対する平面の数よりも少ない、レイヤーの数を含むＭＤＩを生成できる。いくつかのそのような実施形態において、ＭＤＩの各レイヤーは、ＭＤＩの当該レイヤーに対応するピクセルの深度を示すメッシュと、当該メッシュにマッピングされるテクスチャを示すＲＧＢＡ画像とに関連付けられ得る。

いくつかの実施形態において、当該メカニズムは、一連のＭＰＩ画像に対応する一連のＭＤＩ画像を生成できる。例えば、いくつかの実施形態において、一連のＭＤＩ画像は、動画コンテンツ（例えば、３次元の動画コンテンツ、仮想現実コンテンツ、および／または任意の他の好適なタイプの３次元の動画コンテンツを含む動画）のフレームに対応し得る。この例を用いて続けると、いくつかの実施形態において、当該メカニズムは、当該一連のＭＰＩ画像を通じて繰り返され、対応する一連のＭＤＩ画像を生成し、それによって、３次元の動画コンテンツの圧縮されたバージョンの画像を生成できる。

いくつかの実施形態において、本明細書で説明されるメカニズムは、任意の好適な装置により実行され得ることに注意されたい。例えば、いくつかの実施形態において、動画コンテンツを格納し、および／または動画コンテンツをユーザー装置に伝達するサーバーは、動画に対応するＭＤＩ画像のシーケンスを生成でき、その後、動画に対する要求に応答して、ＭＤＩ画像のシーケンスをユーザー装置に伝達できる。

いくつかの実施形態において、本明細書で説明されるメカニズムは、任意の好適な、技法または技法の組み合わせを用いてＭＤＩ画像を生成できる。例えば、図２に示され、図２に関連して以下に説明されるように、いくつかの実施形態において、当該メカニズムは、ＭＰＩ画像を一連のサブボリュームにカットすることによりＭＰＩ画像からＭＤＩ画像を生成でき、各サブボリュームは、ＭＤＩ画像のレイヤーに対応する。この例を用いて続けると、いくつかの実施形態において、当該メカニズムは、その後、メッシュと、各レイヤーに対して当該メッシュ上にマッピングされるＲＧＢＡテクスチャ画像とを算出できる。別の例として、図３に示され、図３に関連して以下に説明されるように、いくつかの実施形態において、当該メカニズムは、ＭＰＩ画像からＭＤＩ画像を生成するように訓練された機械学習アルゴリズムを用いてＭＤＩを生成できる。図３に関連して、より詳細に以下で説明されるように、いくつかの実施形態において、当該メカニズムは、勾配降下法を用いて、ＭＤＩの各レイヤーに対して当該画像上にマッピングされるメッシュおよびＲＧＢＡ画像を反復的に洗練し、レンダリングされるＭＤＩの間の誤差を、メッシュとＲＧＢＡ画像とグラウンドトゥルースＭＰＩ画像とを用いて最小化できる。

多深度画像、または、多平面画像の圧縮された表現を生成するための、これらの特徴および他の特徴は、図１～図６に関連してさらに説明される。

図１に向かうと、開示される主題のいくつかの実施形態に従う、圧縮された画像を生成し、圧縮された画像をユーザー装置に伝達するためのプロセスの実例１００が示される。いくつかの実施形態において、プロセス１００のブロックは、サーバー上で実現され得ることに注意されたい。例えば、いくつかの実施形態において、プロセス１００は、動画共有サービスに関連付けられたサーバー、ソーシャルネットワーキングプラットフォームに関連付けられたサーバー、および／または任意の他の好適なサーバー上で実現され得る。

プロセス１００は、３次元画像に対応する多平面画像（ＭＰＩ）を受信することにより、１０２において開始する。いくつかの実施形態において、ＭＰＩは、正対する平面の集合またはグループであり得、各平面は、当該平面の各ピクセルの色および透過度を示す、対応するＲＧＢＡ画像に関連付けられている。図６に向かうと、開示される主題のいくつかの実施形態に従う、ＭＰＩの例６００が示される。例示されるように、ＭＰＩ６００は、平面６０２，６０４および／または６０６などの、個々の正対する平面を含み得る。いくつかの実施形態において、ＭＰＩ６００は、各平面に関連付けられたＲＧＢＡ画像を用いて個々の平面を重ねて合成することにより、ユーザー装置上でレンダリングされ得る。例えば、いくつかの実施形態において、ＭＰＩ６００は、当該平面を後ろから前に重ねて合成することによりレンダリングされることができ、これにより、平面６０４が平面６０２上に合成され、平面６０６が平面６０４上に合成される。ＭＰＩ６００は、３つの正対する平面を示すが、示される平面の数は例示的であるにすぎないことに注意されたい。いくつかの実施形態において、ＭＰＩは、任意の好適な数の平面（例えば、１００，２００，１０００および／または任意の他の好適な数の平面）を含み得る。追加的に、いくつかの実施形態において、各平面は、任意の好適な幅および／または高さを有し得ることに注意されたい。

再び図１を参照して、いくつかの実施形態において、プロセス１００は、任意の好適な手法でＭＰＩを受信できる。例えば、いくつかの実施形態において、プロセス１００は、一連のＭＰＩ画像における画像としてＭＰＩを識別できる。より特定的な例として、いくつかの実施形態において、一連のＭＰＩ画像は、３次元の動画または他の没入型のコンテンツに対応でき、受信されるＭＰＩは、動画またはコンテンツのフレームに対応する。いくつかのそのような実施形態において、プロセス１００は、動画のフレームを通じて反復し、ブロック１０４に関連して以下に説明される技法を用いて各ＭＰＩ画像を圧縮することにより、圧縮された動画を生成できる。

１０４において、プロセス１００は、ＭＰＩに対応する多深度画像（ＭＤＩ）を生成できる。いくつかの実施形態において、ＭＤＩは、ＭＰＩの圧縮された表現であり得る。例えば、いくつかの実施形態において、ＭＤＩは、任意の好適な数のレイヤーを含むことができ、レイヤーの数は、ＭＰＩの正対する平面の数よりも小さい。より特定的な例として、１００の正対する平面をＭＰＩが有する例において、生成されるＭＤＩは、１００より小さい任意の好適な数、例えば８，１０，１５および／または任意の他の好適な数のレイヤーを有し得る。いくつかの実施形態において、ＭＤＩの各レイヤーは、ＭＤＩの当該レイヤーに含まれるボクセルの深度を表すメッシュに関連付けられ得る。追加的に、いくつかの実施形態において、ＭＤＩの各レイヤーは、ＭＤＩのレンダリングの間に、当該レイヤーに対応するメッシュ上にマッピングされるテクスチャを示すＲＧＢＡ画像に関連付けられ得る。いくつかの実施形態において、生成されるＭＤＩは、ＭＤＩの一連のレイヤーに対応する一連のメッシュとして格納されることができ、当該一連のメッシュにおける各メッシュは、格納されたＲＧＢＡテクスチャ画像に関連付けられる。

いくつかの実施形態において、プロセス１００は、任意の好適な手法でＭＤＩを生成できる。例えば、図２に示され、図２に関連してより詳細に以下に説明されるように、いくつかの実施形態において、プロセス１００は、ブロック１０２において受信されるＭＰＩを、ＭＤＩの各レイヤーに対応する一連のサブボリュームにカットすることにより、および、各サブボリュームに対して当該メッシュとＲＧＢＡテクスチャとを生成することによりＭＤＩを生成できる。別の例として、いくつかの実施形態において、プロセス１００は、訓練されたニューラルネットワークを用いてＭＤＩを生成できる。ＭＤＩを生成するためにニューラルネットワークを訓練するための手法は、図３に示され、図３に関連してより詳細に以下に説明されることに注意されたい。

１０６において、プロセス１００は、ＭＤＩを格納できる。いくつかの実施形態において、プロセス１００は、任意の好適な手法でＭＤＩを格納できる。例えば、いくつかの実施形態において、プロセス１００は、ＭＤＩの各レイヤーに対応する、生成されたメッシュと、当該メッシュにマッピングされる、対応するＲＧＢＡテクスチャマップとを含む１つまたは複数のファイルとしてＭＤＩを格納できる。別の例として、いくつかの実施形態において、ＭＤＩは、当該ＭＤＩが生成されるＭＰＩに当該ＭＤＩを関連付ける識別子とともに格納され得る。

いくつかの実施形態において、プロセス１００は、ブロック１０２にループバックし、別のＭＰＩを受信できることに注意されたい。例えば、一連のフレームを含む動画であって、各フレームがＭＰＩである動画から、プロセス１００が、圧縮された動画を生成している例において、プロセス１００は、当該一連のフレームにおける次のフレームを識別または受信するために１０２にループバックできる。いくつかのそのような実施形態において、プロセス１００は、当該一連のフレームにおけるフレームの各々を通じて反復するために、ブロック１０２～１０６をループ処理できる。

１０８において、プロセス１００は、ユーザー装置から、３次元の画像に対する要求を受信できる。いくつかの実施形態において、プロセス１００は、任意の好適な手法で当該要求を受信できる。例えば、いくつかの実施形態において、プロセス１００は、３次元の画像を含む、動画コンテンツ、仮想現実コンテンツおよび／または没入型のコンテンツをストリーミングまたはダウンロードするために、ユーザー装置から要求を受信できる。いくつかの実施形態において、動画コンテンツ、仮想現実コンテンツまたは他のタイプの没入型のコンテンツは、動画、広告、ビデオゲームおよび／または任意の他の好適なタイプのコンテンツなどの、任意の好適な系統のコンテンツを含み得ることに注意されたい。

１１０において、プロセス１００は、ユーザー装置上でのレンダリングのためにユーザー装置にＭＤＩを伝達できる。いくつかの実施形態において、プロセス１００は、任意の好適な手法でＭＤＩを伝達できる。例えば、いくつかの実施形態において、プロセス１００は、ＭＤＩの各レイヤーに対応するメッシュと、ＭＤＩの各レイヤーに対応するＲＧＢＡテクスチャマップとを含むファイルをユーザー装置に伝達できる。別の例として、いくつかの実施形態において、プロセス１００は、ＭＤＩをレンダリングするための命令をユーザー装置に伝達できる。ブロック１０８において受信された、ユーザー装置からの要求が動画または他の一連の画像に対するものである例において、プロセス１００は、要求された動画または当該一連の画像に対応する一連のＭＤＩ画像を伝達できることに注意されたい。

図２に向かうと、開示される主題のいくつかの実施形態に従って、サブボリュームのグループにＭＰＩをカットすることによりＭＰＩからＭＤＩを生成するためのプロセスの実例２００が示される。いくつかの実施形態において、プロセス２００のブロックは、ＭＰＩを格納するサーバー（例えば、動画ホスティングサービスに関連付けられたサーバー、ソーシャルネットワーキングサービスに関連付けられたサーバー、および／または任意の他の好適なサーバー）などの、任意の好適な装置上で実行され得ることに注意されたい。

プロセス２００は、ＭＰＩを受信することにより２０２において開始し得る。いくつかの実施形態において、プロセス２００は、任意の好適な手法でＭＰＩを受信できる。例えば、いくつかの実施形態において、図１のブロック１０２に関連して上述されたのと同様に、プロセス２００は、動画の一連のフレームにおけるフレームに対応するＭＰＩを受信できる。別の例として、いくつかの実施形態において、プロセス２００は、ＭＰＩを識別しているプロセスであって、ＭＰＩに対応するＭＤＩを格納している異なるプロセス（例えば、図１に示され、図１に関連して上述されたプロセス１００）からＭＰＩの指標を受信できる。

２０４において、プロセス２００は、複数のサブボリュームへのＭＰＩの分割を決定できる。いくつかの実施形態において、プロセス２００は、任意の好適な手法で複数のサブボリュームにＭＰＩを分割できる。例えば、いくつかの実施形態において、ＭＰＩに含まれる正対する平面の各々は、ｘ軸およびｙ軸を張ることができ、一連の正対する平面は、ｚ軸に沿って配列されることができる。この例を用いて続けると、いくつかの実施形態において、プロセス２００は、ｚ軸に沿ってカットすることによりＭＰＩを分割できる。すなわち、いくつかの実施形態において、プロセス２００は、ＭＰＩに関連付けられた複数の正対する平面がＭＰＩの各サブボリュームに含まれるように、ＭＰＩを分割できる。いくつかの実施形態において、各サブボリュームは、生成されるＭＤＩのレイヤーに対応し得ることに注意されたい。いくつかの実施形態において、プロセス２００は、任意の好適な数（例えば、８，１０，１５および／または任意の他の好適な数）のサブボリュームにＭＰＩを分割できる。

いくつかの実施形態において、プロセス２００は、任意の好適な技法、または技法の組み合わせを用いて、複数のサブボリュームへのＭＰＩの分割を決定できる。例えば、いくつかの実施形態において、プロセス２００は、複数のサブボリュームへ再帰的にＭＰＩを分けるために、グラフカットアルゴリズムを用いることができる。例えば、４つのサブボリュームを生成するために、プロセス２００は、ＭＰＩの第１のカットを識別し、第１のサブボリュームと第２のサブボリュームとを生成できる。この例を用いて続けると、その後、プロセス２００は、第１のサブボリュームの第２のカットと、第２のサブボリュームの第３のカットとを識別し、全部で４つのサブボリュームを生成できる。先行する例は、４つのサブボリュームを生成するための技法を説明するが、いくつかの実施形態において、プロセス２００は、任意の好適な数のサブボリュームを生成するために、上述された技法を繰り返すことができることに注意されたい。

いくつかの実施形態において、プロセス２００は、任意の好適な手法でＭＰＩのカット、またはＭＰＩのサブボリュームを識別できる。例えば、いくつかの実施形態において、ＭＰＩのカット、またはＭＰＩのサブボリュームを識別することは、ＭＰＩのｚ軸に沿った値を、各（ｘ，ｙ）ピクセル位置に対して決定することを含み得る。いくつかの実施形態において、ＭＰＩのカット、またはＭＰＩのサブボリュームのカットは、異なる（ｘ，ｙ）位置における、異なる数の、ＭＰＩの平面を含み得ることに注意されたい。例えば、いくつかの実施形態において、第１のカット深度ｚ_１において、第１の位置（ｘ_１，ｙ_１）は、ＭＰＩの１０の正対する平面を含むことができ、第２のカット深度ｚ_２において、第２の位置（ｘ_２，ｙ_２）は、ＭＰＩの２０の正対する平面を含むことができる。

いくつかの実施形態において、サブボリュームのグループにＭＰＩを分割した後、プロセス２００は、カット（複数可）により生成されるサブボリュームを用いて画像をレンダリングするときに生成されるであろう誤差を示す１つまたは複数の誤差値を算出できる。いくつかの実施形態において、プロセス２００は、その後、任意の好適な最適化アルゴリズムを用いて、ＭＰＩのカット（複数可）を反復的に修正し、１つまたは複数の誤差値を最小化できる。

いくつかの実施形態において、１つまたは複数の誤差値は、任意の好適なレンダリングの発見的方法を表すことができる。例えば、いくつかの実施形態において、１つまたは複数の誤差値は、単一項を含み得る。より特定的な例として、いくつかの実施形態において、単一項は、方程式

を用いて決定され得る。いくつかの実施形態において、ｓは、分割に対して提案されたｚ値を表すことができ、ａ_ｐは、ｐにおける透過度を表すことができ、ｂ_ｓは、ｓにおける分割に対して結果として生じる後方の深度を示すことができ、ｆ_ｓは、結果として生じる前方の深度を示すことができる。言い換えれば、ｓにおける分割は、ｓのいずれかの側でのｂ_ｓおよびｆsの深度値という結果となる。それゆえ、ｂ_ｓおよびｆ_ｓにない、ＭＰＩのひとつおきのボクセルは、ｂ_ｓおよびｆ_ｓにより表されるので、このことは、単一の誤差項により表される、いくつかの誤差を引き起こすだろう。すなわち、いくつかの実施形態において、単一項は、ｓにおけるカットを用いてレンダリングされるＭＤＩの深度における誤差を表すことができる。

いくつかの実施形態において、透過度項ａ_ｐは、任意の好適な技法、または技法の組み合わせを用いて算出され得ることに注意されたい。例えば、いくつかの実施形態において、プロセス２００は、ＭＰＩの、対応するボクセルに対するＲＧＢＡ画像に含まれるアルファ値をａ_ｐとして取る。別の例として、いくつかの実施形態において、プロセス２００は、値ａ_ｐを算出できる。より特定的な例として、いくつかの実施形態において、プロセス２００は、ボクセルを通じて一連の潜在的な視点からの一連の射線を放つことができる。この例を用いて続けると、いくつかの実施形態において、射線が視点に到達するときに、射線に沿ったボクセルから効果的なアルファ寄与が算出されるように、プロセス２００は、射線に沿ったアルファ値を累積できる。いくつかの実施形態において、累積されたアルファ値は、そのボクセルの透過度と考えられ得る。射線に対する透過度を算出するための例示的な方程式は、

であり、ａ_ｉは、射線に沿った深度ｉにおけるアルファ値である。いくつかの実施形態において、プロセス２００は、当該一連の射線における射線の全てのうちの最大の透過度を取ることができる。代替的に、いくつかの実施形態において、プロセス２００は、当該一連の射線における射線の全ての平均的な透過度を算出できる。いくつかの実施形態において、完全なＭＰＩボリュームに対する透過度は、計算されることができ、ＭＰＩの分割の間に誤差が算出されて最適化されると、入力として渡されることができる。

いくつかの実施形態において、レンダリング誤差を最小化するためにＭＰＩのカットを反復的に洗練することよりむしろ、プロセス２００は、任意の他の好適な手法で複数のサブボリュームにＭＰＩを分割できることに注意されたい。例えば、いくつかの実施形態において、プロセス２００は、ＭＰＩのカットを識別するように訓練されてきた、訓練されたニューラルネットワーク（例えば、畳み込みニューラルネットワーク、および／または任意の他の好適なタイプのニューラルネットワーク）を用いて、最小化されたレンダリング誤差を伴うＭＤＩを生成できる。

２０６において、プロセス２００は、各サブボリュームに対して深度マップを算出できる。いくつかの実施形態において、プロセス２００は、任意の好適な手法で、各サブボリュームに対して深度マップを算出できる。例えば、いくつかの実施形態において、プロセス２００は、各ボクセルにおけるＭＰＩアルファ値を用いて、ｓ_１およびｓ_２により境界付けられる正対する平面を重ねて合成することによって、２つの分割ｓ_１およびｓ_２により境界付けられる特定のサブボリュームに対して深度マップを算出できる。

２０８において、プロセス２００は、各深度マップをメッシュに変換でき、各メッシュは、レンダリングされるＭＤＩのレイヤーに対応する。いくつかの実施形態において、プロセス２００は、任意の好適な手法で、および任意の好適な技法（複数可）を用いてメッシュを生成できる。例えば、いくつかの実施形態において、プロセス２００は、各深度ピクセルにおいて２つの三角形を生成することにより、深度マップを三角形にできる。この例を用いて続けると、いくつかの実施形態において、プロセス２００は、その後、三角形のメッシュを生成するためにピクセルの角を接続できる。いくつかの実施形態において、プロセス２００は、例えば、三角形のメッシュの、全体の形、ボリュームおよび／または境界を維持しながら、三角形のメッシュに含まれる面の数を低減するために任意の好適な単純化アルゴリズムを用いることができる。いくつかの実施形態において、プロセス２００は、任意の好適な単純化アルゴリズム（例えば、リンドストローム－ターク（Lindstrom-Turk）のメッシュ単純化アルゴリズム、および／または任意の他の好適なアルゴリズム）を用いることができる。

２１０において、プロセス２００は、ＭＤＩの各レイヤーに対してＲＧＢＡテクスチャ値を計算できる。いくつかの実施形態において、プロセス２００は、任意の好適な手法でＲＧＢＡテクスチャ値を計算できることに注意されたい。例えば、いくつかの実施形態において、プロセス２００は、レイヤーに対応するサブボリュームの境界内の、ブロック２０２において受信される元々のＭＰＩに関連付けられたＲＧＢＡ値の合成を算出できる。

いくつかの実施形態において、プロセス２００は、ＭＰＩからのＭＤＩの生成により引き起こされるアーチファクトを平滑にする、および／または低減させる任意の好適な技法（複数可）行うことができることに注意されたい。例えば、いくつかの実施形態において、プロセス２００は、ランダムに選択される視点候補のセットを生成できる。この例を用いて続けると、いくつかの実施形態において、プロセス２００は、視点候補のセットから、各ＭＤＩメッシュ上の各ピクセルを通じていくつかの射線を放つことができる。いくつかの実施形態において、プロセス２００は、その後、各射線に沿ったＲＧＢＡ値の合成を計算でき、プロセス２００は、ピクセルを通じた射線の全てにわたる結果を平均化できる。いくつかの実施形態において、プロセス２００は、ピクセルを通じた射線の全てにわたる結果の平均を、レイヤーの対応するピクセルに対するＲＧＢＡ値として用いることができる。

追加的に、いくつかの実施形態において、動画の一連のフレームに対応する一連のＭＤＩをプロセス２００が生成する例では、プロセス２００は、任意の好適な技法（複数可）を用いて一時的に整合的な手法でＭＤＩを生成でき、これによりフリッカを回避できることに注意されたい。

２１２において、プロセス２００は、ＭＤＩの各レイヤーに対応する、ＲＧＢＡ値とメッシュとを、ＭＤＩとして格納できる。いくつかの実施形態において、プロセス２００は、任意の好適な手法で、ＲＧＢＡ値とメッシュとを格納できる。例えば、いくつかの実施形態において、プロセス２００は、ＲＧＢＡ値とメッシュとを含むファイルを生成できる。別の例として、いくつかの実施形態において、プロセス２００は、ブロック２０２で受信されたＭＰＩに、生成されたＭＤＩを関連付ける識別子に関連してＭＤＩを格納できる。

いくつかの実施形態において、ＭＤＩのレイヤーを生成するためにＭＰＩのカットを最適化することにより生成されたＭＤＩは、ＭＤＩの中心的なビューに対して最適化された、形状および／または色を有するＭＤＩを作り出すことができることに注意されたい。いくつかの実施形態において、結果のＭＤＩは、中心的なビューから離れて投影されると質が低下し得る。いくつかの実施形態において、異なる視点から投影されるＭＤＩの最終的なレンダリング誤差を最適化する、ニューラルネットワークまたは他の機械学習アルゴリズムを用いてＭＤＩを生成することは、異なる視点からレンダリングされるときに質の低下がより少ないＭＤＩを作り出すことができる。

図３に向かうと、開示される主題のいくつかの実施形態に従って、ＭＤＩを生成するためにニューラルネットワークを訓練するためのプロセスの実例３００が示される。いくつかの実施形態において、プロセス３００のブロックは、任意の好適な装置により実行され得ることに注意されたい。例えば、いくつかの実施形態において、プロセス３００のブロックは、動画共有サービスに関連付けられたサーバー、ソーシャルネットワーキングサービスに関連付けられたサーバー、および／または任意の他の好適なサーバーなどの、画像または動画を格納するサーバーにより実行され得る。

プロセス３００に関連して以下に説明される技法は、ＭＤＩを生成するようにニューラルネットワークを訓練することを説明することに注意されたい。いくつかの実施形態において、ニューラルネットワークは、任意の好適なトポロジーを有し得る。例えば、いくつかの実施形態において、ニューラルネットワークは、任意の好適な手法で接続される、任意の好適な数のレイヤーを有し得る。別の例として、いくつかの実施形態において、ニューラルネットワークは、ＭＤＩが生成されるＭＰＩのサイズなどの任意の好適なパラメータ、および／または任意の他の好適な入力もしくはパラメータに対応する任意の好適な数の入力を有し得る。

プロセス３００は、ＭＰＩを受信することにより３０２において開始できる。いくつかの実施形態において、プロセス３００は、任意の好適な手法でＭＰＩを受信できる。例えば、いくつかの実施形態において、図１のブロック１０２および図２のブロック２０２に関連して上述されたのと同様に、プロセス３００は、動画の一連のフレームにおけるフレームに対応するＭＰＩを受信できる。別の例として、いくつかの実施形態において、プロセス３００は、異なるプロセス（例えば、図１に示され、図１に関連して上述されたプロセス１００）からＭＰＩの指標を受信でき、当該プロセスは、ＭＰＩを識別し、ＭＰＩに対応するＭＤＩを格納している。

さらに別の例として、いくつかの実施形態において、プロセス３００は、ＭＰＩを生成できる。いくつかの実施形態において、プロセス３００は、任意の好適な手法で、および任意の好適な技法（複数可）を用いてＭＰＩを生成できる。例えば、いくつかの実施形態において、プロセス３００（または任意の他の好適なプロセス）は、任意の好適な視点からのカメラ画像の、任意の好適な散在するセットを用いてＭＰＩを生成するように訓練された、任意の好適なアルゴリズムを用いてＭＰＩを生成できる。いくつかの実施形態において、当該アルゴリズムは、生成されるＭＰＩのレンダリング誤差を最小化するための、学習された勾配降下法を用いるアルゴリズムなどの任意の好適なタイプのアルゴリズム、および／または任意の他の好適なタイプのアルゴリズムを含み得る。例えば、いくつかの実施形態において、学習された勾配降下法は、（例えば、カメラリグに関連付けられた、任意の好適な数のカメラからの）ビューの、散在するセットを入力として取り、ビューの、散在するセットを入力として用いて初期のＭＰＩ画像を生成する、任意の好適なトポロジーを有するニューラルネットワーク（畳み込みニューラルネットワーク、および／または任意の他の好適なタイプのニューラルネットワーク）に適用され得る。この例を用いて続けると、いくつかの実施形態において、その後、学習された勾配降下法は、ＭＰＩを生成するために用いられる、任意の好適な重みまたはパラメータ（例えば、ＭＰＩの各平面の各ピクセルの色に対応する重みもしくはパラメータ、ＭＰＩの各平面の各ピクセルの透過度に対応する重みもしくはパラメータ、および／または任意の他の好適な重みもしくはパラメータ）の更新を用いてＭＰＩを反復的に改善するために用いられ得る。

３０４において、プロセス３００は、訓練サンプルのバッチを生成でき、各訓練サンプルは、ＭＰＩのビューに対応する。いくつかの実施形態において、当該バッチは、任意の好適な数（例えば、１０，２０，３２および／または任意の他の好適な数）の訓練サンプルを含み得ることに注意されたい。いくつかの実施形態において、訓練サンプルのバッチにおける各訓練サンプルは、ＭＰＩに関連付けられた異なる視点に対応し得る。いくつかの実施形態において、プロセス３００は、任意の好適な手法で、バッチにおける各訓練サンプルに対応する異なる視点を識別し、当該視点がＭＰＩのビューボリュームにわたって分散されることを保証できる。例えば、いくつかの実施形態において、プロセス３００は、任意の好適な階層化されたサンプリング技法を用いて、各々が異なるグループの視点に対応する任意の好適な数の階層にＭＰＩのビューボリュームを分けることができ、訓練サンプルのバッチにおける訓練サンプルを各階層の中からランダムに選択できる。

３０６において、プロセス３００は、ＭＤＩのレイヤーのグループにおける各レイヤーに対して、メッシュとＲＧＢＡ画像とを初期化できる。いくつかの実施形態において、各メッシュは、任意の好適なサイズおよび／または形状を有し得る。例えば、いくつかの実施形態において、各メッシュは、８×８ピクセルクアッドであり得る。この例を用いて続けると、いくつかの実施形態において、各ピクセルクアッドは、任意の好適な数（例えば、２および／または任意の他の好適な数）の三角形を含むことができ、そのとき、当該三角形は、頂点において接続され、三角形のメッシュを生成する。上述されたメッシュは、例示的にすぎず、いくつかの実施形態において、メッシュは、任意の好適な形態の面を伴う、任意の好適なサイズ（例えば、４×４ピクセルクアッド、８×８ピクセルクアッド、１６×１６ピクセルクアッド、および／または任意の他のサイズ）を有し得ることに注意されたい。いくつかの実施形態において、各ＲＧＢＡ画像は、ＭＰＩの正対する平面のサイズに対応するサイズを有し得る。すなわち、いくつかの実施形態において、各ＲＧＢＡ画像は、ＭＰＩの正対する平面の多数のピクセルに対応する、多数のピクセルを有し得る。

いくつかの実施形態において、プロセス３００は、任意の好適な手法でメッシュとＲＧＢＡ画像とを初期化できる。例えば、いくつかの実施形態において、プロセス３００は、メッシュを初期化でき、メッシュの各（ｘ，ｙ）点は、メッシュに対応するＭＰＩの正対する平面のグループの位置情報に基づく位置に初期化される。別の例として、いくつかの実施形態において、プロセス３００は、任意の好適な方法で、各メッシュに関連付けられた深度値を（例えば、予め定められた範囲内のランダムな値に、０の深度に対応する値に、および／または任意の他の好適な値に）初期化できる。

いくつかの実施形態において、ＭＤＩは、図１および図２に関連して上述されたように、任意の好適な数（４，８，１６および／または任意の他の好適な数）のレイヤーに関連付けられ得ることに注意されたい。追加的に、いくつかの実施形態において、プロセス３００は、任意の好適な情報に基づいて、どれくらい多くのレイヤーをＭＤＩが有することになるかを決定できることに注意されたい。例えば、いくつかの実施形態において、プロセス３００は、初期化されたメッシュのサイズに基づいて、レイヤーの数を決定できる。より特定的な例として、いくつかの実施形態において、プロセス３００は、比較的大きい各レイヤーに関連付けられたメッシュ（例えば、１６×１６ピクセルクアッド、３２×３２ピクセルクアッド、および／または任意の他の好適なサイズのメッシュ）に基づいて、比較的少ない（例えば、４つの）レイヤーにＭＤＩが関連付けられることになることを決定できる。逆に、いくつかの実施形態において、プロセス３００は、比較的小さい各レイヤーに関連付けられたメッシュ（例えば、８×８ピクセルクアッド、および／または任意の他の好適なサイズのメッシュ）に基づいて、比較的多いレイヤー（例えば、８，１６および／または任意の他の好適な数のレイヤー）にＭＤＩが関連付けられることになることを決定できる。いくつかの実施形態において、プロセス３００は、任意の好適なトレードオフを最適化するために、および任意の好適な情報に基づいて、ＭＤＩに関連付けられたレイヤーの数と、各レイヤーに対応する各メッシュのサイズとを決定できることに注意されたい。例えば、いくつかの実施形態において、プロセス３００は、ＭＰＩの複雑性（例えば、ＭＰＩに含まれる正対する平面の数、および／または任意の他の複雑性の情報）、前のニューラルネットワーク訓練データに即した、訓練中にニューラルネットワークが収束するための予測される期間、および／または任意の他の好適な情報に基づいて、ＭＤＩに関連付けられたレイヤーの数と、各レイヤーに対応する各メッシュのサイズとを決定できる。

３０８において、プロセス３００は、バッチにおける各訓練サンプルに対する、メッシュおよびＲＧＢＡ画像を用いてＭＤＩをレンダリングできる。いくつかの実施形態において、プロセス３００は、任意の好適な技法、または技法の組み合わせを用いてＭＤＩをレンダリングできる。例えば、いくつかの実施形態において、プロセス３００は、ＭＤＩの各レイヤーに対するメッシュ上に、テクスチャとしてのＲＧＢＡ画像をマッピングできる。

３１０において、プロセス３００は、バッチにおける各訓練サンプルについて、ブロック３０８において訓練サンプルに対してレンダリングされるＭＤＩと、ＭＰＩの対応するビューとの差を示す、損失または誤差を算出できる。すなわち、いくつかの実施形態において、プロセス３００は、レンダリングされるＭＤＩと、ＭＰＩの対応するビューとの間の損失または誤差を算出でき、ＭＰＩのビューは、レンダリングされるＭＤＩが比較されるグラウンドトゥルースであると考えられる。いくつかの実施形態において、プロセス３００は、レンダリングされるＭＤＩおよび対応するグラウンドトゥルースＭＰＩ画像を用いて損失関数を評価することにより、訓練サンプルに対する、損失または誤差を算出できることに注意されたい。

３１２において、プロセス３００は、バッチにおける各訓練サンプルに対する誤差に基づいて、メッシュとＲＧＢＡ画像とに対応する重みを更新できる。いくつかの実施形態において、プロセス３００は、メッシュおよびＲＧＢＡ画像の任意の好適な態様に対応する重みを更新できる。例えば、いくつかの実施形態において、プロセス３００は、対応する（ｘ，ｙ）位置定数を保ちながら、各頂点の深度に対応する重みを更新できる。別の例として、いくつかの実施形態において、プロセス３００は、各ピクセルの、色または透過度を修正するために、ＲＧＢＡ値に対応する重みを更新できる。

いくつかの実施形態において、プロセス３００は、損失または誤差関数の勾配に基づいて重みを更新できる。例えば、いくつかの実施形態において、プロセス３００は、ＭＤＩの各レイヤーに対する、現在のメッシュおよび現在のＲＧＢＡ画像を用いて、勾配の反対の方向における重みを更新し、次の反復における誤差を低減できる。いくつかの実施形態において、プロセス３００は、任意の好適な学習率α（例えば、０．００１，０．００３，０．０１，０．０３，０．１および／または任意の他の好適な値）を使って、勾配を用いて重みを更新できる。

いくつかの実施形態において、プロセス３００は、バッチに含まれる訓練サンプルの全てにわたって、バッチの各訓練サンプルに対応する損失または誤差を、任意の好適な手法で集計できることに注意されたい。例えば、いくつかの実施形態において、プロセス３００は、損失関数を評価するときに、バッチにおける各訓練サンプルに対応する誤差を合計できる。

いくつかの実施形態において、プロセス３００は、ブロック３０８にループバックでき、ＭＤＩの各レイヤーに対する、更新されたメッシュと更新されたＲＧＢＡ画像とを用いてＭＤＩをレンダリングでき、当該更新されたメッシュと当該更新されたＲＧＢＡ画像とは、ブロック３１２において算出された、更新された重みに基づいている。いくつかの実施形態において、プロセス３００は、任意の好適な回数（例えば、１００，１０００，１００００および／または任意の他の好適な回数）、バッチに含まれる訓練サンプルを用いてブロック３０８～３１２をループ処理できる。例えば、プロセス３００は、訓練サンプルの新たなバッチを生成する前の一定の数の反復にわたって、バッチに含まれる訓練サンプルを用いてブロック３０８～３１２をループ処理できる。

その後、プロセス３００は、ブロック３１４に進むことができ、予め定められた停止基準が達成されたか否かを決定できる。いくつかの実施形態において、当該予め定められた停止基準は、任意の好適な基準を含み得る。例えば、いくつかの実施形態において、当該予め定められた停止基準は、ＭＤＩのレイヤーに対する、現在のメッシュおよび現在のＲＧＢＡ画像を用いて、訓練サンプルのバッチに含まれる訓練サンプルの集計誤差が予め定められた閾値より小さいか否かを含み得る。

ブロック３１４において、当該予め定められた停止基準が達成されていないとプロセス３００が決定する（３１４において「ｎｏ」である）場合、プロセス３００は、ブロック３０４にループバックでき、訓練サンプルの新たなバッチを生成できる。いくつかの実施形態において、その後、プロセス３００は、訓練サンプルの新たなバッチを用いて、ブロック３０６～３１２をループ処理できる。いくつかの実施形態において、訓練サンプルの新たなバッチは、任意の好適な数（例えば、１０，２０，１６，３２および／または任意の他の好適な数）の訓練サンプルを有し得る。例えば、プロセス３００は、収束まで、または予め指定された回数の反復の後、訓練サンプルの新たなバッチを繰り返して生成できる。

ブロック３１４において、当該予め定められた停止基準が達成されたとプロセス３００が決定する（３１４において「ｙｅｓ」である）場合、プロセス３００は、３１６において終了し得る。

開示される主題のいくつかの実施形態に従う、圧縮された画像を生成するための、本明細書で説明されるメカニズムの実現に対して好適である例示的なシステム４００の模式的な図である図４に進む。例示されるように、システム４００は、サーバー４０２、通信ネットワーク４０４、ならびに／または、ユーザー装置４０８および４１０などの１つもしくは複数のユーザー装置４０６を含み得る。

サーバー４０２は、情報、データ、プログラムおよび／または任意の他の好適なタイプのコンテンツを格納するための、任意の好適なサーバー（複数可）であり得る。いくつかの実施形態において、サーバー４０２は、任意の好適な機能（複数可）を行うことができる。例えば、いくつかの実施形態において、サーバー４０２は、圧縮された画像を生成するために用いられ得る。より特定的な例として、いくつかの実施形態において、図２に示され、図２に関連して上述されたように、サーバー４０２は、ＭＰＩのカットを最適化することによりＭＤＩを生成するために用いられ得る。より特定的な別の例として、いくつかの実施形態において、図３に示され、図３に関連して上述されたように、サーバー４０２は、ニューラルネットワークを訓練するために用いられ、ＭＤＩを生成できる。別の例として、いくつかの実施形態において、図１に示され、図１に関連して上述されたように、サーバー４０２は、ＭＤＩか、またはＭＤＩのシーケンスをユーザー装置に伝達するために用いられ得る。

通信ネットワーク４０４は、いくつかの実施形態において、１つまたは複数の、有線および／もしくは無線のネットワークの任意の好適な組み合わせであり得る。例えば、通信ネットワーク４０４は、インターネット、イントラネット、ワイドエリアネットワーク（ＷＡＮ：wide-area network）、ローカルエリアネットワーク（ＬＡＮ：local-area network）、無線ネットワーク、デジタル加入者回線（ＤＳＬ：digital subscriber line）ネットワーク、フレーム中継ネットワーク、非同期転送モード（ＡＴＭ：asynchronous transfer mode）ネットワーク、仮想プライベートネットワーク（ＶＰＮ：virtual private network）、および／もしくは任意の他の好適な通信ネットワークのうちの任意の１つまたは複数を含み得る。ユーザー装置４０６は、１つまたは複数の通信リンク（例えば、通信リンク４１２）により、１つまたは複数の通信リンク（例えば、通信リンク４１４）を介してサーバー４０２に繋がり得る通信ネットワーク４０４に接続され得る。通信リンクは、ネットワークリンク、ダイアルアップリンク、無線リンク、有線リンク、任意の他の好適な通信リンク、または、そのようなリンクの任意の好適な組み合わせなどの、ユーザー装置４０６およびサーバー４０２の間のデータを通信することに対して好適な任意の通信リンクであり得る。

ユーザー装置４０６は、画像、圧縮された画像、画像のシーケンス、および／または圧縮された画像のシーケンスを提供することに対して好適な任意の１つまたは複数のユーザー装置を含み得る。いくつかの実施形態において、ユーザー装置４０６は、任意の好適なタイプの装置を含み得る。例えば、いくつかの実施形態において、ユーザー装置４０６は、モバイル装置、タブレットコンピュータ、ラップトップコンピュータ、デスクトップコンピュータ、ウェアラブルコンピュータ、ゲームコンソール、メディアプレイヤー、車両用娯楽システム、および／または任意の他の好適なタイプのユーザー装置を含み得る。いくつかの実施形態において、ユーザー装置４０６は、図２および／または図３に関連して上述された機能のいずれかを実現するために追加的または代替的に用いられ、圧縮された画像を多平面画像から生成できることに注意されたい。

サーバー４０２が１つの装置として例示されているが、いくつかの実施形態において、サーバー４０２により行われる機能は、任意の好適な数の装置を用いて行われ得る。例えば、いくつかの実施形態において、複数の装置は、サーバー４０２により行われる機能を実現するために用いられ得る。

図を過度に複雑にすることを回避するために、図４において２つのユーザー装置４０８および４１０が示されているが、いくつかの実施形態において、任意の好適な数のユーザー装置、および／または、任意の好適なタイプのユーザー装置が用いられ得る。

いくつかの実施形態において、サーバー４０２およびユーザー装置４０６は、任意の好適なハードウェアを用いて実現され得る。例えば、いくつかの実施形態において、装置４０２および４０６は、任意の好適な一般用途のコンピュータ、または特定用途のコンピュータを用いて実現され得る。例えば、携帯電話は、特定用途のコンピュータを用いて実現され得る。任意のそのような一般用途のコンピュータ、または特定用途のコンピュータは、任意の好適なハードウェアを含み得る。例えば、図５の例示的なハードウェア５００に示されるように、そのようなハードウェアは、ハードウェアプロセッサ５０２と、メモリおよび／またはストレージ５０４と、入力装置コントローラ５０６と、入力装置５０８と、ディスプレイ／音声ドライバ５１０と、ディスプレイおよび音声出力回路５１２と、通信インターフェース（複数可）５１４と、アンテナ５１６と、バス５１８とを含み得る。

いくつかの実施形態において、ハードウェアプロセッサ５０２は、マイクロプロセッサ、マイクロコントローラ、デジタル信号プロセッサ（複数可）、専用の論理回路、および／または、一般用途のコンピュータもしくは特定用途のコンピュータの機能を制御するための任意の他の好適な回路などの、任意の好適なハードウェアプロセッサを含み得る。いくつかの実施形態において、ハードウェアプロセッサ５０２は、サーバー４０２などのサーバーのメモリおよび／またはストレージに格納されるサーバープログラムにより制御され得る。いくつかの実施形態において、ハードウェアプロセッサ５０２は、ユーザ装置４０６のメモリおよび／またはストレージ５０４に格納されるコンピュータプログラムにより制御され得る。

いくつかの実施形態において、メモリおよび／またはストレージ５０４は、プログラム、データ、および／または任意の他の好適な情報を格納するための、任意の好適なメモリおよび／またはストレージであり得る。例えば、メモリおよび／またはストレージ５０４は、ランダムアクセスメモリ、読み出し専用メモリ、フラッシュメモリ、ハードディスクストレージ、光学式媒体、および／または任意の他の好適なメモリを含み得る。

いくつかの実施形態において、入力装置コントローラ５０６は、１つまたは複数の入力装置５０８からの入力を制御し受信するための、任意の好適な回路であり得る。例えば、入力装置コントローラ５０６は、タッチスクリーンから、キーボードから、１つもしくは複数のボタンから、音声認識回路から、マイクロフォンから、カメラから、光学センサから、加速度計から、温度センサから、近接場センサから、圧力センサから、エンコーダーから、および／または任意の他のタイプの入力装置から、入力を受信するための回路であり得る。

いくつかの実施形態において、ディスプレイ／音声ドライバ５１０は、１つまたは複数のディスプレイ／音声出力装置５１２への出力を制御し駆動するための任意の好適な回路であり得る。例えば、ディスプレイ／音声ドライバ５１０は、タッチスクリーン、フラットパネルディスプレイ、ブラウン管ディスプレイ、投影機、スピーカー（a speaker or speakers）、ならびに／または、任意の他の好適なディスプレイおよび／もしくはプレゼンテーション装置を駆動するための回路であり得る。

通信インターフェース（複数可）５１４は、１つまたは複数の通信ネットワーク（例えば、コンピュータネットワーク４０４）とインターフェースするための任意の好適な回路であり得る。例えば、インターフェース（複数可）５１４は、ネットワークインターフェースカード回路、無線通信回路、および／または任意の他の好適なタイプの通信ネットワーク回路を含み得る。

いくつかの実施形態において、アンテナ５１６は、通信ネットワーク（例えば、通信ネットワーク４０４）と無線で通信するための任意の好適な１つまたは複数のアンテナであり得る。いくつかの実施形態において、アンテナ５１６は省かれ得る。

いくつかの実施形態において、バス５１８は、２つもしくは２つより多い構成要素５０２，５０４，５０６，５１０および５１４の間で通信するための任意の好適なメカニズムであり得る。

いくつかの実施形態に従うと、任意の他の好適な構成要素は、ハードウェア５００に含まれ得る。

いくつかの実施形態において、図１～図３のプロセスの上述されたブロックの少なくともいくつかは、図に示され図に関連して説明される順序およびシーケンスに限定されない、任意の順序またはシーケンスにおいて、実行され得るかまたは行われ得る。また、図１～図３の上記のブロックのいくつかは、待ち時間および処理時間を低減するために、適切な場合には実質的に同時に、もしくは並行して実行され得るかまたは行われ得る。追加的または代替的に、図１～図３のプロセスの上述されたブロックのいくつかは、省かれ得る。

いくつかの実施形態において、任意の好適なコンピュータ読み取り可能な媒体は、本明細書の機能および／またはプロセスを行うための命令を格納するために用いられ得る。例えば、いくつかの実施形態において、コンピュータ読み取り可能な媒体は、一時的または非一時的であり得る。例えば、非一時的なコンピュータ読み取り可能な媒体は、非一時的な形の磁気的媒体（例えば、ハードディスク、フロッピー（登録商標）ディスク、および／もしくは任意の他の好適な磁気的媒体）、非一時的な形の光学式媒体（例えば、コンパクトディスク、デジタルビデオディスク、ブルーレイディスク、および／もしくは任意の他の好適な光学式媒体）、非一時的な形の半導体媒体（例えば、フラッシュメモリ、電気的プログラマブル読み出し専用メモリ（ＥＰＲＯＭ：electrically programmable read-only memory）、電気的消去可能なプログラマブル読み出し専用メモリ（ＥＥＰＲＯＭ：electrically erasable programmable read-only memory）、および／もしくは任意の他の好適な半導体媒体）、伝達の間に、一過性でないかもしくは永続性に類似する如何なるものも欠けていない任意の好適な媒体、ならびに／または、任意の好適な有形な媒体などの媒体を含み得る。別の例として、一時的なコンピュータ読み取り可能な媒体は、ネットワーク上の信号、電信線、導体、光ファイバ、回路、伝達の間に、一過性でないかもしくは永続性に類似する如何なるものも欠けていない任意の好適な媒体、および／または任意の好適な有形の媒体における信号を含み得る。

従って、圧縮された画像を生成するための、方法、システムおよび媒体が提供される。

前述の例示的な実施形態において、発明が説明され例示されてきたが、本開示は、例としてのみなされたものであり、続く特許請求の範囲のみにより定められる、発明の趣旨および範囲から逸脱することなく、発明の実施形態の詳細における多数の変更がなされ得ることが理解される。開示された実施形態の特徴は、種々の方法において、組み合わせられ、組み替えられ得る。

Claims

圧縮された画像を生成するための、コンピュータによって実施される方法であって、前記方法は、
３次元の画像を表す多平面画像（ＭＰＩ：multi-plane image）を識別することを含み
、前記ＭＰＩは複数の正対する平面を含み、
前記方法は、さらに、
複数のサブボリュームに前記ＭＰＩを分割することを含み、前記複数のサブボリュームにおける各前記サブボリュームは、前記複数の正対する平面のサブセットを含み、
前記方法は、さらに、
前記ＭＰＩの各前記サブボリュームに対して深度マップを算出することと、
各前記深度マップをメッシュに変換することとを含み、各前記メッシュは、レンダリングされる多深度画像（ＭＤＩ：multi-depth image）に関連付けられた複数のレイヤーのうちのレイヤーに対応し、
前記方法は、さらに、
前記複数のレイヤーの各前記レイヤーに対して、ＲＧＢＡ（Ｒｅｄ－Ｇｒｅｅｎ－Ｂｌｕｅ－Ａｌｐｈａ）テクスチャ値を算出することと、
前記ＭＤＩの前記複数のレイヤーに対応する前記メッシュ、および、前記ＭＤＩの前記複数のレイヤーに対応する前記画像を、前記ＭＤＩとして格納することと
を含む、方法。
前記複数の正対する平面の各々は、前記複数の正対する平面の各ピクセルの色および透過度を示す画像に関連付けられ、および／または、
各前記深度マップは、前記ＭＤＩの前記対応するレイヤーに含まれる、前記ＭＤＩの各ボクセルの位置ならびに深度を示し、前記ＭＤＩに関連付けられた前記複数のレイヤーにおけるレイヤーの数は、前記ＭＰＩに関連付けられた前記複数の正対する平面に含まれる正対する平面の数よりも小さく、および／または、
ユーザー装置から前記３次元の画像に対する要求を受信することに応答して前記ユーザー装置に前記ＭＤＩを伝達し、前記ユーザー装置は、前記ＭＤＩの各前記レイヤーに対して、当該レイヤーに対応する前記メッシュ上に、テクスチャとしての、当該レイヤーに対応する前記画像をマッピングすることにより前記ＭＤＩをレンダリングするように構成されている、請求項１に記載の方法。
ＭＰＩ画像のシーケンスに対応する、ＭＤＩ画像のシーケンスを生成することをさらに含み、ＭＰＩ画像の前記シーケンスは、３次元の動画コンテンツに対応する、請求項１または請求項２に記載の方法。
前記複数のサブボリュームに前記ＭＰＩを分割することは、前記複数のサブボリュームを用いて前記ＭＤＩをレンダリングすることにより生成されるレンダリング誤差を最小化することにより、前記複数のサブボリュームを生成する複数のカットを最適化することを含む、請求項１～請求項３のいずれか１項に記載の方法。
前記レンダリング誤差は、前記複数のカットのうちのカットを用いて前記ＭＤＩをレンダリングすることから結果として生ずる深度における誤差を示す単一項を含み、または、
前記レンダリング誤差は、前記複数のカットのうちのカットの平滑度を示す平滑度項を含み、前記平滑度は、当該カットに対応する前記サブボリュームに含まれるボクセルにわたる平滑度を含む、請求項４に記載の方法。
前記複数のサブボリュームに前記ＭＰＩを分割することは、前記複数のサブボリュームを生成する複数のカットを識別するために、訓練されたニューラルネットワークを用いることを含む、請求項１～請求項５のいずれか１項に記載の方法。
前記ＭＤＩの各前記レイヤーに対応する各前記メッシュは、三角形のメッシュである、請求項１～請求項６のいずれか１項に記載の方法。
圧縮された画像を生成するためのシステムであって、前記システムは、
ハードウェアプロセッサを備え、前記ハードウェアプロセッサは、
３次元の画像を表す多平面画像（ＭＰＩ）を識別するように構成されており、前記ＭＰＩは複数の正対する平面を含み、
前記ハードウェアプロセッサは、さらに、
複数のサブボリュームに前記ＭＰＩを分割するように構成されており、前記複数のサブボリュームにおける各前記サブボリュームは、前記複数の正対する平面のサブセットを含み、
前記ハードウェアプロセッサは、さらに、
前記ＭＰＩの各前記サブボリュームに対して深度マップを算出し、
各前記深度マップをメッシュに変換するように構成されており、各前記メッシュは、レンダリングされる多深度画像（ＭＤＩ）に関連付けられた複数のレイヤーのうちのレイヤーに対応し、
前記ハードウェアプロセッサは、さらに、
前記複数のレイヤーの各前記レイヤーに対して、ＲＧＢＡ（Ｒｅｄ－Ｇｒｅｅｎ－Ｂｌｕｅ－Ａｌｐｈａ）テクスチャ値を算出し、
前記ＭＤＩの前記複数のレイヤーに対応する前記メッシュと、前記ＭＤＩの前記複数のレイヤーに対応する前記画像とを前記ＭＤＩとして格納するように構成される、システム。
前記複数の正対する平面の各々は、前記複数の正対する平面の各ピクセルの色および透過度を示す画像に関連付けられ、および／または、
各前記深度マップは、前記ＭＤＩの前記対応するレイヤーに含まれる、前記ＭＤＩの各ボクセルの位置ならびに深度を示し、前記ＭＤＩに関連付けられた前記複数のレイヤーにおけるレイヤーの数は、前記ＭＰＩに関連付けられた前記複数の正対する平面に含まれる正対する平面の数よりも小さく、および／または、
ユーザー装置から前記３次元の画像に対する要求を受信することに応答して前記ユーザー装置に前記ＭＤＩを伝達し、前記ユーザー装置は、前記ＭＤＩの各前記レイヤーに対して、当該レイヤーに対応する前記メッシュ上に、テクスチャとしての、当該レイヤーに対応する前記画像をマッピングすることにより前記ＭＤＩをレンダリングするように構成されている、請求項８に記載のシステム。
前記ハードウェアプロセッサは、ＭＰＩ画像のシーケンスに対応する、ＭＤＩ画像のシーケンスを生成するようにさらに構成されており、ＭＰＩ画像の前記シーケンスは、３次元の動画コンテンツに対応する、請求項８または請求項９に記載のシステム。
前記複数のサブボリュームに前記ＭＰＩを分割することは、前記複数のサブボリュームを用いて前記ＭＤＩをレンダリングすることにより生成されるレンダリング誤差を最小化することにより、前記複数のサブボリュームを生成する複数のカットを最適化することを含む、請求項８～請求項１０のいずれか１項に記載のシステム。
前記レンダリング誤差は、前記複数のカットのうちのカットを用いて前記ＭＤＩをレンダリングすることから結果として生ずる深度における誤差を示す単一項を含み、または、
前記レンダリング誤差は、前記複数のカットのうちのカットの平滑度を示す平滑度項を含み、前記平滑度は、当該カットに対応する前記サブボリュームに含まれるボクセルにわたる平滑度を含む、請求項１１に記載のシステム。
前記複数のサブボリュームに前記ＭＰＩを分割することは、前記複数のサブボリュームを生成する複数のカットを識別するために、訓練されたニューラルネットワークを用いることを含む、請求項８～請求項１２のいずれか１項に記載のシステム。
前記ＭＤＩの各前記レイヤーに対応する各前記メッシュは、三角形のメッシュである、請求項８～請求項１３のいずれか１項に記載のシステム。
コンピュータ実行可能な命令を含むプログラムであって、前記命令は、プロセッサにより実行されると、前記プロセッサに、圧縮された画像を生成するための方法を行わせ、前記方法は、
３次元の画像を表す多平面画像（ＭＰＩ）を識別することを含み、前記ＭＰＩは複数の正対する平面を含み、
前記方法は、さらに、
複数のサブボリュームに前記ＭＰＩを分割することを含み、前記複数のサブボリュームにおける各前記サブボリュームは、前記複数の正対する平面のサブセットを含み、
前記方法は、さらに、
前記ＭＰＩの各前記サブボリュームに対して深度マップを算出することと、
各前記深度マップをメッシュに変換することとを含み、各前記メッシュは、レンダリングされる多深度画像（ＭＤＩ）に関連付けられた複数のレイヤーのうちのレイヤーに対応し、
前記方法は、さらに、
前記複数のレイヤーの各前記レイヤーに対して、当該レイヤーに含まれる各ボクセルの色および透過度を示す画像を算出することと、
前記ＭＤＩの前記複数のレイヤーに対応する前記メッシュ、および、前記ＭＤＩの前記複数のレイヤーに対応する前記画像を、前記ＭＤＩとして格納することとを含む、プログラム。
前記方法は、ＭＰＩ画像のシーケンスに対応する、ＭＤＩ画像のシーケンスを生成することをさらに含み、ＭＰＩ画像の前記シーケンスは、３次元の動画コンテンツに対応する、請求項１５に記載のプログラム。
前記複数のサブボリュームに前記ＭＰＩを分割することは、前記複数のサブボリュームを用いて前記ＭＤＩをレンダリングすることにより生成されるレンダリング誤差を最小化することにより、前記複数のサブボリュームを生成する複数のカットを最適化することを含む、請求項１５または請求項１６に記載のプログラム。
前記レンダリング誤差は、前記複数のカットのうちのカットを用いて前記ＭＤＩをレンダリングすることから結果として生ずる深度における誤差を示す単一項を含む、請求項１７に記載のプログラム。
前記レンダリング誤差は、前記複数のカットのうちのカットの平滑度を示す平滑度項を含み、前記平滑度は、当該カットに対応する前記サブボリュームに含まれるボクセルにわたる平滑度を含む、請求項１７に記載のプログラム。
前記複数のサブボリュームに前記ＭＰＩを分割することは、前記複数のサブボリュームを生成する複数のカットを識別するために、訓練されたニューラルネットワークを用いることを含む、請求項１５～請求項１９のいずれか１項に記載のプログラム。
前記ＭＤＩの各前記レイヤーに対応する各前記メッシュは、三角形のメッシュである、請求項１５～請求項２０のいずれか１項に記載のプログラム。