JP2024502326A

JP2024502326A - ２ｄイメージを３ｄモデルへと変換するために構成されたニューラル・ネットワークを訓練する方法

Info

Publication number: JP2024502326A
Application number: JP2023539969A
Authority: JP
Inventors: カガルリツキー，フセヴォロド; ケイナン，シャーリー; バーンボイム，マイケル; グリーン，アミール; モケイチェブ，アリク; ヘケル，マイケル; バルーク，ヤイル; ウォホルスタドテール，ギル; タルモン，ギラッド; タミール，マイケル
Original assignee: ユーム．コムリミテッド
Priority date: 2021-01-06
Filing date: 2022-01-04
Publication date: 2024-01-18
Also published as: EP4275152A1; WO2022149127A1; US20220217321A1; CA3204378A1

Abstract

２Ｄイメージを３Ｄモデルへと変換するように構成されるニューラル・ネットワークを訓練するためのデータベースを生成するための、コンピュータ実装される方法は、（ａ）３Ｄモデルを得るステップと、（ｂ）少なくとも１つの視点から前記の３Ｄモデルを２Ｄフォーマットにレンダリングするステップと、（ｃ）レンダリングされた前記２Ｄイメージ・フレームと、対応するサンプリングされた前記３Ｄモデルとのそれぞれを更に含む対を集めるステップとを含む。

Description

本発明は、ニューラル・ネットワークによるイメージ処理と関連し、より具体的には、２Ｄイメージ・フレームを３Ｄモデルへと変換することと関連する。

仮想／拡張現実コンテンツを維持する技術は、現在の社会において話題性のある技術となっており、生活における様々な場面に適用されている。３Ｄコンテンツは貧弱であり、また、それを撮影することに多くの費用がかかることが、現在の３Ｄビデオの開発を制限する１つの要因である。

この技術では、２Ｄイメージをボリュメトリック・イメージへと変換するためにニューラル・ネットワークを使用できることが、知られている。例えば、ＣＮ１０７０６７４５は、完全畳み込み（full convolutional）ニューラル・ネットワークに基づいて２Ｄフィルムを３Ｄフィルムへと変換する方法を開示する。当該方法は、１）写真撮影されたフィルムの２Ｄビデオの各フレームの２Ｄイメージを抽出するステップと、２）完全畳み込みニューラル・ネットワークを用いて各フレームの２Ｄイメージの特徴を抽出し、深度値を計算するステップと、３）各フレームの２Ｄイメージを、その深度値に従って彩色して、対応する３Ｄイメージを生成するステップと、４）全ての３Ｄイメージを連続的にまとめて３Ｄフィルムにするステップとを含む。

ニューラル・ネットワークにより行われる変換の忠実度は、ニューラル・ネットワークの訓練に用いられるデータベースに応じたものとなる。従って、ニューラル・ネットワークの訓練に使用可能な、入力２Ｄイメージと出力３Ｄモデルとの対のデータベースを提供することが求められているが、長く放置されて未だに対処されていない。

従って、本発明の１つの目的は、２Ｄイメージを３Ｄモデルへと変換するように構成されるニューラル・ネットワークを訓練するためのデータベースを生成するための、コンピュータ実装される方法を開示することである。データベースは、収集した前記の２Ｄイメージとそれに対応する３Ｄモデルとを含む。上記の方法は、（ａ）サブステップのうちの少なくとも１つのものにより３Ｄモデルを得るステップであって、前記サブステップは、（ｉ）所定のポーズの少なくとも１つのキャラクタの３Ｄモデルを得て、前記３Ｄモデルのリギングおよびスキニングを行い、前記３Ｄモデルを目的のポーズへと動かすサブステップと、（ｉｉ）静的ポーズの前記少なくとも１つのキャラクタの複数のボリュメトリック・イメージ・フレームをキャプチャするサブステップと、（ｉｉｉ）運動している前記少なくとも１つのキャラクタのボリュメトリック・ビデオをキャプチャするサブステップとであり、前記サブステップ（ｉ）ないし（ｉｉｉ）における前記少なくとも１つのキャラクタは互いに同じ又は互いに異なるものである、前記サブステップのうちの少なくとも１つのものにより３Ｄモデルを得るステップと、（ｂ）前記３Ｄモデルを２Ｄフォーマットにレンダリングするステップと、（ｃ）レンダリングされた前記２Ｄイメージ・フレームと、対応するサンプリングされた前記３Ｄモデルとをそれぞれに含む対を更に集めるステップとを含む。

本発明の更なる目的は、ステップａで得た前記３Ｄモデルをサンプリングすることを含む請求項１に記載の方法を提供することである。

本発明の更なる目的は、前記３Ｄモデルを少なくとも１つの２Ｄイメージへ投影して、それに基づく３Ｄポーズ見積を計算することにより、前記３Ｄモデルの前記のリギングおよびスキニングすることを提供することである。

本発明の更なる目的は、自動的な形で行われる前記３Ｄモデルの前記のリギングおよびスキニングすることを提供することである。

本発明の更なる目的は、２Ｄイメージを３Ｄモデルへと変換するために構成されたニューラル・ネットワークを訓練するために使用可能な前記データベースを提供することである。

本発明の更なる目的は、ＴポーズまたはＡポーズとして限定の無い形で定められる前記静的ポーズを提供することである。

本発明の更なる目的は、２Ｄイメージを３Ｄモデルへと変換するように構成されるニューラル・ネットワークを訓練するためのデータベースを生成するための、コンピュータ実装されるシステムを開示することである。データベースは、収集した前記の２Ｄイメージとそれに対応する３Ｄモデルとを含む。前記のコンピュータ実装されるシステムは、（ａ）プロセッサと、（ｂ）命令を記憶するメモリとを含み、前記命令は、前記プロセッサにより実行されたときに、前記プロセッサへ、（ｉ）サブステップのうちの少なくとも１つのものにより３Ｄモデルを得るステップであって、前記サブステップは、（１）所定のポーズの少なくとも１つのキャラクタの３Ｄモデルを得て、前記３Ｄモデルのリギングおよびスキニングを行い、前記３Ｄモデルを目的のポーズへと動かすサブステップと、（２）静的ポーズの前記少なくとも１つのキャラクタの複数のボリュメトリック・イメージ・フレームをキャプチャするサブステップと、（３）運動している前記少なくとも１つのキャラクタのボリュメトリック・ビデオをキャプチャするサブステップとであり、前記サブステップ（１）ないし（３）における前記少なくとも１つのキャラクタは互いに同じ又は互いに異なるものである、前記サブステップのうちの少なくとも１つのものにより３Ｄモデルを得るステップと、（ｉｉ）前記３Ｄモデルを２Ｄフォーマットにレンダリングするステップと、（ｉｉｉ）レンダリングされた前記２Ｄイメージ・フレームと、対応するサンプリングされた前記３Ｄモデルとをそれぞれに含む対を更に集めるステップとを行うことを指示する命令である。

本発明の更なる目的は、２Ｄイメージを３Ｄモデルへと変換するように構成されるニューラル・ネットワークを訓練するための方法を実行させるためのプロセッサへの命令を含む非一時的コンピュータ読取可能媒体を提供することである。上記の命令は、（ａ）サブステップのうちの少なくとも１つのものにより３Ｄモデルを得るステップであって、前記サブステップは、（ｉ）所定のポーズの少なくとも１つのキャラクタの３Ｄモデルを得て、前記３Ｄモデルのリギングおよびスキニングを行い、前記３Ｄモデルを目的のポーズへと動かすサブステップと、（ｉｉ）静的ポーズの前記少なくとも１つのキャラクタの複数のボリュメトリック・イメージ・フレームをキャプチャするサブステップと、（ｉｉｉ）運動している前記少なくとも１つのキャラクタのボリュメトリック・ビデオをキャプチャするサブステップとであり、前記サブステップ（ｉ）ないし（ｉｉｉ）における前記少なくとも１つのキャラクタは互いに同じ又は互いに異なるものである、前記サブステップのうちの少なくとも１つのものにより３Ｄモデルを得るステップと、（ｂ）前記３Ｄモデルを２Ｄフォーマットにレンダリングするステップと、（ｃ）レンダリングされた前記２Ｄイメージ・フレームと、対応するサンプリングされた前記３Ｄモデルとをそれぞれに含む対を更に集めるステップとを含む。

発明を理解できるように、および実際にどのように実装できるかを見せるために、ここで、単なる非限定的な例として、添付の図面を参照して複数の実施形態を用いて説明を行う。

図１ないし図３は、２Ｄイメージを３Ｄモデルへと変換するように構成されたニューラル・ネットワークを訓練するためのデータベースを生成する方法の代替的な実施形態のフローチャートである。図１ないし図３は、２Ｄイメージを３Ｄモデルへと変換するように構成されたニューラル・ネットワークを訓練するためのデータベースを生成する方法の代替的な実施形態のフローチャートである。図１ないし図３は、２Ｄイメージを３Ｄモデルへと変換するように構成されたニューラル・ネットワークを訓練するためのデータベースを生成する方法の代替的な実施形態のフローチャートである。

下記の説明は、何れの当業者も前記の発明を使用できるようにするために提供しており、この発明を実施するための発明者が考える最適の態様を記載している。しかしながら、当業者には、適合する様々な変更が残されていることは明らかであり、その理由は、本発明の包括的な本質は、具体的に、２Ｄイメージを３Ｄモデルへと変換するように構成されるニューラル・ネットワークを訓練するためのデータベースを生成するための、コンピュータ実装される方法と、前記の方法を実装するための、コンピュータ実装されるシステムと、前記の方法を実行させるためのプロセッサへの命令を含む非一時的コンピュータ読取可能媒体とを提供することと、定義しているからである。

本発明の目的は、ニューラル・ネットワークでの処理により２Ｄイメージを３Ｄモデルへと変更することが可能なツールを提供することである。より具体的な達成しようとする課題は、ユーザ定義の２Ｄイメージがニューラル・ネットワークにより高忠実度で３Ｄモデルへと変換されるように、ニューラル・ネットワークを訓練するためのデータベースを作成することである。

ここで、２Ｄイメージを３Ｄモデルへと変換するように構成されたニューラル・ネットワークを訓練するためのデータベースを生成する方法１００のフローチャートを示す図１を参照する。開始のステップ１１０では、３Ｄモデルを取得することが、３つの方法のうちの少なくとも１つのものにより実施される。３つの選択できる方法のうちの第１のものを参照すると、キャラクタの３Ｄモデルが取得される（ステップ１１１）。

次に、取得した３Ｄモデルへリギングおよびスキニングを適用する（ステップ１１２）。３Ｄモデルを目的のポーズへと動かすことにより複数のイメージ・フレームを生成することができる（ステップ１１３）。３Ｄモデルを取得するための他の方法は、ＴポーズやＡポーズなどのような様々な静的ポースの少なくとも１つのキャラクタのシングル・ボリュメトリック・イメージ・フレームをキャプチャすること（ステップ１１５）と、少なくとも１つのキャラクタのボリュメトリック・ビデオをキャプチャすること（ステップ１１７）とである。サブステップ１１１から１１７における少なくとも１つのキャラクタは、互いに同一であっても互いに異なっていてもよい。

ステップ１１０で生成された３Ｄモデルは、ニューラル・ネットワークを訓練するために使用可能な生データのボディを３Ｄモデル形成する。ステップ１１０で取得した３Ｄモデルは、少なくとも１つの視点から２Ｄイメージ・フォーマットへとレンダリングされる（ステップ１３０）。そして、最後に、レンダリングされた２Ｄイメージ・フレームと、対応するサンプリングされた３Ｄモデルとのそれぞれにより形成される対が、ニューラル・ネットワークを訓練するためのデータベースへ集められる。

ここで、第１の代替の実施形態１００ａ示す図２を参照するが、実施形態１００ａは、ステップ１１０で取得した３Ｄモデルの一部をサンプリングする（ステップ１１９）ことが実施形態１００とは異なる。サンプリングされた３Ｄモデルは、図１の方法１００と同様に、２Ｄフォーマットへとレンダリングされる（ステップ１３０）。

ここで、第２の代替の実施形態１００ｂを示す図２を参照する。前記３Ｄモデルを少なくとも１つの２Ｄイメージへ投影して、それに基づく３Ｄポーズ見積を計算することにより、３Ｄモデルのリギングおよびスキニング、メッシングを行うサブステップ１１２ａへと、図１の方法１００のサブステップ１１２が置き換えられている。３Ｄモデルに関するリギングおよびスキニングは、自動的な形で行うことができる。

上記の実施形態１００、１００ａ、および１００ｂを実装するためのシステムと、これらの実施形態を実施させるためのプロセッサへの命令を含む非一時的コンピュータ読取可能媒体とは、本発明の範囲内にある。

Claims

２Ｄイメージを３Ｄモデルへと変換するように構成されるニューラル・ネットワークを訓練するためのデータベースを生成するための、コンピュータ実装される方法であって、前記データベースは前記２Ｄイメージとそれに対応する３Ｄモデルとを含むものであり、
ａ．サブステップのうちの少なくとも１つのものにより３Ｄモデルを得るステップであって、前記サブステップは、
ｉ．少なくとも１つのキャラクタの３Ｄモデルを得て、前記３Ｄモデルのリギングおよびスキニングを行い、前記３Ｄモデルを目的のポーズへと動かすサブステップと、
ｉｉ．静的ポーズの前記少なくとも１つのキャラクタの複数のシングル・ボリュメトリック・イメージ・フレームをキャプチャするサブステップと、
ｉｉｉ．運動している前記少なくとも１つのキャラクタのボリュメトリック・ビデオをキャプチャするサブステップと
であり、前記サブステップ（ｉ）ないし（ｉｉｉ）における前記少なくとも１つのキャラクタは互いに同じ又は互いに異なるものである、
前記サブステップのうちの少なくとも１つのものにより３Ｄモデルを得るステップと、
ｂ．少なくとも１つの視点から前記３Ｄモデルを２Ｄフォーマットにレンダリングするステップと、
ｃ．レンダリングされた前記２Ｄイメージ・フレームと、対応するサンプリングされた前記３Ｄモデルとをそれぞれに含む対を更に集めるステップと
を含む方法。
請求項１に記載の方法であって、前記ステップａで取得した前記３Ｄモデルをサンプリングすることを含む方法。
請求項１に記載の方法であって、前記３Ｄモデルの前記リギングおよび前記スキニングは、前記３Ｄモデルを少なくとも１つの２Ｄイメージへ投影して、それに基づく３Ｄポーズ見積を計算することにより行われる、方法。
請求項３に記載の方法であって、前記３Ｄモデルの前記リギングおよび前記スキニングは自動的な形で行われる、方法。
請求項１に記載の方法であって、前記データベースは、２Ｄイメージを３Ｄモデルへと変換するために構成されたニューラル・ネットワークを訓練するために使用可能である、方法。
請求項１に記載の方法であって、前記静的ポースの少なくとも１つはＴポーズまたはＡポーズである、方法。
２Ｄイメージを３Ｄモデルへと変換するように構成されるニューラル・ネットワークを訓練するためのデータベースを生成するための、コンピュータ実装されるシステムであって、前記データベースは収集した前記２Ｄイメージとそれに対応する３Ｄモデルとを含むものであり、
ａ．プロセッサと、
ｂ．命令を記憶するメモリと
を含み、前記命令は、前記プロセッサにより実行されたときに、前記プロセッサへ、
ｉ．サブステップのうちの少なくとも１つのものにより３Ｄモデルを得るステップであって、前記サブステップは、
１．所定のポーズの少なくとも１つのキャラクタの３Ｄモデルを得て、前記３Ｄモデルのリギングおよびスキニングを行い、前記３Ｄモデルを目的のポーズへと動かすサブステップと、
２．静的ポーズの前記少なくとも１つのキャラクタの複数のシングル・ボリュメトリック・イメージ・フレームをキャプチャするサブステップと、
３．運動している前記少なくとも１つのキャラクタのボリュメトリック・ビデオをキャプチャするサブステップと
である、前記サブステップのうちの少なくとも１つのものにより３Ｄモデルを得るステップと、
ｉｉ．前記サブステップ１ないし３における前記少なくとも１つのキャラクタは互いに同じ又は互いに異なるものであり、前記ステップｉで取得した３Ｄモデルをサンプリングするステップと、
ｉｉｉ．前記３Ｄモデルを２Ｄフォーマットにレンダリングするステップと、
ｉｖ．レンダリングされた前記２Ｄイメージ・フレームと、対応するサンプリングされた前記３Ｄモデルとをそれぞれに含む対を更に集めるステップと
を行うことを指示する命令である、
システム。
請求項７に記載のシステムであって、前記ステップａで取得した前記３Ｄモデルをサンプリングすることを含む、システム。
請求項７に記載のシステムであって、前記３Ｄモデルの前記リギングおよび前記スキニングは、前記３Ｄモデルを少なくとも１つの２Ｄイメージへ投影して、それに基づく３Ｄポーズ見積を計算することにより行われる、システム。
請求項９に記載のシステムであって、前記３Ｄモデルの前記リギングおよび前記スキニングは自動的な形で行われる、システム。
請求項７に記載のシステムであって、前記データベースは、２Ｄイメージを３Ｄモデルへと変換するために構成されたニューラル・ネットワークを訓練するために使用可能である、システム。
請求項７に記載のシステムであって、前記静的ポースの少なくとも１つはＴポーズまたはＡポーズである、システム。
２Ｄイメージを３Ｄモデルへと変換するように構成されるニューラル・ネットワークを訓練するための方法を実行させるためのプロセッサへの命令を含む非一時的コンピュータ読取可能媒体であって、前記命令は、
ａ．サブステップのうちの少なくとも１つのものにより３Ｄモデルを得るステップであって、前記サブステップは、
ｉ．所定のポーズの少なくとも１つのキャラクタの３Ｄモデルを得て、前記３Ｄモデルのリギングおよびスキニングを行い、前記３Ｄモデルを目的のポーズへと動かすサブステップと、
ｉｉ．静的ポーズの前記少なくとも１つのキャラクタの複数のボリュメトリック・イメージ・フレームをキャプチャするサブステップと、
ｉｉｉ．運動している前記少なくとも１つのキャラクタのボリュメトリック・ビデオをキャプチャするサブステップと
であり、前記サブステップｉないしｉｉｉにおける前記少なくとも１つのキャラクタは互いに同じ又は互いに異なるものである、
前記サブステップのうちの少なくとも１つのものにより３Ｄモデルを得るステップと、
ｂ．前記３Ｄモデルを２Ｄフォーマットにレンダリングするステップと、
ｃ．レンダリングされた前記２Ｄイメージ・フレームと、対応するサンプリングされた前記３Ｄモデルとをそれぞれに含む対を更に集めるステップと
を含む、
非一時的コンピュータ読取可能媒体。
請求項１３に記載の非一時的コンピュータ読取可能媒体であって、前記ステップａで取得した前記３Ｄモデルをサンプリングすることを含む一時的コンピュータ読取可能媒体。
請求項１３に記載の非一時的コンピュータ読取可能媒体であって、前記３Ｄモデルの前記リギングおよび前記スキニングは、前記３Ｄモデルを少なくとも１つの２Ｄイメージへ投影して、それに基づく３Ｄポーズ見積を計算することにより行われる、非一時的コンピュータ読取可能媒体。
請求項１５に記載の非一時的コンピュータ読取可能媒体であって、前記３Ｄモデルの前記リギングおよび前記スキニングは自動的な形で行われる、非一時的コンピュータ読取可能媒体。
請求項１３に記載の非一時的コンピュータ読取可能媒体であって、前記データベースは、２Ｄイメージを３Ｄモデルへと変換するために構成されたニューラル・ネットワークを訓練するために使用可能である、非一時的コンピュータ読取可能媒体。
請求項１３に記載の非一時的コンピュータ読取可能媒体であって、前記静的ポースの少なくとも１つはＴポーズまたはＡポーズである、非一時的コンピュータ読取可能媒体。