JP2023528063A

JP2023528063A - 敵対的生成ネットワークを使用したビジュアルアセット開発

Info

Publication number: JP2023528063A
Application number: JP2022574632A
Authority: JP
Inventors: ホフマン－ジョン，エリン; ポプリン，ライアン; トーア，アンディープ・シング; ドットソン，ウィリアム・リー; リ，トラング・ツアン
Original assignee: Google LLC
Current assignee: Google LLC
Priority date: 2020-06-04
Filing date: 2020-06-04
Publication date: 2023-07-03
Also published as: CN115699099A; WO2021247026A1; EP4162392A1; KR20230017907A; US20230215083A1

Abstract

バーチャルカメラは、さまざまな視点から、および、さまざまな照明条件下でビジュアルアセットの三次元（３Ｄ）デジタル表現の第１の画像を取り込む。第１の画像は、メモリに格納された訓練画像である。１つまたは複数のプロセッサは、異なるニューラルネットワークとして実現される生成器および識別器を含む敵対的生成ネットワーク（ＧＡＮ）を実現する。生成器は、ビジュアルアセットのバリエーションを表す第２の画像を、識別器が第１の画像と第２の画像とを区別しようとするのと同時に、生成する。１つまたは複数のプロセッサは、識別器が第１の画像と第２の画像とを成功裏に区別したかどうかに基づいて、識別器における第１のモデルおよび／または生成器における第２のモデルを更新する。生成器は、訓練されると、第１のモデルに基づいて、たとえばビジュアルアセットのラベルまたはアウトラインに基づいて、ビジュアルアセットの画像を生成する。

Description

背景
ビデオゲームの制作に割り当てられる予算および資源のかなりの部分は、ビデオゲームのビジュアルアセットを作成するプロセスによって消費される。たとえば、多人数参加型オンラインゲームは、何千ものプレーヤアバタおよびノンプレーヤキャラクタ（ＮＰＣ：Non-Player Character）を含んでおり、これらは、通常、個別化されたキャラクタを作成するためにゲームの開発中に手動でカスタマイズされる三次元（３Ｄ）テンプレートを使用して作成される。別の例では、ビデオゲームの中の場面の環境または文脈は、木、岩、雲などの多数の仮想物体を含んでいることが多い。これらの仮想物体は、森が何百個もの同じ木または一群の木の繰り返しパターンを含む場合に起こり得るような過度な繰り返しまたは同質性を回避するために、手動でカスタマイズされる。キャラクタおよび物体の生成には手続き型コンテンツ生成が使用されてきたが、コンテンツ生成プロセスは、制御するのが困難であり、往々にして、視覚的に均一であったり、同質であったり、反復性であったりする出力を生成する。ビデオゲームのビジュアルアセットを生成するコストが高いことは、ビデオゲームの予算を跳ね上がらせることになり、ビデオゲーム制作者の側でのリスク回避を増大させる。また、コンテンツ生成のコストは、高忠実度のゲームデザインを求めて市場に参入しようとする小さなスタジオ（それに対応して、予算が少ない）にとっては相当な参入障壁になる。さらに、ビデオゲームプレーヤ、特にオンラインプレーヤは、頻繁なコンテンツ更新を期待するようになっており、このことは、ビデオアセットの生成コストが高いことに関連付けられた問題をさらに悪化させる。

概要
提案されている解決策は、特に、コンピュータによって実行される方法に関し、上記方法は、ビジュアルアセットの三次元（３Ｄ）デジタル表現の第１の画像を取り込むステップと、敵対的生成ネットワーク（ＧＡＮ：Generative Adversarial Network）における生成器を使用して、上記ビジュアルアセットのバリエーションを表す第２の画像を生成して、上記ＧＡＮにおける識別器において上記第１の画像と上記第２の画像とを区別しようとするステップと、上記識別器が上記第１の画像と上記第２の画像とを成功裏に区別したかどうかに基づいて、上記識別器における第１のモデルおよび上記生成器における第２のモデルのうちの少なくとも１つを更新するステップと、上記更新された第２のモデルに基づいて、上記生成器を使用して第３の画像を生成するステップとを備える。第１のモデルは、第２の画像を生成するための基礎として生成器によって使用されるのに対して、第２のモデルは、生成された第２の画像を評価するための基礎として識別器によって使用される。生成器が生成する第１の画像のバリエーションは、特に、第１の画像の少なくとも１つの画像パラメータのバリエーション、たとえば第１の画像の少なくとも１つまたは全ての画素またはテクセル値のバリエーションに関連し得る。したがって、生成器によるバリエーションは、たとえば、色、明るさ、テクスチャ、粒度、またはそれらの組み合わせのうちの少なくとも１つのバリエーションに関連し得る。

たとえば画像データベース上で訓練されるニューラルネットワークを使用した画像の生成には機械学習が使用されてきた。この文脈において使用される画像生成の１つのアプローチは、一対の対話する畳み込みニューラルネットワーク（ＣＮＮ：Convolutional Neural Network）を使用してさまざまなタイプの画像をどのように作成するかを学習する敵対的生成ネットワーク（ＧＡＮ）として知られている機械学習アーキテクチャを使用する。第１のＣＮＮ（生成器）は、訓練データセットの中の画像に対応する新たな画像を作成し、第２のＣＮＮ（識別器）は、生成された画像と訓練データセットからの「本物の」画像とを区別しようとする。場合によっては、生成器は、画像生成プロセスを導くヒントおよび／またはランダムノイズに基づいて画像を生成し、この場合、ＧＡＮは条件付きＧＡＮ（ＣＧＡＮ：Conditional GAN）と称される。一般に、この文脈における「ヒント」は、たとえば、コンピュータ読取可能なフォーマットの画像コンテンツ特徴付けを含むパラメータであってもよい。ヒントの例としては、画像に関連付けられたラベル、動物または物体のアウトラインなどの形状情報などが挙げられる。次いで、生成器および識別器は、生成器によって生成された画像に基づいて競い合う。識別器が生成された画像を本物の画像として分類する（または、その逆）場合には生成器の「勝利」であり、識別器が生成された画像および本物の画像を正しく分類する場合には識別器の「勝利」である。生成器および識別器は、勝敗を正しいモデルからの「距離」として符号化する損失関数に基づいてそれらのそれぞれのモデルを更新し得る。生成器および識別器は、他のＣＮＮによって生成された結果に基づいてそれらのそれぞれのモデルを改良し続ける。

訓練されたＧＡＮにおける生成器は、訓練データセットの中の人、動物または物体の特徴を模倣しようとする画像を生成する。上記のように、訓練されたＧＡＮにおける生成器は、ヒントに基づいて画像を生成することができる。たとえば、訓練されたＧＡＮは、「熊」というラベルを含むヒントを受信したことに応答して、熊に似た画像を生成しようとする。しかし、訓練されたＧＡＮによって生成される画像は、（少なくとも一部が）訓練データセットの特徴によって判断され、この訓練データセットは、生成された画像の所望の特徴を反映することができない。たとえば、ビデオゲームデザイナは、印象的な視点、画像構成および照明効果によって特徴付けられるファンタジーまたはサイエンスフィクションスタイルを使用してゲームのビジュアルアイデンティティを作成することが多い。これに対して、従来の画像データベースは、さまざまな照明条件下でさまざまな環境において撮影されたさまざまな異なる人、動物または物体の実世界写真を含む。さらに、撮影された顔のデータセットは、顔が傾いたり、ガウスぼかしを背景に適用することによって修正されたりしないようにするために回転される限られた数の視点を含むように事前処理されることが多い。したがって、従来の画像データベース上で訓練されるＧＡＮは、ゲームデザイナによって作成されたビジュアルアイデンティティを維持する画像を生成することができない。たとえば、実世界写真の中の人、動物または物体を模倣する画像は、ファンタジーまたはサイエンスフィクションスタイルで生成された場面の視覚的一貫性を狂わせるであろう。さらに、ＧＡＮの訓練に使用され得るイラストの大きなリポジトリは、所有権、スタイルコンフリクトの問題にさらされ、または単に、ロバストな機械学習モデルを構築するのに必要な多様性が欠如している。

したがって、提案されている解決策は、ビジュアルアセットの三次元（３Ｄ）デジタル表現から取り込まれた画像を使用して条件付き敵対的生成ネットワーク（ＣＧＡＮ）の生成器および識別器を訓練することによって多様で視覚的に一貫性のあるコンテンツを生成するためのハイブリッド手続き型パイプラインを提供する。３Ｄデジタル表現は、ビジュアルアセットの３Ｄ構造のモデルを含み、場合によってはモデルの表面に適用されるテクスチャを含む。たとえば、熊の３Ｄデジタル表現は、プリミティブと総称される三角形、他の多角形またはパッチのセットと、毛皮、歯、つめおよび目などの、プリミティブの解像度よりも高い解像度を有する視覚的詳細を組み入れるためにプリミティブに適用されるテクスチャとによって表すことができる。訓練画像（「第１の画像」）は、さまざまな視点から、および場合によっては、さまざまな照明条件下で画像を取り込むバーチャルカメラを使用して取り込まれる。ビジュアルアセットの３Ｄデジタル表現の訓練画像を取り込むことによって、訓練データセットの向上をもたらすことができ、ビデオゲームの中で変更されたビジュアルアセットの３Ｄ表現において別々にまたは組み合わせて使用され得るさまざまな第２の画像で構成された多様で視覚的に一貫性のあるコンテンツがもたらされる。バーチャルカメラによって訓練画像（「第１の画像」）を取り込むことは、ビジュアルアセットの３Ｄ表現のさまざまな視点または照明条件に関連する訓練画像のセットを取り込むことを含み得る。訓練セットの中の訓練画像の数または視点または照明条件は、ユーザまたは画像取込アルゴリズムによって予め決定されている。たとえば、訓練セットの中の訓練画像の数、視点および照明条件のうちの少なくとも１つは、予め設定されてもよく、または、訓練画像が取り込まれるビジュアルアセット次第であってもよい。これは、たとえば、ビジュアルアセットを画像取込システムにロードした後および／またはバーチャルカメラを実装する画像取込プロセスを起動した後に訓練画像の取り込みが自動的に実行され得ることを含む。

また、画像取込システムは、取り込まれた画像に、物体のタイプ（たとえば、熊）、カメラ位置、カメラ姿勢、照明条件、テクスチャ、色などを示すラベルを含むラベルを適用し得る。いくつかの実施形態では、画像は、動物の頭、耳、首、足および腕などのビジュアルアセットのさまざまな部分にセグメント化される。画像のセグメント化された部分は、ビジュアルアセットのさまざまなパーツを示すようにラベル付けされ得る。ラベル付けされた画像は、訓練データベースに格納され得る。

ＧＡＮを訓練することによって、生成器および識別器は、３Ｄデジタル表現から生成された訓練データベースの中の画像を表すパラメータの分布を学習する。すなわち、ＧＡＮは、訓練データベースの中の画像を使用して訓練される。最初に、訓練データベースの中の画像に基づいて３Ｄデジタル表現の「本物の」画像を識別するように識別器が訓練される。次いで、生成器は、たとえばラベルまたはビジュアルアセットのアウトラインのデジタル表現などのヒントに応答して、（第２の）画像を生成することを開始する。次いで、生成器および識別器は、たとえば生成器がビジュアルアセットを表す画像をどれぐらい上手く生成しているか（たとえば、それが識別器をどれぐらい上手く「だまして」いるか）および識別器が生成された画像と訓練データベースからの本物の画像とをどれぐらい上手く区別しているかを示す損失関数に基づいて、それらの対応するモデルを繰り返しおよび同時に更新し得る。生成器は、訓練画像におけるパラメータの分布をモデル化し、識別器は、生成器によって推論されるパラメータの分布をモデル化する。したがって、生成器の第１のモデルは、第１の画像におけるパラメータの分布を含み得て、識別器の第２のモデルは、生成器によって推論されるパラメータの分布を含む。

いくつかの実施形態では、損失関数は、別のニューラルネットワークを使用して画像から特徴を抽出して２つの画像間の差を抽出された特徴間の距離として符号化する知覚的損失関数を含む。いくつかの実施形態では、損失関数は、識別器からの分類判断を受信し得る。損失関数は、識別器に提供された第２の画像のアイデンティティ（または、少なくとも本物または偽物ステータス）を示す情報も受信し得る。次いで、損失関数は、受信された情報に基づいて分類誤差を生成し得る。分類誤差は、生成器および識別器がそれらのそれぞれの目標をどれぐらい上手く達成するかを表す。

ＧＡＮは、訓練されると、生成器によって推論されるパラメータの分布に基づいて、ビジュアルアセットを表す画像を生成するために使用される。いくつかの実施形態では、これらの画像は、ヒントに応答して生成される。たとえば、訓練されたＧＡＮは、「熊」というラベルまたは熊のアウトラインの表現を含むヒントを受信したことに応答して熊の画像を生成することができる。いくつかの実施形態では、これらの画像は、ビジュアルアセットのセグメント化された部分の合成物に基づいて生成される。たとえば、恐竜の頭、胴体、足および尾ならびにコウモリの翼などの異なる生き物を表す画像（それぞれのラベルによって示される）のセグメントを組み合わせることによってキメラを生成することができる。

いくつかの実施形態では、ＧＡＮにおける生成器において、第１のモデルに基づいてビジュアルアセットのバリエーションを表すように少なくとも１つの第３の画像が生成され得る。そして、少なくとも１つの第３の画像を生成することは、たとえば、ビジュアルアセットに関連付けられたラベルまたはビジュアルアセットの一部のアウトラインのデジタル表現のうちの少なくとも１つに基づいて少なくとも１つの第３の画像を生成することを含み得る。代替的にまたはさらに、少なくとも１つの第３の画像を生成することは、ビジュアルアセットの少なくとも１つのセグメントと別のビジュアルアセットの少なくとも１つのセグメントとを組み合わせることによって少なくとも１つの第３の画像を生成することを含み得る。

提案されている解決策はさらに、システムに関し、上記システムは、ビジュアルアセットの三次元（３Ｄ）デジタル表現から取り込まれた第１の画像を格納するように構成されたメモリと、生成器および識別器を備える敵対的生成ネットワーク（ＧＡＮ）を実現するように構成された少なくとも１つのプロセッサとを備え、上記生成器は、上記ビジュアルアセットのバリエーションを表す第２の画像を、たとえば上記識別器が上記第１の画像と上記第２の画像とを区別しようとするのと同時に、生成するように構成されており、上記少なくとも１つのプロセッサは、上記識別器が上記第１の画像と上記第２の画像とを成功裏に区別したかどうかに基づいて、上記識別器における第１のモデルおよび上記生成器における第２のモデルのうちの少なくとも１つを更新するように構成されている。

提案されているシステムは、特に、提案されている方法の実施形態を実現するように構成され得る。

添付の図面を参照することによって、本開示をよりよく理解することができ、その多数の特徴および利点を当業者に明らかにすることができる。異なる図における同一の参照符号の使用は、同様または同一の要素を示す。

いくつかの実施形態に係る、技術開発のためのハイブリッド手続き型機械語（ＭＬ：Machine Language）パイプラインを実装するビデオゲーム処理システムのブロック図である。いくつかの実施形態に係る、技術開発のためのハイブリッド手続き型ＭＬパイプラインを実装するクラウドベースのシステムのブロック図である。いくつかの実施形態に係る、ビジュアルアセットのデジタル表現の画像を取り込むための画像取込システムのブロック図である。いくつかの実施形態に係る、ビジュアルアセットの画像およびビジュアルアセットを表すラベル付きデータのブロック図である。いくつかの実施形態に係る、ビジュアルアセットのバリエーションである画像を生成するように訓練される敵対的生成ネットワーク（ＧＡＮ）のブロック図である。いくつかの実施形態に係る、ビジュアルアセットの画像のバリエーションを生成するようにＧＡＮを訓練する方法のフロー図である。いくつかの実施形態に係る、ビジュアルアセットの画像を特徴付けるパラメータの正解分布およびＧＡＮにおける生成器によって生成される対応するパラメータの分布の進展を示す図である。いくつかの実施形態に係る、ビジュアルアセットのバリエーションである画像を生成するように訓練されたＧＡＮの一部のブロック図である。いくつかの実施形態に係る、ビジュアルアセットの画像のバリエーションを生成する方法のフロー図である。

詳細な説明
図１は、いくつかの実施形態に係る、技術開発のためのハイブリッド手続き型機械語（ＭＬ）パイプラインを実装するビデオゲーム処理システム１００のブロック図である。処理システム１００は、ダイナミックランダムアクセスメモリ（ＤＲＡＭ：Dynamic Random-Access Memory）などの非一時的なコンピュータ読取可能媒体を使用して実現されるシステムメモリ１０５または他のストレージ要素を含むか、またはシステムメモリ１０５または他のストレージ要素にアクセスできる。しかし、メモリ１０５のいくつかの実施形態は、スタティックＲＡＭ（ＳＲＡＭ：Static RAM）、不揮発性ＲＡＭなどを含む他のタイプのメモリを使用して実現される。処理システム１００は、メモリ１０５などの、処理システム１００に実装されるエンティティ間の通信をサポートするためのバス１１０も含む。処理システム１００のいくつかの実施形態は、他のバス、ブリッジ、スイッチ、ルータなどを含むが、これらは明確にするために図１には示されていない。

処理システム１００は、中央処理装置（ＣＰＵ：Central Processing Unit）１１５を含む。ＣＰＵ１１５のいくつかの実施形態は、同時にまたは並行して命令を実行する複数の処理要素（明確にするために図１には示されていない）を含む。これらの処理要素は、プロセッサコア、コンピュートユニットと称され、または他の用語を使用して呼ばれる。ＣＰＵ１１５は、バス１１０に接続されており、ＣＰＵ１１５は、バス１１０を介してメモリ１０５と通信する。ＣＰＵ１１５は、メモリ１０５に格納されたプログラムコード１２０などの命令を実行し、ＣＰＵ１１５は、実行された命令の結果などの情報をメモリ１０５に格納する。ＣＰＵ１１５は、ドローコールを発行することによってグラフィックス処理を起動することもできる。

入力／出力（Ｉ／Ｏ）エンジン１２５は、スクリーン１３５上に画像または映像を表示するディスプレイ１３０に関連付けられた入力または出力動作を処理する。示されている実施形態では、Ｉ／Ｏエンジン１２５は、ゲームコントローラ１４０に接続されており、ゲームコントローラ１４０は、ユーザがゲームコントローラ１４０上の１つまたは複数のボタンを押したこと、またはたとえば加速度計によって検出される動きを使用するといった他の方法でユーザがゲームコントローラ１４０と対話したことに応答して、Ｉ／Ｏエンジン１２５に制御信号を提供する。Ｉ／Ｏエンジン１２５は、振動、ライトの点灯などの応答をゲームコントローラ１４０において作動させるための信号もゲームコントローラ１４０に提供する。示されている実施形態では、Ｉ／Ｏエンジン１２５は、コンパクトディスク（ＣＤ：Compact Disk）、デジタルビデオディスク（ＤＶＤ：Digital Video Disc）などの非一時的なコンピュータ読取可能媒体を使用して実現される外部ストレージ要素１４５に格納された情報を読み取る。また、Ｉ／Ｏエンジン１２５は、ＣＰＵ１１５による処理の結果などの情報を外部ストレージ要素１４５に書き込む。Ｉ／Ｏエンジン１２５のいくつかの実施形態は、キーボード、マウス、プリンタ、外部ディスクなどの処理システム１００の他の要素に結合されている。Ｉ／Ｏエンジン１２５は、メモリ１０５、ＣＰＵ１１５、またはバス１１０に接続された他のエンティティとＩ／Ｏエンジン１２５が通信するようにバス１１０に結合されている。

処理システム１００は、たとえばスクリーン１３５を構成する画素を制御することによって、画像をレンダリングしてディスプレイ１３０のスクリーン１３５上に表示するグラフィックス処理ユニット（ＧＰＵ：Graphics Processing Unit）１５０を含む。たとえば、ＧＰＵ１５０は、ディスプレイ１３０に提供される画素の値を生成するように物体をレンダリングし、ディスプレイ１３０は、これらの画素値を使用して、レンダリングされた物体を表す画像を表示する。ＧＰＵ１５０は、同時にまたは並行して命令を実行するコンピュートユニットのアレイ１５５などの１つまたは複数の処理要素を含む。ＧＰＵ１５０のいくつかの実施形態は、汎用コンピューティングに使用される。示されている実施形態では、ＧＰＵ１５０は、バス１１０を介してメモリ１０５（および、バス１１０に接続された他のエンティティ）と通信する。しかし、ＧＰＵ１５０のいくつかの実施形態は、直接接続を介して、または他のバス、ブリッジ、スイッチ、ルータなどを介してメモリ１０５と通信する。ＧＰＵ１５０は、メモリ１０５に格納された命令を実行し、ＧＰＵ１５０は、実行された命令の結果などの情報をメモリ１０５に格納する。たとえば、メモリ１０５は、ＧＰＵ１５０によって実行されるプログラムコード１６０を表す命令を格納する。

示されている実施形態では、ＣＰＵ１１５およびＧＰＵ１５０は、ビデオゲームアプリケーションを実現するための対応するプログラムコード１２０，１６０を実行する。たとえば、ゲームコントローラ１４０を介して受信されたユーザ入力は、ビデオゲームアプリケーションの状態を変更するようにＣＰＵ１１５によって処理される。次いで、ＣＰＵ１１５は、ビデオゲームアプリケーションの状態を表す画像をレンダリングしてディスプレイ１３０のスクリーン１３５上に表示するようにＧＰＵ１５０に指示するためのドローコールを送信する。本明細書に記載されているように、ＧＰＵ１５０は、物理演算エンジンまたは機械学習アルゴリズムを実行するなど、ビデオゲームに関連する汎用コンピューティングを実行することもできる。

ＣＰＵ１１５またはＧＰＵ１５０は、技術開発のためのハイブリッド手続き型機械語（ＭＬ）パイプラインを実現するためのプログラムコード１６５も実行する。ハイブリッド手続き型ＭＬパイプラインは、さまざまな視点から、および場合によっては、さまざまな照明条件下でビジュアルアセットの三次元（３Ｄ）デジタル表現の画像１７０を取り込む第１の部分を含む。いくつかの実施形態では、バーチャルカメラがさまざまな視点から、および／または、さまざまな照明条件下でビジュアルアセットの３Ｄデジタル表現の第１の画像または訓練画像を取り込む。画像１７０は、自動的に、すなわちプログラムコード１６５に含まれる画像取込アルゴリズムに基づいて、バーチャルカメラによって取り込まれ得る。たとえばモデルとバーチャルカメラとを含む部分といった、ハイブリッド手続き型ＭＬパイプラインの第１の部分によって取り込まれた画像１７０は、メモリ１０５に格納される。画像１７０が取り込まれるビジュアルアセットは、（たとえば、コンピュータ支援のデザインツールを使用して）ユーザによって生成されて、メモリ１０５に格納され得る。

ハイブリッド手続き型ＭＬパイプラインの第２の部分は、ボックス１７５によって示される、プログラムコードおよび関連データ（モデルパラメータなど）によって表される敵対的生成ネットワーク（ＧＡＮ）を含む。ＧＡＮ１７５は、異なるニューラルネットワークとして実現される生成器および識別器を含む。生成器は、ビジュアルアセットのバリエーションを表す第２の画像を、識別器が第１の画像と第２の画像とを区別しようとするのと同時に、生成する。識別器または生成器においてＭＬモデルを定義するパラメータは、識別器が第１の画像と第２の画像とを成功裏に区別したかどうかに基づいて更新される。生成器において実現されるモデルを定義するパラメータは、訓練画像１７０におけるパラメータの分布を決定する。識別器において実現されるモデルを定義するパラメータは、たとえば生成器のモデルに基づいて生成器によって推論されるパラメータの分布を決定する。

ＧＡＮ１７５は、訓練されたＧＡＮ１７５に提供されるヒントまたはランダムノイズに基づいてビジュアルアセットのさまざまなバージョンを生成するように訓練され、この場合、訓練されたＧＡＮ１７５は条件付きＧＡＮと称され得る。たとえば、ＧＡＮ１７５が赤色の竜のデジタル表現の画像のセット１７０に基づいて訓練されている場合、ＧＡＮ１７５における生成器は、赤色の竜のバリエーション（たとえば、青色の竜、緑色の竜、より大きな竜、より小さな竜など）を表す画像を生成する。生成器によって生成された画像または訓練画像１７０は、（たとえば、訓練画像１７０と生成された画像との間でランダムに選択を行うことによって）識別器に選択的に提供され、識別器は、「本物の」訓練画像１７０と生成器によって生成された「偽物の」画像とを区別しようとする。次いで、生成器および識別器において実現されるモデルのパラメータは、識別器が本物の画像と偽物の画像とを成功裏に区別したかどうかに基づいて決定される値を有する損失関数に基づいて更新される。いくつかの実施形態では、この損失関数は、別のニューラルネットワークを使用して本物の画像および偽物の画像から特徴を抽出して２つの画像間の差を抽出された特徴間の距離として符号化する知覚的損失関数も含む。

ＧＡＮ１７５における生成器は、訓練されると、訓練画像のバリエーションを生成し、これらの訓練画像のバリエーションは、ビデオゲームの画像または動画の生成に使用される。図１に示される処理システム１００は、画像取込、ＧＡＮモデル訓練、および訓練されたモデルを使用したその後の画像生成を実行するが、これらの動作は、いくつかの実施形態では他の処理システムを使用して実行される。たとえば、第１の処理システム（図１に示される処理システム１００と同様の態様で構成される）が、画像取込を実行して、第２の処理システムがアクセス可能なメモリにビジュアルアセットの画像を格納する、またはこれらの画像を第２の処理システムに送信することができる。第２の処理システムが、ＧＡＮ１７５のモデル訓練を実行して、第３の処理システムがアクセス可能なメモリに、訓練されたモデルを定義するパラメータを格納する、またはこれらのパラメータを第３の処理システムに送信することができる。次いで、第３の処理システムが、訓練されたモデルを使用してビデオゲームの画像または動画を生成するのに使用されることができる。

図２は、いくつかの実施形態に係る、技術開発のためのハイブリッド手続き型ＭＬパイプラインを実装するクラウドベースのシステム２００のブロック図である。クラウドベースのシステム２００は、ネットワーク２１０と相互接続されたサーバ２０５を含む。１つのサーバ２０５が図２に示されているが、クラウドベースのシステム２００のいくつかの実施形態は、ネットワーク２１０に接続された２つ以上のサーバを含む。示されている実施形態では、サーバ２０５は、ネットワーク２１０の方に信号を送信したりネットワーク２１０から信号を受信したりする送受信機２１５を含む。送受信機２１５は、１つまたは複数の別々の送信機および受信機を使用して実現することができる。サーバ２０５は、１つまたは複数のプロセッサ２２０および１つまたは複数のメモリ２２５も含む。プロセッサ２２０は、メモリ２２５に格納されたプログラムコードなどの命令を実行し、プロセッサ２２０は、実行された命令の結果などの情報をメモリ２２５に格納する。

クラウドベースのシステム２００は、ネットワーク２１０を介してサーバ２０５に接続されたコンピュータ、セットトップボックス、ゲーム機などの１つまたは複数の処理デバイス２３０を含む。示されている実施形態では、処理デバイス２３０は、ネットワーク２１０の方に信号を送信したりネットワーク２１０から信号を受信したりする送受信機２３５を含む。送受信機２３５は、１つまたは複数の別々の送信機および受信機を使用して実現することができる。処理デバイス２３０は、１つまたは複数のプロセッサ２４０および１つまたは複数のメモリ２４５も含む。プロセッサ２４０は、メモリ２４５に格納されたプログラムコードなどの命令を実行し、プロセッサ２４０は、実行された命令の結果などの情報をメモリ２４５に格納する。送受信機２３５は、スクリーン２５５上に画像または映像を表示するディスプレイ２５０、ゲームコントローラ２６０、および他のテキストまたは音声入力デバイスに接続されている。したがって、クラウドベースのシステム２００のいくつかの実施形態は、クラウドベースのゲームストリーミングアプリケーションによって使用される。

プロセッサ２２０、プロセッサ２４０、またはそれらの組み合わせは、画像取込、ＧＡＮモデル訓練、および訓練されたモデルを使用したその後の画像生成を実行するためのプログラムコードを実行する。サーバ２０５内のプロセッサ２２０と処理デバイス２３０内のプロセッサ２４０との間の分業は、実施形態が異なれば異なる。たとえば、サーバ２０５は、リモートビデオキャプチャ処理システムによって取り込まれた画像を使用してＧＡＮを訓練して、訓練されたＧＡＮにおけるモデルを定義するパラメータを送受信機２１５，２３５を介してプロセッサ２２０に提供し得る。次いで、プロセッサ２２０は、訓練されたＧＡＮを使用して、訓練画像の取り込みに使用されるビジュアルアセットのバリエーションである画像または動画を生成し得る。

図３は、いくつかの実施形態に係る、ビジュアルアセットのデジタル表現の画像を取り込むための画像取込システム３００のブロック図である。画像取込システム３００は、図１に示される処理システム１００および図２に示される処理システム２００のいくつかの実施形態を使用して実現される。

画像取込システム３００は、１つまたは複数のプロセッサ、メモリまたは他の回路を使用して実現されるコントローラ３０５を含む。コントローラ３０５は、バーチャルカメラ３１０およびバーチャル光源３１５に接続されているが、明確にするために全ての接続が図３に示されているわけではない。画像取込システム３００は、デジタル３Ｄモデルとして表示されるビジュアルアセット３２０の画像を取り込むのに使用される。いくつかの実施形態では、ビジュアルアセット３２０（この例では、竜）の３Ｄデジタル表現は、プリミティブと総称される三角形、他の多角形またはパッチのセットと、竜の頭、つめ、翼、歯、目および尾のテクスチャおよび色などの、プリミティブの解像度よりも高い解像度を有する視覚的詳細を組み込むためにプリミティブに適用されるテクスチャとによって表される。コントローラ３０５は、図３に示されるバーチャルカメラ３１０の３つの位置などの、バーチャルカメラ３１０の位置、向きまたは姿勢を選択する。コントローラ３０５は、ビジュアルアセット３２０を照明するためにバーチャル光源３１５によって生成される光の光度、方向、色および他の特性も選択する。さまざまな光特徴または特性をバーチャルカメラ３１０のさまざまな露出で使用して、ビジュアルアセット３２０のさまざまな画像を生成する。バーチャルカメラ３１０の位置、向きまたは姿勢の選択、および／または、バーチャル光源３１５によって生成される光の光度、方向、色および他の特性の選択は、ユーザ選択に基づいていてもよく、または画像取込システム３００によって実行される画像取込アルゴリズムによって自動的に決定されてもよい。

コントローラ３０５は、（たとえば、画像に関連付けられたメタデータを生成することによって）画像をラベル付けして、それらをラベル付き画像３２５として格納する。いくつかの実施形態では、これらの画像は、ビジュアルアセット３２０のタイプ（たとえば、竜）、画像が取得されたときのバーチャルカメラ３１０の位置、画像が取得されたときのバーチャルカメラ３１０の姿勢、光源３１５によって生成される照明条件、ビジュアルアセット３２０に適用されるテクスチャ、ビジュアルアセット３２０の色などを示すメタデータを使用してラベル付けされる。いくつかの実施形態では、これらの画像は、ビジュアルアセット３２０の頭、つめ、翼、歯、目および尾などの、提案されている技術開発プロセスにおいて変更され得るビジュアルアセット３２０のさまざまなパーツを示すビジュアルアセット３２０のさまざまな部分にセグメント化される。画像のセグメント化された部分は、ビジュアルアセット３２０のさまざまなパーツを示すようにラベル付けされる。

図４は、いくつかの実施形態に係る、ビジュアルアセットの画像４００およびビジュアルアセットを表すラベル付きデータ４０５のブロック図である。画像４００およびラベル付きデータ４０５は、図３に示される画像取込システム３００のいくつかの実施形態によって生成される。示されている実施形態では、画像４００は、飛行中の鳥を含むビジュアルアセットの画像である。画像４００は、頭４１０、くちばし４１５、翼４２０，４２１、胴体４２５および尾４３０を含むさまざまな部分にセグメント化される。ラベル付きデータ４０５は、画像４０５と、「鳥」という関連付けられたラベルとを含む。ラベル付きデータ４０５は、画像４０５のセグメント化された部分および関連付けられたラベルも含む。たとえば、ラベル付きデータ４０５は、画像部分４１０および「頭」という関連付けられたラベルと、画像部分４１５および「くちばし」という関連付けられたラベルと、画像部分４２０および「翼」という関連付けられたラベルと、画像部分４２１および「翼」という関連付けられたラベルと、画像部分４２５および「胴体」という関連付けられたラベルと、画像部分４３０および「尾」という関連付けられたラベルとを含む。

いくつかの実施形態では、画像部分４１０，４１５，４２０，４２１，４２５，４３０を使用して、他のビジュアルアセットの対応する部分を作成するようにＧＡＮを訓練する。たとえば、画像部分４１０を使用して、別のビジュアルアセットの「頭」を作成するようにＧＡＮの生成器を訓練する。画像部分４１０を使用したＧＡＮの訓練は、１つまたは複数の他のビジュアルアセットの「頭」に対応する他の画像部分を使用したＧＡＮの訓練とともに実行される。

図５は、いくつかの実施形態に係る、ビジュアルアセットのバリエーションである画像を生成するように訓練されるＧＡＮ５００のブロック図である。ＧＡＮ５００は、図１に示される処理システム１００および図２に示されるクラウドベースのシステム２００のいくつかの実施形態において実現される。

ＧＡＮ５００は、パラメータのモデル分布に基づいて画像を生成する、ニューラルネットワーク５１０を使用して実現される生成器５０５を含む。生成器５０５のいくつかの実施形態は、ランダムノイズ５１５、ビジュアルアセットのラベルまたはアウトラインの形式のヒント５２０などの入力情報に基づいて画像を生成する。ＧＡＮ５００は、生成器５０５によって生成された画像と正解画像を表すビジュアルアセットのラベル付き画像５３５とを区別しようとする、ニューラルネットワーク５３０を使用して実現される識別器５２５も含む。したがって、識別器５２５は、生成器５０５によって生成された画像またはラベル付き画像５３５のうちの１つのいずれかを受信して、分類判断５４０を出力し、分類判断５４０は、受信された画像が、生成器５０５によって生成された（偽物の）画像であると識別器５２５が思うか、受信された画像がラベル付き画像５３５のセットからの（本物の）画像であると識別器５２５が思うかを示す。

損失関数５４５は、分類判断５４０を識別器５２５から受信する。損失関数５４５は、識別器５２５に提供された対応する画像のアイデンティティ（または、少なくとも本物または偽物ステータス）を示す情報も受信する。次いで、損失関数５４５は、受信された情報に基づいて分類誤差を生成する。この分類誤差は、生成器５０５および識別器５２５がそれらのそれぞれの目標をどれぐらい上手く達成するかを表す。示されている実施形態では、損失関数５４５は、本物の画像および偽物の画像から特徴を抽出して本物の画像と偽物の画像との間の差を抽出された特徴間の距離として符号化する知覚的損失関数５５０も含む。知覚的損失関数５５０は、ラベル付き画像５３５および生成器５０５によって生成された画像に基づいて訓練されるニューラルネットワーク５５５を使用して実現される。したがって、知覚的損失関数５５０は、損失関数５４５全体に寄与する。

生成器５０５の目標は、識別器５２５をだますこと、すなわち（偽物の）生成された画像をラベル付き画像５３５から抜き取られた（本物の）画像として識別器５２５に識別させたり、本物の画像を偽物の画像として識別器５２５に識別させたりすることである。したがって、ニューラルネットワーク５１０のモデルパラメータは、損失関数５４５によって表される（本物の画像と偽物の画像との間の）分類誤差を最大化するように訓練される。識別器５２５の目標は、本物の画像と偽物の画像とを正しく区別することである。したがって、ニューラルネットワーク５３０のモデルパラメータは、損失関数５４５によって表される分類誤差を最小化するように訓練される。生成器５０５および識別器５２５の訓練は、繰り返し行われて、それらの対応するモデルを定義するパラメータは、各繰り返しの間に更新される。いくつかの実施形態では、分類誤差を増大させるように生成器５０５において実現されるモデルを定義するパラメータを更新するのに勾配上昇法が使用される。分類誤差を減少させるように識別器５２５において実現されるモデルを定義するパラメータを更新するのに勾配降下法が使用される。

図６は、いくつかの実施形態に係る、ビジュアルアセットの画像のバリエーションを生成するようにＧＡＮを訓練する方法６００のフロー図である。方法６００は、図１に示される処理システム１００、図２に示されるクラウドベースのシステム２００、および図５に示されるＧＡＮ５００のいくつかの実施形態において実現される。

ブロック６０５において、ＧＡＮの識別器において実現される第１のニューラルネットワークは、最初に、ビジュアルアセットの画像を、これらのビジュアルアセットから取り込まれるラベル付き画像のセットを使用して識別するように訓練される。ラベル付き画像のいくつかの実施形態は、図３に示される画像取込システム３００によって取り込まれる。

ブロック６１０において、ＧＡＮの生成器において実現される第２のニューラルネットワークは、ビジュアルアセットのバリエーションを表す画像を生成する。いくつかの実施形態では、この画像は、入力されたランダムノイズ、ヒントまたは他の情報に基づいて生成される。ブロック６１５において、生成された画像またはラベル付き画像のセットから選択された画像のいずれかが識別器に提供される。いくつかの実施形態では、ＧＡＮは、（偽物の）生成された画像と識別器に提供される（本物の）ラベル付き画像との間でランダムに選択を行う。

判断ブロック６２０において、識別器は、生成器から受信された本物の画像と偽物の画像とを区別しようとする。識別器は、識別器が画像を本物として識別するか偽物として識別するかを示す分類判断を行って、この分類判断を損失関数に提供し、この損失関数は、識別器が画像を本物として正しく識別したか偽物として正しく識別したかを判断する。識別器からの分類判断が正しい場合、方法６００はブロック６２５に流れていく。識別器からの分類判断が正しくない場合、方法６００はブロック６３０に流れていく。

ブロック６２５において、生成器における第１のニューラルネットワークによって使用されるモデル分布を定義するモデルパラメータは、生成器によって生成された画像が識別器を上手くだまさなかったという事実を反映するように更新される。ブロック６３０において、識別器における第２のニューラルネットワークによって使用されるモデル分布を定義するモデルパラメータは、受信された画像が本物であるか偽物であるかを識別器が正しく識別しなかったという事実を反映するように更新される。図６に示される方法６００は、生成器および識別器におけるモデルパラメータが独立して更新されていることを示しているが、ＧＡＮのいくつかの実施形態は、識別器が分類判断を提供したことに応答して決定される損失関数に基づいて、生成器および識別器のモデルパラメータを同時に更新する。

判断ブロック６３５において、ＧＡＮは、生成器および識別器の訓練が収束したかどうかを判断する。収束は、第１および第２のニューラルネットワークにおいて実現されるモデルのパラメータの変化の大きさ、パラメータの分数変化、パラメータの変化率、それらの組み合わせに基づいて、または他の基準に基づいて評価される。訓練が収束したとＧＡＮが判断すると、方法６００はブロック６４０に流れていって、方法６００は終了する。訓練が収束していないとＧＡＮが判断すると、方法６００はブロック６１０に流れていって、別の繰り返しが実行される。方法６００の各繰り返しは、１つの（本物または偽物の）画像について実行されているが、方法６００のいくつかの実施形態は、各繰り返しにおいて複数の本物および偽物の画像を識別器に提供し、次いで、これらの複数の画像について識別器によって返される分類判断に基づいて損失関数およびモデルパラメータを更新する。

図７は、いくつかの実施形態に係る、ビジュアルアセットの画像を特徴付けるパラメータの正解分布およびＧＡＮにおける生成器によって生成される対応するパラメータの分布の進展を示す図である。これらの分布は、たとえば図６に示される方法６００に従ったＧＡＮの訓練の連続的な繰り返しに対応する３つの連続的な時間間隔７０１，７０２，７０３で示されている。ビジュアルアセットから取り込まれたラベル付き画像（本物の画像）に対応するパラメータの値は、白丸７０５によって示されているが、明確にするために時間間隔７０１～７０３の各々において１つだけが参照番号によって示されている。

第１の時間間隔７０１において、ＧＡＮにおける生成器によって生成される画像（偽物の画像）に対応するパラメータの値は、黒丸７１０によって示されているが、明確にするために１つだけが参照番号によって示されている。偽物の画像のパラメータ７１０の分布は、本物の画像のパラメータ７０５の分布とは著しく異なっている。したがって、ＧＡＮにおける識別器が本物の画像と偽物の画像とを成功裏に識別する可能性は、第１の時間間隔７１０の間は大きい。したがって、生成器において実現されるニューラルネットワークは、識別器をだます偽物の画像を生成する能力を向上させるように更新される。

第２の時間間隔７０２において、生成器によって生成される画像に対応するパラメータの値は、黒丸７１５によって示されているが、明確にするために１つだけが参照番号によって示されている。偽物の画像を表すパラメータ７１５の分布は、本物の画像を表すパラメータ７０５の分布にいっそう類似しており、これは、生成器におけるニューラルネットワークが成功裏に訓練されていることを意味する。しかし、偽物の画像のパラメータ７１５の分布は、依然として、本物の画像のパラメータ７０５の分布とは（さほどではないが）著しく異なっている。したがって、ＧＡＮにおける識別器が本物の画像と偽物の画像とを成功裏に識別する可能性は、第２の時間間隔７０２の間は大きい。やはり、生成器において実現されるニューラルネットワークは、識別器をだます偽物の画像を生成する能力を向上させるように更新される。

第３の時間間隔７０３において、生成器によって生成される画像に対応するパラメータの値は、黒丸７２０によって示されているが、明確にするために１つだけが参照番号によって示されている。ここでは、偽物の画像を表すパラメータ７２０の分布は、本物の画像を表すパラメータ７０５の分布とほぼ区別できず、これは、生成器におけるニューラルネットワークが成功裏に訓練されていることを意味する。したがって、ＧＡＮにおける識別器が本物の画像と偽物の画像とを成功裏に識別する可能性は、第３の時間間隔７０３の間は小さい。したがって、生成器において実現されるニューラルネットワークは、ビジュアルアセットのバリエーションを生成するためのモデル分布に収束している。

図８は、いくつかの実施形態に係る、ビジュアルアセットのバリエーションである画像を生成するように訓練されたＧＡＮの一部８００のブロック図である。ＧＡＮの一部８００は、図１に示される処理システム１００および図２に示されるクラウドベースのシステム２００のいくつかの実施形態において実現される。ＧＡＮの一部８００は、パラメータのモデル分布に基づいて画像を生成するニューラルネットワーク８１０を使用して実現される生成器８０５を含む。本明細書に記載されているように、パラメータのモデル分布は、ビジュアルアセットから取り込まれたラベル付き画像のセットに基づいて訓練されている。訓練されたニューラルネットワーク８１０を使用して、たとえばビデオゲームによって使用するための、ビジュアルアセットのバリエーションを表す画像または動画８１５を生成する。生成器８０５のいくつかの実施形態は、ランダムノイズ８２０、ビジュアルアセットのラベルまたはアウトラインの形式のヒント８２５などの入力情報に基づいて画像を生成する。

図９は、いくつかの実施形態に係る、ビジュアルアセットの画像のバリエーションを生成する方法９００のフロー図である。方法９００は、図１に示される処理システム１００、図２に示されるクラウドベースのシステム２００、図５に示されるＧＡＮ５００、および図８に示されるＧＡＮの一部８００のいくつかの実施形態において実現される。

ブロック９０５において、ヒントが生成器に提供される。いくつかの実施形態では、ヒントは、ビジュアルアセットの一部（アウトラインなど）のスケッチのデジタル表現である。ヒントは、画像の生成に使用されるラベルまたはメタデータも含み得る。たとえば、ラベルは、たとえば「竜」または「木」といったビジュアルアセットのタイプを示し得る。別の例では、ビジュアルアセットがセグメント化される場合、ラベルはセグメントのうちの１つまたは複数を示し得る。

ブロック９１０において、ランダムノイズが生成器に提供される。ランダムノイズは、生成器によって生成された画像のバリエーションにランダム性の度合いを追加するために使用され得る。いくつかの実施形態では、ヒントもランダムノイズも生成器に提供される。しかし、他の実施形態では、ヒントまたはランダムノイズの一方または他方が生成器に提供される。

ブロック９１５において、生成器は、ヒント、ランダムノイズまたはそれらの組み合わせに基づいて、ビジュアルアセットのバリエーションを表す画像を生成する。たとえば、ラベルがビジュアルアセットのタイプを示す場合、生成器は、対応するラベルを有する画像を使用してビジュアルアセットのバリエーションの画像を生成する。別の例では、ラベルがビジュアルアセットのセグメントを示す場合、生成器は、対応するラベルを有するセグメントの画像に基づいてビジュアルアセットのバリエーションの画像を生成する。したがって、異なるラベル付き画像またはセグメントを組み合わせることによって、ビジュアルアセットの多数のバリエーションを作成することができる。たとえば、１つの動物の頭と別の動物の胴体および第３の動物の翼とを組み合わせることによってキメラを作成することができる。

いくつかの実施形態では、上記の技術の特定の局面は、ソフトウェアを実行する処理システムの１つまたは複数のプロセッサによって実現され得る。このソフトウェアは、非一時的なコンピュータ読取可能記憶媒体に格納されるかまたは有形に組み込まれた実行可能な命令の１つまたは複数のセットを含む。このソフトウェアは、１つまたは複数のプロセッサによって実行されると、上記の技術の１つまたは複数の局面を実行するように１つまたは複数のプロセッサを操作する命令および特定のデータを含み得る。非一時的なコンピュータ読取可能記憶媒体は、たとえば、磁気または光ディスク記憶装置、フラッシュメモリなどのソリッドステート記憶装置、キャッシュ、ランダムアクセスメモリ（ＲＡＭ：Random Access Memory）または他の不揮発性メモリデバイスなどを含み得る。非一時的なコンピュータ読取可能記憶媒体に格納された実行可能な命令は、１つまたは複数のプロセッサによって解釈されるかまたは実行可能であるソースコード、アセンブリ言語コード、オブジェクトコードまたは他の命令フォーマットであってもよい。

コンピュータ読取可能記憶媒体は、命令および／またはデータをコンピュータシステムに提供するために使用中にコンピュータシステムによってアクセス可能である任意の記憶媒体または記憶媒体の組み合わせを含み得る。このような記憶媒体は、光媒体（たとえば、コンパクトディスク（ＣＤ）、デジタル多用途ディスク（ＤＶＤ）、ブルーレイディスク）、磁気媒体（たとえば、フロッピー（登録商標）ディスク、磁気テープもしくは磁気ハードドライブ）、揮発性メモリ（たとえば、ランダムアクセスメモリ（ＲＡＭ）もしくはキャッシュ）、不揮発性メモリ（たとえば、リードオンリメモリ（ＲＯＭ：Read-Only Memory）もしくはフラッシュメモリ）、または微小電気機械システム（ＭＥＭＳ：Microelectromechanical System）ベースの記憶媒体を含み得るが、それらに限定されるものではない。コンピュータ読取可能記憶媒体は、コンピューティングシステムに組み込まれてもよく（たとえば、システムＲＡＭもしくはＲＯＭ）、コンピューティングシステムに固定的に取り付けられてもよく（たとえば、磁気ハードドライブ）、コンピューティングシステムに取り外し可能に取り付けられてもよく（たとえば、光ディスクもしくはユニバーサルシリアルバス（ＵＳＢ：Universal Serial Bus）ベースのフラッシュメモリ）、またはワイヤードもしくはワイヤレスネットワークを介してコンピュータシステムに結合されてもよい（たとえば、ネットワークアクセス可能なストレージ（ＮＡＳ：Network Accessible Storage））。

なお、概要に上記されている動作または要素は全てが必要なわけではなく、特定の動作またはデバイスの一部は不要であってもよく、上記のものに加えて１つまたは複数のさらなる動作が実行されてもよく、１つまたは複数のさらなる要素が含まれていてもよい。さらに、動作が列挙される順序は、必ずしもそれらが実行される順序ではない。また、特定の実施形態を参照して概念が説明されてきた。しかし、当業者は、以下の特許請求の範囲に記載されている本開示の範囲から逸脱することなくさまざまな修正および変更が実施可能であることを理解する。したがって、明細書および図面は、限定的な意味ではなく例示的な意味で解釈されるべきであり、全てのこのような修正は本開示の範囲内に含まれるよう意図されている。

利益、他の利点、および問題に対する解決策について、特定の実施形態に関して上述してきた。しかし、これらの利益、利点、問題に対する解決策、および任意の利益、利点もしくは解決策を生じさせ得るか、またはより顕著にさせ得る任意の特徴は、いずれかの請求項または全ての請求項の重要な特徴、必要な特徴または不可欠な特徴として解釈されるべきではない。さらに、開示されている主題は、本明細書における教示の利益を有する当業者に明らかな異なっているが等価の態様で修正および実施され得るので、上記に開示されている特定の実施形態は例示にすぎない。以下の特許請求の範囲に記載されているもの以外に、本明細書に示されている構造または設計の詳細を限定することは意図されていない。したがって、上記に開示されている特定の実施形態は変更または修正されてもよく、全てのこのような変形は開示されている主題の範囲内であると考えられる、ということが明らかである。したがって、本明細書で求められる保護は、以下の特許請求の範囲に記載されているとおりである。

図４は、いくつかの実施形態に係る、ビジュアルアセットの画像４００およびビジュアルアセットを表すラベル付きデータ４０５のブロック図である。画像４００およびラベル付きデータ４０５は、図３に示される画像取込システム３００のいくつかの実施形態によって生成される。示されている実施形態では、画像４００は、飛行中の鳥を含むビジュアルアセットの画像である。画像４００は、頭４１０、くちばし４１５、翼４２０，４２１、胴体４２５および尾４３０を含むさまざまな部分にセグメント化される。ラベル付きデータ４０５は、画像４００と、「鳥」という関連付けられたラベルとを含む。ラベル付きデータ４０５は、画像４００のセグメント化された部分および関連付けられたラベルも含む。たとえば、ラベル付きデータ４０５は、画像部分４１０および「頭」という関連付けられたラベルと、画像部分４１５および「くちばし」という関連付けられたラベルと、画像部分４２０および「翼」という関連付けられたラベルと、画像部分４２１および「翼」という関連付けられたラベルと、画像部分４２５および「胴体」という関連付けられたラベルと、画像部分４３０および「尾」という関連付けられたラベルとを含む。

Claims

コンピュータによって実行される方法であって、
ビジュアルアセットの三次元（３Ｄ）デジタル表現の第１の画像を取り込むステップと、
敵対的生成ネットワーク（ＧＡＮ：generative adversarial network）における生成器を使用して、前記ビジュアルアセットのバリエーションを表す第２の画像を生成して、前記ＧＡＮにおける識別器において前記第１の画像と前記第２の画像とを区別しようとするステップと、
前記識別器が前記第１の画像と前記第２の画像とを成功裏に区別したかどうかに基づいて、前記識別器における第１のモデルおよび前記生成器における第２のモデルのうちの少なくとも１つを更新するステップと、
前記更新された第２のモデルに基づいて、前記生成器を使用して第３の画像を生成するステップとを備える、方法。
前記ビジュアルアセットの前記３Ｄデジタル表現から前記第１の画像を取り込むステップは、さまざまな視点から、および、さまざまな照明条件下で前記第１の画像を取り込むバーチャルカメラを使用して前記第１の画像を取り込むステップを含む、請求項１に記載の方法。
前記第１の画像を取り込むステップは、前記ビジュアルアセットのタイプ、前記バーチャルカメラの位置、前記バーチャルカメラの姿勢、照明条件、前記ビジュアルアセットに適用されるテクスチャ、および前記ビジュアルアセットの色のうちの少なくとも１つに基づいて前記第１の画像をラベル付けするステップを含む、請求項２に記載の方法。
前記第１の画像を取り込むステップは、前記第１の画像を、前記ビジュアルアセットのさまざまな部分に関連付けられた部分にセグメント化して、前記ビジュアルアセットの前記さまざまな部分を示すように前記第１の画像の前記部分をラベル付けするステップを含む、請求項３に記載の方法。
前記第２の画像を生成するステップは、前記生成器に提供されるヒントおよびランダムノイズのうちの少なくとも１つに基づいて前記第２の画像を生成するステップを含む、先行する請求項のいずれか１項に記載の方法。
前記第１のモデルおよび前記第２のモデルのうちの少なくとも１つを更新するステップは、前記第２の画像が前記識別器によって前記第１の画像から区別可能でないという第１の可能性、および、前記識別器が前記第１の画像と前記第２の画像とを成功裏に区別するという第２の可能性のうちの少なくとも１つを示す損失関数を適用するステップを含む、先行する請求項のいずれか１項に記載の方法。
前記第１のモデルは、前記第１の画像におけるパラメータの第１の分布を含み、前記第２のモデルは、前記生成器によって推論されるパラメータの第２の分布を含む、請求項６に記載の方法。
前記損失関数を適用するステップは、知覚的損失関数を適用するステップを含み、前記知覚的損失関数は、前記第１の画像および前記第２の画像から特徴を抽出して、前記第１の画像と前記第２の画像との間の差を前記抽出された特徴間の距離として符号化する、請求項７に記載の方法。
前記ＧＡＮにおける前記生成器において、前記第１のモデルに基づいて前記ビジュアルアセットのバリエーションを表すように少なくとも１つの第３の画像を生成するステップをさらに含む、先行する請求項のいずれか１項に記載の方法。
前記少なくとも１つの第３の画像を生成するステップは、前記ビジュアルアセットに関連付けられたラベルまたは前記ビジュアルアセットの一部のアウトラインのデジタル表現のうちの少なくとも１つに基づいて前記少なくとも１つの第３の画像を生成するステップを含む、請求項９に記載の方法。
前記少なくとも１つの第３の画像を生成するステップは、前記ビジュアルアセットの少なくとも１つの部分と別のビジュアルアセットの少なくとも１つの部分とを組み合わせることによって前記少なくとも１つの第３の画像を生成するステップを含む、請求項９または１０に記載の方法。
実行可能な命令のセットを具現化する非一時的なコンピュータ読取可能媒体であって、前記実行可能な命令のセットは、請求項１～１１のいずれか１項に記載の方法を実行するように少なくとも１つのプロセッサを操作する、非一時的なコンピュータ読取可能媒体。
システムであって、
ビジュアルアセットの三次元（３Ｄ）デジタル表現から取り込まれた第１の画像を格納するように構成されたメモリと、
生成器および識別器を備える敵対的生成ネットワーク（ＧＡＮ）を実現するように構成された少なくとも１つのプロセッサとを備え、
前記生成器は、前記ビジュアルアセットのバリエーションを表す第２の画像を、前記識別器が前記第１の画像と前記第２の画像とを区別しようとするのと同時に、生成するように構成されており、
前記少なくとも１つのプロセッサは、前記識別器が前記第１の画像と前記第２の画像とを成功裏に区別したかどうかに基づいて、前記識別器における第１のモデルおよび前記生成器における第２のモデルのうちの少なくとも１つを更新するように構成されている、システム。
前記第１の画像は、さまざまな視点から、および、さまざまな照明条件下で前記画像を取り込むバーチャルカメラを使用して取り込まれる、請求項１３に記載のシステム。
前記メモリは、前記ビジュアルアセットのタイプ、前記バーチャルカメラの位置、前記バーチャルカメラの姿勢、照明条件、前記ビジュアルアセットに適用されるテクスチャ、および前記ビジュアルアセットの色のうちの少なくとも１つを示すための前記第１の画像のラベルを格納するように構成されている、請求項１４に記載のシステム。
前記第１の画像は、前記ビジュアルアセットのさまざまな部分に関連付けられた部分にセグメント化され、前記第１の画像の前記部分は、前記ビジュアルアセットの前記さまざまな部分を示すようにラベル付けされる、請求項１５に記載のシステム。
前記生成器は、ヒントおよびランダムノイズのうちの少なくとも１つに基づいて前記第２の画像を生成するように構成されている、請求項１３～１６のいずれか１項に記載のシステム。
前記少なくとも１つのプロセッサは、前記第２の画像が前記識別器によって前記第１の画像から区別可能でないという第１の可能性、および、前記識別器が前記第１の画像と前記第２の画像とを成功裏に区別するという第２の可能性のうちの少なくとも１つを示す損失関数を適用するように構成されている、請求項１３～１７のいずれか１項に記載のシステム。
前記第１のモデルは、前記第１の画像におけるパラメータの第１の分布を含み、前記第２のモデルは、前記生成器によって推論されるパラメータの第２の分布を含む、請求項１８に記載のシステム。
前記損失関数は、知覚的損失関数を含み、前記知覚的損失関数は、前記第１の画像および前記第２の画像から特徴を抽出して、前記第１の画像と前記第２の画像との間の差を前記抽出された特徴間の距離として符号化する、請求項１８または１９に記載のシステム。
前記生成器は、前記第１のモデルに基づいて前記ビジュアルアセットのバリエーションを表すように少なくとも１つの第３の画像を生成するように構成されている、請求項１３～２０のいずれか１項に記載のシステム。
前記生成器は、前記ビジュアルアセットに関連付けられたラベルまたは前記ビジュアルアセットの一部のアウトラインのデジタル表現のうちの少なくとも１つに基づいて前記少なくとも１つの第３の画像を生成するように構成されている、請求項２１に記載のシステム。
前記生成器は、前記ビジュアルアセットの少なくとも１つのセグメントと別のビジュアルアセットの少なくとも１つのセグメントとを組み合わせることによって前記少なくとも１つの第３の画像を生成するように構成されている、請求項２１または２２に記載のシステム。