JP7231708B2

JP7231708B2 - サンプリングされた色情報に基づいて画像シーケンスを生成および伝送するシステムおよび方法

Info

Publication number: JP7231708B2
Application number: JP2021507467A
Authority: JP
Inventors: アントンエス．カプラニアン，; アントンソシュノフ，; トーマスセバスティアンライムクラー，; ウォーレンアンドリューハント，
Original assignee: Meta Platforms Technologies LLC
Current assignee: Meta Platforms Technologies LLC
Priority date: 2018-09-26
Filing date: 2018-11-20
Publication date: 2023-03-01
Anticipated expiration: 2038-11-20
Also published as: JP2022511256A; WO2020068140A1; CN112789631A; EP3857470A1; US10846888B2; KR20210049947A; EP3857470A4; US20200098139A1

Description

本開示は、一般に、機械学習、コンピュータグラフィックス、および画像圧縮に関する。

「コンピュータグラフィックス」は、グラフィックスハードウェアおよびソフトウェアを使用して作成される、コンピュータ生成画像データ（静止画像およびビデオを含む）を指す。コンピュータグラフィックス、特に高解像度および／または高フレームレートのものは、生成するのに計算コストがかかる。たとえば、解像度１９２０×１０８０の単一の画像を生成することは、２００万超過のピクセルの色を決定する必要があることを意味する。毎秒６０フレーム（ｆｐｓ）のビデオを生成するには、１秒ごとに必要なピクセル数はすぐに１億２５００万ピクセル近くになる。さらに、一般的な三次元（３Ｄ）コンピュータグラフィックスは、物理ベースレンダリングモデル（たとえば、レイトレーシングまたはレイキャスティング技術）を、仮想環境の３Ｄモデルに適用することによってレンダリングされる。３Ｄモデルの複雑さ、ならびに物理ベースレンダリングモデルの複雑さによって、レンダリングコストが増す。それに加えて、特定のアプリケーションでは、完全にレンダリングされた画像は、所望の視覚効果（たとえば、ぼけ）を作成するために後処理を行う必要があり得、それがさらに総計算コストに加わる。

計算コストに加えて、画像データがコンピュータ生成のものか、カメラまたは他のデバイスによって記録されたもの（たとえば、オンラインでストリーミング配信されるかまたはピアツーピア接続を介して伝送される、映画もしくはビデオクリップなど）かにかかわらず、画像データのサイズもシステムリソースに対する負担となる場合がある。たとえば、高解像度画像は簡単に１０メガバイトを超える場合があり、数分の長さの高フレームレートビデオが数ギガバイトになる場合がある。したがって、リアルタイムで課される計算上の制約が少ない、予め生成された画像またはビデオ（たとえば、予め生成されたコンピュータグラフィックス、または予め記録された画像、またはカメラを使用してキャプチャされたビデオ）であっても、特に（たとえば、インターネット、セルラーデータ、短距離ワイヤレス通信などを通じての）データ伝送に関しては、ファイルサイズは依然として技術的なボトルネックとなる場合がある。

そのため、コンピュータグラフィックスが必要とされる特定のアプリケーションに応じて、画像データの生成および／または転送に関する高い計算コストにより、実際に使用することができる画像品質のレベルが制限される場合が多い。たとえば、リアルタイムアプリケーション（たとえば、３６０°のビデオおよびパノラマ、ゲーミング、仮想現実、もしくは拡張現実）、またはコンピューティング環境のシステムリソース（たとえば、処理能力、メモリ、記憶装置、もしくは伝送帯域幅）が限定されているアプリケーションでは、それらのアプリケーションのランタイム要件を満たすために、画像品質を犠牲にする必要があり得る。

人の視野全体にわたる視力の違いを示す簡易図である。フォービエイテッド圧縮の概念を示す図である。特定の実施形態による、閲覧者の中心窩視覚を利用する、シーン内の画像サンプリングの一例を示す図である。特定の実施形態による、フレームのシーケンスにわたる空間データの利用可能性によって、ビデオフレームごとの画像サンプリングがさらに低減され得る一例を示す図である。特定の実施形態による、フレームのシーケンスにわたる空間データの利用可能性によって、ビデオフレームごとの画像サンプリングがさらに低減され得る一例を示す図である。画像およびそれに対応するサンプリングデータセットの一例を、それらの時空間データの描写とともに示す図である。ＲＧＢピクセルサンプルとそれらのロケーションを示すバイナリマスクとを含む、例示的なサンプリングデータセットを示す図である。特定の実施形態による、敵対的生成ネットワークに対する例示的な訓練構成を示す図である。特定の実施形態による、生成器機械学習モデルの例示的な構成要素を示す図である。特定の実施形態による、生成器機械学習モデルの例示的な構成要素を示す図である。特定の実施形態による、生成器機械学習モデルの例示的な構成要素を示す図である。特定の実施形態による、生成器機械学習モデルの例示的な構成要素を示す図である。特定の実施形態による、弁別器機械学習モデルの例示的な構成要素を示す図である。特定の実施形態による、弁別器機械学習モデルの例示的な構成要素を示す図である。特定の実施形態による、弁別器機械学習モデルの例示的な構成要素を示す図である。特定の実施形態による、訓練済み生成器機械学習モデルを使用してサンプルデータセットから完成画像を生成するための例示的な方法を示す図である。ソーシャルネットワーキングシステムに関連する例示的なネットワーク環境を示す図である。例示的なコンピュータシステムを示す図である。

本明細書で説明される実施形態は、不完全なピクセル情報（たとえば、ピクセル色の疎なサンプルデータセット）を有するビデオフレームのシーケンスに基づいて、知覚的に正確な（ｐｅｒｃｅｐｔｉｖｅｌｙ－ａｃｃｕｒａｔｅ）画像（たとえば、ビデオフレームを含む）を生成および／または圧縮、ならびに再構築するための、機械学習アプローチに関する。機械学習を使用して、知覚的に正確な画像を疎なサンプルデータセットから生成することができるので、画像における総ピクセル数の疎なサブセットに必要なのは、計算コストがより高いレンダリングパイプライン（たとえば、レイトレーシング、レイキャスティング、または他の物理ベースコンピュータグラフィックス技術を使用する）のみであり得る。そのため、本明細書で説明される実施形態は、画像を生成するのに必要な全体の計算コスト、時間、およびシステムリソースを大幅に低減する。それに加えて、本明細書で説明される実施形態を使用して、完全な画像をそれらのサンプルデータセットから再構築することができるので、画像データを伝送する必要があるアプリケーションは、完全なピクセル情報ではなく対応するサンプルデータセットを伝送することによって、伝送コストを大幅に低減し得る。一例として、本明細書で説明される実施形態が、レンダリングコストおよび伝送帯域幅をほぼ二桁低減できるということが実験で示されている。

本発明の実施形態は、人工現実システムを含むか、またはそれと併せて実現され得る。人工現実は、ユーザに提示される前に何らかの形で調節された現実の一形態であり、たとえば、仮想現実（ＶＲ）、拡張現実（ＡＲ）、複合現実（ＭＲ）、ハイブリッドリアリティ、あるいはそれらの何らかの組合せおよび／または派生物を含み得る。人工現実コンテンツは、完全に生成されたコンテンツ、またはキャプチャされたコンテンツ（たとえば、現実世界の写真）と組み合わせた生成コンテンツを含み得る。人工現実コンテンツは、ビデオ、音声、触覚フィードバック、またはそれらの何らかの組合せを含み得、それらのうち任意のものが、単チャネルまたは多チャネル（閲覧者に対して三次元効果をもたらすステレオビデオなど）で提示され得る。それに加えて、いくつかの実施形態では、人工現実は、たとえば、人工現実においてコンテンツを作成するのに使用される、ならびに／あるいは人工現実において（たとえば、アクティビティを実施するのに）使用される、アプリケーション、製品、アクセサリ、サービス、またはそれらの何らかの組合せに関連し得る。人工現実コンテンツを提供する人工現実システムは、ホストコンピュータシステムに接続されたヘッドマウントディスプレイ（ＨＭＤ）、独立型ＨＭＤ、モバイル機器もしくはコンピューティングシステム、または人工現実コンテンツを１人もしくは複数の閲覧者に提供することができる任意の他のハードウェアプラットフォームなど、様々なプラットフォームに実装され得る。

本明細書で開示される実施形態は例にすぎず、本開示の範囲はそれらに限定されない。特定の実施形態は、上記で開示された実施形態の構成要素、要素、特徴、機能、動作、またはステップのすべてを含むか、いくつかを含むか、またはいずれをも含まないことがある。本発明による実施形態は、特に、方法、記憶媒体、システムおよびコンピュータプログラム製品を対象とする添付の特許請求の範囲で開示され、１つの請求項カテゴリー、たとえば、方法において述べられた任意の特徴は、別の請求項カテゴリー、たとえば、システムにおいても請求され得る。添付の特許請求の範囲における従属関係または参照は、形式的理由で選定されるにすぎない。ただし、前の請求項への意図的な参照（特に複数の従属関係）から生じる主題も請求され得、その結果、請求項とその特徴との任意の組合せが、開示され、添付の特許請求の範囲で選定された従属関係にかかわらず請求され得る。請求され得る主題は、添付の特許請求の範囲に記載の特徴の組合せだけでなく、特許請求の範囲における特徴の任意の他の組合せをも含み、特許請求の範囲において述べられた各特徴は、特許請求の範囲における任意の他の特徴または他の特徴の組合せと組み合わせられ得る。さらに、本明細書で説明または示される実施形態および特徴のいずれかは、別個の請求項において、ならびに／あるいは、本明細書で説明もしくは示される任意の実施形態もしくは特徴との、または添付の特許請求の範囲の特徴のいずれかとの任意の組合せで請求され得る。

一実施形態では、方法は、コンピューティングシステムによって、
１つまたは複数のフレームのシーケンスにそれぞれ関連し、関連するフレームの不完全なピクセル情報をそれぞれ含む、１つまたは複数のサンプルデータセットにアクセスすることと、
第１の機械学習モデルを使用して、１つまたは複数のサンプルデータセットに基づいて、完全なピクセル情報をそれぞれ有する１つまたは複数のフレームを生成することであって、第１の機械学習モデルが、１つまたは複数の生成されたフレームに関連する時空間表現を保持するように構成される、１つまたは複数のフレームを生成することと、
１つまたは複数のフレームのシーケンスに続く次のフレームの不完全なピクセル情報を含む次のサンプルデータセットにアクセスすることと、
第１の機械学習モデルを使用して、次のサンプルデータセットに基づいて、次のサンプルデータセットの不完全なピクセル情報、および次のサンプルデータセットに基づいて生成された追加のピクセル情報を含む完全なピクセル情報と、第１の機械学習モデルによって保持された時空間表現とを有する、次のフレームを生成することと、を含み得る。

第１の機械学習モデルは、
複数の訓練サンプルデータセットを複数の訓練フレームからそれぞれ生成することと、
第１の機械学習モデルを使用して、複数の訓練サンプルデータセットそれぞれに基づいて、複数の再構築フレームを生成することと、
第２の機械学習モデルを使用して、複数の再構築フレームが第１の機械学習モデルによって生成される確率を決定することと、
第２の機械学習モデルによって決定された確率それぞれの正当性に基づいて、第１の機械学習モデルを更新することと、によって訓練され得る。

第１の機械学習モデルの更新は、複数の再構築フレームと複数の訓練フレームとの比較に基づき得る。

一実施形態では、第１の機械学習モデルは、直列接続された複数のエンコーダおよび複数のデコーダを含み得、複数のエンコーダは最初のエンコーダおよび最後のエンコーダを含み得、複数のデコーダは最初のデコーダおよび最後のデコーダを含み得、
最初のエンコーダの出力は最後のデコーダの入力であるように構成され、
最後のエンコーダの出力は最初のデコーダの入力であるように構成される。

複数のデコーダは再帰型デコーダであり得る。

一実施形態では、方法は、
物理ベースコンピュータグラフィックスレンダリングモジュールを使用して、１つまたは複数のサンプルデータセットを生成することを含み得る。

１つまたは複数のサンプルデータセットのうち少なくとも１つの生成は、
サンプルデータセットに関連するフレーム内の１つまたは複数の関心領域を決定することと、
１つまたは複数の関心領域を使用して、不完全なピクセル情報を生成することと、を含み得、
１つまたは複数の関心領域に対応する不完全なピクセル情報のうち１つまたは複数の部分は、不完全なピクセル情報の他の部分よりも密なピクセルサンプルを含む。

一実施形態では、方法は、
アイトラッキングデバイスによって得られるアイトラッキングデータに基づいて、ユーザの視線方向を決定することを含み得、
１つまたは複数の関心領域の決定は、ユーザの決定された視線方向に基づく。

１つまたは複数のサンプルデータセットはそれぞれ、
サンプルデータセットに関連する不完全なピクセル情報に対応するピクセル色を有する画像と、
ピクセル色のロケーションを示すバイナリマスクと、を含み得る。

一実施形態では、１つまたは複数のコンピュータ可読非一時的記憶媒体は、ソフトウェアを具現し得、ソフトウェアは、実行されたとき、
１つまたは複数のフレームのシーケンスにそれぞれ関連し、関連するフレームの不完全なピクセル情報をそれぞれ含む、１つまたは複数のサンプルデータセットにアクセスすることと、
第１の機械学習モデルを使用して、１つまたは複数のサンプルデータセットに基づいて、完全なピクセル情報をそれぞれ有する１つまたは複数のフレームを生成することであって、第１の機械学習モデルは１つまたは複数の生成されたフレームに関連する時空間表現を保持するように構成される、１つまたは複数のフレームを生成することと、
１つまたは複数のフレームのシーケンスに続く次のフレームの不完全なピクセル情報を含む次のサンプルデータセットにアクセスすることと、
第１の機械学習モデルを使用して、次のサンプルデータセットに基づいて、次のサンプルデータセットの不完全なピクセル情報、および次のサンプルデータセットに基づいて生成された追加のピクセル情報を含む完全なピクセル情報と、第１の機械学習モデルによって保持された時空間表現とを有する、次のフレームを生成することと
を行うように動作可能である。

第１の機械学習モデルは、
複数の訓練サンプルデータセットを複数の訓練フレームからそれぞれ生成することと、
第１の機械学習モデルを使用して、複数の訓練サンプルデータセットそれぞれに基づいて、複数の再構築フレームを生成することと、
第２の機械学習モデルを使用して、複数の再構築フレームが第１の機械学習モデルによって生成される確率を決定することと、
第２の機械学習モデルによって決定された確率それぞれの正当性に基づいて、第１の機械学習モデルを更新することと、を含むプロセスによって訓練され得る。

媒体の一実施形態では、第１の機械学習モデルは、直列接続された複数のエンコーダおよび複数のデコーダを含み得、複数のエンコーダは最初のエンコーダおよび最後のエンコーダを含み得、複数のデコーダは最初のデコーダおよび最後のデコーダを含み得、
最初のエンコーダの出力は最後のデコーダの入力であるように構成され、
最後のエンコーダの出力は最初のデコーダの入力であるように構成される。

複数のデコーダは再帰型デコーダであり得る。

ソフトウェアは、実行されたとき、
物理ベースコンピュータグラフィックスレンダリングモジュールを使用して、１つまたは複数のサンプルデータセットを生成するように動作可能であり得る。

一実施形態では、システムは、１つまたは複数のプロセッサと、プロセッサのうち１つまたは複数に結合され、命令を含む、１つまたは複数のコンピュータ可読非一時的記憶媒体とを備え得、命令は、プロセッサのうち１つまたは複数によって実行されたとき、システムに、
１つまたは複数のフレームのシーケンスにそれぞれ関連し、関連するフレームの不完全なピクセル情報をそれぞれ含む、１つまたは複数のサンプルデータセットにアクセスすることと、
第１の機械学習モデルを使用して、１つまたは複数のサンプルデータセットに基づいて、完全なピクセル情報をそれぞれ有する１つまたは複数のフレームを生成することであって、第１の機械学習モデルは１つまたは複数の生成されたフレームに関連する時空間表現を保持するように構成される、１つまたは複数のフレームを生成することと、
１つまたは複数のフレームのシーケンスに続く次のフレームの不完全なピクセル情報を含む次のサンプルデータセットにアクセスすることと、
第１の機械学習モデルを使用して、次のサンプルデータセットに基づいて、次のサンプルデータセットの不完全なピクセル情報、および次のサンプルデータセットに基づいて生成された追加のピクセル情報を含む完全なピクセル情報と、第１の機械学習モデルによって保持された時空間表現とを有する、次のフレームを生成することと
を行わせるように動作可能である。

システムの一実施形態では、第１の機械学習モデルは、直列接続された複数のエンコーダおよび複数のデコーダを含み得、複数のエンコーダは最初のエンコーダおよび最後のエンコーダを含み得、複数のデコーダは最初のデコーダおよび最後のデコーダを含み得、
最初のエンコーダの出力は最後のデコーダの入力であるように構成され、
最後のエンコーダの出力は最初のデコーダの入力であるように構成される。

１つまたは複数のコンピュータ可読非一時的記憶媒体は、命令を含み得、命令は、プロセッサのうち１つまたは複数によって実行されたとき、システムに、
物理ベースコンピュータグラフィックスレンダリングモジュールを使用して、１つまたは複数のサンプルデータセットを生成することを行わせるように動作可能である。

本発明による一実施形態では、１つまたは複数のコンピュータ可読非一時的記憶媒体は、実行されたとき、本発明による方法または上述の実施形態のいずれかを実施するように動作可能であるソフトウェアを具現し得る。

本発明による一実施形態では、システムは、１つまたは複数のプロセッサと、プロセッサに結合され、プロセッサによって実行可能な命令を備える少なくとも１つのメモリとを備え得、プロセッサは、命令を実行したとき、本発明による方法または上述の実施形態のいずれかを実施するように動作可能である。

本発明による一実施形態では、好ましくはコンピュータ可読非一時的記憶媒体を備えるコンピュータプログラム製品は、データ処理システム上で実行されたとき、本発明による方法または上述の実施形態のいずれかを実施するように動作可能であり得る。

高解像度および高フレームレートのビデオのレンダリングおよび／または伝送は、コストがかかるプロセスである。そのコストを改善するため、本明細書で説明される実施形態は、アプリケーションが、人の視力に従ってビデオのピクセルの小さいサブセットのみをレンダリング／伝送し、ニューラルネットワークを使用して完全なビデオを生成／再構築することができるようにする。

特定の実施形態は人の視力を利用する。図１は、人１０１の視野１５０全体にわたる視力の違いを示す簡易図を提供する。この図では、中央領域１１０は人１０１の中心視野を表す。人１０１の視力は中心視野１１０から離れると低下する。たとえば、隣接領域１２０および１２１における人１０１の視力は中心視野１１０よりも弱く、領域１３０および１３１の視力はさらに低下する。

人の視覚系の視力が周辺視野に向かって急速に低下するという観察から、本明細書で説明される実施形態は、中心視野では高いピクセル密度をレンダリング／伝送し、周辺へと延在する領域の時空間ピクセル量を漸増的かつ大幅にサブサンプリング（「破損」と呼ばれる）するように設計される。それを行うため、本明細書で説明される技術は、ビデオフレームの生成および／または伝送に必要な時間を大幅に改善し得る。たとえば、特定の実施形態では、各フレームの各ピクセルをレンダリングするのに従来のグラフィックスパイプラインを使用するのではなく、本明細書で説明される実施形態は、レンダリングシステムが、より高価なレンダリングプロセスを使用してピクセルの一部分を（中心視野領域の濃度を上げて）生成し、計算的により安価な機械学習モデルを使用して残りを（中心視野領域外の濃度を上げて）生成することを可能にする。他の実施形態では、ビデオを伝送するとき、伝送機は、閲覧者の中心視野領域に基づいて元のビデオフレームの一部分をサンプリングし（たとえば、中心視野領域に近いピクセルを、中心視野領域から離れたピクセルよりも密にサンプリングする）、それらのサンプルのみを伝送して、ビデオのすべてのピクセルを伝送する必要性を回避し得る。受信側デバイスでは、伝送機から受信した疎なピクセル情報が、機械学習モデルを使用してビデオフレーム全体を再構築するのに用いられ得る。

図２Ａおよび２Ｂは、フォービエイテッドレンダリングおよび／または圧縮の概念を示している。図２Ａは、正面でキャプチャされたか特定の視点に関してレンダリングされたシーン２００を示している。シーン２００は、視点の中心に人２１０、視点の左側にイヌ２２０、および視点の右側にネコ２３０を含む。点線で示した同心円は、閲覧者の視力を視覚的に描写するのに使用される。最小円内の領域２０１は閲覧者の中心視野を表し、２つの円の間の領域２０２は、中心視野から離れた閲覧者の視野の一部分を表し、大きい円の外側の領域２０３は、中心視野からさらに離れた閲覧者の視野の一部分を表す。

図２Ｂは、閲覧者の中心窩視覚を利用する、シーン２００内の画像サブサンプリングの一例を示している。図２Ｂでは、サブサンプルロケーションは、点線で示した四角（たとえば、２９９ａ、２９９ｂ、および２９９ｃ）によって視覚的に表される。本明細書で使用するとき、「サブサンプリング」という用語は、たとえば、ピクセル情報を既存の画像／フレーム（たとえば、予め記録された映像もしくはビデオクリップ）から抽出すること、またはコンピュータグラフィックスレンダリングによって３Ｄモデルに基づいて関心ピクセルをレンダリングすることによって行われ得る、特定のピクセル（もしくはサンプリングロケーション）に関する色情報を決定するプロセスを指す。特定の実施形態では、サブサンプルの密度は閲覧者の視力と直接相関し得る。たとえば、閲覧者の中心視野は領域２０１が中心なので、サブサンプリングはその領域２０１内で非常に密であり得る。閲覧者の中心視野の中心からより離れた領域に関しては、漸進的に少なくなるかまたは疎になるサブサンプルが得られ得る。たとえば、図２Ｂでは、領域２０２内のサブサンプルは、領域２０１内よりも疎であるが、領域２０３内よりは密である。閲覧者の視力は周辺では低いので、かかる領域のサブサンプルの密度が低いことは、閲覧者の閲覧エクスペリエンスに対する影響が最小限である。以下でより詳細に説明するように、サブサンプルが得られないエリアの場合、それらの色情報に近似するのに機械学習モデルが使用され得る。閲覧者は、いずれにしても生物学的限界またはリース限界によって周辺を明瞭に見ることができないので、対応する画像の品質が低いかまたは正確な色情報が少なくても、閲覧者の閲覧エクスペリエンスに影響したとしても大きく影響しない。これにより、グラフィックスレンダリングシステムが、たとえば、閲覧者の視点に基づいてピクセルを選択的にレンダリングし（たとえば、中心視野は、中心にあるものと仮定されるか、またはアイトラッキングデバイスによって検出され得）、完全な画像またはフレームをレンダリングする必要性を回避することによって、計算リソースおよび時間を大幅に節約することが可能になる。同様に、ビデオ伝送アプリケーション（たとえば、モバイル機器におけるビデオストリーミングサービスもしくはビデオシェアリングアプリケーションなど）は、閲覧者の視点に基づいてピクセルの一部分を選択的に伝送し、ピクセルの残りを受信側デバイスで再構築して、ビデオシーケンスのすべてのピクセルを伝送することを回避し得る。

上述したように、ビデオフレームのシーケンスのうち１フレームなど、画像の欠落部分またはサンプリングされていない部分は、機械学習モデルを使用して再構築され得る。機械学習モデルは、現在のフレームに対して利用可能なサブサンプルに基づいて欠落した情報を再構築し得る（ある画像に対するサブサンプルの集まりは、そのフレームのサンプルデータセットと呼ばれ得る）。それに加えて、機械学習モデルの特定の実施形態はまた、機械学習モデルによって処理された過去のフレームからシーンの時空間情報を保持し得る。ビデオシーケンスは空間の特に長時間にわたる高い冗長度を示すので、過去のフレームからの時空間情報は、現在のフレームを再構築するための情報の良いソースである。したがって、過去のフレームからのサブサンプルが異なるロケーションにある（たとえば、ランダムもしくは擬似ランダムにサンプリングされた）場合、および／またはフレーム間でシーンがわずかに変化している場合、長時間にわたる集約時空間情報は、機械学習モデルが現在のフレームに関して欠落したピクセル情報を再構築する助けとなる。

図３Ａ～Ｂは、特定の実施形態による、フレームのシーケンスにわたる空間データの利用可能性によって、ビデオフレームごとの画像サンプリングがさらに低減され得る一例を示している。図３Ａは、図２Ａ～Ｂに示されるシーン２００と同様の、人３１０と、左側のイヌ３２０と、右側のネコ３３０とを含むシーン３００を示している。同様に、最小円内の領域３０１は閲覧者の中心視野を表し、２つの同心円の間の領域３０２は、中心視野から離れた閲覧者の視野の一部分を表し、大きい円の外側の領域３０３は、中心視野からさらに離れた閲覧者の視野の一部分を表す。サブサンプルロケーション（たとえば、３９９ａ、３９９ｂ、および３９９ｃ）は、点線で示した四角によって視覚的に表される。図３Ａでは、サブサンプルは、領域３０１内で最も密であり、領域３０２ではそれよりも疎であり、領域３０３では最も疎である。

図３Ｂは、図３Ａに示されるシーン３００を含むシーンのシーケンスにおける、別のシーン３５０を示している。一例として、図３Ａに示されるシーン３００は、図３Ｂのシーン３５０よりも時間的に先行し得る。図３Ａのシーン３００と比較して、シーン３５０のイヌ３２０およびネコ３３０は、人３１０により近付いており、視点に向かって前進している。これらの変化にかかわらず、２つのシーン３００および３５０は冗長情報を含む。たとえば、両方のシーン３１０および３５０における人３１０は、定位置に留まっており、同一に見え得る。イヌ３２０およびネコ３３０はシーンの間で動いているが、それらの外見情報は２つのシーンで依然としてキャプチャされる。そのため、特定の実施形態による機械学習モデルは、特定のフレームに関して欠落しているピクセル情報があればそれを再構築するように、両方のシーン３００および３５０からのサンプルデータセットを使用して訓練され得る。機械学習モデルは、複数のシーンに関連するサンプルデータセットから情報を取得することができるが、各シーンに関するサンプルデータセットは、他の場合に必要とされるであろうサンプルデータセットよりも疎であり得る。たとえば、図２Ｂと比較して、図３Ａのおよび３Ｂのサブサンプルはより疎である。特定の実施形態では、シーン内の異なるエリアまたはオブジェクトの画像範囲を改善するため、サブサンプルロケーションはシーンごとに異なり得る。たとえば、シーン３５０に関するサブサンプルロケーション（たとえば、３９９ｘ、３９９ｙ、３９９ｚ）は、シーン３００に関するサブサンプルロケーションとは異なる。図３Ａ～Ｂに示される例は、シーン内のオブジェクトが位置を変化させていることを示しているが、上述した同じ原理が、閲覧者の視点の変化によるシーンの変化（たとえば、閲覧者が移動し得る）、または閲覧者の視点の変化とオブジェクト位置の変化との組合せに等しく当てはまる。

図４は、画像４１０、および対応するサンプリングデータセット４２０の視覚的表現の一例を、それらそれぞれの時空間データ４３０および４４０の可視描画像とともに示している。図示される例では、画像４１０は、ビデオシーケンスのあるフレームであり得、画像全体にわたって高いピクセル密度を含む。サンプリングデータセット４２０は、画像４１０のピクセルのサブサンプリングに基づいて生成される（サンプリングデータセット４２０は、画像４１０の破損と呼ばれ得る）。サンプリングデータセット４２０の視覚的表現は、サンプリングされているピクセルの色情報を含み、サンプリングされていない領域は黒く塗られている。視覚的表現４２０に示される明るい色の点は、黒いサンプリングされていない領域と高いコントラストである、画像４１０の明るい色のピクセルに対応する。サンプリングされていない領域は黒く塗られているので、暗い色のピクセルは、この特定の視覚的表現４２０では簡単には区別不能であり得るが、それでもなお、暗い色のピクセルはサンプリングされており、サンプリングデータセット４２０中に存在する。この例では、閲覧者の中心視野領域は画像４１０では中心にあり、結果として、サンプリングデータセット４２０の中心領域における、より密な点のパターンによって表されるように、中心領域のサブサンプリングはより密である。点の密度は、中心から離れた領域では漸進的に疎になる。

上述したように、ビデオシーケンスは、一般に、空間の、特に時間に伴う高い冗長度を示す。画像４３０は、時間（縦軸）に伴って画像４１０に示されるシーンの水平線にわたるピクセルをプロットすることによって、これを示している。歪んでいるが外見的に引き伸ばされた、時間を通した色情報は、同じピクセル情報が異なる時間にわたって利用可能であることを視覚的に示す。画像４３０に関する対応するサンプリングデータセット４４０は、サブサンプルロケーションが、時間に伴って集約されると、各空間領域のサンプリングの視野範囲を適切にする。フレームのシーケンス内でエンコードされた冗長情報をレバレッジすることによって、サブサンプルは、疎な場合であっても、再構築したものが周辺視野の下で観察したときに区別不能なのがもっともであるように見える形で、機械学習モデルが欠落したビデオコンテンツを再構築またはインペイントするのに十分な情報を提供する。

効率は、機械学習モデルによって使用される再構築アルゴリズムの望ましい特徴である。特に、アルゴリズムの実行は、ビデオコンテンツ全体のレンダリング／伝送のナイーブソリューションと比較して計算および電力を大幅に節約すべきである。ビデオコンテンツ全体のレンダリングは、（たとえば、レイトレーシング可視性試験、シェーディングなどによって）各ビデオフレームの各ピクセルをレンダリングする必要があることを意味し、ビデオコンテンツ全体の伝送は、（エンコードもしくは圧縮されているか否かにかかわらず）あらゆるピクセル情報が伝送されることを意味する。これらの動作は両方とも、処理電力および時間、メモリ、記憶、伝送帯域幅などの点で、リソース集約的であり得る。本明細書で説明される再構築アルゴリズムは、レンダリング／伝送する必要があるピクセル数を低減し、機械学習モデルを使用して残りを再構築することによって、これらの範囲における大幅な節約をもたらす。

特定の実施形態は、現在および過去の情報にアクセスするように設計され得る。たとえば、図３Ａ～Ｂを参照して記載されるように、現在の関心フレームの欠落したサンプリングされていない部分を再構築するのに、過去のフレームに関連するサンプリングデータセット（たとえば、シーン３００に対応）が、現在のサンプリングデータセット（たとえば、シーン３５０に対応）とともに使用され得る。特定の実施形態では、再構築システムは、アイトラッキングシステムに通信可能に結合され得、したがって、閲覧者の現在の目の位置を動的に決定して、どのエリアを多くサンプリングし、どのエリアを少なくサンプリングするかを決定することができる。

特定の実施形態では、機械学習モデルは、再構築タスクを実施するように訓練される再帰型ニューラルネットワークであり得る。特定の実施形態では、ネットワークは敵対的生成ネットワーク（ＧＡＮ）であってもよい。ディープラーニングアルゴリズムは、画像合成および解析の領域において前例のない品質の結果を示し続けている。それらの固定機能パイプラインにより、ハードウェアで実行する際に高度に修正可能である。したがって、それらは当面の問題に対する自然な選択である。

機械学習モデルについて詳細に説明する前に、モデルへの入力について説明する。図５は、ＲＧＢピクセルサンプル５１０とそれらのロケーションを示すバイナリマスク５２０とを含む、例示的なサンプリングデータセットを示している。ピクセルサンプル５１０およびバイナリマスク５２０は両方とも、同じフレームから導き出されるか、または同じフレームに関連し得る。ＲＧＢピクセルサンプル５１０は、既存のフレームをサンプリングするか、または任意の好適なコンピュータグラフィックスレンダリングパイプラインを用いて、特定のピクセルサンプルをレンダリングすることによって生成され得る。サブサンプルロケーションは、閲覧者の閲覧位置、および／または画像を見るのに使用される光学部品（たとえば、仮想現実もしくは拡張現実ヘッドセットで使用される光学部品）の構成に応じて決まり得る。閲覧者の中心視野または視線方向により近い領域は、より密にサンプリングされ得、離れた領域はより少ない密度で（またはより疎らに）サンプリングされ得る。特定の実施形態では、各領域に関する所望のサブサンプル密度に基づいて、システムは、サブサンプルロケーションをランダムに決定し、対応する色を決定し得る。特定の実施形態では、サブサンプルロケーションは、バイナリマスク５２０を使用して記憶され得る。バイナリマスク５２０は、ＲＧＢピクセルサンプル５１０に対応するピクセルロケーションを有し得る。バイナリマスク５２０の各ピクセルは、そのピクセルがサンプリングされるかされないかを示し得る（たとえば、０はサンプリングされないピクセルを示し得、１はサンプリングされたピクセルを示し得、その逆も同様である）。サンプリングされたピクセルは、サンプリングされない領域と同じ色値を有することがあるので、バイナリマスクは、かかるシナリオの曖昧さをなくすのに使用され得る（たとえば、サンプリングされた黒色は関連する値０を有することがあり、サンプリングされない領域の既定値０と混ざってしまう）。特定の実施形態では、サンプリングされたＲＧＢ色およびバイナリマスクは、画像の４つのチャネルに記憶され得る（たとえば、ＲＧＢ色情報は画像のＲＧＢチャネルに記憶され得、バイナリマスク情報は画像のアルファチャネルに記憶され得る）。

図６は、特定の実施形態による、敵対的生成ネットワーク（ＧＡＮ）に対する一例の訓練構成を示している。ＧＡＮは、生成器６４０と弁別器６６０とを含み得る。高次では、生成器６４０は、欠落したピクセル情報に関してインペイントされた部分を有する「偽」画像を生成または再構築するように構成され得る。他方で、弁別器６６０は、所与の画像が「偽物」（生成器６４０によって生成されたもの）または「本物」（生成器６４０によって生成されていないもの）のどちらであるかを評価するよういに構成され得る。訓練中、高次の目標は、生成器６４０の能力を、弁別器６６０を騙すことができる「偽」画像を生成するように改善すると同時に、弁別器６６０の能力を、生成器６４０によって生成された「偽」画像を検出するように改善することである。訓練終了時の目標は、生成器６４０が本物のような「偽」画像を生成することである。したがって、訓練が完了すると、生成器６４０（弁別器６６０ではなく）は、推論時間中に動作を開始し、ビデオフレームを生成または再構築することができる。

訓練プロセスの特定の実施形態では、ＧＡＮネットワークを訓練するのに使用される訓練サンプルは、完全なピクセル情報（図４の４１０など）をそれぞれ有する、フレームのシーケンス６１０であり得る。フレームのシーケンス６１０は、ビデオカメラによってキャプチャされるかまたはコンピュータグラフィックスを使用してレンダリングされるような、シーンの光景の時間シーケンスであり得る。特定の実施形態では、フレームのシーケンス６１０は、破損モジュール６２０によって処理され得る。破損モジュール６２０は、各フレーム６１０をサンプリングし、対応するサンプルデータセット６３０（図４の４２０、または図５に示されるＲＧＢ画像５１０およびバイナリマスク５２０）を出力し得る。フレームに関する各サンプルデータセット６３０は、疎で不完全なピクセル情報を含み得、領域密度は閲覧者の視線方向（つまり中心視野領域）に応じて決まる。

特定の実施形態では、サンプルデータセット６３０は、ＧＡＮネットワークを訓練するのに使用され得る。サンプルデータセット６３０は生成器６４０に入力され得る。生成器６４０はニューラルネットワークを含み得、そのパラメータは訓練プロセス中に更新／訓練され得る。生成器６４０は、元のフレームのシーケンス６１０ならびにそれらのフレームの関連するサンプルデータセット６３０に対応する、生成されたフレームのシーケンス６５０（つまり、再構築されたフレーム）を出力し得る。上述したように、各サンプルデータセット６３０は疎で不完全なピクセル情報を含む。対応する生成されたフレーム６５０は、生成器６４０によって埋められる欠落したピクセル情報を有し得る。生成されたフレーム６５０はそれぞれ、「偽」画像と見なされ得る。

特定の実施形態では、生成されたフレームは弁別器６７０によって試験され、結果は、生成器６４０および弁別器６７０両方のニューラルネットワークを訓練または更新するのに使用される。特定の実施形態では、元のフレームのシーケンス６１０の各フレームは、画像特徴を抽出するように、ＶＧＧ畳み込みニューラルネットワークまたは任意の他の好適なネットワーク（たとえば、ＲｅｓＮｅｔ）など、予め訓練されたニューラルネットワークによって処理され得る。同様に、生成されたフレーム６５０はそれぞれ、それらの画像特徴を抽出するように、予め訓練されたニューラルネットワーク６６０によって処理され得る。特定の実施形態では、生成されたフレーム６５０のコンテンツ損失６９０（Ｌ_ｃによって表される）を決定するため、元のフレーム６１０それぞれの（ＶＧＧネットワーク６１５によって）抽出された画像特徴は、対応する生成されたフレーム６５０の（ＶＧＧネットワーク６６０によって）抽出された画像特徴と比較され得る。たとえば、生成されたフレーム６５０が対応する元のフレーム６１０と非常に類似している場合、コンテンツ損失６９０は少量であり得る（望ましい結果）。他方で、生成されたフレーム６５０が対応する元のフレーム６１０と類似していない場合、コンテンツ損失６９０は多量であり得る（望ましくない結果）。特定の実施形態では、生成されたフレーム６５０それぞれの抽出された特徴は、弁別器６７０に入力され得、そこで、入力フレームが「偽物」である（つまり生成器６４０によって生成されたものである）確率を決定する。生成されたフレーム６５０が自然に（つまりインペイントされていないように）見える場合、弁別器は、生成されたフレーム６５０が「本物」である（つまり、生成器６４０によって生成されていない）と決定するように「騙され」得る。同様に、元のフレーム６１０はまた、元のフレーム６１０が「本物」または「偽物」のどちらであるかを決定することができるように、弁別器６７０に入力され得る。弁別器６７０の出力は、ＧＡＮネットワークの敵対的損失６８０を決定するのに使用され得る（Ｌ_ａによって表される）。フレームのシーケンスに関する敵対的損失６８０およびそれに対応するコンテンツ損失６９０は、それぞれのタスクをより良好に実施するように生成器６４０および弁別器６７０を更新する、損失関数（Ｌ＝Ｌ_ｃ＋Ｌ_ａによって表される）として反復して使用され得る（言い換えれば、２つのネットワークのパラメータは、後の反復における損失を低減するように更新される）。訓練が完了すると（たとえば、損失関数が特定のしきい値を下回ったとき、または十分に大きい訓練サンプルセットがＧＡＮネットワークを訓練するのに使用された場合）、生成器６４０は、疎なフレームの欠落したピクセル情報を生成またはインペイントするのに、推論時間に使用され得る。

特定の実施形態では、敵対的損失Ｌ_ａは、ワッサースタイン距離に基づいて定義され、弁別器の空間的正規化を実施するのに使用され得る。特定の実施形態では、コンテンツ損失Ｌｃは、フレームごとの抽出された特徴（たとえば、ＶＧＧネットワークを使用）を比較し、追加の時間的規則化を実施し得る。コンテンツ損失は次式によって表され得る。

式中、
Ｉ_ｆは、フレームｆにおける元のフレームを表し、
Ｉ’_ｆは、フレームｆにおけるサンプルデータセットまたは破損したフレームを表し、
θは、ニューラルネットワークの訓練可能なネットワークパラメータを表し、
Φ_ｌは、ＶＧＧネットワークレイヤｌを表し、
ｇは、生成器ネットワークを表し、
λ_ｌは、個々のＶＧＧレイヤの重みを表し、
λ_ｌは、時間的規則化の重みを表す。

概念上、損失関数Ｌ_ｃ（θ）は２つの部分に分割することができる。第１の部分は、ｌ値の範囲にわたって第１の和によって画成され、元のフレームＩ_ｆとそれに対応する生成されたフレームｇ（Ｉ’_ｆ，θ）とのコンテンツ比較を表す。より具体的には、等式は、元のフレームＩ_ｆの各ＶＧＧレイヤｌと生成されたフレームｇ（Ｉ’_ｆ，θ）の対応するＶＧＧレイヤｌの出力との差を計算し、その差にそのＶＧＧレイヤｌの重みλ_ｌを掛け、各ＶＧＧレイヤに対する結果を合計する。概念上、結果は、生成されたフレームが対応する元のフレームとどのぐらい異なるかを表し、大きい差は不利になるはずである。損失関数は、ｌ値の範囲にわたって第２の和によって画成される等式の部分を使用して、時間的規則化をさらに考慮に入れる。そこで、生成されたフレームｇ（Ｉ’_ｆ，θ）の時間に伴う変化が測定される。より具体的には、生成されたフレームｇ（Ｉ’_ｆ，θ）の時間に伴う変化は、各ＶＧＧレイヤｌによる出力として、それらそれぞれの重みλ_ｌによって重み付けされ、集約される。概念上、フレームはビデオにおけるシーケンスなので、連続して生成されたフレーム間の差が過度であれば不利になるはずである。訓練中、ネットワークパラメータθは、このように定義されたコンテンツ損失を最小限に抑えるように更新され得る。

訓練が完了した後、生成器６４０は、疎なピクセルデータに基づいてビデオフレーム全体を完成させるのに、動作中に（または推論時間に）使用され得る。特定の実施形態では、生成器６４０は、コンピュータグラフィックスアプリケーションの場合のフォービエイテッドレンダリング、および／または画像伝送アプリケーションの場合のフォービエイテッド圧縮を最適化するのに使用され得る。フォービエイテッドレンダリングに関して、生成器６４０は、コンピュータグラフィックスが生成される速度を改善するのに使用され得る。たとえば、コンピュータグラフィックスアプリケーション（たとえば、ＡＲ／ＶＲアプリケーション、ゲームなど）は、任意の好適なレンダリング技術（たとえば、レイトレーシングなどの物理ベースレンダリングアルゴリズム）を使用して疎なピクセルデータをレンダリングし得る。レンダリングされたピクセルの密度は、中心視野範囲に近い領域の方が中心視野範囲から遠い領域よりも高密度であり得る（たとえば、中心視野範囲は、アイトラッキングデバイスに基づいて決定されるか、またはデバイスのレンズパラメータに基づいてもしくはアプリケーションによって予め決定され得る）。ピクセルの残りを同じ形でレンダリングする代わりに、アプリケーションは、訓練された生成器６４０を使用して欠落したピクセル情報を埋め得る。機械学習モデル（または生成器６４０）によって生成されたピクセルは、従来のレンダリングアルゴリズムによって生成され得るものよりも不正確であり得るが、閲覧者の中心視野の限界により、閲覧者は差をほとんどまたはまったく知覚しないであろう。

フォービエイテッド伝送に関して、別の方法では必要とされるであろうよりも少ない画像データを効果的に伝送し、それによって伝送時間を低減するのに、伝送側によって特定の実施形態が使用され得る。たとえば、伝送側はビデオを受信側に伝送するように命令され得る。ビデオは、予め記憶されたビデオ（たとえば、カメラによってキャプチャされたビデオ、コンピュータ生成アニメーションなど）であり得、フレームのシーケンスを含む。伝送側は、閲覧者の中心視野領域に基づいて各ビデオフレームをサンプリングし、サンプリングされたピクセルデータのみを受信側に伝送し得る。サンプリングされたピクセルデータを受信すると、受信側は、訓練された生成器６４０を使用してビデオフレーム全体を再構築し得る。やはり、機械学習モデル（または生成器６４０）によって生成されたピクセルは、元のビデオフレームの実際のピクセルよりも不正確であり得るが、閲覧者の中心視野の限界により、閲覧者は差をほとんどまたはまったく知覚しないであろう。

以下、生成器および弁別器のネットワークアーキテクチャのさらなる詳細について説明する。図７Ａ～Ｄは、特定の実施形態による、生成器６４０の例示的な構成要素を示している。図７Ａは、生成器６４０の高次アーキテクチャを示している。特定の実施形態では、システムの生成器６４０は、４つの対になるエンコーダ（たとえば、７０２、７０３、７０４、および７０５）ならびにデコーダ（たとえば、７０７、７０８、７０９、７１０）ブロックと、ボトルネックブロック７０６とを含む、オートエンコーダであり得る。この例では、４組の対になるエンコーダおよびデコーダが示されているが、３組、５組、７組、９組など、対になるエンコーダおよびデコーダの任意の他の組数も使用され得る。くさび形のブロックはダウンサンプリングおよびアップサンプリングを示す。たとえば、エンコーダブロック７０２、７０３、７０４、および７０５はそれぞれ、左側の方が右側よりも幅広で始まるくさびによって表され、それによって特徴マップのダウンサンプリングを表す。特徴マップはダウンサンプリングされるので、その空間寸法は低減されるが、特徴カウントはより大きくなる。一方、デコーダブロック７０７、７０８、７０９、７１０はそれぞれ、左側の方が右側よりも狭い幅で始まるくさびによって表され、それによって特徴マップのアップサンプリングを表す。アップサンプリングプロセスは、特徴マップの低減された次元数をその元の次元に返す。

特定の実施形態では、生成器６４０は、フレームのサンプルデータセット（たとえば、ＲＧＢおよびバイナリマスク情報）を含む画像７０１を入力として取り得る。４つの連続するエンコーダブロック７０２、７０３、７０４、７０５は、入力ＲＧＢ情報を空間次元で縮小し、特徴カウントを増加させる。入力マスクはマスク畳み込みを使用して扱われる。ボトルネックブロック７０６は、最後のエンコーダレイヤ７０５の出力を低い空間解像度で処置する。４つの対になるデコーダブロック７０７、７０８、７０９、７１０は、空間アップサンプリングを実施する一方で特徴カウントを減少させる。特定の実施形態では、対になるエンコーダおよびデコーダは、スキップ接続（たとえば、ブロック７０２と７１０、ブロック７０３と７０９、ブロック７０４と７０８、およびブロック７０５と７０７など、対称の対になるブロック間の矢印によって表される）によって接続される。したがって、各デコーダブロック（たとえば、７０９）への入力は前のブロック（たとえば、７０８）の出力、および対応するエンコーダブロック（たとえば、７０３）のマスキングされた出力である。概念上、スキップ接続は、各デコーディングブロックがサンプリングされたピクセル情報の特徴を保持するのを助ける（マスクを使用して隔離されているため）。さらに、デコーダブロック７０７、７０８、７０９、７１０は、（各ブロックの円形ループによって表される）それらの最終活性化を長時間保持する再帰型ネットワークであり得るので、それらの前の出力をそれらの現在の入力と連結して、再帰型システムを確立することができる。この特徴は、ネットワークが、前のフレームから学習した時空間表現を保持し、それらを使用して現在のフレームを生成するのを助ける。最終的に、最後のデコーダブロック７１０の出力は生成されたフレーム７１１である。

図７Ｂは、特定の実施形態による、エンコーダブロック７３０（たとえば、７０２、７０３、７０４、７０５）の詳細を提供する。黒の矢印は、ＲＧＢ情報の処理フローを表し、点線の矢印はバイナリマスク情報の処理フローを表す。特定の実施形態では、ＲＧＢ情報（入力ＲＧＢサンプルから抽出された特徴マップなど）および関連するバイナリマスク情報は、マスク畳み込みレイヤ７３２によって処理され得る。ＲＧＢ情報に関連する出力特徴マップは、次に活性化レイヤ７３４によって処理される。活性化レイヤ７３４の出力は、マスク畳み込みレイヤ７３２によって出力されたマスク特徴とともに、次にマスク畳み込みレイヤ７３６によってダウンサンプリングされる。そのレイヤ７３６から、ＲＧＢ情報に関連する出力特徴マップは、別の活性化レイヤ７３８によって処理される。活性化レイヤ７３８の出力、およびマスク畳み込みレイヤ７３６からのダウンサンプリングされたマスク特徴は次に、次のエンコーダブロックまたはボトルネックブロック７４０に渡される。活性化レイヤ７３４からの事前ダウンサンプリング出力、およびマスク畳み込みレイヤ７３２からのマスク特徴は、図７Ａに示されるように、スキップ接続を介して、対応する対になるデコーダブロックに渡される。

図７Ｃは、特定の実施形態による、ボトルネックブロック７４０（たとえば、７０６）のさらなる詳細を提供する。ボトルネックブロック７４０は、直前のエンコーダブロック（たとえば、図７Ａの７０５）の出力を入力として取り得る。ボトルネックブロックは、畳み込みレイヤ７４２を使用して、最後のエンコーダブロック７０５からのＲＧＢ情報に関連するダウンサンプリングされた特徴マップを処理し得る。そのレイヤ７４２の出力は、次に活性化レイヤ７４４によって処理され、その出力は、別の畳み込みレイヤ７４６によって処理され、その出力は別の活性化レイヤ７４８によって処理される。最後の活性化レイヤ７４８の出力は次に、最初のデコーダブロック７５０（たとえば、図７Ａの７０７）に出力され得る。

図７Ｄは、特定の実施形態による、デコーダブロック７５０（たとえば、７０７、７０８、７０９、７１０）のさらなる詳細を提供する。各デコーダブロック７５０は、直前のブロック（たとえば、別のデコーダブロック７５０またはボトルネックブロック７４０）の特徴マップ出力を入力として取り得る。それに加えて、各デコーダブロックは、上述のスキップ接続を介して、対になるエンコーダブロック７３０の出力を入力として取る。特に、スキップ接続は、ＲＧＢ情報に関連する予めダウンサンプリングされた特徴マップ、および対応するエンコーダブロック７３０からの対応するマスク特徴を、デコーダブロック７５０に送信する。直前のブロックからの入力は最初にアップサンプリング７５１され、その結果は、対応するエンコーダ７４０から予めダウンサンプリングされた特徴マップと連結される。したがって、連結地点において、直前のブロックからの特徴マップおよびスキップ接続を介した特徴マップは両方とも、同じ次元のものである。連結された結果は次に、スキップ接続を介して受信されたマスク特徴を使用して、マスク畳み込みレイヤ７５３によって処理される。結果として得られる特徴マップは次に、活性化レイヤ７５４によって処理される。そのレイヤ７５４の出力は次に、デコーダブロック７５０の前の反復からの活性化出力と連結７５５される。このように、デコーダブロック７５０はその最終活性化を長時間維持して、再帰型システムを確立する（言い換えれば、デコーダブロックは、それが処理した他の以前のフレームから学習された時空間情報を保持する）。連結された結果は次に、別の畳み込み７５６を施され、その出力は最終活性化レイヤ７５７によって処理される。活性化レイヤ７５７の出力は次に、次のデコーダブロック７５０があればそれに出力され、または最終の生成されたフレームを出力する。

図８Ａ～Ｃは、特定の実施形態による、弁別器６７０の例示的な構成要素を示している。図８Ａは、弁別器６７０のアーキテクチャの一実施形態を示している。図示される実施形態では、予め訓練されたＶＧＧネットワーク６６０（たとえば、ＶＧＧ－１９）の５つの中間レイヤはそれぞれ、時間的残差畳み込みブロックのシーケンスに供給され、それらの出力が組み合わされて、最終的なスカラークリティック（ｓｃａｌａｒｃｒｉｔｉｃ）（たとえば、入力フレームが「偽物」であるか否か）となる。具体的には、図６を参照して上述したように、生成器６４０から生成されたフレーム６５０は、予め訓練されたＶＧＧネットワーク６６０に供給され得、そこからの出力は、弁別器６７０によって処理され得る。図８Ａに示される実施形態に移ると、ＶＧＧニューラルネットワーク６６０は、複数のネットワークレイヤを使用して、入力フレームに対する空間的推論を実施し得る。ＶＧＧニューラルネットワーク６６０の各レイヤの出力は、生成されたフレームの異なるレベルの抽象化に対応する。

特定の実施形態では、ＶＧＧネットワーク６６０の５つの中間レイヤ８１０、８２０、８３０、８４０、８５０（または１つ、３つ、７つ、１０など、任意の他の数の中間レイヤ）から出力される情報は、弁別器６７０の時間的残差ブロックのシーケンス（たとえば、８１１～８１５、８２１～８２５、８３１～８３５、８４１～８４５、８５１～８５５）によって、時間に伴って集約され得る。生成器６４０とは対照的に、弁別器６７０は、フレームのシーケンスを一度に処理し、したがって、時空間関係に関して推論することができる。時間的残差ブロックは、時間ドメインのみで一次元（１Ｄ）畳み込みを実施することによって、時間に伴って情報を集約する。図８Ａに示される例に移ると、ＶＧＧｃｏｎｖ１＿２レイヤ８１０からの出力は、時間的残差ブロック８１１によって処理され得、そのブロックは、入力に対して１Ｄの時間的畳み込みを実施し、特徴深さを増加させながら空間的次元をダウンサンプリングし得る。このタイプの時間的残差ブロックは、タイプＡブロックと呼ばれ得る。同じ動作が、タイプＡの時間的残差ブロック８１２、８１３、および８１４によって連続して実施される。最後の時間的残差ブロック８１４の出力は次に、ダウンサンプリングなしで時間的畳み込みを実施する、別のタイプの時間的残差ブロック８１５によって処理される。このタイプの時間的残差ブロックは、タイプＢブロックと呼ばれ得る。タイプＢブロック８１５の出力は次に、完全に接続されたレイヤ８６０を使用して他のＶＧＧレイヤ（たとえば、８２０、８３０、８４０、８５０）に関連する出力と組み合わされる。

他のＶＧＧレイヤそれぞれに関して、プロセスは同様であるが、タイプＡおよびタイプＢのブロックの数は異なる。たとえば、ＶＧＧｃｏｎｖ２＿２８２０の出力はＶＧＧｃｏｎｖ１＿２８１０の出力と空間的に類似しており、したがって、（４つではなく）３つのタイプＡブロック８２１、８２２、８２３は、特徴マップの空間寸法がタイプＢブロックによって予想される所望の均一なサイズになるまで、時間的畳み込みおよびダウンサンプリングを実施するのに使用される。最後のタイプＡブロック８２３の出力は次に、２つのタイプＢブロック８２４のシーケンスによって処理される。結果として、ＶＧＧｃｏｎｖ２＿２レイヤ８２０の出力に対して、完全に接続されたレイヤ８６０に達する前に、他のＶＧＧレイヤ（たとえば、８１０、８３０、８４０、および８５０）の出力と同じ数（この例では、５つ）の時間的畳み込みのシーケンスが行われる。たとえば、ＶＧＧｃｏｎｖ３＿２レイヤ８３０の出力は、２つのタイプＡブロック８３１、８３２および３つのタイプＢブロック８３３、８３４、８３５のシーケンスによって処理される。ＶＧＧｃｏｎｖ４＿２レイヤ８４０の出力は、１つのタイプＡブロック８４１および４つのタイプＢブロック８４２、８４３、８４４、８４５のシーケンスによって処理される。ＶＧＧｃｏｎｖ５＿２レイヤ８５０の出力は、タイプＡブロックによっては処理されず（既に所望の空間寸法になっているので）、５つのタイプＢブロック８５１、８５２、８５３、８５４、８５５のシーケンスによって処理される。５つのＶＧＧレイヤ８１０、８２０、８３０、８４０、８５０に対する最後のタイプＢブロック８１５、８２５、８３５、８４５、８５５の出力は次に、完全に接続されたレイヤ８６０を使用して組み合わされ、そのレイヤの出力は、活性化レイヤ８６１によって、次に別の接続されたレイヤ８６２によって処理されて、最終的なスカラークリティック（たとえば、フレームが「偽物」であるか否か）に達する。

図８Ｂは、タイプＡの時間的残差ブロック８８０（たとえば、図８Ａに示されるブロック８１１～８１４、８２１～８２３、８３１～８３２、および８４１）の一実施形態を示している。タイプＡの時間的残差ブロック８８０は、前のブロックから入力（たとえば、ＶＧＧレイヤまたは別のタイプＡブロック８８０の出力）を取り、時間的畳み込み８８１（たとえば、１Ｄ時間的畳み込み）を実施する。出力は次に、活性化レイヤ８８２によって処理され、その結果はこのブロック８８０の元の入力に追加８８３される。集約結果は次に、空間寸法でダウンサンプリング８８４され、次のブロック（たとえば、別のタイプＡブロック８８０またはタイプＢブロック８９０）に出力される。

図８Ｃは、タイプＢの時間的残差ブロック８９０（たとえば、図８Ａに示されるブロック８１５、８２４～８２５、８３３～８３５、８４２～８４５、および８５１～８５５）の一実施形態を示している。タイプＢの時間的残差ブロック８９０は、前のブロックから入力（たとえば、タイプＡブロック８８０または別のタイプＢブロック８９０の出力）を取り、時間的畳み込み８９１（たとえば、１Ｄ時間的畳み込み）を実施する。出力は次に、活性化レイヤ８９２によって処理され、その結果はこのブロック８９０の元の入力に追加８９３され、次のブロック（たとえば、別のタイプＢブロック８９０または完全に接続されたレイヤ８６０）に出力される。タイプＡブロック８８０とは異なり、タイプＢブロック８９０はダウンサンプリングを実施しない。

特定の実施形態では、上述の生成器６４０および弁別器６７０は、フレームの時間的にコヒーレントなシーケンスをより良好に扱い、フリッカーなしでシーケンスを再構築するため、時間ドメインのデータを考慮に入れるように拡張され得る。特定の実施形態では、これは、２Ｄ畳み込みを３Ｄ畳み込みと置き換えることによって、または再帰型畳み込みレイヤを追加することによって達成され得る。たとえば、生成器６４０に関して、各エンコーダブロック（たとえば、図７Ａの７０２～７０５）の最後の畳み込みレイヤは、畳み込みＬＳＴＭネットワークと置き換えられ得る。たとえば、図７Ｂを参照すると、エンコーダブロック７３０の畳み込みレイヤ７３６は、畳み込みＬＳＴＭネットワークと置き換えられ得る。弁別器６７０に関して、すべての２Ｄ畳み込みレイヤは３Ｄ畳み込みレイヤと置き換えられ得る。たとえば、２つのタイプの時間的残差ブロック８８０および８９０における畳み込みレイヤ８８１および８９１は、３Ｄ畳み込みレイヤと置き換えられ得る。改良された生成器６４０および弁別器６４０は、（再帰レイヤによる）時間を通した逆伝播を用いて、自然なビデオシーケンス（たとえば、注釈、視聴覚特徴などを含み得る、カメラによってキャプチャされたビデオシーケンス）を使用して訓練され得る。特定の実施形態では、ミニバッチの画像は短いビデオシーケンスと置き換えられ得る。短いビデオシーケンスはそれぞれ、１６フレームまたは任意の他の好適なフレーム数（たとえば、４、８、３２など）を含むように構成され得る。

図９は、特定の実施形態による、訓練済み生成器機械学習モデルを使用してサンプルデータセットから完成画像を生成する一例の方法９００を示している。プロセスは、コンピューティングシステムが、１つまたは複数のフレームのシーケンスにそれぞれ関連する１つまたは複数のサンプルデータセットにアクセスし得る、ステップ９１０で始まり得る。１つまたは複数のサンプルデータセットはそれぞれ、関連するフレームの不完全なピクセル情報を含む（たとえば、サブサンプルデータは一部のピクセルに利用可能であるが、すべてに利用可能ではない）。特定の実施形態では、１つまたは複数のサンプルデータセットは、物理ベースコンピュータグラフィックスレンダリングモジュール（たとえば、レイトレーシングもしくはレイキャスティングを実施する）を使用して、または完全な色情報を有する既存のフレームからの色サンプリングから生成され得る。たとえば、システム（サンプルデータセットにアクセスする同じコンピューティングシステム、もしくは別のものであり得る）は、サンプルデータセットに関連するフレーム内の１つまたは複数の関心領域（たとえば、サブサンプルロケーション）を決定してもよい。システムは次に、１つまたは複数の関心領域を使用して、不完全ピクセル情報を生成し得る。たとえば、システムは、可視性試験を実施し、シェーディングアルゴリズムを使用して、それらの関心領域の色を決定し得、またはシステムは、完全な色情報を有する既存のフレーム内のそれらの関心領域における色をサンプリングし得る。特定の実施形態では、１つまたは複数のサンプルデータセットはそれぞれ、サンプルデータセットに関連する不完全なピクセル情報に対応するピクセル色（たとえば、ＲＧＢ）を有する画像と、ピクセル色のロケーションを示すバイナリマスクとを含み得る。サンプルデータセットを生成したシステムは次に、疎データを別のシステムに送信するか、またはデータ自体を後で処理して、フルフレームを再構築し得る。

特定の実施形態では、関心領域の密度はサンプルデータセット全体を通して空間的に均一でないことがあり得る。たとえば、１つまたは複数の関心領域に対応する不完全なピクセル情報のうち１つまたは複数の部分は、不完全なピクセル情報の他の部分よりも密なピクセルサンプルを含む。特定の実施形態では、ユーザの視線は、ユーザの中心視野領域および／または任意の適用可能な光学歪みを決定するので、密度分布はユーザの視線に基づき得る。たとえば、システムは、（たとえば、アイトラッキングデバイスによって得られるアイトラッキングデータに基づいて）ユーザの視線方向を決定し、決定されたユーザの視線方向に基づいて１つまたは複数の関心領域を決定し得る。

ステップ９２０で、システムは、第１の機械学習モデルを使用して、１つまたは複数のサンプルデータセットに基づいて、１つまたは複数のフレームを生成し得、１つまたは複数の生成されたフレームはそれぞれ完全なピクセル情報を有する。ＧＡＮネットワークの生成器など、第１の機械学習モデルは、１つまたは複数の生成されたフレームに関連する時空間表現を保持するように構成される。特定の実施形態では、第１の機械学習モデルは、（たとえば、図７Ａの例に示されるように）直列接続された、複数のエンコーダと複数のデコーダ（再帰型デコーダであり得る）とを含む。特定の実施形態では、各エンコーダの出力は、スキップ接続を介して、対応する対になるデコーダに渡され得る。たとえば、複数のエンコーダは、最初のエンコーダおよび最後のエンコーダを含み得、複数のデコーダは、最初のデコーダおよび最後のデコーダを含み得る。最初のエンコーダの出力は、最後のデコーダの入力であるように構成され得、最後のエンコーダの出力は、最初のデコーダの入力であるように構成され得る。

ステップ９３０で、システムは、１つまたは複数のフレームのシーケンスに続く次のフレームの不完全なピクセル情報を含む次のサンプルデータセットにアクセスし得る。ステップ９４０で、システムは、第１の機械学習モデルを使用して、次のサンプルデータセットに基づいて次のフレームを生成し得る。次のフレームは、次のサンプルデータセットの不完全なピクセル情報、ならびに次のサンプルデータセット、および第１の機械学習モデルによって保持された時空間表現に基づいて生成された、追加のピクセル情報を含む、完全なピクセル情報を有し得る。

特定の実施形態では、上述の第１の機械学習モデルはＧＡＮネットワークの生成器であり得る。特定の実施形態では、生成器は次のように訓練され得る。訓練システムは、複数の訓練サンプルデータセットを複数の訓練フレームからそれぞれ生成し得る。システムは、第１の機械学習モデルを使用して、複数の訓練サンプルデータセットそれぞれに基づいて、複数の再構築フレームを生成し得る。システムは次に、第２の機械学習モデル（たとえば、弁別器）を使用して、複数の再構築フレームが第１の機械学習モデルによって生成される確率を決定し得る。システムは次に、第２の機械学習モデルによって決定された確率それぞれの正当性（たとえば、敵対的損失によって測定される）に基づいて、第１の機械学習モデルを更新し得る。特定の実施形態では、第１の機械学習モデルの更新はさらに、複数の再構築フレームと複数の訓練フレームとの比較（たとえば、コンテンツ損失）に基づき得る。

図１０は、ソーシャルネットワーキングシステムに関連する例示的なネットワーク環境１０００を示している。ネットワーク環境１０００は、ネットワーク１０１０によって互いに接続された、クライアントシステム１０３０と、ソーシャルネットワーキングシステム１０６０と、サードパーティシステム１０７０とを含む。図１０は、クライアントシステム１０３０、ソーシャルネットワーキングシステム１０６０、サードパーティシステム１０７０、およびネットワーク１０１０の特定の構成を示しているが、本開示は、クライアントシステム１０３０、ソーシャルネットワーキングシステム１０６０、サードパーティシステム１０７０、およびネットワーク１０１０の任意の好適な構成を企図する。限定としてではなく一例として、クライアントシステム１０３０、ソーシャルネットワーキングシステム１０６０、およびサードパーティシステム１０７０のうち２つまたはそれ以上は、ネットワーク１０１０を迂回して互いに直接接続され得る。別の例として、クライアントシステム１０３０、ソーシャルネットワーキングシステム１０６０、およびサードパーティシステム１０７０のうち２つまたはそれ以上は、全体としてまたは部分的に、物理的または論理的に互いに同位置に配置され得る。たとえば、ＡＲ／ＶＲヘッドセット１０３０は、短距離ワイヤレス通信（たとえば、Ｂｌｕｅｔｏｏｔｈ）を介して、ローカルコンピュータまたはモバイルコンピューティングデバイス１０７０に接続され得る。さらに、図１０は、クライアントシステム１０３０、ソーシャルネットワーキングシステム１０６０、サードパーティシステム１０７０、およびネットワーク１０１０の特定の数を示しているが、本開示は、クライアントシステム１０３０、ソーシャルネットワーキングシステム１０６０、サードパーティシステム１０７０、およびネットワーク１０１０の任意の好適な数を企図する。限定としてではなく一例として、ネットワーク環境１０００は、複数のクライアントシステム１０３０、ソーシャルネットワーキングシステム１０６０、サードパーティシステム１０７０、およびネットワーク１０１０を含み得る。

本開示は、任意の好適なネットワーク１０１０を企図する。限定としてではなく一例として、ネットワーク１０１０の１つまたは複数の部分は、短距離ワイヤレスネットワーク（たとえば、Ｂｌｕｅｔｏｏｔｈ、ジグビーなど）、アドホックネットワーク、イントラネット、エクストラネット、仮想プライベートネットワーク（ＶＰＮ）、ローカルエリアネットワーク（ＬＡＮ）、ワイヤレスＬＡＮ（ＷＬＡＮ）、ワイドエリアネットワーク（ＷＡＮ）、ワイヤレスＷＡＮ（ＷＷＡＮ）、メトロポリタンエリアネットワーク（ＭＡＮ）、インターネットの一部分、公衆交換電話網（ＰＳＴＮ）の一部分、セルラー電話ネットワーク、またはこれらのうち２つまたはそれ以上の組合せを含み得る。ネットワーク１０１０は、１つまたは複数のネットワーク１０１０を含み得る。

リンク１０５０は、クライアントシステム１０３０と、ソーシャルネットワーキングシステム１０６０と、サードパーティシステム１０７０とを、通信ネットワーク１０１０にまたは互いに接続し得る。本開示は、任意の好適なリンク１０５０を企図する。特定の実施形態では、１つまたは複数のリンク１０５０は、１つまたは複数の、（たとえば、デジタル加入者回線（ＤＳＬ）またはデータオーバーケーブルサービスインターフェース仕様（ＤＯＣＳＩＳ）などの）ワイヤラインリンク、（たとえば、Ｗｉ－Ｆｉまたはワールドワイドインターオペラビリティフォーマイクロウェーブアクセス（ＷｉＭＡＸ）、Ｂｌｕｅｔｏｏｔｈなどの）ワイヤレスリンク、または（たとえば、同期光ネットワーク（ＳＯＮＥＴ）または同期デジタルハイアラーキ（ＳＤＨ）などの）光リンクを含む。特定の実施形態では、１つまたは複数のリンク１０５０は、各々、アドホックネットワーク、イントラネット、エクストラネット、ＶＰＮ、ＬＡＮ、ＷＬＡＮ、ＷＡＮ、ＷＷＡＮ、ＭＡＮ、インターネットの一部分、ＰＳＴＮの一部分、セルラー技術ベースネットワーク、衛星通信技術ベースネットワーク、別のリンク１０５０、または２つまたはそれ以上のそのようなリンク１０５０の組合せを含む。リンク１０５０は、ネットワーク環境１０００の全体にわたって必ずしも同じである必要はない。１つまたは複数の第１のリンク１０５０は、１つまたは複数の第２のリンク１０５０とは１つまたは複数の点で異なり得る。

特定の実施形態では、クライアントシステム１０３０は、ハードウェア、ソフトウェア、または埋込み論理構成要素、または２つまたはそれ以上のそのような構成要素の組合せを含み、クライアントシステム１０３０によって実装またはサポートされる適切な機能性を行うことが可能な、電子デバイスであり得る。限定としてではなく一例として、クライアントシステム１０３０は、ＶＲ／ＡＲヘッドセット、デスクトップコンピュータ、ノートブックまたはラップトップコンピュータ、ネットブック、タブレットコンピュータ、電子ブックリーダー、ＧＰＳデバイス、カメラ、携帯情報端末（ＰＤＡ）、ハンドヘルド電子デバイス、セルラー電話、スマートフォン、拡張／仮想現実デバイス、他の好適な電子デバイス、あるいはそれらの任意の好適な組合せなど、コンピュータシステムを含み得る。本開示は、任意の好適なクライアントシステム１０３０を企図する。クライアントシステム１０３０は、クライアントシステム１０３０におけるネットワークユーザが、ネットワーク１０１０にアクセスすることを可能にし得る。クライアントシステム１０３０は、クライアントシステム１０３０のユーザが、他のクライアントシステム１０３０における他のユーザと通信することを可能にし得る。

特定の実施形態では、ソーシャルネットワーキングシステム１０６０は、オンラインソーシャルネットワークをホストすることができる、ネットワークアドレス指定可能なコンピューティングシステムであり得る。ソーシャルネットワーキングシステム１０６０は、たとえば、ユーザプロファイルデータ、概念プロファイルデータ、ソーシャルグラフ情報、またはオンラインソーシャルネットワークに関係する他の好適なデータなど、ソーシャルネットワーキングデータを生成し、記憶し、受信し、送信し得る。ソーシャルネットワーキングシステム１０６０は、直接的にまたはネットワーク１０１０を介してのいずれかで、ネットワーク環境１０００の他の構成要素によってアクセスされ得る。限定としてではなく一例として、クライアントシステム１０３０は、直接的にまたはネットワーク１０１０を介してのいずれかで、ウェブブラウザ、またはソーシャルネットワーキングシステム１０６０に関連するネイティブアプリケーション（たとえば、モバイルソーシャルネットワーキングアプリケーション、メッセージングアプリケーション、別の好適なアプリケーション、またはそれらの任意の組合せ）を使用して、ソーシャルネットワーキングシステム１０６０にアクセスし得る。特定の実施形態では、ソーシャルネットワーキングシステム１０６０は、１つまたは複数のサーバ１０６２を含み得る。各サーバ１０６２は、単一サーバ、あるいは複数のコンピュータまたは複数のデータセンターにわたる分散型サーバであり得る。サーバ１０６２は、たとえば、限定はしないが、ウェブサーバ、ニュースサーバ、メールサーバ、メッセージサーバ、広告サーバ、ファイルサーバ、アプリケーションサーバ、交換サーバ、データベースサーバ、プロキシサーバ、本明細書で説明される機能またはプロセスを実施するのに好適な別のサーバ、あるいはそれらの任意の組合せなど、様々なタイプのものであり得る。特定の実施形態では、各サーバ１０６２は、サーバ１０６２によって実装またはサポートされる適切な機能性を行うための、ハードウェア、ソフトウェア、または埋込み論理構成要素、または２つまたはそれ以上のそのような構成要素の組合せを含み得る。特定の実施形態では、ソーシャルネットワーキングシステム１０６０は、１つまたは複数のデータストア１０６４を含み得る。データストア１０６４は、様々なタイプの情報を記憶するために使用され得る。特定の実施形態では、データストア１０６４に記憶された情報は、特定のデータ構造に従って編成され得る。特定の実施形態では、各データストア１０６４は、リレーショナルデータベース、列指向データベース、相関データベース、または他の好適なデータベースであり得る。本開示は、特定のタイプのデータベースを説明するかまたは示すが、本開示は任意の好適なタイプのデータベースを企図する。特定の実施形態は、クライアントシステム１０３０、ソーシャルネットワーキングシステム１０６０、またはサードパーティシステム１０７０が、データストア１０６４に記憶された情報を管理する、取り出す、修正する、追加する、または削除することを可能にするインターフェースを提供し得る。

特定の実施形態では、ソーシャルネットワーキングシステム１０６０は、１つまたは複数のデータストア１０６４に、１つまたは複数のソーシャルグラフを記憶し得る。特定の実施形態では、ソーシャルグラフは、（各々特定のユーザに対応する）複数のユーザノードまたは（各々特定の概念に対応する）複数の概念ノードを含み得る、複数のノードと、ノードを接続する複数のエッジとを含み得る。ソーシャルネットワーキングシステム１０６０は、オンラインソーシャルネットワークのユーザに、他のユーザと通信および対話する能力を提供し得る。特定の実施形態では、ユーザは、ソーシャルネットワーキングシステム１０６０を介してオンラインソーシャルネットワークに加わり、次いで、ユーザがつなげられることを希望するソーシャルネットワーキングシステム１０６０の何人かの他のユーザへのつながり（たとえば、関係）を追加し得る。本明細書では、「友達」という用語は、ソーシャルネットワーキングシステム１０６０を介してユーザがつながり、関連付け、または関係を形成したソーシャルネットワーキングシステム１０６０の任意の他のユーザを指し得る。

特定の実施形態では、ソーシャルネットワーキングシステム１０６０は、ソーシャルネットワーキングシステム１０６０によってサポートされる様々なタイプのアイテムまたはオブジェクトに関するアクションをとる能力をユーザに提供し得る。限定としてではなく一例として、アイテムおよびオブジェクトは、ソーシャルネットワーキングシステム１０６０のユーザが属し得るグループまたはソーシャルネットワーク、ユーザが興味があり得るイベントまたはカレンダーエントリ、ユーザが使用し得るコンピュータベースアプリケーション、ユーザがサービスを介してアイテムを購入または販売することを可能にするトランザクション、ユーザが実施し得る広告との対話、あるいは他の好適なアイテムまたはオブジェクトを含み得る。ユーザは、ソーシャルネットワーキングシステム１０６０において、またはソーシャルネットワーキングシステム１０６０とは別個であり、ネットワーク１０１０を介してソーシャルネットワーキングシステム１０６０に結合された、サードパーティシステム１０７０の外部システムによって、表されることが可能であるものと対話し得る。

特定の実施形態では、ソーシャルネットワーキングシステム１０６０は、様々なエンティティをリンクすることが可能であり得る。限定としてではなく一例として、ソーシャルネットワーキングシステム１０６０は、ユーザが、互いと対話し、ならびにサードパーティシステム１０７０または他のエンティティからコンテンツを受信することを可能にするか、あるいは、ユーザが、アプリケーションプログラミングインターフェース（ＡＰＩ）または他の通信チャネルを通して、これらのエンティティと対話することを可能にし得る。

特定の実施形態では、サードパーティシステム１０７０は、クライアントシステム１０３０に通信可能に結合されたローカルコンピューティングデバイスを含み得る。たとえば、クライアントシステム１０３０がＡＲ／ＶＲヘッドセットである場合、サードパーティシステム１０７０は、必要なグラフィックスレンダリングを実施し、後の処理および／または表示のためにレンダリング結果をＡＲ／ＶＲヘッドセット１０３０に提供するように構成された、ローカルラップトップであり得る。特定の実施形態では、サードパーティシステム１０７０は、クライアントシステム１０３０（たとえば、レンダリングエンジン）に関連するソフトウェアを実行し得る。サードパーティシステム１０７０は、ビデオフレームの疎なピクセル情報を有するサンプルデータセットを生成し、疎データをクライアントシステム１０３０に送信し得る。クライアントシステム１０３０は次に、サンプルデータセットから再構築されたフレームを生成し得る。

特定の実施形態では、サードパーティシステム１０７０は、１つまたは複数のタイプのサーバ、１つまたは複数のデータストア、限定はしないがＡＰＩを含む１つまたは複数のインターフェース、１つまたは複数のウェブサービス、１つまたは複数のコンテンツソース、１つまたは複数のネットワーク、またはたとえばサーバが通信し得る任意の他の好適な構成要素を含み得る。サードパーティシステム１０７０は、ソーシャルネットワーキングシステム１０６０を動作させるエンティティとは異なるエンティティによって動作させられ得る。しかしながら、特定の実施形態では、ソーシャルネットワーキングシステム１０６０とサードパーティシステム１０７０とは、互いと連携して動作して、ソーシャルネットワーキングシステム１０６０またはサードパーティシステム１０７０のユーザにソーシャルネットワーキングサービスを提供し得る。この意味で、ソーシャルネットワーキングシステム１０６０は、サードパーティシステム１０７０などの他のシステムが、インターネット上でユーザにソーシャルネットワーキングサービスおよび機能性を提供するために使用し得る、プラットフォームまたはバックボーンを提供し得る。

特定の実施形態では、サードパーティシステム１０７０は、（たとえば、本明細書で説明される疎なサンプルデータセットを含む）サードパーティコンテンツオブジェクトプロバイダを含み得る。サードパーティコンテンツオブジェクトプロバイダは、クライアントシステム１０３０に通信され得る、コンテンツオブジェクトの１つまたは複数のソースを含み得る。限定としてではなく一例として、コンテンツオブジェクトは、たとえば、映画の上映時間、映画のレビュー、レストランのレビュー、レストランのメニュー、製品情報およびレビュー、または他の好適な情報など、ユーザにとって興味のある物またはアクティビティに関する情報を含み得る。限定としてではなく別の例として、コンテンツオブジェクトは、クーポン、ディスカウントチケット、ギフト券、または他の好適なインセンティブオブジェクトなど、インセンティブコンテンツオブジェクトを含み得る。

特定の実施形態では、ソーシャルネットワーキングシステム１０６０は、ソーシャルネットワーキングシステム１０６０とのユーザの対話を向上させ得る、ユーザ生成されたコンテンツオブジェクトをも含む。ユーザ生成されたコンテンツは、ユーザがソーシャルネットワーキングシステム１０６０に追加するか、アップロードするか、送信するか、または「投稿する」ことができるものを含み得る。限定としてではなく一例として、ユーザは、クライアントシステム１０３０からソーシャルネットワーキングシステム１０６０に投稿を通信する。投稿は、ステータス更新または他のテキストデータ、ロケーション情報、写真、ビデオ、リンク、音楽あるいは他の同様のデータまたはメディアなど、データを含み得る。コンテンツはまた、ニュースフィードまたはストリームなどの「通信チャネル」を通して、サードパーティによってソーシャルネットワーキングシステム１０６０に追加され得る。

特定の実施形態では、ソーシャルネットワーキングシステム１０６０は、様々なサーバ、サブシステム、プログラム、モジュール、ログ、およびデータストアを含み得る。特定の実施形態では、ソーシャルネットワーキングシステム１０６０は、ウェブサーバ、アクションロガー、ＡＰＩ要求サーバ、関連性およびランキングエンジン、コンテンツオブジェクト分類子、通知コントローラ、アクションログ、サードパーティコンテンツオブジェクト露出ログ、推測モジュール、認可／プライバシーサーバ、検索モジュール、広告ターゲッティングモジュール、ユーザインターフェースモジュール、ユーザプロファイルストア、つながりストア、サードパーティコンテンツストア、またはロケーションストアのうちの１つまたは複数を含み得る。ソーシャルネットワーキングシステム１０６０は、ネットワークインターフェース、セキュリティ機構、ロードバランサ、フェイルオーバサーバ、管理およびネットワーク運用コンソール、他の好適な構成要素、またはそれらの任意の好適な組合せなど、好適な構成要素をも含み得る。特定の実施形態では、ソーシャルネットワーキングシステム１０６０は、ユーザプロファイルを記憶するための１つまたは複数のユーザプロファイルストアを含み得る。ユーザプロファイルは、たとえば、経歴情報、人口統計学的情報、行動情報、ソーシャル情報、あるいは、職歴、学歴、趣味もしくは選好、興味、親和性、またはロケーションなど、他のタイプの記述的情報を含み得る。興味情報は、１つまたは複数のカテゴリーに関係する興味を含み得る。カテゴリーは一般的であるかまたは固有のものであり得る。限定としてではなく一例として、ユーザが、靴のブランドに関する記事に対して「いいね！」を表明した場合、カテゴリーは、ブランド、あるいは「靴」または「衣類」の一般的なカテゴリーであり得る。つながりストアは、ユーザに関するつながり情報を記憶するために使用され得る。つながり情報は、同様のまたは共通の職歴、グループメンバーシップ、趣味、学歴を有するか、あるいはいかなる形でも関係するか、または共通属性を共有する、ユーザを指示し得る。つながり情報は、（内部と外部の両方の）異なるユーザとコンテンツとの間のユーザ定義されたつながりをも含み得る。ウェブサーバは、ネットワーク１０１０を介して、ソーシャルネットワーキングシステム１０６０を、１つまたは複数のクライアントシステム１０３０または１つまたは複数のサードパーティシステム１０７０にリンクするために使用され得る。ウェブサーバは、ソーシャルネットワーキングシステム１０６０と１つまたは複数のクライアントシステム１０３０との間でメッセージを受信およびルーティングするためのメールサーバまたは他のメッセージング機能性を含み得る。ＡＰＩ要求サーバは、サードパーティシステム１０７０が、１つまたは複数のＡＰＩを呼び出すことによってソーシャルネットワーキングシステム１０６０からの情報にアクセスすることを可能にし得る。アクションロガーは、ソーシャルネットワーキングシステム１０６０上の、またはソーシャルネットワーキングシステム１０６０から離れた、ユーザのアクションに関するウェブサーバからの通信を受信するために使用され得る。アクションログと併せて、サードパーティコンテンツオブジェクトへのユーザ露出についてのサードパーティコンテンツオブジェクトログが維持され得る。通知コントローラは、クライアントシステム１０３０にコンテンツオブジェクトに関する情報を提供し得る。情報は、通知としてクライアントシステム１０３０にプッシュされ得るか、または、情報は、クライアントシステム１０３０から受信された要求に応答してクライアントシステム１０３０からプルされ得る。認可サーバは、ソーシャルネットワーキングシステム１０６０のユーザの１つまたは複数のプライバシー設定を施行するために使用され得る。ユーザのプライバシー設定は、ユーザに関連する特定の情報がどのように共有され得るかを決定する。認可サーバは、ユーザが、たとえば、適切なプライバシー設定をセットすることなどによって、そのユーザのアクションがソーシャルネットワーキングシステム１０６０によってロギングされるか、または他のシステム（たとえば、サードパーティシステム１０７０）と共有されることをオプトインまたはオプトアウトすることを可能にし得る。サードパーティコンテンツオブジェクトストアは、サードパーティシステム１０７０など、サードパーティから受信されたコンテンツオブジェクトを記憶するために使用され得る。ロケーションストアは、ユーザに関連するクライアントシステム１０３０から受信されたロケーション情報を記憶するために使用され得る。広告価格設定モジュールは、ソーシャル情報、現在時間、ロケーション情報、または他の好適な情報を組み合わせて、関連広告を通知の形態でユーザに提供し得る。

図１１は、例示的なコンピュータシステム１１００を示す。特定の実施形態では、１つまたは複数のコンピュータシステム１１００は、本明細書で説明または示される１つまたは複数の方法の１つまたは複数のステップを実施する。特定の実施形態では、１つまたは複数のコンピュータシステム１１００は、本明細書で説明または示される機能性を提供する。特定の実施形態では、１つまたは複数のコンピュータシステム１１００上で稼働しているソフトウェアは、本明細書で説明または示される１つまたは複数の方法の１つまたは複数のステップを実施するか、あるいは本明細書で説明または示される機能性を提供する。特定の実施形態は、１つまたは複数のコンピュータシステム１１００の１つまたは複数の部分を含む。本明細書では、コンピュータシステムへの言及は、適切な場合、コンピューティングデバイスを包含し得、その逆も同様である。その上、コンピュータシステムへの言及は、適切な場合、１つまたは複数のコンピュータシステムを包含し得る。

本開示は、任意の好適な数のコンピュータシステム１１００を企図する。本開示は、任意の好適な物理的形態をとるコンピュータシステム１１００を企図する。限定としてではなく例として、コンピュータシステム１１００は、組込み型コンピュータシステム、システムオンチップ（ＳＯＣ）、（たとえば、コンピュータオンモジュール（ＣＯＭ）またはシステムオンモジュール（ＳＯＭ）などの）シングルボードコンピュータシステム（ＳＢＣ）、デスクトップコンピュータシステム、ラップトップまたはノートブックコンピュータシステム、対話型キオスク、メインフレーム、コンピュータシステムのメッシュ、携帯電話、携帯情報端末（ＰＤＡ）、サーバ、タブレットコンピュータシステム、拡張／仮想現実デバイス、あるいはこれらのうちの２つまたはそれ以上の組合せであり得る。適切な場合、コンピュータシステム１１００は、１つまたは複数のコンピュータシステム１１００を含むか、単一または分散型であるか、複数のロケーションにわたるか、複数のマシンにわたるか、複数のデータセンターにわたるか、あるいは１つまたは複数のネットワーク中の１つまたは複数のクラウド構成要素を含み得るクラウド中に常駐し得る。適切な場合、１つまたは複数のコンピュータシステム１１００は、実質的な空間的または時間的制限なしに、本明細書で説明または示される１つまたは複数の方法の１つまたは複数のステップを実施し得る。限定としてではなく一例として、１つまたは複数のコンピュータシステム１１００は、リアルタイムでまたはバッチモードで、本明細書で説明または示される１つまたは複数の方法の１つまたは複数のステップを実施し得る。１つまたは複数のコンピュータシステム１１００は、適切な場合、異なる時間においてまたは異なるロケーションにおいて、本明細書で説明または示される１つまたは複数の方法の１つまたは複数のステップを実施し得る。

特定の実施形態では、コンピュータシステム１１００は、プロセッサ１１０２と、メモリ１１０４と、ストレージ１１０６と、入出力（Ｉ／Ｏ）インターフェース１１０８と、通信インターフェース１１１０と、バス１１１２とを含む。本開示は、特定の構成において特定の数の特定の構成要素を有する特定のコンピュータシステムを説明し、示すが、本開示は、任意の好適な構成において任意の好適な数の任意の好適な構成要素を有する任意の好適なコンピュータシステムを企図する。

特定の実施形態では、プロセッサ１１０２は、コンピュータプログラムを作り上げる命令など、命令を実行するためのハードウェアを含む。限定としてではなく一例として、命令を実行するために、プロセッサ１１０２は、内部レジスタ、内部キャッシュ、メモリ１１０４、またはストレージ１１０６から命令を取り出し（またはフェッチし）、それらの命令を復号および実行し、次いで、内部レジスタ、内部キャッシュ、メモリ１１０４、またはストレージ１１０６に１つまたは複数の結果を書き込み得る。特定の実施形態では、プロセッサ１１０２は、データ、命令、またはアドレスのための１つまたは複数の内部キャッシュを含み得る。本開示は、適切な場合、任意の好適な数の任意の好適な内部キャッシュを含むプロセッサ１１０２を企図する。限定としてではなく一例として、プロセッサ１１０２は、１つまたは複数の命令キャッシュと、１つまたは複数のデータキャッシュと、１つまたは複数のトランスレーションルックアサイドバッファ（ＴＬＢ）とを含み得る。命令キャッシュ中の命令は、メモリ１１０４またはストレージ１１０６中の命令のコピーであり得、命令キャッシュは、プロセッサ１１０２によるそれらの命令の取出しを高速化し得る。データキャッシュ中のデータは、プロセッサ１１０２において実行する命令が動作する対象のメモリ１１０４またはストレージ１１０６中のデータのコピー、プロセッサ１１０２において実行する後続の命令によるアクセスのための、またはメモリ１１０４もしくはストレージ１１０６に書き込むための、プロセッサ１１０２において実行された前の命令の結果、あるいは他の好適なデータであり得る。データキャッシュは、プロセッサ１１０２による読取りまたは書込み動作を高速化し得る。ＴＬＢは、プロセッサ１１０２のための仮想アドレストランスレーションを高速化し得る。特定の実施形態では、プロセッサ１１０２は、データ、命令、またはアドレスのための１つまたは複数の内部レジスタを含み得る。本開示は、適切な場合、任意の好適な数の任意の好適な内部レジスタを含むプロセッサ１１０２を企図する。適切な場合、プロセッサ１１０２は、１つまたは複数の算術論理ユニット（ＡＬＵ）を含むか、マルチコアプロセッサであるか、または１つまたは複数のプロセッサ１１０２を含み得る。本開示は、特定のプロセッサを説明し、示すが、本開示は任意の好適なプロセッサを企図する。

特定の実施形態では、メモリ１１０４は、プロセッサ１１０２が実行するための命令、またはプロセッサ１１０２が動作する対象のデータを記憶するためのメインメモリを含む。限定としてではなく一例として、コンピュータシステム１１００は、ストレージ１１０６または（たとえば、別のコンピュータシステム１１００などの）別のソースからメモリ１１０４に命令をロードし得る。プロセッサ１１０２は、次いで、メモリ１１０４から内部レジスタまたは内部キャッシュに命令をロードし得る。命令を実行するために、プロセッサ１１０２は、内部レジスタまたは内部キャッシュから命令を取り出し、それらの命令を復号し得る。命令の実行中またはその後に、プロセッサ１１０２は、（中間結果または最終結果であり得る）１つまたは複数の結果を内部レジスタまたは内部キャッシュに書き込み得る。プロセッサ１１０２は、次いで、メモリ１１０４にそれらの結果のうちの１つまたは複数を書き込み得る。特定の実施形態では、プロセッサ１１０２は、１つまたは複数の内部レジスタまたは内部キャッシュ中の、あるいは（ストレージ１１０６または他の場所とは対照的な）メモリ１１０４中の命令のみを実行し、１つまたは複数の内部レジスタまたは内部キャッシュ中の、あるいは（ストレージ１１０６または他の場所とは対照的な）メモリ１１０４中のデータのみに対して動作する。（アドレスバスおよびデータバスを各々含み得る）１つまたは複数のメモリバスが、プロセッサ１１０２をメモリ１１０４に結合し得る。バス１１１２は、以下で説明されるように、１つまたは複数のメモリバスを含み得る。特定の実施形態では、１つまたは複数のメモリ管理ユニット（ＭＭＵ）が、プロセッサ１１０２とメモリ１１０４との間に常駐し、プロセッサ１１０２によって要求されるメモリ１１０４へのアクセスを可能にする。特定の実施形態では、メモリ１１０４は、ランダムアクセスメモリ（ＲＡＭ）を含む。このＲＡＭは、適切な場合、揮発性メモリであり得る。適切な場合、このＲＡＭは、ダイナミックＲＡＭ（ＤＲＡＭ）またはスタティックＲＡＭ（ＳＲＡＭ）であり得る。その上、適切な場合、このＲＡＭは、シングルポートまたはマルチポートＲＡＭであり得る。本開示は任意の好適なＲＡＭを企図する。メモリ１１０４は、適切な場合、１つまたは複数のメモリ１１０４を含み得る。本開示は、特定のメモリを説明し、示すが、本開示は任意の好適なメモリを企図する。

特定の実施形態では、ストレージ１１０６は、データまたは命令のための大容量ストレージを含む。限定としてではなく一例として、ストレージ１１０６は、ハードディスクドライブ（ＨＤＤ）、フロッピーディスクドライブ、フラッシュメモリ、光ディスク、光磁気ディスク、磁気テープ、またはユニバーサルシリアルバス（ＵＳＢ）ドライブ、あるいはこれらのうちの２つまたはそれ以上の組合せを含み得る。ストレージ１１０６は、適切な場合、リムーバブルまたは非リムーバブル（または固定）媒体を含み得る。ストレージ１１０６は、適切な場合、コンピュータシステム１１００の内部または外部にあり得る。特定の実施形態では、ストレージ１１０６は、不揮発性ソリッドステートメモリである。特定の実施形態では、ストレージ１１０６は、読取り専用メモリ（ＲＯＭ）を含む。適切な場合、このＲＯＭは、マスクプログラムＲＯＭ、プログラマブルＲＯＭ（ＰＲＯＭ）、消去可能ＰＲＯＭ（ＥＰＲＯＭ）、電気的消去可能ＰＲＯＭ（ＥＥＰＲＯＭ）、電気的書き換え可能ＲＯＭ（ＥＡＲＯＭ）、またはフラッシュメモリ、あるいはこれらのうちの２つまたはそれ以上の組合せであり得る。本開示は、任意の好適な物理的形態をとる大容量ストレージ１１０６を企図する。ストレージ１１０６は、適切な場合、プロセッサ１１０２とストレージ１１０６との間の通信を可能にする１つまたは複数のストレージ制御ユニットを含み得る。適切な場合、ストレージ１１０６は、１つまたは複数のストレージ１１０６を含み得る。本開示は、特定のストレージを説明し、示すが、本開示は任意の好適なストレージを企図する。

特定の実施形態では、Ｉ／Ｏインターフェース１１０８は、コンピュータシステム１１００と１つまたは複数のＩ／Ｏデバイスとの間の通信のための１つまたは複数のインターフェースを提供する、ハードウェア、ソフトウェア、またはその両方を含む。コンピュータシステム１１００は、適切な場合、これらのＩ／Ｏデバイスのうちの１つまたは複数を含み得る。これらのＩ／Ｏデバイスのうちの１つまたは複数は、人とコンピュータシステム１１００との間の通信を可能にし得る。限定としてではなく一例として、Ｉ／Ｏデバイスは、キーボード、キーパッド、マイクロフォン、モニタ、マウス、プリンタ、スキャナ、スピーカー、スチールカメラ、スタイラス、タブレット、タッチスクリーン、トラックボール、ビデオカメラ、別の好適なＩ／Ｏデバイス、またはこれらのうちの２つまたはそれ以上の組合せを含み得る。Ｉ／Ｏデバイスは１つまたは複数のセンサーを含み得る。本開示は、任意の好適なＩ／Ｏデバイスと、それらのＩ／Ｏデバイスのための任意の好適なＩ／Ｏインターフェース１１０８とを企図する。適切な場合、Ｉ／Ｏインターフェース１１０８は、プロセッサ１１０２がこれらのＩ／Ｏデバイスのうちの１つまたは複数を駆動することを可能にする１つまたは複数のデバイスまたはソフトウェアドライバを含み得る。Ｉ／Ｏインターフェース１１０８は、適切な場合、１つまたは複数のＩ／Ｏインターフェース１１０８を含み得る。本開示は、特定のＩ／Ｏインターフェースを説明し、示すが、本開示は任意の好適なＩ／Ｏインターフェースを企図する。

特定の実施形態では、通信インターフェース１１１０は、コンピュータシステム１１００と、１つまたは複数の他のコンピュータシステム１１００または１つまたは複数のネットワークとの間の（たとえば、パケットベース通信などの）通信のための１つまたは複数のインターフェースを提供する、ハードウェア、ソフトウェア、またはその両方を含む。限定としてではなく一例として、通信インターフェース１１１０は、イーサネットまたは他のワイヤベースネットワークと通信するためのネットワークインターフェースコントローラ（ＮＩＣ）またはネットワークアダプタ、あるいはＷＩ－ＦＩネットワークなどのワイヤレスネットワークと通信するためのワイヤレスＮＩＣ（ＷＮＩＣ）またはワイヤレスアダプタを含み得る。本開示は、任意の好適なネットワークと、そのネットワークのための任意の好適な通信インターフェース１１１０とを企図する。限定としてではなく一例として、コンピュータシステム１１００は、アドホックネットワーク、パーソナルエリアネットワーク（ＰＡＮ）、ローカルエリアネットワーク（ＬＡＮ）、ワイドエリアネットワーク（ＷＡＮ）、メトロポリタンエリアネットワーク（ＭＡＮ）、またはインターネットの１つまたは複数の部分、あるいはこれらのうちの２つまたはそれ以上の組合せと通信し得る。これらのネットワークのうちの１つまたは複数の１つまたは複数の部分は、ワイヤードまたはワイヤレスであり得る。一例として、コンピュータシステム１１００は、（たとえば、ＢＬＵＥＴＯＯＴＨＷＰＡＮなどの）ワイヤレスＰＡＮ（ＷＰＡＮ）、ＷＩ－ＦＩネットワーク、ＷＩ－ＭＡＸネットワーク、（たとえば、モバイル通信用グローバルシステム（ＧＳＭ）ネットワークなどの）セルラー電話ネットワーク、または他の好適なワイヤレスネットワーク、あるいはこれらのうちの２つまたはそれ以上の組合せと通信し得る。コンピュータシステム１１００は、適切な場合、これらのネットワークのいずれかのための任意の好適な通信インターフェース１１１０を含み得る。通信インターフェース１１１０は、適切な場合、１つまたは複数の通信インターフェース１１１０を含み得る。本開示は、特定の通信インターフェースを説明し、示すが、本開示は任意の好適な通信インターフェースを企図する。

特定の実施形態では、バス１１１２は、コンピュータシステム１１００の構成要素を互いに結合する、ハードウェア、ソフトウェア、またはその両方を含む。限定としてではなく一例として、バス１１１２は、アクセラレーテッドグラフィックスポート（ＡＧＰ）または他のグラフィックスバス、拡張業界標準アーキテクチャ（ＥＩＳＡ）バス、フロントサイドバス（ＦＳＢ）、ＨＹＰＥＲＴＲＡＮＳＰＯＲＴ（ＨＴ）相互接続、業界標準アーキテクチャ（ＩＳＡ）バス、ＩＮＦＩＮＩＢＡＮＤ相互接続、ローピンカウント（ＬＰＣ）バス、メモリバス、マイクロチャネルアーキテクチャ（ＭＣＡ）バス、周辺構成要素相互接続（ＰＣＩ）バス、ＰＣＩ－Ｅｘｐｒｅｓｓ（ＰＣＩｅ）バス、シリアルアドバンストテクノロジーアタッチメント（ＳＡＴＡ）バス、ビデオエレクトロニクス規格協会ローカル（ＶＬＢ）バス、または別の好適なバス、あるいはこれらのうちの２つまたはそれ以上の組合せを含み得る。バス１１１２は、適切な場合、１つまたは複数のバス１１１２を含み得る。本開示は、特定のバスを説明し、示すが、本開示は任意の好適なバスまたは相互接続を企図する。

本明細書では、１つまたは複数のコンピュータ可読非一時的記憶媒体は、適切な場合、（たとえば、フィールドプログラマブルゲートアレイ（ＦＰＧＡ）または特定用途向けＩＣ（ＡＳＩＣ）などの）１つまたは複数の半導体ベースまたは他の集積回路（ＩＣ）、ハードディスクドライブ（ＨＤＤ）、ハイブリッドハードドライブ（ＨＨＤ）、光ディスク、光ディスクドライブ（ＯＤＤ）、光磁気ディスク、光磁気ドライブ、フロッピーディスケット、フロッピーディスクドライブ（ＦＤＤ）、磁気テープ、ソリッドステートドライブ（ＳＳＤ）、ＲＡＭドライブ、セキュアデジタルカードまたはドライブ、任意の他の好適なコンピュータ可読非一時的記憶媒体、あるいはこれらのうちの２つまたはそれ以上の任意の好適な組合せを含み得る。コンピュータ可読非一時的記憶媒体は、適切な場合、揮発性、不揮発性、または揮発性と不揮発性との組合せであり得る。

本明細書では、「または」は、明確に別段に指示されていない限り、またはコンテキストによって別段に指示されていない限り、包括的であり、排他的ではない。したがって、本明細書では、「ＡまたはＢ」は、明確に別段に指示されていない限り、またはコンテキストによって別段に指示されていない限り、「Ａ、Ｂ、またはその両方」を意味する。その上、「および」は、明確に別段に指示されていない限り、またはコンテキストによって別段に指示されていない限り、共同と個別の両方である。したがって、本明細書では、「ＡおよびＢ」は、明確に別段に指示されていない限り、またはコンテキストによって別段に指示されていない限り、「共同でまたは個別に、ＡおよびＢ」を意味する。

本開示の範囲は、当業者が理解するであろう、本明細書で説明または示される例示的な実施形態に対するすべての変更、置換、変形、改変、および修正を包含する。本開示の範囲は、本明細書で説明または示される例示的な実施形態に限定されない。その上、本開示は、本明細書のそれぞれの実施形態を、特定の構成要素、要素、特徴、機能、動作、またはステップを含むものとして説明し、示すが、これらの実施形態のいずれも、当業者が理解するであろう、本明細書のどこかに説明または示される構成要素、要素、特徴、機能、動作、またはステップのうちのいずれかの任意の組合せまたは置換を含み得る。さらに、特定の機能を実施するように適応されるか、構成されるか、実施することが可能であるか、実施するように設定されるか、実施することが可能にされるか、実施するように動作可能であるか、または実施するように動作する、装置またはシステムあるいは装置またはシステムの構成要素に対する添付の特許請求の範囲における参照は、その装置、システム、または構成要素が、そのように適応されるか、構成されるか、可能であるか、設定されるか、可能にされるか、動作可能であるか、または動作する限り、その装置、システム、構成要素またはその特定の機能が、アクティブにされるか、オンにされるか、またはロック解除されるか否かにかかわらず、その装置、システム、構成要素を包含する。さらに、本開示は、特定の実施形態を、特定の利点を提供するものとして説明するかまたは示すが、特定の実施形態は、これらの利点のいずれをも提供しないか、いくつかを提供するか、またはすべてを提供し得る。

Claims

コンピューティングシステムによって、
１つまたは複数のフレームのシーケンスにそれぞれ関連し、関連するフレームの不完全なピクセル情報をそれぞれ含む、１つまたは複数のサンプルデータセットにアクセスすることと、
第１の機械学習モデルを使用して、前記１つまたは複数のサンプルデータセットに基づいて、完全なピクセル情報をそれぞれ有する前記１つまたは複数のフレームを生成することであって、前記第１の機械学習モデルが、生成された前記１つまたは複数のフレームに関連する時空間ピクセル量を保持するように構成される、前記１つまたは複数のフレームを生成することと、
前記１つまたは複数のフレームのシーケンスに続く次のフレームの不完全なピクセル情報を含む次のサンプルデータセットにアクセスすることと、
前記第１の機械学習モデルを使用して、前記次のサンプルデータセットに基づいて、完全なピクセル情報を有する前記次のフレームを生成することであって、前記完全なピクセル情報が、前記次のサンプルデータセットの前記不完全なピクセル情報、および追加のピクセル情報を含み、前記追加のピクセル情報が、前記次のサンプルデータセットと、前記第１の機械学習モデルによって保持された前記時空間ピクセル量とに基づいて生成される、前記次のフレームを生成することと、を含む、方法。
前記第１の機械学習モデルが、
複数の訓練サンプルデータセットを複数の訓練フレームからそれぞれ生成することと、
前記第１の機械学習モデルを使用して、前記複数の訓練サンプルデータセットに基づいて、複数の再構築フレームをそれぞれ生成することと、
第２の機械学習モデルを使用して、前記複数の再構築フレームが前記第１の機械学習モデルによって生成される確率を決定することと、
前記第２の機械学習モデルによって決定された前記確率のそれぞれの正確性に基づいて、前記第１の機械学習モデルを更新することと、によって訓練され、
随意に、前記第１の機械学習モデルの前記更新が、前記複数の再構築フレームと前記複数の訓練フレームとの比較にさらに基づく、請求項１に記載の方法。
前記第１の機械学習モデルが、直列接続された複数のエンコーダおよび複数のデコーダを含み、前記複数のエンコーダが最初のエンコーダおよび最後のエンコーダを含み、前記複数のデコーダが最初のデコーダおよび最後のデコーダを含み、
前記最初のエンコーダの出力が前記最後のデコーダの入力であるように構成され、
前記最後のエンコーダの出力が前記最初のデコーダの入力であるように構成され、
随意に、前記複数のデコーダが再帰型デコーダである、請求項１または２に記載の方法。
物理ベースコンピュータグラフィックスレンダリングモジュールを使用して、前記１つまたは複数のサンプルデータセットを生成することをさらに含む、請求項１から３のいずれか一項に記載の方法。
前記１つまたは複数のサンプルデータセットのうち少なくとも１つの前記生成が、
前記サンプルデータセットに関連するフレーム内の１つまたは複数の関心領域を決定することと、
前記１つまたは複数の関心領域を使用して、前記不完全なピクセル情報を生成することと、を含み、
前記１つまたは複数の関心領域に対応する前記不完全なピクセル情報の１つまたは複数の部分が、前記不完全なピクセル情報の他の部分よりも密なピクセルサンプルを含み、
随意に、前記方法が、アイトラッキングデバイスによって得られるアイトラッキングデータに基づいて、ユーザの視線方向を決定することをさらに含み、
前記１つまたは複数の関心領域の前記決定が、決定された前記ユーザの視線方向に基づく、請求項４に記載の方法。
前記１つまたは複数のサンプルデータセットがそれぞれ、
前記サンプルデータセットに関連する前記不完全なピクセル情報に対応するピクセル色を有する画像と、
前記ピクセル色のロケーションを示すバイナリマスクと、を含む、請求項１から４のいずれか一項に記載の方法。
ソフトウェアを具現する１つまたは複数のコンピュータ可読非一時的記憶媒体であって、前記ソフトウェアは、実行されたとき、
１つまたは複数のフレームのシーケンスにそれぞれ関連し、関連するフレームの不完全なピクセル情報をそれぞれ含む、１つまたは複数のサンプルデータセットにアクセスすることと、
第１の機械学習モデルを使用して、前記１つまたは複数のサンプルデータセットに基づいて、完全なピクセル情報をそれぞれ有する前記１つまたは複数のフレームを生成することであって、前記第１の機械学習モデルが、生成された前記１つまたは複数のフレームに関連する時空間ピクセル量を保持するように構成される、前記１つまたは複数のフレームを生成することと、
前記１つまたは複数のフレームのシーケンスに続く次のフレームの不完全なピクセル情報を含む次のサンプルデータセットにアクセスすることと、
前記第１の機械学習モデルを使用して、前記次のサンプルデータセットに基づいて、完全なピクセル情報を有する前記次のフレームを生成することであって、前記完全なピクセル情報が、前記次のサンプルデータセットの前記不完全なピクセル情報、および追加のピクセル情報を含み、前記追加のピクセル情報が、前記次のサンプルデータセットと、前記第１の機械学習モデルによって保持された前記時空間ピクセル量とに基づいて生成される、前記次のフレームを生成することと
を行うように動作可能である、１つまたは複数のコンピュータ可読非一時的記憶媒体。
前記第１の機械学習モデルが、
複数の訓練サンプルデータセットを複数の訓練フレームからそれぞれ生成することと、
前記第１の機械学習モデルを使用して、前記複数の訓練サンプルデータセットに基づいて、複数の再構築フレームをそれぞれ生成することと、
第２の機械学習モデルを使用して、前記複数の再構築フレームが前記第１の機械学習モデルによって生成される確率を決定することと、
前記第２の機械学習モデルによって決定された前記確率のそれぞれの正確性に基づいて、前記第１の機械学習モデルを更新することと、を含むプロセスによって訓練され、
随意に、前記第１の機械学習モデルの前記更新が、前記複数の再構築フレームと前記複数の訓練フレームとの比較にさらに基づく、請求項７に記載の媒体。
前記第１の機械学習モデルが、直列接続された複数のエンコーダおよび複数のデコーダを含み、前記複数のエンコーダが最初のエンコーダおよび最後のエンコーダを含み、前記複数のデコーダが最初のデコーダおよび最後のデコーダを含み、
前記最初のエンコーダの出力が前記最後のデコーダの入力であるように構成され、
前記最後のエンコーダの出力が前記最初のデコーダの入力であるように構成され、
随意に、前記複数のデコーダが再帰型デコーダである、請求項７または８に記載の媒体。
前記ソフトウェアは、実行されたとき、
物理ベースコンピュータグラフィックスレンダリングモジュールを使用して、前記１つまたは複数のサンプルデータセットを生成するようにさらに動作可能である、請求項７から９のいずれか一項に記載の媒体。
１つまたは複数のプロセッサと、前記プロセッサのうち１つまたは複数に結合され、命令を含む、１つまたは複数のコンピュータ可読非一時的記憶媒体とを備える、システムであって、前記命令は、前記プロセッサのうち１つまたは複数によって実行されたとき、前記システムに、
１つまたは複数のフレームのシーケンスにそれぞれ関連し、関連するフレームの不完全なピクセル情報をそれぞれ含む、１つまたは複数のサンプルデータセットにアクセスすることと、
第１の機械学習モデルを使用して、前記１つまたは複数のサンプルデータセットに基づいて、完全なピクセル情報をそれぞれ有する前記１つまたは複数のフレームを生成することであって、前記第１の機械学習モデルが、生成された前記１つまたは複数のフレームに関連する時空間ピクセル量を保持するように構成される、前記１つまたは複数のフレームを生成することと、
前記１つまたは複数のフレームのシーケンスに続く次のフレームの不完全なピクセル情報を含む次のサンプルデータセットにアクセスすることと、
前記第１の機械学習モデルを使用して、前記次のサンプルデータセットに基づいて、完全なピクセル情報を有する前記次のフレームを生成することであって、前記完全なピクセル情報が、前記次のサンプルデータセットの前記不完全なピクセル情報、および追加のピクセル情報を含み、前記追加のピクセル情報が、前記次のサンプルデータセットと、前記第１の機械学習モデルによって保持された前記時空間ピクセル量とに基づいて生成される、前記次のフレームを生成することと
を行わせるように動作可能である、システム。
前記第１の機械学習モデルが、
複数の訓練サンプルデータセットを複数の訓練フレームからそれぞれ生成することと、
前記第１の機械学習モデルを使用して、前記複数の訓練サンプルデータセットに基づいて、複数の再構築フレームをそれぞれ生成することと、
第２の機械学習モデルを使用して、前記複数の再構築フレームが前記第１の機械学習モデルによって生成される確率を決定することと、
前記第２の機械学習モデルによって決定された前記確率のそれぞれの正確性に基づいて、前記第１の機械学習モデルを更新することと、を含むプロセスによって訓練され、
随意に、前記第１の機械学習モデルの前記更新が、前記複数の再構築フレームと前記複数の訓練フレームとの比較にさらに基づく、請求項１１に記載のシステム。
前記第１の機械学習モデルが、直列接続された複数のエンコーダおよび複数のデコーダを含み、前記複数のエンコーダが最初のエンコーダおよび最後のエンコーダを含み、前記複数のデコーダが最初のデコーダおよび最後のデコーダを含み、
前記最初のエンコーダの出力が前記最後のデコーダの入力であるように構成され、
前記最後のエンコーダの出力が前記最初のデコーダの入力であるように構成される、請求項１１または１２に記載のシステム。
前記１つまたは複数のコンピュータ可読非一時的記憶媒体が、命令をさらに含み、前記命令は、前記プロセッサのうち１つまたは複数によって実行されたとき、前記システムに、
物理ベースコンピュータグラフィックスレンダリングモジュールを使用して、前記１つまたは複数のサンプルデータセットを生成することを行わせるように動作可能である、請求項１１から１３のいずれか一項に記載のシステム。