JP2024508772A

JP2024508772A - ビデオコーディングのための機械学習ベースのフロー決定

Info

Publication number: JP2024508772A
Application number: JP2023550114A
Authority: JP
Inventors: シン、アンキテシュ・クマー; エギルメス、ヒルミ・エネス; コバン、ムハンメド・ゼイド; カルチェビチ、マルタ
Original assignee: Qualcomm Inc
Current assignee: Qualcomm Inc
Priority date: 2021-02-25
Filing date: 2022-02-22
Publication date: 2024-02-28
Also published as: KR20230150274A; EP4298795A1; WO2022182651A1; BR112023016294A2

Abstract

本明細書では、ビデオデータを処理するためのシステムおよび技法が説明される。いくつかの態様では、方法は、機械学習システムによって入力ビデオデータを取得することを含むことができる。入力ビデオデータは、現在のフレームの１つまたは複数のルミナンス成分を含む。この方法は、機械学習システムによって、現在のフレームのルミナンス成分の動き情報と、現在のフレームのルミナンス成分を使用して、現在のフレームの１つまたは複数のクロミナンス成分の動き情報とを決定することを含むことができる。いくつかの例では、この方法は、現在のフレームのルーマ成分および前のフレームの少なくとも１つの復元されたルーマ成分に基づいて、ルミナンス成分の動き情報を決定することを含むことができる。いくつかの例では、この方法は、現在のフレームのルミナンス成分について決定された動き情報を使用して、現在のフレームのクロミナンス成分の動き情報を決定することをさらに含むことができる。

Description

[0001] 本開示は、概して、画像および／またはビデオの符号化（または圧縮）と復号（解凍）とを含む、画像およびビデオのコーディングに関する。たとえば、本開示の態様は、１つまたは複数の画像フレームまたはピクチャ（たとえば、ビデオフレーム／ピクチャ）のルーマおよびクロマ成分のフロー情報を決定するための技術に関する。

[0002] 多くのデバイスおよびシステムは、ビデオデータ（video data）が消費のために処理および出力されることを可能にする。デジタルビデオデータは、消費者およびビデオプロバイダの需要を満たすための大量のデータを含む。たとえば、ビデオデータの消費者は、高い忠実度、解像度、フレームレートなどを含む高い品質のビデオを望む。その結果、これらの需要を満たすために必要とされる大量のビデオデータは、ビデオデータを処理および記憶する通信ネットワークおよびデバイスに負担をかける。

[0003] ビデオコーディング技法は、ビデオデータを圧縮するために使用され得る。ビデオコーディングの目標は、ビデオ品質に対する劣化を回避または最小化しながら、より低いビットレートを使用する形式にビデオデータを圧縮することである。常に発展しつつあるビデオサービスが利用可能になるとともに、より良いコーディング効率を有する符号化技法が必要とされる。

[0004] １つまたは複数の機械学習システム（machine learning system）を使用して画像および／またはビデオのコンテンツをコーディング（たとえば、符号化および／または復号）するためのシステムおよび技法が記載される。少なくとも１つの例によれば、ビデオデータを処理するための方法が提供される。この方法は、機械学習システムによって、現在のフレーム（current frame）の少なくとも１つのルミナンス成分（luminance component）を含む入力ビデオデータ（input video data）を取得することと、機械学習システムによって、現在のフレームの少なくとも１つのルミナンス成分を使用して、現在のフレームの少なくとも１つのルミナンス成分の動き情報（motion information）と、現在のフレームの１つまたは複数のクロミナンス成分（chrominance component）の動き情報とを決定することと、を含む。

[0005] 別の例では、少なくとも１つのメモリ（たとえば、仮想コンテンツデータ、１つまたは複数の画像などのデータを記憶するように構成される）と、少なくとも１つのメモリに結合された（たとえば、回路内に実装された）１つまたは複数のプロセッサとを含むビデオデータを処理するための装置が提供される。１つまたは複数のプロセッサは、機械学習システムを使用して、現在のフレームの少なくとも１つのルミナンス成分を含む入力ビデオデータを取得し、機械学習システムを使用して、現在のフレームの少なくとも１つのルミナンス成分を使用して、現在のフレームの少なくとも１つのルミナンス成分の動き情報と、現在のフレームの１つまたは複数のクロミナンス成分の動き情報とを決定するように構成されており、それを行うことができる。

[0006] 別の例では、１つまたは複数のプロセッサによって実行されると、１つまたは複数のプロセッサに、機械学習システムを使用して、現在のフレームの少なくとも１つのルミナンス成分を含む入力ビデオデータを取得することと、機械学習システムを使用して、現在のフレームの少なくとも１つのルミナンス成分を使用して、現在のフレームの少なくとも１つのルミナンス成分の動き情報と、現在のフレームの１つまたは複数のクロミナンス成分の動き情報とを決定することと、を行わせる命令を記憶した非一時的コンピュータ可読媒体（non-transitory computer-readable medium）が提供される。

[0007] 別の例では、ビデオデータを処理するための装置が提供される。この装置は、現在のフレームの少なくとも１つのルミナンス成分を含む入力ビデオデータを取得するための手段と、現在のフレームの少なくとも１つのルミナンス成分を使用して、現在のフレームの少なくとも１つのルミナンス成分の動き情報と、現在のフレームの１つまたは複数のクロミナンス成分の動き情報とを決定するための手段と、を含む。

[0008] いくつかの態様では、上記の方法、装置、およびコンピュータ可読媒体のうちの１つまたは複数は、現在のフレームの少なくとも１つのルミナンス成分の動き情報と、現在のフレームの１つまたは複数のクロミナンス成分の動き情報とを使用する機械学習システムによって、現在のフレームの少なくとも１つのルミナンス成分のワーピングパラメータ（warping parameter）と、現在のフレームの１つまたは複数のクロミナンス成分の１つまたは複数のワーピングパラメータとを決定することと、現在のフレームの少なくとも１つのルミナンス成分のワーピングパラメータと、現在のフレームの１つまたは複数のクロミナンス成分の１つまたは複数のワーピングパラメータとを使用して、現在のフレームの１つまたは複数のインターフレーム予測（inter-frame prediction）を決定することと、をさらに備える。

[0009] いくつかの態様では、１つまたは複数のインターフレーム予測は、現在のフレームの少なくとも１つのルミナンス成分のワーピングパラメータと、現在のフレームの１つまたは複数のクロミナンス成分の１つまたは複数のワーピングパラメータとを使用する補間演算（interpolation operation）を適用することによって、少なくとも部分的に決定される。

[0010] いくつかの態様では、補間演算は、トリリニア補間演算（trilinear interpolation operation）を含む。

[0011] いくつかの態様では、現在のフレームの少なくとも１つのルミナンス成分のワーピングパラメータおよび現在のフレームの１つまたは複数のクロミナンス成分の１つまたは複数のワーピングパラメータは、空間スケールフロー（ＳＳＦ：space-scale flow）ワーピングパラメータを含む。

[0012] いくつかの態様では、ＳＳＦワーピングパラメータは、学習されたスケールフローベクトル（learned scale-flow vector）を含む。

[0013] いくつかの態様では、現在のフレームの少なくとも１つのルミナンス成分を使用して、現在のフレームの少なくとも１つのルミナンス成分の動き情報と、現在のフレームの１つまたは複数のクロミナンス成分の動き情報とを決定するために、上記の方法、装置、およびコンピュータ可読媒体のうちの１つまたは複数はさらに、現在のフレームの少なくとも１つのルミナンス成分および前のフレーム（previous frame）の少なくとも１つの復元されたルーマ成分（reconstructed luma component）に基づいて、現在のフレームの少なくとも１つのルミナンス成分の動き情報を決定することと、現在のフレームの少なくとも１つのルミナンス成分について決定された動き情報を使用して、現在のフレームの１つまたは複数のクロミナンス成分の動き情報を決定することと、を備える。

[0014] いくつかの態様では、現在のフレームの１つまたは複数のクロミナンス成分の動き情報は、機械学習システムの畳み込みレイヤ（convolutional layer）を使用して決定される。

[0015] いくつかの態様では、現在のフレームの１つまたは複数のクロミナンス成分の動き情報を決定するために、上述の方法、装置、およびコンピュータ可読媒体のうちの１つまたは複数は、現在のフレームの少なくとも１つのルミナンス成分について決定された動き情報をサンプリングすることをさらに備える。

[0016] いくつかの態様では、現在のフレームはビデオフレーム（video frame）を含む。

[0017] いくつかの態様では、１つまたは複数のクロミナンス成分は、少なくとも１つのクロミナンス青成分（chrominance-blue component）と少なくとも１つのクロミナンス赤成分（chrominance-red component）とを含む。

[0018] いくつかの態様では、現在のフレームは、ルミナンス－クロミナンス（ＹＵＶ）フォーマット（luminance-chrominance (YUV) format）を有する。場合によっては、ＹＵＶフォーマットはＹＵＶ４：２：０フォーマットである。

[0019] いくつかの態様では、本明細書に記載される装置は、モバイルデバイス（たとえば、携帯電話もしくはいわゆる「スマートフォン」、タブレットコンピュータ、もしくはその他のタイプのモバイルデバイス）、ウェアラブルデバイス、エクステンデッドリアリティデバイス（たとえば、仮想現実（ＶＲ）デバイス、拡張現実（ＡＲ）デバイス、もしくは複合現実（ＭＲ）デバイス）、パーソナルコンピュータ、ラップトップコンピュータ、ビデオサーバ、テレビジョン、車両（もしくは車両のコンピューティングデバイス）、または他のデバイスを備えるか、それらの一部であり得る。いくつかの態様では、装置は、１つまたは複数の画像またはビデオフレームをキャプチャするための少なくとも１つのカメラを含む。たとえば、装置は、１つもしくは複数の画像および／またはビデオフレームを含む１つもしくは複数のビデオをキャプチャするためのカメラ（たとえば、ＲＧＢカメラ）または複数のカメラを含むことができる。いくつかの態様では、装置は、１つまたは複数の画像、ビデオ、通知、または他の表示可能なデータを表示するためのディスプレイを含む。いくつかの態様では、装置は、少なくとも１つのデバイスに伝送媒体を介して１つまたは複数のビデオフレームおよび／またはシンタックスデータを送信するように構成された送信機を含む。いくつかの態様では、プロセッサには、ニューラル処理装置（ＮＰＵ）、中央処理装置（ＣＰＵ）、グラフィックス処理装置（ＧＰＵ）、または他の処理デバイスもしくは構成要素が含まれる。

[0020] 本概要は、請求される主題の主要または本質的な特徴を識別するものではなく、請求される主題の範囲を決定するために切り離して使用されるものでもない。本主題は、本特許の明細書全体、いずれかまたはすべての図面、および各請求項の適切な部分を参照して理解されるべきである。

[0021] 上記は、他の特徴および実施形態とともに、以下の明細書、特許請求の範囲、および添付の図面を参照すると、より明らかになるであろう。

[0022] 本出願の例示的な実施形態は、以下の図を参照して以下で詳細に記載される。

[0023] システムオンチップ（ＳＯＣ）の例示的な実装形態を示す図。 [0024] 全結合ニューラルネットワークの一例を示す図。 [0025] 局所結合ニューラルネットワークの一例を示す図。 [0026] 畳み込みニューラルネットワークの一例を示す図。 [0027] 画像から視覚特徴を認識するように設計された深層畳み込みネットワーク（ＤＣＮ：：deep convolutional network）の詳細な一例を示す図。 [0028] 深層畳み込みネットワーク（ＤＣＮ）を示すブロック図。 [0029] いくつかの例による、ニューラルネットワークベースのシステムを使用して画像および／またはビデオのコーディング（符号化および復号）を実行するように動作可能なデバイスを含むシステムの一例を示す図。 [0030] いくつかの例による、赤緑青（ＲＧＢ）フォーマットを有する入力用のエンドツーエンドニューラルネットワークベースの画像およびビデオのコーディングシステムの一例を示す図。 [0031] いくつかの例による、エンドツーエンドのニューラルネットワークベースの画像およびビデオコーディングシステムの一部であり得る、１つまたは複数のルミナンス－クロミナンス（ＹＵＶ）入力フォーマット（たとえば、４：２：０ＹＵＶ入力フォーマット）を処理するように構成された空間スケールフロー（ＳＳＦ）ニューラルネットワークアーキテクチャの一例を示す図。 [0032] いくつかの例による、ルーマ入力で動作する機械学習ベースのフローエンジンの一例を示す図。 [0033] いくつかの例による、クロマ動き情報を取得するためのルーマ動き情報のサブサンプリングの一例を示す図。 [0034] いくつかの例による、ＹＵＶ（たとえば、ＹＵＶ４：２：０）残差を有する機械学習ベースのアーキテクチャの一例を示す図。 [0035] いくつかの例による、１×１畳み込みレイヤの例示的な動作を示す図。 [0036] いくつかの例による、ＹＵＶ４：２：０入力などのＹＵＶ入力（Ｙ、Ｕ、およびＶ）と直接連携する機械学習ベースのアーキテクチャ（たとえば、エンドツーエンドニューラルネットワークベースの画像およびビデオコーディングシステム）の一例を示す図。 [0037] いくつかの例による、ＹＵＶ４：２：０入力などのＹＵＶ入力（Ｙ、Ｕ、およびＶ）と直接連携する機械学習ベースのアーキテクチャ（たとえば、エンドツーエンドニューラルネットワークベースの画像およびビデオコーディングシステム）の別の例を示す図。 [0038] いくつかの例による、ビデオデータを処理するためのプロセスの一例を示す流れ図。 [0039] 本明細書で説明する様々な技法を実装できる例示的なコンピューティングデバイスの例示的なコンピューティングデバイスアーキテクチャを示す図。

[0040] 本開示のいくつかの態様および実施形態が以下に提供される。当業者に明らかであるように、これらの態様および実施形態のうちのいくつかは独立して適用されてもよく、それらのうちのいくつかは組み合わせて適用されてもよい。以下の記載では、説明の目的で、本出願の実施形態の完全な理解を提供するために具体的な詳細が記載される。しかしながら、様々な実施形態は、これらの具体的な詳細なしに実践され得ることが明らかであろう。図および説明は限定するものではない。

[0041] その後の説明は、例示的な実施形態を提供するにすぎず、本開示の範囲、適用性、または構成を限定するものではない。むしろ、例示的な実施形態のその後の説明は、例示的な実施形態を実装することを可能にする説明を当業者に提供するであろう。添付の特許請求の範囲に記載されるように、本出願の趣旨および範囲から逸脱することなく、要素の機能および構成において様々な変更が行われ得ることを理解されたい。

[0042] デジタルビデオデータは、特に、高品質のビデオデータに対する需要が成長し続けるにつれて大量のデータを含むことができる。たとえば、ビデオデータの消費者は、通常、高い忠実度、解像度、フレームレートなどを有するますます高い品質のビデオを望む。しかしながら、そのような需要を満たすために必要とされる大量のビデオデータは、通信ネットワーク、ならびにビデオデータを処理し記憶するデバイスに著しい負担をかける可能性がある。

[0043] ビデオデータをコーディングするために、様々な技法が使用され得る。ビデオコーディングは、特定のビデオコーディング規格に従って実行され得る。例示的なビデオコーディング規格には、高効率ビデオコーディング（ＨＥＶＣ）、アドバンストビデオコーディング（ＡＶＣ）、ムービングピクチャエキスパートグループ（ＭＰＥＧ）コーディング、および多用途ビデオコーディング（ＶＶＣ）が含まれる。ビデオコーディングは、しばしば、ビデオ画像またはシーケンス内に存在する冗長構成を利用するインター予測またはイントラ予測などの予測方法を使用する。ビデオコーディング技法の共通の目標は、ビデオ品質の劣化を回避または最小化しながら、より低いビットレートを使用する形式にビデオデータを圧縮することである。ビデオサービスに対する需要が高まり、新しいビデオサービスが利用可能になるにつれて、より良いコーディング効率、性能、およびレート制御を有するコーディング技法が必要とされる。

[0044] 機械学習（ＭＬ）ベースのシステムを使用して、画像および／またはビデオコーディングを実行することができる。一般に、ＭＬは人工知能（ＡＩ）のサブセットである。ＭＬシステムは、明示的な命令を使用せずにパターンおよび推測に依存することによって様々なタスクを実行するためにコンピュータシステムが使用することができるアルゴリズムと統計モデルとを含むことができる。ＭＬシステムの一例は、人工ニューロン（たとえば、ニューロンモデル）の相互接続されたグループを含む場合がある、（人工ニューラルネットワークとも呼ばれる）ニューラルネットワークである。ニューラルネットワークは、とりわけ、画像および／またはビデオのコーディング、画像解析および／またはコンピュータビジョンアプリケーション、インターネットプロトコル（ＩＰ）カメラ、モノのインターネット（ＩｏＴ）デバイス、自律車両、サービスロボットなどの様々なアプリケーションおよび／またはデバイスに使用される場合がある。

[0045] ニューラルネットワーク内の個々のノードは、入力データを取得し、データに対して単純な演算を実行することにより、生体ニューロンをエミュレートすることができる。入力データに対して実行された単純な演算の結果は、他のニューロンに選択的に渡される。重み値がネットワーク内の各々のベクトルおよびノードに関連付けられ、これらの値は、入力データがどのように出力データに関係するかを制約する。たとえば、各ノードの入力データは、対応する重み値によって乗算される場合があり、積は合計される場合がある。積の合計は任意選択のバイアスによって調整される場合があり、活性化関数が結果に適用され、ノードの出力信号または（活性化マップもしくは特徴マップと呼ばれることがある）「出力活性化」をもたらす。重み値は、最初に、ネットワークを介して訓練データの反復フローによって決定される場合がある（たとえば、重み値は、ネットワークが特定のクラスの典型的な入力データ特性によってそれらのクラスをどのように識別するべきかを学習する訓練フェーズ中に確立される）。

[0046] とりわけ、畳み込みニューラルネットワーク（ＣＮＮ）、再帰型ニューラルネットワーク（ＲＮＮ）、敵対的生成ネットワーク（ＧＡＮ）、多層パーセプトロン（ＭＬＰ）ニューラルネットワークなどの、異なるタイプのニューラルネットワークが存在する。たとえば、畳み込みニューラルネットワーク（ＣＮＮ）は、フィードフォワード人工ニューラルネットワークのタイプである。畳み込みニューラルネットワークは、各々が受容野（たとえば、入力空間の空間的に局所化された領域）を有し、入力空間を集合的にタイリングする人工ニューロンの集合を含む場合がある。ＲＮＮは、レイヤの出力を節約し、この出力を、レイヤの結果を予測するのに役立つために入力にフィードバックするという原理で動作する。ＧＡＮは、ニューラルネットワークモデルが合理的に元のデータセットからである可能性がある新しい合成出力を生成することができるように、入力データ内のパターンを学習することができる生成ニューラルネットワークの一形態である。ＧＡＮは、合成された出力を生成する生成ニューラルネットワークと、信頼性について出力を評価する識別ニューラルネットワークとを含む、一緒に動作する２つのニューラルネットワークを含むことができる。ＭＬＰニューラルネットワークでは、データは入力レイヤに供給される場合があり、１つまたは複数の隠れレイヤがデータに抽象化レベルを提供する。次いで、抽象化されたデータに基づいて出力レイヤ上で予測が行われる場合がある。

[0047] （複数の隠れレイヤが存在するときに深層ニューラルネットワークと呼ばれる）階層型ニューラルネットワークアーキテクチャでは、人工ニューロンの第１のレイヤの出力は人工ニューロンの第２のレイヤへの入力になり、人工ニューロンの第２のレイヤの出力は人工ニューロンの第３のレイヤの入力になり、以下同様である。ＣＮＮは、たとえば、特徴の階層を認識するように訓練される場合がある。ＣＮＮアーキテクチャにおける計算は、１つまたは複数の計算チェーンにおいて構成され得る処理ノードの集団にわたって分散される場合がある。これらの多層化アーキテクチャは、一度に１つのレイヤを訓練される場合があり、逆伝搬を使用して微調整される場合がある。

[0048] 多くの場合、深層学習ベースのシステム（deep learning-based system）は、オートエンコーダサブネットワーク（エンコーダサブネットワーク）、およびエントロピーコーディングに使用される量子化ラテント上で確率モデルを学習することに関与する（場合によってはハイパープライアネットワークとも呼ばれる）第２のサブネットワーク（デコーダサブネットワーク）の組合せとして設計される。場合によっては、デコーダの他のサブネットワークが存在する可能性がある。そのような深層学習ベースのシステムアーキテクチャは、変換プラス量子化モジュール（またはエンコーダサブネットワーク）およびエントロピーモデリングサブネットワークモジュールの組合せとして見ることができる。

[0049] ビデオ圧縮のためのほとんどの既存の深層学習ベースのアーキテクチャは、ＲＧＢ、ＹＵＶ４：４：４、または他の非サブサンプル入力フォーマットなどの非サブサンプル入力フォーマットで動作するように設計されている。しかしながら、ＨＥＶＣおよびＶＶＣなどのビデオコーディング規格は、それらそれぞれのメインプロファイル内でＹＵＶ４：２：０色フォーマットをサポートするように設計される。４：２：０ＹＵＶフォーマットをサポートするために、非サブサンプル入力フォーマットで動作するように設計された深層学習ベースのアーキテクチャは、修正される必要がある。

[0050] システム、装置、プロセス（方法とも呼ばれる）、およびコンピュータ可読媒体（総称して「システムおよび技法」と呼ばれる）は、本明細書では、１つまたは複数のフレーム（たとえば、ビデオフレーム）の１つの色成分を使用して、フレームの色成分および別の色成分に関する情報を推定することができるＭＬベースのシステム（たとえば、深層学習ベースのシステム）を提供すると説明される。いくつかの態様では、ＭＬベースのシステムは、ルミナンス－クロミナンス（ＹＵＶ）入力フォーマットを有する入力データを処理するために設計され得る。このような態様では、ＭＬベースのシステムは、現在のフレームと以前に復元されたフレーム（たとえば、ＭＬベースのシステムによって復元された）の両方のルーマ成分（luma component）を使用して、ルーマ成分と１つまたは複数のクロマ成分の両方についての動き情報（たとえば、光フロー情報などのフロー情報）を推定することができる。場合によっては、ルーマ成分の動き情報を学習した後、ダウンサンプリングを備えた畳み込みレイヤを使用して、１つまたは複数のクロマ成分の動き情報（たとえば、フロー情報）を学習することができる。場合によっては、１つまたは複数のクロマ成分の動き情報は、ルーマ成分の動き情報を直接サブサンプリングすることによって（たとえば、畳み込みレイヤを使用せずに）取得することができる。このような技法は、フレームのすべての成分に対して実行することができる。このような技法を使用して、ＭＬベースのシステムは、ラテントデータまたはビットストリームの一部としてコーディングされたクロマ情報を必要とせずに、クロマ動き情報（たとえば、フロー情報）を決定することができる（たとえば、クロマ情報とともにサイド情報を送信する必要性を減らす）。

[0051] 上記のように、ＭＬベースのシステムは、ＹＵＶ入力フォーマットを有する入力データを処理するために設計され得る。ＹＵＶフォーマットは、ルミナンスチャネル（Ｙ）と一対のクロミナンスチャネル（ＵおよびＶ）とを含む。Ｕチャネルはクロミナンス（またはクロマ）－青チャネルと呼ばれることがあり、Ｕチャネルはクロミナンス（またはクロマ）－赤チャネルと呼ばれることがある。場合によっては、ルミナンス（Ｙ）チャネルまたは成分は、ルーマチャネルまたは成分と呼ぶこともできる。場合によっては、クロミナンス（ＵおよびＶ）チャネルまたは成分は、クロマチャネルまたは成分と呼ぶこともできる。ＹＵＶ入力フォーマットは、とりわけ、ＹＵＶ４：２：０、ＹＵＶ４：４：４、ＹＵＶ４：２：２を含むことができる。場合によっては、本明細書に記載されたシステムおよび技法は、Ｙ－クロマ青（Ｃｂ）－クロマ赤（Ｃｒ）（ＹＣｂＣｒ）フォーマット、赤緑青（ＲＧＢ）フォーマット、および／または他のフォーマットなどの他の入力フォーマットを処理するように設計され得る。本明細書に記載のＭＬベースのシステムは、スタンドアロンフレーム（画像とも呼ばれる）および／または複数のフレームを含むビデオデータを符号化および／または復号することができる。

[0052] 本開示のさらなる詳細および追加の態様が、図に関して説明される。

[0053] 図１は、本明細書に記載された機能のうちの１つまたは複数を実行するように構成された中央処理装置（ＣＰＵ）１０２またはマルチコアＣＰＵを含む場合があるシステムオンチップ（ＳＯＣ）１００の例示的な実装形態を示す。いくつかある情報の中で特に、パラメータまたは変数（たとえば、ニューラル信号およびシナプス荷重）、算出デバイスに関連付けられたシステムパラメータ（たとえば、重みを有するニューラルネットワーク）、遅延、周波数ビン情報、タスク情報は、ニューラル処理装置（ＮＰＵ）１０８に関連付けられたメモリブロック、ＣＰＵ１０２に関連付けられたメモリブロック、グラフィックス処理装置（ＧＰＵ）１０４に関連付けられたメモリブロック、デジタル信号プロセッサ（ＤＳＰ）１０６に関連付けられたメモリブロック、メモリブロック１１８に記憶される場合があり、および／または複数のブロックにわたって分散される場合がある。ＣＰＵ１０２において実行される命令は、ＣＰＵ１０２に関連付けられたプログラムメモリからロードされてもよく、メモリブロック１１８からロードされてもよい。

[0054] ＳＯＣ１００はまた、ＧＰＵ１０４、ＤＳＰ１０６などの特定の機能に適合された追加の処理ブロックと、第５世代（５Ｇ）接続、第４世代ロングタームエボリューション（４ＧＬＴＥ（登録商標））接続、Ｗｉ－Ｆｉ（登録商標）接続、ＵＳＢ接続、Ｂｌｕｅｔｏｏｔｈ（登録商標）接続などを含む場合がある接続ブロック１１０と、たとえば、ジェスチャを検出および認識することができるマルチメディアプロセッサ１１２とを含む場合がある。一実装形態では、ＮＰＵは、ＣＰＵ１０２、ＤＳＰ１０６、および／またはＧＰＵ１０４内に実装される。ＳＯＣ１００はまた、センサプロセッサ１１４、画像信号プロセッサ（ＩＳＰ）１１６、および／または全地球測位システムを含む場合があるナビゲーションモジュール１２０を含む場合がある。

[0055] ＳＯＣ１００はＡＲＭ命令セットに基づく場合がある。本開示の一態様では、ＣＰＵ１０２にロードされる命令は、入力値とフィルタ重みの乗算積に対応するルックアップテーブル（ＬＵＴ）内の記憶された乗算結果を探索するためのコードを備えることができる。ＣＰＵ１０２にロードされる命令はまた、乗算積のルックアップテーブルヒットが検出されたとき、乗算積の乗算演算中に乗算器を無効にするためのコードを備えることができる。さらに、ＣＰＵ１０２にロードされる命令は、乗算積のルックアップテーブルミスが検出されたとき、入力値とフィルタ重みの算出された乗算積を記憶するためのコードを備えることができる。

[0056] ＳＯＣ１００および／またはその構成要素は、本明細書で説明された本開示の態様に従って機械学習技法を使用して、（ビデオ符号化および／または復号とも呼ばれ、ビデオコーディングと総称される）ビデオ圧縮および／または解凍を実行するように構成される場合がある。ビデオ圧縮および／または解凍を実行するために深層学習アーキテクチャを使用することにより、本開示の態様は、デバイス上でのビデオ圧縮および／または解凍の効率を増大させることができる。たとえば、記載されたビデオコーディング技法を使用するデバイスは、機械学習ベースの技法を使用してより効率的にビデオを圧縮することができ、別のデバイスに圧縮されたビデオを送信することができ、他のデバイスは、本明細書に記載された機械学習ベースの技法を使用してより効率的に圧縮されたビデオを解凍することができる。

[0057] 上述されたように、ニューラルネットワークは機械学習システムの一例であり、入力レイヤと、１つまたは複数の隠れレイヤと、出力レイヤとを含むことができる。データは入力レイヤの入力ノードから提供され、処理は１つまたは複数の隠れレイヤの隠れノードによって実行され、出力は出力レイヤの出力ノードを介して生成される。深層学習ネットワークは、通常、複数の隠れレイヤを含む。ニューラルネットワークの各レイヤは、人工ニューロン（またはノード）を含むことができる特徴マップまたは活性化マップを含むことができる。特徴マップは、フィルタ、カーネルなどを含むことができる。ノードは、レイヤのうちの１つまたは複数のノードの重要度を示すために使用される１つまたは複数の重みを含むことができる。場合によっては、深層学習ネットワークは、一連の多くの隠れレイヤを有することができ、初期のレイヤは、入力の単純で低レベルの特性を決定するために使用され、後のレイヤは、より複雑で抽象的な特性の階層を構築する。

[0058] 深層学習アーキテクチャは特徴の階層を学習することができる。たとえば、視覚データが提示された場合、第１のレイヤは、入力ストリーム内のエッジなどの比較的単純な特徴を認識するように学習することができる。別の例では、聴覚データが提示された場合、第１のレイヤは、特定の周波数のスペクトル電力を認識するように学習することができる。第１のレイヤの出力を入力として取得する第２のレイヤは、視覚データの場合の単純な形状、または聴覚データの場合の音の組合せなどの特徴の組合せを認識するように学習することができる。たとえば、上位レイヤは、視覚データ内の複雑な形状、または聴覚データ内の単語を表すように学習することができる。さらに上位のレイヤは、共通の視覚オブジェクトまたは発話フレーズを認識するように学習することができる。

[0059] 深層学習アーキテクチャは、自然階層構造を有する問題に適用されたときに特にうまく実行することができる。たとえば、原動機付き車両の分類は、ホイール、フロントガラス、および他の特徴を認識するための最初の学習から恩恵を受けることができる。これらの特徴は、車、トラック、および飛行機を認識するために、異なる方法で上位レイヤにおいて組み合わされる場合がある。

[0060] ニューラルネットワークは、様々な接続パターンを用いて設計される場合がある。フィードフォワードネットワークでは、情報が下位レイヤから上位レイヤに渡され、所与のレイヤにおける各ニューロンは、上位レイヤにおけるニューロンに伝える。上述されたように、フィードフォワードネットワークの連続するレイヤにおいて、階層表現が構築される場合がある。ニューラルネットワークはまた、再帰型接続または（トップダウンとも呼ばれる）フィードバック接続を有する場合がある。再帰型接続では、所与のレイヤにおけるニューロンからの出力は、同じレイヤにおける別のニューロンに伝えられる場合がある。再帰型アーキテクチャは、ニューラルネットワークに順次配信される入力データチャンクのうちの２つ以上にわたるパターンを認識する際に役立つ場合がある。所与のレイヤにおけるニューロンから下位レイヤにおけるニューロンへの接続は、フィードバック（またはトップダウン）接続と呼ばれる。高レベルの概念の認識が、入力の特定の低レベルの特徴を区別するのに役立つ場合があるとき、多くのフィードバック接続を有するネットワークが役立つ場合がある。

[0061] ニューラルネットワークのレイヤ間の接続は、全結合または局所結合であり得る。図２Ａは、全結合ニューラルネットワーク２０２の一例を示す。全結合ニューラルネットワーク２０２では、第２のレイヤにおける各ニューロンが第１のレイヤにおけるあらゆるニューロンから入力を受け取るように、第１のレイヤにおけるニューロンはその出力を第２のレイヤにおけるあらゆるニューロンに通信することができる。図２Ｂは、局所結合ニューラルネットワーク２０４の一例を示す。局所結合ニューラルネットワーク２０４では、第１のレイヤにおけるニューロンは、第２のレイヤにおける限られた数のニューロンに接続される場合がある。より一般的には、局所結合ニューラルネットワーク２０４の局所結合レイヤは、レイヤにおける各ニューロンが同じまたは同様の接続パターンを有するように構成される場合があるが、異なる値を有する場合がある接続強度で構成される場合がある（たとえば、２１０、２１２、２１４、および２１６）。局所結合の接続パターンは、所与の領域内の上位レイヤニューロンが、ネットワークへの総入力のうちの制限された部分のプロパティに訓練を介して調節された入力を受け取るので、上位レイヤにおいて空間的に別個の受容野を生じる場合がある。

[0062] 局所結合ニューラルネットワークの一例は、畳み込みニューラルネットワークである。図２Ｃは、畳み込みニューラルネットワーク２０６の一例を示す。畳み込みニューラルネットワーク２０６は、第２のレイヤにおける各ニューロンのための入力に関連付けられた接続強度が共有されるように構成される場合がある（たとえば、２０８）。畳み込みニューラルネットワークは、入力の空間位置が有意味である問題に好適であり得る。畳み込みニューラルネットワーク２０６は、本開示の態様による、ビデオ圧縮および／または解凍の１つまたは複数の態様を実行するために使用される場合がある。

[0063] １つのタイプの畳み込みニューラルネットワークは、深層畳み込みネットワーク（ＤＣＮ）である。図２Ｄは、車載カメラなどの画像キャプチャデバイス２３０から入力された画像２２６から視覚特徴を認識するように設計されたＤＣＮ２００の詳細な例を示す。本例のＤＣＮ２００は、交通標識および交通標識上に提供された数字を識別するように訓練される場合がある。当然、ＤＣＮ２００は、車線マーキングを識別すること、または交通信号を識別することなどの他のタスクのために訓練される場合がある。

[0064] ＤＣＮ２００は、教師あり学習を用いて訓練される場合がある。訓練中に、ＤＣＮ２００は、速度制限標識の画像２２６などの画像を提示される場合があり、次いで、出力２２２を生成するために、フォワードパスが算出される場合がある。ＤＣＮ２００は、特徴抽出セクションと分類セクションとを含む場合がある。画像２２６を受信すると、畳み込みレイヤ２３２は、特徴マップの第１のセット２１８を生成するために、畳み込みカーネル（図示せず）を画像２２６に適用することができる。一例として、畳み込みレイヤ２３２用の畳み込みカーネルは、２８×２８特徴マップを生成する５×５カーネルであり得る。本例では、４つの異なる特徴マップが特徴マップの第１のセット２１８において生成されるので、４つの異なる畳み込みカーネルが、畳み込みレイヤ２３２において画像２２６に適用された。畳み込みカーネルは、フィルタまたは畳み込みフィルタと呼ばれる場合もある。

[0065] 特徴マップの第１のセット２１８は、特徴マップの第２のセット２２０を生成するために、最大プーリングレイヤ（図示せず）によってサブサンプリングされる場合がある。最大プーリングレイヤは、特徴マップの第１のセット２１８のサイズを削減する。すなわち、１４×１４などの特徴マップの第２のセット２２０のサイズは、２８×２８などの特徴マップの第１のセット２１８のサイズよりも小さい。削減されたサイズは、メモリ消費を削減しながら、後続のレイヤに同様の情報を提供する。特徴マップの第２のセット２２０は、特徴マップの１つまたは複数の後続のセット（図示せず）を生成するために、１つまたは複数の後続の畳み込みレイヤ（図示せず）を介してさらに畳み込まれる場合がある。

[0066] 図２Ｄの例では、特徴マップの第２のセット２２０は、第１の特徴ベクトル２２４を生成するために畳み込まれる。さらに、第１の特徴ベクトル２２４は、第２の特徴ベクトル２２８を生成するためにさらに畳み込まれる。第２の特徴ベクトル２２８の各特徴は、「標識」、「６０」、および「１００」などの画像２２６の可能な特徴に対応する数を含む場合がある。ソフトマックス関数（図示せず）が、第２の特徴ベクトル２２８内の数を確率に変換することができる。したがって、ＤＣＮ２００の出力２２２は、画像２２６が１つまたは複数の特徴を含む確率である。

[0067] 本例では、「標識」および「６０」についての出力２２２における確率は、「３０」、「４０」、「５０」、「７０」、「８０」、「９０」、および「１００」などの出力２２２の他のものの確率よりも高い。訓練の前に、ＤＣＮ２００によって生成される出力２２２は、不正確である可能性がある。したがって、出力２２２とターゲット出力との間で誤差が計算される場合がある。ターゲット出力は、画像２２６（たとえば、「標識」および「６０」）のグランドトゥルースである。次いで、ＤＣＮ２００の重みは、ＤＣＮ２００の出力２２２がターゲット出力とより密接に整合されるように調整される場合がある。

[0068] 重みを調整するために、学習アルゴリズムは、重みのための勾配ベクトルを算出することができる。勾配は、重みが調整された場合に誤差が増加または減少する量を示すことができる。最上レイヤにおいて、勾配は、最後から２番目のレイヤにおける活性化ニューロンと出力レイヤにおけるニューロンとを接続する重みの値に直接対応することができる。下位レイヤでは、勾配は、重みの値、および上位レイヤの算出された誤差勾配に依存する場合がある。次いで、重みは、誤差を低減するために調整される場合がある。重みを調整するこの方式は、それがニューラルネットワークを介する「バックワードパス」を伴うので、「逆伝搬」と呼ばれる場合がある。

[0069] 実際には、重みの誤差勾配は、計算された勾配が真の誤差勾配を近似するように、少数の例にわたって計算される場合がある。この近似方法は、確率的勾配降下法と呼ばれる場合がある。確率的勾配降下法は、システム全体の達成可能な誤差レートが減少しなくなるまで、または誤差レートがターゲットレベルに達するまで繰り返される場合がある。学習の後に、ＤＣＮは新しい画像を提示される場合があり、ネットワークを介するフォワードパスは、ＤＣＮの推論または予測と見なされ得る出力２２２をもたらすことができる。

[0070] 深層信念ネットワーク（ＤＢＮ：Deep belief networks）は、隠れノードの複数のレイヤを備える確率モデルである。ＤＢＮは、訓練データセットの階層表現を抽出するために使用される場合がある。ＤＢＮは、制限ボルツマンマシン（ＲＢＭ）のレイヤを積層することによって取得される場合がある。ＲＢＭは、入力のセットにわたる確率分布を学習することができる人工ニューラルネットワークのタイプである。ＲＢＭは、各入力がそれに分類されるべきクラスに関する情報の不在下で確率分布を学習することができるので、ＲＢＭは教師なし学習においてしばしば使用される。ハイブリッド教師なしおよび教師ありパラダイムを使用して、ＤＢＮの下部ＲＢＭは、教師なし方式で訓練される場合があり、特徴抽出器として機能することができ、上部ＲＢＭは、（前のレイヤからの入力およびターゲットクラスの同時分布上で）教師あり方式で訓練される場合があり、分類器として機能することができる。

[0071] 深層畳み込みネットワーク（ＤＣＮ）は、追加のプーリングレイヤおよび正規化レイヤで構成された畳み込みネットワークのネットワークである。ＤＣＮは、多くのタスクに関して最先端の性能を実現している。ＤＣＮは、入力ターゲットと出力ターゲットの両方が、多くの標本について知られており、勾配降下法の使用によってネットワークの重みを修正するために使用される教師あり学習を使用して訓練され得る。

[0072] ＤＣＮは、フィードフォワードネットワークであり得る。加えて、上述されたように、ＤＣＮの第１のレイヤにおけるニューロンから次の上位レイヤにおけるニューロンのグループへの接続は、第１のレイヤにおけるニューロンにわたって共有される。ＤＣＮのフィードフォワード接続および共有接続は、高速処理のために活用される場合がある。ＤＣＮの計算負担は、たとえば、再帰型接続またはフィードバック接続を備える同様のサイズのニューラルネットワークのそれよりもはるかに少ない場合がある。

[0073] 畳み込みネットワークの各レイヤの処理は、空間的に不変のテンプレートまたは基底投影と見なされる場合がある。入力が、カラー画像の赤色、緑色、および青色のチャネルなどの複数のチャネルに最初に分解された場合、その入力に関して訓練された畳み込みネットワークは、画像の軸に沿った２つの空間次元と、色情報をキャプチャする第３の次元とを有する３次元であると見なされる場合がある。畳み込み接続の出力は、後続のレイヤにおいて特徴マップを形成すると見なされる場合があり、特徴マップ（たとえば、２２０）の各要素が、前のレイヤ（たとえば、特徴マップ２１８）における様々なニューロンから、および複数のチャネルの各々から入力を受信する。特徴マップにおける値は、整流、ｍａｘ（０，ｘ）などの非線形性を用いてさらに処理される場合がある。隣接するニューロンからの値はさらにプールされる場合があり、これはダウンサンプリングに対応し、さらなる局所不変性および次元削減を提供することができる。

[0074] 図３は、深層畳み込みネットワーク３５０の一例を示すブロック図である。深層畳み込みネットワーク３５０は、接続および重みの共有に基づく複数の異なるタイプのレイヤを含む場合がある。図３に示されたように、深層畳み込みネットワーク３５０は、畳み込みブロック３５４Ａ、３５４Ｂを含む。畳み込みブロック３５４Ａ、３５４Ｂの各々は、畳み込みレイヤ（ＣＯＮＶ）３５６、正規化レイヤ（ＬＮｏｒｍ）３５８、および最大プーリングレイヤ（ＭＡＸＰＯＯＬ）３６０で構成される場合がある。

[0075] 畳み込みレイヤ３５６は、１つまたは複数の畳み込みフィルタを含む場合があり、それらは、特徴マップを生成するために入力データ３５２に適用される場合がある。２つの畳み込みブロック３５４Ａ、３５４Ｂのみが示されているが、本開示はそのように限定しておらず、代わりに、設計上の選好に応じて、任意の数の畳み込みブロック（たとえば、ブロック３５４Ａ、３５４Ｂ）が深層畳み込みネットワーク３５０に含まれてもよい。正規化レイヤ３５８は、畳み込みフィルタの出力を正規化することができる。たとえば、正規化レイヤ３５８は、白色化または側方抑制を提供することができる。最大プーリングレイヤ３６０は、局所不変性および次元削減のために、空間にわたってダウンサンプリングアグリゲーションを提供することができる。

[0076] たとえば、深層畳み込みネットワークの並列フィルタバンクは、高性能および低電力消費を実現するために、ＳＯＣ１００のＣＰＵ１０２またはＧＰＵ１０４にロードされる場合がある。代替実施形態では、並列フィルタバンクは、ＳＯＣ１００のＤＳＰ１０６またはＩＳＰ１１６にロードされてもよい。加えて、深層畳み込みネットワーク３５０は、それぞれ、センサおよびナビゲーションに専用のセンサプロセッサ１１４およびナビゲーションモジュール１２０などの、ＳＯＣ１００上に存在する場合がある他の処理ブロックにアクセスすることができる。

[0077] 深層畳み込みネットワーク３５０はまた、（「ＦＣ１」とラベル付けされた）レイヤ３６２Ａおよび（「ＦＣ２」とラベル付けされた）レイヤ３６２Ｂなどの１つまたは複数の全結合レイヤを含む場合がある。深層畳み込みネットワーク３５０は、ロジスティック回帰（ＬＲ）レイヤ３６４をさらに含む場合がある。深層畳み込みネットワーク３５０の各レイヤ３５６、３５８、３６０、３６２Ａ、３６２Ｂ、３６４の間には、更新されるべき重み（図示せず）がある。レイヤ（たとえば、３５６、３５８、３６０、３６２Ａ、３６２Ｂ、３６４）の各々の出力は、最初の畳み込みブロック３５４Ａにおいて供給された入力データ３５２（たとえば、画像、オーディオ、ビデオ、センサデータ、および／または他の入力データ）から階層特徴表現を学習するために、深層畳み込みネットワーク３５０内のレイヤ（たとえば、３５６、３５８、３６０、３６２Ａ、３６２Ｂ、３６４）のうちの後続の１つの入力として機能することができる。深層畳み込みネットワーク３５０の出力は、入力データ３５２についての分類スコア３６６である。分類スコア３６６は、確率のセットであり得、ここで、各確率は、入力データが特徴のセットからの特徴を含む確率である。

[0078] 上述されたように、デジタルビデオデータは大量のデータを含むことができ、それは、通信ネットワークならびにビデオデータを処理し記憶するデバイスにかなりの負担をかける可能性がある。たとえば、圧縮されていないビデオコンテンツを記録することは、概して、記録されるビデオコンテンツの解像度が増大するにつれて大幅に増加する大きいファイルサイズをもたらす。１つの例示的な例では、１０８０ｐ／２４（たとえば、２４フレーム毎秒でキャプチャされた幅が１９２０ピクセルで高さが１０８０ピクセルの解像度）で記録された圧縮されていないチャネル当たり１６ビットのビデオは、フレーム当たり１２．４メガバイトまたは毎秒２９７．６メガバイトを占有する場合がある。２４フレーム毎秒において４Ｋ解像度で記録された圧縮されていないチャネル当たり１６ビットのビデオは、フレーム当たり４９．８メガバイトまたは毎秒１１９５．２メガバイトを占有する場合がある。

[0079] ネットワーク帯域幅は、大きいビデオファイルが問題になる可能性がある別の制約である。たとえば、ビデオコンテンツは、しばしば、ワイヤレスネットワークを介して（たとえば、ＬＴＥ、ＬＴＥアドバンスト、新無線（ＮＲ）、ＷｉＦｉ（登録商標）、Ｂｌｕｅｔｏｏｔｈ、または他のワイヤレスネットワークを介して）配信され、消費者のインターネットトラフィックの大部分を構成する可能性がある。ワイヤレスネットワークにおける利用可能な帯域幅の量の進歩にもかかわらず、これらのネットワークにおいてビデオコンテンツを配信するために使用される帯域幅の量を削減することが依然として望ましい場合がある。

[0080] 圧縮されていないビデオコンテンツは、物理記憶用のかなりのメモリと送信用のかなりの帯域幅とを要する場合がある大きいファイルをもたらす可能性があるので、そのようなビデオコンテンツを圧縮し、次いで解凍するためにビデオコーディング技法が利用され得る。

[0081] ビデオコンテンツのサイズ、したがってビデオコンテンツを記憶するために要するストレージの量、およびビデオコンテンツを配信する際に要する帯域幅の量を削減するために、とりわけ、ＨＥＶＣ、ＡＶＣ、ＭＰＥＧ、ＶＶＣなどの特定のビデオコーディング規格に従って、様々なビデオコーディング技法が実行され得る。ビデオコーディングは、しばしば、ビデオ画像またはシーケンス内に存在する冗長構成を利用するインター予測またはイントラ予測などの予測方法を使用する。ビデオコーディング技法の共通の目標は、ビデオ品質の劣化を回避または最小化しながら、より低いビットレートを使用する形式にビデオデータを圧縮することである。ビデオサービスに対する需要が高まり、新しいビデオサービスが利用可能になるにつれて、より良いコーディング効率、性能、およびレート制御を有するコーディング技法が必要とされる。

[0082] 概して、符号化デバイスは、符号化ビデオビットストリームを生成するためにビデオコーディング規格に従ってビデオデータを符号化する。いくつかの例では、符号化ビデオビットストリーム（または「ビデオビットストリーム」または「ビットストリーム」）は、一連の１つまたは複数のコード化ビデオシーケンスである。符号化デバイスは、各ピクチャを複数のスライスに区分化することによってピクチャのコード化表現を生成することができる。スライスは、スライス内の情報が、同じピクチャ内の他のスライスからのデータへの依存関係なしにコード化されるように、他のスライスから独立している。スライスは、独立しているスライスセグメントを含む１つまたは複数のスライスセグメントと、存在する場合、前のスライスセグメントに依存する１つまたは複数の依存しているスライスセグメントとを含む。ＨＥＶＣでは、スライスは、ルーマサンプルおよびクロマサンプルのコーディングツリーブロック（ＣＴＢ）に区分化される。ルーマサンプルのＣＴＢおよびクロマサンプルの１つまたは複数のＣＴＢは、サンプル用のシンタックスとともに、コーディングツリーユニット（ＣＴＵ）と呼ばれる。ＣＴＵは、「ツリーブロック」または「最大コーディングユニット」（ＬＣＵ）と呼ばれる場合もある。ＣＴＵは、ＨＥＶＣ符号化のための基本処理単位である。ＣＴＵは、様々なサイズの複数のコーディングユニット（ＣＵ）に分割され得る。ＣＵは、コーディングブロック（ＣＢ）と呼ばれるルーマおよびクロマのサンプル配列を含んでいる。

[0083] ルーマＣＢおよびクロマＣＢは、予測ブロック（ＰＢ）にさらに分割され得る。ＰＢは、（利用可能なとき、または使用のために有効にされたとき）インター予測またはイントラブロックコピー（ＩＢＣ）予測のために同じ動きパラメータを使用するルーマ成分またはクロマ成分のサンプルのブロックである。ルーマＰＢおよび１つまたは複数のクロマＰＢは、関連するシンタックスとともに、予測ユニット（ＰＵ）を形成する。インター予測の場合、動きパラメータのセット（たとえば、１つまたは複数の動きベクトル、参照インデックスなど）は、ＰＵごとにビットストリーム内でシグナリングされ、ルーマＰＢおよび１つまたは複数のクロマＰＢのインター予測のために使用される。動きパラメータは動き情報と呼ばれる場合もある。ＣＢはまた、１つまたは複数の変換ブロック（ＴＢ）に区分化され得る。ＴＢは、予測残差信号をコーディングするために残差変換（たとえば、場合によっては、同じ２次元変換）が適用される色成分のサンプルの正方形ブロックを表す。変換ユニット（ＴＵ）は、ルーマサンプルおよびクロマサンプルのＴＢと、対応するシンタックス要素とを表す。変換コーディングが以下でより詳細に記載される。

[0084] ＨＥＶＣ規格によれば、変換はＴＵを使用して実行される場合がある。ＴＵは、所与のＣＵ内のＰＵのサイズに基づいてサイズ決定される場合がある。ＴＵは、ＰＵと同じサイズであるか、またはＰＵよりも小さい場合がある。いくつかの例では、ＣＵに対応する残差サンプルは、残差４分木（ＲＱＴ）として知られる４分木構造を使用して、より小さいユニットに再分割される場合がある。ＲＱＴのリーフノードはＴＵに対応することができる。ＴＵに関連付けられたピクセル差分値は、変換係数を生成するために変換される場合がある。変換係数は、次いで、符号化デバイスによって量子化される場合がある。

[0085] ビデオデータのピクチャがＣＵに区分化されると、符号化デバイスは予測モードを使用して各ＰＵを予測する。予測ユニットまたは予測ブロックは、次いで、（以下に記載される）残差を得るために元のビデオデータから減算される。ＣＵごとに、シンタックスデータを使用してビットストリーム内で予測モードがシグナリングされる場合がある。予測モードは、イントラ予測（もしくはイントラピクチャ予測）またはインター予測（もしくはインターピクチャ予測）を含む場合がある。イントラ予測は、ピクチャ内の空間的に隣接するサンプル間の相関関係を利用する。たとえば、イントラ予測を使用して、各ＰＵは、たとえば、ＰＵに関する平均値を見つけるためのＤＣ予測、平坦面をＰＵに適合させるための平面予測、隣接データから外挿するための方向予測、または任意の他の適切なタイプの予測を使用して、同じピクチャ内の隣接する画像データから予測される。インター予測は、画像サンプルのブロックについての動き補償予測を導出するためにピクチャ間の時間的な相関関係を使用する。たとえば、インター予測を使用して、各ＰＵは、（出力順序で現在ピクチャの前または後の）１つまたは複数の参照ピクチャ内の画像データからの動き補償予測を使用して予測される。インターピクチャ予測を使用してピクチャエリアをコード化するべきか、イントラピクチャ予測を使用してピクチャエリアをコード化するべきかの決定は、たとえば、ＣＵレベルにおいて行われる場合がある。

[0086] イントラ予測および／またはインター予測を使用して予測を実行した後に、符号化デバイスは、変換と量子化とを実行することができる。たとえば、予測の後に、符号化デバイスは、ＰＵに対応する残差値を計算することができる。残差値は、コーディングされているピクセルの現在ブロック（ＰＵ）と、現在ブロックを予測するために使用される予測ブロック（たとえば、現在ブロックの予測されたバージョン）との間のピクセル差分値を備えることができる。たとえば、予測ブロックを生成した（たとえば、インター予測またはイントラ予測を発行した）後に、符号化デバイスは、現在ブロックから予測ユニットによって生成された予測ブロックを減算することによって残差ブロックを生成することができる。残差ブロックは、現在ブロックのピクセル値と予測ブロックのピクセル値との間の差分を定量化するピクセル差分値のセットを含む。いくつかの例では、残差ブロックは、２次元ブロックフォーマット（たとえば、ピクセル値の２次元行列または２次元配列）で表される場合がある。そのような例では、残差ブロックはピクセル値の２次元表現である。

[0087] 予測が実行された後に残存している場合があるいずれの残差データも、離散コサイン変換、離散サイン変換、整数変換、ウェーブレット変換、他の適切な変換関数、またはそれらの任意の組合せに基づく場合があるブロック変換を使用して変換される。場合によっては、１つまたは複数のブロック変換（たとえば、サイズ３２×３２、１６×１６、８×８、４×４、または他の適切なサイズ）が各ＣＵにおける残差データに適用される場合がある。いくつかの実施形態では、ＴＵは、符号化デバイスによって実装される変換プロセスおよび量子化プロセスに使用される場合がある。１つまたは複数のＰＵを有する所与のＣＵはまた、１つまたは複数のＴＵを含む場合がある。以下でさらに詳細に記載されるように、残差値は、ブロック変換を使用して変換係数に変換される場合があり、次いで、エントロピーコーディング用のシリアル化変換係数を生成するために、ＴＵを使用して量子化および走査される場合がある。

[0088] 符号化デバイスは変換係数の量子化を実行することができる。量子化は、係数を表すために使用されるデータの量を低減するために変換係数を量子化することによってさらなる圧縮を提供する。たとえば、量子化は、係数の一部または全部に関連付けられたビット深度を低減することができる。一例では、ｎビット値を有する係数は、量子化中にｍビット値に切り捨てられる場合があり、ｎはｍよりも大きい。

[0089] 量子化が実行されると、コード化ビデオビットストリームは、量子化変換係数と、予測情報（たとえば、予測モード、動きベクトル、ブロックベクトルなど）と、区分化情報と、他のシンタックスデータなどの任意の他の適切なデータとを含む。コード化ビデオビットストリームの異なる要素は、次いで、符号化デバイスによってエントロピー符号化される場合がある。いくつかの例では、符号化デバイスは、量子化変換係数を走査してエントロピー符号化され得るシリアル化ベクトルを生成するために、あらかじめ定義された走査順序を利用することができる。いくつかの例では、符号化デバイスは適応型走査を実行することができる。ベクトル（たとえば、１次元ベクトル）を形成するために量子化変換係数を走査した後に、符号化デバイスは、ベクトルをエントロピー符号化することができる。たとえば、符号化デバイスは、コンテキスト適応型可変長コーディング、コンテキスト適応型バイナリ算術コーディング、シンタックスベースコンテキスト適応型バイナリ算術コーディング、確率間隔区分化エントロピーコーディング、または別の適切なエントロピー符号化技法を使用することができる。

[0090] 符号化デバイスは、符号化ビデオビットストリームを記憶することができ、および／または復号デバイスを含むことができる受信デバイスに通信リンクを介して符号化ビデオビットストリームデータを送ることができる。符号化デバイスは、（たとえば、エントロピーデコーダを使用して）エントロピー復号し、符号化ビデオデータを構成する１つまたは複数のコード化ビデオシーケンスの要素を抽出することにより、符号化ビデオビットストリームデータを復号することができる。復号デバイスは、次いで、符号化ビデオビットストリームデータを再スケーリングし、符号化ビデオビットストリームデータに対して逆変換を実行することができる。次いで、残差データが復号デバイスの予測段階に渡される。復号デバイスは、次いで、イントラ予測、インター予測、ＩＢＣ、および／または他のタイプの予測を使用してピクセルのブロック（たとえば、ＰＵ）を予測する。いくつかの例では、予測は逆変換の出力（残差データ）に加算される。復号デバイスは、ビデオ宛先デバイスに復号ビデオを出力することができ、ビデオ宛先デバイスは、コンテンツの消費者に復号ビデオデータを表示するためのディスプレイまたは他の出力デバイスを含む場合がある。

[0091] 様々なビデオコーディング規格（たとえば、上述されたＨＥＶＣビデオコーディング技法）によって定義されたビデオコーディングのシステムおよび技法は、未加工のビデオコンテンツ内の情報の大部分を保持することができる場合があり、信号処理および情報理論の概念に基づいてアプリオリに定義される場合がある。しかしながら、場合によっては、機械学習（ＭＬ）ベースの画像および／またはビデオシステムは、深層学習ベースのエンドツーエンドビデオコーディング（ＤＬＥＣ）システムなどの、非ＭＬベースの画像およびビデオコーディングシステムと比べて利益を提供することができる。上述されたように、多くの深層学習ベースのシステムは、オートエンコーダサブネットワーク（エンコーダサブネットワーク）、およびエントロピーコーディングに使用される量子化ラテント上で確率モデルを学習することに関与する第２のサブネットワークの組合せとして設計される。そのようなアーキテクチャは、変換、量子化モジュール（エンコーダサブネットワーク）およびエントロピーモデリングサブネットワークモジュールの組合せとして見ることができる。

[0092] 図４は、深層学習ベースのシステム４１０を使用してビデオの符号化および復号を実行するように構成されたデバイス４０２を含むシステム４００を描写する。デバイス４０２は、カメラ４０７および記憶媒体４１４（たとえば、データストレージデバイス）に結合される。いくつかの実装形態では、カメラ４０７は、深層学習ベースのシステム４１０によって符号化するためにプロセッサ４０４に画像データ４０８（たとえば、ビデオデータストリーム）を提供するように構成される。いくつかの実装形態では、デバイス４０２は、複数のカメラ（たとえば、デュアルカメラシステム、３つのカメラ、または他の数のカメラ）に結合され得、および／またはそれらを含むことができる。場合によっては、デバイス４０２は、マイクロフォンならびに／または他の入力デバイス（たとえば、キーボード、マウス、タッチスクリーンおよび／もしくはタッチパッドなどのタッチ入力デバイス、ならびに／または他の入力デバイス）に結合され得る。いくつかの例では、カメラ４０７、記憶媒体４１４、マイクロフォン、および／または他の入力デバイスは、デバイス４０２の一部であり得る。

[0093] デバイス４０２はまた、１つもしくは複数のワイヤレスネットワーク、１つもしくは複数の有線ネットワーク、またはそれらの組合せなどの伝送媒体４１８を介して、第２のデバイス４９０に結合される。たとえば、伝送媒体４１８は、ワイヤレスネットワーク、有線ネットワーク、または有線ネットワークとワイヤレスネットワークの組合せによって提供されるチャネルを含むことができる。伝送媒体４１８は、ローカルエリアネットワーク、ワイドエリアネットワーク、またはインターネットなどのグローバルネットワークなどのパケットベースネットワークの一部を形成することができる。伝送媒体４１８は、ルータ、スイッチ、基地局、またはソースデバイスから受信デバイスへの通信を容易にするために有用であり得る任意の他の機器を含む場合がある。ワイヤレスネットワークは、任意のワイヤレスインターフェースまたはワイヤレスインターフェースの組合せを含む場合があり、任意の適切なワイヤレスネットワーク（たとえば、インターネットまたは他のワイドエリアネットワーク、パケットベースネットワーク、ＷｉＦｉ、無線周波数（ＲＦ）、ＵＷＢ、ＷｉＦｉ－Ｄｉｒｅｃｔ、セルラー、ロングタームエボリューション（ＬＴＥ）、ＷｉＭａｘ（登録商標）など）を含む場合がある。有線ネットワークは、任意の有線インターフェース（たとえば、ファイバ、イーサネット（登録商標）、電力線イーサネット、同軸ケーブルを介したイーサネット、デジタル信号線（ＤＳＬ）など）を含む場合がある。有線および／またはワイヤレスのネットワークは、基地局、ルータ、アクセスポイント、ブリッジ、ゲートウェイ、スイッチなどの様々な機器を使用して実装される場合がある。符号化ビデオビットストリームデータは、ワイヤレス通信プロトコルなどの通信規格に従って変調され、受信デバイスに送信される場合がある。

[0094] デバイス４０２は、メモリ４０６、第１のインターフェース（「Ｉ／Ｆ１」）４１２、および第２のインターフェース（「Ｉ／Ｆ２」）４１６に結合された（本明細書では「プロセッサ」と呼ばれる）１つまたは複数のプロセッサ４０４を含む。プロセッサ４０４は、カメラ４０７から、メモリ４０６から、および／または記憶媒体４１４から画像データ４０８を受け取るように構成される。プロセッサ４０４は、第１のインターフェース４１２を介して（たとえば、メモリバスを介して）記憶媒体４１４に結合され、第２のインターフェース４１６（たとえば、ネットワークインターフェースデバイス、ワイヤレストランシーバおよびアンテナ、１つもしくは複数の他のネットワークインターフェースデバイス、またはそれらの組合せ）を介して伝送媒体４１８に結合される。

[0095] プロセッサ４０４は深層学習ベースのシステム４１０を含む。深層学習ベースのシステム４１０は、エンコーダ部分４６２とデコーダ部分４６６とを含む。いくつかの実装形態では、深層学習ベースのシステム４１０は、１つまたは複数のオートエンコーダを含むことができる。エンコーダ部分４６２は、入力データ４７０を受け取り、入力データ４７０に少なくとも部分的に基づいて出力データ４７４を生成するために入力データ４７０を処理するように構成される。

[0096] いくつかの実装形態では、深層学習ベースのシステム４１０のエンコーダ部分４６２は、出力データ４７４を生成するために入力データ４７０の不可逆圧縮を実行するように構成され、その結果、出力データ４７４は入力データ４７０よりも少ないビットを有する。エンコーダ部分４６２は、任意の前の表現（たとえば、１つまたは複数の前に復元されたフレーム）に基づいて、動き補償を使用せずに入力データ４７０（たとえば、画像またはビデオフレーム）を圧縮するように訓練され得る。たとえば、エンコーダ部分４６２は、ビデオフレームを、そのビデオフレームからのビデオデータのみを使用し、前に復元されたフレームのいかなるデータも使用せずに圧縮することができる。エンコーダ部分４６２によって処理されるビデオフレームは、本明細書ではイントラ予測フレーム（Ｉフレーム）と呼ばれ得る。いくつかの例では、Ｉフレームは、旧来のビデオコーディング技法を使用して（たとえば、ＨＥＶＣ、ＶＶＣ、ＭＰＥＧ－４、または他のビデオコーディング規格に従って）生成され得る。そのような例では、プロセッサ４０４は、ＨＥＶＣ規格に関して上述されたものなどの、ブロックベースのイントラ予測を実行するように構成されたビデオコーディングデバイス（たとえば、符号化デバイス）を含むか、またはそれと結合される場合がある。そのような例では、深層学習ベースのシステム４１０は、プロセッサ４０４から除外される場合がある。

[0097] いくつかの実装形態では、深層学習ベースのシステム４１０のエンコーダ部分４６２は、前の表現（たとえば、１つまたは複数の前に復元されたフレーム）に基づいて、動き補償を使用して入力データ４７０（たとえば、ビデオフレーム）を圧縮するように訓練され得る。たとえば、エンコーダ部分４６２は、ビデオフレームを、そのビデオフレームからのビデオデータを使用し、前に復元されたフレームのデータを使用して圧縮することができる。エンコーダ部分４６２によって処理されるビデオフレームは、本明細書ではイントラ予測フレーム（Ｐフレーム）と呼ばれ得る。動き補償は、前に復元されたフレームからのピクセルが残差情報とともに現在フレーム内の新しい位置にどのように移動するかを記述することにより、現在フレームのデータを決定するために使用され得る。

[0098] 図示されたように、深層学習ベースのシステム４１０のエンコーダ部分４６２は、ニューラルネットワーク４６３と量子化器４６４とを含むことができる。ニューラルネットワーク４６３は、１つもしくは複数の畳み込みニューラルネットワーク（ＣＮＮ）、１つもしくは複数の全結合ニューラルネットワーク、１つもしくは複数のゲート付き再帰型ユニット（ＧＲＵ）、１つもしくは複数の長短期記憶（ＬＳＴＭ）ネットワーク、１つもしくは複数のＣｏｎｖＲＮＮ、１つもしくは複数のＣｏｎｖＧＲＵ、１つもしくは複数のＣｏｎｖＬＳＴＭ、１つもしくは複数のＧＡＮ、それらの任意の組合せ、および／または中間データ４７２を生成する他のタイプのニューラルネットワークアーキテクチャを含むことができる。中間データ４７２は量子化器４６４への入力である。エンコーダ部分４６２に含まれ得る構成要素の例が、図６～図１０に示されている。

[0099] 量子化器４６４は、出力データ４７４を生成するために中間データ４７２の量子化と、場合によってはエントロピーコーディングとを実行するように構成される。出力データ４７４は、量子化（および場合によってはエントロピーコード化）データを含むことができる。量子化器４６４によって実行される量子化演算は、中間データ４７２から、量子化コード（または深層学習ベースのシステム４１０によって生成された量子化コードを表すデータ）の生成をもたらすことができる。量子化コード（または量子化コードを表すデータ）はまた、（ｚと表記された）ラテントコードまたはラテントと呼ばれ得る。ラテントに適用されるエントロピーモデルは、本明細書では「プライア」と呼ばれ得る。いくつかの例では、量子化および／またはエントロピーコーディング演算は、既存のビデオコーディング規格に従ってビデオデータを符号化および／または復号するときに実行される既存の量子化およびエントロピーコーディング演算を使用して実行され得る。いくつかの例では、量子化および／またはエントロピーコーディング演算は、深層学習ベースのシステム４１０によって行われ得る。１つの例示的な例では、深層学習ベースのシステム４１０は、教師あり訓練を使用して訓練され得、訓練中に残差データが入力として使用され、量子化コードおよびエントロピーコードが既知の出力（ラベル）として使用される。

[0100] 深層学習ベースのシステム４１０のデコーダ部分４６６は、（たとえば、量子化器４６４から直接、および／または記憶媒体４１４から）出力データ４７４を受け取るように構成される。デコーダ部分４６６は、出力データ４７４に少なくとも部分的に基づいて入力データ４７０の表現４７６を生成するために、出力データ４７４を処理することができる。いくつかの例では、深層学習ベースのシステム４１０のデコーダ部分４６６は、１つもしくは複数のＣＮＮ、１つもしくは複数の全結合ニューラルネットワーク、１つもしくは複数のＧＲＵ、１つもしくは複数の長短期記憶（ＬＳＴＭ）ネットワーク、１つもしくは複数のＣｏｎｖＲＮＮ、１つもしくは複数のＣｏｎｖＧＲＵ、１つもしくは複数のＣｏｎｖＬＳＴＭ、１つもしくは複数のＧＡＮ、それらの任意の組合せ、および／または他のタイプのニューラルネットワークアーキテクチャを含む場合があるニューラルネットワーク４６８を含む。デコーダ部分４６６に含まれ得る構成要素の例が、図６～図１０に示されている。

[0101] プロセッサ４０４は、伝送媒体４１８または記憶媒体４１４のうちの少なくとも１つに出力データ４７４を送るように構成される。たとえば、出力データ４７４は、復元データとして入力データ４７０の表現４７６を生成するためにデコーダ部分４６６による後の検索および復号（または復元）のために記憶媒体４１４において記憶される場合がある。復元データは、出力データ４７４を生成するために符号化／圧縮されたビデオデータの再生用などの様々な目的に使用され得る。いくつかの実装形態では、出力データ４７４は、復元データとして入力データ４７０の表現４７６を生成するために、（たとえば、デバイス４０２内の、第２のデバイス４９０内の、または別のデバイス内の）デコーダ部分４６６に一致する別のデコーダデバイスにおいて復号される場合がある。たとえば、第２のデバイス４９０は、デコーダ部分４６６に一致する（または実質的に一致する）デコーダを含む場合があり、出力データ４７４は、伝送媒体４１８を介して第２のデバイス４９０に送信される場合がある。第２のデバイス４９０は、復元データとして入力データ４７０の表現４７６を生成するために、出力データ４７４を処理することができる。

[0102] システム４００の構成要素は、本明細書に記載された様々な動作を実行するために、１つもしくは複数のプログラマブル電子回路（たとえば、マイクロプロセッサ、グラフィックス処理装置（ＧＰＵ）、デジタル信号プロセッサ（ＤＳＰ）、中央処理装置（ＣＰＵ）、および／または他の適切な電子回路）を含むことができる、電子回路もしくは他の電子ハードウェアを含むことができ、および／またはそれらを使用して実装され得、ならびに／あるいは、コンピュータソフトウェア、ファームウェア、もしくはそれらの任意の組合せを含むことができ、および／またはそれらを使用して実装され得る。

[0103] システム４００はいくつかの構成要素を含むように示されているが、システム４００が図４に示された構成要素よりも多いかまたは少ない構成要素を含むことができることを当業者は諒解されよう。たとえば、システム４００はまた、入力デバイスと出力デバイス（図示せず）とを含むコンピューティングデバイスを含むことができるか、またはその一部であり得る。いくつかの実装形態では、システム４００はまた、１つもしくは複数のメモリデバイス（たとえば、１つもしくは複数のランダムアクセスメモリ（ＲＡＭ）構成要素、読取り専用メモリ（ＲＯＭ）構成要素、キャッシュメモリ構成要素、バッファ構成要素、データベース構成要素、および／もしくは他のメモリデバイス）、１つもしくは複数のメモリデバイスと通信している、および／またはそれらに電気的に接続された１つもしくは複数の処理デバイス（たとえば、１つもしくは複数のＣＰＵ、ＧＰＵ、および／もしくは他の処理デバイス）、ワイヤレス通信を実行するための（たとえば、ワイヤレスインターフェースごとに１つもしくは複数のトランシーバとベースバンドプロセッサとを含む）１つもしくは複数のワイヤレスインターフェース、１つもしくは複数のハードウェア接続を介した通信を実行するための１つもしくは複数の有線インターフェース（たとえば、ユニバーサルシリアルバス（ＵＳＢ）入力などのシリアルインターフェース、ライトニングコネクタ、および／もしくは他の有線インターフェース）、ならびに／または図４に示されていない他の構成要素を含むコンピューティングデバイスを含む場合があるか、もしくはその一部であり得る。

[0104] いくつかの実装形態では、システム４００は、コンピューティングデバイスによって局所的に実装され、および／またはコンピューティングデバイスに含まれ得る。たとえば、コンピューティングデバイスは、モバイルデバイス、パーソナルコンピュータ、タブレットコンピュータ、仮想現実（ＶＲ）デバイス（たとえば、ヘッドマウントディスプレイ（ＨＭＤ）もしくは他のＶＲデバイス）、拡張現実（ＡＲ）デバイス（たとえば、ＨＭＤ、ＡＲグラス、もしくは他のＡＲデバイス）、ウェアラブルデバイス、（たとえば、サービスとしてのソフトウェア（ＳａａＳ）システムもしくは他のサーバベースシステム内の）サーバ、テレビジョン、および／または本明細書に記載された技法を実行するリソース能力を有する任意の他のコンピューティングデバイスを含むことができる。

[0105] 一例では、深層学習ベースのシステム４１０は、プロセッサ４０４に結合され、プロセッサ４０４によって実行可能な命令を記憶するように構成されたメモリ４０６と、アンテナおよびプロセッサ４０４に結合され、リモートデバイスに出力データ４７４を送信するように動作可能なワイヤレストランシーバとを含むポータブル電子デバイスに組み込まれ得る。

[0106] 上述のように、深層学習ベースのシステムは、典型的には、ＲＧＢまたはＹＵＶ４：４：４のような非サブサンプル入力フォーマットを処理するように設計されている。ＲＧＢ入力を対象にする画像およびビデオのコーディング方式の例は、（「Ｊ．ＢａｌｌｅＰａｐｅｒ」と呼ばれる）Ｊ．Ｂａｌｌｅ、Ｄ．Ｍｉｎｎｅｎ、Ｓ．Ｓｉｎｇｈ、Ｓ．Ｊ．Ｈｗａｎｇ、Ｎ．Ｊｏｈｎｓｔｏｎ、「Ｖａｒｉａｔｉｏｎａｌｉｍａｇｅｃｏｍｐｒｅｓｓｉｏｎｗｉｔｈａｓｃａｌｅｈｙｐｅｒｐｒｉｏｒ」、ＩＣＬＲ、２０１８年、および（「Ｄ．ＭｉｎｎｅｎＰａｐｅｒ」と呼ばれる）Ｄ．Ｍｉｎｎｅｎ、Ｊ．Ｂａｌｌｅ、Ｇ．Ｔｏｄｅｒｉｃｉ、「ＪｏｉｎｔＡｕｔｏｒｅｇｒｅｓｓｉｖｅａｎｄＨｉｅｒａｒｃｈｉｃａｌＰｒｉｏｒｓｆｏｒＬｅａｒｎｅｄＩｍａｇｅＣｏｍｐｒｅｓｓｉｏｎ」、ＣＶＰＲ、２０１８年に記載されており、それらの全体がすべての目的のために参照により本明細書に組み込まれている。

[0107] 図５は、深層学習ベースのシステム５００の一例を示す図である。図５の深層学習ベースのシステム内のｇ_aサブネットワークおよびｇ_sサブネットワークは、それぞれ、エンコーダサブネットワーク（たとえば、エンコーダ部分４６２）およびデコーダサブネットワーク（たとえば、デコーダ部分４６６）に対応する。図５のｇ_aサブネットワークおよびｇ_sサブネットワークは、３チャネルＲＧＢ入力向けに設計され、すべての３つのＲ入力チャネル、Ｇ入力チャネル、およびＢ入力チャネルは、同じニューラルネットワークレイヤ（畳み込みレイヤおよび一般化神経活動正規化（ＧＤＮ）レイヤ）を通過し、それらによって処理される。ニューラルネットワークレイヤは、畳み込み演算を実行する畳み込みレイヤ（畳み込みレイヤ５１０を含む）と、局所分割正規化を実装するＧＤＮおよび／または逆ＧＤＮ（ＩＧＤＮ）非線形レイヤとを含むことができる。局所神経活動正規化は、特に画像の密度モデリングおよび圧縮に適切であるように示された変換のタイプである。（図５に示されたものなどの）深層学習ベースのシステムは、ＲＧＢデータなどの同様の統計特性を有する入力チャネルを対象とする（ここで、異なるＲチャネル、Ｇチャネル、およびＢチャネルの統計特性は同様である）。

[0108] 多くの深層学習ベースのシステムは、ＲＧＢ入力を処理するように設計されるが、ほとんどの画像およびビデオのコーディングシステムは、ＹＵＶ入力フォーマット（たとえば、多くの場合ＹＵＶ４：２：０入力フォーマット）を使用する。ＹＵＶフォーマットにおけるクロミナンス（ＵおよびＶ）チャネルは、ルミナンス（Ｙ）チャネルに対してサブサンプリングされ得る。サブサンプリングは視覚的品質に対して最小の影響しかもたらさない（たとえば、視覚的品質に対して重要または顕著な影響がない）。サブサンプリングフォーマットには、ＹＵＶ４：２：０フォーマット、ＹＵＶ４：２：２フォーマット、および／または他のＹＵＶフォーマットが含まれる。チャネル間の相関関係はＹＵＶフォーマットでは低減され、それは他の色フォーマット（たとえば、ＲＧＢフォーマット）には当てはまらない場合がある。さらに、ルミナンス（Ｙ）チャネルならびにクロミナンス（ＵおよびＶ）チャネルの統計値は異なる。たとえば、ＵチャネルおよびＶチャネルはルミナンスチャネルと比較してばらつきが少ないが、たとえば、ＲＧＢフォーマットは、Ｒチャネル、Ｇチャネル、およびＢチャネルの統計特性はよく似ている。ビデオコーダ－デコーダ（またはコーデック）は、データの入力特性に応じて設計される（たとえば、コーデックはデータの入力フォーマットに従ってデータを符号化および／または復号することができる）。たとえば、フレームのクロミナンスチャネルがサブサンプリングされる場合（たとえば、クロミナンスチャネルはルミナンスチャネルと比較して半分の解像度である）、コーデックが動き補償のためにフレームのブロックを予測するとき、ルミナンスブロックは、クロミナンスブロックと比較して幅と高さの両方で２倍の大きさである。別の例では、コーデックは、とりわけ、クロミナンスおよびルミナンスに対してどのくらいのピクセルが符号化または復号されようとするかを決定することができる。

[0109] ＹＵＶフォーマット（たとえば、ＹＵＶ４：２：０フォーマット）をサポートするには、深層学習ベースのアーキテクチャを変更しなければならない。たとえば、（上記のように、ほとんどの深層学習ベースのシステムは処理するように設計される）ＲＧＢ入力データを（すべてのチャネルが同じ次元を有する）ＹＵＶ４：４：４入力データに置き換えると、入力データを処理する深層学習ベースのシステムの性能は、ルミナンス（Ｙ）チャネルとクロミナンス（ＵおよびＶ）チャネルの異なる統計特性に起因して低下する。上記のように、クロミナンス（ＵおよびＶ）チャネルは、ＹＵＶ４：２：０の場合など、いくつかのＹＵＶフォーマットでサブサンプリングされる。たとえば、ＹＵＶ４：２：０フォーマットを有するコンテンツの場合、ＵチャネルおよびＶチャネルの解像度は、Ｙチャネルの解像度の半分である（ＵチャネルおよびＶチャネルは、幅および高さが半分であることに起因して、Ｙチャネルの４分の１のサイズを有する）。そのようなサブサンプリングは、入力データを深層学習ベースのシステムの入力と互換性がないようにする可能性がある。入力データは、深層学習ベースのシステムが符号化および／または復号しようと試みている情報（たとえば、ルミナンス（Ｙ）チャネルとクロミナンス（ＵおよびＶ）チャネルとを含む３つのチャネルを含むＹＵＶフレーム）である。

[0110] いくつかのエンドツーエンドビデオコーディング深層学習ベースのシステムでは、オートエンコーダは、イントラフレーム、動きベクトル（たとえば、密な光フロー）、および元のフレームに対する動き補償されたフレームの残差をコーディングするために使用される。一例では、フローオートエンコーダを使用して、光フローとスケール空間を共同でコーディングすることを学ぶことができ、残差オートエンコーダは、すべてＲＧＢドメイン内のワープ予測フレームと元のフレームの間の残差をコーディングする。

[0111] 上で述べたように、本明細書では、１つまたは複数のＹＵＶフォーマット（たとえば、ＹＵＶ４：２：０フォーマット）を効率的にサポートするＭＬベースのシステム（たとえば、１つまたは複数の深層学習ベースのアーキテクチャを含む）を提供するシステムおよび技法について説明する。深層学習ベースのアーキテクチャは、スタンドアロンフレーム（もしくは画像）および／または複数のフレームを含むビデオデータを符号化および／または復号できる。たとえば、ＭＬベースのシステムは、現在のフレームのルーマ成分と以前に復元されたフレームのルーマ成分を入力として取得でき、これは、ＭＬベースのシステムの以前のインスタンスによって復元され得る。ＭＬベースのシステムは、現在および前のフレームのルーマ成分を処理して、現在のフレームのルーマ成分の動き情報（たとえば、光フロー情報などのフロー情報）を推定することができる。次に、現在のフレームのルーマ成分を使用して、ＭＬベースのシステムは、現在のフレームの１つまたは複数のクロマ成分の動き推定（たとえば、光フロー情報などのフロー情報）を決定（たとえば、推定）できる。このような技法は、フレームのすべての成分に対して実行され得る。以下にさらなる詳細を説明する。

[0112] 図６は、ビデオコーディングを実行するように構成された深層学習ベースのシステム６００のニューラルネットワークアーキテクチャの一例を示す図である。図６のニューラルネットワークアーキテクチャは、イントラ予測エンジン６０２と、インター予測エンジン６１０とを含む。イントラ予測エンジン６０２およびインター予測エンジン６１０は、図６に示すようにオートエンコーダ（たとえば、変分オートエンコーダ（ＶＡＥ））を含み得るが、他の実装形態における他のタイプのニューラルネットワークアーキテクチャを含み得る。図示のように、イントラ予測エンジン６０２は、入力フレーム６０４のピクセル情報を処理して、入力フレーム６０４のラテント表現（

として示される）を生成する。入力フレーム６０４は、入力フレーム６０４の各ピクセルについて、ルーマ成分（

として示される）と２つのクロマ成分（

および

として示される）とを含む。ラテント表現は、ビットストリームと呼ぶこともでき、これは、入力フレーム６０４のコーディングされたバージョンであるビットの数を含む。ラテント表現

（または別のデバイスから受信したラテント表現／ビットストリーム）に基づいて、イントラ予測エンジン６０２のデコーダサブネットワークは、復元されたフレーム６０６（成分上の「ハット」が復元された値を示す、

、

として示される）を生成することができ、これは、入力フレーム６０４の復元されたバージョンである。

[0113] インター予測エンジン６１０は、フローエンジン６１８、残差エンジン６２０、およびワーピングエンジン６２２を含む。図示のように、フローエンジン６１８は、現在のフレーム６１４（時間ｔにおける）のルーマ成分（

として示される）と、前のフレーム６１５（前の時間ｔ－１における）の復元されたルーマ成分（

として示される）を入力として取得する。ルーマ成分

とルーマ成分

を使用すると、フローエンジン６１８は、現在のフレーム６１４のルーマ成分

の動き情報（たとえば、フロー情報）のラテント表現（

として示される）を生成する。動き情報は、光フロー情報（たとえば、複数の動きベクトルまたは変位ベクトル、場合によってはピクセルまたはサンプルごとのスケール成分）を含み得、これは、前のフレーム６１５（時間ｔ－１における）に対する現在のフレーム６１４（時間ｔにおける）のピクセルの動きを示す。ラテント表現

は、ビットストリームとも呼ばれることができ、現在のフレーム６１４のルーマ成分

のコーディングバージョンを表すビットの数を含むことができる。フローエンジン６１８は、クロマ成分ではなく、現在のフレーム６１４のルーマ成分

を処理するため、ラテント表現

（ビットストリーム）は、動き情報を決定するために現在のフレーム６１４のすべての成分を使用する場合と比較して、サイズが縮小される。

[0114] ルーマ成分

のラテント表現

（または、フレームのルーマ成分を表す別のデバイスから受信したラテント表現またはビットストリーム）を使用して、フローエンジン６１８は、現在のフレーム６１４のルーマ成分

についての動き情報（ｆ^Lとして示される）を決定し、また、現在のフレーム６１４のクロマ成分

、

についての動き情報（ｆ^Cとして示される）を決定する。ルーマ成分の決定された動き情報に基づいてクロマ成分の動き情報を決定または推定する詳細を、図７Ａおよび図７Ｂに関して以下に説明する。

[0115] ワーピングエンジン６２２は、現在のフレーム６１４（時間ｔにおける）のルーマ

およびクロマ成分

、

について決定された動き情報（ｆ^Lおよびｆ^C）を使用してワーピングを実行するように構成される。たとえば、ワーピングエンジン６２２は、現在のフレーム６１４のルーマ

およびクロマ成分

、

の動き情報（ｆ^Lおよびｆ^C）によって示される量だけ、現在のフレーム６１４（時間ｔにおける）のピクセルをワープすることができる。いくつかの態様では、ワーピングエンジン６２２は、空間スケールフロー（ＳＳＦ）ワーピングを実行することができる。たとえば、ＳＳＦワーピングは、トリリニア補間を適用して、学習したスケールフローベクトルからインターフレーム予測を生成することができ、ここで、予測子は次のように定式化され得る。

[0116] 上記のトリリニア補間は、ルーマ

およびクロマ成分

の動き情報（ｆ^Lおよびｆ^C）に基づいて決定される１つまたは複数のワーピングパラメータに基づいて、成分ごとに（たとえば、各ルーマ成分および各個別のＵおよびＶクロマ成分ごとに）実行することができる。たとえば、ワーピングパラメータは、動きベクトルまたは変位ベクトルの水平成分（ｘ方向）を表す

と、動きベクトルまたは変位ベクトルの垂直成分（ｙ方向）を表す

と、空間的な動き／変位情報（ｖ_xおよびｖ_y）と結合された、復元されたフレームの段階的に平滑化されたバージョンを表すｓ（スケールフィールドと呼ばれる）とを含み得る。

[0117] ワーピングエンジン６２２からの出力（ワーピングがワーピングエンジン６２２によって実行された後）は、Ｐ_Y、Ｐ_U、Ｐ_Vとして図６に示す予測を含む。ここでＰ_Yはルーマ成分のルーマ

の予測に対応し、Ｐ_Uはクロマ成分

の予測に対応し、Ｐ_Vは現在のフレーム６１４のクロマ成分

の予測に対応する。

[0118] 次いで、深層学習ベースのシステム６００は、現在のフレーム６１４の対応するルーマ

およびクロマ

、

成分から予測Ｐ_Y、Ｐ_U、Ｐ_Vを減算して、残差信号を取得することができ、これには、ルーマ成分の残差信号ｒ_Y、クロマ成分

の残差信号ｒ_U、およびクロマ成分

の残差信号ｒ_Vが含まれる。残差エンジン６２０は、残差のラテント表現（

として示される）を生成することができる。残差のラテント表現

（または別のデバイスから受信した残差のラテント表現）を使用して、残差エンジン６２０は、ルーマ成分の復元された残差信号

、クロマ成分

の復元された残差信号

、およびクロマ成分

の復元された残差信号

を含む、現在のフレームの復元された残差を生成することができる。深層学習ベースのシステム６００は、予測Ｐ_Y、Ｐ_U、Ｐ_Vを復元された残差

、

に追加して、復元されたフレーム６１６を生成することができる。

[0119] 図７Ａは、現在のフレーム（時間ｔにおける）のルーマ成分

および前のフレーム（時間ｔ－１における）の復元されたルーマ成分

で動作するフローエンジン７１８の一例を示す図であり、ルーマ成分７２２として集合的に示される。上述のように、場合によっては、フローエンジン７１８は、オートエンコーダ（ＶＡＥ_flow）として実装され得る。場合によっては、図７Ａに示すように、組み合わされた深層学習ベースのアーキテクチャを設計することができ、フローエンジン７１８は、現在のフレーム

と以前に復元されたフレーム

の両方のルーマ成分を使用して、ルーマ動き情報（たとえば、ＳＳＦｆ^L）とクロマ動き情報（たとえば、ＳＳＦｆ^C）とを推定する。たとえば、本明細書で説明するように、クロマ動き情報（たとえば、ｆ^C）は、ルーマ動き情報（たとえば、ｆ^L）に基づいて導出され得る。

[0120] 図７Ａに示すように、現在のフレームのルーマ成分

の動き情報（ｆ^L）を決定するために、現在のフレームのルーマ成分

、および前のフレームの復元されたルーマ成分

は、いくつかの畳み込みレイヤと活性化レイヤ（まとめてフォワードパス７２３として示される）によって処理される。図７Ａの「↓２」および「↑２」という表記法は、ストライド値を指し、↓２はストライド２（「↓」で示されるダウンサンプリングの場合）を指し、↑２もストライド２（「↑」で示されるアップサンプリングの場合）を指す。たとえば、畳み込みレイヤ７２４は、ストライド値２によって水平および垂直次元で５×５畳み込みフィルタを適用することによって、入力ルーマ成分

および

を４分の１でダウンサンプリングする。畳み込みレイヤ７２４の結果として得られる出力は、現在のフレームのルーマ成分

のルーマ動き情報（ｆ^L）を表す特徴値のＮ個の配列（Ｎ個のチャネルに対応する）である。「２／Ｎ」という表記法は、２つの入力チャネルとＮ個の出力チャネルとを表す。次に、畳み込みレイヤ７２４に続く非線形レイヤは、畳み込みレイヤ７２４によって出力された特徴値を処理することができる。連続する畳み込みレイヤおよび非線形レイヤのそれぞれは、フォワードパス７２３の最終畳み込みレイヤ７２５がフローエンジン７１８のボトルネック部分７２６に特徴を出力するまで、前のレイヤによって出力された特徴を処理することができる。

[0121] フォワードパス７２３の出力は、フローエンジン７１８のボトルネック部分７２６によって処理されて、現在のフレームのルーマ成分

のルーマ動き情報（ｆ^L）を表すビットストリームまたはラテントを生成する。ボトルネック部分７２６は、フォワードパス７２３における量子化エンジンおよびエントロピー符号化エンジン、ならびにフローエンジン７１８のバックワードパス７２８上のエントロピー復号エンジンおよび逆量子化エンジンを含み得る。たとえば、量子化エンジンは、フォワードパス７２３の最終畳み込みレイヤ７２５によって出力された特徴に対して量子化を実行して、量子化出力を生成することができる。エントロピー符号化エンジンは、量子化エンジンからの量子化出力をエントロピー符号化してビットストリームを生成することができる。場合によっては、エントロピー符号化エンジンは、ハイパープライアネットワークによって生成されたプライアを使用してエントロピー符号化を実行することができる。ニューラルネットワークシステムは、ストレージ用に、別のデバイスに送信するために、サーバデバイスもしくはシステムにビットストリームを出力すること、および／または、他の方法でビットストリームを出力することができる。

[0122] バックワードパス７２８は、場合によっては、フローエンジン７１８のニューラルネットワークシステムのデコーダサブネットワーク、または（別のデバイスの）別のフローエンジンのニューラルネットワークシステムのデコーダサブネットワークであり得る。フローエンジン７１８のエントロピー復号エンジンは、ボトルネック７２６のエントロピー符号化エンジン（または別のフローエンジンのボトルネックのエントロピー符号化エンジン）によって出力されたビットストリームをエントロピー復号し、エントロピー復号データをバックワードパス７２８の逆量子化エンジンに出力することができる。エントロピー復号エンジンは、ハイパープライアネットワークによって生成されたプライアを使用して、エントロピー復号を実行できる。脱量子化エンジンは、データを脱量子化できる。

[0123] 次に、バックワードパス７２８の畳み込みレイヤおよび逆活性化レイヤは、ボトルネック７２６からの脱量子化されたデータを処理して、現在のフレームのルーマ成分

の動き情報７２９（ｆ^L）を生成することができる。動き情報７２９（ｆ^L）は、現在のフレームのルーマ成分

の各サンプルの動きベクトルなどの動きベクトル（たとえば、水平またはｘ方向の大きさと、垂直またはｙ方向の大きさとを有する）を含むことができる。場合によっては、動き情報７２９（ｆ^L）は、スケール成分をさらに含むことができる。たとえば、説明のために図７Ａに示すように、動き情報７２９は、

成分と、

成分と、Ｓ^L成分とを含む。上述のように、

、

、およびＳ^L成分は、ワーピングエンジン６２２によって式（１）で使用され、現在のフレーム６１４（時間ｔにおける）のピクセルをワーピングして、予測Ｐ_Y、Ｐ_U、Ｐ_Vを生成することができる。

[0124] 現在のフレームのルーマ成分

の動き情報７２９（ｆ^L）を学習した後、フローエンジン７１８は、現在のフレームのクロマ成分の動き情報７３１（ｆ^C）を決定または予測することができる。たとえば、フローエンジン７１８は、クロマ成分の動き情報７３１（ｆ^C）を取得するために、ルーマ成分

の動き情報７２９（ｆ^L）をサブサンプリングすることができる。クロマ成分の動き情報７３１（ｆ^C）は、現在のフレームのクロマ成分の各サンプルの動きベクトルなどの動きベクトル（たとえば、水平またはｘ方向の大きさと、垂直またはｙ方向の大きさとを有する）を含むことができる。場合によっては、動き情報７３１（ｆ^C）は、スケール成分をさらに含むことができる。たとえば、説明のために図７Ａに示すように、現在のフレームのクロマ成分の動き情報７３１（ｆ^C）は、

成分と、

成分と、Ｓ^C成分とを含む。ルーマ成分の動き情報７２９（ｆ^L）と同様に、クロマ動き情報７３１（ｆ^C）の

、

、およびＳ^C成分は、ワーピングエンジン６２２によって式（１）で使用され、現在のフレーム６１４（時間ｔにおける）のピクセルをワーピングして、予測Ｐ_Y、Ｐ_U、Ｐ_Vを生成することができる。

[0125] いくつかの態様では、ダウンサンプリングを伴う畳み込みレイヤ７３０は、現在のフレームのルーマ成分

の動き情報７２９（ｆ^L）に基づいて、現在のフレームのクロマ成分の動き情報７３１（ｆ^C）を学習するように（たとえば、教師なし学習または訓練を使用して）訓練され得る。１つの例示的な例では、フローエンジン７１８を訓練するために使用され得る訓練セットは、（グランドトゥルースとして）ルーマおよびクロマ動き情報を含むことができる。ルーマ動き情報は、フローエンジン７１８のニューラルネットワークに入力され得、フローエンジン７１８から出力される結果として得られるクロマ動き情報は、損失関数を使用するグランドトゥルースのクロマ動き情報を使用して最小化され得る（たとえば、Ｌ１または絶対差の合計、Ｌ２Ｎｏｒｍまたは二乗差の合計、または他の損失関数）。

[0126] 畳み込みレイヤ７３０は、｜３／３｜５×５ｃｏｎｖ↓２｜として図７Ａに示されている。「３／３」という表記法は、３つの出力チャネルになる３つの入力チャネルがあることを示す。上記のように、「↓２」および「↑２」という表記法はストライド値を指し、↓２はダウンサンプリングのストライド２（「↓」で示す）を指し、↑２はアップサンプリングのストライド２（「↑」で示す）を指す。たとえば、畳み込みレイヤ７３０は、ストライド値２だけ水平および垂直次元で５×５畳み込みフィルタを適用することによって、ルーマ成分

の動き情報７２９（ｆ^L）を４分の１（たとえば、ＹＵＶ４：２：０フォーマットの場合）でダウンサンプリングする。いくつかの例では、畳み込みレイヤ７３０は、他のフォーマット（たとえば、ＹＵＶ４：２：２フォーマットなど）の他の要因によってダウンサンプリングするように訓練され得る。畳み込みレイヤ７２４の結果として得られる出力は、特徴値の３×３配列（３つのチャネルに対応する）であり、これは、ルーマ成分

の動き情報７２９（ｆ^L）のダウンサンプリングされたバージョンである。

[0127] 他の態様（図７Ａには図示せず）では、現在のフレームのクロマ成分の動き情報７３１（ｆ^C）は、ルーマ成分

の動き情報７２９（ｆ^L）を直接サブサンプリングすることによって取得され得る。たとえば、フローエンジン７１８は、畳み込みレイヤ７３０を使用してルーマフローを処理することなく、クロマフローを決定することができる。１つの例示的な例では、畳み込みレイヤ７３０の代わりに、フローエンジン７１８は、ルーマ動き情報７２９（ｆ^L）を直接サブサンプリングしてクロマ動き情報７３１（ｆ^C）を取得することができるサブサンプラ（フローエンジン７１８のニューラルネットワークから分離され得る）を含むことができる。

[0128] 図７Ｂは、現在のフレームについて決定された（たとえば、図７Ａのフローエンジン７１８を使用して）ルーマ動き情報をサブサンプリングするためのサブサンプリングエンジン（subsampling engine）７３５の一例を示す図であり、現在のフレームのクロマ動き情報を取得する。説明のために、簡略化された例は、合計１６のフローの動きまたは変位ベクトルを有する４×４（４行および４列）の解像度を有するルーマ動き情報７３２の各チャネルＮ（Ｎ＝２）で提供される。サブサンプリングエンジン７３５は、ルーマ動き情報７３２をサブサンプリングまたはダウンサンプリングして、ルーマ動き情報７３２のサブサンプリングされた／ダウンサンプリングされたバージョンであるクロマ動き情報７３８を生成または取得する。

[0129] 図７Ｂの例示的な例は、ルーマ動き情報７３２のサイズの４分の１であるクロマ動き情報７３８を示している。たとえば、前述したように、ＹＵＶ４：２：０フォーマットを有するコンテンツの場合、ＵチャネルとＶチャネルの解像度はＹチャネル解像度の半分である（幅と高さが半分になるため、ＵチャネルとＶチャネルのサイズはＹチャネルの４分の１になる）。サブサンプリングエンジン７３５は、４：２：０フォーマット以外の他のフォーマットを処理するように訓練または他の方法で構成され得、この場合、サブサンプリングは、図７Ａに示されるものとは異なる解像度を有するクロマ情報を生成することを含み得る。

[0130] いくつかの態様では、上記のように、サブサンプリングエンジン７３５は、図７Ａの畳み込みレイヤ７３０を含むことができ、（たとえば、教師なし学習または訓練を使用して）訓練して、ルーマ動き情報７３２からクロマ動き情報７３８を決定することができる。他の態様では、サブサンプリングエンジン７３５は、クロマ動き情報７３８を取得するために、ルーマ動き情報７３２を直接サブサンプリングするサブサンプラを含むことができる。

[0131] フォワードパス７２３およびバックワードパス７２８の畳み込みまたは変換レイヤ、ならびにボトルネック（Ｍ）におけるチャネルの数（図７ＡではＮとして示される）は、任意の適切な値に設定され得る。１つの例示的な例では、チャネルの数Ｎは、Ｎ＝１９２およびＭ＝１２８として選択され得る。復元されたフレームの連続する平滑化されたバージョン（スケールフィールドｓに関連付けられている）は、フィルタリングまたは平滑化演算子を使用して取得され得る。一例では、異なる幅のガウスぼかしフィルタを使用できる。別の例では、連続フィルタリングと補間を備えたガウスピラミッドを使用して、復元されたフレームの平滑化されたバージョンを生成できる。さらに、任意に多数のスケールＳを用いることができる。一例では、スケールＳをＳ＝３に設定でき、スケールレベルは

として選択され得る。ここで、σ₀はガウスフィルタ幅を表すことができる。

[0132] 一方、図７Ａの非線形活性化レイヤは、説明のためにＰＲｅＬＵとして示されており、一般化分割正規化（ＧＤＮ）レイヤ、ＰＲｅＬＵレイヤとＧＤＮレイヤの組合せなど、他のタイプの非線形活性化レイヤを使用することができる。

[0133] いくつかの例では、１つまたは複数のＹＵＶフォーマット（たとえば、ＹＵＶ４：２：０）を効果的にサポートするために、図６のイントラ予測エンジン６０２および残差エンジン６２０は、図８Ａ、図９、または図１０に示す一般的なニューラルネットワークアーキテクチャに基づいて設計され得る。たとえば、図８Ａ、図９、および図１０に示すアーキテクチャは、ＹＵＶ４：２：０フォーマットを有する入力データを処理するように構成され得る。いくつかの例では、図８Ａ、図９、または図１０に示されるものと同様のニューラルネットワークアーキテクチャは、他のタイプのＹＵＶコンテンツ（たとえば、ＹＵＶ４：４：４フォーマット、ＹＵＶ４：２：２フォーマットなどを有するコンテンツ）および／または他の入力フォーマットを有するコンテンツを符号化および／または復号するために使用され得る。場合によっては、図８Ａ、図９、および図１０に示す各アーキテクチャは、ＹＵＶ（たとえば、４：２：０）残差で動作する残差オートエンコーダを含む。

[0134] 図８Ａは、４：２：０の入力（Ｙ、ＵおよびＶ）データを直接連携するように構成され得るフロントエンドニューラルネットワークシステム８００の一例を示す図である。図８Ａに示すように、ニューラルネットワークシステムのエンコーダサブネットワーク（フォワードパスとも呼ばれる）では、分岐されたルーマチャネルとクロマチャネル（ルーマＹチャネル８０２とＵおよびＶクロマチャネル８０４）が１×１畳み込みレイヤ８０６を使用して組み合わされ、次に、非線形レイヤ８０８（非線形演算子とも呼ばれる）が適用される。同様の演算は、ニューラルネットワークシステムのデコーダサブネットワーク（バックワードパスとも呼ばれる）で実行されるが、逆の順序で実行される。たとえば、図８Ａに示すように、逆非線形レイヤ８０９（逆非線形演算子とも呼ばれる）が適用され、ＹおよびＵ、Ｖチャネルは１×１畳み込みレイヤ８１３を使用して分離され、別個のＹおよびＵ、Ｖチャネルはそれぞれの逆非線形レイヤ８１５、８１６および畳み込みレイヤ８１７、８１８を使用して処理される。

[0135] 図８Ａのニューラルネットワークシステム８００のエンコーダサブネットワークにおける第１の２つのニューラルネットワークレイヤは、第１の畳み込みレイヤ８１１（Ｎｃｏｎｖ｜３×３｜↓１と示される）と、第２の畳み込みレイヤ８１０（Ｎｃｏｎｖ｜５×５｜↓２と示される）と、第１の非線形レイヤ８１４と、第２の非線形レイヤ８１２とを含む。図８Ａのフロントエンドニューラルネットワークアーキテクチャのデコーダサブネットワークの最後の２つのニューラルネットワークレイヤは、第１の逆非線形レイヤ８１６と、第２の逆非線形レイヤ８１５と、フレームの復元されたクロミナンス（ＵおよびＶ）成分を生成するための第１の畳み込みレイヤ８１８（２ｃｏｎｖ｜３×３｜↑１で示される）と、フレームの復元されたルミナンス（Ｙ）成分を生成するための第２の畳み込みレイヤ８１７（１ｃｏｎｖ｜５×５｜↑２で示される）とを含む。「Ｎｃｏｎｖ」という表記法は、（出力チャネルの数を定義するＮの値を有する）所与の畳み込みレイヤの（出力特徴の数に対応する）出力チャネルの数（Ｎ）を指す。３×３および５×５という表記法は、それぞれの畳み込みカーネル（たとえば、３×３カーネルおよび５×５カーネル）のサイズを示す。「↓１」および「↓２」という表記法はストライド値を指し、ここで↓１は（「↓」によって示されたダウンサンプリング用の）１のストライドを指し、↓２は（ダウンサンプリング用の）２のストライドを指す。「↑１」および「↑２」という表記法はストライド値を指し、ここで↑１は（「↑」によって示されたアップサンプリング用の）１のストライドを指し、↑２は（アップサンプリング用の）２のストライドを指す。

[0136] たとえば、畳み込みレイヤ８１０は、２のストライド値によって水平次元および垂直次元の５×５畳み込みフィルタを適用することにより、入力ルーマチャネル８０２を４倍にダウンサンプリングする。畳み込みレイヤ８１０の結果として得られた出力は、特徴値の（Ｎ個のチャネルに対応する）Ｎ個の配列である。畳み込みレイヤ８１１は、１のストライド値によって水平次元および垂直次元の３×３畳み込みフィルタを適用することにより、入力クロマ（ＵおよびＶ）チャネル８０４を処理する。畳み込みレイヤ８１１の結果として得られた出力は、特徴値の（Ｎ個のチャネルに対応する）Ｎ個の配列である。畳み込みレイヤ８１０によって出力された特徴値の配列は、畳み込みレイヤ８１１によって出力された特徴値の配列と同じ次元を有する。次いで、非線形レイヤ８１２は、畳み込みレイヤ８１０によって出力された特徴値を処理することができ、非線形レイヤ８１４は、畳み込みレイヤ８１１によって出力された特徴値を処理することができる。

[0137] 次いで、１×１畳み込みレイヤ８０６は、非線形レイヤ８１２、８１４によって出力された特徴値を処理することができる。１×１畳み込みレイヤ８０６は、ルーマチャネル８０２およびクロマチャネル８０４に関連付けられた特徴の線形結合を生成することができる。線形結合演算は、Ｙ成分およびＵＶ成分の値当たりのクロスチャネル混合として動作し、コーディング性能を向上させるクロス成分（たとえば、クロス－ルミナンスおよびクロミナンス成分）の予測をもたらす。１×１畳み込みレイヤ８０６の各１×１畳み込みフィルタは、ルーマチャネル８０２の対応するＮ番目のチャネルおよびクロマチャネル８０４の対応するＮ番目のチャネルに適用されるそれぞれのスケーリングファクタを含むことができる。

[0138] 図８Ｂは、１×１畳み込みレイヤ８３８の例示的な動作を示す図である。上述されたように、Ｎは出力チャネルの数を表す。図８Ｂに示されたように、Ｎ個のチャネルクロマ（結合されたＵおよびＶ）出力８３２とＮ個のチャネルルーマ（Ｙ）出力８３４とを含む、２Ｎ個のチャネルが１×１畳み込みレイヤ８３８への入力として提供される。図８Ｂの例では、Ｎの値は２に等しく、Ｎ個のチャネルクロマ出力８３２用の値の２つのチャネルと、Ｎ個のチャネルルーマ出力８３４用の値の２つのチャネルとを示す。図８Ａを参照すると、Ｎ個のチャネルクロマ出力８３２は非線形レイヤ８１４からの出力であり得、Ｎ個のチャネルルーマ出力８３４は非線形レイヤ８１２からの出力であり得る。

[0139] １×１畳み込みレイヤ８３８は、２Ｎ個のチャネルを処理し、２Ｎ個のチャネルの特徴別線形結合を実行し、次いで、特徴または係数のＮ個のチャネルセットを出力する。１×１畳み込みレイヤ８３８は、（Ｎ＝２に基づいて）２つの１×１畳み込みフィルタを含む。第１の１×１畳み込みフィルタはＳ₁の値で示され、第２の１×１畳み込みフィルタはＳ₂の値で示されている。Ｓ₁の値は第１のスケーリングファクタを表し、Ｓ₂の値は第２のスケーリングファクタを表す。１つの例示的な例では、Ｓ₁の値は３に等しく、Ｓ₂の値は４に等しい。１×１畳み込みレイヤ８３８の１×１畳み込みフィルタの各々は１のストライド値を有し、スケーリングファクタＳ₁およびＳ₂がＵＶ出力８３２およびＹ出力８３４における各値に適用されることを示す。

[0140] たとえば、第１の１×１畳み込みフィルタのスケーリングファクタＳ₁は、ＵＶ出力８３２の第１のチャネル（Ｃ１）内の各値およびＹ出力８３４の第１のチャネル（Ｃ１）内の各値に適用される。ＵＶ出力８３２の第１のチャネル（Ｃ１）の各値およびＹ出力８３４の第１のチャネル（Ｃ１）の各値が第１の１×１畳み込みフィルタのスケーリングファクタＳ₁によってスケーリングされると、スケーリング値は出力値８３９の第１のチャネル（Ｃ１）に結合される。第２の１×１畳み込みフィルタのスケーリングファクタＳ₂は、ＵＶ出力８３２の第２のチャネル（Ｃ２）内の各値およびＹ出力８３４の第２のチャネル（Ｃ２）内の各値に適用される。ＵＶ出力８３２の第２のチャネル（Ｃ２）の各値およびＹ出力８３４の第２のチャネル（Ｃ２）の各値が第２の１×１畳み込みフィルタのスケーリングファクタＳ₂によってスケーリングされた後、スケーリング値は出力値８３９の第２のチャネル（Ｃ２）に結合される。結果として、４つのＹおよびＵＶチャネル（２つのＹチャネルおよび２つの結合ＵＶチャネル）は混合され、２つの出力チャネルＣ１およびＣ２に結合される。

[0141] 図８Ａに戻ると、１×１畳み込みレイヤ８０６の出力は、エンコーダサブネットワークの追加の非線形レイヤおよび追加の畳み込みレイヤによって処理される。ボトルネック８２０は、エンコーダサブネットワーク（またはフォワードパス）上の量子化エンジンおよびエントロピー符号化エンジン、ならびにデコーダサブネットワーク上のエントロピー復号エンジンおよび逆量子化エンジン（またはバックワードパス）を含むことができる。量子化エンジンは、量子化出力を生成するために、エンコーダサブネットワークの最後のニューラルネットワークレイヤ８１９によって出力された特徴に対して量子化を実行することができる。エントロピー符号化エンジンは、ビットストリームを生成するために、量子化エンジンからの量子化出力をエントロピー符号化することができる。場合によっては、エントロピー符号化エンジンは、エントロピー符号化を実行するためにハイパープライアネットワークによって生成されたプライアを使用することができる。ニューラルネットワークシステムは、格納のため、別のデバイス、サーバデバイス、もしくはサーバシステムへの送信のためにビットストリームを出力し、および／またはそうでない場合、ビットストリームを出力することができる。

[0142] ニューラルネットワークシステムのデコーダサブネットワークまたは（別のデバイスの）別のニューラルネットワークシステムのデコーダサブネットワークは、ビットストリームを復号することができる。（デコーダサブネットワークの）ボトルネック８２０のエントロピー復号エンジンは、ビットストリームをエントロピー復号し、エントロピー復号データをデコーダサブネットワークの逆量子化エンジンに出力することができる。エントロピー復号エンジンは、エントロピー復号を実行するためにハイパープライアネットワークによって生成されたプライアを使用することができる。逆量子化エンジンは、データを逆量子化することができる。逆量子化データは、デコーダサブネットワークのいくつかの畳み込みレイヤおよびいくつかの逆非線形レイヤによって処理され得る。

[0143] いくつかの畳み込みレイヤおよび非線形レイヤによって処理された後、１×１畳み込みレイヤ８１３は、最終的な逆非線形レイヤ８０９によって出力されたデータを処理することができる。１×１畳み込みレイヤ８１３は、データをＹチャネル特徴および結合ＵＶチャネル特徴に分割することができる２Ｎ個の畳み込みフィルタを含むことができる。たとえば、逆非線形レイヤ８０９によって出力されたＮ個のチャネルの各々は、１×１畳み込みレイヤ８１３の（スケーリングをもたらす）２Ｎ個の１×１畳み込みを使用して処理され得る。Ｎ個の入力チャネルに適用される（合計２Ｎ個の出力チャネルからの）出力チャネルに対応するスケーリングファクタｎ_iごとに、デコーダサブネットワークは、Ｎ個の入力チャネルにわたって合計を実行することができ、２Ｎ個の出力をもたらす。１つの例示的な例では、スケーリングファクタｎ₁の場合、デコーダサブネットワークは、Ｎ個の入力チャネルにスケーリングファクタｎ₁を適用することができ、結果を合計することができ、それにより、１つの出力チャネルがもたらされる。デコーダサブネットワークは、２Ｎ個の異なるスケーリングファクタ（たとえば、スケーリングファクタｎ₁、スケーリングファクタｎ₂、スケーリングファクタｎ_2Nまで）についてこの演算を実行することができる。

[0144] １×１畳み込みレイヤ８１３によって出力されたＹチャネル特徴は、逆非線形８１５によって処理され得る。１×１畳み込みレイヤ８１３によって出力された結合ＵＶチャネル特徴は、逆非線形８１６によって処理され得る。畳み込みレイヤ８１７は、Ｙチャネル特徴を処理し、復元Ｙ成分８２４として示された、ピクセル当たりの復元Ｙチャネルまたは復元フレームのサンプル（たとえば、ルミナンスサンプルもしくはピクセル）を出力することができる。畳み込みレイヤ８１８は、結合ＵＶチャネル特徴を処理し、復元ＵおよびＶ成分８２５として示された、ピクセル当たりの復元Ｕチャネルまたは復元フレームのサンプル（たとえば、クロミナンス青サンプルもしくはピクセル）およびピクセル当たりの復元Ｖチャネルまたは復元フレームのサンプル（たとえば、クロミナンス赤サンプルもしくはピクセル）を出力することができる。

[0145] いくつかの例では、異なる非線形演算子を有する図８Ａのアーキテクチャの異なる変形は、イントラ予測エンジン６０２および残差エンジン６２０として使用され得る。たとえば、図９および図１０は、ＹＵＶフォーマットを有するデータ（たとえば、Ｙ、ＵおよびＶ成分を有するＹＵＶ４：２：０入力データ）を処理するように構成されている図８Ａのフロントエンドアーキテクチャを示す図である。図９のニューラルネットワークシステム９００では、エンコーダ側では、分岐されたルーマチャネルとクロマチャネルが、１×１畳み込みレイヤ（図８Ａのものと同様）を使用して組み合わされ、その後、ＧＤＮ非線形演算子が適用される。図１０のニューラルネットワークシステム１０００では、エンコーダ側では、分岐されたルーマチャネルとクロマチャネルが１×１畳み込みレイヤ（図８Ａのものと同様）を使用して組み合わされ、次に、ＰＲｅＬＵ非線形演算子が適用される。一例では、ＶＡＥ_resとＶＡＥ_intraの両方が、図９に示す変形を使用することができる。別の例では、ＶＡＥ_resとＶＡＥ_intraの両方が図１０の変形を使用することができる。別の例では、ＶＡＥ_resは図９の変形を使用することができ、ＶＡＥ_intraは図１０の変形を使用することができる。別の例では、ＶＡＥ_intraは図９の変形を使用することができ、ＶＡＥ_resは図１０の変形を使用することができる。

[0146] 図１１は、ビデオデータを処理するためのプロセス１１００の一例を示す流れ図である。ブロック１１０２において、プロセス１１００は、機械学習システムによって、入力ビデオデータを取得することを含む。入力ビデオデータは、現在のフレーム（たとえば、図７Ａの現在のフレーム（時間ｔにおける）のルーマ成分

）の少なくとも１つのルミナンス成分を含む。場合によっては、入力ビデオデータは、以前に復元されたフレームの少なくとも１つのルミナンス成分（たとえば、図７Ａの前のフレーム（時間ｔ－１における）の復元されたルーマ成分

）を含み、少なくとも１つの復元されたルミナンス成分と呼ぶことができる。いくつかの態様では、現在のフレームはビデオフレームを含む。場合によっては、１つまたは複数のクロミナンス成分は、少なくとも１つのクロミナンス青成分と、少なくとも１つのクロミナンス赤成分とを含む。いくつかの態様では、現在のフレームは、ルミナンス－クロミナンス（ＹＵＶ）フォーマットを有する。場合によっては、ＹＵＶフォーマットはＹＵＶ４：２：０フォーマットである。

[0147] ブロック１１０４で、プロセスは、機械学習システムによって、現在のフレームの少なくとも１つのルミナンス成分を使用して、現在のフレームの少なくとも１つのルミナンス成分の動き情報と、現在のフレームの１つまたは複数のクロミナンス成分の動き情報とを決定することを含む。いくつかの態様では、プロセス１１００は、現在のフレームの少なくとも１つのルミナンス成分および前のフレームの少なくとも１つの復元されたルーマ成分に基づいて、現在のフレームの少なくとも１つのルミナンス成分の動き情報を決定することを含み得る。場合によっては、プロセス１１００は、現在のフレームの少なくとも１つのルミナンス成分について決定された動き情報を使用して、現在のフレームの１つまたは複数のクロミナンス成分の動き情報を決定することをさらに含むことができる。場合によっては、現在のフレームの１つまたは複数のクロミナンス成分の動き情報は、機械学習システムの畳み込みレイヤを使用して決定される。たとえば、説明的な例として図７Ａを参照すると、フローエンジン７１８は、現在のフレーム

と以前に復元されたフレーム

の両方のルーマ成分を使用して、現在のフレーム

のルーマ動き情報（たとえば、ＳＳＦｆ^L）とクロマ動き情報（たとえば、ＳＳＦｆ^C）とを推定することができる。上述のように、クロマ動き情報（たとえば、ｆ^C）７３１は、畳み込みレイヤ７３０を使用して、ルーマ動き情報（たとえば、ｆ^L）７２９に基づいて導出され得る。場合によっては、現在のフレームの１つまたは複数のクロミナンス成分の動き情報は、現在のフレームの少なくとも１つのルミナンス成分について決定された動き情報をサンプリングすることによって少なくとも部分的に決定される。

[0148] いくつかの態様では、プロセス１１００は、現在のフレームの少なくとも１つのルミナンス成分の動き情報と現在のフレームの１つまたは複数のクロミナンス成分の動き情報とを使用する機械学習システムによって、現在のフレームの少なくとも１つのルミナンス成分のワーピングパラメータと、現在のフレームの１つまたは複数のクロミナンス成分の１つまたは複数のワーピングパラメータとを決定することを含む。いくつかの態様では、現在のフレームの少なくとも１つのルミナンス成分のワーピングパラメータおよび現在のフレームの１つまたは複数のクロミナンス成分の１つまたは複数のワーピングパラメータは、空間スケールフロー（ＳＳＦ）ワーピングパラメータを含む。場合によっては、空間スケールフロー（ＳＳＦ）ワーピングパラメータは、学習したスケールフローベクトルを含む。説明的な例として図６を参照すると、ワーピングパラメータは、動きまたは変位ベクトルの（ｘ方向の）水平成分を表す

と、動きまたは変位ベクトルの（ｙ方向の）垂直成分を表す

と、空間的な動き／変位情報（ｖ_xおよびｖ_y）と結合された復元されたフレームの段階的に平滑化されたバージョンを表すｓ（スケールフィールドと呼ばれる）とを含むことができる。

[0149] プロセス１１００は、現在のフレームの少なくとも１つのルミナンス成分のワーピングパラメータと、現在のフレームの１つまたは複数のクロミナンス成分の１つまたは複数のワーピングパラメータとを使用して、現在のフレームの１つまたは複数のインターフレーム予測（たとえば、図６の予測子Ｐ_Y、Ｐ_U、およびＰ_V）を決定することをさらに含むことができる。場合によっては、１つまたは複数のインターフレーム予測は、現在のフレームの少なくとも１つのルミナンス成分のワーピングパラメータと、現在のフレームの１つまたは複数のクロミナンス成分の１つまたは複数のワーピングパラメータとを使用する補間演算を適用することによって、少なくとも部分的に決定される。１つの例示的な例では、補間演算は、トリリニア補間演算を含む。

[0150] いくつかの例では、本明細書で説明されるプロセスは、図１１に示されるコンピューティングデバイスアーキテクチャ１２００を有するコンピューティングデバイスなどのコンピューティングデバイスまたは装置によって実行され得る。一例では、１つまたは複数のプロセスは、コンピューティングデバイスアーキテクチャ１２００を有するコンピューティングデバイスによって実行され得、図６に示すニューラルネットワークアーキテクチャおよび／または図７Ａ、図７Ｂ、図８Ａ、図９、および／または図１０に示されるニューラルネットワークアーキテクチャのうちの任意の１つまたは複数を実装する。いくつかの例では、コンピューティングデバイスは、モバイルデバイス（たとえば、携帯電話、タブレットコンピューティングデバイスなど）、ウェアラブルデバイス、エクステンデッドリアリティデバイス（たとえば、仮想現実（ＶＲ）デバイス、拡張現実（ＡＲ）デバイス、もしくは複合現実（ＭＲ）デバイス）、パーソナルコンピュータ、ラップトップコンピュータ、ビデオサーバ、テレビジョン、車両（もしくは車両のコンピューティングデバイス）、ロボティックデバイス、ならびに／または、本明細書に記載されたプロセスを実行するリソース能力を有する任意の他のコンピューティングデバイスを含むか、またはその一部であることができる。

[0151] 場合によっては、コンピューティングデバイスまたは装置は、１つもしくは複数の入力デバイス、１つもしくは複数の出力デバイス、１つもしくは複数のプロセッサ、１つもしくは複数のマイクロプロセッサ、１つもしくは複数のマイクロコンピュータ、１つもしくは複数の送信機、受信機、もしくは（たとえば、トランシーバと呼ばれる）組み合わされた送信機－受信機、１つもしくは複数のカメラ、１つもしくは複数のセンサ、および／または本明細書に記載されたプロセスのステップを実行するように構成された他の構成要素などの様々な構成要素を含む場合がある。いくつかの例では、コンピューティングデバイスは、ディスプレイ、データを通信および／もしくは受信するように構成されたネットワークインターフェース、それらの任意の組合せ、ならびに／または他の構成要素を含む場合がある。ネットワークインターフェースは、インターネットプロトコル（ＩＰ）ベースのデータまたは他のタイプのデータを通信および／または受信するように構成される場合がある。

[0152] コンピューティングデバイスの構成要素は、回路内に実装され得る。たとえば、構成要素は、本明細書に記載された様々な動作を実行するために、１つまたは複数のプログラマブル電子回路（たとえば、マイクロプロセッサ、グラフィックス処理装置（ＧＰＵ）、デジタル信号プロセッサ（ＤＳＰ）、中央処理装置（ＣＰＵ）、ニューラル処理装置（ＮＰＵ）、および／または他の適切な電子回路）を含むことができる、電子回路もしくは他の電子ハードウェアを含むことができ、および／またはそれらを使用して実装され得、ならびに／あるいは、コンピュータソフトウェア、ファームウェア、もしくはそれらの任意の組合せを含むことができ、および／またはそれらを使用して実装され得る。

[0153] 本明細書に記載されたプロセスは論理流れ図として示されることができ、それらの動作は、ハードウェア、コンピュータ命令、またはそれらの組合せにおいて実施され得る動作のシーケンスを表す。コンピュータ命令のコンテキストでは、動作は、１つまたは複数のプロセッサによって実行されたとき、列挙された動作を実行する、１つまたは複数のコンピュータ可読記憶媒体に記憶されたコンピュータ実行可能命令を表す。概して、コンピュータ実行可能命令は、特定の機能を実行するか、または特定のデータタイプを実装する、ルーチン、プログラム、オブジェクト、構成要素、データ構造などを含む。動作が記載される順序は限定として解釈されるものではなく、任意の数の記載された動作は、プロセスを実装するために任意の順序で、および／または並行して組み合わされ得る。

[0154] さらに、本明細書に記載されたプロセスは、実行可能命令で構成された１つまたは複数のコンピュータシステムの制御下で実行される場合があり、１つまたは複数のプロセッサ上で、ハードウェアによって、またはそれらの組合せで一括して実行するコード（たとえば、実行可能命令、１つもしくは複数のコンピュータプログラム、または１つもしくは複数のアプリケーション）として実装される場合がある。上述されたように、コードは、たとえば、１つまたは複数のプロセッサによって実行可能な複数の命令を備えるコンピュータプログラムの形態で、コンピュータ可読記憶媒体または機械可読記憶媒体に記憶される場合がある。コンピュータ可読記憶媒体または機械可読記憶媒体は、非一時的であり得る。

[0155] 図１２は、本明細書に記載された様々な技法を実装することができる例示的なコンピューティングデバイスの例示的なコンピューティングデバイスアーキテクチャ１２００を示す。いくつかの例では、コンピューティングデバイスは、モバイルデバイス、ウェアラブルデバイス、エクステンデッドリアリティデバイス（たとえば、仮想現実（ＶＲ）デバイス、拡張現実（ＡＲ）デバイス、もしくは複合現実（ＭＲ）デバイス）、パーソナルコンピュータ、ラップトップコンピュータ、ビデオサーバ、車両（もしくは車両のコンピューティングデバイス）、または他のデバイスを含むことができる。たとえば、コンピューティングデバイスアーキテクチャ１２００は、図６のシステムを実装することができる。コンピューティングデバイスアーキテクチャ１２００の構成要素は、バスなどの接続１２０５を使用して互いに電気通信しているように図示されている。例示的なコンピューティングデバイスアーキテクチャ１２００は、処理ユニット（ＣＰＵまたはプロセッサ）１２１０と、読取り専用メモリ（ＲＯＭ）１２２０およびランダムアクセスメモリ（ＲＡＭ）１２２５などのコンピューティングデバイスメモリ１２１５を含む様々なコンピューティングデバイス構成要素をプロセッサ１２１０に結合するコンピューティングデバイス接続１２０５とを含む。

[0156] コンピューティングデバイスアーキテクチャ１２００は、プロセッサ１２１０と直接接続された、プロセッサ１２１０に極めて近接した、またはプロセッサ１２１０の一部として統合された高速メモリのキャッシュを含むことができる。コンピューティングデバイスアーキテクチャ１２００は、プロセッサ１２１０による迅速なアクセスのために、メモリ１２１５および／またはストレージデバイス１２３０からキャッシュ１２１２にデータをコピーすることができる。このようにして、キャッシュは、データを待つ間のプロセッサ１２１０の遅延を回避する性能の向上を提供することができる。これらおよび他のモジュールは、様々なアクションを実行するためにプロセッサ１２１０を制御することができるか、またはプロセッサ１２１０を制御するように構成され得る。他のコンピューティングデバイスメモリ１２１５も、使用のために利用可能であり得る。メモリ１２１５は、異なる性能特性を有する複数の異なるタイプのメモリを含むことができる。プロセッサ１２１０は、任意の汎用プロセッサ、プロセッサ１２１０を制御するように構成された、ストレージデバイス１２３０に記憶されたサービス１１２３２、サービス２１２３４、およびサービス３１２３６などのハードウェアまたはソフトウェアサービス、ならびにソフトウェア命令がプロセッサ設計に組み込まれる専用プロセッサを含むことができる。プロセッサ１２１０は、複数のコアまたはプロセッサ、バス、メモリコントローラ、キャッシュなどを含んでいる自給式システムであり得る。マルチコアプロセッサは、対称であっても、非対称であってもよい。

[0157] コンピューティングデバイスアーキテクチャ１２００とのユーザ対話を可能にするために、入力デバイス１２４５は、音声用のマイクロフォン、ジェスチャまたはグラフィカル入力用のタッチ式スクリーン、キーボード、マウス、動き入力、音声などの、任意の数の入力機構を表すことができる。出力デバイス１２３５も、ディスプレイ、プロジェクタ、テレビジョン、スピーカデバイスなどの、当業者に知られたいくつかの出力機構のうちの１つまたは複数であり得る。いくつかの事例では、マルチモーダルコンピューティングデバイスは、ユーザがコンピューティングデバイスアーキテクチャ１２００と通信するために複数のタイプの入力を提供することを可能にすることができる。通信インターフェース１２４０は、概して、ユーザ入力とコンピューティングデバイス出力とを統制および管理することができる。任意の特定のハードウェア構成上で動作することに対する制限はなく、したがって、本明細書での基本的な特徴は、改善されたハードウェア構成またはファームウェア構成が開発されるにつれて、それらで容易に代用されてもよい。

[0158] ストレージデバイス１２３０は不揮発性メモリであり、磁気カセット、フラッシュメモリカード、ソリッドステートメモリデバイス、デジタル多用途ディスク、カートリッジ、ランダムアクセスメモリ（ＲＡＭ）１２２５、読取り専用メモリ（ＲＯＭ）１２２０、およびそれらのハイブリッドなどの、コンピュータによってアクセス可能なデータを記憶することができる、ハードディスクまたは他のタイプのコンピュータ可読媒体であり得る。ストレージデバイス１２３０は、プロセッサ１２１０を制御するためのサービス１２３２、１２３４、１２３６を含むことができる。他のハードウェアモジュールまたはソフトウェアモジュールが考えられる。ストレージデバイス１２３０は、コンピューティングデバイス接続１２０５に接続され得る。一態様では、特定の機能を実行するハードウェアモジュールは、その機能を実行するために、プロセッサ１２１０、接続１２０５、出力デバイス１２３５などの必要なハードウェア構成要素とともに、コンピュータ可読媒体に記憶されたソフトウェア構成要素を含むことができる。

[0159] 本開示の態様は、１つまたは複数のアクティブ深度検知システムを含むか、またはそれに結合された（セキュリティシステム、スマートフォン、タブレット、ラップトップコンピュータ、車両、ドローン、または他のデバイスなどの）任意の適切な電子デバイスに適用可能である。１つの光プロジェクタを有するか、またはそれに結合されたデバイスに関して以下に記載されるが、本開示の態様は、任意の数の光プロジェクタを有するデバイスに適用可能であり、したがって、特定のデバイスに限定されない。

[0160] 「デバイス」という用語は、（１つのスマートフォン、１つのコントローラ、１つの処理システムなどの）１つまたは特定の数の物理オブジェクトに限定されない。本明細書で使用されるデバイスは、本開示の少なくともいくつかの部分を実装することができる１つまたは複数の部分を有する任意の電子デバイスであり得る。以下の説明および例は、本開示の様々な態様を記載するために「デバイス」という用語を使用するが、「デバイス」という用語は、特定の構成、タイプ、またはオブジェクトの数に限定されない。さらに、「システム」という用語は、複数の構成要素または特定の実施形態に限定されない。たとえば、システムは、１つまたは複数のプリント回路基板または他の基板上に実装される場合があり、可動または静的な構成要素を有する場合がある。以下の説明および例は、本開示の様々な態様を記載するために「システム」という用語を使用するが、「システム」という用語は、特定の構成、タイプ、またはオブジェクトの数に限定されない。

[0161] 本明細書で提供される実施形態および例の完全な理解を提供するために、上記の説明で具体的な詳細が提供されている。しかしながら、実施形態はこれらの具体的な詳細なしに実践され得ることが当業者によって理解されよう。説明を明確にするために、いくつかの事例では、本技術は、デバイス、デバイス構成要素、ソフトウェアで具現された方法におけるステップもしくはルーチン、またはハードウェアとソフトウェアの組合せを備える機能ブロックを含む、個々の機能ブロックを含むものとして提示される場合がある。図に示された、および／または本明細書に記載された構成要素以外のさらなる構成要素が使用されてもよい。たとえば、回路、システム、ネットワーク、プロセス、および他の構成要素は、不要な詳細で実施形態を不明瞭にしないためにブロック図の形態で構成要素として示される場合がある。他の事例では、実施形態を不明瞭にすることを回避するために、よく知られている回路、プロセス、アルゴリズム、構造、および技法は、不要な詳細なしに示される場合がある。

[0162] 個々の実施形態は、フローチャート、流れ図、データフロー図、構造図、またはブロック図として描写されたプロセスまたは方法として上述されている場合がある。フローチャートは動作を逐次プロセスとして記載する場合があるが、動作の多くは並行してまたは同時に実行され得る。加えて、動作の順序は並べ替えられてもよい。プロセスの動作が完了したときにプロセスは終了するが、図に含まれない追加のステップを有する可能性がある。プロセスは、方法、関数、プロシージャ、サブルーチン、サブプログラムなどに対応することができる。プロセスが関数に対応するとき、その終了は、呼出し関数またはメイン関数への関数のリターンに対応することができる。

[0163] 上述された例によるプロセスおよび方法は、記憶されるかまたはさもなければコンピュータ可読媒体から利用可能であるコンピュータ実行可能命令を使用して実装され得る。そのような命令は、たとえば、汎用コンピュータ、専用コンピュータ、または処理デバイスにある機能または機能のグループを実行させるか、またはさもなければそれらを実行するように構成する、命令とデータとを含むことができる。使用されるコンピュータリソースの部分は、ネットワークを介してアクセス可能であり得る。コンピュータ実行可能命令は、たとえば、バイナリ、アセンブリ言語などの中間フォーマット命令、ファームウェア、ソースコードなどであり得る。

[0164] 「コンピュータ可読媒体」という用語は、限定はしないが、ポータブルまたは非ポータブルのストレージデバイス、光ストレージデバイス、ならびに命令および／またはデータを記憶、含有、または搬送することが可能な様々な他の媒体を含む。コンピュータ可読媒体は、データがそこに記憶され得、ワイヤレスに、または有線接続を介して伝搬する搬送波および／または一時的電子信号を含まない非一時的媒体を含む場合がある。非一時的媒体の例には、限定はしないが、とりわけ、磁気ディスクまたは磁気テープ、フラッシュメモリなどの光記憶媒体、メモリまたはメモリデバイス、磁気ディスクまたは光学ディスク、フラッシュメモリ、不揮発性メモリを備えたＵＳＢデバイス、ネットワーク接続されたストレージデバイス、コンパクトディスク（ＣＤ）またはデジタル多用途ディスク（ＤＶＤ）、それらの任意の適切な組合せが含まれ得る。コンピュータ可読媒体は、プロシージャ、関数、サブプログラム、プログラム、ルーチン、サブルーチン、モジュール、ソフトウェアパッケージ、クラス、または命令、データ構造、もしくはプログラムステートメントの任意の組合せを表すことができるコードおよび／または機械実行可能命令をその上に記憶している場合がある。コードセグメントは、情報、データ、引数、パラメータ、またはメモリコンテンツをパスおよび／または受信することにより、別のコードセグメントまたはハードウェア回路に結合される場合がある。情報、引数、パラメータ、データなどは、メモリ共有、メッセージパッシング、トークンパッシング、ネットワーク送信などを含む、任意の適切な手段を介してパス、転送、または送信される場合がある。

[0165] いくつかの実施形態では、コンピュータ可読記憶デバイス、媒体、およびメモリは、ビットストリームなどを含んでいるケーブルまたはワイヤレス信号を含むことができる。しかしながら、述べられるとき、非一時的コンピュータ可読記憶媒体は、エネルギー、キャリア信号、電磁波、および信号自体などの媒体を明確に除外する。

[0166] これらの開示によるプロセスおよび方法を実装するデバイスは、ハードウェア、ソフトウェア、ファームウェア、ミドルウェア、マイクロコード、ハードウェア記述言語、またはそれらの任意の組合せを含むことができ、様々なフォームファクタのいずれかをとることができる。ソフトウェア、ファームウェア、ミドルウェア、またはマイクロコードに実装されると、必要なタスクを実行するためのプログラムコードまたはコードセグメント（たとえば、コンピュータプログラム製品）は、コンピュータ可読媒体または機械可読媒体に記憶される場合がある。プロセッサが必要なタスクを実行することができる。フォームファクタの典型的な例には、ラップトップ、スマートフォン、携帯電話、タブレットデバイス、または他のスモールフォームファクタパーソナルコンピュータ、携帯情報端末、ラックマウントデバイス、スタンドアロンデバイスなどが含まれる。本明細書に記載された機能はまた、周辺機器またはアドインカード内で具現化され得る。そのような機能はまた、さらなる例として、単一のデバイス内で実行する異なるチップまたは異なるプロセスの間の回路基板上に実装され得る。

[0167] 命令、そのような命令を伝達するための媒体、それらを実行するためのコンピューティングリソース、およびそのようなコンピューティングリソースをサポートするための他の構造は、本開示に記載された機能を提供するための例示的な手段である。

[0168] 上記の説明では、本出願の態様がその特定の実施形態を参照して記載されているが、本出願はそれに限定されないことを当業者は認識されよう。したがって、本出願の例示的な実施形態が本明細書で詳細に記載されているが、従来技術によって限定される場合を除き、本発明の概念は、場合によっては様々に具現化および採用される場合があり、添付の特許請求の範囲は、そのような変形形態を含むように解釈されるものであることを理解されたい。上述された適用例の様々な特徴および態様は、個々にまたは一緒に使用されてもよい。さらに、実施形態は、本明細書のより広い趣旨および範囲から逸脱することなく、本明細書に記載されたもの以外に、任意の数の環境および適用例において利用され得る。したがって、本明細書および図面は、限定的ではなく例示的と見なされるべきである。説明の目的で、方法は特定の順序で記載された。代替の実施形態では、方法は、記載された順序とは異なる順序で実行されてもよいことを諒解されたい。

[0169] 本明細書で使用される、より小さい（「＜」）およびより大きい（「＞」）というシンボルまたは用語は、本明細書の範囲から逸脱することなく、それぞれ、より小さいかまたはそれに等しい（「≦」）およびより大きいかまたはそれに等しい（「≧」）というシンボルと置き換えられ得ることを当業者は諒解されよう。

[0170] 構成要素が特定の動作を実行する「ように構成される」ものとして記載される場合、そのような構成は、たとえば、その動作を実行するように電子回路もしくは他のハードウェアを設計することにより、その動作を実行するようにプログラム可能な電子回路（たとえば、マイクロプロセッサ、もしくは他の適切な電子回路）をプログラムすることにより、またはそれらの任意の組合せで達成され得る。

[0171] 「に結合された」という句は、直接的または間接的のいずれかで別の構成要素に物理的に接続された任意の構成要素、ならびに／あるいは直接的または間接的のいずれかで別の構成要素と通信している（たとえば、有線もしくはワイヤレス接続、および／または他の適切な通信インターフェースを介して他の構成要素に接続された）任意の構成要素を指す。

[0172] セット「のうちの少なくとも１つ」、および／またはセットのうちの「１つもしくは複数」を列挙するクレームの文言または他の文言は、（任意の組合せの）セットのうちの１つのメンバーまたはセットのうちの複数のメンバーがクレームを満たすことを示す。たとえば、「ＡおよびＢのうちの少なくとも１つ」または「ＡもしくはＢのうちの少なくとも１つ」を列挙するクレームの文言は、Ａ、Ｂ、またはＡおよびＢを意味する。別の例では、「Ａ、Ｂ、およびＣのうちの少なくとも１つ」または「Ａ、Ｂ、もしくはＣのうちの少なくとも１つ」を列挙するクレームの文言は、Ａ、Ｂ、Ｃ、またはＡおよびＢ、またはＡおよびＣ、またはＢおよびＣ、またはＡおよびＢおよびＣを意味する。セットの「うちの少なくとも１つ」および／またはセットのうちの「１つもしくは複数」という文言は、セット内に列挙された項目にそのセットを限定しない。たとえば、「ＡおよびＢのうちの少なくとも１つ」または「ＡもしくはＢのうちの少なくとも１つ」を列挙するクレームの文言は、Ａ、Ｂ、またはＡおよびＢを意味することができ、さらに、ＡおよびＢのセット内に列挙されていない項目を含むことができる。

[0173] 本明細書に開示された実施形態に関して記載された様々な例示的な論理ブロック、モジュール、回路、およびアルゴリズムステップは、電子ハードウェア、コンピュータソフトウェア、ファームウェア、またはそれらの組合せとして実装される場合がある。ハードウェアとソフトウェアのこの互換性を明確に示すために、様々な例示的な構成要素、ブロック、モジュール、回路、およびステップが、概してそれらの機能に関して上述されている。そのような機能がハードウェアとして実装されるか、ソフトウェアとして実装されるかは、特定の適用例および全体的なシステムに課された設計制約に依存する。当業者は、記載された機能を特定の適用例ごとに様々な方法で実装することができるが、そのような実装の決定は、本出願の範囲からの逸脱を生じるものと解釈されるべきではない。

[0174] 本明細書に記載された技法はまた、電子ハードウェア、コンピュータソフトウェア、ファームウェア、またはそれらの任意の組合せで実装される場合がある。そのような技法は、汎用コンピュータ、ワイヤレス通信デバイスハンドセット、またはワイヤレス通信デバイスハンドセットおよび他のデバイス内のアプリケーションを含む複数の用途を有する集積回路デバイスなどの様々なデバイスのいずれかに実装される場合がある。モジュールまたは構成要素として記載された任意の特徴は、集積論理デバイスに一緒に、または個別であるが相互運用可能な論理デバイスとして別個に実装される場合がある。ソフトウェアに実装された場合、技法は、実行されると、上述された方法のうちの１つまたは複数を実行する命令を含むプログラムコードを備えるコンピュータ可読データ記憶媒体によって少なくとも部分的に実現される場合がある。コンピュータ可読データ記憶媒体は、パッケージング材料を含む場合があるコンピュータプログラム製品の一部を形成することができる。コンピュータ可読媒体は、同期型ダイナミックランダムアクセスメモリ（ＳＤＲＡＭ）などのランダムアクセスメモリ（ＲＡＭ）、読取り専用メモリ（ＲＯＭ）、不揮発性ランダムアクセスメモリ（ＮＶＲＡＭ）、電気的消去可能プログラマブル読取り専用メモリ（ＥＥＰＲＯＭ（登録商標））、ＦＬＡＳＨ（登録商標）メモリ、磁気または光学データ記憶媒体などのメモリまたはデータ記憶媒体を備えることができる。技法は、追加または代替として、伝搬信号または電波などの、命令またはデータ構造の形式でプログラムコードを搬送または通信し、コンピュータによってアクセスされ、読み取られ、および／または実行され得るコンピュータ可読通信媒体によって少なくとも部分的に実現される場合がある。

[0175] プログラムコードは、１つまたは複数のデジタル信号プロセッサ（ＤＳＰ）、汎用マイクロプロセッサ、特定用途向け集積回路（ＡＳＩＣ）、フィールドプログラマブル論理アレイ（ＦＰＧＡ）、または他の等価な集積論理回路もしくはディスクリート論理回路などの、１つまたは複数のプロセッサを含む場合があるプロセッサによって実行される場合がある。そのようなプロセッサは、本開示に記載された技法のうちのいずれかを実行するように構成される場合がある。汎用プロセッサはマイクロプロセッサであり得るが、代替として、プロセッサは、任意の従来のプロセッサ、コントローラ、マイクロコントローラ、または状態機械であり得る。プロセッサはまた、コンピューティングデバイスの組合せ、たとえば、ＤＳＰとマイクロプロセッサの組合せ、複数のマイクロプロセッサ、ＤＳＰコアと連携する１つもしくは複数のマイクロプロセッサ、または任意の他のそのような構成として実装される場合がある。したがって、本明細書で使用される「プロセッサ」という用語は、上記の構造、上記の構造の任意の組合せ、または本明細書に記載された技法の実装に適切な任意の他の構造もしくは装置のいずれかを指すことができる。

[0176] 本開示の例示的な例には、以下が含まれる。

[0177] 態様１：ビデオデータを処理する方法であって、機械学習システムによって、現在のフレームの少なくとも１つのルミナンス成分を含む入力ビデオデータを取得することと、機械学習システムによって、現在のフレームの少なくとも１つのルミナンス成分を使用して、現在のフレームの少なくとも１つのルミナンス成分の動き情報と、現在のフレームの１つまたは複数のクロミナンス成分の動き情報とを決定することと、を備える、方法。

[0178] 態様２：現在のフレームの少なくとも１つのルミナンス成分の動き情報と現在のフレームの１つまたは複数のクロミナンス成分の動き情報とを使用する機械学習システムによって、現在のフレームの少なくとも１つのルミナンス成分のワーピングパラメータと、現在のフレームの１つまたは複数のクロミナンス成分の１つまたは複数のワーピングパラメータとを決定することと、現在のフレームの少なくとも１つのルミナンス成分のワーピングパラメータと、現在のフレームの１つまたは複数のクロミナンス成分の１つまたは複数のワーピングパラメータとを使用して、現在のフレームの１つまたは複数のインターフレーム予測を決定することと、をさらに備える、態様１に記載の方法。

[0179] 態様３：１つまたは複数のインターフレーム予測は、現在のフレームの少なくとも１つのルミナンス成分のワーピングパラメータと、現在のフレームの１つまたは複数のクロミナンス成分の１つまたは複数のワーピングパラメータとを使用する補間演算を適用することによって少なくとも部分的に決定される、態様２に記載の方法。

[0180] 態様４：補間演算がトリリニア補間演算を含む、態様３に記載の方法。

[0181] 態様５：現在のフレームの少なくとも１つのルミナンス成分のワーピングパラメータと、現在のフレームの１つまたは複数のクロミナンス成分の１つまたは複数のワーピングパラメータは、空間スケールフロー（ＳＳＦ）ワーピングパラメータを含む、態様２から４のいずれか１つに記載の方法。

[0182] 態様６：ＳＳＦワーピングパラメータが、学習されたスケールフローベクトルを含む、態様５に記載の方法。

[0183] 態様７：現在のフレームの少なくとも１つのルミナンス成分を使用して、現在のフレームの少なくとも１つのルミナンス成分の動き情報と、現在のフレームの１つまたは複数のクロミナンス成分の動き情報とを決定することは、現在のフレームの少なくとも１つのルミナンス成分および前のフレームの少なくとも１つの復元されたルーマ成分に基づいて、現在のフレームの少なくとも１つのルミナンス成分の動き情報を決定することと、現在のフレームの少なくとも１つのルミナンス成分について決定された動き情報を使用して、現在のフレームの１つまたは複数のクロミナンス成分の動き情報を決定することと、を含む、態様１から６のいずれか１つに記載の方法。

[0184] 態様８：現在のフレームの１つまたは複数のクロミナンス成分の動き情報は、機械学習システムの畳み込みレイヤを使用して決定される、態様７に記載の方法。

[0185] 態様９：現在のフレームの１つまたは複数のクロミナンス成分の動き情報は、現在のフレームの少なくとも１つのルミナンス成分について決定された動き情報をサンプリングすることによって少なくとも部分的に決定される、態様７に記載の方法。

[0186] 態様１０：現在のフレームがビデオフレームを含む、態様１から９のいずれか１つに記載の方法。

[0187] 態様１１：１つまたは複数のクロミナンス成分が、少なくとも１つのクロミナンス青成分と少なくとも１つのクロミナンス赤成分とを含む、態様１から１０のいずれか１つに記載の方法。

[0188] 態様１２：現在のフレームが、ルミナンス－クロミナンス（ＹＵＶ）フォーマットを有する、態様１から１１のいずれか１つに記載の方法。

[0189] 態様１３：ＹＵＶフォーマットが、ＹＵＶ４：２：０フォーマットである、態様１２に記載の方法。

[0190] 態様１４：ビデオデータを処理するための装置であって、少なくとも１つのメモリと、少なくとも１つのメモリに結合された１つまたは複数のプロセッサと、を備え、１つまたは複数のプロセッサは、機械学習システムを使用して、現在のフレームの少なくとも１つのルミナンス成分を含む入力ビデオデータを取得し、機械学習システムを使用して、現在のフレームの少なくとも１つのルミナンス成分を使用して、現在のフレームの少なくとも１つのルミナンス成分の動き情報と、現在のフレームの１つまたは複数のクロミナンス成分の動き情報とを決定するように構成される、装置。

[0191] 態様１５：１つまたは複数のプロセッサが、現在のフレームの少なくとも１つのルミナンス成分の動き情報および現在のフレームの１つまたは複数のクロミナンス成分の動き情報に基づいて、機械学習システムを使用して、現在のフレームの少なくとも１つのルミナンス成分のワーピングパラメータと現在のフレームの１つまたは複数のクロミナンス成分の１つまたは複数のワーピングパラメータとを決定し、現在のフレームの少なくとも１つのルミナンス成分のワーピングパラメータと、現在のフレームの１つまたは複数のクロミナンス成分の１つまたは複数のワーピングパラメータとを使用して、現在のフレームの１つまたは複数のインターフレーム予測を決定するように構成される、態様１４に記載の装置。

[0192] 態様１６：１つまたは複数のインターフレーム予測は、現在のフレームの少なくとも１つのルミナンス成分のワーピングパラメータと、現在のフレームの１つまたは複数のクロミナンス成分の１つまたは複数のワーピングパラメータとを使用する補間演算を適用することによって少なくとも部分的に決定される、態様１５に記載の装置。

[0193] 態様１７：補間演算が、トリリニア補間演算を含む、態様１６に記載の装置。

[0194] 態様１８：現在のフレームの少なくとも１つのルミナンス成分のワーピングパラメータと、現在のフレームの１つまたは複数のクロミナンス成分の１つまたは複数のワーピングパラメータは、空間スケールフロー（ＳＳＦ）ワーピングパラメータを含む、態様１５から１７のいずれか１つに記載の装置。

[0195] 態様１９：ＳＳＦワーピングパラメータが、学習されたスケールフローベクトルを含む、態様１８に記載の装置。

[0196] 態様２０：現在のフレームの少なくとも１つのルミナンス成分を使用して、現在のフレームの少なくとも１つのルミナンス成分の動き情報と、現在のフレームの１つまたは複数のクロミナンス成分の動き情報とを決定するために、１つまたは複数のプロセッサは、現在のフレームの少なくとも１つのルミナンス成分および前のフレームの少なくとも１つの復元されたルーマ成分に基づいて、現在のフレームの少なくとも１つのルミナンス成分の動き情報を決定し、現在のフレームの少なくとも１つのルミナンス成分について決定された動き情報を使用して、現在のフレームの１つまたは複数のクロミナンス成分の動き情報を決定するように構成される、態様１４から１９のいずれか１つに記載の装置。

[0197] 態様２１：現在のフレームの１つまたは複数のクロミナンス成分の動き情報は、機械学習システムの畳み込みレイヤを使用して決定される、態様２０に記載の装置。

[0198] 態様２２：現在のフレームの１つまたは複数のクロミナンス成分の動き情報を決定するために、１つまたは複数のプロセッサは、現在のフレームの少なくとも１つのルミナンス成分について決定された動き情報をサンプリングするように構成される、態様２０に記載の装置。

[0199] 態様２３：現在のフレームがビデオフレームを含む、態様１４から２２のいずれか１つに記載の装置。

[0200] 態様２４：１つまたは複数のクロミナンス成分が、少なくとも１つのクロミナンス青成分と少なくとも１つのクロミナンス赤成分とを含む、態様１４から２３のいずれか１つに記載の装置。

[0201] 態様２５：現在のフレームがルミナンス－クロミナンス（ＹＵＶ）フォーマットを有する、態様１４から２４に記載の装置。

[0202] 態様２６：ＹＵＶフォーマットが、ＹＵＶ４：２：０フォーマットである、態様２５に記載の装置。

[0203] 態様２７：１つまたは複数のフレームをキャプチャするように構成された少なくとも１つのカメラをさらに備える、態様１４から２６のいずれか１つに記載の装置。

[0204] 態様２８：１つまたは複数のフレームを表示するように構成された少なくとも１つのディスプレイをさらに備える、態様１４から２７のいずれか１つに記載の装置。

[0205] 態様２９：モバイルデバイスを含む、態様１４から２８のいずれか１つに記載の装置。

[0206] 態様３０：実行されると、１つまたは複数のプロセッサに、態様１から２９に記載の動作のいずれかを実行させる命令を記憶する、コンピュータ可読記憶媒体。

[0207] 態様３１：態様１から２９に記載の動作のいずれかを実行するための手段を備える、装置。

Claims

ビデオデータを処理する方法であって、
機械学習システムによって、現在のフレームの少なくとも１つのルミナンス成分を含む入力ビデオデータを取得することと、
前記機械学習システムによって、前記現在のフレームの前記少なくとも１つのルミナンス成分を使用して、前記現在のフレームの前記少なくとも１つのルミナンス成分の動き情報と、前記現在のフレームの１つまたは複数のクロミナンス成分の動き情報とを決定することと、を備える、方法。
前記現在のフレームの前記少なくとも１つのルミナンス成分の前記動き情報と、前記現在のフレームの前記１つまたは複数のクロミナンス成分の前記動き情報とを使用する前記機械学習システムによって、前記現在のフレームの前記少なくとも１つのルミナンス成分のワーピングパラメータと、前記現在のフレームの１つまたは複数のクロミナンス成分の１つまたは複数のワーピングパラメータとを決定することと、
前記現在のフレームの前記少なくとも１つのルミナンス成分の前記ワーピングパラメータと、前記現在のフレームの前記１つまたは複数のクロミナンス成分の前記１つまたは複数のワーピングパラメータとを使用して、前記現在のフレームの１つまたは複数のインターフレーム予測を決定することと、をさらに備える、請求項１に記載の方法。
前記１つまたは複数のインターフレーム予測は、前記現在のフレームの前記少なくとも１つのルミナンス成分の前記ワーピングパラメータと、前記現在のフレームの前記１つまたは複数のクロミナンス成分の前記１つまたは複数のワーピングパラメータとを使用する補間演算を適用することによって少なくとも部分的に決定される、請求項２に記載の方法。
前記補間演算は、トリリニア補間演算を含む、請求項３に記載の方法。
前記現在のフレームの前記少なくとも１つのルミナンス成分の前記ワーピングパラメータと、前記現在のフレームの前記１つまたは複数のクロミナンス成分の前記１つまたは複数のワーピングパラメータとが、空間スケールフロー（ＳＳＦ）ワーピングパラメータを含む、請求項２に記載の方法。
前記ＳＳＦワーピングパラメータは、学習されたスケールフローベクトルを含む、請求項５に記載の方法。
前記現在のフレームの前記少なくとも１つのルミナンス成分を使用して、前記現在のフレームの前記少なくとも１つのルミナンス成分の前記動き情報と、前記現在のフレームの前記１つまたは複数のクロミナンス成分の前記動き情報とを決定することが、
前記現在のフレームの前記少なくとも１つのルミナンス成分および前のフレームの少なくとも１つの復元されたルーマ成分に基づいて、前記現在のフレームの前記少なくとも１つのルミナンス成分の前記動き情報を決定することと、
前記現在のフレームの前記少なくとも１つのルミナンス成分について決定された前記動き情報を使用して、前記現在のフレームの前記１つまたは複数のクロミナンス成分の前記動き情報を決定することと、を含む、請求項１に記載の方法。
前記現在のフレームの前記１つまたは複数のクロミナンス成分の前記動き情報は、前記機械学習システムの畳み込みレイヤを使用して決定される、請求項７に記載の方法。
前記現在のフレームの前記１つまたは複数のクロミナンス成分の前記動き情報は、前記現在のフレームの前記少なくとも１つのルミナンス成分について決定された前記動き情報をサンプリングすることによって少なくとも部分的に決定される、請求項７に記載の方法。
前記現在のフレームはビデオフレームを含む、請求項１に記載の方法。
前記１つまたは複数のクロミナンス成分が、少なくとも１つのクロミナンス青成分と少なくとも１つのクロミナンス赤成分とを含む、請求項１に記載の方法。
前記現在のフレームは、ルミナンス－クロミナンス（ＹＵＶ）フォーマットを有する、請求項１に記載の方法。
前記ＹＵＶフォーマットは、ＹＵＶ４：２：０フォーマットである、請求項１２に記載の方法。
ビデオデータを処理するための装置であって、
少なくとも１つのメモリと、
前記少なくとも１つのメモリに結合された１つまたは複数のプロセッサと、を備え、前記１つまたは複数のプロセッサは、
機械学習システムを使用して、現在のフレームの少なくとも１つのルミナンス成分を含む入力ビデオデータを取得し、
前記機械学習システムを使用して、前記現在のフレームの前記少なくとも１つのルミナンス成分を使用して、前記現在のフレームの前記少なくとも１つのルミナンス成分の動き情報と、前記現在のフレームの１つまたは複数のクロミナンス成分の動き情報とを決定するように構成される、装置。
前記１つまたは複数のプロセッサは、
前記現在のフレームの前記少なくとも１つのルミナンス成分の前記動き情報および前記現在のフレームの前記１つまたは複数のクロミナンス成分の前記動き情報に基づいて前記機械学習システムを使用して、前記現在のフレームの前記少なくとも１つのルミナンス成分のワーピングパラメータと前記現在のフレームの１つまたは複数のクロミナンス成分の１つまたは複数のワーピングパラメータとを決定し、
前記現在のフレームの前記少なくとも１つのルミナンス成分の前記ワーピングパラメータと、前記現在のフレームの前記１つまたは複数のクロミナンス成分の前記１つまたは複数のワーピングパラメータとを使用して、前記現在のフレームの１つまたは複数のインターフレーム予測を決定するように構成される、請求項１４に記載の装置。
前記１つまたは複数のインターフレーム予測は、前記現在のフレームの前記少なくとも１つのルミナンス成分の前記ワーピングパラメータと、前記現在のフレームの前記１つまたは複数のクロミナンス成分の前記１つまたは複数のワーピングパラメータとを使用する補間演算を適用することによって少なくとも部分的に決定される、請求項１５に記載の装置。
前記補間演算は、トリリニア補間演算を含む、請求項１６に記載の装置。
前記現在のフレームの前記少なくとも１つのルミナンス成分の前記ワーピングパラメータと、前記現在のフレームの前記１つまたは複数のクロミナンス成分の前記１つまたは複数のワーピングパラメータとが、空間スケールフロー（ＳＳＦ）ワーピングパラメータを含む、請求項１５に記載の装置。
前記ＳＳＦワーピングパラメータは、学習されたスケールフローベクトルを含む、請求項１８に記載の装置。
前記現在のフレームの前記少なくとも１つのルミナンス成分を使用して、前記現在のフレームの前記少なくとも１つのルミナンス成分の前記動き情報と、前記現在のフレームの前記１つまたは複数のクロミナンス成分の前記動き情報とを決定するために、前記１つまたは複数のプロセッサは、
前記現在のフレームの前記少なくとも１つのルミナンス成分および前のフレームの少なくとも１つの復元されたルーマ成分に基づいて、前記現在のフレームの前記少なくとも１つのルミナンス成分の前記動き情報を決定し、
前記現在のフレームの前記少なくとも１つのルミナンス成分について決定された前記動き情報を使用して、前記現在のフレームの前記１つまたは複数のクロミナンス成分の前記動き情報を決定するように構成される、請求項１４に記載の装置。
前記現在のフレームの前記１つまたは複数のクロミナンス成分の前記動き情報は、前記機械学習システムの畳み込みレイヤを使用して決定される、請求項２０に記載の装置。
前記現在のフレームの前記１つまたは複数のクロミナンス成分の前記動き情報を決定するために、前記１つまたは複数のプロセッサは、前記現在のフレームの前記少なくとも１つのルミナンス成分について決定された前記動き情報をサンプリングするように構成される、請求項２０に記載の装置。
前記現在のフレームはビデオフレームを含む、請求項１４に記載の装置。
前記１つまたは複数のクロミナンス成分は、少なくとも１つのクロミナンス青成分と少なくとも１つのクロミナンス赤成分とを含む、請求項１４に記載の装置。
前記現在のフレームは、ルミナンス－クロミナンス（ＹＵＶ）フォーマットを有する、請求項１４に記載の装置。
前記ＹＵＶフォーマットは、ＹＵＶ４：２：０フォーマットである、請求項２５に記載の装置。
１つまたは複数のフレームをキャプチャするように構成された少なくとも１つのカメラをさらに備える、請求項１４に記載の装置。
１つまたは複数のフレームを表示するように構成された少なくとも１つのディスプレイをさらに備える、請求項１４に記載の装置。
モバイルデバイスを含む、請求項１４に記載の装置。
１つまたは複数のプロセッサによって実行されると、前記１つまたは複数のプロセッサに、
機械学習システムを使用して、現在のフレームの少なくとも１つのルミナンス成分を含む入力ビデオデータを取得することと、
前記機械学習システムを使用して、前記現在のフレームの前記少なくとも１つのルミナンス成分を使用して、前記現在のフレームの前記少なくとも１つのルミナンス成分の動き情報と、前記現在のフレームの１つまたは複数のクロミナンス成分の動き情報とを決定することと、を行わせる命令を記憶した、非一時的コンピュータ可読媒体。