JP2024519791A

JP2024519791A - 機械学習システムを使用する暗黙的画像およびビデオ圧縮

Info

Publication number: JP2024519791A
Application number: JP2023570426A
Authority: JP
Inventors: ジャン、インファン; バン・ロゼンダール、ティース・ジャン; コーエン、タコ・セバスティアーン; ナーゲル、マルクス; ブレーマー、ヨハン・ヒンリッヒ
Original assignee: Qualcomm Inc
Current assignee: Qualcomm Inc
Priority date: 2021-05-21
Filing date: 2022-03-31
Publication date: 2024-05-21
Also published as: KR20240012374A; BR112023023427A2; TW202247650A; US20220385907A1; WO2022245434A1; EP4342178A1

Abstract

機械学習システムを使用してデータを圧縮および展開するための技法が説明される。例示的なプロセスが、ニューラルネットワーク圧縮システムによる圧縮のための複数の画像を受信することを含むことができる。プロセスは、複数の画像からの第１の画像に基づいて、ニューラルネットワーク圧縮システムの第１のモデルに関連付けられた第１の複数の重み値を決定することを含むことができる。プロセスは、第１の複数の重み値の圧縮バージョンを備える第１のビットストリームを生成することを含むことができる。プロセスは、受信機への送信のために第１のビットストリームを出力することを含むことができる。

Description

[0001] 本開示は、一般にデータ圧縮（data compression）に関する。たとえば、本開示の態様は、画像（image）および／またはビデオコンテンツ（video content）を圧縮するために機械学習システム（machine learning system）を使用することを含む。

[0002] 多くのデバイスおよびシステムは、メディアデータ（media data）（たとえば、画像データ、ビデオデータ、オーディオデータなど）が消費のために処理され、出力されることを可能にする。メディアデータは、画像／ビデオ／オーディオ品質、性能、および特徴の増加する需要を満たすための大量のデータを含む。たとえば、ビデオデータの消費者は、一般に、高い忠実度、解像度、フレームレートなどをもつ高品質ビデオを望む。これらの需要を満たすためにしばしば必要とされる大量のビデオデータは、ビデオデータを処理し、記憶する通信ネットワークおよびデバイスに、かなりの負担をかける。ビデオコーディング技法が、ビデオデータを圧縮するために使用され得る。ビデオコーディングの１つの例示的な目標は、ビデオ品質の劣化を回避するかまたは最小限に抑えながら、より低いビットレートを使用する形式にビデオデータを圧縮することである。常に発展しつつあるビデオサービスが利用可能になり、大量のビデオデータの需要が増加するとともに、より良い性能および効率をもつコーディング技法が必要とされる。

[0003] いくつかの例では、１つまたは複数の機械学習システムを使用するデータ圧縮および／または展開（data compression and/or decompression ）のためのシステムおよび技法が説明される。いくつかの例では、（たとえば、１つまたは複数のニューラルネットワークシステムを使用する）機械学習システムが、メディアデータ（たとえば、ビデオデータ、画像データ、オーディオデータなど）を圧縮および／または展開するために提供される。少なくとも１つの例示的な例によれば、画像データを処理する方法が提供される。本方法は、ニューラルネットワーク圧縮システム（neural network compression system）による圧縮（compression）のための複数の画像を受信することと、複数の画像からの第１の画像（first image）に基づいて、ニューラルネットワーク圧縮システムの第１のモデル（first model）に関連付けられた第１の複数の重み値（a first plurality of weight values）を決定することと、第１の複数の重み値の圧縮バージョン（compressed version）を備える第１のビットストリーム（first bitstream）を生成することと、受信機（receiver）への送信（transmission）のために第１のビットストリームを出力することとを含み得る。

[0004] 別の例では、少なくとも１つのメモリと、少なくとも１つのメモリに通信可能に結合された（たとえば、回路において構成された）少なくとも１つのプロセッサとを含む、メディアデータを処理するための装置が提供される。少なくとも１つのプロセッサは、ニューラルネットワーク圧縮システムによる圧縮のための複数の画像を受信することと、複数の画像からの第１の画像に基づいて、ニューラルネットワーク圧縮システムの第１のモデルに関連付けられた第１の複数の重み値を決定することと、第１の複数の重み値の圧縮バージョンを備える第１のビットストリームを生成することと、受信機への送信のために第１のビットストリームを出力することとを行うように構成され得る。

[0005] 別の例では、その上に記憶された少なくとも１つの命令を含む非一時的コンピュータ可読媒体が提供され、少なくとも１つの命令は、１つまたは複数のプロセッサによって実行されたとき、１つまたは複数のプロセッサに、ニューラルネットワーク圧縮システムによる圧縮のための複数の画像を受信することと、複数の画像からの第１の画像に基づいて、ニューラルネットワーク圧縮システムの第１のモデルに関連付けられた第１の複数の重み値を決定することと、第１の複数の重み値の圧縮バージョンを備える第１のビットストリームを生成することと、受信機への送信のために第１のビットストリームを出力することとを行わせ得る。

[0006] 別の例では、画像データを処理するための装置が提供される。本装置は、ニューラルネットワーク圧縮システムによる圧縮のための入力データを受信するための手段と、ニューラルネットワーク圧縮システムによる圧縮のための複数の画像を受信するための手段と、複数の画像からの第１の画像に基づいて、ニューラルネットワーク圧縮システムの第１のモデルに関連付けられた第１の複数の重み値を決定するための手段と、第１の複数の重み値の圧縮バージョンを備える第１のビットストリームを生成するための手段と、受信機への送信のために第１のビットストリームを出力するための手段とを含み得る。

[0007] 別の例では、メディアデータを処理するための方法が提供される。本方法は、複数の画像からの第１の画像に関連付けられた第１の複数のニューラルネットワーク重み値の圧縮バージョンを受信することと、第１の複数のニューラルネットワーク重み値（a first plurality of neural network weight values）を展開することと、第１のニューラルネットワークモデル（first neural network model）を使用して、第１の画像を生じるために第１の複数のニューラルネットワーク重み値を処理することとを含み得る。

[0008] 別の例では、少なくとも１つのメモリと、少なくとも１つのメモリに通信可能に結合された（たとえば、回路において構成された）少なくとも１つのプロセッサとを含む、画像データを処理するための装置が提供される。少なくとも１つのプロセッサは、複数の画像からの第１の画像に関連付けられた第１の複数のニューラルネットワーク重み値の圧縮バージョンを受信することと、第１の複数のニューラルネットワーク重み値を展開することと、第１のニューラルネットワークモデルを使用して、第１の画像を生じるために第１の複数のニューラルネットワーク重み値を処理することとを行うように構成され得る。

[0009] 別の例では、その上に記憶された少なくとも１つの命令を含む非一時的コンピュータ可読媒体が提供され、少なくとも１つの命令は、１つまたは複数のプロセッサによって実行されたとき、１つまたは複数のプロセッサに、複数の画像からの第１の画像に関連付けられた第１の複数のニューラルネットワーク重み値の圧縮バージョンを受信することと、第１の複数のニューラルネットワーク重み値を展開することと、第１のニューラルネットワークモデルを使用して、第１の画像を生じるために第１の複数のニューラルネットワーク重み値を処理することとを行わせ得る。

[0010] 別の例では、画像データを処理するための装置が提供される。本装置は、複数の画像からの第１の画像に関連付けられた第１の複数のニューラルネットワーク重み値の圧縮バージョンを受信するための手段と、第１の複数のニューラルネットワーク重み値を展開するための手段と、第１のニューラルネットワークモデルを使用して、第１の画像を生じるために第１の複数のニューラルネットワーク重み値を処理するための手段とを含み得る。

[0011] いくつかの態様では、装置は、カメラ（たとえば、ＩＰカメラ）、モバイルデバイス（たとえば、携帯電話またはいわゆる「スマートフォン」、あるいは他のモバイルデバイス）、スマートウェアラブルデバイス、エクステンデッドリアリティデバイス（たとえば、仮想現実（ＶＲ）デバイス、拡張現実（ＡＲ）デバイス、または複合現実（ＭＲ）デバイス）、パーソナルコンピュータ、ラップトップコンピュータ、サーバコンピュータ、３Ｄスキャナ、マルチカメラシステム、または他のデバイスであり得るか、またはその一部であり得る。いくつかの態様では、装置は、１つまたは複数の画像をキャプチャするための１つまたは複数のカメラを含む。いくつかの態様では、装置は、１つまたは複数の画像、通知、および／または他の表示可能なデータを表示するためのディスプレイをさらに含む。いくつかの態様では、上記で説明された装置は、１つまたは複数のセンサーを含むことができる。

[0012] 本発明の概要は、請求される主題の主要なまたは本質的な特徴を識別することが意図されず、請求される主題の範囲を決定するために独立して使用されることも意図されない。本主題は、本特許の明細書全体、いずれかまたはすべての図面、および各請求項の適切な部分を参照することによって理解されたい。

[0013] 上記のことは、他の特徴および実施形態とともに、以下の明細書、特許請求の範囲、および添付の図面を参照すると、より明らかになろう。

[0014] 本出願の例示的な実施形態は、以下の図面を参照しながら以下で詳細に説明される。

[0015] 本開示のいくつかの例による、画像処理システム（image processing system）の一例を示す図。 [0016] 本開示のいくつかの例による、全結合ニューラルネットワーク（fully-connected neural network）の一例を示す図。 [0017] 本開示のいくつかの例による、局所結合ニューラルネットワーク（locally-connected neural network）の一例を示す図。 [0018] 本開示のいくつかの例による、畳み込みニューラルネットワーク（convolutional neural network）の一例を示す図。 [0019] 本開示のいくつかの例による、画像から視覚特徴（visual feature）を認識するための深層畳み込みネットワーク（ＤＣＮ：deep convolutional network）の一例を示す図。 [0020] 本開示のいくつかの例による、例示的な深層畳み込みネットワーク（ＤＣＮ）を示すブロック図。 [0021] 本開示のいくつかの例による、ビデオコンテンツを圧縮するための送信デバイスと、受信されたビットストリームをビデオコンテンツに展開するための受信デバイスとを含むシステムの一例を示す図。 [0022] 本開示のいくつかの例による、例示的なレートひずみオートエンコーダシステム（rate-distortion autoencoder system）を示す図。本開示のいくつかの例による、例示的なレートひずみオートエンコーダシステムを示す図。 [0023] 本開示のいくつかの例による、モデルプライア（model prior）を使用して微調整される例示的なニューラルネットワーク圧縮システムによって実装される例示的な推論プロセスを示す図。 [0024] 本開示のいくつかの例による、暗黙的ニューラル表現（implicit neural representation）に基づく例示的な画像圧縮コーデック（image compression codec）を示す図。 [0025] 本開示のいくつかの例による、暗黙的ニューラル表現に基づく別の例示的な画像圧縮コーデックを示す図。 [0026] 本開示のいくつかの例による、暗黙的ニューラル表現を使用するピクチャグループのための圧縮パイプライン（compression pipeline）の一例を示す図。 [0027] 本開示のいくつかの例による、暗黙的ニューラル表現を使用するピクチャグループのための圧縮パイプラインの別の例を示す図。 [0028] 本開示のいくつかの例による、暗黙的ニューラル表現を使用するピクチャグループのための圧縮パイプラインの別の例を示す図。 [0029] 本開示のいくつかの例による、ビデオフレーム符号化順序（video frame encoding order）を示す図。 [0030] 本開示のいくつかの例による、暗黙的ニューラル圧縮（implicit neural compression）を実施するための例示的なプロセスを示す図。 [0031] 本開示のいくつかの例による、暗黙的ニューラル表現に基づいて画像データを圧縮するためのプロセスの一例を示すフローチャート。 [0032] 本開示のいくつかの例による、暗黙的ニューラル表現に基づいて画像データを圧縮するためのプロセスの別の例を示すフローチャート。 [0033] 本開示のいくつかの例による、暗黙的ニューラル表現に基づいて画像データを展開するためのプロセスの一例を示すフローチャート。 [0034] 本開示のいくつかの例による、暗黙的ニューラル表現に基づいて画像データを圧縮するためのプロセスの一例を示すフローチャート。 [0035] 本開示のいくつかの例による、暗黙的ニューラル表現に基づいて画像データを展開するためのプロセスの一例を示すフローチャート。 [0036] 本開示のいくつかの例による、例示的なコンピューティングシステムを示す図。

[0037] 本開示のいくつかの態様および実施形態が以下で提供される。当業者に明らかであるように、これらの態様および実施形態のうちのいくつかは独立して適用され得、それらのうちのいくつかは組み合わせて適用され得る。以下の説明では、説明の目的で、本出願の実施形態の完全な理解を提供するために具体的な詳細が記載される。ただし、様々な実施形態は、これらの具体的な詳細なしに実施され得ることが明らかであろう。図および説明は限定するものではない。

[0038] 以下の説明は、例示的な実施形態を提供するにすぎず、本開示の範囲、適用可能性、または構成を限定するものではない。そうではなく、例示的な実施形態の以下の説明は、例示的な実施形態を実装することを可能にする説明を当業者に提供する。添付の特許請求の範囲に記載されるように、本出願の趣旨および範囲から逸脱することなく、要素の機能および構成において様々な変更が行われ得ることを理解されたい。

[0039] 上述のように、メディアデータ（たとえば、画像データ、ビデオデータ、および／またはオーディオデータ）は、特に、高品質ビデオデータに対する需要が成長し続けるにつれて、大量のデータを含むことができる。たとえば、画像、オーディオ、およびビデオデータの消費者は、一般に、高い忠実度、解像度、フレームレートなど、ますます高いレベルの品質を望む。しかしながら、そのような需要を満たすために必要とされる大量のデータは、高帯域幅およびネットワークリソース要件など、通信ネットワークに、およびビデオデータを処理し、記憶するデバイスに、かなりの負担をかけることがある。したがって、画像およびビデオデータの記憶および／または送信のために必要とされるデータの量を低減するための（コーディングアルゴリズムまたはツールとも呼ばれる）圧縮アルゴリズムが有利である。

[0040] メディアデータを圧縮するために、様々な技法が使用され得る。画像データの圧縮は、特に、ジョイントフォトグラフィックエキスパートグループ（ＪＰＥＧ）、ベターポータブルグラフィックス（ＢＰＧ：Better Portable Graphics）などのアルゴリズムを使用して達成された。近年、ニューラルネットワークベース圧縮方法は、画像データを圧縮することにおいて、かなり有望視されている。ビデオコーディングは、特定のビデオコーディング規格に従って実施され得る。例示的なビデオコーディング規格は、高効率ビデオコーディング（ＨＥＶＣ）、エッセンシャルビデオコーディング（ＥＶＣ）、アドバンストビデオコーディング（ＡＶＣ）、ムービングピクチャエキスパートグループ（ＭＰＥＧ）コーディング、および汎用ビデオコーディング（ＶＶＣ）を含む。しかしながら、そのような従来の画像およびビデオコーディング技法は、復号が実施された後に、再構築された画像中にアーティファクトを生じることがある。

[0041] いくつかの態様では、１つまたは複数の機械学習システムを使用して（コーディングと総称される、符号化（encoding）および復号（decoding）とも呼ばれる）データ（たとえば、画像、ビデオ、オーディオなど）圧縮（compression）および展開（decompression）を実施するための（本明細書では「システムおよび技法」と総称される）システム、装置、（方法とも呼ばれる）プロセス、およびコンピュータ可読媒体が、本明細書で説明される。たとえば、システムおよび技法は、暗黙的ニューラルモデル（implicit neural model）を使用して実装され得る。暗黙的ニューラルモデルは、暗黙的ニューラル表現（ＩＮＲ：implicit neural representation）に基づき得る。本明細書で説明されるように、暗黙的ニューラルモデルは、入力として座標位置（たとえば、画像またはビデオフレーム内の座標）をとることができ、ピクセル値（pixel value）（たとえば、各座標位置またはピクセルについての色値など、画像またはビデオフレームについての色値）を出力することができる。いくつかの場合には、暗黙的ニューラルモデルは、ＩＰＢフレーム方式にも基づき得る。いくつかの例では、暗黙的ニューラルモデルは、オプティカルフロー（optical flow）をモデル化するために入力データを修正することができる。

[0042] いくつかの例では、暗黙的ニューラルモデルは、局所変換が要素単位の加算になることがある暗黙的ニューラル表現を用いてオプティカルフローをモデル化することができる。いくつかの場合には、暗黙的モデルは、対応する出力ピクセル値を生じるように入力座標位置を調節することによってオプティカルフローをモデル化することができる。たとえば、入力の要素単位の加算は出力における局所変換につながることがあり、これは、ピクセル移動の必要および関連する計算複雑さをなくすことができる。

[0043] １つまたは複数の機械学習システムは、本明細書で説明されるようにトレーニングされ、画像、ビデオ、および／またはオーディオ圧縮および展開など、データ圧縮および／または展開を実施するために使用され得る。本明細書で説明される機械学習システムは、高品質データ出力を生成する圧縮／展開技法を実施するようにトレーニングされ得る。本明細書で説明されるシステムおよび技法は、任意のタイプのデータの圧縮および／または展開を実施することができる。たとえば、いくつかの場合には、本明細書で説明されるシステムおよび技法は、画像データの圧縮および／または展開を実施することができる。別の例として、いくつかの場合には、本明細書で説明されるシステムおよび技法は、ビデオデータの圧縮および／または展開を実施することができる。本明細書で使用される「画像」および「フレーム」という用語は互換的に使用され、スタンドアロン画像またはフレーム（たとえば、写真）、あるいは（たとえば、ビデオ、または画像／フレームの他のシーケンスを構成する）画像またはフレームのグループまたはシーケンスを指す。別の例として、いくつかの場合には、本明細書で説明されるシステムおよび技法は、オーディオデータの圧縮および／または展開を実施することができる。簡単、例示および説明のために、本明細書で説明されるシステムおよび技法は、画像データ（たとえば、画像またはフレーム、ビデオなど）の圧縮および／または展開に関して説明される。しかしながら、上述のように、本明細書で説明される概念は、オーディオデータおよび任意の他のタイプのデータなど、他のモダリティにも適用され得る。

[0044] エンコーダおよび／またはデコーダによって使用される圧縮モデルは、異なるタイプのデータに一般化可能であり得る。その上、本明細書で説明される様々な特性をもつ暗黙的ニューラルモデルを利用することによって、機械学習システムは、データの特定のセットについての圧縮および／または展開性能、ビットレート、品質、ならびに／あるいは効率を増加させることができる。たとえば、暗黙的ニューラルモデルベース機械学習システムは、受信機側において（および、いくつかの場合には送信機側において）事前トレーニングされたニューラルネットワークを記憶する必要をなくすことができる。送信機および受信機側におけるニューラルネットワークは、軽量フレームワークを用いて実装され得る。そのような機械学習システムの別の利点は、いくつかの場合には（たとえば、ハードウェアにおいて）実装することが困難であり得る、実際の機械学習システム（たとえば、ニューラルネットワーク）によるフロー動作の不在である。さらに、復号関数は、標準的な機械学習ベースコーダデコーダ（コーデック）におけるものよりも速くなり得る。いくつかの場合には、本明細書で説明される暗黙的ニューラルモデルベース機械学習システムは、それが、符号化されるべきであるデータ（たとえば、座標グリッド、および画像、ビデオフレーム、ビデオなどの現在のインスタンス）を使用して暗黙的にトレーニングされ得るので、別個のトレーニングデータセットを必要としない。本明細書で説明される暗黙的ニューラルモデルの構成は、潜在的プライバシー問題の回避にもつながることがある。システムは、好適なトレーニングデータが利用可能でないものを含む、異なるドメインからのデータに対してもうまく機能する。

[0045] いくつかの例では、機械学習システムは、１つまたは複数のニューラルネットワークを含むことができる。機械学習（ＭＬ）は人工知能（ＡＩ）のサブセットである。ＭＬシステムは、明示的な命令を使用せずにパターンおよび推論に依拠することによって様々なタスクを実施するためにコンピュータシステムが使用することができるアルゴリズムおよび統計モデルを含む。ＭＬシステムの一例は、人工ニューロン（たとえば、ニューロンモデル）の相互結合されたグループから構成され得る、（人工ニューラルネットワークとも呼ばれる）ニューラルネットワークである。ニューラルネットワークは、特に、画像解析および／またはコンピュータビジョンアプリケーション、インターネットプロトコル（ＩＰ）カメラ、モノのインターネット（ＩｏＴ）デバイス、自律車両、サービスロボットなど、様々な適用例および／またはデバイスのために使用され得る。

[0046] ニューラルネットワーク中の個々のノードは、入力データをとることと、データに対して単純な演算を実施することとによって、生物学的ニューロンをエミュレートし得る。入力データに対して実施された単純な演算の結果は、他のニューロンに選択的に受け渡される。重み値が、各ベクトルとネットワーク中のノードとに関連付けられ、これらの値は、入力データがどのように出力データに関係するかを制約する。たとえば、各ノードの入力データは、対応する重み値を乗算され得、この積は合計され得る。積の合計は、随意のバイアスによって調節され得、活性化関数が結果に適用され、ノードの出力信号または（活性化マップまたは特徴マップと呼ばれることがある）「出力活性化」が生じ得る。重み値は、最初に、ネットワークを通してトレーニングデータの反復フローによって決定され得る（たとえば、重み値は、ネットワークが特定のクラスの典型的な入力データ特性によってそれらのクラスをどのように識別すべきかを学習するトレーニングフェーズ中に確定される）。

[0047] 特に、深層生成ニューラルネットワークモデル（たとえば、敵対的生成ネットワーク（ＧＡＮ））、リカレントニューラルネットワーク（ＲＮＮ）モデル、多層パーセプトロン（ＭＬＰ）ニューラルネットワークモデル、畳み込みニューラルネットワーク（ＣＮＮ）モデル、オートエンコーダ（ＡＥ）など、異なるタイプのニューラルネットワークが存在する。たとえば、ＧＡＮは、ニューラルネットワークモデルが、合理的に元のデータセットからのものであることがある新しい合成出力を生成することができるように、入力データ中のパターンを学習することができる生成ニューラルネットワークの形態である。ＧＡＮは、一緒に動作する２つのニューラルネットワークを含むことができる。（Ｇ（ｚ）として示される生成ニューラルネットワークまたは生成器と呼ばれる）ニューラルネットワークのうちの１つが、合成された出力を生成し、（Ｄ（Ｘ）として示される弁別ニューラルネットワーク（discriminative neural network）または弁別器と呼ばれる）他のニューラルネットワークが、出力を真正性（出力が、トレーニングデータセットなど、元のデータセットからのものであるのか、生成器によって生成されたのか）について評価する。トレーニング入力および出力は、例示的な例として画像を含むことができる。生成器は、弁別器を、生成器によって生成された合成された画像がデータセットからの本物の画像であると決定させようと試み、だますようにトレーニングされる。トレーニングプロセスは続き、生成器は、本物の画像のように見える合成画像を生成することがよりうまくなる。弁別器は、合成された画像中の欠陥を見つけ続け、生成器は、弁別器が画像中の欠陥を決定するために何を見ているかを解明する。ネットワークがトレーニングされると、生成器は、弁別器が本物の画像と区別することができない、本物に見える画像を生成することが可能である。

[0048] ＲＮＮは、層（layer）の出力を節約し、この出力を、層の結果を予測するのを助けるために入力にフィードバックする原理で動作する。ＭＬＰニューラルネットワークでは、データは入力層に供給され得、１つまたは複数の隠れ層が、データに抽象化レベルを提供する。次いで、予測が、抽象化されたデータに基づいて出力層上で行われ得る。ＭＬＰは、入力がクラスまたはラベルを割り当てられる分類予測問題に特に好適であり得る。畳み込みニューラルネットワーク（ＣＮＮ）は、フィードフォワード人工ニューラルネットワークのタイプである。ＣＮＮは、受容野（たとえば、入力空間の空間的に局所化された領域）を各々有し、入力空間を集合的にタイリングする人工ニューロンの集合を含み得る。ＣＮＮは、パターン認識および分類を含む多数の適用例を有する。

[0049] （複数の隠れ層が存在するとき、深層ニューラルネットワークと呼ばれる）層状（layered）ニューラルネットワークアーキテクチャ（neural network architecture）では、人工ニューロンの第１の層の出力は、人工ニューロンの第２の層への入力になり、人工ニューロンの第２の層の出力は、人工ニューロンの第３の層への入力になり、以下同様である。畳み込みニューラルネットワークは、特徴の階層を認識するようにトレーニングされ得る。畳み込みニューラルネットワークアーキテクチャにおける計算は、１つまたは複数の計算チェーンにおいて構成され得る処理ノードの集団にわたって分散され得る。これらの多層アーキテクチャは、一度に１つの層をトレーニングされ得、バックプロパゲーションを使用して微調整され得る。

[0050] オートエンコーダ（ＡＥ）は、教師なし様式で効率的なデータコーディングを学習することができる。いくつかの例では、ＡＥは、信号雑音を無視するようにネットワークをトレーニングすることによって、データのセットのための表現（たとえば、データコーディング）を学習することができる。ＡＥはエンコーダとデコーダとを含むことができる。エンコーダは入力データをコードにマッピングすることができ、デコーダはコードを入力データの再構築にマッピングすることができる。いくつかの例では、レートひずみオートエンコーダ（ＲＤ－ＡＥ）は、画像および／またはビデオデータポイントなど、データポイントのデータセットにわたる平均レートひずみ損失を最小限に抑えるようにトレーニングされ得る。いくつかの場合には、ＲＤ－ＡＥは、新しいデータポイントを符号化するために推論時間においてフォワードパスを行うことができる。

[0051] いくつかの例では、データ圧縮および／または展開のための機械学習システムは、（たとえば、圧縮されるべきである画像データを使用して）暗黙的にトレーニングされるニューラルネットワークを含むことができる。いくつかの場合には、暗黙的ニューラル表現（ＩＮＲ）に基づくデータ圧縮および／または展開は、畳み込みベースアーキテクチャを使用して実装され得る。いくつかの態様では、画像データを符号化することは、ニューラルネットワークアーキテクチャを選択することと、画像データに対してネットワーク重みを過剰適合させることとを含むことができる。いくつかの例では、デコーダは、ニューラルネットワークアーキテクチャを含み、エンコーダからネットワーク重みを受信し得る。他の例では、デコーダは、エンコーダからニューラルネットワークアーキテクチャを受信し得る。

[0052] いくつかの場合には、ニューラルネットワーク重みは大きいことがあり、これは、デコーダに重みを送出するために必要とされるビットレートおよび／または計算オーバーヘッドを増加させることがある。いくつかの例では、重みは、全体的なサイズを低減するために量子化され得る。いくつかの態様では、量子化された重みは、重みプライア（weight prior）を使用して圧縮され得る。重みプライアは、デコーダに送出されるデータの量を低減することができる。いくつかの場合には、重みプライアは、モデル重みを送信するためのコストを低減するように設計され得る。たとえば、重みプライアは、重みのビットレートオーバーヘッドを低減および／または制限するために使用され得る。

[0053] いくつかの場合には、重みプライアの設計は、本明細書でさらに説明されるように改善され得る。いくつかの例示的な例では、重みプライア設計は、非依存（independent）ガウス重みプライアを含むことがある。他の例示的な例では、重みプライア設計は、非依存ラプラス重みプライアを含むことがある。他の例示的な例では、重みプライア設計は、非依存スパイクおよびスラブ（Spike and Slab）プライアを含むことがある。いくつかの例示的な例では、重みプライアは、ニューラルネットワークによって学習される複雑な依存性を含むことがある。

[0054] 図１は、本開示のいくつかの例による、画像処理システム１００の一例を示す図である。いくつかの場合には、画像処理システム１００は、本明細書で説明される機能のうちの１つまたは複数を実施するように構成された中央処理ユニット（ＣＰＵ）１０２またはマルチコアＣＰＵを含むことができる。情報の中でも、変数（たとえば、ニューラル信号およびシナプス荷重）、計算デバイスに関連付けられたシステムパラメータ（たとえば、重みをもつニューラルネットワーク）、遅延、周波数ビン情報、タスク情報が、ニューラル処理ユニット（ＮＰＵ）１０８に関連付けられたメモリブロック、ＣＰＵ１０２に関連付けられたメモリブロック、グラフィックス処理ユニット（ＧＰＵ）１０４に関連付けられたメモリブロック、デジタル信号プロセッサ（ＤＳＰ）１０６に関連付けられたメモリブロック、メモリブロック１１８に記憶されるか、または複数のブロックにわたって分散され得る。ＣＰＵ１０２において実行される命令が、ＣＰＵ１０２に関連付けられたプログラムメモリ、および／またはメモリブロック１１８からロードされ得る。

[0055] 画像処理システム１００は、ＧＰＵ１０４、ＤＳＰ１０６など、特定の機能に適合された追加の処理ブロック、第５世代（５Ｇ）接続性、第４世代ロングタームエボリューション（４ＧＬＴＥ（登録商標））接続性、Ｗｉ－Ｆｉ（登録商標）接続性、ＵＳＢ接続性、Ｂｌｕｅｔｏｏｔｈ（登録商標）接続性などを含み得る接続性ブロック１１０、および／または、たとえば、特徴を検出および認識し得るマルチメディアプロセッサ１１２を含み得る。一実装形態では、ＮＰＵ１０８は、ＣＰＵ１０２、ＤＳＰ１０６、および／またはＧＰＵ１０４において実装される。画像処理システム１００は、センサープロセッサ１１４、１つまたは複数の画像信号プロセッサ（ＩＳＰ）１１６、および／または記憶域１２０をも含み得る。いくつかの例では、画像処理システム１００は、ＡＲＭ命令セットに基づき得る。

[0056] 画像処理システム１００は、１つまたは複数のコンピューティングデバイスの一部であり得る。いくつかの例では、画像処理システム１００は、カメラシステム（たとえば、デジタルカメラ、ＩＰカメラ、ビデオカメラ、防犯カメラなど）、電話システム（たとえば、スマートフォン、セルラー電話、会議システムなど）、デスクトップコンピュータ、ＸＲデバイス（たとえば、ヘッドマウントディスプレイなど）、スマートウェアラブルデバイス（たとえば、スマートウォッチ、スマートグラスなど）、ラップトップまたはノートブックコンピュータ、タブレットコンピュータ、セットトップボックス、テレビジョン、ディスプレイデバイス、デジタルメディアプレーヤ、ゲーミングコンソール、ビデオストリーミングデバイス、ドローン、車におけるコンピュータ、システムオンチップ（ＳＯＣ）、モノのインターネット（ＩｏＴ）デバイス、または（１つまたは複数の）任意の他の好適な電子デバイスなど、（１つまたは複数の）電子デバイスの一部であり得る。

[0057] 画像処理システム１００がいくつかの構成要素を含むように示されているが、画像処理システム１００が図１に示されている構成要素よりも多いまたは少ない構成要素を含むことができることを、当業者は諒解されよう。たとえば、画像処理システム１００はまた、いくつかの事例では、１つまたは複数のメモリデバイス（たとえば、ＲＡＭ、ＲＯＭ、キャッシュなど）、１つまたは複数のネットワーキングインターフェース（たとえば、ワイヤードおよび／またはワイヤレス通信インターフェースなど）、１つまたは複数のディスプレイデバイス、および／あるいは図１に示されていない他のハードウェアまたは処理デバイスを含むことができる。画像処理システム１００とともに実装され得るコンピューティングデバイスおよびハードウェア構成要素の例示的な例が、図１６に関して以下で説明される。

[0058] 画像処理システム１００および／またはそれの構成要素は、本明細書で説明される機械学習システムおよび技法を使用して（画像コーディングと総称される、符号化および／または復号とも呼ばれる）圧縮および／または展開を実施するように構成され得る。いくつかの場合には、画像処理システム１００および／またはそれの構成要素は、本明細書で説明される技法を使用して画像またはビデオ圧縮および／または展開を実施するように構成され得る。いくつかの例では、機械学習システムは、画像、ビデオ、および／またはオーディオデータの圧縮および／または展開を実施するために深層学習ニューラルネットワークアーキテクチャを利用することができる。深層学習ニューラルネットワークアーキテクチャを使用することによって、機械学習システムは、デバイス上のコンテンツの圧縮および／または展開の効率および速度を増加させることができる。たとえば、説明される圧縮および／または展開技法を使用するデバイスは、機械学習ベース技法を使用して効率的に、１つまたは複数の画像を圧縮することができ、圧縮された１つまたは複数の画像を受信デバイスに送信することができ、受信デバイスは、本明細書で説明される機械学習ベース技法を使用して効率的に、１つまたは複数の圧縮された画像を展開することができる。本明細書で使用される画像は、静止画像、および／またはフレームのシーケンス（たとえば、ビデオ）に関連付けられたビデオフレームを指すことがある。

[0059] 上述のように、ニューラルネットワークは機械学習システムの一例である。ニューラルネットワークは、入力層と、１つまたは複数の隠れ層と、出力層とを含むことができる。データは、入力層の入力ノードから提供され、処理は、１つまたは複数の隠れ層の隠れノードによって実施され、出力は、出力層の出力ノードを通して生成される。深層学習ネットワークは、一般に、複数の隠れ層を含む。ニューラルネットワークの各層は、人工ニューロン（またはノード）を含むことができる特徴マップまたは活性化マップを含むことができる。特徴マップは、フィルタ、カーネルなどを含むことができる。ノードは、層のうちの１つまたは複数のノードの重要性を示すために使用される１つまたは複数の重みを含むことができる。いくつかの場合には、深層学習ネットワークは、一連の多くの隠れ層を有することができ、早期の層は、入力の単純で低レベルの特性を決定するために使用され、後の層は、より複雑で抽象的な特性の階層を構築する。

[0060] 深層学習アーキテクチャは特徴の階層を学習し得る。たとえば、視覚データが提示された場合、第１の層は、エッジなど、入力ストリーム中の比較的単純な特徴を認識するように学習し得る。別の例では、聴覚データが提示された場合、第１の層は、特定の周波数におけるスペクトル電力を認識するように学習し得る。第１の層の出力を入力としてとる第２の層は、視覚データの場合の単純な形状、または聴覚データの場合の音の組合せなど、特徴の組合せを認識するように学習し得る。たとえば、上位層は、視覚データ中の複雑な形状、または聴覚データ中の単語を表すように学習し得る。さらに上位の層は、共通の視覚オブジェクトまたは発話フレーズを認識するように学習し得る。

[0061] 深層学習アーキテクチャは、自然階層構造を有する問題に適用されたとき、特にうまく機能し得る。たとえば、原動機付き車両の分類は、ホイール、フロントガラス、および他の特徴を認識するための第１の学習から恩恵を受け得る。これらの特徴は、車、トラック、および飛行機を認識するために、異なる方法で、上位層において組み合わせられ得る。

[0062] ニューラルネットワークは、様々な結合性パターンを用いて設計され得る。フィードフォワードネットワークでは、情報が下位層から上位層に受け渡され、所与の層における各ニューロンは、上位層におけるニューロンに通信する。上記で説明されたように、フィードフォワードネットワークの連続する層において、階層表現が構築され得る。ニューラルネットワークはまた、リカレントまたは（トップダウンとも呼ばれる）フィードバック結合を有し得る。リカレント結合では、所与の層におけるニューロンからの出力は、同じ層における別のニューロンに通信され得る。リカレントアーキテクチャは、ニューラルネットワークに順次配信される入力データチャンクのうちの２つ以上にわたるパターンを認識するのに役立ち得る。所与の層におけるニューロンから下位層におけるニューロンへの結合は、フィードバック（またはトップダウン）結合と呼ばれる。高レベルの概念の認識が、入力の特定の低レベルの特徴を弁別することを助け得るとき、多くのフィードバック結合をもつネットワークが役立ち得る。

[0063] ニューラルネットワークの層間の結合は全結合または局所結合であり得る。図２Ａは、全結合ニューラルネットワーク２０２の一例を示す。全結合ニューラルネットワーク２０２では、第１の層におけるニューロンは、第２の層における各ニューロンが第１の層におけるあらゆるニューロンから入力を受信するように、それの出力を第２の層におけるあらゆるニューロンに通信し得る。図２Ｂは、局所結合ニューラルネットワーク２０４の一例を示す。局所結合ニューラルネットワーク２０４では、第１の層におけるニューロンは、第２の層における限られた数のニューロンに結合され得る。より一般的には、局所結合ニューラルネットワーク２０４の局所結合層は、層における各ニューロンが同じまたは同様の結合性パターンを有するように構成されるが、異なる値を有し得る結合強度で構成され得る（たとえば、２１０、２１２、２１４、および２１６）。局所結合の結合性パターンは、所与の領域中の上位層ニューロンが、ネットワークへの総入力のうちの制限された部分のプロパティにトレーニングを通して調整された入力を受信し得るので、上位層において空間的に別個の受容野を生じ得る。

[0064] 局所結合ニューラルネットワークの一例は、畳み込みニューラルネットワークである。図２Ｃは、畳み込みニューラルネットワーク２０６の一例を示す。畳み込みニューラルネットワーク２０６は、第２の層における各ニューロンのための入力に関連付けられた結合強度が共有されるように構成され得る（たとえば、２０８）。畳み込みニューラルネットワークは、入力の空間ロケーションが有意味である問題に好適であり得る。畳み込みニューラルネットワーク２０６は、本開示の態様による、ビデオ圧縮および／または展開の１つまたは複数の態様を実施するために使用され得る。

[0065] １つのタイプの畳み込みニューラルネットワークは、深層畳み込みネットワーク（ＤＣＮ）である。図２Ｄは、車載カメラなどの画像キャプチャデバイス２３０から入力された画像２２６から視覚特徴を認識するように設計されたＤＣＮ２００の詳細な例を示す。本例のＤＣＮ２００は、交通標識と、交通標識上で提供された数とを識別するようにトレーニングされ得る。もちろん、ＤＣＮ２００は、車線マーキングを識別すること、または交通信号を識別することなど、他のタスクのためにトレーニングされ得る。

[0066] ＤＣＮ２００は、教師あり学習を用いてトレーニングされ得る。トレーニング中に、ＤＣＮ２００は、速度制限標識の画像２２６など、画像を提示され得、次いで、出力２２２を生成するために、フォワードパスが計算され得る。ＤＣＮ２００は、特徴抽出セクションと分類セクションとを含み得る。画像２２６を受信すると、畳み込み層２３２が、特徴マップ２１８の第１のセットを生成するために、畳み込みカーネル（図示せず）を画像２２６に適用し得る。一例として、畳み込み層２３２のための畳み込みカーネルは、２８×２８特徴マップを生成する５×５カーネルであり得る。本例では、４つの異なる特徴マップが、特徴マップ２１８の第１のセットにおいて生成されるので、４つの異なる畳み込みカーネルが、畳み込み層２３２において画像２２６に適用された。畳み込みカーネルは、フィルタまたは畳み込みフィルタと呼ばれることもある。

[0067] 特徴マップ２１８の第１のセットは、特徴マップ２２０の第２のセットを生成するために、最大プーリング層（図示せず）によってサブサンプリングされ得る。最大プーリング層は、特徴マップ２１８の第１のセットのサイズを低減する。すなわち、１４×１４などの特徴マップ２２０の第２のセットのサイズが、２８×２８などの特徴マップ２１８の第１のセットのサイズよりも小さい。低減されたサイズは、メモリ消費を低減しながら、後続の層に同様の情報を提供する。特徴マップ２２０の第２のセットは、特徴マップの１つまたは複数の後続のセット（図示せず）を生成するために、１つまたは複数の後続の畳み込み層（図示せず）を介して、さらに畳み込まれ得る。

[0068] 図２Ｄの例では、特徴マップ２２０の第２のセットは、第１の特徴ベクトル２２４を生成するために畳み込まれる。さらに、第１の特徴ベクトル２２４は、第２の特徴ベクトル２２８を生成するために、さらに畳み込まれる。第２の特徴ベクトル２２８の各特徴は、「標識」、「６０」、および「１００」など、画像２２６の可能な特徴に対応する数を含み得る。ソフトマックス関数（図示せず）が、第２の特徴ベクトル２２８中の数を確率にコンバートし得る。したがって、ＤＣＮ２００の出力２２２は、画像２２６が１つまたは複数の特徴を含む確率である。

[0069] 本例では、「標識」および「６０」についての出力２２２における確率は、「３０」、「４０」、「５０」、「７０」、「８０」、「９０」、および「１００」など、出力２２２の他のものの確率よりも高い。トレーニングの前に、ＤＣＮ２００によって生成される出力２２２は、不正確である可能性がある。したがって、誤差が、出力２２２とターゲット出力との間で計算され得る。ターゲット出力は、画像２２６（たとえば、「標識」および「６０」）のグランドトゥルースである。次いで、ＤＣＮ２００の重みは、ＤＣＮ２００の出力２２２がターゲット出力とより密接に整合されるように調節され得る。

[0070] 重みを調節するために、学習アルゴリズムは、重みのための勾配ベクトルを計算し得る。勾配は、重みが調節された場合に、誤差が増加または減少する量を示し得る。最上層において、勾配は、最後から２番目の層における活性化されたニューロンと出力層におけるニューロンとを結合する重みの値に直接対応し得る。下位層では、勾配は、重みの値と、上位層の計算された誤差勾配とに依存し得る。次いで、重みは、誤差を低減するために調節され得る。重みを調節するこの様式は、それがニューラルネットワークを通して「バックワードパス」を伴うので、「バックプロパゲーション」と呼ばれることがある。

[0071] 実際には、重みの誤差勾配は、計算された勾配が真の誤差勾配を近似するように、少数の例にわたって計算され得る。この近似方法は、確率的勾配降下（stochastic gradient descent）と呼ばれることがある。システム全体の達成可能な誤差レートが減少しなくなるまで、または誤差レートがターゲットレベルに達するまで、確率的勾配降下が繰り返され得る。学習の後に、ＤＣＮは新しい画像を提示され得、ネットワークを通したフォワードパスは、ＤＣＮの推論または予測と見なされ得る出力２２２を生じ得る。

[0072] 深層信念ネットワーク（ＤＢＮ：deep belief network）は、隠れノードの複数の層を備える確率モデルである。ＤＢＮは、トレーニングデータセットの階層表現を抽出するために使用され得る。ＤＢＮは、制限ボルツマンマシン（ＲＢＭ：Restricted Boltzmann Machine）の層を積層することによって取得され得る。ＲＢＭは、入力のセットにわたる確率分布を学習することができる人工ニューラルネットワークのタイプである。ＲＢＭは、各入力がそれにカテゴリー分類されるべきクラスに関する情報の不在下で確率分布を学習することができるので、ＲＢＭは、教師なし学習においてしばしば使用される。ハイブリッド教師なしおよび教師ありパラダイムを使用して、ＤＢＮの下部ＲＢＭは、教師なし様式でトレーニングされ得、特徴抽出器として働き得、上部ＲＢＭは、（前の層からの入力とターゲットクラスとの同時分布上で）教師あり様式でトレーニングされ得、分類器として働き得る。

[0073] 深層畳み込みネットワーク（ＤＣＮ）は、追加のプーリング層および正規化層で構成された、畳み込みネットワークのネットワークである。ＤＣＮは、多くのタスクに関して最先端の性能を達成している。ＤＣＮは、入力と出力ターゲットの両方が、多くの標本について知られており、勾配降下方法の使用によってネットワークの重みを修正するために使用される、教師あり学習を使用してトレーニングされ得る。

[0074] ＤＣＮは、フィードフォワードネットワークであり得る。さらに、上記で説明されたように、ＤＣＮの第１の層におけるニューロンから次の上位層におけるニューロンのグループへの結合は、第１の層におけるニューロンにわたって共有される。ＤＣＮのフィードフォワードおよび共有結合は、高速処理のために活用され得る。ＤＣＮの計算負担は、たとえば、リカレントまたはフィードバック結合を備える同様のサイズのニューラルネットワークのそれよりもはるかに少ないことがある。

[0075] 畳み込みネットワークの各層の処理は、空間的に不変のテンプレートまたは基底投射と見なされ得る。入力が、カラー画像の赤色、緑色、および青色チャネルなど、複数のチャネルに最初に分解された場合、その入力に関してトレーニングされた畳み込みネットワークは、画像の軸に沿った２つの空間次元と、色情報をキャプチャする第３の次元とをもつ、３次元であると見なされ得る。畳み込み結合の出力は、後続の層において特徴マップを形成すると考えられ、特徴マップ（たとえば、２２０）の各要素が、前の層（たとえば、特徴マップ２１８）における様々なニューロンから、および複数のチャネルの各々から入力を受信し得る。特徴マップにおける値は、整流（rectification）、ｍａｘ（０，ｘ）など、非線形性を用いてさらに処理され得る。隣接するニューロンからの値は、さらにプールされ得、これは、ダウンサンプリングに対応し、さらなる局所不変性と次元削減とを提供し得る。

[0076] 図３は、深層畳み込みネットワーク３５０の一例を示すブロック図である。深層畳み込みネットワーク３５０は、結合性および重み共有に基づく、複数の異なるタイプの層を含み得る。図３に示されているように、深層畳み込みネットワーク３５０は、畳み込みブロック３５４Ａ、３５４Ｂを含む。畳み込みブロック３５４Ａ、３５４Ｂの各々は、畳み込み層（ＣＯＮＶ）３５６と、正規化層（ＬＮｏｒｍ）３５８と、最大プーリング層（ＭＡＸＰＯＯＬ）３６０とで構成され得る。

[0077] 畳み込み層３５６は、１つまたは複数の畳み込みフィルタを含み得、これは、特徴マップを生成するために入力データ３５２に適用され得る。２つの畳み込みブロック３５４Ａ、３５４Ｂのみが示されているが、本開示はそのように限定しておらず、代わりに、設計選好に従って、任意の数の畳み込みブロック（たとえば、ブロック３５４Ａ、３５４Ｂ）が深層畳み込みネットワーク３５０中に含まれ得る。正規化層３５８は、畳み込みフィルタの出力を正規化し得る。たとえば、正規化層３５８は、白色化またはラテラル抑制を行い得る。最大プーリング層３６０は、局所不変性および次元削減のために、空間にわたってダウンサンプリングアグリゲーションを行い得る。

[0078] たとえば、深層畳み込みネットワークの並列フィルタバンクは、高性能および低電力消費を達成するために、画像処理システム１００のＣＰＵ１０２またはＧＰＵ１０４にロードされ得る。代替実施形態では、並列フィルタバンクは、画像処理システム１００のＤＳＰ１０６またはＩＳＰ１１６にロードされ得る。さらに、深層畳み込みネットワーク３５０は、センサープロセッサ１１４など、画像処理システム１００上に存在し得る他の処理ブロックにアクセスし得る。

[0079] 深層畳み込みネットワーク３５０はまた、（「ＦＣ１」と標示された）層３６２Ａおよび（「ＦＣ２」と標示された）層３６２Ｂなど、１つまたは複数の全結合層を含み得る。深層畳み込みネットワーク３５０は、ロジスティック回帰（ＬＲ）層３６４をさらに含み得る。深層畳み込みネットワーク３５０の各層３５６、３５８、３６０、３６２、３６４の間には、更新されるべき重み（図示せず）がある。層（たとえば、３５６、３５８、３６０、３６２、３６４）の各々の出力は、畳み込みブロック３５４Ａのうちの第１のものにおいて供給された入力データ３５２（たとえば、画像、オーディオ、ビデオ、センサーデータおよび／または他の入力データ）から階層特徴表現を学習するために、深層畳み込みネットワーク３５０中の層（たとえば、３５６、３５８、３６０、３６２、３６４）のうちの後続の層の入力として働き得る。深層畳み込みネットワーク３５０の出力は、入力データ３５２についての分類スコア３６６である。分類スコア３６６は、確率のセットであり得、ここで、各確率は、入力データが特徴のセットからの特徴を含む確率である。

[0080] 画像、オーディオ、およびビデオコンテンツが、記憶され得、および／またはデバイスの間で共有され得る。たとえば、画像、オーディオ、およびビデオコンテンツは、サービスをホストするおよびプラットフォームを共有するメディアにアップロードされ得、様々なデバイスに送信され得る。圧縮されていない画像、オーディオ、およびビデオコンテンツを記録することは、概して、画像、オーディオ、およびビデオコンテンツの解像度が増加するにつれて大幅に増加する大きいファイルサイズを生じる。たとえば、１０８０ｐ／２４（たとえば、２４フレーム毎秒でキャプチャされる、幅が１９２０ピクセルで高さが１０８０ピクセルの解像度）において記録される圧縮されていない１６ビット毎チャネル（bit per channel）ビデオは、１２．４メガバイト毎フレーム（megabyte per frame）、または２９７．６メガバイト毎秒（megabyte per second）を占有し得る。２４フレーム毎秒で４Ｋ解像度において記録される圧縮されていない１６ビット毎チャネルビデオは、フレームごとに４９．８メガバイト、または１１９５．２メガバイト毎秒を占有し得る。

[0081] 圧縮されていない画像、オーディオ、およびビデオコンテンツが、物理的記憶域のためのかなりのメモリと、送信のための相当な帯域幅とを伴い得る大きいファイルを生じることがあるので、そのようなビデオコンテンツを圧縮するための技法が利用され得る。たとえば、画像コンテンツのサイズ、したがって、画像コンテンツを記憶することに関与する記憶域の量とビデオコンテンツを配信することに関与する帯域幅の量とを低減するために、様々な圧縮アルゴリズムが、画像、オーディオ、およびビデオコンテンツに適用され得る。

[0082] いくつかの場合には、画像コンテンツは、特に、ジョイントフォトグラフィックエキスパートグループ（ＪＰＥＧ）、ベターポータブルグラフィックス（ＢＰＧ）など、アプリオリに定義された圧縮アルゴリズムを使用して圧縮され得る。ＪＰＥＧは、たとえば、離散コサイン変換（ＤＣＴ）に基づく、圧縮の不可逆形態である。たとえば、画像のＪＰＥＧ圧縮を実施するデバイスは、画像を最適な色空間（たとえば、ルミナンス（Ｙ）、クロミナンス青（Ｃｂ）、クロミナンス赤（Ｃｒ）を含むＹＣｂＣｒ色空間）に変換することができ、ピクセルのグループを一緒に平均化することによってクロミナンス成分をダウンサンプリングすることができ、冗長画像データを除去し、したがって画像データを圧縮するために、ＤＣＴ関数をピクセルのブロックに適用することができる。圧縮は、画像の内部の同様の領域の識別と、（ＤＣＴ関数に基づいて）領域を同じカラーコードにコンバートすることとに基づく。ビデオコンテンツはまた、モーションピクチャエキスパートグループ（ＭＰＥＧ）アルゴリズム、Ｈ．２６４、または高効率ビデオコーディングアルゴリズムなど、アプリオリに定義された圧縮アルゴリズムを使用して圧縮され得る。

[0083] これらのアプリオリに定義された圧縮アルゴリズムは、生画像およびビデオコンテンツ中の大部分の情報を保持することが可能であり得、信号処理および情報理論概念に基づいてアプリオリに定義され得る。しかしながら、これらのあらかじめ定義された圧縮アルゴリズムは、概して（たとえば、任意のタイプの画像／ビデオコンテンツに）適用可能であり得るが、それらの圧縮アルゴリズムは、コンテンツの類似度、ビデオキャプチャおよび配信のための新しい解像度またはフレームレート、非自然的な像（たとえば、レーダー像、または様々なセンサーを介してキャプチャされた他の像）などを考慮に入れないことがある。

[0084] アプリオリに定義された圧縮アルゴリズムは、不可逆圧縮アルゴリズムと見なされる。入力画像（またはビデオフレーム）の不可逆圧縮では、入力画像は、厳密な入力画像が再構築されるように、コーディングされず、次いで、復号／再構築され得ない。そうではなく、不可逆圧縮では、圧縮された入力画像の復号／再構築の後に、入力画像の近似バージョンが生成される。不可逆圧縮は、再構築された画像中に存在するアーティファクトを生じるひずみ（distortion）を犠牲にして、ビットレートの低減を生じる。したがって、不可逆圧縮システムではレートひずみトレードオフがある。いくつかの圧縮方法（たとえば、特に、ＪＰＥＧ、ＢＰＧ）の場合、ひずみベースアーティファクトは、ブロッキングアーティファクトまたは他のアーティファクトの形態をとることができる。いくつかの場合には、ニューラルネットワークベース圧縮が使用され得、画像データおよびビデオデータの高品質圧縮を生じることができる。いくつかの場合には、ぼけおよび色シフトがアーティファクトの例である。

[0085] ビットレートが入力データの真のエントロピーを下回るときはいつでも、厳密な入力データを再構築することが困難または不可能であり得る。しかしながら、データの圧縮／展開から実現されるひずみ／損失があるという事実は、再構築された画像またはフレームがアーティファクトを有する必要がないことを意味しない。実際、圧縮された画像を、高い視覚的品質を有する別の同様の、ただし異なる画像に再構築することが可能であり得る。

[0086] いくつかの場合には、圧縮および展開は、１つまたは複数の機械学習（ＭＬ）システムを使用して実施され得る。いくつかの例では、そのようなＭＬベースシステムは、高品質視覚出力を生成する画像および／またはビデオ圧縮を提供することができる。いくつかの例では、そのようなシステムは、レートひずみオートエンコーダ（ＲＤ－ＡＥ）など、（１つまたは複数の）深層ニューラルネットワークを使用してコンテンツ（たとえば、画像コンテンツ、ビデオコンテンツ、オーディオコンテンツなど）の圧縮および展開を実施することができる。深層ニューラルネットワークは、画像を（たとえば、コードｚのセットを含む）ラテント（latent）コード空間にマッピングするオートエンコーダ（ＡＥ）を含むことができる。ラテントコード空間は、エンコーダおよびデコーダによって使用され、コンテンツがコードｚに符号化された、コード空間を含むことができる。コード（たとえば、コードｚ）は、ラテント、ラテント変数またはラテント表現と呼ばれることもある。深層ニューラルネットワークは、ラテントコード空間からのコードｚを可逆圧縮することができる（プライアまたはコードモデルとも呼ばれる）確率モデルを含むことができる。確率モデルは、入力データに基づいて、符号化されたデータを表すことができる、コードｚのセットにわたる確率分布を生成することができる。いくつかの場合には、確率分布は（Ｐ（ｚ））として示され得る。

[0087] いくつかの例では、深層ニューラルネットワークは、確率分布Ｐ（ｚ）および／またはコードｚのセットに基づいて、出力されるべき圧縮されたデータを含むビットストリームを生成する算術コーダを含み得る。圧縮されたデータを含むビットストリームは、記憶され得、および／または受信デバイスに送信され得る。受信デバイスは、たとえば、算術デコーダ、確率（またはコード）モデル、およびＡＥのデコーダを使用してビットストリームを復号または展開するために、逆プロセスを実施することができる。圧縮されたデータを含むビットストリームを生成したデバイスも、圧縮されたデータを記憶域から取り出すとき、同様の復号／展開プロセスを実施することができる。更新されたモデルパラメータを圧縮／符号化および展開／復号するために、同様の技法が実施され得る。

[0088] いくつかの例では、ＲＤ－ＡＥは、（高レート動作と低レート動作とを含む）マルチレートＡＥとして機能するようにトレーニングおよび動作され得る。たとえば、マルチレートＡＥのエンコーダによって生成されたラテントコード空間は、２つまたはそれ以上のチャンクに分割され得る（たとえば、コードｚはチャンクｚ₁とチャンクｚ₂とに分割される）。高レート動作では、マルチレートＡＥは、ＲＤ－ＡＥに関して上記で説明された動作と同様に、データを展開するために受信デバイスによって使用され得るラテント空間全体（たとえば、ｚ₁、ｚ₂などを含むコードｚ）に基づくビットストリームを送出することができる。低レート動作では、受信デバイスに送出されるビットストリームは、ラテント空間のサブセット（たとえば、チャンクｚ₂ではなくｚ₁）に基づく。受信デバイスは、送出されたサブセットに基づいてラテント空間の残りの部分を推論することができ、ラテント空間のサブセットと、ラテント空間の推論された残りの部分とを使用して、再構築されたデータを生成することができる。

[0089] ＲＤ－ＡＥまたはマルチレートＡＥを使用してコンテンツを圧縮（および展開）することによって、符号化および復号機構は、様々な使用事例に適応可能であり得る。機械学習ベース圧縮技法は、高品質および／または低減されたビットレートを有する、圧縮されたコンテンツを生成することができる。いくつかの例では、ＲＤ－ＡＥは、画像および／またはビデオデータポイントなど、データポイントのデータセットにわたる平均レートひずみ損失を最小限に抑えるようにトレーニングされ得る。いくつかの場合には、ＲＤ－ＡＥはまた、受信機に送出され、受信機によって復号されるべき特定のデータポイントについて微調整され得る。いくつかの例では、データポイント上でＲＤ－ＡＥを微調整することによって、ＲＤ－ＡＥは、高い圧縮（レート／ひずみ）性能を取得することができる。ＲＤ－ＡＥに関連付けられたエンコーダが、ビットストリームを復号するために、受信機（たとえば、デコーダ）にＡＥモデルまたはＡＥモデルの一部を送出することができる。

[0090] いくつかの場合には、ニューラルネットワーク圧縮システムが、（量子化された）ラテント表現から入力インスタンス（たとえば、入力画像、ビデオ、オーディオなど）を再構築することができる。ニューラルネットワーク圧縮システムはまた、ラテント表現を可逆圧縮するためにプライアを使用することができる。いくつかの場合には、ニューラルネットワーク圧縮システムは、テスト時間データ分布が知られており、比較的低いエントロピーである（たとえば、静的シーンを見ているカメラ、自律車におけるダッシュカムなど）と決定することができ、そのような分布に微調整または適応され得る。微調整または適応は、改善されたレート／ひずみ（ＲＤ）性能につながることがある。いくつかの例では、ニューラルネットワーク圧縮システムのモデルは、圧縮されるべき単一の入力インスタンスに適応され得る。ニューラルネットワーク圧縮システムは、ラテント表現とともに、いくつかの例ではパラメータ空間プライアを使用して量子化および圧縮され得る、モデル更新を提供することができる。

[0091] 微調整は、モデル量子化の影響と、モデル更新を送出することによって招かれる追加コストとを考慮に入れることができる。いくつかの例では、ニューラルネットワーク圧縮システムは、ＲＤ損失、ならびに、モデルプライア下でモデル更新を送出するために必要とされるビット数を測定する、追加のモデルレート項Ｍを使用して、微調整され、複合ＲＤＭ損失を生じ得る。

[0092] 図４は、本開示のいくつかの例による、送信デバイス４１０と受信デバイス４２０とを含むシステム４００を示す図である。送信デバイス４１０および受信デバイス４２０は、各々、いくつかの場合にはＲＤ－ＡＥと呼ばれることがある。送信デバイス４１０は、画像コンテンツを圧縮することができ、圧縮された画像コンテンツを記憶し、および／または、圧縮された画像コンテンツを展開のために受信デバイス４２０に送信することができる。受信デバイス４２０は、圧縮された画像コンテンツを展開することができ、展開された画像コンテンツを（たとえば、表示、編集などのために）受信デバイス４２０上で出力することができ、および／または、展開された画像コンテンツを、受信デバイス４２０に接続された他のデバイス（たとえば、テレビジョン、モバイルデバイス、または他のデバイス）に出力することができる。いくつかの場合には、受信デバイス４２０は、画像コンテンツを（エンコーダ４２２を使用して）圧縮し、圧縮された画像コンテンツを記憶し、および／または送信デバイス４１０などの別のデバイスに送信することによって、送信デバイスになることができる（その場合、送信デバイス４１０が受信デバイスになる）。システム４００は画像圧縮および展開に関して本明細書で説明されるが、当業者は、システム４００が、ビデオコンテンツを圧縮および展開するために本明細書で説明される技法を使用することができることを諒解されよう。

[0093] 図４に示されているように、送信デバイス４１０は画像圧縮パイプラインを含み、受信デバイス４２０は画像ビットストリーム展開パイプラインを含む。送信デバイス４１０中の画像圧縮パイプラインおよび受信デバイス４２０中のビットストリーム展開パイプラインは、概して、本開示の態様によれば、画像コンテンツを圧縮し、および／または受信されたビットストリームを画像コンテンツに展開するために、１つまたは複数の人工ニューラルネットワークを使用する。送信デバイス４１０中の画像圧縮パイプラインは、オートエンコーダ４０１と、コードモデル４０４と、算術コーダ４０６とを含む。いくつかの実装形態では、算術コーダ４０６は、随意であり、いくつかの場合には省略され得る。受信デバイス４２０中の画像展開パイプラインは、オートエンコーダ４２１と、コードモデル４２４と、算術デコーダ４２６とを含む。いくつかの実装形態では、算術デコーダ４２６は、随意であり、いくつかの場合には省略され得る。送信デバイス４１０のオートエンコーダ４０１およびコードモデル４０４は、前にトレーニングされた機械学習システムとして図４に示されており、したがって、トレーニングされた機械学習システムの推論または動作中に動作を実施するために構成される。オートエンコーダ４２１およびコードモデル４２４も、前にトレーニングされた機械学習システムとして示されている。

[0094] オートエンコーダ４０１は、エンコーダ４０２とデコーダ４０３とを含む。エンコーダ４０２は、受信された圧縮されていない画像コンテンツに対する不可逆圧縮を、圧縮されていない画像コンテンツの１つまたは複数の画像中のピクセルを（コードｚを含む）ラテントコード空間にマッピングすることによって、実施することができる。概して、エンコーダ４０２は、圧縮された（または符号化された）画像を表すコードｚが離散またはバイナリであるように構成され得る。これらのコードは、確率的摂動（stochastic perturbation）技法、ソフトベクトル量子化、または別個のコードを生成することができる他の技法に基づいて生成され得る。いくつかの態様では、オートエンコーダ４０１は、圧縮されていない画像を、圧縮可能な（低エントロピー）分布を有するコードにマッピングし得る。これらのコードは、交差エントロピーにおいて、あらかじめ定義されたまたは学習された事前分布に近いことがある。

[0095] いくつかの例では、オートエンコーダ４０１は、畳み込みアーキテクチャを使用して実装され得る。たとえば、いくつかの場合には、オートエンコーダ４０１は、画像コンテンツをラテントコード空間にマッピングするための空間フィルタをオートエンコーダ４０１が学習するように、２次元畳み込みニューラルネットワーク（ＣＮＮ）として構成され得る。システム４００がビデオデータをコーディングするために使用される例では、オートエンコーダ４０１は、ビデオをラテントコード空間にマッピングするための時空間フィルタをオートエンコーダ４０１が学習するように、３次元ＣＮＮとして構成され得る。そのようなネットワークでは、オートエンコーダ４０１は、キーフレーム（たとえば、フレームのシーケンスの始端をマークする初期フレーム。シーケンス中の後続のフレームが、シーケンス中の初期フレームに対する差分として説明される）、キーフレームとビデオ中の他のフレームとの間のワーピング（または差分）、および残差ファクタに関して、ビデオを符号化し得る。他の態様では、オートエンコーダ４０１は、前のフレームと、フレーム間の残差ファクタと、チャネルを積み重ねることまたはリカレント層を含むことによる条件づけとを条件とする２次元ニューラルネットワークとして実装され得る。

[0096] オートエンコーダ４０１のエンコーダ４０２は、入力として（図４では画像ｘとして指定される）第１の画像を受信することができ、第１の画像ｘをラテントコード空間中のコードｚにマッピングすることができる。上述のように、エンコーダ４０２は、ラテントコード空間が、各（ｘ，ｙ）位置において、その位置を中心とする画像ｘのブロックを記述するベクトルを有するように、２次元畳み込みネットワークとして実装され得る。ｘ座標は画像ｘのブロック中の水平ピクセルロケーションを表すことができ、ｙ座標は画像ｘのブロック中の垂直ピクセルロケーションを表すことができる。ビデオデータをコーディングするとき、ラテントコード空間はｔ変数または位置を有することができ、ｔ変数は、（空間ｘ座標およびｙ座標に加えて）ビデオデータのブロック中のタイムスタンプを表す。水平および垂直ピクセル位置の２つの次元を使用することによって、ベクトルは、画像ｘ中の画像パッチを記述することができる。

[0097] 次いで、オートエンコーダ４０１のデコーダ４０３が、コードｚを展開して、第１の画像ｘの再構築

を取得することができる。概して、再構築

は、圧縮されていない第１の画像ｘの近似であり得、第１の画像ｘの厳密なコピーである必要がない。いくつかの場合には、再構築された画像

は、送信デバイスに記憶するための圧縮された画像ファイルとして出力され得る。

[0098] コードモデル４０４は、符号化された画像またはそれの部分を表すコードｚを受信し、コードｚを表すために使用され得る圧縮されたコードワードのセットにわたる確率分布Ｐ（ｚ）を生成する。いくつかの例では、コードモデル４０４は、確率自己回帰生成モデルを含むことができる。いくつかの場合には、確率分布が生成され得るコードは、算術コーダ４０６に基づいてビット割当てを制御する学習された分布を含む。たとえば、算術コーダ４０６を使用して、第１のコードｚのための圧縮コードが独立して予測され得、第２のコードｚのための圧縮コードが、第１のコードｚのための圧縮コードに基づいて予測され得、第３のコードｚのための圧縮コードが、第１のコードｚのための圧縮コードおよび第２のコードｚのための圧縮コードに基づいて予測され得、以下同様である。圧縮コードは、概して、圧縮されるべき所与の画像の異なる時空間チャンクを表す。

[0099] いくつかの態様では、ｚは３次元テンソルとして表され得る。テンソルの３つの次元は、（たとえば、コードｚ_c,w,hとして示される）特徴チャネル次元、ならびに高さおよび幅空間次元を含み得る。（チャネルならびに水平および垂直位置によってインデックス付けされるコードを表す）各コードｚ_c,w,hは、前のコードに基づいて予測され得、これは、コードの固定のおよび理論的に任意の順序付けであり得る。いくつかの例では、コードは、所与の画像ファイルを開始から終了まで分析することと、画像中の各ブロックをラスタ走査順序で分析することとによって生成され得る。

[0100] コードモデル４０４は、確率自己回帰モデルを使用して入力コードｚのための確率分布を学習することができる。確率分布は、（上記で説明されたように）それの前の値を条件とし得る。いくつかの例では、確率分布は、以下の式によって表され得る。

ここで、ｃは、すべての画像チャネルＣ（たとえば、Ｒ、Ｇ、およびＢチャネル、Ｙ、Ｃｂ、およびＣｒチャネル、または他のチャネル）のためのチャネルインデックスであり、ｗは、総画像フレーム幅Ｗのための幅インデックスであり、ｈは、総画像フレーム高さＨのための高さインデックスである。

[0101] いくつかの例では、確率分布Ｐ（ｚ）は、因果的畳み込みの完全畳み込みニューラルネットワークによって予測され得る。いくつかの態様では、畳み込みニューラルネットワークの各層のカーネルは、畳み込みネットワークが、確率分布を計算する際に前の値ｚ_0:c,0:w,0:hに気づいており、他の値に気づいていないことがあるようにマスキングされ得る。いくつかの態様では、畳み込みネットワークの最終層は、ラテント空間中のコードが入力値にわたって適用可能である確率（たとえば、所与のコードが所与の入力を圧縮するために使用され得る尤度）を決定するソフトマックス関数を含み得る。

[0102] 算術コーダ４０６は、コードｚの予測に対応する（「００１００１１．．．」として図４に示されている）ビットストリーム４１５を生成するために、コードモデル４０４によって生成された確率分布Ｐ（ｚ）を使用する。コードｚの予測は、可能なコードのセットにわたって生成された確率分布Ｐ（ｚ）中で最も高い確率スコアを有するコードとして表され得る。いくつかの態様では、算術コーダ４０６は、コードｚの予測の正確さとオートエンコーダ４０１によって生成された実際のコードｚとに基づいて、可変長のビットストリームを出力することができる。たとえば、ビットストリーム４１５は、予測が正確である場合、短いコードワードに対応することができるが、ビットストリーム４１５は、コードｚとコードｚの予測との間の差分の大きさが増加するにつれて、より長いコードワードに対応し得る。

[0103] いくつかの場合には、ビットストリーム４１５は、圧縮された画像ファイルに記憶するために算術コーダ４０６によって出力され得る。ビットストリーム４１５はまた、要求元デバイス（たとえば、図４に示されているように、受信デバイス４２０）への送信のために出力され得る。概して、算術コーダ４０６によって出力されたビットストリーム４１５は、圧縮された画像ファイル上に適用された展開プロセス中にｚが正確に復元され得るように、ｚを可逆的に符号化し得る。

[0104] 算術コーダ４０６によって生成され、送信デバイス４１０から送信されたビットストリーム４１５は、受信デバイス４２０によって受信され得る。送信デバイス４１０と受信デバイス４２０との間の送信は、様々な好適なワイヤードまたはワイヤレス通信技術のいずれかを使用して行われ得る。送信デバイス４１０と受信デバイス４２０との間の通信は、直接であり得るか、または、１つまたは複数のネットワークインフラストラクチャ構成要素（たとえば、基地局、中継局、移動局、ネットワークハブ、ルータ、および／または他のネットワークインフラストラクチャ構成要素）を通して実施され得る。

[0105] 図示のように、受信デバイス４２０は、算術デコーダ４２６と、コードモデル４２４と、オートエンコーダ４２１とを含むことができる。オートエンコーダ４２１は、エンコーダ４２２とデコーダ４２３とを含む。デコーダ４２３は、所与の入力について、デコーダ４０３と同じまたは同様の出力を生成することができる。オートエンコーダ４２１はエンコーダ４２２を含むものとして示されているが、エンコーダ４２２は、送信デバイス４１０から受信されたコードｚから

（たとえば、送信デバイス４１０において圧縮された元の画像ｘの近似）を取得するために、復号プロセス中に使用される必要がない。

[0106] 受信されたビットストリーム４１５は、ビットストリームから１つまたは複数のコードｚを取得するために算術デコーダ４２６に入力され得る。算術デコーダ４２６は、可能なコードのセットにわたってコードモデル４２４によって生成された確率分布Ｐ（ｚ）と、各生成されたコードｚをビットストリームに関連付ける情報とに基づいて、展開されたコードｚを抽出し得る。ビットストリームの受信された部分と次のコードｚの確率予測とを仮定すれば、算術デコーダ４２６は、新しいコードｚを、それが送信デバイス４１０において算術コーダ４０６によって符号化されたように、生成することができる。新しいコードｚを使用して、算術デコーダ４２６は、連続するコードｚについての確率予測を行い、ビットストリームの追加の部分を読み取り、受信されたビットストリーム全体が復号されるまで連続するコードｚを復号することができる。展開されたコードｚは、オートエンコーダ４２１中のデコーダ４２３に提供され得る。デコーダ４２３は、コードｚを展開し、画像コンテンツｘの（再構築または復号された画像と呼ばれることがある）近似

を出力する。いくつかの場合には、コンテンツｘの近似

は、後の取出しのために記憶され得る。いくつかの場合には、コンテンツｘの近似

は、受信デバイス４２０によって復元され、受信デバイス４２０に通信可能に結合されたまたはそれと一体のスクリーン上に表示され得る。

[0107] 上述のように、送信デバイス４１０のオートエンコーダ４０１およびコードモデル４０４は、前にトレーニングされた機械学習システムとして図４に示されている。いくつかの態様では、オートエンコーダ４０１およびコードモデル４０４は、画像データを使用して一緒にトレーニングされ得る。たとえば、オートエンコーダ４０１のエンコーダ４０２は、入力として第１のトレーニング画像ｎを受信することができ、第１のトレーニング画像ｎをラテントコード空間中のコードｚにマッピングすることができる。コードモデル４０４は、（上記で説明された技法と同様の）確率自己回帰モデルを使用してコードｚのための確率分布Ｐ（ｚ）を学習することができる。算術コーダ４０６は、画像ビットストリームを生成するために、コードモデル４０４によって生成された確率分布Ｐ（ｚ）を使用することができる。コードモデル４０４からのビットストリームおよび確率分布Ｐ（ｚ）を使用して、算術コーダ４０６は、コードｚを生成することができ、コードｚをオートエンコーダ４０１のデコーダ４０３に出力することができる。デコーダ４０３は、次いで、コードｚを展開して、第１のトレーニング画像ｎの再構築

を取得することができる（ここで、再構築

は、圧縮されていない第１のトレーニング画像ｎの近似である）。

[0108] いくつかの場合には、送信デバイス４１０のトレーニング中に使用されるバックプロパゲーションエンジンが、１つまたは複数の損失関数に基づいてオートエンコーダ４０１およびコードモデル４０４のニューラルネットワークのパラメータ（たとえば、重み、バイアスなど）を調整するために、バックプロパゲーションプロセスを実施することができる。いくつかの場合には、バックプロパゲーションプロセスは、確率的勾配降下技法に基づき得る。バックプロパゲーションは、フォワードパスと、１つまたは複数の損失関数と、バックワードパスと、重み（および／または（１つまたは複数の）他のパラメータ）更新とを含むことができる。フォワードパスと、損失関数と、バックワードパスと、パラメータ更新とは、１つのトレーニング反復のために実施され得る。プロセスは、ニューラルネットワークの重みおよび／または他のパラメータが正確に調整されるまでトレーニングデータの各セットについて、ある数の反復の間繰り返され得る。

[0109] たとえば、オートエンコーダ４０１は、ｎと、

とを比較して、第１のトレーニング画像ｎと、再構築された第１のトレーニング画像

との間の（たとえば、距離ベクトルまたは他の差分値によって表される）損失を決定することができる。損失関数は、出力中の誤差を分析するために使用され得る。いくつかの例では、損失は最尤に基づき得る。圧縮されていない画像ｎを入力として使用し、再構築された画像

を出力として使用する１つの例示的な例では、損失関数Ｌｏｓｓ＝Ｄ＋β＊Ｒは、オートエンコーダ４０１およびコードモデル４０４のニューラルネットワークシステムをトレーニングするために使用され得、ここで、Ｒはレートであり、Ｄはひずみであり、＊は乗算関数を示し、βは、ビットレートを定義する値に設定されるトレードオフパラメータである。別の例では、損失関数

は、オートエンコーダ４０１およびコードモデル４０４のニューラルネットワークシステムをトレーニングするために使用され得る。他のトレーニングデータが使用されるときなど、いくつかの場合には、他の損失関数が使用され得る。別の損失関数の一例は、

として定義された平均２乗誤差（ＭＳＥ）を含む。ＭＳＥは、実際の応答－予測された（出力）応答を２乗したものの和の１／２倍を計算する。

[0110] 決定された損失（たとえば、距離ベクトルまたは他の差分値）に基づいて、およびバックプロパゲーションプロセスを使用して、オートエンコーダ４０１およびコードモデル４０４のニューラルネットワークシステムのパラメータ（たとえば、重み、バイアスなど）は、入力された圧縮されていない画像と、オートエンコーダ４０１によって出力として生成された圧縮された画像コンテンツとの間の損失を低減するように調節され得る（受信された画像コンテンツとラテントコード空間との間のマッピングを効果的に調節する）。

[0111] 実際の出力値（再構築された画像）が入力画像とは大きく異なり得るので、損失（または誤差）は、第１のトレーニング画像について高くなり得る。トレーニングの目的は、予測された出力のための損失の量を最小限に抑えることである。ニューラルネットワークは、（対応する重みをもつ）ニューラルネットワークのどのノードがニューラルネットワークの損失に最も寄与したのかを決定することによってバックワードパスを実施することができ、損失が減少し、最終的に最小限に抑えられるように重み（および／または他のパラメータ）を調節することができる。ニューラルネットワークの損失に最も寄与した重みを決定するために、（ｄＬ／ｄＷとして示される、ここで、Ｗは特定の層における重みである）重みに対する損失の導関数が計算され得る。たとえば、重みは、それらが勾配の反対方向に変化するように更新され得る。重み更新は、

として示され得、ここで、ｗは、重みを示し、ｗ_iは、初期重みを示し、ηは、学習レートを示す。学習レートは、任意の好適な値に設定され得、高い学習レートはより大きい重み更新を含み、より低い値はより小さい重み更新を示す。

[0112] オートエンコーダ４０１およびコードモデル４０４のニューラルネットワークシステムは、所望の出力が達成されるまでそのような様式でトレーニングされ続けることができる。たとえば、オートエンコーダ４０１およびコードモデル４０４は、入力画像ｎと生成されたコードｚの展開から生じる再構築された画像

との間の差分を最小限に抑えるかまたはさもなければ低減するために、バックプロパゲーションプロセスを繰り返すことができる。

[0113] オートエンコーダ４２１およびコードモデル４２４は、送信デバイス４１０のオートエンコーダ４０１およびコードモデル４０４をトレーニングするための上記で説明されたものと同様の技法を使用してトレーニングされ得る。いくつかの場合には、オートエンコーダ４２１およびコードモデル４２４は、送信デバイス４１０のオートエンコーダ４０１およびコードモデル４０４をトレーニングするために使用される同じまたは異なるトレーニングデータセットを使用してトレーニングされ得る。

[0114] 図４に示されている例では、レートひずみオートエンコーダ（送信デバイス４１０および受信デバイス４２０）は、ビットレートに従って推論においてトレーニングされ、稼働される。いくつかの実装形態では、レートひずみオートエンコーダは、変動する情報量がラテントコードｚにおいて提供されるとき、（たとえば、入力画像に関するひずみによる限られたアーティファクトを伴わないまたは伴う）高品質の再構築された画像またはビデオフレームの生成および出力を可能にするために、複数のビットレートにおいてトレーニングされ得る。

[0115] いくつかの実装形態では、ラテントコードｚは、少なくとも２つのチャンクｚ₁およびｚ₂に分割され得る。ＲＤ－ＡＥモデルが高レート設定において使用されるとき、両方のチャンクが復号のためにデバイスに送信される。レートひずみオートエンコーダモデルが低レート設定において使用されるとき、チャンクｚ₁のみが送信され、チャンクｚ₂がデコーダ側でｚ₁から推論される。ｚ₁からのｚ₂の推論は、以下でより詳細に説明されるように、様々な技法を使用して実施され得る。

[0116] いくつかの実装形態では、（たとえば、大量の情報を伝達することができる）連続ラテントと（たとえば、より少ない情報を含んでいる）対応する量子化された離散ラテントとのセットが使用され得る。ＲＤ－ＡＥモデルをトレーニングした後に、補助逆量子化モデルがトレーニングされ得る。いくつかの場合には、ＲＤ－ＡＥを使用するとき、離散ラテントのみが送信され、補助逆量子化モデルは、離散ラテントから連続ラテントを推論するためにデコーダ側で使用される。

[0117] システム４００がいくつかの構成要素を含むように示されているが、システム４００が図４に示されている構成要素よりも多いまたは少ない構成要素を含むことができることを、当業者は諒解されよう。たとえば、システム４００の送信デバイス４１０および／または受信デバイス４２０はまた、いくつかの事例では、１つまたは複数のメモリデバイス（たとえば、ＲＡＭ、ＲＯＭ、キャッシュなど）、１つまたは複数のネットワーキングインターフェース（たとえば、ワイヤードおよび／またはワイヤレス通信インターフェースなど）、１つまたは複数のディスプレイデバイス、および／あるいは図４に示されていない他のハードウェアまたは処理デバイスを含むことができる。図４に示されている構成要素および／またはシステム４００の他の構成要素は、１つまたは複数の計算または処理構成要素を使用して実装され得る。１つまたは複数の計算構成要素は、中央処理ユニット（ＣＰＵ）、グラフィックス処理ユニット（ＧＰＵ）、デジタル信号プロセッサ（ＤＳＰ）、および／または画像信号プロセッサ（ＩＳＰ）を含むことができる。システム１６００とともに実装され得るコンピューティングデバイスおよびハードウェア構成要素の例示的な例が、図１６に関して以下で説明される。

[0118] システム４００は、単一のコンピューティングデバイスまたは複数のコンピューティングデバイスの一部であるか、またはそれによって実装され得る。いくつかの例では、送信デバイス４１０は第１のデバイスの一部であり得、受信デバイス４２０は第２のコンピューティングデバイスの一部であり得る。いくつかの例では、送信デバイス４１０および／または受信デバイス４２０は、電話システム（たとえば、スマートフォン、セルラー電話、会議システムなど）、デスクトップコンピュータ、ラップトップまたはノートブックコンピュータ、タブレットコンピュータ、セットトップボックス、スマートテレビジョン、ディスプレイデバイス、ゲーミングコンソール、ビデオストリーミングデバイス、ＳＯＣ、ＩｏＴ（モノのインターネット）デバイス、スマートウェアラブルデバイス（たとえば、ヘッドマウントディスプレイ（ＨＭＤ）、スマートグラスなど）、カメラシステム（たとえば、デジタルカメラ、ＩＰカメラ、ビデオカメラ、防犯カメラなど）、または（１つまたは複数の）任意の他の好適な電子デバイスなど、（１つまたは複数の）電子デバイスの一部として含まれ得る。いくつかの場合には、システム４００は、図１に示されている画像処理システム１００によって実装され得る。他の場合、システム４００は、１つまたは複数の他のシステムまたはデバイスによって実装され得る。

[0119] 図５Ａは、例示的なニューラルネットワーク圧縮システム５００を示す図である。いくつかの例では、ニューラルネットワーク圧縮システム５００は、ＲＤ－ＡＥシステムを含むことができる。図５Ａでは、ニューラルネットワーク圧縮システム５００は、エンコーダ５０２と、算術エンコーダ５０８と、算術デコーダ５１２と、デコーダ５１４とを含む。いくつかの場合には、エンコーダ５０２および／またはデコーダ５１４は、それぞれ、エンコーダ４０２および／またはデコーダ４０３と同じであり得る。他の場合には、エンコーダ５０２および／またはデコーダ５１４は、それぞれ、エンコーダ４０２および／またはデコーダ４０３とは異なり得る。

[0120] エンコーダ５０２は、画像５０１（画像ｘ_i）を入力として受信することができ、画像５０１（画像ｘ_i）をラテントコード空間中のラテントコード５０４（ラテントｚ_i）にマッピングし、および／またはコンバートすることができる。画像５０１は、静止画像、および／またはフレームのシーケンス（たとえば、ビデオ）に関連付けられたビデオフレームを表すことができる。いくつかの場合には、エンコーダ５０２は、ラテントコード５０４を生成するためにフォワードパスを実施することができる。いくつかの例では、エンコーダ５０２は、学習可能な関数を実装することができる。いくつかの場合には、エンコーダ５０２は、

によってパラメータ化された学習可能な関数を実装することができる。たとえば、エンコーダ５０２は、関数

を実装することができる。いくつかの例では、学習可能な関数は、デコーダ５１４と共有されるか、またはデコーダ５１４によって知られている必要がない。

[0121] 算術エンコーダ５０８は、ラテントコード５０４（ラテントｚ_i）およびラテントプライア（latent prior）５０６に基づいてビットストリーム５１０を生成することができる。いくつかの例では、ラテントプライア５０６は、学習可能な関数を実装することができる。いくつかの場合には、ラテントプライア５０６は、ψによってパラメータ化された学習可能な関数を実装することができる。たとえば、ラテントプライア５０６は、関数ｐ_ψ（ｚ）を実装することができる。ラテントプライア５０６は、可逆圧縮を使用してラテントコード５０４（ラテントｚ_i）をビットストリーム５１０にコンバートするために使用され得る。ラテントプライア５０６は、送出機側（sender side）（たとえば、エンコーダ５０２および／または算術エンコーダ５０８）と受信機側（receiver side）（たとえば、算術デコーダ５１２および／またはデコーダ５１４）の両方において共有され、および／または利用可能にされ得る。

[0122] 算術デコーダ５１２は、符号化されたビットストリーム５１０を算術エンコーダ５０８から受信し、ラテントプライア５０６を使用して、符号化されたビットストリーム５１０中のラテントコード５０４（ラテントｚ_i）を復号することができる。デコーダ５１４は、ラテントコード５０４（ラテントｚ_i）を近似再構築画像５１６（再構築

）に復号することができる。いくつかの場合には、デコーダ５１４は、θによってパラメータ化された学習可能な関数を実装することができる。たとえば、デコーダ５１４は、関数ｐ_θ（ｘ｜ｚ）を実装することができる。デコーダ５１４によって実装される学習可能な関数は、送出機側（たとえば、エンコーダ５０２および／または算術エンコーダ５０８）と受信機側（たとえば、算術デコーダ５１２および／またはデコーダ５１４）の両方において共有され、および／または利用可能にされ得る。

[0123] ニューラルネットワーク圧縮システム５００は、レートひずみを最小限に抑えるようにトレーニングされ得る。いくつかの例では、レートはビットストリーム５１０（ビットストリームｂ）の長さを反映し、ひずみは、画像５０１（画像ｘ_i）と再構築画像５１６（再構築

）との間のひずみを反映する。パラメータβが、特定のレートひずみ比についてモデルをトレーニングするために使用され得る。いくつかの例では、パラメータβは、レートとひずみとの間のあるトレードオフを定義および／または実装するために使用され得る。

[0124] いくつかの例では、損失が以下のように示され得る。

ここで、関数Ｅは期待値である。ひずみ（ｘ│ｚ；θ）は、たとえば、平均２乗誤差（ＭＳＥ）など、損失関数に基づいて決定され得る。いくつかの例では、項－ｌｏｇｐ_θ（ｘ│ｚ）は、ひずみＤ（ｘ｜ｚ；θ）を示し、および／または表すことができる。

[0125] ラテントを送出するためのレートは、Ｒ_z（ｚ；ψ）として示され得る。いくつかの例では、項ｌｏｇｐ_ψ（ｚ）は、レートＲ_z（ｚ；ψ）を示し、および／または表すことができる。いくつかの場合には、損失は、以下のように、フルデータセットＤにわたって最小限に抑えられ得る。

[0126] 図５Ｂは、推論プロセスを実装するための例示的なニューラルネットワーク圧縮システム５３０を示す図である。図示のように、エンコーダ５０２は、画像５０１をラテントコード５０４にコンバートすることができる。いくつかの例では、画像５０１は、静止画像、および／またはフレームのシーケンス（たとえば、ビデオ）に関連付けられたビデオフレームを表すことができる。

[0127] いくつかの例では、エンコーダ５０２は、単一のフォワードパスを使用して画像５０１を符号化することができる。

算術エンコーダ５０８は、次いで、ラテントプライア５０６下でラテントコード５０４（ラテントｚ_i）の算術コーディングを実施して、ビットストリーム５２０

を生成することができる。いくつかの例では、算術エンコーダ５０８は、以下のようにビットストリーム５２０を生成することができる。

[0128] 算術デコーダ５１２は、算術エンコーダ５０８からビットストリーム５２０を受信し、ラテントプライア５０６下でラテントコード５０４（ラテントｚ_i）の算術復号を実施することができる。いくつかの例では、算術デコーダ５１２は、以下のようにビットストリーム５２０からラテントコード５０４を復号することができる。

デコーダ５１４は、ラテントコード５０４（ラテントｚ_i）を復号し、再構築画像５１６（再構築

）を生成することができる。いくつかの例では、デコーダ５１４は、以下のように単一のフォワードパスを使用してラテントコード５０４（ラテントｚ_i）を復号することができる。

[0129] いくつかの例では、ＲＤ－ＡＥシステムは、トレーニングデータのセットを使用してトレーニングされ、さらに、受信機（たとえば、デコーダ）に送信され、それによって復号されるべきデータポイント（たとえば、画像データ、ビデオデータ、オーディオデータ）について微調整され得る。たとえば、推論時間において、ＲＤ－ＡＥシステムは、受信機に送信されている画像データに関して微調整され得る。圧縮モデルは概して大きいので、モデルに関連付けられたパラメータを受信機に送出することは、ネットワーク（たとえば、帯域幅など）、記憶域および計算リソースなど、リソースに関して、極めてコストがかかることがある。いくつかの場合には、ＲＤ－ＡＥシステムは、圧縮され、展開のために受信機に送出されている単一のデータポイントに関して、微調整され得る。これは、圧縮／展開効率、性能、および／または品質を維持し、および／または増加させながら、受信機に送出される情報の量（および関連するコスト）を制限することができる。

[0130] 図６は、モデルプライアを使用して微調整される例示的なニューラルネットワーク圧縮システム６００によって実装される例示的な推論プロセスを示す図である。いくつかの例では、ニューラルネットワーク圧縮システム６００は、ＲＤＭ－ＡＥモデルプライアを使用して微調整されるＲＤ－ＡＥシステムを含むことができる。いくつかの場合には、ニューラルネットワーク圧縮システム６００は、モデルプライアを使用して微調整されるＡＥモデルを含むことができる。

[0131] この例示的な例では、ニューラルネットワーク圧縮システム６００は、エンコーダ６０２と、算術エンコーダ６０８と、算術デコーダ６１２と、デコーダ６１４と、モデルプライア６１６と、ラテントプライア６０６とを含む。いくつかの場合には、エンコーダ６０２は、エンコーダ４０２またはエンコーダ５０２と同じであるかまたはそれとは異なり得、デコーダ６１４は、デコーダ４０３またはデコーダ５１４と同じであるかまたはそれとは異なり得る。算術エンコーダ６０８は、算術コーダ４０６または算術エンコーダ５０８と同じであるかまたはそれとは異なり得、算術デコーダ６１２は、算術デコーダ４２６または算術デコーダ５１２と同じであるかまたはそれとは異なり得る。

[0132] ニューラルネットワーク圧縮システム６００は、画像６０１のためのラテントコード６０４（ラテントｚ_i）を生成することができる。ニューラルネットワーク圧縮システム６００は、ラテントコード６０４およびラテントプライア６０６を使用して画像６０１（画像ｘ_i）を符号化し、再構築画像６２０（再構築

）を生成するために受信機によって使用され得るビットストリーム６１０を生成することができる。いくつかの例では、画像６０１は、静止画像、および／またはフレームのシーケンス（たとえば、ビデオ）に関連付けられたビデオフレームを表すことができる。

[0133] いくつかの例では、ニューラルネットワーク圧縮システム６００は、ＲＤＭ－ＡＥ損失を使用して微調整され得る。ニューラルネットワーク圧縮システム６００は、レートひずみモデルレート（ＲＤＭ：rate-distortion-model rate）損失を最小限に抑えることによってトレーニングされ得る。いくつかの例では、エンコーダ側において、ＡＥモデルは、以下のようにＲＤＭ損失を使用して画像６０１（画像ｘ_i）に関して微調整され得る。

[0134] 微調整されたエンコーダ６０２は、画像６０１（画像ｘ_i）を符号化してラテントコード６０４を生成することができる。いくつかの場合には、微調整されたエンコーダ６０２は、以下のように単一のフォワードパスを使用して画像６０１（画像ｘ_i）を符号化することができる。

算術エンコーダ６０８は、ラテントプライア６０６を使用して、ラテントコード６０４を算術デコーダ６１２のためのビットストリーム６１０にコンバートすることができる。算術エンコーダ６０８は、モデルプライア６１６下で、微調整されたデコーダ６１４と微調整されたラテントプライア６０６とのパラメータをエントロピーコーディングし、微調整されたデコーダ６１４と微調整されたラテントプライア６０６との圧縮されたパラメータを含むビットストリーム６１１を生成することができる。いくつかの例では、ビットストリーム６１１は、微調整されたデコーダ６１４と微調整されたラテントプライア６０６との更新されたパラメータを含むことができる。更新されたパラメータは、たとえば、微調整より前のデコーダ６１４およびラテントプライア６０６など、ベースラインデコーダおよびラテントプライアに対するパラメータ更新を含むことができる。

[0135] いくつかの場合には、微調整されたラテントプライア６０６は、以下のようにモデルプライア６１６下でエントロピーコーディングされ得、

微調整されたデコーダ６１４は、以下のようにモデルプライア６１６下でエントロピーコーディングされ得、

ラテントコード６０４（ラテントｚ_i）は、以下のように、微調整されたラテントプライア６０６下でエントロピーコーディングされ得る。

いくつかの場合には、デコーダ側において、微調整されたラテントプライア６０６は、以下のようにモデルプライア６１６下でエントロピーコーディングされ得、

[0136] デコーダ６１４は、ラテントコード６０４（ラテントｚ_i）を近似再構築画像６２０（再構築

）に復号することができる。いくつかの例では、デコーダ６１４は、以下のように、微調整されたデコーダの単一のフォワードパスを使用してラテントコード６０４を復号することができる。

[0137] 前に説明されたように、ニューラルネットワーク圧縮システム６００は、ＲＤＭ損失を最小限に抑えることによってトレーニングされ得る。いくつかの場合には、レートはビットストリームｂ（たとえば、ビットストリーム６１０および／または６１１）の長さを反映することができ、ひずみは、入力画像６０１（画像ｘ_i）と再構築画像６２０（再構築

との間のひずみを反映することができ、モデルレートは、受信機に（たとえば、デコーダ６１４に）モデル更新（たとえば、更新されたパラメータ）を送出するために使用され、および／または必要とされるビットストリームの長さを反映することができる。パラメータβが、特定のレートひずみ比についてモデルをトレーニングするために使用され得る。

[0138] いくつかの例では、データポイントｘについての損失が、以下のように推論時間において最小限に抑えられ得る。

いくつかの例では、ＲＤＭ損失は以下のように示され得る。

いくつかの場合には、ひずみＤ（ｘ│ｚ；θ）は、たとえば、平均２乗誤差（ＭＳＥ）など、損失関数に基づいて決定され得る。

[0139] 項－ｌｏｇｐ_θ（ｘ│ｚ）は、ひずみＤ（ｘ｜ｚ；θ）を示し、および／または表すことができる。項β ｌｏｇｐ_ψ（ｚ）は、ラテントＲ_z（ｚ；ψ）を送出するためのレートを示し、および／または表すことができ、項β ｌｏｇｐ_ω（ψ，θ）は、微調整されたモデル更新Ｒ_ψ,θ（ψ，θ；ω）を送出するためのレートを示し、および／または表すことができる。

[0140] いくつかの場合には、モデルプライア６１６は、モデル更新を送出するためのビットレートオーバーヘッドの長さを反映することができる。いくつかの例では、モデル更新を送出するためのビットレートは、以下のように説明され得る。

いくつかの場合には、モデルプライアは、更新なしにモデルを送出することが安価であるように、すなわち、ビット長（モデルレート損失）が小さくなる：

ように、選択され得る。

[0141] いくつかの場合には、ＲＤＭ損失関数を使用して、ニューラルネットワーク圧縮システム６００は、ラテントレートまたはひずみが少なくとも同数のビットで減少する場合のみ、モデル更新のためのビットストリーム

にビットを追加し得る。これは、レートひずみ（Ｒ／Ｄ）性能にブーストを与え得る。たとえば、ニューラルネットワーク圧縮システム６００は、モデル更新を送出するためのビットストリーム６１１中のビットの数を、それが少なくとも同数のビットでレートまたはひずみを減少させることもできる場合、増加させ得る。他の場合には、ニューラルネットワーク圧縮システム６００は、ラテントレートまたはひずみが少なくとも同数のビットで減少しない場合でも、モデル更新のためのビットストリーム

にビットを追加し得る。

[0142] ニューラルネットワーク圧縮システム６００は、エンドツーエンドでトレーニングされ得る。いくつかの場合には、ＲＤＭ損失は、エンドツーエンドで推論時間において最小限に抑えられ得る。いくつかの例では、ある計算量（amount of compute）が１回費やされ（たとえば、モデルを微調整し）得、高い圧縮比が、その後、受信機側への余分のコストなしに取得され得る。たとえば、コンテンツプロバイダは、多数の受信機に提供されるビデオのためにニューラルネットワーク圧縮システム６００をより広範囲にわたってトレーニングおよび微調整するために、高い計算量を費やし得る。高度にトレーニングおよび微調整されたニューラルネットワーク圧縮システム６００は、そのビデオのための高い圧縮性能を提供することができる。高い計算量を費やしたので、ビデオプロバイダは、モデルプライアの更新されたパラメータを記憶し、圧縮されたビデオの各受信機に、ビデオを展開するために効率的に提供することができる。ビデオプロバイダは、モデルをトレーニングおよび微調整する初期計算コストを著しく上回ることがあるビデオの各送信での圧縮における大きい利益（ならびにネットワークおよび計算リソースの低減）を達成することができる。

[0143] ビデオおよび画像（たとえば、高解像度画像）中の多数のピクセルにより、上記で説明されたトレーニング／学習および微調整手法は、ビデオ圧縮および／または高解像度画像について極めて有利であり得る。いくつかの場合には、全体的なシステム設計および／または実装のための追加される考慮事項として、複雑さおよび／またはデコーダ計算が使用され得る。たとえば、推論を行うのが速い極めて小さいネットワークが微調整され得る。別の例として、受信機複雑さのためにコスト項が追加され得、これは、モデルに、１つまたは複数の層を除去することを強制し、および／またはそれを行わせることができる。いくつかの例では、一層大きい利得を達成するために、機械学習を使用して、より複雑なモデルプライアが学習され得る。

[0144] モデルプライア設計は、様々な属性を含むことができる。いくつかの例では、実装されるモデルプライアは、更新なしにモデルを送出するための高い確率

と、したがって低ビットレート

とを割り当てるモデルプライアを含むことができる。いくつかの場合には、モデルプライアは、

，

の周辺の値に非０確率を割り当てるモデルプライアを含むことができ、したがって、実際には、微調整されたモデルの異なるインスタンスが符号化され得る。いくつかの場合には、モデルプライアは、推論時間において量子化され、エントロピーコーディングを行うために使用され得る、モデルプライアを含むことができる。

[0145] 加速された研究開発にもかかわらず、（「コーデック」と呼ばれる）深層学習ベース圧縮コーダデコーダは、商用または消費者適用例においてまだ導入されていない。これの１つの理由は、ニューラルコーデックが、まだ、レートひずみに関して旧来のコーデックよりもロバストに優れていないことである。さらに、既存のニューラルベースコーデックは、さらなる実装課題を提示する。たとえば、ニューラルベースコーデックは、すべての受信機に関して、トレーニングされたニューラルネットワークを必要とする。したがって、異なるプラットフォームにわたるすべてのユーザが、復号関数を実施するために、そのようなニューラルネットワークの同等のコピーを記憶しなければならない。そのようなニューラルネットワークの記憶域は、かなりの量のメモリを消費し、維持することが困難であり、破損の影響を受けやすい。

[0146] 上述のように、上述の問題に対処することができる、暗黙的ニューラル圧縮コーデックを含むシステムおよび技法が、本明細書で説明される。たとえば、本開示の態様は、暗黙的ニューラルモデルと呼ばれることがある、暗黙的ニューラル表現（ＩＮＲ）に基づくビデオ圧縮コーデックを含む。本明細書で説明されるように、暗黙的ニューラルモデルは、入力として座標位置（たとえば、画像またはビデオフレーム内の座標）をとることができ、ピクセル値（たとえば、各座標位置またはピクセルについての赤緑青（ＲＧＢ）値など、画像またはビデオフレームについての色値）を出力することができる。いくつかの場合には、暗黙的ニューラルモデルは、ＩＰＢフレーム方式にも基づき得る。いくつかの例では、暗黙的ニューラルモデルは、暗黙的ニューラルオプティカルフロー（ＩＮＯＦ：implicit neural optical flow）と呼ばれる、オプティカルフローをモデル化するために入力データを修正することができる。

[0147] たとえば、暗黙的ニューラルモデルは、局所変換が要素単位の加算になることがある暗黙的ニューラル表現を用いてオプティカルフローをモデル化することができる。いくつかの場合には、オプティカルフローは、局所変換（たとえば、位置の関数としてのピクセルの移動）に対応することができる。いくつかの態様では、オプティカルフローは、圧縮性能を改善するためにビデオのフレームにわたってモデル化され得る。いくつかの場合には、暗黙的モデルは、対応する出力ピクセル値を生じるように入力座標位置を調節することによってオプティカルフローをモデル化することができる。たとえば、入力の要素単位の加算は出力における局所変換につながることがあり、これは、ピクセル移動の必要および関連する計算複雑さをなくすことができる。１つの例示的な例では、３つのピクセル（たとえば、Ｐ１｜Ｐ２｜Ｐ３）を有する第１のフレームおよび３つのピクセル（たとえば、Ｐ０｜Ｐ１｜Ｐ２）を有する第２のフレームからの遷移が、要素単位の減算または加算を実施することによってなど、（たとえば、ピクセルの位置をシフトする必要なしに）入力を修正することによって、暗黙的ニューラルモデルによってモデル化され得る。以下の図はこの例を示す。

[0148] １｜２｜３→Ｐ１｜Ｐ２｜Ｐ３
[0149] ０｜１｜２→Ｐ０｜Ｐ１｜Ｐ２
[0150] 上述のように、暗黙的ニューラルモデルは、入力として画像またはビデオフレームの座標位置をとることができ、画像またはビデオフレームについてのピクセル値を出力することができる。この場合、入力（１｜２｜３および０｜１｜２）は、暗黙的ニューラルモデルへの入力を表し、画像内の座標を含む。出力（Ｐ１｜Ｐ２｜Ｐ３）および（Ｐ０｜Ｐ１｜Ｐ２）は、暗黙的ニューラルモデルの出力を表し、ＲＧＢ値を含むことができる。上記の２つのライン（１｜２｜３→Ｐ１｜Ｐ２｜Ｐ３および０｜１｜２→Ｐ０｜Ｐ１｜Ｐ２）の各々は、入力が「１」の値だけ変化し、出力における対応するシフトを生じる、同じモデルに対応する。旧来のオプティカルフローでは、機械学習モデル自体が、あるフレームから次のフレームにピクセルの位置をシフトしなければならない。暗黙的機械学習モデルは入力として座標をとるので、入力は、あらゆる入力値を１だけ減算するように（コーデックによって処理されるより前に）前処理され得、その場合、出力は、シフトされ、したがって、オプティカルフローを効果的にモデル化する。いくつかの場合には、（たとえば、フレーム中のオブジェクトが特定の方向に移動するとき）要素単位の加算が実施され得、値（たとえば、１の値）が入力値に加算される。

[0151] いくつかの例では、暗黙的ニューラルモデルの重み更新とともにフレームにわたって残差がモデル化され得る。いくつかの場合には、本技術は、インター予測フレーム（たとえば、単方向フレーム（Ｐフレーム）および／または双方向フレーム（Ｂフレーム））を圧縮するために必要とされるビットレートを低減するために使用され得る。いくつかの例では、イントラフレーム（たとえば、イントラフレームまたはＩフレーム）を処理するために畳み込みベースアーキテクチャが使用され得る。暗黙的モデルの復号計算ボトルネックを解消するために畳み込みベースアーキテクチャが使用され、符号化および復号するのが速い、得られたモデルを生じ得る。いくつかの態様では、データをビットストリームにコンバートすることは、Ｉフレームについてのポストトレーニング（post-training）量子化と、ＰフレームおよびＢフレームについての量子化アウェア（quantization-aware）トレーニングとを用いて実施され得る。

[0152] いくつかの場合には、モデルは、完全なニューラル圧縮コーデックを形成するために量子化および／または符号化され得る。いくつかの例では、モデルは受信機に送出され得る。いくつかの場合には、モデルの微調整がＰフレームおよびＢフレーム上で実施され得、収束された更新が受信機に送出され得る。いくつかの態様では、モデルは、スパース性を誘導する（sparsity inducing）プライア、ならびに／またはＰフレームおよびＢフレームについてのビットレートを最小限に抑えることができる量子化アウェアプロシージャを用いて、微調整され得る。既存のニューラル圧縮コーデックと比較して、暗黙的ニューラルモデルベースニューラル圧縮コーデックは、受信機側において（および、いくつかの場合には送信機側において）事前トレーニングされたネットワークについての要件をなくす。本技術の性能は、前のＩＮＲベースニューラルコーデックよりも向上した性能を伴って、画像データセットとビデオデータセットの両方に関して旧来のニューラルベースコーデックと比べて勝っている。

[0153] いくつかの態様では、ビデオおよび画像圧縮のために、暗黙的ニューラル表現（ＩＮＲ）方法／モデルが使用され得る。ビデオまたは画像は、ニューラルネットワークとして実装され得る関数として表され得る。いくつかの例では、画像またはビデオを符号化することは、アーキテクチャを選定することと、単一の画像またはビデオに対してネットワーク重みを過剰適合させることとを含むことができる。いくつかの例では、復号は、ニューラルネットワークフォワードパスを含むことができる。圧縮のために使用される暗黙的ニューラルモデルの１つの課題は、復号計算効率である。たいていの既存の暗黙的ニューラルモデルは、入力データ中の各ピクセルについて１つのフォワードパスを必要とする。いくつかの態様では、本技術は、高解像度ビデオまたは画像を復号することに関連付けられた計算オーバーヘッドを低減し、したがって復号時間およびメモリ要件を低減することができる暗黙的ニューラル表現モデルの一般化として、畳み込みアーキテクチャを含む。

[0154] いくつかの例では、ビットレートは、記憶されたモデル重みのサイズによって決定され得る。いくつかの場合には、本明細書で開示される暗黙的ニューラル手法の性能を改善するために、モデルサイズは、ビットレートを改善するために低減され得る。いくつかの構成では、モデルサイズを低減することは、重みを量子化することと、量子化されたネットワーク重みを可逆圧縮するために使用され得る重みプライアを適合させることとによって、実施され得る。

[0155] いくつかの場合には、本技術は、最先端のニューラル画像およびビデオコーデックの圧縮性能にマッチすることができる。本明細書で開示されるコーデックの１つの例示的な利点は、それが、受信機側でニューラルネットワークを記憶する必要をなくすことができ、軽量フレームワークを用いて実装され得ることである。（たとえば、スケール空間フロー（ＳＳＦ：scale-space flow）のようなニューラルコーデックと比較した）別の利点は、ハードウェアで実装することが困難であり得るフロー動作の不在である。さらに、復号関数は、標準的なニューラルコーデックにおけるものよりも速くなり得る。さらに、本技術は、それが、符号化されるべきであるデータ（たとえば、画像、ビデオフレーム、ビデオなどの現在のインスタンス）を使用して暗黙的にトレーニングされ得るので、別個のトレーニングデータセットを必要としない。本明細書で説明される暗黙的ニューラルモデルの構成は、潜在的プライバシー問題を回避するのを助けることができ、好適なトレーニングデータが利用可能でないものを含む、異なるドメインからのデータに対してうまく機能する。

[0156] ニューラル圧縮コードに関係する一例では、ニューラルビデオ圧縮は、変分または圧縮オートエンコーダのフレームワークを使用して実装され得る。そのようなモデルは、以下のようにレートひずみ（ＲＤ）損失を最適化するように構成される。

[0157] この例では、エンコーダｑ_φは、各インスタンスｘをラテントｚにマッピングし、デコーダｐは再構築を復元する。トレーニングされたデコーダが受信機側において利用可能であると仮定すると、送信されたビットストリームは、符号化されたラテントｚを含む。このタイプの構成の例は、３Ｄ畳み込みアーキテクチャおよびＩＰフレームフローアーキテクチャを含み、これは、各Ｐフレームについて、前のフレームを条件とする。別の例は、モデルが各テストインスタンスに関して微調整されるインスタンス適応微調整を含み、モデルはラテントとともに送信される。この方法は、前の作業に勝る利点（たとえば、ドメインシフトに対するロバストネスおよびモデルサイズの低減）を含むことができるが、それは、依然として、事前トレーニングされたグローバルデコーダが受信機サイズにおいて利用可能であることを必要とする。

[0158] ニューラル圧縮コーデックに関係する別の例では、画像を、ニューラルネットワーク重みとしてそれらの暗黙的表現を通して圧縮するために、モデルが使用され得る。この構成は、異なる数の層およびチャネルをもつ正弦波表現ネットワーク（ＳＩＲＥＮ：sinusoidal representation network）ベースモデルを実装し、それらを１６ビット精度に量子化する。説明される暗黙的ニューラルコーデックは、画像圧縮タスクのためにＳＩＲＥＮモデルを使用し得る他のシステムとは異なる。たとえば、いくつかの例では、本明細書で説明される暗黙的ニューラルコーデックは、位置符号化（positional encoding）を用いた畳み込みアーキテクチャを含むことができ、量子化とエントロピーコーディングとを含むより高度な圧縮方式を実装することができ、ビデオ圧縮を実施することができる。

[0159] 暗黙的ニューラル表現に関係する一例では、暗黙的表現は、３次元構造および明視野を学習するために使用された。いくつかの事例では、これらの構成は、単一のシーンがネットワーク重みによって符号化されるように、単一のシーンに関してニューラルネットワークをトレーニングすることができる。次いで、シーンの新しいビューが、ネットワークのフォワードパスを通して生成され得る。いくつかの態様では、これらの方法は、離散的同等物よりも効率的であり得、なぜなら、オブジェクトデータが高次元座標フレーム中の低次元多様体上にあるとき、離散的表現において高い冗長があり、ここで、座標の各セットに値が関連付けられるからである。いくつかの例では、暗黙的ニューラル表現は、そのような冗長を活用し、それにより効率的な表現を学習することが可能である。

[0160] 暗黙的表現は、画像およびビデオなど、より低次元の座標をもつデータに適用され得るが、離散的またはラテント表現と比較した相対効率は、まだ決定されていない。さらに、暗黙的表現を使用する既存の構成の性能は、離散的表現を使用するまたは確立された圧縮コーデックをもつ、構成の性能にマッチするか、またはそれを超える必要がある。

[0161] 入力データの次元にかかわらず、表現の正しいクラスを選定することが重要である。いくつかの例では、フーリエドメイン特徴は、現実的なシーンの構造を学習する暗黙的ニューラルモデルの助けとなる。たとえば、フーリエドメイン特徴は自然言語処理のために実装され、ここで、センテンス中の単語のフーリエ位置符号化が、完全アテンションアーキテクチャを用いたそのとき最先端の言語モデル化を可能にするために示される。さらに、ビジョンタスクの暗黙的ニューラルモデル化に関して、構成は、ＭＬＰモデルにおいてパスすることより前に、エンコーダとして、ランダムにサンプリングされたフーリエ周波数を使用することができる。さらに、いくつかの構成は、重みが慎重に初期化されるとすれば、正弦関数であり得るすべてのＭＬＰ活性化を含み、ここで、Ｘ_intはｂビットをもつ整数テンソルであり、ｓは浮動小数点におけるスケーリングファクタ（またはベクトル）である。

[0162] いくつかの例では、ニューラルネットワーク量子化は、リソース制約デバイス上でより効率的にモデルを稼働することを可能にするために、モデルサイズを低減するために使用され得る。ニューラルネットワーク量子化の例は、量子化されたテンソルを、整数テンソルとスケーリングファクタとを含む固定小数点数でテンソルを表すことができるコードブックおよび固定小数点量子化（fixed-point quantization）を使用して表すことができる、ベクトル量子化を含む。固定小数点では、量子化関数は、次のように定義され得る。

[0163] ここで、θ_intはｂビットをもつ整数テンソルであり、ｓは浮動小数点におけるスケーリングファクタ（またはベクトル）である。いくつかの態様では、シンボルτ＝（ｓ，ｂ）は、すべての量子化パラメータのセットを指すために使用され得る。

[0164] いくつかの例では、ニューラルネットワークにおける重みテンソル（たとえば、すべての重みテンソル）の低ビット量子化は、かなりの量子化雑音を招くことがある。量子化アウェアトレーニングでは、ニューラルネットワークは、量子化演算を用いてエンドツーエンドでそれらをトレーニングすることによって、量子化雑音に適応することができる。式２における丸め演算は微分不可能であるので、通常、それの勾配を近似するためにストレートスルー推定器（ＳＴＥ：straight-trough estimator）が使用される。いくつかの場合には、ネットワークと一緒にスケーリングファクタを学習することに加えて、あらゆる層についてテンソルごとのビット幅を学習することも実施され得る。いくつかの態様では、本技術は、量子化ビット幅をレート損失（rate loss）として策定することができ、ビットレートとピクセル空間におけるひずみとの間の最も良好なトレードオフを暗黙的に学習するためにＲＤ損失を最小限に抑えることができる。

[0165] 図７Ａは、暗黙的ニューラルネットワーク圧縮システム７００に基づく例示的なコーデックを示す図である。いくつかの態様では、暗黙的ニューラル圧縮システム７００は、ひずみおよび／またはビットレートを最適化するように構成された暗黙的圧縮モデルをトレーニングするためのパイプラインを含むことができる。いくつかの例では、ひずみは、ひずみ目標に対して暗黙的モデルΨ（ｗ）７０４の重みｗ７０６をトレーニングすることによって、最小限に抑えられ得る。いくつかの態様では、レートは、量子化関数Ｑ_τ（ｗ）を用いて重み７０６を量子化することによって、および、量子化された重み７０８にわたって重みプライア

７１２を適合させることによって、最小限に抑えられ得る。ある例では、以下のように、これらの構成要素は組み合わせられて、レートひずみ損失を反映する単一の目標になり得る。

[0166] いくつかの例では、（たとえば、１つまたは複数の画像を含むことができる入力画像データ７０２に対応する）データポイントｘを「符号化」する第１のステップは、データポイント（たとえば、入力画像データ７０２）についての式（３）における損失の最小値を見つけることである。いくつかの場合には、損失の最小値は、探索および／またはトレーニングアルゴリズムを使用して取得され得る。たとえば、図７Ａに示されているように、送信機側で暗黙的ニューラルモデル７０４をトレーニングするために、座標グリッド７０３が暗黙的モデル７０４に入力される。トレーニングの前に、暗黙的モデル７０４の重みは初期値に初期化される。重みの初期値は、座標グリッド７０３を処理するために、および、式（３）においてΨ（Ｑ_τ（ω））として表される、入力画像データ７０２についての再構築された出力値（たとえば、各ピクセルについてのＲＧＢ値）を生成するために、使用される。圧縮されている実際の入力画像データ７０２は、式（３）においてデータポイントｘとして表される、知られている出力（またはラベル）として使用され得る。次いで、再構築された出力値（Ψ（Ｑ_τ（ω）））と、知られている出力（図７Ａ中の入力画像データ７０２であるデータポイントｘ）との間で、損失（Ｌ_NIC（Ψ，ω，τ，ω））が決定され得る。損失に基づいて、暗黙的モデル７０４の重みは、（たとえば、バックプロパゲーショントレーニング技法に基づいて）調整され得る。そのようなプロセスは、ある損失値（たとえば、最小限に抑えられた損失値）が取得されるように重みが調整されるまで、ある数の反復、実施され得る。暗黙的モデル７０４がトレーニングされると、図７Ａに示されているように、暗黙的モデル７０４からの重みｗ７０６が出力され得る。受信機側で、座標グリッド７０３は、逆量子化の後の復号された重みｗを用いて（または量子化された重み７０８を使用して）調整された暗黙的モデル７０４を使用して処理され得る。いくつかの場合には、暗黙的モデル７０４のアーキテクチャパラメータ（Ψ（ｗ））は、アーキテクチャデコーダ７２６によるビットストリーム７２０の復号に基づいて決定され得る。

[0167] いくつかの態様では、第１のステップは、ネットワークアーキテクチャΨ（・）にわたって探索することと、量子化なしにＤ損失を最小限に抑えることによって各モデルについての重みｗ７０６をトレーニングすることとによって、（利用可能な暗黙的モデルのグループの中から）入力画像データ７０２を圧縮するために使用すべき最適な暗黙的モデル７０４を決定することを含むことができる。いくつかの例では、このプロセスは、暗黙的モデル７０４を選択するために使用され得る。

[0168] いくつかの場合には、量子化器ハイパーパラメータτに基づいて最適なひずみＤを達成するために、量子化器が実装され得る。いくつかの態様では、暗黙的モデルΨ（ｗ）７０４は、量子化された重み７０８に基づいて微調整され得る。

[0169] いくつかの例では、重みプライア７１２は、量子化器パラメータおよび暗黙的モデル重み（たとえば、量子化された重み７０８または重み７０６）を固定しながら実装され得る。いくつかの態様では、重みプライア７１２は、レート損失Ｒを最小限に抑える（重みｗ７０６を含む）最適な設定を決定するために使用され得る。

[0170] いくつかの態様では、暗黙的ニューラルネットワーク圧縮システム７００は、（プライアエンコーダ７１４を使用して）ビットストリーム７２２中で重みプライアパラメータｗ７１２を符号化し、量子化された重み

７０８を、ビットストリーム７２４中で重みプライア

７１２下で（算術エンコーダ（ＡＥ）７１０によって）エントロピーコーディングを使用して符号化するように構成され得る、画像またはビデオコーデックとして使用され得る。いくつかの例では、復号は、逆の様式で実装され得る。たとえば、受信機／デコーダ側で、算術デコーダ（ＡＤ）７３０は、（プライアデコーダ７２８によって復号された）復号された重みプライアを使用して、エントロピー復号を実施してビットストリーム７２４を復号し、重み（たとえば、重み７０６または量子化された重み７０８）を生成することができる。重みおよびニューラルネットワークモデルアーキテクチャ（たとえば、Ψ（ｗ））を使用して、暗黙的モデル７０４は出力画像データ７３２を生成することができる。一例では、Ψ（・）および

が復号されると、再構築

が、フォワードパスを使用して取得され得る。

[0171] 上述のように、暗黙的モデル７０４は、重みｗ７０６をトレーニングすることと、最小ひずみを決定することとによって選択され得る１つまたは複数のニューラルネットワークアーキテクチャを含むことができる。一例では、暗黙的モデル７０４は、入力として画像内の座標をとり、以下のように、ＲＧＢ値（または他の色値）を返す、多層パーセプトロン（ＭＬＰ）を含むことができる。

[0172] いくつかの態様では、暗黙的モデル７０４は、画像およびビデオにおける細かい詳細が正確に表され得ることを保証するために周期活性化関数を使用することができるＳＩＲＥＮアーキテクチャを実装することができる。いくつかの例では、画像を復号することは、関心のあらゆるピクセルロケーション（ｘ，ｙ）においてＭＬＰを評価することを含むことができる。いくつかの場合には、表現は連続であるので、表現は、異なる解像度設定において、または任意のタイプのピクセルグリッド（たとえば、不規則なグリッド）上でトレーニングまたは評価され得る。

[0173] いくつかの例では、暗黙的モデル７０４は、（たとえば、特に受信機側で）コードの計算効率を改善するために使用され得る畳み込みネットワークを含むことができる。いくつかの場合には、ＭＬＰベース暗黙的ニューラルモデルは、各入力ピクセル座標についてフォワードパスを必要とすることがあり、これは、１Ｋ解像度ビデオの各フレームを復号するために多くの（たとえば、約２００万個の）フォワードパスを生じることがある。

[0174] いくつかの態様では、ＭＬＰベース暗黙的ニューラルモデルは、１×１カーネルを用いた畳み込み演算と見なされ得る。いくつかの例では、本明細書で説明される技法は、暗黙的モデルを畳み込みアーキテクチャに一般化することができる。

[0175] 一度に１つの座標を処理するＭＬＰとは異なり、本技術は、チャネル軸中の座標値を用いて、一度にすべての座標を配置することができる。いくつかの態様では、本技術は、転置畳み込みブロックについて３×３カーネルと、（たとえば、畳み込みカーネルまたはフィルタが各畳み込み演算の後に２つの位置移動されることを示す）２のストライド値とを使用することができ、これは、画像を再構築するために必要とされるフォワードパスの数の２^2L倍の低減を生じることがあり、ここで、Ｌは畳み込み層の数である。

[0176] いくつかの例では、ランダムフーリエ符号化およびＳＩＲＥＮアーキテクチャは、このようにして一般化され得る。たとえば、畳み込みアーキテクチャ中の第１の層は、以下のように、座標の位置符号化を含むことができる。

[0177] ここで、ｃ、ｉは、チャネルおよび空間次元に沿ったインデックスであり、

は、ガウス分布からのＮ_ω個の周波数サンプルである。標準偏差、および周波数の数は、ハイパーパラメータである。この位置符号化の後に、転置された畳み込みとＲｅＬＵ活性化とを交互にすることが続くことができる。

[0178] いくつかの態様では、本技術からの畳み込みモデルは、任意に低い数のフォワードパスを用いて高解像度画像を容易に処理し、したがって、符号化と復号の両方の速度を上げることができる。それはまた、高ビットレートにおいてはるかにメモリ効率が良い。いくつかの例では、超低ビットレートにおいて３×３畳み込みカーネルをトレーニングすることは、異なる畳み込みカーネル（たとえば、パイプライン中の１×１および／または３×３畳み込み）を使用して実装され得る。

[0179] 上述のように、ニューラルネットワーク圧縮システム７００への入力は、ビデオデータを含むことがある画像データ７０２を（たとえば、暗黙的モデルをトレーニングするために）含むことができる。いくつかの例では、ビデオデータは、後続のフレーム間の強い冗長を有することがある。既存のビデオコーデックでは、しばしば、各フレームが前のフレームに依存するようなやり方でピクチャグループ（ＧｏＰ）が圧縮される。詳細には、新しいフレーム予測が、前のフレームのワーピングと残差との和として策定され得る。本技術は、暗黙的ニューラル圧縮方式とともに使用するための類似する構成を実装することができる。いくつかの場合には、暗黙的モデルは、正確にワーピングを表すことが示されている。いくつかの態様では、本技術は、暗黙的に活用され得る時間的冗長性を使用し、フレームにわたって重みを共有することができる。いくつかの態様では、（本明細書で開示される）完全暗黙的手法は、概念単純さおよびアーキテクチャ自由性という利点を有することができる。

[0180] いくつかの例では、暗黙的ビデオ表現は、ピクチャグループを使用して実装され得る。たとえば、ビデオがＮ個のフレーム（またはピクチャ）のグループに分割され得、各バッチが別個のネットワークで圧縮され得る。いくつかの場合には、この実装形態は、暗黙的表現の必要とされる表現性を低減する。いくつかの例では、この実装形態は、次のＮ個のフレームが復号され得る前に１つの小さいネットワークのみが送出される必要があるので、バッファされたストリーミングを可能にすることができる。

[0181] いくつかの態様では、暗黙的ビデオ表現は、３ＤＭＬＰを使用して実装され得る。たとえば、ＭＬＰ表現は、フレーム番号（または時間成分）ｔを表す第３の入力を加算することによって、ビデオデータに容易に拡張され得る。いくつかの例では、ＳＩＲＥＮアーキテクチャがサイン活性化（sine activation）とともに使用され得る。

[0182] いくつかの場合には、暗黙的ビデオ表現は、３Ｄ畳み込みネットワークを使用して実装され得る。前記のように、３ＤＭＬＰは、１×１×１畳み込み演算と見なされ得る。２次元の場合と同様に、本技術は、３ＤＭＬＰを、３次元カーネルをもつ畳み込み演算に実装することができる。パラメータの数を最小値に保つために、本技術は、サイズｋ×ｋ×１の空間カーネルを使用し、その後に、形状１×１×ｋ’のフレーム単位カーネルを使用することができる。

[0183] 式５におけるフーリエ符号化に関して、追加の座標が、ｘ_iを［ｔ，ｘ，ｙ］とすることと、それに応じて余分の周波数をもたらすこととによって考慮され得る。時間相関スケールと空間相関スケールとは、おそらくまったく異なるので、本技術は、時間共役周波数分散を別個のハイパーパラメータとすることができる。ＲｅＬＵ活性化と交互にする３次元転置畳み込みのシーケンスが、位置符号化特徴をビデオシーケンスに処理することができる。
いくつかの態様では、暗黙的ビデオ表現は、時間変調されたネットワークを使用して実装され得、それは、単一のインスタンスではなくデータのセットに対して働くように表現を適応させることができる暗黙的表現に対応する。いくつかの例では、方法は、ハイパーネットワークの使用、ならびにラテントベース方法を含むことができる。いくつかの場合には、本技術は、我々のインスタンスモデルを（データポイントのセットの代わりに）ビデオ中のフレームに一般化するために、時間変調されたネットワークを使用することができる。いくつかの例では、本技術は、それらの概念単純さおよびパラメータ共有効率のために、合成－変調器複合ネットワークアーキテクチャ（synthesis-modulator composite network architecture）を実装することができる。先の実装形態は、ＳＩＲＥＮＭＬＰが高解像度において高品質再構築を行うことができないことを発見し、したがって、重み共有目的で画像を重複する空間タイルにスプリットしたが、本技術は、高解像度フレームを生成することができる畳み込みＳＩＲＥＮアーキテクチャを実装する。いくつかの場合には、本技術は、フレーム軸に沿ってのみ変調を予約することができる。この手法では、モデルへの入力は、依然として、ただ空間座標（ｘ，ｙ）である。ただし、このネットワークの第ｋの層は、以下によって与えられる。

[0184] ここで、σ（・）は活性化関数であり、Ｆは、３×３畳み込みまたは１×１畳み込みのいずれかを含むニューラルネットワーク層であり、ｚ_tは各フレームについての学習可能なラテントベクトルであり、ｇ_k（・）は変調ＭＬＰの第ｋの層の出力を示す。要素単位の乗法的相互作用が、複雑な時間依存性をモデル化することを可能にする。

[0185] いくつかの例では、暗黙的ビデオ表現は、ＩＰＢフレームブレイクダウン（breakdown）および／またはＩＰフレームブレイクダウンに基づく構成を使用して実装され得る。図９を参照すると、連続するフレーム９０２のグループは、最初にＩフレームとして中間フレームを圧縮することによって、（たとえば、ＩＰＢフレームブレイクダウンを使用して）符号化され得る。次に、トレーニングされたＩフレーム暗黙的モデルから開始して、本技術は、Ｐフレームとしての最初のフレームおよび最後のフレームに関して微調整することができる。いくつかの例では、最初のフレームおよび最後のフレームに関して微調整することは、スパース性を誘導するプライアを使用することと、ビットレートを最小限に抑えるための量子化アウェア微調整とを含むことができる。いくつかの態様では、残りのフレームは、Ｂフレームとして符号化され得る。いくつかの例では、ＩＰＢフレームブレイクダウンは、フレームのいずれかの側でのモデル重みの補間としてモデル重みを初期化することによって実装され得る。いくつかの場合には、全体的なビットストリームは、適合されたモデルプライアで符号化されたＩフレームモデルの量子化されたパラメータと、スパース性を誘導するプライアで符号化された、ＰフレームおよびＢフレームのための量子化された更新とを含むことができる。いくつかの例では、暗黙的ビデオ表現は、図９中のフレーム９０４によって示されるように、ＩＰフレームブレイクダウンを使用して実装され得る。

[0186] 図７Ａに戻ると、ニューラルネットワーク圧縮システム７００は、重み７０６を量子化して、量子化された重み７０８を生じるために使用され得る量子化アルゴリズムを実装することができる。いくつかの態様では、ネットワーク量子化は、固定小数点表現を使用してあらゆる重みテンソルｗ⁽ⁱ⁾∈ｗを量子化することによってモデルサイズを低減するために使用され得る。いくつかの場合には、量子化パラメータとビット幅とは、たとえば、スケールｓおよびクリッピングしきい値ｑ_maxを学習することによって、一緒に学習され得る。次いで、ビット幅ｂは、ｂ（ｓ，ｑ_max）＝ｌｏｇ₂（ｑ_max＋１）として暗黙的に定義され、これは、このパラメータ化が、非有界勾配ノルムという問題がないので、ビット幅を直接学習することよりも勝っていることを示した。

[0187] いくつかの例では、ビットストリームを符号化することは、すべての量子化パラメータ

と、すべての整数テンソル

とを符号化することを含むことができる。すべてのｓ⁽ⁱ⁾が３２ビット浮動小数点変数として符号化され、ビット幅ｂ⁽ⁱ⁾がＩＮＴ４として符号化され、整数テンソル

がそれらのそれぞれのビット幅ｂ⁽ⁱ⁾において符号化される。

[0188] いくつかの態様では、ニューラルネットワーク圧縮システム７００は、エントロピーコーディングを実装することができる。たとえば、最後のトレーニング段階は、算術エンコーダ（ＡＥ）７１０が、重み（たとえば、重み７０６または量子化された重み７０８）にわたってプライアを適合させて、ビットストリーム７２４を生成することを含むことができる。上述のように、受信機／デコーダ側で、算術デコーダ（ＡＤ）７３０は、（プライアデコーダ７２８によって復号された）復号された重みプライアを使用して、エントロピー復号を実施してビットストリーム７２４を復号し、重み（たとえば、重み７０６または量子化された重み７０８）を生成することができる。重みおよびニューラルネットワークモデルアーキテクチャを使用して、暗黙的モデル７０４は出力画像データ７３２を生成することができる。いくつかの場合には、重みは、大部分のテンソルについて０を中心とするガウスとして近似的に分布され得る。いくつかの例では、あらゆる重みのスケールは異なり得るが、重み範囲は（送信された）量子化パラメータ

の一部であるので、重みは正規化され得る。いくつかの場合には、ネットワーク圧縮システム７００は、次いで、正規化された重みにガウスを適合させ、これをエントロピーコーディングのために使用する（たとえば、ビットストリーム７２４を生じる）ことができる。

[0189] いくつかの例では、いくつかの重み（たとえば、重み７０６または量子化された重み７０８）はスパースに分布される。スパースに分布された重みの場合、ニューラルネットワーク圧縮システム７００は、コンテンツを有するバイナリのみに確率質量を再分布するために使用され得るバイナリマスクを送信することができる。いくつかの場合には、マスクが送信されるかどうかを符号化するために、信号ビットが含まれ得る。

[0190] 図７Ｂは、暗黙的ニューラルネットワーク圧縮システム７００に基づく例示的なコーデックを示す図である。いくつかの態様では、暗黙的ニューラル圧縮システム７００は、ひずみおよび／またはビットレートを最適化するように構成された暗黙的圧縮モデルをトレーニングするためのパイプラインを含むことができる。図７Ａに関して上述したように、第１のステップは、ネットワークアーキテクチャΨ（・）にわたって探索することと、量子化なしにひずみ損失を最小限に抑えることによって各モデルについての重みｗ７０６をトレーニングすることとによって、（利用可能な暗黙的モデルのグループの中から）入力画像データ７０２を圧縮するために使用すべき最適な暗黙的モデル７０４を決定することを含むことができる。いくつかの例では、このプロセスは、暗黙的モデル７０４を選択するために使用され得る。いくつかの例では、暗黙的モデル７０４は、モデル幅、モデル深度、解像度（resolution）、畳み込みカーネル（convolution kernel）のサイズ（size）、入力次元（input dimension）、および／あるいは任意の他の好適なモデルパラメータまたは特性を含むことができる１つまたは複数のモデル特性（model characteristics）に関連付けられ得る。

[0191] いくつかの態様では、受信機側（たとえば、デコーダ）は、入力画像データ７０２を符号化するために使用されるネットワークアーキテクチャΨ（・）の事前知識を有しない。いくつかの場合には、暗黙的ニューラルネットワーク圧縮システム７００は、（アーキテクチャエンコーダ７１６を使用して）ビットストリーム７２０中でモデルアーキテクチャ（model architecture）Ψ（・）７１８を符号化するように構成され得る。

[0192] 図８Ａは、暗黙的ニューラル表現を使用するピクチャグループのためのパイプライン８００の一例を示す図である。いくつかの態様では、パイプライン８００は、入力画像（たとえば、Ｉフレーム８０２および／またはＰ１フレーム８０８）に関連付けられた座標をピクセル値（たとえば、ＲＧＢ値）にマッピングすることができるニューラルネットワークを使用して画像を処理することができるビデオ圧縮コーデックによって実装され得る。いくつかの例では、パイプライン８００の出力は、（たとえば、ネットワークアーキテクチャを識別するために使用される）ヘッダを有する圧縮されたファイル、および／または対応する入力フレームについてのニューラルネットワークの重みを含むことができる。

[0193] いくつかの例では、パイプライン８００は、ビデオ入力に関連付けられたフレームグループからの１つまたは複数の画像フレームを圧縮するために使用され得るベースモデル８０４（たとえば、ベースモデルｆ_θ）を含むことができる。いくつかの場合には、ベースモデル８０４は、フレームグループからの第１のフレームを使用してトレーニングされるＩフレームモデルを含むことができる。いくつかの態様では、ベースモデル８０４のトレーニングは、（たとえば、式（４）を使用して）入力座標位置をピクセル値にマッピングすることによって、フレームグループからの第１のフレーム（たとえば、Ｉフレーム）を圧縮することを含むことができる。

[0194] いくつかの態様では、ベースモデル８０４のサイズは、ベースモデル８０４に関連付けられた重みテンソルのうちの１つまたは複数を量子化することによって低減され得る。いくつかの例では、重みテンソルは、式（２）からの関数など、固定小数点量子化関数を使用して量子化され得る。たとえば、式（２）は、ベースモデル８０４を量子化して、量子化されたベースモデル８０６（たとえば、量子化されたベースモデルｆ_Q(θ)）を生じるために使用され得る。いくつかの態様では、量子化されたベースモデル８０６は、（たとえば、算術エンコーダを使用して）圧縮され、受信機に送出され得る。

[0195] いくつかの例では、パイプライン８００は、２つの画像フレーム（たとえば、Ｉフレーム８０２およびＰ１フレーム８０８）間のオプティカルフロー場を決定するために使用され得るフローモデル８１０（たとえば、フローモデルｈ_φ）を含むことができる。たとえば、フローモデル８１０は、ビデオからの連続画像フレーム間のオプティカルフロー場または動きベクトル（たとえば、変位ベクトルの場）を決定するように構成され得る。いくつかの態様では、フローモデル８１０は、フレームグループからの第２のフレーム（たとえば、Ｐ１フレーム８０８）を使用してトレーニングされ得る。いくつかの場合には、フローモデル８１０によって決定された変位ベクトルの場は、現在フレームをモデル化するために前のフレームに適用され得る。いくつかの態様では、オプティカルフロー場からの変位は、ｈ_φ（ｘ，ｙ）＝（Δｘ，Δｙ）として表され得る。いくつかの場合には、オプティカルフロー場からの変位は、以下に従って入力変数に変位ベクトルを加算することによって適用され得る。

[0196] いくつかの態様では、フローモデル８１０のサイズは、フローモデル８１０に関連付けられた重みテンソルのうちの１つまたは複数を量子化することによって低減され得る。いくつかの例では、重みテンソルは、式（２）からの関数など、固定小数点量子化関数を使用して量子化され得る。たとえば、式（２）は、フローモデル８１０を量子化して、量子化されたフローモデル８１２（たとえば、量子化されたフローモデルｈ_Q(φ)）を生じるために使用され得る。いくつかの態様では、量子化されたフローモデル８１２は、（たとえば、算術エンコーダを使用して）圧縮され、受信機に送出され得る。

[0197] 図８Ｂは、暗黙的ニューラル表現を使用するピクチャグループのためのパイプライン８４０の一例を示す図である。いくつかの態様では、パイプライン８４０は、パイプライン８００に続くことができる第２のパイプラインフェーズを表すことができる。たとえば、パイプライン８４０は、トレーニングされたベースモデル（たとえば、ベースモデル８４４）およびトレーニングされたフローモデル（たとえば、フローモデル８４６）を使用してフレームを処理し、圧縮するために使用され得る。

[0198] いくつかの例では、パイプライン８４０は、複合モデルのパラメータの量子化された更新を決定することによって、フレームグループからの追加のフレームを符号化するために使用され得る。たとえば、パイプライン８４０は、前のフレームに対するベースモデル重み更新δθおよびフローモデル重み更新δφを学習するために、後続のＰフレーム（たとえば、Ｐ１フレーム８４２）にわたって連続的に反復するために使用され得る。いくつかの場合には、ベースモデル重みθの更新およびフローモデル重みφの更新は、以下のように決定され得る。

[0199] いくつかの態様では、ベースモデル８４４およびフローモデル８４６についての更新された重みは、受信機に送出され得る。いくつかの場合には、重み更新δθおよびδφは、δθ＝０を中心とする幅ｔのｎ個の等しいサイズのビンの固定グリッド上で量子化され得る。いくつかの例では、重み更新は、スパイクおよびスラブプライア、狭いガウス分布と広いガウス分布との混合モデル下で、エントロピーコーディングされ、以下によって与えられ得る。

[0200] いくつかの態様では、式（９）において使用される分散

をもつ「スラブ」成分は、更新された重みを受信機に送出するためのビットレートを最小限に抑えることができる。いくつかの場合には、狭い標準偏差σ_spike＜＜σ_slabをもつ「スパイク」成分は、０更新に関連付けられた処理コストを最小限に抑えることができる。いくつかの例では、同様の後続のフレームは、スパースであり、比較的低いビットレートコストに関連付けられた、更新δθを有することができる。いくつかの態様では、量子化グリッドパラメータｎおよびｔと、先の標準偏差σ_spikeおよびσ_slabと、スパイク－スラブ比∝とは、ハイパーパラメータに対応する。図８Ｂに示されているように、受信機は、（フレーム

８５０）として示されている）再構築されたＰ１フレーム８５０と、（フレーム

８４８として示されている）再構築されたＩフレームとを出力する。

[0201] 図８Ｃは、暗黙的ニューラル表現を使用するピクチャグループのためのパイプライン８６０の一例を示す図である。いくつかの例では、パイプライン８６０は、フレームグループからのそれぞれのフレームを処理するように構成された複数の段階を含むことができる。たとえば、パイプライン８６０は、第１のフレーム（たとえば、Ｉフレーム８０２）を処理して、再構築された第１のフレーム

８７２を生じることができる、第１の段階８６６を含むことができる。

[0202] いくつかの態様では、パイプライン８６０は、第２のフレーム（たとえば、Ｐ₁フレーム８６２）を処理して、再構築された第２のフレーム

８７４を生じることができる、第２の段階８６８を含むことができる。いくつかの例では、パイプライン８６０は、第３のフレーム（たとえば、Ｐ₂フレーム８６４）を処理して、再構築された第３のフレーム

８７６を生じることができる、第３の段階８７０を含むことができる。本技術によれば、パイプライン８６０が任意の数の段階を有するように構成され得ることを、当業者は認識されよう。

[0203] いくつかの例では、パイプライン８６０の各段階は、ベースモデル（たとえば、ベースモデル８０４）とフローモデル（たとえば、フローモデル８１０）とを含むことができる。いくつかの態様では、ベースモデルへの入力は、現在のフローモデル、ならびにフローモデル出力の前のバージョンをもつ、入力座標の要素単位の和であり得る。いくつかの場合には、付加されたフローモデルは、スキップ結合を用いて追加され得る追加の層として実装され得る。

[0204] 図１０は、暗黙的ニューラル圧縮を実施するための例示的なプロセス１０００を示す図である。一態様では、プロセス１０００の各ブロックは、ニューラルネットワーク圧縮システム（たとえば、システム７００）においてレートひずみを最小限に抑えるために実装され得る、式１００２に関連付けられ得る。いくつかの例では、式１００２は、以下の形式を有することができる。

[0205] 式１００２を参照すると、ｄはひずみ関数（たとえば、ＭＳＥ、ＭＳ－ＳＳＩＭ）に対応することができ、Ψは暗黙的モデルクラス（たとえば、ネットワークタイプおよびアーキテクチャ）に対応することができ、Ｑ_νは重み量子化器に対応することができ、ｗは暗黙的モデル重みに対応することができ、Ｉは入力画像またはビデオに対応することができ、βはトレードオフパラメータに対応することができ、ｐ_ωは重みプライアに対応することができる。

[0206] プロセス１０００を参照すると、ブロック１００４において、プロセスは、最適な関数クラスまたはモデルアーキテクチャを見つけることを含む。いくつかの態様では、最適な暗黙的モデルを見つけることは、ネットワークアーキテクチャにわたって探索することと、（たとえば、重みの量子化なしに）ひずみ損失を最小限に抑えることによって各モデルについての重みをトレーニングすることとを含むことができる。いくつかの例では、最適なモデルは、最小限に抑えられたひずみ損失に基づいて選択される。いくつかの場合には、探索は、ニューラルネットワーク探索またはベイズ最適化技法（Bayesian optimization technique）を含むことができる。

[0207] ブロック１００６において、プロセス１０００は、最適な関数パラメータおよび／または重みを見つけることを含む。いくつかの例では、最適な重みを見つけることは、最適な重みを見つけるために勾配降下または確率的勾配降下を使用することを含むことができる。

[0208] ブロック１００８において、プロセス１０００は、最適な量子化設定を見つけることを含む。いくつかの態様では、最適な量子化設定を見つけることは、（たとえば、機械学習アルゴリズムを使用してトレーニングされる）トレーニング可能な量子化器を使用して実施され得る。いくつかの例では、量子化設定は、コードブック量子化、学習された固定小数点量子化、および／または任意の他の好適な量子化技法を使用して決定され得る。

[0209] ブロック１０１０において、プロセス１０００は、最適な重みプライアを見つけることを含む。いくつかの場合には、最適な重みプライアは、異なる分布タイプ（たとえば、ガウス、ベータ、ラプラスなど）を探索することによって見つけられ得る。いくつかの態様では、最適な重みプライアを見つけることは、レート損失を最小限に抑えるために重み分布のパラメータ（たとえば、平均および／または標準偏差）を適合させることを含むことができる。いくつかの例では、重みをもたないバイナリの指示を提供することができるデコーダへの送信のためにバイナリマスクが含まれ得る。

[0210] いくつかの例では、プロセス１０００中のステップは、順次、または、適用可能な場合、並列処理を使用して、実行され得る。いくつかの態様では、１つまたは複数のパラメータは、１つまたは複数のステップの組合せを可能にすることができるバックプロパゲーションを可能にすることができる（たとえば、ブロック１００６およびブロック１００８は、学習可能な量子化器を使用するとき、勾配降下を使用して最小限に抑えられ得る）。

[0211] 図１１は、暗黙的ニューラル圧縮を実施するための例示的なプロセス１１００を示す図である。ブロック１１０２において、プロセス１１００は、ニューラルネットワーク圧縮システムによる圧縮のための入力ビデオデータを受信することを含むことができる。いくつかの例では、ニューラルネットワーク圧縮システムは、暗黙的ニューラル表現に基づく暗黙的フレームフロー（ＩＦＦ：implicit frame flow）を使用してビデオおよび画像圧縮を実施するように構成され得る。たとえば、フル解像度ビデオシーケンスは、座標位置をピクセル値にマッピングするニューラルネットワークを用いて各フレームを表すことによって圧縮され得る。いくつかの態様では、フレーム間の動き補償（たとえば、オプティカルフローワーピング）を可能にするために座標入力を変調するために、別個の暗黙的ネットワークが使用され得る。いくつかの例では、ＩＦＦは、受信機が事前トレーニングされたニューラルネットワークへのアクセスを有することを必要とされないように実装され得る。いくつかの場合には、ＩＦＦは、別個のトレーニングデータセットの必要なしに実装され得る（たとえば、ネットワークは入力フレームを使用してトレーニングされ得る）。

[0212] ブロック１１０４において、プロセス１１００は、入力ビデオを（「ピクチャグループ」または「ＧｏＰ」とも呼ばれる）フレームグループに分割することを含む。いくつかの例では、フレームグループは、５つまたはそれ以上のフレームを含むことができる。いくつかの態様では、フレームグループ中の第１のフレームは、スタンドアロン画像（たとえば、Ｉフレーム）として圧縮され得、フレームグループ中の他のフレームは、他のフレームからの利用可能な情報を使用して圧縮され得る。たとえば、フレームグループ中の他のフレームは、前のフレームに依存するＰフレームとして圧縮され得る。いくつかの態様では、フレームは、先行するフレームと後続のフレームの両方に依存するＢフレームとして圧縮され得る。

[0213] ブロック１１０６において、プロセス１１００は、Ｉフレームに関してベースモデル（たとえば、ベースモデル

）をトレーニングすることを含む。いくつかの例では、Ｉフレームに関してベースモードをトレーニングすることは、ひずみを最小限に抑えることを含むことができる。いくつかの態様では、Ｉフレームに関してベースモデルをトレーニングすることは、以下の関係式に基づき得る。

[0214] 式（１１）において、ｔはフレームインデックスに対応することができ、ｘ，ｙはビデオフレーム内の座標に対応することができ、Ｉ_t,x,yは座標（ｘ，ｙ）におけるグランドトゥルースＲＧＢ値に対応することができ、ｆ_θt（ｘ，ｙ）は、座標（ｘ，ｙ）において評価される重みθ_tをもつ暗黙的ニューラルネットワークに対応することができ、Ｑ_τはパラメータψをもつ量子化関数に対応することができ、ｐ_ωは、量子化された重みωを圧縮するために使用されるプライアに対応することができる。

[0215] ブロック１１０８において、プロセス１１００は、Ｉフレーム重みθ₀を量子化およびエントロピーコーディングし、それらをビットストリームに書き込むことを含む。いくつかの態様では、Ｉフレームを表す暗黙的モデルのモデルサイズを低減するために、各重みテンソルθ^(l)∈θは、固定小数点表現を使用して（たとえば、式（２）を使用して）量子化され得る。いくつかの例では、ビット幅は、ｂ（ｓ，θ_max）＝ｌｏｇ₂（θ_max＋１）として暗黙的に定義され得、ここで、ｓはスケールに対応することができ、θ_maxはクリッピングしきい値に対応することができる。いくつかの例では、行列中のあらゆる行について別個の範囲およびビット幅を取得するために、チャネルごとの量子化が実施され得る。一態様では、チャネルごとの混合精度量子化関数が、以下に従って定義され得る。

[0216] いくつかの態様では、量子化パラメータ

および整数テンソル

は、ビデオビットストリームに符号化され得る。たとえば、ｓ^(l)は、３２ビット浮動小数点ベクトルとして符号化され得、ビット幅ｂ^(l)は、５ビット整数ベクトルとして符号化され得、整数テンソル

は、それらのそれぞれのチャネルごとのビット幅

において符号化され得る。

[0217] ブロック１１１０において、プロセス１１００は、Ｐフレームに関してフローモデル（たとえば、モデル

）をトレーニングすることを含む。いくつかの態様では、Ｐフレームは、フレームグループ中の次の連続的なフレーム（たとえば、Ｉフレームの後の最初のＰフレーム）に対応することができる。上述のように、オプティカルフローは、暗黙的表現の間の連続性を活用することによって暗黙的にモデル化され得る。ＩＦＦを使用して、フレームは、以下のように、入力として画像座標をとるネットワークとして表され、ピクセル値を返すことができる：（ｘ，ｙ）→ｆ_θ（ｘ，ｙ）＝（ｒ，ｇ，ｂ）。いくつかの態様では、オプティカルフロー場からの変位ｈ_φ（ｘ，ｙ）＝（Δｘ，Δｙ）は、入力変数に変位ベクトルを加算すること（たとえば、式（７））によって適用され得る。いくつかの態様では、Ｐフレームに関してフローモデルをトレーニングすることは、式（１１）における関係式に基づき得る。

[0218] ブロック１１１２において、プロセス１１００は、Ｐフレーム重みφ₀を量子化およびエントロピーコーディングし、それらをビットストリームに書き込むことを含む。いくつかの態様では、Ｐフレーム重みφ₀は、Ｉフレーム重みθ₀に関して上記で説明された方法を使用して量子化およびエントロピーコーディングされ得る。たとえば、Ｐフレーム重みφ₀は、固定小数点表現を使用して量子化され得る。ある事例では、チャネルごとの量子化は、式（１２）に従って実施され得る。いくつかの態様では、量子化パラメータおよび整数テンソルは、ビットストリームに書き込まれるかまたは符号化され、受信機に送出され得る。いくつかの態様では、学習可能な量子化パラメータωも、ビットストリームに符号化され、書き込まれ得る。

[0219] ブロック１１１４において、プロセス１１００は、現在フレームＰ_tを処理するための既存のモデルパラメータをロードすることを含む。いくつかの態様では、現在フレームＰ_tは、フレームグループ中の次のフレームに対応することができる。たとえば、現在フレームは、それぞれ、ベースモデルおよびフローモデルをトレーニングするために使用されたＩフレームおよびＰフレームに続くフレームに対応することができる。いくつかの態様では、既存のモデルパラメータは、先のフレームについてのベースモデル重み（たとえば、θ_t-1）および先のフレームについてのフローモデル重み（たとえば、φ_t-1）として表され得る。

[0220] ブロック１１１６において、プロセス１１００は、現在フレームに関してベースモデルおよびフローモデルをトレーニングすることを含む。いくつかの態様では、現在フレームに関してベースモデルおよびフローモデルをトレーニングすることは、以下のように前のフレームに対する重み更新δθおよびδφを学習することを含む。

[0221] いくつかの例では、ベースモデルの更新は、残差をモデル化することに対応することができる。いくつかの場合には、更新をモデル化することは、前に計算されたフロー情報を再送出することを回避することができる（たとえば、連続フレーム間のオプティカルフローは、おそらく同様である）。いくつかの態様では、ＰフレームＴの暗黙的表現は、以下の式によって示され得る。

[0222] いくつかの例では、式（１５）によって証明されるように、すべての先のフローモデルの累積効果は、局所変位の和である単一のテンソルに記憶される。いくつかの場合には、このテンソルは、送出機（sender）および受信機（receiver）によって維持され得る。いくつかの態様では、単一のテンソルの使用は、各フレームについてあらゆるネットワークを通してフォワードパスを実施するためにフローネットワークの前のバージョンを記憶する必要を回避することができる。

[0223] いくつかの場合には、フレームＰ_Tのためのトレーニングは、以下の関係式に従って表され得る。

[0224] 式（１６）において、Ｄ_Tは、フレームＰ_Tに関するひずみを示すことができ、Ｒ（δθ，δφ）は、更新されたレートコストを示すことができる。

[0225] ブロック１１１８において、プロセス１１００は、重み更新δθおよびδφをビットストリームに量子化およびエントロピーコーディングすることを含むことができる。いくつかの例では、更新δθおよびδφは、δθ＝０を中心とする幅ｔのｎ個の等しいサイズのビンの固定グリッド上で量子化され得る。いくつかの態様では、量子化された重み更新は、式（９）に関して説明されたように、スパイクおよびスラブプライア下でエントロピーコーディングされ得る。上述のように、いくつかの態様では、式（９）において使用される分散

をもつ「スラブ」成分は、更新された重みを受信機に送出するためのビットレートを最小限に抑えることができる。いくつかの場合には、狭い標準偏差σ_spike＜＜σ_slabをもつ「スパイク」成分は、０更新に関連付けられた処理コストを最小限に抑えることができる。

[0226] ブロック１１２０において、プロセス１１００は、ベースモデルおよびフローモデルのためのモデルパラメータを更新することを含む。いくつかの態様では、モデルパラメータの更新は、θ_t←θ_t-1＋δθおよびφ_t←φ_t-1＋δθとして示され得る。いくつかの場合には、モデルパラメータの更新は、受信機に送出され得る。

[0227] ブロック１１２２において、プロセス１１００は、変位テンソル（displacement tensor）を更新することを含む。いくつかの態様では、変位テンソルの更新は、Δ_t←Δ_t-1＋ｈ_φtとして示され得る。

[0228] ブロック１１２４において、プロセス１１００は、フレームグループ（たとえば、ＧｏＰ）中に追加のフレームがあるかどうかを決定することができる。処理すべき追加のフレーム（たとえば、追加のＰフレーム）がある場合、プロセス１１００は、ブロック１１１４～１１２２に関して説明された動作を繰り返すことができる。ネットワーク圧縮システムがフレームグループを処理することを完了した場合、プロセス１１００は、ブロック１１２６に進み、ビデオ入力に関連付けられたさらなるフレームグループがあるかどうかを決定することができる。処理すべき追加のフレームグループがある場合、方法は、ブロック１１０６に戻り、次のフレームグループに対応する新しいＩフレームを使用してベースモデルのトレーニングを始めることができる。追加のフレームグループがない場合、プロセス１１００は、ブロック１１０２に戻って、圧縮のための新しい入力データを受信することができる。

[0229] 図１２は、メディアデータを処理するための例示的なプロセス１２００を示すフローチャートである。ブロック１２０２において、プロセス１２００は、ニューラルネットワーク圧縮システムによる圧縮のための複数の画像を受信することを含むことができる。たとえば、暗黙的ニューラルネットワーク圧縮システム７００が、画像データ７０２を受信することができる。いくつかの態様では、暗黙的ニューラルネットワーク圧縮システム７００はパイプライン８００を使用して実装され得、複数の画像はＩフレーム８０２とＰ₁フレーム８０８とを含むことができる。

[0230] ブロック１２０４において、プロセス１２００は、複数の画像からの第１の画像に基づいて、ニューラルネットワーク圧縮システムの第１のモデルに関連付けられた第１の複数の重み値を決定することを含むことができる。たとえば、ベースモデル８０４が、Ｉフレーム８０２に基づいて第１の複数の重み値（たとえば、重みｗ７０６）を決定することができる。いくつかの態様では、第１のモデルの少なくとも１つの層が、第１の画像に関連付けられた複数の座標（a plurality of coordinates）の位置符号化を含むことができる。たとえば、ベースモデル８０４の少なくとも１つの層が、Ｉフレーム８０２に関連付けられた座標の位置符号化を含むことができる。

[0231] いくつかの場合には、第１のモデルは、第１の画像に関連付けられた複数の座標に対応する１つまたは複数のピクセル値を決定するように構成され得る。たとえば、ベースモデル８０４は、Ｉフレーム８０２に関連付けられた複数の座標に対応する１つまたは複数のピクセル値（たとえば、ＲＧＢ値）を決定するように構成され得る。

[0232] ブロック１２０６において、プロセス１２００は、第１の複数の重み値の圧縮バージョンを備える第１のビットストリームを生成することを含むことができる。たとえば、算術エンコーダ７１０が、複数の重み値（a plurality of weight values）（たとえば、重みｗ７０６）の圧縮バージョンを含み得るビットストリーム７２４を生成することができる。ブロック１２０８において、プロセス１２００は、受信機への送信のために第１のビットストリームを出力することを含むことができる。たとえば、ビットストリーム７２４は、受信機（たとえば、算術デコーダ７３０）への送信のために算術エンコーダ７１０によって出力され得る。

[0233] いくつかの態様では、プロセス１２００は、複数の量子化された重み値（a plurality of quantized weight values）を生じるために重みプライア下で第１の複数の重み値を量子化することを含むことができる。いくつかの場合には、ビットストリームは、複数の量子化された重み値の圧縮バージョンを含むことができる。たとえば、重みｗ７０６は、量子化された重み７０８を生じるために重みプライア７１２下で量子化され得る。いくつかの例では、量子化された重み７０８は、算術エンコーダ７１０によってビットストリーム７２４に符号化され得る。いくつかの態様では、プロセス１２００は、重みプライアを使用して第１の複数の重み値をエントロピー符号化することを含むことができる。たとえば、算術エンコーダ７１０は、量子化された重み７０８を、ビットストリーム７２４中で、重みプライア７１２下でエントロピーコーディングを使用して符号化することができる。

[0234] いくつかの場合には、重みプライアは、受信機に第１のビットストリームを送出することに関連付けられたレート損失を最小限に抑えるように選択され得る。たとえば、重みプライア７１２は、受信機にビットストリーム７２４を送出することに関連付けられたレート損失を最小限に抑えるように選択または構成され得る。いくつかの例では、第１の複数の重み値は、固定小数点量子化を使用して量子化され得る。いくつかの態様では、固定小数点量子化は、機械学習アルゴリズムを使用して実装され得る。たとえば、重みｗ７０６は、整数テンソルとスケーリングファクタとを含む固定小数点数で重みテンソルを表すことができる固定小数点量子化を使用して量子化され得る。いくつかの場合には、暗黙的ニューラルネットワーク圧縮システム７００は、機械学習アルゴリズムを使用して重みｗ７０６の固定小数点量子化を実装することができる。

[0235] いくつかの態様では、プロセス１２００は、複数の画像からの第２の画像（second image）に基づいて、ニューラルネットワーク圧縮システムに関連付けられた第２のモデル（second model）による使用のための第２の複数の重み値（a second plurality of weight values）を決定することを含むことができる。たとえば、パイプライン８００は、Ｐ₁フレーム８０８に基づいて、フローモデル８１０による使用のための重み値の第２のセットを決定することができる。いくつかの場合には、プロセス１２００は、第２の複数の重み値の圧縮バージョンを備える第２のビットストリーム（second bitstream）を生成することと、受信機への送信のために第２のビットストリームを出力することとを含むことができる。たとえば、算術エンコーダ（たとえば、算術エンコーダ７１０）は、フローモデル８１０によって使用される重みテンソルの圧縮バージョンを含み得るビットストリームを生成することができる。

[0236] いくつかの例では、第２のモデルは、第１の画像と第２の画像との間のオプティカルフローを決定するように構成され得る。たとえば、Ｉフレーム８０２とＰ１フレーム８０８との間のオプティカルフロー場を決定するために使用され得るフローモデル８１０（たとえば、フローモデルｈ_φ）。いくつかの態様では、プロセス１２００は、オプティカルフローに基づいて、第１の複数の重み値から少なくとも１つの更新された重み値（updated weight value）を決定することを含むことができる。たとえば、フローモデル８１０は、オプティカルフローに基づいて、ベースモデル８０４によって使用される重み値から、更新された重み値を決定することができる。

[0237] いくつかの態様では、プロセス１２００は、第１の画像に基づいて、第１のモデルに対応するモデルアーキテクチャを選択することを含むことができる。いくつかの場合には、モデルアーキテクチャを選択することは、第１の画像に基づいて、１つまたは複数のモデルアーキテクチャに関連付けられた複数の重み値を調整することを含むことができ、ここにおいて、１つまたは複数のモデルアーキテクチャの各々が１つまたは複数のモデル特性に関連付けられる。たとえば、暗黙的ニューラル圧縮システム７００は、画像データ７０２に基づいて各モデルアーキテクチャについての重みｗ７０６を調整することができる。いくつかの例では、１つまたは複数のモデル特性は、幅（width）、深度（depth）、解像度、畳み込みカーネルのサイズ、および入力次元のうちの少なくとも１つを含むことができる。

[0238] いくつかの場合には、プロセス１２００は、第１の画像と１つまたは複数のモデルアーキテクチャの各々に対応する再構築されたデータ出力（reconstructed data output）との間の少なくとも１つのひずみを決定することを含むことができる。たとえば、暗黙的ニューラル圧縮システム７００は、量子化なしにひずみ損失を最小限に抑えるために、各モデルに関連付けられた重みｗ７０６を調整することができる。いくつかの態様では、プロセス１２００は、少なくとも１つのひずみに基づいて１つまたは複数のモデルアーキテクチャからモデルアーキテクチャを選択することを含むことができる。たとえば、暗黙的ニューラル圧縮システム７００は、最も低いひずみ値に基づいてモデルアーキテクチャを選択することができる。

[0239] いくつかの例では、プロセス１２００は、モデルアーキテクチャの圧縮バージョンを備える第２のビットストリームを生成することと、受信機への送信のために第２のビットストリームを出力することとを含むことができる。たとえば、アーキテクチャエンコーダ７１６は、ビットストリーム７２０中でモデルアーキテクチャΨ（・）７１８を符号化し、受信機（たとえば、アーキテクチャデコーダ７２６）への送信のためにビットストリーム７２０を出力することができる。

[0240] 図１３は、メディアデータを処理するための例示的なプロセス１３００を示すフローチャートである。ブロック１３０２において、プロセス１３００は、複数の画像からの第１の画像に関連付けられた第１の複数のニューラルネットワーク重み値の圧縮バージョンを受信することを含むことができる。たとえば、算術デコーダ７３０は、画像データ７０２に関連付けられた複数の重み値（たとえば、重みｗ７０６）を含むことができるビットストリーム７２４を受信することができる。

[0241] ブロック１３０４において、プロセス１３００は、第１の複数のニューラルネットワーク重み値を展開することを含むことができる。たとえば、算術デコーダは、ビットストリーム７２４から重みｗ７０６を展開することができる。ブロック１３０６において、プロセス１３００は、第１のニューラルネットワークモデルを使用して、第１の画像を生じる（yield）ために第１の複数のニューラルネットワーク重み値を処理することを含むことができる。たとえば、暗黙的ニューラル圧縮システム７００は、Ｉフレーム８０２の再構築されたバージョン（reconstructed version）を生じるために重みテンソルを処理するために使用され得る量子化されたベースモデル８０６を有するパイプライン８００を含むことができる。

[0242] いくつかの態様では、プロセス１３００は、複数の画像からの第２の画像に関連付けられた第２の複数のニューラルネットワーク重み値（a second plurality of neural network weight values）の圧縮バージョンを受信することを含むことができる。いくつかの場合には、プロセス１３００は、第２の複数のニューラルネットワーク重み値を展開することと、第２のニューラルネットワークモデル（second neural network model）を使用して、第１の画像と第２の画像との間のオプティカルフローを決定するために第２の複数のニューラルネットワーク重み値を処理することとを含むことができる。たとえば、暗黙的ニューラル圧縮システム６００は、Ｉフレーム８０２とＰ₁フレーム８０８との間のオプティカルフローを決定するためにフローモデル８１０に関連付けられた重みテンソルを処理するために使用され得る量子化されたフローモデルを有するパイプライン８００を含むことができる。

[0243] いくつかの場合には、プロセス１３００は、オプティカルフローに基づいて、第１のニューラルネットワークモデルに関連付けられた第１の複数のニューラルネットワーク重み値から少なくとも１つの更新された重み値を決定することを含むことができる。たとえば、フローモデル８１０は、フローモデル８１０に関連付けられた重みから、更新された重み値を決定することができる。いくつかの態様では、プロセス１３００は、第１のニューラルネットワークモデルを使用して、第２の画像の再構築されたバージョンを生じるために少なくとも１つの更新された重み値を処理することを含むことができる。たとえば、量子化されたベースモデル８０６は、Ｐ₁フレーム８０８の再構築されたバージョンを生じるために、（たとえば、オプティカルフローに基づく）更新された重みを使用することができる。

[0244] いくつかの例では、第１の複数のニューラルネットワーク重み値は、重みプライア下で量子化され得る。たとえば、量子化されたベースモデル８０６によって受信された重みは、重みプライア（たとえば、重みプライア７１２）下で量子化され得る。いくつかの態様では、第１の複数のネットワーク重み値の圧縮バージョンは、エントロピー符号化ビットストリーム（entropy encoded bitstream）中で受信される。たとえば、算術エンコーダ７１０は、重み（たとえば、重みｗ７０６）または量子化された重み（たとえば、量子化された重み７０８）のエントロピー符号化を実施し、ビットストリーム７２４を出力することができる。

[0245] いくつかの場合には、プロセス１３００は、第１のニューラルネットワークモデルに対応するニューラルネットワークアーキテクチャの圧縮バージョンを受信することを含むことができる。たとえば、アーキテクチャエンコーダ７１６は、ビットストリーム７２０中でモデルアーキテクチャΨ（・）７１８を符号化し、それをアーキテクチャデコーダ７２６に送出することができる。

[0246] 図１４は、暗黙的ニューラル表現に基づいて画像データを圧縮するための例示的なプロセス１４００を示すフローチャートである。ブロック１４０２において、プロセス１４００は、ニューラルネットワーク圧縮システムによる圧縮のための入力データを受信することを含むことができる。いくつかの態様では、入力データは、メディアデータ（たとえば、ビデオデータ、ピクチャデータ、オーディオデータなど）に対応することができる。いくつかの例では、入力データは、ニューラルネットワーク圧縮システムをトレーニングするために使用される画像データに対応する複数の座標を含むことができる。

[0247] ブロック１４０４において、プロセス１４００は、入力データに基づいて、入力データを圧縮するためのニューラルネットワーク圧縮システムによる使用のためのモデルアーキテクチャを選択することを含むことができる。いくつかの態様では、モデルアーキテクチャを選択することは、入力データに基づいて、１つまたは複数のモデルアーキテクチャに関連付けられた複数の重み値を調整することを含むことができ、ここにおいて、１つまたは複数のモデルアーキテクチャの各々が１つまたは複数のモデル特性に関連付けられる。いくつかの例では、モデルアーキテクチャを選択することは、入力データと１つまたは複数のモデルアーキテクチャの各々に対応する再構築されたデータ出力との間の少なくとも１つのひずみを決定することをも含むことができる。いくつかの場合には、１つまたは複数のモデルアーキテクチャからモデルアーキテクチャを選択することは、少なくとも１つのひずみに基づき得る。いくつかの態様では、１つまたは複数のモデル特性は、幅、深度、解像度、畳み込みカーネルのサイズ、および入力次元のうちの少なくとも１つを含むことができる。

[0248] ブロック１４０６において、プロセス１４００は、入力データを使用して、モデルアーキテクチャに関連付けられた複数の層に対応する複数の重み値を決定することを含むことができる。ブロック１４０８において、プロセス１４００は、重みプライアの圧縮バージョンを備える第１のビットストリームを生成することを含むことができる。いくつかの例では、第１のビットストリームを生成することは、オープンニューラルネットワーク交換（ＯＮＮＸ：Open Neural Network Exchange）フォーマットを使用して重みプライアを符号化することを含むことができる。ブロック１４１０において、プロセス１４００は、重みプライア下での複数の重み値の圧縮バージョンを備える第２のビットストリームを生成することを含むことができる。いくつかの態様では、第２のビットストリームを生成することは、重みプライアを使用して複数の重み値をエントロピー符号化することを含むことができる。いくつかの例では、重みプライアは、受信機に第２のビットストリームを送出することに関連付けられたレート損失を最小限に抑えるように選択され得る。

[0249] ブロック１４１２において、プロセス１４００は、受信機への送信のために第１のビットストリームおよび第２のビットストリームを出力することを含むことができる。いくつかの例では、プロセスは、モデルアーキテクチャの圧縮バージョンを備える第３のビットストリームを生成することと、受信機への送信のために第３のビットストリームを出力することとを含むことができる。いくつかの態様では、モデルアーキテクチャの少なくとも１つの層が、入力データに関連付けられた複数の座標の位置符号化を備える。

[0250] いくつかの例では、プロセスは、複数の量子化された重み値を生じるために複数の重み値を量子化することを含むことができ、ここにおいて、第２のビットストリームは、重みプライア下での複数の量子化された重み値の圧縮バージョンを備える。いくつかの態様では、複数の重み値は、学習された固定小数点量子化を使用して量子化され得る。いくつかの場合には、学習された固定小数点量子化は、機械学習アルゴリズムを使用して実装され得る。いくつかの例では、第２のビットストリームは、複数の重み値を量子化するために使用される複数の符号化された量子化パラメータを含むことができる。

[0251] 図１５は、暗黙的ニューラル表現に基づいて画像データを展開するためのプロセス１５００の一例を示すフローチャートである。ブロック１５０２において、プロセス１５００は、重みプライアの圧縮バージョンと、重みプライア下での複数の重み値の圧縮バージョンとを受信することを含むことができる。いくつかの態様では、重みプライア下での複数の重みは、エントロピー符号化ビットストリーム中で受信され得る。ブロック１５０４において、プロセス１５００は、重みプライアと、重みプライア下での複数の重み値の圧縮バージョンとを展開することを含むことができる。

[0252] ブロック１５０６において、プロセス１５００は、重みプライアと重みプライア下での複数の重みとに基づいて、複数のニューラルネットワーク重みを決定することを含むことができる。ブロック１５０８において、プロセス１５００は、ニューラルネットワークアーキテクチャを使用して、再構築された画像コンテンツを生じるために複数のニューラルネットワーク重みを処理することを含むことができる。いくつかの態様では、重みプライア下での複数の重み値は、重みプライア下での複数の量子化された重みに対応することができる。いくつかの例では、プロセスは、重みプライア下での複数の量子化された重みを量子化するために使用される複数の符号化された量子化パラメータを受信することを含むことができる。

[0253] いくつかの態様では、プロセスは、ニューラルネットワークアーキテクチャの圧縮バージョンを受信することと、ニューラルネットワークアーキテクチャの圧縮バージョンを展開することとを含むことができる。いくつかの例では、プロセスは、バイナリマスクに基づいて重みプライア下での複数の重みを再分布することを含むことができる。

[0254] いくつかの例では、本明細書で説明されるプロセス（たとえば、プロセス１１００、プロセス１２００、プロセス１３００、プロセス１４００、プロセス１５００、および／または本明細書で説明される他のプロセス）は、コンピューティングデバイスまたは装置によって実施され得る。一例では、プロセス１１００、１２００、１３００、１４００、および／または１５００は、図４に示されているシステム４００または図１６に示されているコンピューティングシステム１６００によるコンピューティングデバイスによって実施され得る。

[0255] コンピューティングデバイスは、モバイルデバイス（たとえば、モバイルフォン）、デスクトップコンピューティングデバイス、タブレットコンピューティングデバイス、ウェアラブルデバイス（たとえば、ＶＲヘッドセット、ＡＲヘッドセット、ＡＲグラス、ネットワーク接続された時計またはスマートウォッチ、あるいは他のウェアラブルデバイス）、サーバコンピュータ、自律車両または自律車両のコンピューティングデバイス、ロボティックデバイス、テレビジョン、ならびに／あるいは、プロセス１１００、プロセス１２００、プロセス１３００、プロセス１４００、プロセス１５００、および／または本明細書で説明される他のプロセスを含む、本明細書で説明されるプロセスを実施するリソース能力をもつ任意の他のコンピューティングデバイスなど、任意の好適なデバイスを含むことができる。いくつかの場合には、コンピューティングデバイスまたは装置は、１つまたは複数の入力デバイス、１つまたは複数の出力デバイス、１つまたは複数のプロセッサ、１つまたは複数のマイクロプロセッサ、１つまたは複数のマイクロコンピュータ、１つまたは複数のカメラ、１つまたは複数のセンサー、および／あるいは本明細書で説明されるプロセスのステップを行うように構成された（１つまたは複数の）他の構成要素など、様々な構成要素を含み得る。いくつかの例では、コンピューティングデバイスは、ディスプレイ、データを通信および／または受信するように構成されたネットワークインターフェース、それらの任意の組合せ、ならびに／あるいは（１つまたは複数の）他の構成要素を含み得る。ネットワークインターフェースは、インターネットプロトコル（ＩＰ）ベースデータまたは他のタイプのデータを通信および／または受信するように構成され得る。

[0256] コンピューティングデバイスの構成要素は、回路において実装され得る。たとえば、構成要素は、本明細書で説明される様々な動作を実施するために、１つまたは複数のプログラマブル電子回路（たとえば、マイクロプロセッサ、グラフィックス処理ユニット（ＧＰＵ）、デジタル信号プロセッサ（ＤＳＰ）、中央処理ユニット（ＣＰＵ）、および／または他の好適な電子回路）を含むことができる、電子回路もしくは他の電子ハードウェアを含むことができ、および／またはそれらを使用して実装され得、ならびに／あるいは、コンピュータソフトウェア、ファームウェア、もしくはそれらの任意の組合せを含むことができ、および／またはそれらを使用して実装され得る。

[0257] プロセス１１００、１２００、１３００、１４００、および１５００は、論理流れ図として示されており、その動作は、ハードウェア、コンピュータ命令、またはそれらの組合せにおいて実施され得る動作のシーケンスを表す。コンピュータ命令のコンテキストでは、動作は、１つまたは複数のプロセッサによって実行されたとき、具陳された動作を実施する１つまたは複数のコンピュータ可読記憶媒体に記憶されたコンピュータ実行可能命令を表す。概して、コンピュータ実行可能命令は、特定の機能を実施するか、または特定のデータタイプを実装する、ルーチン、プログラム、オブジェクト、構成要素、データ構造などを含む。動作が説明される順序は、限定として解釈されるものではなく、任意の数の説明される動作は、プロセスを実装するために任意の順序でおよび／または並行して組み合わせられ得る。

[0258] さらに、プロセス１１００、１２００、１３００、１４００、１５００、および／または本明細書で説明される他のプロセスは、実行可能命令で構成された１つまたは複数のコンピュータシステムの制御下で実施され得、まとめて１つまたは複数のプロセッサ上で、ハードウェアによって、またはそれらの組合せで実行するコード（たとえば、実行可能命令、１つまたは複数のコンピュータプログラム、または１つまたは複数のアプリケーション）として実装され得る。上述のように、コードは、たとえば、１つまたは複数のプロセッサによって実行可能な複数の命令を備えるコンピュータプログラムの形態で、コンピュータ可読または機械可読記憶媒体に記憶され得る。コンピュータ可読または機械可読記憶媒体は非一時的であり得る。

[0259] 図１６は、本技術のいくつかの態様を実装するためのシステムの一例を示す図である。特に、図１６は、たとえば、内部コンピューティングシステムを構成する任意のコンピューティングデバイス、リモートコンピューティングシステム、カメラ、または、その任意の構成要素であり得る、コンピューティングシステム１６００の一例を示し、システムの構成要素は、接続１６０５を使用して互いと通信している。接続１６０５は、バスを使用したプロセッサ１６１０への物理接続、または、チップセットアーキテクチャなどにおける、プロセッサ１６１０への直接接続であり得る。接続１６０５は、仮想接続、ネットワーク化された接続、または論理接続でもあり得る。

[0260] いくつかの実施形態では、コンピューティングシステム１６００は、本開示で説明される機能が、データセンター、複数のデータセンター、ピアネットワーク内などに分散され得る、分散型システムである。いくつかの実施形態では、説明されるシステム構成要素のうちの１つまたは複数は、構成要素がそれについて説明される機能の一部または全部を各々実施する多くのそのような構成要素を表す。いくつかの実施形態では、構成要素は、物理デバイスまたは仮想デバイスであり得る。

[0261] 例示的なシステム１６００は、少なくとも１つの処理ユニット（ＣＰＵまたはプロセッサ）１６１０と接続１６０５とを含み、接続１６０５は、読取り専用メモリ（ＲＯＭ）１６２０およびランダムアクセスメモリ（ＲＡＭ）１６２５など、システムメモリ１６１５を含む様々なシステム構成要素を、プロセッサ１６１０に結合する。コンピューティングシステム１６００は、プロセッサ１６１０と直接接続された、プロセッサ１６１０に極めて近接した、またはプロセッサ１６１０の一部として統合された、高速メモリのキャッシュ１６１２を含むことができる。

[0262] プロセッサ１６１０は、任意の汎用プロセッサと、プロセッサ１６１０ならびに専用プロセッサを制御するように構成された、記憶デバイス１６３０に記憶されたサービス１６３２、１６３４、および１６３６など、ハードウェアサービスまたはソフトウェアサービスとを含むことができ、ここで、ソフトウェア命令が実際のプロセッサ設計に組み込まれる。プロセッサ１６１０は、本質的に、複数のコアまたはプロセッサ、バス、メモリコントローラ、キャッシュなどを含んでいる、完全自己完結型コンピューティングシステムであり得る。マルチコアプロセッサは、対称的または非対称的であり得る。

[0263] ユーザ対話を可能にするために、コンピューティングシステム１６００は入力デバイス１６４５を含み、入力デバイス１６４５は、音声のためのマイクロフォン、ジェスチャーまたはグラフィカル入力のためのタッチセンシティブスクリーン、キーボード、マウス、動き入力、音声など、任意の数の入力機構を表すことができる。コンピューティングシステム１６００は、いくつかの出力機構のうちの１つまたは複数であり得る、出力デバイス１６３５をも含むことができる。いくつかの事例では、マルチモーダルシステムは、ユーザがコンピューティングシステム１６００と通信するために複数のタイプの入出力を提供することを可能にすることができる。コンピューティングシステム１６００は、概してユーザ入力とシステム出力とを統制および管理することができる、通信インターフェース１６４０を含むことができる。

[0264] 通信インターフェースは、オーディオジャック／プラグ、マイクロフォンジャック／プラグ、ユニバーサルシリアルバス（ＵＳＢ）ポート／プラグ、Ａｐｐｌｅ（登録商標）Ｌｉｇｈｔｎｉｎｇ（登録商標）ポート／プラグ、イーサネット（登録商標）ポート／プラグ、光ファイバーポート／プラグ、プロプライエタリワイヤードポート／プラグ、ＢＬＵＥＴＯＯＴＨ（登録商標）ワイヤレス信号転送、ＢＬＵＥＴＯＯＴＨ（登録商標）低エネルギー（ＢＬＥ）ワイヤレス信号転送、ＩＢＥＡＣＯＮ（登録商標）ワイヤレス信号転送、無線周波数識別（ＲＦＩＤ）ワイヤレス信号転送、ニアフィールド通信（ＮＦＣ）ワイヤレス信号転送、専用短距離通信（ＤＳＲＣ）ワイヤレス信号転送、８０２．１１Ｗｉ－Ｆｉワイヤレス信号転送、ワイヤレスローカルエリアネットワーク（ＷＬＡＮ）信号転送、可視光通信（ＶＬＣ）、ワールドワイドインターオペラビリティフォーマイクロウェーブアクセス（ＷｉＭＡＸ（登録商標））、赤外線（ＩＲ）通信ワイヤレス信号転送、公衆交換電話網（ＰＳＴＮ）信号転送、統合サービスデジタルネットワーク（ＩＳＤＮ）信号転送、３Ｇ／４Ｇ／５Ｇ／ＬＴＥセルラーデータネットワークワイヤレス信号転送、アドホックネットワーク信号転送、電波信号転送、マイクロ波信号転送、赤外線信号転送、可視光信号転送、紫外光信号転送、電磁スペクトルに沿ったワイヤレス信号転送、またはそれらの何らかの組合せを利用するものを含む、ワイヤードおよび／またはワイヤレストランシーバを使用して、ワイヤードまたはワイヤレス通信の受信および／または送信を実施するか、または可能にし得る。

[0265] 通信インターフェース１６４０はまた、１つまたは複数のグローバルナビゲーション衛星システム（ＧＮＳＳ）システムに関連付けられた１つまたは複数の衛星からの１つまたは複数の信号の受信に基づいてコンピューティングシステム１６００のロケーションを決定するために使用される１つまたは複数のＧＮＳＳ受信機またはトランシーバを含み得る。ＧＮＳＳシステムは、限定はしないが、米国ベースの全地球測位システム（ＧＰＳ）と、ロシアベースの全地球航法衛星システム（ＧＬＯＮＡＳＳ）と、中国ベースの北斗航法衛星システム（ＢＤＳ）と、欧州ベースのＧａｌｉｌｅｏＧＮＳＳとを含む。任意の特定のハードウェア構成上で動作することに対する制限はなく、したがって、ここでの基本的特徴は、改善されたハードウェア構成またはファームウェア構成が開発されるにつれて、それらで容易に代用され得る。

[0266] 記憶デバイス１６３０は、不揮発性および／または非一時的および／またはコンピュータ可読メモリデバイスであり得、磁気カセット、フラッシュメモリカード、固体メモリデバイス、デジタル多用途ディスク、カートリッジ、フロッピー（登録商標）ディスク、フレキシブルディスク、ハードディスク、磁気テープ、磁気ストリップ／ストライプ、任意の他の磁気記憶媒体、フラッシュメモリ、メモリストレージ、任意の他の固体メモリ、コンパクトディスク読取り専用メモリ（ＣＤ－ＲＯＭ）光ディスク、書換え可能コンパクトディスク（ＣＤ）光ディスク、デジタルビデオディスク（ＤＶＤ）光ディスク、ｂｌｕ－ｒａｙ（登録商標）ディスク（ＢＤＤ）光ディスク、ホログラフィック光ディスク、別の光媒体、セキュアデジタル（ＳＤ）カード、マイクロセキュアデジタル（ｍｉｃｒｏＳＤ）カード、ＭｅｍｏｒｙＳｔｉｃｋ（登録商標）カード、スマートカードチップ、ＥＭＶチップ、加入者識別モジュール（ＳＩＭ）カード、ミニ／マイクロ／ナノ／ピコＳＩＭカード、別の集積回路（ＩＣ）チップ／カード、ランダムアクセスメモリ（ＲＡＭ）、スタティックＲＡＭ（ＳＲＡＭ）、ダイナミックＲＡＭ（ＤＲＡＭ）、読取り専用メモリ（ＲＯＭ）、プログラマブル読取り専用メモリ（ＰＲＯＭ）、消去可能プログラマブル読取り専用メモリ（ＥＰＲＯＭ）、電気的消去可能プログラマブル読取り専用メモリ（ＥＥＰＲＯＭ（登録商標））、フラッシュＥＰＲＯＭ（ＦＬＡＳＨＥＰＲＯＭ）、キャッシュメモリ（Ｌ１／Ｌ２／Ｌ３／Ｌ４／Ｌ５／Ｌ＃）、抵抗性ランダムアクセスメモリ（ＲＲＡＭ（登録商標）／ＲｅＲＡＭ）、相変化メモリ（ＰＣＭ）、スピン転送トルクＲＡＭ（ＳＴＴ－ＲＡＭ）、別のメモリチップまたはカートリッジ、および／あるいはそれらの組合せなど、コンピュータによってアクセス可能であるデータを記憶することができるハードディスクまたは他のタイプのコンピュータ可読媒体であり得る。

[0267] 記憶デバイス１６３０は、ソフトウェアサービス、サーバ、サービスなどを含むことができ、それらは、そのようなソフトウェアを定義するコードがプロセッサ１６１０によって実行されるとき、システムに機能を実施させる。いくつかの実施形態では、特定の機能を実施するハードウェアサービスは、その機能を行うために、プロセッサ１６１０、接続１６０５、出力デバイス１６３５など、必要なハードウェア構成要素に関して、コンピュータ可読媒体に記憶されたソフトウェア構成要素を含むことができる。「コンピュータ可読媒体」という用語は、限定はしないが、ポータブルまたは非ポータブル記憶デバイス、光記憶デバイス、ならびに（１つまたは複数の）命令および／またはデータを記憶、含有、または搬送することが可能な様々な他の媒体を含む。コンピュータ可読媒体は、データがそこに記憶され得る非一時的媒体を含み得、それは、ワイヤレスにまたはワイヤード接続を介して伝搬する搬送波および／または一時的電子信号を含まない。非一時的媒体の例は、限定はしないが、磁気ディスクまたはテープ、コンパクトディスク（ＣＤ）またはデジタル多用途ディスク（ＤＶＤ）などの光記憶媒体、フラッシュメモリ、メモリまたはメモリデバイスを含み得る。コンピュータ可読媒体は、プロシージャ、関数、サブプログラム、プログラム、ルーチン、サブルーチン、モジュール、ソフトウェアパッケージ、クラス、あるいは命令、データ構造、またはプログラムステートメントの任意の組合せを表し得る、コードおよび／または機械実行可能命令をその上に記憶していることがある。コードセグメントは、情報、データ、引数、パラメータ、またはメモリコンテンツをパスおよび／または受信することによって、別のコードセグメントまたはハードウェア回路に結合され得る。情報、引数、パラメータ、データなどは、メモリ共有、メッセージパッシング、トークンパッシング、ネットワーク送信などを含む、任意の好適な手段を介してパス、フォワーディング、または送信され得る。

[0268] いくつかの実施形態では、コンピュータ可読記憶デバイス、媒体、およびメモリは、ビットストリームなどを含んでいるケーブル信号またはワイヤレス信号を含むことができる。しかしながら、述べられるとき、非一時的コンピュータ可読記憶媒体は、エネルギー、キャリア信号、電磁波、および信号自体などの媒体を明確に除外する。

[0269] 本明細書で提供される実施形態および例の完全な理解を提供するために、具体的な詳細が上記の説明で提供される。ただし、実施形態はこれらの具体的な詳細なしに実施され得ることを当業者は理解されよう。説明の明快のために、いくつかの事例では、本技術は、デバイス、デバイス構成要素、ソフトウェアで具現される方法におけるステップまたはルーチン、あるいはハードウェアとソフトウェアとの組合せを備える、個々の機能ブロックを含むものとして提示され得る。図に示されているおよび／または本明細書で説明される構成要素以外の追加の構成要素が使用され得る。たとえば、回路、システム、ネットワーク、プロセス、および他の構成要素は、実施形態を不要な詳細で不明瞭にしないためにブロック図の形態で構成要素として示され得る。他の事例では、実施形態を不明瞭にすることを回避するために、よく知られている回路、プロセス、アルゴリズム、構造、および技法が不要な詳細なしに示され得る。

[0270] 個々の実施形態は、フローチャート、流れ図、データフロー図、構造図、またはブロック図として示されるプロセスまたは方法として、上記で説明され得る。フローチャートは、動作を逐次的なプロセスとして説明し得るが、動作の多くは、並行してまたは同時に実施され得る。さらに、動作の順序は並べ替えられ得る。プロセスの動作が完了されるとき、プロセスは終了されるが、図中に含まれない追加のステップを有し得る。プロセスは、方法、関数、プロシージャ、サブルーチン、サブプログラムなどに対応し得る。プロセスが関数に対応するとき、それの終了は呼出し関数またはメイン関数への関数の復帰に対応することができる。

[0271] 上記で説明された例によるプロセスおよび方法は、記憶されるかまたはさもなければコンピュータ可読媒体から利用可能である、コンピュータ実行可能命令を使用して実装され得る。そのような命令は、たとえば、汎用コンピュータ、専用コンピュータ、または処理デバイスが、ある機能または機能のグループを実施することを引き起こすか、あるいはさもなければそれらを実施するように構成する、命令とデータとを含むことができる。使用されるコンピュータリソースの部分が、ネットワークを介してアクセス可能であり得る。コンピュータ実行可能命令は、たとえば、バイナリ、アセンブリ言語などの中間フォーマット命令、ファームウェア、ソースコードであり得る。命令、使用される情報、および／または説明される例による方法中に作成される情報を記憶するために使用され得るコンピュータ可読媒体の例は、磁気または光ディスク、フラッシュメモリ、不揮発性メモリを備えたＵＳＢデバイス、ネットワーク化された記憶デバイスなどを含む。

[0272] これらの開示によるプロセスおよび方法を実装するデバイスは、ハードウェア、ソフトウェア、ファームウェア、ミドルウェア、マイクロコード、ハードウェア記述言語、またはそれらの任意の組合せを含むことができ、様々なフォームファクタのいずれかをとることができる。ソフトウェア、ファームウェア、ミドルウェア、またはマイクロコードで実装されるとき、必要なタスクを実施するためのプログラムコードまたはコードセグメント（たとえば、コンピュータプログラム製品）は、コンピュータ可読媒体または機械可読媒体に記憶され得る。（１つまたは複数の）プロセッサが、必要なタスクを実施し得る。フォームファクタの典型的な例は、ラップトップ、スマートフォン、モバイルフォン、タブレットデバイスまたは他のスモールフォームファクタパーソナルコンピュータ、携帯情報端末、ラックマウントデバイス、スタンドアロンデバイスなどを含む。本明細書で説明される機能はまた、周辺機器またはアドインカードで具現され得る。そのような機能はまた、さらなる例として、単一のデバイスにおいて実行する異なるチップまたは異なるプロセスの間で回路板上に実装され得る。

[0273] 命令、そのような命令を伝達するための媒体、それらを実行するためのコンピューティングリソース、およびそのようなコンピューティングリソースをサポートするための他の構造は、本開示で説明される機能を提供するための例示的な手段である。

[0274] 上記の説明では、本出願の態様がそれの特定の実施形態を参照しながら説明されたが、本出願はそれに限定されないことを、当業者は認識されよう。したがって、本出願の例示的な実施形態が本明細書で詳細に説明されているが、従来技術によって限定される場合を除いて、発明的概念が、場合によっては様々に具現および採用され得、添付の特許請求の範囲が、そのような変形形態を含むように解釈されるものであることを理解されたい。上記で説明された適用例の様々な特徴および態様は、個々にまたは一緒に使用され得る。さらに、実施形態は、本明細書のより広い趣旨および範囲から逸脱することなく、本明細書で説明された環境および適用例以外に、任意の数の環境および適用例において利用され得る。したがって、本明細書および図面は、限定的なものではなく例示的なものとして考慮されるべきである。説明の目的で、方法は特定の順序で説明された。代替実施形態では、方法は、説明された順序とは異なる順序で実施され得ることを諒解されたい。

[0275] 本明細書で使用される、よりも小さい（「＜」）、および、よりも大きい（「＞」）のシンボルまたは専門用語は、本明細書の範囲から逸脱することなく、それぞれ、よりも小さいかまたはそれに等しい（「≦」）、および、よりも大きいかまたはそれに等しい（「≧」）のシンボルと置き換えられ得ることを、当業者は諒解されよう。

[0276] 構成要素がいくつかの動作を実施する「ように構成される」ものとして説明される場合、そのような構成は、たとえば、動作を実施するように電子回路または他のハードウェアを設計することによって、動作を実施するようにプログラマブル電子回路（たとえば、マイクロプロセッサ、または他の好適な電子回路）をプログラムすることによって、あるいはそれらの任意の組合せで達成され得る。

[0277] 「に結合された」という句は、直接または間接的にのいずれかで別の構成要素に物理的に接続された任意の構成要素、および／あるいは直接または間接的にのいずれかで別の構成要素と通信している（たとえば、ワイヤードまたはワイヤレス接続、および／あるいは他の好適な通信インターフェースを介して他の構成要素に接続された）任意の構成要素を指す。

[0278] セット「のうちの少なくとも１つ」および／またはセットのうちの「１つまたは複数」を具陳するクレームの文言または他の文言は、セットのうちの１つのメンバーまたは（任意の組合せにおける）セットのうちの複数のメンバーがクレームを満たすことを示す。たとえば、「ＡおよびＢのうちの少なくとも１つ」または「ＡまたはＢのうちの少なくとも１つ」を具陳するクレームの文言は、Ａ、Ｂ、またはＡおよびＢを意味する。別の例では、「Ａ、Ｂ、およびＣのうちの少なくとも１つ」または「Ａ、Ｂ、またはＣのうちの少なくとも１つ」を具陳するクレームの文言は、Ａ、Ｂ、Ｃ、またはＡおよびＢ、またはＡおよびＣ、またはＢおよびＣ、またはＡおよびＢおよびＣを意味する。セット「のうちの少なくとも１つ」および／またはセットのうちの「１つまたは複数」という文言は、セットを、セットに記載されている項目に限定しない。たとえば、「ＡおよびＢのうちの少なくとも１つ」または「ＡまたはＢのうちの少なくとも１つ」を具陳するクレームの文言は、Ａ、Ｂ、またはＡおよびＢを意味することができ、さらに、ＡおよびＢのセットに記載されていない項目を含むことができる。

[0279] 本明細書で開示される例に関して説明された様々な例示的な論理ブロック、モジュール、回路、およびアルゴリズムステップは、電子ハードウェア、コンピュータソフトウェア、ファームウェア、またはそれらの組合せとして実装され得る。ハードウェアとソフトウェアのこの互換性を明確に示すために、様々な例示的な構成要素、ブロック、モジュール、回路、およびステップが、概してそれらの機能に関して上記で説明された。そのような機能がハードウェアとして実装されるのかソフトウェアとして実装されるのかは、特定の適用例および全体的なシステムに課される設計制約に依存する。当業者は、説明される機能を特定の適用例ごとに様々な方法で実装し得るが、そのような実装の決定は、本出願の範囲からの逸脱を生じるものと解釈されるべきではない。

[0280] 本明細書で説明された技法はまた、電子ハードウェア、コンピュータソフトウェア、ファームウェア、またはそれらの任意の組合せで実装され得る。そのような技法は、汎用コンピュータ、ワイヤレス通信デバイスハンドセット、またはワイヤレス通信デバイスハンドセットおよび他のデバイスにおける適用を含む複数の用途を有する集積回路デバイスなど、様々なデバイスのいずれかにおいて実装され得る。モジュールまたは構成要素として説明された特徴は、集積論理デバイスに一緒に、または個別であるが相互運用可能な論理デバイスとして別個に実装され得る。ソフトウェアで実装された場合、技法は、実行されたとき、上記で説明された方法、アルゴリズム、および／または動作のうちの１つまたは複数を実施する命令を含むプログラムコードを備えるコンピュータ可読データ記憶媒体によって、少なくとも部分的に実現され得る。コンピュータ可読データ記憶媒体は、パッケージング材料を含み得るコンピュータプログラム製品の一部を形成し得る。コンピュータ可読媒体は、シンクロナスダイナミックランダムアクセスメモリ（ＳＤＲＡＭ）などのランダムアクセスメモリ（ＲＡＭ）、読取り専用メモリ（ＲＯＭ）、不揮発性ランダムアクセスメモリ（ＮＶＲＡＭ）、電気的消去可能プログラマブル読取り専用メモリ（ＥＥＰＲＯＭ）、フラッシュメモリ、磁気または光データ記憶媒体など、メモリまたはデータ記憶媒体を備え得る。本技法は、追加または代替として、伝搬信号または電波など、命令またはデータ構造の形態でプログラムコードを搬送または通信し、コンピュータによってアクセスされ、読み取られ、および／または実行され得るコンピュータ可読通信媒体によって少なくとも部分的に実現され得る。

[0281] プログラムコードは、１つまたは複数のデジタル信号プロセッサ（ＤＳＰ）、汎用マイクロプロセッサ、特定用途向け集積回路（ＡＳＩＣ）、フィールドプログラマブル論理アレイ（ＦＰＧＡ）、あるいは他の等価な集積回路またはディスクリート論理回路など、１つまたは複数のプロセッサを含み得るプロセッサによって実行され得る。そのようなプロセッサは、本開示で説明された技法のいずれかを実施するように構成され得る。汎用プロセッサはマイクロプロセッサであり得るが、代替として、プロセッサは、任意の従来のプロセッサ、コントローラ、マイクロコントローラ、または状態機械であり得る。プロセッサはまた、コンピューティングデバイスの組合せ、たとえば、ＤＳＰとマイクロプロセッサとの組合せ、複数のマイクロプロセッサ、ＤＳＰコアと連携する１つまたは複数のマイクロプロセッサ、または任意の他のそのような構成として実装され得る。したがって、本明細書で使用される「プロセッサ」という用語は、上記の構造のいずれか、上記の構造の任意の組合せ、あるいは本明細書で説明された技法の実装に好適な任意の他の構造または装置を指し得る。

[0282] 本開示の例示的な例は、以下を含む。

[0283] 態様１：少なくとも１つのメモリと、少なくとも１つのメモリに結合された少なくとも１つのプロセッサとを備える装置であって、少なくとも１つのプロセッサが、ニューラルネットワーク圧縮システムによる圧縮のための複数の画像を受信することと、複数の画像からの第１の画像に基づいて、ニューラルネットワーク圧縮システムの第１のモデルに関連付けられた第１の複数の重み値を決定することと、第１の複数の重み値の圧縮バージョンを備える第１のビットストリームを生成することと、受信機への送信のために第１のビットストリームを出力することとを行うように構成された、装置。

[0284] 態様２：第１のモデルの少なくとも１つの層が、第１の画像に関連付けられた複数の座標の位置符号化を含む、態様１に記載の装置。

[0285] 態様３：第１のモデルが、第１の画像に関連付けられた複数の座標に対応する１つまたは複数のピクセル値を決定するように構成された、態様２に記載の装置。

[0286] 態様４：少なくとも１つのプロセッサが、複数の画像からの第２の画像に基づいて、ニューラルネットワーク圧縮システムに関連付けられた第２のモデルによる使用のための第２の複数の重み値を決定することと、第２の複数の重み値の圧縮バージョンを備える第２のビットストリームを生成することと、受信機への送信のために第２のビットストリームを出力することとを行うようにさらに構成された、態様１から３のいずれかに記載の装置。

[0287] 態様５：第２のモデルが、第１の画像と第２の画像との間のオプティカルフローを決定するように構成された、態様４に記載の装置。

[0288] 態様６：少なくとも１つのプロセッサが、オプティカルフローに基づいて、第１の複数の重み値から少なくとも１つの更新された重み値を決定することを行うようにさらに構成された、態様５に記載の装置。

[0289] 態様７：少なくとも１つのプロセッサは、複数の量子化された重み値を生じるために重みプライア下で第１の複数の重み値を量子化すること、ここにおいて、第１のビットストリームが複数の量子化された重み値の圧縮バージョンを備える、を行うようにさらに構成された、態様１から６のいずれかに記載の装置。

[0290] 態様８：重みプライアが、受信機に第１のビットストリームを送出することに関連付けられたレート損失を最小限に抑えるように選択される、態様７に記載の装置。

[0291] 態様９：第１のビットストリームを生成するために、少なくとも１つのプロセッサが、重みプライアを使用して第１の複数の重み値をエントロピー符号化することを行うようにさらに構成された、態様７から８のいずれかに記載の装置。

[0292] 態様１０：第１の複数の重み値が、固定小数点量子化を使用して量子化される、態様７から９のいずれかに記載の装置。

[0293] 態様１１：固定小数点量子化が、機械学習アルゴリズムを使用して実装される、態様１０に記載の装置。

[0294] 態様１２：少なくとも１つのプロセッサが、第１の画像に基づいて、第１のモデルに対応するモデルアーキテクチャを選択することを行うようにさらに構成された、態様１から１１のいずれかに記載の装置。

[0295] 態様１３：少なくとも１つのプロセッサが、モデルアーキテクチャの圧縮バージョンを備える第２のビットストリームを生成することと、受信機への送信のために第２のビットストリームを出力することとを行うようにさらに構成された、態様１２に記載の装置。

[0296] 態様１４：モデルアーキテクチャを選択するために、少なくとも１つのプロセッサは、第１の画像に基づいて、１つまたは複数のモデルアーキテクチャに関連付けられた複数の重み値を調整することと、ここにおいて、１つまたは複数のモデルアーキテクチャの各々が１つまたは複数のモデル特性に関連付けられる、第１の画像と１つまたは複数のモデルアーキテクチャの各々に対応する再構築されたデータ出力との間の少なくとも１つのひずみを決定することと、少なくとも１つのひずみに基づいて１つまたは複数のモデルアーキテクチャからモデルアーキテクチャを選択することとを行うようにさらに構成された、態様１２から１３のいずれかに記載の装置。

[0297] 態様１５：１つまたは複数のモデル特性が、幅、深度、解像度、畳み込みカーネルのサイズ、および入力次元のうちの少なくとも１つを含む、態様１４に記載の装置。

[0298] 態様１６：態様１から１５に記載の動作のいずれかを実施する方法。

[0299] 態様１７：実行されたとき、１つまたは複数のプロセッサに、態様１から１５に記載の動作のいずれかを実施させる命令を記憶するコンピュータ可読記憶媒体。

[0300] 態様１８：態様１から１５に記載の動作のいずれかを実施するための手段を備える装置。

[0301] 態様１９：少なくとも１つのメモリと、少なくとも１つのメモリに結合された少なくとも１つのプロセッサとを備える装置であって、少なくとも１つのプロセッサが、複数の画像からの第１の画像に関連付けられた第１の複数のニューラルネットワーク重み値の圧縮バージョンを受信することと、第１の複数のニューラルネットワーク重み値を展開することと、第１のニューラルネットワークモデルを使用して、第１の画像を生じるために第１の複数のニューラルネットワーク重み値を処理することとを行うように構成された、装置。

[0302] 態様２０：少なくとも１つのプロセッサが、複数の画像からの第２の画像に関連付けられた第２の複数のニューラルネットワーク重み値の圧縮バージョンを受信することと、第２の複数のニューラルネットワーク重み値を展開することと、第２のニューラルネットワークモデルを使用して、第１の画像と第２の画像との間のオプティカルフローを決定するために第２の複数のニューラルネットワーク重み値を処理することとを行うようにさらに構成された、態様１９に記載の装置。

[0303] 態様２１：少なくとも１つのプロセッサが、オプティカルフローに基づいて、第１のニューラルネットワークモデルに関連付けられた第１の複数のニューラルネットワーク重み値から少なくとも１つの更新された重み値を決定することを行うようにさらに構成された、態様２０に記載の装置。

[0304] 態様２２：少なくとも１つのプロセッサが、第１のニューラルネットワークモデルを使用して、第２の画像の再構築されたバージョンを生じるために少なくとも１つの更新された重み値を処理することを行うようにさらに構成された、態様２１に記載の装置。

[0305] 態様２３：第１の複数のニューラルネットワーク重み値が、重みプライア下で量子化される、態様１９から２２のいずれかに記載の装置。

[0306] 態様２４：第１の複数のニューラルネットワーク重み値の圧縮バージョンが、エントロピー符号化ビットストリーム中で受信される、態様１９から２３のいずれかに記載の装置。

[0307] 態様２５：少なくとも１つのプロセッサが、第１のニューラルネットワークモデルに対応するニューラルネットワークアーキテクチャの圧縮バージョンを受信することを行うようにさらに構成された、態様１９から２４のいずれかに記載の装置。

[0308] 態様２６：態様１９から２５に記載の動作のいずれかを実施する方法。

[0309] 態様２７：実行されたとき、１つまたは複数のプロセッサに、態様１９から２５に記載の動作のいずれかを実施させる命令を記憶するコンピュータ可読記憶媒体。

[0310] 態様２８：態様１９から２５に記載の動作のいずれかを実施するための手段を備える装置。

[0311] 態様２９：メモリと、メモリに結合された１つまたは複数のプロセッサとを備える装置であって、１つまたは複数のプロセッサが、ニューラルネットワーク圧縮システムによる圧縮のための入力データを受信することと、入力データに基づいて、入力データを圧縮するためのニューラルネットワーク圧縮システムによる使用のためのモデルアーキテクチャを選択することと、入力データを使用して、モデルアーキテクチャに関連付けられた複数の層に対応する複数の重み値を決定することと、重みプライアの圧縮バージョンを備える第１のビットストリームを生成することと、重みプライア下での複数の重み値の圧縮バージョンを備える第２のビットストリームを生成することと、受信機への送信のために第１のビットストリームおよび第２のビットストリームを出力することとを行うように構成された、装置。

[0312] 態様３０：ニューラルネットワークによる使用のためのモデルアーキテクチャを選択するために、１つまたは複数のプロセッサは、入力データに基づいて、１つまたは複数のモデルアーキテクチャに関連付けられた複数の重み値を調整することと、ここにおいて、１つまたは複数のモデルアーキテクチャの各々が１つまたは複数のモデル特性に関連付けられる、入力データと１つまたは複数のモデルアーキテクチャの各々に対応する再構築されたデータ出力との間の少なくとも１つのひずみを決定することと、少なくとも１つのひずみに基づいて１つまたは複数のモデルアーキテクチャからモデルアーキテクチャを選択することとを行うように構成された、態様２９に記載の装置。

[0313] 態様３１：１つまたは複数のモデル特性が、幅、深度、解像度、畳み込みカーネルのサイズ、および入力次元のうちの少なくとも１つを含む、態様３０に記載の装置。

[0314] 態様３２：１つまたは複数のプロセッサは、複数の量子化された重み値を生じるために複数の重み値を量子化すること、ここにおいて、第２のビットストリームが、重みプライア下での複数の量子化された重み値の圧縮バージョンを備える、を行うようにさらに構成された、態様２９から３１のいずれかに記載の装置。

[0315] 態様３３：複数の重み値が、学習された固定小数点量子化を使用して量子化される、態様３２に記載の装置。

[0316] 態様３４：固定小数点量子化が、機械学習アルゴリズムを使用して実装される、態様３２に記載の装置。

[0317] 態様３５：第２のビットストリームが、複数の重み値を量子化するために使用される複数の符号化された量子化パラメータを備える、態様３２に記載の装置。

[0318] 態様３６：１つまたは複数のプロセッサが、モデルアーキテクチャの圧縮バージョンを備える第３のビットストリームを生成することと、受信機への送信のために第３のビットストリームを出力することとを行うようにさらに構成された、態様２９から３５のいずれかに記載の装置。

[0319] 態様３７：モデルアーキテクチャの少なくとも１つの層が、入力データに関連付けられた複数の座標の位置符号化を備える、態様２９から３６のいずれかに記載の装置。

[0320] 態様３８：第１のビットストリームを生成するために、１つまたは複数のプロセッサが、オープンニューラルネットワーク交換フォーマットを使用して重みプライアを符号化することを行うように構成された、態様２９から３７のいずれかに記載の装置。

[0321] 態様３９：第２のビットストリームを生成するために、１つまたは複数のプロセッサが、重みプライアを使用して複数の重み値をエントロピー符号化することを行うように構成された、態様２９から３８のいずれかに記載の装置。

[0322] 態様４０：重みプライアが、受信機に第２のビットストリームを送出することに関連付けられたレート損失を最小限に抑えるように選択される、態様２９から３９のいずれかに記載の装置。

[0323] 態様４１：入力データが、ニューラルネットワーク圧縮システムをトレーニングするために使用される画像データに対応する複数の座標を含む、態様２９から４０のいずれかに記載の装置。

[0324] 態様４２：態様２９から４１に記載の動作のいずれかを実施する方法。

[0325] 態様４３：実行されたとき、１つまたは複数のプロセッサに、態様２９から４１に記載の動作のいずれかを実施させる命令を記憶するコンピュータ可読記憶媒体。

[0326] 態様４４：態様２９から４１に記載の動作のいずれかを実施するための手段を備える装置。

[0327] 態様４５：メモリと、メモリに結合された１つまたは複数のプロセッサとを備える装置であって、１つまたは複数のプロセッサが、重みプライアの圧縮バージョンと、重みプライア下での複数の重み値の圧縮バージョンとを受信することと、重みプライアと、重みプライア下での複数の重み値の圧縮バージョンとを展開することと、重みプライアと重みプライア下での複数の重みとに基づいて、複数のニューラルネットワーク重みを決定することと、ニューラルネットワークアーキテクチャを使用して、再構築された画像コンテンツを生じるために複数のニューラルネットワーク重みを処理することとを行うように構成された、装置。

[0328] 態様４６：１つまたは複数のプロセッサが、ニューラルネットワークアーキテクチャの圧縮バージョンを受信することと、ニューラルネットワークアーキテクチャの圧縮バージョンを展開することとを行うようにさらに構成された、態様４５に記載の装置。

[0329] 態様４７：重みプライア下での複数の重み値が、重みプライア下での複数の量子化された重みに対応する、態様４５から４６のいずれかに記載の装置。

[0330] 態様４８：１つまたは複数のプロセッサが、重みプライア下での複数の量子化された重みを量子化するために使用される複数の符号化された量子化パラメータを受信することを行うようにさらに構成された、態様４７に記載の装置。

[0331] 態様４９：重みプライア下での複数の重みの圧縮バージョンが、エントロピー符号化ビットストリーム中で受信される、態様４５から４８のいずれかに記載の装置。

[0332] 態様５０：１つまたは複数のプロセッサが、バイナリマスクに基づいて重みプライア下での複数の重みを再分布することを行うようにさらに構成された、態様４５から４９のいずれかに記載の装置。

[0333] 態様５１：態様４５から５０に記載の動作のいずれかを実施する方法。

[0334] 態様５２：実行されたとき、１つまたは複数のプロセッサに、態様４５から５０に記載の動作のいずれかを実施させる命令を記憶するコンピュータ可読記憶媒体。

[0335] 態様５３：態様４５から５０に記載の動作のいずれかを実施するための手段を備える装置。

Claims

メディアデータを処理する方法であって、
ニューラルネットワーク圧縮システムによる圧縮のための複数の画像を受信することと、
前記複数の画像からの第１の画像に基づいて、前記ニューラルネットワーク圧縮システムの第１のモデルに関連付けられた第１の複数の重み値を決定することと、
前記第１の複数の重み値の圧縮バージョンを備える第１のビットストリームを生成することと、
受信機への送信のために前記第１のビットストリームを出力することと
を備える、方法。
前記第１のモデルの少なくとも１つの層が、前記第１の画像に関連付けられた複数の座標の位置符号化を含む、請求項１に記載の方法。
前記第１のモデルが、前記第１の画像に関連付けられた前記複数の座標に対応する１つまたは複数のピクセル値を決定するように構成された、請求項２に記載の方法。
前記複数の画像からの第２の画像に基づいて、前記ニューラルネットワーク圧縮システムに関連付けられた第２のモデルによる使用のための第２の複数の重み値を決定することと、
前記第２の複数の重み値の圧縮バージョンを備える第２のビットストリームを生成することと、
受信機への送信のために前記第２のビットストリームを出力することと
をさらに備える、請求項１に記載の方法。
前記第２のモデルが、前記第１の画像と前記第２の画像との間のオプティカルフローを決定するように構成された、請求項４に記載の方法。
前記オプティカルフローに基づいて、前記第１の複数の重み値から少なくとも１つの更新された重み値を決定すること
をさらに備える、請求項５に記載の方法。
複数の量子化された重み値を生じるために重みプライア下で前記第１の複数の重み値を量子化すること、ここにおいて、前記第１のビットストリームが前記複数の量子化された重み値の圧縮バージョンを備える、
をさらに備える、請求項１に記載の方法。
前記重みプライアが、前記受信機に前記第１のビットストリームを送出することに関連付けられたレート損失を最小限に抑えるように選択される、請求項７に記載の方法。
前記第１のビットストリームを生成することが、
前記重みプライアを使用して前記第１の複数の重み値をエントロピー符号化すること
を備える、請求項７に記載の方法。
前記第１の複数の重み値が、固定小数点量子化を使用して量子化される、請求項７に記載の方法。
前記固定小数点量子化が、機械学習アルゴリズムを使用して実装される、請求項１０に記載の方法。
前記第１の画像に基づいて、前記第１のモデルに対応するモデルアーキテクチャを選択すること
をさらに備える、請求項１に記載の方法。
前記モデルアーキテクチャの圧縮バージョンを備える第２のビットストリームを生成することと、
前記受信機への送信のために前記第２のビットストリームを出力することと
をさらに備える、請求項１２に記載の方法。
前記モデルアーキテクチャを選択することは、
前記第１の画像に基づいて、１つまたは複数のモデルアーキテクチャに関連付けられた複数の重み値を調整することと、ここにおいて、前記１つまたは複数のモデルアーキテクチャの各々が１つまたは複数のモデル特性に関連付けられる、
前記第１の画像と前記１つまたは複数のモデルアーキテクチャの各々に対応する再構築されたデータ出力との間の少なくとも１つのひずみを決定することと、
前記少なくとも１つのひずみに基づいて前記１つまたは複数のモデルアーキテクチャから前記モデルアーキテクチャを選択することと
を備える、請求項１２に記載の方法。
前記１つまたは複数のモデル特性が、幅、深度、解像度、畳み込みカーネルのサイズ、および入力次元のうちの少なくとも１つを含む、請求項１４に記載の方法。
少なくとも１つのメモリと、
前記少なくとも１つのメモリに結合された少なくとも１つのプロセッサと
を備える装置であって、前記少なくとも１つのプロセッサが、
ニューラルネットワーク圧縮システムによる圧縮のための複数の画像を受信することと、
前記複数の画像からの第１の画像に基づいて、前記ニューラルネットワーク圧縮システムの第１のモデルに関連付けられた第１の複数の重み値を決定することと、
前記第１の複数の重み値の圧縮バージョンを備える第１のビットストリームを生成することと、
受信機への送信のために前記第１のビットストリームを出力することと
を行うように構成された、装置。
前記第１のモデルの少なくとも１つの層が、前記第１の画像に関連付けられた複数の座標の位置符号化を含む、請求項１６に記載の装置。
前記第１のモデルが、前記第１の画像に関連付けられた前記複数の座標に対応する１つまたは複数のピクセル値を決定するように構成された、請求項１７に記載の装置。
前記少なくとも１つのプロセッサが、
前記複数の画像からの第２の画像に基づいて、前記ニューラルネットワーク圧縮システムに関連付けられた第２のモデルによる使用のための第２の複数の重み値を決定することと、
前記第２の複数の重み値の圧縮バージョンを備える第２のビットストリームを生成することと、
受信機への送信のために前記第２のビットストリームを出力することと
を行うようにさらに構成された、請求項１６に記載の装置。
前記第２のモデルが、前記第１の画像と前記第２の画像との間のオプティカルフローを決定するように構成された、請求項１９に記載の装置。
前記少なくとも１つのプロセッサが、
前記オプティカルフローに基づいて、前記第１の複数の重み値から少なくとも１つの更新された重み値を決定すること
を行うようにさらに構成された、請求項２０に記載の装置。
前記少なくとも１つのプロセッサは、
複数の量子化された重み値を生じるために重みプライア下で前記第１の複数の重み値を量子化すること、ここにおいて、前記第１のビットストリームが前記複数の量子化された重み値の圧縮バージョンを備える、
を行うようにさらに構成された、請求項１６に記載の装置。
前記重みプライアが、前記受信機に前記第１のビットストリームを送出することに関連付けられたレート損失を最小限に抑えるように選択される、請求項２２に記載の装置。
前記第１のビットストリームを生成するために、前記少なくとも１つのプロセッサが、
前記重みプライアを使用して前記第１の複数の重み値をエントロピー符号化すること
を行うようにさらに構成された、請求項２２に記載の装置。
前記第１の複数の重み値が、固定小数点量子化を使用して量子化される、請求項２２に記載の装置。
前記固定小数点量子化が、機械学習アルゴリズムを使用して実装される、請求項２５に記載の装置。
前記少なくとも１つのプロセッサが、
前記第１の画像に基づいて、前記第１のモデルに対応するモデルアーキテクチャを選択すること
を行うようにさらに構成された、請求項１６に記載の装置。
前記少なくとも１つのプロセッサが、
前記モデルアーキテクチャの圧縮バージョンを備える第２のビットストリームを生成することと、
前記受信機への送信のために前記第２のビットストリームを出力することと
を行うようにさらに構成された、請求項２７に記載の装置。
前記モデルアーキテクチャを選択するために、前記少なくとも１つのプロセッサは、
前記第１の画像に基づいて、１つまたは複数のモデルアーキテクチャに関連付けられた複数の重み値を調整することと、ここにおいて、前記１つまたは複数のモデルアーキテクチャの各々が１つまたは複数のモデル特性に関連付けられる、
前記第１の画像と前記１つまたは複数のモデルアーキテクチャの各々に対応する再構築されたデータ出力との間の少なくとも１つのひずみを決定することと、
前記少なくとも１つのひずみに基づいて前記１つまたは複数のモデルアーキテクチャから前記モデルアーキテクチャを選択することと
を行うようにさらに構成された、請求項２７に記載の装置。
前記１つまたは複数のモデル特性が、幅、深度、解像度、畳み込みカーネルのサイズ、および入力次元のうちの少なくとも１つを含む、請求項２９に記載の装置。
メディアデータを処理するための方法であって、
複数の画像からの第１の画像に関連付けられた第１の複数のニューラルネットワーク重み値の圧縮バージョンを受信することと、
前記第１の複数のニューラルネットワーク重み値を展開することと、
第１のニューラルネットワークモデルを使用して、前記第１の画像を生じるために前記第１の複数のニューラルネットワーク重み値を処理することと
を備える、方法。
前記複数の画像からの第２の画像に関連付けられた第２の複数のニューラルネットワーク重み値の圧縮バージョンを受信することと、
前記第２の複数のニューラルネットワーク重み値を展開することと、
第２のニューラルネットワークモデルを使用して、前記第１の画像と前記第２の画像との間のオプティカルフローを決定するために前記第２の複数のニューラルネットワーク重み値を処理することと
をさらに備える、請求項３１に記載の方法。
前記オプティカルフローに基づいて、前記第１のニューラルネットワークモデルに関連付けられた前記第１の複数のニューラルネットワーク重み値から少なくとも１つの更新された重み値を決定すること
をさらに備える、請求項３２に記載の方法。
前記第１のニューラルネットワークモデルを使用して、前記第２の画像の再構築されたバージョンを生じるために前記少なくとも１つの更新された重み値を処理すること
をさらに備える、請求項３３に記載の方法。
前記第１の複数のニューラルネットワーク重み値が、重みプライア下で量子化される、請求項３１に記載の方法。
前記第１の複数のニューラルネットワーク重み値の前記圧縮バージョンが、エントロピー符号化ビットストリーム中で受信される、請求項３１に記載の方法。
前記第１のニューラルネットワークモデルに対応するニューラルネットワークアーキテクチャの圧縮バージョンを受信すること
をさらに備える、請求項３１に記載の方法。
少なくとも１つのメモリと、
前記少なくとも１つのメモリに結合された少なくとも１つのプロセッサと
を備える装置であって、前記少なくとも１つのプロセッサが、
複数の画像からの第１の画像に関連付けられた第１の複数のニューラルネットワーク重み値の圧縮バージョンを受信することと、
前記第１の複数のニューラルネットワーク重み値を展開することと、
第１のニューラルネットワークモデルを使用して、前記第１の画像を生じるために前記第１の複数のニューラルネットワーク重み値を処理することと
を行うように構成された、装置。
前記少なくとも１つのプロセッサが、
前記複数の画像からの第２の画像に関連付けられた第２の複数のニューラルネットワーク重み値の圧縮バージョンを受信することと、
前記第２の複数のニューラルネットワーク重み値を展開することと、
第２のニューラルネットワークモデルを使用して、前記第１の画像と前記第２の画像との間のオプティカルフローを決定するために前記第２の複数のニューラルネットワーク重み値を処理することと
を行うようにさらに構成された、請求項３８に記載の装置。
前記少なくとも１つのプロセッサが、
前記オプティカルフローに基づいて、前記第１のニューラルネットワークモデルに関連付けられた前記第１の複数のニューラルネットワーク重み値から少なくとも１つの更新された重み値を決定すること
を行うようにさらに構成された、請求項３９に記載の装置。
前記少なくとも１つのプロセッサが、
前記第１のニューラルネットワークモデルを使用して、前記第２の画像の再構築されたバージョンを生じるために前記少なくとも１つの更新された重み値を処理すること
を行うようにさらに構成された、請求項４０に記載の装置。
前記第１の複数のニューラルネットワーク重み値が、重みプライア下で量子化される、請求項３８に記載の装置。
前記第１の複数のニューラルネットワーク重み値の前記圧縮バージョンが、エントロピー符号化ビットストリーム中で受信される、請求項３８に記載の装置。
前記少なくとも１つのプロセッサが、
前記第１のニューラルネットワークモデルに対応するニューラルネットワークアーキテクチャの圧縮バージョンを受信すること
を行うようにさらに構成された、請求項３８に記載の装置。