JP2021519542A

JP2021519542A - ブロック単位の画像符号化のためのイントラ予測モードの概念

Info

Publication number: JP2021519542A
Application number: JP2020552199A
Authority: JP
Inventors: プファフ・ヨナサン; ヘレ・フィリップ; マークル・フィリップ; スタレンバーガー・ビョルン; シークマン・ミシャ; ヴィンケン・マーティン; ヴィーコウスキー・アダム; ザメク・ボイチェヒ; カルテンスタドラー・ステファン; シュワルツ・ハイコー; マルペ・デトレフ; ヴィーガンド・トーマス
Original assignee: フラウンホーファー−ゲゼルシャフト・ツール・フェルデルング・デル・アンゲヴァンテン・フォルシュング・アインゲトラーゲネル・フェライン
Priority date: 2018-03-29
Filing date: 2019-03-28
Publication date: 2021-08-10
Anticipated expiration: 2039-03-28
Also published as: US20230254508A1; US20210014531A1; CN112204963A; KR102524593B1; KR20230057481A; TW201946455A; US11601672B2; JP2023052578A; JP7217288B2; WO2019185808A1; EP3777141A1; TWI763987B; KR20200128586A

Abstract

ブロック単位の画像符号化のためのイントラ予測モードの概念が開示される。特に、データストリーム（１２）から画像（１０）をブロック単位で復号するための、および／またはデータストリーム（１２）に画像（１０）を符号化するための装置（１４−１、５４−２）であって、画像の所定のサイズのブロック（１３６、１７２）のイントラ予測信号が、現在のブロックに隣接するサンプルの第１のテンプレート（１３０、１７０）をニューラルネットワーク（８０）に適用することによって決定される、少なくとも１つのイントラ予測モードをサポートする、装置が開示される。装置は、所定のサイズとは異なる現在のブロック（１８）に対して、以下のように構成されることができる：再サンプリングされたテンプレート（１３０、１７０）を取得するために、第１のテンプレート（１３０、１７０）と一致するように、現在のブロック（１８）に隣接するサンプルの第２のテンプレート（６０）を再サンプリング（１３４、１６６）し、予備的イントラ予測信号（１３８、１７２、１７６）を取得するために、サンプルの再サンプリングされたテンプレート（１３０、１７０）をニューラルネットワーク（８０）に適用（１３８ａ、１７０ａ、４４−１、４４−２）し、現在のブロック（１８）についてのイントラ予測信号（１４２、２４−１、２４−２）を取得（１４０）するために、現在のブロック（１８）と一致するように、予備的イントラ予測信号（１３８、１７２、１７６）を再サンプリング（１４０、１８０）する。

Description

本出願は、ＨＥＶＣまたはＨＥＶＣの後継物などのビデオコーデックで使用可能であるような、ブロック単位の画像符号化のための改良されたイントラ予測モードの概念に関する。

イントラ予測モードは、画像およびビデオの符号化で広く使用されている。ビデオ符号化では、イントラ予測モードは、動き補償予測モードなどの相互予測モードなどの他の予測モードと競合する。イントラ予測モードでは、現在のブロックは、隣接するサンプル、すなわち、エンコーダ側に関する限り既に符号化され、デコーダ側に関する限り既に復号されているサンプルに基づいて予測される。隣接するサンプル値が現在のブロックに外挿されて、現在のブロックの予測信号が形成され、予測残差が現在のブロックのデータストリームで送信される。予測信号が優れているほど、予測残差は少なくなり、したがって、予測残差をコード化するために必要なビット数は少なくなる。

効果的であるためには、ブロック単位の画像符号化環境でのイントラ予測のための効果的なフレームワークを形成するために、いくつかの態様を考慮する必要がある。例えば、コーデックでサポートされるイントラ予測モードの数が多いほど、デコーダに選択を通知するためのサイド情報レートの消費量が多くなる。一方、サポートされているイントラ予測モードのセットは、良好な予測信号、すなわち、予測残差が低くなる予測信号を提供することができる必要がある。

本出願は、改良されたイントラ予測モードの概念を使用する場合に、ブロック単位の画像コーデックのより効率的な圧縮を可能にするイントラ予測モードの概念を提供しようとする。

この目的は、本出願の独立請求項の主題によって達成される。

データストリームから画像をブロック単位で復号するための装置（例えば、デコーダ）であって、画像の所定のサイズのブロックのイントラ予測信号が現在のブロックに隣接するサンプルの第１のテンプレートをニューラルネットワークに適用することによって判定される、少なくとも１つのイントラ予測モードをサポートする装置であって、所定のサイズとは異なる現在のブロックに対して、
再サンプリングされたテンプレートを取得するために、第１のテンプレートと一致するように、現在のブロックに隣接するサンプルの第２のテンプレートを再サンプリングし、
予備的イントラ予測を取得するために、サンプルの再サンプリングされたテンプレートをニューラルネットワークに適用し、
現在のブロックのイントラ予測信号を取得するために、現在のブロックに一致するように予備的イントラ予測信号を再サンプリングするように構成される、装置が開示される。

データストリームに画像をブロック単位で符号化するための装置（例えば、エンコーダ）であって、画像の所定のサイズのブロックのイントラ予測信号が現在のブロックに隣接するサンプルの第１のテンプレートをニューラルネットワークに適用することによって判定される、少なくとも１つのイントラ予測モードをサポートする装置であって、所定のサイズとは異なる現在のブロックに対して、
再サンプリングされたテンプレートを取得するために、第１のテンプレートと一致するように、現在のブロックに隣接するサンプルの第２のテンプレートを再サンプリングし、
予備的イントラ予測を取得するために、サンプルの再サンプリングされたテンプレートをニューラルネットワークに適用し、
現在のブロックのイントラ予測信号を取得するために、現在のブロックに一致するように予備的イントラ予測信号を再サンプリングするように構成される、装置も開示される。

装置は、第２のテンプレートをダウンサンプリングして第１のテンプレートを取得することによって再サンプリングするように構成されることができる。

装置は、予備的イントラ予測信号をアップサンプリングすることによって予備的イントラ予測信号を再サンプリングするように構成されることができる。

装置は、予備的イントラ予測信号を空間ドメインから変換ドメインに変換し、変換ドメインにおいて予備的イントラ予測信号を再サンプリングするように構成されることができる。

装置は、予備的イントラ予測信号の係数をスケーリングすることによって、変換ドメイン予備的イントラ予測信号を再サンプリングするように構成されることができる。

装置は、
現在のブロックの次元に一致するようにイントラ予測信号の次元を増やし、
予備的イントラ予測信号の追加された係数であって、より高い周波数のビンに関連する追加された係数の係数をゼロパディングする
ことによって変換ドメイン予備的イントラ予測信号を再サンプリングするように構成されることができる。

装置は、予測残差信号の逆量子化バージョンによって変換ドメイン予備的イントラ予測信号を構成するように構成されることができる。

装置は、空間ドメインにおける予備的イントラ予測信号を再サンプリングするように構成されることができる。

装置は、双一次補間を実行することによって予備的イントラ予測信号を再サンプリングするように構成されることができる。

装置は、再サンプリングおよび／または異なる次元のニューラルネットワークの使用に関する情報をデータフィールドに符号化するように構成されることができる。

データストリームから画像をブロック単位で復号するための装置（例えば、デコーダ）であって、
現在のブロックの隣接するサンプルの第１のセットをニューラルネットワークに適用して、現在のブロックの変換の変換係数のセットの予測を取得することによって、画像の現在のブロックのイントラ予測信号が判定される少なくとも１つのイントラ予測モードをサポートする、装置も開示される。

データストリームに画像をブロック単位で符号化するための装置（例えば、エンコーダ）であって、
現在のブロックの隣接するサンプルの第１のセットをニューラルネットワークに適用して、現在のブロックの変換の変換係数のセットの予測を取得することによって、画像の現在のブロックのイントラ予測信号が判定される少なくとも１つのイントラ予測モードをサポートする、装置も開示される。

装置の１つは、再構成された信号を取得するために予測を逆変換するように構成されることができる。

装置の１つは、可変長コードを使用してデータストリームからインデックスを復号し、インデックスを使用して選択を実行するように構成されることができる。

装置の１つは、イントラ予測モードのセットのランキングを判定し、その後、第２のテンプレートを再サンプリングするように構成されることができる。

現在のブロックに隣接するサンプルの第２のテンプレートを再サンプリングして、第１のテンプレートに準拠し、再サンプリングされたテンプレートを取得することと、
サンプルの再サンプリングされたテンプレートをニューラルネットワークに適用し、予備的イントラ予測信号を取得することと、
現在のブロックに一致するように予備的イントラ予測信号を再サンプリングし、現在のブロックのイントラ予測信号を取得することと、
を備える方法が開示される。

データストリームから画像をブロック単位で復号する方法であって、
現在のブロックの隣接するサンプルの第１のセットをニューラルネットワークに適用して、現在のブロックの変換の変換係数のセットの予測を取得することを備える、方法が開示される。

データストリームに画像をブロック単位で符号化する方法であって、
現在のブロックの隣接するサンプルの第１のセットをニューラルネットワークに適用して、現在のブロックの変換の変換係数のセットの予測を取得することを備える、方法が開示される。

上記および／または以下の方法は、上記および／または以下の少なくとも１つの装置を備える機器を使用することができる。

コンピュータによって実行されると、コンピュータに上記および／または以下の方法を実行させ、および／または装置の少なくとも１つの構成要素において上記および／または以下を実装させる命令を含むコンピュータ可読記憶媒体も開示される。

上記および／または以下のような方法によって、および／または上記および／または以下のような装置によって取得されるデータストリームも開示される。

上述したニューラルネットワークの設計に関する限り、本出願は、そのパラメータを適切に判定するための多くの例を提供する。

本出願の有利な実装は、従属請求項の対象である。本出願の好ましい例は、図に関して以下に記載される。

本出願の例が実装されることができる一般的な例として、画像をデータストリームに符号化するためのエンコーダを示す概略ブロック図を示している。図１にかかるエンコーダのより具体的な例のブロック図を示している。図１のエンコーダに適合し、本出願の例が実装されることができるデコーダの例として機能するデコーダを示す概略ブロック図を示している。図２のエンコーダに適合する、図３のデコーダのより具体的な例のブロック図を示している。イントラ予測を使用してブロックを処理することに関して、本出願の例にかかるエンコーダおよびデコーダの動作モードを示す概略図を示している。いくつかのニューラルネットワークベースのイントラ予測モードを含む本出願の例にかかるデコーダを示す概略ブロック図を示している。ニューラルネットワークベースのイントラ予測モードと、使用されるイントラ予測モードがニューラルネットワークベースのイントラ予測モードのセットのメンバーであるかどうかを示すフレックとともに、データストリーム内でインデックスをニューラルネットワークベースのイントラ予測モードの順序付きリストに送信することによってこれらのモードのニューラルネットワークベースの順序付けとをサポートする例にかかるエンコーダおよびデコーダの動作モードを示す概略図を示している。判定９０によって判定される異なる周波数を利用するために、インデックスが可変長符号化を使用して符号化され得ることは言うまでもない。フレック信号化が使用されないという点で図７ａとは異なる概略図を示している。モード順序付けがニューラルネットワークを使用して制御されないという点で図７ｂとは異なる概略図を示している。モード信号化におけるニューラルネットワーク支援が、モード順序付けではなく、エントロピー符号化／復号における確率分布推定を制御するために使用されるという点で、図７ａとは異なる概略図を示している。例にかかるニューラルネットワークベースのイントラ予測モードのセットを設計するための装置を示している。ニューラルネットワークベースであるかどうかに関係なく、サポートされたイントラ予測モードを順序付けるためにニューラルネットワークが使用される例にかかるエンコーダおよびデコーダの動作モードを示す概略図を示している。ニューラルネットワークベースが、サポートされているイントラ予測モードのセットへのインデックスのエントロピー復号／符号化のための確率分布推定を制御するために使用されるという点で、図９ａとは異なる概略図を示している。例にかかるブロックベースの画像符号化のための一連のイントラ予測モードの中から支援および選択するためのニューラルネットワークを設計するための装置を示している。例にかかるエンコーダを示している。例にかかるデコーダを示している。例にかかるエンコーダおよびデコーダの動作モードを示す概略図を示している。例にかかる技術の概略図を示している。例にかかる技術の概略図を示している。

以下では、イントラ予測を使用するときに、より効果的な圧縮を実現するのに役立つ様々な例について説明する。いくつかの例は、ニューラルネットワークベースの一連のイントラ予測モードを使用することにより、圧縮効率の向上を実現する。後者は、例えばヒューリスティックに設計された他のイントラ予測モードに追加されることも、排他的に提供されることもできる。他の例は、複数のイントラ予測モードの中から選択を実行するためにニューラルネットワークを使用する。そして、他の例でさえも、ここで記載される専門分野の双方を利用する。

本出願の以下の例の理解を容易にするために、説明は、本出願のその後に概説される例を構築することができる、それに適合する可能なエンコーダおよびデコーダの提示から始まる。図１は、画像１０をデータストリーム１２にブロック単位で符号化するための装置を示している。装置は、参照符号１４を使用して示され、静止画像エンコーダまたはビデオエンコーダとすることができる。換言すれば、画像１０は、画像１０を含むビデオ１６をデータストリーム１２に符号化するようにエンコーダ１４が構成されている場合、またはエンコーダ１４が画像１０をデータストリーム１２に排他的に符号化することができる場合、ビデオ１６からの現在の画像とすることができる。

前述のように、エンコーダ１４は、ブロック単位の方法またはブロックベースで符号化を実行する。このため、エンコーダ１４は、画像１０をブロックに細分割し、そのエンコーダ１４のユニットは、画像１０をデータストリーム１２に符号化する。画像１０のブロック１８への可能な細分割の例は、以下により詳細に示されている。一般に、細分割は、行および列に配置されたブロックの配列などの一定サイズのブロック１８に、または画像１０の画像領域全体からまたは画像１０の事前パーティションからツリーブロックのアレイへのマルチツリー再分割を開始する階層的マルチツリー細分割の使用などによる異なるブロックサイズのブロック１８に終わる可能性があり、これらの例は、画像１０をブロック１８に細分割する他の可能な方法を除外するものとして扱われてはならない。

さらに、エンコーダ１４は、画像１０をデータストリーム１２に予測的に符号化するように構成された予測エンコーダである。特定のブロック１８について、これは、エンコーダ１４がブロック１８の予測信号を判定し、予測残差、すなわち、予測信号がブロック１８内の実際の画像コンテンツから逸脱する予測誤差をデータストリーム１２に符号化することを意味する。

エンコーダ１４は、特定のブロック１８の予測信号を導出するために、異なる予測モードをサポートすることができる。以下の例で重要である予測モードは、ブロック１８の内部が、隣接する、既に符号化された画像１０のサンプルから空間的に予測されるイントラ予測モードである。画像１０のデータストリーム１２への符号化、したがって対応する復号手順は、ブロック１８の間で定義された特定の符号化順序２０に基づくことができる。例えば、符号化順序２０は、各行を左から右にトラバースしながら、上から下に行単位などのラスタスキャン順序でブロック１８をトラバースすることができる。階層的マルチツリーベースの細分割の場合、ラスタスキャンの順序は、各階層レベル内で適用されることができ、深さ優先のトラバーサル順序が適用されることができる。すなわち、特定の階層レベルのブロック内のリーフノートは、符号化順序２０にしたがって同じ親ブロックを有する同じ階層レベルのブロックに先行する。符号化順序２０に応じて、ブロック１８の隣接する、既に符号化されたサンプルは、通常、ブロック１８の１つ以上の側に配置されることができる。本明細書に提示された例の場合、例えば、ブロック１８の隣接する、既に符号化されたサンプルは、ブロック１８の上部および左側に配置されている。

エンコーダ１４によってサポートされるのは、イントラ予測モードだけでなくてもよい。例えば、エンコーダ１４がビデオエンコーダである場合、エンコーダ１４はまた、ブロック１８が以前に符号化されたビデオ１６の画像から一時的に予測されるイントラ予測モードをサポートすることができる。そのようなイントラ予測モードは、ブロック１８の予測信号がコピーとして導出される部分の相対的な空間オフセットを示す、そのようなブロック１８に対して動きベクトルがシグナリングされる動き補償予測モードとすることができる。追加的にまたは代替的に、エンコーダ１４がマルチビューエンコーダである場合のビュー間予測モード、またはブロック１８の内部が現状のまま、すなわち予測なしで符号化される非予測モードなど、他の非イントラ予測モードも利用可能とすることができる。

本出願の説明をイントラ予測モードに焦点を当てることから始める前に、可能なブロックベースのエンコーダのより具体的な例、すなわち、図２に関して説明した、次にそれぞれ図１および図２に適合するデコーダの２つの対応する例を提示するようなエンコーダ１４の可能な実装について説明する。

図２は、図１のエンコーダ１４の可能な実装、すなわち、エンコーダが予測残差を符号化するために変換符号化を使用するように構成されるものを示しているが、これはほぼ例であり、本出願は、その種の予測残差符号化に限定されるものではない。図２によれば、エンコーダ１４は、インバウンド信号、すなわち画像１０、またはブロックベースで現在のブロック１８から対応する予測信号２４を減算して、後に予測残差エンコーダ２８によってデータストリーム１２に符号化される予測残差信号２６を取得するように構成された減算器２２を備える。予測残差エンコーダ２８は、不可逆符号化ステージ２８ａおよび可逆符号化ステージ２８ｂから構成される。不可逆ステージ２８ａは、予測残差信号２６を受信し、予測残差信号２６のサンプルを量子化する量子化器３０を備える。既に上述したように、本例は、予測残差信号２６の変換符号化を使用し、したがって、不可逆符号化ステージ２８ａは、残差信号２６を提示する変換された係数で行われる量子化器３０の量子化によってスペクトル分解されたそのような予測残差２６を変換するように、減算器２２と量子化器３０との間に接続された変換ステージ３２を含む。変換は、ＤＣＴ、ＤＳＴ、ＦＦＴ、アダマール変換などとすることができる。次に、変換および量子化された予測残差信号３４は、量子化予測残差信号３４をデータストリーム１２にエントロピー符号化するエントロピーコーダである可逆符号化ステージ２８ｂによる可逆符号化を受ける。エンコーダ１４は、変換および量子化された予測残差信号３４から、デコーダでも利用可能な方法で予測残差信号を再構成するように、量子化器３０の出力に接続された予測残差信号再構成ステージ３６をさらに備える。すなわち、符号化損失を考慮するのは量子化器３０である。この目的のために、予測残差再構成ステージ３６は、量子化器３０の量子化の逆を実行する逆量子化器３８と、それに続く、上述した特定の変換例のいずれかの逆などのスペクトル分解の逆などの変換器３２によって実行される変換に対して逆変換を実行する逆変換器４０とを備える。エンコーダ１４は、再構成された信号、すなわち再構成されたサンプルを出力するために、逆変換器４０によって出力される再構成された予測残差信号と予測信号２４とを加算する加算器４２を備える。この出力は、エンコーダ１４の予測器４４に供給され、エンコーダ１４は、それに基づいて予測信号２４を判定する。図１に関して既に上述した全ての予測モードをサポートするのは予測器４４である。図２はまた、エンコーダ１４がビデオエンコーダである場合、エンコーダ１４がまた、フィルタリングされた後、相互予測ブロックに関して予測器４４の参照画像を形成する完全に再構成された画像をフィルタするインループフィルタ４６を含むことができることを示している。

既に上述したように、エンコーダ１４は、ブロックベースで動作する。以降の説明では、対象のブロックベースは、画像１０をブロックに細分割したものであり、そのブロックに対して、予測器４４またはエンコーダ１４によってそれぞれサポートされるセットまたは複数のイントラ予測モードからイントラ予測モードが選択され、選択されたイントラ予測モードは個別に実行される。しかしながら、画像１０が細分割されている他の種類のブロックも同様に存在することがある。例えば、画像１０がインターコード化されているかイントラコード化されているかに関する上記の判定は、粒度で、またはブロック１８から逸脱したブロックの単位で行うことができる。例えば、モード間／モード内決定は、画像１０が細分割され、各符号化ブロックが予測ブロックに細分割される符号化ブロックのレベルで実行されることができる。イントラ予測が使用されることが決定された符号化ブロックを有する予測ブロックは、それぞれ、イントラ予測モード決定に細分割される。これに対して、これらの予測ブロックのそれぞれについて、サポートされているどのイントラ予測モードをそれぞれの予測ブロックに使用するかが決定される。これらの予測ブロックは、ここで関心のあるブロック１８を形成する。相互予測に関連する符号化ブロック内の予測ブロックは、予測器４４によって異なって扱われるであろう。それらは、動きベクトルを判定し、動きベクトルによって指し示される参照画像内の位置からこのブロックの予測信号をコピーすることによって、参照画像から相互予測されるであろう。別のブロック細分割は、変換器３２および逆変換器４０による変換が実行されるユニットでの変換ブロックへの細分割に関係する。変換されたブロックは、例えば、符号化ブロックをさらに再分割した結果とすることができる。当然のことながら、ここに記載されている例は、限定的なものとして扱われるべきではなく、他の例も存在する。完全を期すためだけに、符号化ブロックへの細分割は、例えば、マルチツリー細分割を使用することができ、同様に、予測ブロックおよび／または変換ブロックは、マルチツリー細分割を使用して符号化ブロックをさらに細分割することによって取得できることに留意されたい。

図１のエンコーダ１４に適合するブロック単位復号のためのデコーダまたは装置が図３に示されている。このデコーダ５４は、エンコーダ１４とは逆のことを行う。すなわち、データストリーム１２から画像１０をブロック単位で復号し、この目的のために、複数のイントラ予測モードをサポートする。デコーダ５４は、例えば、残差プロバイダ１５６を含むことができる。図１に関して上述した他の全ての可能性は、デコーダ５４にも有効である。このため、デコーダ５４は、静止画像デコーダまたはビデオデコーダとすることができ、全ての予測モードおよび予測可能性は、デコーダ５４によってもサポートされる。エンコーダ１４とデコーダ５４との違いは、主に、エンコーダ１４が、例えば、符号化速度および／または符号化歪みに依存することができるいくつかのコスト関数を最小化するためなど、何らかの最適化にしたがって符号化決定を選択または選択するという事実にある。これらの符号化オプションまたは符号化パラメータの１つは、利用可能なまたはサポートされているイントラ予測モードの中から、現在のブロック１８に使用されるイントラ予測モードの選択を含むことができる。次に、選択されたイントラ予測モードは、データストリーム１２内の現在のブロック１８のエンコーダ１４によって信号を送られ、デコーダ５４は、ブロック１８のデータストリーム１２のこの信号化を使用して選択をやり直す。同様に、画像１０のブロック１８への細分割は、エンコーダ１４内で最適化の対象とすることができ、対応する細分割情報は、データストリーム１２内で伝達されることができ、デコーダ５４は、細分割情報に基づいて画像１０の細分割をブロック１８に回復する。上記を要約すると、デコーダ５４は、ブロックベースで動作する予測デコーダとすることができ、イントラ予測モードに加えて、デコーダ５４は、例えば、デコーダ５４がビデオデコーダである場合、相互予測モードなどの他の予測モードをサポートすることができる。復号において、デコーダ５４はまた、図１に関して記載された符号化順序２０を使用することができ、この符号化順序２０は、エンコーダ１４およびデコーダ５４の双方で従われるので、同じ隣接サンプルが、エンコーダ１４およびデコーダ５４の双方で現在のブロック１８に利用可能である。したがって、不必要な繰り返しを回避するために、エンコーダ１４の動作モードの説明は、例えば、予測に関する限り、および予測残差の符号化が関係する限りなど、画像１０のブロックへの再分割に関する限り、デコーダ５４にも適用されなければならない。違いは、エンコーダ１４が、最適化によって、いくつかの符号化オプションまたは符号化パラメータおよび信号をデータストリーム１２内で選択するか、またはデータストリーム１２に挿入するという事実にあり、これらは、再分割など、予測をやり直すために、デコーダ５４によってデータストリーム１２から導出される。

図４は、図３のデコーダ５４の可能な実装、すなわち、図２に示されるように、図１のエンコーダ１４の実装に適合するものを示している。図４のエンコーダ５４の多くの要素は、図２の対応するエンコーダで発生するものと同じであるため、これらの要素を示すために、アポストロフィを有する同じ参照符号が図４で使用される。特に、加算器４２’、オプションのインループフィルタ４６’および予測器４４’は、それらが図２のエンコーダにあるのと同じ方法で予測ループに接続されている。追加された４２’に適用される再構成された、すなわち逆量子化および再変換された予測残差信号は、エントロピーエンコーダ２８ｂのエントロピー符号化を逆にするエントロピーデコーダ５６のシーケンス、続いて符号化側の場合と同じように逆量子化器３８’および逆変換器４０’で構成される残差信号再構成ステージ３６’によって導出される。デコーダの出力は、画像１０の再構成である。画像１０の再構成は、加算器４２’の出力で直接、あるいは、インループフィルタ４６’の出力で利用可能であり得る。画像品質を改善するために、画像１０の再構成をいくつかのポストフィルタリングにかけるために、いくつかのポストフィルタがデコーダの出力に配置されることができるが、このオプションは図４には示されていない。

繰り返すが、図４に関して、図２に関して上に示した説明は、エンコーダが最適化タスクと符号化オプションに関する関連する決定を実行するだけであることを除いて、図４にも有効である。しかしながら、ブロック細分割、予測、逆量子化、および再変換に関する全ての説明は、図４のデコーダ５４についても有効である。

本出願の可能な例の説明に進む前に、上記の例に関していくつかの注記をしなければならない。上記で明示的に言及されていないが、ブロック１８が任意の形状を有することができることは明らかである。それは、例えば、長方形または二次形状とすることができる。さらに、エンコーダ１４およびデコーダ５４の動作モードの上記の説明は、多くの場合に「現在のブロック」１８に言及しているが、エンコーダ１４およびデコーダ５４は、イントラ予測モードが選択される各ブロックに対してそれに応じて作用することは明らかである。上述したように、他のブロックもあり得るが、以下の説明は、画像１０が再分割され、イントラ予測モードが選択されるブロック１８に焦点を当てている。

イントラ予測モードが選択される特定のブロック１８の状況を要約するために、図５を参照する。図５は、現在のブロック１８、すなわち、現在符号化または復号されているブロックを示している。図５は、隣接するサンプル６２のセット６０、すなわち、空間的に隣接するブロック１８を有するサンプル６２を示す。ブロック１８内のサンプル６４が予測対象である。したがって、導出される予測信号は、ブロック１８内の各サンプル６４の予測である。既に上述したように、各ブロック１８に対して複数の６６の予測モードが利用可能であり、ブロック１８がイントラ予測される場合、この複数の６６のモードは、単に相互予測モードを含む。隣接するサンプルセット６０に基づいてブロック１８の予測信号を予測（７１）するために使用される複数の６６からイントラ予測モードの１つを決定するために、エンコーダ側およびデコーダ側で選択６８が実行される。以下にさらに説明する例は、利用可能なイントラ予測モード６６および選択６８に関する動作モード、例えば、ブロック１８に関する選択６８に関してサイド情報がデータストリーム１２に設定されているかどうかに関して異なる。しかしながら、これらの例の説明は、数学的な詳細を提供する具体的な説明から始まる。この最初の例によれば、イントラ予測される特定のブロック１８の選択は、対応するサイド情報信号化７０およびデータストリームに関連付けられ、複数の６６のイントラ予測モードは、ニューラルネットワークベースのイントラ予測モードのセット７２およびヒューリスティック設計のさらなるイントラ予測モードのセット７４を含む。セット７４のイントラ予測モードの１つは、例えば、隣接するサンプルセット６０に基づいてある平均値が判定され、この平均値は、ブロック１８内の全てのサンプル６４に割り当てられるＤＣ予測モードとすることができる。追加的にまたは代替的に、セット７４は、隣接するサンプルセット６０のサンプル値が、そのような角度のイントラ予測モード間で異なるこの予測内方向で特定の予測内方向に沿ってブロック１８にコピーされる角度相互予測モードと呼ばれ得る相互予測モードを含むことができる。図５は、データストリーム１２が、複数の６６のイントラ予測モードのうちの選択６８に関する必要に応じて存在するサイド情報７０に加えて、上述したように、符号化が必要に応じて変換ドメインでの量子化を伴う変換符号化を含むことができる予測残差が符号化された部分７６を含むことを示す。

特に、本出願の特定の例の以下の説明の理解を容易にするために、図６は、エンコーダおよびデコーダでのイントラ予測ブロックの一般的な動作モードを示している。図６は、ブロック１８と、イントラ予測が実行されることに基づいて設定された隣接するサンプル６０とを示している。このセット６０は、カーディナリティに関して、複数の６６個のイントラ予測モードのイントラ予測モード間で変動し得ることに留意されたい。すなわち、セット６０のサンプルの数は、ブロック１８の予測信号を判定するためのそれぞれのイントラ予測モードにしたがって実際に使用される。しかしながら、これは理解を容易にするためのものであり、図６には示されていない。図６は、エンコーダおよびデコーダが、セット７２のニューラルネットワークベースのイントラ予測モードのそれぞれに対して１つのニューラルネットワーク８０_０から８０_ＫＢ−１を有することを示している。セット６０は、セット７２の間で対応するイントラ予測モードを導出するために、それぞれのニューラルネットワークに適用される。これに加えて、図６は、入力、すなわち隣接するサンプルのセット６０、例えば、ＤＣモード予測信号および／または角度イントラ予測モード予測信号など、セット７４の１つ以上のイントラ予測モードの１つ以上の予測信号に基づいて提供するものとして１つのブロック８２をかなり代表的に示している。以下の説明は、ｉ＝０・・・Ｋ_Ｂ−１を有するニューラルネットワーク８０_ｉのパラメータがどのように有利に判定され得るかに関して示している。以下に示す特定の例はまた、エンコーダおよびデコーダに、セット６０と一致してもしなくてもよい隣接するサンプルのセット８６に基づいて、セット７２内の各ニューラルネットワークベースのイントラ予測モードの確率値を提供することに専用の別のニューラルネットワーク８４を提供する。したがって、確率値は、ニューラルネットワーク８４がモード選択のためのサイド情報７０をより効果的にレンダリングするのを支援するときに提供される。例えば、以下に説明する例では、可変長コードがイントラ予測モードの１つを指すために使用され、少なくともセット７２に関する限り、ニューラルネットワーク８４によって提供される確率値は、セット７２内のニューラルネットワークベースのイントラ予測モードについてニューラルネットワーク８４によって出力された確率値にしたがって順序付けられたイントラ予測モードの順序付けられたリストへのインデックスとしてサイド情報７０内の可変長コードを使用し、それによってサイド情報７０のコードレートを最適化または低減する。このため、図６に示されるように、モード選択６８は、さらなるニューラルネットワーク８４によって提供される確率値と、データストリーム１２内のサイド情報７０の双方に応じて効果的に実行される。
１．イントラ予測を実行するニューラルネットワークのパラメータをトレーニングするアルゴリズム
ビデオフレームのブロック、すなわちブロック１８を

とする。

が

ピクセルを有すると仮定する。固定色成分の場合、

を

のビデオ信号の内容とする。

を

の要素と見なす。

ピクセルを有し、既に再構成された画像

が利用可能である

の隣接

が利用可能であると仮定する。すなわち、サンプルセット６０および８６は、代わりに異なってもよい。イントラ予測関数により、関数

を意味する。

を

の予測器と見なす。

次に説明するのは、データ駆動型最適化アプローチを介して、典型的なハイブリッドビデオ符号化標準、すなわちセット７２で発生する可能性のあるいくつかのブロック

のイントラ予測関数を設計するアルゴリズムである。その目標を達成するために、以下の主要な設計機能を考慮に入れた。

１．我々が実施する最適化アルゴリズムでは、特に予測残差を通知するために費やすことができると予想できるビット数を含む、コスト関数の適切な近似を使用したい。

２．様々な信号特性を処理できるようにするために、いくつかのイントラ予測を共同でトレーニングしたい。

３．イントラ予測をトレーニングするときは、どのイントラモードを使用するかを通知するために必要なビット数を考慮する必要がある。

４．既に定義されているイントラ予測のセット、例えば、ＨＥＶＣイントラ予測を保持し、補完的な予測として我々の予測をトレーニングする。

５．典型的なハイブリッドビデオ符号化標準は、通常、特定のブロック

をパーティションすることができるいくつかのブロック形状をサポートする。

次の４つのセクションでは、これらの各要件にどのように対処できるかを説明することができる。より正確には、セクション１．１では、最初の項目の処理方法について説明する。セクション１．２では、項目２から３の処理方法について説明する。セクション１．４では、項目４を考慮に入れる方法について説明する。最後に、セクション１．５では、最後の項目の処理方法について説明する。
１．１ビデオコーデックのレート関数を近似する損失関数をトレーニングするアルゴリズム
ビデオコーデックで使用される未知のパラメータを判定するためのデータ駆動型アプローチは、通常、特定のトレーニング例のセットで事前定義された損失関数を最小化しようとする最適化アルゴリズムとして設定される。通常、数値最適化アルゴリズムが実際に機能するためには、後者の損失関数がいくつかの滑らかさの要件を満たす必要がある。

一方、ＨＥＶＣのようなビデオエンコーダは、レート歪みコスト

を最小限に抑える決定を下すときに最高の性能を発揮する。ここで、

は、復号されたビデオ信号の再構成エラーであり、

は、レート、すなわちビデオ信号を符号化するために必要なビット数である。さらに、

は、選択した量子化パラメータに依存するラグランジュパラメータである。

真の関数

は、通常、非常に複雑であり、データ駆動型最適化アルゴリズムに供給することができる閉じた式では与えられない。したがって、関数

の全体または少なくともレート関数

のいずれかを区分的に滑らかな関数で近似する。

より正確には、前と同じように、

をビデオフレーム１０の所与のブロック１／とし、

を固定色成分における

についての対応するビデオ信号とする。

が

ピクセルを有すると仮定する。次に、予測候補

について、予測残差

を考慮する。与えられた量子化パラメータと与えられた変換について、

を真のビデオエンコーダが

の量子化された変換を信号で送る必要があるレートとする。さらに、

を

の逆量子化と逆変換によって発生する再構成エラーとする。次に、

が

の適切な近似として機能し、

が

の適切な近似として機能するように、区分的に滑らかな関数

を判定したい。

関数

および

を

としてモデル化するように、一部の

を修正し、事前定義された「アーキテクチャ」、すなわち区分的に滑らかな関数

を修正した後に

を求める。

重み

および

を決定するために、特定のハイブリッドビデオ符号化標準を使用する一般的なエンコーダにおいて、有限の大きなインデックスセット

のレート値

のみである、予測残差

、

のトレーニング例の膨大なセット、および対応するレート歪み値

をそれぞれ収集した。次に、式

を最小化するか、少なくとも小さくするように、

および

を見つけようとする。

そのタスクでは、通常、（確率的）勾配降下法を使用する。
１．２固定ブロック形状の予測のトレーニング
このセクションでは、特定のブロック

１８、ｓｔ７２の予測、および既に再構成されたサンプルの領域

６０の

イントラ予測を設計するために設定したアルゴリズムについて説明する。

我々の予測の事前定義された「アーキテクチャ」が与えられていると仮定する。これにより、いくつかの固定された

に対して関数

（１）
が与えられ、我々のイントラ予測が

として与えられるように「重み」

を判定したいことを意味し、ここで、

について

（２）
とする。

以下のセクションでは、この点について詳しく説明する。（２）の関数は、図６のニューラルネットワーク８０_０−８０_ＫＢ−１を定義する。

次に、第２のパラメータ依存関数

（３）
を使用することによって設計しようとするイントラモードの信号化コストをモデル化する。

同様に、

については、

（４）
によって

を定義する。

同様に、図６のニューラルネットワーク８４を表す（４）の関数を使用した例がセクション１．３に示されている。

関数

が与えられていると仮定する。

この関数は、例えば、サイド情報７０に使用されるＶＬＣコード長分布、すなわち、より多くのセット７２のｃａｄポナイトを有するサイド情報７０によって関連付けられたコード長を定義する。

次に、

によって

を定義する。

差し当たって、

の

番目のコンポーネント

は、トレーニングする

番目のイントラモードを通知するために必要なビット数をモデル化する。

がセクション２．１で定義された関数である場合、

について、与えられた再構成された画像

と元の画像

に対して、

は全ての

について

であるプロパティで最小

を示すものとする。

は、イントラモードの特異化のために真のビット数をモデル化するため、その勾配は、ゼロまたは未定義のいずれかである。したがって、最急降下法に基づくアルゴリズムを介して重み

を最適化するには、

だけでは十分ではない。したがって、ｓｏｆｔｍａｘ関数を使用して関数

を確率分布に変換することにより、イントラモードのクロスエントロピーも呼び出す。後者の関数の定義に留意されたい。

について、

は

のｉ番目のコンポーネントを示すものとする。次に、ｓｏｆｔｍａｘ関数

は、

のように定義される。

勾配の更新では、残差の割合と、後者の確率分布に関するモード

のクロスエントロピーの合計を最小化しようとする。したがって、ブロック

の損失関数

を

（５）
のように定義する。ここで、

である。

（５）の損失関数が与えられると、データ駆動型最適化によって重み

を決定する。したがって、有限で大きなインデックスセット

の場合、

の画像

とそれに対応する再構成された

の画像

のトレーニング例のセットが与えられ、例えば、（確率的）勾配降下法に基づく最適化アルゴリズムを適用して、式

（６）
を最小化する重み

を見つける。
１．３関数

およびの仕様
このセクションでは、関数

および

の形式をより正確に定義する。同様に、ニューラルネットワーク８０および８４を定義するものに留意されたい。これらの関数のそれぞれは、１）アフィン変換

または２）非線形活性化関数

のいずれかである関数の一連の構成で構成されている。

アフィン変換

により、

の形式の写像を意味する。ここで、

は線形変換であり、すなわち、全ての

、

について

を満たし、ここで、

である。各線形写像

は、

の行列によって完全に決定され、すなわち、ベクトル

に一意に対応する。したがって、各アフィン関数

は、

重み、すなわちベクトル

によって完全に決定される。各

について、前述の方法で

に対応する固有のアフィン変換について

を記述する。

非線形活性化関数

により、

の形式の関数を意味する。

ここで、

は、

の

番目のコンポーネントを示し、

は、

の

番目のコンポーネントを示す。最後に、

は、形式

（７）
または形式

（８）
からなることができるが、これらの例は、本出願の例をこれらの明示的な例に限定するものとして解釈されるべきではない。

または任意の他の非線形関数などの他の式も同様に使用することができる。あるいは、

は、例えば、区分的に滑らかな関数であってもよい。

関数

は、ここで以下のように見える。固定された

の場合、

ように、

、

を有する

および

が与えられていると仮定する。

ここで、

、

および

は、（１）におけるものと同じである。次に、

を有する

について、

のように定義する。

したがって、

は、パラメータ

を使用してパラメータ化されたニューラルネットワーク８０_ｉを記述する。これは、線形関数

と非線形関数

のシーケンスであり、この例では、シーケンス内で交互に適用され、パラメータ

は、

の線形関数重みを含む。線形関数

と非線形関数

のシーケンスでは、非線形関数

が続く線形関数

のペアは、例えば、

の次元ｍによって決定されるニューラルネットワークのフィードフォワード方向におけるこのニューロン層ｊの前に先行ノードの数、

の列の数、およびその行の数である

の次元ｎによって決定されるニューロン層ｊ自体のニューロンの数を有するｊ番目の層などのニューロン層を表す。

の各行には、ｍ個の先行ニューロンのそれぞれの信号強度のそれぞれの活性化がそれぞれの行に対応するニューロン層ｊのそれぞれのニューロンに転送される強度を制御する重みが組み込まれている。

は、ニューロン層jの各ニューロンを制御し、転送された先行ニューロンの活性化の線形結合をそれ自体の活性化に非線形マッピングする。上記の例では、

のそのようなニューロン層がある。層ごとのニューロンの数は異なる場合がある。ニューロン層

の数は、様々なニューラルネットワーク８０_ｊ間で、すなわち、異なるｊについて変化し得る。非線形関数は、ニューロン層ごとに、あるいはニューロンごとに、あるいは他のいくつかのユニットでさえも変化する可能性があることに留意されたい。

同様に、関数

は、以下のように見える。固定された

の場合、

ように、

、

を有する

および

が与えられていると仮定する。

ここで、

、

および

は、（３）におけるものと同じである。次に、

を有する

について、

のように定義する。
したがって、

は、パラメータ

を使用してパラメータ化されたニューラルネットワーク８４を記述する。これは、予測信号の計算に関するニューロン層に関して上で説明したように、線形関数

および非線形関数

のシーケンスであろう。ニューラルネットワーク８４のニューロン層の数

は、ニューラルネットワーク８０_ｉのニューロン層の数

のうちの１つ以上とは異なることができる。
１．４既存の予測を考慮したトレーニング
既存のイントラ予測を補完する予測をトレーニングできるように前のセクションのアルゴリズムを拡張した。

すなわち、

を既に利用可能な固定イントラ予測関数のセットとする。例えば、

は、ＨＥＶＣのＤＣ予測または平面予測とＨＥＶＣにしたがって定義された角度予測から構成されることができ、これら全ての予測にはまた、再構成されたサンプルの予備的な平滑化も含むことができる。さらに、

が、

が与えられた元の画像

に適用された

番目のイントラ予測関数

の損失をモデル化するように、関数

が与えられていると仮定する。

次に、損失関数を（５）から損失関数

（９）

に拡張する。

トレーニング例の大規模なセットについて、前のセクションの終わりからの表記を維持し、

（１０）
を最小化することによって重み

を決定する。

そのために、通常、最初に最適化（６）によって重みを見つけ、次にそれらの重みで初期化して、最適化する重み（１０）を見つける。
１．５いくつかのブロック形状の予測の共同トレーニング
このセクションでは、予測のトレーニングにおいて、一般的なビデオ符号化標準では、ブロックを様々な方法で小さなサブブロックに分割し、小さなサブブロックでイントラ予測を実行することが通常可能であることを考慮に入れる方法について説明した。

すなわち、いくつかの

について、各

が

の隣接であるように、一連の領域

とともに許容されるブロック

のセット

が与えられていると仮定する。通常は、

は、左上の２つの矩形

の和集合である。

各

について

であるように、ブロック

が存在すると仮定する。

を

のべき集合とする。次に、各

について、ブロック

が互いに素な和集合

として記述できるように、

について、
セット

が与えられる。

与えられた色成分について、

を

の画像とし、これは、制限により、各

について、

の画像

と見なされる。さらに、

の再構成された画像

が存在すると仮定し、これは、制限により、各

について、

の画像

と見なされる。

セクション１．２の表記を維持しながら、各

について、

イントラ予測関数

の重みのセットとして

を求め、モード予測関数

の重みとして

を求める。これらの重みを全ての

について共同で以下のように決定する。

および与えられた重みのセット

、

について、

とする。

さらに、

について、

のように

を定義する。

セクション１．４と同様に、各

について、空の可能性のあるイントラ予測関数のセット

が利用可能であると仮定する。

とする。

次に、損失関数

を以下のように定義する。セットを含めてセット

における順序付け

を有する。

を

の全ての最小要素のセットとする。

について、

とし、ここで、後者の関数は、（９）におけるものと同じである。

次に、

とし、

が

によって全ての

について既に定義されていると仮定する。

次に、

を定義する。

最後に、

の

画像のトレーニング例の固定セット

が与えられ、
式

を最小化するか、少なくとも小さくすることによって、

、

を決定する。

通常、最初に各

について（９）を個別に最小化することにより、重み

、

を初期化する。
２トレーニングされたニューラルネットワークのビデオコーデックへの統合
特定の色成分について、特定のブロック

上のビデオ信号のコンテンツがデコーダによって生成されるハイブリッドビデオ符号化標準を検討する。

を

のピクセル数とする。さらに、

を、デコーダが

の再構成された画像

を自由に使えるように、

の固定された隣接とする。

を

のピクセル数とする。次に、

を

の要素と見なす。コーデックは、現在のブロック

１０の予測符号化によって動作すると仮定する。次に、

の予測信号

を生成するためにデコーダが実行できる以下の手順の著作権を主張する。これは、

の要素と見なされる：
１．デコーダは、その自由の固定数

において関数

、すなわち８４
を有するとともに、重み

および重み

を有し、後者の重みは、前のセクションで説明したトレーニングアルゴリズムによって事前に決定される。

２．デコーダは、サイド情報７０の一部であるフラグをビットストリームから再構成し、次のオプションのいずれかが真であるかどうかを示す：［ｌａｂｅｌ＝）

（ｉ）予測

の１つ、すなわち、セット７２からのモードが使用され

（ｉｉ）予測

は使用されず、すなわち、例えば、７４から１つである
ここで、関数

は、（２）におけるものと同じである。

３．ステップ２のオプション２が真の場合、デコーダは、基礎となるハイブリッドビデオ符号化標準の場合と同様に、指定されたブロック１０に進む。

４．ステップ２のオプション１が真である場合、デコーダは、（４）にしたがって定義された関数

、すなわち８４を再構成された画像

に適用する。

を

として定義する。次に、デコーダが以下の２つのオプションのうちの正確に１つによって数値

を定義するように標準が変更される

（ｉ）デコーダは、

によってセット

の確率分布

を定義し、後者の確率分布

を使用して、データストリーム１２からの基礎となる標準で使用され且つ

を定義するエントロピー符号化エンジンを介してサイド情報７０の一部でもあるインデックス

を解析する。

（ｉｉ）デコーダは、

を置くことによって帰納的に順列

を定義する。ここで、

は、全ての

についての且つ

を置くことによる

を有する最小数であり、

は、全ての

について

を有するような最小数である。

次に、デコーダは、ビットストリーム１２から、データストリーム１２の一部でもある一意のインデックス

を再構成し、

を置く。

後者のインデックス

を解析するコード設計では、

である場合且つエントロピー符号化エンジンによって使用される全ての関連する基礎となる確率が等しい確率に設定される場合、インデックス

を通知するために必要なビット数がインデックス

を通知するためのビット数以下である必要がある。

５．ステップ２のオプション１が真であり且つデコーダが前のステップ４にしたがってインデックス

を決定した場合、デコーダは、すなわち、選択されたニューラルネットワーク８０_ｍを使用して、

として予測信号

を生成する７１。次に、デコーダは、予測信号として

を使用して、基礎となるハイブリッドビデオ符号化標準のように進める。

データ駆動型学習アプローチに基づいて設計されたイントラ予測機能の既存のハイブリッドビデオコーデックへの統合。説明は２つの主要な部分を有した。第１の部分では、イントラ予測関数のオフライントレーニングのための具体的なアルゴリズムについて説明した。第２の部分では、ビデオデコーダが後者の予測関数を使用して、特定のブロックの予測信号を生成する方法について説明した。

したがって、上記のセクション１．１から２で説明されたものは、とりわけ、データストリーム１２から画像１０をブロック単位で復号するための装置である。装置５４は、少なくとも、画像１０の現在のブロック１８のイントラ予測信号が、ニューラルネットワーク８０_ｉへの現在のブロック１８の隣接するサンプルの第１のセット６０を適用することによって決定されるイントラ予測モードのセット７２を含む複数のイントラ予測モードをサポートする。装置５４は、複数のイントラ予測モード６６から現在のブロック１８に対して１つのイントラ予測モードを選択（６８）し、１つのイントラ予測モードを使用して、すなわち、選択された対応するニューラルネットワーク８０_ｍを使用して、現在のブロック１８を予測（７１）するように構成される。セクション２に提示されたデコーダは、セット７２のニューラルネットワークベースのものに加えて、サポートされた複数のイントラ予測モードの複数の６６内のイントラ予測モード７４を有したが、これは単なる例であり、そうである必要はない。さらに、セクション１および２の上記の説明は、デコーダ５４がさらなるニューラルネットワーク８４を使用せず、それを含まないという点で変更されてもよい。上記の最適化に関して、これは、知見

についてセクション１．２で提示された内部品質の第２の加算器が、確率値ニューラルネットワーク関数Ｇ^Ｂに適用された関数Ｍ^Ｂの連結である必要がないことを意味する。むしろ、選択の頻度がＭ^Ｂのコードレート表示に適切にしたがうように、ニューラルネットワーク８０_ｉに適切なパラメータを決定するものの最適化アルゴリズムである。例えば、デコーダ５４は、可変長コードを使用してブロック１８のインデックスをデータストリーム１２から復号することができ、そのコード長はＭ^Ｂで示され、デコーダ５４は、このインデックスに基づいて選択６８を実行する。インデックスは、サイド情報７０の一部であろう。

上記のセクション２で提示された説明のさらなる代替案は、デコーダ５４が、データストリームの第１の部分以外の第２の部分に応じて、イントラ予測モードの順序付きリストから最終的に使用されるイントラ予測モードを選択してイントラ予測モードの順序付きリストを取得するために、現在のブロック１８の隣接に関連するデータストリームの第１の部分に応じて、ニューラルネットワークベースのイントラ予測モードのセット７２の間でランキングを代わりに導出することができることである。「第１の部分」は、例えば、現在のブロック１８に隣接する１つ以上のブロックに関連する符号化パラメータまたは予測パラメータに関連することができる。そして、「第２の部分」は、例えば、ニューラルネットワークベースのイントラ予測モードセット７２を指し示すインデックスか、またはそのインデックスとすることができる。上に概説したセクション２と整合して解釈される場合、デコーダ５４は、セット７２の各イントラ予測モードのランクを決定するためにこれらの確率値を順序付けし、それによってイントラ予測モードの順序付けられたリストを取得するために、イントラ予測モードのセット７２の各イントラ予測モードについて、隣接するサンプルのセット８６をその上に適用することによって確率値を決定するさらなるニューラルネットワーク８４を備える。次に、サイド情報７０の一部としてのデータストリーム１２内のインデックスが、順序付きリストへのインデックスとして使用される。ここで、このインデックスは、Ｍ^Ｂがコード長を示す可変長コードを使用して符号化されることができる。そして、セクション２において上で説明したように、項目４ｉにおいて、さらなる代替例によれば、デコーダ５４は、セット７２へのインデックスのエントロピー符号化を効率的に実行するために、セット７２の各ニューラルネットワークベースのイントラ予測モードについて、さらなるニューラルネットワーク８４によって決定された上記の確率値を使用することができる。特に、サイド情報７０の一部であり、セット７２へのインデックスとして使用されるこのインデックスのシンボルアルファベットは、セット７２内の各モードのシンボルまたは値を含み、ニューラルネットワーク８４によって提供される確率値は、上記の説明にかかるニューラルネットワーク８４の設計の場合、これらの確率値が実際のシンボル統計を厳密に表すという点で、効率的なエントロピー符号化につながる確率値を提供する。このエントロピー符号化には、例えば算術符号化、または確率区間分割エントロピー（ＰＩＰＥ）符号化を使用することができる。

有利には、セット７２のどのイントラ予測モードについても追加情報は必要ない。各ニューラルネットワーク８０_ｉは、例えば、セクション１および２の上記の説明にしたがってエンコーダおよびデコーダ用に有利にパラメータ化されると、データストリームに追加のガイダンスなしで現在のブロック１８の予測信号を導出する。既に上で示したように、セット７２のニューラルネットワークベースのモード以外の他のイントラ予測モードの存在は任意である。それらは、セット７４によって上に示されている。これに関して、セット６０、すなわち、予測内７１の入力を形成する隣接するサンプルのセットを選択する１つの可能な方法は、このセット６０がセット７４のイントラ予測モードについて同じであるようなもの、すなわちヒューリスティックなものであり得ることに留意されたい。ニューラルネットワークベースのイントラ予測モードのセット６０は、セット６０に含まれ且つイントラ予測７１に影響を与える隣接サンプルの数の点で大きくなっている。換言すれば、セット６０のカーディナリティは、セット７４の他のモードと比較して、ニューラルネットワークベースのイントラ予測モード７２の方が大きくすることができる。例えば、セット７４の任意のイントラ予測モードのセット６０は、左側のものおよび上部のものなどのブロック１８の側面に沿って延びる一次元線に沿った隣接するサンプルを単に含むことができる。ニューラルネットワークベースのイントラ予測モードのセット６０は、ブロック１８のちょうど言及された側面に沿って延びるが、セット７４のイントラ予測モードのセット６０のように１サンプル幅よりも広いＬ字型部分をカバーすることができる。Ｌ字型部分は、ブロック１８のちょうど述べた側面を超えてさらに延びることができる。このようにして、ニューラルネットワークベースのイントラ予測モードは、対応して低い予測残差でより良いイントラ予測をもたらすことができる。

上記のセクション２で説明したように、データストリーム１２でイントラ予測ブロック１８に伝達されるサイド情報７０は、ブロック１８に対して選択されたイントラ予測モードがセット７２のメンバーであるかまたはセット７４のメンバーであるかを一般に示すフレックを含むことができる。しかしながら、このフレックは、例えば、セット７２および７４の双方を含む複数のイントラ予測モード全体６６へのインデックスを示すサイド情報７０を伴う単なるオプションである。

以下では、ちょうど記載された代替案が、図７ａから図７ｄに関して簡単に記載される。図は、デコーダおよびエンコーダの双方を同時に、すなわち、イントラ予測ブロック１８に関するそれらの機能の観点から定義している。イントラ符号化ブロック１８に関するエンコーダ動作モードとデコーダ動作モードとの違いは、一方では、エンコーダが利用可能なイントラ予測モード６６の全てまたは少なくともいくつかを実行し、例えば、意味を最小化するコスト関数の観点から最適なものを９０で決定し、エンコーダがデータストリーム１２を形成する、すなわちコードがそこに日付を記入し、デコーダがそれぞれ復号および読み取りによってそこからデータを導出するという事実である。図７ａは、ブロック１８のサイド情報７０内のフラグ７０ａが、セット７２内、すなわち、ニューラルネットワークベースのイントラ予測モードである、またはセット７４内、すなわち、非ニューラルネットワークベースのイントラ予測モードの１つである、ステップ９０でエンコーダによってブロック１８にとって最良のモードであると決定されたイントラ予測モードであるかどうかを示す、上記で概説した代替案の動作モードを示す。エンコーダは、それに応じてフラグ７０ａをデータストリーム１２に挿入する一方で、デコーダは、フラグ７０ａをそこから検索する。図７ａは、決定されたイントラ予測モード９２がセット７２内にあると仮定している。次に、別個のニューラルネットワーク８４は、セット７２の各ニューラルネットワークベースのイントラ予測モードの確率値を決定し、これらの確率値セット７２を使用して、またはより正確には、その中のニューラルネットワークベースのイントラ予測モードは、確率値の降順などの確率値にしたがって順序付けられ、それにより、イントラ予測モードの順序付きリスト９４をもたらす。次に、サイド情報７０の一部であるインデックス７０ｂは、エンコーダによってデータストリーム１２に符号化され、そこからデコーダによって復号される。したがって、デコーダは、セット７２および７４のどのセットを決定することができる。ブロック１８に使用されるイントラ予測モードは、使用されるイントラ予測モードがセット７２に位置する場合、セット７２の順序付け９６を実行するように位置する。決定されたイントラ予測モードがセット７４に位置する場合、インデックスもまた、データストリーム１２で送信されることができる。したがって、デコーダは、それに応じて選択６８を制御することによって、決定されたイントラ予測モードを使用して、ブロック１８の予測信号を生成することができる。

図７ｂは、フラグ７０ａがデータストリーム１２に存在しない代替案を示している。代わりに、順序付けられたリスト９４は、セット７２のイントラ予測モードだけでなく、セット７４のイントラ予測モードも含むであろう。サイド情報７０内のインデックスは、このより大きな順序のリストへのインデックスであり、決定されたイントラ予測モード、すなわち、決定されたものが最適化９０であることを示す。ニューラルネットワークベースのイントラ予測モードの確率値を７２内でのみ提供するニューラルネットワーク８４の場合、セット７４のイントラ予測モードに対するセット７２のイントラ予測モード間のランキングは、セット７２のニューラルネットワークベースのイントラ予測モードを、順序リスト９４のセット７４のモードに先行するように、またはそれらを互いに交互に配置するように必然的に配置するなどの他の手段によって決定することができる。すなわち、デコーダは、データストリーム１２からインデックスを導出することができ、ニューラルネットワーク８４によって出力された確率値を使用して複数のイントラ予測モード６６からオーダーリスト９４を導出することにより、オーダーリスト９４へのインデックスのようにインデックス７０を使用する。図７ｃは、さらなる変形を示している。図７ｃは、フラグ７０ａを使用しない場合を示しているが、フラグは代わりに使用することができる。図７ｃが対象とする問題は、エンコーダもデコーダもニューラルネットワーク８４を使用しない可能性に関係している。むしろ、順序付け９６は、１つ以上の隣接ブロック１８、すなわち、そのような１つ以上の隣接ブロックに関係するデータストリーム１２の部分９８に関してデータストリーム１２内で伝達される符号化パラメータなどの他の手段によって導出される。

図７ｄは、図７ａのさらなる変形、すなわち、インデックス７０ｂがエントロピー符号化を使用して符号化され、一般に参照符号１００を使用して示されるエントロピー復号を使用してデータストリーム１２から復号されるものを示している。エントロピー符号化１００に使用されるサンプル統計または確率分布は、上で説明したようにニューラルネットワーク８４によって出力される確率値によって制御され、これは、インデックス７０ｂのエントロピー符号化を非常に効率的にする。

全ての例７ａから７ｄについて、セット７４のモードが存在しない可能性があることは事実である。したがって、それぞれのモジュール８２が欠落している可能性があり、フラグ７０ａは、とにかく不要である。

さらに、どの図にも示されていないが、エンコーダおよびデコーダでのモード選択６８は、明示的なシグナリング７０がなくても、すなわち、サイド情報を消費することなく、互いに同期できることは明らかである。むしろ、選択は、必然的に順序付きリスト９４の最初のものをとることによって、または１つ以上の隣接ブロックに関連する符号化パラメータに基づいて順序リスト９４にインデックスを導出することによってなどの他の手段から導出することができる。図８は、ブロックベースの画像符号化に使用されるセット７２のイントラ予測モードのセットを設計するための装置を示している。装置１０８は、ニューラルネットワーク８０_０から８０_ＫＢ−１のパラメータ化可能なバージョン、ならびにニューラルネットワーク８４を継承または含むパラメータ化可能なネットワーク１０９を備える。ここで、図８では、個々のユニットとして、すなわち、ニューラルネットワークベースのイントラ予測モード０の確率値を提供するためのニューラルネットワーク８４_０から、ニューラルネットワークベースのイントラ予測モードＫ_Ｂ−１内に関連する確率値を提供するためのニューラルネットワーク８４_ＫＢ−１まで示されている。ニューラルネットワーク８４をパラメータ化するためのパラメータ１１１およびニューラルネットワーク８０_０から８０_ＫＢ−１をパラメータ化するためのパラメータ１１３は、アップデータ１１０によってこれらのニューラルネットワークのそれぞれのパラメータ入力に入力または適用される。装置１０８は、対応する隣接するサンプルセット１１６とともに、リザーバまたは複数の画像テストブロック１１４へのアクセスを有する。これらのブロック１１４の対およびそれらに関連する隣接するサンプルセット１１６は、装置１０８によって順次使用される。特に、現在の画像テストブロック１１４は、パラメータ化可能なニューラルネットワーク１０９に適用され、ニューラルネットワーク８０は、セット７２の各ニューラルネットワークベースのイントラ予測モードに予測信号１１８を提供し、各ニューラルネットワーク８０は、これらのモードのそれぞれに確率値を提供する。この目的のために、これらのニューラルネットワークは、現在のパラメータ１１１および１１３を使用する。

上記の説明では、ｒｅｃは、画像テストブロック１１４を示すために使用されており、

（ｒｅｃ）は、モードＢの予測残差１１８であり、確率値

（ｒｅｃ）は、確率値１２０である。各モード０・・・Ｋ_ｂ−１について、それぞれのモードについて得られた予測信号１１８に基づいてそれぞれのモードのコスト推定値を計算する装置１０８によって構成されるコスト推定器１２２が存在する。上記の例では、コスト推定器１２２は、セクション１．２の不等式の左側および右側に示されているように、コスト推定値を計算した。すなわち、ここで、コスト推定器１２２はまた、各モードについて、対応する確率値１２０を使用した。しかしながら、これは、既に上で説明したように当てはまる必要はない。しかしながら、コスト推定は、いずれの場合も２つのアドインの合計であり、そのうちの一方は、上記の不等式内の

を有する項として示される予測残差の符号化コストの推定であり、他方は、モードを示すために符号化コストを推定するアドインである。予測残差に関連する符号化コストの推定値を計算するために、コスト推定器１２２はまた、現在の画像テストブロック１１４の元の内容を取得する。ニューラルネットワーク８０および８４は、それらの入力において、対応する隣接するサンプルセット１１６を適用した。コスト推定器１２２によって出力されたコスト推定値１２４は、最小コスト推定値を最小化するか、またはそれに関連する最小コスト推定値を有するモードを決定する最小コストセレクタ１２６によって受信される。上記の数学表記では、これは、

であった。アップデータは、この最適モードを受信し、最低の符号化推定値のイントラ予測モードに対して得られた予測信号１１８に応じて残差レート推定値を形成する第１のアドインと、セレクタ１２６によって示されるように、予測信号および最小の符号化コスト推定のイントラ予測モードについて得られた確率値に依存するサイド情報レート推定値をシグナリングするモードを形成する第２のアドインとを有する符号化コスト関数を使用する。上に示したように、これは、離れた勾配を使用して行うことができる。したがって、符号化コスト関数は、微分可能であり、上記の数学的表現では、この関数の例が式５に示されている。ここで、モードシグナリングサイド情報レート推定に関連する第２のアドインは、最小の符号化コスト推定のイントラ予測モードのクロスエントロピーを計算した。

したがって、アップデータ１１０は、符号化コスト関数を低減するようにパラメータ１１１および１１３を更新しようとし、次に、これらの更新されたパラメータ１１１および１１３は、複数の１１２の次の画像テストブロックを処理するためにパラメータ化可能なニューラルネットワーク１０９によって使用される。セクション１．５に関して上述したように、主にそれらの画像テストブロック１１４のペアおよびそれらに関連する隣接するサンプルセット１１６が、レート歪みの意味で、イントラ予測が行われる再帰的更新プロセスに適用されることを制御するメカニズムが存在することができ、好ましくは、ブロックの再分割なしで行われ、それによって、パラメータ１１１および１１３が、とにかく、そのサブブロックの単位での符号化がより費用効果が高い画像テストブロックに基づいて過度に最適化されることを回避する。

これまでのところ、上記の例は、主に、エンコーダおよびデコーダがサポートされているイントラ予測モード６６内にニューラルネットワークベースのイントラ予測モードのセットを有していた場合に関係している。図９ａおよび図９ｂに関して記載された例によれば、これは必ずしもそうである必要はない。図９ａは、図７ａに関して上に提示された説明との違いに焦点を合わせた方法でその説明が提供される例にしたがって、エンコーダおよびデコーダの動作モードを概説しようとしている。サポートされる複数の６６のイントラ予測モードは、ニューラルネットワークベースのイントラ予測モードを含む場合も含まない場合もあり、非ニューラルネットワークベースのイントラ予測モードを含む場合も含まない場合もある。したがって、サポートされるモード６６のそれぞれを提供するために、それぞれエンコーダおよびデコーダによって構成される図９ａのモジュール１７０は、対応する予測信号が必ずしもニューラルネットワークではない。既に上で示したように、そのようなイントラ予測モードは、ニューラルネットワークベースであるか、またはヒューリスティックに動機付けられ、ＤＣイントラ予測モードまたは角度イントラ予測モードまたは他のいずれかに基づいて予測信号を計算することができる。したがって、これらのモジュール１７０は、予測信号コンピュータとして表すことができる。しかしながら、図９ａの例によるエンコーダおよびデコーダは、ニューラルネットワーク８４を備える。ニューラルネットワーク８４は、隣接するサンプルセット８６に基づいて、サポートされているイントラ予測モード６６の確率値を計算し、その結果、複数のイントラ予測モード６６を順序付けられたリスト９４に変えることができる。ブロック１８のデータストリーム１２内のインデックス７０は、この順序付けられたリスト９４を指している。したがって、ニューラルネットワーク８４は、イントラ予測モードの信号化に費やされるサイド情報レートを下げるのを支援する。

図９ｂは、順序付けの代わりに、インデックス７０のエントロピー復号／符号化１００が、その確率またはその単純な統計を制御する、すなわち、複数６６の各モードについてニューラルネットワーク８４に対して決定された確率値にしたがって、エンコーダ／デコーダにおけるエントロピー復号／符号化のエントロピー確率分布を制御することで使用されるという点で、図９ａの代替を示している。

図１０は、ニューラルネットワーク８４を設計またはパラメータ化するための装置を示している。したがって、それは、イントラ予測モードのセット６６の中から選択するのを支援するためのニューラルネットワークを設計するための装置１０８である。ここで、セット６６の各モードについて、対応するニューラルネットワークブロックが一体になってニューラルネットワーク８４を形成し、装置１０８のパラメータ化可能なニューラルネットワーク１０９は、これらのブロックに関して単にパラメータ化可能である。各モードについて、予測信号コンピュータ１７０もあるが、これは、図１０にしたがってパラメータ化可能である必要はない。したがって、図１０の装置１０８は、対応する予測信号コンピュータ１７０によって計算された予測信号１１８に基づいて、および必要に応じて、このモードについて対応するニューラルネットワークブロックによって決定された対応する確率値に基づいて、各モードのコスト推定値を計算する。結果として生じるコスト推定値１２４に基づいて、最小コストセレクタ１２６は、最小コスト推定値のモードを選択し、アップデータ１１０は、ニューラル８４のパラメータ１１１を更新する。

図７ａから図７ｄならびに図９ａおよび図９ｂの説明に関して、以下に留意されたい。図７ａから図７ｄのいくつかの例によっても使用される図９ａおよび図９ｂの例の共通の特徴は、最適化プロセス９０においてエンコーダ側で決定されたモードをデコーダに通知するためのサイド情報７０に関連するオーバーヘッドを改善または低減するためのニューラルネットワーク値の確率値であるという事実であった。しかしながら、図７ａから図７ｄの例に関して上に示したように、図９ａおよび図９ｂの例は、モード選択に関してデータストリーム１２にサイド情報７０が全く費やされない程度まで変更され得ることは明らかであるはずである。むしろ、各モードについてニューラルネットワーク８４によって出力される確率値を使用して、必然的にエンコーダとデコーダとの間でモード選択を同期させることができる。その場合、モード選択に関してエンコーダ側で最適化決定９０は存在しないであろう。むしろ、セット６６間で使用されるモードは、エンコーダ側およびデコーダ側で同じ方法で決定されるであろう。データストリーム１２内のいかなる副次情報７０も使用しないように変更された場合、図７ａから図７ｄの対応する例に関して同様のステートメントが当てはまる。しかしながら、図９ａおよび図９ｂの例に戻ると、確率値への順序付けまたは確率分布推定依存性がエンコーダに関する限り、サイド情報の解釈を変化させるという点で、デコーダ側での選択プロセス６８がニューラルネットワークによって出力される確率値に依存していることは興味深く、確率値への依存性は、例えば、順序付けられたリストにインデックスのそれぞれの可変長符号化を使用する、またはニューラルネットワークの確率値に応じた確率分布推定を伴うエントロピー符号化／復号を使用するデータストリーム１２へのサイド情報７０の符号化に影響を与えるだけではなく、最適化ステップ９０：ここでは、サイド情報７０を送信するためのコードレートを考慮に入れることができ、したがって、決定９０に影響を与える。
図１１−１の例
図１１−１は、エンコーダ１４−１の可能な実装、すなわち、エンコーダが予測残差を符号化するために変換符号化を使用するように構成されるものを示しているが、これはほぼ例であり、本出願は、その種の予測残差符号化に限定されるものではない。図１１−１によれば、エンコーダ１４−１は、インバウンド信号、すなわち画像１０、またはブロックベースで現在のブロック１８から対応する予測信号２４−１を減算して、後に予測残差エンコーダ２８によってデータストリーム１２に符号化される空間ドメイン予測残差信号２６を取得するように構成された空間ドメイン減算器２２を備える。予測残差エンコーダ２８は、不可逆符号化ステージ２８ａおよび可逆符号化ステージ２８ｂを備える。不可逆符号化ステージ２８ａは、予測残差信号２６を受信し、予測残差信号２６のサンプルを量子化する量子化器３０を備える。本例は、予測残差信号２６の変換符号化を使用し、したがって、不可逆符号化ステージ２８ａは、残差信号２６を提示する変換された係数で行われる量子化器３０の量子化によってスペクトル分解されたそのような予測残差２７を変換するように、減算器２２と量子化器３０との間に接続された変換ステージ３２を含む。変換は、ＤＣＴ、ＤＳＴ、ＦＦＴ、アダマール変換などとすることができる。次に、変換および変換ドメイン量子化された予測残差信号３４は、量子化予測残差信号３４をデータストリーム１２にエントロピー符号化するエントロピーコーダである可逆符号化ステージ２８ｂによる可逆符号化を受ける。

エンコーダ１４−１は、変換および量子化された予測残差信号３４（変換ドメインにおける）から、デコーダでも利用可能な方法で予測残差信号を再構成するように、すなわち、量子化器３０の符号化損失を考慮するように、量子化器３０の変換ドメイン出力に接続された変換ドメイン予測残差信号再構成ステージ３６−１をさらに備える。この目的のために、予測残差再構成ステージ３６−１は、予測残差信号３４の逆量子化バージョン３９−１を取得するために量子化器３０の量子化の逆を実行する逆量子化器３８−１と、それに続く、上述した特定の変換例のいずれかの逆などのスペクトル分解の逆などの変換器３２によって実行される変換に対して逆変換を実行する逆変換器４０−１とを備える。逆変換器４０−１の下流には、予測信号２４−１を取得するのに役立つテンプレートを含むことができる空間ドメイン出力６０を有する。特に、予測器４４−１は、変換ドメイン出力４５−１を設けることができ、これは、逆変換器５１−１で逆変換されると、空間ドメインで予測信号２４−１（予測信号２４−１は、時間ドメインにおける予測残差２６を取得するためにインバウンド信号１０から減算される）を提供する。フレーム間モードでは、ループ内フィルタ４６−１が完全に再構成された画像６０をフィルタリングし、フィルタリングされた後、相互予測ブロックに関して予測器４４−１の参照画像４７−１を形成することもできる（したがって、これらの場合、要素４４−１および３６−１からの加算器５７−１入力が必要であるが、破線５３−１で示されるように、予測信号２４−１を減算器２２に提供するために、逆変圧器５１−１の必要はない）。

しかしながら、図２のエンコーダ１４とは異なり、エンコーダ１４−１（予測残差再構成ステージ３６−１における）は、逆量子化器３８−１と逆変換器４０−１との間に配置された変換ドメイン加算器４２−１を備える。変換ドメイン加算器４２−１は、変換予測器４４−１によって提供されるような変換ドメイン予測信号４５−１を用いて、（逆量子化器３８−１によって提供される）予測残差信号３４の逆量子化バージョン３９−１の合計４３−１（変換ドメインにおける）を逆変換器４０−１に提供する。予測器４４−１は、フィードバック入力として、逆変圧器４０−１からの出力を取得することができる。

したがって、空間ドメインの予測信号２４−１は、変換ドメインの予測信号４５−１から取得される。また、上記の例にしたがってニューラルネットワークで動作することができる変換ドメイン予測器４４−１は、空間ドメインの信号によって入力されるが、変換ドメインの信号を出力する。
図１１−２の例
図１１−２は、デコーダ５４−２の可能な実装、すなわちエンコーダ１４−１の実装に適合するものを示している。エンコーダ５４−２の多くの要素は、図１１−１の対応するエンコーダで発生する要素と同じであるため、これらの要素を示すために、「−２」が付いた同じ参照符号が図１１−２で使用される。特に、加算器４２−２、任意のインループフィルタ４６−２、および予測器４４−２は、図１１−１のエンコーダと同じ方法で予測ループに接続される。再構成された、すなわち逆量子化および再変換された予測残差信号２４−２（例えば、６０）は、エントロピーエンコーダ２８ｂのエントロピー符号化を逆にするエントロピーデコーダ５６のシーケンス、続いて符号化側の場合と同じように逆量子化器３８−２および逆変換器４０−２で構成される残差信号再構成ステージ３６−２によって導出される。デコーダの出力は、画像１０の再構成である。画像１０の再構成を画像品質を改善するためにいくつかのポストフィルタリングにかけるために、いくつかのポストフィルタ４６−２がデコーダの出力に配置されることができる。同様に、図１１−１に関して上に示した説明は、エンコーダが最適化タスクと符号化オプションに関する関連する決定を実行するだけであることを除いて、図１１−２にも有効である。しかしながら、ブロック細分割、予測、逆量子化、および再変換に関する全ての説明は、図１１−２のデコーダ５４についても有効である。再構成された信号２４−２は、予測器４４−２に提供され、予測器４４−２は、図５〜図１０の例にしたがってニューラルネットワークで動作することができる。予測器４４−２は、変換ドメイン予測値４５−２を提供することができる。

図４の例とは反対であるが、図１１−１の例と同様に、逆量子化器３８−２は、逆変換器４０−２に直接提供されない予測残差信号３４（変換ドメイン内）の逆量子化バージョン３９−２を提供する。代わりに、予測残差信号３４の逆量子化バージョン３９−２が加算器４２−２に入力され、変換ドメイン予測値４５−２によって構成される。したがって、変換ドメイン再構成信号４３−２が取得され、これは、その後、逆変換器４０−２によって逆変換されると、画像１０を表示するために使用される空間ドメインで再構成信号２４−２になる。
図１２の例
ここで、図１２を参照する。デコーダおよびエンコーダの双方を同時に、すなわち、イントラ予測ブロック１８に関するそれらの機能の観点である。イントラ符号化ブロック１８に関するエンコーダ動作モードとデコーダ動作モードとの違いは、一方では、エンコーダが利用可能なイントラ予測モード６６の全てまたは少なくともいくつかを実行し、例えば、意味を最小化するコスト関数の観点から最適なものを９０で決定し、エンコーダがデータストリーム１２を形成する、すなわちコードがそこに日付を記入し、デコーダがそれぞれ復号および読み取りによってそこからデータを導出するという事実である。図１２は、ブロック１８のサイド情報７０内のフラグ７０ａが、セット７２内、すなわち、ニューラルネットワークベースのイントラ予測モードである、またはセット７４内、すなわち、非ニューラルネットワークベースのイントラ予測モードの１つである、ステップ９０でエンコーダによってブロック１８にとって最良のモードであると決定されたイントラ予測モードであるかどうかを示す、上記で概説した代替案の動作モードを示す。エンコーダは、それに応じてフラグ７０ａをデータストリーム１２に挿入する一方で、デコーダは、フラグ７０ａをそこから検索する。図１２は、決定されたイントラ予測モード９２がセット７２内にあると仮定している。次に、別個のニューラルネットワーク８４は、セット７２の各ニューラルネットワークベースのイントラ予測モードの確率値を決定し、これらの確率値セット７２を使用して、またはより正確には、その中のニューラルネットワークベースのイントラ予測モードは、確率値の降順などの確率値にしたがって順序付けられ、それにより、イントラ予測モードの順序付きリスト９４をもたらす。次に、サイド情報７０の一部であるインデックス７０ｂは、エンコーダによってデータストリーム１２に符号化され、そこからデコーダによって復号される。したがって、デコーダは、セット７２および７４のどのセットを決定することができる。ブロック１８に使用されるイントラ予測モードは、使用されるイントラ予測モードがセット７２に位置する場合、セット７２の順序付け９６を実行するように位置する。決定されたイントラ予測モードがセット７４に位置する場合、インデックスもまた、データストリーム１２で送信されることができる。したがって、デコーダは、それに応じて選択６８を制御することによって、決定されたイントラ予測モードを使用して、ブロック１８の予測信号を生成することができる。

図１２からわかるように、（変換ドメインにおける）予測残差信号３４は、データストリーム１２に符号化される。逆量子化器３８−１、３８−２は、変換ドメインの逆量子化予測残差信号３９−１、３９−２を導出する。予測器４４−１、４４−２から、変換ドメイン予測信号４５−１、４５−２が得られる。次に、加算器４２−１は、値３９−１および４５−１を互いに合計し（または加算器４２−２は、値３９−２および４５−２を合計し）、変換ドメイン再構成信号４３−１（または４３−２）を取得する。逆変換器４０−１、４０−２の下流において、空間ドメイン予測信号２４−１、２４−２（例えば、テンプレート６０）が取得され、（例えば、表示されることができる）ブロック１８を再構成するために使用されることができる。

図７ｂ〜図７ｄの変形は全て、図１１−１、図１１−２、および図１２の例を具体化するために使用されることができる。
議論
ニューラルネットワークを介してイントラ予測信号を生成する方法が定義されており、この方法がビデオまたは静止画像コーデックにどのように含まれるかが説明されている。これらの例では、空間ドメインに予測する代わりに、予測器４４−１、４４−２は、例えば離散コサイン変換などの基礎となるコーデックで既に利用可能である可能性のある事前定義された画像変換の変換ドメインに予測することができる。第２に、特定の形状のブロック上の画像に対して定義された各イントラ予測モードは、より大きなブロック上の画像に対してイントラ予測モードを誘導する。

Ｂを、画像ｉｍが存在するＭ行Ｎ列のピクセルのブロックとする。既に再構成された画像ｒｅｃが利用可能なＢ（ブロック１８）の隣接Ｂ_ｒｅｃ（テンプレート６０または８６）が存在すると仮定する。次に、図５〜図１０の例では、ニューラルネットワークによって定義された新たなイントラ予測モードが導入される。これらのイントラ予測モードのそれぞれは、再構成されたサンプルｒｅｃ（２４−１、２４−２）を使用して、同様にＢ_ｒｅｃの画像である予測信号ｐｒｅｄ（４５−１、４５−２）を生成する。

Ｔを、Ｂ_ｒｅｃ上の画像で定義される画像変換（例えば、要素３０によって出力される予測残差信号３４）とし、ＳをＴの逆変換（例えば、４３−１または４３−２）とする。次に、予測信号ｐｒｅｄ（４５−１、４５−２）は、Ｔ（ｉｍ）の予測と見なされる。これは、再構成段階で、ｐｒｅｄ（４５−１、４５−２）の計算後、画像Ｓ（ｐｒｅｄ）（２４−１、２４−２）を計算して、画像ｉｍ（１０）の実際の予測を取得する必要があることを意味する。

作業する変換Ｔには、自然画像に対していくつかのエネルギ圧縮特性を有することに留意されたい。これは、以下のように悪用される。ニューラルネットワークによって定義されたイントラモードのそれぞれについて、事前定義されたルールによって、変換ドメインの特定の位置でのｐｒｅｄ（４５−１、４５−２）の値は、入力ｒｅｃ（２４−１、２４−２）とは無関係にゼロに設定される。これは、変換ドメインで予測信号ｐｒｅｄ（４５−１、４５−２）を取得するための計算の複雑さを軽減する。

（図５〜図１０を参照して、変換Ｔ（３２）と逆変換Ｓ（４０）が、基礎となるコーデックの変換残差符号化で使用されると仮定する。Ｂの再構成信号（２４、２４’）では、予測残差ｒｅｓ（３４）は、Ｓ（ｒｅｓ）を取得するために逆変換Ｓ（４０）によって逆変換され、Ｓ（ｒｅｓ）は、最終的な再構成信号（２４）を取得するために基礎となる予測信号（２４）に追加される。）
対照的に、図１１および図１２は、以下の手順に言及している：予測信号ｐｒｅｄ（４５−１、４５−２）が上記のようなニューラルネットワークイントラ予測法によって生成される場合、最終的な再構成信号（２４−１、２４−２）は、ｐｒｅｄ＋ｒｅｓ（ｐｒｅｄは４５−１または４５−２、ｒｅｓは３９−１または３９−２）の逆変換（４０−１、４０−２）によって取得され、それらの合計は、４３−１または４３−２であり、これは、最終的な再構成信号２４−１、２４−２の変換ドメインバージョンである。

最後に、上記のようにニューラルネットワークによって実行されるイントラ予測の上記の変更は任意であり、互いに不必要に相互に関連していることに留意されたい。これは、逆変換Ｓ（４０−１、４０−２）を使用した特定の変換Ｔ（３２）および上記のニューラルネットワークによって定義されたイントラ予測モードの１つについて、モードがＴに対応する変換ドメインへの予測と見なされるかどうかがビットストリームからまたは事前定義された設定から抽出される可能性があることを意味する。
図１３ａおよび図１３ｂ
図１３ａおよび図１３ｂを参照すると、例えば、空間ドメインベースの方法（例えば、図１１ａおよび図１１ｂ）および／または変換ドメインベースの方法（例えば、図１〜図４）に適用され得る戦略が示されている。

場合によっては、特定のサイズのブロックに適合したニューラルネットワークが自由に使用されることができる（例えば、Ｍ×Ｎ、ここで、Ｍは行数、Ｎは列数）が、再構成される画像の実際のブロック１８は、異なるサイズを有する（例えば、Ｍ_１×Ｎ_１）。アドホックにトレーニングされたニューラルネットワークを使用する必要なく、特定のサイズ（例えば、Ｍ×Ｎ）に適合されたニューラルネットワークを利用することを可能にする操作を実行することが可能であることに留意されたい。

特に、装置１４または５４は、データストリーム（例えば、１２）から画像（例えば、１０）をブロック単位で復号することを可能にすることができる。装置１４、５４は、少なくとも１つのイントラ予測モードをネイティブにサポートし、それによれば、画像の所定のサイズ（例えば、Ｍ×Ｎ）のブロック（例えば、１３６、１７２）のイントラ予測信号は、ニューラルネットワーク（例えば、８０）上の現在のブロック（例えば、１３６、１７６）に隣接するサンプルの第１のテンプレート（例えば、１３０、１７０）を適用することによって決定される。装置は、所定のサイズ（例えば、Ｍ_１×Ｎ_１）とは異なる現在のブロック（例えば、１８）に対して、以下のように構成されることができる：
−第１のテンプレート（例えば、１３０、１７０）に準拠させて再サンプリングされたテンプレート（例えば、１３０、１７０）を取得するために、現在のブロック（例えば、１８）に隣接するサンプルの第２のテンプレート（例えば、６０）を再サンプリング（例えば、Ｄ、１３４、１６６）し、
−予備的イントラ予測信号（例えば、１３８）を取得するために、ニューラルネットワーク（例えば、８０）上のサンプルの再サンプリングされたテンプレート（例えば、１３０、１７０）を適用し、
−現在のブロックのイントラ予測信号を取得するために、現在のブロック（１８、Ｂ_１）に一致するように予備的イントラ予測信号（１３８）を再サンプリング（例えば、Ｕ、Ｖ、１８２）する。

図１３ａは、空間ドメインにおける例を示している。空間ドメインブロック１８（Ｂ_１としても示される）は、（現時点で画像ｉｍ_１がまだ利用可能でなくても）画像ｉｍ_１が再構成されるＭ_１ｘＮ_１ブロックとすることができる。テンプレートＢ_{１，ｒｅｃ}（例えば、セット６０）は、既に再構成された画像ｒｅｃ_１を有し、ここで、ｒｅｃ_１は、ｉｍ_１に隣接している（そして、Ｂ_{１，ｒｅｃ}は、Ｂ_１に隣接している）ことに留意されたい。ブロック１８およびテンプレート６０（「第２のテンプレート」）は、要素１３２を形成することができる。

Ｂ_１の次元のおかげで、Ｂ_１を再構成するために自由に使用できるニューラルネットワークがない可能性が生じる。しかしながら、ニューラルネットワークが異なる次元のブロック（「第１のテンプレート」など）で自由に使用できる場合は、次の手順を実行することができる。

変換操作（ここでは、Ｄまたは１３４として示されている）が、例えば、要素１３０に適用されることができる。しかしながら、Ｂ_１がまだ不明であるため、変換Ｄ（１３０）をＢ_{１，ｒｅｃ}のみに適用することが容易に可能であることに留意されたい。変換１３０は、変換された（再サンプリングされた）テンプレート１３０およびブロック１３８から形成される要素１３６を提供することができる。

例えば、Ｍ_１ｘＮ_１ブロックＢ_１（１８）（未知の係数を有する）は、理論的には、Ｍ×ＮブロックＢ（１３８）（さらに未知の係数を有する）に変換されることができる。しかしながら、ブロックＢ（１３８）の係数は不明であるため、実際に変換を実行する必要はない。

同様に、変換Ｄ（１３４）は、テンプレートＢ_{１，ｒｅｃ}（６０）を、異なる次元を有する異なるテンプレートＢ_ｒｅｃ（１３０）に変換する。テンプレート１３０は、垂直方向の厚さＬ（すなわち、垂直部分のＬ列）および水平方向の厚さＫ（すなわち、水平部分のＫ行）を有し、Ｂ_ｒｅｃ＝Ｄ（Ｂ_{１，ｒｅｃ}）を有するＬ字型とすることができる。テンプレート１３０は、以下を含むことができることが理解されることができる：
−Ｂ_ｒｅｃ（１３０）上のＫ×Ｎブロック、
−Ｂ_ｒｅｃ（１３０）の左側にあるＭ×Ｌブロック、および、
−Ｂ_ｒｅｃ（１３０）上、およびＢ_ｒｅｃ（１３０）の左側にあるＭ×Ｌブロック上のＫ×Ｎブロックの左側にあるＫ×Ｌブロック。

場合によっては、変換操作Ｄ（１３４）は、Ｍ_１＞ＭおよびＮ_１＞Ｎ（特に、ＭがＭ_１の倍数であり、ＮがＮ_１の倍数である場合）、ダウンサンプリング操作とすることができる。例えば、Ｍ_１＝２ＭおよびＮ_１＝２Ｎの場合、変換操作Ｄは、チェスのような方法でいくつかのビンを非表示にすることに基づくことができる（例えば、Ｂ_{１，ｒｅｃ}６０から対角線を削除して、Ｂ_ｒｅｃ１３０の値を取得する）。

この時点で、Ｂ_ｒｅｃ（Ｂ_ｒｅｃ＝Ｄ（ｒｅｃ_１））は、Ｍ×Ｎで再構成された画像である。通路１３８ａにおいて、装置１４、５４は、ＭｘＮブロックのためにネイティブにトレーニングされた必要なニューラルネットワークを（例えば、予測器４４、４４’で）使用することができる（例えば、図５〜図１０のように動作することによって）。上記の通路（１３８ａ）を適用することにより、ブロックＢの画像ｉｍ_１が取得される。（いくつかの例では、通路１３８ａは、ニューラルネットワークを使用しないが、当該技術分野において知られている他の技術を使用する）。

この時点で、ブロックＢ（１３８）の画像ｉｍ_１のサイズはＭ×Ｎであるが、表示される画像のサイズは、Ｍ_１×Ｎ_１である必要がある。しかしながら、ブロックＢ（１３８）内の画像ｉｍ_１をＭ_１ｘＮ_１に変換する変換（例えば、Ｕ）１４０を実行することが単に可能であることに留意されたい。

１３４において実行されるＤがダウンサンプリング操作である場合、１４０におけるＵは、アップサンプリング操作である可能性があることに留意されたい。したがって、Ｕ（１４０）は、ニューラルネットワークを用いた動作１３８ａで得られたＭ×Ｎブロック１３８の係数に加えて、Ｍ_１ｘＮ_１ブロックに係数を導入することによって得ることができる。

例えば、Ｍ_１＝２ＭおよびＮ_１＝２Ｎの場合、変換Ｄによって破棄されたｉｍ_１の係数を近似（「推測」）するために、補間（例えば、双一次補間）を実行することが容易に可能である。したがって、Ｍ_１ｘＮ_１画像ｉｍ_１は、要素１４２として取得され、画像１０の一部としてブロック画像を表示するために使用されることができる。

特に、ブロック１４４を取得することも理論的に可能であり、それにもかかわらず、それは、テンプレート６０と同じである（変換ＤおよびＵによるエラーを除いて）。したがって、有利には、テンプレート６０として既に自由に使用することができるＢ_{１，ｒｅｃ}の新たなバージョンを得るためにＢ_ｒｅｃを変換する必要はない。

図１３ａに示される操作は、例えば、予測器４４または４４’で実行されることができる。したがって、Ｍ_１ｘＮ_１画像ｉｍ_１（１４２）は、再構成された信号を得るために逆変圧器４０または４０’によって出力された予測残差信号と合計される予測信号２４（図２）または２４’（図４）として理解されることができる。

図１３ｂは、変換ドメインにおける例を示している（例えば、図１１−１、図１１−２の例における）。要素１６２は、空間ドメインテンプレート６０（既に復号されている）および空間ドメインブロック１８（未知の係数を有する）によって形成されたものとして表される。ブロック１８は、サイズＭ_１ｘＮ_１を有することができ、未知の係数を有することができ、これらは、例えば、予測器４４−１または４４−２で決定されるべきである。

決定されたＭ×Ｎサイズのニューラルネットワークを自由に使用できる一方で、変換ドメイン内のＭ_１×Ｎ_１ブロックを直接操作するニューラルネットワークがない可能性がある。

しかしながら、予測器４４−１、４４−２において、テンプレート６０（「第２のテンプレート」）に適用される変換Ｄ（１６６）を使用して、異なる次元（例えば、縮小次元）を有する空間ドメインテンプレート１７０を取得することが可能であることに留意されたい。テンプレート１７０（「第１のテンプレート」）は、例えば、テンプレート１３０の形状（上記を参照）などのＬ字型の形状を有することができる。

この時点で、通路１７０ａにおいて、ニューラルネットワーク（例えば、８０_０−８０_Ｎ）は、上記の例のいずれかにしたがって適用されることができる（図５〜図１０を参照）。したがって、通路１７０ａの終わりに、ブロック１８のバージョン１７２の既知の係数を取得することができる。

しかしながら、１７２の次元ＭｘＮは、視覚化されなければならないブロック１８の次元Ｍ_１ｘＮ_１に適合しないことに留意されたい。したがって、変換ドメインへの変換（例えば、１８０において）を操作することができる。例えば、ＭｘＮ変換ドメインブロックＴ（１７６）が取得されることができる。行数および列数をそれぞれＭ_１およびＮ_１に増やすために、例えば、Ｍ×Ｎ変換Ｔ（１７６）に存在しない周波数に関連付けられた周波数値に対応する値「０」を導入することによるゼロパディングと呼ばれる手法を使用することができる。したがって、ゼロパディング領域１７８を使用することができる（例えば、Ｌ字型を有することができる）。特に、ゼロパディング領域１７８は、ブロック１８２を得るためにブロック１７６に挿入される複数のビン（全てゼロ）を含む。これは、Ｔ（１７２から変換）からＴ_１（１８２）への変換Ｖによって取得されることができる。Ｔ（１７６）の次元は、ブロック１８の次元と一致しないが、Ｔ_１（１８２）の次元は、ゼロパディング領域１７８の挿入により、実際にはブロック１８の次元と一致する。さらに、ゼロパディングは、より高い周波数のビン（ゼロ値を有する）を挿入することによって取得され、これは、補間に類似した結果をもたらす。

したがって、加算器４２−１、４２−２において、４５−１、４５−２のバージョンである変換Ｔ_１（１８２）を追加することができる。続いて、逆変換Ｔ^−１を実行して、画像１０を視覚化するために使用される空間ドメインで再構成された値６０を取得することができる。

エンコーダは、再サンプリング（およびブロック１８のサイズとは異なるサイズのブロックのためのニューラルネットワークの使用）に関する情報をデータストリーム１２に符号化することができ、その結果、デコーダは、その知識を有する。
議論
Ｂ_１（例えば、１８）をＭ_１行およびＮ_１列のブロックとし、Ｍ_１≧ＭおよびＮ_１≧Ｎと仮定する。Ｂ_１，ｒｅｃをＢ_１の隣接（例えば、隣接するテンプレート６０）とし、Ｂ_{１，ｒｅｃ}のサブセットと見なされる領域Ｂ_ｒｅｃ（例えば、１３０）を仮定する。ｉｍ_１（例えば、１３８）をＢ_１の画像とし、ｒｅｃ_１（例えば、Ｂ_{１，ｒｅｃ}の係数）をＢ_{１，ｒｅｃ}の既に再構成された画像とする。上記の解決策は、Ｂ_１，ｒｅｃの画像をＢ_１の画像にマッピングする、事前定義されたダウンサンプリング操作Ｄ（例えば、１３４、１６６）に基づいている。例えば、Ｍ_１＝２Ｍ、Ｎ_１＝２Ｎの場合、Ｂ_ｒｅｃがＢの上のＫ行とＢの左側のＬ列、およびＢの左上のサイズＫ×Ｌのコーナーで構成され、Ｂ_１，ｒｅｃがＢ_１上の２Ｋ行およびＢの左側の２Ｌ列、Ｂ_１の左上のサイズ２Ｋ×２Ｌのコーナーから構成される場合、Ｄは、平滑化フィルタを適用した後、各方向に２倍のダウンサンプリング操作を行う操作とすることができる。したがって、Ｄ（ｒｅｃ_１）は、Ｂ_ｒｅｃで再構成された画像と見なすことができる。上記のニューラルネットワークベースのイントラ予測モードを使用して、Ｄ（ｒｅｃ_１）から、Ｂ上の画像である予測信号ｐｒｅｄ（４５−１）を形成することができる。

ここで、２つのケースを区別する：第１に、図２、図４、および図１３ａのように、Ｂにおいて、ニューラルネットワークベースのイントラ予測がサンプル（空間）ドメインに予測すると仮定する。Ｕ（１４０）を、Ｂの画像（例えば、１３８）をＢ_１の画像（例えば、１４２）にマッピングする固定アップサンプリングフィルタとする。例えば、Ｍ_１＝２ＭおよびＮ_１＝２Ｎの場合、Ｕは、双一次内挿演算とすることができる。次に、Ｕ（ｐｒｅｄ）を形成して、ｉｍ_１（例えば、１０）の予測信号と見なすＢ_１（例えば、４５−１）上の画像を取得することができる。

第２に、図１１−１、図１１−２、および図１３ｂのように、Ｂにおいて、予測信号ｐｒｅｄ（例えば、４５−２）は、逆変換Ｓを使用するＢ上の画像変換Ｔに関する変換ドメインにおける予測信号と見なされるべきであると仮定する。Ｔ_１を逆変換Ｓ_１を使用したＢ_１上の画像変換とする。Ｔの変換ドメインからＴ_１の変換ドメインに画像をマッピングする事前定義されたマッピングＶが与えられていると仮定する。例えば、Ｔが逆変換Ｓを使用したＭ×Ｎブロックの離散コサイン変換であり、Ｔ_１が逆変換Ｓ_１を使用したＭ_１×Ｎ_１の離散コサイン変換である場合、Ｂの変換係数のブロックを、ゼロパディングおよびスケーリングによってＢ_１の変換係数のブロックにマッピングすることができる（例えば、１７８を参照）。これは、周波数空間の位置が水平応答垂直方向のＭまたはＮよりも大きい場合、Ｂ_１の全ての変換係数をゼロに設定し、Ｂの適切にスケーリングされた変換係数をＢ_１の残りのＭ＊Ｎ変換係数にコピーすることを意味する。次に、Ｖ（ｐｒｅｄ）を形成して、Ｔ_１（ｉｍ_１）の予測信号と見なされるＴ_１の変換ドメインの要素を取得することができる。信号Ｖ（ｐｒｅｄ）は、上記のようにさらに処理されることができる。

図１〜図１０に関して上で説明したように、ニューラルネットワークベースの操作を使用して、これらのモード間の条件付き確率分布を生成することにより、特定のブロックＢでいくつかのイントラ予測モードをランク付けする方法と、このランク付けが現在のブロックにおいてどのイントラ予測モードを適用するかを通知するために使用されることができるかについても説明した。実際の予測モードと同じ方法で後者のランク付けを生成するニューラルネットワークの入力でダウンサンプリング操作（例えば、１６６）を使用すると、予測モードをちょうど説明したよりも大きなブロックＢ_１に拡張するためのランク付けを生み出し、したがって、ブロックＢ_１でどの拡張モードを使用するかを通知するために使用される。所与のブロックＢ_１上で、より小さなブロックＢからのニューラルネットワークベースのイントラ予測モードを使用して予測信号を生成するかどうかは、事前定義されるか、または基礎となるビデオコーデックのサイド情報としてシグナリングされることができる。
その他の例
一般的に言えば、上記のようなデコーダは、上記のようなエンコーダを備えることができ、および／またはその逆もしかりである。例えば、エンコーダ１４は、デコーダ５４であるか、またはデコーダ５４を含む（またはその逆）ことができる。エンコーダ１４−１は、デコーダ５４−２（またはその逆）などとすることができる。さらに、エンコーダ１４または１４−１は、量子化された予測残差信号３４が、予測信号２４または２４−１を得るために復号されるストリームを形成するため、それ自体がデコーダを含むと理解することもできる。

いくつかの態様が装置の文脈で説明されたが、これらの態様は、対応する方法の説明も表すことは明らかであり、ブロックまたは装置は、方法ステップまたは方法ステップの特徴に対応する。同様に、方法ステップの文脈で説明された態様は、対応する装置の対応するブロックまたは項目または機能の説明も表す。方法ステップの一部または全ては、例えば、マイクロプロセッサ、プログラム可能なコンピュータ、または電子回路などのハードウェア装置によって（または使用して）実行されることができる。いくつかの例では、１つ以上の最も重要な方法ステップが、そのような装置によって実行されることができる。

本発明の符号化されたデータストリームは、デジタル記憶媒体に記憶されることができるか、または無線伝送媒体などの伝送媒体またはインターネットなどの有線伝送媒体上で送信されることができる。

特定の実装要件に応じて、本発明の例は、ハードウェアまたはソフトウェアで実装されることができる。実装は、電子的に読み取り可能な制御信号が記憶され、それぞれの方法が実行されるようにプログラム可能なコンピュータシステムと協働する（または協働することができる）、フロッピーディスク、ＤＶＤ、ブルーレイ、ＣＤ、ＲＯＭ、ＰＲＯＭ、ＥＰＲＯＭ、ＥＥＰＲＯＭ、フラッシュメモリなどのデジタル記憶媒体を使用して行うことができる。したがって、デジタル記憶媒体は、コンピュータ可読とすることができる。

本発明にかかるいくつかの例は、本明細書に記載の方法の１つが実行されるように、プログラム可能なコンピュータシステムと協調することができる電子的に読み取り可能な制御信号を有するデータキャリアを含む。

一般に、本発明の例は、プログラムコードを備えたコンピュータプログラム製品として実装されることができ、プログラムコードは、コンピュータプログラム製品がコンピュータ上で実行されるときに方法の１つを実行するために機能する。プログラムコードは、例えば、機械可読キャリアに記憶されてもよい。

他の例は、機械可読キャリアに記憶された、本明細書に記載の方法の１つを実行するためのコンピュータプログラムを含む。

したがって、本発明の方法の一例は、コンピュータプログラムがコンピュータ上で実行されるときに、本明細書に記載の方法の１つを実行するためのプログラムコードを有するコンピュータプログラムである。

したがって、本発明の方法のさらなる例は、本明細書に記載の方法の１つを実行するためのコンピュータプログラムをその上に記録したデータキャリア（またはデジタル記憶媒体、またはコンピュータ可読媒体）である。データキャリア、デジタル記憶媒体、または記録された媒体は、通常、有形および／または非一時的である。

したがって、本発明の方法のさらなる例は、本明細書に記載の方法の１つを実行するためのコンピュータプログラムを表すデータストリームまたは信号のシーケンスである。データストリームまたは信号のシーケンスは、例えば、インターネットなどのデータ通信接続を介して転送されるように構成されてもよい。

さらなる例は、本明細書に記載の方法の１つを実行するように構成または適合された処理手段、例えば、コンピュータ、またはプログラマブルロジックデバイスを含む。

さらなる例は、本明細書に記載の方法のうちの１つを実行するためのコンピュータプログラムをその上にインストールしたコンピュータを含む。

本発明にかかるさらなる例は、本明細書に記載の方法の１つを実行するためのコンピュータプログラムを受信機に（例えば、電子的または光学的に）転送するように構成された装置またはシステムを含む。受信機は、例えば、コンピュータ、モバイル装置、メモリ装置などとすることができる。装置またはシステムは、例えば、コンピュータプログラムを受信機に転送するためのファイルサーバを含むことができる。

いくつかの例では、プログラマブルロジックデバイス（例えば、フィールドプログラマブルゲートアレイ）を使用して、本明細書に記載の方法の機能のいくつかまたは全てを実行することができる。いくつかの例では、フィールドプログラマブルゲートアレイは、本明細書に記載の方法の１つを実行するためにマイクロプロセッサと協調することができる。一般に、方法は、好ましくは、任意のハードウェア装置によって実行される。

本明細書で説明する装置は、ハードウェア装置を使用して、またはコンピュータを使用して、またはハードウェア装置とコンピュータの組み合わせを使用して実装されることができる。

本明細書で説明される装置、または本明細書で説明される装置の任意の構成要素は、少なくとも部分的にハードウェアおよび／またはソフトウェアで実装されることができる。

本明細書で説明する方法は、ハードウェア装置を使用して、またはコンピュータを使用して、またはハードウェア装置とコンピュータの組み合わせを使用して実行されることができる。

本明細書で説明される方法、または本明細書で説明される装置の任意の構成要素は、ハードウェアおよび／またはソフトウェアによって少なくとも部分的に実行されることができる。

上記の実施例は、本発明の原理を単に例示するものである。本明細書に記載された構成および詳細の変更および変形は、当業者にとって明らかであろうことが理解される。したがって、本明細書の例の説明および説明として提示された特定の詳細によってではなく、差し迫った特許請求の範囲によってのみ制限されることが意図されている。

Claims

データストリーム（１２）から画像（１０）をブロック単位で復号するための装置（５４−２）であって、前記画像の所定のサイズのブロック（１３６、１７２）のイントラ予測信号が現在のブロックに隣接するサンプルの第１のテンプレート（１３０、１７０）をニューラルネットワーク（８０）に適用することによって判定される、少なくとも１つのイントラ予測モードをサポートする装置であって、前記所定のサイズとは異なる現在のブロック（１８）に対して、
再サンプリングされたテンプレート（１３０、１７０）を取得するために、前記第１のテンプレート（１３０、１７０）と一致するように、前記現在のブロック（１８）に隣接するサンプルの第２のテンプレート（６０）を再サンプリング（１３４、１６６）し、
予備的イントラ予測信号（１３８、１７２、１７６）を取得するために、前記サンプルの再サンプリングされたテンプレート（１３０、１７０）を前記ニューラルネットワーク（８０）に適用（１３８ａ、１７０ａ、４４−１、４４−２）し、
前記現在のブロック（１８）の前記イントラ予測信号（１４２、２４−１、２４−２）を取得（１４０）するために、前記現在のブロック（１８）に一致するように前記予備的イントラ予測信号（１３８、１７２、１７６）を再サンプリング（１４０、１８０）するように構成される、装置。
前記第２のテンプレート（６０）をダウンサンプリング（Ｄ）して前記第１のテンプレート（１３０、１７０）を取得することによって再サンプリング（１３４、１６６）するように構成される、請求項１に記載の装置。
前記予備的イントラ予測信号（１３８、１７２）をアップサンプリング（Ｕ、１４０）することによって前記予備的イントラ予測信号（１３８、１７２、１７６）を再サンプリング（１４０）するように構成される、請求項１または２に記載の装置。
前記予備的イントラ予測信号（１３８、１７６）を空間ドメインから変換ドメインに変換し、
前記変換ドメインにおいて前記予備的イントラ予測信号（１７６）を再サンプリングする
ように構成される、請求項１から３のいずれか一項に記載の装置。
前記予備的イントラ予測信号（１７６）の係数をスケーリングすることによって、前記変換ドメイン予備的イントラ予測信号（１７６）を再サンプリング（１４０）する
ように構成される、請求項４に記載の装置。
前記現在のブロック（１８）の次元に一致するように（１８２）前記イントラ予測信号（１７６）の次元を増やし、
前記予備的イントラ予測信号（１７６）の追加された係数であって、より高い周波数のビンに関連する前記追加された係数の係数をゼロパディングする
ことによって前記変換ドメイン予備的イントラ予測信号（１７６）を再サンプリング（１４０）する
ように構成される、請求項４または５に記載の装置。
予測残差信号（３４）の逆量子化バージョン（３９−１、３９−２）によって前記変換ドメイン予備的イントラ予測信号（１７６）を構成する（４２−１、４２−２）
ように構成される、請求項４から６のいずれか一項に記載の装置。
空間ドメインにおける前記予備的イントラ予測信号（１３８）を再サンプリング（１４０）する
ように構成される、請求項１から７のいずれか一項に記載の装置。
双一次補間を実行することによって前記予備的イントラ予測信号（１３８）を再サンプリング（１４０）する
ように構成される、請求項８に記載の装置。
さらに、前記再サンプリングおよび／または前記異なる次元のニューラルネットワークの使用に関する情報をデータフィールドに符号化する
ように構成される、請求項１から９のいずれか一項に記載の装置。
現在のブロック（１８）の隣接するサンプルの第１のセット（６０）をニューラルネットワーク（８０）に適用して、前記現在のブロック（１８）の変換（３４、３９−１、３９−２）の変換係数のセットの予測（４５−１、４５−２）を取得する
ことによって、前記画像の前記現在のブロック（１８）の前記イントラ予測信号（２４−１、２４−２）が判定される少なくとも１つのイントラ予測モードをサポートする、請求項１から１０のいずれか一項に記載の装置。
データストリーム（１２）から画像（１０）をブロック単位で復号するための装置であって、現在のブロック（１８）の隣接するサンプルの第１のセット（６０）をニューラルネットワーク（８０）に適用して、前記現在のブロック（１８）の変換（３４、３９−１、３９−２）の変換係数のセットの予測（４５−１、４５−２）を取得する
ことによって、前記画像の前記現在のブロック（１８）の前記イントラ予測信号（２４−１、２４−２）が判定される少なくとも１つのイントラ予測モードをサポートする、装置。
請求項１から１１のいずれか一項に記載の装置としてさらに構成される、請求項１２に記載の装置。
再構成された信号（２４−１、２４−２）を取得するために前記予測（４５−１、４５−２）を逆変換（４０−１、４０−２）する
ように構成される、請求項１から１３のいずれか一項に記載の装置。
可変長コードを使用して前記データストリーム（１２）からインデックス（７０ｂ）を復号し、
前記インデックス（７０ｂ）を使用して選択を実行する
ように構成される、請求項１から１４のいずれか一項に記載の装置。
イントラ予測モードのセット（７２）のランキングを判定し、
その後、前記第２のテンプレート（６０）を再サンプリングする
ように構成される、請求項１から１５のいずれか一項に記載の装置。
データストリーム（１２）に画像（１０）をブロック単位で符号化するための装置（１４−１）であって、前記画像の所定のサイズのブロック（１３６、１７２）のイントラ予測信号が現在のブロックに隣接するサンプルの第１のテンプレート（１３０、１７０）をニューラルネットワーク（８０）に適用することによって判定される、少なくとも１つのイントラ予測モードをサポートする装置（１４−１）であって、前記所定のサイズとは異なる現在のブロック（１８）に対して、
再サンプリングされたテンプレート（１３０、１７０）を取得するために、前記第１のテンプレート（１３０、１７０）と一致するように、前記現在のブロック（１８）に隣接するサンプルの第２のテンプレート（６０）を再サンプリング（１３４、１６６）し、
予備的イントラ予測信号（１３８、１７２、１７６）を取得するために、前記サンプルの再サンプリングされたテンプレート（１３０、１７０）を前記ニューラルネットワーク（８０）に適用（１３８ａ、１７０ａ、４４−１、４４−２）し、
前記現在のブロック（１８）のイントラ予測信号（１４２、２４−１、２４−２）を取得（１４０）するために、前記現在のブロック（１８）に一致するように前記予備的イントラ予測信号（１３８、１７２、１７６）を再サンプリング（１４０、１８０）する
ように構成される、装置。
前記第２のテンプレート（６０）をダウンサンプリング（Ｄ）して前記第１のテンプレート（１３０、１７０）を取得することによって再サンプリング（１３４、１６６）するように構成される、請求項１７に記載の装置。
前記予備的イントラ予測信号（１３８、１７２）をアップサンプリング（Ｕ、１４０）することによって前記予備的イントラ予測信号（１３８、１７２、１７６）を再サンプリング（１４０）するように構成される、請求項１７または１８に記載の装置。
前記予備的イントラ予測信号（１３８、１７６）を空間ドメインから変換ドメインに変換し、
前記変換ドメインにおいて前記予備的イントラ予測信号（１７６）を再サンプリングする
ように構成される、請求項１７から１９のいずれか一項に記載の装置。
前記予備的イントラ予測信号（１７６）の係数をスケーリングすることによって、変換ドメイン予備的イントラ予測信号（１７６）を再サンプリング（１４０）する
ように構成される、請求項２０に記載の装置。
前記現在のブロック（１８）の次元に一致するように（１８２）前記イントラ予測信号（１７６）の次元を増やし、
前記予備的イントラ予測信号（１７６）の追加された係数であって、より高い周波数のビンに関連する前記追加された係数の係数をゼロパディングする
ことによって前記変換ドメイン予備的イントラ予測信号（１７６）を再サンプリング（１４０）する
ように構成される、請求項２０または２１に記載の装置。
予測残差信号（３４）の逆量子化バージョン（３９−１、３９−２）によって前記変換ドメイン予備的イントラ予測信号（１７６）を構成する（４２−１、４２−２）
ように構成される、請求項２０から２２のいずれか一項に記載の装置。
前記空間ドメインにおける前記予備的イントラ予測信号（１３８）を再サンプリング（１４０）する
ように構成される、請求項１７から２３のいずれか一項に記載の装置。
双一次補間を実行することによって前記予備的イントラ予測信号（１３８）を再サンプリング（１４０）する
ように構成される、請求項２４に記載の装置。
さらに、前記再サンプリングおよび／または前記異なる次元のニューラルネットワークの使用に関する情報をデータフィールドに符号化する
ように構成される、請求項１７から２３のいずれか一項に記載の装置。
現在のブロック（１８）の隣接するサンプルの第１のセット（６０）をニューラルネットワーク（８０）に適用して、前記現在のブロック（１８）の変換（３４、３９−１、３９−２）の変換係数のセットの予測（４５−１、４５−２）を取得する
ことによって、前記画像の前記現在のブロック（１８）の前記イントラ予測信号（２４−１、２４−２）が判定される少なくとも１つのイントラ予測モードをサポートする、請求項１７から２６のいずれか一項に記載の装置。
データストリーム（１２）から画像（１０）をブロック単位で復号するおよび／またはデータストリーム（１２）に画像（１０）をブロック単位で符号化するための装置であって、
現在のブロック（１８）の隣接するサンプルの第１のセット（６０）をニューラルネットワーク（８０）に適用して、前記現在のブロック（１８）の変換（３４、３９−１、３９−２）の変換係数のセットの予測（４５−１、４５−２）を取得することによって、前記画像の前記現在のブロック（１８）の前記イントラ予測信号（２４−１、２４−２）が判定される少なくとも１つのイントラ予測モードをサポートする、装置。
請求項１７から２８のいずれか一項に記載の装置としてさらに構成される、請求項２８に記載の装置。
再構成された信号（２４−１、２４−２）を取得するために前記予測（４５−１、４５−２）を逆変換（４０−１、４０−２）する
ように構成される、請求項１７から２９のいずれか一項に記載の装置。
可変長コードを使用して前記データストリーム（１２）からインデックス（７０ｂ）を復号し、
前記インデックス（７０ｂ）を使用して選択を実行する
ように構成される、請求項１７から３０のいずれか一項に記載の装置。
イントラ予測モードのセット（７２）のランキングを判定し、
その後、前記第２のテンプレート（６０）を再サンプリングする
ように構成される、請求項１７から３１のいずれか一項に記載の装置。
データストリーム（１２）から画像（１０）をブロック単位で復号するための方法であって、前記画像の所定のサイズのブロック（１３６、１７２）のイントラ予測信号が現在のブロックに隣接するサンプルの第１のテンプレート（１３０、１７０）をニューラルネットワーク（８０）に適用することによって判定される、少なくとも１つのイントラ予測モードをサポートする方法であって、
再サンプリングされたテンプレート（１３０、１７０）を取得するために、第１のテンプレート（１３０、１７０）と一致するように、前記現在のブロック（１８）に隣接するサンプルの第２のテンプレート（６０）を再サンプリング（１３４、１６６）し、
予備的イントラ予測信号（１３８、１７２、１７６）を取得するために、前記サンプルの再サンプリングされたテンプレート（６０）をニューラルネットワーク（８０）に適用（１３８ａ、１７０ａ、４４−１、４４−２）し、
前記現在のブロック（１８）の前記イントラ予測信号（１４２、２４−１、２４−２）を取得（１４０）するために、前記現在のブロック（１８）に一致するように前記予備的イントラ予測信号（１３８、１７２、１７６）を再サンプリング（１４０）することを備える、方法。
データストリーム（１２）に画像（１０）をブロック単位で符号化するための方法であって、前記画像の所定のサイズのブロック（１３６、１７２）のイントラ予測信号が現在のブロックに隣接するサンプルの第１のテンプレート（１３０、１７０）をニューラルネットワーク（８０）に適用することによって判定される、少なくとも１つのイントラ予測モードをサポートする方法であって、
再サンプリングされたテンプレート（１３０、１７０）を取得するために、第１のテンプレート（１３０、１７０）と一致するように、前記現在のブロック（１８）に隣接するサンプルの第２のテンプレート（６０）を再サンプリング（１３４、１６６）し、
予備的イントラ予測信号（１３８、１７２、１７６）を取得するために、前記サンプルの再サンプリングされたテンプレート（６０）をニューラルネットワーク（８０）に適用（１３８ａ、１７０ａ、４４−１、４４−２）し、
前記現在のブロック（１８）の前記イントラ予測信号（１４２、２４−１、２４−２）を取得（１４０）するために、前記現在のブロック（１８）に一致するように前記予備的イントラ予測信号（１３８、１７２、１７６）を再サンプリング（１４０）することを備える、方法。
データストリーム（１２）から画像（１０）をブロック単位で復号する方法であって、
現在のブロック（１８）の隣接するサンプルの第１のセット（６０）をニューラルネットワーク（８０）に適用して、現在のブロック（１８）の変換（３４、３９−１、３９−２）の変換係数のセットの予測（４５−１、４５−２）を取得することを備える、方法。
データストリーム（１２）に画像（１０）をブロック単位で符号化する方法であって、
現在のブロック（１８）の隣接するサンプルの第１のセット（６０）をニューラルネットワーク（８０）に適用して、現在のブロック（１８）の変換（３４、３９−１、３９−２）の変換係数のセットの予測（４５−１、４５−２）を取得することを備える、方法。
コンピュータによって実行されると、前記コンピュータに請求項３３から３６のいずれか一項に記載の方法を実行させる命令を備える、コンピュータ可読記憶媒体。
画像（１０）を符号化し、前記画像の所定のサイズのブロック（１３６、１７２）のイントラ予測信号が前記現在のブロックに隣接するサンプルの第１のテンプレート（１３０、１７０）をニューラルネットワーク（８０）に適用することによって判定される、少なくとも１つのイントラ予測モードをサポートする方法によって取得されるデータストリームであって、
再サンプリングされたテンプレート（１３０、１７０）を取得するために、第１のテンプレート（１３０、１７０）と一致するように、前記現在のブロック（１８）に隣接するサンプルの第２のテンプレート（６０）を再サンプリング（１３４、１６６）し、
予備的イントラ予測信号（１３８、１７２、１７６）を取得するために、前記サンプルの再サンプリングされたテンプレート（６０）をニューラルネットワーク（８０）に適用（１３８ａ、１７０ａ、４４−１、４４−２）し、
前記現在のブロック（１８）の前記イントラ予測信号（１４２、２４−１、２４−２）を取得（１４０）するために、前記現在のブロック（１８）に一致するように前記予備的イントラ予測信号（１３８、１７２、１７６）を再サンプリング（１４０）することを備える、データストリーム。
画像（１０）を符号化し、方法によって取得されるデータストリームであって、
現在のブロック（１８）の隣接するサンプルの第１のセット（６０）をニューラルネットワーク（８０）に適用して、現在のブロック（１８）の変換（３４、３９−１、３９−２）の変換係数のセットの予測（４５−１、４５−２）を取得することを備える、データストリーム。