JP7047119B2

JP7047119B2 - 変換領域における残差符号予測のための方法および装置

Info

Publication number: JP7047119B2
Application number: JP2020546972A
Authority: JP
Inventors: アレクセイ・コンスタンチノヴィチ・フィリッポフ; アレクサンダー・アレクサンドロヴィッチ・カラブトフ; ヴァシリー・アレクセーヴィチ・ルフィットスキー
Original assignee: ホアウェイ・テクノロジーズ・カンパニー・リミテッド
Priority date: 2018-03-07
Filing date: 2018-03-07
Publication date: 2022-04-04
Anticipated expiration: 2038-03-07
Also published as: KR20200112964A; EP3741123A1; JP2021516016A; WO2019172798A1; KR102419112B1; US20210014509A1; US20200404311A1; CN111819853A; WO2019172802A1; CN111819853B; US11438618B2; CN111819852B; US11856216B2; CN111819852A; EP3738311A1

Description

本発明の実施形態は、静止画像および／またはビデオ画像のエンコーディングおよびデコーディングなどの画像処理の分野に関する。

ビデオコーディング（ビデオエンコーディングおよびデコーディング）は、例えば、放送デジタルTV、インターネットおよびモバイルネットワークを介したビデオ伝送、ビデオチャットなどのリアルタイム会話型アプリケーション、ビデオ会議、DVDおよびブルーレイディスク、ビデオコンテンツの取得および編集システム、セキュリティアプリケーションのカムコーダなど、幅広いデジタルビデオアプリケーションで使用されている。

1990年にH．261標準規格でブロックベースのハイブリッドビデオコーディング手法が開発されて以来、新しいビデオコーディング技術とツールが開発され、新しいビデオコーディング標準規格の基礎を形成した。ほとんどのビデオコーディング標準規格の目標の1つは、画質を犠牲にすることなく、以前のバージョンと比較してビットレートを低減することであった。さらなるビデオコーディング標準規格は、MPEG－1ビデオ、MPEG－2ビデオ、ITU－T H．262／MPEG－2、ITU－T H．263、ITU－T H．264／MPEG－4、パート10、高度ビデオコーディング（AVC）、ITU－T H．265、高効率ビデオコーディング（HEVC）、および拡張、例えばこれらの標準規格のスケーラビリティおよび／または3次元（3D）拡張を含む。

本発明の実施形態は、独立請求項の特徴および従属請求項の特徴による実施形態のさらに有利な実施態様によって定義される。

一実施形態によれば、処理回路を含む、画像ブロックをデコードするための装置が提供され、処理回路は、変換された画像ブロックに隣接する隣接ピクセル間の変換された差と、画像ブロックの予測信号に基づいて計算された隣接ピクセルの予測と、を含むコスト関数に基づいて、変換された画像ブロックの複数の係数の符号を予測し、予測された符号に従って複数の係数の符号を再構築するように構成される。

例示的な実施態様では、処理回路は、コーディングされたストリーム符号予測誤差から解析し、解析された符号予測誤差を予測された符号に追加することを含む符号を再構築するようにさらに構成される。

例えば、コスト関数は、変換された画像ブロックに隣接する隣接ピクセル間の二乗変換差の合計と、画像ブロックの予測信号に基づいて計算された隣接ピクセルの予測と、を含む。

さらに、一実施態様では、処理回路は、変換された画像ブロックの複数の係数の符号を予測するようにさらに構成され、変換された画像ブロックに隣接する隣接ピクセル間の変換された差と、画像ブロックの予測信号に基づいて計算された隣接ピクセルの予測と、を計算し、前記変換された差と、一組の仮説からの符号の各仮説に従って再構築された変換された画像ブロックと、の二乗された変換された差の合計を含むコスト関数を計算し、予測される符号として、コスト関数によって与えられるコストを最小にする符号のその仮説を選択することを含む。

例えば、変換された画像ブロックは、コーディングされたストリームから解析された係数に符号の仮説を追加することによって再構築される。

特に、コスト関数Fは次式で与えられ得る。

t_n＝Trans1D（T_n），q_n＝Trans1D（Q_n），v_n＝Trans1D（V_n），およびo_n＝Trans1D（O_n）であり、ここで、Trans1D（．）は1次元直交変換であり、T_n＝［2X_n，－1－X_n，－2－P_n，0］，V_m＝［2Z_－1，m，－Z_－2，m－P_0，m］，Q_n＝R_n，0およびO_m＝R_0，mであり、ここでPは予測信号、XとYは隣接ピクセル、NとMはそれぞれ符号が予測されるブロックの高さと幅である。

例示的な実施態様では、隣接ピクセルは、画像ブロックの水平および垂直境界に配置される。

いくつかの実施形態では、処理回路は、コンテキスト適応型バイナリ算術コーディングCABACを使用して符号予測誤差をデコードするようにさらに構成される。

一実施形態によれば、処理回路を含む、画像ブロックをエンコードするための装置が提供され、処理回路は、変換された画像ブロックに隣接する隣接ピクセル間の変換された差と、画像ブロックの予測信号に基づいて計算された隣接ピクセルの予測と、を含むコスト関数に基づいて、変換された画像ブロックの複数の係数の符号を予測し、予測された符号に従って複数の係数の符号をエンコードするように構成される。

一実施形態によれば、処理回路は、複数の係数の符号をエンコードするようにさらに構成され、複数の係数の符号と複数の係数の予測された符号との間の差として符号予測誤差を決定し、決定された符号予測誤差を、コーディングされた画像ブロックを含むコーディングされたストリームに挿入することを含む。

例示的な一実施態様では、処理回路は、変換された画像ブロックの複数の係数の符号を予測するようにさらに構成され、変換された画像ブロックに隣接する隣接ピクセル間の変換された差と、画像ブロックの予測信号に基づいて計算された隣接ピクセルの予測と、を計算し、前記変換された差と、一組の仮説からの符号の各仮説に従って再構築された変換された画像ブロックと、の二乗された変換された差の合計を含むコスト関数を計算し、予測される符号として、コスト関数によって与えられるコストを最小にする符号のその仮説を選択することを含む。

例えば、コスト関数Fは次式で与えられ、

さらに、隣接ピクセルは、画像ブロックの水平および垂直境界に配置され得る。

デコーディング装置の処理回路は、コンテキスト適応型バイナリ算術コーディングCABACを使用して符号予測誤差をエンコードするようにさらに構成される。

一実施形態によれば、画像ブロックをデコードするための方法が提供され、変換された画像ブロックに隣接する隣接ピクセル間の変換された差と、画像ブロックの予測信号に基づいて計算された隣接ピクセルの予測と、を含むコスト関数に基づいて、変換された画像ブロックの複数の係数の符号を予測するステップと、予測された符号に従って複数の係数の符号を再構築するステップと、を含む。

一実施形態によれば、画像ブロックをエンコードするための方法が提供され、変換された画像ブロックに隣接する隣接ピクセル間の変換された差と、画像ブロックの予測信号に基づいて計算された隣接ピクセルの予測と、を含むコスト関数に基づいて、変換された画像ブロックの複数の係数の符号を予測するステップと、予測された符号に従って複数の係数の符号を再構築するステップと、を含む。

エンコーディングまたはデコーディング装置の処理回路を参照して説明した上記の実施形態、実施態様、および例は、それぞれの処理回路によって実行されるステップに対応し得る上記のエンコーディングおよびデコーディング方法にも適用可能であることに留意されたい。

一実施形態によれば、プロセッサ上で実行された場合に、上記で言及された方法のすべてのステップを実行する命令を含むプログラムを格納するコンピュータ可読媒体が提供される。

1つまたは複数の実施形態の詳細は、添付の図面および以下の説明に記載されている。他の特徴、目的、および利点は、説明、図面、および特許請求の範囲から明らかになるであろう。

以下の本発明の実施形態は、添付の図面および図面を参照してより詳細に説明される。

本発明の実施形態を実施するように構成されたビデオエンコーダの例を示すブロック図である。本発明の実施形態を実施するように構成されたビデオデコーダの例示的な構成を示すブロック図である。本発明の実施形態を実施するように構成されたビデオコーディングシステムの例を示すブロック図である。符号予測の概略図である。 H．264／AVCにおける符号コーディングと符号予測を比較する概略図である。現在のブロックおよび周囲の隣接ピクセルを示す概略図である。ピクセル領域でのコスト関数計算を使用する既知の符号予測と変換領域でのコスト関数計算を使用する実施形態とを比較する概略図である。符号予測およびエンコーディングに関連する変換係数の処理を示す流れ図である。変換領域に符号予測を含めるための、図1によるエンコーダの例示的な修正を示すブロック図である。変換領域に符号予測を含めるための、図2によるデコーダの例示的な修正を示すブロック図である。

以下の説明では、添付の図面を参照するが、これらは本開示の一部を形成し、例として、本発明の実施形態の特定の態様または本発明の実施形態が使用され得る特定の態様を示す。本発明の実施形態は他の態様で使用されてもよく、図面に示されていない構造的または論理的な変更を含んでもよいことが理解される。したがって、以下の詳細な説明は、限定的な意味で解釈するべきではなく、本発明の範囲は、添付の特許請求の範囲によって規定される。

例えば、記載した方法に関連する開示はまた、その方法を実施するように構成された対応するデバイスまたはシステムについても当てはまり、逆もまた同様であることが理解される。例えば、1つまたは複数の特定の方法ステップが記載されている場合には、対応するデバイスは、記載された1つまたは複数の方法ステップを実行するための1つまたは複数のユニット、例えば機能ユニット（例えば、1つまたは複数のステップを実行する1つのユニット、または各々が複数のステップの1つもしくは複数を実行する複数のユニット）を、そのような1つまたは複数のユニットが図面に明示的に記載または図示されていなくても、含むことができる。一方、例えば、特定の装置が1つまたは複数のユニット、例えば機能ユニットに基づいて記載されている場合には、対応する方法は、1つまたは複数のユニットの機能を実行するための1つのステップ（例えば、1つまたは複数のユニットの機能を実行する1つのステップ、あるいは各々が複数のユニットの1つまたは複数の機能を実行する複数のステップ）を、そのような1つまたは複数のステップが図面に明示的に記載または図示されていなくても、含むことができる。さらに、特に断らない限り、本明細書に記載された様々な例示的な実施形態および／または態様の特徴は、互いに組み合わせてもよいことが理解される。

ビデオコーディングは通常、ビデオまたはビデオシーケンスを形成する一連の画像の処理を指す。画像という用語の代わりに、フレームまたは画像という用語が、ビデオコーディングの分野での同義語として使用されてもよい。ビデオコーディングは、ビデオエンコーディングとビデオデコーディングの2つの部分を含む。ビデオエンコーディングは送信側で実行され、通常、（より効率的なストレージおよび／または送信のために）ビデオ画像を表すのに必要なデータの量を低減するための、元のビデオ画像の処理（例えば、圧縮による）を含む。ビデオデコーディングは宛先側で実行され、通常、ビデオ画像を再構築するための、エンコーダと比較して逆の処理を含む。ビデオ画像（または後で説明するように、一般に画像）の「コーディング」に言及する実施形態は、ビデオ画像の「エンコーディング」および「デコーディング」の両方に関連すると理解されるものとする。エンコーディング部分とデコーディング部分の組み合わせは、CODEC（COdingおよびDECoding）とも呼ばれる。

損失のないビデオコーディングの場合、元のビデオ画像を再構築できる。すなわち、（伝送損失または他のデータ損失がストレージまたは伝送中に失われないと仮定すると）再構築されたビデオ画像は元のビデオ画像と同じ品質である。非可逆ビデオコーディングの場合は、ビデオ画像を表すデータの量を低減するために、例えば量子化により、さらなる圧縮が行われるが、これはデコーダで完全に再構築することができない、つまり、再構築されたビデオ画像の品質は、元のビデオ画像の品質と比較して低いかまたは悪くなる。

H．261以降のいくつかのビデオコーディング標準規格は、「非可逆ハイブリッドビデオコーデック」のグループに属している（つまり、サンプル領域での空間および時間予測と、変換領域で量子化を適用するための2D変換コーディングと、を組み合わせる）。ビデオシーケンスの各画像は通常、一組の重複しないブロックに分割され、通常、コーディングはブロックレベルで実行される。言い換えると、エンコーダでは、ビデオは通常、例えば空間（画像内）予測と時間（画像間）予測を使用して予測ブロックを生成し、現在のブロック（現在処理されている／処理されることになるブロック）から予測ブロックを差し引いて、残差ブロックを取得し、残差ブロックを変換し、変換領域で残差ブロックを量子化して、送信されるデータの量を低減（圧縮）することによって、ブロック（ビデオブロック）レベルで処理、すなわちエンコードされるが、一方、デコーダでは、エンコーダとは逆の処理がエンコードされたまたは圧縮されたブロックに適用され、表示のための現在のブロックを再構築する。さらに、エンコーダはデコーダ処理ループを複製して、両方が同じ予測（例えば、内部予測と相互予測）および／または後続のブロックの処理、すなわちコーディングのための再構築を生成する。

ビデオ画像処理（動画処理とも呼ばれる）と静止画像処理（処理という用語はコーディングを含む）は、多くの概念と技術またはツールを共有しているので、不要なビデオ画像と静止画像の不必要な繰り返しや区別を避けるために、以下では「画像」という用語は、（上で説明したように）ビデオシーケンスのビデオ画像（イメージ）および／または静止画像を指すために使用される。説明が静止画像（または静止イメージ）のみに言及している場合、「静止画像」という用語が使用される。

エンコーダ100の以下の実施形態では、図4から図9に基づいて本発明の実施形態をより詳細に説明する前に、デコーダ200およびコーディングシステム300が図1から図3に基づいて説明されている。

図3は、コーディングシステム300、例えば画像コーディングシステム300の実施形態を示す概念的または概略的なブロック図であり、コーディングシステム300は、エンコードされたデータ330、例えばエンコードされた画像330を、例えばエンコードされた画像330をデコードするための宛先デバイス320へ提供するように構成された送信元デバイス310を含む。

送信元デバイス310は、エンコーダ100またはエンコーディングユニット100を含み、さらに、すなわち、オプションとして、画像ソース312、前処理ユニット314、例えば、画像前処理ユニット314、および通信インターフェースもしくは通信ユニット318を含む。

画像ソース312は、例えば、実世界の画像を取り込むための任意の種類の画像取り込みデバイス、ならびに／あるいは任意の種類の画像生成デバイス、例えばコンピュータアニメーション画像を生成するためのコンピュータグラフィックプロセッサ、あるいは実世界の画像、コンピュータアニメーション画像（例えば画面コンテンツ、仮想現実（VR）画像）、ならびに／あるいはそれらの任意の組み合わせ（例えば拡張現実（AR）画像）を取得および／または提供するための任意の種類のデバイスを含んでもよく、またはそれらであってもよい。以下では、これらの種類のすべての画像およびその他の種類の画像を、特に明記しない限り、「画像」または「イメージ」と呼び、「ビデオ画像」と「静止画像」を包含する「画像」という用語に関するこれまでの説明は、明確に異なる指定がない限り、依然として当てはまる。

（デジタル）画像は、強度値を有するサンプルの2次元配列または行列とみなされる。配列内のサンプルは、ピクセル（画像要素の短い形式）またはペルと呼ばれることもある。配列または画像の水平および垂直方向（または軸）のサンプル数は、画像のサイズおよび／または解像度を定義する。色を表現するために、通常は3つの色成分が使用される、つまり、画像が3つのサンプル配列で表現されるか、3つのサンプル配列を含む。RBG形式または色空間では、画像は対応する赤、緑、青のサンプル配列を含む。しかしながら、ビデオコーディングでは、各ピクセルは、通常、輝度／クロミナンスフォーマットまたは色空間、例えばYCbCrで表され、それはYで示される輝度成分（場合によってはLが代わりに使用されることもある）と、CbおよびCrで示される2つのクロミナンス成分を含む。輝度（または短くルマ）成分Yは、明るさまたはグレーレベル強度（例えば、グレースケール画像の場合）を表し、2つのクロミナンス（または短くクロマ）成分CbおよびCrは、色度または色情報成分を表す。したがって、YCbCrフォーマットの画像は、輝度サンプル値（Y）の輝度サンプル配列、およびクロミナンス値（CbおよびCr）の2つのクロミナンスサンプル配列を含む。RGB形式の画像は、YCbCr形式に転換または変換でき、その逆も同様であり、このプロセスは、色変換または色転換として知られている。画像がモノクロの場合、画像は輝度サンプル配列のみを含むことができる。

画像ソース312は、例えば、画像を取り込むためのカメラ、メモリ、例えば画像メモリであってもよく、これらは、以前に取り込んだまたは生成された画像、および／または画像を取得または受信するための任意の種類のインターフェース（内部または外部）を含むまたは格納する。カメラは、例えば、送信元デバイスに統合されたローカルなまたは統合されたカメラであってもよく、メモリは、ローカルなまたは統合されたメモリ、例えば送信元デバイスに統合されたメモリであってもよい。インターフェースは、例えば、外部ビデオソース、例えば、カメラのような外部画像取り込み装置、外部メモリ、または外部画像生成装置、例えば、外部コンピュータグラフィックスプロセッサ、コンピュータまたはサーバーから画像を受信するための外部インターフェースであってもよい。インターフェースは、専用または標準化されたインターフェースプロトコルに準拠した任意の種類のインターフェース、例えば有線または無線のインターフェース、光インターフェースであってもよい。画像データ312を取得するためのインターフェースは、通信インターフェース318と同じインターフェースまたは通信インターフェース318の一部であってもよい。通信インターフェースは、イーサネット、WLAN、ブルートゥース(登録商標)、LTEなどの任意のインターフェース、あるいは衛星または光インターフェースなどの有線または非有線のインターフェースであってもよい。送信は、ピアツーピア、ブロードキャスト、またはマルチキャストであってもよい。

前処理ユニット314および前処理ユニット314によって実行される処理とは異なり、画像または画像データ313は、未加工画像または未加工画像データ313と呼ばれることもある。

前処理ユニット314は、（未加工）画像データ313を受け取り、画像データ313に対して前処理を実行して、前処理された画像315または前処理された画像データ315を取得するように構成される。前処理ユニット314によって実行される前処理は、例えば、トリミング、カラーフォーマット変換（例えば、RGBからYCbCrへ）、色補正、またはノイズ除去を含むことができる。

エンコーダ100は、前処理された画像データ315を受け取り、エンコードされた画像データ171を提供するように構成される（さらなる詳細は、例えば、図1に基づいて説明される）。

送信元デバイス310の通信インターフェース318は、エンコードされた画像データ171を受信し、格納または直接再構築するために、それを別のデバイス、例えば宛先デバイス320または他の任意のデバイスに直接送信するように、あるいは、それぞれ、エンコードされたデータ330を格納する前、および／またはエンコードされたデータ330を別のデバイス、例えば宛先デバイス320またはデコーディングもしくは格納するための他のデバイスに送信する前に、エンコードされた画像データ171を処理するように構成され得る。

宛先デバイス320は、デコーダ200またはデコーディングユニット200を含み、さらに、すなわち、オプションとして、通信インターフェースまたは通信ユニット322、後処理ユニット326、および表示装置328を含むことができる。

宛先デバイス320の通信インターフェース322は、例えば送信元デバイス310から直接に、または他の任意のソース、例えばメモリ、例えばエンコードされた画像データメモリから、例えば、エンコードされた画像データ171またはエンコードされたデータ330を受信するように構成される。

通信インターフェース318および通信インターフェース322は、送信元デバイス310と宛先デバイス320との間の直接通信リンクを介して、例えば、直接の有線もしくは無線接続、または任意の種類のネットワーク、例えば有線（光、電力線、クーパー、同軸、または他の任意の媒体に基づくものなど）もしくは無線ネットワークまたはそれらの任意の組み合わせ、または任意の種類のプライベートおよびパブリックネットワーク、またはそれらの任意の種類の組み合わせを介して、それぞれ、エンコードされた画像データ171またはエンコードされたデータ330を送受信するように構成され得る。

通信インターフェース318は、通信リンクまたは通信ネットワークを介して送信するために、例えば、エンコードされた画像データ171を適切なフォーマット、例えばパケットにパッケージ化するように構成されてもよく、データ損失保護およびデータ損失回復をさらに含んでもよい。

通信インターフェース318の対応物を形成する通信インターフェース322は、例えば、エンコードされた画像データ171を得るためにエンコードされたデータ330をデパッケージするように構成されてもよく、さらに例えばエラー隠蔽を含むデータ損失保護およびデータ損失回復を実行するようにさらに構成されてもよい。

通信インターフェース318および通信インターフェース322の両方は、送信元デバイス310から宛先デバイス320を指す図3のエンコードされた画像データ330の矢印によって示されるように単方向通信インターフェース、または双方向通信インターフェースとして構成されてもよく、例えばメッセージを送受信し、例えば接続を設定し、画像データを含む失われたもしくは遅延したデータを確認および／または再送信し、通信リンクおよび／またはデータ送信、例えばエンコードされた画像データの送信に関連する他の任意の情報を交換するように構成されてもよい。

デコーダ200は、エンコードされた画像データ171を受信し、デコードされた画像データ231またはデコードされた画像231を提供するように構成される（さらなる詳細は、例えば、図2に基づいて説明される）。

宛先デバイス320のポストプロセッサ326は、後処理された画像データ327、例えば後処理された画像327を得るために、デコードされた画像データ231、例えばデコードされた画像231を後処理するように構成される。後処理ユニット326によって実行される後処理は、例えばデコードされた画像データ231を例えば表示装置328により表示するために準備するために、例えば、カラーフォーマット変換（例えばYCbCrからRGB）、色補正、トリミング、または再サンプリング、または他の任意の処理を含むことができる。

宛先デバイス320の表示装置328は、例えばユーザまたはビューアに画像を表示するための後処理された画像データ327を受信するように構成されている。表示装置328は、再構築された画像を表すための任意の種類のディスプレイ、例えば統合されたまたは外部のディスプレイまたはモニターであってもよく、またはそれを含んでもよい。ディスプレイは、例えば、陰極線管（CRT）、液晶ディスプレイ（LCD）、プラズマディスプレイ、有機発光ダイオード（OLED）ディスプレイ、またはビーマー、ホログラム、または3D／VR眼鏡を含むその他の任意の種類のディスプレイを含んでもよい。

図3は、送信元デバイス310および宛先デバイス320を別個のデバイスとして示しているが、デバイスの実施形態は、送信元デバイス310または対応する機能および宛先デバイス320または対応する機能の両方または両方の機能も含んでもよい。そのような実施形態では、送信元デバイス310または対応する機能および宛先デバイス320または対応する機能は、同じハードウェアおよび／またはソフトウェアを使用して、または別個のハードウェアおよび／またはソフトウェアまたはそれらの任意の組み合わせによって実施されてもよい。

説明に基づいて当業者には明らかなように、図3に示す送信元デバイス310および／または宛先デバイス320内の異なるユニットまたは機能の存在および（正確な）分割は、実際のデバイスとアプリケーションに応じて変化してもよい。

したがって、図3に示す送信元デバイス310および宛先デバイス320は、本発明の例示的な実施形態にすぎず、本発明の実施形態は、図3に示すものに限定されない。

送信元デバイス310および宛先デバイス320は、任意の種類のハンドヘルドまたは固定デバイス、例えばノートブックまたはラップトップコンピュータ、携帯電話、スマートフォン、タブレットまたはタブレットコンピュータ、カメラ、デスクトップコンピュータ、セットトップボックス、テレビ、表示装置、デジタルメディアプレーヤ、ビデオゲームコンソール、ビデオストリーミングデバイス、放送受信デバイスなどを含む、広範囲のデバイスのいずれかを含んでもよく、また、オペレーティングシステムをまったく使用しなくてもよいし、任意の種類のオペレーティングシステムを使用してもよい。

エンコーダおよびエンコーディング方法
図1は、エンコーダ100、例えば画像エンコーダ100の実施形態の概略／概念ブロック図を示し、エンコーダ100は、入力102、残差計算ユニット104、変換ユニット106、量子化ユニット108、逆量子化ユニット110、逆変換ユニット112、再構築ユニット114、バッファ118、ループフィルタ120、デコードされた画像バッファ（DPB）130、相互推定ユニット142を含む予測ユニット160、相互予測ユニット144、内部推定ユニット152、内部予測ユニット154、モード選択ユニット162、エントロピーエンコーディングユニット170、および出力172を含む。図1に示すビデオエンコーダ100は、ハイブリッドビデオエンコーダまたはハイブリッドビデオコーデックによるビデオエンコーダと呼ばれることもある。

例えば、残差計算ユニット104、変換ユニット106、量子化ユニット108、およびエントロピーエンコーディングユニット170は、エンコーダ100の順方向信号経路を形成し、一方、例えば、逆量子化ユニット110、逆変換ユニット112、再構築ユニット114、バッファ118、ループフィルタ120、デコードされた画像バッファ（DPB）130、相互予測ユニット144、および内部予測ユニット154は、エンコーダの逆方向信号経路を形成し、エンコーダの逆方向信号経路は、デコーダの信号経路に対応する（図2のデコーダ200を参照）。

エンコーダは、例えば、入力102により、例えば画像101または画像101の画像ブロック103、例えばビデオまたはビデオシーケンスを形成する一連の画像のうちの画像を受け取るように構成される。画像ブロック103はまた、現在の画像ブロックまたはコーディングされる画像ブロックと呼ばれてもよく、画像101は、現在の画像またはコーディングされる画像と呼ばれてもよい（特に、現在の画像を他の画像、例えば、同じビデオシーケンスの以前にエンコードおよび／またはデコードされた画像、つまり現在の画像も含むビデオシーケンスと区別するためのビデオコーディング）。

エンコーダ100の実施形態は、分割ユニット（図1には示されていない）を含むことができ、例えばこれは、画像分割ユニットと呼ばれることもあり、画像103を複数のブロック、例えばブロック103のようなブロックに、通常、複数の重複しないブロックに分割するように構成されてもよい。分割ユニットは、ビデオシーケンスのすべての画像とブロックサイズを定義する対応するグリッドに同じブロックサイズを使用するか、画像またはサブセットまたは画像グループ間でブロックサイズを変更し、各画像を対応するブロックに階層的に分割するように構成されてもよい。ブロックという用語は、画像の長方形（必ずしもではないが、場合によっては正方形）の部分を指す。

画像101と同様に、ブロック103も、画像101よりも小さい次元であるが、強度値（サンプル値）を有するサンプルの2次元配列または行列であるか、またはそのようにみなすことができる。言い換えれば、ブロック103は、例えば、1つのサンプル配列（例えば、モノクロ画像101の場合はルーマ配列）または3つのサンプル配列（例えばカラー画像101の場合はルーマおよび2つのクロマ配列）または適用されるカラーフォーマットに応じて、他の任意の数および／または種類の配列を含んでもよい。ブロック103の水平および垂直方向（または軸）におけるサンプルの数は、ブロック103のサイズを定義する。

図1に示すようなエンコーダ100は、画像101をブロックごとにエンコードするように構成され、例えばコーディングおよび予測はブロック103ごとに実行される。

残差計算ユニット104は、画像ブロック103および予測ブロック165（予測ブロック165に関するさらなる詳細は後で提供される）に基づいて残差ブロック105を計算し、例えば画像ブロック103のサンプル値から予測ブロック165のサンプル値を減算することにより、サンプルごと（ピクセルごと）に、サンプル領域における残差ブロック105を取得するように構成される。

変換ユニット106は、変換、例えば空間周波数変換または線形空間（周波数）変換、例えば残差ブロック105のサンプル値に対する離散コサイン変換（DCT）または離散サイン変換（DST）を適用して、変換領域内で変換された係数107を取得するように構成される。変換された係数107は、変換された残差係数とも呼ばれ、変換領域における残差ブロック105を表す。

変換ユニット106は、HEVC／H．265に対して指定されたコア変換などのDCT／DSTの整数近似を適用するように構成され得る。正規直交DCT変換と比較すると、このような整数近似は通常、特定の係数によってスケーリングされる。順変換と逆変換によって処理される残差ブロックのノルムを保存するために、変換プロセスの一部として追加のスケーリング係数が適用される。スケーリング係数は通常、シフト演算のスケーリング係数が2のべき乗であるような特定の制約、変換された係数のビット深度、精度と実施コストとの間のトレードオフなどに基づいて選択される。特定のスケーリング係数は、例えば、逆変換、例えばデコーダ200における逆変換ユニット212（および対応する逆変換、例えばエンコーダ100における逆変換ユニット112による）であり、順変換のための対応するスケーリング係数は、例えば変換ユニット106によって、エンコーダ100で、それに応じて指定され得る。

量子化ユニット108は、例えばスカラー量子化またはベクトル量子化を適用することによって、変換された係数107を量子化して、量子化係数109を取得するように構成される。量子化係数109は、量子化残差係数109と呼ばれることもある。例えば、スカラー量子化の場合、より細かいまたはより粗い量子化を達成するために、異なるスケーリングが適用されてもよい。小さい量子化ステップサイズは細かい量子化に対応し、大きい量子化ステップサイズは粗い量子化に対応する。適用可能な量子化ステップサイズは、量子化パラメータ（QP）によって示され得る。量子化パラメータは、例えば、適用可能な量子化ステップサイズの所定のセットへのインデックスであってもよい。例えば、小さな量子化パラメータは細かい量子化（小さな量子化ステップサイズ）に対応し、大きな量子化パラメータは粗い量子化（大きな量子化ステップサイズ）に対応するか、またはその逆である。量子化は、量子化ステップサイズによる除算と、例えば逆量子化110により、対応するまたは逆の逆量子化を含むことができ、量子化ステップサイズによる乗算を含むことができる。HEVCによる実施形態は、量子化パラメータを使用して量子化ステップサイズを決定するように構成され得る。一般に、量子化ステップサイズは、除算を含む方程式の固定小数点近似を使用する量子化パラメータに基づいて計算され得る。残差ブロックのノルムを復元するために、量子化と逆量子化に追加のスケーリング係数が導入されてもよく、これは、量子化ステップサイズと量子化パラメータの方程式の固定小数点近似で使用されるスケーリングのために変更される可能性がある。1つの例示的な実施態様では、逆変換のスケーリングと逆量子化が組み合わせられてもよい。あるいは、カスタマイズされた量子化テーブルが使用され、例えばビットストリームで、エンコーダからデコーダにシグナリングされてもよい。量子化は非可逆演算であり、損失は量子化ステップサイズの増加に伴って増加する。

エンコーダ100の（またはそれぞれ量子化ユニット108の）実施形態は、例えば対応する量子化パラメータによって量子化スキームおよび量子化ステップサイズを出力するように構成されてもよく、そのようにしてデコーダ200が対応する逆量子化を受信して適用することができる。エンコーダ100（または量子化ユニット108）の実施形態は、例えば、量子化スキームおよび量子化ステップサイズを、例えば直接、またはエントロピーエンコーディングユニット170または他の任意のエントロピーコーディングユニットを介してエンコードされたエントロピーを出力するように構成され得る。

逆量子化ユニット110は、例えば量子化ユニット108と同じ量子化ステップサイズに基づいて、またはそれを使用して、量子化ユニット108によって適用された量子化スキームの逆を適用することによって、量子化ユニット108の逆量子化を量子化係数に適用して、逆量子化係数111を得るように構成される。逆量子化係数111は、逆量子化残差係数111とも呼ばれ、通常、量子化による損失のために変換された係数と同一ではないが、変換された係数108に対応する。

逆変換ユニット112は、変換ユニット106によって適用される変換の逆変換、例えば逆離散コサイン変換（DCT）または逆離散サイン変換（DST）を適用して、サンプル領域の逆変換されたブロック113を取得するように構成される。逆変換されたブロック113は、逆変換された逆量子化ブロック113または逆変換された残差ブロック113と呼ばれることもある。

再構築ユニット114は、例えばデコードされた残差ブロック113のサンプル値と予測ブロック165のサンプル値をサンプルごとに加えることにより、逆変換されたブロック113と予測ブロック165を組み合わせて（例えば、追加して）、サンプル領域内の再構築されたブロック115を得るために構成される。

バッファユニット116（または短く「バッファ」116）、例えば、ラインバッファ116は、例えば、内部推定および／または内部予測のために、再構築されたブロックおよびそれぞれのサンプル値をバッファリングまたは格納するように構成される。さらなる実施形態では、エンコーダは、任意の種類の推定および／または予測のために、フィルタリングされていない再構築されたブロックおよび／またはバッファユニット116に格納されたそれぞれのサンプル値を使用するように構成され得る。

ループフィルタユニット120（または短く「ループフィルタ」120）は、例えば非ブロック化サンプル適応オフセット（SAO）フィルタまたは他のフィルタ、例えばシャープまたはスムージングするフィルタまたは協調フィルタを適用することにより、再構築されたブロック115をフィルタリングして、フィルタリングされたブロック121を取得するように構成される。フィルタリングされたブロック121は、フィルタリングされた再構築されたブロック121と呼ばれることもある。他のまたはさらに別のフィルタがループに適用される場合がある。

ループフィルタユニット120の実施形態は、（図1には示されていない）フィルタ解析ユニットおよび実際のフィルタユニットを含むことができ、フィルタ解析ユニットは、実際のフィルタのループフィルタパラメータを決定するように構成される。フィルタ解析ユニットは、固定の所定のフィルタパラメータを実際のループフィルタに適用し、所定のフィルタパラメータのセットからフィルタパラメータを適応的に選択するか、または実際のループフィルタのフィルタパラメータを適応的に計算するように構成され得る。

ループフィルタユニット120の実施形態は、例えば直列または並列またはそれらの任意の組み合わせで接続された、（図1には示されていない）1つまたは複数のフィルタ（ループフィルタ構成要素／サブフィルタ）、例えば1つまたは複数の異なる種類またはタイプのフィルタを含むことができ、フィルタの各々は、例えば前の段落で説明したように、複数のフィルタの他のフィルタと個別にまたは一緒に、それぞれのループフィルタパラメータを決定するためのフィルタ解析ユニットを含むことができる。エンコーダ100の実施形態（それぞれループフィルタユニット120）は、例えば直接またはエントロピーエンコーディングユニット170または他の任意のエントロピーコーディングユニットを介してエントロピーエンコードされた、ループフィルタパラメータを出力するように構成されてもよく、その結果、例えば、デコーダ200は、デコーディングのために同じループフィルタパラメータを受信および適用することができる。

デコードされた画像バッファ（DPB）130は、フィルタリングされたブロック121を受け取って格納するように構成される。デコードされた画像バッファ130は、他の以前にフィルタリングされたブロック、例えば同じ現在の画像または異なる画像、例えば以前に再構築された画像の、以前に再構築およびフィルタリングされたブロック121を格納するようにさらに構成されてもよく、また、例えば相互推定および／または相互予測のために、完全に以前に再構築された、すなわちデコードされた画像（および対応する参照ブロックおよびサンプル）および／または部分的に再構築された現在の画像（および対応する参照ブロックおよびサンプル）を提供することができる。

本発明のさらなる実施形態はまた、任意の種類の推定または予測、例えば内部および相互の推定と予測のために、デコードされた画像バッファ130の以前にフィルタリングされたブロックおよび対応するフィルタリングされたサンプル値を使用するように構成され得る。

予測ユニット160は、ブロック予測ユニット160とも呼ばれ、画像ブロック103（現在の画像101の現在の画像ブロック103）およびデコードされたまたは少なくとも再構築された画像データ、例えばバッファ116からの同じ（現在の）画像の参照サンプルおよび／またはデコードされた画像バッファ130からの1つまたは複数の以前にデコードされた画像からのデコードされた画像データ231を受信または取得し、そのようなデータを予測のために処理する、すなわち予測ブロック165を提供するように構成され、これは、相互予測ブロック145または内部予測ブロック155であってもよい。

モード選択ユニット162は、残差ブロック105の計算および再構築されたブロック115の再構築のための予測ブロック165として使用される予測モード（例えば、内部または相互の予測モード）および／または対応する予測ブロック145または155を選択するように構成され得る。

モード選択ユニット162の実施形態は、（例えば、予測ユニット160によってサポートされるものから）予測モードを選択するように構成されてもよく、これは、最良の一致、言い換えれば、最小残差（最小残差は、送信または記憶のためのより良い圧縮を意味する）を提供する。または、最小のシグナリングオーバーヘッド（最小のシグナリングオーバーヘッドは、送信または保存のためのより良い圧縮を意味する）、または両方を考慮またはバランスする。モード選択ユニット162は、レート歪み最適化（RDO）に基づいて予測モードを決定する、すなわち、最小レート歪み最適化を提供する、または関連するレート歪みが少なくとも予測モード選択基準を満たす予測モードを選択するように構成され得る。

以下では、例示的なエンコーダ100によって実行される予測処理（例えば、予測ユニット160およびモード選択（例えば、モード選択ユニット162による））をより詳細に説明する。

上記のように、エンコーダ100は、（所定の）予測モードのセットから最良または最適な予測モードを決定または選択するように構成される。予測モードのセットは、例えば、内部予測モードおよび／または相互予測モードを含むことができる。

内部予測モードのセットは、32の異なる内部予測モード例えばDC（または平均）モードや平面モードなどの非指向性モード、または例えばH．264で定義されているように指向性モードを含むことができ、または65の異なる内部予測モード、例えばDC（または平均）モードや平面モードなどの非指向性モード、または例えばH．265で定義されているように指向性モードを含むことができる。

（可能性のある）相互予測モードのセットは、利用可能な参照画像（すなわち、以前に少なくとも部分的にデコードされた、例えばDBP230に格納された画像）および他の相互予測パラメータ、例えば参照画像全体または一部のみが、例えば参照ピクチャの現在のブロックの領域の周りの検索ウィンドウ領域が最もよく一致する参照ブロックを検索するために使用されるかどうか、ならびに／あるいは例えばピクセル補間、例えばハーフ/セミペルおよび／またはクォーターペル補間が適用されるかどうかに依存する。

上記の予測モードに加えて、スキップモードおよび／または直接モードが適用されてもよい。

予測ユニット160は、ブロック103をより小さいブロックパーティションまたはサブブロックに分割するように、例えば四分木分割（QT）、二分分割（BT）または三分木分割（TT）またはそれらの任意の組み合わせを繰り返し使用して、例えば、各ブロックパーティションまたはサブブロックの予測を行うようにさらに構成されてもよく、モード選択は、分割されたブロック103のツリー構造の選択と、ブロックパーティションまたはサブブロックの各々に適用される予測モードと、を含む。

画像間推定ユニット142とも呼ばれる相互推定ユニット142は、画像ブロック103（現在の画像101の現在の画像ブロック103）およびデコードされた画像231、または少なくとも1つまたは複数の以前に再構築されたブロック、例えば相互推定（または「画像間推定」）のために、1つまたは複数の他の／異なる以前にデコードされた画像231の再構築されたブロックを受け取る、または取得するように構成される。例えば、ビデオシーケンスは、現在の画像および以前にデコードされた画像231を含むことができ、言い換えれば、現在の画像および以前にデコードされた画像231は、ビデオシーケンスを形成する画像のシーケンスの一部であるか、またはそれを形成することができる。

エンコーダ100は、例えば、複数の他のピクチャの同じまたは異なるピクチャの複数の参照ブロックから参照ブロックを選択し、参照画像（または参照画像インデックス、…）および／または参照ブロックの位置（x、y座標）と現在のブロックの位置との間のオフセット（空間オフセット）を、相互推定パラメータ143として相互予測ユニット144に提供するように構成され得る。このオフセットは、動きベクトル（MV）とも呼ばれる。相互推定は動き推定（ME）とも呼ばれ、相互予測は動き予測（MP）とも呼ばれる。

相互予測ユニット144は、例えば、取得し、例えば相互予測パラメータ143を受信し、相互予測パラメータ143に基づいて、またはこれを使用して相互予測を実行し、相互予測ブロック145を取得するように構成される。

図1は、相互コーディングのための2つの別個のユニット（またはステップ）、すなわち、相互推定142および相互予測152を示すが、例えば現在可能な最良の相互予測モードとそれぞれの相互予測ブロックを保存しながら、可能な相互予測モードのすべてまたは所定のサブセットを繰り返しテストして、相互予測144をもう一度実行せずに、現在の最良の相互予測モードおよびそれぞれの相互予測ブロックを、（最終的な）相互予測パラメータ143および相互予測ブロック145として使用することによって、両方の機能は1つとして実行され得る（相互推定は、相互予測ブロック、すなわち相互予測154またはその種類を計算することを要求する／含む）。

内部推定ユニット152は、画像ブロック103（現在の画像ブロック）および1つまたは複数の以前に再構築されたブロック、例えば内部推定のために同じ画像の再構築された隣接ブロックを取得する、例えば受け取るように構成される。エンコーダ100は、例えば、複数の（所定の）内部予測モードから内部予測モードを選択し、それを内部推定パラメータ153として内部予測ユニット154に提供するように構成され得る。

エンコーダ100の実施形態は、例えば、最適化基準、例えば最小残差（例えば、現在の画像ブロック103に最も類似した予測ブロック155を提供する内部予測モード）または最小レート歪みに基づいて内部予測モードを選択するように構成され得る。

内部予測ユニット154は、内部予測パラメータ153、例えば選択された内部予測モード153に基づいて内部予測ブロック155を決定するように構成される。

図1は、内部コーディングのための2つの別個のユニット（またはステップ）、すなわち、内部推定152および内部予測154を示すが、例えば現在可能な最良の内部予測モードとそれぞれの内部予測ブロックを保存しながら、可能な内部予測モードのすべてまたは所定のサブセットを繰り返しテストして、内部予測154をもう一度実行せずに、現在の最良の内部予測モードおよびそれぞれの内部予測ブロックを、（最終的な）内部予測パラメータ153および内部予測ブロック155として使用することによって、両方の機能は1つとして実行され得る（内部推定は、内部予測ブロック、すなわち内部予測154またはその種類を計算することを要求する／含む）。

エントロピーエンコーディングユニット170は、エントロピーコーディングアルゴリズムまたはスキーム（例えば、可変長コーディング（VLC）スキーム、コンテキスト適応VLCスキーム（CALVC）、算術コーディングスキーム、コンテキスト適応バイナリ算術コーディング（CABAC））を、量子化された残差係数109、相互予測パラメータ143、内部予測パラメータ153、および／またはループフィルタパラメータに対して個別にまたは共同で適用して（または全く適用しないで）、出力172によって出力することができるエンコードされた画像データ171を例えばエンコードされたビットストリーム171の形で取得するように構成される。

図2は、例えばエンコーダ100によりエンコードされた、エンコードされた画像データ（例えば、エンコードされたビットストリーム）171を受信して、デコードされた画像231を取得するように構成された例示的なビデオデコーダ200を示している。

デコーダ200は、入力202、エントロピーデコーディングユニット204、逆量子化ユニット210、逆変換ユニット212、再構築ユニット214、バッファ216、ループフィルタ220、デコードされた画像バッファ230、予測ユニット260、相互予測ユニット244、内部予測ユニット254、モード選択ユニット260および出力232を含む。

エントロピーデコーディングユニット204は、エンコードされた画像データ171に対してエントロピーデコーディングを実行して、例えば量子化係数209および／またはデコードされたコーディングパラメータ（図2には図示せず）、例えば（デコードされた）相互予測パラメータ143、内部予測パラメータ153、および／またはループフィルタパラメータのいずれかまたはすべてを取得するように構成される。

デコーダ200の実施形態では、逆量子化ユニット210、逆変換ユニット212、再構築ユニット214、バッファ216、ループフィルタ220、デコードされた画像バッファ230、予測ユニット260およびモード選択ユニット260は、エンコーダ100（およびそれぞれの機能ユニット）の逆処理を実行して、エンコードされた画像データ171をデコードするように構成される。

特に、逆量子化ユニット210は機能において逆量子化ユニット110と同一であってもよく、逆変換ユニット212は機能において逆変換ユニット112と同一であってもよく、再構築ユニット214は機能において再構築ユニット114と同一であってもよく、バッファ216は機能においてバッファ116と同一であってもよく、ループフィルタ220は機能においてループフィルタ220と同一であってもよく（実際のループフィルタに関しては、ループフィルタ220は通常、元の画像101またはブロック103に基づいてフィルタパラメータを決定するフィルタ解析ユニットを含んでいないが、例えばエントロピーデコーディングユニット204からエンコーディングに使用されるフィルタパラメータを（明示的または暗黙的に）受け取るまたは取得する）、デコードされた画像バッファ230は機能においてデコードされた画像バッファ130と同一であってもよい。

予測ユニット260は、相互予測ユニット244および相互予測ユニット254を含むことができ、相互予測ユニット144は、機能において相互予測ユニット144と同一であってもよく、相互予測ユニット154は、機能において内部予測ユニット154と同一であってもよい。予測ユニット260およびモード選択ユニット262は、通常、ブロック予測を実行し、および／または（元の画像101に関するさらなる情報なしで）エンコードされたデータ171のみから予測ブロック265を取得し、例えばエントロピーデコーディングユニット204から予測パラメータ143もしくは153および／または選択された予測モードについての情報を（明示的または暗黙的に）受け取るまたは取得するように構成される。

デコーダ200は、ユーザへの提示または閲覧のために、例えば出力232を介してデコードされた画像230を出力するように構成されている。

上記のように、一部の画像およびビデオコーデックは量子化変換係数をコーディングする。非ゼロ変換係数には符号が付けられる。つまり、絶対値とプラス符号またはマイナス符号のどちらかで構成される。1つの係数の符号のコーディングには、正または負の符号を示す1ビットが必要である。言い換えると、符号ビット値0は正の符号を示し、符号ビット値1は負の符号を示すか、またはその逆である。

最先端のビデオコーディング標準規格では、量子化された変換係数の符号のエントロピーコーディングを使用していない。H．264／AVCおよびH．265／HEVCでは、符号データは確率が等しいとみなされるため（正と負の符号は等しい確率で発生）、CABACバイパスモードでエンコードされる。しかし、再構築されたブロック間の不連続性を解析することにより、符号データが予測され得る。不連続性を小さくする量子化変換係数の符号は、不連続性を増加させるものよりも確率が高くなる。K．Kazui et al．“Video coding technology proposal by Fujitsu”，Contribution JCTVC－A115 to the 1st JCT－VC meeting，Dresden，Germany，April 2010（以下ではJCTVC－A115と呼ぶ）および米国特許出願公開第2017／0142444 A1号（以下ではUS’444と呼ぶ）などのいくつかの方法はこの統計的特性に基づいており、両方とも参照により本明細書に組み込まれる。

JCTVC－A115の技法を図4に示す。それは、現在のブロック410における変換係数の符号を隣接ブロック（この例では、現在のブロック410の上部、左上、左側のブロックでは、以前に処理された、つまりコード化またはデコードされた隣接ブロック）のピクセルから推定し、推定された符号と元の符号との差（0：同じ、1：同じではない）をCABACによってエンコードする。符号が十分に推定（予測）されている場合、差はゼロになる傾向があり、CABACによってコーディング効率が向上され得る。

一般に、現在のブロック410の境界にあるピクセルAと、隣接するブロックの側の同じ境界にあるピクセルとの間には高い相関がある。この特性は、現在のブロック410における変換係数の符号を予測するために使用される。現在のブロック410で予測されるM個の非ゼロ係数（C（1）、C（2）、…、C（M））の符号があると仮定すると、これらの符号（S_K（1），S_K（2），…，S_K（M））の可能な組み合わせKの数は2^Mである。組み合わせの範囲は、（＋、＋、…、＋）から（－、－、…、－）である。この例では、変換係数はDCT（離散コサイン変換）係数である。係数は、レベルの絶対値（符号なしの値、つまり大きさ）と符号の組み合わせKを含めて決定され、ピクセル領域に逆変換されて逆量子化（つまり、スケーリングおよび丸め）され、残差の量子化ブロック440（予測誤差）が得られる。ピクセル領域の予測誤差440は、残差ブロック420を得るために予測ブロック430に加えられる。現在のブロック410の上側境界および左側境界で再構築された境界ピクセルBは、隣接ブロックから外挿されたピクセルA（図4の矢印で示されている）と比較される。これは、Kのすべての組み合わせに対して実行される。ピクセルAとBとの間の二乗誤差を最小にする符号の組み合わせKが、推定された符号として定義される。絶対差の合計を最小化することも適用できる。

JCTVC－A115で提案されている方法と従来のH．264／AVC符号コーディングの比較を図5に示し、JCTVC－A115の方法で実行される特定のステップを以下の表1にまとめる。

図5の上部に示されているように、従来のH．264／AVC手法は、CABACバイパスコーディングによってすべての符号をコーディングしていた。

図6は、現在のブロック610と、現在のブロック610の上部のピクセル630と、現在のブロック610の左側のピクセル620と、の詳細図を示す。ピクセル630、620は、隣接ブロックに属する。

空間（ピクセル）領域では、コスト関数Fは次のように定義される。

ここで、NおよびMはそれぞれブロックの高さと幅である。式1からわかるように、i＝0．．Nおよびj＝0．．Mのピクセル値Y_i，0およびY_0，jが、それぞれの隣接ブロックとの境界に最も近い隣接ブロック内の2つの行（Z_1，jおよびZ_2，j）および列（X_i，－2およびX_i，－1）のピクセルと同様の値である場合には、コスト関数Fは低い値になる。

上記の要約された文書で提案された手法は、逆推定を使用して符号推定を実行するが、これは、ピクセル値の差を使用して、チェックされた仮説（特定の組み合わせKに対応する仮説）によって決定される所定の符号のセットのコスト関数値Fを計算するためである。高速な推定方法の存在にもかかわらず、空間領域への移行は依然として計算コストが高く、これらの方法の主要な欠点であると考えられている。

これを考慮して、本開示は、符号予測を実行するために必要とされる演算の数の低減を提供することができるいくつかの実施形態を提供する。これは、空間領域で計算するのではなく、変換領域でコスト推定を計算することによって達成され得る。

特に、一実施形態によれば、処理回路を含む、画像ブロックをデコードするための装置が提供され、処理回路は、変換された画像ブロックに隣接する隣接ピクセル間の変換された差と、画像ブロックの予測信号に基づいて計算された隣接ピクセルの予測と、を含むコスト関数に基づいて、変換された画像ブロックの複数の係数の符号を予測し、予測された符号に従って複数の係数の符号を再構築するように構成される。

複数の係数は、限定された数M個の非ゼロ係数であってもよいことに留意されたい。上述のように、M個の係数は、現在のブロックの係数の中で最大の大きさを有するM個の係数であってもよい。しかしながら、本開示はこれに限定されず、M個の係数は、所定の順序での現在のブロックにおけるM個の最初の非ゼロ係数であってもよい。所定の順序は、それを標準で定義するか、または標準で、例えばビットストリーム内のシグナリングによって、または予測モードなどのビットストリーム内のいくつかの異なるパラメータから暗黙的に導き出せる構成可能な一連のスキャン順序を定義することによって予め決定され得るスキャン順序であってもよい。あるいは、スキャン順序はビットストリームで完全にシグナリングされてもよい。係数は、量子化が適用される場合、通常、既に量子化された係数である。

したがって、前述の図4とは逆に、予測信号430は再構築された残差440に追加されず、代わりに、隣接するピクセル値から差し引かれるが、それは逆変換が実行されず、したがって再構築された残差信号440が使用されないからである。具体的には、再構築された境界ピクセルを取得するために残差信号の逆変換を実行する代わりに、現在のブロックに隣接するピクセルと隣接ピクセルの領域に外挿された現在のブロックの予測信号のピクセルとの間の差に対して順変換が実行される。

さらに、例示的な実施態様によれば、例えば、コスト関数は、変換された画像ブロックに隣接する隣接ピクセル間の二乗変換差の合計と、画像ブロックの予測信号に基づいて計算された隣接ピクセルの予測と、を含む。

正方ノルムを採用することは、パーセヴァルの等式から得られる利点を有する。パーセヴァルの等式によると、直交変換（離散コサイン変換（DCT）や離散サイン変換（DST）など）の変換領域で計算された差の二乗（SSD）の合計は、空間（ピクセル）領域で計算されたSSDと同じ結果を与える。したがって、提案された手法のコーディング効率は、JCTVC－A113およびUS’444を参照して上記で説明した手法の効率よりも低くなることはない。

符号予測は変換領域で実行されるため、上記の実施形態は、逆変換を実行するために必要な計算を排除することにより、計算の複雑さが大幅に少なくなる可能性がある。その結果、この実施形態の実施態様は、ハードウェアに優しくなり、追加のRAMおよびROMメモリバッファを必要としない。さらに、変換を実行するための順変換モジュール106が再利用され得る。ラインバッファから境界ピクセルを1回フェッチするだけで済む。

一実施形態によれば、符号予測誤差は、等確率符号値コーディング（バイパス）を使用する代わりに、CABACコンテキストモデルでもコーディングされる。しかしながら、エンコーダ側とデコーダ側の両方で同様に実行される符号推定手順は、上記の図4および図5を参照して説明した手順とは異なる方法で実行される。

上述の実施形態の例示的な実施態様の概略図を図7に見ることができる。この実施態様の特殊性は次のとおりである。
符号予測は変換領域で実行され、
予測信号は、現在のブロックを再構築し、隣接するブロックの対応するピクセルからその境界ピクセルを減算する代わりに、隣接ブロック領域に伝搬される。

簡単にするため、図7では隣接ブロックの列のみが考慮されている。

本実施形態が適用されるフレームワークに応じて、上行、右列、または下行を使用することもできる。言い換えれば、符号予測は、利用可能な境界ピクセルを使用することができる。上記の例では、使用可能なブロックは、上、左、左上のブロックであると仮定している。これは、現在のコーデックで通常行われているように、ブロックの処理順序が左から右、上から下に進むという仮定に対応している。一般に、デコーダでは、以前にデコードされた任意の隣接ブロックが（デコード順に）使用され得る。同様に、エンコーダでは、以前にエンコードされた隣接ロックが使用され得る。

実施形態の一実施態様では、係数（絶対差の合計）の代わりにピクセル差の二乗を使用するようにコスト関数Fが再定義される。

ここで、NおよびMはブロックの高さおよび幅であり、X、Y、Zの定義は図6で説明したものと同じである。

再構築されたブロック710は、予測720と残差730の部分から構成される。
Y_i，j＝P_i，j＋R_i，j
ここで、P_i，jは位置i、jでの予測ピクセルであり、R_i，jは位置i、jでの予測誤差ピクセル（残差）である。

この場合、式1aの成分を次のように再配置することができる。

以下のように表す。
T_n＝［2X_n，－1－X_n，－2－P_n，0］，
V_m＝［2Z_－1，m，－Z_－2，m－P_0，m］，
Q_n＝R_n，0and O_m＝R_0，m

パーセヴァルの等式によれば、式1aの関数Fは変換領域で次の式2のように書き換えることができる。

上の式2では、
t_n＝Trans1D（T_n），
q_n＝Trans1D（Q_n），
v_n＝Trans1D（V_n），および
o_n＝Trans1D（O_n），
ここで、Trans1D（．）は1次元直交変換である。

その結果、コスト関数を計算することができるので、量子化された変換係数の符号を変換領域で予測することができる。

q_n，o_nと残差r_n，m＝Trans2D（R_n，m）の2次元変換との関係を決定するために、R_n，mとr_n，mの関係を一般的な形式で書く。

ここで、

は変換コア（基底関数）である。例えば、2次元DCT（DCT2）の基底関数は次のとおりである。

さらに、次の式3は、現在のブロックの列の残差を、ピクセル領域（Q_n）および変換領域（q_k）の隣接ブロックとの境界でそれぞれ定義する。

上記の最初の方程式は、Q_nピクセル（Q_nの定義による）を復元するr_k，lの逆変換である。変換コアWはここでは直交である。つまり、順変換（2番目の式）と逆変換（1番目の式）は一致する。Q_nの1D変換（最初の等号）を実行する必要はない。物理的に、q_kはr_k，l（2番目の等号）の逆1D変換である。

o_n（列）とr_n，mの場合、同様の関係がある。特に、q_k（行係数）はW^0，lr_k，lに対応し、o_n（列係数）はW^m，0r_k，lに対応する。これに対応して、ゼロインデックスは、q_kと比較するとoの場合、その位置を変更するだけである。

したがって、式2の上記のコスト関数Fは、周波数領域で完全に計算され得る。これに基づいて、複数の係数の符号の予測が計算される。

画像ブロックをデコードするための装置では、処理回路は、コーディングされたストリーム符号予測誤差から解析し、解析された符号予測誤差を予測された符号に追加することを含む符号を再構築するようにさらに構成され得る。

図7は、図4を参照して前述したアプローチの比較を示している。特に、符号710、720、730は、それぞれの符号420、430、440に対応し、それぞれ、再構築されたブロック、予測ブロック、および残差ブロックを示す。図1と同様に、残差ブロックは、ブロックAの変換係数に対してM個の符号のK番目の仮説（符号の組み合わせ）を取り、符号を使用して係数を逆変換および逆量子化することによって得られる（ブロックIQ＋IDCT）。

テストされた仮説ごとにそのような逆変換および逆量子化を回避するために、図7は、本実施形態の手法を示している。特に、ブロックA（隣接ブロック740へのブロックAの境界における列q_nに対応する）の係数は、変換された差分列B_colと比較される。変換された差分列B_col（t_nに対応する）は、隣接ブロック列770から伝搬された予測信号760を差し引いて、ピクセル領域で差分信号750を取得し、差分信号750を変換された差分に変換することによって得られる。変換は、スペクトル領域への変換などの直交変換であり、例えば、DFT、FFT、DCT、DST、またはそれらの整数バージョンである。差分信号750は、T_n＝［2X_n，－1－X_n，－2－P_n，0］に対応し、隣接ブロックからの伝搬された予測770は（2X_n，－1－X_n，－2）であり、ブロック790の予測760はP_n，0である。伝搬された予測770は、X_n，－2とX_n，－1との間の勾配によって決定される外挿された部分、すなわち隣接ブロックの境界上の2つの列として得られる。

次に、図7のAとBの比較は、変換領域で次のコスト関数によって実行される。

上記のコスト関数からわかるように、これは上記の式2のコスト関数Fに対応するが、左の隣接ブロックに基づく列部分に限定され、上部の隣接ブロックに基づく行部分は省略される。これは説明を簡単にするための例にすぎない。当業者には明らかであるように、任意の隣接ブロックが類似の方法で比較のために使用されてもよい。

一般に、この実施形態によれば、処理回路は、変換された画像ブロックの複数の係数の符号を予測するようにさらに構成され、
変換された画像ブロックに隣接する隣接ピクセル770間の変換された差Bと、画像ブロック790の予測信号Pに基づいて計算された隣接ピクセルの予測760と、を計算し、
変換された差Bと、一組の仮説K＝1．．2＾Mからの符号S_K（i），i＝0．．M－1の各仮説Kに従って決定された変換された画像ブロックAと、の二乗された変換された差の合計を含むコスト関数Fを計算し、
予測される符号として、コスト関数F（予測された符号＝arg min_KF）によって与えられるコストを最小にする符号のその仮説Kを選択することを含む。

例えば、変換された画像ブロックAは、コーディングされたビットストリームから解析された係数C（i）に符号S_K（i）の仮説を追加することによって再構築される。これは、K個の仮説をテストして、コスト関数を最小化する最良の仮説を見つけるために使用される。その仮説は、ブロックAの予測される符号になる。さらに、ブロックAの符号を取得するために、予測された符号が符号予測誤差に追加され、これは、コンテキスト適応型バイナリ算術コーディングCABACを使用してビットストリームからデコードされ得る。

既に上で説明したように、特定の例示的な実施態様では、コスト関数Fは次式で与えられ、

隣接ピクセルは、画像ブロックの水平境界および垂直境界に配置され得ることに留意されたい。垂直境界は左側または右側の境界であってもよく、水平境界は上側の境界であってもよい。これは、現在のブロックを処理（デコード）するときに、上側と左側（および／または右側）の隣接ブロックが既にデコードされている場合に有益である。しかしながら、本開示は、そのような実施形態に限定されない。一般に、現在のブロックをデコーディングするときに既にデコードされた（したがって利用可能である）1つまたは複数の隣接ブロックが符号を予測するために使用され得る。次に、コスト関数Fは、それぞれの利用可能な隣接ブロックからのそれらの境界ピクセルに関する現在のブロックピクセルの対応する平滑性チェックを含む。

図8は、一実施形態によるエンコーディングのフローチャートを示す。

変換されたおよび量子化された残差に対応する量子化された変換係数801は、US’444に記載されているのと同様に動作するコンテキスト決定プロセス802によって使用される。

US 444は、符号の推定に関するさらなる詳細を提供している。例えば、それは、予測された符号をエンコードするための上記の表1のステップ3とは異なる方法を示している。この変更は、予測された符号の2つのリストの導入によって実施される（表1のステップ1の変更）。これらの2つのリストに属する予測された符号は、異なるCABACコンテキストでエンコードされる。これらのリストに入力するために、以下のルールが指定されている。
最初のリストには、所定のしきい値T₁より大きい大きさを有する係数の符号が入力される。最初のリストの符号の総数は、所定の値Mによって制約される。
最初のリストの符号の数nがM未満の場合には、2番目のリストに入力される。2番目のリストの符号の総数は（M－n）によって制約されるため、両方のリストの符号の総数はMを超えない。2番目のリストを埋める係数は、それらの位置によってラスター順に並べ替えられ、その大きさはT₁より大きくなることはない。

符号をエンコードするコンテキストは、それが最初のリストに属しているか、2番目のリストに属しているかによって決定される（表1のステップ3の違い）。

このプロセスの結果802は、これらの係数位置に関連する係数およびコンテキストCx_jの一組の候補位置である。その後に、US’44のような特別な機構が、設定された符号予測に属する位置のどれを実行するかを選択する（つまり、符号予測のためのM個の係数が選択される）。選択されなかった位置については、従来の符号エンコーディングプロセス809が実行される。他の場合（選択されたM個の係数について）、図7ならびに式2および式3に従って、上述のように符号予測が実行される806。

特に、符号806を予測するために、隣接ブロックの再構築されたピクセルが必要である。現在再構築されたブロック804の予測信号のピクセルが、隣接ピクセルフェッチプロセス803によって提供された隣接ピクセルから差し引かれる。1D変換805が、式2で使用されるt_nおよびv_mを提供する。変換された残差符号806の予測は、式3によるq_nおよびo_nの計算、ならびに式2によるコスト関数の値の取得を含む。

変換領域での計算は、t_nおよびv_mの使用可能なすべての係数がコスト関数の計算に使用されるわけではないため、計算がより簡単である。代わりに、方法は特定の行および／または特定の列に属するいくつかの係数のみを使用する。この行と列は、係数の位置の対応するインデックスであり、その符号が予測されている。式2のコスト関数を最小化する符号のセットは、コスト計算ブロック807によって生成される。次に、符号予測誤差が計算され、M個の係数の実際の符号と係数の予測された符号との差に対応する。符号予測誤差は、プロセスブロック208でコンテキストCx_jを使用してエントロピーエンコードされる。結果のビットは、従来の符号エンコーディング809の結果と結合され、811のプロセスでビットストリームに埋め込まれる。

言い換えれば、デコーダに加えて、処理回路を含む、画像ブロックをエンコードするための装置が提供され、処理回路は、変換された画像ブロックに隣接する隣接ピクセル間の変換された差と、画像ブロックの予測信号に基づいて計算された隣接ピクセルの予測と、を含むコスト関数に基づいて、変換された画像ブロックの複数の係数の符号を予測し、予測された符号に従って複数の係数の符号をエンコードするように構成される。

複数の係数は、上述のM個の係数に対応することができる。Mの値は固定されてもよいし、大きさが特定のしきい値を超える係数の数によって与えられてもよい。上記の例では、複数のMはすべての非ゼロ係数よりも小さいことにさらに留意されたい。しかし、原則として、符号予測はすべての非ゼロ符号にも適用され得る。有利な実施態様によれば、符号が予測されるM個の係数は、現在のブロックの非ゼロ係数の中で最大の大きさを有するM個の係数である。

係数の上記のエンコーディングは、複数の係数の符号と複数の係数の予測された符号との間の差として符号予測誤差を決定し、次に、コーディングされた画像ブロックを含むコーディングされたストリームに、決定された符号予測誤差を挿入することによって実行され得る。コーディングされたストリームは、現在のブロックの画像データ、ならびに現在のブロックがコーディングされるモードに関する他のシグナリング情報、および／または静止画像またはビデオ画像のさらなるブロックも含むビットストリームであってもよい。

符号のデコーディングに関しても説明したように、一実施形態のコスト関数は、変換された画像ブロックに隣接する隣接ピクセル間の二乗変換差の合計と、画像ブロックの予測信号に基づいて計算された隣接ピクセルの予測と、を含む。特に、この実施形態では、エンコーディング装置処理回路は、変換された画像ブロックの複数の係数の符号を予測するように構成され、変換された画像ブロックに隣接する隣接ピクセル間の変換された差と、画像ブロックの予測信号に基づいて計算された隣接ピクセルの予測と、を計算し、前記変換された差と、一組の仮説からの符号の各仮説に従って再構築された変換された画像ブロックと、の二乗された変換された差の合計を含むコスト関数を計算し、予測される符号として、コスト関数によって与えられるコストを最小にする符号のその仮説を選択することを含むことができる。

一組の仮説は、M個の符号の組み合わせKによって形成され、すべての可能な組み合わせ（つまり、2のM乗の組み合わせ）を含むことができる。エンコーダは、M個の符号以外の残りの変換係数符号をバイナリコーディングでコーディングする処理回路（1の正符号と0の負符号、またはその逆）をさらに含む。

コスト関数Fは、デコーダと同じ方法で与えられ得る、すなわち、

エンコーダの処理回路は、コンテキスト適応型バイナリ算術コーディングCABACを使用して符号予測誤差をコーディングするようにさらに構成され得る。しかしながら、本開示は、CABACを使用することに限定されない。エントロピーコーディングの代わりに、対応するシンボルがCAVLCやVLCコーディングなどのそれぞれのコードワードでエンコードされる確率にコードワードの長さを適応させる。

図1のエンコーダなどのエンコーダにおける上記の実施形態の例示的な実施態様が図9に示されている。特に、新しく導入されたモジュール122は符号予測を実行し、修正されたモジュール970はエントロピーエンコーディングを実行する。

CABACコンテキストを使用してエンコードされる符号の位置は、量子化された係数の大きさに基づいて定義され、したがって、符号予測122は、量子化プロセス108の結果を使用する。エントロピーコーディングモジュール970は、2つの修正を含む。
符号予測誤差123は、量子化された変換係数のブロック109内のM個の所与の位置のセットの符号値の代わりにエンコードされる。
エントロピーエンコーダ970で符号予測誤差123をエンコードするために適用される新しいコンテキストが導入され、出力971が得られる。

図2のデコーダなどのデコーダにおける上記の実施形態の例示的な実施態様が図10に示されている。

図10のデコーダは、対応する新しい符号予測モジュール122および修正されたエントロピーデコーディングモジュール1004を有する。符号予測モジュール122は、少なくとも符号予測計算（図9を参照）に関してエンコーダ側で使用されているものと実質的に同じであるが、ビットストリーム971から解析された予測誤差信号123を使用する。符号予測123は、量子化変換係数209のブロック内の大きさの分布によって定義される（M個の）位置に位置する量子化変換係数209の符号のいくつか（M個）を復元する。解析プロセス（エントロピーデコーディング1004）中に、符号予測誤差信号123のみが復元され、符号自体は復元されない。実際の符号値および位置は、解析プロセス1004が完了した後に、具体的には、逆量子化プロセス210と並行して、予測誤差信号123から復元できるため、本実施形態は解析依存性を導入しない。

解析された符号予測誤差123は、ブロック122の予測された符号に追加され、その結果、デコードされた（再構築された）符号209が得られる。予測された符号は、エンコーダでの方法と同じ方法で取得され、既にデコードされた隣接ブロックのみを使用して、M個の符号のK個の仮説をテストする。

この明細書は画像（フレーム）についての説明を提供しているが、インターレース画像信号の場合、フィールドが画像として置き換えられることに留意されたい。

本発明の実施形態は、主にビデオコーディングに基づいて説明されたが、エンコーダ100およびデコーダ200（および対応してシステム300）の実施形態は、静止画像処理またはコーディング、すなわち、ビデオコーディングの場合のように、先行するまたは連続する画像から独立した個々の画像の処理またはコーディングにも構成され得ることに留意されたい。一般に、画像処理コーディングが単一の画像101に限定される場合、相互推定142、相互予測144、242のみが利用可能ではない。ビデオエンコーダ100およびビデオデコーダ200の他のすべてではないにしてもほとんどの機能（ツールまたは技術とも呼ばれる）、例えば、分割、変換（スケーリング）106、量子化108、逆量子化110、逆変換112、内部推定142、内部予測154、254および／またはループフィルタリング120、220、ならびにエントロピーコーディング170およびエントロピーデコーディング204が、静止画像について等しく使用され得る。

当業者は、様々な図面（方法および装置）の「ブロック」（「ユニット」）が（必ずしもハードウェアまたはソフトウェアの個々の「ユニット」ではなく）本発明の実施形態の機能を表すまたは説明しており、したがって、装置の実施形態ならびに方法の実施形態（ユニット＝ステップ）の機能または特徴を等しく説明していることを理解するであろう。

「ユニット」の用語は、エンコーダ／デコーダの実施形態の機能の例示目的のために単に使用され、本開示を限定することを意図しない。

本出願で提供されるいくつかの実施形態では、開示されたシステム、装置、および方法は、他の方法で実施できることを理解されたい。例えば、記載された装置の実施形態は単なる例示にすぎない。例えば、ユニット分割は単なる論理機能の分割であって、実際の実施態様では他の分割であってもよい。例えば、複数のユニットまたは構成要素は、組み合わせてもよいし、あるいは別のシステムに統合してもよいし、あるいはいくつかの特徴は無視してもよいし、実行しなくてもよい。さらに、表示または説明された相互結合または直接結合または通信接続は、いくつかのインターフェースを用いて実現されてもよい。装置またはユニット間の間接結合または通信接続は、電子的、機械的、または他の形態で実現されてもよい。

個別の部品として記載されたユニットは物理的に分離されてもよいし、されなくてもよく、ユニットとして表示された部品は物理的なユニットであってもよいし、そうでなくてもよく、物理的なユニットは1つの場所に配置されてもよいし、複数のネットワークユニット上に分散されてもよい。ユニットの一部または全部は、実施形態の解決策の目的を達成するための実際の必要に従って選択することができる。

さらに、本発明の実施形態における機能ユニットは、1つの処理ユニットに統合してもよいし、あるいはユニットの各々が物理的に単独で存在してもよいし、あるいは2つ以上のユニットが1つのユニットに統合されてもよい。

本発明の実施形態は、装置、例えばエンコーダおよび／またはデコーダをさらに含んでもよく、それは本明細書に記載の方法および／またはプロセスのいずれかを実行するように構成された処理回路を含む。

エンコーダ100および／またはデコーダ200の実施形態ならびに他の実施形態は、ハードウェア、ファームウェア、ソフトウェアまたはそれらの任意の組み合わせとして実施されてもよい。例えば、エンコーダ／エンコーディングまたはデコーダ／デコーディングの機能は、ファームウェアもしくはソフトウェアを有するか有さない処理回路、例えばプロセッサ、マイクロコントローラ、デジタル信号プロセッサ（DSP）、フィールドプログラマブルゲートアレイ（FPGA）、特定用途向け集積回路（ASIC）などによって実行されてもよい。

エンコーダ100（および対応するエンコーディング方法100）および／またはデコーダ200（および対応するデコーディング方法200）の機能は、コンピュータ可読媒体に格納されたプログラム命令によって実施されてもよい。プログラム命令は、実行されると、処理回路、コンピュータ、プロセッサなどに、エンコードおよび／またはデコード方法のステップを実行させる。コンピュータ可読媒体は、ブルーレイディスク、DVD、CD、USB（フラッシュ）ドライブ、ハードディスク、ネットワーク経由で利用可能なサーバーストレージなど、プログラムが格納される非一時的な記憶媒体を含む任意の媒体であり得る。

本発明の実施形態は、コンピュータ上で実行されたときに、本明細書に記載された方法のいずれかを実行するためのプログラムコードを含むコンピュータプログラムを含むか、またはそのコンピュータプログラムである。

本発明の実施形態は、プロセッサによって実行されると、コンピュータシステムに本明細書に記載の方法のいずれかを実行させるプログラムコードを含むコンピュータ可読非一時的媒体を含むか、またはそのコンピュータ可読非一時的媒体である。

要約すると、本開示は、例えば、画像および／またはビデオのコーディングおよびデコーディングに適用可能な変換係数の符号をコーディングおよびデコーディングするための実施形態を提供する。特に、複数の符号が予測され、予測誤差信号のみがビットストリームに埋め込まれる。予測誤差信号は、CABACまたは別の可変長（エントロピー）コーディングで効率的にコーディングされ得る分布を有することができる。符号の予測を効率的に行うために、変換された画像ブロックに隣接する隣接ピクセル間の変換された差と、画像ブロックの予測信号に基づいて計算された隣接ピクセルの予測と、を含むコスト関数に基づいて、変換された画像ブロックの複数の係数の符号が予測される。

100 エンコーダ
103 画像ブロック
102 入力（例えば入力ポート、入力インターフェース）
104 残差計算［ユニットまたはステップ］
105 残差ブロック
106 変換（例えばスケーリングをさらに含む）［ユニットまたはステップ］
107 変換された係数
108 量子化［ユニットまたはステップ］
109 量子化係数
110 逆量子化［ユニットまたはステップ］
111 逆量子化係数
112 逆変換（例えばスケーリングをさらに含む）［ユニットまたはステップ］
113 逆変換されたブロック
114 再構築［ユニットまたはステップ］
115 再構築されたブロック
116 （ライン）バッファ［ユニットまたはステップ］
117 参照サンプル
120 ループフィルタ［ユニットまたはステップ］
121 フィルタリングされたブロック
130 デコードされた画像バッファ（DPB）［ユニットまたはステップ］
142 相互推定（または画像間推定）［ユニットまたはステップ］
143 相互推定パラメータ（例えば参照画像／参照画像インデックス、動きベクトル／オフセット）
144 相互予測（または画像間予測）［ユニットまたはステップ］
145 相互予測ブロック
152 内部推定（または内部画像推定）［ユニットまたはステップ］
153 内部予測パラメータ（例えば内部予測モード）
154 内部予測（フレーム／画像内予測）［ユニットまたはステップ］
155 内部予測ブロック
162 モード選択［ユニットまたはステップ］
165 予測ブロック（相互予測ブロック145または内部予測ブロック155）
170 エントロピーエンコーディング［ユニットまたはステップ］
171 エンコードされた画像データ（例えばビットストリーム）
172 出力（出力ポート、出力インターフェース）
231 デコードされた画像
200 デコーダ
171 エンコードされた画像データ（例えばビットストリーム）
202 入力（ポート／インターフェース）
204 エントロピーデコーディング
209 量子化係数
210 逆量子化
211 逆量子化係数
212 逆変換（スケーリング）
213 逆変換されたブロック
214 再構築（ユニット）
215 再構築されたブロック
216 （ライン）バッファ
217 参照サンプル
220 ループフィルタ（ループフィルタ内）
221 フィルタリングされたブロック
230 デコードされた画像バッファ（DPB）
231 デコードされた画像
232 出力（ポート／インターフェース）
244 相互予測（フレーム／画像間予測）
245 相互予測ブロック
254 内部予測（フレーム／画像内予測）
255 内部予測ブロック
260 モード選択
265 予測ブロック（相互予測ブロック245または内部予測ブロック255）
300 コーディングシステム
310 送信元デバイス
312 画像ソース
313 （未加工）画像データ
314 プリプロセッサ／前処理ユニット
315 前処理された画像データ
318 通信ユニット／インターフェース
320 宛先デバイス
322 通信ユニット／インターフェース
326 ポストプロセッサ／後処理ユニット
327 後処理された画像データ
328 表示装置／ユニット
330 送信/受信/通信（エンコード）された画像データ
410 現在のブロック
420 再構築されたブロック
430 予測ブロック
440 予測誤差ブロック
510 係数の絶対レベルによる係数の符号のソーティング
520 符号推定
530 CABACエンコーディング
540 バイパスエンコーディング
610 現在のブロック
620 隣接ピクセル列
630 隣接ピクセル行
710 再構築されたブロック
720 ピクセル領域の予測ブロック
730 ピクセル領域の残差ブロック
740 現在のブロックの左側に隣接するブロック
750 差分信号
760 伝搬された予測
770 隣接ブロック列
790 現在のブロック
801 残差
802 コンテキストの決定
803 隣接ブロックのラインを取得
804 ピクセル領域での予測
805 変換
806 符号予測
807 コスト関数の評価
808 符号予測誤差のコーディング
809 予測なしの符号のコーディング
811 コード化された符号と符号予測誤差をビットストリームに埋め込む
122 符号予測
123 符号予測誤差
970 エントロピーコーディング
971 エンコードされた画像データ
1004 エントロピーデコーディング
209 再構築された符号

Claims

処理回路を含む、画像ブロックをデコードするための装置であって、前記処理回路は、
変換された画像ブロックに隣接する隣接ピクセル（770）と、前記画像ブロックの予測信号（790）に基づいて計算された前記隣接ピクセルの予測（760）との間の1次元直交変換された差（B）を含むコスト関数（F）に基づいて、前記変換された画像ブロック（A）の複数の係数の符号を予測（122）し、
前記予測された符号に従って前記複数の係数の前記符号を再構築する
ように構成される、画像ブロックをデコードするための装置。
前記処理回路は、
コーディングされたストリーム符号予測誤差から解析（1004）し、
前記解析された符号予測誤差を前記予測された符号に追加することを含む前記符号（209）を再構築する
ようにさらに構成される、請求項1に記載の画像ブロックをデコードするための装置。
前記コスト関数は、前記変換された画像ブロックに隣接する隣接ピクセルと、前記画像ブロックの予測信号に基づいて計算された前記隣接ピクセルの前記予測との間の二乗された1次元直交変換された差の合計を含む、請求項1または2に記載の画像ブロックをデコードするための装置。
前記処理回路は、変換された画像ブロックの前記複数の係数の前記符号を予測するようにさらに構成され、
前記変換された画像ブロックに隣接する前記隣接ピクセル（770）と、前記画像ブロックの予測信号（790）に基づいて計算された前記隣接ピクセルの前記予測（760）との間の前記1次元直交変換された差（B）を計算し、
前記変換された差と、一組の仮説からの前記符号の各仮説に従って再構築された前記変換された画像ブロックと、の二乗された変換された差の合計を含むコスト関数（F）を計算し、
前記予測される符号として、前記コスト関数によって与えられるコストを最小にする前記符号のその仮説を選択すること
を含む、請求項1から3のいずれか一項に記載の画像ブロックをデコードするための装置。
前記変換された画像ブロックは、コーディングされたストリームから解析された係数に前記符号の仮説を追加することによって再構築される、請求項1から4のいずれか一項に記載の画像ブロックをデコードするための装置。
前記コスト関数Fは、次式で与えられ、

t_n＝Trans1D（T_n），q_n＝Trans1D（Q_n），v_n＝Trans1D（V_n），およびo_n＝Trans1D（O_n）であり、ここで、Trans1D（．）は1次元直交変換であり、T_n＝［2X_n，－1－X_n，－2－P_n，0］，V_m＝［2Z_－1，m，－Z_－2，m－P_0，m］，Q_n＝R_n，0およびO_m＝R_0，mであり、ここでPは予測信号、XとYは隣接ピクセル、NとMはそれぞれ、符号が予測されるブロックの高さと幅である、請求項1から5のいずれか一項に記載の画像ブロックをデコードするための装置。
前記隣接ピクセルは、前記画像ブロックの水平および垂直境界に配置される、請求項1から6のいずれか一項に記載の画像ブロックをデコードするための装置。
前記処理回路は、
コンテキスト適応型バイナリ算術コーディングCABACを使用して符号予測誤差をデコード（1004）する
ようにさらに構成される、請求項1から7のいずれか一項に記載の画像ブロックをデコードするための装置。
処理回路を含む、画像ブロックをエンコードするための装置であって、前記処理回路は、
変換された画像ブロックに隣接する隣接ピクセルと、前記画像ブロックの予測信号に基づいて計算された前記隣接ピクセルの予測との間の1次元直交変換された差を含むコスト関数に基づいて、前記変換された画像ブロックの複数の係数の符号を予測（806）し、
前記予測された符号に従って前記複数の係数の前記符号をエンコード（808）する
ように構成される、画像ブロックをエンコードするための装置。
前記処理回路は、前記複数の係数の前記符号をエンコードするようにさらに構成され、
前記複数の係数の前記符号と前記複数の係数の前記予測された符号との間の差として符号予測誤差を決定（808）し、
前記決定された符号予測誤差を、コーディングされた画像ブロックを含むコーディングされたストリームに挿入（811）すること
を含む、請求項9に記載の画像ブロックをエンコードするための装置。
前記コスト関数（F）は、前記変換された画像ブロックに隣接する前記隣接ピクセルと、前記画像ブロックの予測信号に基づいて計算された前記隣接ピクセルの前記予測との間の二乗された1次元直交変換された差の合計を含む、請求項9または10に記載の画像ブロックをエンコードするための装置。
前記処理回路は、変換された画像ブロックの前記複数の係数の前記符号を予測するようにさらに構成され、
前記変換された画像ブロックに隣接する前記隣接ピクセルと、前記画像ブロックの予測信号に基づいて計算された前記隣接ピクセルの前記予測との間の前記1次元直交変換された差を計算し、
前記変換された差と、一組の仮説からの前記符号の各仮説に従って再構築された前記変換された画像ブロックと、の二乗された変換された差の合計を含むコスト関数を計算（807）し、
前記予測される符号として、前記コスト関数によって与えられるコストを最小にする前記符号のその仮説を選択すること
を含む、請求項9から11のいずれか一項に記載の画像ブロックをエンコードするための装置。
前記コスト関数Fは、次式で与えられ、

t_n＝Trans1D（T_n），q_n＝Trans1D（Q_n），v_n＝Trans1D（V_n），およびo_n＝Trans1D（O_n）であり、ここで、Trans1D（．）は1次元直交変換であり、T_n＝［2X_n，－1－X_n，－2－P_n，0］，V_m＝［2Z_－1，m，－Z_－2，m－P_0，m］，Q_n＝R_n，0およびO_m＝R_0，mであり、ここでPは予測信号、XとYは隣接ピクセル、NとMはそれぞれ、符号が予測されるブロックの高さと幅である、請求項9から12のいずれか一項に記載の画像ブロックをエンコードするための装置。
前記隣接ピクセルは、前記画像ブロックの水平および垂直境界に配置される、請求項9から13のいずれか一項に記載の画像ブロックをエンコードするための装置。
前記処理回路は、
コンテキスト適応型バイナリ算術コーディングCABACを使用して符号予測誤差をエンコード（970）する
ようにさらに構成される、請求項9から14のいずれか一項に記載の画像ブロックをエンコードするための装置。
画像ブロックをデコードするための方法であって、
変換された画像ブロックに隣接する隣接ピクセルと、前記画像ブロックの予測信号に基づいて計算された前記隣接ピクセルの予測との間の1次元直交変換された差を含むコスト関数に基づいて、前記変換された画像ブロックの複数の係数の符号を予測するステップと、
前記予測された符号に従って前記複数の係数の前記符号を再構築するステップと、
を含む、方法。
画像ブロックをエンコードするための方法であって、
変換された画像ブロックに隣接する隣接ピクセルと、前記画像ブロックの予測信号に基づいて計算された前記隣接ピクセルの予測との間の1次元直交変換された差を含むコスト関数に基づいて、前記変換された画像ブロックの複数の係数の符号を予測するステップと、
前記予測された符号に従って前記複数の係数の前記符号を再構築するステップと、
を含む、方法。
プロセッサ上で実行された場合に、請求項16または17に記載のすべてのステップを実行する命令を含むプログラムを格納するコンピュータ可読記録媒体。