JP7308983B2

JP7308983B2 - クロマのためのクロスコンポーネント適応（アダプティブ）ループフィルタ

Info

Publication number: JP7308983B2
Application number: JP2021569987A
Authority: JP
Inventors: ジョナサンタケ，; クリストフジスケ，; ギロームラロシュ，; パトリスオンノ，
Original assignee: Canon Inc
Current assignee: Canon Inc
Priority date: 2019-08-20
Filing date: 2020-08-18
Publication date: 2023-07-14
Anticipated expiration: 2040-08-18
Also published as: EP4018650A1; WO2021032751A1; GB201911952D0; GB2586484A; TWI793438B; JP2022539656A; KR20220041939A; TW202110181A; BR112022000953A2; CN114258683A; JP2023123772A; GB2586484B; US20220312006A1

Description

本発明は、ビデオ成分（コンポーネント）の複数のブロックの符号化または復号化に関するものである。本発明の実施形態は、そのような成分の複数のサンプルをフィルタするためにフィルタを制御するときに、特に（しかし排他的ではない）用途を見出す。特に、適応（アダプティブ）ループフィルタを制御することであるが、これに限定されるものではない。

ビデオ符号化には、画像符号化（画像はビデオの１フレームに相当）を含む。ビデオ符号化では、変換係数の量子化や動き補償（補間フィルタを用いて行われることが多い）などの符号化ツールにより、歪みのバイアス／影響（系統的と思われる歪み、あるいは少なくとも所与のコンテキストではランダムでない歪み）が生じることがある。これらのバイアスやアーティファクトを補正し、符号化効率を向上させる（または少なくとも良好なレベルを維持する）ために、ポストフィルタまたはインループフィルタと呼ばれるいくつかの特定の符号化ツールが使用される。デブロッキングフィルタ（ＤＢＦ）、サンプル適応（アダプティブ）オフセット（ＳＡＯ）フィルタ、適応ループフィルタ（ＡＬＦ）などは、そのような符号化ツールの一例である。インループフィルタは、現在のフレームに提供される画質の向上が、現在のフレームに基づいて符号化される後続のフレームの符号化効率の向上を可能にするように、符号化ループ内に適用される。例えば、ＤＣＴ係数の量子化はビデオ圧縮には効率的であるが、圧縮されたサンプルブロックの境界でブロッキングアーチファクト（バイアス）が発生することがある。デブロッキングフィルタは、このようなアーティファクトから生じる望ましくない効果を低減する。符号化ループ内で（別のフレームの動き補償のための参照フレームとして機能する前に）復号化されたフレームを（ＤＢＦを使用して）デブロックすることは、符号化ループの外で（例えば、それを表示する直前に）フレームをデブロックすることと比較して動き補償の符号化効率を著しく向上させる。

本発明は、特に適応ループフィルタ（ＡＬＦ）に関するものであり、これは、復号化されたフレーム／画像における望ましくない圧縮アーティファクトを低減するためのインループフィルタとしても適用される。ＡＬＦは、ビデオ符号化エキスパーツグループ／動画像エキスパーツグループ（ＶＣＥＧ／ＭＰＥＧ）標準化グループによって研究されており、例えばＶＶＣテストモデルソフトウェアの第５バージョン（ＶＴＭ－５．０またはＶＶＣドラフトバージョン５）において、多用途ビデオ符号化（ＶＶＣ）規格に使用することが検討されている。クロスコンポーネントＡＬＦ（ＣＣＡＬＦ）は、ＪＶＥＴ－Ｏ０６３６（スウェーデン国のヨーテボリにて２０１９年７月３日－１２日に開催されたジョイントビデオエキスパーツチーム（ＪＶＥＴ）の第１５回ミーティング）で提案され、ＡＬＦの補助フィルタであり、ルマチャネルのサンプル値を用いて、クロマチャネルのサンプル値に対して行われるアーティファクトの追加のエラー訂正を見積もるものである。ＣＣＡＬＦは、各クロマチャネルに適用されてもよい。

本発明は、クロスコンポーネントフィルタを簡略化することにより、ＣＣＡＬＦ処理の一部の符号化性能を向上させることに関するものである。

本発明の実施形態は、複数のフィルタ係数または複数のクロスコンポーネント入力サンプルのいずれかまたは両方の（内部ビット深度と比較して）低減されたビット深度表現を使用することに関するものである。この制限は、ビットシフト演算及び／又はフィルタ係数／入力サンプルの特定のビットを無視することによって実行されてもよい。

本発明の一態様では、画像部分をフィルタする方法が提供され、該方法は、参照サンプルを取り囲む複数のサンプルに対応する第１成分の複数のサンプル値と複数のフィルタ係数とを受信することと、前記複数のフィルタ係数と前記第１成分の複数のサンプル値とをクロスコンポーネントフィルタに入力しクロスコンポーネントフィルタ出力を生成することと、を含み、前記クロスコンポーネントフィルタは、前記複数のフィルタ係数および／または前記第１成分の複数のサンプル値を表すための制限されたビット数を使用して前記フィルタ出力を生成する。

このような方法では、フィルタ計算が簡略化され、ＣＣＡＬＦ符号化の改善の大部分が驚くほど維持される。

オプションで、前記制限されたビット数は、内部ビット深度によって定義されるビット数よりも低い。

効率的な実施のために、前記複数のフィルタ係数および／または前記第１成分の複数のサンプル値を表すための前記制限されたビット数は、前記フィルタ出力が１６ビット以下で表されるようにする。

オプションで、本方法は、前記クロスコンポーネントフィルタ出力を異なる成分に対応するフィルタの出力と結合することをさらに含む。オプションで、前記第１成分はルマであり、前記異なる成分はクロマ成分である。

効率的な実施のために、本方法は、フィルタ乗算演算の前にビット数を削減させるようにビットシフト動作を実行することを含む。これにより、フィルタ計算を簡略化することができる。

複数のサンプル値の制限
本発明の一態様では、サンプル値を表すために使用されるビット数が削減される。

オプションで、第３の変形例によれば、前記制限することは、特定の複数のビットのみを考慮することによってサンプル値の精度を削減させることを含む。

オプションで、所定の数の最下位ビットが無視される；例えば、最下位ビット、最下位２ビット、最下位３ビット又は最下位４ビットである。

オプションで、所定の数の最上位ビットが保持される。例えば、最上位８、７、６、５または４ビットである。

さらに簡略化するために、この方法は、除去された最上位のビットを使用してサンプル値を丸めることを含んでいてもよい。

オプションで、第４の変形例によれば、前記複数のサンプル値を前記フィルタに入力することは、前記第１成分のサンプル値と参照サンプル値との値の差を表す数値を入力することを含む。

オプションで、本方法は、固定クリッピングパラメータＣによって定義されるクリッピング関数に基づいて、前記差をクリッピングすることをさらに含む。

前記クリッピング関数Ｋは、以下のように表されてもよい：
Ｋ（ｄ，Ｃ）＝ｍａｘ（－Ｃ，ｍｉｎ（Ｃ，ｄ））
ここで、Ｃはクリッピングパラメータであり、ｄは差を表す数値である。したがって、クリッピング関数の入力は、差を表す数値とクリッピングパラメータであり、出力は－Ｃの最大値またはＣとｄの間の小さい方の値である。

有利な一実施形態では、Ｃは２^{（ＩＢｉｔＤｅｐｔｈ－ｎ）}－１であり、ＩＢｉｔＤｅｐｔｈは複数のサンプル値を表すために用いられるビット数であり、ｎはｎ＜ＩＢｉｔＤｅｐｔｈを満足する整数である。オプションで、ｎ＝２または３である。

複数の係数値の制限
本発明の一態様では、複数のフィルタ係数値を表現するために使用されるビット数が削減される。

オプションで、第２の変形例によれば、前記制限することは、複数のフィルタ係数の可能な値の範囲を制限することを含む。これにより、より少ないビット数で係数を表現することができ、その後の計算がより簡単になる。

オプションで、第１の変形例によれば、前記制限することは、入力係数値の固定小数点小数精度を削減させたものを使用することを含む。

特定の利点を有する実施形態は、前記削減された固定小数点小数精度は８ビット、７ビット、または６ビットのうちの１つである場合を含む。

１つのオプションの実施形態において、前記範囲を制限することは、閾値より高いいかなるビットも使用しないことを含み、例えば、前記閾値は固定小数点小数精度の第７、第６、第５、第４または第３のビットである。

本発明の１つの有利な実施態様では、各乗算はビット単位のシフトおよび加算の演算に置き換えられ、これらはハードウェアおよびソフトウェアの両方で実施がより簡単である。このように、前記フィルタ演算は複数のサンプル値と１つのフィルタ係数の乗算を含み、前記乗算は該乗算の演算をビット単位のシフトおよび加算の演算で置き換えるようにビット単位のシフトおよび／または他のフィルタ係数との組み合わせを介して実施される。

フィルタ形状
本発明の別の態様では、フィルタの形状の修正が提案される。そのような修正には、ＣＣＡＬＦによって提供される利得を維持しながら、考慮すべきサンプルの数を減らすこと（したがって、結果の計算を単純化すること）が含まれる。

オプションで、第１成分の各サンプル値は、参照サンプルに対して定義された位置の１つのサンプル値であり、サンプルの前記位置はフィルタ形状によって定義される。

実施を容易にするために、前記フィルタ形状は、１６個以下のサンプルを含むようにされる。

一実施形態では、前記フィルタ形状は、前記第１成分のサンプルが前記参照サンプルに対して位置（ｘ＋ｕ，ｙ＋ｖ）を有するパターンを含み、ｕおよびｖは［－２，２］整数区間に属する。

別の実施形態では、前記フィルタ形状は、すべてのサンプルが前記参照サンプルに対して位置（ｘ＋ｕ，ｙ＋ｖ）を有するパターンを含み、ｕは［－２，２］に属し、ｖは［－１，２］に属する。変形例では、前記フィルタは「菱形（diamond-shaped）」であり、例えば、｜ｕ｜＝２のとき、ｖは［０，１］に属する。

一実施形態では、前記フィルタ形状は、すべてのサンプルが前記参照サンプルに対して位置（ｘ＋ｕ，ｙ＋ｖ）を有するパターンを含み、ｕは［－１，１］に属し、ｖは［－１，２］に属する。変形例では、前記フィルタは「菱形」であり、例えば、｜ｕ｜＝１のとき、ｖは［０，１］に属する。

別の実施形態では、前記フィルタ形状は、すべてのサンプルが前記参照サンプルに対して位置（ｘ＋ｕ、ｙ＋ｖ）を有するパターンを含み、ｕ，ｖは［０，１］に属する。

シグナリング
本発明の実施形態は、ビットストリーム内の複数のＣＣＡＬＦフィルタ係数をシグナリングすることに関するものでもある。本発明の目的は、ＣＣＡＬＦに関連するビットレートコストを最小化するように、シグナリングを改善することである。

オプションで、本方法は、前記フィルタ係数および／または複数のサンプル値に対する削減されたビット数をビットストリーム内でシグナリングすることをさらに含む。これにより、異なる複数の画像に対して一貫した処理を行うことができ、必要に応じて処理に柔軟性を持たせることができる。

本発明の一態様によれば、本方法は、所与の成分に対してクロスコンポーネント適応ループフィルタ（ＣＣＡＬＦ）が指示されているかどうかを決定することと、前記ビットストリームから前記複数のフィルタ係数を復号化することと、をさらに含む。

本発明の別の態様によれば、ＣＣＡＬＦを用いて符号化された画像部分を復号化する方法が提供され、該方法は、所与の成分に対してＣＣＡＬＦが指示されているかどうかを決定することと、ビットストリームから複数のＣＣＡＬＦ係数を復号化することと、前記複数のＣＣＡＬＦ係数を用いて前記画像部分を復号化することと、を含み、前記複数のＣＣＡＬＦ係数は、前記ビットストリームにプレフィックス無しで符号化されている。

この態様は、従来技術に対して簡略化を表し、特に、本明細書に記載のように複数のフィルタ係数を表すために用いられるビット数を削減することと組み合わせた場合、ＣＣＡＬＦの性能を大きく損なうことなくより低いビットレートをもたらす。

オプションで、所与の成分に対してＣＣＡＬＦが指示されているかどうかを前記決定することは、フラグを復号化することを含む。

本発明の別の態様によれば、クロスコンポーネント適応ループフィルタ（ＣＣＡＬＦ）を用いて画像部分を符号化する方法が提供され、該方法は、所与の成分に対してＣＣＡＬＦが指示されているかどうかを決定することと、複数のＣＣＡＬＦ係数をビットストリームに符号化することと、前記複数のＣＣＡＬＦ係数を用いて前記画像部分を符号化することと、を含み、前記複数のＣＣＡＬＦ係数は、固定表現を用いてスライスヘッダに符号化される。

オプションで、所与の成分に対してＣＣＡＬＦが指示されているかどうかを前記決定することは、フラグをスライスヘッダに符号化することを含む。

第１の変形例では、実施を容易にするために、前記複数のＣＣＡＬＦ係数はスライスヘッダに直接的に符号化されてもよい。

前記複数のＣＣＡＬＦ係数は、符号付き単項符号化を使用してビットストリームに符号化されてもよい。このような符号化方式は、符号化および復号化が簡単であり、そのために他のパラメータ（例えば、プレフィックス）に依存することはない。

オプションで、第３の変形例によれば、前記符号付き単項符号化は、前記係数の符号を示す１つのビットと、前記係数の振幅を示す一連のビットと、を含む。

オプションで、第２の変形例によれば、前記符号付き単項符号化は、前記係数がゼロであるか否かを示す前記ビットストリーム内の第１ビットと、前記係数がゼロでない場合、前記係数の符号を示す１つのビットと、前記係数の振幅を示し１に等しいビットシーケンスと、を含む。

オプションで、前記第１ビットが１に等しいことは前記係数がゼロであることを示す。

オプションで、１に等しい前記符号ビットは、前記係数が負であることを示す。

オプションで、パーシングを容易にするために、前記符号付き単項符号化は、前記係数のシグナリングの終了を示すシーケンスの終了にゼロに等しい１つのビットをさらに含む。

本発明のさらに別の態様は、請求項４８によって定義されるような、画像をフィルタするための装置に関する。

本発明のさらに別の態様は、請求項４９および５０によってそれぞれ定義されるような、符号化器および復号化器に関する。

本発明のさらに別の態様は、請求項５１によって定義されるようなプログラムに関する。プログラムは、それ自体で提供されてもよいし、キャリア媒体上で提供されてもよいし、キャリア媒体によってまたはキャリア媒体内で提供されてもよい。キャリア媒体は、非一時的なもの、例えば記憶媒体、特にコンピュータ可読記憶媒体であってもよい。キャリア媒体はまた、例えば信号または他の伝送媒体のような一時的なものであってもよい。信号は、インターネットを含む任意の適切なネットワークを介して伝送されてもよい。

本発明のさらなる特徴は、他の独立請求項および従属請求項によって特徴付けられる。

本発明の一態様における任意の特徴は、任意の適切な組み合わせで、本発明の他の態様に適用され得る。特に、方法の態様は、装置の態様に適用されてもよく、その逆もまた然りである。

さらに、ハードウェアに実施された特徴は、ソフトウェアに実施されてもよく、その逆もまた然りである。本明細書におけるソフトウェア及びハードウェアの特徴へのいかなる言及も、それに応じて解釈されるべきである。

本明細書に記載されているような装置の特徴は、方法の特徴として提供されることもあり、その逆もまた然りである。本明細書で使用されるように、手段プラス機能（means plus function）特徴は、適切にプログラムされたプロセッサ及び関連するメモリのようなそれらの対応する構造の観点から代替的に表現され得る。

また、本発明の任意の態様において説明され定義された様々な特徴の特定の組み合わせは、独立して実施および／または供給および／または使用することができることを理解されたい。

次に、本発明の実施形態を、例示としてのみ、以下の図面を参照しながら説明する。

図１は、ＶＴＭ－５．０の典型的な復号化ループにおいてＡＬＦが行われる場所を示す。図２は、ＶＴＭ－５．０のＡＬＦフィルタの概要を説明するフローチャートである。図３は、ＶＴＭ－５．０のＡＬＦに加え、ＣＣＡＬＦフィルタの概要を示すフローチャートである。図４－ａは、本発明の実施形態によるＣＣＡＬＦフィルタのフィルタ形状および係数配置を提供する。図４－ｂは、ＣＣＡＬＦフィルタ係数の典型的なビット単位のメモリ表現を示す。図４－ｃは、１０ビットの内部ビット深度を有するＣＣＡＬＦフィルタ中に使用されるサンプル値の典型的なビット単位のメモリ表現を示す。図４－ｄは、ＣＣＡＬＦフィルタを実行中の、ＣＣＡＬＦフィルタ係数とサンプル値との乗算の出力の典型的なビット単位のメモリ表現を示す。図４－ｅは、ＣＣＡＬＦフィルタを実行中の、複数のＣＣＡＬＦフィルタ係数と複数のサンプル値との乗算の複数の結果を合計するために実行される加算演算の出力の典型的なビット単位のメモリ表現を示す。図５－ａは、本発明の第１の変形例による、係数値の精度を削減することによってＣＣＡＬＦフィルタ係数のビット数を削減するビット単位のメモリ表現を示す。図５－ｂは、本発明の第２の変形例による、可能な係数値の範囲を制限することによってＣＣＡＬＦフィルタ係数のビット数を削減するビット単位のメモリ表現を示す。図５－ｃは、本発明の第１及び第２の変形例を組み合わせた実施例による、係数値の精度を削減しかつ可能な係数値の範囲を制限することによってＣＣＡＬＦフィルタ係数のビット数を削減するビット単位のメモリ表現を示す。図５－ｄは、本発明の第３の変形例による、最下位ビットを無視することによってフィルタ処理の内部で使用されるサンプル値のビット数を削減するビット単位のメモリ表現を示す。図６－ａは、本発明の第４の変形例による、フィルタ処理の内部で使用される複数のサンプル値の差のビット単位のメモリ表現を示す。図６－ｂは、本発明の第４の変形例による、フィルタ処理の内部でビット数を削減するためにクリッピング操作を使用する場合の複数のサンプル値の差のビット単位のメモリ表現を示す。図６－ｃは、本発明の第３及び第４の変形例を組み合わせた実施例による、フィルタ処理の内部でビット数を削減するためにクリッピング操作を使用しかつ最下位ビットを無視する場合の複数のサンプル値の差のビット単位のメモリ表現を示す。図７－ａは、本発明の変形例によるＣＣＡＬＦフィルタを実行中の、ＣＣＡＬＦフィルタ係数とサンプル値との乗算の出力の典型的なビット単位のメモリ表現を示す。図７－ｂは、本発明の変形例によるＣＣＡＬＦフィルタを実行中の、複数のＣＣＡＬＦフィルタ係数と複数のサンプル値との乗算の複数の結果を合計するために実行される加算演算の出力の典型的なビット単位のメモリ表現を示す。図７－ｃは、本発明の第５の変形例による、ＣＣＡＬＦフィルタ処理で使用されるビット数及び演算を減らすために１６個のサンプルを使用するＣＣＡＬＦフィルタの一例のフィルタ形状及び係数配置を提供する。図７－ｄは、本発明の第５の変形例による、ＣＣＡＬＦフィルタ処理で使用されるビット数及び演算を減らすために１６個のサンプルを使用するＣＣＡＬＦフィルタの一例のフィルタ形状及び係数配置を提供する。図７－ｅは、本発明の第５の変形例による、ＣＣＡＬＦフィルタ処理で使用されるビット数及び演算を減らすために１２個のサンプルを使用するＣＣＡＬＦフィルタの一例のフィルタ形状及び係数配置を提供する。図７－ｆは、本発明の第５の変形例による、ＣＣＡＬＦフィルタ処理で使用されるビット数及び演算を減らすために８個のサンプルを使用するＣＣＡＬＦフィルタの一例のフィルタ形状及び係数配置を提供する。図７－ｇは、本発明の第５の変形例による、ＣＣＡＬＦフィルタ処理で使用されるビット数及び演算を減らすために４つのサンプルを使用するＣＣＡＬＦフィルタの一例のフィルタ形状及び係数配置を提供する。図８は、本発明の実施形態による符号化方法の複数のステップを示すフローチャートである。図９は、本発明の実施形態に係る復号化方法の複数のステップを示すフローチャートである。図１０は、本発明の１つ以上の実施形態が実施され得るデータ通信システムを模式的に示すブロック図である。図１１は、本発明の１つ以上の実施形態が実施され得る処理装置の構成要素を示すブロック図である。図１２は、本発明の１つ以上の実施形態が実施され得るネットワークカメラシステムを示す図である。図１３は、本発明の１つ以上の実施形態が実施され得るスマートフォンを示す図である。

以下に説明する本発明の実施形態は、画像の符号化および復号化の改善に関するものである。

本明細書において「シグナリング」は、フィルタを制御するための１つ以上のパラメータに関する情報（例えばモード／スキームの、使用、不使用、有効、または無効、または他のフィルタ制御関連情報）をビットストリームに挿入する（中に提供する／含める／符号化する）、またはそこから抽出する／取得する（復号化する）ことを指す場合がある。

本明細書では、画像部分の例として「スライス」という用語を使用する（このような画像部分の他の例は、タイルまたは（タイル（複数可）のグループ／セットである）タイルグループである）。本発明の実施形態は、スライスの代わりに画像部分（例えばタイル又はタイルグループ）、及び画像部分／タイル／タイルグループのヘッダ（スライスヘッダの代わり）、画像部分／タイル／タイルグループのタイプ（スライスタイプの代わり）、及び画像部分／タイル／タイルグループの統計値（スライス統計値の代わり）などの適切に変更したパラメータ／値／構文に基づいて実施することができるということも理解され得る。また、スライスヘッダ又はシーケンスパラメータセット（ＳＰＳ）の代わりに、ＡＬＦ又はＣＣＡＬＦパラメータ（又は（ＣＣ）ＡＬＦフィルタを用いるための情報）をシグナリングするために、適応（アダプティブ）パラメータセット（ＡＰＳ）又はタイル（グループ）ヘッダが使用されてもよいことが理解される。ＡＰＳが（ＣＣ）ＡＬＦパラメータ（または（ＣＣ）ＡＬＦフィルタを使用するための情報）をシグナリングするために使用される場合、スライスヘッダまたはタイルグループヘッダは、例えば、適応（アダプティブ）セット識別子（ａｐｓ＿ｉｄ）を示すことによって、（ＣＣ）ＡＬＦパラメータ（または（ＣＣ）ＡＬＦフィルタを使用するための情報）を得るためにどのＡＰＳを使用しなければならないか示すのに使用されてもよい。また、スライス、タイルグループ、タイル、符号化ツリーユニット（ＣＴＵ）／最大符号化ユニット（ＬＣＵ）、符号化ツリーブロック（ＣＴＢ）、符号化ユニット（ＣＵ）、予測ユニット（ＰＵ）、変換ユニット（ＴＵ）、又は画素／サンプルのブロックのいずれかが画像部分と呼ばれることがあることが理解される。

また、次のことも理解される：フィルタまたはツールが「アクティブ」と記述されるとき、フィルタ／ツールは「有効」または「使用可能」または「使用される」であり、「非アクティブ」と記述されるとき、フィルタ／ツールは「無効」または「使用不可」または「使用されない」であり；「クラス」は１以上の要素のグループ、グループ化、カテゴリ、または分類を意味する。さらに、フラグが「アクティブ」と記述されている場合、そのフラグは関連するフィルタ／ツールが「アクティブ」であることを示すことを意味することも理解される。

適応ループフィルタ（ＡＬＦ）
図１は、ＶＴＭ－５．０の典型的な復号化ループにおいて、ＡＬＦが行われる場所を示している。１０１では、画像部分（例えばスライス）が符号化ツリーユニット（ＣＴＵ：ＶＶＣの最大の符号化ユニットで、通常１２８ｘ１２８サンプル／画素サイズ）単位で復号化される。ＣＴＵは、特定の予測スキーム／モードを使用して符号化される矩形ブロック、または符号化ユニット（ＣＵ）に分割され、しばしば、残差ブロックのロッシー符号化も行われる。ブロックベースの符号化の使用により、符号化されたブロック間の境界でブロッキングアーチファクトが見えることがある。１０２では、復号化された画像部分は、ＤＢＦによって処理され、これらのアーティファクトを低減／除去する。一般に、ブロック予測のための残差（ブロック）を符号化するために、残差値は（残差エネルギーを少数の係数に圧縮するために）ＤＣＴのような変換を用いて変換され、変換された係数は符号化コストを低減するために量子化される。この量子化は、再構成されたブロック（すなわち、フレームバッファ１０６に格納された参照フレーム内のブロック）において、しばしばいくつかのリンギングアーチファクトを導入する。１０３において、ＤＢＦの出力画像部分は、次に、低い計算コストでこれらのアーティファクトのいくつかを低減するのに有用であるＳＡＯフィルタによって処理される。１０４において、ＳＡＯフィルタの出力画像部分は、次に、ＡＬＦによって処理される。ＡＬＦは、例えば「リンギング」のようなアーティファクトをさらに低減することができる。ＡＬＦは、より高次のエラーモデリング能力を有するが、より高い計算コストである。次に、ＡＬＦの出力画像部分は、出力（例えば、ディスプレイまたはディスプレイと通信するための通信インタフェース）１０５に送られる。また、（時間予測ツールが使用される場合）時間予測に使用できるように、フレームバッファ１０６に（そこに格納される参照フレームの一部として）入れることができる。これが、ＤＢＦ、ＳＡＯフィルタ、ＡＬＦが「インループ」フィルタと呼ばれる理由である。符号化器は、復号化時にそれらがバイパスされるように（すなわち、フィルタが実行されず、無効にされたツールに対応するステップの出力はその入力と同じである）、インループフィルタの一部を無効化することができる。また、場合によっては、処理される画像部分はスライスに限定されず、１つまたは複数のスライスを含むフルフレームであってもよく、スライス境界（複数存在する場合）にわたってフィルタを適用して、それらの境界上のアーティファクトを低減する可能性がある。複数成分の画像（例えばＹＣｒＣｂフォーマットの画像）の場合、ＤＢＦ、ＳＡＯフィルタ、ＡＬＦ処理は各成分に個別に、場合によっては異なる方法で（例えば他の成分と異なるフィルタリングパラメータを使用して）適用される。

図２は、ＶＴＭ－５．０におけるＡＬＦフィルタの概要を示している。各チャネル（ルマチャネル：Ｙ、クロマチャネル：Ｃｂ、Ｃｒ）について、入力画像部分２０１、２０２、２０３は、フィルタパラメータ２０４、２０５、２０６とともに、適応ループフィルタ（ＡＬＦ）処理２０７、２０８、２０９に供給される。ＡＬＦプロセスは、各チャネル２１０、２１１、２１２のための処理された出力画像部分を生成する。２０８、２０９におけるＡＬＦクロマ処理は、両方のクロマチャネルに対して同じであるが、２０５、２０６において提供される特定のパラメータにより、各チャネルに対して異なるように動作するように構成され得る。２０７で行われるＡＬＦルマ処理は、２０８で行われるＡＬＦクロマ処理よりも複雑であることが多い。これには２つの理由がある。第１の理由は、ルマチャネルが、しばしばより滑らかであるクロマチャネルよりも多くの構造（輪郭、テクスチャなど）を含むので、ルマチャネルのコンテンツは、しばしばクロマチャネルよりも処理／符号化するのがより複雑であることである。第２の理由は、人間の目はクロマチャネルのエラーよりもルマチャネルのエラーに敏感であることである。したがって、より高度で複雑な（すなわち、より多くの電力を消費するおよび／またはより遅い）処理は、より良い符号化利得およびより良い視覚品質を提供するために、ルマチャネルに対して好ましいものである。

２０４、２０５、及び２０６で提供される入力パラメータ情報は、適応パラメータセット（ＡＰＳ）及び／又はスライスヘッダで伝送される。また、２０４、２０５、及び２０６は、いくつかの共通情報を共有することができる。

ＡＬＦ処理２０７、２０８、２０９は、それぞれのタスク結果が他のもののタスク結果に依存しないため、各チャネルで並列に実行することが可能である。このような並列処理の機会は、処理にかかる総時間を減少させることができ、ハードウェアまたはソフトウェアのいずれにおいても効率的に実施することが可能である。

２０４、２０５、２０６で提供される入力パラメータ情報は、内部ビット深度情報を含むこともできる。内部ビット深度は、サンプル値を表現するために使用できる最大ビット数である（すなわち、サンプル値の精度を表す）。ＶＴＭ－５．０では、ルマチャネルに対して、クロマチャネルに対する内部ビット深度とは異なる内部ビット深度を使用することが許可されている（ビット深度情報は、ルマとクロマの両方のチャネルタイプのシーケンスパラメータセット（ＳＰＳ）においてシグナリングされる）。以下の説明では、「ＩＢＤＬ」はルマの内部ビット深度、「ＩＢＤＣ」はクロマの内部ビット深度を意味する。内部ビット深度に「ＩＢＤ」を使用する場合、ＩＢＤＬはＩＢＤＣと同等と見なすことを意味する。記載がない場合、または指定がない場合は、内部ビット深度が議論されている処理に影響しないか、または内部ビット深度がオーソドックスに扱われるため省略されていることを示す。

図３は、図２のＡＬＦフィルタを拡張し、クロスコンポーネントＡＬＦ（ＣＣＡＬＦ）処理を使用するようにしたものである。

各クロマチャネル２０２、２０３について、ルマチャネル２０１の入力画像部分は、フィルタパラメータ３０５、３０６とともに、クロスコンポーネント適応ループフィルタ処理（ＣＣＡＬＦ）３０８、３０９に提供される。ＣＣＡＬＦフィルタ処理の出力は、３１１、３１２において、ＡＬＦクロマフィルタ処理２０８、２０９の出力に加えられ、各クロマチャネルについて、処理済出力画像部分３１３、３１４が生成される。３０８、３０９におけるＣＣＡＬＦ処理は、両方のクロマチャネルに対して同じであるが、３０５及び３０６において提供される特定のパラメータにより、各チャネルに対して異なって動作するように構成され得る。例えば、各クロマチャネルは、特定のフィルタ係数を用いて処理されてもよい。

いくつかの変形例では、クロマチャネルは、例えばＹＵＶ４：２：０色表現を使用するビデオのために、ルマチャネルと比較してサブサンプリングされる。そのような変形例では、ＣＣＡＬＦフィルタ処理３０８、３０９は、各ルマサンプル位置には適用されず、クロマサンプル位置をアップサンプリングするときに得られる整数のルマサンプル位置のみに適用される。したがって、ＹＵＶ４：２：０表現では、フィルタはルマサンプル位置の１／４にのみ適用される。

ＡＬＦフィルタ処理２０７、２０８、２０９と、ＣＣＡＬＦフィルタ処理３０８、３０９は独立しているので、並行して行うことが可能である。図２と比較すると、図３では、各チャネルの２つのクロマフィルタの結果を結合するために３１１と３１２で実行される加算演算によって、レイテンシが導入されている。しかしながら、ＣＣＡＬＦ及びクロマＡＬＦは一般にルマＡＬＦよりも複雑ではないので、ＶＴＭ－５．０では、追加のレイテンシなしに３チャネルの全体処理を実現することが可能であるはずである（すなわち、レート決定ステップはルマＡＬＦであると考えられ、そのため他の２チャネルにおける追加のレイテンシは全体処理のレイテンシに影響を及ぼさない）。

３０５及び３０６で提供される入力パラメータ情報は、適応パラメータセット（ＡＰＳ）及び／又はスライスヘッダで伝送される。３０５、および３０６はまた、いくつかの共通の情報を共有することができる。

ある変形例では、３０５、３０６は線形畳み込みフィルタのフィルタ係数を含む（例えば図４参照）。１つの変形例では、３０５及び３０６は、例えば、非線形ＡＬＦフィルタのためにＶＴＭ－５．０で使用されるものと同様の非線形フィルタのためのフィルタ係数及びクリッピングパラメータを含む。線形及び非線形フィルタの両方が符号化性能の利得を提供することが見出されているが、線形フィルタはより複雑ではなく、そのようなものとして特定の実施において好まれるかもしれない。

いくつかの変形例では、３０５および３０６で提供される入力パラメータ情報は、チャネル間のデータ（例えばサンプル値）を「正規化」する（すなわち、同等の精度値を使用する）ためのいくつかの左または右ビットシフト演算パラメータ（または乗除演算パラメータ）を推論するためのＩＢＤＬおよびＩＢＤＣを含んでもよい。

いくつかの変形例では、ＡＬＦフィルタが実行されていない場合でも、ＣＣＡＬＦを適用できることが理解される。また、ルマチャネルまたは他の種類のチャネルは、クロマチャネル以外の種類のチャネルを補正するために使用され得ることが理解される。例えば、赤チャネルは、ＲＧＢ色表現を使用するビデオにおいて、緑チャネル及び／又は青チャネルを補正するために使用され得る。

また、いくつかの変形例では、別のチャネルのエラーを低減するために２つ以上のチャネルが使用され得ることが理解される。例えば、クロマチャネル２０２及び２０３の両方の入力画像部分は、両方ともＣＣＡＬＦフィルタでフィルタされ、各画像部分のフィルタの結果は、ルマチャネルの残りのエラーを修正するためにＡＬＦルマフィルタ２０７の出力に加えられる可能性がある。このような変形例は、クロマチャネルがルマチャネルと比較してサブサンプリングされる場合に特に適用され得る。例えば、ＹＵＶ４：２：０色表現において、４つの異なるフィルタがクロマサンプルに使用され得、１つのクロマサンプル位置にダウンサンプルされ／関連付けられる４つのルマサンプル位置の各々に対して１つのフィルタが使用され得る。言い換えれば、２ｘ２ブロックのルマサンプルに対して、２ｘ２ブロックの位置（０，０）のルマサンプルを補正するために対応するクロマ位置に１番目のフィルタが適用され、それぞれ位置（０，１）、（１，０）、（１，１）のルマサンプルを補正するために同じクロマサンプル位置に対して２番目、３番目、４番目のフィルタが適用される。変形例では、４つのルマサンプル位置に対して１つのＣＣＡＬＦフィルタのみが使用されるが、フィルタされたクロマサンプル値は、ルマサンプルと同じグリッド上に整列したクロマサンプルを得るために、クロマサンプルをアップサンプリングすることによって得られる。

図４－ａは、線形畳み込みフィルタでＣＣＡＬＦを行う際に使用できるフィルタ形状４０１の一例である。このフィルタ形状は、ＹＵＶ４：２：０色表現を使用するビデオのクロマチャネルのエラーを修正するためにルマチャネルをフィルタするのに適しているが、他の種類の色表現にも使用することができる。各ボックスは、参照サンプル位置（背景が灰色ドットのボックス）の周囲に配置された複数のサンプルに対応している。各ボックス内の数値は、ボックスの位置のサンプルに適用するフィルタ係数のインデックスに対応する。

位置（ｘ_ｃ，ｙ_ｃ）のＣｂ成分クロマサンプルは、その値に以下の量を追加することでフィルタ／補正される。

ここで、ｆ^Ｃｂ _ｉは、Ｃｂクロマ成分のフィルタのインデックスｉのフィルタ係数である。

Ｃｒ成分についても同様のフィルタが行われるが、ｆ^Ｃｒ _ｉフィルタ係数が使用される。

同様のフィルタを行うために、以下の式表記を用い、表記を簡略化する。

ここで、ｆ^Ｃｂ _{（ｕi，ｖi）}は、位置（ｘ，ｙ）を持つ参照サンプル（４０１の灰色ドット背景のボックス）のオフセット（ｕi，ｖi）でフィルタ形状内のサンプルＩ_{（ｘ＋ｕi，ｙ＋ｖi）}で適用するフィルタ係数を示す。

式（２）の実施は、通常、固定小数点演算を用いた実数演算の近似のための整数演算を用いて行われる。そして、式（２）は次のように書き換えることができる。

ここで、≪は整数左ビットシフト演算、≫は整数右ビットシフト演算、Ｂはフィルタ係数ｆ’^Ｃｂ _{（ｕi，ｖi）}（図４－ｂ参照）の固定小数点表現の小数精度（通常１０ビット）、Ｉ_{（ｘ＋ｕi，ｙ＋ｖi）}はコーデックのＩＢＤと同じ整数精度（通常１０ビット、図４－ｃ参照）を有する整数サンプル値である。

ＹＵＶ４：２：０色表現では、ルマサンプル位置（ｘ，ｙ）は、アップサンプリングされたクロマ位置（ｘ，ｙ）＝（２．ｘ_ｃ，２．ｙ_ｃ）に最も近い整数値に対応する。

いくつかの変形例では、ＩＢＤＬがＩＢＤＣより大きいとき、式（３）は次のように書き換えられ得る。

または、

であり、ＩＢＤＬがＩＢＤＣより小さいとき、式（３）は次のように書き換えられ得る。

または、Ｂ＋ＩＢＤＬがＩＢＤＣより厳密に大きいとき、等価的に：

であり、Ｂ１＝Ｂ＋ＩＢＤＬ－ＩＢＤＣである。

式（４）、（５）、（６）、（７）のビット単位のシフト演算、または式（８）のビット単位のシフトパラメータの変更により、フィルタの結果を正規化してクロマのサンプル値と同じ精度を維持することができる。そのために、式（４）ではルマサンプル値を正規化し、式（５）ではルマサンプル値と係数値との乗算結果を正規化し、または式（６）、（７）、（８）では乗算出力の和の結果（すなわちフィルタの結果）を正規化する。

また、式（６）は、式（８）のように書き換えても同じ結果になる。

式（７）では、ＩＢＤＬがＩＢＤＣより小さい場合、どこで左シフトしても計算結果が同じになるため、意図的にビット単位のシフトを括弧で囲まないようにしている。これは、ハードウェアまたはソフトウェアの設計上の選択の問題である。また、（ＩＢＤＬ－ＩＢＤＣ）による右シフトを行う前に１≪（ＩＢＤＣ－ＩＢＤＬ－１）を加算して、式（４）のシフト値を丸めることも可能である。

ハードウェア／ソフトウェア設計の観点からは、ＩＢＤＬがＩＢＤＣよりも大きい場合、式（８）の定式化に従った実施が、より少ない演算で済むため、好ましいと考えられる。ＩＢＤＬがＩＢＤＣよりも常に大きい特定のケースでは、乗算の入力のビット数を制限するために、式（４）が好ましいと考えられる。式（４）を用いるシステムの実施で得られるビット数は、そのシステムにおいてＩＢＤＣを取り得る最大値とＩＢＤＬを取り得る最大値によって決まる（処理されなければならないのは最悪のケースであるため）。ＩＢＤＣがＩＢＤＬより大きい場合、特にＩＢＤＣを取り得る最大値がＩＢＤＬを取り得る最大値より常に大きい場合、乗算の入力ビット深度を増やさないために式（８）を使用することが望ましい場合がある。ＩＢＤＣの最大値とＩＢＤＬの最大値が等しい場合、式（８）は最良の妥協点である。

Ｂ＋ＩＢＤＬが厳密にはＩＢＤＣより大きくない場合、式（８）は次のように書き換えることができる。

ここで、Ｂ２＝ＩＢＤＣ－ＩＢＤＬ－Ｂである。

図４－ｂは、式（３）におけるＣＣＡＬＦフィルタ係数の典型的なビット単位のメモリ表現である。ＣＣＡＬＦフィルタ係数のビット表現４０２は、典型的には、実数の固定小数点値近似を格納するために、１６ビットの符号付き整数表現（ｔｏｗ表現の補数）を使用する。１０ビット精度は小数部に使用され、他のビットは整数部と符号を保存するために使用される。

図４－ｃは、ＶＴＭ－５．０の内部ビット深度１０ビットの式（３）のサンプル値を１６ビットの整数メモリ空間４０３（またはレジスタ）に格納した場合の典型的なビット単位のメモリ表現である。クロスしたボックスは使用されないビットを表している。

図４－ｄは、ＣＣＡＬＦフィルタ係数表現が図４－ｂで使用されたものに対応するとき、１０ビット内部ビット深度のサンプル値とＣＣＡＬＦフィルタ係数との乗算の結果（例えば所与のｉに対してｆ’^Ｃｂ _{（ｕi，ｖi）}・Ｉ_{（ｘ＋ｕi，ｙ＋ｖi）}）を格納するための３２ビット符号付き整数の典型的なビット単位のメモリ表現を示している。見てわかるように、２４ビット精度（４０３の１０ビット精度と４０２の１４ビット精度）と符号のための１ビットが必要である（すなわち、２５ビットの符号付き整数表現）。

図４－ｅは、ＣＣＡＬＦフィルタ係数表現が図４－ｂで使用されたものに対応し、図４－ａのフィルタパターンを使用する場合の、１０ビット内部ビット深度サンプル値のＣＣＡＬＦフィルタ係数による乗算の結果の累積（和）（例えばΣiｆ’^Ｃｂ _{（ｕi，ｖi）}・Ｉ_{（ｘ＋ｕi，ｙ＋ｖi）}）の中間結果を格納するための３２ビット符号付き整数の典型的なビット単位のメモリ表現を示している。これは、図４－ｂのように、１８個の２５ビット符号付き整数の和を格納するために必要なビット単位のメモリに相当する。見てわかるように、２９ビット精度（４０３の１０ビット精度＋４０２の１４ビット精度＋１８個の加算の最悪の場合の結果を保存するための５ビット）と符号のための１ビットが必要である（すなわち、３０ビットの符号付き整数表現）。

本発明の実施形態によれば、ＣＣＡＬＦフィルタのための式（３）のフィルタ演算は、特に、論理ゲート数がコストを有し、乗算を行うためのゲート数が入力の最大ビット数に依存するハードウェア専用設計において、図４－ｂの典型的な係数表現を用いる場合に比べ、非常に簡素化されている。設計の大幅な簡略化を伴う場合、符号化効率に影響を与えながらも、大幅な簡略化を達成できることが意外に知られている。一般に、以下に開示される簡略化は、フィルタ係数（ｆ’^Ｃｂ _{（ｕi，ｖi）}）またはクロスコンポーネント入力サンプル（Ｉ_{（ｘ＋ｕi，ｙ＋ｖi）}）のいずれかまたは両方の（内部ビット深度と比較して）低減されたビット深度表現を使用することに関連する。低減されたビット深度表現は、第１成分サンプルの内部ビット深度と比較して制限され、または典型的なフィルタ係数のビット深度と比較して制限される（両方の一般的な例は１０ビットである）。

ビット深度の低減の特定の組み合わせは、（例えば、１６ビットアーキテクチャで実行できる計算につながる場合に）特に有利であることを理解されたい。いずれにせよ、制限されたビット数を使用する計算は高速であり、（単なるＡＬＦと比較して）ＣＣＡＬＦの追加コスト（時間または計算力の増加のいずれか）は低いことを意味する。

式（３）の乗算入力のビット数を減らす第１の変形例は、固定小数点小数精度を下げることである。これは、図４－ｂの最下位ビットのいくつかを削除することで可能である。例えば、１０ビットの代わりに７ビットを使用することは、ＣＣＡＬＦの符号化利得をあまり減らさないように、（例えば１０ビットのサンプル内部ビット深度を使用する場合）良い妥協点を示すことが分かっている。いくつかの変形例では、１０ビットの代わりに６ビットを使用すると、ＣＣＡＬＦの符号化利得が少し減少するが、それでも興味深いハードウェア設計の妥協点となっている。

図５－ａは、固定小数点小数精度を１０ビットではなく７ビットに制限した場合の、式（３）のＣＣＡＬＦフィルタ係数のビット単位のメモリ表現の一例を示している。そして、４０２のビット単位の表現は、５０１において１３ビット（精度１２ビット、符号１ビット）に削減される。

式（３）の乗算入力のビット数を減らすための第２の変形例は、フィルタ係数の取り得る値の範囲を制限することである。これは、図４－ｂに示す最上位ビットのいくつかを削除することによって達成することができる。驚くべきことに、係数の取り得る値の範囲を大幅に制限しても、ＣＣＡＬＦは依然として効率的に動作することが分かっている。この効果はＣＣＡＬＦに特有のものであり、例えばＡＬＦでは再現されないため、特に驚くべきことである。このような単純化の符号化効率に対する驚くほど低い影響は、本願発明者らが、クロスコンポーネントＡＬＦは、ルマサンプルの勾配が強いところ（例えば、エッジの近く）で最も有用であり、その場所でのクロマエラーは一般に強く、ルマサンプルの勾配と相関していることを発見したからであると説明される。さらに、そのような場所でのＣＣＡＬＦ出力は一般的に小さい／制限された値である（一方、他の場所ではほとんどゼロである）。つまり、数学的に最適なフィルタ係数（実数領域）は一般に振幅が小さく、少ないビット数の整数表現（固定小数点小数）で十分に近似できる。そのため、符号化性能の向上の大部分は、複数の係数のサブセットから達成することができる。本発明の実施形態は、この性質を利用して、符号化性能に大きな影響を与えることなく、計算を簡略化することができる。これは、以下に示す第３及び第４の変形例が機能する理由も説明する：サンプル／係数の精度を下げると、ＣＣＡＬＦ出力の小さな値の推定に大きな影響を与えない一種の「丸め誤差ノイズ」を生成する。

まとめると、以下のことが判明した。
ｉ）係数を－０．０３１２５～０．０３１２５の範囲に制限する（例えば、小数点以下６番目以上のビットを使用しない）ことは、許容できる符号化インパクトである。
ｉｉ）係数を－０．０６２５～０．０６２５の範囲に制限する（例えば、小数点以下５番目以上のビットを使用しない）ことは、符号化に大きな影響を与えない。
ｉｉｉ）係数を－０．１２５～０．１２５の範囲に制限する（例えば、小数点以下４番目以上のビットを使用しない）ことは、符号化にほとんど影響を与えない。
ｉｖ）係数を－０．２５～０．２５の範囲に制限する（例えば、小数点以下３番目以上のビットを使用しない）ことによる符号化への影響はごくわずかです。
ｖ）係数を－０．０１５６２５～０．０１５６２５の範囲に制限する（例えば、小数点以下７番目より高いビットを使用しない）ことは、特定の実施において許容され得る符号化インパクトを有する。

範囲の限界値は、使用可能な係数値に含めても含めなくてもよい。これら３つの範囲を使用した例を以下に詳述するが、代替の範囲を使用することも可能である。

以下の説明では、結果を提供する。これらの結果は、ＪＶＥＴ－Ｎ０１０１０文書に定義された「ＳＤＲビデオのＪＶＥＴ共通試験条件およびソフトウェア参照構成」を用いて得られたものであるが、試験条件をビデオシーケンスの１７個の最初のフレームに適用するように制限している。このように、ＶＴＭ－５．０ソフトウェア（またはＶＴＭ－６．０ソフトウェアを提供するための開発過程での中間開発バージョン）において、本発明の変形例が実施されている。ルマチャネルと両クロマチャネルについて、”全イントラ”（ＡＩ）、”ランダムアクセス”（ＲＡ）、”低遅延Ｂ”（ＬＢ）、”低遅延Ｐ”（ＬＰ）構成の平均ＢＤレート符号化利得結果を参照（例えば、ＶＴＭ－５．０）と比較して求めている。これらの平均チャネル符号化利得は、各クロマチャネルの符号化利得にルマ符号化利得の１４倍を加算し、合計を１６で割って平均ＹＵＶ符号化利得を得ることによって結合される。これは、クロマチャネルがルマチャネルよりも符号化しやすいため、ルマチャネルとクロマチャネルの結果を組み合わせる従来の方法である。ＡＩ、ＲＡ、ＬＢ、ＬＰ構成で得られた平均ＹＵＶ符号化利得は一緒に平均化され、これらの最終平均符号化利得値は符号化利得比較を提供するために一緒に比較される。符号化利得の比較は、（明確に異なることが指定されていない場合）ＪＶＥＴ－Ｏ０６３６寄書で規定された、ＣＣＡＬＦを実施した参照ソフトウェア（すなわち、ＶＴＭ－５．０またはそれ以降の中間開発版）であるが、それを簡単にするための発明は含まれない参照に対するパーセントとして表現される。比較された変形例は、その参照を簡略化して実施されている（すなわち、同じＶＴＭ－５．０またはそれ以降の中間開発バージョンを使用し、本発明で簡略化されたＣＣＡＬＦが実施されている）。パーセンテージは、変形例の符号化利得（これは、同じ品質に対するレート低減のパーセンテージで表される平均的なＢＤレート利得である）と、参照の符号化利得（これも平均的なＢＤレート利得）との間の比率を計算することによって得られる。なお、ＶＴＭ－５．０における参照のＣＣＡＬＦを使用すると、ＶＴＭ－５．０と比較して約－１．２％の平均ＹＵＶ符号化利得が得られる。

以下に示す符号化利得の比較結果は参考であり、別の符号化器の実施において本発明を実施する場合、または別のコーデック仕様において本発明を実施する場合、報告された符号化利得の割合は異なる可能性がある。

以下の説明において、範囲表記は以下の意味で使用される。
－］ｘ，ｙ［は、ｘとｙの間の値の範囲を意味し、ｘもｙも含まない。
－［ｘ，ｙ［は、ｘとｙの間の値の範囲を意味し、ｘを含みｙを含まない。
－］ｘ，ｙ］は、ｘとｙの間の値の範囲を意味し、ｙを含みｘを含まない。
－［ｘ，ｙ］は、ｘとｙの間の値の範囲を意味し、ｘとｙを含む。

［０．０３１２５；０．０３１２５［の範囲の係数を使う（つまり、固定小数点小数精度の６番目より上のビットを使わない）と、ＣＣＡＬＦの大部分の符号化利得を維持し、乗算に使うビット数を大幅に削減することができる。この変形例の一例を図５－ｂに示す。

図５－ｂは、１０ビットの固定小数点小数精度を使用し、係数の可能な値の範囲を範囲［－０．０３１２５；０．０３１２５［に制限する場合の、式（３）のＣＣＡＬＦフィルタ係数のビット単位のメモリ表現の一例を示している。そして、４０２のビット表現は、５０２で６ビット（精度５ビット、符号１ビット）に削減される。

第２の変形例（図５－ｂ）は、図５－ｃに示されるように、第１の変形例（図５－ａ）に組み合わせることができる。

図５－ｃは、固定小数点小数精度を１０ビットではなく７ビットに制限し、係数の可能な値の範囲を範囲［－０．０３１２５；０．０３１２５［に制限した場合の、式（３）のＣＣＡＬＦフィルタ係数のビット単位のメモリ表現の一例を示している。そして、４０２のビット表現は、５０３で３ビット（精度２ビット、符号１ビット）に削減される。

さらに、係数を］－０．０３１２５；０．０３１２５［の範囲に制限する（すなわち、フィルタ係数は値の集合｛－０．０２３４３７５，－０．０１５６２５，－０．００７８１２５，０，００７８１２５，０．０１５６２５，０．０２３４３７５｝の値のみを取ることができる）ことにより、もう少し単純化することができ、各乗算を２つの加算／減算（符号処理による）およびビット単位のシフト（図５－ｃに示すケース）で置き換えることが可能である。例えば、式（３）の乗算は、例えば次のように置き換えることができる。

ここで、≪は整数左ビットシフト演算、≫は整数右ビットシフト演算、Ｂはフィルタ係数（ｆ’^Ｃｂ _{（ｕi，ｖi）}）（図５－ｃ参照）の固定小数点表現の小数精度（７ビット）、Ｉ_{（ｘ＋ｕi，ｙ＋ｖi）}はコーデックの内部ビット深度（通常１０ビット、図４－ｃ参照）と同じ整数精度を有する整数サンプル値である。

乗算は、１つの加算／減算（符号処理に依存）とビット単位のシフトだけで置き換えることもできる。しかし、この場合、ＣＣＡＬＦの符号化利得にさらなる損失が発生する。例えば、固定小数点の精度を６ビットに制限し、係数を］－０．０３１２５；０．０３１２５［の範囲に制限する場合（すなわち、フィルタ係数は値の集合｛－０．０１５６２５，０，０．０１５６２５｝の値のみを取ることができる）実行可能である。また、例えば、固定小数点の精度を７ビットに制限し、係数を］－０．０１５６２５；０．０１５６２５［の範囲に制限する場合（すなわち、フィルタ係数は値の集合｛－０．００７８１２５，０，０．０７８１２５｝の値のみを取ることができる）も実行可能である。第１の変形例を用いると、１０ビット小数精度を用い、］－１；１［の範囲のフィルタ係数を用いた場合と比較して、約７８％のＣＣＡＬＦ利得を維持することができる。第２の変形例を用いると、ＣＣＡＬＦの利得を約７６％に抑えることができる。

他のいくつかの変形例では、係数の値の範囲は、［－０．０６２５；０．０６２５［、］－０．０６２５；０．０６２５［、［０．１２５；０．１２５［、］０．１２５；０．１２５［、［－０．２５；０．２５］、または、］－０．２５；０．２５］である。すなわち、１、２、３個の追加の最上位ビットは係数の（小数）精度について保持されている。例えば、図５－ｃの変形例として、フィルタ係数のために２ビットの代わりに３または４ビットが保持される。このような変形例では、追加ビットは図５－ｃで保持されるビットよりも１または２高いビットである。この４つの変形例の２番目と４番目は、それぞれ３および４の加算／減算（符号処理による）とビット単位のシフトによって乗算を置換することができる。

式（３）の乗算入力のビット数を減らす３つ目の変形例は、サンプル値の精度を下げることである。これは、サンプル値の最下位ビットを考慮しないことで実現できる（これは、ＣＰＵ実施を使用した右へのビット単位のシフトを使用することと同等である）。例えば、式（３）は次のように書き換えることができる。

ここで、ＤＢはデッドビット（無視される／考慮されないビット）の数に相当する。本変形例の乗算に用いられるサンプル値Ｉ_{（ｘ＋ｕi，ｙ＋ｖi）}≫ＤＢ）のビット表現の一例を図５－ｄに示す。

図５－ｄは、ＶＴＭ－５．０の内部ビット深度が１０ビットの場合に、式（３）の乗算演算のハードウェア実施を簡単にするためにサンプル値の精度を１０ビットから６ビットに制限した場合の式（３）で使用するサンプル値のビット単位のメモリ表現の一例を示したものである。クロスしたボックスは使用されないビットを表す。４０３のビット表現が５０４で６ビットに削減される。

変形例としては、例えば、除去された最上位ビットの値を用いてサンプル値を（例えば、除去された最上位ビットが１である場合、ビット数が削減された表現に１を加えることによって、または等価的に、不要なビットを除去／考慮しない前に除去された最上位ビットの１に対応する値を加えることによって）「丸める」ことが挙げられる。サンプル精度を下げることがＣＣＡＬＦの符号化効率に大きな影響を与える場合、このような変形例は興味深いものであるが、最下位ビットを無視するだけの場合と比較して、追加の演算やメモリの使用を意味することにもなる。

ＣＣＡＬＦによって改善されたＶＴＭ－５．０では、フィルタを行う際にサンプル値の上位６ビットのみを保持しても、符号化効率に大きな影響を与えないことが分かっている。例えば、内部ビット深度が１０ビットの場合、サンプル値の下位４ビットは無視でき、ＣＣＡＬＦの効率に与える影響は小さくなる。サンプル値の最上位６ビットより少ないビットを保持することは可能であるが、ＣＣＡＬＦの符号化効率は低下する。例えば、フィルタ処理を行う際にサンプル値の最上位４ビットを保持する（つまり、１０ビットサンプルの最下位６ビットを削除する）と、驚くほど興味深い利得が得られる（平均して、１０ビットサンプルの全サンプル精度を使用した場合と比較して、約８８％のＣＣＡＬＦ利得が維持される）。一方、最上位５ビットを維持すると、完全なサンプル精度を使用した場合と比較して、約９５％のＣＣＡＬＦ利得が維持される。最上位６ビットの場合、約９８％の利得が保持される。最上位ビットを６つ以上保持しても、結果はわずかに増加するだけである。例えば、７または８個の最上位ビットを保持する（すなわち、１０ビットの内部ビット深度の下位３または２ビットを削除する）ことで、完全なサンプル精度のＣＣＡＬＦ利得の９９％程度の結果が得られる。

第４の変形例として、式（２）で表されるＣＣＡＬＦフィルタは、ＶＴＭ－５．０の非線形ＡＬＦ（ＮＬＡＬＦ）のフィルタ定式化に近くなるように修正されている。

ここで、ｆ^Ｃｂ _{（ｕi，ｖi）}は依然としてフィルタ係数であるが、参照サンプルのオフセット（ｕi，ｖi）におけるフィルタ形状のサンプルＩ_{（ｘ＋ｕi，ｙ＋ｖi）}と参照サンプルＩ_{（ｘ，ｙ）}の値の差分を表す数値を乗じて表現している。（４０１の灰色ドット背景のボックス）は、位置が（ｘ，ｙ）である。差分値を表す図形は、参照サンプルに隣接するサンプルに対する差分に相当するグラデーションであってもよい。グラデーションを用いると、参照サンプルに隣接するサンプルと隣接しないサンプルの両方に対する差分の正規化が行われることを表すことになる。

式（１２）は、式（２）が式（３）で整数演算で実施されたのと同様に、整数演算で実施することができる。

ここで、≪は整数左ビットシフト演算、≫は整数右ビットシフト演算、Ｂはフィルタ係数ｆ’^Ｃｂ _{（ｕi，ｖi）}の固定小数点表現の小数精度（通常１０ビット）であり（図４－ｂ参照）、Ｉ_{（ｘ＋ｕi，ｙ＋ｖi）}とＩ_{（ｘ，ｙ）}はコーデックの内部ビット深度（通常１０ビット、図４－ｃ参照）と同じ整数精度での整数サンプル値である。この定式化を使用する場合、Ｉ_{（ｘ＋ｕi，ｙ＋ｖi）}のビット表現と比較し、（Ｉ_{（ｘ＋ｕi，ｙ＋ｖi）}－Ｉ_{（ｘ，ｙ）}）のビット表現は、符号を示す１ビットが追加されることになる。これを図６－ａに示す。いくつかの代替例では、ｆ’^Ｃｂ _{（０，０）}は常に０に等しく、ビットストリームには符号化されない。他の代替例ではｆ’^Ｃｂ _{（０，０）}・Ｉ_{（ｘ，ｙ）}は必ずしも０にならず、この乗算は参照サンプルの差分を使用しない他の乗算と同様に処理される。

図６－ａは、ＶＴＭ－５．０の１０ビット内部ビット深度の式（１３）におけるサンプル値の差分（Ｉ_{（ｘ＋ｕi，ｙ＋ｖi）}－Ｉ_{（ｘ，ｙ）}）が１６ビット整数メモリ空間６０１（またはレジスタ）に格納された場合のビット単位のメモリ表示を示す図である。クロスしたボックスは使用されないビットを表す。

ハードウェア設計の観点からは、参照サンプルとの差は、ルマサンプルのＮＬＡＬＦフィルタのために既に存在／計算されているので、コストはかからない（ＣＣＡＬＦフィルタのフィルタ形状は、ＮＬＡＬＦのルマ用フィルタの形状に含まれる）。

式（３）のフィルタを使用した場合のＣＣＡＬＦの符号化利得は、式（１３）のフィルタを使用した場合と同等である。

この表現の利点は、乗算の入力のビット数を減らすために、より少ないビット数で表現できる範囲にとどまるように差分値をクリップすることができることである。

ここで、Ｋは例えばクリッピング関数である。

またはそれに準じて、Ｋ（ｄ，Ｃ）＝ｍａｘ（Ｃ，ｍｉｎ（－Ｃ，ｄ））であり、ここでＣはクリッピングパラメータ、ｄは差分を表す数値である。この式は、クリッピングパラメータＣが各サンプル位置で同じであり、その値は固定で、乗算の入力であるＫ（Ｉ_{（ｘ＋ｕi，ｙ＋ｖi）}－Ｉ_{（ｘ，ｙ）}，Ｃ）を格納するビット数を制限するために選ばれるのに対し、非線形ＡＬＦではクリッピングパラメータＣが各サンプル位置で変化しその値がフィルタ係数と共に（ＡＰＳで）送信される点で、ＶＴＭ－５．０の非線形ＡＬＦと特に異なることに注意する必要がある。

Ｃの特に有利な固定値は、２^{ＩＢｉｔＤｅｐｔｈ－２}－１または２^{ＩＢｉｔＤｅｐｔｈ－３}－１であることが判明しており、ＩＢｉｔＤｅｐｔｈはコーデックの内部ビット深度（すなわち、サンプル値を表すためのビット数）である。例えば、１０ビットの内部ビット深度では、Ｃの良い値は２５５または１２７である。この例のクリッピング演算では、乗算の入力において２～３ビットを節約することができる。

Ｃの値を小さくすることも可能であるが、ＣＣＡＬＦの符号化効率を低下させる傾向があり、逆に値を大きくするとクリッピング処理による単純化の効果が減少する。そのため、クリッピングパラメータＣの一般化は２^{ＩＢｉｔＤｅｐｔｈ－ｎ}－１となり、ｎはＩｂｉｔＤｅｐｔｈよりも小さい整数となる。ｎが小さいと、符号化効率の低下は少ないが、簡略化に伴う利点も少なく、ｎが大きいとその逆となる。

図６－ｂは、内部ビット深度が１０ビット、Ｃ＝２５５の場合の、式（１４）のクリップされた差分Ｋ（Ｉ_{（ｘ＋ｕi，ｙ＋ｖi）}－Ｉ_{（ｘ，ｙ）}，Ｃ）を１６ビット整数メモリ空間６０２（またはレジスタ）に記憶する場合のビット単位のメモリ表現例である。

第４の変形例は、第３の変形例と組み合わせて、クリップされた差分値Ｋ（Ｉ_{（ｘ＋ｕi，ｙ＋ｖi）}－Ｉ_{（ｘ，ｙ）}，Ｃ）の低精度ビットを無視できるようにすることが可能である。特に有利な組み合わせは、第２変形例と同じ数の下位ビット除去を維持することであり、ＣＣＡＬＦ符号化利得に大きな影響を与えないようにすることである。この例を図６－ｃで説明する。

図６－ｃは、内部ビット深度１０ビット、Ｃ＝２５５の場合の、下位４ビットを無視したＫ（Ｉ_{（ｘ＋ｕi，ｙ＋ｖi）}－Ｉ_{（ｘ，ｙ）}，Ｃ）を記憶するビット単位のメモリ表現の一例を示す図である。すると、乗算の入力では、Ｋ（Ｉ_{（ｘ＋ｕi，ｙ＋ｖi）}－Ｉ_{（ｘ，ｙ）}，Ｃ）を表すのに１０ビットではなく、残りの精度４ビットと符号用の１ビット６０３だけでよいことになる。これは、計算されるビット数の大幅な節約を意味し、より単純な実施に帰結する。

いくつかの実施形態では、４つの変形例の組み合わせが実行される。例えば、乗算演算の出力結果が１０精度ビット＋１符号ビットで表現できるように、変形例１、２、３、および任意に４を組み合わせ、乗算結果の合計が最大１５ビット＋１符号ビットで表現できる（したがって、１６ビットレジスタまたはメモリ空間に表現可能／記憶可能）ようにすることが可能である。このような実施形態は、特にハードウェア実施に適している。図７－ａ、図７－ｂは、クロマサンプル値に結果を加算するための最終丸めおよびビットシフト前の、フィルタ演算の中間表現（乗算出力）および最終表現（合計結果）の一例を示している。

図７－ａは、サンプル値の上位８ビットのみを保持し（例えば図５－ｄのように）、係数の小数部分を７ビット精度で保持し、［－０．０３１２５；０．０３１２５［または］－０．０３１２５；０．０３１２５［の係数範囲（例えば図５－ｃのように２ビット＋符号ビット）でｆ’^Ｃｂ _{（ｕi，ｖi）}・Ｉ_{（ｘ＋ｕi，ｙ＋ｖi）}を格納する場合のビット単位のメモリ表現例であり、これにより１０ビット＋１符号ビットで乗算結果を格納できることになる。

ルマビット深度ＩＢＤＬとクロマビット深度ＩＢＤＣが異なる場合の式（４）と、ルマサンプル値に対して保持する最高精度ビット数ＫＢをＤＢ＝ＩＢＤＬ－ＫＢとした式（１１）（この例ではＫＢ＝８）を用いると、式（３）は次のように書き換えることができる。

かつ、Ｂ３＝ＤＢ＋（ＩＢＤＬ－ＩＢＤＣ）＝２．ＩＢＤＬ－ＩＢＤＣ－ＫＢ、Ｂ４＝ＢＤＰＣ－Ｂ３で、ＢＤＰＣは係数の小数部のビット数（例えば、この例では係数の小数部の精度を７ビットとしてＢＤＰＣ＝７）、ｆ’^Ｃｂ _{（ｕi，ｖi）}の係数の整数表現（すなわち、この例では、［－０．０３１２５；０．０３１２５［または］－０．０３１２５；０．０３１２５［の範囲の固定小数値の整数値、この例では、整数値は［－４；３］または［－３；３］の範囲の値をとる）である。この式は、ＫＢ≦２．ＩＢＤＬ－ＩＢＤＣ≦ＢＤＰＣ＋ＫＢ－１の場合に有効である。ＫＢ≦２．ＩＢＤＬ－ＩＢＤＣかつ２．ＩＢＤＬ－ＩＢＤＣ＝ＢＤＰＣ＋ＫＢ（すなわちＢ４＝０）の場合、式（１６）は次のように置き換えることができる。

ＫＢ≦２．ＩＢＤＬ－ＩＢＤＣかつ２．ＩＢＤＬ－ＩＢＤＣ＞ＢＤＰＣ＋ＫＢのとき、式（１６）は、以下のように置き換えることができる。

であり、２．ＩＢＤＬ－ＩＢＤＣ＜ＫＢのとき、式（１６）は、次のように置き換えることができる。

所与の例では、ＫＢ＝８で、１０ビットのルマとクロマのビット深度（すなわち、ＩＢＤＬ＝ＩＢＤＣ＝１０）に対して、式（１６）は次のように書き換えることができる。

この結果、各係数は２ビットと符号ビットで表され、各サンプルは削減された８ビットと、オプションとして（実施／設計の選択に応じて）符号ビット（０に等しい）で表され、その結果、乗算結果は８ビットと符号で表すことができるのである。

図７－ａは、サンプル値の上位６ビットのみを保持し（例えば図５－ｄより上位２ビット）、係数の小数部の精度を７ビットとし、［－０．１２５；０．１２５［または］－０．１２５；０．１２５［の係数の範囲（すなわち、４ビット＋符号ビットでこれらを格納するために例えば、図５－ｃより２ビット多い）でｆ’^Ｃｂ _{（ｕi，ｖi）}・Ｉ_{（ｘ＋ｕi，ｙ＋ｖi）}を格納する場合のビット単位のメモリ表現例を提供するのに有効である。乗算結果は１０ビット＋１符号ビットに格納することができる。

この例では、ＫＢ＝６である。ルマとクロマのビット深度が１０ビット（すなわちＩＢＤＬ＝ＩＢＤＣ＝１０）の場合、式（１６）は次のように書くことができる。

図７－ｂは、図７－ａで説明したようにｆ’^Ｃｂ _{（ｕi，ｖi）}・Ｉ_{（ｘ＋ｕi，ｙ＋ｖi）}で表現され計算される場合、和演算Σiｆ’^Ｃｂ _{（ｕi，ｖi）}・Ｉ_{（ｘ＋ｕi，ｙ＋ｖi）}を計算し保存するためのビット単位のメモリ表現の例を提供する。これは、フィルタが図４－ａのように、１８の乗算結果のうち１７の異なる加算を行う場合であることを理解する必要がある。１７回の加算のうち最悪の場合（固定小数点値を格納する１０ビットの整数値を考慮した場合）は、整数値－２^１０＝－１０２４の１８倍（すなわち１５ビットと符号ビットで格納できる－１８４３２）となり、１５ビットと符号ビットで加算結果を表現できることを意味する。

さらなる（第５の）変形例では、図４－ａのフィルタパターンを変更し、１８サンプルの代わりに１６サンプル以下がフィルタ処理に使用されるようにする。このため、和演算において１ビットを節約することができる。また、乗算演算がなくなるので、フィルタの計算が簡単になる利点もある。例えば、図４－ｂでは、２９精度ビットと１符号ビットを使用する代わりに、２８精度ビットと１符号ビットだけが使用され、図７－ｂでは、１５精度ビットを使用する代わりに、１４精度ビットだけが使用されることになる。その第５の変形例を用いたいくつかの変形例では、加算演算で節約されたビットは、乗算結果の精度を高めるために費やされる。例えば、図７－ａでは、１０ビットの代わりに１１ビット精度が使われる。ある変形例では、１０精度ビットのうち小数部を（７ビットから８ビットへ）１ビット増やす。これは、係数値の小数部に１つ低い精度のビットを追加することで実現することができる。例えば図５－ｃでは、一番右の使用済みのビットが再び使用されることになる。あるいは、第３の変形例が使用される場合、サンプル値に対してさらに１つの精度ビットを使用することによって達成することができる。例えば、図５－ｄでは、一番右のビットが再び使用されるであろう。第２の代替として、１０精度ビットのうち整数部が（３ビットから４ビットへ）１ビット増加する。これは、係数値に１つ高い精度のビットを追加する（つまり、可能な係数値の範囲を広げる）ことで達成される。例えば図５－ｃでは、一番左の使用済みのビットが再び使用されることになる。

これらの第５の変形例は、固定サイズを有するレジスタを有する既存のハードウェアを使用し、結果がレジスタに適合するときはいつでも乗算のコストが同じである場合（例えば、所定のサイズのレジスタまたはメモリ位置を意味する動作を処理するＣＰＵに対する命令として動作するソフトウェア実施の場合）、特に興味深いものである。また、ハードウェア設計において、固定サイズの演算を実施するために既存の所定の回路テンプレートを使用し、一部のビットが使用されていなくても問題（例えば、開発速度／コストの問題）ない場合にも有用である。この場合、例えば１６ビット入力と３２ビット出力で実施した場合、１０ビットと１１ビットの乗算のコスト（実行レイテンシと実施に使用する論理ゲート数）は変わらないが、ＣＣＡＬＦの符号化利得は、１ビット多く使用するので、第２バージョンの方がわずかに優れている。

代替として、８サンプル（またはそれ以下）をフィルタに使用し、合計演算で２ビット（またはそれ以上）を節約することができる。例えば、８サンプルを使用する図７－ｆ（２ビット節約）、または４サンプルだけを使用する図７－ｇ（３ビット節約）などを参照されたい。その代替の変形例では、合計で節約された２ビット（またはそれ以上）は、例えばフィルタ処理中に、より精度を持ち１６ビットレジスタの精度を完全に使用するために乗算の入力間で再分配される。

図７－ｃは、フィルタのために１６サンプルのみを使用するフィルタパターン７０６の一例を提供する。そのフィルタパターンを用いると、フィルタの動作は以下のようになる。

このサンプルの選択は、「菱形（ダイヤモンド）」形状として記述することができ、各サンプルは、参照サンプルに対して位置（ｘ＋ｕ，ｙ＋ｖ）を有し、ｕ∈［－２，２］およびｖ∈［－１，２］であり、｜ｕ｜＝２のときｖ∈［０，１］である。

図７－ｄは、フィルタに１６個のサンプルを使用したフィルタパターン７０７の他の例を示している。このパターンは、ＹＵＶ４：２：０ビデオ表現を使用する場合、図７－ｃのものよりも適しており、クロマサンプルのサブサンプル位置は、７０７のサンプル５、サンプル６、サンプル９、サンプル１０の位置の中間に位置している。一変形例によれば、２つ以上のフィルタパターンが利用可能であり、ＹＵＶ４：２：０におけるクロマサブサンプリングに従って１つのフィルタパターンが選択される。１つの変形例では、フィルタパターンインデックスは、例えばパラメータセット（例えばＳＰＳ又はＰＰＳ）において、ビットストリームにおいて提供／シグナリングされる。そのフィルタパターンで、フィルタ動作は以下のようになる。

このサンプルの選択は、各サンプルが、参照サンプルに対して位置（ｘ＋ｕ，ｙ＋ｖ）を有し、ｕ∈［－１，２］、ｖ∈［－１，２］であると表現することができる。

図７－ｅは、フィルタに１２サンプルを使用したフィルタパターン７０８の例である。このパターンでは、図７－ｃのパターンよりも少ないサンプル数でアクセスでき、ビットストリーム内の係数を少なく符号化できるが、合計演算に使用されるビット数をさらに減らすことはできない。そのフィルタパターンで、フィルタの動作は、以下のようになる。

このサンプルの選択は、各サンプルが、参照サンプルに対して位置（ｘ＋ｕ、ｙ＋ｖ）を有し、ｕ∈［－１，１］、ｖ∈［－１，２］であると表現することができる。

図７－ｆは、フィルタのために８つのサンプルだけを使用するフィルタパターン７０９の例を提供する。このパターンでは、図７－ｃのパターンと比較して、さらに加算演算に使用するビット数を１ビット削減することができる。また、図４－ａのパターンと比較して、２ビット削減することが可能である。このフィルタパターンでは、フィルタの動作は以下のようになる。

このサンプルの選択は「菱形」と表現することができ、各サンプルは参照サンプルに対して位置（ｘ＋ｕ、ｙ＋ｖ）を有し、ｕ∈［－１，１］、ｖ∈［－１，２］であり、｜ｕ｜＝１のときｖ［０，１］である。

図７－ｇは、フィルタのために４つのサンプルだけを使用するフィルタパターン７１０の例を提供する。このパターンでは、図７－ｆのパターンと比較して、和演算に使用されるビット数をさらに１つ減らすことができる。また、図４－ａのパターンと比較して、３ビットの削減が可能である。このフィルタパターンで、フィルタの動作は、以下のようになる。

このサンプルの選択は、各サンプルが参照サンプルに対して位置（ｘ＋ｕ，ｙ＋ｖ）を有し、ｕとｖが共に［０，１］に属すると表現することができる。

他のいくつかの変形例では、加算のコストは実質的にゼロである。乗算入力は、乗算出力／結果が１６ビット（すなわち、１５精度ビットと１符号ビット）の符号付き数値になるように制限される。次に、サンプル値に１０ビットを使用する場合、係数値は、５ビット＋１符号ビットで表現できるように、所定の精度で、所定の範囲に制限される。これらの変形例では、乗算演算は１６ビットのレジスタで行われるものもあります。

一実施形態では、係数の小数精度は、例えば、パラメータセット（例えば、ＡＰＳ、ＳＰＳまたはＰＰＳ）、またはスライスヘッダにおいて、第１の精度情報として、ビットストリーム内でシグナリングされる。

一実施形態では、係数の範囲（または可能な範囲のセット内のインデックス）は、例えば、パラメータセット（例えば、ＡＰＳ、ＳＰＳまたはＰＰＳ）内またはスライスヘッダ内で、第２の精度情報としてビットストリーム内でシグナリングされる。

一実施形態では、サンプル値の保持ビット数（すなわちＫＢ）または代替的にデッドビット数（すなわちＤＢ）は、第３の精度情報として、例えばパラメータセット（例えばＡＰＳ、ＳＰＳまたはＰＰＳ）内またはスライスヘッダ内で、ビットストリーム内でシグナリングされる。

一実施形態では、第１、第２、および／または第３の精度情報のいずれか１つの組み合わせが、例えばパラメータセット（例えばＡＰＳ、ＳＰＳまたはＰＰＳ）内、またはスライスヘッダ内で、ビットストリーム内でシグナリングされる。

一変形例では、ビットストリーム内でシグナリングされる第１、第２および／または第３の精度情報のいずれかのかかる組み合わせの許容値は、例えば１６などの固定最大ビット数を使用して乗算演算が計算され得る最悪ケースを保証するものとする。変形例として、最悪ケースは、加算動作中に使用される最大ビット数も考慮する。

一実施形態では、第１、第２及び／又は第３の精度情報のいずれかの組み合わせの可能な値のセットにおけるインデックスがシグナリングされる。

１つの変形例では、そのようなセットは、乗算演算が固定された最大ビット数、例えば１６を使用して計算され得る最悪ケースを保証するために定義される。変形例では、最悪ケースは、加算演算中に使用されるビットの最大数も考慮する。

第１、第２及び／又は第３の精度情報のいずれかの組み合わせが、第１及び第２の精度情報（すなわち、小数精度及び保持範囲）を含む実施形態に対する変形例では、浮動小数点表現の仮数サイズ（ビット数）及び固定指数をシグナリングすることである。

ある変形例では、フィルタ係数に固定小数点表現を使用する代わりに、特定の浮動小数点表現を使用し、限られたビット数の演算で計算されることが保証されている。言い換えれば、各係数インデックスに対して、第１、第２、第３の精度情報のいずれかの組み合わせが通知される。

説明された例、変形例及び／又は実施形態において、使用されるビット深度及びサンプル値の精度に応じて、係数の表現の最下位ビットを同じ量だけシフトさせながら（同じ精度を保つために）、係数の範囲を上下にシフトし得る（すなわち２のべき乗で掛ける）ことが理解され、同等の数学結果を提供することができる。つまり、係数値（またはサンプル値）の［範囲］は、サンプル値（または係数値の［範囲］）のスケーリングの逆数でスケーリングされる。

これはビット単位のシフトでも同じであり、Ｂによる左ビット単位のシフトは２^Ｂによる乗算と等しく、右シフトは２^Ｂによる整数の除算とほぼ等しい（違いは、負の数の場合、左シフトでは丸めがマイナス無限大に向かうのに対し、整数の除算では０に向かうことである）。

また、サンプル値やフィルタ係数のビット表現の簡略化は、上記のビット演算によって「フィルタ中」に行われたが、フィルタ前にこれらの値を個別に前処理することも可能であることが理解されるべきである。

シグナリング
図３の入力ＣＣＡＬＦパラメータ３０５および３０６は、異なる粒度レベルでＣＣＡＬＦを有効／無効にするためのフラグを含んでもよい。フラグのシグナリングの一例を以下に示す。

特定の実施形態では、１つのフラグが、例えばシーケンスパラメータセット（ＳＰＳ）又はピクチャパラメータセット（ＰＰＳ）というパラメータセットにおいてシグナリングされる。このフラグは、シーケンスレベルまたはピクチャーレベルでＣＣＡＬＦツールを作動させるか否かを可能にする。ＣＣＡＬＦツールが有効な場合、スライスヘッダ内のクロマ成分トごとに１つのフラグがシグナリングされる。これにより、スライス内のクロマ成分毎にＣＣＡＬＦの有効／無効を設定することができる。スライスにおいてＣＣＡＬＦが有効な場合（すなわち、少なくとも１つのクロマ成分においてＣＣＬＡＦが有効な場合）、ＣＣＡＬＦが有効なクロマ成分毎に、ｃｃａｌｆ＿ｃｔｂ＿ｆｌａｇ＿ｃｂ［ｘ］［ｙ］（Ｃｂ成分用）又はｃｃａｌｆ＿ｃｔｂ＿ｆｌａｇ＿ｃｒ［ｘ］［ｙ］（Ｃｒ成分用）フラグは、ｘ，ｙが画像における水平、垂直ＣＴＵ座標／インデックスであるスライスの各ＣＴＵのＣＴＵデータにおいて符号化される。このフラグにより、クロマＣＴＢ内のＣＣＡＬＦが有効か無効かの信号が出力される。クロマＣＴＢでＣＣＡＬＦが有効な場合、クロマサンプルはＣＴＢのルマサンプルを使って（例えば、前述したように）ＣＣＡＬＦで補正／フィルタされる。

フラグはＣＡＢＡＣ（コンテキスト適応二値算術符号化）を使用して通知され、クロマ成分ごとに３つのＣＡＢＡＣコンテキストを使用する。インデックスｃｏｍｐｏｎｅｎｔＩｄｘを持つ与えられたクロマ成分に対して、コンテキストは、同じスライスに属する上（［ｘ］［ｙ－１］）と左（［ｘ－１］［ｙ］）ＣＴＵでアクティブであるｃｃａｌｆ＿ｃｔｂ＿ｆｌａｇ＿ｃｂ（Ｃｂ成分用）またはｃｃａｌｆ＿ｃｔｂ＿ｆｌａｇ＿ｃｒ（Ｃｒ成分用）の数（それらが存在し／利用できる場合）を数え、コンテキストインデックスとしてその値を用いることによって選択される。

ＶＴＭ－５．０に対応する多用途ビデオ符号化（ドラフト５）と同じ表記と規則で、ｃｃａｌｆ＿ｃｔｂ＿ｆｌａｇ＿ｃｂ［ｘ］［ｙ］とｃｃａｌｆ＿ｃｔｂ＿ｆｌａｇ＿ｃｒ［ｘ］［ｙ］のシグナリングの例を表１に示す。

ｃｏｄｉｎｇ＿ｔｒｅｅ＿ｕｎｉｔ（）構文

実施形態によれば、スライス専用にフィルタ係数を適合させて送信できるようにするために、従来スライスパラメータで行われていたように、ＣＣＡＬＦフィルタの係数はスライスヘッダでシグナリングされる。あるクロマ成分に対してＣＣＡＬＦが有効であることが示された場合、対応するフィルタの各係数はビットストリーム内／ビットストリームから順次符号化／復号化される。

ＣＣＡＬＦの係数は、通常、ゴロム（Ｇｏｌｏｍｂ）可変長符号を用いて符号化される。しかし、上述した係数を表すビットの削減を実施する場合、符号化を簡略化することができる。具体的には、係数値を格納するビット数が削減されるため、符号化効率を落とさずに、より解析が簡単な符号化方式を用いることができる。

特に、ゴロム符号化では、係数を正しく復号化するために「調整可能パラメータ」（Ｍ）をシグナリングする必要があり、これはビットストリームのオーバーヘッドを増加させる。本発明は、他のパラメータを参照することなく、スライスヘッダ内の係数を直接シグナリングすることに関する。言い換えれば、係数は、固定表現を用いて（すなわち、「調整可能パラメータ」を参照することなく）符号化される。これは、符号ワードがデリミタ（推論または明示的に符号化されたもの）のない単一の要素であるという点で、「プレフィックスフリー」または「カンマフリー」であると表現することができる。

第１の代替では、上述の第１および第２の変形例を組み合わせる場合に特に適しているが、係数値の使用／有効ビットは、圧縮（すなわち、値が何であれ、符号を表すための固定ビット数）なしでビットストリームにこのまま格納される。例えば、図５－ｃのように係数が表現される場合、係数はビットストリーム中の３ビット（例えば符号ビットと２つの小数精度ビット）に格納することができる。

第２の代替として、低振幅の係数のコストを削減するために、一種の符号付き単項符号化が使用される。ビットストリームの第１のビットは係数がゼロかどうかを示し、次に係数がゼロでない場合、ビットは係数の符号を示し、次に１に等しいビットのシーケンスは係数の振幅を示す。１に等しいビットの数は、「係数の整数表現」の絶対値から１を引いた値に等しい。係数の整数表現とは、５０３の整数値のビットで表現される整数値のことである。「マイナス１」を用いるのは、ゼロに等しい情報が既に符号化されているためである。そして、絶対値が最大可能／許可された値より低い場合、ゼロに等しいビットは、その数値のシグナリングの終了を示す。これは、絶対値から１を引いた値の単項符号化に相当する。この表現に対する復号化処理は、表２に示すアルゴリズムでまとめることができる。

第２の代替の係数復号化アルゴリズム

可能な係数値の非対称範囲が使用されるいくつかの変形例では、表２において「ＣＣＡＬＦ＿ＭＡＸ＿ＣＯＥＦＦ＿ＶＡＬＵＥ」が「－ＣＣＡＬＦ＿ＭＩＮ＿ＣＯＥＦＦ＿ＶＡＬＵＥ」に等しくない場合、数の最大可能／認可値は負の数と正の数で異なることができる。例えば、図５－ｃの表現を用いた場合、可能な係数値の範囲が［－０．０３１２５；０．０３１２５［（すなわち［－０．０３１２５；０．０２３４３７５］）であれば、最大可能／許可値は、負の数では（－０．０３１２５は整数の－４で表されるので）４、正の数では（０．０２３４３７５は整数の３で表されるので）３である。この例では、第１のビットが１であれば数値は０であり、符号ビットが１であれば数値は負であることを意味する。そして、ビットストリームにおける係数の表現は次のようになる：－０．０３１２５に対して「０１１１１」（すなわち、－４＝ＣＣＡＬＦ＿ＭＩＮ＿ＣＯＥＦＦ＿ＶＡＬＵＥ）、－０．０２３４３７５に対して「０１１１０」（すなわち－３）、－０．０１５６２５に対して「０１１０」（すなわち－２）、－０．００７８１２５に対して「０１０」（すなわち－１）、０．０に対して「１」、０．００７８１２５に対して「０００」（すなわち１）、０．０１５６２５に対して「００１０」（すなわち２）、０．０２３４３７５に対して「００１１」（すなわち、３＝ＣＣＡＬＦ＿ＭＡＸ＿ＣＯＥＦＦ＿ＶＡＬＵＥ）である。いくつかの変形例では、第１のビットが１に等しい場合、その数値が０でないことを意味することがある。いくつかの変形例では、符号ビットが１に等しいと、数値が正であることを意味することがある。いくつかの変形例において、数の単項符号化は、（数が最大値より低い場合）１に等しいビットシーケンスが後続する０に等しいビットシーケンスであり得る。

第３の代替として、ビットストリームは、まず、係数の絶対値に対する整数表現の単項符号化を行う。非ゼロの場合は、符号ビットがそれに続く。表３のアルゴリズムは、この表現に対する復号化処理の一例を示している。この第３の代替では、係数の絶対値を復号化する前に符号を知ることはできない。そして、単項符号化に用いられる最大値は、正の値と負の値で同じである（表３のＣＣＡＬＦ＿ＭＡＸ＿ＣＯＥＦＦ＿ＡＢＳＯＬＵＴＥ＿ＶＡＬＵＥ）。例として、図５－ｃの表現は、可能な係数値の範囲を［－０．０２３４３７５；０．０２３４３７５］に等しく設定して使用する（すなわちＣＣＡＬＦ＿ＭＡＸ＿ＣＯＥＦＦ＿ＡＢＳＯＬＵＴＥ＿ＶＡＬＵＥ＝３）。そして、ビットストリームにおける係数の表現は次のようになる：－０．０２３４３７５に対して「１１１１」（すなわち－３）、－０．０１５６２５に対して「１１０１」（すなわち－２）、－０．００７８１２５に対して「１０１」（すなわち－１）、０．０に対して「０」、０．００７８１２５に対して「１００」（すなわち１）、０．０１５６２５に対して「１１００」（すなわち２）、０．０２３４３７５に対して「１１１０」（すなわち３）である。

第３の代替の係数復号化アルゴリズム

いくつかの変形例では、ＣＣＡＬＦフィルタの係数はＡＰＳ（または別のパラメータセット）でシグナリングされる。ｓｌｉｃｅ＿ｃｃａｌｆ＿ｅｎａｂｌｅ＿ｆｌａｇ＿ｃｂがスライスヘッダの１に等しいとき、スライスヘッダは、Ｃｂクロマ成分のためにＣＣＡＬＦフィルタの係数が検索されなければならないＡＰＳ（または他のパラメータセット）のインデックス／識別子も提供する。スライスヘッダのｓｌｉｃｅ＿ｃｃａｌｆ＿ｅｎａｂｌｅ＿ｆｌａｇ＿ｃｒが１のとき、スライスヘッダは、Ｃｒクロマ成分についてＣＣＡＬＦフィルタのフィルタ係数を取得しなければならないＡＰＳ（または他のパラメータセット）のインデックスも提供する。図４－ａに示されるようなフィルタパターンを使用する場合、いくつかの係数はいくつかのサンプル位置と共有されるので、ビットストリームに存在するフィルタ係数の数は、フィルタ形状に使用されるサンプルの数よりも小さくなる。

本発明の実施の形態について
前述の１つまたは複数の実施形態は、前述の１つまたは複数の実施形態の方法のステップを実行する符号化器または復号化器の形態で実施され得る。以下の実施形態は、そのような実施を例示する。

例えば、前述の実施形態のいずれかによる適応ループフィルタは、図８の符号化器によって実行されるポストフィルタ９４１５または図９の復号化器によって実行されるポストフィルタ９５６７において使用されてもよい。

図８は、本発明の一実施形態による符号化器のブロック図である。符号化器は、接続されたモジュールによって表され、各モジュールは、例えば、装置の中央処理装置（ＣＰＵ）によって実行されるプログラミング命令の形態で、本発明の１つ以上の実施形態による画像シーケンスの画像を符号化する少なくとも１つの実施形態を実施する方法の少なくとも１つの対応するステップを実施するように適合されている。

デジタル画像ｉ０からｉｎ９４０１のオリジナルシーケンスは、符号化器９４００によって入力として受信される。各デジタル画像は、時には複数の画素とも呼ばれるサンプルの集合によって表される（以下、これらを複数の画素と呼ぶ）。符号化処理の実施後、符号化器９４００によってビットストリーム９４１０が出力される。ビットストリーム９４１０は、複数の符号化ユニットまたはスライスなどの画像部分のデータを含み、各スライスは、スライスの符号化に使用される符号化パラメータの符号化値を送信するためのスライスヘッダと、符号化されたビデオデータからなるスライスボディとを含む。

入力されたデジタル画像ｉ０からｉｎ９４０１は、モジュール９４０２によって複数の画素の複数のブロックに分割される。ブロックは画像部分に対応し、可変サイズ（例えば、４ｘ４、８ｘ８、１６ｘ１６、３２ｘ３２、６４ｘ６４、１２８ｘ１２８画素およびいくつかの矩形ブロックサイズも考慮できる）であってもよい。符号化モードは、各入力ブロックごとに選択される。空間予測符号化（イントラ予測）と時間予測符号化（インター符号化，ＭＥＲＧＥ，ＳＫＩＰ）の２つの符号化方式がある。可能な符号化モードがテストされる。

モジュール９４０３は、符号化される所定のブロックが、符号化されるブロックの近傍の画素から計算される予測器によって予測される、イントラ予測処理を実行する。選択されたイントラ予測器の表示と、与えられたブロックとその予測器との間の差は、イントラ符号化が選択された場合、残差を提供するために符号化される。

時間予測は、動き推定モジュール９４０４と動き補償モジュール９４０５によって実施される。まず参照画像のセット９４１６の中から参照画像が選択され、参照画像のうち、符号化されるべき所定のブロックに最も近い（画素値の類似性の点で最も近い）領域である、参照領域または画像部分とも呼ばれる部分が、動き推定モジュール９４０４によって選択される。そして、動き補償モジュール９４０５は、選択された領域を用いて、符号化されるべきブロックを予測する。選択された参照領域と与えられたブロックとの間の差は、残留ブロック／データとも呼ばれ、動き補償モジュール９４０５によって計算される。選択された参照領域は、動き情報（例えば、動きベクトル）を用いて示される。

このように、両方の場合（空間予測および時間予測）において、残差は、ＳＫＩＰモードでないときに元のブロックから予測器を減算することによって計算される。

モジュール９４０３によって実施されるイントラ予測では、予測方向が符号化される。モジュール９４０４、９４０５、９４１６、９４１８、９４１７によって実施されるインター予測では、少なくとも１つの動きベクトルまたはその動きベクトルを識別するための情報（データ）が時間予測用に符号化される。

インター予測が選択された場合、動きベクトルおよび残差ブロックに関連する情報が符号化される。さらにビットレートを下げるために、動きが均質であると仮定して、動きベクトル予測器との差分によって動きベクトルを符号化する。動き情報予測器候補のセットからの動きベクトル予測器は、動きベクトル予測および符号化モジュール９４１７によって、動きベクトルフィールド９４１８から得られる。

符号化器９４００は、レート－歪み基準などの符号化コスト基準を適用して符号化モードを選択するための選択モジュール９４０６をさらに備えている。さらに冗長性を減らすために、変換モジュール９４０７によって残差ブロックに変換（ＤＣＴなど）を施し、得られた変換データを量子化モジュール９４０８で量子化し、エントロピー符号化モジュール９４０９でエントロピー符号化を行う。最後に、ＳＫＩＰモードでなく、選択された符号化モードが残差ブロックの符号化を必要とする場合、符号化されている現在のブロックの残差ブロックがビットストリーム９４１０に挿入される。

符号化器９４００はまた、後続の画像の動き推定のための参照画像（例えば、参照画像／ピクチャ９４１６内のもの）を生成するために、符号化された画像の復号化を実行する。これにより、ビットストリームを受信する符号化器および復号化器は、同じ参照フレームを有することができる（例えば、再構成された画像または再構成された画像部分が使用される）。逆量子化（「量子化解除」）モジュール９４１１は、量子化されたデータの逆量子化（「量子化解除」）を行い、その後に逆変換モジュール９４１２によって逆変換が実行される。イントラ予測モジュール９４１３は、予測情報を使用して、所定のブロックに対してどの予測器を使用するかを決定し、動き補償モジュール９４１４は、モジュール９４１２によって得られた残差を、一連の参照画像９４１６から得られた参照領域に実際に追加する。その後、モジュール９４１５によってポストフィルタが適用され、複数の画素の再構成されたフレーム（画像または画像部分）をフィルタして、参照画像９４１６のセットのための別の参照画像を得る。

図９は、本発明の実施形態による符号化器からデータを受信するために使用され得る復号化器９５６０のブロック図である。復号化器は、接続されたモジュールによって表され、各モジュールは、例えば、デバイスのＣＰＵによって実行されるプログラミング命令の形態で、復号化器９５６０によって実施される方法の対応するステップを実施するように適合される。

復号化器９５６０は、符号化されたユニット（例えば、画像部分、ブロックまたは符号化ユニットに対応するデータ）からなるビットストリーム９５６１を受け取り、各々は、符号化パラメータに関する情報を含むヘッダと、符号化ビデオデータを含むボディとを含む。図８に関して説明すると、符号化されたビデオデータはエントロピー符号化されており、動き情報（例えば動きベクトル予測器のインデックス）は、所定の画像部分（例えばブロックまたはＣＵ）に対して、所定のビット数で符号化される。受信した符号化されたビデオデータは、モジュール９５６２によってエントロピー復号化される。その後、モジュール９５６３によって残留データが量子化解除され、その後、モジュール９５６４によって逆変換が適用され、画素値が取得される。

また、符号化モードを示すモードデータをエントロピー復号化し、そのモードに基づいて、符号化された画像データのブロック（ユニット／セット／グループ）に対してイントラ型復号化またはインター型復号化が行われる。イントラモードの場合、ビットストリームで指定されたイントラ予測モードに基づいて、イントラ予測モジュール９５６５によってイントラ予測器が決定される（例えば、イントラ予測モードは、ビットストリームに提供されるデータを用いて決定可能である）。モードがインターモードである場合、符号化器が使用する参照領域を見つける（特定する）ように、ビットストリームから動き予測情報が抽出／取得される。動き予測情報は、例えば、参照フレームインデックスと動きベクトル残差とから構成される。動きベクトル予測情報は、動きベクトル復号化モジュール９５７０によって、動きベクトル残差に加算され、動きベクトルを得るために使用される。

動きベクトル復号化モジュール９５７０は、動き予測によって符号化された各画像部分（例えば、現在のブロックまたはＣＵ）に対して動きベクトル復号化を適用する。現在のブロックに対する動きベクトル予測器のインデックスが得られると、画像部分（例えば現在のブロックまたはＣＵ）に関連する動きベクトルの実際の値が復号化され、モジュール９５６６によって動き補償を適用するために使用され得る。復号化された動きベクトルによって示される参照画像部分は、モジュール９５６６が動き補償を実行できるように、参照画像９５６８のセットから抽出／取得される。動きベクトルフィールドデータ９５７１は、後続の復号化された動きベクトルの予測に使用されるために、復号化された動きベクトルで更新される。

最後に、復号化されたブロックが得られる。適切な場合、ポストフィルタモジュール９５６７によってポストフィルタが適用される。復号化されたビデオ信号９５６９が最終的に得られ、復号化器９５６０によって提供される。

図１０は、本発明の１つ以上の実施形態が実施され得るデータ通信システムを示す図である。データ通信システムは、データ通信ネットワーク９２００を介して、データストリーム９２０４のデータパケットを受信装置（この場合はクライアント端末９２０２）に送信するように動作可能な送信装置（この場合はサーバ９２０１）を含む。データ通信ネットワーク９２００は、ワイドエリアネットワーク（ＷＡＮ）であっても、ローカルエリアネットワーク（ＬＡＮ）であってもよい。このようなネットワークは、例えば、無線ネットワーク（Ｗｉｆｉ／８０２．１１ａまたはｂまたはｇ）、イーサネットネットワーク、インターネットネットワーク、または複数の異なるネットワークからなる混合ネットワークであってもよい。本発明の特定の実施形態では、データ通信システムは、サーバ９２０１が複数のクライアントに同じデータコンテンツを送信するデジタルテレビ放送システムであってもよい。

サーバ９２０１が提供するデータストリーム９２０４は、ビデオやオーディオデータを表すマルチメディアデータで構成されてもよい。オーディオおよびビデオデータストリームは、本発明のいくつかの実施形態において、サーバ９２０１によって、マイクロフォンおよびカメラをそれぞれ使用して取り込まれることができる。いくつかの実施形態では、データストリームは、サーバ９２０１に格納されてもよいし、サーバ９２０１が他のデータプロバイダから受信してもよいし、サーバ９２０１で生成してもよい。サーバ９２０１は、特に、符号化器への入力として提示されたデータのよりコンパクトな表現である送信用の圧縮ビットストリームを提供するために、ビデオ及びオーディオストリームを符号化するための符号化器を備える。送信データの量に対する送信データの質のより良い比率を得るために、ビデオデータの圧縮は、例えば、高効率ビデオ符号化（ＨＥＶＣ）形式またはＨ．２６４／アドバンスドビデオ符号化（ＡＶＣ）形式または多用途ビデオ符号化（ＶＶＣ）形式に従ってもよい。クライアント９２０２は、送信されたビットストリームを受信し、再構成されたビットストリームを復号化して、ディスプレイ装置でビデオ画像を再生し、ラウドスピーカーでオーディオデータを再生する。

本実施形態ではストリーミングシナリオを考慮したが、本発明のいくつかの実施形態では、符号化器と復号化器の間のデータ通信は、例えば光ディスクのようなメディア記憶装置を使用して実行されてもよいことが理解されよう。本発明の１つ以上の実施形態では、ビデオ画像は、最終画像にフィルタされた複数の画素を提供するために画像の再構成された複数の画素に適用するための補償オフセットを代表するデータと共に伝送されてもよい。

図１１は、本発明の少なくとも１つの実施形態を実施するように構成された処理装置９３００を模式的に示す図である。処理装置９３００は、マイクロコンピュータ、ワークステーション、ユーザ端末、または軽量携帯機器などの装置であってもよい。デバイス／装置９３００は、
－マイクロプロセッサのような中央処理装置９３１１（ＣＰＵと表記される）、
－装置９３００の演算及び／又は本発明の実施のためのコンピュータプログラム／命令を記憶するためのＲＯＭで示される読み取り専用メモリ９３０７、
－本発明の実施形態の方法の実行可能コード、並びに本発明の実施形態によるデジタル画像のシーケンスを符号化する方法及び／又はビットストリームを復号化する方法を実施するために必要な変数及びパラメータを記録するために適合されたレジスタを記憶するためのＲＡＭと呼ばれるランダムアクセスメモリ９３１２、及び、
－処理されるデジタルデータが送信または受信される通信ネットワーク９３０３に接続された通信インタフェース９３０２、
に接続された通信バス９３１３を含む。

オプションで、装置９３００は、以下の構成要素も含むことができる：
－本発明の１つ以上の実施形態の方法を実施するためのコンピュータプログラム、及び本発明の１つ以上の実施形態の実施中に使用又は生成されるデータを記憶するための、ハードディスクなどのデータ記憶手段９３０４、
－ディスク９３０６（例えば記憶媒体）用のディスクドライブ９３０５であって、ディスクドライブ９３０５は、ディスク９３０６からデータを読み取るか、またはディスク９３０６にデータを書き込むように適合されている、ディスクドライブ、または、
－キーボード９３１０、タッチスクリーン、またはその他のポインティング／入力手段によって、データを表示し、および／またはユーザーとのグラフィカルインタフェースとして機能するためのスクリーン９３０９。

装置９３００は、例えばデジタルカメラ９３２０又はマイクロフォン９３０８などの様々な周辺機器に接続することができ、各々は、装置９３００にマルチメディアデータを供給するように入力／出力カード（図示せず）に接続されている。

通信バス９３１３は、装置９３００に含まれる、又はそれに接続される様々な要素間の通信及び相互運用性を提供する。バスの表現は限定的ではなく、特に中央処理装置９３１１は、装置９３００の任意の要素に直接又は装置９３００の別の要素によって命令を伝達するように動作可能である。

ディスク９３０６は、例えば、書き換え可能か否かを問わないコンパクトディスク（ＣＤ－ＲＯＭ）、ＺＩＰディスクまたはメモリカードなどの任意の情報媒体で置き換えることができ、一般的には、マイクロコンピュータまたはプロセッサによって読み取り可能な情報記憶手段で、装置に組み込まれているか否かを問わず、おそらく取り外し可能で、その実行により本発明によるデジタル画像シーケンスを符号化する方法および／またはビットストリームを復号化する方法が実施できる１または複数のプログラムの格納に適合させることが可能なものである。

実行可能コードは、読み取り専用メモリ９３０７、ハードディスク９３０４上、または前述したような例えばディスク９３０６のような取り外し可能なデジタル媒体上のいずれかに記憶され得る。変形例によれば、プログラムの実行可能コードは、実行される前に装置９３００の記憶手段の１つ（例えばハードディスク９３０４）に記憶されるように、インタフェース９３０２を介して、通信ネットワーク９３０３によって受信され得る。

中央処理装置９３１１は、本発明によるプログラムまたはプログラムのソフトウェアコードの命令または部分、前述の記憶手段の１つに格納される命令の実行を制御し指示するように適合されている。電源投入時に、例えばハードディスク９３０４、ディスク９３０６、または読み取り専用メモリ９３０７の不揮発性メモリに格納されているプログラムまたはプログラムは、ランダムアクセスメモリ９３１２に転送され、その後、プログラムまたはプログラムの実行可能コード、および本発明を実施するために必要な変数およびパラメータを格納するためのレジスタが格納される。

本実施形態では、本装置は、ソフトウェアを用いて本発明を実現するプログラム可能装置である。しかしながら、代替的に、本発明は、ハードウェアで（例えば、特定用途向け集積回路（ＡＳＩＣ）の形態で）実施され得る。

また、本発明の他の実施形態によれば、前述の実施形態による復号化器は、コンピュータ、携帯電話（セルラーフォン）、タブレット、またはコンテンツをユーザに提供／表示することができる他のタイプの装置（例えば、表示装置）などのユーザ端末に設けられることが理解される。さらに別の実施形態によれば、前述の実施形態による符号化器は、カメラ、ビデオカメラまたはネットワークカメラ（例えば、閉回路テレビまたはビデオ監視カメラ）をも含む撮像装置に設けられ、符号化器が符号化するためのコンテンツを撮像して提供する。２つのそのような実施形態が、図１２および図１３を参照して以下に提供される。

図１２は、ネットワークカメラ９４５２とクライアント装置９４５４とを含むネットワークカメラシステム９４５０を説明するための図である。

ネットワークカメラ９４５２は、撮像部９４５６、符号化部９４５８、通信部９４６０、及び制御部９４６２を含む。ネットワークカメラ９４５２とクライアント装置９４５４は、ネットワーク９２００を介して相互に通信可能に接続されている。撮像部９４５６は、レンズとイメージセンサ（例えば、ＣＣＤ（電荷結合素子）やＣＭＯＳ（相補型金属酸化膜半導体））とを含み、対象物の画像を撮像し、その画像に基づく画像データを生成する。この画像は、静止画像であってもよいし、ビデオであってもよい。撮像ユニットはまた、（光学的またはデジタル的に）それぞれズームまたはパンするように適合されているズーム手段および／またはパン手段を含んでいてもよい。符号化ユニット９４５８は、前述の実施形態の１つまたは複数で説明した符号化方法を用いて画像データを符号化する。符号化部９４５８は、前述の実施形態で説明した符号化方法のうち少なくとも１つを用いる。他の例として、符号化部９４５８は、前述の実施形態で説明した符号化方法を組み合わせて用いることができる。

ネットワークカメラ９４５２の通信部９４６０は、符号化部９４５８により符号化された符号化画像データを、クライアント装置９４５４に送信する。さらに、通信部９４６０は、クライアント装置９４５４からコマンドを受信してもよい。コマンドは、符号化部９４５８による符号化のためのパラメータを設定するコマンドで構成される。制御部９４６２は、通信部９４６０が受信したコマンドやユーザ入力に従って、ネットワークカメラ９４５２内の他のユニットを制御する。

クライアント装置９４５４は、通信部９４６４、復号化部９４６６、および制御部９４６８を含む。クライアント装置９４５４の通信部９４６４は、ネットワークカメラ９４５２にコマンドを送信してもよい。さらに、クライアント装置９４５４の通信部９４６４は、ネットワークカメラ９４５２から、符号化された画像データを受信する。復号化部９４６６は、前述の１つ以上の実施形態で説明した復号化方法を用いて、符号化された画像データを復号化する。別の例として、復号化ユニット９４６６は、前述の実施形態で説明した復号化方法の組合せを用いることができる。クライアント装置９４５４の制御部９４６８は、ユーザの操作または通信部９４６４が受信したコマンドに従って、クライアント装置９４５４内の他のユニットを制御する。また、クライアント装置９４５４の制御部９４６８は、復号化部９４６６により復号化された画像を表示するように、表示装置９４７０を制御してもよい。

また、クライアント装置９４５４の制御部９４６８は、ネットワークカメラ９４５２のパラメータ、例えば、符号化部９４５８による符号化のためのパラメータの値を指定するためのＧＵＩ（グラフィカルユーザインタフェース）を表示するように、表示装置９４７０を制御してもよい。また、クライアント装置９４５４の制御部９４６８は、表示装置９４７０が表示するＧＵＩに対するユーザの操作入力に従って、クライアント装置９４５４内の他のユニットを制御してもよい。また、クライアント装置９４５４の制御部９４６８は、表示装置９４７０が表示するＧＵＩに対するユーザ操作入力に応じて、ネットワークカメラ９４５２に対するパラメータの値を指定するコマンドをネットワークカメラ９４５２に送信するように、クライアント装置９４５４の通信部９４６４を制御しても良い。

図１３は、スマートフォン９５００を説明するための図である。スマートフォン９５００は、通信部９５０２、復号化／符号化部９５０４、制御部９５０６、及び表示部９５０８から構成される。

通信部９５０２は、ネットワーク９２００を介して、符号化された画像データを受信する。復号化／符号化部９５０４は、通信部９５０２が受信した符号化された画像データを復号化する。復号化／符号化部９５０４は、前述の１つ以上の実施形態で説明した復号化方法を用いて、符号化画像データを復号化する。また、復号化／符号化部９５０４は、前述の実施形態で説明した符号化方法または復号化方法のうち少なくとも１つを用いることも可能である。別の例として、復号化／符号化部９５０４は、前述の実施形態で説明した復号化方法または符号化方法を組み合わせて使用することができる。

制御部９５０６は、ユーザの操作または通信部９５０２が受信したコマンドに従って、スマートフォン９５００内の他のユニットを制御する。例えば、制御部９５０６は、復号化／符号化部９５０４によって復号化された画像を表示するように、表示部９５０８を制御する。

スマートフォンは、画像または動画を記録するための画像記録デバイス９５１０（例えばデジタルカメラおよび関連回路）をさらに備えてもよい。このような記録された画像又は動画は、制御部９５０６の指示の下、復号化／符号化部９５０４によって符号化されてもよい。スマートフォンは、モバイルデバイスの向きを感知するように適合されたセンサ９５１２をさらに含んでもよい。そのようなセンサは、加速度計、ジャイロスコープ、コンパス、グローバルポジショニング（ＧＰＳ）ユニット、または類似の位置センサを含み得る。そのようなセンサ９５１２は、スマートフォンが向きを変えたかどうかを判断することができ、そのような情報は、ビデオストリームを符号化するときに使用され得る。

本発明を実施形態を参照して説明したが、本発明は開示された実施形態に限定されないことが理解されよう。添付の特許請求の範囲に定義された本発明の範囲から逸脱することなく、様々な変更および修正がなされ得ることは、当業者には理解されよう。本明細書（添付の請求項、要約書及び図面を含む）に開示された全ての特徴、及び／又はそのように開示された任意の方法又はプロセスの全てのステップは、かかる特徴及び／又はステップの少なくとも一部が相互に排他的である組み合わせを除き、任意の組み合わせで組み合わせることが可能である。本明細書（添付の請求項、要約および図面を含む）に開示された各特徴は、明示的に別段の記載がない限り、同一、同等または類似の目的を果たす代替の特徴によって置き換えることができる。したがって、明示的に別段の記載がない限り、開示された各特徴は、同等または類似の特徴の一般的な一連の一例でしかない。

また、上述の比較、決定、評価、選択、実行（execution）、実行(performing)、または検討の任意の結果（例えば符号化またはフィルタ処理中に行われる選択）は、ビットストリーム中のデータにおいて示されるか、またはビットストリーム中のデータから決定／参照可能であり、例えばフラグまたは結果を示す情報であり、示されるかまたは決定／参照された結果が、例えば復号化処理中に比較、決定、評価、選択、実行、実行、または検討を実際に行う代わりに処理において使用され得ることが理解されるであろう。

特許請求の範囲において、用語”含む（comprising）”は他の要素やステップを排除するものではなく、不定冠詞”ａ”や”ａｎ”は、複数を排除するものではない。異なる特徴が相互に異なる従属請求項に記載されているという単なる事実は、これらの特徴の組合せが有利に使用され得ないことを示すものではない。特許請求の範囲に現れる参照数字は、説明のためのものであり、特許請求の範囲に限定的な影響を及ぼさないものとする。

先の実施形態において、説明した機能は、ハードウェア、ソフトウェア、ファームウェア、またはそれらの任意の組み合わせで実施することができる。ソフトウェアで実施される場合、機能は、１つ以上の命令又はコードとして、コンピュータ可読媒体に格納されるか又はそれを介して伝送され、ハードウェアベースの処理ユニットによって実行されてもよい。

コンピュータ可読媒体は、データ記憶媒体などの有形の媒体に相当するコンピュータ可読記憶媒体、または、例えば通信プロトコルに従って、ある場所から別の場所へのコンピュータプログラムの転送を容易にする任意の媒体を含む通信媒体を含んでもよい。このように、コンピュータ可読媒体は、一般に、（１）非一時的である有形のコンピュータ可読記憶媒体、または（２）信号または搬送波などの通信媒体に対応することができる。データ記憶媒体は、本開示に記載の技術を実施するための命令、コード及び／又はデータ構造を取得するために、１以上のコンピュータ又は１以上のプロセッサによってアクセスされ得る任意の利用可能な媒体であってよい。コンピュータプログラム製品は、コンピュータ読取可能な媒体を含んでもよい。

限定ではなく例として、このようなコンピュータ可読記憶媒体は、ＲＡＭ、ＲＯＭ、ＥＥＰＲＯＭ、ＣＤ－ＲＯＭまたは他の光ディスクストレージ、磁気ディスクストレージ、または他の磁気記憶装置、フラッシュメモリ、または命令またはデータ構造の形態で所望のプログラムコードを格納するために使用でき、コンピュータによってアクセスできる任意の他の媒体で構成することができる。また、どのような接続も適切にコンピュータ可読媒体と呼ばれる。例えば、同軸ケーブル、光ファイバーケーブル、ツイストペア、デジタル加入者線（ＤＳＬ）、または赤外線、ラジオ、マイクロ波などの無線技術を使用してウェブサイト、サーバ、または他のリモートソースから命令を送信する場合、同軸ケーブル、光ファイバーケーブル、ツイストペア、ＤＳＬ、または赤外線、ラジオ、マイクロ波などの無線技術も媒体の定義に含まれる。しかしながら、コンピュータ可読記憶媒体およびデータ記憶媒体は、接続、搬送波、信号、または他の一時的な媒体を含まず、代わりに、非一時的な有形記憶媒体に向けられることを理解されたい。本明細書で使用されるディスクおよびディスクは、コンパクトディスク（ＣＤ）、レーザーディスク（登録商標）、光ディスク、デジタル多用途ディスク（ＤＶＤ）、フロッピーディスクおよびブルーレイディスクを含み、ディスクは通常磁気的にデータを再生し、ディスクはレーザーを用いて光学的にデータを再生する。また、上記の組み合わせもコンピュータ読み取り可能な媒体の範囲に含まれるものとする。

命令は、１つ以上のデジタル信号プロセッサ（ＤＳＰ）、汎用マイクロプロセッサ、特定用途向け集積回路（ＡＳＩＣ）、フィールドプログラマブルロジックアレイ（ＦＰＧＡ）、または他の同等の集積またはディスクリート論理回路などの１つ以上のプロセッサによって実行され得る。したがって、本明細書で使用される「プロセッサ」という用語は、前述の構造のいずれか、または本明細書に記載の技術の実施に適した他の構造を指す場合がある。さらに、いくつかの態様において、本明細書に記載される機能は、符号化および復号化のために構成された専用のハードウェアおよび／またはソフトウェアモジュール内で提供されてもよく、または複合コーデックに組み込まれてもよい。また、技法は、１つまたは複数の回路または論理要素内で完全に実施され得る。

Claims

クロスコンポーネント適応ループフィルタを実行する方法であって、
基準サンプルの周辺の複数のサンプルに対応する第１成分の複数のサンプル値を取得することと、
ビットストリームから複数のフィルタ係数を取得することと、
前記複数のフィルタ係数と、前記第１成分の複数のサンプル値とを用いて、前記第１成分とは異なる第２成分のために、クロスコンポーネント適応ループフィルタの出力を生成することと、
を含み、
前記複数のフィルタ係数は、前記ビットストリームにおいてプレフィックスなしで表され、
前記複数のフィルタ係数の値は、規定のビット数を使用して定義される２のべき乗の値で表される範囲に制限され、
前記複数のフィルタ係数を取得することは、前記規定のビット数を用いて、前記複数のフィルタ係数におけるフィルタ係数の絶対値を決定することを含む
方法。
前記規定のビット数は、ビット深度によって定義されるビット数よりも小さい
請求項１に記載の方法。
前記規定のビット数は、前記クロスコンポーネント適応ループフィルタの出力を１６ビット以下とする値である
請求項１または２に記載の方法。
前記クロスコンポーネント適応ループフィルタの出力を異なる成分に対応するフィルタの出力と結合することをさらに含む
請求項１乃至３の何れか１項に記載の方法。
前記第１成分はルマ成分であり、前記第２成分はクロマ成分である
請求項１乃至４の何れか１項に記載の方法。
前記出力は、前記第１成分の複数のサンプル値に含まれるサンプル値と、基準サンプルの値との差分を表す数値を用いて生成される
請求項１乃至５の何れか１項に記載の方法。
前記出力は、前記第１成分の複数のサンプル値に含まれるサンプル値と、前記複数のフィルタ係数に含まれるフィルタ係数との乗算を行うことで生成される
請求項１乃至６の何れか１項に記載の方法。
前記第１成分の複数のサンプル値は、前記基準サンプルに対して定義された複数の位置のサンプル値であり、前記複数の位置はフィルタ形状によって定義される
請求項１乃至７の何れか１項に記載の方法。
前記フィルタ形状は、１６個以下のサンプルを含む
請求項８に記載の方法。
前記フィルタ形状は、８個以下のサンプルを含む
請求項８に記載の方法。
前記フィルタ形状は、前記第１成分の複数のサンプルが、位置（ｘ，ｙ）において前記基準サンプルに対して位置（ｘ＋ｕ，ｙ＋ｖ）を有するパターンを含み、ｕは［－１，１］に属する水平オフセットであり、ｖは［－１，２］に属する垂直オフセットである
請求項８に記載の方法。
｜ｕ｜＝１のとき、ｖは［０，１］に対応する
請求項１１に記載の方法。
クロスコンポーネント適応ループフィルタが実行されるかを決定することをさらに含む
請求項１乃至１２の何れか１項に記載の方法。
クロスコンポーネント適応ループフィルタを実行する装置であって、
基準サンプルの周辺の複数のサンプルに対応する第１成分の複数のサンプル値を取得する第１の取得手段と、
ビットストリームから複数のフィルタ係数を取得する第２の取得手段と、
前記複数のフィルタ係数と、前記第１成分の複数のサンプル値とを用いて、前記第１成分とは異なる第２成分のために、クロスコンポーネント適応ループフィルタの出力を生成する生成手段と、
を有し、
前記複数のフィルタ係数の値は、規定のビット数を使用して定義される２のべき乗の値で表される範囲に制限され、
前記第２の取得手段は、前記規定のビット数を用いて、前記複数のフィルタ係数におけるフィルタ係数の絶対値を決定する
装置。
前記規定のビット数は、ビット深度によって定義されるビット数よりも小さい
請求項１４に記載の装置。
前記第１成分はルマ成分であり、前記第２成分はクロマ成分である
請求項１４または１５に記載の装置。
前記出力は、前記第１成分の複数のサンプル値に含まれるサンプル値と、基準サンプルの値との差分を表す数値を用いて生成される
請求項１４乃至１６の何れか１項に記載の装置。
コンピュータに、請求項１乃至１３の何れか１項に記載の方法を実行させる、プログラム。