JP5524423B2

JP5524423B2 - 効率的なサンプル適応オフセットの装置及び方法

Info

Publication number: JP5524423B2
Application number: JP2013535259A
Authority: JP
Inventors: フ，チー−ミン; チェン，チン−イー; ツァイ，チア−ヤン; ホアン，ユ−ウェン; レイ，シャウ−ミン
Original assignee: MediaTek Inc
Current assignee: MediaTek Inc
Priority date: 2011-01-09
Filing date: 2011-10-08
Publication date: 2014-06-18
Anticipated expiration: 2031-10-08
Also published as: EP2661887A1; EP2661887A4; WO2012092787A1; CN106454357A; CN103404137B; CN103404137A; JP2013541918A

Description

本発明は、ビデオ処理に関する。特に、本発明は、サンプル適応オフセット補償の装置及び方法に関する。

ビデオ符号化システムでは、ビデオデータは、予測、変換、量子化、デブロッキング及び適応ループフィルタリングのような種々の処理を受ける。ビデオ符号化システムの処理経路に沿って、処理済みビデオデータの特定の特性は、ビデオデータに適用される操作により、元のビデオデータから変更され得る。例えば、処理済みビデオの平均値がシフトされ得る。強度シフトは、視覚的欠陥又はアーティファクトを生じ得る。これは、強度シフトがピクチャ毎に異なる場合に特に一層目立つ。したがって、ピクセル強度シフトは、アーティファクトを軽減するために、注意深く補償されるか修復されなければならない。幾つかの強度オフセットスキームが当分野で用いられている。ＨＥＶＣ（High-Efficiency Video Coding）のために提案された強度オフセットスキームは、処理済みビデオデータ内の各ピクセルを、選択されたコンテキストに従って複数のカテゴリのうちの１つに分類する。例えば、コンテキストは、処理済みビデオデータのピクセル強度であっても良い。或いは、コンテキストは、現在のピクセルとその周囲のピクセルとの組合せであっても良い。適応オフセットがどこに適用されるかに依存して、処理済みビデオデータは、再構成ビデオ、デブロックビデオ、適応ループフィルタリングされたビデオ、又は中間段階の他のビデオを表し得る。特性測定は、選択されたコンテキストに従って導出され、カテゴリは、測定された特性に従って決定される。カテゴリ毎に、元のピクセルと処理済みピクセルとの間の強度シフトが決定される。強度シフトは、本願明細書では「オフセット値」とも称される。したがって、オフセット値は、強度シフトを補償するために、カテゴリに属する処理済みピクセルに適用される。各ピクセルのカテゴリに基づく処理済みビデオデータに対する強度シフト補償又は修復の処理は、本願明細書では「サンプル適応オフセット（Sample Adaptive Offset:SAO）」と称される。

従来のＳＡＯスキームは、ピクチャ毎又はスライス毎にピクセルのカテゴリを決定する場合が多い。しかしながら、ピクチャコンテンツは、動的である場合が多く、特性は１つのピクチャ内の領域によって変化し得る。それに応じて、サンプル適応オフセットスキームは、米国非仮特許出願番号１３/１５８,４２７、名称「Apparatus and Method of Sample Adaptive Offset for Video Coding」、２０１１年６月１２日出願に開示されている。この出願では、ＳＡＯタイプのグループが、領域内のピクセルを分類するために用いられ、各ＳＡＯタイプは、ピクセルを複数のカテゴリに分類する。幾つかのＳＡＯタイプは、エッジオフセットに基づく分類に関連付けられる。ここで、現在のピクセルの分類は、近隣ピクセルを必要とする。複数のＳＡＯタイプがあるので、エンコーダは、通常、オフセットを求め、オフセットをピクセルに加算し、そして１つのＳＡＯタイプを有する各領域に対して歪みを計算する。したがって、ＳＡＯのモード決定処理は、ピクチャバッファに何回もアクセスする必要がある。このマルチパス符号化アルゴリズムは、多くの外部メモリアクセスを必要とし、結果として高い電力消費及び長い待ち時間をもたらし得る。追加ピクチャバッファアクセスを有しないでＳＡＯのモード決定を実行することが望ましい。したがって、全てのＳＡＯパラメータが導出された後、１つの追加パスのみがオフセット補償を実行するために必要なだけである。

ＳＡＯ処理は、ピクチャの局所特性に適応するために、領域毎に行われることが望ましい。ＲＤＯ（Rate-distortion optimization）は、モード決定（つまり、領域分割／領域マージ決定）を導くために用いられる場合が多い。ＲＤＯ処理に関連する計算は、通常、非常に計算負荷が大きい。ＲＤＯ処理を高速化する高速アルゴリズムを用いることが望ましい。

レート歪最適化（Rate-Distortion Optimization：RDO）を用いた処理済みビデオデータのサンプル適応オフセット（Sample Adaptive Offset：SAO）補償のためのモード決定の装置及び方法が開示される。本発明による方法は、前記処理済みビデオデータを受信するステップ、ＳＡＯモードを識別するステップ、歪み削減量の推定に従って前記モードの各々と関連付けられた歪みを決定するステップ、前記モードの各々の歪みに基づきレート歪み（Rate-Distortion：RD）コストを決定するステップ、前記モードの中から最適モードを選択するステップであって、前記最適モードは、最小ＲＤコストを有する、ステップ、選択された前記最適モードに従って前記処理済みビデオデータにＳＡＯを適用するステップ、を有する。前記歪み削減量の推定は、前記モードの各々のピクセル数（iCount）、前記モードの各々に属するピクセルに加算されるべきオフセット値（iOffset）、及び前記処理済みビデオデータに関連付けられた再構成信号と元の信号との間のオフセット値の和（iOffsetOrg）に関連する。さらに、前記歪み削減量の推定は、(iCount*iOffset*iOffset)-(iOffsetOrg*iOffset*２)に関連する。本発明の別の態様は、ＳＡＯ領域分割又は領域マージのための高速アルゴリズムを扱い、該高速アルゴリズムでは、小さい領域の前記歪み削減量は、個々の大きい領域の歪み削減量を計算するために再利用される。

処理済みビデオデータのサンプル適応オフセット（Sample Adaptive Offset：SAO）補償の装置及び方法が開示される。本発明による方法は、処理済みビデオデータを受信するステップ、分類に基づくエッジオフセット（ＥＯ）に従って前記処理済みビデオデータの現在のピクセルのカテゴリを決定するステップであって、前記ＥＯに基づく分類は、前記現在のピクセルと１又は複数の近隣ピクセルとに関連する、ステップ、補償された現在のピクセルを生成するために、前記カテゴリに関連付けられたオフセット値を用いて前記現在のピクセルを補償するステップ、前記現在のピクセルと前記１又は複数の近隣ピクセルとの間の関係を格納するステップ、前記現在のピクセルのカテゴリを決定した後に、実質的に少数のピクセル期間内に、前記現在のピクセルを前記補償された現在のピクセルで置換するステップ、を有する。必要な計算を更に削減するため、前記現在のピクセルと前記１又は複数の近隣ピクセルとの間の関係の少なくとも一部は、別のピクセルのカテゴリを決定するために用いられる。前記現在のピクセルと前記１又は複数の近隣ピクセルとの間の関係はsign関数に基づき、前記現在のピクセルのｇａｔｅゴリを決定するためにルックアップテーブルが用いられる。

デブロッキングフィルタと適応ループフィルタを有する再構成ループを備えた例示的なビデオエンコーダのシステムブロック図を示す。デブロッキングフィルタと適応ループフィルタを有する例示的なビデオデコーダのシステムブロック図を示す。ピクセルカテゴリに基づく適応オフセットの例を示し、ここで、カテゴリはピクセルＣ及びその近隣ピクセルｎ１−ｎ４に従って決定される。ビデオエンコーダの例示的なシステムブロック図を示し、ここで、サンプル適応オフセットはデブロッキングフィルタ後のビデオデータに適用される。ビデオエンコーダの例示的なシステムブロック図を示し、ここで、サンプル適応オフセットは再構成後のビデオデータに適用される。バンドオフセット（ＢＯ）に基づく２つのＳＡＯタイプの例を示し、ここで、第１の種類は中央バンドを有し、第２のタイプはサイドバンドを有する。ピクセルカテゴリの決定のための現在のピクセルとその近隣ピクセルの４つの線形構成を示す。ビデオエンコーダのシステムブロック図を示し、ここで、サンプル適応オフセットは逆変換後のビデオデータに適用される。ビデオエンコーダの例示的なシステムブロック図を示し、ここで、サンプル適応オフセットは予測信号に適用される。ビデオエンコーダの例示的なシステムブロック図を示し、ここで、サンプル適応オフセットは逆量子化信号に適用される。再帰的領域区分の例を示し、ここで、ＳＡＯタイプは領域毎に選択される。１つの領域を水平及び垂直に略同数のＬＣＵを有する４つのサブ領域に分割することによる、再帰的領域区分の例を示す。分類の基づくエッジオフセット（ＥＯ）のための、前のピクセルからの部分的結果の再使用の例を示す。サンプル適応オフセットのための領域分割／領域マージの例を示す。

ビデオ符号化システムでは、ビデオデータは、予測、変換、量子化、デブロッキング及び適応ループフィルタリングのような種々の処理を受ける。ビデオ符号化システムの処理経路に沿って、処理されたビデオデータの特定の特性は、ビデオデータに適用される操作により、元のビデオデータから変更され得る。例えば、処理されたビデオの平均値がシフトされ得る。強度シフトは、視覚的欠陥又はアーティファクトを生じ得る。これは、強度シフトがピクチャ毎に異なる場合に特に一層目立つ。したがって、ピクセル強度シフトは、アーティファクトを軽減するために、注意深く補償されるか修復されなければならない。処理済みビデオデータの特定の特性を変更させ得る種々の理由がある。処理済みビデオデータの特性の変化は、本質的に適用される操作に関連し得る。例えば、低域通過フィルタがビデオデータに適用されるとき、はっきりしたエッジに対応するピクセル値は少ない勾配を有するだろう。エッジの片側のピクセル値は増大し、エッジの他方の側のピクセル値は減少し得る。この例では、サンプル適応オフセットがエッジ特性を考慮できれば、ビデオ品質は向上し得る。オリジナルのＨＥＶＣ（High-Efficiency Video Coding）に提案された適応オフセットスキームは、処理済みビデオデータ内の各ピクセルを、選択されたコンテキストに従って複数のカテゴリのうちの１つに分類する。例えば、コンテキストは、処理されるビデオデータのピクセル強度であっても良い。或いは、コンテキストは、現在のピクセルとその周囲のピクセルとの組合せであっても良い。適応オフセットがどこに適用されるかに依存して、処理済みビデオデータは、再構成ビデオ、デブロックビデオ、適応ループフィルタリングされたビデオ、又は中間段階の他のビデオを表し得る。特性測定は、選択されたコンテキストに従って導出され、カテゴリは、測定された特性に従って決定される。カテゴリ毎に、元のピクセルと処理済みピクセルとの間の強度シフトが決定される。強度シフトは、本願明細書では「オフセット値」とも称される。したがって、オフセット値は、強度シフトを補償するために、カテゴリに属する処理済みピクセルに適用される。各ピクセルのカテゴリに基づく処理済みビデオデータに対する強度シフト補償又は修復の処理は、本願明細書では「サンプル適応オフセット（Sample Adaptive Offset:SAO）」と称される。

従来のＳＡＯスキームは、ピクチャ毎又はスライス毎にピクセルのカテゴリを決定する場合が多い。しかしながら、ピクチャコンテンツは、動的である場合が多く、特性は１つのフレーム内の領域によって変化し得る。したがって、処理済みビデオデータを異なるサイズを有する領域に適応して区分する領域区分スキームを用いてピクチャ内の動的特性を考慮可能なサンプル適応オフセットスキームを開発することが望ましい。さらに、従来のＳＡＯスキームは、常に固定したコンテキストを用いて処理済みビデオデータのピクセルのカテゴリを決定する。例えば、ＳＡＯは、サンプル適応オフセットに固定した１６バンドのバンドオフセット（ＢＯ）のみを用いる。別の例では、ＳＡＯは、３ｘ３ウインドウ内のピクセルのみをコンテキストとして用いて処理済みビデオデータのピクセルのカテゴリを決定する。サンプル適応オフセットスキームは、ＳＡＯタイプのグループからＳＡＯタイプを適応して選択し、ＳＡＯ処理を処理済みビデオデータの特性に合わせ、良好な品質を達成することが望ましい。したがって、本願明細書では、処理済みビデオデータの動的特性を活用できるサンプル適応オフセットスキームが開示される。

図１に示す例示的なエンコーダは、イントラ／インター予測を用いるシステムを表す。イントラ予測１１０は、同一ピクチャ内のビデオデータに基づき予測データを提供する。インター予測では、動き推定（ＭＥ）及び動き補償（ＭＣ）１１２が用いられ、１又は複数の他のピクチャからのビデオデータに基づき予測データを提供する。スイッチ１１４は、イントラ予測又はインター予測データを選択する。選択された予測データは、加算器１１６に供給され、残差とも称される予測誤差を形成する。次に、予測誤差は、変換（Ｔ）１１８により、その次に量子化（Ｑ）１２０により処理される。次に、変換され量子化された残差は、エントロピー符号化１１２により符号化され、圧縮ビデオデータに対応するビットストリームを形成する。変換係数に関連するビットストリームは、次に、動き、モード及び画像領域に関連する他の情報のようなサイド情報と共にパッキングされる。サイド情報も、必要帯域幅を減少させるためにエントロピー符号化を受けて良い。したがって、サイド情報に関連するデータは、図１に示すように、エントロピー符号化１２２に提供される。インター予測モードが用いられるとき、１又は複数の参照ピクチャは、エンコーダ端で再構成されなければならない。したがって、変換され量子化された残差は、逆量子化（ＩＱ）１２４及び逆変換（ＩＴ）１２６により処理され、残差を復元させる。次に、残差は、再構成（ＲＥＣ）１２８において予測データ１３６に再び加算され、ビデオデータを再構成する。再構成ビデオデータは、参照ピクチャバッファ１３４に格納され、他のピクチャの予測のために用いられても良い。再構成ビデオデータが参照ピクチャバッファに格納される前に、ビデオ品質を向上させるために、デブロッキングフィルタ１３０及び適応ループフィルタ１３２が、再構成ビデオデータに適用される。適応ループフィルタ情報はビットストリーム内で送信され、デコーダが適応ループフィルタを適用するために必要な情報を正しく回復できるようにしても良い。したがって、ＡＬＦ１３２からの適応ループフィルタ情報は、ビットストリームへの結合のためにエントロピー符号化１２２に提供される。図１に示すように、入力ビデオデータは、符号化システム内で一連の処理を受ける。ＲＥＣ１２８からの再構成ビデオデータは、この一連の処理による強度シフトを受け得る。再構成ビデオデータは、デブロッキング１３０及び適応ループフィルタ１３２により更に処理される。これは、更なる強度シフトを生じ得る。したがって、サンプル適応オフセットを組み込み、強度シフトを修復又は補償することが望ましい。

図２は、デブロッキングフィルタと適応ループフィルタを有する例示的なビデオデコーダのシステムブロック図を示す。エンコーダは、ビデオデータを再構成するためにローカルデコーダも有するので、幾つかのデコーダ構成要素は、エントロピー復号化２２２を除いてエンコーダで既に用いられている。さらに、動き補償２１２のみがデコーダ側で必要である。スイッチ２１４は、イントラ予測又はインター予測データを選択する。選択された予測データは、再構成（ＲＥＣ）１２８に供給され、復元された残差と結合される。圧縮ビデオデータにエントロピー復号化を実行するのに加え、エントロピー復号化２２２は、サイド情報のエントロピー復号化も担い、サイド情報を個々のブロックに提供する。例えば、イントラモード情報はイントラ予測１１０に供給され、インターモード情報は動き補償２１２に供給され、適応ループフィルタ情報はＡＬＦ１３２に供給され、残差は逆量子化１２４に供給される。残差は、ＩＱ１２４、ＩＴ１２６及び後続の再構成処理により処理され、ビデオデータを再構成する。また、図２に示すように、ＲＥＣ１２８からの再構成ビデオデータは、ＩＱ１２４及びＩＴ１２６を含む一連の処理を受け、強度シフトを受ける。再構成ビデオデータは、デブロッキングフィルタ１３０及び適応ループフィルタ１３２により更に処理される。これは、更なる強度シフトを生じ得る。したがって、サンプル適応オフセットを組み込み、強度シフトを補償することが望ましい。

オフセット問題を克服するために、ＭｃＣａｎｎ等は、「Samsung’s Response to the Call for Proposals on Video Compression Technology」、文献JCTVC-A１２４, Joint Collaborative Team on Video Coding (JCT-VC) of ITU-T SG１６ WP３ and ISO/IEC JTC１/SC２９/WG１１, １st Meeting: Dresden, DE, １５-２３ April, ２０１０で、コンテンツ適応型の極端な補正及びバンド補正を開示している。近隣ピクセルに基づくコンテンツ情報の使用は、局所的なエッジ特性を探索でき、良好な視覚的品質又はビットレートの低減の点で性能を向上させ得る。ＭｃＣａｎｎ等は、図３に示すような近隣ピクセル構成を開示している。ここで、Ｃは現在のピクセル値であり、ｎ１−ｎ４はそれぞれ現在のピクセルの上、左、右及び下側の４つの近隣ピクセルである。ＭｃＣａｎｎ等によるピクセルを７個のカテゴリに分類する方法を表１に示す。

カテゴリ０では、ピクセルＣが極小であり、谷とも称される。カテゴリ５では、ピクセルＣが極小であり、谷とも称される。カテゴリ１、２、３、４では、ピクセルＣはオブジェクトエッジにある。各カテゴリのピクセルについて、処理済みビデオデータの平均と元のビデオデータの平均との間の差が計算され、デコーダに送信される。処理済みビデオデータは、ＲＥＣ１２８からの再構成ビデオデータ、ＤＦ１３０からのデブロッキングされたデータ、又はＡＬＦ１３２からの適応ループフィルタリングされたデータであり得る。ＭｃＣａｎｎ等は、エッジ特性を「カテゴリ」に分類する。カテゴリは、「クラス」とも称される。図１及び２はビデオ符号化のためのサンプル適応オフセットが適用できる例示的なシステムを示すが、他のシステムも、強度シフト問題を克服するために本発明を用いることができる。例えば、カメラ画像処理システムでは、モザイク解除、ホワイトバランス、及び／又はエッジ強調により処理されたビデオデータも、強度シフトを受け得る。上述のように、ＭｃＣａｎｎ等は、第１の強度オフセットを適用して、基礎的ピクセルのエッジ特性に従ってＤＦ１３０とＡＬＦ１３２との間の処理済みデータを修復する。基礎的ピクセルのエッジ特性に基づく適応オフセットは、ＭｃＣａｎｎ等により極端な補正（Extreme Correction：EXC）と命名された。

ＭｃＣａｎｎ等によると、上述の極端な補正は、再構成ビデオデータに適用される。クラスｃに対応する再構成平均強度値Ｖｒ（ｃ）及びクラスｃに対応する元の平均強度値Ｖｏ（ｃ）は、ビデオピクチャに対して決定される。クラスｃに対応するオフセットＶｄ（ｃ）は、次式に従って決定できる。

Vd(c)=Vo(c)-Vr(c)
上述のように計算されたオフセットＶｄ（ｃ）は、クラスｃに属する再構成ビデオデータに加算される。つまり次式の通りである。
Vr’(c)=Vr(c)+Vd(c)
ここで、Ｖｒ’（ｃ）は、オフセット補正されたビデオデータである。デコーダが個々のクラスに適正なオフセットを適用するために、全てのクラスのオフセットＶｄ（ｃ）の値がデコーダへ送信される必要がある。オフセットＶｄ（ｃ）値を組み込むために、適正なビットストリームシンタックスが必要である。

図４に示すように、ＭｃＣａｎｎ等によるＥＸＣに基づく適応オフセット４１０は、ＤＦ１３０とＡＬＦ１３２との間のビデオデータに適用される。ＭｃＣａｎｎ等は、基礎的なピクセルが属するバンドに従う別の適応オフセット補正を開示している。この方法は、バンド補正（band correction:BDC）とも称される。ＭｃＣａｎｎ等によると、バンドに基づく分類の主な動機は、再構成ビデオデータ及び元のビデオデータに対応する基礎的なデータの２つの異なる確率密度関数（ＰＤＦ）を等しくすることである。ＭｃＣａｎｎ等は、ピクセルのｐ個の最上位ビットを用いることによるバンドに基づく分類を開示している。これは、強度を、均一な間隔を有する２^ｐ個のクラスに分割することと等価である。ある実装では、ＭｃＣａｎｎ等は、ｐ＝４を選択し、強度を１６個の等しい間隔のバンドに分割した。バンドはクラスとも称される。各バンド又はクラスでは、平均差が計算され、デコーダへ送信される。そして、オフセットがバンド毎に個々に補正され得る。バンドｃ又はクラスｃに対応する再構成平均強度値Ｖｒ（ｃ）、及びバンドｃ又はクラスｃに対応する元の平均強度値Ｖｏ（ｃ）は、ビデオピクチャに対して決定される。便宜上、ＥＸＣでは同一の数学的記号Ｖｒ（ｃ）及びＶｏ（ｃ）が用いられている。エッジ特性に基づく適応オフセット補正は、対応するクラスｃに関連するオフセットＶｄ（ｃ）は、次式に従って決定できる。Vd(c)=Vo(c)-Vr(c)上述のように計算されたオフセットＶｄ（ｃ）は、次に、クラスｃに属する再構成ビデオデータに加算される。つまり次式の通りである。
Vr’(c)=Vr(c)+Vd(c)
ここで、Ｖｒ’（ｃ）は、オフセット補正されたビデオデータである。ＭｃＣａｎｎ等は、バンド補正を、ＡＬＦ１３２と参照ピクチャバッファ１３４（図示しない）との間の処理済みビデオデータに適用する。ＭｃＣａｎｎ等は、ＤＦ１３０とＡＬＦ１３２との間、又はＡＬＦ１３２と参照ピクチャバッファ１３４との間にＡＯを適用するが、図５に示すように、ＡＯ５１０は、ＲＥＣ１２８とＤＦ１３０との間に適用されても良い。

バンド分類のための１６個の均一なバンドに加えて、ゼロでない可能性を増大させるために、バンド分類のための３２個の均一なバンドが、CE８ Subset３: Picture Quadtree Adaptive Offset、文献：JCTVC-D１２２, Joint Collaborative Team on Video Coding (JCT-VC) of ITU-T SG１６ WP３ and ISO/IEC JTC１/SC２９/WG１１, ４th Meeting: Daegu, KR, ２０-２８ January, ２０１１、CE１３: Sample Adaptive Offset with LCU-Independent Decoding、文献：JCTVC-E０４９, Joint Collaborative Team on Video Coding (JCT-VC) of ITU-T SG１６ WP３ andI SO/IEC JTC１/SC２９/WG１１, ５^th Meeting: Geneva, CH, １６-２３ March, ２０１１、及び米国非仮特許出願番号１２/９８７,１５１、名称「Apparatus and Method of Adaptive Offset for Video Coding、２０１１年１月９日出願に開示されている。（３２オフセットから１６に）サイド情報を減少させるために、図６に示すように、３２個の均一なバンドは、２つのグループに分割される。中央の１６個のバンドはグループ１に割り当てられ、両側の１６個のバンドはグループ２に割り当てられる。したがって、オフセットの１つの集合は、中央の１６個のバンド（グループ１）のために送られ、オフセットの１つの集合は、外側の１６個のバンド（グループ２）のために送られる。

ＭｃＣａｎｎ等は、基礎的なピクセルのエッジ特性に関する適応処理を開示している。ピクセル分類はピクチャ全体に基づく。適応オフセットに基づく代替エッジは、係属中の米国特許出願番号１２/９８７,１５１、名称「Apparatus and Method of Adaptive Offset for Video Coding」、２０１１年１月９日出願に開示されている。該特許出願では、２個の近隣ピクセルを用いる簡略化された線形ピクセル構成が用いられる。簡略化されたピクセル構成の使用は、必要な計算を減少させる。したがって、図７（Ａ）―（Ｄ）に示すような、ピクセルパターンとも称される４個の簡略化されたピクセル構成が開示される。図７（Ａ）―（Ｄ）は、それぞれ垂直線（９０度）、水平線（０度）、１３５度線、４５度線に対応する。短い線のように配置された各ピクセル構成は、その線に沿った強度遷移に応答する。例えば、水平エッジは、他の方向を有する線よりも、垂直線においてより目立ち易い強度遷移を生じる。同様に、垂直エッジは、他の方向を有する線よりも、水平線においてより目立ち易い強度遷移を生じる。ピクセル構成の選択は領域毎に決定でき、各領域にフラグが必要である。ピクセル構成に基づき、基礎的なピクセルは、表２に示すようにエッジ、ピーク、谷、それ以外に対応する６個のクラスに分類される。

上述のＳＡＯスキームはバンドオフセット（ＢＯ）コンテキスト又はエッジオフセット（ＥＯ）コンテキストを用いてピクセルをカテゴリに分類するが、本発明による実施形態は複数のＳＡＯタイプを用いる。例えば、複数のＳＡＯタイプは、ＢＯコンテキスト及びＥＯコンテキストの両方を含んでも良い。各ＳＡＯタイプは、割り当てられた数のカテゴリを有する。例えば、上述の例では、１６個のカテゴリ（つまり、１６個のバンド）がグループ１ＢＯ及びグループ２ＢＯに関連付けられる。６個のカテゴリは、４個のＥＯ構成又はコンテキストの各々に関連付けられる。上述の例で言及したカテゴリの数は、説明を目的とし、本発明を限定するものと見なされるべきではない。本発明によるＳＡＯタイプの総数は、予め定められるか又はユーザにより定められ得る。さらに、各ＳＡＯタイプのカテゴリの数は、予め定められるか、ユーザにより定められるか、又は画像サイズに依存し得る。複数のＳＡＯタイプが用いられるとき、シンタックスの要素sao_type_idxは、選択されたＳＡＯタイプを識別するために用いられても良い。表３は、ＢＯコンテキスト及びＥＯコンテキストの両方を含む複数のＳＡＯタイプの例を示す。

サンプル適応オフセットは、ビデオ信号を修復するために、常に再構成後のビデオ信号に適用されるが、サンプル適応オフセットは、再構成前のビデオ信号に適用されても良い。例えば、図８に示すように、サンプル適応オフセット８１０は、再構成（ＲＥＣ）１２８の前の逆変換された残差に適用されても良い。逆変換（ＩＴ）１２６の出力における回復された残差信号は、変換１１８、量子化１２０、逆量子化１２４及び逆変換１２６により処理されている。したがって、残差信号は強度シフトを受けている可能性がある。強度シフトを修復するために適応オフセットが有用である。適応オフセットに関連するサイド情報は、エントロピー符号化され、ビットストリーム内に組み込まれる。別の例では、図９に示すように、サンプル適応オフセットは、予測子が元のビデオ信号から減算される前に、イントラ／インター予測子に適用される。イントラ又はインター予測に従って導出された予測子は、強度シフトを生じ得る種々の操作を受ける。したがって、強度シフトを修復するためにサンプル適応オフセットが有用である。更に別の例では、図１０に示すように、サンプル適応オフセット１０１０は、逆量子化１２４と逆変換１２６との間のビデオ信号に適用されても良い。

ＭｃＣａｎｎ等による方法では、ＡＯは、常にピクチャ全体又はピクチャのグループに基づく。特定のビデオデータでは、小さいピクチャエリアに対応する領域は、適応型処理では一層有利である。なぜなら、小さいピクチャエリアに関連付けられたカテゴリは、領域内の基礎的なビデオデータを厳密に特徴付けることができるからである。したがって、本発明では、複数レベルの領域区分が用いられる。各領域は、四分木を用いて４個のサブ領域に再帰的に分割できる。領域区分に関する情報は、シンタックスを用いて伝達できる。領域の境界は、符号化単位（coding unit：ＣＵ）に又は最大符号化単位（largest coding unit：ＬＣＵ）に揃えることができる。上記の表に示したように、各領域は、２種類のバンドオフセット（ＢＯ）、４種類のエッジオフセット（ＥＯ）、及び処理されない（ＯＦＦ）のようなサンプル適応オフセット（ＳＡＯ）タイプのうちの１つを選択できる。図１１は、領域に区分されたピクチャの例を示す。各領域はＢＯ、ＥＯ又はＯＦＦタイプを用いてＳＡＯにより処理される。図１１において、各小ブロックはＬＣＵを表す。

ＳＡＯの領域区分は、ブロックに基づく。四分木区分における深さの数は、ブロックサイズに依存する。領域の幅又は領域の高さがブロックサイズより小さい場合、現在の領域の分割処理は終了する。最大の四分木深さは、ユーザにより定められた深さ、所定の深さ、又は画像サイズであり得る。ブロックサイズは、ＬＣＵサイズより小さい、それに等しい、又はそれより大きくても良い。図１２は、ＬＣＵの位置に合わせられた領域区分の例を示す。領域はＬＣＵサイズにより測定される。WidthInLCUは現在の領域の幅に対するＬＣＵの数である。HeightInLCUは現在の領域の高さに対するＬＣＵの数である。水平方向の区分は、WidthInLCUを幅Floor(WidthInLCU/２)及びWidthInLCU-Floor(WidthInLCU/２)を有する２個のサブ領域に分割する。ここでFloor(x)はフロア関数である。同様に、垂直方向の区分は、HeightInLCUを幅Floor(HeightInLCU/２)及びHeightInLCU-Floor(HeightInLCU/２)を有する２個のサブ領域に分割する。

１−Ｄエッジオフセット（ＥＯ）分類は、２−Ｄエッジオフセット（ＥＯ）分類よりも計算効率が良い。しかしながら、表２に記載した１−ＤＥＯ分類アルゴリズムは、依然としてかなりの数の操作を必要とする。計算効率を更に向上させることが望ましい。したがって、本発明の一態様は、ＥＯに基づく分類のための高速アルゴリズムを開示する。高速アルゴリズムは、現在のピクセルを２個の近隣ピクセルと比較する。比較の結果は、カテゴリを決定するためにルックアップテーブルに供給される。比較は、sign()関数として実施できる。例えば、図１３に、０度ＥＯ１３１０の現在のピクセルＣと２個の近隣ピクセルＢ及びＤを示す。sign操作が（Ｃ−Ｂ）及び（Ｃ−Ｄ）に対して実行される。つまり、sign(C-B)及びsign(C-D)が実行され、ここで次式の通りである。

ルックアップテーブル、つまりedge_tableを用いて、比較結果をカテゴリインデックスに変換できる。ここで、edge_table[x]={１,２,０,３,４}である。したがって、１−ＤＥＯ分類のカテゴリ（Category）は、次式により得られる。
Category=edge_table[２+sign(C-B)+sign(C-D)]
ｔｈ値が零のとき、ピクセル分類は表２と全く同じである。ＣとＤの比較は、ピクセルＣについて計算される。図１３に示すように、ＤとＣの比較は、１−ＤＥＯ１３２０のピクセルＤについて計算される。ＣとＤの比較は、ＤとＣの比較のために再利用されても良い。つまり、sign(D-C)=-sign(C-D)であり、これは幾つかの操作を省くことができる。sign()関数が現在のピクセルとその近隣ピクセルとの間の関係を決定する手段として用いられるが、他の計測も用いられても良い。０度１−ＤＥＯを一例として示したが、同じ高速アルゴリズムが４５度、９０度及び１３５度ＥＯに適用できる。

本発明の別の態様は、ＳＡＯ決定のための簡易レート歪最適化（rate-distortion optimization:RDO）に関する。ＲＤＯ（rate-distortion optimization）は、良好な符号化効率を得るためにビデオ符号化で用いられる広く知られた技術である。ＲＤＯは、領域区分及び領域マージのようなＳＡＯの決定に適用できる。例えば、図１４は、ＳＡＯのための領域分割／領域マージの例を示す。種々の領域区分の中で最適なＲＤ性能を達成するために、ピクチャ又は領域のようなピクチャエリアは、最大ピクチャエリアから首尾良く分割されても良い（トップダウン分割）。或いは、小さいピクチャ領域が、ＲＤＯ技術を用いて、より大きい領域に首尾良くマージされても良い（ボトムアップマージ）。図１４は、３レベルのピクチャ構造を示す。ここで、Ｊ０乃至Ｊ２０は、個々の領域に関連するＲ−Ｄコストである。トップダウン分割法では、各領域に関連するコストは、対応する分割領域のコストと比較される。例えば、コストＪ３は、コスト（Ｊ１３＋Ｊ１４＋Ｊ１７＋Ｊ１８）と比較される。Ｊ３＞（Ｊ１３＋Ｊ１４＋Ｊ１７＋Ｊ１８）の場合、Ｊ３と関連付けられた領域が分割される。その他の場合、この領域は分割されない。同様に、Ｊ０＞（Ｊ１＋Ｊ２＋Ｊ３＋Ｊ３）の場合、Ｊ０と関連付けられた領域が分割される。その他の場合、この領域は分割されない。領域マージの処理は、個々の領域に関連付けられたコストとマージされた領域に関連付けられるコストを比較することにより同様に行うことができる。

ＲＤＯ処理は、非常に計算負荷が大きい。ＲＤＯ処理を高速化する手段を開発することが望ましい。例えば、領域分割及び領域マージにおいて、より大きい領域に関連付けられた統計値（つまり、レート及び／又は歪み）は、対応するより小さい領域から導出できる。さらに、ＳＡＯでは、１つのピクチャ内に複数の領域が存在し、領域毎にテストされるべき複数のＳＡＯタイプが存在する。１つのＳＡＯタイプを有する１つの領域が与えられる場合、エンコーダは、通常、オフセットを求め、オフセットをピクセルに加算し、そして歪みを計算する。したがって、ＳＡＯのモード決定処理は、ピクチャバッファに何回もアクセスする必要がある。このマルチパス符号化アルゴリズムは、多くの外部メモリアクセスを必要とし、結果として高い電力消費及び長い待ち時間をもたらし得る。追加ピクチャバッファアクセスを有しないでＳＡＯのモード決定を実行することが望ましい。したがって、全てのＳＡＯパラメータが導出された後、１つの追加パスのみがオフセット補償を実行するために必要なだけである。したがって、実際のレート及び／又は歪みの値を計算する代わりに、これらの値は推定され得る。例えば、ＳＡＯの歪みは次のように推定できる。
ｓ（ｋ）は、元の信号である。
ｘ（ｋ）は、再構成信号であり、デブロッキングされた信号であり得る。
ε_ｒｅｃ（ｋ）は、再構成信号の推定歪みである。
ε_ＡＯ（ｋ）は、ＳＡＯ信号の推定歪みである。
Ｋは、フィルタにより処理されるべきピクセルのセットである。
Ｃは、１つの種類のＡＯカテゴリに属するピクセルのセットである。
Ｐは、ＳＡＯカテゴリのセットである。また、Ｐは、全てのＳＡＯカテゴリの集合体である。
ａ_ｃは、加算されるべきオフセット値である。

ＳＡＯ信号の歪み削減量は、ε_ＳＡＯ（ｋ）−ε_ｒｅｃ（ｋ）である。これは、それぞれＳＡＯにより処理された信号及び再構成信号に対応する平均二乗誤差の差を表す。

ε_ｒｅｃ＝再構成信号と元の信号との間の平均二乗誤差

ε_ＳＡＯ＝オフセット信号と元の信号との間の平均二乗誤差

ｄε_ＳＡＯ＝ε_ＳＡＯ−ε_ｒｅｃ＝ＳＡＯが適用された後のオフセット信号の歪み削減量

ここで、Ｎ_ｃは現在のカテゴリのピクセルの数である。
ａ_ｃｓは、カテゴリｋに属するピクセルに加算されるべきオフセット値である。
ａ_ｃは、元の信号と再構成信号との間のオフセット値の和である。

上述の導出によると、ＳＡＯが適用された後のオフセット信号の歪み削減量ｄε_ＳＡＯは、次式により推定できる。

式（１）によると、ＳＡＯが適用された後のオフセット信号の歪み削減量ｄε_ＳＡＯは、現在のカテゴリのピクセルの数、カテゴリｋに属するピクセルに加算されるべきオフセット値、及び元の信号と再構成信号との間のオフセット値の和に基づき推定できる。ＲＤＯ処理のコスト関数で用いられる歪みは、ＳＡＯ処理された信号と元の信号との間で導出される。種々のＳＡＯモードが、最適モードを選択するためにＲＤＯに対して評価される。ここで、ＳＡＯ処理が同じ再構成信号に適用される。したがって、歪み削減量ｄε_ＳＡＯは、オフセット信号と元の信号との間の平均二乗誤差ε_ＳＡＯを置換するために用いることができる。式（１）に示すように、歪み削減量ｄε_ＳＡＯの計算は、高速アルゴリズムを用いて推定できる。一方で、元の歪み削減量又はオフセット信号と元の信号との間の元の歪みに基づく導出は、元の信号の自己相関、再構成信号の自己相関、元の信号と再構成信号との間の相互相関の計算を含むだろう。したがって、歪み削減量の推定は、必要な計算及びピクチャバッファへのアクセスを大幅に低減できる。本発明による実施形態は、モード毎に歪み削減量の推定を計算し、推定した歪み削減量を用いてＲＤＯコスト関数を評価する。モードは、最適化されるべき領域分割／領域マージに関連付けられた領域であり得る。モード候補に関連付けられたＲＤＯコスト関数に従って、最適モードが選択される。

上述のような本発明によるサンプル適応オフセット補償の実施形態は、種々のハードウェア、ソフトウェアコード又はこれらの組合せで実装できる。例えば、本発明の実施形態は、本願明細書に記載した処理を実行するために、ビデオ圧縮チップに組み込まれた回路又は圧縮ソフトウェアに組み込まれたプログラムコードであり得る。本発明の実施形態は、本願明細書に記載した処理を実行するために、ＤＳＰ（Digital Signal Processor）で実行されるプログラムコードであっても良い。本発明は、コンピュータプロセッサ、デジタル信号プロセッサ、マイクロプロセッサ又はＦＰＧＡ（field programmable gate array）により実行される多数の機能を有しても良い。これらのプロセッサは、本発明により実現される特定の方法を定める機械可読ソフトウェアコード又はファームウェアコードを実行することにより、本発明による特定のタスクを実行するよう構成され得る。ソフトウェアコード又はファームウェアコードは、異なるプログラミング言語及び異なるフォーマット若しくはスタイルで開発されても良い。ソフトウェアコードは、異なるターゲットプラットフォームのためにコンパイルされても良い。しかしながら、ソフトウェアコード及び本発明に従ってタスクを実行するようコードを構成する他の手段の異なるコードフォーマット、スタイル及び言語は、本発明の精神及び範囲から逸脱するものではない。

本発明は、本発明の精神又は基本的特徴から逸脱することなく他の特定の形式で実施できる。説明した例は、あらゆる面で、単に説明であり限定的でないと考えられる。従って、本発明の範囲は、前述の説明によるのではなく、添付の特許請求の範囲により示される。請求項の等価物の意味及び範囲の範囲内で生じる全ての変化は、請求項の範囲内に包含される。

［関連出願の参照］
本発明は、米国仮特許出願番号６１/４３２,４８２、２０１１年１月１３日出願、名称「Picture Quadtree Adaptive Offset」、米国仮特許出願番号６１/４３６,２９６、２０１１年１月２６日出願、名称「Improved Offset Method」、米国仮特許出願番号６１/４６６,０８３、２０１１年３月２２日出願、名称「Sample Adaptive Offset」、米国非仮特許出願番号１２/９８７,１５１、２０１１年１月９日出願、名称「Apparatus and Method of Adaptive Offset for Video Coding」、米国非仮特許出願番号１３/１７７,４２４、２０１１年７月６日出願、名称「APPARATUS AND METHOD OF EFFICIENT SAMPLE ADAPTIVE OFFSET」、米国非仮特許出願番号１３/１５８,４２７、２０１１年６月１２日出願、名称「Apparatus and Method of Sample Adaptive Offset for Video Coding」の優先権を主張する。これらの米国仮特許出願及び米国非仮特許出願は、参照されることによりそれらの全体が本願明細書に組み込まれる。

Claims

レート歪最適化（Rate-Distortion Optimization：RDO）を用いて、所定の処理が行われた処理済みビデオデータのサンプル適応オフセット（Sample Adaptive Offset：SAO）補償のためのモードを決定する方法であって、前記方法は、
前記処理済みビデオデータを受信するステップ、
ＳＡＯモードを識別するステップ、
歪み削減量に従って前記モードの各々と関連付けられた歪みを決定するステップであって、前記歪み削減量は、第１の歪みと第２の歪みとの間の差に関連し、前記第１の歪みは、前記処理済みビデオデータと関連付けられた元の信号とＳＡＯ補償された信号とに関連し、前記第２の歪みは、前記処理済みビデオデータと関連付けられた元の信号と再構成信号とに関連する、ステップ、
前記モードの各々の歪みに基づきレート歪み（Rate-Distortion：RD）コストを決定するステップ、
前記モードの中から最適モードを選択するステップであって、前記最適モードは、最小ＲＤコストを有する、ステップ、
選択された前記最適モードに従って前記処理済みビデオデータにＳＡＯを適用するステップ、
を有し、
前記ＳＡＯ補償は、前記処理済みビデオデータに対して、強度シフトを補正、或いは修復するものであり、
前記再構成信号は、再構成（reconstruction）が行われた信号である、方法。
前記歪み削減量は、前記モードの各々のピクセル数（iCount）、前記モードの各々に属するピクセルに加算されるべきオフセット値（iOffset）、及び前記処理済みビデオデータに関連付けられた再構成信号と元の信号との間のオフセット値の和（iOffsetOrg）に関連する、請求項１に記載の方法。
前記歪み削減量は、(iCount*iOffset*iOffset)-(iOffsetOrg*iOffset*２)に関連する、請求項２に記載の方法。
前記モードが領域分割又は領域マージと関連付けられるとき、小さい領域の前記歪み削減量は、個々の大きい領域の歪み削減量を計算するために再利用される、請求項１に記載の方法。
所定の処理が行われた処理済みビデオデータのサンプル適応オフセット（Sample Adaptive Offset：SAO）補償の方法であって、
前記処理済みビデオデータを受信するステップ、
分類に従って前記処理済みビデオデータの現在のピクセルのカテゴリを決定するステップであって、前記分類は、前記現在のピクセルと１又は複数の近隣ピクセルとに関連する、ステップ、
補償された現在のピクセルを生成するために、前記カテゴリに関連付けられたオフセット値を用いて前記現在のピクセルを補償するステップ、
前記現在のピクセルと前記１又は複数の近隣ピクセルとの間の関係を格納するステップ、
前記現在のピクセルのカテゴリを決定した後に、実質的に少数のピクセル期間内に、前記現在のピクセルを前記補償された現在のピクセルで置換するステップ、
を有し、
前記ＳＡＯ補償は、前記処理済みビデオデータに対して、強度シフトを補正、或いは修復するものである、方法。
前記現在のピクセルと前記１又は複数の近隣ピクセルとの間の関係の少なくとも一部は、別のピクセルのカテゴリを決定するために用いられる、請求項５に記載の方法。
前記現在のピクセルと前記１又は複数の近隣ピクセルとの間の関係は、sign関数に基づく、請求項５に記載の方法。
ルックアップテーブルが、前記現在のピクセルのカテゴリを決定するために用いられる、請求項５に記載の方法。
レート歪最適化（Rate-Distortion Optimization：RDO）を用いて、所定の処理が行われた処理済みビデオデータのサンプル適応オフセット（Sample Adaptive Offset：SAO）補償のためのモードを決定する装置であって、前記装置は、
前記処理済みビデオデータを受信する手段、
ＳＡＯモードを識別する手段、
歪み削減量に従って前記モードの各々と関連付けられた歪みを決定する手段であって、前記歪み削減量は、第１の歪みと第２の歪みとの間の差に関連し、前記第１の歪みは、ＳＡＯ補償された信号と前記処理済みビデオデータと関連付けられた元の信号とに関連し、前記第２の歪みは、再構成信号と前記処理済みビデオデータと関連付けられた元の信号とに関連する、手段、
前記モードの各々の歪みに基づきレート歪み（Rate-Distortion：RD）コストを決定する手段、
前記モードの中から最適モードを選択する手段であって、前記最適モードは、最小ＲＤコストを有する、手段、
選択された前記最適モードに従って前記処理済みビデオデータにＳＡＯを適用する手段、
を有し、
前記ＳＡＯ補償は、前記処理済みビデオデータに対して、強度シフトを補正、或いは修復するものであり、
前記再構成信号は、再構成（reconstruction）が行われた信号である、装置。
前記歪み削減量は、前記モードの各々のピクセル数（iCount）、前記モードの各々に属するピクセルに加算されるべきオフセット値（iOffset）、及び前記処理済みビデオデータに関連付けられた再構成信号と元の信号との間のオフセット値の和（iOffsetOrg）に関連する、請求項９に記載の装置。
前記歪み削減量は、(iCount*iOffset*iOffset)-(iOffsetOrg*iOffset*２)に関連する、請求項１０に記載の装置。
前記モードが領域分割又は領域マージと関連付けられるとき、小さい領域の前記歪み削減量は、個々の大きい領域の歪み削減量を計算するために再利用される、請求項９に記載の装置。
所定の処理が行われた処理済みビデオデータのサンプル適応オフセット（Sample Adaptive Offset：SAO）補償の装置であって、
前記処理済みビデオデータを受信する手段、
分類に従って前記処理済みビデオデータの現在のピクセルのカテゴリを決定する手段であって、前記分類は、前記現在のピクセルと１又は複数の近隣ピクセルとに関連する、手段、
補償された現在のピクセルを生成するために、前記カテゴリに関連付けられたオフセット値を用いて前記現在のピクセルを補償する手段、
前記現在のピクセルと前記１又は複数の近隣ピクセルとの間の関係を格納する手段、
前記現在のピクセルのカテゴリを決定した後に、実質的に少数のピクセル期間内に、前記現在のピクセルを前記補償された現在のピクセルで置換する手段、
を有し、
前記ＳＡＯ補償は、前記処理済みビデオデータに対して、強度シフトを補正、或いは修復するものである、装置。
前記現在のピクセルと前記１又は複数の近隣ピクセルとの間の関係の少なくとも一部は、別のピクセルのカテゴリを決定するために用いられる、請求項１３に記載の装置。
前記現在のピクセルと前記１又は複数の近隣ピクセルとの間の関係は、sign関数に基づく、請求項１３に記載の装置。
ルックアップテーブルが、前記現在のピクセルのカテゴリを決定するために用いられる、請求項１３に記載の装置。