JP2018514145A

JP2018514145A - ハイダイナミックレンジ映像符号化における、ループ内ブロックベース画像再構成

Info

Publication number: JP2018514145A
Application number: JP2017552806A
Authority: JP
Inventors: スゥ，グワン‐ミーン
Original assignee: ドルビーラボラトリーズライセンシングコーポレイション
Priority date: 2015-04-06
Filing date: 2016-03-30
Publication date: 2018-05-31
Anticipated expiration: 2036-03-30
Also published as: EP3281409A1; WO2016164235A1; JP6383116B2; EP3281409B1; CN109068139B; CN107439012B; CN107439012A; US20180124399A1; CN109068139A; US10015491B2

Abstract

ハイダイナミックレンジ映像の符号化における、ループ内での、領域ベースの再構成のためのシステムおよび方法を開示する。高ビットの深度バッファを使用して、入力データと以前に復号化された参照データとを格納するとき、順方向および逆方向のループ内再構成関数によって、映像符号化および復号化を入力ビット深度よりも低いターゲットビット深度において実行することが可能となる。さらに、データオーバーヘッドを低減し得る、再構成関数のクラスタリングの方法も提示する。

Description

関連出願への相互参照
本願は、２０１５年４月６日に出願された米国仮特許出願第６２／１４３，４７８号に基づく優先権を主張するものであり、この出願の開示内容を全て本願に援用する。

技術
本発明は、広く画像に関する。より詳細には、本発明のある実施形態は、ハイダイナミックレンジの画像および映像シーケンスのための、ループ内（ｉｎ−ｌｏｏｐ）ブロックベース（ｂｌｏｃｋ−ｂａｓｅｄ）画像再構成に関する。

背景
本明細書において、用語「ダイナミックレンジ」（ＤＲ）は、人間の視覚システム（ＨＶＳ）が画像においてある範囲の強度（例えば、輝度、ルマ）（例えば、最暗部（黒）から最明部（白）まで）を知覚する能力に関連し得る。この意味では、ＤＲはシーン−リファード（ｓｃｅｎｅ−ｒｅｆｅｒｒｅｄ）の強度に関する。ＤＲはまた、ディスプレイデバイスが特定の幅を有する強度範囲を妥当にまたは近似的に描画する能力にも関連し得る。この意味では、ＤＲは、ディスプレイ−リファード（ｄｉｓｐｌａｙ−ｒｅｆｅｒｒｅｄ）の強度に関する。本明細書中の任意の箇所において、ある特定の意味が特に明示的に指定されている場合を除いて、この用語はどちらの意味としても（例えば、区別なく）使用できるものとする。

本明細書において、ハイダイナミックレンジ（ＨＤＲ）という用語は、人間の視覚システム（ＨＶＳ）において１４〜１５桁ほどにわたるＤＲ幅に関する。実際において、人間が広範囲の強度範囲を同時に知覚し得るＤＲは、ＨＤＲに対して幾分端折られ得る。本明細書において、エンハンストダイナミックレンジ（ＥＤＲ）または視覚ダイナミックレンジ（ＶＤＲ）という用語は、個別にまたは区別なく、人間の視覚システム（ＨＶＳ）（眼球運動を含み、シーンまたは画像にわたってある程度の明順応変化を可能にする）が、あるシーンまたは画像中において知覚可能なＤＲに関する。本明細書において、ＥＤＲは、５〜６桁にわたるＤＲに関連し得る。従って、真のシーンリファードのＨＤＲに対しては幾分狭いものの、ＥＤＲは広いＤＲ幅を表し、ＨＤＲとも呼ばれ得る。

実際において、画像は１つ以上の色成分（例えばルマＹおよびクロマＣｂおよびＣｒ）を有しており、各色成分は、画素あたりｎビットの精度（例えばｎ＝８）で表される。線形輝度符号化（ｌｉｎｅａｒｌｕｍｉｎａｎｃｅｃｏｄｉｎｇ）を用いた場合、ｎ≦８の画像（例えばカラー２４ビットＪＰＥＧ画像）はスタンダードダイナミックレンジとされ、ｎ＞８の画像はエンハンストダイナミックレンジの画像とされる。ＥＤＲおよびＨＤＲ画像はまた、ＩｎｄｕｓｔｒｉａｌＬｉｇｈｔａｎｄＭａｇｉｃが開発したＯｐｅｎＥＸＲファイルフォーマットなどの高精度の（例えば１６ビット）浮動小数点フォーマットを用いて、格納および配信され得る。

あるディスプレイについての基準（ｒｅｆｅｒｅｎｃｅ）電気光学伝達関数（ＥＯＴＦ）は、入力映像信号の明度（ｃｏｌｏｒｖａｌｕｅｓ）（例えば輝度）からそのディスプレイによって生成される出力スクリーン明度（例えばスクリーン輝度）への関係を特徴づける。例えば、その開示内容を全て本願に援用するＩＴＵＲｅｃ．ＩＴＵ−ＲＢＴ．１８８６、「Ｒｅｆｅｒｅｎｃｅｅｌｅｃｔｒｏ−ｏｐｔｉｃａｌｔｒａｎｓｆｅｒｆｕｎｃｔｉｏｎｆｏｒｆｌａｔｐａｎｅｌｄｉｓｐｌａｙｓｕｓｅｄｉｎＨＤＴＶｓｔｕｄｉｏｐｒｏｄｕｃｔｉｏｎ」（０３／２０１１）では、陰極線管（ＣＲＴ）の測定された特性に基づいて、フラットパネルディスプレイについての基準ＥＯＴＦを定義している。ある映像ストリームが与えられたとき、そのＥＯＴＦに関する情報は、典型的にはメタデータとしてビットストリーム中に埋め込まれる。本明細書において、「メタデータ」の語は、符号化ビットストリームの一部として送信され、デコーダが復号化画像を描画することを助ける、任意の補助的情報に関する。そのようなメタデータは、本明細書において記載されるような、色空間または色域情報、リファレンスディスプレイパラメータ、および補助的な信号パラメータなどを含むが、これらに限定されない。

ほとんどのコンシューマー用デスクトップディスプレイは現在、２００〜３００ｃｄ／ｍ^２またはニトの輝度をサポートしている。ほとんどのコンシューマー用ＨＤＴＶは３００〜５００ニトの範囲であるが、新しいモデルは１０００ニト（ｃｄ／ｍ^２）に達する。このような従来のディスプレイはしたがって、ＨＤＲやＥＤＲに対し、より低いダイナミックレンジ（ＬＤＲ）（またはスタンダードダイナミックレンジ（ＳＤＲ）とも呼ばれる）の典型例となる。キャプチャ機器（例えばカメラ）およびＨＤＲディスプレイ（例えばＤｏｌｂｙＬａｂｏｒａｔｏｒｉｅｓのＰＲＭ−４２００プロフェッショナルリファレンスモニター）両方の進化によって、ＨＤＲコンテンツの普及率が高まるにつれ、ＨＤＲコンテンツはカラーグレーディングされてより高いダイナミックレンジ（例えば１，０００ニトから５，０００ニト以上）をサポートするＨＤＲディスプレイ上に表示されることがある。そのようなディスプレイは、高輝度能力（例えば０から１０，０００ニトなど）をサポートする代替的なＥＯＴＦを用いて定義され得る。そのようなＥＯＴＦの一例が、その開示内容を全て本願に援用するＳＭＰＴＥＳＴ２０８４：２０１４「ＨｉｇｈＤｙｎａｍｉｃＲａｎｇｅＥＯＴＦｏｆＭａｓｔｅｒｉｎｇＲｅｆｅｒｅｎｃｅＤｉｓｐｌａｙｓ」に定義されている。一般的に、限定しないが、本開示の方法はＳＤＲよりも高い任意のダイナミックレンジに関連する。本発明者らの理解によれば、映像符号化においてハイダイナミックレンジ画像を適応的にループ内再構成するための改良技術が望まれる。

本節に記載されている手法は、探求し得る手法ではあるが、必ずしもこれまでに着想または探求されてきた手法ではない。従って、別途示唆のない限り、本節に記載された手法のいずれも、本節に記載されているという理由だけで従来技術としての適格性を有すると考えるべきではない。同様に、別途示唆のない限り、１以上の手法に関して特定される問題が、本節に基づいて、いずれかの先行技術において認識されたことがあると考えるべきではない。

図面の簡単な説明
同様の部材に同様の参照符号を付した添付図面の各図において、本発明のある実施形態を限定する事なく例示する。

図１Ａは、映像供給パイプラインのプロセス例を示す。図１Ｂは、ループ外での（ｏｕｔ−ｏｆ−ｌｏｏｐ）適応的な量子化または再構成および逆量子化を用いたデータ圧縮のプロセス例を示す。図２Ａは、本発明のある実施形態による、映像エンコーダにおける、ループ内での順方向再構成のためのシステム例を示す。図２Ｂは、本発明のある実施形態による、映像デコーダにおける、ループ内での逆方向再構成のためのシステム例を示す。図３Ａは、本発明のある実施形態による、映像エンコーダにおける、ループ内での順方向再構成のためのプロセス例を示す。図３Ｂは、本発明のある実施形態による、映像デコーダにおける、ループ内での逆方向再構成のためのプロセス例を示す。図４は、符号化領域（ｃｏｄｉｎｇｒｅｇｉｏｎｓ）へと細分された画像フレームを表す。

例示的な実施形態の説明
ハイダイナミックレンジ（ＨＤＲ）画像を圧縮する際の、ループ内での適応的再構成の技術を本明細書に記載する。以下の説明においては、便宜上、本発明を完全に理解できるように、多数の詳細事項を説明する。ただし、これらの詳細事項が無くても本発明を実施可能であることは明白であろう。他方、本発明の説明を不必要に煩雑にしたり、不明瞭にしたり、難読化したりしないように、周知の構造およびデバイスの細かな詳細までは説明しない。

概要
本明細書に記載の例示的な実施形態は、ＨＤＲ画像の符号化（例えば、圧縮および展開）の際における、ループ内ブロックベース再構成に関する。ある実施形態において、エンコーダが、入力ビット深度におけるＨＤＲ入力画像にアクセスする。入力画像が有するある符号化領域（ｃｏｄｉｎｇｒｅｇｉｏｎ）について、エンコーダは、順方向再構成関数および逆方向再構成関数を生成または選択する。エンコーダは、この符号化されることになる領域のための、入力ビット深度における参照画素データにアクセスし、参照画素データと符号化領域の画素データとに順方向再構成関数を適用することにより、ターゲットビット深度における第２の参照データと第２の符号化領域画素データとを生成する。ここで、ターゲットビット深度は入力ビット深度以下である。エンコーダは、第２の参照データと第２の符号化領域画素データとに基づき、ターゲットビット深度における符号化ビットストリームを生成する。エンコーダはまた、符号化ビットストリームのループ内復号化に基づき、復元データ（ｒｅｃｏｎｓｔｒｕｃｔｅｄｄａｔａ）を生成する。その後、復元データに逆方向再構成関数を適用することにより、入力ビット深度における将来の参照データを生成する。当該符号化領域について順方向および／または逆方向再構成関数を特徴付けるデータもまた、符号化ビットストリームの一部としてデコーダへと通知され得る。

ある別の実施形態において、デコーダが、ターゲットビット深度における符号化ビットストリームと、符号化ビットストリームの各符号化領域（ｃｏｄｅｄｒｅｇｉｏｎ）に対する順方向再構成関数および／または逆方向再構成関数を特徴付けるメタデータにアクセスする。符号化ビットストリームが有するある符号化領域に対し、デコーダは、出力ビット深度における参照データにアクセスする。ここで、出力ビット深度はターゲットビット深度以上である。入力メタデータに基づいて、順方向再構成関数および逆方向再構成関数をこの符号化領域に割り当てる。参照データに順方向再構成関数を適用することにより、ターゲットビット深度における第２の参照データを生成する。デコーダは、符号化ビットストリームデータと第２の参照データとに基づき、当該符号化領域に対する、ターゲットビット深度における復号化画素データを生成する。復号化画素データに逆方向再構成関数を適用することにより、出力ビット深度における出力データと将来の参照データとを生成する。

ある実施形態において、ある符号化領域に対する順方向再構成関数を生成または選択することは、以下を含む。すなわち、入力画像を複数の符号化領域に分割することと、複数の符号化領域をＧ個のグループにクラスタリングすること（Ｇは画像における全符号化領域の総数よりも少ない）と、Ｇ個のグループの各々につき、順方向再構成関数と逆方向再構成関数とを生成することと、選択基準に従って、当該符号化領域に対し、Ｇ組の順方向および逆方向再構成関数のうち１組を選択することである。

映像供給処理パイプライン例
図１Ａは、従来の映像供給パイプライン（１００）のプロセス例を示しており、映像のキャプチャから映像コンテンツの表示までの、様々な段を示している。画像生成ブロック（１０５）を用い、映像フレームのシーケンス（１０２）をキャプチャまたは生成する。映像フレームは、デジタル的にキャプチャされるか（例えばデジタルカメラにより）またはコンピュータ（例えばコンピュータアニメーションを用いて）によって生成されることにより、映像データ（１０７）が得られる。あるいは映像フレーム（１０２）は、銀塩カメラによってフィルム上に取得されてもよい。フィルムがデジタルフォーマットに変換されることによって、映像データ（１０７）が得られる。プロダクションフェーズ（１１０）において、映像データ（１０７）は編集され、映像プロダクションストリーム（１１２）を得る。

プロダクションストリーム（１１２）の映像データは次に、ブロック（１１５）のプロセッサに与えられて、ポストプロダクション編集を受ける。ブロック（１１５）ポストプロダクション編集は、画像の特定の領域の色または明るさを調節または変更することにより、映像制作者の制作意図にしたがってその画像が特定の見え方をするようにしたり、画質を上げたりすることを含み得る。これは、「カラータイミング」あるいは「カラーグレーディング」と呼ばれることがある。ブロック（１１５）において、その他の編集（例えば、シーン選択およびシーケンシング、画像クロッピング、コンピュータ生成された視覚的特殊効果の追加など）を行うことにより、プロダクションの、配信用の最終バージョン（１１７）を作成してもよい。ポストプロダクション編集（１１５）において、映像イメージは、リファレンスディスプレイ（１２５）上で視聴される。

ポストプロダクション（１１５）の後、最終プロダクションとしての映像データ（１１７）は、下流のテレビ受像機、セットトップボックス、映画館などの復号化・再生機器まで供給されるために、符号化ブロック（１２０）に供給されてもよい。いくつかの実施形態において、符号化ブロック（１２０）は、符号化されたビットストリーム（１２２）を生成するための、ＡＴＳＣ、ＤＶＢ、ＤＶＤ、ブルーレイおよびその他の供給フォーマットに規定されるような音声および映像エンコーダを有していてもよい。受信機において、符号化されたビットストリーム（１２２）は、復号化ユニット（１３０）により復号化されることにより、信号（１１７）と同一またはこれに近い近似を表す、復号化された信号（１３２）を生成し得る。受信機は、リファレンスディスプレイ（１２５）と全く異なる特性を有し得るターゲットディスプレイ（１４０）に取り付けられていてもよい。その場合、ディスプレイマネジメントブロック（１３５）を用いてディスプレイマッピング化信号（１３７）を生成することで、復号化された信号（１３２）のダイナミックレンジを、ターゲットディスプレイ（１４０）の特性にマッピングしてもよい。

信号の再構成または量子化
現在、映像供給用のほとんどのデジタルインターフェース、例えばＳｅｒｉａｌＤｉｇｉｔａｌＩｎｔｅｒｆａｃｅ（ＳＤＩ）などは、各成分につき画素あたり１２ビットに制限されている。さらに、ほとんどの圧縮規格、例えばＨ．２６４（またはＡＶＣ）およびＨ．２６５（またはＨＥＶＣ）などは、各成分につき画素あたり１０ビットに制限されている。したがって、既存のインフラストラクチャおよび圧縮規格内において、約０．００１から１０，０００ｃｄ／ｍ^２（またはニト）のダイナミックレンジを有するＨＤＲコンテンツをサポートするためには、効率的な符号化および／または量子化が必要である。

本明細書において、用語「ＰＱ」は知覚的な輝度振幅（ｌｕｍｉｎａｎｃｅａｍｐｌｉｔｕｄｅ）の量子化を指す。人間の視覚システムは、光レベルの増大に対して非常に非線形的に反応する。人間が刺激を見る能力は、その刺激の輝度、その刺激の大きさ、その刺激を構成する空間周波数、および、その刺激を見ている瞬間までに目が適応した輝度レベルに影響される。ある実施形態において、知覚的量子化器関数は、線形入力グレイレベルを、人間の視覚システムにおけるコントラスト感度閾値によりマッチした出力グレイレベルにマッピングする。ＰＱマッピング関数（またはＥＯＴＦ）の一例が、その開示内容を全て本願に援用する、ＳＭＰＴＥＳＴ２０８４：２０１４「ＨｉｇｈＤｙｎａｍｉｃＲａｎｇｅＥＯＴＦｏｆＭａｓｔｅｒｉｎｇＲｅｆｅｒｅｎｃｅＤｉｓｐｌａｙｓ」に記載されている。ここでは、ある固定刺激サイズに対して、それぞれの輝度レベル（即ち、刺激レベル）について、最高感度の適応レベルおよび最高感度の空間周波数（ＨＶＳモデルによる）に応じて、その輝度レベルにおける最小可視コントラストステップを選択する。物理的な陰極線管（ＣＲＴ）装置の応答曲線を表しており、人間の視覚システムの応答の仕方に対して非常に大まかな類似性を偶然有し得る従来のガンマ曲線と比較して、ＰＱ曲線は、比較的シンプルな関数モデルを用いながら人間の視覚システムの本当の視覚応答を模擬している。

例えば、ＳＭＰＴＥＳＴ２０８４によれば、１ｃｄ／ｍ^２において、１つの１２ビット符号値は約０．００４８ｃｄ／ｍ^２の相対変化に相当する。しかし、１，０００ｃｄ／ｍ^２においては、１つの１２ビット符号値は約２．２４ｃｄ／ｍ^２の相対変化に相当する。この非線形的量子化は、人間の視覚システム（ＨＶＳ）の非線形的なコントラスト感度に対応するために必要である。

知覚的に量子化されたＥＯＴＦの別の例が、その開示内容を全て本願に援用する、Ｊ．Ｓｔｅｓｓｅｎら、「Ｃｈｒｏｍａｔｉｃｉｔｙｂａｓｅｄｃｏｌｏｒｓｉｇｎａｌｓｆｏｒｗｉｄｅｃｏｌｏｒｇａｍｕｔａｎｄｈｉｇｈｄｙｎａｍｉｃｒａｎｇｅ」、ＩＳＯ／ＩＥＣＪＴＣ１／ＳＣ２９／ＷＧ１１ＭＰＥＧ２０１４／Ｍ３５０６５、Ｏｃｔ．２０１４に示されている。

ＨＶＳのコントラスト感度は、画像コンテンツの輝度だけでなくマスキング特性（特にノイズおよびテクスチャ）、そしてＨＶＳの順応状態に依存する。すなわち、画像のノイズレベルまたはテクスチャ特性によっては、画像コンテンツは、ＰＱまたはガンマ量子化器によって予測されるよりも大きな量子化ステップで量子化されることができる。なぜなら、テクスチャおよびノイズは、量子化アーチファクトをマスキングするからである。ＰＱ量子化は、ＨＶＳの能力のうち最大限を記述する。つまりこれは画像中にノイズやマスキングが無い場合のことである。しかし多くの画像において（映像のフレーム）は、有意なマスキングが存在する。

ノイズおよびテクスチャマスキングに加えて、他の視覚のふるまいの特性、例えば光学フレアや局所的順応（ｌｏｃａｌａｄａｐｔａｔｉｏｎ）なども考慮に入れることにより、量子化のレベルを上げ、各色成分につき１０ビット以下でＨＤＲ画像を表現することを可能にし得る。本明細書において、用語「コンテンツ適応的なＰＱ」または略して「適応的ＰＱ」とは、画像の知覚的量子化を、そのコンテンツに基づいて適応的に調節する方法を言う。

図１Ｂは、２０１５年３月２日に出願された米国仮特許出願第６２／１２６，９２５号（以下、‘９２５出願と呼ぶ）に記載の、「ループ外での」適応的なＰＱまたは再構成のためのプロセス例を示す。入力フレーム群（１１７）を与えられると、順方向再構成ブロック（１５０）が、入力および符号化制約を分析し、符号語マッピング関数を生成する。この符号語マッピング関数は、入力フレーム群（１１７）を、再量子化された出力フレーム群（１５２）にマッピングする。例えば、特定のＥＯＴＦにおいては、入力（１１７）はガンマ符号化またはＰＱ符号化され得る。いくつかの実施形態において、再構成プロセスに関する情報は、メタデータを用いて下流の機器（例えばデコーダ）に伝えられてもよい。符号化（１２０）および復号化（１３０）の後、前述したディスプレイマネジメントプロセス（１３５）などのさらなる下流処理のために、復号化フレーム群（１３２）が、再量子化されたフレーム群（１３２）を元のＥＯＴＦドメイン（例えばガンマまたはＰＱ）に再度変換する逆方向再構成関数（１６０）による処理を受けてもよい。逆方向再構成関数を生成することの一例が、２０１５年３月２０日に出願された米国仮出願第６２／１３６，４０２号（以下、‘４０２出願と呼ぶ）に記載されている。

ループ内での画像再構成
図２Ａは、本発明のある実施形態による、映像エンコーダにおけるループ内再構成のためのシステム例（２００Ａ）を示す。図２Ａに表すように、ハイダイナミックレンジ画像（例えば、映像フレーム）のシーケンス（２０２）（例えば、色成分当たり１２または１６ビットでキャプチャされたもの）が、高ビット深度のフレームバッファ（２０５）に格納される。映像エンコーダ（例えば、ＭＰＥＧ−２、ＭＰＥＧ−４、ＡＶＣ、ＨＥＶＣなどのエンコーダ）はインター／イントラ予測（２１５）を備えており、これにより、イントラ符号化されたブロックまたは残差（２１７）のいずれかを生成する。その後、予測プロセス（２１５）の出力（２１７）を、適切な変換ドメイン（例えば、ＤＣＴ）へと変換し、量子化（２２０）する。最後に、量子化（２２０）の後で、エントロピーエンコーダ（２２５）が、ロスレス符号化技術（例えば、ハフマン符号化、算術符号化など）を使用して圧縮ビットストリーム（２２７）を生成する。殆どの規格準拠エンコーダ（例えば、ＡＶＣ、ＨＥＶＣなど）はループ内での復号化プロセスを備えており、このプロセスにおいて、逆量子化および逆変換プロセス（２３０）を適用した後で、下流のデコーダによって感じとられるであろうような、入力ビットストリームの近似（２３２）を生成する。高ビット深度のエンコーダおよびデコーダを設計することは高コストであるため、商業的に利用可能な映像エンコーダにおいて、サポートされるビット深度は約８〜１０ビットに制限され得る。低コストのエンコーダを使用してＨＤＲ入力をより良く符号化するために、順方向再構成ユニット（２１０）において、高ビット深度バッファの出力（２０７）を、当初の入力ビット深度Ｂ_Ｉ（例えば、１２または１６ビット）からターゲットビット深度Ｂ_Ｔ（例えば、８または１０ビット）に変換し得る。いくつかの実施形態において、たとえターゲットビット深度が入力ビット深度と同一である場合でも、再構成を適用して信号ダイナミックレンジを制限することは有益であり得る。例えば、再構成によって全体的な圧縮効率を改善することもできるし、再構成において、ある特定のダイナミックレンジのディスプレイに向けたコンテンツを生成することを目標としてもよい。順方向再構成または量子化（２１０）に関する全てのパラメータは、メタデータ（２１３）を介して下流のデコーダ（例えば、２００Ｂ）へと伝達されることができ、これによりデコーダは、エンコーダにおける逆方向再構成ブロック（２３５）と同様な逆方向再構成関数を生成し得る。

ループ内での再構成（２１０）と従来の再構成（１５０）との主要な差異は、ループ内での再構成は映像エンコーダ（１２０）の内部で動作することであることに留意されたい。ループ内での再構成は、入力映像のローカルな特性をより十分に追及するので、より優れた性能をもたらすものと期待される。ＨＤＲ画像において、ダイナミックレンジは画像の様々な領域に亘って変化し得る。例えば、テストシーケンスの一例において、ある所定のフレームに対し、グローバルレベルではグローバルな最大および最小輝度値間の差は４６，３６５であった。ところが、８×８のオーバーラップしないブロックの全てに亘って、ブロックベースの最大輝度値と最小輝度値との最大の差は３４，９０４であった。この場合、ブロック毎に考えて、著しくより低いビット深度要件が可能となる。

再構成パラメータがより頻繁に調整され得るので、ループ内再構成においては、適切なパラメータをデコーダに渡して順方向および逆方向再構成関数を生成するために、より高いメタデータオーバーヘッドを必要とし得る。本発明において、より優れた符号化効率とより高い画質のために、このオーバーヘッドを低減する新規なマッピング方法を提案する。

図２Ｂは、映像デコーダにおける、逆方向のループ内再構成のためのシステム例（２００Ｂ）を示す。ターゲットビット深度（Ｂ_Ｔ）において符号化された入力圧縮ビットストリーム（２２７）が与えられると、デコーダは、エントロピー復号化（２５０）、逆量子化と逆変換（２５５）、およびイントラ／インター予測（２７５）を実行することにより、ターゲットビット深度Ｂ_Ｔ（例えば、８または１０ビット）における復号化信号（２５７）を生成する。この信号は、順方向再構成を適用した後にエンコーダによって生成された信号（２１２）の近似を表す。イントラ／インター予測（２７５）においては、高ビット深度（例えば、Ｂ_Ｏ）のフレームバッファ（２６５）に格納された、以前に復号化済みの参照画素（２６７）にアクセスすることが必要であり得る。ビット深度Ｂ_Ｏにおける参照画素（２６７）は、ターゲットビット深度（Ｂ_Ｔ）における参照データ（２７２）へと、順方向再構成関数（２７０）を使用して変換される。旧式デコーダは、直接に信号２５７を表示するかもしれない。しかし、ハイダイナミックレンジデコーダは、逆方向再構成（２６０）を適用することにより、当初のＨＤＲ信号（２０２）を近似する、ビット深度Ｂ_Ｏにおけるハイダイナミックレンジ信号（２６２、２６９）を生成し得る。ある実施形態において、デコーダにおける逆方向再構成（２６０）は、エンコーダにおける逆方向再構成（２３５）に一致する。同様に、デコーダにおける順方向再構成（２７０）は、エンコーダにおける順方向再構成（２１０）に一致する。他の実施形態において、デコーダ（２００Ｂ）における順方向および逆方向の再構成関数は、エンコーダ（２００Ａ）における対応する関数に近い近似であってもよい。

エンコーダにおける場合と同様に、映像復号化処理の殆どはターゲットビット深度（Ｂ_Ｔ）において行なわれ、逆方向および順方向の再構成関数のみが、より高いビット深度において実行されることを要する。以下の節において、イントラ予測またはインター予測における順方向および逆方向の再構成技術を記載する。一例として、単純な線形の再構成関数についての特定の詳細を説明する。但し、提案される技術を、別の非線形または適応的な量子化および再構成方式に適用する方法については、当業者にとって明らかなはずである。

図３Ａは、ある実施形態による、順方向のループ内再構成のためのプロセス例（３００Ａ）を示す。ステップ（３０５）において、入力ＨＤＲ画像（２０２）（例えば、フレームシーケンス中のあるフレーム）を、高ビット深度（Ｂ_Ｉ）のメモリ（例えば２０５）に格納する。この画像（２０２）を、符号化領域（例えば、マクロブロック、符号化木ユニットなど）に細分する。その後、各符号化領域（２０７）に対し、以下のステップを実行し得る。
・ステップ（３１０）において、順方向再構成変換により、符号化されることになる画像領域（２０７）および、関連参照データ（２３７）を入力ビット深度（Ｂ_Ｉ）からターゲットビット深度（Ｂ_Ｔ）に変換する。順方向再構成変換に関するパラメータ（２１３）を使用して、逆方向再構成変換（３３５）を生成し得る。
・ステップ（３１５）において、ステップ（３１０）の出力を、映像エンコーダ（例えば、ＭＰＥＧ−４、ＡＶＣ、ＨＥＶＣなど）を使用して符号化する。例えば、映像符号化ステップは、イントラまたはインター予測（３１５）、変換および量子化（２２０）、ならびにエントロピー符号化（２２５）を含み得る。
・ステップ（３２５）は、映像符号化における従来のループ内復号化（例えば、逆量子化および逆変換）を含むことにより、対応する下流のデコーダ（例えば、２００Ｂ）によって生成されることになるような復元信号（２３２）を生成する。逆方向再構成ステップ（３３５）の後で、将来の符号化領域の符号化において参照データ（２３７）として使用するために、復元データ（２３２）をＢ_Ｉビット深度に変換し戻し、フレームバッファに格納する。
・最後に、ステップ（３２０）において、順方向再構成関数のパラメータ（２１３）および映像エンコーダの出力（３１７）を多重化して、符号化ビットストリームを作成する。
この処理は、入力（２０２）の全ての符号化領域について、そして入力信号の１つ以上の色成分（例えば、ルマおよびクロマ）について、繰り返され得る。メタデータ（２１３）は、順方向再構成関数のみに関するパラメータを含んでもよいし、逆方向再構成関数のみに関するパラメータを含んでもよいし（これにより、順方向および逆方向再構成関数の両方を導出することが可能となる）、順方向および逆方向関数の両方に関するパラメータを含んでもよい。

ターゲットビット深度Ｂ_Ｔ（例えば、８または１０ビット）における符号化ビットストリーム（２２７）が与えられたとして、図３Ｂは、ある実施形態による復号化プロセス例（３００Ｂ）を示す。ステップ（３３０）において、デコーダは、入力ビットストリーム（２２７）を多重分離して、符号化ビットストリーム（２５２）と再構成に関するメタデータ（２１３）とを生成する。再構成パラメータ（２１３）を使用して、エンコーダ（例えば、２００Ａまたは３００Ａ）によって用いられた対応する関数に一致する逆方向再構成関数（３３５）および順方向再構成関数（３１０）を構築する。次に、符号化ビットストリーム（２５２）における各符号化領域に対し、復号化領域を以下のように生成する。
・ステップ（３５０）において、ビットストリームの中で規定されている符号化パラメータに従って、ターゲットビット深度Ｂ_Ｔにおける符号化領域を復号化する。このような復号化のためには、当該分野で公知の、エントロピー復号化、逆変換と逆量子化、および／またはイントラもしくはインター予測を適用することが必要とされ得る。ビット深度Ｂ_Ｔにおけるイントラまたはインターベースの復号化に対応するために、復号化に必要とされる全ての参照データ（例えば、以前に復号化された参照領域からの画素データ）（Ｂ_０≧Ｂ_Ｔビット深度において格納されている）を、順方向再構成ステップ（３１０）を使用してＢ_Ｉビット深度に変換し戻す。
・ステップ（３３５）において、逆方向再構成変換を使用して、復号化信号（２５７）をビット深度Ｂ_Ｏを有する信号に変換し戻す。その後、ステップ（３４０）において、この高ビット深度信号（２６２）を高ビット深度バッファ（例えば２６５）に格納する。典型的には、Ｂ_Ｏ＝Ｂ_Ｉ（すなわち、エンコーダにおいて使用された当初のＨＤＲビット深度）である。但し、いくつかの実施形態においては、Ｂ_Ｏは典型的にはＢ_Ｔより大きいものの、Ｂ_ＯとＢ_Ｔとは異なっていてもよい（例えば、Ｂ_Ｉ≧Ｂ_Ｏ≧Ｂ_Ｔ）。

イントラまたはインター予測についてのさらなる詳細を、以降の節において記載する。

イントラ予測におけるループ内再構成
図４は、オーバーラップしない複数の符号化領域（例えば、４０５、４１０、４１５）へと細分された画像フレーム（４００）の一例を示す。このような領域は、ブロック、マクロブロック、符号化木ブロック、スライスなどに相当し得る。一般的にそうだというわけではないが、このような領域は、全てが均一（例えば３２×３２）でもよいし、不均等でもよい。イントラ予測において、あるフレームにおける現領域または現ブロックの画素は、他のフレームの画素を一切参照せずに、同一フレーム中の、以前に符号化された近傍の領域からの画素に基づいて予測する。ある実施形態において、Ｌ_{（ｍ，ｎ），ｊ}は、ｍ＝０，ｎ＝０を左上の角として、第ｊ番目フレーム中の第ｍ列ｎ行に位置する第（ｍ，ｎ）ＨＤＲ領域を表すものとする。ビット深度Ｂ_Ｉを有するこのような領域中のＨＤＲ画素を、ｖ_{（ｍ，ｎ），ｊ}（ｘ，ｙ）と表す。Ｆ_{（ｍ，ｎ），ｊ}（）は、この領域に対する順方向再構成関数を表し、Ｂ_{（ｍ，ｎ），ｊ}（）は、これに対応する逆方向再構成関数を表すものとする。ターゲットビット深度Ｂ_Ｔにおける再構成画素または量子化画素（２１２）を、

と表す。このとき、逆方向再構成関数から復元された画素（２３７）は、

と表すことができる。

順方向再構成関数Ｆ_{（ｍ，ｎ），ｊ}（）の構築は、現領域Ｌ_{（ｍ，ｎ），ｊ}中の全画素についてのダイナミックレンジに加えて、近傍領域における全ての参照画素のダイナミックレンジを考慮に入れる必要がある。ある実施形態において、当該フレーム中の現ブロックの位置によって、５つの異なるシナリオが存在する。すなわち、
・いずれの近傍も利用不能である。例えば、現ブロックは、フレームの左上角にある（例えば、現ブロックはブロック（４０５））。
・一個の左近傍が利用可能（例えば、現ブロックは、ブロック（４１０）または（４１５））である。このとき、

の画素が利用可能である。
・上および右上の近傍のみが利用可能（例えば、現ブロックがブロック（４２０））である。このとき、

の画素が利用可能である。
・左、左上、上、および右上の近傍のみが利用可能（例えば、現ブロックがブロック（４２５））である。このとき、画素

が、利用可能である。
・左、左上、および上の近傍のみが利用可能（例えば、現ブロックがブロック（４３０））である。このとき、画素

が、利用可能である。

Θ_{（ｍ，ｎ），ｊ}は、利用可能な復元された近傍のブロックからの、予測参照のために利用される画素の集合を表すものとする。ある実施形態において、最初のステップは、Ｌ_{（ｍ，ｎ），ｊ}とΘ_{（ｍ，ｎ），ｊ}の両方における画素についての全ダイナミックレンジを決定することを含む。

は、これらの全画素の和集合を表すものとする。ある実施形態において、

は、Ω_{（ｍ，ｎ），ｊ}中の最大および最小の画素値を表すものとする。ｓ^Ｈ _{（ｍ，ｎ），ｊ}およびｓ^Ｌ _{（ｍ，ｎ），ｊ}は、ターゲットビット深度における対応する最小および最大の画素値を表すものとする。いくつかの実施形態において、これらの値は、フレーム全体について、またはさらにシーン全体もしくは映像シーケンス全体についてさえ、一定であってもよい。例えば、ある実施形態において、ｓ^Ｌ _{（ｍ，ｎ），ｊ}＝０であり、例えばＢ_Ｔ＝８においてはｓ^Ｈ _{（ｍ，ｎ），ｊ}＝２５５、Ｂ_Ｔ＝１０においてはｓ^Ｈ _{（ｍ，ｎ），ｊ}＝１０２３であり、これは最大の可能な適正値を表す。一例として、線形ストレッチ法を仮定すると、順方向再構成関数は、

と表され得る。デコーダは、入力および出力の境界点（例えば、ｖ^Ｈ _{（ｍ，ｎ），ｊ}およびｖ^Ｌ _{（ｍ，ｎ），ｊ}）が既知ならば、逆方向再構成関数を復元できる。しかし、このような態様によれば、多大なオーバーヘッドが発生するゆえに全体的な符号化効率が低下し得る。ある実施形態において、予め決定されたクラスタリングを使用して成形パラメータをグループ化することにより、このオーバーヘッドを低減することが可能である。

Ｋ（例えば、Ｋ＝１０２４、８０９６など）間隔のｖ^Ｈ _{（ｍ，ｎ），ｊ}およびｖ^Ｌ _{（ｍ，ｎ），ｊ}の値を考える。例えば、これらの値を

に丸めることによって規定されるものを考える。これらの丸め値を、Ｇ個のグループへとさらにクラスタリングすることができ、各グループは、ある最適化基準に従って、ある代表値で代表される。例えば、ある実施形態において、Ｋ平均クラスタリングアルゴリズム（Ｋ−ｍｅａｎｃｌｕｓｔｅｒｉｎｇａｌｇｏｒｉｔｈｍ）を使用することにより、ある一つのグループにおける

の代表値はそのグループにおける最大値であるべきであり、かつ、ある一つのグループにおける

の代表値はそのグループにおける最小値であるべきであるという制約の下で、クラスタリング歪みを最小化することが可能である。例えば、Ψ_ｇ，ｊがグループｇにおけるＬ_{（ｍ，ｎ），ｊ}ブロックの集合を表すとすると、代表値は、

のように算出し得る。

グループの数Ｇは、領域中のダイナミックレンジを表現する正確度と、オーバーヘッドとのトレードオフを表す。代表値は、グループインデックス（例えばｇ）（ｇ＝０，１，２，，Ｇ−１など）を介してアクセスされるテーブルに格納してもよい。これらの代表値は、当該分野で公知のロスレス符号化技術のいずれかを使用して、さらに符号化することができる。また、各フレームについて、ある有限の数であるＧ個のクラスタのみが存在するので、後により詳細に説明するように、これらは各フレームの最初に予め算出しておくことが可能なことにも、留意されたい。同様の技術を、‘９２５出願に記載されているような、他の再構成方式に適用してもよい。

逆方向再構成関数は、エンコーダとデコーダの両方において必要であり、順方向再構成関数のパラメータに基づいて生成される。例えば、式（４）の線形再構成関数について、逆再構成関数は、

のように算出し得る。他の実施形態において、区分的な線形または非線形の多項式により、逆方向再構成関数を近似してもよい。これらの多項式の係数は、メタデータ（２１３）として、エンコーダからデコーダへと送信され得る。クラスタベースの順方向再構成関数の場合、考えている各時間間隔（例えば、フレームまたはシーン）について、エンコーダにおけるＧ個のクラスタの各々に対して、逆方向再構成のための対応するルックアップテーブル（ＬＵＴ）を生成してもよい。これにより、適正な逆方向再構成関数を容易に識別することができる。表１Ａは、ある実施形態による、ループ内でのイントラ予測に必要なステップの概要の例を示す。これに対応する復号化ステップは、表１Ｂに列挙する。

順方向再構成に関するパラメータを送信する際のオーバーヘッドを低減するために、前述のように、順方向および逆方向再構成関数の最大の可能な組数を制限（例えば、Ｇ組に）してもよい。表２Ａおよび２Ｂは、ある実施形態による、ループ内でのイントラ予測、符号化、および復号化のために必要なステップの概要の例を示す。

インター予測のためのループ内再構成
本明細書において、「インター符号化」（ｉｎｔｅｒｃｏｄｉｎｇ）の用語は、あるピクチャにおける符号化領域を、当該ピクチャの外側の符号化要素（サンプル値および動きベクトルなど）を使用して符号化することを指す。インター符号化において、現ピクチャの画素は、表示順で過去（ｐｒｉｏｒ）および／または将来のフレームの画素に基づき、動き予測および動き補償を使用して符号化することができる。ｊ＋ｒを、ｊ番目のフレームにおけるある領域Ｌ_{（ｍ，ｎ），ｊ}のための参照フレームであるものとする。ここで、ｒは、正または負の整数である。対応する位置の（ｃｏｌｌｏｃａｔｅｄ）ブロックは、Ｌ_{（ｍ，ｎ），ｊ＋ｒ}と表せる。

は、Ｌ_{（ｍ，ｎ），ｊ}領域の画素を予測するために使用されるある動きベクトルｍｖ_{（ｍ，ｎ），（ｊ，ｊ＋ｒ）}に対応付けられた画素の集合を表すものとする。参照フレームにおける、サイズＷ_ｘ×Ｗ_ｙ（６４×６４など）を有する、この動きベクトルの探索窓（ｓｅａｒｃｈｗｉｎｄｏｗ）を仮定する。この窓における画素集合を、Γ_{（ｍ，ｎ），（ｊ，ｊ＋ｒ）}と表す。限定はしないが、参照ブロック中の画素のダイナミックレンジに依存する順方向再構成関数を想定すると、先程と同様に、最小および最大の画素値は、

のように算出し得る。ある実施形態において、順方向および逆方向の再構成関数は、式（４）および（７）によって生成できる。現ブロックおよび参照ブロックを再構成ドメインへと変換した後、映像エンコーダは、例えば、変換符号化、量子化、およびエントロピー符号化を適用することにより、旧式エンコーダのツールを使用して符号化されることになる残差を生成することが可能である。

イントラ予測モードにおける場合と同じく、クラスタリング技術を適用することにより、順方向および逆方向の再構成関数用のパラメータに関するオーバーヘッドを低減し得る。表３Ａおよび３Ｂは、ある実施形態による、ループ内でのインター予測、符号化、および復号化のために必要なステップの概要の例を示す。

再構成関数のクラスタリング
前述のように、再構成関数の個数を制限（例えば、計Ｇ個に）することにより、順方向および逆方向再構成関数の復元に関するパラメータをデコーダに伝達するために必要とされるオーバーヘッドを低減し得る。このようなグルーピングまたはクラスタリング方式の例を、本節に提示する。

まず、着目する符号化領域中の最小および最大の画素値（例えば、ｖ^Ｈ _{（ｍ，ｎ），ｊ}，ｖ^Ｌ _{（ｍ，ｎ），ｊ}）によって完全に決定され得る再構成関数について考える。議論をわかり易くするために、

であるものとする。ここで、ｃ＝１，２，…，Ｃは、各（ｍ，ｎ）領域に固有のインデックスを表す。ある実施形態において、

は、ａ_ｃ，ｊおよびｂ_ｃ，ｊの値の関数、例えば、これらの差（例えば、ａ_ｃ，ｊ−ｂ_ｃ，ｊ）、比（例えば、ａ_ｃ，ｊ／ｂ_ｃ，ｊ）、対数比などを表す。いくつかの実施形態において、γ_ｃ，ｊ関数はまた、領域中の画素の平均値、中央値、分散、標準偏差、またはエントロピーなどの、画素領域ｃについての他の代表値によって決定してもよい。

整列（Ｓｏｒｔｉｎｇ）に基づくクラスタリング
ある実施形態において、クラスタリングは、ａ）α_ｃ，ｊ、β_ｃ，ｊ、またはγ_ｃ，ｊを整列させること、およびその後、ｂ）全ての整列されたＣ個のブロックをＧ個のグループ（Ｇ＜Ｃ）に分割すること、に基づく。例えば、Ψ_ｇ，ｊはグループｇを表すものとする。但し、ｇ＝０，１，２，…，Ｇ−１である。このとき、各グループにおける画素極値（ｅｘｔｒｅｍｅｐｉｘｅｌｓｖａｌｕｅｓ）によって、各グループの再構成関数のための境界値を決定し得る。例えば、ある実施形態において、α_ｃ，ｊ値を昇順に整列させてもよい。｛ｔ_０，ｔ_１，．．．．，ｔ_Ｃ−１｝は、各ブロックの整列順を表すものとする。１番目のグループΨ_０，ｊは、インデックス｛ｔ_０，ｔ_１，．．．．ｔ_{（Ｃ／Ｇ）−１}｝を有するブロックを含んでおり、ブロックｔ_０におけるα_ｃ，ｊ値に対応する最小値α^（０）をもつ。２番目のグループΨ_１，ｊは、インデックス｛ｔ_{（Ｃ／Ｇ）}，ｔ_{（Ｃ／Ｇ）＋１}，．．．．ｔ_{２（Ｃ／Ｇ）−１}｝を有するブロックを含んでおり、ブロックｔ_{（Ｃ／Ｇ）}におけるα_ｃ，ｊ値に対応する最小値α^（１）をもつ。最終グループΨ_{Ｇ−１，ｊ}は、ブロックインデックス｛ｔ_{（（Ｇ−１）Ｃ／Ｇ）}，ｔ_{（（Ｇ−１）Ｃ／Ｇ）＋１}，．．．．ｔ_{（Ｃ−１）}｝を有するブロックを含んでおり、ブロックｔ_{（（Ｇ−１）Ｃ／Ｇ）}におけるα_ｃ，ｊに対応する最小値α^{（Ｇ−１）}をもつ。各グループにおいて、最小の高ビット深度値および最小の高ビット深度値は、

のように求めることが可能である。

同様に、他の実施形態において、Ψ_ｇ，ｊグループは、まずβ_ｃ，ｊおよびγ_ｃ，ｊ値を整列させておき、次に適切なグルーピングを作成することによって構築してもよい。

別のクラスタリング方式
ある別の実施形態において、各フレームは、初めからＧ個のオーバーラップしない領域に分割される。その後、これらＧ個の領域の各々の特性に基づいて、各グループの再構成関数が設計される。

他の実施形態において、各フレームは、Ｐ個のサブ領域に分割される。但し、Ｐは、Ｇよりも大きい。これらＰ個のサブ領域の各々について、α_ｃ，ｊ、β_ｃ，ｊ、および／またはγ_ｃ，ｊ値を算出し得る。このようなサブ領域の２つが類似の（例えば、予め設定された閾値以内の）α_ｃ，ｊ、β_ｃ，ｊ、またはγ_ｃ，ｊを有する場合は、これらを併合することが可能である。サブ領域は、Ｇ個のサブ領域のみが残るようになるまで併合され得る。

知覚的ノイズのメトリックに基づく順方向再構成
‘９２５出願において、再構成は、人間の視覚システムのノイズに対する感度に応じた、コンテンツ適応的な量子化を使用して実行される。まず、各画素に対し、許容可能な知覚的ノイズのレベルが判断される。次に、これらのノイズレベルがＭ個の階級（ｂｉｎｓ）に整理される。そして最後に、これらＭ個の階級の各々の特性に応じて、各画素に対する量子化または再構成が決定される。Ｈ_{（ｍ，ｎ），ｊ}（ｘ，ｙ）が、各画素ｖ_{（ｍ，ｎ），ｊ}（ｘ，ｙ）に対応付けられた上記のノイズレベルを表すものとする。このとき、各符号化領域Ｌ_{（ｍ，ｎ），ｊ}において、

は、各階級ｑにおける最小の許容可能なノイズレベルを表す。

Ｇ個の符号化領域が与えられたとき、グループｇについて、

は、このグループに割り当てられた全ての符号化領域についての、最小の許容可能なノイズレベルを表すものとする。

全階級について｛ｂ_ｇ，ｊ（ｑ）｝値が与えられると、‘９５２出願に説明されている、グループΨ_ｇ，ｊのための順方向および逆方向の再構成関数を構築することが可能である。これらの再構成関数の各々は、グループＩＤ番号ｇ＝０，１，…，Ｇ−１に対応付けられることになる。グループは、前述のものと同様のクラスタリング技術を使用して構築することができる。例えば、ｂ_{（ｍ，ｎ），ｊ}（ｑ）値を整列させることによって構築してもよいし、類似のｂ_{（ｍ，ｎ），ｊ}（ｑ）値を有するサブ領域を併合することによって構築してもよい。例えば、ある実施形態において、限定するわけではないが、

は、２ブロック間の、対応するノイズ値による類似性の尺度（ｍｅａｓｕｒｅｏｆｓｉｍｉｌａｒｉｔｙ）を表すものとし、

は、ブロック（ｍ，ｎ）とグループｇにおける代表ブロックとの間の、対応するノイズ値による類似性の尺度を表すものとする。このとき、表４は、Ｇ個のグループを決定するためのプロセスの一例を、擬似コードの形で示す。

コンピュータシステム実装例
本発明の実施形態は、コンピュータシステム、電子回路およびコンポーネントで構成されたシステム、マイクロコントローラ、フィールドプログラマブルゲートアレイ（ＦＰＧＡ）または他のコンフィギュラブルまたはプログラマブルロジックデバイス（ＰＬＤ）、離散時間またはデジタル信号プロセッサ（ＤＳＰ）、特定用途向けＩＣ（ＡＳＩＣ）などの集積回路（ＩＣ）デバイス、および／または、このようなシステム、デバイスまたはコンポーネントを１つ以上含む装置、を用いて実施し得る。このコンピュータおよび／またはＩＣは、本明細書に記載のようなループ内での適応的な再構成プロセスに関する命令を行い、制御し、または実行し得る。このコンピュータおよび／またはＩＣは、本明細書に記載のループ内での適応的な再構成プロセスに関する様々なパラメータまたは値のいずれを演算してもよい。画像およびビデオ実施形態は、ハードウェア、ソフトウェア、ファームウェア、および、その様々な組み合わせで実施され得る。

本発明の特定の態様は、本発明の方法をプロセッサに行わせるためのソフトウェア命令を実行するコンピュータプロセッサを含む。例えば、ディスプレイ、エンコーダ、セットトップボックス、トランスコーダなどの中の１つ以上のプロセッサは、そのプロセッサがアクセス可能なプログラムメモリ内にあるソフトウェア命令を実行することによって、上記のようなループ内での適応的な再構成プロセスに関する方法を実装し得る。本発明は、プログラム製品形態で提供されてもよい。このプログラム製品は、データプロセッサによって実行された時に本発明の方法をデータプロセッサに実行させるための命令を含む１セットの、コンピュータ読み取り可能な信号を格納する任意の非一時的媒体を含み得る。本発明によるプログラム製品は、様々な形態をとり得る。例えば、このプログラム製品は、フロッピーディスク、ハードディスクドライブを含む磁気データ記憶媒体、ＣＤＲＯＭ、ＤＶＤを含む光学データ記憶媒体、ＲＯＭ、フラッシュＲＡＭなどを含む電子データ記憶媒体、などの物理的媒体を含み得る。このプログラム製品上のコンピュータ可読信号は、任意に、圧縮または暗号化されていてもよい。

上記においてあるコンポーネント（例えば、ソフトウェアモジュール、プロセッサ、アセンブリ、デバイス、回路など）に言及している場合、そのコンポーネントへの言及（「手段」への言及を含む）は、そうでないと明記されている場合を除いて、当該コンポーネントの機能を果たす（例えば、機能的に均等である）あらゆるコンポーネント（上記した本発明の例示的な実施形態に出てくる機能を果たす開示構造に対して構造的に均等ではないコンポーネントも含む）を、当該コンポーネントの均等物として、含むものと解釈されるべきである。

均等物、拡張物、代替物、その他
効率的なループ内での適応的再構成プロセスに関する例示的な実施形態を上述した。この明細書中において、各実装毎に異なり得る多数の具体的な詳細に言及しながら本発明の実施形態を説明した。従って、本発明が如何なるものかおよび出願人は本発明が如何なるものであると意図しているかについての唯一且つ排他的な指標は、後の訂正を含む、これら請求項が生じる具体的な形態の、本願から生じる１組の請求項である。当該請求項に含まれる用語に対して本明細書中に明示したあらゆる定義が、請求項内で使用される当該用語の意味を決定するものとする。よって、請求項に明示的に記載されていない限定事項、構成要素、特性、特徴、利点または属性は、いかなる形であれ請求の範囲を限定するものではない。従って、本明細書および図面は、限定的ではなく、例示的であると認識されるべきものである。

Claims

エンコーダを用いたループ内再構成のための方法であって、
入力ビット深度における入力画像にアクセスすることと、
前記入力ビット深度における前記入力画像の、ある符号化領域（２０７）について、
前記符号化領域のための順方向再構成関数（３１０）および逆方向再構成関数（３３５）を、生成または選択することと、
前記入力ビット深度における参照画素データ（２３７）にアクセスすることと、
前記参照画素データおよび前記符号化領域の画素データに前記順方向再構成関数（３１０）を適用することにより、ターゲットビット深度における第２の参照データおよび第２の符号化領域画素データ（２１２）を生成することであって、前記ターゲットビット深度は前記入力ビット深度以下である、生成することと
前記第２の参照データおよび前記第２の符号化領域画素データをエンコーダで符号化（３１５）することにより、前記ターゲットビット深度における符号化ビットストリーム（３１７）を生成することと、
前記エンコーダを使用して、前記符号化ビットストリームのループ内復号化に基づき、復元データを生成（３２５）することと、
前記復元データ（２３２）に前記逆方向再構成関数（３３５）を適用することにより、前記入力ビット深度における将来の参照データ（２３７）を生成することと、
を含む方法。
前記符号化ビットストリームを、前記順方向再構成関数および／または前記逆方向再構成関数を特徴付けるメタデータで多重化することをさらに含む、請求項１に記載の方法。
前記第２の参照データおよび前記第２の符号化領域データをエンコーダで符号化することにより、前記ターゲットビット深度における符号化ビットストリームを生成することは、
前記第２の参照データおよび前記第２の符号化領域データに基づいて、イントラ予測またはインター予測を実行することにより、予測データを生成すること、
をさらに含む、請求項１に記載の方法。
前記第２の参照データおよび前記第２の符号化領域データをエンコーダで符号化することにより、前記ターゲットビット深度における符号化ビットストリームを生成することは、
前記第２の参照データおよび前記第２の符号化領域データに基づいて、イントラまたはインター予測を実行することにより、予測データを生成することと、
前記予測データに符号化変換を適用することにより、変換された予測データを生成することと、
前記変換された予測データに量子化を適用することにより、量子化データを生成することと、
前記量子化データにエントロピー符号化を適用することにより、前記符号化ビットストリームを生成することと、
を含む、請求項１に記載の方法。
前記符号化ビットストリームのループ内復号化に基づき、前記復元データを生成することは、
前記量子化データに逆量子化を適用することにより、逆量子化データを生成することと、
前記逆量子化データに逆変換を適用することにより、推定予測データを生成することと、
前記推定予測データに基づき、前記復元データを生成することと、
をさらに含む、請求項４に記載の方法。
前記符号化領域のための順方向再構成関数および逆方向再構成関数を、生成または選択することは、
前記入力画像を複数の符号化領域に分割することと、
前記複数の符号化領域をＧ個のグループにクラスタリングすることであって、Ｇは、２よりも大きく、かつ前記複数の符号化領域の総数以下である、クラスタリングすることと、
前記Ｇ個のグループの各々について、順方向再構成関数および逆方向再構成関数を生成することと、
ある選択基準に従って、前記符号化領域のために、前記Ｇ組の順方向および逆方向の再構成関数のうちの１組を選択することと、
をさらに含む、請求項１に記載の方法。
前記複数の符号化領域をＧ個のグループにクラスタリングすることは、
各符号化領域における複数の画素値の関数を算出することにより、複数の符号化領域メトリックを生成することと、
前記複数の符号化領域メトリックを整列させることと、
整列された前記複数の符号化領域メトリックに基づき、前記Ｇ個のグループを生成することと、
をさらに含む、請求項６に記載の方法。
前記複数の符号化領域をＧ個のグループにクラスタリングすることは、
各符号化領域における複数の画素値の関数を算出することにより、複数の符号化領域メトリックを生成することと、
２つの符号化領域に対応する符号化領域メトリックがある類似度基準に従って類似している場合には、前記２つの符号化領域を同一グループに割り当てることと、
をさらに含む、請求項６に記載の方法。
符号化領域メトリックは、前記符号化領域における最小画素値、前記符号化領域における最大画素値、または前記符号化領域における最小画素値および最大画素値の関数のうちの１つである、請求項７または請求項８に記載の方法。
符号化領域メトリックは、前記符号化領域における複数の画素に対する１組の最小の知覚的ノイズレベルを含む、請求項７または請求項８に記載の方法。
符号化領域メトリックは、前記符号化領域における画素値の平均、分散、標準偏差、またはエントロピーのうち１つである、請求項７または８に記載の方法。
前記複数の符号化領域をＧ個のグループにクラスタリングすることは、
人間の視覚システムのノイズ知覚基準に従って、各符号化領域に対する複数のノイズ階級値を決定することと、
２つの符号化領域間の類似性の尺度に基づいて前記Ｇ個のグループを決定することであって、前記類似性尺度は、前記２つの符号化領域における前記複数のノイズ階級値の関数に基づく、決定することと、
をさらに含む、請求項６に記載の方法。
デコーダにおける逆方向のループ内再構成のための方法であって、
ターゲットビット深度における符号化ビットストリームにアクセスすることと、
前記符号化ビットストリームにおける各符号化領域のための順方向再構成関数および／または逆方向再構成関数を特徴付けるデータにアクセスすることと、
前記符号化ビットストリームにおける、ある符号化領域について、
前記符号化領域のための順方向再構成関数および逆方向再構成関数を割り当てることと、
出力ビット深度における参照データにアクセスすることであって、前記出力ビット深度は前記ターゲットビット深度以上である、アクセスすることと、
前記参照データに前記順方向再構成関数（３１０）を適用することにより、前記ターゲットビット深度における第２の参照データ（２７２）を生成することと、
デコーダを使用して、前記符号化ビットストリームデータおよび前記第２の参照データに基づき、前記符号化領域に対する、前記ターゲットビット深度における復号化画素データ（２５７）を生成することと、
前記復号化画素データに前記逆方向再構成関数（３３５）を適用することにより、前記出力ビット深度における、出力データ（２６９）および将来の参照データを生成することと、
を含む方法。
前記符号化ビットストリームデータおよび前記第２の参照データに基づき、前記符号化領域に対する復号化画素データ（２５７）を生成することは、
前記第２の参照データに基づき、前記符号化ビットストリームにインター復号化またはイントラ復号化を適用すること、
をさらに含む、請求項１３に記載の方法。
インター復号化またはイントラ復号化を適用することは、
前記符号化ビットストリームデータにエントロピー復号化を適用することにより、エントロピー復号化データを生成することと、
前記エントロピー復号化データに逆量子化を適用することにより、逆量子化データを生成することと、
前記量子化データに逆変換を適用することにより、逆変換データを生成することと、
前記逆変換データと前記第２の参照データとを組み合わせることにより、前記復号化画素データを生成することと、
をさらに含む、請求項１４に記載の方法。
プロセッサを備え、請求項１から１５に記載の方法のいずれかを実行するように構成された装置。
請求項１から１５のいずれかによる方法を実行するためのコンピュータ実行可能命令を格納した、非一時的なコンピュータ可読記憶媒体。