JP6484347B2

JP6484347B2 - ハイダイナミックレンジ画像のためのコンテンツ適応的な知覚的量子化器

Info

Publication number: JP6484347B2
Application number: JP2017546223A
Authority: JP
Inventors: フレーリヒ，ジャン; スゥ，グワン‐ミーン; アトキンス，ロビン; スコットダリー，; ジョンスコットミラー，
Original assignee: ドルビーラボラトリーズライセンシングコーポレイション; ドルビー・インターナショナル・アーベー
Priority date: 2015-03-02
Filing date: 2016-03-01
Publication date: 2019-03-13
Anticipated expiration: 2036-03-01
Also published as: EP3266208A1; US10419762B2; US20180041759A1; CN107409213B; EP3266208B1; JP2018509708A; CN107409213A; BR112017018893A2; KR20170113608A; WO2016140954A1; RU2678483C1; KR101939012B1; BR112017018893B1

Description

関連出願への相互参照
本願は、２０１５年３月２日付け出願の米国仮特許出願第６２／１２６，９２５号に基づく優先権を主張するものであり、この出願の開示内容を全て本願に援用する。

技術
本発明は、広く画像に関する。より詳細には、本発明のある実施形態は、ハイダイナミックレンジを備える画像の、コンテンツ適応的な知覚的量子化に関する。

背景
本明細書において、用語「ダイナミックレンジ」（ＤＲ）は、人間の視覚システム（ＨＶＳ）が画像においてある範囲の強度（例えば、輝度、ルマ）（例えば、最暗部（黒）から最も明るい白（ハイライト）まで）を知覚する能力に関連し得る。この意味では、ＤＲはシーン−リファード（ｓｃｅｎｅ−ｒｅｆｅｒｒｅｄ）の強度に関する。ＤＲはまた、ディスプレイデバイスが特定の幅を有する強度範囲を妥当にまたは近似的に描画する能力にも関連し得る。この意味では、ＤＲは、ディスプレイ−リファード（ｄｉｓｐｌａｙ−ｒｅｆｅｒｒｅｄ）の強度に関する。本明細書中の任意の箇所において、ある特定の意味が特に明示的に指定されている場合を除いて、この用語はどちらの意味としても（例えば、区別なく）使用できるものとする。

本明細書において、ハイダイナミックレンジ（ＨＤＲ）という用語は、人間の視覚システム（ＨＶＳ）において１４〜１５桁ほどにわたるＤＲ幅に関する。実際において、人間が広範囲の強度範囲を同時に知覚し得るＤＲは、ＨＤＲに対して幾分端折られ得る。本明細書において、エンハンストダイナミックレンジ（ＥＤＲ）または視覚ダイナミックレンジ（ＶＤＲ）という用語は、個別にまたは区別なく、人間の視覚システム（ＨＶＳ）（眼球運動を含み、シーンまたは画像にわたってある程度の明順応変化を可能にする）が、あるシーンまたは画像中において知覚可能なＤＲに関する。本明細書において、ＥＤＲは、５〜６桁にわたるＤＲに関連し得る。従って、真のシーンリファードのＨＤＲに対しては幾分狭いものの、ＥＤＲは広いＤＲ幅を表し、ＨＤＲとも呼ばれ得る。

実際において、画像は１つ以上の色成分（例えばルマＹおよびクロマＣｂおよびＣｒ）を有しており、各色成分は、画素あたりｎビットの精度（例えばｎ＝８）で表される。線形輝度符号化（ｌｉｎｅａｒｌｕｍｉｎａｎｃｅｃｏｄｉｎｇ）を用いた場合、ｎ≦８の画像（例えばカラー２４ビットＪＰＥＧ画像）はスタンダードダイナミックレンジとされ、ｎ＞８の画像はエンハンストダイナミックレンジの画像とされる。ＥＤＲおよびＨＤＲ画像はまた、ＩｎｄｕｓｔｒｉａｌＬｉｇｈｔａｎｄＭａｇｉｃが開発したＯｐｅｎＥＸＲファイルフォーマットなどの高精度の（例えば１６ビット）浮動小数点フォーマットを用いて、格納および配信され得る。

あるディスプレイについての基準（ｒｅｆｅｒｅｎｃｅ）電気光学伝達関数（ＥＯＴＦ）は、入力映像信号の明度（ｃｏｌｏｒｖａｌｕｅｓ）（例えば輝度）からそのディスプレイによって生成される出力スクリーン明度（例えばスクリーン輝度）への関係を特徴づける。例えば、その開示内容を全て本願に援用するＩＴＵＲｅｃ．ＩＴＵ−ＲＢＴ．１８８６、「Ｒｅｆｅｒｅｎｃｅｅｌｅｃｔｒｏ−ｏｐｔｉｃａｌｔｒａｎｓｆｅｒｆｕｎｃｔｉｏｎｆｏｒｆｌａｔｐａｎｅｌｄｉｓｐｌａｙｓｕｓｅｄｉｎＨＤＴＶｓｔｕｄｉｏｐｒｏｄｕｃｔｉｏｎ」（０３／２０１１）では、陰極線管（ＣＲＴ）の測定された特性に基づいて、フラットパネルディスプレイについての基準ＥＯＴＦを定義している。ある映像ストリームが与えられたとき、そのＥＯＴＦに関する情報は、典型的にはメタデータとしてビットストリーム中に埋め込まれる。本明細書において、「メタデータ」の語は、符号化ビットストリームの一部として送信され、デコーダが復号化画像を描画することを助ける、任意の補助的情報に関する。そのようなメタデータは、本明細書において記載されるような、色空間または色域情報、リファレンスディスプレイパラメータ、および補助的な信号パラメータなどを含むが、これらに限定されない。

ほとんどのコンシューマー用デスクトップディスプレイは現在、２００〜３００ｃｄ／ｍ^２またはニトの輝度をサポートしている。ほとんどのコンシューマー用ＨＤＴＶは３００〜５００ニトの範囲であるが、新しいモデルは１０００ニト（ｃｄ／ｍ^２）に達する。このような従来のディスプレイはしたがって、ＨＤＲやＥＤＲに対し、より低いダイナミックレンジ（ＬＤＲ）（またはスタンダードダイナミックレンジ（ＳＤＲ）とも呼ばれる）の典型例となる。キャプチャ機器（例えばカメラ）およびＨＤＲディスプレイ（例えばＤｏｌｂｙＬａｂｏｒａｔｏｒｉｅｓのＰＲＭ−４２００プロフェッショナルリファレンスモニター）両方の進化によって、ＨＤＲコンテンツの普及率が高まるにつれ、ＨＤＲコンテンツはカラーグレーディングされてより高いダイナミックレンジ（例えば１，０００ニトから５，０００ニト以上）をサポートするＨＤＲディスプレイ上に表示されることがある。そのようなディスプレイは、高輝度能力（例えば０から１０，０００ニトなど）をサポートする代替的なＥＯＴＦを用いて定義され得る。そのようなＥＯＴＦの一例が、その開示内容を全て本願に援用するＳＭＰＴＥＳＴ２０８４：２０１４「ＨｉｇｈＤｙｎａｍｉｃＲａｎｇｅＥＯＴＦｏｆＭａｓｔｅｒｉｎｇＲｅｆｅｒｅｎｃｅＤｉｓｐｌａｙｓ」に定義されている。一般的に、限定しないが、本開示の方法はＳＤＲよりも高い任意のダイナミックレンジに関連する。本発明者らの理解によれば、ハイダイナミックレンジ画像の知覚的量子化のための、改良された手法が望まれる。

本節に記載されている手法は、探求し得る手法ではあるが、必ずしもこれまでに着想または探求されてきた手法ではない。従って、別途示唆のない限り、本節に記載された手法のいずれも、本節に記載されているという理由だけで従来技術としての適格性を有すると考えるべきではない。同様に、別途示唆のない限り、１以上の手法に関して特定される問題が、本節に基づいて、いずれかの先行技術において認識されたことがあると考えるべきではない。

同様の部材に同様の参照符号を付した添付図面の各図において、本発明のある実施形態を限定する事なく例示する。

図１Ａは、映像供給パイプラインのプロセス例を示す。図１Ｂは、本発明の一実施形態による、コンテンツ適応的な量子化または再構成を用いたデータ圧縮のプロセス例を示す。図２は、本発明の一実施形態による、コンテンツ適応的な知覚的量子化のプロセス例を示す。図３は、本発明の一実施形態による、ノイズマスク生成のプロセス例を示す。図４は、本発明の一実施形態による、シーンベースのノイズマスキングヒストグラムを示す。図５は、本発明の一実施形態による、ノイズマスクレベルを、必要な信号ビット深度にマッピングする、マッピング関数の一例を示す。図６Ａは、本発明の実施形態による、算出された正規化符号語の割り当ての例を示す。図６Ｂは、本発明の実施形態による、算出された正規化符号語の割り当ての例を示す。図６Ｃは、本発明の一実施形態による、適応的な知覚的量子化マッピングの一例を示す。図７は、本発明の一実施形態による、符号語マッピングのプロセス例を示す。

実施形態例の説明
ハイダイナミックレンジ（ＨＤＲ）画像の知覚的量子化のための、コンテンツ適応的技術を本明細書に記載する。以下の説明においては、便宜上、本発明を完全に理解できるように、多数の詳細事項を説明する。ただし、これらの詳細事項が無くても本発明を実施可能であることは明白であろう。他方、本発明の説明を不必要に煩雑にしたり、不明瞭にしたり、難読化したりしないように、周知の構造およびデバイスの細かな詳細までは説明しない。

概要
本明細書に記載の実施形態例は、画像の適応的な知覚的量子化に関する。コンテンツ適応的な量子化器プロセッサは、ある入力ビット深度を有する入力画像を受け取る。入力画像に対しノイズマスク生成プロセスを適用することにより、入力画像中の各画素を量子化ノイズのマスキングの際におけるその知覚的重要度（ｐｅｒｃｅｐｔｕａｌｒｅｌｅｖａｎｃｅ）に関して特徴づける、ノイズマスク画像を生成する。入力画像およびノイズマスク画像に基づいて、ノイズマスクヒストグラムが生成される。ノイズマスクヒストグラムに対しマスキングノイズレベル−ビット深度関数を適用することにより、ノイズマスクヒストグラム中の各ビンについての最小ビット深度値群を生成する。入力ビット深度、ターゲットビット深度、および最小ビット深度値群に基づき、符号語マッピング関数を生成する。符号語マッピング関数を入力画像に適用することにより、入力ビット深度よりも低いターゲットビット深度において出力画像を生成する。

映像供給処理パイプライン例
図１Ａは、従来の映像供給パイプライン（１００）のプロセス例を示しており、映像のキャプチャから映像コンテンツの表示までの、様々な段を示している。画像生成ブロック（１０５）を用い、映像フレームのシーケンス（１０２）をキャプチャまたは生成する。映像フレームは、デジタル的にキャプチャされるか（例えばデジタルカメラにより）またはコンピュータ（例えばコンピュータアニメーションを用いて）によって生成されることにより、映像データ（１０７）が得られる。あるいは映像フレーム（１０２）は、銀塩カメラによってフィルム上に取得されてもよい。フィルムがデジタルフォーマットに変換されることによって、映像データ（１０７）が得られる。プロダクションフェーズ（１１０）において、映像データ（１０７）は編集され、映像プロダクションストリーム（１１２）を得る。

プロダクションストリーム（１１２）の映像データは次に、ブロック（１１５）のプロセッサに与えられて、ポストプロダクション編集を受ける。ブロック（１１５）ポストプロダクション編集は、画像の特定の領域の色または明るさを調節または変更することにより、映像制作者の制作意図にしたがってその画像が特定の見え方をするようにしたり、画質を上げたりすることを含み得る。これは、「カラータイミング」あるいは「カラーグレーディング」と呼ばれることがある。ブロック（１１５）において、その他の編集（例えば、シーン選択およびシーケンシング、画像クロッピング、コンピュータ生成された視覚的特殊効果の追加など）を行うことにより、プロダクションの、配信用の最終バージョン（１１７）を作成してもよい。ポストプロダクション編集（１１５）において、映像イメージは、リファレンスディスプレイ（１２５）上で視聴される。

ポストプロダクション（１１５）の後、最終プロダクションとしての映像データ（１１７）は、下流のテレビ受像機、セットトップボックス、映画館などの復号化・再生機器まで供給されるために、符号化ブロック（１２０）に供給されてもよい。いくつかの実施形態において、符号化ブロック（１２０）は、符号化されたビットストリーム（１２２）を生成するための、ＡＴＳＣ、ＤＶＢ、ＤＶＤ、ブルーレイおよびその他の供給フォーマットに規定されるような音声および映像エンコーダを有していてもよい。受信機において、符号化されたビットストリーム（１２２）は、復号化ユニット（１３０）により復号化されることにより、信号（１１７）と同一またはこれに近い近似を表す、復号化された信号（１３２）を生成し得る。受信機は、リファレンスディスプレイ（１２５）と全く異なる特性を有し得るターゲットディスプレイ（１４０）に取り付けられていてもよい。その場合、ディスプレイマネジメントブロック（１３５）を用いてディスプレイマッピング化信号（１３７）を生成することで、復号化された信号（１３２）のダイナミックレンジを、ターゲットディスプレイ（１４０）の特性にマッピングしてもよい。

信号の量子化
現在、映像供給用のほとんどのデジタルインターフェース、例えばＳｅｒｉａｌＤｉｇｉｔａｌＩｎｔｅｒｆａｃｅ（ＳＤＩ）などは、各成分につき画素あたり１２ビットに制限されている。さらに、ほとんどの圧縮規格、例えばＨ．２６４（またはＡＶＣ）およびＨ．２６５（またはＨＥＶＣ）などは、各成分につき画素あたり１０ビットに制限されている。したがって、既存のインフラストラクチャおよび圧縮規格内において、約０．００１から１０，０００ｃｄ／ｍ^２（またはニト）のダイナミックレンジを有するＨＤＲコンテンツをサポートするためには、効率的な符号化および／または量子化が必要である。

本明細書において、用語「ＰＱ」は知覚的な輝度振幅（ｌｕｍｉｎａｎｃｅａｍｐｌｉｔｕｄｅ）の量子化を指す。人間の視覚システムは、光レベルの増大に対して非常に非線形的に反応する。人間が刺激を見る能力は、その刺激の輝度、その刺激の大きさ、その刺激を構成する空間周波数、および、その刺激を見ている瞬間までに目が適応した輝度レベルに影響される。好適な実施形態において、知覚的量子化器関数は、線形入力グレイレベルを、人間の視覚システムにおけるコントラスト感度閾値によりマッチした出力グレイレベルにマッピングする。ＰＱマッピング関数（またはＥＯＴＦ）の一例が、その開示内容を全て本願に援用する、ＳＭＰＴＥＳＴ２０８４：２０１４「ＨｉｇｈＤｙｎａｍｉｃＲａｎｇｅＥＯＴＦｏｆＭａｓｔｅｒｉｎｇＲｅｆｅｒｅｎｃｅＤｉｓｐｌａｙｓ」に記載されている。ここでは、ある固定刺激サイズに対して、それぞれの輝度レベル（即ち、刺激レベル）について、最高感度の適応レベルおよび最高感度の空間周波数（ＨＶＳモデルによる）に応じて、その輝度レベルにおける最小可視コントラストステップを選択する。物理的な陰極線管（ＣＲＴ）装置の応答曲線を表しており、人間の視覚システムの応答の仕方に対して非常に大まかな類似性を偶然有し得る従来のガンマ曲線と比較して、ＰＱ曲線は、比較的シンプルな関数モデルを用いながら人間の視覚システムの本当の視覚応答を模擬している。

例えば、ＳＭＰＴＥＳＴ２０８４によれば、１ｃｄ／ｍ^２において、１つの１２ビット符号値は約０．００４８ｃｄ／ｍ^２の相対変化に相当する。しかし、１，０００ｃｄ／ｍ^２においては、１つの１２ビット符号値は約２．２４ｃｄ／ｍ^２の相対変化に相当する。この非線形的量子化は、人間の視覚システム（ＨＶＳ）の非線形的なコントラスト感度に対応するために必要である。

知覚的に量子化されたＥＯＴＦの別の例が、その開示内容を全て本願に援用する、Ｊ．Ｓｔｅｓｓｅｎら、「Ｃｈｒｏｍａｔｉｃｉｔｙｂａｓｅｄｃｏｌｏｒｓｉｇｎａｌｓｆｏｒｗｉｄｅｃｏｌｏｒｇａｍｕｔａｎｄｈｉｇｈｄｙｎａｍｉｃｒａｎｇｅ」、ＩＳＯ／ＩＥＣＪＴＣ１／ＳＣ２９／ＷＧ１１ＭＰＥＧ２０１４／Ｍ３５０６５、Ｏｃｔ．２０１４に示されている。

ＨＶＳのコントラスト感度は、画像コンテンツの輝度だけでなくマスキング特性（特にノイズおよびテクスチャ）、そしてＨＶＳの順応状態に依存する。すなわち、画像のノイズレベルまたはテクスチャ特性によっては、画像コンテンツは、ＰＱまたはガンマ量子化器によって予測されるよりも大きな量子化ステップで量子化されることができる。なぜなら、テクスチャおよびノイズは、量子化アーチファクトをマスキングするからである。ＰＱ量子化は、ＨＶＳの能力のうち最大限を記述する。つまりこれは画像中にノイズやマスキングが無い場合のことである。しかし多くの画像において（映像のフレーム）は、有意なマスキングが存在する。

ノイズおよびテクスチャマスキングに加えて、他の視覚のふるまいの特性、例えば光学フレアや局所的順応（ｌｏｃａｌａｄａｐｔａｔｉｏｎ）なども考慮に入れることにより、量子化のレベルを上げ、各色成分につき１０ビット以下でＨＤＲ画像を表現することを可能にし得る。本明細書において、用語「コンテンツ適応的なＰＱ」または略して「適応的ＰＱ」とは、画像の知覚的量子化を、そのコンテンツに基づいて適応的に調節する方法を言う。

図１Ｂは、一実施形態による、適応的ＰＱのプロセス例を示す。入力フレーム群（１１７）を与えられると、順方向再構成ブロック（１５０）が、入力および符号化制約を分析し、符号語マッピング関数を生成する。この符号語マッピング関数は、入力フレーム群（１１７）を、再量子化された出力フレーム群（１５２）にマッピングする。例えば、特定のＥＯＴＦにおいては、入力（１１７）はガンマ符号化またはＰＱ符号化され得る。いくつかの実施形態において、再構成プロセスに関する情報は、メタデータを用いて下流の機器（例えばデコーダ）に伝えられてもよい。符号化（１２０）および復号化（１３０）の後、前述したディスプレイマネジメントプロセス（１３５）などのさらなる下流処理のために、復号化フレーム群（１３２）が、再量子化されたフレーム群（１３２）を元のＥＯＴＦドメイン（例えばガンマまたはＰＱ）に再度変換する逆方向再構成関数（１６０）による処理を受けてもよい。いくつかの実施形態において、逆方向再構成関数（１６０）は、デコーダ（１３０）中の逆量子化器と統合されてもよい（例えばＡＶＣまたはＨＥＶＣビデオデコーダ内の逆量子化器の一部として）。

適応的ＰＱ
図２は、本発明の一実施形態による、コンテンツ適応的な知覚的量子化のプロセス例を示す。図２に示すように、画像のシーケンス（例えば映像フレーム）（１１７）を与えられると、ブロック（２０５）を用いて、入力画像中の各画素を量子化ノイズのマスキングの際におけるその知覚的重要度に関して特徴づける、ノイズマスク画像を生成する。ノイズマスク画像は、元の画像データとともにステップ（２１０）で使用されることによりノイズマスクヒストグラムを生成する。ブロック（２１５）は、ステップ（２１０）で生成されたヒストグラムの各ビンに必要な最小ビット数を推定し、最終的に、符号語マッピングブロック（２２０）が入力信号（１１７）をその量子化された出力に変換するためのマッピング関数を算出する。これらのステップの各々を、次により詳細に説明する。

ノイズマスク生成
適応的ＰＱの基本的な考え方は、画像のうちのノイズが多いかあるいはハイテクスチャを有するような領域にはより少ないビットを割り当て、一方、画像のうちのノイズを有しないかあるいはより滑らかであると知覚されるような領域にはより多くのビットを割り当てることである。入力画像（１１７）を与えられると、ノイズマスク生成ブロック（２０５）は、画像中の各画素に対してマスキングノイズの見込み値を生成する。いくつかの実施形態において、入力（１１７）はガンマまたはＰＱ系の量子化器を用いて既に符号化されていてもよい。他のいくつかの実施形態において、入力画像（１１７）は線形空間に存在してもよい。図３は、一実施形態による、ノイズマスク生成のプロセス例を示す。他のいくつかの実施形態においてノイズマスクは、当該分野において公知であるような、画像中の局所エントロピーを測定するための他の方法を用いて生成してもよい。例えば、移動窓（ｍｏｖｉｎｇｗｉｎｄｏｗ）に対してのエントロピーフィルタリング、移動窓に対しての標準偏差フィルタリング、または移動窓に対してのレンジフィルタリングなどである。

Ｉ_ｊｐが、入力シーケンス（１１７）中のｊ番目のフレームにおける、量子化を受ける色成分（例えば輝度）を有するｐ番目の画素を、〔０１）に正規化したものを表すものとする。ｖ_Ｌｊおよびｖ_Ｈｊがこのフレーム中の最小および最大画素値を表すものとする。すなわち、

図３に示すように、ブロック（３０５）において、第１のローパスフィルタを、画像フレームＩ_ｊに適用する。ある実施形態において、このフィルタは、人間の視覚システムの特性を模倣する。利用可能な演算能力によって、このフィルタは、ボックスフィルタまたはガウスフィルタなどの非常に単純なフィルタから、Ｃｏｒｔｅｘ変換を実現するようなより複雑なフィルタバンクであり得る。ある実施形態において、第１のフィルタは、

を有する二次元ガウスフィルタ

であってもよい。すると、その出力（Ｌ）は、

のように表し得る。ここで、記号

は、畳み込みを表す。第１のフィルタの出力が与えられると、ブロック（３１０）において入力フレームの高周波成分を

のように抽出し得る。
次に、ブロック（３１０）の出力を、第２のローパスフィルタ（３１５）を用いて再びフィルタリングすることにより、ノイズマスク（Ｈ）を生成する。これは、ＨＶＳマスキングの低位相精度に対応することである（すなわちマスキング信号のゼロクロス点において、まだマスキングが存在している）。ある実施形態において、第２のＬＰＦもまた、

を有するガウスフィルタであってもよい。
すると、ノイズマスク（Ｈ）は、

ように表現され得る。

ある実施形態において、第１および第２のローパスフィルタのパラメータは同じであってもよい。好適な実施形態において、第１および第２のローパスフィルタが分離可能フィルタであることにより、演算上の効率性を高めてもよい。ある実施形態において、さらなるオプションとしてのブロック（３２０）を用い、後の処理では無視し得るＨ_ｊｐ画素を（適応的量子化プロセスにとってバイアスとなり得ることから）特定してもよい。例えばもし画像がレターボックスフレーム（すなわち、元の画像を特定のフレームサイズまたはアスペクト比に適合するように枠で囲んでいる、黒い画素）を含む場合なら、レターボックス画素に関連する値は無視し得る。画像境界またはレターボックス境界に関連する値もまた無視し得る。なぜなら、ローパスフィルタの出力は、これら境界におけるデータは、定数値（これらが生成するノイズ値は低い）でパディングされているものと仮定しているからである。Ω_ｊが考慮下のすべての有効な画素の集合を規定しているとすると、最終出力ノイズマスク（３２２）は、

のように表現され得る。

ノイズマスクヒストグラム生成
Ｂ_Ｉが入力画像（１１７）のビット深度を示すとし（例えばＢ_Ｉ＝１６）、Ｋ＝２^ＢＩとすれば、ダイナミックレンジ０〜Ｋ−１は、等しい画素間隔値ＷのＭ個のビンに区分けされ得る。すなわちＷ＝Ｋ／Ｍである。ある実施形態において、ｊ番目のフレームについて、ノイズヒストグラムｂ_ｊ（ｍ）（ここでｍはｍ番目のヒストグラムビンを表す（ｍ＝０，１，２，…Ｍ−１））は、以下のように生成され得る。
ａ）元の画像(Ｉ_ｊi,ｉ∈Ω_ｊ)中において、

の範囲に画素値を有する全ての画素を特定する。
ｂ）これらの画素のうち最小のＨ_ｊ（ｉ）を選択する。前述のようにマスキング高さは２Ｄマップではないためである。
すなわち、

となる。
ここで、時として特定のビンが空であることがあり得ることに留意されたい。これは、そのビンの画素範囲内には画像画素が存在しないかもしれないためである。これらのビンのインデックスを格納しておき、それらの状態は後で扱われる（ａｄｄｒｅｓｓｅｄ）。

適応的ＰＱ値は、フレームレベルまたはシーンレベルで調整され得る。本明細書において、映像シーケンスについての用語「シーン」または「ショット」は、映像信号中の、同様なカラーおよびダイナミックレンジ特性を有する一連の連続フレームに関連し得る。ほとんどのビデオ圧縮フォーマットにおける映像予測の連続性のため、量子化パラメータを、映像エンコーダの典型的な境界に合致する境界（例えばシーンチェンジまたは新しいｇｒｏｕｐｏｆｐｉｃｔｕｒｅｓ（ＧＯＰ）など）においてのみ調節することが好ましい。したがって、Ｆフレームを有するシーン、そしてフレームベースのノイズマスキングヒストグラムｂ_ｊ（ｍ）が与えられたとき、シーンベースのノイズマスキングヒストグラムｂ（ｍ）は、

のように導出される。

ある実施形態において、ノイズ上限を１と仮定するとき、シーン全体につき画素値が存在しないようなノイズビンについては、最大の可能なノイズレベル値である１を割り当ててもよい。いくつかの実施形態においてまた、欠けているビンを近隣のビンから補間してもよい。ｊ＝１，２，…，Ｆについて、シーンベースの最小および最大画素値を、

のように生成してもよい。

図４は、Ｂ_Ｉ＝１６およびＭ＝６４ビンのＨＤＲシーンについて、シーンベースのノイズマスクヒストグラムの一例を示す。この例において、暗領域は、ミッドトーンやハイライトよりも高いマスキングノイズレベルを有している。

ヒストグラムビン毎のビット深度の計算
ノイズマスクヒストグラム中の各ビンのノイズレベルｂ_ｍが与えられたとき、次のステップは各ビンに対して割り当てられるべきビット数を決定することである。ある実施形態において、そのようなマッピングは、実験的なユーザー調査結果に基づいて決定され得る。例えば、そのような調査の一つにおいて、ユーザーに対して異なるビット深度に量子化されたテスト画像を見せ（量子化の前に画像に対しガウスノイズを加えている）これを評価させたものがある。一例として、図５は

のガウスフィルタを用いたユーザー調査の結果を示している。例えば、ノイズマスクレベルが２^−１０に対し、必要とされるビット深度は８ビットである。期待されるように、図５は、マスクノイズのレベルが高い画像領域ほど、より少ないビット深度において完全な視覚的透明性を達成し得ることを示している。または、画像が滑らかであるほど、正確で知覚的にロスの無い表現のためにはより多くのビット深度を必要とする。

データ対

の集合を考える。ｉ＝１，２，３，…，Ｎであり、ｉ番目の入力ノイズレベル

について、対応する最小ビット深度は

であることが、（例えばユーザー調査を通じて、またはその他の手法により）判明している。ある実施形態において、これらの対は、マスキングノイズ−ビット深度関数

として表現することができる。

例えば、限定されないが、単純な線形補間を用いれば、

である。

ある実施形態において、Ｑ_ｍ＝ｆ_Ｎ（ｂ_ｍ）マッピングを、ルックアップテーブルを用いて算出してもよい。ある実施形態において、ビット深度データを直接用いるのではなく、ヒストグラムビン中の必要符号語数に基づいて符号語マッピング（２２０）を行う方が便利であり得る。これは、次のセクションにおいて検討する。

符号語マッピング生成
Ｂ_Ｔが再量子化された信号（１５２）（例えば各色成分につきＢ_Ｔ＝１０ビット／画素）のターゲットビット深度を表すとすれば、出力は２^ＢＴ個の符号語を用いてマッピングされることになる。ある実施形態において、符号語の範囲を１に正規化するので、

で、ビンｍ毎の正規化された符号語数を表すものとする。例えば、Ｑ_ｍ＝９，Ｂ_Ｉ＝１６かつＢ_Ｔ＝１０であれば、Ｄ_ｍ＝２^−１７である。

が各入力ｉ∈（0，２^ＢＩ-１）についての正規化された符号語数を表すとすれば、ｄ_ｉは、各入力符号語についての必要符号語数の下限であると考えることができる。全ての入力符号語についての正規化された符号語総数Ｄは１を上限とする。すなわち、

である。

図６Ａは、Ｂ_Ｉ＝１６における単一の映像フレーム（０から６５５３５の範囲の入力符号語）について算出された、正規化された符号語数（ｄ_ｉ（６０５））のプロット例を示す。このプロットはまた、１６ビットから９個の最上位ビット（６１０）または１０個の最上位ビット（６１５）へ単純に切り捨てを行った場合の、正規化された符号語数を示す。図６Ａに示すように、単純な１０ビット切り捨てでは、ハイライト範囲内の特定の入力画素については、ビット深度要件を満たすために十分ではない。

Ｕ＝１−Ｄが未使用の正規化された符号語の数を表すとする。これらの未使用の符号語は、所与の条件に基づいて、入力符号語に再割り当てされる必要がある。ある実施形態において、限定されないが、以下の割り当て方式のうち任意の１つ（またはその組み合わせ）を用い得る。
ｉ）比例的割り当て
この条件においては、入力ｖ_Ｌ≦ｉ≦ｖ_Ｈについて追加的な符号語が、既存の分布に基づき割り当てられる。すなわち、

ここで

は、正規化された符号語値の、新しく更新された個数を表す。

ｉｉ）定オフセット割り当て
この条件下において、余剰の符号語は均一に配分される、すなわち、入力ｖ_Ｌ≦ｉ≦ｖ_Ｈについて、

となる。
ｉｉｉ）ヒストグラムに基づく割り当て
ｈ_ｉが元の入力画像のヒストグラムを表すとする。すなわち、ｖ_Ｌ≦ｉ≦ｖ_Ｈについて、ｈ_ｉ＝ｋは、Ｐ個の画素のうち、値ｉを有する画素がｋ個存在することを表す。すると、この条件下において、符号語は、ヒストグラム値に従って割り当てられる。すなわち、入力ｖ_Ｌ≦ｉ≦ｖ_Ｈについて、

となる。
一変形例において、入力範囲をＭ個のサブ範囲（例えばＭ＝３の場合、黒、ミッドトーン、ハイライト）に分割し、ｍ番目のサブ範囲内における入力画素の総数を表すヒストグラムＨ_ｍ（ｍ＝１，２，…，Ｍ）を算出してもよい。すると、ｍ番目の画素のサブ範囲に属するｉについて、

となる。
ｉｖ）スカラーに基づく割り当て
これは、ヒストグラムに基づく割り当て（例えば、暗部に対する１つとハイライトに対する１つの、２つのビンだけを有するヒストグラムを考える）と、定オフセット割り当てとの組み合わせと考えることができる。αが０と１の間の「暗部」対「ハイライト」の重要性の関係を示すパラメータを表すとすると、入力ｖ_Ｌ≦ｉ≦ｖ_Ｈについて、本基準において、

となる。

Ｕ＝０であれば、符号語の再配分は可能でない。このケースにおいて、後にも述べるように、エンコーダがターゲットビット深度を増やすか、入力画像にノイズを加えてｄ_ｉ分布を減らすか、何もせずにおいてデコーダおよび後処理のフィルタリングが観察され得る量子化ノイズを減少するに任せるか、を決定し得る。残りの処理ステップは、

データに直接作用してもよい。ただし、ある実施形態において、性能の改善のため、これらのデータは、例えば２Ｎ＋１タップの平均化フィルタなどのローパスフィルタによって平滑化されてもよい。

とする。ここでａ_ｋ，ｋ＝−Ｎ，−Ｎ＋１，…，Ｎは、平滑化フィルタ

のフィルタ係数を示す。ある実施形態において、このフィルタの長さは、ノイズマスクヒストグラム（例えばＮ＝Ｗ）の２つの連続するビンのサイズに少なくとも相当する大きさを持つ。フィルタをより大きくすれば平滑化力は上がるが、より多くの演算能力を必要とするようになる。

図６Ｂは、

データ（６２０）のプロット例を示し、定オフセット割り当て方式にしたがって算出された、平滑化された

データを表している。いくつかの場合において、

値の合計は１を超えることがあり、したがって、これらの値を

のようにふたたび再正規化する必要がある。

ｓ_ｉの値は、依然として下限制約条件を満たさなければならない。すなわち、

である。

とすれば、ｊ番目のフレームにおいて、与えられた入力画素Ｉ_ｊｐ＝i（i ∈（０，２^ＢＩ-１））について、最終の、正規化済みの再量子化された画素値ｓ_ｊｐは、以下のように表現され得る。

ある実施形態において、ＦＬ（ｉ）値は、予め算出されたルックアップテーブル（ＬＵＴ）に格納されてもよい。あるいは、正規化されたｓ_ｊｐ値は、０から２^ＢＴ-１の範囲に非正規化された値にマッピングされてもよい。（６２０）データに基づくＦＬ（ｉ）マッピング（６３０）の一例を、図６Ｃに示す。

図７は、符号語マッピングプロセス（２２０）のステップの概略例を示す。各ノイズヒストグラムビン（Ｑ_ｍ）（２１７）についての必要なビット深度、入力ビット深度（Ｂ_Ｉ）、およびターゲットビット深度（Ｂ_Ｔ）を入力として与えられると、ステップ（７０５）は、各入力Ｉ_ｊｐ＝ｉについての正規化された必要符号語数の下限を、式（１２）にしたがって算出する。ステップ（７１０）において、未使用の符号語があれば、例えば式（１４−１７）によって記述されるいくつかの再配分方式のいずれかにしたがって、再配分される。オプションとして、ステップ（７１５）において、再配分されたデータ

をフィルタリングし（例えば式（１８）を参照）、平滑化済みの正規化された符号語数を生成し、これをステップ（７２０）において累積和関数に基づき最終符号語マッピングを生成するために用いる。

フレームベースの適応的量子化
前述のように、式（７）に従い、ある実施形態において、適応的量子化は、シーン中の複数のフレームにわたって集められたノイズマスキングヒストグラムデータに基づいていてもよい。データを複数のフレームにわたって集めることは、リアルタイムで適応的量子化を行う必要がある環境においては容認しがたいような、有意な遅延を引き起こし得る。別の実施形態において、符号語マッピング（あるいは再構成）を、シーン中の最初のフレームからのデータを用いて行ってもよい。ただし、このマッピングは、シーンのフレーム群内における小さな変動に対応するために、周期的に調節され得る。そのようなプロセスを、表１に擬似コードで記述する。

表１-フレームベースの適応的量子化

逆方向再構成
いくつかの実施形態において、順方向再構成（１５０）の効果を逆転させるために、逆方向再構成（１６０）を適用してもよい。ある実施形態において、逆量子化のためのルックアップテーブルを、以下のように構築してもよい。
ａ）量子化ドメイン（ｓ_ｃ）中の各符号語について、ＦＬ（ｖ_ｉ）＝ｓ_ｃであるような全ての入力符号語（ｖ_ｉ）を特定する。このグループをω（ｓ_ｃ）＝｛ｖ_ｉ|ＦＬ（ｖ_ｉ）＝ｓ_ｃ｝と表す。このとき、
ｂ）逆方向再構成関数（ＢＬ（ｓ_ｃ））を、ω（ｓ_ｃ）の関数として構築する。
例えば、ある実施形態において、限定されないが、ＢＬ（ｓ_ｃ）を、ω（ｓ_ｃ）に属する全ての符号語の平均として構築してもよい。すなわち、
もし |ω（ｓ_ｃ）| > ０ならば、

であり、
ここで|ω（ｓ_ｃ）|は、集合ω（ｓ_ｃ）中の要素の数を表す。もし任意のｓ_ｃ値群について|ω（ｓ_ｃ）|＝０ならば、ある実施形態において、これらの値は、その近隣の非ゼロ値から補間されてもよい。

別の実施形態群
前述のように、一実施形態において、既存のコーデックが有するビット深度に関連する制限に対応するために、符号化（圧縮）ステップ（１２０）の前に本提案による適応的量子化が行われてもよい。量子化の後、再構成マッピング関数（６３０）に関連するデータ（例えば逆マッピング関数）を、メタデータとして（例えばマルチセグメントの線形または２次多項式の係数として、またはルックアップテーブルとして）埋め込むことにより、デコーダが逆マッピングを行うことを可能にしてもよい。あるいは、ターゲットビット深度制限内で動作し得る適切な再構成関数が存在しない場合は、ある実施形態において、画像の元の滑らかな領域に対し当該分野において公知のノイズまたはディザリングを加えることにより、量子化エラーのマスキングを改善してもよい。そのようなノイズは、ノイズマスクヒストグラム生成ステップ（２１０）の出力にしたがって加えられてもよい。

いくつかの実施形態において、コンテンツベースの知覚的量子化プロセスを、デコーダによって受け取られた情報にしたがってさらに適応させてもよい。例えば、もしある下流の機器が、周囲光の強度または視聴距離を測定するためのセンサ群を備えたディスプレイに取り付けられている場合には、そのような情報が上流のエンコーダに送られることにより、ノイズマスク生成（２０５）のためのフィルタ、または適応的量子化プロセスのその他のパラメータ（例えば再配分ステップなど）を調節してもよい。例えば、高周囲光については、暗領域においてより少ない量子化ステップが必要となる。

いくつかの実施形態において、エンコーダ段におけるノイズ導入またはディザリングを行う代わりに、この動作は、エンコーダから送られたメタデータ情報（例えばノイズマスクヒストグラムなど）に基づいて、デコーダ内において行われてもよい。

画像処理技術の当業者には理解されるように、本提案によるコンテンツ適応的量子化手法は、追加的なノイズ、ディザリング、またはビット切り捨てを適用することによってビット深度要件を減ずるような、他の様々な画像処理アプリケーションにも応用可能である。

コンピュータシステム実装例
本発明の実施形態は、コンピュータシステム、電子回路およびコンポーネントで構成されたシステム、マイクロコントローラ、フィールドプログラマブルゲートアレイ（ＦＰＧＡ）または他のコンフィギュラブルまたはプログラマブルロジックデバイス（ＰＬＤ）、離散時間またはデジタル信号プロセッサ（ＤＳＰ）、特定用途向けＩＣ（ＡＳＩＣ）などの集積回路（ＩＣ）デバイス、および／または、このようなシステム、デバイスまたはコンポーネントを１つ以上含む装置、を用いて実施し得る。このコンピュータおよび／またはＩＣは、本明細書に記載のようなエンハンストダイナミックレンジを有する画像の適応的な知覚的量子化に関する命令を行い、制御し、または実行し得る。このコンピュータおよび／またはＩＣは、本明細書に記載の適応的な知覚的量子化プロセスに関する様々なパラメータまたは値のいずれを演算してもよい。画像およびビデオ実施形態は、ハードウェア、ソフトウェア、ファームウェア、および、その様々な組み合わせで実施され得る。

本発明の特定の態様は、本発明の方法をプロセッサに行わせるためのソフトウェア命令を実行するコンピュータプロセッサを含む。例えば、ディスプレイ、エンコーダ、セットトップボックス、トランスコーダなどの中の１つ以上のプロセッサは、そのプロセッサがアクセス可能なプログラムメモリ内にあるソフトウェア命令を実行することによって、上記のようなＨＤＲ画像の適応的な知覚的量子化に関する方法を実装し得る。本発明は、プログラム製品形態で提供されてもよい。このプログラム製品は、データプロセッサによって実行された時に本発明の方法をデータプロセッサに実行させるための命令を含む１セットの、コンピュータ読み取り可能な信号を格納する任意の非一時的媒体を含み得る。本発明によるプログラム製品は、様々な形態をとり得る。例えば、このプログラム製品は、フロッピーディスク、ハードディスクドライブを含む磁気データ記憶媒体、ＣＤＲＯＭ、ＤＶＤを含む光学データ記憶媒体、ＲＯＭ、フラッシュＲＡＭなどを含む電子データ記憶媒体、などの物理的媒体を含み得る。このプログラム製品上のコンピュータ可読信号は、任意に、圧縮または暗号化されていてもよい。

上記においてあるコンポーネント（例えば、ソフトウェアモジュール、プロセッサ、アセンブリ、デバイス、回路など）に言及している場合、そのコンポーネントへの言及（「手段」への言及を含む）は、そうでないと明記されている場合を除いて、当該コンポーネントの機能を果たす（例えば、機能的に均等である）あらゆるコンポーネント（上記した本発明の実施形態例に出てくる機能を果たす開示構造に対して構造的に均等ではないコンポーネントも含む）を、当該コンポーネントの均等物として、含むものと解釈されるべきである。

均等物、拡張物、代替物、その他
ＨＤＲ画像の効率的な適応的な知覚的量子化に関する実施形態例を上述した。この明細書中において、各実装毎に異なり得る多数の具体的な詳細に言及しながら本発明の実施形態を説明した。従って、本発明が如何なるものかおよび出願人は本発明が如何なるものであると意図しているかについての唯一且つ排他的な指標は、後の訂正を含む、これら請求項が生じる具体的な形態の、本願から生じる１組の請求項である。当該請求項に含まれる用語に対して本明細書中に明示したあらゆる定義が、請求項内で使用される当該用語の意味を決定するものとする。よって、請求項に明示的に記載されていない限定事項、構成要素、特性、特徴、利点または属性は、いかなる形であれ請求の範囲を限定するものではない。従って、本明細書および図面は、限定的ではなく、例示的であると認識されるべきものである。

Claims

プロセッサを用いた、画像の知覚的量子化のための方法であって、
ある入力ビット深度にある入力画像に、プロセッサを用いてアクセスすることと、
前記入力画像にノイズマスク生成プロセスを適用することによりノイズマスク画像を生成することであって、前記ノイズマスク画像は、前記入力画像中の画素を、量子化ノイズをマスキングする際におけるその知覚的重要度に関して特徴づけ、
前記入力画像および前記ノイズマスク画像に基づき、ノイズマスクヒストグラムを生成することと、
前記ノイズマスクヒストグラム中の１つ以上のビンについて、マスキングノイズレベル−ビット深度関数を適用することにより、前記１つ以上のビンに対し最小ビット深度値群を生成することと、
前記入力ビット深度、前記最小ビット深度値群、およびターゲットビット深度に基づき、符号語マッピング関数を生成することと、
前記入力画像に前記符号語マッピング関数を適用することにより、前記ターゲットビット深度において出力画像を生成し、前記ターゲットビット深度は前記入力ビット深度よりも小さいこと、
を包含し、
前記ノイズマスク生成プロセスは、
前記入力画像に第１のフィルタを適用して、第１のフィルタリングされた画像を生成することと、
前記入力画像と前記第１のフィルタリングされた画像との差の絶対値を算出することにより、第２の画像を生成することと、
前記第２の画像に第２のフィルタを適用することにより、前記ノイズマスク画像を生成することと、
を包含する、方法。
前記第１のフィルタはローパスガウスフィルタである、請求項１に記載の方法。
前記第２のフィルタはローパスガウスフィルタである、請求項１に記載の方法。
前記ノイズマスク画像に画素選択プロセスを適用することにより、量子化プロセスにおいて重要でないとみなされる画素を排除すること
をさらに包含する、請求項１に記載の方法。
前記ノイズマスクヒストグラムを生成することは、
前記入力ビット深度に基づいて、前記入力画像のダイナミックレンジを算出することと、
前記ダイナミックレンジをＭ個のサブ範囲に分割することであって、ここでＭは１より大きい整数であり、
ｉ番目のサブ範囲について、
前記入力画像において、前記ｉ番目のサブ範囲内に画素値を有しているすべての画素を特定することと、
前記ｉ番目のサブ範囲内の各画素について、
前記ノイズマスク画像におけるその対応するノイズマスク値を決定すること、および
前記ｉ番目のサブ範囲内のすべての画素について、前記ノイズマスク値の最小値を決定することと、
前記ノイズマスクヒストグラム中のｉ番目のビンに対し、前記ｉ番目のサブ範囲内の前記画素についての前記ノイズマスク値の最小値を割り当てることと、
を包含する、請求項１に記載の方法。
前記入力画像は、ガンマ符号化またはＳＭＰＴＥＳＴ２０８４にしたがって符号化されたハイダイナミックレンジ画像である、請求項１に記載の方法。
前記マスキングノイズレベル−ビット深度関数は、知覚的ユーザー調査の結果にしたがって生成される、請求項１に記載の方法。
前記符号語マッピング関数を生成することは、
前記最小ビット深度値群、前記入力ビット深度、および前記ターゲットビット深度に基づいて、前記ターゲットビット深度にある正規化された必要符号語数の下限を生成することと、
ある割り当て方式にしたがって、前記入力画像のダイナミックレンジ全体に対して未使用の正規化された符号語を割り当てることにより、新しく更新した正規化された必要な符号語数群を生成することと、
前記新しく更新した正規化された必要な符号語数群の累積和を算出することにより、前記符号語マッピング関数を生成することと、
をさらに包含する、請求項１に記載の方法。
前記符号語マッピング関数を生成するよりも前に、前記新しく更新した正規化された必要な符号語数群をローパスフィルタによってフィルタリングすること
をさらに包含する、請求項８に記載の方法。
前記ローパスフィルタは、Ｎが正の整数である（２Ｎ＋１）タップの平均化フィルタを包含する、請求項９に記載の方法。
前記割り当て方式は比例的割り当て方式を包含し、ここでｉ番目の入力画素値について

であり、

は前記新しく更新した正規化された符号語値数を表し、ｄ_iは前記正規化された必要符号語数を表し、Ｄはｄ_i値の和を表し、かつＵ＝１−Ｄである、請求項８に記載の方法。
前記割り当て方式は定オフセット割り当て方式を包含し、ここでｉ番目の入力画素値について

であり、

は前記新しく更新した正規化された符号語値数を表し、ｄ_iは前記正規化された必要符号語数を表し、Ｄがｄ_i値の和を表すときＵ＝１−Ｄであり、ｖ_Hは最大入力画素値を表し、ｖ_Lは最小入力画素値を表す、請求項８に記載の方法。
前記割り当て方式はヒストグラムに基づく割り当て方式を包含し、ここでｉ番目の入力画素値について

であり、

は前記新しく更新した正規化された符号語値数を表し、ｄ_iは前記正規化された必要符号語数を表し、ｈ_iは前記入力画像中の、値がｉに等しい画素の数を表し、Ｄがｄ_i値の和を表すときＵ＝１−Ｄであり、Ｐは前記入力画像中において考慮している画素の総数を表す、請求項８に記載の方法。
前記割り当て方式は、スカラーベースの割り当て方式を包含し、ｉ番目の入力画素値について

であり、

は前記新しく更新した正規化された符号語値数を表し、ｄ_iは前記正規化された必要符号語数を表し、Ｄがｄ_i値の和を表すときＵ＝１−Ｄであり、αは０と１の間のスカラーであり、ｖ_Hは最大入力画素値を表し、ｖ_Lは最小入力画素値を表す、請求項８に記載の方法。
入力画素値ｉについて前記符号語マッピング関数を生成することは、

を算出することを包含し、ここでｓ_k値群は、前記新しく更新した正規化された符号語値数に基づいて導出される、請求項８に記載の方法。
前記出力画像を生成することは、

を算出することを包含し、ここで前記入力画像中の画素Ｉ_p＝ｉについて、ｓ_pは、対応する正規化済みの量子化された出力画素を表し、ｖ_Hは最大入力画素値を表し、ｖ_Lは最小入力画素値を表す、請求項１５に記載の方法。
前記最小ビット深度値群は、前記入力画像を含む映像シーン中の複数の連続フレーム群にわたって算出された最小ビット深度値群に基づいて算出される、請求項１に記載の方法。
前記ターゲットビット深度が前記割り当てステップによって満足されないと判断したとき、前記ノイズマスク画像にしたがってノイズまたはディザリングを前記入力画像に加え、かつ、正規化された必要符号語数の新たな下限を生成することにより、正規化された必要符号語数の下限を置き換えることを包含する、請求項８に記載の方法。
適応的量子化のためのシステムであって、
入力フレーム群を受け取り、請求項１の方法にしたがって再量子化されたフレーム群を生成する、プロセッサと、
前記再量子化されたフレーム群を符号化することにより、符号化フレーム群を生成する、プロセッサと、
前記符号化フレーム群を復号化することにより、復号化フレーム群を生成する、プロセッサと、
前記復号化フレーム群に逆方向再構成関数を適用することにより、出力フレーム群を生成する、プロセッサと、
を備える、システム。
プロセッサを備え、請求項１〜１８に記載の方法のうちいずれかを行うように構成された装置。
コンピュータ読み取り可能な非一時的記憶媒体であって、請求項１〜１８のうちいずれかにしたがって方法を実行するための、コンピュータにより実行可能な命令を格納した、記憶媒体。