JP2018514145A - ハイダイナミックレンジ映像符号化における、ループ内ブロックベース画像再構成 - Google Patents

ハイダイナミックレンジ映像符号化における、ループ内ブロックベース画像再構成 Download PDF

Info

Publication number
JP2018514145A
JP2018514145A JP2017552806A JP2017552806A JP2018514145A JP 2018514145 A JP2018514145 A JP 2018514145A JP 2017552806 A JP2017552806 A JP 2017552806A JP 2017552806 A JP2017552806 A JP 2017552806A JP 2018514145 A JP2018514145 A JP 2018514145A
Authority
JP
Japan
Prior art keywords
data
generating
coding region
bit depth
reconstruction
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2017552806A
Other languages
English (en)
Other versions
JP6383116B2 (ja
Inventor
スゥ,グワン‐ミーン
Original Assignee
ドルビー ラボラトリーズ ライセンシング コーポレイション
ドルビー ラボラトリーズ ライセンシング コーポレイション
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by ドルビー ラボラトリーズ ライセンシング コーポレイション, ドルビー ラボラトリーズ ライセンシング コーポレイション filed Critical ドルビー ラボラトリーズ ライセンシング コーポレイション
Publication of JP2018514145A publication Critical patent/JP2018514145A/ja
Application granted granted Critical
Publication of JP6383116B2 publication Critical patent/JP6383116B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/102Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or selection affected or controlled by the adaptive coding
    • H04N19/117Filters, e.g. for pre-processing or post-processing
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/102Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or selection affected or controlled by the adaptive coding
    • H04N19/124Quantisation
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/134Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or criterion affecting or controlling the adaptive coding
    • H04N19/136Incoming video signal characteristics or properties
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/169Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding
    • H04N19/17Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding the unit being an image region, e.g. an object
    • H04N19/176Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding the unit being an image region, e.g. an object the region being a block, e.g. a macroblock
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/30Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using hierarchical techniques, e.g. scalability
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/80Details of filtering operations specially adapted for video compression, e.g. for pixel interpolation
    • H04N19/82Details of filtering operations specially adapted for video compression, e.g. for pixel interpolation involving filtering within a prediction loop
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/90Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using coding techniques not provided for in groups H04N19/10-H04N19/85, e.g. fractals
    • H04N19/91Entropy coding, e.g. variable length coding [VLC] or arithmetic coding
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/90Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using coding techniques not provided for in groups H04N19/10-H04N19/85, e.g. fractals
    • H04N19/98Adaptive-dynamic-range coding [ADRC]
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/85Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using pre-processing or post-processing specially adapted for video compression

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Compression Or Coding Systems Of Tv Signals (AREA)

Abstract

ハイダイナミックレンジ映像の符号化における、ループ内での、領域ベースの再構成のためのシステムおよび方法を開示する。高ビットの深度バッファを使用して、入力データと以前に復号化された参照データとを格納するとき、順方向および逆方向のループ内再構成関数によって、映像符号化および復号化を入力ビット深度よりも低いターゲットビット深度において実行することが可能となる。さらに、データオーバーヘッドを低減し得る、再構成関数のクラスタリングの方法も提示する。

Description

関連出願への相互参照
本願は、2015年4月6日に出願された米国仮特許出願第62/143,478号に基づく優先権を主張するものであり、この出願の開示内容を全て本願に援用する。
技術
本発明は、広く画像に関する。より詳細には、本発明のある実施形態は、ハイダイナミックレンジの画像および映像シーケンスのための、ループ内(in−loop)ブロックベース(block−based)画像再構成に関する。
背景
本明細書において、用語「ダイナミックレンジ」(DR)は、人間の視覚システム(HVS)が画像においてある範囲の強度(例えば、輝度、ルマ)(例えば、最暗部(黒)から最明部(白)まで)を知覚する能力に関連し得る。この意味では、DRはシーン−リファード(scene−referred)の強度に関する。DRはまた、ディスプレイデバイスが特定の幅を有する強度範囲を妥当にまたは近似的に描画する能力にも関連し得る。この意味では、DRは、ディスプレイ−リファード(display−referred)の強度に関する。本明細書中の任意の箇所において、ある特定の意味が特に明示的に指定されている場合を除いて、この用語はどちらの意味としても(例えば、区別なく)使用できるものとする。
本明細書において、ハイダイナミックレンジ(HDR)という用語は、人間の視覚システム(HVS)において14〜15桁ほどにわたるDR幅に関する。実際において、人間が広範囲の強度範囲を同時に知覚し得るDRは、HDRに対して幾分端折られ得る。本明細書において、エンハンストダイナミックレンジ(EDR)または視覚ダイナミックレンジ(VDR)という用語は、個別にまたは区別なく、人間の視覚システム(HVS)(眼球運動を含み、シーンまたは画像にわたってある程度の明順応変化を可能にする)が、あるシーンまたは画像中において知覚可能なDRに関する。本明細書において、EDRは、5〜6桁にわたるDRに関連し得る。従って、真のシーンリファードのHDRに対しては幾分狭いものの、EDRは広いDR幅を表し、HDRとも呼ばれ得る。
実際において、画像は1つ以上の色成分(例えばルマYおよびクロマCbおよびCr)を有しており、各色成分は、画素あたりnビットの精度(例えばn=8)で表される。線形輝度符号化(linear luminance coding)を用いた場合、n≦8の画像(例えばカラー24ビットJPEG画像)はスタンダードダイナミックレンジとされ、n>8の画像はエンハンストダイナミックレンジの画像とされる。EDRおよびHDR画像はまた、Industrial Light and Magicが開発したOpenEXRファイルフォーマットなどの高精度の(例えば16ビット)浮動小数点フォーマットを用いて、格納および配信され得る。
あるディスプレイについての基準(reference)電気光学伝達関数(EOTF)は、入力映像信号の明度(color values)(例えば輝度)からそのディスプレイによって生成される出力スクリーン明度(例えばスクリーン輝度)への関係を特徴づける。例えば、その開示内容を全て本願に援用するITU Rec.ITU−R BT. 1886、「Reference electro−optical transfer function for flat panel displays used in HDTV studio production」(03/2011)では、陰極線管(CRT)の測定された特性に基づいて、フラットパネルディスプレイについての基準EOTFを定義している。ある映像ストリームが与えられたとき、そのEOTFに関する情報は、典型的にはメタデータとしてビットストリーム中に埋め込まれる。本明細書において、「メタデータ」の語は、符号化ビットストリームの一部として送信され、デコーダが復号化画像を描画することを助ける、任意の補助的情報に関する。そのようなメタデータは、本明細書において記載されるような、色空間または色域情報、リファレンスディスプレイパラメータ、および補助的な信号パラメータなどを含むが、これらに限定されない。
ほとんどのコンシューマー用デスクトップディスプレイは現在、200〜300cd/mまたはニトの輝度をサポートしている。ほとんどのコンシューマー用HDTVは300〜500ニトの範囲であるが、新しいモデルは1000ニト(cd/m)に達する。このような従来のディスプレイはしたがって、HDRやEDRに対し、より低いダイナミックレンジ(LDR)(またはスタンダードダイナミックレンジ(SDR)とも呼ばれる)の典型例となる。キャプチャ機器(例えばカメラ)およびHDRディスプレイ(例えばDolby LaboratoriesのPRM−4200プロフェッショナルリファレンスモニター)両方の進化によって、HDRコンテンツの普及率が高まるにつれ、HDRコンテンツはカラーグレーディングされてより高いダイナミックレンジ(例えば1,000ニトから5,000ニト以上)をサポートするHDRディスプレイ上に表示されることがある。そのようなディスプレイは、高輝度能力(例えば0から10,000ニトなど)をサポートする代替的なEOTFを用いて定義され得る。そのようなEOTFの一例が、その開示内容を全て本願に援用するSMPTE ST 2084:2014「High Dynamic Range EOTF of Mastering Reference Displays」に定義されている。一般的に、限定しないが、本開示の方法はSDRよりも高い任意のダイナミックレンジに関連する。本発明者らの理解によれば、映像符号化においてハイダイナミックレンジ画像を適応的にループ内再構成するための改良技術が望まれる。
本節に記載されている手法は、探求し得る手法ではあるが、必ずしもこれまでに着想または探求されてきた手法ではない。従って、別途示唆のない限り、本節に記載された手法のいずれも、本節に記載されているという理由だけで従来技術としての適格性を有すると考えるべきではない。同様に、別途示唆のない限り、1以上の手法に関して特定される問題が、本節に基づいて、いずれかの先行技術において認識されたことがあると考えるべきではない。
図面の簡単な説明
同様の部材に同様の参照符号を付した添付図面の各図において、本発明のある実施形態を限定する事なく例示する。
図1Aは、映像供給パイプラインのプロセス例を示す。 図1Bは、ループ外での(out−of−loop)適応的な量子化または再構成および逆量子化を用いたデータ圧縮のプロセス例を示す。 図2Aは、本発明のある実施形態による、映像エンコーダにおける、ループ内での順方向再構成のためのシステム例を示す。 図2Bは、本発明のある実施形態による、映像デコーダにおける、ループ内での逆方向再構成のためのシステム例を示す。 図3Aは、本発明のある実施形態による、映像エンコーダにおける、ループ内での順方向再構成のためのプロセス例を示す。 図3Bは、本発明のある実施形態による、映像デコーダにおける、ループ内での逆方向再構成のためのプロセス例を示す。 図4は、符号化領域(coding regions)へと細分された画像フレームを表す。
例示的な実施形態の説明
ハイダイナミックレンジ(HDR)画像を圧縮する際の、ループ内での適応的再構成の技術を本明細書に記載する。以下の説明においては、便宜上、本発明を完全に理解できるように、多数の詳細事項を説明する。ただし、これらの詳細事項が無くても本発明を実施可能であることは明白であろう。他方、本発明の説明を不必要に煩雑にしたり、不明瞭にしたり、難読化したりしないように、周知の構造およびデバイスの細かな詳細までは説明しない。
概要
本明細書に記載の例示的な実施形態は、HDR画像の符号化(例えば、圧縮および展開)の際における、ループ内ブロックベース再構成に関する。ある実施形態において、エンコーダが、入力ビット深度におけるHDR入力画像にアクセスする。入力画像が有するある符号化領域(coding region)について、エンコーダは、順方向再構成関数および逆方向再構成関数を生成または選択する。エンコーダは、この符号化されることになる領域のための、入力ビット深度における参照画素データにアクセスし、参照画素データと符号化領域の画素データとに順方向再構成関数を適用することにより、ターゲットビット深度における第2の参照データと第2の符号化領域画素データとを生成する。ここで、ターゲットビット深度は入力ビット深度以下である。エンコーダは、第2の参照データと第2の符号化領域画素データとに基づき、ターゲットビット深度における符号化ビットストリームを生成する。エンコーダはまた、符号化ビットストリームのループ内復号化に基づき、復元データ(reconstructed data)を生成する。その後、復元データに逆方向再構成関数を適用することにより、入力ビット深度における将来の参照データを生成する。当該符号化領域について順方向および/または逆方向再構成関数を特徴付けるデータもまた、符号化ビットストリームの一部としてデコーダへと通知され得る。
ある別の実施形態において、デコーダが、ターゲットビット深度における符号化ビットストリームと、符号化ビットストリームの各符号化領域(coded region)に対する順方向再構成関数および/または逆方向再構成関数を特徴付けるメタデータにアクセスする。符号化ビットストリームが有するある符号化領域に対し、デコーダは、出力ビット深度における参照データにアクセスする。ここで、出力ビット深度はターゲットビット深度以上である。入力メタデータに基づいて、順方向再構成関数および逆方向再構成関数をこの符号化領域に割り当てる。参照データに順方向再構成関数を適用することにより、ターゲットビット深度における第2の参照データを生成する。デコーダは、符号化ビットストリームデータと第2の参照データとに基づき、当該符号化領域に対する、ターゲットビット深度における復号化画素データを生成する。復号化画素データに逆方向再構成関数を適用することにより、出力ビット深度における出力データと将来の参照データとを生成する。
ある実施形態において、ある符号化領域に対する順方向再構成関数を生成または選択することは、以下を含む。すなわち、入力画像を複数の符号化領域に分割することと、複数の符号化領域をG個のグループにクラスタリングすること(Gは画像における全符号化領域の総数よりも少ない)と、G個のグループの各々につき、順方向再構成関数と逆方向再構成関数とを生成することと、選択基準に従って、当該符号化領域に対し、G組の順方向および逆方向再構成関数のうち1組を選択することである。
映像供給処理パイプライン例
図1Aは、従来の映像供給パイプライン(100)のプロセス例を示しており、映像のキャプチャから映像コンテンツの表示までの、様々な段を示している。画像生成ブロック(105)を用い、映像フレームのシーケンス(102)をキャプチャまたは生成する。映像フレームは、デジタル的にキャプチャされるか(例えばデジタルカメラにより)またはコンピュータ(例えばコンピュータアニメーションを用いて)によって生成されることにより、映像データ(107)が得られる。あるいは映像フレーム(102)は、銀塩カメラによってフィルム上に取得されてもよい。フィルムがデジタルフォーマットに変換されることによって、映像データ(107)が得られる。プロダクションフェーズ(110)において、映像データ(107)は編集され、映像プロダクションストリーム(112)を得る。
プロダクションストリーム(112)の映像データは次に、ブロック(115)のプロセッサに与えられて、ポストプロダクション編集を受ける。ブロック(115)ポストプロダクション編集は、画像の特定の領域の色または明るさを調節または変更することにより、映像制作者の制作意図にしたがってその画像が特定の見え方をするようにしたり、画質を上げたりすることを含み得る。これは、「カラータイミング」あるいは「カラーグレーディング」と呼ばれることがある。ブロック(115)において、その他の編集(例えば、シーン選択およびシーケンシング、画像クロッピング、コンピュータ生成された視覚的特殊効果の追加など)を行うことにより、プロダクションの、配信用の最終バージョン(117)を作成してもよい。ポストプロダクション編集(115)において、映像イメージは、リファレンスディスプレイ(125)上で視聴される。
ポストプロダクション(115)の後、最終プロダクションとしての映像データ(117)は、下流のテレビ受像機、セットトップボックス、映画館などの復号化・再生機器まで供給されるために、符号化ブロック(120)に供給されてもよい。いくつかの実施形態において、符号化ブロック(120)は、符号化されたビットストリーム(122)を生成するための、ATSC、DVB、DVD、ブルーレイおよびその他の供給フォーマットに規定されるような音声および映像エンコーダを有していてもよい。受信機において、符号化されたビットストリーム(122)は、復号化ユニット(130)により復号化されることにより、信号(117)と同一またはこれに近い近似を表す、復号化された信号(132)を生成し得る。受信機は、リファレンスディスプレイ(125)と全く異なる特性を有し得るターゲットディスプレイ(140)に取り付けられていてもよい。その場合、ディスプレイマネジメントブロック(135)を用いてディスプレイマッピング化信号(137)を生成することで、復号化された信号(132)のダイナミックレンジを、ターゲットディスプレイ(140)の特性にマッピングしてもよい。
信号の再構成または量子化
現在、映像供給用のほとんどのデジタルインターフェース、例えばSerial Digital Interface(SDI)などは、各成分につき画素あたり12ビットに制限されている。さらに、ほとんどの圧縮規格、例えばH.264(またはAVC)およびH.265(またはHEVC)などは、各成分につき画素あたり10ビットに制限されている。したがって、既存のインフラストラクチャおよび圧縮規格内において、約0.001から10,000cd/m(またはニト)のダイナミックレンジを有するHDRコンテンツをサポートするためには、効率的な符号化および/または量子化が必要である。
本明細書において、用語「PQ」は知覚的な輝度振幅(luminance amplitude)の量子化を指す。人間の視覚システムは、光レベルの増大に対して非常に非線形的に反応する。人間が刺激を見る能力は、その刺激の輝度、その刺激の大きさ、その刺激を構成する空間周波数、および、その刺激を見ている瞬間までに目が適応した輝度レベルに影響される。ある実施形態において、知覚的量子化器関数は、線形入力グレイレベルを、人間の視覚システムにおけるコントラスト感度閾値によりマッチした出力グレイレベルにマッピングする。PQマッピング関数(またはEOTF)の一例が、その開示内容を全て本願に援用する、SMPTE ST 2084:2014「High Dynamic Range EOTF of Mastering Reference Displays」に記載されている。ここでは、ある固定刺激サイズに対して、それぞれの輝度レベル(即ち、刺激レベル)について、最高感度の適応レベルおよび最高感度の空間周波数(HVSモデルによる)に応じて、その輝度レベルにおける最小可視コントラストステップを選択する。物理的な陰極線管(CRT)装置の応答曲線を表しており、人間の視覚システムの応答の仕方に対して非常に大まかな類似性を偶然有し得る従来のガンマ曲線と比較して、PQ曲線は、比較的シンプルな関数モデルを用いながら人間の視覚システムの本当の視覚応答を模擬している。
例えば、SMPTE ST 2084によれば、1cd/mにおいて、1つの12ビット符号値は約0.0048cd/mの相対変化に相当する。しかし、1,000cd/mにおいては、1つの12ビット符号値は約2.24cd/mの相対変化に相当する。この非線形的量子化は、人間の視覚システム(HVS)の非線形的なコントラスト感度に対応するために必要である。
知覚的に量子化されたEOTFの別の例が、その開示内容を全て本願に援用する、J.Stessenら、「Chromaticity based color signals for wide color gamut and high dynamic range」、ISO/IEC JTC1/SC29/WG11 MPEG2014/M35065、Oct.2014に示されている。
HVSのコントラスト感度は、画像コンテンツの輝度だけでなくマスキング特性(特にノイズおよびテクスチャ)、そしてHVSの順応状態に依存する。すなわち、画像のノイズレベルまたはテクスチャ特性によっては、画像コンテンツは、PQまたはガンマ量子化器によって予測されるよりも大きな量子化ステップで量子化されることができる。なぜなら、テクスチャおよびノイズは、量子化アーチファクトをマスキングするからである。PQ量子化は、HVSの能力のうち最大限を記述する。つまりこれは画像中にノイズやマスキングが無い場合のことである。しかし多くの画像において(映像のフレーム)は、有意なマスキングが存在する。
ノイズおよびテクスチャマスキングに加えて、他の視覚のふるまいの特性、例えば光学フレアや局所的順応(local adaptation)なども考慮に入れることにより、量子化のレベルを上げ、各色成分につき10ビット以下でHDR画像を表現することを可能にし得る。本明細書において、用語「コンテンツ適応的なPQ」または略して「適応的PQ」とは、画像の知覚的量子化を、そのコンテンツに基づいて適応的に調節する方法を言う。
図1Bは、2015年3月2日に出願された米国仮特許出願第62/126,925号(以下、‘925出願と呼ぶ)に記載の、「ループ外での」適応的なPQまたは再構成のためのプロセス例を示す。入力フレーム群(117)を与えられると、順方向再構成ブロック(150)が、入力および符号化制約を分析し、符号語マッピング関数を生成する。この符号語マッピング関数は、入力フレーム群(117)を、再量子化された出力フレーム群(152)にマッピングする。例えば、特定のEOTFにおいては、入力(117)はガンマ符号化またはPQ符号化され得る。いくつかの実施形態において、再構成プロセスに関する情報は、メタデータを用いて下流の機器(例えばデコーダ)に伝えられてもよい。符号化(120)および復号化(130)の後、前述したディスプレイマネジメントプロセス(135)などのさらなる下流処理のために、復号化フレーム群(132)が、再量子化されたフレーム群(132)を元のEOTFドメイン(例えばガンマまたはPQ)に再度変換する逆方向再構成関数(160)による処理を受けてもよい。逆方向再構成関数を生成することの一例が、2015年3月20日に出願された米国仮出願第62/136,402号(以下、‘402出願と呼ぶ)に記載されている。
ループ内での画像再構成
図2Aは、本発明のある実施形態による、映像エンコーダにおけるループ内再構成のためのシステム例(200A)を示す。図2Aに表すように、ハイダイナミックレンジ画像(例えば、映像フレーム)のシーケンス(202)(例えば、色成分当たり12または16ビットでキャプチャされたもの)が、高ビット深度のフレームバッファ(205)に格納される。映像エンコーダ(例えば、MPEG−2、MPEG−4、AVC、HEVCなどのエンコーダ)はインター/イントラ予測(215)を備えており、これにより、イントラ符号化されたブロックまたは残差(217)のいずれかを生成する。その後、予測プロセス(215)の出力(217)を、適切な変換ドメイン(例えば、DCT)へと変換し、量子化(220)する。最後に、量子化(220)の後で、エントロピーエンコーダ(225)が、ロスレス符号化技術(例えば、ハフマン符号化、算術符号化など)を使用して圧縮ビットストリーム(227)を生成する。殆どの規格準拠エンコーダ(例えば、AVC、HEVCなど)はループ内での復号化プロセスを備えており、このプロセスにおいて、逆量子化および逆変換プロセス(230)を適用した後で、下流のデコーダによって感じとられるであろうような、入力ビットストリームの近似(232)を生成する。高ビット深度のエンコーダおよびデコーダを設計することは高コストであるため、商業的に利用可能な映像エンコーダにおいて、サポートされるビット深度は約8〜10ビットに制限され得る。低コストのエンコーダを使用してHDR入力をより良く符号化するために、順方向再構成ユニット(210)において、高ビット深度バッファの出力(207)を、当初の入力ビット深度B(例えば、12または16ビット)からターゲットビット深度B(例えば、8または10ビット)に変換し得る。いくつかの実施形態において、たとえターゲットビット深度が入力ビット深度と同一である場合でも、再構成を適用して信号ダイナミックレンジを制限することは有益であり得る。例えば、再構成によって全体的な圧縮効率を改善することもできるし、再構成において、ある特定のダイナミックレンジのディスプレイに向けたコンテンツを生成することを目標としてもよい。順方向再構成または量子化(210)に関する全てのパラメータは、メタデータ(213)を介して下流のデコーダ(例えば、200B)へと伝達されることができ、これによりデコーダは、エンコーダにおける逆方向再構成ブロック(235)と同様な逆方向再構成関数を生成し得る。
ループ内での再構成(210)と従来の再構成(150)との主要な差異は、ループ内での再構成は映像エンコーダ(120)の内部で動作することであることに留意されたい。ループ内での再構成は、入力映像のローカルな特性をより十分に追及するので、より優れた性能をもたらすものと期待される。HDR画像において、ダイナミックレンジは画像の様々な領域に亘って変化し得る。例えば、テストシーケンスの一例において、ある所定のフレームに対し、グローバルレベルではグローバルな最大および最小輝度値間の差は46,365であった。ところが、8×8のオーバーラップしないブロックの全てに亘って、ブロックベースの最大輝度値と最小輝度値との最大の差は34,904であった。この場合、ブロック毎に考えて、著しくより低いビット深度要件が可能となる。
再構成パラメータがより頻繁に調整され得るので、ループ内再構成においては、適切なパラメータをデコーダに渡して順方向および逆方向再構成関数を生成するために、より高いメタデータオーバーヘッドを必要とし得る。本発明において、より優れた符号化効率とより高い画質のために、このオーバーヘッドを低減する新規なマッピング方法を提案する。
図2Bは、映像デコーダにおける、逆方向のループ内再構成のためのシステム例(200B)を示す。ターゲットビット深度(B)において符号化された入力圧縮ビットストリーム(227)が与えられると、デコーダは、エントロピー復号化(250)、逆量子化と逆変換(255)、およびイントラ/インター予測(275)を実行することにより、ターゲットビット深度B(例えば、8または10ビット)における復号化信号(257)を生成する。この信号は、順方向再構成を適用した後にエンコーダによって生成された信号(212)の近似を表す。イントラ/インター予測(275)においては、高ビット深度(例えば、B)のフレームバッファ(265)に格納された、以前に復号化済みの参照画素(267)にアクセスすることが必要であり得る。ビット深度Bにおける参照画素(267)は、ターゲットビット深度(B)における参照データ(272)へと、順方向再構成関数(270)を使用して変換される。旧式デコーダは、直接に信号257を表示するかもしれない。しかし、ハイダイナミックレンジデコーダは、逆方向再構成(260)を適用することにより、当初のHDR信号(202)を近似する、ビット深度Bにおけるハイダイナミックレンジ信号(262、269)を生成し得る。ある実施形態において、デコーダにおける逆方向再構成(260)は、エンコーダにおける逆方向再構成(235)に一致する。同様に、デコーダにおける順方向再構成(270)は、エンコーダにおける順方向再構成(210)に一致する。他の実施形態において、デコーダ(200B)における順方向および逆方向の再構成関数は、エンコーダ(200A)における対応する関数に近い近似であってもよい。
エンコーダにおける場合と同様に、映像復号化処理の殆どはターゲットビット深度(B)において行なわれ、逆方向および順方向の再構成関数のみが、より高いビット深度において実行されることを要する。以下の節において、イントラ予測またはインター予測における順方向および逆方向の再構成技術を記載する。一例として、単純な線形の再構成関数についての特定の詳細を説明する。但し、提案される技術を、別の非線形または適応的な量子化および再構成方式に適用する方法については、当業者にとって明らかなはずである。
図3Aは、ある実施形態による、順方向のループ内再構成のためのプロセス例(300A)を示す。ステップ(305)において、入力HDR画像(202)(例えば、フレームシーケンス中のあるフレーム)を、高ビット深度(B)のメモリ(例えば205)に格納する。この画像(202)を、符号化領域(例えば、マクロブロック、符号化木ユニットなど)に細分する。その後、各符号化領域(207)に対し、以下のステップを実行し得る。
・ステップ(310)において、順方向再構成変換により、符号化されることになる画像領域(207)および、関連参照データ(237)を入力ビット深度(B)からターゲットビット深度(B)に変換する。順方向再構成変換に関するパラメータ(213)を使用して、逆方向再構成変換(335)を生成し得る。
・ステップ(315)において、ステップ(310)の出力を、映像エンコーダ(例えば、MPEG−4、AVC、HEVCなど)を使用して符号化する。例えば、映像符号化ステップは、イントラまたはインター予測(315)、変換および量子化(220)、ならびにエントロピー符号化(225)を含み得る。
・ステップ(325)は、映像符号化における従来のループ内復号化(例えば、逆量子化および逆変換)を含むことにより、対応する下流のデコーダ(例えば、200B)によって生成されることになるような復元信号(232)を生成する。逆方向再構成ステップ(335)の後で、将来の符号化領域の符号化において参照データ(237)として使用するために、復元データ(232)をBビット深度に変換し戻し、フレームバッファに格納する。
・最後に、ステップ(320)において、順方向再構成関数のパラメータ(213)および映像エンコーダの出力(317)を多重化して、符号化ビットストリームを作成する。
この処理は、入力(202)の全ての符号化領域について、そして入力信号の1つ以上の色成分(例えば、ルマおよびクロマ)について、繰り返され得る。メタデータ(213)は、順方向再構成関数のみに関するパラメータを含んでもよいし、逆方向再構成関数のみに関するパラメータを含んでもよいし(これにより、順方向および逆方向再構成関数の両方を導出することが可能となる)、順方向および逆方向関数の両方に関するパラメータを含んでもよい。
ターゲットビット深度B(例えば、8または10ビット)における符号化ビットストリーム(227)が与えられたとして、図3Bは、ある実施形態による復号化プロセス例(300B)を示す。ステップ(330)において、デコーダは、入力ビットストリーム(227)を多重分離して、符号化ビットストリーム(252)と再構成に関するメタデータ(213)とを生成する。再構成パラメータ(213)を使用して、エンコーダ(例えば、200Aまたは300A)によって用いられた対応する関数に一致する逆方向再構成関数(335)および順方向再構成関数(310)を構築する。次に、符号化ビットストリーム(252)における各符号化領域に対し、復号化領域を以下のように生成する。
・ステップ(350)において、ビットストリームの中で規定されている符号化パラメータに従って、ターゲットビット深度Bにおける符号化領域を復号化する。このような復号化のためには、当該分野で公知の、エントロピー復号化、逆変換と逆量子化、および/またはイントラもしくはインター予測を適用することが必要とされ得る。ビット深度Bにおけるイントラまたはインターベースの復号化に対応するために、復号化に必要とされる全ての参照データ(例えば、以前に復号化された参照領域からの画素データ)(B≧Bビット深度において格納されている)を、順方向再構成ステップ(310)を使用してBビット深度に変換し戻す。
・ステップ(335)において、逆方向再構成変換を使用して、復号化信号(257)をビット深度Bを有する信号に変換し戻す。その後、ステップ(340)において、この高ビット深度信号(262)を高ビット深度バッファ(例えば265)に格納する。典型的には、B=B(すなわち、エンコーダにおいて使用された当初のHDRビット深度)である。但し、いくつかの実施形態においては、Bは典型的にはBより大きいものの、BとBとは異なっていてもよい(例えば、B≧B≧B)。
イントラまたはインター予測についてのさらなる詳細を、以降の節において記載する。
イントラ予測におけるループ内再構成
図4は、オーバーラップしない複数の符号化領域(例えば、405、410、415)へと細分された画像フレーム(400)の一例を示す。このような領域は、ブロック、マクロブロック、符号化木ブロック、スライスなどに相当し得る。一般的にそうだというわけではないが、このような領域は、全てが均一(例えば32×32)でもよいし、不均等でもよい。イントラ予測において、あるフレームにおける現領域または現ブロックの画素は、他のフレームの画素を一切参照せずに、同一フレーム中の、以前に符号化された近傍の領域からの画素に基づいて予測する。ある実施形態において、L(m,n),jは、m=0,n=0を左上の角として、第j番目フレーム中の第m列n行に位置する第(m,n)HDR領域を表すものとする。ビット深度Bを有するこのような領域中のHDR画素を、v(m,n),j(x,y)と表す。F(m,n),j()は、この領域に対する順方向再構成関数を表し、B(m,n),j()は、これに対応する逆方向再構成関数を表すものとする。ターゲットビット深度Bにおける再構成画素または量子化画素(212)を、
Figure 2018514145
と表す。このとき、逆方向再構成関数から復元された画素(237)は、
Figure 2018514145
と表すことができる。
順方向再構成関数F(m,n),j()の構築は、現領域L(m,n),j中の全画素についてのダイナミックレンジに加えて、近傍領域における全ての参照画素のダイナミックレンジを考慮に入れる必要がある。ある実施形態において、当該フレーム中の現ブロックの位置によって、5つの異なるシナリオが存在する。すなわち、
・いずれの近傍も利用不能である。例えば、現ブロックは、フレームの左上角にある(例えば、現ブロックはブロック(405))。
・一個の左近傍が利用可能(例えば、現ブロックは、ブロック(410)または(415))である。このとき、
Figure 2018514145
の画素が利用可能である。
・上および右上の近傍のみが利用可能(例えば、現ブロックがブロック(420))である。このとき、
Figure 2018514145
の画素が利用可能である。
・左、左上、上、および右上の近傍のみが利用可能(例えば、現ブロックがブロック(425))である。このとき、画素
Figure 2018514145
が、利用可能である。
・左、左上、および上の近傍のみが利用可能(例えば、現ブロックがブロック(430))である。このとき、画素
Figure 2018514145
が、利用可能である。
Θ(m,n),jは、利用可能な復元された近傍のブロックからの、予測参照のために利用される画素の集合を表すものとする。ある実施形態において、最初のステップは、L(m,n),jとΘ(m,n),jの両方における画素についての全ダイナミックレンジを決定することを含む。
Figure 2018514145
は、これらの全画素の和集合を表すものとする。ある実施形態において、
Figure 2018514145
は、Ω(m,n),j中の最大および最小の画素値を表すものとする。s (m,n),jおよびs (m,n),jは、ターゲットビット深度における対応する最小および最大の画素値を表すものとする。いくつかの実施形態において、これらの値は、フレーム全体について、またはさらにシーン全体もしくは映像シーケンス全体についてさえ、一定であってもよい。例えば、ある実施形態において、s (m,n),j=0であり、例えばB=8においてはs (m,n),j=255、B=10においてはs (m,n),j=1023であり、これは最大の可能な適正値を表す。一例として、線形ストレッチ法を仮定すると、順方向再構成関数は、
Figure 2018514145
と表され得る。デコーダは、入力および出力の境界点(例えば、v (m,n),jおよびv (m,n),j)が既知ならば、逆方向再構成関数を復元できる。しかし、このような態様によれば、多大なオーバーヘッドが発生するゆえに全体的な符号化効率が低下し得る。ある実施形態において、予め決定されたクラスタリングを使用して成形パラメータをグループ化することにより、このオーバーヘッドを低減することが可能である。
K(例えば、K=1024、8096など)間隔のv (m,n),jおよびv (m,n),jの値を考える。例えば、これらの値を
Figure 2018514145
に丸めることによって規定されるものを考える。これらの丸め値を、G個のグループへとさらにクラスタリングすることができ、各グループは、ある最適化基準に従って、ある代表値で代表される。例えば、ある実施形態において、K平均クラスタリングアルゴリズム(K−mean clustering algorithm)を使用することにより、ある一つのグループにおける
Figure 2018514145
の代表値はそのグループにおける最大値であるべきであり、かつ、ある一つのグループにおける
Figure 2018514145
の代表値はそのグループにおける最小値であるべきであるという制約の下で、クラスタリング歪みを最小化することが可能である。例えば、Ψg,jがグループgにおけるL(m,n),jブロックの集合を表すとすると、代表値は、
Figure 2018514145
のように算出し得る。
グループの数Gは、領域中のダイナミックレンジを表現する正確度と、オーバーヘッドとのトレードオフを表す。代表値は、グループインデックス(例えばg)(g=0,1,2, ,G−1など)を介してアクセスされるテーブルに格納してもよい。これらの代表値は、当該分野で公知のロスレス符号化技術のいずれかを使用して、さらに符号化することができる。また、各フレームについて、ある有限の数であるG個のクラスタのみが存在するので、後により詳細に説明するように、これらは各フレームの最初に予め算出しておくことが可能なことにも、留意されたい。同様の技術を、‘925出願に記載されているような、他の再構成方式に適用してもよい。
逆方向再構成関数は、エンコーダとデコーダの両方において必要であり、順方向再構成関数のパラメータに基づいて生成される。例えば、式(4)の線形再構成関数について、逆再構成関数は、
Figure 2018514145
のように算出し得る。他の実施形態において、区分的な線形または非線形の多項式により、逆方向再構成関数を近似してもよい。これらの多項式の係数は、メタデータ(213)として、エンコーダからデコーダへと送信され得る。クラスタベースの順方向再構成関数の場合、考えている各時間間隔(例えば、フレームまたはシーン)について、エンコーダにおけるG個のクラスタの各々に対して、逆方向再構成のための対応するルックアップテーブル(LUT)を生成してもよい。これにより、適正な逆方向再構成関数を容易に識別することができる。表1Aは、ある実施形態による、ループ内でのイントラ予測に必要なステップの概要の例を示す。これに対応する復号化ステップは、表1Bに列挙する。
Figure 2018514145
Figure 2018514145
順方向再構成に関するパラメータを送信する際のオーバーヘッドを低減するために、前述のように、順方向および逆方向再構成関数の最大の可能な組数を制限(例えば、G組に)してもよい。表2Aおよび2Bは、ある実施形態による、ループ内でのイントラ予測、符号化、および復号化のために必要なステップの概要の例を示す。
Figure 2018514145
Figure 2018514145
Figure 2018514145
インター予測のためのループ内再構成
本明細書において、「インター符号化」(inter coding)の用語は、あるピクチャにおける符号化領域を、当該ピクチャの外側の符号化要素(サンプル値および動きベクトルなど)を使用して符号化することを指す。インター符号化において、現ピクチャの画素は、表示順で過去(prior)および/または将来のフレームの画素に基づき、動き予測および動き補償を使用して符号化することができる。j+rを、j番目のフレームにおけるある領域L(m,n),jのための参照フレームであるものとする。ここで、rは、正または負の整数である。対応する位置の(collocated)ブロックは、L(m,n),j+rと表せる。
Figure 2018514145
は、L(m,n),j領域の画素を予測するために使用されるある動きベクトルmv(m,n),(j,j+r)に対応付けられた画素の集合を表すものとする。参照フレームにおける、サイズW×W(64×64など)を有する、この動きベクトルの探索窓(search window)を仮定する。この窓における画素集合を、Γ(m,n),(j,j+r)と表す。限定はしないが、参照ブロック中の画素のダイナミックレンジに依存する順方向再構成関数を想定すると、先程と同様に、最小および最大の画素値は、
Figure 2018514145
のように算出し得る。ある実施形態において、順方向および逆方向の再構成関数は、式(4)および(7)によって生成できる。現ブロックおよび参照ブロックを再構成ドメインへと変換した後、映像エンコーダは、例えば、変換符号化、量子化、およびエントロピー符号化を適用することにより、旧式エンコーダのツールを使用して符号化されることになる残差を生成することが可能である。
イントラ予測モードにおける場合と同じく、クラスタリング技術を適用することにより、順方向および逆方向の再構成関数用のパラメータに関するオーバーヘッドを低減し得る。表3Aおよび3Bは、ある実施形態による、ループ内でのインター予測、符号化、および復号化のために必要なステップの概要の例を示す。
Figure 2018514145
Figure 2018514145
Figure 2018514145
再構成関数のクラスタリング
前述のように、再構成関数の個数を制限(例えば、計G個に)することにより、順方向および逆方向再構成関数の復元に関するパラメータをデコーダに伝達するために必要とされるオーバーヘッドを低減し得る。このようなグルーピングまたはクラスタリング方式の例を、本節に提示する。
まず、着目する符号化領域中の最小および最大の画素値(例えば、v (m,n),j,v (m,n),j)によって完全に決定され得る再構成関数について考える。議論をわかり易くするために、
Figure 2018514145
であるものとする。ここで、c=1,2,…,Cは、各(m,n)領域に固有のインデックスを表す。ある実施形態において、
Figure 2018514145
は、ac,jおよびbc,jの値の関数、例えば、これらの差(例えば、ac,j−bc,j)、比(例えば、ac,j/bc,j)、対数比などを表す。いくつかの実施形態において、γc,j関数はまた、領域中の画素の平均値、中央値、分散、標準偏差、またはエントロピーなどの、画素領域cについての他の代表値によって決定してもよい。
整列(Sorting)に基づくクラスタリング
ある実施形態において、クラスタリングは、a)αc,j、βc,j、またはγc,jを整列させること、およびその後、b)全ての整列されたC個のブロックをG個のグループ(G<C)に分割すること、に基づく。例えば、Ψg,jはグループgを表すものとする。但し、g=0,1,2,…,G−1である。このとき、各グループにおける画素極値(extreme pixels values)によって、各グループの再構成関数のための境界値を決定し得る。例えば、ある実施形態において、αc,j値を昇順に整列させてもよい。{t,t, .... ,tC−1}は、各ブロックの整列順を表すものとする。1番目のグループΨ0,jは、インデックス{t,t, ....t(C/G)−1}を有するブロックを含んでおり、ブロックtにおけるαc,j値に対応する最小値α(0)をもつ。2番目のグループΨ1,jは、インデックス{t(C/G),t(C/G)+1, ....t2(C/G)−1}を有するブロックを含んでおり、ブロックt(C/G)におけるαc,j値に対応する最小値α(1)をもつ。最終グループΨG−1,jは、ブロックインデックス{t((G−1)C/G),t((G−1)C/G)+1, ....t(C−1)}を有するブロックを含んでおり、ブロックt((G−1)C/G)におけるαc,jに対応する最小値α(G−1)をもつ。各グループにおいて、最小の高ビット深度値および最小の高ビット深度値は、
Figure 2018514145
のように求めることが可能である。
同様に、他の実施形態において、Ψg,jグループは、まずβc,jおよびγc,j値を整列させておき、次に適切なグルーピングを作成することによって構築してもよい。
別のクラスタリング方式
ある別の実施形態において、各フレームは、初めからG個のオーバーラップしない領域に分割される。その後、これらG個の領域の各々の特性に基づいて、各グループの再構成関数が設計される。
他の実施形態において、各フレームは、P個のサブ領域に分割される。但し、Pは、Gよりも大きい。これらP個のサブ領域の各々について、αc,j、βc,j、および/またはγc,j値を算出し得る。このようなサブ領域の2つが類似の(例えば、予め設定された閾値以内の)αc,j、βc,j、またはγc,jを有する場合は、これらを併合することが可能である。サブ領域は、G個のサブ領域のみが残るようになるまで併合され得る。
知覚的ノイズのメトリックに基づく順方向再構成
‘925出願において、再構成は、人間の視覚システムのノイズに対する感度に応じた、コンテンツ適応的な量子化を使用して実行される。まず、各画素に対し、許容可能な知覚的ノイズのレベルが判断される。次に、これらのノイズレベルがM個の階級(bins)に整理される。そして最後に、これらM個の階級の各々の特性に応じて、各画素に対する量子化または再構成が決定される。H(m,n),j(x,y)が、各画素v(m,n),j(x,y)に対応付けられた上記のノイズレベルを表すものとする。このとき、各符号化領域L(m,n),jにおいて、
Figure 2018514145
は、各階級qにおける最小の許容可能なノイズレベルを表す。
G個の符号化領域が与えられたとき、グループgについて、
Figure 2018514145
は、このグループに割り当てられた全ての符号化領域についての、最小の許容可能なノイズレベルを表すものとする。
全階級について{bg,j(q)}値が与えられると、‘952出願に説明されている、グループΨg,jのための順方向および逆方向の再構成関数を構築することが可能である。これらの再構成関数の各々は、グループID番号g=0,1,…,G−1に対応付けられることになる。グループは、前述のものと同様のクラスタリング技術を使用して構築することができる。例えば、b(m,n),j(q)値を整列させることによって構築してもよいし、類似のb(m,n),j(q)値を有するサブ領域を併合することによって構築してもよい。例えば、ある実施形態において、限定するわけではないが、
Figure 2018514145
は、2ブロック間の、対応するノイズ値による類似性の尺度(measure of similarity)を表すものとし、
Figure 2018514145
は、ブロック(m,n)とグループgにおける代表ブロックとの間の、対応するノイズ値による類似性の尺度を表すものとする。このとき、表4は、G個のグループを決定するためのプロセスの一例を、擬似コードの形で示す。
Figure 2018514145
コンピュータシステム実装例
本発明の実施形態は、コンピュータシステム、電子回路およびコンポーネントで構成されたシステム、マイクロコントローラ、フィールドプログラマブルゲートアレイ(FPGA)または他のコンフィギュラブルまたはプログラマブルロジックデバイス(PLD)、離散時間またはデジタル信号プロセッサ(DSP)、特定用途向けIC(ASIC)などの集積回路(IC)デバイス、および/または、このようなシステム、デバイスまたはコンポーネントを1つ以上含む装置、を用いて実施し得る。このコンピュータおよび/またはICは、本明細書に記載のようなループ内での適応的な再構成プロセスに関する命令を行い、制御し、または実行し得る。このコンピュータおよび/またはICは、本明細書に記載のループ内での適応的な再構成プロセスに関する様々なパラメータまたは値のいずれを演算してもよい。画像およびビデオ実施形態は、ハードウェア、ソフトウェア、ファームウェア、および、その様々な組み合わせで実施され得る。
本発明の特定の態様は、本発明の方法をプロセッサに行わせるためのソフトウェア命令を実行するコンピュータプロセッサを含む。例えば、ディスプレイ、エンコーダ、セットトップボックス、トランスコーダなどの中の1つ以上のプロセッサは、そのプロセッサがアクセス可能なプログラムメモリ内にあるソフトウェア命令を実行することによって、上記のようなループ内での適応的な再構成プロセスに関する方法を実装し得る。本発明は、プログラム製品形態で提供されてもよい。このプログラム製品は、データプロセッサによって実行された時に本発明の方法をデータプロセッサに実行させるための命令を含む1セットの、コンピュータ読み取り可能な信号を格納する任意の非一時的媒体を含み得る。本発明によるプログラム製品は、様々な形態をとり得る。例えば、このプログラム製品は、フロッピーディスク、ハードディスクドライブを含む磁気データ記憶媒体、CD ROM、DVDを含む光学データ記憶媒体、ROM、フラッシュRAMなどを含む電子データ記憶媒体、などの物理的媒体を含み得る。このプログラム製品上のコンピュータ可読信号は、任意に、圧縮または暗号化されていてもよい。
上記においてあるコンポーネント(例えば、ソフトウェアモジュール、プロセッサ、アセンブリ、デバイス、回路など)に言及している場合、そのコンポーネントへの言及(「手段」への言及を含む)は、そうでないと明記されている場合を除いて、当該コンポーネントの機能を果たす(例えば、機能的に均等である)あらゆるコンポーネント(上記した本発明の例示的な実施形態に出てくる機能を果たす開示構造に対して構造的に均等ではないコンポーネントも含む)を、当該コンポーネントの均等物として、含むものと解釈されるべきである。
均等物、拡張物、代替物、その他
効率的なループ内での適応的再構成プロセスに関する例示的な実施形態を上述した。この明細書中において、各実装毎に異なり得る多数の具体的な詳細に言及しながら本発明の実施形態を説明した。従って、本発明が如何なるものかおよび出願人は本発明が如何なるものであると意図しているかについての唯一且つ排他的な指標は、後の訂正を含む、これら請求項が生じる具体的な形態の、本願から生じる1組の請求項である。当該請求項に含まれる用語に対して本明細書中に明示したあらゆる定義が、請求項内で使用される当該用語の意味を決定するものとする。よって、請求項に明示的に記載されていない限定事項、構成要素、特性、特徴、利点または属性は、いかなる形であれ請求の範囲を限定するものではない。従って、本明細書および図面は、限定的ではなく、例示的であると認識されるべきものである。

Claims (17)

  1. エンコーダを用いたループ内再構成のための方法であって、
    入力ビット深度における入力画像にアクセスすることと、
    前記入力ビット深度における前記入力画像の、ある符号化領域(207)について、
    前記符号化領域のための順方向再構成関数(310)および逆方向再構成関数(335)を、生成または選択することと、
    前記入力ビット深度における参照画素データ(237)にアクセスすることと、
    前記参照画素データおよび前記符号化領域の画素データに前記順方向再構成関数(310)を適用することにより、ターゲットビット深度における第2の参照データおよび第2の符号化領域画素データ(212)を生成することであって、前記ターゲットビット深度は前記入力ビット深度以下である、生成することと
    前記第2の参照データおよび前記第2の符号化領域画素データをエンコーダで符号化(315)することにより、前記ターゲットビット深度における符号化ビットストリーム(317)を生成することと、
    前記エンコーダを使用して、前記符号化ビットストリームのループ内復号化に基づき、復元データを生成(325)することと、
    前記復元データ(232)に前記逆方向再構成関数(335)を適用することにより、前記入力ビット深度における将来の参照データ(237)を生成することと、
    を含む方法。
  2. 前記符号化ビットストリームを、前記順方向再構成関数および/または前記逆方向再構成関数を特徴付けるメタデータで多重化することをさらに含む、請求項1に記載の方法。
  3. 前記第2の参照データおよび前記第2の符号化領域データをエンコーダで符号化することにより、前記ターゲットビット深度における符号化ビットストリームを生成することは、
    前記第2の参照データおよび前記第2の符号化領域データに基づいて、イントラ予測またはインター予測を実行することにより、予測データを生成すること、
    をさらに含む、請求項1に記載の方法。
  4. 前記第2の参照データおよび前記第2の符号化領域データをエンコーダで符号化することにより、前記ターゲットビット深度における符号化ビットストリームを生成することは、
    前記第2の参照データおよび前記第2の符号化領域データに基づいて、イントラまたはインター予測を実行することにより、予測データを生成することと、
    前記予測データに符号化変換を適用することにより、変換された予測データを生成することと、
    前記変換された予測データに量子化を適用することにより、量子化データを生成することと、
    前記量子化データにエントロピー符号化を適用することにより、前記符号化ビットストリームを生成することと、
    を含む、請求項1に記載の方法。
  5. 前記符号化ビットストリームのループ内復号化に基づき、前記復元データを生成することは、
    前記量子化データに逆量子化を適用することにより、逆量子化データを生成することと、
    前記逆量子化データに逆変換を適用することにより、推定予測データを生成することと、
    前記推定予測データに基づき、前記復元データを生成することと、
    をさらに含む、請求項4に記載の方法。
  6. 前記符号化領域のための順方向再構成関数および逆方向再構成関数を、生成または選択することは、
    前記入力画像を複数の符号化領域に分割することと、
    前記複数の符号化領域をG個のグループにクラスタリングすることであって、Gは、2よりも大きく、かつ前記複数の符号化領域の総数以下である、クラスタリングすることと、
    前記G個のグループの各々について、順方向再構成関数および逆方向再構成関数を生成することと、
    ある選択基準に従って、前記符号化領域のために、前記G組の順方向および逆方向の再構成関数のうちの1組を選択することと、
    をさらに含む、請求項1に記載の方法。
  7. 前記複数の符号化領域をG個のグループにクラスタリングすることは、
    各符号化領域における複数の画素値の関数を算出することにより、複数の符号化領域メトリックを生成することと、
    前記複数の符号化領域メトリックを整列させることと、
    整列された前記複数の符号化領域メトリックに基づき、前記G個のグループを生成することと、
    をさらに含む、請求項6に記載の方法。
  8. 前記複数の符号化領域をG個のグループにクラスタリングすることは、
    各符号化領域における複数の画素値の関数を算出することにより、複数の符号化領域メトリックを生成することと、
    2つの符号化領域に対応する符号化領域メトリックがある類似度基準に従って類似している場合には、前記2つの符号化領域を同一グループに割り当てることと、
    をさらに含む、請求項6に記載の方法。
  9. 符号化領域メトリックは、前記符号化領域における最小画素値、前記符号化領域における最大画素値、または前記符号化領域における最小画素値および最大画素値の関数のうちの1つである、請求項7または請求項8に記載の方法。
  10. 符号化領域メトリックは、前記符号化領域における複数の画素に対する1組の最小の知覚的ノイズレベルを含む、請求項7または請求項8に記載の方法。
  11. 符号化領域メトリックは、前記符号化領域における画素値の平均、分散、標準偏差、またはエントロピーのうち1つである、請求項7または8に記載の方法。
  12. 前記複数の符号化領域をG個のグループにクラスタリングすることは、
    人間の視覚システムのノイズ知覚基準に従って、各符号化領域に対する複数のノイズ階級値を決定することと、
    2つの符号化領域間の類似性の尺度に基づいて前記G個のグループを決定することであって、前記類似性尺度は、前記2つの符号化領域における前記複数のノイズ階級値の関数に基づく、決定することと、
    をさらに含む、請求項6に記載の方法。
  13. デコーダにおける逆方向のループ内再構成のための方法であって、
    ターゲットビット深度における符号化ビットストリームにアクセスすることと、
    前記符号化ビットストリームにおける各符号化領域のための順方向再構成関数および/または逆方向再構成関数を特徴付けるデータにアクセスすることと、
    前記符号化ビットストリームにおける、ある符号化領域について、
    前記符号化領域のための順方向再構成関数および逆方向再構成関数を割り当てることと、
    出力ビット深度における参照データにアクセスすることであって、前記出力ビット深度は前記ターゲットビット深度以上である、アクセスすることと、
    前記参照データに前記順方向再構成関数(310)を適用することにより、前記ターゲットビット深度における第2の参照データ(272)を生成することと、
    デコーダを使用して、前記符号化ビットストリームデータおよび前記第2の参照データに基づき、前記符号化領域に対する、前記ターゲットビット深度における復号化画素データ(257)を生成することと、
    前記復号化画素データに前記逆方向再構成関数(335)を適用することにより、前記出力ビット深度における、出力データ(269)および将来の参照データを生成することと、
    を含む方法。
  14. 前記符号化ビットストリームデータおよび前記第2の参照データに基づき、前記符号化領域に対する復号化画素データ(257)を生成することは、
    前記第2の参照データに基づき、前記符号化ビットストリームにインター復号化またはイントラ復号化を適用すること、
    をさらに含む、請求項13に記載の方法。
  15. インター復号化またはイントラ復号化を適用することは、
    前記符号化ビットストリームデータにエントロピー復号化を適用することにより、エントロピー復号化データを生成することと、
    前記エントロピー復号化データに逆量子化を適用することにより、逆量子化データを生成することと、
    前記量子化データに逆変換を適用することにより、逆変換データを生成することと、
    前記逆変換データと前記第2の参照データとを組み合わせることにより、前記復号化画素データを生成することと、
    をさらに含む、請求項14に記載の方法。
  16. プロセッサを備え、請求項1から15に記載の方法のいずれかを実行するように構成された装置。
  17. 請求項1から15のいずれかによる方法を実行するためのコンピュータ実行可能命令を格納した、非一時的なコンピュータ可読記憶媒体。
JP2017552806A 2015-04-06 2016-03-30 ハイダイナミックレンジ映像符号化における、ループ内ブロックベース画像再構成 Active JP6383116B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US201562143478P 2015-04-06 2015-04-06
US62/143,478 2015-04-06
PCT/US2016/025082 WO2016164235A1 (en) 2015-04-06 2016-03-30 In-loop block-based image reshaping in high dynamic range video coding

Publications (2)

Publication Number Publication Date
JP2018514145A true JP2018514145A (ja) 2018-05-31
JP6383116B2 JP6383116B2 (ja) 2018-08-29

Family

ID=55699846

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2017552806A Active JP6383116B2 (ja) 2015-04-06 2016-03-30 ハイダイナミックレンジ映像符号化における、ループ内ブロックベース画像再構成

Country Status (5)

Country Link
US (1) US10015491B2 (ja)
EP (1) EP3281409B1 (ja)
JP (1) JP6383116B2 (ja)
CN (2) CN109068139B (ja)
WO (1) WO2016164235A1 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2021521678A (ja) * 2018-04-13 2021-08-26 インターデジタル ヴイシー ホールディングス, インコーポレイテッド 奥行きの符号化及び復号化方法及び装置

Families Citing this family (28)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107771392B (zh) * 2015-06-30 2021-08-31 杜比实验室特许公司 用于高动态范围图像的实时内容自适应感知量化器
EP3142363A1 (en) * 2015-09-08 2017-03-15 Thomson Licensing Methods and devices for encoding and decoding a sequence of pictures, and corresponding computer program product and computer-readable medium
EP3386198A1 (en) 2017-04-07 2018-10-10 Thomson Licensing Method and device for predictive picture encoding and decoding
CN110301134B (zh) 2017-06-29 2024-02-06 杜比实验室特许公司 整合的图像整形和视频编码
WO2019036522A1 (en) 2017-08-15 2019-02-21 Dolby Laboratories Licensing Corporation EFFICIENT IMAGE PROCESSING IN BIT DEPTH
EP3669542B1 (en) * 2017-08-15 2023-10-11 Dolby Laboratories Licensing Corporation Bit-depth efficient image processing
EP3753253A1 (en) * 2018-02-14 2020-12-23 Dolby Laboratories Licensing Corporation Image reshaping in video coding using rate distortion optimization
JP7189230B2 (ja) 2018-04-09 2022-12-13 ドルビー ラボラトリーズ ライセンシング コーポレイション ニューラルネットワークマッピングを用いるhdr画像表現
US10757428B2 (en) * 2018-10-10 2020-08-25 Apple Inc. Luma and chroma reshaping of HDR video encoding
WO2020086421A1 (en) * 2018-10-25 2020-04-30 Interdigital Vc Holdings, Inc. Video encoding and decoding using block-based in-loop reshaping
US10769039B2 (en) * 2018-12-03 2020-09-08 Himax Technologies Limited Method and apparatus for performing display control of a display panel to display images with aid of dynamic overdrive strength adjustment
US11647188B2 (en) * 2019-01-04 2023-05-09 Interdigital Vc Holdings, Inc. Inverse mapping simplification
WO2020156534A1 (en) 2019-02-01 2020-08-06 Beijing Bytedance Network Technology Co., Ltd. Interactions between in-loop reshaping and intra block copy
CN113383547A (zh) 2019-02-01 2021-09-10 北京字节跳动网络技术有限公司 环路整形和帧间编解码工具之间的相互作用
WO2020177703A1 (en) 2019-03-04 2020-09-10 Beijing Bytedance Network Technology Co., Ltd. Signaling of filtering information in video processing
JP7203241B2 (ja) * 2019-03-08 2023-01-12 北京字節跳動網絡技術有限公司 映像処理における再整形情報の信号伝達
BR112021016736A2 (pt) * 2019-03-13 2021-10-13 Interdigital Vc Holdings, Inc. Direção de remodelador adaptativa para a remodelagem in-loop
EP3709655A1 (en) * 2019-03-13 2020-09-16 InterDigital VC Holdings, Inc. In-loop reshaping adaptive reshaper direction
CN113574889B (zh) 2019-03-14 2024-01-12 北京字节跳动网络技术有限公司 环路整形信息的信令和语法
WO2020182219A1 (en) * 2019-03-14 2020-09-17 Beijing Bytedance Network Technology Co., Ltd. Signaling and syntax for in-loop reshaping information
JP7417624B2 (ja) * 2019-03-23 2024-01-18 北京字節跳動網絡技術有限公司 適応ループフィルタリングパラメータセットに対する制限
WO2020211862A1 (en) 2019-04-18 2020-10-22 Beijing Bytedance Network Technology Co., Ltd. Restriction on applicability of cross component mode
AU2020263199B2 (en) 2019-04-23 2023-10-19 Beijing Bytedance Network Technology Co., Ltd. Methods for cross component dependency reduction
BR112021021661A2 (pt) 2019-05-08 2021-12-21 Beijing Bytedance Network Tech Co Ltd Método e aparelho para processar dados de vídeo, e, meios de armazenamento e de gravação legíveis por computador não transitórios
US11122270B2 (en) * 2019-06-05 2021-09-14 Dolby Laboratories Licensing Corporation In-loop reshaping with local illumination compensation in image coding
CN113994697A (zh) 2019-06-22 2022-01-28 北京字节跳动网络技术有限公司 色度残差缩放的语法元素
EP3977738A4 (en) 2019-07-07 2022-08-17 Beijing Bytedance Network Technology Co., Ltd. SIGNALING OF CHROMA RESIDUAL SCALE
EP4032276A1 (en) * 2019-09-17 2022-07-27 InterDigital VC Holdings France, SAS Chroma residual scaling foreseeing a corrective value to be added to luma mapping slope values

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2007139534A1 (en) * 2006-05-25 2007-12-06 Thomson Licensing Method and system for weighted encoding
JP2011176407A (ja) * 2010-02-23 2011-09-08 Nippon Telegr & Teleph Corp <Ntt> 画像符号化装置,画像復号装置,画像符号化方法,画像復号方法およびそれらのプログラム
WO2013103522A1 (en) * 2012-01-03 2013-07-11 Dolby Laboratories Licensing Corporation Specifying visual dynamic range coding operations and parameters
WO2014160705A1 (en) * 2013-03-26 2014-10-02 Dolby Laboratories Licensing Corporation Encoding perceptually-quantized video content in multi-layer vdr coding
WO2014204865A1 (en) * 2013-06-17 2014-12-24 Dolby Laboratories Licensing Corporation Adaptive reshaping for layered coding of enhanced dynamic range signals

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101701342B1 (ko) * 2009-08-14 2017-02-01 삼성전자주식회사 적응적인 루프 필터링을 이용한 비디오의 부호화 방법 및 장치, 비디오 복호화 방법 및 장치
KR101750046B1 (ko) * 2010-04-05 2017-06-22 삼성전자주식회사 트리 구조에 따른 부호화 단위에 기반한 인루프 필터링을 수반하는 비디오 부호화 방법과 그 장치 및 복호화 방법과 그 장치
EP2719176B1 (en) * 2011-06-13 2021-07-07 Dolby Laboratories Licensing Corporation Visual display resolution prediction based on fused regions
WO2013009716A2 (en) * 2011-07-08 2013-01-17 Dolby Laboratories Licensing Corporation Hybrid encoding and decoding methods for single and multiple layered video coding systems
US10419762B2 (en) 2015-03-02 2019-09-17 Dolby Laboratories Licensing Corporation Content-adaptive perceptual quantizer for high dynamic range images

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2007139534A1 (en) * 2006-05-25 2007-12-06 Thomson Licensing Method and system for weighted encoding
JP2011176407A (ja) * 2010-02-23 2011-09-08 Nippon Telegr & Teleph Corp <Ntt> 画像符号化装置,画像復号装置,画像符号化方法,画像復号方法およびそれらのプログラム
WO2013103522A1 (en) * 2012-01-03 2013-07-11 Dolby Laboratories Licensing Corporation Specifying visual dynamic range coding operations and parameters
WO2014160705A1 (en) * 2013-03-26 2014-10-02 Dolby Laboratories Licensing Corporation Encoding perceptually-quantized video content in multi-layer vdr coding
WO2014204865A1 (en) * 2013-06-17 2014-12-24 Dolby Laboratories Licensing Corporation Adaptive reshaping for layered coding of enhanced dynamic range signals

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2021521678A (ja) * 2018-04-13 2021-08-26 インターデジタル ヴイシー ホールディングス, インコーポレイテッド 奥行きの符号化及び復号化方法及び装置
JP7445601B2 (ja) 2018-04-13 2024-03-07 インターデジタル ヴイシー ホールディングス, インコーポレイテッド 奥行きの符号化及び復号化方法及び装置

Also Published As

Publication number Publication date
EP3281409A1 (en) 2018-02-14
WO2016164235A1 (en) 2016-10-13
JP6383116B2 (ja) 2018-08-29
EP3281409B1 (en) 2019-05-01
CN109068139B (zh) 2022-02-22
CN107439012B (zh) 2018-09-25
CN107439012A (zh) 2017-12-05
US20180124399A1 (en) 2018-05-03
CN109068139A (zh) 2018-12-21
US10015491B2 (en) 2018-07-03

Similar Documents

Publication Publication Date Title
JP6383116B2 (ja) ハイダイナミックレンジ映像符号化における、ループ内ブロックベース画像再構成
KR101939012B1 (ko) 하이 다이내믹 레인지 이미지들을 위한 콘텐츠 적응적 지각 양자화기
CN110301134B (zh) 整合的图像整形和视频编码
US10575005B2 (en) Video coding and delivery with both spatial and dynamic range scalability
US10032262B2 (en) Block-based content-adaptive reshaping for high dynamic range images
JP6038360B2 (ja) エンハンストダイナミックレンジ信号の階層符号化のための適応的再構成
IL305463A (en) Image reshaping in video encoding using rate warping optimization
US10223774B2 (en) Single-pass and multi-pass-based polynomial approximations for reshaping functions
JP6876822B2 (ja) ルミナンス情報を用いた量子化パラメーター予測
JP2019523578A (ja) ハイダイナミックレンジ画像のためのクロマ再構成
US11341624B2 (en) Reducing banding artifacts in HDR imaging via adaptive SDR-to-HDR reshaping functions
US20210377539A1 (en) In-loop reshaping with local illumination compensation in image coding
JP6320644B2 (ja) エンハンストダイナミックレンジを備える信号のための階層間予測
CN116034394A (zh) 假轮廓减轻的自适应流式传输
Naccari et al. Perceptually optimized video compression

Legal Events

Date Code Title Description
A975 Report on accelerated examination

Free format text: JAPANESE INTERMEDIATE CODE: A971005

Effective date: 20180313

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20180320

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20180619

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20180710

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20180802

R150 Certificate of patent or registration of utility model

Ref document number: 6383116

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250