JP7037584B2 - 効率的なエンド・ツー・エンドシングルレイヤー逆ディスプレイマネジメント符号化 - Google Patents

効率的なエンド・ツー・エンドシングルレイヤー逆ディスプレイマネジメント符号化 Download PDF

Info

Publication number
JP7037584B2
JP7037584B2 JP2019569766A JP2019569766A JP7037584B2 JP 7037584 B2 JP7037584 B2 JP 7037584B2 JP 2019569766 A JP2019569766 A JP 2019569766A JP 2019569766 A JP2019569766 A JP 2019569766A JP 7037584 B2 JP7037584 B2 JP 7037584B2
Authority
JP
Japan
Prior art keywords
sdr
image
edr
metadata
display
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2019569766A
Other languages
English (en)
Other versions
JP2020524446A (ja
Inventor
ガドギル,ニーラジ,ジェイ.
スゥ,グワン‐ミーン
チェン,タオ
ユン ヨン リー,
Original Assignee
ドルビー ラボラトリーズ ライセンシング コーポレイション
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by ドルビー ラボラトリーズ ライセンシング コーポレイション filed Critical ドルビー ラボラトリーズ ライセンシング コーポレイション
Priority claimed from PCT/US2018/037313 external-priority patent/WO2018231968A1/en
Publication of JP2020524446A publication Critical patent/JP2020524446A/ja
Application granted granted Critical
Publication of JP7037584B2 publication Critical patent/JP7037584B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T5/00Image enhancement or restoration
    • G06T5/90Dynamic range modification of images or parts thereof
    • G06T5/92Dynamic range modification of images or parts thereof based on global image properties
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T5/00Image enhancement or restoration
    • G06T5/40Image enhancement or restoration using histogram techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T5/00Image enhancement or restoration
    • G06T5/60Image enhancement or restoration using machine learning, e.g. neural networks
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/169Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding
    • H04N19/186Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding the unit being a colour or a chrominance component
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/90Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using coding techniques not provided for in groups H04N19/10-H04N19/85, e.g. fractals
    • H04N19/98Adaptive-dynamic-range coding [ADRC]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20081Training; Learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20172Image enhancement details
    • G06T2207/20208High dynamic range [HDR] image processing

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Compression Or Coding Systems Of Tv Signals (AREA)
  • Image Processing (AREA)

Description

[関連出願への相互参照]
本出願は、2017年6月16日に出願された米国仮特許出願第62/520,832号および2017年6月16日に出願された欧州特許出願第17176416.0号に基づく優先権を主張するものであり、両出願の開示内容を本願に援用する。
本発明は、画像全般に関する。より詳細には、本発明のある実施形態は、効率的なエンド・ツー・エンドシングルレイヤー逆ディスプレイマネジメント(DM)符号化に関する。
本明細書において、「ダイナミックレンジ」(DR)という用語は、人間の視覚系(HVS)が画像においてある範囲の強度(例えば、輝度、ルマ)(例えば、最も暗い暗(黒)から最も明るい明(白)まで)を知覚する能力に関し得る。この意味では、DRは、「シーン-リファード(scene-referred)」な強度に関する。DRはまた、ディスプレイデバイスが特定幅を有する強度範囲を十分にまたは近似的に描画する能力にも関し得る。この意味では、DRは、ディスプレイ-リファード(display-referred)な強度に関する。本明細書中のいずれの箇所においても、一方の特定の意味が特に重要であると明示されない限り、この用語は、いずれの意味にも(例えば、交換可能に)使用できるものとする。
本明細書において、ハイダイナミックレンジ(HDR)という用語は、人間の視覚系(HVS)においておよそ14~15桁以上にわたるDR幅に関する。実際、人間は、幅広い強度範囲を同時に知覚し得るが、そのDRは、HDRに対して幾分端折られ得る。本明細書において、エンハンストダイナミックレンジ(EDR)または視覚ダイナミックレンジ(VDR)という用語は、個別にまたは交換可能に、人間の視覚系(HVS)(眼球運動を含み、シーンまたは画像全体においてある程度の明順応変化を可能にする)がシーンまたは画像において知覚可能なDRに関する。本明細書において、EDRは、5~6桁にわたるDRに関し得る。従って、EDRは、真のシーンリファードなHDRに対しては幾分狭いものの、広いDR幅を表し、HDRとも呼ばれ得る。
実際において、画像は1つ以上の色成分(例えば、ルマYならびにクロマCbおよびCr)を含み、各色成分は、1画素あたりnビットの精度(例えば、n=8)で表される。線形輝度符号化(linear luminance coding)を用いた場合、n≦8の画像(例えば、カラー24ビットJPEG画像)は、スタンダードダイナミックレンジの画像とされ、n>8の画像は、エンハンストダイナミックレンジの画像とされる。
あるディスプレイについてのリファレンス電気-光伝達関数(EOTF)は、入力映像信号の明度(color values)(例えば、輝度)間の関係を特徴づけて、そのディスプレイによって生成される出力スクリーン明度(例えば、スクリーン輝度)を出力する。例えば、その開示内容を全て本願に援用するITU Rec.ITU-R BT.1886、「Reference electro-optical transfer function for flat panel displays used in HDTV studio production」(2011年3月)は、フラットパネルディスプレイ用のリファレンスEOTFを定義している。映像ストリームについては、そのEOTFに関する情報が典型的にはメタデータとしてビットストリーム中に埋め込まれる。本明細書において、「メタデータ」という用語は、符号化ビットストリームの一部として送信され、デコーダによる復号化画像の描画を補助する、任意の補助情報に関する。そのようなメタデータは、本明細書において記載されるような、色空間または色域情報、リファレンスディスプレイパラメータ、および補助信号パラメータを含むが、これらに限定されない。
200~1,000cd/m2またはニトの輝度をサポートするディスプレイは、EDR(またはHDR)に対し、より低いダイナミックレンジ(LDR)(スタンダードダイナミックレンジ(SDR)とも呼ばれる)の典型例である。EDRコンテンツは、より高いダイナミックレンジ(例えば1,000ニトから5,000ニト以上)をサポートするEDRディスプレイ上に表示され得る。そのようなディスプレイは、高輝度能力(例えば、0~10,000ニトなど)をサポートする別のEOTFを用いて定義され得る。そのようなEOTFの一例が、その開示内容を全て本願に援用するSMPTE ST 2084:2014「High Dynamic Range EOTF of Mastering Reference Displays」(以下、「SMPTE」)に定義されている。本発明者らは、多様なSDRおよびHDRディスプレイデバイスの表示能力をサポートするために使用され得る映像データを符号化および復号化するための技術を向上させる必要があると考える。
本節に記載されたアプローチは、検討され得たアプローチではあるが、必ずしもこれまでに着想または検討されてきたアプローチではない。従って、特に断らない限り、本節に記載されたアプローチはいずれも、本節に記載されているというだけで従来技術とみなされるべきではない。同様に、特に断らない限り、1つ以上のアプローチに関して特定される問題が、本節に基づいて、いずれかの先行技術分野においてすでに認識されていると考えるべきではない。
本発明のある実施形態を添付の図面に、限定することなく、例示する。図において、同様の参照符号は、同様の要素を示す。
図1Aは、映像供給パイプラインのプロセス例を示す。 図1Bは、シングルレイヤー逆ディスプレイマネジメントコーデックアーキテクチャ例を示す。 図1Cは、シングルレイヤー逆ディスプレイマネジメントコーデックアーキテクチャ例を示す。 図1Dは、シングルレイヤー逆ディスプレイマネジメントコーデックアーキテクチャ例を示す。 図1Eは、シングルレイヤー逆ディスプレイマネジメントコーデックアーキテクチャ例を示す。 図1Fは、機械学習(ML)に基づくプロセス例を示す。 図1Gは、シングルレイヤー逆ディスプレイマネジメントコーデックアーキテクチャ例を示す。 図2Aは、逆方向再構成曲線の例を示す。 図2Bは、逆方向再構成曲線の例を示す。 図2Cは、逆方向再構成曲線の例を示す。 図2Dは、逆方向再構成曲線の例を示す。 図3は、1シーケンスの画像にわたる平均輝度値のプロット例を示す。 図4Aは、プロセスフロー例を示す。 図4Bは、プロセスフロー例を示す。 図4Cは、プロセスフロー例を示す。 図4Dは、プロセスフロー例を示す。 図5は、本明細書に記載するコンピュータまたはコンピューティングデバイスが実装され得るハードウェアプラットフォーム例の簡略化ブロック図を示す。
本明細書において、効率的なエンド・ツー・エンドシングルレイヤー逆ディスプレイマネジメント(DM)符号化を説明する。以下の説明において、便宜上、本発明を完全に理解できるように、多数の詳細事項を説明する。ただし、これらの詳細事項が無くても本発明が実施可能であることは明白であろう。他方、本発明の説明を不必要に煩雑にしたり、不明瞭にしたり、難読化したりしないように、周知の構造およびデバイスの細かな詳細までは説明しない。
[概要]
本明細書に記載される例示の実施形態は、コンポーザメタデータを用いたシングルレイヤー映像データの符号化に関する。SDR画像が受信される。SDR画像をEDR画像にマッピングするためにコンポーザメタデータが生成される。コンポーザメタデータは、訓練データベースにおける複数のSDR-EDR画像対から生成された逆方向再構成マッピングを特定する。複数のSDR-EDR画像対は、上記のSDR画像を含まない複数のSDR画像と、その複数のSDR画像に対応する複数のEDR画像とを含む。上記のSDR画像およびコンポーザメタデータは、出力SDR映像信号において符号化される。出力SDR映像信号の受信機とともに動作するEDRディスプレイに、EDRディスプレイ画像を描画させる。EDRディスプレイ画像は、コンポーザメタデータに基づいて上記のSDR画像から構成(compose)された構成(composed)EDR画像から導出される。
本明細書に記載に記載される例示の実施形態は、コンポーザメタデータを用いたシングルレイヤー映像データの復号化に関する。SDR画像およびコンポーザメタデータを用いて符号化されたSDR映像信号が受信される。コンポーザメタデータは、SDR画像を構成EDR画像にマッピングするために使用される。コンポーザメタデータは、訓練データベースにおける複数のSDR-EDR画像対から映像エンコーダによって生成された逆方向再構成マッピングを特定する。複数のSDR-EDR画像対は、上記のSDR画像を含まない複数のSDR画像と、その複数のSDR画像に対応する複数のEDR画像とを含む。SDR映像信号の受信機とともに動作するEDRディスプレイに、EDRディスプレイ画像を描画させる。EDRディスプレイ画像は、コンポーザメタデータに基づいて上記のSDR画像から構成された構成EDR画像から導出される。
[映像供給処理パイプライン例]
図1Aは、映像のキャプチャから映像コンテンツの表示までの種々の段階を示す、映像供給パイプライン(100)のプロセス例を示す。なお、本明細書に記載される技術は、図1Aに示すSDRコンテンツ生成方法など(これに限定されない)の種々のSDRコンテンツ生成方法を用いて行われ得る。いくつかの実施形態において、本明細書に記載されるSDRコンテンツは、図1Aに例示されるように、芸術的な意図を有するいずれのプロフェッショナルのスタジオ編集もカラーグレーディングも行われることなく、生成され得る。したがって、本明細書に記載される技術のうちの一部または全ては、SDRビットストリーム(例えば、単純SDRビットストリームなど)を入力として行われ得る。ビットストリームにおけるSDR画像は、カラーグレーディングされていてもよいし、カラーグレーディングされていなくてもよい。図1Aに例示するように、1シーケンスの映像フレーム(102)は、画像生成ブロック(105)を用いてキャプチャまたは生成される。映像フレーム(102)は、(例えば、デジタルカメラによって)デジタル的にキャプチャされるか、または(例えば、コンピュータアニメーションを用いて)コンピュータによって生成されることにより、映像データ(107)が得られ得る。あるいは、映像フレーム(102)は、銀塩カメラによってフィルム上にキャプチャされてもよい。フィルムがデジタルフォーマットに変換されることによって、映像データ(107)が得られる。プロダクションフェーズ(110)において、映像データ(107)は、編集され、映像プロダクションストリーム(112)を得る。
次いで、プロダクションストリーム(112)の映像データは、ポストプロダクション編集(115)のためのプロセッサに与えられる。ポストプロダクション編集(115)は、画像の特定の領域の色または明るさを調節または変更することにより、画質を上げたり、映像制作者の制作意図にしたがってその画像が特定の見え方をするようにしたりすることを含み得る。これは、「カラータイミング」あるいは「カラーグレーディング」と呼ばれることがある。ポストプロダクション編集(115)において、その他の編集(例えば、シーン選択およびシーケンシング、手動および/または自動シーンカット情報生成、画像クロッピング、コンピュータで生成された視覚的特殊効果の追加など)を行うことにより、SDR(または、比較的狭いダイナミックレンジの)画像の配信用のバージョン(117)を生成してもよい。ポストプロダクション編集(115)において、SDR画像(117)は、SDR画像(117)に対してポストプロダクション編集操作を行っているカラリストによって、リファレンスディスプレイ(125)上で視聴される。リファレンスディスプレイ(125)は、スタンダードダイナミックレンジ(または比較的狭いダイナミックレンジ)をサポートする。
ポストプロダクション編集(115)の後、SDR画像(117)は、例えば、(入力等)SDR YCbCr映像信号(例えば、8ビット映像信号など)として、符号化ブロック(120)に送られ得る。
符号化ブロック(120)は、SDR画像(117)についてのコンポーザメタデータおよびDMメタデータ(これらに限定されない)を含む画像メタデータを生成し、画像メタデータをSDR画像(117)とともに符号化ビットストリーム(122)に含める。いくつかの実施形態において、符号化ブロック(120)は、符号化ビットストリーム(122)を生成するための、ATSC、DVB、DVD、ブルーレイおよびその他の供給フォーマットによって規定されているような音声および映像エンコーダを含んでもよい。
符号化ビットストリーム(122)は、テレビジョン受像機、セットトップボックス、映画館などの下流の復号化・再生機器に送られることになる。いくつかの実施形態において、符号化ビットストリーム(122)は、ポストプロダクション編集(115)において生成されたときの芸術的な意図を保持するSDR画像(117)を用いて符号化される。
SDR画像(117)は、幅広い種類のSDRディスプレイデバイス(例えば、SDRディスプレイなど)に対して後方互換であり得る映像信号(例えば、8ビットSDR映像信号、10ビットSDR映像信号など)における映像データに符号化され得る。限定されないある例において、SDR画像(117)を用いて符号化された映像信号は、シングルレイヤー後方互換性のある映像信号であり得る。
符号化ビットストリーム(122)から抽出可能なコンポーザメタデータは、下流のデコーダによって使用され、SDR画像(117)に対して構成(composition)/予測演算を行い、EDRディスプレイデバイスにおける描画に対して最適化されたDR画像を生成し得る。
いくつかの実施形態において、符号化ビットストリーム(122)は、符号化ブロック(120)によって受信される入力SDR YCbCr映像信号と同じ映像信号フォーマットに準拠する映像信号である。例えば、符号化ブロック(120)によって受信された入力SDR YCbCr映像信号が8ビットSDR YCbCr映像信号である場合、符号化ブロック(120)によって出力される符号化ビットストリーム(122)は、符号化ブロック(120)によって生成されたコンポーザメタデータおよびDMメタデータを有する出力8ビットSDR YCbCr映像信号を表し得る。
いくつかの実施形態において、符号化ビットストリーム(122)は、符号化ブロック(120)によって受信される入力SDR YCbCr映像信号とは異なる映像信号フォーマットに準拠する映像信号である。例えば、符号化ブロック(120)によって受信される入力SDR YCbCr映像信号は、8ビットSDR YCbCr映像信号を表し得る。これに対して、符号化ブロック(120)によって出力される符号化ビットストリーム(122)は、出力10ビットSDR YCbCr映像信号を表し得る。出力10ビットSDR YCbCr映像信号は、8ビットSDR YCbCr映像信号における画像データに対して行われるビット深度スケーリング演算から部分的に導出され得る。
受信機(または、下流のデバイス)において、符号化ビットストリーム(122)は、復号化ブロック(130)によって復号化され、復号化画像182を生成する。復号化画像182は、SDR画像(117)(図1Gに例示されるビット深度に依存するコードワードスケーリングファクタを有し得る)と同じものであり得る。ただし、符号化ブロック(120)によって実行される圧縮の際、および復号化ブロック(130)によって実行される復元の際に量子化誤差が生じ得る。いくつかの実施形態において、受信機は、第1のターゲットディスプレイ(140-1)に取り付けられ得る。第1のターゲットディスプレイ(140-1)がリファレンスディスプレイ(125)のスタンダードダイナミックレンジ(または、比較的狭いダイナミックレンジ)をサポートする場合や、復号化画像(182)において表されるように、SDR画像(117)が芸術的コンテンツを用いて編集されている場合は、SDR画像(117)から導出された復号化画像(182)は、第1のターゲットディスプレイ(140-1)においてそのまま視聴可能である。
いくつかの実施形態において、受信機は、復号化SDR画像(182)によって表されるダイナミックレンジ(例えば、SDRなど)よりも高いダイナミックレンジ(例えば、EDRなど)をサポートする第2のターゲットディスプレイ(140)に取り付けられ得る。その場合、復号化ブロック(130)は、構成/予測演算を、復号化SDR画像(182)に加えてコンポーザメタデータに基づいて、SDR画像(117)(または、おそらくは図1Gに示すようにビット深度に依存するコードワードスケーリングファクタを伴う復号化SDR画像(182))に対して行って、EDR画像(132)を生成してもよい。追加的に、オプションとして、または代替として、ディスプレイマネジメントブロック(135)が、第2のターゲットディスプレイ(140)の特性に適合されたディスプレイマッピング(display-mapped)信号(137)を生成することによって、EDR画像(132)を第2のターゲットディスプレイ(140)の特性となるようにさらに調整する。ディスプレイマネジメントブロック(135)は、例えば、受信機の一部であってもよいし、受信機と協働して別個に動作してもよいし、ターゲットディスプレイ(140)の一部であってもよい。
例えば、符号化ビットストリーム(122)におけるコンポーザメタデータは、第2のターゲットディスプレイ(140)とともに動作する受信機によって使用され、SDR画像(117)(または、おそらくは図1Gに示すようにビット深度に依存するコードワードスケーリングファクタを有する復号化SDR画像(182))からリファレンスEDRディスプレイ(例えば、4000ニトのリファレンスディスプレイなど)用のリファレンスEDR画像(例えば、EDR YCbCr画像など)を構成または予測し得る。リファレンスEDRディスプレイ用に構成/予測されるリファレンスEDR画像は、コンポジション色空間(例えば、YCbCrなど)において最適化され得る。
コンポジション色空間が、DM演算が行われるDM色空間(例えば、RGB色空間、ICtCp色空間、LMS色空間など)とは異なる場合、受信機は、コンポジション色空間(例えば、YCbCrなど)におけるリファレンスEDR画像をDM色空間(例えば、RGB、ICtCp、LMSなど)に変換する。
DMメタデータは、受信機のディスプレイマネジメントブロック(135)によって、符号化ビットストリーム(122)から抽出されて使用され、DM色空間(例えば、RGB、ICtCp、LMSなど)におけるリファレンスEDR画像に対してDM演算を行って、DM色空間における第2のターゲットディスプレイ(140)(例えば、2000ニトのターゲットディスプレイ、3000ニトのターゲットディスプレイなど)用のターゲットディスプレイ画像を生成することができる。
DM色空間が、ターゲットディスプレイ画像が描画されるディスプレイ色空間(例えば、RGBなど)とは異なる場合、ディスプレイマネジメントブロック(135)は、さらにターゲットディスプレイ画像をDM色空間からディスプレイ色空間に変換し、そしてディスプレイ色空間におけるターゲットディスプレイ画像を第2のターゲットディスプレイ(140)上に描画する。
[EDRコンテンツおよび後方互換性SDRコンテンツの供給]
過去数十年において、非常に多くの映像/映画が世界中で制作、記録、および/または公開されてきた。これらの映像/映画のほぼ全てがSDRコンテンツである。SDRコンテンツの一例は、図1Aのプロダクションストリーム(112)の映像データから得られるSDR画像(117)などであり得るが、これだけに必ずしも限定されない。
他のアプローチにおいて、EDRコンテンツが圧縮または非圧縮のEDR映像データとして下流のデバイスに供給される。
これに対して、本明細書に記載される技術においては、SDRコンテンツに対応するプロダクション品質またはプロダクション品質に近い品質のEDRコンテンツが、EDR符号化映像データとして圧縮/符号化されて、下流の復号化デバイスに送信される必要はない。代わりに、上流の符号化デバイスは、実際にEDR画像を圧縮/符号化することなく、かつ圧縮されたEDR画像を下流の復号化デバイスに供給することなく、比較的速く低い計算コストで、コンポーザメタデータを生成することができる。上流の符号化デバイスによって生成されたコンポーザメタデータおよびDMメタデータは、符号化ビットストリーム(122)などの映像信号において、SDRコンテンツとともに下流の復号化デバイスに送信され得る。映像信号におけるコンポーザメタデータにより、下流の復号化デバイスは、同じ映像信号におけるSDRコンテンツからプロダクション品質またはプロダクション品質に近い品質のEDRコンテンツを再構築できる。さらに、映像信号におけるDMメタデータにより、下流の復号化デバイスは、プロダクション品質またはプロダクション品質に近い品質のEDRコンテンツを、下流の復号化デバイスがともに動作する特定のターゲットディスプレイにマッピングできる。
さらに、映像信号におけるSDRコンテンツが、SDRディスプレイデバイスに対して特別に最適化されたSDR画像(例えば、117など)を含み得るので、プロダクション品質またはプロダクション品質に近い品質のSDRコンテンツが、SDRのレンダリングをサポートするだけのデバイスなどの、幅広い種類の下流の復号化デバイスに同時に供給され得る。
[コーデックアーキテクチャ]
図1Bは、リファレンスモードで動作する映像エンコーダによって実装される例示のエンコーダアーキテクチャを示す。リファレンスモードにおいて、EDR画像コンテンツは、予測関連演算のためのリファレンスとして機能する。図示されるように、シーンカット検出器170は、シーンカット検出を行って、SDR画像(117)に関連するシーンカット情報を決定する。シーンカット検出器(170)は、シーンカット情報を逆DMモジュール172に与える。逆DMモジュール172は、SDR-EDR変換ツール(例えば、逆トーンマッピングツールなど)を表し得る。逆DMモジュール(172)は、逆DM演算をSDR画像(117)に適用して、逆DM画像(例えば、リファレンスEDR画像など)を生成する。SDR画像(117)および逆DM画像の両方は、コンポーザ予測モジュール174に与えられ、コンポーザ予測係数などのコンポーザメタデータを生成する。コンポーザメタデータは、SDR画像(117)とともに使用され、SDR画像(117)から予測されたEDR画像を生成し得る。予測係数は、逆DMモジュール(172)によって生成された逆DM画像をリファレンス(または、予測ターゲット)として用いて生成され得る。
DMメタデータ生成器176は、逆DMモジュール(172)によって生成された逆DM画像から(例えば、EDRドメイン等における)DMメタデータを生成する。リファレンスプロセスユニット(RPU)178は、DMメタデータと、コンポーザ予測係数を含むコンポーザメタデータとを、SDR画像(117)を有する符号化ビットストリーム(122)(におけるメタデータフィールド、メタデータコンテナなど)に埋め込む。符号化ビットストリーム(122)は、SDRディスプレイまたはEDRディスプレイとともに動作する受信機に供給され得る。
本明細書に記載される技術は、符号化および復号化のパイプライン全体にわたってパフォーマンスの速度を向上させる改善をもたらすために使用され得る。
図1Cは、上流の映像エンコーダ(例えば、図1Aの符号化ブロック(120)など)における1つ以上のコンピューティングプロセッサを用いて実装され得る、効率的なエンコーダ側コーデックアーキテクチャを例示する。
図1Bに例示したように、逆DM演算を使用して、リファレンスモードにおける予測演算のためのリファレンスEDR画像を生成する代わりに、非リファレンスモードの予測技術が使用される。コンポーザメタデータは、静的な予測係数、または(例えば機械学習の方法等を用いて生成される)ダイナミック(非静的)な予測係数を含み得る。これらの予測係数は、EDR画像のEDR画素値の一部または全てをSDR画像(117)の対応するSDR画素値から構成または予測するために、(例えば、符号化ブロック(120)、コンポーザ構成モジュール184、または受信機等によって)直接的に使用され得る。
図1Cに例示される非リファレンスモードにおいて、SDR画像(117)は、上流の符号化デバイスによって、符号化ビットストリーム(122)などの映像信号のシングルレイヤーにおいて符号化および送信される。コンポーザメタデータおよびDMメタデータは、SDR画像(117)とともに映像信号において符号化および送信される。
SDR画像(117)は、デコーダ側コーデックアーキテクチャを実装する下流の復号化デバイスによって受信され、映像信号のシングルレイヤーから復号化される。下流の復号化デバイスは、EDRディスプレイデバイスとともに動作する場合、SDR画像(117)、コンポーザメタデータ、およびDMメタデータに基づいてEDR画像を生成し得る。
いくつかの実施形態において、SDR画像(117)は、「後方互換性SDR画像」を表す。後方互換性SDR画像は、SDRディスプレイ用に特別に最適化されているか、またはカラーグレーディングされている。したがって、下流の復号化デバイスは、SDRディスプレイデバイスとともに動作する場合、例えば、コンポーザメタデータおよび/またはDMメタデータを復号化せずに、SDR画像(117)をSDRディスプレイデバイス上に描画し得る。動的適合型ストリーミングの場合は、SDRディスプレイとともに動作する下流の復号化デバイスは、さらにコンポーザメタデータおよび/またはDMメタデータのストリーミングを回避し得る。
限定はしないが、例えば、コンポーザ予測モジュール180は、非リファレンスモードで動作し、コンポーザ予測係数を決定/生成する。予測係数は、いずれのEDR画像および/またはいずれの逆DM画像(例えば、図1Bの逆DMモジュール(172)等によって生成される)もリファレンス(または、予測ターゲット)として使用することなく、生成され得る。受信機は、リファレンスなしに生成されたこれらの予測係数をSDR画像(117)とともに受信し、使用して、SDR画像(117)から、構成/予測されたEDR画像を生成し得る。
非リファレンスモードでコンポーザ予測モジュール(180)によって決定/生成された予測係数は、RPU(178)に与えられ、SDR画像(117)とともに符号化ビットストリーム(122)中に多重化され得るか、または含められ得る。
SDR画像(117)および予測係数は、コンポーザ構成モジュール184に与えられ、EDR画像のEDR画素値の一部または全てをSDR画像(117)の対応するSDR画素値から構成または予測する。
いくつかの実施形態において、これらのEDR画素値は、コンポジション色空間(例えば、YCbCrなど)において構成される。コンポジション色空間は、DMメタデータが生成されることになるDM色空間(例えば、RGB、ICtCp、LMSなど)とは異なる。例えば、コンポジション色空間は、計算集中型行列演算を回避する色空間であり得る。ここで、DM色空間は、リファレンスEDRディスプレイの表示色空間であり得る。これらの実施形態において、コンポーザ構成モジュール(184)は、EDR画素値の一部または全てをコンポジション色空間(例えば、YCbCrなど)からDM色空間(例えば、RGB、ICtCp、LMSなど)に変換し得る。
DMメタデータ生成器(176)は、DM色空間におけるEDR画素値の一部または全てを受信し、これらのEDR画素値を使用してDMメタデータを推定、計算、または生成する。次いで、DMメタデータは、DMメタデータ生成器(176)によってRPU(178)に与えられ、SDR画像(117)およびコンポーザメタデータとともに符号化ビットストリーム(122)中に多重化または含められ得る。
図1Cによって実装される処理フローは、さらに簡略化され得る。上述したように、コンポーザ構成モジュール(184)は、DMメタデータ生成のためのEDR画素値を得るために用いられる。いくつかの実施形態において、予測係数が既知であることを考慮し、SDRドメインにおけるSDR画像(117)を用いてSDR統計量が計算または測定され得る。SDRドメインにおけるこれらのSDR統計量を使用して、予測係数に少なくとも部分的に基づいて、EDRドメインにおける対応のEDR画像についてのEDR統計量を推定し得る。
限定しないが、例えば、図1Dに例示するように、SDR画像(117)は、DMメタデータ生成器(176)にそのまま入力され得る。次いで、DMメタデータ生成器(176)は、SDR統計量を測定し、予測係数などのコンポーザメタデータに少なくとも部分的に基づいてEDR統計量を推定する。これにより、EDR画素値を生成するために図1Cにおいて使用される図1Cの構成コンポーザ(184)は、図1Dに例示するプロセスフローから取り除かれ得る。これにより、DMメタデータ生成のためのEDR画素値の生成を回避するので、さらに計算コストが低減され、コンポーザおよびDMメタデータ生成のプロセスが速くなるが、DMメタデータの正確性とのトレードオフがある。
いくつかの実施形態において、コンポーザメタデータおよびDMメタデータは、画像メタデータ全体(「rpu」データまたはリファレンスプロセッシング部データ)の一部として映像信号において搬送され、映像信号において、SDR画像(117)が映像信号において符号化されているシングルレイヤーとは分離して搬送される。例えば、コンポーザメタデータおよびDMメタデータの一部または全ては、符号化ビットストリーム(122)におけるコンポーネントストリームまたはサブストリーム中に符号化され得る。
コンポーザメタデータおよびDMメタデータは、エンコーダ側で利用可能な強力なコンピューティング資源およびオフライン符号化フロー(コンテンツ適合型マルチプルパス(multiple passes)、並列コンピューティング、ルックアヘッド演算、逆ルママッピング、逆クロママッピング、累積密度関数(CDF)に基づく演算、マルチチャネル重回帰(MMR)に基づく演算などがあるがこれらに限定されない)を活用するために、エンコーダ側で生成、または予め生成され得る。
図1B~1Dのエンコーダ側アーキテクチャのいずれを使用しても、EDR画像を、映像信号における符号化/圧縮EDR画像にそのまま符号化することを回避し得る。EDR画像をそのまま符号化するのではなく、映像信号におけるコンポーザメタデータを使用することによって、下流の復号化デバイスがEDRディスプレイ用に最適化されたSDR画像(117)(映像信号中に符号化されている)からEDR画像を予測することが可能となり得る。
図1Eは、デコーダ側コーデックアーキテクチャの例を示す。デコーダ側コーデックアーキテクチャは、下流の映像デコーダ(例えば、図1Aの復号化ブロック(130)および/またはディスプレイマネージャ(135)など)における1つ以上のコンピューティングプロセッサを用いて実装され得る。図示されるように、SDR画像(117)、コンポーザメタデータ、およびDMメタデータを用いて符号化された映像信号は、デコーダ側コーデックアーキテクチャ上で入力として受信される。
復元(decompression)ブロック154(例えば、図1Aの復号化ブロック(130)の一部など)は、映像信号のシングルレイヤーにおける圧縮映像データを復号化SDR画像(182)に復元/復号化する。復号化SDR画像(182)は、SDR画像(117)(図1Gに例示するビット深度に依存するコードワードスケーリングファクタを有し得る)と同じであり得るが、上流のデバイスの圧縮ブロックおよび下流のデバイスの復元ブロック(154)において量子化誤差が生じ得る。復号化SDR画像(182)は、SDRディスプレイデバイス用に最適化されていてもよい。下流のデバイスは、出力SDR映像信号において復号化SDR画像(182)を、(例えば、HDMIインタフェース、映像リンク等を介して)描画のためのSDRディスプレイに出力し得る。
さらに、コンポーザ構成ブロック158は、入力映像信号からコンポーザメタデータを抽出し、コンポーザメタデータに基づいて最適な逆方向再構成関数(例えば、パラメータ化関数、逆方向ルックアップテーブルまたはBLUT、1セットの多項式など)などの逆方向再構成マッピングを構築し、最適な逆方向再構成関数に基づいて復号化SDR画像(182)に構成/予測演算(または逆方向再構成演算)を行って、リファレンスEDRディスプレイ(例えば、4000ニトのEDRディスプレイなど)用の構成/予測されたEDR画像を生成する。
いくつかの実施形態において、予測されたEDR画像は、リファレンスディスプレイ上での描画のために最適化された、プロダクション品質またはプロダクション品質に近い品質のEDR画像を表す。
いくつかの実施形態において、ディスプレイマネージャ(135)は、入力映像信号からDMメタデータを抽出し、ディスプレイマネジメント演算(例えば、デバイス特異的ディスプレイマネジメント演算など)を構成/予測されたEDR画像に適用して、下流のデバイスとともに動作するターゲットディスプレイ(例えば、ターゲットEDRディスプレイなど)用に最適化されたディスプレイ画像(例えば、EDRディスプレイ画像など)を生成する。
ディスプレイ画像は、出力映像信号(例えば、出力EDR映像信号など)において、 ターゲットディスプレイ(例えば、ターゲットEDRディスプレイなど)に出力され(例えば、HDMIインタフェースを介して、映像リンクを介してなど)、そして描画され得る。
[静的非リファレンスモードにおける予測]
上記のように、本明細書に記載される技術を使用して、EDR画像および/または逆DM画像をリファレンスとして使用せずに、コンポーザ予測係数などのコンポーザメタデータを生成し得る。これらの予測係数は、静的予測、機械学習(ML)に基づく予測などを含むがこれらに限定されない種々の方法を使用して、非リファレンスモードで生成または決定され得る。
図2Aは、EDR画像を構成/予測するために静的非リファレンスモードで生成または決定され得る逆方向再構成曲線例202(例えば、10ビットの逆方向再構成曲線など)を例示する。逆方向再構成曲線(202)は、100ニトのGamma R.709ルマ値を4000ニトのPQ(知覚的量子化(perceptual quantization))P3ルマ値にマッピングする10ビット逆方向再構成曲線であり得るが、これのみに限定されない。
いくつかの実施形態において、逆方向再構成曲線(202)は、リファレンスディスプレイ(例えば、リファレンスEDRディスプレイなど)(例えば、4000ニトのリファレンスEDRディスプレイなど)のピーク輝度(例えば、4000ニトなど)に少なくとも部分的に基づいて選択される(例えば、図1Aの符号化ブロック(120)によって選択される、など)。静的非リファレンスモードは、各SDR画像(例えば、117、182など)について対応するEDR画像を予測するために固定のコンポーザメタデータを使用する。この固定のコンポーザメタデータは、例えば、図2Aの逆方向再構成曲線(202)を規定または特定する。逆方向再構成曲線(202)は、訓練データベースにおける訓練データ(例えば、SDR-EDR画像対)を使用して訓練されるパラメータによって規定され得る。これらのリファレンスディスプレイおよびそのリファレンスディスプレイのピーク輝度に関連づけられた異なる色空間に基づいて、異なるリファレンスディスプレイ(例えば、リファレンスEDRディスプレイ、リファレンス非SDRディスプレイなど)について、異なる逆方向再構成曲線が規定され得る。図2Aに例示したものなどのリファレンス逆方向再構成曲線(202)は、EDR画像が予測されることになるリファレンスディスプレイおよび/またはそのリファレンスディスプレイのピーク輝度に関連づけられた特定の色空間に基づいて、異なる逆方向再構成曲線から選択され得る(例えば、図1Aの符号化ブロック(120)などによって、など)。逆方向再構成曲線(202)の選択や、逆方向再構成曲線(202)を規定/特定するコンポーザメタデータの生成は、その場でルーティンとして行われ得る(例えば、図1Aの符号化ブロック(120)によって、など)。
[動的非リファレンスモードでの予測]
図1Fは、EDR画像を構成または予測するためのコンポジションメタデータを生成するために使用され得る機械学習(ML)に基づくプロセス例を例示する。MLに基づくプロセスは、訓練プロセス160(または、訓練フェーズ)および推定プロセス162(または、推定フェーズ)を含む。訓練データベース(例えば、訓練映像データベースなど)を訓練プロセス(160)において使用して、推定プロセス(162)において使用され得るMLモデルの重みを訓練し、本明細書に記載されるコンポーザ予測係数を生成し得る。
訓練データベースは、一群のSDR画像(「データベースSDR映像」と表記する)およびそのSDR画像に対応する一群のEDR画像(「データベースEDR映像」と表記する)を含み得る。一群のSDR-EDR画像対が一群のSDR画像およびそのSDR画像に対応する一群のEDR画像によって形成され得る。訓練データベースは、これらのSDR画像およびそれに対応するEDR画像を予め収集するか、または連続して重みを訓練するために訓練データベースが訓練プロセス(160)において使用されている際に、および/もしくは連続してコンポーザ予測係数を生成するために重みが推定プロセス(162)において使用されている際に、継続して収集され得る。
訓練プロセス(160)において、複数のSDR-EDR画像対が訓練データベースから選択される。各SDR-EDR画像対は、SDR画像およびそのSDR画像に対応するEDR画像を含む。複数のSDR-EDR画像対の各SDR-EDR画像対について、リファレンス逆方向再構成関数(例えば、リファレンス逆方向ルマ再構成関数、リファレンス逆方向クロマ再構成関数など)(または、ゴールデンデータ)が構築され得る。例えば、リファレンス逆方向再構成関数(または、一般に逆方向再構成マッピング)は、図1Bに例示するリファレンスモードを使用して構築され得る。このリファレンスモードにおいて、EDR画像は、EDR画像が対応するSDR画像から、予測されたEDR画像を生成するためのリファレンス(または、予測ターゲット)として機能する。いくつかの実施形態において、累積密度関数(CDF)に基づくマッチングを使用して、リファレンス逆方向ルマ再構成関数を構築し得る。なぜなら、CDFに基づくマッチングは、SDR画像とEDR画像との間の見え方(look)(例えば、視覚的見え方、知覚的見え方など)の変換またはマッチングを行うための優れたヒストグラム転写方法を提供し、逆方向再構成関数が単調な非低減であることを確実にする。CDFに基づくマッチングの例は、2016年10月5日に出願された米国仮特許出願第62/404,307号に示されており、その内容の全てを、あたかも本明細書中に記載するかのように、本願に援用する。
訓練プロセス(160)のブロック188において、訓練データとして機能する複数のSDR-EDR画像対におけるSDR画像から特徴(例えば、画像に関連する特徴など)が抽出され得る。これらの特徴を使用して、推定プロセス(162)において使用されることになる重みを訓練して、コンポーザ予測係数を生成し得る。いくつかの実施形態において、訓練プロセス(160)は、一般線形モデル(GLM)をMLモデルとして実装する。したがって、MLモデルの重みは、一般線形モデルの係数である。
MLモデルの重み(または 一般線形モデルの係数)について最適化値は、(1)MLモデルの重みに基づいて予測された予測逆方向再構成関数と、(2)リファレンス逆方向再構成関数(例えば、CDFに基づくマッチングを介して構築される、など)との間の差を最小化することによって得られ得る。MLモデルの重みの最適化値(または訓練された値)は、オンラインまたはオフラインで記憶され得る。MLモデルの重みの最適化値を含む、訓練されたMLモデルを推定プロセス(162)(例えば、オンラインの推定プロセス(162)など)において使用して(例えば、後で使用して、同時に使用して、など)、コンポーザ予測係数を生成し得る。
限定しないが、例えば、コンポーザ予測係数は、ルマ逆方向LUT(BLUT)を規定または特定する。予測係数は、1セットのSDRコードワード(例えば、等間隔のSDRコードワード、等間隔でないSDRコードワード、固定のSDRコードワードなど)上にK個の予測サンプル点(または、予測されたEDRコードワード)を含み得る。
j番目のSDRフレーム(または画像)のk番目のSDRサンプルコードワードを
Figure 0007037584000001
と表記し、j番目のEDRフレーム(または画像)のそれに対応するk番目の予測されたサンプル点(またはEDRコードワード)を
Figure 0007037584000002
と表記する。一般性を失わずに、SDRサンプルコードワードおよび予測されたサンプル点(またはEDRコードワード)の両方は、例えば、[0 1)の範囲の正規化コードワードとして表され得る。j番目のEDRフレーム(または画像)のk番目の予測されたEDRコードワード
Figure 0007037584000003
は、以下のように一般線形モデルを介して推定され得る。
Figure 0007037584000004
ここで、fjtは、j番目のSDRフレームのt番目の測定された特徴値であり、
Figure 0007037584000005
は、サンプル点kでのt番目の測定された特徴についての予測係数であり、Tは、特徴の数である。その1セットの重み(または、 一般線形モデルの係数)は、回帰から得られ得る。全体として、全部でT*K個の係数を使用して、サンプリングされたBLUTを規定または特定するために使用されるEDRコードワードを予測し得る。
画像に関連する特徴(fjtによって測定される)は、一般線形モデルにおいて予め規定され得る。一般に、最小/最大/平均値は、画像のルマ範囲およびその画像の明るさレベルの良好な指標を提供する。さらに、オプションまたは代替として、ルマ強度値およびクロマ値についての画素値の分布が一般線形モデルにおける画像に関連する特徴において表され得る。
例えば、一般線形モデルにおける画像に関連する特徴は、以下の3つのカテゴリにおける3セットの特徴を含み得る。
特徴セット1は、SDR画像の統計値をキャプチャするために使用され、j番目のSDRフレームについての平均ルマ値(
Figure 0007037584000006
と表記する)、j番目のSDRフレームについてのルマの最小ルマ値(
Figure 0007037584000007
と表記する)、およびj番目のSDRフレームについての最大ルマ値(
Figure 0007037584000008
と表記する)を含む。
いくつかの実施形態において、特徴セット1は、以下のように、上記の特徴の他に、より高次の特徴を含み得る。
Figure 0007037584000009
なお、より広く言うと、逆方向再構成関数のより高次の非線形特性を考慮するために、より高次の特徴を使用し得る。したがって、より高次の特徴を使用して訓練されたモデルは、そうでない場合よりも正確になり得る。しかし、より高次の特徴を訓練されたモデルに含めることはまた、訓練プロセス(160)および推定プロセス(162)における計算複雑性を増加させる。より重要なことは、より高次の特徴を訓練されたモデルに含ませると、例えば一般線形モデルの係数を最適化する一方で、特異点(singularity)および/または過剰適合(overfitting)を非常に導入しがちである。いくつかの実施形態において、1つ以上の交差検証方法を実施して、これらの課題または問題を回避または改善し得る。訓練データベースにおける一部のSDR-EDR画像対を任意の過剰適合問題を検出および解決するための検証データとして取っておいてもよい。さらに、オプションまたは代替として、例えば、(1)MLモデルの重みに基づいて予測された予測逆方向再構成関数と、(2)リファレンス逆方向再構成関数(例えば、CDFに基づくマッチングを介して構築される、など)との間の差を最小化するためのコスト関数(またはエラー関数)に、1つ以上の拘束条件または正則化(regularization)項/係数が導入され得る。
いくつかの実施形態において、式(2)に示される1次から4次の特徴が特徴セット1に含まれ得る。
特徴セット2は、ルマ値の分布をキャプチャするために使用され得、NL階級(bin)ルマヒストグラムにおけるルマ階級を含む。特徴セット3は、クロマ飽和の分布をキャプチャするために使用され得、NC階級クロマヒストグラムを含む。特徴セット2および3における特徴は、以下のようにキャプチャされ得る。
Figure 0007037584000010
を、正規化ルマ(例えば、[0 1)範囲での正規化、など)およびj番目のSDRフレームでのp番目のSDR画素のクロマ値とする。いくつかの実施形態において、SDRルマ画素値をダウンサンプリングして、SDRクロマチャネルの空間寸法(dimension)(例えば、クロマサンプリングフォーマットにおける420、422、など)に一致させ得る。
Figure 0007037584000011
をNL階級ルマヒストグラムとし、
Figure 0007037584000012
を、対応するルマ値にしたがって測定および収集されたNC階級クロマ飽和とする。各ルマまたはクロマチャネルにおける画素の総数をPと表記する。特徴セット2および3を生成するための手順例を以下の表1に示する。
Figure 0007037584000013
Figure 0007037584000014
いくつかの実施形態において、NL階級ルマヒストグラムは、全部で8個のルマ階級を含む。したがって、特徴セット2における特徴の総数NLおよび特徴セット3における特徴の総数NCは、以下のように与えられる。
L=NC=8 (4)
本例において、図1FのMLに基づくプロセスの一般線形モデルにおいて使用される3セットの特徴は、特徴セット1からの4*3=12個の特徴、特徴セット2からの8個の特徴、および特徴セット3からの8個の特徴を含み、SDRフレーム(または画像)から抽出された全部で28個の特徴を生じさせる。
[係数最適化]
例示として、訓練データベースは、訓練を目的とした全部でF個のSDR-EDR画像対を含む。k番目のサンプル点の重み
Figure 0007037584000015
は、以下の手順を介して得られ得る。
図1Fの訓練プロセス(160)のブロック190(「K点BLUT値を読み出す」と表記する)において、全ての実際のマッピングされたEDRコードワード(または値)は、k番目のサンプル点についてのF個のSDR-EDR画像対におけるF個EDR画像の全てから収集され得る。F個のEDR画像における実際のマッピングされたEDRコードワードは、F個のSDR-EDR画像対におけるそれぞれのSDR-EDR画像対から収集される。それぞれのSDR-EDR画像対から収集された各そのような実際のマッピングされたEDRコードワードは、それぞれのSDR-EDR画像対におけるSDR画像におけるk番目のSDRサンプルコードワードがそれぞれのSDR-EDR画像対におけるEDR画像のEDRコードワードの分布にマッピングされたマッピングEDRコードワードとして決定され得る。
例えば、それぞれのSDR-EDR画像対におけるSDR画像におけるSDRコードワードの分布は、SDR画像の実際のSDRコードワードから計算されたSDR CDFによって表され得る。同様に、それぞれのSDR-EDR画像対におけるEDR画像におけるEDRコードワードの分布は、EDR画像の実際のEDRコードワードから計算されたEDR CDFによって表され得る。それぞれのSDR-EDR画像対から収集された実際のマッピングされたEDRコードワードは、EDR CDFの値がk番目のSDRサンプルコードワードでのSDR CDFの値に等しいかまたは一致するEDRコードワードとして決定され得る。
k番目のサンプル点についてのF個のSDR-EDR画像対におけるF個のEDR画像の全てから収集された実際のマッピングされたEDRコードワードは、以下のようにベクトルとして表され得る。
Figure 0007037584000016
j番目のSDRフレームについて収集された特徴は、以下のようにベクトルとして表され得る。
Figure 0007037584000017
訓練データベースからのF個のSDR-EDR画像対におけるF個のSDRフレームの全てについての全ての収集された特徴は、以下のようにベクトル(例えば、横(transverse)ベクトルなど)として表され得る。
Figure 0007037584000018
重み(または、一般線形モデルの係数)は、以下のようにベクトル形に配置され得る。
Figure 0007037584000019
j番目のEDRフレームについての予測または推定された、マッピングされたEDRコードワード(または値)は、一般線形モデルにおいて以下のように与えられ得る。
Figure 0007037584000020
図1Fの訓練プロセス(160)のブロック192(「係数最適化」と表記する)において、F個のSDR-EDR画像対の全てのEDR画像における全ての予測または推定されたEDRコードワード(または値)は、以下のようにベクトルにまとめられる。
Figure 0007037584000021
式(9)および(10)に基づいて、F個のSDR-EDR画像対の全てのEDR画像における全ての予測または推定されたEDRは、以下の行列形に書き換えられ得る。
Figure 0007037584000022
重みwkの最適化値
Figure 0007037584000023
を見つけるという問題は、予測誤差を最小化するという最適化問題として以下のように定式化され得る。
Figure 0007037584000024
最適化された重み値
Figure 0007037584000025
は、以下のように最小二乗解を介して得られ得る。
Figure 0007037584000026
上記の最適化は、各サンプル点kについて最適化された重み値
Figure 0007037584000027
(または予測係数であって、図1Fにおいて「線形モデルのための訓練された重み」と表記する)を生成するために行われ得る。ここで、kは、0~K-1の整数であり、ここで、Kは、サンプル点の総数である。
[BLUTの生成]
推定プロセス(162)において、入力SDR映像(例えば、SDR画像(117)を含む、など)は、訓練されたMLモデル(または、一般線形モデル)によって生成された、最適化された重み値を使用して処理され、入力SDR映像における各フレーム(または画像)についてコンポーザ予測係数が生成される。さらに、オプションまたは代替として、ポストプロセッシングモジュールを推定プロセス(162)において使用して、入力SDR映像のための予測された逆方向再構成関数が平滑性および/または単調な非低減特性を有することを確実にし得る。
より詳細には、図1FのMLに基づくプロセスの推定プロセス(162)のブロック188において、最適化された重み値
Figure 0007037584000028
を導出する訓練プロセス(160)において使用される種類の特徴(例えば、特徴セット1~3など)と同じ種類の特徴(例えば、特徴セット1~3など)を新しいSDR画像から抽出される。推定プロセス(162)のブロック196(「モデルを使用してk点BLUT値を推定する」と表記する)において、最適化された重み値
Figure 0007037584000029
を使用して、新しいSDR画像(または、フレーム)のSDRコードワードに対応するEDRコードワードを、その新しいSDR画像から抽出された同じ種類の抽出特徴(例えば、特徴セット1~3など)に基づいて、予測または推定し得る。
予測または推定されたEDRコードワード、および予測または推定されたEDRコードワードに対応するSDRコードワードを使用して、逆方向再構成(または予測)プロセスにおいて使用されることになる最適化された逆方向再構成曲線/関数(例えば、パラメータ化曲線/関数、BLUT、近似多項式など)を構築し得る。
より詳細には、推定プロセス(162)のブロック188において、新しいSDR画像(例えば、SDR映像を表す1シーケンスのSDR画像に含まれる)のそれぞれについて、まず各そのような新しいSDR画像から特徴が収集される。次いで、各そのような新しいSDR画像について、最適化値
Figure 0007037584000030
を有する線形予測子(predictor)を使用して、K個のSDRサンプルコードワードについて、K個の予測/推定されたEDRコードワードを予測し得る。
K個の予測/推定されたEDRコードワードおよびK個のSDRサンプルコードワードは、一緒になってK個のサンプル点
Figure 0007037584000031
を形成する。逆方向再構成関数/曲線(例えば、パラメータ化関数/曲線、BLUT、など)は、K個のサンプル点
Figure 0007037584000032
を使用して、全ての利用可能なSDRコードワード(例えば、8ビットコードワード空間、10ビットコードワード空間などに含まれる)の最大で全範囲を包含するように構成され得る。
Figure 0007037584000033
がK個のサンプル点
Figure 0007037584000034
を使用して生成されるK点BLUTとする。ここで、k=0,…,K-1。図1Fの推定プロセス(162)のブロック198(「フィルタリング、補間、およびクリッピング」と表記する)において、K点BLUTは、SDRコードワードが最小有効SDRコードワードより小さいか、または最大有効SDRコードワードよりも大きい(例えば、SMPTE範囲外など)の場合には必ず補間またはクリッピングされ得る。
Figure 0007037584000035
がK点BLUT
Figure 0007037584000036
を補間またはクリッピングすることによって生成されるBLUTを表すとする。
[単調非低減性]
図2Bおよび図2Cは、いくつかのBLUT例を例示する。図2Bに例示する第1のBLUT例204-1は、単調非低減条件を満たす、補間されたBLUT
Figure 0007037584000037
を表すが、図2Cに例示する第2のBLUT例204-2は、上記条件を満たさない、補間されたBLUT
Figure 0007037584000038
を表す。第1のBLUT(204-1)および第2のBLUT(204-2)は、2つのSDR画像についての2つの対応するK点BLUT
Figure 0007037584000039
を補間およびクリッピングすることを介して、それぞれ得られ得る。第1のBLUT(204-1)および第2のBLUT(204-2)の両方は、静的モードにおいて選択される逆方向再構成曲線202-1および202-2と比較して、リファレンス逆方向再構成曲線204-1および204-2により良く一致する。ここで、リファレンス逆方向再構成曲線(204-1および204-2)は、SDR画像についてのリファレンスEDR画像がリファレンス逆方向再構成曲線(204-1および204-2)を生成するためのリファレンス/ターゲットとして利用可能である場合のリファレンスモードにおいて、図1Bのプロセスフローを使用して生成され得る。
補間されたBLUT(例えば、図2Cなど)がこの単調非低減条件満たすか否かは、補間されたBLUTが得られる(例えば、上記の補間およびクリッピングを介して)K点BLUTにおいて隣接するサンプル点間の差分値に遡り得る。
例えば、K点BLUT
Figure 0007037584000040
についてのk番目の差分BLUT値(
Figure 0007037584000041
と表記する)は、以下のように計算され得る。
Figure 0007037584000042
K点BLUT
Figure 0007037584000043
(例えば、初期K点BLUTなど)において単調非低減性を維持するために、k番目の差分BLUT値は、以下の条件を満たす。
Figure 0007037584000044
図2Bに例示する第1の補間されたBLUT
Figure 0007037584000045
の全ての差分BLUT値は、式(15)に記載の条件を満たす。
これに対して、図2Cにおいて例示する第2の補間されたBLUT
Figure 0007037584000046
のいくつかの差分BLUT値は、式(15)に記載の条件を満たさない。これが生じ得るのは、一般線形モデルが訓練された重み(または、最適化された重み値
Figure 0007037584000047
)およびSDR画像から抽出された特徴(例えば、最小ルマ値、最大ルマ値、平均ルマ値、SDRルマヒストグラム階級、SDRルマヒストグラム階級についてのSDRカラー飽和値など)に基づいてK点BLUT EDRコードワード(または値)を個別に推定するからである。予測または推定されたEDRコードワード(または値)が互いに独立して推定されるので、式(15)に記載の条件が満たされない場合があるので、K点BLUT
Figure 0007037584000048
から補間(および/またはクリッピング)によって単純に構築された、補間されたBLUT
Figure 0007037584000049
によって単調非低減条件が満たされない場合が生じ得る。
本明細書に記載される技術を使用して、転写関数(例えば、補間されたBLUT、最終BLUT Bj、EDR画像を予測するために下流のデバイスによって使用されることになる逆方向再構成関数など)が単調非低減条件を満たし、転写関数によってSDRコードワードから予測/推定されるEDRコードワードが、そのSDRコードワードの値が大きくなるにつれても、非低減となることを確実にし得る。単調非低減条件を満たすことは、対応するSDR映像から予測される、構成されたEDR映像の一貫した振る舞いを確実にすることに役立つので、EDR画素強度は、SDR画素強度の増加にともなって低減することはない。
いくつかの実施形態において、単調非低減の最終BLUTを生成するために、単調非低減条件は、一般線形モデルを規定することの一部(例えば、拘束条件など)として、K点BLUTに対して課され得る。
追加的に、オプションとして、または代替として、単調非低減の最終BLUTを生成するために、単調非低減条件は、既に構築された、補間された全範囲BLUTに課され得る。例えば、CDFに基づくマッチングを使用することにより、(単調非低減条件を満たしてもよいし、または満たさなくてもよい)補間された全範囲BLUTを、単調非低減条件を満たさないように変更された、補間された全範囲BLUTに再構築する効率的な方法を与え得る。
第1のステップは、 SDRヒストグラム(例えば、SDRルマヒストグラムなど)をSDR画像(入力SDR画像)におけるSDRコードワードに基づいて構築し、対応するEDRヒストグラム(例えば、EDRルマヒストグラムなど)を、(単調非低減条件を満たしてもよいし、満たさなくてもよい)補間されたBLUTを使用して予測または推定されるEDRコードワードに基づいて構築することである。より多くのヒストグラム階級を使用すると、CDFに基づくマッチングの正確性がより高くなる。
j番目のフレームについての入力SDR画像におけるp番目の画素のルマ正規化値を
Figure 0007037584000050
と表記する。SDRヒストグラム(
Figure 0007037584000051
と表記する)は、それぞれのMビットコードワードに対応する2M個のヒストグラム階級 を含み得るし、表2に示す疑似コード例に基づいて、P個の画素を含む入力SDR画像について構築され得る。
Figure 0007037584000052
EDRルマヒストグラム(
Figure 0007037584000053
と表記する)は、補間されたBLUT
Figure 0007037584000054
(単調非低減条件を満たしてもよいし、満たさなくてもよい)およびSDRルマヒストグラム
Figure 0007037584000055
を使用して、表3に示す疑似コード例に基づいて、構築され得る。
Figure 0007037584000056
Figure 0007037584000057
の両方が利用可能な場合、CDFに基づくマッチング方法を使用して、単調非低減条件を満たさない最終BLUTを構築し得る。例えば、SDR CDFおよびEDR CDFは、それぞれヒストグラム
Figure 0007037584000058
から以下のように構築され得る。
Figure 0007037584000059
各入力SDRコードワードbについてのCDF値を使用して、
Figure 0007037584000060
となるようなEDR CDFにおける対応のEDR階級インデックスb´を見つけ得る。いくつかの実施形態において、(b´)と(b´+1)との間の補間値は、例えば双線形補間方法によって決定され、下限値b´の代わりに使用される。双線形補間の例は、上記の米国仮特許出願第62/404,307号に示されている。
これにより、{b}→{b´}のSDR-EDRマッピング関数が生成される。このマッピング関数は、単調非低減条件を満たし、j番目のSDR画像からj番目のEDR画像を構成するための
Figure 0007037584000061
と表記され得る。
さらに、オプションまたは代替として、以下のように平均化フィルタを用いてマッピング関数
Figure 0007037584000062
に平滑化演算を行って、平滑化されたマッピング関数Bjを生成し得る。
Figure 0007037584000063
ここで、2W+1は、SDRコードワードの移動ウィンドウ(中心は、SDRコードワードx)である。この移動ウィンドウにわたり、マッピング関数
Figure 0007037584000064
は、平均化または平滑化される。
いくつかの実施形態において、式(17)の平滑化されたマッピング関数は、最終BLUT Bjを表し得る。いくつかの実施形態において、最終BLUT Bjは、1セットの多項式(例えば、8区分(piece)2次多項式など)を用いてさらに近似され得る。ピボット(pivot)、傾き、係数、オフセットなどのパラメータは、本明細書に記載されるコンポーザ予測係数とされ得る。
図2Dは、図2Cの補間されたBLUT
Figure 0007037584000065
からCDFに基づくマッチングを介して再構築される最終BLUTの例Bj208を例示する。図示されるように、図2Dの最終BLUT Bj(208)は、単調非低減条件を満たすが、図2Cの補間されたBLUT
Figure 0007037584000066
は、単調非低減条件を満たさない。
[DMメタデータの推定および生成]
種々の方法およびアルゴリズムのうちの1つ以上を使用し、コンポジションメタデータに少なくとも部分的に基づいて、EDRドメインにおいてDMメタデータを生成するための技術が使用され得る。これらの方法およびアルゴリズムは、EDRドメイン(例えば、DM色空間における、EDR RGB色空間における、など)においてDMメタデータを計算するための元の式を使用すること、EDRドメイン(例えば、コンポジション色空間における、EDR YCbCr色空間における、など)においてDMメタデータを計算するための近似式を使用すること、SDRドメイン(例えば、SDR YCbCr色空間における、など)において計算されたDM関連値をマッピング(例えば、1D-LUT介して、など)することによって、EDRドメインにおいてDMメタデータを生成することなどのいずれかを含み得るが、これらのみに限定されない。
限定しないが、例示として、コンポーザメタデータおよびSDR画像(117)とともに映像信号に含まれるDMメタデータは、EDR RGB色空間におけるPQ P3ドメインにおいて測定されることになる。なお、種々の実施形態において、DMメタデータは、ここに例示したEDR RGB色空間とは異なるDM色空間において生成または測定され得る。いくつかの実施形態において、EDR RGB色空間は、リファレンスEDRディスプレイのディスプレイ色空間を表し得る。
入力SDR YCbCr(またはYUV)画像を考慮し、EDR YCbCr(またはYUV)画像が構成/予測を介して生成され得る。いくつかの実施形態において、EDR YCbCr(またはYUV)画像は、EDR RGB色空間におけるDMメタデータを生成するために、生成され、そしてコンポジション色空間であるEDR YCbCr色空間からEDR RGB色空間に変換され得る。
EDR RGB色空間におけるPQ P3ドメインにおいて測定されることになるDMメタデータは、各EDR画像についての全てのチャネルについての全ての画素値についての最小値(「min」と表記する)、各EDR画像についての全てのチャネルについての全ての画素値についての最大値(「max」と表記する)、各EDR画像についての全てのチャネルについての全ての画素値についての平均値(「avg」と表記する)、各EDR画像についての全てのチャネルについての全ての画素値についての標準偏差値(「std」と表記する)などを含み得るがこれに限定されない。min、max、およびavg値は、L1メタデータと称され得る。std値は、L4メタデータと称され得る。L1およびL4メタデータに少なくとも部分的に基づくディスプレイマネジメント演算の例は、2016年12月22日に出願された米国仮特許出願第62/437,960号に示されており、その内容の全てを、あたかも本明細書中に記載するかのように、本願に援用する。
正規化(したがって、EDRコードワードまたは値は、[0 1)の間にある)後の、j番目のEDR画像におけるp番目の画素についての{R,G,B}チャネルを
Figure 0007037584000067
と表記する。L1およびL4メタデータは、以下のように元のEDR RGB式を用いて得られ得る。
Figure 0007037584000068
[YCbCrドメインにおいてYチャネルを使用する推定]
元のEDR RGB式に表されるL1およびL4メタデータを含むがこれらに限定されないEDRドメインにおけるDMメタデータの一部または全ては、実際にはEDR RGB画像を生成せずに、EDR YCbCr色空間におけるY成分の予測されたEDRコードワードなどの、コンポジション色空間における予測されたEDRコードワード(または値)を使用して推定され得る。
j番目のEDR YCbCr画像におけるEDR画素の{Y,Cb,Cr}EDRコードワード(または値)を
Figure 0007037584000069
と表記する。EDR RGB色空間におけるj番目のEDR RGB画像のEDRコードワードは、以下のようにEDR YCbCr色空間におけるj番目のEDR YCbCr画像のEDRコードワードに関連づけられる。
Figure 0007037584000070
Rec.709に準拠する、構成されたEDR画像について、式(19)の右手側(RHS)の3×3行列(「全範囲行列」と表記する)およびベクトルは、それぞれ以下のように与えられる。
Figure 0007037584000071
SMPTEに準拠する、構成されたEDR画像について、式(19)の右手側(RHS)の3×3行列(「SMPTE行列」と表記する)およびベクトルは、それぞれ以下のように与えられる。
Figure 0007037584000072
このように、全範囲行列および対応するベクトルを使用して、以下のように近似関係が成立され得る。
Figure 0007037584000073
L1メタデータにおけるmin、max、およびavg値は、以下のように推定され得る。
Figure 0007037584000074
L4メタデータにおける標準偏差値は、以下のように推定され得る。
Figure 0007037584000075
同様に、SMPTE行列および対応するベクトルを使用して、以下の近似関係が成立され得る。
Figure 0007037584000076
元のEDR RGB式におけるL1メタデータにおけるmin、max、およびavg値は、以下のようにEDR YCbCrコードワードから推定され得る。
Figure 0007037584000077
元のEDR RGB式におけるL4メタデータにおける標準偏差値は、以下のようにEDR YCbCrコードワードから推定され得る。
Figure 0007037584000078
ここで、3.5067/3は、256/219を簡単な形に表記したものである。
[SDRドメインにおける推定]
上記に例示したように、EDRドメインにおけるDMメタデータは、EDRドメインにおけるEDRコードワードの統計量を含む。リファレンスモード(例えば、図1Bに例示、など)において、EDRコードワードの統計量は、予測演算におけるリファレンスとして機能するリファレンスEDR画像または逆DM(EDR)画像のいずれかにおいてEDRコードワードから収集され得る。非リファレンスモード(例えば、図1Cに例示、など)において、EDRコードワードの統計量は、構成/予測の前にはリファレンスEDR画像および逆DM画像のどちらも存在しない場合があるので、構成/予測されたEDR画像におけるEDRコードワードから収集され得る。
上記式(18)および(25)に例示される、EDRドメインにおいて統計量測定または収集(例えば、直接に、など)するために、特にDMメタデータの生成に役立てるために、構成/予測されたEDR画像の、一部または全てのEDRコードワードが生成される。このEDR画像構成(または予測)は、なおも著しい計算パワーを消費し得るが、サブサンプリングを採用して、EDRドメインにおいて統計量を計算するためのEDRコードワードの数を減らしてもよい。
いくつかの実施形態において、EDRドメインにおいて統計量を直接的に収集する代わりに、特にDMメタデータを生成するのに役立てるために、EDR画像の構成または予測を一切せずに、既に利用可能なSDRコードワードを用いて、SDRドメインにおいて、まず統計量を収集し得る(例えば、図1DのDMメタデータ生成器(176)によって、など)。逆方向再構成関数/曲線(または、BLUT)が利用可能であるので(例えば、図1Dのコンポーザ予測モジュール(180)からDMメタデータ生成器(176)、など)、EDRドメインにおける統計量は、逆方向再構成関数/曲線(または、BLUT)を用いて、比較的容易にSDRドメインから推定される(例えば、図1DのDMメタデータ生成器(176)によって、など)。
j番目のSDR画像のp番目のSDR画素の、[0,1)の範囲に正規化され得る、{Y,Cb,Cr}SDRコードワードを
Figure 0007037584000079
と表記する。上記のように、j番目のEDR画像の構成/予測は、単調非低減条件を満たすルマチャネルYについてのBLUT(例えば、最終BLUTなど)を用いて行われ得る。
j番目のSDR画像に対応するj番目のEDR画像のp番目のEDR画素のルマEDRコードワードは、以下のように上記BLUTに基づいて導出され得る。
Figure 0007037584000080
EDRドメイン(または、j番目のEDR画像)におけるL1メタデータにおけるminおよびmax値は、以下のようにSDRドメイン(または、 j番目のSDR画像)におけるminおよびmax値から推定され得る。
Figure 0007037584000081
BLUTは、非線形関数であるので、SDRドメインにおけるavg値は、BLUTに基づくシングル値マッピングを介しては、EDRドメインにおけるavg値に一致しない場合がある。この問題は、SDRヒストグラム(例えば、SDRルマヒストグラムなど)およびBLUTを使用することを介して解決され得る。j番目のSDR画像のSDRヒストグラムのb番目の階級を
Figure 0007037584000082
と表記する。b番目の階級についての代表的なSDRコードワード(例えば、中心点、mid値など)をrbと表記する。
EDRドメイン(または、j番目のEDR画像)におけるL1メタデータにおけるavg値は、以下のようにSDRヒストグラムおよびBLUTから推定され得る。
Figure 0007037584000083
EDRドメイン におけるL4メタデータにおけるstd値の計算は、BLUTが非線形関数である場合があるので、上記のEDRドメインにおけるL1メタデータにおけるavg値の計算と同じ問題を有する。
しかし、EDRドメイン(または、j番目のEDR画像)におけるL4メタデータにおけるstd値はまた、以下のようにSDRヒストグラムおよびBLUTから推定され得る。
Figure 0007037584000084
上記から分かるように、 EDRドメインにおけるDMメタデータは、逆方向再構成関数/曲線(またはthe BLUT)に少なくとも部分的に基づいて、入力SDR信号(またはSDR画像)の統計量測定から、上流の符号化デバイスによって対応するEDR画像を構成することなく、マッピングされ得る。これにより、このSDRドメインにおいて計算された統計量および分布(例えば、ヒストグラムなど)を介してEDRドメインにおけるDMメタデータを導出する方法を使用することによって、著しい計算量を回避し得る。
なお、
Figure 0007037584000085
は、全ての候補BLUTが予め構成されている静的非リファレンスモードについて、予め計算され得る(例えば、システム起動段階中など)。SDR画像から抽出された特徴を用いて、BLUTが一般線形モデルにおいて推定されるダイナミック非リファレンスモードにおいても、
Figure 0007037584000086
についての追加の計算はほとんどない。EDRドメインにおけるこれらの統計量の導出全体は、ほとんど追加の計算をすることなくSDRヒストグラム{hjb}を見つけること(特に、SDRDMメタデータが入力SDR映像信号からすでに抽出可能な場合)に大きく簡素化され得る。いくつかの実施形態において、計算負荷をさらに低減するために、SDRヒストグラムは、SDR画像のSDR画素をサブサンプリング/間引きを介して、残余のSDR画素(その数はより少ない)を用いて、構築され得る。
[ビット深度および空間寸法の再フォーマット化]
多くの場合、入力SDR映像信号は、1080pまたは2160pとは異なるフレームサイズを有する8ビットYUV映像信号である。しかし、いくつかの映像ディスプレイアプリケーションは、10ビットYUV映像信号におけるSDR画像データおよび画像関連メタデータを受信およびプロセッシングするように構成され得る。
図1Gは、入力ビット深度(例えば、8ビットなど)および入力フレーム(空間)寸法(例えば、1080pまたは2160p以外)を出力ビット深度(例えば、10ビットなど)および出力フレーム(空間)寸法(例えば、1080pまたは2160pなど)に再フォーマット化するためのエンコーダ側アーキテクチャを例示する。図1Gのエンコーダ側コーデックアーキテクチャは、上流の映像エンコーダ(例えば、図1Aの符号化ブロック(120)など)における1つ以上のコンピューティングプロセッサを用いて実装され得る。
エンコーダ側アーキテクチャを使用して、ビット深度(niと表記する)および入力フレームサイズの入力SDR映像信号を、出力ビット深度(noと表記する)および出力フレームサイズの出力SDR映像信号に再フォーマットし得る。出力SDR映像信号は、当該分野において既に利用されている所定のディスプレイアプリケーションまたはシステムと既に互換であるか、または比較的容易に互換にされ得る映像信号フォーマットの信号である。
限定しないが、例示として、図1Gのエンコーダアーキテクチャは、フレームサイズが(Wi×Hi)であるSDR画像(117)を用いて符号化されたniビットのSDR映像信号を受信するように構成される。コンポーザ予測モジュール(180)は、静的または動的非リファレンスモードで動作し、コンポーザ予測係数を決定/生成する。予測係数は、リファレンス(または、予測ターゲット)として、 EDR画像を一切使用せず、かつ逆DM画像(例えば、図1Bの逆DMモジュール(172)によって生成されるものなど)を一切使用せずに生成され得る。
αRを以下のコードワードスケーリングファクタ186(例えば、乗算子など)とする。
αR=1<<(n0-ni) (28)
SDR画像(117)における入力ビット深度の各入力SDRルマコードワード(またはSDRルマ画素値)は、αRと乗算されて、スケーリングされたSDR画像(117-1)における出力ビット深度の対応のSDRルマコードワードを生成する。
コンポーザ予測モジュール(180)によって決定/生成された予測係数は、RPU(178)に与えられ、入力SDR画像(117)(例えば、入力SDR画像(117)におけるコードワードなど)をαRを用いてスケーリングすることによって生成されたスケーリング化SDR画像(117-1)を用いて符号化ビットストリーム(122)内に多重化または含められ得る。
受信機(例えば、図1Eのデコーダなど)は、スケーリング化SDR画像(117-1)および予測係数を受信した後、予測係数を使用して、SDR画像(117-1)から予測されたEDR画像を生成し得る。
図1Gに例示されるエンコーダ側において、SDR画像(117-1)および予測係数は、非リファレンスモードで動作するコンポーザ構成モジュール(184)に与えられ、EDR画像のEDR画素値の一部または全てを構成する。
DMメタデータ生成器(176)は、DM色空間におけるEDR画素値の一部または全てを受信し、そしてこれらのEDR画素値を使用して、DMメタデータを推定、計算、または生成する。次いで、DMメタデータは、DMメタデータ生成器(176)によってRPU(178)に与えられ、スケーリング化SDR画像(117-1)およびthe コンポーザメタデータを用いて符号化ビットストリーム(122)内に多重化または含められ得る。
入力SDR画像におけるSDR画素の数および出力SDR画像におけるSDR画素の数は、それぞれ以下のように与えられる。
Figure 0007037584000087
スケーリングされたj番目のSDR画像における入力SDRコードワードを使用して、j番目のSDR画像に対応するj番目のEDR画像におけるEDRコードワードを予測または構成し得る。
Figure 0007037584000088
などのメタデータ統計量は、式(18)および(25)に基づいて、j番目のEDR画像におけるEDRコードワードについて計算または推定され得る。
Rをj番目のSDR画像におけるPin個の入力画素を補完して、j番目のEDR画像におけるPout個の出力画素を生成するためにパディングされた画素の数とする。したがって、
R=Pout-Pin (30)
である。
Figure 0007037584000089
をパディングに使用されることになるniビットSDRルマコードワード(または画素値)とする。
Figure 0007037584000090

Figure 0007037584000091
から逆方向再構成関数を使用して計算されたnoビット構成EDRルマコードワード(または画素値)とする。
Figure 0007037584000092
などのj番目のEDR画像についてのDMメタデータ統計量は、パディングSDRコードワードから計算されたEDRコードワードを考慮し、
Figure 0007037584000093
に基づいて、以下のように計算または推定され得る。
Figure 0007037584000094
[シーンに基づくメタデータ計算]
L1 DMメタデータは、映像エンコーダ(例えば、図1Aの符号化ブロック(120)など)によって、画像関連メタデータの一部として受信機(例えば、EDRディスプレイとともに動作する映像復号化デバイスなど)に送信され、受信機によって構成されることになるEDR画像の最小、最大、および平均値を提供し得る。L4 DMメタデータは、映像エンコーダによって、画像関連メタデータの一部として受信機に送信され、フレーム平均値およびフレーム標準偏差値を提供し得る。
さらに、オプションまたは代替として、最小、最大および平均輝度値を含むが、これらに限定されないシーンレベルのL1およびL4 DMメタデータが映像エンコーダによって生成され、受信機に送信され得る。j番目のEDRについての左および右シーン境界を
Figure 0007037584000095
と表記する。シーン(例えば、現在のシーンなど)の最小輝度値(min_PQと表記する)は、以下のように計算され得る。
Figure 0007037584000096
シーンの最大輝度値(max_PQと表記する)は、以下のように計算され得る。
Figure 0007037584000097
シーンの中点輝度値(avg_PQと表記する)は、以下のように計算され得る。
Figure 0007037584000098
いくつかの実施形態において、EDR画像(例えば、現在のEDR画像、j番目のEDR画像など)のフィルタリングされた平均および標準偏差値を含むが、これらに限定されない、フィルタリングされたL1およびL4 DMメタデータが映像エンコーダによって生成され、受信機に送信され得る。
Figure 0007037584000099
をj番目のEDR画像のフィルタリングされた平均および標準偏差値とする。ISCをシーンカット(1:シーンカット、0:シーンカットなし)を特定する指示関数とする。j番目のEDR画像についてのフィルタ強度例は、以下のように決定され得る。
Figure 0007037584000100
ここで、
Figure 0007037584000101
は、大域ディミング定数を表し得る。大域ディミング定数は、ユーザによって予め構成され得る。
Figure 0007037584000102
j番目のEDR画像のフィルタリングされた平均および標準偏差値は、以下のように決定され得る。
Figure 0007037584000103
上記から分かるように、映像エンコーダによって生成されたL1/L4メタデータの一部は、シーンカット情報に依存(例えば、非常に依存など)し得る。いくつかの実施形態において、比較的正確なシーンカット情報が例えばXMLファイルの形態で利用可能である。しかし、いくつかの他の実施形態において、シーンカット情報は、例えば映像エンコーダ、または映像エンコーダと併せて動作するデバイスによって画像コンテンツから自動的に検出される必要があり得る。
[誤シーンカット検出に対する感度]
自動シーンカット検出(例えば、人間が入力を全くまたはほとんどせずに、自動画像コンテンツ分析に基づく、など)は、映画などのいくつかの映像コンテンツに対しては良く機能し得る。しかし、誤ったまたは逃したシーンカット検出が特に映画以外の映像コンテンツにおいて生じ得る場合がある。
例えば、誤シーンカットは、映像に焼き付けられたキャプションがある場合に、検出され得る。焼き付けられたキャプションは、1つのシーンフレーム中の数フレームにおいて、または1つのシーンにおいてもしくは複数のシーンにわたって、オン・オフし得る。1つのシーンは、1つの焼き付けられたキャプションまたは複数の焼き付けられたキャプションを有し得る。焼き付けられたキャプションのこれらの異なる振る舞いが存在すると、クリーンな自動シーンカット検出が困難となり得る。
L1メタデータにおけるシーンレベル最小および最大輝度値などのDMメタデータにおけるシーンレベル値は、シーンカットに影響を受けやすい。新しい焼き付けられたキャプション(例えば、白色の明るい画素を含む、など)が現れると、シーンレベルおよび画像レベル最大輝度値が上昇し、他方、焼き付けられたキャプションが消えると、シーンレベルおよび画像レベル最大輝度値がとなる。
画像内の画素の総数に比べて、焼き付けられたキャプションが含む画素が比較的少ない場合、シーンレベルおよび画像レベル平均輝度値は、ほとんど変化しない場合がある。
いくつかの実施形態において、最小および最大輝度値(例えば、一部または全てシーンについての、など)は、以下のようにシーケンス全体についての最小および最大輝度値などの1シーケンスの画像(例えば、複数のシーンを含む、など)における大域値として設定され得る。
Figure 0007037584000104
いくつかの実施形態において、平均輝度値は、シーンカットのうちのいずれかが検出有りであるか、または検出無しであるかにかかわらず、各シーンから計算される平均輝度値に設定され得る。
いくつかの演算の場合において、1つの真のシーンが複数の(誤った)シーンであると、誤って検出され得る。これらの複数の誤ったシーンは、1つの真のシーンの異なる誤ったシーンにおける画像から計算される、異なる平均輝度値を有する。ディスプレイの照明制御は、これらの平均輝度値に少なくとも部分的に基づいて、照明レベルを調節し得る。これにより、真の1つのシーンにおける異なる誤ったシーンを介して、照明レベルの調節によって生じる閃光(flashing)が見られ得る。
この問題に対処するために、平均輝度値の推定に基づくスライディングウィンドウを採用し得る。シーンカット情報(例えば、EDR画像がシーンカット画像であるか否かを示すバイナリインディケータ(binary indicator)など)によって境界づけられたスライディングウィンドウを使用して、各EDR画像についての平均輝度値が計算され得る。
j番目のEDR画像についての(スライディング)ウィンドウに基づく平均輝度値を
Figure 0007037584000105
と表記する。ルックアヘッドウィンドウの長さを
Figure 0007037584000106
と表記し、ルックバックウィンドウの長さを
Figure 0007037584000107
と表記する。
スライディング(または平均)ウィンドウの左および右境界を
Figure 0007037584000108
と表記し、これらは、以下のように決定され得る。
Figure 0007037584000109
ここで、j番目のEDRについての平均輝度値に基づくスライディングウィンドウは、以下のように決定され得る。
Figure 0007037584000110
図3は、1シーケンスの画像にわたる平均輝度値のプロット例を例示する。第1のプロット302は、フレームレベルの平均輝度値を表す。各フレームレベルの平均輝度値は、その1シーケンスの画像における対応の個々の画像に基づいて計算される。第2のプロット304は、シーンレベル平均輝度値を表す。各シーンレベル平均輝度値は、その1シーケンスの画像における対応のシーンについて、正しいかもしれないし、正しくないかもしれないシーンカット検出に基づいて計算される。第3のプロット306は、スライディングウィンドウ平均輝度値を表す。各スライディングウィンドウ平均輝度値は、個々の画像について、シーンカット検出および画像レベル平均輝度値の両方に基づいて計算される。
画像レベル平均輝度値が大きく変化し得ることが見て取れる。シーンレベル平均輝度値は、検出されたシーンカットに基づいて、段階的に変化する。誤ったおよび/または逃したシーンカットが生じる場合、これらの平均輝度値を使用して照明制御を決定すると閃光が生じ得る。スライディングウィンドウに基づく平均輝度値は、局所的なスライディングウィンドウ平均に基づいて、比較的平滑な輝度値曲線を生成する。局所的なスライディングウィンドウ平均は、間違って検出されたシーンカットが生じても可視閃光を回避または低減する。
いくつかの実施形態において、本明細書に記載される逆方向再構成関数は、クリッピングまたはトリムパス(trim pass)を行わずに、および/またはSDR画像を構成されたEDR画像にマッピングする際に画素値の所定のコードワード領域において完全な情報損失を起こさずに、生成される。これにより、SDR画像において表される画像の詳細は、本明細書に記載される技術において、構成されたEDR画像において保存される。
いくつかの実施形態において、本明細書に記載される逆方向再構成関数を使用して、SDR画像が表されるソース色空間と、構成されたEDR画像が表されるターゲット色空間との任意の組み合わせをサポートし得る。ソース色空間および/またはターゲット色空間の例は、YCbCr色空間、IPT色空間、RGB色空間、Rec.2020色空間、Rec.709色空間などのいずれをも含み得るが、必ずしもそれらのみに限定されない。
本明細書に記載されるSDR-EDRマッピング(例えば、逆方向再構成曲線/関数、行列に基づくマッピングなど)は、CDF基づくマッピング、MMR基づくマッピング、CDF・MMR基づくマッピングなどであり得るが、これらに必ずしも限定されない。いくつかの実施形態において、SDR-EDRマッピングは、入力色空間の1、2、3またはそれ以上の次元におけるSDRコードワードに適用され、出力色空間の1、2、3またはそれ以上の次元におけるEDRコードワードを生成し得る。
第1の例において、逆方向再構成曲線/関数は、入力SDR色空間のルマ成分(またはチャネル)におけるSDRコードワードを出力EDR色空間のルマ成分(またはチャネル)におけるEDRコードワードにマッピングするために適用され得る。
第2の例において、MMRに基づくマッピングは、入力SDR色空間の1つ以上のルマおよびクロマ成分(またはチャネル)におけるSDRコードワードを出力EDR色空間の1つ以上のクロマ成分(チャネル)におけるEDRコードワードにマッピングするために適用され得る。MMRに基づくマッピングの例は、上記の米国仮特許出願第62/404,307号に示されている。MMRに基づくマッピングのさらなる例は 、2013年10月8日に出願された米国特許出願第14/110,694号に示されており、その内容の全てを、あたかも本明細書中に記載するかのように、本願に援用する。
例示のみを目的として、本明細書の記載ようにコンポジションメタデータおよび/またはDMメタデータが入力映像信号におけるSDR画像について生成されることにより、下流のデバイスがSDR画像からEDR画像を構成/予測し、EDR画像をターゲットディスプレイ用のディスプレイ画像にマッピングできるようにし得ることを説明した。なお、しかし、種々の実施形態において、入力映像信号における入力ダイナミックレンジおよび/または入力色域の画像は、Rec.709に規定されるSDR画像などのSDR画像でもよいし、そうでなくてもよい。例えば、いくつかの実施形態において、Rec.709 SDRの入力ダイナミックレンジ以外の入力ダイナミックレンジ(例えば、4000ニト、1000ニトなど)のハイブリッドログガンマ(HLG)画像は、本明細書に記載されるように、入力映像信号から復号化され得る。コンポジションメタデータおよび/またはDMメタデータは、HLG画像について生成され、下流のデバイスがHLG画像からEDR画像を構成/予測し、EDR画像をターゲットディスプレイ用のディスプレイ画像にマッピングできるようにし得る。
[プロセスフロー例]
図4Aは、本発明のある実施形態によるプロセスフロー例を例示する。いくつかの実施形態において、1つ以上のコンピューティングデバイスまたは構成要素(例えば、符号化デバイス/モジュール、トランスコーディングデバイス/モジュール、復号化デバイス/モジュール、逆トーンマッピングデバイス/モジュール、トーンマッピングデバイス/モジュール、メディアデバイス/モジュールなど)は、このプロセスフローを行い得る。ブロック402において、画像プロセッシングデバイス(例えば、符号化ブロック(120)など)がスタンダードダイナミックレンジ(SDR)画像を受信する。
ブロック404において、画像プロセッシングデバイスは、SDR画像をエンハンストダイナミックレンジ(EDR)画像にマッピングするためのコンポーザメタデータを生成する。コンポーザメタデータは、訓練データベースにおける複数のSDR-EDR画像対から生成された逆方向再構成マッピングを特定する。複数のSDR-EDR画像対は、上記のSDR画像を含まない複数のSDR画像と、その複数のSDR画像に対応する複数のEDR画像とを含む。ある実施形態において、逆方向再構成マッピングは、複数のSDR-EDR画像対を用いて予測係数を訓練することによって得られた、最適化された予測係数値から生成される。
ブロック406において、画像プロセッシングデバイスは、出力SDR映像信号において、SDR画像およびコンポーザメタデータを符号化する。
ブロック408において、画像プロセッシングデバイスは、出力SDR映像信号の受信機とともに動作するEDRディスプレイにEDRディスプレイ画像を描画させる。EDRディスプレイ画像は、コンポーザメタデータに基づいてSDR画像から構成された構成EDR画像から導出される。
ある実施形態において、SDR画像は、出力SDR映像信号において符号化されている1シーケンスのSDR画像である。
ある実施形態において、コンポーザメタデータは、構成されたEDR画像が生成されるコンポジション色空間、構成されたEDR画像用のリファレンスEDRディスプレイによってサポートされるピーク輝度値などのうちの1つ以上に基づいて選択された逆方向再構成関数を特定する。
ある実施形態において、画像プロセッシングデバイスは、SDR画像から複数の画像関連特徴を抽出すること、その複数の画像関連特徴、および複数のSDR-EDR画像対を使用して生成された複数の最適化された重み値に基づいて逆方向再構成マッピングを特定する1セットのパラメータを生成することなどを行うようにさらに構成される。
ある実施形態において、複数の最適化された重み値は、複数のSDR-EDR画像対を使用して、一般線形モデルにおいて生成される。
ある実施形態において、複数の画像関連特徴は、SDR画像におけるSDRルマコードワードから計算された1セットのルマ統計値に関連する特徴、SDR画像におけるSDRルマコードワードの分布に関連する特徴、SDR画像におけるSDRルマコードワードの分布に対応するクロマ値に関連する特徴などのうちの1つ以上を含む。
ある実施形態において、画像プロセッシングデバイスは、SDRコードワード空間にわたって分布する1セットのSDRコードワードについての1セットの推定されたEDRコードワードを生成すること、その1セットの推定されたEDRコードワードに基づいて、補間された逆方向再構成マッピングを生成すること、その補間された逆方向再構成マッピングを、出力SDR映像信号において符号化され、単調非低減条件を満たす逆方向再構成関数に変更することなどを行うようにさらに構成される。
ある実施形態において、画像プロセッシングデバイスは、移動SDRコードワードウィンドウにわたって逆方向再構成関数を平滑化することを行うようにさらに構成される。
ある実施形態において、逆方向再構成マッピングは、逆方向再構成曲線、逆方向再構成関数、パラメータ化マッピング関数、逆方向ルックアップテーブル(BLUT)、1セットの近似多項式区分、行列に基づくマッピングなどのうちの1つを表す。
ある実施形態において、出力SDR映像信号は、ディスプレイマネジメント(DM)メタデータを用いてさらに符号化される。ディスプレイマネジメント(DM)メタデータは、受信機によって、リファレンスEDRディスプレイ用に最適化された構成EDR画像に対してDM演算を行うために使用され、EDRディスプレイ用に最適化されたEDRディスプレイ画像を生成することになる。
ある実施形態において、上記方法は、映像エンコーダによって行われる。DMメタデータは、DM色空間について、コンポジション色空間において構成されたEDRコードワードを使用する近似に基づいて、映像エンコーダによって生成される。
ある実施形態において、DMメタデータは、DM色空間について、そのDM色空間について生成されたEDRコードワードに基づいて、映像エンコーダによって生成される。
ある実施形態において、DMメタデータは、DM色空間について、SDR画像におけるSDRコードワードの分布から導出されたマッピング統計値に基づいて、映像エンコーダによって生成される。
ある実施形態において、DMメタデータは、フレームレベルのDMメタデータ、シーンレベルのDMメタデータ、マルチシーンレベルのDMメタデータ、手動シーンカット情報に少なくとも部分的に基づいて生成されるDMメタデータ、自動的に検出されたシーンカット情報に少なくとも部分的に基づいて生成されるDMメタデータ、スライディングウィンドウを用いて生成された、フィルタリングされたDMメタデータなどのうちの1つ以上を含む。
ある実施形態において、SDR画像、構成されたEDR画像、またはEDRディスプレイ画像のうちの少なくとも1つは、IPT PQ(ICtCp)色空間、YCbCr色空間、RGB色空間、Rec.2020色空間、Rec.709色空間、拡張ダイナミックレンジ(EDR)色空間、ガンマ/HLG/PQ色空間、スタンダードダイナミックレンジ(SDR)色空間などのうちの1つにおいて表される。
IPT-PQ色空間は、ディスプレイマネジメントアプリケーションのために、2014年2月13日に出願されたPCT出願シリアル番号PCT/US2014/016304において最初に公開された。“Development and testing of a color space (ipt) with improved hue uniformity”,by F.Ebner and M.D.Fairchild,in Proc.6th Color Imaging Conference:Color Science,Systems,and Applications,IS&T,Scottsdale,Arizona,Nov.1998,pp.8-13(以下、Ebner論文と称す)(その開示内容を全て本願で援用する)に記載されるIPTは、人間の視覚系における錐体間の色差のモデルである。この意味において、IPTは、YCbCrまたはCIE-Lab色空間と同様であるが、いくつかの科学研究において、これらの空間よりも人間の視覚プロセッシングをより良く模倣することが示されてきた。CIE-Labと同様に、IPTは、所定のリファレンス輝度に対して正規化された空間である。ある実施形態において、その正規化は、ターゲットディスプレイの最大輝度(例えば、5,000ニト)に基づく。
本明細書において、「PQ」という用語は、知覚的量子化を指す。人間の視覚系は、光レベルの増大に対して非常に非線形的に反応する。人間が刺激を見る能力は、その刺激の輝度、その刺激の大きさ、その刺激を構成する空間周波数、および、その刺激を見ている特定の時点までに目が適応した輝度レベルに影響される。好適な実施形態において、知覚的量子化子関数は、線形入力グレイレベルを、人間の視覚系におけるコントラスト感度閾値によりマッチした出力グレイレベルにマッピングする。PQマッピング関数の例が、PCT出願シリアル番号PCT/US2012/068212に記載されている。また、PQ非線形系リファレンス転写関数がRec.ITU-RBT.2100-1(06/2017)、「Image parameter values for high dynamic range television for use in production and international programme exchange」に記載されている。これを本願に援用する。
ある実施形態において、SDR画像のビット深度は、8、9、10+ビットなどのうちの1つである。
ある実施形態において、SDR画像は、出力SDR映像信号を同じビット深度の入力SDR映像信号において受信される。
ある実施形態において、SDR画像は、出力SDR映像信号とは異なるビット深度の入力SDR映像信号において受信される。この出力SDR映像信号は、ビット深度がスケーリングされたバージョンのSDR画像を含む。
ある実施形態において、SDR画像は、映像プロフェッショナルの芸術的な意図に基づいて生成される。
ある実施形態において、画像プロセッシングデバイスは、SDR画像から抽出された複数の特徴、および複数のSDR-EDR画像対に基づいて訓練された複数の最適化された予測係数に基づいて、それぞれSDRサンプルコードワードを、マッピングされたEDRサンプルコードワードにマッピングする複数のサンプル点マッピングを生成すること、複数のサンプル点マッピングに基づいて、利用可能なSDRコードワードの全範囲にわたって補間された逆方向再構成マッピングを生成すること、利用可能なSDRコードワードの全範囲における各利用可能なSDRコードワードを中心としたスライディングウィンドウを使用して、平均フィルタリングを補間された逆方向再構成マッピングに適用することによって、補間された逆方向再構成マッピングから逆方向再構成マッピングを生成することを行うようにさらに構成される。
ある実施形態において、フィルタリングされたDMメタデータは、スライディングウィンドウに基づいて平滑化フィルタによって平滑化された平均シーンに基づく輝度値を含む。スライディングウィンドウは、自動的に検出されたシーンカット情報において示されるシーンカットにわたって移動する。
図4Bは、本発明のある実施形態によるプロセスフロー例を示す。いくつかの実施形態において、1つ以上のコンピューティングデバイスまたは構成要素(例えば、符号化デバイス/モジュール、トランスコーディングデバイス/モジュール、復号化デバイス/モジュール、逆トーンマッピングデバイス/モジュール、トーンマッピングデバイス/モジュール、メディアデバイス/モジュールなど)がこのプロセスフローを行い得る。ブロック422において、画像プロセッシングデバイス(例えば、符号化ブロック(120)など)がSDR画像およびコンポーザメタデータを用いて符号化されたスタンダードダイナミックレンジ(SDR)映像信号を受信する。
ブロック424において、画像プロセッシングデバイスは、コンポーザメタデータを使用して、SDR画像を、構成されたエンハンストダイナミックレンジ(EDR)画像にマッピングする。コンポーザメタデータは、訓練データベースにおける複数のSDR-EDR画像対から映像エンコーダによって生成された逆方向再構成マッピングを特定する。複数のSDR-EDR画像対は、上記のSDR画像を含まない複数のSDR画像と、その複数のSDR画像に対応する複数のEDR画像とを含む。
ブロック426において、画像プロセッシングデバイスは、SDR映像信号の受信機とともに動作するEDRディスプレイにEDRディスプレイ画像を描画させる。EDRディスプレイ画像は、コンポーザメタデータに基づいてSDR画像から構成された構成EDR画像から導出される。
ある実施形態において、コンポーザメタデータは、SDR画像とは別の画像メタデータとしてSDR映像信号において搬送される。
ある実施形態において、画像プロセッシングデバイスは、構成されたEDR画像に対して色空間変換を行うようにさらに構成される。
ある実施形態において、画像プロセッシングデバイスは、SDR映像信号からディスプレイマネジメント(DM)メタデータを抽出すること、構成されたEDR画像からEDRディスプレイ画像を生成することの一部として、構成されたEDR画像に対してDM演算を適用することなどを行うようにさらに構成される。
図4Cは、本発明のある実施形態によるプロセスフロー例を例示する。いくつかの実施形態において、1つ以上のコンピューティングデバイスまたは構成要素(例えば、符号化デバイス/モジュール、トランスコーディングデバイス/モジュール、復号化デバイス/モジュール、逆トーンマッピングデバイス/モジュール、トーンマッピングデバイス/モジュール、メディアデバイス/モジュールなど)がこのプロセスフローを行い得る。ブロック442において、画像プロセッシングデバイス(例えば、符号化ブロック(120)など)がハイブリッドログガンマ(HLG)画像を受信する。
ブロック444において、画像プロセッシングデバイスは、HLG画像をエンハンストダイナミックレンジ(EDR)画像にマッピングするためのコンポーザメタデータを生成する。コンポーザメタデータは、訓練データベースにおける複数のHLG-EDR画像対から生成された逆方向再構成マッピングを特定する。複数のHLG-EDR画像対は、上記のHLG画像を含まない複数のHLG画像と、その複数のHLG画像に対応する複数のEDR画像とを含む。ある実施形態において、逆方向再構成マッピングは、複数のHLG-EDR画像対を用いて予測係数を訓練することによって得られた、最適化された予測係数値から生成される。
ブロック446において、画像プロセッシングデバイスは、出力HLG映像信号において、HLG画像およびコンポーザメタデータを符号化する。
ブロック448において、画像プロセッシングデバイスは、出力HLG映像信号の受信機とともに動作するEDRディスプレイにEDRディスプレイ画像を描画させる。EDRディスプレイ画像は、コンポーザメタデータに基づいてHLG画像から構成された構成EDR画像から導出される。
ある実施形態において、画像プロセッシングデバイスは、HLG画像から抽出された複数の特徴、および複数のHLG-EDR画像対に基づいて訓練された複数の最適化された予測係数に基づいて、それぞれHLGサンプルコードワードを、マッピングされたEDRサンプルコードワードにマッピングする複数のサンプル点マッピングを生成すること、複数のサンプル点マッピングに基づいて、利用可能なHLGコードワードの全範囲にわたって補間された逆方向再構成マッピングを生成すること、利用可能なHLGコードワードの全範囲における各利用可能なHLGコードワードを中心としたスライディングウィンドウを使用して、平均フィルタリングを補間された逆方向再構成マッピングに適用することによって、補間された逆方向再構成マッピングから逆方向再構成マッピングを生成することなどを行うようにさらに構成される。
図4Dは、本発明のある実施形態によるプロセスフロー例を示す。いくつかの実施形態において、1つ以上のコンピューティングデバイスまたは構成要素(例えば、符号化デバイス/モジュール、トランスコーディングデバイス/モジュール、復号化デバイス/モジュール、逆トーンマッピングデバイス/モジュール、トーンマッピングデバイス/モジュール、メディアデバイス/モジュールなど)がこのプロセスフローを行い得る。ブロック462において、画像プロセッシングデバイス(例えば、符号化ブロック(120)など)がHLG画像およびコンポーザメタデータを用いて符号化されたハイブリッドログガンマ(HLG)映像信号を受信する。
ブロック464において、画像プロセッシングデバイスは、コンポーザメタデータを使用して、HLG画像を、構成されたエンハンストダイナミックレンジ(EDR)画像にマッピングする。コンポーザメタデータは、訓練データベースにおける複数のHLG-EDR画像対から映像エンコーダによって生成された逆方向再構成マッピングを特定する。複数のHLG-EDR画像対は、上記のHLG画像を含まない複数のHLG画像と、その複数のHLG画像に対応する複数のEDR画像とを含む。
ブロック466において、画像プロセッシングデバイスは、HLG映像信号の受信機とともに動作するEDRディスプレイにEDRディスプレイ画像を描画させる。EDRディスプレイ画像は、コンポーザメタデータに基づいてHLG画像から構成された構成EDR画像から導出される。
ある実施形態において、ディスプレイデバイス、モバイルデバイス、セットトップボックス、マルチメディアデバイスなどのあるコンピューティングデバイスは、上記方法のいずれかを行うように構成される。ある実施形態において、ある装置は、プロセッサを含み、上記方法のいずれかを行うように構成される。ある実施形態において、ある非一時的なコンピュータ読み取り可能な記憶媒体は、ソフトウェア命令を記憶する。ソフトウェア命令は、1つ以上のプロセッサによって実行される際に、上記方法のいずれかを行わせる。
ある実施形態において、あるコンピューティングデバイスは、1つ以上のプロセッサおよび1セットの命令を含む1つ以上の記憶媒体を備える。1セットの命令は、1つ以上のプロセッサによって実行される際に、上記方法のいずれかを行わせる。
なお、別々の実施形態を本明細書において記載するが、本明細書に記載の実施形態および/または部分的な実施形態の任意の組み合わせが更なる実施形態を形成し得る。
[コンピュータシステムの実装例]
本発明の実施形態は、コンピュータシステム、電子回路およびコンポーネントで構成されたシステム、マイクロコントローラ、フィールドプログラマブルゲートアレイ(FPG
A)または他のコンフィギュラブルまたはプログラマブルロジックデバイス(PLD)、離散時間またはデジタル信号プロセッサ(DSP)、特定用途向けIC(ASIC)などの集積回路(IC)デバイス、および/または、このようなシステム、デバイスまたはコンポーネントを1つ以上含む装置、を用いて実施し得る。このコンピュータおよび/またはICは、本明細書に記載のエンハンストダイナミックレンジを有する画像の適応型知覚的量子化に関する命令を行い、制御し、または実行し得る。このコンピュータおよび/またはICは、本明細書に記載の適応型知覚的量子化プロセスに関する様々なパラメータまたは値のいずれを演算してもよい。画像およびビデオ実施形態は、ハードウェア、ソフトウェア、ファームウェア、および、その様々な組み合わせで実施され得る。
本発明の特定の態様は、本発明の方法をプロセッサに行わせるためのソフトウェア命令を実行するコンピュータプロセッサを含む。例えば、ディスプレイ、エンコーダ、セットトップボックス、トランスコーダなどの中の1つ以上のプロセッサは、そのプロセッサがアクセス可能なプログラムメモリ内にあるソフトウェア命令を実行することによって、上記のHDR画像の適応型知覚的量子化に関する方法を実装し得る。本発明は、プログラム製品形態で提供されてもよい。このプログラム製品は、データプロセッサによって実行された時に本発明の方法をデータプロセッサに実行させるための命令を含む1セットの、コンピュータ読み取り可能な信号を格納する任意の非一時的媒体を含み得る。本発明によるプログラム製品は、様々な形態をとり得る。例えば、このプログラム製品は、フロッピーディスク、ハードディスクドライブを含む磁気データ記憶媒体、CD ROM、DVDを含む光学データ記憶媒体、ROM、フラッシュRAMなどを含む電子データ記憶媒体、などの物理的媒体を含み得る。このプログラム製品上のコンピュータ可読信号は、任意に、圧縮または暗号化されていてもよい。
上記においてあるコンポーネント(例えば、ソフトウェアモジュール、プロセッサ、アセンブリ、デバイス、回路など)に言及している場合、そのコンポーネントへの言及(「手段」への言及を含む)は、そうでないと明記されている場合を除いて、当該コンポーネントの機能を果たす(例えば、機能的に均等である)あらゆるコンポーネント(上記した本発明の例示の実施形態に出てくる機能を果たす開示構造に対して構造的に均等ではないコンポーネントも含む)を、当該コンポーネントの均等物として、含むものと解釈されるべきである。
一実施形態によると、本明細書に記載の技術は、1つ以上の専用コンピューティングデバイスによって実装される。専用コンピューティングデバイスは、上記技術を行うようにハードワイヤードであってもよいし、または上記技術を行うように永続的にプログラムされた1つ以上の特定用途向け集積回路(ASIC)またはフィールド・プログラマブル・ゲート・アレイ(FPGA)などのデジタル電子デバイスを含んでもよし、またはファームウェア、メモリ、他の記憶体、またはそれらの組み合わせにおけるプログラム命令にしたがって上記技術を行うようにプログラムされた、1つ以上の汎用ハードウェアプロセッサを含んでもよい。また、そのような専用コンピューティングデバイスは、カスタムハードワイヤードロジック、ASIC、またはFPGAをカスタムプログラミングと組み合わせて上記技術を達成し得る。専用コンピューティングデバイスは、デスクトップコンピュータシステム、ポータブルコンピュータシステム、携帯デバイス、ネットワーキングデバイス、またはハードワイヤードおよび/もしくはプログラムロジックを含んで上記技術を実装する任意の他のデバイスであり得る。
例えば、図5は、本発明のある実施形態が実装され得るコンピュータシステム500を例示するブロック図である。コンピュータシステム500は、バス502または情報を送受信するための他の通信機構と、バス502に接続された、情報を処理するためのハードウェアプロセッサ504とを含む。ハードウェアプロセッサ504は、例えば、汎用マイクロプロセッサであり得る。
また、コンピュータシステム500は、バス502に接続された、情報およびプロセッサ504によって実行されることになる命令を記憶するためのランダムアクセスメモリ(RAM)または他のダイナミック記憶デバイスなどのメインメモリ506を含む。また、メインメモリ506は、プロセッサ504によって実行されることになる命令の実行中の一時的変数または他の中間情報を記憶するために使用され得る。そのような命令は、プロセッサ504がアクセス可能な非一時的な記憶媒体に記憶される場合は、コンピュータシステム500を、命令において特定される動作を行うようにカスタマイズされた専用マシンにする。
コンピュータシステム500は、バス502に接続された、静的情報およびプロセッサ504のための命令を記憶するための読み取り専用メモリ(ROM)508または他の静的記憶デバイスをさらに含む。情報および命令を記憶するために、磁気ディスクまたは光学ディスクなどの記憶デバイス510が提供され、バス502に接続される。
コンピュータシステム500は、情報をコンピュータユーザに対して表示するための液晶ディスプレイなどのディスプレイ512にバス502を介して接続され得る。プロセッサ504に情報およびコマンド選択を送受信するために、英数字キーまたは他のキーを含む入力デバイス514がバス502に接続される。プロセッサ504に方向情報およびコマンド選択を送受信するための、およびディスプレイ512上のカーソル移動を制御するための他の種類のユーザ入力デバイスは、マウス、トラックボール、またはカーソル方向キーなどのカーソル制御516である。この入力デバイスは、典型的には2つの軸(第1の軸(例えば、x)および第2の軸(例えば、y))における2つの自由度を有する。これにより、そのデバイスは、平面において位置を特定できる。
コンピュータシステム500は、コンピュータシステムと組み合わされてコンピュータシステム500を専用マシンにするか、またはプログラムする、ハードワイヤードロジック、1つ以上のASICまたはFPGA、ファームウェアおよび/またはプログラムロジックを使用して、上記技術を実装し得る。一実施形態によると、本明細書に記載される技術は、メインメモリ506に含まれる1つ以上のシーケンスの1つ以上の命令をプロセッサ504が実行することに応答して、コンピュータシステム500によって行われる。そのような命令は、記憶デバイス510などの別の記憶媒体からメインメモリ506に読み込まれ得る。メインメモリ506に含まれる命令シーケンスを実行することによって、プロセッサ504は、本明細書に記載のプロセスステップを行う。別の実施形態において、ハードワイヤードな回路をソフトウェア命令の代わりに、またはそれに組み合わせて使用し得る。
本明細書で使用する「記憶媒体」という用語は、マシンを特定のやり方で動作させるデータおよび/または命令を記憶する任意の非一時的媒体を指す。そのような記憶媒体は、不揮発性媒体および/または揮発性媒体を含み得る。非揮発性媒体は、例えば、記憶デバイス510などの光学または磁気ディスクを含む。揮発性媒体は、メインメモリ506などのダイナミックメモリを含む。記憶媒体の一般的な形態は、例えば、フロッピーディスク、フレキシブルディスク、ハードディスク、ソリッドステートドライブ、磁気テープ、または任意の他の磁気データ記憶媒体、CD-ROM、任意の他の光学データ記憶媒体、穴のパターンを有する任意の物理媒体、RAM、PROM、およびEPROM、FLASH-EPROM、NVRAM、任意の他のメモリチップまたはカートリッジを含む。
記憶媒体は、伝送媒体とは異なるが、それと併せて使用され得る。伝送媒体は、情報を記憶媒体間で転送することに関与する。例えば、伝送媒体は、同軸ケーブル、銅ワイヤ、および光ファイバを含み、バス502を備えるワイヤを含む。また、伝送媒体は、電波データ通信および赤外データ通信中に生成される音波または光波などの音波または光波の形態をとり得る。
種々の形態の媒体が1つ以上のシーケンスの1つ以上の命令を実行のためのプロセッサ504に搬送することに関与し得る。例えば、命令は、最初は遠隔のコンピュータの磁気ディスクまたはソリッドステートドライブ上に担持され得る。遠隔コンピュータは、命令をそのダイナミックメモリにロードしたり、命令をモデムを使用して電話回線を介して送信し得る。コンピュータシステム500に対してローカルなモデムは、電話回線上でデータを受信し、赤外送信機を使用してデータを赤外信号に変換し得る。赤外検出器が赤外信号において搬送されるデータを受信し得る。そして、適切な回路がデータをバス502上に配置し得る。バス502は、データをメインメモリ506に搬送する。プロセッサ504は、メインメモリ506から命令を取り込んで、実行する。メインメモリ506によって受信された命令は、プロセッサ504による実行の前または後のいずれかに、必要に応じて記憶デバイス510上に記憶され得る。
また、コンピュータシステム500は、バス502に接続された通信インタフェース518を含む。通信インタフェース518は、ローカルネットワーク522に接続されたネットワークリンク520に接続する双方向データ通信を提供する。例えば、通信インタフェース518は、サービス総合デジタル網(ISDN)カード、ケーブルモデム、衛星モデム、またはデータ通信接続を対応する種類の電話回線に与えるためのモデムであり得る。別の例として、通信インタフェース518は、データ通信接続を互換性のあるLANに与えるためのローカルエリア ネットワーク(LAN)カードであり得る。また、無線リンクが実装され得る。任意のそのような実装において、通信インタフェース518は、様々な種類の情報を表すデジタルデータストリームを搬送する電気、電磁または光学信号を送信および受信する。
ネットワークリンク520は、典型的には、データ通信を1つ以上のネットワークを介して他のデータデバイスに与える。例えば、ネットワークリンク520は、ローカルネットワーク522を介してホストコンピュータ524、またはインターネットサービスプロバイダ(ISP)526によって操作されるデータ設備に接続を与え得る。次いで、ISP526は、データ通信サービスを、現在一般的に「インターネット」と呼ばれるワールドワイドパケットデータ通信ネットワーク528を介して提供する。ローカルネットワーク522およびインターネット528の両方は、 デジタルデータストリームを搬送する電気、電磁、または光学信号を使用する。コンピュータシステム500へおよびからデジタルデータを搬送する、種々のネットワークを介する信号ならびにネットワークリンク520上のおよび通信インタフェース518を介した信号は、伝送媒体の形態例である。
コンピュータシステム500は、ネットワーク、ネットワークリンク520、および通信インタフェース518を介して、メッセージを送信し、プログラムコードなどのデータを受信し得る。インターネット例において、サーバ530は、アプリケーションプログラムについてのリクエストされたコードをインターネット528、ISP526、ローカルネットワーク522、および通信インタフェース518を介して送信し得る。
受信されたコードは、受信されるとプロセッサ504によって実行され得るか、および/または後で実行するために、記憶デバイス510または他の不揮発性記憶体に記憶され得る。
[均等物、拡張物、代替物、その他]
この明細書中において、実装毎に異なり得る多数の具体的な詳細に言及しながら本発明の実施形態を説明した。従って、本発明が如何なるものかおよび出願人は本発明が如何なるものであると意図しているかについての唯一且つ排他的な指標は、後の訂正を含む、これら請求項が生じる具体的な形態の、本願から生じる1組の請求項である。当該請求項に含まれる用語に対して本明細書中に明示したあらゆる定義が、請求項内で使用される当該用語の意味を決定するものとする。よって、請求項に明示的に記載されていない限定事項、構成要素、特性、特徴、利点または属性は、いかなる形であれ請求の範囲を限定するものではない。従って、本明細書および図面は、限定的ではなく、例示的であると認識されるべきものである。
本発明の様々な局面は、以下の列挙された例示の実施形態(enumerated example embodiment:EEE)から理解され得る。
EEE1.
スタンダードダイナミックレンジ(SDR)画像を受信するステップと、
前記SDR画像をエンハンストダイナミックレンジ(EDR)画像にマッピングするためのコンポーザメタデータを生成するステップであって、前記コンポーザメタデータは、訓練データベースにおける複数のSDR-EDR画像対から生成された逆方向再構成マッピングを特定し、前記複数のSDR-EDR画像対は、前記SDR画像を含まない複数のSDR画像と、前記複数のSDR画像に対応する複数のEDR画像とを含む、ステップと、
前記SDR画像および前記コンポーザメタデータを出力SDR映像信号において符号化するステップと、
前記出力SDR映像信号の受信機とともに動作するEDRディスプレイにEDRディスプレイ画像を描画させるステップであって、前記EDRディスプレイ画像は、前記コンポーザメタデータに基づいて前記SDR画像から構成された構成EDR画像から導出される、ステップと、
を含む方法。

EEE2.
前記SDR画像は、前記出力SDR映像信号において符号化されている1シーケンスのSDR画像である、
EEE1の方法。

EEE3.
前記コンポーザメタデータは、前記構成EDR画像が生成されたコンポジション色空間、または前記構成EDR画像用のリファレンスEDRディスプレイによってサポートされるピーク輝度値のうちの1つ以上に基づいて選択された逆方向再構成関数を特定する、
先行するEEEのいずれかに記載の方法。

EEE4.
前記SDR画像から複数の画像関連特徴を抽出するステップと、
前記複数の画像関連特徴、および前記複数のSDR-EDR画像対を使用して生成された複数の最適化された重み値に基づいて、前記逆方向再構成マッピングを特定する1セットのパラメータを生成するステップと、
をさらに含む、先行するEEEのいずれかに記載の方法。

EEE5.
複数の最適化された重み値は、前記複数のSDR-EDR画像対を使用して、一般線形モデルにおいて生成される、
先行するEEEのいずれかに記載の方法。

EEE6.
前記複数の画像関連特徴は、前記SDR画像におけるSDRルマコードワードから計算される1セットのルマ統計値に関連する特徴、前記SDR画像における前記SDRルマコードワードの分布に関連する特徴、または前記SDR画像における前記SDRルマコードワードの前記分布に対応するクロマ値に関連する特徴のうちの1つ以上を含む、
先行するEEEのいずれかに記載の方法。

EEE7.
SDRコードワード空間にわたって分布する1セットのSDRコードワードについての1セットの推定されたEDRコードワードを生成するステップと、
前記1セットの推定されたEDRコードワードに基づいて、補間された逆方向再構成マッピングを生成するステップと、
前記補間された逆方向再構成マッピングを、前記出力SDR映像信号において符号化される前記再構成関数に変更するステップであって、前記逆方向再構成関数は、単調非低減条件を満たす、ステップと、
をさらに含むEEE4に記載の方法。

EEE8.
前記逆方向再構成関数を移動SDRコードワードウィンドウにわたって平滑化するステップ、
をさらに含むEEE7に記載の方法。

EEE9.
前記逆方向再構成マッピングは、逆方向再構成曲線、逆方向再構成関数、パラメータ化マッピング関数、逆方向ルックアップテーブル(BLUT)、1セットの近似多項式区分、または行列に基づくマッピングのうちの1つを表す、
先行するEEEのいずれかに記載の方法。

EEE10.
前記出力SDR映像信号は、ディスプレイマネジメント(DM)メタデータを用いてさらに符号化され、前記ディスプレイマネジメント(DM)メタデータは、前記受信機によって、リファレンスEDRディスプレイ用に最適化された前記構成EDR画像に対してDM演算を行うために使用され、前記EDRディスプレイ用に最適化された前記EDRディスプレイ画像を生成することになる、
先行するEEEのいずれかに記載の方法。

EEE11.
前記方法は、映像エンコーダによって行われ、前記DMメタデータは、DM色空間について、コンポジション色空間において構成されたEDRコードワードを使用する近似に基づいて、前記映像エンコーダによって生成される、
EEE10に記載の方法。

EEE12.
前記方法は、映像エンコーダによって行われ、前記DMメタデータは、DM色空間について、前記DM色空間について生成されたEDRコードワードに基づいて、前記映像エンコーダによって生成される、
EEE10に記載の方法。

EEE13.
前記方法は、映像エンコーダによって行われ、前記DMメタデータは、DM色空間について、前記SDR画像におけるSDRコードワードの分布から導出されたマッピング統計値に基づいて、前記映像エンコーダによって生成される、
EEE10に記載の方法。

EEE14.
前記DMメタデータは、フレームレベルのDMメタデータ、シーンレベルのDMメタデータ、マルチシーンレベルのDMメタデータ、手動シーンカット情報に少なくとも部分的に基づいて生成されるDMメタデータ、自動的に検出されたシーンカット情報に少なくとも部分的に基づいて生成されるDMメタデータ、またはスライディングウィンドウを用いて生成される、フィルタリングされたDMメタデータのうちの1つ以上を含む、
EEE10~13のいずれかに記載の方法。

EEE15.
前記フィルタリングされたDMメタデータは、前記スライディングウィンドウに基づいて平滑化フィルタによって平滑化された平均シーンに基づく輝度値を含み、前記スライディングウィンドウは、前記自動的に検出されたシーンカット情報において示されるシーンカットにわたって移動する、
EEE14に記載の方法。

EEE16.
前記SDR画像、前記構成EDR画像、または前記EDRディスプレイ画像のうちの少なくとも1つは、IPT PQ(ICtCp)色空間、YCbCr色空間、RGB色空間、Rec.2020色空間、Rec.709色空間、拡張ダイナミックレンジ(EDR)色空間、ガンマ/HLG/PQ色空間、またはスタンダードダイナミックレンジ(SDR)色空間のうちの1つにおいて表される、
先行するEEEのいずれかに記載の方法。

EEE17.
前記SDR画像のビット深度は、8、9、または10+ビットうちの1つである、
先行するEEEのいずれかに記載の方法。

EEE18.
前記SDR画像は、前記出力SDR映像信号を同じビット深度の入力SDR映像信号において受信される、
先行するEEEのいずれかに記載の方法。

EEE19.
前記SDR画像は、前記出力SDR映像信号とは異なるビット深度の入力SDR映像信号において受信され、前記出力SDR映像信号は、ビット深度がスケーリングされたバージョンの前記SDR画像を含む、
先行するEEEのいずれかに記載の方法。

EEE20.
前記SDR画像は、映像プロフェッショナルの芸術的な意図に基づいて生成される、
先行するEEEのいずれかに記載の方法。

EEE21.
前記逆方向再構成マッピングは、前記複数のSDR-EDR画像対を用いて予測係数を訓練することによって得られた、最適化された予測係数値から生成される、
先行するEEEのいずれかに記載の方法。

EEE22.
前記SDR画像から抽出された複数の特徴、および前記複数のSDR-EDR画像対に基づいて訓練された複数の最適化された予測係数に基づいて、それぞれSDRサンプルコードワードを、マッピングされたEDRサンプルコードワードにマッピングする複数のサンプル点マッピングを生成するステップと、
前記複数のサンプル点マッピングに基づいて、利用可能なSDRコードワードの全範囲にわたって補間された逆方向再構成マッピングを生成するステップと、
前記利用可能なSDRコードワードの全範囲における各利用可能なSDRコードワードを中心としたスライディングウィンドウを使用して、平均フィルタリングを前記補間された逆方向再構成マッピングに適用することによって、前記補間された逆方向再構成マッピングから前記逆方向再構成マッピングを生成するステップと、
をさらに含む、先行するEEEのいずれかに記載の方法。

EEE23.
SDR画像およびコンポーザメタデータを用いて符号化されたスタンダードダイナミックレンジ(SDR)映像信号を受信するステップと、
前記コンポーザメタデータを使用して、前記SDR画像を、構成されたエンハンストダイナミックレンジ(EDR)画像にマッピングするステップであって、前記コンポーザメタデータは、訓練データベースにおける複数のSDR-EDR画像対から映像エンコーダによって生成された逆方向再構成マッピングを特定し、前記複数のSDR-EDR画像対は、前記SDR画像を含まない複数のSDR画像と、前記複数のSDR画像に対応する複数のEDR画像とを含む、ステップと、
前記SDR映像信号の受信機とともに動作するEDRディスプレイにEDRディスプレイ画像を描画させるステップであって、前記EDRディスプレイ画像は、前記コンポーザメタデータに基づいて前記SDR画像から構成された前記構成EDR画像から導出される、ステップと、
を含む方法。

EEE24.
前記コンポーザメタデータは、前記SDR画像とは別の画像メタデータとして前記SDR映像信号において搬送される、
EEE23に記載の方法。

EEE25.
前記構成EDR画像に対して色空間変換を行うステップ、
をさらに含む、EEE23またはEEE24に記載の方法。

EEE26.
前記SDR映像信号からディスプレイマネジメント(DM)メタデータを抽出するステップと、
前記構成EDR画像から前記EDRディスプレイ画像を生成するステップの一部として、前記構成EDR画像に対してDM演算を適用するステップと、
をさらに含む、EEE23~25のいずれかに記載の方法。

EEE27.
ハイブリッドログガンマ(HLG)画像を受信するステップと、
前記HLG画像をエンハンストダイナミックレンジ(EDR)画像にマッピングするためのコンポーザメタデータを生成するステップであって、前記コンポーザメタデータは、訓練データベースにおける複数のHLG-EDR画像対から生成された逆方向再構成マッピングを特定し、前記複数のHLG-EDR画像対は、前記HLG画像を含まない複数のHLG画像と、前記複数のSDR画像に対応する複数のEDR画像とを含む、ステップと、
前記HLG画像および前記コンポーザメタデータを出力HLG映像信号において符号化するステップと、
前記出力HLG映像信号の受信機とともに動作するEDRディスプレイにEDRディスプレイ画像を描画させるステップであって、前記EDRディスプレイ画像は、前記コンポーザメタデータに基づいて前記HLG画像から構成された構成EDR画像から導出される、ステップと、
を含む方法。

EEE28.
前記HLG画像から抽出された複数の特徴、および前記複数のHLG-EDR画像対に基づいて訓練された複数の最適化された予測係数に基づいて、それぞれHLGサンプルコードワードを、マッピングされたEDRサンプルコードワードにマッピングする複数のサンプル点マッピングを生成するステップと、
前記複数のサンプル点マッピングに基づいて、利用可能なHLGコードワードの全範囲にわたって補間された逆方向再構成マッピングを生成するステップと、
利用可能なHLGコードワードの全範囲における各利用可能なHLGコードワードを中心としたスライディングウィンドウを使用して、平均フィルタリングを前記補間された逆方向再構成マッピングに適用することによって、前記補間された逆方向再構成マッピングから前記逆方向再構成マッピングを生成するステップと、
をさらに含む、EEE27に記載の方法。

EEE29.
ハイブリッドログガンマ(HLG)画像およびコンポーザメタデータを用いて符号化されたHLG映像信号を受信するステップと、
前記コンポーザメタデータを使用して、前記HLG画像を、構成されたエンハンストダイナミックレンジ(EDR)画像にマッピングするステップであって、前記コンポーザメタデータは、訓練データベースにおける複数のHLG-EDR画像対から映像エンコーダによって生成された逆方向再構成マッピングを特定し、前記複数のHLG-EDR画像対は、前記HLG画像を含まない複数のHLG画像と、前記複数のHLG画像に対応する複数のEDR画像とを含む、ステップと、
前記HLG映像信号の受信機とともに動作するEDRディスプレイにEDRディスプレイ画像を描画させるステップであって、前記EDRディスプレイ画像は、前記コンポーザメタデータに基づいて前記HLG画像から構成された前記構成EDR画像から導出される、ステップと、
を含む方法。

EEE30.
EEE1~29にいずれかに記載の方法を行うように構成されたコンピュータシステム。

EEE31.
プロセッサを備え、EEE1~29のいずれかに記載の方法を行うように構成されたコンピュータシステム。

EEE32.
EEE1~29のいずれかに記載の方法を実行するためのコンピュータ実行可能な命令を記憶した、非一時的なコンピュータ読み取り可能な記憶媒体。

Claims (13)

  1. スタンダードダイナミックレンジ(SDR)画像を受信するステップと、
    前記SDR画像をエンハンストダイナミックレンジ(EDR)画像にマッピングするためのコンポーザメタデータを生成するステップであって、前記コンポーザメタデータは、訓練データベースにおける複数のSDR-EDR画像対から生成された逆方向再構成マッピングを特定し、前記複数のSDR-EDR画像対は、前記SDR画像を含まない複数のSDR画像と、前記複数のSDR画像に対応する複数のEDR画像とを含む、ステップと、
    前記SDR画像および前記コンポーザメタデータを出力SDR映像信号において符号化するステップと、
    前記出力SDR映像信号の受信機とともに動作するEDRディスプレイがEDRディスプレイ画像を描画できるように前記SDR映像信号を出力するステップであって、前記EDRディスプレイ画像は、前記コンポーザメタデータに基づいて前記SDR画像から構成された構成EDR画像から導出される、ステップと、
    を含む方法であって、
    前記コンポーザメタデータを生成するステップは、
    前記SDR画像から複数の画像関連特徴を抽出するステップであって、前記複数の画像関連特徴は、前記SDR画像におけるSDRルマコードワードから計算された1セットのルマ統計値に関連する特徴、前記SDR画像における前記SDRルマコードワードの分布に関連する特徴、または前記SDR画像における前記SDRルマコードワードの分布に対応するクロマ値に関連する特徴のうちの1つ以上を含む、ステップと、
    前記複数の画像関連特徴および前記複数のSDR-EDR画像対を用いて予測係数を訓練することによって得られた複数の予測係数に基づいて、前記逆方向再構成マッピングを特定する1セットのパラメータを含む前記コンポーザメタデータを生成するステップと、
    をさらに含む方法。
  2. 前記逆方向再構成マッピングは、前記構成EDR画像が生成されたコンポジション色空間、または前記構成EDR画像用のリファレンスEDRディスプレイによってサポートされるピーク輝度値のうちの1つ以上に基づいて選択された逆方向再構成関数を表す、
    請求項1に記載の方法。
  3. 前記逆方向再構成マッピングは、逆方向再構成曲線、逆方向再構成関数、パラメータ化マッピング関数、逆方向ルックアップテーブル(BLUT)、1セットの近似多項式区分、または行列に基づくマッピングのうちの1つを表す、
    請求項1または2に記載の方法。
  4. 前記出力SDR映像信号は、ディスプレイマネジメント(DM)メタデータを含むように符号化され、前記ディスプレイマネジメント(DM)メタデータは、前記受信機によって、リファレンスEDRディスプレイ用に最適化された前記構成EDR画像に対してDM演算を行うために使用され、前記EDRディスプレイ用に最適化された前記EDRディスプレイ画像が生成される、
    請求項1から3のいずれかに記載の方法。
  5. 前記SDR画像、前記構成EDR画像、または前記EDRディスプレイ画像のうちの少なくとも1つは、IPT PQ色空間、YCbCr色空間、RGB色空間、Rec.2020色空間、Rec.709色空間、拡張ダイナミックレンジ(EDR)色空間、HLG色空間、またはスタンダードダイナミックレンジ(SDR)色空間のうちの1つにおいて表される、
    請求項1から4のいずれかに記載の方法。
  6. 前記SDR画像から抽出された複数の画像関連特徴、および前記複数のSDR-EDR画像対に基づいて訓練された複数の予測係数に基づいて、それぞれSDRサンプルコードワードを、マッピングされたEDRサンプルコードワードにマッピングする複数のサンプル点マッピングを生成するステップと、
    前記複数のサンプル点マッピングに基づいて、利用可能なSDRコードワードの全範囲にわたって補間された逆方向再構成マッピングを生成するステップと、
    前記利用可能なSDRコードワードの全範囲における各利用可能なSDRコードワードを中心としたスライディングウィンドウを使用して、平均フィルタリングを前記補間された逆方向再構成マッピングに適用することによって、前記補間された逆方向再構成マッピングから前記逆方向再構成マッピングを生成するステップと、
    をさらに含む、請求項1から5のいずれかに記載の方法。
  7. SDR画像およびコンポーザメタデータを用いて符号化されたスタンダードダイナミックレンジ(SDR)映像信号を受信するステップと、
    前記コンポーザメタデータを使用して、前記SDR画像を、構成されたエンハンストダイナミックレンジ(EDR)画像にマッピングするステップであって、前記コンポーザメタデータは、訓練データベースにおける複数のSDR-EDR画像対から映像エンコーダによって生成された逆方向再構成マッピングを特定し、前記複数のSDR-EDR画像対は、前記SDR画像を含まない複数のSDR画像と、前記複数のSDR画像に対応する複数のEDR画像とを含む、ステップと、
    前記SDR映像信号の受信機とともに動作するEDRディスプレイにEDRディスプレイ画像を描画させるステップであって、前記EDRディスプレイ画像は、前記コンポーザメタデータに基づいて前記SDR画像から構成された前記構成EDR画像から導出される、ステップと、
    を含み、
    前記コンポーザメタデータは、1セットのパラメータを含み、
    前記逆方向再構成マッピングは、前記複数のSDR-EDR画像対および前記SDR画像から抽出された複数の画像関連特徴を用いて予測係数を訓練することによって得られた複数の予測係数に基づいて生成された前記1セットのパラメータによって特定され、
    前記複数の画像関連特徴は、前記SDR画像におけるSDRルマコードワードから計算された1セットのルマ統計値に関連する特徴、前記SDR画像における前記SDRルマコードワードの分布に関連する特徴、または前記SDR画像における前記SDRルマコードワードの分布に対応するクロマ値に関連する特徴のうちの1つ以上を含む、
    方法。
  8. 前記コンポーザメタデータは、前記SDR画像とは別の画像メタデータとして前記SDR映像信号において搬送される、
    請求項7に記載の方法。
  9. 前記構成EDR画像に対して色空間変換を行うステップ
    をさらに含む、請求項またはに記載の方法。
  10. 前記SDR映像信号からディスプレイマネジメント(DM)メタデータを抽出するステップと、
    前記構成EDR画像から前記EDRディスプレイ画像を生成するステップの一部として、前記構成EDR画像に対してDM演算を適用するステップと、
    をさらに含む、請求項7から9のいずれかに記載の方法。
  11. 請求項1から10のいずれかに記載の方法を行うように構成されたコンピュータシステム。
  12. プロセッサを備え、請求項1から10のいずれかに記載の方法を行うように構成された装置。
  13. 請求項1から10のいずれかに記載の方法を実行するためのコンピュータ実行可能な命令を含むコンピュータプログラム。
JP2019569766A 2017-06-16 2018-06-13 効率的なエンド・ツー・エンドシングルレイヤー逆ディスプレイマネジメント符号化 Active JP7037584B2 (ja)

Applications Claiming Priority (5)

Application Number Priority Date Filing Date Title
US201762520832P 2017-06-16 2017-06-16
EP17176416 2017-06-16
US62/520,832 2017-06-16
EP17176416.0 2017-06-16
PCT/US2018/037313 WO2018231968A1 (en) 2017-06-16 2018-06-13 Efficient end-to-end single layer inverse display management coding

Publications (2)

Publication Number Publication Date
JP2020524446A JP2020524446A (ja) 2020-08-13
JP7037584B2 true JP7037584B2 (ja) 2022-03-16

Family

ID=62685257

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2019569766A Active JP7037584B2 (ja) 2017-06-16 2018-06-13 効率的なエンド・ツー・エンドシングルレイヤー逆ディスプレイマネジメント符号化

Country Status (4)

Country Link
US (1) US11288781B2 (ja)
EP (1) EP3639238B1 (ja)
JP (1) JP7037584B2 (ja)
CN (1) CN110770787B (ja)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112714923B (zh) * 2018-09-19 2022-03-11 杜比实验室特许公司 用于图像元数据优化的方法
JP7249417B2 (ja) 2018-12-19 2023-03-30 ドルビー ラボラトリーズ ライセンシング コーポレイション 適応的スパースフィルタリングを用いた画像のデバンディング
JPWO2022172449A1 (ja) * 2021-02-15 2022-08-18
US20230133015A1 (en) * 2021-10-28 2023-05-04 Avago Technologies International Sales Pte. Limited Feature and parameter extraction for audio and video processing

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2010231756A (ja) 2009-03-25 2010-10-14 Micro-Star Internatl Co Ltd Hdr画像生成方法および同方法を用いる電子デバイス
JP2013539610A (ja) 2010-07-06 2013-10-24 コーニンクレッカ フィリップス エヌ ヴェ 低いダイナミックレンジ画像から高いダイナミックレンジ画像の生成
JP2014519221A (ja) 2011-04-28 2014-08-07 コーニンクレッカ フィリップス エヌ ヴェ 映像符号化信号を発生する方法及び装置
JP2017033534A (ja) 2015-08-04 2017-02-09 ドルビー ラボラトリーズ ライセンシング コーポレイション ハイダイナミックレンジ信号のための信号再構成
JP2017509057A (ja) 2014-02-26 2017-03-30 トムソン ライセンシングThomson Licensing Hdr画像を符号化及び復号する方法及び装置
JP2017509238A (ja) 2014-02-13 2017-03-30 ドルビー・インターナショナル・アーベー エンハンストダイナミックレンジを備える信号のための区分的階層間予測

Family Cites Families (28)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1520580A (zh) * 2000-07-06 2004-08-11 ŦԼ�и��ױ��Ǵ�ѧ�йܻ� 用于增强数据解析度的方法和设备
US6879731B2 (en) * 2003-04-29 2005-04-12 Microsoft Corporation System and process for generating high dynamic range video
US8665942B2 (en) * 2007-01-23 2014-03-04 Sharp Laboratories Of America, Inc. Methods and systems for inter-layer image prediction signaling
EP2406959B1 (en) * 2009-03-13 2015-01-14 Dolby Laboratories Licensing Corporation Layered compression of high dynamic range, visual dynamic range, and wide color gamut video
TWI479898B (zh) 2010-08-25 2015-04-01 Dolby Lab Licensing Corp 擴展影像動態範圍
US8737736B2 (en) * 2010-12-31 2014-05-27 Microsoft Corporation Tone mapping of very large aerial image mosaic
EP2782348B1 (en) 2011-04-14 2017-12-27 Dolby Laboratories Licensing Corporation Multiple color channel multiple regression predictor
CN103535038B (zh) 2011-05-16 2017-10-13 杜比实验室特许公司 用于分层vdr编码的有效架构
US11640656B2 (en) * 2011-09-27 2023-05-02 Koninklijke Philips N.V. Apparatus and method for dynamic range transforming of images
TWI575933B (zh) 2011-11-04 2017-03-21 杜比實驗室特許公司 階層式視覺動態範圍編碼中之層分解技術
LT3514677T (lt) 2011-12-06 2020-12-28 Dolby Laboratories Licensing Corporation Percepcinio šviesio netiesinio vaizdo duomenų mainų tarp skirtingos gebos ekranų gerinimo įtaisas ir būdas
GB201216263D0 (en) * 2012-09-12 2012-10-24 Univ Warwick Multi-view high dynamic range imaging
JP6367839B2 (ja) 2013-02-21 2018-08-01 ドルビー ラボラトリーズ ライセンシング コーポレイション 高ダイナミックレンジ・ビデオのための表示管理
US9628808B2 (en) 2013-03-26 2017-04-18 Dolby Laboratories Licensing Corporation Encoding perceptually-quantized video content in multi-layer VDR coding
EP3011741B1 (en) 2013-06-17 2018-03-07 Dolby Laboratories Licensing Corporation Adaptive reshaping for layered coding of enhanced dynamic range signals
US9538155B2 (en) 2013-12-04 2017-01-03 Dolby Laboratories Licensing Corporation Decoding and display of high dynamic range video
CN106233706B (zh) * 2014-02-25 2020-01-03 苹果公司 用于提供具有标准动态范围和高动态范围两者的视频的向后兼容的装置和方法
US9230338B2 (en) * 2014-03-05 2016-01-05 Dolby Laboratories Licensing Corporation Graphics blending for high dynamic range video
PT3324629T (pt) * 2014-05-28 2019-10-08 Koninklijke Philips Nv Métodos e aparelhos para codificação de imagens hdr e métodos e aparelhos para utilização de tais imagens codificadas
KR101794817B1 (ko) 2014-09-26 2017-11-07 돌비 레버러토리즈 라이쎈싱 코오포레이션 지각적으로 양자화된 비디오 콘텐츠를 인코딩 및 디코딩하는 방법
US20180005357A1 (en) * 2015-01-30 2018-01-04 Thomson Licensing Method and device for mapping a hdr picture to a sdr picture and corresponding sdr to hdr mapping method and device
EP3054418A1 (en) * 2015-02-06 2016-08-10 Thomson Licensing Method and apparatus for processing high dynamic range images
KR101844732B1 (ko) 2015-03-20 2018-04-02 돌비 레버러토리즈 라이쎈싱 코오포레이션 신호 재정형 근사화
EP3131284A1 (en) 2015-08-13 2017-02-15 Thomson Licensing Methods, systems and aparatus for hdr to hdr inverse tone mapping
KR102049481B1 (ko) * 2015-08-19 2019-11-27 삼성전자주식회사 이미지 변환을 수행하는 전자 장치 및 이의 방법
WO2017165494A2 (en) 2016-03-23 2017-09-28 Dolby Laboratories Licensing Corporation Encoding and decoding reversible production-quality single-layer video signals
KR102488954B1 (ko) * 2016-05-16 2023-01-16 엘지전자 주식회사 영상 처리 장치 및 그의 영상 처리 방법
WO2018119161A1 (en) 2016-12-22 2018-06-28 Dolby Laboratories Licensing Corporation Ambient light-adaptive display management

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2010231756A (ja) 2009-03-25 2010-10-14 Micro-Star Internatl Co Ltd Hdr画像生成方法および同方法を用いる電子デバイス
JP2013539610A (ja) 2010-07-06 2013-10-24 コーニンクレッカ フィリップス エヌ ヴェ 低いダイナミックレンジ画像から高いダイナミックレンジ画像の生成
JP2014519221A (ja) 2011-04-28 2014-08-07 コーニンクレッカ フィリップス エヌ ヴェ 映像符号化信号を発生する方法及び装置
JP2017509238A (ja) 2014-02-13 2017-03-30 ドルビー・インターナショナル・アーベー エンハンストダイナミックレンジを備える信号のための区分的階層間予測
JP2017509057A (ja) 2014-02-26 2017-03-30 トムソン ライセンシングThomson Licensing Hdr画像を符号化及び復号する方法及び装置
JP2017033534A (ja) 2015-08-04 2017-02-09 ドルビー ラボラトリーズ ライセンシング コーポレイション ハイダイナミックレンジ信号のための信号再構成

Also Published As

Publication number Publication date
US11288781B2 (en) 2022-03-29
JP2020524446A (ja) 2020-08-13
CN110770787A (zh) 2020-02-07
CN110770787B (zh) 2023-04-07
EP3639238B1 (en) 2022-06-15
US20210150680A1 (en) 2021-05-20
EP3639238A1 (en) 2020-04-22

Similar Documents

Publication Publication Date Title
US10397576B2 (en) Reshaping curve optimization in HDR coding
EP3433833B1 (en) Encoding and decoding reversible production-quality single-layer video signals
EP3176749B1 (en) Efficient image processing on content-adaptive pq signal domain
CN112106357B (zh) 用于对图像数据进行编码和解码的方法及装置
JP6684971B2 (ja) ハイダイナミックレンジ映像を符号化するためのセグメントベース再構成
JP7299982B2 (ja) 拡張標準ダイナミックレンジビデオ(sdr+)における機械学習ベースのダイナミックコンポージング
JP6846442B2 (ja) ハイダイナミックレンジ画像のためのクロマ再構成
US10701359B2 (en) Real-time content-adaptive perceptual quantizer for high dynamic range images
JP7037584B2 (ja) 効率的なエンド・ツー・エンドシングルレイヤー逆ディスプレイマネジメント符号化
EP3537717B1 (en) Single-layer progressive coding for supporting multi-capability hdr composition
WO2018231968A1 (en) Efficient end-to-end single layer inverse display management coding
WO2020061172A1 (en) Automatic display management metadata generation for gaming and/or sdr+ contents
TWI812874B (zh) 張量乘積之b平滑曲線預測子
JP7439251B2 (ja) ビデオコーデックにおける品質と計算の複雑さとの間の調整可能なトレードオフ
RU2794137C1 (ru) Предсказатель b-сплайна тензорного произведения
CN114830640A (zh) 级联预测

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20200214

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20200214

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20210224

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20210309

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20210609

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20211012

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20211020

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20220208

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20220304

R150 Certificate of patent or registration of utility model

Ref document number: 7037584

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150