JP7299982B2 - 拡張標準ダイナミックレンジビデオ(sdr+)における機械学習ベースのダイナミックコンポージング - Google Patents

拡張標準ダイナミックレンジビデオ(sdr+)における機械学習ベースのダイナミックコンポージング Download PDF

Info

Publication number
JP7299982B2
JP7299982B2 JP2021532030A JP2021532030A JP7299982B2 JP 7299982 B2 JP7299982 B2 JP 7299982B2 JP 2021532030 A JP2021532030 A JP 2021532030A JP 2021532030 A JP2021532030 A JP 2021532030A JP 7299982 B2 JP7299982 B2 JP 7299982B2
Authority
JP
Japan
Prior art keywords
image
sdr
training
hdr
backward
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2021532030A
Other languages
English (en)
Other versions
JP2022511072A (ja
Inventor
ハーシャッド カドゥ
ニーラジ ジェイ. ガードギール
コアン-ミン スー
Original Assignee
ドルビー ラボラトリーズ ライセンシング コーポレイション
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by ドルビー ラボラトリーズ ライセンシング コーポレイション filed Critical ドルビー ラボラトリーズ ライセンシング コーポレイション
Publication of JP2022511072A publication Critical patent/JP2022511072A/ja
Application granted granted Critical
Publication of JP7299982B2 publication Critical patent/JP7299982B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T5/00Image enhancement or restoration
    • G06T5/90Dynamic range modification of images or parts thereof
    • G06T5/92Dynamic range modification of images or parts thereof based on global image properties
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/80Details of filtering operations specially adapted for video compression, e.g. for pixel interpolation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/90Determination of colour characteristics
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/102Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or selection affected or controlled by the adaptive coding
    • H04N19/132Sampling, masking or truncation of coding units, e.g. adaptive resampling, frame skipping, frame interpolation or high-frequency transform coefficient masking
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/134Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or criterion affecting or controlling the adaptive coding
    • H04N19/162User input
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/169Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding
    • H04N19/17Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding the unit being an image region, e.g. an object
    • H04N19/172Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding the unit being an image region, e.g. an object the region being a picture, frame or field
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/169Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding
    • H04N19/186Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding the unit being a colour or a chrominance component
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/189Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the adaptation method, adaptation tool or adaptation type used for the adaptive coding
    • H04N19/196Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the adaptation method, adaptation tool or adaptation type used for the adaptive coding being specially adapted for the computation of encoding parameters, e.g. by averaging previously computed encoding parameters
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/46Embedding additional information in the video signal during the compression process
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/90Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using coding techniques not provided for in groups H04N19/10-H04N19/85, e.g. fractals
    • H04N19/98Adaptive-dynamic-range coding [ADRC]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20081Training; Learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20172Image enhancement details
    • G06T2207/20208High dynamic range [HDR] image processing

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Software Systems (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Computing Systems (AREA)
  • Evolutionary Computation (AREA)
  • Medical Informatics (AREA)
  • Data Mining & Analysis (AREA)
  • Artificial Intelligence (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Image Processing (AREA)
  • Image Analysis (AREA)

Description

関連出願の相互参照
本出願は、2018年12月18日に出願された米国特許出願第62/781,185号および2018年12月18日に出願された欧州優先権出願第18213670.5号の優先権を主張するものであり、そのすべての内容が参照により本明細書に組み込まれている。
本発明は、一般に画像に関する。より詳細には、本発明の一実施形態が標準ダイナミックレンジ(SDR)プラス拡張標準ダイナミックレンジ(SDR+)ビデオコンテンツにおける機械学習(ML)ベースのダイナミックコンポージングに関する。
本明細書で使用されるように、用語「ダイナミックレンジ」(DR)は、例えば、最も暗い黒(ダーク)から最も明るい白(ハイライト)までの、画像内の強度(例えば、輝度、ルマ)の範囲を知覚する人間の視覚系(HVS)の能力に関連し得る。この意味で、DRは「シーンリファード」強度に関連する。DRは、特定の幅の強度範囲を適切にまたは概ねレンダリングするディスプレイデバイスの能力にも関係し得る。この意味で、DRは「ディスプレイ参照」強度に関連する。本明細書の説明の任意の時点で特定の意味を有するように明示的に指定されていない限り、用語はいずれの意味でも、例えば、互換的に使用され得ることが推測されるべきである。
本明細書で使用されるように、高ダイナミックレンジ(HDR)という用語は、人間の視覚系(HVS)の14~15桁にわたるDR幅に関する。実際には、人間が強度範囲の広い幅を同時に知覚することができるDRは、HDRに関していくらか切り捨てることができる。本明細書で使用されるように、拡張ダイナミックレンジ(EDR)または視覚ダイナミックレンジ(VDR)という用語は、眼球運動を含む人間の視覚システム(HVS)によってシーンまたは画像内で知覚可能なDRに個別にまたは互換的に関連し、シーンまたは画像にわたるいくつかの光適応変化を可能にすることができる。本明細書で使用されるように、EDRは、5桁から6桁にわたるDRに関連し得る。したがって、HDRを参照した真のシーンに比べておそらくいくらか狭いが、それにもかかわらず、EDRは広いDR幅を表し、HDRとも呼ばれ得る。
実際には、画像が色空間の1つ以上の色成分(例えば、ルマYおよびクロマCbおよびCr)を含み、各色成分は、画素当たりnビットの精度(例えば、n=8)によって表される。線形輝度符号化(例えば、ガンマ符号化)を使用すると、n≦8の画像(例えば、カラー24ビットJPEG画像)は標準ダイナミックレンジの画像と考えられ、n>8の画像は強化されたダイナミックレンジの画像と考えられる。
所与のディスプレイに対する基準電気光学伝達関数(EOTF)は、ディスプレイによって生成される出力スクリーン色値(例えば、スクリーン輝度)に対する入力ビデオ信号の色値(例えば、輝度)間の関係を特徴付ける。たとえば、ITU Rec.ITU-R BT.1886「HDTVスタジオ生産で使用されるフラットパネルディスプレイのための基準電気光学伝達関数」(2011年3月)は、その全体が参照により本明細書に組み込まれ、フラットパネルディスプレイのための基準EOTFを定義する。ビデオストリームが与えられると、そのEOTFに関する情報は(画像)メタデータとしてビットストリームに埋め込まれてもよい。本明細書の「メタデータ」という用語は、符号化されたビットストリームの一部として送信される任意の補助情報に関連し、復号された画像をレンダリングするためにデコーダを支援する。そのようなメタデータは、本明細書で説明するように、色空間または色域情報、基準ディスプレイパラメータ、および補助信号パラメータを含むことができるが、これらに限定されない。
本明細書で使用される用語「PQ」は、知覚的輝度振幅量子化を指す。人間の視覚系は、増加する光レベルに非常に非線形な方法で反応する。刺激を見る人間の能力は、その刺激の輝度、刺激の大きさ、刺激を構成する空間周波数、および眼が刺激を見ている特定の瞬間に適応した輝度レベルによって影響を受ける。いくつかの実施形態では、知覚量子化機能が人間の視覚系におけるコントラスト感度閾値により良く一致する出力グレーレベルに、線形入力グレーレベルをマッピングする。例示的なPQマッピング関数は、SMPTE ST 2084:2014「High Dynamic Range EOTF of Mastering Reference Displays」(以下、「SMPTE」)に記載されており、これは、その全体が参照により本明細書に組み込まれ、ここで、すべての輝度レベル(例えば、刺激レベルなど)について、固定刺激サイズが与えられると、その輝度レベルにおける最小可視コントラストステップが最も感度の高い適応レベルおよび最も感度の高い空間周波数(HVSモデルによる)に従って選択される。
200~1,000cd/mまたはニトの輝度をサポートするディスプレイは、EDR(またはHDR)に関して、標準ダイナミックレンジ(SDR)とも呼ばれる、より低いダイナミックレンジ(LDR)を代表する。EDRコンテンツは、より高いダイナミックレンジ(例えば、1,000ニトから5,000ニト以上)をサポートするEDRディスプレイ上に表示されてもよい。そのようなディスプレイは、高輝度能力(例えば、0から1万またはそれ以上のニト)をサポートする代替EOTFを使用して定義され得る。このようなEOTFの例は、SMPTEで定義されている。本明細書の発明者らによって理解されるように、多種多様なSDRおよびHDRディスプレイデバイスの表示能力をサポートするために使用され得る、ビデオコンテンツデータを構成するための改善された技法が所望される。
このセクションで説明されるアプローチは追求されることができるアプローチであるが、必ずしも、以前に考えられたまたは追求されたアプローチではない。したがって、特に断らない限り、このセクションに記載されているアプローチのいずれも、単にこのセクションに含まれているために先行技術として適格であると仮定すべきではない。同様に、1つ以上のアプローチに関して特定された問題は特に断らない限り、このセクションに基づいていかなる先行技術においても認識されていると推測すべきではない。
本発明の実施形態は限定ではなく例として、添付の図面の図に示されており、同様の参照番号は同様の要素を指す。
図1は、ビデオ配信パイプラインの例示的なプロセスを示す。 図2AはSDRルマおよびクロマコードワードからのHDRルマおよびクロマコードワードの例示的な予測/推定を示す。 図2Bはガウス過程回帰(GPR)モデルをトレーニングするための例示的なプロセスを示す。 図2CはGPRモデルから後方ルックアップテーブル(BLUT)を生成するための例示的なプロセスを示す。 図2Dはクラスタ固有の多変量多重回帰(MMR)行列をトレーニングするための例示的なプロセスを示す。 図2EはMMR行列からMMR係数を生成するための例示的なプロセスを示す。 図2Fはエンコーダを用いた例示的なスタイル転送を示す。 図2Gはエンコーダを用いた例示的なスタイル転送を示す。 図2Hは、デコーダを用いた例示的なスタイル転送を示す。 図3Aは後方再整形曲線(またはBLUT)の予測されたエントリ(またはサンプル)を示す。 図3Bは特徴ベクトル空間における特徴ベクトルの例示的なクラスタを示す。 図3Cは例示的なクラスタ融合を示す。 図3Dは、例示的な結合されたルマ-クロマ1Dヒストグラムを示す。 図4Aは、例示的なプロセスフローを示す。 図4Bは、例示的なプロセスフローを示す。 図5は、本明細書で説明されるコンピュータまたはコンピューティングデバイスが実装され得る例示的なハードウェアプラットフォームの簡略化されたブロック図を示す。
SDRプラス(SDR+)とも呼ばれる拡張標準ダイナミックレンジにおける機械学習ベースのダイナミックコンポージング、ビデオコンテンツについて、本明細書で説明する。以下の説明において、説明の目的のために、本発明の完全な理解を提供するために、多数の特定の詳細が記載される。しかしながら、本発明は、これらの特定の詳細なしに実施できることは明らかであろう。他の例では、本発明を不必要に閉塞し、不明瞭にし、または難読化することを回避するために、周知の構造およびデバイスは網羅的な詳細では説明されない。
概要
本明細書で説明する例示的な実施形態は、機械学習による画像メタデータ生成/最適化に関する。複数のトレーニングSDR画像および複数の対応するトレーニングHDR画像を含む複数のトレーニング画像ペアが受信される。複数のトレーニング画像ペアにおける各トレーニング画像ペアは、複数のトレーニングSDR画像におけるトレーニングSDR画像と、複数の対応するトレーニングHDR画像における対応するトレーニングHDR画像とを含む。トレーニングSDR画像とそのような各トレーニング画像ペアにおける対応するトレーニングHDR画像は、同じ視覚コンテンツを描写するが、異なる輝度ダイナミックレンジを持つ。複数のトレーニング画像特徴ベクトルは、複数のトレーニング画像ペアにおける複数のトレーニングSDR画像から抽出される。複数のトレーニング画像特徴ベクトル内のトレーニング画像特徴ベクトルは、複数のトレーニング画像ペアのそれぞれのトレーニング画像ペアのトレーニングSDR画像から抽出される。複数の対応するトレーニングHDR画像を用いて導出された複数のトレーニング画像特徴ベクトルおよびグラウンドトゥルースは、SDR画像をマッピングされたHDR画像に後方再整形するために使用される後方再整形マッピングの動作パラメータ値を予測するために、1つまたは複数の後方再整形メタデータ予測モデルをトレーニングするために使用される。
本明細書で説明する例示的な実施形態は、機械学習による画像メタデータ生成/最適化に関する。対応するマッピングされたHDR画像に後方再整形されるSDR画像は、ビデオ信号から復号される。機械学習によって少なくとも部分的に生成されたダイナミックコンポーザメタデータは、画像固有の後方再整形マッピングの1つまたは複数の動作パラメータ値を導出するために使用され、ビデオ信号から復号される。画像固有の後方再整形マッピングの1つまたは複数の動作パラメータ値は、SDR画像をマッピングされたHDR画像に後方再整形するために使用される。マッピングされたHDR画像から導出された表示画像は、ディスプレイデバイスによってレンダリングされる。
ビデオ配信処理パイプラインの例
図1は、ビデオキャプチャ/生成からHDRまたはSDRディスプレイまでの様々なフェーズを示すビデオ配信パイプライン(100)の例示的なプロセスを示す。例示的なHDRディスプレイにはテレビ、モバイルデバイス、ホームシアター等と関連して動作する画像ディスプレイが含まれてもよいが、これらに限定されない。例示的なSDRディスプレイにはSDRテレビ、モバイルデバイス、ホームシアターディスプレイ、ヘッドマウントディスプレイデバイス、ウェアラブルディスプレイデバイスなどが含まれてもよいが、これらに限定されない。
ビデオフレーム(102)は、画像生成ブロック(105)を使用してキャプチャされるか、または生成される。ビデオフレーム(102)は、ビデオデータ(107)を提供するために、(例えば、デジタルカメラによって)デジタル的にキャプチャされるか、または(例えば、コンピュータアニメーションなどを使用して)コンピュータによって生成され得る。追加的、任意選択的、または代替的に、ビデオフレーム(102)は、フィルムカメラによってフィルム上に取り込まれてもよい。フィルムは、ビデオデータを提供するためにデジタルフォーマットに変換される(107)。いくつかの実施形態では、ビデオデータ(107)は、ビデオ配信パイプライン(100)内の次の処理ステージ/フェーズに渡される前に、(例えば、人間の入力を伴わずに自動的に、手動で、人間の入力を伴って自動的に)一連の画像に編集または変換されてもよい。
ビデオデータ(107)は、SDRコンテンツ(例えば、SDR+コンテンツ)と、ビデオ配信パイプライン(100)の下流にある受信者デバイスによって使用されて、SDRビデオコンテンツの復号されたバージョンに対して画像処理動作を実行することができる画像メタデータとを含み得る。
SDRビデオコンテンツの例としては、SDR+ビデオコンテンツ、SDR画像、SDRムービーリリース、SDR+画像、SDRメディアプログラムなどがあるが、これらに限定されない。
本明細書で使用されるように、用語「SDR+」はSDR画像データとメタデータとの組み合わせを意味し、これらは、組み合わされると、対応する高ダイナミックレンジ(HDR)画像データを生成することを可能にする。SDR+画像メタデータは、入力SDR画像に適用されたときに対応するHDR画像を生成する後方再整形マッピング(例えば、後方再整形関数/曲線/多項式集合、多変量多重回帰(MMR)係数など)を生成するためのコンポーザデータを含むことができる。SDR+画像を使用すると、SDR+画像メタデータを無視して単にSDR画像を表示できる従来のSDRディスプレイとの後方互換性が可能になる。
SDRビデオコンテンツと共に受信者デバイスに送信される画像メタデータは、本明細書に記載する技術の下で(例えば、自動的に、リアルタイムに、オフライン処理で、)生成されるMLコンポーザメタデータを含み得る。いくつかの実施形態では、(例えば、SDRコンテンツ編集またはカラーグレーディング後の)ビデオデータ(107)は、MLコンポーザメタデータ生成(115)のためにプロセッサに提供される。MLコンポーザメタデータ生成(115)は、人間の対話をまったくまたはほとんど行わずに、MLコンポーザメタデータを自動的に生成できる。自動的に生成されたMLコンポーザメタデータは、ビデオデータ(107)内のSDR画像から対応する高ダイナミックレンジ(HDR)画像を生成するために、受信者デバイス(1つまたは複数)によって後方再整形動作を実行するために使用することができる。
MLコンポーザメタデータ生成(115)は、ビデオコンテンツを多種多様なディスプレイデバイスに利用可能にするための1つまたは複数の価値あるサービスを提供するために使用することができる。MLコンポーザメタデータ生成(115)によって提供される価値あるサービスの1つは、SDR画像に描写されたビデオコンテンツのHDR画像は利用可能ではないが、ビデオコンテンツを描写するSDR画像は利用可能である動作シナリオにおいて、上述のようにSDR画像からHDR画像を生成することである。したがって、本明細書で説明する技法は、SDR画像が利用可能であるこれらの動作シナリオにおいて、HDRディスプレイのためのHDRビデオコンテンツを生成または構成するために使用することができる。
MLコンポーザメタデータ生成(115)によって提供される1つの価値あるサービスは、「カラータイミング」または「カラーグレーディング」として知られるカラーリストの手動操作の一部または全部に頼ることなく、HDRディスプレイ用に(例えば、完全に、部分的になど)最適化されたHDRビデオコンテンツを生成することである
符号化ブロック(120)は、ビデオデータ(107)、自動生成されたMLコンポーザメタデータ(177)、およびその他の画像メタデータを受信し、ビデオデータ(107)を、自動生成されたMLコンポーザメタデータ(177)、その他のイメージメタデータなどと共に、符号化されたビットストリーム(122)に符号化する。符号化ビットストリームの例は、単一レイヤビデオ信号などを含むことができるが、必ずしもこれに限定されない。いくつかの実施形態では、符号化ブロック(120)は、符号化ビットストリーム(122)を生成するために、ATSC、DVB、DVD、Blu-Ray(登録商標)、および他の配信フォーマットによって定義されるものなどのオーディオおよびビデオエンコーダを備えることができる。
次いで、符号化ビットストリーム(122)は、復号および再生デバイス、メディアソースデバイス、メディアストリーミングクライアントデバイス、テレビセット(例えば、スマートTVなど)、セットトップボックス、映画館などの受信側に下流で配信される。下流デバイスでは、符号化ビットストリーム(122)が復号ブロック(130)によって復号されて復号画像182を生成し、復号画像182は、符号化ブロック(120)によって実行される圧縮および復号ブロック(130)によって実行される解凍において引き起こされる量子化エラーの対象になる、ビデオデータ(107)内に表される画像(例えば、SDR画像、HDR画像など)と類似または同じであり得る。
非限定的な例では、符号化ビットストリーム(122)で表されるビデオ信号は、後方互換SDRビデオ信号(例えば、SDR+ビデオ信号など)であってもよい。ここで、「後方互換ビデオ信号」とは、SDRディスプレイのために(例えば、保存された特定の芸術的意図などで)最適化されたSDR画像を搬送するビデオ信号を指すことができる。
いくつかの実施形態では、符号化ブロック(120)によって出力された符号化ビットストリーム(122)は、逆トーンマッピングメタデータ、MLコンポーザメタデータ、自動生成されたMLコンポーザメタデータ(177)、ディスプレイ管理(DM)メタデータなどを含むがこれらに限定されない画像メタデータが埋め込まれた出力SDRビデオ信号(例えば、SDR+ビデオ信号など)を表すことができる。自動生成されたMLコンポーザメタデータ(177)は、HDR(例えば、ターゲット、リファレンスなど)ディスプレイ上でのレンダリングのために後方再整形画像を生成するために、符号化ビットストリーム(122)から復号されたSDR画像(例えば、SDR+画像など)上で後方再整形を実行するために、下流デコーダによって使用され得る後方再整形マッピングを指定する。いくつかの実施形態では、後方再整形画像は、自動生成されたMLコンポーザメタデータ(177)で指定された後方再整形マッピング(または逆トーンマッピング)を実施する1つまたは複数のSDR-HDR変換ツールを使用して、復号されたSDR画像から生成され得る。
本明細書で使用されているように、後方再整形とは、ディスプレイ管理などのさらなる下流処理のために、再量子化画像を元のEOTFドメイン(例えば、ガンマ、PQ、ハイブリッドログガンマまたはHLGなど)に変換する画像処理動作を指す。後方再整形動作の例は、2015年3月20日に出願された米国仮特許出願第62/136,402号(2018年1月18日にも、米国特許出願公開第2018/0020224号として公開されている)、および2018年5月11日に出願された米国仮特許出願第62/670,086号に記載されており、その全内容は参照により、本明細書に完全に記載されているかのように本明細書に組み込まれる。
追加的、任意選択的または代替的に、画像メタデータ内のDMメタデータは、後方再整形された画像上でディスプレイ管理操作を実行するために、下流デコーダによって使用されて、HDR基準ディスプレイデバイス、または非基準HDRディスプレイデバイスなどの他のディスプレイデバイス上でのレンダリングのために最適化された表示画像(たとえば、HDR表示画像など)を生成することができる。
受信機が標準ダイナミックレンジまたは比較的狭いダイナミックレンジをサポートするSDRディスプレイ140と共に(またはそれに取り付けられる)動作する動作シナリオでは、受信機は、復号されたSDR画像をターゲットディスプレイ(140)上に直接的または間接的にレンダリングすることができる。
受信機が高ダイナミックレンジ(例えば、400ニト、1000ニト、4000ニト、10000ニトまたはそれ以上など)をサポートするHDRディスプレイ140-1と共に(またはそれに取り付けられて)動作する動作シナリオでは、受信機は、符号化ビットストリーム(122)(のメタデータコンテナなど)からコンポーザメタデータを抽出し、コンポーザメタデータを使用して、HDR画像(132)を作成することができ、これはコンポーザメタデータに基づいてSDR画像を後方再整形することから生成された後方再整形画像であってもよい。さらに、受信器は、符号化ビットストリーム(122)からDMメタデータを抽出し、DMメタデータに基づいてHDR画像(132)にDM操作(135)を適用して、HDR(例えば、非基準など)ディスプレイデバイス(140-1)上にレンダリングするために最適化された表示画像(137)を生成し、HDRディスプレイデバイス(140-1)上に表示画像(137)をレンダリングすることができる。
機械学習によるダイナミックコンポーザメタデータ生成
単一層逆ディスプレイ管理(SLiDM)またはSDR+を使用して、HDRディスプレイデバイス上でのレンダリングのためのSDRコンテンツを強化することができる。SDR画像のルマチャネルおよびクロマチャネル(またはカラーコンポーネント)は、HDR画像の対応するルマチャネルおよびクロマチャネルを生成するために、画像メタデータを使用して別々にマッピングすることができる。
本明細書で説明する技法を使用して、SDRコンテンツのダイナミックコンポーザメタデータを推定する機械学習(ML)ベースのアプローチを実装することができる。このMLベースのアプローチによって生成されるダイナミックコンポーザメタデータは、他のアプローチで使用されるスタティックメタデータと比較して、HDR視覚経験を改善する。ダイナミックコンポーザメタデータ(またはMLベースのコンポーザメタデータ)は異なるユーザ定義(例えば、エンドユーザが選択可能)スタイルで推論して、HDRルックベースの個々のユーザのそれぞれの好みを修正することができる。追加的、任意選択的、または代替的に、本明細書で説明する技法の下のメタデータコーディングシンタックスを使用して、(たとえば、SDR+、SLiDMなど)ビデオ信号中のダイナミックコンポーザメタデータの圧縮を可能にすることができる。
他のアプローチにおけるスタティックメタデータは、SDRルマコードワード(例えば、強度等)をHDRコードワード(または強度)にマッピングするために、(例えば、SDR画像における実際の画素値分布にかかわらず、いくつかのまたはすべてのSDR画像に対して)固定曲線を指定する。すべてのSDR画像(またはフレーム)に同じ固定曲線が適用されるので、異なるシーン/画像における輝度レベルは、結果として生じるHDR画像において必ずしも満足に強調されない。例えば、SDR画像中のいくつかの明るい領域は、他のアプローチの下でSDR画像を固定曲線にマッピングすることによって生成された対応するHDR画像中で過度に明るくなることがある。SDR画像で表されるような特定の芸術的意図または視覚的品質の信頼できる再現を得るために、SDR画像における画像部分の輝度はSDR画像で表されるような視覚的コンテンツに基づいてマッピングまたは強調されるべきであり(例えば、狭いSDR輝度範囲から広いHDR輝度範囲など)、これは、固定(マッピング)曲線を使用する他のアプローチの下では適切にサポートされ得ない。
同様に、他のアプローチの下では、クロマ再整形(例えば、SDRクロマコードワードのHDRクロマコードワードへの後方再整形など)は、MMR予測係数の事前計算されたセットを使用する。MMRベースの予測子の例は、米国特許第8,811,490号に記載されており、その全体が参照により組み込まれる。固定係数はまた、異なる視覚コンテンツを描写する異なるビデオシーケンスのカラーパレットにおける微妙な相違を見落とす傾向があり、したがって、結果として生じるHDRビデオコンテンツの異なる部分が、HDRビデオコンテンツを生成するために使用されるSDRビデオコンテンツの対応する部分において表されるような固有の視覚品質および/または別個のカラーパレットアイデンティティを失うか、または再生し損なう。代わりに、同じMMR係数によって生成されたHDRビデオコンテンツの異なる部分は、他のアプローチの下でHDRビデオコンテンツの異なる部分に対する固定MMR係数を操作する自由がないので、一般的なルックを獲得する傾向がある。
対照的に、HDRルマ/クロマコードワードを予測または推定するMLベースのアプローチの下では、関連する画像特徴(例えば、コンテンツ依存特徴、画素値依存特徴など)をSDR画像データから抽出し、SDR画像データからHDR画像データを構築または再構成するための(ダイナミック)MLベースのコンポーザメタデータをトレーニング、予測、および/または推定するために使用することができる。いくつかの運用シナリオでは、このような構築または再構築は、ユーザが意図したビジュアルスタイル/モードのユーザ選択を指定するユーザ入力によってさらに影響を受け得る。
本明細書で説明する技法の下でML予測モデル/アルゴリズム/方法をトレーニングすることは、SDRと、対応する(例えば、ユーザが望む、手動でカラーグレード付けされたなどの)HDR画像とのペアを備えるトレーニングデータセットを用いて行うことができる。ML予測モデル/アルゴリズム/方法は、トレーニングフェーズ中にSDRからHDRへのマッピングを学習することができる(例えば、ユーザ意図など)。機械学習されたML予測モデル/アルゴリズム/方法の最適な動作パラメータは、永続的に、またはキャッシュ/メモリに格納することができる。
ML予測モデル/アルゴリズム/方法は、(ダイナミック)MLベースのコンポーザメタデータを予測するために、テストSDRコンテンツに適用することができる。(他のアプローチの下でのスタティックまたは固定メタデータの代わりに)(ダイナミック)MLベースのコンポーザメタデータは、対応するHDRコンテンツを構築または再構築し、再構築されたHDRコンテンツにおいて所望のルック(例えば、ユーザの意図したルック、特定の芸術的意図の保存など)を達成するために、ビデオデコーダに出力または送信され得る。
本明細書で説明する技法の下で、様々な特定のユーザ選好について、多数の異なるML予測モデル/アルゴリズム/方法を学習することができる。次いで、複数の異なるユーザ選好HDRルックの間の切り替えは、異なるML予測モデル/アルゴリズム/方法の間の切り替えと同様に、これらの技法の下で容易に実行することができる。その結果、SDRコンテンツは、高価で複雑な手動カラーグレーディングを実行することなく、ユーザのための所望のHDRを有するHDRコンテンツに後方再整形することができ、それによって、多数のユーザのための所望のHDRルックを有するHDRコンテンツを生成する費用効果的で高効率の方法を提供する。潜在的に膨大な量の利用可能なSDRコンテンツから生成されたHDR画像を手動でカラーグレーディングする代わりに、個々のユーザは、SDRと、対応する(例えば、手動などの)カラーグレーディングされたHDR画像とのペアのトレーニングデータセットを提供することができる。本明細書で説明する技法の下での機械学習モデル/アルゴリズム/方法は、トレーニングデータセットによって具現化されるようなユーザ選好を模倣することによって、任意のSDRコンテンツを対応するHDRコンテンツに自動的に変換することができる。
ルマおよびクロマ後方再整形
限定ではなく例として、SDRルマおよびクロマコードワードからのHDRルマおよびクロマコードワードの予測/推定は、GPRモデルおよびクロマディクショナリを使用して、図2Aに示されるようなプロセスフローにおいて実行され得る。
本明細書で使用されるように、SDRルマコードワードからHDRルマコードワードを再生成する(例えば、予測する、推定するなど)ことは、ルマ後方再整形(動作)と呼ばれることがある。SDRルマコードワード(例えば、強度、輝度値など)は、GPRモデルに基づいて生成された後方ルックアップテーブル(または後方LUTまたはBLUT)を使用して、HDRルマコードワード(例えば、強度、輝度値など)にマッピングされて、ルマ後方再整形を実行することができる。追加的、任意選択的、または代替的に、SDRルマおよびクロマコードワードからHDRクロマコードワードを再生成する(たとえば、予測する、推定するなど)ことは、クロマ後方再整形(動作)と呼ばれ得る。SDRルマおよびクロマコードワードは、クロマディクショナリを調べるのに使用され、クロマ後方再整形を実行するためにHDRクロマコードワードを予測または推定する。
GPRモデルおよびクロマディクショナリは、本明細書で説明されるように、トレーニングフェーズにおいて、1つまたは複数のトレーニングデータセットを用いてトレーニングされ得る。より具体的には、トレーニングフェーズにおいて、トレーニングデータセット内のSDR画像(例えば、202)の画像特徴(例えば、コンテンツ依存特徴など)を抽出して、特徴ベクトル204を形成することができる。画像特徴または特徴ベクトル(204)は、トレーニングデータセット内の対応するHDR画像内の参照HDRルマコードワード(または値)とともに、SDRルマコードワードからHDRルマコードワード(または値)のGPRモデルベースの予測206を行うようにGPRモデルをトレーニングまたは最適化するために使用することができる。次いで、トレーニングされたGPRモデルを使用して、後方ルックアップテーブル(または後方LUT)などの後方再整形曲線を生成することができる。いくつかの実施形態において、後方再整形曲線または後方LUTは、8片多項式近似208によって近似されてもよい。候補特徴の大きなセットが利用可能である操作シナリオでは、本明細書で説明するように、候補特徴の大きなセットを特徴ベクトルに含まれる特徴のセットに縮小するために、特徴枝刈り操作を実行することができる。特徴枝刈り動作の例は、2018年9月19日に出願された米国仮特許出願第62/733,217号に記載されており、その全内容は参照により、本明細書に完全に記載されているかのように本明細書に組み込まれる。
追加的、任意選択的、または代替的に、トレーニングフェーズにおいて、トレーニングデータセット内の対応するHDR画像内の基準HDRルマおよびクロマコードワード(または値)によって表されるグラウンドトゥルース(またはラベル)とともに、画像特徴または特徴ベクトル(204)を使用して、クロマディクショナリ210(またはMMRマッピング)をトレーニングまたは最適化して、SDRルマおよびクロマコードワードからHDRクロマコードワード(または値)のクロマディクショナリベースの予測を行うことができる。次いで、トレーニングされたクロマディクショナリ(210)を使用して、SDRルマおよびクロマコードワードをHDRクロマコードワードにマッピングするために下流の受信デバイスによって使用されるMMR係数212(例えば、SDRルマおよびクロマコードワードからHDRクロマコードワードへのマッピングを定義するクロマ行列などにおいて)を生成することができる。
いくつかの非限定的な実装例では、ルマチャネルY(またはルマ色成分)のための後方再整形曲線を表す8片多項式近似(208)と、クロマチャネルCbおよびCrのための後方再整形マッピングを表すMMR係数(212)とは、ビデオ信号中で搬送または符号化される符号化ビデオコンテンツとは別に、ビデオ信号の1つまたは複数の画像メタデータコンテナ中の1つまたは複数のビデオエンコーダ214によって符号化され得る。8片多項式近似(208)およびMMR係数(212)は、1つまたは複数の非トレーニングSDR画像(例えば、202、トレーニングデータセット内ではなく)とともに、いくつかまたはすべての画像メタデータとして、下流のデコーダ(1つまたは複数)に送信することができる。非トレーニングSDR画像は、ビデオ信号の基本レイヤまたは符号化ビットストリーム216において符号化され得る。
HDRルマ再構成(例えば、SDR画像内のSDRルマコードワードからのHDRルマコードワードの予測/推定など)中に、後方LUT(または後方LUTを近似する多項式)によって表される後方再整形曲線を使用して、SDR画像の(例えば、各)画素位置におけるSDRルマコードワード(値)を入力として受け入れ、(構築または再構築される)マッピングされたHDR画像の(例えば、各)対応する画素位置(同じ行/列など)で対応するマッピングされたHDRルマコードワード(値)を出力として生成することができる。マッピングされたHDR画像のいくつかまたはすべての画素位置についてのマッピングされたHDRルマコードワード(値)は、このようにして生成され、マッピングされたHDR画像の(例えば、ルマチャネルおよびクロマチャネルまたは色成分などの間の)ルマチャネルまたはルマ色成分を構築するために使用され、次いで、本明細書で説明されるように、下流のデコーダと連動して動作する画像ディスプレイでレンダリングするためのHDR表示画像を導出するために使用され得る。
GPRベースのルマ予測
図2Bに示すようなGPRベースのプロセス(例えば、フローチャート、アプローチなど)を使用して、Q個の(例えば、分散、等距離、非等距離など)サンプル点を、入力SDRコンテンツ(例えば、単一のSDR画像、1つまたは複数のSDR画像、SDR画像のグループ、SDR画像のシーケンスを含むシーンのいくつかまたはすべて、など)に基づいて、後方整形曲線上で、予測または推定することができ、水平軸は、実際のSDR画像内のSDRルマコードワードまたは値を表すためのすべての利用可能なSDRコードワードまたは値を含むSDRコードワード空間を表し、垂直軸は、マッピングされたHDRコードワードまたは値を含むマッピングされたHDRコードワード空間を表す。次に、予測/推定サンプル点を補間および/または外挿して、後方再整形曲線(またはBLUT)全体を構築することができる。
図2Bに示されるようなプロセスの第1のステップ(222)は、トレーニングデータセット内の入力SDR画像226から(例えば、関連する、選択された)画像特徴を抽出し、画像特徴を使用して、(例えば、信頼性をもって、高い信頼性をもって、正確に)ルマ後方再整形曲線または後方LUTを予測または推定することである。
図2Bに示すように、トレーニングデータセットは、SDR画像(226)および対応するHDR画像228を含む。SDR画像(226)内の各SDR画像は、HDR画像228内の対応するHDR画像を有するか、またはそれとペアを形成し、それによって、トレーニングデータセット内に複数のSDR-HDR画像ペアを形成する。トレーニングデータセット内のSDR-HDR(画像)ペアのSDR画像および対応するHDR画像は、視覚オブジェクト、人物/キャラクタ、視覚シーン、視覚背景技術、自動車、飛行機などの移動オブジェクトなどの同じ画像特徴を示すが、異なる(輝度)ダイナミックレンジ、色域、色精度、鮮やかさなどを有する。
画像特徴は、特徴ベクトル計算の効率、予測精度などの1つまたは複数の画像特徴選択ファクタまたは基準に基づいて、多種多様な画像特徴の中から選択することができる。
大規模な展開のために実行可能であるためには、計算の複雑さおよび予測精度が(例えば、ユーザ入力に基づいて決定され、ヒューリスティックに基づいて決定され、トレーニングデータの経験的研究に基づいて決定されるなど)許容可能な限界内にあるべきである。これらの許容可能な限界(または制約)に基づいて、1つ、2つ、またはそれ以上の画像特徴タイプが(例えば、許容可能な限界または制約に合致する、または満たすなど)適切であり得る。
限定ではなく例として、選択された画像特徴は、(例えば、正規化された)ルマ-クロマ結合1Dヒストグラムにおけるヒストグラムビンカウントであってもよい。その中のルマ-クロマ結合1Dヒストグラムおよびビンカウントは、特徴ベクトル230を導出するために使用することができ、これは、比較的信頼性が高く、正確な予測/推定結果を生成するためにGPRモデルをトレーニングするために使用することができる。
(それぞれ、y、c0、およびc1として示される)入力3チャネル内のルマおよびクロマコードワードSDRビデオ信号(例えば、トレーニングデータセット内のSDR画像(226)などを含む)を、各チャネル(またはディメンション)内のM個のビンに入れる。正規化された-例えば[0,1]の値域に正規化された-j番目の画像またはフレームでのi番目のSDR画素値(s ji,sc0 ji,sc1 ji)(またはルマおよびクロマコードワード)は、3Dヒストグラムの中でインデックス(αji,βji,γij)を有するキューブにマッピングされてもよく、ここでインデックスαji,βji,γijは次のように与えられる。
Figure 0007299982000001
3Dヒストグラム内の各3Dキューブは、3Dキューブのインデックスに対応するそれぞれの(量子化後の)入力値を表すトリプレットである。j番目の画像またはフレーム内の画素の総数(またはカウント)をPと表記する。すべてのF個のフレーム(トレーニングデータセットなど)内の画素値(またはルマおよびクロマコードワード)は、以下の表1に示すように、例示的なプロセスを使用してF個の3Dヒストグラムに収集できる。
Figure 0007299982000002
いくつかの実施形態では、最終(対数)ヒストグラムは、以下の表2に示すように、例示的なプロセスを使用して得ることができる。
Figure 0007299982000003
いくつかの実施形態では、ルマチャネル(またはディメンション)をM個のビンに分割することができ、3Dヒストグラムの2つのクロマチャネル(またはディメンション)をそれぞれMc0個のビンおよびMc1個のビンに分割することができる。j番目の画像またはフレームにおける正規化されたi番目のSDR画素値(s ji,sc0 ji,sc1 ji)(またはルマおよびクロマコードワード)は、インデックスαjiを有するルマチャネル(またはディメンション)のためのM個のビンに、インデックスβjiを有するCのクロマチャネル(またはディメンション)のためのMc0個のビンに、およびインデックスγijを有するCのクロマチャネル(またはディメンション)ヒストグラムビンのためのMc1個のビンに、それぞれマッピングすることができ、ここで、αji,βji,γijは次のように与えられる。
Figure 0007299982000004
Figure 0007299982000005
Figure 0007299982000006
各SDR画像またはフレーム(例えば、SDR画像(226)など)に対して、3つの別個の1Dヒストグラム(各チャネルに対して1つ)は、各ビン内の画素の総数をカウントすることによって構築される。3つの別個の1Dヒストグラムを生成するプロセスは、(例えば、トレーニングデータセットなどにおいて)すべてのF個の画像またはフレームについて繰り返すことができる。
3つのルマチャネルおよびクロマチャネルについての3つの別個の1Dヒストグラムは、以下の表3に示される例示的なプロセスを使用して、図3Dに示されるように、結合されたルマ-クロマ1Dヒストグラム(h y,c0,c1(・)として示されるように)を形成するように連結され得る。
Figure 0007299982000007
各結合されたルマ-クロマ1Dヒストグラムは、以下の表4に示される例示的なプロセスを使用して、本明細書に記載されるように、MLモデル(例えば、GPRモデルなど)のトレーニングまたはテスト中に、様々な画像ディメンションの影響を除去するように正規化されてもよい。
Figure 0007299982000008
各結合されたルマ-クロマ1Dヒストグラムは、(GPRモデルを用いてトレーニングまたは予測するための)特徴ベクトルを表すことができ、そのディメンションKは以下のように与えられる。
Figure 0007299982000009
前述したように、トレーニングデータセットは、(トレーニング)SDR画像(226)、および、対応する(例えば、ユーザが望む、手動で色分けされた)HDR画像(228)のペアを含む。図2Bに示すようなプロセスの第1のステップ(222)の前、後、または同時になど、任意の実行順序で実行することができる第2のステップ(224)は、例えばCDFマッチングなどの方法を使用して、トレーニングSDR画像およびその対応するHDR画像の各ペアについて後方LUTを構築することである。CDFマッチング動作の例は、2017年9月11日に出願されたPCT出願第PCT/US2017/50980号、2016年10月5日に出願された米国仮特許出願第62/404,307号(また、2018年4月5日に、米国特許出願公開第2018/0098094号として公開された)に記載されており、その内容全体は参照により、本明細書に完全に記載されているかのように本明細書に組み込まれる。
本明細書で説明する技法は、8ビットSDR画像(例えば、BLUT内の256インデックス)、10ビットSDR画像(例えば、BLUT内の1024インデックス)など、様々なビット深度のSDR画像に適用することができる。限定ではなく例として、トレーニングデータセット内のF個のSDR-HDR画像ペアのうちのSDR-HDR画像ペアの10ビットSDR画像の場合、Fは1より大きい正の整数であり、後方再整形曲線は210=1024のインデックスの配列(例えば、インデックス付きエントリ、インデックス付き配列要素)の形態の後方LUTとして表すことができる。後方再整形曲線は、Lが1より大きい正の整数である、ρとして示されるL個の位置でサンプリングすることができる。
L個の等距離サンプル点が後方再整形曲線をサンプリングするために使用される動作シナリオでは、後方再整形曲線に対するこれらの等距離サンプル点の位置は、以下のように与えられることができる。
Figure 0007299982000010
ここで、lは、L個の等距離サンプル点における対応するサンプル点に対する正の整数インデックスを表す。
後方再整形曲線におけるサンプル(またはサンプル点)のこれらのL個の位置におけるHDR値は、BLUT(・)がトレーニングデータセット内の(F個のSDR-HDRペアの中の)j番目のSDR-HDRペアに対するBLUT(または後方再整形曲線)を表す1024個の要素の配列を示す、BLUT(ρ)として導出することができる。
後方再整形曲線におけるサンプル(またはサンプル点)のこれらL個の位置におけるHDR値BLUT(ρ)の各々(例えば、l番目のHDR値など)は、GPRモデル(例えば、サンプル点のL個の位置に対するL個のGPRモデルそれぞれ)におけるそれぞれのGPRモデル(例えば、l番目のGPRモデル234など)をトレーニングするための後方再整形曲線のL個のサンプル点のそれぞれのサンプル点(例えば、l番目のサンプル点232など)に対する真の予測(例えば、予測/推定のための基準値、予測/推定のためのグラウンドトゥルースなど)を構成するか、またはラベル付けするか、または示す。
(トレーニングデータセット内のSDR-HDR画像ペアから構築された各後方再整形曲線のサンプル点の総数)Lの値の例は、10、15、20、25などを含むことができるが、必ずしもこれらに限定されない。
特徴ベクトル(230)と、L個のサンプリング点の位置について決定されたHDR値の真の予測(例えば、予測または推定のための基準値、予測または推定のためのグラウンドトゥルースなど)を含むサンプル(232)とを使用してGPRモデルをトレーニングした結果は、(例えば、バイナリなどの)ファイルに格納され、メモリにキャッシュされ、1つまたは複数のデータベースに持続されるなどすることができる。
要約すると、いくつかの実施形態では、トレーニングデータセット内の各SDR-HDRペアについて、SDR-HDRペア内のSDR画像から特徴ベクトル(230)を抽出することができ、後方再整形曲線のL個のサンプルは、SDR-HDRペアから構築された後方LUTによって(例えば、本明細書で言及するCDF技法などを介して)導出することができる。
特徴ベクトルの長さ(またはディメンション)を、Kとして表す。SDR画像のビット深度をBとして表す。以下の表5に示す例示的なプロセスを使用して、特徴ベクトル(または特徴行列)X、および(GPRモデルを用いて予測/推定されるマッピングされたHDR値の予測/推定のための観測値または基準値を含む)真の予測行列yを構築することができる。
Figure 0007299982000011
GPRモデルのトレーニング
特徴ベクトル行列Xおよび真の予測行列y内の観測値は、GPRモデルをトレーニングするために、またはその動作パラメータを以下のように学習するために使用することができる。
L個の異なるGPRモデルのすべてをトレーニングして、サンプル点のL個の位置でマッピングされたHDR値を予測することができる。GPRモデル内の各GPRモデルは、L個の位置内の特定の位置における後方再整形曲線上のそれぞれの点を推定する。より具体的には、L個のGPRモデルにおけるl番目のGPRモデルは、後方再整形曲線を表す後方LUTのρ番目のエントリを予測または推定するようにトレーニングすることができ、ここで、l∈[l,L]である。後方再整形曲線(または後方LUT)の予測されたエントリ(またはサンプル)は、図3Aに円を有する点として示されている。
説明のために、ρ番目の位置における後方再整形曲線のl番目の値を予測または推定するために使用されるl番目のGPRモデルを考える。データセット内のトレーニングベクトルの総数Fのうち、p番目およびq番目のトレーニングベクトル(ここで、p,q∈[0,F-1])を、それぞれ、xおよびxとして示す。これら2つのベクトル間のカーネル化された距離を表すカーネル関数をr(x,x)として示す。対応する重みをwl,qとして示す。次いで、すべてのF個の特徴ベクトルに基づくl番目のGPRモデルからの予測y^[l,p]は、以下のように定式化され得る。
Figure 0007299982000012
トレーニングフェーズは、以下のように、予測誤差が最小化されるように、予測y^[l,p]を行うために使用されるカーネル関数の動作パラメータおよび重みを調整するために使用することができる。
Figure 0007299982000013
数式(7)および(8)で使用される例示的な有理二次(RQ)カーネルr(x,x)は、以下の形式をとることができる。
Figure 0007299982000014
トレーニングフェーズでは、次の動作パラメータを学習または最適化できる。数式(9)のカーネルのハイパーパラメータθ={σl,f,α,d}:数式(7)のl番目のGPRモデルの重み係数(F個の特徴ベクトルに対応するF個の重み係数)。
動作パラメータが学習または最適化された後、l番目のGPRモデルを適用または使用して、以下のように、任意のSDR画像から抽出された任意の(例えば、見えない、予測される、推定される、テストされるなど)特徴ベクトルx^の対応する値を予測することができる。
Figure 0007299982000015
前述の操作は、L個のGPRモデルのすべてをトレーニングして、これらのGPRモデルにおけるそれぞれの動作パラメータを学習または最適化するために適用または反復することができ、これらのGPRモデルのそれぞれは、それ自体のカーネル動作パラメータおよび重み(または重み係数)のセットを有する。
GPRモデルのテスト
テストフェーズは、(テスト)SDR画像から、例えば、特徴ベクトルをトレーニングする際に使用される同じまたは同一の特徴タイプを用いて特徴ベクトルを構築(テスト)し、次いで、トレーニングされたGPRモデルを使用して、後方再整形曲線(または対応する後方LUT)においてサンプルを構築するために使用されてもよい。次に、これらのサンプルを補間および/または外挿して、後方整形曲線全体(またはBLUT全体)を生成することができる。CDFマッチングは、結果として生じるBLUTが滑らかで単調に減少しないことを保証するために、生成されたBLUTを用いて実行されることができる。
図2Cに示すように、(テスト)画像特徴は、図2Bの第1のステップ(222)と同様に、入力(テスト)SDR画像236から抽出することができる。例として、(テスト)特徴ベクトル(xとして示される)238は、SDR画像(236)から抽出され、画像特徴としてヒストグラムビンを有する結合されたルマ-クロマ1Dヒストグラムとして表されてもよい。様々な動作シナリオでは、(テスト)特徴ベクトルx(238)などの特徴ベクトルは、シーンの一部または全部、ピクチャのグループの一部または全部、画像またはフレームの時間シーケンスの一部または全部などにおいて、入力SDR画像から抽出することができる。特徴ベクトルの各々は、特徴ベクトル内のすべての要素が合計で1(1)になるように正規化されてもよい。
(テスト)特徴ベクトルx(図2Cの238)は、トレーニングされたl番目のGPRモデル(図2Cの234)と共に使用され、(テスト)SDR画像をマッピングされたHDR画像に再整形するために使用される後方再整形曲線上のl番目のサンプル(図2Cの240)またはl番目のマッピングされたHDR値を予測または推定することができる。これは、後方再整形曲線上のすべてのL個の位置についてサンプルを予測または推定するために繰り返すことができる。
l番目のGPRモデル(234)に基づく後方整形曲線上のl番目のサンプル(240)(またはl番目のHDR値)の予測は、以下のように与えられる。
Figure 0007299982000016
同様に、後方LUTの他の値は、対応するGPRモデルを使用して予測または推定することができる。その結果、L個のサンプルまたは点は、以下のように、後方再整形曲線上で予測または推定することができる。
Figure 0007299982000017
BLUTを定義または指定する配列のエントリ(例えば、1024個のエントリ)は、補間(図2Cの242)によって埋めることができる。
いくつかの動作シナリオでは、(SDR画像内の実際の画素値分布または実際の視覚コンテンツに関係なくSDR画像をマッピングするために使用される)スタティックBLUTおよび(例えば、SDR画像のそれぞれの画像特徴に基づいて各SDR画像に対して個別に生成される)ダイナミックBLUTをマージすることができる。
例えば、GPRモデルから予測/推定された後方LUTのサンプルは、マッピングされたHDR画像の暗い領域における期待値よりもわずかに高いことがある。これは、再構成されたHDR画像において、特に再構成されたHDR画像に存在するレターボックス領域およびブラックフレームの周りにおいて、高いブラックレベルの問題または視覚的なアーチファクトにつながる可能性がある。この問題または視覚的アーチファクトを取り除くために、スタティック後方LUTは、暗い領域におけるGPRモデルから予測/推定されるダイナミックBLUTとマージされ得る。いくつかの実施形態では、GPRモデルの予測値は、以下のように、並置されたインデックス位置を使用して、第1の点(例えば、最も暗い点など)から前方へのスタティックBLUTからの値で置き換えられる。
Figure 0007299982000018
ここで、χは、静的BLUT値が使用される閾値インデックス値を表し、いくつかの実施形態では、2、3など、
Figure 0007299982000019
を超えないように設定することができる。static_BLUT(・)は、スタティックBLUTを表す。
線形補間(図2Cの242)を使用するか、または適用して、BLUT(・)内のすべての欠損値を埋めることによってBLUT全体を構築することができる。l∈[1 L]に対して位置ρにおけるBLUTのサンプル値が与えられると、BLUTの最初の値および最後の値は、以下のようにポピュレートすることができる。
Figure 0007299982000020
BLUT内の残りの欠損値は、線形補間(図2Cの242)を使用して補間することができる。任意のBLUTインデックスζ(ここで、
Figure 0007299982000021
は整数インデックス)について、BLUTインデックスζに配置されているエントリに最も近い点を最初に判別できる。位置ζが、lとl+1の間にあると仮定する。次に、BLUTインデックスζに位置するBLUTエントリの値は、以下のように計算することができる。
Figure 0007299982000022
または等価的に、BLUTインデックスζに位置するBLUTエントリの値は以下のように与えられ得る。
Figure 0007299982000023
線形補間の後、BLUT全体におけるすべてのインデックス付きエントリを取得または生成することができる。
単調に減少しない条件は、BLUT上で強制されてもよい(図2Cの244)。この条件は、少なくとも2つの異なる時点で強制されることができる。第1の非限定例では、線形補間の前に、単調に減少しない条件が強制されてもよい。例えば、l番目のGPRモデルからのl番目のマッピングされたHDR値の予測/推定が(l-1)番目のGPRモデルからの(l-1)番目のマッピングされたHDR値の推定の予測よりも小さい場合、以下の表6に示される例示的なプロセスに示されるように、(l-1)番目のGPRモデルからの(l-1)番目のマッピングされたHDR値の推定の予測は、l番目のGPRモデルから何が予測/推定されるかにかかわらず、l番目のマッピングされたHDR値の予測/推定としてコピーすることができる。
Figure 0007299982000024
第2の非限定例では、単調に減少しない条件が線形補間の前または線形補間の後に強制されてもよい。BLUTおよび正規化されたSDRヒストグラムを使用して、HDRヒストグラム分布を予測することができる。テストSDR画像から得られるSDRヒストグラムおよび予測されたHDR分布は、CDFマッチング演算に入力として供給されて、単調に減少しない滑らかな後方整形曲線を生成することができる。後方再整形曲線が単調に減少しないことを保証するためのCDFマッチングの例は、前述のPCT出願PCT/US2017/50980に記載されている。
単調に減少しない条件の制約を強制するために、上述の方法の一方または両方を使用することができる。単調性を提供することに加えて、CDFマッチングを使用して、(例えば、8ピース等)多項式近似を導く比較的滑らかな後方再整形曲線を生成することができる。
いくつかの動作シナリオでは(例えば、最終的な、予測された、などの)後退LUTは、8片2次多項式で近似されることがある。次いで、多項式を指定する動作パラメータは、マッピングされたHDR画像内のHDRルマコードワードを再構成するために、および画像ディスプレイにおいてマッピングされたHDR画像をレンダリングするために、下流のデコーダ(複数可)に送信され得る。
ディクショナリベースのクロマ予測
いくつかの動作シナリオでは、ルママッピング(またはルマ後方再整形)は、マッピングまたは再構成されたHDRビデオコンテンツの対応するルマチャネルの予測または推定のために、SDRビデオコンテンツの単一のルマチャネル(たとえば、「Y」など)を使用し、一方、クロママッピング(またはクロマ後方再整形)は、マッピングまたは再構成されたHDRビデオコンテンツのクロマチャネルの予測または推定のために、SDRビデオコンテンツの3つすべてのルマチャネルおよびクロマチャネル(たとえば、「Y」、「Cb」/「C0」および「Cr」/「C1」など)を使用する。追加的、任意選択的、または代替的に、クロママッピングは、事前トレーニングされたクロマディクショナリを使用して、クロマ予測プロセスとして実装または実行され得る。
本明細書で説明するクロマディクショナリ予測アプローチは、1つまたは複数のトレーニングデータセット内のSDR画像から特徴ベクトルを抽出することから開始することができる。同様の理由で、このアプローチは前述のように、ルマ-クロマ結合1Dヒストグラム特徴を用いて比較的効率的に機能することができる。さらに、ルママッピングにおけるのと同じ(画像)特徴をクロママッピングにおいて使用することは、比較的高い計算効率で計算された特徴ベクトルの共有または再使用を可能にする。
より具体的には、図2Dに示すように、(図2Cの230と同じであってもよい)ルマ-クロマ結合1D特徴ベクトル230は、(図2Cの228と同じであってもよい)対応する(トレーニング)HDR画像228も含むトレーニングデータセット内の(トレーニング)SDR画像226(図2Cの226と同じであってもよい)内の各SDR画像から抽出される。
特徴ベクトルは、類似の画像/フレームを一緒にグループ化するために、クラスタリングアルゴリズム/方法(例えば、64個のクラスタのような固定された数を生成するために、固定されていない、自動的に決定されたクラスタの数を生成するために、クラスタ間距離を最大化しながらクラスタ内距離を最小化するために)に供給されることができる。クラスタリングの背後にある動機は、類似の画像または視覚特性を有するフレームを同じ比較的均一なクラスタにグループ化することである。そのような比較的均一なクラスタについては、同じ後方クロママッピング-または、さらに詳細に説明されるA行列およびB行列によって効果的にキャプチャまたは特徴付けられるSDRからHDRへのクロママッピング-は、クラスタ内のすべてのフレームに適用するために(たとえば、完全に、十分に、適切に、など)一貫していることが可能である。その結果、そのようなクラスタごとに、A行列およびB行列の単一のセットのみを計算することができる。そのクラスタに属するすべての画像/フレームについて、SDRからHDRへのクロママッピングの同一または類似の本質をキャプチャするために、A行列およびB行列の同一のセットを使用することができる。
図2Dに示されるように(例えば、すべての)特徴ベクトル(230)は、一緒にプールされ、次いで、例えば、k-平均クラスタリングアルゴリズム246を含むがこれに限定されないクラスタリングアルゴリズム/方法によって、自動的にまたはプログラム的に、P個のクラスタにグループ化または分割され得る。
特徴ベクトルのクラスタは、類似のルマおよびクロマ画素値分布を有する画像/フレームの対応するクラスタの集合を表すものとして見ることができる。特徴ベクトルのクラスタの中で特徴ベクトルのクラスタを生じさせる画像/フレームは、画像/フレームの同じクラスタに属すると見なされるか、または考慮され、これは同じまたは類似のSDRからHDRへのクロマチャネルマッピング(クロマ後方マッピング)を受けることができる。
特徴ベクトルのクラスタ(または画像/フレームの対応するクラスタ)のクラスタ重心は、そのクラスタに属するすべての特徴ベクトルの算術平均(たとえば、マルチディメンション平均など)を取ることによって評価され得る。
特徴ベクトルをクラスタ化し、特徴ベクトルのクラスタのそれぞれの重心を計算する例示的なプロセスを、以下の表7に示す。
Figure 0007299982000025
図3Bは、自動的なk平均クラスタリングアルゴリズム/方法を適用することによって生成される特徴ベクトル空間内の特徴ベクトルの例示的なクラスタを示す。特徴ベクトルは、小さな円によって表され、それらの特定のクラスタに集約される。特徴ベクトルのクラスタの各クラスタ重心は、大きな円で囲まれた十字で表される。
特徴ベクトルのc番目のクラスタ(または特徴ベクトルのc番目のクラスタに対応するか、または特徴ベクトルのc番目のクラスタを生み出す画像/フレームのc番目のクラスタ)に対して、AおよびB行列-特徴ベクトルのc番目のクラスタに対応するまたは生み出す画像/フレームのc番目のクラスタのためのA行列およびB行列-は、画像/フレームのc番目のクラスタ内の3DMTベースのMMRおよびSDR-HDR画像ペアを使用して計算されてもよい。これらの行列A、Bc、およびc番目のクラスタ重心は共に、c番目のクラスタのための(事前トレーニングされた)クロマディクショナリのクラスタ固有の部分を構成する。
クロマ後方再整形は、A行列およびB行列の(クラスタ固有の)セットから導出されたMMR係数を用いてデコーダ側で実行されてもよく、そのセットは、クロママッピングのためのトレーニングフェーズ中に、3ディメンションマッピングテーブル(3DMT)を用いて各クラスタについて別々に計算またはトレーニングされる。
トリプレット(s ji,sc0 ji,sc1 ji)および(v ji,vc0 ji,vc1 ji)は、j番目のSDRおよびHDR画像/フレームにおけるi番目の画素に対する正規化されたY、CおよびCをそれぞれ表現する。SDRコードワード空間(またはSDR領域)のY、CおよびCコードワード(または画素値)レンジは、それぞれQ,QC0,QC1ビンに分割することができる。Q×QC0×QC1ディメンションを有するA3DテーブルΩ (図2Dの248)は、j番目のSDR画像/フレームのために構築することができる。この3DテーブルΩ の各エントリは、ゼロまたは[0 0 0]に初期化される3要素ベクトルとして表現されることがある。この初期化の後、j番目のSDR画像/フレーム内の各画素は、そのような各画素が属する対応するビン(またはビン関連付け)t=(q,qC0,qC1)を決定するためにステップスルーされることができる。
j番目のSDR画像/フレーム内の各画素のビン関連付けtは、次のように求めることができる。
Figure 0007299982000026
このビン関連付けtは、j番目のSDR画像/フレームのSDR画像のビン関連付けと、j番目のHDR画像/フレーム内の対応するHDR画素のビン関連付けとの両方を確立するために適用されることがある。より具体的には、j番目のHDR画像/フレーム内のHDR画素は、同じ画素位置に関して、画素行および画素列インデックスの共通/共有セットなどを有する、j番目のSDR画像/フレーム内のSDR画素に対応し得る。j番目のHDR画像/フレーム内のHDR画素は、同じビン関連付けt(または数式(17)に示すのと同じビンインデックス)を有するHDR 3Dテーブル(図2Dの248)のビンと同じビン関連t(または数式(17)に示すのと同じビンインデックス)を有するHDR 3Dテーブル(図2Dの250)のビン内のHDR画素カウントにカウントされる。
したがって、Ω (t)は、t番目のビンにマッピングするj番目のSDR画像/フレーム内のすべてのSDR画素に対するY、CおよびC値を累算するが、これは以下のように数学的に表現することができる。
Figure 0007299982000027
SDR 3Dテーブル(図2Dの248)は、j番目のSDR画像/フレームの3DヒストグラムΠ(乗算演算ではなくヒストグラムを表す)として構築でき、ここで、3DヒストグラムΠ内のビン関連付けtを持つ各ビンは、上の数式(18)に示すように、t番目のビンにマッピングされるj番目のSDR画像/フレーム内のSDR画素の数を格納するために次のように使用される。
Figure 0007299982000028
ここで、上式のI(・)は、i番目の画素がビン関連付けtを有するビンに属する場合に1を生じる恒等関数を表す。
同様に、HDR領域内のHDR 3DテーブルΩ (図2Dの250)は、t番目のビンにマッピングするj番目のHDR画像/フレーム内のすべてのHDR画素について、Y、C、およびCを以下のように集約するように構成することができる。
Figure 0007299982000029
クラスタcごとに、Φを、クラスタ(c)にクラスタ化されたSDRおよびHDR画像/フレームのセットにする。クラスタ固有のSDRおよびHDR 3DテーブルΩ およびΩ (図2Dの248および250)は、3DヒストグラムΠとして構築することができ、ここで、pは、下記のように、クラスタ(または、p∈Φ)に属する画像/フレームを表す。
Figure 0007299982000030
3DテーブルΩ およびΩ 内の非ゼロエントリは、クラスタ(c)内のすべての画像にわたって同じビン関連付けを有するビン内の画素の総数で除算することによって正規化または平均化されてもよい。これにより、Ω (t)内の3Dベクトルのすべての要素(各要素はそれぞれのチャネルまたは色成分に対応する)を[0,1]の範囲内に収まるようにし、これは以下のように数学的に表すことができる。
Figure 0007299982000031
次に、SDRおよびHDR 3Dテーブル(図2Dの248および250)を使用して、その特定のクラスタ(c)のためのA行列およびB行列を構築することができる。
[s t,cc0 t,cc1 t,c]は、Ω のt番目のビン内の3D(正規化または平均化された)SDRベクトルを示すものとし、ここで、SDRトリプレットのすべての要素が正規化または平均化され得る(例えば、s t,c,sc0 t,c,sc1 t,c∈[0,1]など)。[v t,cc0 t,cc1 t,c]は、Ω のt番目のビン内のカウントされたSDR画素に対応する対応する(正規化または平均化された)HDR画素のビン内の3D(正規化または平均化された)HDRベクトルを示すものとし、Ω のt番目のビンにカウントされたSDR画像に対応する、対応する(正規化または平均化された)HDRベクトルをカウントまたは保存する。
SDRルマおよびクロマコードワードからHDRクロマコードワード/値を予測するために、ベクトルは、まず、以下のように構築され得る。
Figure 0007299982000032
およびCチャネルに対する対応するMMR係数は、以下の(例えば、転置、下の上付き「T」はベクトル転置等を意味する)ベクトルによって表現されてもよい。
Figure 0007299982000033
ここで、Rは、上記数式(23)におけるベクトルのディメンションを表す。2次のMMR係数を含むベクトルの場合は、R=15である。予測値
Figure 0007299982000034
は、次のように求めることができる。
Figure 0007299982000035
は、3Dテーブル/行列Ω 内の非ゼロビンの総数を示すものとする。期待されるHDRクロマ値
Figure 0007299982000036
のベクトル、および数式(23)に示されるようなSDR値または項の統合行列Gは、以下のように構築または書くことができる。
Figure 0007299982000037
同様に、グラウンドトゥルースHDR値
Figure 0007299982000038
の(例えば、ターゲット、基準などの)ベクトルは、以下のように構築または書くことができる。
Figure 0007299982000039
クロママッピング(またはクロマ逆方向再整形)のためのA行列およびB行列、またはその中のMMR係数は、表8に示すように、すべてのビンの全体的な近似誤差を最小にする最適化問題を解くことによって決定することができる。
Figure 0007299982000040
最適化問題は、次のように線形最小二乗解法を用いて解くことができる。
Figure 0007299982000041
上記数式(28)において、次のようにする。
Figure 0007299982000042
数式(28)におけるこれらの行列は、各クラスタ(c)に対して別々に計算されたA行列およびB行列のクラスタ固有のセットを形成する。クラスタ(c)について計算されたクラスタ重心と共に、このクラスタ固有のA行列およびB行列のセットは、クラスタ(c)の画像特性または特徴ベクトルと同じまたは類似の画像特性または特徴ベクトルを有する画像に対してクロママッピングを実行するためのクロマディクショナリのクラスタ固有の部分を形成する。より明示的には、クロマディクショナリは、特徴ベクトルのすべてのクラスタ(例えば、クラスタの総数Cなど)のA、クラスタごとのBc0とBc1、およびクラスタごとのクラスタ重心Ψ(・)の構成要素を含むか、または格納する。
(例えば、複数のセットなどの)機械学習クラスタ固有のA行列およびB行列、またはその中のMMR係数を含むクロマディクショナリ、およびそれぞれのクラスタ重心は、持続的に、またはキャッシュ/メモリに格納され、クロマ予測動作の基礎として使用され得る。追加的、任意選択的、または代替的に、本明細書で説明するように、それぞれのユーザが所望するスタイルまたはHDRルックを提供することができる、複数のトレーニングデータセットを使用して、GPRモデルおよびクロマディクショナリをトレーニングする動作シナリオでは、複数のトレーニングデータセットのそれぞれを、(たとえば、複数のクラスタなど)クラスタに自動クラスタ化し、(たとえば、複数のセットなどの)機械学習クラスタ固有のA行列およびB行列、またはその中のMMR係数、およびそれぞれのクラスタ重心を備えるそれぞれのクロマディクショナリを導出するために使用することができ、それによって、複数のトレーニングデータセットにそれぞれ対応する(またはそれによってトレーニングされる)複数のクロマディクショナリをもたらす。これらのクロマディクショナリは、永続的にまたはキャッシュ/メモリに格納され、クロマ予測演算のベースとして使用される場合がある。
クロママッピングのテスト
クロマディクショナリアプローチのテストフェーズは、対応するHDR画像へのアクセスに依存せずに実行されてもよい。テストフェーズは、テストSDR画像上の特徴ベクトル(例えば、トレーニング特徴ベクトルなどで使用される同じまたは同一の特徴タイプを用いて)を計算し、特徴ベクトルをすべてのクラスタのすべてのクラスタ重心と比較して、最も近いクラスタ、または2つ以上の最も近いクラスタを見つけるために実施または実行することができる。最も近いクラスタまたは2つ以上の最も近いクラスタのA行列およびB行列を使用して、そのテストSDR画像についてのMMR係数を計算(例えば、2つ以上の最も近いクラスタが使用される場合に組み合わせるなど)または導出することができる。テストSDR画像について導出されたMMR係数は、例えばデコーダ側で、テストSDR画像からマッピングされたHDR画像のクロマチャネル内のHDRコードワードを再構成するために(例えばデコーダ等によって)使用され得る。
いくつかの動作シナリオでは、単一の最も近いクラスタ(例えば、図2Eの256など)がクロママッピングのために使用される。特徴空間内のその単一クラスタに最も近い任意の見えないSDR画像/フレームは、同様の後方クロママッピング特性を示す可能性が高いと比較的安全に仮定することができる。見えないSDR画像/フレームに対応するマッピングされたHDR画像のHDRクロマチャネルは例えば、対応する基準HDR画像/フレームにアクセスすることなく、そのクラスタのA行列およびB行列のセットを使用して、比較的確実かつ正確に構築され得る。
いくつかの他の動作シナリオでは、最も近いクラスタを見つける代わりに、複数の最も近いμ個のクラスタ(たとえば、図2Eの256など)を見つけて、それらのA行列およびB行列を組み合わせて、前述のテストSDR画像などのSDR画像のMMR係数を評価または導出することができるようにすることができる。クラスタ融合のこの戦略(例えば、図2Eの258など)は、隣接するフレームの色の一貫性をより良く維持または保存することができるので、ビデオシーケンスに対してより良く機能することができる。
図2Eに示されるように、(テスト)画像特徴は、(図2Cの236と同じであってもよい)入力(テスト)SDR画像236から抽出されてもよい。例として、(図2Cの238と同じであってもよい)(テスト)特徴ベクトル(Xとして示される)238は、SDR画像(236)から抽出され、画像特徴としてヒストグラムビンを有する組み合わされたルマ-クロマ1Dヒストグラムとして表されてもよい。
次いで、(テスト)特徴ベクトル(238)は、特徴ベクトルのすべてのクラスタについて、(図2Dに例示されているように、トレーニングフェーズから導出されたように)すべてのクラスタ重心254と比較される。クラスタ重心(254)は、(テスト)特徴ベクトルX(238)に関して、最初に最も近いクラスタ重心で、次にそれぞれの近さの順序で、ランク付けすることができる。距離メトリックが(クラスタリングのための)トレーニングフェーズおよび(最も近いクラスタを識別するための)テストフェーズにおいて一貫して使用される限り、(テスト)特徴ベクトル(238)に対するクラスタ重心(254)のそれぞれの距離を計算するために、任意の適切な距離メトリック(例えば、ユークリッド距離、L2距離など)を使用することができる。実験には、ユークリッド距離メトリックを用いる。(テスト)特徴ベクトルX(238)と、xとして示されるクラスタ重心(254)とが与えられると、(テスト)特徴ベクトルX(238)とクラスタ重心(254)との間の最も近い距離を有するクラスタ(1つまたは複数)は、以下のように定式化することができる。
Figure 0007299982000043
いくつかの運用シナリオでは、単一のテスト画像に対して、単一の(例えば、最も近い等の)クラスタのA行列、Bc0行列およびBc1行列を使用して、テスト画像上でクロマ後方再整形を実行するためのMMR係数を導出することができる。
いくつかの動作シナリオでは、ビデオシーケンスについて、ビデオシーケンス内の隣接する画像/フレームを異なるクラスタ重心、したがって異なるクラスタにマッピングすることができ、それによって、おそらく、特定のビデオシーンなどのビデオシーケンス内の色変動につながるので、単一クラスタ手法は安全性が低いことがある。シーンまたはビデオシーケンス内の色の一貫性を維持するために、複数の上位μ個の(最も近い)クラスタからのクラスタ固有のA行列およびB行列の複数のセットを融合して(例えば、図2Eの258など)、A行列およびB行列の集合セットを形成することができ、これを使用して、ビデオシーケンスのすべてのSDR画像/フレームに対してクロママッピングを実行することができる。
説明したようなクラスタ融合は、統一されたクロママッピング動作パラメータ(例えば、MMR係数など)を取得または生成するために、上位μ個のクラスタのクラスタ固有のA行列およびB行列の複数のセットを平均することによって実装または実行され得る。一実施形態では、クラスタ固有のA行列およびB行列が融合されるか(例えば、図2Eの258など)、または単純な平均化または重み付け平均化と組み合わされ得る。
図3Cは、上位2つのクラスタ(μ=2)を有する例示的なクラスタ融合(例えば、図2Eの258など)を示す。2つのトップクラスタからのテスト特徴ベクトルX(塗りつぶされた円)の2つのそれぞれの距離は、d1およびd2である。上位2つのクラスタについてのクラスタ固有行列の2つのセットを、それぞれ、(A,BC0 ,Bc1 )および(A,BC0 ,Bc1 )として示す。上位2つのクラスタのクラスタ重心を、それぞれ、xおよびxと表す。第1の例では、融合されたA行列およびB行列のセットが以下のように単純な平均化によって導出され得る。
Figure 0007299982000044
第2の例では、融合されたA行列およびB行列のセットが以下のように加重平均によって導出され得る。
Figure 0007299982000045
上記の数式(32)から分かるように、加重平均に使用される重みは、テスト特徴ベクトルXとクラスタ重心との間の距離の逆数となるように選択することができる。クラスタの距離が短いほど、クラスタに割り当てられる重みは大きくなる。重み付け戦略は、μ=4,5などの3つ以上のクラスタを用いてクラスタ融合を実行するように拡張することができる。
テストSDR画像をマッピングするクロマのMMR係数は、以下のように導出することができる。
Figure 0007299982000046
クロマ予測(SDRルマおよびクロマコードワードからのHDRクロマコードワードの予測または推定)は、オフライントレーニングされたクロマディクショナリを使用して、最適化されたクロマ後方マッピング動作パラメータを決定または抽出することができる。クロマディクショナリは、SDR画像を対応するマッピングされたHDR画像に後方再整形するためのMMR係数を導出するために使用することができるクラスタ固有(A,Bc0,Bc1)の行列のリストを含む。クラスタ固有のクラスタ(A,Bc0,Bc1)行列の複数のセットの融合を使用して、(例えば、順次、連続等の)画像/フレームのビデオシーケンス内の隣接する画像/フレームにわたって色の一貫性を維持するのを助けることができる。
機械学習ルマおよびクロママッピングの適用例
ルマおよびクロマ後方再整形マッピング(SDRルマおよびクロマコードワードからのHDRルマおよびクロマコードワードの予測/推定)を使用して、HDRルックを操作し、メタデータを最適化するための多種多様な異なる可能性を開く(またはサポートする)ことができる。
エンコーダによるスタイル転送
いくつかの動作シナリオでは、図2Fに示すように、異なるスタイル(例えば、青みがかった画像を好むスタイル、赤みがかった画像を好むスタイル、強いコントラストを好む第1のカラーリストのスタイル、よりソフトな画像を好む異なるカラーリストのスタイルなど)または異なるHDRルックを、ビデオ信号で搬送されるダイナミックコンポーザメタデータまたはSDR画像で符号化された符号化ビットストリームによって、上流のビデオエンコーダから下流のビデオデコーダに転送することができる。
ビデオ信号または符号化ビットストリームに符号化された各SDR画像282について、エンコーダからデコーダに送信されたダイナミックコンポーザメタデータの第1の部分は、SDR画像(282)から抽出された画像特徴(例えば、チャネルY、Cb/C0、およびCr/C1などのコードワードに基づいて計算された画像特徴)を含む特徴ベクトル284に選択されたGPRモデルのセットを適用することによって生成されたルマ後方再整形マッピング(例えば、後方再整形曲線、BLUTなど)を指定または定義する第1の動作パラメータを含むことができる。
SDR画像(282)のためのGPRモデルの選択されたセットは、206-1から206-NのようなGPRモデルの異なるセットの中から選択されてもよく、ここで、Nは1より大きい正の整数である。GPRモデル206-1~206-Nの異なるセットは、1つまたは複数の異なるトレーニングデータセット内のトレーニングSDR-HDR画像ペアの異なるセットによってトレーニングされ得る。例えば、トレーニングSDR画像のセットについて、対応するトレーニングHDR画像の複数のセットは、対応するトレーニングHDR画像の複数のセット内の各セットが対応するトレーニングHDR画像の複数のセット内に表される複数のユーザ所望のスタイルまたはHDRルックの中の別個のユーザ所望のスタイルまたはHDRルックを表すように生成されてもよい。本明細書で使用されるように、ユーザ所望のスタイルまたはHDRルックは、カラーリスト、プロのビデオクリエータ、スタジオなどのユーザによって好まれるまたは意図されるような画像のスタイル(例えば、HDR画像など)を指すことができる。
一実施例では、選択されたユーザ所望のスタイルまたはHDRルックに対応するGPRモデルの選択されたセットは、GPRモデル206-1~206-Nの異なるセットの中から選択された(例えば、ユーザ選好、システム構成情報などに基づいて)GPRモデルの単一のセットであってもよい。
エンコーダからデコーダに送信されるダイナミックコンポーザメタデータの第1の部分、またはSDR画像(282)のためのルマ後方再整形マッピングを指定または定義する第1の動作パラメータは、SDR画像(282)内のSDRルマコードワードを対応するマッピングされたHDR画像内のマッピングされたHDRルマコードワードに後方再整形するためにデコーダによって使用されるBLUTまたは後方再整形曲線の表現/仕様を含むことができる。いくつかの実施形態では、BLUTまたは後方再整形曲線は、複数の2次多項式288でそれぞれ近似された複数の(例えば、最大8等)曲線セグメントに区分化または分割されてもよい。複数または一組の2次多項式(288)を指定または定義する多項式係数は、ビデオ信号または符号化ビットストリーム内の1つまたは複数の画像メタデータコンテナ(たとえば、画像コンテンツコンテナなどとは別個)内の(各)SDR画像/フレーム(282)について、ダイナミックコンポーザメタデータの第1の部分でエンコーダから下流のデコーダに送ることができる。
同様に、ビデオ信号または符号化ビットストリームに符号化された各SDR画像(282)について、エンコーダからデコーダに送信されたダイナミックコンポーザメタデータの第2の部分は、(例えば、A行列およびB行列の複数のセット、これらの行列内のMMR係数などを備える)選択されたクロマディクショナリを特徴ベクトル(284)に適用することによって生成されたクロマ後方再整形マッピング(例えば、MMR係数など)を指定または定義する第2の動作パラメータを含むことができる。
SDR画像(282)のために選択されたクロマディクショナリは、210-1から210-Nのような異なるクロマディクショナリの中から選択されてもよく、ここで、Nは上述のようにGPRモデルのためのものと同じ整数であってもなくてもよく、1より大きい正の整数である。異なるクロマディクショナリ210-1~210-Nは、異なるトレーニングデータセット内のトレーニングSDR-HDR画像ペアの異なるセット(上述のGPRモデルのセットと同じセットであってもよいし、同じセットでなくてもよい)によってトレーニングされてもよい。異なるトレーニングデータセット内のトレーニングSDR-HDR画像ペアのこれらの異なるセットは、異なる対応するユーザ所望のスタイルまたはHDRルックを有することができる。
一実施例では、選択されたクロマディクショナリは、(例えば、ユーザ選好、システム構成情報などに基づく)異なるクロマディクショナリ210-1~210-Nの中から選択された単一のクロマディクショナリとすることができる。
エンコーダからデコーダに送信されるダイナミックコンポーザメタデータの第2の部分、またはSDR画像(282)のためのクロマ後方再整形マッピングを指定または定義する第2の動作パラメータは、SDR画像(282)内のSDRルマおよびクロマコードワードを対応するマッピングされたHDR画像内のマッピングされたHDRクロマコードワードにマッピングするためにデコーダによって使用されるクロマ行列(たとえば、A行列およびB行列)内のMMR係数290を含むことができる。MMR係数(290)は、ダイナミックコンポーザメタデータの第2の部分において、ビデオ信号または符号化ビットストリーム内の1つまたは複数の画像メタデータコンテナ(例えば、画像コンテンツコンテナとは別個など)内の(各)SDR画像/フレーム(282)について、エンコーダから下流のデコーダ(1つまたは複数)に送信することができる。
スタイル転送をサポートするSDR-HDR画像ペアの異なるセットは、異なるHDRルックまたは異なるユーザ定義スタイルの(または、に適応させた)(トレーニング)HDR画像を含むことができる。例えば、トレーニングデータセットの第1のトレーニングデータセット内のSDR-HDR画像ペアの第1のセットは、第1のHDRルックまたは第1のユーザ定義スタイルに対応することができ、トレーニングデータセットの第2のトレーニングデータセット内のSDR-HDR画像ペアの第2の異なるセットは、第2の異なるHDRルックまたは第2の異なるユーザ定義スタイルに対応することができる。
SDR画像(282)について、異なるHDRルックまたは異なるユーザ定義スタイルの異なるルマおよびクロマ後方再整形マッピングは、GPR(ルマ予測/推定)モデル(206-1~206-N)の異なるセットに基づいて生成された異なるBLUTおよび/またはMMR係数の異なるセットによって、および/または異なるクロマディクショナリ(210-1~210-N)によって表すことができる。GPRモデルの異なるセットおよび/または異なるクロマディクショナリは、(異なるトレーニングデータセット内の)異なるHDRルックまたは異なるユーザ定義スタイルのSDR-HDR画像ペアの異なるセットの上でそれぞれトレーニングされ、次いで、SDR画像(282)などの任意の(例えば、テスト、予測されるべき、後方再整形されるべき)SDR画像に個別に(例えば、距離測度に基づいて選択された最も近いスタイルまたはルックなど)適用され得る。
トレーニングデータセットの特定のトレーニングデータセット内の(トレーニング)HDR画像のセット上で学習されたGPRモデルおよびクロマディクショナリを使用して、HDR画像のセットの特定のスタイルまたはルックで具現化される固有のユーザ意図を取り込むことができる。これらのGPRモデルおよびクロマディクショナリは次に、特定のトレーニングデータセット内の(トレーニング)HDR画像のセット内のスタイルまたはルックを、他の(例えば、これまで)見られなかったSDR画像を後方再整形することから生成されたマッピングされたHDR画像に浸透させるために使用することができる。
例として、ユーザは、ユーザが適応することを望むかまたは意図する1つまたは複数のユーザが望むスタイルまたは1つまたは複数のHDRルックに、(または同じ視覚オブジェクト、キャラクタ、シーン、背景などを描写する)トレーニングSDR画像に対応するトレーニングHDR画像を自由に操作する(または操作することができる)。トレーニングSDR画像は、1つ以上のユーザ所望のスタイルまたは1つ以上のHDRルックの各々のトレーニングHDR画像とペアにすることができ、トレーニングデータセットを形成し、1つまたは複数の異なるトレーニングデータセットを生じさせる。
その後、本明細書に記載されるようなGPRモデルの1つまたは複数のセットおよび1つまたは複数のクロマディクショナリは、それぞれのユーザ定義スタイルまたはHDRルックを入力として有する(1つまたは複数の異なるトレーニングデータセットの)各トレーニングデータセット内のトレーニングSDR画像およびトレーニングHDR画像を使用する機械学習によって、直接的かつ自動的にトレーニングされ得る。
次いで、トレーニングされたGPRモデルおよびクロマディクショナリは、他のマップされたHDR画像が1つまたは複数のトレーニングデータセットのうちの1つのトレーニングHDR画像に表される特定のサポートされたユーザ所望のスタイルまたはHDRルックを取得するために、ユーザが他のマッピングされたHDR画像に対して何らかの操作または手動操作を実行することなく、他の任意のSDR画像を後方再整形することによって生成される他のマッピングされたHDR画像に、すべてのユーザ所望のスタイルまたはHDRルックの間で、特定のサポートされたユーザ所望のスタイルまたはHDRルックを自動的に浸透または伝播することができる。その結果、本明細書で説明する技法の下では、ユーザが所望するスタイルまたはHDRルックのマッピングされたHDR画像を生成するためのコストおよび努力は、ユーザの所望のスタイルまたはHDRルックをすべてのビデオシーケンスについて合成されたHDR画像に手動で適用するなど、他の手法の下よりもはるかに少ないレベルまで大幅に低減することができる。
エンコーダ側からデコーダ側にスタイルを転送するために、上流のビデオエンコーダは、様々なクロマディクショナリ(210-1~210-N)と、異なるトレーニングデータセットをそれぞれ有する1人または複数のユーザによってトレーニングされたGPRモデルのセット(206-1~210-N)との間で切り替えることができる。異なるトレーニングデータセットの特定のトレーニングデータセットによってトレーニングされるように、特定のクロマディクショナリおよびGPRモデルの特定のセットを選択することは、特定のユーザ所望のスタイルまたはHDRルックを、特定のトレーニングデータセットのトレーニングHDR画像で表現されるように達成するためのダイナミックコンポーザメタデータを作成することにつながる。
本明細書で説明されるダイナミックコンポーザメタデータは、メディアコンテンツデータ(例えば、ビデオフレーム、オーディオサンプル、変換係数など)を搬送するために使用される画像コンテンツコンテナ/コンストラクトとは別個の1つまたは複数の画像メタデータコンテナ/コンストラクトにおいて、ビデオ信号に圧縮/符号化され得る。
クロマディクショナリは、各クロマチャネルのための複数のA行列およびB行列を含むことができる。図2Fに図示されるように、いくつかの実施形態では(例えば、22など)、クロマディクショナリ内のA行列およびB行列の1つまたは複数のセットのから導出されるMMR係数は、ビデオ信号内の各SDR画像/フレームに対して別々に送ることができる。しかしながら、ビデオシーケンスが長い動作シナリオでは、下流のデコーダに送信されるべきクロマディクショナリのMMR係数を含むダイナミックコンポーザメタデータのデータ量がかなり大きくなり得る。
いくつかの実施形態では、各SDR画像/フレームのMMR係数を個別に送信する代わりに、特定の(サポートされた)クロマディクショナリ(例えば、210-1から210-Nのうちの1つなど)を、クロマディクショナリから選択された特定のクロマディクショナリが後方再整形の目的のために使用され得るビデオシーケンスの始めに送信することができる。
図2Gに示すように、エンコーダ側では、ビデオシーケンス内の各SDR画像/フレーム(282)について、異なるトレーニングデータセットの(選択されたクロマディクショナリをトレーニングまたは導出するために使用される)特定のトレーニングデータセット内の(トレーニング)SDR-HDR画像ペアの1つまたは複数の選択されたクラスタ(例えば、SDR画像/フレームから抽出された特徴ベクトルに基づいて選択された最上位の最も近いクラスタ)を識別する1つまたは複数の(例えば、クラスタなどの)インデックス番号または値(またはクロマディクショナリインデックス)のみが、SDR画像/フレーム(282)とともに下流のデコーダに送信される。下流のデコーダに送信されるインデックス番号または値は、下流のデコーダによって、1つまたは複数のクラスタに対応する特定のクロマディクショナリ内のA行列およびB行列の1つまたは複数の選択されたセットを検索および取得するために使用することができる。特定のクロマディクショナリ内のA行列およびB行列の取得されたセットは、クロマ後方再整形のためにデコーダ側でMMR係数を導出することができるA行列およびB行列の(例えば、最上位の最も近い、結合された/融合されたなどの)セットを導出するか、または融合するために使用することができる。その結果、送信されたダイナミックコンポーザメタデータのデータ量は、大幅にまたは顕著に減少させることができる-各クロマチャネルのルックアップ動作の1つまたは複数のインデックス番号/値に対する各SDR画像/フレームのための22個のMMR係数。特定のクロマディクショナリのクラスタインデックス番号/値は、これらの番号/値の符号化をサポートするコーディングシンタックスに基づいてビデオ信号に符号化できる。
デコーダによるスタイル転送
エンコーダ側でのスタイル転送と同様に、本明細書で説明するようなスタイル転送の一部または全部を、デコーダ側で使用可能にし、実施し、または実行することができる。
図2Hに示すように、1つまたは複数のSDRビデオシーケンスで符号化された符号化ビットストリームと、すべての利用可能なGPRモードのセットから選択されたGPRモデルの特定のセットと、すべての利用可能なクロマディクショナリ(たとえば、210-1から210-Nなど)から選択された特定のクロマディクショナリとを用いて構築された特定のBLUTを備える画像メタデータとは、下流のデコーダによって、上流のエンコーダから直接または間接的に受信され得る。GPRモデルの利用可能なセットおよび利用可能なクロマディクショナリ(210-1~210-N)は、1つまたは複数のトレーニングデータセット内の(トレーニング)SDR-HDR画像ペアの1つまたは複数のそれぞれのセットに対応するか、またはそれを用いた機械学習から導出することができる。SDR-HDR画像ペアのそれぞれのセットにおけるSDR-HDR画像ペアのそれぞれのセットは、自動クラスタリングアルゴリズム/方法から生成された画像クラスタを含むことができ、それぞれのユーザが所望するスタイルまたはHDRルックに対応する。選択されたクロマディクショナリは、SDR画像(例えば、282など)を含むビデオシーケンスの先頭にある画像メタデータの中で送られてもよく、SDR画像からマッピングされたHDR画像が、選択されたユーザ所望のスタイルまたはHDRルックを獲得するためのものである。特定のBLUTは、SDR画像(例えば、1つのSDR画像に対する1つの画像特有のBLUTなど)と共に画像メタデータの中で送られることがあり、SDR画像からマッピングされたHDR画像は、選択されたユーザ所望のスタイルまたはHDRルックを獲得するためである。
いくつかの実施形態では、画像メタデータは、MMR係数を導出するために結合/融合されたクロマクラスタに結合/融合される1つまたは複数の特定のクロマクラスタを識別する1つまたは複数の特定のクラスタインデックス(例えば、1つまたは複数の数、1つまたは複数の値、1つまたは複数の整数など)を搬送するか、または備えるダイナミックコンポーザメタデータを含み、MMR係数はSDR画像(282)上でクロマ後方再整形を実行するために使用することができる。スタイル転送のこのプロセスはエンコーダ側でのスタイル転送と同様であり、利用可能なクロマディクショナリ(210-1~210-N)の中から選択されたクロマディクショナリを事前に送信し、特定のクロマディクショナリ内の選択された、または結合された/融合されたA行列およびB行列のクロマ行列からMMR係数(たとえば、290など)を計算または導出するタスクをデコーダに委ね、導出されたMMR係数(290)を、SDR画像(282)から(たとえば、デコーダによって、エンコーダによって)抽出された特徴ベクトル(たとえば、284など)に適用するオーバヘッドを伴う。その結果、デコーダ側で、ユーザが所望するスタイルやHDRルックを制御することができる。
HDRルックを操作する自由を提供することとは別に、本明細書に記載される技術はまた、スタティックメタデータアプローチと比較してHDR経験を改善する。スタティックメタデータは、個々のSDR画像の個々のSDR性質に関係なく、固定された後方LUTおよびMMR係数を使用することができ、これは、再構成/マッピングされたHDR画像におけるハイライト/明るい領域の過飽和、HDRクロマの不飽和、暗い領域における明るさの上昇などにつながる可能性がある。
これらの問題は、BLUT、多項式係数、クロマディクショナリ、クロマディクショナリインデックス/数/値、MMR係数、特徴ベクトル等のようなルマおよびクロマ後方再整形曲線/マッピングを含む画像メタデータで軽減することができる。これらの技法は、SDRコンテンツの固有の特徴、ならびに(例えば、スタジオ、ユーザ、システムなどの)所望のスタイルまたはHDRルックを、トレーニングHDR画像を通して自動的に学習/識別する。(例えば、トレーニングしていない、見えていない、予測される、マッピングされるなどの)SDR画像からの特徴ベクトルは、トレーニングSDR画像からのトレーニング特徴ベクトルクラスタと、またはそのクラスタ重心と自動的に比較することができる。この比較に基づいて、トレーニングSDR画像の最も近いクラスタを、SDR画像に対して識別することができる。次いで、後方再整形マッピングを決定/導出して、マッピングされたHDR画像に、(例えば、最も近いクラスタ内などの)特定のトレーニングデータセット内に既に見られた性質、スタイル、およびHDRルックを継承させることができる。
本明細書に記載する技術は、ダイナミックコンポーザメタデータのような画像メタデータを符号化ビットストリームに符号化するための画像メタデータ符号化シンタックスを実現するために使用することができる。
例えば、符号化シンタックスは、(エンコーダおよびデコーダの両方が画像メタデータの符号化値を正しく解釈することができるように)指定されて、上流のビデオエンコーダから下流のビデオデコーダにクロマディクショナリ関連データ(例えば、クロマクラスタインデックス/数/値、クロマ行列、MMR係数など)を搬送することができる。クロマディクショナリ関連データを運ぶための符号化シンタックスの例を、以下の表9および10に示す。
Figure 0007299982000047
Figure 0007299982000048
表9に示すように、符号化シンタックス内の符号化シンタックス要素の第1のセットは、例えば、ビデオエンコーダから下流のビデオデコーダへビデオ信号(または符号化ビットストリーム)でビデオシーケンスを送るスタートアップ時に、画像メタデータのシーケンス毎の部分の一部または全部を転送することをサポートするために使用されてもよい。符号化シンタックス要素の第1のセットは、必ずしも限定されないが、以下のもの一部または全部を含むことができる:A行列およびB行列、MMR行列のそれぞれのセットを有する各クラスタを有する(例えば、利用可能な全ての)クロマディクショナリのためのクラスタの総数を指定する、“chroma_dict_num_clusters”;(例えば、単純平均化によって、重み付けされた平均化によって)所与の(例えば、各)SDR画像/フレームのための結合/融合されたA行列およびB行列のセットを生成するために融合されるクラスタの総数を指定する、“chroma_dict_num_cluster_fusion”;クロマ後方再整形のためのMMR係数の総数を推定するために使用されるC0およびC1クロマチャネルのためのMMR次数(例えば、1次に対して0、2次に対して1、など)を指定する、mmr_order_minus1”;A行列のサイズを指定する“num_A_coeff”;B行列のサイズを指定する、“num_B_coeff”;特定のクラスタのためにA行列の整数および/または非整数部分を運ぶか指定する、“chroma_dict_mat_A_int”および/または“chroma_dict_mat_A”;特定のクラスタのためにB行列の整数および/または非整数部分を運ぶか指定する、“chroma_dict_mat_B_int”および/または“chroma_dict_mat_B”などである。
表9に示されるように、符号化シンタックスにおける符号化シンタックス要素の第2のセットは、例えば、ビデオエンコーダから下流のビデオデコーダへビデオ信号(または符号化ビットストリーム)でSDR画像を送るときに、画像メタデータの画像毎(フレーム毎)の部分の一部または全部の転送をサポートするために使用されてもよい。符号化シンタックス要素の第2のセットは、必ずしも限定されないが、以下のもの一部または全部を含むことができる:各SDR画像/フレームに対するクラスタインデックスを指定する、“chroma_dict_cluster_idx”;クラスタ融合中にA行列およびB行列に対する重み係数の整数および/または小数部分を搬送または指定する、“chroma_dict_cluster_wf_int”および/または“chroma_dict_cluster_wf”などである。
プロセスフローの例
図4Aは、本発明の一実施形態による例示的なプロセスフローを示す。いくつかの実施形態では、1つまたは複数のコンピューティングデバイスまたはコンポーネント(たとえば、符号化デバイス/モジュール、トランスコーディングデバイス/モジュール、復号デバイス/モジュール、逆トーンマッピングデバイス/モジュール、トーンマッピングデバイス/モジュール、メディアデバイス/モジュール、予測モデルおよび特徴選択システム、逆マッピング生成およびアプリケーションシステムなど)は、このプロセスフローを実行し得る。ブロック402において、画像メタデータ予測システムは、複数のトレーニングSDR画像および複数の対応するトレーニングHDR画像を含む複数のトレーニング画像ペアを受信する。複数のトレーニング画像ペアにおける各トレーニング画像ペアは、複数のトレーニングSDR画像におけるトレーニングSDR画像と、複数の対応するトレーニングHDR画像における対応するトレーニングHDR画像とを含む。そのような各トレーニング画像ペアにおけるトレーニングSDR画像と対応するトレーニングHDR画像とは、同じ視覚コンテンツを描写するが、異なる輝度ダイナミックレンジを持つ。
ブロック404において、画像メタデータ予測システムは、複数のトレーニング画像ペアにおける複数のトレーニングSDR画像から複数のトレーニング画像特徴ベクトルを抽出する。複数のトレーニング画像特徴ベクトル内のトレーニング画像特徴ベクトルは、複数のトレーニング画像ペアのそれぞれのトレーニング画像ペアのトレーニングSDR画像から抽出される。
ブロック406において、画像メタデータ予測システムは、複数のトレーニング画像特徴ベクトルと、複数の対応するトレーニングHDR画像を用いて導出されたグラウンドトゥルースとを使用して、SDR画像をマッピングされたHDR画像に後方再整形するために使用される後方再整形マッピングの動作パラメータ値を予測するために、1つまたは複数の後方再整形メタデータ予測モデルをトレーニングする。
画像メタデータ予測システムはさらに、1つまたは複数の後方再整形メタデータ予測モデルを適用して、マッピングされたHDR画像のマッピングされたHDRルマコードワードにSDR画像のSDRルマコードワードを後方再整形するために使用される画像固有のルマ後方再整形曲線を指定する動作パラメータ値のセットを生成するように構成される。
一実施形態では、画像メタデータ予測システムがさらに、対応するマッピングされたHDR画像に後方再整形されるSDR画像を受信することと、SDR画像から画像特徴ベクトルを抽出することと、1つまたは複数の後方再整形メタデータ予測モデルを適用し、マッピングされたHDR画像のマッピングされたHDRルマコードワードにSDR画像のSDRルマコードワードを後方再整形するために使用される画像固有のルミナンス後方再整形曲線を指定する動作パラメータ値のセットを生成することと、を実行するように構成される。
一実施形態では、1つまたは複数の後方再整形メタデータ予測モデルがGPRモデルを含む。
一実施形態では、画像メタデータ予測システムがさらに、対応するマッピングされたHDR画像に後方再整形されるSDR画像を受信することと、SDR画像から画像特徴ベクトルを抽出することと、GPRモデルを適用して、SDR画像のSDRルマコードワードをマッピングされたHDR画像のマッピングされたHDRルマコードワードに後方再整形するのに使用される画像固有のルマ後方再整形曲線を指定する動作パラメータ値のセットを生成することと、を実行するように構成される。
SDR画像から抽出された画像特徴ベクトルは、任意選択的に、画像固有のルマ後方再整形曲線を指定する動作パラメータ値のセットの生成中に使用されてもよく、画像固有性は、抽出された画像特徴ベクトルから導出される。
一実施形態では、1つまたは複数の後方再整形メタデータ予測モデルは、多変量多重回帰(MMR)マッピング行列のセットを含む。
一実施形態では、画像メタデータ予測システムは、対応するマッピングされたHDR画像に後方再整形されるSDR画像を受信することと、SDR画像から画像特徴ベクトルを抽出することと、MMRマッピング行列を適用し、マッピングされたHDR画像のマッピングされたHDRクロマコードワードにSDR画像のSDRルマおよびクロマコードワードをマッピングするために使用される画像固有のクロマ後方再整形マッピングを指定するMMR係数のセットを生成することと、を実行するようにさらに構成される。
一実施形態では、画像特徴ベクトルは、ルマヒストグラムビンおよびクロマヒストグラムビンによって連結された1Dルマおよびクロマ結合ヒストグラムによって表される。
一実施形態では、複数のトレーニング画像ペアは、複数のトレーニング画像特徴ベクトルの自動クラスタリングによって生成されたトレーニング画像特徴ベクトルの複数のクラスタに対応するトレーニング画像ペアの複数のクラスタに分割され、複数のクラスタ重心は、トレーニング画像特徴ベクトルの複数のクラスタについて計算され、画像メタデータ予測システムは、対応するマッピングされたHDR画像に後方再整形されるSDR画像を受信することと、SDR画像から画像特徴ベクトルを抽出することと、画像特徴空間内の画像特徴ベクトルに最も近い1つまたは複数のクラスタ重心を有するトレーニング画像特徴ベクトルの1つまたは複数のクラスタに対応するトレーニング画像ペアの1つまたは複数のクラスタを見つけることと、トレーニング画像ペアの1つまたは複数のクラスタを通してトレーニングされた後方再整形メタデータ予測モデルの1つまたは複数のセットを使用して、SDR画像のSDRルマおよびクロマコードワードをマッピングされたHDR画像のマッピングされたHDRルマおよびクロマコードワードにマッピングするために使用される1つまたは複数の画像固有の後方再整形マッピングを決定することと、を実行するようにさらに構成される。
一実施形態では、複数のトレーニング画像ペアが複数のトレーニングデータセットに対応し、複数のトレーニングデータセットは、トレーニングSDR画像の複数のセットおよび対応するトレーニングHDR画像の複数のセットを含み、複数のデータセット中の各トレーニングデータセットはトレーニングSDR画像の複数のセット中のトレーニングSDR画像のセットおよびトレーニングHDR画像の複数のセット中の対応するトレーニングHDR画像のセットを含み、対応するトレーニングHDR画像の複数のセットは複数の異なるHDRルックを有し、対応するHDR画像の複数のセット中の対応するトレーニングHDR画像の各セットは、複数の異なるHDRルック中のそれぞれのHDRルックを有し、画像メタデータ予測システムは、対応するマッピングされたHDR画像に後方再整形されるSDR画像を受信することと、SDR画像から画像特徴ベクトルを抽出することと、複数のトレーニングデータセット中の特定のトレーニングデータセットを通してトレーニングされた後方再整形メタデータ予測モデルの特定のセットを使用して、マッピングされたHDR画像のマッピングされたHDRルマおよびクロマコードワードにSDR画像のSDRルマおよびクロマコードワードをマッピングするのに使用される画像固有の後方再整形マッピングを決定することと、を実行するようにさらに構成される。
一実施形態では、画像メタデータ予測システムは、SDR画像とともに、画像メタデータとして、SDR画像をマッピングされたHDR画像に後方再整形するために使用される後方再整形マッピングの1つまたは複数の動作パラメータ値を、ビデオ信号に符号化することを実行するようにさらに構成され、ビデオ信号は、1つまたは複数の受信者デバイスに、マッピングされたHDR画像から導出された表示画像を1つまたは複数のディスプレイデバイスでレンダリングさせる。
一実施形態では、後方再整形マッピングの動作パラメータ値のうちの1つまたは複数は、画像ごとのダイナミックコンポーザメタデータの符号化および復号をサポートする画像メタデータ符号化シンタックスに基づいてビデオ信号に符号化される。
一実施形態では、後方再整形マッピングの動作パラメータ値を予測するための1つまたは複数の後方再整形メタデータ予測モデルは、複数のSDRルマコードワードから複数のマッピングされたHDRルマコードワードを予測するための複数のGPRモデルを含み、複数のGPRモードによって予測された複数のマッピングされたHDRルマコードワードは、補間によって後方再整形曲線を構築するために使用され、後方再整形曲線は複数の2次多項式によって近似され、複数の2次多項式を指定する動作パラメータは、ダイナミックコンポーザメタデータとして1つまたは複数の受信者復号システムに提供される。
図4Bは、本発明の一実施形態による例示的なプロセスフローを示す。いくつかの実施形態では、1つまたは複数のコンピューティングデバイスまたはコンポーネント(たとえば、符号化デバイス/モジュール、トランスコーディングデバイス/モジュール、復号デバイス/モジュール、逆トーンマッピングデバイス/モジュール、トーンマッピングデバイス/モジュール、メディアデバイス/モジュール、予測モデルおよび特徴選択システム、逆マッピング生成およびアプリケーションシステムなど)がこのプロセスフローを実行し得る。ブロック452において、ビデオ復号システムは、対応するマッピングされた高ダイナミックレンジ(HDR)画像に後方再整形されるSDR画像をビデオ信号から復号する。
ブロック454において、ビデオ復号システムは、画像固有の後方再整形マッピングの1つまたは複数の動作パラメータ値を導出するために使用されるダイナミックコンポーザメタデータをビデオ信号から復号する。
画像固有の後方再整形マッピングの1つまたは複数の動作パラメータ値は、複数のトレーニング画像特徴ベクトルでトレーニングされた1つまたは複数の後方再整形メタデータ予測モデルによって予測される。複数のトレーニング画像特徴ベクトルは、複数のトレーニング画像ペアにおける複数のトレーニングSDR画像から抽出される。複数のトレーニング画像ペアは、複数のトレーニングSDR画像と、複数の対応するトレーニングHDR画像とを含む。複数のトレーニング画像ペアにおける各トレーニング画像ペアは、複数のトレーニングSDR画像におけるトレーニングSDR画像と、複数の対応するトレーニングHDR画像における対応するトレーニングHDR画像とを含む。トレーニングSDR画像とそのような各トレーニング画像ペアにおける対応するトレーニングHDR画像は、同じ視覚コンテンツを描写するが、異なる輝度ダイナミックレンジを持つ。
ブロック456では、ビデオ復号システムは、画像固有の後方再整形マッピングの1つまたは複数の動作パラメータ値を使用して、SDR画像をマッピングされたHDR画像に後方再整形する。
ブロック458において、ビデオ復号システムは、マッピングされたHDR画像から導出された表示画像をディスプレイデバイスでレンダリングさせる。
一実施形態では、画像固有の後方再整形マッピングの1つまたは複数の動作パラメータ値は、後方ルックアップテーブル(BLUT)を近似する2次多項式のセットを指定する多項式係数を含む。2次多項式のセットを使用して構築されたBLUTは、SDR画像のSDRルマコードワードを、マッピングされたHDR画像のHDRルマコードワードに後方再整形するために使用される。
一実施形態では、画像固有の後方再整形マッピングの1つまたは複数の動作パラメータ値は、1つまたは複数のMMRマッピング行列を指定するMMR係数を含み、MMR係数は、SDR画像のSDRルマおよびクロマコードワードを、マッピングされたHDR画像のHDRクロマコードワードにマッピングするために使用される。
一実施形態では、1つまたは複数のクラスタインデックスは、SDR画像のためのビデオ信号から復号され、1つまたは複数のクラスタインデックスは、SDR画像に適用可能な、1つまたは複数のクロマディクショナリの中の特定のクロマディクショナリ内の1つまたは複数のクラスタを識別するために使用され、画像固有の多変量多重回帰(MMR)係数は、1つまたは複数のクラスタインデックスを通して識別された特定のクロマディクショナリ内の1つまたは複数のクロマ行列セットから生成され、画像固有のMMR係数は、SDR画像のSDRルマおよびクロマコードワードを、マッピングされたHDR画像のHDRクロマコードワードにマッピングするために使用される。
一実施形態では、1つまたは複数の後方再整形メタデータ予測モデルがGPRモデルを含む。
一実施形態では、画像固有の後方再整形マッピングの1つまたは複数の動作パラメータ値は、画像固有の予測値を非画像固有のスタティック後方再整形マッピング値で補間することによって導出される少なくとも1つの値を含む。言い換えれば、画像固有の後方再整形マッピングの1つまたは複数の動作パラメータ値は、画像固有の予測値および非画像固有のスタティック後方再整形マッピング値の両方に依存する関数によって導出される少なくとも1つの値を含む。
一実施形態では、SDR画像は、IPT PQ(ICtCp)色空間、YCbCr色空間、RGB色空間、Rec.2020色空間、Rec.709色空間、EDR色空間、ガンマ/HLG/PQ色空間、SDR色空間などのうちの1つで表される。
一実施形態では、ディスプレイデバイス、モバイルデバイス、セットトップボックス、マルチメディアデバイスなどのコンピューティングデバイスは、前述の方法のいずれかを実行するように構成される。一実施形態では、装置はプロセッサを含み、前述の方法のいずれかを実行するように構成される。一実施形態では、ソフトウェア命令を記憶する非一時的なコンピュータ可読記憶媒体は、1つまたは複数のプロセッサによって実行されると、前述の方法のいずれかの実行を引き起こす。
一実施形態では、コンピューティングデバイスは、1つまたは複数のプロセッサと、1つまたは複数のプロセッサによって実行されると、前述の方法のいずれかの実行を引き起こす命令のセットを記憶する1つまたは複数の記憶媒体とを備える。
本明細書では別個の実施形態について議論するが、本明細書で議論する実施形態の任意の組み合わせおよび/または部分的実施形態を組み合わせて、さらなる実施形態を形成することができることに留意されたい。
コンピュータシステム実装例
本発明の実施形態は、コンピュータシステム、電子回路およびコンポーネントで構成されたシステム、マイクロコントローラなどの集積回路(IC)デバイス、フィールドプログラマブルゲートアレイ(FPGA)、または別の構成可能またはプログラマブル論理デバイス(PLD)、離散時間またはデジタル信号プロセッサ(DSP)、特定用途向けIC(ASIC)、および/またはそのようなシステム、デバイス、またはコンポーネントのうちの1つまたは複数を含む装置で実装され得る。コンピュータおよび/またはICは、本明細書で説明されるような、ダイナミックレンジが強化された画像の適応知覚量子化に関する命令を実行、制御、または実行することができる。コンピュータおよび/またはICは、本明細書に記載される適応知覚量子化プロセスに関連する様々なパラメータまたは値のいずれかを計算してもよい。画像およびビデオの実施形態は、ハードウェア、ソフトウェア、ファームウェア、およびそれらの様々な組合せで実施することができる。
本発明のある特定の実施形態は、プロセッサに本発明の方法を実行させるソフトウェア命令を実行するコンピュータプロセッサを含む。例えば、ディスプレイ、エンコーダ、セットトップボックス、トランスコーダなどの1つまたは複数のプロセッサは、プロセッサにアクセス可能なプログラムメモリ内のソフトウェア命令を実行することによって、上述のようなHDR画像の適応知覚量子化に関連する方法を実装することができる。本発明はまた、プログラム製品の形態で提供されてもよい。プログラム製品は、データプロセッサによって実行されると、データプロセッサに本発明の方法を実行させる命令を含む1組のコンピュータ可読信号を搬送する任意の非一時的媒体を含むことができる。本発明によるプログラム製品は、多種多様な形態のいずれであってもよい。プログラム製品は例えば、フロッピーディスケット、ハードディスクドライブを含む磁気データ記憶媒体、CD ROM、DVDを含む光データ記憶媒体、ROM、フラッシュRAMなどを含む電子データ記憶媒体などの物理媒体を含むことができる。プログラム製品上のコンピュータ可読信号は、任意選択で、圧縮または暗号化することができる。
構成要素(例えば、ソフトウェアモジュール、プロセッサ、アセンブリ、デバイス、回路など)が上記で言及されている場合、別段の指示がない限り、(「手段」への言及を含む)その構成要素への言及は、本発明の例示的な実施形態において機能を実行する開示された構造と構造的に同等でない構成要素を含む、説明された構成要素(例えば、機能的に同等)の機能を実行する任意の構成要素の同等物を含むものとして解釈されるべきである。
一実施形態によれば、本明細書で説明する技法は、1つまたは複数の専用コンピューティングデバイスによって実装される。専用コンピューティングデバイスは、技法を実行するためにハードワイヤードであってもよく、または技法を実行するように永続的にプログラムされた1つまたは複数の特定用途向け集積回路(ASIC)またはフィールドプログラマブルゲートアレイ(FPGA)などのデジタル電子デバイスを含んでもよく、あるいはファームウェア、メモリ、他のストレージ、またはそれらの組合せ内のプログラム命令に従って技法を実行するようにプログラムされた1つまたは複数の汎用ハードウェアプロセッサを含んでもよい。このような特殊な目的のコンピューティングデバイスは、カスタムハードワイヤードロジック、ASIC、またはFPGAをカスタムプログラミングと組み合わせて、技法を達成することもできる。特殊な目的の計算デバイスは、デスクトップコンピュータシステム、ポータブル・コンピュータシステム、ハンドヘルドデバイス、ネットワーキングデバイス、または技術を実現するためにハードワイヤードおよび/またはプログラムロジックを組み込んだその他のデバイスであってもよい。
例えば、図5は、本発明の実施形態を実施することができるコンピュータシステム500を示すブロック図である。コンピュータシステム500は、情報を通信するためのバス502または他の通信メカニズムと、情報を処理するためのバス502と結合されたハードウェアプロセッサ504とを含む。ハードウェアプロセッサ504は例えば、汎用マイクロプロセッサであってもよい。
コンピュータシステム500はまた、プロセッサ504によって実行される情報および命令を記憶するためにバス502に結合されたランダムアクセスメモリ(RAM)または他のダイナミック記憶デバイスなどのメインメモリ506を含む。メインメモリ506はまた、プロセッサ504によって実行される命令の実行中に、一時変数または他の中間情報を記憶するために使用されてもよい。このような命令は、プロセッサ504にアクセス可能な非一時的記憶媒体に記憶されると、コンピュータシステム500を、命令で指定された動作を実行するようにカスタマイズされた特殊な目的のマシンにする。
コンピュータシステム500はさらに、バス502に結合された読取り専用メモリ(ROM)508または他の静的記憶デバイスを含み、静的情報およびプロセッサ504のための命令を記憶する。磁気ディスクまたは光ディスクなどの510が提供され、情報および命令を記憶するためにバス502に結合される。
コンピュータシステム500は、バス502を介して、コンピュータユーザに情報を表示するために、液晶ディスプレイなどのディスプレイ512に結合することができる。英数字および他のキーを含む入力デバイス514は、情報およびコマンド選択をプロセッサ504に通信するためにバス502に結合される。別のタイプのユーザ入力デバイスは、プロセッサ504に方向情報およびコマンド選択を通信し、ディスプレイ512上のカーソル移動を制御するための、マウス、トラックボール、またはカーソル方向キーなどのカーソル制御516である。この入力デバイスは通常、デバイスが平面内の位置を指定することを可能にする第1の軸(例えば、x)および第2の軸(例えば、y)の2つの軸における2つの自由度を有する。
コンピュータシステム500は、コンピュータシステムと組み合わせて、コンピュータシステム500が特殊な目的のマシンであることを引き起こすまたはプログラムする、カスタマイズされたハードワイヤードロジック、1つまたは複数のASICまたはFPGA、ファームウェアおよび/またはプログラムロジックを使用して、本明細書に記載する技術を実施することができる。一実施形態によれば、本明細書で説明する技法は、プロセッサ504がメインメモリ506に含まれる1つまたは複数の命令の1つまたは複数のシーケンスを実行することに応答して、コンピュータシステム500によって実行される。このような命令は、記憶デバイス510のような別の記憶媒体からメインメモリ506に読み込まれてもよい。メインメモリ506に含まれる命令のシーケンスを実行することにより、プロセッサ504は、本明細書に記載するプロセスステップを実行する。代替的な実施形態では、ソフトウェア命令の代わりに、またはソフトウェア命令と組み合わせて、ハードワイヤード回路を使用することができる。
本明細書で使用される「記憶媒体」という用語は、機械を特定の方式で動作させるデータおよび/または命令を記憶する任意の非一時的媒体を指す。そのような記憶媒体は、不揮発性媒体および/または揮発性媒体を含むことができる。不揮発性媒体は例えば、記憶デバイス510のような光または磁気ディスクを含む。揮発性媒体は、メインメモリ506のようなダイナミックメモリを含む。記憶媒体の一般的な形態としては、例えば、フロッピーディスク、フレキシブルディスク、ハードディスク、ソリッドステートドライブ、磁気テープ、または他の任意の磁気データ記憶媒体、CD-ROM、他の任意の光データ記憶媒体、穴のパターンを有する任意の物理媒体、RAM、PROM、およびEPROM、FLASH(登録商標)-EPROM、NVRAM、他の任意のメモリチップまたはカートリッジが挙げられる。
記憶媒体は伝送媒体とは異なるが、伝送媒体と併せて使用することができる。伝送媒体は、記憶媒体間の情報転送に関与する。例えば、伝送媒体は、バス502を構成するワイヤを含む同軸ケーブル、銅線および光ファイバを含む。また、伝送媒体は、ラジオ波および赤外線データ通信中に生成されるような音波または光波の形態をとることができる。
様々な形態の媒体が、実行のために1つまたは複数の命令の1つまたは複数のシーケンスをプロセッサ504に搬送することに関与し得る。例えば、命令は最初に、リモートコンピュータの磁気ディスクまたはソリッドステートドライブ上で搬送されてもよい。遠隔コンピュータはそのダイナミックメモリに命令をロードし、モデムを使用して電話回線を介して命令を送ることができる。コンピュータシステム500にローカルなモデムは、電話回線上でデータを受信し、赤外線送信機を使用してデータを赤外線信号に変換することができる。赤外線検出器は、赤外線信号において搬送されるデータを受信することができ、適切な回路は、データをバス502上に配置することができる。バス502はデータをメインメモリ506に搬送し、そこからプロセッサ504が命令を取得して実行する。メインメモリ506によって受信された命令は、プロセッサ504による実行の前または後のいずれかで、任意選択で記憶デバイス510に記憶することができる。
コンピュータシステム500は、バス502に結合された通信インターフェース518も含む。通信インターフェース518は、ローカルネットワーク522に接続されているネットワークリンク520への双方向データ通信結合を提供する。例えば、通信インターフェース518は、統合サービスデジタルネットワーク(ISDN)カード、ケーブルモデム、衛星モデム、またはモデムであり、対応するタイプの電話回線へのデータ通信接続を提供することができる。別の例として、通信インターフェース518は、互換性のあるLANへのデータ通信接続を提供するためのローカルエリアネットワーク(LAN)カードであってもよい。無線リンクを実装することも可能である。任意のそのような実装形態では、通信インターフェース518が様々なタイプの情報を表すデジタルデータストリームを搬送する電気信号、電磁信号、または光信号を送受信する。
ネットワークリンク520は、典型的には1つまたは複数のネットワークを介して他のデータデバイスにデータ通信を提供する。例えば、ネットワークリンク520は、ローカルネットワーク522を介して、ホストコンピュータ524またはインターネットサービスプロバイダ(ISP)526によって運用されるデータデバイスへの接続を提供することができる。ISP526は次に、現在一般に「インターネット」528と呼ばれているワールドワイドパケットデータ通信ネットワークを介してデータ通信サービスを提供する。ローカルネットワーク522およびインターネット528は共に、デジタルデータストリームを搬送する電気信号、電磁信号、または光信号を使用する。コンピュータシステム500との間でデジタルデータを搬送する、様々なネットワークを介する信号、ならびにネットワークリンク520上の信号、および通信インターフェース518を介する信号は、伝送媒体の例示的な形態である。
コンピュータシステム500は、ネットワーク、ネットワークリンク520および通信インターフェース518を介して、メッセージを送信し、プログラムコードを含むデータを受信することができる。インターネットの例では、サーバ530は、インターネット528、ISP526、ローカルネットワーク522および通信インターフェース518を介して、アプリケーションプログラムの要求されたコードを送信することができる。
受信されたコードは、受信されたときにプロセッサ504によって実行され、および/または、後に実行するために、記憶デバイス510、または他の不揮発性記憶デバイスに記憶されてもよい。
等価物、拡張物、代替物およびその他
先述の明細では、実装ごとに異なる可能性のある多数の具体的詳細を参照して、本発明の実施形態を説明してきた。したがって、本発明が何であり、出願人によって本発明であることが意図されているのが何であるかの唯一の排他的な指標は、後続の補正を含む、そのような特許請求の範囲が発行される特定の形態で、本出願から発行される請求項のセットである。当該特許請求の範囲に含まれる用語に関して本明細書に明示的に記載される定義は、特許請求の範囲で使用される用語の意味を規定するものとする。したがって、特許請求の範囲に明示的に記載されていない限定、要素、特性、特徴、利点または属性は、当該特許請求の範囲の範囲を何らかの形で制限するものであってはならない。したがって、本明細書および図面は、制限的な意味ではなく例示的な意味に考えられるべきである。
列挙された例示的な実施形態
本発明は、本発明のいくつかの部分の構造、特徴、および機能性を説明する以下の列挙された実施例(EEE)を含むが、これらに限定されない、本明細書に記載された形態のいずれかで具現化されてもよい。
EEE1.
複数のトレーニング標準ダイナミックレンジ(SDR)画像および複数の対応するトレーニング高ダイナミックレンジ(HDR)画像を含む複数のトレーニング画像ペアを受信することであって、前記複数のトレーニング画像ペアにおける各トレーニング画像ペアは、前記複数のトレーニングSDR画像におけるトレーニングSDR画像および前記複数の対応するトレーニングHDR画像における対応するトレーニングHDR画像を含み、各トレーニング画像ペアにおける前記トレーニングSDR画像および前記対応するトレーニングHDR画像は、同じ視覚的コンテンツを示すが、異なる輝度ダイナミックレンジを有する、受信することと、
前記複数のトレーニング画像ペアにおける複数のトレーニングSDR画像から複数のトレーニング画像特徴ベクトルを抽出することであって、前記複数のトレーニング画像特徴ベクトルにおけるトレーニング画像特徴ベクトルは、前記複数のトレーニング画像ペアにおけるそれぞれのトレーニング画像ペアにおけるトレーニングSDR画像から抽出される、抽出することと、
前記複数のトレーニング画像特徴ベクトルおよび前記複数の対応するトレーニングHDR画像で導出されたグラウンドトゥルースを使用して、SDR画像をマッピングされたHDR画像に後方再整形するために使用される後方再整形マッピングの動作パラメータ値を予測するために、1つまたは複数の後方再整形メタデータ予測モデルをトレーニングすることと、を含む方法。
EEE2.
前記1つまたは複数の後方再整形メタデータ予測モデルはガウス過程回帰(GPR)モデルを含む、EEE1記載の方法。
EEE3.
対応するマッピングされたHDR画像に後方再整形されるSDR画像を受け取ることと、
前記SDR画像から画像特徴ベクトルを抽出することと、
GPRモデルを適用して、前記SDR画像のSDRルマコードワードを、前記マッピングされたHDR画像のマッピングされたHDRルマコードワードに後方再整形するために使用される画像固有のルマ後方再整形曲線を指定する動作パラメータ値のセットを生成することと、をさらに含む、EEE2に記載の方法。
EEE4.
前記1つまたは複数の後方再整形メタデータ予測モデルは、多変量多重回帰(MMR)マッピング行列のセットを含む、EEE1~3のいずれか1つに記載の方法。
EEE5.
対応するマッピングされたHDR画像に後方再整形されるSDR画像を受信することと、
前記SDR画像からの画像特徴ベクトルを抽出することと、
前記MMRマッピング行列を適用して、前記SDR画像のSDRルマおよびクロマコードワードをマッピングされたHDR画像のマッピングされたHDRクロマコードワードにマッピングするために使用される画像固有のクロマ後方再整形マッピングを指定するMMR係数のセットを生成することと、をさらに含む、EEE4記載の方法。
EEE6.
前記画像特徴ベクトルは、ルマヒストグラムビンおよびクロマヒストグラムビンによって連結された1Dルマおよびクロマ結合ヒストグラムによって表される、EEE1~5のいずれかに記載の方法。
EEE7.
前記複数のトレーニング画像ペアは、前記複数のトレーニング画像特徴ベクトルの自動クラスタ化によって生成されたトレーニング画像特徴ベクトルの複数のクラスタに対応するトレーニング画像ペアの複数のクラスタに分割され、複数のクラスタ重心は、トレーニング画像特徴ベクトルの前記複数のクラスタについて計算され、
対応するマッピングされたHDR画像に後方再整形されるSDR画像を受信することと、
前記SDR画像から画像特徴ベクトルを抽出することと、
画像特徴空間内の前記画像特徴ベクトルに最も近い1つまたは複数のクラスタ重心を有するトレーニング画像特徴ベクトルの1つまたは複数のクラスタに対応するトレーニング画像ペアの1つまたは複数のクラスタを見つけることと、
トレーニング画像ペアの前記1つまたは複数のクラスタを介してトレーニングされた後方再整形メタデータ予測モデルの1つまたは複数のセットを使用して、前記SDR画像のSDRルマおよびクロマコードワードを前記マッピングされたHDR画像のマッピングされたHDRルマおよびクロマコードワードにマッピングするために使用される1つまたは複数の画像固有の後方再整形マッピングを決定することと、をさらに含む、EEE1~6のいずれか1つに記載の方法。
EEE8.
前記複数のトレーニング画像ペアは複数のトレーニングデータセットに対応し、前記複数のトレーニングデータセットは、トレーニングSDR画像の複数のセットと、対応するトレーニングHDR画像の複数のセットとを含み、前記複数のデータセット内の各トレーニングデータセットは、トレーニングSDR画像の前記複数のセット内のトレーニングSDR画像のセットと、トレーニングHDR画像の前記複数のセット内の対応するトレーニングHDR画像のセットとを含み、対応するトレーニングHDR画像の前記複数のセットは複数の異なるHDRルックを有し、対応するHDR画像の前記複数のセット内の対応するトレーニングHDR画像の各セットは、複数の異なるHDRルック内のそれぞれのHDRルックを有し、
対応するマッピングされたHDR画像に後方再整形されるSDR画像を受信することと、
前記SDR画像から画像特徴ベクトルを抽出することと、
複数のトレーニングデータセット内の特定のトレーニングデータセットを介してトレーニングされた後方再整形メタデータ予測モデルの特定のセットを使用して、前記SDR画像のSDRルマおよびクロマコードワードを前記マッピングされたHDR画像のマッピングされたHDRルマおよびクロマコードワードにマッピングするために使用される画像固有の後方再整形マッピングを決定することと、をさらに含む、EEE1~7のいずれか1つに記載の方法。
EEE9.
SDR画像とともに、画像メタデータとして、前記SDR画像をマッピングされたHDR画像に後方再整形するために使用される後方再整形マッピングの1つまたは複数の動作パラメータ値をビデオ信号に符号化することをさらに含み、前記ビデオ信号は1つまたは複数の受信デバイスに、前記マッピングされたHDR画像から導出された表示画像を1つまたは複数のディスプレイデバイスでレンダリングさせる、EEE1~8のいずれか1つに記載の方法
EEE10.
後方再整形マッピングの1つまたは複数の動作パラメータ値は、画像ごとのダイナミックコンポーザメタデータの符号化および復号をサポートする画像メタデータ符号化シンタックスに基づいてビデオ信号に符号化される、EEE1-9のいずれか1つに記載の方法。
EEE11.
後方再整形マッピングの動作パラメータ値を予測するための1つまたは複数の後方再整形メタデータ予測モデルは、複数のSDRルマコードワードから複数のマッピングされたHDRルマコードワードを予測するための複数のガウス過程回帰(GPR)モデルを含み、前記複数のGPRモードによって予測された複数のマッピングされたHDRルマコードワードは補間によって後方再整形曲線を構築するために使用され、前記後方再整形曲線は複数の2次多項式によって近似され、前記複数の2次多項式を指定する動作パラメータは、ダイナミックコンポーザメタデータとして1つまたは複数の受信者復号システムに提供される、EEE1~10のいずれかに記載の方法。
EEE12.
方法であって、
ビデオ信号から、対応するマッピングされた高ダイナミックレンジ(HDR)画像に後方再整形される標準ダイナミックレンジ(SDR)画像を復号することと、
前記ビデオ信号から、画像固有の後方再整形マッピングの1つまたは複数の動作パラメータ値を導出するために使用されるダイナミックコンポーザメタデータを復号することと、を含み、
画像固有の後方再整形マッピングの1つまたは複数の動作パラメータ値は、複数のトレーニング画像特徴ベクトルでトレーニングされた1つまたは複数の後方再整形メタデータ予測モデルによって予測され、
前記複数のトレーニング画像特徴ベクトルは、複数のトレーニング画像ペアにおける複数のトレーニングSDR画像から抽出され、
前記複数のトレーニング画像ペアは、複数のトレーニングSDR画像と複数の対応するトレーニングHDR画像とを含み、前記複数のトレーニング画像ペアにおける各トレーニング画像ペアは、前記複数のトレーニングSDR画像におけるトレーニングSDR画像と、前記複数の対応するトレーニングHDR画像における対応するトレーニングHDR画像とを含み、各そのようなトレーニング画像対における前記トレーニングSDR画像と前記対応するトレーニングHDR画像とは同じ視覚的コンテンツを示すが、異なる輝度ダイナミックレンジを有し、
前記方法は、さらに、
前記画像固有の後方再整形マッピングの1つまたは複数の動作パラメータ値を使用して、前記SDR画像を前記マッピングされたHDR画像に後方再整形することと、
前記マッピングされたHDR画像から導出された表示画像をディスプレイデバイスでレンダリングさせることと、を含む、方法。
EEE13.
前記画像固有の後方再整形マッピングの前記1つまたは複数の動作パラメータ値は、後方ルックアップテーブル(BLUT)に近似する二次多項式のセットを指定する多項式係数を含み、前記二次多項式のセットを使用して構築された前記BLUTは、前記SDR画像のSDRルマコードワードを、前記マッピングされたHDR画像のHDRルマコードワードに後方再整形するために使用される、EEE12に記載の方法。
EEE14.
前記画像固有の後方整形マッピングの前記1つまたは複数の動作パラメータ値は、1つまたは複数のMMRマッピング行列を指定する多変量多重回帰(MMR)係数を含み、前記MMR係数は、前記SDR画像のSDRルマおよびクロマコードワードを、前記マッピングされたHDR画像のHDRクロマコードワードにマッピングするために使用される、EEE12またはEEE13に記載の方法。
EEE15.
1つまたは複数のクラスタインデックスは前記SDR画像のための前記ビデオ信号から復号され、1つまたは複数のクラスタインデックスは、前記SDR画像に適用可能な、1つまたは複数のクロマディクショナリの中の特定のクロマディクショナリにおける1つまたは複数のクラスタを識別するために使用され、画像固有の多変量多重回帰(MMR)係数は、前記1つまたは複数のクラスタインデックスを通して識別された特定のクロマディクショナリの中の1つまたは複数のクロマ行列のセットから生成され、前記画像固有のMMR係数は、前記SDR画像のSDRルマおよびクロマコードワードを、マッピングされたHDR画像のHDRクロマコードワードにマッピングするために使用される、EEE12~14のいずれか1つに記載の方法。
EEE16.
前記1つまたは複数の後方再整形メタデータ予測モデルは、ガウス過程回帰(GPR)モデルを含む、EEE12~15のいずれか1つに記載の方法。
EEE17.
前記画像固有の後方再整形マッピングの前記1つまたは複数の動作パラメータ値は、画像固有の予測値を非画像固有のスタティック後方再整形マッピング値で補間することによって導出される少なくとも1つの値を含む、EEE12~16のいずれかに記載の方法。
EEE18.
前記SDR画像は、IPT PQ(ICtCp)色空間、YCbCr色空間、RGB色空間、Rec.2020色空間、Rec.709色空間、拡張ダイナミックレンジ(EDR)色空間、ガンマ/HLG/PQ色空間、または標準ダイナミックレンジ(SDR)色空間のうちの1つで表される、EEE12~17のいずれか1つに記載の方法。
EEE19.
EEE1~18に記載の方法のいずれか1つを実行するように構成された、コンピュータシステム。
EEE20.
プロセッサを含み、EEE1~18に記載の方法のいずれか1つを実行するように構成された、装置。
EEE21.
EEE1~18に記載のいずれか1つの方法による方法を実行するためのコンピュータ実行可能命令を記憶した、非一時的コンピュータ読み取り可能な記憶媒体。

Claims (15)

  1. 複数のトレーニング標準ダイナミックレンジ(SDR)画像および複数の対応するトレーニング高ダイナミックレンジ(HDR)画像を含む複数のトレーニング画像ペアを受信することであって、前記複数のトレーニング画像ペアにおける各トレーニング画像ペアは、前記複数のトレーニングSDR画像におけるトレーニングSDR画像および前記複数の対応するトレーニングHDR画像における対応するトレーニングHDR画像を含み、各トレーニング画像ペアにおける前記トレーニングSDR画像および前記対応するトレーニングHDR画像は、同じ視覚的コンテンツを示すが、異なる輝度ダイナミックレンジを有する、受信することと、
    前記複数のトレーニング画像ペアにおける複数のトレーニングSDR画像から複数のトレーニング画像特徴ベクトルを抽出することであって、前記複数のトレーニング画像特徴ベクトルにおけるトレーニング画像特徴ベクトルは、前記複数のトレーニング画像ペアにおけるそれぞれのトレーニング画像ペアにおけるトレーニングSDR画像から抽出される、抽出することと、
    前記複数のトレーニング画像特徴ベクトルおよび前記複数の対応するトレーニングHDR画像で導出されたグラウンドトゥルースを使用して、SDR画像をマッピングされたHDR画像に後方再整形するために使用される後方再整形マッピングの動作パラメータ値を予測するために、1つまたは複数の後方再整形メタデータ予測モデルをトレーニングすることと、
    対応するマッピングされたHDR画像に後方再整形されるSDR画像を受け取ることと、
    前記受け取ったSDR画像から画像特徴ベクトルを抽出することと、
    前記1つまたは複数の後方再整形メタデータ予測モデルを適用して、前記マッピングされたHDR画像のマッピングされたHDRルマコードワードに前記受け取ったSDR画像のSDRルマコードワードを後方再整形するために使用される画像固有のルマ後方再整形曲線を指定する動作パラメータ値のセットを生成することと、を含む、方法。
  2. 前記1つまたは複数の後方再整形メタデータ予測モデルはガウス過程回帰(GPR)モデルを含む、方法であって
    PRモデルを適用して、前記SDR画像のSDRルマコードワードを、前記マッピングされたHDR画像のマッピングされたHDRルマコードワードに後方再整形するために使用される画像固有のルマ後方再整形曲線を指定する動作パラメータ値のセットを生成することと、をさらに含む、請求項1に記載の方法。
  3. 前記1つまたは複数の後方再整形メタデータ予測モデルは、多変量多重回帰(MMR)マッピング行列のセットを含む、請求項1または2に記載の方法。
  4. 前記画像特徴ベクトルは、ルマヒストグラムビンおよびクロマヒストグラムビンによって連結された1Dルマおよびクロマ結合ヒストグラムによって表される、請求項1~3のいずれか一項に記載の方法。
  5. 前記複数のトレーニング画像ペアは、前記複数のトレーニング画像特徴ベクトルの自動クラスタ化によって生成されたトレーニング画像特徴ベクトルの複数のクラスタに対応するトレーニング画像ペアの複数のクラスタに分割され、複数のクラスタ重心は、トレーニング画像特徴ベクトルの前記複数のクラスタについて計算され、
    対応するマッピングされたHDR画像に後方再整形されるSDR画像を受信することと、
    前記SDR画像から画像特徴ベクトルを抽出することと、
    画像特徴空間内の前記画像特徴ベクトルに最も近い1つまたは複数のクラスタ重心を有するトレーニング画像特徴ベクトルの1つまたは複数のクラスタに対応するトレーニング画像ペアの1つまたは複数のクラスタを見つけることと、
    トレーニング画像ペアの前記1つまたは複数のクラスタを介してトレーニングされた後方再整形メタデータ予測モデルの1つまたは複数のセットを使用して、前記SDR画像のSDRルマおよびクロマコードワードを前記マッピングされたHDR画像のマッピングされたHDRルマおよびクロマコードワードにマッピングするために使用される1つまたは複数の画像固有の後方再整形マッピングを決定することと、をさらに含む、請求項1~4のいずれか一項に記載の方法。
  6. 前記複数のトレーニング画像ペアは複数のトレーニングデータセットに対応し、前記複数のトレーニングデータセットは、トレーニングSDR画像の複数のセットと、対応するトレーニングHDR画像の複数のセットとを含み、前記複数のデータセット内の各トレーニングデータセットは、トレーニングSDR画像の前記複数のセット内のトレーニングSDR画像のセットと、トレーニングHDR画像の前記複数のセット内の対応するトレーニングHDR画像のセットとを含み、対応するトレーニングHDR画像の前記複数のセットは複数の異なるHDRルックを有し、対応するHDR画像の前記複数のセット内の対応するトレーニングHDR画像の各セットは、複数の異なるHDRルック内のそれぞれのHDRルックを有し、
    対応するマッピングされたHDR画像に後方再整形されるSDR画像を受信することと、
    前記SDR画像から画像特徴ベクトルを抽出することと、
    複数のトレーニングデータセット内の特定のトレーニングデータセットを介してトレーニングされた後方再整形メタデータ予測モデルの特定のセットを使用して、前記SDR画像のSDRルマおよびクロマコードワードを前記マッピングされたHDR画像のマッピングされたHDRルマおよびクロマコードワードにマッピングするために使用される画像固有の後方再整形マッピングを決定することと、をさらに含む、請求項1から5のいずれか一項に記載の方法。
  7. 後方再整形マッピングの1つまたは複数の動作パラメータ値は、画像ごとのダイナミックコンポーザメタデータの符号化および復号をサポートする画像メタデータ符号化シンタックスに基づいてビデオ信号に符号化される、請求項1~6のいずれか一項に記載の方法。
  8. 後方再整形マッピングの動作パラメータ値を予測するための1つまたは複数の後方再整形メタデータ予測モデルは、複数のSDRルマコードワードから複数のマッピングされたHDRルマコードワードを予測するための複数のガウス過程回帰(GPR)モデルを含み、前記複数のGPRモデルによって予測された複数のマッピングされたHDRルマコードワードは補間によって後方再整形曲線を構築するために使用され、前記後方再整形曲線は複数の2次多項式によって近似され、前記複数の2次多項式を指定する動作パラメータは、ダイナミックコンポーザメタデータとして1つまたは複数の受信者復号システムに提供される、請求項1~7のいずれか一項に記載の方法。
  9. 方法であって、
    ビデオ信号から、対応するマッピングされた高ダイナミックレンジ(HDR)画像に後方再整形される標準ダイナミックレンジ(SDR)画像を復号することと、
    前記ビデオ信号から、画像固有の後方再整形マッピングの1つまたは複数の動作パラメータ値を導出するために使用されるダイナミックコンポーザメタデータを復号することと
    記画像固有の後方再整形マッピングの1つまたは複数の動作パラメータ値を使用して、前記SDR画像を前記マッピングされたHDR画像に後方再整形することと、
    前記マッピングされたHDR画像から導出された表示画像をディスプレイデバイスでレンダリングさせることと、をさらに含む、請求項1から8のいずれか一項に記載の方法。
  10. 前記画像固有の後方再整形マッピングの前記1つまたは複数の動作パラメータ値は、後方ルックアップテーブル(BLUT)に近似する二次多項式のセットを指定する多項式係数を含み、前記二次多項式のセットを使用して構築された前記BLUTは、前記SDR画像のSDRルマコードワードを、前記マッピングされたHDR画像のHDRルマコードワードに後方再整形するために使用される、請求項9に記載の方法。
  11. 前記画像固有の後方整形マッピングの前記1つまたは複数の動作パラメータ値は、1つまたは複数のMMRマッピング行列を指定する多変量多重回帰(MMR)係数を含み、前記MMR係数は、前記SDR画像のSDRルマおよびクロマコードワードを、前記マッピングされたHDR画像のHDRクロマコードワードにマッピングするために使用される、請求項9または10に記載の方法。
  12. 前記画像固有の後方再整形マッピングの前記1つまたは複数の動作パラメータ値は、画像固有の予測値および非画像固有のスタティック後方再整形マッピング値の両方に依存する関数によって導出される少なくとも1つの値を含む、請求項9~11のいずれか一項に記載の方法。
  13. 請求項1~12のいずれか一項に記載の方法を実行するように構成された、コンピュータシステム。
  14. プロセッサを含み、請求項1~12のいずれか一項に記載の方法を実行するように構成された、装置。
  15. コンピューティングデバイスまたはシステムによって実行されると、前記コンピューティングデバイスまたはシステムに、請求項1~12のいずれか一項に記載の方法を実行させる命令を有する、コンピュータプログラム。
JP2021532030A 2018-12-18 2019-12-16 拡張標準ダイナミックレンジビデオ(sdr+)における機械学習ベースのダイナミックコンポージング Active JP7299982B2 (ja)

Applications Claiming Priority (5)

Application Number Priority Date Filing Date Title
US201862781185P 2018-12-18 2018-12-18
EP18213670 2018-12-18
US62/781,185 2018-12-18
EP18213670.5 2018-12-18
PCT/US2019/066595 WO2020131731A1 (en) 2018-12-18 2019-12-16 Machine learning based dynamic composing in enhanced standard dynamic range video (sdr+)

Publications (2)

Publication Number Publication Date
JP2022511072A JP2022511072A (ja) 2022-01-28
JP7299982B2 true JP7299982B2 (ja) 2023-06-28

Family

ID=69173423

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2021532030A Active JP7299982B2 (ja) 2018-12-18 2019-12-16 拡張標準ダイナミックレンジビデオ(sdr+)における機械学習ベースのダイナミックコンポージング

Country Status (5)

Country Link
US (1) US12086969B2 (ja)
EP (1) EP3900341A1 (ja)
JP (1) JP7299982B2 (ja)
CN (1) CN113228660B (ja)
WO (1) WO2020131731A1 (ja)

Families Citing this family (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP3853810B1 (en) * 2018-09-19 2023-10-25 Dolby Laboratories Licensing Corporation Automatic display management metadata generation for gaming and/or sdr+ contents
WO2020132371A1 (en) * 2018-12-20 2020-06-25 Warner Bros. Entertainment Inc. Profile-based standard dynamic range and high dynamic range content generation
US20220301124A1 (en) * 2019-08-15 2022-09-22 Dolby Laboratories Licensing Corporation Efficient user-defined sdr-to-hdr conversion with model templates
TWI812874B (zh) 2019-10-01 2023-08-21 美商杜拜研究特許公司 張量乘積之b平滑曲線預測子
KR20220053102A (ko) * 2020-10-21 2022-04-29 삼성디스플레이 주식회사 하이 다이내믹 레인지 후-처리 장치, 및 이를 포함하는 표시 장치
CN115529834A (zh) * 2021-04-27 2022-12-27 京东方科技集团股份有限公司 图像处理方法和图像处理装置
US11544826B2 (en) * 2021-04-30 2023-01-03 Realnetworks, Inc. Intelligent metadata service for video enhancement
US11756173B2 (en) * 2021-04-30 2023-09-12 Realnetworks Llc Real-time video enhancement and metadata sharing
JP2024527025A (ja) * 2021-07-29 2024-07-19 ドルビー ラボラトリーズ ライセンシング コーポレイション 画像のダイナミックレンジ変換及び表示管理のためのニューラルネットワーク
US20230186435A1 (en) * 2021-12-14 2023-06-15 Netflix, Inc. Techniques for component-based image preprocessing
CN114422718B (zh) * 2022-01-19 2022-12-13 北京百度网讯科技有限公司 一种视频转换方法、装置、电子设备及存储介质
WO2023178648A1 (zh) * 2022-03-25 2023-09-28 京东方科技集团股份有限公司 视频处理方法及装置、电子设备、计算机可读存储介质

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20180098094A1 (en) 2016-10-05 2018-04-05 Dolby Laboratories Licensing Corporation Inverse luma/chroma mappings with histogram transfer and approximation

Family Cites Families (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20130107956A1 (en) * 2010-07-06 2013-05-02 Koninklijke Philips Electronics N.V. Generation of high dynamic range images from low dynamic range images
WO2012142471A1 (en) 2011-04-14 2012-10-18 Dolby Laboratories Licensing Corporation Multiple color channel multiple regression predictor
CN103747189A (zh) 2013-11-27 2014-04-23 杨新锋 一种数字图像处理方法
EP2927865A1 (en) * 2014-04-01 2015-10-07 Thomson Licensing Method and apparatus for encoding and decoding HDR images
EP3272123B1 (en) 2015-03-20 2019-06-19 Dolby Laboratories Licensing Corporation Signal reshaping approximation
EP3510772B1 (en) 2016-09-09 2020-12-09 Dolby Laboratories Licensing Corporation Coding of high dynamic range video using segment-based reshaping
EP3306563B1 (en) 2016-10-05 2022-01-12 Dolby Laboratories Licensing Corporation Inverse luma/chroma mappings with histogram transfer and approximation
CN107995497B (zh) * 2016-10-26 2021-05-28 杜比实验室特许公司 高动态范围视频的屏幕自适应解码
US10402952B2 (en) * 2017-06-02 2019-09-03 Apple Inc. Perceptual tone mapping of SDR images for an HDR display
JP6952202B2 (ja) 2018-02-28 2021-10-20 ドルビー ラボラトリーズ ライセンシング コーポレイション 画像/映像処理のためのリニアエンコーダ
CN108681991A (zh) 2018-04-04 2018-10-19 上海交通大学 基于生成对抗网络的高动态范围反色调映射方法及系统
EP3853810B1 (en) 2018-09-19 2023-10-25 Dolby Laboratories Licensing Corporation Automatic display management metadata generation for gaming and/or sdr+ contents

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20180098094A1 (en) 2016-10-05 2018-04-05 Dolby Laboratories Licensing Corporation Inverse luma/chroma mappings with histogram transfer and approximation

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
Gonzalo Luzardo, et al.,Fully-automatic inverse tone mapping preserving the content creator's artistic intentions,2018 Picture Coding Symposium(PCS),IEEE,2018年06月24日,pp.199-203

Also Published As

Publication number Publication date
EP3900341A1 (en) 2021-10-27
CN113228660B (zh) 2023-12-12
WO2020131731A1 (en) 2020-06-25
CN113228660A (zh) 2021-08-06
JP2022511072A (ja) 2022-01-28
US20220058783A1 (en) 2022-02-24
US12086969B2 (en) 2024-09-10

Similar Documents

Publication Publication Date Title
JP7299982B2 (ja) 拡張標準ダイナミックレンジビデオ(sdr+)における機械学習ベースのダイナミックコンポージング
US10659749B2 (en) Efficient histogram-based luma look matching
US10264287B2 (en) Inverse luma/chroma mappings with histogram transfer and approximation
US10701375B2 (en) Encoding and decoding reversible production-quality single-layer video signals
JP7189230B2 (ja) ニューラルネットワークマッピングを用いるhdr画像表現
US10575028B2 (en) Coding of high dynamic range video using segment-based reshaping
US10311558B2 (en) Efficient image processing on content-adaptive PQ signal domain
US11430095B2 (en) Automatic display management metadata generation for gaming and/or SDR+ contents
EP3734588B1 (en) Color appearance preservation in video codecs
JP2021518725A (ja) エンドツーエンド単一レイヤの下位互換性のある符号化パイプラインにおける、高忠実度の完全参照及び低減参照符号化
WO2018231968A1 (en) Efficient end-to-end single layer inverse display management coding
TWI812874B (zh) 張量乘積之b平滑曲線預測子
EP3306563B1 (en) Inverse luma/chroma mappings with histogram transfer and approximation
US12003746B2 (en) Joint forward and backward neural network optimization in image processing
JP7037584B2 (ja) 効率的なエンド・ツー・エンドシングルレイヤー逆ディスプレイマネジメント符号化
JP7439251B2 (ja) ビデオコーデックにおける品質と計算の複雑さとの間の調整可能なトレードオフ
WO2021030506A1 (en) Efficient user-defined sdr-to-hdr conversion with model templates

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20210802

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20221101

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20230126

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20230523

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20230616

R150 Certificate of patent or registration of utility model

Ref document number: 7299982

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150