JP7434664B2 - 擬似輪郭低減による適応ストリーミング - Google Patents

擬似輪郭低減による適応ストリーミング Download PDF

Info

Publication number
JP7434664B2
JP7434664B2 JP2023507940A JP2023507940A JP7434664B2 JP 7434664 B2 JP7434664 B2 JP 7434664B2 JP 2023507940 A JP2023507940 A JP 2023507940A JP 2023507940 A JP2023507940 A JP 2023507940A JP 7434664 B2 JP7434664 B2 JP 7434664B2
Authority
JP
Japan
Prior art keywords
image
noise
dynamic range
spatial resolution
hdr
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2023507940A
Other languages
English (en)
Other versions
JP2023540447A (ja
Inventor
ジェイ. ガドジル,ニーラジ
スゥ,グワン-ミーン
カドゥ,ハルシャド
Original Assignee
ドルビー ラボラトリーズ ライセンシング コーポレイション
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by ドルビー ラボラトリーズ ライセンシング コーポレイション filed Critical ドルビー ラボラトリーズ ライセンシング コーポレイション
Publication of JP2023540447A publication Critical patent/JP2023540447A/ja
Application granted granted Critical
Publication of JP7434664B2 publication Critical patent/JP7434664B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/30Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using hierarchical techniques, e.g. scalability
    • H04N19/36Scalability techniques involving formatting the layers as a function of picture distortion after decoding, e.g. signal-to-noise [SNR] scalability
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/102Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or selection affected or controlled by the adaptive coding
    • H04N19/117Filters, e.g. for pre-processing or post-processing
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/102Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or selection affected or controlled by the adaptive coding
    • H04N19/132Sampling, masking or truncation of coding units, e.g. adaptive resampling, frame skipping, frame interpolation or high-frequency transform coefficient masking
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/169Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding
    • H04N19/186Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding the unit being a colour or a chrominance component
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/46Embedding additional information in the video signal during the compression process
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/85Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using pre-processing or post-processing specially adapted for video compression

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Compression Or Coding Systems Of Tv Signals (AREA)

Description

[関連出願の相互参照]
本願は、参照により全体がここに組み込まれる、共に2020年8月6日に出願した米国仮出願番号第63/061,937号及び欧州特許出願番号第20189859.0号の優先権を主張する。
[技術分野]
本開示は、概して画像処理動作に関連する。より具体的には、本発明の実施形態は、ビデオコーデックに関する。
本願明細書で使用されるとき、用語「ダイナミックレンジ(dynamic range (DR))」は、例えば最も暗い黒色(darks)から最も明るい白色(ハイライト)までの画像内の強度(例えば、輝度、ルマ)範囲を知覚する人間の視覚システム(human visual system HVS))の能力に関連し得る。このシーンでは、DRは「シーン参照」強度に関連する。DRは、特定幅の強度範囲を適切に又は近似的にレンダリングするディスプレイ装置の能力にも関連してよい。このシーンでは、DRは「ディスプレイ参照」強度に関連する。本願明細書の説明の任意の点において、特定のシーンが特定の重要度を有すると明示的に指定されない限り、用語はいずれかのシーンで、例えば同義的に使用されてよいことが推定されるべきである。
本願明細書で使用されるとき、用語「高ダイナミックレンジ(high dynamic range (HDR))」は、人間の視覚システム(HVS)の大きさの14~15倍又はそれより大きな程度に渡るDR幅に関連する。実際に、人間が強度範囲の中の広範な幅を同時に知覚し得るDRは、HDRに関連して、何らかの方法で省略され得る。本願明細書で使用されるとき、用語「拡張ダイナミックレンジ(enhanced dynamic range (EDR))」又は「視覚ダイナミックレンジ(visual dynamic range (VDR))」は、個々に又は同義的に、目の動きを含む人間の視覚システム(HVS)によりシーン又は画像内で知覚可能なDRに関連し、何からの光適応がシーン又は画像に渡り変化することを可能にする。本願明細書で使用されるとき、EDRは、5~6桁 の大きさに広がるDRに関連してよい。HDRと呼ばれる実際のシーンに比べておそらくやや狭いが、それにも関わらず、EDRは広いDR幅を表し、更にHDRと呼ばれ得る。
実際には、画像は色空間の1つ以上の色成分(例えば、ルマY及びクロマCb及びCr)を含み、各色成分はピクセル当たりnビット(例えば、n=8)の精度により表される。非線形輝度符号化(例えば、ガンマエンコーディング)を使用して、n≦8である画像(例えば、カラー24ビットJPEG画像)は、標準ダイナミックレンジの画像であると考えられる。一方で、n>8である画像は、拡張ダイナミックレンジの画像であると考えられてよい。
所与のディスプレイのための参照電子光伝達関数(electro-optical transfer function (EOTF))は、入力ビデオ信号の色値(例えば、輝度)と、ディスプレイにより生成される出力スクリーン色値(例えば、スクリーン輝度)との間の関係を特徴付ける。例えば、ITURec. ITU-RBT1886「Reference electro-optical transfer function for flat panel displays used in HDTV studio production」(March 2011)は、参照によりその全体がここに組み込まれ、平面パネルディスプレイの参照EOTFを定義する。ビデオストリームが与えられると、そのEOTFに関する情報は、(画像)メタデータとしてビットストリームに埋め込まれてよい。用語「メタデータ」は、本願明細書では、符号化ビットストリームの部分として送信される任意の補助情報に関連し、復号画像をレンダリングするためにデコーダを支援する。このようなメタデータは、限定ではないが、本願明細書にk試合されるような、色空間又は全色域(gamut)情報、参照ディスプレイパラメータ、及び補助信号パラメータ、を含んでよい。
用語「PQ」は、本願明細書で使用されるとき、知覚輝度振幅量子化を表す。人間の視覚システムは、非常に非線形な方法で、増大する光レベルに反応する。刺激を見る人間の能力は、該刺激の輝度、該刺激のサイズ、該刺激を構成する空間周波数、及び特定の瞬間に適応される目が該刺激を見ている輝度レベル、により影響を受ける。幾つかの実施形態では、知覚量子化関数は、線形入力グレイレベルを、人間の視覚システムにおいてコントラスト感度閾値により良好に一致する出力グレイレベルにマッピングする。例示的なPQマッピング関数は、参照によりその全体がここに組み込まれるSMPTE ST2084:2014「High Dynamic Range EOTF of Mastering Reference Displays」(以後「SMPTE」)に記載されており、固定刺激サイズが与えられると、輝度レベル(例えば、刺激レベル、等)毎に、該輝度レベルにおける最小可視コントラストステップが、該輝度レベルが最も敏感な適応レベル及び最も敏感な空間周波数に従い(HVSモデルに従い)選択される。
200~1000cd/m又はニト(nit)の輝度をサポートするディスプレイは、低いダイナミックレンジ(lower dynamic range (LDR))を代表し、EDR(又はHDR)に対して、標準ダイナミックレンジ(standard dynamic range (SDR))とも呼ばれる。EDRコンテンツは、より高いダイナミックレンジ(例えば、1000ニト~5000ニト、又はそれ以上)をサポートするEDRディスプレイ上で表示されてよい。このようなディスプレイは、高輝度能力(例えば0~10000ニト)をサポートする代替のEOTFを使用して定義されてよい。このようなEOTFの一例は、SMPTE2084、及びRec. ITU-R BT.2100, “Image parameter values for high dynamic range television for use in production and international programme exchange,”(06/2017)で定義される。ここで発明者により認識されたように、メディアコンテンツを配信し、モバイル装置を含む多種多様なSDR及びHDRディスプレイ装置の表示機能をサポートするために使用できるビデオコンテンツデータを構成するための改善された技術が望まれている。
本章に記載されるアプローチは、追求可能なアプローチであるが、必ずしも以前に考案又は追求されたアプローチではない。従って、特に示されない限り、本章に記載したアプローチのうちのいずれも、単に本章に含まれることにより従来技術と見なされるべきではない。同様に、1つ以上のアプローチに関して特定される課題は、特に示されない限り、本章に基づき任意の従来技術の中で認識されたものと想定されるべきではない。
本発明の実施形態は、限定ではなく、例を用いて説明され、添付の図中の同様の参照符号は同様の要素を表す。
ビデオ配信パイプラインの例示的な処理を示す。
適応型ビデオストリーミングのシステム構成例を示している。 適応型ビデオストリーミングのシステム構成例を示している。 適応型ビデオストリーミングのシステム構成例を示している。 適応型ビデオストリーミングのシステム構成例を示している。 適応型ビデオストリーミングのシステム構成例を示している。 適応型ビデオストリーミングのシステム構成例を示している。 入力ビデオ信号からの入力ビデオセグメントの生成例を示している。 クラスタノードによって実装されたシステム構成又はアーキテクチャの例を示している。
輝度順方向ルックアップテーブル(FLUT)の例を示している。 FLUTから決定されるコードワードビンのコードワード増加の例を示している。 平滑化されたノイズ強度の例を示している。 ノイズ画像を生成するための周波数領域パターン又はブロックの例を示している。
例示的な処理フローを示す。 例示的な処理フローを示す。 例示的な処理フローを示す。
本願明細書に記載されるコンピュータ又はコンピューティング装置が実装され得る例示的なハードウェアプラットフォームの簡略ブロック図を示す。
以下の詳細な説明を通じて、説明を目的として、本開示の完全な理解を提供するために、多数の特定の詳細が説明される。しかしながら、本発明がこれらの特定の詳細のうちの一部を有しないで実行されてよいことが明らかである。他の例では、よく知られた構造及び装置は、本開示を妨げ、曖昧にし、又は不明瞭にすることを避けるために、徹底的に詳細に記載されない。
<要約>
ここに記載されている技術は、効果的にバンディング(banding、縞模様)を軽減を有するビデオコンテンツを、比較的中程度の復号及び/又は表示機能を持つエンドユーザ装置に適応的にストリーミングできる適応型ストリーミングフレームワークをサポート又は提供するために実装できる。適応型ストリーミングフレームワークは、エンドユーザ装置への適応型ストリーミングのために複数の空間解像度のビデオ信号を生成できるビデオコーディングに基づくマルチ解像度/ビットレートラダーを実装できる。エンドユーザ装置の例としては、8ビット又は10ビットのビデオコーデック、例えばAdvanced Video Coding (AVC)、HEVC、AV1などのようなコーデック、を持つモバイル装置を含むが、必ずしもこれらに限定されない。
8ビットのビデオ信号は、ここに記載されている技術を実装していない他のアプローチでは、通常、バンディングアーチファクトの影響を非常に受けやすいが、ここに記載されている技術では、フィルムグレインノイズなどのノイズを、ビデオ信号の生成に使用されるHDRビデオ信号(8ビットのビデオ信号を含む)に輝度依存のノイズ強度で注入して、効果的な擬似輪郭又はバンディング緩和を実現することができる。
バンディング緩和を伴う適応型ストリーミングは、様々なシステム構成(又はアーキテクチャ)で実装される場合がある。例では、バンディング緩和を伴う適応型ビデオストリーミングは、セグメント/ノードスタイルの並列処理と連携して動作できる。別の例では、バンディング緩和を伴う適応型ビデオストリーミングは、放送アプリケーションのような線形/ライブ符号化と連携して動作できる。
複数の空間解像度及び/又は複数のビットレートの複数のビデオ信号は、適応型ストリーミングをサポートするために、メディアストリーマと呼ばれるメディアストリーミングシステム又はサービスによって使用される場合がある。これらの複数のビデオ信号の各々は、入力ソースHDRビデオ信号と同じ視覚的意味コンテンツを描画し、メディアストリーマによって入力ソースHDRビデオ信号から生成される場合がある。
メディアストリーマは、ビデオコンテンツをストリーミングするメディアストリーミング操作を、クライアント固有の様々なメディアストリーミング条件/要因の一部又はすべてに応じて、所与のメディアストリーミングクライアント(モバイルクライアント装置を含むがこれに限定されない)に動的に適応させることができる。これらのクライアント固有のメディアストリーミング条件/要因には、ネットワーク条件又は帯域幅、使用可能なシステムリソース、伝送及び/又はシステム遅延、ユーザ固有の設定/選択などのいずれかが含まれる場合があるが、必ずしもこれらに限定されない。
所与の時点で、メディアストリーマは、特定の空間解像度及び/又は特定のビットレートの特定の選択されたビデオ信号の1つ以上のビデオセグメント又はストリーム部分を、所与のメディアストリーミングクライアントにストリーミングできる。特定のビデオ信号は、特定のメディアストリーミングクライアントに固有かつ/又は一般的なリアルタイム又は非リアルタイムのストリーミング条件/要因の一部又はすべてに応じて、複数の空間解像度及び/又は複数のビットレートの複数のビデオ信号から(例えば、動的に、リアルタイムに、実行時に、など)選択される場合がある。
幾つかの運用シナリオでは、ここで説明するメディアストリーマは、完全なメディア処理パイプラインの複数のインスタンスを含むシステム構成を実装する場合がある。完全なメディア処理パイプラインの各インスタンスは、サポートされている空間解像度及び/又はサポートされているビットレートの異なる設定又は組み合わせの複数のビデオ信号で各々のビデオ信号を生成するために使用できる。例えば、完全なメディア処理パイプライン又はその各インスタンスは、(入力)ソース画像と基本レイヤ(base-layer (BL))画像の間の順方向及び逆方向リシェーピングマッピングを生成し、
疑似輪郭アーチファクトを軽減又は防止する目的で、ソース画像にノイズを注入し、
ノイズ注入したソース画像をサイズ変更(リサイズ)又は空間的にダウンサンプリングし、
サイズ変更したノイズ注入したソース画像を順方向リシェーピングし、リシェーピングしたノイズ埋め込み(例えば、バンディングマスクされた、ノイズ注入された、など)BL画像にし、
ノイズ注入したBL画像を各々のビデオ信号に符号化/圧縮する、等できる。
幾つかの運用シナリオでは、ここで説明するメディアストリーマは、複数ステージの符号化のためのシステム構成を実装する場合がある。説明として、限定ではないが、メディアストリーマは、2段階のシステム構成を実装することができる。2段階の単層後方互換(two-stage single-layer-backward-compatible (SLBC))エンコーダシステム構成又はアーキテクチャを含むが、これに限定されない。これは、前述のように、完全なメディア処理パイプラインの第1部分を実行する第1ステージと、完全なメディア処理パイプラインの残りの部分を実行する第2ステージを含む。
複数ステージの符号化のシステム構成は、適応型ストリーミングアプリケーションのビデオコンテンツを比較的効率的に符号化し、クラウドコンピューティングリソースを活用して、空間解像度(又は画像解像度)とビットレートの複数の組み合わせで複数のコーディングビットストリームを作成するように設計できる。メディアストリーマは、異なる設定の複数のビデオ信号を生成する目的、又はビットレートラダーでサポートされている空間解像度及び/又はサポートされているビットレートの組み合わせのために、第1ステージの単一のインスタンスと第2ステージの複数のインスタンスを実装できる。2段階システム構成では、順方向リシェーピングデータとフィルムグレインノイズ注入機構を使用して、複数のコーディングビットストリームを符号化して出力することができる。フィルムグレイン注入を含むが、これに限定されないノイズ注入は、擬似輪郭アーチファクトをマスク又は大幅に削減するために使用でき、そのため、携帯電話などのエンドユーザ装置でビデオコンテンツがレンダリングされるときの視覚品質を大幅に向上させることができる。
完全なメディア処理パイプラインの第1部分は、2段階システム構成の第1符号化ステージによって実行され、(入力)ソース画像と基本レイヤ(BL)画像の間の順方向及び逆方向リシェーピングマッピングの生成、順方向リシェーピングマッピングから導出したバイナリデータの第2ステージへの受け渡しなどが含まれる。順方向及び逆方向リシェーピングマッピングは、比較的高いダイナミックレンジ(例えばEDRなど)のビデオコンテンツと比較的低いダイナミックレンジ(例えばSDRなど)のビデオコンテンツの間の前後の変換を可能にする。HDRビデオコンテンツとSDRビデオコンテンツは、異なるダイナミックレンジ(例えば、異なる輝度範囲など)を持つにもかかわらず、同じ視覚的意味コンテンツを描写することがある。
完全なメディア処理パイプラインの第2部分は、2段階システム構成の第2符号化ステージの複数のインスタンスの各インスタンスによって実行され、第1ステージからの順方向バイナリデータの受信、ソース画像のサイズ変更又は空間的ダウンサンプリング、順方向バイナリデータを使用して輝度依存のノイズ強度を決定する、決定された輝度依存のノイズ強度を持つノイズを疑似輪郭アーチファクトを軽減又は防止する目的でサイズ変更されたソース画像に注入する、サイズ変更されたノイズ注入ソース画像を順方向にリシェーピングしてノイズ埋め込みBL画像にする、サポートされている空間解像度及び/又はビットレートの異なる設定又は組み合わせの複数のビデオ信号でノイズ埋め込みBL画像を各々のビデオ信号に符号化/圧縮する、などが含まれる。
2段階システム構成は、完全なメディア処理パイプラインとは対照的に、完全/縮小されたメディア処理パイプラインを効果的に実装する。完全なメディア処理パイプラインの第1部分は、2段階システム構成の第1ステージ又は完全/縮小されたメディア処理パイプラインで1回だけ実行できるが、完全なメディア処理パイプラインの第2部分は、2段階システム構成又は完全/縮小されたメディア処理パイプラインの第2ステージの複数のインスタンスで複数回実行又はインスタンス化できる。
したがって、2段階システム構成では、縮小されたパイプラインのみ、又は完全なメディア処理パイプラインから縮小された第2ステージのみが、完全/縮小されたメディア処理パイプラインの第2ステージ(の複数のインスタンス)によって複数回実行される。しかし、完全/縮小されたメディア処理パイプラインの第2ステージの各インスタンスを、完全/縮小されたメディア処理パイプラインの第1ステージと組み合わせて、複数のビデオ信号の各々のビデオ信号に関して、完全なメディア処理パイプライン(のインスタンス)の全部又は完全に同等の機能を提供することができる。さらに、任意又は代替として、第2ステージの複数のインスタンスは、1つ以上のコンピューティングプロセッサの異なる処理スレッド又は複数の異なるコンピューティングプロセッサで、独立して及び/又は並列に実行できるが、これに限定されない。
その結果、複数の空間解像度及び/又は複数のビットレートを持つ適応型ストリーミングをサポートするために、完全/縮小メディア処理パイプラインの複数のインスタンスを展開する場合と比較して、完全/縮小メディア処理パイプラインで冗長なメディア処理及び計算コストを大幅に削減できる。
ここに記載されているような適応型ストリーミングは、単一のコンピューティングシステム、複数のコンピューティングシステムの組み合わせ、地理的に分散したコンピューティングシステム、コンピューティングシステムの1つ以上のネットワークなどのいずれかを含むが、これらに限定されない様々なコンピューティングシステムで実装できる。
幾つかの運用シナリオでは、2段階のシステム構成又は完全/縮小メディア処理パイプラインは、クラウドコンピューティングサービスを介して起動される仮想コンピュータである可能性がある複数のクラスタコンピュータノードを含むクラウドに基づくコンピュータクラスタによって実装される場合がある。入力ソースビデオストリームを使用して、複数の連続した(例えば、部分的に重複するなど)入力ビデオセグメントを生成することができる。入力ソースビデオストリームから生成された複数の入力ビデオセグメント内の各入力ビデオセグメントは、クラウドコンピュータクラスタ内の特定のクラスタコンピューティングノードに割り当てられ、対応するコーディングビットストリーム部分を生成するか、適応型ストリーミングのための空間解像度及び/又はビットレートの異なる設定又は組み合わせをサポートする出力ビデオセグメントを生成することができる。
受信側メディアストリーミングクライアントにストリーミングされている適応型ストリーミングビデオ信号は、連続するコーディングビットストリーム部分又は連続する出力ビデオセグメントのシーケンスを含むことができる。連続するコーディングビットストリーム部分又は連続する出力ビデオセグメントのシーケンスでカバーされる全体的なメディアプログラム期間を集合的に表す複数の時間セグメント/間隔の中の時間セグメント/間隔をカバーする、連続するコーディングビットストリーム部分又は連続する出力ビデオセグメントのうちのコーディングビットストリーム部分又は出力ビデオセグメントは、受信側メディアストリーミングクライアントに固有又は一般的なリアルタイム又は非リアルタイムのストリーミング条件/要因に応じて、空間解像度及び/又はビットレートの異なる設定又は組み合わせの異なるビデオ信号から具体的に選択できる。
ビデオ信号は、受信側メディアストリーミングクライアントに直接又は間接的に送信、ストリーミング、及び/又は配信される。ビデオ信号から復号されたノイズ埋め込みBL画像は、例えば、ノイズ埋め込みBL画像が受信側メディアストリーミングクライアントの適用可能な表示機能と一致する場合、受信側メディアストリーミングクライアントによって直接レンダリングされる場合がある。
追加で、任意で、又は代替として、ビデオ信号は、逆方向リシェーピングマッピング(又はコンポーザメタデータ)、ディスプレイ管理(display management (DM))メタデータなどの一部又はすべてを含むがそれに限定されない画像メタデータをさらに運ぶ場合がある。ビデオ信号又はその一部/セグメントとともに受信された画像メタデータ又は逆方向リシェーピングマッピングは、受信側メディアストリーミングクライアントによって、受信側メディアストリーミングクライアントの適用可能な表示機能と一致する、より高いダイナミックレンジ、より広い色域、より高い空間解像度などの画像を構成するために使用できる。これらの構成された(又は再構成された)画像は、ビデオ信号から復号されたBL画像の代わりに、受信側メディアストリーミングクライアントによってレンダリングされる場合がある。
本願明細書に記載される例示的な実施形態は、ビデオデータの符号化に関連する。順方向リシェーピングマッピングは、第1ダイナミックレンジのソース画像を、第1ダイナミックレンジより低い第2ダイナミックレンジの対応する順方向リシェーピング画像にマッピングするために生成される。ノイズは、第1ダイナミックレンジの第1空間解像度の画像に注入され、第1ダイナミックレンジの第1空間解像度のノイズ注入画像を生成する。第1ダイナミックレンジの第1空間解像度の画像は、第1ダイナミックレンジのソース画像を空間的にダウンサンプリングして生成される。順方向リシェーピングマッピングを適用して、第1ダイナミックレンジの第1空間解像度のノイズ注入画像をマッピングし、第2ダイナミックレンジの第1空間解像度のノイズ埋め込み画像を生成する。第2ダイナミックレンジの第1空間解像度のノイズ埋め込み画像で符号化されたビデオ信号は、受信側装置に配信され、受信側装置はノイズ埋め込み画像から生成された表示画像をレンダリングする。
本願明細書に記載される例示的な実施形態は、ビデオデータの復号に関連する。アップストリームエンコーダによって生成され、第2ダイナミックレンジの第1空間解像度のノイズ埋め込み画像で符号化されたビデオ信号が受信される。第2ダイナミックレンジは第1ダイナミックレンジよりも低い。第2ダイナミックレンジの第1空間解像度のノイズ埋め込み画像は、第1ダイナミックレンジの第1空間解像度のノイズ注入画像に順方向リシェーピングマッピングを適用するアップストリームエンコーダによって生成されたものである。第1ダイナミックレンジの第1空間解像度のノイズ注入画像は、第1ダイナミックレンジの第1空間解像度の画像にノイズを注入するアップストリームエンコーダによって生成されたものである。第1ダイナミックレンジの第1空間解像度の画像は、第1ダイナミックレンジのソース画像を空間的にダウンサンプリングして生成される。第2ダイナミックレンジの第1空間解像度のノイズ埋め込み画像から表示画像が生成される。表示画像は画像ディスプレイでレンダリングされる。
<例示的なビデオ配信処理パイプライン>
図1は、ビデオキャプチャからビデオコンテンツ表示までの種々の段階を示すビデオ配信パイプライン(100)の例示的な処理を示す。ビデオフレーム(102)のシーケンスは、画像生成ブロック(105)を用いてキャプチャ又は生成される。ビデオフレーム(102)は、デジタル方式で(例えば、デジタルカメラ等により)キャプチャされ、又はコンピュータにより(例えば、コンピュータアニメーション等を用いて)生成されてよく、ビデオデータ(107)を提供する。追加で、任意で又は代替として、ビデオフレーム(102)は、フィルムカメラによりフィルム上にキャプチャされてよい。フィルムは、デジタルフォーマットに変換されて、ビデオデータ(107)を提供する。プロダクション段階(110)において、ビデオデータ(107)は、ビデオプロダクションストリーム(112)を提供するために編集される。
プロダクションストリーム(112)のビデオデータは、次に、ポストプロダクション編集(115)のためにプロセッサに提供される。ポストプロダクション(115)は、ビデオ制作者の製作意図に従い画像品質を向上するため又は特定の外観を達成するために、画像の特定領域の色又は明るさの調整又は変更を含んでよい。これは、時に、「色タイミング」又は「色グレーディング」と呼ばれる。他の編集(例えば、シーン選択、順序付け、手動及び/又は自動シーンカット情報生成、画像クロッピング、コンピュータの生成した視覚空間効果の追加、等)が、HDR画像のポストプロダクションバージョン及びSDR画像のコンテンツマップバージョンを生成するために、ポストプロダクション編集(115)において実行されてよい。
HDR画像のポストプロダクションバージョン及びSDR画像のコンテンツマップバージョンは、視覚的シーン又は意味コンテンツの同じセットを描写する。SDR画像のコンテンツマップバージョンは、手動、自動、又は手動と自動の画像処理操作の組み合わせで実行されるコンテンツマッピング及び/又はカラーグレーディングによって、HDR画像のポストプロダクションバージョンから導出することができる。一部の運用シナリオでは、ポストプロダクション編集(115)中に、HDR画像とSDR画像の(例えば、直接)レンダリングを各々サポートするHDR及びSDR参照ディスプレイで、HDR画像のポストプロダクションバージョン及びSDR画像のコンテンツマップバージョンの一方又は両方が、例えばカラーリストによって表示され、カラーグレーディングされる。
限定ではなく例として、HDR画像(117-1)はHDR画像のポストプロダクションバージョンを表し、SDR画像(117)はSDR画像のコンテンツマップバージョンを表す場合がある。コーディングブロック(120)は、ポストプロダクション編集(115)からHDR画像(117-1)を受信し、HDR画像(117-1)を(順方向)リシェーピングSDR画像へと順方向リシェーピングする。順方向リシェーピングされたSDR画像は、自動又は手動のコンテンツマッピング(及び/又はカラーグレーディング)操作からのSDR画像(117)に非常に近い場合がある。
コーディングブロック(120)は、空間解像度及び/又はビットレートの複数の異なる組み合わせに対するバンディング軽減を伴う順方向リシェーピングSDR画像の複数のターゲットバージョンを生成するために、ここで説明するように、一部又はすべてのバンディング軽減及び適応ストリーミング操作を実装することができる。
幾つかの運用シナリオでは、バンディング軽減を伴う順方向リシェーピングSDR画像の複数のターゲットバージョンの一部又はすべての各ターゲットバージョンは、線形ビデオコーディングモードでコーディングブロック(120)によってコーディングビットストリーム(122)に圧縮/符号化されることがある。コーディングビットストリーム(122)は、ターゲットバージョンのSDR画像(例えば、順方向リシェーピングされたバンディング軽減されたSDR画像など)を含む。追加で、任意で、又は代替として、コーディングビットストリーム(122)は、ターゲットバージョンの順方向リシェーピングされたバンディング軽減されたSDR画像からHDR画像を再構成するために、コーディングビットストリーム(122)の受信側装置によって使用される動作パラメータを含む画像メタデータ(例えば、逆方向リシェーピングメタデータなど)を含むことができる。
幾つかの運用シナリオでは、バンディング軽減を伴う順方向リシェーピングSDR画像の複数のターゲットバージョンの一部又はすべての各ターゲットバージョンは、セグメントビデオコーディングモードで連続するビデオセグメント(122-1)に圧縮/符号化されることがある。バンディング軽減を伴う順方向リシェーピングSDR画像の複数のターゲットバージョンの一部又はすべての中のターゲットバージョンを構成する連続するビデオセグメントのシーケンス(122-1)の各ビデオセグメントは、ターゲットバージョンでカバーされる全体の時間間隔で時間のサブ間隔(例えば、10秒、20秒など)のビデオコンテンツを提供する、独立してアクセス可能なビデオストリーミングファイル(又はメインビデオファイルと0以上のアテンダントファイルを含むビデオストリーミングファイルセット)である場合がある。追加で、任意で、又は代替として、ビデオセグメントは、ビデオセグメントに符号化された順方向リシェーピングされたバンディング軽減されたSDR画像からHDR画像を再構成するために、ビデオセグメントの受信側装置によって使用される動作パラメータを含む画像メタデータ(例えば、逆方向リシェーピングメタデータなど)を含むことができる。
コーディングブロック(120)は、ATSC、DVB、DVD、Blu-Ray、及びその他の配信形式で定義されているようなオーディオ及びビデオエンコーダで少なくとも部分的に実装でき、バンディング軽減を伴う順方向リシェーピングSDR画像の複数のターゲットバージョンの一部又はすべてを生成し、バンディング軽減を伴う順方向リシェーピングSDR画像の複数のターゲットバージョン一部又は全てのうちの各々を、各々のコーディングビットストリーム(例えば、122など)及び/又は連続するビデオセグメントの各々のシーケンス(例えば、122-1など)に符号化する。
一部の運用シナリオでは、コーディングビットストリーム(例えば、122など)又はビデオセグメントのシーケンス(例えば、122-1など)は、広範な種類のSDRディスプレイ装置(例えば、SDRディスプレイ、等)との後方互換性のあるビデオ信号(例えば、8ビットSDRビデオ信号、10ビットSDRビデオ信号、等)を表してよい。非限定的な例では、順方向リシェーピングされたバンディングの軽減されたSDR画像と共に符号化されたビデオ信号は、単一レイヤの下位互換性のあるビデオ信号であってよい。ここで、「単一レイヤの下位互換性のあるビデオ信号」は、単一の信号レイヤのSDRディスプレイのために最適化された又はカラーグレーディングされたSDR画像を運ぶビデオ信号を表してよい。単一レイヤのビデオコーディング操作の例は、G-Mによる米国特許出願公開第2019/0110054号「Encoding and decoding reversible production-quality single-layer video signals」に記載されている。その全体の内容は、ここに完全に記載されているかのように参照によりここに組み込まれている。
ビデオ信号に符号化された順方向リシェーピングされたバンディング軽減されたSDR画像によって提供される画像メタデータの中の動作パラメータの一部又はすべてを復号し、ビデオ信号の受信側装置による画像処理動作(例えば、予測動作、逆方向リシェーピング動作、逆トーンマッピング動作など)で使用して、順方向リシェーピングされたバンディング軽減されたSDR画像によって表されるダイナミックレンジよりも高いダイナミックレンジの再構成画像を生成することができる。
幾つかの操作シナリオでは、復号された画像は、ポストプロダクションバージョンのHDR画像の(117-1)のうちのポストプロダクションHDR画像を順方向リシェーピングすることによって生成された(例えば、場合によっては空間的にダウンサンプリングされた)上流のビデオエンコーダにより(例えば、コーディングブロック(120)等で)順方向リシェーピングされ及びバンディング軽減されたSDR画像を表し、コンテンツマップバージョンのSDR画像(117)の中のポストプロダクションSDR画像を近似する(例えば、場合によっては空間的にダウンサンプリングされる)。再構成画像は、ビデオ信号で送信される画像メタデータの動作パラメータを使用して復号画像から生成されるように、エンコーダ側でHDR画像のポストプロダクションバージョン(117-1)の中のポストプロダクションHDR画像を近似する(例えば、場合によっては空間的にダウンサンプリングされた)HDR画像を表す。
例示的なリシェーピング動作は、G-Mによる米国特許10,080,026「Signal reshaping approximation」に記載されている。その全体の内容は、ここに完全に記載されているかのように参照によりここに組み込まれている。
追加で、任意で、又は代替として、ビデオ信号は、下流のデコーダが復号画像又は逆方向にリシェーピング画像に対してディスプレイ管理動作を実行するために使用できるディスプレイ管理(display management (DM))メタデータを含むがこれに限定されない追加画像メタデータで符号化され、ターゲットディスプレイでのレンダリングに最適化された表示画像を生成する。
コーディングビットストリームの形式のビデオ信号(例えば、122等)、又はビデオセグメントのシーケンス(例えば、122-1等)は、次に、復号及び再生装置、メディアソース装置、メディアストリーミングクライアント装置、テレビジョンセット(例えば、スマートTV、等)、セットトップボックス、映画劇場、等のような受信機に下流へと配信される。受信機(又は下流装置)では、ビデオ信号を復号ブロック(130)によって復号して復号画像182を生成する。これは、コーディングブロック(120)によってビデオ信号に符号化された画像(例えば、順方向リシェーピングされたバンディング軽減されたSDR画像など)と同じであってもよく、コーディングブロック(120)によって実行される圧縮と復号ブロック(130)によって実行される伸長で発生する量子化エラーの影響を受ける。
受信機が復号画像(182)のレンダリングをサポートするターゲットディスプレイ140で動作する(又は接続されているか、動作可能にリンクされている)運用シナリオでは、復号ブロック(130)は、コーディングビットストリーム(122)(例えば、その単一レイヤなど)から画像(182)を復号し、復号画像(182)(例えば、順方向リシェーピングSDR画像など)をターゲットディスプレイ(140)でのレンダリングに直接又は間接的に使用できる。
幾つかの運用シナリオでは、ターゲットディスプレイ(140)はSDR参照ディスプレイ(125)と同様の特性を持ち、復号画像(182)は、ターゲットディスプレイ(140)で直接監視可能な順方向リシェーピングされたバンディング軽減されたSDR画像である。
幾つかの実施例では、受信機は、復号画像(182)が最適化された参照ディスプレイとは異なる表示機能を持つターゲットディスプレイで動作する(又は、ターゲットディスプレイに接続又は動作可能にリンクされる)。画像メタデータ(又はコンポーザメタデータ)の動作パラメータの一部又はすべてを使用して、ターゲットディスプレイに最適化された復号画像(182)から画像を構成又は再構成できる。
例えば、受信機は、復号画像(182)よりも高いダイナミックレンジ(例えば、100ニト、200ニト、300ニト、500ニト、1,000ニト、4,000ニト、1万ニト、又はそれ以上など)をサポートするHDRターゲットディスプレイ140-1で動作する場合がある。受信機は、ビデオ信号(例えば、その中のメタデータコンテナなど)から画像メタデータを抽出し、画像メタデータ(又はコンポーザメタデータ)の動作パラメータを使用して、順方向リシェーピングされたバンディング軽減されたSDR画像などの復号画像(182)から画像132-1を構成又は再構成できる。
幾つかの運用シナリオでは、再構成画像(132-1)は、受信機と連動して動作するHDRターゲットディスプレイと同じか、又は同等のHDR(例えば、参考)ディスプレイでの表示に最適化された再構成HDR画像を表す。受信機は、HDRターゲットディスプレイでのレンダリングに再構成画像(132-1)を直接使用する場合がある。
幾つかの運用シナリオでは、再構成画像(132-1)は、受信機と連動して動作するHDRターゲットディスプレイと同じではないHDR(例えば、参考)ディスプレイでの表示に最適化された再構成HDR画像を表す。ディスプレイ管理ブロック(例えば、135-1等)は、受信機内、HDRターゲットディスプレイ(140-1)内、又は別個の装置内にあってよく、HDRターゲットディスプレイ(140-1)の特性に適応されたディスプレイマップド信号(137-1)を生成することにより、HDRターゲットディスプレイ(140-1)の特性に再構成画像(132-1)を更に調整する。HDRターゲットディスプレイ(140-1)には、表示画像又は調整された再構成画像がレンダリングされる場合がある。
バンディング軽減を伴う適応型ビデオストリーミング
ここに記載されている技術は、例えばクラウドコンピューティング環境において、空間解像度とビットレートの複数の異なる組み合わせで適応型ストリーミングビデオ画像をサポートするために使用できる。同時に、比較的効率的な疑似輪郭(又はバンディング)軽減が、ビデオ画像内の疑似輪郭又はバンディングアーチファクトをマスクするために実装される。
これらの技術により、メディアストリーマは、ノイズ又はフィルムグレイン注入により比較的高い(例えば、可能な限り最高の)バンディング軽減又はマスク能力を維持し、空間解像度とビットレートの複数の異なる組み合わせのビデオ画像が生成されるビットレートラダーを構成するための計算コストとディスク空間使用量の両方を削減することができる。
適応型ビデオストリーミングは、異なる空間解像度とビットレートを持つターゲットビデオコンテンツを生成、符号化、及び/又はストリーミングして、時間変化又は動的に変化するネットワーク条件/帯域幅に適応し、これらの異なるネットワーク条件/帯域幅の下でストリーミングされたビデオコンテンツの比較的スムーズなビデオ再生を提供するために実装される場合がある。
ここで説明するように、ビットレートラダーをメディアストリーマに実装して、空間解像度及び/又はビットレートの異なる組み合わせでターゲットビデオコンテンツの一部又はすべてを生成できる。メディアストリーマは、メディアストリーミングサーバ/サービス、ビデオストリーミングサーバ/サービス、メディア/ビデオコンテンツプロバイダ、メディア又はビデオエンコーダ、メディア放送システム、上流装置などと呼ばれることがあるが、これに限定されない。一部の運用シナリオでは、メディアストリーマはクラウド計算環境に展開又はアクセスされる場合がある。ここに記載されている適応型ストリーミングアーキテクチャは、比較的高い効率と比較的低い(例えば、クラウドベースの)計算リソース使用量で実装でき、それによってエンドユーザ装置へのメディア/ビデオコンテンツのストリーミングにおける継続的な動作コストを大幅に削減する。計算リソース使用量の例には、(例えば、クラウドベースなどの)CPU時間、ディスク容量などに関連する使用量が含まれる場合があるが、必ずしもこれらに限定されない。
運用シナリオによっては、ビットレートラダーの空間解像度及び/又はビットレートの設定又は組み合わせごとに、個別の完全メディア処理パイプラインが展開される場合がある。これは、比較的高いCPU使用率、比較的高いディスク空間使用率などの点で、大きな計算コストが発生しやすい可能性がある。
こに記載されているメディアストリーマは、複数の空間解像度及び/又は複数のビットレートのビットレートラダーをサポートするバンディング軽減ビデオ信号を使用してビデオ品質の向上を達成するために、費用対効果の高い計算が実行される2段階ビデオ符号化パイプラインなどの多段符号化を実装する。幾つかの運用シナリオでは、メディアストリーマは、クラウドコンピューティング環境で共通又は共有のクラウドに基づくシステム又はサービスによって提供される又はそれらからリースされるコンピューティングリソースを使用して実装できる。
説明のみを目的として、比較的高い入力ダイナミックレンジの入力又はソースHDR画像を含むメザニン(mezzanine)ビデオコンテンツ項目が、入力HDRビデオソースからメディアストリーマによって受信される。メザニンビデオコンテンツ項目は、テレビ番組、映画、イベントのビデオ録画などであってよいが、これに限定されない。幾つかの運用シナリオでは、入力HDRビデオソースが生成され、図1のエンドツーエンドのビデオ配信パイプラインでポストプロダクションブロック(115)を実装する又は含むシステムによってメディアストリーマに提供される場合がある。メディアストリーマ、又はメディアストリーマと連携して実装又は動作するビデオコーディングシステムは、コーディングビットストリーム又は出力ビデオセグメントのシーケンスなどの複数(例えば、1より大きい正の整数Mなど)のビデオ信号を、異なる空間解像度及び/又は異なるビットレートの異なる組み合わせで符号化又は生成するために、図1のエンドツーエンドのビデオ配信パイプラインでコーディングブロック(120)を実装する場合がある。
使用可能なネットワーク帯域幅/条件(例えば、時間変化、変動など)によってサポート可能な最高の可能な品質のビデオフレーム又は画像は、メディアストリーマによって、リアルタイムでエンドユーザ装置にストリーミングされるビットストリーム又は出力ビデオセグメントの一部又はすべてから選択され、(例えば、リアルタイム、ほぼリアルタイムなどで)再生又は画像レンダリングを行うことができる。
ここに記載されているように、コーディングビットストリーム又は出力ビデオセグメントは、ソースHDR画像の空間的にダウンサンプリングされたフィルムグレイン注入されたバージョンなど、順方向リシェーピングからコーディングブロック(120)によって生成された比較的低いダイナミックレンジの順方向リシェーピング(SDR)画像で符号化された(例えば、8ビット、画像データなどの)基本レイヤを含むことができる。
幾つかの運用シナリオでは、ターゲットバンディング(又は疑似輪郭)の軽減されたビデオコンテンツ(例えば、SDR画像のターゲットバージョンなど)は、比較的小さなディスプレイ画面サイズ及び/又は8ビット(例えば、それだけの)ビデオ圧縮又は復号モジュールで動作する比較的薄暗いディスプレイ画面を持つモバイル装置を含むがこれらに限定されないエンドユーザ装置にメディアストリーマからストリーミングできる。ここに記載されている技術を実装しないと、8ビットビデオシステムは、画像レンダリング動作における擬似輪郭のアーチファクトを回避又は改善するための十分な画像処理能力を持たない可能性がある。
幾つかの運用シナリオでは、エンコーダ側で、フィルムグレインノイズを順方向リシェーピングパスに注入することができる。さらに、逆トーンマッピング曲線を対応する逆方向リシェーピングパスで調整して、バンディングアーチファクトを減少又は軽減することができる。順方向及び逆方向リシェーピングパスの両方で実行されるこれらの動作によって、比較的高い計算コストが発生する可能性がある。また、これらの動作は、バンディングアーチファクトを減らす目的でハイライトのコントラスト比を犠牲にする場合がある。したがって、これらの動作は、限られた表示機能のモバイル装置ではなく、大きくて明るいディスプレイ画面を使用して画像をレンダリングする運用シナリオで比較的効果的である可能性がある。大きくて明るいディスプレイ画面であっても、多くの場合、ここで説明するような技術を実装していない他のアプローチでは、大きなディスプレイ画面サイズと明るいディスプレイ画面での擬似輪郭や縞模様のアーチファクトの視認性が高いため、擬似輪郭や縞模様のアーチファクトが完全に又は全て除去されない可能性がある。
モバイル装置は、テレビなどの一般的な非モバイル装置の画像ディスプレイよりもディスプレイ画面サイズがはるかに小さく、画像ディスプレイが暗いことを考えると、モバイル装置は、より大きくて明るい非モバイル装置の画像ディスプレイと比較して、一般的に擬似輪郭やバンディング/圧縮のアーチファクトが少ない傾向がある。さらに、任意又は代替として、モバイル装置は、非モバイル装置のディスプレイと比較して、注入されたフィルムグレインノイズがあまり注目されない傾向がある。
ここで説明する技術は、モバイル装置のディスプレイ画面のこれらの(例えば、ユニークな、異なる、などの)特性を利用するために実装できる。これらの技術の下で、比較的効率的で効果的なバンディング軽減方法を実装して、比較的強力なフィルムグレイン強度までの(例えば輝度などの)順方向リシェーピング関数の傾きに応じて、又は共変するフィルムグレイン強度を単純に調整することができる。
(例えば、8ビットなどの)基本レイヤでコーディングされた画像コンテンツに対して比較的高品質のバンディングマスキング又は軽減を達成するために、離散コサイン変換(discrete cosine transform (DCT))ブロックサイズ、DCT周波数、最小/最大ノイズ強度などのフィルムグレインパラメータは、ビットレートラダーの空間解像度及びビットレートの異なる設定又は組み合わせに対して、コーディングブロック(120)によって調整される場合がある。
完全なメディア処理パイプライン
図2Aは、完全なメディア処理パイプラインの複数のインスタンスを持つ適応型ビデオコンテンツストリーミングのためのビットレートラダーを実装するシステム構成例を示している。このシステム構成では、ビットレートラダーの空間解像度とビットレートの各設定又は組み合わせに対して比較的高いパフォーマンスを実現するために、設定又は組み合わせごとに完全な符号化インスタンスが作成される。例えば、M個の完全な符号化インスタンス、又は完全なメディア処理パイプラインのM個のインスタンスを作成して、サーバ側(例えば、エンコーダ側、適応型ストリーミングサービス側など)のビットレートラダーの空間解像度とビットレートのM個の設定又は組み合わせに対して、ビットストリーム又はビデオセグメントのシーケンスを生成することができる。
M個の完全な符号化インスタンスの各々は、次のような完全なパイプラインを表す。(例えば、各々の)入力HDR画像が空間的にダウンサンプリングされ、各々のサイズ変更された画像(「HDR1」、...「HDR M」のいずれかとして示される)が生成される。サイズ変更されたHDR画像はコンテンツマッピングされ(「CM」と表記される)、HDR画像と同じ視覚的意味コンテンツを描写するが、ダイナミックレンジが縮小され、空間解像度が低下した対応するSDR画像が生成される。サイズ変更されたHDR画像とSDR画像は、順方向リシェーピングマッピングを生成する(「順方向関数係数を計算する」と表記される)ために使用される場合がある。順方向リシェーピングマッピングは、サイズ変更されたHDR画像を順方向リシェーピングして、リシェーピングSDR画像にするために使用される。サイズ変更されたHDR画像とリシェーピングSDR画像は、逆方向リシェーピングマッピングを生成するために使用される。このマッピングは、画像メタデータ(「Rpu1」、...、「RpuM」の1つとして表される)の一部として受信側装置に提供され、受信側装置によって使用されて、サイズ変更されたHDR画像を近似するHDR画像を逆方向リシェーピング又は再構成する。サイズ変更されたHDR画像にノイズが注入される(「フィルムグレイン注入」と表記される)。ノイズ注入されたサイズ変更されたHDR画像は、ノイズ埋め込みSDR画像を生成するために、順方向リシェーピングされる(「順方向リシェーピングを実行する」と表記される)。ノイズ埋め込みSDR画像は、BL画像データレイヤ(「BL1」、...「BLM」の1つとして示される)のビデオ信号又は出力ビデオセグメントのシーケンスに符号化される(「ビデオ圧縮」と表記される)。等である。
このビットレートラダーの実装は、比較的高品質のビットストリーム又はビデオセグメントを生成することが可能であるが、ビットレートラダーの各設定又は組み合わせに対するコーディングビットストリーム又はビデオセグメントのシーケンスは、図2Aに示すように、複数の完全に分離されたエンコーダ側処理パイプラインの中の完全に分離されたエンコーダ側処理パイプラインを実行することによって生成されるため、その計算効率は比較的低い可能性がある。
このシステム構成では、異なる設定又は組み合わせで順方向リシェーピングされたSDR画像は、空間的なダウンサンプリングプロセスによって異なる空間次元を持ち、異なる注入フィルムグレインを持つため、ビットレートラダーの空間解像度とビットレートの各々の異なる設定又は組み合わせの逆方向リシェーピングメタデータのような画像メタデータは、ビットレートラダーの他の設定又は組み合わせに対して異なり、個別に生成される。追加で、任意で、又は代替として、多段ビデオ非可逆圧縮/符号化を使用して比較的高いビデオ品質を実現し、BLへの高価な画像データの書き込みを回避する運用シナリオでは、各符号化インスタンスを2回実行する必要がある場合があり、その結果、比較的高いコストの非効率性をもたらす。
完全なメディア処理パイプラインに続くダウンサンプリング
図2B及び2Cは、完全なメディア処理パイプラインの後のダウンサンプリングを持つ適応型ビデオコンテンツストリーミングのためのビットレートラダーを実装する2段システム構成例を示している。このシステム構成では、図2Bに示されているように、比較的高い計算効率を達成するために、完全な符号化処理パイプラインを構成する第1ステージと第2ステージの両方が、ソースHDR画像と同じか同等の最高の空間解像度に対して実行され、最高の空間解像度の非圧縮BL画像(例えば、SDR画像など)とBL画像に対応する画像メタデータが取得される。
図2Bに示されているような完全なパイプラインでは、(例えば、各々の)入力HDR画像がコンテンツマッピング(「CM」と表記)され、HDR画像と同じ視覚的意味コンテンツを描写するが、縮小されたダイナミックレンジと、場合によっては縮小された空間解像度を持つ対応するSDR画像が生成される。HDR画像とSDR画像は、順方向リシェーピングマッピング(「順方向関数係数を計算する」と表記)を生成するために使用されることがある。順方向リシェーピングマッピングは、HDR画像を順方向リシェーピングしてリシェーピングSDR画像にするために使用される。HDR画像とリシェーピングSDR画像は、逆方向リシェーピングマッピングを生成するために使用される。このマッピングは、画像メタデータ(「Rpu」と表記される)として受信側装置に提供され、受信側装置によって使用されて、HDR画像に近似したHDR画像を逆方向リシェーピング又は再構成する。HDR画像にノイズが注入される(「フィルムグレイン注入」と表記される)。ノイズ注入HDR画像は順方向リシェーピングされ(「順方向リシェーピングを実行する」と表記される)、ノイズ埋め込みSDR画像又は最高解像度の非圧縮BL画像が生成される。等である。
次に、第2ステージでは、図2Cに示すように、空間解像度が最も高いBL画像を、ビットレートラダーの空間解像度とビットレートの設定又は組み合わせごとに、異なる空間解像度(「リサイズされたBL1」、...「リサイズされたBLM」と表記される)に空間的にダウンサンプリングする。その後、異なる空間解像度のダウンサンプリングされたBL画像は、設定又は組み合わせのビットレートに従って、異なるビデオ信号(「BL1」、...「BLM」と表記される)又は出力ビデオセグメントの異なるシーケンスに圧縮されるか(「ビデオ圧縮」と表記される)、又は符号化される。
したがって、図2B及び図2Cに示すシステム構成では、ビットレートラダーの最高品質の組み合わせ以外の空間解像度とビットレートの各組み合わせに対して、空間的なダウンサンプリング及びビデオ圧縮動作を実行して、対応するビットストリーム又はビデオセグメントのシーケンスを取得することができる。この構成又はアーキテクチャでは、図2Bの完全なパイプラインから生成された画像メタデータを、空間的にサイズ変更された(又は空間的にダウンサンプリングされた)各ビットストリーム又はビデオセグメントのシーケンスで再利用できる。
多くの計算を節約できても、このシステム構成では、フィルムグレインパラメータがすべての異なる空間解像度とビットレートで同じであるため、異なる空間解像度とビットレートに対してフィルムグレインパラメータを最適化できる場合とできない場合がある。画像コンテンツに注入された注入フィルムグレインは、空間的ダウンサンプリング動作の間に(ホスト)画像コンテンツとともにダウンサンプリングされるため、最も高い空間解像度の画像で生成された中空間周波数のフィルムグレインは、これらの空間的にダウンサンプリング動作でローパスフィルタ処理される場合がある。その結果、このシステム構成では、最高の空間解像度の画像から生成された画像メタデータを、ビットレートラダーの空間解像度とビットレートの他の設定又は組み合わせで再利用できるが、空間的にダウンサンプリングされた画像ではフィルムグレインの鮮明度が低下するため、これらのダウンサンプリングされた画像のバンディング軽減が十分に効果的である場合とそうでない場合がある。
また、このシステム構成では、図2Bに示すように第1ステージからのBL画像をディスク領域に書き込む必要があるとき、図2Cに示すように第2ステージの複数のインスタンスの各インスタンスが、空間的ダウンサンプリングやビデオ圧縮などの各符号化動作の入力としてBL画像を受信できるように、ディスク領域の使用率が高くなる可能性がある。代替として、図2Bに示すように第1ステージからのBL画像をディスク領域に書き込むことを避けるために、第1ステージの動作を繰り返すこともできる。事実上、図2B及び図2Cに示すようなこのシステム構成又はアーキテクチャは、空間解像度とビットレートの複数の設定又は組み合わせをビットレートラダーで生成するための複数の完全処理パイプラインを含む図2Aのシステム構成になるか、又はそのように縮退する可能性がある。この問題は、多段ビデオ圧縮をサポートする場合に悪化する可能性がある。多段ビデオ圧縮は、第1ステージを繰り返し実行するよりも、ディスク領域で使用可能なBL画像を使用した方が優れている場合がある。
完全/縮小メディア処理パイプライン
図2D及び2Eは、完全/縮小メディア処理パイプラインに第1ステージの1つのインスタンスと第2ステージの複数のインスタンスを持つ2段階の完全/縮小パイプラインを持つシステム構成又はアーキテクチャの例を示している。このシステム構成は、ビットレートラダーの空間解像度とビットレートの各設定又は組み合わせでフィルムグレイン設定を最適化し、同時に計算コストとディスク容量を節約するために使用できる。
図2Dに示されているような完全なパイプラインでは、(例えば、各々の)入力HDR画像がコンテンツマッピング(「CM」と表記)され、HDR画像と同じ視覚的意味コンテンツを描写するが、縮小されたダイナミックレンジと、場合によっては縮小された空間解像度を持つ対応するSDR画像が生成される。HDR画像とSDR画像は、順方向リシェーピングマッピング(「順方向関数係数を計算する」と表記)を生成するために使用されることがある。
順方向リシェーピングマッピングは、HDR画像を順方向リシェーピングしてリシェーピングSDR画像にするために使用される。HDR画像とリシェーピングSDR画像は、逆方向リシェーピングマッピングを生成するために使用される。このマッピングは、画像メタデータとして受信側装置に提供され、受信側装置によって使用されて、HDR画像に近似したHDR画像を逆方向リシェーピング又は再構成する。等である。
図2Dに示されているように、第1ステージでは、順方向リシェーピング(又は順方向リシェーピング関数)を指定する動作パラメータ又は係数が計算、生成、及び/又はバイナリファイル(「順方向バイナリ」又はFBと表記)に出力される。また、逆方向リシェーピング(又は逆方向リシェーピング関数)を指定する動作パラメータ又は係数は、画像メタデータ(「Rpu」又は「rpu」と表記)として計算、生成、及び/又は出力され、コーディングシンタックス仕様に従ってビットストリーム又はビデオセグメントにコーディング又はフォーマットされる。
図2Dに示すような第1ステージでは、順方向リシェーピングの動作パラメータは計算又は生成されるが、圧縮用BL画像を得るためにこれらの動作パラメータに基づく順方向リシェーピングを(例えば、実際に)行う必要はない。順方向リシェーピング(又は順方向リシェーピング関数)の動作パラメータを計算又は生成するためにノイズ注入ルマコードワードを使用することを避けるために、ノイズ注入を第1ステージで無効にすることができる。
図2Eに示されているように、第2ステージの各インスタンスでは、入力HDR画像は、ビットレートラダーでサポートされている空間解像度及び/又はビットレートの異なる設定又は組み合わせで、各(例えばターゲットなど)空間解像度(「サイズ変更されたHDR1」、...、「サイズ変更されたHDRM」のいずれかとして示される)にサイズ変更される。第1ステージから生成又は出力される順方向リシェーピング(又は順方向リシェーピング関数)の動作パラメータ又は係数を使用して、ビットレートラダーのこのような空間解像度ごとに、フィルムグレインパラメータを調整し、調整されたフィルムグレインパラメータを使用して、サイズ変更されたHDR画像(「リサイズHDR1」...「リサイズHDRM」)にフィルムグレインノイズを注入することができる。ここで説明するように、フィルムグレインパラメータの特定のセットを含むフィルムグレインパラメータ設定を使用して、HDR画像にノイズを注入することができる。ノイズ注入されたHDR画像は、特定の空間解像度及び/又はビットレートをサポートするビデオ信号に符号化されるSDR又はBL画像に順方向リシェーピングするために使用することができる。HDR画像へのノイズ注入は、リシェーピングSDR又はBL画像を生成するために、HDR画像に順方向リシェーピング関数を適用することとは別個かつ独立している。幾つかの運用シナリオでは、順方向リシェーピング関数から得られる情報を使用して、輝度に依存するノイズ強度を計算することができる。追加で、任意で又は代替として、ノイズ注入パラメータは、第2ステージの空間解像度及び/又はビットレートごとに個別に選択又は選ぶことができる。
図2Eに示されている第2ステージでは、図2Dに示されているように、第1ステージから計算又は生成された動作パラメータ又は係数によって指定される順方向リシェーピングを、ノイズ注入されたサイズ変更されたHDR画像に対して実行し(「順方向リシェーピングの実行する」と表記)、各々のビデオ信号(「BL1」、...、「BLM」と表記される)への圧縮/符号化(「ビデオ圧縮」と表記)のために、対応するBL画像を生成することができる。
図2Eに示されているように、第2ステージでは、順方向及び逆方向リシェーピングの動作パラメータは、図2Dに示されているように第1ステージですでに生成されているため、これらの動作パラメータを計算する必要はない。したがって、第2ステージでは、順方向及び逆方向リシェーピングの動作パラメータを生成するための参照SDR画像として使用する目的で、コンテンツマッピングSDR画像を生成する必要はない。対応するコンテンツマッピング動作は、ビデオ符号化の最も計算負荷の高い部分である可能性があり、第2ステージではスキップできる。その結果、フィルムグレインパラメータは、図2Eに示すように、第2ステージで比較的高い計算コストを発生させることなく、最適かつ比較的効率的に調整及び適用することができる。
図2Eに示すような第2ステージは、図2Aに示すような完全符号化パイプラインの縮小版を表す。図2D及び図2Eに示すようなシステム構成又はアーキテクチャは、2段階のビデオ圧縮パイプラインを実装するのに適している。ビットストリーム又はビデオセグメントが多段符号化で符号化される運用シナリオでは、図2Eに示すような縮小されたパイプラインを複数回実行できる。図2Eに示すように、第2ステージで生成されたBL画像は、ディスク領域に書き込む必要はない。代わりに、これらのBL画像(例えば、BL YUVファイルの形式など)を直接出力したり、BL画像のビデオ圧縮を実行する後続のビデオ圧縮モジュールの入力メモリ(例えば、ランダムアクセスメモリ、メインメモリ、キャッシュメモリなど)に入力したりすることで、クラウドコンピューティング環境でのディスク領域コストを大幅に削減できる。
幾つかの運用シナリオでは、図2Dに示されているように、第1ステージで、図2Dの第1ステージで生成された順方向リシェーピング(又は順方向リシェーピング関数)を指定する動作パラメータが、図2Dの第1ステージから図2Eの第2ステージまで順方向バイナリファイルとして出力又は書き込まれる。順方向バイナリファイルは、ダウンサンプリングされたルマ又はクロマリシェーピングデータを含む場合がある。例えば、高いビット深度のルマ又はクロマコードワードを低いビット深度のルマ又はクロマコードワードにマップするFLUT内の高いビット深度のルマ又はクロマコードワードは、高いビット深度から、高いビット深度より低いが低いビット深度より高い中間ビット深度にダウンサンプリングされ、中間ビット深度のルマ又はクロマコードワードを低いビット深度のルマ又はクロマコードワードにマップするダウンサンプリングされたFLUTを生成することができる。その結果、より小さいデータサイズのFLUTが生成され、ここで説明するような多段符号化システム構成で第1ステージから第2ステージに渡される場合がある。追加で、任意で又は代替として、順方向バイナリファイルには、ダウンサンプリングを伴わないルマ又はクロマリシェーピングデータが含まれる場合がある。例えば、多変量重回帰(multivariate multiple regression (MMR))表現のリシェーピングデータは、ダウンサンプリングされない場合がある。
多段符号化でのステージ1からステージ2への順方向バイナリの渡し
説明のためだけに、順方向バイナリファイルは、ファイルヘッダと、フレーム順序で複数の連続フレームのフレームごと(又は画像ごと)の順方向リシェーピング情報を含む。
ファイルヘッダは、第2ステージが(例えば、正しい)読み取り動作を実行するために使用できるヘッダパラメータのセットを含む。例えば、順方向バイナリファイルからのフレームごとの順方向リシェーピング情報などである。
一部の運用シナリオでは、ヘッダパラメータのセットには、以下:(順方向バイナリファイル)バージョン情報、順方向バイナリファイルで順方向リシェーピング情報が提供されるフレーム/画像の数、HDRビット深度、SDR又はBLビット深度、フレームごとのルマ順方向リシェーピングを指定する順方向ルックアップテーブル(順方向LUT又はFLUT)のエントリの総数、フレームごとのクロマ順方向リシェーピングを指定するMMR係数の最高次数、などの一部又はすべてが含まれる。
フレームごとの順方向リシェーピング情報は、HDRルマチャネルコードワード(例えば、12ビット精度など)を順方向リシェーピングSDRルマチャネルコードワード(例えば、8ビット精度など)に順方向リシェーピングするためのルマ1次元(1D)LUT(又はFLUT)と、HDRルマ及びクロマコードワードを各順方向リシェーピングSDRクロマチャネルに属するコードワードにマッピングするためのMMR係数の両方を含む。
HDRビット深度が与えられると、フレームごとの順方向リシェーピング情報のサイズはSDR又はBLビット深度に依存する。8ビットBLビット深度の場合、1D-LUT(又はFLUT)はエントリごとに1バイトを使用する場合がある。したがって、1D-LUT(又はFLUT)内のエントリの総数は、例えば12ビット精度のビデオ/画像データの場合、212*1=4096バイトとなる。
MMR係数の最高次数を3次とすると、順方向リシェーピングクロマ(Cb及びCr)チャネルコードワードを生成するための浮動小数点精度(4バイト)のMMR係数は、2(チャネル)*22(3次までのMMR係数)*4(浮動小数点精度のバイト)=176バイトを使用することができる。
このため、HDR画像をSDR画像に順方向リシェーピングするためのフレームごとの順方向リシェーピング情報は、フレームごとに5Kバイト未満しか消費せず、画像データ(例えば、与えられた空間解像度等のルマ及びクロマコードワードなど)と比較して比較的少ない。
一部の運用シナリオでは、ここで説明するソース(又は元の)HDR画像は、16ビットのHDRビット深度である場合がある。
F(.)を、16ビットHDRルマコードワードをSDRルマコードワードに順方向リシェーピングするために、図2Dに示されているように、第1ステージによって生成又は予測される元の16ビットルマFLUTとする。
F(.)をサブサンプリングされたルマFLUTとし、サブサンプリングされた(例えば、16ビットHDRルマコードワードよりも更に量子化されている、16ビットHDRビット深度よりもビット深度が小さい、など)HDRルマコードワードをSDRルマコードワードに順方向リシェーピングする。F’(.)のエントリの総数、又はサブサンプリングされたルマFLUTのサイズは、NFであり、NFはダウンサンプリング又はサブサンプリングされたHDRルマコードワードの総数を表する。プレサブサンプリングされたHDRルマコードワードが16ビットのコードワード空間である一部の運用シナリオでは、ダウンサンプリング/サブサンプリングされたHDRルマコードワードNF≦216のダウンサンプリング又はサブサンプリングされたHDRルマコードワードの総数は、4096のようになる(12ビットのダウンサンプリングされたHDRビット深度に対応する)。
εをステップ(又は「ストライド」)とすると、
Figure 0007434664000001
ここで、各エントリインデックスu=0,1,...NF-1のサブサンプリングされたFLUTエントリは、次のように導出できる:
Figure 0007434664000002
例として、限定ではないが、NF=4096が与えられた場合、エントリインデックスu=2028のサブサンプリングされたFLUTエントリは、次のように導出できる:
エントリインデックスの元のFLUTエントリに対応するサブサンプリングされたFLUTエントリ:
Figure 0007434664000003
したがって、
Figure 0007434664000004
このサブサンプリングされたFLUT(F’(.))は、該当又は対応するフレーム(例えば、fをフレームインデックスとする)のルマ順方向リシェーピング情報として、順方向バイナリファイルに書き込むことができる。
順方向バイナリファイルでカバーされる画像/フレームのフレームごとのルマ順方向リシェーピングデータを書き込む手順の例を、以下の表1に示す。
表1
Figure 0007434664000005
例として、限定ではなく、クロマ順方向リシェーピング、例えば、HDRルマ及びクロマコードワードを順方向リシェーピングSDRクロマコードワードにマッピングすることは、図2Dの第1ステージで計算された(a)MMR係数又は(b)(例えば、単一の項などの)多項式を使用して実行できる。様々な実施形態では、各フレームは、そのフレームの順方向リシェーピングクロマ(例えば、CbチャネルやCrチャネルなど)コードワードを生成するために、(例えば、個々の、異なる、などの)数のMMR係数を含むフレームごとのクロマ順方向リシェーピングデータでマッピングできる。
様々な運用シナリオでは、ここで説明するようなクロマリシェーピングデータは、可変又は固定サイズの場合がある。MMR表現のクロマリシェーピングデータは、任意の所与の次数までのMMR係数を含む場合がある。多項式表現のクロマリシェーピングデータは、特定の多項式位置の幾つかの多項式係数の0値を含む場合がある。
一部の運用シナリオでは、順方向バイナリファイルから読み書きされるフレームごとのクロマ順方向リシェーピングデータのサイズは、フレームごとに同じに保たれる場合がある。これにより、比較的大きなデータサイズのクロマ順方向リシェーピングデータ(例えば、複数フレームの場合など)を一度に書き込み/読み出しでき、フレームごとのクロマ順方向リシェーピングデータの複数の固定チャンクに比較的簡単に正しくパーティションできるため、データアクセス/更新の速度と効率が向上し、クラウドに基づく記憶又はコンピューティング環境で特に役立つ。
フレームごとのクロマ順方向リシェーピングデータサイズを固定又は一定にするには、フレームごとのクロマ順方向リシェーピングデータの所与の(例えば、任意のなど)タイプを、(a)又は(b)又は別のタイプにかかわらず、固定次数のMMR係数(又は最大の最高MMR次数までのMMR係数)に翻訳又は変換する。例えば、順方向バイナリファイルのヘッダで、順方向バイナリファイルでカバーされているすべての画像/フレームのクロマ順方向リシェーピングデータに、以下のグローバルMMR次数を指定できる:
Figure 0007434664000006
順方向バイナリファイルでカバーされているすべての画像/フレームで同じであるグローバルMMR次数は、フレームごとに何個のMMR係数がシグナルされるかを示す。これは、おそらく順方向バイナリファイルでカバーされている画像/フレームの幾つかのフレーム/画像について、これらのフレーム/画像のフレームごとのクロマ順方向リシェーピングデータが順方向バイナリファイルのヘッダで示されているグローバルMMR次数よりも低い最高MMR次数である場合、1つ以上の最高MMR次数の係数が順方向バイナリファイルで0(ゼロ)に設定される可能性があることを意味する。
前述のように、幾つかの運用シナリオでは、フレームごとのクロマ順方向リシェーピングデータは、図2Dの第1ステージで計算された(a)MMR係数を使用して指定又は定義される。図2Dの第1ステージで計算されたm番目のC(Cb又はCrのいずれか、又はcと表記されることもある)チャネルMMR係数を以下のように表す:
Figure 0007434664000007
計算されたMMR次数を以下のように表す:
Figure 0007434664000008
順方向バイナリファイルでカバーされる画像/フレームのフレームごとのクロマ順方向リシェーピングデータを、MMR係数の形式で書き込む手順の例を、以下の表2に示す。
表2
Figure 0007434664000009
幾つかの運用シナリオでは、図2Dの第1ステージで計算された(b)(例えば、単一の項、又は1つの項の2次など)多項式を使用して、フレームごとのクロマ順方向リシェーピングデータが指定又は定義される。ここで、ここで説明する多項式の多項式係数は、各々又は対応するMMR位置に配置できる。
ルマチャネルY及びクロマチャネルCb及びCrのi番目の正規化HDRピクセル値を使用して、MMR係数を含むMMR行列を形成できる。i番目の正規化HDRピクセル値には、順方向リシェーピングされるべきHDR画像/フレームのクロマチャネルCb及びCrの正規化HDRピクセル値(例えば、[0,1)の間)などが含まれる。クロマチャネルCb及びCrにおける正規化HDRピクセル値は以下のように表すことができる:
Figure 0007434664000010
i番目の正規化HDRピクセル値には、ノイズ注入(有効な場合)後にダウンサンプリングされたHDR画像のi番目のピクセルにおけるルマチャネル値(例えば、[0,1]の範囲で正規化されている)も含まれる。ルマチャネルYにおける正規化HDRピクセル値は、以下のよう表すことができる:
Figure 0007434664000011
一部の運用シナリオでは、YUV420画像のルマ平面とクロマ平面のサイズ、又は420色空間サブサンプリング形式のHDR画像/フレームに一致するようにルマダウンサンプリングが実行される場合がある。
i番目のクロマピクセルについて、次式:
Figure 0007434664000012
で表されるMMRベクトルは、次のようにHDRピクセル値を使用して指定又は定義できる:
Figure 0007434664000013
2次のCb多項式は、次のように指定又は定義できる:
Figure 0007434664000014
上記の式(3)の2次Cb多項式の多項式係数:
Figure 0007434664000015
は、各々対応するMMR位置又はインデックスに配置できる。式(2)の開始位置インデックスを0として、上記の式(2)で0、2、9、である。
同様に、(示されないが上記の式(3)と同様に)2次Cr多項式の多項式係数:
Figure 0007434664000016
は、各々対応するMMR位置又はインデックスに配置できる。上記の式(2)で1、3、10、である。
クロマチャネルcの多項式係数を次のように表す:
Figure 0007434664000017
順方向バイナリファイルでカバーされる画像/フレームのフレームごとのクロマ順方向リシェーピングデータを、MMR位置/インデックスに格納された多項式係数の形式で書き込む手順の例を、以下の表3に示す。
表3
Figure 0007434664000018
第2ステージでは、順方向バイナリファイル内のシグナリングされた順方向リシェーピングデータを使用して、HDR画像データを順方向リシェーピングし、複数の空間解像度を持つ対応するBL又はSDR画像データを生成して符号化することができる。
ノイズ強度調整
フィルムグレインノイズのようなノイズは、元のHDR画像、ソースHDR画像、入力HDR画像、サイズ変更されたHDR画像、空間的にダウンサンプリングされたHDR画像などの元の又はサイズ変更されたHDR画像に注入され、HDR画像から直接又は間接的に導出したレンダリング画像内の誤った輪郭やバンディングのアーチファクトを防止又は低減する。
異なる元の又はサイズ変更されたHDR画像の注入ノイズは、ノイズ画像バンク内の複数のフィルムグレイン画像の中からランダム又は非反復的に選択できる。ノイズを注入する(例えば、現在HDR、ソースHDRなどの)フレームごとに、ノイズ画像バンク内の複数のフィルムグレイン画像の中からフィルムグレイン画像をランダム又は非反復的に選択できる。幾つかの運用シナリオでは、フィルムグレイン画像などのノイズ画像に各々のインデックス値をインデックス付けすることができる。連続して生成されたインデックス値の繰り返しを回避するインデックス値を生成するために、非繰り返しの擬似乱数生成器を使用することができる。その結果、2つの連続した画像に2つの異なるノイズ画像又はフィルムグレイン画像が注入される。追加で、任意で又は代替として、ここに記載されている選択されたノイズ又はフィルムグレイン画像のフィルムグレイン(ノイズ)などのノイズは、輝度に依存するノイズ強度でスケーリング、調整、及び/又は変調され、その後、元のHDR画像又はサイズ変更されたHDR画像のルマチャネルに追加され、一部の運用シナリオではHDR YUV画像として表される場合がある。
限定ではなく例として、HDR画像のビット深度はnv=16で、使用可能な輝度コードワード範囲は[0、65535、]である。ノイズ画像バンクのノイズ(例えば、パターン、フィルムグレインなどの)画像は、[-1、1]のスケールで正規化されたノイズ値を含む場合がある。
一部の運用シナリオでは、一定のスケーリング(又は一定のスケーリング係数)がノイズ画像のノイズ値に適用される場合がある。その結果、ノイズ強度は、使用可能な輝度コードワード範囲内の様々な輝度サブ範囲又はルマビンにわたって一定になる。一方で、これらの様々な輝度ビンにわたってノイズ強度をスケールするために使用されるスケーリング係数が比較的低い場合、多くの画像又はビデオクリップにはまだバンディングアーチファクトが表示される可能性がある。一方で、様々な輝度ビンにわたってノイズ強度をスケールするために使用されるスケーリング係数が増加しているか、比較的高い場合、画像又はビデオクリップの一部の領域又は部分(特にハイライト)には、視覚的に知覚され、視聴者に迷惑をかける可能性のある過剰なノイズが表示されることがある。
幾つかの運用シナリオでは、本願明細書で説明したように例えば前述のように順方向バイナリファイル内のフレームごとのルマ順方向リシェーピングデータにより表される(例えば、HDR-to-SDRなど)順方向リシェーピング関数を使用して、使用可能な輝度コードワード範囲内の各HDRコードワードでのノイズ強度を計算することができる。順方向リシェーピング関数を使用して、様々なルマ強度サブ範囲の中のコードワードの割り当てを制御できる。
例えば、HDR輝度コードワードのサブ範囲又はビンが比較的少数のSDRコードワードにマッピングされている運用シナリオでは、(例えば、連続するHDRコードワード)サブ範囲又はビンのマッピングされたSDRコードワード間の(例えば平均などの)距離が比較的大きいか、又は高くなる。これにより、受信ビデオ信号の順方向リシェーピングSDR又はBL画像を逆方向リシェーピングして構成された画像(例えば、再構成HDR画像など)で、比較的大きな又は高いバンディングが発生するか、発生する可能性がある。したがって、これらのHDRコードワードのサブ範囲又はビンに対して、比較的高いノイズ強度を適用して、バンディングアーチファクトを防止、マスク、又は削減できる。
一方、HDRビンが比較的多数のSDRコードワードにマッピングされている運用シナリオでは、受信ビデオ信号内の順方向にリシェーピングされたSDR又はBL画像を逆方向にリシェーピングして構成された、逆方向リシェーピングHDR画像で、これらのビンの視覚的なバンディングが少なくなる場合がある。これらの輝度ビンでは、ノイズ強度が低くても、疑似輪郭やバンディングのアーチファクトをマスクし、その時点で不要に高い迷惑なノイズを防ぐのに十分である。
これらの運用シナリオでは、HDRルマサブ範囲又はビンのノイズ強度は、HDRルマサブ範囲又はビンに割り当てられたマッピングされたSDRコードワードの総数に反比例する場合がある。
様々な実施例では、ここで説明するノイズ注入は、16ビットソースHDR画像、12ビットソースHDR画像などの元HDR画像に注入できる。同様に、ここで説明するノイズ注入は、空間的なダウンサンプリングではなくビット深度ダウンサンプリングであるダウンサンプリングから生成された12ビットダウンサンプリングHDR画像などのダウンサンプリングHDR画像に注入できる。
ノイズ注入
図4Aは、nvビットHDR画像にフィルムグレインノイズを注入する処理フローの例を示している。F(.)を、nvビット(例えば、16ビット、12ビットなど)HDRルマコードワードをnsビット(例えば、8ビット、10ビットなど)SDRコードワードにマップするFLUTとする。vをHDRコードワードとすると、F(v)はマッピングされたSDRコードワードになる。HDR範囲全体をNB個のビンに分割する。各HDR輝度ビン内のHDRコードワードの総数は、次の通りである:
Figure 0007434664000019
次に、HDR輝度ビンbには、以下のHDR輝度コードワードが含まれている:
Figure 0007434664000020
ブロック402は、各HDR輝度(又はルマ)ビン内の各ビンごとのコードワードの増分を発見することを含む。FLUTは単調非減少関数、又は次式として構成することができる:
Figure 0007434664000021
運用シナリオによっては、各HDR輝度ビンを少なくとも1つのSDR輝度コードワードにマッピングすることができる。(ビンインデックスbを有する)各HDR輝度ビンに割り当てられた追加のSDR輝度コードワードの総数(1を超える)は、φbと表すことができる。つまり、φbはHDR輝度ビンbにおけるSDRコードワードの増加量を示す。
16ビットのHDR画像が8ビットのSDR画像にマップ又は順方向リシェーピングされる運用シナリオでは、SDR輝度コードワードの総数は256である。使用可能な16ビットHDR輝度コードワードの範囲全体が64のサブ範囲又はビンに分割されている場合、各HDR輝度ビンには65536/64=1024のHDRコードワードがあり、使用可能な8ビットSDR輝度コードワードの範囲全体(例えば、0-255コードワードのSDR輝度コードワード範囲全体など)のサブセットにマップ又は順方向リシェーピングされる。
例えば、ビンインデックスb=5のHDR輝度ビンには、v=[1024*5,(1024*6-1)]のHDR輝度コードワードが含まれている。このHDR輝度ビンがSDRコードワードF(v)=[30,35]にマッピングされているとする。次に、ビンインデックスb=5のHDR輝度ビンの場合、コードワードはφ=35-30=5だけ増加する。
ブロック404は、各HDR輝度ビン内の各ビンごとのコードワードの増分を正規化することを含む。φmaxをすべてのHDR輝度ビンのビンごとの最大コードワード増分とする。ビンごとの最大コードワード増分を使用して、すべてのビンごとのコードワード増分を、例えばスケール[0,1,0,1]で正規化できる。ビンインデックスbを持つHDR輝度に対するビンごとの正規化コードワード増分:
Figure 0007434664000022
は、次のように指定できる:
Figure 0007434664000023
ブロック406は、HDR輝度ビン内のビンごとのコードワード増分に従ってノイズ強度を割り当てることを含む。
輝度チャネル内のHDR画像に注入されるノイズ強度を、ψminを最小、ψmaxを最大とする。様々な実施例では、これら2つのノイズ強度(又は強度値)は、ここで説明するようにシステムによって自動的に設定される場合があり、及び/又は指定されたユーザからのユーザ入力として指定される場合がある。最小及び最大のノイズ強度は、最適値又は選択された値(例えば、経験的又はプログラム的に決定された最良の値など)に設定される場合があり、空間解像度、ターゲットビットレート、採用されたビデオ圧縮コーデック及び対応するパラメータなどの一部又はすべてに依存するか又は変化する。
ビンごとの正規化されたコードワードの増分を使用して、HDR輝度コードワードビンに対して設定された最小及び最大のノイズ強度ψminとψmaxの間の対応するビンごとのノイズ強度を取得できる。HDR輝度コードワードビン内のHDR輝度コードワードvに対するビンごとのノイズ強度をψvとする。HDR輝度コードワードビンのビンインデックスbvは以下のように計算できる:
Figure 0007434664000024
min、ψmax]の間のHDR輝度コードワードvのビンごとのノイズ強度ψvは、ビンインデックスbvを有するHDR輝度コードワードビンについて、正規化コードワード増分:
Figure 0007434664000025
に基づくスケーリング係数を使用して以下のように計算できる:
Figure 0007434664000026
図3Aは、例示的な輝度FLUTを示す。図3Bは、FLUTから決定されるビンごとのコードワード増分の例を示している。
FLUTから決定されるビンごとのコードワード増分に基づいて、各HDRコードワードのビンごとのノイズ強度を計算する手順の例を、以下の表4に示す。
表4
Figure 0007434664000027
ビンごとの測定値を使用して計算されたビンごとのノイズ強度は、カーネル長としてθ個のコードワードを持つ適応型平滑化フィルタを使用して平滑化できる。限定ではなく例として、16ビットHDR輝度コードワードの場合、適応型平滑化フィルタのカーネル長θは2049に設定できる。
HDR輝度コードワードvの(コードワードごとの)フィルタリングされたノイズ強度を、以下のように表すとする:
Figure 0007434664000028
図3Cは、(例えば、図3Bなどの)ビンごとのノイズ強度を平滑化することによって生成される(コードワードごとの)ノイズ強度の例を示している。限定ではなく例として、設定された最小及び最大のノイズ強度は、[ψmin,ψmax]=[800,1200]である。プレフィルタリング曲線は、式(5)を使用して計算されたビンごとのノイズ強度を表す。ポストフィルタリング曲線は、ビンごとのノイズ強度に平滑化フィルタリングを適用することによって生成される、以下のコードワードごとのノイズ強度を表す:
Figure 0007434664000029
図3CのX軸は、64個のビンに処理又は分割されるHDR輝度コードワード範囲0~65535全体を表す。
平滑化フィルタリングに基づいて、各HDRコードワードの(プレコードワード)ノイズ強度を計算する手順の例を、以下の表5に示す。
表5
Figure 0007434664000030
Figure 0007434664000031
輝度レベルによるノイズ強度の変化
ノイズ強度を計算する技術は、元の画像だけでなく、ダウンサンプリング(例えば、ビット深度のダウンサンプリング、空間的ダウンサンプリングなど)された画像にも適用することができる。
これらの技術は、各HDR輝度コードワードに対するコードワードごとのノイズ強度を決定するために、図2Eに示すような第2ステージで適用することができ、これは、元のHDR画像であるか、又は(例えば、より高いビット深度、より高い空間解像度などの)ソースHDR画像を(例えば、ビット深度、空間的になど)ダウンサンプリングすることから得られたダウンサンプリングされたHDR画像のいずれかである。限定ではなく例として、ノイズ強度の計算は、12ビットのビット深度のダウンサンプリングされたHDR画像に対して実行することができる。ダウンサンプリングされたHDR画像の輝度FLUTには、ビット深度16ビットの(例えば、元の、ソースなど)HDR画像の65536個のエントリよりも少ない、わずか4096個のエントリの輝度コードワード範囲全体が含まれている。幾つかの運用シナリオでは、ダウンサンプリングHDR画像の輝度FLUT F’(.)は、式(1)に示されているように、16ビットのビット深度の(例えば、元、ソースなど)HDR画像の場合に、元の65536エントリFLUT F(.)をサブサンプリングすることにより得ることができる。
ここで、(例えば、元、ソースなど)HDR画像内のHDR輝度コードワードvがマップされる、順方向リシェーピングSDR又はBL輝度コードワードは、サブサンプリングされたFLUT F’(.)内の(ルックアップ順方向マッピング)エントリF’(floor(v/ε))によって指定又は定義できる。ここで、floor(v/ε)はサブサンプリングされたFLUT F’(.)内のエントリインデックスを表し、εは次式の「ストライド(stride)」を表し:
Figure 0007434664000032
floor(.)は、引数の小数部分を破棄し、引数の整数部分(又は数値)のみを保持するフロア演算を表す。
例えば、次式である:
Figure 0007434664000033
16ビットHDR輝度コードワードv=32449の順方向マッピング(又は順方向リシェーピングSDR又はBL輝度コードワード)を検索するために、サブサンプリングされたFLUT F’のエントリインデックスを次のように計算する:
Figure 0007434664000034
サブサンプリングされたFLUTF’で増分するビンごとのコードワードに基づいてビンごとのノイズ強度を決定し、ビンごとのノイズ強度に平滑化フィルタリングを適用することに基づいてコードワードごとのノイズ強度を決定する手順の例を、次の表6に示する。
表6
Figure 0007434664000035
幾つかの運用シナリオでは、元のFLUT Fの代わりに、図2Dの第1ステージから図2Eの第2ステージに渡すことができるサブサンプリングされたFLUT F’を使用して計算されたコードワードごとのノイズ強度を使用して、ここで説明するビットレートラダーによってサポートされる各空間解像度のサイズ変更された(又は空間的にダウンサンプリングされた)HDR画像に、フィルムグレインノイズなどのノイズを注入するために、図4Aに示されているのと同じ処理フローを図2Eの第2ステージで適用することができる。
ノイズ注入されたサイズ変更されたHDR画像は、(例えば、固定最高次数までのルマFLUTとクロマMMR係数を含む)順方向バイナリファイルのルマ及びクロマ順方向リシェーピングデータに基づく順方向リシェーピング動作によって順方向リシェーピングされ、HDR画像と同じ視覚的意味コンテンツを表す対応する順方向リシェーピングSDR又はBL画像を生成することができる。
ノイズ注入されたサイズ変更されたHDR画像のi番目のピクセルのHDR輝度コードワードを次式として表す:
Figure 0007434664000036
i番目のピクセルのHDR輝度コードワードに対して、対応するノイズ注入された順方向リシェーピングSDR又はBL画像内のi番目のピクセルの対応するnsビット順方向リシェーピングSDR又はBL輝度コードワード:
Figure 0007434664000037
を計算する手順の例を以下の表7に示す。
表7
Figure 0007434664000038
ノイズ注入されたサイズ変更されたHDR画像のi番目のピクセルのHDR色度(chrominance)(Cb/Cr)コードワードを次式として表す:
Figure 0007434664000039
前に示したように、順方向バイナリファイルでシグナリングされた固定次数のMMR係数を使用して、Cb及びCrチャネルのために、HDR輝度及び色度コードワードを順方向リシェーピングSDR又はBL色度コードワードにマップできる。対応するノイズ注入された順方向リシェーピングSDR又はBL画像内のi番目のピクセルの対応する順方向リシェーピングSDR又はBL色度コードワード:
Figure 0007434664000040
を計算する手順の例を以下の表8に示す。
表8
Figure 0007434664000041
ライブ符号化のためのカスケードされた完全及び縮小パイプラインアーキテクチャ
図2D及び図2Eに示されている2段階の完全/縮小処理パイプラインは、図2Fに示されているように、1つの(結合された)ステージに一緒にカスケードすることができる。図2Fのこの単一のステージは、必ずしも限定されないが、ライブストリーミング/ブロードキャストのシナリオでビットストリーム及び/又はビデオクリップを符号化するために使用することができる。図2Fの単一のステージでは、順方向バイナリ(順方向バイナリファイル)など、図2Dに示されているような完全パイプライン部分(又は第1ステージ)の出力を、図2Eの縮小パイプライン部分(又は第2ステージ)の入力に直接入力して、処理時間の遅延を減らすことができる。さらに、図2Fの単一のステージは、図2Eの縮小パイプライン部分(又は第2ステージ)の複数のインスタンスを組み込むことができるため、サポートされているビットレートラダーの空間解像度とビットレートの異なる組み合わせを同時に又は並行して符号化することができる。
クラウドコンピューティングのためのセグメント符号化
図2D及び図2Eに示されているような完全/縮小パイプラインは、図2Fに示されているように1つのステージとして一緒にカスケードすることができ、入力又はソースHDR画像を含む入力又はソースHDRビデオ信号で表されるメディアプログラムの各入力ビデオセグメントに対して、ビットレートラダー内の空間解像度とビットレートの異なる設定又は組み合わせで、対応する出力ビットストリーム部分(又は出力ビデオセグメント)を生成する。対応する出力ビットストリーム部分(又は出力ビデオセグメント)と入力ビデオセグメントは、同じ視覚的意味コンテンツを描写するが、空間解像度とビットレートの異なる組み合わせである。
幾つかの運用シナリオでは、図2Dと図2Eの完全/縮小ステージ又は図2Fの単一の結合ステージを実装するメディアストリーミングサーバ/サービスは、生成された出力ビデオセグメントを、異なるネットワーク条件/ビットレート及び/又は(例えば、受信側再生装置などでサポートされている空間解像度及び/又はダイナミックレンジ及び/又は色域に関して)異なるディスプレイ機能を持つ異なる受信側再生装置に動的又は適応的にストリーミングする。
幾つかの運用シナリオでは、図2Dと図2Eの完全/縮小ステージ又は図2Fの単一の結合ステージを実装するメディアストリーミングサーバは、メディアストリーミングサーバ/サービス及び受信側再生装置に関連して、リアルタイムのネットワーク条件及び/又はシステムリソースの使用状況に基づいて、生成された出力ビデオセグメントの特定の出力ビットストリーム部分(又は出力ビデオセグメント)に動的又は適応的に切り換える。メディアストリーミングサーバ/サービスから受信側再生装置にストリーミングされる特定の出力ビットストリーム部分(又は出力ビデオセグメント)は、(複数の)対応する出力ビットストリーム部分(又は出力ビデオセグメント)の中から、リアルタイムのネットワーク条件及び/又はシステムリソースの使用状況の下でサポートされる最高の視覚品質のビットストリーム(又はビデオセグメント)として選択することができる。
メディアストリーミングサーバは、複数のコンピュータノード(例えば、仮想コンピュータ、クラウドコンピューティングサービスで起動したコンピュータインスタンスなど)を含むクラウドコンピューティングクラスタを使用して、クラウドに基づくメディアストリーミングのシナリオで実装できる。クラスタ内の個々のコンピュータノードは、入力又はソースHDRビデオ信号から生成された複数の入力ビデオセグメント内の各々の入力ビデオセグメントを処理して、各々の入力ビデオセグメントから(複数の)出力ビットストリーム部分(又は出力ビデオセグメント)を生成又は符号化するように割り当てることができる。
図2Gは、入力HDRビデオ信号内の連続する入力又はソースHDR画像のシーケンスから複数の入力ビデオセグメントを生成する例を示している。複数の入力ビデオセグメント内の入力ビデオセグメントは、(例えば、クラウドに基づく)コンピュータクラスタ内のクラスタノードによって、空間解像度とビットレートの異なる設定又は組み合わせに対して、対応する出力ビットストリーム部分又は出力SLBCビデオ信号内の出力ビデオセグメントに処理及び符号化される場合がある。
図2Gに示すように、連続する入力又はソースHDR画像のシーケンスによって表されるメディアプログラム(又はビデオクリップ)全体は、FN個の連続画像/フレームの総数を含むことができる。メディアプログラム(又はビデオクリップ)内のFN個の連続画像/フレームは、複数の真のセグメントに分割することができる。ここで使用される用語「真のセグメント」とは、互いに重ならず連続する入力又はソースHDR画像の(全体的な)シーケンスの相互に排他的な部分(又はサブシーケンス)を含む、メディアプログラム(又はビデオクリップ)内の連続する入力又はソースHDR画像のサブセット(又はフレームチャンク)を表す。例として、限定ではないが、メディアプログラム(又はビデオクリップ)の連続する入力又はソースHDR画像のシーケンスから分割された複数の真のセグメントの各真のセグメントは、F個の画像/フレームを含む。
ここに記載されている入力ビデオセグメントは、オーバヘッド(バンパー)フレームの1つ又は2つの隣接する部分を対応する真のセグメントに追加することによって、対応する真のセグメントから生成又は構成することができる。オーバヘッド(バンパー)フレームの1つ以上の隣接する部分は、対応する真のセグメントに隣接する1つ以上の隣接する真のセグメントに拡張するか、又は(部分的に)重複する。
より具体的には、エッジ入力ビデオセグメントである第1(又は開始)入力ビデオセグメント(図2Gでは「Seg0」と示され、連続する入力ビデオセグメントは「Seg1」、「Seg2」、...、「Seg(T-2)」、「Seg(T-1)」と示される)は、オーバヘッド(バンパー)フレームの末尾の隣接する部分を追加することによって、第1(又は開始)真のセグメントから生成される場合がある。第1入力ビデオセグメントに追加されたオーバヘッド(バンパー)フレームの末尾の隣接する部分は、第1の真のセグメントの直後の第2の真のセグメントに拡張、又は(部分的に)重なり合う。
内部入力ビデオセグメントである第2入力ビデオセグメント(図2Gの「Seg1」)は、オーバヘッド(バンパー)フレームの先頭の隣接する部分と末尾の隣接する部分を追加することによって、第の2真のセグメントから生成できる。第2入力ビデオセグメントに追加された先頭と末尾の隣接する部分は、各々第2の真のセグメントの直前の第1の真のセグメントと、第2の真のセグメントの直後の第3の真のセグメントに拡張又は(部分的に)重なり合う。
エッジ入力ビデオセグメントである最後(又は終了)の入力ビデオセグメント(図2Gでは「Seg(T-1)」と表される)は、オーバヘッド(バンパー)フレームの戦闘の隣接する部分を追加することによって、最後(又は終了)の真のセグメントから生成できる。最後の入力ビデオセグメントに追加されたオーバヘッド(バンパー)フレームの先頭の隣接する部分は、最後の真のセグメントの直前の第2最後の真のセグメント(「Seg(T-2)」)に拡張、又は(部分的に)重なり合う。
したがって、T=FN/Fである入力ビデオセグメントの合計数Tがメディアプログラム(又はビデオクリップ)から生成される可能性がある。入力ビデオセグメントの各々は、(例えば、クラウドに基づく)コンピュータクラスタ内のクラスタノードによって、空間解像度とビットレートの異なる組み合わせに対して、対応する出力ビットストリーム部分又は出力ビデオセグメントに分散、処理又は符号化される場合がある。
図2Hは、ここに記載されているように、入力ビデオセグメントを処理するための「ノードK」として示されるクラスタノード(例えば、クラウドに基づく仮想コンピュータなど)によって実装されるシステム構成又はアーキテクチャの例を示している。例として、限定ではないが、図2D及び図2Eに示されているような2つのステージが、ビデオセグメントを処理するためにクラスタノードによって使用又は実装される場合がある。さらに、任意又は代替として、図2Hに示されているようなこれらの2つのステージを、図2Fに示されているような1つのステージに結合することができる。
第1ステージ(「ステージ1」と示される)では、クラスタノードに割り当てられた入力ビデオセグメントを、入力ビデオセグメント内の入力又はソースHDR画像のネイティブ空間解像度と同じである可能性がある最高空間解像度で処理して、順方向バイナリファイル(「.binファイル」と表記される)と、逆方向リシェーピングメタデータなどの画像メタデータ(「.rpuファイル」と表記される)を生成又は作ることができる。
第2ステージ(「ステージ2」と示される)では、各入力又はソースHDR画像(例えば、HDR YUV画像など)がダウンサンプリングされ、ここで説明するビットレートラダーによってサポートされる様々な空間解像度の複数の(例えばM、Mは1より大きい整数である、など)ダウンサンプリングされたHDR画像が取得される。これらの空間解像度は、Res1(例えば、720pなど)、Res2(例えば、432pなど)、ResMと示される。
異なる空間解像度のこれらのダウンサンプリングされたHDR画像は、第2ステージで、第1ステージで生成された順方向バイナリファイル内の輝度及び色度の順方向マッピングデータ及び/又は画像メタデータ(「rpu」)を使用して、異なる空間解像度の各々の出力ビットストリーム部分又は各々の出力ビデオセグメントへと処理される。同じRPU及び順方向バイナリファイルを第2ステージで異なる解像度のために使用できる。幾つかの運用シナリオでは、同じRPU及び順方向バイナリファイルが与えられると、複数のスレッド及び/又は複数のプロセスを使用して、出力ビットストリーム部分又は出力ビデオセグメントを並列及び/又は独立して生成することができる。
幾つかの運用シナリオでは、これらの出力ビットストリーム部分又は出力ビデオセグメントは、他のクラスタノード(例えば、他のクラウドに基づく仮想コンピュータなど)によって生成された他の出力ビットストリーム部分又は出力ビデオセグメントと組み合わせて、(例えば、クラウドに基づく)コンピュータクラスタの中央クラスタノードで、複数の全体的なビットストリーム又はビデオセグメントの複数のシーケンスにすることができる。
線形符号化モードが使用される運用シナリオでは、組み合わせられた複数の全体的なビットストリームの各々は、コンピュータクラスタによってサポートされるビットレートラダー内の各々の空間解像度及び/又は各々のビットレートの連続した出力SDR又はBL画像のシーケンスを含み、各々の空間解像度及び/又は各々のビットレートでメディアプログラム又はビデオクリップの完全なバージョンを表すことができる。
セグメント符号化モードが使用される運用シナリオでは、ビデオセグメントの組み合わせられた複数のシーケンスの各々は、コンピュータクラスタによってサポートされるビットレートラダー内の各々の空間解像度及び/又は各々のビットレートの複数の連続した出力SDR又はBL画像を各々含む連続ビデオセグメントのシーケンスを含み、各々の空間解像度及び/又は各々のビットレートでメディアプログラム又はビデオクリップの完全なバージョンを表すことができる。
最適なフィルムグレイン設定
前述のように、フィルムグレインノイズ注入のようなノイズ注入は、単一ステージの結合処理パイプライン/アーキテクチャ、又は2段処理パイプライン/アーキテクチャの第2ステージで実行できる。ここに記載されているノイズ注入のための動作パラメータは、異なる空間解像度及び/又はビットレートの1つ以上の設定又は組み合わせに対して具体的に設定することができる。
フィルムグレインノイズは、空間周波数領域の2次元(2D)ランダムフィールドを使用して構成できる。ωG×ωGフィルムグレインノイズパッチG(m,n)は以下のようにレンダリングできる:
Figure 0007434664000042
ここでQ(x,y)はωG×ωG DCT係数を表し、ここでωGは正の整数であり、pはフィルムグレインノイズのノイズ標準偏差を表し、iDCT()は逆DCT演算又は演算子を表す。
幾つかの運用シナリオでは、ノイズパッチのωG×ωG DCT係数のQ(x,y)(x又はyの少なくとも1つを持つ係数が0以外である)のAC係数のサブセットを、平均0、標準偏差1(又はp=1)のガウス乱数に設定することができる。ノイズパッチのωG×ωG DCT係数の他のすべての係数(xとyの両方が0に等しいDC係数を含む)は0に設定される。
G(m,n)で表される複数の空間周波数の周波数帯のサブセットがDCT領域で0以外のAC係数を持つ場合、DCT領域のG(m,n)に対応するピクセル領域のノイズパッチはフィルムグレインノイズとして現れる。低い周波数帯が0以外のAC係数で分布するほど、フィルムグレインのサイズは大きくなる。DCTサイズ(ωG×ωG)は、利用可能な最大のフィルムグレインサイズを制御する。
ノイズ注入動作の例は、フィルムゲインノイズ注入を含むが、これに限定されない。例えば、PCT出願番号第PCT/US2019/054299号、「Reducing Banding Artifacts in Backward-Compatible HDR Imaging」、Qing Song他、2019年10月2日出願、国際公開番号第WO2020/072651号、及び、米国特許仮出願番号第62/950,466号、「Noise synthesis for digital images」、H. Kadu他、2019年12月19日出願があり、これらの内容の全体は、参照により、ここに完全に記載されているかのようにここに組み込まれる。
DCTサイズ(ωG×ωG)、ゼロ以外のAC係数を持つ周波数帯域などの1つ以上のフィルムグレインパラメータは、システムにより及び/又は指定されたユーザによって設定できる。
例えば、fsとfeを2D方向(水平及び垂直)の各方向の開始周波数と終了周波数とする。これらの周波数は、fs≦f≦feのように、0でない空間周波数fを制御又は区切るために使用できる。フィルムノイズ注入の動作パラメータである開始周波数と終了周波数は、画像の空間解像度及び/又は(符号化すされるべき)ビットレートに応じて調整できる。幾つかの動作シナリオでは、すべての異なる画像空間解像度の中で、又はそれらにわたって、画像/フレーム寸法に対するフィルムグレインサイズの比は、例えば10%、20%、30%、又は別のパーセンタイルのエラー許容値で、略又はほぼ同じに保たれる場合がある。したがって、これらの動作シナリオでは、より小さな空間解像度に対して、より小さなフィルムグレインが使用される場合がある。
空間解像度及び/又はビットレートの複数の設定又は組み合わせの中の、空間解像度及び/又はビットレートの各々の設定又は組み合わせに専用に、フィルムグレインノイズ注入の最適なフィルムグレイン設定を個別に設定できる。
図3Dは、16x16の周波数領域パターン又はブロックの例を示している。周波数位置のサブセットの文字「n」は、サブセット内の周波数位置がノルム又はガウス乱数に設定されていることを意味する。周波数位置のサブセット外の、文字「n」を有しないその他の周波数位置は、0に設定される。
周波数位置のサブセット内のノルム又はガウス乱数を持つ16x16の周波数領域パターン又はブロックは、逆DCT変換(IDCT)を適用し、ピクセル領域で対応するフィルムグレインパッチを生成できる。これを繰り返して、複数のフィルムグレインパッチを生成することができる。重なっていない複数のフィルムグレインノイズパッチをステッチすることで、単位標準偏差を持つ特定の空間解像度のフィルムグレインノイズ画像を生成できる。
空間解像度及び/又はビットレートの第1及び第2設定又は組み合わせの16ビットHDRビデオ信号の場合、最小及び最大ノイズ強度は次のように設定できる:[ψminmax]=[500,1000].16ビットHDRビデオ信号には、0~65535のHDRコードワード範囲があるため、HDR入力又はソース画像のピクセルへのHDR輝度(又はルマ)コードワードへのノイズの追加又は注入は、最小及び最大ノイズ強度が[500,1000]の範囲内になるよう設定できる。
別の例では、ビットレート1Mbpsで画像空間解像度768x432とフレームレート24fpsの第3設定又は組み合わせ、及び、ビットレート0.5Mbpsで画像空間解像度480x360とフレームレート24fpsの第4の設定又は組み合わせでは、フィルムグレインノイズを追加すると、圧縮性能が悪化する可能性がある。これは主に、これらの設定で画像にノイズが注入されると、標準的な8ビットAVC圧縮器などのコーデックでは画像を効率的に表現することが困難になる可能性があるためである。したがって、上記の表4に示すように、第3及び第4の設定又は組み合わせのこれらの解像度/ビットレートを持つ画像は、運用シナリオによってはノイズが注入されない場合がある。
<例示的な処理フロー>
図4Bは、実施形態による例示的な処理フローを示す。幾つかの実施形態では、1つ以上のコンピューティング装置又はコンポーネント(例えば、符号化装置/モジュール、トランスコーディング装置/モジュール、復号装置/モジュール、逆トーンマッピング装置/モジュール、トーンマッピング装置/モジュール、メディア装置/モジュール、逆マッピング生成及び適用システム等)は、この処理フローを実行してよい。ブロック422で、画像処理システムが、順方向リシェーピングマッピングを生成して、第1ダイナミックレンジのソース画像を、第1ダイナミックレンジより低い第2ダイナミックレンジの対応する順方向リシェーピング画像にマッピングする。
ブロック424で、画像処理システムが、第1ダイナミックレンジの第1空間解像度の画像にノイズを注入し、第1ダイナミックレンジの第1空間解像度のノイズ注入画像を生成する。第1ダイナミックレンジの第1空間解像度の画像は、第1ダイナミックレンジのソース画像を空間的にダウンサンプリングして生成される。
ブロック426で、画像処理システムが、順方向リシェーピングマッピングを適用して、第1ダイナミックレンジの第1空間解像度のノイズ注入画像をマッピングし、第2ダイナミックレンジの第1空間解像度のノイズ埋め込み画像を生成する。
ブロック428で、画像処理システムが、受信側装置へ、第2ダイナミックレンジの第1空間解像度のノイズ埋め込み画像で符号化されたビデオ信号を配信し、受信側装置はノイズ埋め込み画像から生成された表示画像をレンダリングする。
実施形態では、ビデオ信号は単一レイヤの後方互換性信号を表す。
実施形態では、第1ダイナミックレンジが高ダイナミックレンジであり、第2ダイナミックレンジが標準ダイナミックレンジである。
実施形態では、ビデオ信号は、逆方向リシェーピングマッピングを含む画像メタデータと共に受信側装置へ配信され、
表示画像は、第2ダイナミックレンジの第1空間解像度のノイズ埋め込み画像に逆方向リシェーピングマッピングを適用することで生成された第1ダイナミックレンジの逆方向リシェーピング画像を表す。
実施形態では、ノイズがフィルムグレインノイズ又は非フィルムグレインノイズのうちのいずれかである。
実施形態では、ノイズが、順方向リシェーピングマッピングで計算された輝度依存ノイズ強度を持つ第1ダイナミックレンジの、第1空間解像度の画像に注入される。
実施形態では、ノイズが、第1空間解像度又は受信側装置へのビデオ信号の配信に使用されるターゲットビットレートのうちの1つ以上に基づいて設定される1つ以上の動作パラメータと共に注入される、など。
実施形態では、ビデオ信号が、第2ダイナミックレンジの第2空間解像度の連続したノイズ埋め込み画像のシーケンスで符号化されたコーディングビットストリーム、各々が第2ダイナミックレンジの第2空間解像度の連続したノイズ埋め込み画像のサブシーケンスを含む連続したビデオセグメントのシーケンス、等のうちのいずれかである。
実施形態では、画像処理システムは、第1ダイナミックレンジの第2空間解像度の第2画像に第2ノイズを注入して、第1ダイナミックレンジの第2空間解像度の第2ノイズ注入画像を生成し、第1ダイナミックレンジの第2空間解像度の第2画像は、第1ダイナミックレンジのソース画像を空間的にダウンサンプリングすることで生成され、
同じ順方向リシェーピングマッピングを適用して、第1ダイナミックレンジの第2空間解像度の第2ノイズ注入画像をマッピングし、第2ダイナミックレンジの第2空間解像度の第2ノイズ埋め込み画像を生成し、
第2受信側装置が第2ノイズ埋め込み画像から生成された第2表示画像をレンダリングするために、第2受信側装置に、第2ダイナミックレンジの第2空間解像度の第2ノイズ埋め込み画像で符号化された第2ビデオ信号を配信するよう構成される。
実施形態では、クラウドに基づくメディアコンテンツシステムによってサポートされるビットレートラダー内の空間解像度及びビットレートの複数の異なる組み合わせにおいて、空間解像度及びビットレートの異なる組み合わせに対してビデオ信号及び第2ビデオ信号を生成する。
実施形態では、第1ダイナミックレンジのソース画像が入力ビデオ信号で提供され、
複数の入力ビデオセグメントが入力ビデオ信号から生成され、
複数の入力ビデオセグメント内の各入力ビデオセグメントが、クラウドに基づくコンピュータクラスタ内の複数のクラスタノード内の各々のクラスタノードに割り当てられ、
各々のクラスタノードは、入力ビデオセグメントを、空間解像度とビットレートの異なる組み合わせの複数のコーディングビットストリーム部分、空間解像度とビットレートの異なる組み合わせの複数の出力ビデオセグメント、等のうちの1つに処理する。
図4Cは、実施形態による例示的な処理フローを示す。幾つかの実施形態では、1つ以上のコンピューティング装置又はコンポーネント(例えば、符号化装置/モジュール、トランスコーディング装置/モジュール、復号装置/モジュール、逆トーンマッピング装置/モジュール、トーンマッピング装置/モジュール、メディア装置/モジュール、逆マッピング生成及び適用システム等)は、この処理フローを実行してよい。ブロック442では、画像処理システムは、上流エンコーダによって生成され、第2ダイナミックレンジの第1空間解像度のノイズ埋め込み画像で符号化されたビデオ信号を受信し、第2ダイナミックレンジは第1ダイナミックレンジよりも低い。
第2ダイナミックレンジの第1空間解像度のノイズ埋め込み画像は、第1ダイナミックレンジの第1空間解像度のノイズ注入画像に順方向リシェーピングマッピングを適用するアップストリームエンコーダによって生成されたものである。
第1ダイナミックレンジの第1空間解像度のノイズ注入画像は、第1ダイナミックレンジの第1空間解像度の画像にノイズを注入する上流エンコーダによって生成されている。第1ダイナミックレンジの第1空間解像度の画像は、第1ダイナミックレンジのソース画像を空間的にダウンサンプリングすることによって生成される。
ブロック444で、画像処理システムは、第2ダイナミックレンジの第1空間解像度のノイズ埋め込み画像から表示画像を生成する。
ブロック446で、画像処理システムは、画像ディスプレイ上で表示画像をレンダリングする。
実施形態では、ビデオ信号は、逆方向リシェーピングマッピングを含む画像メタデータと共に受信され、
表示画像は、第1ダイナミックレンジの第1空間解像度のノイズ注入画像を表し、
画像処理システムは、更に、第2ダイナミックレンジの第1空間解像度のノイズ埋め込み画像に逆方向リシェーピングマッピングを適用して、表示画像を生成するよう構成される。
一実施形態では、ディスプレイ装置、モバイル装置、セットトップボックス、マルチメディア装置、等のようなコンピューティング装置は、前述の方法のうちのいずれかを実行するよう構成される。一実施形態では、機器は、プロセッサを含み、前述の方法のうちのいずれかを実行するよう構成される。一実施形態では、非一時的コンピュータ可読記憶媒体は、1つ以上のプロセッサにより実行されると、前述の方法のうちのいずれかの実行を生じるソフトウェア命令を格納している。
一実施形態では、コンピューティング装置は、1つ以上のプロセッサと1つ以上の記憶媒体とを含み、該記憶媒体は、1つ以上のプロセッサにより実行されると、前述の方法のうちの何れかの実行を生じる命令のセットを格納している。
別個の実施形態が本願明細書に記載されたが、本願明細書で議論した実施形態及び/又は部分的実施形態の任意の組み合わせは、更なる実施形態を形成するために結合されてよい。
<例示的なコンピュータシステムの実装>
本発明の実施形態は、コンピュータシステム、電子回路及びコンポーネント内に構成されるシステム、マイクロコントローラのような集積回路(IC)装置、FPGA(field programmable gate array)、又は別の構成可能な又はプログラム可能な論理装置(PLD)、個別時間又はデジタル信号プロセッサ(DSP)、特定用途向けIC(ASIC)、及び/又はこのようなシステム、装置、又はコンポーネントのうちの1つ以上を含む機器により実装されてよい。コンピュータ及び/又はICは、本願明細書に記載したような拡張ダイナミックレンジを有する画像の適応型知覚量子化に関連する命令を実行し、制御し、又は実行してよい。コンピュータ及び/又はICは、本願明細書に記載した適応型知覚量子化処理に関連する種々のパラメータ又は値のうちのいずれかを計算してよい。画像及びビデオの実施形態は、ハードウェア、ソフトウェア、ファームウェア、及びそれらの種々の組み合わせで実施されてよい。
本発明の特定の実装は、プロセッサに本発明の方法を実行させるソフトウェア命令を実行するコンピュータプロセッサを含む。例えば、ディスプレイ、エンコーダ、セットトップボックス、トランスコーダ、等の中の1つ以上のプロセッサは、プロセッサのアクセス可能なプログラムメモリ内のソフトウェア命令を実行することにより、上述のHDR画像の適応型知覚量子化に関連する方法を実施してよい。本発明bの実施形態は、プログラムプロダクトの形式で提供されてもよい。プログラムプロダクトは、データプロセッサにより実行されるとデータプロセッサに本発明の実施形態の方法を実行させる命令を含むコンピュータ可読信号のセットを運ぶ任意の非一時的媒体を含んでよい。本発明の実施形態によるプログラムプロダクトは、種々の形式のうちの任意のものであってよい。プログラムプロダクトは、例えば、フロッピーディスクを含む磁気データ記憶媒体、ハードディスクドライブ、CDROM、DVDを含む光学データ記憶媒体、ROM、フラッシュRAMを含む電子データ記憶媒体、等のような物理媒体を含んでよい。プログラムプロダクト上のコンピュータ可読信号は、光学的に圧縮又は暗号化されてよい。
コンポーネント(例えば、ソフトウェアモジュール、プロセッサ、部品、装置、回路、等)が以上で言及されたが、特に断りのない限り、それらのコンポーネントの言及(「手段」の言及を含む)は、それらのコンポーネントの均等物、記載したコンポーネントの機能を実行する(例えば、機能的に均等な)任意のコンポーネント、本発明の図示の例示的な実施形態における機能を実行する開示の構造と構造的に等しくないコンポーネントを含むと解釈されるべきである。
一実施形態によると、本願明細書に記載の木j通は、1つ以上の専用コンピューティング装置により実装される。専用コンピューティング装置は、技術を実行するためにハード結線されてよく、又は技術を実行するために永久的にプログラムされた1つ以上の特定用途向け集積回路(ASIC)又はフィールドプログラマブルゲートアレイ(FPGA)のようなデジタル電子装置を含んでよく、又はファームウェア、メモリ、他の記憶装置又はそれらの組み合わせの中のプログラム命令に従い技術を実行するためにプログラムされた1つ以上の汎用ハードウェアプロセッサを含んでよい。このような専用コンピューティング装置は、技術を達成するために、カスタムハードワイヤドロジック、ASIC、又はFPGAをカスタムプログラミングと結合してもよい。専用コンピューティング装置は、デスクトップコンピュータシステム、ポータブルコンピュータシステム、ハンドヘルド装置、ネットワーク装置、又は技術を実装するためにハードワイヤ-ド及び/又はプログラムロジックを組み込む任意の他の装置であってよい。
例えば、図5は、本発明の一実施形態が実装され得るコンピュータシステム500を示すブロック図である。コンピュータシステム500は、情報を通信するためのバス502又は他の通信メカニズム、及び情報を処理するためにバス502に結合されたハードウェアプロセッサ504を含む。ハードウェアプロセッサ504は、例えば、汎用マイクロプロセッサであってよい。
コンピュータシステム500は、バス502に結合され、プロセッサ504により実行されるべき情報及び命令を格納するRAM(random access memory)又は他の動的記憶装置のようなメインメモリ506も含む。メインメモリ506は、プロセッサ504により実行されるべき命令の実行中に、時間変数又は他の中間情報を格納するためにも使用されてよい。このような命令は、プロセッサ504によりアクセス可能な非一時的記憶媒体に格納されるとき、コンピュータシステム500を、命令で指定された動作を実行するようカスタマイズされた専用マシンにする。
コンピュータシステム500は、バス502に結合され、プロセッサ504のための静的情報及び命令を格納する、読み出し専用メモリ(ROM)508又は他の静的記憶装置を更に含む。情報及び命令を格納するために、磁気ディスク又は光ディスクのような記憶装置510が設けられ、バス502に結合される。
コンピュータシステム500は、バス502を介して、コンピュータユーザに情報を表示する液晶ディスプレイのようなディスプレイ512に結合されてよい。英数字及び他のキーを含む入力装置514は、プロセッサ504に情報及びコマンド選択を通信するために、バス502に結合される。別の種類のユーザ入力装置は、プロセッサ504に方向情報及びコマンド選択を通信するための、及びディスプレイ512上のカーソルの動きを制御するための、マウス、トラックボール、又はカーソル方向キーのようなカーソル制御516である。この入力装置は、標準的に、第1軸(例えばx)及び第2軸(例えばy)の2軸の2つの自由度を有し、装置が平面内で位置を指定することを可能にする。
コンピュータシステム500は、コンピュータシステムと結合してコンピュータシステム500を専用マシンにする又はプログラムする、カスタマイズされたハードワイヤドロジック、1つ以上のASIC又はFPGA、ファームウェア及び/又はプログラムロジックを用いて、本願明細書に記載の技術を実装してよい。一実施形態によると、本願明細書に記載の技術は、プロセッサ504がメインメモリ506に含まれる1つ以上の命令の1つ以上のシーケンスを実行することに応答して、コンピュータシステム500により実行される。このような命令は、記憶装置510のような別の記憶媒体からメインメモリ506に読み込まれてよい。メインメモリ506に含まれる命令のシーケンスの実行は、プロセッサ504に本願明細書に記載の処理ステップを実行させる。代替の実施形態では、ハード結線回路が、ソフトウェア命令の代わりに又はそれと組合せて使用されてよい。
用語「記憶媒体」は、本願明細書で使用されるとき、機械を特定の方式で動作させるデータ及び/又は命令を格納する任意の非一時的媒体を表す。そのような記憶媒体は、不揮発性媒体及び/又は揮発性媒体を含んでよい。不揮発性媒体は、例えば、記憶装置510のような光学又は磁気ディスクを含む。揮発性媒体は、メインメモリ506のような動的メモリを含む。記憶媒体の一般的形式は、例えば、フロッピーディスク、フレキシブルディスク、ハードディスク、固体ドライブ、磁気テープ、又は任意の他の磁気データ記憶媒体、CD-ROM、任意の他の光学データ記憶媒体、ホールのパターンを有する任意の物理媒体、RAM、PROM、EPROM、FLASH(登録商標)-EPROM、NVRAM、任意の他のメモリチップ又はカートリッジを含む。
記憶媒体は、伝送媒体と異なるが、それと関連して使用されてよい。伝送媒体は、記憶媒体の間で情報を転送する際に関連する。例えば、伝送媒体は、バス502を含むワイヤを含む、同軸ケーブル、銅線、光ファイバを含む。伝送媒体は、無線波及び赤外線データ通信の間に生成されるような、音響又は光波の形式も取りうる。
種々の形式の媒体は、実行のためにプロセッサ504に1つ以上の命令の1つ以上のシーケンスを運ぶ際に関連してよい。例えば、命令は、最初に、リモートコンピュータの磁気ディスク又は固体ドライブにより運ばれてよい。リモートコンピュータは、その動的メモリに命令をロードし、該命令をモデムを用いて電話線を介して送信できる。コンピュータシステム500のローカルにあるモデムは、電話線でデータを受信し、赤外線送信機を用いてデータを赤外線信号に変換できる。赤外線検出器は、赤外線信号の中で運ばれたデータを受信し、適切な回路が該データをバス502に配置できる。バス502は、データをメインメモリ506に運び、そこからプロセッサ504が命令を読み出し実行する。メインメモリ506により受信された命令は、任意で、プロセッサ504による実行の前又は後に記憶装置510に格納されてよい。
コンピュータシステム500は、バス502に結合された通信インタフェース518も含む。通信インタフェース518は、ローカルネットワーク522に接続されるネットワークリンク520との2方向データ通信結合を提供する。例えば、通信インタフェース518は、ISDN(integrated services digital network)カード、ケーブルモデム、衛星モデム、又は対応する種類の電話線にデータ通信接続を提供するモデムであってよい。別の例として、通信インタフェース518は、互換LANにデータ通信接続を提供するLAN(local area network)カードであってよい。無線リンクも実装されてよい。任意のこのような実装では、通信インタフェース518は、種々の種類の情報を表すデジタルデータストリームを運ぶ電気、電磁気、又は光信号を送受信する。
ネットワークリンク520は、標準的に、1つ以上のネットワークを通じて他のデータ装置にデータ通信を提供する。例えば、ネットワークリンク520は、ローカルネットワーク522を通じてホストコンピュータ524に又はISP(Internet Service Provider)526により運用されるデータ機器に接続を提供してよい。ISP526は、また、現在一般に「インターネット」528と呼ばれるワールドワイドパケットデータ通信ネットワークを通じて、データ通信サービスを提供する。ローカルネットワーク522及びインターネット528は、デジタルデータストリームを運ぶ電気、電磁気、又は光信号の両方を使用する。コンピュータシステム500へ及びそれからのデジタルデータを運ぶ種々のネットワークを通じる信号及びネットワークリンク520上の信号及び通信インタフェース518を通じる信号は、伝送媒体の例示的な形式である。
コンピュータシステム500は、ネットワーク、ネットワークリンク520、及び通信インタフェース518を通じて、プログラムコードを含むメッセージを送信しデータを受信できる。インターネットでは、例えば、サーバ530は、インターネット528、ISP526、ローカルネットワーク522、及び通信インタフェース518を通じて、適切なプログラムのための要求されたコードを送信してよい。
受信したコードは、プロセッサ504により受信されるとプロセッサ504により実行され、及び/又は後の実行のために記憶装置510若しくは他の不揮発性記憶装置に格納される。
<均等物、拡張機能、代替案、等(Equivalents, Extensions, Alternatives and Miscellaneous)>
以上の明細書において、本発明の実施形態は、実装毎に変化し得る多数の特定の詳細を参照して説明された。従って、本発明の実施形態の請求の範囲の単独及び排他的な指示、及び出願人が本発明の権利化される実施形態であることを意図するものは、本願により、いかなる後の補正を含む、特定の形式で発行される請求の範囲に記載される。このような請求の範囲に含まれる用語について本願明細書に明示的に記載された任意の定義は、請求の範囲において使用されるこのような用語の意味を支配するべきである。従って、請求の範囲に明示的に記載されないいかなる限定、要素、特徴、利点、又は属性は、いかなる方法でも、請求の範囲の範囲を限定すべきではない。明細書及び図面は、従って、限定的意味では無く、説明であると考えられるべきである。

Claims (15)

  1. 画像をビデオ信号に符号化する方法であって、
    第1ステージで以下:
    第1ダイナミックレンジのソース画像を、前記第1ダイナミックレンジより低い第2ダイナミックレンジの対応する順方向リシェーピング画像にマッピングする順方向リシェーピングマッピングを生成するステップ、を実行することと、
    第2ステージで以下:
    前記第1ダイナミックレンジの前記ソース画像を空間的にダウンサンプリングすることにより、前記第1ダイナミックレンジの第1空間解像度の画像を生成するステップと、
    前記順方向リシェーピングマッピングを使用して、輝度依存ノイズ強度を計算するステップと、
    前記第1ダイナミックレンジの前記第1空間解像度の画像に前記輝度依存ノイズ強度を有するノイズを注入して、前記第1ダイナミックレンジの前記第1空間解像度のノイズ注入画像を生成するステップ
    前記順方向リシェーピングマッピングを適用して、前記第1ダイナミックレンジの前記第1空間解像度の前記ノイズ注入画像をマッピングし、前記第2ダイナミックレンジの前記第1空間解像度のノイズ埋め込み画像を生成するステップと、
    前記第2ダイナミックレンジの前記第1空間解像度の前記ノイズ埋め込み画像ビデオ信号に符号化するステップと、
    を実行することと、
    を含む方法。
  2. 前記順方向リシェーピングマッピングを使用して、輝度依存ノイズ強度を計算するステップは、
    前記第1ダイナミックレンジを多数のビンにパーティションするステップと、
    前記順方向リシェーピングマッピングから各々のビンごとのコードワード増分を決定するステップと、
    最大のビンごとのコードワード増分を使用して、前記ビンごとのコードワード増分を正規化するステップと、
    前記ビンごとのコードワード増分に従いノイズ強度を割り当てるステップと、
    を含む、請求項1に記載の方法。
  3. 前記第1ステージで、以下:
    順方向バイナリファイルを生成するステップであって、前記順方向バイナリファイルは、前記順方向リシェーピングマッピングを指定する動作パラメータ又は係数を含む、ステップと、
    前記順方向バイナリファイルを前記第2ステージに渡すステップと、
    を実行することと、
    前記第2ステージで、以下:
    前記第1ステージから前記順方向バイナリファイルを受け取るステップと、
    前記順方向バイナリファイルを用いて、前記輝度依存ノイズ強度を決定するステップと、
    を実行することと、
    を更に含む請求項1又は2に記載の方法。
  4. 前記ビデオ信号は、単一レイヤの後方互換性のある信号を表す、請求項1~3のいずれに記載の方法。
  5. 前記第1ダイナミックレンジが高ダイナミックレンジであり、前記第2ダイナミックレンジが標準ダイナミックレンジである、請求項1~のいずれかに記載の方法。
  6. 受信側装置へ逆方向リシェーピングマッピングを含む画像メタデータと共に前記ビデオ信号を配信するステップと
    前記受信側装置により、前記ビデオ信号から、前記第2ダイナミックレンジの前記第1空間解像度の前記ノイズ埋め込み画像を復号するステップと、
    前記受信側装置により、前記第2ダイナミックレンジの前記第1空間解像度の前記ノイズ埋め込み画像に前記逆方向リシェーピングマッピングを適用して、前記第1ダイナミックレンジの逆方向リシェーピング画像を生成するステップと、
    前記受信側装置により、前記第1ダイナミックレンジの前記逆方向リシェーピング画像を表す表示画像をレンダリングするステップと
    を更に含む請求項1~のいずれかに記載の方法。
  7. 前記ノイズがフィルムグレインノイズ又は非フィルムグレインノイズのうちの1つである、請求項1~のいずれかに記載の方法。
  8. 前記ノイズが、前記第1空間解像度又はーゲットビットレートのうちの1つ以上に基づいて設定される1つ以上の動作パラメータと共に注入される、請求項1~7のいずれかに記載の方法。
  9. 前記ビデオ信号が、前記第2ダイナミックレンジの前記空間解像度の連続したノイズ埋め込み画像のシーケンスで符号化されたコーディングビットストリーム、又は、各々が前記第2ダイナミックレンジの前記第空間解像度の連続したノイズ埋め込み画像のサブシーケンスを含む連続したビデオセグメントのシーケンスのうちの1つを含む、請求項1~8のいずれかに記載の方法。
  10. 前記第2ステージで、
    前記第1ダイナミックレンジの前記ソース画像を空間的にダウンサンプリングすることにより、前記第1ダイナミックレンジの第2空間解像度の画像を生成するステップと、
    前記順方向リシェーピングマッピングにより、輝度依存ノイズ強度を計算するステップと、
    前記第1ダイナミックレンジの前記第2空間解像度の前記画像に前記輝度依存ノイズ強度を有するノイズを注入して、前記第1ダイナミックレンジの前記第2空間解像度のノイズ埋め込み画像を生成するステップ
    順方向リシェーピングマッピングを適用して、前記第1ダイナミックレンジの前記第2空間解像度の前記ノイズ注入画像をマッピングし、前記第2ダイナミックレンジの前記第2空間解像度のイズ埋め込み画像を生成するステップと、
    前記第2ダイナミックレンジの前記第2空間解像度の前記イズ埋め込み画像第2ビデオ信号に埋め込むステップと、
    を実行することを更に含む請求項1~9のいずれかに記載の方法。
  11. クラウドに基づくメディアコンテンツシステムによってサポートされるビットレートラダー内の複数の異なる空間解像度及び/又はビットレートおいて、複数の異なる空間解像度及び/又はビットレート対して前記ビデオ信号及第2ビデオ信号を生成する、請求項1~10のいずれかに記載の方法。
  12. 前記第1ダイナミックレンジの前記ソース画像が入力ビデオ信号で提供され、
    複数の入力ビデオセグメントが前記入力ビデオ信号から生成され、
    前記複数の入力ビデオセグメント内の各入力ビデオセグメントが、クラウドに基づくコンピュータクラスタ内の複数のクラスタノード内の各々のクラスタノードに割り当てられ、
    各々のクラスタノードは、前記入力ビデオセグメントを、異なる空間解像度及び/又はビットレート複数のコーディングビットストリーム部分、又は異なる空間解像度及び/又はビットレートの複数の出力ビデオセグメント、のうちの1つに処理する、請求項1~11のいずれかに記載の方法。
  13. 画像をレンダリングする方法であって、
    受信側装置により、逆方向リシェーピングマッピングを含む画像メタデータにより請求項1~12のいずれかに記載の方法により生成されたビデオ信号を受信するステップ
    前記受信側装置により、前記ビデオ信号から、前記第2ダイナミックレンジの前記第1空間解像度の前記ノイズ埋め込み画像を復号するステップと、
    前記受信側装置により、前記第2ダイナミックレンジの前記第1空間解像度の前記ノイズ埋め込み画像に前記逆方向リシェーピングマッピングを適用して、前記第1ダイナミックレンジの逆方向リシェーピング画像を生成するステップと、
    前記受信側装置により、前記第1ダイナミックレンジの前記逆方向リシェーピング画像を表す表示画像をレンダリングするステップと、
    を含む方法。
  14. プロセッサを含み、請求項1~13に記載の方法のうちのいずれか1つを実行するよう構成される機器。
  15. 請求項1~13に記載の方法のうちのいずれかに従い1つ以上のプロセッサにより方法を実行するためのコンピュータ実行可能命令を格納している非一時的コンピュータ可読記憶媒体。
JP2023507940A 2020-08-06 2021-08-05 擬似輪郭低減による適応ストリーミング Active JP7434664B2 (ja)

Applications Claiming Priority (5)

Application Number Priority Date Filing Date Title
US202063061937P 2020-08-06 2020-08-06
EP20189859 2020-08-06
EP20189859.0 2020-08-06
US63/061,937 2020-08-06
PCT/US2021/044811 WO2022032010A1 (en) 2020-08-06 2021-08-05 Adaptive streaming with false contouring alleviation

Publications (2)

Publication Number Publication Date
JP2023540447A JP2023540447A (ja) 2023-09-25
JP7434664B2 true JP7434664B2 (ja) 2024-02-20

Family

ID=77431434

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2023507940A Active JP7434664B2 (ja) 2020-08-06 2021-08-05 擬似輪郭低減による適応ストリーミング

Country Status (5)

Country Link
US (1) US20230308667A1 (ja)
EP (1) EP4193592A1 (ja)
JP (1) JP7434664B2 (ja)
CN (1) CN116034394A (ja)
WO (1) WO2022032010A1 (ja)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110602566B (zh) * 2019-09-06 2021-10-01 Oppo广东移动通信有限公司 匹配方法、终端和可读存储介质

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2017015397A1 (en) 2015-07-22 2017-01-26 Dolby Laboratories Licensing Corporation Video coding and delivery with both spatial and dynamic range scalability
WO2017165494A2 (en) 2016-03-23 2017-09-28 Dolby Laboratories Licensing Corporation Encoding and decoding reversible production-quality single-layer video signals
WO2019036522A1 (en) 2017-08-15 2019-02-21 Dolby Laboratories Licensing Corporation EFFICIENT IMAGE PROCESSING IN BIT DEPTH
WO2020068666A1 (en) 2018-09-24 2020-04-02 Dolby Laboratories Licensing Corporation Image denoising in sdr to hdr image conversion
WO2020072651A1 (en) 2018-10-03 2020-04-09 Dolby Laboratories Licensing Corporation Reducing banding artifacts in backward-compatible hdr imaging
WO2021108719A1 (en) 2019-11-27 2021-06-03 Dolby Laboratories Licensing Corporation Rate-control-aware reshaping in hdr imaging

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10080026B2 (en) 2015-03-20 2018-09-18 Dolby Laboratories Licensing Corporation Signal reshaping approximation

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2017015397A1 (en) 2015-07-22 2017-01-26 Dolby Laboratories Licensing Corporation Video coding and delivery with both spatial and dynamic range scalability
WO2017165494A2 (en) 2016-03-23 2017-09-28 Dolby Laboratories Licensing Corporation Encoding and decoding reversible production-quality single-layer video signals
WO2019036522A1 (en) 2017-08-15 2019-02-21 Dolby Laboratories Licensing Corporation EFFICIENT IMAGE PROCESSING IN BIT DEPTH
WO2020068666A1 (en) 2018-09-24 2020-04-02 Dolby Laboratories Licensing Corporation Image denoising in sdr to hdr image conversion
WO2020072651A1 (en) 2018-10-03 2020-04-09 Dolby Laboratories Licensing Corporation Reducing banding artifacts in backward-compatible hdr imaging
WO2021108719A1 (en) 2019-11-27 2021-06-03 Dolby Laboratories Licensing Corporation Rate-control-aware reshaping in hdr imaging

Also Published As

Publication number Publication date
JP2023540447A (ja) 2023-09-25
US20230308667A1 (en) 2023-09-28
CN116034394A (zh) 2023-04-28
WO2022032010A1 (en) 2022-02-10
EP4193592A1 (en) 2023-06-14

Similar Documents

Publication Publication Date Title
CN109416832B (zh) 高效的基于直方图的亮度外观匹配
JP6609056B2 (ja) 高ダイナミックレンジおよび広色域シーケンスの再形成および符号化のためのシステム
US10264287B2 (en) Inverse luma/chroma mappings with histogram transfer and approximation
US10311558B2 (en) Efficient image processing on content-adaptive PQ signal domain
US9554132B2 (en) Video compression implementing resolution tradeoffs and optimization
JP2020171022A (ja) 高ダイナミックレンジおよび広色域シーケンスを符号化するシステム
CN107771392B (zh) 用于高动态范围图像的实时内容自适应感知量化器
EP3734588B1 (en) Color appearance preservation in video codecs
US10223774B2 (en) Single-pass and multi-pass-based polynomial approximations for reshaping functions
EP3834411B1 (en) Reducing banding artifacts in hdr imaging via adaptive sdr-to-hdr reshaping functions
US20210368212A1 (en) Reducing banding artifacts in backward-compatible hdr imaging
EP3685587B1 (en) Backward compatible display management metadata compression
JP7434664B2 (ja) 擬似輪郭低減による適応ストリーミング
JP7439251B2 (ja) ビデオコーデックにおける品質と計算の複雑さとの間の調整可能なトレードオフ
CN116508091A (zh) 使用后处理控制的视频解码
EP3306563B1 (en) Inverse luma/chroma mappings with histogram transfer and approximation
US20230039038A1 (en) Rate-control-aware reshaping in hdr imaging
JP2022542312A (ja) 電気-光伝達関数変換及び信号適法化
RU2813229C1 (ru) Вычисление динамических метаданных для редактирования hdr контента
JP2024505493A (ja) グローバルおよびローカル再整形を介した画像向上
KR20230017266A (ko) Hdr 콘텐츠를 편집하기 위한 동적 메타데이터를 계산하는 것

Legal Events

Date Code Title Description
A529 Written submission of copy of amendment under article 34 pct

Free format text: JAPANESE INTERMEDIATE CODE: A529

Effective date: 20230405

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20230405

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20240109

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20240207

R150 Certificate of patent or registration of utility model

Ref document number: 7434664

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150