JP2023533681A - オープン・ループ・コーデックにおけるhdr撮像に関する画像予測 - Google Patents

オープン・ループ・コーデックにおけるhdr撮像に関する画像予測 Download PDF

Info

Publication number
JP2023533681A
JP2023533681A JP2022579948A JP2022579948A JP2023533681A JP 2023533681 A JP2023533681 A JP 2023533681A JP 2022579948 A JP2022579948 A JP 2022579948A JP 2022579948 A JP2022579948 A JP 2022579948A JP 2023533681 A JP2023533681 A JP 2023533681A
Authority
JP
Japan
Prior art keywords
input image
data set
image
generating
input
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2022579948A
Other languages
English (en)
Other versions
JP7541129B2 (ja
Inventor
スゥ,グワン-ミーン
カドゥ,ハルシャッド
Original Assignee
ドルビー ラボラトリーズ ライセンシング コーポレイション
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by ドルビー ラボラトリーズ ライセンシング コーポレイション filed Critical ドルビー ラボラトリーズ ライセンシング コーポレイション
Publication of JP2023533681A publication Critical patent/JP2023533681A/ja
Application granted granted Critical
Publication of JP7541129B2 publication Critical patent/JP7541129B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/169Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding
    • H04N19/186Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding the unit being a colour or a chrominance component
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/85Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using pre-processing or post-processing specially adapted for video compression
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/102Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or selection affected or controlled by the adaptive coding
    • H04N19/117Filters, e.g. for pre-processing or post-processing
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/134Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or criterion affecting or controlling the adaptive coding
    • H04N19/136Incoming video signal characteristics or properties
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/134Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or criterion affecting or controlling the adaptive coding
    • H04N19/146Data rate or code amount at the encoder output
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/169Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding
    • H04N19/17Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding the unit being an image region, e.g. an object
    • H04N19/172Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding the unit being an image region, e.g. an object the region being a picture, frame or field
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/169Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding
    • H04N19/182Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding the unit being a pixel
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/50Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding
    • H04N19/597Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding specially adapted for multi-view video sequence encoding

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Compression Or Coding Systems Of Tv Signals (AREA)
  • Image Processing (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Abstract

同じシーンを表現する入力HDR及びSDR画像が与えられている場合に、HDR画像を、入力SDR画像の圧縮表現から予測する予測モデルは次のようにして生成される:a)HDR画像の特徴に少なくとも基づいてノイズ・データを生成し;b)ノイズ・データをSDR画像に加えることによって、ノイズのあるSDR画像を生成し;c)入力HDR及びSDR画像とノイズSDR画像とを利用することにより、HDR拡張データ・セットとSDR拡張データ・セットを生成し;d)SDR拡張データ・セットに基づいてHDR拡張データ・セットを予測する予測モデルを生成し;及びe)予測モデル・パラメータのセットを生成するために最小誤差基準に従って予測モデルの解を求めるようにして生成され、予測パラメータのセットは、入力HDR画像の近似を再構成するために、デコーダへ入力SDR画像の圧縮表現とともに伝送される。

Description

[0001] 関連出願の相互参照
本願は、欧州特許出願第20182014.9号及び米国仮出願第63/043,198号に対する優先権を主張しており、両出願は2020年6月24日付で出願されており、それぞれ本件に全体的に援用されている。
[0002] 技術分野
本発明は概して画像に関連する。より詳細には、本発明の実施形態は、オープン・ループ・コーデックにおける高ダイナミック・レンジ(high dynamic range,HDR)イメージングのための画像予測に関連する。
[0003] 本件で使用されているように、用語「ダイナミック・レンジ」(dynamic range,DR)は、例えば、最も暗いグレー(ブラック)から最も明るいホワイト(ハイライト)までのような、画像内の強度のレンジ(例えば、輝度、ルマ)を知覚する人間の視覚系(human visual system,HVS)の能力に関連している可能性がある。この意味で、DRは「シーン参照」(scene-referred)強度に関連している。また、DRは、特定の幅の強度レンジを適切に又は近似的にレンダリングするディスプレイ・デバイスの能力にも関連する可能性もある。この意味で、DRは「ディスプレイ参照」(display-referred)強度に関連している。本件の記載の何らかの箇所で、特定の意味を有するように特定の意味が明示的に指定されていない限り、この用語は、何れの意味にも、即ち可換に使用されてもよいことが推察されるべきである。
[0004] 本件で使用されるように、用語「高ダイナミック・レンジ(HDR)」は、人間の視覚系(HVS)の大きさの14~15桁に及ぶDR幅に関連する。実際には、人間が強度レンジにおいて幅広い範囲を同時に知覚できるDRは、HDRとの関係で幾らか打ち切られる可能性がある。
[0005] 実際には、画像は、1つ以上のカラー成分(例えば、ルマYとクロマCb及びCr)を含み、各カラー成分は、画素当たりのnビットの精度によって表される(例えば、n=8)。線形又はガンマ輝度コーディングを使用する場合、n≦8の画像(例えば、カラー24ビットJPEG画像)が標準ダイナミック・レンジの画像と考えられ、n>8の画像は強調された又は高いダイナミック・レンジの画像と考えられてもよい。HDR画像は、インダストリアル・ライト&マジック社により開発されたOpenEXRファイル・フォーマットのような高精度の(例えば、16ビット)浮動小数点フォーマットを使用して、保存及び配信されることも可能である。
[0006] 現在、ほとんどの消費者向けデスクトップ・ディスプレイは、200ないし300 cd/m2又はニット(nits)の輝度をサポートしている。ほとんどの消費者向けHDTVは、300ないし500 nitの範囲に及び、新たなモデルは1000 nits(cd/m2)に達している。このように、このような従来のディスプレイは、HDRに関連して、標準ダイナミック・レンジ(standard dynamic range,SDR)とも呼ばれる、より低いダイナミック・レンジを表している。キャプチャ装置(例えば、カメラ)及びHDRディスプレイ(例えば、ドルビー・ラボラトリーズからのPRM-4200プロフェッショナル・リファレンス・モニター)の双方の進歩に起因して、HDRコンテンツの利用可能性が増大するにつれて、HDRコンテンツは、より高いダイナミック・レンジ(例えば、1,000 nitsないし5,000 nits以上)をサポートするHDRディスプレイにおいて、カラー・グレーディングされて表示される可能性がある。
[0007] 本件で使用されるように、「リシェイピング(reshaping)」又は「リマッピング(remapping)」という用語は、デジタル画像の元のビット深度及び元のコードワードの分布又は表現(例えば、ガンマ、PQ、又はHLGなど)から、同じ又は異なるビット深度及び異なるコードワードの分布又は表現の画像への、サンプル_対_サンプルの又はコードワード_対_コードワードのマッピングのプロセスを意味する。リシェイピングは、固定されたビット・レートでの改善された圧縮性又は改善された画像品質を可能にする。例えば、限定ではないが、フォワード・リシェイピングを、10ビット又は12ビットのPQコーディングされたHDRビデオに適用して、10ビット・ビデオ・コーディング・アーキテクチャにおけるコーディング効率を改善してもよい。受信機において、受信信号を解凍した後(受信信号はリシェイプされていてもされていなくてもよい)、受信機は、その信号を元のコードワード分布に復元し、及び/又は、より高いダイナミック・レンジを達成するために、インバース(又は、バックワード)リシェイピング機能を適用することができる。
[0008] HDRコーディングにおいて、画像予測(又はリシェイピング)は、ベースライン標準ダイナミック・レンジ(SDR)画像と、バックワード・リシェイピング機能を表現する予測係数のセットとを用いて、HDR画像が再構成されることを可能にする。レガシー・デバイスは、単に、SDR画像を復号化するに過ぎないかもしれないが;HDRディスプレイは、バックワード・リシェイピング機能をSDR画像に適用することによって、HDR画像を再構成することが可能である。ビデオ・コーディングにおいて、このような画像予測は、後方互換性を維持しつつコーディング効率を改善するために使用されることが可能である。このようなシステムは、「クローズド・ループ(closed loop)」と呼ばれるものであるか(その場合、エンコーダは復号化経路を含み、予測係数は、元の及び復号化されたSDR及びHDRデータの両方に基づいて導出される)、又は、「オープン・ループ(open loop)」と呼ばれるものであってもよい(その場合、このような復号化ループは存在せず、予測係数は元のデータのペアのみに基づいて導出される)。本件の発明者らによって認識されているように、オープン・ループ・コーデックの効率的な画像予測のための改良された技術が望まれている。
[0009] このセクションで説明されるアプローチは、追求される可能性のあるアプローチであるが、必ずしも以前に考案されていたり又は追求されていたりするアプローチであるとは限らないはない。従って、別段の指定がない限り、本セクションに記載されている如何なるアプローチも、単に本セクションに含まれているという理由だけで先行技術としての適格であると仮定されるべきではない。同様に、1以上のアプローチに関して特定される事項は、別段の指定がない限り、本セクションに基づいて何らかの先行技術で認識されていると仮定すべきではない。
[0010] 本発明の実施形態は、添付図面における図面において、限定ではない例示として説明されており、図中、同様な参照番号は同様な要素を参照している。
[0011] 図1Aは、従来技術による画像予測を用いるHDRデータ用の例示的なシングル・レイヤ・デコーダを示す。 [0012] 図1Bは、従来技術による画像予測を用いる例示的なHDRオープン・ループ・エンコーダを示す。 [0013] 図1Cは、従来技術による画像予測を用いる例示的なHDRクローズド・ループ・エンコーダを示す。 [0014] 図1Dは、本発明の実施形態による画像予測を用いる例示的なHDRオープン・ループ・エンコーダを示す。 [0015] 図2は、本発明の実施形態による拡張データ予測器を設計するための例示的なプロセスを示す。 [0016] 図3は、本発明の実施形態による3DMTデータ表現を用いる拡張データ予測器を設計するための例示的なプロセスを示す。
[0017] オープン・ループ・コーデックにおける画像の効率的なコーディングのための画像予測技術が本件で説明される。以下の説明では、説明の目的で、本発明の十分な理解をもたらすように、多くの具体的な詳細が説明されている。しかしながら、本発明は、これらの具体的な詳細によらず実施されてもよいことは明らかであろう。他の例では、本発明を不必要に隠したり、不明瞭にしたり、又は曖昧にしたりしてしまうことを避けるために、周知の構造やデバイスは、審らかに詳細には説明されていない。
[0018] 概要
本件で説明される例示的な実施形態は、画像予測技術に関連する。実施形態では、1つ以上のプロセッサを含む装置において、プロセッサは、同一のシーンを表す高ダイナミック・レンジ(HDR)及び標準ダイナミック・レンジ(SDR)における入力されたペアの参照画像を受け取る。プロセッサは:
HDR画像の特徴に少なくとも基づいて、ノイズ強度を有するノイズ・データを生成し;
ノイズ・データをSDR画像に加えることによって、ノイズ入力データ・セットを生成し;
HDR画像に基づいて、第1の拡張入力データ・セットを生成し;
SDR画像とノイズ入力データ・セットとを結合して、第2の拡張入力データ・セットを生成し;
第2の拡張入力データ・セットに基づいて第1の拡張入力データ・セットを予測する予測モデルを生成し;
予測モデル・パラメータのセットを生成するために、最小誤差基準に従って予測モデルの解を求めるステップ;
第2の入力画像を圧縮して、圧縮されたビットストリームを生成し;及び
圧縮されたビットストリームと予測モデル・パラメータとを含む出力ビットストリームを生成する。
[0019] 例示的なHDRコーディング・システム
図1Aは、画像予測を使用する例示的なシングル・レイヤ・デコーダ・アーキテクチャを示しており、これは、下流のビデオ・デコーダにおける1つ以上の演算プロセッサで実装される可能性がある。図1Bは、例示的な「オープン・ループ」エンコーダ・アーキテクチャを示しており、これは、1つ以上の上流のビデオ・エンコーダにおける1つ以上の演算プロセッサで実装される可能性がある。図1Cは、例示的な「クローズド・ループ」エンコーダ・アーキテクチャを示す。
[0020] このフレーム・ワークの下では、所与の参照HDRコンテンツ(120)の下で、対応するSDRコンテンツ(125)(即ち、HDRコンテンツと同じ画像を表現するが、カラー・グレーディングされており、標準ダイナミック・レンジで表現されているコンテンツ)が、上流の符号化デバイスによって、コーディングされたビデオ信号(144)のシングル・レイヤで符号化され且つ伝送されており、上流の符号化デバイスは、エンコーダ側のコーデック・アーキテクチャを実現する。SDRコンテンツ(144)は、ビデオ信号のシングル・レイヤにおいて、下流の復号化デバイスによって受信されて復号化される。また、予測メタデータ(例えば、バックワード・リシェイピング・パラメータ)(152)も、SDRコンテンツとともにビデオ信号において符号化されて伝送され、その結果、HDRディスプレイ・デバイスは、SDRコンテンツ(144)と受信したメタデータ(152)とに基づいてHDRコンテンツを再構成することが可能である。
[0021] 図1B及び図1Cにおいて、実施形態では、所与の入力HDRデータ(120)の下で、SDRデータ(125)は、トーン・マッピング、フォワード・リシェイピング、マニュアルによるもの(カラー・グレーディングの際におけるもの)又は当該技術分野で公知の技術の組み合わせにより、HDRデータから生成されることが可能である。別の実施形態では、所与の参照SDRデータ(125)の下で、HDRデータ(120)は、インバース・トーンマッピング、バックワード・リシェイピング、マニュアルによるもの(カラー・グレーディングの際におけるもの)、又は当技術分野で公知の技術の組み合わせにより、SDRデータから生成されることが可能である。圧縮ブロック140(例えば、AVC、HEVC、AV1などのような何らかの既知のビデオ・コーディング・アルゴリズムに従って実現されたエンコーダ)は、コーディングされたビットストリームのシングル・レイヤ144においてSDR画像(125)を圧縮/符号化する。
[0022] ユニット150によって生成されるようなメタデータ(152)は、ビデオ信号144の一部として、例えば補足的なエンハンスメント情報(supplemental enhancement information,SEI)メッセージングとして多重化されてもよい。従って、メタデータ(152)は、エンコーダ側で利用可能な強力な演算リソース及びオフライン符号化フロー(コンテンツ適応多重パス、ルック・アヘッド演算、インバース・ルマ・マッピング、インバース・クロマ・マッピング、CDFベースのヒストグラム近似、及び/又は転送などを含むが、これらに限定されない)を利用するために、エンコーダ側で生成又は予め生成されることが可能である。
[0023] 図1B及び図1Cのエンコーダ・アーキテクチャは、入力HDR画像(120)をビデオ信号のコーディングされた/圧縮されたHDR画像に直接的に符号化することを回避するために使用することが可能である:むしろ、ビデオ信号におけるメタデータ(152)を使用して、下流の復号化デバイスは、SDR画像(125)(ビデオ信号において符号化されているもの)を、参照HDR画像(120)と同一であるか又は近い/最適に近似している再構成されたHDR画像(167)に、再構成することを可能にすることができる。
[0024] 幾つかの実施態様において、図1Aに示されるように、圧縮されたSDR画像を有するビデオ・ビットストリーム(144)とエンコーダによって生成された予測パラメータを有するメタデータ(152)とは、コーデック・フレームワークのデコーダ側で入力として受信される。解凍ブロック160は、ビデオ信号のシングル・レイヤ(144における圧縮されたビデオ・データを、復号化されたSDR画像(162)に解凍/復号化/圧縮解除する。解凍160は、典型的には、圧縮の140の逆に対応する。復号化されたSDR画像(162)は、圧縮ブロック(140)及び解凍ブロック(160)における量子化誤差の影響を被ったSDR画像(125)と同じである可能性があり、これは、SDRディスプレイ・デバイスに対して最適化されることが可能である。復号化されたSDR画像(162)は、SDRディスプレイ・デバイスにおいてレンダリングされるべき出力SDRビデオ信号において(例えば、HDMI(登録商標)インターフェースを介して、ビデオ・リンク等を介して)出力されてもよい。
[0025] 更に、予測ブロック165(「コンポーザ(composer)」と言及される場合もある)は、入力ビットストリームからのメタデータ(152)を、解凍されたデータ(162)に適用して、再構成されたHDR画像(167)を生成する。幾つかの実施態様において、再構成された画像は、参照HDR画像(120)と同一であるか、又は近い/最適に近似している、制作時品質又は制作時品質に近いHDR画像を表す。再構成された画像(167)は、HDRディスプレイ・デバイスでレンダリングされることになる出力HDRビデオ信号において(例えば、HDMI(登録商標)インターフェースを介して、ビデオ・リンク等を介して)出力されてもよい。
[0026] 一部の実施形態では、HDR表示デバイスに特有の表示管理処理が、再構成された画像(167)に対して、HDR画像レンダリング処理の一部として実行されてもよく、HDR画像レンダリング処理は、バックワード・リシェイピングされた画像(167)をHDR表示デバイスにおいてレンダリングする。
[0027] 図1Bは、「オープン・ループ」符号化アーキテクチャを示し、ここで、メタデータ152は、入力HDR及びSDR画像のみを使用してユニット150によって生成される。図1Cは、追加の解凍ブロック(160)を含む「クローズド・ループ」符号化アーキテクチャを示す。クローズド・ループ設計は、追加のビデオ解凍ステップ160を使用しており、デコーダが行うことになる動作する方法を装っている。これは、予測パラメータを(例えば、ブロック150において)生成するために、データのよりいっそう遙かに正確な記述をもたらすが;それは、追加の復号化ステップを必要とする。これは、単一のビット・レート又はプロファイルでビットストリームを生成する場合には良好であるが、サーバーが、「ビット・レート・ラダー(bit-rate ladder)」と一般的に呼ばれる複数のビット・レートでストリームを生成する必要がある場合には、より演算負担が重くなってしまう。
従って、発明者等によって認められているように、オープン・ループ・アーキテクチャを改善して、クローズド・ループ・システムと同程度の又はより優れたパフォーマンスをもたらすが、演算の複雑性を低減することは有益なことである。
[0028] オープン・ループ・システムにおける改善された予測のためのシステム例
シングル・チャネル予測器
入力データ{xi}と観測される出力データ{yi (g)}のペアを考察し、ここで、i=0,1,...,P-1であり、出力は次のように生成される:
Figure 2023533681000002
ここで、f(g)は、パラメータak (g)を有する次数K(g)の「グランド・トゥルース」多項式モデルを示し、ni (g)は、一般性を失うことなく、ゼロ平均及び分散(σ(g))2を有する加法性白色ガウシアン・ノイズを示し、ni (g)~N(0,(σ(g))2)として示される。
Figure 2023533681000003
であるとし、これは、モデルにおける係数のベクトルを示し、また、
Figure 2023533681000004
であるとし、これは観測される出力データのベクトルを示す。
[0029] 伝統的なモデリングの下では、所与のP個のグランド・トゥルース・データのセットの下で {(xi,yi (g))}、次のように与えられる次数K(c)の新たな多項式モデルf(c)を用いて予測モデルを構築しようとする:
Figure 2023533681000005
ここで、多項式係数ak (c)のベクトルは次のように示される:
Figure 2023533681000006
次の所与の表現の下で、
Figure 2023533681000007
数式(4)は次のように表現することができる:
Figure 2023533681000008
[0030] 数式(7)の下で、観測されたデータと予測されたデータとの間の誤差を最小化するように、多項式係数の最適な集合を定義することができる:
Figure 2023533681000009
この場合において、最小平均二乗誤差(minimum mean square,MSE)最適化の下で、最適化の解は次のように与えられる:
Figure 2023533681000010
[0031] 数式(7)のモデルは、予測子が、元のxiデータにアクセスできる限り、良好に機能する。このシナリオを、クローズド・ループ・アーキテクチャに対する近似として考察する;この場合において、デコンポーザ160は、デコーダによって見られる場合に、SDRデータの非常に正確なコピーを提供する。しかしながら、そのようなデータが利用可能でない場合はどうだろうか? 実施形態では、利用可能なxiデータにおける不確実性(例えば、オープン・ループ・アーキテクチャの下にある場合)をより適切に考慮ため、より堅牢な予測器を構築するために、白色ガウシアン・ノイズ(e.g., ni (n)~N(0,(σ(n))2))を元の入力{xi|i=0,1,...,P-1}に加えることによって生成される、入力データの重複セット
Figure 2023533681000011
を生成して使用することを提案する。即ち、
Figure 2023533681000012
である。
[0032] 図1Dは、実施形態による提案される拡張データ予測モデルをサポートするオープン・ループ・アーキテクチャの一例を示す。図1Bと比較すると、図1Dのアーキテクチャは、ノイズを含むSDR及び/又はHDRデータを生成する新しいノイズ挿入モジュール(165)を含んでいる。次いで、オリジナルの及びノイズの多いSDR及びHDRデータを組み合わせて、拡張SDR及びHDRデータを形成し、これらはユニット170に供給されて、拡張データ予測モデルの予測パラメータの解を求める。拡張入力データ・セット(augmented input data set)は、入力画像とノイズ入力データ・セットの組み合わせを示すことが可能である。
[0033] 実施形態では、この新しい拡張されたデータ予測モデルの観測されたデータ
Figure 2023533681000013
は、{yi (g)|i=0,1,...,P-1}と同じであると考えられ、
Figure 2023533681000014
である。他の実施形態において、ノイズは、観測されるデータをモデル化する際に加えられることも可能であるが;実験結果は、観測されるデータにおいてノイズをモデル化することによっては、有意な改善を示しておらず、従って、一般性を失うことなく、以下の議論では、予測モデリングを単純化するために、そのようなノイズは考慮されない。
[0034] 訓練データのペアのセット、例えば、
Figure 2023533681000015
の下で、次数K(n)の新たな多項式モデルf(n)(例えば、K(n)=K(c))は、次のように表現することができる:
Figure 2023533681000016
再び、次のように入力及び出力データの行列/ベクトル表現の下で:
Figure 2023533681000017
新及び旧のデータ・セットを組み合わせることによって、組み合わせられた(又は拡張された)データ・セットを構築することができる:
Figure 2023533681000018
また、拡張されたデータ予測モデルは、次のように表現することができる:
Figure 2023533681000019
[0035] m(n)について解くことは、最適化問題として定式化することができる:
Figure 2023533681000020
(MSEの下での)最適化解は、次のように与えられる:
Figure 2023533681000021
[0036] 図2は、実施形態の下で拡張データ予測器を構築するための例示的なプロセスを示す。図2に示されるように、このプロセスへの入力は、入力と観測可能なデータのペア、例えば、pair(xi,yi (g)) である。ステップ205において、ノイズを元の入力データに加えることによって、ノイズの多い(摂動が加えられた)入力データx~ iを生成する(例えば、数式(9)参照)。予測器の観点から、ステップ215の出力において、元の入力データとノイズの多い入力データとを含む入力データの拡張セット
Figure 2023533681000022
が、ここに存在する。ステップ210において、オプションとして、入力された観測可能データに基づいて、ノイズの多い(又は摂動が加えられた)観測可能データ
Figure 2023533681000023
を生成し、それ以外の場合には、
Figure 2023533681000024
とする。予測器の観点からは、ステップ220の後に、観測可能でありノイズの多い観測可能なデータの拡張されたセットが今や存在している
Figure 2023533681000025
最終的に、ステップ225において、拡張データ予測モデルの係数の解を求める(例えば、式(16)参照)。
[0037] マルチ・チャネル・モデルを用いる拡張データ予測
先の議論は、比較的シンプルなシングル・チャネル予測モデルを使用していた。このセクションでは、方法論が、限定ではないが例えばRef.[1]及びRef.[2]に記載されているものように、マルチ・チャネル回帰モデルに拡張される。一例として、一般性を失うことなく、マルチ・チャネル多重回帰(multi-channel, multiple-regression,MMR)予測器(Ref.[1])を使用する実施形態に関連して、詳細な方法論が説明されるが;当業者は、この方法論を、テンソル積B-スプライン(Tensor-Product B-spline,TPB)モデル(Ref.[2])のような他のモデルに拡張することができるはずである。
[0038] 例えば、あるビデオ・シーケンスを考察し、t番目のフレームのサンプル(例えば、SDRピクチャ)は、
Figure 2023533681000026
のように示され、また、各ピクセルは3つのカラー成分y,c1,c2(例えば、YCbCr, RGB, ICtCb 等)を有しているものとする。例えば、SDR画像(125)は100 nits及びR709の色域における画像データを表現していてもよい一方、対応するHDR画像(120)は4,000 nits及びP3色域における画像データを表現していてもよい。MMRモデルを利用して、出力vt,i ch(g)(ここで、chはy,c0又はc1を示す)を、次のような組み合わせとして表現する:
Figure 2023533681000027
例えば、実施形態では、二次の交差積MMR表現を使用して、ベクトルs- j,iは、次のように15個の値を利用して表現することができる:
Figure 2023533681000028
数式(17a-17b)において、一部の実施形態では、幾つかの項は、演算負担を低減するために除去されてもよい。例えば、モデルにおいて、クロマ成分の1つのみを使用してもよいし、所定の高次の交差成分を完全に排除してもよい。限定ではないが、代替的な線形又は非線形の予測子が使用されてもよい。
[0039] ここで、
Figure 2023533681000029
であるとすると、観測可能なデータ(例えば、HDRピクチャ)は、次のように表現することができる:
Figure 2023533681000030
また、全体的なグランド・トゥルース・モデルは、次のように表現することができる:
Figure 2023533681000031
ここで、
Figure 2023533681000032
は、加法性ノイズ、例えば、nt,i (g)~N(0,(σt (g))2) を示す。
[0040] 注:白色ガウシアン・ノイズを使用することは、可能性のある最悪の雑音を使用するオープン・ループ問題において量子化雑音をモデリングすることとして認識できる。当業者は、このようなノイズは、ラプラシアン(Laplacian)、コーシー(Cauchy)等のような当技術分野で公知の代替モデルを用いてモデル化されてもよい、ということを認識するであろう。
[0041] 次のような行列形式における所与のMMRモデルの下で、
Figure 2023533681000033
伝統的な予測器のパラメータは、次のような最小化問題を再び使用して計算することが可能であり:
Figure 2023533681000034
(MSEの下での)最適な解は次のように与えられる:
Figure 2023533681000035
ここで、
Figure 2023533681000036
である。
[0042] 拡張データ予測器は、図2で説明された方法に従って設計することができる。シングル・チャネルのケース(ステップ205参照)における場合と同様に、所与の入力
Figure 2023533681000037
の下で、新たなノイズ又は摂動が加えられたセット
Figure 2023533681000038
は、ノイズ(例えば、nt,i (g)~N(0,(σt (g))2) のような分布を有するガウシアン・ノイズ)を加えることによって生成され、例えば、
Figure 2023533681000039
である。
[0043] ここで、
Figure 2023533681000040
及び
Figure 2023533681000041
であるとする。観測されたデータ
Figure 2023533681000042
が、
Figure 2023533681000043
と同じままである場合(例えば、ステップ210はスキップされる)、
Figure 2023533681000044
である。
[0044] ステップ215及び220において、新及び旧のデータ・セットを結合すると、次のようになる:
Figure 2023533681000045
最終的に、ステップ225において、最適化問題
Figure 2023533681000046
は、最小二乗解を用いて解くことができる:
Figure 2023533681000047
[0045] 別の実施形態では、例えば、各々の摂動を受けたセットについて異なるノイズ分散を使用することによって、追加の摂動入力及び/又は出力データ・セットで、データを拡張することが可能である。例えば、
Figure 2023533681000048
という幾つかのデータ・セットを作成し、(例えば、ステップ215及び220において)次のような結合されたデータ・セットを生成することができる:
Figure 2023533681000049
予測モデルの解は依然として数式(29)により与えられる。

[0046] ノイズ強度選択の考察
拡張データ予測モデルの重要な部分は、ノイズを元の入力データに加えることによって、摂動が加わった(又はノイズの多い)データを生成することにある。従って:どの程度のノイズが加えられるべきか?という問題が生じる。直感的には、ビデオ・コーディングにおいては、ビット・レートが高いほど量子化ノイズは低くなり、従って、加わるノイズの量に影響を及ぼす少なくとも1つのパラメータは、圧縮されたビットストリームの目標ビット・レートであってもよい。
[0047] 本件で使用される場合、「レンジ内(in-range)」という用語は、予測モデルで使用されるべき元のテスト・データ又は訓練データのピクセル・レンジ(例えば、[a,b])を示す。本件で使用される場合、用語「下方レンジ外(lower out-of- range)」は、予測モデルで使用されるレンジ内の最小値(e.g.,a)より低いピクセル値を示す。例えば、これらは非常に低いブラック値を有する画像であってもよい。本件で使用される場合、用語「上方レンジ外(upper out-of-range)」は、予測モデルで使用されるレンジ内の最大値(e.g.,b)より高いピクセル値を示す。例えば、これらは、非常に高いハイライト値を有する画像であってもよい。
[0048] 実験結果は、いかなるレンジ外データに対しても、拡張データ予測器は、ノイズ分散が増加するにつれて常に良好であることを示している;しかしながら、レンジ内データに対しては、追加されるノイズが、σt ch,(n),optのように示される或る「最適な」値よりも低い標準偏差を有する場合に限り、拡張データ予測器は良好であろう。従って、この最適なノイズ分散を次のように表現することができる:
Figure 2023533681000050
ここで、
Figure 2023533681000051
は、標準偏差σt ch,(n)の白色ガウシアン・ノイズを伴う拡張入力データを用いた平均歪の尺度を示し、
Figure 2023533681000052
は、伝統的な予測モデルを用いた予測における平均歪みを示し、例えば、
Figure 2023533681000053
である。
[0049] これらの観測は、ノイズ強度に影響を及ぼす別のパラメータは、出力(例えば、HDR)データのダイナミック・レンジ、特に、HDR入力におけるクロマ・カラー成分のダイナミック・レンジであることを示している。また、実験データは、Pの値が大きいほど、よりロバストな拡張データ・モデルであることを示している;しかしながら、実際には、多数の計算に起因して、我々が全てのピクセル値に直接的に作用することは希である。むしろ、我々はサブ・サンプリングされた画像又は「平均」ピクセル値を用いて操作することが可能である。例えば、我々は、正規化されたダイナミック・レンジ全体(e.g.,(0,1])をカバーするために、入力信号コードワードを、等間隔wbのM個の重複しないビン(例えば、M=16,32又は64であり)(例えば、16ビット入力データの場合、wb=65,536/Mである)に分割することが可能である。次いで、ピクセル値を用いて操作する代わりに、我々は、そのようなビン各々の中の平均ピクセル値を用いて操作してもよい。PtをHDRビンの数とすると(3次元マッピング・テーブル(3DMT)とも呼ばれる)、実施形態において、ノイズ強度は以下の発見的方法に基づいて導出されてもよい。
Figure 2023533681000054
この場合において、
Figure 2023533681000055
の下で、
Figure 2023533681000056
は、観測データの実際のダイナミック・レンジを示し、μは最大ノイズ強度を示し(e.g.,μ=0.08)、ΔPは入力データ・カウントの観点から広がりを制御するためのパラメータであり(e.g.,ΔP=3,000)、ΔRは観測データ・レンジの観点から広がりを制御するためのパラメータである(例えば、ビット深度=16ビットである場合、ΔP=7,000である)。このモデルは、入力が増加する場合に、より緩慢な減衰をもたらす。
[0050] 別の実施形態において、代替的なアプローチは、指数関数内のより高い次数の項により、より速い減衰をもたらすことであろう:
Figure 2023533681000057
ここで、α>1である。
[0051] 実施形態では、数式(32)及び(34)の両方において、我々は例えばビット・レート関連の乗数因子を追加することができる:
Figure 2023533681000058
ここで、ΔBは、ノイズを生成するために使用される平均ビット・レートの観点から広がりを制御するためのパラメータである(e.g.,ΔB=2 Mbits/s)。例えば、高ビット・レート(例えば、5.2 Mbits/s以上におけるもの)では、ノイズ強度はほぼゼロであるとすることが可能である。実施形態では、数式(35)において、各々の指数因子におけるαの値は、異なる値を有していてもよい(例えば、各々のαは、αP,αR,及びαBのような異なる値によって置き換えられてもよい)。
[0052] 実施形態において、我々は、最適化されたノイズ強度を、各ターゲット・ビット・レートについて生成することが可能であり、従って、各ビット・レートについて専用の予測パラメータのセットを生成することができる。別の実施形態では、サービス・プロバイダは、1つのセット(又はひと揃いのセットのみ)を使用するように望むかもしれない。例えば、あるセットの最適化されたMMRパラメータを用いて、我々は、可能性のある最悪のシナリオ(例えば、最低のビット・レートにおける最小の解像度)を使用して、ノイズを追加してもよい。そのようなシナリオでは、数式(35)のビット・レート関連の指数項は、μに吸収されることが可能な固定値(例えば、数式(34)参照)とみなすことができる。
[0053] 発見的ノイズモデル(数式(35)参照)が与えられている下で、図3は、オープン・ループ3DMTアーキテクチャ(例えば、図1Dに示されるようなもの)のための拡張データ予測の例示的なプロセスを示す。参照HDR入力のt番目のフレームに対するi番目のピクセルのカラー成分値を、
Figure 2023533681000059
とする。対応するSDRピクセル値を、
Figure 2023533681000060
とする。各カラー・チャネルにおける最小値及び最大値を、SDR画像においては、
Figure 2023533681000061
とし、HDR画像においては、
Figure 2023533681000062
とする。
[0054] 図3に示されるように、プロセスは、ステップ305において、3DMT表現(Refs.[3-4]も参照されたい)を構築することから始まり、これは以下のように要約することができる:
a)SDR画像のダイナミック・レンジを、各チャネルにおいて、各成分に対するビンの固定数Qy,QC0,QC1を用いて量子化する。このパーティションは、(Qy×QC0×QC1)3Dヒストグラムを計算するために、各次元の最小/最大(st ch,min,st ch,max)のレンジをカバーする均一なパーティション境界を使用することができる。各チャネルの量子化インターバルは、次のように与えられる:
Figure 2023533681000063
3Dヒストグラム・ビンをΩt Q,sとし、ここで、
Figure 2023533681000064
である。従って、Ωt Q,sは合計(Qy・QC0・QC1)個のビンを含み、その結果、3Dビンはビン・インデックス
Figure 2023533681000065
により指定され、これは、3チャネルの量子化された値を有するピクセルの数を表す。表記を簡略化するために、我々は、3Dビン・インデックス{q(太字)}を1-Dインデックス{q}にベクトル化することができる。
Figure 2023533681000066
b)各々の3Dビンについて、HDR内の各カラー成分の合計を計算する。
Figure 2023533681000067
を、HDR画像ドメインにマッピングされたルマ及びクロマの値であるとし、その結果、これらの各々のビンは全てのHDRルマ及び2つのクロマ(それぞれC0,C1)のピクセル値の合計を含み、ここで、対応するピクセル値はそのビンの中にある。P個のピクセルを仮定すると、処理は次のような擬似コードを用いて要約することができる:
Figure 2023533681000068
c)非ゼロ数のピクセルを有する3Dヒストグラム・ビンを探す。言い換えれば、集合Φt Qに対する全ての非ゼロ・エントリを集める。
Figure 2023533681000069
に関して平均を計算する。
Figure 2023533681000070
Φt Qにおける要素数をPtとする。
Figure 2023533681000071
であるとする。こうして、我々はΦt Qにおける要素についてマッピング・ペア
Figure 2023533681000072
を得る。
[0055] ステップ310において、ノイズ強度は次のようにして計算することができる:所与のPt,3DMTビンの数の下で、実施形態では、クロマ・レンジRtは、2つのカラー・チャネルにおけるダイナミック・レンジの平均として計算することが可能である:
Figure 2023533681000073
従って、ノイズ強度は、数式(34)又は(35)のように計算することができる。
[0056] 別の実施形態では、ノイズ標準偏差は、より高度な複雑性の犠牲を払って、ルマ及び各カラー成分について別々に計算されることが可能である。代替的に、クロマ・レンジを平均化することによりRtを計算する代わりに、我々は2つのクロマ・レンジの最大値又は最小値を使用することが可能である。しかしながら、一般に、改善されたクロマ品質を目標とする実験結果は、説明されたようにRtを計算することは、妥当な複雑性コストで満足のゆく結果をもたらすことを示した。
[0057] ステップ315において、一般性を損なうことなく、MMR予測モデルを仮定すると、数式(36b)の下で、SDR入力データ・セットは以下のように定式化することができる:
Figure 2023533681000074
全てのPtエントリを収集すると、次のようになる:
Figure 2023533681000075
同様に、ベクトル形式における3DMT HDRクロマ値は、次のように表現することができる:
Figure 2023533681000076
[0058] ステップ320において、
Figure 2023533681000077
の各々の3DMTエントリに対してノイズを追加することは、
Figure 2023533681000078
により与えられるノイズ入力3DMTデータをもたらし、ここで、各チャネルのノイズは、例えば、
nt,i ch,(n)~N(0,(σt (n))2) のような同じ分布を有する。
[0059] ステップ325において、拡張された入力3DMTデータ・セットが次のようにして生成される:
ノイズの多い入力に対するMMRの拡張された形式を、
Figure 2023533681000079


とする。次いで、
Figure 2023533681000080
に対して、拡張データ・セットは、次のように与えられる:
Figure 2023533681000081
[0060] 実施形態では、ステップ330において、新たな予測モデルは:
Figure 2023533681000082
のように記述することが可能であり、(MSE基準の下での)最適解は次のように与えられる(Ref.[3-4]):
Figure 2023533681000083
参考文献
これらの参考文献の各々は参照により全体的に本件に援用される。
1. G-M. Su et al., “Multiple color channel multiple regression predictor,” U.S. Patent 8,811,490.
2. G-M Su et al., “ Tensor-product B-Spline predictor,” U.S. Provisional patent application, Ser. No. 62/908,770, filed on Oct. 1, 2019.
3. N.J. Gadgil and G-M. Su, “Linear encoder for image/video processing,” PCT Application Ser. No. PCT/US2019/020115, filed on Feb. 28, 2019, published as WO2019/169174.
4. Q. Song et al., “High-fidelity full reference and high-efficiency reduced reference encoding in end-to-end single-layer backward compatible encoding pipeline,” WIPO PCT Publication, WO2019/217751, Nov. 14, 2019.

コンピュータ・システム実装例
[0061] 本発明の実施形態は、コンピュータ・システム、電子回路及び構成要素で構成されるシステム、マイクロコントローラのような集積回路(IC)デバイス、フィールド・プログラマブル・ゲート・アレイ(FPGA)、その他の設定可能な又はプログラム可能な論理デバイス(PLD)、離散時間又はデジタル信号プロセッサ(DSP)、特定用途向けIC(ASIC)、及び/又は、これらのシステム、デバイス又は構成要素のうちの1つ以上を含む装置を用いて実施することが可能である。コンピュータ及び/又はICは、本件で説明されるような画像予測技術に関連する命令を実行、制御、又は遂行することが可能である。コンピュータ及び/又はICは、本件で説明されるような画像予測技術の生成に関連する任意の様々なパラメータ又は値を計算することが可能である。画像及びビデオのダイナミック・レンジ拡張の実施形態は、ハードウェア、ソフトウェア、ファームウェア、及びそれらの様々な組み合わせで実装することが可能である。
[0062] 本発明の特定の実装は、本発明の方法をプロセッサに実行させるソフトウェア命令を実行するコンピュータ・プロセッサを含む。例えば、ディスプレイ、エンコーダ、セット・トップ・ボックス、トランスコーダ等における1つ以上のプロセッサは、プロセッサにアクセスすることが可能なプログラム・メモリ内のソフトウェア命令を実行することによって、上述したような画像予測技術のための方法を実施することが可能である。本発明は、プログラム製品の形態で提供されてもよい。プログラム製品は、データ・プロセッサによって実行されると、本発明の方法をデータ・プロセッサに実行させる命令を含む一組のコンピュータ読み取り可能な信号を運ぶ任意の非一時的かつ有形の媒体を含む可能性がある。本発明によるプログラム製品は、広範に及ぶ種々の非一時的な有形の形態の何れかにおけるものであってもよい。プログラム製品は、例えば、フロッピー・ディスケットを含む磁気データ記憶媒体、ハード・ディスク・ドライブ、CD-ROMを含む光データ記憶媒体、DVD、ROMを含む電子データ記憶媒体、フラッシュRAM等のような物理媒体を含む可能性がある。プログラム製品におけるコンピュータ読み取り可能な信号は、オプションとして、圧縮又は暗号化されていてもよい。
[0063] 構成要素(例えば、ソフトウェア・モジュール、プロセッサ、アセンブリ、デバイス、回路など)が上記で言及される場合、別段の指示がない限り、当該構成要素への言及(「手段」への言及を含む)は、本発明の例示的に説明された実施形態における機能を実行する開示された構造と構造的には同等でない構成要素を含む、説明された構成要素の機能を実行する任意の構成要素(例えば、機能的に同等であるもの)を、当該構成要素の均等物として含むように解釈されるべきである。
[0064 ] 均等、拡張、代替、及びその他
従って、画像予測技術に関する例示的な実施形態が説明されている。このような明細書において、本発明の実施形態は、実装ごとに変なる可能性のある多数の特定の詳細を参照しながら説明されている。従って、何が発明あるか、及び何が出願人により発明であると意図されているのか、についての唯一かつ排他的な指標は、以後の如何なる訂正をも含む、このようなクレームがもたらす特定の形式で本願から発行されるクレームのセットである。このようなクレームに含まれる用語について本件で明示的に述べられている如何なる定義も、当該クレームにおいて使用される用語の意味を支配するものとする。従って、クレームに明示的に記載されていない限定、要素、特性、特徴、利点又は属性は、そのようなクレームの範囲を如何なる方法によっても限定しないはずである。従って、明細書及び図面は、限定的な意味ではなく例示的に解釈されるべきである。
[0065] 本発明の様々な態様は以下に列挙される例示的な実施形態(enumerated example embodiments,EEEs)から理解することが可能である:
(EEE1)
プロセッサにより予測係数を生成する方法であって、当該方法は:
第1のダイナミック・レンジにおける第1の入力画像(120)と第2のダイナミック・レンジにおける第2の入力画像(125)とにアクセスするステップであって、前記第1の入力画像と前記第2の入力画像とは同じシーンを表現している、ステップ;
前記第1の入力画像の特徴に少なくとも基づいてノイズ強度を有するノイズ・データを生成するステップ;
前記ノイズ・データを前記第2の入力画像に加えることによって、ノイズ入力データ・セットを生成するステップ;
前記第1の入力画像に基づいて、第1の拡張入力データ・セットを生成するステップ;
前記第2の入力画像と前記ノイズ入力データ・セットとを結合して、第2の拡張入力データ・セットを生成するステップ;
前記第2の拡張入力データ・セットに基づいて、前記第1の拡張入力データ・セットを予測する予測モデルを生成するステップ;
予測モデル・パラメータのセットを生成するために、最小誤差基準に従って前記予測モデルの解を求めるステップ;
前記第2の入力画像を圧縮して、圧縮されたビットストリームを生成するステップ;及び
前記圧縮されたビットストリームと前記予測モデル・パラメータとを含む出力ビットストリームを生成するステップを含む。
(EEE2)
EEE1に記載の方法において、更に、デコーダにおいて:
前記圧縮されたビットストリームと前記予測モデル・パラメータとを含む出力ビットストリームを受信するステップ;
前記出力ビットストリームを復号化して、前記第2のダイナミック・レンジにおける第1の出力画像を生成するステップ;及び
前記予測モデル・パラメータを前記第1の出力画像に適用して、前記第1のダイナミック・レンジにおける第2の出力画像を生成するステップを含む。
(EEE3)
EEE1又はEEE2に記載の方法において、前記第1のダイナミック・レンジは高ダイナミック・レンジを含み、前記第2のダイナミック・レンジは標準ダイナミック・レンジを含む。
(EEE4)
EEE1-3のうちの何れか1項に記載の方法において、前記ノイズ・データを生成するステップは:
前記第1の入力画像のピクセル値に基づいて統計量を計算するステップ;
前記統計量に基づいてノイズ標準偏差を計算するステップ;及び
ゼロ平均及び前記ノイズ標準偏差のガウス分布を用いて前記ノイズ・データのノイズ・サンプルを生成するステップを含む。
(EEE5)
EEE4に記載の方法において、前記ノイズ標準偏差を計算するステップは、前記圧縮されたビットストリームを生成するためのターゲット・ビット・レート及び/又は前記第2の入力画像の特徴に更に基づいている。
(EEE6)
EEE4又はEEE5に記載の方法において、前記統計量を計算するステップは:前記第1の入力画像におけるピクセル値の総数、前記第1の入力画像のルマ成分におけるピクセル値のレンジ、前記第1の入力画像のクロマ成分におけるピクセル値のレンジ、又は、前記第1の入力画像を表す平均ピクセル値のグループを特徴付けるビンの数のうちの1つ以上を計算するステップを含む。
(EEE7)
EEE1-6のうちの何れか1項に記載の方法において、前記予測モデルは、シングル・チャネル予測器、複数チャネル複数回帰(MMR)予測器を含む。
(EEE8)
EEE1-7のうちの何れか1項に記載の方法において、前記予測モデルの解を求めるステップは、前記予測モデルの出力と前記第1の入力画像との間の誤差尺度を最小化するステップを含む。
(EEE9)
EEE8に記載の方法において、前記予測モデル・パラメータのセットを生成するステップは、
Figure 2023533681000084
を計算するステップを含み、ここで、mt (n),optは前記予測モデル・パラメータのベクトル表現を示し、vt (n)は前記第1の拡張入力データ・セットを示し、St (n)は前記第2の拡張入力データ・セットに基づく行列を示す。
(EEE10)
EEE9に記載の方法において、クロマ成分chに関し、
Figure 2023533681000085
であり、ここで、vt ch,(n)は前記第1の拡張入力データ・セットのピクセル値を表し、vt ch,(c)は前記第1の入力画像のピクセル値を含み、vt ~ch,(c)は、前記第1の入力画像の何れかのピクセル値(ここで、vt ~ch,(n)=vt ch,(c) である)、又は、ノイズを加えた前記第1の入力画像のピクセル値、の何れかを含む。
(EEE11)
EEE1-10のうちの何れか1項に記載の方法において、更に:
前記第1の入力画像の修正された表現に基づいて、第1の修正されたデータ・セットを生成するステップ;
前記第2の入力画像の修正された表現に基づいて、第2の修正されたデータ・セットを生成するステップ;
前記ノイズ・データを前記第2の修正されたデータ・セットに加えることによって、前記ノイズ入力データ・セットを生成するステップ;
前記第1の修正されたデータ・セットに基づいて、前記第1の拡張入力データ・セットを生成するステップ;及び
前記第2の修正されたデータ・セットと前記ノイズ入力データ・セットとを結合して、前記第2の拡張入力データ・セットを生成するステップを含む。
(EEE12)
EEE11に記載の方法において、前記第1の修正されたデータ・セットは、前記第1の入力画像のサブ・サンプリングされたバージョン、又は、前記第1の入力画像の3次元テーブル・マッピング(3DMT)表現を含む。
(EEE13)
EEE11又はEEE12に記載の方法において、前記第2の修正されたデータ・セットは、前記第2の入力画像のサブ・サンプリングされたバージョン、又は、前記第2の入力画像の3次元テーブル・マッピング(3DMT)表現を含む。
(EEE14)
EEE1-13のうちの何れか1項に記載の方法を1つ以上のプロセッサにより実行するためのコンピュータ実行可能命令を記憶した非一時的なコンピュータ読み取り可能な記憶媒体。
(EEE15)
EEE1-13のうちの何れか1項に記載の方法を実行するように構成されたプロセッサを含む装置。

Claims (16)

  1. プロセッサにより予測係数を生成する方法であって、当該方法は:
    第1のダイナミック・レンジにおける第1の入力画像と第2のダイナミック・レンジにおける第2の入力画像とにアクセスするステップであって、前記第1の入力画像と前記第2の入力画像とは同じシーンを表現している、ステップ;
    前記第1の入力画像の特徴に少なくとも基づいてノイズ強度を有するノイズ・データを生成するステップ;
    前記ノイズ・データを前記第2の入力画像に加えることによって、ノイズ入力データ・セットを生成するステップ;
    前記第1の入力画像と前記ノイズ入力データとを結合して、第1の拡張入力データ・セットを生成するステップ;
    前記第2の入力画像と前記ノイズ入力データ・セットとを結合して、第2の拡張入力データ・セットを生成するステップ;
    前記第2の拡張入力データ・セットに基づいて、前記第1の拡張入力データ・セットを予測する予測モデルを生成するステップ;
    予測モデル・パラメータのセットを生成するために、最小誤差基準に従って前記予測モデルの解を求めるステップ;
    前記第2の入力画像を圧縮して、圧縮されたビットストリームを生成するステップ;及び
    前記圧縮されたビットストリームと前記予測モデル・パラメータとを含む出力ビットストリームを生成するステップ;
    を含む方法。
  2. 請求項1に記載の方法において、前記第1の入力画像の特徴は、前記第1の入力画像における1つ以上のクロマ・カラー成分のダイナミック・レンジである、方法。
  3. 請求項1又は2に記載の方法において、更に、デコーダにおいて:
    前記圧縮されたビットストリームと前記予測モデル・パラメータとを含む出力ビットストリームを受信するステップ;
    前記出力ビットストリームを復号化して、前記第2のダイナミック・レンジにおける第1の出力画像を生成するステップ;及び
    前記予測モデル・パラメータを前記第1の出力画像に適用して、前記第1のダイナミック・レンジにおける第2の出力画像を生成するステップ;
    を含む方法。
  4. 請求項1-3のうちの何れか1項に記載の方法において、前記第1のダイナミック・レンジは高ダイナミック・レンジを含み、前記第2のダイナミック・レンジは標準ダイナミック・レンジを含む、方法。
  5. 請求項1-4のうちの何れか1項に記載の方法において、前記ノイズ・データを生成するステップは:
    前記第1の入力画像のピクセル値に基づいて統計量を計算するステップ;
    前記統計量に基づいてノイズ標準偏差を計算するステップ;及び
    ゼロ平均及び前記ノイズ標準偏差のガウス分布を用いて前記ノイズ・データのノイズ・サンプルを生成するステップ;
    を含む、方法。
  6. 請求項5に記載の方法において、前記ノイズ標準偏差を計算するステップは、前記圧縮されたビットストリームを生成するためのターゲット・ビット・レート及び/又は前記第2の入力画像の特徴に更に基づいている、方法。
  7. 請求項5又は請求項6に記載の方法において、前記統計量を計算するステップは:
    前記第1の入力画像におけるピクセル値の総数、
    前記第1の入力画像のルマ成分におけるピクセル値のレンジ、
    前記第1の入力画像のクロマ成分におけるピクセル値のレンジ、又は
    前記第1の入力画像を表す平均ピクセル値のグループを特徴付けるビンの数
    のうちの1つ以上を計算するステップを含む、方法。
  8. 請求項1-7のうちの何れか1項に記載の方法において、前記予測モデルは、シングル・チャネル予測器、複数チャネル複数回帰(MMR)予測器を含む、方法。
  9. 請求項1-8のうちの何れか1項に記載の方法において、前記予測モデルの解を求めるステップは、前記予測モデルの出力と前記第1の入力画像との間の誤差尺度を最小化するステップを含む、方法。
  10. 請求項9に記載の方法において、前記予測モデル・パラメータのセットを生成するステップは、
    Figure 2023533681000086
    を計算するステップを含み、ここで、mt (n),optは前記予測モデル・パラメータのベクトル表現を示し、vt (n)は前記第1の拡張入力データ・セットを示し、St (n)は前記第2の拡張入力データ・セットに基づく行列を示す、方法。
  11. 請求項10に記載の方法において、クロマ成分chに関し、
    Figure 2023533681000087
    であり、ここで、vt ch,(n)は前記第1の拡張入力データ・セットのピクセル値を表し、vt ch,(c)は前記第1の入力画像のピクセル値を含み、vt ~ch,(c)は、前記第1の入力画像の何れかのピクセル値(ここで、vt ~ch,(n)=vt ch,(c) である)、又は、ノイズを加えた前記第1の入力画像のピクセル値、の何れかを含む、方法。
  12. 請求項1-11のうちの何れか1項に記載の方法において、更に:
    前記第1の入力画像の修正された表現に基づいて、第1の修正されたデータ・セットを生成するステップ;
    前記第2の入力画像の修正された表現に基づいて、第2の修正されたデータ・セットを生成するステップ;
    前記ノイズ・データを前記第2の修正されたデータ・セットに加えることによって、前記ノイズ入力データ・セットを生成するステップ;
    前記第1の修正されたデータ・セットに基づいて、前記第1の拡張入力データ・セットを生成するステップ;及び
    前記第2の修正されたデータ・セットと前記ノイズ入力データ・セットとを結合して、前記第2の拡張入力データ・セットを生成するステップ;
    を含む方法。
  13. 請求項12に記載の方法において、前記第1の修正されたデータ・セットは、前記第1の入力画像のサブ・サンプリングされたバージョン、又は、前記第1の入力画像の3次元テーブル・マッピング(3DMT)表現を含む、方法。
  14. 請求項12又は請求項13に記載の方法において、前記第2の修正されたデータ・セットは、前記第2の入力画像のサブ・サンプリングされたバージョン、又は、前記第2の入力画像の3次元テーブル・マッピング(3DMT)表現を含む、方法。
  15. 請求項1-14のうちの何れか1項に記載の方法を1つ以上のプロセッサにより実行するためのコンピュータ実行可能命令を記憶した非一時的なコンピュータ読み取り可能な記憶媒体。
  16. 請求項1-14のうちの何れか1項に記載の方法を実行するように構成されたプロセッサを含む装置。
JP2022579948A 2020-06-24 2021-06-21 オープン・ループ・コーデックにおけるhdr撮像に関する画像予測 Active JP7541129B2 (ja)

Applications Claiming Priority (5)

Application Number Priority Date Filing Date Title
US202063043198P 2020-06-24 2020-06-24
EP20182014.9 2020-06-24
US63/043,198 2020-06-24
EP20182014 2020-06-24
PCT/US2021/038258 WO2021262599A1 (en) 2020-06-24 2021-06-21 Image prediction for hdr imaging in open-loop codecs

Publications (2)

Publication Number Publication Date
JP2023533681A true JP2023533681A (ja) 2023-08-04
JP7541129B2 JP7541129B2 (ja) 2024-08-27

Family

ID=76744997

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2022579948A Active JP7541129B2 (ja) 2020-06-24 2021-06-21 オープン・ループ・コーデックにおけるhdr撮像に関する画像予測

Country Status (5)

Country Link
US (1) US20230254494A1 (ja)
EP (1) EP4173297A1 (ja)
JP (1) JP7541129B2 (ja)
CN (1) CN116157824A (ja)
WO (1) WO2021262599A1 (ja)

Family Cites Families (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20070069980A1 (en) * 2005-07-18 2007-03-29 Macinnis Alexander Method and sysem for estimating nosie in video data
US8606009B2 (en) 2010-02-04 2013-12-10 Microsoft Corporation High dynamic range image generation and rendering
DK3324622T3 (da) 2011-04-14 2019-10-14 Dolby Laboratories Licensing Corp Indikator med multiple regressioner og multiple farvekanaler
CN106713912B (zh) * 2013-01-02 2020-02-21 杜比实验室特许公司 用于视频信号的向后兼容编码和解码的方法和装置
EP3069513B1 (en) * 2013-11-12 2019-03-13 Dolby Laboratories Licensing Corporation Pre-dithering in high dynamic range video coding
US10136147B2 (en) 2014-06-11 2018-11-20 Dolby Laboratories Licensing Corporation Efficient transcoding for backward-compatible wide dynamic range codec
BR112020016821B1 (pt) 2018-02-28 2022-08-09 Dolby Laboratories Licensing Corporation Método de geração de metadados de remodelagem de luma e croma com um sistema de processamento, meio legível por máquina e sistema de gerenciamento de exibição
EP3791577A1 (en) 2018-05-11 2021-03-17 Dolby Laboratories Licensing Corporation High-fidelity full reference and high-efficiency reduced reference encoding in end-to-end single-layer backward compatible encoding pipeline

Also Published As

Publication number Publication date
JP7541129B2 (ja) 2024-08-27
WO2021262599A1 (en) 2021-12-30
EP4173297A1 (en) 2023-05-03
CN116157824A (zh) 2023-05-23
US20230254494A1 (en) 2023-08-10

Similar Documents

Publication Publication Date Title
CN108885783B (zh) 编码和解码可逆制作质量单层视频信号
JP6846442B2 (ja) ハイダイナミックレンジ画像のためのクロマ再構成
CN105744277B (zh) 分层vdr编译码中的层分解
JP6771656B2 (ja) シングルレイヤー後方互換性コーデックのリアルタイム再構成
JP7049526B2 (ja) 適応的なsdrからhdrへの再構成関数による、hdr画像化におけるバンディングアーチファクトの低減
JP7094451B2 (ja) 再構成関数の補間
WO2018044803A1 (en) Real-time reshaping of single-layer backwards-compatible codec
JP7309081B2 (ja) Hdrイメージングにおけるブラインド局所再整形
CN114747224B (zh) 一种用于生成整形函数的方法、装置以及存储介质
JP7329155B2 (ja) 連続性及び可逆性を備えたhdr画像化のためのリシェーピング関数
JP7541129B2 (ja) オープン・ループ・コーデックにおけるhdr撮像に関する画像予測
JP2023532952A (ja) Hdrビデオのクラウド・ベース符号化における作業負荷割り当ておよび処理
JP7540085B2 (ja) 色変換データ生成方法
JP7560701B1 (ja) モバイルアプリケーションにおけるhdrビデオについてのテンソル積bスプライン予測
CN118140478A (zh) 移动应用中hdr视频的张量积b样条预测

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20230217

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20240228

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20240402

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20240628

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20240716

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20240815

R150 Certificate of patent or registration of utility model

Ref document number: 7541129

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150