JP2021521517A

JP2021521517A - ニューラルネットワークマッピングを用いるｈｄｒ画像表現

Info

Publication number: JP2021521517A
Application number: JP2020555148A
Authority: JP
Inventors: スゥ，グワン‐ミーン; ソォン，チィン
Original assignee: ドルビーラボラトリーズライセンシングコーポレイション
Priority date: 2018-04-09
Filing date: 2019-04-08
Publication date: 2021-08-26
Anticipated expiration: 2039-04-08
Also published as: TWI729377B; US11361506B2; JP7189230B2; TW201944357A; WO2019199701A1; KR20200142035A; US20210150812A1; CN112204617A; EP3776474A1; CN112204617B; KR102361987B1

Abstract

１組のリファレンスカラーグレーディング画像とニューラルネットワークとを用いて第１のダイナミックレンジから第２のダイナミックレンジへ画像をマッピングするための、方法およびシステムを記載する。同一のシーンを表現するが異なるダイナミックレンジにおいて表現している第１および第２の画像に対し、様々なＮＮモデルから、第１の画像と第２の画像とに基づき第２の画像を近似する出力画像を決定するためのニューラルネットワーク（ＮＮ）モデルが、選択される。選択されたＮＮモデルのパラメータ群は、最適化基準と、第１の画像と、第２の画像とに基づき、導出される。これらのパラメータは、選択されたＮＮモデルの層におけるノード群に対する、ノード重みおよび／またはノードバイアスを含む。グローバルマッピングおよびローカルマッピング表現を用いる、ＨＤＲからＳＤＲへのマッピング例を提供する。

Description

関連出願への相互参照
本願は、２０１８年４月９日付け出願の米国仮特許出願第６２／６５４，６１４号および２０１８年４月９日付け出願の欧州特許出願第１８１６６３２０．４号に基づく優先権を主張するものであり、両出願の開示内容を全て本願に援用する。

技術
本発明は、広く画像に関する。より詳細には、本発明のある実施形態は、ニューラルネットワークマッピングを用いて、ハイダイナミックレンジ画像をある表現から別の表現へマッピングすることに関する。

背景
本明細書において、用語「ダイナミックレンジ」（ＤＲ）は、人間の視覚システム（ＨＶＳ）が画像においてある範囲の強度（例えば、輝度、ルマ）（例えば、最暗のグレー（黒）から最明の白（ハイライト）まで）を知覚する能力に関連し得る。この意味では、ＤＲはシーン−リファード（scene-referred）の強度に関する。ＤＲはまた、ディスプレイデバイスが特定の幅を有する強度範囲を妥当にまたは近似的に描画する能力にも関連し得る。この意味では、ＤＲは、ディスプレイ−リファード（display-referred）の強度に関する。本明細書中の任意の箇所において、ある特定の意味が特に明示的に指定されている場合を除いて、この用語はどちらの意味としても（例えば、区別なく）使用できるものとする。

本明細書において、ハイダイナミックレンジ（ＨＤＲ）という用語は、人間の視覚システム（ＨＶＳ）において１４〜１５桁にわたるＤＲ幅に関する。実際において、人間が広範囲の強度範囲を同時に知覚し得るＤＲは、ＨＤＲに対して幾分端折られ得る。本明細書において、視覚ダイナミックレンジ（ＶＤＲ）という用語は、個別にまたは区別なく、人間の視覚システム（ＨＶＳ）（眼球運動を含み、シーンまたは画像にわたってある程度の明順応変化を可能にする）が、あるシーンまたは画像中において知覚可能なＤＲに関する。本明細書において、ＶＤＲは、５〜６桁にわたるＤＲに関連し得る。従って、真のシーンリファードのＨＤＲに対しては幾分狭いものの、ＶＤＲは広いＤＲ幅を表し、ＨＤＲとも呼ばれ得る。

実際において、画像は１つ以上の色成分（例えばルマＹおよびクロマＣｂおよびＣｒ）を有しており、各色成分は、画素あたりｎビットの精度（例えばｎ＝８）で表される。線形輝度符号化（linear luminance coding）を用いた場合、ｎ≦８の画像（例えばカラー２４ビットＪＰＥＧ画像）はスタンダードダイナミックレンジとされ、ｎ＞８の画像はエンハンストダイナミックレンジの画像とされる。ＨＤＲ画像はまた、ＩｎｄｕｓｔｒｉａｌＬｉｇｈｔａｎｄＭａｇｉｃが開発したＯｐｅｎＥＸＲファイルフォーマットなどの高精度の（例えば１６ビット）浮動小数点フォーマットを用いて、格納および配信され得る。

ほとんどのコンシューマー用デスクトップディスプレイは現在、２００〜３００ｃｄ／ｍ^２またはニトの輝度をサポートしている。ほとんどのコンシューマー用ＨＤＴＶは３００〜５００ニトの範囲であるが、新しいモデルは１０００ニト（ｃｄ／ｍ^２）に達する。このような従来のディスプレイはしたがって、ＨＤＲに対し、より低いダイナミックレンジ（ＬＤＲ）（またはスタンダードダイナミックレンジ（ＳＤＲ）とも呼ばれる）の典型例となる。キャプチャ機器（例えばカメラ）およびＨＤＲディスプレイ（例えばＤｏｌｂｙＬａｂｏｒａｔｏｒｉｅｓのＰＲＭ−４２００プロフェッショナルリファレンスモニター）両方の進化によって、ＨＤＲコンテンツの普及率が高まるにつれ、ＨＤＲコンテンツはカラーグレーディングされてより高いダイナミックレンジ（例えば１，０００ニトから５，０００ニト以上）をサポートするＨＤＲディスプレイ上に表示されることがある。

Ｇ−ＭＳｕらによる、米国特許第８，８１１，４９０号「Ｍｕｌｔｉｐｌｅｃｏｌｏｒｃｈａｎｎｅｌ，ｍｕｌｔｉｐｌｅｒｅｇｒｅｓｓｉｏｎｐｒｅｄｉｃｔｏｒ」に説明されているように、シングルレイヤおよびマルチレイヤ符号化技術の両方を用いてＨＤＲコンテンツの効率的な符号化および配信を行ううえで、画像予測技術（image prediction techniques）は重要な役割を果たす。画像予測は、第１の表現における画像（例えばダイナミックレンジおよび／または色域の観点から、例えばＳＤＲ画像）を第２の表現（例えばＨＤＲ画像）の画像へマッピングする、画像マッピングの特殊なケースと考えることができる。

人工ニューラルネットワーク（artificial neural networks）において、「万能近似定理」（universal approximation theorem）に則り、適切なパラメータ群を所与のものとして、広範囲の関数を、様々な単純なニューラルネットワーク（ＮＮ）によって表現し得る。本発明者らの理解によると、単純なニューラルネットワークを用いてＨＤＲ画像群および／または派生的なＨＤＲもしくはＳＤＲ画像群の間で画像マッピングを行うための、改良技術が望まれる。ＵＳ２０１０２４６９４０Ａ１において、ハイダイナミックレンジ画像を生成する方法およびこれを用いる電子機器が記載されている。この方法は、ニューラルネットワークアルゴリズムによって作成された明度調整モデル（brightness adjustment model）をロードする工程と、原画像（original image）を取得する工程と、原画像について、画素特性値、第１の方向における第１の特性値、および第２の方向における第２の特性値を取得する工程と、原画像の画素特性値、第１の特性値、および第２の特性値に従い、明度調整モデルを介してＨＤＲ画像を生成する工程と、を含む。この電子機器は、明度調整モデルと、特性値取得ユニットと、明度調整プロシージャとを備える。この電子機器は、特性値取得ユニットを介して、原画像の画素特性値と、第１の特性値と、第２の特性値とを取得し、明度調整モデルを介して原画像からＨＤＲ画像を生成するものである。ＷＯ２０１８０６４５９１（Ａ１）において、ニューラルネットワークを用いて映像フレームを生成する方法が記載されている。その方法の一つは、エンコーダニューラルネットワークを用いて映像フレームのシーケンスを処理することにより、符号化表現を生成する工程と、画素順およびチャネル順に従い、予測される次フレームを１画素ずつ生成する工程であって、以下のことを含む工程と、を包含する。すなわち、各画素の各カラーチャネルにつき、デコーダニューラルネットワークへの入力として、（ｉ）符号化表現、（ｉｉ）画素順で当該画素より前の全ての画素の明度（color values）、および（ｉｉｉ）チャネル順で当該カラーチャネルより前の全てのカラーチャネルにおける当該画素の明度、を供給することであって、ここでデコーダニューラルネットワークは、複数の可能な明度に亘っての得点分布（score distribution）を規定する出力を生成するように構成される、ことと、この得点分布からサンプリングすることにより、当該画素の当該カラーチャネルにおける明度を決定すること、である。ＦａｈｄＢｏｕｚａｒａａによる「ＣＮＮＢａｓｅｄＮｏｎ−ＬｏｃａｌＣｏｌｏｒＭａｐｐｉｎｇ」、２０１６ＩＥＥＥＩｎｔｅｒｎａｔｉｏｎａｌＳｙｍｐｏｓｉｕｍｏｎＭｕｌｔｉｍｅｄｉａＩＳＭ、２０１６年１２月１１日、３１３〜３１６頁において、画像の色をリファレンス分布へ移すためのカラーマッピングが説明されている。このようにして、例えば暗い画像を、同一のシーンを表す、より明るい画像に変換することにより、単一の画像を用いて異なるカメラ露光を模擬することが可能である。カラーマッピングにおける殆どの手法は、ただ単に画素単位の（ローカルな）マッピングを適用することによってカラーマッピング画像を生成するという意味で、ローカルである。しかし、本提示の手法においては、畳み込みニューラルネットワーク（convolutional neural network）を用いる、画像テクスチャ（image-texture）から直接に学習された特徴（learned features）に基づいた、非ローカルなマッピングを提案する。

本節に記載されている手法は、探求し得る手法ではあるが、必ずしもこれまでに着想または探求されてきた手法ではない。従って、別途示唆のない限り、本節に記載された手法のいずれも、本節に記載されているという理由だけで従来技術としての適格性を有すると考えるべきではない。同様に、別途示唆のない限り、１以上の手法に関して特定される問題が、本節に基づいて、いずれかの先行技術において認識されたことがあると考えるべきではない。

図面の簡単な説明
同様の部材に同様の参照符号を付した添付図面の各図において、本発明のある実施形態を限定する事なく例示する。

図１は、ＨＤＲデータを符号化および送信するためのデータフローの一例を表している。図２Ａは、ＨＤＲ符号化システムの一例を表している。図２Ｂは、ＨＤＲ復号化システムの一例を表している。図３Ａは、本発明のある実施形態による、ニューラルネットワークを用いてグローバルマッピングを生成するためのシステム例を表している。図３Ｂは、本発明のある実施形態による、ニューラルネットワークを用いてローカルマッピングを生成するためのシステム例を表している。図３Ｃは、本発明のある実施形態による、ニューラルネットワークを用いて複数のグレードでグローバルマッピングを生成するためのシステム例を表している。図３Ｄは、本発明のある実施形態による、単一のＹＣｂＣｒネットワークを用いてグローバルマッピングを生成するためのシステム例を表している。図３Ｅは、本発明のある実施形態による、単一のＹＣｂＣｒニューラルネットワークマッピングを用いる予測器のシステム例を表している。図３Ｆは、本発明のある実施形態による、グローバルマッピングニューラルネットワークを用いる予測器のシステム例を表している。図４は、本発明のある実施形態による、ニューラルネットワークと３Ｄマッピングテーブルとを用いてグローバルマッピングを生成するためのシステム例を表している。図５は、本発明のある実施形態による、ニューラルネットワークを用いて画像マッピング関数を導出する処理の一例を表している。図６は、２つの隠れ層を有するニューラルネットワークの一例を表している。

実施形態例の説明
ニューラルネットワークに基づき画像マッピング関数を導出することを、本明細書に記載する。１組の対応する画像、すなわち、同一のシーンを表現するが異なるレベルのダイナミックレンジで表現する画像群に対し、本節において、エンコーダがニューラルネットワークに基づくマッピングを用いてこれらの画像のうち１つをもう１つの画像において（in terms of）近似することを、可能にする方法を説明する。以下の説明においては、便宜上、本発明を完全に理解できるように、多数の詳細事項を説明する。ただし、これらの詳細事項が無くても本発明を実施可能であることは明白であろう。他方、本発明の説明を不必要に煩雑にしたり、不明瞭にしたり、難読化したりしないように、周知の構造およびデバイスの細かな詳細までは説明しない。

概要
本明細書に記載の実施形態例は、ニューラルネットワークを用いて画像マッピング関数を導出することに関する。第１の実施形態において、エンコーダは、第１のダイナミックレンジを有する画像を第２のダイナミックレンジを有する画像において（in terms of）近似するように各々が適応された、１つ以上のニューラルネットワーク（ＮＮ）モデルにアクセスできる。エンコーダは、第１のダイナミックレンジにおける第１の画像と、第２のダイナミックレンジにおける第２の画像とを受信する。これらの２つの画像は同一のシーンを表現している。エンコーダは、様々なＮＮモデルから、第１の画像と第２の画像とに基づき第２の画像を近似する出力画像を決定するためのニューラルネットワークモデルを選択する。エンコーダは次に、最適化基準（optimizing criterion）と、第１の画像と、第２の画像とに基づき、選択されたＮＮモデルにおけるパラメータ群の少なくともいくつかの値を決定する。これらのパラメータは、選択されたＮＮモデルの少なくとも１つの層（layer）におけるノード群の少なくともいくつかに対する活性化関数とともに用いられる、ノード重み（node weights）および／またはノードバイアス（node biases）を含む。ここで、いくつかのノード重みおよび／またはノードバイアスは既定であってもよく、ゆえに、選択されたＮＮモデルのパラメータ群の全ての値を最適化基準に則って決定する必要はないかも知れないことに留意されたい。生成された出力画像は圧縮されてもよく、当該マッピングを特徴付けるＮＮパラメータは、デコーダへ引き渡されるメタデータとして符号化され得る。

第２の実施形態において、デコーダは、第１のダイナミックレンジにおける符号化画像と画像メタデータとを有する圧縮ビットストリーム（compressed bitstream）を受信する。ここで画像メタデータは、符号化画像を第２のダイナミックレンジにおける出力画像へマッピングするためのニューラルネットワーク（ＮＮ）モデルのパラメータ群を含む。符号化画像の１つ以上の色成分に対し、画像メタデータは、以下を含み得る。すなわち、当該ＮＮにおけるニューラルネット層数と、少なくとも１つの層についてのニューラルノード数と、少なくとも１つの層のいくつかのノードにおいて活性化関数とともに使用される重みおよびオフセットである。符号化画像を復号化した後、デコーダは、符号化画像と、ＮＮモデルのパラメータ群とに基づき、第２のダイナミックレンジにおける出力画像を生成する。

ＨＤＲ−ＳＤＲシステム例
図１は、本発明のある実施形態による、ＨＤＲ−ＳＤＲシステム（１００）におけるデータフローの一例を表している。ＨＤＲカメラ（１１０）を用いて、ＨＤＲ画像またはＨＤＲ映像シーケンスをキャプチャする。キャプチャに引き続き、キャプチャされた画像または映像をマスタリング処理（１２０）において処理することにより、ターゲットＨＤＲ画像（１２５）を作成する。マスタリング処理は、編集、一次的および二次的な色補正（color correction）、色変換（color transformation）、およびノイズ除去（noise filtering）などの、様々な処理ステップを組み入れ得る。本処理のＨＤＲ出力（１２５）は、キャプチャ画像がターゲットＨＤＲディスプレイ（例えばＨＤＲディスプレイ１６０）にどのように表示されるかについての、制作意図を表現している。

マスタリング処理はまた、キャプチャ画像が旧式のＳＤＲディスプレイ（１６５）にどのように表示されるかについての制作意図を表現する、対応するＳＤＲ画像（１４５）をも出力し得る。ＳＤＲ出力（例えば１４５−１または１４５−２）は、マスタリング回路１２０から直接に提供されてもよいし、別個のＨＤＲからＳＤＲへの変換器１４０で生成されてもよいし、またはカラリストの助力を得て生成されてもよい。

本明細書において、「トリムパス」（trim-pass）という用語は、第１のターゲットディスプレイ（例えば、４，０００ニトのプロフェッショナルモニタ）上で作成された映像ストリームを再マッピングして、異なるダイナミックレンジおよび／または色域を有する第２のターゲットディスプレイ（例えば、３００ニトのＳＤＲＴＶ）のための第２のストリームにする、コンテンツ制作におけるフェーズを指す。トリムパスはさらに、カラリストによる調整を受けることにより、元の映像ストリームの「カラーグレード」（color-grade）を生成し得る。スタジオにおいて、例えば、ＳＤＲ映画館（例えば４８ニト）、ＨＤＲ映画館（例えば１００ニト）、ＳＤＲＴＶ（例えば３００ニト）、ＨＤＲＴＶ（例えば１，０００ニト）などにおけるリリースのための、複数の「トリム」および／または「カラーグレード」を作成することができる。２つのトリムはまた、同一のダイナミックレンジでありながら異なる色域を有してもよい。本明細書において、「派生的ピクチャ」（derivative picture）という用語は、このような任意の、マスタＨＤＲまたはマスタＳＤＲピクチャから導出された、トリムまたはカラーグレーディングを施されたピクチャを指す。

本実施形態例において、ＨＤＲ１２５およびＳＤＲ１４５信号は、エンコーダ１３０へ入力される。エンコーダ１３０の目的は、これらのＨＤＲおよびＳＤＲ信号を送信するために要求される帯域幅を低減する一方で、また、対応するデコーダ１５０がＳＤＲやＨＤＲ信号を復号化し、かつ、描画することを可能にもする、符号化ビットストリームを作成することである。ある態様例において、エンコーダ１３０は、ＭＰＥＧ−２およびＨ．２６４符号化規格により規定されるもののうちの１つなどの、シングルレイヤまたはマルチレイヤのエンコーダであってもよく、その出力は、ベースレイヤ、オプションとしての１つ以上のエンハンスメントレイヤ、およびメタデータとして表現される。本明細書において、「メタデータ」という用語は、符号化ビットストリームの一部として送信され、デコーダが復号化画像を描画することを助ける、任意の補助的情報に関する。このようなメタデータは、本明細書において記載されるような、色空間または色域情報、ダイナミックレンジ情報、トーンマッピング情報、またはＮＮノードパラメータなどのデータを含み得るが、これらに限定されない。

受信器において、デコーダ（１５０）は、受信された符号化ビットストリームおよびメタデータを用いて、ターゲットディスプレイの性能に応じ、ＳＤＲ画像（１５７）かＨＤＲ画像（１５５）のいずれか一方を描画する。例えば、ＳＤＲディスプレイ（１６５）は、ベースレイヤおよびメタデータのみを用いて、ＳＤＲ画像を描画し得る。対照的に、ＨＤＲディスプレイ（１６０）は、全ての入力レイヤからの情報およびメタデータを用いて、ＨＤＲ信号を描画し得る。

いくつかの実施形態において、システム（１００）は、入力映像コンテンツの「再構成」（不図示）を適用することにより、１３０における映像エンコーダの性能により良くマッチすることができる。本明細書において、「順方向再構成」（forward reshaping）という用語は、あるデジタル画像についての、元のビット深度と、元の符号語分布または元の符号語表現（例えばガンマ、ＰＱ、またはＨＬＧなど）とから、同一または異なるビット深度と、異なる符号語分布または符号語表現とを有する画像への、サンプル対サンプルまたは符号語対符号語のマッピング処理を指す。再構成により、一定のビットレートのもとで、より良い圧縮率またはより良い画質が可能とされる。例えば、限定はしないが、再構成を１０ビットまたは１２ビットＰＱ符号化ＨＤＲ映像に適用することにより、１０ビット映像符号化アーキテクチャにおける符号化効率を改善し得る。受信器において、再構成信号を復元した後、当該受信器は、「逆再構成関数」（inverse reshaping function）を適用することにより、信号をその元の符号語分布へ復元することができる。画像再構成の一例は、Ｇ−Ｍ．Ｓｕによる、２０１６年３月３０日付け出願のＰＣＴ出願第ＰＣＴ／ＵＳ２０１６／０２５０８２号、「Ｉｎ−ＬｏｏｐＢｌｏｃｋ−ＢａｓｅｄＩｍａｇｅＲｅｓｈａｐｉｎｇｉｎＨｉｇｈＤｙｎａｍｉｃＲａｎｇｅＶｉｄｅｏＣｏｄｉｎｇ」（ＷＯ２０１６／１６４２３５としても公開）の中に見つけることができる。

図２Ａは、本発明の方法を組み入れる、エンコーダ１３０のより詳細な態様例を示している。図２Ａにおいて、ＳＤＲ’（２０７）は、エンハンストＳＤＲ信号を表す。今日のＳＤＲ映像は、８〜１０ビットで４：２：０のＩＴＵＲｅｃ．７０９データである。ＳＤＲ’は、ＳＤＲと同一の色空間（原色および白色点）を有しながらも、全ての色成分をフル空間解像度（例えば４：４：４ＲＧＢ）とする高精度（例えば１２ビット毎ピクセル）を用いることができる。図２Ａより、例えば１２ビット毎ピクセルから１０ビット毎ピクセルへの量子化（または順方向再構成）と、例えばＲＧＢからＹＵＶへの色変換と、例えば４：４：４から４：２：０への色サブサンプリングと、を含み得る１組の順方向変換（forward transforms）を用いて、ＳＤＲ’信号から、ＳＤＲを容易に導出することが可能である。変換器２１０のＳＤＲ出力は、圧縮システム２２０に適用される。アプリケーションに応じて、圧縮システム２２０は、ロッシー（lossy）（Ｈ．２６４、ＭＰＥＧ−２など）でもよいし、ロスレス（lossless）でもよい。圧縮システム２２０の出力は、ベースレイヤ２２５として送信され得る。符号化信号と復号化信号との間のドリフトを低減するために、エンコーダ１３０において、圧縮処理２２０に引き続き、対応する復元処理２３０と、２１０の順方向変換に対応する逆変換（inverse transforms）２４０とが行われることは稀ではない。ゆえに、予測器（２５０Ｅ）は、以下の入力を有し得る。すなわち、ＨＤＲ入力２０５と、ＳＤＲ信号２４５（対応するデコーダに受信されるものとしてのＳＤＲ’信号に相当）または入力ＳＤＲ’２０７のいずれか一方と、である。予測器２５０Ｅは、入力ＨＤＲおよび入力ＳＤＲデータを用いて、入力ＨＤＲ２０５の近似値または推定値を表す信号２５７を生成することになる。レイヤシステム（layered systems）において、加算器２６０は、元のＨＤＲ２０５から予測ＨＤＲ２５７を差し引くことにより、出力残差信号２６５を形成する。その後で（不図示）、残差２６５はまた、もう１つのロッシーまたはロスレスエンコーダにより符号化されて、エンハンスメントレイヤとしてデコーダへ送信されることが可能である。

予測器２５０Ｅはまた、予測処理において用いられている予測用パラメータ（prediction parameters）を、メタデータ（２５５）として提供することができる。予測用パラメータは、例えばフレーム毎またはシーン毎に、符号化処理の最中に変化し得るので、これらのメタデータを、ベースレイヤおよびエンハンスメントレイヤをもまた包含するデータの一部として、デコーダへ送信することができる。

ＨＤＲ１２５とＳＤＲ１４５の両方は、異なる特性（ダイナミックレンジや色域など）を有した異なるディスプレイをターゲットにしながらも、同一のシーンを表現しているので、これらの２つの信号の間には非常に密接な相関があるものと予想される。本発明の実施形態例において、ニューラルネットワークマッピングを用いて入力リファレンス信号を近似表現へマッピングすることを可能にする、新しいマッピング関数が構築される。ＨＤＲからＳＤＲへのマッピングについての例を与えるが、同一の手法を、２つの異なるＨＤＲグレード間、２つの異なるＳＤＲグレード間、またはＳＤＲグレードとＨＤＲグレードとの間における画像マッピングに対し、使用できる。

本発明の実施形態は、画像エンコーダまたは画像デコーダのいずれか一方において実施され得る。図２Ｂは、本発明のある実施形態による、デコーダ１５０の態様例を示している。復号化システム１５０は、例えばエンコーダ２００−Ｅから生成されたものなどの、符号化ビットストリーム（２７０）を受信する。このストリームは、ベースレイヤ（例えば２４５）と、オプションとしてのエンハンスメントレイヤ（または残差）（例えば２６５）と、メタデータ（２５５）とを併せ持つことができ、復元（２３０）および種々雑多な逆変換（２４０）の後で、これらが抽出される。例えば、あるＨＤＲ−ＳＤＲシステムにおいて、ベースレイヤ（２４５）は、符号化ＨＤＲ信号のＳＤＲ表現を表すことができ、メタデータ２５５は、エンコーダ予測器２５０Ｅにおいて使用されたニューラルネットワークマッピング（ＮＮＭ）およびこれに対応するＮＮＭパラメータについての情報を含むことができる。一態様例において、エンコーダが本発明の方法によるＮＮマッピングを使用する場合、メタデータは、使用されているモデルの識別表示（identification）（例えばグローバルマッピング、ローカルマッピングなど）と、その特定のモデルに対応付けられた全てのパラメータとを包含し得る。ベースレイヤ２４５と、メタデータ２５５から抽出されたＮＮＭ関連パラメータとを与えられると、予測器２５０Ｄは、予測ＨＤＲ（２５７）を算出することが可能である。残差が存在しないか、または残差が無視できるならば、予測信号２５７を、最終的なＨＤＲ画像として直接に出力できる。そうでなければ、加算器２６０において、予測器（２５０Ｄ）の出力（２５７）を残差２６５に加算することにより、ＨＤＲ信号２９０が出力される。

ニューラルネットワークマッピング例
背景
限定はせずに、

は、ＨＤＲ画像（１２５）などの第１の画像からの、第ｉ番目の画素の三色値（例えばＲＧＢまたはＹＣｂＣｒなど）を表すものとする。第２の画像（例えばＳＤＲ画像１４５）における、これに対応する第ｉ番目の画素を、

で表す。各画像における画素の総数をＰで表し、全ての画素値は［０１］の間に正規化されているものと仮定する。第１の画像に由来する画素値を、第２の画像における対応する画素値へ（またはその逆に）マッピングする、マッピング関数Ｍ（）を求めたい。すなわち、

または

にしたい。

ある実施形態にて、多層ニューラルネットワークにおける第ｊ番目の層は、その入力の各々に適用される重みおよびバイアスの非線形関数として、

と表現され得る。ここで

は、重み行列であり、

は、バイアスベクトルであり、ｆ_ｊ（）は活性化関数であり、

は、入力（前層の出力に由来）であり、

は、現層の出力である。例えば

は、

として表され得る。ここでＮ_ｊは、ニューラルネットワークの第ｊ番目のレベルにおけるノード数を表す。第ｊ番目のレベルにおけるノード数は、別のレベルにおけるノード数とは異なっていてもよいことに留意されたい。Ｌ層を有するＮＮに対し、これを［Ｎ_０Ｎ_１ … Ｎ_Ｌ−１］ＮＮと表記することがある。例えば［８４４］ＮＮは、３層を備えており、最初の層に８つのノードを、残りの２層の各々に４つずつのノードを有した、ニューラルネットワークのことを指す。

一般に用いられる活性化関数ｆ_ｊ（）が、いくつか存在する。ある実施形態において、ｆ_ｊ（）は、シグモイド関数

である。最初の層（例えばｊ＝０）に対し、その入力は、元の入力画素値であることになる。すなわち、式（１ａ）のマッピングを仮定すると、

となる。
注記：本明細書の以降の部分において、ＮＮの入力および出力パラメータを、式（１ａ）におけるマッピングの観点から表現することがある。しかし、本明細書に記載の方法は、単純にＳＤＲ入力とＨＤＲ入力とを入れ替えることにより、式（１ｂ）のマッピングを表現するように、容易に拡張することができる。

Ｌ層の隠れ層を有するネットワークにおいて、

または

となるだろう。

図６は、入力層（６０５）と、２つの隠れ層（６１０および６１５）と、１つの出力層（６２０）とを備えた、ニューラルネットワークの一例を表している。入力ノード群（６０５−１から６０５−Ｎ_−１まで）は、問題の入力画素（例えば

）を表し、出力ノード群（６２０−１から６２０−Ｎ_２まで）は、問題のマッピング値（例えば

）を表し、最初の隠れ層におけるノード群（６１０−１から６１０−Ｎ_０まで）および２番目の隠れ層におけるノード群（６１５−１から６１５−Ｎ_１まで）は、それぞれ

を表す。

目標は、全Ｐ個の画素に対する総最小二乗誤差（total minimum square error）（ＭＳＥ）

が最小化されるように、全（Ｌ＋１）層におけるパラメータ

を求めることである。本問題は、

として定式化できる。

ある実施形態において、式（６）の解を、「誤差逆伝播法」を使用して求めることができる。単一のＮＮを用いる代わりに、３つ以上のニューラルネットワークを、入力信号の色成分の各々に対して１つずつ用いてもよいことに留意されたい。

入力正規化
ある実施形態において、入力信号を［−１１］の範囲へ正規化し直す（renormalizing）ことにより、性能を向上させることが可能である。このような態様において、ニューラルネットワークは、以下を含む必要がある。
・入力信号の各チャネルを［−１１］へスケーリングする、プリスケーリング段（正規化）（normalization）
・［−１１］に納まっている出力信号の各チャネルを、元の範囲へスケーリングし戻す、ポストスケーリング段（非正規化）（de-normalization）

各入力カラーチャネル（ｙ、ｃ０、およびｃ１で表す）における最大値および最小値を、

で表すことにする。新しいダイナミックレンジ

への正規化を行うためのゲインは、

として導出され得る。正規化は、

のように行われる。非正規化は、

として算出され得る。

Ｌ層ニューラルネットワークに基づくマッピングは、以下のパラメータを用いて表現することができ、これらのパラメータはメタデータとして受信器に伝達され得る。すなわち、
・各入力成分に対する正規化パラメータ（例えば、ゲイン、最小、および最大）｛Ｇ，ｎ_ｍｉｎ，ｎ_ｍａｘ｝
・Ｌ層ニューラルパラメータ。例えば、第ｊ番目の層における

である。次に、３つの異なる実施形態例を、詳細に説明する。

グローバルマッピングＮＮを用いる画像マッピング
図３Ａは、グローバルマッピングのある実施形態による、ＨＤＲからＳＤＲへのマッピングを生成するためのシステムの一例を表している。ここでは、画素の位置に拘らず、画像全体に対して同一の画素マッピングが行われる。一例として、一般性を失うことなく、当該入力はＹＣｂＣｒ４：２：０フォーマットであるものと想定する。但し、使用されている色形式（例えば、ＹＣｂＣｒ４：２：２または４：４：４、ＲＧＢ、ＩＣｔＣｐなど）に拘らず、同様なアーキテクチャを適用することが可能である。所与のリファレンスＨＤＲ（１２５）およびＳＤＲ（１４５）フレームに対し、３つのニューラルネットワーク（３０５）を用いて、Ｙ、Ｃｂ、およびＣｒをマッピングする。入力４：２：０フォーマットのために、ある実施形態において、ＮＮユニット（３０５）に対する全ての入力が同一の空間解像度を有するように、ダウンスケーリング器（down-scaler）３１０およびアップスケーリング器（up-scaler）３１５を使用し得る。これらのアップスケーリングおよびダウンスケーリング関数は、もしも当該入力が４：４：４フォーマットであるならば、省くことができる。図３Ａに表すように、
・Ｙ−ＮＮＭ（３０５−Ｙ）は、入力として、ｖ^Ｙ、ｖ^{Ｃｂ，Ｃｒ}（アップサンプリングされた）、およびｓ^Ｙを有し、出力として、マッピングされたＳＤＲ

と、メタデータとを有する。
・Ｃｂ−ＮＮＭ（３０５−Ｃｂ）は、入力として、ｖ^Ｙ（ダウンサンプリングされた）、ｖ^{Ｃｂ，Ｃｒ}、およびｓ^Ｃｂを有し、出力として、マッピングされたＳＤＲ

と、メタデータとを有する。
・Ｃｒ−ＮＮＭ（３０５−Ｃｒ）は、入力として、ｖ^Ｙ（ダウンサンプリングされた）、ｖ^{Ｃｂ，Ｃｒ}、およびｓ^Ｃｒを有し、出力として、マッピングされたＳＤＲ

と、メタデータとを有する。

各ＮＮＭ３０５は、単一層（例えば、１６個のノードを有した１つの層、［１６］と表記）を有してもよいし、複数の層（例えば［８４４］ＮＮ）を有してもよい。ＮＮＭの実装例は、Ｍ．Ｔ．Ｈａｇａｎらによる『ＮｅｕｒａｌＮｅｔｗｏｒｋＤｅｓｉｇｎ』（第２版）、２０１４年、または、Ｓ．Ｏ．Ｈａｙｋｉｎ著『ＮｅｕｒａｌＮｅｔｗｏｒｋｓａｎｄＬｅａｒｎｉｎｇＭａｃｈｉｎｅｓ』（第３版）、Ｐｅａｒｓｏｎ、２００８年、の中に見つけることができる。ＭａｔｌａｂのＮｅｕｒａｌＮｅｔｗｏｒｋＴｏｏｌｂｏｘにおけるＭＡＴＬＡＢ関数ｆｉｔｎｅｔおよびｔｒａｉｎもまた、使用できる。

ローカルマッピングＮＮを用いる画像マッピング
図３Ｂは、ある実施形態による、ＨＤＲからＳＤＲへのマッピングを生成するためのシステムの一例を表しており、ここでは、画素マッピングはローカルレベルで行われる（ローカルマッピング）。この空間ドメインの変動性（variance）をモデリングするために、ニューラルネットワークマッピング（ＮＮＭ）ユニット（３０５）は、位置的な画素情報を表現するさらなる入力３０７を有する。（ｘ_ｉ，ｙ_ｉ）は、第ｉ番目の画素に対する正規化座標を表すものとする。すなわち、ｘ_ｉ∈［０，１］かつｙ_ｉ∈［０，１］である。これらの正規化値は、元の座標を、画像の対応する寸法（dimensions）（例えば、幅と高さ）で割ることにより、算出できる。このとき、入力ＨＤＲベクトルは

と表現され得る。

図３Ｂに表すように、
・Ｙ−ＮＮＭ（３０５−Ｙ）は、入力として、ｖ^Ｙ、ｖ^{Ｃｂ，Ｃｒ}（アップサンプリングされた）、ｓ^Ｙ、および（ｘ^Ｙ，ｙ^Ｙ）を有し、出力として、マッピングされたＳＤＲ

と、メタデータとを有する。
・Ｃｂ−ＮＮＭ（３０５−Ｃｂ）は、入力として、ｖ^Ｙ（ダウンサンプリングされた）、ｖ^{Ｃｂ，Ｃｒ}、ｓ^Ｃｂ、および（ｘ^Ｃｂ，ｙ^Ｃｂ）を有し、出力として、マッピングされたＳＤＲ

と、メタデータとを有する。
・Ｃｒ−ＮＮＭ（３０５−Ｃｒ）は、入力として、ｖ^Ｙ（ダウンサンプリングされた）、ｖ^{Ｃｂ，Ｃｒ}、ｓ^Ｃｒ、および（ｘ^Ｃｒ，ｙ^Ｃｒ）を有し、出力として、マッピングされたＳＤＲ

と、メタデータとを有する。

当該入力がＹＣｂＣｒ４：２：０フォーマットであるならば、ルマ成分とクロマ成分とは、異なる処理を必要とする。ルマのＹ−ＮＮＭ（３０５−Ｙ）に対しては、入力３０７−Ｙにおいて、フル解像度（ｘ_ｉ，ｙ_ｉ）が使用される。しかし、クロマのＣｂ−ＮＮＭ（３０５−Ｃｂ）およびＣｒ−ＮＮＭ（３０５Ｃｒ）に対しては、入力３０７−Ｃｂおよび３０７−Ｃｒにおいて、元の解像度（ｘ_ｉ，ｙ_ｉ）のスケーリングバージョン（例えば、ｘ_ｉ／２，ｙ_ｉ／２）が使用される。両方の座標が正規化［０，１］ドメインに納まっている必要があることに留意されたい。唯一の違いは、その位置が、異なる画像サイズによって正規化されていることである。

複数のグレードを用いる画像マッピング
ある実施形態において、先述のようにエンコーダは、複数のＳＤＲもしくはＨＤＲ「グレード」（grades）、または、複数のＳＤＲもしくはＨＤＲ「トリム」（trims）にアクセス可能であってもよいことが考えられる。このとき、図３Ｃに示すように、ニューラルネットワークマッピングネットワークは、これらの複数のトリムを利用することにより、ある表現から別の表現へのマッピングをさらに改善し得る。

第ｋ番目のグレードのリファレンス画像における、第ｉ番目の画素の三色値を、

と表すことにする。ある実施形態において、全てのグレードをひとつに連結して、ベクトル

にしてもよい。このとき、各ＮＮＭに対し、当該入力ベクトルは、正規化されたターゲット明度値（例えばニト単位の）ｔ_ｋ∈［０，１］を含む必要があり、４入力のベクトルとなる。つまり、

である。例えば、１００ニトのトリムに対し、ｔ_０＝０．１であり、６００ニトに対し、ｔ_１＝０．６である。これらのグレードＩＤは、ポート（３０７）を用いて入力されることが可能である。マッピング問題は再び、マッピング関数Ｍ（）を求めることとして表現され得る。ここで、

である。

図３Ｃに表すように、
・Ｙ−ＮＮＭ（３０５−Ｙ）は、入力として、ｖ^Ｙ、ｖ^{Ｃｂ，Ｃｒ}（アップサンプリングされた）、ｓ^Ｙ、および利用可能なグレードＩＤ（例えばｔ_０、ｔ_１、およびｔ_２）を有し、出力として、マッピングされたＳＤＲ

と、メタデータとを有する。
・Ｃｂ−ＮＮＭ（３０５−Ｃｂ）は、入力として、ｖ^Ｙ（ダウンサンプリングされた）、ｖ^{Ｃｂ，Ｃｒ}、ｓ^Ｃｂ、および（ｘ^Ｃｂ，ｙ^Ｃｂ）、ならびに利用可能なグレードＩＤ（例えばｔ_０、ｔ_１、およびｔ_２）を有し、出力として、マッピングされたＳＤＲ

と、メタデータとを有する。
・Ｃｒ−ＮＮＭ（３０５−Ｃｒ）は、入力として、ｖ^Ｙ（ダウンサンプリングされた）、ｖ^{Ｃｂ，Ｃｒ}、ｓ^Ｃｒ、および利用可能なグレードＩＤ（例えばｔ_０、ｔ_１、およびｔ_２）を有し、出力として、マッピングされたＳＤＲ

と、メタデータとを有する。

複数の他の変形例を用いて、ＨＤＲからＳＤＲまたはＳＤＲからＨＤＲへのマッピング関数を生成してもよいことが、当業者には理解できる。例えば、図３ＣにおけるＮＮＭはまた、図３Ｂにおけるような画素位置情報をも利用してもよい。あるいは、全てのＮＮＭは、複数の時刻インスタンスからのＨＤＲおよびＳＤＲフレーム群を考慮に入れてもよい。ニューラルネットワークにおいて考慮されることが可能な他の画像属性は、画像コントラスト、画像彩度（image saturation）、およびエッジ強度を含み得る。例えば、エッジ検出を用いることにより、ローカルトーンマッピングを改善することができる。

３Ｄマッピングテーブルを用いて演算効率を改善
本明細書において、「３Ｄマッピングテーブル（３Ｄ−ＭＴまたは３ＤＭＴ）」という用語は、入力画像データを表現し、より効率的な画像処理のために用いられる、３Ｄルックアップテーブルのことを指す。３Ｄマッピングテーブルは、Ｂ．Ｗｅｎらによる２０１７年１０月４日付け出願の米国特許出願シリアル番号第１５／７２５，１０１号、「ＩｎｖｅｒｓｅＬｕｍａ／ＣｈｒｏｍａＭａｐｐｉｎｇｓｗｉｔｈＨｉｓｔｏｇｒａｍＴｒａｎｓｆｅｒａｎｄＡｐｐｒｏｘｉｍａｔｉｏｎ」において初めて導入されたものであり、この出願の開示内容を全て本願に援用する。３Ｄマッピングテーブルは、２Ｄマッピングの拡張として導出されたものであり、両画像の累積密度関数（cumulative density functions）（ＣＤＦ）がマッチしなければならないという制約に基づき、第１のダイナミックレンジにおける画像を別のダイナミックレンジへマッピングする。

３Ｄ−ＭＴテーブルは、画素ベースの演算を低減するものであり、より優れた色正確度の出力画像を生成するマッピングを与えることができる。ある実施形態にて、ニューラルネットワークに基づくマッピングにおいて用いられる３Ｄ−ＭＴは、以下のように構築され得る。

第１の画像および第２の画像をリファレンスとして用いるマッピングにおいて、第１の画像（例えばＨＤＲ画像）からの、第ｉ番目の画素の三色値を

と表し、第２の画像（例えばＳＤＲ画像）における、これに対応する第ｉ番目の画素を、

と表すことにする。まず、３つのチャネル値（例えば、Ｙ、Ｃ_０、およびＣ_１）を有する第１の画像を、各成分につき一定数の

個のビン（bins）を用いて量子化する。ある色成分におけるビンの個数は、その他の色成分におけるビンの個数と異なっていてもよいことに留意されたい。これらのビンは、第１の画像の

３Ｄヒストグラムを算出するために使用されることになる。本３Ｄヒストグラムのことを

と表す。ここで、

である。ゆえに

は、総計

個のビンを含み、ビンインデックス

によって指定される各３Ｄビンは、これらの３チャネル量子化値を有する画素の個数を表す。各３Ｄビンにつき、第２の画像における各色成分の合計もまた、算出される。

は、第２の画像ドメインにおける、マッピングされたルマおよびクロマ値であって、対応する画素値が当該ビンの範囲に納まる全てのＨＤＲルマおよび２つのクロマ（それぞれＣ_０およびＣ_１）画素の値の合計を、その各ビンが含むようなものとする。これらの演算処理は、表１〜３に記載の擬似コードにて要約され得る。
（表１）３Ｄマッピングテーブルの生成／パートＡ

は、第２の画像における

番のビンの中央を表すものとする。これらの値は全てのフレームに亘って一定であり、予め算出されることが可能である。
（表２）３Ｄマッピングテーブルの生成／パートＢ

次なるステップは、非ゼロ個の画素を有する３Ｄヒストグラムビンを特定し、画素を一切有しないビンを破棄することである。

は、そのような、

が成り立つｋ個のビンであるものとする。

の平均を算出する。
（表３）３Ｄマッピングテーブルの生成／パートＣ

と表記することにする。このとき、

値の元の集合は、妥当な

値に対して上記に定義された、

のペアで置き換えられる。

図４は、ある実施形態による、３Ｄマッピングテーブルおよびニューラルネットワークを用いてＨＤＲからＳＤＲへのマッピングを生成するための、アーキテクチャ例（４００）を表している。図４に表すように、本システムは、２つの３Ｄ−ＭＴ、すなわちルマ３Ｄ−ＭＴ（４０５）とクロマ３Ｄ−ＭＴ（４１０）とを利用する。これらの３Ｄ−ＭＴを生成するために、表１〜３におけるステップを、以下の入力に適用し得る。
・ルマ３Ｄ−ＭＴに対し、入力は、元の解像度におけるＨＤＲＹ、アップサンプリングされたＨＤＲＣｂ／Ｃｒ、元の解像度におけるＳＤＲＹ、およびアップサンプリングされたＳＤＲＣｂ／Ｃｒであり、出力は、

のマッピングとして表され得る。
・クロマ３ＤＭＴに対し、入力は、ダウンサンプリングされたＨＤＲＹ、元の解像度におけるＨＤＲＣｂ／Ｃｒ、ダウンサンプリングされたＳＤＲＹ、および元の解像度におけるＳＤＲＣｂ／Ｃｒであり、出力は、

のマッピングとして表され得る。

システム４００において、３つのニューラルネットワークマッピング（４１５）（ルマおよびクロマについての）は、これらの２つの３Ｄ−ＭＴの出力に基づき生成される。例えば、ある実施形態において、
・ＹＮＮＭに対し、入力は、第１の３ＤＭＴからの

であり、出力は、Ｙ−ＮＮＭネットワークのパラメータ群であろう。
・ＣｂＮＮＭに対し、入力は、第２の３ＤＭＴからの

であり、出力は、Ｃｂ−ＮＮＭネットワークのパラメータ群であろう。
・ＣｒＮＮＭに対し、入力は、第２の３ＤＭＴからの

であり、出力は、Ｃｒ−ＮＮＭネットワークのパラメータ群であろう。

３ＤＭＴを使用することは、以下のような利点を与える。ａ）ビン数は画素数よりも遥かに小さいため、遥かに少ない点を用いてニューラルネットワークを訓練できる。それゆえに、より高速な収束が可能とされる。このことは、リアルタイムアプリケーションにおいて非常に重要である。ｂ）３Ｄ−ＭＴを生成することにより、事実上、画素群が「重要な画素」のビン群へ集約され、それゆえに、画質の面でより価値の低い複数の画素によってＮＮの判断にバイアスがかかる効果が、抑制される。

システム（４００）は、図３Ａに記載されたものと均等である。３Ｄマッピングテーブルの概念をさらに高次元へ拡張することにより、図３Ｂおよび図３Ｃにおけるアーキテクチャをサポートするように（例えば、ローカルマッピング（図３Ｂ）において５Ｄ−ＭＴを用いることによる）、本システムを容易に拡張することが可能である。

ある別の実施形態において、３つのニューラルネットワーク（４１５）Ｙ−ＮＮＭ、Ｃｂ−ＮＮＭ、およびＣｒ−ＮＮＭを結合して単一のＹＣｂＣｒＮＮＭにし、ルマ値およびクロマ値の両方を直接に生成させ得る。このような態様は、ＨＤＲからＳＤＲへのマッピングを表現するうえで、より少数のＮＮパラメータしか必要としないだろう。一例として、図３Ｄは、単一のＹＣｂＣｒＮＮＭ（３５０）を用いて２つのカラーグレード間のグローバルマッピングを生成するシステムを表している。図３Ｄにおけるシステムにより生成されたＮＮＭパラメータ群（３７２）を所与のものとして、図３Ｅは、当該マッピング関数（当該ＮＮのパラメータ群すなわちメタデータ（３７２）により特徴付けられた）を適用することにより、ＹＣｂＣｒＮＮＭ３７０を用いて元のデータを復元する、予測器の一例（例えば２５０Ｄ）を表している。例えば、信号３６０（ソースグレード）がＳＤＲデータを表すならば、マッピングされたＹＣｂＣｒデータは、予測ＨＤＲデータを表す。信号３６０が入力ＨＤＲデータを表すならば、マッピングされたＹＣｂＣｒデータは、予測ＳＤＲデータを表す。２つのＹＣｂＣｒＮＮ（３７０−１、３７０−２）は全く同じものであるが、各々は入力データを少々異なるように取り扱う。ルマ（Ｙ）に対し、ＮＮＭ３７０−１は、入力クロマデータがフル解像度（Ｙの解像度と同一の）までアップサンプリングされていることを必要とする。３７０−１のＣｂ／Ｃｒ出力は破棄される。クロマに対し、ＮＮＭ３７０−２は、入力ルマデータがクロマ成分の解像度とマッチするようにダウンサンプリングされていることを必要とする。ＮＮＭ３７０−２のルマ出力は破棄され得る。ある別の実施形態において、ＮＮＭ３７０は単一の、時分割（time-shared）ＮＮネットワークであってもよい。

図３Ｅに表すアーキテクチャは、図３Ａ〜３Ｃにおいて前述したその他のニューラルネットワークマッピング設計のいずれかに、容易に適応させることができる。例えば、図３Ｆは、図３Ａのグローバルマッピングに基づく、予測器を表している。図３ＥにおけるＮＮＭ（３７０）は、今や、３つの別個のＮＮで置き換えられており、１つはＹ（３８０−Ｙ）、１つはＣｂ（３８０−Ｃｂ）、および１つはＣｒ（３８０−Ｃｒ）のためのものであって、それぞれが各自の別個のメタデータ（３８２−Ｙ／Ｃｂ／Ｃｒ）を受け取る。図３Ｅと同様に、４：２：０データについて、これらのＮＮの各々に対するルマおよびクロマ入力は、適切にアップサンプリングまたはダウンサンプリングされる。図３Ｆに表すように、

のマッピングを想定するとき、
・Ｙ−ＮＮＭ（３８０−Ｙ）は、入力として、ｖ^Ｙ、ｖ^{Ｃｂ，Ｃｒ}（アップサンプリングされた）、およびメタデータ３８２−Ｙを有し、出力として、マッピングされた

を有する。
・Ｃｂ−ＮＮＭ（３８０−Ｃｂ）は、入力として、ｖ^Ｙ（ダウンサンプリングされた）、ｖ^{Ｃｂ，Ｃｒ}、およびメタデータ３８２−Ｃｂを有し、出力として、マッピングされた

を有する。
・Ｃｒ−ＮＮＭ（３８０−Ｃｒ）は、入力として、ｖ^Ｙ（ダウンサンプリングされた）、ｖ^{Ｃｂ，Ｃｒ}、およびメタデータ３８２−Ｃｂを有し、出力として、マッピングされた

を有する。

他の実施形態において、空間的にも時間的にも画素サブサンプリングを使用することにより、全てのシステムにおける計算量（computational complexity）を減少させ得る。例えば、映像シーケンスにおいて、ニューラルネットワークは、サブサンプリングされたフレーム群を用いて求められてもよく、かつ／または、その成果は、複数の連続するフレームに対して使用されてもよい。さらにまた、ＮＮレベルにおいて、各フレームにつき、初期化値は、前フレームに由来する解の単純なコピーであってもよい。

メタデータ送信のためのビットストリーム構文（Bitstream Syntax）
前述のように、ＮＮＭメタデータは、入力正規化パラメータ群と、ニューラルネットワークパラメータ群とを含む。これらの値は、典型的には単精度または倍精度の浮動小数点数である。メタデータオーバーヘッドは、マッピングの効率に影響を及ぼすことなくメタデータオーバーヘッドデータの量を抑制するための、当該分野で知られるロッシーまたはロスレスデータ圧縮方式を適用することにより、低減されることが可能である。

表４は、ある実施形態による、エンコーダ（１３０）からデコーダ（１５０）へＮＮＭメタデータを通信するための、ビットストリーム構文の一例を表している。
（表４）ＮＮＭメタデータをサポートするビットストリーム構文例

表４において、記述子ｓｅ（ｖ）、ｕ（ｖ）、およびｕｅ（ｖ）は、ＩＴＵ−ＴＨ．２６５「ＨｉｇｈＥｆｆｉｃｉｅｎｃｙＣｏｄｉｎｇ」などの、当該分野で知られる映像復号化のための規格におけるように、定義され得る。「ｃｍｐ」の値は色成分を表しており、例えば、０はＹ、１はＣｂ、２はＣｒである。さらなる変数が、以下のように定義され得る。

nnm_num_neuron[ y ][ x ][ cmp ]は、マッピングタイプを規定する。例えば、nnm_num_neuron[ y ][ x ][ -1 ] = 3はグローバルマッピング、nnm_num_neuron[ y ][ x ][ -1 ] = 5はローカルマッピング、およびnnm_num_neuron[ y ][ x ][ -1 ] = 4はマルチグレードマッピングである。

nnm_norm_gain_int[ y ][ x ][ cmp ]は、coefficient_data_typeが０に等しい場合には、fp_nnm_norm_gain_coef[ y ][ x ][ cmp ]の整数部分を規定する。coefficient_data_typeが１に等しいならば、nnm_norm_gain_int[ y ][ x ][ cmp ]は存在しない。
注記：coefficient_data_typeが０に等しい場合には、fp_nnm_norm_gain_coef[ y ][ x ][ cmp ]を用いることにより、mapping_idc[ y ][ x ][ cmp ]に対応付けられた、正規化におけるゲイン係数の値（the value of the gain coefficient in the normalization）が導出される。

nnm_norm_gain_coef[ y ][ x ][ cmp ]は、coefficient_data_typeが０に等しい場合には、fp_nnm_norm_gain_coef[ y ][ x ][ cmp ]の小数部分を規定する。coefficient_data_typeが１に等しいならば、nnm_norm_gain_coef[ y ][ x ][ cmp ]を用いることにより、mapping_idc[ y ][ x ][ cmp ]に対応付けられたゲイン係数の値が導出される。coefficient_data_typeが０に等しいならば、nnm_norm_gain_coef[ y ][ x ][ cmp ]構文要素の長さは、coefficient_log2_denomビットである。coefficient_data_typeが１に等しいならば、nnm_norm_gain_coef[ y ][ x ][ cmp ]構文要素の長さは、３２ビットである。mapping_idc[ y ][ x ][ cmp ]に対応付けられた、正規化におけるゲイン係数の値は、以下のように導出される。
・coefficient_data_typeが０に等しいならば、ゲイン係数の値は、fp_nnm_norm_gain_coef[ y ][ x ][ cmp ] = (nnm_norm_gain_int[ y ][ x ][ cmp ] << coefficient_log2_denom) + nnm_norm_gain_coef[ y ][ x ][ cmp ]に等しい。
・coefficient_data_typeが１に等しいならば、ゲイン係数の値は、nnm_norm_gain_coef[ y ][ x ][ cmp ]に等しい。

nnm_norm_nmin_int[ y ][ x ][ cmp ]は、coefficient_data_typeが０に等しい場合には、fp_nnm_norm_nmin_coef[ y ][ x ][ cmp ]の整数部分を規定する。coefficient_data_typeが１に等しいならば、nnm_norm_nmin_int[ y ][ x ][ cmp ]は存在しない。
注記：coefficient_data_typeが０に等しい場合には、fp_nnm_norm_nmin_coef[ y ][ x ][ cmp ]を用いることにより、mapping_idc[ y ][ x ][ cmp ]に対応付けられた、正規化ドメインにおける最小値の値（the value of the minimum value in the normalization domain）が導出される。

nnm_norm_nmin_coef[ y ][ x ][ cmp ]は、coefficient_data_typeが０に等しい場合には、fp_nnm_norm_nmin_coef[ y ][ x ][ cmp ]の小数部分を規定する。coefficient_data_typeが１に等しいならば、nnm_norm_nmin_coef[ y ][ x ][ cmp ]を用いることにより、mapping_idc[ y ][ x ][ cmp ]に対応付けられたゲイン係数の値が導出される。coefficient_data_typeが０に等しいならば、nnm_norm_nmin_coef[ y ][ x ][ cmp ]構文要素の長さは、coefficient_log2_denomビットである。coefficient_data_typeが１に等しいならば、nnm_norm_nmin_coef[ y ][ x ][ cmp ] 構文要素の長さは、３２ビットである。 mapping_idc[ y ][ x ][ cmp ]に対応付けられた、正規化におけるゲイン係数の値は、以下のように導出される。
・coefficient_data_typeが０に等しいならば、ゲイン係数の値は、fp_nnm_norm_nmin_coef[ y ][ x ][ cmp ] = (nnm_norm_nmin_int[ y ][ x ][ cmp ] << coefficient_log2_denom) + nnm_norm_nmin_coef[ y ][ x ][ cmp ]に等しい。
・coefficient_data_typeが１に等しいならば、ゲイン係数の値は、nnm_norm_nmin_coef[ y ][ x ][ cmp ]に等しい。

nnm_norm_vmin_int[ y ][ x ][ cmp ]は、coefficient_data_typeが０に等しい場合には、fp_nnm_norm_vmin_coef[ y ][ x ][ cmp ]の整数部分を規定する。coefficient_data_typeが１に等しいならば、nnm_norm_nmin_int[ y ][ x ][ cmp ]は存在しない。
注記：coefficient_data_typeが０に等しい場合には、fp_nnm_norm_vmin_coef[ y ][ x ][ cmp ]を用いることにより、mapping_idc[ y ][ x ][ cmp ]に対応付けられた、非正規化ドメインにおける最小値の値（the value of the minimum value in the de-normalization domain）が導出される。

nnm_norm_vmin_coef[ y ][ x ][ cmp ]は、coefficient_data_typeが０に等しい場合には、fp_nnm_norm_vmin_coef[ y ][ x ][ cmp ]の小数部分を規定する。coefficient_data_typeが１に等しいならば、nnm_norm_vmin_coef[ y ][ x ][ cmp ]を用いることにより、mapping_idc[ y ][ x ][ cmp ]に対応付けられたゲイン係数の値が導出される。coefficient_data_typeが０に等しいならば、nnm_norm_vmin_coef[ y ][ x ][ cmp ]構文要素の長さは、coefficient_log2_denomビットである。coefficient_data_typeが１に等しいならば、nnm_norm_vmin_coef[ y ][ x ][ cmp ]構文要素の長さは、３２ビットである。mapping_idc[ y ][ x ][ cmp ]に対応付けられた、正規化におけるゲイン係数の値は、以下のように導出される。
・coefficient_data_typeが０に等しいならば、ゲイン係数の値は、fp_nnm_norm_vmin_coef[ y ][ x ][ cmp ] = (nnm_norm_vmin_int[ y ][ x ][ cmp ] << coefficient_log2_denom) + nnm_norm_vmin_coef[ y ][ x ][ cmp ]に等しい。
・coefficient_data_typeが１に等しいならば、ゲイン係数の値は、nnm_norm_vmin_coef[ y ][ x ][ cmp ]に等しい。

nnm_num_layerは、mapping_idc[ y ][ x ][ cmp ]に対応付けられた層数を通知（signal）する

nnm_weight_int[ y ][ x ][ cmp ][ i ][ j ]は、coefficient_data_typeが０に等しい場合には、fp_nnm_weight_coef[ y ][ x ][ cmp ][ i ][ j ]の整数部分を規定する。coefficient_data_typeが１に等しいならば、nnm_weight_int [ y ][ x ][ cmp ] [ i ][ j ]は存在しない。
注記：coefficient_data_typeが０に等しい場合には、fp_nnm_weight_coef[ y ][ x ][ cmp ][ i ][ j ]を用いることにより、mapping_idc[ y ][ x ][ cmp ][ i ]][ j ]に対応付けられた、層ｊにおけるノードｉに対する重み付け係数（the weighting coefficients for node i at layer j）が導出される。

nnm_weight_coef[ y ][ x ][ cmp ][ i ][ j ]は、coefficient_data_typeが０に等しい場合には、fp_nnm_weight_coef[ y ][ x ][ cmp ][ i ][ j ]の小数部分を規定する。coefficient_data_typeが１に等しいならば、nnm_weight_coef[ y ][ x ][ cmp ][ i ][ j ]を用いることにより、mapping_idc[ y ][ x ][ cmp ]に対応付けられたゲイン係数の値が導出される。coefficient_data_typeが０に等しいならば、nnm_weight_coef[ y ][ x ][ cmp ][ i ][ j ]構文要素の長さは、coefficient_log2_denomビットである。coefficient_data_typeが１に等しいならば、nnm_weight_coef[ y ][ x ][ cmp ][ i ][ j ]構文要素の長さは、３２ビットである。mapping_idc[ y ][ x ][ cmp ]に対応付けられた、正規化におけるゲイン係数の値は、以下のように導出される。
・coefficient_data_typeが０に等しいならば、ゲイン係数の値は、fp_nnm_weight_coef[ y ][ x ][ cmp ][ i ][ j ] = (nnm_weight_int[ y ][ x ][ cmp ][ i ][ j ] << coefficient_log2_denom) + nnm_weight_coef[ y ][ x ][ cmp ] [ i ][ j ]に等しい。
・coefficient_data_typeが１に等しいならば、ゲイン係数の値は、nnm_weight_coef[ y ][ x ][ cmp ][ i ][ j ]に等しい。

図５は、同一のシーンを表現するが、異なるダイナミックレンジおよび／または色域で表現する２つの画像間における、画像マッピング関数を導出する処理例（５００）を表している。本処理はステップ５０５において始まり、その中で、予測器２５０Ｅなどのマッピングプロセッサが、同一のシーンを表現するが異なるダイナミックレンジで表現する２つ以上の画像を受信する。例えば、リファレンス入力ＨＤＲ画像と、１つ以上の、ＳＤＲの派生的グレードまたは同一画像の別のＨＤＲ表現と、である。これらの入力に対し、ステップ５１０において、マッピングプロセッサにより、いずれのニューラルネットワーク（ＮＮ）モデルを選択すべきかが決定される。前述のように、マッピングプロセッサは、グローバルマッピングモデル、ローカルマッピングモデル、複数のグレードを用いるマッピング、または以上の組み合わせを含む（但し必ずしもこれらに限定されない）、様々なＮＮモデルの中から選択を行い得る。さらに、これらのモデルの各々は、異なる個数のレベルおよび各レベル中のノードにより、特徴付けられていてもよい。

ＮＮモデルの選択は、以下を含むいくつかの基準を考慮に入れる、様々な方法により行うことができる。すなわち、当該ＳＤＲおよびＨＤＲ入力についての予備知識、利用可能な演算リソースおよびメモリリソース、ならびにターゲット符号化効率（target coding efficiency）である。例えば、ある実施形態において、ターゲット出力と近似しようとするリファレンスグレードとの間の残差ＭＳＥの値（式（６）を参照）が所定の閾値を満たしているかどうかに基づき、ＮＮモデルを選択してもよい。ＮＮモデルおよび２つ以上の入力画像が与えられたとき、ＮＮパラメータ群（例えばノード重みおよびバイアス）は、ステップ５１５において、ある最適化基準に従って導出される。最後に、ステップ５２０において、マッピングプロセッサは、ＮＮモデルのパラメータ群を出力する。オプションとして、マッピングプロセッサはまた、生成されたマッピング（出力）画像をも出力してもよい。

本マッピング処理５００は、利用可能な演算リソースを用いつつ符号化効率を維持するために必要であると考えられる、様々な間隔で繰り返され得る。例えば、映像信号を符号化するとき、処理５００は、既定の映像スライスサイズ毎に、各フレームにつき、フレームのグループにつき、または予測残差がある特定の閾値を超過するときには必ず、繰り返されることが可能である。

マッピング処理５００は、全ての利用可能な入力画素を用いてもよいし、またはこれらの画素のサブサンプルを用いてもよい。一態様例において、入力データのｋ行目毎の画素行およびｋ列目毎の画素列に由来する画素のみを用いることができる。ここで、ｋは２以上の整数である。ある別の態様例において、ある特定のクリッピング閾値（例えばゼロに非常に近い）を下回る入力画素、または、ある特定の飽和閾値（saturation threshold）（例えばｎビットデータにおいて２^ｎ−１に非常に近い画素値）を上回る入力画素を、スキップすることに決めてもよい。さらに別のある態様において、このようなサブサンプリングおよび閾値設定の手法の組み合わせを用いることにより、画素サンプルサイズを低減して、特定の態様における演算制約に対応（accommodate）することが可能である。

コンピュータシステム実装例
本発明の実施形態は、コンピュータシステム、電子回路およびコンポーネントで構成されたシステム、マイクロコントローラ、フィールドプログラマブルゲートアレイ（ＦＰＧＡ）または他のコンフィギュラブルまたはプログラマブルロジックデバイス（ＰＬＤ）、離散時間またはデジタル信号プロセッサ（ＤＳＰ）、特定用途向けＩＣ（ＡＳＩＣ）などの集積回路（ＩＣ）デバイス、および／または、このようなシステム、デバイスまたはコンポーネントを１つ以上含む装置、を用いて実施し得る。このコンピュータおよび／またはＩＣは、本明細書に記載のようなＮＮＭベースのマッピングに関する命令を行い、制御し、または実行し得る。このコンピュータおよび／またはＩＣは、本明細書に記載のＮＮＭベースのマッピングに関する様々なパラメータまたは値のいずれを演算してもよい。これらの画像および映像ダイナミックレンジ拡張実施形態は、ハードウェア、ソフトウェア、ファームウェア、および、その様々な組み合わせで実施され得る。

本発明の特定の態様は、本発明の方法をプロセッサに行わせるためのソフトウェア命令を実行するコンピュータプロセッサを含む。例えば、ディスプレイ、エンコーダ、セットトップボックス、トランスコーダなどの中の１つ以上のプロセッサは、そのプロセッサがアクセス可能なプログラムメモリ内にあるソフトウェア命令を実行することによって、上記のようなＮＮＭベースのマッピング方法を実装し得る。本発明は、プログラム製品形態で提供されてもよい。このプログラム製品は、データプロセッサによって実行された時に本発明の方法をデータプロセッサに実行させるための命令を含む１セットの、コンピュータ読み取り可能な信号を格納する任意の媒体を含み得る。本発明によるプログラム製品は、様々な形態をとり得る。例えば、このプログラム製品は、フロッピーディスク、ハードディスクドライブを含む磁気データ記憶媒体、ＣＤＲＯＭ、ＤＶＤを含む光学データ記憶媒体、ＲＯＭ、フラッシュＲＡＭなどを含む電子データ記憶媒体、などの物理的媒体を含み得る。このプログラム製品上のコンピュータ可読信号は、任意に、圧縮または暗号化されていてもよい。

上記においてあるコンポーネント（例えば、ソフトウェアモジュール、プロセッサ、アセンブリ、デバイス、回路など）に言及している場合、そのコンポーネントへの言及（「手段」への言及を含む）は、そうでないと明記されている場合を除いて、当該コンポーネントの機能を果たす（例えば、機能的に均等である）あらゆるコンポーネント（上記した本発明の実施形態例に出てくる機能を果たす開示構造に対して構造的に均等ではないコンポーネントも含む）を、当該コンポーネントの均等物として、含むものと解釈されるべきである。

均等物、拡張物、代替物、その他
ＨＤＲおよびＳＤＲ画像をマッピングするにあたりニューラルネットワークを適用することに関する実施形態例を上述した。この明細書中において、各実装毎に異なり得る多数の具体的な詳細に言及しながら本発明の実施形態を説明した。従って、本発明が如何なるものかおよび出願人は本発明が如何なるものであると意図しているかについての唯一且つ排他的な指標は、後の訂正を含む、これら請求項が生じる具体的な形態の、本願から生じる１組の請求項である。当該請求項に含まれる用語に対して本明細書中に明示したあらゆる定義が、請求項内で使用される当該用語の意味を決定するものとする。よって、請求項に明示的に記載されていない限定事項、構成要素、特性、特徴、利点または属性は、いかなる形であれ請求の範囲を限定するものではない。従って、本明細書および図面は、限定的ではなく、例示的であると認識されるべきものである。

列挙実施形態例
ｒａｗ画素データにおける飽和画素値を回復させるための方法およびデバイスに関する、本発明の列挙実施形態例（enumerated example embodiments）（「ＥＥＥ」）を上述した。ゆえに本発明の実施形態は、以下に列挙する例のうち、１つ以上に関し得る。
ＥＥＥ１．
エンコーダにおける、第１のダイナミックレンジから第２のダイナミックレンジへ画像をマッピングする方法であって、
第１のダイナミックレンジを有する画像を第２のダイナミックレンジを有する画像において（in terms of）近似するように各々が適応された、１つ以上のニューラルネットワーク（ＮＮ）モデルを用意する工程と、
前記第１のダイナミックレンジにおける第１の画像と前記第２のダイナミックレンジにおける第２の画像とを受信する工程であって、前記２つの画像は同一のシーンを表現している、工程と、
前記様々なＮＮモデルから、前記第１の画像と前記第２の画像とに基づき前記第２の画像を近似する出力画像を決定するためのニューラルネットワークモデルを選択する工程と、
ある最適化基準と、前記第１の画像と、前記第２の画像とに従って、前記選択されたＮＮモデルのパラメータの値を決定する工程であって、前記パラメータは、前記選択されたＮＮモデルの各層におけるノードの各々についての、ノード重みおよびノードバイアスを含む、工程と、
前記選択されたＮＮモデルの前記パラメータを出力する工程と、
を包含する方法。
ＥＥＥ２．
前記１つ以上のＮＮモデルは、グローバルマッピングＮＮモデルと、ローカルマッピングＮＮモデルと、複数のカラーグレードを用いるグローバルマッピングＮＮモデルとを含む、ＥＥＥ１に記載の方法。
ＥＥＥ３．
前記１つ以上のＮＮモデルはグローバルマッピングＮＮモデルを含み、前記グローバルマッピングＮＮモデルは、前記第１および前記第２の画像の色成分の各々につき１つずつの、３つのニューラルネットワークを備え、前記３つのニューラルネットワークの各々は、前記第１の画像および前記第２の画像の３色成分全ての画素値に基づく入力を受け取る、先行ＥＥＥのいずれかに記載の方法。
ＥＥＥ４．
前記１つ以上のＮＮモデルはローカルマッピングモデルを含み、前記ローカルマッピングＮＮモデルは、前記第１および前記第２の画像の色成分の各々につき１つずつの、３つのニューラルネットワークを備え、前記３つのニューラルネットワークの各々は、前記第１の画像および前記第２の画像の３色成分全ての画素値に基づく入力と、前記入力画素値の画素座標を示す入力とを受け取る、先行ＥＥＥのいずれかに記載の方法。
ＥＥＥ５．
さらに、第３のダイナミックレンジにおける第３の画像を受信する工程を包含する方法であって、
前記第３の画像は、前記第１および前記第２の画像と同一のシーンを表現しており、
前記１つ以上のＮＮモデルは、前記３つの画像の色成分の各々につき１つずつの３つのニューラルネットワークを備えた、複数のカラーグレードを用いるグローバルマッピングモデルを含み、前記３つのニューラルネットワークの各々は、前記３つの画像の３色成分全ての画素値に基づく入力と、前記入力画素値のカラーグレードを示す入力とを受け取る、
先行ＥＥＥのいずれかに記載の方法。
ＥＥＥ６．
前記入力画素の入力グレードの前記カラーグレードを示す前記入力は、各カラーグレードの正規化ピーク明度の正規化ベクトルを含む、ＥＥＥ５に記載の方法。
ＥＥＥ７．
前記３つのニューラルネットワークの各々に対する入力画素値は、−１と１の間に正規化される、ＥＥＥ３〜５のいずれかに記載の方法。
ＥＥＥ８．
前記選択されたＮＮモデルの前記パラメータはさらに、前記正規化された入力画素値の各色成分についての、ゲイン係数と、最小値と、最大値とを含む、ＥＥＥ７に記載の方法。
ＥＥＥ９．
全ての入力画像は４：２：０ＹＣｂＣｒ色形式で表されており、
第２の色成分（Ｃｂ）および第３の色成分（Ｃｒ）についての前記ニューラルネットワークへ入力する前に、前記第１の画像のＹ成分を、前記第１の画像のＣｂまたはＣｒ成分の解像度までダウンサンプリングするための、画像ダウンサンプリング器と、
第１の色成分（Ｙ）についての前記ニューラルネットワークへ入力する前に、前記第２の画像のＣｂおよびＣｒ成分を、前記第１の画像のＹ成分の解像度までアップサンプリングするための、画像アップサンプリング器と、
をさらに含む、ＥＥＥ３〜５のいずれかに記載の方法。
ＥＥＥ１０．
前記画素座標は、（ｘ，ｙ）位置のペアを含み、前記位置のペアにおける値は、０と１の間になるように正規化される、ＥＥＥ４またはＥＥＥ４に従属するときの先行ＥＥＥのいずれかに記載の方法。
ＥＥＥ１１．
前記最適化基準は、前記出力画像と前記第２の入力画像との間の平均二乗誤差を最小化することを含む、先行ＥＥＥのいずれかに記載の方法。
ＥＥＥ１２．
全ての入力画像は４：２：０ＹＣｂＣｒ色形式で表されており、さらに、
前記第１および前記第２の画像に由来する入力ルマ（Ｙ）およびクロマ（ＣｂまたはＣｒ）画素値を、前記第１の画像における第１の正規化ルマおよびクロマサンプル点から、前記第２の画像への第１の平均ルマおよびクロマ３Ｄマッピングへの、マッピングとして表現する、第１の３Ｄマッピングテーブル（３ＤＭＴ）を生成する工程であって、前記入力クロマ画素値は、前記入力ルマ画素値の空間解像度にマッチするようにアップサンプリングされる、工程と、
前記第１および前記第２の画像に由来する入力ルマ画素値およびクロマ画素値を、前記第１の画像における第２の正規化ルマおよびクロマサンプル点から、前記第２の画像への第２の平均ルマおよびクロマ３Ｄマッピングへの、マッピングとして表現する、第２の３ＤＭＴを生成する工程であって、前記入力ルマ画素値は、前記入力クロマ画素値の空間解像度にマッチするようにダウンサンプリングされる、工程と、
入力として、前記第１の画像における前記第１の正規化ルマおよびクロマサンプル点と、前記第２の画像への前記第１の平均ルマ３Ｄマッピングとを与えることにより、Ｙ出力成分についての前記ニューラルネットワークの前記パラメータを生成する工程と、
入力として、前記第１の画像における前記第２の正規化ルマおよびクロマサンプル点と、前記第２の画像への前記第２の平均Ｃｂ３Ｄマッピングとを与えることにより、Ｃｂ出力成分についての前記ニューラルネットワークの前記パラメータを生成する工程と、
入力として、前記第１の画像における前記第２の正規化ルマおよびクロマサンプル点と、前記第２の画像への前記第２の平均Ｃｒ３Ｄマッピングとを与えることにより、Ｃｒ出力成分についての前記ニューラルネットワークの前記パラメータを生成する工程と、
を包含する、ＥＥＥ３またはＥＥＥ３に従属するときの先行ＥＥＥのいずれかに記載の方法。
ＥＥＥ１３．
前記第１のダイナミックレンジは、前記第２のダイナミックレンジに等しいか、または前記第２のダイナミックレンジよりも高い、先行ＥＥＥのいずれかに記載の方法。
ＥＥＥ１４．
前記第１のダイナミックレンジは、前記第１のダイナミックレンジよりも低い、先行ＥＥＥのいずれかに記載の方法。
ＥＥＥ１５．
前記出力画像を生成する工程と、
前記出力画像を圧縮することにより、符号化画像を生成する工程と、
前記符号化画像と前記選択されたＮＮモデルの前記パラメータとを結合することにより、出力ビットストリームを生成する工程と、
をさらに包含する、先行ＥＥＥのいずれかに記載の方法
ＥＥＥ１６．
デコーダにおける、第１のダイナミックレンジから第２のダイナミックレンジへ画像をマッピングする方法であって、
第１のダイナミックレンジにおける符号化画像と、画像メタデータとを含む圧縮ビットストリームを受信する工程であって、前記画像メタデータは、前記符号化画像を出力画像へマッピングするためのニューラルネットワーク（ＮＮ）モデルのパラメータを含み、前記画像メタデータは、前記符号化画像の１つ以上の色成分につき、前記ＮＮにおけるニューラルネット層数と、各層におけるニューラルノード数と、各ノードの活性化関数とともに用いられる重みおよびオフセットとを含む、工程と、
前記符号化画像と、前記ＮＮモデルの前記パラメータとに基づき、出力画像を生成する工程と、
を包含する方法。
ＥＥＥ１７．
ＥＥＥ１６に記載の方法であって、前記画像メタデータはさらにスケーリングメタデータを含み、前記スケーリングメタデータは、前記符号化画像の各色成分につき、ゲイン値と、最小値と、最大値とを含み、前記方法はさらに、前記スケーリングメタデータと前記出力画像とに基づき、非正規化出力画像を生成する工程を包含する、方法。
ＥＥＥ１８．
前記活性化関数はシグモイド関数を含む、ＥＥＥ１６または１７に記載の方法。
ＥＥＥ１９．
ＥＥＥ１〜１８のいずれかに記載の方法を１つ以上のプロセッサで実行するためのコンピュータ実行可能命令を格納した、非一時的なコンピュータ可読記憶媒体。
ＥＥＥ２０．
プロセッサを備えており、かつ、ＥＥＥ１〜１８のいずれかに記載の方法を実行するように構成された装置。

Claims

第１のダイナミックレンジから第２のダイナミックレンジへ画像をマッピングする方法であって、
第１のダイナミックレンジを有する画像を第２のダイナミックレンジを有する画像において（in terms of）近似するように各々が適応された、１つ以上のニューラルネットワーク（ＮＮ）モデルを用意する工程と、
前記第１のダイナミックレンジにおける第１の画像と前記第２のダイナミックレンジにおける第２の画像とを受信する工程であって、前記２つの画像は同一のシーンを表現している、工程と、
前記様々なＮＮモデルから、前記第１の画像と前記第２の画像とに基づき前記第２の画像を近似する出力画像を決定するためのニューラルネットワークモデルを選択する工程と、
ある最適化基準と、前記第１の画像と、前記第２の画像とに従って、前記選択されたＮＮモデルのパラメータの値を決定する工程であって、前記パラメータは、前記選択されたＮＮモデルの層におけるノードについての、ノード重みおよび／またはノードバイアスを含む、工程と、
前記選択されたＮＮモデルの前記パラメータを出力する工程と、
を包含する方法。
前記１つ以上のＮＮモデルはグローバルマッピングＮＮモデルを含み、前記グローバルマッピングＮＮモデルは、前記第１および前記第２の画像の色成分の各々につき１つずつの、３つのニューラルネットワークを備え、前記３つのニューラルネットワークの各々は、前記第１の画像および前記第２の画像の３色成分全ての画素値に基づく入力を受け取る、請求項１に記載の方法。
前記１つ以上のＮＮモデルはローカルマッピングモデルを含み、前記ローカルマッピングＮＮモデルは、前記第１および前記第２の画像の色成分の各々につき１つずつの、３つのニューラルネットワークを備え、前記３つのニューラルネットワークの各々は、前記第１の画像および前記第２の画像の３色成分全ての画素値に基づく入力と、前記入力画素値の画素座標を示す入力とを受け取る、先行請求項のいずれかに記載の方法。
さらに、第３のダイナミックレンジにおける第３の画像を受信する工程を包含する方法であって、
前記第３の画像は、前記第１および前記第２の画像と同一のシーンを表現しており、
前記１つ以上のＮＮモデルは、前記３つの画像の色成分の各々につき１つずつの３つのニューラルネットワークを備えた、複数のカラーグレードを用いるグローバルマッピングモデルを含み、前記３つのニューラルネットワークの各々は、前記３つの画像の３色成分全ての画素値に基づく入力と、前記入力画素値のカラーグレードを示す入力とを受け取る、
先行請求項のいずれかに記載の方法。
前記入力画素の入力グレードの前記カラーグレードを示す前記入力は、各カラーグレードの正規化ピーク明度の正規化ベクトルを含む、請求項４に記載の方法。
前記３つのニューラルネットワークの各々に対する入力画素値は、−１と１の間に正規化される、請求項２〜４のいずれかに記載の方法。
前記選択されたＮＮモデルの前記パラメータはさらに、前記正規化された入力画素値の各色成分についての、ゲイン係数と、最小値と、最大値とを含む、請求項６に記載の方法。
全ての入力画像は４：２：０ＹＣｂＣｒ色形式で表されており、
第２の色成分（Ｃｂ）および第３の色成分（Ｃｒ）についての前記ニューラルネットワークへ入力する前に、前記第１の画像のＹ成分を、前記第１の画像のＣｂまたはＣｒ成分の解像度までダウンサンプリングする工程と、
第１の色成分（Ｙ）についての前記ニューラルネットワークへ入力する前に、前記第２の画像のＣｂおよびＣｒ成分を、前記第１の画像のＹ成分の解像度までアップサンプリングする工程と、
をさらに含む、請求項２〜４のいずれかに記載の方法。
前記画素座標は、（ｘ，ｙ）位置のペアを含み、前記位置のペアにおける値は、０と１の間になるように正規化される、請求項３または請求項３に従属するときの先行請求項のいずれかに記載の方法。
前記最適化基準は、前記出力画像と前記第２の入力画像との間の平均二乗誤差を最小化することを含む、先行請求項のいずれかに記載の方法。
全ての入力画像は４：２：０ＹＣｂＣｒ色形式で表されており、さらに、
前記第１および前記第２の画像に由来する入力ルマ（Ｙ）およびクロマ（ＣｂまたはＣｒ）画素値を、前記第１の画像における第１の正規化ルマおよびクロマサンプル点から、前記第２の画像への第１の平均ルマおよびクロマ３Ｄマッピングへの、マッピングとして表現する、第１の３Ｄマッピングテーブル（３ＤＭＴ）を生成する工程であって、前記入力クロマ画素値は、前記入力ルマ画素値の空間解像度にマッチするようにアップサンプリングされる、工程と、
前記第１および前記第２の画像に由来する入力ルマ画素値およびクロマ画素値を、前記第１の画像における第２の正規化ルマおよびクロマサンプル点から、前記第２の画像への第２の平均ルマおよびクロマ３Ｄマッピングへの、マッピングとして表現する、第２の３ＤＭＴを生成する工程であって、前記入力ルマ画素値は、前記入力クロマ画素値の空間解像度にマッチするようにダウンサンプリングされる、工程と、
入力として、前記第１の画像における前記第１の正規化ルマおよびクロマサンプル点と、前記第２の画像への前記第１の平均ルマ３Ｄマッピングとを与えることにより、Ｙ出力成分についての前記ニューラルネットワークの前記パラメータを生成する工程と、
入力として、前記第１の画像における前記第２の正規化ルマおよびクロマサンプル点と、前記第２の画像への前記第２の平均Ｃｂ３Ｄマッピングとを与えることにより、Ｃｂ出力成分についての前記ニューラルネットワークの前記パラメータを生成する工程と、
入力として、前記第１の画像における前記第２の正規化ルマおよびクロマサンプル点と、前記第２の画像への前記第２の平均Ｃｒ３Ｄマッピングとを与えることにより、Ｃｒ出力成分についての前記ニューラルネットワークの前記パラメータを生成する工程と、
を包含する、先行請求項のいずれかに記載の方法。
前記第１のダイナミックレンジは、前記第２のダイナミックレンジと異なる、先行請求項のいずれかに記載の方法。
前記第１のダイナミックレンジは、前記第２のダイナミックレンジに等しいか、前記第２のダイナミックレンジよりも低いか、または前記第２のダイナミックレンジよりも高い、先行請求項のいずれかに記載の方法。
前記出力画像を生成する工程と、
前記出力画像を圧縮することにより、符号化画像を生成する工程と、
前記符号化画像と前記選択されたＮＮモデルの前記パラメータとを結合することにより、出力ビットストリームを生成する工程と、
をさらに包含する、先行請求項のいずれかに記載の方法
第１のダイナミックレンジから第２のダイナミックレンジへ画像をマッピングする方法であって、
第１のダイナミックレンジにおける符号化画像と、画像メタデータとを含む圧縮ビットストリームを受信する工程であって、前記画像メタデータは、前記符号化画像を出力画像へマッピングするためのニューラルネットワーク（ＮＮ）モデルのパラメータを含み、前記画像メタデータは、前記符号化画像の１つ以上の色成分につき、前記ＮＮにおけるニューラルネット層数と、少なくとも１つの層におけるニューラルノード数と、前記少なくとも１つの層におけるノードの活性化関数とともに用いられる重みおよびオフセットとを含む、工程と、
前記符号化画像と、前記ＮＮモデルの前記パラメータとに基づき、出力画像を生成する工程と、
を包含する方法。
請求項１５に記載の方法であって、前記画像メタデータはさらにスケーリングメタデータを含み、前記スケーリングメタデータは、前記符号化画像の各色成分につき、ゲイン値と、最小値と、最大値とを含み、前記方法はさらに、前記スケーリングメタデータと前記出力画像とに基づき、非正規化出力画像を生成する工程を包含する、方法。