JP2024531432A

JP2024531432A - ディスプレイ管理における高精度レンダリングのためのニューラルネットワーク

Info

Publication number: JP2024531432A
Application number: JP2024510645A
Authority: JP
Inventors: クマールアタヌチョウドゥリー，アヌストゥプ; アトキンズ，ロビン
Original assignee: ドルビーラボラトリーズライセンシングコーポレイション
Priority date: 2021-08-24
Filing date: 2022-08-23
Publication date: 2024-08-29
Also published as: WO2023028046A1; EP4392928A1

Abstract

ニューラルネットワークを使用したディスプレイマッピングにおける高精細レンダリングのための方法及びシステムが記載される。強度入力画像が与えられると、ピラミッド型２等分サブネットワーク、ピラミッド型ダウンサンプリングサブネットワーク、ピラミッド型アップサンプリングサブネットワーク、及び最終層生成サブネットワークを含む一連のニューラルネットワークが、ディスプレイマッピングで使用される基本層画像及び詳細層画像を生成する。

Description

［関連出願］
本願は、米国仮特許出願番号第号６３／２３６,４７６号、２０２１年８月２４日出願、及び欧州特許出願番号第号２１２０６３９８.６号、２０２１年１１月４日出願、の優先権の利益を請求する。これらの出願の各々は参照によりここに組み込まれる。

［技術分野］
本発明は、概して画像に関連する。より具体的には、本発明の実施形態は、ディスプレイ管理における高精細（precision）レンダリングに関する。

本願明細書で使用されるとき、用語「ダイナミックレンジ（dynamic range （DR））」は、例えば最も暗い灰色（黒）から最も明るい白色（ハイライト）までの画像内の強度（例えば、輝度、ルマ）範囲を知覚する人間の視覚システム（human visual system （HVS））の能力に関連し得る。このシーンでは、DRは「シーン参照」強度に関連する。DRは、特定幅の強度範囲を適切に又は近似的にレンダリングするディスプレイ装置の能力にも関連してよい。このシーンでは、DRは「ディスプレイ参照」強度に関連する。本願明細書の説明の任意の点において、特定のシーンが特定の重要度を有すると明示的に指定されない限り、用語はいずれかのシーンで、例えば、同義的に使用されてよいことが推定されるべきである。

本願明細書で使用されるとき、用語「高ダイナミックレンジ（high dynamic range （HDR））」は、人間の視覚システム（HVS）の大きさの約１４～１５倍又はそれより大きな程度に渡るDR幅に関連する。実際に、人間が強度範囲の中の広範な幅を同時に知覚し得るDRは、HDRに関連して、何らかの方法で省略され得る。本願明細書で使用されるとき、用語「拡張ダイナミックレンジ（enhanced dynamic range （EDR））」又は「視覚ダイナミックレンジ（visual dynamic range （VDR））」は、個々に又は同義的に、目の動きを含む人間の視覚システム（HVS）によりシーン又は画像内で知覚可能なDRに関連し、何からの光適応がシーン又は画像に渡り変化することを可能にする。

実際には、画像は１つ以上の色成分（例えば、ルマY及びクロマCb及びCr）を含み、各色成分はピクセル当たりnビット（例えば、n=８）の精度により表される。例えば、ガンマ輝度コーディングを使用すると、n≦８である画像（例えば、カラー２４ビットJPEG画像）は、標準ダイナミックレンジの画像であると考えられる。一方で、n≧１０である画像は、拡張ダイナミックレンジの画像であると考えられてよい。EDR及びHDR画像は、Industrial Light and Magicにより開発されたOpenEXRファイルフォーマットのような高精細（例えば、１６ビット）浮動小数点フォーマットを用いて格納され配信されてもよい。

ここで使用されるように、用語「メタデータ」は、本願明細書では、コーディングされたビットストリームの部分として送信される任意の補助情報に関連し、復号画像をレンダリングするためにデコーダを支援する。このようなメタデータは、限定ではないが、本願明細書に記載されるような、画像内の最小、平均、及び最大輝度、色空間又は全色域（gamut）情報、参照ディスプレイパラメータ、及び補助信号パラメータ、を含んでよい。

大部分の消費者デスクトップディスプレイは、現在、２００～３００cd／m^２又はニトの輝度をサポートする。大部分の消費者HDTVは、３００～５００ニトの範囲であり、新しいモデルは１０００ニト（cd/m^２）にまで達している。そのような従来のディスプレイは、HDR又はEDRに対して標準ダイナミックレンジ（SDR）とも呼ばれる、低ダイナミックレンジ（lower dynamic range （LDR））の特徴を示す。HDRコンテンツの利用可能性が、キャプチャ機器（例えばカメラ）及びHDRディスプレイ（例えば、Dolby LaboratoriesのPRM－４２００プロフェッショナルリファレンスモニタ）の両方における進歩により増大するにつれ、HDRコンテンツは、カラーグレーディングされ、より高いダイナミックレンジ（例えば、１０００ニト～５０００ニト、又はそれより高い）をサポートするHDRディスプレイ上で表示されるようになり得る。一般に、限定ではなく、本開示の方法はSDRより高いダイナミックレンジに関する。

本明細書で使用されるように、用語「ディスプレイ管理」は、ターゲットディスプレイ用に画像をレンダリングするために受信機で実行される処理を表す。例えば、このような処理には、トーンマッピング、色域マッピング、カラーマネジメント、フレームレート変換などが含まれるが、これらに限定されるものではない。

本明細書で使用されるように、用語「高精細レンダリング」は、入力画像をフィルタリングされた基本層画像と詳細層画像（参考文献[２]）の２つの層に分割するために使用されるダウンサンプリング及びアップサンプリング／フィルタリング処理を表す。トーンマッピング曲線をフィルタリングされた基本層に適用し、次に詳細層を結果に追加し直すことにより、トーンマッピング又はディスプレイマッピングにおいて、画像の元のコントラストをグローバルにもローカルにも保存することができる。これは、「詳細保存」又は「ローカルトーンマッピング」とも呼ばれる。高精細レンダリングの更なる詳細については、後述する。

高ダイナミックレンジ（High Dynamic Range （HDR））技術が以前のフォーマットよりも写実的で真に迫った画像を提供するので、HDRコンテンツの生成及び再生は、現在広く普及している。並行して、IC製造業者は、ニューラルネットワーク（neural network （NN））用のハードウェアアクセラレータを組み込み始めている。既存のディスプレイ方式を改善するために、本発明者らにより理解されているように、このようなニューラルネットワークアクセラレータを利用しながら、ニューラルネットワークを用いた高精度レンダリング及びディスプレイ管理のための改善された技術が開発されている。

本章に記載されるアプローチは、追求される可能性のあるアプローチであるが、必ずしも以前に考案された又は追求されアプローチであるとは限らない。従って、特に断りのない限り、本章に記載されるアプローチのいずれも、それらが本章に含まれるというだけで従来技術と認められるものと考えられるべきではない。同様に、１つ以上のアプローチに関して特定される課題は、特に示されない限り、本章に基づき任意の従来技術の中で認識されたものと想定されるべきではない。

本発明の実施形態は、限定ではなく、例を用いて説明され、添付の図中の同様の参照符号は同様の要素を表す。

ビデオ配信パイプラインの例示的な処理を示す。

本発明の実施形態による高精細レンダリングを用いるディスプレイ管理の例示的な処理を示す。

本発明の実施形態による高精細レンダリングパイプラインの例を示す。

本発明の実施形態によるピラミッド型ダウンサンプリングサブネットワークの例示的なニューラルネットワークを示す。

本発明の実施形態によるピラミッド型アップサンプリングサブネットワークの例示的なニューラルネットワークを示す。

本発明の実施形態によるピラミッド型アップサンプリングサブネットワークで使用されているエッジフィルタの例示的なニューラルネットワークを示す。

本発明の実施形態によるピラミッド型アップサンプリングサブネットワークで使用されているアップサンプリングフィルタの例示的なニューラルネットワークを示す。

本発明の実施形態による最終層生成サブネットワークの例示的なニューラルネットワークを示す。

本願明細書には、ニューラルネットワークを使用したディスプレイ管理における高精細レンダリングのための方法及びシステムが記載される。以下の詳細な説明を通じて、説明を目的として、本発明の完全な理解を提供するために、多数の特定の詳細が説明される。しかしながら、本発明がこれらの特定の詳細のうちの一部を有しないで実行されてよいことが明らかである。他の例では、よく知られた構造及び装置は、本発明を抑止し（occluding）、曖昧にし、又は不明瞭にすることを避けるために、徹底的に詳細に記載されない。

＜要約＞
本明細書に記載される例示的な実施形態は、ニューラルネットワークアーキテクチャを用いたディスプレイ管理における高精細レンダリングのための方法に関する。一実施形態では、ニューラルネットワークシステムは、第１ダイナミックレンジ及び第１空間解像度で入力画像を受信する。次に、前記システムは、
前記入力画像に基づいて入力強度画像（I）を生成し、
前記入力強度画像が第２空間解像度以下になるまで、前記入力強度画像をサブサンプリングすることにより、ピラミッド型２等分ネットワークを用いて第２強度画像を生成し、
前記第２強度画像及びピラミッド型ダウンサンプリングニューラルネットワークに基づいて、ダウンサンプリングされた画像のセットを生成し、
前記ダウンサンプリングされた画像のセット及びエッジ認識アップサンプリングフィルタリングを含むピラミッド型アップサンプリングニューラルネットワークに基づいて、前記第２空間解像度で２つのアップサンプリングされた画像を生成し、
前記２つのアップサンプリングされた画像及び前記入力強度画像を最終層ニューラルネットワークで結合することにより、前記第１空間解像度で出力基本層（BL）画像を生成する。

ディスプレイ管理における高精度レンダリングのためのニューラルネットワーク
ビデオコーディングパイプライン
図１は、ビデオキャプチャからビデオコンテンツ表示までの種々の段階を示す従来のビデオ配信パイプライン１００の例示的な処理を示す。ビデオフレーム（１０２）のシーケンスは、画像生成ブロック（１０５）を用いてキャプチャ又は生成される。ビデオフレーム（１０２）は、デジタル方式で（例えば、デジタルカメラにより）キャプチャされ、又はコンピュータにより（例えば、コンピュータアニメーションを、用いて）生成されてよく、ビデオデータ（１０７）を提供する。代替として、ビデオフレーム１０２は、フィルムカメラによりフィルム上にキャプチャされてよい。フィルムは、デジタルフォーマットに変換されて、ビデオデータ１０７を提供する。プロダクション（production）段階１１０において、ビデオデータ１０７は、ビデオプロダクションストリーム１１２を提供するために編集される。

プロダクションストリーム（１１２）のビデオデータは、次に、ブロック１１５で、ポストプロダクション編集のためにプロセッサに提供される。ブロック（１１５）のポストプロダクション編集は、ビデオ制作者の製作意図に従い画像品質を向上するため又は特定の外観を達成するために、画像の特定領域の色又は明るさの調整又は変更を含んでよい。これは、時に、「色タイミング」又は「色グレーディング」と呼ばれる。他の編集（例えば、シーン選択及び順序付け、画像クロッピング、コンピュータが生成した視覚的特殊効果の追加、激しい振動、等）が、配信のためのプロダクションの最終バージョン（１１７）を生成するために、ブロック（１１５）で実行されてよい。ポストプロダクション編集（１１５）の間、ビデオ画像は、基準ディスプレイ（１２５）上で表示される。

ポストプロダクション（１１５）に続いて、最終プロダクションビデオデータ（１１７）は、テレビセット、セットトップボックス、映画劇場、等のような復号及び再生装置へと下流に配信するために、符号化ブロック（１２０）に配信されてよい。幾つかの実施形態では、コーディングブロック（１２０）は、コーディングされたビットストリーム（１２２）を生成するために、ATSC、DVB、DVD、Blu－Ray（登録商標）、及び他の配信フォーマットにより定義されるような、オーディオ及びビデオエンコーダを含んでよい。受信機では、コーディングされたビットストリーム（１２２）は、信号（１１７）と同一のもの又はその非常に近い近似を表す復号信号（１３２）を生成するために、復号ユニット（１３０）により復号される。受信機は、基準ディスプレイ（１２５）と全く異なる特性を有してよい目標ディスプレイ（１４０）に取り付けられてよい。その場合、ディスプレイ管理ブロック（１３５）は、ディスプレイマッピング済み信号（１３７）を生成することにより、復号信号（１３２）のダイナミックレンジを目標ディスプレイ（１４０）の特性にマッピングするために使用されてよい。限定ではなく、ディスプレイ管理処理の例は、参考文献[１]及び[２]に記載されている。

グローバル対ローカルトーンマッピング技術
従来のグローバルディスプレイマッピングでは、マッピングアルゴリズムは、単一のシグモイド様関数（例えば、参考文献[３]及び[４]を参照）を適用して、入力ダイナミックレンジを目標ディスプレイのダイナミックレンジにマッピングする。このようなマッピング関数は、アンカーポイント、ピボット、及び入力ソースと目標ディスプレイの特性を使用して生成されるその他の多項式パラメータによって特徴付けられる区分線形又は非線形多項式として表すことができる。例えば、参考文献[３－４]では、マッピング関数は、入力画像とディスプレイの輝度特性（例えば、最小、中間（平均）、及び最大輝度）に基づくアンカーポイントを使用する。しかし、他のマッピング関数は、ブロックレベル、ピクチャスライス、又は画像全体の輝度値の分散又は標準偏差など、異なる統計データを使用することができる。

参考文献[２]により詳細に説明されているように、ディスプレイマッピング処理（１３５）は、入力画像の局所的なコントラスト及び詳細情報を考慮することによって、更に改善することができる。例えば、後述するように、ダウンサンプリング及びアップサンプリング／フィルタリング処理は、入力画像を、フィルタリングされた基本層画像と詳細層画像の２つの層に分割するために使用されてよい。トーンマッピング曲線をフィルタリングされた基本層に適用し、次に詳細層を結果に追加し直すことにより、画像の元のコントラストをグローバルにもローカルにも保存することができる。これは、「詳細保存」（detail preservation）又は「高精細レンダリング」（precision rendering）とも呼ばれる。

従って、ディスプレイマッピングは、多段階動作として実行することができる。
a）SDR（又はHDR）をHDRマッピングに導くための基本層（BL）画像を生成する；
b）基本層画像へのトーンマッピングを実行する；
c）詳細層画像をトーンマッピングされた基本層画像に追加する。

参考文献[２]では、生成された基本層（BL）は、元の画像の空間的にぼやけた、エッジが保存されたバージョンを表す。つまり、重要なエッジは維持されるが、詳細はぼやける。具体的には、BL画像の生成には以下が含まれる。
－元の画像の強度を使用して、低解像度のレイヤを含む画像ピラミッドを生成し、各レイヤを保存する；
－最低解像度の層から開始し、より高い層にアップサンプリングして基本層を生成する。基本層及び詳細層画像を生成する例については、本明細書の後半で説明する。

ニューラルネットワークアーキテクチャ
図２は、高精度レンダリング（２２５）を使用するディスプレイ管理の例示的な処理（２００）を示している。図２に示すように、入力ビデオ（２０２）は、ビデオデコーダから受信したビデオ及び／又はグラフィカル処理ユニット（例えば、セットトップボックスから）から受信したビデオ、及び／又は他のビデオ入力（例えば、カメラ、テレビ又はセットトップボックスのHDMI（登録商標）ポート、グラフィカル処理ユニット（GPU）などから）を含むことができる。入力ビデオ（２０２）は、適切なダイナミックレンジ変換の後にHDR又はSDRディスプレイ上で表示される「SDR」又は「HDR」ビデオとして特徴付けることができる。

一実施形態では、処理２００は、入力信号の強度（I）の特性に基づいてトーンマッピング曲線を生成するマッピング曲線生成ユニット（２１５）を含む。このような処理の例は、参考文献[１－５]に記載されている。マッピング曲線生成ユニットの出力は、高精細レンダリングブロック（２２５）及びオプションの詳細層予測ユニット（２３０）の出力と共に、ディスプレイマッピングユニット（２２０）に供給され、マッピングされた出力２２２を生成する。

強度を抽出するために、入力RGB画像は、ITU－R Rec.２１００などの従来知られている色変換技術を使用して、YCbCr、ICtCpなどのルマ－クロマカラーフォーマットに変換することができる。別の実施形態では、強度は、そのR、G、及びB成分のピクセルあたりの最大値として特徴付けることができる。強度抽出ステップは、ソース画像がすでに単一チャネル強度画像として表されている場合にバイパスすることができる。幾つかの実施形態では、ピクセル値は、画像統計の計算を容易にするために、所定の標準ダイナミックレンジに従って、例えば０.００５から１００ニトの間で、[０，１]に正規化することもできる。

図２に示すように、処理２００は、高精細レンダリングブロック（２２５）を含み、元の画像の強度（I）が与えられると、基本層（IBL）（base layer （BL））画像及び詳細層（IDL）（detail layer （DL））画像を生成する。一実施形態では、詳細層画像の位置（x、y）におけるピクセルは、次のように生成される：

ここで、dgは、[０，１]における詳細利得スケーラ（scaler）を示す。

詳細層予測ブロック（２３０）は、入力画像の詳細層（DL）とソース画像の強度（I）チャネルの２つのチャネルを入力として取り入れる。それは、詳細層画像と同じ解像度で、詳細層画像に追加される残差値を含む単一チャネル予測詳細層（predicted detail layer （PDL））画像を生成する。一実施形態では、詳細層残差は、出力画像の局所コントラストを引き伸ばして、知覚されるコントラスト及びダイナミックレンジを増大させる。詳細層入力及び入力画像の両方を利用することにより、参考文献[５]で説明されているように、ブロック２３０のニューラルネットワーク実装は、詳細層のコンテンツだけでなく、ソース画像のコンテンツにも基づいて、コントラストの引き伸ばしを予測することができる。ある意味で、これは、ニューラルネットワーク（NN）に、基本画像及び詳細画像への固定精度レンダリング分解が有する可能性のある問題を補正する可能性を与える。

幾つかの実施形態では、基本層IBLを直接、又は次式のように入力強度画像Iと組み合わせて使用することができる：

ここで、αは[０，１]のスケーラである。α＝０の場合、トーンマッピングは、従来のグローバルトーンマッピングと同等である。α＝１の場合、トーンマッピングは基本層画像でのみ実行される。

I_DLが与えられると、画像I_DL上の[０，１]のオプションのスケーラβを使用して、トーンマッピングされた出力の先鋭さを調整し、最終的なトーンマッピングされた画像を生成することができる。

ここで、I'_BLはI_BL（又はI_B）のトーンマッピングされたバージョンを示す。詳細層予測２３０が使用されている場合、次の通りである：

別の実装では、処理２００は、詳細層予測（２３０）をバイパス（除去）し、元の詳細層（DL）のみを使用することによって単純化することができる。従って、入力画像のピラミッド表現が与えられた場合、処理２００は次のように調整することができる。
－ブロック２２５で、入力画像の強度を基本層と詳細層に分割する；
－ブロック２１５でマッピング曲線を生成する；
－マッピング曲線を使用して、入力画像の基本層（BL）のみの最適化されたマッピングを生成する；
－元の詳細層（DL）を最適化されたマッピングに追加して、最終的な画像（例えば、式（２）参照）を生成する。

図３は、本発明の実施形態による高精細レンダリングパイプラインの例を示す。図３に示すように、高精細レンダリングネットワーク（precision rendering network （PRN））は、４つの連続するサブネットワークに分割することができる。
－ピラミッド型２等分（halving）サブネットワーク（３０５）；
－ピラミッド型ダウンサンプリングサブネットワーク（３１０）；
－ピラミッド型アップサンプリングサブネットワーク（３１５）；
－最終層生成サブネットワーク。
これらの各サブネットワークの出力は、後続のサブネットワークへの入力を形成する。

精度レンダリング処理のシーケンシャルな性質を考慮すると、実施形態は、選択されたステップにのみニューラルネットワークを適用し、残りのステップに従来の処理を適用することを選択することができる。他の実施形態では、２つ以上の連続するサブネットワークをより大きなサブネットワークに結合することができる。一実施形態では、４つのサブネットワークすべてを単一のニューラルネットワークに結合することもできる。ニューラルネットワーク処理と従来の処理との区分は、ニューラルネットワーク処理のためのハードウェアアクセラレータの利用可能性に大きく依存することが予想される。

一実施形態では、ピラミッド型２等分サブネットワーク３０５は、ネットワークの残りの部分の解像度制約に適応するための前処理ステップと考えることができる。例えば、ネットワークの残りの部分（例えばステップ３１０、３１５）が最大で１０２４×５７６の解像度の画像しか処理できない場合、出力画像の幅が１０２４未満になるか、画像の高さが５７６未満になるまで、このステップを繰り返し呼び出すことができる。ネットワークは、すべての可能な入力がサブネットワークの解像度要件に従うように、境界ピクセルを複製／パディングするためにも使用することができる。

例えば、４K解像度の入力画像では、（例えば２K解像度の）第１層をスキップすることができる。その後、（例えばステップ３２０で）アップサンプリング中に、４分の１解像度の画像は単に２回、２倍にされる。同様に、８K解像度の入力画像では、２分の１及び４分の１解像度の層の両方をスキップすることができる。これにより、入力画像のサイズに関係なく、ピラミッドの後続の層は同じ寸法になる。

本明細書の残りの部分では、畳み込みネットワークは、ピクセル単位のサイズ（M×N）、それらが作用する画像チャネルの数（C）、及びフィルタバンク（K）内のそのようなカーネルの数によって定義される。その意味では、各畳み込みは、フィルタバンクM×N×C×Kのサイズによって記述できる（ここで、M×Nは幅×高さを表す）。例えば、サイズが３×３×１×２のフィルタバンクは２つの畳み込みカーネルで構成され、各々が１つのチャネルで動作し、３ピクセル×３ピクセルのサイズを有する。畳み込みネットワークにバイアス（Bias）が組み込まれている場合は、Bias（B）＝True（真）で示され、それ以外の場合はB＝False（偽）で示される。

一部のフィルタバンクにはストライド（Stride）を有する場合もある。これは、畳み込みの一部の結果が破棄されることを意味する。ストライド（stride （S））が１の場合は、すべての入力ピクセルが出力ピクセルを生成することを意味する。ストライドが２の場合は、各次元の２番目のピクセル毎にのみ出力が生成されることを意味する。従って、ストライドが２のフィルタバンクは、（M／２）×（N／２）ピクセルの出力を生成する。ここで、M×Nは入力画像サイズである。ストライドを１に設定すると、入力と同じピクセル数の出力が生成されるように、完全に接続されたカーネルへの入力を除くすべての入力がパディングされる。各畳み込みバンクの出力は、入力として次の畳み込み層に供給される。

一実施形態では、ピラミッド型２等分ネットワーク（３０５）は、パディングユニット（図４及び図５では「パディング」（Pad）として示される）を有し、その後にバイアスB＝False及びストライド２を用いた単一の畳み込み演算が続き、これにより実質的に画像がダウンサンプリングされる。従って、ストライドS＝２の２×２×１×１の畳み込みネットワークとして表現することができる。例えば、１９２０×１０８０の入力が与えられると、その出力は９６０×５４０になる。パディングユニットは、不適合な解像度を持つ畳み込みネットワークへの入力が、入力Iの解像度に関係なく、所望の解像度（例えば、１０２４×５７６）に一致するように変換されるように、単に入力画像に行と列を追加する。

ピラミッド型ダウンサンプリングサブネットワーク（３１０）は、後に改良されたトーンマッピングに使用される、入力のピラミッド表現を生成する。例えば、フル高精細入力が与えられると、一実施形態では、ピラミッドは、１０２４×５７６、５１２×２８８、２５６×１４４、１２８×７２、６４×３６、３２×１８、及び１６×９の層を生成することができる。

ピラミッドは、２のサブサンプリング係数を使用するサブサンプリングに関して説明されるが、他のサブサンプリング係数を一般性を失うことなく使用することができる。これはダウンサンプリングに使用されるため、各畳み込みフィルタに対してストライド２が使用される。ピラミッドの第１レベル（例えば、１０２４×５７６）を計算する前に、様々なサイズ又はアスペクト比の入力画像を考慮して、境界ピクセルを複製することによって入力画像をパディングすることができる。

ピラミッドの第１レベル（例えば、１０２４×５７６）を計算する前に、入力画像をパディングして以下を行うことができる。
－最小のピラミッドレベルから最大のピラミッドレベルまで、すべての空間次元が２で割り切れることを保証する；
－特定の関心領域（ROI）を考慮して、境界ピクセルを複製する；
－様々なサイズ又はアスペクト比の入力画像を考慮して、境界ピクセルを複製する。

図４は、ピラミッド型ダウンサンプリングサブネットワーク（３１０）の例示的なニューラルネットワークを示す。一実施形態では、サブネットワーク３１０は、パディングネットワーク４０５と、それに続く６つの連続する畳み込みニューラルネットワークブロック（例えば、４１０－２、４１０－６、４１０－７）を含み、各々４×２×１×１で、B＝False及びS＝２である。従って、９６０×５４０の入力４０２が与えられると、１０２４×５７６（層１）から開始して、ネットワークは、５１２×２８８（層２）、２５６×１４４（層３）、１２８×７２（層４）、６４×３６（層５）、３２×１８（層６）及び１６×９（層７）で追加の出力を生成する。従って、ピラミッド型ダウンサンプリングサブネットワーク／ニューラルネットワーク３１０は、入力４０２のNレベル（例えば、N=７）の画像のピラミッド表現を形成する画像セットを生成することができる。ピラミッド型ダウンサンプリングニューラルネットワーク３１０が、２つ以上の連続する畳み込みブロックを含み、各畳み込みブロックは、ピラミッド表現の各々の層のダウンサンプリングされた画像を生成してよい。i番目のピラミッド層P（i）のダウンサンプリングされた画像を示すと、ダウンサンプリングされた画像P（i）は、i＝２,...,Nに対して、i－１番目のピラミッド層P（i－１）のダウンサンプリングされた画像よりも低い空間解像度を有することができる。

図５Aは、ピラミッド型アップサンプリングサブネットワーク（３１５）の例示的なニューラルネットワークを示す。このネットワークは、ピラミッド型ダウンサンプリングサブネットワーク（３１０）からダウンサンプリングされたピラミッドデータを受信し、各層でエッジ認識アップサンプリングフィルタを使用して、元の解像度で元の画像を再構成する。ピラミッドの最小解像度レベル（例えば、１６×９）が最初にアップサンプリングされ、その後、追加のレベルが処理され、最高解像度（例えば、１０２４×５７６）のピラミッドレベルの解像度までアップサンプリングされる。

層iのピラミッド画像をP（i）と表すと、最低解像度レベル（例えば、i=７）から開始して、最低解像度ピラミッド画像（例えば、P（７））がエッジ保存フィルタ（５０５）に供給され、このフィルタは、（以下で定義される）２つの係数「画像」al（７）及びbl（７）を生成する。次に、al（７）及びbl（７）の両方が、アップサンプリング層NN（５１０）を使用して２倍にアップサンプリングされ、アップサンプリングされた係数画像a（７）及びb（７）を生成する。

次の層i＝６で、ピラミッドのP（６）層が、アップサンプリングされた係数画像a（７）及びb（７）と組み合わされ、次の画像が生成される：

これは、画像P（６）と共に、エッジアップサンプルフィルタに供給され、係数「画像」al（６）及びbl（６）が生成される。次に、al（６）及びbl（６）の両方が２倍にアップサンプリングされ、アップサンプリングされた係数画像a（６）及びb（６）を生成する。同じ処理が他のピラミッド層についても続く。一般に、i＝７,６,５,...,２について、

ここで、係数画像を画像と乗算する演算「*」は、ピクセル毎にそれらの対応するピクセルを乗算することに対応する。例えば、ピクセル位置（m,n）において、寸法W（i）×H（i）のピラミッドレベルiに対して、

図５Aに示すように、層７では、P（７）＝F（７）であり、層１では、アップサンプリングフィルタ（５１０）を適用する必要がない。更に、層１において、２つの「スライス」ブロックは、エッジフィルタの１０２４×５７６の出力が与えられると、それらを９６０×５４０でクロッピングする。

図５Bは、一実施形態によるピラミッド型アップサンプリングサブネットワークで使用されているエッジフィルタ（５０５）の例示的なニューラルネットワークを示す。２つの入力（F、P）が与えられると、エッジフィルタは、幾つかの基本的な算術演算ブロック（例えば、加算、乗算、除算）、及びS＝１及びB＝False、出力がC１、C２、C３、及びC４として示される、４つの３×３×１×１畳み込みニューラルネットワークブロック（畳み込みブロックとも呼ばれる）を使用して、対応するal（i）及びbl（i）値を生成する。エッジフィルタへの追加の入力は、[０，１]内の値を有する重みPW[i,０]及びPW[i,１]を含む（参考文献[２]）。

C１はFの局所平均を表し、C２は（F*P）の局所平均を表し、C３は（P*P）の局所平均を表し、C４はPの局所平均を表す。従って、図５Bから、

図５Cは、一実施形態によるピラミッド型アップサンプリングサブネットワークで使用されているアップサンプリングフィルタ（５１０）の例示的なニューラルネットワークを示す。m×nの入力（例えば、al（i）又はbl（i））が与えられると、フィルタは２m×２nの出力（例えば、a（i）又はb（i））を生成する。アップサンプリングフィルタは、２つの処理レベルを含み、各レベルは、行（又は列）及び列（又は行）に対して動作する従来の分離可能フィルタを模倣する。処理のレベル１は、１つのパディングブロックと、S＝１及びB＝Falseの２つの３×１×１×１畳み込みブロックと、を含む。処理のレベル２は、１つのパディングブロックと、S＝１及びB＝Falseの２つの１×３×１×１畳み込みブロックと、を含む。各レベルで、２つの畳み込みブロックの出力は、「連結」ブロックを使用して連結される。「列を連結」では、入力が両方ともm×nの場合、出力はm×２nになる。ただし、２つの入力を単に連結するのではなく、各入力から一度に１つの列をインタリーブして出力を作成する。同様に、「行を連結」ブロックでは、両方の入力がm×２nの場合があるため、各入力から一度に１つの行をインタリーブして、２m×２nの画像を生成する。

図６は、本発明の実施形態による最終層生成サブネットワークの例示的なニューラルネットワークを示す。このネットワークは、入力として、元の強度画像（I）と、ピラミッド型アップサンプリングサブネットワーク（３１５）からの出力a（１）及びb（１）とを取り入れ、出力基本層（BL）を次のように生成する。

図６に示すように、このネットワークは、BL解像度が入力Iの解像度と一致するように、任意のアップサンプリング及びパディングブロックを含むことができる。例えば、a（１）及びb（１）の解像度が９６０×５４０である場合、アップサンプリング層の出力は１９２０×１０８０となる。Iの解像度が１９２０×１０８０である場合、パディングブロックは、同様に、１９２０×１０８０の出力を生成する。前述したように、アップサンプリング層NNは、ピラミッド型２等分ネットワーク（３０５）が使用された回数と一致するように複数回使用することができる。

別の実施形態では、アップサンプリングネットワークを複数回適用する代わりに、適切な係数（例えば、４、８、等）によって画像を直接アップサンプリングする特定のNNを適用することができる。例えば、実施形態では、NN５１０（図５Cを参照）は、次のように係数４によってアップスケールするように修正することができる。
－２つの３×１×１×１畳み込みブロックの行を４つの５×１×１×１畳み込みブロックの行で置き換え、すべての出力は、４つの入力と１つの出力を持つ「列を連結」ネットワークへの入力として提供される；
－「列を連結」ネットワークを使用して、前述のように入力の列をインタリーブすることによってm×４n出力を生成する；
－２つの１×３×１×１畳み込みブロックの行を４つの１×５×１×１畳み込みブロックの行で置き換え、すべての出力は、４つの入力と１つの出力を持つ「行を連結」ネットワークへの入力として提供される；
－前述のように、「行を連結」ネットワークを使用して、入力の行をインタリーブすることによって４m×４n出力を生成する。

実施形態では、エッジフィルタの重みは、NN実装の外部で導出することができる。ただし、重みは、画像のバッチを使用したオフライントレーニング処理から導出することもできる。ネットワーク全体は、入力画像と対応する基本層画像のペアでトレーニングできる。例えば、参考文献[２]に記載されているアナライザブロックを使用して、（HDR）画像の大規模なコレクションを平滑化でき、又は、任意のエッジ保持平滑化処理を適用することもできる。このようなペアの複数のミニバッチを入力として繰り返し与えることができる。この場合、参照と予測された平滑化された画像の間の誤差の差は、誤差が収束するか、又は性能が検証セットで許容可能な状態に達するまで、ネットワークを介して逆伝搬される。誤差が収束すると、各畳み込みフィルタに対応する重みが、実行時の処理のために格納される。

従来の画像処理では、フィルタの重みは、様々なコンポーネントがあるため、必ずしもグローバル最適に変換する必要のないローカル最適な結果を達成するために選択される場合があった。ニューラルネットワークアーキテクチャは、ネットワーク全体の可視性を持ち、各サブネットワークに対して最適に各畳み込みブロックの重みを選択できる。
参考文献
ここに列挙された参考文献の各々は、参照によりその全体がここに組み込まれる。
1. U.S. Patent 9,961,237, “Display management for high dynamic range video,” by R. Atkins.
2. PCT Application PCT／US2020／028552, filed on 16 Apr 2020, WIPO Publication WO／2020／219341, “Display management for high dynamic range images,” by R. Atkins et al.
3. U.S. Patent 8,593,480, “Method and apparatus for image data transformation,” by A. Ballestad and A. Kostin,
4. U.S. Patent 10,600,166, “Tone curve mapping for high dynamic range images,” by J.A. Pytlarz and R. Atkins.
5. U.S. Provisional Patent Application Ser. No. 63／226,847, filed on July 29, 2021, “Neural networks for dynamic range conversion and display management,” by R. Wanat et al., also filed as PCT／US2022／037991, filed on July 22, 2022.

＜例示的なコンピュータシステムの実装＞
本発明の実施形態は、コンピュータシステム、電子回路及びコンポーネント内に構成されるシステム、マイクロコントローラのような集積回路（IC）装置、FPGA（field programmable gate array）、又は別の構成可能な又はプログラム可能な論理装置（PLD）、個別時間又はデジタル信号プロセッサ（DSP）、特定用途向けIC（ASIC）、及び／又はこのようなシステム、装置、又はコンポーネントのうちの１つ以上を含む機器により実装されてよい。コンピュータ及び／又はICは、本願明細書に記載したような画像変換に関連する命令を実行し、制御し、又は実施してよい。コンピュータ及び／又はICは、本願明細書に記載したディスプレイマッピング処理における高精細レンダリングに関連する種々のパラメータ又は値のうちのいずれかを計算してよい。画像及びビデオの実施形態は、ハードウェア、ソフトウェア、ファームウェア、及びそれらの種々の組み合わせで実施されてよい。

本発明の特定の実装は、プロセッサに本発明の方法を実行させるソフトウェア命令を実行するコンピュータプロセッサを含む。例えば、ディスプレイ、エンコーダ、セットトップボックス、トランスコーダ、等の中の１つ以上のプロセッサは、プロセッサのアクセス可能なプログラムメモリ内のソフトウェア命令を実行することにより、上述のディスプレイマッピングにおける高精細レンダリングに関連する方法を実施してよい。本発明は、プログラムプロダクトの形式で提供されてもよい。プログラムプロダクトは、データプロセッサにより実行されるとデータプロセッサに本発明の方法を実行させる命令を含むコンピュータ可読信号のセットを運ぶ任意の有形非一時的媒体を含んでよい。本発明によるプログラムプロダクトは、種々の有形形式のうちの任意のものであってよい。プログラムプロダクトは、例えば、フロッピーディスクを含む磁気データ記憶媒体、ハードディスクドライブ、CDROM、DVDを含む光学データ記憶媒体、ROM、フラッシュRAMを含む電子データ記憶媒体、等のような物理媒体を含んでよい。プログラムプロダクト上のコンピュータ可読信号は、光学的に圧縮又は暗号化されてよい。

コンポーネント（例えば、ソフトウェアモジュール、プロセッサ、部品、装置、回路、等）が以上で言及されたが、特に断りのない限り、それらのコンポーネントの言及（「手段」の言及を含む）は、それらのコンポーネントの均等物、記載したコンポーネントの機能を実行する（例えば、機能的に均等な）任意のコンポーネント、本発明の図示の例示的な実施形態における機能を実行する開示の構造と構造的に等しくないコンポーネントを含むと解釈されるべきである。

＜均等物、拡張機能、代替案、等（Equivalents, Extensions, Alternatives and Miscellaneous）＞
ディスプレイマッピングにおける高精細レンダリングに関連する例示的な実施形態が説明される。以上の明細書において、本発明の実施形態は、実装毎に変化し得る多数の特定の詳細を参照して説明された。従って、本発明が何であるかの単独及び排他的な指示、及び出願人が本発明であることを意図するものは、本願により、いかなる後の補正を含む、特定の形式で発行される請求の範囲に記載される。このような請求の範囲に含まれる用語について本願明細書に明示的に記載された任意の定義は、請求の範囲において使用されるこのような用語の意味を支配するべきである。従って、請求の範囲に明示的に記載されないいかなる限定、要素、特徴、利点、又は属性は、いかなる方法でも、請求の範囲の範囲を限定すべきではない。明細書及び図面は、従って、限定的意味ではなく、説明であると考えられるべきである。

＜列挙される例示的な実施形態＞
本発明は、限定ではないが、本発明の幾つかの部分の構造、特徴、及び機能を記載する以下の列挙される例示的な実施形態（Enumerated Example Embodiments （EEEs））を含む本願明細書に記載された形式のうちのいずれかにおいて具現化されてよい。

（EEE１）ディスプレイマッピングにおける高精細レンダリングのための方法であって、
第１ダイナミックレンジ及び第１空間解像度における入力画像にアクセスするステップと、
前記入力画像に基づいて入力強度画像（I）を生成するステップと、
前記入力強度画像が第２空間解像度以下になるまで、前記入力強度画像をサブサンプリングすることにより第２強度画像を生成するステップと、
前記第２強度画像及びピラミッド型ダウンサンプリングニューラルネットワークに基づいて、ダウンサンプリングされた画像のセットを生成するステップと、
前記ダウンサンプリングされた画像のセット及びエッジ認識アップサンプリングフィルタリングを含むピラミッド型アップサンプリングニューラルネットワークに基づいて、前記第２空間解像度で２つのアップサンプリングされた画像を生成するステップと、
前記２つのアップサンプリングされた画像及び前記入力強度画像を最終層ニューラルネットワークで結合することにより、前記第１空間解像度で出力基本層（BL）画像を生成するステップと、
を含む方法。

（EEE２）前記第２強度画像を生成するステップは、前記入力画像をパディングブロックで処理した後、バイアスが偽であり及びストライドが１である、２×２×１×１畳み込みブロックで処理するステップを含む、EEE１に記載の方法。

（EEE３）前記ダウンサンプリングされた画像のセットは、前記ピラミッド型ダウンサンプリングニューラルネットワークによって生成され、前記第２強度画像のピラミッド表現を形成する、EEE１又は２に記載の方法。

（EEE４）前記ピラミッド型ダウンサンプリングニューラルネットワークが、２つ以上の連続する畳み込みブロックを含み、各畳み込みブロックは、前記ピラミッド表現の各々の層のダウンサンプリングされた画像を生成するように構成される、EEE３に記載の方法。

（EEE５）前記ピラミッド型ダウンサンプリングニューラルネットワークは、バイアスが偽であり及びストライドが２である、２つ以上の４×２×１×１の連続する畳み込みブロックを含む、EEE１～４のいずれか一項に記載の方法。

（EEE６）前記ピラミッド型アップサンプリングニューラルネットワークは、複数の処理層を含み、i番目の空間解像度を有する入力層画像P（i）が与えられると、前記i番目の処理層は、P（i）、F（i）、エッジフィルタニューラルネットワーク、及びアップサンプリングフィルタニューラルネットワークに基づいてa（i）及びb（i）値を計算し、

a（i）及びb（i）は、P（i）の空間解像度よりも高い空間解像度を有する、EEE１～５のいずれか一項に記載の方法。

（EEE７）（前記i番目の処理層の）前記エッジフィルタニューラルネットワークは、
入力画像F及びP、
入力重みPW[i,０]及びPW[i,１]、
ストライドが１であり及び出力C１、C２、C３、及びC４を有する、４つの３×３×１×１畳み込みブロックであって、C１はFの局所平均を表し、C２は（F*P）の局所平均を表し、C３は（P*P）の局所平均を表し、C４はPの局所平均を表す、４つの３×３×１×１畳み込みブロック、
を含み、
出力al（i）及びbl（i）を生成し、出力al（i）及びbl（i）を生成することは、

を計算することを含む、EEE６に記載の方法。

（EEE８）（前記i番目の処理層の）前記アップサンプリングフィルタニューラルネットワークは、
m×n空間解像度でのフィルタ入力、
２つの３×１×１×１畳み込みブロックの第１層であって、３×１×１×１畳み込みブロックの各々が前記フィルタ入力を処理し、第１フィルタ出力及び第２フィルタ出力を生成する、第１層、
前記第１フィルタ出力及び前記第２フィルタ出力の列をインタリーブし、第１層のm×２nフィルタ出力を生成する列連結器、
２つの１×３×１×１畳み込みブロックの第２層であって、１×３×１×１畳み込みブロックの各々が第１層m×２nフィルタ出力を処理し、第３フィルタ出力及び第４フィルタ出力を生成する、第２層、
前記第３フィルタ出力及び前記第４フィルタ出力の行をインタリーブし、２m×２nの空間解像度でアップサンプリングフィルタ出力を生成する行連結器、
を含む、EEE６又は７に記載の方法。

（EEE９）前記フィルタ入力がal（i）である場合、前記アップサンプリングフィルタ出力はa（i）であり、前記フィルタ入力がbl（i）である場合、前記アップサンプリングフィルタ出力はb（i）である、EEE８に記載の方法。

（EEE１０）前記最終層ニューラルネットワークは、基本層（BL）画像を次のように計算し、

Iは前記入力強度画像を表し、a（１）及びb（１）は、前記ピラミッド型アップサンプリングサブネットワークによって生成された２つのアップサンプリング画像を表す、EEE１～９のいずれか一項に記載の方法。

（EEE１１）詳細層画像（DL）を次のように計算するステップであって、

位置（x,y）のピクセルに対して、I（x,y）は前記入力強度画像内のピクセルを示し、BL（x,y）は詳細層画像内の対応するピクセルを示し、dgは[０，１]内のスケーリング変数を示す、ステップ、
を更に含むEEE１～１０のいずれか一項に記載の方法。

（EEE１２）プロセッサを含み、EEE１～１１に記載の方法のうちのいずれか１つを実行するよう構成される機器。

（EEE１３）EEE１～１１のいずれか一項に記載の方法に従い１つ以上のプロセッサにより方法を実行するためのコンピュータ実行可能命令を格納している非一時的コンピュータ可読記憶媒体。

Claims

ディスプレイマッピングにおける高精細レンダリングのための方法であって、
第１ダイナミックレンジ及び第１空間解像度における入力画像にアクセスするステップと、
前記入力画像に基づいて入力強度画像（I）を生成するステップと、
前記入力強度画像が第２空間解像度以下になるまで、前記入力強度画像をサブサンプリングすることにより第２強度画像を生成するステップと、
前記第２強度画像及びピラミッド型ダウンサンプリングニューラルネットワークに基づいて、ダウンサンプリングされた画像のセットを生成するステップと、
前記ダウンサンプリングされた画像のセット及びエッジ認識アップサンプリングフィルタリングを含むピラミッド型アップサンプリングニューラルネットワークに基づいて、前記第２空間解像度で２つのアップサンプリングされた画像を生成するステップと、
前記２つのアップサンプリングされた画像及び前記入力強度画像を最終層ニューラルネットワークで結合することにより、前記第１空間解像度で出力基本層（BL）画像を生成するステップと、
を含む方法。
前記第２強度画像を生成するステップは、前記入力画像をパディングブロックで処理した後、バイアスが偽であり及びストライドが１である、２×２×１×１畳み込みブロックで処理するステップを含む、請求項１に記載の方法。
前記ダウンサンプリングされた画像のセットは、前記ピラミッド型ダウンサンプリングニューラルネットワークによって生成され、前記第２強度画像のピラミッド表現を形成する、請求項１に記載の方法。
前記ピラミッド型ダウンサンプリングニューラルネットワークが、２つ以上の連続する畳み込みブロックを含み、各畳み込みブロックは、前記ピラミッド表現の各々の層のダウンサンプリングされた画像を生成するように構成される、請求項３に記載の方法。
前記ピラミッド型ダウンサンプリングニューラルネットワークは、バイアスが偽であり及びストライドが２である、２つ以上の連続する４×２×１×１畳み込みブロックを含む、請求項１に記載の方法。
前記ピラミッド型アップサンプリングニューラルネットワークは、複数の処理層を含み、i番目の空間解像度を有する入力層画像P（i）が与えられると、i番目の処理層は、P（i）、F（i）、エッジフィルタニューラルネットワーク、及びアップサンプリングフィルタニューラルネットワークに基づいてa（i）及びb（i）値を計算し、

a（i）及びb（i）は、P（i）の空間解像度よりも高い空間解像度を有する、請求項１に記載の方法。
前記エッジフィルタニューラルネットワークは、
入力画像F及びP、
入力重みPW[０]及びPW[１]、
ストライドが１であり及び出力C１、C２、C３、及びC４を有する、４つの３×３×１×１畳み込みブロックであって、C１はFの局所平均を表し、C２は（F*P）の局所平均を表し、C３は（P*P）の局所平均を表し、C４はPの局所平均を表す、４つの３×３×１×１畳み込みブロック、
を含み、
出力al及びblを生成し、出力al及びblを生成することは、

を計算することを含む、請求項６に記載の方法。
前記アップサンプリングフィルタニューラルネットワークは、
m×n空間解像度でのフィルタ入力、
２つの３×１×１×１畳み込みブロックの第１層であって、３×１×１×１畳み込みブロックの各々が前記フィルタ入力を処理し、第１フィルタ出力及び第２フィルタ出力を生成する、第１層、
前記第１フィルタ出力及び前記第２フィルタ出力の列をインタリーブし、第１層のm×２nフィルタ出力を生成する列連結器、
２つの１×３×１×１畳み込みブロックの第２層であって、１×３×１×１畳み込みブロックの各々が第１層m×２nフィルタ出力を処理し、第３フィルタ出力及び第４フィルタ出力を生成する、第２層、
前記第３フィルタ出力及び前記第４フィルタ出力の行をインタリーブし、２m×２nの空間解像度でアップサンプリングフィルタ出力を生成する行連結器、
を含み、
前記フィルタ入力がal（i）である場合、前記アップサンプリングフィルタ出力はa（i）であり、前記フィルタ入力がbl（i）である場合、前記アップサンプリングフィルタ出力はb（i）である、請求項６に記載の方法。
前記最終層ニューラルネットワークは、基本層（BL）画像を次のように計算し、

Iは前記入力強度画像を表し、a（１）及びb（１）は、前記ピラミッド型アップサンプリングニューラルネットワークによって生成された２つのアップサンプリングされた画像を表す、請求項１に記載の方法。
詳細層画像（DL）を次のように計算するステップであって、

位置（x,y）のピクセルに対して、I（x,y）は前記入力強度画像内のピクセルを示し、BL（x,y）は前記詳細層画像内の対応するピクセルを示し、dgは[０，１]内のスケーリング変数を示す、ステップ、
を更に含む請求項１に記載の方法。
プロセッサを含み、請求項１～１０のいずれか一項に記載の方法を実行するよう構成される機器。
請求項１～１０のいずれか一項に記載に従い１つ以上のプロセッサにより方法を実行するためのコンピュータ実行可能命令を格納している非一時的コンピュータ可読記憶媒体。