JP2024531432A - ディスプレイ管理における高精度レンダリングのためのニューラルネットワーク - Google Patents
ディスプレイ管理における高精度レンダリングのためのニューラルネットワーク Download PDFInfo
- Publication number
- JP2024531432A JP2024531432A JP2024510645A JP2024510645A JP2024531432A JP 2024531432 A JP2024531432 A JP 2024531432A JP 2024510645 A JP2024510645 A JP 2024510645A JP 2024510645 A JP2024510645 A JP 2024510645A JP 2024531432 A JP2024531432 A JP 2024531432A
- Authority
- JP
- Japan
- Prior art keywords
- image
- input
- layer
- neural network
- filter
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000013528 artificial neural network Methods 0.000 title claims abstract description 66
- 238000009877 rendering Methods 0.000 title claims abstract description 25
- 238000000034 method Methods 0.000 claims abstract description 58
- 238000013507 mapping Methods 0.000 claims abstract description 36
- 238000012545 processing Methods 0.000 claims description 27
- 238000001914 filtration Methods 0.000 claims description 5
- 238000003860 storage Methods 0.000 claims description 2
- 230000008569 process Effects 0.000 description 18
- 238000007726 management method Methods 0.000 description 14
- 238000004519 manufacturing process Methods 0.000 description 9
- 230000006870 function Effects 0.000 description 7
- 238000013459 approach Methods 0.000 description 5
- 230000000007 visual effect Effects 0.000 description 5
- 238000006243 chemical reaction Methods 0.000 description 4
- 238000013500 data storage Methods 0.000 description 3
- 241000023320 Luma <angiosperm> Species 0.000 description 2
- 230000008901 benefit Effects 0.000 description 2
- 238000013527 convolutional neural network Methods 0.000 description 2
- 238000009826 distribution Methods 0.000 description 2
- OSWPMRLSEDHDFF-UHFFFAOYSA-N methyl salicylate Chemical compound COC(=O)C1=CC=CC=C1O OSWPMRLSEDHDFF-UHFFFAOYSA-N 0.000 description 2
- 241000282412 Homo Species 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000013501 data transformation Methods 0.000 description 1
- 238000000354 decomposition reaction Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 230000004424 eye movement Effects 0.000 description 1
- 238000009499 grossing Methods 0.000 description 1
- 230000004301 light adaptation Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000007781 pre-processing Methods 0.000 description 1
- 238000004321 preservation Methods 0.000 description 1
- 230000003362 replicative effect Effects 0.000 description 1
- 238000012549 training Methods 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
- 238000010200 validation analysis Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T5/00—Image enhancement or restoration
- G06T5/90—Dynamic range modification of images or parts thereof
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T5/00—Image enhancement or restoration
- G06T5/60—Image enhancement or restoration using machine learning, e.g. neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/10—Image acquisition modality
- G06T2207/10016—Video; Image sequence
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/10—Image acquisition modality
- G06T2207/10024—Color image
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20016—Hierarchical, coarse-to-fine, multiscale or multiresolution image processing; Pyramid transform
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20024—Filtering details
- G06T2207/20028—Bilateral filtering
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20084—Artificial neural networks [ANN]
Landscapes
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Image Processing (AREA)
Abstract
ニューラルネットワークを使用したディスプレイマッピングにおける高精細レンダリングのための方法及びシステムが記載される。強度入力画像が与えられると、ピラミッド型2等分サブネットワーク、ピラミッド型ダウンサンプリングサブネットワーク、ピラミッド型アップサンプリングサブネットワーク、及び最終層生成サブネットワークを含む一連のニューラルネットワークが、ディスプレイマッピングで使用される基本層画像及び詳細層画像を生成する。
Description
[関連出願]
本願は、米国仮特許出願番号第号63/236,476号、2021年8月24日出願、及び欧州特許出願番号第号21206398.6号、2021年11月4日出願、の優先権の利益を請求する。これらの出願の各々は参照によりここに組み込まれる。
本願は、米国仮特許出願番号第号63/236,476号、2021年8月24日出願、及び欧州特許出願番号第号21206398.6号、2021年11月4日出願、の優先権の利益を請求する。これらの出願の各々は参照によりここに組み込まれる。
[技術分野]
本発明は、概して画像に関連する。より具体的には、本発明の実施形態は、ディスプレイ管理における高精細(precision)レンダリングに関する。
本発明は、概して画像に関連する。より具体的には、本発明の実施形態は、ディスプレイ管理における高精細(precision)レンダリングに関する。
本願明細書で使用されるとき、用語「ダイナミックレンジ(dynamic range (DR))」は、例えば最も暗い灰色(黒)から最も明るい白色(ハイライト)までの画像内の強度(例えば、輝度、ルマ)範囲を知覚する人間の視覚システム(human visual system (HVS))の能力に関連し得る。このシーンでは、DRは「シーン参照」強度に関連する。DRは、特定幅の強度範囲を適切に又は近似的にレンダリングするディスプレイ装置の能力にも関連してよい。このシーンでは、DRは「ディスプレイ参照」強度に関連する。本願明細書の説明の任意の点において、特定のシーンが特定の重要度を有すると明示的に指定されない限り、用語はいずれかのシーンで、例えば、同義的に使用されてよいことが推定されるべきである。
本願明細書で使用されるとき、用語「高ダイナミックレンジ(high dynamic range (HDR))」は、人間の視覚システム(HVS)の大きさの約14~15倍又はそれより大きな程度に渡るDR幅に関連する。実際に、人間が強度範囲の中の広範な幅を同時に知覚し得るDRは、HDRに関連して、何らかの方法で省略され得る。本願明細書で使用されるとき、用語「拡張ダイナミックレンジ(enhanced dynamic range (EDR))」又は「視覚ダイナミックレンジ(visual dynamic range (VDR))」は、個々に又は同義的に、目の動きを含む人間の視覚システム(HVS)によりシーン又は画像内で知覚可能なDRに関連し、何からの光適応がシーン又は画像に渡り変化することを可能にする。
実際には、画像は1つ以上の色成分(例えば、ルマY及びクロマCb及びCr)を含み、各色成分はピクセル当たりnビット(例えば、n=8)の精度により表される。例えば、ガンマ輝度コーディングを使用すると、n≦8である画像(例えば、カラー24ビットJPEG画像)は、標準ダイナミックレンジの画像であると考えられる。一方で、n≧10である画像は、拡張ダイナミックレンジの画像であると考えられてよい。EDR及びHDR画像は、Industrial Light and Magicにより開発されたOpenEXRファイルフォーマットのような高精細(例えば、16ビット)浮動小数点フォーマットを用いて格納され配信されてもよい。
ここで使用されるように、用語「メタデータ」は、本願明細書では、コーディングされたビットストリームの部分として送信される任意の補助情報に関連し、復号画像をレンダリングするためにデコーダを支援する。このようなメタデータは、限定ではないが、本願明細書に記載されるような、画像内の最小、平均、及び最大輝度、色空間又は全色域(gamut)情報、参照ディスプレイパラメータ、及び補助信号パラメータ、を含んでよい。
大部分の消費者デスクトップディスプレイは、現在、200~300cd/m2又はニトの輝度をサポートする。大部分の消費者HDTVは、300~500ニトの範囲であり、新しいモデルは1000ニト(cd/m2)にまで達している。そのような従来のディスプレイは、HDR又はEDRに対して標準ダイナミックレンジ(SDR)とも呼ばれる、低ダイナミックレンジ(lower dynamic range (LDR))の特徴を示す。HDRコンテンツの利用可能性が、キャプチャ機器(例えばカメラ)及びHDRディスプレイ(例えば、Dolby LaboratoriesのPRM-4200プロフェッショナルリファレンスモニタ)の両方における進歩により増大するにつれ、HDRコンテンツは、カラーグレーディングされ、より高いダイナミックレンジ(例えば、1000ニト~5000ニト、又はそれより高い)をサポートするHDRディスプレイ上で表示されるようになり得る。一般に、限定ではなく、本開示の方法はSDRより高いダイナミックレンジに関する。
本明細書で使用されるように、用語「ディスプレイ管理」は、ターゲットディスプレイ用に画像をレンダリングするために受信機で実行される処理を表す。例えば、このような処理には、トーンマッピング、色域マッピング、カラーマネジメント、フレームレート変換などが含まれるが、これらに限定されるものではない。
本明細書で使用されるように、用語「高精細レンダリング」は、入力画像をフィルタリングされた基本層画像と詳細層画像(参考文献[2])の2つの層に分割するために使用されるダウンサンプリング及びアップサンプリング/フィルタリング処理を表す。トーンマッピング曲線をフィルタリングされた基本層に適用し、次に詳細層を結果に追加し直すことにより、トーンマッピング又はディスプレイマッピングにおいて、画像の元のコントラストをグローバルにもローカルにも保存することができる。これは、「詳細保存」又は「ローカルトーンマッピング」とも呼ばれる。高精細レンダリングの更なる詳細については、後述する。
高ダイナミックレンジ(High Dynamic Range (HDR))技術が以前のフォーマットよりも写実的で真に迫った画像を提供するので、HDRコンテンツの生成及び再生は、現在広く普及している。並行して、IC製造業者は、ニューラルネットワーク(neural network (NN))用のハードウェアアクセラレータを組み込み始めている。既存のディスプレイ方式を改善するために、本発明者らにより理解されているように、このようなニューラルネットワークアクセラレータを利用しながら、ニューラルネットワークを用いた高精度レンダリング及びディスプレイ管理のための改善された技術が開発されている。
本章に記載されるアプローチは、追求される可能性のあるアプローチであるが、必ずしも以前に考案された又は追求されアプローチであるとは限らない。従って、特に断りのない限り、本章に記載されるアプローチのいずれも、それらが本章に含まれるというだけで従来技術と認められるものと考えられるべきではない。同様に、1つ以上のアプローチに関して特定される課題は、特に示されない限り、本章に基づき任意の従来技術の中で認識されたものと想定されるべきではない。
本発明の実施形態は、限定ではなく、例を用いて説明され、添付の図中の同様の参照符号は同様の要素を表す。
本願明細書には、ニューラルネットワークを使用したディスプレイ管理における高精細レンダリングのための方法及びシステムが記載される。以下の詳細な説明を通じて、説明を目的として、本発明の完全な理解を提供するために、多数の特定の詳細が説明される。しかしながら、本発明がこれらの特定の詳細のうちの一部を有しないで実行されてよいことが明らかである。他の例では、よく知られた構造及び装置は、本発明を抑止し(occluding)、曖昧にし、又は不明瞭にすることを避けるために、徹底的に詳細に記載されない。
<要約>
本明細書に記載される例示的な実施形態は、ニューラルネットワークアーキテクチャを用いたディスプレイ管理における高精細レンダリングのための方法に関する。一実施形態では、ニューラルネットワークシステムは、第1ダイナミックレンジ及び第1空間解像度で入力画像を受信する。次に、前記システムは、
前記入力画像に基づいて入力強度画像(I)を生成し、
前記入力強度画像が第2空間解像度以下になるまで、前記入力強度画像をサブサンプリングすることにより、ピラミッド型2等分ネットワークを用いて第2強度画像を生成し、
前記第2強度画像及びピラミッド型ダウンサンプリングニューラルネットワークに基づいて、ダウンサンプリングされた画像のセットを生成し、
前記ダウンサンプリングされた画像のセット及びエッジ認識アップサンプリングフィルタリングを含むピラミッド型アップサンプリングニューラルネットワークに基づいて、前記第2空間解像度で2つのアップサンプリングされた画像を生成し、
前記2つのアップサンプリングされた画像及び前記入力強度画像を最終層ニューラルネットワークで結合することにより、前記第1空間解像度で出力基本層(BL)画像を生成する。
本明細書に記載される例示的な実施形態は、ニューラルネットワークアーキテクチャを用いたディスプレイ管理における高精細レンダリングのための方法に関する。一実施形態では、ニューラルネットワークシステムは、第1ダイナミックレンジ及び第1空間解像度で入力画像を受信する。次に、前記システムは、
前記入力画像に基づいて入力強度画像(I)を生成し、
前記入力強度画像が第2空間解像度以下になるまで、前記入力強度画像をサブサンプリングすることにより、ピラミッド型2等分ネットワークを用いて第2強度画像を生成し、
前記第2強度画像及びピラミッド型ダウンサンプリングニューラルネットワークに基づいて、ダウンサンプリングされた画像のセットを生成し、
前記ダウンサンプリングされた画像のセット及びエッジ認識アップサンプリングフィルタリングを含むピラミッド型アップサンプリングニューラルネットワークに基づいて、前記第2空間解像度で2つのアップサンプリングされた画像を生成し、
前記2つのアップサンプリングされた画像及び前記入力強度画像を最終層ニューラルネットワークで結合することにより、前記第1空間解像度で出力基本層(BL)画像を生成する。
ディスプレイ管理における高精度レンダリングのためのニューラルネットワーク
ビデオコーディングパイプライン
図1は、ビデオキャプチャからビデオコンテンツ表示までの種々の段階を示す従来のビデオ配信パイプライン100の例示的な処理を示す。ビデオフレーム(102)のシーケンスは、画像生成ブロック(105)を用いてキャプチャ又は生成される。ビデオフレーム(102)は、デジタル方式で(例えば、デジタルカメラにより)キャプチャされ、又はコンピュータにより(例えば、コンピュータアニメーションを、用いて)生成されてよく、ビデオデータ(107)を提供する。代替として、ビデオフレーム102は、フィルムカメラによりフィルム上にキャプチャされてよい。フィルムは、デジタルフォーマットに変換されて、ビデオデータ107を提供する。プロダクション(production)段階110において、ビデオデータ107は、ビデオプロダクションストリーム112を提供するために編集される。
ビデオコーディングパイプライン
図1は、ビデオキャプチャからビデオコンテンツ表示までの種々の段階を示す従来のビデオ配信パイプライン100の例示的な処理を示す。ビデオフレーム(102)のシーケンスは、画像生成ブロック(105)を用いてキャプチャ又は生成される。ビデオフレーム(102)は、デジタル方式で(例えば、デジタルカメラにより)キャプチャされ、又はコンピュータにより(例えば、コンピュータアニメーションを、用いて)生成されてよく、ビデオデータ(107)を提供する。代替として、ビデオフレーム102は、フィルムカメラによりフィルム上にキャプチャされてよい。フィルムは、デジタルフォーマットに変換されて、ビデオデータ107を提供する。プロダクション(production)段階110において、ビデオデータ107は、ビデオプロダクションストリーム112を提供するために編集される。
プロダクションストリーム(112)のビデオデータは、次に、ブロック115で、ポストプロダクション編集のためにプロセッサに提供される。ブロック(115)のポストプロダクション編集は、ビデオ制作者の製作意図に従い画像品質を向上するため又は特定の外観を達成するために、画像の特定領域の色又は明るさの調整又は変更を含んでよい。これは、時に、「色タイミング」又は「色グレーディング」と呼ばれる。他の編集(例えば、シーン選択及び順序付け、画像クロッピング、コンピュータが生成した視覚的特殊効果の追加、激しい振動、等)が、配信のためのプロダクションの最終バージョン(117)を生成するために、ブロック(115)で実行されてよい。ポストプロダクション編集(115)の間、ビデオ画像は、基準ディスプレイ(125)上で表示される。
ポストプロダクション(115)に続いて、最終プロダクションビデオデータ(117)は、テレビセット、セットトップボックス、映画劇場、等のような復号及び再生装置へと下流に配信するために、符号化ブロック(120)に配信されてよい。幾つかの実施形態では、コーディングブロック(120)は、コーディングされたビットストリーム(122)を生成するために、ATSC、DVB、DVD、Blu-Ray(登録商標)、及び他の配信フォーマットにより定義されるような、オーディオ及びビデオエンコーダを含んでよい。受信機では、コーディングされたビットストリーム(122)は、信号(117)と同一のもの又はその非常に近い近似を表す復号信号(132)を生成するために、復号ユニット(130)により復号される。受信機は、基準ディスプレイ(125)と全く異なる特性を有してよい目標ディスプレイ(140)に取り付けられてよい。その場合、ディスプレイ管理ブロック(135)は、ディスプレイマッピング済み信号(137)を生成することにより、復号信号(132)のダイナミックレンジを目標ディスプレイ(140)の特性にマッピングするために使用されてよい。限定ではなく、ディスプレイ管理処理の例は、参考文献[1]及び[2]に記載されている。
グローバル対ローカルトーンマッピング技術
従来のグローバルディスプレイマッピングでは、マッピングアルゴリズムは、単一のシグモイド様関数(例えば、参考文献[3]及び[4]を参照)を適用して、入力ダイナミックレンジを目標ディスプレイのダイナミックレンジにマッピングする。このようなマッピング関数は、アンカーポイント、ピボット、及び入力ソースと目標ディスプレイの特性を使用して生成されるその他の多項式パラメータによって特徴付けられる区分線形又は非線形多項式として表すことができる。例えば、参考文献[3-4]では、マッピング関数は、入力画像とディスプレイの輝度特性(例えば、最小、中間(平均)、及び最大輝度)に基づくアンカーポイントを使用する。しかし、他のマッピング関数は、ブロックレベル、ピクチャスライス、又は画像全体の輝度値の分散又は標準偏差など、異なる統計データを使用することができる。
従来のグローバルディスプレイマッピングでは、マッピングアルゴリズムは、単一のシグモイド様関数(例えば、参考文献[3]及び[4]を参照)を適用して、入力ダイナミックレンジを目標ディスプレイのダイナミックレンジにマッピングする。このようなマッピング関数は、アンカーポイント、ピボット、及び入力ソースと目標ディスプレイの特性を使用して生成されるその他の多項式パラメータによって特徴付けられる区分線形又は非線形多項式として表すことができる。例えば、参考文献[3-4]では、マッピング関数は、入力画像とディスプレイの輝度特性(例えば、最小、中間(平均)、及び最大輝度)に基づくアンカーポイントを使用する。しかし、他のマッピング関数は、ブロックレベル、ピクチャスライス、又は画像全体の輝度値の分散又は標準偏差など、異なる統計データを使用することができる。
参考文献[2]により詳細に説明されているように、ディスプレイマッピング処理(135)は、入力画像の局所的なコントラスト及び詳細情報を考慮することによって、更に改善することができる。例えば、後述するように、ダウンサンプリング及びアップサンプリング/フィルタリング処理は、入力画像を、フィルタリングされた基本層画像と詳細層画像の2つの層に分割するために使用されてよい。トーンマッピング曲線をフィルタリングされた基本層に適用し、次に詳細層を結果に追加し直すことにより、画像の元のコントラストをグローバルにもローカルにも保存することができる。これは、「詳細保存」(detail preservation)又は「高精細レンダリング」(precision rendering)とも呼ばれる。
従って、ディスプレイマッピングは、多段階動作として実行することができる。
a)SDR(又はHDR)をHDRマッピングに導くための基本層(BL)画像を生成する;
b)基本層画像へのトーンマッピングを実行する;
c)詳細層画像をトーンマッピングされた基本層画像に追加する。
a)SDR(又はHDR)をHDRマッピングに導くための基本層(BL)画像を生成する;
b)基本層画像へのトーンマッピングを実行する;
c)詳細層画像をトーンマッピングされた基本層画像に追加する。
参考文献[2]では、生成された基本層(BL)は、元の画像の空間的にぼやけた、エッジが保存されたバージョンを表す。つまり、重要なエッジは維持されるが、詳細はぼやける。具体的には、BL画像の生成には以下が含まれる。
-元の画像の強度を使用して、低解像度のレイヤを含む画像ピラミッドを生成し、各レイヤを保存する;
-最低解像度の層から開始し、より高い層にアップサンプリングして基本層を生成する。基本層及び詳細層画像を生成する例については、本明細書の後半で説明する。
-元の画像の強度を使用して、低解像度のレイヤを含む画像ピラミッドを生成し、各レイヤを保存する;
-最低解像度の層から開始し、より高い層にアップサンプリングして基本層を生成する。基本層及び詳細層画像を生成する例については、本明細書の後半で説明する。
ニューラルネットワークアーキテクチャ
図2は、高精度レンダリング(225)を使用するディスプレイ管理の例示的な処理(200)を示している。図2に示すように、入力ビデオ(202)は、ビデオデコーダから受信したビデオ及び/又はグラフィカル処理ユニット(例えば、セットトップボックスから)から受信したビデオ、及び/又は他のビデオ入力(例えば、カメラ、テレビ又はセットトップボックスのHDMI(登録商標)ポート、グラフィカル処理ユニット(GPU)などから)を含むことができる。入力ビデオ(202)は、適切なダイナミックレンジ変換の後にHDR又はSDRディスプレイ上で表示される「SDR」又は「HDR」ビデオとして特徴付けることができる。
図2は、高精度レンダリング(225)を使用するディスプレイ管理の例示的な処理(200)を示している。図2に示すように、入力ビデオ(202)は、ビデオデコーダから受信したビデオ及び/又はグラフィカル処理ユニット(例えば、セットトップボックスから)から受信したビデオ、及び/又は他のビデオ入力(例えば、カメラ、テレビ又はセットトップボックスのHDMI(登録商標)ポート、グラフィカル処理ユニット(GPU)などから)を含むことができる。入力ビデオ(202)は、適切なダイナミックレンジ変換の後にHDR又はSDRディスプレイ上で表示される「SDR」又は「HDR」ビデオとして特徴付けることができる。
一実施形態では、処理200は、入力信号の強度(I)の特性に基づいてトーンマッピング曲線を生成するマッピング曲線生成ユニット(215)を含む。このような処理の例は、参考文献[1-5]に記載されている。マッピング曲線生成ユニットの出力は、高精細レンダリングブロック(225)及びオプションの詳細層予測ユニット(230)の出力と共に、ディスプレイマッピングユニット(220)に供給され、マッピングされた出力222を生成する。
強度を抽出するために、入力RGB画像は、ITU-R Rec.2100などの従来知られている色変換技術を使用して、YCbCr、ICtCpなどのルマ-クロマカラーフォーマットに変換することができる。別の実施形態では、強度は、そのR、G、及びB成分のピクセルあたりの最大値として特徴付けることができる。強度抽出ステップは、ソース画像がすでに単一チャネル強度画像として表されている場合にバイパスすることができる。幾つかの実施形態では、ピクセル値は、画像統計の計算を容易にするために、所定の標準ダイナミックレンジに従って、例えば0.005から100ニトの間で、[0,1]に正規化することもできる。
図2に示すように、処理200は、高精細レンダリングブロック(225)を含み、元の画像の強度(I)が与えられると、基本層(IBL)(base layer (BL))画像及び詳細層(IDL)(detail layer (DL))画像を生成する。一実施形態では、詳細層画像の位置(x、y)におけるピクセルは、次のように生成される:
ここで、dgは、[0,1]における詳細利得スケーラ(scaler)を示す。
詳細層予測ブロック(230)は、入力画像の詳細層(DL)とソース画像の強度(I)チャネルの2つのチャネルを入力として取り入れる。それは、詳細層画像と同じ解像度で、詳細層画像に追加される残差値を含む単一チャネル予測詳細層(predicted detail layer (PDL))画像を生成する。一実施形態では、詳細層残差は、出力画像の局所コントラストを引き伸ばして、知覚されるコントラスト及びダイナミックレンジを増大させる。詳細層入力及び入力画像の両方を利用することにより、参考文献[5]で説明されているように、ブロック230のニューラルネットワーク実装は、詳細層のコンテンツだけでなく、ソース画像のコンテンツにも基づいて、コントラストの引き伸ばしを予測することができる。ある意味で、これは、ニューラルネットワーク(NN)に、基本画像及び詳細画像への固定精度レンダリング分解が有する可能性のある問題を補正する可能性を与える。
幾つかの実施形態では、基本層IBLを直接、又は次式のように入力強度画像Iと組み合わせて使用することができる:
ここで、αは[0,1]のスケーラである。α=0の場合、トーンマッピングは、従来のグローバルトーンマッピングと同等である。α=1の場合、トーンマッピングは基本層画像でのみ実行される。
IDLが与えられると、画像IDL上の[0,1]のオプションのスケーラβを使用して、トーンマッピングされた出力の先鋭さを調整し、最終的なトーンマッピングされた画像を生成することができる。
ここで、I'BLはIBL(又はIB)のトーンマッピングされたバージョンを示す。詳細層予測230が使用されている場合、次の通りである:
別の実装では、処理200は、詳細層予測(230)をバイパス(除去)し、元の詳細層(DL)のみを使用することによって単純化することができる。従って、入力画像のピラミッド表現が与えられた場合、処理200は次のように調整することができる。
-ブロック225で、入力画像の強度を基本層と詳細層に分割する;
-ブロック215でマッピング曲線を生成する;
-マッピング曲線を使用して、入力画像の基本層(BL)のみの最適化されたマッピングを生成する;
-元の詳細層(DL)を最適化されたマッピングに追加して、最終的な画像(例えば、式(2)参照)を生成する。
-ブロック225で、入力画像の強度を基本層と詳細層に分割する;
-ブロック215でマッピング曲線を生成する;
-マッピング曲線を使用して、入力画像の基本層(BL)のみの最適化されたマッピングを生成する;
-元の詳細層(DL)を最適化されたマッピングに追加して、最終的な画像(例えば、式(2)参照)を生成する。
図3は、本発明の実施形態による高精細レンダリングパイプラインの例を示す。図3に示すように、高精細レンダリングネットワーク(precision rendering network (PRN))は、4つの連続するサブネットワークに分割することができる。
-ピラミッド型2等分(halving)サブネットワーク(305);
-ピラミッド型ダウンサンプリングサブネットワーク(310);
-ピラミッド型アップサンプリングサブネットワーク(315);
-最終層生成サブネットワーク。
これらの各サブネットワークの出力は、後続のサブネットワークへの入力を形成する。
-ピラミッド型2等分(halving)サブネットワーク(305);
-ピラミッド型ダウンサンプリングサブネットワーク(310);
-ピラミッド型アップサンプリングサブネットワーク(315);
-最終層生成サブネットワーク。
これらの各サブネットワークの出力は、後続のサブネットワークへの入力を形成する。
精度レンダリング処理のシーケンシャルな性質を考慮すると、実施形態は、選択されたステップにのみニューラルネットワークを適用し、残りのステップに従来の処理を適用することを選択することができる。他の実施形態では、2つ以上の連続するサブネットワークをより大きなサブネットワークに結合することができる。一実施形態では、4つのサブネットワークすべてを単一のニューラルネットワークに結合することもできる。ニューラルネットワーク処理と従来の処理との区分は、ニューラルネットワーク処理のためのハードウェアアクセラレータの利用可能性に大きく依存することが予想される。
一実施形態では、ピラミッド型2等分サブネットワーク305は、ネットワークの残りの部分の解像度制約に適応するための前処理ステップと考えることができる。例えば、ネットワークの残りの部分(例えばステップ310、315)が最大で1024×576の解像度の画像しか処理できない場合、出力画像の幅が1024未満になるか、画像の高さが576未満になるまで、このステップを繰り返し呼び出すことができる。ネットワークは、すべての可能な入力がサブネットワークの解像度要件に従うように、境界ピクセルを複製/パディングするためにも使用することができる。
例えば、4K解像度の入力画像では、(例えば2K解像度の)第1層をスキップすることができる。その後、(例えばステップ320で)アップサンプリング中に、4分の1解像度の画像は単に2回、2倍にされる。同様に、8K解像度の入力画像では、2分の1及び4分の1解像度の層の両方をスキップすることができる。これにより、入力画像のサイズに関係なく、ピラミッドの後続の層は同じ寸法になる。
本明細書の残りの部分では、畳み込みネットワークは、ピクセル単位のサイズ(M×N)、それらが作用する画像チャネルの数(C)、及びフィルタバンク(K)内のそのようなカーネルの数によって定義される。その意味では、各畳み込みは、フィルタバンクM×N×C×Kのサイズによって記述できる(ここで、M×Nは幅×高さを表す)。例えば、サイズが3×3×1×2のフィルタバンクは2つの畳み込みカーネルで構成され、各々が1つのチャネルで動作し、3ピクセル×3ピクセルのサイズを有する。畳み込みネットワークにバイアス(Bias)が組み込まれている場合は、Bias(B)=True(真)で示され、それ以外の場合はB=False(偽)で示される。
一部のフィルタバンクにはストライド(Stride)を有する場合もある。これは、畳み込みの一部の結果が破棄されることを意味する。ストライド(stride (S))が1の場合は、すべての入力ピクセルが出力ピクセルを生成することを意味する。ストライドが2の場合は、各次元の2番目のピクセル毎にのみ出力が生成されることを意味する。従って、ストライドが2のフィルタバンクは、(M/2)×(N/2)ピクセルの出力を生成する。ここで、M×Nは入力画像サイズである。ストライドを1に設定すると、入力と同じピクセル数の出力が生成されるように、完全に接続されたカーネルへの入力を除くすべての入力がパディングされる。各畳み込みバンクの出力は、入力として次の畳み込み層に供給される。
一実施形態では、ピラミッド型2等分ネットワーク(305)は、パディングユニット(図4及び図5では「パディング」(Pad)として示される)を有し、その後にバイアスB=False及びストライド2を用いた単一の畳み込み演算が続き、これにより実質的に画像がダウンサンプリングされる。従って、ストライドS=2の2×2×1×1の畳み込みネットワークとして表現することができる。例えば、1920×1080の入力が与えられると、その出力は960×540になる。パディングユニットは、不適合な解像度を持つ畳み込みネットワークへの入力が、入力Iの解像度に関係なく、所望の解像度(例えば、1024×576)に一致するように変換されるように、単に入力画像に行と列を追加する。
ピラミッド型ダウンサンプリングサブネットワーク(310)は、後に改良されたトーンマッピングに使用される、入力のピラミッド表現を生成する。例えば、フル高精細入力が与えられると、一実施形態では、ピラミッドは、1024×576、512×288、256×144、128×72、64×36、32×18、及び16×9の層を生成することができる。
ピラミッドは、2のサブサンプリング係数を使用するサブサンプリングに関して説明されるが、他のサブサンプリング係数を一般性を失うことなく使用することができる。これはダウンサンプリングに使用されるため、各畳み込みフィルタに対してストライド2が使用される。ピラミッドの第1レベル(例えば、1024×576)を計算する前に、様々なサイズ又はアスペクト比の入力画像を考慮して、境界ピクセルを複製することによって入力画像をパディングすることができる。
ピラミッドの第1レベル(例えば、1024×576)を計算する前に、入力画像をパディングして以下を行うことができる。
-最小のピラミッドレベルから最大のピラミッドレベルまで、すべての空間次元が2で割り切れることを保証する;
-特定の関心領域(ROI)を考慮して、境界ピクセルを複製する;
-様々なサイズ又はアスペクト比の入力画像を考慮して、境界ピクセルを複製する。
-最小のピラミッドレベルから最大のピラミッドレベルまで、すべての空間次元が2で割り切れることを保証する;
-特定の関心領域(ROI)を考慮して、境界ピクセルを複製する;
-様々なサイズ又はアスペクト比の入力画像を考慮して、境界ピクセルを複製する。
図4は、ピラミッド型ダウンサンプリングサブネットワーク(310)の例示的なニューラルネットワークを示す。一実施形態では、サブネットワーク310は、パディングネットワーク405と、それに続く6つの連続する畳み込みニューラルネットワークブロック(例えば、410-2、410-6、410-7)を含み、各々4×2×1×1で、B=False及びS=2である。従って、960×540の入力402が与えられると、1024×576(層1)から開始して、ネットワークは、512×288(層2)、256×144(層3)、128×72(層4)、64×36(層5)、32×18(層6)及び16×9(層7)で追加の出力を生成する。従って、ピラミッド型ダウンサンプリングサブネットワーク/ニューラルネットワーク310は、入力402のNレベル(例えば、N=7)の画像のピラミッド表現を形成する画像セットを生成することができる。ピラミッド型ダウンサンプリングニューラルネットワーク310が、2つ以上の連続する畳み込みブロックを含み、各畳み込みブロックは、ピラミッド表現の各々の層のダウンサンプリングされた画像を生成してよい。i番目のピラミッド層P(i)のダウンサンプリングされた画像を示すと、ダウンサンプリングされた画像P(i)は、i=2,...,Nに対して、i-1番目のピラミッド層P(i-1)のダウンサンプリングされた画像よりも低い空間解像度を有することができる。
図5Aは、ピラミッド型アップサンプリングサブネットワーク(315)の例示的なニューラルネットワークを示す。このネットワークは、ピラミッド型ダウンサンプリングサブネットワーク(310)からダウンサンプリングされたピラミッドデータを受信し、各層でエッジ認識アップサンプリングフィルタを使用して、元の解像度で元の画像を再構成する。ピラミッドの最小解像度レベル(例えば、16×9)が最初にアップサンプリングされ、その後、追加のレベルが処理され、最高解像度(例えば、1024×576)のピラミッドレベルの解像度までアップサンプリングされる。
層iのピラミッド画像をP(i)と表すと、最低解像度レベル(例えば、i=7)から開始して、最低解像度ピラミッド画像(例えば、P(7))がエッジ保存フィルタ(505)に供給され、このフィルタは、(以下で定義される)2つの係数「画像」al(7)及びbl(7)を生成する。次に、al(7)及びbl(7)の両方が、アップサンプリング層NN(510)を使用して2倍にアップサンプリングされ、アップサンプリングされた係数画像a(7)及びb(7)を生成する。
次の層i=6で、ピラミッドのP(6)層が、アップサンプリングされた係数画像a(7)及びb(7)と組み合わされ、次の画像が生成される:
これは、画像P(6)と共に、エッジアップサンプルフィルタに供給され、係数「画像」al(6)及びbl(6)が生成される。次に、al(6)及びbl(6)の両方が2倍にアップサンプリングされ、アップサンプリングされた係数画像a(6)及びb(6)を生成する。同じ処理が他のピラミッド層についても続く。一般に、i=7,6,5,...,2について、
ここで、係数画像を画像と乗算する演算「*」は、ピクセル毎にそれらの対応するピクセルを乗算することに対応する。例えば、ピクセル位置(m,n)において、寸法W(i)×H(i)のピラミッドレベルiに対して、
図5Aに示すように、層7では、P(7)=F(7)であり、層1では、アップサンプリングフィルタ(510)を適用する必要がない。更に、層1において、2つの「スライス」ブロックは、エッジフィルタの1024×576の出力が与えられると、それらを960×540でクロッピングする。
図5Bは、一実施形態によるピラミッド型アップサンプリングサブネットワークで使用されているエッジフィルタ(505)の例示的なニューラルネットワークを示す。2つの入力(F、P)が与えられると、エッジフィルタは、幾つかの基本的な算術演算ブロック(例えば、加算、乗算、除算)、及びS=1及びB=False、出力がC1、C2、C3、及びC4として示される、4つの3×3×1×1畳み込みニューラルネットワークブロック(畳み込みブロックとも呼ばれる)を使用して、対応するal(i)及びbl(i)値を生成する。エッジフィルタへの追加の入力は、[0,1]内の値を有する重みPW[i,0]及びPW[i,1]を含む(参考文献[2])。
図5Cは、一実施形態によるピラミッド型アップサンプリングサブネットワークで使用されているアップサンプリングフィルタ(510)の例示的なニューラルネットワークを示す。m×nの入力(例えば、al(i)又はbl(i))が与えられると、フィルタは2m×2nの出力(例えば、a(i)又はb(i))を生成する。アップサンプリングフィルタは、2つの処理レベルを含み、各レベルは、行(又は列)及び列(又は行)に対して動作する従来の分離可能フィルタを模倣する。処理のレベル1は、1つのパディングブロックと、S=1及びB=Falseの2つの3×1×1×1畳み込みブロックと、を含む。処理のレベル2は、1つのパディングブロックと、S=1及びB=Falseの2つの1×3×1×1畳み込みブロックと、を含む。各レベルで、2つの畳み込みブロックの出力は、「連結」ブロックを使用して連結される。「列を連結」では、入力が両方ともm×nの場合、出力はm×2nになる。ただし、2つの入力を単に連結するのではなく、各入力から一度に1つの列をインタリーブして出力を作成する。同様に、「行を連結」ブロックでは、両方の入力がm×2nの場合があるため、各入力から一度に1つの行をインタリーブして、2m×2nの画像を生成する。
図6は、本発明の実施形態による最終層生成サブネットワークの例示的なニューラルネットワークを示す。このネットワークは、入力として、元の強度画像(I)と、ピラミッド型アップサンプリングサブネットワーク(315)からの出力a(1)及びb(1)とを取り入れ、出力基本層(BL)を次のように生成する。
図6に示すように、このネットワークは、BL解像度が入力Iの解像度と一致するように、任意のアップサンプリング及びパディングブロックを含むことができる。例えば、a(1)及びb(1)の解像度が960×540である場合、アップサンプリング層の出力は1920×1080となる。Iの解像度が1920×1080である場合、パディングブロックは、同様に、1920×1080の出力を生成する。前述したように、アップサンプリング層NNは、ピラミッド型2等分ネットワーク(305)が使用された回数と一致するように複数回使用することができる。
別の実施形態では、アップサンプリングネットワークを複数回適用する代わりに、適切な係数(例えば、4、8、等)によって画像を直接アップサンプリングする特定のNNを適用することができる。例えば、実施形態では、NN510(図5Cを参照)は、次のように係数4によってアップスケールするように修正することができる。
-2つの3×1×1×1畳み込みブロックの行を4つの5×1×1×1畳み込みブロックの行で置き換え、すべての出力は、4つの入力と1つの出力を持つ「列を連結」ネットワークへの入力として提供される;
-「列を連結」ネットワークを使用して、前述のように入力の列をインタリーブすることによってm×4n出力を生成する;
-2つの1×3×1×1畳み込みブロックの行を4つの1×5×1×1畳み込みブロックの行で置き換え、すべての出力は、4つの入力と1つの出力を持つ「行を連結」ネットワークへの入力として提供される;
-前述のように、「行を連結」ネットワークを使用して、入力の行をインタリーブすることによって4m×4n出力を生成する。
-2つの3×1×1×1畳み込みブロックの行を4つの5×1×1×1畳み込みブロックの行で置き換え、すべての出力は、4つの入力と1つの出力を持つ「列を連結」ネットワークへの入力として提供される;
-「列を連結」ネットワークを使用して、前述のように入力の列をインタリーブすることによってm×4n出力を生成する;
-2つの1×3×1×1畳み込みブロックの行を4つの1×5×1×1畳み込みブロックの行で置き換え、すべての出力は、4つの入力と1つの出力を持つ「行を連結」ネットワークへの入力として提供される;
-前述のように、「行を連結」ネットワークを使用して、入力の行をインタリーブすることによって4m×4n出力を生成する。
実施形態では、エッジフィルタの重みは、NN実装の外部で導出することができる。ただし、重みは、画像のバッチを使用したオフライントレーニング処理から導出することもできる。ネットワーク全体は、入力画像と対応する基本層画像のペアでトレーニングできる。例えば、参考文献[2]に記載されているアナライザブロックを使用して、(HDR)画像の大規模なコレクションを平滑化でき、又は、任意のエッジ保持平滑化処理を適用することもできる。このようなペアの複数のミニバッチを入力として繰り返し与えることができる。この場合、参照と予測された平滑化された画像の間の誤差の差は、誤差が収束するか、又は性能が検証セットで許容可能な状態に達するまで、ネットワークを介して逆伝搬される。誤差が収束すると、各畳み込みフィルタに対応する重みが、実行時の処理のために格納される。
従来の画像処理では、フィルタの重みは、様々なコンポーネントがあるため、必ずしもグローバル最適に変換する必要のないローカル最適な結果を達成するために選択される場合があった。ニューラルネットワークアーキテクチャは、ネットワーク全体の可視性を持ち、各サブネットワークに対して最適に各畳み込みブロックの重みを選択できる。
参考文献
ここに列挙された参考文献の各々は、参照によりその全体がここに組み込まれる。
1. U.S. Patent 9,961,237, “Display management for high dynamic range video,” by R. Atkins.
2. PCT Application PCT/US2020/028552, filed on 16 Apr 2020, WIPO Publication WO/2020/219341, “Display management for high dynamic range images,” by R. Atkins et al.
3. U.S. Patent 8,593,480, “Method and apparatus for image data transformation,” by A. Ballestad and A. Kostin,
4. U.S. Patent 10,600,166, “Tone curve mapping for high dynamic range images,” by J.A. Pytlarz and R. Atkins.
5. U.S. Provisional Patent Application Ser. No. 63/226,847, filed on July 29, 2021, “Neural networks for dynamic range conversion and display management,” by R. Wanat et al., also filed as PCT/US2022/037991, filed on July 22, 2022.
参考文献
ここに列挙された参考文献の各々は、参照によりその全体がここに組み込まれる。
1. U.S. Patent 9,961,237, “Display management for high dynamic range video,” by R. Atkins.
2. PCT Application PCT/US2020/028552, filed on 16 Apr 2020, WIPO Publication WO/2020/219341, “Display management for high dynamic range images,” by R. Atkins et al.
3. U.S. Patent 8,593,480, “Method and apparatus for image data transformation,” by A. Ballestad and A. Kostin,
4. U.S. Patent 10,600,166, “Tone curve mapping for high dynamic range images,” by J.A. Pytlarz and R. Atkins.
5. U.S. Provisional Patent Application Ser. No. 63/226,847, filed on July 29, 2021, “Neural networks for dynamic range conversion and display management,” by R. Wanat et al., also filed as PCT/US2022/037991, filed on July 22, 2022.
<例示的なコンピュータシステムの実装>
本発明の実施形態は、コンピュータシステム、電子回路及びコンポーネント内に構成されるシステム、マイクロコントローラのような集積回路(IC)装置、FPGA(field programmable gate array)、又は別の構成可能な又はプログラム可能な論理装置(PLD)、個別時間又はデジタル信号プロセッサ(DSP)、特定用途向けIC(ASIC)、及び/又はこのようなシステム、装置、又はコンポーネントのうちの1つ以上を含む機器により実装されてよい。コンピュータ及び/又はICは、本願明細書に記載したような画像変換に関連する命令を実行し、制御し、又は実施してよい。コンピュータ及び/又はICは、本願明細書に記載したディスプレイマッピング処理における高精細レンダリングに関連する種々のパラメータ又は値のうちのいずれかを計算してよい。画像及びビデオの実施形態は、ハードウェア、ソフトウェア、ファームウェア、及びそれらの種々の組み合わせで実施されてよい。
本発明の実施形態は、コンピュータシステム、電子回路及びコンポーネント内に構成されるシステム、マイクロコントローラのような集積回路(IC)装置、FPGA(field programmable gate array)、又は別の構成可能な又はプログラム可能な論理装置(PLD)、個別時間又はデジタル信号プロセッサ(DSP)、特定用途向けIC(ASIC)、及び/又はこのようなシステム、装置、又はコンポーネントのうちの1つ以上を含む機器により実装されてよい。コンピュータ及び/又はICは、本願明細書に記載したような画像変換に関連する命令を実行し、制御し、又は実施してよい。コンピュータ及び/又はICは、本願明細書に記載したディスプレイマッピング処理における高精細レンダリングに関連する種々のパラメータ又は値のうちのいずれかを計算してよい。画像及びビデオの実施形態は、ハードウェア、ソフトウェア、ファームウェア、及びそれらの種々の組み合わせで実施されてよい。
本発明の特定の実装は、プロセッサに本発明の方法を実行させるソフトウェア命令を実行するコンピュータプロセッサを含む。例えば、ディスプレイ、エンコーダ、セットトップボックス、トランスコーダ、等の中の1つ以上のプロセッサは、プロセッサのアクセス可能なプログラムメモリ内のソフトウェア命令を実行することにより、上述のディスプレイマッピングにおける高精細レンダリングに関連する方法を実施してよい。本発明は、プログラムプロダクトの形式で提供されてもよい。プログラムプロダクトは、データプロセッサにより実行されるとデータプロセッサに本発明の方法を実行させる命令を含むコンピュータ可読信号のセットを運ぶ任意の有形非一時的媒体を含んでよい。本発明によるプログラムプロダクトは、種々の有形形式のうちの任意のものであってよい。プログラムプロダクトは、例えば、フロッピーディスクを含む磁気データ記憶媒体、ハードディスクドライブ、CDROM、DVDを含む光学データ記憶媒体、ROM、フラッシュRAMを含む電子データ記憶媒体、等のような物理媒体を含んでよい。プログラムプロダクト上のコンピュータ可読信号は、光学的に圧縮又は暗号化されてよい。
コンポーネント(例えば、ソフトウェアモジュール、プロセッサ、部品、装置、回路、等)が以上で言及されたが、特に断りのない限り、それらのコンポーネントの言及(「手段」の言及を含む)は、それらのコンポーネントの均等物、記載したコンポーネントの機能を実行する(例えば、機能的に均等な)任意のコンポーネント、本発明の図示の例示的な実施形態における機能を実行する開示の構造と構造的に等しくないコンポーネントを含むと解釈されるべきである。
<均等物、拡張機能、代替案、等(Equivalents, Extensions, Alternatives and Miscellaneous)>
ディスプレイマッピングにおける高精細レンダリングに関連する例示的な実施形態が説明される。以上の明細書において、本発明の実施形態は、実装毎に変化し得る多数の特定の詳細を参照して説明された。従って、本発明が何であるかの単独及び排他的な指示、及び出願人が本発明であることを意図するものは、本願により、いかなる後の補正を含む、特定の形式で発行される請求の範囲に記載される。このような請求の範囲に含まれる用語について本願明細書に明示的に記載された任意の定義は、請求の範囲において使用されるこのような用語の意味を支配するべきである。従って、請求の範囲に明示的に記載されないいかなる限定、要素、特徴、利点、又は属性は、いかなる方法でも、請求の範囲の範囲を限定すべきではない。明細書及び図面は、従って、限定的意味ではなく、説明であると考えられるべきである。
ディスプレイマッピングにおける高精細レンダリングに関連する例示的な実施形態が説明される。以上の明細書において、本発明の実施形態は、実装毎に変化し得る多数の特定の詳細を参照して説明された。従って、本発明が何であるかの単独及び排他的な指示、及び出願人が本発明であることを意図するものは、本願により、いかなる後の補正を含む、特定の形式で発行される請求の範囲に記載される。このような請求の範囲に含まれる用語について本願明細書に明示的に記載された任意の定義は、請求の範囲において使用されるこのような用語の意味を支配するべきである。従って、請求の範囲に明示的に記載されないいかなる限定、要素、特徴、利点、又は属性は、いかなる方法でも、請求の範囲の範囲を限定すべきではない。明細書及び図面は、従って、限定的意味ではなく、説明であると考えられるべきである。
<列挙される例示的な実施形態>
本発明は、限定ではないが、本発明の幾つかの部分の構造、特徴、及び機能を記載する以下の列挙される例示的な実施形態(Enumerated Example Embodiments (EEEs))を含む本願明細書に記載された形式のうちのいずれかにおいて具現化されてよい。
本発明は、限定ではないが、本発明の幾つかの部分の構造、特徴、及び機能を記載する以下の列挙される例示的な実施形態(Enumerated Example Embodiments (EEEs))を含む本願明細書に記載された形式のうちのいずれかにおいて具現化されてよい。
(EEE1)ディスプレイマッピングにおける高精細レンダリングのための方法であって、
第1ダイナミックレンジ及び第1空間解像度における入力画像にアクセスするステップと、
前記入力画像に基づいて入力強度画像(I)を生成するステップと、
前記入力強度画像が第2空間解像度以下になるまで、前記入力強度画像をサブサンプリングすることにより第2強度画像を生成するステップと、
前記第2強度画像及びピラミッド型ダウンサンプリングニューラルネットワークに基づいて、ダウンサンプリングされた画像のセットを生成するステップと、
前記ダウンサンプリングされた画像のセット及びエッジ認識アップサンプリングフィルタリングを含むピラミッド型アップサンプリングニューラルネットワークに基づいて、前記第2空間解像度で2つのアップサンプリングされた画像を生成するステップと、
前記2つのアップサンプリングされた画像及び前記入力強度画像を最終層ニューラルネットワークで結合することにより、前記第1空間解像度で出力基本層(BL)画像を生成するステップと、
を含む方法。
第1ダイナミックレンジ及び第1空間解像度における入力画像にアクセスするステップと、
前記入力画像に基づいて入力強度画像(I)を生成するステップと、
前記入力強度画像が第2空間解像度以下になるまで、前記入力強度画像をサブサンプリングすることにより第2強度画像を生成するステップと、
前記第2強度画像及びピラミッド型ダウンサンプリングニューラルネットワークに基づいて、ダウンサンプリングされた画像のセットを生成するステップと、
前記ダウンサンプリングされた画像のセット及びエッジ認識アップサンプリングフィルタリングを含むピラミッド型アップサンプリングニューラルネットワークに基づいて、前記第2空間解像度で2つのアップサンプリングされた画像を生成するステップと、
前記2つのアップサンプリングされた画像及び前記入力強度画像を最終層ニューラルネットワークで結合することにより、前記第1空間解像度で出力基本層(BL)画像を生成するステップと、
を含む方法。
(EEE2)前記第2強度画像を生成するステップは、前記入力画像をパディングブロックで処理した後、バイアスが偽であり及びストライドが1である、2×2×1×1畳み込みブロックで処理するステップを含む、EEE1に記載の方法。
(EEE3)前記ダウンサンプリングされた画像のセットは、前記ピラミッド型ダウンサンプリングニューラルネットワークによって生成され、前記第2強度画像のピラミッド表現を形成する、EEE1又は2に記載の方法。
(EEE4)前記ピラミッド型ダウンサンプリングニューラルネットワークが、2つ以上の連続する畳み込みブロックを含み、各畳み込みブロックは、前記ピラミッド表現の各々の層のダウンサンプリングされた画像を生成するように構成される、EEE3に記載の方法。
(EEE5)前記ピラミッド型ダウンサンプリングニューラルネットワークは、バイアスが偽であり及びストライドが2である、2つ以上の4×2×1×1の連続する畳み込みブロックを含む、EEE1~4のいずれか一項に記載の方法。
(EEE6)前記ピラミッド型アップサンプリングニューラルネットワークは、複数の処理層を含み、i番目の空間解像度を有する入力層画像P(i)が与えられると、前記i番目の処理層は、P(i)、F(i)、エッジフィルタニューラルネットワーク、及びアップサンプリングフィルタニューラルネットワークに基づいてa(i)及びb(i)値を計算し、
a(i)及びb(i)は、P(i)の空間解像度よりも高い空間解像度を有する、EEE1~5のいずれか一項に記載の方法。
(EEE7)(前記i番目の処理層の)前記エッジフィルタニューラルネットワークは、
入力画像F及びP、
入力重みPW[i,0]及びPW[i,1]、
ストライドが1であり及び出力C1、C2、C3、及びC4を有する、4つの3×3×1×1畳み込みブロックであって、C1はFの局所平均を表し、C2は(F*P)の局所平均を表し、C3は(P*P)の局所平均を表し、C4はPの局所平均を表す、4つの3×3×1×1畳み込みブロック、
を含み、
出力al(i)及びbl(i)を生成し、出力al(i)及びbl(i)を生成することは、
を計算することを含む、EEE6に記載の方法。
入力画像F及びP、
入力重みPW[i,0]及びPW[i,1]、
ストライドが1であり及び出力C1、C2、C3、及びC4を有する、4つの3×3×1×1畳み込みブロックであって、C1はFの局所平均を表し、C2は(F*P)の局所平均を表し、C3は(P*P)の局所平均を表し、C4はPの局所平均を表す、4つの3×3×1×1畳み込みブロック、
を含み、
出力al(i)及びbl(i)を生成し、出力al(i)及びbl(i)を生成することは、
(EEE8)(前記i番目の処理層の)前記アップサンプリングフィルタニューラルネットワークは、
m×n空間解像度でのフィルタ入力、
2つの3×1×1×1畳み込みブロックの第1層であって、3×1×1×1畳み込みブロックの各々が前記フィルタ入力を処理し、第1フィルタ出力及び第2フィルタ出力を生成する、第1層、
前記第1フィルタ出力及び前記第2フィルタ出力の列をインタリーブし、第1層のm×2nフィルタ出力を生成する列連結器、
2つの1×3×1×1畳み込みブロックの第2層であって、1×3×1×1畳み込みブロックの各々が第1層m×2nフィルタ出力を処理し、第3フィルタ出力及び第4フィルタ出力を生成する、第2層、
前記第3フィルタ出力及び前記第4フィルタ出力の行をインタリーブし、2m×2nの空間解像度でアップサンプリングフィルタ出力を生成する行連結器、
を含む、EEE6又は7に記載の方法。
m×n空間解像度でのフィルタ入力、
2つの3×1×1×1畳み込みブロックの第1層であって、3×1×1×1畳み込みブロックの各々が前記フィルタ入力を処理し、第1フィルタ出力及び第2フィルタ出力を生成する、第1層、
前記第1フィルタ出力及び前記第2フィルタ出力の列をインタリーブし、第1層のm×2nフィルタ出力を生成する列連結器、
2つの1×3×1×1畳み込みブロックの第2層であって、1×3×1×1畳み込みブロックの各々が第1層m×2nフィルタ出力を処理し、第3フィルタ出力及び第4フィルタ出力を生成する、第2層、
前記第3フィルタ出力及び前記第4フィルタ出力の行をインタリーブし、2m×2nの空間解像度でアップサンプリングフィルタ出力を生成する行連結器、
を含む、EEE6又は7に記載の方法。
(EEE9)前記フィルタ入力がal(i)である場合、前記アップサンプリングフィルタ出力はa(i)であり、前記フィルタ入力がbl(i)である場合、前記アップサンプリングフィルタ出力はb(i)である、EEE8に記載の方法。
(EEE10)前記最終層ニューラルネットワークは、基本層(BL)画像を次のように計算し、
Iは前記入力強度画像を表し、a(1)及びb(1)は、前記ピラミッド型アップサンプリングサブネットワークによって生成された2つのアップサンプリング画像を表す、EEE1~9のいずれか一項に記載の方法。
(EEE11)詳細層画像(DL)を次のように計算するステップであって、
位置(x,y)のピクセルに対して、I(x,y)は前記入力強度画像内のピクセルを示し、BL(x,y)は詳細層画像内の対応するピクセルを示し、dgは[0,1]内のスケーリング変数を示す、ステップ、
を更に含むEEE1~10のいずれか一項に記載の方法。
を更に含むEEE1~10のいずれか一項に記載の方法。
(EEE12)プロセッサを含み、EEE1~11に記載の方法のうちのいずれか1つを実行するよう構成される機器。
(EEE13)EEE1~11のいずれか一項に記載の方法に従い1つ以上のプロセッサにより方法を実行するためのコンピュータ実行可能命令を格納している非一時的コンピュータ可読記憶媒体。
Claims (12)
- ディスプレイマッピングにおける高精細レンダリングのための方法であって、
第1ダイナミックレンジ及び第1空間解像度における入力画像にアクセスするステップと、
前記入力画像に基づいて入力強度画像(I)を生成するステップと、
前記入力強度画像が第2空間解像度以下になるまで、前記入力強度画像をサブサンプリングすることにより第2強度画像を生成するステップと、
前記第2強度画像及びピラミッド型ダウンサンプリングニューラルネットワークに基づいて、ダウンサンプリングされた画像のセットを生成するステップと、
前記ダウンサンプリングされた画像のセット及びエッジ認識アップサンプリングフィルタリングを含むピラミッド型アップサンプリングニューラルネットワークに基づいて、前記第2空間解像度で2つのアップサンプリングされた画像を生成するステップと、
前記2つのアップサンプリングされた画像及び前記入力強度画像を最終層ニューラルネットワークで結合することにより、前記第1空間解像度で出力基本層(BL)画像を生成するステップと、
を含む方法。 - 前記第2強度画像を生成するステップは、前記入力画像をパディングブロックで処理した後、バイアスが偽であり及びストライドが1である、2×2×1×1畳み込みブロックで処理するステップを含む、請求項1に記載の方法。
- 前記ダウンサンプリングされた画像のセットは、前記ピラミッド型ダウンサンプリングニューラルネットワークによって生成され、前記第2強度画像のピラミッド表現を形成する、請求項1に記載の方法。
- 前記ピラミッド型ダウンサンプリングニューラルネットワークが、2つ以上の連続する畳み込みブロックを含み、各畳み込みブロックは、前記ピラミッド表現の各々の層のダウンサンプリングされた画像を生成するように構成される、請求項3に記載の方法。
- 前記ピラミッド型ダウンサンプリングニューラルネットワークは、バイアスが偽であり及びストライドが2である、2つ以上の連続する4×2×1×1畳み込みブロックを含む、請求項1に記載の方法。
- 前記アップサンプリングフィルタニューラルネットワークは、
m×n空間解像度でのフィルタ入力、
2つの3×1×1×1畳み込みブロックの第1層であって、3×1×1×1畳み込みブロックの各々が前記フィルタ入力を処理し、第1フィルタ出力及び第2フィルタ出力を生成する、第1層、
前記第1フィルタ出力及び前記第2フィルタ出力の列をインタリーブし、第1層のm×2nフィルタ出力を生成する列連結器、
2つの1×3×1×1畳み込みブロックの第2層であって、1×3×1×1畳み込みブロックの各々が第1層m×2nフィルタ出力を処理し、第3フィルタ出力及び第4フィルタ出力を生成する、第2層、
前記第3フィルタ出力及び前記第4フィルタ出力の行をインタリーブし、2m×2nの空間解像度でアップサンプリングフィルタ出力を生成する行連結器、
を含み、
前記フィルタ入力がal(i)である場合、前記アップサンプリングフィルタ出力はa(i)であり、前記フィルタ入力がbl(i)である場合、前記アップサンプリングフィルタ出力はb(i)である、請求項6に記載の方法。 - プロセッサを含み、請求項1~10のいずれか一項に記載の方法を実行するよう構成される機器。
- 請求項1~10のいずれか一項に記載に従い1つ以上のプロセッサにより方法を実行するためのコンピュータ実行可能命令を格納している非一時的コンピュータ可読記憶媒体。
Applications Claiming Priority (5)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US202163236476P | 2021-08-24 | 2021-08-24 | |
US63/236,476 | 2021-08-24 | ||
EP21206398.6 | 2021-11-04 | ||
EP21206398 | 2021-11-04 | ||
PCT/US2022/041199 WO2023028046A1 (en) | 2021-08-24 | 2022-08-23 | Neural networks for precision rendering in display management |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2024531432A true JP2024531432A (ja) | 2024-08-29 |
Family
ID=83232702
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2024510645A Pending JP2024531432A (ja) | 2021-08-24 | 2022-08-23 | ディスプレイ管理における高精度レンダリングのためのニューラルネットワーク |
Country Status (3)
Country | Link |
---|---|
EP (1) | EP4392928A1 (ja) |
JP (1) | JP2024531432A (ja) |
WO (1) | WO2023028046A1 (ja) |
Family Cites Families (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
TWI538473B (zh) | 2011-03-15 | 2016-06-11 | 杜比實驗室特許公司 | 影像資料轉換的方法與設備 |
KR20170091744A (ko) | 2015-01-19 | 2017-08-09 | 돌비 레버러토리즈 라이쎈싱 코오포레이션 | 높은 동적 범위 비디오에 대한 디스플레이 관리 |
KR102122165B1 (ko) | 2017-02-15 | 2020-06-11 | 돌비 레버러토리즈 라이쎈싱 코오포레이션 | 하이 다이내믹 레인지 이미지들에 대한 톤 곡선 매핑 |
EP3959709A1 (en) | 2019-04-23 | 2022-03-02 | Dolby Laboratories Licensing Corporation | Display management for high dynamic range images |
-
2022
- 2022-08-23 JP JP2024510645A patent/JP2024531432A/ja active Pending
- 2022-08-23 WO PCT/US2022/041199 patent/WO2023028046A1/en active Application Filing
- 2022-08-23 EP EP22765971.1A patent/EP4392928A1/en active Pending
Also Published As
Publication number | Publication date |
---|---|
WO2023028046A1 (en) | 2023-03-02 |
EP4392928A1 (en) | 2024-07-03 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP7483747B2 (ja) | ハイダイナミックレンジ画像のディスプレイ管理 | |
JP6362793B2 (ja) | ハイダイナミックレンジ映像のためのディスプレイマネジメント | |
US8824829B2 (en) | Enhancing dynamic ranges of images | |
KR102157032B1 (ko) | 고 동적 범위 비디오에 대한 디스플레이 관리 | |
JP5184635B2 (ja) | 画像のダイナミックレンジの増大 | |
US20210166360A1 (en) | Method and apparatus for inverse tone mapping | |
Zhang et al. | Deep tone mapping network in HSV color space | |
CN115362675A (zh) | Hdr成像中的盲局部整形 | |
US9619864B2 (en) | Image processing apparatus and method for increasing sharpness of images | |
JP2024531432A (ja) | ディスプレイ管理における高精度レンダリングのためのニューラルネットワーク | |
US20240354914A1 (en) | Neural networks for precision rendering in display management | |
CN117980958A (zh) | 用于在显示管理中进行精确渲染的神经网络 | |
JP2024527025A (ja) | 画像のダイナミックレンジ変換及び表示管理のためのニューラルネットワーク | |
CN117716385A (zh) | 用于图像的动态范围转换和显示管理的神经网络 | |
Kuo et al. | Automatic high dynamic range hallucination in inverse tone mapping | |
JP2016218502A (ja) | 画像処理装置、制御方法およびプログラム | |
JP2024537680A (ja) | 画像及びビデオ処理のための動的な空間メタデータ | |
JP6417938B2 (ja) | 画像処理装置、画像処理方法、プログラム、及び記録媒体 | |
CN118044198A (zh) | 用于图像和视频处理的动态空间元数据 | |
CN118369923A (zh) | 用于对视频数据进行编码的基于上下文的整形算法 | |
JP2015169984A (ja) | 画像処理装置、画像処理方法、画像処理プログラム及び記録媒体 |