JP7443546B2 - 画像処理方法、システム及びコンピュータ・プログラム - Google Patents
画像処理方法、システム及びコンピュータ・プログラム Download PDFInfo
- Publication number
- JP7443546B2 JP7443546B2 JP2022549578A JP2022549578A JP7443546B2 JP 7443546 B2 JP7443546 B2 JP 7443546B2 JP 2022549578 A JP2022549578 A JP 2022549578A JP 2022549578 A JP2022549578 A JP 2022549578A JP 7443546 B2 JP7443546 B2 JP 7443546B2
- Authority
- JP
- Japan
- Prior art keywords
- image
- backward
- color
- neural networks
- grade
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000004590 computer program Methods 0.000 title claims 2
- 238000003672 processing method Methods 0.000 title 1
- 238000013528 artificial neural network Methods 0.000 claims description 306
- 230000006870 function Effects 0.000 claims description 101
- 238000000034 method Methods 0.000 claims description 71
- 238000013507 mapping Methods 0.000 claims description 30
- 239000002356 single layer Substances 0.000 claims description 14
- 238000011144 upstream manufacturing Methods 0.000 claims description 13
- 239000000203 mixture Substances 0.000 claims description 7
- 238000004364 calculation method Methods 0.000 claims description 6
- 230000003247 decreasing effect Effects 0.000 claims description 5
- 238000000638 solvent extraction Methods 0.000 claims 2
- 239000013598 vector Substances 0.000 description 49
- 238000005457 optimization Methods 0.000 description 46
- 239000010410 layer Substances 0.000 description 33
- 238000003860 storage Methods 0.000 description 19
- 230000000750 progressive effect Effects 0.000 description 18
- 238000004891 communication Methods 0.000 description 16
- 238000004519 manufacturing process Methods 0.000 description 14
- 230000000007 visual effect Effects 0.000 description 14
- 238000012545 processing Methods 0.000 description 13
- 230000004913 activation Effects 0.000 description 11
- 230000008569 process Effects 0.000 description 11
- 238000009877 rendering Methods 0.000 description 11
- 238000013459 approach Methods 0.000 description 10
- 238000009826 distribution Methods 0.000 description 7
- 238000013139 quantization Methods 0.000 description 7
- 230000003287 optical effect Effects 0.000 description 6
- 230000005540 biological transmission Effects 0.000 description 5
- 238000013500 data storage Methods 0.000 description 5
- 230000014509 gene expression Effects 0.000 description 5
- 238000013461 design Methods 0.000 description 4
- 238000005516 engineering process Methods 0.000 description 4
- 238000009472 formulation Methods 0.000 description 4
- 230000000670 limiting effect Effects 0.000 description 4
- 238000005070 sampling Methods 0.000 description 4
- 241000023320 Luma <angiosperm> Species 0.000 description 3
- 230000003044 adaptive effect Effects 0.000 description 3
- 239000003086 colorant Substances 0.000 description 3
- 238000010586 diagram Methods 0.000 description 3
- 238000007726 management method Methods 0.000 description 3
- 239000011159 matrix material Substances 0.000 description 3
- OSWPMRLSEDHDFF-UHFFFAOYSA-N methyl salicylate Chemical compound COC(=O)C1=CC=CC=C1O OSWPMRLSEDHDFF-UHFFFAOYSA-N 0.000 description 3
- 230000002829 reductive effect Effects 0.000 description 3
- 230000006837 decompression Effects 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 230000036961 partial effect Effects 0.000 description 2
- 239000007787 solid Substances 0.000 description 2
- 230000003068 static effect Effects 0.000 description 2
- 238000012549 training Methods 0.000 description 2
- 238000012546 transfer Methods 0.000 description 2
- RYGMFSIKBFXOCR-UHFFFAOYSA-N Copper Chemical compound [Cu] RYGMFSIKBFXOCR-UHFFFAOYSA-N 0.000 description 1
- 241000282412 Homo Species 0.000 description 1
- 230000006978 adaptation Effects 0.000 description 1
- 238000003491 array Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000008901 benefit Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 230000006835 compression Effects 0.000 description 1
- 238000007906 compression Methods 0.000 description 1
- 230000008878 coupling Effects 0.000 description 1
- 238000010168 coupling process Methods 0.000 description 1
- 238000005859 coupling reaction Methods 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 230000004424 eye movement Effects 0.000 description 1
- 230000004438 eyesight Effects 0.000 description 1
- 239000000835 fiber Substances 0.000 description 1
- 230000004301 light adaptation Effects 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000006855 networking Effects 0.000 description 1
- 230000008447 perception Effects 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 230000002441 reversible effect Effects 0.000 description 1
- 230000035945 sensitivity Effects 0.000 description 1
- 238000012163 sequencing technique Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 230000002123 temporal effect Effects 0.000 description 1
Images
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N19/00—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
- H04N19/42—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals characterised by implementation details or hardware specially adapted for video compression or decompression, e.g. dedicated software implementation
- H04N19/436—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals characterised by implementation details or hardware specially adapted for video compression or decompression, e.g. dedicated software implementation using parallelised computational arrangements
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N19/00—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
- H04N19/10—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
- H04N19/102—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or selection affected or controlled by the adaptive coding
- H04N19/117—Filters, e.g. for pre-processing or post-processing
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N19/00—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
- H04N19/10—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
- H04N19/102—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or selection affected or controlled by the adaptive coding
- H04N19/119—Adaptive subdivision aspects, e.g. subdivision of a picture into rectangular or non-rectangular coding blocks
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N19/00—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
- H04N19/10—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
- H04N19/134—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or criterion affecting or controlling the adaptive coding
- H04N19/136—Incoming video signal characteristics or properties
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N19/00—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
- H04N19/10—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
- H04N19/169—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding
- H04N19/186—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding the unit being a colour or a chrominance component
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N19/00—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
- H04N19/30—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using hierarchical techniques, e.g. scalability
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N19/00—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
- H04N19/46—Embedding additional information in the video signal during the compression process
Landscapes
- Engineering & Computer Science (AREA)
- Multimedia (AREA)
- Signal Processing (AREA)
- Computing Systems (AREA)
- Theoretical Computer Science (AREA)
- Compression Or Coding Systems Of Tv Signals (AREA)
- Image Processing (AREA)
Description
本件は、米国仮出願第62/978,638号及び欧州特許出願第20158278.0号の優先権を主張しており、両者は2020年2月19日付で出願されており、各出願は全体的に参照により援用されている。
本開示は一般に画像処理演算に関連する。より詳細には、本開示の実施形態はビデオ・コーデックに関連する。
フォワード&バックワード・ニューラル・ネットワークの同時最適化フレームワークが本件で説明される。このフレームワークは、単層の後方互換性(single-layer backward compatible, SLBC)コーデックをサポートするものを含むが、これに限定されない、広範なビデオ配信及びディスプレイ・アプリケーションで実現することができる。
図1は、ビデオのキャプチャからビデオ・コンテンツ表示までの様々な段階を示すビデオ配信パイプライン(100)の例示的なプロセスを示す。一連のビデオ・フレーム(102)は、画像生成ブロック(105)を用いて捕捉されるか又は生成される。ビデオ・フレーム(102)は、ビデオ・データ(107)を提供するために、デジタル的に(例えば、デジタル・カメラなどによって)キャプチャされてもよいし、又はコンピュータによって(例えば、コンピュータ・アニメーションなどを使用して)生成されてもよい。追加的、オプション的又は代替的に、ビデオ・フレーム(102)は、フィルム式カメラによってフィルムで捕捉されてもよい。フィルムは、ビデオ・データ(107)を提供するためにデジタル・フォーマットに変換されることが可能である。制作段階(110)では、ビデオ・データ(107)は、ビデオ制作ストリーム(112)を提供するように編集される。
[0047] SLBCのための同時最適化フレームワーク
別個の最適化アプローチの下で、フォワード・リシェイプ化(例えば、頻繁に多対1のHDR-to-SDRマッピングを行うこと)を用いたソースHDR画像からの予測されたSDR画像は、ソースHDR画像に関して視覚的なアーチファクトを比較的含まない可能性がある。しかしながら、復号化されたSDR画像をバックワード・リシェイプすることにより予測された/再構成されたHDR画像(例えば、頻繁に1対多のSDR-to-HDRマッピングを行うことによるもの)は、圧縮/符号化及び非圧縮化/復号化において導入される量子化又は符号化エラーの影響を受けた予測SDR画像と同一である可能性があり、これは、ソースHDR画像又は復号化されたSDR画像の何れかに関して、視覚的アーチファクトを比較的含んでいる傾向があるかもしれない。バックワード・リシェイプからのこれらのアーチファクトは、SDRピクセル値を、不正確なHDRピクセル値にマッピングするバックワード・リシェイプにおける1対多のSDR-to-HDRマッピングに起因する。これらの視覚的アーチファクトは、フォワード及びバックワード経路が別々に最適化されたままである限り、ニューラル・ネットワークを普遍的な関数近似器として使用する場合でさえ防ぐことができない可能性がある。
[0065] フォワード経路ニューラル・ネットワーク
トリップレット(vji y, vji C0, vji C1)と(sji y, sji C0, sji C1,)それぞれが、j番目の元及び目的(ターゲット)画像におけるi番目のピクセルに関する、正規化されたY,C0(又はCb),C1(又はCr)ピクセル成分値を示すものとする。元画像(フレーム)の全てのP個のピクセルの正規化されたY,C0及びC1ピクセル成分値は、次のように、3つの色空間チャネル/成分Y,C0及びC1に対する3つの入力・元ベクトルをそれぞれ形成するために収集されることが可能である:
例示のみを目的として、1つ以上のバックワード・ニューラル・ネットワークは、バックワード経路における多層ニューラル・ネットワークとして実装される。多層ニューラル・ネットワークは、Y,C0、及びC1チャネル又は成分それぞれのための3成分の多層ニューラル・ネットワークを含む。第1成分の多層ニューラル・ネットワーク(例えば、図2Aにおける「BackwardNet Y」など)は、再構成された又はバックワード・リシェイプされたY成分ピクセル値を生成する。第2成分の多層ニューラル・ネットワーク(例えば、図2Aにおける「BackwardNet Cb」など)は、再構成された又はバックワード・リシェイプされたC0又はCb成分ピクセル値を生成する。第3成分の多層ニューラル・ネットワーク(例えば、図2Aにおける「BackwardNet Cr」など)は、再構成された又はバックワード・リシェイプされたC1又はCr成分ピクセル値を生成する。
バックワード経路における多層ニューラル・ネットワークの第1層に対して、バックワード経路における多層ニューラル・ネットワークの3成分全ての多層ニューラル・ネットワークは、上記の表式(9)におけるs^ j,iのような共通入力を受け取る。
フォワード及びバックワード経路を含むエンド・ツー・エンド・システム又はパイプラインに対するエンド・ツー・エンド最適化問題は、以下のように定式化することが可能である:
[0088] 単層プログレッシブ・コードに関する同時最適化
フォワード及びバックワード経路同時最適化は、同じシーン又は視覚的意味内容を描写する元カラー・グレード及び目的カラー・グレードよりも多いカラー・グレードをサポートすることに拡張されることが可能である。
第1のバックワード・リシェイプされたカラー・グレードの第1の再構成された画像における対応するピクセルの予測された成分値は、バックワード・ニューラル・ネットワークの複数のセットにおける第2セット内の各カラー成分に関するバックワード・ニューラル・ネットワークの各サブセットに供給される。バックワード・ニューラル・ネットワークの複数のセット内の第2セットにおけるバックワード・ニューラル・ネットワークのこれらのサブセットは、第2のバックワード・リシェイプされたカラー・グレードの第2の再構成された(又はバックワード・リシェイプされた)画像における対応するピクセルにおける予測された成分値を出力する。
[0113] プログレッシブ・コーディング問題の定式化
sj,i <k>を、複数の目的カラー・グレードにおけるk番目の目的(又は参照)カラー・グレードのj番目の画像(フレーム)におけるi番目のピクセルの3色の目的ベクトルを示すものとし、ここで、kは0ないし(K-1)の整数を表す。全部又は一部の目的カラー・グレードは、カラーリスト(達)によってコンテンツ・マッピングされ(content-mapped)及び/又はカラー・グレーディングされ(color graded)、(例えば、複数の品質レベル、複数の異なるダイナミック・レンジ、複数の異なる色空間又は色域などにおける)異なる表示能力の個々の参照表示デバイスの所望の外観として機能する可能性がある。
[0123] デコーダにおける純粋なバックワード・ニューラル・ネットワーク
幾つかの動作シナリオでは、図3Aに示されるように、元カラー・グレード(「Src Grade」として示されるもの)は、本件で説明されるビデオ・エンコーダによって、1つ以上のフォワード・ニューラル・ネットワークのセット(「ForwardNet Y/Cb/Cr 0」ないし「ForwardNet Y/Cb/Cr K-1」として示されるもの)によって、フォワード・リシェイプされることが可能である。
[0133] デコーダにおける2Dフォワード及びバックワード・ニューラル・ネットワーク
幾つかの動作シナリオでは、フォワード及びバックワード経路の同時最適化のための純粋な又はハイブリッドなアーキテクチャは、2次元(2D)グリッドで表現された目的カラー・グレードに拡張されることが可能である。2Dグリッドは、異なる色空間(又は異なる色域)を示す第1次元と異なる最大輝度を有する異なるダイナミック・レンジを示す第2次元とを有する目的カラー・グレードを含んでもよい。
[0144] 例示的なプロセス・フロー
図4Aは、一実施形態による例示的なプロセス・フローを示す。幾つかの実施形態では、1つ以上の演算デバイス又はコンポーネント(例えば、符号化デバイス/モジュール、トランスコーディング・デバイス/モジュール、復号化デバイス/モジュール、逆トーン・マッピング・デバイス/モジュール、トーン・マッピング・デバイス/モジュール、メディア・デバイス/モジュール、逆マッピング生成及びアプリケーション・システム等)が、このプロセス・フローを実行してもよい。ブロックもでは、画像処理システムは、1つ以上のフォワード・ニューラル・ネットワークを含むフォワード経路と、バックワード・ニューラル・ネットワークを含むバックワード経路とを含むエンド・ツー・エンド画像マッピング・パイプラインへの入力として、元カラー・グレードの元画像と、目的カラー・グレードの目的画像を受信する。
[0166] コンピュータ・システム実装例
本発明の実施形態は、コンピュータ・システム、電子回路及びコンポーネント内に構成されるシステム、マイクロコントローラのような集積回路(IC)、フィールド・プログラマブル・ゲート・アレイ(FPGA)、又はその他の構築可能な又はプログラマブル論理デバイス(PLD)、離散時間又はデジタル信号プロセッサ(DSP)、特定用途向けIC(ASIC)、及び/又は、これらのシステム、デバイス又はコンポーネントの1つ以上を含む装置を用いて実施することができる。コンピュータ及び/又はICは、本件で説明されるように、拡張されたダイナミック・レンジを有する画像の適応知覚量子化に関する命令を遂行、制御、又は実行することができる。コンピュータ及び/又はICは、本件で説明される適応知覚量子化プロセスに関連する任意の様々なパラメータ又は値を計算することができる。画像及びビデオの実施形態は、ハードウェア、ソフトウェア、ファームウェア、及びそれらの様々な組み合わせで実装することができる。
[0182] 均等、拡張、代替及びその他
先述の説明では、本発明の実施形態は、実装ごとに異なる可能性のある多数の具体的な詳細を参照しながら説明されきた。従って、本発明のクレームされる実施態様の唯一かつ排他的な指標であって、本発明のクレームされた実施態様であるように出願人によって意図されているものは、本件から発行されるクレームのセットであって、当該クレームが発行される特定の形式(以後の如何なる修正も含む)におけるものである。当該クレームに含まれる用語について本件で明示的で説明される如何なる定義も、当該クレームで使用されるそのような用語の意味を支配するものとする。従って、クレームに明示的で記載されていない限定、要素、特性、特徴、効果又は属性は、如何なる方法によっても当該クレームの範囲を限定するはずはない。従って、明細書及び図面は、限定的な意味ではなく例示的に解釈されることになる。
1つ以上のフォワード・ニューラル・ネットワークを含むフォワード経路と、1つ以上のバックワード・ニューラル・ネットワークを含むバックワード経路とを含むエンド・ツー・エンドの画像マッピング・パイプラインに対する入力として、元カラー・グレードの元画像と目的カラー・グレードの目的画像とを受信するステップ;
前記元カラー・グレードの元画像をフォワード・リシェイプし、前記目的カラー・グレードのフォワード・リシェイプされた画像を生成するために、前記フォワード経路において前記1つ以上のフォワード・ニューラル・ネットワークを適用するステップ;
前記目的カラー・グレードのフォワード・リシェイプされた画像をバックワード・リシェイプし、前記元カラー・グレードのバックワード・リシェイプされた画像を生成するために、前記バックワード経路において前記1つ以上のバックワード・ニューラル・ネットワークを適用するステップ;
前記フォワード経路と前記バックワード経路に対して指定されたニューラル・ネットワーク・コスト関数のコストを生成するステップであって、コストは、前記フォワード・リシェイプされた画像と前記目的画像との間の第1差分から計算されるフォワード・コスト部分を含み、前記コストは、前記バックワード・リシェイプされた画像と前記元画像との間の第2差分から計算されるバックワード・コスト部分を含む、ステップ;及び
前記ニューラル・ネットワーク・コスト関数から生成されたコストを基礎の一部として使用して、前記1つ以上のフォワード・ニューラル・ネットワークと前記1つ以上のバックワード・ニューラル・ネットワークに関する演算パラメータを決定するステップ;
を含み;オプションとして:
前記フォワード経路から生成された選択されたカラー・グレードの画像データを、画像メタデータとともにビデオ信号に符号化するステップを更に含み、前記画像メタデータは、前記1つ以上のフォワード・ニューラル・ネットワーク及び/又は前記1つ以上のバックワード・ニューラル・ネットワークのサブセットに関する演算パラメータを少なくとも含み、前記ビデオ信号の受信側デバイスは、その選択されたカラー・グレードの前記画像メタデータと前記画像データを用いて、異なるカラー・グレードの再構成された画像データを生成することを、結果的に生じさせる方法である。
上流のビデオ・エンコーダで実現されるフォワード経路から生成されるカラー・グレードの画像データを、画像メタデータを伴うビデオ信号から復号化するステップであって、画像メタデータは、フォワード経路における1つ以上のフォワード・ニューラル・ネットワーク、及び上流のエンコーダで実現される対応するバックワード経路における1つ以上のバックワード・ニューラル・ネットワークのサブセットに関する演算パラメータのサブセットを少なくとも含む、ステップ;
1つ以上のフォワード・ニューラル・ネットワーク及び1つ以上のバックワード・ニューラル・ネットワークを演算パラメータのサブセットとともに、カラー・グレードの画像データに適用し、異なるカラー・グレードの再構成された画像データを生成するステップ;
異なるカラー・グレードの再構成された画像データから導出される表示画像が、ディスプレイ・デバイスでレンダリングされることを引き起こすステップ;
を含む方法である。
Claims (15)
- コンピュータで実行される方法であって:
フォワード経路とバックワード経路とを含むエンド・ツー・エンドの画像マッピング・パイプラインに対する入力として、元カラー・グレードの元画像と目的カラー・グレードの目的画像とを受信するステップ;
前記フォワード経路を、フォワード・ニューラル・ネットワークの複数のセットにより表される複数のサブ・ネットにパーティション化するステップであって、前記フォワード経路における前記複数のサブ・ネットの各々は、前記フォワード・ニューラル・ネットワークの複数のセットにおける、フォワード・ニューラル・ネットワークの対応するセットによって表される、ステップ;
前記バックワード経路を、バックワード・ニューラル・ネットワークの複数のセットにより表される複数のサブ・ネットにパーティション化するステップであって、前記バックワード経路における前記複数のサブ・ネットの各々は、前記バックワード・ニューラル・ネットワークの複数のセットにおける、バックワード・ニューラル・ネットワークの対応するセットによって表され、前記フォワード経路と前記バックワード経路は互いに連結されている、ステップ;
前記元カラー・グレードの元画像をフォワード・リシェイプし、前記目的カラー・グレードのフォワード・リシェイプされた画像を生成するために、前記フォワード経路において前記フォワード・ニューラル・ネットワークの複数のセットを適用するステップ;
前記目的カラー・グレードのフォワード・リシェイプされた画像をバックワード・リシェイプし、前記元カラー・グレードのバックワード・リシェイプされた画像を生成するために、前記バックワード経路において前記バックワード・ニューラル・ネットワークの複数のセットを適用するステップ;
前記フォワード経路と前記バックワード経路の双方に対して指定された同時ニューラル・ネットワーク・コスト関数を計算するステップであって、前記同時ニューラル・ネットワーク・コスト関数は、前記フォワード・リシェイプされた画像と前記目的画像との間の第1差分を計算したフォワード・コスト部分を含み、前記同時ニューラル・ネットワーク・コスト関数は、前記バックワード・リシェイプされた画像と前記元画像との間の第2差分を計算したバックワード・コスト部分を更に含む、ステップ;及び
前記同時ニューラル・ネットワーク・コスト関数を用いたバック・プロパゲーションにより、前記フォワード・ニューラル・ネットワークの複数のセットと前記バックワード・ニューラル・ネットワークの複数のセットに関する演算パラメータを決定するステップ;
を含み、前記フォワード・ニューラル・ネットワークの複数のセットは、前記元カラー・グレードの元画像を、複数の相次いで下がる品質の目的カラー・グレードに関する相次ぐフォワード・リシェイプされた画像のシーケンスに変換し、前記バックワード・ニューラル・ネットワークの複数のセットは、前記フォワード経路における相次ぐフォワード・リシェイプされた画像のシーケンスで最後に生成されたフォワード・リシェイプされた画像を、前記複数の目的カラー・グレードに関する複数のバックワード・リシェイプされた画像に変換し、前記フォワード経路における相次ぐフォワード・リシェイプされた画像のシーケンスで最後に生成されたフォワード・リシェイプされた画像と前記複数のバックワード・リシェイプされた画像は、前記同時ニューラル・ネットワーク・コスト関数で使用される、方法。 - 請求項1に記載された方法において、前記フォワード経路から生成された選択されたカラー・グレードの画像データを、画像メタデータとともにビデオ信号に符号化するステップを更に含み、前記画像メタデータは、その選択されたカラー・グレードの前記画像メタデータと前記画像データを用いて、前記選択されたカラー・グレードとは異なるカラー・グレードの再構成された画像データを生成することを、前記ビデオ信号の受信側デバイスに行わせるために、前記フォワード・ニューラル・ネットワークの複数のセット及び/又は前記バックワード・ニューラル・ネットワークの複数のセットのサブセットに関する演算パラメータのサブセットを少なくとも含む、方法。
- 請求項2に記載の方法において、前記選択されたカラー・グレードは、前記フォワード経路から生成された他の全ての目的カラー・グレードのダイナミック・レンジより高いダイナミック・レンジの、及び/又は前記フォワード経路から生成された他の全ての目的カラー・グレードの色空間より大きな色空間の、選択された目的カラー・グレードである、方法。
- 請求項2に記載の方法において、前記選択されたカラー・グレードは、前記フォワード経路から生成された他の全ての目的カラー・グレードのダイナミック・レンジより低いダイナミック・レンジの、及び/又は前記フォワード経路から生成された他の全ての目的カラー・グレードの色空間より小さな色空間の、選択された目的カラー・グレードである、方法。
- 請求項2-4のうちの何れか1項に記載の方法において、前記画像メタデータは、前記バックワード・ニューラル・ネットワークの複数のセットに関する演算パラメータのみを含む、方法。
- 請求項2-4のうちの何れか1項に記載の方法において、前記画像メタデータは、前記フォワード・ニューラル・ネットワークの複数のセットと前記バックワード・ニューラル・ネットワークの複数のセットの混合に関する演算パラメータを含む、方法。
- 請求項2-6のうちの何れか1項に記載の方法において、前記ビデオ信号は、単層の後方互換性のある信号を表す、方法。
- 請求項1-7のうちの何れか1項に記載の方法において、前記目的カラー・グレードのフォワード・リシェイプされた画像は、前記フォワード経路で最後に生成されたフォワード・リシェイプされた画像である、方法。
- 請求項1-7のうちの何れか1項に記載の方法において、前記目的カラー・グレードのフォワード・リシェイプされた画像は、前記フォワード経路で最後に生成されたフォワード・リシェイプされた画像ではない、方法。
- 請求項1-9のうちの何れか1項に記載の方法において、前記フォワード・ニューラル・ネットワークの複数のセットは、前記元カラー・グレードの元画像を、複数の目的カラー・グレードにおける複数の対応する画像に変換し;
前記複数の目的カラー・グレードは、様々な色空間を示す第1次元と様々なダイナミック・レンジを示す第2次元とを有する2次元グリッドを形成する、方法。 - 請求項1-10のうちの何れか1項に記載の方法において、前記同時ニューラル・ネットワーク・コスト関数は、前記フォワード・コスト部分と前記バックワード・コスト部分との、重み付け係数による重み付けされた組み合わせとして形成される、方法。
- 請求項11に記載の方法において、前記重み付け係数は、前記元カラー・グレードに対応する元カラー・グレード重み付け係数と、前記目的カラー・グレードに対応する目的カラー・グレード重み付け係数とを含む、方法。
- 上流のビデオ・エンコーダで実現されるフォワード経路におけるフォワード・ニューラル・ネットワークの複数のセットから生成された目的カラー・グレードの画像データを、画像メタデータを伴うビデオ信号から復号化するステップであって、前記画像メタデータは、前記フォワード経路におけるフォワード・ニューラル・ネットワークの複数のセット、及び前記上流のビデオ・エンコーダで実現される対応するバックワード経路におけるバックワード・ニューラル・ネットワークの複数のセット、のサブセットに関する演算パラメータのサブセットを少なくとも含み、前記演算パラメータは請求項1-12のうちの何れか1項に記載の方法に従って決定されている、ステップ;
前記フォワード・ニューラル・ネットワークの複数のセット及び前記バックワード・ニューラル・ネットワークの複数のセットのサブセットを、前記演算パラメータのサブセットとともに、前記目的カラー・グレードの画像データに適用し、前記目的カラー・グレードとは異なるカラー・グレードの再構成された画像データを生成するステップ;
前記異なるカラー・グレードの再構成された画像データから導出される表示画像が、ディスプレイ・デバイスでレンダリングされることを引き起こすステップであって、前記目的カラー・グレードのフォワード・リシェイプされた画像を含む前記画像データは、前記複数の相次いで下がる品質の目的カラー・グレードに関するフォワード・ニューラル・ネットワークの複数のセットにより生成された相次ぐフォワード・リシェイプされた画像のシーケンスの中から選択される、方法。 - 請求項1-13のうちの何れか1項に記載の方法を実行するように構成されたプロセッサを含むシステム。
- 演算デバイス又はシステムにより実行されると、請求項1-13のうちの何れか1項に記載の方法を前記演算デバイス又はシステムに実行させる命令を有するコンピュータ・プログラム。
Applications Claiming Priority (5)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US202062978638P | 2020-02-19 | 2020-02-19 | |
US62/978,638 | 2020-02-19 | ||
EP20158278.0 | 2020-02-19 | ||
EP20158278 | 2020-02-19 | ||
PCT/US2021/018407 WO2021168001A1 (en) | 2020-02-19 | 2021-02-17 | Joint forward and backward neural network optimization in image processing |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2023514771A JP2023514771A (ja) | 2023-04-10 |
JP7443546B2 true JP7443546B2 (ja) | 2024-03-05 |
Family
ID=74845131
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2022549578A Active JP7443546B2 (ja) | 2020-02-19 | 2021-02-17 | 画像処理方法、システム及びコンピュータ・プログラム |
Country Status (5)
Country | Link |
---|---|
US (1) | US12003746B2 (ja) |
EP (1) | EP4107946B1 (ja) |
JP (1) | JP7443546B2 (ja) |
CN (1) | CN115152212A (ja) |
WO (1) | WO2021168001A1 (ja) |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20240054622A1 (en) * | 2021-04-27 | 2024-02-15 | Boe Technology Group Co., Ltd. | Image processing method and image processing apparatus |
EP4397037A1 (en) * | 2021-08-30 | 2024-07-10 | Dolby Laboratories Licensing Corporation | Reshaper for learning-based image/video coding |
WO2024107472A1 (en) * | 2022-11-16 | 2024-05-23 | Dolby Laboratories Licensing Corporation | Estimating metadata for images having absent metadata or unusable form of metadata |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2016153896A1 (en) | 2015-03-20 | 2016-09-29 | Dolby Laboratories Licensing Corporation | Signal reshaping approximation |
US20190075301A1 (en) | 2017-09-01 | 2019-03-07 | Apple Inc. | Machine learning video processing systems and methods |
US20190110054A1 (en) | 2016-03-23 | 2019-04-11 | Dolby Laboratories Licensing Corporation | Encoding and Decoding Reversible Production-Quality Single-Layer Video Signals |
WO2019169174A1 (en) | 2018-02-28 | 2019-09-06 | Dolby Laboratories Licensing Corporation | Linear encoder for image/video processing |
WO2019199701A1 (en) | 2018-04-09 | 2019-10-17 | Dolby Laboratories Licensing Corporation | Hdr image representations using neural network mappings |
WO2019217751A1 (en) | 2018-05-11 | 2019-11-14 | Dolby Laboratories Licensing Corporation | High-fidelity full reference and high-efficiency reduced reference encoding in end-to-end single-layer backward compatible encoding pipeline |
Family Cites Families (27)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5376962A (en) * | 1993-03-31 | 1994-12-27 | Panasonic Technologies, Inc. | Neural network video image processor |
JP2000311243A (ja) | 1999-04-28 | 2000-11-07 | Sony Corp | 画像色補正方法及び装置 |
US6993512B2 (en) | 2001-06-05 | 2006-01-31 | Basf Corporation | System and method for converting a color formula using an artificial intelligence based conversion model |
US7221807B2 (en) | 2002-03-29 | 2007-05-22 | Sharp Laboratories Of America, Inc. | Methods and systems for digital image characteristic adjustment using a neural network |
US7512861B2 (en) | 2004-05-20 | 2009-03-31 | Vladimir Brajovic | Method for determining identity of simultaneous events and applications to image sensing and A/D conversion |
WO2016120354A1 (en) | 2015-01-30 | 2016-08-04 | Thomson Licensing | Method and device for matching colors between color pictures of different dynamic range |
EP3067882A1 (en) | 2015-03-10 | 2016-09-14 | Thomson Licensing | Adaptive color grade interpolation method and device |
US20160286226A1 (en) | 2015-03-24 | 2016-09-29 | Nokia Technologies Oy | Apparatus, a method and a computer program for video coding and decoding |
US20160286241A1 (en) | 2015-03-24 | 2016-09-29 | Nokia Technologies Oy | Apparatus, a method and a computer program for video coding and decoding |
US9826149B2 (en) | 2015-03-27 | 2017-11-21 | Intel Corporation | Machine learning of real-time image capture parameters |
US9794540B2 (en) | 2015-04-17 | 2017-10-17 | Google Inc. | Hardware-based convolutional color correction in digital images |
EP3113496A1 (en) | 2015-06-30 | 2017-01-04 | Thomson Licensing | Method and device for encoding both a hdr picture and a sdr picture obtained from said hdr picture using color mapping functions |
EP3354032A1 (en) * | 2015-09-21 | 2018-08-01 | VID SCALE, Inc. | Inverse reshaping for high dynamic range video coding |
US10728560B2 (en) | 2016-01-28 | 2020-07-28 | Koninklijke Philips N.V. | Encoding and decoding HDR videos |
GB201611253D0 (en) | 2016-06-29 | 2016-08-10 | Dolby Laboratories Licensing Corp | Efficient Histogram-based luma look matching |
US10701404B2 (en) | 2016-08-30 | 2020-06-30 | Dolby Laboratories Licensing Corporation | Real-time reshaping of single-layer backwards-compatible codec |
WO2018049335A1 (en) | 2016-09-09 | 2018-03-15 | Dolby Laboratories Licensing Corporation | Coding of high dynamic range video using segment-based reshaping |
US10264287B2 (en) | 2016-10-05 | 2019-04-16 | Dolby Laboratories Licensing Corporation | Inverse luma/chroma mappings with histogram transfer and approximation |
US10691975B2 (en) | 2017-07-19 | 2020-06-23 | XNOR.ai, Inc. | Lookup-based convolutional neural network |
US10609372B2 (en) | 2017-09-29 | 2020-03-31 | Dolby Laboratories Licensing Corporation | Up-conversion to content adaptive perceptual quantization video signals |
WO2019112085A1 (en) | 2017-12-06 | 2019-06-13 | Korea Advanced Institute Of Science And Technology | Method and apparatus for inverse tone mapping |
US10609424B2 (en) | 2018-03-09 | 2020-03-31 | Dolby Laboratories Licensing Corporation | Single-layer progressive coding for supporting multi-capability HDR composition |
CN108681991A (zh) | 2018-04-04 | 2018-10-19 | 上海交通大学 | 基于生成对抗网络的高动态范围反色调映射方法及系统 |
US20190325567A1 (en) | 2018-04-18 | 2019-10-24 | Microsoft Technology Licensing, Llc | Dynamic image modification based on tonal profile |
US10943335B2 (en) | 2018-06-15 | 2021-03-09 | Intel Corporation | Hybrid tone mapping for consistent tone reproduction of scenes in camera systems |
US10803565B2 (en) | 2018-07-10 | 2020-10-13 | Intel Corporation | Low-light imaging using trained convolutional neural networks |
CN110197463B (zh) | 2019-04-25 | 2023-01-03 | 深圳大学 | 基于深度学习的高动态范围图像色调映射方法及其系统 |
-
2021
- 2021-02-17 WO PCT/US2021/018407 patent/WO2021168001A1/en active Search and Examination
- 2021-02-17 US US17/800,886 patent/US12003746B2/en active Active
- 2021-02-17 CN CN202180015927.0A patent/CN115152212A/zh active Pending
- 2021-02-17 EP EP21709311.1A patent/EP4107946B1/en active Active
- 2021-02-17 JP JP2022549578A patent/JP7443546B2/ja active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2016153896A1 (en) | 2015-03-20 | 2016-09-29 | Dolby Laboratories Licensing Corporation | Signal reshaping approximation |
US20190110054A1 (en) | 2016-03-23 | 2019-04-11 | Dolby Laboratories Licensing Corporation | Encoding and Decoding Reversible Production-Quality Single-Layer Video Signals |
US20190075301A1 (en) | 2017-09-01 | 2019-03-07 | Apple Inc. | Machine learning video processing systems and methods |
WO2019169174A1 (en) | 2018-02-28 | 2019-09-06 | Dolby Laboratories Licensing Corporation | Linear encoder for image/video processing |
WO2019199701A1 (en) | 2018-04-09 | 2019-10-17 | Dolby Laboratories Licensing Corporation | Hdr image representations using neural network mappings |
WO2019217751A1 (en) | 2018-05-11 | 2019-11-14 | Dolby Laboratories Licensing Corporation | High-fidelity full reference and high-efficiency reduced reference encoding in end-to-end single-layer backward compatible encoding pipeline |
Also Published As
Publication number | Publication date |
---|---|
EP4107946B1 (en) | 2023-11-22 |
US20230084705A1 (en) | 2023-03-16 |
WO2021168001A1 (en) | 2021-08-26 |
US12003746B2 (en) | 2024-06-04 |
CN115152212A (zh) | 2022-10-04 |
EP4107946A1 (en) | 2022-12-28 |
JP2023514771A (ja) | 2023-04-10 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109416832B (zh) | 高效的基于直方图的亮度外观匹配 | |
CN108885783B (zh) | 编码和解码可逆制作质量单层视频信号 | |
JP6182644B2 (ja) | 階層的vdr符号化における層分解 | |
JP7443546B2 (ja) | 画像処理方法、システム及びコンピュータ・プログラム | |
US10311558B2 (en) | Efficient image processing on content-adaptive PQ signal domain | |
US10609424B2 (en) | Single-layer progressive coding for supporting multi-capability HDR composition | |
JP7386977B2 (ja) | テンソル積bスプライン予測子 | |
JP7037584B2 (ja) | 効率的なエンド・ツー・エンドシングルレイヤー逆ディスプレイマネジメント符号化 | |
JP7439251B2 (ja) | ビデオコーデックにおける品質と計算の複雑さとの間の調整可能なトレードオフ | |
JP7434554B2 (ja) | カスケード予測 | |
RU2794137C1 (ru) | Предсказатель b-сплайна тензорного произведения | |
JP2024522166A (ja) | チェーンドリシェーピング関数の最適化 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20220818 |
|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20220818 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20230921 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20231003 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20231226 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20240123 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20240221 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 7443546 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |