JP2023538147A - 再照明画像の生成方法、装置及び電子機器 - Google Patents
再照明画像の生成方法、装置及び電子機器 Download PDFInfo
- Publication number
- JP2023538147A JP2023538147A JP2023513079A JP2023513079A JP2023538147A JP 2023538147 A JP2023538147 A JP 2023538147A JP 2023513079 A JP2023513079 A JP 2023513079A JP 2023513079 A JP2023513079 A JP 2023513079A JP 2023538147 A JP2023538147 A JP 2023538147A
- Authority
- JP
- Japan
- Prior art keywords
- image
- feature
- guidance
- model
- training
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 142
- 238000005286 illumination Methods 0.000 claims abstract description 98
- 238000009877 rendering Methods 0.000 claims abstract description 84
- 238000012545 processing Methods 0.000 claims abstract description 77
- 238000012549 training Methods 0.000 claims description 142
- 230000006870 function Effects 0.000 claims description 75
- 230000008569 process Effects 0.000 claims description 45
- 238000003384 imaging method Methods 0.000 claims description 23
- 238000005457 optimization Methods 0.000 claims description 22
- 238000004590 computer program Methods 0.000 claims description 21
- 238000000605 extraction Methods 0.000 claims description 15
- 238000007781 pre-processing Methods 0.000 claims description 12
- 238000012805 post-processing Methods 0.000 claims 2
- 230000005540 biological transmission Effects 0.000 claims 1
- 238000010586 diagram Methods 0.000 abstract description 36
- 230000000694 effects Effects 0.000 abstract description 17
- 238000013473 artificial intelligence Methods 0.000 abstract description 8
- 238000013135 deep learning Methods 0.000 abstract description 7
- 238000005516 engineering process Methods 0.000 description 18
- 238000004891 communication Methods 0.000 description 8
- 238000013461 design Methods 0.000 description 6
- 238000005070 sampling Methods 0.000 description 6
- 238000010801 machine learning Methods 0.000 description 5
- 238000011176 pooling Methods 0.000 description 5
- 238000013528 artificial neural network Methods 0.000 description 4
- 238000013527 convolutional neural network Methods 0.000 description 4
- 238000005315 distribution function Methods 0.000 description 4
- 230000004927 fusion Effects 0.000 description 3
- 238000012986 modification Methods 0.000 description 3
- 230000004048 modification Effects 0.000 description 3
- 230000003287 optical effect Effects 0.000 description 3
- 238000011160 research Methods 0.000 description 3
- 230000009466 transformation Effects 0.000 description 3
- 230000008859 change Effects 0.000 description 2
- 230000003993 interaction Effects 0.000 description 2
- 238000013507 mapping Methods 0.000 description 2
- 238000010606 normalization Methods 0.000 description 2
- 238000012546 transfer Methods 0.000 description 2
- 230000009471 action Effects 0.000 description 1
- 230000004913 activation Effects 0.000 description 1
- 238000003491 array Methods 0.000 description 1
- 230000008901 benefit Effects 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000011982 device technology Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 238000007689 inspection Methods 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 238000012544 monitoring process Methods 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
- 239000013307 optical fiber Substances 0.000 description 1
- 230000008447 perception Effects 0.000 description 1
- 230000000704 physical effect Effects 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 230000001953 sensory effect Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T15/00—3D [Three Dimensional] image rendering
- G06T15/50—Lighting effects
- G06T15/506—Illumination models
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T5/00—Image enhancement or restoration
- G06T5/90—Dynamic range modification of images or parts thereof
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/60—Extraction of image or video features relating to illumination properties, e.g. using a reflectance or lighting model
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T15/00—3D [Three Dimensional] image rendering
- G06T15/50—Lighting effects
- G06T15/60—Shadow generation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T3/00—Geometric image transformations in the plane of the image
- G06T3/40—Scaling of whole images or parts thereof, e.g. expanding or contracting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T5/00—Image enhancement or restoration
- G06T5/10—Image enhancement or restoration using non-spatial domain filtering
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T5/00—Image enhancement or restoration
- G06T5/50—Image enhancement or restoration using two or more images, e.g. averaging or subtraction
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/42—Global feature extraction by analysis of the whole pattern, e.g. using frequency domain transformations or autocorrelation
- G06V10/431—Frequency domain transformation; Autocorrelation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/44—Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/62—Extraction of image or video features relating to a temporal dimension, e.g. time-based feature extraction; Pattern tracking
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/74—Image or video pattern matching; Proximity measures in feature spaces
- G06V10/761—Proximity, similarity or dissimilarity measures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20212—Image combination
- G06T2207/20221—Image fusion; Image merging
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02B—CLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO BUILDINGS, e.g. HOUSING, HOUSE APPLIANCES OR RELATED END-USER APPLICATIONS
- Y02B20/00—Energy efficient lighting technologies, e.g. halogen lamps or gas discharge lamps
- Y02B20/40—Control techniques providing energy savings, e.g. smart controller or presence detection
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Multimedia (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Software Systems (AREA)
- Evolutionary Computation (AREA)
- Computer Graphics (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Computing Systems (AREA)
- Databases & Information Systems (AREA)
- General Health & Medical Sciences (AREA)
- Medical Informatics (AREA)
- Image Analysis (AREA)
- Image Processing (AREA)
Abstract
本開示は、再照明画像の生成方法、装置及び電子機器を提供し、人工知能の分野に関し、具体的にコンピュータ視覚と深層学習技術に関し、特に画像処理シーンに適用されることができる。具体的な実現案は、処理対象である画像とそれに対応するガイダンス画像を取得し、前記ガイダンス画像に基づいて、前記処理対象である画像に対して時間領域での再照明レンダリングを行って、第1の中間画像を取得し、前記ガイダンス画像に基づいて、前記処理対象である画像に対して周波数領域空間での再照明レンダリングを行って、第2の中間画像を取得し、前記第1の中間画像と前記第2の中間画像に基づいて、前記処理対象である画像に対応するターゲット再照明画像を取得することである。これにより、本開示は、処理対象である画像とガイダンス画像に対して時間領域と周波数領域での再照明レンダリングを行い、時間領域と周波数領域での特徴情報を組み合わせることにより、レンダリング効果がより正確で、信頼的なターゲット再照明画像を得る。【選択図】 図1
Description
本開示は、北京百度網訊科技有限公司が2021年6月29日に提案した、発明の名称が「再照明画像の生成方法、装置及び電子機器」であり、中国特許出願番号「202110729941.9」である優先権を主張する。
本開示は、コンピュータ技術の分野に関し、より具体的には人工知能の分野に関し、具体的にコンピュータ視覚と深層学習技術に関し、特に画像処理シーンに適用されることができる。
モバイル端末技術及び画像処理(Image Processing)技術の急速な発展に伴い、再照明(Relighting)技術ベースの特殊効果機能を有す様々なアプリケーション(Application,APPと略称する)が誕生し、画像にフィルタを追加したり、顔の陰影効果を変更したりする機能に対するユーザーの要求も高まっている。特に、明確な照明方向と色温度度が分からない場合、ガイダンス画像に基づいて、処理対象である画像に対して任意の再照明処理を正確に行うことに対する要求も高まっている。
関連技術では、通常、人工的にレンダリングする方式、ニューラルネットワーク学習トレーニングに基づいて処理対象である画像を再照明レンダリングするためのモデルを得る方式という2つの方式で再照明画像の生成を行う。
しかしながら、人工的にレンダリングするのは、人件費が極める高く、再照明画像の生成効率が低く、信頼性が悪いという問題があり、ニューラルネットワーク学習トレーニングで得られたネットワークに基づいて、生成された再照明画像は、アーティファクトが発生したり、陰影の変化が学習できなかったりする問題が多い。
そのため、再照明画像の生成過程における有効性と信頼性をどのように向上させるかは、重要な研究方向の1つとなっている。
本開示は、再照明画像の生成方法、装置及び電子機器を提供する。
本開示の一態様によれば、再照明画像の生成方法を提供し、前記方法は、処理対象である画像と前記処理対象である画像に対応するガイダンス画像を取得するステップと、前記ガイダンス画像に基づいて、前記処理対象である画像に対して時間領域での再照明レンダリングを行って、前記ガイダンス画像における照明条件と一致する第1の中間画像を取得するステップと、前記ガイダンス画像に基づいて、前記処理対象である画像に対して周波数領域空間での再照明レンダリングを行って、前記ガイダンス画像における照明条件と一致する第2の中間画像を取得するステップと、前記第1の中間画像と前記第2の中間画像に基づいて、前記処理対象である画像に対応するターゲット再照明画像を取得するステップと、を含む。
本開示の別の態様によれば、再照明画像生成システムのトレーニング方法を提供し、前記方法は、マックアップされたターゲット再照明画像のサンプル処理対象である画像と、前記サンプル処理対象である画像に対応するサンプルガイダンス画像とを取得するステップと、前記サンプル処理対象である画像と前記サンプルガイダンス画像をトレーニング対象の再照明画像生成システム内の時間領域特徴取得モデルに入力してトレーニングして、時間領域モデルの第1の損失関数を取得するステップと、前記サンプル処理対象である画像と前記サンプルガイダンス画像をトレーニング対象の前記再照明画像生成システム内の周波数領域特徴取得モデルに入力してトレーニングして、周波数領域モデルの第2の損失関数を取得するステップと、前記第1の損失関数と前記第2の損失関数に基づいて、前記再照明画像生成システムに対応する総損失関数を取得して、前記総損失関数に基づいて前記再照明画像生成システム内のモデルパラメータを調整し、トレーニング結果がトレーニング終了条件を満たすまで、前記マックアップされたターゲット再照明画像のサンプル処理対象である画像と、前記サンプル処理対象である画像に対応するサンプルガイダンス画像とを取得するステップに戻り、最後に前記モデルパラメータを調整した後のトレーニング対象の前記再照明画像生成システムをトレーニング済みの前記再照明画像生成システムとして決定するステップと、を含む。
本開示の別の態様によれば、再照明画像の生成装置を提供し、前記装置は、処理対象である画像と前記処理対象である画像に対応するガイダンス画像を取得する第1の取得モジュールと、前記ガイダンス画像に基づいて、前記処理対象である画像に対して時間領域での再照明レンダリングを行って、前記ガイダンス画像における照明条件と一致する第1の中間画像を取得する第2の取得モジュールと、前記ガイダンス画像に基づいて、前記処理対象である画像に対して周波数領域空間での再照明レンダリングを行って、前記ガイダンス画像における照明条件と一致する第2の中間画像を取得する第3の取得モジュールと、前記第1の中間画像と前記第2の中間画像に基づいて、前記処理対象である画像に対応するターゲット再照明画像を取得する第4の取得モジュールと、を備える。
本開示の別の態様によれば、再照明画像生成システムのトレーニング装置を提供し、前記装置は、マックアップされたターゲット再照明画像のサンプル処理対象である画像と、前記サンプル処理対象である画像に対応するサンプルガイダンス画像とを取得する第1の取得モジュールと、前記サンプル処理対象である画像と前記サンプルガイダンス画像をトレーニング対象の再照明画像生成システム内の時間領域特徴取得モデルに入力してトレーニングして、時間領域モデルの第1の損失関数を取得する第2の取得モジュールと、前記サンプル処理対象である画像と前記サンプルガイダンス画像をトレーニング対象の前記再照明画像生成システム内の周波数領域特徴取得モデルに入力してトレーニングして、周波数領域モデルの第2の損失関数を取得する第3の取得モジュールと、前記第1の損失関数と前記第2の損失関数に基づいて、前記再照明画像生成システムに対応する総損失関数を取得して、前記総損失関数に基づいて前記再照明画像生成システム内のモデルパラメータを調整し、トレーニング結果がトレーニング終了条件を満たすまで、前記マックアップされたターゲット再照明画像のサンプル処理対象である画像と、前記サンプル処理対象である画像に対応するサンプルガイダンス画像とを取得するステップに戻り、最後に前記モデルパラメータを調整した後のトレーニング対象の前記再照明画像生成システムをトレーニング済みの前記再照明画像生成システムとして決定する決定モジュールと、を備える。
本開示の別の態様によれば、電子機器を提供し、少なくとも1つのプロセッサと、前記少なくとも1つのプロセッサと通信可能に接続されるメモリと、を備え、前記メモリには、前記少なくとも1つのプロセッサによって実行可能な命令が記憶されており、前記命令は、前記少なくとも1つのプロセッサが本開示の第1の態様に記載の再照明画像の生成方法または第2の様態に記載の再照明画像生成システムのトレーニング方法を実行できるように、前記少なくとも1つのプロセッサによって実行される。
本開示の別の態様によれば、コンピュータ命令が記憶されている非一時的なコンピュータ読み取り可能な記憶媒体を提供し、前記コンピュータ命令は、前記コンピュータに本開示の第1の態様に記載の再照明画像の生成方法または第2の態様に前記の再照明画像生成システムのトレーニング方法を実行させる。
本開示の別の態様によれば、コンピュータプログラムが含まれるコンピュータプログラム製品を提供し、前記コンピュータプログラムはプロセッサによって実行される際、本開示の第1の態様に記載の再照明画像の生成方法または第2の態様に記載の再照明画像生成システムのトレーニング方法を実現する。
なお、この部分に記載のコンテンツは、本開示の実施例の肝心または重要な特徴を特定することを意図しておらず、本開示の範囲を限定することも意図していないことを理解されたい。本開示の他の特徴は、以下の説明を通して容易に理解される。
図面は、本技術案をよりよく理解するために使用され、本開示を限定するものではない。
本開示の第1の実施例に係る概略図である。
再照明画像生成過程の概略図である。
本開示の第2の実施例に係る概略図である。
本開示の第3の実施例に係る概略図である。
本開示の第4の実施例に係る概略図である。
第1の特徴画像処理過程の概略図である。
本開示の第5の実施例に係る概略図である。
再照明画像生成過程の概略図である。
処理対象である画像の概略図である。
本開示の第6の実施例に係る概略図である。
本開示の第7の実施例に係る概略図である。
本開示の第8の実施例に係る概略図である。
別の再照明画像生成過程の概略図である。
別の再照明画像生成過程の概略図である。
別の再照明画像生成過程の概略図である。
本開示の第9の実施例に係る概略図である。
本開示の第10の実施例に係概略図である。
本開示の第11の実施例に係る概略図である。
本開示の第12の実施例に係る概略図である。
本開示の実施例の再照明画像の生成方法を実現するための再照明画像の生成装置のブロック図である。
本開示の実施例の再照明画像の生成方法を実現するための再照明画像の生成装置のブロック図である。
本開示の実施例の再照明画像生成システムのトレーニング方法を実現するための再照明画像生成システムのトレーニング装置のブロックである。
本開示の実施例の再照明画像生成システムのトレーニング方法を実現するための再照明画像生成システムのトレーニング装置のブロックである。
本開示の実施例の再照明画像の生成方法を実現するための電子機器のブロック図である。
以下、図面と併せて本開示の例示的な実施例を説明し、理解を容易にするためにその中には本開示の実施例の様々な詳細事項が含まれており、それらは単なる例示的なものと見なされるべきである。したがって、当業者は、本開示の範囲及び精神から逸脱することなく、ここで説明される実施例に対して様々な変更と修正を行うことができることを認識されたい。同様に、明確及び簡潔にするために、以下の説明では、周知の機能及び構造の説明を省略する。
以下、本開示の技術案に関する技術分野について簡単に説明する。
コンピュータ技術(Computer Technology)は、コンテンツが非常に広く、コンピュータシステム技術、コンピュータデバイス技術、コンピュータ部品技術、及びコンピュータ組立技術などのいくつかの面に大まかに分けることができる。コンピュータ技術は、演算方法の基本原理と演算器設計、命令システム、中央処理ユニット(CPU)設計、パイプライン原理及びCPU設計における応用、記憶システム、バスと入出力を含む。
AI(Artificial Intelligence,人工知能)は、コンピュータに人間のある思惟過程と知能行為(学習、推理、思考、計画など)をシミュレートさせることを研究する学科であり、ハードウェアレベルの技術とソフトウェアレベルの技術ともある。人工知能ハードウェア技術は一般的にコンピュータ視覚技術、音声認識技術、自然言語処理技術及びその学習/深層学習、ビッグデータ処理技術、ナレッジグラフ技術などのいくつかの方面を含む。
コンピュータ視覚(Computer Vision)は、どのように機械が「見る」ようにするかを研究する科学であり、さらに言えば、人の目の代わりにカメラとコンピュータで目標を認識、追跡、測定するなどの機械視覚であり、さらにグラフィックス処理を行い、コンピュータが人間の目で観察したり、機器の検査に転送したりするのに適した画像として処理する。科学学科として、コンピュータ視覚の研究に関する理論と技術は、画像や多次元データから「情報」を取得できる人工知能システムを構築しようとする。ここでの情報とは、Shannonが定義したもので、「決定」を支援するために使用できる情報を指す。知覚が感覚信号から情報を抽出することと考えられることができるため、コンピュータ視覚は、どのように人工システムに画像や多次元データから「知覚」させるかを研究する科学と見なすこともできる。
DL(Deep Learning、深層学習)は、ML機械学習(Machine Learning、機械学習)分野における新しい研究方向であり、最初の目標-人工知能により近づけるように機械学習に導入されている。深層学習はサンプルデータの内的な規則と表示レベルを学習するものであり、これらの学習過程で取得された情報は文字、画像、及び音声などのデータの解釈に大きいに役立つ。その最終的な目標は、機械が人間のように分析学習能力を持ち、文字、画像、及び音声などのデータを認識できるようにすることである。深層学習は複雑な機械学習アルゴリズムであり、音声と画像認識面で収められる効果は以前の関連技術をはるかに超える。
以下、図面を参照しながら、本開示の実施例の再照明画像の生成方法、装置及び電子機器を説明する。
図1は、本開示の第1の実施例に係る概略図である。なお、本実施例の再照明画像の生成方法の実行主体は、再照明画像の生成装置であり、再照明画像の生成装置は、具体的には、ハードウェアデバイスであってもよいし、またはハードウェアデバイス内のソフトウェアなどであってもよい。ハードウェアデバイスは、例えば、端末装置、サーバなどである。
図1に示すように、本実施例によって提案される再照明画像の生成方法は以下のステップS101~S104を含む。
S101、処理対象である画像と、処理対象である画像に対応するガイダンス画像とを取得する。
処理対象である画像は、ユーザが入力した任意の画像であってもよく、また例えば、教学ビデオや映画とドラマ作品などの任意のビデオに対して、復号、フレーム抽出を行った後、処理対象である画像として1フレームの画像を得ることができる。
なお、処理対象である画像を取得しようとする際、ローカルまたはリモートの記憶領域に予め記憶されている画像を処理対象である画像として取得してもよいし、処理対象である画像として直接画像を撮影してもよい。
選択的に、ローカルまたはリモートの画像ライブラリ、ビデオライブラリのうちの少なくとも1つから記憶されている画像またはビデオを取得して、処理対象である画像を取得することができる。選択的に、処理対象である画像として直接画像を撮影することもできる。本開示の実施例は、処理対象である画像を取得する方式を限定せず、実際の状況に応じて選択することができる。
ガイダンス画像、ガイダンス処理対象である画像のレンダリングをガイドし、任意の照明条件を有する画像であってもよい。
S102、ガイダンス画像に基づいて、処理対象である画像に対して時間領域での再照明レンダリングを行って、ガイダンス画像における照明条件と一致する第1の中間画像を取得する。
S103、ガイダンス画像に基づいて、処理対象である画像に対して周波数領域空間での再照明レンダリングを行って、ガイダンス画像における照明条件と一致する第2の中間画像を取得する。
なお、関連技術では、処理対象である画像に対して再照明処理を行う際、通常、人工的にレンダリングし、または、ニューラルネットワーク学習に基づいてトレーニングして処理対象である画像に対して再照明レンダリングを行うためのモデルを得て、例えばトレーニングして畳み込みニューラルネットワーク(Convolutional Neural Networks、CNN)モデルを得る。
しかしながら、人工的にレンダリングすることには、人件費が極めて高く再照明画像の生成効率が低く、信頼性が悪いという問題がある。ニューラルネットワーク学習に基づいてトレーニングして得られたネットワークは、一般に時間領域のみに対応し、すなわち、RGB(Red Green Blue)画像下で直接操作し、この場合、ネットワーク設計に欠陥があるため、得られた再照明画像にはアーティファクトが発生したり、影の変化を学習できなかったりする問題があることが多い。
これにより、本開示によって提案される再照明画像の生成方法は、処理対象である画像に対して再照明レンダリングを行うことにより、時間領域画像及び周波数領域画像で操作することにより、品質のより良い再照明画像を生成することができる。
再照明技術(Relighting)とは、1枚の与えられた画像の照明方向と色温度を変更し、これによってもう1枚の異なる照明方向と色温度の画像を生成することを意味する。
例えば、図2に示すように、図2(a)は色温度2500K、光源が東にある時のシーン画像であり、図2(b)は色温度が6500Kであり、光源が西にある時のシーン画像である。このことからわかるように、色温度値が低い場合、画像の色が黄色くなり、暖かい色調に属し、色温度値が高い場合、画像の色が白くなり、冷たい色調に属する。同時に、光源の位置が異なると、発生する影も異なる。要約すると、再照明レンダリングを行う目的は、図2(a)をレンダリングし、図2(b)を生成し、色温度と影の方向だけを変えて、シーンコンテンツの一貫性を維持することである。
S104、第1の中間画像と第2の中間画像に基づいて、処理対象である画像に対応するターゲット再照明画像を取得する。
本開示の実施例では、第1の中間画像と第2の中間画像が取得された後、第1の中間画像と第2の中間画像に対して様々な処理を行って、処理対象である画像に対応するターゲット再照明画像を取得することができる。
なお、本開示は、処理対象である画像に対応するターゲット再照明画像を取得する具体的な方式を限定せず、実際の状況に応じて選択することができる。例えば、第1の中間画像と第2の中間画像に対して重み付け処理を行い、重み付け結果をターゲット再照明画像とすることができ、また、例えば、第1の中間画像と第2の中間画像に対して平均値を求め、両者の平均値をターゲット再照明画像とすることができる。
本開示の実施例に係る再照明画像の生成方法は、人工設計に依存することなく、ニューラルネットワーク学習に基づいてトレーニングして得られた畳み込みニューラルネットワークモデルにも依存することなく、処理対象である画像とガイダンス画像に対して時間領域と周波数領域での再照明レンダリングを行い、時間領域と周波数領域での特徴情報を組み合わせることにより、任意の再照明技術に基づいて得られたターゲット再照明画像が低周波数でシーンコンテンツ構造を保持し、高周波数で詳細な影情報を保持し、これによってレンダリング効果がより正確で、信頼性があるターゲット再照明画像を得る。
図3は、本開示の第2の実施例に係る概略図である。
図3に示すように、本実施例によって提案される再照明画像の生成方法は、以下のステップS301~S302を含む。
S301、処理対象である画像と、処理対象である画像に対応するガイダンス画像とを取得する。
このステップS301と前の実施例のステップS101とが同じであり、ここでは説明を省略する。
前の実施例のステップS102において、ガイダンス画像に基づいて、処理対象である画像に対して時間領域での再照明レンダリングを行って、ガイダンス画像における照明条件と一致する第1の中間画像を取得する過程はステップS302を含む。
S302、処理対象である画像とガイダンス画像を再照明画像生成システムの時間領域特徴取得モデルに入力して時間領域での再照明レンダリングを行って、ガイダンス画像における照明条件と一致する第1の中間画像を取得する。
可能な一実現形態として、図4に示すように、上記の実施例に加えて、上記ステップS302において、処理対象である画像とガイダンス画像を再照明画像生成システムの時間領域特徴取得モデルに入力して時間領域での再照明レンダリングを行って、ガイダンス画像における照明条件と一致する第1の中間画像を取得する過程は、具体的に、以下のステップを含む。
S401、時間領域特徴取得モデルを介して処理対象である画像とガイダンス画像に対して特徴抽出を行って、処理対象である画像の第1のシーンコンテンツ特徴画像、及びガイダンス画像の第1の照明特徴画像を取得する。
可能な一実現形態として、図5に示すように、上記の実施例に加えて、上記ステップS401において、時間領域特徴取得モデルを介して処理対象である画像とガイダンス画像に対して特徴抽出を行って、処理対象である画像の第1のシーンコンテンツ特徴画像、及びガイダンス画像の第1の照明特徴画像を取得する過程は、具体的に以下のステップS501~S502を含む。
S501、時間領域特徴取得モデルを介して処理対象である画像とガイダンス画像に対してダウンサンプリング処理を行って、第1の特徴画像を取得する。
本開示の実施例では、時間領域特徴取得モデルを介して処理対象である画像とガイダンス画像に対してダウンサンプリング処理を行うことができる。選択的に、処理対象である画像とガイダンス画像に対して畳み込み処理を行い、畳み込み処理を行って得られた画像に対して正規化処理を行い、さらに非線形化処理によって画像の非線形性を向上させることができる。さらに、ダウンサンプリングを行うたびに、非線形化処理を行った後、画像に対してプーリング処理を行い、これによって第1の特徴画像を取得することができる。
なお、本開示では、プーリング処理は局所的に処理するものである。選択的に、非線形化処理後の特徴画像を複数の小局所ブロックに分割し、その後、各ブロック内の画素値に対して、平均値または最大値をとるなどの方式で、当該局所ブロックの値として1つの値を得ることができる。
例えば、各小局所ブロックの幅と高さがいずれも2である場合、プーリング処理後、特徴画像の幅と高さは2倍に縮小される。処理時の各小局所ブロックの値は、他の局所ブロックと関係なく、所在する局所ブロックにのみ関係するため、この操作は局所的に処理されるものである。
S502、第1の特徴画像に対して等分処理を行って、処理対象である画像の第1のシーンコンテンツ特徴画像を取得し、ガイダンス画像の第1の照明特徴画像を取得する。
本開示の実施例では、チャネル次元で、第1の特徴画像を2つの部分に等分することができる。
なお、第1の特徴画像とは、処理対象である画像に対する第1の特徴画像、及びガイダンス画像に対する第1の特徴画像を指すため、第1の特徴画像に対して等分処理を行った後、処理対象である画像に対する第1のシーンコンテンツ特徴画像と照明特徴画像、及びガイダンス画像の第1の照明特徴画像とシーンコンテンツ特徴画像を取得することができる。
例えば、図6に示すように、時間領域特徴取得モデルを介して処理対象である画像とガイダンス画像に対してダウンサンプリング処理を行った後、処理対象である画像に対する第1の特徴画像6-1、及びガイダンス画像に対する第1の特徴画像6-2を得ることができる。さらに、等分処理により、処理対象である画像の6-1に対する第1のシーンコンテンツ特徴画像6-11と6-12、及びガイダンス画像の6-2に対するシーンコンテンツ特徴画像6-21と第1の照明特徴画像6-22を得ることができる。この場合、第1のシーンコンテンツ特徴画像6-11と第1の照明特徴画像6-22を取得することができる。
S402、第1のシーンコンテンツ特徴画像と第1の照明特徴画像を結合して、融合特徴画像を取得する。
本開示の実施例では、チャネル次元で、第1のシーンコンテンツ特徴画像と第1の照明特徴画像をプライスして、融合特徴画像を取得することができる。
S403、融合特徴画像に基づいて、第1の中間画像を生成する。
本開示の実施例では、融合特徴画像に対してアップサンプリング処理を行って、第1の中間画像生成することができる。
なお、本開示では、アップ、ダウンサンプリングの周波数と倍数は実際の状況に応じて設定することができる。
例えば、画像を逐次4回ダウンサンプリングすることができ、1回につき2倍、合計16回ダウンサンプリングする。さらに、ダウンサンプリングされた画像を逐次4回アップサンプリングすることができ、1回につき2倍、合計16回アップサンプリングして、第1の中間画像を得る。なお、画像をサンプリングする中に、取得された特徴画像と画像サイズとが一致するように維持する。
S303、ガイダンス画像に基づいて、処理対象である画像に対して周波数領域空間での再照明レンダリングを行って、ガイダンス画像における照明条件と一致する第2の中間画像を取得する。
S304、第1の中間画像と第2の中間画像に基づいて、処理対象である画像に対応するターゲット再照明画像を取得する。
このステップS303~304と前の実施例のステップS103~104とが同じであり、ここでは説明を省略する。
本開示の実施例に係る再照明画像の生成方法は、処理対象である画像とガイダンス画像を再照明画像生成システムの時間領域特徴取得モデルに入力して時間領域での再照明レンダリングを行って、ガイダンス画像における照明条件と一致する第1の中間画像を取得することにより、処理対象である画像とガイダンス画像に対して時間領域での再照明レンダリングを行い、時間領域での特徴情報に基づいて、より正確な第1の中間画像を取得し、ターゲット再照明画像のレンダリング効果を確保することができる。
図7は、本開示の第5の実施例に係る概略図である。
図7に示すように、本実施例によって提案される再照明画像の生成方法は以下のステップS701~S702を含む。
S701、処理対象である画像と、処理対象である画像に対応するガイダンス画像とを取得する。
S702、ガイダンス画像に基づいて、処理対象である画像に対して時間領域での再照明レンダリングを行って、ガイダンス画像における照明条件と一致する第1の中間画像を取得する。
このステップS701~702と前の実施例のステップS101~102とが同じであり、ここでは説明を省略する。
前の実施例中のステップS103において、ガイダンス画像に基づいて、処理対象である画像に対して周波数領域空間での再照明レンダリングを行って、ガイダンス画像における照明条件と一致する第2の中間画像を取得する過程は具体的に、ステップS703を含む。
S703、処理対象である画像とガイダンス画像を再照明画像生成システムの周波数領域特徴取得モデルのN個のウェーブレット変換モデルに入力して周波数領域空間での再照明レンダリングを行って、ガイダンス画像における照明条件と一致する第2の中間画像を取得し、Nが1以上である整数である。
再照明画像生成システムは、N個のウェーブレット変換モデルを含み、Nが1以上である整数である。例えば、再照明画像生成システムは、1つのウェーブレット変換モデルを含み、また、例えば、再照明画像生成システムは、3つの構造が一致するウェーブレット変換モデルを含み、この場合、3つのウェーブレット変換モデルはカスケード(Cascade)の方式で接続される。
なお、本開示はウェーブレット変換の種類を限定せず、実際の状況に応じて選択することができる。選択的に、離散ウェーブレット変換モデルを選択して処理対象である画像に対して再照明レンダリングを行うことができる。
以下、本開示の技術案に関するウェーブレット変換モデルの処理過程について簡単に説明する。
画像の周波数は、画像中の階調変化の激しさを特徴づける指標であり、平面空間上の階調の勾配である。
例えば、大面積の砂漠画像を与えると、階調の変化が遅い領域が得られ、対応する周波数値は低く、一方、地表属性の変換が激しいエッジ領域、例えば山が重なり合う山に対して、画像中で階調変化が激しい領域である場合、対応する周波数値は高い。
これにより、物理的効果から見ると、ウェーブレット変換は画像を空間領域から周波数領域に変換することができ、すなわち画像の階調分布関数を画像の周波数分布関数に変換することができ、逆変換によって画像の周波数分布関数を階調分布函数に変換することができる。
処理対象である画像の2次元離散ウェーブレット変換モデルの処理過程を例として、図8に示す処理対象である画像を例として、選択的に、処理対象である画像の一行ずつの画素に対して1次元の離散ウェーブレット変換(Discrete Wavelet Transformation、DWTと略称する)を行い、水平方向上の元の画像(処理対象である画像)の低周波成分Lと高周波成分Hを得ることができる。さらに、変換後のデータの各列の画素を再び1次元のDWTを行い、これによって図9に示す4つの結果を得ることができる。
得られた水平方向上の低周波成分と垂直方向上の低周波成分、すなわちLLに基づいて、図9(a)に示す画像を得ることができ、水平方向上の低周波成分と垂直方向上の高周波成分、すなわちLHに基づいて、図9(b)に示す画像を得ることができ、水平方向上の高周波成分と垂直方向上の低周波成分、すなわちHLに基づいて、図9(c)に示す画像を得ることができ、水平方向上の高周波成分と垂直方向上の高周波成分、すなわちHHに基づいて、図9(d)に示す画像を得ることができる。
この場合、図8に示す的処理対象である画像に対して、図9(a)に示す処理対象である画像中の物体の配置状況を反映可能な画像、すなわち処理対象である画像の近似画像を得ることができる。図9(a)に示す画像は処理対象である画像の低周波数部分に対応し、図9(b)~(d)に示す3枚の画像は処理対象である画像の輪郭に対応し、水平、垂直、及び対角線の順に合計3つの方向の詳細画像であり、処理対象である画像の高周波数部分に対応する。
本開示の実施例では、入力された処理対象である画像の幅、高さがいずれも1024であり、チャンネル数が3である場合、処理対象である画像のサイズは1024*1024*3で表すことができる。選択的に、離散ウェーブレット変換モデル中の離散ウェーブレット変換ネットワークを介してDWT処理を行った後、画像のサイズは512*512*3になる。
さらに、図9(a)~(d)の4枚の画像をチャンネル次元で連結することにより、サイズが512*512*12である画像を得ることができる。この場合、DWTの後に、画像の幅、高さはすべて2倍に減少し、同時に、チャネル数は4倍に増加し、この過程は空間から深さ(Spatial2Depth)への変換過程とも呼ばれる。
これにより、CNNで一般的に使用される最大プーリング(max pooling)またはavg pooling(平均プーリング)の操作を上記のウェーブレット変換処理操作で置き換えることにより、局所的な変換だけではなく、DWTによって処理対象である画像全体を変換することができ、受容野がより大きく、処理領域がより広いという利点があり、これにより、処理結果もより正確になる。
さらに、ウェーブレット変換モデル中のウェーブレット変換ネットワークを介して処理した後、選択的に、離散ウェーブレット変換モデル中の離散ウェーブレット逆変換ネットワークを介してIDWT処理を行うことができ、離散ウェーブレット逆変換(Inverse discrete wavelet transform、IDWTと略称する)の過程はDWTと同様であり、ここでは説明を省略する。
なお、本開示では、再照明画像のレンダリング効果と信頼性をさらに向上させるために、少なくとも2つのウェーブレット変換モデルによってカスケードされた再照明画像生成システムを用いることができる。
可能な一実現形態として、Nが1より大きい整数であり、図10に示すように、上記の実施例に加えて、具体的に、以下のステップS1001~S1004を含む。
S1001、1番目のウェーブレット変換モデルに対して、処理対象である画像とガイダンス画像を1番目のウェーブレット変換モデルに入力して周波数領域空間での再照明レンダリングを行って、中間再照明画像を出力する。
本開示の実施例では、多段階のレンダリングポリシーを用いることができ、すなわち、1番目のウェーブレット変換モデルに対して、処理対象である画像とガイダンス画像を1番目のウェーブレット変換モデルに入力して再照明レンダリングを行って、中間再照明画像を出力し、処理対象である画像とガイダンス画像から出力された中間再照明画像へのマッピング関係を学習する。
なお、モデルトレーニング段階では、1番目のウェーブレット変換モデルに対して、処理対象である画像とガイダンス画像を1番目のウェーブレット変換モデルに入力して再照明レンダリングを行い、中間再照明画像を出力した後、1番目のウェーブレット変換モデルを固定することができ、当該モデルに基づいてトレーニングセット(予め設定された数の処理対象のサンプル画像とガイダンス画像)を処理し、1番目のウェーブレット変換モデルでのトレーニングセットの中間再照明画像を出力する。
S1002、2番目のウェーブレット変換モデルから、前段のウェーブレット変換モデルから出力された中間再照明画像を次段のウェーブレット変換モデルに入力して周波数領域空間での再照明レンダリングを行って、次段のウェーブレット変換モデルに対応する中間再照明画像を出力する。
本開示の実施例では、2番目のウェーブレット変換モデルから、前段のウェーブレット変換モデルから出力された中間再照明画像を次段のウェーブレット変換モデルに入力して再照明レンダリングを行って、次段のウェーブレット変換モデルに対応する中間再照明画像を出力することができ、この場合、前段のウェーブレット変換モデルがすでに大部分のマッピング関係を学習したため、次段のウェーブレット変換モデルに対応する中間再照明画像は、前段のウェーブレット変換モデルに対応する中間再照明画像に比べて、正確な結果(Ground Truth)に近い。同時に、モデルトレーニングに対して、次段のウェーブレット変換モデルのトレーニング難易度も大幅に低下する。
S1003、そのうちの1段のウェーブレット変換モデルが対応する中間再照明画像を出力し、対応する中間再照明画像が最適化停止条件を満たすと決定するたびに、次段のウェーブレット変換モデルへ対応する中間再照明画像を伝達することを停止し、対応する中間再照明画像を第2の中間画像とする。
最適化停止条件は実際の状況に応じて設定することができ、本開示は限定しない。
選択的に、最適化停止条件を、画像を処理するモデルの数として設定することができ、選択的に、最適化停止条件を中間再照明画像のレンダリング効果として設定することができる。
例えば、最適化停止条件が、画像を処理するモデルの数が2である場合、そのうちの1段のウェーブレット変換モデルから出力された対応する中間再照明画像が2番目のウェーブレット変換モデルによって処理して得られた画像である場合、対応する中間再照明画像が最適化停止条件に満たすことを示し、次段のウェーブレット変換モデルに対応する中間再照明画像へ伝達することを停止し、対応する中間再照明画像を第2の再照明画像とする。
S1004、対応する中間再照明画像が最適化停止条件を満たしていないと決定すると、中間再照明画像を引き続き次段のウェーブレット変換モデルへ伝達し、そのうちの1段のウェーブレット変換モデルから出力された中間再照明画像が最適化停止条件に満たすまで、次段のウェーブレット変換モデルによって引き続き対応する中間再照明画像に対して周波数領域空間での再照明レンダリングを行い、最適化停止条件を満たす中間再照明画像を第2の中間画像とする。
例えば、最適化停止条件が、画像を処理するモデルの数が3である場合、そのうちの1段のウェーブレット変換モデルから出力された対応する中間再照明画像が2番目のウェーブレット変換モデルによって処理して得られた画像である場合、対応する中間再照明画像が最適化停止条件を満たしていないことを示し、中間再照明画像を引き続き3段目のウェーブレット変換モデルへ伝達し、3段目のウェーブレット変換モデルによって引き続き対応する中間再照明画像再照明レンダリングを行い、3段目のウェーブレット変換モデルに引き続き対応する中間再照明画像をターゲット再照明画像とする。
S704、第1の中間画像と第2の中間画像に基づいて、処理対象である画像に対応するターゲット再照明画像を取得する。
このステップS704と前の実施例のステップS104とが同じであり、ここでは説明を省略する。
本開示の実施例に係る再照明画像の生成方法は、処理対象である画像とガイダンス画像を再照明画像生成システムの周波数領域特徴取得モデルに入力して周波数領域空間での再照明レンダリングを行って、ガイダンス画像における照明条件と一致する第2の中間画像を取得することにより、処理対象である画像とガイダンス画像に対して周波数領域での再照明レンダリングを行い、周波数領域での特徴情報に基づいて、より正確な第2の中間画像を取得することにより、ターゲット再照明画像のレンダリング効果を確保することができる。
なお、本開示では、生成された再照明画像のレンダリング効果を向上させるために、ダウンサンプリングとアップサンプリングの処理中に残差ネットワーク(Res Block)とスキップ接続(Skip Connection)を追加する。
可能な一実現形態として、図11に示すように、本開示によって提案される再照明画像の生成方法、上記の実施例に加えて、任意1段のウェーブレット変換モデルが画像に対して再照明レンダリングを行う過程は、具体的に以下のステップS1101~S1103を含む。
S1101、画像をウェーブレット変換モデルのウェーブレット変換ネットワークに入力し、ウェーブレット変換ネットワークを介して画像に対してダウンサンプリング処理を行って、画像に対応する第2のシーンコンテンツ特徴画像及び第2の照明特徴画像を出力し、画像が処理対象である画像、ガイダンス画像及び中間再照明画像を含む。
S1102、第2のシーンコンテンツ特徴画像及び第2の照明特徴画像をウェーブレット変換モデルの残差ネットワークに入力し、残差ネットワークを介して第2のシーンコンテンツ特徴画像及び第2の照明特徴画像を再構築して、再構築特徴画像を出力する。
S1103、再構築特徴画像をウェーブレット変換モデルのウェーブレット逆変換ネットワークに入力し、ウェーブレット逆変換ネットワークを介して再構築特徴画像に対してアップサンプリング処理を行って、再照明画像を出力する。
本開示の実施例では、画像をダウンサンプリングして、画像に対応する特徴画像を取得することができる。さらに残差ネットワークを再構築して得られた再構築特徴画像をアップサンプリングして、再照明画像を取得し、ダウンサンプリングの周波数及び倍数とアップサンプリングの周波数及び倍数とが同じである。アップ、ダウンサンプリングの周波数と倍数は実際の状況に応じて設定することができる。
例えば、画像を逐次4回ダウンサンプリングすることができ、毎回2倍ダウンサンプリングし、合計16倍ダウンサンプリングして、画像に対応する特徴画像を取得する。さらに、再構築特徴画像を逐次4回アップサンプリングし、毎回2倍アップサンプリングし、合計16倍アップサンプリングして、再照明画像を得る。なお、画像をサンプリングする中に、取得された特徴画像と画像サイズとが一致するように維持する。
本開示の実施例に係る再照明画像の生成方法は、ウェーブレット変換モデルに残差ネットワーク及びスキップ接続の接続方式を追加することにより、アップサンプリングの入力が上位レイヤでサンプリングの出力に加えて、対応するダウンサンプリングの出力を組み合わせて、再照明のレンダリング過程に対して監視の役割を果たし、学習ミスを防止し、出力された再照明画像のレンダリング効果と信頼性をさらに向上させる。
なお、本開示では、再照明画像生成システムに局所畳み込み-正規化-非線形化ネットワーク(Conv-IN-Relu)を追加し、さらに得られた特徴画像を処理する。
選択的に、ダウンサンプリングして得られた画像のみに対して前処理を行うことができる。選択的に、アップサンプリングして得られた画像のみに対して前処理を行うことができる。選択的に、それぞれダウンサンプリングとアップサンプリングして得られた画像に対して前処理を行うことができる。
可能な一実現形態として、図12に示すように、上記の実施例に加えて、それぞれダウンサンプリングとアップサンプリングして得られた画像に対して前処理を行うことを例として、具体的に以下のステップS1201~S1202を含む。
S1201、ダウンサンプリングして得られた特徴画像をウェーブレット変換モデルの第1の畳み込みネットワークに入力し、第1の畳み込みネットワークを介して特徴画像に対して前処理を行い、第1の畳み込みネットワークから出力された前処理後の特徴画像を残差ネットワークに入力する。
S1202、アップサンプリング処理を行って得られたアップサンプリング特徴画像をウェーブレット変換モデルの第2の畳み込みネットワークに入力し、第2の畳み込みネットワークを介してアップサンプリング特徴画像に対して前処理を行う。
特徴画像に対して前処理を行う過程は、主に画像を畳み込み、正規化、活性化するなどの操作を含み、前処理後の特徴画像は元の特徴画像の局所情報を融合し、非線形性を追加した。
本開示の実施例に係る再照明画像の生成方法、画像に対して前処理を行うことにより、ネットワークが深くなり、ウェーブレット変換モデルの学習能力とフィッティング能力が向上し、さらに出力された再照明画像のレンダリング効果と信頼性を向上させる。
なお、本開示によって提案される再照明画像の生成方法は、複数種類の画像処理シーンに適用されることができる。
通常のシーン画像にフィルタを追加するアプリケーションシーンに対して、図13~14に示すように、異なるガイダンス画像中のフィルタ効果を通じて、処理対象である画像をレンダリングして、その光照射条件を変えて異なるフィルタ効果を作ることができ、ユーザが1枚の画像を撮れば、複数枚の異なる色調の結果を得ることができ、ユーザの後続編集と使用に便利であり、ユーザの体験を向上させ、ユーザに興味を持たせる。
例えば、図13に示すように、図13(a)に示す処理対象である画像に対して、図13(b)に示すガイダンス画像を根拠として、照明画像生成システムのレンダリング処理により、図13(c)に示すターゲット再照明画像を得ることができる。
また、例えば、図14に示すように、図14(a)に示す処理対象である画像に対して、図14(b)に示すガイダンス画像を根拠として、再照明画像生成システムのレンダリング処理により、図14(c)に示すターゲット再照明画像を得ることができる。
人物画像に特殊効果を追加するアプリケーションシーンに対して、図15に示すように、影の度合いや位置を変えることによって複数種類の効果を生成することができ、新しい遊び方が追加され、製品を使用するようにユーザを引き付ける。
例えば、図15に示すように、図15(a)に示す処理対象である画像に対して、図15(b)に示すガイダンス画像を根拠として、再照明画像生成システムのレンダリング処理により、図15(c)に示すターゲット再照明画像を得ることができる。
要約すると、本開示によって提供される再照明画像の生成方法は、入力画像(処理対象である画像)が与えられた後、変更すべき照明方向と色温度を知る必要がなく、対応するガイダンス画像1枚だけで、ガイダンス画像における照明条件と一致する結果画像(ターゲット再照明画像)を生成することができる。
図16は、本開示の第9の実施例に係る概略図である。なお、本実施例の再照明画像生成システムのトレーニング方法の実行主体は、再照明画像生成システムのトレーニング装置であり、再照明画像生成システムのトレーニング装置は具体的に、ハードウェアデバイス、またはハードウェアデバイス中のソフトウェアなどであってもよい。ハードウェアデバイスは、例えば、端末装置、サーバなどである。
図16に示すように、本実施例によって提案される再照明画像生成システムのトレーニング方法は、以下のステップS1601~S1604を含む。
S1601、マックアップされたターゲット再照明画像のサンプル処理対象である画像と、サンプル処理対象である画像に対応するサンプルガイダンス画像とを取得する。
サンプル処理対象である画像と対応するサンプルガイダンス画像の数とが一致し、実際の状況に応じて取得することができる。例えば、1000組のサンプル処理対象画像及び対応するサンプルガイダンス画像を取得することができる。
S1602、サンプル処理対象である画像とサンプルガイダンス画像をトレーニング対象の再照明画像生成システム内の時間領域特徴取得モデルに入力してトレーニングして、時間領域モデル第1の損失関数を取得する。
S1603、サンプル処理対象である画像とサンプルガイダンス画像をトレーニング対象の再照明画像生成システム内の周波数領域特徴取得モデルに入力してトレーニングして、周波数領域モデル第2の損失関数を取得する。
S1604、第1の損失関数と第2の損失関数に基づいて、再照明画像生成システムに対する総損失関数を取得して、総損失関数に基づいて再照明画像生成システム内のモデルパラメータを調整し、トレーニング結果がトレーニング終了条件を満たすまで、マックアップされたターゲット再照明画像のサンプル処理対象である画像と、サンプル処理対象である画像に対応するサンプルガイダンス画像とを取得するステップに戻り、モデルパラメータを最後に調整した後のトレーニング対象の再照明画像生成システムを、トレーニング済みの再照明画像生成システムとして決定する。
トレーニング終了条件は実際の状況に応じて設定することができ、本開示は限定しない。
選択的に、トレーニング終了条件をトレーニング対象の再照明画像生成システムから出力されたターゲット再照明画像のレンダリング効果として設定することができる。例えば、トレーニング終了条件をトレーニング対象の再照明画像生成システムから出力されたターゲット再照明画像とマックアップされたターゲット再照明画像との差異として設定することができる。
本開示の実施例の再照明画像生成システムのトレーニング方法によれば、第1の損失関数と第2の損失関数に基づいて、再照明画像生成システム内のモデルパラメータを調整し、トレーニング結果がトレーニング終了条件を満たすまで、モデルパラメータを最後に調整した後のトレーニング対象の再照明画像生成システムを、トレーニング済みの再照明画像生成システムとして決定するにより、再照明画像生成システムのトレーニング効果を確保することができ、任意の再照明技術に基づいて再照明画像を正確に取得するための基礎を築いた。
図17は、本開示の第10の実施例に係概略図である。
図17に示すように、本実施例によって提案される再照明画像生成システムのトレーニング方法は、以下のステップS1701~S1704を含む。
S1701、マックアップされたターゲット再照明画像のサンプル処理対象である画像と、サンプル処理対象である画像に対応するサンプルガイダンス画像とを取得する。
このステップS1701と前の実施例のステップS1601とが同じであり、ここでは説明を省略する。
前の実施例のステップS1602において、サンプル処理対象である画像とサンプルガイダンス画像をトレーニング対象の再照明画像生成システム内の時間領域特徴取得モデルに入力してトレーニングして、時間領域モデル第1の損失関数を取得する過程は、具体的に、ステップS1702~1704を含む。
S1702、マックアップされた第1の中間画像のサンプル処理対象である画像と、サンプル処理対象である画像に対応するサンプルガイダンス画像とを取得する。
S1703、サンプル処理対象である画像とサンプルガイダンス画像をトレーニング対象の時間領域特徴取得モデルに入力して時間領域での再照明レンダリングを行って、サンプルガイダンス画像における照明条件と一致する第1のトレーニング中間画像を取得する。
S1704、第1のトレーニング中間画像とマックアップされた第1の中間画像との第1の差異に基づいて、第1の損失関数を取得する。
可能な一実現形態として、図18に示すように、サンプル処理対象である画像は、第1の分類器によって予測して得られたマックアップされた第1のシーンコンテンツ特徴画像と第2の分類器によって予測して得られたマックアップされた第1の照明特徴画像を含み、上記の実施例に加えて、上記ステップS1704において、第1のトレーニング中間画像とマックアップされた第1の中間画像との第1の差異に基づいて、第1の損失関数を取得する過程は、具体的に、以下のステップS1801~S1803を含む。
S1801、トレーニング対象の時間領域特徴取得モデルを介してサンプル処理対象である画像とサンプルガイダンス画像に対して特徴抽出を行って、サンプル処理対象である画像の第1のシーンコンテンツトレーニング特徴画像、及びガイダンス画像の第1の照明トレーニング特徴画像を取得する。
S1802、第1のシーンコンテンツトレーニング特徴画像とマックアップされた第1のシーンコンテンツ特徴画像との第2の差異、及び第1の照明トレーニング特徴画像とマックアップされた第1の照明特徴画像との第3の差異に基づく。
S1803、第1の差異、第2の差異及び第3の差異に基づいて、第1の損失関数を取得する。
前の実施例のステップS1603において、サンプル処理対象である画像とサンプルガイダンス画像をトレーニング対象の再照明画像生成システム内の周波数領域特徴取得モデルに入力してトレーニングして、周波数領域モデル第2の損失関数を取得する過程は、具体的に、ステップS1705~1707を含む。
S1705、マックアップされた第2の中間画像のサンプル処理対象である画像と、サンプル処理対象である画像に対応するサンプルガイダンス画像とを取得する。
S1706、サンプル処理対象である画像とサンプルガイダンス画像をトレーニング対象の周波数領域特徴取得モデルに入力して周波数領域空間での再照明レンダリングを行って、サンプルガイダンス画像における照明条件と一致する第2のトレーニング中間画像を取得する。
S1707、第2のトレーニング中間画像とマックアップされた第2の中間画像との第4の差異に基づいて、第2の損失関数を取得する。
可能な一実現形態として、図19に示すように、サンプル処理対象である画像は、第1の分類器によって予測して得られたマックアップされた第2のシーンコンテンツ特徴画像と第2の分類器によって予測して得られたマックアップされた第2の照明特徴画像を含み、上記の実施例に加えて、上記ステップS1707において、第2のトレーニング中間画像とマックアップされた第2の中間画像との第4の差異に基づいて、第2の損失関数を取得する過程は、具体的に以下のステップを含む。
S1901、トレーニング対象の周波数領域特徴取得モデルを介してサンプル処理対象である画像とサンプルガイダンス画像に対して特徴抽出を行って、サンプル処理対象である画像の第2のシーンコンテンツトレーニング特徴画像、及びガイダンス画像の第2の照明トレーニング特徴画像を取得する。
S1902、第2のシーンコンテンツトレーニング特徴画像とマックアップされた第2のシーンコンテンツ特徴画像との第5の差異、及び第2の照明トレーニング特徴画像とマックアップされた第2の照明特徴画像との第6の差異に基づく。
S1903、第4の差異、第5の差異及び第6の差異に基づいて、第2の損失関数を取得する。
S1708、第1の損失関数と第2の損失関数に基づいて、再照明画像生成システムに対する総損失関数を取得して、総損失関数に基づいて再照明画像生成システム内のモデルパラメータを調整し、トレーニング結果がトレーニング終了条件を満たすまで、マックアップされたターゲット再照明画像のサンプル処理対象である画像と、サンプル処理対象である画像に対応するサンプルガイダンス画像とを取得するステップに戻り、モデルパラメータを最後に調整した後のトレーニング対象の再照明画像生成システムを、トレーニング済みの再照明画像生成システムとして決定する。
なお、本開示の技術案では、関連するユーザ個人情報の取得、記憶、アプリケーションなどは、いずれも関連法律法規の規定に合致し、かつ公序良俗に違反しない。
上記いくつかの実施例によって提供される再照明画像の生成方法に対応して、本開示の一実施例は再照明画像の生成装置をさらに提供し、本開示の実施例によって提供される再照明画像の生成装置が上記いくつかの実施例によって提供される再照明画像の生成方法に対応するため、再照明画像の生成方法の実施形態は本実施例によって提供される再照明画像の生成装置にも適用され、本実施例では、詳細に説明しない。
図20は、本開示の一実施例に係る再照明画像の生成装置の概略構成図である。
図20に示すように、当該再照明画像の生成装置2000は、第1の取得モジュール2010、第2の取得モジュール2020、第3の取得モジュール2030及び第4の取得モジュール2040を備え、第1の取得モジュールは、処理対象である画像と前記処理対象である画像に対応するガイダンス画像を取得し、第2の取得モジュールは、前記ガイダンス画像に基づいて、前記処理対象である画像に対して時間領域での再照明レンダリングを行って、前記ガイダンス画像における照明条件と一致する第1の中間画像を取得し、第3の取得モジュールは、前記ガイダンス画像に基づいて、前記処理対象である画像に対して周波数領域空間での再照明レンダリングを行って、前記ガイダンス画像における照明条件と一致する第2の中間画像を取得し、第4の取得モジュールは、前記第1の中間画像と前記第2の中間画像に基づいて、前記処理対象である画像に対応するターゲット再照明画像を取得する。
図21は、本開示の別の実施例に係る再照明画像の生成装置の概略構成図である。
図21に示すように、当該再照明画像の生成装置2100は、第1の取得モジュール2110、第2の取得モジュール2120、第3の取得モジュール2130及び第4の取得モジュール2140を備える。
第2の取得モジュール2120は、さらに、前記処理対象である画像と前記ガイダンス画像を再照明画像生成システムの前記時間領域特徴取得モデルに入力して時間領域での再照明レンダリングを行って、前記ガイダンス画像における照明条件と一致する前記第1の中間画像を取得する。
第2の取得モジュール2120は、さらに、前記時間領域特徴取得モデルを介して前記処理対象である画像と前記ガイダンス画像に対して特徴抽出を行って、前記処理対象である画像の第1のシーンコンテンツ特徴画像、及び前記ガイダンス画像の第1の照明特徴画像を取得し、前記第1のシーンコンテンツ特徴画像と前記第1の照明特徴画像を結合して、融合特徴画像を取得し、前記融合特徴画像に基づいて、前記第1の中間画像を生成する。
第2の取得モジュール2120は、さらに、前記時間領域特徴取得モデルを介して前記処理対象である画像と前記ガイダンス画像に対してダウンサンプリング処理を行って、第1の特徴画像を取得し、前記第1の特徴画像に対して等分処理を行って、前記処理対象である画像の前記第1のシーンコンテンツ特徴画像、及び前記ガイダンス画像の前記第1の照明特徴画像を取得する。
第2の取得モジュール2120は、さらに、前記融合特徴画像に対してアップサンプリング処理を行って、前記第1の中間画像を生成する。
第3の取得モジュール2130は、さらに、前記処理対象である画像と前記ガイダンス画像を再照明画像生成システムの前記周波数領域特徴取得モデルのN個のウェーブレット変換モデルに入力して周波数領域空間での再照明レンダリングを行って、前記ガイダンス画像における照明条件と一致する前記第2の中間画像を取得し、Nが1以上である整数である。
Nが1より大きい整数であり、第3の取得モジュール2130は、さらに、1番目のウェーブレット変換モデルに対して、前記処理対象である画像と前記ガイダンス画像を前記1番目のウェーブレット変換モデルに入力して周波数領域空間での再照明レンダリングを行って、中間再照明画像を出力し、2番目のウェーブレット変換モデルから、前段のウェーブレット変換モデルから出力された中間再照明画像を次段のウェーブレット変換モデルに入力して周波数領域空間での再照明レンダリングを行って、前記次段のウェーブレット変換モデルに対応する中間再照明画像を出力し、そのうちの1段のウェーブレット変換モデルが対応する中間再照明画像を出力し、前記対応する中間再照明画像が最適化停止条件を満たすと決定するたびに、次段のウェーブレット変換モデルへ前記対応する中間再照明画像を伝達することを停止し、前記対応する中間再照明画像を前記第2の中間画像とする。
第3の取得モジュール2130は、さらに、前記対応する中間再照明画像が前記最適化停止条件を満たしていないと決定すると、前記中間再照明画像を引き続き次段のウェーブレット変換モデルへ伝達し、次段のウェーブレット変換モデルを介して前記対応する中間再照明画像に対して周波数領域空間での再照明レンダリングを引き続き行い、そのうちの1段のウェーブレット変換モデルから出力された中間再照明画像が最適化停止条件に満たすまで、前記最適化停止条件を満たす中間再照明画像を前記第2の中間画像とする。
第3の取得モジュール2130は、さらに、画像を前記ウェーブレット変換モデルのウェーブレット変換ネットワークに入力し、前記ウェーブレット変換ネットワークを介して前記画像に対してダウンサンプリング処理を行って、前記画像に対応する第2のシーンコンテンツ特徴画像及び第2の照明特徴画像を出力し、前記画像が前記処理対象である画像、前記ガイダンス画像及び前記中間再照明画像を含み、前記第2のシーンコンテンツ特徴画像及び前記第2の照明特徴画像を前記ウェーブレット変換モデルの残差ネットワークに入力し、前記残差ネットワークを介して前記第2のシーンコンテンツ特徴画像及び前記第2の照明特徴画像を再構築して、再構築特徴画像を出力し、前記再構築特徴画像を前記ウェーブレット変換モデルのウェーブレット逆変換ネットワークに入力し、前記ウェーブレット逆変換ネットワークを介して前記再構築特徴画像に対してアップサンプリング処理を行って、前記再照明画像を出力する。
第3の取得モジュール2130は、さらに、前記周波数領域特徴取得モデルを介して前記処理対象である画像と前記ガイダンス画像に対してダウンサンプリング処理を行って、第2の特徴画像を取得し、前記第2の特徴画像に対して等分処理を行って、前記画像に対する前記第2のシーンコンテンツ特徴画像及び前記第2の照明特徴画像を取得する。
第3の取得モジュール2130は、さらに、ダウンサンプリングして得られた前記特徴画像を前記ウェーブレット変換モデルの第1の畳み込みネットワークに入力し、前記第1の畳み込みネットワークを介して前記特徴画像を前処理し、前記第1の畳み込みネットワークから出力された前処理後の特徴画像を前記残差ネットワークに入力する。
第3の取得モジュール2130は、さらに、アップサンプリング処理を行って得られたアップサンプリング特徴画像を前記ウェーブレット変換モデルの第2の畳み込みネットワークに入力し、前記第2の畳み込みネットワークを介して前記アップサンプリング特徴画像を前処理する。
第4の取得モジュール2140は、さらに、前記第1の中間画像と前記第2の中間画像に対して重み付け処理を行い、重み付け処理結果を後処理して、後処理して得られた重み付け結果を前記処理対象である画像に対応する前記ターゲット再照明画像とする。
なお、第1の取得モジュール2110と第1の取得モジュール2010とは同じ機能と構造を有する。
本開示の実施例の再照明画像の生成装置によれば、人工設計に依存することなく、ニューラルネットワーク学習に基づいてトレーニングして得られた畳み込みニューラルネットワークモデルにも依存することなく、処理対象である画像とガイダンス画像に対して時間領域と周波数領域での再照明レンダリングを行い、時間領域と周波数領域での特徴情報を組み合わせることにより、任意の再照明技術に基づいて得られたターゲット再照明画像が低周波数でシーンコンテンツ構造を保持し、高周波数で詳細な影情報を保持し、これによってレンダリング効果がより正確で、信頼性があるターゲット再照明画像を得る。
上記のいくつかの実施例によって提供される再照明画像生成システムのトレーニング方法に対応して、本開示の一実施例は、さらに再照明画像生成システムのトレーニング装置提供し、本開示の実施例によって提供される再照明画像生成システムのトレーニング装置が上記のいくつかの実施例によって提供される再照明画像生成システムのトレーニング方法に対応するため、再照明画像生成システムのトレーニング方法の実施形態は本実施例によって提供される再照明画像生成システムのトレーニング装置にも適用され、本実施例では詳細に説明しない。
図22は、本開示の一実施例に係る再照明画像生成システムのトレーニング装置の概略構成図である。
図22に示すように、当該再照明画像生成システムのトレーニング装置2200は、第1の取得モジュール2210、第2の取得モジュール2220、第3の取得モジュール2230及び決定モジュール2240を備え、第1の取得モジュールは、マックアップされたターゲット再照明画像のサンプル処理対象である画像と、前記サンプル処理対象である画像に対応するサンプルガイダンス画像とを取得し、第2の取得モジュールは、前記サンプル処理対象である画像と前記サンプルガイダンス画像をトレーニング対象の再照明画像生成システム内の時間領域特徴取得モデルに入力してトレーニングして、時間領域モデルの第1の損失関数を取得し、第3の取得モジュールは、前記サンプル処理対象である画像と前記サンプルガイダンス画像をトレーニング対象の前記再照明画像生成システム内の周波数領域特徴取得モデルに入力してトレーニングして、周波数領域モデルの第2の損失関数を取得し、決定モジュールは、前記第1の損失関数と前記第2の損失関数に基づいて、前記再照明画像生成システムに対応する総損失関数を取得して、前記総損失関数に基づいて前記再照明画像生成システム内のモデルパラメータを調整し、トレーニング結果がトレーニング終了条件を満たすまで、前記マックアップされたターゲット再照明画像のサンプル処理対象である画像と、前記サンプル処理対象である画像に対応するサンプルガイダンス画像とを取得するステップに戻り、最後に前記モデルパラメータを調整した後のトレーニング対象の前記再照明画像生成システムをトレーニング済みの前記再照明画像生成システムとして決定する。
図23は、本開示の別の実施例に係る再照明画像生成システムのトレーニング装置の概略構成図である。
図23に示すように、当該再照明画像生成システムのトレーニング装置2300は、第1の取得モジュール2310、第2の取得モジュール2320、第3の取得モジュール2330及び決定モジュール2340を備える。
第2の取得モジュール2320は、さらに、マックアップされた第1の中間画像のサンプル処理対象である画像と、前記サンプル処理対象である画像に対応するサンプルガイダンス画像とを取得し、前記サンプル処理対象である画像と前記サンプルガイダンス画像をトレーニング対象の前記時間領域特徴取得モデルに入力して時間領域での再照明レンダリングを行って、前記サンプルガイダンス画像における照明条件と一致する第1のトレーニング中間画像を取得し、前記第1のトレーニング中間画像と前記マックアップされた第1の中間画像との第1の差異に基づいて、前記第1の損失関数を取得する。
前記サンプル処理対象である画像は、第1の分類器によって予測して得られたマックアップされた第1のシーンコンテンツ特徴画像と第2の分類器によって予測して得られたマックアップされた第1の照明特徴画像を含み、第2の取得モジュール2320は、さらに、トレーニング対象の前記時間領域特徴取得モデルを介して前記サンプル処理対象である画像と前記サンプルガイダンス画像に対して特徴抽出を行って、前記サンプル処理対象である画像の第1のシーンコンテンツトレーニング特徴画像、及び前記ガイダンス画像の第1の照明トレーニング特徴画像を取得し、前記第1のシーンコンテンツトレーニング特徴画像と前記マックアップされた第1のシーンコンテンツ特徴画像との第2の差異、及び前記第1の照明トレーニング特徴画像と前記マックアップされた第1の照明特徴画像との第3の差異に基づき、前記第1の差異、前記第2の差異及び前記第3の差異に基づいて、前記第1の損失関数を取得する。
第3の取得モジュール2330は、さらに、マックアップされた第2の中間画像のサンプル処理対象である画像と、前記サンプル処理対象である画像に対応するサンプルガイダンス画像とを取得し、前記サンプル処理対象である画像と前記サンプルガイダンス画像をトレーニング対象の前記周波数領域特徴取得モデルに入力して周波数領域空間での再照明レンダリングを行って、前記サンプルガイダンス画像における照明条件と一致する第2のトレーニング中間画像を取得し、前記第2のトレーニング中間画像と前記マックアップされた第2の中間画像との第4の差異に基づいて、前記第2の損失関数を取得する。
前記サンプル処理対象である画像は、第1の分類器によって予測して得られたマックアップされた第2のシーンコンテンツ特徴画像と第2の分類器によって予測して得られたマックアップされた第2の照明特徴画像を含み、第3の取得モジュール2330は、さらに、トレーニング対象の前記周波数領域特徴取得モデルを介して前記サンプル処理対象である画像と前記サンプルガイダンス画像に対して特徴抽出を行って、前記サンプル処理対象である画像の第2のシーンコンテンツトレーニング特徴画像、及び前記ガイダンス画像の第2の照明トレーニング特徴画像を取得し、前記第2のシーンコンテンツトレーニング特徴画像と前記マックアップされた第2のシーンコンテンツ特徴画像との第5の差異、及び前記第2の照明トレーニング特徴画像と前記マックアップされた第2の照明特徴画像との第6の差異に基づき、前記第4の差異、前記第5の差異及び前記第6の差異に基づいて、前記第2の損失関数を取得する。
なお、第1の取得モジュール2310が決定モジュール2340と、第1の取得モジュール2210が決定モジュール2240と、同じ機能と構造を有する。
本開示の実施例の再照明画像生成システムのトレーニング装置によれば、第1の損失関数と第2の損失関数に基づいて、再照明画像生成システム内のモデルパラメータを調整し、トレーニング結果がトレーニング終了条件を満たすまで、モデルパラメータを最後に調整した後のトレーニング対象の再照明画像生成システムを、トレーニング済みの再照明画像生成システムとして決定するにより、再照明画像生成システムのトレーニング効果を確保することができ、任意の再照明技術に基づいて再照明画像を正確に取得するための基礎を築いた。
本開示の実施例によれば、本開示は、電子機器、読み取り可能な記憶媒体、及びコンピュータプログラム製品をさらに提供する。
図24は、本開示の実施例を実行するための例示的な電子機器2400の概略ブロック図である。電子機器は、ラップトップコンピュータ、デスクトップコンピュータ、ワークステーション、パーソナルデジタルアシスタント、サーバ、ブレードサーバ、メインフレームコンピュータ、および他の適切なコンピュータなどの様々な形態のデジタルコンピュータを表すことを目的とする。電子機器は、パーソナルデジタル処理、携帯電話、スマートフォン、ウェアラブルデバイス、および他の同様のコンピューティングデバイスなどの様々な形態のモバイルデバイスを表すこともできる。本明細書で示される部品、それらの接続と関係、およびそれらの機能は、単なる例であり、本明細書の説明および/または求められる本開示の実現を制限することを意図したものではない。
図24に示すように、電子機器2400は、読み取り専用メモリ(ROM)2402に記憶されているコンピュータプログラムまたは記憶ユニット2408からランダムアクセスメモリ(RAM)2403にロードされたコンピュータプログラムに従って様々な適切な動作および処理を実行できる計算ユニット2401を備える。RAM 2403には、電子機器2400の動作に必要な各種のプログラムやデータも記憶されてもよい。計算ユニット2401、ROM 2402、及びRAM 2403は、バス2404を介して互いに接続されている。バス2404には、入力/出力(I/O)インターフェース2405も接続されている。
電子機器2400の複数のコンポーネントはI/Oインターフェース2405に接続され、キーボード、マウスなどの入力ユニット2406、各タイプのディスプレイ、スピーカなどの出力ユニット2407、磁気ディスク、光ディスクなどの記憶ユニット2408、およびネットワークカード、モデム、無線通信トランシーバなどの通信ユニット2409を備える。通信ユニット2409は、電子機器2400が、インターネットなどのコンピュータネットワークおよび/または各種の電信ネットワークを介して他のデバイスと情報/データを交換することを可能にする。
計算ユニット2401は、処理および計算能力を有する様々な汎用および/または専用の処理コンポーネントであってもよい。計算ユニット2401のいくつかの例は、中央処理ユニット(CPU)、グラフィック処理ユニット(GPU)、各種の専用の人工知能(AI)計算チップ、各種のマシン運転学習モデルアルゴリズムの計算ユニット、デジタル信号プロセッサ(DSP)、およびいずれかの適切なプロセッサ、コントローラ、マイクロコントローラなどを含むが、これらに限定されない。計算ユニット2401は、前文に記載の各方法及び処理、例えば、再照明画像の生成方法または再照明画像生成システムのトレーニング方法を実行する。例えば、いくつかの実施例では、再照明画像の生成方法または再照明画像生成システムのトレーニング方法を、記憶ユニット2408などの機械読み取り可能な媒体に有形的に含まれるコンピュータソフトウェアプログラムとして実現することができる。いくつかの実施例では、コンピュータプログラムの一部または全部は、ROM 2402および/または通信ユニット2409を介して電子機器2400にロードおよび/またはインストールすることができる。コンピュータプログラムがRAM 2403にロードされ、計算ユニット2401によって実行される場合、前文に記載された再照明画像の生成方法または再照明画像生成システムのトレーニング方法の1つまたは複数のステップが実行されてもよい。代替的に、他の実施例では、計算ユニット2401は、再照明画像の生成方法または再照明画像生成システムのトレーニング方法を実行するように、他のいずれかの適切な方式(例えば、ファームウェアを介して)によって構成されてもよい。
本明細書で上記記載のシステムと技術の様々な実施形態は、デジタル電子回路システム、集積回路システム、フィールドプログラマブルゲートアレイ(FPGA)、特定用途向け集積回路(ASIC)、特定用途向け標準製品(ASSP)、システムオンチップ(SOC)、コンプレックス・プログラマブル・ロジック・デバイス(CPLD)、コンピュータハードウェア、ファームウェア、ソフトウェア、および/またはそれらの組み合わせで実現することができる。これらの様々な実施形態は、1つ又は複数のコンピュータプログラムで実施されることを含むことができ、当該1つ又は複数のコンピュータプログラムは、少なくとも1つのプログラマブルプロセッサを備えるプログラム可能なシステムで実行および/または解釈されることができ、当該プログラマブルプロセッサは、特定用途向け又は汎用プログラマブルプロセッサであってもよく、ストレージシステム、少なくとも1つの入力装置、および少なくとも1つの出力装置からデータおよび命令を受信し、データおよび命令を当該ストレージシステム、当該少なくとも1つの入力装置、および当該少なくとも1つの出力装置に伝送することができる。
本開示の方法を実行するためのプログラムコードは、1つ又は複数のプログラミング言語の任意の組み合わせで書くことができる。これらのプログラムコードは、プロセッサ又はコントローラによって実行された際に、フローチャートおよび/またはブロック図に規定された機能/操作が実施されるように、汎用コンピュータ、専用コンピュータ、又は他のプログラマブルデータ処理装置のプロセッサ又はコントローラに提供されてもよい。プログラムコードは、完全に機械上で実行されるか、部分的に機械上で実行されるか、スタンドアロンソフトウェアパッケージとして、部分的に機械上で実行され、部分的にリモート機械上で実行され又は完全にリモート機械又はサーバ上で実行されてもよい。
本開示のコンテクストでは、機械読み取り可能な媒体は、命令実行システム、装置、またはデバイスによって使用されるために、又は命令実行システム、装置、またはデバイスと組み合わせて使用するためのプログラムを含むか、又は記憶することができる有形の媒体であってもよい。機械読み取り可能な媒体は、機械読み取り可能な信号媒体または機械読み取り可能な記憶媒体であってもよい。機械読み取り可能な媒体は、電子的、磁気的、光学的、電磁気的、赤外線的、又は半導体システム、装置又はデバイス、または上記コンテンツの任意の適切な組み合わせを含むことができるが、これらに限定されない。機械読み取り可能な記憶媒体のより具体的な例は、1つ又は複数のラインに基づく電気的接続、ポータブルコンピュータディスク、ハードディスク、ランダムアクセスメモリ(RAM)、リードオンリーメモリ(ROM)、消去可能プログラマブルリードオンリーメモリ(EPROM又はフラッシュメモリ)、光ファイバ、ポータブルコンパクトディスクリードオンリーメモリ(CD-ROM)、光学記憶装置、磁気記憶装置、または上記コンテンツの任意の適切な組み合わせを含む。
ユーザとのインタラクションを提供するために、ここで説明されるシステム及び技術をコンピュータ上で実施することができ、当該コンピュータは、ユーザに情報を表示するためのディスプレイ装置(例えば、CRT(陰極線管)又はLCD(液晶ディスプレイ)モニタ)と、キーボード及びポインティングデバイス(例えば、マウス又はトラックボール)とを有し、ユーザは、当該キーボード及び当該ポインティングデバイスによって入力をコンピュータに提供することができる。他の種類の装置も、ユーザとのインタラクションを提供することができ、例えば、ユーザに提供されるフィードバックは、任意の形式のセンシングフィードバック(例えば、ビジョンフィードバック、聴覚フィードバック、又は触覚フィードバック)であってもよく、任意の形式(音響入力と、音声入力、または、触覚入力とを含む)でユーザからの入力を受信することができる。
ここで説明されるシステムおよび技術は、バックエンドコンポーネントを備えるコンピューティングシステム(例えば、データサーバとする)、又はミドルウェアコンポーネントを備えるコンピューティングシステム(例えば、アプリケーションサーバ)、又はフロントエンドコンポーネントを備えるコンピューティングシステム(例えば、グラフィカルユーザインターフェース又はウェブブラウザを有するユーザコンピュータ、ユーザは、当該グラフィカルユーザインターフェース又は当該ウェブブラウザによってここで説明されるシステムおよび技術の実施形態とインタラクションできる)、又はこのようなバックエンドコンポーネントと、ミドルウェアコンポーネントと、フロントエンドコンポーネントのいずれかの組み合わせを備えるコンピューティングシステムで実行することができる。任意の形態又は媒体のデジタルデータ通信(例えば、通信ネットワーク)によってシステムのコンポーネントを相互に接続することができる。通信ネットワークの例は、ローカルエリアネットワーク(LAN)と、ワイドエリアネットワーク(WAN)と、インターネットと、ブロックチェーンネットワークを含む。
コンピュータシステムは、クライアントとサーバを備えることができる。クライアントとサーバは、一般に、互いに離れており、通常に通信ネットワークを介してインタラクションする。対応するコンピュータ上で実行され、互いにクライアント-サーバ関係を有するコンピュータプログラムによってクライアントとサーバとの関係が生成される。サーバはクラウドサーバであってもよく、分散システムのサーバであってもよく、ブロックチェーンを組み込んだサーバであってもよい。
本開示は、さらに、コンピュータプログラムが含まれるコンピュータプログラム製品を提供し、前記コンピュータプログラムはプロセッサによって実行される際、上記に記載の再照明画像の生成方法または再照明画像生成システムのトレーニング方法を実現する。
なお、上記に示される様々な形式のフローを使用して、ステップを並べ替え、追加、又は削除することができることを理解されたい。例えば、本開示に記載の各ステップは、並列に実行されてもよいし、順次実行されてもよいし、異なる順序で実行されてもよいが、本開示で開示されている技術案の所望の結果を実現することができれば、本明細書では限定されない。
上記具体的な実施形態は、本開示の保護範囲を制限するものではない。当業者は、設計要件と他の要因に応じて、様々な修正、組み合わせ、サブコンビネーション、及び代替を行うことができると理解されたい。任意の本開示の精神と原則内で行われる修正、同等の置換、及び改善などは、いずれも本開示の保護範囲内に含まれるべきである。
本開示の別の態様によれば、コンピュータプログラムを提供し、前記コンピュータプログラムはプロセッサによって実行される際、本開示の第1の態様に記載の再照明画像の生成方法または第2の態様に記載の再照明画像生成システムのトレーニング方法を実現する。
S1902、第2のシーンコンテンツトレーニング特徴画像とマックアップされた第2のシーンコンテンツ特徴画像との第5の差異、及び第2の照明トレーニング特徴画像とマックアップされた第2の照明特徴画像との第6の差異を取得する。
前記サンプル処理対象である画像は、第1の分類器によって予測して得られたマックアップされた第2のシーンコンテンツ特徴画像と第2の分類器によって予測して得られたマックアップされた第2の照明特徴画像を含み、第3の取得モジュール2330は、さらに、トレーニング対象の前記周波数領域特徴取得モデルを介して前記サンプル処理対象である画像と前記サンプルガイダンス画像に対して特徴抽出を行って、前記サンプル処理対象である画像の第2のシーンコンテンツトレーニング特徴画像、及び前記ガイダンス画像の第2の照明トレーニング特徴画像を取得し、前記第2のシーンコンテンツトレーニング特徴画像と前記マックアップされた第2のシーンコンテンツ特徴画像との第5の差異、及び前記第2の照明トレーニング特徴画像と前記マックアップされた第2の照明特徴画像との第6の差異を取得し、前記第4の差異、前記第5の差異及び前記第6の差異に基づいて、前記第2の損失関数を取得する。
本開示の実施例によれば、本開示は、電子機器、読み取り可能な記憶媒体、及びコンピュータプログラムをさらに提供する。
本開示は、さらに、コンピュータプログラムを提供し、前記コンピュータプログラムはプロセッサによって実行される際、上記に記載の再照明画像の生成方法または再照明画像生成システムのトレーニング方法を実現する。
Claims (39)
- 処理対象である画像と前記処理対象である画像に対応するガイダンス画像を取得するステップと、
前記ガイダンス画像に基づいて、前記処理対象である画像に対して時間領域での再照明レンダリングを行って、前記ガイダンス画像における照明条件と一致する第1の中間画像を取得するステップと、
前記ガイダンス画像に基づいて、前記処理対象である画像に対して周波数領域空間での再照明レンダリングを行って、前記ガイダンス画像における照明条件と一致する第2の中間画像を取得するステップと、
前記第1の中間画像と前記第2の中間画像に基づいて、前記処理対象である画像に対応するターゲット再照明画像を取得するステップと、
を含む、再照明画像の生成方法。 - 前記ガイダンス画像に基づいて、前記処理対象である画像に対して時間領域での再照明レンダリングを行って、前記ガイダンス画像における照明条件と一致する第1の中間画像を取得するステップが、
前記処理対象である画像と前記ガイダンス画像を再照明画像生成システムの前記時間領域特徴取得モデルに入力して時間領域での再照明レンダリングを行って、前記ガイダンス画像における照明条件と一致する前記第1の中間画像を取得するステップを含む請求項1に記載の再照明画像の生成方法。 - 前記処理対象である画像と前記ガイダンス画像を前記再照明画像生成システムの前記時間領域特徴取得モデルに入力して時間領域での再照明レンダリングを行って、前記ガイダンス画像における照明条件と一致する前記第1の中間画像を取得するステップが、
前記時間領域特徴取得モデルを介して前記処理対象である画像と前記ガイダンス画像に対して特徴抽出を行って、前記処理対象である画像の第1のシーンコンテンツ特徴画像、及び前記ガイダンス画像の第1の照明特徴画像を取得するステップと、
前記第1のシーンコンテンツ特徴画像と前記第1の照明特徴画像を結合して、融合特徴画像を取得するステップと、
前記融合特徴画像に基づいて、前記第1の中間画像を生成するステップと、
を含む請求項2に記載の生成方法。 - 前記時間領域特徴取得モデルを介して前記処理対象である画像と前記ガイダンス画像に対して特徴抽出を行って、前記処理対象である画像の第1のシーンコンテンツ特徴画像、及び前記ガイダンス画像の第1の照明特徴画像を取得するステップが、
前記時間領域特徴取得モデルを介して前記処理対象である画像と前記ガイダンス画像に対してダウンサンプリング処理を行って、第1の特徴画像を取得するステップと、
前記第1の特徴画像に対して等分処理を行って、前記処理対象である画像の前記第1のシーンコンテンツ特徴画像、及び前記ガイダンス画像の前記第1の照明特徴画像を取得するステップと、
を含む請求項3に記載の再照明画像の生成方法。 - 前記融合特徴画像に基づいて、前記第1の中間画像を生成するステップが、
前記融合特徴画像に対してアップサンプリング処理を行って、前記第1の中間画像を生成するステップを含む請求項3に記載の再照明画像の生成方法。 - 前記ガイダンス画像に基づいて、前記処理対象である画像に対して周波数領域空間での再照明レンダリングを行って、前記ガイダンス画像における照明条件と一致する第2の中間画像を取得するステップが、
前記処理対象である画像と前記ガイダンス画像を再照明画像生成システムの前記周波数領域特徴取得モデルのN個のウェーブレット変換モデルに入力して周波数領域空間での再照明レンダリングを行って、前記ガイダンス画像における照明条件と一致する前記第2の中間画像を取得するステップであって、Nが1以上である整数であるステップを含む請求項1に記載の再照明画像の生成方法。 - Nが1よりも大きい整数であり、前記処理対象である画像と前記ガイダンス画像を再照明画像生成システムの前記周波数領域特徴取得モデルのN個のウェーブレット変換モデルに入力して周波数領域空間での再照明レンダリングを行って、前記ガイダンス画像における照明条件と一致する前記第2の中間画像を取得するステップが、
1番目のウェーブレット変換モデルに対して、前記処理対象である画像と前記ガイダンス画像を前記1番目のウェーブレット変換モデルに入力して周波数領域空間での再照明レンダリングを行って、中間再照明画像を出力するステップと、
2番目のウェーブレット変換モデルから、前段のウェーブレット変換モデルから出力された中間再照明画像を次段のウェーブレット変換モデルに入力して周波数領域空間での再照明レンダリングを行って、前記次段のウェーブレット変換モデルに対応する中間再照明画像を出力するステップと、
そのうちの1段のウェーブレット変換モデルが対応する中間再照明画像を出力し、前記対応する中間再照明画像が最適化停止条件を満たすと決定するたびに、次段のウェーブレット変換モデルへ前記対応する中間再照明画像を伝達することを停止し、前記対応する中間再照明画像を前記第2の中間画像とするステップと、
を含む請求項6に記載の再照明画像の生成方法。 - 前記対応する中間再照明画像が前記最適化停止条件を満たしていないと決定すると、前記中間再照明画像を引き続き次段のウェーブレット変換モデルへ伝達し、次段のウェーブレット変換モデルを介して前記対応する中間再照明画像に対して周波数領域空間での再照明レンダリングを引き続き行い、そのうちの1段のウェーブレット変換モデルから出力された中間再照明画像が最適化停止条件に満たすまで、前記最適化停止条件を満たす中間再照明画像を前記第2の中間画像とするステップを含む請求項7に記載の再照明画像の生成方法。
- 任意1段のウェーブレット変換モデルが画像に対して周波数領域空間での再照明レンダリングを行う過程が、
画像を前記ウェーブレット変換モデルのウェーブレット変換ネットワークに入力し、前記ウェーブレット変換ネットワークを介して前記画像に対してダウンサンプリング処理を行って、前記画像に対応する第2のシーンコンテンツ特徴画像及び第2の照明特徴画像を出力するステップであって、前記画像が前記処理対象である画像、前記ガイダンス画像及び前記中間再照明画像を含むステップと、
前記第2のシーンコンテンツ特徴画像及び前記第2の照明特徴画像を前記ウェーブレット変換モデルの残差ネットワークに入力し、前記残差ネットワークを介して前記第2のシーンコンテンツ特徴画像及び前記第2の照明特徴画像を再構築して、再構築特徴画像を出力するステップと、
前記再構築特徴画像を前記ウェーブレット変換モデルのウェーブレット逆変換ネットワークに入力し、前記ウェーブレット逆変換ネットワークを介して前記再構築特徴画像に対してアップサンプリング処理を行って、前記再照明画像を出力するステップと、
を含む請求項6または7に記載の再照明画像の生成方法。 - 前記画像を前記ウェーブレット変換モデルのウェーブレット変換ネットワークに入力し、前記ウェーブレット変換ネットワークを介して前記画像に対してダウンサンプリング処理を行って、前記画像に対応する第2のシーンコンテンツ特徴画像及び第2の照明特徴画像を出力するステップが、
前記周波数領域特徴取得モデルを介して前記処理対象である画像と前記ガイダンス画像に対してダウンサンプリング処理を行って、第2の特徴画像を取得するステップと、
前記第2の特徴画像に対して等分処理を行って、前記画像に対する前記第2のシーンコンテンツ特徴画像及び前記第2の照明特徴画像を取得するステップと、
を含む請求項9に記載の再照明画像の生成方法。 - 前記特徴画像を前記ウェーブレット変換モデルの残差ネットワークに入力するステップが、
ダウンサンプリングして得られた前記特徴画像を前記ウェーブレット変換モデルの第1の畳み込みネットワークに入力し、前記第1の畳み込みネットワークを介して前記特徴画像を前処理し、前記第1の畳み込みネットワークから出力された前処理後の特徴画像を前記残差ネットワークに入力するステップを含む、請求項9に記載の再照明画像の生成方法。 - アップサンプリング処理を行って得られたアップサンプリング特徴画像を前記ウェーブレット変換モデルの第2の畳み込みネットワークに入力し、前記第2の畳み込みネットワークを介して前記アップサンプリング特徴画像を前処理するステップを含む請求項9から11のいずれか一項に記載の再照明画像の生成方法。
- 前記第1の中間画像と前記第2の中間画像に基づいて、前記処理対象である画像に対応するターゲット再照明画像を取得するステップが、
前記第1の中間画像と前記第2の中間画像に対して重み付け処理を行い、重み付け処理結果を後処理して、後処理して得られた重み付け結果を前記処理対象である画像に対応する前記ターゲット再照明画像とするステップを含むる請求項1に記載の再照明画像の生成方法。 - マックアップされたターゲット再照明画像のサンプル処理対象である画像と、前記サンプル処理対象である画像に対応するサンプルガイダンス画像とを取得するステップと、
前記サンプル処理対象である画像と前記サンプルガイダンス画像をトレーニング対象の再照明画像生成システム内の時間領域特徴取得モデルに入力してトレーニングして、時間領域モデルの第1の損失関数を取得するステップと、
前記サンプル処理対象である画像と前記サンプルガイダンス画像をトレーニング対象の前記再照明画像生成システム内の周波数領域特徴取得モデルに入力してトレーニングして、周波数領域モデルの第2の損失関数を取得するステップと、
前記第1の損失関数と前記第2の損失関数に基づいて、前記再照明画像生成システムに対応する総損失関数を取得して、前記総損失関数に基づいて前記再照明画像生成システム内のモデルパラメータを調整し、トレーニング結果がトレーニング終了条件を満たすまで、前記マックアップされたターゲット再照明画像のサンプル処理対象である画像と、前記サンプル処理対象である画像に対応するサンプルガイダンス画像とを取得するステップに戻り、最後に前記モデルパラメータを調整した後のトレーニング対象の前記再照明画像生成システムをトレーニング済みの前記再照明画像生成システムとして決定するステップと、
を含む、再照明画像生成システムのトレーニング方法。 - 前記サンプル処理対象である画像と前記サンプルガイダンス画像をトレーニング対象の再照明画像生成システム内の時間領域特徴取得モデルに入力してトレーニングして、時間領域モデルの第1の損失関数を取得するステップが、
マックアップされた第1の中間画像のサンプル処理対象である画像と、前記サンプル処理対象である画像に対応するサンプルガイダンス画像とを取得するステップと、
前記サンプル処理対象である画像と前記サンプルガイダンス画像をトレーニング対象の前記時間領域特徴取得モデルに入力して時間領域での再照明レンダリングを行って、前記サンプルガイダンス画像における照明条件と一致する第1のトレーニング中間画像を取得するステップと、
前記第1のトレーニング中間画像と前記マックアップされた第1の中間画像との第1の差異に基づいて、前記第1の損失関数を取得するステップと、
を含む請求項14に記載の再照明画像生成システムのトレーニング方法。 - 前記サンプル処理対象である画像が、第1の分類器によって予測して得られたマックアップされた第1のシーンコンテンツ特徴画像と第2の分類器によって予測して得られたマックアップされた第1の照明特徴画像を含み、前記第1のトレーニング中間画像と前記マックアップされた第1の中間画像との第1の差異に基づいて、前記第1の損失関数を取得するステップが、
トレーニング対象の前記時間領域特徴取得モデルを介して前記サンプル処理対象である画像と前記サンプルガイダンス画像に対して特徴抽出を行って、前記サンプル処理対象である画像の第1のシーンコンテンツトレーニング特徴画像、及び前記ガイダンス画像の第1の照明トレーニング特徴画像を取得するステップと、
前記第1のシーンコンテンツトレーニング特徴画像と前記マックアップされた第1のシーンコンテンツ特徴画像との第2の差異、及び前記第1の照明トレーニング特徴画像と前記マックアップされた第1の照明特徴画像との第3の差異に基づくステップと、
前記第1の差異、前記第2の差異及び前記第3の差異に基づいて、前記第1の損失関数を取得するステップと、
を含む請求項15に記載の再照明画像生成システムのトレーニング方法。 - 前記サンプル処理対象である画像と前記サンプルガイダンス画像をトレーニング対象の前記再照明画像生成システム内の周波数領域特徴取得モデルに入力してトレーニングして、周波数領域モデルの第2の損失関数を取得するステップが、
マックアップされた第2の中間画像のサンプル処理対象である画像と、前記サンプル処理対象である画像に対応するサンプルガイダンス画像とを取得するステップと、
前記サンプル処理対象である画像と前記サンプルガイダンス画像をトレーニング対象の前記周波数領域特徴取得モデルに入力して周波数領域空間での再照明レンダリングを行って、前記サンプルガイダンス画像における照明条件と一致する第2のトレーニング中間画像を取得するステップと、
前記第2のトレーニング中間画像と前記マックアップされた第2の中間画像との第4の差異に基づいて、前記第2の損失関数を取得するステップと、
を含む請求項14に記載の再照明画像生成システムのトレーニング方法。 - 前記サンプル処理対象である画像が、第1の分類器によって予測して得られたマックアップされた第2のシーンコンテンツ特徴画像と第2の分類器によって予測して得られたマックアップされた第2の照明特徴画像を含み、前記第2のトレーニング中間画像と前記マックアップされた第2の中間画像との第4の差異に基づいて、前記第2の損失関数を取得するステップが、
トレーニング対象の前記周波数領域特徴取得モデルを介して前記サンプル処理対象である画像と前記サンプルガイダンス画像に対して特徴抽出を行って、前記サンプル処理対象である画像の第2のシーンコンテンツトレーニング特徴画像、及び前記ガイダンス画像の第2の照明トレーニング特徴画像を取得するステップと、
前記第2のシーンコンテンツトレーニング特徴画像と前記マックアップされた第2のシーンコンテンツ特徴画像との第5の差異、及び前記第2の照明トレーニング特徴画像と前記マックアップされた第2の照明特徴画像との第6の差異に基づくステップと、
前記第4の差異、前記第5の差異及び前記第6の差異に基づいて、前記第2の損失関数を取得するステップと、
を含む請求項17に記載の再照明画像生成システムのトレーニング方法。 - 処理対象である画像と前記処理対象である画像に対応するガイダンス画像を取得する第1の取得モジュールと、
前記ガイダンス画像に基づいて、前記処理対象である画像に対して時間領域での再照明レンダリングを行って、前記ガイダンス画像における照明条件と一致する第1の中間画像を取得する第2の取得モジュールと、
前記ガイダンス画像に基づいて、前記処理対象である画像に対して周波数領域空間での再照明レンダリングを行って、前記ガイダンス画像における照明条件と一致する第2の中間画像を取得する第3の取得モジュールと、
前記第1の中間画像と前記第2の中間画像に基づいて、前記処理対象である画像に対応するターゲット再照明画像を取得する第4の取得モジュールと、
を備える、再照明画像の生成装置。 - 前記第2の取得モジュールが、
前記処理対象である画像と前記ガイダンス画像を再照明画像生成システムの前記時間領域特徴取得モデルに入力して時間領域での再照明レンダリングを行って、前記ガイダンス画像における照明条件と一致する前記第1の中間画像を取得する請求項19に記載の再照明画像の生成装置。 - 前記第2の取得モジュールが、
前記時間領域特徴取得モデルを介して前記処理対象である画像と前記ガイダンス画像に対して特徴抽出を行って、前記処理対象である画像の第1のシーンコンテンツ特徴画像、及び前記ガイダンス画像の第1の照明特徴画像を取得し、
前記第1のシーンコンテンツ特徴画像と前記第1の照明特徴画像を結合して、融合特徴画像を取得し、
前記融合特徴画像に基づいて、前記第1の中間画像を生成する請求項20に記載の再照明画像の生成装置。 - 前記第2の取得モジュールが、
前記時間領域特徴取得モデルを介して前記処理対象である画像と前記ガイダンス画像に対してダウンサンプリング処理を行って、第1の特徴画像を取得し、
前記第1の特徴画像に対して等分処理を行って、前記処理対象である画像の前記第1のシーンコンテンツ特徴画像、及び前記ガイダンス画像の前記第1の照明特徴画像を取得する請求項21に記載の再照明画像の生成装置。 - 前記第2の取得モジュールが、
前記融合特徴画像に対してアップサンプリング処理を行って、前記第1の中間画像を生成する請求項21に記載の再照明画像の生成装置。 - 前記第3の取得モジュールが、
前記処理対象である画像と前記ガイダンス画像を再照明画像生成システムの前記周波数領域特徴取得モデルのN個のウェーブレット変換モデルに入力して周波数領域空間での再照明レンダリングを行って、前記ガイダンス画像における照明条件と一致する前記第2の中間画像を取得し、Nが1以上である整数である請求項19に記載の再照明画像の生成装置。 - Nが1よりも大きい整数であり、前記第3の取得モジュールが、
1番目のウェーブレット変換モデルに対して、前記処理対象である画像と前記ガイダンス画像を前記1番目のウェーブレット変換モデルに入力して周波数領域空間での再照明レンダリングを行って、中間再照明画像を出力し、
2番目のウェーブレット変換モデルから、前段のウェーブレット変換モデルから出力された中間再照明画像を次段のウェーブレット変換モデルに入力して周波数領域空間での再照明レンダリングを行って、前記次段のウェーブレット変換モデルに対応する中間再照明画像を出力し、
そのうちの1段のウェーブレット変換モデルが対応する中間再照明画像を出力し、前記対応する中間再照明画像が最適化停止条件を満たすと決定するたびに、次段のウェーブレット変換モデルへ前記対応する中間再照明画像を伝達することを停止し、前記対応する中間再照明画像を前記第2の中間画像とする請求項24に記載の再照明画像の生成装置。 - 前記第3の取得モジュールが、
前記対応する中間再照明画像が前記最適化停止条件を満たしていないと決定すると、前記中間再照明画像を引き続き次段のウェーブレット変換モデルへ伝達し、次段のウェーブレット変換モデルを介して前記対応する中間再照明画像に対して周波数領域空間での再照明レンダリングを引き続き行い、そのうちの1段のウェーブレット変換モデルから出力された中間再照明画像が最適化停止条件に満たすまで、前記最適化停止条件を満たす中間再照明画像を前記第2の中間画像とする請求項25に記載の再照明画像の生成装置。 - 前記第3の取得モジュールが、
画像を前記ウェーブレット変換モデルのウェーブレット変換ネットワークに入力し、前記ウェーブレット変換ネットワークを介して前記画像に対してダウンサンプリング処理を行って、前記画像に対応する第2のシーンコンテンツ特徴画像及び第2の照明特徴画像を出力し、前記画像が前記処理対象である画像、前記ガイダンス画像及び前記中間再照明画像を含み、
前記第2のシーンコンテンツ特徴画像及び前記第2の照明特徴画像を前記ウェーブレット変換モデルの残差ネットワークに入力し、前記残差ネットワークを介して前記第2のシーンコンテンツ特徴画像及び前記第2の照明特徴画像を再構築して、再構築特徴画像を出力し、
前記再構築特徴画像を前記ウェーブレット変換モデルのウェーブレット逆変換ネットワークに入力し、前記ウェーブレット逆変換ネットワークを介して前記再構築特徴画像に対してアップサンプリング処理を行って、前記再照明画像を出力する請求項24または25に記載の再照明画像の生成装置。 - 前記第3の取得モジュールが、
前記周波数領域特徴取得モデルを介して前記処理対象である画像と前記ガイダンス画像に対してダウンサンプリング処理を行って、第2の特徴画像を取得し、
前記第2の特徴画像に対して等分処理を行って、前記画像に対する前記第2のシーンコンテンツ特徴画像及び前記第2の照明特徴画像を取得する請求項27に記載の再照明画像の生成装置。 - 前記第3の取得モジュールが、
ダウンサンプリングして得られた前記特徴画像を前記ウェーブレット変換モデルの第1の畳み込みネットワークに入力し、前記第1の畳み込みネットワークを介して前記特徴画像を前処理し、前記第1の畳み込みネットワークから出力された前処理後の特徴画像を前記残差ネットワークに入力する請求項27に記載の再照明画像の生成装置。 - 前記第3の取得モジュールが、
アップサンプリング処理を行って得られたアップサンプリング特徴画像を前記ウェーブレット変換モデルの第2の畳み込みネットワークに入力し、前記第2の畳み込みネットワークを介して前記アップサンプリング特徴画像を前処理する27から29のいずれか一項に記載の再照明画像の生成装置。 - 前記第4の取得モジュールが、
前記第1の中間画像と前記第2の中間画像に対して重み付け処理を行い、重み付け処理結果を後処理して、後処理して得られた重み付け結果を前記処理対象である画像に対応する前記ターゲット再照明画像とする請求項19に記載の再照明画像の生成装置。 - マックアップされたターゲット再照明画像のサンプル処理対象である画像と、前記サンプル処理対象である画像に対応するサンプルガイダンス画像とを取得する第1の取得モジュールと、
前記サンプル処理対象である画像と前記サンプルガイダンス画像をトレーニング対象の再照明画像生成システム内の時間領域特徴取得モデルに入力してトレーニングして、時間領域モデルの第1の損失関数を取得する第2の取得モジュールと、
前記サンプル処理対象である画像と前記サンプルガイダンス画像をトレーニング対象の前記再照明画像生成システム内の周波数領域特徴取得モデルに入力してトレーニングして、周波数領域モデルの第2の損失関数を取得する第3の取得モジュールと、
前記第1の損失関数と前記第2の損失関数に基づいて、前記再照明画像生成システムに対応する総損失関数を取得して、前記総損失関数に基づいて前記再照明画像生成システム内のモデルパラメータを調整し、トレーニング結果がトレーニング終了条件を満たすまで、前記マックアップされたターゲット再照明画像のサンプル処理対象である画像と、前記サンプル処理対象である画像に対応するサンプルガイダンス画像とを取得するステップに戻り、最後に前記モデルパラメータを調整した後のトレーニング対象の前記再照明画像生成システムをトレーニング済みの前記再照明画像生成システムとして決定する決定モジュールと、
を備える、再照明画像生成システムのトレーニング装置。 - 前記第2の取得モジュールが、
マックアップされた第1の中間画像のサンプル処理対象である画像と、前記サンプル処理対象である画像に対応するサンプルガイダンス画像とを取得し、
前記サンプル処理対象である画像と前記サンプルガイダンス画像をトレーニング対象の前記時間領域特徴取得モデルに入力して時間領域での再照明レンダリングを行って、前記サンプルガイダンス画像における照明条件と一致する第1のトレーニング中間画像を取得し、
前記第1のトレーニング中間画像と前記マックアップされた第1の中間画像との第1の差異に基づいて、前記第1の損失関数を取得する請求項32に記載の再照明画像生成システムのトレーニング装置。 - 前記サンプル処理対象である画像が、第1の分類器によって予測して得られたマックアップされた第1のシーンコンテンツ特徴画像と第2の分類器によって予測して得られたマックアップされた第1の照明特徴画像を含み、前記第2の取得モジュールが、
トレーニング対象の前記時間領域特徴取得モデルを介して前記サンプル処理対象である画像と前記サンプルガイダンス画像に対して特徴抽出を行って、前記サンプル処理対象である画像の第1のシーンコンテンツトレーニング特徴画像、及び前記ガイダンス画像の第1の照明トレーニング特徴画像を取得し、
前記第1のシーンコンテンツトレーニング特徴画像と前記マックアップされた第1のシーンコンテンツ特徴画像との第2の差異、及び前記第1の照明トレーニング特徴画像と前記マックアップされた第1の照明特徴画像との第3の差異に基づき、
前記第1の差異、前記第2の差異及び前記第3の差異に基づいて、前記第1の損失関数を取得する請求項33に記載の再照明画像生成システムのトレーニング装置。 - 前記第3の取得モジュールが、
マックアップされた第2の中間画像のサンプル処理対象である画像と、前記サンプル処理対象である画像に対応するサンプルガイダンス画像とを取得し、
前記サンプル処理対象である画像と前記サンプルガイダンス画像をトレーニング対象の前記周波数領域特徴取得モデルに入力して周波数領域空間での再照明レンダリングを行って、前記サンプルガイダンス画像における照明条件と一致する第2のトレーニング中間画像を取得し、
前記第2のトレーニング中間画像と前記マックアップされた第2の中間画像との第4の差異に基づいて、前記第2の損失関数を取得する請求項32に記載の再照明画像生成システムのトレーニング装置。 - 前記サンプル処理対象である画像が、第1の分類器によって予測して得られたマックアップされた第2のシーンコンテンツ特徴画像と第2の分類器によって予測して得られたマックアップされた第2の照明特徴画像を含み、前記第3の取得モジュールが、
トレーニング対象の前記周波数領域特徴取得モデルを介して前記サンプル処理対象である画像と前記サンプルガイダンス画像に対して特徴抽出を行って、前記サンプル処理対象である画像の第2のシーンコンテンツトレーニング特徴画像、及び前記ガイダンス画像の第2の照明トレーニング特徴画像を取得し、
前記第2のシーンコンテンツトレーニング特徴画像と前記マックアップされた第2のシーンコンテンツ特徴画像との第5の差異、及び前記第2の照明トレーニング特徴画像と前記マックアップされた第2の照明特徴画像との第6の差異に基づき、
前記第4の差異、前記第5の差異及び前記第6の差異に基づいて、前記第2の損失関数を取得する請求項35に記載の再照明画像生成システムのトレーニング装置。 - プロセッサと、メモリと、を備え、
前記プロセッサが、請求項1から13のいずれか一項に記載の方法を実現するために、前記メモリに記憶されている実行可能なプログラムコードを読み取ることにより、前記実行可能なプログラムコードに対応するプログラムを実行する電子機器。 - コンピュータプログラムが含まれるコンピュータ読み取り可能な記憶媒体であって、当該プログラムがプロセッサによって実行される場合、請求項1から13のいずれか一項に記載の方法を実現するコンピュータ読み取り可能な記憶媒体。
- コンピュータプログラムが含まれるコンピュータプログラム製品であって、前記コンピュータプログラムがプロセッサによって実行される場合、請求項1から13のいずれか一項に記載の方法を実現するコンピュータプログラム製品。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110729941.9A CN113592998A (zh) | 2021-06-29 | 2021-06-29 | 重光照图像的生成方法、装置及电子设备 |
CN202110729941.9 | 2021-06-29 | ||
PCT/CN2022/088031 WO2023273536A1 (zh) | 2021-06-29 | 2022-04-20 | 重光照图像的生成方法、装置及电子设备 |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2023538147A true JP2023538147A (ja) | 2023-09-06 |
Family
ID=78245254
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2023513079A Pending JP2023538147A (ja) | 2021-06-29 | 2022-04-20 | 再照明画像の生成方法、装置及び電子機器 |
Country Status (5)
Country | Link |
---|---|
US (1) | US20230215132A1 (ja) |
JP (1) | JP2023538147A (ja) |
KR (1) | KR20230043225A (ja) |
CN (1) | CN113592998A (ja) |
WO (1) | WO2023273536A1 (ja) |
Families Citing this family (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113554739A (zh) * | 2021-06-29 | 2021-10-26 | 北京百度网讯科技有限公司 | 重光照图像的生成方法、装置及电子设备 |
CN113592998A (zh) * | 2021-06-29 | 2021-11-02 | 北京百度网讯科技有限公司 | 重光照图像的生成方法、装置及电子设备 |
CN115546041B (zh) * | 2022-02-28 | 2023-10-20 | 荣耀终端有限公司 | 补光模型的训练方法、图像处理方法及其相关设备 |
CN116071268B (zh) * | 2023-03-01 | 2023-06-23 | 中国民用航空飞行学院 | 基于对比学习的图像去光照模型及其训练方法 |
CN117252787B (zh) * | 2023-11-17 | 2024-02-02 | 北京渲光科技有限公司 | 图像重新照明方法、模型训练方法、装置、设备及介质 |
Family Cites Families (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101183276A (zh) * | 2007-12-13 | 2008-05-21 | 上海交通大学 | 基于摄像头投影仪技术的交互系统 |
US8452111B2 (en) * | 2008-06-05 | 2013-05-28 | Microsoft Corporation | Real-time compression and decompression of wavelet-compressed images |
US9001226B1 (en) * | 2012-12-04 | 2015-04-07 | Lytro, Inc. | Capturing and relighting images using multiple devices |
JP6742231B2 (ja) * | 2016-12-09 | 2020-08-19 | キヤノン株式会社 | 画像処理装置及び方法、及び撮像装置 |
CN107833198B (zh) * | 2017-11-09 | 2021-06-01 | 中共中央办公厅电子科技学院 | 一种基于大尺度分解的户外场景重光照方法 |
CN112184575A (zh) * | 2020-09-16 | 2021-01-05 | 华为技术有限公司 | 图像渲染的方法和装置 |
CN112489144A (zh) * | 2020-12-14 | 2021-03-12 | Oppo(重庆)智能科技有限公司 | 图像处理方法、图像处理装置、终端设备及存储介质 |
CN112819016A (zh) * | 2021-02-19 | 2021-05-18 | Oppo广东移动通信有限公司 | 图像处理方法、装置、电子设备及存储介质 |
CN112801057B (zh) * | 2021-04-02 | 2021-07-13 | 腾讯科技(深圳)有限公司 | 图像处理方法、装置、计算机设备和存储介质 |
CN113592998A (zh) * | 2021-06-29 | 2021-11-02 | 北京百度网讯科技有限公司 | 重光照图像的生成方法、装置及电子设备 |
-
2021
- 2021-06-29 CN CN202110729941.9A patent/CN113592998A/zh active Pending
-
2022
- 2022-04-20 KR KR1020237008692A patent/KR20230043225A/ko active Search and Examination
- 2022-04-20 WO PCT/CN2022/088031 patent/WO2023273536A1/zh active Application Filing
- 2022-04-20 JP JP2023513079A patent/JP2023538147A/ja active Pending
-
2023
- 2023-03-14 US US18/183,439 patent/US20230215132A1/en active Pending
Also Published As
Publication number | Publication date |
---|---|
US20230215132A1 (en) | 2023-07-06 |
WO2023273536A1 (zh) | 2023-01-05 |
CN113592998A (zh) | 2021-11-02 |
KR20230043225A (ko) | 2023-03-30 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP2023538147A (ja) | 再照明画像の生成方法、装置及び電子機器 | |
US10395167B2 (en) | Image processing method and device | |
US11373272B2 (en) | Digital gradient signal processing system and method for signals comprising at least three dimensions | |
EP3998552A1 (en) | Image processing method and apparatus, and electronic device | |
US20210209731A1 (en) | Video processing method, apparatus, device and storage medium | |
US10937200B2 (en) | Object-based color adjustment | |
CN111386536A (zh) | 语义一致的图像样式转换 | |
EP4109412A1 (en) | Three-dimensional model reconstruction method and apparatus, and three-dimensional reconstruction model training method and apparatus | |
JP2021006991A (ja) | マルチユーザ共同データ分析を要約及び指示する方法、プログラム、及び装置 | |
US20210329195A1 (en) | Method and apparatus for interpolating frame to video, and electronic device | |
WO2023273340A1 (zh) | 重光照图像的生成方法、装置及电子设备 | |
US20230042221A1 (en) | Modifying digital images utilizing a language guided image editing model | |
CN110996131B (zh) | 视频编码方法、装置、计算机设备及存储介质 | |
US20220044358A1 (en) | Image processing method and apparatus, device, and storage medium | |
Chen et al. | MICU: Image super-resolution via multi-level information compensation and U-net | |
US20230143452A1 (en) | Method and apparatus for generating image, electronic device and storage medium | |
US20220358675A1 (en) | Method for training model, method for processing video, device and storage medium | |
US11030726B1 (en) | Image cropping with lossless resolution for generating enhanced image databases | |
US11769227B2 (en) | Generating synthesized digital images utilizing a multi-resolution generator neural network | |
JP2022532669A (ja) | ビデオを識別するための方法及び装置 | |
CN114528970A (zh) | 生成式图像凝结 | |
JP2022185144A (ja) | 対象検出方法、対象検出モデルのレーニング方法および装置 | |
US20230289402A1 (en) | Joint perception model training method, joint perception method, device, and storage medium | |
JP2023001926A (ja) | 画像融合方法及び装置、画像融合モデルのトレーニング方法及び装置、電子機器、記憶媒体、並びにコンピュータプログラム | |
US20230070666A1 (en) | Neural network for image style translation |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20230222 |
|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20230222 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20231225 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20240109 |