JP7100729B2 - 画像強調モデルのトレーニング方法、装置及び記憶媒体 - Google Patents
画像強調モデルのトレーニング方法、装置及び記憶媒体 Download PDFInfo
- Publication number
- JP7100729B2 JP7100729B2 JP2021018016A JP2021018016A JP7100729B2 JP 7100729 B2 JP7100729 B2 JP 7100729B2 JP 2021018016 A JP2021018016 A JP 2021018016A JP 2021018016 A JP2021018016 A JP 2021018016A JP 7100729 B2 JP7100729 B2 JP 7100729B2
- Authority
- JP
- Japan
- Prior art keywords
- image
- grayscale
- frequency
- component
- loss
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000012549 training Methods 0.000 title claims description 216
- 238000000034 method Methods 0.000 title claims description 118
- 230000006870 function Effects 0.000 claims description 108
- 238000001914 filtration Methods 0.000 claims description 61
- 238000012545 processing Methods 0.000 claims description 52
- 230000008569 process Effects 0.000 claims description 21
- 239000011159 matrix material Substances 0.000 claims description 14
- 238000003708 edge detection Methods 0.000 claims description 13
- 230000004927 fusion Effects 0.000 claims description 12
- 238000004364 calculation method Methods 0.000 claims description 8
- 238000003384 imaging method Methods 0.000 claims description 4
- 238000004891 communication Methods 0.000 description 10
- 238000005516 engineering process Methods 0.000 description 8
- 230000000694 effects Effects 0.000 description 6
- 230000003287 optical effect Effects 0.000 description 6
- 238000009499 grossing Methods 0.000 description 5
- 238000010586 diagram Methods 0.000 description 4
- 230000005236 sound signal Effects 0.000 description 4
- 238000010276 construction Methods 0.000 description 3
- 230000001965 increasing effect Effects 0.000 description 3
- 238000007726 management method Methods 0.000 description 3
- 230000001133 acceleration Effects 0.000 description 2
- 230000003044 adaptive effect Effects 0.000 description 2
- 238000001514 detection method Methods 0.000 description 2
- 238000007499 fusion processing Methods 0.000 description 2
- 230000003993 interaction Effects 0.000 description 2
- 230000002093 peripheral effect Effects 0.000 description 2
- 238000005070 sampling Methods 0.000 description 2
- 238000004088 simulation Methods 0.000 description 2
- 238000012935 Averaging Methods 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 230000006835 compression Effects 0.000 description 1
- 238000007906 compression Methods 0.000 description 1
- 238000013500 data storage Methods 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000002708 enhancing effect Effects 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 230000000116 mitigating effect Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 238000010187 selection method Methods 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 230000001629 suppression Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T5/00—Image enhancement or restoration
- G06T5/70—Denoising; Smoothing
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T5/00—Image enhancement or restoration
- G06T5/10—Image enhancement or restoration using non-spatial domain filtering
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T5/00—Image enhancement or restoration
- G06T5/50—Image enhancement or restoration using two or more images, e.g. averaging or subtraction
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T5/00—Image enhancement or restoration
- G06T5/60—Image enhancement or restoration using machine learning, e.g. neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/10—Segmentation; Edge detection
- G06T7/13—Edge detection
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/10—Segmentation; Edge detection
- G06T7/174—Segmentation; Edge detection involving the use of two or more images
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/90—Determination of colour characteristics
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N7/00—Computing arrangements based on specific mathematical models
- G06N7/01—Probabilistic graphical models, e.g. probabilistic networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/10—Image acquisition modality
- G06T2207/10024—Color image
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20076—Probabilistic image processing
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20081—Training; Learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20084—Artificial neural networks [ANN]
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02T—CLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
- Y02T10/00—Road transport of goods or passengers
- Y02T10/10—Internal combustion engine [ICE] based vehicles
- Y02T10/40—Engine management systems
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Data Mining & Analysis (AREA)
- General Engineering & Computer Science (AREA)
- Life Sciences & Earth Sciences (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Software Systems (AREA)
- Mathematical Physics (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Computing Systems (AREA)
- Molecular Biology (AREA)
- Evolutionary Biology (AREA)
- Bioinformatics & Computational Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Image Processing (AREA)
- Image Analysis (AREA)
Description
撮影機器で撮影した複数のサンプル画像グループを決定することと、
各サンプル画像グループに関連付けられるターゲット画像、及びトレーニング入力画像グループを決定することと、
複数のトレーニングペアを構築することであって、各トレーニングペアは、1つのトレーニング入力画像グループと、対応するターゲット画像を含むことと、
各トレーニング入力画像グループを前記画像強調モデルに入力して、前記画像強調モデルによって出力された予測画像を取得することと、
前記予測画像のグレースケール成分画像に対して周波数分割処理を実行して、複数の周波数間隔における前記予測画像のグレースケール周波数分割画像を取得し、対応するターゲット画像のグレースケール成分画像に対して周波数分割処理を実行して、前記複数の周波数間隔における前記ターゲット画像のグレースケール周波数分割画像を取得することと、
各トレーニングペアにそれぞれ対応する損失関数を使用して、収束するまで前記画像強調モデルをトレーニングすることと、を含み、
前記損失関数には、前記複数の周波数間隔に1対1で対応する複数のグレースケール損失成分が含まれ、各グレースケール損失成分は、各周波数間隔内の前記予測画像のグレースケール周波数分割画像と、対応するターゲット画像のグレースケール周波数分割画像との差に基づいて決定され、異なるグレースケール損失成分は異なる周波数間隔に対応する。
前記予測画像のグレースケール成分画像に対して周波数分割処理を実行して、複数の周波数間隔における前記予測画像のグレースケール周波数分割画像を取得することは、前記予測画像のグレースケール成分画像に対してローパスフィルタリングを実行して、第1グレースケール低周波画像を取得し、前記予測画像のグレースケール成分画像と前記第1グレースケール低周波画像との差を計算して第1グレースケール高周波画像として使用することを含み、2つの周波数間隔における前記予測画像のグレースケール周波数分割画像は、前記第1グレースケール低周波画像と第1グレースケール高周波画像を含み、
前記ターゲット画像のグレースケール成分画像に対して周波数分割処理を実行して、複数の周波数間隔における前記ターゲット画像のグレースケール周波数分割画像を取得することは、前記ターゲット画像のグレースケール成分画像に対してローパスフィルタリングを実行して、第2グレースケール低周波画像を取得し、前記ターゲット画像のグレースケール成分画像と前記第2グレースケール低周波画像との差を計算して第2グレースケール高周波画像として使用して使用することを含み、2つの周波数間隔における前記ターゲット画像のグレースケール周波数分割画像は、前記第2グレースケール低周波画像と第2グレースケール高周波画像を含む。
前記予測画像のグレースケール成分画像に対して周波数分割処理を実行して、複数の周波数間隔における前記予測画像のグレースケール周波数分割画像を取得することは、前記予測画像のグレースケール成分画像に対してハイパスフィルタリングを実行して、第1グレースケール高周波画像を取得し、前記予測画像のグレースケール成分画像と前記第1グレースケール高周波画像との差を計算して第1グレースケール低周波画像として使用することを含み、2つの周波数間隔における前記予測画像のグレースケール周波数分割画像は、前記第1グレースケール低周波画像と第1グレースケール高周波画像を含み、
前記ターゲット画像のグレースケール成分画像に対して周波数分割処理を実行して、複数の周波数間隔における前記ターゲット画像のグレースケール周波数分割画像を取得することは、前記ターゲット画像のグレースケール成分画像に対してハイパスフィルタリングを実行して、第2グレースケール高周波画像を取得し、前記ターゲット画像のグレースケール成分画像と前記第2グレースケール高周波画像との差を計算して第2グレースケール低周波画像として使用することを含み、2つの周波数間隔における前記ターゲット画像のグレースケール周波数分割画像は、前記第2グレースケール低周波画像と第2グレースケール高周波画像を含む。
前記損失関数において、特性周波数が最も高い周波数間隔に対応するグレースケール損失成分は、当該周波数間隔における前記予測画像のグレースケール成分画像と当該周波数間隔における対応するターゲット画像のグレースケール成分画像との差と、前記エッジ確率マップとのドット積行列を含む。
前記エッジ画像に対してガイド付きフィルタリングを実行して、エッジ確率マップを取得することを含み、前記ガイド付きフィルタリングのガイドマップは、前記ターゲット画像または前記ターゲット画像のグレースケール成分画像である。
または、前記損失関数は、複数のグレースケール損失成分の和と、色度損失成分の和とを含み、
または、前記損失関数は、複数のグレースケール損失成分の和と、色飽和損失成分の和とを含み、
または、前記損失関数は、複数のグレースケール損失成分の和と、色度損失成分及び色飽和損失成分の和とを含み、
前記色度損失成分は、前記画像強調モデルによって出力された予測画像の色度成分画像と、対応するターゲット画像の色度成分画像との差であり、前記色飽和損失成分は、前記画像強調モデルによって出力された予測画像の色飽和損失成分画像と、対応するターゲット画像の色飽和損失成分画像との差である。
前記各サンプル画像グループに関連付けられるターゲット画像を決定することは、
サンプル画像グループの各サンプル画像に従って、同じ位置のピクセルの平均値を計算して、ターゲット画像を取得すること、
サンプル画像グループの各サンプル画像に従って、同じ位置のピクセル加重平均値を計算して、ターゲット画像を取得すること、
サンプル画像グループから、鮮明度が最も高いサンプル画像、第1フレームのサンプル画像または、最後の1フレームのサンプル画像を参照画像として選択し、サンプル画像グループの各サンプル画像に従って特徴点を計算し、前記参照画像に従って前記サンプル画像グループの他のサンプル画像に対して特徴点の位置合わせ操作を実行し、位置合わせ操作の後のサンプル画像に対してマルチフレーム画像融合を実行して、ターゲット画像を取得することのうちのいずれか1つを含み、
前記各サンプル画像グループに関連付けられるトレーニング入力画像グループを決定することは、
前記サンプル画像グループを、トレーニング入力画像グループとして使用すること、
前記サンプル画像グループから、サンプル画像の一部を選択して、トレーニング入力画像グループを形成することのうちのいずれか1つを含む。
撮影機器で撮影した複数のサンプル画像グループを決定するように構成される、第1決定モジュールと、
各サンプル画像グループに関連付けられるターゲット画像、及びトレーニング入力画像グループを決定するように構成される、第2決定モジュールと、
複数のトレーニングペアを構築するように構成される、構築モジュールであって、各トレーニングペアに、1つのトレーニング入力画像グループと対応するターゲット画像を含む、構築モジュールと、
各トレーニング入力画像グループを前記画像強調モデルに入力して、前記画像強調モデルによって出力された予測画像を取得するように構成される、入力モジュールと、
前記予測画像のグレースケール成分画像に対して周波数分割処理を実行して、複数の周波数間隔における前記予測画像のグレースケール周波数分割画像を取得し、対応するターゲット画像のグレースケール成分画像に対して周波数分割処理を実行して、前記複数の周波数間隔における前記ターゲット画像のグレースケール周波数分割画像を取得するように構成される、周波数分割モジュールと、
各トレーニングペアにそれぞれ対応する損失関数を使用して、収束するまで前記画像強調モデルをトレーニングするように構成されるトレーニングモジュールであって、前記損失関数には、前記複数の周波数間隔に1対1で対応する複数のグレースケール損失成分が含まれ、各グレースケール損失成分は、各周波数間隔内の前記予測画像のグレースケール周波数分割画像と、対応するターゲット画像のグレースケール周波数分割画像との差に基づいて決定され、異なるグレースケール損失成分は異なる周波数間隔に対応するように構成される、トレーニングモジュールと、を含む。
前記周波数分割モジュールは、さらに、前記予測画像のグレースケール成分画像に対してローパスフィルタリングを実行して、第1グレースケール低周波画像を取得し、前記予測画像のグレースケール成分画像と前記第1グレースケール低周波画像との差を計算して第1グレースケール高周波画像として使用することであって、2つの周波数間隔における前記予測画像のグレースケール周波数分割画像は、前記第1グレースケール低周波画像と第1グレースケール高周波画像を含むこと、を使用して、前記予測画像のグレースケール成分画像に対して周波数分割処理を実行して、複数の周波数間隔における前記予測画像のグレースケール周波数分割画像を取得するように構成され、
さらに、前記ターゲット画像のグレースケール成分画像に対してローパスフィルタリングを実行して、第2グレースケール低周波画像を取得し、前記ターゲット画像のグレースケール成分画像と前記第2グレースケール低周波画像との差を計算して第2グレースケール高周波画像として使用することであって、2つの周波数間隔における前記ターゲット画像のグレースケール周波数分割画像は、前記第2グレースケール低周波画像と第2グレースケール高周波画像を含むこと、を使用して、前記ターゲット画像のグレースケール成分画像に対して周波数分割処理を実行して、複数の周波数間隔における前記ターゲット画像のグレースケール周波数分割画像を取得するように構成される。
前記周波数分割モジュールは、さらに、前記予測画像のグレースケール成分画像に対してハイパスフィルタリングを実行して、第1グレースケール高周波画像を取得し、前記予測画像のグレースケール成分画像と前記第1グレースケール高周波画像との差を計算して第1グレースケール低周波画像として使用することであって、2つの周波数間隔における前記予測画像のグレースケール周波数分割画像は、前記第1グレースケール低周波画像と第1グレースケール高周波画像を含むこと、を使用して、前記予測画像のグレースケール成分画像に対して周波数分割処理を実行して、複数の周波数間隔における前記予測画像のグレースケール周波数分割画像を取得するように構成され、さらに、前記ターゲット画像のグレースケール成分画像に対してハイパスフィルタリングを実行して、第2グレースケール高周波画像を取得し、前記ターゲット画像のグレースケール成分画像と前記第2グレースケール高周波画像との差を計算して第2グレースケール低周波画像として使用することであって、2つの周波数間隔における前記ターゲット画像のグレースケール周波数分割画像は、前記第2グレースケール低周波画像と第2グレースケール高周波画像を含むこと、を使用して、前記ターゲット画像のグレースケール成分画像に対して周波数分割処理を実行して、複数の周波数間隔における前記ターゲット画像のグレースケール周波数分割画像を取得するように構成される。
各トレーニングペアにおけるターゲット画像のグレースケール成分画像に対してエッジ検出を実行してエッジ画像を取得するように構成される、エッジ検出モジュールと、
前記エッジ画像に従ってエッジ確率マップを決定するように構成される、エッジ確率計算モジュールと、を含み、
前記損失関数において、特性周波数が最も高い周波数間隔に対応するグレースケール損失成分は、当該周波数間隔における前記予測画像のグレースケール成分画像と当該周波数間隔における対応するターゲット画像のグレースケール成分画像との差と、前記エッジ確率マップとのドット積行列を含む。
または、前記損失関数は、複数のグレースケール損失成分の和と、色度損失成分の和とを含み、
または、前記損失関数は、複数のグレースケール損失成分の和と、色飽和損失成分の和とを含み、
または、前記損失関数は、複数のグレースケール損失成分の和と、色度損失成分及び色飽和損失成分の和とを含み、
前記色度損失成分は、前記画像強調モデルによって出力された予測画像の色度成分画像と、対応するターゲット画像の色度成分画像との差であり、前記色飽和損失成分は、前記画像強調モデルによって出力された予測画像の色飽和損失成分画像と、対応するターゲット画像の色飽和損失成分画像との差である。
第2決定モジュールは、さらに、
サンプル画像グループの各サンプル画像に従って、同じ位置のピクセルの平均値を計算して、ターゲット画像を取得すること、
サンプル画像グループの各サンプル画像に従って、同じ位置のピクセル加重平均値を計算して、ターゲット画像を取得すること、
サンプル画像グループから、鮮明度が最も高いサンプル画像、第1フレームのサンプル画像または、最後の1フレームのサンプル画像を参照画像として選択し、サンプル画像グループの各サンプル画像に従って特徴点を計算し、前記参照画像に従って前記サンプル画像グループの他のサンプル画像に対して特徴点の位置合わせ操作を実行し、位置合わせ操作の後のサンプル画像に対してマルチフレーム画像融合を実行して、ターゲット画像を取得すること、のいずれか1つを使用して、各サンプル画像グループに関連付けられるターゲット画像を決定するように構成され、
前記第2決定モジュールは、さらに、
前記サンプル画像グループを、トレーニング入力画像グループとして使用すること、
前記サンプル画像グループから、サンプル画像の一部を選択して、トレーニング入力画像グループを形成すること、のいずれか1つを使用して、各サンプル画像グループに関連付けられるトレーニング入力画像グループを決定するように構成される。
プロセッサと、
プロセッサ実行可能命令を記憶するように構成されるメモリとを備え、
ここで、前記プロセッサは、前記メモリ内の実行可能な命令を実行して、上記方法のステップを実現するように構成される。
(項目1)
画像強調モデルのトレーニング方法であって、
撮影機器で撮影した複数のサンプル画像グループを決定することと、
各サンプル画像グループに関連付けられるターゲット画像、及びトレーニング入力画像グループを決定することと、
複数のトレーニングペアを構築することであって、各トレーニングペアは、1つのトレーニング入力画像グループと、対応するターゲット画像を含むことと、
各トレーニング入力画像グループを上記画像強調モデルに入力して、上記画像強調モデルによって出力された予測画像を取得することと、
上記予測画像のグレースケール成分画像に対して周波数分割処理を実行して、複数の周波数間隔における上記予測画像のグレースケール周波数分割画像を取得し、対応するターゲット画像のグレースケール成分画像に対して周波数分割処理を実行して、上記複数の周波数間隔における上記ターゲット画像のグレースケール周波数分割画像を取得することと、
各トレーニングペアにそれぞれ対応する損失関数を使用して、収束するまで上記画像強調モデルをトレーニングすることと、を含み、
上記損失関数には、上記複数の周波数間隔に1対1で対応する複数のグレースケール損失成分が含まれ、各グレースケール損失成分は、各周波数間隔内の上記予測画像のグレースケール周波数分割画像と、対応するターゲット画像のグレースケール周波数分割画像との差に基づいて決定され、異なるグレースケール損失成分は異なる周波数間隔に対応することを特徴とする、上記画像強調モデルのトレーニング方法。
(項目2)
上記画像強調モデルのトレーニング方法は、
特性周波数が高い周波数間隔であるほど、対応するグレースケール損失成分の重み係数が大きくなることを特徴とする、
上記項目に記載の画像強調モデルのトレーニング方法。
(項目3)
上記画像強調モデルのトレーニング方法は、
上記損失関数は、2つのグレースケール損失成分を含み、上記2つのグレースケール損失成分は、低周波損失成分と高周波損失成分を含み、
上記予測画像のグレースケール成分画像に対して周波数分割処理を実行して、複数の周波数間隔における上記予測画像のグレースケール周波数分割画像を取得することは、上記予測画像のグレースケール成分画像に対してローパスフィルタリングを実行して、第1グレースケール低周波画像を取得し、上記予測画像のグレースケール成分画像と上記第1グレースケール低周波画像との差を計算して第1グレースケール高周波画像として使用することを含み、2つの周波数間隔における上記予測画像のグレースケール周波数分割画像は、上記第1グレースケール低周波画像と第1グレースケール高周波画像を含み、
上記ターゲット画像のグレースケール成分画像に対して周波数分割処理を実行して、複数の周波数間隔における上記ターゲット画像のグレースケール周波数分割画像を取得することは、上記ターゲット画像のグレースケール成分画像に対してローパスフィルタリングを実行して、第2グレースケール低周波画像を取得し、上記ターゲット画像のグレースケール成分画像と上記第2グレースケール低周波画像との差を計算して第2グレースケール高周波画像として使用することを含み、2つの周波数間隔における上記ターゲット画像のグレースケール周波数分割画像は、上記第2グレースケール低周波画像と第2グレースケール高周波画像を含むことを特徴とする、
上記項目のいずれか一項に記載の画像強調モデルのトレーニング方法。
(項目4)
上記画像強調モデルのトレーニング方法は、
上記損失関数は、2つのグレースケール損失成分を含み、上記2つのグレースケール損失成分は、低周波損失成分と高周波損失成分を含み、
上記予測画像のグレースケール成分画像に対して周波数分割処理を実行して、複数の周波数間隔における上記予測画像のグレースケール周波数分割画像を取得することは、上記予測画像のグレースケール成分画像に対してハイパスフィルタリングを実行して、第1グレースケール高周波画像を取得し、上記予測画像のグレースケール成分画像と上記第1グレースケール高周波画像との差を計算して第1グレースケール低周波画像として使用することを含み、2つの周波数間隔における上記予測画像のグレースケール周波数分割画像は、上記第1グレースケール低周波画像と第1グレースケール高周波画像を含み、
上記ターゲット画像のグレースケール成分画像に対して周波数分割処理を実行して、複数の周波数間隔における上記ターゲット画像のグレースケール周波数分割画像を取得することは、上記ターゲット画像のグレースケール成分画像に対してハイパスフィルタリングを実行して、第2グレースケール高周波画像を取得し、上記ターゲット画像のグレースケール成分画像と上記第2グレースケール高周波画像との差を計算して第2グレースケール低周波画像として使用することを含み、2つの周波数間隔における上記ターゲット画像のグレースケール周波数分割画像は、上記第2グレースケール低周波画像と第2グレースケール高周波画像を含むことを特徴とする、
上記項目のいずれか一項に記載の画像強調モデルのトレーニング方法。
(項目5)
上記画像強調モデルのトレーニング方法は、
各トレーニングペアにおけるターゲット画像のグレースケール成分画像に対してエッジ検出を実行してエッジ画像を取得し、上記エッジ画像に従ってエッジ確率マップを決定することをさらに含み、
上記損失関数において、特性周波数が最も高い周波数間隔に対応するグレースケール損失成分は、当該周波数間隔における上記予測画像のグレースケール成分画像と当該周波数間隔における対応するターゲット画像のグレースケール成分画像との差と、上記エッジ確率マップとのドット積行列を含むことを特徴とする、
上記項目のいずれか一項に記載の画像強調モデルのトレーニング方法。
(項目6)
上記画像強調モデルのトレーニング方法は、
上記エッジ画像に従ってエッジ確率マップを決定することは、
上記エッジ画像に対してガイド付きフィルタリングを実行して、エッジ確率マップを取得することを含み、上記ガイド付きフィルタリングのガイドマップは、上記ターゲット画像または上記ターゲット画像のグレースケール成分画像であることを特徴とする、
上記項目のいずれか一項に記載の画像強調モデルのトレーニング方法。
(項目7)
上記画像強調モデルのトレーニング方法は、
上記損失関数は、複数のグレースケール損失成分の和を含み、
または、上記損失関数は、複数のグレースケール損失成分の和と、色度損失成分の和とを含み、
または、上記損失関数は、複数のグレースケール損失成分の和と、色飽和損失成分の和とを含み、
または、上記損失関数は、複数のグレースケール損失成分の和と、色度損失成分及び色飽和損失成分の和とを含み、
上記色度損失成分は、上記画像強調モデルによって出力された予測画像の色度成分画像と、対応するターゲット画像の色度成分画像との差であり、上記色飽和損失成分は、上記画像強調モデルによって出力された予測画像の色飽和成分画像と、対応するターゲット画像の色飽和成分画像との差であることを特徴とする、
上記項目のいずれか一項に記載の画像強調モデルのトレーニング方法。
(項目8)
上記画像強調モデルのトレーニング方法は、
同じサンプル画像グループにおけるサンプル画像の撮影シーンは同じであり、異なるサンプル画像グループにおけるサンプル画像の撮影シシーンは異なり、
上記各サンプル画像グループに関連付けられるターゲット画像を決定することは、
サンプル画像グループの各サンプル画像に従って、同じ位置のピクセルの平均値を計算して、ターゲット画像を取得すること、
サンプル画像グループの各サンプル画像に従って、同じ位置のピクセル加重平均値を計算して、ターゲット画像を取得すること、
サンプル画像グループから、鮮明度が最も高いサンプル画像、第1フレームのサンプル画像または、最後の1フレームのサンプル画像を参照画像として選択し、サンプル画像グループの各サンプル画像に従って特徴点を計算し、上記参照画像に従って上記サンプル画像グループの他のサンプル画像に対して特徴点の位置合わせ操作を実行し、位置合わせ操作の後のサンプル画像に対してマルチフレーム画像融合を実行して、ターゲット画像を取得すること、のうちのいずれか1つを含み、
上記各サンプル画像グループに関連付けられるトレーニング入力画像グループを決定することは、
上記サンプル画像グループを、トレーニング入力画像グループとして使用すること、
上記サンプル画像グループから、サンプル画像の一部を選択して、トレーニング入力画像グループを形成することのうちのいずれか1つを含むことを特徴とする、
上記項目のいずれか一項に記載の画像強調モデルのトレーニング方法。
(項目9)
画像強調モデルのトレーニング装置であって、
撮影機器で撮影した複数のサンプル画像グループを決定するように構成される、第1決定モジュールと、
各サンプル画像グループに関連付けられるターゲット画像、及びトレーニング入力画像グループを決定するように構成される、第2決定モジュールと、
複数のトレーニングペアを構築するように構成される構築モジュールであって、各トレーニングペアに、1つのトレーニング入力画像グループと対応するターゲット画像を含む、構築モジュールと、
各トレーニング入力画像グループを上記画像強調モデルに入力して、上記画像強調モデルによって出力された予測画像を取得するように構成される、入力モジュールと、
上記予測画像のグレースケール成分画像に対して周波数分割処理を実行して、複数の周波数間隔における上記予測画像のグレースケール周波数分割画像を取得し、対応するターゲット画像のグレースケール成分画像に対して周波数分割処理を実行して、上記複数の周波数間隔における上記ターゲット画像のグレースケール周波数分割画像を取得するように構成される、周波数分割モジュールと、
各トレーニングペアにそれぞれ対応する損失関数を使用して、収束するまで上記画像強調モデルをトレーニングするように構成されるトレーニングモジュールであって、上記損失関数には、上記複数の周波数間隔に1対1で対応する複数のグレースケール損失成分が含まれ、各グレースケール損失成分は、各周波数間隔内の上記予測画像のグレースケール周波数分割画像と、対応するターゲット画像のグレースケール周波数分割画像との差に基づいて決定され、異なるグレースケール損失成分は異なる周波数間隔に対応するように構成される、トレーニングモジュールと、を含むことを特徴とする、上記画像強調モデルのトレーニング装置。
(項目10)
上記画像強調モデルのトレーニング装置は、
特性周波数が高い周波数間隔であるほど、対応するグレースケール損失成分の重み係数が大きくなることを特徴とする、
上記項目に記載の画像強調モデルのトレーニング装置。
(項目11)
上記画像強調モデルのトレーニング装置は、
上記損失関数は、2つのグレースケール損失成分を含み、上記2つのグレースケール損失成分は、低周波損失成分と高周波損失成分を含み、
上記周波数分割モジュールは、さらに、上記予測画像のグレースケール成分画像に対してローパスフィルタリングを実行して、第1グレースケール低周波画像を取得し、上記予測画像のグレースケール成分画像と上記第1グレースケール低周波画像との差を計算して第1グレースケール高周波画像として使用することであって、2つの周波数間隔における上記予測画像のグレースケール周波数分割画像は、上記第1グレースケール低周波画像と第1グレースケール高周波画像を含むこと、を使用して、上記予測画像のグレースケール成分画像に対して周波数分割処理を実行して、複数の周波数間隔における上記予測画像のグレースケール周波数分割画像を取得するように構成され、
さらに、上記ターゲット画像のグレースケール成分画像に対してローパスフィルタリングを実行して、第2グレースケール低周波画像を取得し、上記ターゲット画像のグレースケール成分画像と上記第2グレースケール低周波画像との差を計算して第2グレースケール高周波画像として使用することであって、2つの周波数間隔における上記ターゲット画像のグレースケール周波数分割画像は、上記第2グレースケール低周波画像と第2グレースケール高周波画像を含むこと、を使用して、上記ターゲット画像のグレースケール成分画像に対して周波数分割処理を実行して、複数の周波数間隔における上記ターゲット画像のグレースケール周波数分割画像を取得するように構成されることを特徴とする、
上記項目のいずれか一項に記載の画像強調モデルのトレーニング装置。
(項目12)
上記画像強調モデルのトレーニング装置は、
上記損失関数は、2つのグレースケール損失成分を含み、上記2つのグレースケール損失成分は、低周波損失成分と高周波損失成分を含み、
上記周波数分割モジュールは、さらに、上記予測画像のグレースケール成分画像に対してハイパスフィルタリングを実行して、第1グレースケール高周波画像を取得し、上記予測画像のグレースケール成分画像と上記第1グレースケール高周波画像との差を計算して第1グレースケール低周波画像として使用することであって、2つの周波数間隔における上記予測画像のグレースケール周波数分割画像は、上記第1グレースケール低周波画像と第1グレースケール高周波画像を含むこと、を使用して、上記予測画像のグレースケール成分画像に対して周波数分割処理を実行して、複数の周波数間隔における上記予測画像のグレースケール周波数分割画像を取得するように構成され、
さらに、上記ターゲット画像のグレースケール成分画像に対してハイパスフィルタリングを実行して、第2グレースケール高周波画像を取得し、上記ターゲット画像のグレースケール成分画像と上記第2グレースケール高周波画像との差を計算して第2グレースケール低周波画像として使用することであって、2つの周波数間隔における上記ターゲット画像のグレースケール周波数分割画像は、上記第2グレースケール低周波画像と第2グレースケール高周波画像を含むこと、を使用して、上記ターゲット画像のグレースケール成分画像に対して周波数分割処理を実行して、複数の周波数間隔における上記ターゲット画像のグレースケール周波数分割画像を取得するように構成されることを特徴とする、
上記項目のいずれか一項に記載の画像強調モデルのトレーニング装置。
(項目13)
上記画像強調モデルのトレーニング装置は、さらに、
各トレーニングペアにおけるターゲット画像のグレースケール成分画像に対してエッジ検出を実行してエッジ画像を取得するように構成される、エッジ検出モジュールと、
上記エッジ画像に従ってエッジ確率マップを決定するように構成される、エッジ確率計算モジュールと、を含み、
上記損失関数において、特性周波数が最も高い周波数間隔に対応するグレースケール損失成分は、当該周波数間隔における上記予測画像のグレースケール成分画像と当該周波数間隔における対応するターゲット画像のグレースケール成分画像との差と、上記エッジ確率マップとのドット積行列を含むことを特徴とする、
上記項目のいずれか一項に記載の画像強調モデルのトレーニング装置。
(項目14)
上記画像強調モデルのトレーニング装置は、
上記エッジ確率計算モジュールは、上記エッジ画像に対してガイド付きフィルタリングを実行して、エッジ確率マップを取得することであって、上記ガイド付きフィルタリングのガイドマップは上記ターゲット画像または上記ターゲット画像のグレースケール成分画像であること、を使用して、上記エッジ画像に従ってエッジ確率マップを決定するように構成されることを特徴とする、
上記項目のいずれか一項に記載の画像強調モデルのトレーニング装置。
(項目15)
上記画像強調モデルのトレーニング装置は、
上記損失関数は、複数のグレースケール損失成分の和を含み、
または、上記損失関数は、複数のグレースケール損失成分の和と、色度損失成分の和とを含み、
または、上記損失関数は、複数のグレースケール損失成分の和と、色飽和損失成分の和とを含み、
または、上記損失関数は、複数のグレースケール損失成分の和と、色度損失成分及び色飽和損失成分の和とを含み、
上記色度損失成分は、上記画像強調モデルによって出力された予測画像の色度成分画像と、対応するターゲット画像の色度成分画像との差であり、上記色飽和損失成分は、上記画像強調モデルによって出力された予測画像の色飽和損失成分画像と、対応するターゲット画像の色飽和損失成分画像との差であることを特徴とする、
上記項目のいずれか一項に記載の画像強調モデルのトレーニング装置。
(項目16)
上記画像強調モデルのトレーニング装置は、
同じサンプル画像グループにおけるサンプル画像の撮影シーンは同じであり、異なるサンプル画像グループにおけるサンプル画像の撮影シーンは異なり、
第2決定モジュールは、さらに、
サンプル画像グループの各サンプル画像に従って、同じ位置のピクセルの平均値を計算して、ターゲット画像を取得すること、
サンプル画像グループの各サンプル画像に従って、同じ位置のピクセル加重平均値を計算して、ターゲット画像を取得すること、
サンプル画像グループから、鮮明度が最も高いサンプル画像、第1フレームのサンプル画像または、最後の1フレームのサンプル画像を参照画像として選択し、サンプル画像グループの各サンプル画像に従って特徴点を計算し、上記参照画像に従って上記サンプル画像グループの他のサンプル画像に対して特徴点の位置合わせ操作を実行し、位置合わせ操作の後のサンプル画像に対してマルチフレーム画像融合を実行して、ターゲット画像を取得すること、のいずれか1つを使用して、各サンプル画像グループに関連付けられるターゲット画像を決定するように構成され、
上記第2決定モジュールは、さらに、
上記サンプル画像グループを、トレーニング入力画像グループとして使用すること、
上記サンプル画像グループから、サンプル画像の一部を選択して、トレーニング入力画像グループを形成すること、のいずれか1つを使用して、各サンプル画像グループに関連付けられるトレーニング入力画像グループを決定するように構成されることを特徴とする、
上記項目のいずれか一項に記載の画像強調モデルのトレーニング装置。
(項目17)
画像強調モデルのトレーニング装置であって、
プロセッサと、
プロセッサ実行可能命令を記憶するように構成されるメモリと、を備え、
上記プロセッサは、上記メモリの実行可能命令を実行して、上記項目のいずれか一項に記載の方法のステップを実現するように構成されることを特徴とする、上記トレーニング装置。
(項目18)
実行可能命令が記憶される、非一時的なコンピュータ可読記憶媒体であって、上記実行可能命令が、プロセッサによって実行されるとき、上記項目のいずれか一項に記載の方法のステップを実現することを特徴とする、上記非一時的なコンピュータ可読記憶媒体。
(摘要)
本開示は、画像強調モデルのトレーニング方法、装置及び記憶媒体に関し、当該方法は、各トレーニング入力画像グループを画像強調モデルに入力して、画像強調モデルによって出力される予測画像を取得することと、各トレーニングペアにそれぞれ対応する損失関数を使用して、収束するまで画像強調モデルをトレーニングすることとを含み、損失関数は、複数の周波数間隔に1対1で対応する複数のグレースケール損失成分を含み、各グレースケール損失成分は、各周波数間隔内の予測画像のグレースケール周波数分割画像と、対応するターゲット画像のグレースケール周波数分割画像との差に基づいて決定され、異なるグレースケール損失成分は、異なる周波数間隔に対応する。本開示において、損失関数に、対応するトレーニングペアの予測画像とターゲット画像の詳細なコンテンツ情報とセマンティック情報を具現させ、画像強調モデルのトレーニングプロセスでの不適切な問題による過度の平滑化の問題を効果的に緩和する。
U=-0.1678*R-0.3313*G+0.5*B、
Y=0.5*R-0.4187*G-0.0813*B。
撮影機器で撮影した複数のサンプル画像グループを決定するように構成される、第1決定モジュール301と、
各サンプル画像グループに関連付けられるターゲット画像、及びトレーニング入力画像グループを決定するように構成される、第2決定モジュール302と、
複数のトレーニングペアを構築するように構成される構築モジュール303であって、各トレーニングペアに、1つのトレーニング入力画像グループと対応するターゲット画像を含む、構築モジュール303と、
各トレーニング入力画像グループを前記画像強調モデルに入力して、前記画像強調モデルによって出力された予測画像を取得するように構成される、入力モジュール304と、
前記予測画像のグレースケール成分画像に対して周波数分割処理を実行して、複数の周波数間隔における前記予測画像のグレースケール周波数分割画像を取得し、対応するターゲット画像のグレースケール成分画像に対して周波数分割処理を実行して、前記複数の周波数間隔における前記ターゲット画像のグレースケール周波数分割画像を取得するように構成される、周波数分割モジュール305と、
各トレーニングペアにそれぞれ対応する損失関数を使用して、収束するまで前記画像強調モデルをトレーニングするように構成されるトレーニングモジュール306であって、前記損失関数には、複数の周波数間隔に1対1で対応する複数のグレースケール損失成分が含まれ、各グレースケール損失成分は、各周波数間隔内の前記予測画像のグレースケール周波数分割画像と、対応するターゲット画像のグレースケール周波数分割画像との差に基づいて決定され、異なるグレースケール損失成分は異なる周波数間隔に対応するトレーニングモジュール306と、を含む。
前記周波数分割モジュール305は、さらに、前記予測画像のグレースケール成分画像に対してローパスフィルタリングを実行して、第1グレースケール低周波画像を取得し、前記予測画像のグレースケール成分画像と前記第1グレースケール低周波画像との差を計算して第1グレースケール高周波画像として使用することであって、2つの周波数間隔における前記予測画像のグレースケール周波数分割画像は、前記第1グレースケール低周波画像と第1グレースケール高周波画像を含む、ことを使用して、前記予測画像のグレースケール成分画像に対して周波数分割処理を実行して、複数の周波数間隔における前記予測画像のグレースケール周波数分割画像を取得するように構成される。
前記周波数分割モジュール305は、さらに、前記予測画像のグレースケール成分画像に対してハイパスフィルタリングを実行して、第1グレースケール高周波画像を取得し、前記予測画像のグレースケール成分画像と前記第1グレースケール高周波画像との差を計算して第1グレースケール低周波画像として使用することであって、2つの周波数間隔における前記予測画像のグレースケール周波数分割画像は、前記第1グレースケール低周波画像と第1グレースケール高周波画像を含むこと、を使用して、前記予測画像のグレースケール成分画像に対して周波数分割処理を実行して、複数の周波数間隔における前記予測画像のグレースケール周波数分割画像を取得するように構成される。
各トレーニングペアにおけるターゲット画像のグレースケール成分画像に対してエッジ検出を実行してエッジ画像を取得するように構成される、エッジ検出モジュールと、
前記エッジ画像に従ってエッジ確率マップを決定するように構成される、エッジ確率計算モジュールとを含み、
前記損失関数において、特性周波数が最も高い周波数間隔に対応するグレースケール損失成分は、当該周波数間隔における前記予測画像のグレースケール成分画像と当該周波数間隔における対応するターゲット画像のグレースケール成分画像との差と、前記エッジ確率マップとのドット積行列を含む。
または、前記損失関数は、複数のグレースケール損失成分の和と、色度損失成分の和とを含み、
または、前記損失関数は、複数のグレースケール損失成分の和と、色飽和損失成分の和とを含み、
または、前記損失関数は、複数のグレースケール損失成分の和と、色度損失成分及び色飽和損失成分の和とを含み、
前記色度損失成分は、前記画像強調モデルによって出力された予測画像の色度成分画像と、対応するターゲット画像の色度成分画像との差であり、前記色飽和損失成分は、前記画像強調モデルによって出力された予測画像の色飽和損失成分画像と、対応するターゲット画像の色飽和損失成分画像との差である。
第2決定モジュール302は、さらに、
サンプル画像グループの各サンプル画像に従って、同じ位置のピクセルの平均値を計算して、ターゲット画像を取得すること、
サンプル画像グループの各サンプル画像に従って、同じ位置のピクセル加重平均値を計算して、ターゲット画像を取得すること、
サンプル画像グループから、鮮明度が最も高いサンプル画像、第1フレームのサンプル画像または、最後の1フレームのサンプル画像を参照画像として選択し、サンプル画像グループの各サンプル画像に従って特徴点を計算し、前記参照画像に従って前記サンプル画像グループの他のサンプル画像に対して特徴点の位置合わせ操作を実行し、位置合わせ操作の後のサンプル画像に対してマルチフレーム画像融合を実行して、ターゲット画像を取得すること、のうちのいずれか1つを使用して、各サンプル画像グループに関連付けられるターゲット画像を決定するように構成され、
前記第2決定モジュールは、さらに、
前記サンプル画像グループを、トレーニング入力画像グループとして使用すること、
前記サンプル画像グループから、サンプル画像の一部を選択して、トレーニング入力画像グループを形成すること、のうちのいずれか1つを使用して、各サンプル画像グループに関連付けられるトレーニング入力画像グループを決定するように構成される。
プロセッサと、
プロセッサ実行可能命令を記憶するように構成されるメモリとを備え、
ここで、前記プロセッサは、前記メモリ内の実行可能な命令を実行して、上記方法のステップを実現するように構成される。
Claims (18)
- 画像強調モデルのトレーニング方法であって、
撮影機器で撮影した複数のサンプル画像グループを決定することと、
各サンプル画像グループに関連付けられているターゲット画像と、トレーニング入力画像グループとを決定することと、
複数のトレーニングペアを構築することであって、各トレーニングペアは、1つのトレーニング入力画像グループと、対応するターゲット画像とを含む、ことと、
各トレーニング入力画像グループを前記画像強調モデルに入力して、前記画像強調モデルによって出力された予測画像を取得することと、
前記予測画像のグレースケール成分画像に対して周波数分割処理を実行して、複数の周波数間隔における前記予測画像のグレースケール周波数分割画像を取得し、対応するターゲット画像のグレースケール成分画像に対して周波数分割処理を実行して、前記複数の周波数間隔における前記ターゲット画像のグレースケール周波数分割画像を取得することと、
各トレーニングペアにそれぞれ対応する損失関数を使用して、収束するまで前記画像強調モデルをトレーニングすることと
を含み、
前記損失関数には、前記複数の周波数間隔に1対1で対応する複数のグレースケール損失成分が含まれ、各グレースケール損失成分は、各周波数間隔内の前記予測画像のグレースケール周波数分割画像と、対応するターゲット画像のグレースケール周波数分割画像との差に基づいて決定され、異なるグレースケール損失成分は、異なる周波数間隔に対応する、画像強調モデルのトレーニング方法。 - 特性周波数が高い周波数間隔であるほど、対応するグレースケール損失成分の重み係数が大きくなる、請求項1に記載の画像強調モデルのトレーニング方法。
- 前記損失関数は、2つのグレースケール損失成分を含み、前記2つのグレースケール損失成分は、低周波損失成分と高周波損失成分を含み、
前記予測画像のグレースケール成分画像に対して周波数分割処理を実行して、複数の周波数間隔における前記予測画像のグレースケール周波数分割画像を取得することは、前記予測画像のグレースケール成分画像に対してローパスフィルタリングを実行して、第1グレースケール低周波画像を取得し、前記予測画像のグレースケール成分画像と前記第1グレースケール低周波画像との差を計算して第1グレースケール高周波画像として使用することを含み、2つの周波数間隔における前記予測画像のグレースケール周波数分割画像は、前記第1グレースケール低周波画像と第1グレースケール高周波画像を含み、
前記ターゲット画像のグレースケール成分画像に対して周波数分割処理を実行して、複数の周波数間隔における前記ターゲット画像のグレースケール周波数分割画像を取得することは、前記ターゲット画像のグレースケール成分画像に対してローパスフィルタリングを実行して、第2グレースケール低周波画像を取得し、前記ターゲット画像のグレースケール成分画像と前記第2グレースケール低周波画像との差を計算して第2グレースケール高周波画像として使用することを含み、2つの周波数間隔における前記ターゲット画像のグレースケール周波数分割画像は、前記第2グレースケール低周波画像と第2グレースケール高周波画像を含む、請求項1に記載の画像強調モデルのトレーニング方法。 - 前記損失関数は、2つのグレースケール損失成分を含み、前記2つのグレースケール損失成分は、低周波損失成分と高周波損失成分を含み、
前記予測画像のグレースケール成分画像に対して周波数分割処理を実行して、複数の周波数間隔における前記予測画像のグレースケール周波数分割画像を取得することは、前記予測画像のグレースケール成分画像に対してハイパスフィルタリングを実行して、第1グレースケール高周波画像を取得し、前記予測画像のグレースケール成分画像と前記第1グレースケール高周波画像との差を計算して第1グレースケール低周波画像として使用することを含み、2つの周波数間隔における前記予測画像のグレースケール周波数分割画像は、前記第1グレースケール低周波画像と第1グレースケール高周波画像とを含み、
前記ターゲット画像のグレースケール成分画像に対して周波数分割処理を実行して、複数の周波数間隔における前記ターゲット画像のグレースケール周波数分割画像を取得することは、前記ターゲット画像のグレースケール成分画像に対してハイパスフィルタリングを実行して、第2グレースケール高周波画像を取得し、前記ターゲット画像のグレースケール成分画像と前記第2グレースケール高周波画像との差を計算して第2グレースケール低周波画像として使用することを含み、2つの周波数間隔における前記ターゲット画像のグレースケール周波数分割画像は、前記第2グレースケール低周波画像と第2グレースケール高周波画像を含む、請求項1に記載の画像強調モデルのトレーニング方法。 - 前記画像強調モデルのトレーニング方法は、
各トレーニングペアにおけるターゲット画像のグレースケール成分画像に対してエッジ検出を実行してエッジ画像を取得し、前記エッジ画像に従ってエッジ確率マップを決定することをさらに含み、
前記損失関数において、特性周波数が最も高い周波数間隔に対応するグレースケール損失成分は、当該周波数間隔における前記予測画像のグレースケール成分画像と当該周波数間隔における対応するターゲット画像のグレースケール成分画像との差と、前記エッジ確率マップとのドット積行列とを含む、請求項1に記載の画像強調モデルのトレーニング方法。 - 前記エッジ画像に従ってエッジ確率マップを決定することは、
前記エッジ画像に対してガイド付きフィルタリングを実行して、エッジ確率マップを取得することを含み、前記ガイド付きフィルタリングのガイドマップは、前記ターゲット画像または前記ターゲット画像のグレースケール成分画像である、請求項5に記載の画像強調モデルのトレーニング方法。 - 前記損失関数は、複数のグレースケール損失成分の和を含み、または、
前記損失関数は、複数のグレースケール損失成分の和と、色度損失成分の和とを含み、または、
前記損失関数は、複数のグレースケール損失成分の和と、色飽和損失成分の和とを含み、または、
前記損失関数は、複数のグレースケール損失成分の和と、色度損失成分及び色飽和損失成分の和とを含み、
前記色度損失成分は、前記画像強調モデルによって出力された予測画像の色度成分画像と、対応するターゲット画像の色度成分画像との差であり、
前記色飽和損失成分は、前記画像強調モデルによって出力された予測画像の色飽和成分画像と、対応するターゲット画像の色飽和成分画像との差である、請求項1に記載の画像強調モデルのトレーニング方法。 - 同じサンプル画像グループにおけるサンプル画像の撮影シーンは同じであり、異なるサンプル画像グループにおけるサンプル画像の撮影シシーンは異なり、
前記各サンプル画像グループに関連付けられるターゲット画像を決定することは、
サンプル画像グループの各サンプル画像に従って、同じ位置のピクセルの平均値を計算して、ターゲット画像を取得すること、
サンプル画像グループの各サンプル画像に従って、同じ位置のピクセル加重平均値を計算して、ターゲット画像を取得すること、
サンプル画像グループから、鮮明度が最も高いサンプル画像、第1フレームのサンプル画像または、最後の1フレームのサンプル画像を参照画像として選択し、サンプル画像グループの各サンプル画像に従って特徴点を計算し、前記参照画像に従って前記サンプル画像グループの他のサンプル画像に対して特徴点の位置合わせ操作を実行し、位置合わせ操作の後のサンプル画像に対してマルチフレーム画像融合を実行して、ターゲット画像を取得すること
のうちのいずれか1つを含み、
前記各サンプル画像グループに関連付けられるトレーニング入力画像グループを決定することは、
前記サンプル画像グループを、トレーニング入力画像グループとして使用すること、
前記サンプル画像グループから、サンプル画像の一部を選択して、トレーニング入力画像グループを形成すること
のうちのいずれか1つを含む、請求項1に記載の画像強調モデルのトレーニング方法。 - 画像強調モデルのトレーニング装置であって、
撮影機器で撮影した複数のサンプル画像グループを決定するように構成されている第1決定モジュールと、
各サンプル画像グループに関連付けられているターゲット画像と、トレーニング入力画像グループとを決定するように構成されている第2決定モジュールと、
複数のトレーニングペアを構築するように構成されている構築モジュールであって、各トレーニングペアは、1つのトレーニング入力画像グループと、対応するターゲット画像とを含む、構築モジュールと、
各トレーニング入力画像グループを前記画像強調モデルに入力して、前記画像強調モデルによって出力された予測画像を取得するように構成されている入力モジュールと、
前記予測画像のグレースケール成分画像に対して周波数分割処理を実行して、複数の周波数間隔における前記予測画像のグレースケール周波数分割画像を取得し、対応するターゲット画像のグレースケール成分画像に対して周波数分割処理を実行して、前記複数の周波数間隔における前記ターゲット画像のグレースケール周波数分割画像を取得するように構成されている周波数分割モジュールと、
各トレーニングペアにそれぞれ対応する損失関数を使用して、収束するまで前記画像強調モデルをトレーニングするように構成されているトレーニングモジュールと
を含み、
前記損失関数には、前記複数の周波数間隔に1対1で対応する複数のグレースケール損失成分が含まれ、各グレースケール損失成分は、各周波数間隔内の前記予測画像のグレースケール周波数分割画像と、対応するターゲット画像のグレースケール周波数分割画像との差に基づいて決定され、異なるグレースケール損失成分は、異なる周波数間隔に対応する、画像強調モデルのトレーニング装置。 - 特性周波数が高い周波数間隔であるほど、対応するグレースケール損失成分の重み係数が大きくなる、請求項9に記載の画像強調モデルのトレーニング装置。
- 前記損失関数は、2つのグレースケール損失成分を含み、前記2つのグレースケール損失成分は、低周波損失成分と高周波損失成分を含み、
前記周波数分割モジュールは、前記予測画像のグレースケール成分画像に対してローパスフィルタリングを実行して、第1グレースケール低周波画像を取得し、前記予測画像のグレースケール成分画像と前記第1グレースケール低周波画像との差を計算して第1グレースケール高周波画像として使用することであって、2つの周波数間隔における前記予測画像のグレースケール周波数分割画像は、前記第1グレースケール低周波画像と第1グレースケール高周波画像とを含むことを使用して、前記予測画像のグレースケール成分画像に対して周波数分割処理を実行して、複数の周波数間隔における前記予測画像のグレースケール周波数分割画像を取得するようにさらに構成されており、
さらに、前記ターゲット画像のグレースケール成分画像に対してローパスフィルタリングを実行して、第2グレースケール低周波画像を取得し、前記ターゲット画像のグレースケール成分画像と前記第2グレースケール低周波画像との差を計算して第2グレースケール高周波画像として使用することであって、2つの周波数間隔における前記ターゲット画像のグレースケール周波数分割画像は、前記第2グレースケール低周波画像と第2グレースケール高周波画像とを含むことを使用して、前記ターゲット画像のグレースケール成分画像に対して周波数分割処理を実行して、複数の周波数間隔における前記ターゲット画像のグレースケール周波数分割画像を取得するように構成されている、請求項9に記載の画像強調モデルのトレーニング装置。 - 前記損失関数は、2つのグレースケール損失成分を含み、前記2つのグレースケール損失成分は、低周波損失成分と高周波損失成分を含み、
前記周波数分割モジュールは、前記予測画像のグレースケール成分画像に対してハイパスフィルタリングを実行して、第1グレースケール高周波画像を取得し、前記予測画像のグレースケール成分画像と前記第1グレースケール高周波画像との差を計算して第1グレースケール低周波画像として使用することであって、2つの周波数間隔における前記予測画像のグレースケール周波数分割画像は、前記第1グレースケール低周波画像と第1グレースケール高周波画像とを含むことを使用して、前記予測画像のグレースケール成分画像に対して周波数分割処理を実行して、複数の周波数間隔における前記予測画像のグレースケール周波数分割画像を取得するようにさらに構成されており、
さらに、前記ターゲット画像のグレースケール成分画像に対してハイパスフィルタリングを実行して、第2グレースケール高周波画像を取得し、前記ターゲット画像のグレースケール成分画像と前記第2グレースケール高周波画像との差を計算して第2グレースケール低周波画像として使用することであって、2つの周波数間隔における前記ターゲット画像のグレースケール周波数分割画像は、前記第2グレースケール低周波画像と第2グレースケール高周波画像とを含むことを使用して、前記ターゲット画像のグレースケール成分画像に対して周波数分割処理を実行して、複数の周波数間隔における前記ターゲット画像のグレースケール周波数分割画像を取得するように構成されている、請求項9に記載の画像強調モデルのトレーニング装置。 - 前記画像強調モデルのトレーニング装置は、
各トレーニングペアにおけるターゲット画像のグレースケール成分画像に対してエッジ検出を実行してエッジ画像を取得するように構成されているエッジ検出モジュールと、
前記エッジ画像に従ってエッジ確率マップを決定するように構成されているエッジ確率計算モジュールと
をさらに含み、
前記損失関数において、特性周波数が最も高い周波数間隔に対応するグレースケール損失成分は、当該周波数間隔における前記予測画像のグレースケール成分画像と当該周波数間隔における対応するターゲット画像のグレースケール成分画像との差と、前記エッジ確率マップとのドット積行列とを含む、請求項9に記載の画像強調モデルのトレーニング装置。 - 前記エッジ確率計算モジュールは、前記エッジ画像に対してガイド付きフィルタリングを実行して、エッジ確率マップを取得することであって、前記ガイド付きフィルタリングのガイドマップは前記ターゲット画像または前記ターゲット画像のグレースケール成分画像であることを使用して、前記エッジ画像に従ってエッジ確率マップを決定するように構成されている、請求項13に記載の画像強調モデルのトレーニング装置。
- 前記損失関数は、複数のグレースケール損失成分の和を含み、または、
前記損失関数は、複数のグレースケール損失成分の和と、色度損失成分の和とを含み、または、
前記損失関数は、複数のグレースケール損失成分の和と、色飽和損失成分の和とを含み、または、
前記損失関数は、複数のグレースケール損失成分の和と、色度損失成分及び色飽和損失成分の和とを含み、
前記色度損失成分は、前記画像強調モデルによって出力された予測画像の色度成分画像と、対応するターゲット画像の色度成分画像との差であり、
前記色飽和損失成分は、前記画像強調モデルによって出力された予測画像の色飽和損失成分画像と、対応するターゲット画像の色飽和損失成分画像との差である、請求項9に記載の画像強調モデルのトレーニング装置。 - 同じサンプル画像グループにおけるサンプル画像の撮影シーンは同じであり、異なるサンプル画像グループにおけるサンプル画像の撮影シーンは異なり、
前記第2決定モジュールは、
サンプル画像グループの各サンプル画像に従って、同じ位置のピクセルの平均値を計算して、ターゲット画像を取得すること、
サンプル画像グループの各サンプル画像に従って、同じ位置のピクセル加重平均値を計算して、ターゲット画像を取得すること、
サンプル画像グループから、鮮明度が最も高いサンプル画像、第1フレームのサンプル画像または、最後の1フレームのサンプル画像を参照画像として選択し、サンプル画像グループの各サンプル画像に従って特徴点を計算し、前記参照画像に従って前記サンプル画像グループの他のサンプル画像に対して特徴点の位置合わせ操作を実行し、位置合わせ操作の後のサンプル画像に対してマルチフレーム画像融合を実行して、ターゲット画像を取得すること
のいずれか1つを使用して、各サンプル画像グループに関連付けられるターゲット画像を決定するようにさらに構成されており、
前記第2決定モジュールは、
前記サンプル画像グループを、トレーニング入力画像グループとして使用すること、
前記サンプル画像グループから、サンプル画像の一部を選択して、トレーニング入力画像グループを形成すること
のいずれか1つを使用して、各サンプル画像グループに関連付けられるトレーニング入力画像グループを決定するようにさらに構成されている、請求項9に記載の画像強調モデルのトレーニング装置。 - 画像強調モデルのトレーニング装置であって、
プロセッサと、
プロセッサ実行可能な命令を記憶するように構成されているメモリと
を備え、
前記プロセッサは、前記メモリ内の前記命令を実行することにより、請求項1~8のいずれか一項に記載の画像強調モデルのトレーニング方法を実行するように構成されている、画像強調モデルのトレーニング装置。 - 実行可能な命令が記憶されている非一時的なコンピュータ読み取り可能な記憶媒体であって、前記命令は、プロセッサによって実行されると、請求項1~8のいずれか一項に記載の画像強調モデルのトレーニング方法を実行することを前記プロセッサに行わせる、非一時的なコンピュータ読み取り可能な記憶媒体。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010534243.9A CN111709890B (zh) | 2020-06-12 | 2020-06-12 | 一种图像增强模型的训练方法、装置及存储介质 |
CN202010534243.9 | 2020-06-12 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2021197149A JP2021197149A (ja) | 2021-12-27 |
JP7100729B2 true JP7100729B2 (ja) | 2022-07-13 |
Family
ID=72540029
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2021018016A Active JP7100729B2 (ja) | 2020-06-12 | 2021-02-08 | 画像強調モデルのトレーニング方法、装置及び記憶媒体 |
Country Status (5)
Country | Link |
---|---|
US (1) | US11475243B2 (ja) |
EP (1) | EP3923234B1 (ja) |
JP (1) | JP7100729B2 (ja) |
KR (1) | KR102612632B1 (ja) |
CN (1) | CN111709890B (ja) |
Families Citing this family (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111709890B (zh) * | 2020-06-12 | 2023-11-24 | 北京小米松果电子有限公司 | 一种图像增强模型的训练方法、装置及存储介质 |
CN112561818B (zh) * | 2020-12-14 | 2024-05-28 | 英特灵达信息技术(深圳)有限公司 | 一种图像增强方法、装置、电子设备及存储介质 |
WO2022194344A1 (en) * | 2021-03-16 | 2022-09-22 | Huawei Technologies Co., Ltd. | Learnable augmentation space for dense generative adversarial networks |
EP4064217A1 (en) * | 2021-03-27 | 2022-09-28 | Tata Consultancy Services Limited | Extracting region of interest from scanned images and determining an associated image type thereof |
CN115578383B (zh) * | 2022-11-23 | 2023-04-07 | 惠州威尔高电子有限公司 | 基于全景图像的厚铜pcb板检测方法 |
CN115861380B (zh) * | 2023-02-16 | 2023-06-06 | 深圳市瓴鹰智能科技有限公司 | 雾天低照度场景下端到端无人机视觉目标跟踪方法及装置 |
CN116386118B (zh) * | 2023-04-17 | 2024-04-05 | 广州番禺职业技术学院 | 一种基于人像识别的粤剧匹配化妆系统及其方法 |
CN116152123B (zh) * | 2023-04-21 | 2023-09-19 | 荣耀终端有限公司 | 图像处理方法、电子设备及可读存储介质 |
CN116993720B (zh) * | 2023-09-25 | 2024-01-09 | 深圳市希格莱特科技有限公司 | 用于电子烟pcb板的生产缺陷识别方法 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2018195069A (ja) | 2017-05-17 | 2018-12-06 | キヤノン株式会社 | 画像処理装置および画像処理方法 |
WO2019003474A1 (ja) | 2017-06-30 | 2019-01-03 | 株式会社島津製作所 | 放射線治療用追跡装置、位置検出装置および動体追跡方法 |
WO2019134879A1 (en) | 2018-01-03 | 2019-07-11 | Koninklijke Philips N.V. | Full dose pet image estimation from low-dose pet imaging using deep learning |
CN110782034A (zh) | 2019-10-31 | 2020-02-11 | 北京小米智能科技有限公司 | 神经网络的训练方法、装置及存储介质 |
CN110827219A (zh) | 2019-10-31 | 2020-02-21 | 北京小米智能科技有限公司 | 图像处理模型的训练方法、装置及介质 |
Family Cites Families (20)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8866936B2 (en) * | 2008-07-24 | 2014-10-21 | Florida State University of Research Foundation | Systems and methods for training an active random field for real-time image denoising |
US9667842B2 (en) | 2014-08-30 | 2017-05-30 | Apple Inc. | Multi-band YCbCr locally-adaptive noise modeling and noise reduction based on scene metadata |
JP2019067078A (ja) * | 2017-09-29 | 2019-04-25 | 国立大学法人 筑波大学 | 画像処理方法、及び画像処理プログラム |
KR20190060606A (ko) * | 2017-11-24 | 2019-06-03 | 삼성전자주식회사 | 의료 영상 진단 장치 및 방법 |
CN108492271B (zh) * | 2018-03-26 | 2021-08-24 | 中国电子科技集团公司第三十八研究所 | 一种融合多尺度信息的自动图像增强系统及方法 |
CN108446666A (zh) * | 2018-04-04 | 2018-08-24 | 平安科技(深圳)有限公司 | 双通道神经网络模型训练及人脸比对方法、终端及介质 |
AU2019270095B2 (en) * | 2018-05-17 | 2024-06-27 | Niantic, Inc. | Self-supervised training of a depth estimation system |
CN109214990A (zh) | 2018-07-02 | 2019-01-15 | 广东工业大学 | 一种基于Inception模型的深度卷积神经网络图像去噪方法 |
US11182877B2 (en) | 2018-08-07 | 2021-11-23 | BlinkAI Technologies, Inc. | Techniques for controlled generation of training data for machine learning enabled image enhancement |
EP3837636B1 (en) | 2018-08-15 | 2024-03-27 | Hyperfine, Inc. | Deep learning techniques for suppressing artefacts in magnetic resonance images |
CN109146814B (zh) * | 2018-08-20 | 2021-02-23 | Oppo广东移动通信有限公司 | 图像处理方法、装置、存储介质及电子设备 |
WO2020150264A1 (en) * | 2019-01-15 | 2020-07-23 | Portland State University | Feature pyramid warping for video frame interpolation |
CN110210524B (zh) | 2019-05-13 | 2023-05-02 | 东软医疗系统股份有限公司 | 一种图像增强模型的训练方法、图像增强方法及装置 |
CN110188776A (zh) | 2019-05-30 | 2019-08-30 | 京东方科技集团股份有限公司 | 图像处理方法及装置、神经网络的训练方法、存储介质 |
CN110798690B (zh) * | 2019-08-23 | 2021-12-21 | 腾讯科技(深圳)有限公司 | 视频解码方法、环路滤波模型的训练方法、装置和设备 |
CN110827253A (zh) * | 2019-10-30 | 2020-02-21 | 北京达佳互联信息技术有限公司 | 一种目标检测模型的训练方法、装置及电子设备 |
CN111160448B (zh) * | 2019-12-26 | 2023-09-26 | 北京达佳互联信息技术有限公司 | 一种图像分类模型的训练方法及装置 |
CN111476737B (zh) * | 2020-04-15 | 2022-02-11 | 腾讯科技(深圳)有限公司 | 一种图像处理方法、智能设备及计算机可读存储介质 |
CN111709890B (zh) * | 2020-06-12 | 2023-11-24 | 北京小米松果电子有限公司 | 一种图像增强模型的训练方法、装置及存储介质 |
US11908233B2 (en) * | 2020-11-02 | 2024-02-20 | Pinscreen, Inc. | Normalization of facial images using deep neural networks |
-
2020
- 2020-06-12 CN CN202010534243.9A patent/CN111709890B/zh active Active
-
2021
- 2021-01-13 US US17/147,714 patent/US11475243B2/en active Active
- 2021-01-19 KR KR1020210007168A patent/KR102612632B1/ko active IP Right Grant
- 2021-02-05 EP EP21155377.1A patent/EP3923234B1/en active Active
- 2021-02-08 JP JP2021018016A patent/JP7100729B2/ja active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2018195069A (ja) | 2017-05-17 | 2018-12-06 | キヤノン株式会社 | 画像処理装置および画像処理方法 |
WO2019003474A1 (ja) | 2017-06-30 | 2019-01-03 | 株式会社島津製作所 | 放射線治療用追跡装置、位置検出装置および動体追跡方法 |
WO2019134879A1 (en) | 2018-01-03 | 2019-07-11 | Koninklijke Philips N.V. | Full dose pet image estimation from low-dose pet imaging using deep learning |
CN110782034A (zh) | 2019-10-31 | 2020-02-11 | 北京小米智能科技有限公司 | 神经网络的训练方法、装置及存储介质 |
CN110827219A (zh) | 2019-10-31 | 2020-02-21 | 北京小米智能科技有限公司 | 图像处理模型的训练方法、装置及介质 |
Also Published As
Publication number | Publication date |
---|---|
EP3923234B1 (en) | 2023-02-01 |
JP2021197149A (ja) | 2021-12-27 |
CN111709890B (zh) | 2023-11-24 |
US20210390340A1 (en) | 2021-12-16 |
KR102612632B1 (ko) | 2023-12-12 |
CN111709890A (zh) | 2020-09-25 |
US11475243B2 (en) | 2022-10-18 |
KR20210154710A (ko) | 2021-12-21 |
EP3923234A1 (en) | 2021-12-15 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP7100729B2 (ja) | 画像強調モデルのトレーニング方法、装置及び記憶媒体 | |
EP3770847B1 (en) | Method and device for processing image | |
WO2021196401A1 (zh) | 图像重建方法及装置、电子设备和存储介质 | |
US11580327B2 (en) | Image denoising model training method, imaging denoising method, devices and storage medium | |
TWI749593B (zh) | 去除圖像中的反光的方法、電子設備和電腦可讀儲存媒體 | |
CN109859144B (zh) | 图像处理方法及装置、电子设备和存储介质 | |
RU2669511C2 (ru) | Способ и устройство для идентификации типа изображения | |
CN111340733A (zh) | 图像处理方法及装置、电子设备和存储介质 | |
CN111583142A (zh) | 图像降噪方法及装置、电子设备和存储介质 | |
CN110619610A (zh) | 图像处理方法及装置 | |
US11222235B2 (en) | Method and apparatus for training image processing model, and storage medium | |
US10204403B2 (en) | Method, device and medium for enhancing saturation | |
EP3945713A1 (en) | Image processing method and apparatus, and storage medium | |
CN112288657A (zh) | 图像处理方法、图像处理装置及存储介质 | |
US10068151B2 (en) | Method, device and computer-readable medium for enhancing readability | |
CN112714246A (zh) | 连拍照片获取方法、智能终端及存储介质 | |
CN111447360A (zh) | 应用程序控制方法及装置、存储介质、电子设备 | |
CN112200745A (zh) | 遥感影像的处理方法及装置、电子设备和存储介质 | |
WO2023231009A1 (zh) | 一种对焦方法、装置及存储介质 | |
CN117455782A (zh) | 图像增强方法、图像增强装置及存储介质 | |
CN111583145A (zh) | 图像降噪方法及装置、电子设备和存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20210208 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20220330 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20220607 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20220617 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20220701 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 7100729 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |