JP2021197149A - 画像強調モデルのトレーニング方法、装置及び記憶媒体 - Google Patents

画像強調モデルのトレーニング方法、装置及び記憶媒体 Download PDF

Info

Publication number
JP2021197149A
JP2021197149A JP2021018016A JP2021018016A JP2021197149A JP 2021197149 A JP2021197149 A JP 2021197149A JP 2021018016 A JP2021018016 A JP 2021018016A JP 2021018016 A JP2021018016 A JP 2021018016A JP 2021197149 A JP2021197149 A JP 2021197149A
Authority
JP
Japan
Prior art keywords
image
grayscale
frequency
component
loss
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2021018016A
Other languages
English (en)
Other versions
JP7100729B2 (ja
Inventor
リャン ジャン
Liang Zhang
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Xiaomi Pinecone Electronic Co Ltd
Original Assignee
Beijing Xiaomi Pinecone Electronic Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Xiaomi Pinecone Electronic Co Ltd filed Critical Beijing Xiaomi Pinecone Electronic Co Ltd
Publication of JP2021197149A publication Critical patent/JP2021197149A/ja
Application granted granted Critical
Publication of JP7100729B2 publication Critical patent/JP7100729B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T5/00Image enhancement or restoration
    • G06T5/70Denoising; Smoothing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T5/00Image enhancement or restoration
    • G06T5/10Image enhancement or restoration using non-spatial domain filtering
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T5/00Image enhancement or restoration
    • G06T5/50Image enhancement or restoration using two or more images, e.g. averaging or subtraction
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T5/00Image enhancement or restoration
    • G06T5/60Image enhancement or restoration using machine learning, e.g. neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/10Segmentation; Edge detection
    • G06T7/13Edge detection
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/10Segmentation; Edge detection
    • G06T7/174Segmentation; Edge detection involving the use of two or more images
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/90Determination of colour characteristics
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N7/00Computing arrangements based on specific mathematical models
    • G06N7/01Probabilistic graphical models, e.g. probabilistic networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10024Color image
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20076Probabilistic image processing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20081Training; Learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20084Artificial neural networks [ANN]
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02TCLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
    • Y02T10/00Road transport of goods or passengers
    • Y02T10/10Internal combustion engine [ICE] based vehicles
    • Y02T10/40Engine management systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Software Systems (AREA)
  • Mathematical Physics (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Computing Systems (AREA)
  • Molecular Biology (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Image Processing (AREA)
  • Image Analysis (AREA)

Abstract

【課題】画像強調モデルのトレーニング方法、装置及び記憶媒体を提供する。【解決手段】画像強調モデルのトレーニング方法は、各トレーニング入力画像グループを画像強調モデルに入力して、画像強調モデルによって出力される予測画像を取得することS14と、各トレーニングペアにそれぞれ対応する損失関数を使用して、収束するまで画像強調モデルをトレーニングすることS16とを含む。損失関数は、複数の周波数間隔に1対1で対応する複数のグレースケール損失成分を含む。各グレースケール損失成分は、各周波数間隔内の予測画像のグレースケール分周画像と、対応するターゲット画像のグレースケール分周画像との差に基づいて決定される。異なるグレースケール損失成分は、異なる周波数間隔に対応する。【選択図】図1

Description

本願は、2020年06月12日に中国特許局に提出された、出願番号がCN202010534243.9である中国特許出願に基づいて提出されるものであり、当該中国特許出願の優先権を主張し、当該中国特許出願の全ての内容が参照によって本願に組み込まれる。
本開示は、画像処理技術に関し、特に、画像強調モデルのトレーニング方法、装置及び記憶媒体に関する。
モバイル端末は、一般的にカメラ機能を備えている。モバイル端末のイメージセンサのサンプリングレートの不十分、および画像の収集、伝送、圧縮などの様々な側面からのノイズにより、モバイル端末でキャプチャされた画像には、ディテールの喪失、過度のカラーノイズの問題が発生する。暗い環境で撮影された画像やビデオにもこの問題があり、且つ、小口径カメラ付きスマートフォンで撮影された画像ではより深刻である。さらに、画像を収集するプロセスにおいて、サンプリングレートが低いと、エイリアシングが発生する。
画像効果に対するユーザのニーズが高まり続けるにつれて、画像の解像度をさらに向上させ、画像の詳細を充実させ、画像のノイズを低減する方法は、常に解決する必要のある技術的課題である。
従来の画像強調方法において、複数の画像の同じ位置にあるピクセルに対して加重平均を実行して処理後の画像を取得して、ノイズ除去効果を実現するか、または、サブピクセルの位置合わせと画像融合を実行して、高周波部分に位置する画像の詳細を維持する。適切なピクセルを効果的に選択して、加重融合およびサブピクセルの位置合わせを実行することは、画像強調の効果に影響を与える鍵である。
深層学習技術の急速な発展に伴い、人々は深層画像強調モデルを使用して画像強調を完成させ始めた。まず、トレーニングデータとして多数の自然画像を使用して、深層画像強調モデルが、低品質の画像から高品質の画像へのマッピングを学習するようにするが、ほとんどの深層画像強調モデルには過度の平滑化の問題があり、効果的にノイズ除去と同時に画像の詳細を強調することが困難であり、ここで深層画像強調モデルの損失関数は、当該効果に対する影響は非常に大きい。画像の復元は機能レベルの低いビジョンタスクであることを考慮すると、現在、ピクセルレベルの損失関数が通常使用されている。
本開示は、関連する技術に存在する問題を克服するために、画像強調モデルのトレーニング方法、装置及び記憶媒体を提供する。
本明細書の実施例の第1態様によれば、画像強調モデルのトレーニング方法を提供し、前記方法は、
撮影機器で撮影した複数のサンプル画像グループを決定することと、
各サンプル画像グループに関連付けられるターゲット画像、及びトレーニング入力画像グループを決定することと、
複数のトレーニングペアを構築することであって、各トレーニングペアは、1つのトレーニング入力画像グループと、対応するターゲット画像を含むことと、
各トレーニング入力画像グループを前記画像強調モデルに入力して、前記画像強調モデルによって出力された予測画像を取得することと、
前記予測画像のグレースケール成分画像に対して分周処理を実行して、複数の周波数間隔における前記予測画像のグレースケール分周画像を取得し、対応するターゲット画像のグレースケール成分画像に対して分周処理を実行して、前記複数の周波数間隔における前記ターゲット画像のグレースケール分周画像を取得することと、
各トレーニングペアにそれぞれ対応する損失関数を使用して、収束するまで前記画像強調モデルをトレーニングすることと、を含み、
前記損失関数には、前記複数の周波数間隔に1対1で対応する複数のグレースケール損失成分が含まれ、各グレースケール損失成分は、各周波数間隔内の前記予測画像のグレースケール分周画像と、対応するターゲット画像のグレースケール分周画像との差に基づいて決定され、異なるグレースケール損失成分は異なる周波数間隔に対応する。
一実施形態において、特性周波数が高い周波数間隔であるほど、対応するグレースケール損失成分の重み係数が大きくなる。
一実施形態において、前記損失関数は、2つのグレースケール損失成分を含み、前記2つのグレースケール損失成分は、低周波損失成分と高周波損失成分を含み、
前記予測画像のグレースケール成分画像に対して分周処理を実行して、複数の周波数間隔における前記予測画像のグレースケール分周画像を取得することは、前記予測画像のグレースケール成分画像に対してローパスフィルタリングを実行して、第1グレースケール低周波画像を取得し、前記予測画像のグレースケール成分画像と前記第1グレースケール低周波画像との差を計算して第1グレースケール高周波画像として使用することを含み、2つの周波数間隔における前記予測画像のグレースケール分周画像は、前記第1グレースケール低周波画像と第1グレースケール高周波画像を含み、
前記ターゲット画像のグレースケール成分画像に対して分周処理を実行して、複数の周波数間隔における前記ターゲット画像のグレースケール分周画像を取得することは、前記ターゲット画像のグレースケール成分画像に対してローパスフィルタリングを実行して、第2グレースケール低周波画像を取得し、前記ターゲット画像のグレースケール成分画像と前記第2グレースケール低周波画像との差を計算して第2グレースケール高周波画像として使用して使用することを含み、2つの周波数間隔における前記ターゲット画像のグレースケール分周画像は、前記第2グレースケール低周波画像と第2グレースケール高周波画像を含む。
一実施形態において、前記損失関数は、2つのグレースケール損失成分を含み、前記2つのグレースケール損失成分は、低周波損失成分と高周波損失成分を含み、
前記予測画像のグレースケール成分画像に対して分周処理を実行して、複数の周波数間隔における前記予測画像のグレースケール分周画像を取得することは、前記予測画像のグレースケール成分画像に対してハイパスフィルタリングを実行して、第1グレースケール高周波画像を取得し、前記予測画像のグレースケール成分画像と前記第1グレースケール高周波画像との差を計算して第1グレースケール低周波画像として使用することを含み、2つの周波数間隔における前記予測画像のグレースケール分周画像は、前記第1グレースケール低周波画像と第1グレースケール高周波画像を含み、
前記ターゲット画像のグレースケール成分画像に対して分周処理を実行して、複数の周波数間隔における前記ターゲット画像のグレースケール分周画像を取得することは、前記ターゲット画像のグレースケール成分画像に対してハイパスフィルタリングを実行して、第2グレースケール高周波画像を取得し、前記ターゲット画像のグレースケール成分画像と前記第2グレースケール高周波画像との差を計算して第2グレースケール低周波画像として使用することを含み、2つの周波数間隔における前記ターゲット画像のグレースケール分周画像は、前記第2グレースケール低周波画像と第2グレースケール高周波画像を含む。
一実施形態において、前記方法は、各トレーニングペアにおけるターゲット画像のグレースケール成分画像に対してエッジ検出を実行してエッジ画像を取得し、前記エッジ画像に従ってエッジ確率マップを決定することをさらに含み、
前記損失関数において、特性周波数が最も高い周波数間隔に対応するグレースケール損失成分は、当該周波数間隔における前記予測画像のグレースケール成分画像と当該周波数間隔における対応するターゲット画像のグレースケール成分画像との差と、前記エッジ確率マップとのドット積行列を含む。
一実施形態において、前記エッジ画像に従ってエッジ確率マップを決定することは、
前記エッジ画像に対してガイド付きフィルタリングを実行して、エッジ確率マップを取得することを含み、前記ガイド付きフィルタリングのガイドマップは、前記ターゲット画像または前記ターゲット画像のグレースケール成分画像である。
一実施形態において、前記損失関数は、複数のグレースケール損失成分の和を含み、
または、前記損失関数は、複数のグレースケール損失成分の和と、色度損失成分の和とを含み、
または、前記損失関数は、複数のグレースケール損失成分の和と、色飽和損失成分の和とを含み、
または、前記損失関数は、複数のグレースケール損失成分の和と、色度損失成分及び色飽和損失成分の和とを含み、
前記色度損失成分は、前記画像強調モデルによって出力された予測画像の色度成分画像と、対応するターゲット画像の色度成分画像との差であり、前記色飽和損失成分は、前記画像強調モデルによって出力された予測画像の色飽和損失成分画像と、対応するターゲット画像の色飽和損失成分画像との差である。
一実施形態において、同じサンプル画像グループにおけるサンプル画像の撮影シーンは同じであり、異なるサンプル画像グループにおけるサンプル画像の撮影シーンは異なり、
前記各サンプル画像グループに関連付けられるターゲット画像を決定することは、
サンプル画像グループの各サンプル画像に従って、同じ位置のピクセルの平均値を計算して、ターゲット画像を取得すること、
サンプル画像グループの各サンプル画像に従って、同じ位置のピクセル加重平均値を計算して、ターゲット画像を取得すること、
サンプル画像グループから、鮮明度が最も高いサンプル画像、第1フレームのサンプル画像または、最後の1フレームのサンプル画像を参照画像として選択し、サンプル画像グループの各サンプル画像に従って特徴点を計算し、前記参照画像に従って前記サンプル画像グループの他のサンプル画像に対して特徴点の位置合わせ操作を実行し、位置合わせ操作の後のサンプル画像に対してマルチフレーム画像融合を実行して、ターゲット画像を取得することのうちのいずれか1つを含み、
前記各サンプル画像グループに関連付けられるトレーニング入力画像グループを決定することは、
前記サンプル画像グループを、トレーニング入力画像グループとして使用すること、
前記サンプル画像グループから、サンプル画像の一部を選択して、トレーニング入力画像グループを形成することのうちのいずれか1つを含む。
本明細書の実施例の第2態様によれば、画像強調モデルのトレーニング装置を提供し、前記装置は、
撮影機器で撮影した複数のサンプル画像グループを決定するように構成される、第1決定モジュールと、
各サンプル画像グループに関連付けられるターゲット画像、及びトレーニング入力画像グループを決定するように構成される、第2決定モジュールと、
複数のトレーニングペアを構築するように構成される、構築モジュールであって、各トレーニングペアに、1つのトレーニング入力画像グループと対応するターゲット画像を含む、構築モジュールと、
各トレーニング入力画像グループを前記画像強調モデルに入力して、前記画像強調モデルによって出力された予測画像を取得するように構成される、入力モジュールと、
前記予測画像のグレースケール成分画像に対して分周処理を実行して、複数の周波数間隔における前記予測画像のグレースケール分周画像を取得し、対応するターゲット画像のグレースケール成分画像に対して分周処理を実行して、前記複数の周波数間隔における前記ターゲット画像のグレースケール分周画像を取得するように構成される、分周モジュールと、
各トレーニングペアにそれぞれ対応する損失関数を使用して、収束するまで前記画像強調モデルをトレーニングするように構成されるトレーニングモジュールであって、前記損失関数には、前記複数の周波数間隔に1対1で対応する複数のグレースケール損失成分が含まれ、各グレースケール損失成分は、各周波数間隔内の前記予測画像のグレースケール分周画像と、対応するターゲット画像のグレースケール分周画像との差に基づいて決定され、異なるグレースケール損失成分は異なる周波数間隔に対応するように構成される、トレーニングモジュールと、を含む。
一実施形態において、特性周波数が高い周波数間隔であるほど、対応するグレースケール損失成分の重み係数が大きくなる。
一実施形態において、前記損失関数は、2つのグレースケール損失成分を含み、前記2つのグレースケール損失成分は、低周波損失成分と高周波損失成分を含み、
前記分周モジュールは、さらに、前記予測画像のグレースケール成分画像に対してローパスフィルタリングを実行して、第1グレースケール低周波画像を取得し、前記予測画像のグレースケール成分画像と前記第1グレースケール低周波画像との差を計算して第1グレースケール高周波画像として使用することであって、2つの周波数間隔における前記予測画像のグレースケール分周画像は、前記第1グレースケール低周波画像と第1グレースケール高周波画像を含むこと、を使用して、前記予測画像のグレースケール成分画像に対して分周処理を実行して、複数の周波数間隔における前記予測画像のグレースケール分周画像を取得するように構成され、
さらに、前記ターゲット画像のグレースケール成分画像に対してローパスフィルタリングを実行して、第2グレースケール低周波画像を取得し、前記ターゲット画像のグレースケール成分画像と前記第2グレースケール低周波画像との差を計算して第2グレースケール高周波画像として使用することであって、2つの周波数間隔における前記ターゲット画像のグレースケール分周画像は、前記第2グレースケール低周波画像と第2グレースケール高周波画像を含むこと、を使用して、前記ターゲット画像のグレースケール成分画像に対して分周処理を実行して、複数の周波数間隔における前記ターゲット画像のグレースケール分周画像を取得するように構成される。
一実施形態において、前記損失関数は、2つのグレースケール損失成分を含み、前記2つのグレースケール損失成分は、低周波損失成分と高周波損失成分を含み、
前記分周モジュールは、さらに、前記予測画像のグレースケール成分画像に対してハイパスフィルタリングを実行して、第1グレースケール高周波画像を取得し、前記予測画像のグレースケール成分画像と前記第1グレースケール高周波画像との差を計算して第1グレースケール低周波画像として使用することであって、2つの周波数間隔における前記予測画像のグレースケール分周画像は、前記第1グレースケール低周波画像と第1グレースケール高周波画像を含むこと、を使用して、前記予測画像のグレースケール成分画像に対して分周処理を実行して、複数の周波数間隔における前記予測画像のグレースケール分周画像を取得するように構成され、さらに、前記ターゲット画像のグレースケール成分画像に対してハイパスフィルタリングを実行して、第2グレースケール高周波画像を取得し、前記ターゲット画像のグレースケール成分画像と前記第2グレースケール高周波画像との差を計算して第2グレースケール低周波画像として使用することであって、2つの周波数間隔における前記ターゲット画像のグレースケール分周画像は、前記第2グレースケール低周波画像と第2グレースケール高周波画像を含むこと、を使用して、前記ターゲット画像のグレースケール成分画像に対して分周処理を実行して、複数の周波数間隔における前記ターゲット画像のグレースケール分周画像を取得するように構成される。
一実施形態において、前記装置は、さらに、
各トレーニングペアにおけるターゲット画像のグレースケール成分画像に対してエッジ検出を実行してエッジ画像を取得するように構成される、エッジ検出モジュールと、
前記エッジ画像に従ってエッジ確率マップを決定するように構成される、エッジ確率計算モジュールと、を含み、
前記損失関数において、特性周波数が最も高い周波数間隔に対応するグレースケール損失成分は、当該周波数間隔における前記予測画像のグレースケール成分画像と当該周波数間隔における対応するターゲット画像のグレースケール成分画像との差と、前記エッジ確率マップとのドット積行列を含む。
一実施形態において、前記エッジ画像に対してガイド付きフィルタリングを実行して、エッジ確率マップを取得することであって、前記ガイド付きフィルタリングのガイドマップは前記ターゲット画像または前記ターゲット画像のグレースケール成分画像であること、を使用して、前記エッジ確率計算モジュールは、前記エッジ画像に従ってエッジ確率マップを決定するように構成される。
一実施形態において、前記損失関数は、複数のグレースケール損失成分の和を含み、
または、前記損失関数は、複数のグレースケール損失成分の和と、色度損失成分の和とを含み、
または、前記損失関数は、複数のグレースケール損失成分の和と、色飽和損失成分の和とを含み、
または、前記損失関数は、複数のグレースケール損失成分の和と、色度損失成分及び色飽和損失成分の和とを含み、
前記色度損失成分は、前記画像強調モデルによって出力された予測画像の色度成分画像と、対応するターゲット画像の色度成分画像との差であり、前記色飽和損失成分は、前記画像強調モデルによって出力された予測画像の色飽和損失成分画像と、対応するターゲット画像の色飽和損失成分画像との差である。
一実施形態において、同じサンプル画像グループにおけるサンプル画像の撮影シーンは同じであり、異なるサンプル画像グループにおけるサンプル画像の撮影シーンは異なり、
第2決定モジュールは、さらに、
サンプル画像グループの各サンプル画像に従って、同じ位置のピクセルの平均値を計算して、ターゲット画像を取得すること、
サンプル画像グループの各サンプル画像に従って、同じ位置のピクセル加重平均値を計算して、ターゲット画像を取得すること、
サンプル画像グループから、鮮明度が最も高いサンプル画像、第1フレームのサンプル画像または、最後の1フレームのサンプル画像を参照画像として選択し、サンプル画像グループの各サンプル画像に従って特徴点を計算し、前記参照画像に従って前記サンプル画像グループの他のサンプル画像に対して特徴点の位置合わせ操作を実行し、位置合わせ操作の後のサンプル画像に対してマルチフレーム画像融合を実行して、ターゲット画像を取得すること、のいずれか1つを使用して、各サンプル画像グループに関連付けられるターゲット画像を決定するように構成され、
前記第2決定モジュールは、さらに、
前記サンプル画像グループを、トレーニング入力画像グループとして使用すること、
前記サンプル画像グループから、サンプル画像の一部を選択して、トレーニング入力画像グループを形成すること、のいずれか1つを使用して、各サンプル画像グループに関連付けられるトレーニング入力画像グループを決定するように構成される。
本明細書の実施例の第3態様によれば、画像強調モデルのトレーニング装置を提供し、前記装置は、
プロセッサと、
プロセッサ実行可能命令を記憶するように構成されるメモリとを備え、
ここで、前記プロセッサは、前記メモリ内の実行可能な命令を実行して、上記方法のステップを実現するように構成される。
本明細書の実施例の第4態様によれば、実行可能命令が記憶される非一時的なコンピュータ可読記憶媒体を提供し、前記実行可能命令が、プロセッサによって実行されるとき、上記の方法のステップを実現することを特徴とする。
例えば、本願は以下の項目を提供する。
(項目1)
画像強調モデルのトレーニング方法であって、
撮影機器で撮影した複数のサンプル画像グループを決定することと、
各サンプル画像グループに関連付けられるターゲット画像、及びトレーニング入力画像グループを決定することと、
複数のトレーニングペアを構築することであって、各トレーニングペアは、1つのトレーニング入力画像グループと、対応するターゲット画像を含むことと、
各トレーニング入力画像グループを上記画像強調モデルに入力して、上記画像強調モデルによって出力された予測画像を取得することと、
上記予測画像のグレースケール成分画像に対して分周処理を実行して、複数の周波数間隔における上記予測画像のグレースケール分周画像を取得し、対応するターゲット画像のグレースケール成分画像に対して分周処理を実行して、上記複数の周波数間隔における上記ターゲット画像のグレースケール分周画像を取得することと、
各トレーニングペアにそれぞれ対応する損失関数を使用して、収束するまで上記画像強調モデルをトレーニングすることと、を含み、
上記損失関数には、上記複数の周波数間隔に1対1で対応する複数のグレースケール損失成分が含まれ、各グレースケール損失成分は、各周波数間隔内の上記予測画像のグレースケール分周画像と、対応するターゲット画像のグレースケール分周画像との差に基づいて決定され、異なるグレースケール損失成分は異なる周波数間隔に対応することを特徴とする、上記画像強調モデルのトレーニング方法。
(項目2)
上記画像強調モデルのトレーニング方法は、
特性周波数が高い周波数間隔であるほど、対応するグレースケール損失成分の重み係数が大きくなることを特徴とする、
上記項目に記載の画像強調モデルのトレーニング方法。
(項目3)
上記画像強調モデルのトレーニング方法は、
上記損失関数は、2つのグレースケール損失成分を含み、上記2つのグレースケール損失成分は、低周波損失成分と高周波損失成分を含み、
上記予測画像のグレースケール成分画像に対して分周処理を実行して、複数の周波数間隔における上記予測画像のグレースケール分周画像を取得することは、上記予測画像のグレースケール成分画像に対してローパスフィルタリングを実行して、第1グレースケール低周波画像を取得し、上記予測画像のグレースケール成分画像と上記第1グレースケール低周波画像との差を計算して第1グレースケール高周波画像として使用することを含み、2つの周波数間隔における上記予測画像のグレースケール分周画像は、上記第1グレースケール低周波画像と第1グレースケール高周波画像を含み、
上記ターゲット画像のグレースケール成分画像に対して分周処理を実行して、複数の周波数間隔における上記ターゲット画像のグレースケール分周画像を取得することは、上記ターゲット画像のグレースケール成分画像に対してローパスフィルタリングを実行して、第2グレースケール低周波画像を取得し、上記ターゲット画像のグレースケール成分画像と上記第2グレースケール低周波画像との差を計算して第2グレースケール高周波画像として使用することを含み、2つの周波数間隔における上記ターゲット画像のグレースケール分周画像は、上記第2グレースケール低周波画像と第2グレースケール高周波画像を含むことを特徴とする、
上記項目のいずれか一項に記載の画像強調モデルのトレーニング方法。
(項目4)
上記画像強調モデルのトレーニング方法は、
上記損失関数は、2つのグレースケール損失成分を含み、上記2つのグレースケール損失成分は、低周波損失成分と高周波損失成分を含み、
上記予測画像のグレースケール成分画像に対して分周処理を実行して、複数の周波数間隔における上記予測画像のグレースケール分周画像を取得することは、上記予測画像のグレースケール成分画像に対してハイパスフィルタリングを実行して、第1グレースケール高周波画像を取得し、上記予測画像のグレースケール成分画像と上記第1グレースケール高周波画像との差を計算して第1グレースケール低周波画像として使用することを含み、2つの周波数間隔における上記予測画像のグレースケール分周画像は、上記第1グレースケール低周波画像と第1グレースケール高周波画像を含み、
上記ターゲット画像のグレースケール成分画像に対して分周処理を実行して、複数の周波数間隔における上記ターゲット画像のグレースケール分周画像を取得することは、上記ターゲット画像のグレースケール成分画像に対してハイパスフィルタリングを実行して、第2グレースケール高周波画像を取得し、上記ターゲット画像のグレースケール成分画像と上記第2グレースケール高周波画像との差を計算して第2グレースケール低周波画像として使用することを含み、2つの周波数間隔における上記ターゲット画像のグレースケール分周画像は、上記第2グレースケール低周波画像と第2グレースケール高周波画像を含むことを特徴とする、
上記項目のいずれか一項に記載の画像強調モデルのトレーニング方法。
(項目5)
上記画像強調モデルのトレーニング方法は、
各トレーニングペアにおけるターゲット画像のグレースケール成分画像に対してエッジ検出を実行してエッジ画像を取得し、上記エッジ画像に従ってエッジ確率マップを決定することをさらに含み、
上記損失関数において、特性周波数が最も高い周波数間隔に対応するグレースケール損失成分は、当該周波数間隔における上記予測画像のグレースケール成分画像と当該周波数間隔における対応するターゲット画像のグレースケール成分画像との差と、上記エッジ確率マップとのドット積行列を含むことを特徴とする、
上記項目のいずれか一項に記載の画像強調モデルのトレーニング方法。
(項目6)
上記画像強調モデルのトレーニング方法は、
上記エッジ画像に従ってエッジ確率マップを決定することは、
上記エッジ画像に対してガイド付きフィルタリングを実行して、エッジ確率マップを取得することを含み、上記ガイド付きフィルタリングのガイドマップは、上記ターゲット画像または上記ターゲット画像のグレースケール成分画像であることを特徴とする、
上記項目のいずれか一項に記載の画像強調モデルのトレーニング方法。
(項目7)
上記画像強調モデルのトレーニング方法は、
上記損失関数は、複数のグレースケール損失成分の和を含み、
または、上記損失関数は、複数のグレースケール損失成分の和と、色度損失成分の和とを含み、
または、上記損失関数は、複数のグレースケール損失成分の和と、色飽和損失成分の和とを含み、
または、上記損失関数は、複数のグレースケール損失成分の和と、色度損失成分及び色飽和損失成分の和とを含み、
上記色度損失成分は、上記画像強調モデルによって出力された予測画像の色度成分画像と、対応するターゲット画像の色度成分画像との差であり、上記色飽和損失成分は、上記画像強調モデルによって出力された予測画像の色飽和成分画像と、対応するターゲット画像の色飽和成分画像との差であることを特徴とする、
上記項目のいずれか一項に記載の画像強調モデルのトレーニング方法。
(項目8)
上記画像強調モデルのトレーニング方法は、
同じサンプル画像グループにおけるサンプル画像の撮影シーンは同じであり、異なるサンプル画像グループにおけるサンプル画像の撮影シシーンは異なり、
上記各サンプル画像グループに関連付けられるターゲット画像を決定することは、
サンプル画像グループの各サンプル画像に従って、同じ位置のピクセルの平均値を計算して、ターゲット画像を取得すること、
サンプル画像グループの各サンプル画像に従って、同じ位置のピクセル加重平均値を計算して、ターゲット画像を取得すること、
サンプル画像グループから、鮮明度が最も高いサンプル画像、第1フレームのサンプル画像または、最後の1フレームのサンプル画像を参照画像として選択し、サンプル画像グループの各サンプル画像に従って特徴点を計算し、上記参照画像に従って上記サンプル画像グループの他のサンプル画像に対して特徴点の位置合わせ操作を実行し、位置合わせ操作の後のサンプル画像に対してマルチフレーム画像融合を実行して、ターゲット画像を取得すること、のうちのいずれか1つを含み、
上記各サンプル画像グループに関連付けられるトレーニング入力画像グループを決定することは、
上記サンプル画像グループを、トレーニング入力画像グループとして使用すること、
上記サンプル画像グループから、サンプル画像の一部を選択して、トレーニング入力画像グループを形成することのうちのいずれか1つを含むことを特徴とする、
上記項目のいずれか一項に記載の画像強調モデルのトレーニング方法。
(項目9)
画像強調モデルのトレーニング装置であって、
撮影機器で撮影した複数のサンプル画像グループを決定するように構成される、第1決定モジュールと、
各サンプル画像グループに関連付けられるターゲット画像、及びトレーニング入力画像グループを決定するように構成される、第2決定モジュールと、
複数のトレーニングペアを構築するように構成される構築モジュールであって、各トレーニングペアに、1つのトレーニング入力画像グループと対応するターゲット画像を含む、構築モジュールと、
各トレーニング入力画像グループを上記画像強調モデルに入力して、上記画像強調モデルによって出力された予測画像を取得するように構成される、入力モジュールと、
上記予測画像のグレースケール成分画像に対して分周処理を実行して、複数の周波数間隔における上記予測画像のグレースケール分周画像を取得し、対応するターゲット画像のグレースケール成分画像に対して分周処理を実行して、上記複数の周波数間隔における上記ターゲット画像のグレースケール分周画像を取得するように構成される、分周モジュールと、
各トレーニングペアにそれぞれ対応する損失関数を使用して、収束するまで上記画像強調モデルをトレーニングするように構成されるトレーニングモジュールであって、上記損失関数には、上記複数の周波数間隔に1対1で対応する複数のグレースケール損失成分が含まれ、各グレースケール損失成分は、各周波数間隔内の上記予測画像のグレースケール分周画像と、対応するターゲット画像のグレースケール分周画像との差に基づいて決定され、異なるグレースケール損失成分は異なる周波数間隔に対応するように構成される、トレーニングモジュールと、を含むことを特徴とする、上記画像強調モデルのトレーニング装置。
(項目10)
上記画像強調モデルのトレーニング装置は、
特性周波数が高い周波数間隔であるほど、対応するグレースケール損失成分の重み係数が大きくなることを特徴とする、
上記項目に記載の画像強調モデルのトレーニング装置。
(項目11)
上記画像強調モデルのトレーニング装置は、
上記損失関数は、2つのグレースケール損失成分を含み、上記2つのグレースケール損失成分は、低周波損失成分と高周波損失成分を含み、
上記分周モジュールは、さらに、上記予測画像のグレースケール成分画像に対してローパスフィルタリングを実行して、第1グレースケール低周波画像を取得し、上記予測画像のグレースケール成分画像と上記第1グレースケール低周波画像との差を計算して第1グレースケール高周波画像として使用することであって、2つの周波数間隔における上記予測画像のグレースケール分周画像は、上記第1グレースケール低周波画像と第1グレースケール高周波画像を含むこと、を使用して、上記予測画像のグレースケール成分画像に対して分周処理を実行して、複数の周波数間隔における上記予測画像のグレースケール分周画像を取得するように構成され、
さらに、上記ターゲット画像のグレースケール成分画像に対してローパスフィルタリングを実行して、第2グレースケール低周波画像を取得し、上記ターゲット画像のグレースケール成分画像と上記第2グレースケール低周波画像との差を計算して第2グレースケール高周波画像として使用することであって、2つの周波数間隔における上記ターゲット画像のグレースケール分周画像は、上記第2グレースケール低周波画像と第2グレースケール高周波画像を含むこと、を使用して、上記ターゲット画像のグレースケール成分画像に対して分周処理を実行して、複数の周波数間隔における上記ターゲット画像のグレースケール分周画像を取得するように構成されることを特徴とする、
上記項目のいずれか一項に記載の画像強調モデルのトレーニング装置。
(項目12)
上記画像強調モデルのトレーニング装置は、
上記損失関数は、2つのグレースケール損失成分を含み、上記2つのグレースケール損失成分は、低周波損失成分と高周波損失成分を含み、
上記分周モジュールは、さらに、上記予測画像のグレースケール成分画像に対してハイパスフィルタリングを実行して、第1グレースケール高周波画像を取得し、上記予測画像のグレースケール成分画像と上記第1グレースケール高周波画像との差を計算して第1グレースケール低周波画像として使用することであって、2つの周波数間隔における上記予測画像のグレースケール分周画像は、上記第1グレースケール低周波画像と第1グレースケール高周波画像を含むこと、を使用して、上記予測画像のグレースケール成分画像に対して分周処理を実行して、複数の周波数間隔における上記予測画像のグレースケール分周画像を取得するように構成され、
さらに、上記ターゲット画像のグレースケール成分画像に対してハイパスフィルタリングを実行して、第2グレースケール高周波画像を取得し、上記ターゲット画像のグレースケール成分画像と上記第2グレースケール高周波画像との差を計算して第2グレースケール低周波画像として使用することであって、2つの周波数間隔における上記ターゲット画像のグレースケール分周画像は、上記第2グレースケール低周波画像と第2グレースケール高周波画像を含むこと、を使用して、上記ターゲット画像のグレースケール成分画像に対して分周処理を実行して、複数の周波数間隔における上記ターゲット画像のグレースケール分周画像を取得するように構成されることを特徴とする、
上記項目のいずれか一項に記載の画像強調モデルのトレーニング装置。
(項目13)
上記画像強調モデルのトレーニング装置は、さらに、
各トレーニングペアにおけるターゲット画像のグレースケール成分画像に対してエッジ検出を実行してエッジ画像を取得するように構成される、エッジ検出モジュールと、
上記エッジ画像に従ってエッジ確率マップを決定するように構成される、エッジ確率計算モジュールと、を含み、
上記損失関数において、特性周波数が最も高い周波数間隔に対応するグレースケール損失成分は、当該周波数間隔における上記予測画像のグレースケール成分画像と当該周波数間隔における対応するターゲット画像のグレースケール成分画像との差と、上記エッジ確率マップとのドット積行列を含むことを特徴とする、
上記項目のいずれか一項に記載の画像強調モデルのトレーニング装置。
(項目14)
上記画像強調モデルのトレーニング装置は、
上記エッジ確率計算モジュールは、上記エッジ画像に対してガイド付きフィルタリングを実行して、エッジ確率マップを取得することであって、上記ガイド付きフィルタリングのガイドマップは上記ターゲット画像または上記ターゲット画像のグレースケール成分画像であること、を使用して、上記エッジ画像に従ってエッジ確率マップを決定するように構成されることを特徴とする、
上記項目のいずれか一項に記載の画像強調モデルのトレーニング装置。
(項目15)
上記画像強調モデルのトレーニング装置は、
上記損失関数は、複数のグレースケール損失成分の和を含み、
または、上記損失関数は、複数のグレースケール損失成分の和と、色度損失成分の和とを含み、
または、上記損失関数は、複数のグレースケール損失成分の和と、色飽和損失成分の和とを含み、
または、上記損失関数は、複数のグレースケール損失成分の和と、色度損失成分及び色飽和損失成分の和とを含み、
上記色度損失成分は、上記画像強調モデルによって出力された予測画像の色度成分画像と、対応するターゲット画像の色度成分画像との差であり、上記色飽和損失成分は、上記画像強調モデルによって出力された予測画像の色飽和損失成分画像と、対応するターゲット画像の色飽和損失成分画像との差であることを特徴とする、
上記項目のいずれか一項に記載の画像強調モデルのトレーニング装置。
(項目16)
上記画像強調モデルのトレーニング装置は、
同じサンプル画像グループにおけるサンプル画像の撮影シーンは同じであり、異なるサンプル画像グループにおけるサンプル画像の撮影シーンは異なり、
第2決定モジュールは、さらに、
サンプル画像グループの各サンプル画像に従って、同じ位置のピクセルの平均値を計算して、ターゲット画像を取得すること、
サンプル画像グループの各サンプル画像に従って、同じ位置のピクセル加重平均値を計算して、ターゲット画像を取得すること、
サンプル画像グループから、鮮明度が最も高いサンプル画像、第1フレームのサンプル画像または、最後の1フレームのサンプル画像を参照画像として選択し、サンプル画像グループの各サンプル画像に従って特徴点を計算し、上記参照画像に従って上記サンプル画像グループの他のサンプル画像に対して特徴点の位置合わせ操作を実行し、位置合わせ操作の後のサンプル画像に対してマルチフレーム画像融合を実行して、ターゲット画像を取得すること、のいずれか1つを使用して、各サンプル画像グループに関連付けられるターゲット画像を決定するように構成され、
上記第2決定モジュールは、さらに、
上記サンプル画像グループを、トレーニング入力画像グループとして使用すること、
上記サンプル画像グループから、サンプル画像の一部を選択して、トレーニング入力画像グループを形成すること、のいずれか1つを使用して、各サンプル画像グループに関連付けられるトレーニング入力画像グループを決定するように構成されることを特徴とする、
上記項目のいずれか一項に記載の画像強調モデルのトレーニング装置。
(項目17)
画像強調モデルのトレーニング装置であって、
プロセッサと、
プロセッサ実行可能命令を記憶するように構成されるメモリと、を備え、
上記プロセッサは、上記メモリの実行可能命令を実行して、上記項目のいずれか一項に記載の方法のステップを実現するように構成されることを特徴とする、上記トレーニング装置。
(項目18)
実行可能命令が記憶される、非一時的なコンピュータ可読記憶媒体であって、上記実行可能命令が、プロセッサによって実行されるとき、上記項目のいずれか一項に記載の方法のステップを実現することを特徴とする、上記非一時的なコンピュータ可読記憶媒体。
(摘要)
本開示は、画像強調モデルのトレーニング方法、装置及び記憶媒体に関し、当該方法は、各トレーニング入力画像グループを画像強調モデルに入力して、画像強調モデルによって出力される予測画像を取得することと、各トレーニングペアにそれぞれ対応する損失関数を使用して、収束するまで画像強調モデルをトレーニングすることとを含み、損失関数は、複数の周波数間隔に1対1で対応する複数のグレースケール損失成分を含み、各グレースケール損失成分は、各周波数間隔内の予測画像のグレースケール分周画像と、対応するターゲット画像のグレースケール分周画像との差に基づいて決定され、異なるグレースケール損失成分は、異なる周波数間隔に対応する。本開示において、損失関数に、対応するトレーニングペアの予測画像とターゲット画像の詳細なコンテンツ情報とセマンティック情報を具現させ、画像強調モデルのトレーニングプロセスでの不適切な問題による過度の平滑化の問題を効果的に緩和する。
本開示の実施例によって提供される技術的解決策は、以下の有利な効果を含み得る。トレーニングペアに関連付けられる損失関数を定義し、画像の詳細な特性は主にグレースケール成分部分に存在することを考慮して、損失関数に、画像強調モデルがトレーニングペアを使用するときの予測画像グレースケール成分画像の分周情報と、ターゲット画像のグレースケール成分画像の分周情報を追加し、異なるトレーニングペアについて異なる損失関数を使用するとき、損失関数に、このトレーニングペアの予測画像とターゲット画像のコンテンツ情報とセマンティック情報を具現させ、画像強調モデルのトレーニングプロセスでの不適切な問題による過度の平滑化の問題を効果的に緩和する。
上記した一般的な説明および後述する詳細な説明は、単なる例示および説明に過ぎず、本開示を限定するものではないことを理解されたい。
ここでの図面は、本明細書に組み込まれてその一部を構成し、本開示と一致する実施例を示し、明細書とともに本開示の原理を説明するために使用される。
一例示的な実施例によって示された画像強調モデルのトレーニング方法のフローチャートである。 一例示的な実施例によって示されたターゲット画像のグレースケール成分画像、グレースケール成分画像の低周波画像、グレースケール成分画像の高周波画像である。 一例示的な実施例によって示された画像強調モデルのトレーニング装置の構造図である。 一例示的な実施例によって示された画像強調モデルのトレーニング装置の構造図である。
ここで、例示的な実施例について詳細に説明し、その例は図面に示す。特に明記しない限り、以下の説明が添付の図面に関する場合、異なる図面の同じ数字は同じまたは類似の要素を表す。以下の例示的な実施例で説明される実施形態は、本開示と一致するすべての実施形態を表すものではない。むしろ、それらは、添付された特許請求の範囲に詳述されたように、本開示の特定の態様と一致する装置および方法の例である。
本開示の実施例において、画像強調モデルのトレーニング方法を提供する。図1を参照すれば、図1は、一例示的な実施例によって示された画像強調モデルのトレーニング方法のフローチャートである。図1に示されたように、当該方法は、次にステップを含む。
ステップS11において、撮影機器で撮影した複数のサンプル画像グループを決定する。
ステップS12において、各サンプル画像グループに関連付けられるターゲット画像、及びトレーニング入力画像グループを決定する。
ステップS13において、複数のトレーニングペアを構築し、各トレーニングペアに、1つのトレーニング入力画像グループと、対応するターゲット画像を含む。
ステップS14において、各トレーニング入力画像グループを前記画像強調モデルに入力して、前記画像強調モデルによって出力された予測画像を取得する。
ステップS15において、前記予測画像のグレースケール成分画像に対して分周処理を実行して、複数の周波数間隔における前記予測画像のグレースケール分周画像を取得し、対応するターゲット画像のグレースケール成分画像に対して分周処理を実行して、前記複数の周波数間隔における前記ターゲット画像のグレースケール分周画像を取得する。
ステップS16において、各トレーニングペアにそれぞれ対応する損失関数を使用して、収束するまで前記画像強調モデルをトレーニングし、前記損失関数には、前記複数の周波数間隔に1対1で対応する複数のグレースケール損失成分が含まれ、各グレースケール損失成分は、各周波数間隔内の前記予測画像のグレースケール分周画像と、対応するターゲット画像のグレースケール分周画像との差に基づいて決定され、異なるグレースケール損失成分は異なる周波数間隔に対応する。
本実施例において、トレーニングペアに関連付けられる損失関数を定義し、画像の詳細な特性は主にグレースケール成分部分に存在することを考慮して、損失関数に、画像強調モデルがトレーニングペアを使用するときの予測画像グレースケール成分画像の分周情報と、ターゲット画像のグレースケール成分画像の分周情報を追加し、異なるトレーニングペアが異なる損失関数を使用するとき、損失関数に、このトレーニングペアの予測画像とターゲット画像のコンテンツ情報とセマンティック情報を具現させ、画像強調モデルのトレーニングプロセスでの不適切な問題による過度の平滑化の問題を効果的に緩和する。
本開示の実施例において、画像強調モデルのトレーニング方法を提供し、当該方法は図1に示される方法を含み、さらに、ステップS12において、各サンプル画像グループに関連付けられるターゲット画像を決定することは、以下の方法のうちの1つを含む。
方法1において、サンプル画像グループの各サンプル画像に従って、同じ位置のピクセルの平均値を計算して、ターゲット画像を取得する。
方法2において、サンプル画像グループの各サンプル画像に従って、同じ位置のピクセル加重平均値を計算して、ターゲット画像を取得する。
方法3において、サンプル画像グループから第1フレームのサンプル画像または、最後の1フレームのサンプル画像を参照画像として選択し、サンプル画像グループの各サンプル画像に従って特徴点を計算し、前記参照画像に従って前記サンプル画像グループの他のサンプル画像に対して特徴点の位置合わせ操作を実行し、位置合わせ操作の後のサンプル画像に対してマルチフレーム画像融合を実行して、ターゲット画像を取得する。
方法4において、サンプル画像グループから、鮮明度が最も高いサンプル画像を参照画像として選択し、サンプル画像グループの各サンプル画像に従って特徴点を計算し、前記参照画像に従って前記サンプル画像グループの他のサンプル画像に対して特徴点の位置合わせ操作を実行し、位置合わせ操作の後のサンプル画像に対してマルチフレーム画像融合を実行して、ターゲット画像を取得する。
ここで、サンプル画像の鮮明度を計算する方法は、ラプラシアン演算子を介してすべての画像の勾配値を取得し、各画像の勾配値を計算し、勾配値に従って鮮明度を決定する方法を含み、勾配値は鮮明度に比例する。鮮明度が最も高いサンプル画像を選択して勾配値が最も高いサンプル画像として選択する。
参照画像を決定した後、特徴点およびオプティカルフロー法を使用して、他の入力画像を参照画像と位置合わせし、位置合わせの後、融合処理を実行し、融合のプロセスにおいて同じ位置のピクセル間の差を計算し、当該差は、通常、ノイズによる差と部分的なコンテンツの変更によって引き起こされる。この差に従って融合するときの重みを決定し、部分的な内容の差は、融合した後にアーティファクトを引き起こしやすいが、ノイズの差は、ノイズ除去に役立ち、重みを調整することにより、ノイズ除去とアーティファクト解除のバランスが取れる。画像に対してノイズ推定を実行することにより、当該グループの画像のノイズレベルを知ることができ、ノイズが大きい場合は、他の画像と参照フレームとの差が主にノイズであることを意味し、他の画像の重みを適切に大きくして、融合後のノイズ除去効果を良好にすることができ、逆に、重みを低く抑えてアーティファクトを回避することができる。
本実施例において、マルチフレーム低品質のサンプル画像を使用して、ノイズシミュレーションやブラーシミュレーションに関しない、高品質のターゲット画像を融合して、ターゲット画像に、より多いサンプル画像の詳細な特徴を持たせ、詳細な機能に対するマシンイ画像強調モデルの学習に役立つ。
本開示の実施例において、画像強調モデルのトレーニング方法を提供し、前記方法は図1に示される方法を含み、且つ、ステップS11において撮影機器を介して撮影するとき、安定した支持機器(三脚など)に撮影機器をを固定して、連続撮影を実行する。同じサンプル画像グループにおけるサンプル画像の撮影シーンは同じであり、異なるサンプル画像グループにおけるサンプル画像の撮影シーンは異なる。例えば、撮影シーンは、印刷物のコンテンツを近距離で撮影するシーン、オフィスシーン、自画像シーン、風景シーン、建築シーンなどを含む。
一実施形態において、ステップS12において、各サンプル画像グループに関連付けられるトレーニング入力画像グループを決定することは、以下の方法のうちのいずれか1つを含む。
方法1において、サンプル画像グループを、トレーニング入力画像グループとして使用する。
方法2において、サンプル画像グループから、サンプル画像の一部を選択して、トレーニング入力画像グループを形成する。
当該方法2における選択方法は、撮影シーケンスの中位の複数の画像を選択する方法、各画像の鮮明度を計算し、且つ鮮明度ランキングでミドルフロント設定比率の複数の画像を選択する方法、各画像の鮮明度を計算し、鮮明度ランキングでミドルフロントに設定した比例の複数の画像を選択する方法のうちのいずれか1つを含む。一実現形態において、各サンプル画像グループのサンプル画像が第1固定数量である場合、選択したサンプル画像の一部のデータは第2固定数量であり、第1固定数量は第2固定数量より大きい。
例えば、ステップS11には、500のシナリオが含まれ、各シナリオで20枚の画像を連続撮影して、サンプル画像グループを形成する。ステップS12において、前記方法1を使用するとき、サンプル画像グループをトレーニング入力画像グループとして使用し、それにより500個のトレーニングペアを構築し、各トレーニングペアは、1つのトレーニング入力画像グループと1つのターゲット画像を含み、各トレーニング入力画像グループは、20枚のサンプル画像を含む。ステップS12において、前記方法2を使用するとき、各サンプル画像グループから10枚のサンプル画像を選択してトレーニング入力画像グループを構築する。それにより、500個のトレーニングペアを構築し、各トレーニングペアは、1つのトレーニング入力画像グループと1つのターゲット画像を含み、各トレーニング入力画像グループは、10枚のサンプル画像を含む。
本実施例において、各サンプル画像グループから、関連付けられるトレーニング入力画像グループを決定するステップを介して、サンプル画像のさまざまな互換性レベルを選択する権利を提供し、サンプル画像との互換性が高い場合、前記方法1を使用して、サンプル画像グループのサンプル画像のすべてをトレーニングに使用し、サンプル画像との互換性が低い場合、前記方法2を使用して、サンプル画像グループのサンプル画像に対してフィルタリングを実行した後、フィルタリングされたサンプル画像をトレーニングに使用する。
本開示の実施例において、画像強調モデルの方法を提供し、前記方法は図1に示される方法を含み、さらに、ステップS15において、分周処理を実行する前に、画像強調モデルによって出力された予測画像のグレースケール成分画像及びターゲット画像のグレースケール成分画像を計算する。
カメラ機器で撮影した画像は、通常、赤、黄、青の3成分画像を含む、RGB色空間の画像であり、以下の関係により、グレースケール、彩度、色飽和の3成分を含む、YUV色空間画像に変換される。
Y=0.299*R+0.587*G+0.114*B、
U=−0.1678*R−0.3313*G+0.5*B、
Y=0.5*R−0.4187*G−0.0813*B。
上述の変換方式により、ターゲット画像Gのグレースケール成分画像Y_Gと、予測画像Rのグレースケール成分画像Y_Rを取得することができる。
カメラ機器で撮影した画像がYUV色空間画像である場合、画像からグレースケール成分画像を抽出する。
ステップS15において、ターゲット画像Gのグレースケール成分画像Y_Gに対して分周処理を実行し、ターゲット画像Gが異なる周波数間隔におけるグレースケール分周画像を取得する。予測画像Rのグレースケール成分画像Y_Rに対して分周処理を実行して、予測画像Rのグレースケール成分画像Y_Rの異なる周波数間隔のグレースケール成分画像を取得する。
本開示の実施例において、画像強調モデルの方法を提供し、当該方法は図1に示された方法を含み、当該方法において、周波数間隔の数は、2、3または3以上である。分周処理を実行するとき、周波数範囲はガウスフィルタリングの半径によって決定される。例えば、元の画像はAであり、半径がRで、分散が0であるガウスフィルタリングを使用して、Aに対してガウスフィルタリングを実行して低周波画像Bを取得し、AからBを減算してCを取得し、Cは高周波画像である。半径Rは、BとCの間の間隔を決定する。Rが大きいほど、Cの成分が多くなる。同様に、引き続きBでガウスフィルタリングを実行してより周波数の低いDを取得し、BからDを減算してEを取得できる。EはDに比べて高い周波数であるが、Cに比べては中間の周波数である。または、周波数間隔の数が2つ以上である場合、異なるバンドパスフィルタを使用してフィルタリング処理を実行し、各周波数間隔に対応する分周画像を取得する。
一実施形態において、周波数間隔の数は2つであり、損失関数は2つのグレースケール損失成分を含み、当該2つのグレースケール損失成分は、低周波損失成分と高周波損失成分を含む。
ステップS15において、予測画像のグレースケール成分画像に対して分周処理を実行して、複数の周波数間隔における予測画像のグレースケール成分画像を取得することは、予測画像のグレースケール成分画像に対してローパスフィルタリングを実行して、第1グレースケール低周波画像を取得し、予測画像のグレースケール成分画像と第1グレースケール低周波画像の差を計算して第1グレースケール高周波画像として使用し、2つの周波数間隔における予測画像のグレースケール成分画像は、前記第1グレースケール低周波画像と第1グレースケール高周波画像を含む。
ステップS15において、ターゲット画像のグレースケール成分画像に対して分周処理を実行して、複数の周波数間隔におけるターゲット画像のグレースケール分周画像を取得することは、ターゲット画像のグレースケール成分画像に対してローパスフィルタリングを実行して、第2グレースケール低周波画像を取得し、ターゲット画像のグレースケール成分画像と第2グレースケール低周波画像との差を計算して第2グレースケール高周波画像として使用し、ターゲット画像が2つの周波数間隔におけるグレースケール成分画像は、第2グレースケール低周波画像と第2グレースケール高周波画像を含む。
例えば、ターゲット画像Gのグレースケール成分画像Y_Gに対して2つの周波数間隔の分周処理を実行するとき、ターゲット画像Gのグレースケール低周波画像Y_G_baselayerを取得し、グレースケール成分画像Y_Gとグレースケール低周波画像Y_G_baselayerが差し引かれて、ターゲット画像Gのグレースケール高周波画像Y_G_detaillayerを取得する。図2に示されるような3つの画像では、左から順に、例示のターゲット画像のグレースケール成分画像、グレースケール低周波画像、グレースケール高周波画像である。
一実施形態において、周波数間隔の数は2つであり、損失関数は2つのグレースケール損失成分を含み、当該2つのグレースケール損失成分は、低周波損失成分と高周波損失成分を含む。
ステップS15において、予測画像のグレースケール成分画像に対して分周処理を実行し、複数の周波数間隔における予測画像のグレースケール成分画像を取得することは、前記予測画像のグレースケール成分画像に対してハイパスフィルタリングを実行して、第1グレースケール高周波画像を取得し、前記予測画像のグレースケール成分画像と前記第1グレースケール高周波画像との差を計算して第1グレースケール低周波画像として使用し、2つの周波数間隔における前記予測画像のグレースケール分周画像は、前記第1グレースケール低周波画像と第1グレースケール高周波画像を含む。
ステップS15において、前記ターゲット画像のグレースケール成分画像に対して分周処理を実行して、複数の周波数間隔における前記ターゲット画像のグレースケール分周画像を取得することは、前記ターゲット画像のグレースケール成分画像に対してハイパスフィルタリングを実行して、第2グレースケール高周波画像を取得し、前記ターゲット画像のグレースケール成分画像と前記第2グレースケール高周波画像との差を計算して第2グレースケール低周波画像として使用し、2つの周波数間隔における前記ターゲット画像のグレースケール分周画像は、前記第2グレースケール低周波画像と第2グレースケール高周波画像を含む。
損失関数M_Lossは行列であり、損失関数は各グレースケール損失成分の和であり、式(1)に示すようである。
Figure 2021197149
ここで、K1は、高周波数間隔に対応する重み係数であって、Y_detaillayer_dfはターゲット画像Gのグレースケール成分画像Y_Gのグレースケール高周波画像Y_G_detaillayerと、予測画像Rのグレースケール成分画像Y_Rのグレースケール高周波画像Y_R_detaillayerとの差である。
K2は、低周波数範囲に対応する重み係数であって、Y_baselayer_difはターゲット画像Gのグレースケール成分画像Y_Gのグレースケール低周波画像Y_R_baselayerと、予測画像Rのグレースケール成分画像Y_Rのグレースケール低周波画像Y_R_baselayerとの差である。
K1は、K2よりも大きく、画像の詳細をより多く具現するために、高周波成分であるほど、重みも大きくされ、特性周波数が高い周波数間隔であるほど、対応するグレースケール損失成分の重み係数が大きくなる。特性周波数は、例えば、周波数間隔の最高周波数、最低周波数、中心周波数など、周波数間隔の位置を示す周波数であり、または特性周波数は同時に最高周波数と最低周波数を含む。異なる周波数間隔間はオーバーラップ部分はない。
一実施形態において、周波数間隔の数は3つで、損失関数は3つのグレースケール損失成分を含み、当該3つのグレースケール損失成分は、低周波損失成分、中周波損失成分および高周波損失成分を含む。
損失関数M_Lossは、行列であり、損失関数は各グレースケール損失成分の和であり、式(2)に示すようである。
Figure 2021197149
ここで、X1は、高周波数間隔に対応する重み係数であって、Y_FHlayer_difは、ターゲット画像Gのグレースケール成分画像Y_Gのグレースケール高周波画像Y_G_FHlayerと、予測画像Rのグレースケール成分画像Y_Rのグレースケール高周波画像Y_R_FHlayerとの差である。
X2は、中周波数範囲に対応する重み係数であり、Y_FMlayer_difは、ターゲット画像Gのグレースケール成分画像Y_Gのグレースケール中周波画像Y_G_FMlayerと、予測画像Rのグレースケール成分画像Y_Rのグレースケール中周波画像Y_R_FMlayerとの差である。
X3は、低周波数範囲に対応する重み係数であり、Y_FLlayer_difはターゲット画像Gのグレースケール成分画像Y_Gのグレースケール低周波画像Y_G_FLlayerと、予測画像Rのグレースケール成分画像Y_Rのグレースケール低周波画像Y_R_FLlayerとの差である。
特性周波数が高い周波数間隔であるほど、対応するグレースケール損失成分の重み係数が大きくなり、即ち、X1は、X2より大きいく、X2は、X3より大きい。
一実施形態において、周波数間隔の数は4つであり、損失関数は4つのグレースケール損失成分を含み、当該4つのグレースケール損失成分は、周波数の高いものから低いものへの順に、第1損失成分、第2損失成分、第3損失成分および第4損失成分を含む。
同様に、損失関数は、さらに、4つ以上のグレースケール損失成分を含み得る。
本実施例において、特性周波数が高い周波数間隔であるほど、対応するグレースケール損失成分の重み係数が大きくして、より多くの画像の詳細を具現し、画像の詳細に関するより多くの情報を損失関数に表示させる。
本開示の実施例において、画像強調モデルの方法を提供し、前記方法は図1に示される方法を含み、前記方法は、さらに、各トレーニングペアにおけるターゲット画像のグレースケール成分画像に対してエッジ検出を実行してエッジ画像Y_G_edgeを取得し、エッジ画像Y_G_edgeに従ってエッジ確率マップY_G_Pを決定することを含む。損失関数において、特性周波数が最も高い周波数間隔に対応するグレースケール損失成分は、予測画像が、当該周波数間隔のグレースケール成分画像と当該周波数間隔における対応するターゲット画像のグレースケール成分画像との差と、エッジ確率マップとのドット積行列を含む。
エッジ検出を実行する方法は様々あり、例えば、Canny演算子検出方法を使用し、当該検出方法は、下記のステップのうちの少なくとも1つを含む。
1、ガウスフィルタリング処理のステップであって、ノイズを除去と平滑化処理のために使用される。
2、非最大抑制(non−maximum suppression)技術を適用して、エッジの誤検出を排除し、各ピクセルの勾配強度の最大値を維持し、最大値以外の他の値を削除する。
3、二重閾値法を適用して、可能な(潜在的な)境界を決定し、2つの閾値を設定する。上限閾値よりも大きいのは強いエッジであり、下限閾値よりも小さいのはエッジではなく、中央のエッジは未決定のエッジである。
4、ヒステリシステクノロジを使用して境界を追跡し、未決定のエッジと強いエッジの間の接続をエッジと見なし、逆に、エッジと見なさない。
一実施形態において、エッジ画像Y_G_edgeに従ってエッジ確率マップY_G_Pを決定することは、エッジ画像Y_G_edgeに対して、ガイド付きフィルタリングを実行して、エッジ確率マップY_G_Pを取得することを含み、前記ガイド付きフィルタリングのガイドマップはターゲット画像またはターゲット画像のグレースケール成分画像である。ガイド付きフィルタリングは、画像フィルタリングテクノロジであって、1つのガイドマップを介してエッジ画像Y_G_edgeに対してフィルタリング処理を実行して、最終的な予測画像が検出されたエッジを可能な限り保持すると同時に、誤ってエッジとしてチェックされたノイズを可能な限り除去し、最終的に1つの確率マップY_G_Pを取得し、当該確率マップの各ピクセルの確率値は、当該ピクセルがエッジポイントである確率を表す。
一実施形態において、損失関数は、2つのグレースケール損失成分を含み、当該2つのグレースケール損失成分は、低周波損失成分と高周波損失成分を含む。
損失関数M_Lossは行列であり、損失関数は各グレースケール損失成分の和であり、式(3)に示すようである。
Figure 2021197149
ここで、K1は、高周波数間隔に対応する重み係数であり、Y_G_Pは、ターゲット画像のグレースケール成分画像のエッジ画像Y_G_edgeに対してガイド付きフィルタリングを実行して取得したエッジ確率マップY_G_Pであり、Y_detaillayer_difはターゲット画像Gのグレースケール成分画像Y_Gのグレースケール高周波画像Y_G_detaillayerと、予測画像Rのグレースケール成分画像Y_Rのグレースケール高周波画像Y_R_detaillayerとの差であり、*は行列ドット演算を表す。K2は、低周波数範囲の重み係数であり、Y_baselayer_difは予測画像Rのグレースケール成分画像Y_Rのグレースケール低周波画像Y_R_baselayerと、予測画像Rのグレースケール成分画像Y_Rのグレースケール低周波画像Y_R_baselayerとの差である。
一実施形態において、周波数間隔の数が3である場合、低周波数間隔、中周波数間隔、および高周波数間隔の3つの間隔に分割され、損失関数は3つのグレースケール損失成分を含み、前記3つのグレースケール損失成分は、低周波損失成分、中周波損失成分と高周波損失成分を含む。
損失関数は、行列M_Lossであり、損失関数は各グレースケール損失成分の和であり、式(4)に示すようである。
Figure 2021197149
ここで、X1は、高周波数間隔に対応する重み係数であり、Y_G_Pは、ターゲット画像のグレースケール成分画像のエッジ画像Y_G_edgeに対してガイド付きフィルタリングを実行して取得したエッジ確率マップY_G_Pであり、Y_FHlayer_difはターゲット画像Gのグレースケール成分画像Y_Gのグレースケール高周波画像Y_G_FHlayerと、予測画像Rのグレースケール成分画像Y_Rのグレースケール高周波画像Y_R_FHlayerとの差であり、*は行列ドット演算を表す。
X2は、中周波数範囲に対応する重み係数であり、Y_FMlayer_difは予測画像Rのグレースケール成分画像Y_Rのグレースケール中周波画像Y_R_FMlayerと、予測画像Rのグレースケール成分画像Y_Rのグレースケール中周波画像Y_R_FMlayerとの差である。
X3は、低周波数範囲に対応する重み係数であり、Y_FLlayer_difは予測画像Rのグレースケール成分画像Y_Rのグレースケール低周波画像Y_R_FLlayerと、予測画像Rのグレースケール成分画像Y_Rのグレースケール低周波画像Y_R_FLlayerとの差である。
本実施例において、特性周波数が最も高い周波数間隔に対応するグレースケール損失成分に確率画像の重みを増加することを介して、損失関数に画像のセマンティック情報を増加して、サンプルの不均衡の問題を解決する。
本開示の実施例において、画像強調モデルの方法を提供し、当該方法は図1に示された方法を含み、当該方法において、損失関数は、各グレースケール損失成分の和を含む基で、さらに、色度損失成分および/または色飽和損失成分を含む。具体的には、下記のようである。
損失関数は、複数のグレースケール損失成分の和と、色度損失成分の和とを含む。
または、損失関数は、複数のグレースケール損失成分の和と、色飽和損失成分の和とを含む。
または、損失関数は、複数のグレースケール損失成分の和と、色度損失成分及び色飽和損失成分の和とを含む。
前記色度損失成分は、前記画像強調モデルによって出力された予測画像の色度成分画像と、対応するターゲット画像の色度成分画像との差であり、前記色飽和損失成分は、前記画像強調モデルによって出力された予測画像の色飽和損失成分画像と、対応するターゲット画像の色飽和損失成分画像との差である。
一実施形態において、式(1)に基づいて、損失関数は、式(5)、(6)、(7)のうちの任意の1つの式に示すようである。
Figure 2021197149
Figure 2021197149
Figure 2021197149
式(3)に基づいて、損失関数は、式(8)、(9)、(10)のうちの任意の1つの式に示すようである。
Figure 2021197149
Figure 2021197149
Figure 2021197149
ここで、U_difは、ターゲット画像Gの色度成分画像U_Gと、予測画像Rの色度成分画像U_Rとの差であり、V_difは、ターゲット画像Gの色飽和成分画像V_Gと、予測画像Rの色度成分画像V_Rとの差である。
周波数間隔の数が2より大きい場合、損失関数の設定方法は、上記の周波数間隔の数が2である場合と同様で、ここで再び説明しない。
本開示の実施例において画像強調方法を提供し、当該方法は、上記のトレーニング方法を使用して画像強調モデルのトレーニングに成功した後、レーニングに成功した画像強調モデルを使用して、処理される画像に対して強調処理を実行することを含む。
本開示の実施例において、画像強調モデルのトレーニング装置を提供する。図3を参照すれば、図3は、一例示的な実施例によって示された画像強調モデルのトレーニング装置の構造図である。図3に示されるように、当該装置は、
撮影機器で撮影した複数のサンプル画像グループを決定するように構成される、第1決定モジュール301と、
各サンプル画像グループに関連付けられるターゲット画像、及びトレーニング入力画像グループを決定するように構成される、第2決定モジュール302と、
複数のトレーニングペアを構築するように構成される構築モジュール303であって、各トレーニングペアに、1つのトレーニング入力画像グループと対応するターゲット画像を含む、構築モジュール303と、
各トレーニング入力画像グループを前記画像強調モデルに入力して、前記画像強調モデルによって出力された予測画像を取得するように構成される、入力モジュール304と、
前記予測画像のグレースケール成分画像に対して分周処理を実行して、複数の周波数間隔における前記予測画像のグレースケール分周画像を取得し、対応するターゲット画像のグレースケール成分画像に対して分周処理を実行して、前記複数の周波数間隔における前記ターゲット画像のグレースケール分周画像を取得するように構成される、分周モジュール305と、
各トレーニングペアにそれぞれ対応する損失関数を使用して、収束するまで前記画像強調モデルをトレーニングするように構成されるトレーニングモジュール306であって、前記損失関数には、複数の周波数間隔に1対1で対応する複数のグレースケール損失成分が含まれ、各グレースケール損失成分は、各周波数間隔内の前記予測画像のグレースケール分周画像と、対応するターゲット画像のグレースケール分周画像との差に基づいて決定され、異なるグレースケール損失成分は異なる周波数間隔に対応するトレーニングモジュール306と、を含む。
一実施形態において、損失関数の損失特性周波数が高い周波数間隔であるほど、対応するグレースケール損失成分の重み係数が大きくなる。
本開示の実施例において、画像強調モデルのトレーニング装置を提供し、当該トレーニング装置は図3に示されるトレーニング装置を含み、さらに、ここで、前記損失関数は、2つのグレースケール損失成分を含み、前記2つのグレースケール損失成分は、低周波損失成分と高周波損失成分を含み、
前記分周モジュール305は、さらに、前記予測画像のグレースケール成分画像に対してローパスフィルタリングを実行して、第1グレースケール低周波画像を取得し、前記予測画像のグレースケール成分画像と前記第1グレースケール低周波画像との差を計算して第1グレースケール高周波画像として使用することであって、2つの周波数間隔における前記予測画像のグレースケール分周画像は、前記第1グレースケール低周波画像と第1グレースケール高周波画像を含む、ことを使用して、前記予測画像のグレースケール成分画像に対して分周処理を実行して、複数の周波数間隔における前記予測画像のグレースケール分周画像を取得するように構成される。
前記分周モジュール305は、さらに、前記ターゲット画像のグレースケール成分画像に対してローパスフィルタリングを実行して、第2グレースケール低周波画像を取得し、前記ターゲット画像のグレースケール成分画像と前記第2グレースケール低周波画像との差を計算して第2グレースケール高周波画像として使用することであって、2つの周波数間隔における前記ターゲット画像のグレースケール分周画像は、前記第2グレースケール低周波画像と第2グレースケール高周波画像を含むこと、を使用して、前記ターゲット画像のグレースケール成分画像に対して分周処理を実行して、複数の周波数間隔における前記ターゲット画像のグレースケール分周画像を取得するように構成される。
本開示の実施例において、画像強調モデルのトレーニング装置を提供し、当該トレーニング装置は図3に示されるトレーニング装置を含み、さらに、ここで、前記損失関数は、2つのグレースケール損失成分を含み、前記2つのグレースケール損失成分は、低周波損失成分と高周波損失成分を含み、
前記分周モジュール305は、さらに、前記予測画像のグレースケール成分画像に対してハイパスフィルタリングを実行して、第1グレースケール高周波画像を取得し、前記予測画像のグレースケール成分画像と前記第1グレースケール高周波画像との差を計算して第1グレースケール低周波画像として使用することであって、2つの周波数間隔における前記予測画像のグレースケール分周画像は、前記第1グレースケール低周波画像と第1グレースケール高周波画像を含むこと、を使用して、前記予測画像のグレースケール成分画像に対して分周処理を実行して、複数の周波数間隔における前記予測画像のグレースケール分周画像を取得するように構成される。
前記分周モジュール305は、さらに、前記ターゲット画像のグレースケール成分画像に対してハイパスフィルタリングを実行して、第2グレースケール高周波画像を取得し、前記ターゲット画像のグレースケール成分画像と前記第2グレースケール高周波画像との差を計算して第2グレースケール低周波画像として使用することであって、2つの周波数間隔における前記ターゲット画像のグレースケール分周画像は、前記第2グレースケール低周波画像と第2グレースケール高周波画像を含むこと、を使用して、前記ターゲット画像のグレースケール成分画像に対して分周処理を実行して、複数の周波数間隔における前記ターゲット画像のグレースケール分周画像を取得するように構成される。
本開示の実施例において、画像強調モデルのトレーニング装置を提供し、当該トレーニング装置は、図3に示されるトレーニング装置を含み、且つ、前記装置は、さらに、
各トレーニングペアにおけるターゲット画像のグレースケール成分画像に対してエッジ検出を実行してエッジ画像を取得するように構成される、エッジ検出モジュールと、
前記エッジ画像に従ってエッジ確率マップを決定するように構成される、エッジ確率計算モジュールとを含み、
前記損失関数において、特性周波数が最も高い周波数間隔に対応するグレースケール損失成分は、当該周波数間隔における前記予測画像のグレースケール成分画像と当該周波数間隔における対応するターゲット画像のグレースケール成分画像との差と、前記エッジ確率マップとのドット積行列を含む。
一実施形態において、前記エッジ確率計算モジュールは、前記エッジ画像に対してガイド付きフィルタリングを実行して、エッジ確率マップを取得することであって、前記ガイド付きフィルタリングのガイドマップは前記ターゲット画像または前記ターゲット画像のグレースケール成分画像であること、を使用して、前記エッジ画像に従ってエッジ確率マップを決定するように構成される。
本開示の実施例において、画像強調モデルのトレーニング装置を提供し、当該トレーニング装置は、図3に示されるトレーニング装置を含み、さらに、前記損失関数は複数のグレースケール損失成分の和を含み、
または、前記損失関数は、複数のグレースケール損失成分の和と、色度損失成分の和とを含み、
または、前記損失関数は、複数のグレースケール損失成分の和と、色飽和損失成分の和とを含み、
または、前記損失関数は、複数のグレースケール損失成分の和と、色度損失成分及び色飽和損失成分の和とを含み、
前記色度損失成分は、前記画像強調モデルによって出力された予測画像の色度成分画像と、対応するターゲット画像の色度成分画像との差であり、前記色飽和損失成分は、前記画像強調モデルによって出力された予測画像の色飽和損失成分画像と、対応するターゲット画像の色飽和損失成分画像との差である。
本開示の実施例において、画像強調モデルのトレーニング装置を提供し、当該トレーニング装置は、図3に示されるトレーニング装置を含み、さらに、同じサンプル画像グループにおけるサンプル画像の撮影シーンは同じであり、異なるサンプル画像グループにおけるサンプル画像の撮影シーンは異なり、
第2決定モジュール302は、さらに、
サンプル画像グループの各サンプル画像に従って、同じ位置のピクセルの平均値を計算して、ターゲット画像を取得すること、
サンプル画像グループの各サンプル画像に従って、同じ位置のピクセル加重平均値を計算して、ターゲット画像を取得すること、
サンプル画像グループから、鮮明度が最も高いサンプル画像、第1フレームのサンプル画像または、最後の1フレームのサンプル画像を参照画像として選択し、サンプル画像グループの各サンプル画像に従って特徴点を計算し、前記参照画像に従って前記サンプル画像グループの他のサンプル画像に対して特徴点の位置合わせ操作を実行し、位置合わせ操作の後のサンプル画像に対してマルチフレーム画像融合を実行して、ターゲット画像を取得すること、のうちのいずれか1つを使用して、各サンプル画像グループに関連付けられるターゲット画像を決定するように構成され、
前記第2決定モジュールは、さらに、
前記サンプル画像グループを、トレーニング入力画像グループとして使用すること、
前記サンプル画像グループから、サンプル画像の一部を選択して、トレーニング入力画像グループを形成すること、のうちのいずれか1つを使用して、各サンプル画像グループに関連付けられるトレーニング入力画像グループを決定するように構成される。
本開示の実施例において、画像強調装置を提供し、当該トレーニング装置は、上記のトレーニング装置および強調処理モジュールを含み、前記強調処理モジュールは、前記トレーニング装置でトレーニングに成功した画像強調モデルを使用して、処理される画像を対して強調処理を実行するように構成される。
本開示の実施例において、画像強調モデルのトレーニング装置を提供し、前記トレーニング装置は、
プロセッサと、
プロセッサ実行可能命令を記憶するように構成されるメモリとを備え、
ここで、前記プロセッサは、前記メモリ内の実行可能な命令を実行して、上記方法のステップを実現するように構成される。
本開示の実施例において、画像強調モデルのトレーニング装置を提供し、実行可能命令が記憶される、非一時的なコンピュータ読み取り可能な記憶媒体であって、前記命令がプロセッサによって実行される時に、前記方法のステップを実現することを特徴とする。
図4は、一例示的な実施例によって示された画像強調モデルのトレーニング装置400のブロック図である。例えば、装置400は携帯電話、コンピュータ、デジタル放送端末、メッセージングデバイス、ゲームコンソール、タブレットデバイス、医療機器、フィットネス機器、携帯情報端末等であり得る。
図4を参照すると、装置400は、処理コンポーネント402、メモリ404、電力コンポーネント406、マルチメディアコンポーネント408、オーディオコンポーネント410、入力/出力(I/O)インターフェース412、センサコンポーネント414、及び通信コンポーネント416のうちの1つまたは複数のコンポーネットを含み得る。
処理コンポーネント402は、一般的に、ディスプレイ、電話の呼び出し、データ通信、カメラ操作及び記録操作に関する操作のような装置400の全般的な操作を制御する。処理コンポーネント402は、前記方法のステップのすべてまたは一部を完了するために、1つまたは複数のプロセッサ420を含んで命令を実行することができる。加えて、処理コンポーネント402は、処理コンポーネント402と他のコンポーネントの間の相互作用を容易にするために、1つまたは複数のモジュールを含むことができる。例えば、処理コンポーネント400は、マルチメディアコンポーネント408と処理コンポーネント402との間の相互作用を容易にするために、マルチメディアモジュールを含むことができる。
メモリ404は、機器400での操作をサポートするために、様々なタイプのデータを格納するように構成される。これらのデータの例には、装置400で動作する任意のアプリケーションまたは方法の命令、連絡先データ、電話帳データ、メッセージ、写真、ビデオ等が含まれる。メモリ404は、スタティックランダムアクセスメモリ(SRAM)、電気的に消去可能なプログラム可能な読み取り専用メモリ(EEPROM)、消去可能なプログラム可能な読み取り専用メモリ(EPROM)、プログラム可能な読み取り専用メモリ(PROM)、読み取り専用メモリ(ROM)、磁気メモリ、フラッシュメモリ、磁気ディスクまたは光ディスクなど、あらゆるタイプの揮発性または不揮発性ストレージデバイスまたはそれらの組み合わせで実装することができる。
電力コンポーネント406は、装置400の様々なコンポーネントに電力を提供する。電力コンポーネント406は、電力管理システム、1つまたは複数の電源、及び装置400の電力の生成、管理および割り当てに関する他のコンポーネントを含むことができる。
マルチメディアコンポーネント408は、前記バッテリの充電装置400とユーザとの間の、出力インターフェースを提供するスクリーンを含む。 いくつかの実施例において、スクリーンは、液晶ディスプレイ(LCD)及びタッチパネル(TP)を含み得る。スクリーンがタッチパネルを含む場合、スクリーンは、ユーザからの入力信号を受信するためのタッチスクリーンとして実現されることができる。タッチパネルは、タッチ、スワイプ及びタッチパネルでのジェスチャーを検知するための1つまたは複数のタッチセンサを含む。前記タッチセンサは、タッチまたはスワイプの操作の境界を感知するだけでなく、前記タッチまたはスワイプ動作に関連する持続時間及び圧力も検出することができる。いくつかの実施例において、マルチメディアコンポーネント408は、1つのフロントカメラ及び/またはリアカメラを含む。機器400が、撮影モードまたはビデオモードなどの動作モードにあるとき、フロントカメラ及び/またはリアカメラは、外部のマルチメディアデータを受信することができる。各フロントカメラ及びリアカメラは、固定光学レンズシステムであり、または焦点距離と光学ズーム機能を持つことができる。
オーディオコンポーネント410は、オーディオ信号を出力および/または入力するように構成される。例えば、オーディオコンポーネント410は、1つのマイクロフォン(MIC)を含み、装置400が通話モード、録音モード及び音声認識モードなどの動作モードにあるとき、マイクロフォンは、外部オーディオ信号を受信するように構成される。受信されたオーディオ信号は、メモリ404さらに記憶されてもよく、または通信コンポーネント416を介して送信されてもよい。いくつかの実施例において、オーディオコンポーネント410は、さらに、オーディオ信号を出力するためのスピーカを含む。
I/Oインターフェース412は、処理コンポーネント402と周辺インターフェースモジュールとの間にインターフェースを提供し、前記周辺インターフェースモジュールは、キーボード、クリックホイール、ボタンなどであり得る。これらのボタンは、ホームボタン、ボリュームボタン、スタートボタン、ロックボタンを含むが、これらに限定されない。
センサコンポーネント414は、装置400に各態様の状態の評価を提供するための1つまたは複数のセンサを含む。例えば、センサコンポーネント414は、機器400のオン/オフ状態と、装置400のディスプレイやキーパッドなどのコンポーネントの相対的な位置づけを検出することができ、センサコンポーネント414は、さらに、装置400または装置400のコンポーネントの位置の変化、ユーザとの装置400の接触の有無、装置400の向きまたは加速/減速、及び装置400の温度の変化も検出することができる。センサコンポーネット414は、物理的接触なしに近くの物体の存在を検出するように構成された近接センサを含むことができる。センサコンポーネント414は、撮像用途で使用するためのCMOSまたはCCD画像センサなどの光センサも含むことができる。いくつかの実施例において、前記センサコンポーネント414は、加速度センサ、ジャイロスコープセンサ、磁気センサ、圧力センサまたは温度センサをさらに含むことができる。
通信コンポーネント416は、装置500と他の装置の間の有線または無線通信を容易にするように構成される。装置400は、WiFi、2Gまたは3G、またはそれらの組み合わせなどの通信規格に基づく無線ネットワークにアクセスすることができる。一例示的な実施例において、前記通信コンポーネント416は、放送チャンネルを介して外部放送管理システムからの放送信号または放送関連情報を受信する。一例示的な実施例において、前記通信コンポーネント416は、さらに、短距離通信を促進するために、近距離通信(NFC)モジュールを含む。例えば、NFCモジュールは、無線周波数識別(RFID)技術、赤外線データ協会(IrDA)技術、超広帯域(UWB)技術、ブルートゥース(登録商標)(BT)技術及び他の技術に基づいて実現することができる。
例示的な実施例において、装置400は、前記方法を実行するために、1つまたは複数の特定用途向け集積回路(ASIC)、デジタル信号プロセッサ(DSP)、デジタル信号処理装置(DSPD)、プログラマブルロジックデバイス(PLD)、フィールドプログラマブルゲートアレイ(FPGA)、コントローラ、マイクロコントローラ、マイクロプロセッサまたは他の電子素子によって実現されることができる。
例示的な実施例において、さらに、命令を含むメモリ404などの、命令を含む非一時的なコンピュータ読み取り可能な記憶媒体を提供し、前記命令は、装置400のプロセッサ420によって実行されて前記方法を完了することができる。例えば、前記非一時的なコンピュータ読み取り可能な記憶媒体は、ROM、ランダムアクセスメモリ(RAM)、CD−ROM、磁気テープ、フロッピー(登録商標)ディスクおよび光学データ記憶装置などであり得る。
当業者は、明細書を考慮して、本明細書に開示された発明を実施した後に、本開示の他の実施形態を容易に想到し得るであろう。本願は、本開示のあらゆる変形、応用または適応性変化を網羅することを意図し、これらの変形、応用または適応性変化は、本開示の普通の原理に準拠し、本開示によって開示されない本技術分野における公知知識または従来の技術的手段を含む。明細書と実施例は、例示としてのみ考慮され、本開示の真の範囲および思想は添付の特許請求の範囲によって示される。
本開示は、上記に既に説明し且つ図面に示した正確な構造に限定されるものではなく、その範囲から逸脱することなく様々な修正及び変更を行うことができることを理解されたい。本開示の範囲は、添付の特許請求の範囲によってのみ制限される。

Claims (18)

  1. 画像強調モデルのトレーニング方法であって、
    撮影機器で撮影した複数のサンプル画像グループを決定することと、
    各サンプル画像グループに関連付けられるターゲット画像、及びトレーニング入力画像グループを決定することと、
    複数のトレーニングペアを構築することであって、各トレーニングペアは、1つのトレーニング入力画像グループと、対応するターゲット画像を含むことと、
    各トレーニング入力画像グループを前記画像強調モデルに入力して、前記画像強調モデルによって出力された予測画像を取得することと、
    前記予測画像のグレースケール成分画像に対して分周処理を実行して、複数の周波数間隔における前記予測画像のグレースケール分周画像を取得し、対応するターゲット画像のグレースケール成分画像に対して分周処理を実行して、前記複数の周波数間隔における前記ターゲット画像のグレースケール分周画像を取得することと、
    各トレーニングペアにそれぞれ対応する損失関数を使用して、収束するまで前記画像強調モデルをトレーニングすることと、を含み、
    前記損失関数には、前記複数の周波数間隔に1対1で対応する複数のグレースケール損失成分が含まれ、各グレースケール損失成分は、各周波数間隔内の前記予測画像のグレースケール分周画像と、対応するターゲット画像のグレースケール分周画像との差に基づいて決定され、異なるグレースケール損失成分は異なる周波数間隔に対応することを特徴とする、前記画像強調モデルのトレーニング方法。
  2. 前記画像強調モデルのトレーニング方法は、
    特性周波数が高い周波数間隔であるほど、対応するグレースケール損失成分の重み係数が大きくなることを特徴とする、
    請求項1に記載の画像強調モデルのトレーニング方法。
  3. 前記画像強調モデルのトレーニング方法は、
    前記損失関数は、2つのグレースケール損失成分を含み、前記2つのグレースケール損失成分は、低周波損失成分と高周波損失成分を含み、
    前記予測画像のグレースケール成分画像に対して分周処理を実行して、複数の周波数間隔における前記予測画像のグレースケール分周画像を取得することは、前記予測画像のグレースケール成分画像に対してローパスフィルタリングを実行して、第1グレースケール低周波画像を取得し、前記予測画像のグレースケール成分画像と前記第1グレースケール低周波画像との差を計算して第1グレースケール高周波画像として使用することを含み、2つの周波数間隔における前記予測画像のグレースケール分周画像は、前記第1グレースケール低周波画像と第1グレースケール高周波画像を含み、
    前記ターゲット画像のグレースケール成分画像に対して分周処理を実行して、複数の周波数間隔における前記ターゲット画像のグレースケール分周画像を取得することは、前記ターゲット画像のグレースケール成分画像に対してローパスフィルタリングを実行して、第2グレースケール低周波画像を取得し、前記ターゲット画像のグレースケール成分画像と前記第2グレースケール低周波画像との差を計算して第2グレースケール高周波画像として使用することを含み、2つの周波数間隔における前記ターゲット画像のグレースケール分周画像は、前記第2グレースケール低周波画像と第2グレースケール高周波画像を含むことを特徴とする、
    請求項1に記載の画像強調モデルのトレーニング方法。
  4. 前記画像強調モデルのトレーニング方法は、
    前記損失関数は、2つのグレースケール損失成分を含み、前記2つのグレースケール損失成分は、低周波損失成分と高周波損失成分を含み、
    前記予測画像のグレースケール成分画像に対して分周処理を実行して、複数の周波数間隔における前記予測画像のグレースケール分周画像を取得することは、前記予測画像のグレースケール成分画像に対してハイパスフィルタリングを実行して、第1グレースケール高周波画像を取得し、前記予測画像のグレースケール成分画像と前記第1グレースケール高周波画像との差を計算して第1グレースケール低周波画像として使用することを含み、2つの周波数間隔における前記予測画像のグレースケール分周画像は、前記第1グレースケール低周波画像と第1グレースケール高周波画像を含み、
    前記ターゲット画像のグレースケール成分画像に対して分周処理を実行して、複数の周波数間隔における前記ターゲット画像のグレースケール分周画像を取得することは、前記ターゲット画像のグレースケール成分画像に対してハイパスフィルタリングを実行して、第2グレースケール高周波画像を取得し、前記ターゲット画像のグレースケール成分画像と前記第2グレースケール高周波画像との差を計算して第2グレースケール低周波画像として使用することを含み、2つの周波数間隔における前記ターゲット画像のグレースケール分周画像は、前記第2グレースケール低周波画像と第2グレースケール高周波画像を含むことを特徴とする、
    請求項1に記載の画像強調モデルのトレーニング方法。
  5. 前記画像強調モデルのトレーニング方法は、
    各トレーニングペアにおけるターゲット画像のグレースケール成分画像に対してエッジ検出を実行してエッジ画像を取得し、前記エッジ画像に従ってエッジ確率マップを決定することをさらに含み、
    前記損失関数において、特性周波数が最も高い周波数間隔に対応するグレースケール損失成分は、当該周波数間隔における前記予測画像のグレースケール成分画像と当該周波数間隔における対応するターゲット画像のグレースケール成分画像との差と、前記エッジ確率マップとのドット積行列を含むことを特徴とする、
    請求項1に記載の画像強調モデルのトレーニング方法。
  6. 前記画像強調モデルのトレーニング方法は、
    前記エッジ画像に従ってエッジ確率マップを決定することは、
    前記エッジ画像に対してガイド付きフィルタリングを実行して、エッジ確率マップを取得することを含み、前記ガイド付きフィルタリングのガイドマップは、前記ターゲット画像または前記ターゲット画像のグレースケール成分画像であることを特徴とする、
    請求項5に記載の画像強調モデルのトレーニング方法。
  7. 前記画像強調モデルのトレーニング方法は、
    前記損失関数は、複数のグレースケール損失成分の和を含み、
    または、前記損失関数は、複数のグレースケール損失成分の和と、色度損失成分の和とを含み、
    または、前記損失関数は、複数のグレースケール損失成分の和と、色飽和損失成分の和とを含み、
    または、前記損失関数は、複数のグレースケール損失成分の和と、色度損失成分及び色飽和損失成分の和とを含み、
    前記色度損失成分は、前記画像強調モデルによって出力された予測画像の色度成分画像と、対応するターゲット画像の色度成分画像との差であり、前記色飽和損失成分は、前記画像強調モデルによって出力された予測画像の色飽和成分画像と、対応するターゲット画像の色飽和成分画像との差であることを特徴とする、
    請求項1に記載の画像強調モデルのトレーニング方法。
  8. 前記画像強調モデルのトレーニング方法は、
    同じサンプル画像グループにおけるサンプル画像の撮影シーンは同じであり、異なるサンプル画像グループにおけるサンプル画像の撮影シシーンは異なり、
    前記各サンプル画像グループに関連付けられるターゲット画像を決定することは、
    サンプル画像グループの各サンプル画像に従って、同じ位置のピクセルの平均値を計算して、ターゲット画像を取得すること、
    サンプル画像グループの各サンプル画像に従って、同じ位置のピクセル加重平均値を計算して、ターゲット画像を取得すること、
    サンプル画像グループから、鮮明度が最も高いサンプル画像、第1フレームのサンプル画像または、最後の1フレームのサンプル画像を参照画像として選択し、サンプル画像グループの各サンプル画像に従って特徴点を計算し、前記参照画像に従って前記サンプル画像グループの他のサンプル画像に対して特徴点の位置合わせ操作を実行し、位置合わせ操作の後のサンプル画像に対してマルチフレーム画像融合を実行して、ターゲット画像を取得すること、のうちのいずれか1つを含み、
    前記各サンプル画像グループに関連付けられるトレーニング入力画像グループを決定することは、
    前記サンプル画像グループを、トレーニング入力画像グループとして使用すること、
    前記サンプル画像グループから、サンプル画像の一部を選択して、トレーニング入力画像グループを形成することのうちのいずれか1つを含むことを特徴とする、
    請求項1に記載の画像強調モデルのトレーニング方法。
  9. 画像強調モデルのトレーニング装置であって、
    撮影機器で撮影した複数のサンプル画像グループを決定するように構成される、第1決定モジュールと、
    各サンプル画像グループに関連付けられるターゲット画像、及びトレーニング入力画像グループを決定するように構成される、第2決定モジュールと、
    複数のトレーニングペアを構築するように構成される構築モジュールであって、各トレーニングペアに、1つのトレーニング入力画像グループと対応するターゲット画像を含む、構築モジュールと、
    各トレーニング入力画像グループを前記画像強調モデルに入力して、前記画像強調モデルによって出力された予測画像を取得するように構成される、入力モジュールと、
    前記予測画像のグレースケール成分画像に対して分周処理を実行して、複数の周波数間隔における前記予測画像のグレースケール分周画像を取得し、対応するターゲット画像のグレースケール成分画像に対して分周処理を実行して、前記複数の周波数間隔における前記ターゲット画像のグレースケール分周画像を取得するように構成される、分周モジュールと、
    各トレーニングペアにそれぞれ対応する損失関数を使用して、収束するまで前記画像強調モデルをトレーニングするように構成されるトレーニングモジュールであって、前記損失関数には、前記複数の周波数間隔に1対1で対応する複数のグレースケール損失成分が含まれ、各グレースケール損失成分は、各周波数間隔内の前記予測画像のグレースケール分周画像と、対応するターゲット画像のグレースケール分周画像との差に基づいて決定され、異なるグレースケール損失成分は異なる周波数間隔に対応するように構成される、トレーニングモジュールと、を含むことを特徴とする、前記画像強調モデルのトレーニング装置。
  10. 前記画像強調モデルのトレーニング装置は、
    特性周波数が高い周波数間隔であるほど、対応するグレースケール損失成分の重み係数が大きくなることを特徴とする、
    請求項9に記載の画像強調モデルのトレーニング装置。
  11. 前記画像強調モデルのトレーニング装置は、
    前記損失関数は、2つのグレースケール損失成分を含み、前記2つのグレースケール損失成分は、低周波損失成分と高周波損失成分を含み、
    前記分周モジュールは、さらに、前記予測画像のグレースケール成分画像に対してローパスフィルタリングを実行して、第1グレースケール低周波画像を取得し、前記予測画像のグレースケール成分画像と前記第1グレースケール低周波画像との差を計算して第1グレースケール高周波画像として使用することであって、2つの周波数間隔における前記予測画像のグレースケール分周画像は、前記第1グレースケール低周波画像と第1グレースケール高周波画像を含むこと、を使用して、前記予測画像のグレースケール成分画像に対して分周処理を実行して、複数の周波数間隔における前記予測画像のグレースケール分周画像を取得するように構成され、
    さらに、前記ターゲット画像のグレースケール成分画像に対してローパスフィルタリングを実行して、第2グレースケール低周波画像を取得し、前記ターゲット画像のグレースケール成分画像と前記第2グレースケール低周波画像との差を計算して第2グレースケール高周波画像として使用することであって、2つの周波数間隔における前記ターゲット画像のグレースケール分周画像は、前記第2グレースケール低周波画像と第2グレースケール高周波画像を含むこと、を使用して、前記ターゲット画像のグレースケール成分画像に対して分周処理を実行して、複数の周波数間隔における前記ターゲット画像のグレースケール分周画像を取得するように構成されることを特徴とする、
    請求項9に記載の画像強調モデルのトレーニング装置。
  12. 前記画像強調モデルのトレーニング装置は、
    前記損失関数は、2つのグレースケール損失成分を含み、前記2つのグレースケール損失成分は、低周波損失成分と高周波損失成分を含み、
    前記分周モジュールは、さらに、前記予測画像のグレースケール成分画像に対してハイパスフィルタリングを実行して、第1グレースケール高周波画像を取得し、前記予測画像のグレースケール成分画像と前記第1グレースケール高周波画像との差を計算して第1グレースケール低周波画像として使用することであって、2つの周波数間隔における前記予測画像のグレースケール分周画像は、前記第1グレースケール低周波画像と第1グレースケール高周波画像を含むこと、を使用して、前記予測画像のグレースケール成分画像に対して分周処理を実行して、複数の周波数間隔における前記予測画像のグレースケール分周画像を取得するように構成され、
    さらに、前記ターゲット画像のグレースケール成分画像に対してハイパスフィルタリングを実行して、第2グレースケール高周波画像を取得し、前記ターゲット画像のグレースケール成分画像と前記第2グレースケール高周波画像との差を計算して第2グレースケール低周波画像として使用することであって、2つの周波数間隔における前記ターゲット画像のグレースケール分周画像は、前記第2グレースケール低周波画像と第2グレースケール高周波画像を含むこと、を使用して、前記ターゲット画像のグレースケール成分画像に対して分周処理を実行して、複数の周波数間隔における前記ターゲット画像のグレースケール分周画像を取得するように構成されることを特徴とする、
    請求項9に記載の画像強調モデルのトレーニング装置。
  13. 前記画像強調モデルのトレーニング装置は、さらに、
    各トレーニングペアにおけるターゲット画像のグレースケール成分画像に対してエッジ検出を実行してエッジ画像を取得するように構成される、エッジ検出モジュールと、
    前記エッジ画像に従ってエッジ確率マップを決定するように構成される、エッジ確率計算モジュールと、を含み、
    前記損失関数において、特性周波数が最も高い周波数間隔に対応するグレースケール損失成分は、当該周波数間隔における前記予測画像のグレースケール成分画像と当該周波数間隔における対応するターゲット画像のグレースケール成分画像との差と、前記エッジ確率マップとのドット積行列を含むことを特徴とする、
    請求項9に記載の画像強調モデルのトレーニング装置。
  14. 前記画像強調モデルのトレーニング装置は、
    前記エッジ確率計算モジュールは、前記エッジ画像に対してガイド付きフィルタリングを実行して、エッジ確率マップを取得することであって、前記ガイド付きフィルタリングのガイドマップは前記ターゲット画像または前記ターゲット画像のグレースケール成分画像であること、を使用して、前記エッジ画像に従ってエッジ確率マップを決定するように構成されることを特徴とする、
    請求項13に記載の画像強調モデルのトレーニング装置。
  15. 前記画像強調モデルのトレーニング装置は、
    前記損失関数は、複数のグレースケール損失成分の和を含み、
    または、前記損失関数は、複数のグレースケール損失成分の和と、色度損失成分の和とを含み、
    または、前記損失関数は、複数のグレースケール損失成分の和と、色飽和損失成分の和とを含み、
    または、前記損失関数は、複数のグレースケール損失成分の和と、色度損失成分及び色飽和損失成分の和とを含み、
    前記色度損失成分は、前記画像強調モデルによって出力された予測画像の色度成分画像と、対応するターゲット画像の色度成分画像との差であり、前記色飽和損失成分は、前記画像強調モデルによって出力された予測画像の色飽和損失成分画像と、対応するターゲット画像の色飽和損失成分画像との差であることを特徴とする、
    請求項9に記載の画像強調モデルのトレーニング装置。
  16. 前記画像強調モデルのトレーニング装置は、
    同じサンプル画像グループにおけるサンプル画像の撮影シーンは同じであり、異なるサンプル画像グループにおけるサンプル画像の撮影シーンは異なり、
    第2決定モジュールは、さらに、
    サンプル画像グループの各サンプル画像に従って、同じ位置のピクセルの平均値を計算して、ターゲット画像を取得すること、
    サンプル画像グループの各サンプル画像に従って、同じ位置のピクセル加重平均値を計算して、ターゲット画像を取得すること、
    サンプル画像グループから、鮮明度が最も高いサンプル画像、第1フレームのサンプル画像または、最後の1フレームのサンプル画像を参照画像として選択し、サンプル画像グループの各サンプル画像に従って特徴点を計算し、前記参照画像に従って前記サンプル画像グループの他のサンプル画像に対して特徴点の位置合わせ操作を実行し、位置合わせ操作の後のサンプル画像に対してマルチフレーム画像融合を実行して、ターゲット画像を取得すること、のいずれか1つを使用して、各サンプル画像グループに関連付けられるターゲット画像を決定するように構成され、
    前記第2決定モジュールは、さらに、
    前記サンプル画像グループを、トレーニング入力画像グループとして使用すること、
    前記サンプル画像グループから、サンプル画像の一部を選択して、トレーニング入力画像グループを形成すること、のいずれか1つを使用して、各サンプル画像グループに関連付けられるトレーニング入力画像グループを決定するように構成されることを特徴とする、
    請求項9に記載の画像強調モデルのトレーニング装置。
  17. 画像強調モデルのトレーニング装置であって、
    プロセッサと、
    プロセッサ実行可能命令を記憶するように構成されるメモリと、を備え、
    前記プロセッサは、前記メモリの実行可能命令を実行して、請求項1ないし8のいずれか一項に記載の方法のステップを実現するように構成されることを特徴とする、前記トレーニング装置。
  18. 実行可能命令が記憶される、非一時的なコンピュータ可読記憶媒体であって、前記実行可能命令が、プロセッサによって実行されるとき、請求項1ないし8のいずれか一項に記載の方法のステップを実現することを特徴とする、前記非一時的なコンピュータ可読記憶媒体。
JP2021018016A 2020-06-12 2021-02-08 画像強調モデルのトレーニング方法、装置及び記憶媒体 Active JP7100729B2 (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
CN202010534243.9 2020-06-12
CN202010534243.9A CN111709890B (zh) 2020-06-12 2020-06-12 一种图像增强模型的训练方法、装置及存储介质

Publications (2)

Publication Number Publication Date
JP2021197149A true JP2021197149A (ja) 2021-12-27
JP7100729B2 JP7100729B2 (ja) 2022-07-13

Family

ID=72540029

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2021018016A Active JP7100729B2 (ja) 2020-06-12 2021-02-08 画像強調モデルのトレーニング方法、装置及び記憶媒体

Country Status (5)

Country Link
US (1) US11475243B2 (ja)
EP (1) EP3923234B1 (ja)
JP (1) JP7100729B2 (ja)
KR (1) KR102612632B1 (ja)
CN (1) CN111709890B (ja)

Families Citing this family (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111709890B (zh) * 2020-06-12 2023-11-24 北京小米松果电子有限公司 一种图像增强模型的训练方法、装置及存储介质
CN112561818B (zh) * 2020-12-14 2024-05-28 英特灵达信息技术(深圳)有限公司 一种图像增强方法、装置、电子设备及存储介质
WO2022194344A1 (en) * 2021-03-16 2022-09-22 Huawei Technologies Co., Ltd. Learnable augmentation space for dense generative adversarial networks
EP4064217A1 (en) * 2021-03-27 2022-09-28 Tata Consultancy Services Limited Extracting region of interest from scanned images and determining an associated image type thereof
CN115578383B (zh) * 2022-11-23 2023-04-07 惠州威尔高电子有限公司 基于全景图像的厚铜pcb板检测方法
CN115861380B (zh) * 2023-02-16 2023-06-06 深圳市瓴鹰智能科技有限公司 雾天低照度场景下端到端无人机视觉目标跟踪方法及装置
CN116386118B (zh) * 2023-04-17 2024-04-05 广州番禺职业技术学院 一种基于人像识别的粤剧匹配化妆系统及其方法
CN116152123B (zh) * 2023-04-21 2023-09-19 荣耀终端有限公司 图像处理方法、电子设备及可读存储介质
CN116993720B (zh) * 2023-09-25 2024-01-09 深圳市希格莱特科技有限公司 用于电子烟pcb板的生产缺陷识别方法

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2018195069A (ja) * 2017-05-17 2018-12-06 キヤノン株式会社 画像処理装置および画像処理方法
WO2019003474A1 (ja) * 2017-06-30 2019-01-03 株式会社島津製作所 放射線治療用追跡装置、位置検出装置および動体追跡方法
WO2019134879A1 (en) * 2018-01-03 2019-07-11 Koninklijke Philips N.V. Full dose pet image estimation from low-dose pet imaging using deep learning
CN110782034A (zh) * 2019-10-31 2020-02-11 北京小米智能科技有限公司 神经网络的训练方法、装置及存储介质
CN110827219A (zh) * 2019-10-31 2020-02-21 北京小米智能科技有限公司 图像处理模型的训练方法、装置及介质

Family Cites Families (20)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8866936B2 (en) * 2008-07-24 2014-10-21 Florida State University of Research Foundation Systems and methods for training an active random field for real-time image denoising
US9667842B2 (en) 2014-08-30 2017-05-30 Apple Inc. Multi-band YCbCr locally-adaptive noise modeling and noise reduction based on scene metadata
JP2019067078A (ja) * 2017-09-29 2019-04-25 国立大学法人 筑波大学 画像処理方法、及び画像処理プログラム
KR20190060606A (ko) * 2017-11-24 2019-06-03 삼성전자주식회사 의료 영상 진단 장치 및 방법
CN108492271B (zh) * 2018-03-26 2021-08-24 中国电子科技集团公司第三十八研究所 一种融合多尺度信息的自动图像增强系统及方法
CN108446666A (zh) * 2018-04-04 2018-08-24 平安科技(深圳)有限公司 双通道神经网络模型训练及人脸比对方法、终端及介质
EP3794555B1 (en) * 2018-05-17 2024-03-13 Niantic, Inc. Self-supervised training of a depth estimation system
CN109214990A (zh) 2018-07-02 2019-01-15 广东工业大学 一种基于Inception模型的深度卷积神经网络图像去噪方法
WO2020033524A1 (en) 2018-08-07 2020-02-13 BlinkAI Technologies, Inc. Artificial intelligence techniques for image enhancement
TW202027028A (zh) 2018-08-15 2020-07-16 美商超精細研究股份有限公司 用於抑制磁共振影像中之假像之深度學習技術
CN109146814B (zh) * 2018-08-20 2021-02-23 Oppo广东移动通信有限公司 图像处理方法、装置、存储介质及电子设备
US20220092795A1 (en) * 2019-01-15 2022-03-24 Portland State University Feature pyramid warping for video frame interpolation
CN110210524B (zh) 2019-05-13 2023-05-02 东软医疗系统股份有限公司 一种图像增强模型的训练方法、图像增强方法及装置
CN110188776A (zh) 2019-05-30 2019-08-30 京东方科技集团股份有限公司 图像处理方法及装置、神经网络的训练方法、存储介质
CN110798690B (zh) * 2019-08-23 2021-12-21 腾讯科技(深圳)有限公司 视频解码方法、环路滤波模型的训练方法、装置和设备
CN110827253A (zh) * 2019-10-30 2020-02-21 北京达佳互联信息技术有限公司 一种目标检测模型的训练方法、装置及电子设备
CN111160448B (zh) * 2019-12-26 2023-09-26 北京达佳互联信息技术有限公司 一种图像分类模型的训练方法及装置
CN111476737B (zh) * 2020-04-15 2022-02-11 腾讯科技(深圳)有限公司 一种图像处理方法、智能设备及计算机可读存储介质
CN111709890B (zh) * 2020-06-12 2023-11-24 北京小米松果电子有限公司 一种图像增强模型的训练方法、装置及存储介质
US11908233B2 (en) * 2020-11-02 2024-02-20 Pinscreen, Inc. Normalization of facial images using deep neural networks

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2018195069A (ja) * 2017-05-17 2018-12-06 キヤノン株式会社 画像処理装置および画像処理方法
WO2019003474A1 (ja) * 2017-06-30 2019-01-03 株式会社島津製作所 放射線治療用追跡装置、位置検出装置および動体追跡方法
WO2019134879A1 (en) * 2018-01-03 2019-07-11 Koninklijke Philips N.V. Full dose pet image estimation from low-dose pet imaging using deep learning
CN110782034A (zh) * 2019-10-31 2020-02-11 北京小米智能科技有限公司 神经网络的训练方法、装置及存储介质
CN110827219A (zh) * 2019-10-31 2020-02-21 北京小米智能科技有限公司 图像处理模型的训练方法、装置及介质

Also Published As

Publication number Publication date
EP3923234B1 (en) 2023-02-01
CN111709890A (zh) 2020-09-25
EP3923234A1 (en) 2021-12-15
KR102612632B1 (ko) 2023-12-12
US11475243B2 (en) 2022-10-18
KR20210154710A (ko) 2021-12-21
JP7100729B2 (ja) 2022-07-13
US20210390340A1 (en) 2021-12-16
CN111709890B (zh) 2023-11-24

Similar Documents

Publication Publication Date Title
JP7100729B2 (ja) 画像強調モデルのトレーニング方法、装置及び記憶媒体
EP3770847B1 (en) Method and device for processing image
CN110136183B (zh) 一种图像处理的方法、装置以及摄像装置
WO2021196401A1 (zh) 图像重建方法及装置、电子设备和存储介质
TWI749593B (zh) 去除圖像中的反光的方法、電子設備和電腦可讀儲存媒體
US11580327B2 (en) Image denoising model training method, imaging denoising method, devices and storage medium
CN109859144B (zh) 图像处理方法及装置、电子设备和存储介质
RU2669511C2 (ru) Способ и устройство для идентификации типа изображения
CN111340733A (zh) 图像处理方法及装置、电子设备和存储介质
US10204403B2 (en) Method, device and medium for enhancing saturation
CN111583142A (zh) 图像降噪方法及装置、电子设备和存储介质
CN107657608B (zh) 图像质量确定方法、装置及电子设备
CN112288657A (zh) 图像处理方法、图像处理装置及存储介质
CN111447360A (zh) 应用程序控制方法及装置、存储介质、电子设备
US10068151B2 (en) Method, device and computer-readable medium for enhancing readability
CN105574854B (zh) 确定图像单一性的方法及装置
CN112200745A (zh) 遥感影像的处理方法及装置、电子设备和存储介质
CN112714246A (zh) 连拍照片获取方法、智能终端及存储介质
CN117455782A (zh) 图像增强方法、图像增强装置及存储介质
CN111583145A (zh) 图像降噪方法及装置、电子设备和存储介质
CN116546320A (zh) 摄像头对焦方法、装置、电子设备和存储介质
CN117953508A (zh) 文本图像的ocr识别方法、电子设备及介质

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20210208

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20220330

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20220607

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20220617

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20220701

R150 Certificate of patent or registration of utility model

Ref document number: 7100729

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150