JP7415251B2 - 画像処理用の装置及び方法、並びにニューラルネットワークトをトレーニングするシステム - Google Patents

画像処理用の装置及び方法、並びにニューラルネットワークトをトレーニングするシステム Download PDF

Info

Publication number
JP7415251B2
JP7415251B2 JP2020529196A JP2020529196A JP7415251B2 JP 7415251 B2 JP7415251 B2 JP 7415251B2 JP 2020529196 A JP2020529196 A JP 2020529196A JP 2020529196 A JP2020529196 A JP 2020529196A JP 7415251 B2 JP7415251 B2 JP 7415251B2
Authority
JP
Japan
Prior art keywords
image
feature image
pixel
pixels
brightness
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2020529196A
Other languages
English (en)
Other versions
JP2022501663A (ja
JPWO2020062846A5 (ja
Inventor
ミケリーニ パブロ ナバレッテ、
ダン ジュー、
ハンウェン リウ、
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
BOE Technology Group Co Ltd
Original Assignee
BOE Technology Group Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Priority claimed from CN201811155252.6A external-priority patent/CN109255390B/zh
Priority claimed from CN201811155326.6A external-priority patent/CN109345455B/zh
Priority claimed from CN201811155930.9A external-priority patent/CN109345456B/zh
Priority claimed from CN201811155147.2A external-priority patent/CN109360151B/zh
Application filed by BOE Technology Group Co Ltd filed Critical BOE Technology Group Co Ltd
Publication of JP2022501663A publication Critical patent/JP2022501663A/ja
Publication of JPWO2020062846A5 publication Critical patent/JPWO2020062846A5/ja
Application granted granted Critical
Publication of JP7415251B2 publication Critical patent/JP7415251B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T3/00Geometric image transformations in the plane of the image
    • G06T3/40Scaling of whole images or parts thereof, e.g. expanding or contracting
    • G06T3/4053Scaling of whole images or parts thereof, e.g. expanding or contracting based on super-resolution, i.e. the output image resolution being higher than the sensor resolution
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/213Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • G06F18/2148Generating training patterns; Bootstrap methods, e.g. bagging or boosting characterised by the process organisation or structure, e.g. boosting cascade
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/047Probabilistic or stochastic networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/0475Generative networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/048Activation functions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/088Non-supervised learning, e.g. competitive learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/094Adversarial learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T3/00Geometric image transformations in the plane of the image
    • G06T3/20Linear translation of whole images or parts thereof, e.g. panning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T3/00Geometric image transformations in the plane of the image
    • G06T3/40Scaling of whole images or parts thereof, e.g. expanding or contracting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T3/00Geometric image transformations in the plane of the image
    • G06T3/40Scaling of whole images or parts thereof, e.g. expanding or contracting
    • G06T3/4007Scaling of whole images or parts thereof, e.g. expanding or contracting based on interpolation, e.g. bilinear interpolation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T3/00Geometric image transformations in the plane of the image
    • G06T3/40Scaling of whole images or parts thereof, e.g. expanding or contracting
    • G06T3/4046Scaling of whole images or parts thereof, e.g. expanding or contracting using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T3/00Geometric image transformations in the plane of the image
    • G06T3/40Scaling of whole images or parts thereof, e.g. expanding or contracting
    • G06T3/4053Scaling of whole images or parts thereof, e.g. expanding or contracting based on super-resolution, i.e. the output image resolution being higher than the sensor resolution
    • G06T3/4076Scaling of whole images or parts thereof, e.g. expanding or contracting based on super-resolution, i.e. the output image resolution being higher than the sensor resolution using the original low-resolution images to iteratively correct the high-resolution images
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T5/00Image enhancement or restoration
    • G06T5/50Image enhancement or restoration using two or more images, e.g. averaging or subtraction
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T5/00Image enhancement or restoration
    • G06T5/70Denoising; Smoothing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T5/00Image enhancement or restoration
    • G06T5/90Dynamic range modification of images or parts thereof
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/42Global feature extraction by analysis of the whole pattern, e.g. using frequency domain transformations or autocorrelation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/44Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
    • G06V10/443Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components by matching or filtering
    • G06V10/449Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters
    • G06V10/451Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters with interaction between the filter responses, e.g. cortical complex cells
    • G06V10/454Integrating the filters into a hierarchical structure, e.g. convolutional neural networks [CNN]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/56Extraction of image or video features relating to colour
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/74Image or video pattern matching; Proximity measures in feature spaces
    • G06V10/75Organisation of the matching processes, e.g. simultaneous or sequential comparisons of image or video features; Coarse-fine approaches, e.g. multi-scale approaches; using context analysis; Selection of dictionaries
    • G06V10/751Comparing pixel values or logical combinations thereof, or feature values having positional relevance, e.g. template matching
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20081Training; Learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20084Artificial neural networks [ANN]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20212Image combination

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Data Mining & Analysis (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • Software Systems (AREA)
  • Computing Systems (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Biomedical Technology (AREA)
  • Molecular Biology (AREA)
  • Mathematical Physics (AREA)
  • Computational Linguistics (AREA)
  • Biophysics (AREA)
  • Multimedia (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Databases & Information Systems (AREA)
  • Medical Informatics (AREA)
  • Biodiversity & Conservation Biology (AREA)
  • Probability & Statistics with Applications (AREA)
  • Image Analysis (AREA)
  • Image Processing (AREA)
  • Computational Mathematics (AREA)
  • Mathematical Analysis (AREA)
  • Mathematical Optimization (AREA)
  • Pure & Applied Mathematics (AREA)
  • Algebra (AREA)

Description

関連出願の相互参照
本出願は、2018年9月30に出願された中国特許出願第201811155252.6号に基づく優先権と、2018年9月30に出願された中国特許出願第201811155326.6号に基づく優先権と、2018年9月30に出願された中国特許出願第201811155147.2号に基づく優先権と、2018年9月30に出願された中国特許出願第201811155930.9号に基づく優先権とを主張しており、その内容は、本明細書において出典明記により全体に組み込まれる。
本開示は、全般的には、深層学習技術分野に関し、より詳しくは、画像処理鑑別ネットワーク用の装置、方法及びコンピュータ読み取り可能媒体を含む深層学習に基づく画像処理技術に関する。
人工ニューラルネットワークに基づく深層学習技術は、画像処理などの分野で大いに進歩している。深層学習技術の利点は、汎用構造及び比較的に類似したシステムを利用した異なる技術的問題のソリューションにある。
本開示の実施形態は、複数の相関性画像を生成する装置である。前記装置は、トレーニング画像を受信し、前記トレーニング画像から少なくとも1つ以上の特徴を抽出して前記トレーニング画像に基づいて第1特徴画像を生成するように構成される特徴抽出ユニットと、前記第1特徴画像を正規化し、第2特徴画像を生成するように構成される正規化器と、前記第2特徴画像に対して複数回の並進シフトを行って複数のシフトされた画像を生成し、前記複数のシフトされた画像の各々を前記第2特徴画像と相関させて複数の相関性画像を生成するように構成されるシフト相関ユニットとを含み得る。
少なくともいくつかの実施形態において、前記シフト相関ユニットは、前記第2特徴画像のピクセルブロック内の一番左の又は一番右のa列のピクセルをそれぞれ前記ピクセルブロックの一番右の又は一番左の列になるようにシフトし、前記第2特徴画像のピクセルブロック内の最下位又は最上位のb行のピクセルをそれぞれ前記ピクセルブロックの最上位又は最下位の行になるようにシフトすることによって、前記第2特徴画像に対して前記複数回の並進シフトを行うように構成され得る。少なくともいくつかの実施形態において、0≦a<Yであり、0≦b<Xであり、a及びbはいずれも整数であり、Yは前記第2特徴画像のピクセルブロック内のピクセルの総列数であり、Xは前記第2特徴画像のピクセルブロック内のピクセルの総行数であり、aとbとは同一であり、又は異なる。
少なくともいくつかの実施形態において、前記シフト相関ユニットは、前記第2特徴画像のピクセルブロック内の一番左の又は一番右のa列のピクセルを削除し、前記ピクセルブロックの一番右の又は一番左の位置にaのピクセルをそれぞれ追加することと、前記第2特徴画像のピクセルブロック内の最下位又は最上位のb行のピクセルを削除し、前記ピクセルブロックの最上位又は最下位の位置にbのピクセルをそれぞれ追加することによって、前記第2特徴画像に対して前記複数回の並進シフトを行うように構成され得る。少なくともいくつかの実施形態において、0≦a<Yであり、0≦b<Xであり、a及びbはいずれも整数であり、Yは前記第2特徴画像のピクセルブロック内のピクセルの総列数であり、Xは前記第2特徴画像のピクセルブロック内のピクセルの総行数であり、追加されたピクセルの各々は、0のピクセル値を有する
少なくともいくつかの実施形態において、前記シフト相関ユニットは、前記複数のシフトされた画像の各々のピクセルブロック内の各ピクセルのピクセル値に前記第2特徴画像のピクセルブロック内の位置的に対応するピクセルのピクセル値を乗じることによって、前記複数のシフトされた画像の各々を前記第2特徴画像と相関させるように構成され得る。少なくともいくつかの実施形態において、前記第1特徴画像は、輝度特徴画像であり得る。少なくともいくつかの実施形態において、前記特徴抽出ユニットは、前記トレーニング画像から輝度情報を抽出して前記輝度特徴画像を生成するように構成される輝度検出器を含み得る。
少なくともいくつかの実施形態において、前記輝度特徴画像を生成するために、前記輝度検出器は、次の式(1)によって前記輝度特徴画像における所与の位置でのピクセルの輝度値を確定するように構成され、
I=0.299R+0.587G+0.114B (1)
Iは、前記輝度値である。Rは、前記トレーニング画像における位置的に対応するピクセルの赤成分値である。Gは、前記トレーニング画像における位置的に対応するピクセルの緑成分値である。Bは、前記トレーニング画像における位置的に対応するピクセルの青成分値である。
少なくともいくつかの実施形態において、前記正規化器は、次の式(2)によって前記輝度特徴画像を正規化するように構成され得、
Nは、前記第1特徴画像である。Iは、前記輝度特徴画像における所与の位置でのピクセルの輝度値を表す。Blur(I)は、前記輝度特徴画像にガウシアンフィルタを適用することによって得られた画像である。Blur(I)は、前記輝度特徴画像における各ピクセル値を二乗してから、前記輝度特徴画像にガウシアンフィルタを適用することによって得られた画像である。
少なくともいくつかの実施形態において、前記第2特徴画像は、第1サイズを有するピクセルブロックを含み得る。前記複数のシフトされた画像の各々及び前記複数の相関性画像の各々は、前記第1サイズを有するピクセルブロックを含み得る。前記複数のシフトされた画像の各々において、非ゼロピクセル値を有するピクセルは、前記第2特徴画像における同じ非ゼロピクセル値を持つ対応するピクセルを有し得る。
本開示の別の実施形態は、複数の相関性画像を生成する方法である。前記方法は、トレーニング画像に基づいて第1特徴画像を生成するステップと、前記第1特徴画像を正規化し、第2特徴画像を生成するステップと、前記第2特徴画像に対して複数回の並進シフトを行って複数のシフトされた画像を生成するステップと、前記複数のシフトされた画像の各々を前記第2特徴画像と相関させて複数の相関性画像を生成するステップとを含み得る。
少なくともいくつかの実施形態において、前記複数のシフトされた画像の各々を前記第2特徴画像と相関させるステップは、前記複数のシフトされた画像の各々のピクセルブロック内の各ピクセルのピクセル値に前記第2特徴画像のピクセルブロック内の位置的に対応するピクセルのピクセル値を乗じるステップを含み得る。
少なくともいくつかの実施形態において、前記複数回の並進シフトを行うステップは、前記第2特徴画像のピクセルブロック内の一番左の又は一番右のa列のピクセルをそれぞれ前記ピクセルブロックの一番右の又は一番左の列になるようにシフトするステップと、前記第2特徴画像のピクセルブロック内の最下位又は最上位のb行のピクセルをそれぞれ前記ピクセルブロックの最上位又は最下位の行になるようにシフトするステップとを含み得る。少なくともいくつかの実施形態において、0≦a<Yであり、0≦b<Xであり、a及びbはいずれも整数であり、Yは前記第2特徴画像のピクセルブロック内のピクセルの総列数であり、Xは前記第2特徴画像のピクセルブロック内のピクセルの総行数であり、aとbとは同一であり、又は異なる。少なくともいくつかの実施形態において、a及びbの少なくとも一つは、前記複数回の並進シフトの実行中に少なくとも一回変化し得る。
少なくともいくつかの実施形態において、前記複数回の並進シフトを行うステップは、前記第2特徴画像のピクセルブロック内の一番左の又は一番右のa列のピクセルを削除し、前記ピクセルブロックの一番右の又は一番左の位置にa列のピクセルをそれぞれ追加するステップと、前記第2特徴画像のピクセルブロック内の最下位又は最上位のb行のピクセルを削除し、前記ピクセルブロックの最上位又は最下位の位置にb行のピクセルをそれぞれ追加するステップとを含み得る。少なくともいくつかの実施形態において、0≦a<Yであり、0≦b<Xであり、a及びbはいずれも整数であり、Yは前記第2特徴画像のピクセルブロック内のピクセルの総列数であり、Xは前記第2特徴画像のピクセルブロック内のピクセルの総行数である。少なくともいくつかの実施形態において、追加されたピクセルの各々は、0のピクセル値を有し得 る。少なくともいくつかの実施形態において、a及びbの少なくとも一つは、前記複数回の並進シフトの実行中に少なくとも一回変化し得る。
少なくともいくつかの実施形態において、前記方法は、X*Y回の並進シフトを行うステップを更に含み得、Yは前記第2特徴画像のピクセルブロック内のピクセルの総列数であり、Xは前記第2特徴画像のピクセルブロック内のピクセルの総行数である。
少なくともいくつかの実施形態において、前記方法は、前記第1特徴画像を生成する前に、前記トレーニング画像を受信するステップを更に含み得る。少なくともいくつかの実施形態において、前記第1特徴画像を生成するステップは、前記トレーニング画像の輝度情報に基づいて輝度特徴画像を生成するステップを含み得る。
少なくともいくつかの実施形態において、前記方法は、次の式(1)によって前記輝度特徴画像における所与の位置でのピクセルの輝度値を確定するステップを更に含み得、
I=0.299R+0.587G+0.114B (1)
Iは、前記輝度値である。Rは、前記トレーニング画像における位置的に対応するピクセルの赤成分値である。Gは、前記トレーニング画像における位置的に対応するピクセルの緑成分値である。Bは、前記トレーニング画像における位置的に対応するピクセルの青成分値である。
少なくともいくつかの実施形態において、前記方法は、次の式(2)によって前記輝度特徴画像を正規化するステップを更に含み得、
Nは、前記第1特徴画像である。Iは、前記輝度特徴画像を表す。Blur(I)は、前記輝度特徴画像にガウシアンフィルタを適用することによって得られた画像である。Blur(I)は、前記輝度特徴画像における各ピクセル値を二乗してから、前記輝度特徴画像にガウシアンフィルタを適用することによって得られた画像である。
少なくともいくつかの実施形態において、前記第1特徴画像は、第1サイズを有するピクセルブロックを含み得る。少なくともいくつかの実施形態において、前記複数のシフトされた画像の各々及び前記複数の相関性画像の各々は、前記第1サイズを有するピクセルブロックを含み得る。少なくともいくつかの実施形態において、前記複数のシフトされた画像の各々において、非ゼロピクセル値を有するピクセルは、前記第1特徴画像における同じ非ゼロピクセル値を持つ対応するピクセルを有し得る。
本開示の別の実施形態は、コンピュータに複数の相関性画像を生成する方法を実行させる命令を記憶する非一時的なコンピュータ読み取り可能媒体である。前記方法は、上記のようであり得る。
本開示の別の実施形態は、敵対的生成ネットワークをトレーニングするシステムである。前記システムは、鑑別ネットワークマイクロプロセッサによりトレーニングされるように構成される生成ネットワークマイクロプロセッサと、前記生成ネットワークにカップリングされた鑑別ネットワークマイクロプロセッサとを含む敵対的生成ネットワークプロセッサを含み得る。
少なくともいくつかの実施形態において、前記鑑別ネットワークマイクロプロセッサは、それぞれが上記のようであり得る複数の相関性画像を生成する複数の装置にカップリングされた複数の入力端と、それぞれが前記複数の入力端のうちの一つにカップリングされた複数の分析モジュールと、カスケードの各ステージが前記複数の分析モジュールのうちの一つ及び前記カスケードの前のステージにおけるプーリングモジュールにカップリングされたプーリングモジュールを含む前記カスケードにより、接続された複数のプーリングモジュールと、前記カスケードの最後のステージにおけるプーリングモジュールにカップリングされた鑑別ネットワークとを含み得る。
本発明と見なされる主題は、本明細書の終末での請求項に特に指摘され且つ明確に請求される。本開示の前述の及び他の目的、特徴並びに利点は、添付図面と併せて進められる次の詳細な説明からより明らかになるであろう。図面は以下の通りである。
本開示の実施形態に係る画像処理用の装置のブロック図を示す。 本開示の実施形態に係る第1特徴画像における3*3ピクセルブロックの概略図を示す。 本開示の実施形態に係る図2に図示される第1特徴画像をシフトすることによって得られた9つのシフトされた画像の各々における3*3ピクセルブロックを示す。 本開示の別の実施形態に係る図2に図示される第1特徴画像をシフトすることによって得られた9つのシフトされた画像の各々における3*3ピクセルブロックを示す。 本開示に係る画像処理用の装置にカップリングされ得る本開示の実施形態に係る鑑別ネットワークを示す。 本開示の実施形態に係る画像処理用の方法のフローチャートを示す。 本開示の別の実施形態に係る画像処理用の方法のフローチャートを示す。 本開示の実施形態に係るニューラルネットワークをトレーニングするシステムのブロック図を示す。
図示は当業者による詳細な説明と併せた本発明の理解の促進における明確性を図るものであるため、図面の多様な特徴は一定の縮尺で描かれたものではない。
次に、上で簡単に述べられた添付図面と併せて本開示の実施形態を明確且つ具体的に記述することにする。本開示の主題は、法定要件を満たすために特異性を持って記述される。しかし、説明そのものは本開示の範囲を限定することを意図していない。むしろ、本発明者らは、この文書で記述されるステップ又は要素に類似した異なるステップ又は要素を含むように、請求される主題が現在又は将来の技術と併せて他のやり方で具現され得ることを考える。
多様な図面の実施形態に関連して本技術を記述したが、理解すべきことは、本技術から逸脱することなく本技術の同じ機能を実行するために、他の類似した実施形態が利用され得るか、又は記述された実施形態に対する変更及び追加が実施され得る。したがって、本技術は、いずれか単一の実施形態に限定されるべきではなく、添付される特許請求の範囲に応じた広さ及び範囲に準拠して解釈されるべきである。また、当該技術分野における通常の知識を有する者によりこの書類に記載される実施形態に基づいて得られるその他すべての実施形態は本開示の範囲内であると見なされる。
人工ニューラルネットワークに基づく深層学習技術は、画像処理などの分野で大いに進歩している。深層学習は、機械学習方法におけるデータの特徴づけに基づく学習方法である。観測値(例えば、画像)は多様なピクセルの強度値のベクタとして、もしくは、より抽象的には、一連のエッジ、特定の形状を有する領域等として多様な方式により表され得る。深層学習技術の利点は、汎用構造及び比較的に類似したシステムを利用した異なる技術的問題のソリューションにある。深層学習の利点は、特徴の手動取得を特徴学習及び階層的な特徴抽出用の効率的な教師なし又は半教師ありアルゴリズムに置き換えることである。
自然界の画像は、人間によって合成的に又はコンピュータによってランダムに作成された画像と容易に区別され得る。自然画像は、少なくとも特定の構造を含有し、非常に非ランダムであるため特徴的である。例えば、合成的に及びコンピュータによってランダムに生成された画像は、自然的なシーン又はオブジェクトをほとんど含有しない。
圧縮アルゴリズム、アナログ記憶媒体、さらには人間自身の視覚システムのような画像処理システムは現実世界の画像に対して機能する。敵対的生成ネットワーク(GAN)は、自然画像の現実的サンプルを生成する一ソリューションである。GANは、2つのモデルが同時にトレーニングされるか又はクロストレーニングされる生成モデリングへのアプローチであり得る。
学習システムは、特定のターゲットに基づいてパラメータを調整するように構成され、損失関数で表され得る。GANにおいて、損失関数は、難しいタスクを独立して学習できる別の機械学習システムに置き換えられる。GANは、通常、鑑別ネットワークに対抗する生成ネットワークを含む。前記生成ネットワークは、低解像度データ画像の入力を受信し、前記低解像度データ画像をアップスケールし、当該アップスケールされた画像を前記鑑別ネットワークに送る。前記鑑別ネットワークは、その入力が前記生成ネットワークの出力(即ち、「フェイク」アップスケールされたデータ画像)であるかそれとも実際画像(即ち、オリジナル高解像度データ画像)であるかを分類するタスクを任せられる。前記鑑別ネットワークは、その入力がアップスケールされた画像及びオリジナル画像である確率を測定する「0」と「1」の間のスコアを出力する。前記鑑別ネットワークが「0」又は「0」に近づくスコアを出力する場合、前記鑑別ネットワークは、当該画像が前記生成ネットワークの出力であると判断している。前記鑑別ネットワークが「1」又は「1」に近づく数値を出力する場合、前記鑑別ネットワークは、当該画像がオリジナル画像であると判断している。このような生成ネットワークを鑑別ネットワークに対抗させ、したがって、「敵対的」な仕方は2つのネットワーク間の競争を利用して、生成ネットワークにより生成された画像がオリジナルと区別できなくなるまで、両方のネットワークがそれらの方法を改善するように駆動する。
鑑別ネットワークは、所定のスコアを有するデータを用いて入力を「リアル」又は「フェイク」とスコアリングするようにトレーニングされ得る。「フェイク」データは生成ネットワークにより生成された高解像度画像であり得、「リアル」データは所定のリファレンス画像であり得る。鑑別ネットワークをトレーニングするために、鑑別ネットワークが「リアル」データを受信する時はいつでも「1」に近づくスコアを出力し、「フェイク」データを受信する時はいつでも「0」に近づくスコアを出力するまで、前記鑑別ネットワークのパラメータを調整する。生成ネットワークをトレーニングするために、前記生成ネットワークの出力が鑑別ネットワークから「1」にできるだけ近いスコアを受信するまで、前記生成ネットワークのパラメータを調整する。
GANの普遍的な類推は、偽造者と警察である。生成ネットワークは偽造者に類推され、贋金を製造して、検出なしにそれを使用しようとするのに対し、鑑別ネットワークは警察に類推され、当該贋金を検出しようとし得る。偽造者と警察の間の競争は双方が偽造品を本物と区別できなくなるまでそれらの方法を改善するように刺激する。
生成ネットワーク及び鑑別ネットワークの両方ともゼロ和ゲームで異なり且つ対立する目的関数、即ち、損失関数を最適化しようとする。「クロストレーニング」を通じて鑑別ネットワークによる出力を最大化し、生成ネットワークは生成ネットワークが生成する画像を改善し、鑑別ネットワークはそのオリジナル高解像度画像と生成ネットワークにより生成された画像の区別の正確度を向上させる。前記生成ネットワークと前記鑑別ネットワークとは、より良好な画像を生成し、画像を評価する基準を高めようと競争する。
特定のパラメータにおいて、生成ネットワークを改善するようにトレーニングするためには、オリジナル高解像度画像と生成ネットワークにより生成された画像の区別における鑑別ネットワークの正確度を高める必要が残っている。例えば、リアルで破損していないと認識される画像の生成するタスクに関心がある。これは、ぼけ除去、雑音除去、デモザイク処理、圧縮解除、コントラスト強調、画像超解像度などのような問題に応用できる。このような問題において、破損された画像が視覚的に損なわれており、機械学習システムがそれを修復するために設計され得る。しかし、オリジナル画像を復旧する目標は往々にして非現実的であり、本物らしく見えない画像につながる。GANは、「リアル」画像を生成するように設計される。一般的な構成は、カラー出力画像を取り、機械学習システム(例えば、畳み込みネットワーク)を用いて画像がどれほどリアルであるかを測定する単一の数値を出力する。このシステムは知覚品質を向上できるが、現在、敵対的システムの出力は依然として人間ビューアにより自然画像と認識されるのに不足している。
図1は、本開示の実施形態に係る画像処理用の装置のブロック図を示す。
図1のブロック図は、装置100が図1に示されるコンポーネントのみを含むことを示すことを意図していない。むしろ、装置100は、具体的な実施の詳細に応じて、当該技術分野における通常の知識を有する者に知られているが図1に示されていない任意の数の追加的なアクセサリ及び/又はコンポーネントを含み得る。
図1に示す如く、装置100は、特徴抽出ユニット110と、シフト相関ユニット120とを含む。
特徴抽出ユニット110は、装置100に入力されるか又は装置100により受信されるトレーニング画像から1つ以上の特徴を抽出し、当該抽出された特徴に基づいて特徴画像を生成するように構成される。前記特徴画像は、前記トレーニング画像の1つ以上の特徴を表す。前記トレーニング画像は、生成ネットワークにより生成された画像又は所定のリファレンス画像であり得る。
いくつかの実施形態において、図1に示す如く、特徴抽出ユニット110は、輝度検出器111を含み得る。
輝度検出器111は、例えば、トレーニング画像における輝度に関する情報をトレーニング画像から抽出することによって、前記トレーニング画像の第1特徴画像を生成するように構成される。したがって、前記第1特徴画像は、輝度特徴画像とも称され得る。
いくつかの実施形態において、図1に示す如く、特徴抽出ユニット110は、正規化器112を含み得る。
正規化器112は、前記第1特徴画像を正規化することによって第2特徴画像を生成するように構成される。第1特徴画像が輝度特徴画像である実施形態において、正規化器112は、前記輝度特徴画像を正規化するように構成される。正規化により、画像のピクセル値がより小さな値の範囲内に収まるようにし、高すぎる又は低すぎる外れピクセル値を取り除くことができる。これは、結局、以下で議論されるように、相関性の計算を促進できる。
本開示に係る画像処理用の装置100は、汎用のコンピュータ、マイクロプロセッサ、デジタル電子回路、集積回路、特に設計されたASIC(特定用途向け集積回路)、コンピュータハードウェア、ファームウェア、ソフトウェア、及び/又はその組み合わせの形になっているコンピューティング装置で実施され得る。
特徴抽出ユニット110により生成された第2特徴画像は、さらなる処理を行うためにシフト相関ユニット120に出力される。シフト相関ユニット120は、前記第2特徴画像の複数回の並進シフトを行って複数のシフトされた画像を生成するように構成される。シフト相関ユニット120は、さらに、前記第2特徴画像と前記複数のシフトされた画像の各々の間の1組の相関性に基づいて複数の相関性画像を生成するように構成される。シフト相関ユニット120は、さらに、深層学習ネットワークをトレーニングするために、前記複数の相関性画像を深層学習ネットワークに送信するように構成される。例えば、いくつかの実施形態において、前記複数の相関性画像を敵対的生成ネットワークにおける鑑別ネットワークに送信して、前記鑑別ネットワークを敵対的生成ネットワークにおける生成ネットワークと反復的にトレーニングし得る。
前記第2特徴画像は、第1数量の行のピクセル及び第1数量の列のピクセルにより定義される第1サイズのピクセルブロックを有する。前記第2特徴画像は、複数の並進シフトの前に前記第1サイズに対応する第1領域を占める。並進シフトは、いくつかの方法で達成され得る。いくつかの実施形態において、並進シフトは、前記第2特徴画像におけるピクセルを初期領域から行(又は水平)方向或いは列(又は垂直)方向に移動させる。いくつかの実施形態において、並進シフトは、前記第1領域の外にシフトされたピクセルの行及び/又は列を削除することと、シフトされたピクセルによって空いたスペースにおけるピクセルに「0」の値を割り当てることとを含み得る。いくつかの実施形態において、並進シフトは、ピクセルの行及び/又は列を並べ替えるか又は再配列することを含み得る。
前記複数のシフトされた画像の各々は、前記第2特徴画像におけるピクセルブロックの第1サイズと同じサイズのピクセルブロックを有する。前記複数のシフトされた画像の各々は、前記第2特徴画像と同じ数の行のピクセル及び同じ数の列のピクセルを有する。
各シフトされた画像における非ゼロ値を有する各々のピクセルは、前記第2特徴画像における同じ非ゼロ値を持つ対応するピクセルを有する。少なくともいくつかの実施形態において、前記第2特徴画像における対応するピクセルを有しないピクセは「0」の値が割り当てられる。例示的な例として、シフトされた画像における最初の2行のピクセルの値は、第1特徴画像の最後の2行におけるそれぞれ対応するピクセルの値と同じであり、前記シフトされた画像における他の全てのピクセルは「0」の値が割り当てられる。前記第2特徴画像における対応するピクセルを有するシフトされた画像における各ピクセルは、対応するピクセルと同じピクセル値を有する。
本開示において、「対応するピクセル」は、位置的に対応するピクセルに限定されず、異なる位置を占めるピクセルも含み得る。「対応するピクセル」は、同じピクセル値を有するピクセルを指す。
本開示において、画像はピクセルブロックとして処理される。ブロック内のピクセルの値は、ブロック内のピクセルに位置的に対応する画像におけるピクセルの値を表す。
2つの画像の間の相関性は、当該2つの画像のピクセルブロックのピクセル対ピクセルの乗算によって計算され得る。例えば、相関性画像のi行目かつj列目(i,j)のピクセルの値は、第2特徴画像における(i,j)位置でのピクセルの値に、対応するシフトされた画像における(i,j)位置でのピクセルの値を乗じることによって確定され得る。
図1に示す如く、いくつかの実施形態において、特徴抽出ユニット110は、輝度検出器111と、正規化器112とを含む。
輝度検出器111は、例えば、特徴抽出ユニット110が受信したトレーニング画像から前記トレーニング画像における輝度に関する情報を抽出することによって第1特徴画像を生成し、当該抽出された輝度情報に基づいて輝度特徴画像を生成するように構成される。したがって、前記第1特徴画像は、輝度特徴画像とも称される。人間の目は、他の特徴よりも画像の輝度にもっと敏感である傾向がある。輝度情報を抽出することにより、本開示の装置は、トレーニング画像から不必要な情報を取り除き、処理負荷を低減できる。
前記輝度特徴画像におけるピクセルの行及び列の数は、前記トレーニング画像と同じである。前記輝度特徴画像のi行目かつj列目(i,j)でのピクセルの輝度値Iは、次の式(1)によって計算され得る。
I=0.299R+0.587G+0.114B (1)
式(1)において、Rは、前記トレーニング画像におけるピクセル(i,j)の赤成分値を表す。Gは、緑成分値を表す。Bは、青成分値を表す。i及びjはいずれも整数である。iの値は、1≦i≦Xである。jの値は、1≦j≦Yである。Xは前記トレーニング画像における総行数であり、Yは前記トレーニング画像における総列数である。
いくつかの実施形態において、前記トレーニング画像は、カラー画像である。いくつかの実施形態において、前記トレーニング画像は、Rコンポーネントと、Gコンポーネントと、Bコンポーネントとを有し、本開示の装置は、前記Rコンポーネント、前記Gコンポーネント、及び前記Bコンポーネントが前記輝度検出器に入力されて、それぞれYコンポーネント、Uコンポーネント、及びVコンポーネントに変換されてから、そこで、それぞれYチャンネル、Uチャンネル、及びVチャンネルに入力されるように、前記トレーニング画像を処理するように構成され得る。前記Yコンポーネント、前記Uコンポーネント、及びVコンポーネントは、YUV空間内のトレーニング画像のコンポーネントである。前記Yチャンネル、前記Uチャンネル、前記Vチャンネルは、これらのチャンネルからの出力がそれぞれYコンポーネント出力、Uコンポーネント出力、及びVコンポーネント出力であることを示す。トレーニング画像のRGBコンポーネントがYUVコンポーネントに変換される実施形態において、前記輝度値Iは、Yコンポーネントの値に対応する。
いくつかの実施形態において、トレーニング画像は、Yコンポーネントと、Uコンポーネントと、Vコンポーネントとを有する。その場合、本開示の装置は、前記輝度検出器のYチャンネルを介して前記トレーニング画像のYコンポーネントを処理し、前記輝度検出器のUチャンネルを介して前記トレーニング画像のUコンポーネントを処理し、前記輝度検出器Vチャンネルを介して前記トレーニング画像のVコンポーネントを処理するように構成され得る。
いくつかの実施形態において、YUV空間を用いることは、トレーニング画像に対してクロマサンプリングを行うことである。前記トレーニング画像のYコンポーネントは、Yチャンネルに入る。前記トレーニング画像のUコンポーネントは、Uチャンネルに入る。前記トレーニング画像のVコンポーネントは、Vチャンネルに入る。前記トレーニング画像の入力信号を3つのグループに分けることにより、前記Yコンポーネント、前記Uコンポーネント、及び前記Vコンポーネントのグループからのコンポーネントにおけるそれぞれのチャンネル処理信号は、計算負担を軽減し、処理速度を向上し得る。前記Uコンポーネント及び前記Vコンポーネントは、画像の表示効果への影響が比較的に低いため、異なるチャンネルにおいて異なるコンポーネントを処理するのは、画像表示に大きな影響を及ぼさない。
正規化器112は、前記第1特徴画像を正規化することによって第2特徴画像を生成するように構成される。特徴抽出ユニット110が輝度検出器111を含み且つ第1特徴画像が輝度特徴画像である実施形態において、正規化器112は、前記輝度特徴画像を正規化するように構成される。正規化により、画像のピクセル値がより小さな値の範囲内に収まるようにし、高すぎる又は低すぎる外れピクセル値を取り除くことができる。これは、結局、相関性の計算を促進できる。
より具体的には、正規化器112は、次の式(2)によって正規化を行って、第2特徴画像を得るように構成される。
式(2)において、Nは、第2特徴画像を表す。Iは、トレーニング画像から得られた輝度特徴画像を表す。Blurは、ガウシアンぼかしを表す。Blur(I)は、前記輝度特徴画像に対して実行するガウシアンぼかしフィルタを表す。Blur(I)は、前記輝度特徴画像における各ピクセル値を二乗してから、前記輝度特徴画像にガウシアンぼかしフィルタを実行することによって得られた画像を表す。μは、ガウシアンぼかしフィルタを用いて得られた出力画像を表す。σは、局所分散正規化された画像を表す。
本開示のいくつかの実施形態において、第2特徴画像の並進シフトは、前記第2特徴画像における最後のa列のピクセルを残りの列のピクセルの前にシフトして中間画像を得ることを含む。そして、前記中間画像における最後のb行のピクセルを残りの行のピクセル前にシフトしてシフトされた画像を得る。aの値は、0≦a<Yである。bの値は、0≦b<Xである。a及びbはいずれも整数である。Xは、前記第2特徴画像におけるピクセルの総行数を表す。Yは、前記第2特徴画像におけるピクセルの総列数を表す。aの値とbの値とは同じか又は異なり得る。a及びbがいずれもゼロである場合、前記シフトされた画像は、前記第2特徴画像である。いくつかの実施形態において、任意の所与の2つの画像シフトプロセスにおいて、a及びbの少なくとも一つの値は変化する。シフトが行われる順序が特に限定されないことは理解できる。例えば、いくつかの実施形態において、行のピクセルをシフトして中間画像が得られ得、そして列のピクセルをシフトしてシフトされた画像が得られ得る。
前記シフトされた画像における各ピクセルの値は、前記第2特徴画像におけるピクセルの値に対応する。複数のシフトされた画像の各々におけるピクセル(i,j)の値は、前記第2特徴画像における異なる位置での異なるピクセルに由来する。
いくつかの実施形態において、前記第1特徴画像の並進シフトは、前記第2特徴画像における最後のb行のピクセルを残りの行のピクセルの前にシフトして中間画像を得ることを含む。そして、前記中間画像における最後のa行のピクセルを残りの行のピクセルの前にシフトしてシフトされた画像を得る。
いくつかの実施形態において、前記第2特徴画像に対してX*Y回の並進シフトを行ってX*Y個の相関性画像を得る。a及びbがいずれもゼロである場合でも、これも一つの並進シフトとしてカウントされる。
図1のブロック図は、装置100が図1に示されるコンポーネントのみを含むことを示すことを意図していない。むしろ、装置100は、具体的な実施の詳細に応じて、当該技術分野における通常の知識を有する者に知られているが図1に示されていない任意の数の追加的なアクセサリ及び/又はコンポーネントを含み得る。
図2は、本開示の実施形態に係る第2特徴画像における3*3ピクセルブロックの概略図を示す。図2において、「p1」…「p9」はそれぞれ9つのピクセルのうちの一つの値を表す。図3は、本開示の実施形態に係る図2に図示される第2特徴画像をシフトすることによって得られた9つのシフトされた画像の各々における3*3ピクセルブロックを示す。
本開示の実施形態において、前記第2特徴画像は、第1サイズを有するピクセルブロックを含む。前記複数のシフトされた画像の各々及び前記複数の相関性画像の各々は、前記第1サイズを有するピクセルブロックを含む。
本開示の目的のために、図2に図示されるブロック内の最上位の行のピクセルは第1行であり、図2に図示されるブロック内の一番左の列のピクセルは第1列である。a=1かつb=1である場合、図3における第2行の中央に示されるシフトされた画像が得られ、前記第2特徴画像における最後の列(即ち、一番右の列)のピクセルを第1列(即ち、一番左の列)のピクセルの前に移動し、最後の行(即ち、一番下の行)のピクセルを第1行(即ち、一番上の行)のピクセルの前に移動する。
図2及び図3に図示される実施形態において、ピクセルはブロック内の9つの位置のうちの一つを占めることができ、各ピクセルが9つの位置の各々に現れる可能性が9つのシフトされた画像に反映される。その後、9つの相関性画像には、各ピクセルのそれ自体との相関性だけでなく、各ピクセルの画像における他のピクセルとの相関性も含まれている。敵対的生成ネットワークの例示的な例において、前記生成ネットワークが、一つのピクセルの値が高解像度のオリジナル(「リアル」)画像と異なる画像を生成する場合、合成的に生成された画像に基づいて得られた各相関性画像は、前記高解像度のオリジナル画像の相関性画像との不一致を示す。この不一致は、鑑別ネットワークに合成的に生成された画像を「0」により近くスコアリングさせ(即ち、「フェイク」の分類)、前記生成ネットワークがより現実的で知覚的により納得のいく出力の生成をアップデート及び向上させるように駆動する。
本開示が画像に応用され得る並進シフトを限定しないことは理解できる。図4は、本開示の別の実施形態に係る図2に図示される第2特徴画像をシフトした後に得られた9つのシフトされた画像の各々における3*3ピクセルブロックを示す。
図2及び図4において、前記第2特徴画像における最後のa列のピクセルを除去し、残りの列のピクセルの前にa列のピクセルを追加して中間画像を得る。当該追加されたa列における各々のピクセルは、「0」の値を有する。次に、前記中間画像において、最後のb行のピクセルを除去し、残りの行のピクセルの前にb行のピクセルを追加してシフトされた画像を得る。当該追加されたb列における各々のピクセルは「0」の値を有する。より具体的には、0≦a<Yであり、0≦b<Xであり、a及びbはいずれも整数である。Xは、前記第2特徴画像におけるピクセルの総行数を表す。Yは、前記第2特徴画像におけるピクセルの総列数を表す。aの値とbの値とは同じか又は異なり得る。いくつかの実施形態において、任意の所与の2つの画像シフトプロセスにおいて、a及びbの少なくとも一つの値は変化する。
シフト相関ユニット120は、2つの画像における対応する位置でのピクセルの値を乗じることによって相関性画像を生成するように構成される。相関性画像において、(i,j)位置でのピクセルの値は、前記第2特徴画像におけるピクセル(i,j)の値と前記シフトされた画像におけるピクセル(i,j)の値とを乗じることによって得られる。iの値は、1≦i≦Xである。jの値は、1≦j≦Yである。i及びjはいずれも整数である。Xは、前記第2特徴画像におけるピクセルの総行数を表す。Yは、前記第2特徴画像におけるピクセルの総列数を表す。
本開示に係る画像処理用の装置100は、汎用のコンピュータ、マイクロプロセッサ、デジタル電子回路、集積回路、特に設計されたASIC(特定用途向け集積回路)、コンピュータハードウェア、ファームウェア、ソフトウェア、及び/又はその組み合わせの形になっているコンピューティング装置で実施され得る。これらの多様な実施は、少なくとも一つのプログラマブルプロセッサを含むプログラマブルシステムで実行可能及び/又は解釈可能な1つ以上のコンピュータプログラムにおける実施を含み、当該少なくとも一つのプログラマブルプロセッサは専用又は汎用であり得、且つカップリングされて記憶システム、少なくとも一つの入力装置、及び少なくとも一つの出力装置からデータ及び命令を受信し、記憶システム、少なくとも一つの入力装置、及び少なくとも一つの出力装置にデータ及び命令を送信し得る。
これらのコンピュータプログラム(プログラム、ソフトウェア、ソフトウェアアプリケーション又はコードとも呼ばれる)は、プログラマブルプロセッサの機械命令を含み、高レベルの手続き及び/又はオブジェクト指向プログラミング言語、及び/又はアセンブリ/機械言語で実施され得る。本明細書で使用されるように、用語「機械読み取り可能媒体」、「コンピュータ読み取り可能媒体」は、機械読み取り可能信号として機械命令を受信する機械読み取り可能媒体を含むプログラマブルプロセッサに機械命令及び/又はデータを提供するために用いられる任意のコンピュータプログラム製品、装置及び/又はデバイス(例えば、磁気ディスク、光ディスク、メモリ、プログラマブル論理デバイス(PLD))を指す。用語「機械読み取り可能信号」は、プログラマブルプロセッサに機械命令及び/又はデータを提供するために用いられる任意の信号を指す。
ユーザとのインタラクションを提供するために、本説明書で記述される装置、システム、プロセス、機能、及び技法は、ユーザに情報を表示するための表示装置(例えば、CRT(陰極線管)又はLCD(液晶ディスプレイ)モニター)、並びにユーザがコンピュータに入力を提供できるキーボード及びポインティングデバイス(例えば、マウス又はトラックボール))を有するコンピュータで実施され得る。他の種類のアクセサリ及び/又はデバイスを用いてユーザとのインタラクションを提供しても良い。例えば、ユーザに提供されるフィードバックは任意の形の感覚フィードバック(例えば、視覚フィードバック、聴覚フィードバック、又は触覚フィードバック)であり得る。ユーザからの入力は、音響、音声又は触覚入力を含む任意の形で受信され得る。
上記の装置、システム、プロセス、機能、及び技法は、バックエンド・コンポーネント(例えば、データサーバとして)を含む、又はミドルウェアコンポーネント(例えば、アプリケーションサーバ)を含む、又はフロントエンドコンポーネント(例えば、ユーザが上記の装置、システム、プロセス、機能、及び技法の実施とインタラクションを行えるグラフィカルユーザインタフェース又はウェブブラウザを有するクライアントコンピュータ)を含む、又はそのようなバックエンド、ミドルウェア、又はフロントエンドコンポーネントの組み合わせを含むコンピューティングシステムにおいて実施され得る。前記システムのコンポーネントは、任意の形式又はデジタルデータ通信の媒体(通信ネットワーク等)により相互接続され得る。通信ネットワークの例は、ローカルエリアネットワーク(「LAN」)、ワイドエリアネットワーク(「WAN」)、及びインターネットを含む。
前記コンピューティングシステムは、クライアントと、サーバとを含み得る。クライアントとサーバとは、通常互いに離れており、且つ、一般的に通信ネットワークを介してインタラクションを行う。クライアントとサーバの関係は、それぞれのコンピュータで実行され且つ互いにクライアント・サーバ関係を持つコンピュータプログラムによって生じる。
本開示に係る画像処理用の装置は、ニューラルネットワークにカップリングされ得、前記ニューラルネットワークをトレーニングするように構成され得る。いくつかの実施形態において、本開示に係る装置は、敵対的生成ネットワーク(GAN)をトレーニングするように構成される。前記GANは、生成ネットワークと、鑑別ネットワークとを含み得る。
前記鑑別ネットワークは、鑑別ネットワークが入力として受信した画像と入力された画像と同じ解像度を有する所定のリファレンス画像の間のマッチング度を分類できる限り、当該技術分野における通常の知識を有する者に知られている任意の適当な方法で構築及び構成され得る。図5は、本開示の実施形態に係る鑑別ネットワーク200を示す。鑑別ネットワーク200は、複数の入力端In1、In2、In3と、複数の分析モジュール210と、複数のプーリングモジュール220と、鑑別モジュール230とを含み得る。
複数の分析モジュール210の各々は、複数の入力端In1、In2、In3の対応する一つにカップリングされる。分析モジュール210は、入力端In1、In2、In3を介して本開示に係る装置により生成された複数の相関性画像を受信する。分析モジュール210は、前記複数の相関性画像に基づいて対応する複数の第3特徴画像を生成するように構成される。前記複数の第3特徴画像の各々は、対応する相関性画像の異なるディメンションを表すマルチチャンネル画像である。前記複数の第3特徴画像の各々は、前記対応する相関性画像より多い数のチャンネルを有する。例えば、入力される相関性画像は3つのチャンネルを有し得、出力される第3特徴画像は64個のチャンネル、128個のチャンネル又は他の任意の数のチャンネルを有し得る。前記複数の第3特徴画像の各々は、前記対応する相関性画像と同じ解像度で生成される。
複数の分析モジュール210の各々は、複数のプーリングモジュール220のうちの一つにカップリングされる。複数のプーリングモジュール220は、カスケード接続される。プーリングモジュール220は、複数の入力画像を受信し、前記複数の入力画像を連結することによって併合画像を生成し、前記併合画像の解像度を低下させてダウンスケールされた併合画像を生成するように構成される。より具体的には、前記複数の入力画像は、対応する分析モジュール210から受信された第3特徴画像と、リファレンス画像とを含む。図5に示す如く、カスケードの第1ステージにおいて、分析モジュール210からの第3特徴画像は、対応するプーリングモジュール220のリファレンス画像として兼ねる。カスケードの後続のステージにおいて、前記リファレンス画像は、カスケードの前のステージにおけるプーリングモジュールにより生成されたダウンスケールされた併合画像である。
鑑別モジュール230は、カスケードの最後のステージにおけるプーリングモジュール220からダウンスケールされた併合画像を受信し、受信された画像と、当該受信された画像と同じ解像度を有する所定のリファレンス画像との間のマッチング度を表すスコアを生成することによって受信されたダウンスケールされた併合画像を分類するように構成される。
前記生成ネットワークは、生成ネットワークが画像をアップスケール及び生成できる限り、当該技術分野における通常の知識を有する者に知られている任意の適当な方法で構築及び構成され得る。
装置100は、前記鑑別ネットワークの入力端を介して前記鑑別ネットワークにカップリングされ得る。前記鑑別ネットワークは、前記生成ネットワークからの出力画像、又は高解像度オリジナルサンプル画像を直接受信しなくて良い。むしろ、前記鑑別ネットワークは、前記生成ネットワークからの出力画像、又は高解像度オリジナルサンプル画像が装置100により前処理された後にそれらを受信、分類及びスコアリングするように構成され得る。言い換えれば、前記鑑別ネットワークは、装置100からの出力を受信、分類及びスコアリングするように構成され得る。
GANをトレーニングする従来の方法は、生成ネットワークからの出力画像又はオリジナルサンプル画像を、分類のために、直接鑑別ネットワークに送る。その結果、分類を目的として、前記鑑別ネットワークは前記出力画像又は前記オリジナルサンプル画像にある情報に依存することに限定される。
本開示に係る画像処理用の装置において、シフト相関ユニットは、前記生成ネットワークからの出力画像及び/又は高解像度のオリジナル画像を処理して複数の相関性画像を生成する。例えば、前記シフト相関ユニットは、前記出力画像及び/又は前記オリジナルサンプル画像に固有の情報だけでなく、それらの画像とシフトされた或いはそうでなければ変換された画像の間の相関性に関する情報も含む複数の相関性画像を生成するように構成される。従来の方法に比べ、本開示のシステムにおける鑑別ネットワークは、例えば、前記生成ネットワークからの出力画像と前記変換された画像の間の1組の相関性と、前記オリジナルサンプル画像と前記変換された画像の間の1組の相関性とを比較することによって分類を行うための追加的な情報を備える。さらに、自然画像評価(NIQE)非参照画質スコアにより、出力画像(又はオリジナルサンプル画像)と変換画像の間の相関性は知覚品質に影響を与えることが考えられる。
従来の方法に比べ、本開示の画像処理用の装置からの出力に基づく分類は、分類の精度を高め、分類結果の正確性を改善し、実画像に非常に似ているので鑑別ネットワークにより分類されにくいソリューションの作成に向かって生成ネットワークのパラメータをトレーニングする。これは、知覚的に優れたソリューションを促す。
本開示は、画像処理用の方法を更に提供する。図6は、本開示の実施形態に係る画像処理用の方法のフローチャートを示す。
ステップS1は、例えば、トレーニング画像の抽出された輝度情報に基づいて輝度特徴画像を生成することによって第1特徴画像を得るステップを含む。
ステップS2は、前記第1特徴画像を正規化して第2特徴画像を得るステップを含む。
ステップS3は、前記第2特徴画像に対して複数回の並進シフトを行って複数のシフトされた画像を得るステップを含む。各シフトされた画像は、前記第2特徴画像と同じ数の行及び列のピクセルを有する。各シフトされた画像における非ゼロ値を有する各ピクセルは、前記第2特徴画像における同じ非ゼロ値を持つ対応するピクセルを有する。前記第2特徴画像における対応するピクセルを有しないピクセルは、「0」の値が割り当てられてもよい。言い換えれば、シフトされた画像における非ゼロ値を有する各ピクセルは、前記第2特徴画像における対応するピクセルを有する。
ステップS4は、前記第2特徴画像と前記複数のシフトされた画像の間の相関性に基づいて複数の相関性画像を生成するステップを含む。各相関性画像は、前記第2特徴画像と同じ数の行及び列のピクセルを有する。
ステップS5は、例えば、敵対的生成ネットワークの鑑別ネットワークのようなニューラルネットワークに前記複数の相関性画像を送信するステップを含む。
本開示に係る方法は、ニューラルネットワークをトレーニングするように構成され得る。いくつかの実施形態において、本開示に係る方法は、敵対的生成ネットワーク(GAN)をトレーニングするように構成される。前記GANは、生成ネットワークと、鑑別ネットワークとを含み得る。GANをトレーニングする従来の方法は、生成ネットワークからの出力画像又はオリジナルサンプル画像を、分類のために、直接鑑別ネットワークに送る。その結果、分類を目的として、前記鑑別ネットワークは前記出力画像又は前記オリジナルサンプル画像にある情報に依存することに限定される。
従来の技法に比べ、本開示の方法は、生成ネットワークからの出力画像又は高解像度のオリジナル画像を直接鑑別ネットワークに送信しない。むしろ、画像は、分類のために前記鑑別ネットワークに送られる前に、特徴抽出ユニットとシフト相関ユニットとを含む上記の装置により処理される。前記シフト相関ユニットは、複数の変換された画像を生成する。例えば、前記シフト相関ユニットは、前記出力画像及び/又は前記オリジナルサンプル画像に固有の情報だけでなく、それらの画像と変換された画像の間の相関性に関する情報も含む複数の相関性画像を生成するように構成される。この追加的な情報は、前記鑑別ネットワークが2組の相関性の間の類似性に基づいて、即ち、前記生成ネットワークからの出力画像と前記変換された画像の間の1組の相関性と、前記オリジナルサンプル画像と前記変換された画像の間のもう1組の相関性の間の類似性に基づいて分類を行うようにする。さらに、自然画像評価(NIQE)非参照画質スコアにより、出力画像(又はオリジナルサンプル画像)と変換された画像の間の相関性は知覚品質に影響を与えることが考えられる。
本開示の装置からの出力に基づく分類は、分類の精度を高め、分類結果の正確性を改善し、実画像に非常に似ているので鑑別ネットワークにより分類されにくいソリューションの作成に向かって生成ネットワークのパラメータをトレーニングする。これは、知覚的に優れたソリューションを促す。
図7は、本開示の別の実施形態に係る画像処理用の方法のフローチャートを示す。
ステップS1は、第1特徴画像を得るステップを含む。前記第1特徴画像は、トレーニング画像の輝度情報を抽出することによって得られた輝度特徴画像であり得る。
したがって、前記第1特徴画像を得るステップは、前記トレーニング画像における輝度情報に基づいて輝度特徴画像を得るステップを含むステップS11を含み得る。
前記輝度特徴画像は、前記トレーニング画像と同じ数の行及び列のピクセルを有する。前記輝度特徴画像のi行目かつj列目(i,j)でのピクセルの輝度値Iは、次の式(1)によって計算され得る。
I=0.299R+0.587G+0.114B (1)
式(1)において、Rは、前記トレーニング画像におけるピクセル(i,j)の赤成分値を表す。Gは、緑成分値を表す。Bは、青成分値を表す。i及びjはいずれも整数である。iの値は、1≦i≦Xである。jの値は、1≦j≦Yである。Xは前記トレーニング画像における総行数であり、Yは前記トレーニング画像における総列数である。
ステップS12において、前記輝度特徴画像を正規化して第2特徴画像を得る。正規化により、画像のピクセル値がより小さな値の範囲内に収まるようにし、高すぎる又は低すぎる外れピクセル値を取り除くことができる。これは、結局、相関性の計算を促進できる。
より具体的には、ステップS12において、次の式(2)によって正規化を行う。
式(2)において、Nは、前記第2特徴画像を表す。Iは、前記トレーニング画像から得られた輝度特徴画像における所与の位置でのピクセルの輝度値を表す。Blurは、ガウシアンぼかしを表す。Blur(I)は、前記輝度特徴画像に対して実行するガウシアンぼかしフィルタを表す。Blur(I)は、前記輝度特徴画像における各ピクセル値を二乗してから、前記輝度特徴画像にガウシアンぼかしフィルタを実行することによって得られた画像を表す。μは、ガウシアンぼかしフィルタを用いて得られた出力画像を表す。σは、局所分散画像を表す。
ステップS2は、前記第2特徴画像に対して複数回の並進シフトを行って複数のシフトされた画像を得るステップを含む。各シフトされた画像は、前記第2特徴画像と同じ数の行及び列のピクセルを有する。
本開示のいくつかの実施形態において、前記複数回の並進シフトを行うステップは、前記第2特徴画像における最後のa列のピクセルを残りの列のピクセルの前にシフトして中間画像を得、そして前記中間画像における最後のb行のピクセルを残りの行のピクセルの前にシフトしてシフトされた画像を得るステップを含む。
本開示の他の実施形態において、前記複数回の並進シフトを行うステップは、第2特徴画像における最後のb行のピクセルを残りの行のピクセルの前にシフトして中間画像を得、そして前記中間画像における最後のa行のピクセルを残りの行のピクセルの前にシフトしてシフトされた画像を得るステップを含む。
aの値は、≦a<Yである。bの値は、0≦b<Xである。a及びbはいずれも整数である。Xは、前記第2特徴画像におけるピクセルの総行数を表す。Yは、前記第2特徴画像におけるピクセルの総列数を表す。いくつかの実施形態において、任意の所与の2つの画像シフトプロセスにおいて、a及びbの少なくとも一つの値は変化する。
各シフトされた画像における非ゼロ値を有する各ピクセルは、前記第2特徴画像における同じ非ゼロ値を持つ対応するピクセルを有する。前記第2特徴画像における対応するピクセルを有しないピクセルは、「0」の値が割り当てられてもよい。言い換えれば、シフトされた画像における非ゼロ値を有する各ピクセルは、前記第2特徴画像における対応するピクセルを有する。
ステップS3は、前記第2特徴画像と前記複数のシフトされた画像の間の相関性に基づいて複数の相関性画像を生成するステップを含む。各相関性画像は、前記第2特徴画像と同じ数の行及び列のピクセルを有する。
前記複数の相関性画像を生成するステップは、前記第2特徴画像における各ピクセルの値と前記シフトされた画像における位置的に対応するピクセルの値とを乗じるステップを含む。言い換えれば、前記第2特徴画像におけるピクセル(i,j)の値に前記シフトされた画像におけるピクセル(i,j)の値を乗じて前記相関性画像における(i,j)位置でのピクセルの値を生成する。iの値は、1≦i≦Xである。jの値は、1≦j≦Yである。i及びjはいずれも整数である。Xは、前記第2特徴画像におけるピクセルの総行数を表す。Yは、前記第2特徴画像におけるピクセルの総列数を表す。
ステップS4は、例えば、敵対的生成ネットワークの鑑別ネットワークのようなニューラルネットワークに前記複数の相関性画像を送信するステップを含む。
本開示に係る画像処理用の方法は、汎用のコンピュータ、マイクロプロセッサ、デジタル電子回路、集積回路、特に設計されたASIC(特定用途向け集積回路)、コンピュータハードウェア、ファームウェア、ソフトウェア、及び/又はその組み合わせの形になっているコンピューティング装置で実施され得る。これらの多様な実施は、少なくとも一つのプログラマブルプロセッサを含むプログラマブルシステムで実行可能及び/又は解釈可能な1つ以上のコンピュータプログラムにおける実施を含み、当該少なくとも一つのプログラマブルプロセッサは専用又は汎用であり得、且つカップリングされて記憶システム、少なくとも一つの入力装置、及び少なくとも一つの出力装置からデータ及び命令を受信し、記憶システム、少なくとも一つの入力装置、及び少なくとも一つの出力装置にデータ及び命令を送信し得る。
これらのコンピュータプログラム(プログラム、ソフトウェア、ソフトウェアアプリケーション又はコードとも呼ばれる)は、プログラマブルプロセッサの機械命令を含み、高レベルの手続き及び/又はオブジェクト指向プログラミング言語、及び/又はアセンブリ/機械言語で実施され得る。本明細書で使用されるように、用語「機械読み取り可能媒体」、「コンピュータ読み取り可能媒体」は、機械読み取り可能信号として機械命令を受信する機械読み取り可能媒体を含むプログラマブルプロセッサに機械命令及び/又はデータを提供するために用いられる任意のコンピュータプログラム製品、装置及び/又はデバイス(例えば、磁気ディスク、光ディスク、メモリ、プログラマブル論理デバイス(PLD))を指す。用語「機械読み取り可能信号」は、プログラマブルプロセッサに機械命令及び/又はデータを提供するために用いられる任意の信号を指す。
図8は、本開示の実施形態に係るニューラルネットワークをトレーニングするシステムのブロック図を示す。
図8に示す如く、上記の装置100は、入力端Inを介して鑑別ネットワーク200にカップリングされ得る。鑑別ネットワーク200の構造及び構成は特に限定されない。鑑別ネットワーク200は、以上の記述のように、構築及び構成され得、または、鑑別ネットワークが入力として受信した画像と、入力された画像と同じ解像度を有する所定のリファレンス画像との間のマッチング度を分類できる限り、当該技術分野における通常の知識を有する者に知られている任意の適当な方法でも構築及び構成され得る。
本開示の実施形態は、生成ネットワークからの出力画像及び/又は高解像度のオリジナル画像を直接鑑別ネットワークに送信しない。むしろ、画像は、分類のために前記鑑別ネットワークに送られる前に、特徴抽出ユニットとシフト相関ユニットとを含む上記の装置により処理される。前記シフト相関ユニットは、前記生成ネットワークからの出力画像及び/又は前記高解像度のオリジナル画像を処理して複数の変換された画像を生成するように構成される。例えば、前記シフト相関ユニットは、前記出力画像及び/又は前記オリジナルサンプル画像に固有の情報だけでなく、それらの画像と変換された画像の間の相関性に関する情報も含む複数の相関性画像を生成するように構成される。この追加的な情報は、前記鑑別ネットワークが2組の相関性の間の類似性に基づいて、即ち、前記生成ネットワークからの出力画像と前記変換された画像の間の1組の相関性と、前記オリジナルサンプル画像と前記変換された画像の間のもう1組の相関性の間の類似性に基づいて分類を行うようにする。さらに、自然画像評価(NIQE)非参照画質スコアにより、出力画像(又はオリジナルサンプル画像)と変換された画像の間の相関性は知覚品質に影響を与えることが考えられる。
本開示に係る装置からの出力に基づく分類は、分類の精度を高め、分類結果の正確性を改善し、実画像に非常に似ているので鑑別ネットワークにより分類されにくいソリューションの作成に向かって生成ネットワークのパラメータをトレーニングする。これは、知覚的に優れたソリューションを促す。
いくつかの実施形態において、本開示に係る装置は、例えば、図8に示す如く、敵対的生成ネットワークをトレーニングするように構成され得る。図8は、本開示の実施形態に係る、一つの入力端Inを介して鑑別ネットワーク200にカップリングされた一つの装置100を含む敵対的生成ネットワークをトレーニングするシステムを示す。但し、本開示は、図8に示す実施形態に限定されない。例えば、生成ネットワークが異なる解像度を有する複数の画像を生成する実施形態において、鑑別ネットワークは、それぞれが装置100にカップリングされた複数の入力端Inを含み得る。前記生成ネットワークからの各画像は、複数の画像処理用の装置100のうちの一つに送信される。各装置100は、当該受信された画像に基づいて複数の相関性画像を生成し、前記複数の相関性画像を鑑別ネットワーク200に送信する。一つの装置100からの複数の相関性画像は、分類されるべき画像の特定のチャネルの特徴画像を表し得る。鑑別ネットワーク200は、前記複数の入力端を介して複数の装置100から相関性画像を受信し、前記生成ネットワークからの最高解像度を持つ画像を分類されるべき画像として設定するように構成され、そして、鑑別ネットワーク200は、分類されるべき画像と、同じ解像度を有する所定のリファレンス画像の間のマッチング度をスコアリングするように構成される。
図8のブロック図は、前記鑑別ネットワークが図8に示されるコンポーネントのみを含むことを示すことを意図していない。本開示に係る鑑別ネットワークは、具体的な実施の詳細に応じて、当該技術分野における通常の知識を有する者に知られているが図8に示されていない任意の数の追加的なアクセサリ及び/又はコンポーネントを含み得る。
本開示は、上記のように敵対的生成ネットワークをトレーニングする画像を前処理する方法を実行するための命令を記憶するコンピュータ読み取り可能媒体を提供する。
本明細書で使用されるように、用語「コンピュータ読み取り可能媒体」は、機械読み取り可能信号として機械命令を受信する機械読み取り可能媒体を含むプログラマブルプロセッサに機械命令及び/又はデータを提供するために用いられる任意のコンピュータプログラム製品、装置及び/又はデバイス(例えば、磁気ディスク、光ディスク、メモリ、プログラマブル論理デバイス(PLD))を指す。用語「機械読み取り可能信号」は、プログラマブルプロセッサに機械命令及び/又はデータを提供するために用いられる任意の信号を指す。本開示に係るコンピュータ読み取り可能媒体は、ランダムアクセスメモリ(RAM)、読み取り専用メモリ(ROM)、不揮発性ランダムアクセスメモリ(NVRAM)、プログラマブル読み取り専用メモリ(PROM)、消去可能なプログラマブル読み取り専用メモリ(EPROM)、電気的消去可能PROM(EEPROM)、フラッシュメモリ、磁気又は光学データストレージ、レジスタ、コンパクトディスク(CD)又はDVD(デジタル・バーサタイル・ディスク)光学記憶媒体及び他の非一時的媒体のようなディスク又はテープを含むが、これらに限られない。
本明細書の記述において、「ある実施形態」、「いくつかの実施形態」、及び「例示的な実施形態」、「例」及び「特定の例」又は「いくつかの例」などに対する言及は、特定の特徴及び構造、材料又は特性が本開示の少なくとも一部の実施形態又は例に含まれる実施形態又は例に関連して記述された旨を意図する。用語の概略的な表現は、必ずしも同じ実施形態又は例を指すとは限らない。さらに、記述される特定の特徴、構造、材料又は特性は、任意の適切な方法で任意の1つ以上の実施形態又は例に含まれ得る。また、当該技術分野における通常の知識を有する者にとって、開示されたものは本開示の範囲に関し、技術方案は技術的特徴の特定の組み合わせに限定されず、本発明の概念から逸脱することなく技術的特徴又は技術的特徴の同等の特徴を組み合わせることによって形成される他の技術方案も網羅すべきである。その上、用語「第1」及び「第2」は単に説明を目的としており、示された技術的特徴の相対的な重要性を明示又は暗示するものと、数量の暗示的な言及として解釈されるべきではない。したがって、用語「第1」及び「第2」によって定義される特徴は、1つ以上の特徴を明示的又は暗黙的に含み得る。本開示の記述において、「複数」の意味は、特に具体的に定義されない限り、2つ以上である。
本開示の原理及び実施形態は明細書に記載されている。本開示の実施形態の記述は単に本開示の方法及びその核となるアイデアの理解を助けるためのみに用いられる。一方、当該技術分野における通常の知識を有する者にとって、開示されたものは本開示の範囲に関し、技術方案は技術的特徴の特定の組み合わせに限定されず、本発明の概念から逸脱することなく技術的特徴又は技術的特徴の同等の特徴を組み合わせることによって形成される他の技術方案も網羅すべきである。例えば、本開示に開示されるような(ただし、これに限られない)上記の特徴を類似した特徴に置き換えることによって技術方案が得られ得る。

Claims (16)

  1. 複数の相関性画像を生成する装置であって、
    トレーニング画像を受信し、前記トレーニング画像から少なくとも1つ以上の特徴を抽出して、前記トレーニング画像に基づいて第1特徴画像を生成するように構成される特徴抽出ユニットと、
    前記第1特徴画像を正規化し、第2特徴画像を生成するように構成される正規化器と、前記第2特徴画像に対して複数回の並進シフトを行って複数のシフトされた画像を生成し、前記複数のシフトされた画像の各々を前記第2特徴画像と相関させて複数の相関性画像を生成するように構成されるシフト相関ユニットとを含み、
    前記シフト相関ユニットは、前記第2特徴画像のピクセルブロック内の一番左の又は一番右のa列のピクセルを削除し、前記ピクセルブロックの一番右の又は一番左の位置にa列のピクセルをそれぞれ追加することと、前記第2特徴画像のピクセルブロック内の最下位又は最上位のb行のピクセルを削除し、前記ピクセルブロックの最上位又は最下位の位置にb行のピクセルをそれぞれ追加することによって、前記第2特徴画像に対して前記複数回の並進シフトを行うように構成され、
    0≦a<Yであり、0≦b<Xであり、a及びbはいずれも整数であり、Yは前記第2特徴画像のピクセルブロック内のピクセルの総列数であり、Xは前記第2特徴画像のピクセルブロック内のピクセルの総行数であり、
    追加されたピクセルの各々は、0のピクセル値を有する、装置。
  2. 前記シフト相関ユニットは、前記複数のシフトされた画像の各々のピクセルブロック内の各ピクセルのピクセル値に前記第2特徴画像のピクセルブロック内の位置的に対応するピクセルのピクセル値を乗じることによって、前記複数のシフトされた画像の各々を前記第2特徴画像と相関させるように構成される、請求項1記載の装置。
  3. 前記第1特徴画像は、輝度特徴画像であり、
    前記特徴抽出ユニットは、
    前記トレーニング画像から輝度情報を抽出して前記輝度特徴画像を生成するように構成される輝度検出器を含む請求項1又は請求項2に記載の装置。
  4. 前記輝度特徴画像を生成するために、前記輝度検出器は、次の式(1)によって前記輝度特徴画像における所与の位置でのピクセルの輝度値を確定するように構成され、
    I=0.299R+0.587G+0.114B (1)
    Iは、前記輝度値であり、
    Rは、前記トレーニング画像における位置的に対応するピクセルの赤成分値であり、
    Gは、前記トレーニング画像における位置的に対応するピクセルの緑成分値であり、
    Bは、前記トレーニング画像における位置的に対応するピクセルの青成分値である、請求項に記載の装置。
  5. 前記正規化器は、次の式(2)によって前記輝度特徴画像を正規化するように構成され、
    Figure 0007415251000005
    Nは、前記第1特徴画像であり、
    Iは、前記輝度特徴画像における所与の位置でのピクセルの輝度値を表し、
    Blur(I)は、前記輝度特徴画像にガウシアンフィルタを適用することによって得られた画像であり、
    Blur(I)は、前記輝度特徴画像における各ピクセル値を二乗してから、前記輝度特徴画像にガウシアンフィルタを適用することによって得られた画像である、請求項又は請求項に記載の装置。
  6. 前記第2特徴画像は、第1サイズを有するピクセルブロックを含み、
    前記複数のシフトされた画像の各々及び前記複数の相関性画像の各々は、前記第1サイズを有するピクセルブロックを含み、
    前記複数のシフトされた画像の各々において、非ゼロピクセル値を有するピクセルは、前記第2特徴画像における同じ非ゼロピクセル値を持つ対応するピクセルを有する、請求項1から請求項のいずれか一項に記載の装置。
  7. 複数の相関性画像を生成する方法であって、
    前記方法は、
    トレーニング画像に基づいて第1特徴画像を生成するステップと、
    前記第1特徴画像を正規化し、第2特徴画像を生成するステップと、
    前記第2特徴画像に対して複数回の並進シフトを行って複数のシフトされた画像を生成するステップと、
    前記複数のシフトされた画像の各々を前記第2特徴画像と相関させて複数の相関性画像を生成するステップと
    を含み、
    前記複数回の並進シフトを行うステップは、
    前記第2特徴画像のピクセルブロック内の一番左の又は一番右のa列のピクセルを削除し、前記ピクセルブロックの一番右の又は一番左の位置にa列のピクセルをそれぞれ追加するステップと、
    前記第2特徴画像のピクセルブロック内の最下位又は最上位のb行のピクセルを削除し、前記ピクセルブロックの最上位又は最下位の位置にb行のピクセルをそれぞれ追加するステップと
    を含み、
    0≦a<Yであり、0≦b<Xであり、a及びbはいずれも整数であり、Yは前記第2特徴画像のピクセルブロック内のピクセルの総列数であり、Xは前記第2特徴画像のピクセルブロック内のピクセルの総行数であり、
    追加されたピクセルの各々は、0のピクセル値を有する、方法。
  8. 前記複数のシフトされた画像の各々を前記第2特徴画像と相関させるステップは、前記複数のシフトされた画像の各々のピクセルブロック内の各ピクセルのピクセル値に前記第2特徴画像のピクセルブロック内の位置的に対応するピクセルのピクセル値を乗じるステップを含む、請求項に記載の方法。
  9. a及びbの少なくとも一つは、前記複数回の並進シフトの実行中に少なくとも一回変化する、請求項に記載の方法。
  10. X*Y回の並進シフトを行うステップを更に含み、
    Yは前記第2特徴画像のピクセルブロック内のピクセルの総列数であり、Xは前記第2特徴画像のピクセルブロック内のピクセルの総行数である、請求項から請求項のいずれか一項に記載の方法。
  11. 前記第1特徴画像を生成する前に、前記トレーニング画像を受信するステップを更に含み、
    前記第1特徴画像を生成するステップは、前記トレーニング画像の輝度情報に基づいて輝度特徴画像を生成するステップを含む、請求項から請求項10のいずれか一項に記載の方法。
  12. 次の式(1)によって前記輝度特徴画像における所与の位置でのピクセルの輝度値を確定するステップを更に含み、
    I=0.299R+0.587G+0.114B (1)
    Iは、前記輝度値であり、
    Rは、前記トレーニング画像における位置的に対応するピクセルの赤成分値であり、
    Gは、前記トレーニング画像における位置的に対応するピクセルの緑成分値であり、
    Bは、前記トレーニング画像における位置的に対応するピクセルの青成分値である、請求項11に記載の方法。
  13. 次の式(2)によって前記輝度特徴画像を正規化するステップを更に含み、
    Figure 0007415251000006
    Nは、前記第1特徴画像であり、
    Iは、前記輝度特徴画像を表し、
    Blur(I)は、前記輝度特徴画像にガウシアンフィルタを適用することによって得られた画像であり、
    Blur(I)は、前記輝度特徴画像における各ピクセル値を二乗してから、前記輝度特徴画像にガウシアンフィルタを適用することによって得られた画像である、請求項11又は請求項12に記載の方法。
  14. 前記第1特徴画像は、第1サイズを有するピクセルブロックを含み、
    前記複数のシフトされた画像の各々及び前記複数の相関性画像の各々は、前記第1サイズを有するピクセルブロックを含み、
    前記複数のシフトされた画像の各々において、非ゼロピクセル値を有するピクセルは、前記第1特徴画像における同じ非ゼロピクセル値を持つ対応するピクセルを有する、請求項から請求項13のいずれか一項に記載の方法。
  15. コンピュータに請求項から14のいずれか一項に記載の方法をコンピュータに実行させる命令を記憶する非一時的なコンピュータ読み取り可能媒体。
  16. 敵対的生成ネットワークをトレーニングするシステムであって、
    鑑別ネットワークマイクロプロセッサによりトレーニングされるように構成される生成ネットワークマイクロプロセッサと、前記敵対的生成ネットワークにカップリングされた鑑別ネットワークマイクロプロセッサとを含む敵対的生成ネットワークプロセッサを含み、前記鑑別ネットワークマイクロプロセッサは、
    複数の請求項1からのいずれか一項に記載の装置にカップリングされた複数の入力端と、
    それぞれが前記複数の入力端のうちの一つにカップリングされた複数の分析モジュールと、
    カスケードの各ステージが前記複数の分析モジュールのうちの一つ及び前記カスケードの前のステージにおけるプーリングモジュールにカップリングされたプーリングモジュールを含む前記カスケードにより、接続された複数のプーリングモジュールと、
    前記カスケードの最後のステージにおけるプーリングモジュールにカップリングされた鑑別ネットワークと
    を含むシステム。
JP2020529196A 2018-09-30 2019-04-23 画像処理用の装置及び方法、並びにニューラルネットワークトをトレーニングするシステム Active JP7415251B2 (ja)

Applications Claiming Priority (9)

Application Number Priority Date Filing Date Title
CN201811155147.2 2018-09-30
CN201811155252.6A CN109255390B (zh) 2018-09-30 2018-09-30 训练图像的预处理方法及模块、鉴别器、可读存储介质
CN201811155326.6 2018-09-30
CN201811155252.6 2018-09-30
CN201811155326.6A CN109345455B (zh) 2018-09-30 2018-09-30 图像鉴别方法、鉴别器和计算机可读存储介质
CN201811155930.9 2018-09-30
CN201811155930.9A CN109345456B (zh) 2018-09-30 2018-09-30 生成对抗网络训练方法、图像处理方法、设备及存储介质
CN201811155147.2A CN109360151B (zh) 2018-09-30 2018-09-30 图像处理方法及系统、分辨率提升方法、可读存储介质
PCT/CN2019/083872 WO2020062846A1 (en) 2018-09-30 2019-04-23 Apparatus and method for image processing, and system for training neural network

Publications (3)

Publication Number Publication Date
JP2022501663A JP2022501663A (ja) 2022-01-06
JPWO2020062846A5 JPWO2020062846A5 (ja) 2022-04-27
JP7415251B2 true JP7415251B2 (ja) 2024-01-17

Family

ID=69950197

Family Applications (3)

Application Number Title Priority Date Filing Date
JP2020529196A Active JP7415251B2 (ja) 2018-09-30 2019-04-23 画像処理用の装置及び方法、並びにニューラルネットワークトをトレーニングするシステム
JP2020528242A Active JP7463643B2 (ja) 2018-09-30 2019-06-20 画像処理用の装置、方法及びコンピュータ読み取り可能媒体、並びにニューラルネットワークトレーニングシステム
JP2020528931A Active JP7446997B2 (ja) 2018-09-30 2019-09-25 敵対的生成ネットワークのトレーニング方法、画像処理方法、デバイスおよび記憶媒体

Family Applications After (2)

Application Number Title Priority Date Filing Date
JP2020528242A Active JP7463643B2 (ja) 2018-09-30 2019-06-20 画像処理用の装置、方法及びコンピュータ読み取り可能媒体、並びにニューラルネットワークトレーニングシステム
JP2020528931A Active JP7446997B2 (ja) 2018-09-30 2019-09-25 敵対的生成ネットワークのトレーニング方法、画像処理方法、デバイスおよび記憶媒体

Country Status (9)

Country Link
US (4) US11615505B2 (ja)
EP (4) EP3857447A4 (ja)
JP (3) JP7415251B2 (ja)
KR (2) KR102661434B1 (ja)
AU (1) AU2019350918B2 (ja)
BR (1) BR112020022560A2 (ja)
MX (1) MX2020013580A (ja)
RU (1) RU2762144C1 (ja)
WO (4) WO2020062846A1 (ja)

Families Citing this family (24)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP3973459A1 (en) * 2019-05-23 2022-03-30 DeepMind Technologies Limited Generative adversarial networks with temporal and spatial discriminators for efficient video generation
JP7312026B2 (ja) * 2019-06-12 2023-07-20 キヤノン株式会社 画像処理装置、画像処理方法およびプログラム
EP3788933A1 (en) * 2019-09-05 2021-03-10 BSH Hausgeräte GmbH Method for controlling a home appliance
EP4049235A4 (en) * 2020-01-23 2023-01-11 Samsung Electronics Co., Ltd. ELECTRONIC DEVICE AND ELECTRONIC DEVICE CONTROL METHOD
US11507831B2 (en) 2020-02-24 2022-11-22 Stmicroelectronics International N.V. Pooling unit for deep learning acceleration
CN111695605B (zh) * 2020-05-20 2024-05-10 平安科技(深圳)有限公司 基于oct图像的图像识别方法、服务器及存储介质
EP3937120B1 (en) * 2020-07-08 2023-12-20 Sartorius Stedim Data Analytics AB Computer-implemented method, computer program product and system for processing images
US11887279B2 (en) * 2020-08-25 2024-01-30 Sharif University Of Technology Machine learning-based denoising of an image
US11455811B2 (en) * 2020-08-28 2022-09-27 Check it out Co., Ltd. System and method for verifying authenticity of an anti-counterfeiting element, and method for building a machine learning model used to verify authenticity of an anti-counterfeiting element
CN112132012B (zh) * 2020-09-22 2022-04-26 中国科学院空天信息创新研究院 基于生成对抗网络的高分辨率sar船舶图像生成方法
CN114830168A (zh) * 2020-11-16 2022-07-29 京东方科技集团股份有限公司 图像重建方法、电子设备和计算机可读存储介质
CN112419200B (zh) * 2020-12-04 2024-01-19 宁波舜宇仪器有限公司 一种图像质量优化方法及显示方法
US11895330B2 (en) * 2021-01-25 2024-02-06 Lemon Inc. Neural network-based video compression with bit allocation
CN113012064B (zh) * 2021-03-10 2023-12-12 腾讯科技(深圳)有限公司 图像处理方法、装置、设备及存储介质
CN112884673A (zh) * 2021-03-11 2021-06-01 西安建筑科技大学 改进损失函数SinGAN的墓室壁画分块间缺失信息的重建方法
US20220405980A1 (en) * 2021-06-17 2022-12-22 Nvidia Corporation Fused processing of a continuous mathematical operator
CN113962360B (zh) * 2021-10-09 2024-04-05 西安交通大学 一种基于gan网络的样本数据增强方法及系统
KR102548283B1 (ko) * 2021-12-22 2023-06-27 (주)뉴로컴즈 콘볼루션 신경망 컴퓨팅 장치
CN114331903B (zh) * 2021-12-31 2023-05-12 电子科技大学 一种图像修复方法及存储介质
CN115063492B (zh) * 2022-04-28 2023-08-08 宁波大学 一种抵抗jpeg压缩的对抗样本的生成方法
KR20240033619A (ko) 2022-09-05 2024-03-12 삼성에스디에스 주식회사 문서 내 관심 영역 추출 방법 및 장치
CN115393242A (zh) * 2022-09-30 2022-11-25 国网电力空间技术有限公司 一种基于gan的电网异物图像数据增强的方法和装置
CN115631178B (zh) * 2022-11-03 2023-11-10 昆山润石智能科技有限公司 自动晶圆缺陷检测方法、系统、设备及存储介质
CN117196985A (zh) * 2023-09-12 2023-12-08 军事科学院军事医学研究院军事兽医研究所 一种基于深度强化学习的视觉去雨雾方法

Family Cites Families (67)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5781196A (en) 1990-10-19 1998-07-14 Eidos Plc Of The Boat House Video compression by extracting pixel changes exceeding thresholds
US5754697A (en) 1994-12-02 1998-05-19 Fu; Chi-Yung Selective document image data compression technique
US6766067B2 (en) 2001-04-20 2004-07-20 Mitsubishi Electric Research Laboratories, Inc. One-pass super-resolution images
US7215831B2 (en) 2001-04-26 2007-05-08 Georgia Tech Research Corp. Video enhancement using multiple frame techniques
US7428019B2 (en) 2001-12-26 2008-09-23 Yeda Research And Development Co. Ltd. System and method for increasing space or time resolution in video
CN101593269B (zh) 2008-05-29 2012-05-02 汉王科技股份有限公司 人脸识别装置及方法
KR20130001213A (ko) 2010-01-28 2013-01-03 이섬 리서치 디벨러프먼트 컴파니 오브 더 히브루 유니버시티 오브 예루살렘 엘티디. 입력 이미지로부터 증가된 픽셀 해상도의 출력 이미지를 생성하는 방법 및 시스템
CN101872472B (zh) 2010-06-02 2012-03-28 中国科学院自动化研究所 一种基于样本学习的人脸图像超分辨率重建方法
US9378542B2 (en) 2011-09-28 2016-06-28 The United States Of America As Represented By The Secretary Of The Army System and processor implemented method for improved image quality and generating an image of a target illuminated by quantum particles
US8908962B2 (en) * 2011-09-30 2014-12-09 Ebay Inc. Item recommendations using image feature data
EP2662824A1 (en) 2012-05-10 2013-11-13 Thomson Licensing Method and device for generating a super-resolution version of a low resolution input data structure
US8675999B1 (en) 2012-09-28 2014-03-18 Hong Kong Applied Science And Technology Research Institute Co., Ltd. Apparatus, system, and method for multi-patch based super-resolution from an image
CN102915527A (zh) 2012-10-15 2013-02-06 中山大学 基于形态学成分分析的人脸图像超分辨率重建方法
MX342466B (es) 2012-11-27 2016-09-30 Lg Electronics Inc Aparato de transmision-recepcion de señal y metodo de transmision-recepcion de señal.
CN103514580B (zh) 2013-09-26 2016-06-08 香港应用科技研究院有限公司 用于获得视觉体验优化的超分辨率图像的方法和系统
EP2908285A1 (en) 2014-02-13 2015-08-19 Thomson Licensing Method for performing super-resolution on single images and apparatus for performing super-resolution on single images
CN104853059B (zh) 2014-02-17 2018-12-18 台达电子工业股份有限公司 超分辨率图像处理方法及其装置
TWI492187B (zh) 2014-02-17 2015-07-11 Delta Electronics Inc 超解析度影像處理方法及其裝置
CN103903236B (zh) * 2014-03-10 2016-08-31 北京信息科技大学 人脸图像超分辨率重建的方法和装置
US9454807B2 (en) 2014-03-25 2016-09-27 Spreadtrum Communications (Shanghai) Co., Ltd. Methods and systems for denoising images
US9865036B1 (en) * 2015-02-05 2018-01-09 Pixelworks, Inc. Image super resolution via spare representation of multi-class sequential and joint dictionaries
KR102338372B1 (ko) * 2015-09-30 2021-12-13 삼성전자주식회사 영상으로부터 객체를 분할하는 방법 및 장치
RU2694021C1 (ru) 2015-12-14 2019-07-08 Моушен Метрикс Интернешэнл Корп. Способ и устройство идентификации частей фрагментированного материала в пределах изображения
US10360477B2 (en) * 2016-01-11 2019-07-23 Kla-Tencor Corp. Accelerating semiconductor-related computations using learning based models
CN107315566B (zh) * 2016-04-26 2020-11-03 中科寒武纪科技股份有限公司 一种用于执行向量循环移位运算的装置和方法
FR3050846B1 (fr) * 2016-04-27 2019-05-03 Commissariat A L'energie Atomique Et Aux Energies Alternatives Dispositif et procede de distribution de donnees de convolution d'un reseau de neurones convolutionnel
CN105976318A (zh) 2016-04-28 2016-09-28 北京工业大学 一种图像超分辨率重建方法
CN105975931B (zh) 2016-05-04 2019-06-14 浙江大学 一种基于多尺度池化的卷积神经网络人脸识别方法
CN105975968B (zh) * 2016-05-06 2019-03-26 西安理工大学 一种基于Caffe框架的深度学习车牌字符识别方法
RU2635883C1 (ru) * 2016-06-02 2017-11-16 Самсунг Электроникс Ко., Лтд. Способ и система обработки изображений для формирования изображений сверхвысокого разрешения
US10319076B2 (en) 2016-06-16 2019-06-11 Facebook, Inc. Producing higher-quality samples of natural images
US11024009B2 (en) 2016-09-15 2021-06-01 Twitter, Inc. Super resolution using a generative adversarial network
JP2018063504A (ja) * 2016-10-12 2018-04-19 株式会社リコー 生成モデル学習方法、装置及びプログラム
CN108074215B (zh) * 2016-11-09 2020-04-14 京东方科技集团股份有限公司 图像升频系统及其训练方法、以及图像升频方法
KR20180057096A (ko) * 2016-11-21 2018-05-30 삼성전자주식회사 표정 인식과 트레이닝을 수행하는 방법 및 장치
CN108229508B (zh) * 2016-12-15 2022-01-04 富士通株式会社 用于训练图像处理装置的训练装置和训练方法
KR101854071B1 (ko) * 2017-01-13 2018-05-03 고려대학교 산학협력단 딥러닝을 사용하여 관심 부위 이미지를 생성하는 방법 및 장치
US10482639B2 (en) 2017-02-21 2019-11-19 Adobe Inc. Deep high-resolution style synthesis
KR101947782B1 (ko) * 2017-02-22 2019-02-13 한국과학기술원 열화상 영상 기반의 거리 추정 장치 및 방법. 그리고 이를 위한 신경망 학습 방법
JP2018139071A (ja) * 2017-02-24 2018-09-06 株式会社リコー 生成モデル学習方法、生成モデル学習装置およびプログラム
KR102499396B1 (ko) * 2017-03-03 2023-02-13 삼성전자 주식회사 뉴럴 네트워크 장치 및 뉴럴 네트워크 장치의 동작 방법
RU2652722C1 (ru) * 2017-05-03 2018-04-28 Самсунг Электроникс Ко., Лтд. Обработка данных для сверхразрешения
CN107133601B (zh) 2017-05-13 2021-03-23 五邑大学 一种基于生成式对抗网络图像超分辨率技术的行人再识别方法
CN107154023B (zh) 2017-05-17 2019-11-05 电子科技大学 基于生成对抗网络和亚像素卷积的人脸超分辨率重建方法
CN107369189A (zh) 2017-07-21 2017-11-21 成都信息工程大学 基于特征损失的医学图像超分辨率重建方法
CN107527044B (zh) 2017-09-18 2021-04-30 北京邮电大学 一种基于搜索的多张车牌清晰化方法及装置
WO2019061020A1 (zh) 2017-09-26 2019-04-04 深圳市大疆创新科技有限公司 图像生成方法、图像生成装置和机器可读存储介质
US10552944B2 (en) * 2017-10-13 2020-02-04 Adobe Inc. Image upscaling with controllable noise reduction using a neural network
CN108122197B (zh) * 2017-10-27 2021-05-04 江西高创保安服务技术有限公司 一种基于深度学习的图像超分辨率重建方法
CN107766860A (zh) 2017-10-31 2018-03-06 武汉大学 基于级联卷积神经网络的自然场景图像文本检测方法
CN107767343B (zh) 2017-11-09 2021-08-31 京东方科技集团股份有限公司 图像处理方法、处理装置和处理设备
CN108154499B (zh) 2017-12-08 2021-10-08 东华大学 一种基于k-svd学习字典的机织物纹理瑕疵检测方法
CN108052940A (zh) 2017-12-17 2018-05-18 南京理工大学 基于深度学习的sar遥感图像水面目标检测方法
CN107977932B (zh) 2017-12-28 2021-04-23 北京工业大学 一种基于可鉴别属性约束生成对抗网络的人脸图像超分辨率重建方法
CN108268870B (zh) 2018-01-29 2020-10-09 重庆师范大学 基于对抗学习的多尺度特征融合超声图像语义分割方法
CN108334848B (zh) 2018-02-06 2020-12-25 哈尔滨工业大学 一种基于生成对抗网络的微小人脸识别方法
CN108416428B (zh) 2018-02-28 2021-09-14 中国计量大学 一种基于卷积神经网络的机器人视觉定位方法
US11105942B2 (en) * 2018-03-27 2021-08-31 Schlumberger Technology Corporation Generative adversarial network seismic data processor
US10783622B2 (en) * 2018-04-25 2020-09-22 Adobe Inc. Training and utilizing an image exposure transformation neural network to generate a long-exposure image from a single short-exposure image
US11222415B2 (en) * 2018-04-26 2022-01-11 The Regents Of The University Of California Systems and methods for deep learning microscopy
CN108596830B (zh) 2018-04-28 2022-04-22 国信优易数据股份有限公司 一种图像风格迁移模型训练方法以及图像风格迁移方法
KR102184755B1 (ko) * 2018-05-31 2020-11-30 서울대학교 산학협력단 안면 특화 초 고화질 심층 신경망 학습 장치 및 방법
US11756160B2 (en) * 2018-07-27 2023-09-12 Washington University ML-based methods for pseudo-CT and HR MR image estimation
CN109345456B (zh) * 2018-09-30 2021-01-19 京东方科技集团股份有限公司 生成对抗网络训练方法、图像处理方法、设备及存储介质
CN109360151B (zh) * 2018-09-30 2021-03-05 京东方科技集团股份有限公司 图像处理方法及系统、分辨率提升方法、可读存储介质
CN109345455B (zh) * 2018-09-30 2021-01-26 京东方科技集团股份有限公司 图像鉴别方法、鉴别器和计算机可读存储介质
CN109255390B (zh) * 2018-09-30 2021-01-29 京东方科技集团股份有限公司 训练图像的预处理方法及模块、鉴别器、可读存储介质

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
Amir Khan,Implementation and Experiments on Face Detection System (FDS) Using Perceptual Quality Aware Features,Eastern Mediterranean University Institutional Repository (EMU I-REP),Eastern Mediterranean University,2017年02月,http://i-rep.emu.edu.tr:8080/xmlui/bitstream/handle/11129/4326/khanamir.pdf?sequence=1,他庁引用文献

Also Published As

Publication number Publication date
JP2022501662A (ja) 2022-01-06
US20210334642A1 (en) 2021-10-28
KR102661434B1 (ko) 2024-04-29
EP3859655A4 (en) 2022-08-10
RU2762144C1 (ru) 2021-12-16
EP3857504A1 (en) 2021-08-04
WO2020062957A1 (en) 2020-04-02
JP7463643B2 (ja) 2024-04-09
EP3857503A4 (en) 2022-07-20
EP3857447A1 (en) 2021-08-04
KR102389173B1 (ko) 2022-04-21
US11361222B2 (en) 2022-06-14
KR20200073267A (ko) 2020-06-23
US11348005B2 (en) 2022-05-31
US11615505B2 (en) 2023-03-28
AU2019350918A1 (en) 2020-11-19
EP3857504A4 (en) 2022-08-10
US20210365744A1 (en) 2021-11-25
JP7446997B2 (ja) 2024-03-11
US20200285959A1 (en) 2020-09-10
AU2019350918B2 (en) 2021-10-07
JP2022501661A (ja) 2022-01-06
WO2020062958A1 (en) 2020-04-02
KR20210012009A (ko) 2021-02-02
WO2020063648A1 (zh) 2020-04-02
MX2020013580A (es) 2021-02-26
EP3857447A4 (en) 2022-06-29
EP3859655A1 (en) 2021-08-04
US20210342976A1 (en) 2021-11-04
JP2022501663A (ja) 2022-01-06
WO2020062846A1 (en) 2020-04-02
BR112020022560A2 (pt) 2021-06-01
EP3857503A1 (en) 2021-08-04
US11449751B2 (en) 2022-09-20

Similar Documents

Publication Publication Date Title
JP7415251B2 (ja) 画像処理用の装置及び方法、並びにニューラルネットワークトをトレーニングするシステム
CN106934397B (zh) 图像处理方法、装置及电子设备
Bayar et al. Design principles of convolutional neural networks for multimedia forensics
CN109325954B (zh) 图像分割方法、装置及电子设备
JPWO2020062846A5 (ja)
WO2018153322A1 (zh) 关键点检测方法、神经网络训练方法、装置和电子设备
CN112132156B (zh) 多深度特征融合的图像显著性目标检测方法及系统
CN110020658B (zh) 一种基于多任务深度学习的显著目标检测方法
CN111985427A (zh) 活体检测方法、设备及可读存储介质
CN110688966B (zh) 语义指导的行人重识别方法
CN114913338A (zh) 分割模型的训练方法及装置、图像识别方法及装置
JP2010531507A (ja) 高性能画像識別
Belhedi et al. Adaptive scene‐text binarisation on images captured by smartphones
Tang et al. Single image rain removal model using pure rain dictionary learning
CN115147895A (zh) 人脸鉴伪方法、装置及计算机程序产品
CN114463379A (zh) 一种视频关键点的动态捕捉方法及装置
Pal et al. Super-resolution of textual images using autoencoders for text identification
CN113706636A (zh) 一种用于篡改图像识别的方法与装置
Knoche et al. Susceptibility to image resolution in face recognition and trainings strategies
Scott et al. No-reference utility estimation with a convolutional neural network
Korde et al. Splicing Detection Technique Based on the Key-Point
Cogranne et al. A new edge detector based on parametric surface model: Regression surface descriptor
Azam et al. Evaluation of Image Support Resolution Deep Learning Technique based on PSNR Value
AMMAR et al. IQI-UNet: A Robust Gaussian Noise Removal in Image Quality Improvement]{IQI-UNet: A Robust Gaussian Noise Removal in Image Quality Improvement
Choksi et al. Text Extraction from Natural Scene Images using Prewitt Edge Detection Method

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20220419

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20220419

RD04 Notification of resignation of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7424

Effective date: 20230329

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20230530

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20230627

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20230927

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20231205

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20231213

R150 Certificate of patent or registration of utility model

Ref document number: 7415251

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150