JP7438108B2 - 画像処理方法、処理装置及び処理デバイス - Google Patents

画像処理方法、処理装置及び処理デバイス Download PDF

Info

Publication number
JP7438108B2
JP7438108B2 JP2020526028A JP2020526028A JP7438108B2 JP 7438108 B2 JP7438108 B2 JP 7438108B2 JP 2020526028 A JP2020526028 A JP 2020526028A JP 2020526028 A JP2020526028 A JP 2020526028A JP 7438108 B2 JP7438108 B2 JP 7438108B2
Authority
JP
Japan
Prior art keywords
image
neural network
training
output
resolution
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2020526028A
Other languages
English (en)
Other versions
JP2021502644A (ja
Inventor
瀚文 ▲劉▼
彦波 那
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
BOE Technology Group Co Ltd
Original Assignee
BOE Technology Group Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by BOE Technology Group Co Ltd filed Critical BOE Technology Group Co Ltd
Publication of JP2021502644A publication Critical patent/JP2021502644A/ja
Application granted granted Critical
Publication of JP7438108B2 publication Critical patent/JP7438108B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T3/00Geometric image transformations in the plane of the image
    • G06T3/40Scaling of whole images or parts thereof, e.g. expanding or contracting
    • G06T3/4053Scaling of whole images or parts thereof, e.g. expanding or contracting based on super-resolution, i.e. the output image resolution being higher than the sensor resolution
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T11/002D [Two Dimensional] image generation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/047Probabilistic or stochastic networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T5/00Image enhancement or restoration
    • G06T5/60Image enhancement or restoration using machine learning, e.g. neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T5/00Image enhancement or restoration
    • G06T5/70Denoising; Smoothing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/764Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N7/00Television systems
    • H04N7/01Conversion of standards, e.g. involving analogue television standards or digital television standards processed at pixel level
    • H04N7/0117Conversion of standards, e.g. involving analogue television standards or digital television standards processed at pixel level involving conversion of the spatial resolution of the incoming video signal
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10024Color image
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20081Training; Learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20084Artificial neural networks [ANN]
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L63/00Network architectures or network communication protocols for network security
    • H04L63/04Network architectures or network communication protocols for network security for providing a confidential data exchange among entities communicating through data packet networks
    • H04L63/0428Network architectures or network communication protocols for network security for providing a confidential data exchange among entities communicating through data packet networks wherein the data content is protected, e.g. by encrypting or encapsulating the payload

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Computing Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • Multimedia (AREA)
  • General Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Mathematical Physics (AREA)
  • Molecular Biology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Data Mining & Analysis (AREA)
  • Medical Informatics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Databases & Information Systems (AREA)
  • Computer Graphics (AREA)
  • Signal Processing (AREA)
  • Probability & Statistics with Applications (AREA)
  • Image Processing (AREA)
  • Image Analysis (AREA)

Description

関連出願の相互参照
本願は、2017年11月9日に出願された、発明名称が「画像処理方法、処理装置及び処理デバイス」である中国特許出願(出願番号201711100015.5)の優先権を主張し、当該中国特許出願を全文引用によりここに援用する。
本開示は、画像処理に関し、特に、画像処理方法、処理装置および処理デバイスに関する。
ディープニューラルネットワークによって画像処理及び変換を行うことは、ディープ学習技術の発展に伴って新たに登場した技術である。しかしながら、関連技術における画像処理及び変換システムは、構成が複雑で、トレーニングが困難であり、出力画像の多様性に欠ける。したがって、出力画像と入力画像との一致性と、異なる出力画像間の多様性とを両立させることができる画像変換を実現する画像処理方法、装置及びデバイスが必要である。
本開示の実施例は、生成ニューラルネットワークによって、入力画像および第1のノイズ画像に基づき、前記入力画像に対して画像変換処理を行い、変換された第1の出力画像を出力することと、超解像度ニューラルネットワークによって、第1の出力画像および第2のノイズ画像に基づき、第1の出力画像に対して高解像度変換処理を行い、第2の出力画像を出力することと、を含むことを特徴とする画像処理方法を提供している。
本開示の実施例によれば、前記入力画像は、第1の色チャンネル、第2の色チャンネル、及び第3の色チャンネルを含み、前記第1のノイズ画像は、N個(Nは1以上の正整数である)のチャンネルを含み、前記第2のノイズ画像は、M個(Mは1以上の正整数である)のチャンネルを含み、前記生成ニューラルネットワークの入力は、第1のノイズ画像チャンネル、および入力画像の第1の色チャンネル、第2の色チャンネル、第3の色チャンネルを含み、前記生成ニューラルネットワークの出力は、第1の色チャンネル、第2の色チャンネル、及び第3の色チャンネルを含む第1の出力画像である。
本開示の実施例によれば、前記生成ニューラルネットワークは、1つ以上のダウンサンプリングモジュールと、1つ以上の残差モジュールと、1つ以上のアップサンプリングモジュールとを含み、前記ダウンサンプリングモジュールは、順次に接続される畳み込み層、ダウンサンプリング層、および実例標準化層を含み、前記残差モジュールは、順次に接続される畳み込み層、および実例標準化層を含み、前記アップサンプリングモジュールは、順次に接続されるアップサンプリング層、実例標準化層、及び畳み込み層を含み、前記アップサンプリングモジュールの個数は、前記ダウンサンプリングモジュールの個数と同じである。
本開示の実施例によれば、前記超解像度ニューラルネットワークの入力は、第2のノイズ画像チャンネル、および第1の出力画像の第1の色チャンネル、第2の色チャンネル、および第3の色チャンネルを含み、前記超解像度ニューラルネットワークの出力は、第1の色チャンネル、第2の色チャンネル、および第3の色チャンネルを含む第2の出力画像である。
本開示の実施例によれば、前記超解像度ニューラルネットワークは、順次に接続されるアップグレーディングモジュールおよび変換モジュールを含み、超解像度ニューラルネットワークによって高解像度変換処理を行うことは、前記アップグレーディングモジュールによって、第1の出力画像および第2のノイズ画像に対してアップサンプリング処理を行い、輝度チャンネル、第1の色差チャンネルおよび第2の色差チャンネルを含む第1の中間画像を出力することと、前記変換モジュールによって、アップグレーディングモジュールにより出力された第1の中間画像を、第1の色チャンネル、第2の色チャンネル、および第3の色チャンネルを含む第2の出力画像に変換することと、を含む。
本開示の実施例によれば、前記アップグレーディングモジュールは、第1のサブネットワーク、第2のサブネットワーク、および第3のサブネットワークを含み、各サブネットワークの入力は、いずれも第1の出力画像および第2のノイズ画像であり、各サブネットワークは、同じ構成を有しており、同じ個数の畳み込み層およびアップグレーディング層を含む。
本開示の実施例によれば、前記生成ニューラルネットワークによって、第1のトレーニング画像および第1のトレーニングノイズ画像に基づき、第1のトレーニング出力画像を生成することと、前記生成ニューラルネットワークによって、前記第1のトレーニング画像、および、前記第1のトレーニングノイズ画像と異なる第2のトレーニングノイズ画像に基づき、第2のトレーニング出力画像を生成することと、第1のトレーニング画像、第1のトレーニング出力画像、及び第2のトレーニング出力画像に基づいて、前記生成ニューラルネットワークをトレーニングさせることと、をさらに含む。
本開示の実施例によれば、前記生成ニューラルネットワークをトレーニングさせることは、前記第1のトレーニング出力画像を識別ニューラルネットワークに入力し、前記第1のトレーニング出力画像が変換特徴を有するか否かを識別する識別ラベルを出力することと、前記第2のトレーニング出力画像を識別ニューラルネットワークに入力し、前記第2のトレーニング出力画像が変換特徴を有するか否かを識別する識別ラベルを出力することと、第1の損失算出手段によって、前記第1のトレーニング画像、第1のトレーニング出力画像、第2のトレーニング出力画像、および該当する識別ラベルに基づき、前記生成ニューラルネットワークの損失値を算出し、前記生成ニューラルネットワークのパラメータを最適化することと、を含み、前記第1の損失算出手段は、分析ネットワーク、第1の損失算出器、及び最適化器を含み、前記第1の損失算出手段によって前記生成ニューラルネットワークの損失値を算出することは、分析ネットワークによって、前記第1のトレーニング画像、第1のトレーニング出力画像、第2のトレーニング出力画像のコンテンツ特徴を出力し、前記分析ネットワークによって、前記第1のトレーニング出力画像および第2のトレーニング出力画像のスタイル特徴を出力することと、第1の損失算出器によって、分析ネットワークで抽出されたコンテンツ特徴、スタイル特徴、前記第1のトレーニング出力画像及び前記第2のトレーニング出力画像の識別ラベルに基づき、第1の損失関数によって前記生成ニューラルネットワークの損失値を算出することと、最適化器によって、前記生成ニューラルネットワークの損失値に基づき、前記生成ニューラルネットワークのパラメータを最適化することと、を含む。
本開示の実施例によれば、前記第1の損失関数は、スタイル相違損失関数を含み、前記生成ニューラルネットワークの損失値を算出することは、前記第1の損失算出器によって、第1のトレーニング出力画像のスタイル特徴と第2のトレーニング出力画像のスタイル特徴に基づき、スタイル相違損失関数に従って前記生成ニューラルネットワークのスタイル損失値を算出することを含み、前記第1の損失関数は、コンテンツ損失関数をさらに含み、前記生成ニューラルネットワークの損失値を算出することは、第1のトレーニング画像、第1のトレーニング出力画像、及び第2のトレーニング出力画像のコンテンツ特性に基づき、コンテンツ損失関数に従って前記生成ニューラルネットワークモジュールのコンテンツ損失値を算出することを含む。
本開示の実施例によれば、第1のサンプル画像から低解像度の画像を、解像度が前記第1のサンプル画像よりも低の超解像度トレーニング画像として抽出することと、超解像度ニューラルネットワークによって、超解像度トレーニング画像と超解像度トレーニングノイズ画像に基づき、解像度が前記第1のサンプル画像と同じ第2のサンプル画像を出力することと、第1のサンプル画像および第2のサンプル画像に基づいて、前記超解像度ニューラルネットワークのコスト関数を低減することにより、超解像度ニューラルネットワークのパラメータを最適化することと、をさらに含む。
本開示の実施例は、入力画像および第1のノイズ画像に基づき、前記入力画像に対して画像変換処理を行い、変換された第1の出力画像を出力するように配置される生成ニューラルネットワークと、第1の出力画像および第2のノイズ画像に基づき、第1の出力画像に対して高解像度変換処理を行い、第2の出力画像を出力するように配置される超解像度ニューラルネットワークと、を含む画像処理装置をさらに提供している。
本開示の実施例によれば、前記入力画像は、第1の色チャンネル、第2の色チャンネル、及び第3の色チャンネルを含み、前記生成ニューラルネットワークの入力は、第1のノイズ画像チャンネル、および入力画像の第1の色チャンネル、第2の色チャンネル、第3の色チャンネルを含み、前記生成ニューラルネットワークの出力は、第1の色チャンネル、第2の色チャンネル、及び第3の色チャンネルを含む第1の出力画像である。
本開示の実施例によれば、前記生成ニューラルネットワークは、1つ以上のダウンサンプリングモジュールと、1つ以上の残差モジュールと、1つ以上のアップサンプリングモジュールとを含み、前記ダウンサンプリングモジュールは、順次に接続される畳み込み層、ダウンサンプリング層、および実例標準化層を含み、前記残差モジュールは、順次に接続される畳み込み層、および実例標準化層を含み、前記アップサンプリングモジュールは、順次に接続されるアップサンプリング層、実例標準化層、及び畳み込み層を含み、前記アップサンプリングモジュールの個数は、前記ダウンサンプリングモジュールの個数と同じである。
本開示の実施例によれば、前記超解像度ニューラルネットワークの入力は、第2のノイズ画像チャンネル、および第1の出力画像の第1の色チャンネル、第2の色チャンネル、および第3の色チャンネルを含み、前記超解像度ニューラルネットワークの出力は、第1の色チャンネル、第2の色チャンネル、および第3の色チャンネルを含む第2の出力画像である。
本開示の実施例によれば、前記超解像度ニューラルネットワークは、順次に接続されるアップグレーディングモジュールおよび変換モジュールを含み、前記アップグレーディングモジュールは、第1の出力画像および第2のノイズ画像に対してアップサンプリング処理を行い、輝度チャンネル、第1の色差チャンネルおよび第2の色差チャンネルを含む第1の中間画像を出力するように配置され、前記変換モジュールは、アップグレーディングモジュールにより出力された第1の中間画像を、第1の色チャンネル、第2の色チャンネル、および第3の色チャンネルを含む第2の出力画像に変換するように配置され、前記アップグレーディングモジュールは、第1のサブネットワーク、第2のサブネットワーク、および第3のサブネットワークを含むように配置される。
本開示の実施例によれば、前記第1のサブネットワーク、第2のサブネットワーク、および第3のサブネットワークの入力は、第1の出力画像および第2のノイズ画像であり、出力画像は、輝度チャンネル、第1の色差チャンネルおよび第2の色差チャンネルを含む3つのチャンネルを有し、前記第1のサブネットワーク、第2のサブネットワーク、および第3のサブネットワークは、同じ構成を有しており、各サブネットワークは、順次に接続される1つ以上の畳み込み層および1つのアップグレーディング層を含む少なくとも1つのアップグレーディングサブモジュールを有する。
本開示の実施例によれば、前記画像処理装置は、前記生成ニューラルネットワークモジュールの出力画像に基づき、前記生成ニューラルネットワークモジュールをトレーニングさせるように配置されるトレーニングニューラルネットワークモジュールをさらに含む。前記生成ニューラルネットワークモジュールは、さらに、第1のトレーニング画像および第1のトレーニングノイズ画像に基づき、変換された第1のトレーニング出力画像を出力し、前記生成ニューラルネットワークモジュールは、さらに、第1のトレーニング画像、および、前記第1のトレーニングノイズ画像と異なる第2のトレーニングノイズ画像に基づき、変換された第2のトレーニング出力画像を出力し、前記トレーニングニューラルネットワークモジュールは、第1のトレーニング画像、第1のトレーニング出力画像、及び第2のトレーニング出力画像に基づき、前記生成ニューラルネットワークモジュールをトレーニングさせる。
前記トレーニングニューラルネットワークモジュールは、前記第1のトレーニング出力画像および前記第2のトレーニング出力画像が変換特徴を有するか否かを識別する識別ラベルを出力するように配置される識別ニューラルネットワークモジュールと、前記第1のトレーニング画像、第1のトレーニング出力画像、第2のトレーニング出力画像、および該当する識別ラベルに基づき、前記生成ニューラルネットワークモジュールの損失値を算出し、前記生成ニューラルネットワークモジュールのパラメータを最適化するように配置される第1の損失算出手段と、を含み、前記第1の損失算出手段は、前記第1のトレーニング画像、第1のトレーニング出力画像、第2のトレーニング出力画像のコンテンツ特徴を出力するように配置される分析ネットワークと、分析ネットワークで抽出されたコンテンツ特徴、スタイル特徴、前記第1のトレーニング出力画像及び前記第2のトレーニング出力画像の識別ラベルに基づき、第1の損失関数に従って前記生成ニューラルネットワークモジュールの損失値を算出するように配置される第1の損失算出器と、前記生成ニューラルネットワークの損失値に基づき、前記生成ニューラルネットワークモジュールのパラメータを最適化する最適化器と、を含む。
本開示の実施例によれば、前記第1の損失関数は、スタイル相違損失関数を含み、第1のトレーニング出力画像のスタイル特徴と第2のトレーニング出力画像のスタイル特徴に基づき、前記生成ニューラルネットワークモジュールのスタイル損失値を算出し、前記第1の損失関数は、コンテンツ損失関数をさらに含み、第1のトレーニング画像、第1のトレーニング出力画像、及び第2のトレーニング出力画像のコンテンツ特性に基づき、前記生成ニューラルネットワークモジュールのコンテンツ損失値を算出する。
本開示の実施例によれば、トレーニングニューラルネットワークモジュールは、さらに、超解像度ニューラルネットワークの出力に基づいて超解像度ニューラルネットワークモジュールをトレーニングさせるように配置され、前記超解像度ニューラルネットワークモジュールは、第1のサンプル画像から抽出された低解像度の画像である超解像度トレーニング画像、および、取得された超解像度トレーニングノイズ画像に基づいて、第2のサンプル画像を出力し、前記トレーニングニューラルネットワークモジュールは、第1のサンプル画像および第2のサンプル画像に基づいて識別ラベルを出力するように配置される第2の識別ニューラルネットワークモジュールをさらに含み、前記最適化器は、前記超解像度ニューラルネットワークモジュールのコスト関数を低減することにより、前記超解像度ニューラルネットワークモジュールのパラメータを最適化する。
本開示の実施例は、画像処理デバイスを提供し、1つ以上のプロセッサと、1つ以上のメモリと、を含む。前記メモリは、前記1つ以上のプロセッサによって実行されると、上記画像処理方法を実行し、又は上記画像処理装置を実現するコンピュータ読み取り可能なコードを記憶する。
本開示の実施例又は関連技術における技術案をより明確に説明するために、以下、実施例又は関連技術の説明に必要な図面を簡単に説明し、以下の説明における図面が、本開示の実施形態の一部に過ぎず、当業者にとって、創造的な労動を伴うことなく、これらの図面に基づいて他の図面を取得することができることは明らかである。
図1は、本開示の実施例による画像処理方法の例示的なフローチャートを示す。 図2は、図1に示した画像処理方法を実現するためのニューラルネットワークの概略的な構成を示す概略図である。 図3は、図2における生成ニューラルネットワークの具体例の構成図である。 図4は、リフト層の例示的な概略図である。 図5は、図2における超解像度ニューラルネットワークの例示的な構造の模式図である。 図6は、図5における超解像度ニューラルネットワークの具体的な例示の構成図である。 図7は、生成ニューラルネットワークをトレーニングさせる例示的なフローチャートである。 図8は、生成ニューラルネットワークをトレーニングさせる例示的なブロック図である。 図9は、解析ネットワークの具体的な例示の構成図である。 図10は、ニューラルネットワークを判別する具体的な例示の構成図である。 図11は、超解像度ニューラルネットワークをトレーニングさせる例示的なフローチャートである。 図12は、第2の解析ニューラルネットワークの具体的な例示の構成図である。 図13は、本開示の実施例による画像処理装置の概略的な例示のブロック図である。 図14は、本開示の実施例による画像処理デバイスの概略的な例示のブロック図である。
以下、本開示の実施例における図面を組合せ、本開示の実施例における技術案を、明確かつ完全に説明する。もちろん、説明された実施例は、本開示の一部の実施例にすぎず、全ての実施形例はない。本開示の実施例に基づいて、当業者が創造的な労力を要することなく得られる全ての他の実施例は、本開示の保護範囲に属する。
本開示の実施例は、画像変換を実現する画像処理方法、処理装置および処理デバイスを提供する。前記画像処理方法、処理装置および処理デバイスは、生成ニューラルネットワーク、超解像度ニューラルネットワーク、およびコンテンツパーセプトに基づいて画像変換を行う。入力にノイズ画像を付加することで、変換画像の詳細情報を生成する。コンテンツ特徴損失関数を用いて生成ニューラルネットワークをトレーニングさせることにより、変換後の出力画像と入力画像とのコンテンツ一致性を確保し、処理結果間のスタイル相違損失関数を用いて生成ニューラルネットワークをトレーニングさせることにより、出力結果間の多様性を確保し、システムを簡単にし、トレーニングを容易にする。これに基づき、製品の画像解像度に対する要求を満たすように、超解像度ニューラルネットワークを用いて生成ニューラルネットワークが出力する変換画像の解像度を向上させ、解像度が高い変換画像を取得する。
本開示の実施例による画像処理方法の例示的なフローチャートは、図1に示すように、ステップS110において、画像変換処理を受けるべき入力画像を取得し、当該入力画像は、元情報として、第1の色チャンネル、第2の色チャンネル及び第3の色チャンネルを含む。本開示のいくつかの実施例では、RGB3チャンネルであるが、本開示はこれに限定されない。次に、ステップS120において、第1のノイズ画像と第2のノイズ画像を取得し、前記第1のノイズ画像は、N個のチャンネル( Nは1以上の正整数)を含む。いくつかの実施例では、第1のノイズ画像は、第2のノイズ画像と同一ではないことがある。本開示の実施例において、Nは、例えば1であり、即ち、第1のノイズ画像は、第4のチャンネルとして、入力画像のRGBチャンネル情報とともに生成ニューラルネットワークに入力される。前記ノイズは、例えば、ガウスノイズのようなランダムノイズであってもよい。本開示の他の実施例では、Nは、例えば3であってもよく、第1のノイズ画像の3つのチャンネルをそれぞれ画像変換処理を行いたい元画像のRGBチャンネルに追加することによって、ノイズ情報を含む入力画像を生成し、前記生成ニューラルネットワークが前記入力画像に基づいて前記元画像に対して画像変換処理を行う。この場合について、本明細書では贅言しない。毎回に入力されるノイズ画像にランダムノイズが含まれるため、同一組の生成ニューラルネットワークを用いて同一の入力画像によって行われる複数回の画像処理を行うことで、詳細情報の異なる変換結果を得ることができ、即ち、変換結果の多様性を図ることができる。また、入力画像の取得とノイズ画像の取得とは、プロセス上の前後順序が画像処理結果に影響を与えない。
ステップS130では、取得した入力画像を第1のノイズ画像とともに生成ニューラルネットワークに入力し(例えば、いくつかの実施例では、生成ニューラルネットワークの具体的な実現に応じて、入力画像と第1のノイズ画像とを重ね合わせて、単一の画像データとして生成ニューラルネットワークに入力してもよいし、入力画像と第1のノイズ画像とのデータを異なるデータチャンネルとして生成ニューラルネットワークにそれぞれ入力してもよい)、画像処理操作(例えば、画像変換処理)を終了する。ステップS140では、当該生成ニューラルネットワークは、画像変換処理を行った第1の出力画像を出力し、前記第1の出力画像は、3つのチャンネルを有し、本開示の実施例では、RGB3チャンネルであるが、本開示はこれに限定されない。当該生成ニューラルネットワークは、異なるトレーニング過程を経て例えば、画風、シーン、季節、効果、又は他の特徴に基づく画像変換など、異なる画像処理を実現することができる。ステップS150では、生成ニューラルネットワークから出力される第1の出力画像を第2のノイズ画像とともに超解像度ニューラルネットワークに入力し(例えば、いくつかの実施例では、超解像度ニューラルネットワークの具体的な実現に応じて、第1の出力画像と第2のノイズ画像とを重ね合わせて、単一の画像データとして超解像度ニューラルネットワークに入力してもよいし、第1の出力画像と第2のノイズ画像とのデータを異なるデータ経路として、超解像度ニューラルネットワークに入力してもよい)、高解像度変換処理を終了し、第1の出力画像の解像度を向上させる。ただし、前記第2のノイズ画像は、M個のチャンネル(Mは、1以上の正整数である)を含み、本開示の実施例では、例えば、Mは、1である。すなわち、前記第2のノイズ画像は、単独のチャンネルとして、超解像度ニューラルネットワークに入力し、超解像度変換過程に画像詳細情報を生成する。本開示の他の実施例では、例えば、Mは、3であってもよく、第2のノイズ画像の3つのチャンネルを前記第1の出力画像のRGBチャンネルにそれぞれ追加することによって、ノイズ情報を含む第1の出力画像を生成し、前記超解像度ニューラルネットワークは、前記第1の出力画像に対して解像度向上処理を行う。この場合について、本明細書では贅言しない。
ステップS160では、当該超解像度ニューラルネットワークは、解像度を向上させた第2の出力画像を出力する。超解像度ニューラルネットワークが解像度を向上させる過程に第2のノイズ画像の情報を組み合わせたため、同一組の超解像度ニューラルネットワークを用いて同一枚の入力画像によって行われる複数回の画像処理操作は、詳細情報の異なる出力結果を得ることができ、変換結果の多様性をさらに図ることができる。
図2は、上記画像処理方法を実現するためのニューラルネットワークの例示的な構成概略図を示し、主に、生成ニューラルネットワークと超解像度ニューラルネットワークという2つの部分を含む。図3は、図2に示す生成ニューラルネットワークの具体的な例示構成図を示す。以下、図2及び図3を組み合わせて、前記生成ニューラルネットワークを詳細に説明する。
図2に示すように、前記生成ニューラルネットワークの入力は、入力画像の3つのチャンネル(特徴)、例えば、具体的に第1の色チャンネル、第2の色チャンネルおよび第3の色チャンネルを含む。本開示の実施例ではRGB3チャンネルであり、前記第1のノイズ画像をさらに含む。前記生成ニューラルネットワークの出力は、3つのチャンネルを有する第1の出力画像であり、本開示の実施例ではRGB3チャンネルであるが、本開示はこれに限定されない。前記生成ニューラルネットワークは、1つまたは複数のダウンサンプリングモジュールと、1つまたは複数の残差モジュールと、1つまたは複数のアップサンプリングモジュールとを含む。生成ニューラルネットワークの深さは、前記ダウンサンプリングモジュール、残差モジュール、ダウンサンプリングモジュールの個数によって決定され、具体的な変換アプリケーションによって決定される。また、いくつかの実施例において、出力画像と入力画像とが同じ画像サイズを有するように、前記ダウンサンプリングモジュールとアップサンプリングモジュールとの個数は、同じであってもよい。
前記ダウンサンプリングモジュールは、入力画像とノイズ画像に対して畳み込み処理を行って画像特徴を抽出し、特徴画像のサイズを小さくする。前記残差モジュールは、特徴画像サイズを変えずに、畳み込みによって、ダウンサンプリングモジュールから出力された特徴画像をさらに処理する。前記アップサンプリングモジュールは、残差モジュールから出力された前記特徴画像に対して拡大及び標準化処理を行い、特徴を変換した出力画像を出力する。当該出力画像の変換特徴は、前記生成ニューラルネットワークのパラメータにより決定され、変換アプリケーションに応じて、トレーニング画像を用いて前記生成ニューラルネットワークをトレーニングさせ、変換目的を達成するように前記パラメータを最適化する。前記画像変換アプリケーションは、例えば、風景画像をゴッホ作品の特徴を有する画像に変換し、夏の特徴を有する画像を冬の特徴を有する画像に変換し、茶色の馬の画像をゼブラの特徴に変換し、猫を犬に変換するなど、画像のスタイル、季節、効果、シーンなどの変換であってもよい。
例えば、図3に示すように、ダウンサンプリングモジュールは、順次連結された畳み込み層、ダウンサンプリング層、及び実例標準化層を含む。
畳み込み層では、1つの畳み込みカーネルが、1つ前の畳み込み層の出力特徴画像の一部のピクセルのみに接続され、畳み込み層は、入力画像にいくつかの畳み込みカーネルを適用して、複数類型の特徴を抽出することができる。各畳み込みカーネルは、1つの類型の特徴を抽出し、生成ニューラルネットワークのトレーニング過程において、畳み込みカーネルは、学習によって妥当な重み付け値となる。入力された画像に1つの畳み込みカーネルを適用した結果を、特徴画像とし、その数量は、畳み込みカーネルの数量と同じである。各特徴画像は、矩形状に配置された、畳み込みカーネルによって畳み込まれる画素からなり、同一の特徴画像の畳み込みカーネルは、重み付け値を共用することができる。1つの畳み込み層によって出力された特徴画像は、次の畳み込み層で処理された後、新たな特徴画像が得られる。例えば、入力画像が1つの畳み込み層で処理された後に、そのコンテンツ特徴が取得され、前記コンテンツ特徴が次の畳み込み層で処理された後に、スタイル特徴が取得される。
ダウンサンプリング層は、画像に対してダウンサンプリング処理(例えば、プール層)を行い、特徴画像の個数を変えずに特徴画像のサイズを縮小して特徴圧縮を行い、主要特徴を抽出することができる。また、ダウンサンプリング層は、特徴画像のサイズを縮小して算出の複雑度を簡単にし、オーバーフィッティングの現象をある程度に減少させることができる。
実例標準化層は、上層で出力された特徴画像に対して標準化処理を行い、本開示の実施例では、各特徴画像の平均値及び分散値に基づいて標準化する。当該生成ニューラルネットワークのトレーニング際(例えば、mini-batchトレーニング方式を採用する)に用いられるバッチサイズ(batch size)をTとし、ある畳み込み層から出力される特徴画像の数をCとし、各特徴画像をH行W列の行列とすれば、特徴画像は(T,C,W,H)と表され、標準化式は以下のようになる:

Figure 0007438108000001
ただし、xtijkは、ある畳み込み層から出力される特徴画像集合におけるt番目のバッチ(batch)のi番目の特徴画像のj列目、k行目の値である。ytijkは、xtijkが実例標準化層処理によってえられる結果を示し、分母が0にならないように、εが非常に小さい正数となっている。
図3に示すように、残差モジュールでは、畳み込み層および実例標準化層の両方を含むとともに、クロスレイヤー接続も含まれる。これにより、残差モジュールは、畳み込み層および実例標準化層を有する処理部分と、入力画像を処理しないクロスレイヤー部分という2つの部分を有している。当該クロスレイヤー接続は、残差モジュールの入力を直接に前記処理部分の出力に重ね合わせる。残差モジュールにクロスレイヤー接続を導入することにより、生成ニューラルネットワークをより柔軟させることができる。生成ニューラルネットワークに対するトレーニングが完了すると、システムの展開段階で、画像処理結果に対する残差モジュールにおける処理部分及びクロスレイヤー部分の影響度合いを判断することができる。ネットワークの稼働率や処理速度を向上させるように、当該影響度合いに応じて生成ニューラルネットワークの構造をある程度にクリッピングすることができる。例えば、判定により、画像処理結果に対するクロスレイヤー接続部分の影響が処理部分に比べて非常に大きい場合には、当該生成ニューラルネットワークによって画像処理を行う場合、残差モジュールにおけるクロスレイヤー接続部分のみを利用し、ネットワークの処理効率を向上させることができる。
図3に示すように、アップサンプリングモジュールは、順次に接続されるアップサンプリング層、実例標準化層及び畳み込み層を含み、入力された画像の特徴を抽出し、特徴画像に対して標準化処理を行う。
前記アップサンプリング層は、例えば、アップグレーディング層(またはMUX層)であってもよく、入力された若干の画像に対して画素のインターリーブ再配置処理を行うことにより、画像数が変わらずに、各画像のサイズを大きくすることができる。これにより、MUX層は、異なる画像間の画素の配列組合により、各画像の画素数を増加させる。図4は、2*2のMUX層を用いてアップサンプリングを行う例示的な概略図を示す。入力された4枚の画像INPUT4n、INPUT4n+1、INPUT4n+2、INPUT4n+3に対して、入力された画像の画素数をa*bとすれば、2*2のMUX層の画素再配列を経て、画素数が2a*2bである4枚の画像OUTPUT 4n、OUTPUT 4n+1、OUTPUT 4n+2、OUTPUT 4n+3が出力され、各画像の画素情報を増加させる。
本開示の実施例では、第1のノイズ画像チャンネルは、入力画像のN個のチャンネル(本開示の実施例では、RGBチャンネル)とともに、前記生成ニューラルネットワークに入力され、前記入力画像およびノイズ画像は、上記ダウンサンプリングモジュール、残差モジュール、およびアップサンプリングモジュールの処理を経て、その特徴画像を抽出し、変換特徴を有する第1の出力画像を最終的に出力する。前記ノイズ画像は、ランダムノイズを有し、第1の出力画像における詳細情報を生成し、そして、入力されるノイズ画像が毎回異なるため、同一の生成ニューラルネットワークに対して前後2回の同じ入力画像を入力しても、詳細が異なる変換画像を得ることができ、変換画像における詳細情報が豊富になり、より良いユーザ体験を提供することができる。
図5は、図2に示した超解像度ニューラルネットワークの例示構造概略図であり、図6は、図2に示した超解像度ニューラルネットワークの具体的な例示構成例であり、以下、図2、図5及び図6を参照して、前記超解像度ニューラルネットワークを詳細に説明する。
図2に示すように、前記超解像度ニューラルネットワークの入力は、第2のノイズ画像チャンネル、並びに第1の出力画像の第1の色チャンネル、第2の色チャンネル、及び第3の色チャンネルを含む。前記超解像度ニューラルネットワークの出力は、第1の色チャンネル、第2の色チャンネル、及び第3の色チャンネルを含む、高解像度変換処理が行われた第2の出力画像であるが、本開示はこれに限定されない。本開示の実施例では、前記第1の色チャンネル、第2の色チャンネル、および第3の色チャンネルは、RGBチャンネルであってもよい。前記第2のノイズ画像は、例えば、ガウシアンノイズなどのランダムノイズを有し、超解像度ニューラルネットワークによる画像の高解像度変換の過程で、画像詳細情報を生成し、出力される第2の出力画像は、高解像度を有するとともに画像詳細情報を含み、即ち、出力結果は、画像多様性を有している。
図5に示すように、前記超解像度ニューラルネットワークは、順次に接続されるアップグレーディングモジュール及び変換モジュールを含み、ただし、超解像度ニューラルネットワークによって高解像度変換処理を行うことは、以下のことを含む。前記アップグレーディングモジュールによって第1の出力画像および第2のノイズ画像に対してアップサンプリング処理を行い、輝度チャンネル、第1の色差チャンネル、第2の色差チャンネルを含む第1の中間画像を出力し、本開示の実施例では、YUV3チャンネルである。前記変換モジュールにより、アップグレーディングモジュールから出力された第1の中間画像を、第1の色チャンネル、第2の色チャンネル、第3の色チャンネルを含む第2の出力画像に変換し、本開示の実施例ではRGB3チャンネルである。ただし、前記第1の中間画像は、前記第1の出力画像に比べて、向上された画像解像度を有し、前記画像解像度の向上倍数は、前記アップグレーディングモジュールの具体的な構成によって決定される。本開示の実施例では、例えば、前記アップグレーディングモジュールは、入力画像の画素数を16倍にアップグレーディングし、4*4のアップグレーディングモジュールと呼ばれることができる。すなわち、前記第1の出力画像の画素数がm*nである場合、4*4のアップグレーディングモジュールによって処理されて出力される第1の中間画像の画素数は、4m*4nである。解像度及び画像詳細情報が増加された前記第1の中間画像は、変換モジュールによって、RGB3チャンネルを有する第2の出力画像に変換される。
図6は、4*4のアップグレーディングモジュールを含む超解像度ニューラルネットワークの具体的な例示構成例を示している。前記4*4のアップグレーディングモジュールは、第1のサブネットワーク、第2のサブネットワーク、及び第3のサブネットワークを含み、各サブネットワークの入力は、第1の出力画像及び第2のノイズ画像であり、且つ、各サブネットワークは、同一構造を有しており、すなわち、同一個数の畳み込み層CO及びアップグレーディング層MUXを含む。各サブネットワークの具体的なパラメータが異なることが理解されるべきである。本開示の実施例では、超解像度ニューラルネットワークは、複数のアップグレーディングモジュールを含め、前記アップグレーディングモジュールは、複数のサブネットワークを含め、本開示の実施例では、3つのサブネットワークを含む。前記アップグレーディングモジュールが、他の実施例では、1つ以上のサブネットワークを含んでもよく、例えばBicubicなどの標準技術を含んで画像解像度の拡大を実現してもよいことが理解されるべきである。さらに、各サブネットワークは、少なくとも1つのアップグレーディングサブモジュールを含み、各アップグレーディングサブモジュールは、順次に接続された少なくとも1つの畳み込み層および1つのMUX層を含む。そして、各サブネットワークは、複数のアップグレーディングサブモジュールの後に、少なくとも1つの畳み込み層をさらに含むことができる。例えば、前記各サブネットワークにおける各アップグレーディングサブモジュールは、具体的に、順次に接続された2つの畳み込み層COおよびMUX層(具体的な構成図は、図6に示す)を含み、前記畳み込み層COは、画像特徴を抽出し、前記MUX層は、前記畳み込み層により抽出された特徴画像に対してアップサンプリング処理を行う。前記畳み込み層およびMUX層の具体的な機能は、上記生成ニューラルネットワークと同様であるので、ここでは贅言しない。
本開示の実施例では、前記第1のサブネットワークは、第1の中間画像の輝度チャンネル情報であるYチャンネル情報を出力し、前記第2のサブネットワークは、第1の中間画像の第1の色差チャンネル情報であるUチャンネル情報を出力し、前記第3のサブネットワークは、第1の中間画像の第2の色差チャンネル情報であるVチャンネル情報を出力するが、本開示はこれに限定されない。YUVチャンネルを含む第1の中間画像は、前記変換モジュール処理を経て、RGBチャンネルを含む第2の出力画像に変換される。
本開示の実施例では、超解像度ネットワークにより、生成ニューラルネットワークから出力される、解像度が低い第1の出力画像の解像度を向上させ、最終的に解像度が高い第2の出力画像を出力し、画像変換結果を画像解像度に対する表示製品の要求にさらに満たさせ、より良いユーザ体験が得られる。
図7は、前記生成ニューラルネットワークをトレーニングさせる例示的なフローチャートを示し、図8は、前記生成ニューラルネットワークをトレーニングさせる例示的なブロック図を示している。以下、図7及び図8を参照して、前記生成ニューラルネットワークをトレーニングさせる過程を具体的に説明する。
本開示の実施例による画像処理方法において、図7に示すように、ステップS710では、3つのチャンネルを含む第1のトレーニング画像I1を取得する。いくつかの実施例において、第1のトレーニング画像I1は、図1を参照して説明した入力画像と類似する画像であってよい。
ステップS720では、第1のトレーニングノイズ画像N1及び第2のトレーニングノイズ画像N2を取得し、ここで、前記ノイズ画像N1及びN2は、異なるランダムノイズを有しており、例えばガウシアンノイズであってよい。いくつかの実施例において、第1のトレーニングノイズ画像N1及び/又は第2のトレーニングノイズ画像N2は、図1を参照して説明した第1のノイズ画像と類似するノイズ画像であってよい。
ステップS730では、前記生成ニューラルネットワークは、前記第1のトレーニング画像I1と第1のトレーニングノイズ画像N1によって、第1のトレーニング出力画像Raを生成し、前記第1のトレーニング画像I1と第2のトレーニングノイズ画像N2によって、第2のトレーニング出力画像Rbを生成するが、生成ニューラルネットワークによって入力画像とノイズ画像に基づいて入力画像に対して変換処理を行い変換画像を出力するフローは図1に示すフローと同じであるので、ここでは具体的に贅言しない。
次に、ステップS740では、第1のトレーニング画像I1、第1のトレーニング出力画像Ra、および第2のトレーニング出力画像Rbに基づいて、前記生成ニューラルネットワークをトレーニングさせる。当該トレーニングは、生成ニューラルネットワークの処理結果に応じて、変換目標を達成できるようにネットワークにおけるパラメータを最適化することを目的とする。
図8に示すように、ステップS740の生成ニューラルネットワークをトレーニングさせる具体的な過程は、前記第1のトレーニング出力画像Raを識別ニューラルネットワークに入力して、前記第1のトレーニング出力画像Raが変換特徴を有するか否かの識別ラベルを出力するステップと、第1の損失算出手段により、前記第1のトレーニング画像I、第1のトレーニング出力画像Ra、第2のトレーニング出力画像Rbおよび識別ラベルに基づいて、前記生成ニューラルネットワークの損失値を算出して、前記生成ニューラルネットワークのパラメータを最適化するステップとを含む。本開示の実施例では、第1のトレーニング出力画像Raを第2のトレーニング出力画像Rbとともに識別ニューラルネットワークに入力し、識別ラベルをそれぞれ出力して共に前記生成ニューラルネットワークのトレーニングに用いることができる。
図8に示すように、前記第1の損失算出手段は、分析ネットワーク、第1の損失算出器、最適化器という3つの部分を含む。前記分析ネットワークの具体的な構成は、図9に示すように、若干の畳み込みネットワークとおよびプール層からなり、入力画像のコンテンツ特徴を抽出する。ここで、各畳み込み層の出力は、いずれも入力画像から抽出された特徴であり、プール層は、特徴画像の解像度を低下させて次の畳み込み層に伝送する。各畳み込み層を介した特徴画像は、いずれも異なるレベルにおける入力画像の特徴(例えば、テクスチャ、エッジ、物体等)を示している。本開示の実施例では、分析ネットワークによって、第1のトレーニング画像I1、第1のトレーニング出力画像Ra及び第2のトレーニング出力画像Rbを処理し、それらのコンテンツ特徴を抽出して第1の損失算出器に入力する。
前記第1の損失算出器は、第1のトレーニング画像I1、第1のトレーニング出力画像Ra及び第2のトレーニング出力画像Rbのコンテンツ特徴および識別ラベルに基づいて、第1の損失算出関数に従って生成ネットワークの損失値を算出する。第1の損失算出器は、算出された生成ニューラルネットワークの総損失値を最適化器に入力し、前記最適化器は、損失値に基づいて、生成ニューラルネットワークの畳み込み層における畳み込みカーネル及びバイアスを最適化して、画像変換目標により近い処理効果を実現することができる。
本開示の実施例では、第1の損失算出関数は、スタイル相違損失関数を含み、第1のトレーニング出力画像Raのスタイル特徴及び第2のトレーニング出力画像Rbのスタイル特徴に基づいて、前記生成ニューラルネットワークのスタイル損失値を算出する。分析ネットワーク(図9に示すように)では、各畳み込み層の出力はいずれも入力画像の特徴である。Nl個の畳み込みカーネルを有する畳み込み層を仮定し、その出力は、Nl個の特徴画像を含み、各特徴画像のサイズがMl(特徴画像の幅×高)であると仮定する。そのようなl層の出力は、マトリックス

Figure 0007438108000002
に記憶され得る。

Figure 0007438108000003
は、l層目におけるi番目の畳み込みカーネルが出力する特徴画像におけるj番目の位置の値を示している。
本開示の実施例では、トレーニング出力画像RaとRbとのスタイル損失値に応じて、出力画像間の相違を示している。仮に、

Figure 0007438108000004


Figure 0007438108000005
はそれぞれ分析ネットワークに入力される画像であれば(例えば、第1のトレーニング出力画像Ra及び第2のトレーニング出力画像Rb)、l層目で出力されるグラム(Gram)行列は、ぞれぞれAlとGlであり、当該層における

Figure 0007438108000006


Figure 0007438108000007
のスタイル損失関数は、

Figure 0007438108000008
である。
ただし、Eは、前記スタイル損失関数を示し、C2は、結果に対して標準化処理を行うための定数である。Nlは、分析ネットワークにおけるl層目にNl個の畳み込みカーネルがあることを示し、当該畳み込み層の出力にNl個の特徴画像を含む。各特徴画像のサイズはいずれもMlである(特徴画像の幅×高)。前記Gram行列AlとGlは、

Figure 0007438108000009
に定義される。
ただし、

Figure 0007438108000010
は、前記l番目の畳み込み層におけるi番目の畳み込みカーネルに対応するグラム行列(

Figure 0007438108000011
のスタイル特徴)におけるj番目の位置の値を示し、

Figure 0007438108000012
は、前記l番目の畳み込み層におけるi番目の畳み込みカーネルに対応するグラム行列(

Figure 0007438108000013
のスタイル特徴)におけるj番目の位置の値を示す。
したがって、分析ネットワークがL個の畳み込み層を介して入力画像のスタイル特徴を抽出する場合、全体的なスタイル損失関数は、

Figure 0007438108000014
に示される。
ただし、wlは、全体的なスタイル損失におけるl層目のスタイル損失が占める重み付けである。
本開示の実施例では、スタイル特徴は、分析ネットワークにおける複数の畳み込み層を介して抽出されてもよく、1つの畳み込み層を介して抽出されてもよく、ここで、特に限定されない。
従って、2枚のトレーニング出力画像Ra及びRbのスタイル相違は

Figure 0007438108000015
である。
ただし、C3は、結果に対して標準化処理を行うための定数である。
出力結果間の多様性をより明確にするために、すなわち、2つの出力結果のスタイル損失は、大きいほど良いと要求するため、スタイル損失は

Figure 0007438108000016
に示される。
第1の損失算出器は、分析ネットワークから出力された第1のトレーニング出力画像Ra及び第2のトレーニング出力画像Rbのスタイル特徴に基づいて、上述全体的なスタイル損失関数LDVSTにしたがって出力画像間のスタイル損失値を算出し、出力画像間の結果の多様性を保証する。
本開示の実施例では、第1の損失算出関数は、コンテンツ損失関数をさらに含むことができる。入力画像をI1とし、第1のトレーニング出力画像をRaとし、分析ネットワークにおけるl層目で出力される特徴画像をそれぞれPlとFlとした場合、コンテンツ損失関数は以下のように定義される:

Figure 0007438108000017
ただし、C1は、結果に対して標準化処理を行うための定数であり、

Figure 0007438108000018
は、分析ネットワークにおけるl番目の畳み込み層におけるi番目の畳み込みカーネルから出力されるFlにおけるj番目の位置の値を示し、

Figure 0007438108000019
は、l番目の畳み込み層におけるi番目の畳み込みカーネルから出力されるPlにおけるj番目の位置の値を示す。
コンテンツ損失式によれば、分析ネットワークで第1のトレーニング画像I1、第1のトレーニング出力画像Ra、及び第2のトレーニング出力画像Rbが出力された特徴画像に基づいて、生成ニューラルネットワークが処理した第1のトレーニング画像に対する第1のトレーニング出力画像Ra及び第2のトレーニング出力画像Rbのコンテンツ損失値Lcontent_a及びLcontent_bを算出することができる。
前記生成ニューラルネットワークの内容損失値を算出することにより、出力される変換画像と入力画像とを一致させることができ、出力画像が処理された後に、変換特徴を有するとともに、十分な元情報が保留される。本開示の実施例では、生成ニューラルネットワークによってコンテンツ損失関数を組み合わせて、生成ニューラルネットワークをトレーニングさせることにより、変換画像を入力画像と一致させ、システムが簡単であり、トレーニングさせやすい。
本開示の実施例では、第1の損失算出関数は、生成器の損失関数をさらに含むことができる:

Figure 0007438108000020
ただし、Pdataは、識別ニューラルネットワークの出力を1とする画像セットである。Pzは、生成ニューラルネットワークの入力画像セットである。Dは、識別ニューラルネットワークであり、Gは、生成ニューラルネットワークである。第1の損失算出器は、L_Gに基づいて生成ニューラルネットワークの対抗損失値を算出することができる。
本開示の実施例では、第1の損失算出関数は、パラメータ正則化損失関数LL1をさらに含むことができる。ニューラルネットワークでは、畳み込みカーネル及びバイアスは、いずれもトレーニングによって得られるパラメータである。畳み込みカーネルは、入力画像をどのように処理するかを決定し、バイアスは、当該畳み込みカーネルの出力が次の層に入力されるかを決定する。したがって、ニューラルネットワークでは、バイアスは「スイッチ」に見立てられ、当該畳み込みカーネルが「オン」にするか、または「オフ」にするかを決定する。異なる処理効果を達成するように、異なる入力画像に対して、ネットワークは、異なる畳み込みカーネルをオン又はオフにする。
ニューラルネットワークにおける全ての畳み込みカーネルの絶対値の平均値は

Figure 0007438108000021
である。
ただし、Cwは、ネットワークにおける畳み込みカーネルの数である。ニューラルネットワークにおける全てのバイアス絶対値の平均値:

Figure 0007438108000022
である。
ただし、Cbはネットワークにおけるバイアスの数である。パラメータ正則化損失関数は、

Figure 0007438108000023
である。
ただし、εは、分母が0にならないようにするための極く小さな正数である。
本開示の実施例では、バイアスの「スイッチ」の効果がより有効に働くように、畳み込み層におけるバイアスは、畳み込みカーネルに比べて、より大きい絶対値を有することが望ましい。トレーニング過程で、第1の損失算出器は、LL1に基づいて生成ニューラルネットワークのパラメータ正則化損失値を算出する。
以上のように、いくつかの実施例では、生成ニューラルネットワークの総損失は

Figure 0007438108000024
であることができる。
ただし、Rは、生成ニューラルネットワークの標準化損失値であり、α、β、χおよびδは、それぞれ総損失におけるコンテンツ損失値、対抗損失値、スタイル損失値及び標準化損失値の重み付けであり、本開示の実施例では、上記パラメータ正則化損失値を用いて標準化損失値を表したが、他の類型の正則化損失を用いてもよい。
生成ニューラルネットワークのトレーニング過程に用いる識別ニューラルネットワークは、前記生成ニューラルネットワークとともに、対抗ネットワークを構成する。前記識別ニューラルネットワークは、若干の畳み込み層およびプール層を用いて、入力画像のコンテンツ特徴を抽出し、特徴画像のサイズを縮小し、次の畳み込み層が画像特徴をさらに抽出する。さらに、完全接続層及び活性層を用いて画像特徴を処理し、最終的に入力画像が変換特徴を有するか否かの識別ラベルのスカラー値を出力する。前記完全接続層は、畳み込みニューラルネットワークと同じ構成を有しており、畳み込みカーネルをスカラー値に置き換えただけである。前記活性層は、通常、RELU又はsigmoid関数である。本開示の実施例では、識別ニューラルネットワークの具体的な構造は、図10に示すように、活性層がsigmoid関数であり、最終的に識別ラベルを出力するが、本開示がこれに限定されるものではない。
対抗ネットワークでは、生成ニューラルネットワークは、入力画像を、効果Aから効果Bを有する出力画像に変換し、前記識別ニューラルネットワークは、出力画像が効果Bの特徴を有するか否かを判定し、識別ラベルを出力する。例えば、出力画像が効果Bの特徴を有すると判断されると、出力は「1」に近くなり、出力画像が効果Bの特徴を有さないと判断されると、「0」が出力される。トレーニングにより、生成ニューラルネットワークは、識別ニューラルネットワークが「1」を出力させる出力画像を徐々に生成していくことで、識別ニューラルネットワークは、出力画像が変換特性を有するか否かを徐々により正確に判定することが可能となり、両方が同期にトレーニングし、互いに対抗して、より最適なパラメータを得る。
前記識別ニューラルネットワークのトレーニングは、生成ニューラルネットワークを用いて、入力画像および第1のノイズ画像に基づいて、第1の出力画像を第1のサンプル画像Raとして出力するステップと、データセットからサンプル画像Rcを取得するステップと、を含む。前記第1のサンプル画像Raは、生成ニューラルネットワークによって効果Aから効果Bに変換して得られる出力画像であり、「偽」サンプルに相当する。データセットから取得されるサンプル画像Rcは、効果Bを有する「真」サンプルである。識別ニューラルネットワークによる前記RaとRcが効果Bを有するか否かに対する判定に基づいて、判別ラベルを出力する。前記第2のサンプル画像Rcに、本来、変換特徴である「真」ラベルを有しており、第1のサンプル画像Raに、本来、「偽」ラベルを有しており、生成ニューラルネットワークによる画像処理によって変換特徴を取得するが理解されるべきである。入力画像が該当する画像特徴を有するか否かを徐々により正確に判断することができるように、識別ラベルに基づいて前記識別ニューラルネットワークをトレーニングさせる。
本開示の実施例による画像処理方法において、前記超解像度ニューラルネットワークのトレーニングフローは、図11に示すようなものであり、以下、図11を参照して前記超解像度ニューラルネットワークのトレーニングを詳細に説明する。
図11に示すように、ステップS1110では、3つのチャンネル(本開示の実施例ではRGB3チャンネル)を有する入力画像および第1のノイズ画像を取得し、本開示は、これに限定されるものではない。前記第1のノイズ画像は、例えばガウシアンノイズ等のランダムノイズを有し、画像変換過程において画像詳細情報を生成する。ステップS1120では、生成ニューラルネットワークは、取得した入力画像および第1のノイズ画像に基づいて、前記入力画像に対して画像変換処理を行い、第1の出力画像を出力し、前記第1の出力画像は、第1のサンプル画像R1として、前記超解像度ニューラルネットワークをトレーニングさせる。
ステップS1130では、超解像度トレーニングノイズ画像N3を取得し、ステップS1140では、第1のサンプル画像R1から低解像度画像を超解像度トレーニング画像I2として抽出する。前記超解像度トレーニング画像I2は、解像度が第1のサンプル画像R1よりも低く、第1のサンプル画像R1のコンテンツ特徴を含む。超解像度トレーニング画像I2から前記第1のサンプル画像R1を復元することができることが理解されるべきである。
そして、ステップS1150では、超解像度ニューラルネットワークを用いて超解像度トレーニング画像I2と超解像度トレーニングノイズ画像N3から第2のサンプル画像R2を出力する。前記第2のサンプル画像R2は、解像度が超解像度トレーニング画像I2より高く、前記第1のサンプル画像R1と同一であってもよい。このステップでは、超解像度トレーニングノイズ画像N3を前記超解像度トレーニング画像I2とともに、超解像度ニューラルネットワークに入力してトレーニングさせ、出力画像における詳細情報を生成し、入力されるノイズ画像が毎回異なるため、毎回の画像処理過程に変化がある画像の詳細を生じさせ、出力される超解像度画像に多様性を持たせることができる。
ステップS1160では、第1のサンプル画像R1および第2のサンプル画像R2に基づいて、前記超解像度ニューラルネットワークのコスト関数を減少させることで、超解像度ニューラルネットワークのパラメータを最適化する。
本開示の実施例では、前記超解像度ニューラルネットワークのコスト関数は、第2の識別ニューラルネットワークの識別ラベルに基づくことができる。前記識別ラベルの生成過程は以下のことを含む:第1のサンプル画像R1および第2のサンプル画像R2を第2の識別ニューラルネットワークに入力し、当該第2の識別ニューラルネットワークは、解像度を向上させた第2のサンプル画像R2の画質を評価し、前記サンプル画像が超解像度ニューラルネットワークの出力画像(第2のサンプル画像R2)であるか、低解像度画像が抽出された元画像(第1のサンプル画像R1)であるかを示す識別ラベルを出力する。本開示の実施例では、第2の識別ニューラルネットワークは、RGB3チャンネルを有する入力画像(本開示の実施例では、第2のサンプル画像R2)を受信して、例えば-1または1などの数値を出力することができる。出力が1である場合、第2の識別ニューラルネットワークは、入力画像が元の高解像度コンテンツ(本開示の実施例では第1のサンプル画像R1)に対応すると判断する。出力が-1であれば、第2の識別ニューラルネットワークは、第2のサンプル画像R2が、生成ニューラルネットワークにより解像度化を向上させた出力画像であると判断する。超解像度ニューラルネットワークをトレーニングさせることで、第2の識別ニューラルネットワークの識別ラベルを最大化し、徐々に当該識別ラベルをできるだけリアルにする。そして、元の高解像度画像と、解像度化を向上させた画像とを正確に区別するように、第2の識別ニューラルネットワークをトレーニングさせる。前記超解像度ニューラルネットワークは、前記第2の識別ニューラルネットワークとともに対抗ネットワークを構成する。2組のネットワークは、交互にトレーニングし、互いに競合して最適なパラメータを取得する。
前記第2の識別ニューラルネットワークの具体的な構造は、図12に示すように、少なくともディグレーディングサブモジュールを含み、各ディグレーディングサブモジュールは、順次に接続される少なくとも1つの畳み込み層と1つのディグレーディングTMUX層とを含む。そして、複数のディグレーディングサブモジュールの後に、前記第2の識別ニューラルネットワークは、少なくとも1つの畳み込み層をさらに含み得る。例えば、各ディグレーディングサブモジュールは、具体的には、順次に接続された2つの畳み込み層CO及びTMUX層を含む。前記TMUX層は、超解像度ニューラルネットワークのMUX層に対応するディグレーディング過程を行い、第2の識別ニューラルネットワークに入力された第2のサンプル画像に基づいて生成された出力画像を、第2のサンプル画像と同じ解像度の低解像度画像にディグレーディングする。前記TMUX層による入力画像に対するデステージングする過程は、前記MUX層のアップグレーディング過程と逆である。第2の識別ニューラルネットワークは、畳み込み層を使用して、他の画質メトリック(例えば、構造類似度(structural similarity index、SSIM))に類似する画像「IQマップ(Map)」を出力する。「IQマップ」における全ての画素を平均した平均値を単一数字の「識別ラベル」として前記識別ラベルを出力する。
本開示の実施例は、画像変換を実現するための画像処理方法を提供し、前記画像処理方法は、生成ニューラルネットワーク、超解像度ニューラルネットワークおよびコンテンツパーセプトロンによって画像変換処理を行う。入力にノイズ画像を追加することにより、変換画像の詳細情報を生成する。コンテンツ特徴損失関数を用いて前記生成ニューラルネットワークをトレーニングさせ、変換された出力画像と入力画像のコンテンツを一致させ、処理結果間のスタイル相違損失関数を用いて、生成ニューラルネットワークをトレーニングさせ、出力結果間の多様性を保証し、システムを簡単にし、トレーニングさせやすい。これに基づいて、超解像度ニューラルネットワークを用いて、生成ニューラル出力の変換画像の解像度を向上させ、前記超解像度ニューラルネットワークのコスト関数を低減することで、超解像度ニューラルネットワークのパラメータを最適化する。これにより、トレーニング済みの生成ニューラルネットワークおよび超解像度ニューラルネットワークを用いることで、高解像度の変換画像を得ることができる。前記変換画像は変換特性も含まれており、画像解像度に対する製品の要求も満足することができる。
本開示の実施例によれば、図13に示すように、入力画像と、N(Nは1以上の正の整数)個のチャンネルを含む第1のノイズ画像とに基づいて、前記入力画像に画像変換処理を行い、変換された第1の出力画像を出力する生成ニューラルネットワークモジュール1302を備える画像処理装置が提供される。前記生成ニューラルネットワークモジュールは、上記生成ニューラルネットワークを含み得る。本開示の実施例による画像処理装置は、生成ニューラルネットワークモジュールを用いて、入力画像とノイズ画像に対して画像変換処理を行い、変換された出力画像を出力する。前記画像処理装置は、超解像度ニューラルネットワークモジュール1304をさらに備え、超解像度ニューラルネットワークモジュールを用いて、第1の出力画像と、M(Mは1以上の正の整数)個のチャンネルを含む第2のノイズ画像に対して、高解像度変換処理を行い、第2の出力画像を出力し、ただし、前記第1のノイズ画像と前記第2のノイズ画像とは異なる。
前記入力画像は、第1の色チャンネル、第2の色チャンネル、及び第3の色チャンネルを含み、本開示の実施例では、RGBチャンネルである。前記生成ニューラルネットワークモジュールの入力は、第1のノイズ画像チャンネルと、入力画像のRGBチャンネルとを含む。前記生成ニューラルネットワークモジュールの出力は、第1の色チャンネル、第2の色チャンネル、及び第3の色チャンネル(本開示の実施例では、RGBチャンネルである)を含む第1の出力画像である。
前記生成ニューラルネットワークモジュールは、1つまたは複数のダウンサンプリングモジュールと、1つまたは複数の残差モジュールと、1つまたは複数のアップサンプリングモジュールとを含む。前記ダウンサンプリングモジュールは、順次に接続された畳み込み層と、ダウンサンプリング層と、実例標準化層とを有し、前記残差モジュールは、順次に接続された畳み込み層と、実例標準化層とを有し、前記アップサンプリングモジュールは、順次に接続されたアップサンプリング層と、実例標準化層と、畳み込み層とを有し、前記アップサンプリングモジュールの数は、前記ダウンサンプリングモジュールの数に等しい。
前記超解像度ニューラルネットワークモジュールの入力は、第2のノイズ画像チャンネルと、第1の出力画像のRGBチャンネルとを含む。前記超解像度ニューラルネットワークモジュールの出力は、第1の色チャンネル、第2の色チャンネル、及び第3の色チャンネル(本開示の実施例ではRGBチャンネルである)を含む第2の出力画像である。
前記超解像度ニューラルネットワークモジュールは、順次に接続されたアップグレーディングモジュールと、変換モジュールとを含む。前記アップグレーディングモジュールは第1の出力画像と第2のノイズ画像に対してアップサンプリング処理を行い、輝度チャンネル、第1の色差チャンネル、及び第2の色差チャンネルを含む第1の中間画像(本開示の実施例では、YUVチャンネルである)を出力する。前記変換モジュールはアップグレーディングモジュールから出力される第1の中間画像を、RGBのチャンネルを含む第2の出力画像に変換する。前記アップグレーディングモジュールは、第1のサブネットワーク、第2のサブネットワーク、及び第3のサブネットワークを含み、各サブネットワークの入力は、第1の出力画像及び第2のノイズ画像であり、各サブネットワークは、同じ構造を有し、同じ個数の畳み込み層及びアップグレーディング層を含む。
本開示の実施例では、前記生成ニューラルネットワークモジュールは、第1のトレーニング画像I1と第1のトレーニングノイズ画像N1を用いて画像変換を行って変換された第1のトレーニング出力画像Raを出力し、第1のトレーニング画像I1と第2のトレーニングノイズ画像N2を用いて画像変換を行って変換された第1のトレーニング出力画像Rbを出力する。
前記トレーニングニューラルネットワークモジュールは、第1のトレーニング画像I1、第1のトレーニング出力画像Ra、及び第2のトレーニング出力画像Rbに基づいて、前記生成ニューラルネットワークモジュールをトレーニングさせる。このトレーニングは、生成ニューラルネットワークモジュールの処理結果に応じて、ネットワーク内のパラメータを最適化し、変換目標を達成することができるようにしている。
前記トレーニングニューラルネットワークモジュールは、前記第1のトレーニング出力画像Raが変換特徴を有するか否かを識別する識別ラベルを出力する識別ニューラルネットワークモジュールと、前記第1のトレーニング画像I、第1のトレーニング出力画像Ra、第2のトレーニング出力画像Rb、及び識別ラベルに基づいて、前記生成ニューラルネットワークの損失値を算出し、前記生成ニューラルネットワークモジュールのパラメータを最適化する第1の損失算出手段と、を備える。例えば、前記パラメータは、生成ニューラルネットワークモジュールにおける畳み込み層の畳み込みカーネル及びバイアスを含む。本開示の実施例では、第1のトレーニング出力画像Raと第2のトレーニング出力画像Rbをともに識別ニューラルネットワークモジュールに入力し、識別ラベルをそれぞれ出力して、前記生成ニューラルネットワークのトレーニングに用いることができる。
トレーニング後の前記生成ニューラルネットワークモジュールは、最適化されたパラメータを有しており、目標画像変換処理を実現することができる。本開示では、第1の損失算出手段によって、入力画像、第1の出力画像、及び第2の出力画像のコンテンツ特徴を組み合わせてトレーニングさせ、システムが簡単化され、よりトレーニングさせやすい。ここで、結果多様性損失関数により、生成ニューラルネットワークモジュールによって出力される変換画像間の多様性が保証される。コンテンツ損失関数により、出力された変換画像と入力画像との一致性が保証され、すなわち、変換された画像が、変換特性を有しつつ、元画像情報を十分に含み、画像処理過程に元画像情報が多くなくされることを避ける。
本開示の実施例によれば、前記トレーニングニューラルネットワークモジュールは、前記第1のサンプル画像R1と第2のサンプル画像R2とに基づいて、第2のサンプル画像R2が第1のサンプル画像に対応するコンテンツ特徴を有するか否かを示す識別ラベルを出力する第2の識別ニューラルネットワークモジュールをさらに含む。前記トレーニングニューラルネットワークモジュールは、さらに、前記第2の識別ニューラルネットワークによって出力された識別ラベルに応じて前記超解像度ニューラルモジュールをトレーニングさせる。例えば、前記最適化器は、前記超解像度ニューラルネットワークモジュールのコスト関数を低減することによって、前記超解像度ニューラルネットワークモジュールのパラメータを最適化する。
本開示の実施例では、前記生成ニューラルネットワークが、入力画像と、第1のノイズ画像とに基づいて、第1の出力画像を生成し、前記第1の出力画像は、第1のサンプル画像として、変換特徴を有し、RGBのチャンネルを含む。前記超解像度ニューラルネットワークモジュールは、第1のサンプル画像から抽出された低解像度画像である超解像度トレーニング画像と、取得された超解像度トレーニングノイズ画像とに基づいて、第2のサンプル画像をさらに出力する。前記トレーニングニューラルネットワークモジュールは、第1のサンプル画像と第2のサンプル画像に基づいて、超解像度ニューラルネットワークモジュールのコスト関数を低減することにより、前記超解像度ニューラルネットワークモジュールのパラメータを最適化し、前記パラメータは、前記超解像度ニューラルネットワークモジュールにおける畳み込み層の畳み込みカーネル及びバイアスを含んでもよい。
本開示の実施例による、画像変換を実現する画像処理装置は、生成ニューラルネットワーク、超解像度ニューラルネットワーク、およびコンテンツパーセプトロンに基づいて画像変換処理を行い、生成ニューラルネットワークモジュールおよび超解像度ネットワークモジュールとを備える。変換画像の詳細情報は、入力にノイズ画像を付加することで生成される。コンテンツ特徴損失関数を用いて前記生成ニューラルネットワークモジュールをトレーニングさせ、変換された出力画像と入力画像とのコンテンツ一致性を保証し、処理結果間のスタイル相違損失関数を用いて生成ニューラルネットワークをトレーニングさせ、出力結果間の多様性を保証し、システムを簡単にし、トレーニングさせやすい。これに基づいて、超解像度ニューラルネットワークモジュールを用いて生成ニューラルから出力される変換画像の解像度を向上させ、超解像度ニューラルネットワークモジュールのコスト関数を低減することによって超解像度ニューラルネットワークモジュールのパラメータを最適化する。これにより、トレーニングさせた生成ニューラルネットワークモジュールと超解像度ニューラルネットワークモジュールによって、高解像度の変換画像を取得することができ、当該変換画像は、変換特徴も含んでおり、画像解像度に対する製品の要求も満足することができる。
本開示の実施例は、画像処理デバイスをさらに提供しており、図14に示すように、プロセッサ1402とメモリ1404とを含む。なお、図14に示す画像処理デバイスの構成は示例だけであり、制限的なものではなく、実際の用途に応じて他の構成要素を備えるようにしてもよい。
本開示の実施例では、プロセッサ1402とメモリ1404との間は、直接的に又は間接的に互いに通信し得る。プロセッサ1402とメモリ1404などの構成要素との間は、ネットワーク接続を介して通信し得る。ネットワークは、無線ネットワーク、有線ネットワーク、及び/又は無線ネットワークと有線ネットワークとの任意の組み合わせを含み得る。ネットワークは、ローカルエリアネットワーク、インターネット、電気通信ネットワーク、インターネット及び/又は電気通信ネットワークに基づくモノのネットワーク(Internet of Things)、並びに/又は上記のネットワークの任意の組み合わせなどを含み得る。有線ネットワークは、例えばツイストペア、同軸ケーブル又は光ファイバ伝送等の方式で通信を行うことができ、無線ネットワークは、例えば3G/4G/5G移動通信ネットワーク、ブルートゥース(登録商標)、Zigbee又はWiFi等の通信方式を用いることができる。本開示は、ネットワークのタイプ及び機能に対して、ここで制限しない。
プロセッサ1402は、所望の機能を実行するように、画像処理装置における他のコンポーネントを制御してもよい。プロセッサ1402は、中央処理装置(CPU)、テンポプロセッサ(TPU)、またはグラフィクスプロセッサGPUなどのデータ処理能力および/またはプログラム実行能力を有するデバイスであり得る。中央処理装置(CPU)は、X86又はARMアーキテクチャなどであり得る。GPUは、マザーボードに単一に直接に集積されてもよいし、マザーボードのノースブリッジチップに内蔵されてもよい。GPUは、中央処理装置(CPU)に内蔵されてもよい。GPUは強力な画像処理能力を有するからである。
メモリ1404は、揮発性メモリ及び/又は不揮発性メモリなどの様々な形態のコンピュータ可読記憶媒体を含み得る、1つ又は複数のコンピュータプログラム製品の任意の組み合わせを含み得る。揮発性メモリは、例えば、ランダムアクセスメモリ(RAM)及び/又はキャッシュメモリ(cache)等を含み得る。不揮発性メモリは、例えば、リードオンリーメモリ(ROM)、ハードディスク、消去可能プログラマブルリードオンリーメモリ(EPROM)、ポータブルコンパクトディスクリードオンリーメモリ(CD-ROM)、USBメモリ、フラッシュメモリなどを含み得る。
メモリ1404には、1つまたは複数のコンピュータ読み取り可能なコードまたは命令を記憶することができ、プロセッサ1402は、上記画像処理方法を実行し、または上記画像処理装置を実装するように、前記コンピュータ命令を実行することができる。前記画像処理方法及び画像処理装置の詳細な説明は、本明細書における画像処理方法及び画像処理装置に関する説明を参照することができ、ここで贅言しない。コンピュータ読み取り可能な記憶媒体には、様々なアプリケーションプログラムおよび様々なデータ、例えば、画像データセット、ならびに、アプリケーションプログラムによって使用および/または生成される様々なデータ(例えば、トレーニングデータ)なども記憶され得る。
上記は、本開示の具体的な実施形態にすぎず、本開示の保護範囲は、それらに限定されず、本開示の保護範囲は、特許請求の範囲の保護範囲によって決定されるべきである。
1302 生成ニューラルネットワークモジュール
1304 超解像度ニューラルネットワークモジュール
1402 プロセッサ
1404 メモリ

Claims (17)

  1. 生成ニューラルネットワークによって、入力画像および第1のノイズ画像に基づき、前記入力画像に対して画像変換処理を行い、変換された第1の出力画像を出力することと、
    超解像度ニューラルネットワークによって、第1の出力画像および第2のノイズ画像に基づき、前記第1の出力画像に対して高解像度変換処理を行い、第2の出力画像を出力することと、
    前記生成ニューラルネットワークによって、第1のトレーニング画像および第1のトレーニングノイズ画像に基づき、第1のトレーニング出力画像を生成することと、
    前記生成ニューラルネットワークによって、前記第1のトレーニング画像、および、前記第1のトレーニングノイズ画像と異なる第2のトレーニングノイズ画像に基づき、第2のトレーニング出力画像を生成することと、
    第1のトレーニング画像、第1のトレーニング出力画像、及び第2のトレーニング出力画像に基づいて、前記生成ニューラルネットワークをトレーニングさせることと、を含み、
    前記生成ニューラルネットワークをトレーニングさせることは、
    前記第1のトレーニング出力画像を識別ニューラルネットワークに入力し、前記第1のトレーニング出力画像が変換特徴を有するか否かを識別する識別ラベルを出力することと、
    前記第2のトレーニング出力画像を識別ニューラルネットワークに入力し、前記第2のトレーニング出力画像が変換特徴を有するか否かを識別する識別ラベルを出力することと、
    第1の損失算出手段によって、前記第1のトレーニング画像、第1のトレーニング出力画像、第2のトレーニング出力画像、および該当する識別ラベルに基づき、前記生成ニューラルネットワークの損失値を算出し、前記生成ニューラルネットワークのパラメータを最適化することと、を含み、
    前記第1の損失算出手段は、分析ネットワーク、第1の損失算出器、及び最適化器を含み、前記第1の損失算出手段によって前記生成ニューラルネットワークの損失値を算出することは、
    分析ネットワークによって、前記第1のトレーニング画像、第1のトレーニング出力画像、第2のトレーニング出力画像のコンテンツ特徴を出力し、分析ネットワークによって、前記第1のトレーニング出力画像および第2のトレーニング出力画像のスタイル特徴を出力することと、
    第1の損失算出器によって、分析ネットワークで抽出されたコンテンツ特徴、スタイル特徴、前記第1のトレーニング出力画像及び前記第2のトレーニング出力画像の識別ラベルに基づき、第1の損失関数に従って前記生成ニューラルネットワークの損失値を算出することと、
    最適化器によって、前記生成ニューラルネットワークの損失値に基づき、前記生成ニューラルネットワークのパラメータを最適化することと、を含む
    ことを特徴とする画像処理方法。
  2. 前記入力画像は、第1の色チャンネル、第2の色チャンネル、及び第3の色チャンネルを含み、
    前記第1のノイズ画像は、N個(Nは1以上の正整数である)のチャンネルを含み、
    前記生成ニューラルネットワークの入力は、第1のノイズ画像チャンネル、および入力画像の第1の色チャンネル、第2の色チャンネル、第3の色チャンネルを含み、
    前記生成ニューラルネットワークの出力は、第1の色チャンネル、第2の色チャンネル、及び第3の色チャンネルを含む第1の出力画像である
    ことを特徴とする請求項1に記載の画像処理方法。
  3. 前記生成ニューラルネットワークは、1つ以上のダウンサンプリングモジュールと、1つ以上の残差モジュールと、1つ以上のアップサンプリングモジュールとを含み、
    前記ダウンサンプリングモジュールは、順次に接続される畳み込み層、ダウンサンプリング層、および実例標準化層を含み、
    前記残差モジュールは、順次に接続される畳み込み層、および実例標準化層を含み、
    前記アップサンプリングモジュールは、順次に接続されるアップサンプリング層、実例標準化層、及び畳み込み層を含み、
    前記アップサンプリングモジュールの個数は、前記ダウンサンプリングモジュールの個数と同じである
    ことを特徴とする請求項1または2に記載の画像処理方法。
  4. 前記第2のノイズ画像は、M個(Mは1以上の正整数である)のチャンネルを含み、
    前記超解像度ニューラルネットワークの入力は、第2のノイズ画像チャンネル、および第1の出力画像の第1の色チャンネル、第2の色チャンネル、および第3の色チャンネルを含み、
    前記超解像度ニューラルネットワークの出力は、第1の色チャンネル、第2の色チャンネル、および第3の色チャンネルを含む第2の出力画像である
    ことを特徴とする請求項1~3のいずれか1項に記載の画像処理方法。
  5. 前記超解像度ニューラルネットワークは、順次に接続されるアップグレーディングモジュールおよび変換モジュールを含み、超解像度ニューラルネットワークによって高解像度変換処理を行うことは、
    前記アップグレーディングモジュールによって、第1の出力画像および第2のノイズ画像に対してアップサンプリング処理を行い、輝度チャンネル、第1の色差チャンネルおよび第2の色差チャンネルを含む第1の中間画像を出力することと、
    前記変換モジュールによって、アップグレーディングモジュールにより出力された第1の中間画像を、第1の色チャンネル、第2の色チャンネル、および第3の色チャンネルを含む第2の出力画像に変換することと、を含む
    ことを特徴とする請求項1~4のいずれか1項に記載の画像処理方法。
  6. 前記アップグレーディングモジュールは、第1のサブネットワーク、第2のサブネットワーク、および第3のサブネットワークを含み、
    各サブネットワークの入力は、いずれも第1の出力画像および第2のノイズ画像であり、
    各サブネットワークは、同じ構成を有しており、同じ個数の畳み込み層およびアップグレーディング層を含む
    ことを特徴とする請求項5に記載の画像処理方法。
  7. 前記第1の損失関数は、スタイル相違損失関数を含み、前記生成ニューラルネットワークの損失値を算出することは、前記第1の損失算出器によって、第1のトレーニング出力画像のスタイル特徴と第2のトレーニング出力画像のスタイル特徴に基づき、スタイル相違損失関数に従って前記生成ニューラルネットワークのスタイル損失値を算出することを含み、
    前記第1の損失関数は、コンテンツ損失関数をさらに含み、前記生成ニューラルネットワークの損失値を算出することは、第1のトレーニング画像、第1のトレーニング出力画像、及び第2のトレーニング出力画像のコンテンツ特性に基づき、コンテンツ損失関数に従って前記生成ニューラルネットワークのコンテンツ損失値を算出することを含む
    ことを特徴とする請求項1に記載の画像処理方法。
  8. 前記第1の出力画像を第1のサンプル画像として、前記第1のサンプル画像から低解像度の画像を、解像度が前記第1のサンプル画像より低の超解像度トレーニング画像として抽出することと、
    超解像度ニューラルネットワークによって、超解像度トレーニング画像と超解像度トレーニングノイズ画像に基づき、解像度が前記第1のサンプル画像と同じ第2のサンプル画像を出力することと、
    第1のサンプル画像および第2のサンプル画像に基づいて、前記超解像度ニューラルネットワークのコスト関数を低減することにより、超解像度ニューラルネットワークのパラメータを最適化することと、をさらに含む
    ことを特徴とする請求項1~7のいずれか1項に記載の画像処理方法。
  9. 入力画像および第1のノイズ画像に基づき、前記入力画像に対して画像変換処理を行い、変換された第1の出力画像を出力するように配置される生成ニューラルネットワークモジュールと、
    第1の出力画像および第2のノイズ画像に基づき、前記第1の出力画像に対して高解像度変換処理を行い、第2の出力画像を出力するように配置される超解像度ニューラルネットワークモジュールと、
    前記生成ニューラルネットワークモジュールの出力画像に基づき、前記生成ニューラルネットワークモジュールをトレーニングさせるように配置されるトレーニングニューラルネットワークモジュールと、含み、
    前記生成ニューラルネットワークモジュールは、さらに、第1のトレーニング画像および第1のトレーニングノイズ画像に基づき、変換された第1のトレーニング出力画像を出力し、前記生成ニューラルネットワークモジュールは、さらに、第1のトレーニング画像、および、前記第1のトレーニングノイズ画像と異なる第2のトレーニングノイズ画像に基づき、変換された第2のトレーニング出力画像を出力し、
    前記トレーニングニューラルネットワークモジュールは、第1のトレーニング画像、第1のトレーニング出力画像、及び第2のトレーニング出力画像に基づき、前記生成ニューラルネットワークモジュールをトレーニングさせ、
    前記トレーニングニューラルネットワークモジュールは、
    前記第1のトレーニング出力画像および前記第2のトレーニング出力画像が変換特徴を有するか否かを識別する識別ラベルを出力するように配置される識別ニューラルネットワークモジュールと、
    前記第1のトレーニング画像、第1のトレーニング出力画像、第2のトレーニング出力画像、および該当する識別ラベルに基づき、前記生成ニューラルネットワークモジュールの損失値を算出し、前記生成ニューラルネットワークモジュールのパラメータを最適化するように配置される第1の損失算出手段と、を含み、
    前記第1の損失算出手段は、
    前記第1のトレーニング画像、第1のトレーニング出力画像、第2のトレーニング出力画像のコンテンツ特徴を出力するように配置される分析ネットワークと、
    分析ネットワークで抽出されたコンテンツ特徴、スタイル特徴、前記第1のトレーニング出力画像及び前記第2のトレーニング出力画像の識別ラベルに基づき、第1の損失関数に従って前記生成ニューラルネットワークモジュールの損失値を算出するように配置される第1の損失算出器と、
    前記生成ニューラルネットワークモジュールの損失値に基づき、前記生成ニューラルネットワークモジュールのパラメータを最適化する最適化器と、を含む
    ことを特徴とする画像処理装置。
  10. 前記入力画像は、第1の色チャンネル、第2の色チャンネル、及び第3の色チャンネルを含み、
    前記生成ニューラルネットワークモジュールの入力は、第1のノイズ画像チャンネル、および入力画像の第1の色チャンネル、第2の色チャンネル、第3の色チャンネルを含み、
    前記生成ニューラルネットワークモジュールの出力は、第1の色チャンネル、第2の色チャンネル、及び第3の色チャンネルを含む第1の出力画像である
    ことを特徴とする請求項9に記載の画像処理装置。
  11. 前記生成ニューラルネットワークモジュールは、1つ以上のダウンサンプリングモジュールと、1つ以上の残差モジュールと、1つ以上のアップサンプリングモジュールとを含み、
    前記ダウンサンプリングモジュールは、順次に接続される畳み込み層、ダウンサンプリング層、および実例標準化層を含み、
    前記残差モジュールは、順次に接続される畳み込み層、および実例標準化層を含み、
    前記アップサンプリングモジュールは、順次に接続されるアップサンプリング層、実例標準化層、及び畳み込み層を含み、
    前記アップサンプリングモジュールの個数は、前記ダウンサンプリングモジュールの個数と同じである
    ことを特徴とする請求項9または10に記載の画像処理装置。
  12. 前記超解像度ニューラルネットワークモジュールの入力は、第2のノイズ画像チャンネル、および第1の出力画像の第1の色チャンネル、第2の色チャンネル、および第3の色チャンネルを含み、
    前記超解像度ニューラルネットワークモジュールの出力は、第1の色チャンネル、第2の色チャンネル、および第3の色チャンネルを含む第2の出力画像である
    ことを特徴とする請求項9~11のいずれか1項に記載の画像処理装置。
  13. 前記超解像度ニューラルネットワークモジュールは、順次に接続されるアップグレーディングモジュールおよび変換モジュールを含み、
    前記アップグレーディングモジュールは、第1の出力画像および第2のノイズ画像に対してアップサンプリング処理を行い、輝度チャンネル、第1の色差チャンネルおよび第2の色差チャンネルを含む第1の中間画像を出力するように配置され、
    前記変換モジュールは、アップグレーディングモジュールにより出力された第1の中間画像を、第1の色チャンネル、第2の色チャンネル、および第3の色チャンネルを含む第2の出力画像に変換するように配置され、
    前記アップグレーディングモジュールは、第1のサブネットワーク、第2のサブネットワーク、および第3のサブネットワークを含むように配置される
    ことを特徴とする請求項9~12のいずれか1項に記載の画像処理装置。
  14. 前記第1のサブネットワーク、第2のサブネットワーク、および第3のサブネットワークの入力は、第1の出力画像および第2のノイズ画像であり、出力画像は、輝度チャンネル、第1の色差チャンネルおよび第2の色差チャンネルを含む3つのチャンネルを有し、
    前記第1のサブネットワーク、第2のサブネットワーク、および第3のサブネットワークは、同じ構成を有しており、各サブネットワークは、順次に接続される1つ以上の畳み込み層および1つのアップグレーディング層を含む少なくとも1つのアップグレーディングサブモジュールを有する
    ことを特徴とする請求項13に記載の画像処理装置。
  15. 前記第1の損失関数は、スタイル相違損失関数を含み、第1のトレーニング出力画像のスタイル特徴と第2のトレーニング出力画像のスタイル特徴に基づき、前記生成ニューラルネットワークモジュールのスタイル損失値を算出し、
    前記第1の損失関数は、コンテンツ損失関数をさらに含み、第1のトレーニング画像、第1のトレーニング出力画像、及び第2のトレーニング出力画像のコンテンツ特性に基づき、前記生成ニューラルネットワークモジュールのコンテンツ損失値を算出する
    ことを特徴とする請求項9に記載の画像処理装置。
  16. トレーニングニューラルネットワークモジュールは、さらに、超解像度ニューラルネットワークの出力に基づいて超解像度ニューラルネットワークモジュールをトレーニングさせるように配置され、
    前記超解像度ニューラルネットワークモジュールは、前記第1の出力画像を第1のサンプル画像として前記第1のサンプル画像から抽出された低解像度の画像である超解像度トレーニング画像、および、取得された超解像度トレーニングノイズ画像に基づいて、第2のサンプル画像を出力し、
    前記トレーニングニューラルネットワークモジュールは、
    第1のサンプル画像および第2のサンプル画像に基づいて識別ラベルを出力するように配置される第2の識別ニューラルネットワークモジュールをさらに含み、
    前記最適化器は、
    前記超解像度ニューラルネットワークモジュールのコスト関数を低減することにより、前記超解像度ニューラルネットワークモジュールのパラメータを最適化する
    ことを特徴とする請求項9または15に記載の画像処理装置。
  17. 1つ以上のプロセッサと、
    1つ以上のメモリと、を含み、
    前記メモリは、前記1つ以上のプロセッサによって実行されると、請求項1~8のいずれか1項に記載の画像処理方法を実行し、又は請求項9~16のいずれか1項に記載の画像処理装置を実現するコンピュータ読み取り可能なコードを記憶する
    ことを特徴とする画像処理デバイス。
JP2020526028A 2017-11-09 2018-11-09 画像処理方法、処理装置及び処理デバイス Active JP7438108B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
CN201711100015.5 2017-11-09
CN201711100015.5A CN107767343B (zh) 2017-11-09 2017-11-09 图像处理方法、处理装置和处理设备
PCT/CN2018/114848 WO2019091459A1 (zh) 2017-11-09 2018-11-09 图像处理方法、处理装置和处理设备

Publications (2)

Publication Number Publication Date
JP2021502644A JP2021502644A (ja) 2021-01-28
JP7438108B2 true JP7438108B2 (ja) 2024-02-26

Family

ID=61272242

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2020526028A Active JP7438108B2 (ja) 2017-11-09 2018-11-09 画像処理方法、処理装置及び処理デバイス

Country Status (5)

Country Link
US (1) US10430683B2 (ja)
EP (1) EP3709255A4 (ja)
JP (1) JP7438108B2 (ja)
CN (1) CN107767343B (ja)
WO (1) WO2019091459A1 (ja)

Families Citing this family (84)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107767343B (zh) * 2017-11-09 2021-08-31 京东方科技集团股份有限公司 图像处理方法、处理装置和处理设备
WO2019123544A1 (ja) * 2017-12-19 2019-06-27 オリンパス株式会社 データ処理方法およびデータ処理装置
CN108288251A (zh) * 2018-02-11 2018-07-17 深圳创维-Rgb电子有限公司 图像超分辨率方法、装置及计算机可读存储介质
US10599951B2 (en) * 2018-03-28 2020-03-24 Kla-Tencor Corp. Training a neural network for defect detection in low resolution images
CN111937392B (zh) * 2018-04-17 2024-05-10 联发科技股份有限公司 视频编解码的神经网络方法和装置
CN110390234B (zh) * 2018-04-23 2023-10-13 佳能株式会社 图像处理装置和方法及存储介质
CN110458754B (zh) * 2018-05-07 2021-12-03 Tcl科技集团股份有限公司 图像生成方法及终端设备
CN108595916B (zh) * 2018-05-10 2020-10-20 浙江工业大学 基于生成对抗网络的基因表达全谱推断方法
CN108875787B (zh) * 2018-05-23 2020-07-14 北京市商汤科技开发有限公司 一种图像识别方法及装置、计算机设备和存储介质
CN109801214B (zh) * 2018-05-29 2023-08-29 京东方科技集团股份有限公司 图像重构装置及方法、设备、计算机可读存储介质
CN110555808B (zh) * 2018-05-31 2022-05-31 杭州海康威视数字技术股份有限公司 一种图像处理方法、装置、设备及机器可读存储介质
KR102096388B1 (ko) * 2018-06-05 2020-04-06 네이버 주식회사 모바일 환경에서 실시간 추론이 가능한 dnn 구성을 위한 최적화 기법
KR102543650B1 (ko) * 2018-07-30 2023-06-15 주식회사 엔씨소프트 모션 합성 장치 및 모션 합성 방법
CN109064428B (zh) * 2018-08-01 2021-04-13 Oppo广东移动通信有限公司 一种图像去噪处理方法、终端设备及计算机可读存储介质
US10949951B2 (en) * 2018-08-23 2021-03-16 General Electric Company Patient-specific deep learning image denoising methods and systems
CA3112247A1 (en) * 2018-09-13 2020-03-19 Spectrum Optix Inc. Photographic underexposure correction using a neural network
US10949964B2 (en) 2018-09-21 2021-03-16 Kla Corporation Super-resolution defect review image generation through generative adversarial networks
CN110956575B (zh) 2018-09-26 2022-04-12 京东方科技集团股份有限公司 转变图像风格的方法和装置、卷积神经网络处理器
US11055819B1 (en) * 2018-09-27 2021-07-06 Amazon Technologies, Inc. DualPath Deep BackProjection Network for super-resolution
US10713755B2 (en) * 2018-09-27 2020-07-14 Deepmind Technologies Limited Image generation using subscaling and depth up-scaling
CN109345456B (zh) * 2018-09-30 2021-01-19 京东方科技集团股份有限公司 生成对抗网络训练方法、图像处理方法、设备及存储介质
KR102661434B1 (ko) 2018-09-30 2024-04-29 보에 테크놀로지 그룹 컴퍼니 리미티드 이미지 처리를 위한 장치 및 방법, 및 신경 네트워크를 트레이닝하기 위한 시스템
WO2020073758A1 (en) * 2018-10-10 2020-04-16 Guangdong Oppo Mobile Telecommunications Corp., Ltd. Method and apparatus for training machine learning modle, apparatus for video style transfer
CN109191382B (zh) * 2018-10-18 2023-12-05 京东方科技集团股份有限公司 图像处理方法、装置、电子设备及计算机可读存储介质
KR102708715B1 (ko) * 2018-11-16 2024-09-24 삼성전자주식회사 영상 처리 장치 및 그 동작방법
US11388432B2 (en) * 2018-12-10 2022-07-12 Qualcomm Incorporated Motion estimation through input perturbation
CN109636727B (zh) * 2018-12-17 2022-11-15 辽宁工程技术大学 一种超分辨率重建影像空间分辨率评价方法
CN109697470B (zh) * 2018-12-27 2021-02-09 百度在线网络技术(北京)有限公司 一种识别模型的训练方法、装置、电子设备及存储介质
CN109766895A (zh) 2019-01-03 2019-05-17 京东方科技集团股份有限公司 用于图像风格迁移的卷积神经网络的训练方法和图像风格迁移方法
CN109816612A (zh) 2019-02-18 2019-05-28 京东方科技集团股份有限公司 图像增强方法和装置、计算机可读存储介质
CN109889800B (zh) * 2019-02-28 2021-09-10 深圳市商汤科技有限公司 图像增强方法和装置、电子设备、存储介质
CN111724448A (zh) * 2019-03-18 2020-09-29 华为技术有限公司 一种图像超分辨重建方法、装置和终端设备
JP7504120B2 (ja) * 2019-03-18 2024-06-21 グーグル エルエルシー 高分解能なリアルタイムでのアーティスティックスタイル転送パイプライン
CN111767979B (zh) * 2019-04-02 2024-04-23 京东方科技集团股份有限公司 神经网络的训练方法、图像处理方法、图像处理装置
JP7269778B2 (ja) * 2019-04-04 2023-05-09 富士フイルムヘルスケア株式会社 超音波撮像装置、および、画像処理装置
US10489936B1 (en) * 2019-04-29 2019-11-26 Deep Render Ltd. System and method for lossy image and video compression utilizing a metanetwork
KR102266903B1 (ko) * 2019-05-16 2021-06-18 삼성전자주식회사 영상 처리 장치 및 그 동작방법
CN110163801B (zh) * 2019-05-17 2021-07-20 深圳先进技术研究院 一种图像超分辨和着色方法、系统及电子设备
CN110120024B (zh) 2019-05-20 2021-08-17 百度在线网络技术(北京)有限公司 图像处理的方法、装置、设备和存储介质
CN110458794B (zh) * 2019-05-23 2023-05-12 上海离原工程自动化有限公司 用于轨道列车的配件质量检测方法及装置
CN110188776A (zh) * 2019-05-30 2019-08-30 京东方科技集团股份有限公司 图像处理方法及装置、神经网络的训练方法、存储介质
JP7312026B2 (ja) * 2019-06-12 2023-07-20 キヤノン株式会社 画像処理装置、画像処理方法およびプログラム
US11842283B2 (en) 2019-06-17 2023-12-12 Axell Corporation Learning method, computer program, classifier, generator, and processing system
JP7075674B2 (ja) * 2019-06-17 2022-05-26 株式会社アクセル 学習方法、コンピュータプログラム、分類器、生成器、及び処理システム
CN110458906B (zh) * 2019-06-26 2024-03-15 广州大鱼创福科技有限公司 一种基于深度颜色迁移的医学图像着色方法
CN110363288B (zh) * 2019-07-15 2023-05-09 上海点积实业有限公司 一种神经网络的输入图像生成方法和系统
CN110378842A (zh) * 2019-07-25 2019-10-25 厦门大学 一种图像纹理滤波方法、终端设备及存储介质
CN110428382B (zh) * 2019-08-07 2023-04-18 杭州微帧信息科技有限公司 一种用于移动终端的高效视频增强方法、装置和存储介质
CN110533594B (zh) * 2019-08-30 2023-04-07 Oppo广东移动通信有限公司 模型训练方法、图像重建方法、存储介质及相关设备
US10943353B1 (en) 2019-09-11 2021-03-09 International Business Machines Corporation Handling untrainable conditions in a network architecture search
US11023783B2 (en) * 2019-09-11 2021-06-01 International Business Machines Corporation Network architecture search with global optimization
CN112529775A (zh) * 2019-09-18 2021-03-19 华为技术有限公司 一种图像处理的方法和装置
CN111091532B (zh) * 2019-10-30 2023-07-18 中国四维测绘技术有限公司 一种基于多层感知机的遥感影像色彩评价方法和系统
US20220092735A1 (en) * 2019-11-21 2022-03-24 Samsung Electronics Co., Ltd. Electronic apparatus and controlling method thereof
JP7231762B2 (ja) 2019-11-29 2023-03-01 オリンパス株式会社 画像処理方法、学習装置、画像処理装置及びプログラム
CN111192206A (zh) * 2019-12-03 2020-05-22 河海大学 一种提高图像清晰度的方法
CN111179166B (zh) * 2019-12-09 2023-06-09 平安国际智慧城市科技股份有限公司 图像处理方法、装置、设备及计算机可读存储介质
CN111105375B (zh) * 2019-12-17 2023-08-22 北京金山云网络技术有限公司 图像生成方法及其模型训练方法、装置及电子设备
CN111291866B (zh) * 2020-01-22 2024-03-26 上海商汤临港智能科技有限公司 神经网络的生成、图像处理、智能行驶控制方法及装置
WO2021155301A1 (en) * 2020-01-30 2021-08-05 The Regents Of The University Of California Synthetic human fingerprints
WO2021163844A1 (en) * 2020-02-17 2021-08-26 Intel Corporation Super resolution using convolutional neural network
CN111402153B (zh) * 2020-03-10 2023-06-13 上海富瀚微电子股份有限公司 一种图像处理方法及系统
CN111402142A (zh) * 2020-03-25 2020-07-10 中国计量大学 基于深度递归卷积网络的单张图像超分辨率重建方法
JP7458857B2 (ja) * 2020-04-01 2024-04-01 キヤノン株式会社 画像処理装置、画像処理方法及びプログラム
CN113762296A (zh) * 2020-06-04 2021-12-07 阿里巴巴集团控股有限公司 图像处理方法、装置、电子设备及计算机存储介质
CN111710011B (zh) * 2020-06-10 2021-06-25 广州梦映动漫网络科技有限公司 一种漫画生成方法、系统、电子设备及介质
US11436703B2 (en) * 2020-06-12 2022-09-06 Samsung Electronics Co., Ltd. Method and apparatus for adaptive artificial intelligence downscaling for upscaling during video telephone call
CN111899185B (zh) * 2020-06-18 2024-08-09 深圳先进技术研究院 图像降噪模型的训练方法、装置、电子设备和存储介质
CN111951177B (zh) * 2020-07-07 2022-10-11 浙江大学 一种基于图像超分辨损失函数的红外图像细节增强方法
CN114173137A (zh) * 2020-09-10 2022-03-11 北京金山云网络技术有限公司 视频编码方法、装置及电子设备
JP2022056769A (ja) 2020-09-30 2022-04-11 キヤノン株式会社 画像処理方法、プログラム、画像処理装置、学習済みモデルの製造方法、学習方法、学習装置、および、画像処理システム
US20220108423A1 (en) * 2020-10-02 2022-04-07 Google Llc Conditional Axial Transformer Layers for High-Fidelity Image Transformation
CN112232485B (zh) * 2020-10-15 2023-03-24 中科人工智能创新技术研究院(青岛)有限公司 漫画风格图像转换模型的训练方法、图像生成方法及装置
CN112330053A (zh) * 2020-11-23 2021-02-05 香港中文大学(深圳) 数据感知方法及装置
KR20220071011A (ko) 2020-11-23 2022-05-31 삼성전자주식회사 전자 장치 및 그 제어 방법
KR102337412B1 (ko) * 2021-03-17 2021-12-09 주식회사 에스아이에이 딥러닝 기반 초해상도 이미징 방법
KR20220129995A (ko) 2021-03-17 2022-09-26 주식회사 에스아이에이 딥러닝 기반 초해상도 이미징 방법
CN113327219B (zh) * 2021-06-21 2022-01-28 易成功(厦门)信息科技有限公司 基于多源数据融合的图像处理方法与系统
JPWO2023112172A1 (ja) * 2021-12-14 2023-06-22
KR102406287B1 (ko) * 2021-12-31 2022-06-08 주식회사 에스아이에이 협력 학습을 이용한 초해상도 이미징 방법
CN114528920B (zh) * 2022-01-19 2023-08-18 西北大学 基于生成对抗网络的兵马俑色彩复原方法
CN114723608B (zh) * 2022-04-14 2023-04-07 西安电子科技大学 基于流体粒子网络的图像超分辨率重建方法
KR20230156585A (ko) * 2022-05-06 2023-11-14 에스케이텔레콤 주식회사 초해상도 신경망을 기반으로 한 화질개선 방법 및 장치
CN116016064B (zh) * 2023-01-12 2024-06-28 西安电子科技大学 基于u型卷积去噪自编码器的通信信号降噪方法

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2017091529A (ja) 2015-11-09 2017-05-25 トムソン ライセンシングThomson Licensing ノイジーな画像をアップスケーリングする方法、及びノイジーな画像をアップスケーリングする装置
CN107122826A (zh) 2017-05-08 2017-09-01 京东方科技集团股份有限公司 用于卷积神经网络的处理方法和系统、和存储介质

Family Cites Families (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9123138B2 (en) * 2013-06-18 2015-09-01 Adobe Systems Incorporated Adaptive patch-based image upscaling
CN106910161B (zh) * 2017-01-24 2020-06-19 华南理工大学 一种基于深度卷积神经网络的单幅图像超分辨率重建方法
US10482639B2 (en) * 2017-02-21 2019-11-19 Adobe Inc. Deep high-resolution style synthesis
CN106991648B (zh) * 2017-04-10 2024-01-02 中国石油大学(华东) 一种基于小波变换和卷积神经网络的图像超分辨率重建方法
CN107180410A (zh) * 2017-04-11 2017-09-19 中国农业大学 一种图像的风格化重建方法及装置
US10271008B2 (en) * 2017-04-11 2019-04-23 Advanced Micro Devices, Inc. Enhanced resolution video and security via machine learning
CN107301372A (zh) * 2017-05-11 2017-10-27 中国科学院西安光学精密机械研究所 基于迁移学习的高光谱图像超分辨率方法
US10839577B2 (en) * 2017-09-08 2020-11-17 Apple Inc. Creating augmented reality self-portraits using machine learning
US10552944B2 (en) * 2017-10-13 2020-02-04 Adobe Inc. Image upscaling with controllable noise reduction using a neural network
CN107767343B (zh) * 2017-11-09 2021-08-31 京东方科技集团股份有限公司 图像处理方法、处理装置和处理设备

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2017091529A (ja) 2015-11-09 2017-05-25 トムソン ライセンシングThomson Licensing ノイジーな画像をアップスケーリングする方法、及びノイジーな画像をアップスケーリングする装置
CN107122826A (zh) 2017-05-08 2017-09-01 京东方科技集团股份有限公司 用于卷积神经网络的处理方法和系统、和存储介质

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
Phillip Isola et al.,"Image-to-Image Translation with Conditional Adversarial Networks",2017 IEEE Conference on Computer Vision and Pattern Recognition (CVPR),IEEE,2017年,pp.5967-5976
Xiaolong Wang et al.,"Generative Image Modeling using Style and Structure Adversarial Networks",[online],2016年07月26日,arXiv:1603.05631v2 [令和5年1月12日検索], インターネット<URL: https://arxiv.org/pdf/1603.05631.pdf>

Also Published As

Publication number Publication date
CN107767343A (zh) 2018-03-06
JP2021502644A (ja) 2021-01-28
EP3709255A1 (en) 2020-09-16
EP3709255A4 (en) 2021-07-28
WO2019091459A1 (zh) 2019-05-16
CN107767343B (zh) 2021-08-31
US10430683B2 (en) 2019-10-01
US20190138838A1 (en) 2019-05-09

Similar Documents

Publication Publication Date Title
JP7438108B2 (ja) 画像処理方法、処理装置及び処理デバイス
CN107767408B (zh) 图像处理方法、处理装置和处理设备
CN111767979B (zh) 神经网络的训练方法、图像处理方法、图像处理装置
US10706504B2 (en) Image processing methods and image processing devices
US11908102B2 (en) Image processing method and device, training method of neural network, and storage medium
US11954822B2 (en) Image processing method and device, training method of neural network, image processing method based on combined neural network model, constructing method of combined neural network model, neural network processor, and storage medium
US11461639B2 (en) Image processing method, image processing device, and training method of neural network
US11537873B2 (en) Processing method and system for convolutional neural network, and storage medium
US11961203B2 (en) Image processing device and operation method therefor
CN108765425A (zh) 图像分割方法、装置、计算机设备和存储介质
US11281938B2 (en) Image processing method, processing apparatus and processing device
CN112991171B (zh) 图像处理方法、装置、电子设备及存储介质
CN111724309B (zh) 图像处理方法及装置、神经网络的训练方法、存储介质
CN112132253B (zh) 3d动作识别方法、装置、计算机可读存储介质及设备
WO2022183325A1 (zh) 视频块处理方法及装置、神经网络的训练方法和存储介质
CN116051660A (zh) 图像处理方法及装置、非瞬态计算机可读存储介质
CN118247147A (zh) 基于残差潜扩散模型的遥感超分辨率图像生成方法
CN118212539A (zh) 一种光谱退化约束的多尺度分组反馈高光谱重建方法

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20200512

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20211108

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20221216

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20230123

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20230413

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20230724

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20231019

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20240115

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20240213

R150 Certificate of patent or registration of utility model

Ref document number: 7438108

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150