JP2023515654A - 画像最適化方法及びその装置、コンピュータ記憶媒体、コンピュータプログラム並びに電子機器 - Google Patents

画像最適化方法及びその装置、コンピュータ記憶媒体、コンピュータプログラム並びに電子機器 Download PDF

Info

Publication number
JP2023515654A
JP2023515654A JP2022552468A JP2022552468A JP2023515654A JP 2023515654 A JP2023515654 A JP 2023515654A JP 2022552468 A JP2022552468 A JP 2022552468A JP 2022552468 A JP2022552468 A JP 2022552468A JP 2023515654 A JP2023515654 A JP 2023515654A
Authority
JP
Japan
Prior art keywords
image
optimized
target
network
alignment
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2022552468A
Other languages
English (en)
Other versions
JP7446457B2 (ja
Inventor
宇▲軒▼ ▲嚴▼
培 程
▲剛▼ ▲兪▼
斌 傅
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tencent Technology Shenzhen Co Ltd
Original Assignee
Tencent Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tencent Technology Shenzhen Co Ltd filed Critical Tencent Technology Shenzhen Co Ltd
Publication of JP2023515654A publication Critical patent/JP2023515654A/ja
Application granted granted Critical
Publication of JP7446457B2 publication Critical patent/JP7446457B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/161Detection; Localisation; Normalisation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T5/00Image enhancement or restoration
    • G06T5/70Denoising; Smoothing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T5/00Image enhancement or restoration
    • G06T5/73Deblurring; Sharpening
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T3/00Geometric image transformations in the plane of the image
    • G06T3/40Scaling of whole images or parts thereof, e.g. expanding or contracting
    • G06T3/4046Scaling of whole images or parts thereof, e.g. expanding or contracting using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T3/00Geometric image transformations in the plane of the image
    • G06T3/40Scaling of whole images or parts thereof, e.g. expanding or contracting
    • G06T3/4053Scaling of whole images or parts thereof, e.g. expanding or contracting based on super-resolution, i.e. the output image resolution being higher than the sensor resolution
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T5/00Image enhancement or restoration
    • G06T5/20Image enhancement or restoration using local operators
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T5/00Image enhancement or restoration
    • G06T5/60Image enhancement or restoration using machine learning, e.g. neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T5/00Image enhancement or restoration
    • G06T5/77Retouching; Inpainting; Scratch removal
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/10Segmentation; Edge detection
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/30Determination of transform parameters for the alignment of images, i.e. image registration
    • G06T7/37Determination of transform parameters for the alignment of images, i.e. image registration using transform domain methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/168Feature extraction; Face representation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/172Classification, e.g. identification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2200/00Indexing scheme for image data processing or generation, in general
    • G06T2200/24Indexing scheme for image data processing or generation, in general involving graphical user interfaces [GUIs]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20024Filtering details
    • G06T2207/20028Bilateral filtering
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20024Filtering details
    • G06T2207/20032Median filtering
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20048Transform domain processing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20081Training; Learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20084Artificial neural networks [ANN]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/30Subject of image; Context of image processing
    • G06T2207/30196Human being; Person
    • G06T2207/30201Face

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Oral & Maxillofacial Surgery (AREA)
  • Evolutionary Computation (AREA)
  • Multimedia (AREA)
  • Artificial Intelligence (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Computing Systems (AREA)
  • Software Systems (AREA)
  • Human Computer Interaction (AREA)
  • Biophysics (AREA)
  • Mathematical Physics (AREA)
  • Data Mining & Analysis (AREA)
  • Computational Linguistics (AREA)
  • Molecular Biology (AREA)
  • Biomedical Technology (AREA)
  • General Engineering & Computer Science (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Databases & Information Systems (AREA)
  • Medical Informatics (AREA)
  • Image Analysis (AREA)
  • Image Processing (AREA)

Abstract

本願は、人工知能の技術分野に関するものであり、画像最適化方法及びその装置、コンピュータ可読記憶媒体並びに電子機器を提供する。当該画像最適化方法は、最適化対象となる画像を取得するステップと、前記最適化対象となる画像に対して位置合わせ処理を実行して、最適化対象となる位置合わせ画像を取得するステップであって、最適化対象となる位置合わせ画像の目標領域における各オブジェクトの点は標準位置に分散される前記ステップと、前記最適化対象となる位置合わせ画像を生成ネットワークに入力し、前記生成ネットワークを介して前記最適化対象となる位置合わせ画像に対して特徴抽出を実行して、最適化画像を取得するステップと、を含み、ここで、前記生成ネットワークは、低品質画像ペア及び共同損失関数を使用して、訓練対象となる敵対的生成深層ニューラルネットワークモデルを訓練することによって取得されたものであり、低品質画像ペアは、目標画像及び前記目標画像に対応する低品質画像を含む。この技術的解決策は、画像最適化効率を向上させ、画像のノイズを除去し、画像の細部を生成して、鮮明な最適化画像を取得することができる。

Description

[関連出願への相互参照]
本願は、2020年6月28日に中国特許庁に提出された、出願番号が202010595618.2であり、発明の名称が「画像最適化方法及びその装置、コンピュータ記憶媒体並びに電子機器」である中国特許出願の優先権を主張し、当該中国特許出願の全ての内容が参照により本願に援用される。
本願は、人工知能の技術分野に関し、具体的には、画像最適化技術に関するものである。
画像化、伝送、取得の過程で、画像は必然的に外部からの干渉や伝送機器の不完全性による影響を受け、そのため、画像に多くのノイズが生じ、元の細部が失われてぼやけてしまう。画像の元の細部を復元するために、画像に対して最適化処理を実行する必要がある。
現時点では、通常、1つ又は複数の画像フィルタリング方法を使用して画像のノイズやぼけを補正する第1の方法と、ニューラルネットワークを介して最適化を実行する第2の方法と、ニューラルネットワークを介して、画像の超解像を実行することで画像を最適化する第3の方法との3つの方法を使用して画像に対して最適化処理を実行するか、上記の3つの方法には、ノイズ除去効果が低く、鮮鋭化効果が低く、又は元の画像に適合しない細部を画像に追加するという問題があり、その結果、ユーザ体験が低下する。
留意されたいこととして、上記の背景技術に記載の情報は、本願の背景に対する理解を深めるためにのみ使用される。
本願は、画像最適化方法及びその装置、コンピュータ記憶媒体並びに電子機器を提供し、これによって、画像を少なくともある程度最適化し、画像品質を向上させ、更に、ユーザ体験を向上させる。
本願の他の特徴及び利点は、以下の説明によって明確になり、あるいは本願の実践によって部分的に学習される。
本願の1つの態様によれば、画像最適化方法を提供し、前記画像最適化方法は、最適化対象となる画像を取得するステップと、前記最適化対象となる画像に対して位置合わせ処理を実行して、最適化対象となる位置合わせ画像を取得するステップであって、最適化対象となる位置合わせ画像の目標領域における各オブジェクトの点は標準位置に分散される、ステップと、前記最適化対象となる位置合わせ画像を生成ネットワークに入力し、前記生成ネットワークを介して前記最適化対象となる位置合わせ画像に対して特徴抽出を実行して、最適化画像を取得するステップと、を含み、ここで、前記生成ネットワークは、低品質画像ペア及び共同損失関数に基づいて、訓練対象となる敵対的生成深層ニューラルネットワークモデルを訓練することによって取得されたものであり、低品質画像ペアは、目標画像及び前記目標画像に対応する低品質画像を含む。
本願の1つの態様によれば、画像最適化装置を提供し、前記装置は、最適化対象となる画像を取得するように構成される取得モジュールと、前記最適化対象となる画像に対して位置合わせ処理を実行して、最適化対象となる位置合わせ画像を取得するように構成される位置合わせモジュールであって、最適化対象となる位置合わせ画像の目標領域における各オブジェクトの点は標準位置に分散される位置合わせモジュールと、前記最適化対象となる位置合わせ画像を生成ネットワークに入力し、前記生成ネットワークを介して前記最適化対象となる位置合わせ画像に対して特徴抽出を実行して、最適化画像を取得するように構成される最適化モジュールと、を備え、ここで、前記生成ネットワークは、低品質画像ペア及び共同損失関数に基づいて、訓練対象となる敵対的生成深層ニューラルネットワークモデルを訓練することによって取得されたものであり、前記低品質画像ペアは、目標画像及び前記目標画像に対応する低品質画像を含む。
本願の1つの態様によれば、コンピュータプログラムが記憶されているコンピュータ記憶媒体を提供し、前記コンピュータプログラムがプロセッサに、上記の第1態様に記載の画像最適化方法を実行させる。
本願の1つの態様によれば、画像最適化用の電子機器を提供し、前記電子機器は、プロセッサと、前記プロセッサの実行可能な命令を記憶するように構成されるメモリと、を備え、ここで、前記プロセッサは、前記実行可能な命令を実行することにより、上記の第1態様に記載の画像最適化方法を実行するように構成される。
本願の1つの態様によれば、上記の第1態様に記載の画像最適化方法を実行するように構成されるコンピュータプログラム製品を提供する。
本願実施例の技術的解決策が適用可能な例示的なシステムアーキテクチャの概略図である。 本願の1つの例示的な実施例における画像最適化方法の例示的なフローチャートである。 本願の1つの実施例に係る、最適化対象となる位置合わせ画像を取得することを示す例示的なフローチャートである。 本願の1つの実施例に係る、顔画像に対して位置合わせ処理を実行するインターフェイスの概略図である。 本願の1つの実施例に係る、顔画像に対して位置合わせ処理を実行するインターフェイスの概略図である。 本願の1つの実施例に係る、顔画像に対して位置合わせ処理を実行するインターフェイスの概略図である。 本願の1つの実施例に係る、敵対的生成深層ニューラルネットワークモデルを訓練することを示す例示的なフローチャートである。 本願の1つの実施例に係る、複数の低品質画像ペアを取得することを示す例示的なフローチャートである。 本願の1つの実施例に係る、訓練対象となる敵対的生成深層ニューラルネットワークモデルの構造概略図である。 本願の1つの実施例に係る、生成ネットワークの構造概略図である。 本願の1つの実施例に係る、後処理ネットワークの構造概略図である。 本願の1つの実施例に係る、顔画像ペアに基づいて訓練対象となる敵対的生成深層ニューラルネットワークモデルを訓練するプロセスの概略図である。 本願の1つの実施例に係る、訓練後の生成ネットワークを使用して顔画像を最適化する3つのグループのインターフェイスの概略図である。 本願の1つの実施例に係る、訓練後の生成ネットワークを使用して顔画像を最適化する3つのセットのインターフェイスの概略図である。 本願の1つの実施例に係る、訓練後の生成ネットワークを使用して顔画像を最適化する3つのセットのインターフェイスの概略図である。 本願の1つの実施例に係る、訓練後の生成ネットワークを使用して顔画像を最適化する3つのセットのインターフェイスの概略図である。 本願の1つの実施例に係る、訓練後の生成ネットワークを使用して顔画像を最適化する3つのセットのインターフェイスの概略図である。 本願の1つの実施例に係る、訓練後の生成ネットワークを使用して顔画像を最適化する3つのセットのインターフェイスの概略図である。 本願の1つの実施例に係る、画像最適化装置の構造概略図である。 本願の1つの実施例に係る、低品質画像を最適化するインターフェイスの概略図である。 本願の1つの実施例に係る、低品質画像を最適化するインターフェイスの概略図である。 本願の1つの実施例に係る、低品質画像を最適化するインターフェイスの概略図である。 本願の1つの実施例に係る、低品質画像を最適化するインターフェイスの概略図である。 本願の1つの実施例に係る、電子機器の構造概略図である。
ここでの図面は、本明細書に組み込まれ、本明細書の一部を構成し、これらの図面は、本願に準拠する実施例を示し、本明細書とともに本願の原理を説明するために使用される。明らかに、以上の図面は、本願のいくつかの実施例に過ぎず、当業者は創造的な努力なしに、これらの図面に基づいて他の図面を取得することができる。
図1は、本願実施例の技術的解決策が適用可能な例示的なシステムアーキテクチャの概略図を示す。
図1に示されるように、システムアーキテクチャ100は、モバイル端末101、情報伝送端末102、ネットワーク103及びサーバ104を含み得る。ここで、上記のモバイル端末101は、カメラ及び表示画面を備えた端末機器(例えば、携帯電話、携帯式コンピュータ、タブレットコンピュータなど)であり得る。情報伝送端末102は、インテリジェント端末(例えば、様々なオペレーティングシステムを備えたインテリジェント電子機器など)であり得る。ネットワーク103は、モバイル端末101とサーバ104との間、及び情報伝送端末102とサーバ104との間の通信リンクを提供するための媒体として使用される。ネットワーク103は、様々な接続タイプ(例えば、有線通信リンク、無線通信リンクなど)を含み得、本願実施例では、モバイル端末101と情報伝送端末102との間のネットワーク103は、無線ネットワークを介して通信リンクを提供することができ、モバイル端末101とサーバ104との間のネットワーク103、及び情報伝送端末102とサーバ104との間のネットワーク103は、無線通信リンクであってもよく、具体的には、モバイルネットワークであってもよい。
理解されたいこととして、図1の端末(例えば、モバイル端末101、情報伝送端末102)、ネットワーク及びサーバの数は、例示的なものに過ぎない。実際のニーズに応じて、任意の数の端末、ネットワーク及びサーバを含み得る。例えば、サーバ104は、画像最適化処理に関連する情報を記憶するための、複数のサーバで構成されたサーバクラスタなどであってもよい。
本願の1つの実施例において、モバイル端末101は、最適化対象となる画像を取得した後、最適化対象となる画像をサーバ104に送信し、サーバ104は、最適化対象となる画像に対して位置合わせ処理を実行して、上記の最適化対象となる画像に対応する最適化対象となる位置合わせ画像を取得する。サーバ104は、前記最適化対象となる位置合わせ画像を生成ネットワークに入力し、生成ネットワークを介して、最適化対象となる位置合わせ画像に対して特徴抽出を実行して、最適化画像を取得し、最適化画像をモバイル端末101に返す。ここで、生成ネットワークは、低品質画像ペア及び共同損失関数(Joint Loss Function)に基づいて、訓練対象となる敵対的生成深層ニューラルネットワークモデルを訓練することによって取得されたものであり、低品質画像ペアは、目標画像、及び目標画像に対応する低品質画像を含む。
本願の1つの実施例において、モバイル端末101は、最適化対象となる画像を取得した後、最適化対象となる画像を情報伝送端末102に送信し、情報伝送端末102は、最適化対象となる画像に対して位置合わせ処理を実行して、上記の最適化対象となる画像に対応する最適化対象となる位置合わせ画像を取得した後、当該最適化対象となる位置合わせ画像をサーバ104に送信する。サーバ104は、前記最適化対象となる位置合わせ画像を生成ネットワークに入力し、生成ネットワークを介して、最適化対象となる位置合わせ画像に対して特徴抽出を実行して、最適化画像を取得し、最適化画像を情報伝送端末102に返し、情報伝送端末102は、最適化画像をモバイル端末101に返す。ここで、生成ネットワークは、低品質画像ペア及び共同損失関数に基づいて、訓練対象となる敵対的生成深層ニューラルネットワークモデルを訓練することによって取得されたものであり、低品質画像ペアは、目標画像、及び目標画像に対応する低品質画像を含む。
本願の1つの実施例において、モバイル端末101は、最適化対象となる画像を取得した後、最適化対象となる画像に対して位置合わせ処理を実行して、上記の最適化対象となる画像に対応する最適化対象となる位置合わせ画像を取得し、その後、最適化対象となる位置合わせ画像をサーバ104に送信する。サーバ104は、前記最適化対象となる位置合わせ画像を生成ネットワークに入力し、生成ネットワークを介して、最適化対象となる位置合わせ画像に対して特徴抽出を実行して、最適化画像を取得し、最適化画像をモバイル端末101に返す。ここで、生成ネットワークは、低品質画像ペア及び共同損失関数に基づいて、訓練対象となる敵対的生成深層ニューラルネットワークモデルを訓練することによって取得されたものであり、低品質画像ペアは、目標画像、及び目標画像に対応する低品質画像を含む。
留意されたいこととして、本願実施例で提供された画像最適化方法は、一般にサーバ104によって実行され、これに対応して、画像最適化装置は、一般に、サーバ104に設置される。しかしながら、本願の他の実施例では、端末は、本願実施例で提供された画像最適化方法を実行するために、サーバと同様の機能を有してもよい。
当技術分野の関連技術では、低品質画像に対して最適化処理を実行する場合、通常、3つの最適化方法を使用し、第1の方法は、画像処理方式を使用して画像のぼやけを除去することであり、そのためには、1つ又は複数の画像フィルタリング方法を使用して画像のノイズ及びぼやけを補正する必要がある。第2の方法は、ニューラルネットワークを介して画像を鮮鋭化することである。第3の方法は、ニューラルネットワークを使用して画像の超解像化を実行することで画像を鮮鋭化することである。
上記の3つの方法は、それぞれ対応する一定の欠陥がある。第1の方法は、ニューラルネットワーク処理と比較すると、それほど全面的ではなく、現実のノイズとぼけ分布に完全に適合できないため、良好なノイズ除去効果をもたらすことができない。第2の方法は、主に、一般的なシーンの画像鮮鋭化方法に焦点を当てており、低品質画像で使用される方法は一貫性はなく、低品質画像のプロセスで使用される組み合わせが十分に豊富でない場合、ニューラルネットワークは、実際のボケ画像の分布にうまく適合できなく、そのため、生成された画像の鮮鋭度が低く、更に、異なるサイズの画像の場合、正規化処理が実行されないため、関連画像を処理するときに、処理対象領域のサイズが異なるため結果が良くない。第3の方法において、画像の鮮鋭化とともに、いくつかの原画像に適合しない細部(ノイズから変換された鮮鋭な細部など)を画像に含ませ、また、当該方法は、主に、何れの画像の超解像に焦点を当てており、画像の特定の特徴を個別に処理しない。
本願で提供される技術的解決策によれば、敵対的生成深層ニューラルネットワークモデルの訓練すに基づいて画像最適化モデルを決定し、画像最適化モデルを介して、処理対象となる画像を最適化する。本願で提供される技術的解決策によれば、低品質画像に対してノイズ除去、鮮鋭化、細部生成などの処理を実行することで、低品質画像が原画像の特徴を保持するようにするとともに、より鮮鋭な画像を取得でき、これにより、画像品質を向上させ、ユーザ体験を向上させることができる。同時に、本願の技術的解決策に基づく画像処理のコストが低く、適用範囲が広い。
ここで、敵対的生成深層ニューラルネットワークモデルは、ニューラルネットワークモデルのタイプの一つであり、従来のニューラルネットワークモデルと比較すると、その主な特徴は、生成ネットワーク構造に加えて、1つの判別ネットワーク構造を持っていることである。ここで、生成ネットワークは画像を生成するために使用され、判別ネットワークは、画像(目標画像及び生成画像を含む)の真偽を判断するために使用される。敵対的生成深層ニューラルネットワークモデルを訓練するプロセスでは、生成画像と目標画像の差、及び判別ネットワークにより画像を判断する誤差を計算することによって反復訓練を行う。したがって、生成ネットワークと判別ネットワークの敵対的訓練プロセスにより、生成ネットワークのネットワークパラメータを最適化し、これにより、生成画像を目標要件に近づけることができる。これにより、敵対的生成深層ニューラルネットワークモデルは、その生成ネットワークと判別ネットワークが互いに敵対的であるという特徴により、高品質の画像を生成することができる。
本願実施例で提供される画像最適化方法は、敵対的生成深層ニューラルネットワークモデルに基づいて実現され、人工知能の技術分野に関するものである。人工知能(AI:Artificial Intelligence)は、デジタルコンピュータ、又はデジタルコンピュータによって制御される機械を使用して、人の知能をシミュレート、支援及び拡張し、環境を認識し、知識を取得し、知識を使用して最良の結果を得る理論、方法、技術及びアプリケーションシステムである。言い換えれば、人工知能は、コンピュータ科学の総合技術であり、人工知能は、知能の本質を理解し、人間の知能と同様に反応できる新しいインテリジェント機械を生成することを目的とする。人工知能は、インテリジェント機械の設計原理及び実現方法を研究することで、机器が知覚、推論及び意思決定の機能を持つようにすることである。
本願実施例で提供される技術的解決策は、人工知能の画像処理技術及び画像認識技術に関するものであり、具体的には、以下の実施例を参照して説明する。
本願実施例は、関連技術に存在する欠陥を少なくともある程度改善する画像最適化方法を提供する。本実施例で提供される画像最適化方法の実行主体は、計算処理機能を備えた機器(例えば、サーバ、端末機器)であってもよく、当該方法は、サーバ及び端末機器によって共同で実行されてもよく、ここで、端末機器とサーバは、それぞれ、図1に示されるモバイル端末101とサーバ104であってもよい。本願の画像最適化方法は、任意の低品質画像に対して最適化処理を実行するために使用されることができ、例えば、画像の細部を復元及び改善するために、顔画像や動物画像や固定構造を有する建物画像などの低品質画像を処理することができる。以下では、サーバを実行主体とし、低品質画像が顔画像であることを例として、本願実施例に係る画像最適化方法を詳細に説明する。
図2は、本願の1つの例示的な実施例における画像最適化方法の例示的なフローチャートを示す。図2を参照すると、当該実施例に係る画像最適化方法は、具体的には、次のステップを含む。
ステップS210において、最適化対象となる画像を取得する。
最適化対象となる画像は、低品質画像であり、低品質とは、主に、画像の鮮鋭度が低く、ノイズが多いことを意味する。本願の1つの実施例では、低品質画像が顔画像であり、当該最適化対象となる画像が低品質の顔画像であることを例として説明する。当該低品質の顔画像は、ユーザがカメラ及び画像化ユニットを備えた端末機器を使用して目標人物の顔や顔を含む部位を撮影することにより取得された画像であってもよく、画像から人物の五官を取得することができる限り、当該画像内の顔は任意の角度で呈されてもよい。当該最適化対象となる画像は、ユーザがネットワークを介してダウンロードされた顔を含む画像であってもよい。
ステップS220において、前記最適化対象となる画像に対して位置合わせ処理を実行して、最適化対象となる位置合わせ画像を取得する。
最適化対象となる画像を最適化する前に、最適化対象となる画像の目標領域内の各オブジェクトの点が標準位置に分散されるように、最適化対象となる画像を修正する必要がある。
本願の1つの実施例において、依然として、最適化対象となる画像が低品質の顔画像であることを例にとると、最適化対象となる画像を最適化する前に、画像内の顔が標準の顔正面位置(すなわち、標準位置)にあるように、最適化対象となる画像内の顔の角度を修正する必要がある。
1つの可能な実施形態において、1つの標準位置テンプレートを使用して顔画像を修正することができ、当該標準位置テンプレートは、特定領域における各オブジェクトの点分布であり、具体的には、顔画像の標準位置テンプレートは、顔領域における五官(すなわち、オブジェクト)の点分布である。例えば、大量の顔データに基づき、標準の顔正面位置にあるときの五官の点座標を統計して、5点座標テンプレート(すなわち、標準位置テンプレート)を形成することができ、ここで、5点は、左右の目を標識した2つの点、鼻の先端を標識した点、口の左右の角を標識した2つの点を含む。各点の座標を計算するときに、同じ部位に対応するすべての座標情報の平均値を5点座標テンプレートにおける当該部位に対応する点座標として使用することができ、例えば、すべての顔データから、左目に対応する座標情報を取得した後、すべての左目の座標情報を加算して平均して、標準位置テンプレートにおける左目の点座標を取得することができる。
本願の1つの実施例において、標準位置テンプレートを決定した後、当該標準位置テンプレートに基づいて、最適化対象となる画像に対して位置合わせ処理を実行することができ、すなわち、最適化対象となる画像内の顔を標準の顔正面位置に修正することができる。図3は、最適化対象となる位置合わせ画像を取得することを示す例示的なフローチャートを示し、図3に示されるように、最適化対象となる位置合わせ画像を取得するプロセスは、ステップS301~ステップS303を含む。
ステップS301において、最適化対象となる画像内の目標領域を検出し、当該目標領域と特定領域のタイプは同じである。
本願の1つの実施例では、標準位置テンプレートに基づいて、最適化対象となる画像に対して位置合わせ処理を実行する必要があるため、最適化対象となる画像内の、標準位置テンプレートに対応する特定領域と同じタイプの目標領域を決定する必要があり、つまり、特定領域と目標領域に対応するオブジェクトは同じであり、例えば、両方とも、人の顔領域や動物の顔領域などである。例えば、標準位置テンプレートが顔領域に対応するテンプレートである場合、最適化対象となる画像から顔領域を抽出した後、標準位置テンプレートに基づいて、抽出された顔領域対して位置合わせ処理を実行する必要がある。実際の画像処理プロセスでは、最適化対象となる画像は、顔領域に加えて、人体の他の部位も含む場合がある。例えば、半身の写真には、顔領域に加えて、頸部及び上半身を含み、顔領域を最適化するためには、最適化対象となる画像内の顔領域を認識してから、認識された顔領域を最適化する必要がある。最適化対象となる画像内の顔領域を認識する場合、顔認識用のモデルを使用して認識し、五官を認識することにより顔領域を決定することができる。最適化対象となる画像内の顔領域を位置合わせする必要があるため、使用される標準位置テンプレートは、顔領域に対応するテンプレートである。
ステップS302において、目標領域の画像データと標準位置テンプレートとの間の変換行列を決定する。
本願の1つの実施例において、最適化対象となる画像内の顔領域を標準位置テンプレートに位置合わせする場合、顔領域に対応する画像データ及び標準位置テンプレートに対応するデータに基づいて、両者間の変換行列を決定することができ、変換行列に基づいて、最適化対象となる画像内の顔領域を、標準位置テンプレート内の5点座標に位置合わせされる顔領域に修正することができる。
ステップS303において、変換行列に基づいて目標領域に対応する画像に対して変換操作を実行して、最適化対象となる位置合わせ画像を取得する。
本願の1つの実施例において、変換行列を取得した後、変換行列に基づいて、最適化対象となる画像に対して平行移動、回転、スケーリングなどの操作を実行することにより、最適化対象となる画像を、標準の顔正面位置と一致する形状に正規化して、最適化対象となる位置合わせ画像を取得することができる。更に、顔の位置合わせ処理を逆に実行することもでき、すなわち、位置合わせ後の顔は、変換行列の逆操作によって元の撮影された顔状態に復元できる。
図4A、図4B、図4Cは、顔画像に対して位置合わせ処理を実行するインターフェイスの概略図を示し、図4Aは、最適化対象となる画像であり、当該最適化対象となる画像は低品質の顔画像であり、当該最適化対象となる画像内の顔領域は、斜めになっており、標準の顔正面位置ではない。図4Bは、標準位置テンプレート、すなわち、顔画像に対応する5点座標であり、図4Bに示される標準位置テンプレートに基づいて、図4Aに示される最適化対象となる顔画像に対して位置合わせ処理を実行した後、図4Cに示される、最適化対象となる顔位置合わせ画像を得ることができ、当該最適化対象となる顔位置合わせ画像内の顔領域は、標準の顔正面位置に準拠している。
ステップS230において、前記最適化対象となる位置合わせ画像を生成ネットワークに入力し、前記生成ネットワークを介して前記最適化対象となる位置合わせ画像に対して特徴抽出を実行して、最適化画像を取得し、ここで、前記生成ネットワークは、低品質画像ペア及び共同損失関数に基づいて、訓練対象となる敵対的生成深層ニューラルネットワークモデルを訓練することによって取得されたものであり、前記低品質画像ペアは、目標画像及び前記目標画像に対応する低品質画像を含む。
本願の1つの実施例において、最適化対象となる位置合わせ画像を取得した後、最適化対象となる位置合わせ画像を生成ネットワークに入力し、生成ネットワークを介して、最適化対象となる位置合わせ画像に対して特徴抽出を実行して、最適化画像を取得することができ、当該最適化画像は、最適化対象となる画像に対してノイズ除去及び鮮鋭化を実行することによって、顔の細部を生成した後の画像である。
本願の1つの実施例において、生成ネットワークは、敵対的生成深層ニューラルネットワークモデルの一部であり、入力された最適化対象となる位置合わせ画像に基づいて、それに対応する最適化画像を生成することができる。安定的な生成ネットワークを得るには、生成ネットワークを使用して最適化画像を生成する前に、訓練対象となる敵対的生成深層ニューラルネットワークモデルを訓練する必要がある。
本願の1つの実施例において、図5は、敵対的生成深層ニューラルネットワークモデルを訓練することを示す例示的なフローチャートであり、図5に示されるように、敵対的生成深層ニューラルネットワークモデルを訓練する訓練プロセスは、具体的には、ステップS501~ステップS504を含む。
ステップS501において、複数の低品質画像ペアを取得する。
本願の1つの実施例において、低品質画像ペアは、訓練対象となる敵対的生成深層ニューラルネットワークモデルを訓練するための訓練サンプルとして使用でき、ここで、低品質画像は入力サンプルとして使用され、低品質画像に対応する目標画像は、生成ネットワークのパフォーマンスが安定であるかどうかを判断するための検証サンプルである。つまり、各低品質画像ペアの低品質画像は、最適化対象となる画像であり、目標画像は、所望の最適化後の画像である。
本願の1つの実施例において、図6は、複数の低品質画像ペアを取得することを示す例示的なフローチャートを示し、図6に示されるように、当該プロセスは、具体的には、ステップS601~ステップS604を含む。
ステップS601において、複数の目標画像を取得する。
ステップS602において、複数の目標画像に対して位置合わせ処理をそれぞれ実行して、複数の位置合わせ画像を取得する。
本願の1つの実施例において、大量の鮮鋭な画像を目標画像として事前に取得することができ、その数は、実際の必要に応じて決定でき、数が多いほど、モデルのパフォーマンスが高くなり、例えば、顔を含む1万、2万などの数の鮮鋭画像を目標画像として収集することができる。目標画像を取得した後、各目標画像内の顔領域に対して位置合わせ処理を実行して、位置合わせ画像を取得することができる。位置合わせするときに、標準位置テンプレートに基づいて、目標画像内の顔領域に対して位置合わせ処理を実行することができ、例えば、目標画像内の顔領域を検出した後、顔領域内の五官の点座標を抽出し、最後に、抽出された五官の点座標及び標準位置テンプレートの五官の点座標に基づいて位置合わせすることにより、複数の位置合わせ画像を取得する。
ステップS603において、複数の位置合わせ画像に対して低品質化処理をそれぞれ実行して、目標画像のそれぞれに対応する低品質画像を取得する。
ステップS604において、目標画像、及び目標画像に対応する低品質画像に基づいて、低品質画像ペアを形成する。
本願の1つの実施例において、各位置合わせ画像に対して低品質化処理を実行することにより、低品質画像を形成することができる。低品質化処理は、例えば、ノイズ追加処理及び/又はぼかし処理を含み、ここで、ノイズ追加処理は、ガウスノイズ、ポアソンノイズ、ごま塩ノイズ(salt-and-pepper noise)のうちの1つ又は複数のノイズを追加することを含み、ぼかし処理は、平均フィルタリング、ガウスフィルタリング、メディアンフィルタリング、バイラテラルフィルタリング、及び低解像度化のうちの1つ又は複数を含む。もちろん、本願実施例で追加されるノイズのタイプやぼかし処理方式は上記のタイプに限定されず、他のタイプのノイズ及び/又はぼかし処理方式も含み得、本願はこれに対して詳細に説明しない。
以下、各タイプのノイズ及びぼかし処理方法について簡単に紹介する。
ガウスノイズの確率密度は、ガウス分布に従い、ガウス分布の式は、式1に示されるとおりである。
Figure 2023515654000002
ここで、μは、分布の平均値を表し、σは、分布の標準偏差を表し、σは、分布の分散を表す。本願実施例において、μ及びσはランダムに決定でき、パラメータを決定した後、当該確率分布に基づいて画像内の各画素のカラー値にノイズを追加し、最後に、画素のカラー値を[0,255]にスケジューリングすることにより、ガウスノイズの追加を実現する。
ポアソンノイズの確率密度は、アソン分布に従い、アソン分布の式は、式2に示されるとおりである。
Figure 2023515654000003
ここで、パラメータλは、ランダムに決定できる。パラメータを決定した後、ポアソンノイズの確率分布に基づいて画像内の各画素のカラー値を処理して、ポアソンノイズを追加することができる。
ごま塩ノイズは、画像に白黒の画素点をランダムに追加することであり、白黒の画素の数は、信号対雑音比によって制御でき、信号対雑音比はランダムに決定することができる。信号対雑音比を指定した後、信号対雑音比に基づいて画素の総数を決定し、その後、画素の総数に対応する画像領域から、ノイズを追加する画素の位置をランダムに取得し、当該位置の画素値を255又は0に設定し、最後に、当該画像領域内の他の画素に対して上記のステップを繰り返して実行することで、画像へのごま塩ノイズの追加を遂行することができる。
平均フィルタリングは、目標画素とその周辺画素の平均値を得て、それを目標画素に填めることであり、その式は、式3に示されるとおりである。
Figure 2023515654000004
ここで、Mは、係数テンプレートのサイズを表し、f(x,y)は、画像内の目標画素及びMに対応する周辺画素の画素値を表し、sは、画像内の全ての画素を表し、g(x,y)は、目標画素に対して平均フィルタリングを実行した後の画素値を表す。例えば、係数テンプレートのサイズが3×3である場合、M=9であり、そのため、目標画素とその周辺の8つの画素の画素値の平均値を得て、当該平均値を目標画素に填めることで、画像のぼかし処理を実現することができる。
ガウスフィルタリングは、正規分布を使用して画像内の各画素の変換を計算し、その式は、式4に示されるとおりである。
Figure 2023515654000005
ここで、u+vは、ぼかし半径を表し、そのサイズは、ランダムに決定することができる。ぼかし半径及び分散を決定した後、当該正規分布に基づいて、画像内の各画素のカラー値を変換することで、画像のぼかし処理を実現することができる。
メディアンフィルタリングは、各画素点の画素値をその点の隣接ウィンドウ内のすべての画素点の画素値の中間値に設定することであり、隣接ウィンドウのカーネルサイズはランダムに決定することができる。
バイラテラルフィルタリングは、空間位置(空間ドメイン(spatial domain)カーネル)の違いを考慮するだけでなく、画素値(範囲ドメイン(range domain)カーネル)の違いも考慮するエッジ保存フィルタリング方法であり、ここで、空間位置のカーネルサイズ(すなわち、ガウスフィルタリングの半径)及び範囲ドメインカーネルのサイズは両方ともランダムに決定することができる。
低解像度化は、解像度をランダムに下げてから、元の解像度にアップサンプリングして戻すことで画像品質を下げることである。本願実施例では、低解像度化の程度は、ランダムに決定することができる。
本願の1つの実施例では、以上の方法のランダム組み合わせに基づいて、目標画像を決定する(例えば、顔画像を低品質化する方法の組み合わせなど)ことにより、実際の低品質の画像をシミュレートすることができる。上記の組み合わせは、ランダム組み合わせであり、各組み合わせに関連する低品質化方法にはランダムな変数があるため、各目標画像の処理後の効果も異なり、目標画像、及び目標画像の低品質化処理後の低品質画像で形成された低品質画像ペアに基づいて、訓練対象となる敵対的生成深層ニューラルネットワークモデルを訓練し、これにより、様々な低品質画像に対するモデルの処理精度を向上させることができる。
ステップS502において、各低品質画像ペアをそれぞれ目標画像ペアとして使用し、目標画像ペアの低品質画像を、訓練対象となる敵対的生成深層ニューラルネットワークモデルの生成ネットワークに入力して、生成画像を取得する。
ステップS503において、生成画像及び目標画像ペアの目標画像を、訓練対象となる敵対的生成深層ニューラルネットワークモデルの後処理ネットワークに入力し、後処理ネットワークを介して、生成画像及び目標画像ペアの目標画像を処理して共同損失関数を構築する。
ステップS504において、共同損失関数に基づいて、訓練対象となる敵対的生成深層ニューラルネットワークモデルのパラメータを最適化して、生成ネットワークを取得する。
例示的な実施例において、訓練対象となる敵対的生成深層ニューラルネットワークモデルの訓練プロセスを紹介する前に、本実施例で使用される訓練対象となる敵対的生成深層ニューラルネットワークモデルのネットワーク構造を説明する。図7は、訓練対象となる敵対的生成深層ニューラルネットワークモデルの構造概略図を示し、図7に示されるように、訓練対象となる敵対的生成深層ニューラルネットワークモデル700は、生成ネットワーク701及び後処理ネットワーク702を含み、ここで、生成ネットワーク701は、入力された低品質画像を処理して、生成画像を出力するために使用され、後処理ネットワーク702は、生成ネットワーク701によって出力された生成画像、及び目標画像に基づいて、共同損失関数を構築し、共同損失関数に基づいてモデルのパラメータを最適化するために使用される。
図8は、生成ネットワークの構造概略図を示し、図8に示されるように、当該実施例で提供される生成ネットワーク800は、ダウンサンプリング層801、残差ネットワーク層802及びアップサンプリング層803を含む。ここで、残差ネットワーク層802の数は、複数(例えば、4つ、5つなど)に設定することができる。本願実施例において、ダウンサンプリング層801は、異なるサイズの複数の畳み込み層を含み得、アップサンプリング層803も、異なるサイズの複数の畳み込み層を含み得る。ダウンサンプリングプロセスにおける畳み込み操作は、画像の深層特徴を抽出するために使用できるが、入力画像と比較すると、複数回の畳み込み操作によって得られた特徴マップのサイズは小さくなり続け、情報が失われる。したがって、情報の損失を減らすために、残差ネットワーク層で特徴抽出を実行した後、アップサンプリングにより特徴マップのサイズを入力画像のサイズに復元することができ、これにより、ネットワーク伝送プロセスにおける元の情報の損失を減らし、これにより、ネットワークの後半の出力プロセスにおける構造の不一致やセマンティックの不一致を改善し、最終的に、最適化処理後の画像品質を向上させることができる。本願実施例において、ダウンサンプリング層801及びアップサンプリング層803に含まれる畳み込み層の数及びサイズは、実際の必要に応じて設定することができ、例えば、ダウンサンプリング層801が前から後ろに順次に512×512及び256×256のサイズの2つの畳み込み層を含む場合、アップサンプリング層803は、前から後ろに順次に256×256及び512×512のサイズの2つの畳み込み層を含み得る。
図9は、後処理ネットワークの構造概略図を示し、図9に示されるように、後処理ネットワーク900は、判別ネットワーク901、分類ネットワーク902及び分割ネットワーク903を含み、ここで、判別ネットワーク901は、目標画像及び生成画像に対して特徴抽出を実行し、目標画像及び生成画像の信頼度を判断するための複数の畳み込み層を含み得る。分類ネットワーク902は、具体的には、目標画像及び生成画像に対して特徴抽出を実行して、対応する分類結果を取得するために使用されるVGGなどの分類用のネットワークであってもよく、分類ネットワーク902を使用することにより、画像深層セマンティックの一貫性を保証することができる。分割ネットワーク903は、一般的に使用される分割ネットワークであってもよく、当該ネットワークは、目標画像を分割し、目標画像内の各オブジェクトの位置情報に基づいて、目標画像及び生成画像における同じオブジェクトの位置情報に対応する画像情報を決定するために使用され、例えば、顔画像を分割して、顔画像内の五官の位置情報を取得し、五官の位置情報に基づいて、目標画像及び生成画像における五官の位置情報に対応する画像情報を決定するために使用され、分割ネットワーク903を使用することにより画像自体の画素の一貫性を保証することができる。判別ネットワーク901、分類ネットワーク902及び分割ネットワーク903の相互作用により、生成画像を目標画像に近づけ、これによって、生成ネットワークのパフォーマンスを向上させることができる。
本願の1つの実施例において、目標画像及び生成画像の処理結果に基づいて共同損失関数を構築し、当該共同損失関数に基づいて、訓練対象となる敵対的生成深層ニューラルネットワークモデルに対して逆方向のパラメータ調整を実行することができ、複数回の反復訓練により、損失関数が収束する、安定したパフォーマンスを有する敵対的生成深層ニューラルネットワークモデルを取得することができ、低品質の最適化対象となる画像に対して最適化処理を実行するための生成ネットワークを取得することができる。
本願の1つの実施例において、共同損失関数を構築する場合、判別ネットワーク、分類ネットワーク及び分割ネットワークを介して1つの損失関数を構築することができ、具体的には、生成画像及び目標画像ペアの目標画像を判別ネットワークに入力し、第1判別結果及び第2判別結果を取得し、第1判別結果及び第2判別結果に基づいて第1損失関数を構築することができ、生成画像及び目標画像ペアの目標画像を分類ネットワークに入力し、第1画像情報及び第2画像情報を取得し、第1画像情報及び第2画像情報に基づいて第2損失関数を構築し、生成画像及び目標画像ペアの目標画像を分割ネットワークに入力し、第1局所画像情報及び第2局所画像情報を取得し、第1局所画像情報及び第2局所画像情報に基づいて第3損失関数を構築し、最後に、第1損失関数、第2損失関数及び第3損失関数に基づいて共同損失関数を構築する。
本願の1つの実施例において、生成ネットワークGを使用して低品質画像(入力画像)に対して最適化処理を実行し、最適化処理後の画像を生成画像として使用する。判別ネットワークDは、上記の生成画像、及び上記の低品質画像(入力画像)に対応する目標画像を受信し、1つの画像(目標画像及び生成画像を含む)の真偽を判別する。また、判別ネットワークDの訓練目標は、目標画像が真であると判別し、生成画像が偽であると判別することをである。生成ネットワークGの訓練目標は、低品質画像(入力画像)に対して最適化処理を実行して、判別ネットワークによる判別結果が真である生成画像を取得することであり、つまり、生成画像を目標画像に近づけることで、偽物と本物が区別しにくくなるという効果をもたらし、したがって、第1損失関数は、判別器損失関数及び生成器損失関数を含む。
本願の1つの実施例において、判別ネットワークDは、生成画像に基づいて第1判別結果D(G(z))を生成し、同時に、目標画像に基づいて第1判別結果D(x)を生成し、ここで、zは、生成ネットワークに入力された低品質画像のデータであり、G(z)は、生成ネットワークにより低品質画像を最適化処理した後に出力された生成画像のデータであり、xは、低品質画像に対応する目標画像のデータであり、D(G(z))及びD(x)は、判別ネットワークによって出力された生成画像又は目標画像の二項分類の信頼度である。これにより、判別器損失関数LossD及び生成器損失関数LossGは、それぞれ式5及び式6に示される式として定義することができる。
Figure 2023515654000006
Figure 2023515654000007
ここで、xは、低品質画像に対応する目標画像のデータであり、zは、生成ネットワークに入力された低品質画像のデータであり、iは、任意の低品質画像ペアであり、mは、低品質画像ペアの総数である。
第1損失関数に基づいて、訓練対象となる敵対的生成深層ニューラルネットワークモデルのパラメータを最適化するときに、先ず、生成ネットワークのパラメータを変更せずに固定し、判別ネットワークの判別精度が所定の閾値に達するように、式5に基づいて判別ネットワークのパラメータを最適化することができる。その後、判別ネットワークの最適化後のパラメータは変更せずに固定し、生成ネットワークが鮮鋭な最適化画像を生成できるように、式6に基づいて生成ネットワークのパラメータを最適化する。
本願の1つの実施例において、生成画像及び目標画像は、低い層の画素値と高い層の抽象的な特徴の両方で近似する必要があり、したがって、深層セマンティック上の生成画像と目標画像の一貫性を保証するために、分類ネットワークを介して生成画像と目標画像を比較し、比較結果に基づいて感知損失関数(Perceptual Loss Function)を構築し、感知損失関数に基づいて分類ネットワーク及び生成ネットワークのパラメータを最適化することができる。ここで、分類ネットワークにより、生成画像を処理して第1画像情報を取得することができ、目標画像を処理して第2画像情報を取得することができ、各低品質画像ペアに対応する第1画像情報及び第2画像情報に基づいて、第2損失関数(すなわち、感知損失関数)を決定することができる。ここで、各低品質画像ペアに対応する第1画像情報及び第2画像情報に基づいて第2損失関数を決定することは、具体的には、各低品質画像ペアに対応する第1画像情報と第2画像情報を減算して、画像情報の差を取得し、すべての低品質画像ペアに対応する画像情報の差に基づいて第2損失関数を構築することであり得、第2損失関数の式は、式7に示されるとおりある。
Figure 2023515654000008
ここで、xは、低品質画像に対応する目標画像のデータであり、zは、生成ネットワークに入力した低品質画像のデータであり、G(z)は、生成ネットワークにより低品質画像を処理することによって出力された生成画像のデータであり、V(G(z))は第1画像情報であり、V(x)は第2画像情報であり、iは、任意の低品質画像ペアであり、mは、低品質画像ペアの総数である。
第2損失関数を決定した後、生成ネットワークによって出力された生成画像を目標画像に近似させるかその2つが同じになるようにするために、第2損失関数に基づいて生成ネットワークのパラメータを最適化することができる。
本願の1つの実施例において、生成画像を目標画像に更に近似させるか、その2つが同じになるようにするために、生成画像と目標画像内の同じオブジェクトに対応する画像情報を比較することができ、生成画像と目標画像における同じオブジェクトに対応する画像情報が近似するか同じであれば、それは、生成画像と目標画像が近似するか同じであることを意味する。本願実施例において、分割ネットワークを介して目標画像を分割して、画像内の各オブジェクトの位置情報を取得することができる。具体的には、顔画像の場合、分割ネットワークを使用して顔画像を分割することにより、五官分割領域の位置情報を取得することができ、当該五官分割領域の位置情報は、左右の目の位置情報、鼻の位置情報、口の位置情報を含む。次に、五官分割領域の位置情報に基づいて、目標画像及び生成画像から、対応する領域の画像情報を決定することができ、具体的には、生成画像における各オブジェクトの位置情報に対応する画像情報を第1局所画像情報として使用し、目標画像における各オブジェクトの位置情報に対応する画像情報を第2局所画像情報として使用することができる。最後に、第1局所画像情報と第2局所画像情報との間のL1ノルムを計算し、つまり、同じオブジェクトに対応する画像情報の絶対値の合計を計算し、すべての低品質画像ペアに対応するL1ノルムに基づいて第3損失関数を構築する。第3損失関数の式は、式8に示されるとおりである。
Figure 2023515654000009
ここで、xは、低品質画像に対応する目標画像のデータであり、zは、生成ネットワークに入力した低品質画像のデータであり、G(z)は、生成ネットワークにより低品質画像を処理することによって出力された生成画像のデータであり、Mは、分割後の各オブジェクト領域の位置情報であり、iは、任意の低品質画像ペアであり、mは、低品質画像ペアの総数である。
本願の1つの実施例において、複数の低品質画像ペアを1バッチの訓練サンプルとして使用することができ、所定回数の訓練を遂行するか、各損失関数が収束するまで、当該訓練サンプルに基づいて、訓練対象となる敵対的生成深層ニューラルネットワークモデルに対して反復訓練を複数回実行する。毎回の訓練において、第1損失関数、第2損失関数及び第3損失関数を順次に使用して、モデルのパラメータを最適化することができる。
本願の1つの実施例において、顔画像を例にとると、図10は、顔画像ペアに基づいて訓練対象となる敵対的生成深層ニューラルネットワークモデルを訓練するプロセスの概略図を示し、この場合、目標画像は目標顔画像であり、低品質画像は低品質の顔画像である。図10に示されるように、ステップS1001において、目標顔画像を取得した後、目標顔画像に対して位置合わせ処理を実行して、目標顔位置合わせ画像を取得し、ステップS1002において、当該目標顔位置合わせ画像に対してノイズ追加処理及び/又はぼかし処理を実行して、低品質の顔画像を取得し、ステップS1003において、低品質の顔画像を生成ネットワークに入力し、生成ネットワークを介して処理することにより生成顔画像を出力し、当該生成顔画像は、低品質の顔画像を最適化した後の顔画像であり、ステップS1004において、生成顔画像と目標顔画像をペアリングして、後処理ネットワークにおける判別ネットワーク、分類ネットワーク及び分割ネットワークにそれぞれ入力し、各ネットワークを介して、生成顔画像及び目標顔画像に対して特徴抽出を実行することによって、共同損失関数を決定し、当該共同損失関数は、ネットワークのそれぞれに対応する第1損失関数、第2損失関数及び第3損失関数を含み、更に、生成顔画像が目標顔画像に近似するまで、第1損失関数、第2損失関数及び第3損失関数に基づいて、訓練対象となる敵対的生成深層ニューラルネットワークモデルのパラメータを最適化する。訓練後の訓練対象となる敵対的生成深層ニューラルネットワークモデルの生成ネットワークを使用して、位置合わせ処理後の最適化対象となる他の顔画像を最適化して、ノイズのない且つ顔の細部を有する鮮鋭な顔画像を取得することができ、これにより、ユーザ体験を更に向上させることができる。
本願の1つの実施例において、生成ネットワークによって出力された最適化画像を取得した後、標準の顔正面位置に対する最適化対象となる画像内の顔の傾斜角度に基づいて、最適化画像に対して位置リセット処理を実行するかどうかを判断することができ、例えば、標準の顔正面位置に対する最適化対象となる画像内の顔の傾斜角度が小さい(視覚的に両者の差が明らかでない)場合、最適化対象となる画像に対して何の処理も実行しなくてもよく、標準の顔正面位置に対する最適化対象となる画像内の顔の傾斜角度が大きい(視覚的に両者の差が明らかである)場合、最適化対象となる画像に対して位置リセット処理を実行し、例えば、位置合わせ処理を実行するときに使用される変換行列の逆操作により、最適化対象となる画像内の各オブジェクトを元の位置と角度に復元し、最終的に、元の最適化対象となる画像に対応する最適化画像を取得することができる。
本願の1つの実施例において、図11A、図11B、図11C、図11D、図11E及び図11Fは、訓練後の生成ネットワークを使用して顔画像を最適化する3つのセットのインターフェイスの概略図を示し、図11A、図11C、図11Eは、最適化対象となる顔画像を示しており、明らかに、画像最適化対象となる顔画像のノイズが大きく、鮮鋭度が低く、エッジの輪郭がぼやけている。図11B、図11D及び図11Fに示されるように、生成ネットワークを介して、位置合わせ後の最適化対象となる顔位置合わせ画像を処理することにより、鮮鋭度が高く、エッジの輪郭が鮮鋭であり、豊富な顔の細部を含む顔画像を得ることができる。
本願に係る画像最適化方法によれば、最適化処理後の画像(すなわち、最適化画像)は、原画像の特徴を保持する上で、鮮鋭度が高く、画像細部を含み、及びノイズが正確に除去されているという特徴を持っており、同時に、モデル訓練で使用される目標画像はすべて、鮮鋭度の高い画像であるため、訓練後の生成ネットワークを使用して、最適化対象となる画像を最適化することで、エッジの輪郭情報を深め、画像内の欠落部分をある程度補完することができ、つまり、本願の画像最適化方法は、一定の画像補完及び補正能力も提供できる。更に、本願の画像最適化方法は、敵対的生成深層ニューラルネットワークモデルに基づいて実行されるため、画像の最適化にかかる時間が短く、拡張性が高く、可搬性が良いという特徴がある。
当業者なら自明であるが、上記の実施形態のステップの全部又は一部は、プロセッサ(CPU及びGPUを含む)によって実行されるコンピュータプログラムとして実現される。例えば、GPUにより上記の敵対的生成深層ニューラルネットワークモデルの訓練を実現するか、又は、訓練後の敵対的生成深層ニューラルネットワークモデルに基づいて、CPU又はGPUを使用して、最適化対象となる画像の最適化処理を実現する。コンピュータプログラムがプロセッサによって実行されるときに、本願で提供される上記の方法で定義された上記の機能を実行する。上記のプログラムは、コンピュータ可読記憶媒体に記憶されることができ、当該記憶媒体は、読み取り専用メモリ、磁気ディスク又は光ディスクなどであってもよい。
加えて、留意されたいこととして、上記の図面は、本願の例示的な実施形態による方法に含まれるプロセスの例示的な説明に過ぎず、本願を限定するためのものではない。理解できることとして、上記の図面に示されるプロセスは、これらの処理の先後順序を示したり限定したりするものではない。更に、理解できることとして、これらのプロセスは、例えば、複数のモジュールによって同期的又は非同期的に実行され得る。
以下、本願の上記の画像最適化方法を実行するために使用できる、本願の画像最適化装置の実施例を紹介する。
図12は、本願示例性実施例に係る、画像最適化装置の構造概略図である。図12に示されるように、上記の画像最適化装置1200は、取得モジュール1201と、位置合わせモジュール1202と、最適化モジュール1203とを備える。
ここで、取得モジュール1201は、最適化対象となる画像を取得するように構成される。位置合わせモジュール1202は、前記最適化対象となる画像に対して位置合わせ処理を実行して、最適化対象となる位置合わせ画像を取得するように構成され、最適化対象となる位置合わせ画像の目標領域における各オブジェクトの点は標準位置に分散される。最適化モジュール1203は、前記最適化対象となる位置合わせ画像を生成ネットワークに入力し、前記生成ネットワークを介して前記最適化対象となる位置合わせ画像に対して特徴抽出を実行して、最適化画像を取得するように構成され、ここで、前記生成ネットワークは、低品質画像ペア及び共同損失関数に基づいて、訓練対象となる敵対的生成深層ニューラルネットワークモデルを訓練することによって取得されたものであり、前記低品質画像ペアは、目標画像及び前記目標画像に対応する低品質画像を含む。
本願の1つの実施例において、前記標準位置テンプレートは、特定領域における各オブジェクトの点分布であり、前記位置合わせモジュール1201は、前記最適化対象となる画像内の目標領域を検出し、ここで、前記目標領域と前記特定領域のタイプは同じであり、前記目標領域の画像データと前記標準位置テンプレートとの間の変換行列を決定し、前記変換行列に基づいて前記目標領域に対応する画像に対して変換操作を実行して、前記最適化対象となる位置合わせ画像を取得するように構成される。
本願のいくつかの実施例において、前記位置合わせモジュールは、標準位置テンプレートに基づいて前記最適化対象となる画像に対して位置合わせ処理を実行して、前記最適化対象となる位置合わせ画像を取得するように構成される。
本願のいくつかの実施例において、前記標準位置テンプレートは、特定領域における各オブジェクトの点分布であり、上記の技術案に基づき、前記位置合わせモジュールは、前記最適化対象となる画像内の目標領域を検出し、ここで、前記目標領域と前記特定領域のタイプは同じであり、前記目標領域の画像データと前記標準位置テンプレートとの間の変換行列を決定し、前記変換行列に基づいて前記目標領域に対応する画像に対して変換操作を実行して、前記最適化対象となる位置合わせ画像を取得するように構成される。
本願の1つの実施例において、前記画像最適化装置1200は更に、複数の前記低品質画像ペアを取得するように構成される低品質画像ペア取得モジュールと、各低品質画像ペアをそれぞれ目標画像ペアとして使用し、前記目標画像ペアの低品質画像を、訓練対象となる敵対的生成深層ニューラルネットワークモデルの生成ネットワークに入力して、生成画像を取得するように構成される生成画像取得モジュールと、前記生成画像及び前記目標画像ペアの目標画像を前記訓練対象となる敵対的生成深層ニューラルネットワークモデルの後処理ネットワークに入力し、前記後処理ネットワークを介して、前記生成画像及び前記目標画像ペアの目標画像を処理することによって、前記共同損失関数を構築するように構成される損失関数構築モジュールと、前記共同損失関数に基づいて、前記訓練対象となる敵対的生成深層ニューラルネットワークモデルのパラメータを最適化して、前記生成ネットワークを取得するように構成されるモデルパラメータ調整モジュールと、を備える。
本願の1つの実施例において、前記低品質画像ペア取得モジュールは、複数の目標画像を取得し、前記複数の目標画像に対して位置合わせ処理をそれぞれ実行して、複数の位置合わせ画像を取得し、前記複数の位置合わせ画像に対して低品質化処理をそれぞれ実行して、前記目標画像のそれぞれに対応する低品質画像を取得し、前記目標画像及び前記目標画像に対応する低品質画像に基づいて前記低品質画像ペアを形成するように構成される。
本願の1つの実施例において、前記低品質化処理は、ノイズ追加処理及び/又はぼかし処理を含む。
本願の1つの実施例において、前記ノイズ追加処理は、ガウスノイズ、ポアソンノイズ、ごま塩ノイズのうちの1つ又は複数のノイズを追加することを含み、前記ぼかし処理は、平均フィルタリング、ガウスフィルタリング、メディアンフィルタリング、バイラテラルフィルタリング、及び低解像度化のうちの1つ又は複数を含む。
本願の1つの実施例において、前記後処理ネットワークは、判別ネットワーク、分類ネットワーク及び分割ネットワークを含む。前記損失関数構築モジュールは、前記生成画像及び前記目標画像ペアの目標画像を前記判別ネットワークに入力して、第1判別結果及び第2判別結果を取得し、前記第1判別結果及び前記第2判別結果に基づいて第1損失関数を構築するように構成される第1損失関数構築ユニットと、前記生成画像及び前記目標画像ペアの目標画像を前記分類ネットワークに入力して、第1画像情報及び第2画像情報を取得し、前記第1画像情報及び前記第2画像情報に基づいて第2損失関数を構築するように構成される第2損失関数構築ユニットと、前記生成画像及び前記目標画像ペアの目標画像を前記分割ネットワークに入力して、第1局所画像情報及び第2局所画像情報を取得し、前記第1局所画像情報及び前記第2局所画像情報に基づいて第3損失関数を構築するように構成される第3損失関数構築ユニットと、前記第1損失関数、前記第2損失関数及び前記第3損失関数に基づいて前記共同損失関数を構築するように構成される共同損失関数構築ユニットと、を備える。
本願の1つの実施例において、前記第2損失関数構築ユニットは、前記低品質画像ペアのそれぞれに対応する第1画像情報から第2画像情報を減算して、画像情報の差を取得し、すべての前記低品質画像ペアに対応する画像情報の差に基づいて前記第2損失関数を構築するように構成される。
本願の1つの実施例において、前記目標画像ペアの目標画像及び前記生成画像はすべて、複数のオブジェクトを含み、上記の技術案に基づき、前記第3損失関数構築ユニットは、前記分割ネットワークを介して、前記目標画像を分割して、前記目標画像内の各オブジェクトの位置情報を取得し、前記生成画像内の前記各オブジェクトの位置情報に対応する画像情報を前記第1局所画像情報として使用し、前記目標画像内の前記各オブジェクトの位置情報に対応する画像情報を前記第2局所画像情報として使用するように構成される。
本願の1つの実施例において、前記第3損失関数構築ユニットは、前記第1局所画像情報と前記第2局所画像情報との間のL1ノルムを計算し、すべての前記低品質画像ペアに対応するL1ノルムに基づいて前記第3損失関数を構築するように構成される。
本願の1つの実施例において、前記モデルパラメータ調整モジュールは、訓練の各ラウンドで、前記第1損失関数、前記第2損失関数及び前記第3損失関数を順次に使用して前記訓練対象となる敵対的生成深層ニューラルネットワークモデルのパラメータを最適化して、前記生成ネットワークを取得するように構成される。
本願の1つの実施例において、前記第1損失関数を使用して前記訓練対象となる敵対的生成深層ニューラルネットワークモデルのパラメータを最適化することは、前記生成ネットワークのパラメータを変更せずに固定し、前記第1判別結果及び前記第2判別結果に基づいて前記判別ネットワークのパラメータを最適化することと、前記判別ネットワークの最適化後のパラメータを変更せずに固定し、前記第1判別結果に基づいて前記生成ネットワークのパラメータを最適化することとを含む。
本願の1つの実施例において、前記生成ネットワークは、ダウンサンプリング層、残差ネットワーク層、アップサンプリング層を含む。
上記の画像最適化装置の各ユニットの具体的な詳細は、対応する画像最適化方法で既に詳細に説明されており、そのため、ここでは繰り返して説明しない。
本願の1つの実施例において、画像最適化装置は、端末機器又はサーバに設置されてもよく、ユーザが端末機器を介して、当該ユーザによって選択された低品質画像に対して最適化処理を実行することを要求する場合、上記の実施例の画像最適化方法を実行することにより、最適化画像を取得することができる。図13A、図13B、図13C及び図13Dは、低品質画像を最適化するインターフェイスの概略図を示す。図13Aに示されるように、ユーザは、端末機器のカメラ機能をオンにすることができ、インターフェイス内の「カメラを顔に向けてください」という指示情報により、目標顔の写真を撮るようにユーザに指示し、その後、目標顔を撮影して低品質の顔画像を取得し、図13Bに示されるように、写真閲覧インターフェイスに低品質の顔画像を表示する。図13Bに示される写真閲覧インターフェイスには、「再撮影」ボタンと「最適化処理」ボタンが含まれており、ユーザが「再撮影」ボタンを介して再撮影することを選択した場合、再撮影して低品質の顔画像を取得することができ、ユーザが「最適化処理」ボタンを介して、写真閲覧インターフェイスにおいて、撮影された低品質の顔画像に対して最適化処理を実行することを選択した場合、低品質の顔画像に対して最適化処理を実行することができ、「最適化処理」を選択した後、「最適化処理」ボタンの色を変更する(図13Cに示されるように、灰色に変更する)ことができる。その後、画像最適化サービスを呼び出して、ユーザによって撮影された低品質の顔画像を最適化し、図13Dに示されるように、取得された最適化画像を最適化照片閲覧インターフェイスに返す。ユーザは、写真帳から、撮影済み又はダウンロード済みの画像を選択して最適化処理を実行してもよく、その具体的な処理プロセスは、上記の実施例における画像最適化プロセスと同じであり、ここでは繰り返して説明しない。
図14は、本願実施例を実現するための電子機器のコンピュータシステムの概略構造図を示す。
留意されたいこととして、図14に示される電子機器のコンピュータシステム1400は、一例に過ぎず、本願実施例の機能及び使用範囲を限定するものではない。
図14に示されるように、コンピュータシステム1400はプロセッサ1401を含み、ここで、プロセッサ1401は、グラフィックス処理ユニット(Graphics Processing Unit、GPUと略称)、中央処理装置(CPU:Central Processing Unit)を含み得、当該プロセッサ1401は、読み取り専用メモリ(Read-Only Memory、ROMと略称)1402に記憶されているプログラム、又は記憶部1408からランダムアクセスメモリ(Random Access Memory、RAMと略称)1403にロードされたプログラムに従って様々な適切な動作及び処理を実行することができる。RAM1403には、システム動作に必要な様々なプログラム及びデータも記憶されている。プロセッサ(GPU/CPU)1401、ROM1402及びRAM1403は、バス1404を介して互いに接続される。入力/出力(Input/Output、I/Oと略称)インターフェース1405もバス1404に接続される。
コンピュータシステム1400は更に、入力部1406、出力部1407、通信部1409、ドライバ1410及びリムーバブル媒体1411を含む。
特に、本願実施例によれば、フローチャートを参照して以上に説明したプロセスは、コンピュータソフトウェアプログラムとして実現できる。例えば、本願実施例は、コンピュータ可読媒体に含まれたコンピュータプログラムを含む、コンピュータプログラム製品を含み、当該コンピュータプログラムは、フローチャートに示される方法を実行するためのプログラムコードを含む。このような実施例において、当該コンピュータプログラムは、通信部1409を介して、ネットワークからダウンロード及びインストールされ、及び/又はリムーバブル媒体1411からインストールされることができる。当該コンピュータプログラムがプロセッサ(GPU/CPU)1401によって実行されるときに、本願のシステムで定義されている機能を実行する。いくつかの実施例において、コンピュータシステム1400は更に、人工知能(Artificial Intelligence、AIと略称)プロセッサを備えることができ、当該AIプロセッサは、機械学習に関する計算操作を処理するために使用される。
留意されたいこととして、本願実施例に示されるコンピュータ可読媒体は、コンピュータ可読信号媒体又はコンピュータ可読記憶媒体又はそれらの2つの任意の組み合わせであってもよい。コンピュータ可読記憶媒体は、例えば、電気的、磁気的、光学的、電磁気的、赤外線又は半導体システム、装置又はデバイスであってもよく、あるいは上記のいずれかの組み合わせであってもよいが、これらに限定れない。コンピュータ可読記憶媒体のより具体的な例は、1つ又は複数の導線を含む電気接続、携帯式コンピュータ磁気ディスク、ハードディスク、ランダムアクセスメモリ(RAM)、読み取り専用メモリ(ROM)、電気的に消去可能なプログラム可能な読み取り専用メモリ(Erasable Programmable Read Only Memory、EPROMと略称)、フラッシュメモリ、光ファイバー、携帯式コンパクトディスク読み取り専用メモリ(Compact Disc Read-Only Memory、CD-ROMと略称)、光ストレージデバイス、磁気ストレージデバイス、又は上記の任意の適切な組み合わせを含み得るが、これらに限定されない。本願では、コンピュータ可読記憶媒体は、プログラムを含むか記憶する任意の有形媒体であってもよく、当該プログラムは、命令実行システム、装置又はデバイスによって使用されるか、又はこれらの組み合わせによって使用されることができる。本願では、コンピュータ可読信号媒体は、コンピュータ可読プログラムコードを搬送する、ベースバンドで伝播されるデータ信号又はキャリアの一部として伝播されるデータ信号を含み得る。このような伝播されるデータ信号は、電磁信号、光信号、又は上記の任意の適切な組み合わせなど、様々な形態をとることができるが、これらに限定されない。コンピュータ可読信号媒体は、コンピュータ可読記憶媒体以外の任意のコンピュータ可読媒体であってもよく、当該コンピュータ可読媒体は、命令実行システム、装置又はデバイスによって使用されるか、又はそれらの組み合わせによって使用されるプログラムを送信、伝播又は伝送することができる。コンピュータ可読媒体に含まれたプログラムコードは、任意の適切な媒体で伝送され得、当該媒体は、無線や有線など、又は上記の任意の適切な組み合わせを含むが、これらに限定されない。
本願実施例に記載のユニットは、ソフトウェア形態で実現されてもよいし、ハードウェア形態で実現されてもよく、説明されたユニットはプロセッサに設置されてもよい。ここで、これらのユニットの名称は、特定の場合でユニット自体を限定するものではない。
別の態様として、本願は、コンピュータ可読媒体を更に提供し、当該コンピュータ可読媒体は、上記の実施例に記載の電子機器に含まれるものであってもよいし、当該電子機器に組み立てられずに単独で存在するものであってもよい。上記のコンピュータ可読媒体には、1つ又は複数のプログラムが含まれ、上記の1つ又は複数のプログラムが当該電子機器によって実行されるときに、当該電子機器に、上記の実施例に記載の方法を実行させる。
留意されたいこととして、動作実行のための機器のいくつかのモジュール又はユニットが上記の説明で言及されているが、このような分割は必須ではない。実際には、本願の実施形態によれば、上記の2つ又は2つ以上のモジュール又はユニットの特徴及び機能は、1つのモジュール又はユニットで具体化され得る。逆に、上記の1つのモジュール又はユニットの特徴及び機能を、複数のモジュール又はユニットに更に分割して具体化することができる。
上記の実施形態の説明により、当業者は、本明細書に記載の例示的な実施形態はソフトウェアによって実現されてもよいし、ソフトウェアと必要なハードウェアの組み合わせことによって実現されてもよいことを理解できる。したがって、本願の実施形態による技術的解決策は、ソフトウェア製品の形態で具現でき、当該ソフトウェア製品は、不揮発性記憶媒体(CD-ROM、Uディスク、モバイルハードディスクなどであってもよい)又はネットワークに記憶されてもよく、当該ソフトウェア製品は、1つのコンピューティング機器(パーソナルコンピュータ、サーバ、タッチ端末、又はネットワーク機器などであってもよい)に、本願の実施形態による方法を実行させるためのいくつかの命令を含む。
100 システムアーキテクチャ
101 モバイル端末
102 情報伝送端末
103 ネットワーク
104 サーバ

Claims (17)

  1. 計算処理機能を備えた機器が実行する画像最適化方法であって、
    最適化対象となる画像を取得するステップと、
    前記最適化対象となる画像に対して位置合わせ処理を実行して、最適化対象となる位置合わせ画像を取得するステップであって、前記最適化対象となる位置合わせ画像の目標領域における各オブジェクトの点は標準位置に分散される、ステップと、
    前記最適化対象となる位置合わせ画像を生成ネットワークに入力し、前記生成ネットワークを介して前記最適化対象となる位置合わせ画像に対して特徴抽出を実行して、最適化画像を取得するステップと、を含み、
    前記生成ネットワークは、低品質画像ペア及び共同損失関数に基づいて、訓練対象となる敵対的生成深層ニューラルネットワークモデルを訓練することによって取得されたものであり、前記低品質画像ペアは、目標画像及び前記目標画像に対応する低品質画像を含む、前記画像最適化方法。
  2. 前記最適化対象となる画像に対して位置合わせ処理を実行して、最適化対象となる位置合わせ画像を取得する前記ステップは、
    標準位置テンプレートに基づいて前記最適化対象となる画像に対して位置合わせ処理を実行して、前記最適化対象となる位置合わせ画像を取得するステップを含む、
    請求項1に記載の画像最適化方法。
  3. 前記標準位置テンプレートは、特定領域における各オブジェクトの点分布であり、前記標準位置テンプレートに基づいて前記最適化対象となる画像に対して位置合わせ処理を実行して、前記最適化対象となる位置合わせ画像を取得する前記ステップは、
    前記最適化対象となる画像内の目標領域を検出するステップであって、前記目標領域と前記特定領域のタイプは同じであるステップと、
    前記目標領域の画像データと前記標準位置テンプレートとの間の変換行列を決定するステップと、
    前記変換行列に基づいて前記目標領域に対応する画像に対して変換操作を実行して、前記最適化対象となる位置合わせ画像を取得するステップと、を含む、
    請求項2に記載の画像最適化方法。
  4. 前記最適化対象となる位置合わせ画像を生成ネットワークに入力する前に、前記画像最適化方法は、
    複数の前記低品質画像ペアを取得するステップと、
    各低品質画像ペアをそれぞれ目標画像ペアとして使用し、前記目標画像ペアの低品質画像を前記訓練対象となる敵対的生成深層ニューラルネットワークモデルの生成ネットワークに入力して、生成画像を取得するステップと、
    前記生成画像及び前記目標画像ペアの目標画像を前記訓練対象となる敵対的生成深層ニューラルネットワークモデルの後処理ネットワークに入力し、前記後処理ネットワークを介して、前記生成画像及び前記目標画像ペアの目標画像を処理することによって、前記共同損失関数を構築するステップと、
    前記共同損失関数に基づいて、前記訓練対象となる敵対的生成深層ニューラルネットワークモデルのパラメータを最適化して、前記生成ネットワークを取得するステップと、更に含む、
    請求項1に記載の画像最適化方法。
  5. 前記複数の低品質画像ペアを取得する前記ステップは、
    複数の目標画像を取得するステップと、
    前記複数の目標画像に対して位置合わせ処理をそれぞれ実行して、複数の位置合わせ画像を取得するステップと、
    前記複数の位置合わせ画像に対して低品質化処理をそれぞれ実行して、前記目標画像のそれぞれに対応する低品質画像を取得するステップと、
    前記目標画像及び前記目標画像に対応する低品質画像に基づいて前記低品質画像ペアを形成するステップと、を含む、
    請求項4に記載の画像最適化方法。
  6. 前記低品質化処理は、ノイズ追加処理及び/又はぼかし処理を含む、
    請求項5に記載の画像最適化方法。
  7. 前記ノイズ追加処理は、ガウスノイズ、ポアソンノイズ、ごま塩ノイズのうちの1つ又は複数のノイズを追加することを含み、前記ぼかし処理は、平均フィルタリング、ガウスフィルタリング、メディアンフィルタリング、バイラテラルフィルタリング、及び低解像度化のうちの1つ又は複数を含む、
    請求項6に記載の画像最適化方法。
  8. 前記後処理ネットワークは、判別ネットワーク、分類ネットワーク及び分割ネットワークを含み、前記後処理ネットワークを介して、前記生成画像及び前記目標画像ペアの目標画像を処理することによって、前記共同損失関数を構築する前記ステップは、
    前記生成画像及び前記目標画像ペアの目標画像を前記判別ネットワークに入力して、第1判別結果及び第2判別結果を取得し、前記第1判別結果及び前記第2判別結果に基づいて第1損失関数を構築するステップと、
    前記生成画像及び前記目標画像ペアの目標画像を前記分類ネットワークに入力して、第1画像情報及び第2画像情報を取得し、前記第1画像情報及び前記第2画像情報に基づいて第2損失関数を構築するステップと、
    前記生成画像及び前記目標画像ペアの目標画像を前記分割ネットワークに入力して、第1局所画像情報及び第2局所画像情報を取得し、前記第1局所画像情報及び前記第2局所画像情報に基づいて第3損失関数を構築するステップと、
    前記第1損失関数、前記第2損失関数及び前記第3損失関数に基づいて前記共同損失関数を構築するステップと、を含む、
    請求項4に記載の画像最適化方法。
  9. 前記第1画像情報及び前記第2画像情報に基づいて第2損失関数を構築する前記ステップは、
    前記低品質画像ペアのそれぞれに対応する第1画像情報から第2画像情報を減算して、画像情報の差を取得するステップと、
    すべての前記低品質画像ペアに対応する画像情報の差に基づいて前記第2損失関数を構築するステップと、を含む、
    請求項8に記載の画像最適化方法。
  10. 前記目標画像ペアの目標画像及び前記生成画像は両方とも、複数のオブジェクトを含み、
    前記生成画像及び前記目標画像ペアの目標画像を前記分割ネットワークに入力して、第1局所画像情報及び第2局所画像情報を取得する前記ステップは、
    前記分割ネットワークを介して、前記目標画像を分割して、前記目標画像内の各オブジェクトの位置情報を取得するステップと、
    前記生成画像内の前記各オブジェクトの位置情報に対応する画像情報を前記第1局所画像情報として使用し、前記目標画像内の前記各オブジェクトの位置情報に対応する画像情報を前記第2局所画像情報として使用するステップと、を含む、
    請求項8に記載の画像最適化方法。
  11. 前記第1局所画像情報及び前記第2局所画像情報に基づいて第3損失関数を構築する前記ステップは、
    前記第1局所画像情報と前記第2局所画像情報との間のL1ノルムを計算するステップと、
    すべての前記低品質画像ペアに対応するL1ノルムに基づいて前記第3損失関数を構築するステップと、を含む、
    請求項10に記載の画像最適化方法。
  12. 前記共同損失関数に基づいて、前記訓練対象となる敵対的生成深層ニューラルネットワークモデルのパラメータを最適化して、前記生成ネットワークを取得する前記ステップは、
    訓練の各ラウンドで、前記第1損失関数、前記第2損失関数及び前記第3損失関数を順次に使用して、前記訓練対象となる敵対的生成深層ニューラルネットワークモデルのパラメータを最適化して、前記生成ネットワークを取得するステップを含む、
    請求項8に記載の画像最適化方法。
  13. 前記第1損失関数を使用して前記訓練対象となる敵対的生成深層ニューラルネットワークモデルのパラメータを最適化する前記ステップは、
    前記生成ネットワークのパラメータを変更せずに固定し、前記第1判別結果及び前記第2判別結果に基づいて前記判別ネットワークのパラメータを最適化するステップと、
    前記判別ネットワークの最適化後のパラメータを変更せずに固定し、前記第1判別結果に基づいて前記生成ネットワークのパラメータを最適化するステップと、を含む、
    請求項12に記載の画像最適化方法。
  14. 計算処理機能を備えた機器に展開されている、画像最適化装置であって、
    最適化対象となる画像を取得するように構成される取得モジュールと、
    前記最適化対象となる画像に対して位置合わせ処理を実行して、最適化対象となる位置合わせ画像を取得するように構成される位置合わせモジュールであって、前記最適化対象となる位置合わせ画像の目標領域における各オブジェクトの点は標準位置に分散される、位置合わせモジュールと、
    前記最適化対象となる位置合わせ画像を生成ネットワークに入力し、前記生成ネットワークを介して前記最適化対象となる位置合わせ画像に対して特徴抽出を実行して、最適化画像を取得するように構成される最適化モジュールと、を備え、
    前記生成ネットワークは、低品質画像ペア及び共同損失関数に基づいて、訓練対象となる敵対的生成深層ニューラルネットワークモデルを訓練することによって取得されたものであり、前記低品質画像ペアは、目標画像及び前記目標画像に対応する低品質画像を含む、前記画像最適化装置。
  15. コンピュータプログラムが記憶されているコンピュータ可読記憶媒体であって、
    前記プログラムがプロセッサによって実行されるときに、請求項1ないし13のいずれか一項に記載の画像最適化方法を実現する、前記コンピュータ可読記憶媒体。
  16. 画像最適化用の電子機器であって、
    1つ又は複数のプロセッサと、
    1つ又は複数のプログラムが記憶された記憶装置と、を備え、前記1つ又は複数のプログラムが前記1つ又は複数のプロセッサによって実行されるときに、前記1つ又は複数のプロセッサに、請求項1ないし13のいずれか一項に記載の画像最適化方法を実行させる、前記電子機器。
  17. 請求項1ないし13のいずれか一項に記載の画像最適化方法を実行するように構成される、コンピュータプログラム製品。
JP2022552468A 2020-06-28 2021-05-26 画像最適化方法及びその装置、コンピュータ記憶媒体、コンピュータプログラム並びに電子機器 Active JP7446457B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
CN202010595618.2 2020-06-28
CN202010595618.2A CN111488865B (zh) 2020-06-28 2020-06-28 图像优化方法、装置、计算机存储介质以及电子设备
PCT/CN2021/096024 WO2022001509A1 (zh) 2020-06-28 2021-05-26 图像优化方法、装置、计算机存储介质以及电子设备

Publications (2)

Publication Number Publication Date
JP2023515654A true JP2023515654A (ja) 2023-04-13
JP7446457B2 JP7446457B2 (ja) 2024-03-08

Family

ID=71810596

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2022552468A Active JP7446457B2 (ja) 2020-06-28 2021-05-26 画像最適化方法及びその装置、コンピュータ記憶媒体、コンピュータプログラム並びに電子機器

Country Status (5)

Country Link
US (1) US20220261968A1 (ja)
EP (1) EP4050511A4 (ja)
JP (1) JP7446457B2 (ja)
CN (1) CN111488865B (ja)
WO (1) WO2022001509A1 (ja)

Families Citing this family (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111488865B (zh) * 2020-06-28 2020-10-27 腾讯科技(深圳)有限公司 图像优化方法、装置、计算机存储介质以及电子设备
CN112233207A (zh) * 2020-10-16 2021-01-15 北京字跳网络技术有限公司 图像处理方法、装置、设备和计算机可读介质
CN112488944A (zh) * 2020-12-02 2021-03-12 北京字跳网络技术有限公司 样本生成和模型训练方法、装置、设备和计算机可读介质
CN112651948B (zh) * 2020-12-30 2022-04-12 重庆科技学院 一种基于机器视觉的青蒿素萃取智能跟踪与识别方法
CN113177982B (zh) * 2021-04-16 2023-03-10 杭州睿影科技有限公司 安检图像数据的处理方法、装置、设备及系统
CN113344832A (zh) * 2021-05-28 2021-09-03 杭州睿胜软件有限公司 图像处理方法及装置、电子设备和存储介质
CN113298807A (zh) * 2021-06-22 2021-08-24 北京航空航天大学 一种计算机断层扫描图像处理方法及装置
CN115147314B (zh) * 2022-09-02 2022-11-29 腾讯科技(深圳)有限公司 图像处理方法、装置、设备以及存储介质
CN117036180A (zh) * 2022-10-13 2023-11-10 腾讯科技(深圳)有限公司 图像优化方法、装置、电子设备、介质和程序产品
CN115689923A (zh) * 2022-10-27 2023-02-03 佛山读图科技有限公司 低剂量ct图像降噪系统与降噪方法
CN116385308B (zh) * 2023-04-15 2024-05-07 广州海至亚传媒科技有限公司 联合图像处理优化策略选择系统
CN116977214A (zh) * 2023-07-21 2023-10-31 萱闱(北京)生物科技有限公司 图像优化方法、装置、介质和计算设备

Family Cites Families (22)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP5359465B2 (ja) 2009-03-31 2013-12-04 ソニー株式会社 固体撮像装置、固体撮像装置の信号処理方法および撮像装置
CN104318603A (zh) * 2014-09-12 2015-01-28 上海明穆电子科技有限公司 从手机相册调取照片生成3d模型的方法及系统
CN107103590B (zh) * 2017-03-22 2019-10-18 华南理工大学 一种基于深度卷积对抗生成网络的图像反射去除方法
US10565758B2 (en) * 2017-06-14 2020-02-18 Adobe Inc. Neural face editing with intrinsic image disentangling
CN107481188A (zh) * 2017-06-23 2017-12-15 珠海经济特区远宏科技有限公司 一种图像超分辨率重构方法
US10614557B2 (en) * 2017-10-16 2020-04-07 Adobe Inc. Digital image completion using deep learning
US11011275B2 (en) 2018-02-12 2021-05-18 Ai.Skopy, Inc. System and method for diagnosing gastrointestinal neoplasm
CN108537743B (zh) * 2018-03-13 2022-05-20 杭州电子科技大学 一种基于生成对抗网络的面部图像增强方法
US10825219B2 (en) * 2018-03-22 2020-11-03 Northeastern University Segmentation guided image generation with adversarial networks
CN108520503B (zh) * 2018-04-13 2020-12-22 湘潭大学 一种基于自编码器和生成对抗网络修复人脸缺损图像的方法
US10284432B1 (en) 2018-07-03 2019-05-07 Kabushiki Kaisha Ubitus Method for enhancing quality of media transmitted via network
CN109376582B (zh) * 2018-09-04 2022-07-29 电子科技大学 一种基于生成对抗网络的交互式人脸卡通方法
CN109685724B (zh) * 2018-11-13 2020-04-03 天津大学 一种基于深度学习的对称感知人脸图像补全方法
CN109615582B (zh) * 2018-11-30 2023-09-01 北京工业大学 一种基于属性描述生成对抗网络的人脸图像超分辨率重建方法
CN109685072B (zh) * 2018-12-22 2021-05-14 北京工业大学 一种基于生成对抗网络的复合降质图像高质量重建方法
CN110349102A (zh) * 2019-06-27 2019-10-18 腾讯科技(深圳)有限公司 图像美化的处理方法、图像美化的处理装置以及电子设备
CN110363116B (zh) * 2019-06-28 2021-07-23 上海交通大学 基于gld-gan的不规则人脸矫正方法、系统及介质
CN110472566B (zh) * 2019-08-14 2022-04-26 旭辉卓越健康信息科技有限公司 一种高精度的模糊人脸识别方法
CN111080527B (zh) * 2019-12-20 2023-12-05 北京金山云网络技术有限公司 一种图像超分辨率的方法、装置、电子设备及存储介质
CN111126307B (zh) * 2019-12-26 2023-12-12 东南大学 联合稀疏表示神经网络的小样本人脸识别方法
CN111179177B (zh) * 2019-12-31 2024-03-26 深圳市联合视觉创新科技有限公司 图像重建模型训练方法、图像重建方法、设备及介质
CN111488865B (zh) * 2020-06-28 2020-10-27 腾讯科技(深圳)有限公司 图像优化方法、装置、计算机存储介质以及电子设备

Also Published As

Publication number Publication date
CN111488865A (zh) 2020-08-04
US20220261968A1 (en) 2022-08-18
EP4050511A1 (en) 2022-08-31
EP4050511A4 (en) 2022-12-28
WO2022001509A1 (zh) 2022-01-06
JP7446457B2 (ja) 2024-03-08
CN111488865B (zh) 2020-10-27

Similar Documents

Publication Publication Date Title
JP7446457B2 (ja) 画像最適化方法及びその装置、コンピュータ記憶媒体、コンピュータプログラム並びに電子機器
EP3948764B1 (en) Method and apparatus for training neural network model for enhancing image detail
US9679192B2 (en) 3-dimensional portrait reconstruction from a single photo
CN106682632B (zh) 用于处理人脸图像的方法和装置
CN115699114B (zh) 用于分析的图像增广的方法和装置
CN109753971B (zh) 扭曲文字行的矫正方法及装置、字符识别方法及装置
US10198801B2 (en) Image enhancement using self-examples and external examples
Liu et al. Depth restoration from RGB-D data via joint adaptive regularization and thresholding on manifolds
CN111444744A (zh) 活体检测方法、装置以及存储介质
CN112308866B (zh) 图像处理方法、装置、电子设备及存储介质
CN111695421B (zh) 图像识别方法、装置及电子设备
CN111008935B (zh) 一种人脸图像增强方法、装置、系统及存储介质
CN111767906B (zh) 人脸检测模型训练方法、人脸检测方法、装置及电子设备
CN111292272B (zh) 图像处理方法、装置、介质以及电子设备
CN114511041B (zh) 模型训练方法、图像处理方法、装置、设备和存储介质
US20220198731A1 (en) Pixel-aligned volumetric avatars
CN111325107A (zh) 检测模型训练方法、装置、电子设备和可读存储介质
US9959672B2 (en) Color-based dynamic sub-division to generate 3D mesh
CN115810101A (zh) 三维模型风格化方法、装置、电子设备及存储介质
CN110570375B (zh) 一种图像处理方法、装置、电子设置以及存储介质
JP2023545052A (ja) 画像処理モデルの訓練方法及び装置、画像処理方法及び装置、電子機器並びにコンピュータプログラム
CN113902636A (zh) 图像去模糊方法及装置、计算机可读介质和电子设备
WO2024041235A1 (zh) 图像处理方法、装置、设备、存储介质及程序产品
CN110689478B (zh) 图像风格化处理方法、装置、电子设备及可读介质
CN116778015A (zh) 模型描边的方法、装置、电子设备及存储介质

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20220831

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20220831

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20230824

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20230904

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20231204

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20240213

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20240227

R150 Certificate of patent or registration of utility model

Ref document number: 7446457

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150