JP2024517359A - 画像処理ネットワークの訓練方法、装置、コンピュータ機器及びコンピュータプログラム - Google Patents

画像処理ネットワークの訓練方法、装置、コンピュータ機器及びコンピュータプログラム Download PDF

Info

Publication number
JP2024517359A
JP2024517359A JP2023570432A JP2023570432A JP2024517359A JP 2024517359 A JP2024517359 A JP 2024517359A JP 2023570432 A JP2023570432 A JP 2023570432A JP 2023570432 A JP2023570432 A JP 2023570432A JP 2024517359 A JP2024517359 A JP 2024517359A
Authority
JP
Japan
Prior art keywords
image
image data
resolution
network
face
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2023570432A
Other languages
English (en)
Inventor
世昌 石
▲飛▼ 黄
超 ▲華▼
唯 熊
梁 ▲楊▼
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tencent Technology Shenzhen Co Ltd
Original Assignee
Tencent Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tencent Technology Shenzhen Co Ltd filed Critical Tencent Technology Shenzhen Co Ltd
Publication of JP2024517359A publication Critical patent/JP2024517359A/ja
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T3/00Geometric image transformations in the plane of the image
    • G06T3/40Scaling of whole images or parts thereof, e.g. expanding or contracting
    • G06T3/4053Scaling of whole images or parts thereof, e.g. expanding or contracting based on super-resolution, i.e. the output image resolution being higher than the sensor resolution
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/774Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T3/00Geometric image transformations in the plane of the image
    • G06T3/40Scaling of whole images or parts thereof, e.g. expanding or contracting
    • G06T3/4046Scaling of whole images or parts thereof, e.g. expanding or contracting using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • G06N3/0455Auto-encoder networks; Encoder-decoder networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/0464Convolutional networks [CNN, ConvNet]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/048Activation functions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/09Supervised learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T5/00Image enhancement or restoration
    • G06T5/50Image enhancement or restoration using two or more images, e.g. averaging or subtraction
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T5/00Image enhancement or restoration
    • G06T5/60Image enhancement or restoration using machine learning, e.g. neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T5/00Image enhancement or restoration
    • G06T5/73Deblurring; Sharpening
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/94Hardware or software architectures specially adapted for image or video understanding
    • G06V10/95Hardware or software architectures specially adapted for image or video understanding structured as a network, e.g. client-server architectures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10004Still image; Photographic image
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10016Video; Image sequence
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10024Color image
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20021Dividing image into blocks, subimages or windows
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20081Training; Learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20084Artificial neural networks [ANN]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20212Image combination
    • G06T2207/20221Image fusion; Image merging
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/30Subject of image; Context of image processing
    • G06T2207/30196Human being; Person
    • G06T2207/30201Face
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/161Detection; Localisation; Normalisation

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Software Systems (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Mathematical Physics (AREA)
  • Molecular Biology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Data Mining & Analysis (AREA)
  • Multimedia (AREA)
  • Medical Informatics (AREA)
  • Databases & Information Systems (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Image Processing (AREA)
  • Image Analysis (AREA)

Abstract

画像処理ネットワークの訓練方法であって、画像処理ネットワークを呼び出すことによって、低解像度画像データに対応するサンプル超解像画像データを取得して、高解像度画像データを結合して超解像損失関数を生成するステップ(S102)と、サンプル超解像画像データに対応する第1のサンプル補強画像データを取得して、高解像度画像データを結合して画質損失関数を生成するステップ(S103)と、第1のサンプル補強画像データに対応する第2のサンプル補強画像データを取得して、高解像度画像データを結合して顔損失関数を生成するステップ(S104)と、第2のサンプル補強画像データに対応するサンプル鮮鋭化画像データを取得して、高解像度画像データを結合して鮮鋭化損失関数を生成するステップ(S105)と、超解像損失関数、画質損失関数、顔損失関数及び鮮鋭化損失関数に基づいて画像処理ネットワークのネットワークパラメータを更新するステップ(S106)と、を含む。

Description

本出願は2021年10月12日にて中国特許庁に提出され、出願番号が202111188444.9であり、出願名称が「画像処理ネットワークの訓練方法、装置、コンピュータ機器及び記憶媒体」である中国特許出願の優先権を主張して、その全て内容は本出願に援用されている。
本出願は画像処理の技術分野に関して、特に画像処理ネットワークの訓練方法、装置、コンピュータ機器及び記憶媒体に関する。
コンピュータネットワークの継続的な発展に連れて、画像を最適化するシナリオ、例えばユーザーのある写真を最適化し、又はビデオデータにおける画像フレームを最適化するなどのシナリオがますます多くなっている。画像モデルを訓練することで、画像を最適化する。
関連技術では、画像モデルを訓練する時、異なる最適化タスクを備える複数の画像モデルをそれぞれ訓練し、さらに、訓練による複数の画像モデルによって画像を順に重ね合わせるように最適化すればよい。ところが、複数の画像モデルによって画像を最適化する場合、1つの画像モデルは別の画像モデルに対して逆最適化の作用を有する恐れがあるため、各画像モデルの間の最適化の効果が互いに弱めされ、訓練による画像モデルの画像に対する最適化の効果が悪くなる。
本出願の1つの態様は画像処理ネットワークの訓練方法を提供し、当該方法は、
サンプル画像ペアを取得するステップであって、サンプル画像ペアは低解像度画像データ及び高解像度画像データを含み、低解像度画像データと高解像度画像データとは同じ画像コンテンツを有するステップと、
前記画像処理ネットワークを呼び出すことによって、低解像度画像データの解像度をターゲット解像度に調整して、サンプル超解像画像データを取得して、サンプル超解像画像データ及び高解像度画像データに基づいて超解像損失関数を生成するステップと、
前記画像処理ネットワークを呼び出すことによって、サンプル超解像画像データに対して画質補強処理を行って、第1のサンプル補強画像データを取得して、第1のサンプル補強画像データ及び高解像度画像データに基づいて画質損失関数を生成するステップと、
前記画像処理ネットワークを呼び出すことによって、第1のサンプル補強画像データにおける顔画像に対して顔補強処理を行って、サンプル顔補強画像を取得して、サンプル顔補強画像と第1のサンプル補強画像データとを融合させて、第2のサンプル補強画像データを取得し、サンプル顔補強画像及び高解像度画像データにおける顔画像に基づいて顔損失関数を生成するステップと、
前記画像処理ネットワークを呼び出すことによって、第2のサンプル補強画像データに対して画像鮮鋭化処理を行って、サンプル鮮鋭化画像データを取得して、サンプル鮮鋭化画像データ及び高解像度画像データに基づいて鮮鋭化損失関数を生成するステップと、
超解像損失関数、画質損失関数、顔損失関数及び鮮鋭化損失関数に基づいて画像処理ネットワークのネットワークパラメータを更新して、訓練された画像処理ネットワークを取得するステップと、を含む。
1つの態様は画像処理方法を提供し、当該方法は、
訓練された画像処理ネットワークを呼び出すことによって、初期画像データに対応する超解像画像データを取得するステップであって、超解像画像データの解像度はターゲット解像度の以上であるステップと、
訓練された画像処理ネットワークを呼び出すことによって、超解像画像データに対して画質補強処理を行って、第1の補強画像データを取得するステップと、
訓練された画像処理ネットワークを呼び出すことによって、第1の補強画像データに対応する第2の補強画像データを取得するステップであって、第1の補強画像データには顔画像が含まれると、第2の補強画像データは第1の補強画像データにおける顔画像に対して顔補強を行った後、取得された画像データであるステップと、
訓練された画像処理ネットワークを呼び出すことによって、第2の補強画像データに対して画像鮮鋭化処理を行って、鮮鋭化画像データを取得して、鮮鋭化画像データを出力するステップと、を含む。
1つの態様は画像処理ネットワークの訓練装置を提供し、当該装置は、
サンプル画像ペアを取得するサンプル取得モジュールであって、サンプル画像ペアは低解像度画像データ及び高解像度画像データを含み、低解像度画像データと高解像度画像データとは同じ画像コンテンツを有するサンプル取得モジュールと、
画像処理ネットワークを呼び出すことによって、低解像度画像データの解像度をターゲット解像度に調整して、サンプル超解像画像データを取得して、サンプル超解像画像データ及び高解像度画像データに基づいて超解像損失関数を生成する呼出モジュールであって、
画像処理ネットワークを呼び出すことによって、サンプル超解像画像データに対して画質補強処理を行って、第1のサンプル補強画像データを取得して、第1のサンプル補強画像データ及び高解像度画像データに基づいて画質損失関数を生成する呼出モジュールであって、
ように、画像処理ネットワークを呼び出すことによって、第1のサンプル補強画像データにおける顔画像に対して顔補強処理を行って、サンプル顔補強画像を取得して、サンプル顔補強画像と第1のサンプル補強画像データとを融合させて、第2のサンプル補強画像データを取得し、サンプル顔補強画像及び高解像度画像データにおける顔画像に基づいて顔損失関数を生成する呼出モジュールであって、
画像処理ネットワークを呼び出すことによって、第2のサンプル補強画像データに対して画像鮮鋭化処理を行って、サンプル鮮鋭化画像データを取得して、サンプル鮮鋭化画像データ及び高解像度画像データに基づいて鮮鋭化損失関数を生成する呼出モジュールと、
超解像損失関数、画質損失関数、顔損失関数及び鮮鋭化損失関数に基づいて画像処理ネットワークのネットワークパラメータを更新して、訓練された画像処理ネットワークを取得する更新モジュールと、を含む。
1つの態様は画像処理装置を提供し、当該装置は、
訓練された画像処理ネットワークを呼び出すことによって、初期画像データに対応する超解像画像データを取得する超解像呼出モジュールであって、超解像画像データの解像度はターゲット解像度の以上である超解像呼出モジュールと、
訓練された画像処理ネットワークを呼び出すことによって、超解像画像データに対して画質補強処理を行って、第1の補強画像データを取得する画質補強モジュールと、
訓練された画像処理ネットワークを呼び出すことによって、第1の補強画像データに対応する第2の補強画像データを取得する顔補強モジュールであって、第1の補強画像データには顔画像が含まれると、第2の補強画像データは第1の補強画像データにおける顔画像に対して顔補強を行った後、取得された画像データである顔補強モジュールと、
訓練された画像処理ネットワークを呼び出すことによって、第2の補強画像データに対して画像鮮鋭化処理を行って、鮮鋭化画像データを取得して、鮮鋭化画像データを出力する鮮鋭化モジュールと、を含む。
1つの態様はコンピュータ機器を提供し、メモリ及びプロセッサーを含み、メモリにはコンピュータ可読命令が記憶され、コンピュータ可読命令はプロセッサーによって実行されると、プロセッサーに本出願の1つの態様の方法を実行させる。
1つの態様は不揮発性コンピュータ可読記憶媒体を提供し、当該コンピュータ可読記憶媒体にはコンピュータ可読命令が記憶され、当該コンピュータ可読命令はプロセッサーによって実行されると、当該プロセッサーに上記の1つの態様の方法を実行させる。
1つの態様はコンピュータプログラム製品又はコンピュータプログラムを提供し、当該コンピュータプログラム製品又はコンピュータプログラムはコンピュータ可読命令を含み、当該コンピュータ可読命令はコンピュータ可読記憶媒体に記憶される。コンピュータ機器のプロセッサーはコンピュータ可読記憶媒体から当該コンピュータ可読命令を読み取り、プロセッサーは当該コンピュータ可読命令を実行することで、当該コンピュータ機器に、上記の1つの態様などの各種の可能な形態が提供する方法を実行させる。
本出願又は従来技術の技術案をより明らかに記載するために、以下、実施例又は従来技術の記載の必要な図面を簡単に紹介し、明らかに、以下に記載の図面は本出願のいくつかの実施例に過ぎず、当業者にとって、進歩性に値する労働をしないことを前提として、これらの図面に基づいて他の図面を取得できる。
本出願の実施例が提供するネットワークアーキテクチャの構造概略図である。 本出願が提供するネットワーク訓練のシナリオ概略図である。 本出願が提供する画像処理ネットワークの訓練方法のフロー概略図である。 本出願が提供する符号化・復号化ネットワークの構造概略図である。 本出願が提供する基本ユニットの構造概略図である。 本出願が提供する損失関数を取得するシナリオの概略図である。 本出願が提供する画像処理方法のフロー概略図である。 本出願が提供する顔を最適化するシナリオの概略図である。 本出願が提供する画像最適化シナリオの概略図である。 本出願が提供するデータプッシュのシナリオの概略図である。 本出願が提供する画像処理ネットワークの訓練装置の構造概略図である。 本出願が提供する画像処理装置の構造概略図である。 本出願が提供するコンピュータ機器の構造概略図である。
以下、本出願の実施例の図面を結合して、本出願の実施例の技術案を明らか且つ完全に記載し、明らかに、記載される実施例は全ての実施例ではなく、本出願の一部の実施例である。本出願の実施例に基づいて、当業者が進歩性に値する労働をしないことを前提として、取得した他の全ての実施例は何れも本出願の保護範囲に属している。
図1を参照し、図1は本出願の実施例が提供するネットワークアーキテクチャの構造概略図である。図1に示すように、ネットワークアーキテクチャはサーバー200及び端末機器クラスタを含み、端末機器クラスタは1つ又は複数の端末機器を含み、ここで、端末機器の数を限定していない。図1に示すように、複数の端末機器は具体的に、端末機器100a、端末機器101a、端末機器102a、…、端末機器103aを含み、図1に示すように、端末機器100a、端末機器101a、端末機器102a、…、端末機器103aは何れもサーバー200とネットワーク接続を行うことができるため、各端末機器はネットワーク接続を介してサーバー200とデータインタラクションを行う。
図1のサーバー200は独立の物理サーバーであってもよいし、複数の物理サーバーからなるサーバークラスタ又は分散型システムであってもよいし、さらに、クラウドサービス、クラウドデータベース、クラウドコンピューティング、クラウド関数、クラウド記憶、ネットワークサービス、クラウド通信、ミドルウェアサービス、ドメイン名サービス、安全サービスサービス、CDN、ビッグデータ及び人工知能プラットフォームなどの基礎的なクラウドコンピューティングサービスを提供するクラウドサーバーであってもよい。端末機器はスマートフォン、タブレット、ノートパソコン、デスクトップパソコン、スマートテレビ、車載端末などのスマート端末であってもよい。以下、端末機器100aとサーバー200との間の通信を例として、本出願の実施例を具体的に記載する。
図2を併せて参照し、図2は本出願が提供するネットワーク訓練のシナリオの概略図である。上記の端末機器100aはアプリケーションクライアントを有してもよく、サーバー200は当該アプリケーションクライアントのバックグランドサーバーであってもよく、サーバー200はアプリケーションクライアントにビデオデータをプッシュでき、アプリケーションクライアントにビデオデータをプッシュする場合、サーバー200は当該ビデオデータを最適化してから、アプリケーションクライアントにプッシュし、ビデオデータを最適化することは、ビデオデータに含まれる各画像フレームに対する最適化を指してもよい。サーバー200は訓練された画像処理ネットワークによってビデオデータにおける画像フレームを最適化し、当該画像処理ネットワークの訓練過程について、以下の内容の記載を参照すればよい。
訓練を必要とする画像処理ネットワークは超解像ネットワーク、画質補強ネットワーク、顔補強ネットワーク及び鮮鋭化ネットワークを含む。サーバー200はサンプル画像ペアを取得し、当該サンプル画像ペアは低解像度画像データ及び高解像度画像データを含み、サーバー200は当該サンプル画像ペアを画像処理ネットワークに入力し、まず、画像処理ネットワークにおける超解像ネットワークによって低解像度画像データに対して超解像処理(即ち、低解像度画像データの解像度を高める)を行って、サンプル超解像画像データを取得し、サンプル超解像画像データ及び高解像度画像データによって超解像損失関数を生成する。
そして、画像処理ネットワークにおける画質補強ネットワークによってサンプル超解像画像データに対して画質補強処理(「エンハンスメント処理」とも呼ばれる)を行って、第1のサンプル補強画像データを取得し、第1のサンプル補強画像データ及び高解像度画像データによって画質損失関数を生成する。
次に、画像処理ネットワークにおける顔補強ネットワークによって第1のサンプル補強画像データにおける顔画像に対して顔補強を行って、サンプル顔補強画像を取得し、サンプル顔補強画像及び高解像度画像データにおける高解像度顔画像によって顔損失関数を生成し、サンプル顔補強画像と第1のサンプル補強画像データとを融合させることで、第2のサンプル補強画像データを生成し、具体的に、下記の図3に対応する実施例における相応的な記載を参照すればよい。
次に、画像処理ネットワークにおける鮮鋭化ネットワークによって第2のサンプル補強画像データに対して鮮鋭化処理を行って、サンプル鮮鋭化画像データを取得し、サンプル鮮鋭化画像データ及び高解像度画像データによって鮮鋭化損失関数を生成する。
画像処理ネットワークにおいてサーバー200は上記生成された超解像損失関数、画質損失関数、顔損失関数及び鮮鋭化損失関数を前へ伝達し、さらに、超解像損失関数、画質損失関数、顔損失関数及び鮮鋭化損失関数によって、画像処理ネットワークに伝達されたネットワークのネットワークパラメータを更新して、訓練された画像処理ネットワーク(「訓練済み画像処理ネットワーク」とも呼ばれる)を取得する。そうすれば、訓練された画像処理ネットワークは画像、例えば下記の初期画像データを最適化し、当該最適化の具体的な過程について、下記の図7に対応する実施例の関連記載を参照すればよい。
関連技術において、画像モデルを訓練する場合、異なる最適化タスク(例えば、画像解像度を高める画像処理タスク、画像画質を補強する画像処理タスク、顔補強効果を向上する画像処理タスクなど)を具備する複数の画像モデルをそれぞれ訓練し、さらに、それぞれ独立する訓練によって複数の画像モデルを取得し、これらの互いに独立する複数の画像モデルを使用して、画像を順に重ね合わせて最適化する。ところが、異なるタスクは、互いに衝突するという問題が存在する恐れがあり、即ち、画像は1つの画像モデルによって相応的な効果を向上した後、別の画像モデルによって処理されると、かえって全体効果が悪くなり、即ち、当該2つの画像モデルのそれぞれの画像処理タスクが衝突し、この現象は破壊的な干渉と呼ばれる。例えば、画像解像度を高める画像モデルによって画像を最適化することで、画像の解像度を高めることができ、画像画質を補強する画像モデルによって画像を最適化することで、画像画質を補強でき、ところが、画像画質を補強する画像モデルによって、解像度を高めた画像に対してさらに重合処理を行って、取得された画像はかえって歪みが生じて、画像の全体的な効果が悪くなると、当該2つの画像モデルのそれぞれの画像処理タスクは衝突が存在することを示す。
本出願の実施例が提供するモデル訓練方法によれば、超解像ネットワーク、画質補強ネットワーク、顔補強ネットワークから鮮鋭化ネットワークまでのマルチタスク共同訓練フレームワークを提供し、当該共同訓練フレームワークは、超解像ネットワーク、画質補強ネットワーク、顔補強ネットワーク~鮮鋭化ネットワークを順にカスケード接続し、このように、訓練過程で、超解像ネットワークは入力されたサンプル画像ペア及び自体のネットワークの出力に基づいて、超解像損失関数を取得し、超解像ネットワーク以外の他のネットワークであれば、前のネットワークの出力(即ち、自体のネットワークの入力)及び自体のネットワークの出力に基づいて、画質損失関数、顔損失関数及び鮮鋭化損失関数を順に取得し、各損失関数にはそれぞれのネットワークパラメータが含まれ、また、各損失関数はネットワーク全体において前へ伝達されることができるため、これらのネットワークのそれぞれのネットワークパラメータの間は互いに制約、影響でき、さらに、伝達されたネットワーク(例えば、超解像ネットワーク、画質補強ネットワーク、顔補強ネットワーク及び鮮鋭化ネットワーク)のネットワークパラメータを更新して、超解像ネットワーク、画質補強ネットワーク、顔補強ネットワーク及び鮮鋭化ネットワークの間の相互関連、相互融合、相互促進の訓練を実現でき、訓練された超解像ネットワーク、画質補強ネットワーク、顔補強ネットワーク及び鮮鋭化ネットワークのそれぞれの訓練効果がよくなる上に、画像を重ね合わせて最適化する場合、衝突が生じていなく、訓練されたネットワーク全体の、画像に対する重ね合わせ・最適化の効果がよりよくなる。
図3を参照し、図3は本出願が提供する画像処理ネットワークの訓練方法のフロー概略図である。本出願の実施例における実行本体は1つのコンピュータ機器又は複数のコンピュータ機器からなるコンピュータ機器クラスタであってもよい。当該コンピュータ機器はサーバーであってもよいし、端末機器であってもよい。従って、本出願の実施例における実行本体はサーバーであってもよいし、端末機器であってもよいし、さらに、サーバーと端末機器とが共同で構成されてもよい。ここで、本出願の実施例における実行本体がサーバーであることを例として説明する。図3に示すように、当該方法は以下のステップを含み、
ステップS101:サンプル画像ペアを取得し、サンプル画像ペアは低解像度画像データ及び高解像度画像データを含み、低解像度画像データと高解像度画像データとは同じ画像コンテンツを有する。
本出願において、サーバーはサンプル画像ペアを取得し、当該サンプル画像ペアは画像処理ネットワークを訓練する画像ペアであり、1つのサンプル画像ペアは1つの低解像度画像データ、及び当該低解像度画像データに対応する1つの高解像度画像データを含み、各サンプル画像ペアを採用して画像処理ネットワークを訓練する原理は同様であるため、ここで、1つのサンプル画像ペア(以下、サンプル画像ペアと総称される)によって画像処理ネットワークを訓練する過程を例として説明し、以下の内容の記載を参照すればよい。
サンプル画像ペアに含まれる低解像度画像データ及び高解像度画像データは、同じ画像コンテンツを具備するが、異なる画像精細度(精細度と略称される)を具備する画像であり、低解像度画像データの精細度は、高解像度画像データの精細度より低い。低解像度画像データの解像度はターゲット解像度より小さく、高解像度画像データの解像度はターゲット解像度の以上であり、ターゲット解像度は実際の適用シナリオに基づいて設定され、例えばターゲット解像度は1920*1080であってもよい。
本出願の実施例のサンプル画像ペアの取得方式は以下の方式のうちの1つ又は複数であってもよい。
1つの実施例において、サーバーは高解像度のサンプルビデオデータを取得し、当該サンプルビデオデータはサンプル画像ペアを取得するビデオデータである。1つのビデオデータは複数の画像フレームを含むことができるため、当該高解像度のサンプルビデオデータは、含まれる画像フレームの精細度が精細度閾値より大きいビデオデータを指してもよく、当該精細度閾値は実際の適用シナリオに基づいて設定される。また、当該サンプルビデオデータはさらに、含まれる画像フレームの解像度が上記のターゲット解像度より大きいビデオデータを指してもよい。
従って、サーバーはサンプルビデオデータに対してフレーム分割を行うことで、サンプルビデオデータに含まれる複数の画像フレームを取得し、サンプルビデオデータに含まれる画像フレームはサンプル画像フレームと呼ばれる。サーバーはさらにターゲットビットレート(当該ターゲットビットレートは低ビットレートである)を採用してサンプルビデオデータに対して符号化・復号化処理(即ち、符号化してから復号化する)を行って、符号化・復号化後のビデオデータは低画質ビデオデータと呼ばれる。当該低画質ビデオデータの画像フレームの画質は、サンプルビデオデータの画像フレームの画質より低く、即ち、低画質ビデオデータに含まれる画像フレームの精細度はサンプルビデオデータに含まれる画像フレームの精細度より低い。ターゲットビットレートは、ビットレート閾値より低いビットレートであり、当該ビットレート閾値は実際の適用シナリオに基づいて設定され、ターゲットビットレートは低いビットレートであってもよいため、ターゲットビットレートによってサンプルビデオデータに対して符号化・復号化を行った後、取得された低画質ビデオデータの画質が悪くなり、低画質ビデオデータに含まれる画像フレームの精細度が低くなる。
上記の低画質ビデオデータに含まれる画像フレームは低画質画像フレームと呼ばれ、低画質ビデオデータは、各サンプル画像フレームにそれぞれ対応する低画質画像フレームを含み、1つのサンプル画像フレームは1つの低画質画像フレームに対応する。符号化・復号化は画像フレームの解像度を変更していないため、この際、取得された低画質画像フレームは実際に、高解像度の画像フレームであり、従って、低画質ビデオデータにおける各低画質画像フレームの解像度を低く調整し、例えば、ターゲット解像度以下に調整し、解像度を低く調整した低画質画像フレームは低解像度画像フレームと呼ばれ、従って、サーバーは各サンプル画像フレーム及び対応する低画質画像フレームが所属する低解像度画像フレームに基づいてサンプル画像ペアを構築し、1つのサンプル画像ペアは1つのサンプル画像フレーム及び当該サンプル画像フレームに対応する1つの低解像度画像フレーム(即ち、当該サンプル画像フレームに対応する低画質画像フレームの解像度を小さくした後、取得された画像フレーム)を含み、1つのサンプル画像ペアに含まれるサンプル画像フレームは1つの高解像度画像データであり、1つのサンプル画像ペアに含まれる低解像度画像データは1つの低解像度画像データである。従って、上記のサンプルビデオデータによって複数のサンプル画像ペアを取得できる。
1つの実施例において、同じように、サーバーはサンプルビデオデータを取得して、当該サンプルビデオデータに対してフレーム分割を行って、サンプルビデオデータに含まれる複数のサンプル画像フレームを取得し、さらに、当該複数のサンプル画像フレームからターゲット画像フレームを上記の高解像度画像データとして選択し、当該ターゲット画像フレーム及び複数のサンプル画像フレームにおける当該ターゲット画像フレームの隣接画像フレームに対して平均融合処理を行って、平均融合処理後の画像フレームは平均画像フレームと呼ばれ、さらに、当該平均画像フレームの解像度を低く調整すれば(例えば、ターゲット解像度以下に調整する)、低解像度画像データを取得できる。1つのターゲット画像フレームは、サンプルビデオデータに含まれる複数の画像フレームのうちの何れか1つの画像フレームであってもよく、1つのターゲット画像フレームは1つの高解像度画像データであってもよく、ターゲット画像フレームは複数であってもよい。ターゲット画像フレームの隣接画像フレームは複数のサンプル画像フレームにおけるターゲット画像フレームの左側の1つ又は複数の画像フレーム、及びターゲット画像フレームの右側の1つ又は複数の画像フレームを含んでもよく、ターゲット画像フレームの隣接画像フレームの数は実際の適用シナリオに基づいて决定され、これに対して限定していない。
1つの実施例において、サーバーは高解像度画像データを直接的に取得し、例えば、当該高解像度画像データはウェブページからダウロードされてもよいし、又はロカールの高解像度画像データであってもよい。従って、サーバーは当該高解像度画像データに対してガウスぼかし処理を行って、ガウスぼかし処理後の画像フレームの解像度を低く調整すれば(例えば、ターゲット解像度以下に調整する)、当該高解像度画像データに対応する低解像度画像データを取得できる。ガウスぼかしはガウス平滑化とも呼ばれる。
1つの実施例において、サーバーは高解像度画像データを直接的に取得し、当該高解像度画像データに対して歪みフォーマット変換を行ってから、歪みフォーマット変換後の画像フレームの解像度を低く調整すれば(例えば、ターゲット解像度以下に調整する)、当該高解像度画像データに対応する低解像度画像データを取得する。例えば、高解像度画像データに対する歪みフォーマット変換は、高解像度画像データに対する圧縮であり、圧縮後の画像フレームの画質は高解像度画像データの画質より低く、例えば高解像度画像データに対する歪みフォーマット変換は、高解像度画像データのデータフォーマットをpng(可逆圧縮画像フォーマット)からjpg(非可逆圧縮画像フォーマット)に変換する。
1つの実施例において、サーバーは高解像度画像データを直接的に取得する。サーバーはさらに、サンプル低画質ビデオデータを取得し、当該サンプル低画質ビデオデータは、含まれる画像フレームの精細度が精細度閾値より低いビデオデータであってもよいため、サーバーは機械学習の方式でサンプル低画質ビデオデータのノイズデータを学習して、高解像度画像データに当該ノイズデータを融合させてから、当該ノイズデータが融合された高解像度画像データの解像度を低く調整すれば、低解像度画像データを取得する。高解像度画像データにノイズデータを融合させる方式は、高解像度画像データにノイズデータを加入させる。サーバーは機械学習の方式でサンプル低画質ビデオデータのノイズデータを学習する過程は以下の通り、即ち、サーバーはノイズ学習ネットワークを取得し、当該ノイズ学習ネットワークはビデオデータにおけるノイズデータを学習できるモデルであってもよいため、サーバーはサンプル低画質ビデオデータをノイズ学習ネットワークに入力すれば、当該ノイズ学習ネットワークを介してサンプル低画質ビデオデータのノイズデータを学習できる。
高解像度画像データ及び低解像度画像データを取得した後、取得された高解像度画像データ及び低解像度画像データによってサンプル画像ペアを構築する。
構築されたサンプル画像ペアは画像処理ネットワークを訓練し、当該画像処理ネットワークは超解像ネットワーク、画質補強ネットワーク、顔補強ネットワーク及び鮮鋭化ネットワークを含む。
画像処理ネットワークの各生成ネットワーク(例えば、超解像ネットワーク、画質補強ネットワーク、顔補強ネットワーク)に対して、encoder(符号化)-decoder(復号化)構想によるU-Net構造(ネットワーク構造)を採用してもよい。各生成ネットワークは基本ユニット(block、即ち、ブロック)から構成され、超解像ネットワークのencoder及びdecoderはそれぞれ3つのblock(符号器及び復号器における1層は3つのblockを採用する)を採用し、画質補強ネットワーク及び顔補強ネットワークはそれぞれ5つのblock(符号器及び復号器における1層は5つのblockを採用する)を採用し、各blockの基本チャネルの数は16個であってもよい。また、本出願において、block内部の1番目の3x3畳み込みに対してチャネル拡大を行うことで、特徴次元を高めて、さらに、出力された3x3畳み込みに対して特徴圧縮を行うことで、入力チャネルの次元が不変であるように保持され、これによって、画像のより多くの特徴情報を学習できる。
また、本出願において、超解像ネットワークにおいて画像に対して超解像処理を行う場合、PixelShuffle(アップサンプリング方法)を使用してアップサンプリング操作を行って、チャネルから空間への次元変換を補間アップサンプリングの解決策の代わりとすることで、よりよい視覚効果を実現できる。
本出願において、多種の方式でサンプル画像ペアを取得することで、取得されたサンプル画像ペアのタイプを豊かにして、さらに、多種のサンプル画像ペアによって画像処理ネットワークを訓練することで、画像処理ネットワークに対する訓練効果を向上でき、具体的に、以下の内容の記載を参照すればよい。
図4及び図5を参照し、図4は本出願が提供する符号化・復号化ネットワークの構造概略図であり、図5は本出願が提供する基本ユニットの構造概略図である。上記の超解像ネットワーク、画質補強ネットワーク、顔補強ネットワークに対して何れも図4のネットワーク構造を採用でき、当該ネットワーク構造は符号器及び復号器を含み、符号器は3層を有し、復号器は3層を有する。符号器及び復号器の各層はさらに図5の基本ユニットから構成されてもよく、1つの基本ユニットは3*3の畳み込み層、正規化ネットワーク層、活性化層(即ち、LeakyRelu)、3*3の畳み込み層及び1*1の畳み込み層を順に含む。
ステップS102:画像処理ネットワークを呼び出すことによって、低解像度画像データの解像度をターゲット解像度に調整して、サンプル超解像画像データを取得して、サンプル超解像画像データ及び高解像度画像データに基づいて超解像損失関数を生成する。
本出願において、サーバーは、画像処理ネットワークにおける超解像ネットワークを呼び出すことによって、低解像度画像データの解像度を高く調整して、例えばターゲット解像度に調整して、低解像度画像データに対応するサンプ超解像画像データを生成し、当該サンプル超解像画像データは超解像ネットワークによって低解像度画像データの解像度をターゲット解像度に高く調整した後、取得された画像データである。
そして、サーバーはサンプル超解像画像データ及び高解像度画像データによって超解像損失関数を生成し、具体的に、
超解像損失関数は、画素レベルの損失関数及び特徴レベルの損失関数という2つの部分を含み、画素レベルの損失関数と特徴レベルの損失関数とを結合して超解像効果を制約することで、超解像の訓練効果がより正確且つよくなる。
画素レベルの損失関数は第1の超解像損失関数と呼ばれ、特徴レベルの損失関数は第2の超解像損失関数と呼ばれる。
サーバーはサンプル超解像画像データに含まれる画素値要素、及び高解像度画像データに含まれる画素値要素によって当該第1の超解像損失関数を生成し、当該第1の超解像損失関数
について、下記の式(1)を参照すればよい:
なお、サンプル超解像画像データ及び高解像度画像データに含まれる画素点の数は同じであり、何れもNであり、1つの画素点における画素値は1つの画素値要素と呼ばれ、
Nの以下であり、Nは画像データにおける画素値要素の総数である。
サーバーはサンプル超解像画像データの、超解像ネットワークにおける特徴マップに含まれる特徴値要素、及び高解像度画像データの、超解像ネットワークにおける特徴マップに含まれる特徴値要素によって、第2の超解像損失関数を生成し、当該第2の超解像損失関数
について、下記の式(2)を参照すればよい:
さらに、
従って、超解像損失関数は、上記の第1の超解像損失関数
と第2の超解像損失関数
との和である。
ステップS103:画像処理ネットワークを呼び出すことによって、サンプル超解像画像データに対して画質補強処理を行って、第1のサンプル補強画像データを取得して、第1のサンプル補強画像データ及び高解像度画像データに基づいて画質損失関数を生成する。
本出願において、上記の超解像画像によって取得されたサンプル超解像画像データは画質補強ネットワークの入力であってもよく、サーバーは画像処理ネットワークにおける画質補強ネットワークを呼び出すことによって、サンプル超解像画像データに対して画質補強処理を行って、サンプル超解像画像データに対応する第1のサンプル補強画像データ生成し、当該第1のサンプル補強画像データはサンプル超解像画像データに対して画質補強処理を行った後、取得された画像データである。
さらに、サーバーは第1のサンプル補強画像データと高解像度画像データとの間の平均二乗誤差によって取得されたピーク信号対雑音比(PSNR)を画質損失関数とし、当該画質損失関数
について、下記の式(3)を参照すればよい:

なお、
bitsは精度を示し、当該精度はバイナリの、ビット数が16である精度又はバイナリの、ビット数が32である精度であってもよい。
ステップS104:画像処理ネットワークを呼び出すことによって、第1のサンプル補強画像データにおける顔画像に対して顔補強処理を行って、サンプル顔補強画像を取得して、サンプル顔補強画像と第1のサンプル補強画像データとを融合させて、第2のサンプル補強画像データを取得し、サンプル顔補強画像及び高解像度画像データにおける顔画像に基づいて顔損失関数を生成する。
本出願において、上記の画質補強ネットワークによって取得された第1のサンプル補強画像データを顔補強ネットワークの入力とし、第1のサンプル補強画像データには顔画像が含まれ、サーバーは画像処理ネットワークにおける顔補強ネットワークを呼び出すことによって、第1のサンプル補強画像データにおける顔画像に対して顔補強処理を行って、第2のサンプル補強画像データを生成し、当該第2のサンプル補強画像データは第1のサンプル補強画像データにおける顔画像に対し顔補強処理を行った後、取得された画像データであり、具体的に、以下の記載の内容を参照すればよい。
顔補強ネットワークは顔検出ネットワーク、顔補強サブネットワーク及び顔融合ネットワークを含んでもよく、顔補強サブネットワークは色判別ネットワーク及びテクスチャ判別ネットワークを含んでもよく、サーバーは顔検出ネットワークを呼び出すことによって、第1のサンプル補強画像データにおける顔画像が所在する検出枠を検出し、当該検出枠は顔検出枠と呼ばれ、第1のサンプル補強画像データには、第1のサンプル補強画像データにおける顔画像が実際に所在する位置を指示するマーキング枠がマーキングされ、当該マーキング枠は顔マーキング枠と呼ばれる。サーバーは顔検出枠に含まれる顔画像を第1のサンプル補強画像データから切り抜いて、検出された顔画像を取得し、さらに、サーバーは検出された顔画像(即ち、第1のサンプル補強画像データから切り抜かれた顔画像)に対して顔補強処理を行うように、顔補強サブネットワークを呼び出すと、補強後の顔画像を取得でき、当該補強後の顔画像はサンプル顔補強画像と呼ばれ、当該サンプル顔補強画像は、第1のサンプル補強画像データにおける顔画像に対して顔補強処理を行った後、取得された顔画像である。サーバーは当該サンプル顔補強画像と第1のサンプル補強画像データとを融合させるように、顔融合ネットワークを呼び出すことで、融合された画像データは第2のサンプル補強画像データと呼ばれる。
従って、サーバーは上記の顔検出枠及び顔マーキング枠によって検出損失関数を生成し、名称から分かるように、当該検出損失関数は、第1のサンプル補強画像データにおける顔画像に対して検出された位置と当該顔画像の実際位置との間のずれからもたされ、当該検出損失関数
について、下記の式(4)を参照すればよい:
サーバーはさらに、高解像度画像データにおける顔画像を切り抜くことで、高解像度画像データにおける顔画像を取得し、切り抜かれた高解像度画像データにおける顔画像は高解像度顔画像と呼ばれる。
サーバーはさらに、高解像度顔画像、サンプル顔補強画像及び色判別装置によって色損失関数を生成し、当該色損失関数は、補強されたサンプル顔補強画像の色と高解像度顔画像の色との間の差を表徴し、例えば、色判別装置によって、サンプル顔補強画像の色が高解像度顔画像の色である確率を判別し、当該確率で色損失関数を表徴し、判別された当該確率を0.5に接近させることを目的とし、そうすれば、この時、色判別装置はサンプル顔補強画像の色と高解像度顔画像の色とを区別できず、この場合、予期した効果に達する。
サーバーは高解像度顔画像及びサンプル顔補強画像に対してそれぞれガウスぼかしを行ってから、ガウスぼかし後のサンプル顔補強画像の色がガウスぼかし後の高解像度顔画像の色である確率を判別し、当該確率で色損失関数を表徴する。
サーバーはさらに、高解像度顔画像、サンプル顔補強画像及びテクスチャ判別装置によってテクスチャ損失関数を生成し、当該テクスチャ損失関数は補強されたサンプル顔補強画像のテクスチャと高解像度顔画像のテクスチャとの間の差を表徴し、例えば、テクスチャ判別装置によって、サンプル顔補強画像のテクスチャが高解像度顔画像のテクスチャである確率を判別し、当該確率でテクスチャ損失関数を表徴し、判別された当該確率を0.5に接近させることを目的とし、そうすれば、この時、テクスチャ判別装置はサンプル顔補強画像のテクスチャと高解像度顔画像のテクスチャとを区別できず、この場合、予期した効果に達する。
サーバーは高解像度顔画像及びサンプル顔補強画像に対してそれぞれグレースケール化を行ってから、グレースケール化後のサンプル顔補強画像のテクスチャがグレースケール化後の高解像度顔画像のテクスチャである確率を判別し、当該確率でテクスチャ損失関数を表徴する。
サーバーはさらに、サンプル顔補強画像の特徴マップに含まれる特徴値要素、及び高解像度顔画像の特徴マップに含まれる特徴値要素によって、コンテンツ損失関数を生成し、当該コンテンツ損失関数は、第2のサンプル補強画像データと高解像度画像データとの間のコンテンツ差を表徴し、当該コンテンツ損失関数
について、下記の式(5)を参照すればよい:
さらに、
従って、顔損失関数は上記の検出損失関数
と、色損失関数と、テクスチャ損失関数と、コンテンツ損失関数
との和である。
以上から分かるように、顔検出ネットワークによって検出損失関数を取得し、顔補強サブネットワークによって色損失関数、テクスチャ損失関数及びコンテンツ損失関数を取得し、顔損失関数は上記の検出損失関数と、色損失関数と、テクスチャ損失関数と、コンテンツ損失関数との和である。
好ましくは、顔補強ネットワークは第1のサンプル補強画像データから切り抜かれた顔画像を使用して訓練する上に、上記の顔画像以外の顔画像を使用して訓練してもよく、2つの顔画像(一方は訓練セット(最適化対象となる顔画像が含まれる任意の訓練セット)における訓練対象となる顔画像(即ち、第1のサンプル補強画像データから切り抜かれた顔画像ではない)であり、他方は画質補強ネットワークによって取得された第1のサンプル補強画像データにおける顔画像)を結合して顔補強ネットワークを訓練することで、その訓練効果がよりよくなる。
ステップS105:画像処理ネットワークを呼び出すことによって、第2のサンプル補強画像データに対して画像鮮鋭化処理を行って、サンプル鮮鋭化画像データを取得して、サンプル鮮鋭化画像データ及び高解像度画像データに基づいて鮮鋭化損失関数を生成する。
本出願において、上記の第2のサンプル補強画像データを鮮鋭化ネットワークの入力とし、サーバーは画像処理ネットワークにおける鮮鋭化ネットワークを呼び出すことによって、第2のサンプル補強画像データに対して画像鮮鋭化処理を行って、第2のサンプル補強画像データに対して画像鮮鋭化処理を行った後の画像データを取得し、当該画像データはサンプル鮮鋭化画像データと呼ばれる。
サーバーはサンプル鮮鋭化画像データ及び高解像度画像データによって鮮鋭化ネットワークの損失関数を生成し、当該損失関数は鮮鋭化損失関数と呼ばれる。当該鮮鋭化損失関数は客観的損失関数及び感覚的損失関数という2つの部分を含み、客観的損失関数は品質損失関数と呼ばれ、感覚的損失関数は感知損失関数と呼ばれる。
当該品質損失関数はサンプル鮮鋭化画像データと高解像度画像データとの間のピーク信号対雑音比PSNRであり、当該感知損失関数はサンプル鮮鋭化画像データと高解像度画像データとの間の感知類似度によって取得され、当該感知類似度はサンプル鮮鋭化画像データと高解像度画像データとの間の感知損失値(Learned Perceptual Image Patch Similarity,LPIPS)によって取得され、感知損失値LPIPSが小さいほど、感覚レベルでサンプル鮮鋭化画像データと高解像度画像データとの間が類似し、これに対して、感知損失値LPIPSが大きいほど、感覚レベルでサンプル鮮鋭化画像データと高解像度画像データとの間が類似していなく(即ち、差が大きい)、従って、感知損失関数の使用は、サンプル鮮鋭化画像データと高解像度画像データとの間の感知損失値を最小にすることを目的とする。
従って、鮮鋭化損失関数は上記の品質損失関数と感知損失関数との和である。
図6を参照し、図6は本出願が提供する損失関数を取得するシナリオの概略図である。図6に示すように、サーバーはサンプル画像ペアを超解像ネットワークに入力し、超解像ネットワークにおいて低解像度画像データに対応するサンプル超解像画像データを生成し、サンプル超解像画像データ及び高解像度画像データによって超解像損失関数を生成する。
サーバーはさらに、サンプル超解像画像データを画質補強ネットワークに入力し、画質補強ネットワークにおいて第1のサンプル補強画像データを生成し、第1のサンプル補強画像データ及び高解像度画像データによって画質損失関数を生成する。
サーバーはさらに、第1のサンプル補強画像データを顔補強ネットワークに入力し、顔補強ネットワークにおいて第1のサンプル補強画像データにおける顔画像を補強した後、取得されたサンプル顔補強画像を生成し、当該サンプル顔補強画像及び高解像度画像データにおける高解像度顔画像によって、顔損失関数を生成する。顔補強ネットワークにおいて、さらにサンプル顔補強画像と第1のサンプル補強画像データとを融合させ、第2のサンプル補強画像データを取得する。
サーバーはさらに、第2のサンプル補強画像データを鮮鋭化ネットワークに入力し、鮮鋭化ネットワークにおいて第2のサンプル補強画像データに対して鮮鋭化処理を行って、サンプル鮮鋭化画像データを取得して、サンプル鮮鋭化画像データ及び高解像度画像データによって鮮鋭化損失関数を生成する。
ステップS106:超解像損失関数、画質損失関数、顔損失関数及び鮮鋭化損失関数に基づいて画像処理ネットワークのネットワークパラメータを更新して、訓練された画像処理ネットワークを取得する。
本出願において、画像処理ネットワークのネットワークパラメータは超解像ネットワークのネットワークパラメータ、画質補強ネットワークのネットワークパラメータ、顔補強ネットワークのネットワークパラメータ及び鮮鋭化ネットワークのネットワークパラメータを含み、サーバーは上記の超解像損失関数、画質損失関数、顔損失関数及び鮮鋭化損失関数によって画像処理ネットワークのネットワークパラメータを更新し、超解像損失関数、画質損失関数、顔損失関数及び鮮鋭化損失関数によって画像処理ネットワークのネットワークパラメータを更新する方式は2つがあり、具体的に以下の通りである。
画像処理ネットワークにおける各ネットワークの前から後ろへの順序は超解像ネットワーク、画質補強ネットワーク、顔補強ネットワーク、鮮鋭化ネットワークであり、顔補強ネットワークは前から後ろへ、顔検出ネットワーク、顔補強サブネットワーク、顔融合ネットワークという3つの顔画像処理ネットワークを順に含む。損失関数は画像処理ネットワークにおいて前へ伝達されて、伝達されたネットワーク(例えば超解像ネットワーク、画質補強ネットワーク、顔補強ネットワーク及び鮮鋭化ネットワーク)のネットワークパラメータを更新し、従って、ネットワークのネットワークパラメータを更新する第1の方式は、あるネットワークに伝達された複数の損失関数を加算して、加算後の損失関数によって、当該ネットワークのネットワークパラメータを直接的に更新すればよく、ネットワークのネットワークパラメータを更新する第2の方式は、あるネットワークに伝達された複数の損失関数を順に使用して当該ネットワークのネットワークパラメータに対して反復更新を行う。ここで、ネットワークのネットワークパラメータを更新する2つの方式が達成した、ネットワークパラメータに対する更新効果は同様である。
具体的に、超解像損失関数の前への伝達は、超解像ネットワーク自体のみに伝達されることができ、画質損失関数の前への伝達は、画質補強ネットワーク及び超解像ネットワークに伝達されることができ、顔損失関数の前への伝達は、顔補強ネットワーク、画質補強ネットワーク及び超解像ネットワークに伝達されることができ、ところが、ここで、顔補強ネットワークは前から後ろへ顔検出ネットワーク、顔補強サブネットワーク、顔融合ネットワークを含むため、顔補強ネットワークの内部で、顔損失関数の伝達について、顔検出ネットワークに伝達された損失関数は顔損失関数であってもよく、顔補強サブネットワークに伝達された損失関数は顔損失関数における色損失関数、テクスチャ損失関数及びコンテンツ損失関数(即ち、顔補強サブネットワーク自体から生成された損失関数)であってもよく、顔損失関数は後ろへ顔融合ネットワークに伝達されることができず、鮮鋭化損失関数の前への伝達は鮮鋭化ネットワーク、顔補強ネットワーク、画質補強ネットワーク及び超解像ネットワークに伝達されることができる。
従って、上記の第1の方式で各ネットワークのネットワークパラメータを更新(即ち、修正)すれば、当該過程は以下の通り、上記の超解像損失関数、画質損失関数、顔損失関数及び鮮鋭化損失関数を加算して、加算後の損失関数によって超解像ネットワークのネットワークパラメータを更新することで、訓練された超解像ネットワークを取得し、上記の画質損失関数、顔損失関数及び鮮鋭化損失関数を加算して、加算後の損失関数によって画質補強ネットワークのネットワークパラメータを更新することで、訓練された画質補強ネットワークを取得し、顔補強ネットワークの内部で、上記の鮮鋭化損失関数と顔損失関数とを加算して、加算後の損失関数によって顔検出ネットワークのネットワークパラメータを更新し、さらに、上記の鮮鋭化損失関数、色損失関数、テクスチャ損失関数及びコンテンツ損失関数を加算して、加算後の損失関数によって顔補強サブネットワークのネットワークパラメータを更新し、さらに、鮮鋭化損失関数によって顔融合ネットワークのネットワークパラメータを更新し、結果として、訓練された顔補強ネットワークを取得し、鮮鋭化損失関数によって鮮鋭化ネットワークのネットワークパラメータを更新して、訓練された鮮鋭化ネットワークを取得する。
上記の第2の方式で各ネットワークのネットワークパラメータを更新(即ち、修正)すれば、当該過程は以下の通り、上記の超解像損失関数、画質損失関数、顔損失関数及び鮮鋭化損失関数によって超解像ネットワークのネットワークパラメータに対して順に反復更新を行って、反復更新後、訓練された超解像ネットワークを取得し、例えば、まず、超解像損失関数によって超解像ネットワークのネットワークパラメータを更新してから、画質損失関数によって超解像損失関数を更新した超解像ネットワークのネットワークパラメータを更新し、そして、顔損失関数によって画質損失関数を更新した超解像ネットワークのネットワークパラメータを更新し、さらに、鮮鋭化損失関数によって顔損失関数を更新した超解像ネットワークのネットワークパラメータを更新する。
同じように、上記の画質損失関数、顔損失関数及び鮮鋭化損失関数によって画質補強ネットワークのネットワークパラメータに対して順に反復更新を行って、反復更新後、訓練された画質補強ネットワークを取得できる。
同じように、鮮鋭化損失関数及び顔損失関数によって顔検出ネットワークのネットワークパラメータに対して順に反復更新を行って、反復更新後、訓練された顔検出ネットワークを取得し、鮮鋭化損失関数、色損失関数、テクスチャ損失関数及びコンテンツ損失関数によって、顔補強サブネットワークのネットワークパラメータに対して順に反復更新を行って、反復更新後、訓練された顔補強サブネットワークを取得し、鮮鋭化損失関数によって顔融合ネットワークのネットワークパラメータを更新して、訓練された顔融合ネットワークを取得し、訓練された顔検出ネットワーク、訓練された顔補強サブネットワーク及び訓練された顔融合ネットワークによって、訓練された顔補強ネットワークを取得する。鮮鋭化損失関数によって鮮鋭化ネットワークのネットワークパラメータを更新して、訓練された鮮鋭化ネットワークを取得する。
従って、上記の訓練された超解像ネットワーク、訓練された画質補強ネットワーク、訓練された顔補強ネットワーク及び訓練された鮮鋭化ネットワークによって、訓練された画像処理ネットワークを生成する(即ち、取得する)。訓練された画像処理ネットワークは、ビデオデータ又は画像データを全面的に最適化し、具体的に、以下の図7に対応する実施例の具体的な記載を参照すればよい。
本出願において各ネットワーク(超解像ネットワーク、画質補強ネットワーク、顔補強ネットワーク及び鮮鋭化ネットワークを含む)を関連して訓練することで、各ネットワーク自体の訓練効果を保証することを前提として、各ネットワークの間の相互促進、相互融合の訓練効果を実現し、訓練された画像処理ネットワークがより正確になり、従って、訓練された画像処理ネットワークによって、画像データに対するより正確且つ優れた最適化効果を実現する。即ち、画像処理ネットワークを訓練する場合、本出願はエンドツーエンド(例えば、全体的に、超解像ネットワークというエンドから順に鮮鋭化ネットワークというエンドまで)のマルチタスク(1つのネットワークの訓練は1つの訓練タスクである)共同訓練フレームワークを提供し、当該共同訓練フレームワークはカスケード接続されているフレームワーク、例えば超解像ネットワークから画質補強ネットワーク及び顔補強ネットワークを介して順に鮮鋭化ネットワークまで連結されるフレームワークであり、このようなカスケード接続されているフレームワークによって各ネットワークを訓練することで、各ネットワークの間のデータの協働訓練効果がよりよくなり、異なるタスクの間の訓練効果の相互促進及び融合を実現し、タスクの間の衝突を回避して、優れた総合効果を実現する。また、カーネル学習劣化(例えば、上記のノイズ学習ネットワークによってサンプル画像ペアを取得する)、符号化・復号化モジュールによるデータのランダム生成(例えば、上記のターゲットビットレートによってサンプルビデオデータに対して符号化・復号化を行うことでサンプル画像ペアを取得する)、モーションブラーのシミュレーション(例えば、上記のターゲット画像フレーム及びターゲット画像フレームの隣接画像フレームに対して平均融合処理を行うことでサンプル画像ペアを取得する)、及びノイズ圧縮(例えば、上記の高解像度画像データに対して歪みフォーマット変換を行うことでサンプル画像ペアを取得する)が含まれる、適切な訓練データ生成解決策によって、幅広く分布される訓練データを生成し、当該訓練データによって訓練された画像処理ネットワークは、より幅広い画像最適化シナリオに適用され、より強いロバスト性を具備する。
本出願において、サンプル画像ペアを取得し、サンプル画像ペアは低解像度画像データ及び高解像度画像データを含み、低解像度画像データと高解像度画像データとは同じ画像コンテンツを有し、画像処理ネットワークを呼び出すことによって、低解像度画像データの解像度をターゲット解像度に調整し、サンプル超解像画像データを取得して、サンプル超解像画像データ及び高解像度画像データに基づいて超解像損失関数を生成し、画像処理ネットワークを呼び出すことによって、サンプル超解像画像データに対して画質補強処理を行って、第1のサンプル補強画像データを取得して、第1のサンプル補強画像データ及び高解像度画像データに基づいて画質損失関数を生成し、画像処理ネットワークを呼び出すことによって、第1のサンプル補強画像データにおける顔画像に対して顔補強処理を行って、サンプル顔補強画像を取得して、サンプル顔補強画像と第1のサンプル補強画像データとを融合させて、第2のサンプル補強画像データを取得し、サンプル顔補強画像及び高解像度画像データにおける顔画像に基づいて顔損失関数を生成し、画像処理ネットワークを呼び出すことによって、第2のサンプル補強画像データに対して画像鮮鋭化処理を行って、サンプル鮮鋭化画像データを取得して、サンプル鮮鋭化画像データ及び高解像度画像データに基づいて鮮鋭化損失関数を生成し、超解像損失関数、画質損失関数、顔損失関数及び鮮鋭化損失関数に基づいて画像処理ネットワークのネットワークパラメータを更新して、訓練された画像処理ネットワークを取得する。このように、本出願が提出する方法は、画像処理ネットワークに対してマルチタスク(例えば、超解像タスク、画質補強タスク、顔補強タスク及び鮮鋭化タスクを含む)の相互関連、相互融合の訓練を行って、訓練後の画像処理ネットワークは画像に対してマルチタスクの最適化を同時に行う時、各タスクの間は衝突することがなく、最適化効果がよりよくなる。
図7を参照し、図7は本出願が提供する画像処理方法のフロー概略図である。本出願の実施例は、訓練された画像処理ネットワークの適用過程を記載し、本出願の実施例に記載の内容は、上記の図3に対応する出願の実施例に記載の内容と結合されてもよく、本出願の実施例における実行本体はサーバーであってもよい。図7に示すように、当該方法は以下のステップを含み、
ステップS201:訓練された画像処理ネットワークを呼び出すことによって、初期画像データに対応する超解像画像データを取得し、超解像画像データの解像度はターゲット解像度の以上である。
本出願において、ここで、呼出対象となる超解像ネットワークは上記の訓練された画像処理ネットワークにおける超解像ネットワークであり、即ち、ここで、呼び出される超解像ネットワークは訓練された超解像ネットワークである。
サーバーは初期画像データを取得し、当該初期画像データは最適化を必要とする何れか1つの画像であってもよい。高解像度の画像データで最適化を行うと、その最適化の効果がよりよくなるため、サーバーは超解像ネットワークを呼び出すことによって、初期画像データの解像度を検出し、初期画像データの解像度がターゲット解像度より小さいと検出した場合、初期画像データは低解像度の画像データであり、従って、超解像ネットワークを呼び出すことによって、初期画像データの解像度を高め、例えば、ように、超解像ネットワークを呼び出すことによって、初期画像データの解像度をターゲット解像度(当該ターゲット解像度は実際の適用シナリオに基づいて自分で設置された高解像度である)に調整して、ターゲット解像度に調整された初期画像データを超解像画像データとする。
又は、初期画像データの解像度がターゲット解像度の以上であると検出した場合、初期画像データ自体は高解像度の画像データであり、従って、初期画像データの解像度を調整していなく、直接的に初期画像データを超解像画像データとする。
ステップS202:訓練された画像処理ネットワークを呼び出すことによって、超解像画像データに対して画質補強処理を行って、第1の補強画像データを取得する。
本出願において、ここで、呼出対象となる画質補強ネットワークは、上記の訓練された画像処理ネットワークにおける画質補強ネットワークであり、即ち、ここで、呼び出される画質補強ネットワークは訓練された画質補強ネットワークである。
超解像後の画像の画質が悪い恐れがあるため、サーバーはさらに、画質補強ネットワークを呼び出することによって、超解像画像データの画質を全体的に最適化し(即ち、超解像画像データに対して画質補強処理を行う)、画質補強ネットワークによって超解像画像データに対して画質最適化を行った後の画像データを第1の補強画像データとする。
ステップS203:訓練された画像処理ネットワークを呼び出すことによって、第1の補強画像データに対応する第2の補強画像データを取得し、第1の補強画像データには顔画像が含まれると、第2の補強画像データは第1の補強画像データにおける顔画像に対して顔補強を行った後、取得された画像データである。
本出願において、ここで、呼出対象となる顔補強ネットワークは上記の訓練された画像処理ネットワークにおける顔補強ネットワークであり、即ち、ここで、呼び出される顔補強ネットワークは訓練された顔補強ネットワークである。
呼び出された顔補強ネットワークは顔検出ネットワーク、顔補強サブネットワーク及び顔融合ネットワークを含み、画像データにおける顔は一般的に重要な要素であるため、サーバーはさらに顔検出ネットワークによって第1の補強画像データに対して顔検出を行って、即ち、第1の補強画像データには顔画像が含まれるかどうかを検出する。
第1の補強画像データには顔画像が含まれていないと検出した場合、直接的に第1の補強画像データを第2の補強画像データとする。
第1の補強画像データには顔画像が含まれると検出した場合、顔補強サブネットワークを呼び出することによって、第1の補強画像データにおける顔画像を最適化し、さらに、顔画像を最適化した第1の補強画像データを第2の補強画像データとする。
顔補強サブネットワークを呼び出すことによって第1の補強画像データにおける顔画像を最適化する過程は以下の通りである。
サーバーは顔検出ネットワークを呼び出すことによって、第1の補強画像データから検出された顔画像を切り抜いて、第1の補強画像データにおける顔画像を取得し、当該顔画像は顔切り抜き画像と呼ばれる。
サーバーはさらに、顔補強サブネットワークを呼び出すことによて、顔切り抜き画像に対して顔補強処理を行い、即ち、顔切り抜き画像に対して顔最適化を行って、顔を最適化した顔切り抜き画像は顔補強画像と呼ばれる。
また、サーバーはさらに顔融合ネットワークを呼び出すことによって、顔融合マスク(即ち、融合Mask)を生成し、当該顔融合マスクは顔補強画像と第1の補強画像データに対して加重融合を行って、第2の補強画像データを取得する。当該適応型顔融合マスクによって顔補強画像と第1の補強画像データとの間のシームレス融合を実現する。
例えば、顔補強画像をaとして示し、顔融合マスクをbとして示し、第1の補強画像データをcとして示すと、第2の補強画像データはb*a+(1-b)*cである。
第1の補強画像データにおける顔画像を補強することで、第2の補強画像データを取得する過程は、上記の第1のサンプル補強画像データにおける顔画像を補強することで、第2のサンプル補強画像データを取得する過程と同様である。
図8を参照し、図8は本出願が提供する顔を最適化するシナリオの概略図である。図8に示すように、サーバーは画質補強ネットワークによって取得された第1の補強画像データを訓練された顔検出ネットワークに入力し、顔検出ネットワークによって第1の補強画像データにおける顔画像を切り抜くことで、顔切り抜き画像を取得し、顔切り抜き画像を訓練された顔補強サブネットワークに入力し、当該顔補強サブネットワークによって顔切り抜き画像に対して顔補強を行って、顔補強画像を取得する。さらに、顔補強画像及び第1の補強画像データを顔融合ネットワークに入力することで、顔補強画像と第1の補強画像データとの画像融合を実現し、結果として、第2の補強画像データを取得する。
ステップS204:訓練された画像処理ネットワークを呼び出すことによって、第2の補強画像データに対して画像鮮鋭化処理を行って、鮮鋭化画像データを取得して、鮮鋭化画像データを出力する。
本出願において、ここで、呼出対象となる鮮鋭化ネットワークは上記の訓練された画像処理ネットワークにおける鮮鋭化ネットワークであり、即ち、ここで、呼び出される鮮鋭化ネットワークは訓練された鮮鋭化ネットワークである。
最後、鮮鋭化ネットワークによって第2の補強画像データにおける細部を補強することで、細部がより明晰になる。サーバーは鮮鋭化ネットワークを呼び出すことによって、第2の補強画像データにおける高周波成分を抽出し、例えば、第2の補強画像データに対してガウスぼかしを行った後、元の第2の補強画像データとの差分を求め、これによって、第2の補強画像データにおける高周波画像情報(即ち、高周波成分)を取得する。
サーバーはさらに鮮鋭化ネットワークを呼び出すことによって、第2の補強画像データの鮮鋭化マスクを生成し、当該鮮鋭化マスクは第2の補強画像データにおける、鮮鋭化補強を必要とする細部部分を指示し、サーバーは当該鮮鋭化マスクと第2の補強画像データとのドット積を求めて、第2の補強画像データにおける鮮鋭化画像情報(即ち、細部成分)を取得する。例えば、サーバーは鮮鋭化ネットワークに含まれる畳み込み層(例えば1*1の畳み込み層)及びPrelu(活性化層)を使用して第2の補強画像データの鮮鋭化マスクを生成する。
また、鮮鋭化ネットワークはさらに、上記の高周波画像情報に対する加重重み(第1の加重重みと呼ばれる)、上記の鮮鋭化画像情報に対する加重重み(第2の加重重みと呼ばれる)、及び第2の補強画像データに対する加重重み(第3の加重重みと呼ばれる)を生成して、第1の加重重み、第2の加重重み及び第3の加重重みによって高周波画像情報、鮮鋭化画像情報及び第2の補強画像データに対して対応する加重合計を行うことで、鮮鋭化画像データを取得する。
例えば、第1の加重重みと高周波画像情報との間の積を第1の加重結果とし、第2の加重重みと鮮鋭化画像情報との間の積を第2の加重結果とし、第3の加重重みと第2の補強画像データとの間の積を第3の加重結果とし、さらに、第1の加重結果と、第2の加重結果と、第3の加重結果との和を求めることで、鮮鋭化画像データを取得する。
当該鮮鋭化画像データは、初期画像データを最適化した後、取得された最終の画像データであり、サーバーは画像処理ネットワークから当該鮮鋭化画像データを出力する。第2の補強画像データを補強して鮮鋭化画像データを取得する過程は、上記の第2のサンプル補強画像データを補強してサンプル鮮鋭化画像データを取得する過程と同様である。
図9を参照し、図9は本出願が提供する画像を最適化するシナリオの概略図である。図9に示すように、サーバーは初期画像データを訓練された画像処理ネットワークに入力し、画像処理ネットワークにおける超解像ネットワークによって初期画像データに対応する超解像画像データを取得する。そして、画質補強ネットワークによって超解像画像データに対して画質補強を行って、第1の補強画像データを取得する。次に、顔補強ネットワークにおける顔検出ネットワークによって第1の補強画像データにおける顔画像(即ち、顔切り抜き画像)を切り抜いて取得し、顔補強サブネットワークによって当該顔切り抜き画像に対して顔補強を行って、顔補強画像を取得し、顔融合ネットワークによって顔補強画像と第1の補強画像データとを融合させて、第2の補強画像データを取得する。最後、鮮鋭化ネットワークによって第2の補強画像データに対して鮮鋭化処理を行って、鮮鋭化画像データを取得して、当該鮮鋭化画像データを出力する。
上記の初期画像データはさらに、ビデオデータに対してフレーム分割を行うことで、取得された複数の画像フレームのうちの何れか1つの画像フレームであってもよく、サーバーはアプリケーションクライアントのバックグランドサーバーであってもよく、当該ビデオデータはアプリケーションクライアントにプッシュされるデータであってもよい。従って、サーバーはビデオデータに含まれる各画像フレームを何れも初期画像データとし、上記の過程でビデオデータに含まれる各画像フレームにそれぞれ対応する鮮鋭化画像データを取得し、さらに、各画像フレームにそれぞれ対応する鮮鋭化画像データによって、当該ビデオデータの最適化ビデオデータを生成し、当該最適化ビデオデータは、当該ビデオデータにおける各フレームの画像フレームを最適化した後、取得されたビデオデータである。サーバーは当該最適化ビデオデータをアプリケーションクライアントにプッシュし、アプリケーションクライアントはクライアントインターフェースに当該最適化ビデオデータを出力することで、ユーザーはそれを閲覧してチェックできる。
図10を参照し、図10は本出願が提供するデータをプッシュするシナリオの概略図である。図10に示すように、サーバーはビデオデータに対してフレーム分割を行って、ビデオデータに含まれる複数の画像フレーム(例えば、画像フレーム1~画像フレームn)を取得し、上記の訓練された画像処理ネットワークによってフレーム分割による各画像フレームを最適化して、各画像フレームにそれぞれ対応する鮮鋭化画像データ(例えば、鮮鋭化画像データ1~鮮鋭化画像データn)を取得する。
さらに、各画像フレームにそれぞれ対応する鮮鋭化画像データによってビデオデータの最適化ビデオデータを取得でき、サーバーは当該最適化ビデオデータをアプリケーションクライアントにプッシュする。
本出願が提供する方法によれば、超解像ネットワーク、画質補強ネットワーク、顔補強ネットワークから鮮鋭化ネットワークまでのマルチタスク共同訓練フレームワークによって、超解像ネットワーク、画質補強ネットワーク、顔補強ネットワーク及び鮮鋭化ネットワークの間の相互関連、相互融合、相互促進の訓練を実現し、訓練後の超解像ネットワーク、画質補強ネットワーク、顔補強ネットワーク及び鮮鋭化ネットワークのそれぞれの訓練効果がよりよくなる上に、画像に対して重ね合わせ及び最適化を同時に行う場合、衝突が生じていなく、全体的な最適化効果がよりよくなり、訓練された超解像ネットワーク、画質補強ネットワーク及び鮮鋭化ネットワークは画像データのグローバルな画質、色、テクスチャ及び精細度という属性を全面的に補強でき、衝突が存在していなく、画像データ効果を多方面にわたって向上して、訓練された顔補強ネットワークは画像データにおける局所の顔に対して専門の補強効果を有し、グローバル的補強及び局所的な補強を実現する。
図11を参照し、図11は本出願が提供する画像処理ネットワークの訓練装置の構造概略図である。当該画像処理ネットワークの訓練装置は、コンピュータ機器に運転するコンピュータ可読命令(プログラムコードを含む)、例えばアプリケーションソフトウェアであってもよく、当該画像処理ネットワークの訓練装置は本出願の実施例が提供する方法における相応的なステップを実行する。図11に示すように、当該画像処理ネットワークの訓練装置1は、
サンプル画像ペアを取得するサンプル取得モジュール11であって、サンプル画像ペアは低解像度画像データ及び高解像度画像データを含み、低解像度画像データと高解像度画像データとは同じ画像コンテンツを有するサンプル取得モジュール11と、
画像処理ネットワークを呼び出すことによって、低解像度画像データの解像度をターゲット解像度に調整して、サンプル超解像画像データを取得して、サンプル超解像画像データ及び高解像度画像データに基づいて超解像損失関数を生成する呼出モジュール12であって、
ように画像処理ネットワークを呼び出すことによって、サンプル超解像画像データに対して画質補強処理を行って、第1のサンプル補強画像データを取得して、第1のサンプル補強画像データ及び高解像度画像データに基づいて画質損失関数を生成する呼出モジュール12であって、
画像処理ネットワークを呼び出すことによって、第1のサンプル補強画像データにおける顔画像に対して顔補強処理を行って、サンプル顔補強画像を取得して、サンプル顔補強画像と第1のサンプル補強画像データとを融合させて、第2のサンプル補強画像データを取得し、サンプル顔補強画像及び高解像度画像データにおける顔画像に基づいて顔損失関数を生成する呼出モジュール12であって、
画像処理ネットワークを呼び出すことによって、第2のサンプル補強画像データに対して画像鮮鋭化処理を行って、サンプル鮮鋭化画像データを取得して、サンプル鮮鋭化画像データ及び高解像度画像データに基づいて鮮鋭化損失関数を生成する呼出モジュール12と、
超解像損失関数、画質損失関数、顔損失関数及び鮮鋭化損失関数に基づいて画像処理ネットワークのネットワークパラメータを更新して、訓練された画像処理ネットワークを取得する更新モジュール13と、を含む。
好ましくは、画像処理ネットワークは超解像ネットワーク、画質補強ネットワーク、顔補強ネットワーク及び鮮鋭化ネットワークを含み、サンプル超解像画像データは超解像ネットワークに基づいて取得され、第1のサンプル補強画像データは画質補強ネットワークに基づいて取得され、第2のサンプル補強画像データは顔補強ネットワークに基づいて取得され、サンプル鮮鋭化画像データは鮮鋭化ネットワークに基づいて取得され、
更新モジュール13が超解像損失関数、画質損失関数、顔損失関数及び鮮鋭化損失関数に基づいて画像処理ネットワークのネットワークパラメータを更新して、訓練された画像処理ネットワークを取得する方式は、
超解像損失関数、画質損失関数、顔損失関数及び鮮鋭化損失関数に基づいて超解像ネットワークのネットワークパラメータを更新して、訓練された超解像ネットワークを取得するステップと、
画質損失関数、顔損失関数及び鮮鋭化損失関数に基づいて画質補強ネットワークのネットワークパラメータを更新して、訓練された画質補強ネットワークを取得するステップと、
顔損失関数及び鮮鋭化損失関数に基づいて顔補強ネットワークのネットワークパラメータを更新して、訓練された顔補強ネットワークを取得するステップと、
鮮鋭化損失関数に基づいて鮮鋭化ネットワークのネットワークパラメータを更新して、訓練された鮮鋭化ネットワークを取得するステップと、
訓練された超解像ネットワーク、訓練された画質補強ネットワーク、訓練された顔補強ネットワーク及び訓練された鮮鋭化ネットワークに基づいて、訓練された画像処理ネットワークを生成するステップと、を含む。
好ましくは、呼出モジュール12がサンプル超解像画像データ及び高解像度画像データに基づいて超解像損失関数を生成する方式は、
サンプル超解像画像データに含まれる画素値要素、及び高解像度画像データに含まれる画素値要素に基づいて、第1の超解像損失関数を生成するステップと、
サンプル超解像画像データの特徴マップに含まれる特徴値要素及び高解像度画像データの特徴マップに含まれる特徴値要素に基づいて、第2の超解像損失関数を生成するステップと、
第1の超解像損失関数及び第2の超解像損失関数に基づいて、超解像損失関数を生成するステップと、を含む。
好ましくは、画像処理ネットワークは顔補強ネットワークを含み、第2のサンプル補強画像データは顔補強ネットワークに基づいて取得され、顔補強ネットワークは顔検出ネットワーク、色判別ネットワーク及びテクスチャ判別ネットワークを含み、第1のサンプル補強画像データにおける顔画像は、顔検出ネットワークによって生成された顔検出枠、及び実際の顔位置を指示する顔マーキング枠を備え、
呼出モジュール12がサンプル顔補強画像及び高解像度画像データにおける顔画像に基づいて顔損失関数を生成する方式は、
顔検出枠及び顔マーキング枠に基づいて、検出損失関数を生成するステップと、
高解像度画像データにおける顔画像を切り抜いて、高解像度顔画像を取得するステップと、
高解像度顔画像、サンプル顔補強画像及び色判別ネットワークに基づいて色損失関数を生成するステップと、
高解像度顔画像、サンプル顔補強画像及びテクスチャ判別ネットワークに基づいて、テクスチャ損失関数を生成するステップと、
サンプル顔補強画像の特徴マップに含まれる特徴値要素、及び高解像度顔画像の特徴マップに含まれる特徴値要素に基づいて、コンテンツ損失関数を生成するステップと、
検出損失関数、色損失関数、テクスチャ損失関数及びコンテンツ損失関数に基づいて、顔損失関数を生成するステップと、を含む。
好ましくは、呼出モジュール12がサンプル鮮鋭化画像データ及び高解像度画像データに基づいて鮮鋭化損失関数を生成する方式は、
サンプル鮮鋭化画像データと高解像度画像データとの間のピーク信号対雑音比に基づいて、品質損失関数を生成するステップと、
サンプル鮮鋭化画像データと高解像度画像データとの間の感知類似度に基づいて、感知損失関数を生成するステップと、
品質損失関数及び感知損失関数に基づいて鮮鋭化損失関数を生成するステップと、を含む。
好ましくは、サンプル取得モジュール11がサンプル画像ペアを取得する方式は、
サンプルビデオデータを取得するステップと、
サンプルビデオデータに対してフレーム分割を行って、サンプルビデオデータに含まれる複数のサンプル画像フレームを取得するステップと、
ターゲットビットレートを採用してサンプルビデオデータに対して符号化・復号化処理を行って、サンプルビデオデータに対応する低画質ビデオデータを取得するステップであって、低画質ビデオデータの画像フレームの画質はサンプルビデオデータの画像フレームの画質より低く、低画質ビデオデータは、各サンプル画像フレームにそれぞれ対応する低画質画像フレームを含み、ターゲットビットレートはビットレート閾値より低いステップと、
各サンプル画像フレーム、及び対応する低画質画像フレームに基づいてサンプル画像ペアを構築するステップと、を含む。
好ましくは、サンプル取得モジュール11がサンプル画像ペアを取得する方式は、
サンプルビデオデータを取得するステップと、
サンプルビデオデータに対してフレーム分割を行って、サンプルビデオデータに含まれる複数のサンプル画像フレームを取得するステップと、
複数のサンプル画像フレームからターゲット画像フレームを高解像度画像データとして選択するステップと、
ターゲット画像フレーム及び複数のサンプル画像フレームにおけるターゲット画像フレームの隣接画像フレームに対して平均融合処理を行って、低解像度画像データを取得するステップと、を含む。
好ましくは、サンプル取得モジュール11がサンプル画像ペアを取得する方式は、
高解像度画像データを取得するステップと、
高解像度画像データに対してガウスぼかし処理を行って、低解像度画像データを取得するステップと、を含む。
好ましくは、サンプル取得がモジュールサンプル画像ペアを取得する方式は、
高解像度画像データを取得するステップと、
高解像度画像データに対して歪みフォーマット変換を行って、低解像度画像データを取得するステップと、を含む。
好ましくは、サンプル取得モジュール11がサンプル画像ペアを取得する方式は、
高解像度画像データを取得するステップと、
サンプル低解像度ビデオデータを取得して、サンプル低解像度ビデオデータをノイズ学習ネットワークに入力するステップであって、サンプル低解像度ビデオデータの精細度は精細度閾値より低いステップと、
ノイズ学習ネットワークに基づいてサンプル低解像度ビデオデータのノイズデータを学習するステップと、
高解像度画像データにノイズデータを融合させて、低解像度画像データを取得するステップと、を含む。
本出願の1つの実施例によれば、図3の画像処理ネットワークの訓練方法が係るステップは、図11の画像処理ネットワークの訓練装置1における各モジュールによって実行される。例えば、図3のステップS101は図11のサンプル取得モジュール11によって実行され、図3のステップS102~ステップS105は図11の呼出モジュール12によって実行され、図3のステップS106は図11の更新モジュール13によって実行される。
本出願によれば、サンプル画像ペアを取得し、サンプル画像ペアは低解像度画像データ及び高解像度画像データを含み、低解像度画像データと高解像度画像データとは同じ画像コンテンツを有し、画像処理ネットワークを呼び出すことによって、低解像度画像データの解像度をターゲット解像度に調整して、サンプル超解像画像データを取得して、サンプル超解像画像データ及び高解像度画像データに基づいて超解像損失関数を生成し、画像処理ネットワークを呼び出すことによって、サンプル超解像画像データに対して画質補強処理を行って、第1のサンプル補強画像データを取得して、第1のサンプル補強画像データ及び高解像度画像データに基づいて画質損失関数を生成し、画像処理ネットワークを呼び出すことによって、第1のサンプル補強画像データにおける顔画像に対して顔補強処理を行って、サンプル顔補強画像を取得して、サンプル顔補強画像と第1のサンプル補強画像データとを融合させて、第2のサンプル補強画像データを取得し、サンプル顔補強画像及び高解像度画像データにおける顔画像に基づいて顔損失関数を生成し、画像処理ネットワークを呼び出すことによって、第2のサンプル補強画像データに対して画像鮮鋭化処理を行って、サンプル鮮鋭化画像データを取得して、サンプル鮮鋭化画像データ及び高解像度画像データに基づいて鮮鋭化損失関数を生成し、超解像損失関数、画質損失関数、顔損失関数及び鮮鋭化損失関数に基づいて画像処理ネットワークのネットワークパラメータを更新して、訓練された画像処理ネットワークを取得する。このように、本出願が提出する装置は画像処理ネットワークに対してマルチタスク(例えば、超解像タスク、画質補強タスク、顔補強タスク及び鮮鋭化タスクを含む)の相互関連、相互融合の訓練を行って、訓練後の画像処理ネットワークは画像に対してマルチタスクの最適化を同時に行う時、各タスクの間は衝突することがなく、最適化効果がよりよくなる。
本出願の1つの実施例によれば、図11の画像処理ネットワークの訓練装置1における各モジュールはそれぞれ、又は全部的に1つ又はいくつかのユニットとして合併されて構成されてもよいし、又はそのうちのある(いくつかの)ユニットはさらに機能でより小さい複数のサブユニットとして分解されてもよく、本出願の実施例の技術効果の実現に影響していなく、同じ操作を実現できる。上記のモジュールは論理機能に基づいて区画され、実際適用において、1つのモジュールの機能は複数のユニットによって実現されてもよく、又は複数のモジュールの機能は1つのユニットによって実現されてもよい。本出願の他の実施例において、画像処理ネットワークの訓練装置1は他のユニットを含んでもよく、実際適用において、これらの機能は他のユニットが協働することで実現されてもよいし、複数のユニットが協働することで実現されてもよい。
本出願の1つの実施例によれば、中央処理ユニット(CPU)、ランダムアクセス記憶媒体(RAM)、読み取り専用記憶媒体(ROM)などの処理素子及び記憶素子を含む、例えばコンピュータの汎用コンピュータ機器で、図3の相応的な方法が係る各ステップを実行できるコンピュータ可読命令(プログラムコードを含む)を運転させることで、図11の画像処理ネットワークの訓練装置1を構成して、本出願の実施例の画像処理ネットワークの訓練方法を実現する。上記のコンピュータ可読命令は、例えばコンピュータ可読記録媒体に読み込まれ、コンピュータ可読記録媒体によって上記のコンピューティング機器に搭載されて、運転する。
図12を参照し、図12は本出願が提供する画像処理装置の構造概略図である。当該画像処理装置は、コンピュータ機器に運転するコンピュータ可読命令(プログラムコードを含む)、例えばアプリケーションソフトウェアであってもよく、当該画像処理装置は本出願の実施例が提供する方法の相応的なステップを実行する。図12に示すように、当該画像処理装置2は、
訓練された画像処理ネットワークを呼び出すことによって、初期画像データに対応する超解像画像データを取得する超解像呼出モジュール21であって、超解像画像データの解像度はターゲット解像度の以上である超解像呼出モジュール21と、
訓練された画像処理ネットワークを呼び出すことによって、超解像画像データに対して画質補強処理を行って、第1の補強画像データを取得する画質補強モジュール22と、
訓練された画像処理ネットワークを呼び出すことによって、第1の補強画像データに対応する第2の補強画像データを取得する顔補強モジュール23であって、第1の補強画像データには顔画像が含まれると、第2の補強画像データは第1の補強画像データにおける顔画像に対して顔補強を行った後、取得された画像データである顔補強モジュール23と、
訓練された画像処理ネットワークを呼び出すことによって、第2の補強画像データに対して画像鮮鋭化処理を行って、鮮鋭化画像データを取得して、鮮鋭化画像データを出力する鮮鋭化モジュール24と、を含む。
好ましくは、訓練された画像処理ネットワークは超解像ネットワークを含み、訓練された画像処理ネットワークを呼び出すことによって、超解像呼出モジュール21が初期画像データに対応する超解像画像データを取得する方式は、
初期画像データを取得するステップと、
超解像ネットワークを呼び出すことによって、初期画像データの解像度を検出するステップと、
初期画像データの解像度がターゲット解像度の以上であれば、初期画像データを超解像画像データに決定するステップと、
超解像ネットワークを呼び出すことによって、初期画像データの解像度がターゲット解像度より小さいと、初期画像データの解像度をターゲット解像度に調整して、超解像画像データを取得するステップと、を含む。
好ましくは、訓練された画像処理ネットワークは顔補強ネットワークを含み、訓練された画像処理ネットワークを呼び出すことによって、顔補強モジュール23が第1の補強画像データに対応する第2の補強画像データを取得する方式は、
顔補強ネットワークを呼び出すことによって、第1の補強画像データに対して顔検出を行うステップと、
第1の補強画像データには顔画像が含まれていないと、第1の補強画像データを第2の補強画像データに決定するステップと、
第1の補強画像データには顔画像が含まれると、顔補強ネットワークを呼び出すことによって、第1の補強画像データにおける顔画像に対して顔補強処理を行って、第2の補強画像データを取得するステップと、を含む。
好ましくは、顔補強ネットワークは顔検出ネットワーク、顔補強サブネットワーク及び顔融合ネットワークを含み、
顔補強ネットワークを呼び出すことによって、顔補強モジュール23が第1の補強画像データにおける顔画像に対して顔補強処理を行って、第2の補強画像データを取得する方式は、
顔検出ネットワークを呼び出すことによって、第1の補強画像データにおける顔画像を切り抜いて、顔切り抜き画像を取得するステップと、
顔補強サブネットワークを呼び出すことによって、顔切り抜き画像に対して顔補強処理を行って、顔補強画像を取得するステップと、
顔融合ネットワークを呼び出すことによって、顔融合マスクを生成するステップと、
顔融合マスクに基づいて第1の補強画像データと顔補強画像に対して画像融合処理を行って、第2の補強画像データを取得するステップと、を含む。
好ましくは、訓練された画像処理ネットワークは鮮鋭化ネットワークを含み、訓練された画像処理ネットワークを呼び出すことによって、鮮鋭化モジュール24が第2の補強画像データに対して画像鮮鋭化処理を行って、鮮鋭化画像データを取得する方式は、
鮮鋭化ネットワークを呼び出すことによって、第2の補強画像データにおける高周波画像情報を抽出するステップと、
鮮鋭化ネットワークに基づいて第2の補強画像データに対する鮮鋭化マスクを生成して、鮮鋭化マスクに基づいて第2の補強画像データにおける鮮鋭化画像情報を抽出するステップと、
鮮鋭化ネットワークに基づいて高周波画像情報に対する第1の加重重み、鮮鋭化画像情報に対する第2の加重重み及び第2の補強画像データに対する第3の加重重みを予測するステップと、
第1の加重重み、第2の加重重み及び第3の加重重みに基づいて対応するように高周波画像情報、鮮鋭化画像情報及び第2の補強画像データに対して加重合計を行って、鮮鋭化画像データを取得するステップと、を含む。
好ましくは、初期画像データはビデオデータに対してフレーム分割を行うことで、取得された複数の画像フレームのうちの何れか1つの画像フレームであり、上記の装置2はさらに、
複数の画像フレームのうちの各画像フレームにそれぞれ対応する鮮鋭化画像データに基づいて、ビデオデータの最適化ビデオデータを生成し、
最適化ビデオデータをアプリケーションクライアントにプッシュすることで、アプリケーションクライアントが最適化ビデオデータを出力する。
本出願の1つの実施例によれば、図7の画像処理方法が係るステップは図12の画像処理装置2における各モジュールによって実行される。例えば、図7のステップS201は図12における超解像呼出モジュール21によって実行され、図7のステップS202は図12における画質補強モジュール22によって実行され、図7のステップS203は図12における顔補強モジュール23によって実行され、図7のステップS204は図12における鮮鋭化モジュール24によって実行される。
本出願によれば、サンプル画像ペアを取得し、サンプル画像ペアは低解像度画像データ及び高解像度画像データを含み、低解像度画像データと高解像度画像データとは同じ画像コンテンツを有し、画像処理ネットワークを呼び出すことによって、低解像度画像データの解像度をターゲット解像度に調整して、サンプル超解像画像データを取得して、サンプル超解像画像データ及び高解像度画像データに基づいて超解像損失関数を生成し、画像処理ネットワークを呼び出すことによって、サンプル超解像画像データに対して画質補強処理を行って、第1のサンプル補強画像データを取得して、第1のサンプル補強画像データ及び高解像度画像データに基づいて画質損失関数を生成し、画像処理ネットワークを呼び出すことによって、第1のサンプル補強画像データにおける顔画像に対して顔補強処理を行って、サンプル顔補強画像を取得して、サンプル顔補強画像と第1のサンプル補強画像データとを融合させて、第2のサンプル補強画像データを取得し、サンプル顔補強画像及び高解像度画像データにおける顔画像に基づいて顔損失関数を生成し、画像処理ネットワークを呼び出すことによて、第2のサンプル補強画像データに対して画像鮮鋭化処理を行って、サンプル鮮鋭化画像データを取得して、サンプル鮮鋭化画像データ及び高解像度画像データに基づいて鮮鋭化損失関数を生成し、超解像損失関数、画質損失関数、顔損失関数及び鮮鋭化損失関数に基づいて画像処理ネットワークのネットワークパラメータを更新して、訓練された画像処理ネットワークを取得する。このように、本出願が提出する装置は画像処理ネットワークに対してマルチタスク(例えば超解像タスク、画質補強タスク、顔補強タスク及び鮮鋭化タスクを含む))の相互関連、相互融合の訓練を行って、訓練後の画像処理ネットワークは画像に対してマルチタスクの最適化を同時に行う時、各タスクの間は衝突することがなく、最適化効果がよりよくなる。
本出願の1つの実施例によれば、図12の画像処理装置2における各モジュールはそれぞれ、又は全部的に1つ又はいくつかのユニットとして合併されて構成されてもよいし、又はそのうちのある(いくつかの)ユニットはさらに機能でより小さい複数のサブユニットとして分解されてもよく、本出願の実施例の技術効果の実現に影響していなく、同じ操作を実現できる。モジュールは論理機能に基づいて区画され、実際適用において、1つのモジュールの機能は複数のユニットによって実現されてもよく、又は複数のモジュールの機能は1つのユニットによって実現されてもよい。本出願の他の実施例において、画像処理装置2は他のユニットを含んでもよく、実際適用において、これらの機能は他のユニットが協働することで実現されてもよいし、複数のユニットが協働することで実現されてもよい。
本出願の1つの実施例によれば、中央処理ユニット(CPU)、ランダムアクセス記憶媒体(RAM)、読み取り専用記憶媒体(ROM)などの処理素子及び記憶素子を含む、例えばコンピュータの汎用コンピュータ機器で、図7の相応的な方法が係る各ステップを実行できるコンピュータ可読命令(プログラムコードを含む)を運転させることで、図12の画像処理装置2を構成して、本出願の実施例の画像処理ネットワークの訓練方法を実現する。上記のコンピュータ可読命令は、例えばコンピュータ可読記録媒体に読み込まれ、コンピュータ可読記録媒体によって上記のコンピューティング機器に搭載されて、運転する。
図13を参照し、図13は本出願が提供するコンピュータ機器の構造概略図である。図13に示すように、コンピュータ機器1000はプロセッサー1001、ネットワークインターフェース1004及びメモリ1005を含み、また、コンピュータ機器1000はユーザーインターフェース1003及び少なくとも1つの通信バス1002をさらに含む。通信バス1002はこれらのコンポーネントの間の接続通信を実現する。ユーザーインターフェース1003はディスプレイ(Display)、キーボード(Keyboard)を含んでもよく、好ましくは、ユーザーインターフェース1003は標準的な有線インターフェース、無線インターフェースをさらに含んでもよい。好ましくは、ネットワークインターフェース1004は準的な有線インターフェース、無線インターフェース(例えば、WI-FIインターフェース)を含んでもよい。メモリ1005は高速RAMメモリであってもよいし、不揮発性メモリ(non-volatile memory)、例えば少なくとも1つの磁気ディスクメモリであってもよい。好ましくは、メモリ1005は上記プロセッサー1001から離れた少なくとも1つの記憶装置であってもよい。図13に示すように、コンピュータ記憶媒体としてのメモリ1005にはオペレーティングシステム、ネットワーク通信モジュール、ユーザーインターフェースモジュール及びコンピュータ可読命令が含まれてもよく、当該コンピュータ可読命令を実行することで、本出願の実施例が提供する画像処理ネットワークの訓練方法及び画像処理方法のうちの少なくとも1つを実現できる。
図13のコンピュータ機器1000において、ネットワークインターフェース1004はネットワーク通信機能を提供し、ユーザーインターフェース1003は主にユーザーに入力を提供するインターフェースであり、プロセッサー1001はメモリ1005に記憶されるコンピュータ可読命令を呼び出すことによって、本出願の実施例が提供する画像処理ネットワークの訓練方法を実現する。
プロセッサー1001はさらに、メモリ1005に記憶されるコンピュータ可読命令を呼び出すことによって本出願の実施例が提供する画像処理方法を実現するために用いられる。
ここで、本出願の実施例に記載のコンピュータ機器1000は以上の図3に対応する実施例における、上記の画像処理ネットワークの訓練方法の記載を実行してもよいし、以上の図7に対応する実施例における、上記の画像処理方法の記載を実行してもよく、ここで、贅言していない。また、同一方法による有益な効果の記載についても、贅言していない。
また、ここで、本出願はコンピュータ可読記憶媒体をさらに提供し、コンピュータ可読記憶媒体には、以上に言及された画像処理ネットワークの訓練装置1及び画像処理装置2が実行するコンピュータ可読命令が記憶され、プロセッサーはプログラム命令を実行すると、以上の図3に対応する実施例における、画像処理ネットワークの訓練方法の記載、及び以上の図7に対応する実施例における、画像処理方法の記載を実行するため、ここで、贅言していない。また、同一方法による有益な効果記載についても、贅言していない。本出願が係るコンピュータ記憶媒体の実施例の未開示の技術細部について、本出願の方法実施例の記載を参照すればよい。
例示として、上記のプログラム命令は1つのコンピュータ機器で実行され、又は1つの箇所に位置する複数のコンピュータ機器で実行され、或いは、複数の箇所に分布されて、通信ネットワークを介して互いに連結される複数のコンピュータ機器で実行されるように配置され、複数の箇所に分布されて、通信ネットワークを介して互いに連結される複数のコンピュータ機器はブロックチェーンネットワークを形成できる。
上記のコンピュータ可読記憶媒体は、上記の何れか1つの実施例が提供する画像処理ネットワークの訓練装置又は上記のコンピュータ機器の内部記憶ユニット、例えばコンピュータ機器のハードディスク又はメモリであってもよい。当該コンピュータ可読記憶媒体は当該コンピュータ機器の外部記憶機器、例えば当該コンピュータ機器に配置される接続型ハードディスク、スマートメディアカード(smart media card、SMC)、セキュアデジタル(secure digital、SD)カード、フラッシュメモリカード(flash card)などであってもよい。さらに、当該コンピュータ可読記憶媒体は、当該コンピュータ機器の内部記憶ユニットを含む上に、外部記憶機器も含んでもよい。当該コンピュータ可読記憶媒体は当該コンピュータ可読命令、当該コンピュータ機器の必要な他のプログラム及びデータを記憶する。当該コンピュータ可読記憶媒体はさらに、出力済みの又は出力対象となるデータを一時的に記憶してもよい。
本出願はコンピュータプログラム製品又はコンピュータプログラムを提供し、当該コンピュータプログラム製品又はコンピュータプログラムはコンピュータ可読命令を含み、当該コンピュータ可読命令はコンピュータ可読記憶媒体に記憶される。コンピュータ機器のプロセッサーはコンピュータ可読記憶媒体から当該コンピュータ可読命令を読み取って実行することで、当該コンピュータ機器に、以上の図3に対応する実施例における、上記の画像処理ネットワークの訓練方法の記載、及び以上の図7に対応する実施例における、画像処理方法の記載を実行させるため、ここで将贅言していない。また、同一方法による有益な効果記載についても、贅言していない。本出願が係るコンピュータ可読記憶媒体の実施例の未開示の技術細部について、本出願の方法実施例の記載を参照すればよい。
本出願の実施例の明細書、請求項及び図面における「第1」、「第2」などの用語は特定の順序を記載していなく、異なるオブジェクトを区別するためのものである。また、用語の「含む」及びその任意の変形は非排他的包含を含むように意図される。例えば、一連のステップ又はユニットを含む過程、方法、装置、製品又は機器は挙げられたステップまたはモジュールに限定されず、好ましくは、列挙されていないステップ又はモジュールを含み、或いは、更にこのような過程、方法、装置、製品又は機器の固有の他のステップ、ユニットを含む。
当業者であれば意識できるように、本明細書が開示した実施例を結合して記載される各例示的なユニット及びアルゴリズムステップは、電子ハードウェア、コンピュータソフトウェア又は両者の結合によって実現されてもよく、ハードウェアとソフトウェアとの互換性を明らかに説明するために、上記の説明において、機能に応じて各例示の構成及びステップを一般的に記載した。これらの機能はハードウェア形態で実行されるか、それともソフトウェア形態で実行されるかということは、技術案の特定の適用及び設計制約条件に依存する。当業者は各特定の適用に対して異なる方法を使用して、記載される機能を実現するが、このような実現は本出願の範囲を超えていない。
本出願の実施例が提供する方法及び関連装置は、本出願の実施例が提供する方法フローチャート及び/又は構造概略図を参照して記載され、具体的に、コンピュータ可読命令は方法フローチャート及び/又は構造概略図の各フロー及び/又はブロック、及びフローチャート及び/又はブロック図におけるフロー及び/又はブロックの結合を実現する。これらのコンピュータ可読命令は汎用コンピュータ、専用コンピュータ、埋込型プロセッサー又は他のプログラマブルデータ処理機器のプロセッサーに提供されて、1つのマシンを生成して、コンピュータ又は他のプログラマブルデータ処理機器のプロセッサーによって実行される命令は、フローチャートの1つのフロー又は複数のフロー、及び/又は構造概略図の1つのブロック又は複数のブロックが指定する機能を実現する装置を生成する。これらのコンピュータ可読命令はさらに、特定の方式で動作するようにコンピュータ又は他のプログラマブルデータ処理機器をガイドするコンピュータ可読メモリに記憶されて、当該コンピュータ可読メモリに記憶される命令は、命令装置を含む製品を生成し、当該命令装置はフローチャートの1つのフロー又は複数のフロー、及び/又は構造概略図の1つのブロック又は複数のブロックが指定する機能を実現する。これらのコンピュータ可読命令はさらに、コンピュータ又は他のプログラマブルデータ処理機器に読み込まれることで、コンピュータ又は他のプログラマブル機器で一連の操作ステップを実行してコンピュータが実現する処理を生成して、コンピュータ又は他のプログラマブル機器で実行する命令は、フローチャートの1つのフロー又は複数のフロー、及び/又は構造概略図の1つのブロック又は複数のブロックが指定する機能を実現するステップを提供する。
以上の開示は本出願の請求項の範囲を限定していなく、本出願の好適な実施例に過ぎないため、本出願請求項に基づいて完成した均等変更は依然的に本出願のカバー範囲に属する。
1 画像処理ネットワークの訓練装置
2 画像処理装置
11 サンプル取得モジュール
12 呼出モジュール
13 更新モジュール
21 超解像呼出モジュール
22 画質補強モジュール
23 顔補強モジュール
24 鮮鋭化モジュール
100a 端末機器
101a 端末機器
102a 端末機器
103a 端末機器
200 サーバー
1000 コンピュータ機器
1001 プロセッサー
1002 通信バス
1003 ユーザーインターフェース
1004 ネットワークインターフェース
1005 メモリ

Claims (20)

  1. コンピュータ機器が実行する画像処理ネットワークの訓練方法であって、
    サンプル画像ペアを取得するステップであって、前記サンプル画像ペアは低解像度画像データ及び高解像度画像データを含み、前記低解像度画像データと前記高解像度画像データとは同じ画像コンテンツを有するステップと、
    前記画像処理ネットワークを呼び出すことによって、前記低解像度画像データの解像度をターゲット解像度に調整して、サンプル超解像画像データを取得して、前記サンプル超解像画像データ及び前記高解像度画像データに基づいて超解像損失関数を生成するステップと、
    前記画像処理ネットワークを呼び出すことによって、前記サンプル超解像画像データに対して画質補強処理を行って、第1のサンプル補強画像データを取得して、前記第1のサンプル補強画像データ及び前記高解像度画像データに基づいて画質損失関数を生成するステップと、
    前記画像処理ネットワークを呼び出すことによって、前記第1のサンプル補強画像データにおける顔画像に対して顔補強処理を行って、サンプル顔補強画像を取得して、前記サンプル顔補強画像と前記第1のサンプル補強画像データとを融合させて、第2のサンプル補強画像データを取得し、前記サンプル顔補強画像及び前記高解像度画像データにおける顔画像に基づいて顔損失関数を生成するステップと、
    前記画像処理ネットワークを呼び出すことによって、前記第2のサンプル補強画像データに対して画像鮮鋭化処理を行って、サンプル鮮鋭化画像データを取得して、前記サンプル鮮鋭化画像データ及び前記高解像度画像データに基づいて鮮鋭化損失関数を生成するステップと、
    前記超解像損失関数、前記画質損失関数、前記顔損失関数及前記鮮鋭化損失関数に基づいて前記画像処理ネットワークのネットワークパラメータを更新して、訓練された画像処理ネットワークを取得するステップと、を含む方法。
  2. 前記画像処理ネットワークは超解像ネットワーク、画質補強ネットワーク、顔補強ネットワーク及び鮮鋭化ネットワークを含み、前記サンプル超解像画像データは前記超解像ネットワークに基づいて取得され、前記第1のサンプル補強画像データは前記画質補強ネットワークに基づいて取得され、前記第2のサンプル補強画像データは前記顔補強ネットワークに基づいて取得され、前記サンプル鮮鋭化画像データは前記鮮鋭化ネットワークに基づいて取得され、
    前記超解像損失関数、前記画質損失関数、前記顔損失関数及前記鮮鋭化損失関数に基づいて前記画像処理ネットワークのネットワークパラメータを更新して、訓練された画像処理ネットワークを取得するステップは、
    前記超解像損失関数、前記画質損失関数、前記顔損失関数及前記鮮鋭化損失関数に基づいて前記超解像ネットワークのネットワークパラメータを更新して、訓練された超解像ネットワークを取得するステップと、
    前記画質損失関数、前記顔損失関数及び前記鮮鋭化損失関数に基づいて前記画質補強ネットワークのネットワークパラメータを更新して、訓練された画質補強ネットワークを取得するステップと、
    前記顔損失関数及び前記鮮鋭化損失関数に基づいて前記顔補強ネットワークのネットワークパラメータを更新して、訓練された顔補強ネットワークを取得するステップと、
    前記鮮鋭化損失関数に基づいて前記鮮鋭化ネットワークのネットワークパラメータを更新して、訓練された鮮鋭化ネットワークを取得するステップと、
    訓練された超解像ネットワーク、訓練された画質補強ネットワーク、訓練された顔補強ネットワーク及び訓練された鮮鋭化ネットワークに基づいて、訓練された画像処理ネットワークを生成するステップと、を含むことを特徴とする請求項1に記載の方法。
  3. 前記サンプル超解像画像データ及び前記高解像度画像データに基づいて超解像損失関数を生成するステップは、
    前記サンプル超解像画像データに含まれる画素値要素、及び前記高解像度画像データに含まれる画素値要素に基づいて、第1の超解像損失関数を生成するステップと、
    前記サンプル超解像画像データの特徴マップに含まれる特徴値要素、及び前記高解像度画像データの特徴マップに含まれる特徴値要素に基づいて、第2の超解像損失関数を生成するステップと、
    前記第1の超解像損失関数及び前記第2の超解像損失関数に基づいて、前記超解像損失関数を生成するステップと、を含むことを特徴とする請求項1に記載の方法。
  4. 前記画像処理ネットワークは顔補強ネットワークを含み、前記第2のサンプル補強画像データは前記顔補強ネットワークに基づいて取得され、前記顔補強ネットワークは顔検出ネットワーク、色判別ネットワーク及びテクスチャ判別ネットワークを含み、前記第1のサンプル補強画像データにおける顔画像は、前記顔検出ネットワークによって生成された顔検出枠、及び実際の顔位置を指示する顔マーキング枠を備え、
    前記サンプル顔補強画像及び前記高解像度画像データにおける顔画像に基づいて、顔損失関数を生成するステップは、
    前記顔検出枠及び前記顔マーキング枠に基づいて検出損失関数を生成するステップと、
    前記高解像度画像データにおける顔画像を切り抜いて、高解像度顔画像を取得するステップと、
    前記高解像度顔画像、前記サンプル顔補強画像及び前記色判別ネットワークに基づいて、色損失関数を生成するステップと、
    前記高解像度顔画像、前記サンプル顔補強画像及び前記テクスチャ判別ネットワークに基づいて、テクスチャ損失関数を生成するステップと、
    前記サンプル顔補強画像の特徴マップに含まれる特徴値要素、及び前記高解像度顔画像の特徴マップに含まれる特徴値要素に基づいて、コンテンツ損失関数を生成するステップと、
    前記検出損失関数、前記色損失関数、前記テクスチャ損失関数及び前記コンテンツ損失関数に基づいて、前記顔損失関数を生成するするステップと、を含むことを特徴とする請求項1に記載の方法。
  5. 前記サンプル鮮鋭化画像データ及び前記高解像度画像データに基づいて、鮮鋭化損失関数を生成するステップは、
    前記サンプル鮮鋭化画像データと前記高解像度画像データとの間のピーク信号対雑音比に基づいて、品質損失関数を生成するステップと、
    前記サンプル鮮鋭化画像データと前記高解像度画像データとの間の感知類似度に基づいて、感知損失関数を生成するステップと、
    前記品質損失関数及び前記感知損失関数に基づいて、前記鮮鋭化損失関数を生成するステップと、を含むことを特徴とする請求項1に記載の方法。
  6. 前記サンプル画像ペアを取得するステップは、
    サンプルビデオデータを取得するステップと、
    前記サンプルビデオデータに対してフレーム分割を行って、前記サンプルビデオデータに含まれる複数のサンプル画像フレームを取得するステップと、
    ターゲットビットレートを採用して前記サンプルビデオデータに対して符号化・復号化処理を行って、前記サンプルビデオデータに対応する低画質ビデオデータを取得するステップであって、前記低画質ビデオデータの画像フレームの画質は前記サンプルビデオデータの画像フレームの画質より低く、前記低画質ビデオデータは、各サンプル画像フレームにそれぞれ対応する低画質画像フレームを含み、前記ターゲットビットレートはビットレート閾値より低いステップと、
    前記各サンプル画像フレーム及び対応する低画質画像フレームに基づいて、前記サンプル画像ペアを構築するステップと、を含むことを特徴とする請求項1に記載の方法。
  7. 前記サンプル画像ペアを取得するステップは、
    サンプルビデオデータを取得するステップと、
    前記サンプルビデオデータに対してフレーム分割を行って、前記サンプルビデオデータに含まれる複数のサンプル画像フレームを取得するステップと、
    前記複数のサンプル画像フレームから、ターゲット画像フレームを前記高解像度画像データとして選択するステップと、
    前記ターゲット画像フレーム及び前記複数のサンプル画像フレームにおける前記ターゲット画像フレームの隣接画像フレームに対して平均融合処理を行って、前記低解像度画像データを取得するステップと、を含むことを特徴とする請求項1に記載の方法。
  8. 前記サンプル画像ペアを取得するステップは、
    前記高解像度画像データを取得するステップと、
    前記高解像度画像データに対してガウスぼかし処理を行って、前記低解像度画像データを取得するステップと、を含むことを特徴とする請求項1に記載の方法。
  9. 前記サンプル画像ペアを取得するステップは、
    前記高解像度画像データを取得するステップと、
    前記高解像度画像データに対して歪みフォーマット変換を行って、前記低解像度画像データを取得するステップと、を含むことを特徴とする請求項1に記載の方法。
  10. 前記サンプル画像ペアを取得するステップは、
    前記高解像度画像データを取得するステップと、
    サンプル低解像度ビデオデータを取得して、前記サンプル低解像度ビデオデータをノイズ学習ネットワークに入力するステップであって、前記サンプル低解像度ビデオデータの精細度は精細度閾値より低いステップと、
    前記ノイズ学習ネットワークに基づいて、前記サンプル低解像度ビデオデータのノイズデータを学習するステップと、
    前記高解像度画像データに前記ノイズデータを融合させて、前記低解像度画像データを取得するステップと、を含むことを特徴とする請求項1に記載の方法。
  11. コンピュータ機器が実行する画像処理方法であって、
    訓練された画像処理ネットワークを呼び出すことによって、初期画像データに対応する超解像画像データを取得するステップであって、前記超解像画像データの解像度はターゲット解像度の以上であるステップと、
    訓練された画像処理ネットワークを呼び出すことによって、前記超解像画像データに対して画質補強処理を行って、第1の補強画像データを取得するステップと、
    訓練された画像処理ネットワークを呼び出すことによって、前記第1の補強画像データに対応する第2の補強画像データを取得するステップであって、前記第1の補強画像データに顔画像が含まれる場合、前記第2の補強画像データは前記第1の補強画像データにおける顔画像に対して顔補強を行った後に取得された画像データであるステップと、
    訓練された画像処理ネットワークを呼び出すことによって、前記第2の補強画像データに対して画像鮮鋭化処理を行って、鮮鋭化画像データを取得して、前記鮮鋭化画像データを出力するステップと、を含み、
    前記訓練された画像処理ネットワークは上記の請求項1~10の何れか1項に記載の方法を使用して訓練することで取得される方法。
  12. 訓練された画像処理ネットワークは超解像ネットワークを含み、訓練された画像処理ネットワークを呼び出すことによって、前記初期画像データに対応する超解像画像データを取得ステップは、
    前記初期画像データを取得するステップと、
    前記超解像ネットワークを呼び出すことによって、前記初期画像データの解像度を検出するステップと、
    前記初期画像データの解像度が前記ターゲット解像度の以上である場合、前記初期画像データを前記超解像画像データに決定するステップと、
    前記初期画像データの解像度が前記ターゲット解像度より小さい場合、前記超解像ネットワークを呼び出すことによって、前記初期画像データの解像度を前記ターゲット解像度に調整して、前記超解像画像データを取得するステップと、を含むことを特徴とする請求項11に記載の方法。
  13. 訓練された画像処理ネットワークは顔補強ネットワークを含み、前記訓練された画像処理ネットワークを呼び出すことによって、前記第1の補強画像データに対応する第2の補強画像データを取得するステップは、
    前記顔補強ネットワークを呼び出すことによって、前記第1の補強画像データに対して顔検出を行うステップと、
    前記第1の補強画像データに顔画像が含まれていない場合、前記第1の補強画像データを前記第2の補強画像データに決定するステップと、
    前記第1の補強画像データに顔画像が含まれる場合、前記顔補強ネットワークを呼び出すことによって、前記第1の補強画像データにおける顔画像に対して顔補強処理を行って、前記第2の補強画像データを取得するステップと、を含むことを特徴とする請求項11に記載の方法。
  14. 前記顔補強ネットワークは顔検出ネットワーク、顔補強サブネットワーク及び顔融合ネットワークを含み、
    前記顔補強ネットワークを呼び出すことによって、前記第1の補強画像データにおける顔画像に対して顔補強処理を行って、前記第2の補強画像データを取得するステップは、
    前記顔検出ネットワークを呼び出すことによって、前記第1の補強画像データにおける顔画像を切り抜いて、顔切り抜き画像を取得するステップと、
    前記顔補強サブネットワークを呼び出すことによって、前記顔切り抜き画像に対して顔補強処理を行って、顔補強画像を取得するステップと、
    前記顔融合ネットワークを呼び出すことによって、顔融合マスクを生成するステップと、
    前記顔融合マスクに基づいて前記第1の補強画像データと前記顔補強画像に対して画像融合処理を行って、前記第2の補強画像データを取得するステップと、を含むことを特徴とする請求項13に記載の方法。
  15. 訓練された画像処理ネットワークは鮮鋭化ネットワークを含み、前記訓練された画像処理ネットワークを呼び出すことによって、前記第2の補強画像データに対して画像鮮鋭化処理を行って、鮮鋭化画像データを取得するステップは、
    前記鮮鋭化ネットワークを呼び出すことによって、前記第2の補強画像データにおける高周波画像情報を抽出するステップと、
    前記鮮鋭化ネットワークに基づいて、前記第2の補強画像データに対する鮮鋭化マスクを生成して、前記鮮鋭化マスクに基づいて前記第2の補強画像データにおける鮮鋭化画像情報を抽出するステップと、
    前記鮮鋭化ネットワークに基づいて、前記高周波画像情報に対する第1の加重重み、前記鮮鋭化画像情報に対する第2の加重重み及び前記第2の補強画像データに対する第3の加重重みを予測するステップと、
    前記第1の加重重み、前記第2の加重重み及び前記第3の加重重みに基づいて、対応するように、前記高周波画像情報、前記鮮鋭化画像情報及び前記第2の補強画像データに対して加重合計を行って、前記鮮鋭化画像データを取得するステップと、を含むことを特徴とする請求項11に記載の方法。
  16. 前記初期画像データはビデオデータに対してフレーム分割を行って取得された複数の画像フレームのうちの何れか1つの画像フレームであり、前記方法は、
    前記複数の画像フレームのうちの各画像フレームにそれぞれ対応する前記鮮鋭化画像データに基づいて、前記ビデオデータの最適化ビデオデータを生成するステップと、
    前記最適化ビデオデータをアプリケーションクライアントにプッシュすることで、前記アプリケーションクライアントが前記最適化ビデオデータを出力するステップと、を含むことを特徴とする請求項11に記載の方法。
  17. 画像処理ネットワークの訓練装置であって、
    サンプル画像ペアを取得する取得モジュールであって、前記サンプル画像ペアは低解像度画像データ及び高解像度画像データを含み、前記低解像度画像データと前記高解像度画像データとは同じ画像コンテンツを有するモジュールと、
    前記画像処理ネットワークを呼び出すことによって、前記低解像度画像データの解像度をターゲット解像度に調整して、サンプル超解像画像データを取得して、前記サンプル超解像画像データ及び前記高解像度画像データに基づいて超解像損失関数を生成するモジュールと、
    前記画像処理ネットワークを呼び出すことによって、前記サンプル超解像画像データに対して画質補強処理を行って、第1のサンプル補強画像データを取得して、前記第1のサンプル補強画像データ及び前記高解像度画像データに基づいて画質損失関数を生成するモジュールと、
    前記画像処理ネットワークを呼び出すことによって、前記第1のサンプル補強画像データにおける顔画像に対して顔補強処理を行って、サンプル顔補強画像を取得して、前記サンプル顔補強画像と前記第1のサンプル補強画像データとを融合させて、第2のサンプル補強画像データを取得し、前記サンプル顔補強画像及び前記高解像度画像データにおける顔画像に基づいて顔損失関数を生成するモジュールと、
    前記画像処理ネットワークを呼び出すことによって、前記第2のサンプル補強画像データに対して画像鮮鋭化処理を行って、サンプル鮮鋭化画像データを取得して、前記サンプル鮮鋭化画像データ及び前記高解像度画像データに基づいて鮮鋭化損失関数を生成するモジュールと、
    前記超解像損失関数、前記画質損失関数、前記顔損失関数及前記鮮鋭化損失関数に基づいて前記画像処理ネットワークのネットワークパラメータを更新して、訓練された画像処理ネットワークを取得するモジュールと、を含む装置。
  18. コンピュータプログラム製品であって、コンピュータプログラムを含み、当該コンピュータプログラムはプロセッサーによって実行されると、請求項1~16の何れか1項に記載の方法のステップを実現するコンピュータプログラム製品。
  19. コンピュータ機器であって、メモリ及びプロセッサーを含み、前記メモリにはコンピュータ可読命令が記憶され、前記コンピュータ可読命令は前記プロセッサーによって実行されると、前記プロセッサーに請求項1~16の何れか1項に記載の方法のステップを実行させるコンピュータ機器。
  20. 不揮発性コンピュータ可読記憶媒体であって、前記コンピュータ可読記憶媒体にはコンピュータ可読命令が記憶され、前記コンピュータ可読命令はプロセッサーによって読み込まれて、請求項1~16の何れか1項に記載の方法を実行することを特徴とする不揮発性コンピュータ可読記憶媒体。
JP2023570432A 2021-10-12 2022-09-08 画像処理ネットワークの訓練方法、装置、コンピュータ機器及びコンピュータプログラム Pending JP2024517359A (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
CN202111188444.9A CN113628116B (zh) 2021-10-12 2021-10-12 图像处理网络的训练方法、装置、计算机设备和存储介质
CN202111188444.9 2021-10-12
PCT/CN2022/117789 WO2023061116A1 (zh) 2021-10-12 2022-09-08 图像处理网络的训练方法、装置、计算机设备和存储介质

Publications (1)

Publication Number Publication Date
JP2024517359A true JP2024517359A (ja) 2024-04-19

Family

ID=78391165

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2023570432A Pending JP2024517359A (ja) 2021-10-12 2022-09-08 画像処理ネットワークの訓練方法、装置、コンピュータ機器及びコンピュータプログラム

Country Status (5)

Country Link
US (1) US20230334833A1 (ja)
EP (1) EP4300411A4 (ja)
JP (1) JP2024517359A (ja)
CN (1) CN113628116B (ja)
WO (1) WO2023061116A1 (ja)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113628116B (zh) * 2021-10-12 2022-02-11 腾讯科技(深圳)有限公司 图像处理网络的训练方法、装置、计算机设备和存储介质
CN115147280B (zh) * 2022-07-15 2023-06-02 北京百度网讯科技有限公司 深度学习模型的训练方法、图像处理方法、装置和设备

Family Cites Families (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107481188A (zh) * 2017-06-23 2017-12-15 珠海经济特区远宏科技有限公司 一种图像超分辨率重构方法
CN108320267A (zh) * 2018-02-05 2018-07-24 电子科技大学 用于人脸图像的超分辨率处理方法
CN109615582B (zh) * 2018-11-30 2023-09-01 北京工业大学 一种基于属性描述生成对抗网络的人脸图像超分辨率重建方法
US11263726B2 (en) * 2019-05-16 2022-03-01 Here Global B.V. Method, apparatus, and system for task driven approaches to super resolution
CN113034358B (zh) * 2019-12-09 2024-06-28 华为技术有限公司 一种超分辨率图像处理方法以及相关装置
CN111179177B (zh) * 2019-12-31 2024-03-26 深圳市联合视觉创新科技有限公司 图像重建模型训练方法、图像重建方法、设备及介质
CN111242846B (zh) * 2020-01-07 2022-03-22 福州大学 基于非局部增强网络的细粒度尺度图像超分辨率方法
CN111462010A (zh) * 2020-03-31 2020-07-28 腾讯科技(深圳)有限公司 图像处理模型的训练方法、图像处理方法、装置及设备
CN111598182B (zh) * 2020-05-22 2023-12-01 北京市商汤科技开发有限公司 训练神经网络及图像识别的方法、装置、设备及介质
CN112085681B (zh) * 2020-09-09 2023-04-07 苏州科达科技股份有限公司 基于深度学习的图像增强方法、系统、设备及存储介质
CN112508782B (zh) * 2020-09-10 2024-04-26 浙江大华技术股份有限公司 网络模型的训练方法、人脸图像超分辨率重建方法及设备
CN114511449A (zh) * 2020-11-16 2022-05-17 株式会社理光 图像增强方法、装置及计算机可读存储介质
CN112598587B (zh) * 2020-12-16 2022-09-13 南京邮电大学 一种联合人脸去口罩和超分辨率的图像处理系统和方法
CN112927172B (zh) * 2021-05-10 2021-08-24 北京市商汤科技开发有限公司 图像处理网络的训练方法和装置、电子设备和存储介质
CN113628116B (zh) * 2021-10-12 2022-02-11 腾讯科技(深圳)有限公司 图像处理网络的训练方法、装置、计算机设备和存储介质

Also Published As

Publication number Publication date
EP4300411A4 (en) 2024-09-25
EP4300411A1 (en) 2024-01-03
CN113628116A (zh) 2021-11-09
US20230334833A1 (en) 2023-10-19
WO2023061116A1 (zh) 2023-04-20
CN113628116B (zh) 2022-02-11

Similar Documents

Publication Publication Date Title
CN108022212B (zh) 高分辨率图片生成方法、生成装置及存储介质
JP2024517359A (ja) 画像処理ネットワークの訓練方法、装置、コンピュータ機器及びコンピュータプログラム
WO2020098422A1 (zh) 编码图案的处理方法和装置、存储介质、电子装置
CN114511041B (zh) 模型训练方法、图像处理方法、装置、设备和存储介质
US11887277B2 (en) Removing compression artifacts from digital images and videos utilizing generative machine-learning models
CN110852980A (zh) 交互式图像填充方法及系统、服务器、设备及介质
CN113724136B (zh) 一种视频修复方法、设备及介质
KR20210116922A (ko) 초해상도 모델의 메타 러닝을 통한 빠른 적응 방법 및 장치
US20220366539A1 (en) Image processing method and apparatus based on machine learning
CN112188236A (zh) 视频插帧模型训练、视频插帧生成方法及相关装置
Wang et al. Raw image reconstruction with learned compact metadata
US12051225B2 (en) Generating alpha mattes for digital images utilizing a transformer-based encoder-decoder
US10049425B2 (en) Merging filters for a graphic processing unit
CN111145202A (zh) 模型生成方法、图像处理方法、装置、设备及存储介质
US20230298148A1 (en) Harmonizing composite images utilizing a transformer neural network
CN115375909A (zh) 一种图像处理方法及装置
CN111553961B (zh) 线稿对应色图的获取方法和装置、存储介质和电子装置
CN114299105A (zh) 图像处理方法、装置、计算机设备及存储介质
CN115115560A (zh) 图像处理方法、装置、设备和介质
CN116051662B (zh) 图像处理方法、装置、设备和介质
CN115937338B (zh) 图像处理方法、装置、设备及介质
CN112365553A (zh) 人体图像生成模型训练、人体图像生成方法及相关装置
CN116580269B (zh) 训练模型的方法、处理图像的方法、电子设备及存储介质
CN117896546B (zh) 一种数据传输方法、系统、电子设备及存储介质
CN116309151B (zh) 图片去压缩失真网络的参数生成方法、装置和存储介质

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20231114

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20231114

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20240823

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20240902