JP7093886B2 - 画像処理方法及び装置、電子機器並びに記憶媒体 - Google Patents

画像処理方法及び装置、電子機器並びに記憶媒体 Download PDF

Info

Publication number
JP7093886B2
JP7093886B2 JP2021503598A JP2021503598A JP7093886B2 JP 7093886 B2 JP7093886 B2 JP 7093886B2 JP 2021503598 A JP2021503598 A JP 2021503598A JP 2021503598 A JP2021503598 A JP 2021503598A JP 7093886 B2 JP7093886 B2 JP 7093886B2
Authority
JP
Japan
Prior art keywords
feature data
image frame
image
alignment
alignment feature
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2021503598A
Other languages
English (en)
Other versions
JP2021531588A (ja
Inventor
シャオオウ タン
シンタオ ワン
ジュオジエ チェン
コー ユー
チャオ ドン
チェンチャン ロイ
Original Assignee
ベイジン・センスタイム・テクノロジー・デベロップメント・カンパニー・リミテッド
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by ベイジン・センスタイム・テクノロジー・デベロップメント・カンパニー・リミテッド filed Critical ベイジン・センスタイム・テクノロジー・デベロップメント・カンパニー・リミテッド
Publication of JP2021531588A publication Critical patent/JP2021531588A/ja
Application granted granted Critical
Publication of JP7093886B2 publication Critical patent/JP7093886B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/22Matching criteria, e.g. proximity measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T5/00Image enhancement or restoration
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • G06F18/251Fusion techniques of input or preprocessed data
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • G06F18/253Fusion techniques of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T5/00Image enhancement or restoration
    • G06T5/50Image enhancement or restoration using two or more images, e.g. averaging or subtraction
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T5/00Image enhancement or restoration
    • G06T5/60Image enhancement or restoration using machine learning, e.g. neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T5/00Image enhancement or restoration
    • G06T5/73Deblurring; Sharpening
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/30Determination of transform parameters for the alignment of images, i.e. image registration
    • G06T7/33Determination of transform parameters for the alignment of images, i.e. image registration using feature-based methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/44Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
    • G06V10/443Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components by matching or filtering
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/764Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/80Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
    • G06V10/806Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/46Extracting features or characteristics from the video content, e.g. video fingerprints, representative shots or key frames
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/48Matching video sequences
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/048Activation functions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10016Video; Image sequence
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20081Training; Learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20084Artificial neural networks [ANN]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20212Image combination
    • G06T2207/20221Image fusion; Image merging

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Multimedia (AREA)
  • Data Mining & Analysis (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Computing Systems (AREA)
  • Software Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Medical Informatics (AREA)
  • Databases & Information Systems (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Molecular Biology (AREA)
  • Mathematical Physics (AREA)
  • Image Processing (AREA)
  • Image Analysis (AREA)

Description

(関連出願の相互参照)
本出願は、2019年4月30日に提出された、出願番号が201910361208.9である中国特許出願に基づいて提出され、当該中国特許出願の優先権を主張するものであり、該中国特許出願の全内容を参照として本出願に援用する。
本出願は、コンピュータビジョン技術分野に関し、具体的には画像処理方法及び装置、電子機器並びに記憶媒体に関する。
ビデオ修復は、一連の低品質の入力フームを復元して高品質の出力フレームを得るプロセスである。しかしながら、低品質のフレームシーケンスでは、高品質のフレームへの復元に必要な情報が失われている。ビデオ修復の主なタスクは、ビデオの超高解像、ビデオのボケ除去、ビデオノイズ除去等を含む。
通常、ビデオ修復のプロセスは、特徴抽出、マルチフレームアライメント、マルチフレームフュージョン及び再構築という4つのステップを含む。ここで、マルチフレームアライメント及びマルチフレームフュージョンは、ビデオ修復技術のキーポイントである。マルチフレームアライメントは、現在、オプティカルフローに基づいたアルゴリズムを用いることが多い。それはかかる時間が長く、且つ効果が低い。従って、上記アライメントを行ったマルチフレームフュージョン品質も低く、修復の誤差が発生することがある。
本出願の実施例は、画像処理方法及び装置、電子機器並びに記憶媒体を提供する。
本出願の実施例の第1態様において、画像処理方法を提供する。該方法は、
処理対象画像フレームと前記処理対象画像フレームに隣接する1つ又は複数の画像フレームとを含む画像フレームシーケンスを取得し、前記処理対象画像フレームと前記画像フレームシーケンスにおける画像フレームに対して画像アライメントを行い、複数のアライメント特徴データを得ることと、
前記複数のアライメント特徴データに基づいて、前記複数のアライメント特徴データと前記処理対象画像フレームに対応するアライメント特徴データとの複数の類似度特徴を決定し、前記複数の類似度特徴に基づいて、前記複数のアライメント特徴データのうちの各アライメント特徴データの重み情報を決定することと、
前記各アライメント特徴データの重み情報に基づいて、前記複数のアライメント特徴データに対してフュージョンを行い、前記画像フレームシーケンスのフュージョン情報を得て、前記フュージョン情報が、前記処理対象画像フレームに対応する処理後の画像フレームを取得するためのものであることと、を含む。
任意選択的な実施形態において、前記処理対象画像フレームと前記画像フレームシーケンスにおける画像フレームに対して画像アライメントを行い、複数のアライメント特徴データを得ることは、
第1画像特徴セット及び1つ又は複数の第2画像特徴セットに基づいて、前記処理対象画像フレームと前記画像フレームシーケンスにおける画像フレームに対して画像アライメントを行い、複数のアライメント特徴データを得て、ここで、前記第1画像特徴セットが、前記処理対象画像フレームの少なくとも1つの異なるスケールの特徴データを含み、前記第2画像特徴セットが、前記画像フレームシーケンスにおける1つの画像フレームの少なくとも1つの異なるスケールの特徴データを含むことを含む。
異なるスケールの画像特徴により画像アライメントを行うことで、アライメント特徴データを得ることにより、ビデオ修復におけるアライメントの課題を解決し、マルチフレームアライメントの精度を向上させることができる。特に、入力画像フレームに複雑かつ大きな動き、遮蔽及び/又はボケが存在するという課題を解決することができる。
任意選択的な実施形態において、第1画像特徴セット及び1つ又は複数の第2画像特徴セットに基づいて、前記処理対象画像フレームと前記画像フレームシーケンスにおける画像フレームに対して画像アライメントを行い、複数のアライメント特徴データを得ることは、
前記第1画像特徴セット内のスケールが最も小さい第1特徴データ、及び前記第2画像特徴セット内のスケールが前記第1特徴データのスケールと同じである第2特徴データを取得し、前記第1特徴データと前記第2特徴データに対して画像アライメントを行い、第1アライメント特徴データを得ることと、
前記第1画像特徴セット内のスケールが二番目に小さい第3特徴データ、及び前記第2画像特徴セット内のスケールが前記第3特徴データのスケールと同じである第4特徴データを取得し、前記第1アライメント特徴データに対してアップサンプリング畳み込みを行い、スケールが前記第3特徴データのスケールと同じである第1アライメント特徴データを得ることと、
前記アップサンプリング畳み込み後の第1アライメント特徴データに基づいて、前記第3特徴データと前記第4特徴データに対して画像アライメントを行い、第2アライメント特徴データを得ることと、
スケールが前記処理対象画像フレームのスケールと同じであるアライメント特徴データを得るまで、前記スケールの昇順で上記のステップを繰り返して実行することと、
全ての前記第2画像特徴セットに基づいて上記のステップを実行して、前記複数のアライメント特徴データを得ることとを含む。
任意選択的な実施形態において、複数のアライメント特徴データを得る前に、前記方法は、
変形可能な畳み込みネットワークによって、各前記アライメント特徴データを調整し、調整後の前記複数のアライメント特徴データを得ることを更に含む。
任意選択的な実施形態において、前記複数のアライメント特徴データに基づいて、前記複数のアライメント特徴データと前記処理対象画像フレームに対応するアライメント特徴データとの複数の類似度特徴を決定することは、
各前記アライメント特徴データと前記処理対象画像フレームに対応するアライメント特徴データとのドット積を計算するによって、前記複数のアライメント特徴データと前記処理対象画像フレームに対応するアライメント特徴データとの複数の類似度特徴を決定することを含む。
任意選択的な実施形態において、前記複数の類似度特徴に基づいて、前記複数のアライメント特徴データのうちの各アライメント特徴データの重み情報を決定することは、
所定の活性化関数、及び前記複数のアライメント特徴データと前記処理対象画像フレームに対応するアライメント特徴データとの複数の類似度特徴に基づいて、前記各アライメント特徴データの重み情報を決定することを含む。
任意選択的な実施形態において、前記各アライメント特徴データの重み情報に基づいて、前記複数のアライメント特徴データに対してフュージョンを行い、前記画像フレームシーケンスのフュージョン情報を得ることは、
フュージョン畳み込みネットワークを利用して、前記各アライメント特徴データの重み情報に基づいて、前記複数のアライメント特徴データに対してフュージョンを行い、前記画像フレームシーケンスのフュージョン情報を得ることを含む。
任意選択的な実施形態において、フュージョン畳み込みネットワークを利用して、前記各アライメント特徴データの重み情報に基づいて、前記複数のアライメント特徴データに対してフュージョンを行い、前記画像フレームシーケンスのフュージョン情報を得ることは、
要素レベル乗算によって、前記各アライメント特徴データと前記各アライメント特徴データの重み情報を乗算し、前記複数のアライメント特徴データの複数の変調特徴データを得ることと、
前記フュージョン畳み込みネットワークを利用して、前記複数の変調特徴データをフュージョンし、前記画像フレームシーケンスのフュージョン情報を得ることとを含む。
任意選択的な実施形態において、フュージョン畳み込みネットワークを利用して、前記各アライメント特徴データの重み情報に基づいて、前記複数のアライメント特徴データに対してフュージョンを行い、前記画像フレームシーケンスのフュージョン情報を得た後に、前記方法は、
前記画像フレームシーケンスのフュージョン情報に基づいて、空間的特徴データを生成することと、
前記空間的特徴データにおける各要素点の空間的アテンション情報に基づいて、前記空間的特徴データを変調し、変調後のフュージョン情報を得、前記変調後のフュージョン情報が、前記処理対象画像フレームに対応する処理後の画像フレームを取得するためのものであることとを更に含む。
任意選択的な実施形態において、前記空間的特徴データにおける各要素点の空間的アテンション情報に基づいて、前記空間的特徴データを変調し、変調後のフュージョン情報を得ることは、
前記空間的特徴データにおける各要素点の空間的アテンション情報に基づいて、要素レベル乗算と加算によって、前記空間的特徴データにおける前記各要素点を対応的に変調し、前記変調後のフュージョン情報を得ることを含む。
任意選択的な実施形態において、前記画像処理方法は、ニューラルネットワークに基づいて実現され、
前記ニューラルネットワークは、複数のサンプル画像フレームペアを含むデータセットを利用して訓練されたものであり、前記サンプル画像フレームペアに、複数の第1サンプル画像フレーム及び前記複数の第1サンプル画像フレームにそれぞれ対応する第2サンプル画像フレームが含まれ、前記第1サンプル画像フレームの解像度は、前記第2サンプル画像フレームの解像度より低い。
任意選択的な実施形態において、画像フレームシーケンスを取得する前に、前記方法は、取得されたビデオシーケンスにおける各ビデオフレームに対してサブサンプリングを行い、前記画像フレームシーケンスを得ることを更に含む。
任意選択的な実施形態において、前記処理対象画像フレームと前記画像フレームシーケンスにおける画像フレームに対して画像アライメントを行う前に、前記方法は、
前記画像フレームシーケンスにおける画像フレームに対してボケ除去処理を行うことを更に含む。
任意選択的な実施形態において、前記方法は、前記画像フレームシーケンスのフュージョン情報に基づいて、前記処理対象画像フレームに対応する処理後の画像フレームを取得することを更に含む。
本出願の実施例の第2態様は、画像処理方法を提供する。前記方法は、
ビデオ収集装置により収集された第1ビデオストリームにおける画像フレームシーケンスの解像度が所定の閾値以下である場合、上記第1態様に記載の方法のステップにより、前記画像フレームシーケンスにおける各画像フレームを順に処理し、処理後の画像フレームシーケンスを得ることと、前記処理後の画像フレームシーケンスからなる第2ビデオストリームを出力及び/又は表示することとを含む。
本出願の実施例の第3態様は、画像処理装置を提供する。前記装置は、アライメントモジュールとフュージョンモジュールとを備え、
前記アライメントモジュールは、処理対象画像フレームと前記処理対象画像フレームに隣接する1つ又は複数の画像フレームとを含む画像フレームシーケンスを取得し、前記処理対象画像フレームと前記画像フレームシーケンスにおける画像フレームに対して画像アライメントを行い、複数のアライメント特徴データを得るように構成され、
前記フュージョンモジュールは、前記複数のアライメント特徴データに基づいて、前記複数のアライメント特徴データと前記処理対象画像フレームに対応するアライメント特徴データとの複数の類似度特徴を決定し、前記複数の類似度特徴に基づいて、前記複数のアライメント特徴データのうちの各アライメント特徴データの重み情報を決定するように構成され、
前記フュージョンモジュールは更に、前記各アライメント特徴データの重み情報に基づいて、前記複数のアライメント特徴データに対してフュージョンを行い、前記画像フレームシーケンスのフュージョン情報を得て、前記フュージョン情報が、前記処理対象画像フレームに対応する処理後の画像フレームを取得するためのものであるように構成される。
任意選択的な実施形態において、前記アライメントモジュールは、第1画像特徴セット及び1つ又は複数の第2画像特徴セットに基づいて、前記処理対象画像フレームと前記画像フレームシーケンスにおける画像フレームに対して画像アライメントを行い、複数のアライメント特徴データを得るように構成され、ここで、前記第1画像特徴セットが、前記処理対象画像フレームの少なくとも1つの異なるスケールの特徴データを含み、前記第2画像特徴セットが、前記画像フレームシーケンスにおける1つの画像フレームの少なくとも1つの異なるスケールの特徴データを含む。
任意選択的な実施形態において、前記アライメントモジュールは、前記第1画像特徴セット内のスケールが最も小さい第1特徴データ、及び前記第2画像特徴セット内のスケールが前記第1特徴データのスケールと同じである第2特徴データを取得し、前記第1特徴データと前記第2特徴データに対して画像アライメントを行い、第1アライメント特徴データを得て、前記第1画像特徴セット内のスケールが二番目に小さい第3特徴データ、及び前記第2画像特徴セット内のスケールが前記第3特徴データのスケールと同じである第4特徴データを取得し、前記第1アライメント特徴データに対してアップサンプリング畳み込みを行い、スケールが前記第3特徴データのスケールと同じである第1アライメント特徴データを得て、前記アップサンプリング畳み込み後の第1アライメント特徴データに基づいて、前記第3特徴データと前記第4特徴データに対して画像アライメントを行い、第2アライメント特徴データを得て、スケールが前記処理対象画像フレームのスケールと同じであるアライメント特徴データを得るまで、前記スケールの昇順で上記のステップを繰り返して実行し、全ての前記第2画像特徴セットに基づいて上記のステップを実行して、前記複数のアライメント特徴データを得るように構成される。
任意選択的な実施形態において、前記アライメントモジュールは更に、複数のアライメント特徴データを得る前に、変形可能な畳み込みネットワークによって、各前記アライメント特徴データを調整し、調整後の前記複数のアライメント特徴データを得るように構成される。
任意選択的な実施形態において、前記フュージョンモジュールは、各前記アライメント特徴データと前記処理対象画像フレームに対応するアライメント特徴データとのドット積を計算するによって、前記複数のアライメント特徴データと前記処理対象画像フレームに対応するアライメント特徴データとの複数の類似度特徴を決定するように構成される。
任意選択的な実施形態において、前記フュージョンモジュールは更に、所定の活性化関数、及び前記複数のアライメント特徴データと前記処理対象画像フレームに対応するアライメント特徴データとの複数の類似度特徴に基づいて、前記各アライメント特徴データの重み情報を決定するように構成される。
任意選択的な実施形態において、前記フュージョンモジュールは、フュージョン畳み込みネットワークを利用して、前記各アライメント特徴データの重み情報に基づいて、前記複数のアライメント特徴データに対してフュージョンを行い、前記画像フレームシーケンスのフュージョン情報を得るように構成される。
任意選択的な実施形態において、前記フュージョンモジュールは、要素レベル乗算によって、前記各アライメント特徴データと前記各アライメント特徴データの重み情報を乗算し、前記複数のアライメント特徴データの複数の変調特徴データを得て、前記フュージョン畳み込みネットワークを利用して、前記複数の変調特徴データをフュージョンし、前記画像フレームシーケンスのフュージョン情報を得るように構成される。
任意選択的な実施形態において、前記フュージョンモジュールは、空間的ユニットを備え、前記空間的ユニットは、前記フュージョンモジュールがフュージョン畳み込みネットワークを利用して、前記各アライメント特徴データの重み情報に基づいて、前記複数のアライメント特徴データに対してフュージョンを行い、前記画像フレームシーケンスのフュージョン情報を得た後に、前記画像フレームシーケンスのフュージョン情報に基づいて、空間的特徴データを生成し、前記空間的特徴データにおける各要素点の空間的アテンション情報に基づいて、前記空間的特徴データを変調し、変調後のフュージョン情報を得るように構成され、前記変調後のフュージョン情報が、前記処理対象画像フレームに対応する処理後の画像フレームを取得するためのものである。
任意選択的な実施形態において、前記空間的ユニットは、前記空間的特徴データにおける各要素点の空間的アテンション情報に基づいて、要素レベル乗算と加算によって、前記空間的特徴データにおける前記各要素点を対応的に変調し、前記変調後のフュージョン情報を得るように構成される。
任意選択的な実施形態において、前記画像処理装置にニューラルネットワークが配置されており、前記ニューラルネットワークは、複数のサンプル画像フレームペアを含むデータセットを利用して訓練されたものであり、前記サンプル画像フレームペアに、複数の第1サンプル画像フレーム及び前記複数の第1サンプル画像フレームにそれぞれ対応する第2サンプル画像フレームが含まれ、前記第1サンプル画像フレームの解像度は、前記第2サンプル画像フレームの解像度より低い。
任意選択的な実施形態において、サンプリングモジュールを更に備え、前記サンプリングモジュールは、画像フレームシーケンスを取得する前に、取得されたビデオシーケンスにおける各ビデオフレームに対してサブサンプリングを行い、前記画像フレームシーケンスを得るように構成される。
任意選択的な実施形態において、前処理モジュールを更に備え、前記前処理モジュールは、前記処理対象画像フレームと前記画像フレームシーケンスにおける画像フレームに対して画像アライメントを行う前に、前記画像フレームシーケンスにおける画像フレームに対してボケ除去処理を行うように構成される。
任意選択的な実施形態において、再構築モジュールを更に備え、前記再構築モジュールは、前記画像フレームシーケンスのフュージョン情報に基づいて、前記処理対象画像フレームに対応する処理後の画像フレームを取得するように構成される。
本出願の実施例の第4態様は、もう1つの画像処理装置を提供する。前記画像処理装置は、処理モジュールと、出力モジュールとを備え、
前記処理モジュールは、ビデオ収集装置により収集された第1ビデオストリームにおける画像フレームシーケンスの解像度が所定の閾値以下である場合、請求項1-14のうちいずれか一項に記載の方法により、前記画像フレームシーケンスにおける各画像フレームを順に処理し、処理後の画像フレームシーケンスを得るように構成され、
前記出力モジュールは、前記処理後の画像フレームシーケンスからなる第2ビデオストリームを出力及び/又は表示するように構成される。
本出願の実施例の第5態様は、電子機器を提供する。前記電子機器は、プロセッサと、メモリとを備え、前記メモリは、コンピュータプログラムを記憶するためのものであり、前記コンピュータプログラムは、前記プロセッサにより実行されるように構成され、前記プロセッサは、本出願の実施例の第1態様又は第2態様のいずれか1つの方法に記載の一部又は全てのステップを実行するためのものである。
本出願の第6態様は、コンピュータ可読記憶媒体を提供する。前記コンピュータ可読記憶媒体は、コンピュータプログラムを記憶するためのものであり、前記コンピュータプログラムは、コンピュータに本出願の実施例の第1態様又は第2態様のいずれか1つの方法に記載の一部又は全てのステップを実行させる。
本出願の実施例は、処理対象画像フレーム及び上記処理対象画像フレームに隣接する1つ又は複数の画像フレームを含む画像フレームシーケンスを取得し、上記処理対象画像フレームと上記画像フレームシーケンスにおける画像フレームに対して画像アライメントを行い、複数のアライメント特徴データを得る。更に、上記複数のアライメント特徴データに基づいて、上記複数のアライメント特徴データと上記処理対象画像フレームに対応するアライメント特徴データとの複数の類似度特徴を決定し、上記複数の類似度特徴に基づいて、上記複数のアライメント特徴データのうちの各アライメント特徴データの重み情報を決定し、上記各アライメント特徴データの重み情報に基づいて、上記複数のアライメント特徴データに対してフュージョンを行い、上記画像フレームシーケンスのフュージョン情報を得て、上記フュージョン情報が、上記処理対象画像フレームに対応する処理後の画像フレームを取得するためのものである。画像処理におけるマルチフレームアライメント及びフュージョンの品質を大幅に向上させ、画像処理による表示効果を向上させると共に、画像修復及びビデオ修復を実現させ、修復の正確度及び修復効果を向上させることができる。
本出願の実施例による画像処理方法を示すフローチャートである。 本出願の実施例によるもう1つの画像処理方法を示すフローチャートである。 本出願の実施例によるアライメントモジュールの構造を示す概略図である。 本出願の実施例によるフュージョンモジュールの構造を示す概略図である。 本出願の実施例によるビデオ修復フレームワークを示す概略図である。 本出願の実施例による画像処理装置の構造を示す概略図である。 本出願の実施例によるもう1つの画像処理装置の構造を示す概略図である。 本出願の実施例による電子機器の構造を示す概略図である。
ここで添付した図面は、明細書に引き入れて本明細書の一部分を構成し、本発明に適合する実施例を示し、かつ、明細書とともに本出願の技術的解決手段を解釈することに用いられる。
以下、本出願の実施例における図面を参照しながら、本出願の実施例における技術的解決手段を明瞭かつ完全に説明する。勿論、記述される実施例は、全ての実施例ではなく、ただ本出願の一部の実施例である。本出願における実施例に基づいて、当業者が創造的な労力なしに得られる他の実施例の全ては、本出願の保護の範囲に含まれる。
本出願において、用語「及び/又は」は、関連対象の関連関係を説明するためのものであり、3通りの関係が存在することを表す。例えば、A及び/又はBは、Aのみが存在すること、AとBが同時に存在すること、Bのみが存在するという3つの場合を表す。また、本明細書において、用語「少なくとも1つ」は、複数のうちのいずれか1つ又は複数のうちの少なくとも2つの任意の組み合わせを表す。例えば、A、B、Cのうちの少なくとも1つを含むことは、A、B及びCからなる集合から選ばれるいずれか1つ又は複数の要素を含むことを表す。本出願の明細書及び特許請求の範囲並びに上記図面に記載された「第1」、「第2」等の用語は、様々な対象を区別するためのものであり、特定の順番を説明するためのものではない。なお、「備える」と「有する」という用語及びそれらの変形は、非排他的な包含を網羅することを意図している。例えば、一連のステップ又はユニットを含むプロセス、方法、システム、製品又は装置は、明記されたステップ又はユニットに限定されず、明記されていないかステップ又はユニットを任意選択的に含んでもよいし、又は、これらのプロセス、方法、製品又は装置固有の他のステップ又はユニットを任意選択的に含んでもよい。
本明細書に記載している「実施例」は、実施例を参照しながら記述される特定の特徴、構造又は特徴が本出願の少なくとも1つの実施例に含まれてもよいことを意味する。該用語が明細書中の様々な箇所に登場していても、必ずしもどれもが同一の実施例を指しているとは限らないし、必ずしも他の実施例と相互排他的である独立した実施例又は候補実施例を指しているとは限らない。本明細書に記述される実施例は、他の実施例と組み合わせることができることは、当業者が明示的又は暗黙的に理解すべきである。
本出願の実施例に係る画像処理装置は、画像処理を行うことができる装置である。該装置は、電子機器であってもよい。上記電子機器は、端末装置を含む。具体的な実現において、上記端末装置は、タッチ感知面(例えば、タッチスクリーンディスプレイ及び/又はタッチパネル)を有する携帯電話、ラップトップコンピュータ又はタブレットコンピュータのような他の携帯機器を含むが、これらに限定されない。幾つかの実施例において、前記機器は、携帯型通信機器ではなく、タッチ感知面(例えば、タッチスクリーンディスプレイ及び/又はタッチパネル)を有するデスクトップコンピュータであることは、理解されるべきである。
本出願の実施例における深層学習の概念は、人工ニューラルネットワークの検討に由来する。複数の隠れ層を含む多層パーセプトロンは、深層学習構造である。深層学習は、下位層特徴を組み合わせることで、より抽象的な上位層表示属性カテゴリ又は特徴を形成し、データの分散型特徴表示を発見する。
深層学習は、機械学習における、ペアデータに基づいて表現学習を行う方法である。観測値(例えば、1枚の画像)を、種々の形態で表すことができる。例えば、各画素点の強度値のベクトルで表す。又は、より抽象的に一連の辺、特定の形状の領域などで表す。特定の表現方法によれば、実例からタスク(例えば、顔認識又は顔表情認識)を学習することはより容易である。深層学習の利点は、手動による特徴取得の代わりに、教師なし方式又は半教師あり方式の特徴学習及び効率的な階層的特徴抽出アルゴリズムを利用することである。深層学習は、機械学習検討における新たな分野であり、その動機は、人間の脳を模倣して分析学習を行うニューラルネットワークを構築することである。それは、人間の脳の仕組みを模倣して、例えば画像、音声及びテキストのようなデータを解釈する。
機械学習方法と同様に、深層機械学習方法も、教師あり学習方法と教師なし学習方法に分けられる。様々な学習フレームワークで構築された学習モデルは大きく異なる。例えば、畳み込みニューラルネットワーク(Convolutional neural network:CNN)は、深層教師あり学習による機械学習モデルであり、深層学習に基づいたネットワーク構造モデルと呼ばれてもよい。それは、畳み込み演算を含み、且つ深層構造を有するフィードフォワードニューラルネットワーク(Feedforward Neural Networks)であり、深層学習の代表的なアルゴリズムの1つである。深層信念ネットワーク(Deep Belief Net:DBN)は、教師なし学習による機械学習モデルである。
以下、本出願の実施例を詳しく説明する。
本出願の実施例による画像処理方法を示すフローチャートである図1を参照されたい。図1に示すように、該画像処理方法は下記ステップを含む。
101において、処理対象画像フレーム及び上記処理対象画像フレームに隣接する1つ又は複数の画像フレームを含む画像フレームシーケンスを取得し、上記処理対象画像フレームと上記画像フレームシーケンスにおける画像フレームに対して画像アライメントを行い、複数のアライメント特徴データを得る。
本出願の実施例における画像処理方法の実行主体は、上記画像処理装置であってもよい。例えば、上記画像処理方法は、端末装置、サーバ又は他の処理装置により実行されてもよい。ここで、端末装置は、ユーザ装置(User Equipment:UE)、携帯機器、ユーザ端末、端末、セルラ電話、コードレス電話、パーソナルデジタルアシスタント(Personal Digital Assistant:PDA)、ハンドヘルドデバイス、コンピューティングデバイス、車載機器、ウェアブル機器などであってもよい。幾つかの考えられる実現形態において、該画像処理方法は、プロセッサによりメモリに記憶されているコンピュータ可読命令を呼び出すことで実現することができる。
ここで、上記画像フレームは、単一フレーム画像であってもよいし、画像収集装置により収集された画像であってもよい。例えば、端末装置のカメラにより撮られた写真、又はビデオ収集装置により収集されたビデオデータにおける単一フレーム画像等であってもよく、本出願の実施例はこれを具体的に限定するものではない。少なくとも2つの上記画像フレームは、上記画像フレームシーケンスを構成する。ここで、ビデオデータにおける画像フレームは、時間順に応じて順次配列されてもよい。
本出願の実施例における単一フレーム画像は、一枚の静止画面を表す。連続フレーム画像は、動画効果を有する。連続フレーム画像は、ビデオを形成することができる。一般的なフレーム数は、簡潔に言えば、1秒間で伝送される画像のフレーム数であり、1秒間におけるグラフィックプロセッサのリフレッシュ回数と理解されてもよく、一般的には、フレーム毎秒(Frames Per Second:FPS)で表わされる。高いフレームレートによれば、より滑らか且つよりリアルな動画を得ることができる。
本出願の実施例に記載している画像のサブサンプリング(subsampled)は、画像を縮小するための具体的な手段であり、ダウンサンプリング(downsampled)とも呼ばれてもよい。その目的は、一般的には、1、画像を、表示領域の大きさに見なさせること、2、画像に対応するサブサンプリングマップを生成することを含む。
任意選択的に、上記画像フレームシーケンスは、サブサンプリングを行うことで得られた画像フレームシーケンスであってもよい。つまり、上記処理対象画像フレームと上記画像フレームシーケンスにおける画像フレームに対して画像アライメントを行う前に、取得されたビデオシーケンスにおける各ビデオフレームをサブサンプリングすることによって、上記画像フレームシーケンスを得ることができる。例えば、画像又はビデオの超解像処理に対しては、まず、上記サブサンプリングステップを実行してもよく、画像のボケ除去処理に対しては、上記サブサンプリングステップを実行しなくてもよい。
画像フレームアライメントプロセスにおいて、少なくとも1つの画像フレームをアライメント処理のための参照フレームとして選択する必要がある。画像フレームシーケンスにおける前記参照フレーム以外の他の画像フレーム及び該参照フレーム自身は、該参照フレームとアライメントされる。説明を容易にするために、本出願の実施例において、上記参照フレームを処理対象画像フレームと呼ぶ。該処理対象画像フレーム及び上記処理対象画像フレームに隣接する1つ又は複数の画像フレームは、上記画像フレームシーケンスを構成する。
ここで、上記の隣接するものは、連続したものであってもよいし、間欠的なものであってもよい。処理対象画像フレームをtと記すると、その隣接フレームは、t-i又はt+iと記されてもよい。例えば、1つのビデオデータの、時間順に従って配列される画像フレームシーケンスにおいて、処理対象画像フレームに隣接する画像フレームは、該処理対象画像フレームの1フレーム前のフレーム及び/又は1フレーム後のフレームであってもよいし、該処理対象画像フレームの2フレーム前のフレーム及び/又は2フレーム後のフレームなどであってもよい。上記処理対象画像フレームに隣接する画像フレームは、1つ、2つ、3つ又は3つ以上であってもよく、本出願の実施例はこれを限定するものではない。
本出願の任意選択的な実施例において、上記処理対象画像フレームと該画像フレームシーケンスにおける画像フレームに対して画像アライメントを行うことができる。つまり、該画像フレームシーケンスにおける画像フレーム(該処理対象画像フレームを含んでもよい)をそれぞれ該処理対象画像フレームと画像アライメントし、上記複数のアライメント特徴データを得る。
任意選択的な実施形態において、上記処理対象画像フレームと前記画像フレームシーケンスにおける画像フレームに対して画像アライメントを行い、複数のアライメント特徴データを得ることは、第1画像特徴セット及び1つ又は複数の第2画像特徴セットに基づいて、上記処理対象画像フレームと上記画像フレームシーケンスにおける画像フレームに対して画像アライメントを行い、複数のアライメント特徴データを得て、ここで、上記第1画像特徴セットが、上記処理対象画像フレームの少なくとも1つの異なるスケールの特徴データを含み、上記第2画像特徴セットが、上記画像フレームシーケンスにおける1つの画像フレームの少なくとも1つの異なるスケールの特徴データを含むことを含む。
例として、画像フレームシーケンスにおける画像フレームは、それに対して特徴抽出を行ってから、上記画像フレームに対応する特徴データを得ることができる。これによって、上記画像フレームシーケンスにおける画像フレームの少なくとも1つの異なるスケールの特徴データを得て、画像特徴セットを構成することができる。
上記画像フレームに対して畳み込み処理を行うことで、該画像フレームの異なるスケールの特徴データを得ることができる。ここで、処理対象画像フレームを特徴抽出(即ち、畳み込み処理)してから、第1画像特徴セットを得ることができる。画像フレームシーケンスにおける1つの画像フレームを特徴抽出(即ち、畳み込み処理)してから、第2画像特徴セットを得ることができる。
本出願の実施例において、各画像フレームの少なくとも1つの異なるスケールの特徴データを得ることができる。例えば、1つの第2画像特徴セットは、1つの画像フレームに対応する2つの異なるスケールの特徴データを含んでもよく、本出願の実施例はこれを限定するものではない。
説明を容易にするために、上記処理対象画像フレームの少なくとも1つの異なるスケールの特徴データ(第1特徴データと呼ばれてもよい)は、上記第1画像特徴セットを構成し、上記画像フレームシーケンスにおける1つの画像フレームの少なくとも1つの異なるスケールの特徴データ(第2特徴データと呼ばれてもよい)は、上記第2画像特徴セットを構成する。上記画像フレームシーケンスが、複数の画像フレームを含むことができるため、それぞれ1つの画像フレームに対応して複数の第2画像特徴セットを形成することができる。従って、更に、第1画像特徴セット及び1つ又は複数の第2画像特徴セットに基づいて、画像アライメントを行うことができる。
一実施形態として、全ての上記第2画像特徴セット及び第1画像特徴セットに基づいて画像アライメントを行うことで、上記複数のアライメント特徴データを得ることができる。つまり、処理対象画像フレームに対応する画像特徴セットと画像フレームシーケンスにおける各画像フレームに対応する画像特徴セットとに基づいて、アライメント処理を行い、対応する複数のアライメント特徴データを得る。なお、該アライメント処理には、第1画像特徴セットと第1画像特徴セットとのアライメントも含まれることに留意されたい。第1画像特徴セット及び1つ又は複数の第2画像特徴セットに基づいて画像アライメントを行う具体的な方法は、後続で説明する。
任意選択的な実施形態において、上記第1画像特徴セット及び第2画像特徴セットにおける特徴データは、スケールの昇順で配列されてピラミッド構造を構成することができる。
本出願の実施例に記載している画像ピラミッドは、画像のマルチスケール表現の1つであり、複数の解像度により画像を解釈するための概念が簡単である効果的な構造である。一枚の画像のピラミッドは、ピラミッド形状で配列された解像度が次第に小さくなり、且つ同一のオリジナルマップからの一連の画像セットである。本出願の実施例における画像特徴データは、所定の終了条件を満たすまで、段階的にダウンサンプリング畳み込みを実行し続けることで得られる。多層の画像特徴データをピラミッドに例え、段階が高いほど、スケールが小さくなる。
同一のスケールにおける第1特徴データと第2特徴データのアライメント結果は、他のスケールにおける画像アライメントのための参考及び調整にも用いられる。異なるスケールにおける各層に対するアライメントにより、該処理対象画像フレーム及び上記画像フレームシーケンスにおけるいずれか1つの画像フレームのアライメント特徴データを得ることができる。各画像フレームと処理対象画像フレームに対して上記アライメント処理プロセスを実行することで、上記複数のアライメント特徴データを得ることができる。得られた上記アライメント特徴データの数は、画像フレームシーケンスにおける画像フレームの数と一致する。
本出願の任意選択的な実施例において、第1画像特徴セット及び1つ又は複数の第2画像特徴セットに基づいて、処理対象画像フレームと前記画像フレームシーケンスにおける画像フレームに対して画像アライメントを行い、複数のアライメント特徴データを得ることは、上記第1画像特徴セット内のスケールが最も小さい第1特徴データ、及び上記第2画像特徴セットにおけるスケールが上記第1特徴データのスケールと同じである第2特徴データを取得し、上記第1特徴データと上記第2特徴データに対して画像アライメントを行い、第1アライメント特徴データを得ることと、上記第1画像特徴セット内のスケールが二番目に小さい第3特徴データ、及び上記第2画像特徴セットにおけるスケールが上記第3特徴データのスケールと同じである第4特徴データを取得し、上記第1アライメント特徴データに対してアップサンプリング畳み込みを行い、スケールが上記第3特徴データのスケールと同じである第1アライメント特徴データを得ることと、上記アップサンプリング畳み込み後の第1アライメント特徴データに基づいて、上記第3特徴データと上記第4特徴データに対して画像アライメントを行い、第2アライメント特徴データを得ることと、スケールが上記処理対象画像フレームのスケールと同じであるアライメント特徴データを得るまで、上記スケールの昇順で上記のステップを繰り返して実行することと、全ての上記第2画像特徴セットに基づいて上記のステップを実行して、上記複数のアライメント特徴データを得ることとを含んでもよい。
入力された任意の数の画像フレームに対して、そのうちの1フレームを別の1フレームとアライメントすることを直接的な目標とする。上記プロセスは、主に、処理対象画像フレームと画像フレームシーケンスにおけるいずれか1つの画像フレームとに対してアライメントすることを例として説明する。即ち、第1画像特徴セット及びいずれか1つの第2画像特徴セットに基づいて画像アライメントを行うことを例として説明する。具体的には、スケールが最も小さいものから、第1特徴データと第2特徴データを順にアライメントすることができる。
例として、上記各画像フレームの特徴データに対して、小さいスケールでアライメントを行ってから、拡大(上記アップサンプリング畳み込みにより実現することができる)を行い、相対的に大きなスケールでアライメントを行い、そして、処理対象画像フレームと画像フレームシーケンスにおける各画像フレームとに対してそれぞれ上記アライメント処理を行い、複数の上記アライメント特徴データを得ることができる。上記プロセスにおいて、各段階のアライメント結果が、アップサンプリング畳み込みによって拡大されてから、上の段階(より大きいスケール)に入力され、該スケールにおける第1特徴データと第2特徴データとのアライメントに用いられる。上記一段階ずつアライメント調整を行うことによって、画像アライメントの正確度を向上させ、複雑な動き及びボケしている場合の画像アライメントをより好適に実行することができる。
ここで、アライメントの回数は、画像フレームの特徴データの数によるものであってもよい。つまり、アライメント操作を、スケールが処理対象画像フレームのスケールと同じであるアライメント特徴データを得るまでに実行し続けることができる。全ての上記第2画像特徴セットに基づいて、上記のステップを実行して、上記複数のアライメント特徴データを得ることができる。つまり、処理対象画像フレームに対応する画像特徴セットと画像フレームシーケンスにおける各画像フレームに対応する画像特徴セットを、上記記載に従ってアライメントを行い、対応する複数のアライメント特徴データを得る。なお、該アライメント処理には、第1画像特徴セットと第1画像特徴セットとのアライメントも含まれる。本出願の実施例は、特徴データのスケール及び異なるスケールの数を限定するものではなく、つまり、上記アライメント操作の層数(回数)を限定するものではない。
本出願の任意選択的な実施例において、複数のアライメント特徴データを得る前に、変形可能な畳み込みネットワークによって、各上記アライメント特徴データを調整し、調整後の上記複数のアライメント特徴データを得ることができる。
任意選択的な実施形態において、変形可能な畳み込みネットワーク(Deformable Convolutional Networks:DCN)に基づいて、各上記アライメント特徴データを調整し、上記調整後の上記複数のアライメント特徴データを得る。上記ピラミッド構造以外に、更なるカスケードされた変形可能な畳み込みネットワークによって、得られたアライメント特徴データを更に調整することができる。本出願の実施例におけるマルチフレームのアライメントの方式の上で、アライメント結果を更に微細化に調整し、それによって、画像アライメントの精度を更に向上させることができる。
102において、上記複数のアライメント特徴データに基づいて、上記複数のアライメント特徴データと上記処理対象画像フレームに対応するアライメント特徴データとの複数の類似度特徴を決定し、上記複数の類似度特徴に基づいて、上記複数のアライメント特徴データのうちの各アライメント特徴データの重み情報を決定する。
画像類似度演算は主に、2枚の画像のコンテンツの類似程度を採点し、点数の高低に応じて画像のコンテンツの類似程度を判定する。本出願の実施例において、類似度特徴の演算は、ニューラルネットワークにより実現することができる。任意選択的に、画像特徴点に基づいた画像類似度アルゴリズムを利用することができる。画像を、例えば、Trace変換、画像ハッシュ又はSift特徴ベクトルなどの特徴値で抽象的に表し、上記アライメント特徴データに基づいて特徴マッチングを行うことで、効率を向上させることもできる。本出願の実施例は、これを限定するものではない。
任意選択的な実施形態において、上記複数のアライメント特徴データに基づいて、前記複数のアライメント特徴データと上記処理対象画像フレームに対応するアライメント特徴データとの複数の類似度特徴を決定することは、各上記アライメント特徴データと上記処理対象画像フレームに対応するアライメント特徴データとのドット積を計算するによって、上記複数のアライメント特徴データと上記処理対象画像フレームに対応するアライメント特徴データとの複数の類似度特徴を決定することを含む。
上記複数のアライメント特徴データと処理対象画像フレームに対応するアライメント特徴データとの複数の類似度特徴により、上記各アライメント特徴データの重み情報をそれぞれ決定することができる。ここで、上記重み情報は、全てのアライメント特徴データにおける異なるフレームの異なる重要度を表すことができる。その類似度の度合いに基づいて、異なる画像フレームの重要度を決定すると理解される。
類似度が高いほど、重みが大きく、即ち、該画像フレームと該処理対象画像フレームとのアライメントにおいて提供される特徴情報の重なり合う度合いが高くなり、後続のマルチフレームフュージョン及び再構築にとってより重要であることを表すと一般的に理解される。
任意選択的な実施形態において、上記アライメント特徴データの重み情報は、重み値を含んでもよい。重み値の算出は、アライメント特徴データに基づいて所定のアルゴリズム又は所定のニューラルネットワークにより実現することができる。ここで、任意の2つのアライメント特徴データに対して、ベクトルのドット積(dot product)によって、重み情報の演算を行うことができる。任意選択的に、演算により、所定の範囲内の重み値を得ることができる。一般的には、重み値が高いほど、全てのフレームの中で、該アライメント特徴データが重要であり、残す必要があるものであることを表す。重み値が低いほど、全てのフレームにおける該アライメント特徴データの重要度が低くなり、処理対象画像フレームに対して、誤差、遮蔽要素が存在するか又はアライメント段階の効果が好ましくなく、無視してもよいものであることを表す。本出願の実施例はこれを限定するものではない。
本出願の実施例におけるマルチフレームフュージョンは、アテンションメカニズム(Attention Mechanism)に基づいて実現することができる。本出願の実施例に記載しているアテンションメカニズムは、人間の視覚の研究に由来する。認知科学において、情報処理にボトルネットが存在するため、人間は、全ての情報のうちの一部に選択的に注目すると共に、他の可視情報を無視する。上記メカニズムは、一般的には、アテンションメカニズムと呼ばれる。人間の網膜の異なる部位は、程度の異なる情報処理能力である鋭敏さ(Acuity)を有する。網膜の中央凹部のみは、最も高い鋭敏さを有する。限られた視覚情報をリソース処理に合理的に用いるために、人間は、視覚領域における特定の部分を選択して、該部分に注目する必要がある。例えば、人間が読書している時、一般的には、読み取られる少量のワードのみを注目及び処理を行う。要するに、アテンションメカニズムは主に、入力のどの部分に注目する必要があるかを決定することと、限られた情報処理リソースを重要な部分に割り当てることとを含む。
フレーム間の時間的関係及びフレーム内の空間的関係は、マルチフレームフュージョンにおいて極めて重要である。その原因は、遮蔽、ボケ領域及び視差等の関係で、異なる隣接フレームの情報量が異なり、以前のマルチフレームアライメント段階で生じた位置ズレ及びアライメントの不良が、後続の再構築の性能に対して悪影響を与えることである。従って、画素レベルで隣接フレームを動的に集めることは、効果的なマルチフレームフュージョンにとって不可欠なものである。本出願の実施例において、時間的アテンションの目標は、空間に埋め込まれたフレームの類似度を算出することである。直観的に言えば、各アライメント特徴データに対して、その隣接フレームもより多大な関心が寄せられる必要がある。上記時間的及び空間的アテンションメカニズムに基づくマルチフレームのフュージョン方式によって、異なるフレームに含まれる異なる情報をマイニングすることができ、通常のマルチフレームのフュージョンに関する方策における、マルチフレームに含まれる情報が異なることを考慮していないという問題を改善することができる。
上記複数のアライメント特徴データのうちの各アライメント特徴データの重み情報を決定してから、ステップ103を実行することができる。
103において、上記各アライメント特徴データの重み情報に基づいて、上記複数のアライメント特徴データに対してフュージョンを行い、上記画像フレームシーケンスのフュージョン情報を得て、上記フュージョン情報が、上記処理対象画像フレームに対応する処理後の画像フレームを取得するためのものである。
上記各アライメント特徴データの重み情報に基づいて、上記複数のアライメント特徴データに対して、フュージョンを行い、即ち、異なる画像フレームのアライメント特徴データ間の差異及び重要度を考慮し、重み情報に基づいて、フュージョン時のこれらのアライメント特徴データの割合を調整し、マルチフレームフュージョンの課題を効果的に解決し、異なるフレームに含まれる異なる情報をマイニングし、前のアライメント段階でアライメントが芳しくない状況を改善することができる。
任意選択的な実施形態において、上記各アライメント特徴データの重み情報に基づいて、前記複数のアライメント特徴データに対してフュージョンを行い、上記画像フレームシーケンスのフュージョン情報を得ることは、フュージョン畳み込みネットワークを利用して、上記各アライメント特徴データの重み情報に基づいて、上記複数のアライメント特徴データに対してフュージョンを行い、上記画像フレームシーケンスのフュージョン情報を得ることを含む。
任意選択的な実施形態において、フュージョン畳み込みネットワークを利用して、上記各アライメント特徴データの重み情報に基づいて、上記複数のアライメント特徴データに対してフュージョンを行い、上記画像フレームシーケンスのフュージョン情報を得ることは、要素レベル乗算によって、上記各アライメント特徴データと上記各アライメント特徴データの重み情報を乗算し、上記複数のアライメント特徴データの複数の変調特徴データを得ることと、上記フュージョン畳み込みネットワークを利用して上記複数の変調特徴データをフュージョンし、上記画像フレームシーケンスのフュージョン情報を得ることとを含む。
時間的アテンションをマッピング(即ち上記重み情報を利用する)し、画素レベルの方式で、以前に得られたアライメント特徴データと乗算することができる。上記重み情報で変調されたアライメント特徴データは、上記変調特徴データと呼ばれる。そして、フュージョン畳み込みネットワークを利用して、上記複数の変調特徴データを集め、上記画像フレームシーケンスのフュージョン情報を得る。
本出願の任意選択的な実施例において、該方法は、上記画像フレームシーケンスのフュージョン情報に基づいて、上記処理対象画像フレームに対応する処理後の画像フレームを取得することを更に含む。
上記方法によれば、画像フレームシーケンスのフュージョン情報を得ることができ、更に、上記フュージョン情報に基づいて画像再構築を行い、上記処理対象画像フレームに対応する処理後の画像フレームを得ることができる。通常、修復により、品質の高いフレームを得て、画像の修復を実現させることができる。任意選択的に、複数の処理対象画像フレームに対して上記画像処理を行い、処理後の画像フレームシーケンスを得ることができる。処理後の画像フレームシーケンスに複数の上記処理後の画像フレームが含まれ、即ち、ビデオデータを構成することができる。従って、ビデオ修復の効果を達成することができる。
本出願の実施例は、種々のビデオ修復の問題を解決できる統一なフレームワークを提供する。ビデオの超解像、ビデオのボケ除去、ビデオのノイズ除去などを含むが、これらに限定されない。任意選択的に、本出願の実施例で提供される画像処理方法は、汎用性を有し、各種の画像処理シーンに適用可能であり、例えば顔画像のアライメント処理が挙げられ、ビデオデータ及び画像処理に関わる他の技術に組み込まれてもよく、本出願の実施例はこれを限定するものではない。
具体的な実施形態の上記方法において、各ステップの記述順番は、厳しい実行順番として実施過程を限定するものではなく、各ステップの具体的な実行順番はその機能及び考えられる内在的論理により決まることは、当業者であれば理解すべきである。
本出願の実施例において、処理対象画像フレーム及び上記処理対象画像フレームに隣接する1つ又は複数の画像フレームを含む画像フレームシーケンスを取得し、上記処理対象画像フレームと上記画像フレームシーケンスにおける画像フレームに対して画像アライメントを行い、複数のアライメント特徴データを得る。更に、上記複数のアライメント特徴データに基づいて、上記複数のアライメント特徴データと上記処理対象画像フレームに対応するアライメント特徴データとの複数の類似度特徴を決定し、上記複数の類似度特徴に基づいて、上記複数のアライメント特徴データのうちの各アライメント特徴データの重み情報を決定し、上記各アライメント特徴データの重み情報に基づいて、上記複数のアライメント特徴データに対してフュージョンを行い、上記画像フレームシーケンスのフュージョン情報を得て、上記フュージョン情報が、上記処理対象画像フレームに対応する処理後の画像フレームを取得するためのものである。異なるスケールにおけるアライメントによれば、画像アライメントの精度を向上させる。また、重み情報に基づいたマルチフレームフュージョンは、異なる画像フレームのアライメント特徴データ間の差異及び重要度を考慮しており、マルチフレームフュージョンの問題を効果的に解決し、異なるフレームに含まれる異なる情報をマイニングし、前のアライメント段階でアライメントが芳しくない状況を改善することができる。従って、画像処理におけるマルチフレームアライメント及びフュージョンの品質を大幅に向上させ、画像処理による表示効果を向上させると共に、画像修復及びビデオ修復を実現させ、修復の正確度及び修復効果を向上させることができる。
本出願の実施例によるもう1つの画像処理方法を示すフローチャートである図2を参照されたい。本出願の実施例のステップを実行する主体は、上述した画像処理装置であってもよい。図2に示すように、該画像処理方法は、下記ステップを含んでもよい。
201において、取得されたビデオシーケンスにおける各ビデオフレームに対してサブサンプリングを行い、画像フレームシーケンスを得る。
本出願の実施例における画像処理方法の実行主体は、上記画像処理装置であってもよい。例えば、画像処理方法は、端末装置、サーバ又は他の処理装置により実行されてもよい。ここで、端末装置は、ユーザ装置(User Equipment:UE)、携帯機器、ユーザ端末、端末、セルラ電話、コードレス電話、パーソナルデジタルアシスタント(Personal Digital Assistant:PDA)、ハンドヘルドデバイス、コンピューティングデバイス、車載機器、ウェアブル機器などであってもよい。幾つかの考えられる実現形態において、該画像処理方法は、プロセッサによりメモリに記憶されているコンピュータ可読命令を呼び出すことで実現することができる。
ここで、上記画像フレームは、単一フレーム画像であってもよいし、画像収集装置により収集された画像であってもよい。例えば、端末装置のカメラにより撮られた写真、又はビデオ収集装置により収集されたビデオデータにおける単一フレーム画像等が、上記ビデオシーケンスを構成することができる。本出願の実施例はこれを具体的に限定するものではない。上記サブサンプリングにより、解像度がより低い画像フレームを得ることができ、後続の画像アライメントの精度の向上に寄与する。
本出願の任意選択的な実施例において、所定の時間間隔で、上記ビデオデータにおける複数の画像フレームを順に抽出し、上記ビデオシーケンスを構成することができる。上記抽出された画像フレームの数は、所定の数であってもよい。一般的には、5フレームのような奇数であってもよい。これにより、そのうちの1フレームを処理対象画像フレームとして選択してアライメント操作を行うことを容易にする。ここで、ビデオデータから切り出されたビデオフレームは、時間順に応じて順に配列されてもよい。
図1に示した実施例と同様に、上記画像フレームを特徴抽出して得られた特徴データについて、ピラミッド構造において、畳み込みフィルタを利用して階層(L-1)における特徴データに対してサブサンプリング畳み込み処理を行い、階層Lの特徴データを得ることができる。上記階層Lの特徴データに対して、階層(L+1)の特徴データをそれぞれ利用してアライメント予測を行うことができる。なお、予測の前に、階層(L+1)の特徴データに対して、アップサンプリング畳み込みを行い、階層Lの特徴データのスケールと同じであるようにする必要がある。
任意選択的な実施形態において、3階層のピラミッド構造を利用することができる。つまり、L=3である。上記列挙された実現形態は、演算コストを低減させるためのものである。任意選択的に、空間の大きさの減少に伴ってチャネル数を増加させることもできる。本出願の実施例は、これを限定するものではない。
202において、処理対象画像フレーム及び上記処理対象画像フレームに隣接する1つ又は複数の画像フレームを含む上記画像フレームシーケンスを取得し、上記処理対象画像フレームと上記画像フレームシーケンスにおける画像フレームに対して画像アライメントを行い、複数のアライメント特徴データを得る。
入力された任意の2フレームの画像について、直接的な目標は、そのうちの1フレームを別の1フレームとアライメントすることであり、この場合、上記画像フレームシーケンスから少なくとも1フレームの画像を参照用処理対象画像フレームとして選択することができる。上記処理対象画像フレームの第1特徴セットと該画像フレームシーケンスにおける各画像フレームをアライメントし、複数のアライメント特徴データを得る。例えば、上記抽出された画像フレームの数は5フレームであると、中央にある第3フレームを処理対象画像フレームとして選択し、アライメント操作を行う。更に例を挙げると、実際の適用において、ビデオデータ、即ち、複数のビデオフレームを含む画像フレームシーケンスについて、同じ時間間隔で、連続した5フレームの画像を抽出し、5フレーム分ずつの画像の中間フレームを、該5フレームの画像のアライメントのための参照フレームとし、即ち、該シーケンスにおける処理対象画像フレームとすることができる。
ここで、上記のステップ202におけるマルチフレームアライメント方法は、図1に示した実施例におけるステップ102を参照することができ、ここで詳細な説明を省略する。
一例として、上記のステップ102において主に、ピラミッド構造、サンプリング処理プロセス及びアライメント処理の詳細を説明する。そのうちの1つの画像フレームXを処理対象画像フレームとし、該画像フレームXにより異なるスケールの特徴データaと特徴データbを得ること例として、aのスケールは、bのスケールよりも小さい。つまり、ピラミッド構造において、aは、bの次の階層に位置してもよい。説明を容易にするために、画像フレームシーケンスにおける1つの画像フレームY(処理対象画像フレームであってもよい)を選択する。Yに対して同様な処理を行うことで得られた特徴データは、異なるスケールの特徴データcと特徴データdを含んでもよい。cのスケールは、dのスケールよりも小さく、且つaのスケールは、cのスケールと同じであり、bのスケールは、dのスケールと同じである。この場合、スケールが小さいaとcをアライメントし、アライメント特徴データMを得る。更に、アライメント特徴データMに対して、アップサンプリング畳み込みを行い、拡大されたアライメント特徴データMを得て、スケールが大きいbとdとのアライメントに用いる。b及びdの所在する階層において、アライメント特徴データNを得ることができる。このように類推すると、画像フレームシーケンスにおける画像フレームに対して、各画像フレームを上記アライメント処理し、複数の上記画像フレームの、処理対象画像フレームに対するアライメント特徴データを得ることができる。例えば、5フレームの画像の場合、上記処理対象画像フレームのアライメントに基づいた5つのアライメント特徴データをそれぞれ得ることができる。つまり、処理対象画像フレーム自体のアライメント結果が含まれる。
任意選択的な実施形態において、上記アライメント操作は、ピラミッド(Pyramid)、カスケード(Cascading)及び変形可能な畳み込み(Deformable convolution)構造を持つアライメントモジュールにより実現することができる。該アライメントモジュールは、PCDアライメントモジュールと略称されてもよい。
例えば、図3に示したアライメント処理構造の模式図を参照することができる。図3は、画像処理方法におけるアライメント処理時のピラミッド構造及びカスケードの詳細を示す。画像t及びt+iは、入力された画像フレームを表す。
図3における点線A1及びA2に示すように、まず、畳み込みフィルタを利用して階層(L-1)における特徴(feature)をサブサンプリング畳み込み処理し、階層Lの特徴を得ることができる。上記階層Lについて、オフセットo及びアライメント特徴を、それぞれ階層(L+1)のアップサンプリング畳み込みのオフセットo及びアライメント特徴により予測することができる(例えば、図3における点線B1~B4)。下記式(1)及び式(2)を参照されたい。
Figure 0007093886000001
(1)
Figure 0007093886000002
(2)
オプティカルフローに基づいた方法と異なっており、本出願の実施例において、各フレームの特徴について変形可能なアライメントを行い、
Figure 0007093886000003
で表し、
Figure 0007093886000004
である。
Figure 0007093886000005
が画像フレームt+iの特徴データを表し、
Figure 0007093886000006
が画像フレームtの特徴データを表し、一般的には上記処理対象画像フレームと見なす。ここで、
Figure 0007093886000007
及び
Figure 0007093886000008
はそれぞれ、階層L及び階層(L+1)のオフセット(offset)である。
Figure 0007093886000009
及び
Figure 0007093886000010
はそれぞれ階層L及び階層(L+1)のアライメント特徴データである。(・)↑sとは、要素sの向上を指す。DConvは、上記変形可能な畳み込みDを表す。gは、複数の畳み込み層を有する一般化された関数を表す。双線形補間により、×2のアップサンプリング畳み込みを実現させることができる。該模式図において三階層のピラミッドを用いる。つまり、L=3である。
画像におけるcは、行列の統合及び画像のスティッチングのための埋め込み(concat)関数と理解されてもよい。
ピラミッド構造に、アライメント調整のための更なる変形可能な畳み込みをカスケードすることで、予備アライメントされた特徴(図3における影付き背景を持つ部分)を更に細かくすることができる。PCDアライメントモジュールは、粗から細への形態により、サブピクセル精度の画像アライメント効果を向上させることができる。
上記PCDアライメントモジュールは、余分な教師あり学習又はオプティカルフロー(optical flow)のような他のタスクに対する事前訓練を必要とせず、ネットワークフレームワーク全体と共に学習することができる。
本出願の任意選択的な実施例において、本出願の実施例における画像処理方法は、異なるタスクに基づいて、上記アライメントモジュールの機能を設定して調整することができる。アライメントモジュールへの入力は、サブサンプリングされた画像フレームであってもよい。アライメントモジュールは、該画像処理方法におけるアライメント処理を直接的に実行することができる。アライメントモジュールによるアライメントの前に、サブサンプリング処理を行ってもよい。つまり、アライメントモジュールへの入力に対して、まずサブサンプリングを行い、上記サブサンプリング後の画像フレームを得てから、アライメント処理を行う。例えば、画像又は上記ビデオの超解像は、上記の前者のように行ってもよく、ビデオのボケ除去及びビデオのノイズ除去は、上記の後者のように行ってもよい。本出願の実施例は、これを限定するものではない。
本出願の任意選択的な実施例において、アライメント処理を行う前に、該方法は、上記画像フレームシーケンスにおける画像フレームに対してボケ除去処理を行うことを更に含む。
異なる要因による画像のボケに対して異なる処理方法を実行することが多い。本出願の実施例におけるボケ除去処理は、任意の画像強調、画像修復及び/又は超解像再構築方法であってもよい。ボケ除去処理によれば、本出願の画像処理方法は、アライメント及びフュージョン処理をより正確に行うことができる。
203において、上記複数のアライメント特徴データに基づいて、上記複数のアライメント特徴データと上記処理対象画像フレームに対応するアライメント特徴データとの複数の類似度特徴を決定する。
ここで、上記のステップ203は、図1に示した実施例におけるステップ102の具体的な説明を参照することができる。ここで、詳細な説明を省略する。
204において、所定の活性化関数、及び上記複数のアライメント特徴データと上記処理対象画像フレームに対応するアライメント特徴データとの複数の類似度特徴に基づいて、上記各アライメント特徴データの重み情報を決定する。
本出願の実施例に記載している活性化関数(Activation Function)は、人工ニューラルネットワークのニューロン上で実行される関数であり、ニューロンの入力を出力側にマッピングする役割をしている。ニューラルネットワークにおいて、活性化関数は、非線形要素をニューロンに取り込んでいる。これにより、ニューラルネットワークを如何なる非線形関数に近似させることができる。従って、ニューラルネットワークは、多くの非線形モデルに適用可能である。任意選択的に、上記所定の活性化関数は、Sigmoid関数であってもよい。
Sigmoid関数は、生物学における一般的なS型関数であり、S型成長曲線とも呼ばれる。情報科学の分野において、単調増加及び逆関数の単調増加などの特性により、Sigmoid関数は、一般的には、ニューラルネットワークの閾値関数として、変数を0-1の間にマッピングするためのものである。
任意選択的な実施形態において、入力された各フレームi∈[-n:+n]は、類似距離hを上記重み情報として参照することができる。hは、下記式(3)により決定される。
Figure 0007093886000011
(3)
ただし、
Figure 0007093886000012
及び
Figure 0007093886000013
は、2つの埋め込み(embedding)と理解されてもよく、簡単な畳み込みフィルタにより実現することができる。Sigmid函数は、出力結果の範囲を[0,1]に限定するためのものである。つなり、重み値は、0~1以内の数値であってもよい。それは、安定したグラジエントバックプロバゲーションに基づいて実現する。上記重み値を利用して行われるアライメント特徴データ変調は、2つの所定の閾値により判定されてもよい。その所定の閾値の範囲は、(0,1)であってもよい。例えば、重み値が所定の閾値未満であるアライメント特徴データは、無視されてもよい。重み値が上記所定の閾値を超えるアライメント特徴データが保留される。つまり、重み値に基づいて、上記アライメント特徴データの重要度を選別して表示すると、合理的なマルチフレームフュージョン及び再構築に寄与する。
ここで、上記のステップ204は、図1に示した実施例におけるステップ102の具体的な説明を参照することもできる。ここで、詳細な説明を省略する。
上記各アライメント特徴データの重み情報を決定してから、ステップ205を実行することができる。
205において、フュージョン畳み込みネットワークを利用して、上記各アライメント特徴データの重み情報に基づいて、上記複数のアライメント特徴データに対してフュージョンを行い、上記画像フレームシーケンスのフュージョン情報を得る。
上記画像フレームのフュージョン情報は、画像フレームの異なる空間的位置及び異なる特徴チャネルにおける情報と理解されてもよい。
任意選択的な実施形態において、フュージョン畳み込みネットワークを利用して、上記各アライメント特徴データの重み情報に基づいて、上記複数のアライメント特徴データに対してフュージョンを行い、上記画像フレームシーケンスのフュージョン情報を得ることは、要素レベル乗算によって、上記各アライメント特徴データと上記各アライメント特徴データの重み情報を乗算し、上記複数のアライメント特徴データの複数の変調特徴データを得ることと、上記フュージョン畳み込みネットワークを利用して上記複数の変調特徴データをフュージョンし、上記画像フレームシーケンスのフュージョン情報を得ることとを含む。
上記要素レベル乗算は、アライメント特徴データにおける画素点単位までの乗算と理解されてもよい。各アライメント特徴データの重み情報をアライメント特徴データにおける画素点で対応的に乗算し、特徴変調を行い、上記複数の変調特徴データをそれぞれ得ることができる。
ここで、上記のステップ205は、図1に示した実施例におけるステップ103の具体的な説明を参照することもできる。ここで、詳細な説明を省略する。
206において、上記画像フレームシーケンスのフュージョン情報に基づいて、空間的特徴データを生成する。
上記画像フレームシーケンスのフュージョン情報に基づいて、空間的な特徴データを生成することができる。つまり、上記空間的特徴データは具体的には、空間的アテンションマスク(masks)であってもよい。
本出願の実施例において、画像処理におけるマスク(Masks)は、関心エリアの抽出に用いられる。予め作成された関心エリアマスクと処理されるべき画像を乗算し、関心エリア画像を得る。関心エリア内の画像値は、変更しないままであるが、関心エリア外の画像値はいずれも0である。マスクは、シールドのためのものであってもよい。マスクを利用して画像における幾つかの領域をシールドし、それを処理に関与しないか又は処理パラメータの演算に関与しないようにする。又は、シールドエリアのみに対して処理又は統計を行う。
本出願の任意選択的な実施例において、依然として、上記ピラミッド構造の設計を利用することで、空間的アテンションの許容範囲を増加させることもできる。
207において、上記空間的特徴データにおける各要素点の空間的アテンション情報に基づいて、上記空間的特徴データを変調し、変調後のフュージョン情報を得、前記変調後のフュージョン情報が、前記処理対象画像フレームに対応する処理後の画像フレームを取得するためのものである。
一例として、上記空間的特徴データにおける各要素点の空間的アテンション情報に基づいて、上記空間的特徴データを変調し、変調後のフュージョン情報を得ることは、上記空間的特徴データにおける各要素点の空間的アテンション情報に基づいて、要素レベル乗算と加算によって、上記空間的特徴データにおける上記各要素点を変調し、上記変調後のフュージョン情報を得ることを含む。
ここで、上記空間的アテンション情報は、空間的な点と周辺点との関係を表す。つまり、上記空間的特徴データにおける各要素点の空間的アテンション情報は、該空間的特徴データにおける該要素点と周辺要素点との関係を表す。それは、空間的な重み情報に類似する。該要素点の重要度を反映することができる。
空間的アテンションメカニズムに基づいて、上記空間的特徴データにおける各要素点の空間的アテンション情報により、要素レベル乗算と加算で、上記空間的特徴データにおける上記各要素点を変調することができる。
本実施例において、上記空間的特徴データにおける各要素点の空間的アテンション情報に基づいて、要素レベル乗算と加算(element-wise multiplication and addition)により、上記空間的特徴データにおける各要素点を変調し、上記変調後のフュージョン情報を得ることができる。
任意選択的な実施形態において、上記フュージョン操作は、時間的及び空間的アテンション(Temporal and Spatial Attention)を有するフュージョンモジュールにより実現することができる。該モジュールは、TSAフュージョンモジュールと略称されてもよい。
一例として、図4に示すようなマルチフレームフュージョンの概略図を参照することができる。図4に示したフュージョンプロセスは、図3に示したアライメントモジュールによる操作の後に実行されてもよい。ここで、t-1、t、t+1はそれぞれ、隣接する連続的な3フレームの特徴を表し、つまり、前記得られたアライメント特徴データである。Dは、上記変形可能な畳み込みを表す。Sは、上記Sigmoid関数を表す。特徴t+1を例として、変形可能な畳み込みD及びドット積により、特徴t+1の、特徴tに対する重み情報t+1を算出することができる。更に、画素の形態(要素レベル乗算)で、上記重み情報(時間的アテンション情報)マッピングにオリジナルのアライメント特徴データ
Figure 0007093886000014
を乗算する。例えば、特徴t+1に対して、対応する重み情報t+1を利用して変調する。図面に示したフュージョン畳み込みネットワークを利用して、上記変調されたアライメント特徴データ
Figure 0007093886000015
を集める。続いて、フュージョン特徴データに基づいて、空間的特徴データを演算する。該空間的特徴データは、空間的アテンションマスク(masks)であってもよい。続いて、各画素の空間的アテンション情報に基づいて、要素レベル乗算と加算によって、空間的特徴データを変調し、上記変調後のフュージョン情報を最終的に得ることができる。
前記ステップ204における例に基づいて、更に列挙すると、上記フュージョンプロセスを、下記式で表すことができる。
Figure 0007093886000016
(4)
Figure 0007093886000017
(5)
ただし、
Figure 0007093886000018
及び[・,・,・]は、それぞれ要素レベル乗算及びカスケードを表す。
図4に示した空間的特徴データの変調は、ピラミッド構造である。図面における立方体1~5に示すように、得られた空間的特徴データ1に対して、2回のサブサンプリング畳み込みを行い、スケールがより小さい2つの空間的特徴データ2及び3をそれぞれ得る。続いて、最も小さい空間的特徴データ3に対してアップサンプリング畳み込みを行ってから、空間的特徴データ2に対して要素レベル加算を行い、スケールが空間的特徴データ2のスケールと同じである空間的特徴データ4を得る。続いて、空間的特徴データ4に対してアップサンプリング畳み込みを行ってから、空間的特徴データ1に対して要素レベル乗算を行い、得られた結果とアップサンプリング畳み込みされた空間的特徴データに対して要素レベル加算を行い、スケールが空間的特徴データ1のスケールと同じである空間的特徴データ5を得る。つまり、上記変調後のフュージョン情報を得る。
本出願の実施例は、上記ピラミッド構造の層数を限定しない。上記方法は、異なるスケールの空間的特徴において実行され、異なる空間的位置における情報を更にマイニングし、品質がより高くてより正確であるフュージョン情報を得ることができる。
本出願の任意選択的な実施例において、上記変調後のフュージョン情報に基づいて画像再構築を行い、上記処理対象画像フレームに対応する処理後の画像フレームを得ることができる。一般的には、修復により、品質の高いフレームを得て、画像の修復を実現させることができる。
上記フュージョン情報により、画像再構築を行い、品質の高いフレームを得てから、画像のアップサンプリングを行い、画像を処理前の大きさに修復することができる。本出願の実施例において、画像のアップサンプリング(upsampling)は、画像の補間(interpolating)とも呼ばれ、その主な目的は、元画像を拡大し、より高い解像度で表示することである。前記アップサンプリング畳み込みの目的は、主に、画像特徴データ及びアライメント特徴データのスケールを変更することである。任意選択的には、サンプリング形態は、例えば、最近傍補間、双線形補間、平均値補間、中央値補間などの種々の方法を含んでもよい。本出願の実施例はこれを限定するものではない。具体的な適用は、図5及びその関連説明を参照することができる。
任意選択的な実施形態において、ビデオ収集装置により収集された第1ビデオストリームにおける画像フレームシーケンスの解像度が所定の閾値以下である場合、本出願の実施例の画像処理方法におけるステップにより、上記画像フレームシーケンスにおける各画像フレームを順に処理し、処理後の画像フレームシーケンスを得る。上記処理後の画像フレームシーケンスからなる第2ビデオストリームを出力及び/又は表示する。
本実施形態において、ビデオ収集装置により収集されたビデオストリームにおける画像フレームを処理することができる。一例として、画像処理装置には、上記所定の閾値が記憶されてもよい。ビデオ収集装置により収集された第1ビデオストリームにおける画像フレームシーケンスの解像度が所定の閾値以下である場合、本出願の実施例の画像処理方法におけるステップにより、上記画像フレームシーケンスにおける各画像フレームを処理することで、対応する処理された複数の画像フレームを得て、上記処理後の画像フレームシーケンスを構成することができる。更に、上記処理後の画像フレームシーケンスからなる第2ビデオストリームを出力及び/又は表示することができる。ビデオデータにおける画像フレームの品質を向上させ、ビデオ修復、ビデオの超解像の効果を達成することができる。
任意選択的な実施形態において、上記画像処理方法は、ニューラルネットワークに基づいて実現され、上記ニューラルネットワークは、複数のサンプル画像フレームペアを含むデータセットを利用して訓練されたものであり、上記サンプル画像フレームペアには、複数の第1サンプル画像フレーム及び上記複数の第1サンプル画像フレームにそれぞれ対応する第2サンプル画像フレームが含まれ、上記第1サンプル画像フレームの解像度は、上記第2サンプル画像フレームの解像度より低い。
訓練されたニューラルネットワークにより、画像フレームシーケンスを入力し、フュージョン情報を出力し、上記処理後の画像フレームを取得するという画像処理プロセスを完了することができる。本出願の実施例におけるニューラルネットワークは、更なる人工的ラベル付けを必要とせず、上記サンプル画像フレームペアのみを必要とする。訓練時、上記第1サンプル画像フレームに基づいて、上記第2サンプル画像フレームをターゲットとして訓練を行うことができる。例えば、訓練されるデータセットには、高精細度及び低精細度のサンプル画像フレームペア(pair)、又はボケあり(blur)及びボケ無しサンプル画像フレームペア等が含まれてもよい。上記サンプル画像フレームペアは、データ収集の時に制御可能である。本出願の実施例はこれを限定するものではない。任意選択的に、上記データセットとして、開示されたREDSデータセット、vimeo90データセット等を用いてもよい。
本出願の実施例は、種々のビデオ修復の問題を解決できる統一的なフレームワークを提供する。ビデオの超解像、ビデオのボケ除去、ビデオのノイズ除去などを含むが、これらに限定されない。
一例として、図5に示したビデオ修復フレームワークの概略図を参照することができる。図5に示すように、処理されるべきビデオデータにおける画像フレームシーケンスに対して、ニューラルネットワークにより画像処理を行う。ビデオの超解像を例として、ビデオの超解像については、一般的には、入力された複数の低解像度のフレームを取得し、上記複数の低解像度のフレームの一連の画像特徴を得て、複数の高解像度のフレームを生成して出力する。例えば、2N+1個の低解像度のフレームを入力として、高解像度のフレームを生成して出力する。Nは正整数である。図面において、t-1、t及びt+1という隣接する3フレームを入力として、まずボケ除去モジュールにより、ボケ除去処理を行ってから、順にPCDアライメントモジュール及びTSAフュージョンモジュールに入力して、本出願の実施例における画像処理方法を実行する。つまり、隣接フレームとマルチフレームアライメント及びフュージョンを行い、最後にフュージョン情報を得る。更に、再構築モジュールに入力し、上記フュージョン情報に基づいて、処理後の画像フレームを取得し、ネットワークの末端でアップサンプリング操作を行い、空間的大きさを増加させる。最後に、予測画像残差をオリジナル画像フレームが直接的にアップサンプリングされた画像に加え、高解像度のフレームを得ることができる。現在の画像/ビデオ修復処理形態と同様に、上記加入の目的は、上記画像残差を学習することである。従って、訓練の収束速度及び効果を向上させることができる。
例えば、ビデオのボケ除去のような、高解像度入力を有する他のタスクについて、まずストライド畳み込み層を利用して入力フレームをサブサンプリング畳み込み処理し、続いて、低解像度の空間で大部分の演算を行う。演算コストを大幅に節約する。最後に、アップサンプリングにより、特徴をオリジナルの入力解像度に調整する。アライメントモジュールによる操作の前に、ボケ予備除去モジュールを利用して、ボケ入力を前処理し、アライメント精度を向上させることができる。
本出願の実施例で提供される画像処理方法は、汎用性を有し、例えば顔画像のアライメント処理のような種々の画像処理シーンに適用可能であってもよいし、ビデオデータ及び画像処理に関わる他の技術に組み込まれてもよく、本出願の実施例はこれを限定するものではない。
具体的な実施形態の上記方法において、各ステップの記述順番は、厳しい実行順番として実施過程を限定するものではなく、各ステップの具体的な実行順番はその機能及び考えられる内在的論理により決まることは、当業者であれば理解すべきである。
本出願の実施例で提供される画像処理方法によれば、変形可能な畳み込みネットワークに基づいたビデオ修復システムを構成することができる。該システムは、上記2つのコアモジュールを含む。つまり、種々のビデオ修復の問題を解決できる統一的なフレームワークを提供する。ビデオの超解像、ビデオのボケ除去、ビデオのノイズ除去などを含むが、これらに限定されない。
本出願の実施例は、取得されたビデオシーケンスにおける各ビデオフレームに対してサブサンプリングを行い、画像フレームシーケンスを得る。処理対象画像フレーム及び上記処理対象画像フレームに隣接する1つ又は複数の画像フレームを含む上記画像フレームシーケンスを取得し、上記処理対象画像フレームと上記画像フレームシーケンスにおける画像フレームに対して画像アライメントを行い、複数のアライメント特徴データを得る。上記複数のアライメント特徴データに基づいて、上記複数のアライメント特徴データと上記処理対象画像フレームに対応するアライメント特徴データとの複数の類似度特徴を決定し、所定の活性化関数、及び上記複数のアライメント特徴データと上記処理対象画像フレームに対応するアライメント特徴データとの複数の類似度特徴に基づいて、上記各アライメント特徴データの重み情報を決定する。フュージョン畳み込みネットワークを利用して、上記各アライメント特徴データの重み情報に基づいて、上記複数のアライメント特徴データに対してフュージョンを行い、上記画像フレームシーケンスのフュージョン情報を得る。続いて、上記画像フレームシーケンスのフュージョン情報に基づいて空間的特徴データを生成し、上記空間的特徴データにおける各要素点の空間的アテンション情報に基づいて、上記空間的特徴データを変調し、変調後のフュージョン情報を得る。上記変調後のフュージョン情報が、上記処理対象画像フレームに対応する処理後の画像フレームを取得するためのものである。
本出願の実施例において、上記アライメント操作は、ピラミッド構造、カスケード及び変形可能な畳み込みに基づいて実現する。アライメントモジュールは、変形可能な畳み込みネットワークに基づいて、動きを暗黙的に推定することでアライメントを行う。それは、ピラミッド構造を用いることで、スケールが小さい入力で、まず、大まかにアライメントを行う。続いて、該予備的結果をより大きなスケールに入力して調整する。従って、複雑かつ過大な動きによるアライメントの問題を効果的に解決することができる。カスケード構造を利用して、予備的な結果を更に微調整し、アライメント結果の精度を更に向上させることができる。上記アライメントモジュールを利用してマルチフレームアライメントを行うことで、ビデオ修復におけるアライメントの問題を効果的に解決することができる。特に、入力フレームに複雑かつ大きな動き、遮蔽及びボケなどが存在するという問題を解決することができる。
上記フュージョン操作は、時間的及び空間的なアテンションメカニズムに基づいたものである。入力された一連のフレームに含まれる情報が異なり、自体の動き、ボケ及びアライメント状況も異なることを考慮して、時間的アテンションメカニズムは、異なるフレームの異なる領域の情報に異なる重要度を付けることができる。空間的アテンションメカニズムは、空間的関係及び異なる特徴チャネル間の関係を更にマイニングすることで効果を更に向上させることができる。上記フュージョンモジュールを利用して、マルチフレームアライメントが実行されたフュージョンを行うことで、マルチフレームのフュージョンの問題を効果的に解決し、異なるフレームに含まれる異なる情報をマイニングし、前のアライメント段階でアライメントが芳しくない状況を改善することができる。
要するに、本出願の実施例における画像処理方法は、画像処理におけるマルチフレームアライメント及びフュージョンの品質を向上させ、画像処理による表示効果を向上させることができる。また、画像修復及びビデオ修復を実現させ、修復の正確度及び修復効果を向上させる。
以上は、方法実行プロセスの点から本出願の実施例の解決手段を説明した。画像処理装置は、上記機能を実現させるために、各機能を実行するためのハードウェア構造及び/又はソフトウェアモジュールを備える。本明細書に開示されている実施例に記載の各例におけるユニット及びアルゴリズムステップと合わせて、本出願は、ハードウェア又はハードウェアとコンピュータソフトウェアの組み合わせにより実現することができることは、当業者であれば容易に理解すべきである。機能がハードウェアによって実行されるかコンピュータソフトウェアによるハードウェア駆動の形態で実行されるかは、技術的解決手段の、特定の適用例、及び設計制約条件に依存する。当業者は、特定の適用について、説明された機能を様々な方法で実現させることができるが、このような実現も本出願の範囲に属する。
本出願の実施例は、上記方法の例に基づいて、画像処理装置について機能ユニットの分割を行うことができる。例えば、各機能に対応するように、各機能ユニットを分割することができる。また、2つ又は2つ以上の機能を1つの処理ユニットに集積することもできる。上記集積ユニットは、ハードウェアの形態で実現してもよいし、ソフトウェア機能ユニットの形態で実現してもよい。本出願の実施例において、ユニットの分割は模式的なものであり、ただロジック機能の分割であり、実際に実現する時は他の分割方式によってもよい。
本出願の実施例による画像処理装置の構造を示す概略図である図6を参照されたい。図6に示すように、該画像処理装置300は、アライメントモジュール310と、フュージョンモジュール320とを備え、
上記アライメントモジュール310は、処理対象画像フレーム及び上記処理対象画像フレームに隣接する1つ又は複数の画像フレームを含む画像フレームシーケンスを取得し、上記処理対象画像フレームと上記画像フレームシーケンスにおける画像フレームに対して画像アライメントを行い、複数のアライメント特徴データを得るように構成され、
上記フュージョンモジュール320は、上記複数のアライメント特徴データに基づいて、上複数のアライメント特徴データと前記処理対象画像フレームに対応するアライメント特徴データとの複数の類似度特徴を決定し、上記複数の類似度特徴に基づいて、上記複数のアライメント特徴データのうちの各アライメント特徴データの重み情報を決定するように構成され、
上記フュージョンモジュール320は更に、上記各アライメント特徴データの重み情報に基づいて、上記複数のアライメント特徴データに対してフュージョンを行い、上記画像フレームシーケンスのフュージョン情報を得て、上記フュージョン情報が、上記処理対象画像フレームに対応する処理後の画像フレームを取得するためのものであるように構成される。
本出願の任意選択的な実施例において、上記アライメントモジュール310は、第1画像特徴セット及び1つ又は複数の第2画像特徴セットに基づいて、上記処理対象画像フレームと上記画像フレームシーケンスにおける画像フレームに対して画像アライメントを行い、複数のアライメント特徴データを得るように構成され、ここで、上記第1画像特徴セットが、上記処理対象画像フレームの少なくとも1つの異なるスケールの特徴データを含み、上記第2画像特徴セットが、前記画像フレームシーケンスにおける1つの画像フレームの少なくとも1つの異なるスケールの特徴データを含む。
本出願の任意選択的な実施例において、上記アライメントモジュール310は、上記第1画像特徴セット内のスケールが最も小さい第1特徴データ、及び上記第2画像特徴セットにおけるスケールが上記第1特徴データのスケールと同じである第2特徴データを取得し、上記第1特徴データと上記第2特徴データについて画像アライメントを行い、第1アライメント特徴データを得て、上記第1画像特徴セット内のスケールが二番目に小さい第3特徴データ、及び上記第2画像特徴セットにおけるスケールが上記第3特徴データのスケールと同じである第4特徴データを取得し、上記第1アライメント特徴データに対してアップサンプリング畳み込みを行い、スケールが上記第3特徴データのスケールと同じである第1アライメント特徴データを得て、上記アップサンプリング畳み込み後の第1アライメント特徴データに基づいて、上記第3特徴データと前記第4特徴データに対して画像アライメントを行い、第2アライメント特徴データを得て、スケールが上記処理対象画像フレームのスケールと同じであるアライメント特徴データを得るまで、上記スケールの昇順で上記のステップを繰り返して実行し、全ての上記第2画像特徴セットに基づいて上記のステップを実行して、上記複数のアライメント特徴データを得るように構成される。
本出願の任意選択的な実施例において、上記アライメントモジュール310は更に、複数のアライメント特徴データを得る前に、変形可能な畳み込みネットワークによって、各上記アライメント特徴データを調整し、調整後の上記複数のアライメント特徴データを得るように構成される。
本出願の任意選択的な実施例において、上記フュージョンモジュール320は、各上記アライメント特徴データと上記処理対象画像フレームに対応するアライメント特徴データとのドット積を計算するによって、上記複数のアライメント特徴データと上記処理対象画像フレームに対応するアライメント特徴データとの複数の類似度特徴を決定するように構成される。
本出願の任意選択的な実施例において、上記フュージョンモジュール320は更に、所定の活性化関数、及び上記複数のアライメント特徴データと上記処理対象画像フレームに対応するアライメント特徴データとの複数の類似度特徴に基づいて、上記各アライメント特徴データの重み情報を決定するように構成される。
本出願の任意選択的な実施例において、上記フュージョンモジュール320は、フュージョン畳み込みネットワークを利用して、上記各アライメント特徴データの重み情報に基づいて、上記複数のアライメント特徴データに対してフュージョンを行い、上記画像フレームシーケンスのフュージョン情報を得るように構成される。
本出願の任意選択的な実施例において、上記フュージョンモジュール320は、要素レベル乗算によって、上記各アライメント特徴データと上記各アライメント特徴データの重み情報を乗算し、上記複数のアライメント特徴データの複数の変調特徴データを得て、上記フュージョン畳み込みネットワークを利用して上記複数の変調特徴データをフュージョンし、上記画像フレームシーケンスのフュージョン情報を得るように構成される。
任意選択的な実施形態において、上記フュージョンモジュール320は、空間的ユニット321を備え、前記空間的ユニットは、上記フュージョンモジュールがフュージョン畳み込みネットワークを利用して、上記各アライメント特徴データの重み情報に基づいて、上記複数のアライメント特徴データに対してフュージョンを行い、上記画像フレームシーケンスのフュージョン情報を得た後に、上記画像フレームシーケンスのフュージョン情報に基づいて、空間的特徴データを生成し、上記空間的特徴データにおける各要素点の空間的アテンション情報に基づいて、上記空間的特徴データを変調し、上記処理対象画像フレームに対応する処理後の画像フレームを取得するための変調後のフュージョン情報を得るように構成される。
任意選択的な実施形態において、上記空間的ユニット321は、上記空間的特徴データにおける各要素点の空間的アテンション情報に基づいて、要素レベル乗算と加算によって、上記空間的特徴データにおける前記各要素点を対応的に変調し、上記変調後のフュージョン情報を得るように構成される。
本出願の任意選択的な実施例において、上記画像処理装置300にニューラルネットワークが配置されており、上記ニューラルネットワークは、複数のサンプル画像フレームペアを含むデータセットを利用して訓練されたものであり、上記サンプル画像フレームペアには、複数の第1サンプル画像フレーム及び上記複数の第1サンプル画像フレームにそれぞれ対応する第2サンプル画像フレームが含まれ、上記第1サンプル画像フレームの解像度は、上記第2サンプル画像フレームの解像度より低い。
本出願の任意選択的な実施例において、上記画像処理装置300は、サンプリングモジュール330を更に備え、前記サンプリングモジュールは、画像フレームシーケンスを取得する前に、取得されたビデオシーケンスにおける各ビデオフレームに対してサブサンプリングを行い、上記画像フレームシーケンスを得るように構成される。
本出願の任意選択的な実施例において、上記画像処理装置300は、前処理モジュール340を更に備え、前記前処理モジュールは、上記処理対象画像フレームと上記画像フレームシーケンスにおける画像フレームに対して画像アライメントを行う前に、上記画像フレームシーケンスにおける画像フレームに対してボケ除去処理を行うように構成される。
本出願の任意選択的な実施例において、上記画像処理装置300は、再構築モジュール350を更に備え、前記再構築モジュールは、上記画像フレームシーケンスのフュージョン情報に基づいて、上記処理対象画像フレームに対応する処理後の画像フレームを取得するように構成される。
本出願の実施例における画像処理装置300によれば、上記図1及び図2に示した実施例における画像処理方法を実現させることができる。
図6に示した画像処理装置300を実行すると、画像処理装置300は、処理対象画像フレーム及び上記処理対象画像フレームに隣接する1つ又は複数の画像フレームを含む画像フレームシーケンスを取得し、上記処理対象画像フレームと上記画像フレームシーケンスにおける画像フレームに対して画像アライメントを行い、複数のアライメント特徴データを得る。更に、上記複数のアライメント特徴データに基づいて、上記複数のアライメント特徴データと上記処理対象画像フレームに対応するアライメント特徴データとの複数の類似度特徴を決定し、上記複数の類似度特徴に基づいて、上記複数のアライメント特徴データのうちの各アライメント特徴データの重み情報を決定し、上記各アライメント特徴データの重み情報に基づいて、上記複数のアライメント特徴データに対してフュージョンを行い、上記画像フレームシーケンスのフュージョン情報を得て、上記フュージョン情報が、上記処理対象画像フレームに対応する処理後の画像フレームを取得するためのものである。画像処理におけるマルチフレームアライメント及びフュージョンの品質を大幅に向上させ、画像処理による表示効果を向上させると共に、画像修復及びビデオ修復を実現させ、修復の正確度及び修復効果を向上させることができる。
本出願の実施例によるもう1つの画像処理装置の構造を示す概略図である図7を参照されたい。該画像処理装置400は、処理モジュール410と出力モジュール420とを備え、
上記処理モジュール410は、ビデオ収集装置により収集された第1ビデオストリームにおける画像フレームシーケンスの解像度が所定の閾値以下である場合、図1及び/又は図2に示した実施例の方法における任意のステップにより、上記画像フレームシーケンスにおける各画像フレームを順に処理し、処理後の画像フレームシーケンスを得るように構成され、
上記出力モジュール420は、上記処理後の画像フレームシーケンスからなる第2ビデオストリームを出力及び/又は表示するように構成される。
図7に示した画像処理装置400を実行すると、画像処理装置400は、処理対象画像フレーム及び上記処理対象画像フレームに隣接する1つ又は複数の画像フレームを含む画像フレームシーケンスを取得し、上記処理対象画像フレームと上記画像フレームシーケンスにおける画像フレームに対して画像アライメントを行い、複数のアライメント特徴データを得る。更に、上記複数のアライメント特徴データに基づいて、上記複数のアライメント特徴データと上記処理対象画像フレームに対応するアライメント特徴データとの複数の類似度特徴を決定し、上記複数の類似度特徴に基づいて、上記複数のアライメント特徴データのうちの各アライメント特徴データの重み情報を決定し、上記各アライメント特徴データの重み情報に基づいて、上記複数のアライメント特徴データに対してフュージョンを行い、上記画像フレームシーケンスのフュージョン情報を得て、上記フュージョン情報が、上記処理対象画像フレームに対応する処理後の画像フレームを取得するためのものである。画像処理におけるマルチフレームアライメント及びフュージョンの品質を大幅に向上させ、画像処理による表示効果を向上させると共に、画像修復及びビデオ修復を実現させ、修復の正確度及び修復効果を向上させることができる。
本出願の実施例による電子機器の構造を示す概略図である図8を参照されたい。図8に示すように、該電子機器500は、プロセッサ501とメモリ502とを備える。ここで、電子機器500は、バス503を更に備えてもよい。プロセッサ501とメモリ502はバス503を介して接続される。バス503は、ペリフェラルコンポーネントインターコネクト(Peripheral Component Interconnect:PCI)バス又は拡張業界標準アーキテクチャ(Extended Industry Standard Architecture:EISA)バスなどであってもよい。バス503は、アドレスバス、データバス、制御バスなどに分けられてもよい。表示を容易にするために、図8において、1本の太線のみで表すが、1本のバス又は1つのタイプのバスのみを有することを意味しない。ここで、電子機器500は、入力出力装置504を更に備えてもよい。入力出力装置504は、液晶ディスプレイのようなディスプレイを含んでもよい。メモリ502は、コンピュータプログラムを記憶するためのものである。プロセッサ501は、メモリ502に記憶されたコンピュータプログラムを呼び出して上記図1及び図2に示した実施例における一部又は全ての方法のステップを実行するためのものである。
図8に示した電子機器500を実行すると、電子機器500は、処理対象画像フレーム及び上記処理対象画像フレームに隣接する1つ又は複数の画像フレームを含む画像フレームシーケンスを取得し、上記処理対象画像フレームと上記画像フレームシーケンスにおける画像フレームに対して画像アライメントを行い、複数のアライメント特徴データを得る。更に、上記複数のアライメント特徴データに基づいて、上記複数のアライメント特徴データと上記処理対象画像フレームに対応するアライメント特徴データとの複数の類似度特徴を決定し、上記複数の類似度特徴に基づいて、上記複数のアライメント特徴データのうちの各アライメント特徴データの重み情報を決定し、上記各アライメント特徴データの重み情報に基づいて、上記複数のアライメント特徴データに対してフュージョンを行い、上記画像フレームシーケンスのフュージョン情報を得て、上記フュージョン情報が、上記処理対象画像フレームに対応する処理後の画像フレームを取得するためのものである。画像処理におけるマルチフレームアライメント及びフュージョンの品質を大幅に向上させ、画像処理による表示効果を向上させると共に、画像修復及びビデオ修復を実現させ、修復の正確度及び修復効果を向上させることができる。
本出願の実施例は、コンピュータ記憶媒体を更に提供する。該コンピュータ記憶媒体は、コンピュータプログラムを記憶するためのものである。該コンピュータプログラムは、コンピュータに、上記方法実施例に記載のいずれか1つの画像処理方法の一部又は全てのステップを実行させる。
前記各方法実施例について、説明の簡素化のため、一連の動作の組み合わせとして説明するが。本出願は、記述された動作の順番に限定されないことは、当業者であれば、理解すべきである。本出願によれば、これらのステップは他の順番で実行してもよいし、同時に実行してもよい。また、明細書に記述された実施例はいずれも好適な実施例であり、関わる動作及びモジュールが、本出願にとって必ずしも不可欠ではないことは、当業者であれば、理解すべきである。
前記実施例において、各々の実施例に対する説明はそれぞれ偏りがあって、ある実施例に詳しく説明されていない部分に対して、ほかの実施例に関する説明を参照することができる。
本出願で提供される幾つかの実施例において、開示される装置及び方法は、他の方式によって実現できることを理解すべきである。例えば、以上に記載している装置の実施例はただ例示的なもので、例えば、前記ユニットの分割はただロジック機能の分割で、実際に実現する時は他の分割方式によってもよい。例えば、複数のユニット又は組立体を組み合わせてもよいし、別のシステムに組み込んでもよい。又は若干の特徴を無視してもよいし、実行しなくてもよい。また、示したか或いは検討した相互間の結合又は直接的な結合又は通信接続は、幾つかのインターフェイス、装置又はユニットによる間接的な結合又は通信接続であってもよく、電気的、機械的または他の形態であってもよい。
分離部材として説明したユニット(モジュール)は、物理的に別個のものであってもよいし、そうでなくてもよい。ユニットとして示された部材は、物理的ユニットであってもよいし、そうでなくてもよい。即ち、同一の位置に位置してもよいし、複数のネットワークに分布してもよい。実際の需要に応じてそのうちの一部又は全てのユニットにより本実施例の方策の目的を実現することができる。
また、本発明の各実施例における各機能ユニットは一つの処理ユニットに集積されてもよいし、各ユニットが物理的に別個のものとして存在してもよいし、2つ以上のユニットが一つのユニットに集積されてもよい。上記集積したユニットはハードウェアとして実現してもよく、ハードウェアとソフトウェア機能ユニットとの組み合わせで実現してもよい。
上記集積したユニットがソフトウェア機能ユニットの形で実現され、かつ独立した製品として販売または使用されるとき、コンピュータにより読み取り可能な記憶媒体内に記憶されてもよい。このような理解のもと、本出願の技術的解決手段は、本質的に、又は、従来技術に対して貢献をもたらした部分又は該技術的解決手段の一部は、ソフトウェア製品の形式で具現することができ、このようなコンピュータソフトウェア製品は、メモリに記憶しても良く、また、コンピュータ設備(パソコン、サーバ、又はネットワーク装置など)に、本発明の各実施例に記載の方法の全部又は一部のステップを実行させるための若干の命令を含む。前記のメモリは、USBスティック、読み出し専用メモリ(Read-Only Memory:ROM)、ランダムアクセスメモリ(Random Access Memory:RAM)、バブルハードディスク、磁気ディスク又は光ディスクなど、プログラムコードを記憶可能な各種の媒体を含む。
上記実施例における各方法の全ての又は一部のステップを、プログラムにより関連ハードウェアを命令することで実行することができることは、当業者であれば理解されるべきである。該プログラムは、コンピュータ可読メモリに記憶されてもよい。メモリは、フラッシュディスク、読み出し専用メモリ、ランダムアクセスメモリ、磁気ディスク又は光ディスクなどを含んでもよい。
以上、本出願の実施例を詳しく説明した。本明細書において具体的な例を利用して本出願の原理及び実施形態を説明する。上記実施例の説明は、本出願の方法及びその要旨を理解しやすくするためのものに過ぎない。また、当業者であれば、本出願の要旨に基づいて、具体的な実施形態及び適用範囲を変更することもできる。要するに、本明細書は、本出願を限定するものと理解されない。

Claims (18)

  1. 画像処理方法であって、前記方法は、
    処理対象画像フレームと前記処理対象画像フレームに隣接する1つ又は複数の画像フレームとを含む画像フレームシーケンスを取得し、前記処理対象画像フレームと前記画像フレームシーケンスにおける画像フレームに対して画像アライメントを行い、複数のアライメント特徴データを得ることと、
    前記複数のアライメント特徴データに基づいて、前記複数のアライメント特徴データと前記処理対象画像フレームに対応するアライメント特徴データとの複数の類似度特徴を決定し、前記複数の類似度特徴に基づいて、前記複数のアライメント特徴データのうちの各アライメント特徴データの重み情報を決定することと、
    前記各アライメント特徴データの重み情報に基づいて、前記複数のアライメント特徴データに対してフュージョンを行い、前記画像フレームシーケンスのフュージョン情報を得て、前記フュージョン情報が、前記処理対象画像フレームに対応する処理後の画像フレームを取得するためのものであることと、を含
    前記各アライメント特徴データの重み情報に基づいて、前記複数のアライメント特徴データに対してフュージョンを行い、前記画像フレームシーケンスのフュージョン情報を得ることは、
    フュージョン畳み込みネットワークを利用して、前記各アライメント特徴データの重み情報に基づいて、前記複数のアライメント特徴データに対してフュージョンを行い、前記画像フレームシーケンスのフュージョン情報を得ることを含むことを特徴とする、
    画像処理方法。
  2. 前記処理対象画像フレームと前記画像フレームシーケンスにおける画像フレームに対して画像アライメントを行い、複数のアライメント特徴データを得ることは、
    第1画像特徴セット及び1つ又は複数の第2画像特徴セットに基づいて、前記処理対象画像フレームと前記画像フレームシーケンスにおける画像フレームに対して画像アライメントを行い、複数のアライメント特徴データを得て、ここで、前記第1画像特徴セットが、前記処理対象画像フレームの少なくとも1つの異なるスケールの特徴データを含み、前記第2画像特徴セットが、前記画像フレームシーケンスにおける1つの画像フレームの少なくとも1つの異なるスケールの特徴データを含むことを含むことを特徴とする
    請求項1に記載の画像処理方法。
  3. 第1画像特徴セット及び1つ又は複数の第2画像特徴セットに基づいて、前記処理対象画像フレームと前記画像フレームシーケンスにおける画像フレームに対して画像アライメントを行い、複数のアライメント特徴データを得ることは、
    前記第1画像特徴セット内のスケールが最も小さい第1特徴データ、及び前記第2画像特徴セット内のスケールが前記第1特徴データのスケールと同じである第2特徴データを取得し、前記第1特徴データと前記第2特徴データに対して画像アライメントを行い、第1アライメント特徴データを得ることと、
    前記第1画像特徴セット内のスケールが二番目に小さい第3特徴データ、及び前記第2画像特徴セット内のスケールが前記第3特徴データのスケールと同じである第4特徴データを取得し、前記第1アライメント特徴データに対してアップサンプリング畳み込みを行い、スケールが前記第3特徴データのスケールと同じである第1アライメント特徴データを得ることと、
    前記アップサンプリング畳み込み後の第1アライメント特徴データに基づいて、前記第3特徴データと前記第4特徴データに対して画像アライメントを行い、第2アライメント特徴データを得ることと、
    スケールが前記処理対象画像フレームのスケールと同じであるアライメント特徴データを得るまで、前記スケールの昇順で上記のステップを繰り返して実行することと、
    全ての前記第2画像特徴セットに基づいて上記のステップを実行して、前記複数のアライメント特徴データを得ることと、を含むことを特徴とする
    請求項2に記載の画像処理方法。
  4. 複数のアライメント特徴データを得る前に、前記方法は、
    変形可能な畳み込みネットワークによって、各前記アライメント特徴データを調整し、調整後の前記複数のアライメント特徴データを得ることを更に含むことを特徴とする
    請求項3に記載の画像処理方法。
  5. 前記複数のアライメント特徴データに基づいて、前記複数のアライメント特徴データと前記処理対象画像フレームに対応するアライメント特徴データとの複数の類似度特徴を決定することは、
    各前記アライメント特徴データと前記処理対象画像フレームに対応するアライメント特徴データとのドット積を計算するによって、前記複数のアライメント特徴データと前記処理対象画像フレームに対応するアライメント特徴データとの複数の類似度特徴を決定することを含むことを特徴とする
    請求項1から4のうちいずれか一項に記載の画像処理方法。
  6. 前記複数の類似度特徴に基づいて、前記複数のアライメント特徴データのうちの各アライメント特徴データの重み情報を決定することは、
    所定の活性化関数、及び前記複数のアライメント特徴データと前記処理対象画像フレームに対応するアライメント特徴データとの複数の類似度特徴に基づいて、前記各アライメント特徴データの重み情報を決定することを含むことを特徴とする
    請求項5に記載の画像処理方法。
  7. フュージョン畳み込みネットワークを利用して、前記各アライメント特徴データの重み情報に基づいて、前記複数のアライメント特徴データに対してフュージョンを行い、前記画像フレームシーケンスのフュージョン情報を得ることは、
    要素レベル乗算によって、前記各アライメント特徴データと前記各アライメント特徴データの重み情報を乗算し、前記複数のアライメント特徴データの複数の変調特徴データを得ることと、
    前記フュージョン畳み込みネットワークを利用して、前記複数の変調特徴データをフュージョンし、前記画像フレームシーケンスのフュージョン情報を得ることとを含むことを特徴とする
    請求項に記載の画像処理方法。
  8. フュージョン畳み込みネットワークを利用して、前記各アライメント特徴データの重み情報に基づいて、前記複数のアライメント特徴データに対してフュージョンを行い、前記画像フレームシーケンスのフュージョン情報を得た後に、前記方法は、
    前記画像フレームシーケンスのフュージョン情報に基づいて、空間的特徴データを生成することと、
    前記空間的特徴データにおける各要素点の空間的アテンション情報に基づいて、前記空間的特徴データを変調し、変調後のフュージョン情報を得、前記変調後のフュージョン情報が、前記処理対象画像フレームに対応する処理後の画像フレームを取得するためのものであることとを更に含むことを特徴とする
    請求項7に記載の画像処理方法。
  9. 前記空間的特徴データにおける各要素点の空間的アテンション情報に基づいて、前記空間的特徴データを変調し、変調後のフュージョン情報を得ることは、
    前記空間的特徴データにおける各要素点の空間的アテンション情報に基づいて、要素レベル乗算と加算によって、前記空間的特徴データにおける前記各要素点を対応的に変調し、前記変調後のフュージョン情報を得ることを含むことを特徴とする
    請求項に記載の画像処理方法。
  10. 前記画像処理方法は、ニューラルネットワークに基づいて実現され、
    前記ニューラルネットワークは、複数のサンプル画像フレームペアを含むデータセットを利用して訓練されたものであり、前記サンプル画像フレームペアに、複数の第1サンプル画像フレーム及び前記複数の第1サンプル画像フレームにそれぞれ対応する第2サンプル画像フレームが含まれ、前記第1サンプル画像フレームの解像度は、前記第2サンプル画像フレームの解像度より低いことを特徴とする
    請求項1からのうちいずれか一項に記載の画像処理方法。
  11. 画像フレームシーケンスを取得する前に、前記方法は、
    取得されたビデオシーケンスにおける各ビデオフレームに対してサブサンプリングを行い、前記画像フレームシーケンスを得ることを更に含むことを特徴とする
    請求項1から10のうちいずれか一項に記載の画像処理方法。
  12. 前記処理対象画像フレームと前記画像フレームシーケンスにおける画像フレームに対して画像アライメントを行う前に、前記方法は、
    前記画像フレームシーケンスにおける画像フレームに対してボケ除去処理を行うことを更に含むことを特徴とする
    請求項1から11のうちいずれか一項に記載の画像処理方法。
  13. 前記方法は、
    前記画像フレームシーケンスのフュージョン情報に基づいて、前記処理対象画像フレームに対応する処理後の画像フレームを取得することを更に含むことを特徴とする
    請求項1から12のうちいずれか一項に記載の画像処理方法。
  14. 画像処理方法であって、前記方法は、
    ビデオ収集装置により収集された第1ビデオストリームにおける画像フレームシーケンスの解像度が所定の閾値以下である場合、請求項1-13のうちいずれか一項に記載の方法により、前記画像フレームシーケンスにおける各画像フレームを順に処理し、処理後の画像フレームシーケンスを得ることと、
    前記処理後の画像フレームシーケンスからなる第2ビデオストリームを出力及び/又は表示することとを含む、画像処理方法。
  15. 画像処理装置であって、アライメントモジュールとフュージョンモジュールとを備え、
    前記アライメントモジュールは、処理対象画像フレームと前記処理対象画像フレームに隣接する1つ又は複数の画像フレームとを含む画像フレームシーケンスを取得し、前記処理対象画像フレームと前記画像フレームシーケンスにおける画像フレームに対して画像アライメントを行い、複数のアライメント特徴データを得るように構成され、
    前記フュージョンモジュールは、前記複数のアライメント特徴データに基づいて、前記複数のアライメント特徴データと前記処理対象画像フレームに対応するアライメント特徴データとの複数の類似度特徴を決定し、前記複数の類似度特徴に基づいて、前記複数のアライメント特徴データのうちの各アライメント特徴データの重み情報を決定するように構成され、
    前記フュージョンモジュールは更に、前記各アライメント特徴データの重み情報に基づいて、前記複数のアライメント特徴データに対してフュージョンを行い、前記画像フレームシーケンスのフュージョン情報を得て、前記フュージョン情報が、前記処理対象画像フレームに対応する処理後の画像フレームを取得するためのものであるように構成され、
    前記フュージョンモジュールは更に、フュージョン畳み込みネットワークを利用して、前記各アライメント特徴データの重み情報に基づいて、前記複数のアライメント特徴データに対してフュージョンを行い、前記画像フレームシーケンスのフュージョン情報を得るように構成される、
    画像処理装置。
  16. 画像処理装置であって、処理モジュールと、出力モジュールとを備え、
    前記処理モジュールは、ビデオ収集装置により収集された第1ビデオストリームにおける画像フレームシーケンスの解像度が所定の閾値以下である場合、請求項1-13のうちいずれか一項に記載の方法により、前記画像フレームシーケンスにおける各画像フレームを順に処理し、処理後の画像フレームシーケンスを得るように構成され、
    前記出力モジュールは、前記処理後の画像フレームシーケンスからなる第2ビデオストリームを出力及び/又は表示するように構成される、画像処理装置。
  17. 電子機器であって、前記電子機器は、プロセッサと、メモリとを備え、前記メモリは、コンピュータプログラムを記憶するためのものであり、前記コンピュータプログラムは、前記プロセッサにより実行されるように構成され、前記プロセッサは、請求項1-13のうちいずれか一項に記載の方法を実行するためのものであるか、又は、前記プロセッサは、請求項14に記載の方法を実行するためのものである、電子機器。
  18. コンピュータ可読記憶媒体であって、前記コンピュータ可読記憶媒体は、コンピュータプログラムを記憶するためのものであり、前記コンピュータプログラムは、コンピュータに請求項1-13のうちいずれか一項に記載の方法を実行させるか、又は、前記コンピュータプログラムは、コンピュータに請求項14に記載の方法を実行させる、コンピュータ可読記憶媒体。
JP2021503598A 2019-04-30 2019-08-19 画像処理方法及び装置、電子機器並びに記憶媒体 Active JP7093886B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
CN201910361208.9A CN110070511B (zh) 2019-04-30 2019-04-30 图像处理方法和装置、电子设备及存储介质
CN201910361208.9 2019-04-30
PCT/CN2019/101458 WO2020220517A1 (zh) 2019-04-30 2019-08-19 图像处理方法和装置、电子设备及存储介质

Publications (2)

Publication Number Publication Date
JP2021531588A JP2021531588A (ja) 2021-11-18
JP7093886B2 true JP7093886B2 (ja) 2022-06-30

Family

ID=67369789

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2021503598A Active JP7093886B2 (ja) 2019-04-30 2019-08-19 画像処理方法及び装置、電子機器並びに記憶媒体

Country Status (6)

Country Link
US (1) US20210241470A1 (ja)
JP (1) JP7093886B2 (ja)
CN (1) CN110070511B (ja)
SG (1) SG11202104181PA (ja)
TW (1) TWI728465B (ja)
WO (1) WO2020220517A1 (ja)

Families Citing this family (64)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110070511B (zh) * 2019-04-30 2022-01-28 北京市商汤科技开发有限公司 图像处理方法和装置、电子设备及存储介质
CN110392264B (zh) * 2019-08-26 2022-10-28 中国科学技术大学 一种基于神经网络的对齐外插帧方法
CN110545376B (zh) * 2019-08-29 2021-06-25 上海商汤智能科技有限公司 通信方法及装置、电子设备和存储介质
CN110765863B (zh) * 2019-09-17 2022-05-17 清华大学 一种基于时空约束的目标聚类方法及系统
CN110689061B (zh) * 2019-09-19 2023-04-28 小米汽车科技有限公司 一种基于对齐特征金字塔网络的图像处理方法、装置及系统
CN110675355B (zh) * 2019-09-27 2022-06-17 深圳市商汤科技有限公司 图像重建方法及装置、电子设备和存储介质
CN112584158B (zh) * 2019-09-30 2021-10-15 复旦大学 视频质量增强方法和系统
CN110781223A (zh) * 2019-10-16 2020-02-11 深圳市商汤科技有限公司 数据处理方法及装置、处理器、电子设备及存储介质
CN110827200B (zh) * 2019-11-04 2023-04-07 Oppo广东移动通信有限公司 一种图像超分重建方法、图像超分重建装置及移动终端
CN110852951B (zh) * 2019-11-08 2023-04-07 Oppo广东移动通信有限公司 图像处理方法、装置、终端设备及计算机可读存储介质
CN110929622B (zh) 2019-11-15 2024-01-05 腾讯科技(深圳)有限公司 视频分类方法、模型训练方法、装置、设备及存储介质
CN111062867A (zh) * 2019-11-21 2020-04-24 浙江大华技术股份有限公司 一种视频超分辨率重建方法
CN110969632B (zh) * 2019-11-28 2020-09-08 北京推想科技有限公司 一种深度学习模型的训练方法、图像处理方法及装置
CN112927144A (zh) * 2019-12-05 2021-06-08 北京迈格威科技有限公司 图像增强方法、图像增强装置、介质和电子设备
CN110992731B (zh) * 2019-12-12 2021-11-05 苏州智加科技有限公司 基于激光雷达的3d车辆检测方法、装置及存储介质
CN113116358B (zh) * 2019-12-30 2022-07-29 华为技术有限公司 心电图的显示方法、装置、终端设备和存储介质
CN111145192B (zh) * 2019-12-30 2023-07-28 维沃移动通信有限公司 图像处理方法及电子设备
CN111163265A (zh) * 2019-12-31 2020-05-15 成都旷视金智科技有限公司 图像处理方法、装置、移动终端及计算机存储介质
CN111104930B (zh) * 2019-12-31 2023-07-11 腾讯科技(深圳)有限公司 视频处理方法、装置、电子设备及存储介质
CN111260560B (zh) * 2020-02-18 2020-12-22 中山大学 一种融合注意力机制的多帧视频超分辨率方法
CN111275653B (zh) * 2020-02-28 2023-09-26 北京小米松果电子有限公司 图像去噪方法及装置
CN111353967B (zh) * 2020-03-06 2021-08-24 浙江杜比医疗科技有限公司 一种图像获取方法、装置和电子设备及可读存储介质
CN111047516B (zh) * 2020-03-12 2020-07-03 腾讯科技(深圳)有限公司 图像处理方法、装置、计算机设备和存储介质
CN111402118B (zh) * 2020-03-17 2023-03-24 腾讯科技(深圳)有限公司 图像替换方法、装置、计算机设备和存储介质
CN111462004B (zh) * 2020-03-30 2023-03-21 推想医疗科技股份有限公司 图像增强方法和装置、计算机设备、存储介质
WO2021248356A1 (en) * 2020-06-10 2021-12-16 Huawei Technologies Co., Ltd. Method and system for generating images
CN111738924A (zh) * 2020-06-22 2020-10-02 北京字节跳动网络技术有限公司 图像处理方法及装置
CN111915587B (zh) * 2020-07-30 2024-02-02 北京大米科技有限公司 视频处理方法、装置、存储介质和电子设备
CN112036260B (zh) * 2020-08-10 2023-03-24 武汉星未来教育科技有限公司 一种自然环境下多尺度子块聚合的表情识别方法及系统
CN111932480A (zh) * 2020-08-25 2020-11-13 Oppo(重庆)智能科技有限公司 去模糊视频恢复方法、装置、终端设备以及存储介质
CN112101252B (zh) * 2020-09-18 2021-08-31 广州云从洪荒智能科技有限公司 一种基于深度学习的图像处理方法、系统、设备及介质
CN112215140A (zh) * 2020-10-12 2021-01-12 苏州天必佑科技有限公司 一种基于时空对抗的3维信号处理方法
CN112435313A (zh) * 2020-11-10 2021-03-02 北京百度网讯科技有限公司 播放帧动画的方法、装置、电子设备及可读存储介质
CN112801875B (zh) * 2021-02-05 2022-04-22 深圳技术大学 超分辨率重建方法、装置、计算机设备和存储介质
CN112801877B (zh) * 2021-02-08 2022-08-16 南京邮电大学 一种视频帧的超分辨率重构方法
CN112785632B (zh) * 2021-02-13 2024-05-24 常州市第二人民医院 基于epid的图像引导放疗中dr和drr影像跨模态自动配准方法
CN113592709B (zh) * 2021-02-19 2023-07-25 腾讯科技(深圳)有限公司 图像超分处理方法、装置、设备及存储介质
CN113034401B (zh) * 2021-04-08 2022-09-06 中国科学技术大学 视频去噪方法及装置、存储介质及电子设备
CN112990171B (zh) * 2021-05-20 2021-08-06 腾讯科技(深圳)有限公司 图像处理方法、装置、计算机设备及存储介质
CN113191316A (zh) * 2021-05-21 2021-07-30 上海商汤临港智能科技有限公司 图像处理方法、装置、电子设备及存储介质
CN113316001B (zh) * 2021-05-25 2023-04-11 上海哔哩哔哩科技有限公司 视频对齐方法及装置
CN113469908B (zh) * 2021-06-29 2022-11-18 展讯通信(上海)有限公司 图像降噪方法、装置、终端、存储介质
CN113628134B (zh) * 2021-07-28 2024-06-14 商汤集团有限公司 图像降噪方法及装置、电子设备及存储介质
CN113344794B (zh) * 2021-08-04 2021-10-29 腾讯科技(深圳)有限公司 一种图像处理方法、装置、计算机设备及存储介质
CN113610725A (zh) * 2021-08-05 2021-11-05 深圳市慧鲤科技有限公司 图片处理方法、装置、电子设备及存储介质
CN113658047A (zh) * 2021-08-18 2021-11-16 北京石油化工学院 一种结晶图像超分辨率重建方法
CN113781336B (zh) * 2021-08-31 2024-02-02 Oppo广东移动通信有限公司 图像处理的方法、装置、电子设备与存储介质
CN113706385A (zh) * 2021-09-02 2021-11-26 北京字节跳动网络技术有限公司 一种视频超分辨率方法、装置、电子设备及存储介质
CN113781444B (zh) * 2021-09-13 2024-01-16 北京理工大学重庆创新中心 基于多层感知机校正的快速拼接航拍图像的方法和系统
CN113689356B (zh) * 2021-09-14 2023-11-24 三星电子(中国)研发中心 一种图像修复的方法和装置
CN113781312B (zh) * 2021-11-11 2022-03-25 深圳思谋信息科技有限公司 视频增强方法、装置、计算机设备和存储介质
CN113822824B (zh) * 2021-11-22 2022-02-25 腾讯科技(深圳)有限公司 视频去模糊方法、装置、设备及存储介质
KR20230090716A (ko) * 2021-12-15 2023-06-22 삼성전자주식회사 연사 영상 기반의 영상 복원 방법 및 장치
CN116362976A (zh) * 2021-12-22 2023-06-30 北京字跳网络技术有限公司 一种模糊视频修复方法及装置
CN114071167B (zh) * 2022-01-13 2022-04-26 浙江大华技术股份有限公司 视频增强方法、装置、解码方法、解码器及电子设备
TWI817896B (zh) * 2022-02-16 2023-10-01 鴻海精密工業股份有限公司 機器學習方法以及裝置
CN114254715B (zh) * 2022-03-02 2022-06-03 自然资源部第一海洋研究所 一种gf-1 wfv卫星影像超分辨率方法、系统及应用
CN114782296B (zh) * 2022-04-08 2023-06-09 荣耀终端有限公司 图像融合方法、装置及存储介质
CN114742706B (zh) * 2022-04-12 2023-11-28 内蒙古至远创新科技有限公司 一种用于智慧环保的水污染遥感图像超分辨率重建方法
CN114757832B (zh) * 2022-06-14 2022-09-30 之江实验室 基于交叉卷积注意力对抗学习的人脸超分辨方法和装置
CN114819109B (zh) * 2022-06-22 2022-09-16 腾讯科技(深圳)有限公司 双目图像的超分辨率处理方法、装置、设备及介质
CN115861595B (zh) * 2022-11-18 2024-05-24 华中科技大学 一种基于深度学习的多尺度域自适应异源图像匹配方法
CN115953346B (zh) * 2023-03-17 2023-06-16 广州市易鸿智能装备有限公司 一种基于特征金字塔的图像融合方法、装置及存储介质
CN116563145B (zh) * 2023-04-26 2024-04-05 北京交通大学 基于颜色特征融合的水下图像增强方法及系统

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2017537403A (ja) 2014-11-27 2017-12-14 ノキア テクノロジーズ オサケユイチア 超解像画像を生成するための方法、装置およびコンピュータ・プログラム・プロダクト
CN108259997A (zh) 2018-04-02 2018-07-06 腾讯科技(深圳)有限公司 图像相关处理方法及装置、智能终端、服务器、存储介质
CN109190581A (zh) 2018-09-17 2019-01-11 金陵科技学院 图像序列目标检测识别方法

Family Cites Families (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
TWI435162B (zh) * 2012-10-22 2014-04-21 Nat Univ Chung Cheng Low complexity of the panoramic image and video bonding method
US9047666B2 (en) * 2013-03-12 2015-06-02 Futurewei Technologies, Inc. Image registration and focus stacking on mobile platforms
US9626760B2 (en) * 2014-10-30 2017-04-18 PathPartner Technology Consulting Pvt. Ltd. System and method to align and merge differently exposed digital images to create a HDR (High Dynamic Range) image
GB2536430B (en) * 2015-03-13 2019-07-17 Imagination Tech Ltd Image noise reduction
CN104820996B (zh) * 2015-05-11 2018-04-03 河海大学常州校区 一种基于视频的自适应分块的目标跟踪方法
CN106056622B (zh) * 2016-08-17 2018-11-06 大连理工大学 一种基于Kinect相机的多视点深度视频复原方法
CN106355559B (zh) * 2016-08-29 2019-05-03 厦门美图之家科技有限公司 一种图像序列的去噪方法及装置
US10565713B2 (en) * 2016-11-15 2020-02-18 Samsung Electronics Co., Ltd. Image processing apparatus and method
US10055898B1 (en) * 2017-02-22 2018-08-21 Adobe Systems Incorporated Multi-video registration for video synthesis
CN107066583B (zh) * 2017-04-14 2018-05-25 华侨大学 一种基于紧凑双线性融合的图文跨模态情感分类方法
CN108063920A (zh) * 2017-12-26 2018-05-22 深圳开立生物医疗科技股份有限公司 一种图像冻结方法、装置、设备及计算机可读存储介质
CN108428212A (zh) * 2018-01-30 2018-08-21 中山大学 一种基于双拉普拉斯金字塔卷积神经网络的图像放大方法
CN109246332A (zh) * 2018-08-31 2019-01-18 北京达佳互联信息技术有限公司 视频流降噪方法和装置、电子设备及存储介质
CN109657609B (zh) * 2018-12-19 2022-11-08 新大陆数字技术股份有限公司 人脸识别方法及系统
CN109670453B (zh) * 2018-12-20 2023-04-07 杭州东信北邮信息技术有限公司 一种提取短视频主题的方法
CN110070511B (zh) * 2019-04-30 2022-01-28 北京市商汤科技开发有限公司 图像处理方法和装置、电子设备及存储介质

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2017537403A (ja) 2014-11-27 2017-12-14 ノキア テクノロジーズ オサケユイチア 超解像画像を生成するための方法、装置およびコンピュータ・プログラム・プロダクト
CN108259997A (zh) 2018-04-02 2018-07-06 腾讯科技(深圳)有限公司 图像相关处理方法及装置、智能终端、服务器、存储介质
CN109190581A (zh) 2018-09-17 2019-01-11 金陵科技学院 图像序列目标检测识别方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
木村忠良,R&D最前線 動画を高精細化する複数フレーム超解像技術,東芝レビュー,株式会社東芝,2011年09月01日,第66巻,第9号,第62-63頁,[online],[2022年 3月14日検索],インターネット <https://www.global.toshiba/content/dam/toshiba/migration/corp/techReviewAssets/tech/review/2011/09/66_09pdf/r01.pdf>

Also Published As

Publication number Publication date
SG11202104181PA (en) 2021-05-28
US20210241470A1 (en) 2021-08-05
CN110070511A (zh) 2019-07-30
CN110070511B (zh) 2022-01-28
TWI728465B (zh) 2021-05-21
JP2021531588A (ja) 2021-11-18
WO2020220517A1 (zh) 2020-11-05
TW202042174A (zh) 2020-11-16

Similar Documents

Publication Publication Date Title
JP7093886B2 (ja) 画像処理方法及び装置、電子機器並びに記憶媒体
Huang et al. Video super-resolution via bidirectional recurrent convolutional networks
JP7155271B2 (ja) 画像処理システム及び画像処理方法
Dai et al. Softcuts: a soft edge smoothness prior for color image super-resolution
Ren et al. Deblurring dynamic scenes via spatially varying recurrent neural networks
Li et al. Learning a deep dual attention network for video super-resolution
Song et al. Multi-stage feature fusion network for video super-resolution
DE102020125197A1 (de) Feinkörnige objektsegmentierung in video mit tiefen merkmalen und graphischen mehrebenenmodellen
Zhang et al. Attention-based interpolation network for video deblurring
CN110570356A (zh) 图像处理方法和装置、电子设备及存储介质
US11641446B2 (en) Method for video frame interpolation, and electronic device
EP4207051A1 (en) Image super-resolution method and electronic device
Dutta Depth-aware blending of smoothed images for bokeh effect generation
CN114339409A (zh) 视频处理方法、装置、计算机设备及存储介质
CN112419152A (zh) 一种图像超分辨率方法、装置、终端设备和存储介质
Niu et al. A super resolution frontal face generation model based on 3DDFA and CBAM
Zhou et al. Image super-resolution based on dense convolutional auto-encoder blocks
Esmaeilzehi et al. UPDResNN: A deep light-weight image upsampling and deblurring residual neural network
Hua et al. Dynamic scene deblurring with continuous cross-layer attention transmission
Tang et al. Structure-embedded ghosting artifact suppression network for high dynamic range image reconstruction
Chen et al. High-order relational generative adversarial network for video super-resolution
Liu et al. Gradient prior dilated convolution network for remote sensing image super-resolution
CN116266336A (zh) 视频超分辨率重建方法、装置、计算设备及存储介质
Zhuang et al. Dimensional transformation mixer for ultra-high-definition industrial camera dehazing
Wu et al. VDIP-TGV: Blind image deconvolution via variational deep image prior empowered by total generalized variation

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20210121

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20210121

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20220329

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20220601

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20220614

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20220620

R150 Certificate of patent or registration of utility model

Ref document number: 7093886

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150