JP2021528795A - ビデオ画像処理方法及び装置 - Google Patents

ビデオ画像処理方法及び装置 Download PDF

Info

Publication number
JP2021528795A
JP2021528795A JP2021520271A JP2021520271A JP2021528795A JP 2021528795 A JP2021528795 A JP 2021528795A JP 2021520271 A JP2021520271 A JP 2021520271A JP 2021520271 A JP2021520271 A JP 2021520271A JP 2021528795 A JP2021528795 A JP 2021528795A
Authority
JP
Japan
Prior art keywords
image
frame
convolution
convolution kernel
feature
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2021520271A
Other languages
English (en)
Other versions
JP7123256B2 (ja
Inventor
シャンチェン ジョウ
ジアウェイ ジャン
スージエ レン
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shenzhen Sensetime Technology Co Ltd
Original Assignee
Shenzhen Sensetime Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shenzhen Sensetime Technology Co Ltd filed Critical Shenzhen Sensetime Technology Co Ltd
Publication of JP2021528795A publication Critical patent/JP2021528795A/ja
Application granted granted Critical
Publication of JP7123256B2 publication Critical patent/JP7123256B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N23/00Cameras or camera modules comprising electronic image sensors; Control thereof
    • H04N23/60Control of cameras or camera modules
    • H04N23/68Control of cameras or camera modules for stable pick-up of the scene, e.g. compensating for camera body vibrations
    • H04N23/682Vibration or motion blur correction
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N23/00Cameras or camera modules comprising electronic image sensors; Control thereof
    • H04N23/60Control of cameras or camera modules
    • H04N23/68Control of cameras or camera modules for stable pick-up of the scene, e.g. compensating for camera body vibrations
    • H04N23/681Motion detection
    • H04N23/6811Motion detection based on the image signal
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N23/00Cameras or camera modules comprising electronic image sensors; Control thereof
    • H04N23/60Control of cameras or camera modules
    • H04N23/68Control of cameras or camera modules for stable pick-up of the scene, e.g. compensating for camera body vibrations
    • H04N23/682Vibration or motion blur correction
    • H04N23/683Vibration or motion blur correction performed by a processor, e.g. controlling the readout of an image memory
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N23/00Cameras or camera modules comprising electronic image sensors; Control thereof
    • H04N23/80Camera processing pipelines; Components thereof

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Data Mining & Analysis (AREA)
  • Computing Systems (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Evolutionary Computation (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Artificial Intelligence (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Image Processing (AREA)
  • Compression Or Coding Systems Of Tv Signals (AREA)
  • Image Analysis (AREA)

Abstract

本願の実施例は、ビデオ画像処理方法及び装置を開示する。該方法は、複数フレームの連続ビデオ画像を取得することであって、前記複数フレームの連続ビデオ画像は、第Nフレームの画像、第N−1フレームの画像及び第N−1フレームのボケ除去処理後の画像を含み、前記Nは、正整数である、ことと、前記第Nフレームの画像、前記第N−1フレームの画像及び前記第N−1フレームのボケ除去処理後の画像に基づいて、前記第Nフレームの画像のボケ除去畳み込みカーネルを得ることと、前記ボケ除去畳み込みカーネルにより、前記第Nフレームの画像に対してボケ除去処理を行い、第Nフレームのボケ除去処理後の画像を得ることと、を含む。

Description

(関連出願の相互参照)
本願は、2019年04月22日に提出された、出願番号が201910325282.5である中国特許出願に基づく優先権を主張し、該中国特許出願の全内容が参照として本願に組み込まれる。
本願は、画像処理技術分野に関し、特にビデオ画像処理方法及び装置に関する。
手持ち型カメラ及び搭載カメラがますます広く適用されていることに伴い、ますます多くの人々は、カメラによりビデオを撮影し、撮影したビデオに基づいて処理を行うことができる。例えば、無人機又は自動運転自動車は、撮影したビデオに基づいて、追跡,障害物回避などの機能を実現させることができる。
カメラ振れ、焦点外れ、被写体の高速運動などの要因により、撮影ビデオにボケが発生しやすい。例えば、ロボットが動作する時、カメラ振れ又は被写体の運動によるボケは、撮影失敗を引き起こすか又はビデオに基づいた後続の処理ができなくなることを引き起こすことが多い。従来の方法において、オプティカルフロー又はニューラルネットワークにより、ビデオ画像におけるボケを除去することができるが、ボケ除去効果が低い。
本願の実施例は、ビデオ画像処理方法及び装置を提供する。
第1態様によれば、本願の実施例は、ビデオ画像処理方法を提供する。前記方法は、複数フレームの連続ビデオ画像を取得することであって、前記複数フレームの連続ビデオ画像は、第Nフレームの画像、第N−1フレームの画像及び第N−1フレームのボケ除去処理後の画像を含み、前記Nは、正整数である、ことと、前記第Nフレームの画像、前記第N−1フレームの画像及び前記第N−1フレームのボケ除去処理後の画像に基づいて、前記第Nフレームの画像のボケ除去畳み込みカーネルを得ることと、前記ボケ除去畳み込みカーネルにより、前記第Nフレームの画像に対してボケ除去処理を行い、第Nフレームのボケ除去処理後の画像を得ることと、を含む。
第1態様で提供される技術的解決手段によれば、ビデオ画像における第Nフレームの画像のボケ除去畳み込みカーネルを得ることができる。更に、第Nフレームの画像のボケ除去畳み込みカーネルにより、第Nフレームの画像に対して畳み込み処理を行うことで、第Nフレームの画像におけるボケを効果的に除去し、第Nフレームのボケ除去処理後の画像を得ることができる。
可能な実現形態において、前記第Nフレームの画像、前記第N−1フレームの画像及び前記第N−1フレームのボケ除去処理後の画像に基づいて、前記第Nフレームの画像のボケ除去畳み込みカーネルを得ることは、処理待ち画像の画素点に対して畳み込み処理を行い、ボケ除去畳み込みカーネルを得ることであって、前記処理待ち画像は、前記第Nフレームの画像、前記第N−1フレームの画像及び前記第N−1フレームのボケ除去処理後の画像をチャネル次元で重ね合わせることで得られるものである、ことを含む。
該可能な実現形態において、第N−1フレームの画像の画素点と第N−1フレームのボケ除去処理後の画像の画素点とのボケ除去情報に基づいて、画素点のボケ除去畳み込みカーネルを得る。該ボケ除去畳み込みカーネルにより、第Nフレームの画像内の対応する画素点に対して畳み込み除去処理を行い、第Nフレームの画像内の画素点のボケを除去する。第Nフレームの画像における各画素に対してそれぞれ1つのボケ除去畳み込みカーネルを生成することで、第Nフレームの画像(不均一なボケ画像)におけるボケを除去することができる。ボケ除去処理後の画像は、鮮明で自然である。
もう1つの可能な実現形態において、処理待ち画像の画素点に対して畳み込み処理を行い、ボケ除去畳み込みカーネルを得ることは、前記処理待ち画像に対して畳み込み処理を行い、前記第Nフレームの画像の画素点に対する前記第N−1フレームの画像の画素点の運動情報を抽出し、アライメント畳み込みカーネルを得ることであって、前記運動情報は、速度及び方向を含む、ことと、前記アライメント畳み込みカーネルに対して符号化処理を行い、前記ボケ除去畳み込みカーネルを得ることと、を含む。
該可能な実現形態において、第N−1フレームの画像の画素点と第Nフレームの画像の画素点との運動情報に基づいて、画素点のアライメント畳み込みカーネルを得る。後続で、該アライメントカーネルによりアライメント処理を行うことができる。更に、アライメントカーネルに対して畳み込み処理を行い、第N−1フレームの画像の画素点と第N−1フレームのボケ除去処理後の画像の画素点とのボケ除去情報を抽出し、ボケ除去カーネルを得る。ボケ除去カーネルに、第N−1フレームの画像の画素点と第N−1フレームのボケ除去処理後の画像の画素点とのボケ除去情報を含ませるだけでなく、第N−1フレームの画像の画素点と第Nフレームの画像の画素点との運動情報も含まれることで、第Nフレームの画像のボケ除去効果の向上に寄与する。
もう1つの可能な実現形態において、前記ボケ除去畳み込みカーネルにより、前記第Nフレームの画像に対してボケ除去処理を行い、第Nフレームのボケ除去処理後の画像を得ることは、前記ボケ除去畳み込みカーネルにより、前記第Nフレームの画像の特徴画像の画素点に対して畳み込み処理を行い、第1特徴画像を得ることと、前記第1特徴画像に対して復号処理を行い、前記第Nフレームのボケ除去処理後の画像を得ることと、を含む。
該可能な実現形態において、ボケ除去畳み込みカーネルにより、第Nフレームの画像の特徴画像に対してボケ除去処理を行うことで、ボケ除去プロセスにおけるデータ処理量を減少させ、処理速度を向上させることができる。
もう1つの可能な実現形態において、前記ボケ除去畳み込みカーネルにより、前記第Nフレームの画像の特徴画像の画素点に対して畳み込み処理を行い、第1特徴画像を得ることは、前記ボケ除去畳み込みカーネルの次元を調整し、前記ボケ除去畳み込みカーネルのチャネル数を前記第Nフレームの画像の特徴画像のチャネル数と同じくすることと、次元調整後の前記ボケ除去畳み込みカーネルにより、前記第Nフレームの画像の特徴画像の画素点に対して畳み込み処理を行い、前記第1特徴画像を得ることと、を含む。
該可能な実現形態において、ボケ除去畳み込みカーネルの次元を調整することで、ボケ除去畳み込みカーネルの次元を第Nフレームの画像の特徴画像の次元と同じくし、更に、次元調整後のボケ除去畳み込みカーネルにより、第Nフレームの画像の特徴画像に対して畳み込み処理を行うことを実現させる。
もう1つの可能な実現形態において、前記処理待ち画像に対して畳み込み処理を行い、前記第Nフレームの画像の画素点に対する前記第N−1フレームの画像の画素点の運動情報を抽出し、アライメント畳み込みカーネルを得た後、前記アライメント畳み込みカーネルにより、前記第N−1フレームのボケ除去処理後の画像の特徴画像の画素点に対して畳み込み処理を行い、第2特徴画像を得ることを更に含む。
該可能な実現形態において、アライメント畳み込みカーネルにより、第N−1フレームの画像の特徴画像の画素点に対して畳み込み処理を行い、第N−1フレームの画像の特徴画像を第Nフレーム時刻へアライメントすることを実現させる。
もう1つの可能な実現形態において、前記アライメント畳み込みカーネルにより、前記第N−1フレームのボケ除去処理後の画像の特徴画像の画素点に対して畳み込み処理を行い、第2特徴画像を得ることは、前記アライメント畳み込みカーネルの次元を調整し、前記アライメント畳み込みカーネルのチャネル数を前記第N−1フレームの画像の特徴画像のチャネル数と同じくすることと、次元調整後の前記アライメント畳み込みカーネルにより、前記第N−1フレームのボケ除去処理後の画像の特徴画像の画素点に対して畳み込み処理を行い、前記第2特徴画像を得ることと、を含む。
該可能な実現形態において、アライメント畳み込みカーネルの次元を調整することで、アライメント畳み込みカーネルの次元を第N−1フレームの画像の特徴画像の次元と同じくする。更に、次元調整後のアライメント畳み込みカーネルにより第N−1フレームの画像の特徴画像に対して畳み込み処理を行うことを実現させる。
もう1つの可能な実現形態において、前記第1特徴画像に対して復号処理を行い、前記第Nフレームのボケ除去処理後の画像を得ることは、前記第1特徴画像及び前記第2特徴画像に対して融合処理を行い、第3特徴画像を得ることと、前記第3特徴画像に対して復号処理を行い、前記第Nフレームのボケ除去処理後の画像を得ること、を含む。
該可能な実現形態において、第1特徴画像と第2特徴画像を融合することで、第Nフレームの画像のボケ除去効果を向上させる。更に、融合後の第3特徴画像に対して復号処理を行い、第Nフレームのボケ除去処理後の画像を得る。
もう1つの可能な実現形態において、前記処理待ち画像に対して畳み込み処理を行い、前記第Nフレームの画像の画素点に対する前記第N−1フレームの画像の画素点の運動情報を抽出し、アライメント畳み込みカーネルを得ることは、前記第Nフレームの画像、前記第N−1フレームの画像及び前記第N−1フレームのボケ除去処理後の画像に対して、チャネル次元で重ね合わせ処理を行い、前記処理待ち画像を得ることと、前記処理待ち画像に対して符号化処理を行い、第4特徴画像を得ることと、前記第4特徴画像に対して畳み込み処理を行い、第5特徴画像を得ることと、畳み込み処理により、前記第5特徴画像のチャネル数を第1所定値に調整し、前記アライメント畳み込みカーネルを得ることと、を含む。
該可能な実現形態において、処理待ち画像に対して畳み込み処理を行い、第Nフレームの画像の画素点に対する第N−1フレームの画像の画素点の運動情報を抽出する。これにより、後続処理において、更に畳み込み処理により第5特徴画像のチャネル数を第1所定値に調整する。
もう1つの可能な実現形態において、前記アライメント畳み込みカーネルに対して符号化処理を行い、前記ボケ除去畳み込みカーネルを得ることは、畳み込み処理により、前記アライメント畳み込みカーネルのチャネル数を第2所定値に調整し、第6特徴画像を得ることと、前記第4特徴画像及び前記第6特徴画像に対して融合処理を行い、第7特徴画像を得ることと、前記第7特徴画像に対して畳み込み処理を行い、前記第N−1フレームの画像の画素点に対する前記第N−1フレームのボケ除去処理後の画像の画素点のボケ除去情報を抽出し、前記ボケ除去畳み込みカーネルを得ることと、を含む。
該可能な実現形態において、アライメント畳み込みカーネルに対して畳み込み処理を行うことで、ボケ除去畳み込みカーネルを得る。ボケ除去畳み込みカーネルに、第Nフレームの画像の画素点に対する第N−1フレームの画像の画素点の運動情報を含ませるだけでなく、第N−1フレームの画像の画素点に対する第N−1フレームのボケ除去処理後の画像の画素点のボケ除去情報も含ませる。これにより、後続でボケ除去畳み込みカーネルにより第Nフレームの画像に対してボケ除去を行う効果を向上させる。
もう1つの可能な実現形態において、前記第7特徴画像に対して畳み込み処理を行い、前記第N−1フレームの画像の画素点に対する前記第N−1フレームのボケ除去処理後の画像の画素点のボケ除去情報を抽出し、前記ボケ除去畳み込みカーネルを得ることは、前記第7特徴画像に対して畳み込み処理を行い、第8特徴画像を得ることと、畳み込み処理により、前記第8特徴画像のチャネル数を前記第1所定値に調整し、前記ボケ除去畳み込みカーネルを得ることと、を含む。
該可能な実現形態において、第7特徴画像に対して畳み込み処理を行い、第N−1フレームのボケ除去処理後の画像の画素点に対する第N−1フレームの画像の画素点の運動情報を抽出する。これにより、後続処理において、更に畳み込み処理により、第8特徴画像のチャネル数を第1所定値に調整する。
もう1つの可能な実現形態において、前記第3特徴画像に対して復号処理を行い、前記第Nフレームのボケ除去処理後の画像を得ることは、前記第3特徴画像に対して逆畳み込み処理を行い、第9特徴画像を得ることと、前記第9特徴画像に対して畳み込み処理を行い、第Nフレームの復号処理後の画像を得ることと、前記第Nフレームの画像の第1画素点の画素値と前記第Nフレームの復号処理後の画像の第2画素点の画素値を加算し、前記第Nフレームのボケ除去処理後の画像を得ることであって、前記第Nフレームの画像における、前記第1画素点の位置は、前記第Nフレームの復号処理後の画像における、前記第2画素点の位置と同じである、ことと、を含む。
該可能な実現形態において、逆畳み込み処理及び畳み込み処理により、第3特徴画像の復号処理を実現させ、第Nフレームの復号処理後の画像を得る。更に、第Nフレームの画像と第Nフレームの復号処理後の画像内の対応する画素点の画素値を加算することで、前記第Nフレームのボケ除去処理後の画像を得て、ボケ除去効果を更に向上させる。
第2態様によれば、本願の実施例は、ビデオ画像処理装置を更に提供する。前記装置は、複数フレームの連続ビデオ画像を取得するように構成される取得ユニットであって、前記複数フレームの連続ビデオ画像は、第Nフレームの画像、第N−1フレームの画像及び第N−1フレームのボケ除去処理後の画像を含み、前記Nは、正整数である、取得ユニットと、前記第Nフレームの画像、前記第N−1フレームの画像及び前記第N−1フレームのボケ除去処理後の画像に基づいて、前記第Nフレームの画像のボケ除去畳み込みカーネルを得るように構成される第1処理ユニットと、前記ボケ除去畳み込みカーネルにより、前記第Nフレームの画像に対してボケ除去処理を行い、第Nフレームのボケ除去処理後の画像を得るように構成される第2処理ユニットと、を備える。
可能な実現形態において、前記第1処理ユニットは、処理待ち画像の画素点に対して畳み込み処理を行い、ボケ除去畳み込みカーネルを得るように構成される第1畳み込み処理サブユニットであって、前記処理待ち画像は、前記第Nフレームの画像、前記第N−1フレームの画像及び前記第N−1フレームのボケ除去処理後の画像をチャネル次元で重ね合わせることで得られるものである、第1畳み込み処理サブユニットを備える。
もう1つの可能な実現形態において、前記第1畳み込み処理サブユニットは、前記処理待ち画像に対して畳み込み処理を行い、前記第Nフレームの画像の画素点に対する前記第N−1フレームの画像の画素点の運動情報を抽出し、アライメント畳み込みカーネルを得るように構成され、前記運動情報は、速度及び方向を含み、前記第1畳み込み処理サブユニットは、前記アライメント畳み込みカーネルに対して符号化処理を行い、前記ボケ除去畳み込みカーネルを得るように構成される。
もう1つの可能な実現形態において、前記第2処理ユニットは、前記ボケ除去畳み込みカーネルにより、前記第Nフレームの画像の特徴画像の画素点に対して畳み込み処理を行い、第1特徴画像を得るように構成される第2畳み込み処理サブユニットと、前記第1特徴画像に対して復号処理を行い、前記第Nフレームのボケ除去処理後の画像を得るように構成される復号処理サブユニットと、を備える。
もう1つの可能な実現形態において、前記第2畳み込み処理サブユニットは、前記ボケ除去畳み込みカーネルの次元を調整し、前記ボケ除去畳み込みカーネルのチャネル数を前記第Nフレームの画像の特徴画像のチャネル数と同じくし、次元調整後の前記ボケ除去畳み込みカーネルにより、前記第Nフレームの画像の特徴画像の画素点に対して畳み込み処理を行い、前記第1特徴画像を得るように構成される。
もう1つの可能な実現形態において、前記第1畳み込み処理サブユニットは更に、前記処理待ち画像に対して畳み込み処理を行い、前記第Nフレームの画像の画素点に対する前記第N−1フレームの画像の画素点の運動情報を抽出し、アライメント畳み込みカーネルを得た後、前記アライメント畳み込みカーネルにより、前記第N−1フレームのボケ除去処理後の画像の特徴画像の画素点に対して畳み込み処理を行い、第2特徴画像を得るように構成される。
もう1つの可能な実現形態において、前記第1畳み込み処理サブユニットは更に、前記アライメント畳み込みカーネルの次元を調整し、前記アライメント畳み込みカーネルのチャネル数を前記第N−1フレームの画像の特徴画像のチャネル数と同じくし、次元調整後の前記アライメント畳み込みカーネルにより、前記第N−1フレームのボケ除去処理後の画像の特徴画像の画素点に対して畳み込み処理を行い、前記第2特徴画像を得るように構成される。
もう1つの可能な実現形態において、前記第2処理ユニットは、前記第1特徴画像及び前記第2特徴画像に対して融合処理を行い、第3特徴画像を得て、前記第3特徴画像に対して復号処理を行い、前記第Nフレームのボケ除去処理後の画像を得るように構成される。
もう1つの可能な実現形態において、前記第1畳み込み処理サブユニットは更に、前記第Nフレームの画像、前記第N−1フレームの画像及び前記第N−1フレームのボケ除去処理後の画像に対してチャネル次元で重ね合わせ処理を行い、前記処理待ち画像を得て、前記処理待ち画像に対して符号化処理を行い、第4特徴画像を得て、前記第4特徴画像に対して畳み込み処理を行い、第5特徴画像を得て、畳み込み処理により、前記第5特徴画像のチャネル数を第1所定値に調整し、前記アライメント畳み込みカーネルを得るように構成される。
もう1つの可能な実現形態において、前記第1畳み込み処理サブユニットは更に、畳み込み処理により、前記アライメント畳み込みカーネルのチャネル数を第2所定値に調整し、第6特徴画像を得て、前記第4特徴画像及び前記第6特徴画像に対して融合処理を行い、第7特徴画像を得て、前記第7特徴画像に対して畳み込み処理を行い、前記第N−1フレームの画像の画素点に対する前記第N−1フレームのボケ除去処理後の画像の画素点のボケ除去情報を抽出し、前記ボケ除去畳み込みカーネルを得るように構成される。
もう1つの可能な実現形態において、前記第1畳み込み処理サブユニットは更に、前記第7特徴画像に対して畳み込み処理を行い、第8特徴画像を得て、畳み込み処理により、前記第8特徴画像のチャネル数を前記第1所定値に調整し、前記ボケ除去畳み込みカーネルを得るように構成される。
もう1つの可能な実現形態において、前記第2処理ユニットは更に、前記第3特徴画像に対して逆畳み込み処理を行い、第9特徴画像を得て、前記第9特徴画像に対して畳み込み処理を行い、第Nフレームの復号処理後の画像を得て、前記第Nフレームの画像の第1画素点の画素値と前記第Nフレームの復号処理後の画像の第2画素点の画素値を加算し、前記第Nフレームのボケ除去処理後の画像を得るように構成され、前記第Nフレームの画像における、前記第1画素点の位置は、前記第Nフレームの復号処理後の画像における、前記第2画素点の位置と同じである。
第3態様によれば、本願の実施例は、プロセッサを更に提供する。前記プロセッサは、上記第1態様及びそのいずれか1つの可能な実現形態における方法を実行するように構成される。
第4態様によれば、本願の実施例は、電子機器を更に提供する。前記電子機器は、プロセッサと、入力装置と、出力装置と、メモリと、を備え、前記プロセッサ、入力装置、出力装置及びメモリは、相互接続され、前記メモリにプログラム命令が記憶されており、前記プログラム命令が前記プロセッサにより実行される時、前記プロセッサに、上記第1態様及びそのいずれか1つの可能な実現形態における方法を実行させる。
第5態様によれば、本願の実施例は、コンピュータ可読記憶媒体を更に提供する。前記コンピュータ可読記憶媒体に、コンピュータプログラムが記憶されており、前記コンピュータプログラムは、プログラム命令を含み、前記プログラム命令が電子機器のプロセッサにより実行される時、前記プロセッサに、上記第1態様及びそのいずれか1つの可能な実現形態における方法を実行させる。
上記の一般的な説明及び後述する細部に関する説明は、例示及び説明のためのものに過ぎず、本願を限定するものではないことが理解されるべきである。
本願の実施例による異なる画像内の対応する画素点を示す概略図である。 本願の実施例による不均一なボケ画像を示す図である。 本願の実施例によるビデオ画像処理方法を示すフローチャートである。 本願の実施例によるビデオ画像処理方法におけるボケ除去処理を示すフローチャートである。 本願の実施例によるもう1つのビデオ画像処理方法を示すフローチャートである。 本願の実施例によるボケ除去畳み込みカーネル及びアライメント畳み込みカーネルの取得を示すフローチャートである。 本願の実施例による符号化モジュールを示す概略図である。 本願の実施例によるアライメント畳み込みカーネル生成モジュールを示す概略図である。 本願の実施例によるボケ除去畳み込みカーネル生成モジュールを示す概略図である。 本願の実施例によるもう1つのビデオ画像処理方法を示すフローチャートである。 本願の実施例による自己適応的畳み込み処理モジュールを示す概略図である。 本願の実施例による復号モジュールを示す概略図である。 本願の実施例によるビデオ画像ボケ除去ニューラルネットワークの構造を示す概略図である。 本願の実施例によるアライメント畳み込みカーネル及びボケ除去畳み込みカーネル生成モジュールの構造を示す概略図である。 本願の実施例によるビデオ画像処理装置の構造を示す概略図である。 本願の実施例による電子機器のハードウェア構造を示す概略図である。
本願の実施例又は背景技術における技術的解決手段をより明確に説明するために、以下、本願の実施例又は背景技術の記述に必要な図面を説明する。
ここで添付した図面は、明細書に引き入れて本明細書の一部分を構成し、本願に適合する実施例を示し、かつ、明細書とともに本願の技術的解決手段を解釈することに用いられる。
当業者に本願の技術的解決手段をより良く理解させるために、以下、本願の実施例における図面を参照しながら、本願の実施例における技術的解決手段を鮮明かつ完全に説明する。勿論、記述される実施例は、全ての実施例ではなく、ただ本願の一部の実施例である。本願における実施例に基づいて、当業者が創造的な労力なしに得られる他の実施例の全ては、本発明の保護範囲に含まれる。
本願の明細書及び特許請求の範囲並びに上記図面に言及された「第1」、「第2」等の用語は、異なる対象を区別するためのものであり、特定の順番を説明するためのものではない。なお、「備える」と「有する」という用語及びそれらの変形は、非排他的な包含を網羅することを意図している。例えば、一連の工程又はユニットを含むプロセス、方法、システム、製品又は装置は、明記された工程又はユニットに限定されず、明記されていないか工程又はユニットを任意選択的に含んでもよく、又は、これらのプロセス、方法、製品又は装置固有の他の工程又はユニットを任意選択的に含んでもよい。
本明細書に言及した「実施例」は、実施例を参照しながら記述される特定の特徴、構造又は特徴が本願の少なくとも1つの実施例に含まれてもよいことを意味する。該用語が明細書中の異なる箇所に登場していても、必ずしもどれもが同一の実施例を指しているとは限らないし、必ずしも他の実施例と相互排他的である独立した実施例又は候補実施例を指しているとは限らない。本明細書に記述される実施例は、他の実施例と組み合わせることができることは、当業者が明示的又は暗黙的に理解すべきである。
本願の実施例において、「対応」という用語が多く用いられる。ここで、2枚の画像内の対応する画素点は、2枚の画像における同一の位置での2つの画素点を指す。例えば、図1に示すように、画像Aにおける画素点aは、画像Bにおける画素点dに対応し、画像Aにおける画素点bは、画像Bにおける画素点cに対応する。複数枚の画像内の対応する画素点の意味は、2枚の画像内の対応する画素点の意味と同じであることが理解されるべきである。
下記における不均一なボケ画像は、画像における異なる画素点のボケ程度が異なり、つまり画素点の運動軌跡が異なる画像を指す。例えば、図2に示すように、左上隅領域の看板における文字のボケ程度は、右下隅の自動車のボケ程度より大きい。つまり、該2つの領域のボケ程度は一致しない。本願の実施例を適用することで、不均一なボケ画像におけるボケを除去することができる。以下、本願の実施例における図面を参照しながら、本願の実施例を説明する。
本願の実施例によるビデオ画像処理方法を示すフローチャートである図3を参照されたい。図3に示すように、前記方法は、以下を含む。
301において、複数フレームの連続ビデオ画像を取得し、前記複数フレームの連続ビデオ画像は、第Nフレームの画像、第N−1フレームの画像及び第N−1フレームのボケ除去処理後の画像を含み、前記Nは、正整数である。
本願の実施例において、カメラにより、複数フレームの連続ビデオ画像を撮ることができる。上記第Nフレームの画像、第N−1フレームの画像は、複数フレームの連続ビデオ画像における隣接する2フレームの画像であり、且つ第Nフレームの画像は、第N−1フレームの画像の1フレーム後の画像である。第Nフレームの画像は、現在、処理(つまり、本願ので提供される実施形態によりボケ除去処理)しようとする画像である。第N−1フレームのボケ除去処理後の画像は、第N−1フレームの画像に対してボケ除去処理を行うことで得られた画像である。
本願の実施例において、ビデオ画像のボケ除去は、再帰的プロセスである。つまり、第N−1フレームのボケ除去処理後の画像は、第Nフレームの画像のボケ除去プロセスの入力画像とすることが理解されるべきである。同様に、第Nフレームのボケ除去処理後の画像は、第N+1フレームの画像のボケ除去処理プロセスの入力画像とする。
任意選択的に、Nが1である場合、現在のボケ除去処理対象は、ビデオにおける1フレーム目である。この場合、第N−1フレームの画像及び第N−1フレームのボケ除去処理後の画像は、いずれもNフレーム目であり、つまり、3枚の1フレーム目の画像を取得する。
本願の実施例において、ビデオにおける各フレームの画像を撮影時点の順番に応じて配列することで得られたシーケンスを、ビデオフレームシーケンスと称する。ボケ除去処理を行うことで得られた画像をボケ除去処理後の画像と称する。
本願の実施例において、ビデオフレームシーケンスに従って、ビデオ画像に対してボケ除去処理を行う。ボケ除去処理を行うたびに、1フレームの画像のみに対してボケ除去処理を行う。
任意選択的に、ビデオ画像及びボケ除去処理後の画像は、電子機器のメモリに記憶されてもよい。ここで、ビデオは、ビデオストリームを指す。つまり、ビデオフレームシーケンスの順番に応じてビデオ画像を電子機器のメモリに記憶する。従って、電子機器は、メモリから第Nフレームの画像、第N−1フレームの画像及び第N−1フレームのボケ除去処理後の画像を直接的に取得することができる。
本願の実施例に記載されるビデオ画像は、電子機器のカメラによりリアルタイムに撮られたビデオであってもよく、電子機器のメモリに記憶されたビデオ画像であってもよい。
302において、前記第Nフレームの画像、前記第N−1フレームの画像及び前記第N−1フレームのボケ除去処理後の画像に基づいて、前記第Nフレームの画像のボケ除去畳み込みカーネルを得る。
本願の任意選択的な実施例において、前記第Nフレームの画像、前記第N−1フレームの画像及び前記第N−1フレームのボケ除去処理後の画像に基づいて、前記第Nフレームの画像のボケ除去畳み込みカーネルを得ることは、処理待ち画像の画素点に対して畳み込み処理を行い、ボケ除去畳み込みカーネルを得ることであって、前記処理待ち画像は、前記第Nフレームの画像、前記第N−1フレームの画像及び前記第N−1フレームのボケ除去処理後の画像をチャネル次元で重ね合わせることで得られるものである、ことを含む。
本実施例において、第Nフレームの画像、第N−1フレームの画像及び第N−1フレームのボケ除去処理後の画像をチャネル次元で重ね合わせることで、処理待ち画像を得る。例えば(例1)、第Nフレームの画像、第N−1フレームの画像及び第N−1フレームのボケ除去処理後の画像のサイズがいずれも100*100*3であるとすれば、重ね合わせることで得られた処理待ち画像のサイズは、100*100*9である。つまり、3枚の画像(第Nフレームの画像、第N−1フレームの画像及び第N−1フレームのボケ除去処理後の画像)を重ね合わせることで得られた処理待ち画像内の画素点の数は、3枚の画像の各画像内の画素点の数と同じであるが、各画素点のチャネル数は、3枚の画像のうちのいずれか1枚の画像の3倍である。
本願の実施例において、処理待ち画像の画素点に対する畳み込み処理は、複数の任意にスタッキングされる畳み込み層により実現することができる。本願の実施例は、畳み込み層の数及び畳み込み層における畳み込みカーネルのサイズを限定するものではない。
処理待ち画像の画素点に対して畳み込み処理を行うことで、処理待ち画像内の画素点の特徴情報を抽出し、ボケ除去畳み込みカーネルを得ることができる。ここで、特徴情報は、前記第Nフレームの画像の画素点に対する第N−1フレームの画像の画素点の運動情報、及び前記第N−1フレームのボケ除去処理後の画像の画素点に対する第N−1フレームの画像の画素点のボケ除去情報を含む。上記運動情報は、第Nフレームの画像内の対応する画素点に対する第N−1フレームの画像内の画素点の運動速度及び運動方向を含む。
本願の実施例において、ボケ除去畳み込みカーネルは、処理待ち画像に対して畳み込み処理を行うことで得られた結果であり、本願の実施例の後続処理において、これを畳み込み処理の畳み込みカーネルとすることが理解されるべきである。
処理待ち画像の画素点に対する畳み込み処理は、処理待ち画像の各画素点に対して畳み込み処理を行い、各画素点のボケ除去畳み込みカーネルをそれぞれ得ることを指す。例1に続いて、もう1つの例(例2)を挙げると、処理待ち画像のサイズが100*100*9であり、つまり、処理待ち画像に100*100個の画素点が含まれ、処理待ち画像の画素点に対して畳み込み処理を行った後に、100*100の特徴画像を得ることができる。ここで、上記100*100の特徴画像内の各画素点は、いずれも、後続で第Nフレームの画像内の画素点に対してボケ除去処理を行うボケ除去畳み込みカーネルとすることができる。
303において、前記ボケ除去畳み込みカーネルにより、前記第Nフレームの画像に対してボケ除去処理を行い、第Nフレームのボケ除去処理後の画像を得る。
本願の任意選択的な実施例において、図4に示すように、前記ボケ除去畳み込みカーネルにより、前記第Nフレームの画像に対してボケ除去処理を行い、第Nフレームのボケ除去処理後の画像を得ることは、以下を含んでもよい。
3031において、前記ボケ除去畳み込みカーネルにより、前記第Nフレームの画像の特徴画像の画素点に対して畳み込み処理を行い、第1特徴画像を得る。
上記第Nフレームの画像の特徴画像は、第Nフレームの画像に対して特徴抽出を行うことで得られることが可能である。ここで、特徴抽出処理は、畳み込み処理であってもよく、プーリング処理であってもよく、本願の実施例は、これを限定するものではない。
302における処理により、処理待ち画像内の各画素点のボケ除去畳み込みカーネルを得る。ここで、処理待ち画像の画素点の数は、第Nフレームの画像の画素点の数と同じである。また、処理待ち画像内の画素点と第Nフレームの画像内の画素点は、一対一に対応する。本願の実施例において、一対一対応の意味は、下記例を参照されたい。処理待ち画像内の画素点Aと第Nフレームの画像内の画素点Bは、一対一に対応する。つまり、処理待ち画像内の画素点Aの位置は、第Nフレームの画像内の画素点Bの位置と同じである。
3032において、前記第1特徴画像に対して復号処理を行い、前記第Nフレームのボケ除去処理後の画像を得る。
上記復号処理は、逆畳み込み処理により実現することができ、逆畳み込み処理と畳み込み処理を組み合わせた処理により実現することができる。本願の実施例は、これを限定するものではない。
任意選択的に、第Nフレームの画像のボケ除去処理の効果を向上させるために、第1特徴画像を復号処理することで得られた画像内の画素点の画素値と第Nフレームの画像の画素点の画素値を加算し、「加算」した後に得られた画像を第Nフレームのボケ除去処理後の画像とする。上記「加算」により、第Nフレームの画像の情報を利用して第Nフレームのボケ除去処理後の画像を得ることができる。
例えば、復号処理で得られた画像内の画素点Cの画素値が200であり、第Nフレームの画像内の画素点Dの画素値が150であるとすれば、「加算」した後に得られた第Nフレームのボケ除去処理後の画像の画素点Eの画素値は、350である。ここで、処理待ち画像におけるCの位置、第Nフレームの画像におけるDの位置及び第Nフレームのボケ除去処理後の画像におけるEの位置は、同じである。
上述したように、不均一なボケ画像内の異なる画素点の運動軌跡は異なり、且つ画素点の運動軌跡が複雑であるほど、そのボケ程度が高くなる。本願の実施例において、処理待ち画像内の各画素点に対して、それぞれ1つのボケ除去畳み込みカーネルを予測し、予測して得られるボケ除去畳み込みカーネルにより、第Nフレームの画像における特徴点に対して畳み込み処理を行い、第Nフレームの特徴における画素点のボケを除去する。不均一なボケ画像内の異なる画素点のボケ程度が異なるため、異なる画素点に対して、対応するボケ除去畳み込みカーネルを生成することで、各画素点のボケをより好適に除去し、更に不均一なボケ画像のボケ除去を更に実現させることができる。
本願の実施例は、第N−1フレームの画像の画素点と第N−1フレームのボケ除去処理後の画像の画素点との間のボケ除去情報に基づいて、画素点のボケ除去畳み込みカーネルを得る。該ボケ除去畳み込みカーネルにより、第Nフレームの画像の対応する画素点に対して畳み込み除去処理を行い、第Nフレームの画像内の画素点のボケを除去する。第Nフレームの画像内の各画素点に対して、それぞれ1つのボケ除去畳み込みカーネルを生成することで、第Nフレームの画像(不均一なボケ画像)におけるボケを除去することができる。ボケ除去処理後の画像は、鮮明で自然であり、且つボケ除去処理プロセスにかかる時間が短く、処理速度が速い。
本願の実施例による302の可能な実現形態を示すフローチャートである図5を参照されたい。図5に示すように、前記方法は、以下を含む。
401において、処理待ち画像に対して畳み込み処理を行い、第Nフレームの画像の画素点に対する第N−1フレームの画像の画素点の運動情報を抽出し、アライメント畳み込みカーネルを得て、前記運動情報は、速度及び方向を含む。
本願の実施例において、運動情報が速度及び方向を含む。画素点の運動情報は、第N−1フレーム時刻(第N−1フレームの画像を撮影した時刻)から第Nフレーム時刻(第Nフレームの画像を撮影した時刻)までの該画素の運動軌跡を指すと理解されてもよい。
被写体は、一回の露光期間内で運動状態であり、且つ運動軌跡が曲線である。これにより、撮られた画像にボケが発生した。つまり、第Nフレームの画像の画素点に対する第N−1フレームの画像の画素点の運動情報は、第Nフレームの画像のボケ除去に寄与する。
本願の実施例において、処理待ち画像の画素点に対する畳み込み処理は、複数の任意にスタッキングされた畳み込み層により実現することができる。本願の実施例は、畳み込み層の数及び畳み込み層における畳み込みカーネルのサイズを限定するものではない。
処理待ち画像の画素点に対して畳み込み処理を行うことで、処理待ち画像内の画素点の特徴情報を抽出し、アライメント畳み込みカーネルを得ることができる。ここで、特徴情報は、前記第Nフレームの画像の画素点に対する第N−1フレームの画像の画素点の運動情報を含む。
本願の実施例において、アライメント畳み込みカーネルは、処理待ち画像に対して上記畳み込み処理を行うことで得られた結果であり、本願の実施例の後続処理において、これを畳み込み処理の畳み込みカーネルとすることが理解されるべきである。具体的には、アライメント畳み込みカーネルは、処理待ち画像に対して畳み込み処理を行い、第Nフレームの画像の画素点に対する第N−1フレームの画像の画素点の運動情報を抽出することで得られたものであるため、後続で、アライメント畳み込みカーネルにより、第Nフレームの画像の画素点に対してアライメント処理を行うことができる。
本実施例で得られたアライメント畳み込みカーネルもリアルタイムに得られたものであり、つまり、上記処理により、第Nフレームの画像内の各画素点のアライメント畳み込みカーネルを得ることに留意されたい。
402において、前記アライメント畳み込みカーネルに対して符号化処理を行い、前記ボケ除去畳み込みカーネルを得る。
ここの符号化処理は、畳み込み処理であってもよく、プーリング処理であってもよい。
可能な実現形態において、上記符号化処理は、畳み込み処理であり、畳み込み処理は、複数の任意にスタッキングされた畳み込み層により実現することができる。本願の実施例は、畳み込み層の数及び畳み込み層における畳み込みカーネルのサイズを限定するものではない。
402における畳み込み処理は、401における畳み込み処理と異なることが理解されるべきである。例えば、401における畳み込み処理は、3個のチャネル数が32である畳み込み層(畳み込みカーネルのサイズが3*3である)により実現され、402における畳み込み処理は、5個のチャネル数が64である畳み込み層(畳み込みカーネルのサイズが3*3である)により実現される。両者(3個の畳み込み層及び5個の畳み込み層)は、本質的に畳み込み処理であるが、両者の具体的な実現プロセスが異なる。
処理待ち画像は、第Nフレームの画像、第N−1フレームの画像及び第N−1フレームのボケ除去処理後の画像をチャネル次元で重ね合わせることで得られるものであるため、処理待ち画像に、第Nフレームの画像、第N−1フレームの画像及び第N−1フレームのボケ除去処理後の画像の情報が含まれる。401における畳み込み処理は、前記第Nフレームの画像の画素点に対する第N−1フレームの画像の画素点の運動情報の抽出に着目する。つまり、401における処理を行った後、処理待ち画像中第N−1フレームの画像と第N−1フレームのボケ除去処理後の画像とのボケ除去処理情報が抽出されていない。
任意選択的に、アライメント畳み込みカーネルに対して符号化処理を行う前に、処理待ち画像とアライメント畳み込みカーネルに対して融合処理を行い、融合して得られたアライメント畳み込みカーネルに、第N−1フレームの画像と第N−1フレームのボケ除去処理後の画像とのボケ除去情報を含ませる。
アライメント畳み込みカーネルに対して畳み込み処理を行うことで、前記第N−1フレームの画像の画素点に対する第N−1フレームのボケ除去処理後の画像のボケ除去情報を抽出し、ボケ除去畳み込みカーネルを得る。ここで、ボケ除去情報は、第N−1フレームの画像の画素点と第N−1フレームのボケ除去処理後の画像の画素点とのマッチング関係と理解されてもよく、つまり、ボケ除去処理を行う前の画素点とボケ除去処理された画素点とのマッチング関係と理解されてもよい。
従って、アライメント畳み込みカーネルに対して畳み込み処理を行うことで得られたボケ除去畳み込みカーネルに、第N−1フレームの画像の画素点と第N−1フレームのボケ除去処理後の画像の画素点とのボケ除去情報が含まれるだけでなく、第N−1フレームの画像の画素点と第Nフレームの画像の画素点との運動情報も含まれる。後続で、ボケ除去畳み込みカーネルにより、第Nフレームの画像の画素点に対して畳み込み処理を行うことで、ボケ除去効果を向上させることができる。
本願の実施例において、第N−1フレームの画像の画素点と第Nフレームの画像の画素点との運動情報に基づいて、画素点のアライメント畳み込みカーネルを得る。後続で、該アライメントカーネルによりアライメント処理を行うことができる。更に、アライメントカーネルに対して畳み込み処理を行い、第N−1フレームの画像の画素点と第N−1フレームのボケ除去処理後の画像の画素点とのボケ除去情報を抽出し、ボケ除去カーネルを得る、ボケ除去カーネルに、第N−1フレームの画像の画素点と第N−1フレームのボケ除去処理後の画像の画素点とのボケ除去情報を含ませるだけでなく、第N−1フレームの画像の画素点と第Nフレームの画像の画素点との運動情報も含まれることで、第Nフレームの画像のボケ除去効果の向上に寄与する。
上記実施例において、いずれも、画像に対する畳み込み処理により、ボケ除去畳み込みカーネル及びアライメント畳み込みカーネルを得る。画像に含まれる画素点の数が多いため、画像を直接処理すると、処理のデータ量が大きく、且つ処理速度が遅い。従って、本願の実施例は、特徴画像に基づいてボケ除去畳み込みカーネル及びアライメント畳み込みカーネルを得るための実現形態を提供する。
本願の実施例6によるボケ除去畳み込みカーネル及びアライメント畳み込みカーネルの取得を示すフローチャートである図6を参照されたい。図6に示すように、前記方法は以下を含む。
501において、第Nフレームの画像、第N−1フレームの画像及び第N−1フレームのボケ除去処理後の画像に対してチャネル次元で重ね合わせ処理を行い、処理待ち画像を得る。
ステップ302における処理待ち画像を得るための実現形態を参照されたい。ここで、詳細な説明を省略する。
502において、前記処理待ち画像に対して符号化処理を行い、第4特徴画像を得る。
上記符号化処理は、例えば、畳み込み、プーリングなどのような種々の形態により実現することができ、本願の実施例は、これを具体的に限定するものではない。
幾つかの可能な実現形態において、図7を参照されたい。図7に示したモジュールは、処理待ち画像に対して符号化処理を行うように構成される。該モジュールは、順に、1つのチャネル数が32である畳み込み層(畳み込みカーネルのサイズが3*3である)、2つのチャネル数が32である残差ブロック(各残差ブロックが2つの畳み込み層を含み、畳み込み層の畳み込みカーネルのサイズが3*3である)、1つのチャネル数が64である畳み込み層(畳み込みカーネルのサイズが3*3である)、2つのチャネル数が64である残差ブロック(各残差ブロックが2つの畳み込み層を含み、畳み込み層の畳み込みカーネルのサイズが3*3である)、1つのチャネル数が128である畳み込み層(畳み込みカーネルのサイズが3*3である)、2つのチャネル数が128である残差ブロック(各残差ブロックが2つの畳み込み層を含み、畳み込み層の畳み込みカーネルのサイズが3*3である)を備える。
該モジュールにより、処理待ち画像に対して層ごとに畳み込み処理を行い、処理待ち画像に対する符号化を実行し、第4特徴画像を得る。ここで、各畳み込み層により抽出された特徴コンテンツ及びセマンティック情報は、いずれも異なる。具体的には、符号化処理により、処理待ち画像の特徴を段階的に抽出すると共に、副次的な特徴を段階的に除去するため、工程の進行に伴い、抽出された特徴画像のサイズが小さくなり、且つセマンティック情報が次第に凝縮する。多層畳み込み層により処理待ち画像に対して段階的に畳み込み処理を行い、特徴を抽出することで、最後に一定のサイズの第4特徴画像を得る。こにより、処理待ち画像の主なコンテンツ情報(即ち、第4特徴画像)を得ると同時に、画像サイズを縮小し、データ処理量を減少させ、処理速度を向上させることができる。
例えば(例3)、処理待ち画像のサイズが100*100*3であるとすれば、図7に示すモジュールにより符号化処理を行うことで得られた第4特徴画像のサイズは、25*25*128である。
可能な実現形態において、上記畳み込み処理の実現プロセスは以下のとおりである。畳み込み層により、処理待ち画像に対して畳み込み処理を行う。つまり、畳み込みカーネルを処理待ち画像上でスライドさせ、処理待ち画像における画素と対応する畳み込みカーネルでの数値を乗算し、続いて、全ての乗算した値を加算して畳み込みカーネル中間画素に対応する画像での画素値とする。最終的に、処理待ち画像における全ての画素をスライド処理し、第4特徴画像を得る。任意選択的に、該可能な実現形態において、畳み込み層のステップは、2としてもよい。
本願の実施例によるアライメント畳み込みカーネルを生成するためのモジュールを示す図8を参照されたい。図8に示したモジュールにより、アライメント畳み込みカーネルを生成する具体的なプロセスは、503〜504を参照することができる。
503において、前記第4特徴画像に対して畳み込み処理を行い、第5特徴画像を得る。
図8に示すように、第4特徴画像を図8に示したモジュールを入力する。第4特徴画像を順に1つのチャネル数が128である畳み込み層(畳み込みカーネルのサイズが3*3である)、2つのチャネル数が64である残差ブロック(各残差ブロックが2つの畳み込み層を含み、畳み込み層の畳み込みカーネルのサイズが3*3である)により処理し、第4特徴画像に対する畳み込み処理を実現させ、第4特徴画像における第N−1フレームの画像の画素点と第Nフレームの画像の画素点との運動情報を抽出し、第5特徴画像を得る。
上記により、第4特徴画像を処理した後、画像のサイズは、不変のままであり、つまり、得られた第5特徴画像のサイズは、第4特徴画像のサイズと同じであることが理解されるべきである。
例3に続いて例(例4)を挙げると、第4特徴画像のサイズは、25*25*128であり、303における処理を行うことで得られた第5特徴画像のサイズも25*25*128である。
504において、畳み込み処理により、前記第5特徴画像のチャネル数を第1所定値に調整し、前記アライメント畳み込みカーネルを得る。
第5特徴画像における第N−1フレームの画像の画素点と第Nフレームの画像の画素点との運動情報を更に抽出するために、図8における第4層により、第5特徴画像に対して畳み込み処理を行うことで得られたアライメント畳み込みカーネルのサイズは、25*25*

Figure 2021528795


Figure 2021528795


Figure 2021528795
である(ここで、第4層の畳み込み処理により、第5特徴画像のチャネル数を調整することが理解されるべきである)。ここで、

Figure 2021528795
は、第5特徴画像のチャネル数であり、

Figure 2021528795
は、正整数である。任意選択的に、

Figure 2021528795
の値は、5である。処理を容易にするために、25*25*

Figure 2021528795


Figure 2021528795


Figure 2021528795
を25*25*

Figure 2021528795
に調整する。ここで、

Figure 2021528795
は、第1所定値である。
アライメント畳み込みカーネルの高さ及び幅は、いずれも25である。アライメント畳み込みカーネルは、25*25個の要素を含み、各要素は、

Figure 2021528795
個の画素点を含み、アライメント畳み込みカーネルにおける異なる要素の位置は異なる。例えば、アライメント畳み込みカーネルの幅及び高さの所在する平面をxoy平面と定義すると、アライメント畳み込みカーネルにおける各要素を、いずれも座標(x,y)により決定することができる。ここで、oは原点である。アライメント畳み込みカーネルの要素は、後続の処理において、画素点に対してアライメント処理を行う畳み込みカーネルであり、各要素のサイズは、1*1*

Figure 2021528795
である。
例4に続いて例(例5)を挙げると、第5特徴画像のサイズは、25*25*128である。304における処理を行うことで得られたアライメント畳み込みカーネルのサイズは、25*25*128*

Figure 2021528795


Figure 2021528795
であり、つまり、25*25*128

Figure 2021528795
である。アライメント畳み込みカーネルは、25*25個の要素を含み、各要素は、128個の画素点を含み、第アライメント畳み込みカーネルにおける異なる要素の位置は異なる。各要素のサイズは、1*1*128*

Figure 2021528795
である。
第4層が畳み込み層であるため、畳み込み層の畳み込みカーネルが大きいほど、データ処理量は大きくなる。任意選択的に、図8における第4層は、チャネル数が128であり、畳み込みカーネルのサイズが1*1である畳み込み層である。畳み込みカーネルのサイズが1*1である畳み込み層により、第5特徴画像のチャネル数を調整することで、データ処理量を減少させ、処理速度を向上させることができる。
505において、畳み込み処理により、前記アライメント畳み込みカーネルのチャネル数を第2所定値に調整し、第6特徴画像を得る。
504において、畳み込み処理(即ち、図8における第4層)により、第5特徴画像のチャネル数を調整したため、アライメント畳み込みカーネルに対して畳み込み処理を行い、ボケ除去畳み込みカーネルを得る前に、アライメント畳み込みカーネルのチャネル数を第2所定値(即ち、第5特徴画像のチャネル数)に調整する必要がある。
可能な実現形態において、畳み込み処理により、アライメント畳み込みカーネルのチャネル数を第2所定値に調整し、第6特徴画像を得る。任意選択的に、該畳み込み処理は、チャネル数が128であり、畳み込みカーネルのサイズが1*1である畳み込み層により実現することができる。
506において、前記第4特徴画像及び前記第6特徴画像に対してチャネル次元で重ね合わせ処理を行い、第7特徴画像を得る。
本実施例の502〜504において、処理待ち画像における第N−1フレームの画像の画素点と第Nフレームの画像の画素点との運動情報の抽出に着目する。後続の処理において、処理待ち画像における第N−1フレームの画像の画素点と第N−1フレームのボケ除去処理後の画像の画素点とのボケ除去情報を抽出する必要があるため、後続の処理を行う前に、第4特徴画像と第6特徴画像を融合することで、特徴画像に、第N−1フレームの画像の画素点と第N−1フレームのボケ除去処理後の画像の画素点とのボケ除去情報を追加する。
可能な実現形態において、第4特徴画像と第6特徴画像に対して融合処理(concatenate)を行うことは、第4特徴画像と第6特徴画像に対してチャネル次元で重ね合わせ処理を行い、第7特徴画像を得ることである。
507において、前記第7特徴画像に対して畳み込み処理を行い、前記第N−1フレームの画像の画素点に対する前記第N−1フレームのボケ除去処理後の画像の画素点のボケ除去情報を抽出し、前記ボケ除去畳み込みカーネルを得る。
第7特徴画像に、抽出された第N−1フレームの画像の画素点と第N−1フレームのボケ除去処理後の画像の画素点とのボケ除去情報が含まれる。第7特徴画像に対して畳み込み処理を行うことで、第N−1フレームの画像の画素点と第N−1フレームのボケ除去処理後の画像の画素点とのボケ除去情報を更に抽出し、ボケ除去畳み込みカーネルを得ることができる。該プロセスは、
第7特徴画像に対して畳み込み処理を行い、第8特徴画像を得ることと、畳み込み処理により、第8特徴画像のチャネル数を第1所定値に調整し、ボケ除去畳み込みカーネルを得ることと、を含む。
幾つかの可能な実現形態において、図9に示すように、第7特徴画像を図9に示したモジュールに入力する。第7特徴画像を、順に、1つのチャネル数が128である畳み込み層(畳み込みカーネルのサイズが3*3である)、2つのチャネル数が64である残差ブロック(各残差ブロックが2つの畳み込み層を含み、畳み込み層の畳み込みカーネルのサイズが3*3である)により処理し、第7特徴画像に対する畳み込み処理を実現させ、第7特徴画像における第N−1フレームの画像の画素点と第N−1フレームのボケ除去処理後の画像の画素点とのボケ除去情報を抽出し、第8特徴画像を得る。
図9に示したモジュールによる第7特徴画像の処理プロセスは、図8に示したモジュールによる第5特徴画像の処理プロセスを参照することができ、ここで、詳細な説明を省略する。
図8に示したモジュール(アライメント畳み込みカーネルの生成に用いられる)と図9に示したモジュール(ボケ除去畳み込みカーネルの生成に用いられる)を比較すると、図8に示したモジュールは、図9に示したモジュールより、畳み込み層が一つだけ多く(図8に示したモジュールの第4層)、他の構造が同じであるが、両者の重みは、異なり、従って、両者の用途は、異なることが理解されるべきである。
任意選択的に、図8に示したモジュール及び図9に示したモジュールの重みは、図8及び図9に示したモジュールを訓練することで得られる。
507で得られたボケ除去畳み込みカーネルは、第7特徴画像内の各画素点のボケ除去畳み込みカーネルを含み、且つ、各画素点の畳み込みカーネルのサイズは、1*1*

Figure 2021528795
である。
例5に続いて例(例6)を挙げると、第7特徴画像のサイズは、25*25*128*

Figure 2021528795


Figure 2021528795
である。つまり、第7特徴画像に、25*25個の画素点が含まれる。従って、得られたボケ除去畳み込みカーネル(サイズが25*25*128

Figure 2021528795
である)に25*25個のボケ除去畳み込みカーネルが含まれる(つまり、各画素点は、1つのボケ除去畳み込みカーネルに対応し、且つ各画素点のボケ除去畳み込みカーネルのサイズは、1*1*128

Figure 2021528795
である)。
第7特徴画像内の各画素点の3つの次元の情報を結合して1つの次元の情報を得て、第7特徴画像内の各画素点の情報を結合して1つの畳み込みカーネルを得る。つまり、各画素点のボケ除去畳み込みカーネルを得る。
本実施例は、処理待ち画像の特徴画像に対して畳み込み処理を行うことで、第N−1フレームの画像の画素点と第Nフレームの画像の画素点との運動情報を抽出し、各画素点のアライメント畳み込みカーネルを得る。更に、第7特徴画像に対して畳み込み処理を行うことで、第N−1フレームの画像の画素点と第N−1フレームのボケ除去処理後の画像の画素点とのボケ除去情報を抽出し、各画素点のボケ除去畳み込みカーネルを得る。これにより、後続で、アライメント畳み込みカーネル及びボケ除去畳み込みカーネルにより、第Nフレームの画像に対してボケ除去処理を行う。
本実施例において、ボケ除去畳み込みカーネル及びアライメント畳み込みカーネルを如何に取得するかを詳しく説明する。下記実施例において、ボケ除去畳み込みカーネル及びアライメント畳み込みカーネルにより、如何に第Nフレームの画像のボケを除去して第Nフレームのボケ除去処理後の画像を得るかを詳しく説明する。
本願の実施例によるもう1つのビデオ画像処理方法を示すフローチャートである図10を参照されたい。図10に示すように、前記方法は、以下を含む。
901において、ボケ除去畳み込みカーネルにより、第Nフレームの画像の特徴画像の画素点に対して畳み込み処理を行い、第1特徴画像を得る。
上記第Nフレームの画像の特徴画像は、第Nフレームの画像に対して特徴抽出処理を行うことで得られる。ここで、特徴抽出処理は、畳み込み処理であってもよく、プーリング処理であってもよく、本願の実施例は、これを限定するものではない。
可能な実現形態において、図7に示した符号化モジュールにより、第Nフレームの画像に対して特徴抽出処理を行い、第Nフレームの画像の特徴画像を得ることができる。ここで、図7の具体的な構成及び図7における第Nフレームの画像の処理プロセスは、502を参照することができ、ここで、詳細な説明を省略する。
図7に示した符号化モジュールにより、第Nフレームの画像に対して特徴抽出処理を行うことで得られた第Nフレームの画像の特徴画像のサイズは、第Nフレームの画像のサイズより小さく、且つ第Nフレームの画像の特徴画像に第Nフレームの画像の情報(本願において、ここの情報は、第Nフレームの画像におけるボケ領域の情報と理解されてもよい)が含まれるため、後続で第Nフレームの画像の特徴画像に対して処理を行う時、データ処理量を減少させ、処理速度を向上させることができる。
上述したように、処理待ち画像内の各画素点に対して畳み込み処理を行い、各画素点のボケ除去畳み込みカーネルをそれぞれ得て、ボケ除去畳み込みカーネルにより、第Nフレームの画像の特徴画像の画素点に対して畳み込み処理を行うことは、前記実施例で得られたボケ除去畳み込みカーネルのうちの各画素点のボケ除去畳み込みカーネルをそれぞれ第Nフレームの画像の特徴画像内の対応する画素点の畳み込みカーネルとして、第Nフレームの画像の特徴画像の各画素点に対して畳み込み処理を行うことを指す。
507に記載したように、ボケ除去畳み込みカーネルのうちの各画素点のボケ除去畳み込みカーネルに、第7特徴画像内の各画素点の情報が含まれる。また、該情報は、ボケ除去畳み込みカーネルにおいて一次元情報である。第Nフレームの画像の特徴画像の画素点が三次元のものであるため、第7特徴画像内の各画素点の情報をそれぞれ第Nフレームの画像の特徴画像内の各画素点の畳み込みカーネルとして畳み込み処理を行う時、ボケ除去畳み込みカーネルの次元を調整する必要がある。上記に鑑みて、901の実現プロセスは、
ボケ除去畳み込みカーネルの次元を調整し、ボケ除去畳み込みカーネルのチャネル数を第Nフレームの画像の特徴画像のチャネル数と同じくすることと、次元調整後のボケ除去畳み込みカーネルにより、第Nフレームの画像の特徴画像の画素点に対して畳み込み処理を行い、第1特徴画像を得ることと、を含む。
図11を参照すると、図11に示したモジュール(自己適応的畳み込み処理モジュール)により、前記実施例で得られたボケ除去畳み込みカーネルにおける各画素点のボケ除去畳み込みカーネルを第Nフレームの画像の特徴画像内の対応する画素点の畳み込みカーネルとし、該画素点に対して畳み込み処理を行うことができる。
図11における次元調整(reshape)は、ボケ除去畳み込みカーネルのうちの各画素点のボケ除去畳み込みカーネルの次元を調整することを指す。つまり、各画素点のボケ除去カーネルの次元を1*1*

Figure 2021528795
から

Figure 2021528795


Figure 2021528795


Figure 2021528795
に調整する。
例6に続いて例(例7)を挙げると、各画素点のボケ除去畳み込みカーネルのサイズは、1*1*128

Figure 2021528795
である。各画素点のボケ除去畳み込みカーネルに対してreshapeを行った後、得られた畳み込みカーネルのサイズは、128*

Figure 2021528795


Figure 2021528795
である。
reshapeにより、第Nフレームの画像の特徴画像の各画素点のボケ除去畳み込みカーネルを得て、各画素点のボケ除去畳み込みカーネルにより、各画素点に対してそれぞれ畳み込み処理を行い、第Nフレームの画像の特徴画像の各画素点のボケを除去し、最終的に第1特徴画像を得る。
902において、前記アライメント畳み込みカーネルにより、前記第N−1フレームのボケ除去処理後の画像の特徴画像の画素点に対して畳み込み処理を行い、第2特徴画像を得る。
本願の任意選択的な実施例において、前記アライメント畳み込みカーネルにより、前記第N−1フレームのボケ除去処理後の画像の特徴画像の画素点に対して畳み込み処理を行い、第2特徴画像を得ることは、前記アライメント畳み込みカーネルの次元を調整し、前記アライメント畳み込みカーネルのチャネル数を前記第N−1フレームの画像の特徴画像のチャネル数と同じくすることと、次元調整後の前記アライメント畳み込みカーネルにより、前記第N−1フレームのボケ除去処理後の画像の特徴画像の画素点に対して畳み込み処理を行い、前記第2特徴画像を得ることと、を含む。
本実施例は、901において図11に示したモジュールにより前記実施例で得られたボケ除去畳み込みカーネルを第Nフレームの画像の特徴画像の各画素点のボケ除去畳み込みカーネルとして第Nフレームの画像の特徴画像に対してボケ除去処理を行うことと同じである。図11に示したモジュールによるreshapeにより、前記実施例で得られたアライメント畳み込みカーネルのうちの各画素点のアライメント畳み込みカーネルの次元を128*

Figure 2021528795


Figure 2021528795
に調整し、次元調整後のアライメント畳み込みカーネルにより、第N−1フレームのボケ除去処理後の画像の特徴画像内の対応する画素点に対して畳み込み処理を行う。現在のフレームを基準として、第N−1フレームのボケ除去処理後の画像の特徴画像に対してアライメント処理を行うことを実現させる。つまり、各画素点のアライメントカーネルに含まれる運動情報に基づいて、第N−1フレームのボケ除去処理後の画像の特徴画像内の各画素点の位置をそれぞれ調整し、第2特徴画像を得る。
第N−1フレームのボケ除去処理後の画像の特徴画像に、大量の鮮明な(つまり、ボケが存在しない)画素点が含まれるが、第N−1フレームのボケ除去処理後の画像の特徴画像内の画素点と現在のフレームの画素点とに変位が存在する。従って、902における処理により、第N−1フレームのボケ除去処理後の画像の特徴画像の画素点の位置を調整し、位置調整された画素点を第Nフレーム時刻の位置(ここの位置は、第Nフレームの画像における被写体の位置を指す)に更に近づける。従って、後続の処理において、第2特徴画像の情報を利用して第Nフレームの画像におけるボケを除去することができる。
901と902に優先順位が存在しない。つまり、901を実行した後、902を実行してもよく、902を実行した後、901を実行してもよい。901と902を同時に実行してもよい。更に、504によりアライメント畳み込みカーネルを得た後、まず、901を実行し、続いて、505〜507を実行してもよく、まず、505〜507を実行し、続いて、901又は902を実行してもよい。本願の実施例は、これを限定するものではない。
903において、前記第1特徴画像及び前記第2特徴画像に対して融合処理を行い、第3特徴画像を得る。
第1特徴画像と第2特徴画像を融合処理することで、第N−1フレームの画像の画素点と第Nフレームの画像の画素点との運動情報及び第N−1フレームの画像の画素点と第N−1フレームのボケ除去処理後の画像の画素点とのボケ除去情報に基づいてボケ除去を行う上で、(アライメントされた)第N−1フレームの画像の特徴画像の情報を利用して、ボケ除去効果を向上させることができる。
可能な実現形態において、第1特徴画像及び第2特徴画像をチャネル次元で重ね合わせ処理(concatenate)し、第3特徴画像を得る。
904において、前記第3特徴画像に対して復号処理を行い、前記第Nフレームのボケ除去処理後の画像を得る。
本願の実施例において、復号処理は、逆畳み込み処理、デコンボリューション処理、双線形補間処理、逆プーリング処理のうちのいずれか1つであってもよく、逆畳み込み処理、デコンボリューション処理、双線形補間処理、逆プーリング処理のいずれか1つと畳み込み処理との組み合わせであってもよく、本願は、これを限定するものではない。
可能な実現形態において、図12を参照されたい。図12に示した復号モジュールは、順に、1つのチャネル数が64である逆畳み込み層(畳み込みカーネルのサイズが3*3である)、2つのチャネル数が64である残差ブロック(各残差ブロックが2つの畳み込み層を含み、畳み込み層の畳み込みカーネルのサイズが3*3である)、1つのチャネル数が32である逆畳み込み層(畳み込みカーネルのサイズが3*3である)、2つのチャネル数が32である残差ブロック(各残差ブロックが2つの畳み込み層を含み、畳み込み層の畳み込みカーネルのサイズが3*3である)を備える。図12に示した復号モジュールにより、第3特徴画像に対して復号処理を行い、第Nフレームのボケ除去処理後の画像を得ることは、第3特徴画像に対して逆畳み込み処理を行い、第9特徴画像を得ることと、第9特徴画像に対して畳み込み処理を行い、第Nフレームの復号処理後の画像を得ることと、を含む。
任意選択的に、第Nフレームの復号処理後の画像を得た後、第Nフレームの画像の第1画素点の画素値と第Nフレームの復号処理後の画像の第2画素点の画素値を加算し、第Nフレームのボケ除去処理後の画像を得ることもできる。ここで、第Nフレームの画像における、第1画素点の位置は、第Nフレームの復号処理後の画像における、第2画素点の位置と同じである。これにより、第Nフレームのボケ除去処理後の画像をより自然にする。
本実施例により、前記実施例で得られたボケ除去畳み込みカーネルにより、第Nフレームの画像の特徴画像に対してボケ除去処理を行い、前記実施例で得られたアライメント畳み込みカーネルにより、第N−1フレームの画像の特徴画像に対してアライメント処理を行うことができる。ボケ除去処理で得られた第1特徴画像とアライメント処理で得られた第2特徴画像を融合することで得られた第3特徴画像に対して復号処理を行うことで、第Nフレームの画像のボケ除去効果を向上させ、第Nフレームのボケ除去処理後の画像をより自然にすることができる。また、本実施例のボケ除去処理及びアライメント処理の対象はいずれも特徴画像であるため、データ処理量が小さく、処理速度が速く、ビデオ画像をリアルタイムにボケ除去することができる。
本願は、前記実施例における方法を実現させるためのビデオ画像ボケ除去ニューラルネットワークを更に提供する。
本願の実施例によるビデオ画像ボケ除去ニューラルネットワークの構造を示す概略図である図13を参照されたい。図13に示すように、ビデオ画像ボケ除去ニューラルネットワークは、符号化モジュールと、アライメント畳み込みカーネル及びボケ除去畳み込みカーネル生成モジュールと、復号モジュールと、を備える。ここで、図13における符号化モジュールは、図7に示した符号化モジュールと同じであり、図13における復号モジュールは、図12に示した復号モジュールと同じであり、ここで、詳細な説明を省略する。
図14を参照すると、図14に示したアライメント畳み込みカーネル及びボケ除去畳み込みカーネル生成モジュールは、復号モジュールと、アライメント畳み込みカーネル生成モジュールと、ボケ除去畳み込みカーネル生成モジュールと、を備える。また、アライメント畳み込みカーネル生成モジュールとボケ除去畳み込みカーネル生成モジュールとの間に、1つのチャネル数が128であって、畳み込みカーネルのサイズが1*1である畳み込み層が含まれ、該畳み込み層の後に1つの融合(concatenate)層が接続される。
図14に示した自己適応的畳み込み層は、図11に示したモジュールであることに留意されたい。図14に示したモジュールにより生成されたアライメント畳み込みカーネル及びボケ除去畳み込みカーネルは、自己適応的畳み込み層により、第N−1フレームの画像の特徴画像の画素点及び第Nフレームの画像の特徴画像の画素点に対してそれぞれ畳み込み処理(即ち、アライメント処理及びボケ除去処理)を行い、第N−1フレームの画像の特徴画像のアライメントされた特徴画像及び第Nフレームの画像の特徴画像のボケ除去処理後の特徴画像を得る。
concatenateにより、上記アライメントされた特徴画像とボケ除去処理後の特徴画像をチャネル次元で直列接続し、第Nフレームの融合後の特徴画像を得て、第Nフレームの融合後の特徴画像を復号モジュールに入力し、ビデオ画像ボケ除去ニューラルネットワークによる第N+1フレームの画像の処理の入力とする。
復号モジュールにより、第Nフレームの融合後の特徴画像に対して復号処理を行うことで、第Nフレームの復号処理後の画像を得て、第Nフレームの画像の第1画素点の画素値と第Nフレームの復号処理後の画像の第2画素点の画素値を加算し、第Nフレームのボケ除去処理後の画像を得る。ここで、第Nフレームの画像における第1画素点の位置は、第Nフレームの復号処理後の画像における第2画素点の位置と同じである。第Nフレームの画像及び第Nフレームのボケ除去処理後の画像を、ビデオ画像ボケ除去ニューラルネットワークによる第N+1フレームの画像の処理の入力とする。
上記プロセスから分かるように、ビデオ画像ボケ除去ニューラルネットワークがビデオにおける各フレームの画像に対してボケ除去処理を行う時、4つの入力を必要とする。ボケ除去されるべき対象が第Nフレームの画像であることを例として、該4つの入力は、それぞれ第N−1フレームの画像、第N−1フレームのボケ除去処理後の画像、第Nフレームの画像及び第N−1フレームのボケ除去処理後の画像の特徴画像(即ち、上記第Nフレームの融合後の特徴画像)である。
本実施例で提供されるビデオ画像ボケ除去ニューラルネットワークにより、ビデオ画像に対してボケ除去処理を行うことができる。また、プロセス全体において、4つの入力のみを利用すれば、ボケ除去処理後の画像を直接的に得ることができ、処理速度が速い。ボケ除去畳み込みカーネル生成モジュール及びアライメント畳み込みカーネル生成モジュールにより、画像内の各画素点に対して1つのボケ除去畳み込みカーネル及びアライメント畳み込みカーネルを生成することで、ビデオ画像ボケ除去ニューラルネットワークによるビデオにおける様々フレームの不均一のボケ画像のボケ除去の効果を向上させることができる。
実施例で提供されるビデオ画像ボケ除去ニューラルネットワークによれば、本願の実施例は、ビデオ画像ボケ除去ニューラルネットワークの訓練方法を提供する。
本実施例は、平均二乗誤差損失関数に基づいて、ビデオ画像ボケ除去ニューラルネットワークから出力された第Nフレームのボケ除去処理後の画像と第Nフレームの画像の鮮明な画像(即ち、第Nフレームの画像の監督データ(ground truth))との誤差を決定する。平均二乗誤差損失関数の具体的な表現式は、以下のとおりである。


Figure 2021528795
(1)
ただし、

Figure 2021528795


Figure 2021528795


Figure 2021528795
はそれぞれ第Nフレームの画像(ビデオ画像ボケ除去ニューラルネットワークにより第Nフレームの画像に対してボケ除去処理を行うと仮定する)のチャネル数、高さ、幅であり、

Figure 2021528795
は、ビデオ画像ボケ除去ニューラルネットワークに入力された第Nフレームのボケ除去処理後の画像であり、

Figure 2021528795
は、第Nフレームの画像の監督データである。
知覚的損失関数(perceptual loss function)により、VGG−19ネットワークから出力された第Nフレームのボケ除去処理後の画像の特徴と第Nフレームの画像の監督データの特徴とのユークリッド距離を決定する。知覚的損失関数の具体的な表現式は、以下のとおりである。

Figure 2021528795
(2)
ただし、

Figure 2021528795
は事前訓練されたVGG−19ネットワークにおける第j層から出力された特徴画像であり、

Figure 2021528795


Figure 2021528795


Figure 2021528795
はそれぞれ該特徴画像のチャネル数、高さ、幅であり、

Figure 2021528795
は、ビデオ画像ボケ除去ニューラルネットワークに入力された第Nフレームのボケ除去処理後の画像であり、

Figure 2021528795
は、第Nフレームの画像の監督データ(ground truth)である。
最後に、本実施例は、式(1)及び式(2)に対して加重加算を行うことで、ビデオ画像ボケ除去ニューラルネットワークの損失関数を得る。具体的な表現式は以下のとおりである。
Figure 2021528795
(3)
ただし、

Figure 2021528795
は重みであり、任意選択的に、

Figure 2021528795
は自然数である。
任意選択的に、上記jの値は、15であってもよく、

Figure 2021528795
の値は、0.01である。
本実施例で提供される損失関数によれば、本実施例のビデオ画像ボケ除去ニューラルネットワークに対して訓練を行うことができる。
前記実施例で提供されるビデオ画像処理方法及びビデオ画像ボケ除去ニューラルネットワークによれば、本願の実施例は、複数の考えられる適用シーンを提供する。
本願の実施例を無人機に適用することで、無人機により撮られたビデオ画像のボケをリアルタイムに除去し、より鮮明がビデオをユーザに与えることができる。それと同時に、無人機の飛行制御システムは、ボケ除去処理されたビデオ画像に基づいて処理を行い、無人機の姿勢及び運動を制御することで、制御精度を向上させ、無人機の様々な空中作業を強くサポートする。
また、本願の実施例を携帯端末(例えば、携帯電話、アクションカメラ等)に適用することもできる。ユーザは、端末により、激しく運動している対象に対してビデオ収集を行う。端末は、本願の実施例で提供される方法を実行することで、ユーザにより撮られたビデオをリアルタイムに処理し、被写体の激しい運動によるボケを減少させ、ユーザ体験を向上させることができる。ここで、被写体の激しい運動は、端末と被写体との相対的運動を指す。
本願の実施例で提供されるビデオ画像処理方法は、処理速度が速く、リアルタイム性が高い。本願の実施例で提供されるニューラルネットワークの重みが少なく、該ニューラルネットワークの実行に必要な処理リソースが少ない。従って、携帯端末に適用可能である。
上記において、本願の実施例の方法を詳しく説明する。以下、本願の実施例の装置を提供する。
本願の実施例によるビデオ画像処理装置の構造を示す概略図である図15を参照されたい。該装置1は、取得ユニット11と、第1処理ユニット12と、第2処理ユニット13と、を備え、
取得ユニット11は、複数フレームの連続ビデオ画像を取得するように構成され、前記複数フレームの連続ビデオ画像は、第Nフレームの画像、第N−1フレームの画像及び第N−1フレームのボケ除去処理後の画像を含み、前記Nは、正整数であり、
第1処理ユニット12は、前記第Nフレームの画像、前記第N−1フレームの画像及び前記第N−1フレームのボケ除去処理後の画像に基づいて、前記第Nフレームの画像のボケ除去畳み込みカーネルを得るように構成され
第2処理ユニット13は、前記ボケ除去畳み込みカーネルにより、前記第Nフレームの画像に対してボケ除去処理を行い、第Nフレームのボケ除去処理後の画像を得るように構成される。
可能な実現形態において、前記第1処理ユニット12は、処理待ち画像の画素点に対して畳み込み処理を行い、ボケ除去畳み込みカーネルを得るように構成される第1畳み込み処理サブユニット121であって、前記処理待ち画像は、前記第Nフレームの画像、前記第N−1フレームの画像及び前記第N−1フレームのボケ除去処理後の画像をチャネル次元で重ね合わせることで得られるものである、第1畳み込み処理サブユニット121を備える。
もう1つの可能な実現形態において、前記第1畳み込み処理サブユニット121は、前記処理待ち画像に対して畳み込み処理を行い、前記第Nフレームの画像の画素点に対する前記第N−1フレームの画像の画素点の運動情報を抽出し、アライメント畳み込みカーネルを得るように構成され、前記運動情報は、速度及び方向を含み、前記第1畳み込み処理サブユニット121は、前記アライメント畳み込みカーネルに対して符号化処理を行い、前記ボケ除去畳み込みカーネルを得るように構成される。
もう1つの可能な実現形態において、前記第2処理ユニット13は、前記ボケ除去畳み込みカーネルにより、前記第Nフレームの画像の特徴画像の画素点に対して畳み込み処理を行い、第1特徴画像を得るように構成される第2畳み込み処理サブユニット131と、前記第1特徴画像に対して復号処理を行い、前記第Nフレームのボケ除去処理後の画像を得るように構成される復号処理サブユニット132と、を備える。
もう1つの可能な実現形態において、前記第2畳み込み処理サブユニット131は、前記ボケ除去畳み込みカーネルの次元を調整し、前記ボケ除去畳み込みカーネルのチャネル数を前記第Nフレームの画像の特徴画像のチャネル数と同じくし、次元調整後の前記ボケ除去畳み込みカーネルにより、前記第Nフレームの画像の特徴画像の画素点に対して畳み込み処理を行い、前記第1特徴画像を得るように構成される。
もう1つの可能な実現形態において、前記第1畳み込み処理サブユニット121は更に、前記処理待ち画像に対して畳み込み処理を行い、前記第Nフレームの画像の画素点に対する前記第N−1フレームの画像の画素点の運動情報を抽出し、アライメント畳み込みカーネルを得た後、前記アライメント畳み込みカーネルにより、前記第N−1フレームのボケ除去処理後の画像の特徴画像の画素点に対して畳み込み処理を行い、第2特徴画像を得るように構成される。
もう1つの可能な実現形態において、前記第1畳み込み処理サブユニット121は更に、前記アライメント畳み込みカーネルの次元を調整し、前記アライメント畳み込みカーネルのチャネル数を前記第N−1フレームの画像の特徴画像のチャネル数と同じくし、次元調整後の前記アライメント畳み込みカーネルにより、前記第N−1フレームのボケ除去処理後の画像の特徴画像の画素点に対して畳み込み処理を行い、前記第2特徴画像を得るように構成される。
もう1つの可能な実現形態において、前記第2処理ユニット13は、前記第1特徴画像及び前記第2特徴画像に対して融合処理を行い、第3特徴画像を得て、前記第3特徴画像に対して復号処理を行い、前記第Nフレームのボケ除去処理後の画像を得るように構成される。
もう1つの可能な実現形態において、前記第1畳み込み処理サブユニット121は更に、前記第Nフレームの画像、前記第N−1フレームの画像及び前記第N−1フレームのボケ除去処理後の画像に対してチャネル次元で重ね合わせ処理を行い、前記処理待ち画像を得て、前記処理待ち画像に対して符号化処理を行い、第4特徴画像を得て、前記第4特徴画像に対して畳み込み処理を行い、第5特徴画像を得て、畳み込み処理により、前記第5特徴画像のチャネル数を第1所定値に調整し、前記アライメント畳み込みカーネルを得るように構成される。
もう1つの可能な実現形態において、前記第1畳み込み処理サブユニット121は更に、畳み込み処理により、前記アライメント畳み込みカーネルのチャネル数を第2所定値に調整し、第6特徴画像を得て、前記第4特徴画像及び前記第6特徴画像に対して融合処理を行い、第7特徴画像を得て、前記第7特徴画像に対して畳み込み処理を行い、前記第N−1フレームの画像の画素点に対する前記第N−1フレームのボケ除去処理後の画像の画素点のボケ除去情報を抽出し、前記ボケ除去畳み込みカーネルを得るように構成される。
もう1つの可能な実現形態において、前記第1畳み込み処理サブユニット121は更に、前記第7特徴画像に対して畳み込み処理を行い、第8特徴画像を得て、畳み込み処理により、前記第8特徴画像のチャネル数を前記第1所定値に調整し、前記ボケ除去畳み込みカーネルを得るように構成される。
もう1つの可能な実現形態において、前記第2処理ユニット13は更に、前記第3特徴画像に対して逆畳み込み処理を行い、第9特徴画像を得て、前記第9特徴画像に対して畳み込み処理を行い、第Nフレームの復号処理後の画像を得て、前記第Nフレームの画像の第1画素点の画素値と前記第Nフレームの復号処理後の画像の第2画素点の画素値を加算し、前記第Nフレームのボケ除去処理後の画像を得るように構成され、前記第Nフレームの画像における、前記第1画素点の位置は、前記第Nフレームの復号処理後の画像における、前記第2画素点の位置と同じである。
幾つかの実施例において、本願の実施例で提供される装置における機能及びモジュールは、上記方法実施例に記載の方法を実行するために用いられ、具体的な実現形態は上記方法実施例の説明を参照されたい。簡潔化のために、ここで詳細な説明を省略する。
本願の実施例は、電子機器を更に提供する。前記電子機器は、プロセッサと、入力装置と、出力装置と、メモリと、を備え、前記プロセッサ、入力装置、出力装置及びメモリは、相互接続され、前記メモリにプログラム命令が記憶されており、前記プログラム命令が前記プロセッサにより実行される時、前記プロセッサに、本願の実施例に記載の方法を実行させる。
本願の実施例は、プロセッサを更に提供する。前記プロセッサは、本願の実施例に記載の方法を実行するように構成される。
図16は、本願の実施例による電子機器のハードウェア構造を示す概略図である。該電子機器2は、プロセッサ21と、メモリ22と、カメラ23と、を備える。該プロセッサ21、メモリ22及びカメラ23は、コネクタを介して結合される。該コネクタは、様々なインタフェース、伝送線又はバスなどを含み、本願の実施例は、これを限定するものではない。本願の各実施例において、結合とは、特定の方式で相互接続されることを指す。これは、直接接続又は他の装置による間接的接続を含む。例えば、様々なインタフェース、伝送線、バスなどを介して接続されてもよい。
プロセッサ21は、1つ又は複数のグラフィックスプロセッサ(Graphics Processing Unit:GPU)であってもよい。プロセッサ21が1つのGPUである場合、該GPUは、シングルコアGPUであってもよく、マルチコアGPUであってもよい。任意選択的に、プロセッサ21は、複数のGPUからなるプロセッサ群であってもよい。複数のプロセッサ同士は、1つ又は複数バスを介して相互結合する。任意選択的に、該プロセッサは、他のタイプのプロセッサ等であってもよく、本願の実施例は、これを限定するものではない。
メモリ22は、コンピュータプログラム命令を記憶するように構成され、また、本願の技術的解決手段におけるプログラムコードを含む様々なコンピュータプログラムコードを実行するように構成される。任意選択的に、メモリは、ランダムアクセスメモリ(Random Access Memory:RAM)、読み出し専用メモリ(Read−Only Memory:ROM)、消去可能なプログラマブル読み出し専用メモリ(Erasable Programmable Read Only Memory:EPROM)、コンパクトディスク読み出し専用メモリ(Compact Disc Read−Only Memory:CD−ROM)を含むが、これらに限定されない。該メモリは、関連命令及びデータを記憶するように構成される。
カメラ23は、関連ビデオ又は画像などを取得するように構成される。
本願の実施例において、メモリは、関連命令を記憶するように構成されるだけでなく、関連画像及びビデオを記憶するように構成されることが理解されるべきである。例えば、該メモリは、カメラ23により取得されたビデオを記憶するように構成される。又は、該メモリは更に、プロセッサ21により生成されたボケ除去処理後の画像などを記憶するように構成される。本願の実施例は、該メモリに具体的に記憶されたビデオ又は画像を限定するものではない。
図16に、ビデオ画像処理装置の簡略化した設計のみが示されることが理解されるべきである。実際の適用において、ビデオ画像処理装置は、必要な他の要素をそれぞれ備えてもよく、それらは、任意の数の入力/出力装置、プロセッサ、コントローラ、メモリなどを含むが、これらに限定されない。本願の実施例を実現させることができる全ての装置は、いずれも本願の保護範囲内に含まれる。
本願の実施例は、コンピュータ可読記憶媒体を更に提供する。前記コンピュータ可読記憶媒体に、コンピュータプログラムが記憶されており、前記コンピュータプログラムは、プログラム命令を含み、前記プログラム命令が電子機器のプロセッサにより実行される時、前記プロセッサに、本願の実施例に記載の方法を実行させる。
本明細書に開示されている実施例に記載の各例におけるユニット及びアルゴリズムステップと合わせて、本願は、電子ハードウェア又は電子ハードウェアとコンピュータソフトウェアの組み合わせにより実現することができることは、当業者であれば容易に理解すべきである。これらの機能がハードウェアによって実行されるか、あるいは、ソフトウェアによって実行されるかは、技術的解決手段の、特定の適用例、及び設計制約条件に依存する。当業者は、特定の適用について、説明された機能を様々な方法で実現させることができるが、このような実現は本発明の範囲を超えるものと理解すべきではない。
便利で簡潔に説明するために、上記説明されたシステムと、装置とユニットとの具体的な作動過程は、前記方法実施例における過程を参照することができるから、ここで詳しく説明しないようにすることは、当業者にはっきり理解されるべきである。本願の各々の実施例に対する説明はそれぞれ偏りがあって、便利で簡潔に説明するために、同様又は類似した部分は異なる実施例において重複して説明されていないことがあるため、ある実施例に詳しく説明されていない部分に対して、ほかの実施例に関する説明を参照することができることは、当業者にもはっきり理解されるべきである。
本願で提供される幾つかの実施例において、開示されるシステム、装置及び方法は、他の方式によって実現できることを理解すべきである。例えば、以上に記載した装置の実施例はただ例示的なもので、例えば、前記ユニットの分割はただロジック機能の分割で、実際に実現する時は他の分割方式によってもよい。例えば、複数のユニット又は組立体を組み合わせてもよいし、別のシステムに組み込んでもよい。又は若干の特徴を無視してもよいし、実行しなくてもよい。また、示したか或いは検討した相互間の結合又は直接的な結合又は通信接続は、幾つかのインタフェース、装置又はユニットによる間接的な結合又は通信接続であってもよく、電気的、機械的または他の形態であってもよい。
分離部材として説明したユニットは、物理的に別個のものであってもよいし、そうでなくてもよい。ユニットとして示された部材は、物理的ユニットであってもよいし、そうでなくてもよい。即ち、同一の位置に位置してもよいし、複数のネットワークに分布してもよい。実際の需要に応じてそのうちの一部又は全てのユニットにより本実施例の方策の目的を実現することができる。
また、本発明の各実施例における各機能ユニットは一つの処理ユニットに集積されてもよいし、各ユニットが物理的に別個のものとして存在してもよいし、2つ以上のユニットが一つのユニットに集積されてもよい。
上記実施例において、全て又は一部は、ソフトウェア、ハードウェア、ファームウェア又はそれらの任意の組み合わせにより実現してもよい。ソフトウェアにより実現する場合、全て又は一部をコンピュータプログラム製品の形式で実現してもよい。前記コンピュータプログラム製品は、1つ又は複数のコンピュータ命令を含む。コンピュータで前記コンピュータプログラム命令をロードして実行する時、本願の実施例に記載の手順又は機能が全部又は部分的に生成される。前記コンピュータは、汎用コンピュータ、専用コンピュータ、コンピュータネットワーク、又は他のプログラマブルデバイスであってもよい。前記コンピュータ命令は、コンピュータ可読記憶媒体に記憶されてもよく、又は、前記コンピュータ可読記憶媒体により伝送されてもよい。前記コンピュータ命令を、1つのウェブサイト、コンピュータ、サーバ又はデータセンタから、有線(例えば、同軸ケーブル、光ファイバー、デジタル加入者回線(digital subscriber line:DSL))又は無線(例えば、赤外、無線、マイクロウェーブ等)の方式で、もう1つのウェブサイト、コンピュータ、サーバ又はデータセンタに伝送することができる。前記コンピュータ可読記憶媒体は、コンピュータによってアクセスされ得る任意の利用可能な媒体であってもよく、又は、1つ又は複数の利用可能な媒体で集積されたサーバ、データセンタなどのデータ記憶装置であってもよい。前記利用可能ば媒体は、磁気媒体(例えば、フレキシブルディスク、ハードディスク、磁気ディスク)、光媒体(例えば、デジタルバーサタイルディスク(digital versatile disc:DVD))、又は半導体媒体(例えば、ソリッドステートドライブ(solid state disk:SSD))等であってもよい。
上記実施例における各方法の全ての又は一部のステップを、プログラムにより関連ハードウェアを命令することで実行することができることは、当業者であれば理解されるべきである。該プログラムは、コンピュータ可読記憶媒体に記憶されてもよい。該プログラムが実行される時、上記各方法の実施例のプロセスを含んでもよい。前記記憶媒体は、読み出し専用メモリ(Read−Only Memory:ROM)又はランダムアクセスメモリ(Random Access Memory:RAM)、磁気ディスク又は光ディスクなど、プログラムコードを記憶可能な各種の媒体を含む。

Claims (27)

  1. ビデオ画像処理方法であって、前記方法は、
    複数フレームの連続ビデオ画像を取得することであって、前記複数フレームの連続ビデオ画像は、第Nフレームの画像、第N−1フレームの画像及び第N−1フレームのボケ除去処理後の画像を含み、前記Nは、正整数である、ことと、
    前記第Nフレームの画像、前記第N−1フレームの画像及び前記第N−1フレームのボケ除去処理後の画像に基づいて、前記第Nフレームの画像のボケ除去畳み込みカーネルを得ることと、
    前記ボケ除去畳み込みカーネルにより、前記第Nフレームの画像に対してボケ除去処理を行い、第Nフレームのボケ除去処理後の画像を得ることと、を含む、ビデオ画像処理方法。
  2. 前記第Nフレームの画像、前記第N−1フレームの画像及び前記第N−1フレームのボケ除去処理後の画像に基づいて、前記第Nフレームの画像のボケ除去畳み込みカーネルを得ることは、
    処理待ち画像の画素点に対して畳み込み処理を行い、ボケ除去畳み込みカーネルを得ることであって、前記処理待ち画像は、前記第Nフレームの画像、前記第N−1フレームの画像及び前記第N−1フレームのボケ除去処理後の画像をチャネル次元で重ね合わせることで得られるものである、ことを含むことを特徴とする
    請求項1に記載の方法。
  3. 処理待ち画像の画素点に対して畳み込み処理を行い、ボケ除去畳み込みカーネルを得ることは、
    前記処理待ち画像に対して畳み込み処理を行い、前記第Nフレームの画像の画素点に対する前記第N−1フレームの画像の画素点の運動情報を抽出し、アライメント畳み込みカーネルを得ることであって、前記運動情報は、速度及び方向を含む、ことと、
    前記アライメント畳み込みカーネルに対して符号化処理を行い、前記ボケ除去畳み込みカーネルを得ることと、を含むことを特徴とする
    請求項2に記載の方法。
  4. 前記ボケ除去畳み込みカーネルにより、前記第Nフレームの画像に対してボケ除去処理を行い、第Nフレームのボケ除去処理後の画像を得ることは、
    前記ボケ除去畳み込みカーネルにより、前記第Nフレームの画像の特徴画像の画素点に対して畳み込み処理を行い、第1特徴画像を得ることと、
    前記第1特徴画像に対して復号処理を行い、前記第Nフレームのボケ除去処理後の画像を得ることと、を含むことを特徴とする
    請求項2又は3に記載の方法。
  5. 前記ボケ除去畳み込みカーネルにより、前記第Nフレームの画像の特徴画像の画素点に対して畳み込み処理を行い、第1特徴画像を得ることは、
    前記ボケ除去畳み込みカーネルの次元を調整し、前記ボケ除去畳み込みカーネルのチャネル数を前記第Nフレームの画像の特徴画像のチャネル数と同じくすることと、
    次元調整後の前記ボケ除去畳み込みカーネルにより、前記第Nフレームの画像の特徴画像の画素点に対して畳み込み処理を行い、前記第1特徴画像を得ることと、を含むことを特徴とする
    請求項4に記載の方法。
  6. 前記処理待ち画像に対して畳み込み処理を行い、前記第Nフレームの画像の画素点に対する前記第N−1フレームの画像の画素点の運動情報を抽出し、アライメント畳み込みカーネルを得た後に、
    前記アライメント畳み込みカーネルにより、前記第N−1フレームのボケ除去処理後の画像の特徴画像の画素点に対して畳み込み処理を行い、第2特徴画像を得ることを更に含むことを特徴とする
    請求項3に記載の方法。
  7. 前記アライメント畳み込みカーネルにより、前記第N−1フレームのボケ除去処理後の画像の特徴画像の画素点に対して畳み込み処理を行い、第2特徴画像を得ることは、
    前記アライメント畳み込みカーネルの次元を調整し、前記アライメント畳み込みカーネルのチャネル数を前記第N−1フレームの画像の特徴画像のチャネル数と同じくすることと、
    次元調整後の前記アライメント畳み込みカーネルにより、前記第N−1フレームのボケ除去処理後の画像の特徴画像の画素点に対して畳み込み処理を行い、前記第2特徴画像を得ることと、を含むことを特徴とする
    請求項6に記載の方法。
  8. 前記第1特徴画像に対して復号処理を行い、前記第Nフレームのボケ除去処理後の画像を得ることは、
    前記第1特徴画像及び前記第2特徴画像に対して融合処理を行い、第3特徴画像を得ることと、
    前記第3特徴画像に対して復号処理を行い、前記第Nフレームのボケ除去処理後の画像を得ること、を含むことを特徴とする
    請求項7に記載の方法。
  9. 前記処理待ち画像に対して畳み込み処理を行い、前記第Nフレームの画像の画素点に対する前記第N−1フレームの画像の画素点の運動情報を抽出し、アライメント畳み込みカーネルを得ることは、
    前記第Nフレームの画像、前記第N−1フレームの画像及び前記第N−1フレームのボケ除去処理後の画像に対して、チャネル次元で重ね合わせ処理を行い、前記処理待ち画像を得ることと、
    前記処理待ち画像に対して符号化処理を行い、第4特徴画像を得ることと、
    前記第4特徴画像に対して畳み込み処理を行い、第5特徴画像を得ることと、
    畳み込み処理により、前記第5特徴画像のチャネル数を第1所定値に調整し、前記アライメント畳み込みカーネルを得ることと、を含むことを特徴とする
    請求項3に記載の方法。
  10. 前記アライメント畳み込みカーネルに対して符号化処理を行い、前記ボケ除去畳み込みカーネルを得ることは、
    畳み込み処理により、前記アライメント畳み込みカーネルのチャネル数を第2所定値に調整し、第6特徴画像を得ることと、
    前記第4特徴画像及び前記第6特徴画像に対して融合処理を行い、第7特徴画像を得ることと、
    前記第7特徴画像に対して畳み込み処理を行い、前記第N−1フレームの画像の画素点に対する前記第N−1フレームのボケ除去処理後の画像の画素点のボケ除去情報を抽出し、前記ボケ除去畳み込みカーネルを得ることと、を含むことを特徴とする
    請求項9に記載の方法。
  11. 前記第7特徴画像に対して畳み込み処理を行い、前記第N−1フレームの画像の画素点に対する前記第N−1フレームのボケ除去処理後の画像の画素点のボケ除去情報を抽出し、前記ボケ除去畳み込みカーネルを得ることは、
    前記第7特徴画像に対して畳み込み処理を行い、第8特徴画像を得ることと、
    畳み込み処理により、前記第8特徴画像のチャネル数を前記第1所定値に調整し、前記ボケ除去畳み込みカーネルを得ることと、を含むことを特徴とする
    請求項10に記載の方法。
  12. 前記第3特徴画像に対して復号処理を行い、前記第Nフレームのボケ除去処理後の画像を得ることは、
    前記第3特徴画像に対して逆畳み込み処理を行い、第9特徴画像を得ることと、
    前記第9特徴画像に対して畳み込み処理を行い、第Nフレームの復号処理後の画像を得ることと、
    前記第Nフレームの画像の第1画素点の画素値と前記第Nフレームの復号処理後の画像の第2画素点の画素値を加算し、前記第Nフレームのボケ除去処理後の画像を得ることであって、前記第Nフレームの画像における、前記第1画素点の位置は、前記第Nフレームの復号処理後の画像における、前記第2画素点の位置と同じである、ことと、を含むことを特徴とする
    請求項8に記載の方法。
  13. ビデオ画像処理装置であって、前記装置は、
    複数フレームの連続ビデオ画像を取得するように構成される取得ユニットであって、前記複数フレームの連続ビデオ画像は、第Nフレームの画像、第N−1フレームの画像及び第N−1フレームのボケ除去処理後の画像を含み、前記Nは、正整数である、取得ユニットと、
    前記第Nフレームの画像、前記第N−1フレームの画像及び前記第N−1フレームのボケ除去処理後の画像に基づいて、前記第Nフレームの画像のボケ除去畳み込みカーネルを得るように構成される第1処理ユニットと、
    前記ボケ除去畳み込みカーネルにより、前記第Nフレームの画像に対してボケ除去処理を行い、第Nフレームのボケ除去処理後の画像を得るように構成される第2処理ユニットと、を備える、ビデオ画像処理装置。
  14. 前記第1処理ユニットは、
    処理待ち画像の画素点に対して畳み込み処理を行い、ボケ除去畳み込みカーネルを得るように構成される第1畳み込み処理サブユニットであって、前記処理待ち画像は、前記第Nフレームの画像、前記第N−1フレームの画像及び前記第N−1フレームのボケ除去処理後の画像をチャネル次元で重ね合わせることで得られるものである、第1畳み込み処理サブユニットを備えることを特徴とする
    請求項13に記載の装置。
  15. 前記第1畳み込み処理サブユニットは、前記処理待ち画像に対して畳み込み処理を行い、前記第Nフレームの画像の画素点に対する前記第N−1フレームの画像の画素点の運動情報を抽出し、アライメント畳み込みカーネルを得るように構成され、前記運動情報は、速度及び方向を含み、前記第1畳み込み処理サブユニットは、前記アライメント畳み込みカーネルに対して符号化処理を行い、前記ボケ除去畳み込みカーネルを得るように構成されることを特徴とする
    請求項14に記載の装置。
  16. 前記第2処理ユニットは、前記ボケ除去畳み込みカーネルにより、前記第Nフレームの画像の特徴画像の画素点に対して畳み込み処理を行い、第1特徴画像を得るように構成される第2畳み込み処理サブユニットと、
    前記第1特徴画像に対して復号処理を行い、前記第Nフレームのボケ除去処理後の画像を得るように構成される復号処理サブユニットと、を備えることを特徴とする
    請求項14又は15に記載の装置。
  17. 前記第2畳み込み処理サブユニットは、前記ボケ除去畳み込みカーネルの次元を調整し、前記ボケ除去畳み込みカーネルのチャネル数を前記第Nフレームの画像の特徴画像のチャネル数と同じくし、次元調整後の前記ボケ除去畳み込みカーネルにより、前記第Nフレームの画像の特徴画像の画素点に対して畳み込み処理を行い、前記第1特徴画像を得るように構成されることを特徴とする
    請求項16に記載の装置。
  18. 前記第1畳み込み処理サブユニットは更に、前記処理待ち画像に対して畳み込み処理を行い、前記第Nフレームの画像の画素点に対する前記第N−1フレームの画像の画素点の運動情報を抽出し、アライメント畳み込みカーネルを得た後、前記アライメント畳み込みカーネルにより、前記第N−1フレームのボケ除去処理後の画像の特徴画像の画素点に対して畳み込み処理を行い、第2特徴画像を得るように構成されることを特徴とする
    請求項15に記載の装置。
  19. 前記第1畳み込み処理サブユニットは更に、前記アライメント畳み込みカーネルの次元を調整し、前記アライメント畳み込みカーネルのチャネル数を前記第N−1フレームの画像の特徴画像のチャネル数と同じくし、次元調整後の前記アライメント畳み込みカーネルにより、前記第N−1フレームのボケ除去処理後の画像の特徴画像の画素点に対して畳み込み処理を行い、前記第2特徴画像を得るように構成されることを特徴とする
    請求項18に記載の装置。
  20. 前記第2処理ユニットは、前記第1特徴画像及び前記第2特徴画像に対して融合処理を行い、第3特徴画像を得て、前記第3特徴画像に対して復号処理を行い、前記第Nフレームのボケ除去処理後の画像を得るように構成されることを特徴とする
    請求項19に記載の装置。
  21. 前記第1畳み込み処理サブユニットは更に、前記第Nフレームの画像、前記第N−1フレームの画像及び前記第N−1フレームのボケ除去処理後の画像に対してチャネル次元で重ね合わせ処理を行い、前記処理待ち画像を得て、前記処理待ち画像に対して符号化処理を行い、第4特徴画像を得て、前記第4特徴画像に対して畳み込み処理を行い、第5特徴画像を得て、畳み込み処理により、前記第5特徴画像のチャネル数を第1所定値に調整し、前記アライメント畳み込みカーネルを得るように構成されることを特徴とする
    請求項15に記載の装置。
  22. 前記第1畳み込み処理サブユニットは更に、畳み込み処理により、前記アライメント畳み込みカーネルのチャネル数を第2所定値に調整し、第6特徴画像を得て、前記第4特徴画像及び前記第6特徴画像に対して融合処理を行い、第7特徴画像を得て、前記第7特徴画像に対して畳み込み処理を行い、前記第N−1フレームの画像の画素点に対する前記第N−1フレームのボケ除去処理後の画像の画素点のボケ除去情報を抽出し、前記ボケ除去畳み込みカーネルを得るように構成されることを特徴とする
    請求項21に記載の装置。
  23. 前記第1畳み込み処理サブユニットは更に、前記第7特徴画像に対して畳み込み処理を行い、第8特徴画像を得て、畳み込み処理により、前記第8特徴画像のチャネル数を前記第1所定値に調整し、前記ボケ除去畳み込みカーネルを得るように構成されることを特徴とする
    請求項22に記載の装置。
  24. 前記第2処理ユニットは更に、前記第3特徴画像に対して逆畳み込み処理を行い、第9特徴画像を得て、前記第9特徴画像に対して畳み込み処理を行い、第Nフレームの復号処理後の画像を得て、前記第Nフレームの画像の第1画素点の画素値と前記第Nフレームの復号処理後の画像の第2画素点の画素値を加算し、前記第Nフレームのボケ除去処理後の画像を得るように構成され、前記第Nフレームの画像における、前記第1画素点の位置は、前記第Nフレームの復号処理後の画像における、前記第2画素点の位置と同じであることを特徴とする
    請求項20に記載の装置。
  25. プロセッサであって、前記プロセッサは、請求項1から12のうちいずれか一項に記載の方法を実行するように構成される、プロセッサ。
  26. 電子機器であって、前記電子機器は、プロセッサと、入力装置と、出力装置と、メモリと、を備え、前記プロセッサ、入力装置、出力装置及びメモリは、相互接続され、前記メモリにプログラム命令が記憶されており、前記プログラム命令が前記プロセッサにより実行される時、前記プロセッサに、請求項1から12のうちいずれか一項に記載の方法を実行させる、電子機器。
  27. コンピュータ可読記憶媒体であって、前記コンピュータ可読記憶媒体に、コンピュータプログラムが記憶されており、前記コンピュータプログラムは、プログラム命令を含み、前記プログラム命令が電子機器のプロセッサにより実行される時、前記プロセッサに、請求項1から12のうちいずれか一項に記載の方法を実行させる、コンピュータ可読記憶媒体。
JP2021520271A 2019-04-22 2019-10-29 ビデオ画像処理方法及び装置 Active JP7123256B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
CN201910325282.5A CN110062164B (zh) 2019-04-22 2019-04-22 视频图像处理方法及装置
CN201910325282.5 2019-04-22
PCT/CN2019/114139 WO2020215644A1 (zh) 2019-04-22 2019-10-29 视频图像处理方法及装置

Publications (2)

Publication Number Publication Date
JP2021528795A true JP2021528795A (ja) 2021-10-21
JP7123256B2 JP7123256B2 (ja) 2022-08-22

Family

ID=67319990

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2021520271A Active JP7123256B2 (ja) 2019-04-22 2019-10-29 ビデオ画像処理方法及び装置

Country Status (7)

Country Link
US (1) US20210352212A1 (ja)
JP (1) JP7123256B2 (ja)
KR (1) KR20210048544A (ja)
CN (3) CN110062164B (ja)
SG (1) SG11202108197SA (ja)
TW (1) TWI759668B (ja)
WO (1) WO2020215644A1 (ja)

Families Citing this family (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110062164B (zh) * 2019-04-22 2021-10-26 深圳市商汤科技有限公司 视频图像处理方法及装置
CN112465698A (zh) * 2019-09-06 2021-03-09 华为技术有限公司 一种图像处理方法和装置
CN111241985B (zh) * 2020-01-08 2022-09-09 腾讯科技(深圳)有限公司 一种视频内容识别方法、装置、存储介质、以及电子设备
CN112200732B (zh) * 2020-04-30 2022-10-21 南京理工大学 一种清晰特征融合的视频去模糊方法
KR20220116331A (ko) 2021-04-07 2022-08-22 베이징 바이두 넷컴 사이언스 테크놀로지 컴퍼니 리미티드 모델 트레이닝 방법, 보행자 재인식 방법, 장치 및 전자 기기
CN113409209A (zh) * 2021-06-17 2021-09-17 Oppo广东移动通信有限公司 图像去模糊方法、装置、电子设备与存储介质
US20230034727A1 (en) * 2021-07-29 2023-02-02 Rakuten Group, Inc. Blur-robust image segmentation
CN116362976A (zh) * 2021-12-22 2023-06-30 北京字跳网络技术有限公司 一种模糊视频修复方法及装置
CN116132798B (zh) * 2023-02-02 2023-06-30 深圳市泰迅数码有限公司 一种智能摄像头的自动跟拍方法
CN116128769B (zh) * 2023-04-18 2023-06-23 聊城市金邦机械设备有限公司 摇摆运动机构的轨迹视觉记录系统

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2010093040A1 (ja) * 2009-02-13 2010-08-19 国立大学法人静岡大学 モーションブラー制御装置、方法、及びプログラム
US20110102642A1 (en) * 2009-11-04 2011-05-05 Sen Wang Image deblurring using a combined differential image
CN105957036A (zh) * 2016-05-06 2016-09-21 电子科技大学 一种加强字符先验的视频去运动模糊方法
CN106791273A (zh) * 2016-12-07 2017-05-31 重庆大学 一种结合帧间信息的视频盲复原方法
CN109360171A (zh) * 2018-10-26 2019-02-19 北京理工大学 一种基于神经网络的视频图像实时去模糊方法

Family Cites Families (31)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8654201B2 (en) * 2005-02-23 2014-02-18 Hewlett-Packard Development Company, L.P. Method for deblurring an image
EP2153407A1 (en) * 2007-05-02 2010-02-17 Agency for Science, Technology and Research Motion compensated image averaging
KR101574733B1 (ko) * 2008-11-19 2015-12-04 삼성전자 주식회사 고화질 컬러 영상을 획득하기 위한 영상 처리 장치 및 방법
KR20100090961A (ko) * 2009-02-09 2010-08-18 삼성전자주식회사 가변 부호화 어퍼쳐 장치를 이용하는 이미징 방법 및 이를 적용하는 이미징 장치
US8390704B2 (en) * 2009-10-16 2013-03-05 Eastman Kodak Company Image deblurring using a spatial image prior
JP5204165B2 (ja) * 2010-08-05 2013-06-05 パナソニック株式会社 画像復元装置および画像復元方法
US8860824B2 (en) * 2010-08-06 2014-10-14 Honeywell International Inc. Motion blur modeling for image formation
CN102073993B (zh) * 2010-12-29 2012-08-22 清华大学 一种基于摄像机自标定的抖动视频去模糊方法和装置
CN102158730B (zh) * 2011-05-26 2014-04-02 威盛电子股份有限公司 影像处理系统及方法
KR101844332B1 (ko) * 2012-03-13 2018-04-03 삼성전자주식회사 블러 영상 및 노이즈 영상으로 구성된 멀티 프레임을 이용하여 비균일 모션 블러를 제거하는 방법 및 장치
CN103049891B (zh) * 2013-01-25 2015-04-08 西安电子科技大学 基于自适应窗口选择的视频图像去模糊方法
US9392173B2 (en) * 2013-12-13 2016-07-12 Adobe Systems Incorporated Image deblurring based on light streaks
CN104932868B (zh) * 2014-03-17 2019-01-15 联想(北京)有限公司 一种数据处理方法及电子设备
CN104135598B (zh) * 2014-07-09 2017-05-17 清华大学深圳研究生院 一种视频图像稳定方法及装置
CN104103050B (zh) * 2014-08-07 2017-03-15 重庆大学 一种基于局部策略的真实视频复原方法
CN106033595B (zh) * 2015-03-13 2021-06-22 中国科学院西安光学精密机械研究所 一种基于局部约束的图像盲去模糊方法
CN105405099A (zh) * 2015-10-30 2016-03-16 北京理工大学 一种基于点扩散函数的水下图像超分辨率重建方法
CN106251297A (zh) * 2016-07-19 2016-12-21 四川大学 一种改进的基于多幅图像模糊核估计的盲超分辨率重建算法
CN107273894A (zh) * 2017-06-15 2017-10-20 珠海习悦信息技术有限公司 车牌的识别方法、装置、存储介质及处理器
CN108875486A (zh) * 2017-09-28 2018-11-23 北京旷视科技有限公司 目标对象识别方法、装置、系统和计算机可读介质
CN108875900B (zh) * 2017-11-02 2022-05-24 北京旷视科技有限公司 视频图像处理方法和装置、神经网络训练方法、存储介质
CN107944416A (zh) * 2017-12-06 2018-04-20 成都睿码科技有限责任公司 一种通过视频进行真人验证的方法
CN108109121A (zh) * 2017-12-18 2018-06-01 深圳市唯特视科技有限公司 一种基于卷积神经网络的人脸模糊快速消除方法
CN108256629B (zh) * 2018-01-17 2020-10-23 厦门大学 基于卷积网络和自编码的eeg信号无监督特征学习方法
CN108629743B (zh) * 2018-04-04 2022-03-25 腾讯科技(深圳)有限公司 图像的处理方法、装置、存储介质和电子装置
CN108846861B (zh) * 2018-06-12 2020-12-29 广州视源电子科技股份有限公司 图像单应矩阵计算方法、装置、移动终端及存储介质
CN108830221A (zh) * 2018-06-15 2018-11-16 北京市商汤科技开发有限公司 图像的目标对象分割及训练方法和装置、设备、介质、产品
CN109345449B (zh) * 2018-07-17 2020-11-10 西安交通大学 一种基于融合网络的图像超分辨率及去非均匀模糊方法
CN109410130B (zh) * 2018-09-28 2020-12-04 华为技术有限公司 图像处理方法和图像处理装置
CN109472837A (zh) * 2018-10-24 2019-03-15 西安电子科技大学 基于条件生成对抗网络的光电图像转换方法
CN110062164B (zh) * 2019-04-22 2021-10-26 深圳市商汤科技有限公司 视频图像处理方法及装置

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2010093040A1 (ja) * 2009-02-13 2010-08-19 国立大学法人静岡大学 モーションブラー制御装置、方法、及びプログラム
US20110102642A1 (en) * 2009-11-04 2011-05-05 Sen Wang Image deblurring using a combined differential image
CN105957036A (zh) * 2016-05-06 2016-09-21 电子科技大学 一种加强字符先验的视频去运动模糊方法
CN106791273A (zh) * 2016-12-07 2017-05-31 重庆大学 一种结合帧间信息的视频盲复原方法
CN109360171A (zh) * 2018-10-26 2019-02-19 北京理工大学 一种基于神经网络的视频图像实时去模糊方法

Also Published As

Publication number Publication date
CN110062164A (zh) 2019-07-26
TWI759668B (zh) 2022-04-01
JP7123256B2 (ja) 2022-08-22
TW202040986A (zh) 2020-11-01
CN113992848A (zh) 2022-01-28
CN110062164B (zh) 2021-10-26
KR20210048544A (ko) 2021-05-03
CN113992847A (zh) 2022-01-28
WO2020215644A1 (zh) 2020-10-29
US20210352212A1 (en) 2021-11-11
SG11202108197SA (en) 2021-08-30

Similar Documents

Publication Publication Date Title
JP2021528795A (ja) ビデオ画像処理方法及び装置
CN111311629B (zh) 图像处理方法、图像处理装置及设备
CN111275626B (zh) 一种基于模糊度的视频去模糊方法、装置及设备
TW202134997A (zh) 用於對影像進行去雜訊的方法、用於擴充影像資料集的方法、以及使用者設備
JP2022507399A (ja) ロボット画像強調方法及び装置、プロセッサ、機器、媒体及びプログラム
CN111091503A (zh) 基于深度学习的图像去失焦模糊方法
WO2020146911A2 (en) Multi-stage multi-reference bootstrapping for video super-resolution
CN113949808B (zh) 视频生成方法、装置、可读介质及电子设备
CN112767294B (zh) 深度图像的增强方法、装置、电子设备以及存储介质
Conde et al. Lens-to-lens bokeh effect transformation. NTIRE 2023 challenge report
CN114627034A (zh) 一种图像增强方法、图像增强模型的训练方法及相关设备
Yae et al. Inverted residual Fourier transformation for lightweight single image deblurring
CN112509144A (zh) 人脸图像处理方法、装置、电子设备及存储介质
CN115713678A (zh) 一种箭头图片数据增广方法、系统、电子设备及存储介质
CN111402164B (zh) 矫正网络模型的训练方法和装置、文本识别方法和装置
KR102233606B1 (ko) 영상 처리 방법 및 그 장치
KR20210098398A (ko) 영상의 업샘플링 방법 및 장치
Komatsu et al. Effectiveness of u-net in denoising rgb images
CN110545373B (zh) 空间环境的感知方法及装置
Cao et al. OmniZoomer: Learning to Move and Zoom in on Sphere at High-Resolution
CN113658050A (zh) 一种图像的去噪方法、去噪装置、移动终端及存储介质
WO2023133889A1 (zh) 图像处理方法、装置、遥控设备、系统及存储介质
WO2023133888A1 (zh) 图像处理方法、装置、遥控设备、系统及存储介质
CN114648468B (zh) 图像处理方法、装置、终端设备及计算机可读存储介质
WO2023137710A1 (zh) 神经网络的训练方法、图像处理方法、装置、系统及介质

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20201223

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20201223

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20220301

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20220428

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20220614

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20220719

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20220802

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20220809

R150 Certificate of patent or registration of utility model

Ref document number: 7123256

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150