JP2021528795A

JP2021528795A - ビデオ画像処理方法及び装置

Info

Publication number: JP2021528795A
Application number: JP2021520271A
Authority: JP
Inventors: シャンチェンジョウ; ジアウェイジャン; スージエレン
Original assignee: Shenzhen Sensetime Technology Co Ltd
Current assignee: Shenzhen Sensetime Technology Co Ltd
Priority date: 2019-04-22
Filing date: 2019-10-29
Publication date: 2021-10-21
Anticipated expiration: 2039-10-29
Also published as: CN110062164A; TWI759668B; JP7123256B2; TW202040986A; CN113992848A; CN110062164B; KR20210048544A; CN113992847A; WO2020215644A1; US20210352212A1; SG11202108197SA

Abstract

本願の実施例は、ビデオ画像処理方法及び装置を開示する。該方法は、複数フレームの連続ビデオ画像を取得することであって、前記複数フレームの連続ビデオ画像は、第Ｎフレームの画像、第Ｎ−１フレームの画像及び第Ｎ−１フレームのボケ除去処理後の画像を含み、前記Ｎは、正整数である、ことと、前記第Ｎフレームの画像、前記第Ｎ−１フレームの画像及び前記第Ｎ−１フレームのボケ除去処理後の画像に基づいて、前記第Ｎフレームの画像のボケ除去畳み込みカーネルを得ることと、前記ボケ除去畳み込みカーネルにより、前記第Ｎフレームの画像に対してボケ除去処理を行い、第Ｎフレームのボケ除去処理後の画像を得ることと、を含む。

Description

（関連出願の相互参照）
本願は、２０１９年０４月２２日に提出された、出願番号が２０１９１０３２５２８２．５である中国特許出願に基づく優先権を主張し、該中国特許出願の全内容が参照として本願に組み込まれる。

本願は、画像処理技術分野に関し、特にビデオ画像処理方法及び装置に関する。

手持ち型カメラ及び搭載カメラがますます広く適用されていることに伴い、ますます多くの人々は、カメラによりビデオを撮影し、撮影したビデオに基づいて処理を行うことができる。例えば、無人機又は自動運転自動車は、撮影したビデオに基づいて、追跡，障害物回避などの機能を実現させることができる。

カメラ振れ、焦点外れ、被写体の高速運動などの要因により、撮影ビデオにボケが発生しやすい。例えば、ロボットが動作する時、カメラ振れ又は被写体の運動によるボケは、撮影失敗を引き起こすか又はビデオに基づいた後続の処理ができなくなることを引き起こすことが多い。従来の方法において、オプティカルフロー又はニューラルネットワークにより、ビデオ画像におけるボケを除去することができるが、ボケ除去効果が低い。

本願の実施例は、ビデオ画像処理方法及び装置を提供する。

第１態様によれば、本願の実施例は、ビデオ画像処理方法を提供する。前記方法は、複数フレームの連続ビデオ画像を取得することであって、前記複数フレームの連続ビデオ画像は、第Ｎフレームの画像、第Ｎ−１フレームの画像及び第Ｎ−１フレームのボケ除去処理後の画像を含み、前記Ｎは、正整数である、ことと、前記第Ｎフレームの画像、前記第Ｎ−１フレームの画像及び前記第Ｎ−１フレームのボケ除去処理後の画像に基づいて、前記第Ｎフレームの画像のボケ除去畳み込みカーネルを得ることと、前記ボケ除去畳み込みカーネルにより、前記第Ｎフレームの画像に対してボケ除去処理を行い、第Ｎフレームのボケ除去処理後の画像を得ることと、を含む。

第１態様で提供される技術的解決手段によれば、ビデオ画像における第Ｎフレームの画像のボケ除去畳み込みカーネルを得ることができる。更に、第Ｎフレームの画像のボケ除去畳み込みカーネルにより、第Ｎフレームの画像に対して畳み込み処理を行うことで、第Ｎフレームの画像におけるボケを効果的に除去し、第Ｎフレームのボケ除去処理後の画像を得ることができる。

可能な実現形態において、前記第Ｎフレームの画像、前記第Ｎ−１フレームの画像及び前記第Ｎ−１フレームのボケ除去処理後の画像に基づいて、前記第Ｎフレームの画像のボケ除去畳み込みカーネルを得ることは、処理待ち画像の画素点に対して畳み込み処理を行い、ボケ除去畳み込みカーネルを得ることであって、前記処理待ち画像は、前記第Ｎフレームの画像、前記第Ｎ−１フレームの画像及び前記第Ｎ−１フレームのボケ除去処理後の画像をチャネル次元で重ね合わせることで得られるものである、ことを含む。

該可能な実現形態において、第Ｎ−１フレームの画像の画素点と第Ｎ−１フレームのボケ除去処理後の画像の画素点とのボケ除去情報に基づいて、画素点のボケ除去畳み込みカーネルを得る。該ボケ除去畳み込みカーネルにより、第Ｎフレームの画像内の対応する画素点に対して畳み込み除去処理を行い、第Ｎフレームの画像内の画素点のボケを除去する。第Ｎフレームの画像における各画素に対してそれぞれ１つのボケ除去畳み込みカーネルを生成することで、第Ｎフレームの画像（不均一なボケ画像）におけるボケを除去することができる。ボケ除去処理後の画像は、鮮明で自然である。

もう１つの可能な実現形態において、処理待ち画像の画素点に対して畳み込み処理を行い、ボケ除去畳み込みカーネルを得ることは、前記処理待ち画像に対して畳み込み処理を行い、前記第Ｎフレームの画像の画素点に対する前記第Ｎ−１フレームの画像の画素点の運動情報を抽出し、アライメント畳み込みカーネルを得ることであって、前記運動情報は、速度及び方向を含む、ことと、前記アライメント畳み込みカーネルに対して符号化処理を行い、前記ボケ除去畳み込みカーネルを得ることと、を含む。

該可能な実現形態において、第Ｎ−１フレームの画像の画素点と第Ｎフレームの画像の画素点との運動情報に基づいて、画素点のアライメント畳み込みカーネルを得る。後続で、該アライメントカーネルによりアライメント処理を行うことができる。更に、アライメントカーネルに対して畳み込み処理を行い、第Ｎ−１フレームの画像の画素点と第Ｎ−１フレームのボケ除去処理後の画像の画素点とのボケ除去情報を抽出し、ボケ除去カーネルを得る。ボケ除去カーネルに、第Ｎ−１フレームの画像の画素点と第Ｎ−１フレームのボケ除去処理後の画像の画素点とのボケ除去情報を含ませるだけでなく、第Ｎ−１フレームの画像の画素点と第Ｎフレームの画像の画素点との運動情報も含まれることで、第Ｎフレームの画像のボケ除去効果の向上に寄与する。

もう１つの可能な実現形態において、前記ボケ除去畳み込みカーネルにより、前記第Ｎフレームの画像に対してボケ除去処理を行い、第Ｎフレームのボケ除去処理後の画像を得ることは、前記ボケ除去畳み込みカーネルにより、前記第Ｎフレームの画像の特徴画像の画素点に対して畳み込み処理を行い、第１特徴画像を得ることと、前記第１特徴画像に対して復号処理を行い、前記第Ｎフレームのボケ除去処理後の画像を得ることと、を含む。

該可能な実現形態において、ボケ除去畳み込みカーネルにより、第Ｎフレームの画像の特徴画像に対してボケ除去処理を行うことで、ボケ除去プロセスにおけるデータ処理量を減少させ、処理速度を向上させることができる。

もう１つの可能な実現形態において、前記ボケ除去畳み込みカーネルにより、前記第Ｎフレームの画像の特徴画像の画素点に対して畳み込み処理を行い、第１特徴画像を得ることは、前記ボケ除去畳み込みカーネルの次元を調整し、前記ボケ除去畳み込みカーネルのチャネル数を前記第Ｎフレームの画像の特徴画像のチャネル数と同じくすることと、次元調整後の前記ボケ除去畳み込みカーネルにより、前記第Ｎフレームの画像の特徴画像の画素点に対して畳み込み処理を行い、前記第１特徴画像を得ることと、を含む。

該可能な実現形態において、ボケ除去畳み込みカーネルの次元を調整することで、ボケ除去畳み込みカーネルの次元を第Ｎフレームの画像の特徴画像の次元と同じくし、更に、次元調整後のボケ除去畳み込みカーネルにより、第Ｎフレームの画像の特徴画像に対して畳み込み処理を行うことを実現させる。

もう１つの可能な実現形態において、前記処理待ち画像に対して畳み込み処理を行い、前記第Ｎフレームの画像の画素点に対する前記第Ｎ−１フレームの画像の画素点の運動情報を抽出し、アライメント畳み込みカーネルを得た後、前記アライメント畳み込みカーネルにより、前記第Ｎ−１フレームのボケ除去処理後の画像の特徴画像の画素点に対して畳み込み処理を行い、第２特徴画像を得ることを更に含む。

該可能な実現形態において、アライメント畳み込みカーネルにより、第Ｎ−１フレームの画像の特徴画像の画素点に対して畳み込み処理を行い、第Ｎ−１フレームの画像の特徴画像を第Ｎフレーム時刻へアライメントすることを実現させる。

もう１つの可能な実現形態において、前記アライメント畳み込みカーネルにより、前記第Ｎ−１フレームのボケ除去処理後の画像の特徴画像の画素点に対して畳み込み処理を行い、第２特徴画像を得ることは、前記アライメント畳み込みカーネルの次元を調整し、前記アライメント畳み込みカーネルのチャネル数を前記第Ｎ−１フレームの画像の特徴画像のチャネル数と同じくすることと、次元調整後の前記アライメント畳み込みカーネルにより、前記第Ｎ−１フレームのボケ除去処理後の画像の特徴画像の画素点に対して畳み込み処理を行い、前記第２特徴画像を得ることと、を含む。

該可能な実現形態において、アライメント畳み込みカーネルの次元を調整することで、アライメント畳み込みカーネルの次元を第Ｎ−１フレームの画像の特徴画像の次元と同じくする。更に、次元調整後のアライメント畳み込みカーネルにより第Ｎ−１フレームの画像の特徴画像に対して畳み込み処理を行うことを実現させる。

もう１つの可能な実現形態において、前記第１特徴画像に対して復号処理を行い、前記第Ｎフレームのボケ除去処理後の画像を得ることは、前記第１特徴画像及び前記第２特徴画像に対して融合処理を行い、第３特徴画像を得ることと、前記第３特徴画像に対して復号処理を行い、前記第Ｎフレームのボケ除去処理後の画像を得ること、を含む。

該可能な実現形態において、第１特徴画像と第２特徴画像を融合することで、第Ｎフレームの画像のボケ除去効果を向上させる。更に、融合後の第３特徴画像に対して復号処理を行い、第Ｎフレームのボケ除去処理後の画像を得る。

もう１つの可能な実現形態において、前記処理待ち画像に対して畳み込み処理を行い、前記第Ｎフレームの画像の画素点に対する前記第Ｎ−１フレームの画像の画素点の運動情報を抽出し、アライメント畳み込みカーネルを得ることは、前記第Ｎフレームの画像、前記第Ｎ−１フレームの画像及び前記第Ｎ−１フレームのボケ除去処理後の画像に対して、チャネル次元で重ね合わせ処理を行い、前記処理待ち画像を得ることと、前記処理待ち画像に対して符号化処理を行い、第４特徴画像を得ることと、前記第４特徴画像に対して畳み込み処理を行い、第５特徴画像を得ることと、畳み込み処理により、前記第５特徴画像のチャネル数を第１所定値に調整し、前記アライメント畳み込みカーネルを得ることと、を含む。

該可能な実現形態において、処理待ち画像に対して畳み込み処理を行い、第Ｎフレームの画像の画素点に対する第Ｎ−１フレームの画像の画素点の運動情報を抽出する。これにより、後続処理において、更に畳み込み処理により第５特徴画像のチャネル数を第１所定値に調整する。

もう１つの可能な実現形態において、前記アライメント畳み込みカーネルに対して符号化処理を行い、前記ボケ除去畳み込みカーネルを得ることは、畳み込み処理により、前記アライメント畳み込みカーネルのチャネル数を第２所定値に調整し、第６特徴画像を得ることと、前記第４特徴画像及び前記第６特徴画像に対して融合処理を行い、第７特徴画像を得ることと、前記第７特徴画像に対して畳み込み処理を行い、前記第Ｎ−１フレームの画像の画素点に対する前記第Ｎ−１フレームのボケ除去処理後の画像の画素点のボケ除去情報を抽出し、前記ボケ除去畳み込みカーネルを得ることと、を含む。

該可能な実現形態において、アライメント畳み込みカーネルに対して畳み込み処理を行うことで、ボケ除去畳み込みカーネルを得る。ボケ除去畳み込みカーネルに、第Ｎフレームの画像の画素点に対する第Ｎ−１フレームの画像の画素点の運動情報を含ませるだけでなく、第Ｎ−１フレームの画像の画素点に対する第Ｎ−１フレームのボケ除去処理後の画像の画素点のボケ除去情報も含ませる。これにより、後続でボケ除去畳み込みカーネルにより第Ｎフレームの画像に対してボケ除去を行う効果を向上させる。

もう１つの可能な実現形態において、前記第７特徴画像に対して畳み込み処理を行い、前記第Ｎ−１フレームの画像の画素点に対する前記第Ｎ−１フレームのボケ除去処理後の画像の画素点のボケ除去情報を抽出し、前記ボケ除去畳み込みカーネルを得ることは、前記第７特徴画像に対して畳み込み処理を行い、第８特徴画像を得ることと、畳み込み処理により、前記第８特徴画像のチャネル数を前記第１所定値に調整し、前記ボケ除去畳み込みカーネルを得ることと、を含む。

該可能な実現形態において、第７特徴画像に対して畳み込み処理を行い、第Ｎ−１フレームのボケ除去処理後の画像の画素点に対する第Ｎ−１フレームの画像の画素点の運動情報を抽出する。これにより、後続処理において、更に畳み込み処理により、第８特徴画像のチャネル数を第１所定値に調整する。

もう１つの可能な実現形態において、前記第３特徴画像に対して復号処理を行い、前記第Ｎフレームのボケ除去処理後の画像を得ることは、前記第３特徴画像に対して逆畳み込み処理を行い、第９特徴画像を得ることと、前記第９特徴画像に対して畳み込み処理を行い、第Ｎフレームの復号処理後の画像を得ることと、前記第Ｎフレームの画像の第１画素点の画素値と前記第Ｎフレームの復号処理後の画像の第２画素点の画素値を加算し、前記第Ｎフレームのボケ除去処理後の画像を得ることであって、前記第Ｎフレームの画像における、前記第１画素点の位置は、前記第Ｎフレームの復号処理後の画像における、前記第２画素点の位置と同じである、ことと、を含む。

該可能な実現形態において、逆畳み込み処理及び畳み込み処理により、第３特徴画像の復号処理を実現させ、第Ｎフレームの復号処理後の画像を得る。更に、第Ｎフレームの画像と第Ｎフレームの復号処理後の画像内の対応する画素点の画素値を加算することで、前記第Ｎフレームのボケ除去処理後の画像を得て、ボケ除去効果を更に向上させる。

第２態様によれば、本願の実施例は、ビデオ画像処理装置を更に提供する。前記装置は、複数フレームの連続ビデオ画像を取得するように構成される取得ユニットであって、前記複数フレームの連続ビデオ画像は、第Ｎフレームの画像、第Ｎ−１フレームの画像及び第Ｎ−１フレームのボケ除去処理後の画像を含み、前記Ｎは、正整数である、取得ユニットと、前記第Ｎフレームの画像、前記第Ｎ−１フレームの画像及び前記第Ｎ−１フレームのボケ除去処理後の画像に基づいて、前記第Ｎフレームの画像のボケ除去畳み込みカーネルを得るように構成される第１処理ユニットと、前記ボケ除去畳み込みカーネルにより、前記第Ｎフレームの画像に対してボケ除去処理を行い、第Ｎフレームのボケ除去処理後の画像を得るように構成される第２処理ユニットと、を備える。

可能な実現形態において、前記第１処理ユニットは、処理待ち画像の画素点に対して畳み込み処理を行い、ボケ除去畳み込みカーネルを得るように構成される第１畳み込み処理サブユニットであって、前記処理待ち画像は、前記第Ｎフレームの画像、前記第Ｎ−１フレームの画像及び前記第Ｎ−１フレームのボケ除去処理後の画像をチャネル次元で重ね合わせることで得られるものである、第１畳み込み処理サブユニットを備える。

もう１つの可能な実現形態において、前記第１畳み込み処理サブユニットは、前記処理待ち画像に対して畳み込み処理を行い、前記第Ｎフレームの画像の画素点に対する前記第Ｎ−１フレームの画像の画素点の運動情報を抽出し、アライメント畳み込みカーネルを得るように構成され、前記運動情報は、速度及び方向を含み、前記第１畳み込み処理サブユニットは、前記アライメント畳み込みカーネルに対して符号化処理を行い、前記ボケ除去畳み込みカーネルを得るように構成される。

もう１つの可能な実現形態において、前記第２処理ユニットは、前記ボケ除去畳み込みカーネルにより、前記第Ｎフレームの画像の特徴画像の画素点に対して畳み込み処理を行い、第１特徴画像を得るように構成される第２畳み込み処理サブユニットと、前記第１特徴画像に対して復号処理を行い、前記第Ｎフレームのボケ除去処理後の画像を得るように構成される復号処理サブユニットと、を備える。

もう１つの可能な実現形態において、前記第２畳み込み処理サブユニットは、前記ボケ除去畳み込みカーネルの次元を調整し、前記ボケ除去畳み込みカーネルのチャネル数を前記第Ｎフレームの画像の特徴画像のチャネル数と同じくし、次元調整後の前記ボケ除去畳み込みカーネルにより、前記第Ｎフレームの画像の特徴画像の画素点に対して畳み込み処理を行い、前記第１特徴画像を得るように構成される。

もう１つの可能な実現形態において、前記第１畳み込み処理サブユニットは更に、前記処理待ち画像に対して畳み込み処理を行い、前記第Ｎフレームの画像の画素点に対する前記第Ｎ−１フレームの画像の画素点の運動情報を抽出し、アライメント畳み込みカーネルを得た後、前記アライメント畳み込みカーネルにより、前記第Ｎ−１フレームのボケ除去処理後の画像の特徴画像の画素点に対して畳み込み処理を行い、第２特徴画像を得るように構成される。

もう１つの可能な実現形態において、前記第１畳み込み処理サブユニットは更に、前記アライメント畳み込みカーネルの次元を調整し、前記アライメント畳み込みカーネルのチャネル数を前記第Ｎ−１フレームの画像の特徴画像のチャネル数と同じくし、次元調整後の前記アライメント畳み込みカーネルにより、前記第Ｎ−１フレームのボケ除去処理後の画像の特徴画像の画素点に対して畳み込み処理を行い、前記第２特徴画像を得るように構成される。

もう１つの可能な実現形態において、前記第２処理ユニットは、前記第１特徴画像及び前記第２特徴画像に対して融合処理を行い、第３特徴画像を得て、前記第３特徴画像に対して復号処理を行い、前記第Ｎフレームのボケ除去処理後の画像を得るように構成される。

もう１つの可能な実現形態において、前記第１畳み込み処理サブユニットは更に、前記第Ｎフレームの画像、前記第Ｎ−１フレームの画像及び前記第Ｎ−１フレームのボケ除去処理後の画像に対してチャネル次元で重ね合わせ処理を行い、前記処理待ち画像を得て、前記処理待ち画像に対して符号化処理を行い、第４特徴画像を得て、前記第４特徴画像に対して畳み込み処理を行い、第５特徴画像を得て、畳み込み処理により、前記第５特徴画像のチャネル数を第１所定値に調整し、前記アライメント畳み込みカーネルを得るように構成される。

もう１つの可能な実現形態において、前記第１畳み込み処理サブユニットは更に、畳み込み処理により、前記アライメント畳み込みカーネルのチャネル数を第２所定値に調整し、第６特徴画像を得て、前記第４特徴画像及び前記第６特徴画像に対して融合処理を行い、第７特徴画像を得て、前記第７特徴画像に対して畳み込み処理を行い、前記第Ｎ−１フレームの画像の画素点に対する前記第Ｎ−１フレームのボケ除去処理後の画像の画素点のボケ除去情報を抽出し、前記ボケ除去畳み込みカーネルを得るように構成される。

もう１つの可能な実現形態において、前記第１畳み込み処理サブユニットは更に、前記第７特徴画像に対して畳み込み処理を行い、第８特徴画像を得て、畳み込み処理により、前記第８特徴画像のチャネル数を前記第１所定値に調整し、前記ボケ除去畳み込みカーネルを得るように構成される。

もう１つの可能な実現形態において、前記第２処理ユニットは更に、前記第３特徴画像に対して逆畳み込み処理を行い、第９特徴画像を得て、前記第９特徴画像に対して畳み込み処理を行い、第Ｎフレームの復号処理後の画像を得て、前記第Ｎフレームの画像の第１画素点の画素値と前記第Ｎフレームの復号処理後の画像の第２画素点の画素値を加算し、前記第Ｎフレームのボケ除去処理後の画像を得るように構成され、前記第Ｎフレームの画像における、前記第１画素点の位置は、前記第Ｎフレームの復号処理後の画像における、前記第２画素点の位置と同じである。

第３態様によれば、本願の実施例は、プロセッサを更に提供する。前記プロセッサは、上記第１態様及びそのいずれか１つの可能な実現形態における方法を実行するように構成される。

第４態様によれば、本願の実施例は、電子機器を更に提供する。前記電子機器は、プロセッサと、入力装置と、出力装置と、メモリと、を備え、前記プロセッサ、入力装置、出力装置及びメモリは、相互接続され、前記メモリにプログラム命令が記憶されており、前記プログラム命令が前記プロセッサにより実行される時、前記プロセッサに、上記第１態様及びそのいずれか１つの可能な実現形態における方法を実行させる。

第５態様によれば、本願の実施例は、コンピュータ可読記憶媒体を更に提供する。前記コンピュータ可読記憶媒体に、コンピュータプログラムが記憶されており、前記コンピュータプログラムは、プログラム命令を含み、前記プログラム命令が電子機器のプロセッサにより実行される時、前記プロセッサに、上記第１態様及びそのいずれか１つの可能な実現形態における方法を実行させる。

上記の一般的な説明及び後述する細部に関する説明は、例示及び説明のためのものに過ぎず、本願を限定するものではないことが理解されるべきである。

本願の実施例による異なる画像内の対応する画素点を示す概略図である。本願の実施例による不均一なボケ画像を示す図である。本願の実施例によるビデオ画像処理方法を示すフローチャートである。本願の実施例によるビデオ画像処理方法におけるボケ除去処理を示すフローチャートである。本願の実施例によるもう１つのビデオ画像処理方法を示すフローチャートである。本願の実施例によるボケ除去畳み込みカーネル及びアライメント畳み込みカーネルの取得を示すフローチャートである。本願の実施例による符号化モジュールを示す概略図である。本願の実施例によるアライメント畳み込みカーネル生成モジュールを示す概略図である。本願の実施例によるボケ除去畳み込みカーネル生成モジュールを示す概略図である。本願の実施例によるもう１つのビデオ画像処理方法を示すフローチャートである。本願の実施例による自己適応的畳み込み処理モジュールを示す概略図である。本願の実施例による復号モジュールを示す概略図である。本願の実施例によるビデオ画像ボケ除去ニューラルネットワークの構造を示す概略図である。本願の実施例によるアライメント畳み込みカーネル及びボケ除去畳み込みカーネル生成モジュールの構造を示す概略図である。本願の実施例によるビデオ画像処理装置の構造を示す概略図である。本願の実施例による電子機器のハードウェア構造を示す概略図である。

本願の実施例又は背景技術における技術的解決手段をより明確に説明するために、以下、本願の実施例又は背景技術の記述に必要な図面を説明する。

ここで添付した図面は、明細書に引き入れて本明細書の一部分を構成し、本願に適合する実施例を示し、かつ、明細書とともに本願の技術的解決手段を解釈することに用いられる。

当業者に本願の技術的解決手段をより良く理解させるために、以下、本願の実施例における図面を参照しながら、本願の実施例における技術的解決手段を鮮明かつ完全に説明する。勿論、記述される実施例は、全ての実施例ではなく、ただ本願の一部の実施例である。本願における実施例に基づいて、当業者が創造的な労力なしに得られる他の実施例の全ては、本発明の保護範囲に含まれる。

本願の明細書及び特許請求の範囲並びに上記図面に言及された「第１」、「第２」等の用語は、異なる対象を区別するためのものであり、特定の順番を説明するためのものではない。なお、「備える」と「有する」という用語及びそれらの変形は、非排他的な包含を網羅することを意図している。例えば、一連の工程又はユニットを含むプロセス、方法、システム、製品又は装置は、明記された工程又はユニットに限定されず、明記されていないか工程又はユニットを任意選択的に含んでもよく、又は、これらのプロセス、方法、製品又は装置固有の他の工程又はユニットを任意選択的に含んでもよい。

本明細書に言及した「実施例」は、実施例を参照しながら記述される特定の特徴、構造又は特徴が本願の少なくとも１つの実施例に含まれてもよいことを意味する。該用語が明細書中の異なる箇所に登場していても、必ずしもどれもが同一の実施例を指しているとは限らないし、必ずしも他の実施例と相互排他的である独立した実施例又は候補実施例を指しているとは限らない。本明細書に記述される実施例は、他の実施例と組み合わせることができることは、当業者が明示的又は暗黙的に理解すべきである。

本願の実施例において、「対応」という用語が多く用いられる。ここで、２枚の画像内の対応する画素点は、２枚の画像における同一の位置での２つの画素点を指す。例えば、図１に示すように、画像Ａにおける画素点ａは、画像Ｂにおける画素点ｄに対応し、画像Ａにおける画素点ｂは、画像Ｂにおける画素点ｃに対応する。複数枚の画像内の対応する画素点の意味は、２枚の画像内の対応する画素点の意味と同じであることが理解されるべきである。

下記における不均一なボケ画像は、画像における異なる画素点のボケ程度が異なり、つまり画素点の運動軌跡が異なる画像を指す。例えば、図２に示すように、左上隅領域の看板における文字のボケ程度は、右下隅の自動車のボケ程度より大きい。つまり、該２つの領域のボケ程度は一致しない。本願の実施例を適用することで、不均一なボケ画像におけるボケを除去することができる。以下、本願の実施例における図面を参照しながら、本願の実施例を説明する。

本願の実施例によるビデオ画像処理方法を示すフローチャートである図３を参照されたい。図３に示すように、前記方法は、以下を含む。

３０１において、複数フレームの連続ビデオ画像を取得し、前記複数フレームの連続ビデオ画像は、第Ｎフレームの画像、第Ｎ−１フレームの画像及び第Ｎ−１フレームのボケ除去処理後の画像を含み、前記Ｎは、正整数である。

本願の実施例において、カメラにより、複数フレームの連続ビデオ画像を撮ることができる。上記第Ｎフレームの画像、第Ｎ−１フレームの画像は、複数フレームの連続ビデオ画像における隣接する２フレームの画像であり、且つ第Ｎフレームの画像は、第Ｎ−１フレームの画像の１フレーム後の画像である。第Ｎフレームの画像は、現在、処理（つまり、本願ので提供される実施形態によりボケ除去処理）しようとする画像である。第Ｎ−１フレームのボケ除去処理後の画像は、第Ｎ−１フレームの画像に対してボケ除去処理を行うことで得られた画像である。

本願の実施例において、ビデオ画像のボケ除去は、再帰的プロセスである。つまり、第Ｎ−１フレームのボケ除去処理後の画像は、第Ｎフレームの画像のボケ除去プロセスの入力画像とすることが理解されるべきである。同様に、第Ｎフレームのボケ除去処理後の画像は、第Ｎ＋１フレームの画像のボケ除去処理プロセスの入力画像とする。

任意選択的に、Ｎが１である場合、現在のボケ除去処理対象は、ビデオにおける１フレーム目である。この場合、第Ｎ−１フレームの画像及び第Ｎ−１フレームのボケ除去処理後の画像は、いずれもＮフレーム目であり、つまり、３枚の１フレーム目の画像を取得する。

本願の実施例において、ビデオにおける各フレームの画像を撮影時点の順番に応じて配列することで得られたシーケンスを、ビデオフレームシーケンスと称する。ボケ除去処理を行うことで得られた画像をボケ除去処理後の画像と称する。

本願の実施例において、ビデオフレームシーケンスに従って、ビデオ画像に対してボケ除去処理を行う。ボケ除去処理を行うたびに、１フレームの画像のみに対してボケ除去処理を行う。

任意選択的に、ビデオ画像及びボケ除去処理後の画像は、電子機器のメモリに記憶されてもよい。ここで、ビデオは、ビデオストリームを指す。つまり、ビデオフレームシーケンスの順番に応じてビデオ画像を電子機器のメモリに記憶する。従って、電子機器は、メモリから第Ｎフレームの画像、第Ｎ−１フレームの画像及び第Ｎ−１フレームのボケ除去処理後の画像を直接的に取得することができる。

本願の実施例に記載されるビデオ画像は、電子機器のカメラによりリアルタイムに撮られたビデオであってもよく、電子機器のメモリに記憶されたビデオ画像であってもよい。

３０２において、前記第Ｎフレームの画像、前記第Ｎ−１フレームの画像及び前記第Ｎ−１フレームのボケ除去処理後の画像に基づいて、前記第Ｎフレームの画像のボケ除去畳み込みカーネルを得る。

本願の任意選択的な実施例において、前記第Ｎフレームの画像、前記第Ｎ−１フレームの画像及び前記第Ｎ−１フレームのボケ除去処理後の画像に基づいて、前記第Ｎフレームの画像のボケ除去畳み込みカーネルを得ることは、処理待ち画像の画素点に対して畳み込み処理を行い、ボケ除去畳み込みカーネルを得ることであって、前記処理待ち画像は、前記第Ｎフレームの画像、前記第Ｎ−１フレームの画像及び前記第Ｎ−１フレームのボケ除去処理後の画像をチャネル次元で重ね合わせることで得られるものである、ことを含む。

本実施例において、第Ｎフレームの画像、第Ｎ−１フレームの画像及び第Ｎ−１フレームのボケ除去処理後の画像をチャネル次元で重ね合わせることで、処理待ち画像を得る。例えば（例１）、第Ｎフレームの画像、第Ｎ−１フレームの画像及び第Ｎ−１フレームのボケ除去処理後の画像のサイズがいずれも１００＊１００＊３であるとすれば、重ね合わせることで得られた処理待ち画像のサイズは、１００＊１００＊９である。つまり、３枚の画像（第Ｎフレームの画像、第Ｎ−１フレームの画像及び第Ｎ−１フレームのボケ除去処理後の画像）を重ね合わせることで得られた処理待ち画像内の画素点の数は、３枚の画像の各画像内の画素点の数と同じであるが、各画素点のチャネル数は、３枚の画像のうちのいずれか１枚の画像の３倍である。

本願の実施例において、処理待ち画像の画素点に対する畳み込み処理は、複数の任意にスタッキングされる畳み込み層により実現することができる。本願の実施例は、畳み込み層の数及び畳み込み層における畳み込みカーネルのサイズを限定するものではない。

処理待ち画像の画素点に対して畳み込み処理を行うことで、処理待ち画像内の画素点の特徴情報を抽出し、ボケ除去畳み込みカーネルを得ることができる。ここで、特徴情報は、前記第Ｎフレームの画像の画素点に対する第Ｎ−１フレームの画像の画素点の運動情報、及び前記第Ｎ−１フレームのボケ除去処理後の画像の画素点に対する第Ｎ−１フレームの画像の画素点のボケ除去情報を含む。上記運動情報は、第Ｎフレームの画像内の対応する画素点に対する第Ｎ−１フレームの画像内の画素点の運動速度及び運動方向を含む。

本願の実施例において、ボケ除去畳み込みカーネルは、処理待ち画像に対して畳み込み処理を行うことで得られた結果であり、本願の実施例の後続処理において、これを畳み込み処理の畳み込みカーネルとすることが理解されるべきである。

処理待ち画像の画素点に対する畳み込み処理は、処理待ち画像の各画素点に対して畳み込み処理を行い、各画素点のボケ除去畳み込みカーネルをそれぞれ得ることを指す。例１に続いて、もう１つの例（例２）を挙げると、処理待ち画像のサイズが１００＊１００＊９であり、つまり、処理待ち画像に１００＊１００個の画素点が含まれ、処理待ち画像の画素点に対して畳み込み処理を行った後に、１００＊１００の特徴画像を得ることができる。ここで、上記１００＊１００の特徴画像内の各画素点は、いずれも、後続で第Ｎフレームの画像内の画素点に対してボケ除去処理を行うボケ除去畳み込みカーネルとすることができる。

３０３において、前記ボケ除去畳み込みカーネルにより、前記第Ｎフレームの画像に対してボケ除去処理を行い、第Ｎフレームのボケ除去処理後の画像を得る。

本願の任意選択的な実施例において、図４に示すように、前記ボケ除去畳み込みカーネルにより、前記第Ｎフレームの画像に対してボケ除去処理を行い、第Ｎフレームのボケ除去処理後の画像を得ることは、以下を含んでもよい。

３０３１において、前記ボケ除去畳み込みカーネルにより、前記第Ｎフレームの画像の特徴画像の画素点に対して畳み込み処理を行い、第１特徴画像を得る。

上記第Ｎフレームの画像の特徴画像は、第Ｎフレームの画像に対して特徴抽出を行うことで得られることが可能である。ここで、特徴抽出処理は、畳み込み処理であってもよく、プーリング処理であってもよく、本願の実施例は、これを限定するものではない。

３０２における処理により、処理待ち画像内の各画素点のボケ除去畳み込みカーネルを得る。ここで、処理待ち画像の画素点の数は、第Ｎフレームの画像の画素点の数と同じである。また、処理待ち画像内の画素点と第Ｎフレームの画像内の画素点は、一対一に対応する。本願の実施例において、一対一対応の意味は、下記例を参照されたい。処理待ち画像内の画素点Ａと第Ｎフレームの画像内の画素点Ｂは、一対一に対応する。つまり、処理待ち画像内の画素点Ａの位置は、第Ｎフレームの画像内の画素点Ｂの位置と同じである。

３０３２において、前記第１特徴画像に対して復号処理を行い、前記第Ｎフレームのボケ除去処理後の画像を得る。

上記復号処理は、逆畳み込み処理により実現することができ、逆畳み込み処理と畳み込み処理を組み合わせた処理により実現することができる。本願の実施例は、これを限定するものではない。

任意選択的に、第Ｎフレームの画像のボケ除去処理の効果を向上させるために、第１特徴画像を復号処理することで得られた画像内の画素点の画素値と第Ｎフレームの画像の画素点の画素値を加算し、「加算」した後に得られた画像を第Ｎフレームのボケ除去処理後の画像とする。上記「加算」により、第Ｎフレームの画像の情報を利用して第Ｎフレームのボケ除去処理後の画像を得ることができる。

例えば、復号処理で得られた画像内の画素点Ｃの画素値が２００であり、第Ｎフレームの画像内の画素点Ｄの画素値が１５０であるとすれば、「加算」した後に得られた第Ｎフレームのボケ除去処理後の画像の画素点Ｅの画素値は、３５０である。ここで、処理待ち画像におけるＣの位置、第Ｎフレームの画像におけるＤの位置及び第Ｎフレームのボケ除去処理後の画像におけるＥの位置は、同じである。

上述したように、不均一なボケ画像内の異なる画素点の運動軌跡は異なり、且つ画素点の運動軌跡が複雑であるほど、そのボケ程度が高くなる。本願の実施例において、処理待ち画像内の各画素点に対して、それぞれ１つのボケ除去畳み込みカーネルを予測し、予測して得られるボケ除去畳み込みカーネルにより、第Ｎフレームの画像における特徴点に対して畳み込み処理を行い、第Ｎフレームの特徴における画素点のボケを除去する。不均一なボケ画像内の異なる画素点のボケ程度が異なるため、異なる画素点に対して、対応するボケ除去畳み込みカーネルを生成することで、各画素点のボケをより好適に除去し、更に不均一なボケ画像のボケ除去を更に実現させることができる。

本願の実施例は、第Ｎ−１フレームの画像の画素点と第Ｎ−１フレームのボケ除去処理後の画像の画素点との間のボケ除去情報に基づいて、画素点のボケ除去畳み込みカーネルを得る。該ボケ除去畳み込みカーネルにより、第Ｎフレームの画像の対応する画素点に対して畳み込み除去処理を行い、第Ｎフレームの画像内の画素点のボケを除去する。第Ｎフレームの画像内の各画素点に対して、それぞれ１つのボケ除去畳み込みカーネルを生成することで、第Ｎフレームの画像（不均一なボケ画像）におけるボケを除去することができる。ボケ除去処理後の画像は、鮮明で自然であり、且つボケ除去処理プロセスにかかる時間が短く、処理速度が速い。

本願の実施例による３０２の可能な実現形態を示すフローチャートである図５を参照されたい。図５に示すように、前記方法は、以下を含む。

４０１において、処理待ち画像に対して畳み込み処理を行い、第Ｎフレームの画像の画素点に対する第Ｎ−１フレームの画像の画素点の運動情報を抽出し、アライメント畳み込みカーネルを得て、前記運動情報は、速度及び方向を含む。

本願の実施例において、運動情報が速度及び方向を含む。画素点の運動情報は、第Ｎ−１フレーム時刻（第Ｎ−１フレームの画像を撮影した時刻）から第Ｎフレーム時刻（第Ｎフレームの画像を撮影した時刻）までの該画素の運動軌跡を指すと理解されてもよい。

被写体は、一回の露光期間内で運動状態であり、且つ運動軌跡が曲線である。これにより、撮られた画像にボケが発生した。つまり、第Ｎフレームの画像の画素点に対する第Ｎ−１フレームの画像の画素点の運動情報は、第Ｎフレームの画像のボケ除去に寄与する。

本願の実施例において、処理待ち画像の画素点に対する畳み込み処理は、複数の任意にスタッキングされた畳み込み層により実現することができる。本願の実施例は、畳み込み層の数及び畳み込み層における畳み込みカーネルのサイズを限定するものではない。

処理待ち画像の画素点に対して畳み込み処理を行うことで、処理待ち画像内の画素点の特徴情報を抽出し、アライメント畳み込みカーネルを得ることができる。ここで、特徴情報は、前記第Ｎフレームの画像の画素点に対する第Ｎ−１フレームの画像の画素点の運動情報を含む。

本願の実施例において、アライメント畳み込みカーネルは、処理待ち画像に対して上記畳み込み処理を行うことで得られた結果であり、本願の実施例の後続処理において、これを畳み込み処理の畳み込みカーネルとすることが理解されるべきである。具体的には、アライメント畳み込みカーネルは、処理待ち画像に対して畳み込み処理を行い、第Ｎフレームの画像の画素点に対する第Ｎ−１フレームの画像の画素点の運動情報を抽出することで得られたものであるため、後続で、アライメント畳み込みカーネルにより、第Ｎフレームの画像の画素点に対してアライメント処理を行うことができる。

本実施例で得られたアライメント畳み込みカーネルもリアルタイムに得られたものであり、つまり、上記処理により、第Ｎフレームの画像内の各画素点のアライメント畳み込みカーネルを得ることに留意されたい。

４０２において、前記アライメント畳み込みカーネルに対して符号化処理を行い、前記ボケ除去畳み込みカーネルを得る。

ここの符号化処理は、畳み込み処理であってもよく、プーリング処理であってもよい。

可能な実現形態において、上記符号化処理は、畳み込み処理であり、畳み込み処理は、複数の任意にスタッキングされた畳み込み層により実現することができる。本願の実施例は、畳み込み層の数及び畳み込み層における畳み込みカーネルのサイズを限定するものではない。

４０２における畳み込み処理は、４０１における畳み込み処理と異なることが理解されるべきである。例えば、４０１における畳み込み処理は、３個のチャネル数が３２である畳み込み層（畳み込みカーネルのサイズが３＊３である）により実現され、４０２における畳み込み処理は、５個のチャネル数が６４である畳み込み層（畳み込みカーネルのサイズが３＊３である）により実現される。両者（３個の畳み込み層及び５個の畳み込み層）は、本質的に畳み込み処理であるが、両者の具体的な実現プロセスが異なる。

処理待ち画像は、第Ｎフレームの画像、第Ｎ−１フレームの画像及び第Ｎ−１フレームのボケ除去処理後の画像をチャネル次元で重ね合わせることで得られるものであるため、処理待ち画像に、第Ｎフレームの画像、第Ｎ−１フレームの画像及び第Ｎ−１フレームのボケ除去処理後の画像の情報が含まれる。４０１における畳み込み処理は、前記第Ｎフレームの画像の画素点に対する第Ｎ−１フレームの画像の画素点の運動情報の抽出に着目する。つまり、４０１における処理を行った後、処理待ち画像中第Ｎ−１フレームの画像と第Ｎ−１フレームのボケ除去処理後の画像とのボケ除去処理情報が抽出されていない。

任意選択的に、アライメント畳み込みカーネルに対して符号化処理を行う前に、処理待ち画像とアライメント畳み込みカーネルに対して融合処理を行い、融合して得られたアライメント畳み込みカーネルに、第Ｎ−１フレームの画像と第Ｎ−１フレームのボケ除去処理後の画像とのボケ除去情報を含ませる。

アライメント畳み込みカーネルに対して畳み込み処理を行うことで、前記第Ｎ−１フレームの画像の画素点に対する第Ｎ−１フレームのボケ除去処理後の画像のボケ除去情報を抽出し、ボケ除去畳み込みカーネルを得る。ここで、ボケ除去情報は、第Ｎ−１フレームの画像の画素点と第Ｎ−１フレームのボケ除去処理後の画像の画素点とのマッチング関係と理解されてもよく、つまり、ボケ除去処理を行う前の画素点とボケ除去処理された画素点とのマッチング関係と理解されてもよい。

従って、アライメント畳み込みカーネルに対して畳み込み処理を行うことで得られたボケ除去畳み込みカーネルに、第Ｎ−１フレームの画像の画素点と第Ｎ−１フレームのボケ除去処理後の画像の画素点とのボケ除去情報が含まれるだけでなく、第Ｎ−１フレームの画像の画素点と第Ｎフレームの画像の画素点との運動情報も含まれる。後続で、ボケ除去畳み込みカーネルにより、第Ｎフレームの画像の画素点に対して畳み込み処理を行うことで、ボケ除去効果を向上させることができる。

本願の実施例において、第Ｎ−１フレームの画像の画素点と第Ｎフレームの画像の画素点との運動情報に基づいて、画素点のアライメント畳み込みカーネルを得る。後続で、該アライメントカーネルによりアライメント処理を行うことができる。更に、アライメントカーネルに対して畳み込み処理を行い、第Ｎ−１フレームの画像の画素点と第Ｎ−１フレームのボケ除去処理後の画像の画素点とのボケ除去情報を抽出し、ボケ除去カーネルを得る、ボケ除去カーネルに、第Ｎ−１フレームの画像の画素点と第Ｎ−１フレームのボケ除去処理後の画像の画素点とのボケ除去情報を含ませるだけでなく、第Ｎ−１フレームの画像の画素点と第Ｎフレームの画像の画素点との運動情報も含まれることで、第Ｎフレームの画像のボケ除去効果の向上に寄与する。

上記実施例において、いずれも、画像に対する畳み込み処理により、ボケ除去畳み込みカーネル及びアライメント畳み込みカーネルを得る。画像に含まれる画素点の数が多いため、画像を直接処理すると、処理のデータ量が大きく、且つ処理速度が遅い。従って、本願の実施例は、特徴画像に基づいてボケ除去畳み込みカーネル及びアライメント畳み込みカーネルを得るための実現形態を提供する。

本願の実施例６によるボケ除去畳み込みカーネル及びアライメント畳み込みカーネルの取得を示すフローチャートである図６を参照されたい。図６に示すように、前記方法は以下を含む。

５０１において、第Ｎフレームの画像、第Ｎ−１フレームの画像及び第Ｎ−１フレームのボケ除去処理後の画像に対してチャネル次元で重ね合わせ処理を行い、処理待ち画像を得る。

ステップ３０２における処理待ち画像を得るための実現形態を参照されたい。ここで、詳細な説明を省略する。

５０２において、前記処理待ち画像に対して符号化処理を行い、第４特徴画像を得る。

上記符号化処理は、例えば、畳み込み、プーリングなどのような種々の形態により実現することができ、本願の実施例は、これを具体的に限定するものではない。

幾つかの可能な実現形態において、図７を参照されたい。図７に示したモジュールは、処理待ち画像に対して符号化処理を行うように構成される。該モジュールは、順に、１つのチャネル数が３２である畳み込み層（畳み込みカーネルのサイズが３＊３である）、２つのチャネル数が３２である残差ブロック（各残差ブロックが２つの畳み込み層を含み、畳み込み層の畳み込みカーネルのサイズが３＊３である）、１つのチャネル数が６４である畳み込み層（畳み込みカーネルのサイズが３＊３である）、２つのチャネル数が６４である残差ブロック（各残差ブロックが２つの畳み込み層を含み、畳み込み層の畳み込みカーネルのサイズが３＊３である）、１つのチャネル数が１２８である畳み込み層（畳み込みカーネルのサイズが３＊３である）、２つのチャネル数が１２８である残差ブロック（各残差ブロックが２つの畳み込み層を含み、畳み込み層の畳み込みカーネルのサイズが３＊３である）を備える。

該モジュールにより、処理待ち画像に対して層ごとに畳み込み処理を行い、処理待ち画像に対する符号化を実行し、第４特徴画像を得る。ここで、各畳み込み層により抽出された特徴コンテンツ及びセマンティック情報は、いずれも異なる。具体的には、符号化処理により、処理待ち画像の特徴を段階的に抽出すると共に、副次的な特徴を段階的に除去するため、工程の進行に伴い、抽出された特徴画像のサイズが小さくなり、且つセマンティック情報が次第に凝縮する。多層畳み込み層により処理待ち画像に対して段階的に畳み込み処理を行い、特徴を抽出することで、最後に一定のサイズの第４特徴画像を得る。こにより、処理待ち画像の主なコンテンツ情報（即ち、第４特徴画像）を得ると同時に、画像サイズを縮小し、データ処理量を減少させ、処理速度を向上させることができる。

例えば（例３）、処理待ち画像のサイズが１００＊１００＊３であるとすれば、図７に示すモジュールにより符号化処理を行うことで得られた第４特徴画像のサイズは、２５＊２５＊１２８である。

可能な実現形態において、上記畳み込み処理の実現プロセスは以下のとおりである。畳み込み層により、処理待ち画像に対して畳み込み処理を行う。つまり、畳み込みカーネルを処理待ち画像上でスライドさせ、処理待ち画像における画素と対応する畳み込みカーネルでの数値を乗算し、続いて、全ての乗算した値を加算して畳み込みカーネル中間画素に対応する画像での画素値とする。最終的に、処理待ち画像における全ての画素をスライド処理し、第４特徴画像を得る。任意選択的に、該可能な実現形態において、畳み込み層のステップは、２としてもよい。

本願の実施例によるアライメント畳み込みカーネルを生成するためのモジュールを示す図８を参照されたい。図８に示したモジュールにより、アライメント畳み込みカーネルを生成する具体的なプロセスは、５０３〜５０４を参照することができる。

５０３において、前記第４特徴画像に対して畳み込み処理を行い、第５特徴画像を得る。

図８に示すように、第４特徴画像を図８に示したモジュールを入力する。第４特徴画像を順に１つのチャネル数が１２８である畳み込み層（畳み込みカーネルのサイズが３＊３である）、２つのチャネル数が６４である残差ブロック（各残差ブロックが２つの畳み込み層を含み、畳み込み層の畳み込みカーネルのサイズが３＊３である）により処理し、第４特徴画像に対する畳み込み処理を実現させ、第４特徴画像における第Ｎ−１フレームの画像の画素点と第Ｎフレームの画像の画素点との運動情報を抽出し、第５特徴画像を得る。

上記により、第４特徴画像を処理した後、画像のサイズは、不変のままであり、つまり、得られた第５特徴画像のサイズは、第４特徴画像のサイズと同じであることが理解されるべきである。

例３に続いて例（例４）を挙げると、第４特徴画像のサイズは、２５＊２５＊１２８であり、３０３における処理を行うことで得られた第５特徴画像のサイズも２５＊２５＊１２８である。

５０４において、畳み込み処理により、前記第５特徴画像のチャネル数を第１所定値に調整し、前記アライメント畳み込みカーネルを得る。

第５特徴画像における第Ｎ−１フレームの画像の画素点と第Ｎフレームの画像の画素点との運動情報を更に抽出するために、図８における第４層により、第５特徴画像に対して畳み込み処理を行うことで得られたアライメント畳み込みカーネルのサイズは、２５＊２５＊

＊

である（ここで、第４層の畳み込み処理により、第５特徴画像のチャネル数を調整することが理解されるべきである）。ここで、

は、第５特徴画像のチャネル数であり、

は、正整数である。任意選択的に、

の値は、５である。処理を容易にするために、２５＊２５＊

＊

を２５＊２５＊

に調整する。ここで、

は、第１所定値である。

アライメント畳み込みカーネルの高さ及び幅は、いずれも２５である。アライメント畳み込みカーネルは、２５＊２５個の要素を含み、各要素は、

個の画素点を含み、アライメント畳み込みカーネルにおける異なる要素の位置は異なる。例えば、アライメント畳み込みカーネルの幅及び高さの所在する平面をｘｏｙ平面と定義すると、アライメント畳み込みカーネルにおける各要素を、いずれも座標（ｘ，ｙ）により決定することができる。ここで、ｏは原点である。アライメント畳み込みカーネルの要素は、後続の処理において、画素点に対してアライメント処理を行う畳み込みカーネルであり、各要素のサイズは、１＊１＊

である。

例４に続いて例（例５）を挙げると、第５特徴画像のサイズは、２５＊２５＊１２８である。３０４における処理を行うことで得られたアライメント畳み込みカーネルのサイズは、２５＊２５＊１２８＊

＊

であり、つまり、２５＊２５＊１２８

である。アライメント畳み込みカーネルは、２５＊２５個の要素を含み、各要素は、１２８個の画素点を含み、第アライメント畳み込みカーネルにおける異なる要素の位置は異なる。各要素のサイズは、１＊１＊１２８＊

である。

第４層が畳み込み層であるため、畳み込み層の畳み込みカーネルが大きいほど、データ処理量は大きくなる。任意選択的に、図８における第４層は、チャネル数が１２８であり、畳み込みカーネルのサイズが１＊１である畳み込み層である。畳み込みカーネルのサイズが１＊１である畳み込み層により、第５特徴画像のチャネル数を調整することで、データ処理量を減少させ、処理速度を向上させることができる。

５０５において、畳み込み処理により、前記アライメント畳み込みカーネルのチャネル数を第２所定値に調整し、第６特徴画像を得る。

５０４において、畳み込み処理（即ち、図８における第４層）により、第５特徴画像のチャネル数を調整したため、アライメント畳み込みカーネルに対して畳み込み処理を行い、ボケ除去畳み込みカーネルを得る前に、アライメント畳み込みカーネルのチャネル数を第２所定値（即ち、第５特徴画像のチャネル数）に調整する必要がある。

可能な実現形態において、畳み込み処理により、アライメント畳み込みカーネルのチャネル数を第２所定値に調整し、第６特徴画像を得る。任意選択的に、該畳み込み処理は、チャネル数が１２８であり、畳み込みカーネルのサイズが１＊１である畳み込み層により実現することができる。

５０６において、前記第４特徴画像及び前記第６特徴画像に対してチャネル次元で重ね合わせ処理を行い、第７特徴画像を得る。

本実施例の５０２〜５０４において、処理待ち画像における第Ｎ−１フレームの画像の画素点と第Ｎフレームの画像の画素点との運動情報の抽出に着目する。後続の処理において、処理待ち画像における第Ｎ−１フレームの画像の画素点と第Ｎ−１フレームのボケ除去処理後の画像の画素点とのボケ除去情報を抽出する必要があるため、後続の処理を行う前に、第４特徴画像と第６特徴画像を融合することで、特徴画像に、第Ｎ−１フレームの画像の画素点と第Ｎ−１フレームのボケ除去処理後の画像の画素点とのボケ除去情報を追加する。

可能な実現形態において、第４特徴画像と第６特徴画像に対して融合処理（ｃｏｎｃａｔｅｎａｔｅ）を行うことは、第４特徴画像と第６特徴画像に対してチャネル次元で重ね合わせ処理を行い、第７特徴画像を得ることである。

５０７において、前記第７特徴画像に対して畳み込み処理を行い、前記第Ｎ−１フレームの画像の画素点に対する前記第Ｎ−１フレームのボケ除去処理後の画像の画素点のボケ除去情報を抽出し、前記ボケ除去畳み込みカーネルを得る。

第７特徴画像に、抽出された第Ｎ−１フレームの画像の画素点と第Ｎ−１フレームのボケ除去処理後の画像の画素点とのボケ除去情報が含まれる。第７特徴画像に対して畳み込み処理を行うことで、第Ｎ−１フレームの画像の画素点と第Ｎ−１フレームのボケ除去処理後の画像の画素点とのボケ除去情報を更に抽出し、ボケ除去畳み込みカーネルを得ることができる。該プロセスは、
第７特徴画像に対して畳み込み処理を行い、第８特徴画像を得ることと、畳み込み処理により、第８特徴画像のチャネル数を第１所定値に調整し、ボケ除去畳み込みカーネルを得ることと、を含む。

幾つかの可能な実現形態において、図９に示すように、第７特徴画像を図９に示したモジュールに入力する。第７特徴画像を、順に、１つのチャネル数が１２８である畳み込み層（畳み込みカーネルのサイズが３＊３である）、２つのチャネル数が６４である残差ブロック（各残差ブロックが２つの畳み込み層を含み、畳み込み層の畳み込みカーネルのサイズが３＊３である）により処理し、第７特徴画像に対する畳み込み処理を実現させ、第７特徴画像における第Ｎ−１フレームの画像の画素点と第Ｎ−１フレームのボケ除去処理後の画像の画素点とのボケ除去情報を抽出し、第８特徴画像を得る。

図９に示したモジュールによる第７特徴画像の処理プロセスは、図８に示したモジュールによる第５特徴画像の処理プロセスを参照することができ、ここで、詳細な説明を省略する。

図８に示したモジュール（アライメント畳み込みカーネルの生成に用いられる）と図９に示したモジュール（ボケ除去畳み込みカーネルの生成に用いられる）を比較すると、図８に示したモジュールは、図９に示したモジュールより、畳み込み層が一つだけ多く（図８に示したモジュールの第４層）、他の構造が同じであるが、両者の重みは、異なり、従って、両者の用途は、異なることが理解されるべきである。

任意選択的に、図８に示したモジュール及び図９に示したモジュールの重みは、図８及び図９に示したモジュールを訓練することで得られる。

５０７で得られたボケ除去畳み込みカーネルは、第７特徴画像内の各画素点のボケ除去畳み込みカーネルを含み、且つ、各画素点の畳み込みカーネルのサイズは、１＊１＊

である。

例５に続いて例（例６）を挙げると、第７特徴画像のサイズは、２５＊２５＊１２８＊

＊

である。つまり、第７特徴画像に、２５＊２５個の画素点が含まれる。従って、得られたボケ除去畳み込みカーネル（サイズが２５＊２５＊１２８

である）に２５＊２５個のボケ除去畳み込みカーネルが含まれる（つまり、各画素点は、１つのボケ除去畳み込みカーネルに対応し、且つ各画素点のボケ除去畳み込みカーネルのサイズは、１＊１＊１２８

である）。

第７特徴画像内の各画素点の３つの次元の情報を結合して１つの次元の情報を得て、第７特徴画像内の各画素点の情報を結合して１つの畳み込みカーネルを得る。つまり、各画素点のボケ除去畳み込みカーネルを得る。

本実施例は、処理待ち画像の特徴画像に対して畳み込み処理を行うことで、第Ｎ−１フレームの画像の画素点と第Ｎフレームの画像の画素点との運動情報を抽出し、各画素点のアライメント畳み込みカーネルを得る。更に、第７特徴画像に対して畳み込み処理を行うことで、第Ｎ−１フレームの画像の画素点と第Ｎ−１フレームのボケ除去処理後の画像の画素点とのボケ除去情報を抽出し、各画素点のボケ除去畳み込みカーネルを得る。これにより、後続で、アライメント畳み込みカーネル及びボケ除去畳み込みカーネルにより、第Ｎフレームの画像に対してボケ除去処理を行う。

本実施例において、ボケ除去畳み込みカーネル及びアライメント畳み込みカーネルを如何に取得するかを詳しく説明する。下記実施例において、ボケ除去畳み込みカーネル及びアライメント畳み込みカーネルにより、如何に第Ｎフレームの画像のボケを除去して第Ｎフレームのボケ除去処理後の画像を得るかを詳しく説明する。

本願の実施例によるもう１つのビデオ画像処理方法を示すフローチャートである図１０を参照されたい。図１０に示すように、前記方法は、以下を含む。

９０１において、ボケ除去畳み込みカーネルにより、第Ｎフレームの画像の特徴画像の画素点に対して畳み込み処理を行い、第１特徴画像を得る。

上記第Ｎフレームの画像の特徴画像は、第Ｎフレームの画像に対して特徴抽出処理を行うことで得られる。ここで、特徴抽出処理は、畳み込み処理であってもよく、プーリング処理であってもよく、本願の実施例は、これを限定するものではない。

可能な実現形態において、図７に示した符号化モジュールにより、第Ｎフレームの画像に対して特徴抽出処理を行い、第Ｎフレームの画像の特徴画像を得ることができる。ここで、図７の具体的な構成及び図７における第Ｎフレームの画像の処理プロセスは、５０２を参照することができ、ここで、詳細な説明を省略する。

図７に示した符号化モジュールにより、第Ｎフレームの画像に対して特徴抽出処理を行うことで得られた第Ｎフレームの画像の特徴画像のサイズは、第Ｎフレームの画像のサイズより小さく、且つ第Ｎフレームの画像の特徴画像に第Ｎフレームの画像の情報（本願において、ここの情報は、第Ｎフレームの画像におけるボケ領域の情報と理解されてもよい）が含まれるため、後続で第Ｎフレームの画像の特徴画像に対して処理を行う時、データ処理量を減少させ、処理速度を向上させることができる。

上述したように、処理待ち画像内の各画素点に対して畳み込み処理を行い、各画素点のボケ除去畳み込みカーネルをそれぞれ得て、ボケ除去畳み込みカーネルにより、第Ｎフレームの画像の特徴画像の画素点に対して畳み込み処理を行うことは、前記実施例で得られたボケ除去畳み込みカーネルのうちの各画素点のボケ除去畳み込みカーネルをそれぞれ第Ｎフレームの画像の特徴画像内の対応する画素点の畳み込みカーネルとして、第Ｎフレームの画像の特徴画像の各画素点に対して畳み込み処理を行うことを指す。

５０７に記載したように、ボケ除去畳み込みカーネルのうちの各画素点のボケ除去畳み込みカーネルに、第７特徴画像内の各画素点の情報が含まれる。また、該情報は、ボケ除去畳み込みカーネルにおいて一次元情報である。第Ｎフレームの画像の特徴画像の画素点が三次元のものであるため、第７特徴画像内の各画素点の情報をそれぞれ第Ｎフレームの画像の特徴画像内の各画素点の畳み込みカーネルとして畳み込み処理を行う時、ボケ除去畳み込みカーネルの次元を調整する必要がある。上記に鑑みて、９０１の実現プロセスは、
ボケ除去畳み込みカーネルの次元を調整し、ボケ除去畳み込みカーネルのチャネル数を第Ｎフレームの画像の特徴画像のチャネル数と同じくすることと、次元調整後のボケ除去畳み込みカーネルにより、第Ｎフレームの画像の特徴画像の画素点に対して畳み込み処理を行い、第１特徴画像を得ることと、を含む。

図１１を参照すると、図１１に示したモジュール（自己適応的畳み込み処理モジュール）により、前記実施例で得られたボケ除去畳み込みカーネルにおける各画素点のボケ除去畳み込みカーネルを第Ｎフレームの画像の特徴画像内の対応する画素点の畳み込みカーネルとし、該画素点に対して畳み込み処理を行うことができる。

図１１における次元調整（ｒｅｓｈａｐｅ）は、ボケ除去畳み込みカーネルのうちの各画素点のボケ除去畳み込みカーネルの次元を調整することを指す。つまり、各画素点のボケ除去カーネルの次元を１＊１＊

から

＊

に調整する。

例６に続いて例（例７）を挙げると、各画素点のボケ除去畳み込みカーネルのサイズは、１＊１＊１２８

である。各画素点のボケ除去畳み込みカーネルに対してｒｅｓｈａｐｅを行った後、得られた畳み込みカーネルのサイズは、１２８＊

＊

である。

ｒｅｓｈａｐｅにより、第Ｎフレームの画像の特徴画像の各画素点のボケ除去畳み込みカーネルを得て、各画素点のボケ除去畳み込みカーネルにより、各画素点に対してそれぞれ畳み込み処理を行い、第Ｎフレームの画像の特徴画像の各画素点のボケを除去し、最終的に第１特徴画像を得る。

９０２において、前記アライメント畳み込みカーネルにより、前記第Ｎ−１フレームのボケ除去処理後の画像の特徴画像の画素点に対して畳み込み処理を行い、第２特徴画像を得る。

本願の任意選択的な実施例において、前記アライメント畳み込みカーネルにより、前記第Ｎ−１フレームのボケ除去処理後の画像の特徴画像の画素点に対して畳み込み処理を行い、第２特徴画像を得ることは、前記アライメント畳み込みカーネルの次元を調整し、前記アライメント畳み込みカーネルのチャネル数を前記第Ｎ−１フレームの画像の特徴画像のチャネル数と同じくすることと、次元調整後の前記アライメント畳み込みカーネルにより、前記第Ｎ−１フレームのボケ除去処理後の画像の特徴画像の画素点に対して畳み込み処理を行い、前記第２特徴画像を得ることと、を含む。

本実施例は、９０１において図１１に示したモジュールにより前記実施例で得られたボケ除去畳み込みカーネルを第Ｎフレームの画像の特徴画像の各画素点のボケ除去畳み込みカーネルとして第Ｎフレームの画像の特徴画像に対してボケ除去処理を行うことと同じである。図１１に示したモジュールによるｒｅｓｈａｐｅにより、前記実施例で得られたアライメント畳み込みカーネルのうちの各画素点のアライメント畳み込みカーネルの次元を１２８＊

＊

に調整し、次元調整後のアライメント畳み込みカーネルにより、第Ｎ−１フレームのボケ除去処理後の画像の特徴画像内の対応する画素点に対して畳み込み処理を行う。現在のフレームを基準として、第Ｎ−１フレームのボケ除去処理後の画像の特徴画像に対してアライメント処理を行うことを実現させる。つまり、各画素点のアライメントカーネルに含まれる運動情報に基づいて、第Ｎ−１フレームのボケ除去処理後の画像の特徴画像内の各画素点の位置をそれぞれ調整し、第２特徴画像を得る。

第Ｎ−１フレームのボケ除去処理後の画像の特徴画像に、大量の鮮明な（つまり、ボケが存在しない）画素点が含まれるが、第Ｎ−１フレームのボケ除去処理後の画像の特徴画像内の画素点と現在のフレームの画素点とに変位が存在する。従って、９０２における処理により、第Ｎ−１フレームのボケ除去処理後の画像の特徴画像の画素点の位置を調整し、位置調整された画素点を第Ｎフレーム時刻の位置（ここの位置は、第Ｎフレームの画像における被写体の位置を指す）に更に近づける。従って、後続の処理において、第２特徴画像の情報を利用して第Ｎフレームの画像におけるボケを除去することができる。

９０１と９０２に優先順位が存在しない。つまり、９０１を実行した後、９０２を実行してもよく、９０２を実行した後、９０１を実行してもよい。９０１と９０２を同時に実行してもよい。更に、５０４によりアライメント畳み込みカーネルを得た後、まず、９０１を実行し、続いて、５０５〜５０７を実行してもよく、まず、５０５〜５０７を実行し、続いて、９０１又は９０２を実行してもよい。本願の実施例は、これを限定するものではない。

９０３において、前記第１特徴画像及び前記第２特徴画像に対して融合処理を行い、第３特徴画像を得る。

第１特徴画像と第２特徴画像を融合処理することで、第Ｎ−１フレームの画像の画素点と第Ｎフレームの画像の画素点との運動情報及び第Ｎ−１フレームの画像の画素点と第Ｎ−１フレームのボケ除去処理後の画像の画素点とのボケ除去情報に基づいてボケ除去を行う上で、（アライメントされた）第Ｎ−１フレームの画像の特徴画像の情報を利用して、ボケ除去効果を向上させることができる。

可能な実現形態において、第１特徴画像及び第２特徴画像をチャネル次元で重ね合わせ処理（ｃｏｎｃａｔｅｎａｔｅ）し、第３特徴画像を得る。

９０４において、前記第３特徴画像に対して復号処理を行い、前記第Ｎフレームのボケ除去処理後の画像を得る。

本願の実施例において、復号処理は、逆畳み込み処理、デコンボリューション処理、双線形補間処理、逆プーリング処理のうちのいずれか１つであってもよく、逆畳み込み処理、デコンボリューション処理、双線形補間処理、逆プーリング処理のいずれか１つと畳み込み処理との組み合わせであってもよく、本願は、これを限定するものではない。

可能な実現形態において、図１２を参照されたい。図１２に示した復号モジュールは、順に、１つのチャネル数が６４である逆畳み込み層（畳み込みカーネルのサイズが３＊３である）、２つのチャネル数が６４である残差ブロック（各残差ブロックが２つの畳み込み層を含み、畳み込み層の畳み込みカーネルのサイズが３＊３である）、１つのチャネル数が３２である逆畳み込み層（畳み込みカーネルのサイズが３＊３である）、２つのチャネル数が３２である残差ブロック（各残差ブロックが２つの畳み込み層を含み、畳み込み層の畳み込みカーネルのサイズが３＊３である）を備える。図１２に示した復号モジュールにより、第３特徴画像に対して復号処理を行い、第Ｎフレームのボケ除去処理後の画像を得ることは、第３特徴画像に対して逆畳み込み処理を行い、第９特徴画像を得ることと、第９特徴画像に対して畳み込み処理を行い、第Ｎフレームの復号処理後の画像を得ることと、を含む。

任意選択的に、第Ｎフレームの復号処理後の画像を得た後、第Ｎフレームの画像の第１画素点の画素値と第Ｎフレームの復号処理後の画像の第２画素点の画素値を加算し、第Ｎフレームのボケ除去処理後の画像を得ることもできる。ここで、第Ｎフレームの画像における、第１画素点の位置は、第Ｎフレームの復号処理後の画像における、第２画素点の位置と同じである。これにより、第Ｎフレームのボケ除去処理後の画像をより自然にする。

本実施例により、前記実施例で得られたボケ除去畳み込みカーネルにより、第Ｎフレームの画像の特徴画像に対してボケ除去処理を行い、前記実施例で得られたアライメント畳み込みカーネルにより、第Ｎ−１フレームの画像の特徴画像に対してアライメント処理を行うことができる。ボケ除去処理で得られた第１特徴画像とアライメント処理で得られた第２特徴画像を融合することで得られた第３特徴画像に対して復号処理を行うことで、第Ｎフレームの画像のボケ除去効果を向上させ、第Ｎフレームのボケ除去処理後の画像をより自然にすることができる。また、本実施例のボケ除去処理及びアライメント処理の対象はいずれも特徴画像であるため、データ処理量が小さく、処理速度が速く、ビデオ画像をリアルタイムにボケ除去することができる。

本願は、前記実施例における方法を実現させるためのビデオ画像ボケ除去ニューラルネットワークを更に提供する。

本願の実施例によるビデオ画像ボケ除去ニューラルネットワークの構造を示す概略図である図１３を参照されたい。図１３に示すように、ビデオ画像ボケ除去ニューラルネットワークは、符号化モジュールと、アライメント畳み込みカーネル及びボケ除去畳み込みカーネル生成モジュールと、復号モジュールと、を備える。ここで、図１３における符号化モジュールは、図７に示した符号化モジュールと同じであり、図１３における復号モジュールは、図１２に示した復号モジュールと同じであり、ここで、詳細な説明を省略する。

図１４を参照すると、図１４に示したアライメント畳み込みカーネル及びボケ除去畳み込みカーネル生成モジュールは、復号モジュールと、アライメント畳み込みカーネル生成モジュールと、ボケ除去畳み込みカーネル生成モジュールと、を備える。また、アライメント畳み込みカーネル生成モジュールとボケ除去畳み込みカーネル生成モジュールとの間に、１つのチャネル数が１２８であって、畳み込みカーネルのサイズが１＊１である畳み込み層が含まれ、該畳み込み層の後に１つの融合（ｃｏｎｃａｔｅｎａｔｅ）層が接続される。

図１４に示した自己適応的畳み込み層は、図１１に示したモジュールであることに留意されたい。図１４に示したモジュールにより生成されたアライメント畳み込みカーネル及びボケ除去畳み込みカーネルは、自己適応的畳み込み層により、第Ｎ−１フレームの画像の特徴画像の画素点及び第Ｎフレームの画像の特徴画像の画素点に対してそれぞれ畳み込み処理（即ち、アライメント処理及びボケ除去処理）を行い、第Ｎ−１フレームの画像の特徴画像のアライメントされた特徴画像及び第Ｎフレームの画像の特徴画像のボケ除去処理後の特徴画像を得る。

ｃｏｎｃａｔｅｎａｔｅにより、上記アライメントされた特徴画像とボケ除去処理後の特徴画像をチャネル次元で直列接続し、第Ｎフレームの融合後の特徴画像を得て、第Ｎフレームの融合後の特徴画像を復号モジュールに入力し、ビデオ画像ボケ除去ニューラルネットワークによる第Ｎ＋１フレームの画像の処理の入力とする。

復号モジュールにより、第Ｎフレームの融合後の特徴画像に対して復号処理を行うことで、第Ｎフレームの復号処理後の画像を得て、第Ｎフレームの画像の第１画素点の画素値と第Ｎフレームの復号処理後の画像の第２画素点の画素値を加算し、第Ｎフレームのボケ除去処理後の画像を得る。ここで、第Ｎフレームの画像における第１画素点の位置は、第Ｎフレームの復号処理後の画像における第２画素点の位置と同じである。第Ｎフレームの画像及び第Ｎフレームのボケ除去処理後の画像を、ビデオ画像ボケ除去ニューラルネットワークによる第Ｎ＋１フレームの画像の処理の入力とする。

上記プロセスから分かるように、ビデオ画像ボケ除去ニューラルネットワークがビデオにおける各フレームの画像に対してボケ除去処理を行う時、４つの入力を必要とする。ボケ除去されるべき対象が第Ｎフレームの画像であることを例として、該４つの入力は、それぞれ第Ｎ−１フレームの画像、第Ｎ−１フレームのボケ除去処理後の画像、第Ｎフレームの画像及び第Ｎ−１フレームのボケ除去処理後の画像の特徴画像（即ち、上記第Ｎフレームの融合後の特徴画像）である。

本実施例で提供されるビデオ画像ボケ除去ニューラルネットワークにより、ビデオ画像に対してボケ除去処理を行うことができる。また、プロセス全体において、４つの入力のみを利用すれば、ボケ除去処理後の画像を直接的に得ることができ、処理速度が速い。ボケ除去畳み込みカーネル生成モジュール及びアライメント畳み込みカーネル生成モジュールにより、画像内の各画素点に対して１つのボケ除去畳み込みカーネル及びアライメント畳み込みカーネルを生成することで、ビデオ画像ボケ除去ニューラルネットワークによるビデオにおける様々フレームの不均一のボケ画像のボケ除去の効果を向上させることができる。

実施例で提供されるビデオ画像ボケ除去ニューラルネットワークによれば、本願の実施例は、ビデオ画像ボケ除去ニューラルネットワークの訓練方法を提供する。

本実施例は、平均二乗誤差損失関数に基づいて、ビデオ画像ボケ除去ニューラルネットワークから出力された第Ｎフレームのボケ除去処理後の画像と第Ｎフレームの画像の鮮明な画像（即ち、第Ｎフレームの画像の監督データ（ｇｒｏｕｎｄｔｒｕｔｈ））との誤差を決定する。平均二乗誤差損失関数の具体的な表現式は、以下のとおりである。

（１）

ただし、

、

はそれぞれ第Ｎフレームの画像（ビデオ画像ボケ除去ニューラルネットワークにより第Ｎフレームの画像に対してボケ除去処理を行うと仮定する）のチャネル数、高さ、幅であり、

は、ビデオ画像ボケ除去ニューラルネットワークに入力された第Ｎフレームのボケ除去処理後の画像であり、

は、第Ｎフレームの画像の監督データである。

知覚的損失関数（ｐｅｒｃｅｐｔｕａｌｌｏｓｓｆｕｎｃｔｉｏｎ）により、ＶＧＧ−１９ネットワークから出力された第Ｎフレームのボケ除去処理後の画像の特徴と第Ｎフレームの画像の監督データの特徴とのユークリッド距離を決定する。知覚的損失関数の具体的な表現式は、以下のとおりである。

（２）
ただし、

は事前訓練されたＶＧＧ−１９ネットワークにおける第ｊ層から出力された特徴画像であり、

、

はそれぞれ該特徴画像のチャネル数、高さ、幅であり、

は、第Ｎフレームの画像の監督データ（ｇｒｏｕｎｄｔｒｕｔｈ）である。

最後に、本実施例は、式（１）及び式（２）に対して加重加算を行うことで、ビデオ画像ボケ除去ニューラルネットワークの損失関数を得る。具体的な表現式は以下のとおりである。

（３）
ただし、

は重みであり、任意選択的に、

は自然数である。

任意選択的に、上記ｊの値は、１５であってもよく、

の値は、０．０１である。

本実施例で提供される損失関数によれば、本実施例のビデオ画像ボケ除去ニューラルネットワークに対して訓練を行うことができる。

前記実施例で提供されるビデオ画像処理方法及びビデオ画像ボケ除去ニューラルネットワークによれば、本願の実施例は、複数の考えられる適用シーンを提供する。

本願の実施例を無人機に適用することで、無人機により撮られたビデオ画像のボケをリアルタイムに除去し、より鮮明がビデオをユーザに与えることができる。それと同時に、無人機の飛行制御システムは、ボケ除去処理されたビデオ画像に基づいて処理を行い、無人機の姿勢及び運動を制御することで、制御精度を向上させ、無人機の様々な空中作業を強くサポートする。

また、本願の実施例を携帯端末（例えば、携帯電話、アクションカメラ等）に適用することもできる。ユーザは、端末により、激しく運動している対象に対してビデオ収集を行う。端末は、本願の実施例で提供される方法を実行することで、ユーザにより撮られたビデオをリアルタイムに処理し、被写体の激しい運動によるボケを減少させ、ユーザ体験を向上させることができる。ここで、被写体の激しい運動は、端末と被写体との相対的運動を指す。

本願の実施例で提供されるビデオ画像処理方法は、処理速度が速く、リアルタイム性が高い。本願の実施例で提供されるニューラルネットワークの重みが少なく、該ニューラルネットワークの実行に必要な処理リソースが少ない。従って、携帯端末に適用可能である。

上記において、本願の実施例の方法を詳しく説明する。以下、本願の実施例の装置を提供する。

本願の実施例によるビデオ画像処理装置の構造を示す概略図である図１５を参照されたい。該装置１は、取得ユニット１１と、第１処理ユニット１２と、第２処理ユニット１３と、を備え、
取得ユニット１１は、複数フレームの連続ビデオ画像を取得するように構成され、前記複数フレームの連続ビデオ画像は、第Ｎフレームの画像、第Ｎ−１フレームの画像及び第Ｎ−１フレームのボケ除去処理後の画像を含み、前記Ｎは、正整数であり、
第１処理ユニット１２は、前記第Ｎフレームの画像、前記第Ｎ−１フレームの画像及び前記第Ｎ−１フレームのボケ除去処理後の画像に基づいて、前記第Ｎフレームの画像のボケ除去畳み込みカーネルを得るように構成され
第２処理ユニット１３は、前記ボケ除去畳み込みカーネルにより、前記第Ｎフレームの画像に対してボケ除去処理を行い、第Ｎフレームのボケ除去処理後の画像を得るように構成される。
可能な実現形態において、前記第１処理ユニット１２は、処理待ち画像の画素点に対して畳み込み処理を行い、ボケ除去畳み込みカーネルを得るように構成される第１畳み込み処理サブユニット１２１であって、前記処理待ち画像は、前記第Ｎフレームの画像、前記第Ｎ−１フレームの画像及び前記第Ｎ−１フレームのボケ除去処理後の画像をチャネル次元で重ね合わせることで得られるものである、第１畳み込み処理サブユニット１２１を備える。

もう１つの可能な実現形態において、前記第１畳み込み処理サブユニット１２１は、前記処理待ち画像に対して畳み込み処理を行い、前記第Ｎフレームの画像の画素点に対する前記第Ｎ−１フレームの画像の画素点の運動情報を抽出し、アライメント畳み込みカーネルを得るように構成され、前記運動情報は、速度及び方向を含み、前記第１畳み込み処理サブユニット１２１は、前記アライメント畳み込みカーネルに対して符号化処理を行い、前記ボケ除去畳み込みカーネルを得るように構成される。

もう１つの可能な実現形態において、前記第２処理ユニット１３は、前記ボケ除去畳み込みカーネルにより、前記第Ｎフレームの画像の特徴画像の画素点に対して畳み込み処理を行い、第１特徴画像を得るように構成される第２畳み込み処理サブユニット１３１と、前記第１特徴画像に対して復号処理を行い、前記第Ｎフレームのボケ除去処理後の画像を得るように構成される復号処理サブユニット１３２と、を備える。

もう１つの可能な実現形態において、前記第２畳み込み処理サブユニット１３１は、前記ボケ除去畳み込みカーネルの次元を調整し、前記ボケ除去畳み込みカーネルのチャネル数を前記第Ｎフレームの画像の特徴画像のチャネル数と同じくし、次元調整後の前記ボケ除去畳み込みカーネルにより、前記第Ｎフレームの画像の特徴画像の画素点に対して畳み込み処理を行い、前記第１特徴画像を得るように構成される。

もう１つの可能な実現形態において、前記第１畳み込み処理サブユニット１２１は更に、前記処理待ち画像に対して畳み込み処理を行い、前記第Ｎフレームの画像の画素点に対する前記第Ｎ−１フレームの画像の画素点の運動情報を抽出し、アライメント畳み込みカーネルを得た後、前記アライメント畳み込みカーネルにより、前記第Ｎ−１フレームのボケ除去処理後の画像の特徴画像の画素点に対して畳み込み処理を行い、第２特徴画像を得るように構成される。

もう１つの可能な実現形態において、前記第１畳み込み処理サブユニット１２１は更に、前記アライメント畳み込みカーネルの次元を調整し、前記アライメント畳み込みカーネルのチャネル数を前記第Ｎ−１フレームの画像の特徴画像のチャネル数と同じくし、次元調整後の前記アライメント畳み込みカーネルにより、前記第Ｎ−１フレームのボケ除去処理後の画像の特徴画像の画素点に対して畳み込み処理を行い、前記第２特徴画像を得るように構成される。

もう１つの可能な実現形態において、前記第２処理ユニット１３は、前記第１特徴画像及び前記第２特徴画像に対して融合処理を行い、第３特徴画像を得て、前記第３特徴画像に対して復号処理を行い、前記第Ｎフレームのボケ除去処理後の画像を得るように構成される。

もう１つの可能な実現形態において、前記第１畳み込み処理サブユニット１２１は更に、前記第Ｎフレームの画像、前記第Ｎ−１フレームの画像及び前記第Ｎ−１フレームのボケ除去処理後の画像に対してチャネル次元で重ね合わせ処理を行い、前記処理待ち画像を得て、前記処理待ち画像に対して符号化処理を行い、第４特徴画像を得て、前記第４特徴画像に対して畳み込み処理を行い、第５特徴画像を得て、畳み込み処理により、前記第５特徴画像のチャネル数を第１所定値に調整し、前記アライメント畳み込みカーネルを得るように構成される。

もう１つの可能な実現形態において、前記第１畳み込み処理サブユニット１２１は更に、畳み込み処理により、前記アライメント畳み込みカーネルのチャネル数を第２所定値に調整し、第６特徴画像を得て、前記第４特徴画像及び前記第６特徴画像に対して融合処理を行い、第７特徴画像を得て、前記第７特徴画像に対して畳み込み処理を行い、前記第Ｎ−１フレームの画像の画素点に対する前記第Ｎ−１フレームのボケ除去処理後の画像の画素点のボケ除去情報を抽出し、前記ボケ除去畳み込みカーネルを得るように構成される。

もう１つの可能な実現形態において、前記第１畳み込み処理サブユニット１２１は更に、前記第７特徴画像に対して畳み込み処理を行い、第８特徴画像を得て、畳み込み処理により、前記第８特徴画像のチャネル数を前記第１所定値に調整し、前記ボケ除去畳み込みカーネルを得るように構成される。

もう１つの可能な実現形態において、前記第２処理ユニット１３は更に、前記第３特徴画像に対して逆畳み込み処理を行い、第９特徴画像を得て、前記第９特徴画像に対して畳み込み処理を行い、第Ｎフレームの復号処理後の画像を得て、前記第Ｎフレームの画像の第１画素点の画素値と前記第Ｎフレームの復号処理後の画像の第２画素点の画素値を加算し、前記第Ｎフレームのボケ除去処理後の画像を得るように構成され、前記第Ｎフレームの画像における、前記第１画素点の位置は、前記第Ｎフレームの復号処理後の画像における、前記第２画素点の位置と同じである。

幾つかの実施例において、本願の実施例で提供される装置における機能及びモジュールは、上記方法実施例に記載の方法を実行するために用いられ、具体的な実現形態は上記方法実施例の説明を参照されたい。簡潔化のために、ここで詳細な説明を省略する。

本願の実施例は、電子機器を更に提供する。前記電子機器は、プロセッサと、入力装置と、出力装置と、メモリと、を備え、前記プロセッサ、入力装置、出力装置及びメモリは、相互接続され、前記メモリにプログラム命令が記憶されており、前記プログラム命令が前記プロセッサにより実行される時、前記プロセッサに、本願の実施例に記載の方法を実行させる。

本願の実施例は、プロセッサを更に提供する。前記プロセッサは、本願の実施例に記載の方法を実行するように構成される。

図１６は、本願の実施例による電子機器のハードウェア構造を示す概略図である。該電子機器２は、プロセッサ２１と、メモリ２２と、カメラ２３と、を備える。該プロセッサ２１、メモリ２２及びカメラ２３は、コネクタを介して結合される。該コネクタは、様々なインタフェース、伝送線又はバスなどを含み、本願の実施例は、これを限定するものではない。本願の各実施例において、結合とは、特定の方式で相互接続されることを指す。これは、直接接続又は他の装置による間接的接続を含む。例えば、様々なインタフェース、伝送線、バスなどを介して接続されてもよい。

プロセッサ２１は、１つ又は複数のグラフィックスプロセッサ（ＧｒａｐｈｉｃｓＰｒｏｃｅｓｓｉｎｇＵｎｉｔ：ＧＰＵ）であってもよい。プロセッサ２１が１つのＧＰＵである場合、該ＧＰＵは、シングルコアＧＰＵであってもよく、マルチコアＧＰＵであってもよい。任意選択的に、プロセッサ２１は、複数のＧＰＵからなるプロセッサ群であってもよい。複数のプロセッサ同士は、１つ又は複数バスを介して相互結合する。任意選択的に、該プロセッサは、他のタイプのプロセッサ等であってもよく、本願の実施例は、これを限定するものではない。

メモリ２２は、コンピュータプログラム命令を記憶するように構成され、また、本願の技術的解決手段におけるプログラムコードを含む様々なコンピュータプログラムコードを実行するように構成される。任意選択的に、メモリは、ランダムアクセスメモリ（ＲａｎｄｏｍＡｃｃｅｓｓＭｅｍｏｒｙ：ＲＡＭ）、読み出し専用メモリ（Ｒｅａｄ−ＯｎｌｙＭｅｍｏｒｙ：ＲＯＭ）、消去可能なプログラマブル読み出し専用メモリ（ＥｒａｓａｂｌｅＰｒｏｇｒａｍｍａｂｌｅＲｅａｄＯｎｌｙＭｅｍｏｒｙ：ＥＰＲＯＭ）、コンパクトディスク読み出し専用メモリ（ＣｏｍｐａｃｔＤｉｓｃＲｅａｄ−ＯｎｌｙＭｅｍｏｒｙ：ＣＤ−ＲＯＭ）を含むが、これらに限定されない。該メモリは、関連命令及びデータを記憶するように構成される。

カメラ２３は、関連ビデオ又は画像などを取得するように構成される。

本願の実施例において、メモリは、関連命令を記憶するように構成されるだけでなく、関連画像及びビデオを記憶するように構成されることが理解されるべきである。例えば、該メモリは、カメラ２３により取得されたビデオを記憶するように構成される。又は、該メモリは更に、プロセッサ２１により生成されたボケ除去処理後の画像などを記憶するように構成される。本願の実施例は、該メモリに具体的に記憶されたビデオ又は画像を限定するものではない。

図１６に、ビデオ画像処理装置の簡略化した設計のみが示されることが理解されるべきである。実際の適用において、ビデオ画像処理装置は、必要な他の要素をそれぞれ備えてもよく、それらは、任意の数の入力／出力装置、プロセッサ、コントローラ、メモリなどを含むが、これらに限定されない。本願の実施例を実現させることができる全ての装置は、いずれも本願の保護範囲内に含まれる。

本願の実施例は、コンピュータ可読記憶媒体を更に提供する。前記コンピュータ可読記憶媒体に、コンピュータプログラムが記憶されており、前記コンピュータプログラムは、プログラム命令を含み、前記プログラム命令が電子機器のプロセッサにより実行される時、前記プロセッサに、本願の実施例に記載の方法を実行させる。

本明細書に開示されている実施例に記載の各例におけるユニット及びアルゴリズムステップと合わせて、本願は、電子ハードウェア又は電子ハードウェアとコンピュータソフトウェアの組み合わせにより実現することができることは、当業者であれば容易に理解すべきである。これらの機能がハードウェアによって実行されるか、あるいは、ソフトウェアによって実行されるかは、技術的解決手段の、特定の適用例、及び設計制約条件に依存する。当業者は、特定の適用について、説明された機能を様々な方法で実現させることができるが、このような実現は本発明の範囲を超えるものと理解すべきではない。

便利で簡潔に説明するために、上記説明されたシステムと、装置とユニットとの具体的な作動過程は、前記方法実施例における過程を参照することができるから、ここで詳しく説明しないようにすることは、当業者にはっきり理解されるべきである。本願の各々の実施例に対する説明はそれぞれ偏りがあって、便利で簡潔に説明するために、同様又は類似した部分は異なる実施例において重複して説明されていないことがあるため、ある実施例に詳しく説明されていない部分に対して、ほかの実施例に関する説明を参照することができることは、当業者にもはっきり理解されるべきである。

本願で提供される幾つかの実施例において、開示されるシステム、装置及び方法は、他の方式によって実現できることを理解すべきである。例えば、以上に記載した装置の実施例はただ例示的なもので、例えば、前記ユニットの分割はただロジック機能の分割で、実際に実現する時は他の分割方式によってもよい。例えば、複数のユニット又は組立体を組み合わせてもよいし、別のシステムに組み込んでもよい。又は若干の特徴を無視してもよいし、実行しなくてもよい。また、示したか或いは検討した相互間の結合又は直接的な結合又は通信接続は、幾つかのインタフェース、装置又はユニットによる間接的な結合又は通信接続であってもよく、電気的、機械的または他の形態であってもよい。

分離部材として説明したユニットは、物理的に別個のものであってもよいし、そうでなくてもよい。ユニットとして示された部材は、物理的ユニットであってもよいし、そうでなくてもよい。即ち、同一の位置に位置してもよいし、複数のネットワークに分布してもよい。実際の需要に応じてそのうちの一部又は全てのユニットにより本実施例の方策の目的を実現することができる。

また、本発明の各実施例における各機能ユニットは一つの処理ユニットに集積されてもよいし、各ユニットが物理的に別個のものとして存在してもよいし、２つ以上のユニットが一つのユニットに集積されてもよい。

上記実施例において、全て又は一部は、ソフトウェア、ハードウェア、ファームウェア又はそれらの任意の組み合わせにより実現してもよい。ソフトウェアにより実現する場合、全て又は一部をコンピュータプログラム製品の形式で実現してもよい。前記コンピュータプログラム製品は、１つ又は複数のコンピュータ命令を含む。コンピュータで前記コンピュータプログラム命令をロードして実行する時、本願の実施例に記載の手順又は機能が全部又は部分的に生成される。前記コンピュータは、汎用コンピュータ、専用コンピュータ、コンピュータネットワーク、又は他のプログラマブルデバイスであってもよい。前記コンピュータ命令は、コンピュータ可読記憶媒体に記憶されてもよく、又は、前記コンピュータ可読記憶媒体により伝送されてもよい。前記コンピュータ命令を、１つのウェブサイト、コンピュータ、サーバ又はデータセンタから、有線（例えば、同軸ケーブル、光ファイバー、デジタル加入者回線（ｄｉｇｉｔａｌｓｕｂｓｃｒｉｂｅｒｌｉｎｅ：ＤＳＬ））又は無線（例えば、赤外、無線、マイクロウェーブ等）の方式で、もう１つのウェブサイト、コンピュータ、サーバ又はデータセンタに伝送することができる。前記コンピュータ可読記憶媒体は、コンピュータによってアクセスされ得る任意の利用可能な媒体であってもよく、又は、１つ又は複数の利用可能な媒体で集積されたサーバ、データセンタなどのデータ記憶装置であってもよい。前記利用可能ば媒体は、磁気媒体（例えば、フレキシブルディスク、ハードディスク、磁気ディスク）、光媒体（例えば、デジタルバーサタイルディスク（ｄｉｇｉｔａｌｖｅｒｓａｔｉｌｅｄｉｓｃ：ＤＶＤ））、又は半導体媒体（例えば、ソリッドステートドライブ（ｓｏｌｉｄｓｔａｔｅｄｉｓｋ：ＳＳＤ））等であってもよい。

上記実施例における各方法の全ての又は一部のステップを、プログラムにより関連ハードウェアを命令することで実行することができることは、当業者であれば理解されるべきである。該プログラムは、コンピュータ可読記憶媒体に記憶されてもよい。該プログラムが実行される時、上記各方法の実施例のプロセスを含んでもよい。前記記憶媒体は、読み出し専用メモリ（Ｒｅａｄ−ＯｎｌｙＭｅｍｏｒｙ：ＲＯＭ）又はランダムアクセスメモリ（ＲａｎｄｏｍＡｃｃｅｓｓＭｅｍｏｒｙ：ＲＡＭ）、磁気ディスク又は光ディスクなど、プログラムコードを記憶可能な各種の媒体を含む。

Claims

ビデオ画像処理方法であって、前記方法は、
複数フレームの連続ビデオ画像を取得することであって、前記複数フレームの連続ビデオ画像は、第Ｎフレームの画像、第Ｎ−１フレームの画像及び第Ｎ−１フレームのボケ除去処理後の画像を含み、前記Ｎは、正整数である、ことと、
前記第Ｎフレームの画像、前記第Ｎ−１フレームの画像及び前記第Ｎ−１フレームのボケ除去処理後の画像に基づいて、前記第Ｎフレームの画像のボケ除去畳み込みカーネルを得ることと、
前記ボケ除去畳み込みカーネルにより、前記第Ｎフレームの画像に対してボケ除去処理を行い、第Ｎフレームのボケ除去処理後の画像を得ることと、を含む、ビデオ画像処理方法。
前記第Ｎフレームの画像、前記第Ｎ−１フレームの画像及び前記第Ｎ−１フレームのボケ除去処理後の画像に基づいて、前記第Ｎフレームの画像のボケ除去畳み込みカーネルを得ることは、
処理待ち画像の画素点に対して畳み込み処理を行い、ボケ除去畳み込みカーネルを得ることであって、前記処理待ち画像は、前記第Ｎフレームの画像、前記第Ｎ−１フレームの画像及び前記第Ｎ−１フレームのボケ除去処理後の画像をチャネル次元で重ね合わせることで得られるものである、ことを含むことを特徴とする
請求項１に記載の方法。
処理待ち画像の画素点に対して畳み込み処理を行い、ボケ除去畳み込みカーネルを得ることは、
前記処理待ち画像に対して畳み込み処理を行い、前記第Ｎフレームの画像の画素点に対する前記第Ｎ−１フレームの画像の画素点の運動情報を抽出し、アライメント畳み込みカーネルを得ることであって、前記運動情報は、速度及び方向を含む、ことと、
前記アライメント畳み込みカーネルに対して符号化処理を行い、前記ボケ除去畳み込みカーネルを得ることと、を含むことを特徴とする
請求項２に記載の方法。
前記ボケ除去畳み込みカーネルにより、前記第Ｎフレームの画像に対してボケ除去処理を行い、第Ｎフレームのボケ除去処理後の画像を得ることは、
前記ボケ除去畳み込みカーネルにより、前記第Ｎフレームの画像の特徴画像の画素点に対して畳み込み処理を行い、第１特徴画像を得ることと、
前記第１特徴画像に対して復号処理を行い、前記第Ｎフレームのボケ除去処理後の画像を得ることと、を含むことを特徴とする
請求項２又は３に記載の方法。
前記ボケ除去畳み込みカーネルにより、前記第Ｎフレームの画像の特徴画像の画素点に対して畳み込み処理を行い、第１特徴画像を得ることは、
前記ボケ除去畳み込みカーネルの次元を調整し、前記ボケ除去畳み込みカーネルのチャネル数を前記第Ｎフレームの画像の特徴画像のチャネル数と同じくすることと、
次元調整後の前記ボケ除去畳み込みカーネルにより、前記第Ｎフレームの画像の特徴画像の画素点に対して畳み込み処理を行い、前記第１特徴画像を得ることと、を含むことを特徴とする
請求項４に記載の方法。
前記処理待ち画像に対して畳み込み処理を行い、前記第Ｎフレームの画像の画素点に対する前記第Ｎ−１フレームの画像の画素点の運動情報を抽出し、アライメント畳み込みカーネルを得た後に、
前記アライメント畳み込みカーネルにより、前記第Ｎ−１フレームのボケ除去処理後の画像の特徴画像の画素点に対して畳み込み処理を行い、第２特徴画像を得ることを更に含むことを特徴とする
請求項３に記載の方法。
前記アライメント畳み込みカーネルにより、前記第Ｎ−１フレームのボケ除去処理後の画像の特徴画像の画素点に対して畳み込み処理を行い、第２特徴画像を得ることは、
前記アライメント畳み込みカーネルの次元を調整し、前記アライメント畳み込みカーネルのチャネル数を前記第Ｎ−１フレームの画像の特徴画像のチャネル数と同じくすることと、
次元調整後の前記アライメント畳み込みカーネルにより、前記第Ｎ−１フレームのボケ除去処理後の画像の特徴画像の画素点に対して畳み込み処理を行い、前記第２特徴画像を得ることと、を含むことを特徴とする
請求項６に記載の方法。
前記第１特徴画像に対して復号処理を行い、前記第Ｎフレームのボケ除去処理後の画像を得ることは、
前記第１特徴画像及び前記第２特徴画像に対して融合処理を行い、第３特徴画像を得ることと、
前記第３特徴画像に対して復号処理を行い、前記第Ｎフレームのボケ除去処理後の画像を得ること、を含むことを特徴とする
請求項７に記載の方法。
前記処理待ち画像に対して畳み込み処理を行い、前記第Ｎフレームの画像の画素点に対する前記第Ｎ−１フレームの画像の画素点の運動情報を抽出し、アライメント畳み込みカーネルを得ることは、
前記第Ｎフレームの画像、前記第Ｎ−１フレームの画像及び前記第Ｎ−１フレームのボケ除去処理後の画像に対して、チャネル次元で重ね合わせ処理を行い、前記処理待ち画像を得ることと、
前記処理待ち画像に対して符号化処理を行い、第４特徴画像を得ることと、
前記第４特徴画像に対して畳み込み処理を行い、第５特徴画像を得ることと、
畳み込み処理により、前記第５特徴画像のチャネル数を第１所定値に調整し、前記アライメント畳み込みカーネルを得ることと、を含むことを特徴とする
請求項３に記載の方法。
前記アライメント畳み込みカーネルに対して符号化処理を行い、前記ボケ除去畳み込みカーネルを得ることは、
畳み込み処理により、前記アライメント畳み込みカーネルのチャネル数を第２所定値に調整し、第６特徴画像を得ることと、
前記第４特徴画像及び前記第６特徴画像に対して融合処理を行い、第７特徴画像を得ることと、
前記第７特徴画像に対して畳み込み処理を行い、前記第Ｎ−１フレームの画像の画素点に対する前記第Ｎ−１フレームのボケ除去処理後の画像の画素点のボケ除去情報を抽出し、前記ボケ除去畳み込みカーネルを得ることと、を含むことを特徴とする
請求項９に記載の方法。
前記第７特徴画像に対して畳み込み処理を行い、前記第Ｎ−１フレームの画像の画素点に対する前記第Ｎ−１フレームのボケ除去処理後の画像の画素点のボケ除去情報を抽出し、前記ボケ除去畳み込みカーネルを得ることは、
前記第７特徴画像に対して畳み込み処理を行い、第８特徴画像を得ることと、
畳み込み処理により、前記第８特徴画像のチャネル数を前記第１所定値に調整し、前記ボケ除去畳み込みカーネルを得ることと、を含むことを特徴とする
請求項１０に記載の方法。
前記第３特徴画像に対して復号処理を行い、前記第Ｎフレームのボケ除去処理後の画像を得ることは、
前記第３特徴画像に対して逆畳み込み処理を行い、第９特徴画像を得ることと、
前記第９特徴画像に対して畳み込み処理を行い、第Ｎフレームの復号処理後の画像を得ることと、
前記第Ｎフレームの画像の第１画素点の画素値と前記第Ｎフレームの復号処理後の画像の第２画素点の画素値を加算し、前記第Ｎフレームのボケ除去処理後の画像を得ることであって、前記第Ｎフレームの画像における、前記第１画素点の位置は、前記第Ｎフレームの復号処理後の画像における、前記第２画素点の位置と同じである、ことと、を含むことを特徴とする
請求項８に記載の方法。
ビデオ画像処理装置であって、前記装置は、
複数フレームの連続ビデオ画像を取得するように構成される取得ユニットであって、前記複数フレームの連続ビデオ画像は、第Ｎフレームの画像、第Ｎ−１フレームの画像及び第Ｎ−１フレームのボケ除去処理後の画像を含み、前記Ｎは、正整数である、取得ユニットと、
前記第Ｎフレームの画像、前記第Ｎ−１フレームの画像及び前記第Ｎ−１フレームのボケ除去処理後の画像に基づいて、前記第Ｎフレームの画像のボケ除去畳み込みカーネルを得るように構成される第１処理ユニットと、
前記ボケ除去畳み込みカーネルにより、前記第Ｎフレームの画像に対してボケ除去処理を行い、第Ｎフレームのボケ除去処理後の画像を得るように構成される第２処理ユニットと、を備える、ビデオ画像処理装置。
前記第１処理ユニットは、
処理待ち画像の画素点に対して畳み込み処理を行い、ボケ除去畳み込みカーネルを得るように構成される第１畳み込み処理サブユニットであって、前記処理待ち画像は、前記第Ｎフレームの画像、前記第Ｎ−１フレームの画像及び前記第Ｎ−１フレームのボケ除去処理後の画像をチャネル次元で重ね合わせることで得られるものである、第１畳み込み処理サブユニットを備えることを特徴とする
請求項１３に記載の装置。
前記第１畳み込み処理サブユニットは、前記処理待ち画像に対して畳み込み処理を行い、前記第Ｎフレームの画像の画素点に対する前記第Ｎ−１フレームの画像の画素点の運動情報を抽出し、アライメント畳み込みカーネルを得るように構成され、前記運動情報は、速度及び方向を含み、前記第１畳み込み処理サブユニットは、前記アライメント畳み込みカーネルに対して符号化処理を行い、前記ボケ除去畳み込みカーネルを得るように構成されることを特徴とする
請求項１４に記載の装置。
前記第２処理ユニットは、前記ボケ除去畳み込みカーネルにより、前記第Ｎフレームの画像の特徴画像の画素点に対して畳み込み処理を行い、第１特徴画像を得るように構成される第２畳み込み処理サブユニットと、
前記第１特徴画像に対して復号処理を行い、前記第Ｎフレームのボケ除去処理後の画像を得るように構成される復号処理サブユニットと、を備えることを特徴とする
請求項１４又は１５に記載の装置。
前記第２畳み込み処理サブユニットは、前記ボケ除去畳み込みカーネルの次元を調整し、前記ボケ除去畳み込みカーネルのチャネル数を前記第Ｎフレームの画像の特徴画像のチャネル数と同じくし、次元調整後の前記ボケ除去畳み込みカーネルにより、前記第Ｎフレームの画像の特徴画像の画素点に対して畳み込み処理を行い、前記第１特徴画像を得るように構成されることを特徴とする
請求項１６に記載の装置。
前記第１畳み込み処理サブユニットは更に、前記処理待ち画像に対して畳み込み処理を行い、前記第Ｎフレームの画像の画素点に対する前記第Ｎ−１フレームの画像の画素点の運動情報を抽出し、アライメント畳み込みカーネルを得た後、前記アライメント畳み込みカーネルにより、前記第Ｎ−１フレームのボケ除去処理後の画像の特徴画像の画素点に対して畳み込み処理を行い、第２特徴画像を得るように構成されることを特徴とする
請求項１５に記載の装置。
前記第１畳み込み処理サブユニットは更に、前記アライメント畳み込みカーネルの次元を調整し、前記アライメント畳み込みカーネルのチャネル数を前記第Ｎ−１フレームの画像の特徴画像のチャネル数と同じくし、次元調整後の前記アライメント畳み込みカーネルにより、前記第Ｎ−１フレームのボケ除去処理後の画像の特徴画像の画素点に対して畳み込み処理を行い、前記第２特徴画像を得るように構成されることを特徴とする
請求項１８に記載の装置。
前記第２処理ユニットは、前記第１特徴画像及び前記第２特徴画像に対して融合処理を行い、第３特徴画像を得て、前記第３特徴画像に対して復号処理を行い、前記第Ｎフレームのボケ除去処理後の画像を得るように構成されることを特徴とする
請求項１９に記載の装置。
前記第１畳み込み処理サブユニットは更に、前記第Ｎフレームの画像、前記第Ｎ−１フレームの画像及び前記第Ｎ−１フレームのボケ除去処理後の画像に対してチャネル次元で重ね合わせ処理を行い、前記処理待ち画像を得て、前記処理待ち画像に対して符号化処理を行い、第４特徴画像を得て、前記第４特徴画像に対して畳み込み処理を行い、第５特徴画像を得て、畳み込み処理により、前記第５特徴画像のチャネル数を第１所定値に調整し、前記アライメント畳み込みカーネルを得るように構成されることを特徴とする
請求項１５に記載の装置。
前記第１畳み込み処理サブユニットは更に、畳み込み処理により、前記アライメント畳み込みカーネルのチャネル数を第２所定値に調整し、第６特徴画像を得て、前記第４特徴画像及び前記第６特徴画像に対して融合処理を行い、第７特徴画像を得て、前記第７特徴画像に対して畳み込み処理を行い、前記第Ｎ−１フレームの画像の画素点に対する前記第Ｎ−１フレームのボケ除去処理後の画像の画素点のボケ除去情報を抽出し、前記ボケ除去畳み込みカーネルを得るように構成されることを特徴とする
請求項２１に記載の装置。
前記第１畳み込み処理サブユニットは更に、前記第７特徴画像に対して畳み込み処理を行い、第８特徴画像を得て、畳み込み処理により、前記第８特徴画像のチャネル数を前記第１所定値に調整し、前記ボケ除去畳み込みカーネルを得るように構成されることを特徴とする
請求項２２に記載の装置。
前記第２処理ユニットは更に、前記第３特徴画像に対して逆畳み込み処理を行い、第９特徴画像を得て、前記第９特徴画像に対して畳み込み処理を行い、第Ｎフレームの復号処理後の画像を得て、前記第Ｎフレームの画像の第１画素点の画素値と前記第Ｎフレームの復号処理後の画像の第２画素点の画素値を加算し、前記第Ｎフレームのボケ除去処理後の画像を得るように構成され、前記第Ｎフレームの画像における、前記第１画素点の位置は、前記第Ｎフレームの復号処理後の画像における、前記第２画素点の位置と同じであることを特徴とする
請求項２０に記載の装置。
プロセッサであって、前記プロセッサは、請求項１から１２のうちいずれか一項に記載の方法を実行するように構成される、プロセッサ。
電子機器であって、前記電子機器は、プロセッサと、入力装置と、出力装置と、メモリと、を備え、前記プロセッサ、入力装置、出力装置及びメモリは、相互接続され、前記メモリにプログラム命令が記憶されており、前記プログラム命令が前記プロセッサにより実行される時、前記プロセッサに、請求項１から１２のうちいずれか一項に記載の方法を実行させる、電子機器。
コンピュータ可読記憶媒体であって、前記コンピュータ可読記憶媒体に、コンピュータプログラムが記憶されており、前記コンピュータプログラムは、プログラム命令を含み、前記プログラム命令が電子機器のプロセッサにより実行される時、前記プロセッサに、請求項１から１２のうちいずれか一項に記載の方法を実行させる、コンピュータ可読記憶媒体。