JP2022547594A - ジョイントローリングシャッター補正及び画像ぼけ除去 - Google Patents

ジョイントローリングシャッター補正及び画像ぼけ除去 Download PDF

Info

Publication number
JP2022547594A
JP2022547594A JP2022516141A JP2022516141A JP2022547594A JP 2022547594 A JP2022547594 A JP 2022547594A JP 2022516141 A JP2022516141 A JP 2022516141A JP 2022516141 A JP2022516141 A JP 2022516141A JP 2022547594 A JP2022547594 A JP 2022547594A
Authority
JP
Japan
Prior art keywords
image
sharp
deblurred
network
images
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2022516141A
Other languages
English (en)
Other versions
JP7357150B2 (ja
Inventor
クオック-フイ トラン、
ビンビン ズオン、
パン ジ、
マンモハン チャンドラカー、
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NEC Laboratories America Inc
Original Assignee
NEC Laboratories America Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NEC Laboratories America Inc filed Critical NEC Laboratories America Inc
Publication of JP2022547594A publication Critical patent/JP2022547594A/ja
Application granted granted Critical
Publication of JP7357150B2 publication Critical patent/JP7357150B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T5/00Image enhancement or restoration
    • G06T5/73Deblurring; Sharpening
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/217Validation; Performance evaluation; Active pattern learning techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T5/00Image enhancement or restoration
    • G06T5/50Image enhancement or restoration using two or more images, e.g. averaging or subtraction
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T5/00Image enhancement or restoration
    • G06T5/60Image enhancement or restoration using machine learning, e.g. neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T5/00Image enhancement or restoration
    • G06T5/70Denoising; Smoothing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/764Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20081Training; Learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20084Artificial neural networks [ANN]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20172Image enhancement details
    • G06T2207/20201Motion blur correction

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Health & Medical Sciences (AREA)
  • Computing Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • Software Systems (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Medical Informatics (AREA)
  • Multimedia (AREA)
  • General Engineering & Computer Science (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Computational Linguistics (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Molecular Biology (AREA)
  • Mathematical Physics (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Image Processing (AREA)
  • Image Analysis (AREA)

Abstract

ローリングシャッター(RS)歪み及びぼけアーティファクトを単一入力RS及びボケ画像において共に除去するための方法を提示する。本方法は、カメラから複数のRSぼけ画像を生成すること(801)と、単一ビュージョイントRS補正及びぼけ除去の畳み込みニューラルネットワーク(CNN)を訓練する訓練データを生成するために、構造及び動き認識RS歪み及びぼけレンダリングモジュールを用いることでGS鮮明画像、対応GS鮮明奥行きマップ、合成RSカメラの動きのセットからRSぼけ画像を合成すること(803)と、単一ビュージョイントRS補正及びぼけ除去のCNNを用いることで、単一入力RS及びぼけ画像からRS修正及びぼけ除去画像を予測すること(805)とを含む。【選択図】図8

Description

この出願は、2019年11月22日に出願された米国仮特許出願第62/939,016号及び2020年11月5日に出願された米国特許出願第17/090,508号を基礎とする優先権を主張し、その開示の全てをここに取り込む。
本発明は、合成ローリングシャッター(RS:rolling shutter)ぼけ画像を生成するための構造及び動き認識(structure-and-motion-aware)RS歪み及びぼけレンダリングモジュールに関し、何より単一入力RS及びぼけ画像からRS歪み及びぼけアーティファクトを同時に除去するためのエンドツーエンド学習アプローチに関する。
コスト上の利点を有する相補型金属酸化物半導体(CMOS:Complementary Metal Oxide Semiconductor)センサは、例えばウェブカメラ、携帯電話機、タブレット等の大多数の消費者向けカメラで採用されている。しかしながら、CMOSセンサによる1つの欠点はローリングシャッター(RS)機構によって動作することである。代替手段のグローバルシャッター(GS)のように同時ではなく、RSはセンサアレイの各行を(連続する複数の行間で一定の時間遅延を伴って)順次露光する。RSカメラの場合、露光期間中にカメラが動くと、撮影画像にRS歪みが生じる可能性がある。これは、特に屋内シーンのような暗い場所では、通常、ぼけアーティファクトと組み合わされる。
単一入力ローリングシャッター(RS)及びぼけ画像におけるRS歪及びぼけアーティファクトを共に除去するためのコンピュータ実装方法が提示される。本方法は、GS鮮明画像、対応GS鮮明奥行きマップ、合成RSカメラの動きのセットから合成RSぼけ画像を生成するための構造及び動き認識RS歪み及びぼけレンダリングモジュール、並びに単一入力RS及びぼけ画像からRS修正及びぼけ除去画像を予測するための単一ビュージョイントRS補正及びぼけ除去のネットワークを含む。
単一入力ローリングシャッター(RS)及びぼけ画像におけるRS歪及びぼけアーティファクトを共に除去するための、コンピュータで読み取り可能なプログラムを有する非一時的にコンピュータで読み取り可能な記憶媒体が提示される。コンピュータで読み取り可能なプログラムがコンピュータで実行されると、GS鮮明画像、対応GS鮮明奥行きマップ、合成RSカメラの動きのセットから合成RSぼけ画像を生成するための構造及び動き認識RS歪み及びぼけレンダリングモジュール、並びに単一入力RS及びぼけ画像からRS修正及びぼけ除去画像を予測するための単一ビュージョイントRS補正及びぼけ除去のネットワークをコンピュータに実行させる。
単一入力ローリングシャッター(RS)及びぼけ画像におけるRS歪及びぼけアーティファクトを共に除去するためのシステムが提示される。本システムは、メモリと、構造及び動き認識RS歪み及びぼけレンダリングモジュールによって、GS鮮明画像、対応GS鮮明奥行きマップ、合成RSカメラの動きのセットから合成RSぼけ画像を生成し、単一ビュージョイントRS補正及びぼけ除去のネットワークを用いて単一入力RS及びぼけ画像からRS修正及びぼけ除去画像を予測するように構成された、上記メモリと通信する1つまたは複数のプロセッサと、を有する。
これら及び他の特徴並びに利点は、以下の典型的な実施形態の詳細な説明を添付の図面と併せて読むことで明らかになるであろう。
本開示では、後述するように、以下の図面を参照しながら好ましい実施形態について詳細に説明する。
図1は、本発明の一実施形態による、構造及び動き認識ローリングシャッター(RS)歪み及びぼけレンダリングモジュール、並びに単一ビュージョイントRS補正及びぼけ除去のネットワークのブロック/フロー図である。
図2は、本発明の一実施形態による、単一ビュージョイントRS補正及びぼけ除去のネットワークの例示的なアーキテクチャのブロック/フロー図である。
図3は、本発明の一実施形態による、図2のジェネレータネットワークのための例示的なアーキテクチャのブロック/フロー図である。
図4は、本発明の一実施形態による、RSぼけビデオのための同時ローカライゼーション及びマッピング(SEAM)に対するRS補正及びぼけ除去の方法の適用例のブロック/フロー図である。
図5は、本発明の一実施形態による、RSぼけ画像のためのSFM(Structure from Motion)に対するRS補正及びぼけ除去の方法の適用例のブロック/フロー図である。
図6は、本発明の一実施形態による、構造及び動き認識ローリングシャッター(RS)歪み及びぼけレンダリングモジュール及び単一ビュージョイントRS補正及びぼけ除去のネットワークの実際の適用例のブロック/フロー図である。
図7は、本発明の一実施形態による、RS補正及びぼけ除去のための例示的な処理システムのブロック/フロー図である。
図8は、本発明の一実施形態による、RS補正及びぼけ除去のための例示的な方法のブロック/フロー図である。
本発明は、単一入力RS及びぼけ画像におけるローリングシャッター(RS)歪み及びぼけアーティファクトを共に除去するためのエンドツーエンド学習アプローチを導入する。さらに、本発明は、本方法を訓練するために使用できる、本物そっくりなRS及びぼけ画像を合成するための手順を導入する。最後に、例示的な実施形態は、RSぼけ画像のためのSFM(Structure from Motion)、並びにRSぼけビデオのためのSLAM(Simultaneous Localization and Mapping)の目標に向けた本発明の適用例を示す。
本発明は、単一入力RS及びぼけ画像からRS歪み及びぼけアーティファクトを同時に除去するためのエンドツーエンド学習アプローチを導入する。さらに、本発明は、畳み込みニューラルネットワーク(CNN:convolutional neural network)を訓練するための多数のRS及びぼけ画像を生成する新しいRS及びぼけ画像合成手順を導入する。
例示的な実施形態は、単一ビュージョイントRS補正及びぼけ除去を単一の順方向パスで実行するために学習する、CNNアーキテクチャを導入する。単一ビューRS補正とぼけ除去のタスクは密接に繋がっているため、例示的なCNNは共有される特徴を抽出し、それらに同時に取り組むことが有利である。CNNを訓練するための多様で本物そっくりなRS画像及びぼけ画像の大規模なデータセットを得るために、例示的な実施形態は、レンダリング中のカメラの動きと奥行きマップの両方を利用する、構造及び動き認識RS歪み及びぼけ合成パイプラインを導入する。さらに、例示的な実施形態は、RSぼけ画像/ビデオのためのSFM/SLAMに対するアプローチ案を適用する。
図1は、本発明の一実施形態による、構造及び動き認識ローリングシャッター(RS)歪み及びぼけレンダリングモジュール、並びに単一ビュージョイントRS補正及びぼけ除去のネットワークのブロック/フロー図である。
図1は、構造及び動き認識RS歪み及びぼけレンダリングモジュール、並びに単一ビュージョイントRS補正及びぼけ除去のネットワークを示している。訓練フェーズ150において、合成RSぼけ画像120を生成するために、一組のグローバルシャッター(GS)鮮明画像112、対応GS鮮明奥行きマップ104及び合成RSカメラの動き102が、構造及び動き認識RS歪み及びぼけレンダリングモジュール110によって用いられる。具体的には、例示的な実施形態は、奥行き及びフレームにおけるカメラの動きを用いて2Dモーションフローを計算し、それを用いて局所領域における画素を平均化(ぼけを生成)して移動(RS歪みを生成)する。次に、単一ビュージョイントRS補正及びぼけ除去のネットワーク130をエンドツーエンドで訓練するために、合成されたRSぼけ画像120及びオリジナルのGS鮮明画像112が入力データ及びグラウンドトゥルース教師として用いられる。テスト時間160において、単一の本物そっくりなRSぼけ画像140がネットワーク130に入力され、単一の順方向パスにおいて対応RS修正及びぼけ除去画像145を生成する。
図2は、本発明の一実施形態による、単一ビュージョイントRS補正及びぼけ除去のネットワークの例示的なアーキテクチャのブロック/フロー図である。
訓練フェーズ150において、入力RSぼけ画像202が与えられると、生成器ネットワーク204は、対応GS鮮明画像206を予測する。識別器ネットワーク212は、予測GS鮮明画像206またはグラウンドトゥルースGS鮮明画像208のいずれかを取り込み、それが「偽」(予測画像206)または「真」(グラウンドトゥルース画像208)であるか否かを分類することを目的とする。これら2つのサブネットワークは、敵対的損失(adversarial loss)214を介して共に訓練される。さらに、例示的な実施形態は、予測画像206及びグラウンドトゥルース画像208に適用される(例えば、ImageNetで事前訓練された)視覚ジオメトリグループ(VGG:visual geometry group)ネットワークの様々な層(conv1_1、conv2_1、conv3_1、conv4_1、conv5_1)のアクティベーション間の差を最小化する知覚的(perceptual loss)損失210を追加する。テスト時間160では、生成器ネットワーク204のみが必要とされ、識別器ネットワーク212は廃棄される。生成器ネットワーク204のアーキテクチャの一例は図3で示され、pix2pixHDのマルチスケール識別器ネットワークが識別器ネットワーク212として使用できる。
図3は、本発明の一実施形態による、図2の生成器ネットワークのための例示的なアーキテクチャのブロック/フロー図である。
生成器ネットワーク204は、入力RSぼけ画像202からコンパクトなボトルネックの形式で、単一ビューRS補正とぼけ除去との共有特徴を抽出するエンコーダ325と、コンパクトなボトルネックをオリジナルの入力画像サイズにアップサンプリングし、出力予測GS鮮明画像206を生成するデコーダ335とを有する。例示的な実施形態は、エンコーダ325とデコーダ335との間の情報共有を可能にするために、エンコーダ325とデコーダ335とのレイヤ間にスキップ接続302を追加する。全ての畳み込み層305は、1×1ウィンドウサイズを用いる最終段の畳み込み層320を除いて、3×3のウィンドウサイズを用いる。ボックスの下の数字はチャンネル数を表している。ダウンサンプリングは、ストライド2の2×2最大値プーリングによって行われる。アップ畳み込み層には、特徴チャネルの数を半分にするアップサンプリング及び2×2畳み込みを含む。エンコーダ325及びデコーダ335は、畳み込み層305、プーリング層310及びアップ畳み込み層315を含む。
図4は、本発明の一実施形態による、RSぼけビデオのための同時ローカライゼーション及びマッピング(SLAM)に対するRS補正及びぼけ除去の方法の適用例のブロック/フロー図である。
RSぼけビデオのためのSLAMに対するRS補正及びぼけ除去の方法の適用例を図4に示す。入力RSぼけビデオ410は、RS歪み及びぼけアーティファクトを有する連続画像フレームのセットである。RS歪み及びぼけアーティファクトを除去し、対応RS修正及びぼけ除去のフレーム430を得るために、各フレームは、提案するRS補正及びぼけ除去法420(例えば、RS補正及びぼけ除去)にそれぞれ渡される。RS修正フレーム及びぼけ除去フレーム430は、ビデオで観察されるカメラの軌跡及びシーン構造450を推定するために、SLAMモジュール440に送られる。
図5は、本発明の一実施形態による、RSぼけ画像のためのSFM(Structure from Motion)に対するRS補正及びぼけ除去の方法の適用例のブロック/フロー図である。
RSぼけ画像のためのSFMに対するRS補正及びぼけ除去の方法の適用例を図5に示す。例えば、Google Image Searchから得られるRSぼけ画像510の順序不同のセットは、RSぼけ画像を備えるSFM用の入力として使用できる。RS歪み及びぼけアーティファクトを除去し、対応RS修正及びぼけ除去画像530を得るために、各画像は、提案するRS補正及びぼけ除去法520(例えば、RS補正及びぼけ除去)に個別に渡される。RS修正画像及びぼけ除去画像530は、画像内で観察されるカメラ姿勢及びシーン構造550を推定するためにSFMモジュール540に送られる。
図6は、本発明の一実施形態による、構造及び動き認識ローリングシャッター(RS)歪み及びぼけレンダリングモジュール、並びに単一ビュージョイントRS補正及びぼけ除去のネットワークの実際の適用例のブロック/フロー図である。
1つの実際の適用例において、ユーザ602は、画像606をキャプチャするためにカメラ等のキャプチャ装置604を用いる。画像606は、ぼけ及びRS歪みを含むことができる。本発明のCNNアーキテクチャ608は、キャプチャされた画像606からぼけ及びRS効果を推定し、除去するために使用できる。CNNアーキテクチャ608は、RS歪みのない鮮明な画像610をユーザ602に出力することを可能にする。本発明の例示的な実施形態は、単一入力RS及びぼけ画像におけるRS歪み及びぼけアーティファクトを共に除去するためのエンドツーエンド学習手法を導入する。さらに、本発明は、この方法を訓練するために使用できる、本物そっくりなRS及びぼけ画像を合成するための手順を導入する。最後に、例示的な実施形態は、RSぼけ画像のためのSFM、並びにRSぼけビデオのためのSLAMの目標に向けた本発明の適用例を示す。CNNアーキテクチャ608は、単一の順方向パスで単一ビュージョイントRS補正及びぼけ除去を実行することを学習する。単一ビューRS補正及びぼけ除去のタスクは密接に繋がっているため、CNN608は共有された特徴を抽出し、それらに同時に取り組むことが有利である。
図7は、本発明の一実施形態による、RS補正及びぼけ除去のための例示的な処理システムのブロック/フロー図である。
処理システムは、システムバス702を介して他の構成要素と動作可能に接続された、少なくとも1つのプロセッサまたはプロセッサ装置(CPU)704を含む。システムバス702には、キャッシュ706、リードオンリメモリ708、ランダムアクセスメモリ710、入力/出力(I/O)アダプタ720、ネットワークアダプタ730、ユーザインターフェースアダプタ740及びディスプレイアダプタ750が動作可能に接続されている。バス702には、1つまたは複数のカメラ760を接続できる。カメラ760は、訓練モジュール150及びテストモジュール160を用いることで、RS補正及びぼけ除去のために、構造及び動き認識ローリングシャッター(RS)歪み及びぼけレンダリングモジュール、並びに単一ビュージョイントRS補正及びぼけ除去のネットワーク770を用いることができる。
記憶装置722は、I/Oアダプタ720によってシステムバス702に動作可能に接続されている。記憶装置722は、ディスク記憶装置(例えば、磁気または光ディスク記憶装置)、固体磁気装置等のうちのいずれであってもよい。
トランシーバ732は、ネットワークアダプタ730によってシステムバス702に動作可能に接続されている。
複数のユーザ入力装置742は、ユーザインタフェースアダプタ740によってシステムバス702に動作可能に接続されている。ユーザ入力装置742は、キーボード、マウス、キーパッド、画像キャプチャ装置、モーションセンシングデバイス、マイクロフォン、あるいはこれらの装置のうちの少なくとも2つのデバイスの機能を組み込んだデバイス等のいずれであってもよい。もちろん、本発明の原理の趣旨を維持する限りにおいて、他のタイプの入力装置を使用することも可能である。複数のユーザ入力装置742は、同じタイプのユーザ入力装置であってもよく、異なるタイプのユーザ入力装置であってもよい。ユーザ入力装置742は、処理システムに情報を入力し、処理システムから情報を出力するために使用される。
ディスプレイ装置752は、ディスプレイアダプタ750によってシステムバス702に動作可能に接続されている。
もちろん、処理システムは、当業者であれば容易に思いつくような他の要素(不図示)を含んでいてもよく、特定の要素を省略してもよい。例えば、当業者であれば容易に理解できるが、処理システムには、その詳細な実装に応じて他の様々な入力装置及び/または出力装置を含むことができる。例えば、無線及び/または有線による種々の入力装置及び/または出力装置を使用できる。さらに、当業者であれば容易に理解できるが、様々な構成において追加のプロセッサ、コントローラ、メモリ等を用いることも可能である。処理システムの上記及び他の変形例は、本明細書で提供される本原理の教示によって当業者であれば容易に考えられるであろう。
図8は、本発明の一実施形態による、RS補正及びぼけ除去のための例示的な方法のブロック/フロー図である。
ブロック801において、カメラから複数のRSぼけ画像を生成する。
ブロック803において、単一ビュージョイントRS補正及びぼけ除去の畳み込みニューラルネットワーク(CNN)を訓練する訓練データを生成するために、構造及び動き認識RS歪み及びぼけレンダリングモジュールを用いることで、GS鮮明画像、対応GS鮮明奥行きマップ、合成RSカメラの動きのセットからRSぼけ画像を合成する。
ブロック805において、単一ビュージョイントRS補正及びぼけ除去のCNNを用いることで、単一入力RS及びぼけ画像からRS修正及びぼけ除去画像を予測する。
本明細書で用いる「データ」、「コンテンツ」、「情報」及び同様の用語は、様々な例示的な実施形態によって取得され、送信され、受信され、表示され、及び/または格納されることが可能なデータを示すために、交換可能に使用できる。したがって、これらの用語の使用は、開示の主旨及び範囲を制限するものと解釈されるべきではない。さらに、本明細書に別の計算デバイスからデータを受信するための計算デバイスが記載されている場合、データは、別の計算デバイスから直接受信してもよく、1つ以上の中間計算デバイス、例えば1つ以上のサーバ、リレー、ルータ、ネットワークアクセスポイント、基地局等を介して間接的に受信してもよい。同様に、本明細書にデータを別の計算デバイスに送信するための計算デバイスが記載されている場合、データは、別の計算データに直接送信してもよく、例えば、1つ以上のサーバ、リレー、ルータ、ネットワークアクセスポイント、基地局及び/または同様のもの等の1つ以上の中間計算デバイスを介して間接的に送信してもよい。
ユーザとのインタラクションを提供するための、本明細書に記載されている実施形態は、ユーザに情報を表示するためのディスプレイデバイス、例えば、CRT(cathode ray tube)またはLCD(liquid crystal display)モニタ、キーボード、ユーザがコンピュータに入力できるポインティングデバイス、例えばマウスまたはトラックボールを有するコンピュータで実施できる。他の種類の装置もユーザとのインタラクションを提供するために使用することができる。例えば、ユーザに提供されるフィードバックは、任意の形態の感覚フィードバック、例えば視覚フィードバック、聴覚フィードバックまたは触覚フィードバックとすることが可能であり、ユーザからの入力は、音響入力、音声入力または触覚入力を含む任意の形態で受信できる。
当業者であれば理解するように、本発明の態様は、システム、方法またはコンピュータプログラム製品として実施してもよい。したがって、本発明の態様は、全体としてハードウェアの実施形態であってもよく、全体としてソフトウェアの実施形態(ファームウェア、常駐ソフトウェア、マイクロコード等を含む)であってもよく、本明細書において、一般に「回路」、「モジュール」、「計算機」、「装置」または「システム」と呼ぶことができる、ソフトウェアとハードウェアの態様を組み合わせた実施の形態を採用してもよい。さらに、本発明の態様は、コンピュータで読み取り可能なプログラムコードを有する、1つまたは複数のコンピュータで読み取り可能な媒体で具現化された、コンピュータプログラム製品の形態を採用してもよい。
1つまたは複数のコンピュータで読み取り可能な媒体の任意の組合せを用いてもよい。コンピュータで読み取り可能な媒体は、コンピュータで読み取り可能な信号媒体またはコンピュータで読み取り可能な記録媒体であってもよい。コンピュータで読み取り可能な記録媒体は、例えば、電子、磁気、光学、電磁気、赤外線または半導体システム、装置またはデバイス、あるいは前述の任意の適切な組合せとすることができるが、これらに限定されない。コンピュータで読み取り可能な記録媒体のより具体的な例(以下に限定されない)は、1つ以上のワイヤ、携帯用コンピュータディスケット、ハードディスク、ランダムアクセスメモリ(RAM)、リードオンリーメモリ(ROM)、消去可能プログラマブルリードオンリーメモリ(EPROMまたはフラッシュメモリ)、光ファイバ、携帯用コンパクトディスクリードオンリーメモリ(CD-ROM)、光データ記憶装置、磁気データ記憶装置または前述した任意の適切な組み合わせを含む。本文書のコンテキストにおいて、コンピュータで読み取り可能な記録媒体は、命令実行システム、装置またはデバイスによって、またはそれに関連して使用するためのプログラムを含む、またはそれを記憶できる、任意の有形媒体であってもよい。
コンピュータで読み取り可能な信号媒体には、例えば、ベースバンドで、または搬送波の一部として、コンピュータで読み取り可能なプログラムコードが具現化された伝搬データ信号を含むことができる。そのような伝播信号は、電磁、光学またはそれらの任意の適切な組み合わせを含むが、それらに限定されない、任意の様々な形態がある。コンピュータ読み取り可能な信号媒体は、コンピュータ読み取り可能な記録媒体ではなく、命令実行システム、装置または装置によって、またはそれに関連して使用するためにプログラムを通信、伝播、または移送できる、任意のコンピュータ読み取り可能な媒体であってもよい。
コンピュータで読み取り可能な媒体で具現化されたプログラムコードは、無線、有線、光ファイバケーブル、RF等、あるいは前述した任意の適切な組合せを含むが、これらに限定されない、任意の適切な媒体を用いて送信される。
本発明の態様に関する処理を実行するためのコンピュータプログラムコードは、Java、Smalltalk、C++等のオブジェクト指向プログラミング言語及び「C」プログラミング言語または類似のプログラミング言語等の従来の手続き型プログラミング言語を含む、1つ以上のプログラミング言語の任意の組み合わせで書くことができる。プログラムコードは、全体的にユーザのコンピュータで実行されてもよく、スタンドアロンソフトウェアパッケージとして部分的にユーザのコンピュータで実行されてもよく、部分的にユーザのコンピュータで実行され、かつ部分的にリモートコンピュータで実行されてもよく、全体的にリモートコンピュータまたはサーバで実行されてもよい。後者のシナリオにおいて、リモートコンピュータは、ローカルエリアネットワーク(LAN)または広域ネットワーク(WAN)を含む任意のタイプのネットワークを介してユーザのコンピュータと接続されてもよく、(例えば、インターネットサービスプロバイダを利用したインターネットを介して)外部コンピュータと接続されてもよい。
本発明の態様について、本発明の一実施形態による、方法、装置(システム)、並びにコンピュータプログラム製品のフローチャート及び/またはブロック図を参照して以下で説明する。フローチャート及び/またはブロック図の各ブロック、並びにフローチャート及び/またはブロック図のブロックにおける組合せは、コンピュータプログラム命令によって実施できることを理解されたい。これらのコンピュータプログラム命令は、コンピュータまたは他のプログラマブルデータ処理装置のプロセッサを通して実行される命令が、フローチャート及び/またはブロック図の1つまたは複数のブロックまたはモジュールに指定される機能/動作を実施するための手段を作り出すようなマシンを生成するために、汎用コンピュータ、専用コンピュータまたは他のプログラマブルデータ処理装置のプロセッサに提供される。
これらのコンピュータプログラム命令は、コンピュータで読み取り可能な媒体に格納された命令が、フローチャート及び/またはブロック図の1つまたは複数のブロックまたはモジュールに指定された機能/動作を実装する命令を含む製品を生成するように、コンピュータ、他のプログラマブルデータ処理装置または他のデバイスに、特定の方法で機能するように指示できるコンピュータで読み取り可能な媒体に格納できる。
コンピュータプログラム命令は、またコンピュータ、他のプログラマブルデータ処理装置または他のデバイスにロードされて、一連の動作ステップがコンピュータ、他のプログラマブル装置または他のデバイスで実行され、コンピュータまたは他のプログラマブル装置で実行される命令が、フローチャート及び/またはブロック図のブロックまたはモジュールに指定された機能/動作を実装するためのプロセスを提供するように、コンピュータ実装プロセスを生成できる。
本明細書で使用する「プロセッサ」という用語は、例えばCPU(central processing unit)及び/または他の処理回路を含むもの等、任意の処理装置を含むことを意図しており、「プロセッサ」という用語は1つ以上の処理装置を指すことが可能であり、処理装置に関連する様々な要素は、他の処理装置によって共有されることも理解されたい。
本明細書で使用する「メモリ」という用語は、例えば、RAM、ROM、固定メモリデバイス(例えば、ハードドライブ)、リムーバブルメモリデバイス(例えば、ディスケット)、フラッシュメモリ等、プロセッサまたはCPUに関連するメモリを含むことを意図している。このようなメモリは、コンピュータで読み取り可能な記録媒体と考えることができる。
さらに、本明細書で使用する「入力/出力装置」または「I/O装置」という用語は、例えば、処理ユニットにデータを入力するための1つまたは複数の入力装置(例えば、キーボード、マウス、スキャナ等)及び/または処理ユニットに関連する、結果を提示するための1つまたは複数の出力装置(例えば、スピーカ、ディスプレイ、プリンタなど)を含むことを意図している。
上記は、あらゆる観点において説明的(illustrative)かつ典型的(exemplary)であって限定的でないものと理解されるべきであり、本明細書で開示する本発明の範囲は、詳細な説明から決定されるべきではなく、特許法で認められた最大限の広さに基づいて解釈される特許請求の範囲から決定されるべきである。本明細書中に図示及び記載されている実施形態は、本発明の原理を説明するものにすぎず、本発明の範囲及び主旨から逸脱することなく当業者は様々な変更を実施することができることを理解されたい。当業者は、本発明の範囲及び精神から逸脱することなく、様々な他の特徴の組み合わせを実施できる。以上、本発明の態様について、特許法で要求される細部及び詳細な事項と共に説明したが、特許証で保護されることを要求する特許請求の範囲は、添付の特許請求の範囲に示されている。

Claims (20)

  1. ローリングシャッター(RS)歪み及びぼけアーティファクトを単一入力RS及びボケ画像において共に除去するためにプロセッサで実行されるコンピュータ実装方法であって、
    カメラから複数のRSぼけ画像を生成すること(801)と、
    単一ビュージョイントRS補正及びぼけ除去の畳み込みニューラルネットワーク(CNN)を訓練する訓練データを生成するために、構造及び動き認識RS歪み及びぼけレンダリングモジュールを用いることでGS鮮明画像、対応GS鮮明奥行きマップ、合成RSカメラの動きのセットからRSぼけ画像を合成すること(803)と、
    前記単一ビュージョイントRS補正及びぼけ除去のCNNを用いることで、前記単一入力RS及びぼけ画像からRS修正及びぼけ除去画像を予測すること(805)と、
    を含む方法。
  2. 単一ビュージョイントRS補正及びぼけ除去が、単一の順方向パスで実行される、請求項1に記載の方法。
  3. 訓練フェーズにおいて、前記単一ビュージョイントRS補正及びぼけ除去の畳み込みニューラルネットワーク(CNN)を訓練するための合成RSぼけ画像を生成するために、前記GS鮮明画像、前記対応GS鮮明奥行きマップ、前記合成RSカメラの動きのセットのための前記構造及び動き認識RS歪み及びぼけレンダリングモジュールを用いることをさらに含む、請求項1に記載の方法。
  4. テストフェーズにおいて、単一の順方向パスで対応RS補正及びぼけ除去画像を提供するために、前記単一ビュージョイントRS補正及びぼけ除去のCNNに前記単一RS及びぼかし画像を生成する、請求項1に記載の方法。
  5. 生成器ネットワークが、対応GS鮮明画像を予測する、請求項3に記載の方法。
  6. 識別器ネットワークが、予測されたGS鮮明画像またはグラウンドトゥルースGS鮮明画像のいずれかを取得し、その画像を「真」または「偽」のいずれかに分類する、請求項3に記載の方法。
  7. 前記生成器ネットワーク及び前記識別器ネットワークが、敵対的損失を介して共に訓練される、請求項6に記載の方法。
  8. 視覚ジオメトリ群(VGG)ネットワークの様々な層のアクティベーション間の差を最小化する、知覚的損失が追加される、請求項7に記載の方法。
  9. 前記生成器ネットワークは、エンコーダ及びデコーダを含み、前記エンコーダが前記単一入力RS及びぼけ画像からコンパクトなボトルネックの形式で単一ビューRS補正とぼけ除去との共有特徴を抽出し、前記デコーダが前記コンパクトなボトルネックをオリジナルの入力画像サイズにアップサンプリングする、請求項7に記載の方法。
  10. 単一入力ローリングシャッター(RS)及びぼけ画像におけるRS歪及びぼけアーティファクトを共に除去するための、コンピュータで読み取り可能なプログラムを有する非一時的にコンピュータで読み取り可能な記憶媒体であって、
    前記コンピュータで読み取り可能なプログラムがコンピュータで実行されると、
    カメラから複数のRSぼけ画像を生成すること(801)と、
    単一ビュージョイントRS補正及びぼけ除去の畳み込みニューラルネットワーク(CNN)を訓練する訓練データを生成するために、構造及び動き認識RS歪み及びぼけレンダリングモジュールを用いることでGS鮮明画像、対応GS鮮明奥行きマップ、合成RSカメラの動きのセットからRSぼけ画像を合成すること(803)と、
    前記単一ビュージョイントRS補正及びぼけ除去のCNNを用いることで、前記単一入力RS及びぼけ画像からRS修正及びぼけ除去画像を予測すること(805)と、
    を前記コンピュータに実行させるための、非一時的にコンピュータで読み取り可能な記憶媒体。
  11. 単一ビュージョイントRS補正及びぼけ除去が、単一の順方向パスで実行される、請求項10に記載の非一時的にコンピュータで読み取り可能な記憶媒体。
  12. 訓練フェーズにおいて、前記単一ビュージョイントRS補正及びぼけ除去の畳み込みニューラルネットワーク(CNN)を訓練するための合成RSぼけ画像を生成するために、前記GS鮮明画像、前記対応GS鮮明奥行きマップ、前記合成RSカメラの動きのセットのための前記構造及び動き認識RS歪み及びぼけレンダリングモジュールを用いることをさらに含む、請求項10に記載の非一時的にコンピュータで読み取り可能な記憶媒体。
  13. テストフェーズにおいて、単一の順方向パスで対応RS補正及びぼけ除去画像を提供するために、前記単一ビュージョイントRS補正及びぼけ除去のCNNに前記単一RS及びぼかし画像を生成する、請求項10に記載の非一時的にコンピュータで読み取り可能な記憶媒体。
  14. 生成器ネットワークが、対応GS鮮明画像を予測する、請求項12に記載の非一時的にコンピュータで読み取り可能な記憶媒体。
  15. 識別器ネットワークが、予測されたGS鮮明画像またはグラウンドトゥルースGS鮮明画像のいずれかを取得し、その画像を「真」または「偽」のいずれかに分類する、請求項12に記載の非一時的にコンピュータで読み取り可能な記憶媒体。
  16. 前記生成器ネットワーク及び前記識別器ネットワークが、敵対的損失を介して共に訓練される、請求項15に記載の非一時的にコンピュータで読み取り可能な記憶媒体。
  17. 視覚ジオメトリ群(VGG)ネットワークの様々な層のアクティベーション間の差を最小化する、知覚的損失が追加される、請求項16に記載の非一時的にコンピュータで読み取り可能な記憶媒体。
  18. 前記生成器ネットワークは、エンコーダ及びデコーダを含み、前記エンコーダが前記単一入力RS及びぼけ画像からコンパクトなボトルネックの形式で単一ビューRS補正とぼけ除去との共有特徴を抽出し、前記デコーダが前記コンパクトなボトルネックをオリジナルの入力画像サイズにアップサンプリングする、請求項16に記載の非一時的にコンピュータで読み取り可能な記憶媒体。
  19. 単一入力ローリングシャッター(RS)及びぼけ画像におけるRS歪及びぼけアーティファクトを共に除去するためのシステムであって、
    メモリと、
    カメラから複数のRSぼけ画像を生成し(801)、
    単一ビュージョイントRS補正及びぼけ除去の畳み込みニューラルネットワーク(CNN)を訓練する訓練データを生成するために、構造及び動き認識RS歪み及びぼけレンダリングモジュールを用いることでGS鮮明画像、対応GS鮮明奥行きマップ、合成RSカメラの動きのセットからRSぼけ画像を合成し(803)、
    前記単一ビュージョイントRS補正及びぼけ除去のCNNを用いることで、前記単一入力RS及びぼけ画像からRS修正及びぼけ除去画像を予測する(805)ように構成された、前記メモリと通信する1つまたは複数のプロセッサと、
    を有するシステム。
  20. 生成器ネットワークが、対応GS鮮明画像を予測し、
    識別器ネットワークが、予測されたGS鮮明画像またはグラウンドトゥルースGS鮮明画像のいずれかを取得し、その画像を「真」または「偽」のいずれかに分類し、
    前記生成器ネットワーク及び前記識別器ネットワークが、敵対的損失を介して共に訓練され
    視覚ジオメトリ群(VGG)ネットワークの様々な層のアクティベーション間の差を最小化する、知覚的損失が追加された、請求項19に記載のシステム。
JP2022516141A 2019-11-22 2020-11-06 ジョイントローリングシャッター補正及び画像ぼけ除去 Active JP7357150B2 (ja)

Applications Claiming Priority (5)

Application Number Priority Date Filing Date Title
US201962939016P 2019-11-22 2019-11-22
US62/939,016 2019-11-22
US17/090,508 2020-11-05
US17/090,508 US11599974B2 (en) 2019-11-22 2020-11-05 Joint rolling shutter correction and image deblurring
PCT/US2020/059398 WO2021101732A1 (en) 2019-11-22 2020-11-06 Joint rolling shutter correction and image deblurring

Publications (2)

Publication Number Publication Date
JP2022547594A true JP2022547594A (ja) 2022-11-14
JP7357150B2 JP7357150B2 (ja) 2023-10-05

Family

ID=75974974

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2022516141A Active JP7357150B2 (ja) 2019-11-22 2020-11-06 ジョイントローリングシャッター補正及び画像ぼけ除去

Country Status (4)

Country Link
US (1) US11599974B2 (ja)
JP (1) JP7357150B2 (ja)
DE (1) DE112020005730T5 (ja)
WO (1) WO2021101732A1 (ja)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2023070447A1 (zh) * 2021-10-28 2023-05-04 京东方科技集团股份有限公司 模型训练方法、图像处理方法、计算处理设备及非瞬态计算机可读介质
AT526018A2 (de) * 2022-03-29 2023-10-15 Vexcel Imaging Gmbh Verfahren zur Bildkorrektur von Bildunschärfe in einer digitalen Bildaufnahme
CN115115552B (zh) * 2022-08-25 2022-11-18 腾讯科技(深圳)有限公司 图像矫正模型训练及图像矫正方法、装置和计算机设备

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20140267801A1 (en) * 2013-03-15 2014-09-18 Google Inc. Cascaded camera motion estimation, rolling shutter detection, and camera shake detection for video stabilization
US20160292882A1 (en) * 2013-11-18 2016-10-06 Universite De Nice (Uns) Method for estimating the speed of movement of a camera
JP2019114262A (ja) * 2017-12-22 2019-07-11 キヤノンメディカルシステムズ株式会社 医用画像処理装置、医用画像処理プログラム、学習装置及び学習プログラム

Family Cites Families (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2011053678A1 (en) * 2009-10-28 2011-05-05 The Trustees Of Columbia University In The City Of New York Methods and systems for coded rolling shutter
US8866927B2 (en) * 2012-12-13 2014-10-21 Google Inc. Determining an image capture payload burst structure based on a metering image capture sweep
US8995784B2 (en) * 2013-01-17 2015-03-31 Google Inc. Structure descriptors for image processing
WO2015136327A1 (en) * 2014-03-12 2015-09-17 Sony Corporation Method, system and computer program product for debluring images
US9652833B2 (en) * 2014-03-18 2017-05-16 Honeywell International, Inc. Point spread function estimation for motion invariant images
US10176558B2 (en) * 2014-12-29 2019-01-08 Nokia Technologies Oy Method, apparatus and computer program product for motion deblurring of images
KR101810956B1 (ko) * 2016-06-08 2017-12-26 엠텍비젼 주식회사 롤링 셔터 구동 방식의 이미지 센서를 구비한 촬상 장치 및 그 조명 제어 방법
WO2018053340A1 (en) * 2016-09-15 2018-03-22 Twitter, Inc. Super resolution using a generative adversarial network
US10586310B2 (en) 2017-04-06 2020-03-10 Pixar Denoising Monte Carlo renderings using generative adversarial neural networks
KR20190064882A (ko) * 2017-12-01 2019-06-11 한국전자통신연구원 딥러닝 기반 차량용 영상 처리 방법
US20190385283A1 (en) * 2018-06-18 2019-12-19 Honeywell International Inc. Image pre-processing for object recognition
JP7346076B2 (ja) * 2019-05-14 2023-09-19 キヤノン株式会社 制御装置、レンズ装置、撮像装置、制御方法、および、プログラム

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20140267801A1 (en) * 2013-03-15 2014-09-18 Google Inc. Cascaded camera motion estimation, rolling shutter detection, and camera shake detection for video stabilization
US20160292882A1 (en) * 2013-11-18 2016-10-06 Universite De Nice (Uns) Method for estimating the speed of movement of a camera
JP2019114262A (ja) * 2017-12-22 2019-07-11 キヤノンメディカルシステムズ株式会社 医用画像処理装置、医用画像処理プログラム、学習装置及び学習プログラム

Also Published As

Publication number Publication date
WO2021101732A1 (en) 2021-05-27
US20210158490A1 (en) 2021-05-27
JP7357150B2 (ja) 2023-10-05
US11599974B2 (en) 2023-03-07
DE112020005730T5 (de) 2022-09-15

Similar Documents

Publication Publication Date Title
JP7319390B2 (ja) ぼけた画像/ビデオを用いたsfm/slamへの適用を有する畳み込みニューラルネットワークを使用した画像/ビデオのボケ除去
CN110062934B (zh) 使用神经网络确定图像中的结构和运动
JP7357150B2 (ja) ジョイントローリングシャッター補正及び画像ぼけ除去
WO2022166872A1 (zh) 一种特效展示方法、装置、设备及介质
CN113811920A (zh) 分布式姿势估计
US20220222776A1 (en) Multi-Stage Multi-Reference Bootstrapping for Video Super-Resolution
JP7249372B2 (ja) 対象をラベリングするための方法及び装置、電子デバイス、コンピュータ可読記憶媒体及びコンピュータプログラム
CN113569825B (zh) 视频监控方法、装置、电子设备和计算机可读介质
CN114303177A (zh) 通过迁移学习生成具有不同疲劳程度的视频数据集的系统和方法
CN115226406A (zh) 图像生成装置、图像生成方法、记录介质生成方法、学习模型生成装置、学习模型生成方法、学习模型、数据处理装置、数据处理方法、推断方法、电子装置、生成方法、程序和非暂时性计算机可读介质
CN110059623B (zh) 用于生成信息的方法和装置
US11132586B2 (en) Rolling shutter rectification in images/videos using convolutional neural networks with applications to SFM/SLAM with rolling shutter images/videos
US20210065351A1 (en) Object count estimation apparatus, object count estimation method, and computer program product
JP2023509866A (ja) 画像処理方法及び装置
WO2023103720A1 (zh) 视频特效处理方法、装置、电子设备及程序产品
KR20220015964A (ko) 시각적 주행 거리 측정 애플리케이션들을 위한 손실된 이미지 특징 복원을 위한 방법 및 시스템
CN113132795A (zh) 图像处理方法及装置
CN112714263B (zh) 视频生成方法、装置、设备及存储介质
CN116934577A (zh) 一种风格图像生成方法、装置、设备及介质
CN111833459B (zh) 一种图像处理方法、装置、电子设备及存储介质
US11810336B2 (en) Object display method and apparatus, electronic device, and computer readable storage medium
CN111310595A (zh) 用于生成信息的方法和装置
US20220327663A1 (en) Video Super-Resolution using Deep Neural Networks
CN113703704B (zh) 界面显示方法、头戴式显示设备和计算机可读介质
CN112651909B (zh) 图像合成方法、装置、电子设备及计算机可读存储介质

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20220311

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20230323

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20230323

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20230530

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20230912

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20230925

R150 Certificate of patent or registration of utility model

Ref document number: 7357150

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

S111 Request for change of ownership or part of ownership

Free format text: JAPANESE INTERMEDIATE CODE: R313113

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350