JP2022547594A

JP2022547594A - ジョイントローリングシャッター補正及び画像ぼけ除去

Info

Publication number: JP2022547594A
Application number: JP2022516141A
Authority: JP
Inventors: クオック－フイトラン、; ビンビンズオン、; パンジ、; マンモハンチャンドラカー、
Original assignee: NEC Laboratories America Inc
Current assignee: NEC Laboratories America Inc
Priority date: 2019-11-22
Filing date: 2020-11-06
Publication date: 2022-11-14
Anticipated expiration: 2040-11-06
Also published as: WO2021101732A1; US20210158490A1; JP7357150B2; US11599974B2; DE112020005730T5

Abstract

ローリングシャッター（ＲＳ）歪み及びぼけアーティファクトを単一入力ＲＳ及びボケ画像において共に除去するための方法を提示する。本方法は、カメラから複数のＲＳぼけ画像を生成すること（８０１）と、単一ビュージョイントＲＳ補正及びぼけ除去の畳み込みニューラルネットワーク（ＣＮＮ）を訓練する訓練データを生成するために、構造及び動き認識ＲＳ歪み及びぼけレンダリングモジュールを用いることでＧＳ鮮明画像、対応ＧＳ鮮明奥行きマップ、合成ＲＳカメラの動きのセットからＲＳぼけ画像を合成すること（８０３）と、単一ビュージョイントＲＳ補正及びぼけ除去のＣＮＮを用いることで、単一入力ＲＳ及びぼけ画像からＲＳ修正及びぼけ除去画像を予測すること（８０５）とを含む。【選択図】図８

Description

この出願は、２０１９年１１月２２日に出願された米国仮特許出願第６２／９３９，０１６号及び２０２０年１１月５日に出願された米国特許出願第１７／０９０，５０８号を基礎とする優先権を主張し、その開示の全てをここに取り込む。

本発明は、合成ローリングシャッター（ＲＳ：rolling shutter）ぼけ画像を生成するための構造及び動き認識（structure-and-motion-aware）ＲＳ歪み及びぼけレンダリングモジュールに関し、何より単一入力ＲＳ及びぼけ画像からＲＳ歪み及びぼけアーティファクトを同時に除去するためのエンドツーエンド学習アプローチに関する。

コスト上の利点を有する相補型金属酸化物半導体（ＣＭＯＳ:Complementary Metal Oxide Semiconductor）センサは、例えばウェブカメラ、携帯電話機、タブレット等の大多数の消費者向けカメラで採用されている。しかしながら、ＣＭＯＳセンサによる１つの欠点はローリングシャッター（ＲＳ）機構によって動作することである。代替手段のグローバルシャッター（ＧＳ）のように同時ではなく、ＲＳはセンサアレイの各行を（連続する複数の行間で一定の時間遅延を伴って）順次露光する。ＲＳカメラの場合、露光期間中にカメラが動くと、撮影画像にＲＳ歪みが生じる可能性がある。これは、特に屋内シーンのような暗い場所では、通常、ぼけアーティファクトと組み合わされる。

単一入力ローリングシャッター（ＲＳ）及びぼけ画像におけるＲＳ歪及びぼけアーティファクトを共に除去するためのコンピュータ実装方法が提示される。本方法は、ＧＳ鮮明画像、対応ＧＳ鮮明奥行きマップ、合成ＲＳカメラの動きのセットから合成ＲＳぼけ画像を生成するための構造及び動き認識ＲＳ歪み及びぼけレンダリングモジュール、並びに単一入力ＲＳ及びぼけ画像からＲＳ修正及びぼけ除去画像を予測するための単一ビュージョイントＲＳ補正及びぼけ除去のネットワークを含む。

単一入力ローリングシャッター（ＲＳ）及びぼけ画像におけるＲＳ歪及びぼけアーティファクトを共に除去するための、コンピュータで読み取り可能なプログラムを有する非一時的にコンピュータで読み取り可能な記憶媒体が提示される。コンピュータで読み取り可能なプログラムがコンピュータで実行されると、ＧＳ鮮明画像、対応ＧＳ鮮明奥行きマップ、合成ＲＳカメラの動きのセットから合成ＲＳぼけ画像を生成するための構造及び動き認識ＲＳ歪み及びぼけレンダリングモジュール、並びに単一入力ＲＳ及びぼけ画像からＲＳ修正及びぼけ除去画像を予測するための単一ビュージョイントＲＳ補正及びぼけ除去のネットワークをコンピュータに実行させる。

単一入力ローリングシャッター（ＲＳ）及びぼけ画像におけるＲＳ歪及びぼけアーティファクトを共に除去するためのシステムが提示される。本システムは、メモリと、構造及び動き認識ＲＳ歪み及びぼけレンダリングモジュールによって、ＧＳ鮮明画像、対応ＧＳ鮮明奥行きマップ、合成ＲＳカメラの動きのセットから合成ＲＳぼけ画像を生成し、単一ビュージョイントＲＳ補正及びぼけ除去のネットワークを用いて単一入力ＲＳ及びぼけ画像からＲＳ修正及びぼけ除去画像を予測するように構成された、上記メモリと通信する１つまたは複数のプロセッサと、を有する。

これら及び他の特徴並びに利点は、以下の典型的な実施形態の詳細な説明を添付の図面と併せて読むことで明らかになるであろう。

本開示では、後述するように、以下の図面を参照しながら好ましい実施形態について詳細に説明する。

図１は、本発明の一実施形態による、構造及び動き認識ローリングシャッター（ＲＳ）歪み及びぼけレンダリングモジュール、並びに単一ビュージョイントＲＳ補正及びぼけ除去のネットワークのブロック／フロー図である。

図２は、本発明の一実施形態による、単一ビュージョイントＲＳ補正及びぼけ除去のネットワークの例示的なアーキテクチャのブロック／フロー図である。

図３は、本発明の一実施形態による、図２のジェネレータネットワークのための例示的なアーキテクチャのブロック／フロー図である。

図４は、本発明の一実施形態による、ＲＳぼけビデオのための同時ローカライゼーション及びマッピング（ＳＥＡＭ）に対するＲＳ補正及びぼけ除去の方法の適用例のブロック／フロー図である。

図５は、本発明の一実施形態による、ＲＳぼけ画像のためのＳＦＭ（Structure from Motion）に対するＲＳ補正及びぼけ除去の方法の適用例のブロック／フロー図である。

図６は、本発明の一実施形態による、構造及び動き認識ローリングシャッター（ＲＳ）歪み及びぼけレンダリングモジュール及び単一ビュージョイントＲＳ補正及びぼけ除去のネットワークの実際の適用例のブロック／フロー図である。

図７は、本発明の一実施形態による、ＲＳ補正及びぼけ除去のための例示的な処理システムのブロック／フロー図である。

図８は、本発明の一実施形態による、ＲＳ補正及びぼけ除去のための例示的な方法のブロック／フロー図である。

本発明は、単一入力ＲＳ及びぼけ画像におけるローリングシャッター（ＲＳ）歪み及びぼけアーティファクトを共に除去するためのエンドツーエンド学習アプローチを導入する。さらに、本発明は、本方法を訓練するために使用できる、本物そっくりなＲＳ及びぼけ画像を合成するための手順を導入する。最後に、例示的な実施形態は、ＲＳぼけ画像のためのＳＦＭ（Structure from Motion）、並びにＲＳぼけビデオのためのＳＬＡＭ（Simultaneous Localization and Mapping）の目標に向けた本発明の適用例を示す。

本発明は、単一入力ＲＳ及びぼけ画像からＲＳ歪み及びぼけアーティファクトを同時に除去するためのエンドツーエンド学習アプローチを導入する。さらに、本発明は、畳み込みニューラルネットワーク（ＣＮＮ：convolutional neural network）を訓練するための多数のＲＳ及びぼけ画像を生成する新しいＲＳ及びぼけ画像合成手順を導入する。

例示的な実施形態は、単一ビュージョイントＲＳ補正及びぼけ除去を単一の順方向パスで実行するために学習する、ＣＮＮアーキテクチャを導入する。単一ビューＲＳ補正とぼけ除去のタスクは密接に繋がっているため、例示的なＣＮＮは共有される特徴を抽出し、それらに同時に取り組むことが有利である。ＣＮＮを訓練するための多様で本物そっくりなＲＳ画像及びぼけ画像の大規模なデータセットを得るために、例示的な実施形態は、レンダリング中のカメラの動きと奥行きマップの両方を利用する、構造及び動き認識ＲＳ歪み及びぼけ合成パイプラインを導入する。さらに、例示的な実施形態は、ＲＳぼけ画像／ビデオのためのＳＦＭ／ＳＬＡＭに対するアプローチ案を適用する。

図１は、構造及び動き認識ＲＳ歪み及びぼけレンダリングモジュール、並びに単一ビュージョイントＲＳ補正及びぼけ除去のネットワークを示している。訓練フェーズ１５０において、合成ＲＳぼけ画像１２０を生成するために、一組のグローバルシャッター（ＧＳ）鮮明画像１１２、対応ＧＳ鮮明奥行きマップ１０４及び合成ＲＳカメラの動き１０２が、構造及び動き認識ＲＳ歪み及びぼけレンダリングモジュール１１０によって用いられる。具体的には、例示的な実施形態は、奥行き及びフレームにおけるカメラの動きを用いて２Ｄモーションフローを計算し、それを用いて局所領域における画素を平均化（ぼけを生成）して移動（ＲＳ歪みを生成）する。次に、単一ビュージョイントＲＳ補正及びぼけ除去のネットワーク１３０をエンドツーエンドで訓練するために、合成されたＲＳぼけ画像１２０及びオリジナルのＧＳ鮮明画像１１２が入力データ及びグラウンドトゥルース教師として用いられる。テスト時間１６０において、単一の本物そっくりなＲＳぼけ画像１４０がネットワーク１３０に入力され、単一の順方向パスにおいて対応ＲＳ修正及びぼけ除去画像１４５を生成する。

訓練フェーズ１５０において、入力ＲＳぼけ画像２０２が与えられると、生成器ネットワーク２０４は、対応ＧＳ鮮明画像２０６を予測する。識別器ネットワーク２１２は、予測ＧＳ鮮明画像２０６またはグラウンドトゥルースＧＳ鮮明画像２０８のいずれかを取り込み、それが「偽」（予測画像２０６）または「真」(グラウンドトゥルース画像２０８)であるか否かを分類することを目的とする。これら２つのサブネットワークは、敵対的損失（adversarial loss）２１４を介して共に訓練される。さらに、例示的な実施形態は、予測画像２０６及びグラウンドトゥルース画像２０８に適用される（例えば、ＩｍａｇｅＮｅｔで事前訓練された）視覚ジオメトリグループ（ＶＧＧ：visual geometry group）ネットワークの様々な層（ｃｏｎｖ１＿１、ｃｏｎｖ２＿１、ｃｏｎｖ３＿１、ｃｏｎｖ４＿１、ｃｏｎｖ５＿１）のアクティベーション間の差を最小化する知覚的（perceptual loss）損失２１０を追加する。テスト時間１６０では、生成器ネットワーク２０４のみが必要とされ、識別器ネットワーク２１２は廃棄される。生成器ネットワーク２０４のアーキテクチャの一例は図３で示され、ｐｉｘ２ｐｉｘＨＤのマルチスケール識別器ネットワークが識別器ネットワーク２１２として使用できる。

図３は、本発明の一実施形態による、図２の生成器ネットワークのための例示的なアーキテクチャのブロック／フロー図である。

生成器ネットワーク２０４は、入力ＲＳぼけ画像２０２からコンパクトなボトルネックの形式で、単一ビューＲＳ補正とぼけ除去との共有特徴を抽出するエンコーダ３２５と、コンパクトなボトルネックをオリジナルの入力画像サイズにアップサンプリングし、出力予測ＧＳ鮮明画像２０６を生成するデコーダ３３５とを有する。例示的な実施形態は、エンコーダ３２５とデコーダ３３５との間の情報共有を可能にするために、エンコーダ３２５とデコーダ３３５とのレイヤ間にスキップ接続３０２を追加する。全ての畳み込み層３０５は、１×１ウィンドウサイズを用いる最終段の畳み込み層３２０を除いて、３×３のウィンドウサイズを用いる。ボックスの下の数字はチャンネル数を表している。ダウンサンプリングは、ストライド２の２×２最大値プーリングによって行われる。アップ畳み込み層には、特徴チャネルの数を半分にするアップサンプリング及び２×２畳み込みを含む。エンコーダ３２５及びデコーダ３３５は、畳み込み層３０５、プーリング層３１０及びアップ畳み込み層３１５を含む。

図４は、本発明の一実施形態による、ＲＳぼけビデオのための同時ローカライゼーション及びマッピング（ＳＬＡＭ）に対するＲＳ補正及びぼけ除去の方法の適用例のブロック／フロー図である。

ＲＳぼけビデオのためのＳＬＡＭに対するＲＳ補正及びぼけ除去の方法の適用例を図４に示す。入力ＲＳぼけビデオ４１０は、ＲＳ歪み及びぼけアーティファクトを有する連続画像フレームのセットである。ＲＳ歪み及びぼけアーティファクトを除去し、対応ＲＳ修正及びぼけ除去のフレーム４３０を得るために、各フレームは、提案するＲＳ補正及びぼけ除去法４２０（例えば、ＲＳ補正及びぼけ除去）にそれぞれ渡される。ＲＳ修正フレーム及びぼけ除去フレーム４３０は、ビデオで観察されるカメラの軌跡及びシーン構造４５０を推定するために、ＳＬＡＭモジュール４４０に送られる。

ＲＳぼけ画像のためのＳＦＭに対するＲＳ補正及びぼけ除去の方法の適用例を図５に示す。例えば、ＧｏｏｇｌｅＩｍａｇｅＳｅａｒｃｈから得られるＲＳぼけ画像５１０の順序不同のセットは、ＲＳぼけ画像を備えるＳＦＭ用の入力として使用できる。ＲＳ歪み及びぼけアーティファクトを除去し、対応ＲＳ修正及びぼけ除去画像５３０を得るために、各画像は、提案するＲＳ補正及びぼけ除去法５２０（例えば、ＲＳ補正及びぼけ除去）に個別に渡される。ＲＳ修正画像及びぼけ除去画像５３０は、画像内で観察されるカメラ姿勢及びシーン構造５５０を推定するためにＳＦＭモジュール５４０に送られる。

図６は、本発明の一実施形態による、構造及び動き認識ローリングシャッター（ＲＳ）歪み及びぼけレンダリングモジュール、並びに単一ビュージョイントＲＳ補正及びぼけ除去のネットワークの実際の適用例のブロック／フロー図である。

１つの実際の適用例において、ユーザ６０２は、画像６０６をキャプチャするためにカメラ等のキャプチャ装置６０４を用いる。画像６０６は、ぼけ及びＲＳ歪みを含むことができる。本発明のＣＮＮアーキテクチャ６０８は、キャプチャされた画像６０６からぼけ及びＲＳ効果を推定し、除去するために使用できる。ＣＮＮアーキテクチャ６０８は、ＲＳ歪みのない鮮明な画像６１０をユーザ６０２に出力することを可能にする。本発明の例示的な実施形態は、単一入力ＲＳ及びぼけ画像におけるＲＳ歪み及びぼけアーティファクトを共に除去するためのエンドツーエンド学習手法を導入する。さらに、本発明は、この方法を訓練するために使用できる、本物そっくりなＲＳ及びぼけ画像を合成するための手順を導入する。最後に、例示的な実施形態は、ＲＳぼけ画像のためのＳＦＭ、並びにＲＳぼけビデオのためのＳＬＡＭの目標に向けた本発明の適用例を示す。ＣＮＮアーキテクチャ６０８は、単一の順方向パスで単一ビュージョイントＲＳ補正及びぼけ除去を実行することを学習する。単一ビューＲＳ補正及びぼけ除去のタスクは密接に繋がっているため、ＣＮＮ６０８は共有された特徴を抽出し、それらに同時に取り組むことが有利である。

処理システムは、システムバス７０２を介して他の構成要素と動作可能に接続された、少なくとも１つのプロセッサまたはプロセッサ装置（ＣＰＵ）７０４を含む。システムバス７０２には、キャッシュ７０６、リードオンリメモリ７０８、ランダムアクセスメモリ７１０、入力／出力（Ｉ／Ｏ）アダプタ７２０、ネットワークアダプタ７３０、ユーザインターフェースアダプタ７４０及びディスプレイアダプタ７５０が動作可能に接続されている。バス７０２には、１つまたは複数のカメラ７６０を接続できる。カメラ７６０は、訓練モジュール１５０及びテストモジュール１６０を用いることで、ＲＳ補正及びぼけ除去のために、構造及び動き認識ローリングシャッター（ＲＳ）歪み及びぼけレンダリングモジュール、並びに単一ビュージョイントＲＳ補正及びぼけ除去のネットワーク７７０を用いることができる。

記憶装置７２２は、Ｉ／Ｏアダプタ７２０によってシステムバス７０２に動作可能に接続されている。記憶装置７２２は、ディスク記憶装置（例えば、磁気または光ディスク記憶装置）、固体磁気装置等のうちのいずれであってもよい。

トランシーバ７３２は、ネットワークアダプタ７３０によってシステムバス７０２に動作可能に接続されている。

複数のユーザ入力装置７４２は、ユーザインタフェースアダプタ７４０によってシステムバス７０２に動作可能に接続されている。ユーザ入力装置７４２は、キーボード、マウス、キーパッド、画像キャプチャ装置、モーションセンシングデバイス、マイクロフォン、あるいはこれらの装置のうちの少なくとも２つのデバイスの機能を組み込んだデバイス等のいずれであってもよい。もちろん、本発明の原理の趣旨を維持する限りにおいて、他のタイプの入力装置を使用することも可能である。複数のユーザ入力装置７４２は、同じタイプのユーザ入力装置であってもよく、異なるタイプのユーザ入力装置であってもよい。ユーザ入力装置７４２は、処理システムに情報を入力し、処理システムから情報を出力するために使用される。

ディスプレイ装置７５２は、ディスプレイアダプタ７５０によってシステムバス７０２に動作可能に接続されている。

もちろん、処理システムは、当業者であれば容易に思いつくような他の要素（不図示）を含んでいてもよく、特定の要素を省略してもよい。例えば、当業者であれば容易に理解できるが、処理システムには、その詳細な実装に応じて他の様々な入力装置及び／または出力装置を含むことができる。例えば、無線及び／または有線による種々の入力装置及び／または出力装置を使用できる。さらに、当業者であれば容易に理解できるが、様々な構成において追加のプロセッサ、コントローラ、メモリ等を用いることも可能である。処理システムの上記及び他の変形例は、本明細書で提供される本原理の教示によって当業者であれば容易に考えられるであろう。

ブロック８０１において、カメラから複数のＲＳぼけ画像を生成する。

ブロック８０３において、単一ビュージョイントＲＳ補正及びぼけ除去の畳み込みニューラルネットワーク（ＣＮＮ）を訓練する訓練データを生成するために、構造及び動き認識ＲＳ歪み及びぼけレンダリングモジュールを用いることで、ＧＳ鮮明画像、対応ＧＳ鮮明奥行きマップ、合成ＲＳカメラの動きのセットからＲＳぼけ画像を合成する。

ブロック８０５において、単一ビュージョイントＲＳ補正及びぼけ除去のＣＮＮを用いることで、単一入力ＲＳ及びぼけ画像からＲＳ修正及びぼけ除去画像を予測する。

本明細書で用いる「データ」、「コンテンツ」、「情報」及び同様の用語は、様々な例示的な実施形態によって取得され、送信され、受信され、表示され、及び／または格納されることが可能なデータを示すために、交換可能に使用できる。したがって、これらの用語の使用は、開示の主旨及び範囲を制限するものと解釈されるべきではない。さらに、本明細書に別の計算デバイスからデータを受信するための計算デバイスが記載されている場合、データは、別の計算デバイスから直接受信してもよく、１つ以上の中間計算デバイス、例えば１つ以上のサーバ、リレー、ルータ、ネットワークアクセスポイント、基地局等を介して間接的に受信してもよい。同様に、本明細書にデータを別の計算デバイスに送信するための計算デバイスが記載されている場合、データは、別の計算データに直接送信してもよく、例えば、１つ以上のサーバ、リレー、ルータ、ネットワークアクセスポイント、基地局及び／または同様のもの等の１つ以上の中間計算デバイスを介して間接的に送信してもよい。

ユーザとのインタラクションを提供するための、本明細書に記載されている実施形態は、ユーザに情報を表示するためのディスプレイデバイス、例えば、ＣＲＴ（cathode ray tube）またはＬＣＤ（liquid crystal display）モニタ、キーボード、ユーザがコンピュータに入力できるポインティングデバイス、例えばマウスまたはトラックボールを有するコンピュータで実施できる。他の種類の装置もユーザとのインタラクションを提供するために使用することができる。例えば、ユーザに提供されるフィードバックは、任意の形態の感覚フィードバック、例えば視覚フィードバック、聴覚フィードバックまたは触覚フィードバックとすることが可能であり、ユーザからの入力は、音響入力、音声入力または触覚入力を含む任意の形態で受信できる。

当業者であれば理解するように、本発明の態様は、システム、方法またはコンピュータプログラム製品として実施してもよい。したがって、本発明の態様は、全体としてハードウェアの実施形態であってもよく、全体としてソフトウェアの実施形態（ファームウェア、常駐ソフトウェア、マイクロコード等を含む）であってもよく、本明細書において、一般に「回路」、「モジュール」、「計算機」、「装置」または「システム」と呼ぶことができる、ソフトウェアとハードウェアの態様を組み合わせた実施の形態を採用してもよい。さらに、本発明の態様は、コンピュータで読み取り可能なプログラムコードを有する、１つまたは複数のコンピュータで読み取り可能な媒体で具現化された、コンピュータプログラム製品の形態を採用してもよい。

１つまたは複数のコンピュータで読み取り可能な媒体の任意の組合せを用いてもよい。コンピュータで読み取り可能な媒体は、コンピュータで読み取り可能な信号媒体またはコンピュータで読み取り可能な記録媒体であってもよい。コンピュータで読み取り可能な記録媒体は、例えば、電子、磁気、光学、電磁気、赤外線または半導体システム、装置またはデバイス、あるいは前述の任意の適切な組合せとすることができるが、これらに限定されない。コンピュータで読み取り可能な記録媒体のより具体的な例（以下に限定されない）は、１つ以上のワイヤ、携帯用コンピュータディスケット、ハードディスク、ランダムアクセスメモリ（ＲＡＭ）、リードオンリーメモリ（ＲＯＭ）、消去可能プログラマブルリードオンリーメモリ（ＥＰＲＯＭまたはフラッシュメモリ）、光ファイバ、携帯用コンパクトディスクリードオンリーメモリ（ＣＤ－ＲＯＭ）、光データ記憶装置、磁気データ記憶装置または前述した任意の適切な組み合わせを含む。本文書のコンテキストにおいて、コンピュータで読み取り可能な記録媒体は、命令実行システム、装置またはデバイスによって、またはそれに関連して使用するためのプログラムを含む、またはそれを記憶できる、任意の有形媒体であってもよい。

コンピュータで読み取り可能な信号媒体には、例えば、ベースバンドで、または搬送波の一部として、コンピュータで読み取り可能なプログラムコードが具現化された伝搬データ信号を含むことができる。そのような伝播信号は、電磁、光学またはそれらの任意の適切な組み合わせを含むが、それらに限定されない、任意の様々な形態がある。コンピュータ読み取り可能な信号媒体は、コンピュータ読み取り可能な記録媒体ではなく、命令実行システム、装置または装置によって、またはそれに関連して使用するためにプログラムを通信、伝播、または移送できる、任意のコンピュータ読み取り可能な媒体であってもよい。

コンピュータで読み取り可能な媒体で具現化されたプログラムコードは、無線、有線、光ファイバケーブル、ＲＦ等、あるいは前述した任意の適切な組合せを含むが、これらに限定されない、任意の適切な媒体を用いて送信される。

本発明の態様に関する処理を実行するためのコンピュータプログラムコードは、Ｊａｖａ、Ｓｍａｌｌｔａｌｋ、Ｃ＋＋等のオブジェクト指向プログラミング言語及び「Ｃ」プログラミング言語または類似のプログラミング言語等の従来の手続き型プログラミング言語を含む、１つ以上のプログラミング言語の任意の組み合わせで書くことができる。プログラムコードは、全体的にユーザのコンピュータで実行されてもよく、スタンドアロンソフトウェアパッケージとして部分的にユーザのコンピュータで実行されてもよく、部分的にユーザのコンピュータで実行され、かつ部分的にリモートコンピュータで実行されてもよく、全体的にリモートコンピュータまたはサーバで実行されてもよい。後者のシナリオにおいて、リモートコンピュータは、ローカルエリアネットワーク（ＬＡＮ）または広域ネットワーク（ＷＡＮ）を含む任意のタイプのネットワークを介してユーザのコンピュータと接続されてもよく、（例えば、インターネットサービスプロバイダを利用したインターネットを介して）外部コンピュータと接続されてもよい。

本発明の態様について、本発明の一実施形態による、方法、装置（システム）、並びにコンピュータプログラム製品のフローチャート及び／またはブロック図を参照して以下で説明する。フローチャート及び／またはブロック図の各ブロック、並びにフローチャート及び／またはブロック図のブロックにおける組合せは、コンピュータプログラム命令によって実施できることを理解されたい。これらのコンピュータプログラム命令は、コンピュータまたは他のプログラマブルデータ処理装置のプロセッサを通して実行される命令が、フローチャート及び／またはブロック図の１つまたは複数のブロックまたはモジュールに指定される機能／動作を実施するための手段を作り出すようなマシンを生成するために、汎用コンピュータ、専用コンピュータまたは他のプログラマブルデータ処理装置のプロセッサに提供される。

これらのコンピュータプログラム命令は、コンピュータで読み取り可能な媒体に格納された命令が、フローチャート及び／またはブロック図の１つまたは複数のブロックまたはモジュールに指定された機能／動作を実装する命令を含む製品を生成するように、コンピュータ、他のプログラマブルデータ処理装置または他のデバイスに、特定の方法で機能するように指示できるコンピュータで読み取り可能な媒体に格納できる。

コンピュータプログラム命令は、またコンピュータ、他のプログラマブルデータ処理装置または他のデバイスにロードされて、一連の動作ステップがコンピュータ、他のプログラマブル装置または他のデバイスで実行され、コンピュータまたは他のプログラマブル装置で実行される命令が、フローチャート及び／またはブロック図のブロックまたはモジュールに指定された機能／動作を実装するためのプロセスを提供するように、コンピュータ実装プロセスを生成できる。

本明細書で使用する「プロセッサ」という用語は、例えばＣＰＵ（central processing unit）及び／または他の処理回路を含むもの等、任意の処理装置を含むことを意図しており、「プロセッサ」という用語は１つ以上の処理装置を指すことが可能であり、処理装置に関連する様々な要素は、他の処理装置によって共有されることも理解されたい。

本明細書で使用する「メモリ」という用語は、例えば、ＲＡＭ、ＲＯＭ、固定メモリデバイス（例えば、ハードドライブ）、リムーバブルメモリデバイス（例えば、ディスケット）、フラッシュメモリ等、プロセッサまたはＣＰＵに関連するメモリを含むことを意図している。このようなメモリは、コンピュータで読み取り可能な記録媒体と考えることができる。

さらに、本明細書で使用する「入力／出力装置」または「Ｉ／Ｏ装置」という用語は、例えば、処理ユニットにデータを入力するための１つまたは複数の入力装置（例えば、キーボード、マウス、スキャナ等）及び／または処理ユニットに関連する、結果を提示するための１つまたは複数の出力装置（例えば、スピーカ、ディスプレイ、プリンタなど）を含むことを意図している。

上記は、あらゆる観点において説明的（illustrative）かつ典型的（exemplary）であって限定的でないものと理解されるべきであり、本明細書で開示する本発明の範囲は、詳細な説明から決定されるべきではなく、特許法で認められた最大限の広さに基づいて解釈される特許請求の範囲から決定されるべきである。本明細書中に図示及び記載されている実施形態は、本発明の原理を説明するものにすぎず、本発明の範囲及び主旨から逸脱することなく当業者は様々な変更を実施することができることを理解されたい。当業者は、本発明の範囲及び精神から逸脱することなく、様々な他の特徴の組み合わせを実施できる。以上、本発明の態様について、特許法で要求される細部及び詳細な事項と共に説明したが、特許証で保護されることを要求する特許請求の範囲は、添付の特許請求の範囲に示されている。

Claims

ローリングシャッター（ＲＳ）歪み及びぼけアーティファクトを単一入力ＲＳ及びボケ画像において共に除去するためにプロセッサで実行されるコンピュータ実装方法であって、
カメラから複数のＲＳぼけ画像を生成すること（８０１）と、
単一ビュージョイントＲＳ補正及びぼけ除去の畳み込みニューラルネットワーク（ＣＮＮ）を訓練する訓練データを生成するために、構造及び動き認識ＲＳ歪み及びぼけレンダリングモジュールを用いることでＧＳ鮮明画像、対応ＧＳ鮮明奥行きマップ、合成ＲＳカメラの動きのセットからＲＳぼけ画像を合成すること（８０３）と、
前記単一ビュージョイントＲＳ補正及びぼけ除去のＣＮＮを用いることで、前記単一入力ＲＳ及びぼけ画像からＲＳ修正及びぼけ除去画像を予測すること（８０５）と、
を含む方法。
単一ビュージョイントＲＳ補正及びぼけ除去が、単一の順方向パスで実行される、請求項１に記載の方法。
訓練フェーズにおいて、前記単一ビュージョイントＲＳ補正及びぼけ除去の畳み込みニューラルネットワーク（ＣＮＮ）を訓練するための合成ＲＳぼけ画像を生成するために、前記ＧＳ鮮明画像、前記対応ＧＳ鮮明奥行きマップ、前記合成ＲＳカメラの動きのセットのための前記構造及び動き認識ＲＳ歪み及びぼけレンダリングモジュールを用いることをさらに含む、請求項１に記載の方法。
テストフェーズにおいて、単一の順方向パスで対応ＲＳ補正及びぼけ除去画像を提供するために、前記単一ビュージョイントＲＳ補正及びぼけ除去のＣＮＮに前記単一ＲＳ及びぼかし画像を生成する、請求項１に記載の方法。
生成器ネットワークが、対応ＧＳ鮮明画像を予測する、請求項３に記載の方法。
識別器ネットワークが、予測されたＧＳ鮮明画像またはグラウンドトゥルースＧＳ鮮明画像のいずれかを取得し、その画像を「真」または「偽」のいずれかに分類する、請求項３に記載の方法。
前記生成器ネットワーク及び前記識別器ネットワークが、敵対的損失を介して共に訓練される、請求項６に記載の方法。
視覚ジオメトリ群（ＶＧＧ）ネットワークの様々な層のアクティベーション間の差を最小化する、知覚的損失が追加される、請求項７に記載の方法。
前記生成器ネットワークは、エンコーダ及びデコーダを含み、前記エンコーダが前記単一入力ＲＳ及びぼけ画像からコンパクトなボトルネックの形式で単一ビューＲＳ補正とぼけ除去との共有特徴を抽出し、前記デコーダが前記コンパクトなボトルネックをオリジナルの入力画像サイズにアップサンプリングする、請求項７に記載の方法。
単一入力ローリングシャッター（ＲＳ）及びぼけ画像におけるＲＳ歪及びぼけアーティファクトを共に除去するための、コンピュータで読み取り可能なプログラムを有する非一時的にコンピュータで読み取り可能な記憶媒体であって、
前記コンピュータで読み取り可能なプログラムがコンピュータで実行されると、
カメラから複数のＲＳぼけ画像を生成すること（８０１）と、
単一ビュージョイントＲＳ補正及びぼけ除去の畳み込みニューラルネットワーク（ＣＮＮ）を訓練する訓練データを生成するために、構造及び動き認識ＲＳ歪み及びぼけレンダリングモジュールを用いることでＧＳ鮮明画像、対応ＧＳ鮮明奥行きマップ、合成ＲＳカメラの動きのセットからＲＳぼけ画像を合成すること（８０３）と、
前記単一ビュージョイントＲＳ補正及びぼけ除去のＣＮＮを用いることで、前記単一入力ＲＳ及びぼけ画像からＲＳ修正及びぼけ除去画像を予測すること（８０５）と、
を前記コンピュータに実行させるための、非一時的にコンピュータで読み取り可能な記憶媒体。
単一ビュージョイントＲＳ補正及びぼけ除去が、単一の順方向パスで実行される、請求項１０に記載の非一時的にコンピュータで読み取り可能な記憶媒体。
訓練フェーズにおいて、前記単一ビュージョイントＲＳ補正及びぼけ除去の畳み込みニューラルネットワーク（ＣＮＮ）を訓練するための合成ＲＳぼけ画像を生成するために、前記ＧＳ鮮明画像、前記対応ＧＳ鮮明奥行きマップ、前記合成ＲＳカメラの動きのセットのための前記構造及び動き認識ＲＳ歪み及びぼけレンダリングモジュールを用いることをさらに含む、請求項１０に記載の非一時的にコンピュータで読み取り可能な記憶媒体。
テストフェーズにおいて、単一の順方向パスで対応ＲＳ補正及びぼけ除去画像を提供するために、前記単一ビュージョイントＲＳ補正及びぼけ除去のＣＮＮに前記単一ＲＳ及びぼかし画像を生成する、請求項１０に記載の非一時的にコンピュータで読み取り可能な記憶媒体。
生成器ネットワークが、対応ＧＳ鮮明画像を予測する、請求項１２に記載の非一時的にコンピュータで読み取り可能な記憶媒体。
識別器ネットワークが、予測されたＧＳ鮮明画像またはグラウンドトゥルースＧＳ鮮明画像のいずれかを取得し、その画像を「真」または「偽」のいずれかに分類する、請求項１２に記載の非一時的にコンピュータで読み取り可能な記憶媒体。
前記生成器ネットワーク及び前記識別器ネットワークが、敵対的損失を介して共に訓練される、請求項１５に記載の非一時的にコンピュータで読み取り可能な記憶媒体。
視覚ジオメトリ群（ＶＧＧ）ネットワークの様々な層のアクティベーション間の差を最小化する、知覚的損失が追加される、請求項１６に記載の非一時的にコンピュータで読み取り可能な記憶媒体。
前記生成器ネットワークは、エンコーダ及びデコーダを含み、前記エンコーダが前記単一入力ＲＳ及びぼけ画像からコンパクトなボトルネックの形式で単一ビューＲＳ補正とぼけ除去との共有特徴を抽出し、前記デコーダが前記コンパクトなボトルネックをオリジナルの入力画像サイズにアップサンプリングする、請求項１６に記載の非一時的にコンピュータで読み取り可能な記憶媒体。
単一入力ローリングシャッター（ＲＳ）及びぼけ画像におけるＲＳ歪及びぼけアーティファクトを共に除去するためのシステムであって、
メモリと、
カメラから複数のＲＳぼけ画像を生成し（８０１）、
単一ビュージョイントＲＳ補正及びぼけ除去の畳み込みニューラルネットワーク（ＣＮＮ）を訓練する訓練データを生成するために、構造及び動き認識ＲＳ歪み及びぼけレンダリングモジュールを用いることでＧＳ鮮明画像、対応ＧＳ鮮明奥行きマップ、合成ＲＳカメラの動きのセットからＲＳぼけ画像を合成し（８０３）、
前記単一ビュージョイントＲＳ補正及びぼけ除去のＣＮＮを用いることで、前記単一入力ＲＳ及びぼけ画像からＲＳ修正及びぼけ除去画像を予測する（８０５）ように構成された、前記メモリと通信する１つまたは複数のプロセッサと、
を有するシステム。
生成器ネットワークが、対応ＧＳ鮮明画像を予測し、
識別器ネットワークが、予測されたＧＳ鮮明画像またはグラウンドトゥルースＧＳ鮮明画像のいずれかを取得し、その画像を「真」または「偽」のいずれかに分類し、
前記生成器ネットワーク及び前記識別器ネットワークが、敵対的損失を介して共に訓練され
視覚ジオメトリ群（ＶＧＧ）ネットワークの様々な層のアクティベーション間の差を最小化する、知覚的損失が追加された、請求項１９に記載のシステム。