JP2022506061A - ローリングシャッター画像/ビデオのsfm/slamに対するアプリケーションで畳み込みニューラルネットワークを用いる画像/ビデオにおけるローリングシャッター補正 - Google Patents

ローリングシャッター画像/ビデオのsfm/slamに対するアプリケーションで畳み込みニューラルネットワークを用いる画像/ビデオにおけるローリングシャッター補正 Download PDF

Info

Publication number
JP2022506061A
JP2022506061A JP2021523217A JP2021523217A JP2022506061A JP 2022506061 A JP2022506061 A JP 2022506061A JP 2021523217 A JP2021523217 A JP 2021523217A JP 2021523217 A JP2021523217 A JP 2021523217A JP 2022506061 A JP2022506061 A JP 2022506061A
Authority
JP
Japan
Prior art keywords
image
camera
motion
depth map
synthesized
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2021523217A
Other languages
English (en)
Other versions
JP7082713B2 (ja
Inventor
クオック-フイ トラン、
ビンビン ズオン、
パン ジ、
マンモハン チャンドラカー、
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NEC Laboratories America Inc
Original Assignee
NEC Laboratories America Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NEC Laboratories America Inc filed Critical NEC Laboratories America Inc
Publication of JP2022506061A publication Critical patent/JP2022506061A/ja
Application granted granted Critical
Publication of JP7082713B2 publication Critical patent/JP7082713B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T5/00Image enhancement or restoration
    • G06T5/80Geometric correction
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/217Validation; Performance evaluation; Active pattern learning techniques
    • G06F18/2178Validation; Performance evaluation; Active pattern learning techniques based on feedback of a supervisor
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T5/00Image enhancement or restoration
    • G06T5/60Image enhancement or restoration using machine learning, e.g. neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/20Analysis of motion
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N23/00Cameras or camera modules comprising electronic image sensors; Control thereof
    • H04N23/60Control of cameras or camera modules
    • H04N23/68Control of cameras or camera modules for stable pick-up of the scene, e.g. compensating for camera body vibrations
    • H04N23/681Motion detection
    • H04N23/6811Motion detection based on the image signal
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N23/00Cameras or camera modules comprising electronic image sensors; Control thereof
    • H04N23/60Control of cameras or camera modules
    • H04N23/68Control of cameras or camera modules for stable pick-up of the scene, e.g. compensating for camera body vibrations
    • H04N23/689Motion occurring during a rolling shutter mode
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N23/00Cameras or camera modules comprising electronic image sensors; Control thereof
    • H04N23/80Camera processing pipelines; Components thereof
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N25/00Circuitry of solid-state image sensors [SSIS]; Control thereof
    • H04N25/50Control of the SSIS exposure
    • H04N25/53Control of the integration time
    • H04N25/531Control of the integration time by controlling rolling shutters in CMOS SSIS
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20081Training; Learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20084Artificial neural networks [ANN]

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • Data Mining & Analysis (AREA)
  • Artificial Intelligence (AREA)
  • Multimedia (AREA)
  • General Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Software Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Computing Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Molecular Biology (AREA)
  • Mathematical Physics (AREA)
  • Signal Processing (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Databases & Information Systems (AREA)
  • Medical Informatics (AREA)
  • Image Analysis (AREA)
  • Studio Devices (AREA)

Abstract

ローリングシャッター(RS)効果を補正するための方法を示す。本方法は、カメラからの複数の画像を生成することと、畳み込みニューラルネットワーク(CNN)を訓練するための訓練データを生成するために、グローバルシャッター(GS)のカウンターパートからRS画像を合成することと、一つのRS画像からRS歪を除去するために、構造及び運動認識CNNを用いて該一つのRS画像からRSカメラ運動及びRS奥行きマップを予測することとを含む。【選択図】図1

Description

この出願は、2018年10月29日に出願された米国特許仮出願第62/751,888号、2019年7月29日に出願された米国特許仮出願第62/878,814号及び2019年10月4日に出願された米国特許出願第16/593,247号を基礎とする優先権を主張し、その開示の全てをここに取り込む。
本発明は、構造及び運動認識(structure-and-motion-aware)ローリングシャッター(RS:rolling shutter)補正の学習に関し、特に一つのローリングシャッター(RS)画像から内在するジオメトリを学習し、RS画像補正を行う畳み込みニューラルネットワーク(CNN:convolutional neural network)ベースの方法に関する。
ウェブカメラや携帯電話等の多くの民生用カメラは、そのコスト上の利点から相補性金属酸化膜半導体(CMOS:complementary metal oxide semiconductor)センサを採用している。しかしながら、これらはローリングシャッター(RS)メカニズムで動作するという制限を伴う。センサアレイの全ての行を同時に露光するグローバルシャッター(GS)とは対照的に、RSは連続する行間で一定の時間遅延を伴って上から下へ1行ずつ露光する。画像キャプチャ中にカメラの移動が有る場合、最初の行と最終行との露光の間の遅延はキャプチャされた画像で歪みが生じる原因となり、ピンホールカメラモデルから逸脱する可能性がある。
ローリングシャッター(RS)効果を補正するためのコンピュータ実装方法を提供する。本方法は、カメラからの複数の画像を生成することと、構造及び運動認識畳み込みニューラルネットワーク(CNN)を訓練するための訓練データを生成するために、グローバルシャッター(GS)のカウンターパートからRS画像を合成することと、一つのRS画像からRS歪を除去するために、構造及び運動認識CNNを用いて該一つのRS画像からRSカメラ運動及びRS奥行きマップを予測することと、を含む。
ローリングシャッター(RS)効果を補正するためのコンピュータで読み取り可能なプログラムを含む、非一時的なコンピュータで読み取り可能な記憶媒体を提供する。コンピュータで読み取り可能なプログラムは、カメラからの複数の画像を生成する工程と、構造及び運動認識畳み込みニューラルネットワーク(CNN)を訓練するための訓練データを生成するために、グローバルシャッター(GS)のカウンターパートからRS画像を合成する工程と、一つのRS画像からRS歪を除去するために、構造及び運動認識CNNを用いて該一つのRS画像からRSカメラ運動及びRS奥行きマップを予測する工程と、をコンピュータに実行させる。
ローリングシャッター(RS)効果を補正するシステムを提供する。該システムは、ローリングシャッター(RS)効果を補正するためのシステムであって、メモリと、カメラからの複数の画像を生成し、構造及び運動認識畳み込みニューラルネットワーク(CNN)を訓練するための訓練データを生成するためにグローバルシャッター(GS)のカウンターパートからRS画像を合成し、一つのRS画像からRS歪みを除去するために、構造及び運動認識CNNを用いて該一つのRS画像からRSカメラ運動及びRS奥行きマップを予測するように構成された、メモリと通信する1つ以上のプロセッサと、を有する。
これらの及び他の特徴並びに利点は、以下の典型的な実施形態の詳細な説明を添付の図面と併せて読むことで明らかになるであろう。
本開示では、以下の図面を参照しながら好ましい実施形態について、以下で詳細に説明する。
図1は、本発明の実施形態による、構造及び運動認識ローリングシャッター(RS)歪みレンダリング、並びに構造及び運動認識RS補正ネットワークのブロック/フロー図である。
図2は、本発明の実施形態による、RSビデオのSLAM(simultaneous localization and mapping)に対するRS補正方法のアプリケーシのブロック/フロー図である。
図3は、本発明の実施形態による、RS画像のSFM(Structure From Motion)に対するRS補正方法のアプリケーションのブロック/フロー図である。
図4は、本発明の実施形態による、RS2視点ジオメトリにおける縮退を示すブロック/フロー図である。
図5は、本発明の実施形態による、構造及び運動認識RS補正ネットワークの例示的なアーキテクチャのブロック/フロー図である。
図6は、本発明の実施形態による、ローリングシャッター(RS)効果を補正するための例示的な処理システムのブロック/フロー図である。
図7は、本発明の実施形態による、ローリングシャッター(RS)効果を補正するための例示的な方法のブロック/フロー図である。
ローリングシャッター(RS)効果を補正する厳密な方法は、内在するジオメトリ、例えばスキャンライン間または視点間のシーン構造及びカメラ運動を復元することを伴う。しかしながら、RSカメラの多視点ジオメトリは、そのグローバルシャッター(GS)のカウンターパートよりもはるかに複雑であり、様々な縮退(degeneracy)を伴う。本発明の実施形態において、RS2視点ジオメトリは、カメラの純粋な平行移動の場合に縮退することが示される。複雑なRSジオメトリを考慮して、本実施形態は、ただ1つのRS画像から内在するジオメトリ(例えば、カメラ運動及びシーン構造)を学習し、RS画像の補正が実行される畳み込みニューラルネットワーク(CNN)ベースの方法を導入する。本方法は、シーン構造と同様にスキャンライン間の潜在的な運動に関する理由で、構造及び運動認識RS補正方法と呼ばれる。本方法は、RS効果がカメラ運動とシーン構造とが整合する方法で生成される、幾何学的に意味のある方法で合成された大規模なデータセットから学習する。
純粋な幾何学的歪みであるため、RS効果は内在するジオメトリ(例えば、カメラ運動及び3D構造)を復元することで正確に補正できる。しかしながら、露光期間におけるスキャンライン毎のカメラの位置姿勢の変化から生じる余分な未知のパラメータのために、RSカメラの幾何学的問題は、しばしばそのGSのカウンターパートよりも複雑である。特に、RSカメラの2視点ジオメトリは、線形解を得るために44の2D点対応が必要であり、実際、一般的には扱い難い。したがって、RS効果を除去するために2視点ジオメトリを用いる方法は、例えば差分カメラ運動を仮定する等の特別な制約を課さなければならず、自明ではない読み出し較正を必要とする。
RSカメラにおける幾何学的な縮退分析は、本発明の実施形態によって導入される。多くの現実世界のアプリケーションにおいてRSカメラが広く展開されているにもかかわらず、潜在的な縮退に関する分析は最近になって明らかになったことに留意されたい。本実施形態において、RS2視点ジオメトリはカメラの純粋な平行移動の場合に縮退することが示されている。特に、スキャンライン毎のカメラの位置姿勢と、再投影誤差の観点から両視点の2Dポイントを厳密に説明できるシーン構造との組み合わせは無限に多い。このような縮退は、例えば運転シナリオのような実際のアプリケーションにおける純粋な平行移動の普及が原因で、補正のために2視点RSジオメトリを適用する際にさらなる課題を提起する。
純粋な幾何学的方法を使用し、幾何学的問題における深層学習の最近の成功を考慮することで、そのような課題を考えると、本発明の実施形態は、RS補正に対するデータ駆動型アプローチを導入する。具体的には、CNNベースのアプローチを採用することで、本実施形態は一つのRS画像からカメラのスキャンライン速度及び奥行きの両方の予測を学習する。単視点の奥行き予測は研究されてきたが、スキャンライン間のカメラ速度は扱われていない。さらに、イメージ外観における歪みからこれらのカメラ運動の推定が実現可能であることが示される。元になる直感は、外観歪みが露光期間中のカメラ運動で起こる全てのスキャンラインとシーンとの間の剛性に反することを示すことである。シーンの真のジオメトリとそのオブジェクトに関して十分に学習されていれば、この知見は、カメラ運動の復元が可能であるかを受けて、RS歪みで生じる変形を認識するために採用可能である。このようにして得られたジオメトリは、画像の歪みを除去するために使用できる。
本発明の実施形態は、さらにグランドトゥルース速度及び奥行きを考慮して、幾何学的に正確な方法で、それらのGSのカウンターパートからRS画像を合成するための方法を導入する。そのような情報は、大規模な訓練データを生成するために使用される。最後に、本発明の実施形態は、ネットワークの訓練中にピッチ回転と画像サイズの変更動作との間に存在する不定性も識別する。図1は、そのようなアプローチの概要を示している。シーン構造及びスキャンライン間の潜在的な運動に関する理由により、例示的な方法は、構造及び運動認識ローリングシャッター補正(Structure-And-Motion-Aware Rolling Shutter Correction)を短縮した「SMARSC」と称してもよい。
本発明の実施形態は、カメラ運動及びシーン構造の両方を積極的に考慮し、視覚的に見やすいだけでなく、幾何学的に整合性のある補正画像を生成できる。したがって、要約すると、本発明の実施形態は、RS2視点ジオメトリ推定に内在し、アルゴリズムに依存しない特性を理解するのに役に立つ、RS2視点ジオメトリが純粋な平行移動下で縮退することの詳細な証拠を特定・立証する。単視点RS補正の場合、本発明の実施形態は、内在するジオメトリによって強く支配されるCNNベースのアプローチを導入するため、良好な性能を達成する。本発明の実施形態は、さらに大規模な訓練データを合成し、訓練のために生じる幾何学的な不定性を識別する幾何学的に意味のある方法を導入する。
図1は、構造及び運動認識ローリングシャッター(RS)歪みレンダリング110、並びに構造及び運動認識RS補正ネットワーク130を示している。訓練段階150において、GS画像102及び対応するGS奥行きマップ104のセットが、合成されたRSカメラ運動124、合成されたRS奥行きマップ122及び合成されたRS画像112を生成するために、構造及び運動認識RS歪みレンダリングパイプライン110で用いられる。画像112は入力データとして使用され、カメラ運動124及び奥行きマップ122は構造及び運動認識RS補正ネットワーク(SMARSC)130を訓練するための教師信号として使用される。テスト段階160において、一つのリアルRS画像142がSMARSC130に入力される。ネットワーク130は、入力画像に対応するRSカメラ運動132及びRS奥行きマップ134を予測する。最後に、RS画像142、RSカメラ運動132及びRS奥行きマップ134は、RS効果を除去して補正された画像144を出力する補正モジュール140に送信される。
図2を参照すると、図2には、RSビデオのSLAM(simultaneous localization-and-mapping)に対するRS補正方法のアプリケーションが示されている。入力されるRSビデオ210は、RS歪みを有する連続する画像フレームのセットである。各フレームは、RS効果を除去し、対応する補正されたフレーム(または補正されたビデオ230)を取得するために、RS補正方法(例えば、構造及び運動認識RS補正220)にそれぞれ渡される。補正されたフレーム230は、ビデオ(例えば、復元されたカメラ経路及びシーン経路250)で観察されたカメラ軌跡及びシーン構造を推定するためにSLAMモジュール240へ送信される。
図3には、RS画像のSFM(structure-from-motion)に対するRS補正方法のアプリケーションが示されている。RS画像310の順不同セットは、RS画像のSFMに対する入力として使用できる。各画像は、RS効果を除去し、対応する補正された画像330を得るためのRS補正方法(例えば、構造及び運動認識RS補正320)に個別に渡される。補正された画像330は、画像内で観察されたカメラの位置姿勢及びシーン構造(例えば、復元されたカメラの位置姿勢及びシーン構造350)を推定するSFMモジュール340に送信される。
RSカメラのモデリング及び表記に関し、各RS画像Iは全部でN本のスキャンラインL(i=1,...,N)を備え、カメラは本質的に較正されていると仮定する。RSカメラは各スキャンラインを順次キャプチャするため、Lの露光スロットにおけるカメラの位置姿勢のための投影行列は、次のように表すことができる。
Figure 2022506061000002
ここで、
Figure 2022506061000003
は回転行列であり、
Figure 2022506061000004
は、平行移動ベクトルである。
純粋な平行移動に関して、2つの画像I及びIの露光期間において、RSカメラは単位ノルムベクトル
Figure 2022506061000005
で示される一定の方向に沿って純粋に平行移動し、IのPに対して定義された、IのP(IのP)を
Figure 2022506061000006
Figure 2022506061000007
で表すことができると仮定する。ここで、p及びqはカメラ運動の大きさで決定されるスカラであり、Iは3×3の単位行列を表す。
縮退分析に関して、t≠0の場合で説明する。t=0に関する、そのようなシナリオは後述する。本方法は、まず2D対応及び奥行きに関して、2つの画像における一対のスキャンライン間のカメラの純粋な平行移動のRS2視点ジオメトリを定式化する。2つのスキャンラインIのL及びIのLは、それぞれカメラの位置姿勢P及びPと、L及びLのカメラ座標における両方のスキャンライン
Figure 2022506061000008
及び
Figure 2022506061000009
で観測される3D点Sとで考察する。
本方法は、
Figure 2022506061000010
を示すことで、S及びS
Figure 2022506061000011
で関連付けることができる。この関係を2D画像に投影すると、次の式が得られる。
Figure 2022506061000012
上記式の両側で
Figure 2022506061000013
を減算し、再配置すると、本方法は次のようになる。
Figure 2022506061000014
ここで、
Figure 2022506061000015
はエピポールであり、s及びsはそれぞれS及びSの2D投影である(例えば、s及びsは2D対応)。
eは、スキャンラインのいずれの対に関して同じであるため、式(1)は図4の400’で示すように、全ての2D点がエピポール450から放射される2D線に沿って移動することを示す。開始点は460で示され、終了点は470で示される。変位ベクトルは465で示される。但し、このパターンは、GSカメラモデルと全く同じであり、純粋な平行移動を認識する唯一の手がかりであり、エピポールは、拡張焦点(FOE: focus of expansion)とも呼ばれる。これは、不定性を有し、特に観測される2D点変位は実際の
Figure 2022506061000016
及びZに対する以下の摂動を伴うGSカメラモデルで説明できる。
摂動は、全ての
Figure 2022506061000017
を共通のTで置き換えることと(但し、
Figure 2022506061000018
であり、
Figure 2022506061000019
であり、Tの一つの可能な値は、図4の400で示すように
Figure 2022506061000020
及び
Figure 2022506061000021
の設定で達成されるqであることを想起されたい)、
各点Sに関する奥行きZ
Figure 2022506061000022
となるように歪ませることと、を含む。
Figure 2022506061000023
の値は、式(1)が成り立つように、
Figure 2022506061000024
を解くことで得られる。
さらに、観測される2D点の動きがRSカメラでキャプチャされることが知られていても、平行移動の方向、すなわちp及びqに沿ったスキャンライン毎のカメラ位置は決定することができない。グローバルスケールの不定性を超えると、物理的に可能な(例えば、正の)奥行きを生成できる明らかに無数のフェイク
Figure 2022506061000025
及び
Figure 2022506061000026
が存在するが、それでも奥行きは、
Figure 2022506061000027
を伴う
Figure 2022506061000028
に歪んでいる。
直観的に、回転がない場合、RSで引き起こされる歪みは2D点変位の方向に影響されず、それらの運動の大きさに影響される。GS2視点のSfM(Structure from Motion)方法は、奥行きにおける適切なコラプション(corruption)でRS歪みを補償することで、それをカメラの純粋な平行移動(RS歪み無し)と考えることができる。すなわち、いかなるSfMアルゴリズムも、そのような運動の下で2D対応のみからRS効果を抽出できない。さらに、RSカメラを使用することが知られていても、無限数のソリューションのためにSfMアルゴリズムは正しいカメラ位置及び奥行きを選択できない。このような縮退は、回転量が少なく、画像測定に雑音がある場合のSfMにおける数値的困難性を意味するが、このようなシナリオは理論的には縮退していない。
したがって、2D対応のみに基づいて2つの画像がRSまたはGSカメラでキャプチャされているかを人が見分けることができないという意味で、カメラの純粋な平行移動に関するRS2視点ジオメトリは縮退している。事前にカメラがRSであることが分かっていても、平行移動の方向に沿ったスキャンライン毎のカメラ位置、すなわちp及びqは決定できない。ラインに沿ったカメラ位置におけるこのような縮退は、他のSfM問題、例えば同一直線状のカメラの平行移動の平均化にも存在することを留意されたい。
上記の縮退分析に関して、縮退は、t≠0における純粋な平行移動の場合はRS2視点ジオメトリで分析される。以下、残りのt=0における純粋な平行移動の場合について説明する。その前に、カメラの純粋な平行移動は、個々の画像毎の露光期間のカメラ運動だけではなく、対象となる2つの画像全域にわたるカメラ運動を指すことを明確にする必要がある。さらに、pt及びqtは、最初の画像における最初のスキャンラインの位置として定義される(すなわち、p=0)、ワールド座標系におけるスキャンライン毎のカメラ位置を表し、射影行列Pi及びPjは
Figure 2022506061000029
及び
Figure 2022506061000030
で表すことができる。
例えばカメラ運動が水平方向であり、t=0における純粋な平行移動の場合、本方法は
Figure 2022506061000031
を示し、3D点S1及びS2は
Figure 2022506061000032
によって関連付けることができる。この関係を2D画像に投影すると、上記式(1)に対応する以下の式が得られる。
Figure 2022506061000033
この式は、全ての2D点が同じ方向、例えばGSカメラを使用した場合にも起こる、
Figure 2022506061000034
へ移動することを示す。
さらに、2D点変位をキャプチャするのに用いるカメラがRSカメラであると知られていても、平行移動の方向に沿ったスキャンライン毎のカメラ位置、例えばp及びqは2D対応のみからは決定できない。これは、グローバルスケールの不定性を超えて、物理的に可能であり(例えば、正の)、式(S1)が依然として成り立つような歪みの奥行き
Figure 2022506061000035
を生成できる無数のフェイク
Figure 2022506061000036
及び
Figure 2022506061000037
が存在するからである。
2つの画像の露光期間を通して一定の速度と仮定しても、縮退は除去されないことに留意されたい。2つの画像がビデオの2つの連続するフレームから取得され、読み出し時間が既知であると仮定される場合、縮退は消失する。しかしながら、読出し時間の較正は自明ではない。したがって、この要件は、アプリケーションに制約を課す。
以下では、単視点RS補正のためのネットワークアーキテクチャ及び訓練データ生成の詳細を明らかにする。また、ネットワーク訓練中に生じる不定性をさらに明らかにする。
RS画像をGS画像に変換(補正)することに関して、本発明の実施形態のネットワークは、入力として一つのRS画像を取得し、補正の実行に用いることができる、対応するRSカメラ運動及びRS奥行きマップを予測する。特に、RS画像における全ての画素に対して、本方法はまず推定された奥行きを用いてそれを3D点に逆投影し、次いで推定されたスキャンライン毎のカメラの位置姿勢を用いて3D点をGSキャンバス(最初のスキャンラインPによって定義される平面)に投影することで、補正された画像を生み出す。RSカメラ運動をモデル化するために、本方法は、6自由度(DOF)運動モデルを採用し、カメラは露光期間が一定速度であると仮定する。
特に、本方法は
Figure 2022506061000038
及び
Figure 2022506061000039
によって一定のスキャンライン毎の平行移動の速度及び回転速度を示し、
Figure 2022506061000040
を書き込む。
本発明の実施形態のネットワークは、図5で示すように、一つのRS画像502からそれぞれRS奥行きマップ512及びRSカメラ運動522を学習するための2つのサブネットワーク、すなわちDepth-Net(奥行きネットワーク)510及びVelocity-Net(速度ネットワーク)520を含む。本方法は、SfMLeamerに続いて、単視点RS奥行き推定のためのDepth-NetとしてDispNetを採用する。本方法は、Velocity-Netのために、最終段の平均プーリング層を除去し、特徴を抽出するための(それぞれに続くBatchNorm層及びReLU活性化層がある)4つの3×3畳み込み層(Conv)と、6-DOFカメラ速度、すなわち3D平行移動速度ベクトルv及び3D角速度ベクトルwを回帰するための1つの1×1畳み込み層(バイアス無し)とを追加することで、ResNet-34アーキテクチャ530を適合させる。
Depth-Net510は、回帰損失
Figure 2022506061000041
を用いることで訓練される。回帰損失または逆奥行き損失は514で示される。逆奥行きは、奥行きの増加につれて不確実性が増加することを説明するために(奥行きに代わって)回帰される。
Velocity-Net520に関して、訓練損失は、平行移動速度及び角速度をそれぞれ評価するための回帰損失
Figure 2022506061000042
及び
Figure 2022506061000043
(または速度損失526)、並びに(予測されるカメラ速度及びグランドトゥルース奥行きマップを用いて得られた)補正画像と、対応するグランドトゥルースGS画像(ピクセル強度が計算
Figure 2022506061000044
前に[0,1]にスケーリングされた)との間のピクセル強度差を最小化する、524で示される測光損失
Figure 2022506061000045
を含む。本方法は、各ネットワークの教師有りのグランドトゥルースを有する合成訓練データに依存するため、2つのネットワークは別々に訓練されることに留意されたい。本方法は、上記の全ての損失のためにLノルムを使用する。
したがって、ジオメトリベースの方法とは対照的に、本発明の実施形態で用いる学習ベースのアプローチは、グランドトゥルースRSカメラ速度及びRS奥行きマップを有するRS画像を含む大量の訓練データを必要とする。グランドトゥルース速度及び画素毎の奥行きラベルを備える実RS画像をキャプチャすることは困難であるため、本方法は、訓練及び試験データを含むKITTI Rawデータセットに基づく合成訓練データ生成パイプラインを提案する。
GS画像をRS画像(歪み)に変換することに関して、本方法は、KITTI Rawデータセットにおけるステレオペアの左側視点をグラウンドトゥルースGS画像として取得する。本方法は、最初に最新のステレオ方法を用いてステレオから高密度GS奥行きマップを計算する。本方法は、次にスキャンライン毎のカメラの位置姿勢を与えるグラウンドトゥルースRSカメラ運動として6-DOFカメラ速度を生成する。本方法は、GS画像における各画素をRSキャンバスに投影し、RS画像を生成する。特に、投影画素はどのRSスキャンラインに位置するのか分からないため、本方法は、全てのRSスキャンラインL(対応するスキャンライン毎のカメラの位置姿勢Pで)を用いて各画素sGS(対応する奥行き
Figure 2022506061000046
を伴って)を投影し、RS画像における対応する画像点として、仮定されたスキャンラインに最も近い2D投影を選択する。このスキャンライン(したがって2D投影)の選択は、以下の式を介して行われる。
Figure 2022506061000047
ここで、
Figure 2022506061000048
はRS画像におけるスキャンラインLに対応する投影関数であり、
Figure 2022506061000049
は2D投影またはスキャンラインの行インデックスを返す。上記の投影は、RS画像の格子の交点間に散らばる画像点のセットを生成するため、本方法はRS画像における全ての画素を完成するために補間を実行する。上記の投影において、本方法はDepth-Net510を訓練するためのグラウンドトゥルースを提供するために、画素毎のRS奥行きも取得することに留意されたい。また、KITTIカメラは車両にしっかりと装着され、ピッチとロールの変動がほとんどない(車両の回転時にヨーが大きく変化する)ため、本方法は、RS画像をレンダリングする前にピッチ及びロール変動を増大させるために、グラウンドトゥルースGS画像上に小さくランダムにサンプリングされたホモグラフィ変換を適用する。
RSカメラは短い露光期間でしばしば小さく動くため、レンダリングは、一般にオリジナルのGS画像におけるシャープネスを維持することが可能であり、その一方でレンダリングされたRS画像では所望の幾何的歪みを示すことに留意されたい。また、オクルージョン境界及び不完全なステレオ奥行きマップから生じる誤差のため、生成された画像には必然的に幾つかの小さな不自然な部位を含んでいる。しかしながら、本発明の実施形態のネットワークは、それらを許容して有用な情報を学習することが可能である。
先行する訓練データ生成パイプラインは、異なるサイズの訓練画像を返すが、深層学習ツールボックスは効率的な計算のために同じサイズを有することが必要である。これを実現するため、画像を切り取るか、サイズを変更できる。ここでは、これらの2つの選択肢の問題とサイズ変更の選択との間の選択がパフォーマンスの劣化につながる可能性があることが示す。特に、本方法は、x軸の周りの少ないRSカメラの回転、すなわちWによって引き起こされる歪み(または対応する歪みの無いこと)が垂直画像サイズの変更によって引き起こされる変化と類似することを示す。そのため、サイズ変更は、訓練データにおけるWxによって実際にもたらされる歪みの量を元に戻す、または悪化させ、ネットワークが正しいカメラ運動を学習する際に理解し難くする可能性がある。
具体的には、スキャンラインL(位置姿勢
Figure 2022506061000050
に対応する)における座標(x,y)を有する画素を考える。
RS画像をGS画像平面に戻す歪みの無いフローは、以下のように記載できる。
Figure 2022506061000051
ここで、(x0,y0)及びfは、それぞれ原理点及び焦点距離を表し、微分式は小さい動きによって引き起こされる変位を近似するために用いることができる。この歪みの無いフローは、小さい視野から中程度の視野における線形項
Figure 2022506061000052
によって支配されることに留意されたい。本方法が、グラウンドトゥルースカメラ回転wxにおけるその影響を適切に補償することなく垂直画像サイズ変更を実行する場合、学習されるカメラ運動は交絡になる。これは、式(3)が、画像を(1+Wx)(第1行を基準行とする)のファクタだけ垂直方向にサイズを変更することで引き起こされる変位場と一致するからである。
旧知のSfMにおける周知のBas-Relief不定性がこの現象で思い出され得るが、Bas-Relief不定性とは異なり、位置姿勢Pで引き起こされる歪みは、行インデックスiのみに依存し、列インデックスには依存しないため、wyと水平画像サイズの変更との間に交絡が無いことに留意されたい。
さらに、wxで引き起こされる歪みと垂直画像サイズの変更との間の不定性に関して、説明を簡単にかつ明確にするために、不定性を純粋な回転カメラ運動wxの場合で説明した。しかしながら、訓練データにおける各RS画像に関してシミュレートされた一般的な6DOFカメラ運動については、そのような交絡が他の5つのDOFで引き起こされる(非)歪みフローのために低減されることを理解されたい。しかしながら、この不定性の全体的な交絡効果は依然として存在し、(6DOFカメラ運動を伴うRS画像上の)訓練は依然として影響を受ける。画像に関連する焦点距離を変更するため、適切に更新された焦点距離を訓練に埋め込むことで、サイズ変更効果を識別することが可能であることにも留意されたい。しかしながら、クロッピングは、より簡単な解決策である。
図6は、本発明の実施形態による、ローリングシャッター(RS)効果を補正するための例示的な処理システムのブロック/フロー図である。
処理システムは、システムバス602を介して他のコンポーネントと動作可能に接続された、少なくとも1つのプロセッサまたはプロセッサ装置604を含む。システムバス1602には、キャッシュ606、リードオンリーメモリ(ROM)608、ランダムアクセスメモリ(RAM)610、入力/出力(I/O)アダプタ620、ネットワークアダプタ630、ユーザインタフェースアダプタ640及びディスプレイアダプタ650が動作可能に接続されている。バス602には、1つまたは複数のカメラ660が接続できる。カメラ660は、訓練モジュール150及びテストモジュール160を用いることで、ローリングシャッター(RS)歪みを除去する構造及び運動認識CNN670を利用できる。
ストレージ装置622は、I/Oアダプタ620によってシステムバス602に動作可能に接続されている。ストレージ装置622は、ディスク記憶装置(例えば、磁気または光学ディスク記憶装置)、固体式磁気装置等のいずれかであってもよい。
トランシーバ632は、ネットワークアダプタ630によってシステムバス602に動作可能に接続されている。
ユーザ入力装置642は、ユーザインタフェースアダプタ640によってシステムバス602に動作可能に接続されている。ユーザ入力装置642は、キーボード、マウス、キーパッド、イメージキャプチャ装置、運動センシング装置、マイクロフォン、あるいはこれらの装置のうちの少なくとも2つの装置の機能を組み込んだ装置等のいずれであってもよい。もちろん、本原理の趣旨を維持する限りにおいて、他のタイプの入力装置を使用することも可能である。ユーザ入力装置642は、同じタイプのユーザ入力装置であってもよく、異なるタイプのユーザ入力装置であってもよい。ユーザ入力装置642は、処理システムとの間で情報を入出力するために使用される。
ディスプレイ652は、ディスプレイアダプタ650によってシステムバス602に動作可能に接続されている。
もちろん、処理システムは、当業者であれば容易に思いつくような他の要素(図示せず)を含んでいてもよく、特定の要素を省略することも可能である。例えば、処理システムには、当業者であれば容易に理解できるが、その詳細な実装に応じて、他の様々な入力装置及び/または出力装置を含むことができる。例えば、無線及び/または有線による種々の入力装置及び/または出力装置を使用できる。さらに、当業者であれば容易に理解できるが、様々な構成の追加プロセッサ、コントローラ、メモリ等を使用することも可能である。処理システムの上記及び他の変形例は、本明細書で提供される本原理の教示によって当業者であれば容易に考えられるであろう。
図7は、本発明の実施形態による、ローリングシャッター(RS)効果を補正するための例示的な方法のブロック/フロー図である。
ブロック701において、カメラからの複数の画像が生成される。
ブロック703において、構造及び運動認識畳み込みニューラルネットワーク(CNN)を訓練するための訓練データを生成するために、ローリングシャッター(RS)画像がグローバルシャッター(GS)のカウンターパートから合成される。
ブロック705において、一つのRS画像からRS歪みを除去するために、構造及び運動認識CNNを用いて、該一つのRS画像からRSカメラ運動とRS奥行きマップを予測する。
要約すると、本発明の実施形態は、RS2視点ジオメトリにおける縮退ケースを識別・説明する、問題の内在するジオメトリ特性で導かれる、単視点RS補正のための新規なCNNベースのアプローチを導入する。本方法は、合成データと実データの両方で単視点RS補正のための他の最先端の方法と比べて優れた性能を達成した。
本発明の実施形態は、さらにより多様でリアルな合成されたRS画像を達成する。例示的な方法は、CNNを訓練するために使用できる、より多様でリアルなRS画像を大規模に生成する。本発明の実施形態は、SFM/SLAMに関する制約をさらに少なくする。例示的な方法は、RS効果を除去し、GS画像及び/またはビデオ用に設計された従来のSFM/SLAM方法をRS画像及び/またはビデオに適用可能にする。
言い方を変えると、一つの入力RS画像からRSカメラ運動とRS奥行きマップを推定するための構造及び運動認識CNNを導入する。該CNNから出力されるカメラ運動及び奥行きマップを、入力画像のRS歪を除去するために使用できる。該CNNを訓練するための多様でリアルなRS画像の大規模データセットを得るため、本発明の実施形態は、フル6Dカメラ運動モデルを使用し、レンダリング中にカメラ運動及び奥行きマップの両方を用いる、構造及び運動認識RS歪合成パイプラインを特定する。このアプローチは、RS画像/ビデオのSFM/SLAMに適用される。
本明細書で用いる「データ」、「コンテンツ」、「情報」及び同様の用語は、様々な例示的な実施形態によって取得され、送信され、受信され、表示され、及び/または格納されることが可能なデータを示すために、交換可能に使用できる。したがって、これらの用語の使用は、開示の主旨及び範囲を制限するものと解釈されるべきではない。さらに、本明細書に別の計算デバイスからデータを受信するための計算デバイスが記載されている場合、データは、別の計算デバイスから直接受信してもよく、1つ以上の中間計算デバイス、例えば1つ以上のサーバ、リレー、ルータ、ネットワークアクセスポイント、基地局等を介して間接的に受信してもよい。同様に、本明細書にデータを別の計算デバイスに送信するための計算デバイスが記載されている場合、データは、別の計算データに直接送信してもよく、例えば、1つ以上のサーバ、リレー、ルータ、ネットワークアクセスポイント、基地局及び/または同様のもの等の1つ以上の中間計算デバイスを介して間接的に送信してもよい。
ユーザとのインタラクションを提供するための、本明細書に記載されている実施形態は、ユーザに情報を表示するためのディスプレイデバイス、例えば、CRT(cathode ray tube)またはLCD(liquid crystal display)モニタ、キーボード、ユーザがコンピュータに入力できるポインティングデバイス、例えばマウスまたはトラックボールを有するコンピュータで実施できる。他の種類の装置もユーザとのインタラクションを提供するために使用することができる。例えば、ユーザに提供されるフィードバックは、任意の形態の感覚フィードバック、例えば視覚フィードバック、聴覚フィードバックまたは触覚フィードバックとすることが可能であり、ユーザからの入力は、音響入力、音声入力または触覚入力を含む任意の形態で受信できる。
当業者であれば理解するように、本発明の態様は、システム、方法またはコンピュータプログラム製品として実施してもよい。したがって、本発明の態様は、全体としてハードウェアの実施形態であってもよく、全体としてソフトウェアの実施形態(ファームウェア、常駐ソフトウェア、マイクロコード等を含む)であってもよく、本明細書において、一般に「回路」、「モジュール」、「計算機」、「装置」または「システム」と呼ぶことができる、ソフトウェアとハードウェアの態様を組み合わせた実施の形態を採用してもよい。さらに、本発明の態様は、コンピュータで読み取り可能なプログラムコードを有する、1つまたは複数のコンピュータで読み取り可能な媒体で具現化された、コンピュータプログラム製品の形態を採用してもよい。
1つまたは複数のコンピュータで読み取り可能な媒体の任意の組合せを用いてもよい。コンピュータで読み取り可能な媒体は、コンピュータで読み取り可能な信号媒体またはコンピュータで読み取り可能な記録媒体であってもよい。コンピュータで読み取り可能な記録媒体は、例えば、電子、磁気、光学、電磁気、赤外線または半導体システム、装置またはデバイス、あるいは前述の任意の適切な組合せとすることができるが、これらに限定されない。コンピュータで読み取り可能な記録媒体のより具体的な例(以下に限定されない)は、1つ以上のワイヤ、携帯用コンピュータディスケット、ハードディスク、ランダムアクセスメモリ(RAM)、リードオンリーメモリ(ROM)、消去可能プログラマブルリードオンリーメモリ(EPROMまたはフラッシュメモリ)、光ファイバ、携帯用コンパクトディスクリードオンリーメモリ(CD-ROM)、光データ記憶装置、磁気データ記憶装置または前述した任意の適切な組み合わせを含む。本文書のコンテキストにおいて、コンピュータで読み取り可能な記録媒体は、命令実行システム、装置またはデバイスによって、またはそれに関連して使用するためのプログラムを含む、またはそれを記憶できる、任意の有形媒体であってもよい。
コンピュータで読み取り可能な信号媒体には、例えば、ベースバンドで、または搬送波の一部として、コンピュータで読み取り可能なプログラムコードが具現化された伝搬データ信号を含むことができる。そのような伝播信号は、電磁、光学またはそれらの任意の適切な組み合わせを含むが、それらに限定されない、任意の様々な形態がある。コンピュータ読み取り可能な信号媒体は、コンピュータ読み取り可能な記録媒体ではなく、命令実行システム、装置または装置によって、またはそれに関連して使用するためにプログラムを通信、伝播、または移送できる、任意のコンピュータ読み取り可能な媒体であってもよい。
コンピュータで読み取り可能な媒体で具現化されるプログラムコードは、無線、有線、光ファイバケーブル、RF等、あるいは前述した任意の適切な組合せを含むが、これらに限定されない、任意の適切な媒体を用いて送信される。
本発明の態様に関する処理を実行するためのコンピュータプログラムコードは、Java、Smalltalk、C++等のオブジェクト指向プログラミング言語及び「C」プログラミング言語または類似のプログラミング言語等の従来の手続き型プログラミング言語を含む、1つ以上のプログラミング言語の任意の組み合わせで書くことができる。プログラムコードは、全体的にユーザのコンピュータで実行されてもよく、スタンドアロンソフトウェアパッケージとして部分的にユーザのコンピュータで実行されてもよく、部分的にユーザのコンピュータで実行され、かつ部分的にリモートコンピュータで実行されてもよく、全体的にリモートコンピュータまたはサーバで実行されてもよい。後者のシナリオにおいて、リモートコンピュータは、ローカルエリアネットワーク(LAN)または広域ネットワーク(WAN)を含む任意のタイプのネットワークを介してユーザのコンピュータと接続されてもよく、(例えば、インターネットサービスプロバイダを利用したインターネットを介して)外部コンピュータと接続されてもよい。
本発明の態様について、本発明の実施形態による方法、装置(システム)、並びにコンピュータプログラム製品のフローチャート及び/またはブロック図を参照して以下で説明する。フローチャート及び/またはブロック図の各ブロック、並びにフローチャート及び/またはブロック図のブロックにおける組合せは、コンピュータプログラム命令によって実施できることを理解されたい。これらのコンピュータプログラム命令は、コンピュータまたは他のプログラマブルデータ処理装置のプロセッサを通して実行される命令が、フローチャート及び/またはブロック図の1つまたは複数のブロックまたはモジュールに指定される機能/動作を実施するための手段を作り出すようなマシンを生成するために、汎用コンピュータ、専用コンピュータまたは他のプログラマブルデータ処理装置のプロセッサに提供される。
これらのコンピュータプログラム命令は、コンピュータで読み取り可能な媒体に格納された命令が、フローチャート及び/またはブロック図の1つまたは複数のブロックまたはモジュールに指定された機能/動作を実装する命令を含む製品を生成するように、コンピュータ、他のプログラマブルデータ処理装置または他のデバイスに、特定の方法で機能するように指示できるコンピュータで読み取り可能な媒体に格納できる。
コンピュータプログラム命令は、またコンピュータ、他のプログラマブルデータ処理装置または他のデバイスにロードされて、一連の動作ステップがコンピュータ、他のプログラマブル装置または他のデバイスで実行され、コンピュータまたは他のプログラマブル装置で実行される命令が、フローチャート及び/またはブロック図のブロックまたはモジュールに指定された機能/動作を実装するためのプロセスを提供するように、コンピュータ実装プロセスを生成できる。
本明細書で使用する「プロセッサ」という用語は、例えばCPU(central processing unit)及び/または他の処理回路を含むもの等、任意の処理装置を含むことを意図しており、「プロセッサ」という用語は1つ以上の処理装置を指すことが可能であり、処理装置に関連する様々な要素は、他の処理装置によって共有されることも理解されたい。
本明細書で使用される「メモリ」という用語は、例えば、RAM、ROM、固定メモリデバイス(例えば、ハードドライブ)、リムーバブルメモリデバイス(例えば、ディスケット)、フラッシュメモリ等、プロセッサまたはCPUに関連するメモリを含むことを意図している。このようなメモリは、コンピュータで読み取り可能な記録媒体と考えることができる。
さらに、本明細書で使用する「入力/出力装置」または「I/O装置」という用語は、例えば、処理ユニットにデータを入力するための1つまたは複数の入力装置(例えば、キーボード、マウス、スキャナ等)及び/または処理ユニットに関連する、結果を提示するための1つまたは複数の出力装置(例えば、スピーカ、ディスプレイ、プリンタなど)を含むことを意図している。
上記は、あらゆる観点において説明的(illustrative)かつ典型的(exemplary)であって限定的でないものと理解されるべきであり、本明細書で開示する本発明の範囲は、詳細な説明から決定されるべきではなく、特許法で認められた最大限の広さに基づいて解釈される特許請求の範囲から決定されるべきである。本明細書中に図示及び記載されている実施形態は、本発明の原理を説明するものにすぎず、本発明の範囲及び主旨から逸脱することなく当業者は様々な変更を実施することができることを理解されたい。当業者は、本発明の範囲及び精神から逸脱することなく、様々な他の特徴の組み合わせを実施できる。以上、本発明の態様について、特許法で要求される細部及び詳細な事項と共に説明したが、特許証で保護されることを要求する特許請求の範囲は、添付の特許請求の範囲に示されている。

Claims (20)

  1. ローリングシャッター(RS)効果を補正するためにプロセッサで実行されるコンピュータ実行方法であって、
    カメラからの複数の画像を生成することと、
    構造及び運動認識畳み込みニューラルネットワーク(CNN)を訓練するための訓練データを生成するために、グローバルシャッター(GS)のカウンターパートからRS画像を合成することと、
    一つのRS画像からRS歪を除去するために、前記構造及び運動認識CNNを用いて該一つのRS画像からRSカメラ運動及びRS奥行きマップを予測することと、を有する方法。
  2. 訓練段階において、合成されたRSカメラ運動及び合成されたRS奥行きマップを生成するために、GS画像のセット及び対応するGS奥行きマップを使用することをさらに有する、請求項1に記載の方法。
  3. 前記構造及び運動認識CNNを訓練するために、前記合成されたRSカメラ運動、前記合成されたRS奥行きマップ及び前記合成されたRS画像を、教師信号及び入力データとして前記構造及び運動認識CNNにそれぞれ供給することをさらに有する、請求項2に記載の方法。
  4. テスト段階において、前記入力されたRS画像に対応する前記RSカメラ運動及び前記RS奥行きマップを予測するために、前記一つのRS画像を前記構造及び運動認識CNNに供給することをさらに有する、請求項3に記載の方法。
  5. 前記RS効果を除去するために、前記一つのRS画像、前記RSカメラ運動及び前記RS奥行きマップを補正モジュールに送信することをさらに有する、請求項4に記載の方法。
  6. 前記補正モジュールから補正された画像を出力することをさらに有する、請求項5に記載の方法。
  7. 前記構造及び運動認識CNNは、前記RS奥行きマップを学習するための奥行きネットワークと、前記RSカメラ運動を学習するための速度ネットワークとを有する、請求項1に記載の方法。
  8. 前記奥行きネットワークは、前記速度ネットワークから独立して訓練される、請求項7に記載の方法。
  9. ローリングシャッター(RS)効果を補正するためのコンピュータで読み取り可能なプログラムを含む、非一時的なコンピュータで読み取り可能な記憶媒体であって、前記コンピュータで読み取り可能なプログラムは、
    カメラからの複数の画像を生成する工程と、
    構造及び運動認識畳み込みニューラルネットワーク(CNN)を訓練するための訓練データを生成するために、グローバルシャッター(GS)のカウンターパートからRS画像を合成する工程と、
    一つのRS画像からRS歪を除去するために、前記構造及び運動認識CNNを用いて前記一つのRS画像からRSカメラ運動及びRS奥行きマップを予測する工程と、
    を前記コンピュータに実行させる、非一時的なコンピュータで読み取り可能な記憶媒体。
  10. 訓練段階において、合成されたRSカメラ運動及び合成されたRS奥行きマップを生成するために、GS画像のセット及び対応するGS奥行きマップが使用される、請求項9に記載の非一時的なコンピュータで読み取り可能な記憶媒体。
  11. 前記構造及び運動認識CNNを訓練するために、前記合成されたRSカメラ運動、前記合成されたRS奥行きマップ及び前記合成されたRS画像が、教師信号及び入力データとして前記構造及び運動認識CNNにそれぞれ供給される、請求項10に記載の非一時的なコンピュータで読み取り可能な記憶媒体。
  12. テスト段階において、前記入力されたRS画像に対応する前記RSカメラ運動及び前記RS奥行きマップを予測するために、前記一つのRS画像が前記構造及び運動認識CNNに供給される、請求項11に記載の非一時的なコンピュータで読み取り可能な記憶媒体。
  13. 前記RS効果を除去するために、前記一つのRS画像、前記RSカメラ運動及び前記RS奥行きマップが補正モジュールに送信される、請求項12に記載の非一時的なコンピュータで読み取り可能な記憶媒体。
  14. 補正された画像が前記補正モジュールから出力される、請求項13に記載の非一時的なコンピュータで読み取り可能な記憶媒体。
  15. 前記構造及び運動認識CNNは、前記RS奥行きマップを学習するための奥行きネットワークと、前記RSカメラ運動を学習するための速度ネットワークとを含む、請求項9に記載の非一時的なコンピュータで読み取り可能な記憶媒体。
  16. 前記奥行きネットワークは、前記速度ネットワークから独立して訓練される、請求項15に記載の非一時的なコンピュータで読み取り可能な記憶媒体。
  17. ローリングシャッター(RS)効果を補正するためのシステムであって、
    メモリと、
    カメラからの複数の画像を生成し、構造及び運動認識畳み込みニューラルネットワーク(CNN)を訓練するための訓練データを生成するためにグローバルシャッター(GS)のカウンターパートからRS画像を合成し、一つのRS画像からRS歪みを除去するために、前記構造及び運動認識CNNを用いて前記一つのRS画像からRSカメラ運動及びRS奥行きマップを予測するように構成された、前記メモリと通信する1つ以上のプロセッサと、
    を有するシステム。
  18. 訓練段階において、合成されたRSカメラ運動及び合成されたRS奥行きマップを生成するために、GS画像のセット及び対応するGS奥行きマップが使用される、請求項17に記載のシステム。
  19. 前記構造及び運動認識CNNを訓練するために、前記合成されたRSカメラ運動、前記合成されたRS奥行きマップ及び前記合成されたRS画像が、教師信号及び入力データとして前記構造及び運動認識CNNにそれぞれ供給される、請求項18に記載のシステム。
  20. テスト段階において、前記入力されたRS画像に対応する前記RSカメラ運動及び前記RS奥行きマップを予測するために、前記一つのRS画像が前記構造及び運動認識CNNに供給される、請求項19に記載のシステム。
JP2021523217A 2018-10-29 2019-10-22 ローリングシャッター画像/ビデオのsfm/slamに対するアプリケーションで畳み込みニューラルネットワークを用いる画像/ビデオにおけるローリングシャッター補正 Active JP7082713B2 (ja)

Applications Claiming Priority (7)

Application Number Priority Date Filing Date Title
US201862751888P 2018-10-29 2018-10-29
US62/751,888 2018-10-29
US201962878814P 2019-07-26 2019-07-26
US62/878,814 2019-07-26
US16/593,247 US11132586B2 (en) 2018-10-29 2019-10-04 Rolling shutter rectification in images/videos using convolutional neural networks with applications to SFM/SLAM with rolling shutter images/videos
US16/593,247 2019-10-04
PCT/US2019/057351 WO2020092051A1 (en) 2018-10-29 2019-10-22 Rolling shutter rectification in images/videos using convolutional neural networks with applications to sfm/slam with rolling shutter images/videos

Publications (2)

Publication Number Publication Date
JP2022506061A true JP2022506061A (ja) 2022-01-17
JP7082713B2 JP7082713B2 (ja) 2022-06-08

Family

ID=70325361

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2021523217A Active JP7082713B2 (ja) 2018-10-29 2019-10-22 ローリングシャッター画像/ビデオのsfm/slamに対するアプリケーションで畳み込みニューラルネットワークを用いる画像/ビデオにおけるローリングシャッター補正

Country Status (3)

Country Link
US (1) US11132586B2 (ja)
JP (1) JP7082713B2 (ja)
WO (1) WO2020092051A1 (ja)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10939042B1 (en) * 2019-05-07 2021-03-02 Zoox, Inc. Simulated rolling shutter image data
CN113630320B (zh) * 2020-05-06 2023-03-24 瞻博网络公司 计算机网络内创建隧道的方法、入口网络装置及存储介质
CN112734659A (zh) * 2020-12-29 2021-04-30 维沃移动通信(杭州)有限公司 图像校正方法、装置及电子设备
CN113470093B (zh) * 2021-09-01 2021-11-26 启东市德立神起重运输机械有限公司 基于航拍图像处理的视频果冻效应检测方法、装置及设备

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0818848A (ja) * 1994-06-27 1996-01-19 Sanyo Electric Co Ltd カメラシステムおよび歪み除去方法
JP2018148512A (ja) * 2017-03-09 2018-09-20 キヤノン株式会社 撮像装置と撮像装置の制御方法、及びプログラム

Family Cites Families (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7611060B2 (en) * 2005-03-11 2009-11-03 Hand Held Products, Inc. System and method to automatically focus an image reader
US20100309340A1 (en) * 2009-06-03 2010-12-09 Border John N Image sensor having global and rolling shutter processes for respective sets of pixels of a pixel array
US8358359B2 (en) * 2010-01-21 2013-01-22 Microsoft Corporation Reducing motion-related artifacts in rolling shutter video information
US8823813B2 (en) * 2011-06-06 2014-09-02 Apple Inc. Correcting rolling shutter using image stabilization
US9277132B2 (en) * 2013-02-21 2016-03-01 Mobileye Vision Technologies Ltd. Image distortion correction of a camera with a rolling shutter
US9741107B2 (en) * 2015-06-05 2017-08-22 Sony Corporation Full reference image quality assessment based on convolutional neural network
US20170374256A1 (en) * 2016-06-24 2017-12-28 Qualcomm Incorporated Method and apparatus for rolling shutter compensation
KR102359806B1 (ko) * 2016-06-27 2022-02-09 모빌아이 비젼 테크놀로지스 엘티디 검출된 주차 차량의 특징에 기반을 둔 호스트 차량의 제어
US10229341B2 (en) * 2016-12-21 2019-03-12 Volkswagen Ag Vector engine and methodologies using digital neuromorphic (NM) data
US10607319B2 (en) * 2017-04-06 2020-03-31 Pixar Denoising monte carlo renderings using progressive neural networks
US10616511B2 (en) * 2017-06-08 2020-04-07 Intel Corporation Method and system of camera control and image processing with a multi-frame-based window for image data statistics
US10939042B1 (en) * 2019-05-07 2021-03-02 Zoox, Inc. Simulated rolling shutter image data

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0818848A (ja) * 1994-06-27 1996-01-19 Sanyo Electric Co Ltd カメラシステムおよび歪み除去方法
JP2018148512A (ja) * 2017-03-09 2018-09-20 キヤノン株式会社 撮像装置と撮像装置の制御方法、及びプログラム

Also Published As

Publication number Publication date
JP7082713B2 (ja) 2022-06-08
US11132586B2 (en) 2021-09-28
WO2020092051A1 (en) 2020-05-07
US20200134389A1 (en) 2020-04-30

Similar Documents

Publication Publication Date Title
JP7082713B2 (ja) ローリングシャッター画像/ビデオのsfm/slamに対するアプリケーションで畳み込みニューラルネットワークを用いる画像/ビデオにおけるローリングシャッター補正
CN110264509B (zh) 确定图像捕捉设备的位姿的方法、装置及其存储介质
KR100793838B1 (ko) 카메라 모션 추출장치, 이를 이용한 해상장면의 증강현실 제공 시스템 및 방법
US20200296348A1 (en) Virtual Reality Parallax Correction
JP2021515939A (ja) 単眼深度推定方法およびその装置、機器ならびに記憶媒体
JP7319390B2 (ja) ぼけた画像/ビデオを用いたsfm/slamへの適用を有する畳み込みニューラルネットワークを使用した画像/ビデオのボケ除去
US11335066B2 (en) Apparatus and operating method for displaying augmented reality object
GB2580691A (en) Depth estimation
CN111373748A (zh) 用于外部校准相机和衍射光学元件的系统和方法
US20170374256A1 (en) Method and apparatus for rolling shutter compensation
US10410372B1 (en) Methods, systems, and computer-readable media for utilizing radial distortion to estimate a pose configuration
JP4406824B2 (ja) 画像表示装置、画素データ取得方法、およびその方法を実行させるためのプログラム
US11570418B2 (en) Techniques for generating light field data by combining multiple synthesized viewpoints
JP7357150B2 (ja) ジョイントローリングシャッター補正及び画像ぼけ除去
WO2021185036A1 (zh) 点云数据的生成及实时显示方法、装置、设备及介质
JP2021523455A (ja) 顔に対する射影歪み補正
CN111598927B (zh) 一种定位重建方法和装置
CN110969706B (zh) 增强现实设备及其图像处理方法、系统以及存储介质
Bapat et al. Rolling shutter and radial distortion are features for high frame rate multi-camera tracking
US8872832B2 (en) System and method for mesh stabilization of facial motion capture data
KR20230078502A (ko) 이미지 처리 장치 및 방법
US11315280B1 (en) Pose estimation with limited correspondences
KR102412373B1 (ko) 다중 시점 X-ray 데이터를 활용한 3D 데이터 생성 장치 및 방법
CN113615169B (zh) 用于扩增现实用户手册的设备和方法
CN117456124B (zh) 一种基于背靠背双目鱼眼相机的稠密slam的方法

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20210427

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20220428

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20220524

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20220527

R150 Certificate of patent or registration of utility model

Ref document number: 7082713

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

S111 Request for change of ownership or part of ownership

Free format text: JAPANESE INTERMEDIATE CODE: R313113

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350