JP6901803B2 - フォールトトレランス及びフラクチュエーションロバスト性のための複数のニューラルネットワークを使用して揺れるカメラにより生成されたビデオからジッタリングを取り除くための学習方法及び学習装置、そしてそれを利用したテスト方法及びテスト装置 - Google Patents
フォールトトレランス及びフラクチュエーションロバスト性のための複数のニューラルネットワークを使用して揺れるカメラにより生成されたビデオからジッタリングを取り除くための学習方法及び学習装置、そしてそれを利用したテスト方法及びテスト装置 Download PDFInfo
- Publication number
- JP6901803B2 JP6901803B2 JP2020005486A JP2020005486A JP6901803B2 JP 6901803 B2 JP6901803 B2 JP 6901803B2 JP 2020005486 A JP2020005486 A JP 2020005486A JP 2020005486 A JP2020005486 A JP 2020005486A JP 6901803 B2 JP6901803 B2 JP 6901803B2
- Authority
- JP
- Japan
- Prior art keywords
- image
- learning
- jittering
- neural network
- test
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000013528 artificial neural network Methods 0.000 title claims description 195
- 238000012360 testing method Methods 0.000 title claims description 152
- 238000000034 method Methods 0.000 title claims description 100
- 238000010998 test method Methods 0.000 title claims description 4
- 239000013598 vector Substances 0.000 claims description 278
- 230000033001 locomotion Effects 0.000 claims description 131
- 238000004364 calculation method Methods 0.000 claims description 25
- 230000003287 optical effect Effects 0.000 claims description 22
- 238000005457 optimization Methods 0.000 claims description 14
- 238000004458 analytical method Methods 0.000 claims description 11
- 238000011176 pooling Methods 0.000 claims description 5
- 238000013527 convolutional neural network Methods 0.000 description 10
- 238000012549 training Methods 0.000 description 4
- 238000004891 communication Methods 0.000 description 3
- 230000000694 effects Effects 0.000 description 3
- 241001465754 Metazoa Species 0.000 description 2
- 238000007796 conventional method Methods 0.000 description 2
- 238000001514 detection method Methods 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 230000006870 function Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000010009 beating Methods 0.000 description 1
- 230000006399 behavior Effects 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 238000004590 computer program Methods 0.000 description 1
- 238000012937 correction Methods 0.000 description 1
- 238000000354 decomposition reaction Methods 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 230000001934 delay Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 238000003709 image segmentation Methods 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 230000001537 neural effect Effects 0.000 description 1
- 230000001151 other effect Effects 0.000 description 1
- 230000002093 peripheral effect Effects 0.000 description 1
- 238000000053 physical method Methods 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 230000006641 stabilisation Effects 0.000 description 1
- 238000011105 stabilization Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T5/00—Image enhancement or restoration
- G06T5/73—Deblurring; Sharpening
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/082—Learning methods modifying the architecture, e.g. adding, deleting or silencing nodes or connections
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/084—Backpropagation, e.g. using gradient descent
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F17/00—Digital computing or data processing equipment or methods, specially adapted for specific functions
- G06F17/10—Complex mathematical operations
- G06F17/11—Complex mathematical operations for solving equations, e.g. nonlinear equations, general mathematical optimization problems
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/20—Analysis of motion
- G06T7/246—Analysis of motion using feature-based methods, e.g. the tracking of corners or segments
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/20—Analysis of motion
- G06T7/246—Analysis of motion using feature-based methods, e.g. the tracking of corners or segments
- G06T7/248—Analysis of motion using feature-based methods, e.g. the tracking of corners or segments involving reference images or patches
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/20—Image preprocessing
- G06V10/25—Determination of region of interest [ROI] or a volume of interest [VOI]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/20—Image preprocessing
- G06V10/30—Noise filtering
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/44—Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
- G06V10/443—Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components by matching or filtering
- G06V10/449—Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters
- G06V10/451—Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters with interaction between the filter responses, e.g. cortical complex cells
- G06V10/454—Integrating the filters into a hierarchical structure, e.g. convolutional neural networks [CNN]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N23/00—Cameras or camera modules comprising electronic image sensors; Control thereof
- H04N23/80—Camera processing pipelines; Components thereof
- H04N23/81—Camera processing pipelines; Components thereof for suppressing or minimising disturbance in the image signal generation
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N5/00—Details of television systems
- H04N5/14—Picture signal circuitry for video frequency region
- H04N5/144—Movement detection
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/10—Image acquisition modality
- G06T2207/10016—Video; Image sequence
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20081—Training; Learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20084—Artificial neural networks [ANN]
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Evolutionary Computation (AREA)
- General Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Health & Medical Sciences (AREA)
- Multimedia (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Data Mining & Analysis (AREA)
- Computing Systems (AREA)
- Life Sciences & Earth Sciences (AREA)
- Biomedical Technology (AREA)
- Molecular Biology (AREA)
- General Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Biophysics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Databases & Information Systems (AREA)
- Computational Mathematics (AREA)
- Mathematical Analysis (AREA)
- Mathematical Optimization (AREA)
- Pure & Applied Mathematics (AREA)
- Signal Processing (AREA)
- Biodiversity & Conservation Biology (AREA)
- Medical Informatics (AREA)
- Operations Research (AREA)
- Algebra (AREA)
- Image Analysis (AREA)
- Studio Devices (AREA)
Description
及び
に対するそれぞれの重み付け値を意味することを特徴とする。
及び
に対するそれぞれの重み付け値を意味することを特徴とする。
及び
に対するそれぞれの重み付け値を意味する。この場合、||eij (t)||F 2は自明な解(Trivial Solution)を防止し、ジッタリングでない動きのベクトルに対する情報の量を最大化することができる。残りの項は、第tFPVベクトル及び第t物体モーションベクトルが、それぞれ第t−1FPVベクトル及び第t−1物体モーションベクトルに比べて非現実的に大きくならないようにする役割をする。これは、ジッタリングでないモーション(Motion)は、一フレーム単位の短時間の間に大きく変化しない特性があるためである。
Claims (26)
- 少なくとも1つのニューラルネットワーク(Neural Network)を使用してビデオ(Video)上のジッタリング(Jittering)を取り除くために、揺れるカメラにより生成された前記ビデオからジッタリングを検出する方法において、
(a)前記ビデオの第tフレームに該当する第tイメージが取得されると、コンピューティング装置が、第1ニューラルネットワークをもって、前記第tイメージに対して第1ニューラルネットワーク演算を少なくとも一回適用させて前記第tイメージ内のそれぞれの物体に対応する第tマスクそれぞれを生成させる段階;
(b)前記コンピューティング装置が、第2ニューラルネットワークをもって、(i)それぞれの前記第tマスクと、(ii)これに対応する、前記第tイメージの一部分であるそれぞれの第tクロップ済み(Cropped)イメージと、(iii)それぞれの第t−1マスクと、(iv)これに対応する、第t−1イメージの一部分であるそれぞれの第t−1クロップ済みイメージとに対して第2ニューラルネットワーク演算を少なくとも一回適用させて前記第tイメージに含まれた、それぞれの前記物体に対応する物体ピクセルそれぞれに対する第t物体モーションベクトル(Object Motion Vector)それぞれを生成させる段階;及び
(c)前記コンピューティング装置が、ジッタリング予測ユニット(Jittering Estimation Unit)をもって、前記第t物体モーションベクトルそれぞれを参照して前記第tイメージ内のピクセルのうち参照ピクセル(Reference Pixel)それぞれに対応する第tジッタリングベクトル(Jittering Vector)それぞれを生成させる段階;
を含むことを特徴とする方法。 - (d)前記コンピューティング装置が、前記ジッタリング予測ユニットをもって、前記第tジッタリングベクトルを参照して前記第tイメージのジッタリングを緩和した第t調整イメージ(Adjusted Image)を生成させる段階;
をさらに含むことを特徴とする請求項1に記載の方法。 - (e)前記コンピューティング装置が、学習ユニット(Learning Unit)をもって、(i)前記第tジッタリングベクトルを生成するためのプロセスを通じて最適化された第t調整物体モーションベクトル、及び(ii)最適化される前の前記第t物体モーションベクトルを参照して少なくとも一つのロスを算出させ、前記ロスをバックプロパゲーションすることによって前記第2ニューラルネットワークの少なくとも一つのパラメータの少なくとも一部を学習させる段階;
をさらに含むことを特徴とする請求項1に記載の方法。 - 前記(c)段階で、
前記コンピューティング装置が、前記ジッタリング予測ユニットをもって、(i)前記カメラで前記第t−1イメージを撮影した時点と前記第tイメージを撮影した時点との間に前記第tイメージ内のピクセルそれぞれに対応する地点それぞれの動いた程度を示すそれぞれの第tオプティカルフローベクトル(Optical Flow Vector)、及び(ii)前記カメラで前記第t−1イメージを撮影した時点と前記第tイメージを撮影した時点との間に3次元上における前記地点それぞれの動いた程度を示すそれぞれの第tFPVベクトルをさらに参照して前記第tジッタリングベクトルを生成させることを特徴とする請求項1に記載の方法。 - 前記数式は、
前記条件を満たす項(Term)に対して有効であるようにし、
fij (t)は前記第tオプティカルフローベクトルのうち一部である、前記参照ピクセルに対する第1のt番目オプティカルフローベクトルを意味し、fxy (t)は前記参照ピクセルでない残りのピクセルに対する第2のt番目オプティカルフローベクトルを意味し、oij (t)は前記第t物体モーションベクトルのうち一部である、前記物体ピクセルであり、かつ前記参照ピクセルである特定ピクセルに対する第t物体モーションベクトルを意味し、シグマ記号下段のi,j∈NB(x,y)は所定のピクセルを含むグリッド内の前記参照ピクセルのうち一部に関する情報を使用するものであることを表し、wij,xyは前記グリッド内の前記所定のピクセルの少なくとも一つの位置によるそれぞれの重み付け値を表すことを特徴とする請求項5に記載の方法。 - 前記コンピューティング装置が、前記ジッタリング予測ユニットをもって、
前記数式を最小化させるeij (t),vij (t),oxy (t)を算出させ、
eij (t)は前記第tジッタリングベクトルを意味し、vij (t)は前記第tFPVベクトルを意味し、oxy (t)は前記第t物体モーションベクトルを意味し、vij (t−k)は第t−kイメージに対する第t−kFPVベクトルを意味し、oxy (t−k)は前記第t−kイメージに対する第t−k物体モーションベクトルを意味し、wkは|vij (t)−vij (t−k)|2及び|oxy (t)−oxy (t−k)|2に対するそれぞれの重み付け値を意味し、Kは所定の定数(constant)であることを特徴とする請求項4に記載の方法。 - 前記(b)段階で、
前記第2ニューラルネットワークは、第2_1ニューラルネットワーク及び第2_2ニューラルネットワークを含み、
前記第2_1ニューラルネットワークは、それぞれの前記第tマスクと、それぞれの前記第tクロップ済みイメージと、それぞれの前記第t−1マスクと、それぞれの前記第t−1クロップ済みイメージとに対して分析する、前記第2ニューラルネットワーク演算に含まれた第2_1ニューラルネットワーク演算を少なくとも一回遂行することによって少なくとも一つの中間特徴マップ(Intermediate Feature Map)を生成し、
前記第2_2ニューラルネットワークは、前記第tイメージが取得される以前に入力された値に対する分析内容を参照して前記中間特徴マップに対して前記第2ニューラルネットワーク演算に含まれた第2_2ニューラルネットワーク演算を少なくとも一回適用することによって前記第t物体モーションベクトルを生成することを特徴とする請求項1に記載の方法。 - 前記第2_2ニューラルネットワークは、
(i)第1イメージないし前記第t−1イメージのうち少なくとも一部に対する各値についての分析を反映して、前記第2_1ニューラルネットワークが生成された、前記第2_2ニューラルネットワークの状態ベクトル(State Vector)を使用して前記第t物体モーションベクトルを生成させ、(ii)前記状態ベクトルをアップデートさせることを特徴とする請求項8に記載の方法。 - 前記参照ピクセルは、前記第tイメージ上の前記グリッドのグリッドセル(Grid Cell)のバウンダリ(Boundary)上に位置する頂点であることを特徴とする請求項1に記載の方法。
- 前記(a)段階で、
前記第1ニューラルネットワークは少なくとも一つのRPN(Region Proposal Network)と、少なくとも一つのコンボリューションレイヤと、少なくとも一つのプーリングレイヤとを含み、
前記RPNが少なくとも一つのROIを生成すると、前記第1ニューラルネットワークは、二重線形補間法(Bilinear Interpolation)を利用して前記ROIに対応する少なくとも一つの領域を前記第tイメージ上で選択した後、これに前記コンボリューションレイヤによる演算を少なくとも一回適用することによって前記第tマスクを生成することを特徴とする請求項1に記載の方法。 - 少なくとも1つのニューラルネットワーク(Neural Network)を使用してテスト用ビデオ(Video)上でジッタリング(Jittering)を取り除くために、揺れるカメラにより生成された前記テスト用ビデオに前記ジッタリングを取り除くテスト方法において、
(a)学習装置が、(1)学習用ビデオ上の学習用第tフレームに該当する学習用第tイメージが取得されると、第1ニューラルネットワークをもって、前記学習用第tイメージに対して第1ニューラルネットワーク演算を少なくとも一回適用させて前記学習用第tイメージ内のそれぞれの学習用物体に対応する学習用第tマスクそれぞれを生成させ、(2)第2ニューラルネットワークをもって、(i)それぞれの前記学習用第tマスクと、(ii)これに対応する、前記学習用第tイメージの一部分であるそれぞれの学習用第tクロップ済み(Cropped)イメージと、(iii)それぞれの学習用第t−1マスクと、(iv)これに対応する、学習用第t−1イメージの一部分であるそれぞれの学習用第t−1クロップ済みイメージとに対して第2ニューラルネットワーク演算を少なくとも一回適用させて前記学習用第tイメージに含まれた、それぞれの前記学習用物体に対応する学習用物体ピクセルそれぞれに対する学習用第t物体モーションベクトル(Object Motion Vector)を生成させ、(3)ジッタリング予測ユニット(Jittering Estimation Unit)をもって、前記学習用第t物体モーションベクトルそれぞれを参照して前記学習用第tイメージ内のピクセルのうち学習用参照ピクセル(Reference Pixel)それぞれに対応する学習用第tジッタリングベクトル(Jittering Vector)それぞれを生成させ、(4)学習ユニットをもって、(i)前記学習用第tジッタリングベクトルを生成するためのプロセスを通じて最適化された学習用第t調整物体モーションベクトル、及び(ii)最適化される前の前記学習用第t物体モーションベクトルを参照して少なくとも一つのロスを算出させ、前記ロスをバックプロパゲーションすることによって前記第2ニューラルネットワークの少なくとも一つのパラメータの少なくとも一部を学習完了した状態で、前記テスト用ビデオのテスト用第tフレームに該当するテスト用第tイメージが取得されると、テスト装置が、前記第1ニューラルネットワークをもって、前記テスト用第tイメージに対して第1ニューラルネットワーク演算を適用させて前記テスト用第tイメージ内のそれぞれのテスト用物体に対応するテスト用第tマスクそれぞれを生成させる段階;
(b)前記テスト装置が、前記第2ニューラルネットワークをもって、(i)それぞれの前記テスト用第tマスクと、(ii)これに対応する、前記テスト用第tイメージの一部分であるそれぞれのテスト用第tクロップ済み(Cropped)イメージと、(iii)それぞれのテスト用第t−1マスクと、(iv)これに対応する、テスト用第t−1イメージの一部分であるそれぞれのテスト用第t−1クロップ済みイメージとに対して第2ニューラルネットワーク演算を適用させて前記テスト用第tイメージに含まれた、それぞれの前記テスト用物体に対応するテスト用物体ピクセルそれぞれに対するテスト用第t物体モーションベクトル(Object Motion Vector)それぞれを生成させる段階;及び
(c)前記テスト装置が、前記ジッタリング予測ユニット(Jittering Estimation Unit)をもって、前記テスト用第t物体モーションベクトルそれぞれを参照して、前記テスト用第tイメージ内のピクセルのうちテスト用参照ピクセル(Reference Pixel)それぞれに対応するテスト用第tジッタリングベクトル(Jittering Vector)それぞれを生成させる段階;
を含むことを特徴とする方法。 - (d)前記コンピューティング装置が、
前記ジッタリング予測ユニットをもって、前記テスト用第tジッタリングベクトルを参照して前記テスト用第tイメージのジッタリングを緩和したテスト用第t調整イメージ(Adjusted Image)を生成させる段階;
を含むことを特徴とする請求項12に記載の方法。 - 少なくとも一つのニューラルネットワーク(Neural Network)を使用してビデオ(Video)上のジッタリング(Jittering)を取り除くために、揺れるカメラにより生成された前記ビデオからジッタリングを検出するコンピューティング装置において、
インストラクションを格納する少なくとも一つのメモリと、
(I)前記ビデオの第tフレームに該当する第tイメージが取得されると、第1ニューラルネットワークをもって、前記第tイメージに対して第1ニューラルネットワーク演算を少なくとも一回適用させて前記第tイメージ内のそれぞれの物体に対応する第tマスクそれぞれを生成させるプロセス、(II)第2ニューラルネットワークをもって、(i)それぞれの前記第tマスクと、(ii)これに対応する、前記第tイメージの一部分であるそれぞれの第tクロップ済み(Cropped)イメージと、(iii)それぞれの第t−1マスクと、(iv)これに対応する、第t−1イメージの一部分であるそれぞれの第t−1クロップ済みイメージとに対して第2ニューラルネットワーク演算を少なくとも一回適用させて前記第tイメージに含まれた、それぞれの前記物体に対応する物体ピクセルそれぞれに対する第t物体モーションベクトル(Object Motion Vector)それぞれを生成させるプロセス、及び(III)ジッタリング予測ユニット(Jittering Estimation Unit)をもって、前記第t物体モーションベクトルそれぞれを参照して前記第tイメージ内のピクセルのうち参照ピクセル(Reference Pixel)それぞれに対応する第tジッタリングベクトル(Jittering Vector)それぞれを生成させるプロセスを遂行するための前記インストラクションを実行するように構成された少なくとも一つのプロセッサと、
を含むことを特徴とする装置。 - 前記プロセッサが、
(IV)前記ジッタリング予測ユニットをもって、前記第tジッタリングベクトルを参照して前記第tイメージのジッタリングを緩和した第t調整イメージ(Adjusted Image)を生成させるプロセス;
をさらに含むことを特徴とする請求項14に記載の装置。 - 前記プロセッサが、
(V)学習ユニット(Learning Unit)をもって、(i)前記第tジッタリングベクトルを生成するためのプロセスを通じて最適化された第t調整物体モーションベクトル、及び(ii)最適化される前の前記第t物体モーションベクトルを参照して少なくとも一つのロスを算出させ、前記ロスをバックプロパゲーションすることによって前記第2ニューラルネットワークの少なくとも一つのパラメータの少なくとも一部を学習させるプロセス;
をさらに含むことを特徴とする請求項14に記載の装置。 - 前記(III)プロセスで、
前記プロセッサが、
前記ジッタリング予測ユニットをもって、(i)前記カメラで前記第t−1イメージを撮影した時点と前記第tイメージを撮影した時点との間に前記第tイメージ内のピクセルそれぞれに対応する地点それぞれの動いた程度を示すそれぞれの第tオプティカルフローベクトル(Optical Flow Vector)、及び(ii)前記カメラで前記第t−1イメージを撮影した時点と前記第tイメージを撮影した時点との間に3次元上における前記地点それぞれの動いた程度を示すそれぞれの第tFPVベクトルをさらに参照して前記第tジッタリングベクトルを生成させることを特徴とする請求項14に記載の装置。 - 前記数式は、
前記条件を満たす項(Term)に対して有効であるようにし、
fij (t)は前記第tオプティカルフローベクトルのうち一部である、前記参照ピクセルに対する第1のt番目オプティカルフローベクトルを意味し、fxy (t)は前記参照ピクセルでない残りのピクセルに対する第2のt番目オプティカルフローベクトルを意味し、oij (t)は前記第t物体モーションベクトルのうち一部である、前記物体ピクセルであり、かつ前記参照ピクセルである特定ピクセルに対する第t物体モーションベクトルを意味し、シグマ記号下段のi,j∈NB(x,y)は所定のピクセルを含むグリッド内の前記参照ピクセルのうち一部に関する情報を使用するものであることを表し、wij,xyは前記グリッド内の前記所定のピクセルの少なくとも一つの位置によるそれぞれの重み付け値を表すことを特徴とする請求項18に記載の装置。 - 前記プロセッサが、前記ジッタリング予測ユニットをもって、
前記数式を最小化させるeij (t),vij (t),oxy (t)を算出させ、
eij (t)は前記第tジッタリングベクトルを意味し、vij (t)は前記第tFPVベクトルを意味し、oxy (t)は前記第t物体モーションベクトルを意味し、vij (t−k)は第t−kイメージに対する第t−kFPVベクトルを意味し、oxy (t−k)は前記第t−kイメージに対する第t−k物体モーションベクトルを意味し、wkは|vij (t)−vij (t−k)|2及び|oxy (t)−oxy (t−k)|2に対するそれぞれの重み付け値を意味し、Kは所定の定数であることを特徴とする請求項17に記載の装置。 - 前記(II)プロセスで、
前記第2ニューラルネットワークは、第2_1ニューラルネットワーク及び第2_2ニューラルネットワークを含み、
前記第2_1ニューラルネットワークは、それぞれの前記第tマスクと、それぞれの前記第tクロップ済みイメージと、それぞれの前記第t−1マスクと、それぞれの前記第t−1クロップ済みイメージとについて分析する、前記第2ニューラルネットワーク演算に含まれた第2_1ニューラルネットワーク演算を少なくとも一回遂行することによって少なくとも一つの中間特徴マップ(Intermediate Feature Map)を生成し、
前記第2_2ニューラルネットワークは、前記第tイメージが取得される以前に入力された値に対する分析内容を参照して、前記中間特徴マップに対して前記第2ニューラルネットワーク演算に含まれた第2_2ニューラルネットワーク演算を少なくとも一回適用することによって前記第t物体モーションベクトルを生成することを特徴とする請求項14に記載の装置。 - 前記第2_2ニューラルネットワークは、
(i)第1イメージないし前記第t−1イメージのうち少なくとも一部に対する各値についての分析を反映して、前記第2_1ニューラルネットワークが生成された、前記第2_2ニューラルネットワークの状態ベクトル(State Vector)を使用して前記第t物体モーションベクトルを生成させ、(ii)前記状態ベクトルをアップデートさせることを特徴とする請求項21に記載の装置。 - 前記参照ピクセルは、前記第tイメージ上の前記グリッドのグリッドセル(Grid Cell)のバウンダリ(Boundary)上に位置する頂点であることを特徴とする請求項14に記載の装置。
- 前記(I)プロセスで、
前記第1ニューラルネットワークは少なくとも一つのRPN(Region Proposal Network)と、少なくとも一つのコンボリューションレイヤと、少なくとも一つのプーリングレイヤとを含み、
前記RPNが少なくとも一つのROIを生成すると、前記第1ニューラルネットワークは、二重線形補間法(Bilinear Interpolation)を利用して前記ROIに対応する少なくとも一つの領域を前記第tイメージ上で選択した後、これに前記コンボリューションレイヤによる演算を少なくとも一回適用することによって前記第tマスクを生成することを特徴とする請求項14に記載の装置。 - 少なくとも1つのニューラルネットワーク(Neural Network)を使用してテスト用ビデオ(Video)上でジッタリング(Jittering)を取り除くために、揺れるカメラにより生成された前記テスト用ビデオに前記ジッタリングを取り除くテスト装置において、
インストラクションを格納する少なくとも一つのメモリと、
学習装置が、(1)学習用ビデオ上の学習用第tフレームに該当する学習用第tイメージが取得されると、第1ニューラルネットワークをもって、前記学習用第tイメージに対して第1ニューラルネットワーク演算を少なくとも一回適用させて前記学習用第tイメージ内のそれぞれの学習用物体に対応する学習用第tマスクそれぞれを生成させ、(2)第2ニューラルネットワークをもって、(i)それぞれの前記学習用第tマスクと、(ii)これに対応する、前記学習用第tイメージの一部分であるそれぞれの学習用第tクロップ済み(Cropped)イメージと、(iii)それぞれの学習用第t−1マスクと、(iv)これに対応する、学習用第t−1イメージの一部分であるそれぞれの学習用第t−1クロップ済みイメージとに対して第2ニューラルネットワーク演算を少なくとも一回適用させて前記学習用第tイメージに含まれた、それぞれの前記学習用物体に対応する学習用物体ピクセルそれぞれに対する学習用第t物体モーションベクトル(Object Motion Vector)を生成させ、(3)ジッタリング予測ユニット(Jittering Estimation Unit)をもって、前記学習用第t物体モーションベクトルそれぞれを参照して前記学習用第tイメージ内のピクセルのうち学習用参照ピクセル(Reference Pixel)それぞれに対応する学習用第tジッタリングベクトル(Jittering Vector)それぞれを生成させ、(4)学習ユニットをもって、(i)前記学習用第tジッタリングベクトルを生成するためのプロセスを通じて最適化された学習用第t調整物体モーションベクトル、及び(ii)最適化される前の前記学習用第t物体モーションベクトルを参照して少なくとも一つのロスを算出させ、前記ロスをバックプロパゲーションすることによって前記第2ニューラルネットワークの少なくとも一つのパラメータの少なくとも一部を学習完了した状態で、(I)前記テスト用ビデオのテスト用第tフレームに該当するテスト用第tイメージが取得されると、テスト装置が、前記第1ニューラルネットワークをもって、前記テスト用第tイメージに対して第1ニューラルネットワーク演算を適用させて前記テスト用第tイメージ内のそれぞれのテスト用物体に対応するテスト用第tマスクそれぞれを生成させるプロセス、(II)前記第2ニューラルネットワークをもって、(i)それぞれの前記テスト用第tマスク、(ii)これに対応する、前記テスト用第tイメージの一部分であるそれぞれのテスト用第tクロップ済み(Cropped)イメージ、(iii)それぞれのテスト用第t−1マスク及び(iv)これに対応する、テスト用第t−1イメージの一部分であるそれぞれのテスト用第t−1クロップ済みイメージに対して第2ニューラルネットワーク演算を適用させて前記テスト用第tイメージに含まれた、それぞれの前記テスト用物体に対応するテスト用物体ピクセルそれぞれに対するテスト用第t物体モーションベクトル(Object Motion Vector)それぞれを生成させるプロセス、及び(III)前記ジッタリング予測ユニット(Jittering Estimation Unit)をもって、前記テスト用第t物体モーションベクトルそれぞれを参照して前記テスト用第tイメージ内のピクセルのうちテスト用参照ピクセル(Reference Pixel)それぞれに対応するテスト用第tジッタリングベクトル(Jittering Vector)それぞれを生成させるプロセスを遂行するための前記インストラクションを実行するように構成された少なくとも一つのプロセッサと、
を含むことを特徴とする装置。 - 前記プロセッサが、
(IV)前記ジッタリング予測ユニットをもって、前記テスト用第tジッタリングベクトルを参照して前記テスト用第tイメージのジッタリングを緩和したテスト用第t調整イメージ(Adjusted Image)を生成させるプロセス;
を含むことを特徴とする請求項25に記載の装置。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US16/262,996 | 2019-01-31 | ||
US16/262,996 US10482584B1 (en) | 2019-01-31 | 2019-01-31 | Learning method and learning device for removing jittering on video acquired through shaking camera by using a plurality of neural networks for fault tolerance and fluctuation robustness in extreme situations, and testing method and testing device using the same |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2020126617A JP2020126617A (ja) | 2020-08-20 |
JP6901803B2 true JP6901803B2 (ja) | 2021-07-14 |
Family
ID=68536108
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2020005486A Active JP6901803B2 (ja) | 2019-01-31 | 2020-01-16 | フォールトトレランス及びフラクチュエーションロバスト性のための複数のニューラルネットワークを使用して揺れるカメラにより生成されたビデオからジッタリングを取り除くための学習方法及び学習装置、そしてそれを利用したテスト方法及びテスト装置 |
Country Status (5)
Country | Link |
---|---|
US (1) | US10482584B1 (ja) |
EP (1) | EP3690811A1 (ja) |
JP (1) | JP6901803B2 (ja) |
KR (1) | KR102320999B1 (ja) |
CN (1) | CN111507906B (ja) |
Families Citing this family (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2019207524A1 (en) * | 2018-04-25 | 2019-10-31 | Seesure | Single image completion from retrieved image collections |
US20210181758A1 (en) * | 2019-10-26 | 2021-06-17 | Zoox, Inc. | Object detection and tracking |
CN111901532B (zh) * | 2020-09-30 | 2020-12-25 | 南京理工大学 | 基于循环神经网络迭代策略的视频稳定方法 |
US20220138903A1 (en) * | 2020-11-04 | 2022-05-05 | Nvidia Corporation | Upsampling an image using one or more neural networks |
WO2023140446A1 (ko) * | 2022-01-19 | 2023-07-27 | 한화비전 주식회사 | 영상처리장치 및 그의 영상처리방법 |
Family Cites Families (19)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5012270A (en) * | 1988-03-10 | 1991-04-30 | Canon Kabushiki Kaisha | Image shake detecting device |
JPH11283040A (ja) * | 1998-01-29 | 1999-10-15 | Mitsubishi Electric Corp | 操作制御装置および動作解析プログラムを記録したコンピュ―タ読み取り可能な記録媒体 |
JP5204785B2 (ja) * | 2007-12-03 | 2013-06-05 | パナソニック株式会社 | 画像処理装置、撮影装置、再生装置、集積回路及び画像処理方法 |
JP5414405B2 (ja) * | 2009-07-21 | 2014-02-12 | キヤノン株式会社 | 画像処理装置、撮像装置及び画像処理方法 |
JP2015039085A (ja) * | 2011-12-14 | 2015-02-26 | パナソニック株式会社 | 画像処理装置及び画像処理方法 |
EP2936804A4 (en) * | 2012-12-21 | 2016-06-01 | Thomson Licensing | VIDEO QUALITY MODEL, METHOD FOR DEVELOPING A VIDEO QUALITY MODEL AND METHOD FOR DETERMINING THE VIDEO QUALITY USING A VIDEO QUALITY MODEL |
US9374532B2 (en) * | 2013-03-15 | 2016-06-21 | Google Inc. | Cascaded camera motion estimation, rolling shutter detection, and camera shake detection for video stabilization |
US10181195B2 (en) * | 2015-12-28 | 2019-01-15 | Facebook, Inc. | Systems and methods for determining optical flow |
US10346740B2 (en) * | 2016-06-01 | 2019-07-09 | Kla-Tencor Corp. | Systems and methods incorporating a neural network and a forward physical model for semiconductor applications |
CN106485226A (zh) * | 2016-10-14 | 2017-03-08 | 杭州派尼澳电子科技有限公司 | 一种基于神经网络的视频行人检测方法 |
US10867377B2 (en) * | 2016-12-21 | 2020-12-15 | Massachusetts Institute Of Technology | Determining soil state and controlling equipment based on captured images |
US20180181864A1 (en) * | 2016-12-27 | 2018-06-28 | Texas Instruments Incorporated | Sparsified Training of Convolutional Neural Networks |
JP6914699B2 (ja) * | 2017-04-04 | 2021-08-04 | キヤノン株式会社 | 情報処理装置、情報処理方法及びプログラム |
US10534962B2 (en) * | 2017-06-17 | 2020-01-14 | Matterport, Inc. | Automated classification based on photo-realistic image/model mappings |
US10217028B1 (en) * | 2017-08-22 | 2019-02-26 | Northrop Grumman Systems Corporation | System and method for distributive training and weight distribution in a neural network |
CN107566688B (zh) * | 2017-08-30 | 2021-02-19 | 广州方硅信息技术有限公司 | 一种基于卷积神经网络的视频防抖方法、装置及图像对齐装置 |
US10089743B1 (en) * | 2017-10-05 | 2018-10-02 | StradVision, Inc. | Method for segmenting an image and device using the same |
KR101935399B1 (ko) * | 2018-07-11 | 2019-01-16 | 주식회사 두원전자통신 | 심층 신경망 알고리즘 기반 광역 다중 객체 감시 시스템 |
CN109064507B (zh) * | 2018-08-21 | 2021-06-22 | 北京大学深圳研究生院 | 一种用于视频预测的多运动流深度卷积网络模型方法 |
-
2019
- 2019-01-31 US US16/262,996 patent/US10482584B1/en active Active
- 2019-11-15 KR KR1020190147109A patent/KR102320999B1/ko active IP Right Grant
-
2020
- 2020-01-09 EP EP20150915.5A patent/EP3690811A1/en active Pending
- 2020-01-09 CN CN202010020867.9A patent/CN111507906B/zh active Active
- 2020-01-16 JP JP2020005486A patent/JP6901803B2/ja active Active
Also Published As
Publication number | Publication date |
---|---|
CN111507906B (zh) | 2023-10-10 |
JP2020126617A (ja) | 2020-08-20 |
KR102320999B1 (ko) | 2021-11-03 |
CN111507906A (zh) | 2020-08-07 |
EP3690811A1 (en) | 2020-08-05 |
US10482584B1 (en) | 2019-11-19 |
KR20200095339A (ko) | 2020-08-10 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP6901803B2 (ja) | フォールトトレランス及びフラクチュエーションロバスト性のための複数のニューラルネットワークを使用して揺れるカメラにより生成されたビデオからジッタリングを取り除くための学習方法及び学習装置、そしてそれを利用したテスト方法及びテスト装置 | |
JP6895694B2 (ja) | Avm及び強化学習を利用して自律走行の安全性を達成するためのアテンション−ドリブンアルゴリズムを利用したリソース割り当てのための方法及び装置{method and device for attention−driven resource allocation by using avmand reinforcement learning to thereby achieve safety of autonomous driving} | |
US11200696B2 (en) | Method and apparatus for training 6D pose estimation network based on deep learning iterative matching | |
US20240070546A1 (en) | System and method for end-to-end differentiable joint image refinement and perception | |
Liu et al. | Deep inference for covariance estimation: Learning gaussian noise models for state estimation | |
US11064178B2 (en) | Deep virtual stereo odometry | |
JP6856853B2 (ja) | 極限状況においてフォールトトレランス及びフラクチュエーションロバスト性を向上させるために、ジッタリングが起きたイメージを安定化させるプロセスで生成されたワーピングされたイメージに発生した歪曲を、ganを利用して減らすための学習方法及び学習装置、そしてそれを利用したテスト方法及びテスト装置 | |
WO2019093152A1 (ja) | 作業車両の動作を推定するための方法、システム、学習済みの分類モデルの製造方法、学習データ、及び学習データの製造方法 | |
JP6957050B2 (ja) | モバイルデバイスまたは小型ネットワークに適用可能なハードウェアを最適化するのに利用可能なroiをプーリングするために、マスキングパラメータを利用する方法及び装置、そしてこれを利用したテスト方法及びテスト装置{learning method and learning device for pooling roi by using masking parameters to be used for mobile devices or compact networks via hardware optimization, and testing method and testing device using the same} | |
JP2021518622A (ja) | 自己位置推定、マッピング、およびネットワークトレーニング | |
CN111507159B (zh) | 提供自动驾驶安全性的方法和装置 | |
JP7345664B2 (ja) | 不確実性を有するランドマーク位置推定のための画像処理システムおよび方法 | |
US11822621B2 (en) | Systems and methods for training a machine-learning-based monocular depth estimator | |
WO2020088766A1 (en) | Methods for optical flow estimation | |
JP2020038669A (ja) | 複数のビデオフレームを利用してcnnのパラメータを最適化するための学習方法及び学習装置、そしてこれを利用したテスト方法及びテスト装置 | |
US10402686B1 (en) | Learning method and learning device for object detector to be used for surveillance based on convolutional neural network capable of converting modes according to scales of objects, and testing method and testing device using the same | |
JP6890855B2 (ja) | Avmを利用して自律走行の安全性を達成するためのアテンションドリブンアルゴリズムを利用したリソース割り当てのための方法及び装置{method and device for attention−driven resource allocation by using avm to thereby achieve safety of autonomous driving} | |
CN113160278A (zh) | 一种场景流估计、场景流估计模型的训练方法和装置 | |
CN110175523B (zh) | 一种自移动机器人动物识别与躲避方法及其存储介质 | |
CN112184767A (zh) | 对运动物体进行轨迹跟踪的方法、装置、设备及存储介质 | |
CN112348843A (zh) | 调整深度图像预测模型的方法、装置和电子设备 | |
Lee | MicroDeblur: Image Motion Deblurring on Microcontroller-based Vision Systems | |
Barrozo et al. | Simulation of an Autonomous Vehicle Control System Based on Image Processing | |
JP6714058B2 (ja) | 動きを予測する方法、装置およびプログラム | |
Arain et al. | Close-Proximity Underwater Terrain Mapping Using Learning-based Coarse Range Estimation |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20200116 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20210209 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20210510 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20210602 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20210611 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 6901803 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |