JP2020126617A - フォールトトレランス及びフラクチュエーションロバスト性のための複数のニューラルネットワークを使用して揺れるカメラにより生成されたビデオからジッタリングを取り除くための学習方法及び学習装置、そしてそれを利用したテスト方法及びテスト装置 - Google Patents
フォールトトレランス及びフラクチュエーションロバスト性のための複数のニューラルネットワークを使用して揺れるカメラにより生成されたビデオからジッタリングを取り除くための学習方法及び学習装置、そしてそれを利用したテスト方法及びテスト装置 Download PDFInfo
- Publication number
- JP2020126617A JP2020126617A JP2020005486A JP2020005486A JP2020126617A JP 2020126617 A JP2020126617 A JP 2020126617A JP 2020005486 A JP2020005486 A JP 2020005486A JP 2020005486 A JP2020005486 A JP 2020005486A JP 2020126617 A JP2020126617 A JP 2020126617A
- Authority
- JP
- Japan
- Prior art keywords
- image
- learning
- neural network
- jittering
- vector
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000013528 artificial neural network Methods 0.000 title claims abstract description 190
- 238000000034 method Methods 0.000 title claims abstract description 105
- 238000012360 testing method Methods 0.000 title claims description 150
- 239000013598 vector Substances 0.000 claims abstract description 281
- 230000033001 locomotion Effects 0.000 claims abstract description 128
- 230000008569 process Effects 0.000 claims description 57
- 230000003287 optical effect Effects 0.000 claims description 33
- 238000004458 analytical method Methods 0.000 claims description 12
- 238000005457 optimization Methods 0.000 claims description 9
- 238000004364 calculation method Methods 0.000 claims description 6
- 238000011176 pooling Methods 0.000 claims description 5
- 230000014509 gene expression Effects 0.000 claims description 4
- 238000010998 test method Methods 0.000 claims description 3
- 238000012549 training Methods 0.000 claims description 2
- 238000013527 convolutional neural network Methods 0.000 description 12
- 230000008859 change Effects 0.000 description 6
- 238000010586 diagram Methods 0.000 description 4
- 230000000694 effects Effects 0.000 description 3
- 241001465754 Metazoa Species 0.000 description 2
- 238000004891 communication Methods 0.000 description 2
- 238000007796 conventional method Methods 0.000 description 2
- 238000001514 detection method Methods 0.000 description 2
- 230000006870 function Effects 0.000 description 2
- 230000006399 behavior Effects 0.000 description 1
- 230000008901 benefit Effects 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 238000004590 computer program Methods 0.000 description 1
- 238000012937 correction Methods 0.000 description 1
- 238000000354 decomposition reaction Methods 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 238000003709 image segmentation Methods 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000001537 neural effect Effects 0.000 description 1
- 230000002093 peripheral effect Effects 0.000 description 1
- 238000000053 physical method Methods 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 230000000717 retained effect Effects 0.000 description 1
- 230000006641 stabilisation Effects 0.000 description 1
- 238000011105 stabilization Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/084—Backpropagation, e.g. using gradient descent
-
- G06T5/73—
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/082—Learning methods modifying the architecture, e.g. adding, deleting or silencing nodes or connections
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F17/00—Digital computing or data processing equipment or methods, specially adapted for specific functions
- G06F17/10—Complex mathematical operations
- G06F17/11—Complex mathematical operations for solving equations, e.g. nonlinear equations, general mathematical optimization problems
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/20—Analysis of motion
- G06T7/246—Analysis of motion using feature-based methods, e.g. the tracking of corners or segments
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/20—Analysis of motion
- G06T7/246—Analysis of motion using feature-based methods, e.g. the tracking of corners or segments
- G06T7/248—Analysis of motion using feature-based methods, e.g. the tracking of corners or segments involving reference images or patches
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/20—Image preprocessing
- G06V10/25—Determination of region of interest [ROI] or a volume of interest [VOI]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/20—Image preprocessing
- G06V10/30—Noise filtering
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/44—Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
- G06V10/443—Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components by matching or filtering
- G06V10/449—Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters
- G06V10/451—Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters with interaction between the filter responses, e.g. cortical complex cells
- G06V10/454—Integrating the filters into a hierarchical structure, e.g. convolutional neural networks [CNN]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N23/00—Cameras or camera modules comprising electronic image sensors; Control thereof
- H04N23/80—Camera processing pipelines; Components thereof
- H04N23/81—Camera processing pipelines; Components thereof for suppressing or minimising disturbance in the image signal generation
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N5/00—Details of television systems
- H04N5/14—Picture signal circuitry for video frequency region
- H04N5/144—Movement detection
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/10—Image acquisition modality
- G06T2207/10016—Video; Image sequence
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20081—Training; Learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20084—Artificial neural networks [ANN]
Abstract
Description
及び
に対するそれぞれの重み付け値を意味することを特徴とする。
及び
に対するそれぞれの重み付け値を意味することを特徴とする。
及び
に対するそれぞれの重み付け値を意味する。この場合、||eij (t)||F 2は自明な解(Trivial Solution)を防止し、ジッタリングでない動きのベクトルに対する情報の量を最大化することができる。残りの項は、第tFPVベクトル及び第t物体モーションベクトルが、それぞれ第t−1FPVベクトル及び第t−1物体モーションベクトルに比べて非現実的に大きくならないようにする役割をする。これは、ジッタリングでないモーション(Motion)は、一フレーム単位の短時間の間に大きく変化しない特性があるためである。
Claims (26)
- 少なくとも1つのニューラルネットワーク(Neural Network)を使用してビデオ(Video)上のジッタリング(Jittering)を取り除くために、揺れるカメラにより生成された前記ビデオからジッタリングを検出する方法において、
(a)前記ビデオの第tフレームに該当する第tイメージが取得されると、コンピューティング装置が、第1ニューラルネットワークをもって、前記第tイメージに対して第1ニューラルネットワーク演算を少なくとも一回適用させて前記第tイメージ内のそれぞれの物体に対応する第tマスクそれぞれを生成させる段階;
(b)前記コンピューティング装置が、第2ニューラルネットワークをもって、(i)それぞれの前記第tマスクと、(ii)これに対応する、前記第tイメージの一部分であるそれぞれの第tクロップ済み(Cropped)イメージと、(iii)それぞれの第t−1マスクと、(iv)これに対応する、第t−1イメージの一部分であるそれぞれの第t−1クロップ済みイメージとに対して第2ニューラルネットワーク演算を少なくとも一回適用させて前記第tイメージに含まれた、それぞれの前記物体に対応する物体ピクセルそれぞれに対する第t物体モーションベクトル(Object Motion Vector)それぞれを生成させる段階;及び
(c)前記コンピューティング装置が、ジッタリング予測ユニット(Jittering Estimation Unit)をもって、前記第t物体モーションベクトルそれぞれを参照して前記第tイメージ内のピクセルのうち参照ピクセル(Reference Pixel)それぞれに対応する第tジッタリングベクトル(Jittering Vector)それぞれを生成させる段階;
を含むことを特徴とする方法。 - (d)前記コンピューティング装置が、前記ジッタリング予測ユニットをもって、前記第tジッタリングベクトルを参照して前記第tイメージのジッタリングを緩和した第t調整イメージ(Adjusted Image)を生成させる段階;
をさらに含むことを特徴とする請求項1に記載の方法。 - (e)前記コンピューティング装置が、学習ユニット(Learning Unit)をもって、(i)前記第tジッタリングベクトルを生成するためのプロセスを通じて最適化された第t調整物体モーションベクトル、及び(ii)最適化される前の前記第t物体モーションベクトルを参照して少なくとも一つのロスを算出させ、前記ロスをバックプロパゲーションすることによって前記第2ニューラルネットワークの少なくとも一つのパラメータの少なくとも一部を学習させる段階;
をさらに含むことを特徴とする請求項1に記載の方法。 - 前記(c)段階で、
前記コンピューティング装置が、前記ジッタリング予測ユニットをもって、(i)前記カメラで前記第t−1イメージを撮影した時点と前記第tイメージを撮影した時点との間に前記第tイメージ内のピクセルそれぞれに対応する地点それぞれの動いた程度を示すそれぞれの第tオプティカルフローベクトル(Optical Flow Vector)、及び(ii)前記カメラで前記第t−1イメージを撮影した時点と前記第tイメージを撮影した時点との間に3次元上における前記地点それぞれの動いた程度を示すそれぞれの第tFPVベクトルをさらに参照して前記第tジッタリングベクトルを生成させることを特徴とする請求項1に記載の方法。 - 前記(d)段階で、
前記コンピューティング装置が、前記ジッタリング予測ユニットをもって、
前記数式を最小化させるeij (t),vij (t),oxy (t)を算出させることによって前記第tジッタリングベクトルを生成させ、
eij (t)は前記第tジッタリングベクトルを意味し、vij (t)は前記第tFPVベクトルを意味し、oxy (t)は前記第t物体モーションベクトルを意味し、vij (t−1)は第t−1FPVベクトルを意味し、oxy (t−1)は第t−1物体モーションベクトルを意味し、λv及びλoは
及び
に対するそれぞれの重み付け値を意味することを特徴とする請求項4に記載の方法。 - 前記数式は、
前記条件を満たす項(Term)に対して有効であるようにし、
fij (t)は前記第tオプティカルフローベクトルのうち一部である、前記参照ピクセルに対する第1のt番目オプティカルフローベクトルを意味し、fxy (t)は前記参照ピクセルでない残りのピクセルに対する第2のt番目オプティカルフローベクトルを意味し、oij (t)は前記第t物体モーションベクトルのうち一部である、前記物体ピクセルであり、かつ前記参照ピクセルである特定ピクセルに対する第t物体モーションベクトルを意味し、シグマ記号下段のi,j∈NB(x,y)は所定のピクセルを含むグリッド内の前記参照ピクセルのうち一部に関する情報を使用するものであることを表し、wij,xyは前記グリッド内の前記所定のピクセルの少なくとも一つの位置によるそれぞれの重み付け値を表すことを特徴とする請求項5に記載の方法。 - 前記コンピューティング装置が、前記ジッタリング予測ユニットをもって、
前記数式を最小化させるeij (t),vij (t),oxy (t)を算出させ、
eij (t)は前記第tジッタリングベクトルを意味し、vij (t)は前記第tFPVベクトルを意味し、oxy (t)は前記第t物体モーションベクトルを意味し、vij (t−k)は第t−kイメージに対する第t−kFPVベクトルを意味し、oxy (t−k)は前記第t−kイメージに対する第t−k物体モーションベクトルを意味し、wkは|vij (t)−vij (t−k)|2及び|oxy (t)−oxy (t−k)|2に対するそれぞれの重み付け値を意味し、Kは所定の定数(constant)であることを特徴とする請求項4に記載の方法。 - 前記(b)段階で、
前記第2ニューラルネットワークは、第2_1ニューラルネットワーク及び第2_2ニューラルネットワークを含み、
前記第2_1ニューラルネットワークは、それぞれの前記第tマスクと、それぞれの前記第tクロップ済みイメージと、それぞれの前記第t−1マスクと、それぞれの前記第t−1クロップ済みイメージとに対して分析する、前記第2ニューラルネットワーク演算に含まれた第2_1ニューラルネットワーク演算を少なくとも一回遂行することによって少なくとも一つの中間特徴マップ(Intermediate Feature Map)を生成し、
前記第2_2ニューラルネットワークは、前記第tイメージが取得される以前に入力された値に対する分析内容を参照して前記中間特徴マップに対して前記第2ニューラルネットワーク演算に含まれた第2_2ニューラルネットワーク演算を少なくとも一回適用することによって前記第t物体モーションベクトルを生成することを特徴とする請求項1に記載の方法。 - 前記第2_2ニューラルネットワークは、
(i)第1イメージないし前記第t−1イメージのうち少なくとも一部に対する各値についての分析を反映して、前記第2_1ニューラルネットワークが生成された、前記第2_2ニューラルネットワークの状態ベクトル(State Vector)を使用して前記第t物体モーションベクトルを生成させ、(ii)前記状態ベクトルをアップデートさせることを特徴とする請求項8に記載の方法。 - 前記参照ピクセルは、前記第tイメージ上の前記グリッドのグリッドセル(Grid Cell)のバウンダリ(Boundary)上に位置する頂点であることを特徴とする請求項1に記載の方法。
- 前記(a)段階で、
前記第1ニューラルネットワークは少なくとも一つのRPN(Region Proposal Network)と、少なくとも一つのコンボリューションレイヤと、少なくとも一つのプーリングレイヤとを含み、
前記RPNが少なくとも一つのROIを生成すると、前記第1ニューラルネットワークは、二重線形補間法(Bilinear Interpolation)を利用して前記ROIに対応する少なくとも一つの領域を前記第tイメージ上で選択した後、これに前記コンボリューションレイヤによる演算を少なくとも一回適用することによって前記第tマスクを生成することを特徴とする請求項1に記載の方法。 - 少なくとも1つのニューラルネットワーク(Neural Network)を使用してテスト用ビデオ(Video)上でジッタリング(Jittering)を取り除くために、揺れるカメラにより生成された前記テスト用ビデオに前記ジッタリングを取り除くテスト方法において、
(a)学習装置が、(1)学習用ビデオ上の学習用第tフレームに該当する学習用第tイメージが取得されると、第1ニューラルネットワークをもって、前記学習用第tイメージに対して第1ニューラルネットワーク演算を少なくとも一回適用させて前記学習用第tイメージ内のそれぞれの学習用物体に対応する学習用第tマスクそれぞれを生成させ、(2)第2ニューラルネットワークをもって、(i)それぞれの前記学習用第tマスクと、(ii)これに対応する、前記学習用第tイメージの一部分であるそれぞれの学習用第tクロップ済み(Cropped)イメージと、(iii)それぞれの学習用第t−1マスクと、(iv)これに対応する、学習用第t−1イメージの一部分であるそれぞれの学習用第t−1クロップ済みイメージとに対して第2ニューラルネットワーク演算を少なくとも一回適用させて前記学習用第tイメージに含まれた、それぞれの前記学習用物体に対応する学習用物体ピクセルそれぞれに対する学習用第t物体モーションベクトル(Object Motion Vector)を生成させ、(3)ジッタリング予測ユニット(Jittering Estimation Unit)をもって、前記学習用第t物体モーションベクトルそれぞれを参照して前記学習用第tイメージ内のピクセルのうち学習用参照ピクセル(Reference Pixel)それぞれに対応する学習用第tジッタリングベクトル(Jittering Vector)それぞれを生成させ、(4)学習ユニットをもって、(i)前記学習用第tジッタリングベクトルを生成するためのプロセスを通じて最適化された学習用第t調整物体モーションベクトル、及び(ii)最適化される前の前記学習用第t物体モーションベクトルを参照して少なくとも一つのロスを算出させ、前記ロスをバックプロパゲーションすることによって前記第2ニューラルネットワークの少なくとも一つのパラメータの少なくとも一部を学習完了した状態で、前記テスト用ビデオのテスト用第tフレームに該当するテスト用第tイメージが取得されると、テスト装置が、前記第1ニューラルネットワークをもって、前記テスト用第tイメージに対して第1ニューラルネットワーク演算を適用させて前記テスト用第tイメージ内のそれぞれのテスト用物体に対応するテスト用第tマスクそれぞれを生成させる段階;
(b)前記テスト装置が、前記第2ニューラルネットワークをもって、(i)それぞれの前記テスト用第tマスクと、(ii)これに対応する、前記テスト用第tイメージの一部分であるそれぞれのテスト用第tクロップ済み(Cropped)イメージと、(iii)それぞれのテスト用第t−1マスクと、(iv)これに対応する、テスト用第t−1イメージの一部分であるそれぞれのテスト用第t−1クロップ済みイメージとに対して第2ニューラルネットワーク演算を適用させて前記テスト用第tイメージに含まれた、それぞれの前記テスト用物体に対応するテスト用物体ピクセルそれぞれに対するテスト用第t物体モーションベクトル(Object Motion Vector)それぞれを生成させる段階;及び
(c)前記テスト装置が、前記ジッタリング予測ユニット(Jittering Estimation Unit)をもって、前記テスト用第t物体モーションベクトルそれぞれを参照して、前記テスト用第tイメージ内のピクセルのうちテスト用参照ピクセル(Reference Pixel)それぞれに対応するテスト用第tジッタリングベクトル(Jittering Vector)それぞれを生成させる段階;
を含むことを特徴とする方法。 - (d)前記コンピューティング装置が、
前記ジッタリング予測ユニットをもって、前記テスト用第tジッタリングベクトルを参照して前記テスト用第tイメージのジッタリングを緩和したテスト用第t調整イメージ(Adjusted Image)を生成させる段階;
を含むことを特徴とする請求項12に記載の方法。 - 少なくとも一つのニューラルネットワーク(Neural Network)を使用してビデオ(Video)上のジッタリング(Jittering)を取り除くために、揺れるカメラにより生成された前記ビデオからジッタリングを検出するコンピューティング装置において、
インストラクションを格納する少なくとも一つのメモリと、
(I)前記ビデオの第tフレームに該当する第tイメージが取得されると、第1ニューラルネットワークをもって、前記第tイメージに対して第1ニューラルネットワーク演算を少なくとも一回適用させて前記第tイメージ内のそれぞれの物体に対応する第tマスクそれぞれを生成させるプロセス、(II)第2ニューラルネットワークをもって、(i)それぞれの前記第tマスクと、(ii)これに対応する、前記第tイメージの一部分であるそれぞれの第tクロップ済み(Cropped)イメージと、(iii)それぞれの第t−1マスクと、(iv)これに対応する、第t−1イメージの一部分であるそれぞれの第t−1クロップ済みイメージとに対して第2ニューラルネットワーク演算を少なくとも一回適用させて前記第tイメージに含まれた、それぞれの前記物体に対応する物体ピクセルそれぞれに対する第t物体モーションベクトル(Object Motion Vector)それぞれを生成させるプロセス、及び(III)ジッタリング予測ユニット(Jittering Estimation Unit)をもって、前記第t物体モーションベクトルそれぞれを参照して前記第tイメージ内のピクセルのうち参照ピクセル(Reference Pixel)それぞれに対応する第tジッタリングベクトル(Jittering Vector)それぞれを生成させるプロセスを遂行するための前記インストラクションを実行するように構成された少なくとも一つのプロセッサと、
を含むことを特徴とする装置。 - 前記プロセッサが、
(IV)前記ジッタリング予測ユニットをもって、前記第tジッタリングベクトルを参照して前記第tイメージのジッタリングを緩和した第t調整イメージ(Adjusted Image)を生成させるプロセス;
をさらに含むことを特徴とする請求項14に記載の装置。 - 前記プロセッサが、
(V)学習ユニット(Learning Unit)をもって、(i)前記第tジッタリングベクトルを生成するためのプロセスを通じて最適化された第t調整物体モーションベクトル、及び(ii)最適化される前の前記第t物体モーションベクトルを参照して少なくとも一つのロスを算出させ、前記ロスをバックプロパゲーションすることによって前記第2ニューラルネットワークの少なくとも一つのパラメータの少なくとも一部を学習させるプロセス;
をさらに含むことを特徴とする請求項14に記載の装置。 - 前記(III)プロセスで、
前記プロセッサが、
前記ジッタリング予測ユニットをもって、(i)前記カメラで前記第t−1イメージを撮影した時点と前記第tイメージを撮影した時点との間に前記第tイメージ内のピクセルそれぞれに対応する地点それぞれの動いた程度を示すそれぞれの第tオプティカルフローベクトル(Optical Flow Vector)、及び(ii)前記カメラで前記第t−1イメージを撮影した時点と前記第tイメージを撮影した時点との間に3次元上における前記地点それぞれの動いた程度を示すそれぞれの第tFPVベクトルをさらに参照して前記第tジッタリングベクトルを生成させることを特徴とする請求項14に記載の装置。 - 前記(IV)プロセスで、
前記プロセッサは、前記ジッタリング予測ユニットをもって、
前記数式を最小化させるeij (t),vij (t),oxy (t)を算出させることによって前記第tジッタリングベクトルを生成させ、
eij (t)は前記第tジッタリングベクトルを意味し、vij (t)は前記第tFPVベクトルを意味し、oxy (t)は前記第t物体モーションベクトルを意味し、vij (t−1)は第t−1FPVベクトルを意味し、oxy (t−1)は第t−1物体モーションベクトルを意味し、λv及びλoは
及び
に対するそれぞれの重み付け値を意味することを特徴とする請求項14に記載の装置。 - 前記数式は、
前記条件を満たす項(Term)に対して有効であるようにし、
fij (t)は前記第tオプティカルフローベクトルのうち一部である、前記参照ピクセルに対する第1のt番目オプティカルフローベクトルを意味し、fxy (t)は前記参照ピクセルでない残りのピクセルに対する第2のt番目オプティカルフローベクトルを意味し、oij (t)は前記第t物体モーションベクトルのうち一部である、前記物体ピクセルであり、かつ前記参照ピクセルである特定ピクセルに対する第t物体モーションベクトルを意味し、シグマ記号下段のi,j∈NB(x,y)は所定のピクセルを含むグリッド内の前記参照ピクセルのうち一部に関する情報を使用するものであることを表し、wij,xyは前記グリッド内の前記所定のピクセルの少なくとも一つの位置によるそれぞれの重み付け値を表すことを特徴とする請求項18に記載の装置。 - 前記プロセッサが、前記ジッタリング予測ユニットをもって、
前記数式を最小化させるeij (t),vij (t),oxy (t)を算出させ、
eij (t)は前記第tジッタリングベクトルを意味し、vij (t)は前記第tFPVベクトルを意味し、oxy (t)は前記第t物体モーションベクトルを意味し、vij (t−k)は第t−kイメージに対する第t−kFPVベクトルを意味し、oxy (t−k)は前記第t−kイメージに対する第t−k物体モーションベクトルを意味し、wkは|vij (t)−vij (t−k)|2及び|oxy (t)−oxy (t−k)|2に対するそれぞれの重み付け値を意味し、Kは所定の定数であることを特徴とする請求項17に記載の装置。 - 前記(II)プロセスで、
前記第2ニューラルネットワークは、第2_1ニューラルネットワーク及び第2_2ニューラルネットワークを含み、
前記第2_1ニューラルネットワークは、それぞれの前記第tマスクと、それぞれの前記第tクロップ済みイメージと、それぞれの前記第t−1マスクと、それぞれの前記第t−1クロップ済みイメージとについて分析する、前記第2ニューラルネットワーク演算に含まれた第2_1ニューラルネットワーク演算を少なくとも一回遂行することによって少なくとも一つの中間特徴マップ(Intermediate Feature Map)を生成し、
前記第2_2ニューラルネットワークは、前記第tイメージが取得される以前に入力された値に対する分析内容を参照して、前記中間特徴マップに対して前記第2ニューラルネットワーク演算に含まれた第2_2ニューラルネットワーク演算を少なくとも一回適用することによって前記第t物体モーションベクトルを生成することを特徴とする請求項14に記載の装置。 - 前記第2_2ニューラルネットワークは、
(i)第1イメージないし前記第t−1イメージのうち少なくとも一部に対する各値についての分析を反映して、前記第2_1ニューラルネットワークが生成された、前記第2_2ニューラルネットワークの状態ベクトル(State Vector)を使用して前記第t物体モーションベクトルを生成させ、(ii)前記状態ベクトルをアップデートさせることを特徴とする請求項21に記載の装置。 - 前記参照ピクセルは、前記第tイメージ上の前記グリッドのグリッドセル(Grid Cell)のバウンダリ(Boundary)上に位置する頂点であることを特徴とする請求項14に記載の装置。
- 前記(I)プロセスで、
前記第1ニューラルネットワークは少なくとも一つのRPN(Region Proposal Network)と、少なくとも一つのコンボリューションレイヤと、少なくとも一つのプーリングレイヤとを含み、
前記RPNが少なくとも一つのROIを生成すると、前記第1ニューラルネットワークは、二重線形補間法(Bilinear Interpolation)を利用して前記ROIに対応する少なくとも一つの領域を前記第tイメージ上で選択した後、これに前記コンボリューションレイヤによる演算を少なくとも一回適用することによって前記第tマスクを生成することを特徴とする請求項14に記載の装置。 - 少なくとも1つのニューラルネットワーク(Neural Network)を使用してテスト用ビデオ(Video)上でジッタリング(Jittering)を取り除くために、揺れるカメラにより生成された前記テスト用ビデオに前記ジッタリングを取り除くテスト装置において、
インストラクションを格納する少なくとも一つのメモリと、
学習装置が、(1)学習用ビデオ上の学習用第tフレームに該当する学習用第tイメージが取得されると、第1ニューラルネットワークをもって、前記学習用第tイメージに対して第1ニューラルネットワーク演算を少なくとも一回適用させて前記学習用第tイメージ内のそれぞれの学習用物体に対応する学習用第tマスクそれぞれを生成させ、(2)第2ニューラルネットワークをもって、(i)それぞれの前記学習用第tマスクと、(ii)これに対応する、前記学習用第tイメージの一部分であるそれぞれの学習用第tクロップ済み(Cropped)イメージと、(iii)それぞれの学習用第t−1マスクと、(iv)これに対応する、学習用第t−1イメージの一部分であるそれぞれの学習用第t−1クロップ済みイメージとに対して第2ニューラルネットワーク演算を少なくとも一回適用させて前記学習用第tイメージに含まれた、それぞれの前記学習用物体に対応する学習用物体ピクセルそれぞれに対する学習用第t物体モーションベクトル(Object Motion Vector)を生成させ、(3)ジッタリング予測ユニット(Jittering Estimation Unit)をもって、前記学習用第t物体モーションベクトルそれぞれを参照して前記学習用第tイメージ内のピクセルのうち学習用参照ピクセル(Reference Pixel)それぞれに対応する学習用第tジッタリングベクトル(Jittering Vector)それぞれを生成させ、(4)学習ユニットをもって、(i)前記学習用第tジッタリングベクトルを生成するためのプロセスを通じて最適化された学習用第t調整物体モーションベクトル、及び(ii)最適化される前の前記学習用第t物体モーションベクトルを参照して少なくとも一つのロスを算出させ、前記ロスをバックプロパゲーションすることによって前記第2ニューラルネットワークの少なくとも一つのパラメータの少なくとも一部を学習完了した状態で、(I)前記テスト用ビデオのテスト用第tフレームに該当するテスト用第tイメージが取得されると、テスト装置が、前記第1ニューラルネットワークをもって、前記テスト用第tイメージに対して第1ニューラルネットワーク演算を適用させて前記テスト用第tイメージ内のそれぞれのテスト用物体に対応するテスト用第tマスクそれぞれを生成させるプロセス、(II)前記第2ニューラルネットワークをもって、(i)それぞれの前記テスト用第tマスク、(ii)これに対応する、前記テスト用第tイメージの一部分であるそれぞれのテスト用第tクロップ済み(Cropped)イメージ、(iii)それぞれのテスト用第t−1マスク及び(iv)これに対応する、テスト用第t−1イメージの一部分であるそれぞれのテスト用第t−1クロップ済みイメージに対して第2ニューラルネットワーク演算を適用させて前記テスト用第tイメージに含まれた、それぞれの前記テスト用物体に対応するテスト用物体ピクセルそれぞれに対するテスト用第t物体モーションベクトル(Object Motion Vector)それぞれを生成させるプロセス、及び(III)前記ジッタリング予測ユニット(Jittering Estimation Unit)をもって、前記テスト用第t物体モーションベクトルそれぞれを参照して前記テスト用第tイメージ内のピクセルのうちテスト用参照ピクセル(Reference Pixel)それぞれに対応するテスト用第tジッタリングベクトル(Jittering Vector)それぞれを生成させるプロセスを遂行するための前記インストラクションを実行するように構成された少なくとも一つのプロセッサと、
を含むことを特徴とする装置。 - 前記プロセッサが、
(IV)前記ジッタリング予測ユニットをもって、前記テスト用第tジッタリングベクトルを参照して前記テスト用第tイメージのジッタリングを緩和したテスト用第t調整イメージ(Adjusted Image)を生成させるプロセス;
を含むことを特徴とする請求項25に記載の装置。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US16/262,996 US10482584B1 (en) | 2019-01-31 | 2019-01-31 | Learning method and learning device for removing jittering on video acquired through shaking camera by using a plurality of neural networks for fault tolerance and fluctuation robustness in extreme situations, and testing method and testing device using the same |
US16/262,996 | 2019-01-31 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2020126617A true JP2020126617A (ja) | 2020-08-20 |
JP6901803B2 JP6901803B2 (ja) | 2021-07-14 |
Family
ID=68536108
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2020005486A Active JP6901803B2 (ja) | 2019-01-31 | 2020-01-16 | フォールトトレランス及びフラクチュエーションロバスト性のための複数のニューラルネットワークを使用して揺れるカメラにより生成されたビデオからジッタリングを取り除くための学習方法及び学習装置、そしてそれを利用したテスト方法及びテスト装置 |
Country Status (5)
Country | Link |
---|---|
US (1) | US10482584B1 (ja) |
EP (1) | EP3690811A1 (ja) |
JP (1) | JP6901803B2 (ja) |
KR (1) | KR102320999B1 (ja) |
CN (1) | CN111507906B (ja) |
Families Citing this family (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10885628B2 (en) * | 2018-04-25 | 2021-01-05 | Seesure | Single image completion from retrieved image collections |
US20210181758A1 (en) * | 2019-10-26 | 2021-06-17 | Zoox, Inc. | Object detection and tracking |
CN111901532B (zh) * | 2020-09-30 | 2020-12-25 | 南京理工大学 | 基于循环神经网络迭代策略的视频稳定方法 |
US20220138903A1 (en) * | 2020-11-04 | 2022-05-05 | Nvidia Corporation | Upsampling an image using one or more neural networks |
WO2023140446A1 (ko) * | 2022-01-19 | 2023-07-27 | 한화비전 주식회사 | 영상처리장치 및 그의 영상처리방법 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH11283040A (ja) * | 1998-01-29 | 1999-10-15 | Mitsubishi Electric Corp | 操作制御装置および動作解析プログラムを記録したコンピュ―タ読み取り可能な記録媒体 |
US20170186176A1 (en) * | 2015-12-28 | 2017-06-29 | Facebook, Inc. | Systems and methods for determining optical flow |
WO2017210455A1 (en) * | 2016-06-01 | 2017-12-07 | Kla-Tencor Corporation | Systems and methods incorporating a neural network and a forward physical model for semiconductor applications |
CN107566688A (zh) * | 2017-08-30 | 2018-01-09 | 广州华多网络科技有限公司 | 一种基于卷积神经网络的视频防抖方法及装置 |
JP2018180619A (ja) * | 2017-04-04 | 2018-11-15 | キヤノン株式会社 | 情報処理装置、情報処理方法及びプログラム |
Family Cites Families (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5012270A (en) * | 1988-03-10 | 1991-04-30 | Canon Kabushiki Kaisha | Image shake detecting device |
WO2009072264A1 (ja) * | 2007-12-03 | 2009-06-11 | Panasonic Corporation | 画像処理装置、撮影装置、再生装置、集積回路及び画像処理方法 |
JP5414405B2 (ja) * | 2009-07-21 | 2014-02-12 | キヤノン株式会社 | 画像処理装置、撮像装置及び画像処理方法 |
JP2015039085A (ja) * | 2011-12-14 | 2015-02-26 | パナソニック株式会社 | 画像処理装置及び画像処理方法 |
EP2936804A4 (en) * | 2012-12-21 | 2016-06-01 | Thomson Licensing | VIDEO QUALITY MODEL, METHOD FOR DEVELOPING A VIDEO QUALITY MODEL AND METHOD FOR DETERMINING THE VIDEO QUALITY USING A VIDEO QUALITY MODEL |
US9374532B2 (en) * | 2013-03-15 | 2016-06-21 | Google Inc. | Cascaded camera motion estimation, rolling shutter detection, and camera shake detection for video stabilization |
CN106485226A (zh) * | 2016-10-14 | 2017-03-08 | 杭州派尼澳电子科技有限公司 | 一种基于神经网络的视频行人检测方法 |
WO2018119240A1 (en) * | 2016-12-21 | 2018-06-28 | Massachusetts Institute Of Technology | Determining soil state and controlling equipment based on captured images |
US20180181864A1 (en) * | 2016-12-27 | 2018-06-28 | Texas Instruments Incorporated | Sparsified Training of Convolutional Neural Networks |
US10534962B2 (en) * | 2017-06-17 | 2020-01-14 | Matterport, Inc. | Automated classification based on photo-realistic image/model mappings |
US10217028B1 (en) * | 2017-08-22 | 2019-02-26 | Northrop Grumman Systems Corporation | System and method for distributive training and weight distribution in a neural network |
US10089743B1 (en) * | 2017-10-05 | 2018-10-02 | StradVision, Inc. | Method for segmenting an image and device using the same |
KR101935399B1 (ko) * | 2018-07-11 | 2019-01-16 | 주식회사 두원전자통신 | 심층 신경망 알고리즘 기반 광역 다중 객체 감시 시스템 |
CN109064507B (zh) * | 2018-08-21 | 2021-06-22 | 北京大学深圳研究生院 | 一种用于视频预测的多运动流深度卷积网络模型方法 |
-
2019
- 2019-01-31 US US16/262,996 patent/US10482584B1/en active Active
- 2019-11-15 KR KR1020190147109A patent/KR102320999B1/ko active IP Right Grant
-
2020
- 2020-01-09 CN CN202010020867.9A patent/CN111507906B/zh active Active
- 2020-01-09 EP EP20150915.5A patent/EP3690811A1/en active Pending
- 2020-01-16 JP JP2020005486A patent/JP6901803B2/ja active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH11283040A (ja) * | 1998-01-29 | 1999-10-15 | Mitsubishi Electric Corp | 操作制御装置および動作解析プログラムを記録したコンピュ―タ読み取り可能な記録媒体 |
US20170186176A1 (en) * | 2015-12-28 | 2017-06-29 | Facebook, Inc. | Systems and methods for determining optical flow |
WO2017210455A1 (en) * | 2016-06-01 | 2017-12-07 | Kla-Tencor Corporation | Systems and methods incorporating a neural network and a forward physical model for semiconductor applications |
JP2018180619A (ja) * | 2017-04-04 | 2018-11-15 | キヤノン株式会社 | 情報処理装置、情報処理方法及びプログラム |
CN107566688A (zh) * | 2017-08-30 | 2018-01-09 | 广州华多网络科技有限公司 | 一种基于卷积神经网络的视频防抖方法及装置 |
Also Published As
Publication number | Publication date |
---|---|
KR102320999B1 (ko) | 2021-11-03 |
CN111507906B (zh) | 2023-10-10 |
KR20200095339A (ko) | 2020-08-10 |
CN111507906A (zh) | 2020-08-07 |
JP6901803B2 (ja) | 2021-07-14 |
EP3690811A1 (en) | 2020-08-05 |
US10482584B1 (en) | 2019-11-19 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP2020126617A (ja) | フォールトトレランス及びフラクチュエーションロバスト性のための複数のニューラルネットワークを使用して揺れるカメラにより生成されたビデオからジッタリングを取り除くための学習方法及び学習装置、そしてそれを利用したテスト方法及びテスト装置 | |
US11200696B2 (en) | Method and apparatus for training 6D pose estimation network based on deep learning iterative matching | |
KR102302725B1 (ko) | 룸 레이아웃 추정 방법들 및 기술들 | |
WO2020048396A1 (zh) | 一种连续图像的目标检测方法、装置、设备及存储介质 | |
US20210049371A1 (en) | Localisation, mapping and network training | |
US11138742B2 (en) | Event-based feature tracking | |
EP3686837B1 (en) | Learning method and learning device for reducing distortion occurred in warped image generated in process of stabilizing jittered image by using gan to enhance fault tolerance and fluctuation robustness in extreme situations | |
JP7345664B2 (ja) | 不確実性を有するランドマーク位置推定のための画像処理システムおよび方法 | |
CN113657560B (zh) | 基于节点分类的弱监督图像语义分割方法及系统 | |
Qu et al. | Depth completion via deep basis fitting | |
KR20220143725A (ko) | 2차원 이미지들로부터 3차원 객체 모델들의 생성 | |
CN110838122B (zh) | 点云的分割方法、装置及计算机存储介质 | |
US11789466B2 (en) | Event camera based navigation control | |
Chaffre et al. | Sim-to-real transfer with incremental environment complexity for reinforcement learning of depth-based robot navigation | |
CN112085849A (zh) | 基于航拍视频流的实时迭代三维建模方法、系统及可读介质 | |
CN111581313A (zh) | 一种基于实例分割的语义slam鲁棒性改进方法 | |
CN113160278A (zh) | 一种场景流估计、场景流估计模型的训练方法和装置 | |
Lambert et al. | Deep forward and inverse perceptual models for tracking and prediction | |
Jiang et al. | Object detection and counting with low quality videos | |
de Boer et al. | Choosing between optical flow algorithms for UAV position change measurement | |
Vora et al. | Future segmentation using 3d structure | |
KR20190090141A (ko) | 공동 학습을 이용한 기계학습 시스템 및 그 방법 | |
CN112348843A (zh) | 调整深度图像预测模型的方法、装置和电子设备 | |
Kuse et al. | Deep-mapnets: A residual network for 3d environment representation | |
CN114613002B (zh) | 基于光线投影原理的运动视角下动态物体检测方法及系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20200116 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20210209 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20210510 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20210602 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20210611 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 6901803 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |