JP6901803B2

JP6901803B2 - フォールトトレランス及びフラクチュエーションロバスト性のための複数のニューラルネットワークを使用して揺れるカメラにより生成されたビデオからジッタリングを取り除くための学習方法及び学習装置、そしてそれを利用したテスト方法及びテスト装置

Info

Publication number: JP6901803B2
Application number: JP2020005486A
Authority: JP
Inventors: − ヒョンキム、ケイ; キム、ヨンジュン; キム、インスー; − キョンキム、ハク; ナム、ウヒョン; ブー、ソッフン; ソン、ミュンチュル; ヨー、ドンフン; リュー、ウジュ; チャン、テウン; ジョン、キュンチョン; チェ、ホンモ; チョウ、ホジン
Original assignee: Stradvision Inc
Current assignee: Stradvision Inc
Priority date: 2019-01-31
Filing date: 2020-01-16
Publication date: 2021-07-14
Anticipated expiration: 2040-01-16
Also published as: KR102320999B1; CN111507906A; EP3690811A1; KR20200095339A; JP2020126617A; CN111507906B; US10482584B1

Description

本発明は自動走行自動車とともに利用する学習方法及び学習装置に関し、より詳細には、少なくとも一つのニューラルネットワーク（ＮｅｕｒａｌＮｅｔｗｏｒｋ）を使用してビデオ（Ｖｉｄｅｏ）上のジッタリング（Ｊｉｔｔｅｒｉｎｇ）を取り除くために、揺れるカメラにより生成された前記ビデオからジッタリングを検出する学習方法及び学習装置、そしてこれを利用したテスト方法及びテスト装置に関する。

ディープコンボリューションニューラルネットワーク（ＤｅｅｐＣｏｎｖｏｌｕｔｉｏｎＮｅｕｒａｌＮｅｔｗｏｒｋｓ；ＤｅｅｐＣＮＮｓ）は、ディープラーニング分野で起きた驚くべき発展の核心である。ＣＮＮは、文字の認識問題を解決するために９０年代にすでに使用されていたが、現在のように広く使われるようになったのは最近の研究結果の賜物である。このようなＣＮＮは、２０１２年ＩｍａｇｅＮｅｔイメージ分類コンテストで他の競争相手に勝って優勝を収めた。そして、コンボリューションニューラルネットワークは機械学習（ＭａｃｈｉｎｅＬｅａｒｎｉｎｇ）分野で非常に有用なツールとなった。

ＣＮＮは、自動車の自律走行分野においても広く使用されているが、これは主に自動車に取り付けられたカメラを通じて取得されたイメージを分析することで障害物を検出し、フリースペース（ＦｒｅｅＳｐａｃｅ）を検出するなどの機能を遂行して安全に車両が走行し得るようにする。

ところが、このようにＣＮＮを利用して自動車を自律走行させる方法は、特定の状況において遂行が困難であり得る。すなわち、ＣＮＮは、カメラを通じて得られたイメージを使用しなければならないが、カメラが揺れるなどの問題によりイメージが大きく揺れると、ビデオのそれぞれのフレームごとにイメージが大きく変わるジッタリング（Ｊｉｔｔｅｒｉｎｇ）現象が発生するようになる。このようなジッタリング現象が発生すると、ＣＮＮがイメージ上の物体の動きを追跡するのが難しくなる。特に、このようなジッタリング現象は、オフロードで頻繁に走行する軍用車両の自律走行の状況で非常に多く発生するところ、これを防ぐための方法が極めて重要である。

このようなジッタリングを防ぐための従来技術として、物理的にカメラの動きを測定した後、これを利用してジッタリングが発生したイメージを補正する方法があるが、これはかなり費用がかかり、カメラモジュールの重さがさらにかさむようになり、複数の装置を使用するようになるため、故障を起こす危険が高くなる。上述した物理的な方法ではなく、ソフトウェア的な方法が従来技術として存在しはするものの、これもやはりイメージの物体のフローのみを考慮しているため、ジッタリングが発生したイメージを補正する過程でイメージに大きな歪曲を発生させる問題点がある。

本発明は、上述した問題点を解決することを目的とする。

本発明は、複数のニューラルネットワーク（ＮｅｕｒａｌＮｅｔｗｏｒｋ）を通じてジッタリング（Ｊｉｔｔｅｒｉｎｇ）が発生したイメージを補正して、カメラが揺れても適切なイメージを取得し得るようにすることを他の目的とする。

前記のような本発明の目的を達成し、後述する本発明の特徴的な効果を実現するための本発明の特徴的な構成は以下の通りである。

本発明の一態様によると、少なくとも１つのニューラルネットワーク（ＮｅｕｒａｌＮｅｔｗｏｒｋ）を使用してビデオ（Ｖｉｄｅｏ）上のジッタリング（Ｊｉｔｔｅｒｉｎｇ）を取り除くために、揺れるカメラにより生成された前記ビデオからジッタリングを検出する方法において、（ａ）前記ビデオの第ｔフレームに該当する第ｔイメージが取得されると、コンピューティング装置が、第１ニューラルネットワークをもって、前記第ｔイメージに対して第１ニューラルネットワーク演算を少なくとも一回適用させて前記第ｔイメージ内のそれぞれの物体に対応する第ｔマスクそれぞれを生成させる段階；（ｂ）前記コンピューティング装置が、第２ニューラルネットワークをもって、（ｉ）それぞれの前記第ｔマスクと、（ｉｉ）これに対応する、前記第ｔイメージの一部分であるそれぞれの第ｔクロップ済み（Ｃｒｏｐｐｅｄ）イメージと、（ｉｉｉ）それぞれの第ｔ−１マスクと、（ｉｖ）これに対応する、第ｔ−１イメージの一部分であるそれぞれの第ｔ−１クロップ済みイメージとに対して第２ニューラルネットワーク演算を少なくとも一回適用させて前記第ｔイメージに含まれた、それぞれの前記物体に対応する物体ピクセルそれぞれに対する第ｔ物体モーションベクトル（ＯｂｊｅｃｔＭｏｔｉｏｎＶｅｃｔｏｒ）それぞれを生成させる段階；及び（ｃ）前記コンピューティング装置が、ジッタリング予測ユニット（ＪｉｔｔｅｒｉｎｇＥｓｔｉｍａｔｉｏｎＵｎｉｔ）をもって、前記第ｔ物体モーションベクトルそれぞれを参照して前記第ｔイメージ内のピクセルのうち参照ピクセル（ＲｅｆｅｒｅｎｃｅＰｉｘｅｌ）それぞれに対応する第ｔジッタリングベクトル（ＪｉｔｔｅｒｉｎｇＶｅｃｔｏｒ）それぞれを生成させる段階；を含むことを特徴とする。

一実施例において、（ｄ）前記コンピューティング装置が、前記ジッタリング予測ユニットをもって、前記第ｔジッタリングベクトルを参照して前記第ｔイメージのジッタリングを緩和した第ｔ調整イメージ（ＡｄｊｕｓｔｅｄＩｍａｇｅ）を生成させる段階；をさらに含むことを特徴とする。

一実施例において、（ｅ）前記コンピューティング装置が、学習ユニット（ＬｅａｒｎｉｎｇＵｎｉｔ）をもって、（ｉ）前記第ｔジッタリングベクトルを生成するためのプロセスを通じて最適化された第ｔ調整物体モーションベクトル、及び（ｉｉ）最適化される前の前記第ｔ物体モーションベクトルを参照して少なくとも一つのロスを算出させ、前記ロスをバックプロパゲーションすることによって前記第２ニューラルネットワークの少なくとも一つのパラメータの少なくとも一部を学習させる段階；をさらに含むことを特徴とする。

一実施例において、前記（ｃ）段階で、前記コンピューティング装置が前記ジッタリング予測ユニットをもって、（ｉ）前記カメラで前記第ｔ−１イメージを撮影した時点と前記第ｔイメージを撮影した時点との間に前記第ｔイメージ内のピクセルそれぞれに対応する地点それぞれの動いた程度を示すそれぞれの第ｔオプティカルフローベクトル（ＯｐｔｉｃａｌＦｌｏｗＶｅｃｔｏｒ）、及び（ｉｉ）前記カメラで前記第ｔ−１イメージを撮影した時点と前記第ｔイメージを撮影した時点との間に３次元上における前記地点それぞれの動いた程度を示すそれぞれの第ｔＦＰＶベクトルをさらに参照して前記第ｔジッタリングベクトルを生成させることを特徴とする。

一実施例において、前記（ｄ）段階で、前記コンピューティング装置が、前記ジッタリング予測ユニットをもって、

前記数式を最小化させるｅ_ｉｊ ^（ｔ），ｖ_ｉｊ ^（ｔ），ｏ_ｘｙ ^（ｔ）を算出させることによって前記第ｔジッタリングベクトルを生成させ、ｅ_ｉｊ ^（ｔ）は、前記第ｔジッタリングベクトルを意味し、ｖ_ｉｊ ^（ｔ）は前記第ｔＦＰＶベクトルを意味し、ｏ_ｘｙ ^（ｔ）は前記第ｔ物体モーションベクトルを意味し、ｖ_ｉｊ ^{（ｔ−１）}は第ｔ−１ＦＰＶベクトルを意味し、ｏ_ｘｙ ^{（ｔ−１）}は第ｔ−１物体モーションベクトルを意味し、λ_ｖ及びλ_ｏは

及び

に対するそれぞれの重み付け値を意味することを特徴とする。

一実施例において、前記数式は、

前記条件を満たす項（Ｔｅｒｍ）に対して有効であるようにし、ｆ_ｉｊ ^（ｔ）は前記第ｔオプティカルフローベクトルのうち一部である、前記参照ピクセルに対する第１のｔ番目オプティカルフローベクトルを意味し、ｆ_ｘｙ ^（ｔ）は前記参照ピクセルでない残りのピクセルに対する第２のｔ番目オプティカルフローベクトルを意味し、ｏ_ｉｊ ^（ｔ）は前記第ｔ物体モーションベクトルのうち一部である、前記物体ピクセルであり、かつ前記参照ピクセルである特定ピクセルに対する第ｔ物体モーションベクトルを意味し、シグマ記号下段のｉ，ｊ∈ＮＢ（ｘ，ｙ）は所定のピクセルを含むグリッド内の前記参照ピクセルのうち一部に関する情報を使用するものであることを表し、ｗ_{ｉｊ，ｘｙ}は前記グリッド内の前記所定のピクセルの少なくとも一つの位置によるそれぞれの重み付け値を表すことを特徴とする。

一実施例において、前記コンピューティング装置が、前記ジッタリング予測ユニットをもって、

前記数式を最小化させるｅ_ｉｊ ^（ｔ），ｖ_ｉｊ ^（ｔ），ｏ_ｘｙ ^（ｔ）を算出させ、ｅ_ｉｊ ^（ｔ）は前記第ｔジッタリングベクトルを意味し、ｖ_ｉｊ ^（ｔ）は前記第ｔＦＰＶベクトルを意味し、ｏ_ｘｙ ^（ｔ）は前記第ｔ物体モーションベクトルを意味し、ｖ_ｉｊ ^{（ｔ−ｋ）}は第ｔ−ｋイメージに対する第ｔ−ｋＦＰＶベクトルを意味し、ｏ_ｘｙ ^{（ｔ−ｋ）}は前記第ｔ−ｋイメージに対する第ｔ−ｋ物体モーションベクトルを意味し、ｗ_ｋは｜ｖ_ｉｊ ^（ｔ）−ｖ_ｉｊ ^{（ｔ−ｋ）}｜^２及び｜ｏ_ｘｙ ^（ｔ）−ｏ_ｘｙ ^{（ｔ−ｋ）}｜^２に対するそれぞれの重み付け値を意味し、Ｋは所定の定数（ｃｏｎｓｔａｎｔ）であることを特徴とする。

一実施例において、前記（ｂ）段階で、前記第２ニューラルネットワークは、第２＿１ニューラルネットワーク及び第２＿２ニューラルネットワークを含み、前記第２＿１ニューラルネットワークは、それぞれの前記第ｔマスクと、それぞれの前記第ｔクロップ済みイメージと、それぞれの前記第ｔ−１マスクと、それぞれの前記第ｔ−１クロップ済みイメージとに対して分析する、前記第２ニューラルネットワーク演算に含まれた第２＿１ニューラルネットワーク演算を少なくとも一回遂行することによって少なくとも一つの中間特徴マップ（ＩｎｔｅｒｍｅｄｉａｔｅＦｅａｔｕｒｅＭａｐ）を生成し、前記第２＿２ニューラルネットワークは、前記第ｔイメージが取得される以前に入力された値に対する分析内容を参照して前記中間特徴マップに対して前記第２ニューラルネットワーク演算に含まれた第２＿２ニューラルネットワーク演算を少なくとも一回適用することによって前記第ｔ物体モーションベクトルを生成することを特徴とする。

一実施例において、前記第２＿２ニューラルネットワークは、（ｉ）第１イメージないし前記第ｔ−１イメージのうち少なくとも一部に対する各値についての分析を反映して、前記第２＿１ニューラルネットワークが生成された、前記第２＿２ニューラルネットワークの状態ベクトル（ＳｔａｔｅＶｅｃｔｏｒ）を使用して前記第ｔ物体モーションベクトルを生成させ、（ｉｉ）前記状態ベクトルをアップデートさせることを特徴とする。

一実施例において、前記参照ピクセルは、前記第ｔイメージ上の前記グリッドのグリッドセル（ＧｒｉｄＣｅｌｌ）のバウンダリ（Ｂｏｕｎｄａｒｙ）上に位置する頂点であることを特徴とする。

一実施例において、前記（ａ）段階で、前記第１ニューラルネットワークは少なくとも一つのＲＰＮ（ＲｅｇｉｏｎＰｒｏｐｏｓａｌＮｅｔｗｏｒｋ）と、少なくとも一つのコンボリューションレイヤと、少なくとも一つのプーリングレイヤとを含み、前記ＲＰＮが少なくとも一つのＲＯＩを生成すると、前記第１ニューラルネットワークは、二重線形補間法（ＢｉｌｉｎｅａｒＩｎｔｅｒｐｏｌａｔｉｏｎ）を利用して前記ＲＯＩに対応する少なくとも一つの領域を前記第ｔイメージ上で選択した後、これに前記コンボリューションレイヤによる演算を少なくとも一回適用することによって前記第ｔマスクを生成することを特徴とする。

本発明の他の態様によると、少なくとも１つのニューラルネットワーク（ＮｅｕｒａｌＮｅｔｗｏｒｋ）を使用してテスト用ビデオ（Ｖｉｄｅｏ）上でジッタリング（Ｊｉｔｔｅｒｉｎｇ）を取り除くために、揺れるカメラにより生成された前記テスト用ビデオに前記ジッタリングを取り除くテスト方法において、（ａ）学習装置が、（１）学習用ビデオ上の学習用第ｔフレームに該当する学習用第ｔイメージが取得されると、第１ニューラルネットワークをもって、前記学習用第ｔイメージに対して第１ニューラルネットワーク演算を少なくとも一回適用させて前記学習用第ｔイメージ内のそれぞれの学習用物体に対応する学習用第ｔマスクそれぞれを生成させ、（２）第２ニューラルネットワークをもって、（ｉ）それぞれの前記学習用第ｔマスクと、（ｉｉ）これに対応する、前記学習用第ｔイメージの一部分であるそれぞれの学習用第ｔクロップ済み（Ｃｒｏｐｐｅｄ）イメージと、（ｉｉｉ）それぞれの学習用第ｔ−１マスクと、（ｉｖ）これに対応する、学習用第ｔ−１イメージの一部分であるそれぞれの学習用第ｔ−１クロップ済みイメージとに対して第２ニューラルネットワーク演算を少なくとも一回適用させて前記学習用第ｔイメージに含まれた、それぞれの前記学習用物体に対応する学習用物体ピクセルそれぞれに対する学習用第ｔ物体モーションベクトル（ＯｂｊｅｃｔＭｏｔｉｏｎＶｅｃｔｏｒ）を生成させ、（３）ジッタリング予測ユニット（ＪｉｔｔｅｒｉｎｇＥｓｔｉｍａｔｉｏｎＵｎｉｔ）をもって、前記学習用第ｔ物体モーションベクトルそれぞれを参照して前記学習用第ｔイメージ内のピクセルのうち学習用参照ピクセル（ＲｅｆｅｒｅｎｃｅＰｉｘｅｌ）それぞれに対応する学習用第ｔジッタリングベクトル（ＪｉｔｔｅｒｉｎｇＶｅｃｔｏｒ）それぞれを生成させ、（４）学習ユニットをもって、（ｉ）前記学習用第ｔジッタリングベクトルを生成するためのプロセスを通じて最適化された学習用第ｔ調整物体モーションベクトル、及び（ｉｉ）最適化される前の前記学習用第ｔ物体モーションベクトルを参照して少なくとも一つのロスを算出させ、前記ロスをバックプロパゲーションすることによって前記第２ニューラルネットワークの少なくとも一つのパラメータの少なくとも一部を学習完了した状態で、前記テスト用ビデオのテスト用第ｔフレームに該当するテスト用第ｔイメージが取得されると、テスト装置が、前記第１ニューラルネットワークをもって、前記テスト用第ｔイメージに対して第１ニューラルネットワーク演算を適用させて前記テスト用第ｔイメージ内のそれぞれのテスト用物体に対応するテスト用第ｔマスクそれぞれを生成させる段階；（ｂ）前記テスト装置が、前記第２ニューラルネットワークをもって、（ｉ）それぞれの前記テスト用第ｔマスクと、（ｉｉ）これに対応する、前記テスト用第ｔイメージの一部分であるそれぞれのテスト用第ｔクロップ済み（Ｃｒｏｐｐｅｄ）イメージと、（ｉｉｉ）それぞれのテスト用第ｔ−１マスクと、（ｉｖ）これに対応する、テスト用第ｔ−１イメージの一部分であるそれぞれのテスト用第ｔ−１クロップ済みイメージとに対して第２ニューラルネットワーク演算を適用させて前記テスト用第ｔイメージに含まれた、それぞれの前記テスト用物体に対応するテスト用物体ピクセルそれぞれに対するテスト用第ｔ物体モーションベクトル（ＯｂｊｅｃｔＭｏｔｉｏｎＶｅｃｔｏｒ）それぞれを生成させる段階；及び（ｃ）前記テスト装置が、前記ジッタリング予測ユニット（ＪｉｔｔｅｒｉｎｇＥｓｔｉｍａｔｉｏｎＵｎｉｔ）をもって、前記テスト用第ｔ物体モーションベクトルそれぞれを参照して、前記テスト用第ｔイメージ内のピクセルのうちテスト用参照ピクセル（ＲｅｆｅｒｅｎｃｅＰｉｘｅｌ）それぞれに対応するテスト用第ｔジッタリングベクトル（ＪｉｔｔｅｒｉｎｇＶｅｃｔｏｒ）それぞれを生成させる段階；を含むことを特徴とする。

一実施例において、（ｄ）前記コンピューティング装置が、前記ジッタリング予測ユニットをもって、前記テスト用第ｔジッタリングベクトルを参照して前記テスト用第ｔイメージのジッタリングを緩和したテスト用第ｔ調整イメージ（ＡｄｊｕｓｔｅｄＩｍａｇｅ）を生成させる段階；を含むことを特徴とする。

本発明のまた他の態様によると、少なくとも一つのニューラルネットワークを使用してビデオ（Ｖｉｄｅｏ）上のジッタリング（Ｊｉｔｔｅｒｉｎｇ）を取り除くために、揺れるカメラにより生成された前記ビデオからジッタリングを検出するコンピューティング装置において、インストラクションを格納する少なくとも一つのメモリと、（Ｉ）前記ビデオの第ｔフレームに該当する第ｔイメージが取得されると、第１ニューラルネットワークをもって、前記第ｔイメージに対して第１ニューラルネットワーク演算を少なくとも一回適用させて前記第ｔイメージ内のそれぞれの物体に対応する第ｔマスクそれぞれを生成させるプロセス、（ＩＩ）第２ニューラルネットワークをもって、（ｉ）それぞれの前記第ｔマスクと、（ｉｉ）これに対応する、前記第ｔイメージの一部分であるそれぞれの第ｔクロップ済み（Ｃｒｏｐｐｅｄ）イメージと、（ｉｉｉ）それぞれの第ｔ−１マスクと、（ｉｖ）これに対応する、第ｔ−１イメージの一部分であるそれぞれの第ｔ−１クロップ済みイメージとに対して第２ニューラルネットワーク演算を少なくとも一回適用させて前記第ｔイメージに含まれた、それぞれの前記物体に対応する物体ピクセルそれぞれに対する第ｔ物体モーションベクトル（ＯｂｊｅｃｔＭｏｔｉｏｎＶｅｃｔｏｒ）それぞれを生成させるプロセス、及び（ＩＩＩ）ジッタリング予測ユニット（ＪｉｔｔｅｒｉｎｇＥｓｔｉｍａｔｉｏｎＵｎｉｔ）をもって、前記第ｔ物体モーションベクトルそれぞれを参照して前記第ｔイメージ内のピクセルのうち参照ピクセル（ＲｅｆｅｒｅｎｃｅＰｉｘｅｌ）それぞれに対応する第ｔジッタリングベクトル（ＪｉｔｔｅｒｉｎｇＶｅｃｔｏｒ）それぞれを生成させるプロセスを遂行するための前記インストラクションを実行するように構成された少なくとも一つのプロセッサと、を含むことを特徴とする。

一実施例において、前記プロセッサが、（ＩＶ）前記ジッタリング予測ユニットをもって、前記第ｔジッタリングベクトルを参照して前記第ｔイメージのジッタリングを緩和した第ｔ調整イメージ（ＡｄｊｕｓｔｅｄＩｍａｇｅ）を生成させるプロセス；をさらに含むことを特徴とする。

一実施例において、前記プロセスが、（Ｖ）学習ユニット（ＬｅａｒｎｉｎｇＵｎｉｔ）をもって、（ｉ）前記第ｔジッタリングベクトルを生成するためのプロセスを通じて最適化された第ｔ調整物体モーションベクトル、及び（ｉｉ）最適化される前の前記第ｔ物体モーションベクトルを参照して少なくとも一つのロスを算出させ、前記ロスをバックプロパゲーションすることによって前記第２ニューラルネットワークの少なくとも一つのパラメータの少なくとも一部を学習させるプロセス；をさらに含むことを特徴とする。

一実施例において、前記（ＩＩＩ）プロセスで、前記プロセッサが、前記ジッタリング予測ユニットをもって、（ｉ）前記カメラで前記第ｔ−１イメージを撮影した時点と前記第ｔイメージを撮影した時点との間に前記第ｔイメージ内のピクセルそれぞれに対応する地点それぞれの動いた程度を示すそれぞれの第ｔオプティカルフローベクトル（ＯｐｔｉｃａｌＦｌｏｗＶｅｃｔｏｒ）、及び（ｉｉ）前記カメラで前記第ｔ−１イメージを撮影した時点と前記第ｔイメージを撮影した時点との間に３次元上における前記地点それぞれの動いた程度を示すそれぞれの第ｔＦＰＶベクトルをさらに参照して前記第ｔジッタリングベクトルを生成させることを特徴とする。

一実施例において、前記（ＩＶ）プロセスで、前記プロセッサは、前記ジッタリング予測ユニットをもって、

前記数式を最小化させるｅ_ｉｊ ^（ｔ），ｖ_ｉｊ ^（ｔ），ｏ_ｘｙ ^（ｔ）を算出させることによって前記第ｔジッタリングベクトルを生成させ、ｅ_ｉｊ ^（ｔ）は前記第ｔジッタリングベクトルを意味し、ｖ_ｉｊ ^（ｔ）は前記第ｔＦＰＶベクトルを意味し、ｏ_ｘｙ ^（ｔ）は前記第ｔ物体モーションベクトルを意味し、ｖ_ｉｊ ^{（ｔ−１）}は第ｔ−１ＦＰＶベクトルを意味し、ｏ_ｘｙ ^{（ｔ−１）}は第ｔ−１物体モーションベクトルを意味し、λ_ｖ及びλ_ｏは

及び

一実施例において、前記数式は、

一実施例において、前記プロセッサが、前記ジッタリング予測ユニットをもって、

前記数式を最小化させるｅ_ｉｊ ^（ｔ）,ｖ_ｉｊ ^（ｔ）,ｏ_ｘｙ ^（ｔ）を算出させ、ｅ_ｉｊ ^（ｔ）は前記第ｔジッタリングベクトルを意味し、ｖ_ｉｊ ^（ｔ）は前記第ｔＦＰＶベクトルを意味し、ｏ_ｘｙ ^（ｔ）は前記第ｔ物体モーションベクトルを意味し、ｖ_ｉｊ ^{（ｔ−ｋ）}は第ｔ−ｋイメージに対する第ｔ−ｋＦＰＶベクトルを意味し、ｏ_ｘｙ ^{（ｔ−ｋ）}は前記第ｔ−ｋイメージに対する第ｔ−ｋ物体モーションベクトルを意味し、ｗ_ｋは｜ｖ_ｉｊ ^（ｔ）−ｖ_ｉｊ ^{（ｔ−ｋ）}｜^２及び｜ｏ_ｘｙ ^（ｔ）−ｏ_ｘｙ ^{（ｔ−ｋ）}｜^２に対するそれぞれの重み付け値を意味し、Ｋは所定の定数であることを特徴とする。

一実施例において、前記（ＩＩ）プロセスで、前記第２ニューラルネットワークは、第２＿１ニューラルネットワーク及び第２＿２ニューラルネットワークを含み、前記第２＿１ニューラルネットワークは、それぞれの前記第ｔマスクと、それぞれの前記第ｔクロップ済みイメージと、それぞれの前記第ｔ−１マスクと、それぞれの前記第ｔ−１クロップ済みイメージとについて分析する、前記第２ニューラルネットワーク演算に含まれた第２＿１ニューラルネットワーク演算を少なくとも一回遂行することによって少なくとも一つの中間特徴マップ（ＩｎｔｅｒｍｅｄｉａｔｅＦｅａｔｕｒｅＭａｐ）を生成し、前記第２＿２ニューラルネットワークは、前記第ｔイメージが取得される以前に入力された値に対する分析内容を参照して前記中間特徴マップに対して前記第２ニューラルネットワーク演算に含まれた第２＿２ニューラルネットワーク演算を少なくとも一回適用することによって前記第ｔ物体モーションベクトルを生成することを特徴とする。

一実施例において、前記（Ｉ）プロセスで、前記第１ニューラルネットワークは少なくとも一つのＲＰＮ（ＲｅｇｉｏｎＰｒｏｐｏｓａｌＮｅｔｗｏｒｋ）と、少なくとも一つのコンボリューションレイヤと、少なくとも一つのプーリングレイヤとを含み、前記ＲＰＮが少なくとも一つのＲＯＩを生成すると、前記第１ニューラルネットワークは、二重線形補間法（ＢｉｌｉｎｅａｒＩｎｔｅｒｐｏｌａｔｉｏｎ）を利用して前記ＲＯＩに対応する少なくとも一つの領域を前記第ｔイメージ上で選択した後、これに前記コンボリューションレイヤによる演算を少なくとも一回適用することによって前記第ｔマスクを生成することを特徴とする。

本発明のまた他の態様によると、少なくとも１つのニューラルネットワーク（ＮｅｕｒａｌＮｅｔｗｏｒｋ）を使用してテスト用ビデオ（Ｖｉｄｅｏ）上でジッタリング（Ｊｉｔｔｅｒｉｎｇ）を取り除くために、揺れるカメラにより生成された前記テスト用ビデオに前記ジッタリングを取り除くテスト装置において、インストラクションを格納する少なくとも一つのメモリと、学習装置が、（１）学習用ビデオ上の学習用第ｔフレームに該当する学習用第ｔイメージが取得されると、第１ニューラルネットワークをもって、前記学習用第ｔイメージに対して第１ニューラルネットワーク演算を少なくとも一回適用させて前記学習用第ｔイメージ内のそれぞれの学習用物体に対応する学習用第ｔマスクそれぞれを生成させ、（２）第２ニューラルネットワークをもって、（ｉ）それぞれの前記学習用第ｔマスクと、（ｉｉ）これに対応する、前記学習用第ｔイメージの一部分であるそれぞれの学習用第ｔクロップ済み（Ｃｒｏｐｐｅｄ）イメージと、（ｉｉｉ）それぞれの学習用第ｔ−１マスクと、（ｉｖ）これに対応する、学習用第ｔ−１イメージの一部分であるそれぞれの学習用第ｔ−１クロップ済みイメージとに対して第２ニューラルネットワーク演算を少なくとも一回適用させて前記学習用第ｔイメージに含まれた、それぞれの前記学習用物体に対応する学習用物体ピクセルそれぞれに対する学習用第ｔ物体モーションベクトル（ＯｂｊｅｃｔＭｏｔｉｏｎＶｅｃｔｏｒ）を生成させ、（３）ジッタリング予測ユニット（ＪｉｔｔｅｒｉｎｇＥｓｔｉｍａｔｉｏｎＵｎｉｔ）をもって、前記学習用第ｔ物体モーションベクトルそれぞれを参照して前記学習用第ｔイメージ内のピクセルのうち学習用参照ピクセル（ＲｅｆｅｒｅｎｃｅＰｉｘｅｌ）それぞれに対応する学習用第ｔジッタリングベクトル（ＪｉｔｔｅｒｉｎｇＶｅｃｔｏｒ）それぞれを生成させ、（４）学習ユニットをもって、（ｉ）前記学習用第ｔジッタリングベクトルを生成するためのプロセスを通じて最適化された学習用第ｔ調整物体モーションベクトル、及び（ｉｉ）最適化される前の前記学習用第ｔ物体モーションベクトルを参照して少なくとも一つのロスを算出させ、前記ロスをバックプロパゲーションすることによって前記第２ニューラルネットワークの少なくとも一つのパラメータの少なくとも一部を学習完了した状態で、（Ｉ）前記テスト用ビデオのテスト用第ｔフレームに該当するテスト用第ｔイメージが取得されると、テスト装置が、前記第１ニューラルネットワークをもって、前記テスト用第ｔイメージに対して第１ニューラルネットワーク演算を適用させて前記テスト用第ｔイメージ内のそれぞれのテスト用物体に対応するテスト用第ｔマスクそれぞれを生成させるプロセス、（ＩＩ）前記第２ニューラルネットワークをもって、（ｉ）それぞれの前記テスト用第ｔマスク、（ｉｉ）これに対応する、前記テスト用第ｔイメージの一部分であるそれぞれのテスト用第ｔクロップ済み（Ｃｒｏｐｐｅｄ）イメージ、（ｉｉｉ）それぞれのテスト用第ｔ−１マスク及び（ｉｖ）これに対応する、テスト用第ｔ−１イメージの一部分であるそれぞれのテスト用第ｔ−１クロップ済みイメージに対して第２ニューラルネットワーク演算を適用させて前記テスト用第ｔイメージに含まれた、それぞれの前記テスト用物体に対応するテスト用物体ピクセルそれぞれに対するテスト用第ｔ物体モーションベクトル（ＯｂｊｅｃｔＭｏｔｉｏｎＶｅｃｔｏｒ）それぞれを生成させるプロセス、及び（ＩＩＩ）前記ジッタリング予測ユニット（ＪｉｔｔｅｒｉｎｇＥｓｔｉｍａｔｉｏｎＵｎｉｔ）をもって、前記テスト用第ｔ物体モーションベクトルそれぞれを参照して前記テスト用第ｔイメージ内のピクセルのうちテスト用参照ピクセル（ＲｅｆｅｒｅｎｃｅＰｉｘｅｌ）それぞれに対応するテスト用第ｔジッタリングベクトル（ＪｉｔｔｅｒｉｎｇＶｅｃｔｏｒ）それぞれを生成させるプロセスを遂行するための前記インストラクションを実行するように構成された少なくとも一つのプロセッサと、を含むことを特徴とする。

一実施例において、前記プロセッサが、（ＩＶ）前記ジッタリング予測ユニットをもって、前記テスト用第ｔジッタリングベクトルを参照して前記テスト用第ｔイメージのジッタリングを緩和したテスト用第ｔ調整イメージ（ＡｄｊｕｓｔｅｄＩｍａｇｅ）を生成させるプロセス；を含むことを特徴とする。

その他にも、本発明の方法を実行するためのコンピュータプログラムを格納するためのコンピュータ読取り可能な記録媒体がさらに提供される。

本発明は、複数のニューラルネットワーク（ＮｅｕｒａｌＮｅｔｗｏｒｋ）を使用して、揺れたカメラから取得された、ジッタリング（Ｊｉｔｔｅｒｉｎｇ）が発生したイメージを補正する方法を提供することによって、カメラが揺れても適切なイメージを取得し得るようにする効果がある。

本発明は、極限状況において、フォールトトレランス（ＦａｕｌｔＴｏｌｅｒａｎｃｅ）及びフラクチュエーションロバスト性（ＦｌｕｃｔｕａｔｉｏｎＲｏｂｕｓｔｎｅｓｓ）のある複数のニューラルネットワークを提供する他の効果がある。

本発明の実施例の説明に利用されるために添付された以下の各図面は、本発明の実施例のうち単に一部であるに過ぎず、本発明の属する技術分野において通常の知識を有する者（以下「通常の技術者」）にとっては、発明的作業が行われずにこれらの図面に基づいて他の各図面が得られ得る。

本発明の一実施例による複数のニューラルネットワーク（ＮｅｕｒａｌＮｅｔｗｏｒｋ）を使用してビデオ上でジッタリング（Ｊｉｔｔｅｒｉｎｇ）を取り除く方法を遂行するコンピューティング装置の構成を簡略に示した図面である。本発明の一実施例による複数のニューラルネットワークを使用してビデオ上でジッタリングを取り除く方法を学習するプロセスを簡略に示した図面である。本発明の一実施例による複数のニューラルネットワークを使用してビデオ上でジッタリングを取り除く方法を遂行するための第２ニューラルネットワークの例示的な構造を簡略に示した図面である。本発明の一実施例による複数のニューラルネットワークを使用してビデオ上でジッタリングを取り除く方法を遂行するために第ｔイメージ上の、参照ピクセル（ＲｅｆｅｒｅｎｃｅＰｉｘｅｌ）でない特定ピクセルのオプティカルフローベクトル（ＯｐｔｉｃａｌＦｌｏｗＶｅｃｔｏｒ）をモデリングした例示を簡略に示した図面である。

後述する本発明に関する詳細な説明は、本発明が実施され得る特定の実施例を例示として示す添付図面を参照する。これらの実施例は、当業者が本発明を実施することができるように十分詳細に説明される。本発明の多様な実施例は互いに異なるが、相互に排他的である必要はないことが理解されるべきである。例えば、ここに記載されている特定の形状、構造及び特性は、一実施例に関連して本発明の精神及び範囲を逸脱せず、かつ他の実施例で具現され得る。また、それぞれの開示された実施例内の個別の構成要素の位置又は配置は、本発明の精神及び範囲を逸脱せず、かつ変更され得ることが理解されるべきである。したがって、後述の詳細な説明は、限定的な意味として受け取ろうとするものではなく、本発明の範囲は適切に説明されるのであれば、その請求項が主張することと均等な全ての範囲とともに添付された請求項によってのみ限定される。図面において類似の参照符号は、様々な側面にわたって同一であるか、又は類似の機能を指す。

本発明で言及している各種イメージは、舗装または非舗装道路関連のイメージを含み得、この場合、道路環境で登場し得る物体（例えば、自動車、人、動物、植物、物、建物、飛行機やドローンのような飛行体、その他の障害物）を想定し得るが、必ずしもこれに限定されるものではなく、本発明で言及している各種イメージは、道路と関係のないイメージ（例えば、非舗装道路、路地、空き地、海、湖、川、山、森、砂漠、空、室内と関連したイメージ）でもあり得、この場合、非舗装道路、路地、空き地、海、湖、川、山、森、砂漠、空、室内環境で登場し得る物体（例えば、自動車、人、動物、植物、物、建物、飛行機やドローンのような飛行体、その他の障害物）を想定し得るが、必ずしもこれに限定されるものではない。

以下、本発明の属する技術分野において通常の知識を有する者が本発明を容易に実施し得るようにするために、本発明の好ましい実施例について、添付された図面を参照して詳細に説明することにする。

図１は、本発明の一実施例による複数のニューラルネットワーク（ＮｅｕｒａｌＮｅｔｗｏｒｋ）を使用してビデオ上でジッタリング（Ｊｉｔｔｅｒｉｎｇ）を取り除く方法を遂行するコンピューティング装置の構成を簡略に示した図面である。

図１を参照すると、コンピューティング装置１００は、追って詳細に説明する構成要素である第１ニューラルネットワーク１３０と、第２ニューラルネットワーク１４０と、ジッタリング予測ユニット（ＪｉｔｔｅｒｉｎｇＥｓｔｉｍａｔｉｏｎＵｎｉｔ）１５０と、学習ユニット１６０とを含むことができる。第１ニューラルネットワーク１３０、第２ニューラルネットワーク１４０、ジッタリング予測ユニット１５０、及び学習ユニット１６０の入出力及び演算の過程は、それぞれ通信部１１０及びプロセッサ１２０によって行われ得る。ただし、図１では通信部１１０とプロセッサ１２０との間の具体的な連結関係を省略した。この場合、メモリ１１５は、後述する様々なインストラクションを格納した状態であり得、プロセッサ１２０は、メモリ１１５に格納されたインストラクションを遂行するように設定され、プロセッサ１２０は、追って説明するプロセスを遂行することによって本発明を遂行することができる。このように学習装置１００が描写されたからといって、コンピューティング装置１００が本発明を実施するためのプロセッサ、メモリ媒体または他のコンピューティング装置のすべての組み合わせを含む統合プロセッサ（ＩｎｔｅｇｒａｔｅｄＰｒｏｃｅｓｓｏｒ）を含む場合を排除するわけではない。

以上、コンピューティング装置１００の全体的な構成について説明したところ、コンピューティング装置１００が遂行する、複数のニューラルネットワークを使用してビデオ上でジッタリングを取り除く方法について説明することにする。

図２は、本発明の一実施例による複数のニューラルネットワークを使用してビデオ上でジッタリングを取り除く方法を学習する過程に関する図面である。

図２を参照すると、第１ニューラルネットワーク１３０と、第２ニューラルネットワーク１４０と、ジッタリング予測ユニット１５０とによって順次に演算が遂行され得る。学習ユニット１６０が演算結果を利用して少なくとも一つのロスを生成した後、このロスをバックプロパゲーションすることによって第２ニューラルネットワーク１４０の少なくとも一つのパラメータの少なくとも一部を学習することができる。

具体的に、まず、コンピューティング装置１００は、第ｔイメージを取得するか他の装置をもって取得するように支援することができる。第ｔイメージは、カメラが揺れて、それから取得された映像、すなわちビデオにジッタリングが発生した場合、当該ビデオのｔ番目フレームであり得る。一方、本発明の一実施例による方法は、カメラが揺れてジッタリングが発生した場合に適用されるものであり、揺れたカメラの効果はビデオの最初のフレーム以後から発生するようになるので、以下、詳細な説明においてｔは２以上であるものと仮定したことを明らかにしておく。取得された前記第ｔイメージは、まず第１ニューラルネットワーク１３０に入力される。コンピューティング装置１００は、第１ニューラルネットワーク１３０をもって、第ｔイメージに対して第１ニューラルネットワーク演算を少なくとも一回適用して、第ｔイメージ内のそれぞれの物体に対応するそれぞれの第ｔマスクを生成させることができる。

第ｔマスクは、第１ニューラルネットワーク１３０を通じて第ｔイメージに対して物体検出及びイメージセグメンテーションが適用された結果であり得る。具体的に、第１ニューラルネットワーク１３０は、少なくとも一つのＲＰＮ（ＲｅｇｉｏｎＰｒｏｐｏｓａｌＮｅｔｗｏｒｋ）、少なくとも一つのコンボリューションレイヤ及び少なくとも一つのプーリングレイヤを含むことができる。この場合、ＲＰＮが少なくとも一つのＲＯＩを生成すると、第１ニューラルネットワークは、二重線形補間法（ＢｉｌｉｎｅａｒＩｎｔｅｒｐｏｌａｔｉｏｎ）を通じてＲＯＩに対応する少なくとも一つの領域を第ｔイメージ上で選択した後、前記少なくとも一つの領域に対してコンボリューションレイヤ演算を少なくとも一回適用することによって第ｔマスクを生成することができる。したがって、それぞれの第ｔマスクは、第ｔイメージ上のそれぞれの物体を含むバウンディングボックス（ＢｏｕｎｄｉｎｇＢｏｘ）それぞれであり得、それぞれの第ｔマスクは、物体に該当するピクセルは１と、物体に該当しないピクセルは０と表示された構造を有することができる。

この場合、例示的に、第１ニューラルネットワーク１３０は、広く知られているマスクＲ−ＣＮＮ（ＭａｓｋＲ−ＣＮＮ）と類似した構造を有することができる。また、第１ニューラルネットワーク１３０は、本発明の一実施例による方法を学習する過程が遂行される前に、前記のような、第ｔマスクを生成する方法を学習していてもよい。

以後、コンピューティング装置１００は、第２ニューラルネットワーク１４０をもって、（ｉ）それぞれの第ｔマスクと、（ｉｉ）これに対応する、第ｔイメージの一部分であるそれぞれの第ｔクロップ済み（Ｃｒｏｐｐｅｄ）イメージと、（ｉｉｉ）それぞれの第ｔ−１マスクと、（ｉｖ）これに対応する、第ｔ−１イメージの一部分であるそれぞれの第ｔ−１クロップ済みイメージとを取得させ、（ｉｉｉ）及び（ｉｖ）は、第ｔフレームの以前のフレームである第ｔ−１フレームに対応する第ｔ−１イメージであり得る。第ｔクロップ済みイメージは、第ｔイメージの一部に対応するイメージであり得、前記一部は第ｔマスクに対応する。また、第ｔ−１マスク及び第ｔ−１クロップ済みイメージは、第２ニューラルネットワーク１４０が第ｔ−１イメージに対して処理する際に生成されたものであり得る。

それぞれの第ｔマスクと、それぞれの第ｔクロップ済みイメージと、それぞれの第ｔ−１マスクと、それぞれの第ｔ−１クロップ済みイメージとが取得されると、コンピューティング装置１００は、第２ニューラルネットワーク１４０をもって、それぞれの第ｔマスクと、それぞれの第ｔクロップ済みイメージと、それぞれの第ｔ−１マスクと、それぞれの第ｔ−１クロップ済みイメージとに対して第２ニューラルネットワーク演算を少なくとも一回適用させて、第ｔ物体モーションベクトルを生成させることができる。

それぞれの第ｔ物体モーションベクトルは、第ｔ−１イメージを撮影した時点と前記第ｔイメージを撮影した時点との間にそれぞれの物体が動いた程度を示すベクトルである。すなわち、第ｔ−１特定マスク及び特定の第ｔマスクに対応する特定の物体が存在するのであれば、第２ニューラルネットワーク１４０は、（ｉ）特定の物体に対応する特定の物体ピクセルの第ｔ-１特定マスク上の位置と特定の第ｔマスクにおける位置とを比較した位置比較情報（ＣｏｍｐａｒｉｓｏｎＩｎｆｏｒｍａｔｉｏｎ）を取得し、（ｉｉ）第ｔ−１特定クロップ済みイメージと特定の第ｔクロップ済みイメージとを比較することによって背景の変化に関する変化情報（ＣｈａｎｇｅＩｎｆｏｒｍａｔｉｏｎ）を取得した後、（ｉｉｉ）位置比較情報及び変化情報を参照して特定の物体が第ｔ−１イメージを撮影した時点と前記第ｔイメージを撮影した時点との間に動いた程度を示す特定の第ｔ物体モーションベクトルを生成することができるのである。

この場合、第２ニューラルネットワーク１４０は、単一のＣＮＮの構造を有し得、それにより遂行される第２ニューラルネットワーク演算は少なくとも一つのコンボリューション演算及びこれに付加される演算を含むことができる。ただし、これはさらに効率的に、少ない資源を使用するにもかかわらず、より好ましい結果を出すための構造であって、第２ニューラルネットワーク１４０が第２＿１ニューラルネットワーク及び第２＿２ニューラルネットワークを含むことができる。これについて説明するために、図３を参照することにする。

図３は、本発明の一実施例による複数のニューラルネットワークを使用してビデオからジッタリングを取り除く方法を遂行するための第２ニューラルネットワークの例示的な構造を簡略に示した図面である。

図３を参照すると、第２＿１ニューラルネットワーク１４１と第２＿２ニューラルネットワーク１４２とが順次に演算を遂行することによって第ｔジッタリングベクトルを生成することが分かる。

具体的に説明すると、第２＿１ニューラルネットワーク１４１は、ＣＮＮの構造を有し得、これは、それぞれの第ｔマスクと、それぞれの第ｔクロップ済みイメージと、それぞれの第ｔ−１マスクと、それぞれの第ｔ−１クロップ済みイメージとに対して、コンボリューション演算を含む、第２＿１ニューラルネットワーク演算を少なくとも一回適用することによって、入力された値に対する分析情報を含む少なくとも一つの中間特徴マップ（ＩｎｔｅｒｍｅｄｉａｔｅＦｅａｔｕｒｅＭａｐ）を生成することができる。以後、ＲＮＮ構造を有する第２＿２ニューラルネットワーク１４２は、中間特徴マップを取得することができ、これを通じて入力された値に対する分析情報を参照して中間特徴マップに対して第２＿２ニューラルネットワーク演算を適用することにより第ｔ物体モーションベクトルを生成することができる。前記分析結果は、第ｔイメージが取得される以前に第２＿２ニューラルネットワークに入力されていた値に対する分析結果を含む。このプロセスは、第２＿２ニューラルネットワーク演算が遂行されると第２＿２ニューラルネットワーク１４２がそれ自体に入力された値を処理するたびにアップデートされる状態ベクトル（ＳｔａｔｅＶｅｃｔｏｒ）を参照することによって第２＿２ニューラルネットワーク１４２を通じて行われ得る。

以後、コンピューティング装置１００は、ジッタリング予測ユニット１５０をもって、第ｔ物体モーションベクトルを参照して第ｔジッタリングベクトルを生成させることができる。この過程において、第２ニューラルネットワーク１４０における少なくとも一部パラメータの学習のためのロスが算出され得るが、それぞれの過程について以下で考察する。

具体的に、コンピューティング装置１００が、ジッタリング予測ユニット１５０をもって、第ｔ物体モーションベクトルを参照して、第ｔイメージに含まれたピクセルのうち参照ピクセル（ＲｅｆｅｒｅｎｃｅＰｉｘｅｌ）に対応する第ｔジッタリングベクトルを生成させることができる。参照ピクセルとは、第ｔイメージ上に生成されたグリッドの少なくとも一つのグリッドセル（ＧｒｉｄＣｅｌｌ）のバウンダリ（Ｂｏｕｎｄａｒｙ）上に位置する頂点である。実質的に、第ｔイメージ内の全てのピクセルに対してジッタリングの程度を計算するとすれば、その演算量があまりにも大きくなり、これはリアルタイム性が重要な自律走行において遅延が発生し得るところ、第ｔイメージを分割するグリッドを使用し、グリッドセルの頂点となるピクセルのジッタリングを計算することによって第ｔイメージに対する第ｔジッタリングベクトルを生成することができる。すなわち、第ｔジッタリングベクトルとは、第ｔイメージ内のそれぞれのピクセルを代表し得る参照ピクセルのジッタリングを追跡した結果であって、カメラのジッタリングの振幅と方向とを示す指標となる。

第ｔジッタリングベクトルを生成するために、コンピューティング装置１００は、ジッタリング予測ユニット１５０をもって、さらに第ｔオプティカルフローベクトル及び第ｔＦＰＶベクトルを参照して第ｔ物体モーションベクトルに対する最適化の過程を経るようにするところ、これについて具体的に考察する。

まず、（ｉ）それぞれの第ｔオプティカルフローベクトルは、第ｔイメージ内のそれぞれのピクセルに対応するそれぞれの地点が、第ｔ−１イメージを撮影した時点と第ｔイメージを撮影した時点との間に動いた程度を示し、（ｉｉ）それぞれの第ｔＦＰＶベクトルは、カメラが第ｔ−１イメージを撮影した時点と第ｔイメージを撮影した時点との間に、それぞれの地点が３次元上で動いた程度を示すことができる。この際、第ｔオプティカルフローベクトルは、言及した他のベクトルとは異なり、推定されたものではなく、ルーカスカナデ法（Ｌｕｃａｓ−ＫａｎａｄｅＭｅｔｈｏｄ）を通じて第ｔ−１イメージと第ｔイメージとを比較して適用することによって正確に計算されるものである。すなわち、これは、下記にて説明する最適化過程によって変化するものではない定数（ｃｏｎｓｔａｎｔ）である。また、第ｔジッタリングベクトルと第ｔＦＰＶベクトルとは参照ピクセルに対してのみ算出され、第ｔ物体モーションベクトルは、第ｔイメージ上で物体に対応するものと判別された物体ピクセルでないピクセルに対しては０と設定され得る。

最適化過程のために、第ｔオプティカルフローベクトルと、第ｔＦＰＶベクトルと、第ｔ物体モーションベクトルと、第ｔジッタリングベクトルとの間に下記の２つの数式のような関係があると仮定する。

前記数式は、基本的に測定された第ｔオプティカルフローベクトルが、第ｔＦＰＶベクトルと、第ｔ物体モーションベクトルと、第ｔジッタリングベクトルとの和からなるという仮定を示す。具体的に見ると、最初の左側数式の項（Ｔｅｒｍ）のうち、ｆ_ｉｊ ^（ｔ）は参照ピクセルに対する第１のｔ番目オプティカルフローベクトルを意味し、ｏ_ｉｊ ^（ｔ）は物体ピクセル及び参照ピクセルである特定ピクセルの第ｔ物体モーションベクトルを意味し、ｖ_ｉｊ ^（ｔ）は第ｔＦＰＶベクトルを意味し、ｅ_ｉｊ ^（ｔ）は第ｔジッタリングベクトルを意味する。

参照ピクセルの第１のｔ番目オプティカルフローベクトルは、最初の数式のように残りのベクトルの和（Ｓｕｍ）としてモデリングされるが、これとは異なり、参照ピクセルでないピクセルの第２のｔ番目オプティカルフローベクトルは、周辺参照ピクセルに対する第ｔＦＰＶベクトル及び第ｔジッタリングベクトルの加重和（ＷｅｉｇｈｔｅｄＳｕｍ）としてモデリングされる。ｆ_ｘｙ ^（ｔ）は参照ピクセルでない残りのピクセルに対する第ｔオプティカルフローベクトルを意味し、ｏ_ｘｙ ^（ｔ）は参照ピクセルでない残りのピクセルの第ｔ物体モーションベクトルを意味し、シグマ記号は、グリッドをなす、参照ピクセルのうち一部の参照ピクセルに対する第ｔＦＰＶベクトル及び第ｔジッタリングベクトルの加重和を意味する。これについて例示を挙げて説明するために、図４を参照することにする。

図４は、本発明の一実施例に従って複数のニューラルネットワークを使用してビデオでジッタリングを取り除く方法を遂行するために第ｔイメージ上の、参照ピクセルでない特定ピクセルのオプティカルフローベクトルをモデリングしたものを簡略に示した図面である。

前記説明を図４を例に挙げて敷衍説明すると、人の腕部分に対応する特定ピクセルの第ｔオプティカルフローベクトル１５１が、第ｔ物体モーションベクトル１５２と、特定ピクセル周辺の参照ピクセルに対する第ｔＦＰＶベクトル１５３＿１、１５３＿２、１５３＿３、１５３＿４と、特定ピクセル周辺の参照ピクセルに対する第ｔジッタリングベクトル１５４＿１、１５４＿２、１５４＿３、１５４＿４とからなっているものとしてモデリングしたということである。このとき、それぞれの第ｔＦＰＶベクトル１５３＿１、１５３＿２、１５３＿３、１５３＿４及びそれぞれの第ｔジッタリングベクトル１５４＿１、１５４＿２、１５４＿３、１５４＿４をどれぐらい反映するかは、前記数式のシグマ記号中にある重み付け値であるｗ_{ｉｊ，ｘｙ}によって決定され得る。例示的に、前記重み付け値は、特定ピクセルとそれぞれの参照ピクセルとの間の距離によって決定され得る。

前記のような仮定下において、第ｔオプティカルフローベクトルを除いた残りのベクトルは、下記のような数式によって最適化され得る。

すなわち、前述した仮定下において、前記数式を最小化する、ｅ_ｉｊ ^（ｔ），ｖ_ｉｊ ^（ｔ），ｏ_ｘｙ ^（ｔ）を見出すことによって第ｔ物体モーションベクトルを最適化し、第ｔＦＰＶベクトル、第ｔジッタリングベクトルを生成するのである。第ｔ物体モーションベクトルの場合、第２ニューラルネットワーク１４０により生成された第ｔ物体モーションベクトルを基準として、前記式を利用して調整される方式で最適化され得る。

前記数式において、ｖ_ｉｊ ^{（ｔ−１）}は第ｔ−１ＦＰＶベクトルを意味し、ｏ_ｘｙ ^{（ｔ−１）}は第ｔ−１物体モーションベクトルを意味し、λ_ｖ及びλ_ｏは

及び

に対するそれぞれの重み付け値を意味する。この場合、｜｜ｅ_ｉｊ ^（ｔ）｜｜_Ｆ ^２は自明な解（ＴｒｉｖｉａｌＳｏｌｕｔｉｏｎ）を防止し、ジッタリングでない動きのベクトルに対する情報の量を最大化することができる。残りの項は、第ｔＦＰＶベクトル及び第ｔ物体モーションベクトルが、それぞれ第ｔ−１ＦＰＶベクトル及び第ｔ−１物体モーションベクトルに比べて非現実的に大きくならないようにする役割をする。これは、ジッタリングでないモーション（Ｍｏｔｉｏｎ）は、一フレーム単位の短時間の間に大きく変化しない特性があるためである。

その他の例として、別の数式によって最適化過程を経る実施例について説明することにする。

本来の数式と前記数式とが異なるのは、本来の数式は第ｔフレームすぐ前のフレームに対応する第ｔ−１イメージを参照して生成された情報を利用したとすると、新たな実施例の前記別の数式は、第ｔフレーム直前の以前のＫ個のフレームに対応するイメージを参照して生成された情報を利用するというものである。ｖ_ｉｊ ^{（ｔ−ｋ）}は第ｔ−ｋイメージに対する第ｔ−ｋＦＰＶベクトルを意味し、ｏ_ｘｙ ^{（ｔ−ｋ）}は第ｔ−ｋイメージに対する第ｔ−ｋ物体モーションベクトルを意味するところ、前記新たな数式が直前に説明したような役割をすることができる。ｗ_ｋは｜ｖ_ｉｊ ^（ｔ）−ｖ_ｉｊ ^{（ｔ−ｋ）}｜^２及び｜ｏ_ｘｙ ^（ｔ）−ｏ_ｘｙ ^{（ｔ−ｋ）}｜^２に対する重み付け値を意味し得るが、例示的にｅｘｐ（―ｋ^２／Ｋ^２）のような数式で表現され得る。このようなプロセスを使用すると、演算量が増える代わりにさらに正確に第ｔ物体モーションベクトルを最適化し、第ｔＦＰＶベクトル及び第ｔジッタリングベクトルを生成し得るようになる。

このように、第ｔイメージのジッタリングを緩和した第ｔ調整イメージを生成するために第ｔジッタリングベクトルを参照することができる。例示的に、それぞれの参照ピクセルのそれぞれの位置をそれぞれに対応する第ｔジッタリングベクトルと振幅は同じで方向は反対に動かした後、それに合わせてグリッド内部に含まれているそれぞれのイメージを調整することによってジッタリングを緩和し、第ｔ調整イメージを生成することができる。

以上、最適化過程について説明したところ、最適化の過程中に算出され得るロスを利用して第２ニューラルネットワーク１４０を学習する過程について検討することにする。

最適化過程において、前述したように第ｔ物体モーションベクトルは、第ｔＦＰＶベクトルと第ｔジッタリングベクトルとが生成されると同時に最適化される。この際、学習ユニット１６０は、（ｉ）ジッタリング予測ユニット１５０から最適化された第ｔ物体モーションベクトルを取得し、（ｉｉ）第２ニューラルネットワーク１４０から、最適化される以前の第ｔ物体モーションベクトルを取得した後、（ｉｉｉ）互いに対応する、最適化される前と最適化された後それぞれの第ｔ物体モーションベクトルの差異情報（ＤｉｆｆｅｒｅｎｃｅＩｎｆｏｒｍａｔｉｏｎ）を生成し、（ｉｖ）前記差異情報を参照してロスを生成することができる。以後、このロスをバックプロパゲーションすることによって第２ニューラルネットワーク１４０を学習することができる。第１ニューラルネットワーク１３０は、前述したように予め学習された状態であり得、ジッタリング予測ユニット１５０は、予め設定された数式を使用するものであるので学習されるものがない。

前記本発明の一実施例による学習方法を検討したところ、本発明をテストする方法について説明することにする。

参考までに、以下の説明において混同を避けるために「学習用」という文句は、先に説明した学習プロセスに関する用語について追加され、「テスト用」という文句はテストプロセスに関する用語について追加される。

学習装置が、（１）学習用ビデオ上の学習用第ｔフレームに該当する学習用第ｔイメージが取得されると、第１ニューラルネットワーク１３０をもって、学習用第ｔイメージに対して第１ニューラルネットワーク演算を少なくとも一回適用させて学習用第ｔイメージ内のそれぞれの学習用物体に対応する学習用第ｔマスクそれぞれを生成させ、（２）第２ニューラルネットワーク１４０をもって、（ｉ）それぞれの学習用第ｔマスクと、（ｉｉ）これに対応する、学習用第ｔイメージの一部分であるそれぞれの学習用第ｔクロップ済み（Ｃｒｏｐｐｅｄ）イメージと、（ｉｉｉ）それぞれの学習用第ｔ−１マスクと、（ｉｖ）これに対応する、学習用第ｔ−１イメージの一部分であるそれぞれの学習用第ｔ−１クロップ済みイメージとに対して第２ニューラルネットワーク演算を少なくとも一回適用させて学習用第ｔイメージに含まれた、それぞれの学習用物体に対応する学習用物体ピクセルそれぞれに対する学習用第ｔ物体モーションベクトル（ＯｂｊｅｃｔＭｏｔｉｏｎＶｅｃｔｏｒ）を生成させ、（３）ジッタリング予測ユニット１５０をもって、学習用第ｔ物体モーションベクトルそれぞれを参照して学習用第ｔイメージ内のピクセルのうち学習用参照ピクセル（ＲｅｆｅｒｅｎｃｅＰｉｘｅｌ）それぞれに対応する学習用第ｔジッタリングベクトル（ＪｉｔｔｅｒｉｎｇＶｅｃｔｏｒ）それぞれを生成させ、（４）学習ユニット１６０をもって、（ｉ）学習用第ｔジッタリングベクトルを生成するためのプロセスを通じて最適化された学習用第ｔ調整物体モーションベクトル、及び（ｉｉ）最適化される前の学習用第ｔ物体モーションベクトルを参照して少なくとも一つのロスを算出させ、ロスをバックプロパゲーションすることによって第２ニューラルネットワーク１４０の少なくとも一つのパラメータの少なくとも一部を学習するプロセスを完了した状態で、テスト用ビデオのテスト用第ｔフレームに該当するテスト用第ｔイメージが取得されると、テスト装置が、第１ニューラルネットワークをもって、テスト用第ｔイメージに対して第１ニューラルネットワーク演算を適用させてテスト用第ｔイメージ内のそれぞれのテスト用物体に対応するテスト用第ｔマスクそれぞれを生成させることができる。

その後、テスト装置が、第２ニューラルネットワークをもって、（ｉ）それぞれのテスト用第ｔマスクと、（ｉｉ）これに対応する、テスト用第ｔイメージの一部分であるそれぞれのテスト用第ｔクロップ済み（Ｃｒｏｐｐｅｄ）イメージと、（ｉｉｉ）それぞれのテスト用第ｔ−１マスクと、（ｉｖ）これに対応する、テスト用第ｔ−１イメージの一部分であるそれぞれのテスト用第ｔ−１クロップ済みイメージとに対して第２ニューラルネットワーク演算を適用させてテスト用第ｔイメージに含まれた、それぞれのテスト用物体に対応するテスト用物体ピクセルそれぞれに対するテスト用第ｔ物体モーションベクトル（ＯｂｊｅｃｔＭｏｔｉｏｎＶｅｃｔｏｒ）それぞれを生成させることができる。

そして、テスト装置が、ジッタリング予測ユニット（ＪｉｔｔｅｒｉｎｇＥｓｔｉｍａｔｉｏｎＵｎｉｔ）をもって、テスト用第ｔ物体モーションベクトルそれぞれを参照して、テスト用第ｔイメージ内のピクセルのうちテスト用参照ピクセル（ＲｅｆｅｒｅｎｃｅＰｉｘｅｌ）それぞれに対応するテスト用第ｔジッタリングベクトル（ＪｉｔｔｅｒｉｎｇＶｅｃｔｏｒ）それぞれを生成させることができる。

また、テスト装置が前記ジッタリング予測ユニットをもって、テスト用第ｔジッタリングベクトルを参照してテスト用第ｔイメージのジッタリングを緩和したテスト用第ｔ調整イメージ（ＡｄｊｕｓｔｅｄＩｍａｇｅ）を生成させることができる。

このような本発明の一実施例により、複数のニューラルネットワークを使用して揺れたカメラから取得された、ジッタリングが発生したイメージを補正する方法を遂行することによって、カメラが揺れてもこれを補正するため当該カメラから適切なイメージを取得することができる。

また、本発明の一実施例による方法は、映像安定化、超精密物体の追跡、行動予測、モーション（Ｍｏｔｉｏｎ）分解に使用され得る。

本発明の技術分野における通常の技術者に理解され得るところとして、上記で説明されたイメージ、例えば、オリジナルイメージ、オリジナルラベル及び追加ラベルのようなイメージデータの送受信が学習装置及びテスト装置の各通信部によって行われ得、特徴マップと演算を遂行するためのデータが学習装置及びテスト装置のプロセッサ（及び／又はメモリ）によって保有／維持され得、コンボリューション演算、デコンボリューション演算、ロス値演算の過程が主に学習装置及びテスト装置のプロセッサによって遂行され得るが、本発明がこれに限定されはしないであろう。

以上にて説明された本発明による各実施例は、多様なコンピュータの構成要素を通じて遂行することができるプログラム命令語の形態で具現されて、コンピュータ読取り可能な記録媒体に格納され得る。前記コンピュータ読取り可能な記録媒体は、プログラム命令語、データファイル、データ構造などを単独で又は組み合わせて含むことができる。前記コンピュータ読取り可能な記録媒体に格納されるプログラム命令語は、本発明のために特別に設計され、構成されたものであるか、コンピュータソフトウェア分野の当業者に公知にされて使用可能なものであり得る。コンピュータ読取り可能な記録媒体の例には、ハードディスク、フロッピーディスク及び磁気テープのような磁気媒体、ＣＤ−ＲＯＭ、ＤＶＤのような光記録媒体、フロプティカルディスク（ＦｌｏｐｔｉｃａｌＤｉｓｋ）のような磁気−光メディア（Ｍａｇｎｅｔｏ−ＯｐｔｉｃａｌＭｅｄｉａ）、及びＲＯＭ、ＲＡＭ、フラッシュメモリなどのようなプログラム命令語を格納して遂行するように特別に構成されたハードウェア装置が含まれる。プログラム命令語の例には、コンパイラによって作られるもののような機械語コードだけでなく、インタープリターなどを使用してコンピュータによって実行され得る高級言語コードも含まれる。前記ハードウェア装置は、本発明による処理を実行するために一つ以上のソフトウェアモジュールとして作動するように構成され得、その反対も同様である。

以上にて本発明が具体的な構成要素などのような特定事項と限定された実施例及び図面によって説明されたが、これは本発明のより全般的な理解の一助とするために提供されたものであるに過ぎず、本発明が前記実施例に限られるものではなく、本発明が属する技術分野において通常の知識を有する者であれば、かかる記載から多様な修正及び変形が行われ得る。

従って、本発明の思想は、前記説明された実施例に局限されて定められてはならず、後述する特許請求の範囲だけでなく、本特許請求の範囲と均等または等価的に変形されたものすべては、本発明の思想の範囲に属するといえる。

Claims

少なくとも１つのニューラルネットワーク（ＮｅｕｒａｌＮｅｔｗｏｒｋ）を使用してビデオ（Ｖｉｄｅｏ）上のジッタリング（Ｊｉｔｔｅｒｉｎｇ）を取り除くために、揺れるカメラにより生成された前記ビデオからジッタリングを検出する方法において、
（ａ）前記ビデオの第ｔフレームに該当する第ｔイメージが取得されると、コンピューティング装置が、第１ニューラルネットワークをもって、前記第ｔイメージに対して第１ニューラルネットワーク演算を少なくとも一回適用させて前記第ｔイメージ内のそれぞれの物体に対応する第ｔマスクそれぞれを生成させる段階；
（ｂ）前記コンピューティング装置が、第２ニューラルネットワークをもって、（ｉ）それぞれの前記第ｔマスクと、（ｉｉ）これに対応する、前記第ｔイメージの一部分であるそれぞれの第ｔクロップ済み（Ｃｒｏｐｐｅｄ）イメージと、（ｉｉｉ）それぞれの第ｔ−１マスクと、（ｉｖ）これに対応する、第ｔ−１イメージの一部分であるそれぞれの第ｔ−１クロップ済みイメージとに対して第２ニューラルネットワーク演算を少なくとも一回適用させて前記第ｔイメージに含まれた、それぞれの前記物体に対応する物体ピクセルそれぞれに対する第ｔ物体モーションベクトル（ＯｂｊｅｃｔＭｏｔｉｏｎＶｅｃｔｏｒ）それぞれを生成させる段階；及び
（ｃ）前記コンピューティング装置が、ジッタリング予測ユニット（ＪｉｔｔｅｒｉｎｇＥｓｔｉｍａｔｉｏｎＵｎｉｔ）をもって、前記第ｔ物体モーションベクトルそれぞれを参照して前記第ｔイメージ内のピクセルのうち参照ピクセル（ＲｅｆｅｒｅｎｃｅＰｉｘｅｌ）それぞれに対応する第ｔジッタリングベクトル（ＪｉｔｔｅｒｉｎｇＶｅｃｔｏｒ）それぞれを生成させる段階；
を含むことを特徴とする方法。
（ｄ）前記コンピューティング装置が、前記ジッタリング予測ユニットをもって、前記第ｔジッタリングベクトルを参照して前記第ｔイメージのジッタリングを緩和した第ｔ調整イメージ（ＡｄｊｕｓｔｅｄＩｍａｇｅ）を生成させる段階；
をさらに含むことを特徴とする請求項１に記載の方法。
（ｅ）前記コンピューティング装置が、学習ユニット（ＬｅａｒｎｉｎｇＵｎｉｔ）をもって、（ｉ）前記第ｔジッタリングベクトルを生成するためのプロセスを通じて最適化された第ｔ調整物体モーションベクトル、及び（ｉｉ）最適化される前の前記第ｔ物体モーションベクトルを参照して少なくとも一つのロスを算出させ、前記ロスをバックプロパゲーションすることによって前記第２ニューラルネットワークの少なくとも一つのパラメータの少なくとも一部を学習させる段階；
をさらに含むことを特徴とする請求項１に記載の方法。
前記（ｃ）段階で、
前記コンピューティング装置が、前記ジッタリング予測ユニットをもって、（ｉ）前記カメラで前記第ｔ−１イメージを撮影した時点と前記第ｔイメージを撮影した時点との間に前記第ｔイメージ内のピクセルそれぞれに対応する地点それぞれの動いた程度を示すそれぞれの第ｔオプティカルフローベクトル（ＯｐｔｉｃａｌＦｌｏｗＶｅｃｔｏｒ）、及び（ｉｉ）前記カメラで前記第ｔ−１イメージを撮影した時点と前記第ｔイメージを撮影した時点との間に３次元上における前記地点それぞれの動いた程度を示すそれぞれの第ｔＦＰＶベクトルをさらに参照して前記第ｔジッタリングベクトルを生成させることを特徴とする請求項１に記載の方法。
前記（ｃ）段階で、
前記コンピューティング装置が、前記ジッタリング予測ユニットをもって、

前記数式を最小化させるｅ_ｉｊ ^（ｔ），ｖ_ｉｊ ^（ｔ），ｏ_ｘｙ ^（ｔ）を算出させることによって前記第ｔジッタリングベクトルを生成させ、
ｅ_ｉｊ ^（ｔ）は前記第ｔジッタリングベクトルを意味し、ｖ_ｉｊ ^（ｔ）は前記第ｔＦＰＶベクトルを意味し、ｏ_ｘｙ ^（ｔ）は前記第ｔ物体モーションベクトルを意味し、ｖ_ｉｊ ^{（ｔ−１）}は第ｔ−１ＦＰＶベクトルを意味し、ｏ_ｘｙ ^{（ｔ−１）}は第ｔ−１物体モーションベクトルを意味し、λ_ｖ及びλ_ｏは

及び

に対するそれぞれの重み付け値を意味することを特徴とする請求項４に記載の方法。
前記数式は、

前記条件を満たす項（Ｔｅｒｍ）に対して有効であるようにし、
ｆ_ｉｊ ^（ｔ）は前記第ｔオプティカルフローベクトルのうち一部である、前記参照ピクセルに対する第１のｔ番目オプティカルフローベクトルを意味し、ｆ_ｘｙ ^（ｔ）は前記参照ピクセルでない残りのピクセルに対する第２のｔ番目オプティカルフローベクトルを意味し、ｏ_ｉｊ ^（ｔ）は前記第ｔ物体モーションベクトルのうち一部である、前記物体ピクセルであり、かつ前記参照ピクセルである特定ピクセルに対する第ｔ物体モーションベクトルを意味し、シグマ記号下段のｉ，ｊ∈ＮＢ（ｘ，ｙ）は所定のピクセルを含むグリッド内の前記参照ピクセルのうち一部に関する情報を使用するものであることを表し、ｗ_{ｉｊ，ｘｙ}は前記グリッド内の前記所定のピクセルの少なくとも一つの位置によるそれぞれの重み付け値を表すことを特徴とする請求項５に記載の方法。
前記コンピューティング装置が、前記ジッタリング予測ユニットをもって、

前記数式を最小化させるｅ_ｉｊ ^（ｔ），ｖ_ｉｊ ^（ｔ），ｏ_ｘｙ ^（ｔ）を算出させ、
ｅ_ｉｊ ^（ｔ）は前記第ｔジッタリングベクトルを意味し、ｖ_ｉｊ ^（ｔ）は前記第ｔＦＰＶベクトルを意味し、ｏ_ｘｙ ^（ｔ）は前記第ｔ物体モーションベクトルを意味し、ｖ_ｉｊ ^{（ｔ−ｋ）}は第ｔ−ｋイメージに対する第ｔ−ｋＦＰＶベクトルを意味し、ｏ_ｘｙ ^{（ｔ−ｋ）}は前記第ｔ−ｋイメージに対する第ｔ−ｋ物体モーションベクトルを意味し、ｗ_ｋは｜ｖ_ｉｊ ^（ｔ）−ｖ_ｉｊ ^{（ｔ−ｋ）}｜^２及び｜ｏ_ｘｙ ^（ｔ）−ｏ_ｘｙ ^{（ｔ−ｋ）}｜^２に対するそれぞれの重み付け値を意味し、Ｋは所定の定数（ｃｏｎｓｔａｎｔ）であることを特徴とする請求項４に記載の方法。
前記（ｂ）段階で、
前記第２ニューラルネットワークは、第２＿１ニューラルネットワーク及び第２＿２ニューラルネットワークを含み、
前記第２＿１ニューラルネットワークは、それぞれの前記第ｔマスクと、それぞれの前記第ｔクロップ済みイメージと、それぞれの前記第ｔ−１マスクと、それぞれの前記第ｔ−１クロップ済みイメージとに対して分析する、前記第２ニューラルネットワーク演算に含まれた第２＿１ニューラルネットワーク演算を少なくとも一回遂行することによって少なくとも一つの中間特徴マップ（ＩｎｔｅｒｍｅｄｉａｔｅＦｅａｔｕｒｅＭａｐ）を生成し、
前記第２＿２ニューラルネットワークは、前記第ｔイメージが取得される以前に入力された値に対する分析内容を参照して前記中間特徴マップに対して前記第２ニューラルネットワーク演算に含まれた第２＿２ニューラルネットワーク演算を少なくとも一回適用することによって前記第ｔ物体モーションベクトルを生成することを特徴とする請求項１に記載の方法。
前記第２＿２ニューラルネットワークは、
（ｉ）第１イメージないし前記第ｔ−１イメージのうち少なくとも一部に対する各値についての分析を反映して、前記第２＿１ニューラルネットワークが生成された、前記第２＿２ニューラルネットワークの状態ベクトル（ＳｔａｔｅＶｅｃｔｏｒ）を使用して前記第ｔ物体モーションベクトルを生成させ、（ｉｉ）前記状態ベクトルをアップデートさせることを特徴とする請求項８に記載の方法。
前記参照ピクセルは、前記第ｔイメージ上の前記グリッドのグリッドセル（ＧｒｉｄＣｅｌｌ）のバウンダリ（Ｂｏｕｎｄａｒｙ）上に位置する頂点であることを特徴とする請求項１に記載の方法。
前記（ａ）段階で、
前記第１ニューラルネットワークは少なくとも一つのＲＰＮ（ＲｅｇｉｏｎＰｒｏｐｏｓａｌＮｅｔｗｏｒｋ）と、少なくとも一つのコンボリューションレイヤと、少なくとも一つのプーリングレイヤとを含み、
前記ＲＰＮが少なくとも一つのＲＯＩを生成すると、前記第１ニューラルネットワークは、二重線形補間法（ＢｉｌｉｎｅａｒＩｎｔｅｒｐｏｌａｔｉｏｎ）を利用して前記ＲＯＩに対応する少なくとも一つの領域を前記第ｔイメージ上で選択した後、これに前記コンボリューションレイヤによる演算を少なくとも一回適用することによって前記第ｔマスクを生成することを特徴とする請求項１に記載の方法。
少なくとも１つのニューラルネットワーク（ＮｅｕｒａｌＮｅｔｗｏｒｋ）を使用してテスト用ビデオ（Ｖｉｄｅｏ）上でジッタリング（Ｊｉｔｔｅｒｉｎｇ）を取り除くために、揺れるカメラにより生成された前記テスト用ビデオに前記ジッタリングを取り除くテスト方法において、
（ａ）学習装置が、（１）学習用ビデオ上の学習用第ｔフレームに該当する学習用第ｔイメージが取得されると、第１ニューラルネットワークをもって、前記学習用第ｔイメージに対して第１ニューラルネットワーク演算を少なくとも一回適用させて前記学習用第ｔイメージ内のそれぞれの学習用物体に対応する学習用第ｔマスクそれぞれを生成させ、（２）第２ニューラルネットワークをもって、（ｉ）それぞれの前記学習用第ｔマスクと、（ｉｉ）これに対応する、前記学習用第ｔイメージの一部分であるそれぞれの学習用第ｔクロップ済み（Ｃｒｏｐｐｅｄ）イメージと、（ｉｉｉ）それぞれの学習用第ｔ−１マスクと、（ｉｖ）これに対応する、学習用第ｔ−１イメージの一部分であるそれぞれの学習用第ｔ−１クロップ済みイメージとに対して第２ニューラルネットワーク演算を少なくとも一回適用させて前記学習用第ｔイメージに含まれた、それぞれの前記学習用物体に対応する学習用物体ピクセルそれぞれに対する学習用第ｔ物体モーションベクトル（ＯｂｊｅｃｔＭｏｔｉｏｎＶｅｃｔｏｒ）を生成させ、（３）ジッタリング予測ユニット（ＪｉｔｔｅｒｉｎｇＥｓｔｉｍａｔｉｏｎＵｎｉｔ）をもって、前記学習用第ｔ物体モーションベクトルそれぞれを参照して前記学習用第ｔイメージ内のピクセルのうち学習用参照ピクセル（ＲｅｆｅｒｅｎｃｅＰｉｘｅｌ）それぞれに対応する学習用第ｔジッタリングベクトル（ＪｉｔｔｅｒｉｎｇＶｅｃｔｏｒ）それぞれを生成させ、（４）学習ユニットをもって、（ｉ）前記学習用第ｔジッタリングベクトルを生成するためのプロセスを通じて最適化された学習用第ｔ調整物体モーションベクトル、及び（ｉｉ）最適化される前の前記学習用第ｔ物体モーションベクトルを参照して少なくとも一つのロスを算出させ、前記ロスをバックプロパゲーションすることによって前記第２ニューラルネットワークの少なくとも一つのパラメータの少なくとも一部を学習完了した状態で、前記テスト用ビデオのテスト用第ｔフレームに該当するテスト用第ｔイメージが取得されると、テスト装置が、前記第１ニューラルネットワークをもって、前記テスト用第ｔイメージに対して第１ニューラルネットワーク演算を適用させて前記テスト用第ｔイメージ内のそれぞれのテスト用物体に対応するテスト用第ｔマスクそれぞれを生成させる段階；
（ｂ）前記テスト装置が、前記第２ニューラルネットワークをもって、（ｉ）それぞれの前記テスト用第ｔマスクと、（ｉｉ）これに対応する、前記テスト用第ｔイメージの一部分であるそれぞれのテスト用第ｔクロップ済み（Ｃｒｏｐｐｅｄ）イメージと、（ｉｉｉ）それぞれのテスト用第ｔ−１マスクと、（ｉｖ）これに対応する、テスト用第ｔ−１イメージの一部分であるそれぞれのテスト用第ｔ−１クロップ済みイメージとに対して第２ニューラルネットワーク演算を適用させて前記テスト用第ｔイメージに含まれた、それぞれの前記テスト用物体に対応するテスト用物体ピクセルそれぞれに対するテスト用第ｔ物体モーションベクトル（ＯｂｊｅｃｔＭｏｔｉｏｎＶｅｃｔｏｒ）それぞれを生成させる段階；及び
（ｃ）前記テスト装置が、前記ジッタリング予測ユニット（ＪｉｔｔｅｒｉｎｇＥｓｔｉｍａｔｉｏｎＵｎｉｔ）をもって、前記テスト用第ｔ物体モーションベクトルそれぞれを参照して、前記テスト用第ｔイメージ内のピクセルのうちテスト用参照ピクセル（ＲｅｆｅｒｅｎｃｅＰｉｘｅｌ）それぞれに対応するテスト用第ｔジッタリングベクトル（ＪｉｔｔｅｒｉｎｇＶｅｃｔｏｒ）それぞれを生成させる段階；
を含むことを特徴とする方法。
（ｄ）前記コンピューティング装置が、
前記ジッタリング予測ユニットをもって、前記テスト用第ｔジッタリングベクトルを参照して前記テスト用第ｔイメージのジッタリングを緩和したテスト用第ｔ調整イメージ（ＡｄｊｕｓｔｅｄＩｍａｇｅ）を生成させる段階；
を含むことを特徴とする請求項１２に記載の方法。
少なくとも一つのニューラルネットワーク（ＮｅｕｒａｌＮｅｔｗｏｒｋ）を使用してビデオ（Ｖｉｄｅｏ）上のジッタリング（Ｊｉｔｔｅｒｉｎｇ）を取り除くために、揺れるカメラにより生成された前記ビデオからジッタリングを検出するコンピューティング装置において、
インストラクションを格納する少なくとも一つのメモリと、
（Ｉ）前記ビデオの第ｔフレームに該当する第ｔイメージが取得されると、第１ニューラルネットワークをもって、前記第ｔイメージに対して第１ニューラルネットワーク演算を少なくとも一回適用させて前記第ｔイメージ内のそれぞれの物体に対応する第ｔマスクそれぞれを生成させるプロセス、（ＩＩ）第２ニューラルネットワークをもって、（ｉ）それぞれの前記第ｔマスクと、（ｉｉ）これに対応する、前記第ｔイメージの一部分であるそれぞれの第ｔクロップ済み（Ｃｒｏｐｐｅｄ）イメージと、（ｉｉｉ）それぞれの第ｔ−１マスクと、（ｉｖ）これに対応する、第ｔ−１イメージの一部分であるそれぞれの第ｔ−１クロップ済みイメージとに対して第２ニューラルネットワーク演算を少なくとも一回適用させて前記第ｔイメージに含まれた、それぞれの前記物体に対応する物体ピクセルそれぞれに対する第ｔ物体モーションベクトル（ＯｂｊｅｃｔＭｏｔｉｏｎＶｅｃｔｏｒ）それぞれを生成させるプロセス、及び（ＩＩＩ）ジッタリング予測ユニット（ＪｉｔｔｅｒｉｎｇＥｓｔｉｍａｔｉｏｎＵｎｉｔ）をもって、前記第ｔ物体モーションベクトルそれぞれを参照して前記第ｔイメージ内のピクセルのうち参照ピクセル（ＲｅｆｅｒｅｎｃｅＰｉｘｅｌ）それぞれに対応する第ｔジッタリングベクトル（ＪｉｔｔｅｒｉｎｇＶｅｃｔｏｒ）それぞれを生成させるプロセスを遂行するための前記インストラクションを実行するように構成された少なくとも一つのプロセッサと、
を含むことを特徴とする装置。
前記プロセッサが、
（ＩＶ）前記ジッタリング予測ユニットをもって、前記第ｔジッタリングベクトルを参照して前記第ｔイメージのジッタリングを緩和した第ｔ調整イメージ（ＡｄｊｕｓｔｅｄＩｍａｇｅ）を生成させるプロセス；
をさらに含むことを特徴とする請求項１４に記載の装置。
前記プロセッサが、
（Ｖ）学習ユニット（ＬｅａｒｎｉｎｇＵｎｉｔ）をもって、（ｉ）前記第ｔジッタリングベクトルを生成するためのプロセスを通じて最適化された第ｔ調整物体モーションベクトル、及び（ｉｉ）最適化される前の前記第ｔ物体モーションベクトルを参照して少なくとも一つのロスを算出させ、前記ロスをバックプロパゲーションすることによって前記第２ニューラルネットワークの少なくとも一つのパラメータの少なくとも一部を学習させるプロセス；
をさらに含むことを特徴とする請求項１４に記載の装置。
前記（ＩＩＩ）プロセスで、
前記プロセッサが、
前記ジッタリング予測ユニットをもって、（ｉ）前記カメラで前記第ｔ−１イメージを撮影した時点と前記第ｔイメージを撮影した時点との間に前記第ｔイメージ内のピクセルそれぞれに対応する地点それぞれの動いた程度を示すそれぞれの第ｔオプティカルフローベクトル（ＯｐｔｉｃａｌＦｌｏｗＶｅｃｔｏｒ）、及び（ｉｉ）前記カメラで前記第ｔ−１イメージを撮影した時点と前記第ｔイメージを撮影した時点との間に３次元上における前記地点それぞれの動いた程度を示すそれぞれの第ｔＦＰＶベクトルをさらに参照して前記第ｔジッタリングベクトルを生成させることを特徴とする請求項１４に記載の装置。
前記（ＩＩＩ）プロセスで、
前記プロセッサは、前記ジッタリング予測ユニットをもって、

前記数式を最小化させるｅ_ｉｊ ^（ｔ）,ｖ_ｉｊ ^（ｔ）,ｏ_ｘｙ ^（ｔ）を算出させることによって前記第ｔジッタリングベクトルを生成させ、
ｅ_ｉｊ ^（ｔ）は前記第ｔジッタリングベクトルを意味し、ｖ_ｉｊ ^（ｔ）は前記第ｔＦＰＶベクトルを意味し、ｏ_ｘｙ ^（ｔ）は前記第ｔ物体モーションベクトルを意味し、ｖ_ｉｊ ^{（ｔ−１）}は第ｔ−１ＦＰＶベクトルを意味し、ｏ_ｘｙ ^{（ｔ−１）}は第ｔ−１物体モーションベクトルを意味し、λ_ｖ及びλ_ｏは

及び

に対するそれぞれの重み付け値を意味することを特徴とする請求項１７に記載の装置。
前記数式は、

前記条件を満たす項（Ｔｅｒｍ）に対して有効であるようにし、
ｆ_ｉｊ ^（ｔ）は前記第ｔオプティカルフローベクトルのうち一部である、前記参照ピクセルに対する第１のｔ番目オプティカルフローベクトルを意味し、ｆ_ｘｙ ^（ｔ）は前記参照ピクセルでない残りのピクセルに対する第２のｔ番目オプティカルフローベクトルを意味し、ｏ_ｉｊ ^（ｔ）は前記第ｔ物体モーションベクトルのうち一部である、前記物体ピクセルであり、かつ前記参照ピクセルである特定ピクセルに対する第ｔ物体モーションベクトルを意味し、シグマ記号下段のｉ,ｊ∈ＮＢ（ｘ，ｙ）は所定のピクセルを含むグリッド内の前記参照ピクセルのうち一部に関する情報を使用するものであることを表し、ｗ_{ｉｊ，ｘｙ}は前記グリッド内の前記所定のピクセルの少なくとも一つの位置によるそれぞれの重み付け値を表すことを特徴とする請求項１８に記載の装置。
前記プロセッサが、前記ジッタリング予測ユニットをもって、

前記数式を最小化させるｅ_ｉｊ ^（ｔ），ｖ_ｉｊ ^（ｔ），ｏ_ｘｙ ^（ｔ）を算出させ、
ｅ_ｉｊ ^（ｔ）は前記第ｔジッタリングベクトルを意味し、ｖ_ｉｊ ^（ｔ）は前記第ｔＦＰＶベクトルを意味し、ｏ_ｘｙ ^（ｔ）は前記第ｔ物体モーションベクトルを意味し、ｖ_ｉｊ ^{（ｔ−ｋ）}は第ｔ−ｋイメージに対する第ｔ−ｋＦＰＶベクトルを意味し、ｏ_ｘｙ ^{（ｔ−ｋ）}は前記第ｔ−ｋイメージに対する第ｔ−ｋ物体モーションベクトルを意味し、ｗ_ｋは｜ｖ_ｉｊ ^（ｔ）−ｖ_ｉｊ ^{（ｔ−ｋ）}｜^２及び｜ｏ_ｘｙ ^（ｔ）−ｏ_ｘｙ ^{（ｔ−ｋ）}｜^２に対するそれぞれの重み付け値を意味し、Ｋは所定の定数であることを特徴とする請求項１７に記載の装置。
前記（ＩＩ）プロセスで、
前記第２ニューラルネットワークは、第２＿１ニューラルネットワーク及び第２＿２ニューラルネットワークを含み、
前記第２＿１ニューラルネットワークは、それぞれの前記第ｔマスクと、それぞれの前記第ｔクロップ済みイメージと、それぞれの前記第ｔ−１マスクと、それぞれの前記第ｔ−１クロップ済みイメージとについて分析する、前記第２ニューラルネットワーク演算に含まれた第２＿１ニューラルネットワーク演算を少なくとも一回遂行することによって少なくとも一つの中間特徴マップ（ＩｎｔｅｒｍｅｄｉａｔｅＦｅａｔｕｒｅＭａｐ）を生成し、
前記第２＿２ニューラルネットワークは、前記第ｔイメージが取得される以前に入力された値に対する分析内容を参照して、前記中間特徴マップに対して前記第２ニューラルネットワーク演算に含まれた第２＿２ニューラルネットワーク演算を少なくとも一回適用することによって前記第ｔ物体モーションベクトルを生成することを特徴とする請求項１４に記載の装置。
前記第２＿２ニューラルネットワークは、
（ｉ）第１イメージないし前記第ｔ−１イメージのうち少なくとも一部に対する各値についての分析を反映して、前記第２＿１ニューラルネットワークが生成された、前記第２＿２ニューラルネットワークの状態ベクトル（ＳｔａｔｅＶｅｃｔｏｒ）を使用して前記第ｔ物体モーションベクトルを生成させ、（ｉｉ）前記状態ベクトルをアップデートさせることを特徴とする請求項２１に記載の装置。
前記参照ピクセルは、前記第ｔイメージ上の前記グリッドのグリッドセル（ＧｒｉｄＣｅｌｌ）のバウンダリ（Ｂｏｕｎｄａｒｙ）上に位置する頂点であることを特徴とする請求項１４に記載の装置。
前記（Ｉ）プロセスで、
前記第１ニューラルネットワークは少なくとも一つのＲＰＮ（ＲｅｇｉｏｎＰｒｏｐｏｓａｌＮｅｔｗｏｒｋ）と、少なくとも一つのコンボリューションレイヤと、少なくとも一つのプーリングレイヤとを含み、
前記ＲＰＮが少なくとも一つのＲＯＩを生成すると、前記第１ニューラルネットワークは、二重線形補間法（ＢｉｌｉｎｅａｒＩｎｔｅｒｐｏｌａｔｉｏｎ）を利用して前記ＲＯＩに対応する少なくとも一つの領域を前記第ｔイメージ上で選択した後、これに前記コンボリューションレイヤによる演算を少なくとも一回適用することによって前記第ｔマスクを生成することを特徴とする請求項１４に記載の装置。
少なくとも１つのニューラルネットワーク（ＮｅｕｒａｌＮｅｔｗｏｒｋ）を使用してテスト用ビデオ（Ｖｉｄｅｏ）上でジッタリング（Ｊｉｔｔｅｒｉｎｇ）を取り除くために、揺れるカメラにより生成された前記テスト用ビデオに前記ジッタリングを取り除くテスト装置において、
インストラクションを格納する少なくとも一つのメモリと、
学習装置が、（１）学習用ビデオ上の学習用第ｔフレームに該当する学習用第ｔイメージが取得されると、第１ニューラルネットワークをもって、前記学習用第ｔイメージに対して第１ニューラルネットワーク演算を少なくとも一回適用させて前記学習用第ｔイメージ内のそれぞれの学習用物体に対応する学習用第ｔマスクそれぞれを生成させ、（２）第２ニューラルネットワークをもって、（ｉ）それぞれの前記学習用第ｔマスクと、（ｉｉ）これに対応する、前記学習用第ｔイメージの一部分であるそれぞれの学習用第ｔクロップ済み（Ｃｒｏｐｐｅｄ）イメージと、（ｉｉｉ）それぞれの学習用第ｔ−１マスクと、（ｉｖ）これに対応する、学習用第ｔ−１イメージの一部分であるそれぞれの学習用第ｔ−１クロップ済みイメージとに対して第２ニューラルネットワーク演算を少なくとも一回適用させて前記学習用第ｔイメージに含まれた、それぞれの前記学習用物体に対応する学習用物体ピクセルそれぞれに対する学習用第ｔ物体モーションベクトル（ＯｂｊｅｃｔＭｏｔｉｏｎＶｅｃｔｏｒ）を生成させ、（３）ジッタリング予測ユニット（ＪｉｔｔｅｒｉｎｇＥｓｔｉｍａｔｉｏｎＵｎｉｔ）をもって、前記学習用第ｔ物体モーションベクトルそれぞれを参照して前記学習用第ｔイメージ内のピクセルのうち学習用参照ピクセル（ＲｅｆｅｒｅｎｃｅＰｉｘｅｌ）それぞれに対応する学習用第ｔジッタリングベクトル（ＪｉｔｔｅｒｉｎｇＶｅｃｔｏｒ）それぞれを生成させ、（４）学習ユニットをもって、（ｉ）前記学習用第ｔジッタリングベクトルを生成するためのプロセスを通じて最適化された学習用第ｔ調整物体モーションベクトル、及び（ｉｉ）最適化される前の前記学習用第ｔ物体モーションベクトルを参照して少なくとも一つのロスを算出させ、前記ロスをバックプロパゲーションすることによって前記第２ニューラルネットワークの少なくとも一つのパラメータの少なくとも一部を学習完了した状態で、（Ｉ）前記テスト用ビデオのテスト用第ｔフレームに該当するテスト用第ｔイメージが取得されると、テスト装置が、前記第１ニューラルネットワークをもって、前記テスト用第ｔイメージに対して第１ニューラルネットワーク演算を適用させて前記テスト用第ｔイメージ内のそれぞれのテスト用物体に対応するテスト用第ｔマスクそれぞれを生成させるプロセス、（ＩＩ）前記第２ニューラルネットワークをもって、（ｉ）それぞれの前記テスト用第ｔマスク、（ｉｉ）これに対応する、前記テスト用第ｔイメージの一部分であるそれぞれのテスト用第ｔクロップ済み（Ｃｒｏｐｐｅｄ）イメージ、（ｉｉｉ）それぞれのテスト用第ｔ−１マスク及び（ｉｖ）これに対応する、テスト用第ｔ−１イメージの一部分であるそれぞれのテスト用第ｔ−１クロップ済みイメージに対して第２ニューラルネットワーク演算を適用させて前記テスト用第ｔイメージに含まれた、それぞれの前記テスト用物体に対応するテスト用物体ピクセルそれぞれに対するテスト用第ｔ物体モーションベクトル（ＯｂｊｅｃｔＭｏｔｉｏｎＶｅｃｔｏｒ）それぞれを生成させるプロセス、及び（ＩＩＩ）前記ジッタリング予測ユニット（ＪｉｔｔｅｒｉｎｇＥｓｔｉｍａｔｉｏｎＵｎｉｔ）をもって、前記テスト用第ｔ物体モーションベクトルそれぞれを参照して前記テスト用第ｔイメージ内のピクセルのうちテスト用参照ピクセル（ＲｅｆｅｒｅｎｃｅＰｉｘｅｌ）それぞれに対応するテスト用第ｔジッタリングベクトル（ＪｉｔｔｅｒｉｎｇＶｅｃｔｏｒ）それぞれを生成させるプロセスを遂行するための前記インストラクションを実行するように構成された少なくとも一つのプロセッサと、
を含むことを特徴とする装置。
前記プロセッサが、
（ＩＶ）前記ジッタリング予測ユニットをもって、前記テスト用第ｔジッタリングベクトルを参照して前記テスト用第ｔイメージのジッタリングを緩和したテスト用第ｔ調整イメージ（ＡｄｊｕｓｔｅｄＩｍａｇｅ）を生成させるプロセス；
を含むことを特徴とする請求項２５に記載の装置。