JP6861249B2 - 畳み込み回帰型ニューラルネットワークを訓練させる方法、および訓練された畳み込み回帰型ニューラルネットワークを使用する、入力されたビデオのセマンティックセグメンテーション方法 - Google Patents

畳み込み回帰型ニューラルネットワークを訓練させる方法、および訓練された畳み込み回帰型ニューラルネットワークを使用する、入力されたビデオのセマンティックセグメンテーション方法 Download PDF

Info

Publication number
JP6861249B2
JP6861249B2 JP2019147185A JP2019147185A JP6861249B2 JP 6861249 B2 JP6861249 B2 JP 6861249B2 JP 2019147185 A JP2019147185 A JP 2019147185A JP 2019147185 A JP2019147185 A JP 2019147185A JP 6861249 B2 JP6861249 B2 JP 6861249B2
Authority
JP
Japan
Prior art keywords
neural network
convolutional
training
recurrent
layer
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2019147185A
Other languages
English (en)
Other versions
JP2020027659A (ja
Inventor
ワインゼフェル フィリップ
ワインゼフェル フィリップ
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Naver Corp
Original Assignee
Naver Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Priority claimed from EP18306104.3A external-priority patent/EP3608844A1/en
Application filed by Naver Corp filed Critical Naver Corp
Publication of JP2020027659A publication Critical patent/JP2020027659A/ja
Application granted granted Critical
Publication of JP6861249B2 publication Critical patent/JP6861249B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/0464Convolutional networks [CNN, ConvNet]

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Image Analysis (AREA)

Description

本発明は、畳み込み回帰型(convolutional recurrent)ニューラルネットワークを訓練させる方法、および訓練された畳み込み回帰型ニューラルネットワークを使用する、入力されたビデオのセマンティック(意味的な)セグメンテーション方法に関する。
35U.S.C.§119(a)に基づき、本出願は、欧州特許出願EP18306104.3(出願日2018年8月10日)のより早い出願日の優先権の利益を主張し、これにより、欧州特許出願EP18306104.3(出願日2018年8月10日)の全体の内容は参照によって本出願に組み込まれる。
コンピュータビジョンは、デジタルビデオから高い水準(high−level)の理解をコンピュータに提供することを目的とする、近年の努力分野の1つである。これは、人間の視覚システムが実行することのできる作業を自動化しようとするものである。
このような作業の1つが「セマンティック(意味的な)」セグメンテーションである。一般的に、セグメンテーションとは、イメージをピクセルのセットに分割する(partitioning)プロセスである。このようなセットのそれぞれがタイプを識別するエンティティ(自動車、人物、建物など)に対応するとき、意味のあるセグメンテーションとして見なされるのである。実際に、セマンティックセグメンテーションは、クラスの所定のセットのうち、クラスラベルを各ピクセルに割り当てることによって構成される。
これは、(場面を理解してロボットが探索する(navigate)ことのできる場所を識別するための)ロボット工学および自律走行を含む多くの応用において高い関心が示されている。同じような意味において、セマンティックセグメンテーションは、場面を理解してオブジェクトおよび仮想のオブジェクトが追加され得る領域の範囲を見つけ出すための拡張現実の脈絡においても有効的である。
セマンティックセグメンテーションは、(例えば、建物のように)大きかったり(例えば、信号のように)薄かったりする、(空や芝生などのような)もの、および適切に定義されたオブジェクト(自動車や瓶など)を含む多種類のクラスによるコンピュータビジョンにおいて挑戦すべき課題である。セマンティックセグメンテーションによる出力は、空間(オブジェクトの境界を除いた、同じクラスに属する傾向にある隣接するピクセル)と時間(実世界ポイント(point)が時間において一定のラベルを有する。これは、そのプロジェクション(projection)も同じであることを意味する)の両方が存在するため、滑らか(smooth)になる。
このために、畳み込みニューラルネットワーク(convolutional neural network)の使用が提案されてきた。畳み込みニューラルネットワークは、ニューロン間の結合パターンが動物の視覚野(visual cortex)の配置から着想を得た、一種のニューラルネットワークである。畳み込みニューラルネットワークは、イメージ内の個体を効率的に認識できることから、特にビデオ処理に適している。
したがって、畳み込みニューラルネットワークが予めセグメンテーションされた、すなわち、ビデオのフレーム内の各ピクセルのラベルが提供されたビデオの訓練セットを提供することによって訓練される教師あり学習段階を経ることで、畳み込みニューラルネットワークは、(ラベルが指定されていない、特に、ライブCCTVからの「フレッシュ(fresh)」ビデオ)自身が入力したあらゆるビデオをセグメント化することが可能となる。
セマンティックセグメンテーションに対する従来の方法のほとんどは、イメージレベルで実行される、すなわち、アルゴリズムがビデオのすべてのフレームに独立的に適用されるものであった。
従来のアクセス法は、密集した予測(dense prediction)を出力するために、イメージ分類の畳み込みニューラルネットワークアーキテクチャを全層畳み込みバージョン(fully convolutional version)に変換するものである。標準的なコンピュータビジョンの畳み込みニューラルネットワークアーキテクチャのストライド(stride)により、特徴マップ(feature maps)は、一般的に入力イメージよりも低い解像度であることに留意する。したがって、1番目の深い(deep)セグメンテーションアクセス方法は、アップサンプリング戦略、すなわち、エンコーダ−デコーダのアーキテクチャを使用するという条件付きランダムフィールドのようなグラフィックモデルを使用することによって出力を精製してきた。
さらに最近には、Dilated畳み込み(または、Atrous畳み込みとも称される)が紹介されているが、これは、従来の分類畳み込みニューラルネットワークアーキテクチャからさらに密集した特徴マップを抽出するものである。
より優れた正確性を得るために、最近の傾向としては、最後のレイヤのマルチスケール(multiple scales)におけるコンテキスト情報をモデリングすることで構成される。例えば、これは、Dilated畳み込みの出力を複数の因子と全域的に(globally)プーリングされた(pooled)イメージ特徴によって連鎖させることによって構成されたり、PSP−Netの複数のグリッドスケールによって空間的なプーリングを実行することによって構成されたりする。
通常、これは、実世界の一部の領域が連続的な(consecutive)フレーム間のセマンティックラベルに多くの変化を経るようになることから、満足しないフリッキング効果(flickering effect)に繋がる。これについては、3つの連続するフレーム(図1)上でフレーム単位(per−frame)推定の例を示す図2において説明する。
ノイズアーティファクトは、時間に応じて予測されたラベル(ボックス)において、2つを超えるラベル(右側ボックス)間のフリッカを含む領域でも観察されるということに留意する。
時間による一貫性(consistency)を改善するために、セマンティックセグメンテーションは、ビデオレベルで、すなわち、フレームに対しても実行されなければならない。
ビデオのセマンティックセグメンテーションを扱うために様々な方法が試みられた。最初の方法として、時間および空間において、マルコフ確率場(Markov Random Field)、Perturb&MAP確率場、または条件付き確率場を基盤とするものであった。ここ最近は、フレーム間の対ポテンシャル(pairwise potential)におけるモーションをモデリングするためにオプティカルフロー(optical flow)を活用(leverage)する方法が提案された。ビデオのセマンティックセグメンテーションを精製するための他の方法として、フィルタリングを使用する方法もある。しかし、このようなすべての方法では、一貫されたビデオセグメンテーションの出力を生成することができない。
より最近では、NetWarpモジュールを、ある時間一貫性(temporal consistency)をセマンティックセグメンテーション畳み込みニューラルネットワークアーキテクチャによって統合するために取り入れる方法が提案された。このような方法は、現在のフレームの特徴をオプティカルフローによってワーピングされた(warped)以前のフレームからの特徴と結合するものである。実際に、連続するフレームからの特徴が、ワーピング後には、オプティカルフローによって集合されるようになり、最終的な推定を生成するために使用されるが、特徴は事前に定義されて固定された数のフレームに制限されて残っている。
この代案として、clockwork畳み込みニューラルネットワークアーキテクチャが、ビデオのセマンティックセグメンテーションのために提案された。clockwork畳み込みニューラルネットワークアーキテクチャは、正確性の低下という代償を払ってビデオセグメントのランタイムを減少させることを目的とし、以前のフレームから中間特徴を再利用することによって構成される。
結果的に、時系列的情報の直接的なレバレッジ(leverage)を許容するニューラルネットワークを使用するセグメンテーション方法の改善が求められている。
以下の図面は、多様な実施形態を説明することを目的とし、制限的に解釈されてはならない。
3つの連続するフレームの例を示した図である。 従来のフレーム単位(per−frame)技法を使用する、図1のフレーム例のセマンティックセグメンテーションを示した図である。 図7の畳み込み回帰型ニューラルネットワークアーキテクチャを使用する、図1のフレーム例のセマンティックセグメンテーションを示した図である。 セマンティックセグメンテーションのためのシステムの例を示した図である。 2つの連続するフレームの例に対し、オプティカルフローがピクセルをどのように変位させるかを説明するための図である。 セマンティックセグメンテーションでの使用のための畳み込みニューラルネットワークアーキテクチャの例を示した図である。 セマンティックセグメンテーションでの使用のための畳み込み回帰型ニューラルネットワークアーキテクチャの例を示した図である。
以下では、ビデオのセマンティックセグメンテーションの2つの補完的な側面について説明する。(a)ビデオのセマンティックセグメンテーションのための畳み込み回帰型ニューラルネットワーク(convolutional recurrent neural network)を訓練させる方法、および(b)より好ましくは、(a)の方法によって訓練された畳み込み回帰型ニューラルネットワークを使用する、入力されたビデオのセマンティックセグメンテーション方法。
すべてのビデオは、(その長さに応じて)1からTまでの番号が付与され、T個のフレームのシーケンスとなる。言い換えれば、ビデオの一般的なフレームは、t∈[[1;T]]であるフレームtとして参照されるようになる。各フレームは、イメージ、すなわち、与えられたサイズのピクセルのマトリックス、例えば321×321ピクセルで構成される。
ビデオのセマンティックセグメンテーションとは、ビデオの各フレームの各ピクセルの分類(classification)であって、すなわち、ラベルの所定のリストのラベルのうち、各ピクセルによって描写されるエンティティのタイプを定義する、各フレームに対して各ピクセルのラベルを予測することに該当する。したがって、フレームは、同じラベルを有するピクセルの複数のセットに分割され、同じラベルを有するそれぞれの「連結する」ピクセルのセットは、エンティティ、すなわち「実世界」オブジェクトを定義する。例えば、1つの自動車を描写するすべてのピクセルは、「自動車」タイプのピクセルとしてラベリングされなければならない。
上述した2つのタイプの方法は、図4に示すように、第1サーバ1aおよび/または第2サーバ1bを使用するシステム内で実現される。第1サーバ1aは(1番目の方法を実現する)学習サーバであり、第2サーバ1bは(2番目の方法を実現する)セグメンテーションサーバである。このような2つのサーバは、単一のサーバとして統合されることも可能である。
このようなサーバ1a、1bのそれぞれは、通常、データ交換のために、インターネットのような拡張されたネットワーク2に接続される遠隔のコンピュータ機器である。それぞれのサーバは、プロセッサタイプのデータ処理手段11a、11b(特に、学習は、訓練された畳み込み回帰型ニューラルネットワークの一般的な使用に比べて長くて複雑であるため、第1サーバのデータ処理手段11aは強力なコンピュータパワーを有する)と、選択的にコンピュータメモリ、例えば、ハードディスクのようなストレージ手段12を含む。
第1サーバ1aは、1つ以上の訓練データベース、すなわち、(正確な分類を意図とする、いわゆる入力されるデータとは反対の)既に分類されたデータのセットを有するか、これに対するアクセスを有する。説明するように、データは、ここでイメージおよび/またはビデオとして構成され、少なくとも既にセマンティックセグメンテーションされた訓練ビデオを含む。言い換えれば、訓練ビデオのピクセルは、既にラベリングされているのである。
アーキテクチャは、より好ましくは、クライアント機器10の1つ以上のアイテムを含む。これは、すべてのワークステーションに(または、ネットワーク2に接続されて)存在してよく、好ましくは、サーバ1a、1bから分離されていてよく、その1つおよび/または残りと統合されてよい。1つ以上のデータアイテムを有する。機器のオペレータは、通常、第1サーバ1aおよび/または第2サーバ1bを運用するサービス提供者の商業的意味としての「クライアント」を示す用語である。
回帰型ニューラルネットワークは、連続的な情報、現在のケース内のフレームのシーケンスを活用するニューラルネットワークの一タイプである。言い換えれば、与えられたフレームにおける出力は、このようなフレームからの特徴だけでなく、または隠れ状態またはメモリによって命名される「内部状態(internal state)」により、以前のフレームからの推定に依存するようになるであろう。回帰型ニューラルネットワークは、筆跡またはスピーチ認識のような作業に極めて適している。
回帰型ニューラルネットワークは、ニューラルネットワーク内におけるシーケンスのモデリングに効果的であることが立証された。その方法とは、時間による関連情報を累積する内部状態を学習し、推定が現在の入力とこのような内部状態を基盤とすることである。回帰型ニューラルネットワークは、勾配消滅問題(vanishing gradient issues)によって訓練が難しい。
回帰型ニューラルネットワークは、「回帰型」動作(behavior)を示す1つ以上のレイヤのブロックである「回帰型ニューラルネットワークモジュール」を含む。回帰型ニューラルネットワークモジュールは、当業者にとって周知の事項である。回帰型ニューラルネットワークは、ゲート付き回帰型ユニット(gated recurrent unit)および/または長短期記憶(long short−term memory)を含んでよい。ゲート付き回帰型ユニットおよび長短期記憶は、内部状態を選択的にアップデートするための学習可能なゲートを含み、これにより、訓練中により長いシーケンスに勾配を伝播することを可能にする。
一般的に、x、h、およびoが、それぞれフレームtからの回帰型ニューラルネットワーク(Recurrent Neural Network:RNN)の入力、隠れ状態、および出力を示す一般的な設定を定義する場合、回帰型ニューラルネットワークモジュールの出力oは、現在フレームtにおける特徴(features)xだけでなく、以前のフレームt−1でも隠れ状態ht−1の関数となる。同時に、隠れ状態hは、同じ入力に基づいてアップデートされる。ここで、回帰型ニューラルネットワークモジュールは、以下の数式(1)によって定義される:
,h=RNN(x,ht−1) ・・・(1)
は、すべてゼロであるテンソル(tensor)によって初期化される(h)。このようなゼロ初期化において、訓練段階は、好ましくは、対(pair)よりも長いシーケンスとして実行される。
回帰型ニューラルネットワークモジュールは、ビデオの固有のモーションを考慮するようにセマンティックセグメンテーションの作業に適応されてよい。
事実、xおよびoは、セマンティックセグメンテーションの作業のための現在の特徴マップとなり、これにより、(入力、内部状態、および出力が3Dテンソルである)畳み込み演算子(operator)が回帰型ニューラルネットワークモジュール、例えば、畳み込みゲート付き回帰型ユニット内部で使用されてよい。
このような畳み込み演算子は、例えば、フレーム予測およびビデオキャプション(captioning)のために使用されてきた。畳み込み回帰型ニューラルネットワークも、その目的が、1番目のフレームにおいてそのセグメンテーションが与えられたビデオに対するオブジェクトのバイナリセグメンテーションを出力することであるビデオオブジェクトセグメンテーションのような、他の密集したビデオ推定作業に適用されてきた。
例えば、畳み込みゲート付き回帰型ユニットをビデオのセマンティックセグメンテーションに適用することが提案された。しかし、このようなモデルは、モーションモデリングに欠ける。与えられたピクセルにおける推定は、該当のピクセルにおける推定の履歴を基盤とするが、このようなピクセルは、モーションがある場合には実世界において他のポイントを示すことがある。
実際の出力oは、周知の方式の畳み込み演算子のカーネルのサイズによる近傍(neighborhood)の大きさにより、xおよびht−1のローカル空間的近傍(local spatial neighborhood)に依存するはずである。
標準的な畳み込み回帰型ニューラルネットワークは、フレームtで与えられたピクセルpと以前のフレームt−1で同じピクセルpt−1(「同じピクセル」とは、ピクセルが正確に同じ座標であることを意味する)とが同じ実世界ポイントのプロジェクションである場合のみ、すなわち、このようなポイントが実世界で静的に(static)残っていれば(または、プロジェクションレイ(ray)に沿って移動すれば)考慮されてよい。言い換えれば、これは、ビデオが静的であること、すなわち、モーションがないことを仮定するのである。しかし、自律走行のような多くの応用において、このような仮定は有効でなく、ピクセルはフレーム間で相当に移動する。
より正確には、フレームtのピクセルpでの推定は、このようなピクセルpのローカル近傍N(p)の特徴xと以前のフレームt−1での隠れ状態ht−1からのローカル近傍N(pt−1)に依存するはずである。反対に、pでの推定は、実際にはN(p)の特徴xと隠れ状態ht−1からのローカル近傍N(p’t−1)に依存しなければならないはずである。p’t−1は、実世界のpと同じポイントに対応するピクセルである。
連続するフレームt−1(左)およびt(右)の例を示す図5は、現在のフレームt上の2つのピクセルpおよびqの正確に同じ座標において、以前のフレームt−1上のピクセルpt−1およびqt−1を示す。pt−1およびqt−1は、p’t−1およびq’t−1とは対照的に、それぞれpおよびqと同じ領域には属さない。
「オプティカルフロー」とは、あるイメージの他の1つ(特に、連続するフレームt−1,t∈[[1;T]]の対、すなわち、以前のフレームt−1および現在のフレームt)へのすべてのピクセルの変位を定義するベクトルフィールドである。
例えば、オプティカルフローFt−1→tとは、以前のフレームt−1から現在のフレームtへのすべてのピクセルたちの変位を定義し、オプティカルフロー(「逆方向のフロー」)とは、現在のフレームtから以前のフレームt−1へのすべてのピクセルの変位を定義する。
ピクセルp’t−1は、数式p’t−1=p+Ft→t−1(p)によって求められる。言い換えれば、オプティカルフローは、ベクトルフィールドによって各ピクセルを「シフト」する。
フローによって特徴マップをすべてのピクセルのモーションに適応させるために、回帰型モジュールの使用は、「ワーピング(warping)」関数の使用とともに結合(combine)される。実際、at−1が以前フレームt−1での特徴マップであり、aが現在のフレームtでの特徴マップであれば(特徴マップは、ベクトルフィールド、すなわち、各ピクセルにベクトルを関連させる)、a(p)およびat−1(p’t−1)=at−1(p+Ft→t−1(P))のすべてのピクセル特徴は結合される。このような演算は、効率的に実現することが難しいため(関連するピクセルは異なる座標を有するため)、特徴のワーピングが先に計算される。すなわち、
Figure 0006861249
と定義されるベクトルフィールド
Figure 0006861249
を構築するように計算される。したがって、a(p)および
Figure 0006861249
の特徴は、ピクセル単位(pixel by pixel)で直接的に結合されてよい。
言い換えれば、オプティカルフローFt→t−1が分かれば、ワーピングは、与えられたすべての特徴マップat−1からの与えられた特徴マップat−1に対応するワーピングされた特徴マップ
Figure 0006861249
を計算することであり、各ピクセルはオプティカルフローによる変位を経たものになる。
ワーピングとは、特徴マップ(すなわち、ベクトル)の値を変更させるのではなく、これらを「空間的に再配置」することを意味する。本発明に係る以前のフレームt−1からフレームtへのワーピングにおいて、ワーピング関数は、現在のイメージtの各ピクセルpに対し、逆方向のオプティカルフローFt→t−1による他のピクセルp’t−1に対するワーピングされた特徴マップの値(以前のイメージt−1と関連する内部状態ht−1)を関連させる。
実際に、オプティカルフローは、整数だけでなく、小数(float values)を含む。ワーピング関数は、(例えば、4つの値の)バイリニア補間法(bilinear interpolation)を基盤としてよく、これは、フロー値が、勾配がゼロに設定される場合である、整数である例外的な場合を除けば微分が可能である。
一般的なワーピングされた回帰型ニューラルネットワークモジュールは、FlowingRNNと称される。これにより、内部状態がオプティカルフローによるフレーム間でワーピングされる回帰型ニューラルネットワークモジュールとして作成されてよく、すなわち、次のとおりとなる。
Figure 0006861249
好ましい一実施形態において、FlowingGRU、すなわち、畳み込みゲート付き回帰型ユニットモジュール基盤のFlowingRNNが使用される。これは、以下の数式(2)にしたがって与えられてよい。
Figure 0006861249
Figure 0006861249
は要素別(element−wise)の乗算(multiplication)を示し、★は畳み込み演算子を、σはシグモイド関数を、ReLUは正規化線形ユニット(rectified linear unit)の非線形性を示し(以下を参照)、Wとbは学習可能なパラメータ(それぞれの加重値およびバイアス)を示す。
直観的に、リセットゲートrは、入力xを以前の隠れ状態ht−1とどのように結合しなければならないかを学習し、アップデートゲートzは、どれだけ多くの以前のメモリが維持されなければならないかを学習する。
本FlowingGRUと標準的な畳み込みゲート付き回帰型ユニットの主な違いは、隠れ状態がオプティカルフローによってワーピングされ、これにより、ピクセルモーションの場合においても、与えられたピクセルおよびタイムステップでの推定は、実世界のこのような特定されたポイントの履歴(history)に基づくようになるということにある。1つの小さな違いは、ReLUがコンピュータビジョン畳み込みニューラルネットワークアーキテクチャにおいて一般的に使用されるほど、ReLU非線形性が、好ましくは、標準的なtanhの代わりに使用されるということにある。
当業者は、説明されたアーキテクチャを、他のすべてのタイプの回帰型モジュールに変更する(transpose)ことが可能であろう。特に、「FlowingGRU」の代わりに「FlowingLSTM」、すなわち、畳み込み長短期記憶モジュール基盤のFlowingRNNが使用されてよい。
一般的に、FlowingRNNは、増加された性能、特に時間による一貫性の観点において、ビデオの向上されたセマンティックセグメンテーションを実行するように、すべての全層畳み込みイメージセグメンテーション方法に連結されてよい。
図3は、図1に示した3つの連続するフレームに対してFlowingRNNを使用したセマンティックセグメンテーションの例を示した図である。図2を参照しながら時間によって予測されたラベル内のノイズアーティファクトの不存在(absence)(ボックス)を、図3で観察することができる。
畳み込み回帰型ニューラルネットワーク、フロー推定、およびワーピングモジュールはすべて区別可能であり、全層ネットワークエンドツーエンド訓練を可能にする。
第1側面において、訓練方法は、第1サーバ1aのデータ処理手段11aによって実現される。方法は、ビデオのセマンティックセグメンテーションのために畳み込み回帰型ニューラルネットワークを訓練する。
第1段階aにおいて、標準的な畳み込みニューラルネットワーク(非回帰型)は、「第1畳み込みニューラルネットワーク」として参照可能であり、予めセマンティックセグメンテーションされた訓練イメージのベース(例えば、MS−Cocoデータセット)から訓練される。
言い換えれば、第1畳み込みニューラルネットワークは、時間によるローカル依存性を考慮しない、伝統的な「フレーム単位」ベースラインとする。周知のすべてのアーキテクチャが、第1畳み込みニューラルネットワークのために使用されてよい。
畳み込みニューラルネットワークは、一般的に、情報を処理する4つのタイプのレイヤを含む。
(a)1つずつイメージのブロックを処理する畳み込みレイヤ。
(b)「活性化関数」を適用することによって結果の適切性が改善されるようにする非線形レイヤ(校正レイヤとも称される)。
(c)複数のニューロンを1つの単一のニューロンにグルーピングするようにするプーリングレイヤ。
(d)レイヤのすべてのニューロンを以前のレイヤのすべてのニューロンと連結する、全層連結のレイヤ。
全層連結の畳み込みネットワークの場合、全層連結のレイヤはこれ以上存在せず、カーネルサイズ1の畳み込みレイヤに変換されるという点に留意する。これは、全体のイメージに対するただ1つの確率分布の代わりに、確率の出力マップを許容する。
非線形レイヤの活性化関数としては、最も頻繁にReLU関数(正規化線形ユニット)が使用されるが、これはf(x)=max(0、x)と同等であり、プーリングレイヤ(POOL)は、スクエア(square)の4つの値の間で最大値に対応する(4つの値が1つにプーリングされる)、MaxPool2×2関数が最も多く使用されるが、AveragePoolまたはSumPoolのような他のプーリング関数が使用されてもよい。
畳み込みレイヤ(CONV)および全層連結のレイヤ(FC)は、一般的に、以前のレイヤのニューロンと畳み込みニューラルネットワークの加重値とのスカラー乗法に対応する。
典型的な畳み込みニューラルネットワークアーキテクチャは、複数のレイヤCONV−>RELUの対を積層し、その次にレイヤプールを追加し、このようなスキーム[(CONV−>RELU)p−>POOL]を十分に小さな出力ベクトルが得られるまで繰り返し、1つまたは2つの全層連結のレイヤによって終了する。
図6では、第1畳み込みニューラルネットワークのためのアーキテクチャの例について説明する。
図6で説明するように、1番目の畳み込みレイヤとブロック1〜ブロック4はResNet−101からのものであり、ブロック3およびブロック4はそれぞれ、2および4の因子(レートとも呼ばれる)で拡張された畳み込み(dilated convolutions)を使用しており、32から8にネットワークのストライド(stride)を減少させる。
次に、多様な拡張因子(dilation factors)を有する、異なる畳み込みカーネルからの結果が積層されるAtrous空間的ピラミッドプーリング(ASPP:atrous spatial pyramid pooling)モジュールが存在する。Atrous空間的ピラミッドプーリングモジュールは、クラススコアを出力する最終的な1×1畳み込みレイヤの前に、256個のフィルタを有する(バッチ正規化(batch normalization)およびReULを有する)1×1畳み込みレイヤに供給される。このようなスコアは、最初のイメージ解像度によってバイリニアで(bilinearly)アップサンプリングされ、例えば、訓練時間中にピクセル単位でソフトマックス損失(softmax loss)を適用したり、試験時間中にピクセル単位でargmaxを取得したりすることによって予測されたクラスを推定する。
第1畳み込みニューラルネットワークを訓練するために、16のバッチサイズを有する確率的勾配降下法(Stochastic Gradient Descent:SGD)が使用されてよい。特に、「ポリー」学習率スケジュール(learning rate schedule)、すなわち、初期学習率にN回の繰り返しの総数に対して繰り返しiで
Figure 0006861249
だけ掛けられたものが適用されてよい。
訓練バッチは、例えば、321×321のピクセルサイズを有する訓練イメージのランダムクロップ(crop)から生成され、畳み込みニューラルネットワークは、全体イメージに対して試験される。訓練時に、ランダムクロップを取得する前に、データ増強がイメージをランダムで左右にフリッピングし、範囲[0:5;1:5]のランダムスケーリング因子を適用することによって実行されることが好ましい。
追加で(段階a)、オプティカルフローが有する連続するフレームの対のベースからの第2畳み込みニューラルネットワークの訓練が実行される。
説明するように、第2畳み込みニューラルネットワークは、フレームの対のオプティカルフロー、特に、現在のフレームtから以前のフレームt−1への逆方向のオプティカルフローFt→t−1を推定することを目標とする。
第2畳み込みニューラルネットワークは、FlowNetSimpleまたはFlowNetCorrelationのようなものであってよい。アーキテクチャFlowNetSimple(一般的にはFlowNetSと称する)が好ましく、図6の例で使用される。このようなアーキテクチャにおいて、2つの入力イメージはいずれも一緒に積層され、畳み込みレイヤとしてのみ生成されたネットワークを介して供給される。
ReLU非線形および「アップ畳み込み」も、畳み込みとして実現されてよい。
その次に(段階b)、畳み込み回帰型ニューラルネットワークが訓練される。その方法は、第1畳み込みニューラルネットワーク(および、存在する場合は第2畳み込みニューラルネットワーク)から畳み込み回帰型ニューラルネットワークを構築するものである。
畳み込み回帰型ニューラルネットワークは、第1畳み込みニューラルネットワークに対応し、畳み込みレイヤは、上述したような隠れ状態を有する回帰型モジュール(FlowingGRUのようなFlowingRNNモジュール)によって代替された。
好ましくは、図6に示すように、回帰型モジュールによって代替される、第1畳み込みニューラルネットワークの畳み込みレイヤは、最後から2番目(penultimate)の畳み込みレイヤである。このような位置は、ResNet−101を基盤とした例示内のAtrous空間的ピラミッドプーリングモジュールのすぐ後ろにあるため優れた結果を提供するが、回帰型モジュールは第1畳み込みニューラルネットワーク内のどことも代替可能であり、例えば、最後の畳み込みレイヤと代替されてよい。また、Atrous空間的ピラミッドプーリングモジュールの次に3つの畳み込みレイヤが存在してよく、回帰型モジュールは、1番目の(すなわち、第1畳み込みニューラルネットワークの後ろから3番目の(antepenultimate)畳み込みレイヤ)と代替されてよい。
第1畳み込みニューラルネットワークの訓練(段階a)は、畳み込み回帰型ニューラルネットワークのパラメータの「初期化」として示されてよく、(後述するように)既にセマンティックセグメンテーションされた訓練ビデオのベースからの追加の訓練により、畳み込み回帰型ニューラルネットワークの訓練(段階b)は、このようなパラメータの「ファインチューニング(fine−tuning)」として示されてよい。
第1畳み込みニューラルネットワークの訓練によって取得されたパラメータの一部は固定されてよく、すなわち、畳み込み回帰型ニューラルネットワークの訓練において追加で学習されなくてもよく、好ましくは、回帰型モジュールの前に(すなわち、Atrous空間的ピラミッドプーリングが含まれるまで)畳み込み回帰型ニューラルネットワークの各レイヤのパラメータがそうであってよい。追加で学習されたパラメータは、以後、好ましくは、回帰型モジュール、畳み込みニューラルネットワークの最後の畳み込みレイヤ(および、一般的には固定されない各畳み込みレイヤ)、および(存在する場合には)第2畳み込みニューラルネットワークのパラメータとなる。
セマンティックセグメンテーションに対して最も人気のあるベンチマークはイメージに制限され、畳み込み回帰型ニューラルネットワークの訓練においては使用されない。本発明の方法は、複数のピクセルがビデオ内で注釈処理されていたとしても、損失によって注釈処理されていないピクセルを無視することによって訓練されてよく、密集したグラウンドトゥルース(ground−truth)を使用する訓練は、より優れた時系列的一貫性に繋がるはずである。
大部分の実世界データセットは、シーケンス単位で注釈処理されたただ1つのフレームを有するが、複数の合成ベンチマークはデータの現実性(realism)またはシーケンスの低い数によって制限されるため、既にセマンティックセグメンテーションされた訓練ビデオのベースは、好ましくは、現実的なGrand Theft Auto(登録商標)(GTA)Vビデオゲームからキャプチャされる約200個のビデオシーケンスからの約250kフレームで構成される最新バイパーデータセットである。
合成レンダリングは、セマンティックセグメンテーションを含む、複数の作業に対するグラウンドトゥルースを取得するように許容する。照明および気象状態は、昼から夜まで、晴天から雨が降るまで、雪が降るとき、または霧が発生するときに変化し、データセットを挑戦的に(challenging)生成する。セマンティックセグメンテーション作業は、(例えば、空や地形のような)要素、車両(例えば、乗用車やトラック)、および小さなオブジェクト(例えば、交通標識や信号)を含む23個のクラスを有する。
畳み込み回帰型ニューラルネットワークの訓練(段階b)は、好ましくは、セマンティックセグメンテーションされた訓練ビデオのベースのうち、あるビデオの連続的なフレームt−1,t∈[[1;T]]の各対に対し、該当の対のフレーム間のオプティカルフロー(特に、現在のフレームtから以前のフレームt−1への逆方向のオプティカルフローFt→t−1)を推定すること(サブ−段階b0)によって始まる。
訓練におけるこのような段階(段階b)は、好ましくは、入力として一対の2つのフレームを使用する畳み込みニューラルネットワーク(図6のFlowNetS)の第2の訓練によって実行されるが、このような方法は、オプティカルフローを推定するためのいかなる技法にも制限されない。
オプティカルフローは、訓練ベースのフレーム間で既に推定されたものであり、このような段階(サブ−段階b0)は、訓練において選択的なものにとどまることに留意されたい。
追加で(サブ−段階b1)、既に説明したように、回帰型レイヤの内部状態は、内部状態が対をなすフレーム間のピクセルのモーションに適応するように、推定されたオプティカルフローによってワーピングされる。
その次に(サブ−段階b2)、少なくとも回帰型モジュールのパラメータが学習される。
回帰型モジュールに加え、このようなレイヤの出力は、フレーム単位ベースラインの1つとは相異するようになるため、続くレイヤは再度学習される。既に説明したように、追加で学習されたパラメータは、以後、好ましくは、回帰型モジュール、畳み込みニューラルネットワークの最後の畳み込みレイヤ(および、一般的に固定されない各畳み込みレイヤ)、および(存在する場合には)第2畳み込みニューラルネットワークのパラメータとなる。
このために、4のバッチサイズを有し、12個の連続するフレームのシーケンスを訓練し、1番目のCNNの初期訓練に対するものと類似するポリー学習率スケジュール(poly learning rate schedule)を有する時間アルゴリズムを利用したバックプロバケーション(backpropagation)を使用する、確率的勾配降下法が使用されてよく、類似のデータ拡張戦略が使用されてもよい。試験時間に、以前のフレームからの隠れ状態は、シーケンスの長さに制限されることなく使用されてよい。
第2側面において、第2サーバ1bのデータ処理手段11bによって実現される、入力されたビデオのセマンティックセグメンテーションが提案される。言い換えれば、第2側面に係る方法は、入力されたビデオのセマンティックセグメンテーションを実行し、すなわち、入力されたビデオのフレームのピクセルをラベリングする。
セグメンテーションされる入力されたビデオは、クライアント機器10から受信されてよい。
1番目の段階aにおいて、図7で説明したように、畳み込み回帰型ニューラルネットワークの訓練が(少なくとも予めセマンティックセグメンテーションされた訓練ビデオのベースとして、および、好ましくは、少なくとも予めセマンティックセグメンテーションされた訓練イメージのベースから)第1サーバ1aによって実行される。好ましくは、訓練は、第1側面による方法と一致し、すなわち、第1畳み込みニューラルネットワークが訓練されることにより、第1畳み込みニューラルネットワークを基盤とした畳み込み回帰型ニューラルネットワークが構築され、最後から2番目の畳み込みレイヤがFlowingRNNタイプの回帰型モジュールによって代替される。
代案的または組み合わせにより、段階a’は、オプティカルフローが既知である連続するフレームの訓練対のベースから、畳み込みニューラルネットワーク(すなわち、訓練方法の第2畳み込みニューラルネットワーク)を訓練させる段階をさらに含んでよい。
第1サーバ1aおよび第2サーバ1bは、同じ機器であるか、あるいは、段階a’は、メモリ12内の記録のために、訓練された畳み込み回帰型ニューラルネットワークパラメータおよび加重値の第1サーバ1aから第2サーバ1bへの送信を含むものと理解されなければならない。
第2段階b’において、第2サーバ1bの処理手段11bは、セグメンテーションのために畳み込み回帰型ニューラルネットワークを使用する。
このために、段階b’は、入力されたビデオの連続するフレームt−1,t∈[[1;T]]の各対に対し、次のような段階を含む。
(b’0)対をなすフレーム間のオプティカルフローを推定する段階、
(b’1)推定されたオプティカルフローによって回帰型レイヤの内部状態を、前記内部状態が対をなすフレーム間のピクセルのモーションに適応するように(adapt)、ワーピングする段階、および
(b’2)畳み込み回帰型ニューラルネットワークによって各フレームをセマンティックセグメンテーションする段階。
サブ−段階b’0およびb’1は、好ましくは、上述したようなサブ−段階b0およびb1と同じであり、そのすべての改善を含んでよい。
最終的に取得される分類結果は、クライアント機器10に再び送信されてよい。
本発明の効果は、標準的なピクセル単位のmean Intersection over Union metric(mIoU)の各クラスに対し、該当のクラス内でグラウンドトゥルースまたは推定が計算される該当のクラスの全体ピクセルの数に対する該当のクラスに対して正しく推定されたピクセルの数の割合を使用して評価されてよく、すべてのクラスに対する平均が報告される。
しかし、これは、セマンティックセグメンテーション推定の時系列的な一貫性は測定できない。このために、mean Intersection over Union metricは、軌跡(trajectory)レベルでさらに計算されてよく、そこで全体ビデオに対して正しく密集した軌跡がハーフ(half)解像度および8個のピクセルの密度から抽出されたオプティカルフローとともに抽出されると見なされるようにするために、軌跡は、グラウンドトゥルースクラスを有するすべてのフレームに渡って一貫するようにラベリングされなければならない。
グラウンドトゥルースラベリングが一貫される軌跡だけが、フロー推定におけるエラーによるノイズ軌跡をフィルタリングするために維持される。実際に、このようなフィルタリング段階は、約8%の抽出された軌跡を除去する。
これは、「軌跡単位」でmean Intersection over Union metric(mIoU)が報告されるようにし、ピクセルが相異する推定されたラベルを有する軌跡は、間違い(wrong)としてカウントされる。各クラスの一貫性も、次のように計算されてよい。予測されたクラスごとに、グラウンドトゥルースが一貫するように与えられたクラスに該当する軌跡のうちで予測が一貫する軌跡の割合が計算される。「平均一貫性(mean consistency:mCons.)」は、全体クラスに対して平均化されて報告されてよい。
先ず、好ましいFlowingGRUモジュールの性能に対する訓練シーケンスの長さTの影響が研究される。試験時間において、訓練時に使用されるシーケンスの長さとは独立的に、以前のフレームの隠れ状態は、すべての場合において使用される。サニティ(sanity)チェックとして、モデルは、性能がフレーム単位ベースラインと類似するかを検証するように、先ず、オールゼロ(all zeroes)の内部状態による訓練において、すべての場合および1つのフレームのシーケンスにおいて使用される。Tは、次いで2から12まで増加される。性能における一貫性利得はTが増加するときに観察される。フレーム単位ベースラインに比べて12個のフレームの訓練シーケンスを使用するとき、mIoUは1.2%だけさらに高く、mIoUは2.1%だけ、mConsは3.5%だけさらに高かった。
その次に、好ましいFlowingGRUモジュールの畳み込み(および、したがって内部状態の)出力チャンネル(C)の数と(FlowingGRU内のすべての畳み込み)カーネルサイズ(K)の影響が研究される。最適の性能がC=256およびK=3で観察されることに留意し、これについては次の事実に基づいて詳しく説明する。
さらに低い数のチャンネルは、正確なセマンティックセグメンテーションのために、以前のレイヤから空間的および以前のフレームからの時間により、適切な情報を伝達するのに十分でない。
1よりも大きいサイズを有するカーネルは、ローカル近傍に関する情報を統合し、これにより、オプティカルフローを計算するにあたり小さなエラーからの復旧を許容する。
3よりも大きいサイズを有するカーネルは、極めて多くのパラメータを有するため、ローカル時系列的一貫性を効果的に学習することができない。
(T=12、K=3、およびC=256の好ましい値を有する)FlowingGRUモジュールの影響が、表1(左側)において複数の変形と関連する作業と比較される。作業のいずれもバイパー(Viper)データセットとして試験されることはなく、これらの作業は、相異するバックボーン(backbone)アーキテクチャを使用することに留意する。公正な比較のために同じベースラインが使用され、提案されたモジュールのそれぞれは、FlowingRNNと同じ位置で連結されて同じ訓練スキームを基盤とする。
Figure 0006861249
フレーム単位ベースラインに比べ(ReLU非線形性を有する)、FlowingGRUモジュールは、mIoUにおいて1.22%の、mIoUにおいて2.14%の、mCons.において3.44%の明確な改善を示した。これは、FlowingGRUがピクセルモーションを考慮しながらも密集したビデオ予測の作業のための時系列的情報を効果的に活用するということを強調する。
ReLU非線形性を有するFlowingGRUモジュールは、2つの変形と比較されてよい。1番目の1つは、(ReLUの代わりに)標準的なtanh非線形性を使用することによって構成されるが、これについては表1の「FlowingGRU(tanh)」行を参照する。mIoUにおいて0.8%の下落が観察されたが、これはReLUがセマンティックセグメンテーションのためにより適切であることを示している。
2番目の変形において、FlowNetSのパラメータは固定されるが、訓練中には微細調整がなされない(すなわち、第2畳み込みニューラルネットワークが段階bにおいて追加で学習されない)。これについては表1のFlowingGRU(fixed flow)」行を参照する。このような場合に、mIoUにおいて0.9%の下落があり、これは、FlowingGRUモジュールとともにフロー推定を訓練させることの重要性を示している。
FlowingGRUモジュールは、他の回帰型モデルとさらに比較される。内部状態のワーピングのない、例えば、ビデオのセマンティックセグメンテーションの脈絡における使用として、標準的な畳み込みゲート付き回帰型ユニット(ConvGRU)が先に試される。結果は、表1の「ConvGRU」行で報告される。3つの指標は、フレーム単位ベースラインに比べて多少増加するが、これは一部の時系列的一貫性を事実上学習するということを示している。しかし、ConvGRUは、例えば、0.8%さらに低いmIoUのように、好ましいFlowingGRUよりは相当に劣った性能を示す。事実、連続するフレーム間で内部状態を維持することにより、ConvGRUは、連続するフレーム内の同じ位置のピクセルが同じ実世界ポイントのプロジェクションとなることを仮定し、これはほとんどの場合において正しくない。同じように、mIoUおよびmCons.は、それぞれ1.63%および2.55%と相当に減少する。
次に、ゲート付き回帰型ユニットが、ReLU非線形性がtanhの代わりにも使用される長短期記憶によって代替され、これについては表1の「ConvLSTM」および「FlowingLSTM」行を参照する。ゲート付き回帰型ユニットを有するものよりも、性能は相当に低下した。1つの説明は、長短期記憶がビジョン作業に対してゲート付き回帰型ユニットよりも訓練することが難しいということである。FlowingLSTMが畳み込みLSTMよりも相当に優れた性能を示す(mIoUにおいて+4.06%)という1つの興味深い結果を示したが、これは内部状態をワーピングすることの重要性を再度強調している。
最後に、最後から2番目のレイヤの代わりに最後の畳み込みレイヤを代替することにより、FlowingGRUモジュールの位置が研究されてよい。このような場合に、出力は、ソフトマックス(softmax)に入っていくことに留意する(非線形性は使用されなかった)。このような変形は、バイパーデータセットに対して0.6%のmIoU減少に繋がることに留意する。ConvGRUを使用するとき、性能は、モジュールを最後のレイヤに代替するときよりも低くなる。最後から2番目のレイヤを代替することにより、履歴は最終推定が生成される潜在空間(latent space)に内蔵され、これは、隠れ状態と現在の特徴から最終的なセグメンテーションを直接的に推定するよりも強力である。
様々な実験は、微細アノテーション(fine annotation)だけを使用する、すなわち、訓練のために2975個のシーケンスおよび検証のために500個のシーケンスを実世界シティスケープデータセット(Cityscapes dataset)上で動作されることができた。各シーケンスは、1つのフレーム(12番目のフレーム)上だけで注釈を有する30個のフレームを有する。
訓練および試験の手順は、バイパーデータセットの場合と同じように維持されてよい。唯一の違いは、グラウンドトゥルースが疎な(sparse)フレームに対して注釈処理されることにある。したがって、訓練中には注釈処理されなかったフレームに対する損失は無視され、これは、ビデオ情報が適合しないように活用されるように生成される。ノイズ軌跡は、1つのシーケンスあたり1つが注釈処理されたフレームによっては解消されず、したがって、mIoUだけが報告されるようになる。
相異する変形の結果は、表1の右側の列で報告したとおりである。先ず、FlowingGRUは、mIoUにおいて1.14%の利得によってフレーム単位ベースラインを凌駕する。すべての場合において、「Flowing」対応関係は、静的な畳み込みモジュールよりも優れた性能を示す。
要するに、ビデオのセマンティックセグメンテーションのための畳み込み回帰型ニューラルネットワークを訓練する方法は、既にセマンティックセグメンテーションされた訓練イメージのベースから第1畳み込みニューラルネットワークを訓練する段階、および既にセマンティックセグメンテーションされた訓練ビデオのベースから前記第1畳み込みニューラルネットワークに対応する畳み込み回帰型ニューラルネットワークを訓練する段階を含み、畳み込みレイヤは、隠れ状態(hidden state)を有する回帰型モジュールによって代替された。前記訓練する段階は、既にセマンティックセグメンテーションされた訓練ビデオのベースのうちの1つのビデオの連続するフレームの各対に対し、該当の対のフレーム間の推定されたオプティカルフロー(optical flow)によって回帰型レイヤの内部状態を、前記内部状態が前記対のフレーム間のピクセルのモーションに適応するように(adapt)ワーピングする段階を含む。
より好ましくは、内部状態がオプティカルフローによってフレーム間でワーピングされた標準的な畳み込み回帰型レイヤ(これは、他の畳み込みニューラルネットワークを使用して推定される)を提供することは、ビデオのセマンティックセグメンテーションを、特に、時間による一貫性の観点において改善させる。
連続するフレームの対は、好ましくは、以前のフレームおよび現在のフレームを含み、推定されたオプティカルフローは、前記現在のフレームから前記以前のフレームへの逆方向(backward)のオプティカルフローであり、前記以前のフレームと関連する内部状態に対応する前記以前のフレームと関連するワーピングされた内部状態を取得するために、前記内部状態にワーピング関数が適用され、各ピクセルは前記逆方向オプティカルフローによる変位を経るようになる。
前記ワーピング関数は
Figure 0006861249
であり、pは前記現在のフレームtのピクセルであり、Ft→t−1は前記逆方向オプティカルフローであり、ht−1は前記以前のフレームt−1と関連する内部状態であり、
Figure 0006861249
は前記以前のフレームt−1と関連するワーピングされた内部状態である。
対をなすフレームのオプティカルフローの推定は、オプティカルフローが既知である(known)連続するフレームの訓練対のベースから第2畳み込みニューラルネットワークを訓練することにより、前記第2畳み込みニューラルネットワークを使用して実行されてよい。前記第2畳み込みニューラルネットワークは、FlowNetSimpleネットワークまたはFlowNetCorrelationネットワークであってよい。
前記回帰型モジュール前の前記畳み込み回帰型ニューラルネットワークの各レイヤのパラメータは、固定されてよい。
回帰型モジュールによって代替される前記第1畳み込みニューラルネットワークの畳み込みレイヤは、最後から2番目(penultimate)の畳み込みレイヤであってよい。
前記畳み込み回帰型ニューラルネットワークの学習されたパラメータは、前記回帰型モジュールおよび前記第1畳み込みニューラルネットワークの最後の畳み込みレイヤのパラメータであってよい。
前記第1畳み込みニューラルネットワークは、前記最後から2番目の畳み込みレイヤの前に、Atrous空間的ピラミッドプーリング(atrous spatial pyramid pooling)モジュールを含んでよい。
前記回帰型モジュールは、畳み込みゲート付き回帰型ユニット(gated recurrent unit)または畳み込み長短期記憶(long short−term memory)を含んでよい。
セマンティックセグメンテーションされた訓練イメージのセットを使用して第1畳み込みニューラルネットワークを訓練する段階、およびセマンティックセグメンテーションされた訓練ビデオのセットを使用して前記第1畳み込みニューラルネットワークに対応する畳み込み回帰型ニューラルネットワークを訓練する段階(ここで、畳み込みレイヤは、隠れ状態(hidden state)を有する回帰型モジュールによって代替され、前記畳み込み回帰型ニューラルネットワークを訓練させる段階は、前記セマンティックセグメンテーションされた訓練ビデオのセットのうちの1つのビデオの連続するフレームt−1,t∈[[1;T]]の各対に対し、連続するフレームの対のフレーム間の推定されたオプティカルフロー(optical flow)によって回帰型レイヤの内部状態を、前記内部状態が前記対のフレーム間のピクセルのモーションに適応するように(adapt)ワーピングする段階、および少なくとも前記回帰型モジュールのパラメータを学習する段階を含む)によって訓練された畳み込み回帰型ニューラルネットワークを使用する、入力されたビデオのセマンティックセグメンテーション方法は、(a)前記入力されたビデオの連続するフレームt−1,t∈[[1;T]]の各対に対し、前記対のフレーム間のオプティカルフローを推定する段階、(b)前記入力されたビデオの連続するフレームt−1,t∈[[1;T]]の各対に対し、前記推定されたオプティカルフローによって前記回帰型レイヤの内部状態を、前記内部状態が前記対のフレーム間のピクセルのモーションに適応するように(adapt)ワーピングする段階、および(c)前記入力されたビデオの連続するフレームt−1,t∈[[1;T]]の各対に対し、前記畳み込み回帰型ニューラルネットワークによって各フレームをセマンティックセグメンテーションする段階を含む。
前記畳み込み回帰型ニューラルネットワークを訓練させる段階は、オプティカルフローが既知である(known)連続するフレームの訓練対のセットを使用して第2畳み込みニューラルネットワークを訓練させる段階を含んでよく、前記(a)は、前記第2畳み込みニューラルネットワークを使用して実行される。
前記第2畳み込みニューラルネットワークは、FlowNetSimpleネットワークまたはFlowNetCorrelationネットワークであってよい。
畳み込み回帰型ニューラルネットワークを使用する、入力されたビデオのセマンティックセグメンテーション方法は、(a)前記入力されたビデオの連続するフレームt−1,t∈[[1;T]]の各対に対し、前記対のフレーム間のオプティカルフローを推定する段階、(b)前記入力されたビデオの連続するフレームt−1,t∈[[1;T]]の各対に対し、前記推定されたオプティカルフローによって回帰型レイヤの内部状態を、前記内部状態が前記対のフレーム間のピクセルのモーションに適応するように(adapt)ワーピングする段階、(c)前記入力されたビデオの連続するフレームt−1,t∈[[1;T]]の各対に対し、前記畳み込み回帰型ニューラルネットワークで各フレームをセマンティックセグメンテーションする段階を含み、前記畳み込みニューラルネットワークは、セマンティックセグメンテーションされた訓練イメージのセットを使用して第1畳み込みニューラルネットワークを訓練させる段階、およびセマンティックセグメンテーションされた訓練ビデオのセットを使用して前記第1畳み込みニューラルネットワークに対応する畳み込み回帰型ニューラルネットワークを訓練させる段階によって訓練され、畳み込みレイヤは、隠れ状態(hidden state)を有する回帰型モジュールによって代替され、前記畳み込み回帰型ニューラルネットワークを訓練させる段階は、前記セマンティックセグメンテーションされた訓練ビデオのセットのうちの1つのビデオの連続するフレームt−1,t∈[[1;T]]の各対に対し、連続するフレームの対のフレーム間の推定されたオプティカルフロー(optical flow)によって回帰型レイヤの内部状態を、前記内部状態が前記対のフレーム間のピクセルのモーションに適応するように(adapt)ワーピングする段階、および少なくとも前記回帰型モジュールのパラメータを学習する段階を含む。
前記畳み込み回帰型ニューラルネットワークを訓練する段階は、オプティカルフローが既知である(known)連続するフレームの訓練対のセットを使用して第2畳み込みニューラルネットワークを訓練する段階を含み、前記(a)は、前記第2畳み込みニューラルネットワークを使用して実行される。
第2畳み込みニューラルネットワークは、FlowNetSimpleネットワークまたはFlowNetCorrelationネットワークであってよい。
他の一側面において、ビデオのセマンティックセグメンテーションのための畳み込み回帰型ニューラルネットワークを訓練するシステムが提供される。当該システムは、(a)セマンティックセグメンテーションされた訓練イメージのセットを使用して第1畳み込みニューラルネットワークを訓練し、(b)セマンティックセグメンテーションされた訓練ビデオのセットを使用して前記第1畳み込みニューラルネットワークに対応する畳み込み回帰型ニューラルネットワークを訓練してよい。畳み込みレイヤは、隠れ状態(hidden state)を有する回帰型モジュールによって代替された。前記畳み込み回帰型ニューラルネットワークを訓練することは、前記セマンティックセグメンテーションされた訓練ビデオのセットのうちの1つのビデオの連続するフレームt−1,t∈[[1;T]]の各対に対し、(b1)連続するフレームの対のフレーム間の推定されたオプティカルフロー(optical flow)によって回帰型レイヤの内部状態を、前記内部状態が前記対のフレーム間のピクセルのモーションに適応するように(adapt)ワーピングし、(b1)少なくとも前記回帰型モジュールのパラメータを学習することを含んでよい。
また、他の一側面において、ビデオのセマンティックセグメンテーションのための畳み込み回帰型ニューラルネットワークを訓練する方法をコンピュータに実行させるためにコンピュータ読み取り可能な記録媒体に記録されたプログラムが提供される。当該方法は、(a)セマンティックセグメンテーションされた訓練イメージのセットを使用して第1畳み込みニューラルネットワークを訓練する段階、および(b)セマンティックセグメンテーションされた訓練ビデオのセットを使用して前記第1畳み込みニューラルネットワークに対応する畳み込み回帰型ニューラルネットワークを訓練する段階(ここで、畳み込みレイヤは、隠れ状態(hidden state)を有する回帰型モジュールによって代替される)を含んでよい。前記畳み込み回帰型ニューラルネットワークを訓練する段階は、前記セマンティックセグメンテーションされた訓練ビデオのセットのうちの1つのビデオの連続するフレームt−1,t∈[[1;T]]の各対に対し、(b1)連続するフレームの対のフレーム間の推定されたオプティカルフロー(optical flow)によって回帰型レイヤの内部状態を、前記内部状態が前記対のフレーム間のピクセルのモーションに適応する(adapt)ようにワーピングする段階、および(b1)少なくとも前記回帰型モジュールのパラメータを学習する段階を含んでよい。
以上のように、実施形態を、限定された実施形態と図面に基づいて説明したが、当業者であれば、上述した記載から多様な修正および変形が可能であろう。例えば、説明された技術が、説明された方法とは異なる順序で実行されたり、かつ/あるいは、説明されたシステム、構造、装置、回路などの構成要素が、説明された方法とは異なる形態で結合されたりまたは組み合わされたり、他の構成要素または均等物によって代替されたり置換されたとしても、適切な結果を達成することができる。
したがって、異なる実施形態であっても、特許請求の範囲と均等なものであれば、添付される特許請求の範囲に属する。

Claims (24)

  1. ビデオのセマンティックセグメンテーションのための畳み込み回帰型ニューラルネットワークを訓練する方法であって、
    (a)セマンティックセグメンテーションされた訓練イメージのセットを使用して第1畳み込みニューラルネットワークを訓練する段階、および
    (b)セマンティックセグメンテーションされた訓練ビデオのセットを使用して前記第1畳み込みニューラルネットワークに対応する畳み込み回帰型ニューラルネットワークを訓練する段階であって、畳み込みレイヤは、隠れ状態を有する回帰型モジュールによって代替される段階
    を含み、
    前記畳み込み回帰型ニューラルネットワークを訓練する段階は、前記セマンティックセグメンテーションされた訓練ビデオのセットのうちの1つのビデオの連続するフレームの各対について、
    (b1)連続するフレームの対のフレーム間の推定されたオプティカルフローによって回帰型レイヤの内部状態を、前記内部状態が前記対のフレーム間のピクセルのモーションに適応するようにワーピングする段階、および
    b2)少なくとも前記回帰型モジュールのパラメータを学習する段階
    を含み、
    前記回帰型モジュールによって代替される前記第1畳み込みニューラルネットワークの畳み込みレイヤは、最後から2番目の畳み込みレイヤである、
    畳み込み回帰型ニューラルネットワークを訓練する方法。
  2. 前記連続するフレームの対は、以前のフレームおよび現在のフレームを含み、前記推定されたオプティカルフローは、前記現在のフレームから前記以前のフレームへの逆方向オプティカルフローであり、
    前記(b1)は、前記以前のフレームと関連する内部状態に対応する前記以前のフレームと関連するワーピングされた内部状態を取得するために、ワーピング関数を前記内部状態に適用する段階であり、各ピクセルは、前記逆方向オプティカルフローによる変位を経たものである、
    請求項1に記載の畳み込み回帰型ニューラルネットワークを訓練する方法。
  3. 前記ワーピング関数は
    Figure 0006861249

    であり、pは前記現在のフレームtのピクセルであり、Ft→t−1は前記逆方向オプティカルフローであり、ht−1は前記以前のフレームt−1と関連する内部状態であり、
    Figure 0006861249

    は、前記以前のフレームt−1と関連するワーピングされた内部状態である、
    請求項2に記載の畳み込み回帰型ニューラルネットワークを訓練する方法。
  4. 前記(b1)は、第2畳み込みニューラルネットワークを使用して実行される、前記連続するフレームの対のフレーム間のオプティカルフローを推定する段階を含み、前記第2畳み込みニューラルネットワークは、オプティカルフローが既知である連続するフレームの訓練対のセットを使用して訓練される、
    請求項1に記載の畳み込み回帰型ニューラルネットワークを訓練する方法。
  5. 前記第2畳み込みニューラルネットワークは、FlowNetSimpleネットワークである、
    請求項4に記載の畳み込み回帰型ニューラルネットワークを訓練する方法。
  6. 前記第2畳み込みニューラルネットワークは、FlowNetCorrelationネットワークである、
    請求項4に記載の畳み込み回帰型ニューラルネットワークを訓練する方法。
  7. 前記回帰型モジュールの前の前記畳み込み回帰型ニューラルネットワークの各レイヤのパラメータは、前記(b2)の間に固定される、
    請求項1に記載の畳み込み回帰型ニューラルネットワークを訓練する方法。
  8. 前記(b2)で学習された畳み込み回帰型ニューラルネットワークのパラメータは、前記回帰型モジュールおよび前記第1畳み込みニューラルネットワークの最後の畳み込みレイヤのパラメータである、
    請求項7に記載の畳み込み回帰型ニューラルネットワークを訓練する方法。
  9. 前記(b2)は、前記第2畳み込みニューラルネットワークのパラメータを学習する段階
    をさらに含む、
    請求項4に記載の畳み込み回帰型ニューラルネットワークを訓練する方法。
  10. 前記第1畳み込み回帰型ニューラルネットワークは、最後から2番目の畳み込みレイヤの前に、Atrous空間的ピラミッドプーリングモジュールを含む、
    請求項7に記載の畳み込み回帰型ニューラルネットワークを訓練する方法。
  11. 前記回帰型モジュールは、畳み込みゲート付き回帰型ユニットを含む、
    請求項1に記載の畳み込み回帰型ニューラルネットワークを訓練する方法。
  12. 前記回帰型モジュールは、畳み込み長短期記憶を含む、
    請求項1に記載の畳み込み回帰型ニューラルネットワークを訓練する方法。
  13. ビデオのセマンティックセグメンテーションのための畳み込み回帰型ニューラルネットワークを訓練する方法であって、
    (a)セマンティックセグメンテーションされた訓練イメージのセットを使用して第1畳み込みニューラルネットワークを訓練する段階、および
    (b)セマンティックセグメンテーションされた訓練ビデオのセットを使用して前記第1畳み込みニューラルネットワークに対応する畳み込み回帰型ニューラルネットワークを訓練する段階であって、畳み込みレイヤは、隠れ状態を有する回帰型モジュールによって代替される段階
    を含み、
    前記畳み込み回帰型ニューラルネットワークを訓練する段階は、前記セマンティックセグメンテーションされた訓練ビデオのセットのうちの1つのビデオの連続するフレームの各対について、
    (b1)連続するフレームの対のフレーム間の推定されたオプティカルフローによって回帰型レイヤの内部状態を、前記内部状態が前記対のフレーム間のピクセルのモーションに適応するようにワーピングする段階、および
    (b2)少なくとも前記回帰型モジュールのパラメータを学習する段階
    を含み、
    前記回帰型モジュールの前の前記畳み込み回帰型ニューラルネットワークの各レイヤのパラメータは、前記(b2)の間に固定され、
    前記(b2)で学習された畳み込み回帰型ニューラルネットワークのパラメータは、前記回帰型モジュールおよび前記第1畳み込みニューラルネットワークの最後の畳み込みレイヤのパラメータである、
    畳み込み回帰型ニューラルネットワークを訓練する方法。
  14. ビデオのセマンティックセグメンテーションのための畳み込み回帰型ニューラルネットワークを訓練する方法であって、
    (a)セマンティックセグメンテーションされた訓練イメージのセットを使用して第1畳み込みニューラルネットワークを訓練する段階、および
    (b)セマンティックセグメンテーションされた訓練ビデオのセットを使用して前記第1畳み込みニューラルネットワークに対応する畳み込み回帰型ニューラルネットワークを訓練する段階であって、畳み込みレイヤは、隠れ状態を有する回帰型モジュールによって代替される段階
    を含み、
    前記畳み込み回帰型ニューラルネットワークを訓練する段階は、前記セマンティックセグメンテーションされた訓練ビデオのセットのうちの1つのビデオの連続するフレームの各対について、
    (b1)連続するフレームの対のフレーム間の推定されたオプティカルフローによって回帰型レイヤの内部状態を、前記内部状態が前記対のフレーム間のピクセルのモーションに適応するようにワーピングする段階、および
    (b2)少なくとも前記回帰型モジュールのパラメータを学習する段階
    を含み、
    前記回帰型モジュールの前の前記畳み込み回帰型ニューラルネットワークの各レイヤのパラメータは、前記(b2)の間に固定され、
    前記第1畳み込み回帰型ニューラルネットワークは、最後から2番目の畳み込みレイヤの前に、Atrous空間的ピラミッドプーリングモジュールを含む、
    畳み込み回帰型ニューラルネットワークを訓練する方法。
  15. セマンティックセグメンテーションされた訓練イメージのセットを使用して第1畳み込みニューラルネットワークを訓練する段階、およびセマンティックセグメンテーションされた訓練ビデオのセットを使用して前記第1畳み込みニューラルネットワークに対応する畳み込み回帰型ニューラルネットワークを訓練する段階によって訓練された畳み込み回帰型ニューラルネットワークを使用する、入力されたビデオのセマンティックセグメンテーション方法であって、畳み込みレイヤは、隠れ状態を有する回帰型モジュールによって代替され、前記畳み込み回帰型ニューラルネットワークを訓練する段階は、前記セマンティックセグメンテーションされた訓練ビデオのセットのうちの1つのビデオの連続するフレームの各対に対し、連続するフレームの対のフレーム間の推定されたオプティカルフローによって回帰型レイヤの内部状態を、前記内部状態が前記対のフレーム間のピクセルのモーションに適応するようにワーピングする段階、および少なくとも前記回帰型モジュールのパラメータを学習する段階を含み、当該方法は、
    (a)前記入力されたビデオの連続するフレームの各対に対し、前記対のフレーム間のオプティカルフローを推定する段階、
    (b)前記入力されたビデオの連続するフレームの各対に対し、前記推定されたオプティカルフローによって前記回帰型レイヤの内部状態を、前記内部状態が前記対のフレーム間のピクセルのモーションに適応するようにワーピングする段階、および
    (c)前記入力されたビデオの連続するフレームの各対に対し、前記畳み込み回帰型ニューラルネットワークによって各フレームをセマンティックセグメンテーションする段階
    を含み、
    前記回帰型モジュールによって代替される前記第1畳み込みニューラルネットワークの畳み込みレイヤは、最後から2番目の畳み込みレイヤである、
    入力されたビデオのセマンティックセグメンテーション方法。
  16. 前記畳み込み回帰型ニューラルネットワークを訓練する段階は、オプティカルフローが既知である連続するフレームの訓練対のセットを使用して第2畳み込みニューラルネットワークを訓練する段階を含み、前記(a)は、前記第2畳み込みニューラルネットワークを使用して実行される、
    請求項15に記載の入力されたビデオのセマンティックセグメンテーション方法。
  17. 前記第2畳み込みニューラルネットワークは、FlowNetSimpleネットワークである、
    請求項16に記載の入力されたビデオのセマンティックセグメンテーション方法。
  18. 前記第2畳み込みニューラルネットワークは、FlowNetCorrelationネットワークである、
    請求項16に記載の入力されたビデオのセマンティックセグメンテーション方法。
  19. 畳み込み回帰型ニューラルネットワークを使用する、入力されたビデオのセマンティックセグメンテーション方法であって、
    (a)前記入力されたビデオの連続するフレームの各対に対し、前記対のフレーム間のオプティカルフローを推定する段階、
    (b)前記入力されたビデオの連続するフレームの各対に対し、前記推定されたオプティカルフローによって回帰型レイヤの内部状態を、前記内部状態が前記対のフレーム間のピクセルのモーションに適応するようにワーピングする段階、および
    (c)前記入力されたビデオの連続するフレームの各対に対し、前記畳み込み回帰型ニューラルネットワークによって各フレームをセマンティックセグメンテーションする段階
    を含み、
    前記畳み込みニューラルネットワークは、セマンティックセグメンテーションされた訓練イメージのセットを使用して第1畳み込みニューラルネットワークを訓練する段階、およびセマンティックセグメンテーションされた訓練ビデオのセットを使用して前記第1畳み込みニューラルネットワークに対応する畳み込み回帰型ニューラルネットワークを訓練する段階によって訓練され、畳み込みレイヤは、隠れ状態を有する回帰型モジュールによって代替され、前記畳み込み回帰型ニューラルネットワークを訓練する段階は、前記セマンティックセグメンテーションされた訓練ビデオのセットのうちの1つのビデオの連続するフレームの各対に対し、連続するフレームの対のフレーム間の推定されたオプティカルフローによって回帰型レイヤの内部状態を、前記内部状態が前記対のフレーム間のピクセルのモーションに適応するようにワーピングする段階、および少なくとも前記回帰型モジュールのパラメータを学習する段階を含み、
    前記回帰型モジュールによって代替される前記第1畳み込みニューラルネットワークの畳み込みレイヤは、最後から2番目の畳み込みレイヤである、
    入力されたビデオのセマンティックセグメンテーション方法。
  20. 前記畳み込み回帰型ニューラルネットワークを訓練する段階は、オプティカルフローが既知である連続するフレームの訓練対のセットを使用して第2畳み込みニューラルネットワークを訓練する段階を含み、前記(a)は、前記第2畳み込みニューラルネットワークを使用して実行される、
    請求項19に記載の入力されたビデオのセマンティックセグメンテーション方法。
  21. 前記第2畳み込みニューラルネットワークは、FlowNetSimpleネットワークである、
    請求項20に記載の入力されたビデオのセマンティックセグメンテーション方法。
  22. 前記第2畳み込みニューラルネットワークは、FlowNetCorrelationネットワークである、
    請求項20に記載の入力されたビデオのセマンティックセグメンテーション方法。
  23. ビデオのセマンティックセグメンテーションのための畳み込み回帰型ニューラルネットワークを訓練するシステムであって、
    当該システムは、
    (a)セマンティックセグメンテーションされた訓練イメージのセットを使用して第1畳み込みニューラルネットワークを訓練し、
    (b)セマンティックセグメンテーションされた訓練ビデオのセットを使用して前記第1畳み込みニューラルネットワークに対応する畳み込み回帰型ニューラルネットワークを訓練し、畳み込みレイヤは、隠れ状態を有する回帰型モジュールによって代替され、
    前記畳み込み回帰型ニューラルネットワークを訓練することは、前記セマンティックセグメンテーションされた訓練ビデオのセットのうちの1つのビデオの連続するフレームの各対に対し、
    (b1)連続するフレームの対のフレーム間の推定されたオプティカルフローによって回帰型レイヤの内部状態を、前記内部状態が前記対のフレーム間のピクセルのモーションに適応するようにワーピングし、
    b2)少なくとも前記回帰型モジュールのパラメータを学習すること
    を含み、
    前記回帰型モジュールによって代替される前記第1畳み込みニューラルネットワークの畳み込みレイヤは、最後から2番目の畳み込みレイヤである、
    畳み込み回帰型ニューラルネットワークを訓練するシステム。
  24. ビデオのセマンティックセグメンテーションのための畳み込み回帰型ニューラルネットワークを訓練させる方法をコンピュータに実行させるためのプログラムであって、
    前記方法は、
    (a)セマンティックセグメンテーションされた訓練イメージのセットを使用して第1畳み込みニューラルネットワークを訓練する段階、および
    (b)セマンティックセグメンテーションされた訓練ビデオのセットを使用して前記第1畳み込みニューラルネットワークに対応する畳み込み回帰型ニューラルネットワークを訓練する段階であって、畳み込みレイヤは、隠れ状態を有する回帰型モジュールによって代替される、段階
    を含み、
    前記畳み込み回帰型ニューラルネットワークを訓練する段階は、前記セマンティックセグメンテーションされた訓練ビデオのセットのうちの1つのビデオの連続するフレームの各対に対し、
    (b1)連続するフレームの対のフレーム間の推定されたオプティカルフローによって回帰型レイヤの内部状態を、前記内部状態が前記対のフレーム間のピクセルのモーションに適応するようにワーピングする段階、および
    b2)少なくとも前記回帰型モジュールのパラメータを学習する段階
    を含み、
    前記回帰型モジュールによって代替される前記第1畳み込みニューラルネットワークの畳み込みレイヤは、最後から2番目の畳み込みレイヤである、
    プログラム。
JP2019147185A 2018-08-10 2019-08-09 畳み込み回帰型ニューラルネットワークを訓練させる方法、および訓練された畳み込み回帰型ニューラルネットワークを使用する、入力されたビデオのセマンティックセグメンテーション方法 Active JP6861249B2 (ja)

Applications Claiming Priority (4)

Application Number Priority Date Filing Date Title
EP18306104.3A EP3608844A1 (en) 2018-08-10 2018-08-10 Methods for training a crnn and for semantic segmentation of an inputted video using said crnn
EP18306104.3 2018-08-10
US16/517,942 US11182620B2 (en) 2018-08-10 2019-07-22 Method for training a convolutional recurrent neural network and for semantic segmentation of inputted video using the trained convolutional recurrent neural network
US16/517,942 2019-07-22

Publications (2)

Publication Number Publication Date
JP2020027659A JP2020027659A (ja) 2020-02-20
JP6861249B2 true JP6861249B2 (ja) 2021-04-21

Family

ID=69620226

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2019147185A Active JP6861249B2 (ja) 2018-08-10 2019-08-09 畳み込み回帰型ニューラルネットワークを訓練させる方法、および訓練された畳み込み回帰型ニューラルネットワークを使用する、入力されたビデオのセマンティックセグメンテーション方法

Country Status (2)

Country Link
JP (1) JP6861249B2 (ja)
KR (1) KR102235745B1 (ja)

Families Citing this family (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111369430B (zh) * 2020-03-09 2023-04-07 中山大学 基于移动深度学习引擎的移动端人像智能背景替换方法
KR20210117623A (ko) * 2020-03-19 2021-09-29 삼성전자주식회사 컴퓨팅 장치 및 그 동작 방법
CN111476781B (zh) * 2020-04-08 2023-04-07 浙江大学 一种基于视频语义分割技术的混凝土裂缝识别方法和装置
CN111507408B (zh) * 2020-04-17 2022-11-04 深圳市商汤科技有限公司 图像处理方法及装置、电子设备和存储介质
KR102339011B1 (ko) * 2020-04-27 2021-12-14 계명대학교 산학협력단 자율차량에서 주야간 보행자 감지를 위한 적응적 스위처 및 이를 이용한 보행자 감지 장치
CN111579243B (zh) * 2020-06-17 2021-04-20 大连理工大学 一种基于深度迁移学习的滚动轴承智能诊断系统
CN111915573A (zh) * 2020-07-14 2020-11-10 武汉楚精灵医疗科技有限公司 一种基于时序特征学习的消化内镜下病灶跟踪方法
US20220046180A1 (en) * 2020-08-07 2022-02-10 Nanotronics Imaging, Inc. Deep Learning Model for Auto-Focusing Microscope Systems
CN112084923B (zh) * 2020-09-01 2023-12-22 西安电子科技大学 一种遥感图像语义分割方法、存储介质及计算设备
CN112085717B (zh) * 2020-09-04 2024-03-19 厦门大学 一种用于腹腔镜手术的视频预测方法及其系统
CN112418481A (zh) * 2020-10-21 2021-02-26 上海眼控科技股份有限公司 雷达回波图预测方法、装置、计算机设备和存储介质
KR102639807B1 (ko) * 2021-02-23 2024-02-22 인하대학교 산학협력단 시계열 데이터에 기반한 알츠하이머병 진행감지를 위한 멀티모드 멀티테스크 딥 러닝 모델
CN114118236A (zh) * 2021-11-10 2022-03-01 杭州海康威视数字技术股份有限公司 训练智能模型的方法及装置
CN114742917B (zh) * 2022-04-25 2024-04-26 桂林电子科技大学 一种基于卷积神经网络的ct图像分割方法
CN114565880B (zh) * 2022-04-28 2022-07-19 武汉大学 一种基于光流追踪的伪造视频检验方法、系统及设备
CN116129375B (zh) * 2023-04-18 2023-07-21 华中科技大学 一种基于多曝光生成融合的弱光车辆检测方法

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10157309B2 (en) 2016-01-14 2018-12-18 Nvidia Corporation Online detection and classification of dynamic gestures with recurrent convolutional neural networks
US10242266B2 (en) * 2016-03-02 2019-03-26 Mitsubishi Electric Research Laboratories, Inc. Method and system for detecting actions in videos
JP6867153B2 (ja) * 2016-12-21 2021-04-28 ホーチキ株式会社 異常監視システム

Also Published As

Publication number Publication date
JP2020027659A (ja) 2020-02-20
KR20200018283A (ko) 2020-02-19
KR102235745B1 (ko) 2021-04-02

Similar Documents

Publication Publication Date Title
JP6861249B2 (ja) 畳み込み回帰型ニューラルネットワークを訓練させる方法、および訓練された畳み込み回帰型ニューラルネットワークを使用する、入力されたビデオのセマンティックセグメンテーション方法
US11182620B2 (en) Method for training a convolutional recurrent neural network and for semantic segmentation of inputted video using the trained convolutional recurrent neural network
US11003923B2 (en) Spatial and temporal information for semantic segmentation
CN108537746B (zh) 一种基于深度卷积网络的模糊可变图像盲复原方法
Von Stumberg et al. Gn-net: The gauss-newton loss for multi-weather relocalization
US20190005360A1 (en) Method and apparatus for joint image processing and perception
CN105095862B (zh) 一种基于深度卷积条件随机场的人体动作识别方法
US20210326638A1 (en) Video panoptic segmentation
JP7536893B2 (ja) 自己注意ベースのニューラルネットワークを使用した画像処理
CN111639564B (zh) 一种基于多注意力异构网络的视频行人重识别方法
CN113870335A (zh) 一种基于多尺度特征融合的单目深度估计方法
Zhang et al. Attention-based interpolation network for video deblurring
Dewan et al. Deeptemporalseg: Temporally consistent semantic segmentation of 3d lidar scans
CN111079507B (zh) 一种行为识别方法及装置、计算机装置及可读存储介质
CN111325784A (zh) 一种无监督位姿与深度计算方法及系统
CN112634296A (zh) 门机制引导边缘信息蒸馏的rgb-d图像语义分割方法及终端
CN112766062B (zh) 一种基于双流深度神经网络的人体行为识别方法
Das et al. Tiledsoilingnet: Tile-level soiling detection on automotive surround-view cameras using coverage metric
CN112164130A (zh) 基于深度对抗网络的视频-动画风格迁移方法
Hwang et al. Adversarial structure matching for structured prediction tasks
CN112686952A (zh) 一种图像光流计算系统、方法及应用
CN112053290A (zh) 基于卷积去噪自编码器的无监督事件相机去噪方法及装置
CN113850135A (zh) 一种基于时间移位框架的动态手势识别方法及系统
CN111462132A (zh) 一种基于深度学习的视频物体分割方法及系统
CN112115786B (zh) 基于注意力U-net的单目视觉里程计方法

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20190809

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20200903

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20200923

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20201221

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20210309

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20210329

R150 Certificate of patent or registration of utility model

Ref document number: 6861249

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250