JP6752855B2

JP6752855B2 - 映像イメージをセグメンテーションする方法及びこれを利用した装置

Info

Publication number: JP6752855B2
Application number: JP2018189175A
Authority: JP
Inventors: キム、ヨンジョン; ナム、ウンユン; ボ、シュクフン; シュン、ミュンチュル; エオ、ドンフン; リュウ、ウージュ; ジャン、タエウォン; ジョン、キュンジョン; ジェ、ホンモ; チョ、ホジン
Original assignee: Stradvision Inc
Current assignee: Stradvision Inc
Priority date: 2017-10-05
Filing date: 2018-10-04
Publication date: 2020-09-09
Anticipated expiration: 2038-10-04
Also published as: US10089743B1; KR20190039647A; CN109636803B; CN109636803A; KR102144346B1; JP2019071056A; EP3467772A1

Description

本発明は映像イメージをセグメンテーションする方法及びこれを利用したセグメンテーション装置に関し、より詳細には、（ａ）（ｉ）ｔ−（ｉ＋１）フレームで学習された少なくとも一つの第１重み付け値を有するＣＮＮであるＣＮＮ＿ＰＲＥＶＩＯＵＳを利用してｔフレームでの映像イメージをセグメンテーションすることで前記ｔフレームに対する第１セグメンテーションイメージを獲得するプロセス、前記第１セグメンテーションイメージの各々のピクセルからｔ−１フレームに対するセグメンテーションイメージないしｔ−ｉフレームに対するセグメンテーションイメージ各々に対応されるピクセルへのオプティカルフロー情報を含むｔ−１フレームでｔ−ｉフレーム各々に対応されるオプティカルフローイメージのうち少なくとも一部のオプティカルフローイメージを獲得するプロセス、前記オプティカルフローイメージを参照して、前記ｔフレームに対する第１セグメンテーションイメージの少なくとも一部のピクセルを含む第１ピクセルを前記ｔ−１フレームに対するセグメンテーションイメージないし前記ｔ−ｉフレームに対するセグメンテーションイメージのうち少なくとも一部のフレームの少なくとも一部ピクセルを含んだ第２ピクセルに置換して前記ｔフレームに対する少なくとも一つのワーピングイメージを獲得するプロセスを遂行するか遂行するように支援する段階；及び（ｂ）前記第１セグメンテーションイメージと前記ワーピングイメージ各々とを参照してロス値を獲得するプロセス、前記獲得されたロス値のうち少なくとも一つを利用して前記ＣＮＮ＿ＰＲＥＶＩＯＵＳの前記第１重み付け値を調整することで獲得される少なくとも一つの第２重み付け値を有するＣＮＮであるＣＮＮ＿ＣＵＲＲＥＮＴを獲得するプロセス、前記ＣＮＮ＿ＣＵＲＲＥＮＴを利用して、前記ｔフレームに後行するフレーム及び前記ｔフレームのうち少なくとも一つに対応する映像イメージをセグメンテーションするプロセスを遂行するか遂行するように支援する段階；を含むことを特徴とする方法及びこれを利用するセグメンテーション装置に関する。

ディープコンボリューションニューラルネットワーク（ＤｅｅｐＣｏｎｖｏｌｕｔｉｏｎＮｅｕｒａｌＮｅｔｗｏｒｋｓ；ＤｅｅｐＣＮＮ）はディープラーニング分野で起きた驚くべき発展の核心である。ＣＮＮｓは文字認識問題を解くために９０年代に既に使用されていたが、現在のように広く使用されるようになったのは最近の研究結果のおかげである。このようなディープＣＮＮは２０１２年ＩｍａｇｅＮｅｔイメージ分類コンテストで他の競争相手に勝って優勝を収めた。そうして、コンボリューションニューラルネットワークはＭａｃｈｉｎｅＬｅａｒｎｉｎｇ分野で非常に有用なツールとなった。

イメージセグメンテーションは入力されるイメージ内に位置する関心物体、一例として、自動車、人、道路、空、建物などを分割してラベルイメージを作り上げる方法である。最近ディープラーニング技術が脚光を浴びながら、イメージセグメンテーションもディープラーニングを多く使用する趨勢である。

かかるディープラーニングを利用した従来のイメージセグメンテーションは、トレーニングイメージにＣＮＮの多重コンボリューションレイヤを利用して複数回のコンボリューション演算を加えることで特徴マップを生成し、特徴マップにＣＮＮの多重デコンボリューションレイヤを利用して複数回のデコンボリューション演算を遂行することでラベルイメージを生成して、獲得された前記ラベルイメージと前記トレーニングイメージのＧＴ（ＧｒｏｕｎｄＴｒｕｔｈ）を比較分析してロス値を獲得し、獲得されたロス値を利用してデコンボリューションレイヤとコンボリューションレイヤを学習する過程である。そして、学習されたコンボリューションレイヤと学習されたデコンボリューションレイヤを利用して入力されるテストイメージ内に位置する関心物体に対するラベルイメージを獲得するようになる。

しかし、かかる従来のイメージセグメンテーション方法はトレーニングイメージを通じて学習されたパラメータを有するＣＮＮを利用して入力されるテストイメージをセグメンテーションするものである。従って、学習に用いられたトレーニングイメージと環境の差が多く出るテストイメージをセグメンテーションする時にはセグメンテーション結果が不正確であるという問題点があった。一例として、イメージ上に位置する道路をセグメンテーションしようとする場合、国別に道路の形態が異なる可能性があり、かかる特定状況に対する学習がなされないと道路を正確にセグメンテーションするのに失敗する場合がある。

前述のように、従来のイメージセグメンテーション方法はセグメンテーションをするためのテストイメージが獲得される環境に関係なく予め学習されたＣＮＮを利用してテストイメージをセグメンテーションした。そのため、従来の方法はセグメンテーションのためのテストイメージが獲得される環境の変化に適応できない問題点があった。

本発明は前記のようなすべての問題点を解決することを目的とする。

本発明はイメージが獲得される環境に関係なく正確にセグメンテーションを遂行できるようにする映像イメージセグメンテーション方法及びこれを利用したセグメンテーション装置を提供することを他の目的とする。

本発明はイメージが獲得される多様な環境に対応したリアルタイム学習を通じて正確にセグメンテーションを遂行できるようにする映像イメージセグメンテーション方法及びこれを利用したセグメンテーション装置を提供することをまた他の目的とする。

前記のような本発明の目的を達成し、後述する本発明の特徴的な効果を実現するための、本発明の特徴的な構成は下記のとおりである。

本発明の一態様によれば、ＣＮＮ（Ｃｏｎｖｏｌｕｔｉｏｎａｌｎｅｕｒａｌｎｅｔｗｏｒｋ）を利用して映像イメージをセグメンテーションする方法において、（ａ）セグメンテーション装置が、（ｉ）ｔ−（ｉ＋１）フレームで学習された少なくとも一つの第１重み付け値を有するＣＮＮであるＣＮＮ＿ＰＲＥＶＩＯＵＳを利用してｔフレームでの映像イメージをセグメンテーションすることで前記ｔフレームに対する第１セグメンテーションイメージを獲得するプロセス、（ｉｉ）前記第１セグメンテーションイメージの各々のピクセルからｔ−１フレームに対するセグメンテーションイメージないしｔ−ｉフレームに対するセグメンテーションイメージ各々に対応されるピクセルへのオプティカルフロー情報を含むｔ−１フレームでｔ−ｉフレーム各々に対応されるオプティカルフローイメージのうち少なくとも一部のオプティカルフローイメージを獲得するプロセス、（ｉｉｉ）前記オプティカルフローイメージを参照して、前記ｔフレームに対する第１セグメンテーションイメージの少なくとも一部のピクセルを含む第１ピクセルを前記ｔ−１フレームに対するセグメンテーションイメージないし前記ｔ−ｉフレームに対するセグメンテーションイメージのうち少なくとも一部のフレームの少なくとも一部ピクセルを含んだ第２ピクセルに置換して前記ｔフレームに対する少なくとも一つのワーピングイメージを獲得するプロセスを遂行するか遂行するように支援する段階；及び（ｂ）前記セグメンテーション装置が、（ｉ）前記第１セグメンテーションイメージと前記ワーピングイメージ各々を参照してロス値を獲得するプロセス、（ｉｉ）前記獲得されたロス値のうち少なくとも一つを利用して前記ＣＮＮ＿ＰＲＥＶＩＯＵＳの前記第１重み付け値を調整することで獲得される少なくとも一つの第２重み付け値を有するＣＮＮであるＣＮＮ＿ＣＵＲＲＥＮＴを獲得するプロセス、（ｉｉｉ）前記ＣＮＮ＿ＣＵＲＲＥＮＴを利用して、前記ｔフレームに後行するフレーム及び前記ｔフレームのうち少なくとも一つに対応する映像イメージをセグメンテーションするプロセスを遂行するか遂行するように支援する段階；を含むことを特徴とする方法が提供される。

一例として、前記（ｂ）段階で、前記セグメンテーション装置は、（ｉ）前記ＣＮＮ＿ＣＵＲＲＥＮＴを利用して前記ｔフレームでの映像イメージをセグメンテーションすることで前記ｔフレームに対する第２セグメンテーションイメージを獲得するか、（ｉｉ）少なくとも一つのワーピングイメージを前記ｔフレームに対する修正されたセグメンテーションイメージとして獲得するか獲得するように支援することを特徴とする。

一例として、前記一実施例によれば、前記セグメンテーション装置は、ｉ＋１フレーム周期で前記（ａ）段階及び前記（ｂ）段階を遂行するか遂行するように支援することを特徴とする。

一例として、前記一実施例によれば、前記（ｂ）段階で、前記セグメンテーション装置は、前記ロス値のうち少なくとも一つを利用して前記ＣＮＮ＿ＰＲＥＶＩＯＵＳを前記ｔフレームでリアルタイム学習をする時に、前記ロス値に対する重み付け値を互いに異なるように割り当てるか割り当てるように支援することを特徴とする。

一例として、前記一実施例によれば、前記セグメンテーション装置は、ワーピングイメージのうち前記ｔ−１フレームを利用して獲得した特定ワーピングイメージに対応する前記ロス値のうち特定ロス値に最大の重み付け値を割り当てるか割り当てるように支援することを特徴とする方法が提供される。

一例として、前記一実施例によれば、前記（ｂ）段階で、前記セグメンテーション装置は、前記ＣＮＮ＿ＰＲＥＶＩＯＵＳを前記ｔフレームでリアルタイム学習をして前記ＣＮＮ＿ＣＵＲＲＥＮＴを獲得する時に、前記ロス値のうち少なくとも一つを利用して学習した前記ＣＮＮ＿ＰＲＥＶＩＯＵＳの調整値を前記第１重み付け値に適用して前記第２重み付け値を獲得するか獲得するように支援し、前記第１重み付け値に適用される前記調整値の各々の量はその対応する比率を参照して決定することを特徴とする方法が提供される。

一例として、前記一実施例によれば、前記（ａ）段階で、前記セグメンテーション装置は、前記オプティカルフローイメージを各々獲得する時に、前記ｔ−１フレームに対するセグメンテーションイメージないし前記ｔ−ｉフレームに対するセグメンテーションイメージに存在していない新たな物体が前記第１セグメンテーションイメージに現われると、前記新たな物体を背景として処理するか、前記ｔ−１フレームに対するセグメンテーションイメージないし前記ｔ−ｉフレームに対するセグメンテーションイメージに存在する物体に決定するか決定するように支援することを特徴とする方法が提供される。

本発明のまた他の態様によれば、ＣＮＮ（Ｃｏｎｖｏｌｕｔｉｏｎａｌｎｅｕｒａｌｎｅｔｗｏｒｋ）を利用して入力される映像イメージをセグメンテーションするセグメンテーション装置において、入力される映像のフレームでの映像イメージを獲得するか獲得するように支援する通信部；及び（ｉ）ｔ−（ｉ＋１）フレームで学習された少なくとも一つの第１重み付け値を有するＣＮＮであるＣＮＮ＿ＰＲＥＶＩＯＵＳを利用してｔフレームでの映像イメージをセグメンテーションすることで前記ｔフレームに対する第１セグメンテーションイメージを獲得するプロセス、（ｉｉ）前記第１セグメンテーションイメージの各々のピクセルからｔ−１フレームに対するセグメンテーションイメージないしｔ−ｉフレームに対するセグメンテーションイメージ各々に対応されるピクセルへのオプティカルフロー情報を含むｔ−１フレームでｔ−ｉフレーム各々に対応されるオプティカルフローイメージのうち少なくとも一部のオプティカルフローイメージを獲得するプロセス、（ｉｉｉ）前記オプティカルフローイメージを参照して、前記ｔフレームに対する第１セグメンテーションイメージの少なくとも一部のピクセルを含む第１ピクセルを前記ｔ−１フレームに対するセグメンテーションイメージないし前記ｔ−ｉフレームに対するセグメンテーションイメージのうち少なくとも一部のフレームの少なくとも一部ピクセルを含んだ第２ピクセルに置換して前記ｔフレームに対する少なくとも一つのワーピングイメージを獲得するプロセス、（ｉｖ）前記第１セグメンテーションイメージと前記ワーピングイメージ各々を参照してロス値を獲得するプロセス、（ｖ）前記獲得されたロス値のうち少なくとも一つを利用して前記ＣＮＮ＿ＰＲＥＶＩＯＵＳの前記第１重み付け値を調整することで獲得される少なくとも一つの第２重み付け値を有するＣＮＮであるＣＮＮ＿ＣＵＲＲＥＮＴを獲得するプロセス、（ｖｉ）前記ＣＮＮ＿ＣＵＲＲＥＮＴを利用して、前記ｔフレームに後行するフレーム及び前記ｔフレームのうち少なくとも一つに対応する映像イメージをセグメンテーションするプロセス；を遂行するか遂行するように支援するプロセッサ；を含むセグメンテーション装置が提供される。

一例として、前記（ｉｖ）と（ｖ）プロセスで、（ｉ）前記ＣＮＮ＿ＣＵＲＲＥＮＴを利用して前記ｔフレームでの映像イメージをセグメンテーションすることで前記ｔフレームに対する第２セグメンテーションイメージを獲得するか、（ｉｉ）少なくとも一つのワーピングイメージを前記ｔフレームに対する修正されたセグメンテーションイメージとして獲得するか獲得するように支援することを特徴とするセグメンテーション装置が提供される。

一例として、前記一実施例によれば、前記プロセッサは、ｉ＋１フレーム周期で前記（ｉ）プロセスないし前記（ｖｉ）プロセスを遂行するか遂行するように支援することを特徴とするセグメンテーション装置が提供される。

一例として、前記一実施例によれば、前記（ｖ）プロセスで、前記ロス値のうち少なくとも一つを利用して前記ＣＮＮ＿ＰＲＥＶＩＯＵＳを前記ｔフレームでリアルタイム学習をする時に、前記ロス値に対する重み付け値を互いに異なるように割り当てるか割り当てるように支援することを特徴とするセグメンテーション装置が提供される。

一例として、前記一実施例によれば、前記プロセッサはワーピングイメージのうち前記ｔ−１フレームを利用して獲得した特定ワーピングイメージに対応する前記ロス値のうち特定ロス値に最大の重み付け値を割り当てるか割り当てるように支援することを特徴とするセグメンテーション装置が提供される。

一例として、前記一実施例によれば、前記（ｖ）プロセスで、前記ＣＮＮ＿ＰＲＥＶＩＯＵＳを前記ｔフレームでリアルタイム学習をして前記ＣＮＮ＿ＣＵＲＲＥＮＴを獲得する時に、前記ロス値のうち少なくとも一つを利用して学習した前記ＣＮＮ＿ＰＲＥＶＩＯＵＳの調整値を前記第１重み付け値に適用して前記第２重み付け値を獲得するか獲得するように支援し、前記第１重み付け値に適用される前記調整値の各々の量はその対応する比率を参照して決定することを特徴とするセグメンテーション装置が提供される。

一例として、前記一実施例によれば、前記プロセッサは、前記（ｉｉ）プロセスで、前記オプティカルフローイメージを各々獲得する時に、前記ｔ−１フレームに対するセグメンテーションイメージないし前記ｔ−ｉフレームに対するセグメンテーションイメージに存在していない新たな物体が前記第１セグメンテーションイメージに現われると、前記新たな物体を背景として処理するか、前記ｔ−１フレームに対するセグメンテーションイメージないし前記ｔ−ｉフレームに対するセグメンテーションイメージに存在する物体に決定するか決定するように支援することを特徴とするセグメンテーション装置が提供される。

この他にも、本発明の方法を実行するためのコンピュータプログラムを記録するためのコンピュータで判読可能な記録媒体がさらに提供される。

本発明によれば、次のような効果がある。
本発明はＣＮＮをリアルタイム学習をすることでセグメンテーションのためのイメージが獲得される環境に関係なくさらに正確にイメージをセグメンテーションすることができるようになる。

本発明の実施例の説明に利用されるために添付された下記図面は本発明の実施例のうち単に一部に過ぎず、本発明が属する技術分野で通常の知識を有する者（以下”通常の技術者”）においては発明的作業がなされることなく本図面に基づいて他の図面が得られることがある。

図１は、本発明の一実施例によって映像イメージをセグメンテーションするシステムを概略的に示したものである。図２は、本発明の一実施例によって映像イメージをセグメンテーションする方法を概略的に示したものである。図３は、本発明の一実施例によって映像イメージをセグメンテーションするＣＮＮ（Ｃｏｎｖｏｌｕｔｉｏｎａｌｎｅｕｒａｌｎｅｔｗｏｒｋ）を概略的に示したものである。図４は、本発明の一実施例によって映像イメージをセグメンテーションする方法でオプティカルフローイメージを獲得する過程を概略的を示したものである。図５は、本発明の一実施例によって映像イメージをセグメンテーションする方法でワーピングイメージを獲得する状態を概略的に示したものである。図６は、本発明の一実施例によって映像イメージをセグメンテーションする方法でＣＮＮをリアルタイム学習をする状態を概略的に示したものである。

後述する本発明に対する詳細な説明は、本発明の目的、技術的解法及び長点を明らかにさせるために本発明が実施され得る特定の実施例を例示として示す添付図面を参照する。これらの実施例は通常の技術者が本発明を実施することができるように充分詳細に説明される。

また、本発明の詳細な説明及び請求項にかけて、’含む’という単語及びその変形は他の技術的特徴、付加物、構成要素または段階を除くものとして意図されたものではない。通常の技術者に本発明の他の目的、長点及び特性が一部は本説明書から、そして一部は本発明の実施から明らかになる。下記の例示及び図面は実例として提供され、本発明を限定するものとして意図されたものではない。

さらに、本発明は本明細書に表示された実施例のすべての可能な組み合わせを網羅する。本発明の多様な実施例は相互異なるが、相互排他的である必要はないことを理解されたい。例えば、ここに記載されている特定の形状、構造及び特性は一実施例にかかる本発明の精神及び範囲を逸脱せずに他の実施例で具現され得る。また、各々の開示された実施例内の個別構成要素の位置または配置は本発明の精神及び範囲を逸脱せずに変更され得ることを理解されたい。従って、後述する詳細な説明は限定的な意味で捉えようとするものではなく、本発明の範囲は、適切に説明されると、その請求項が主張することと均等なすべての範囲と、併せて添付された請求項によってのみ限定される。図面で類似する参照符号は様々な側面にかけて同一か類似する機能を指称する。

以下、本発明が属する技術分野で通常の知識を有する者が本発明を容易に実施することができるようにするために、本発明の好ましい実施例について添付の図面を参照して詳細に説明することとする。

まず、図１は本発明の一実施例によって映像イメージをセグメンテーションするシステムを概略的に示したものである。

図１を参照すれば、前記システムはビジョンセンサ１０とセグメンテーション装置１０００が含まれ得る。

前記ビジョンセンサ１０は周辺映像を撮影するものであり、ＣＣＤ（ｃｈａｒｇｅｃｏｕｐｌｅｄｄｅｖｉｃｅ）、ＣＭＯＳ（ｃｏｍｐｌｅｍｅｎｔａｒｙｍｅｔａｌｏｘｉｄｅｓｅｍｉｃｏｎｄｕｃｔｏｒ）、またはイメージキャプチャ装置などが含まれ得る。

この時、図１では前記ビジョンセンサ１０、例えばカメラは、前記セグメンテーション装置１０００と通信するものとして示した。しかし、前記ビジョンセンサ１０は場合によって前記セグメンテーション装置１０００に含まれている場合もある。

そして、前記セグメンテーション装置１０００は前記ビジョンセンサ１０から獲得された入力イメージをＣＮＮを利用してセグメンテーションし、セグメンテーションの結果を参照して前記ＣＮＮをリアルタイム学習をして、リアルタイム学習されたＣＮＮを利用して新たなイメージをセグメンテーションするプロセスを遂行し得る。

また、前記セグメンテーション装置１０００は前記ビジョンセンサ１０から入力される各々のフレームでの映像イメージを獲得する通信部１００と、前記通信部１００から受けた前記映像イメージをセグメンテーションし、前記セグメンテーション結果を参照して前記ＣＮＮを学習して、学習されたＣＮＮを利用して入力される前記新たな映像イメージをセグメンテーションするプロセッサ２００が含まれ得る。

この時、前記プロセッサ２００の動作状態をもう少し具体的に説明すれば、（ｉ）ｔ−（ｉ＋１）フレームで学習された少なくとも一つの第１重み付け値を有するＣＮＮであるＣＮＮ＿ＰＲＥＶＩＯＵＳを利用してｔフレームでの映像イメージをセグメンテーションすることで前記ｔフレームに対する第１セグメンテーションイメージを獲得するプロセス、（ｉｉ）前記第１セグメンテーションイメージの各々のピクセルからｔ−１フレームに対するセグメンテーションイメージないしｔ−ｉフレームに対するセグメンテーションイメージ各々に対応されるピクセルへのオプティカルフロー情報を含むｔ−１フレームでｔ−ｉフレーム各々に対応されるオプティカルフローイメージのうち少なくとも一部のオプティカルフローイメージを獲得するプロセス、（ｉｉｉ）前記オプティカルフローイメージを参照して、前記ｔフレームに対する第１セグメンテーションイメージの少なくとも一部のピクセルを含む第１ピクセルを前記ｔ−１フレームに対するセグメンテーションイメージないし前記ｔ−ｉフレームに対するセグメンテーションイメージのうち少なくとも一部のフレームの少なくとも一部ピクセルを含んだ第２ピクセルに置換して前記ｔフレームに対する少なくとも一つのワーピングイメージを獲得するプロセスを遂行し得る。ここで、そして以後に使用される’ピクセル’という用語は’ピクセル値’を意味し得る。

即ち、前記プロセッサ２００は（１）前記ｔフレームから前記ｔ−１フレームへの前記オプティカルフローイメージの少なくとも一部ピクセルを前記ｔ−１フレームに対する前記セグメンテーションイメージの少なくとも一部ピクセルに置換することで前記ｔ−１フレームに対するセグメンテーションイメージに対応する前記ｔフレームに対するワーピングイメージを獲得し得て、（２）前記ｔフレームから前記ｔ−ｉフレームへの前記オプティカルフローイメージの少なくとも一部ピクセルを前記ｔ−ｉフレームに対する前記セグメンテーションイメージの少なくとも一部ピクセルに置換することで前記ｔ−ｉフレームに対するセグメンテーションイメージに対応する前記ｔフレームに対するワーピングイメージを獲得し得る。参考までに、前記ｔ−１フレームと前記ｔ−ｉフレーム間の残りのフレームに対する説明は省略する。

以後、前記プロセッサ２００は（ｉ）前記第１セグメンテーションイメージと前記ワーピングイメージ各々を比較してロス値を獲得するプロセス、（ｉｉ）前記獲得されたロス値を利用して前記ＣＮＮ＿ＰＲＥＶＩＯＵＳの前記第１重み付け値を調整、一例として、前記ＣＮＮ＿ｐｒｅｖｉｏｕｓを現在フレームである前記ｔフレームでリアルタイム学習をしてパラメータを調整することで獲得される少なくとも一つの第２重み付け値を有するＣＮＮであるＣＮＮ＿ＣＵＲＲＥＮＴを獲得するプロセス、（ｉｉｉ）前記ＣＮＮ＿ＣＵＲＲＥＮＴを利用して、前記ｔフレームに後行するフレーム及び前記ｔフレームのうち少なくとも一つに対応する映像イメージをセグメンテーションするプロセスを遂行し得る。

このように構成された本発明の一実施例によって前記映像イメージをセグメンテーションする方法を図２を参照してより詳細に説明すれば次のとおりである。

前記ビジョンセンサ１０によって撮影される映像が伝送されると、前記セグメンテーション装置１０００の前記通信部１００は前記映像データの各々のフレームでの各々の映像イメージを獲得し得る。この時、前記ビジョンセンサ１０は自動車に設置されて移動されるか他の運送手段によって移動され得て、移動中に周辺環境の映像イメージを伝送し得る。

前記通信部１００を通じて前記映像データが獲得されると（Ｓ２１０）、前記セグメンテーション装置１０００の前記プロセッサ２００は前記ｔ−（ｉ＋１）フレームで学習された前記第１重み付け値を有するＣＮＮである前記ＣＮＮ＿ＰＲＥＶＩＯＵＳを利用して前記ｔフレームの前記映像イメージをセグメンテーションし（Ｓ２２０）前記ｔフレームに対する前記第１セグメンテーションイメージを獲得し得る（Ｓ２３０）。

そして、前記映像イメージを前記ＣＮＮを利用してセグメンテーションする一例を図３を参照してもう少し具体的に説明すれば、ＣＮＮの複数個のコンボリューションレイヤであるＣＯＮＶ．１、ＣＯＮＶ．２、ＣＯＮＶ．Ｎをもって前記映像イメージに順次複数回のコンボリューション演算を遂行するようにして少なくとも一つの特徴マップが生成される。この時、前記複数個のコンボリューションレイヤの数は所望する分だけ大きくなり得る。

それから、ＣＮＮの複数個のデコンボリューションレイヤであるＤＥＣＯＮＶ．Ｎ、ＤＥＣＯＮＶ．２、ＤＥＣＯＮＶ．１をもって最終的に生成された特徴マップに複数回のデコンボリューション演算を順次遂行するようにして各々の関心物体に対する各々のラベルイメージが獲得される。この時、前記複数個のデコンボリューションレイヤの数は所望する分だけ大きくなり得る。

この時、コンボリューション演算でイメージをエンコーディングして特徴マップを生成し、生成された特徴マップをデコーディングしてラベルイメージを獲得する構造をエンコーディング−デコーディングネットワーク、またはＵ−Ｎｅｔと言う。前記エンコーディング過程で各コンボリューション演算を遂行するたびに演算量を減らすために前記イメージのサイズが１／２に減り、増えたチャネルを通じて複雑なパターンを得るためにイメージのチャネル数は２倍に増加し得る。その結果、前記サイズが減った特徴マップは高周波領域が多く除去されて低周波領域寄りで含まれ得る。かかる低周波領域はイメージの意味のある（ｍｅａｎｉｎｇｆｕｌ）部分、即ち、空、道路、建物、自動車などを示し、かかる意味のある部分にデコンボリューション演算、即ち、デコーディング演算を加えて各々のラベルイメージとして類推するようになる。前記関心物体に対応する各々の前記ラベルイメージを前記入力イメージ上の対応領域に配置することでセグメンテーションイメージを獲得し得る。場合によって特定関心物体に対応されるラベルイメージのみを含むセグメンテーションイメージを獲得する場合もある。

前記図３を参照して説明した過程は前記ＣＮＮを利用してセグメンテーションする過程を例示的に説明するためのものに過ぎず、本発明での前記ＣＮＮを利用してセグメンテーションする過程がこれに限定されるものではない。

再び、図２を参照すれば、前記プロセッサ２００は各々の前記ｔ−１ないしｔ−ｉフレームに対応する各々のオプティカルフローイメージのうち少なくとも一部のオプティカルフローイメージを獲得し得るが、前記オプティカルフローイメージには前記ＣＮＮ＿ＰＲＥＶＩＯＵＳを利用して獲得された前記第１セグメンテーションイメージの各々のピクセルから前記ｔ−１フレームないし前記ｔ−ｉフレームに対するセグメンテーションイメージのうち一部の対応する各ピクセルへのオプティカルフロー情報が含まれている（Ｓ２４０）。

即ち、図４のように、前記プロセッサ２００は前記ｔフレームないし前記ｔ−１フレームでの客体の動きを確認するために、ｔフレームからｔ−１フレームへのオプティカルフローイメージを獲得し得る。また、前記プロセッサ２００はｔ−２フレームないしｔ−ｉフレーム各々に対応する各々のオプティカルフローイメージを獲得し得るが、前記オプティカルフローイメージには前記第１セグメンテーションイメージのピクセルからｔ−２フレームないしｔ−ｉフレームに対する各セグメンテーションイメージの対応されるピクセルへのオプティカルフロー情報が含まれ得る。

この時、ｉは１以上の整数であり、本発明の一実施例によって前記ＣＮＮをリアルタイム学習をするための周期はｉ＋１フレーム周期に設定し得る。また、オプティカルフローイメージはリアルタイム学習を遂行するために所望の個数分獲得され得る。一例として、各々の前記オプティカルフローイメージを（ｉ）前記ｔ−１フレームないし前記ｔ−ｉフレームに対するセグメンテーションイメージすべてに対応して各々獲得するか、（ｉｉ）前記ｔ−１フレームないし前記ｔ−ｉフレームのうち少なくとも一つの特定フレームに対する各々のセグメンテーションイメージに対応して獲得し得る。また、他の例として、ＣＮＮをｉ＋１フレーム周期で前記ＣＮＮをリアルタイム学習をし、前記ｔフレームのイメージが獲得された環境と最も類似する前記ｔ−１フレームに対してのみセグメンテーションイメージに対応するオプティカルフローイメージが獲得され得る。これは前記ｔ−１フレームの物体が前記ｔフレームと比較して最も少ない動きを示したことを意味する。

また、前記オプティカルフローイメージを各々獲得する時に、前記ｔ−１フレームに対するセグメンテーションイメージないし前記ｔ−ｉフレームに対するセグメンテーションイメージに存在していない新たな物体が前記第１セグメンテーションイメージに現われると、前記プロセッサ２００は前記新たな物体を背景として処理するか、前記ｔ−１フレームに対するセグメンテーションイメージないし前記ｔ−ｉフレームに対するセグメンテーションイメージに存在する特定物体に決定し得る。一例として、前記第１セグメンテーションイメージ内に遠距離の第１建物が現われたら、前記プロセッサ２００は前記第１建物が前記ｔ−ｉフレームに対する前記セグメンテーションイメージ内に遠距離の第２建物となるオプティカルフローに対する情報を生成し得る。

次に、前記プロセッサ２００は前記オプティカルフローイメージを参照して前記第１ピクセルを前記第２ピクセルに置換することで前記ｔフレームに対するワーピングイメージを獲得し得る（Ｓ２５０）。

即ち、前記プロセッサ２００は前記オプティカルフローイメージを参照して前記ｔフレームに対するセグメンテーションイメージのどのピクセルがｔ−１フレームないしｔ−ｉフレームに対する各々のセグメンテーションイメージのどのピクセルと対応するか分かり得る。そのため、図５のように、オプティカルフローイメージに含まれたオプティカルフロー情報を利用して前記ｔフレームに対するセグメンテーションイメージの各々のピクセル値を前記ｔ−１フレームないし前記ｔ−ｉフレームに対する各々のセグメンテーションイメージのうち少なくとも一部の対応されるピクセル値に設定するために、前記プロセッサ２００は前記ｔフレームに対する前記第１セグメンテーションイメージの少なくとも一部のピクセルをｔ−１フレームないしｔ−iフレームの少なくとも一部のセグメンテーションイメージのうち少なくとも一部のピクセルに置換して前記ｔフレームに対するワーピングイメージを獲得し得る（Ｓ２５０）。この時、前記ワーピングイメージはｔフレームでのイメージに対するＧＴイメージとしての機能をし得る。

これをもう少し具体的に説明すれば次のとおりである。

一般的にＣＮＮを学習する時に、トレーニングイメージをＣＮＮのＦＣレイヤに入力して出力される結果値と前記トレーニングイメージから獲得したＧＴイメージを比較してロス値を獲得し、獲得されたロス値を参照してＣＮＮのパラメータを学習するようになる。

しかし、映像イメージ、即ち動く車両から見た場面を、リアルタイムで前記学習されたＣＮＮに入力すると、前記イメージに対するＧＴイメージを獲得することができないので、いわゆるリアルタイム学習は不可能になる。勿論、ユーザがリアルタイムで前記映像イメージに対するＧＴを設定するとリアルタイム学習が可能になる。しかし、ユーザが各々のフレームに対するＧＴ情報を入力するにおいて所定の時間が所要されるので、各々のフレームに対するＧＴ情報をリアルタイムで入力するには限界がある。従来のＣＮＮと異なり、本発明の一実施例にかかる前記ＣＮＮはＣＮＮ学習に必要なＧＴイメージを前記ワーピングイメージを利用して獲得するので、前記ワーピングイメージを利用してリアルタイムで学習することができるようになる。

従って、現在フレームである前記ｔフレームでのリアルタイム学習のために、前記プロセッサ２００は前記ｔフレームに対する前記第１セグメンテーションイメージとこれに対応するワーピングイメージ各々を比較してロス値を獲得し得る（Ｓ２６０）。

そして、前記プロセッサ２００は前記ロス値のうち少なくとも一つを利用するリアルタイム学習を通じて前記第２重み付け値を有する前記ＣＮＮ＿ＣＵＲＲＥＮＴを獲得し得て（Ｓ２７０）、前記ＣＮＮ＿ＣＵＲＲＥＮＴを利用してｔフレームに後行するフレーム及び前記ｔフレームのうち少なくとも一つに対応する映像イメージをセグメンテーションし得る。

この時、前記ＣＮＮ＿ＰＲＥＶＩＯＵＳを現在フレームでリアルタイム学習をして前記ＣＮＮ＿ＣＵＲＲＥＮＴを獲得する時に、前記プロセッサ２００は前記ロス値のうち少なくとも一つを利用して学習した前記ＣＮＮ＿ＰＲＥＶＩＯＵＳの調整値（下の数式１で

）を前記第１重み付け値（下の数式１でｗ_(x1)1）に適用して前記ＣＮＮ＿ＣＵＲＲＥＮＴの前記第２重み付け値（下の数式１でｗ’_(x1)1）を獲得し得るが、前記第１重み付け値に適用される前記調整値の各々の量は対応する比率を参照して決定する。

即ち、図６のように、多数のｎｅｕｒａｌレイヤから構成された前記ＣＮＮで、δ₁のロス値を利用して前記ＣＮＮのｆ₁（ｅ）ｎｅｕｒａｌレイヤの重み付け値であるｗ_(x1)1、ｗ_(x2)1を各々ｗ’_(x1)1、ｗ’_(x2)1にアップデートさせ得る。

この時、ｗ’_(x1)1、ｗ’_(x2)1は次の数式１のように表され得る。

前記数式１で、ηは重み付け値をどれくらい変化させるかを決定する少なくとも一つのパラメータである。本発明の一実施例では前記ηの値を非常に小さな値、例えば０．００１ないし０．０１に設定することで、前記第２重み付け値が前記第１重み付け値に対する若干の調整で決定されるようにして、これを通じて現在状況にリアルタイムで適応する重み付け値を有する前記ＣＮＮを具現し得る。この時、前記重み付け値の微細な変化は前記適応に役立つ。前記重み付け値が大きく変化するように設定されると、即ち調整値の適用の比率が増加すると、トレーニングイメージを利用した学習を通じて最適化されたＣＮＮのパラメータがリアルタイム学習によって大きく変化するようになり、これはＣＮＮの安定性を低下させ得る。

また、前記ｔフレームに対する前記第１セグメンテーションイメージとこれに対応するワーピングイメージ各々を比較して獲得した前記ロス値のうち少なくとも一つを利用して前記ＣＮＮ＿ＰＲＥＶＩＯＵＳをリアルタイム学習をする場合、前記プロセッサ２００は前記ｔフレームに対するワーピングイメージに対応する前記ロス値に対する重み付け値を互いに異なるように適用し得る。一例として、前記ｔ−１フレームのセグメンテーションイメージに対応する重み付け値には最大の調整値が割り当てられ得る。前記重み付け値は前記ｔ−ｉフレームにいくほどより小さくなる場合もあり、その反対の場合もある。他の例として、前記プロセッサ２００は前記ｔ−１フレームに対するセグメンテーションイメージに対応する前記ｔフレームのワーピングイメージを利用して計算したロス値の重み付け値を最大に設定し、他の重み付け値を互いに同一に設定し得る。即ち、前記プロセッサ２００は前記ｔ−１フレームに対するセグメンテーションイメージに対応される特定ロス値に重み付け値を最も大きく割り当てることで前記ｔフレームの映像イメージが獲得される場面の環境と類似する場面を利用してリアルタイム学習をするようにし得る。

このように前記ロス値に互いに異なる重み付け値を適用することと類似して、前記プロセッサ２００は前記調整値に各々異なる重み付け値を適用し得る。即ち、前記プロセッサ２００は前記数式１でのηをフレーム別に獲得された各々のロス値を利用してリアルタイム学習をする過程で互いに異なるように適用し得る。

以後、前記プロセッサ２００はリアルタイム学習された前記第２重み付け値を有する前記ＣＮＮ＿ＣＵＲＲＥＮＴを利用して前記ｔフレームでの前記映像イメージをセグメンテーションすることで前記ｔフレームに対する第２セグメンテーションイメージを獲得するか、前記ｔフレームに対するワーピングイメージのうち少なくとも一つを前記ｔフレームでの映像イメージに対するセグメンテーションイメージに決定し得る。

即ち、前記ｔフレームに対するワーピングイメージは前記ＣＮＮ＿ＰＲＥＶＩＯＵＳを利用してセグメンテーションする場合、前記ｔフレームの映像イメージから出力されると期待されるＧＴイメージに対応されるイメージなので、前記ｔフレームに対するワーピングイメージを前記ｔフレームに対するセグメンテーションイメージと考えられ得るが、前記ｔフレームで新たに出現する物体に対するセグメンテーション情報は前記ｔ−ｉフレームに対するセグメンテーションイメージに存在しないため、多少誤差があり得る。従って、前記ｔフレームで新たに出現する物体に対するセグメンテーション情報まで必要とする場合に、前記ｔフレームの映像イメージは前記第２セグメンテーションイメージを獲得するためにリアルタイム学習された前記ＣＮＮ＿ＣＵＲＲＥＮＴを利用して再びセグメンテーションされ得る。

前記の説明では前記セグメンテーション装置１０００内に位置する前記プロセッサ２００によって動作がなされるものとして説明したが、前記ＣＮＮを構成する各々のｎｅｕｒａｌレイヤが少なくとも一つの他のプロセッサで動作するように構成され得て、互いに異なるプロセッサは単一の装置内に位置するか互いに異なる装置に位置し得る。

また、以上で説明された本発明にかかる実施例は多様なコンピュータ構成要素を通じて遂行され得るプログラム命令語の形態で具現されてコンピュータで判読可能な記録媒体に記録され得る。前記コンピュータで判読可能な記録媒体はプログラム命令語、データファイル、データ構造などを単独または組み合わせて含まれ得る。前記コンピュータで判読可能な記録媒体に記録されるプログラム命令語は本発明のために特別に設計されて構成されたものか、コンピュータソフトウェア分野の当業者に公知となって使用可能なものでもよい。コンピュータで判読可能な記録媒体の例には、ハードディスク、フロッピィディスク及び磁気テープのような磁気媒体、ＣＤ−ＲＯＭ、ＤＶＤのような光記録媒体、フロプティカルディスク（ｆｌｏｐｔｉｃａｌｄｉｓｋ）のような磁気−光媒体（ｍａｇｎｅｔｏ−ｏｐｔｉｃａｌｍｅｄｉａ）、及びＲＯＭ、ＲＡＭ、フラッシュメモリなどのようなプログラム命令語を保存して遂行するように特別に構成されたハードウェア装置が含まれる。プログラム命令語の例には、コンパイラによって作られるもののような機械語コードだけではなく、インタプリタなどを用いてコンピュータによって実行され得る高級言語コードも含まれる。前記ハードウェア装置は本発明にかかる処理を遂行するために一つ以上のソフトウェアモジュールとして作動するように構成されることがあり、その逆も同様である。

以上、本発明が具体的な構成要素などのような特定の事項と限定された実施例及び図面によって説明されたが、これは本発明のより全般的な理解を助けるために提供されたものであるに過ぎず、本発明が前記実施例に限定されるものではなく、本発明が属する技術分野において通常の知識を有する者であればかかる記載から多様な修正及び変形が行なわれ得る。

従って、本発明の思想は前記説明された実施例に極限されて定められてはならず、後述する特許請求の範囲だけではなく、本特許請求の範囲と均等または等価的に変形されたすべてのものは本発明の思想の範疇に属するといえる。

１０…ビジョンセンサ、１００…通信部、２００…プロセッサ、１０００…セグメンテーション装置。

Claims

ＣＮＮ（Ｃｏｎｖｏｌｕｔｉｏｎａｌｎｅｕｒａｌｎｅｔｗｏｒｋ）を利用して入力される映像イメージをセグメンテーションする方法において、
（ａ）セグメンテーション装置が、（ｉ）ｔ−（ｉ＋１）フレーム、ｉは１以上の整数で学習された少なくとも一つの第１重み付け値を有するＣＮＮであるＣＮＮ＿ＰＲＥＶＩＯＵＳを利用してｔフレームでの映像イメージをセグメンテーションすることで前記ｔフレームに対する第１セグメンテーションイメージを獲得するプロセス、（ｉｉ）前記第１セグメンテーションイメージの各々のピクセルからｔ−１フレームに対するセグメンテーションイメージないしｔ−ｉフレームに対するセグメンテーションイメージ各々に対応されるピクセルへのオプティカルフロー情報を含むｔ−１フレームないしｔ−ｉフレーム各々に対応されるオプティカルフローイメージのうち少なくとも一部のオプティカルフローイメージを獲得するプロセス、（ｉｉｉ）前記オプティカルフローイメージを参照して、前記ｔフレームに対する第１セグメンテーションイメージの少なくとも一部のピクセルを含む第１ピクセルを前記ｔ−１フレームに対するセグメンテーションイメージないし前記ｔ−ｉフレームに対するセグメンテーションイメージのうち少なくとも一部のフレームの少なくとも一部ピクセルを含んだ第２ピクセルに置換して前記ｔフレームに対する少なくとも一つのワーピングイメージを獲得するプロセスを遂行するか遂行するように支援する段階；及び
（ｂ）前記セグメンテーション装置が、（ｉ）前記第１セグメンテーションイメージと前記ワーピングイメージ各々とを参照してロス値を獲得するプロセス、（ｉｉ）前記獲得されたロス値のうち少なくとも一つを利用して前記ＣＮＮ＿ＰＲＥＶＩＯＵＳの前記第１重み付け値を調整することで獲得される少なくとも一つの第２重み付け値を有するＣＮＮであるＣＮＮ＿ＣＵＲＲＥＮＴを獲得するプロセス、（ｉｉｉ）前記ＣＮＮ＿ＣＵＲＲＥＮＴを利用して、前記ｔフレームに後行するフレーム及び前記ｔフレームのうち少なくとも一つに対応する映像イメージをセグメンテーションするプロセスを遂行するか遂行するように支援する段階；
を含み、
前記（ｂ）段階で、
前記セグメンテーション装置は、
前記ロス値のうち少なくとも一つを利用して前記ＣＮＮ＿ＰＲＥＶＩＯＵＳを前記ｔフレームでリアルタイム学習をする時に、前記ロス値それぞれに対するそれぞれの重み付け値を割り当てるか割り当てるように支援することを特徴とする方法。
前記（ｂ）段階で、
前記セグメンテーション装置は、
（ｉ）前記ＣＮＮ＿ＣＵＲＲＥＮＴを利用して前記ｔフレームでの映像イメージをセグメンテーションすることで前記ｔフレームに対する第２セグメンテーションイメージを獲得するか、（ｉｉ）少なくとも一つのワーピングイメージを前記ｔフレームに対する修正されたセグメンテーションイメージとして獲得するか獲得するように支援することを特徴とする請求項１に記載の方法。
前記セグメンテーション装置は、ｉ＋１フレーム周期で前記（ａ）段階及び前記（ｂ）段階を遂行するか遂行するように支援することを特徴とする請求項１に記載の方法。
前記セグメンテーション装置は、
前記ロス値のうち、ワーピングイメージのうち前記ｔ−１フレームを利用して獲得した特定ワーピングイメージに対応する特定ロス値、に最大の重み付け値を割り当てるか割り当てるように支援することを特徴とする請求項１に記載の方法。
前記（ｂ）段階で、
前記セグメンテーション装置は、
前記ＣＮＮ＿ＰＲＥＶＩＯＵＳを前記ｔフレームでリアルタイム学習をして前記ＣＮＮ＿ＣＵＲＲＥＮＴを獲得する時に、前記ロス値のうち少なくとも一つを利用して学習した前記ＣＮＮ＿ＰＲＥＶＩＯＵＳの調整値を前記第１重み付け値に適用して前記第２重み付け値を獲得するか獲得するように支援し、前記第１重み付け値に適用される前記調整値の各々の量は前記第１重み付け値をどれくらい変化するかを決定するパラメータを用いて決定することを特徴とする請求項１に記載の方法。
前記（ａ）段階で、
前記セグメンテーション装置は、
前記オプティカルフローイメージを各々獲得する時に、前記ｔ−１フレームに対するセグメンテーションイメージないし前記ｔ−ｉフレームに対するセグメンテーションイメージに存在していない新たな物体が前記第１セグメンテーションイメージに現われると、前記新たな物体を背景として処理するか、前記ｔ−１フレームに対するセグメンテーションイメージないし前記ｔ−ｉフレームに対するセグメンテーションイメージに存在する物体に決定するか決定するように支援することを特徴とする請求項１に記載の方法。
ＣＮＮ（Ｃｏｎｖｏｌｕｔｉｏｎａｌｎｅｕｒａｌｎｅｔｗｏｒｋ）を利用して入力される映像イメージをセグメンテーションするセグメンテーション装置において、
入力される映像のフレームでの映像イメージを獲得するか獲得するように支援する通信部；及び
（ｉ）ｔ−（ｉ＋１）フレーム、ｉは１以上の整数で学習された少なくとも一つの第１重み付け値を有するＣＮＮであるＣＮＮ＿ＰＲＥＶＩＯＵＳを利用してｔフレームでの映像イメージをセグメンテーションすることで前記ｔフレームに対する第１セグメンテーションイメージを獲得するプロセス、（ｉｉ）前記第１セグメンテーションイメージの各々のピクセルからｔ−１フレームに対するセグメンテーションイメージないしｔ−ｉフレームに対するセグメンテーションイメージ各々に対応されるピクセルへのオプティカルフロー情報を含むｔ−１フレームないしｔ−ｉフレーム各々に対応されるオプティカルフローイメージのうち少なくとも一部のオプティカルフローイメージを獲得するプロセス、（ｉｉｉ）前記オプティカルフローイメージを参照して、前記ｔフレームに対する第１セグメンテーションイメージの少なくとも一部のピクセルを含む第１ピクセルを前記ｔ−１フレームに対するセグメンテーションイメージないし前記ｔ−ｉフレームに対するセグメンテーションイメージのうち少なくとも一部のフレームの少なくとも一部ピクセルを含んだ第２ピクセルに置換して前記ｔフレームに対する少なくとも一つのワーピングイメージを獲得するプロセス、（ｉｖ）前記第１セグメンテーションイメージと前記ワーピングイメージ各々とを参照してロス値を獲得するプロセス、（ｖ）前記獲得されたロス値のうち少なくとも一つを利用して前記ＣＮＮ＿ＰＲＥＶＩＯＵＳの前記第１重み付け値を調整することで獲得される少なくとも一つの第２重み付け値を有するＣＮＮであるＣＮＮ＿ＣＵＲＲＥＮＴを獲得するプロセス、（ｖｉ）前記ＣＮＮ＿ＣＵＲＲＥＮＴを利用して、前記ｔフレームに後行するフレーム及び前記ｔフレームのうち少なくとも一つに対応する映像イメージをセグメンテーションするプロセス；を遂行するか遂行するように支援するプロセッサ；
を含み、
前記（ｖ）プロセスで、
前記ロス値のうち少なくとも一つを利用して前記ＣＮＮ＿ＰＲＥＶＩＯＵＳを前記ｔフレームでリアルタイム学習をする時に、前記ロス値それぞれに対するそれぞれの重み付け値を割り当てるか割り当てるように支援することを特徴とするセグメンテーション装置。
前記プロセッサは、
前記（ｉｖ）と（ｖ）プロセスで、
（ｉ）前記ＣＮＮ＿ＣＵＲＲＥＮＴを利用して前記ｔフレームでの映像イメージをセグメンテーションすることで前記ｔフレームに対する第２セグメンテーションイメージを獲得するか、（ｉｉ）少なくとも一つのワーピングイメージを前記ｔフレームに対する修正されたセグメンテーションイメージとして獲得するか獲得するように支援することを特徴とする請求項７に記載のセグメンテーション装置。
前記プロセッサは、ｉ＋１フレーム周期で前記（ｉ）プロセスないし前記（ｖｉ）プロセスを遂行するか遂行するように支援することを特徴とする請求項７に記載のセグメンテーション装置。
前記プロセッサは、
前記ロス値のうち、ワーピングイメージのうち前記ｔ−１フレームを利用して獲得した特定ワーピングイメージに対応する特定ロス値、に最大の重み付け値を割り当てるか割り当てるように支援することを特徴とする請求項７に記載のセグメンテーション装置。
前記プロセッサは、
前記（ｖ）プロセスで、
前記ＣＮＮ＿ＰＲＥＶＩＯＵＳを前記ｔフレームでリアルタイム学習をして前記ＣＮＮ＿ＣＵＲＲＥＮＴを獲得する時に、前記ロス値のうち少なくとも一つを利用して学習した前記ＣＮＮ＿ＰＲＥＶＩＯＵＳの調整値を前記第１重み付け値に適用して前記第２重み付け値を獲得するか獲得するように支援し、前記第１重み付け値に適用される前記調整値の各々の量は前記第１重み付け値をどれくらい変化するかを決定するパラメータを用いて決定することを特徴とする請求項７に記載のセグメンテーション装置。
前記プロセッサは、
前記（ｉｉ）プロセスで、
前記オプティカルフローイメージを各々獲得する時に、前記ｔ−１フレームに対するセグメンテーションイメージないし前記ｔ−ｉフレームに対するセグメンテーションイメージに存在していない新たな物体が前記第１セグメンテーションイメージに現われると、前記新たな物体を背景として処理するか、前記ｔ−１フレームに対するセグメンテーションイメージないし前記ｔ−ｉフレームに対するセグメンテーションイメージに存在する物体に決定するか決定するように支援することを特徴とする請求項７に記載のセグメンテーション装置。