本発明は、前述の問題点を全て解決することをその目的とする。
本発明はオートラベリングを行うことで全てのトレーニングイメージのラベリング処理率(throughput)を向上させることを他の目的とする。
本発明は、検収者の数を減らし、かつ前記オートラベリングの処理率を最大値に維持することをまた他の目的とする。
本発明は、熟練していない検収者が前記オートラベリング装置の処理率に遅れをとらないようにしつつラベル検収を行うようにすることをまた他の目的とする。
前記のような本発明の目的を達成し、後述する本発明の特徴的な効果を実現するための、本発明の特徴的な構成は以下の通りである。
本発明の一態様によると、ディープラーニングネットワーク学習のための少なくとも一つのオートラベリングされたイメージのうちでラベル検収のための少なくとも一つのサンプルイメージを取得する方法において、(a)オートラベリングネットワークによってラベリング済みの前記オートラベリングされたイメージが取得されると、サンプルイメージ取得装置が(i)第1イメージと第2イメージとを生成し、このうち少なくとも一つは前記オートラベリングされたイメージから変形して生成され、前記第1イメージと前記第2イメージとのうち一つだけが前記オートラベリングされたイメージから変形して生成されたイメージであれば、残りの一つは前記オートラベリングされたイメージがそのまま使用され、(ii)一つ以上のコンボリューションレイヤをもって、一つ以上のコンボリューション演算を前記第1イメージと前記第2イメージとにそれぞれ適用して少なくとも一つの第1特徴マップと少なくとも一つの第2特徴マップとを生成させ、(iii)一つ以上のプーリングレイヤをもって、前記第1特徴マップ上で、前記オートラベリングされたイメージのオートラベリング済みボックスそれぞれに対応する各領域に一つ以上のプーリング演算を適用してそれぞれの第1プーリング済み特徴マップを生成させ、前記第2特徴マップ上で、前記オートラベリングされたイメージの前記オートラベリング済みボックスそれぞれに対応する各領域に前記プーリング演算をそれぞれ適用して第2プーリング済み特徴マップそれぞれを生成させ、(iv)前記オートラベリング済みボックスそれぞれに対応する、それぞれの前記第1プーリング済み特徴マップとそれぞれの前記第2プーリング済み特徴マップとをコンカチネート(concatenate)して、それぞれの前記オートラベリング済みボックスに対応するそれぞれのコンカチネートされた特徴マップを生成する段階;(b)前記サンプルイメージ取得装置が、ディープラーニング分類器(classifier)をもって、それぞれの前記コンカチネートされた特徴マップを入力として取得して、それぞれの前記オートラベリング済みボックスを非正常クラス群または正常クラス群に分類するクラス情報を生成させる段階;及び、(c)前記サンプルイメージ取得装置が、(i)それぞれの前記オートラベリング済みボックスに関するそれぞれの前記クラス情報を参照して前記非正常クラス群の各非正常クラス要素の確率それぞれを計算し、(ii)それぞれの前記非正常クラス要素の前記確率それぞれを利用して前記オートラベリングされたイメージがディフィカルト(difficult)イメージであるかを判断し、(iii)前記オートラベリングされたイメージが前記ディフィカルトイメージとして判断される場合、前記オートラベリングされたイメージをラベル検収のための前記サンプルイメージとして選定し、前記ディフィカルトイメージは不正確にオートラベリングされる確率が予め設定された値以上であるイメージである段階;を含むことを特徴とする方法が開示される。
一実施例において、前記(a)段階で、前記サンプルイメージ取得装置は、前記第1イメージと前記第2イメージとを生成するのにおいて、前記第1イメージを変形する一つ以上の第1関数とこれに対応して前記第2イメージを変形する第2関数とを含む一つ以上の変形ペアを利用して、前記オートラベリングされたイメージに対応する、前記第1イメージと前記第2イメージとの少なくとも一つのイメージペアを生成し、前記(c)段階で、前記サンプルイメージ取得装置は、それぞれの前記オートラベリング済みボックスごとに、前記変形ペアそれぞれに対応する前記非正常クラス要素それぞれの各確率を計算し、前記それぞれの確率に対する少なくとも一つの重み付け平均を計算することを特徴とする。
一実施例において、前記非正常クラス群は、誤検出(misdetection)クラス群と未検出(non−detection)クラス群とを含み、前記非正常クラス要素それぞれの各確率は、前記誤検出クラス群の誤検出クラス要素それぞれの確率と前記未検出クラス群の未検出クラス要素それぞれの確率とを含むことを特徴とする。
一実施例において、前記(c)段階で、前記不正確にオートラベリングされる確率は、前記非正常クラス要素それぞれの確率に対する少なくとも一つの一般化された平均(generalized mean)であることを特徴とする。
一実施例において、前記予め設定された値は、前記オートラベリングネットワークを通じてオートラベリングされた後、手動で検収された検証イメージに対する正答的中率のうち最も高い的中率であることを特徴とする。
一実施例において、(d)前記サンプルイメージ取得装置は、前記ディフィカルトイメージとして判断された前記オートラベリングされたイメージ上で、前記非正常クラス群に分類された前記オートラベリング済みボックスに対応する領域を識別する段階;をさらに含むことを特徴とする。
一実施例において、それぞれの前記コンボリューションレイヤは、前記オートラベリングネットワークを構成する少なくとも一つのオートラベリングコンボリューションレイヤであることを特徴とする。
一実施例において、前記ディープラーニング分類器は、多重のFC(fully connected)レイヤまたは一つのFCN(fully convolutional network)を含むことを特徴とする。
一実施例において、学習装置によって、前記ディープラーニング分類器は、(i)前記オートラベリング済みボックスに対応するトゥルーボックスとオートボックスとを含む少なくとも一つのトレーニングイメージが取得されると、(i−1)学習用コンボリューションレイヤをもって、前記学習用コンボリューションレイヤのコンボリューション演算を前記トレーニングイメージに適用して学習用特徴マップを生成させ、(i−2)学習用プーリングレイヤをもって、前記学習用特徴マップ上で前記オートボックスに対応する領域それぞれに前記学習用プーリングレイヤのプーリング演算を適用して、学習用プーリング済み特徴マップを生成させ、(ii)前記オートボックスそれぞれに対応する前記学習用プーリング済み特徴マップそれぞれを入力として取得して、前記オートボックスを前記正常クラス群または前記非正常クラス群に分類する前記クラス情報を生成し、(iii)少なくとも一つのロスレイヤをもって、前記クラス情報とこれに対応する一つ以上の原本正解(ground truth)とを参照して一つ以上のロスを算出させることにより、前記ロスを利用したバックプロパゲーションを通じて前記ディープラーニング分類器のパラメータのうち少なくとも一部を学習することを特徴とする。
一実施例において、前記クラス情報は、誤検出クラス群と未検出クラス群とを有する前記非正常クラス群を含み、(i)前記誤検出クラス群は、第1特定のオートボックスと同一のクラス情報を有する第1特定のトゥルーボックスが他のどのトゥルーボックスとも第1の予め設定された閾値以上に重なっていない場合に該当し、(ii)前記未検出クラス群は、第2特定のトゥルーボックスと同一のクラス情報を有する第2特定のオートボックスが他のどのオートボックスとも第2の予め設定された閾値以上に重なっていない状態で、第3特定のオートボックスが前記第2特定のトゥルーボックスと第3の予め設定された閾値以上に重なっている場合に該当し、前記正常クラス群は、前記誤検出クラス群と前記未検出クラス群とを除いたすべてのクラス群を含むことを特徴とする。
一実施例において、前記学習装置は、前記誤検出クラス群、前記未検出クラス群、及び前記正常クラス群を管理して、前記非正常クラス群のうちで要素個数が多いクラス群の個数が、要素個数が少ない残りのクラス群の個数の予め設定された第1倍数以下になるようにし、前記正常クラス群の要素個数が前記非正常クラス群の要素個数の予め設定された第2倍数と同一になるようにすることを特徴とする。
一実施例において、前記学習装置は、ランダムサンプリングを利用して、前記誤検出クラス群の要素の個数、前記未検出クラス群の要素の個数、及び前記正常クラス群の要素の個数を調整することを特徴とする。
一実施例において、前記学習装置は、クロスエントロピーロス(cross−entropy loss)を利用して前記バックプロパゲーションを遂行することを特徴とする。
本発明の他の態様によると、ディープラーニングネットワーク学習のための少なくとも一つのオートラベリングされたイメージのうちでラベル検収のための少なくとも一つのサンプルイメージを取得するサンプルイメージ取得装置において、各インストラクションを格納する少なくとも一つのメモリと、(I)オートラベリングネットワークによってラベリング済みの前記オートラベリングされたイメージが取得されると、(i)第1イメージと第2イメージとを生成し、このうち少なくとも一つは前記オートラベリングされたイメージから変形して生成され、前記第1イメージと前記第2イメージとのうち一つだけが前記オートラベリングされたイメージから変形して生成されたイメージであれば、残りの一つは前記オートラベリングされたイメージがそのまま使用され、(ii)一つ以上のコンボリューションレイヤをもって、一つ以上のコンボリューション演算を前記第1イメージと前記第2イメージとにそれぞれ適用して少なくとも一つの第1特徴マップと少なくとも一つの第2特徴マップとを生成させ、(iii)一つ以上のプーリングレイヤをもって、前記第1特徴マップ上で、前記オートラベリングされたイメージのオートラベリング済みボックスそれぞれに対応する各領域に一つ以上のプーリング演算を適用してそれぞれの第1プーリング済み特徴マップを生成させ、前記第2特徴マップ上で、前記オートラベリングされたイメージの前記オートラベリング済みボックスそれぞれに対応する各領域に前記プーリング演算をそれぞれ適用して第2プーリング済み特徴マップそれぞれを生成させ、(iv)前記オートラベリング済みボックスそれぞれに対応する、それぞれの前記第1プーリング済み特徴マップとそれぞれの前記第2プーリング済み特徴マップとをコンカチネートして、それぞれの前記オートラベリング済みボックスに対応するそれぞれのコンカチネートされた特徴マップを生成するプロセス、(II)ディープラーニング分類器(classifier)をもって、それぞれの前記コンカチネートされた特徴マップを入力として取得して、それぞれの前記オートラベリング済みボックスを非正常クラス群または正常クラス群に分類するクラス情報を生成させるプロセス、及び(III)(i)それぞれの前記オートラベリング済みボックスに関するそれぞれの前記クラス情報を参照して前記非正常クラス群の各非正常クラス要素の確率それぞれを計算し、(ii)それぞれの前記非正常クラス要素の前記確率それぞれを利用して前記オートラベリングされたイメージがディフィカルトイメージであるかを判断し、(iii)前記オートラベリングされたイメージが前記ディフィカルトイメージとして判断される場合、前記オートラベリングされたイメージをラベル検収のための前記サンプルイメージとして選定し、前記ディフィカルトイメージは不正確にオートラベリングされる確率が予め設定された値以上であるイメージであるプロセスを遂行するための前記インストラクションを実行するように構成された少なくとも一つのプロセッサと、を含むことを特徴とする。
一実施例において、前記プロセッサは、前記(I)プロセスで、前記第1イメージと前記第2イメージとを生成するのにおいて、前記第1イメージを変形する一つ以上の第1関数と、それに対応して前記第2イメージを変形する第2関数とを含む一つ以上の変形ペアを利用して、前記オートラベリングされたイメージに対応する、前記第1イメージと前記第2イメージとの少なくとも一つのイメージペアを生成し、前記(III)プロセスで、前記プロセッサは、それぞれの前記オートラベリング済みボックスごとに、前記変形ペアそれぞれに対応する前記非正常クラス要素それぞれの各確率を計算し、前記それぞれの確率に対する少なくとも一つの重み付け平均を計算することを特徴とする。
一実施例において、前記非正常クラス群は、誤検出(misdetection)クラス群と未検出(non−detection)クラス群とを含み、前記非正常クラス要素それぞれの各確率は、前記誤検出クラス群の誤検出クラス要素それぞれの確率と前記未検出クラス群の未検出クラス要素それぞれの確率とを含むことを特徴とする。
一実施例において、前記(III)プロセスで、前記不正確にオートラベリングされる確率は、前記非正常クラス要素それぞれの確率に対する少なくとも一つの一般化された平均(generalized mean)であることを特徴とする。
一実施例において、前記予め設定された値は、前記オートラベリングネットワークを通じてオートラベリングされた後、手動で検収された検証イメージに対する正答的中率のうち最も高い的中率であることを特徴とする。
一実施例において、前記プロセッサは、(IV)前記ディフィカルトイメージとして判断された前記オートラベリングされたイメージ上で、前記非正常クラス群に分類された前記オートラベリング済みボックスに対応する領域を識別するプロセス;を更に遂行することを特徴とする。
一実施例において、それぞれの前記コンボリューションレイヤは、前記オートラベリングネットワークを構成する少なくとも一つのオートラベリングコンボリューションレイヤであることを特徴とする。
一実施例において、前記ディープラーニング分類器は、多重のFC(fully connected)レイヤまたは一つのFCNを含むことを特徴とする。
一実施例において、学習装置によって、前記ディープラーニング分類器は、(i)前記オートラベリング済みボックスに対応するトゥルーボックスとオートボックスとを含む少なくとも一つのトレーニングイメージが取得されると、(i−1)学習用コンボリューションレイヤをもって、前記学習用コンボリューションレイヤのコンボリューション演算を前記トレーニングイメージに適用して学習用特徴マップを生成させ、(i−2)学習用プーリングレイヤをもって、前記学習用特徴マップ上で前記オートボックスに対応する領域それぞれに前記学習用プーリングレイヤのプーリング演算を適用して、学習用プーリング済み特徴マップを生成させ、(ii)前記オートボックスそれぞれに対応する前記学習用プーリング済み特徴マップそれぞれを入力として取得して、前記オートボックスを前記正常クラス群または前記非正常クラス群に分類する前記クラス情報を生成し、(iii)少なくとも一つのロスレイヤをもって、前記クラス情報とこれに対応する一つ以上の原本正解(ground truth)とを参照して一つ以上のロスを算出させることにより、前記ロスを利用したバックプロパゲーションを通じて前記ディープラーニング分類器のパラメータのうち少なくとも一部を学習することを特徴とする。
一実施例において、前記クラス情報は、誤検出クラス群と未検出クラス群とを有する前記非正常クラス群を含み、(i)前記誤検出クラス群は、第1特定のオートボックスと同一のクラス情報を有する第1特定のトゥルーボックスが他のどのトゥルーボックスとも第1の予め設定された閾値以上に重なっていない場合に該当し、(ii)前記未検出クラス群は、第2特定のトゥルーボックスと同一のクラス情報を有する第2特定のオートボックスが他のどのオートボックスとも第2の予め設定された閾値以上に重なっていない状態で、第3特定のオートボックスが前記第2特定のトゥルーボックスと第3の予め設定された閾値以上に重なっている場合に該当し、前記正常クラス群は、前記誤検出クラス群と前記未検出クラス群とを除いたすべてのクラス群を含むことを特徴とする。
一実施例において、前記学習装置は、前記誤検出クラス群、前記未検出クラス群、及び前記正常クラス群を管理して、前記非正常クラス群のうちで要素個数が多いクラス群の個数が、要素個数が少ない残りのクラス群の個数の予め設定された第1倍数以下になるようにし、前記正常クラス群の要素個数が前記非正常クラス群の要素個数の予め設定された第2倍数と同一になるようにすることを特徴とする。
一実施例において、前記学習装置は、ランダムサンプリングを利用して、前記誤検出クラス群の要素の個数、前記未検出クラス群の要素の個数、及び前記正常クラス群の要素の個数を調整することを特徴とする。
一実施例において、前記学習装置は、クロスエントロピーロス(cross−entropy loss)を利用して前記バックプロパゲーションを遂行することを特徴とする。
その他にも、本発明の方法を実行するためのコンピュータプログラムを記録するためのコンピュータ読取り可能な記録媒体がさらに提供される。
本発明は、オートラベリング装置によってオートラベリングされたイメージのうちラベリングするのが難しいイメージを選択して検収することで、検収時間を減らすことができる効果がある。
また、本発明は、ラベリングするのが難しい前記イメージを検収することにより、熟練していない検収者であっても前記オートラベリングネットワークの処理率(throughput)に遅れをとらないようにすることで、全体の前記トレーニングイメージをラベリングする処理率を向上させ得る効果がある。
また、本発明は、ラベリングするのが難しい前記イメージを検収することにより、検収者の数を減らすことが可能となるため、手動ラベリングのためのサンプリング過程を最適化し、注釈(annotation)費用を節減することができる効果がある。
後述する本発明に関する詳細な説明は、本発明の各目的、各技術的解法、及び各長所を明らかにするために本発明が実施され得る特定の実施例を例示として示す添付図面を参照する。これらの実施例は、当業者が本発明を実施することができるように十分詳細に説明される。
また、本発明の詳細な説明及び各請求項にわたって、「含む」という単語及びそれらの変形は、他の技術的各特徴、各付加物、構成要素又は段階を除外することを意図したものではない。通常の技術者にとって本発明の他の各目的、長所及び各特性が、一部は本説明書から、また一部は本発明の実施から明らかになるであろう。以下の例示及び図面は実例として提供され、本発明を限定することを意図したものではない。
さらに、本発明は、本明細書に示された実施例のすべての可能な組合せを網羅する。本発明の多様な実施例は互いに異なるが、相互に排他的である必要はないことが理解されるべきである。例えば、ここに記載されている特定の形状、構造及び特性は、一実施例に関連して本発明の精神及び範囲を逸脱せず、かつ他の実施例で具現され得る。また、それぞれの開示された実施例内の個別の構成要素の位置又は配置は、本発明の精神及び範囲を逸脱せず、かつ変更され得ることが理解されるべきである。したがって、後述の詳細な説明は、限定的な意味として受け取ろうとするものではなく、本発明の範囲は適切に説明されるのであれば、その請求項が主張することと均等な全ての範囲とともに添付された請求項によってのみ限定される。図面において類似の参照符号は、様々な側面にわたって同一であるか、又は類似の機能を指す。
本発明で言及している各種イメージは、舗装または非舗装道路関連のイメージを含み得、この場合、道路環境で登場し得る物体(例えば、自動車、人、動物、植物、物、建物、飛行機やドローンのような飛行体、その他の障害物)を想定し得るが、必ずしもこれに限定されるものではなく、本発明で言及している各種イメージは、道路と関係のないイメージ(例えば、非舗装道路、路地、空き地、海、湖、川、山、森、砂漠、空、室内と関連したイメージ)でもあり得、この場合、非舗装道路、路地、空き地、海、湖、川、山、森、砂漠、空、室内環境で登場し得る物体(例えば、自動車、人、動物、植物、物、建物、飛行機やドローンのような飛行体、その他の障害物)を想定し得るが、必ずしもこれに限定されるものではない。
以下、本発明の属する技術分野において通常の知識を有する者が本発明を容易に実施し得るようにするために、本発明の好ましい実施例について、添付された図面を参照して詳細に説明することにする。
図1は、本発明の一実施例にしたがってニューラルネットワークの学習に利用するための一つ以上のオートラベリングされたイメージのうちでラベル検収のための少なくとも一つのサンプルイメージを取得するサンプルイメージ取得装置を簡略に示した図面である。図1を参照すると、前記サンプルイメージ取得装置100は、前記オートラベリングされたイメージのうちでラベル検収のための前記サンプルイメージを取得するためのインストラクションを格納するメモリ110と、前記メモリ110に格納された前記各インストラクションに対応して前記オートラベリングされたイメージのうちでラベル検収のための前記サンプルイメージを取得するためのプロセスを遂行するプロセッサ120を含むことができる。
具体的に、前記サンプルイメージ取得装置100は、典型的に少なくとも一つのコンピューティング装置(例えば、コンピュータプロセッサ、メモリ、ストレージ、入力装置及び出力装置、その他既存のコンピューティング装置の構成要素を含み得る装置;ルータ、スイッチなどのような電子通信装置;ネットワーク接続ストレージ(NAS)及びストレージ領域ネットワーク(SAN)のような電子情報ストレージシステム)と少なくとも一つのコンピュータソフトウェア(すなわち、前記コンピューティング装置をもって特定の方式で機能させる各インストラクション)との組合せを利用して所望のシステム性能を達成するものであり得る。
また、前記コンピューティング装置のプロセッサは、MPU(Micro Processing Unit)またはCPU(Central Processing Unit)、キャッシュメモリ(Cache Memory)、データバス(Data Bus)などのハードウェアの構成を含み得る。また、コンピューティング装置は、運営体制、特定の目的を遂行するアプリケーションのソフトウェアの構成をさらに含むこともできる。
しかし、このような前記コンピューティング装置に関する説明が本発明を実施するためのプロセッサ、メモリ、媒体またはその他のコンピューティング構成要素が統合された形態である統合プロセッサの場合を排除するわけではない。
本発明の一実施例にしたがって前記ニューラルネットワークの学習に利用される前記オートラベリングされたイメージのうちでラベル検収のための前記サンプルイメージを取得する方法について、図2を参照して説明すると以下のとおりである。この場合、前記ニューラルネットワークは、前記サンプルイメージ取得装置100を利用してイメージ分析を遂行することができる。
まず、オートラベリングネットワークを通じてラベリング済みの前記オートラベリングされたイメージが取得されると、前記サンプルイメージ取得装置100が、イメージ変形レイヤ150をもって、前記オートラベリングされたイメージをそのまま使用するか、これを変形(transform)して第1イメージと第2イメージとを生成させる。この際、前記第1イメージ及び前記第2イメージのうち少なくとも一つは前記オートラベリングされたイメージから変形して生成されたイメージであり得る。また、前記オートラベリングされたイメージは、トゥルーボックスを含む検証イメージを含むことができ、前記検証イメージは、前記オートラベリング及び手動ラベリングの結果を評価するために使用され得る。
一方、前記サンプルイメージ取得装置100は、前記イメージ変形レイヤ150をもって、前記第1イメージと前記第2イメージとを生成するのにおいて、前記第1イメージを変形する一つ以上の第1関数と、それに対応して前記第2イメージを変形する第2関数とを含む一つ以上の変形ペアを利用して、前記オートラベリングされたイメージに対応する前記第1イメージと前記第2イメージとの少なくとも一つのイメージペアを生成させることができる。
すなわち、前記オートラベリングされたイメージによって設定された前記変形ペアに対応する、前記第1イメージと前記第2イメージとの一つ以上のイメージペアを生成することができる。前記においては前記変形ペアに対する例示として6つの例示を示したが、本発明の範囲はこれに限定されるわけではなく、前記変形ペアの個数は任意の個数に設定することができる。
次に、前記サンプルイメージ取得装置100は、一つ以上のコンボリューションレイヤ160をもって、前記第1イメージと前記第2イメージとにそれぞれ一つ以上のコンボリューション演算を適用して、少なくとも一つの第1特徴マップと少なくとも一つの第2特徴マップとを出力させる。
この際、それぞれの前記コンボリューションレイヤ160は、前記オートラベリングネットワークを構成する少なくとも一つのオートラベリングコンボリューションレイヤであり得る。すなわち、前記オートラベリングネットワークが多数の変形の組合せを使用する場合、前記変形ペアは、前記オートラベリングネットワークが使用する前記変形としてのみ定義され得、それに伴って前記オートラベリングネットワークの前記オートラベリングコンボリューションレイヤから出力された特徴マップがさらなる過程なしにそのまま使用され得るので、前記特徴マップの演算に所要される時間を節減することができるようになる。
以後、前記サンプルイメージ取得装置100は、一つ以上のプーリングレイヤ170をもって、前記第1特徴マップ上で前記オートラベリングされたイメージのオートラベリング済みボックスそれぞれに対応する各領域に一つ以上のプーリング演算を適用してそれぞれの第1プーリング済み特徴マップを出力させ、前記第2特徴マップ上で前記オートラベリングされたイメージの前記オートラベリング済みボックスそれぞれに対応する各領域に前記プーリング演算を適用してそれぞれの第2プーリング済み特徴マップを出力させ、前記それぞれのオートラベリング済みボックスにそれぞれ対応する、それぞれの前記第1プーリング済み特徴マップとそれぞれの前記第2プーリング済み特徴マップとをコンカチネートして前記オートラベリング済みボックスそれぞれに対応するそれぞれのコンカチネートされた特徴マップを生成する。
この際、図2では二つのコンボリューションレイヤ160と、二つのプーリングレイヤ170が示されているが、これとは異なって一つのコンボリューションレイヤと一つのプーリングレイヤが、前記第1イメージと第2イメージとに前記コンボリューション演算を適用し、前記第1特徴マップと前記第2特徴マップとに前記プーリング演算を適用するためにそれぞれ使用されてもよい。
そして、前記サンプルイメージ取得装置100は、少なくとも一つのディープラーニング分類器180をもって、前記それぞれのコンカチネートされた特徴マップを入力として取得して、前記それぞれのオートラベリング済みボックスを非正常クラス群または正常クラス群に分類するクラス情報を出力させることができる。
この際、前記非正常クラス群は、誤検出クラス群と未検出クラス群とを含むことができ、前記正常クラス群は物体に分類されたボックスに関するクラス群と背景に分類されたボックスに関するクラス群とを含むことができ、前記ボックスは前記非正常クラス群に含まれていない前記オートラベリング済みボックスのうち少なくとも一部である。前記オートラベリング済みボックスに関する分類については、下記のように前記ディープラーニング分類器180の学習方法で説明することにする。
以後、前記サンプルイメージ取得装置100は、少なくとも一つのディフィカルト(difficult)イメージ判別レイヤ190をもって、(i)前記それぞれのオートラベリング済みボックスの各クラス情報を参照して、前記非正常クラス群のそれぞれの非正常クラス要素に対する確率値それぞれを計算し、(ii)それぞれの前記非正常クラス要素に関する前記確率値それぞれを利用して、前記オートラベリングされたイメージが、追って説明されるディフィカルトイメージであるかを判断させる。
この際、前記ディープラーニング分類器180の出力にシグモイド関数が適用された後、それぞれの前記非正常クラス要素の各確率値が計算され得る。それぞれの前記非正常クラス要素の各確率値は、前記誤検出クラス群の誤検出クラス要素に対するそれぞれの確率値と前記未検出クラス群の未検出クラス要素に対するそれぞれの確率値とを含むことができる。
一例として、前記誤検出クラス要素FPに対する確率値は、p(bi:FP|IA,IB)で表すことができ、前記未検出クラス要素FNに対する確率値は、p(bi:FN|IA,IB)で表すことができる。
この際、biは、前記オートラベリング済みボックスのうち一つのオートラベリング済みボックスであり、IAとIBそれぞれ前記第1イメージと前記第2イメージを表す。
また、前記サンプルイメージ取得装置100は、各前記オートラベリング済みボックスごとに、前記変形ペアそれぞれに対応するそれぞれの前記非正常クラス要素に対するそれぞれの確率値を計算し、前記算出された確率値の少なくとも一つの重み付け平均を計算することができる。
すなわち、前記誤検出クラス要素に対する確率値p(bi:FP)と前記未検出クラス要素に対する確率値p(bi:FN)は以下のように示し得る。
この場合、前記誤検出クラス要素に対する確率値p(bi:FP)と前記未検出クラス要素に対する確率値p(bi:FN)とは重み付け値に対する線形関数であるため、Σjwj=1の制約条件のある制約最適化(Constrained optimization)により前記重み付け値の最適化が可能になる。
そして、それぞれの前記非正常クラス要素の確率値に対する少なくとも一つの一般化された平均(generalized mean)が予め設定された値以上である場合、前記サンプルイメージ取得装置100は、前記オートラベリングされたイメージを前記ディフィカルトイメージとして判断することができる。
一例として、前記サンプルイメージ取得装置100は、各オートラベリング済みボックスごとの、前記誤検出クラス要素に対する各確率値p(bi:FP)と前記未検出クラス要素に対する各確率値p(bi:FN)とを参照して、前記オートラベリングされたイメージが前記ディフィカルトイメージである確率値p(I:Difficult)を次のような一般化された平均として計算することができる。
そして、各オートラベリング済みボックスごとの、前記誤検出クラス要素に対する各確率値p(bi:FP)と前記未検出クラス要素に対する各確率p(bi:FN)とを参照して計算したそれぞれの前記確率値p(I:Difficult)が前記予め設定された値以上である場合、前記サンプルイメージ取得装置100は、前記オートラベリングされたイメーを前記ディフィカルトイメージとして判断することができる。ここで、前記ディフィカルトイメージは、不正確にオートラベリングされる確率が前記予め設定された値以上であるイメージを示し得る。
この際、前記予め設定された値は、前記オートラベリングネットワークのオートラベリングプロセス以後に手動で検収された前記検証イメージに対する正答的中率のうち最も高い的中率であり得る。
次に、前記サンプルイメージ取得装置100は、前記オートラベリングされたイメージが前記ディフィカルトイメージである場合、前記オートラベリングされたイメージをラベル検収のための前記サンプルイメージとして選定する。
以後、前記サンプルイメージ取得装置100は、前記ディフィカルトイメージとして選定された前記オートラベリングされたイメージ上の、前記非正常クラス群に分類された前記オートラベリング済みボックスに対応する領域を識別して検収者が容易に検査し得るようにすることができる。
一方、前記ディープラーニング分類器は、多重のFCレイヤまたはFCN(fully convolutional network)を含むことができ、前記ディープラーニング分類器を学習する過程を、図3を参照して説明すると以下のとおりである。
まず、前記オートラベリングネットワークによってラベリングされたオートボックスを有する少なくとも一つのトレーニングイメージが取得されると、学習装置200が一つ以上の学習用コンボリューションレイヤ260をもって、前記学習用コンボリューションレイヤのコンボリューション演算を前記トレーニングイメージに適用して少なくとも一つの学習用特徴マップを出力させる。
この際、前記トレーニングイメージの前記オートボックスは、前記オートラベリングネットワークを通じてラベリングされた前記オートボックスとは異なり、学習のために任意に生成されたものでもあり得る。
また、前記学習装置200は、前記ディープラーニングクラス分類器の学習のための各インストラクションを格納するメモリ(図示せず)と、前記メモリに格納された前記各インストラクションに対応して前記ディープラーニングクラス分類器に対する学習を遂行するプロセッサ(図示せず)を含むことができる。
具体的に、前記学習装置200は、典型的に少なくとも一つのコンピューティング装置(例えば、コンピュータのプロセッサ、メモリ、ストレージ、入力装置及び出力装置、その他既存のコンピューティング装置の構成要素を含むことができる装置;ルータ、スイッチなどのような電子通信装置;ネットワーク接続ストレージ(NAS)及びストレージ領域ネットワーク(SAN)のような電子情報ストレージシステム)と少なくとも一つのコンピュータソフトウェア(すなわち、前記コンピューティング装置をもって、特定の方式で機能させる各インストラクション)との組合せを利用して所望のシステム性能を達成するものであり得る。また、前記コンピューティング装置のプロセッサは、MPU(Micro Processing Unit)またはCPU(Central Processing Unit)、キャッシュメモリ(Cache Memory)、データバス(Data Bus)などのハードウェアの構成を含むことができる。また、コンピューティング装置は、運営体制、特定の目的を遂行するアプリケーションのソフトウェアの構成をさらに含むこともできる。しかし、このような前記コンピューティング装置に関する説明が本発明を実施するためのプロセッサ、メモリ、媒体またはその他のコンピューティング構成要素が統合された形態である統合プロセッサである場合を排除するものではない。
次に、前記学習装置200は、学習用プーリングレイヤ270をもって、前記学習用プーリングレイヤの一つ以上のプーリング演算を、前記学習用特徴マップ上で前記オートボックスそれぞれに対応するそれぞれの領域にそれぞれ適用して一つ以上の学習用プーリング済み特徴マップを出力させる。
以後、前記学習装置200は、前記ディープラーニング分類器280をもって、前記オートボックスそれぞれに対応するそれぞれの前記学習用プーリング済み特徴マップを入力として取得して、前記オートボックスを前記非正常クラス群または前記正常クラス群に分類する前記クラス情報を出力させる。
この場合、前記クラス情報は、前記誤検出クラス群と前記未検出クラス群とを有する前記非正常クラス群を含むことができる。そして、前記クラス情報は2次元出力を含むことができる。
一例として、前記誤検出クラス群FP、yi=[1,0]は、第1特定のオートボックスと同一のクラス情報を有する第1特定のトゥルーボックスが他のトゥルーボックスと前記第1の予め設定された閾値以上に重なっていない場合に該当し得る。
そして、前記未検出クラス群FN、yi=[0,1]は、第2特定のトゥルーボックスと同一のクラス情報を有する第2特定のオートボックスが、他のオートボックスと前記第2の予め設定された閾値以上に重なっていない状態で、第3特定のオートボックスが前記第2特定のトゥルーボックスと第3の予め設定された閾値以上に重なっている場合に該当し得る。
一例として、前記においてα=0.9、β=0.5と設定され得るが、これに限定されるわけではない。
そして、前記正常クラス群yi=[0,0]は、前記誤検出クラス群及び前記未検出クラス群以外の他のクラス群を含むことができ、前記物体と前記背景に対応し得る。
一方、前記クラスの不均衡を予防するために、前記学習装置200は、前記誤検出クラス群、前記未検出クラス群及び前記正常クラス群を管理して、前記非正常クラス群のうちで要素個数が多いクラス群の個数が、要素個数が少ない残りのクラス群個数の予め設定された第1倍数以下になるようにし、前記正常クラス群の要素個数が前記非正常クラス群の要素個数の予め設定された第2倍数と同一になるようにする。
この際、前記学習装置200は、前記誤検出クラス群FPの要素の個数、前記未検出クラス群FNの要素の個数、及び前記正常クラス群の要素の個数を、ランダムサンプリングを利用して調整することができる。
次に、前記学習装置200は、少なくとも一つの、レイヤ281をもって、それぞれの前記オートラベリング済みボックスに対する前記各クラス情報と、これに対応する原本正解(ground truth)とを参照して一つ以上のロスを計算させることにより、前記ロスを利用したバックプロパゲーションを通じて前記ディープラーニング分類器280のパラメータのうち少なくとも一部を学習することができる。
この際、前記学習装置200は、クロスエントロピーロス(cross−entropy loss)を利用して前記バックプロパゲーションを遂行することができる。
一方、前記学習は、前記ディープラーニング分類器280を構成するニューラルネットワーク内に連結された二つのレイヤのシナプス強度である重み付け値を、ロスが小さくなるように調整するものであり得る。
一例として、確率的勾配降下法(Stochastic Gradient Descent、SGD)を利用して前記バックプロパゲーションを遂行する場合には、次のようにそれぞれの重み付け値を調整することができる。
前記において、lrは学習率を示し、Cは費用関数(Cost function)を示す。
この際、前記費用関数は、指導学習、非指導学習、自律学習、及び強化学習などのような学習の形態と活性化関数のような各要因によって決定され得る。
例えば、多重クラス(multi−class)分類の問題を解決するための学習を遂行する場合に、一般的に前記活性化関数と前記費用関数とはそれぞれソフトマックス関数とクロスエントロピー関数として決定される。
この際、pjはクラス確率(class probability)を示し、xjとxkはそれぞれユニットjとしての全体入力とユニットkとしての全体入力を示し得る。そして、djは、出力ユニットjに対する目標確率(target probability)を示し、pjは当該活性化関数を適用した後の前記出力ユニットjに対する確率出力(probability output)を示し得る。
前記では、前記ロスを利用したバックプロパゲーションの一例として、前記確率的勾配降下法について説明したが、本発明の範囲はこれに限定されず、モメンタム方式(Momentum)、ネステロフ加速勾配(Nesterov Accccellerated Gradient、NAG)方式、RMSProp(Root Mean Square Propagation)方式、AdaDelta(Adaptive Delta)方式、Adam(Adaptive Moment Estimation)方式などを使用して前記ニューラルネットワークの学習のための前記バックプロパゲーションを遂行することができる。
併せて、前記方法は、多数の変形ペアを有するロバストアルゴリズム(robust algorithm)を利用して遂行することができる。
本発明を通じて、危険な状況をより正確に検出することができる。
以上にて説明された本発明による実施例は、多様なコンピュータの構成要素を通じて遂行することができるプログラム命令語の形態で具現されて、コンピュータ読取り可能な記録媒体に格納され得る。前記コンピュータ読取り可能な記録媒体は、プログラム命令語、データファイル、データ構造などを単独で又は組み合わせて含むことができる。前記コンピュータ読取り可能な記録媒体に格納されるプログラム命令語は、本発明のために特別に設計され、構成されたものであるか、コンピュータソフトウェア分野の当業者に公知にされて使用可能なものであり得る。コンピュータ読取り可能な記録媒体の例には、ハードディスク、フロッピーディスク及び磁気テープのような磁気媒体、CD−ROM、DVDのような光記録媒体、フロプティカルディスク(Floptical Disk)のような磁気−光メディア(Magneto−Optical Media)、及びROM、RAM、フラッシュメモリなどのようなプログラム命令語を格納して遂行するように特別に構成されたハードウェア装置が含まれる。プログラム命令語の例には、コンパイラによって作られるもののような機械語コードだけでなく、インタープリターなどを使用してコンピュータによって実行され得る高級言語コードも含まれる。前記ハードウェア装置は、本発明による処理を実行するために一つ以上のソフトウェアモジュールとして作動するように構成され得、その反対も同様である。
以上にて本発明が具体的な構成要素などのような特定事項と限定された実施例及び図面によって説明されたが、これは本発明のより全般的な理解の一助とするために提供されたものであるに過ぎず、本発明が前記実施例に限られるものではなく、本発明が属する技術分野において通常の知識を有する者であれば、かかる記載から多様な修正及び変形が行われ得る。
従って、本発明の思想は、前記説明された実施例に局限されて定められてはならず、後述する特許請求の範囲だけでなく、本特許請求の範囲と均等または等価的に変形されたものすべては、本発明の思想の範囲に属するといえる。