JP6853560B2

JP6853560B2 - 高精度イメージを分析するディープラーニングネットワークの学習に利用するためのトレーニングイメージをオートラベリングするための方法、及びこれを利用したオートラベリング装置｛ｍｅｔｈｏｄｆｏｒａｕｔｏ−ｌａｂｅｌｉｎｇｔｒａｉｎｉｎｇｉｍａｇｅｓｆｏｒｕｓｅｉｎｄｅｅｐｌｅａｒｎｉｎｇｎｅｔｗｏｒｋｔｏａｎａｌｙｚｅｉｍａｇｅｓｗｉｔｈｈｉｇｈｐｒｅｃｉｓｉｏｎ，ａｎｄａｕｔｏ−ｌａｂｅｌｉｎｇｄｅｖｉｃｅｕｓｉｎｇｔｈｅｓａｍｅ｝

Info

Publication number: JP6853560B2
Application number: JP2020004730A
Authority: JP
Inventors: − ヒョンキム、ケイ; キム、ヨンジュン; キム、インスー; − キョンキム、ハク; ナム、ウヒョン; ブー、ソッフン; ソン、ミュンチュル; ヨー、ドンフン; リュー、ウジュ; チャン、テウン; ジョン、キュンチョン; チェ、ホンモ; チョウ、ホジン
Original assignee: Stradvision Inc
Current assignee: Stradvision Inc
Priority date: 2019-01-31
Filing date: 2020-01-15
Publication date: 2021-03-31
Anticipated expiration: 2040-01-15
Also published as: KR102326256B1; CN111507335B; US10540572B1; EP3690742A1; JP2020126614A; CN111507335A; KR20200095335A

Description

本発明は、ニューラルネットワークの学習に利用するためのトレーニングイメージをオートラベリングする方法及び装置に関する。

近年、機械学習（ｍａｃｈｉｎｅｌｅａｒｎｉｎｇ）を利用して物体を識別する方法等に関する研究が行われている。このような機械学習の一環として、入力レイヤと出力レイヤとの間に複数個のヒドゥンレイヤ（ｈｉｄｄｅｎｌａｙｅｒ）を有するニューラルネットワークを利用したディープラーニングは高い識別性能を有する。

そして、前記ディープラーニングを利用する前記ニューラルネットワークは、一般的にロスを利用したバックプロパゲーションを通じて学習する。

このようなディープラーニングネットワークの学習を進めるためには、ラベラー（ｌａｂｅｌｅｒ）によって個別データポイントにタグ、すなわち、ラベルを追加したトレーニングデータが必要である。このようなトレーニングデータを準備すること（すなわち、データを正確に分類すること）は、特に大量のトレーニングデータを利用する場合とデータの前処理の品質が持続的に高くない場合、労働集約的であり、費用が多くかかって煩雑であり得る。従来の相互的なラベリングは、費用が高く好ましい結果を導き出すことができない。

したがって、最近ではディープラーニング基盤のオートラベリング装置を利用してトレーニングイメージにタグ、すなわちラベルを追加するオートラベリングを遂行し、検収者がオートラベリングされたトレーニングイメージを検収して前記タグや前記ラベルを校正する。

このような従来のオートラベリングでは、サイズの小さい物体を正確に検出するためにイメージを拡大するが、前記イメージのサイズを拡大する場合、演算量が増加するという問題点がある。

これとは反対に、前記演算量を減少させるために前記イメージをそのまま使用する場合には、サイズの小さい前記物体を正確に検出することができなくなるため、正確性が減少するようになる。

したがって、本発明では正確性を維持し、かつ前記演算量を減らすことができるオートラベリングの方法を提案することにする。

本発明は、前述した問題点を全て解決することをその目的とする。

本発明は、オートラベリングしようとするイメージ内に位置するサイズの小さい物体を検出してラベリングし得るようにすることを他の目的とする。

本発明は、演算量を増加させずにオートラベリングしようとする前記イメージ内に位置するサイズの小さい前記物体を検出して、ラベリングし得るようにすることをまた他の目的とする。

本発明は、演算量を増加させずにオートラベリングの正確性を向上させることをまた他の目的とする。

前記のような本発明の目的を達成し、後述する本発明の特徴的な効果を実現するための、本発明の特徴的な構成は以下の通りである。

本発明の一態様によると、ニューラルネットワークを学習するのに利用される一つ以上のトレーニングイメージをオートラベリング（ａｕｔｏ−ｌａｂｅｌｉｎｇ）する方法において、（ａ）オートラベリング装置が、前記トレーニングイメージのうち特定のトレーニングイメージが取得されると、メタＲＯＩ（ＲｅｇｉｏｎＯｆＩｎｔｅｒｅｓｔ）検出ネットワークをもって、前記特定のトレーニングイメージに一つ以上のコンボリューション演算を適用して少なくとも一つの特徴マップを出力させ、前記特徴マップを参照して、前記特定のトレーニングイメージ上の物体がそれぞれの位置によりグループ化された、前記物体の領域に対応するｎ個の現在メタＲＯＩを取得させる段階；及び（ｂ）前記オートラベリング装置が、前記特定のトレーニングイメージ上で、前記ｎ個の現在メタＲＯＩに対応する領域をクロップ（ｃｒｏｐ）してｎ個の加工イメージを生成し、物体検出ネットワークをもって、前記ｎ個の加工イメージそれぞれに対するそれぞれのバウンディングボックスを有するｎ個のラベリングされた加工イメージそれぞれを出力させ、前記ｎ個のラベリングされた加工イメージを併合して、ラベリングされた特定のトレーニングイメージを生成する段階；を含むことを特徴とする。

一実施例において、前記（ａ）段階で、前記オートラベリング装置は、前記メタＲＯＩ検出ネットワークをもって、前記特徴マップのそれぞれのグリッドセル内それぞれの前記現在メタＲＯＩの各位置、各サイズ、及び各現在メタＲＯＩ点数を計算した後、前記現在メタＲＯＩ点数のうち第１の予め設定された閾値以上である特定の現在メタＲＯＩ点数に対応する特定の現在メタＲＯＩを前記ｎ個の現在メタＲＯＩとして判断させることを特徴とする。

一実施例において、前記トレーニングイメージは、検証のための検証イメージを含み、前記第１の予め設定された閾値は、前記検証イメージに対応して取得された検証メタＲＯＩのうち正答である確率が最も高い特定の検証メタＲＯＩの特定の検証メタＲＯＩ点数であることを特徴とする。

一実施例において、前記特徴マップは、前記現在メタＲＯＩの前記位置を計算するための二つ以上の第１特徴マップチャンネル、前記現在メタＲＯＩの前記サイズを計算するための二つ以上の第２特徴マップチャンネル、及び前記現在メタＲＯＩ点数を計算するための少なくとも一つの第３特徴マップチャンネルを含むことを特徴とする。

一実施例において、前記現在メタＲＯＩ点数それぞれは、それぞれの前記現在メタＲＯＩが正答である確率それぞれにシグモイド（ｓｉｇｍｏｉｄ）演算を適用したそれぞれの結果であることを特徴とする。

一実施例において、前記（ａ）段階で、前記オートラベリング装置は、（ｉ）前記特定のトレーニングイメージをダウンサイズして少なくとも一つのダウンサイズされたイメージを生成した後、前記メタＲＯＩ検出ネットワークをもって、前記ダウンサイズされたイメージに前記コンボリューション演算を適用して前記特徴マップを出力させるプロセス、及び（ｉｉ）前記メタＲＯＩ検出ネットワークをもって、前記特定のトレーニングイメージをダウンサイズして前記ダウンサイズされたイメージを生成させた後、前記メタＲＯＩ検出ネットワークをもって、前記ダウンサイズされたイメージに前記コンボリューション演算を適用して前記特徴マップを出力させるプロセスのうち一つのプロセスを遂行することを特徴とする。

一実施例において、前記メタＲＯＩ検出ネットワークは、一つ以上のコンボリューションレイヤを含むことを特徴とする。

一実施例において、前記（ｂ）段階で、前記オートラベリング装置は、前記ｎ個のラベリングされた加工イメージを併合するのにおいて、前記バウンディングボックスのうち、二つ以上の前記ラベリングされた加工イメージが重なった領域の端から内側への特定の距離内で部分的にのみ現れる一つ以上の特定のバウンディングボックスを除去することを特徴とする。

一実施例において、前記（ｂ）段階で、前記オートラベリング装置は、前記ｎ個のラベリングされた加工イメージを併合するのにおいて、二つ以上の前記ラベリングされた加工イメージが重なった領域内に位置する前記バウンディングボックスにＮＭＳ（ＮｏｎＭａｘｉｍｕｍＳｕｐｐｒｅｓｓｉｏｎ）を適用して、前記重なった領域内に位置する一つ以上の特定物体に対応する一つ以上の特定のバウンディングボックスを取得することを特徴とする。

一実施例において、前記（ｂ）段階で、前記オートラベリング装置は、前記ｎ個の加工イメージをリサイズして同一サイズになるようにした後、前記物体検出ネットワークをもって前記バウンディングボックスを生成させることを特徴とする。

一実施例において、前記オートラベリング装置は、前記バウンディングボックスを含む、前記同一サイズの前記ｎ個の加工イメージを前記特定のトレーニングイメージに対応するサイズになるようにリサイズした後、これを併合することを特徴とする。

一実施例において、前記メタＲＯＩ検出ネットワークは、学習装置によって、（ｉ）事前トレーニングイメージのうち少なくとも一つの特定の事前トレーニングイメージが取得されると、前記特定の事前トレーニングイメージに前記コンボリューション演算を適用して少なくとも一つの事前学習用特徴マップを出力し、（ｉｉ）前記事前学習用特徴マップの各グリッドセル内の事前学習用メタＲＯＩを計算し、（ｉｉｉ）前記事前学習用メタＲＯＩを含む事前学習用メタＲＯＩ群に対応して、少なくとも一つの所定の規則によって調整された、一つ以上のサンプルメタＲＯＩ群を生成し、（ｉｖ）それぞれの前記サンプルメタＲＯＩ群の各サンプルメタ群点数を計算し、前記事前学習用メタＲＯＩ群の現在のメタ群点数を計算した後、高い前記サンプルメタ群点数を有する特定のサンプルメタＲＯＩ群の方向に前記事前学習用メタＲＯＩ群の前記現在のメタ群点数が調整されるようにする少なくとも一つの事前学習用グラディエントを計算し、（ｖ）前記事前学習用グラディエントを利用した強化学習によって前記メタＲＯＩ検出ネットワークの一つ以上のパラメータのうち少なくとも一部を学習するプロセスを遂行した状態であることを特徴とする。

一実施例において、前記現在のメタ群点数は、正確性Ｒ＋Ｃ×効率性Ｒによって取得され得、前記正確性Ｒは、前記特定の事前トレーニングイメージ上の物体の総個数に対する、すべての前記事前学習用メタＲＯＩにおいて検出された物体個数の割合であり、前記効率性Ｒは、前記特定の事前トレーニングイメージの面積に対する前記事前学習用メタＲＯＩの面積和の割合の１との差異値であり、前記Ｃは、前記事前トレーニングイメージの検証のために使用される事前学習用検証イメージに対応して取得された検証メタ群点数と１とのうち最大値であることを特徴とする。

一実施例において、前記サンプルメタＲＯＩ群のうち任意の一つのサンプルメタＲＯＩ群のサンプルメタ群点数は、正確性Ｒ’＋Ｃ×効率性Ｒ’によって取得され得、前記正確性Ｒ’は、前記特定の事前トレーニングイメージ上の物体の総個数に対する、前記サンプルメタＲＯＩ群のうち前記任意の一つのサンプルメタＲＯＩ群における全てのサンプルメタＲＯＩ内で検出された物体個数の割合であり、前記効率性Ｒ’は、前記特定の事前トレーニングイメージの面積に対する前記サンプルメタＲＯＩの面積和の割合の１との差異値であり、前記Ｃは、前記事前トレーニングイメージの検証のために使用される事前学習用検証イメージに対応して取得された検証メタ群点数と１とのうち最大値であることを特徴とする。

一実施例において、前記正確性Ｒ’は、前記特定の事前トレーニングイメージ上の物体の総個数に対する、前記任意の一つのサンプルメタＲＯＩ群における前記サンプルメタＲＯＩのうち、サンプルメタＲＯＩ点数が第２の予め設定された閾値以上である特定のサンプルメタＲＯＩで検出された物体個数の割合であり、前記効率性Ｒ’は、前記特定の事前トレーニングイメージの面積に対する前記特定のサンプルメタＲＯＩの面積和の割合の１との差異値であることを特徴とする。

本発明の他の態様によると、ニューラルネットワークを学習するのに利用される一つ以上のトレーニングイメージをオートラベリング（ａｕｔｏ−ｌａｂｅｌｉｎｇ）するオートラベリング装置において、各インストラクションを格納する少なくとも一つのメモリと、（Ｉ）前記トレーニングイメージのうち特定のトレーニングイメージが取得されると、メタＲＯＩ（ＲｅｇｉｏｎＯｆＩｎｔｅｒｅｓｔ）検出ネットワークをもって、前記特定のトレーニングイメージに一つ以上のコンボリューション演算を適用して少なくとも一つの特徴マップを出力させ、前記特徴マップを参照して、前記特定のトレーニングイメージ上の物体がそれぞれの位置によりグループ化された、前記物体の領域に対応するｎ個の現在メタＲＯＩを取得させるプロセス、及び（ＩＩ）前記特定のトレーニングイメージ上で、前記ｎ個の現在メタＲＯＩに対応する領域をクロップ（ｃｒｏｐ）してｎ個の加工イメージを生成し、物体検出ネットワークをもって、前記ｎ個の加工イメージそれぞれに対するそれぞれのバウンディングボックスを有するｎ個のラベリングされた加工イメージそれぞれを出力させ、前記ｎ個のラベリングされた加工イメージを併合して、ラベリングされた特定のトレーニングイメージを生成するプロセスを遂行するための前記各インストラクションを実行するように構成された少なくとも一つのプロセッサと、を含むことを特徴とする。

一実施例において、前記（Ｉ）プロセスで、前記プロセッサは、前記メタＲＯＩ検出ネットワークをもって、前記特徴マップそれぞれのグリッドセル内それぞれの前記現在メタＲＯＩの各位置、各サイズ、及び各現在メタＲＯＩ点数を計算した後、前記現在メタＲＯＩ点数のうち第１の予め設定された閾値以上である特定の現在メタＲＯＩ点数に対応する特定の現在メタＲＯＩを前記ｎ個の現在メタＲＯＩとして判断させることを特徴とする。

一実施例において、前記（Ｉ）プロセスで、前記プロセッサは、（ｉ）前記特定のトレーニングイメージをダウンサイズして少なくとも一つのダウンサイズされたイメージを生成した後、前記メタＲＯＩ検出ネットワークをもって、前記ダウンサイズされたイメージに前記コンボリューション演算を適用して前記特徴マップを出力させるプロセス、及び（ｉｉ）前記メタＲＯＩ検出ネットワークをもって、前記特定のトレーニングイメージをダウンサイズして前記ダウンサイズされたイメージを生成させた後、前記メタＲＯＩ検出ネットワークをもって、前記ダウンサイズされたイメージに前記コンボリューション演算を適用して前記特徴マップを出力させるプロセスのうち一つのプロセスを遂行することを特徴とする。

一実施例において、前記（ＩＩ）プロセスで、前記プロセッサは、前記ｎ個のラベリングされた加工イメージを併合するのにおいて、前記バウンディングボックスのうち、二つ以上の前記ラベリングされた加工イメージが重なった領域の端から内側への特定の距離内で部分的にのみ現れる一つ以上の特定のバウンディングボックスを除去することを特徴とする。

一実施例において、前記（ＩＩ）プロセスで、前記プロセッサは、前記ｎ個のラベリングされた加工イメージを併合するのにおいて、二つ以上の前記ラベリングされた加工イメージが重なった領域内に位置する前記バウンディングボックスにＮＭＳ（ＮｏｎＭａｘｉｍｕｍＳｕｐｐｒｅｓｓｉｏｎ）を適用して、前記重なった領域内に位置する一つ以上の特定物体に対応する一つ以上の特定のバウンディングボックスを取得することを特徴とする。

一実施例において、前記（ＩＩ）プロセスで、前記プロセッサは、前記ｎ個の加工イメージをリサイズして同一サイズになるようにした後、前記物体検出ネットワークをもって前記バウンディングボックスを生成させることを特徴とする。

一実施例において、前記プロセッサは、前記バウンディングボックスを含む、前記同一サイズの前記ｎ個の加工イメージを前記特定のトレーニングイメージに対応するサイズになるようにリサイズした後、これを併合することを特徴とする。

一実施例において、前記現在のメタ群点数は正確性Ｒ＋Ｃ×効率性Ｒによって取得され得、前記正確性Ｒは、前記特定の事前トレーニングイメージ上の物体の総個数に対する、すべての前記事前学習用メタＲＯＩにおいて検出された物体個数の割合であり、前記効率性Ｒは、前記特定の事前トレーニングイメージの面積に対する前記事前学習用メタＲＯＩの面積和の割合の１との差異値であり、前記Ｃは、前記事前トレーニングイメージの検証のために使用される事前学習用検証イメージに対応して取得された検証メタ群点数と１とのうち最大値であることを特徴とする。

その他にも、本発明の方法を実行するためのコンピュータプログラムを格納するためのコンピュータ読取り可能な記録媒体がさらに提供される。

本発明は、イメージ上において物体を含む領域のみをクロップ（ｃｒｏｐ）してオートラベリングを遂行することにより、オートラベリングのための演算量を減少させることが可能となる。

また、本発明は、イメージ上の、サイズの小さい物体領域をクロップしリサイズしてオートラベルを遂行することにより、サイズの小さい物体を正確に検出してラベリングすることができるため、オートラベリングの正確性を向上させることが可能となる。

また、本発明は、イメージ内に物体が位置する領域のみをクロップしリサイズしてオートラベルを遂行することにより、オートラベリングの演算量を減少させるとともに正確性を向上させることができるようになる。

本発明の実施例の説明に利用されるために添付された以下の各図面は、本発明の実施例のうち単に一部であるに過ぎず、本発明の属する技術分野において通常の知識を有する者（以下「通常の技術者」）にとっては、発明的作業が行われずにこれらの図面に基づいて他の各図面が得られ得る。

本発明の一実施例にしたがって、ニューラルネットワークの学習に利用される一つ以上のトレーニングイメージをオートラベリングするオートラベリング装置を簡略に示したものである。本発明の一実施例にしたがって、前記ニューラルネットワークの学習に利用される前記トレーニングイメージをオートラベリングする方法を簡略に示したものである。本発明の一実施例にしたがって、前記ニューラルネットワークの学習に利用される前記トレーニングイメージをラベリングする方法において、メタＲＯＩ検出ネットワークから現在のメタＲＯＩを取得する過程を簡略に示したものである。本発明の一実施例にしたがって、前記ニューラルネットワークの学習に利用される前記トレーニングイメージをラベリングする方法において、前記メタＲＯＩ検出ネットワークを学習する過程を簡略に示したものである。本発明の一実施例にしたがって、前記ニューラルネットワークの学習に利用される前記トレーニングイメージをラベリングする方法において、オートラベリングのための物体検出を遂行する過程を簡略に示したものである。

後述する本発明に関する詳細な説明は、本発明の各目的、各技術的解法、及び各長所を明らかにするために本発明が実施され得る特定の実施例を例示として示す添付図面を参照する。これらの実施例は、当業者が本発明を実施することができるように十分詳細に説明される。

また、本発明の詳細な説明及び各請求項にわたって、「含む」という単語及びそれらの変形は、他の技術的各特徴、各付加物、構成要素又は段階を除外することを意図したものではない。通常の技術者にとって本発明の他の各目的、長所及び各特性が、一部は本説明書から、また一部は本発明の実施から明らかになるであろう。以下の例示及び図面は実例として提供され、本発明を限定することを意図したものではない。

さらに、本発明は、本明細書に示された実施例のすべての可能な組合せを網羅する。本発明の多様な実施例は互いに異なるが、相互に排他的である必要はないことが理解されるべきである。例えば、ここに記載されている特定の形状、構造及び特性は、一実施例に関連して本発明の精神及び範囲を逸脱せず、かつ他の実施例で具現され得る。また、それぞれの開示された実施例内の個別の構成要素の位置又は配置は、本発明の精神及び範囲を逸脱せず、かつ変更され得ることが理解されるべきである。したがって、後述の詳細な説明は、限定的な意味として受け取ろうとするものではなく、本発明の範囲は適切に説明されるのであれば、その請求項が主張することと均等な全ての範囲とともに添付された請求項によってのみ限定される。図面において類似の参照符号は、様々な側面にわたって同一であるか、又は類似の機能を指す。

本発明で言及している各種イメージは、舗装または非舗装道路関連のイメージを含み得、この場合、道路環境で登場し得る物体（例えば、自動車、人、動物、植物、物、建物、飛行機やドローンのような飛行体、その他の障害物）を想定し得るが、必ずしもこれに限定されるものではなく、本発明で言及している各種イメージは、道路と関係のないイメージ（例えば、非舗装道路、路地、空き地、海、湖、川、山、森、砂漠、空、室内と関連したイメージ）でもあり得、この場合、非舗装道路、路地、空き地、海、湖、川、山、森、砂漠、空、室内環境で登場し得る物体（例えば、自動車、人、動物、植物、物、建物、飛行機やドローンのような飛行体、その他の障害物）を想定し得るが、必ずしもこれに限定されるものではない。

以下、本発明の属する技術分野において通常の知識を有する者が本発明を容易に実施し得るようにするために、本発明の好ましい実施例について、添付された図面を参照して詳細に説明することにする。

図１は、本発明の一実施例にしたがって、ニューラルネットワークの学習に利用される一つ以上のトレーニングイメージをオートラベリング（ａｕｔｏ−ｌａｂｅｌｉｎｇ）するオートラベリング装置を簡略に示したものであり、図１を参照すると、前記オートラベリング装置１００は、前記トレーニングイメージをオートラベリングするための各インストラクションを格納するメモリ１１０と、前記メモリ１１０に格納された前記各インストラクションに対応して前記トレーニングイメージをオートラベリングするプロセスを遂行するプロセッサ１２０とを含むことができる。

具体的に、前記オートラベリング装置１００は、典型的に少なくとも一つのコンピューティング装置（例えば、コンピュータプロセッサ、メモリ、ストレージ、入力装置及び出力装置、その他既存のコンピューティング装置の構成要素を含み得る装置；ルータ、スイッチなどのような電子通信装置；ネットワーク接続ストレージ（ＮＡＳ）及びストレージ領域ネットワーク（ＳＡＮ）のような電子情報ストレージシステム）と少なくとも一つのコンピュータソフトウェア（すなわち、前記コンピューティング装置をもって特定の方式で機能させる各インストラクション）との組合せを利用して所望のシステム性能を達成するものであり得る。

また、前記コンピューティング装置のプロセッサは、ＭＰＵ（ＭｉｃｒｏＰｒｏｃｅｓｓｉｎｇＵｎｉｔ）またはＣＰＵ（ＣｅｎｔｒａｌＰｒｏｃｅｓｓｉｎｇＵｎｉｔ）、キャッシュメモリ（ＣａｃｈｅＭｅｍｏｒｙ）、データバス（ＤａｔａＢｕｓ）などのハードウェアの構成を含み得る。また、コンピューティング装置は、運営体制、特定の目的を遂行するアプリケーションのソフトウェアの構成をさらに含むこともできる。

しかし、このような前記コンピューティング装置に関する説明が本発明を実施するためのプロセッサ、メモリ、媒体またはその他のコンピューティング構成要素が統合された形態である統合プロセッサの場合を排除するわけではない。

本発明の一実施例による前記オートラベリング装置１００を利用してイメージを分析する前記ニューラルネットワークの学習に利用される前記トレーニングイメージをラベリングする方法について、図２を参照して説明すると以下のとおりである。

まず、前記トレーニングイメージのうち少なくとも一つの特定のトレーニングイメージＩＭ１０が取得されると、前記オートラベリング装置１００が、メタＲＯＩ（ＲｅｇｉｏｎＯｆｉｎｔｅｒｅｓｔ）検出ネットワーク２０をもって、前記特定のトレーニングイメージＩＭ１０に一つ以上のコンボリューション演算を適用して少なくとも一つの特徴マップを出力するようにし、前記特徴マップを参照して、前記特定のトレーニングイメージＩＭ１０上の物体がそれぞれの位置によりグループ化された、前記物体の領域に対応するｎ個の現在メタＲＯＩを取得させる。

この際、前記メタＲＯＩ検出ネットワーク２０は、一つ以上のコンボリューションレイヤを含むことができ、前記特定のトレーニングイメージＩＭ１０に前記コンボリューション演算を適用してＭ×Ｍ×Ｌボリュームの特徴マップを出力することができる。

一方、前記オートラベリング装置１００は、前記メタＲＯＩ検出ネットワーク２０をもって、前記特定のトレーニングイメージＩＭ１０に前記コンボリューション演算を適用させることとは異なり、前記演算量を減少させるために、前記特定のトレーニングイメージＩＭ１０をダウンサイズして少なくとも一つのダウンサイズされたイメージを生成し、前記ダウンサイズされたイメージに前記コンボリューション演算を適用することができる。

一例として、前記オートラベリング装置１００は、前記特定のトレーニングイメージＩＭ１０をダウンサイズして前記ダウンサイズされたイメージを生成した後、前記メタＲＯＩ検出ネットワーク２０をもって、前記ダウンサイズされたイメージに前記コンボリューション演算を適用して前記特徴マップを出力させることができる。その他の例として、前記オートラベリング装置１００は、前記メタＲＯＩ検出ネットワーク２０をもって、前記特定のトレーニングイメージＩＭ１０をダウンサイズして前記ダウンサイズされたイメージを生成させ、前記ダウンサイズされたイメージに前記コンボリューション演算を適用して前記特徴マップを出力させることができる。

また、前記トレーニングイメージには固有のトゥルーラベルを有する検証イメージが含まれ得る。そして、図面において、前記特定のトレーニングイメージＩＭ１０内の点線からなるボックスそれぞれは、前記特定のトレーニングイメージＩＭ１０内に前記物体それぞれが位置する各領域を例示的に示したものである。

そして、図３を参照して、前記メタＲＯＩ検出ネットワーク２０が前記ｎ個の現在メタＲＯＩを取得する過程を、さらに詳しく説明すると以下のとおりである。

前記特定のトレーニングイメージＩＭ１０が取得されると、前記メタＲＯＩ検出ネットワーク２０は、前記特定のトレーニングイメージＩＭ１０をダウンサイズして前記ダウンサイズされたイメージを生成し、前記ダウンサイズされたイメージを前記コンボリューションレイヤ２１に入力することができる。この際、前記にて説明したように、前記特定のトレーニングイメージＩＭ１０がダウンサイズされずに前記コンボリューションレイヤ２１に直接入力され得るが、演算量を減少させるために前記ダウンサイズされたイメージが利用され得、前記オートラベリング装置１００は、前記ダウンサイズされたイメージを前記メタＲＯＩ検出ネットワーク２０に入力することもできる。

そうすると、前記コンボリューションレイヤ２１は、前記ダウンサイズされたイメージに前記コンボリューション演算を適用することにより、前記Ｍ×Ｍ×Ｌボリュームの特徴マップを出力するようになる。

以後、前記メタＲＯＩ検出ネットワーク２０は、Ｍ×Ｍ×Ｌボリュームの前記特徴マップのそれぞれのグリッドセル内それぞれの前記現在メタＲＯＩの各位置、各サイズ、及び各現在メタＲＯＩの点数を計算する。図３では、前記特徴マップが３×３×５ボリュームを有するものと示されているが、これは説明の便宜のためであって発明がこれに限定されるわけではなく、以下では３×３×５ボリュームの前記特徴マップを利用して前記現在メタＲＯＩを生成する方法について説明する。

この場合、前記特徴マップのそれぞれの前記グリッドセルに対する出力値、すなわち特徴値は、

と表すことができ、それぞれの前記グリッドセルに対するそれぞれの前記現在メタＲＯＩは、

のように表すことができる。

そして、それぞれの前記グリッドセルに対するそれぞれの前記現在メタＲＯＩ

は、以下の数学式のように表すことができる。

この場合、それぞれの

は、それぞれの前記現在メタＲＯＩ点数であり、それぞれの前記現在メタＲＯＩが正答である確率それぞれにシグモイド（ｓｉｇｍｏｉｄ）演算を適用したそれぞれの結果であり得る。

そして、

と

はそれぞれの前記現在メタＲＯＩの各位置を示し、

と

はそれぞれの前記現在メタＲＯＩの各サイズを表すことができる。したがって、前記特徴マップは、前記現在メタＲＯＩの各位置を計算するための二つ以上の第１特徴マップチャンネル、前記現在メタＲＯＩの各サイズを計算するための二つ以上の第２特徴マップチャンネル、及び前記現在メタＲＯＩ点数を計算するための少なくとも一つの第３特徴マップチャンネルを含むことができる。

また、３×３×５ボリュームの前記特徴マップには、前記現在メタＲＯＩが９つあり得、Ｍ×Ｍ×Ｌボリュームの前記特徴マップには、前記現在メタＲＯＩがＭ×Ｍ個あり得る。

以後、前記メタＲＯＩ検出ネットワーク２０は、前記特徴マップのそれぞれの前記グリッドセルに対する前記現在メタＲＯＩ点数のうち第１の予め設定された閾値以上である特定の現在メタＲＯＩ点数に対応する特定の現在メタＲＯＩを前記ｎ個の現在メタＲＯＩとして判断することができる。

すなわち、前記メタＲＯＩ検出ネットワーク２０は、前記特徴マップのそれぞれの前記グリッドセル内Ｍ×Ｍ個の前記現在メタＲＯＩのうち、現在メタＲＯＩ点数が前記第１の予め設定された閾値以上である前記ｎ個の現在メタＲＯＩを選定することができる。

この際、前記トレーニングイメージは、検証のための前記検証イメージを含むことができ、前記第１の予め設定された閾値は、前記検証イメージに対応して取得された検証メタＲＯＩのうち正答である確率が最も高い特定の検証メタＲＯＩの特定の検証メタＲＯＩ点数であり得る。

一方、前記メタＲＯＩ検出ネットワーク２０は、事前に学習された状態であり得、前記メタＲＯＩ検出ネットワーク２０を学習する方法を説明すると以下のとおりである。

参考までに、以下の説明で混同を避けるために、現在の学習プロセス以前に既に完了した事前学習プロセスに関連する用語に「事前トレーニング」または「事前学習用」という文句が追加されている。

事前トレーニングイメージのうち少なくとも一つの特定の事前トレーニングイメージが取得されると、学習装置（図示せず）が、前記メタＲＯＩ検出ネットワーク２０をもって、前記特定の事前トレーニングイメージに前記コンボリューション演算を適用して少なくとも一つの事前学習用特徴マップを出力させる。この場合、前記で説明したように、前記コンボリューション演算はダウンサイズしない前記特定の事前トレーニングイメージに適用され得るが、演算量を減少させるために前記ダウンサイズされたイメージが利用され得、前記特定の事前トレーニングイメージをダウンサイズした前記ダウンサイズされたイメージが前記学習装置によって取得されてもよい。また、前記メタＲＯＩ検出ネットワーク２０は、一つ以上のコンボリューションレイヤを含んでいてもよい。

また、学習装置は、前記メタＲＯＩ検出ネットワーク２０の学習のための各インストラクションを格納するメモリ（図示せず）と、メモリに格納された各インストラクションとに対応して、前記メタＲＯＩ検出ネットワーク２０に関する学習を遂行するプロセッサ（図示せず）を含むことができる。具体的に、前記学習装置は、典型的に少なくとも一つのコンピューティング装置（例えば、コンピュータプロセッサ、メモリ、ストレージ、入力装置及び出力装置、その他既存のコンピューティング装置の構成要素を含み得る装置；ルータ、スイッチなどのような電子通信装置；ネットワーク接続ストレージ（ＮＡＳ）及びストレージ領域ネットワーク（ＳＡＮ）のような電子情報ストレージシステム）と少なくとも一つのコンピュータソフトウェア（すなわち、前記コンピューティング装置をもって特定の方式で機能させる各インストラクション）との組合せを利用して所望のシステム性能を達成するものでもあり得る。また、前記コンピューティング装置のプロセッサは、ＭＰＵ（ＭｉｃｒｏＰｒｏｃｅｓｓｉｎｇＵｎｉｔ）またはＣＰＵ（ＣｅｎｔｒａｌＰｒｏｃｅｓｓｉｎｇＵｎｉｔ）、キャッシュメモリ（ＣａｃｈｅＭｅｍｏｒｙ）、データバス（ＤａｔａＢｕｓ）などのハードウェアの構成を含み得る。また、コンピューティング装置は、運営体制、特定の目的を遂行するアプリケーションのソフトウェアの構成をさらに含むこともできる。しかし、このような前記コンピューティング装置に関する説明が本発明を実施するためのプロセッサ、メモリ、媒体またはその他のコンピューティング構成要素が統合された形態である統合プロセッサの場合を排除するわけではない。

そして、前記学習装置は、前記事前学習用特徴マップのそれぞれのグリッドセル内に事前学習用メタＲＯＩ

を生成し、前記事前学習用メタＲＯＩを含む事前学習用メタＲＯＩ群Ｒに対応して、所定の規則によって調整された、多数のサンプルメタＲＯＩ群

を生成する。

一例として、前記サンプルメタＲＯＩ群Ｒ’は、前記事前学習用メタＲＯＩ群Ｒの周辺に生成され得る。

この際、前記それぞれのグリッドセルに対する調整された出力値は、

と表すことができ、前記調整されたサンプルメタＲＯＩ点数は

と表すことができ、この際、標準偏差

は１であり得る。

前記では、３×３×５ボリュームの前記特徴マップを例示的に説明したが、本発明はこれに限定されず、Ｍ×Ｍ×Ｌボリュームの前記特徴マップでも同一に適用され得る。

以後、前記学習装置は、それぞれの前記サンプルメタＲＯＩ群Ｒ’の各サンプルメタ群点数Ｓ（Ｒ’）を計算し、前記事前学習用メタＲＯＩ群Ｒの現在のメタ群点数Ｓ（Ｒ）を計算することができる。

この際、前記現在のメタ群点数Ｓ（Ｒ）は、正確性Ｒ＋Ｃ×効率性Ｒによって取得され得、前記正確性Ｒは、前記特定の事前トレーニングイメージ上の物体の総個数に対する、すべての前記事前学習用メタＲＯＩで検出された物体個数の割合であり、前記効率性Ｒは、前記特定の事前トレーニングイメージの面積に対する前記事前学習用メタＲＯＩの面積和の割合の１との差異値であり、前記Ｃは、前記事前トレーニングイメージの検証のために使用される事前学習用検証イメージに対応して取得された検証メタ群点数と１とのうち最大値であり得る。

すなわち、Ｓ（Ｒ）＝正確性Ｒ＋Ｃ×効率性Ｒ、

、

のように表すことができる。

また、前記サンプルメタＲＯＩ群のうち任意の一つのサンプルメタＲＯＩ群におけるサンプルメタ群点数は、正確性Ｒ’＋Ｃ×効率性Ｒ’によって取得され得、前記正確性Ｒ’は、前記特定の事前トレーニングイメージ上の物体の総個数に対する、前記サンプルメタＲＯＩ群のうち前記任意の一つのサンプルメタＲＯＩ群におけるサンプルメタＲＯＩそれぞれ内で検出された物体個数の総和の割合であり、前記効率性Ｒ’は、前記特定の事前トレーニングイメージの面積に対する前記サンプルメタＲＯＩの面積和の割合の１との差異値であり、前記Ｃは、前記事前トレーニングイメージの検証のために使用される前記事前学習用検証イメージに対応して取得された検証メタ群点数と１とのうち最大値であり得る。この際、前記サンプルメタＲＯＩ群のうち同一の群の第１サンプルメタＲＯＩと第２サンプルメタＲＯＩとの両方に位置する特定物体は二つと数えない。

すなわち、Ｓ（Ｒ’）＝正確性Ｒ’＋Ｃ×効率性Ｒ’、

、

のように表すことができる。

一方、前記サンプルメタＲＯＩ群Ｒ’のうち任意の一つのサンプルメタＲＯＩ群におけるサンプルメタ群点数Ｓ（Ｒ’）を計算するにおいて、サンプルメタＲＯＩ点数

が第２の予め設定された閾値以上である特定のサンプルメタＲＯＩが活用され得る。この際、前記第２の予め設定された閾値は１であり得るが、これに限定されず、前記サンプルメタＲＯＩ群Ｒ’の前記サンプルメタ群点数Ｓ（Ｒ’）のうち一部が前記現在のメタ群点数Ｓ（Ｒ）より大きい値に設定され得る。

つまり、前記正確性Ｒ’は、前記特定の事前トレーニングイメージ上の物体の総個数に対する、前記任意の一つのサンプルメタＲＯＩ群における前記サンプルメタＲＯＩのうち、前記サンプルメタＲＯＩ点数が前記第２の予め設定された閾値以上である前記特定のサンプルメタＲＯＩで検出された物体個数の割合であり、前記効率性Ｒ’は、前記特定の事前トレーニングイメージの面積に対する前記特定のサンプルメタＲＯＩの面積和の割合の１との差異値であり得る。

以後、前記学習装置は、前記サンプルメタ群点数Ｓ（Ｒ’）が高くなる前記特定のサンプルメタＲＯＩ群Ｒ’の方向に、前記事前学習用メタＲＯＩ群Ｒの前記現在のメタ群点数Ｓ（Ｒ）を調整するための少なくとも一つの事前学習用グラディエントを計算することができる。

この場合、前記学習装置は、次の数学式を使用して前記事前学習用グラディエント

を計算することができる。

以後、前記学習装置は、前記事前学習用グラディエントを利用した強化学習によって前記メタＲＯＩ検出ネットワーク２０の一つ以上のパラメータのうち少なくとも一部を調整することができる。一例として、前記学習装置は、前記事前学習用グラディエントを利用した前記強化学習により、前記メタＲＯＩ検出ネットワークに含まれている前記コンボリューションレイヤの一つ以上のパラメータのうち少なくとも一部を調整することができる。

すなわち、図４を参照すると、前記事前学習用メタＲＯＩ群Ｒに基づいて調整された前記サンプルメタＲＯＩ群Ｒ’は、前記事前学習用メタＲＯＩ群Ｒの位置に基づくカウシアン分布（Ｇａｕｓｓｉａｎｄｉｓｔｒｉｂｕｔｉｏｎ）を有するようになり、点数が高い前記サンプルメタＲＯＩ群Ｒ’から導き出された前記方向に事前学習用メタＲＯＩ群Ｒを調整するように強化学習させることにより、前記事前学習用メタＲＯＩ群Ｒの点数は、前記学習によって漸次高くなるようになり、それに伴って前記現在メタＲＯＩを取得するための正確性が増加し得る。

再び図２を参照すると、前記オートラベリング装置１００は、前記特定のトレーニングイメージＩＭ２０上で、前記ｎ個の現在メタＲＯＩに対応する領域をクロップ（ｃｒｏｐ）してｎ個の加工イメージＩＭ２１を生成し、物体検出ネットワーク３０をもって、前記ｎ個の加工イメージＩＭ２１それぞれに対するそれぞれのバウンディングボックスを有するｎ個のラベリングされた加工イメージＩＭ３０それぞれを出力することができる。

この際、前記物体検出ネットワーク３０は、前記ｎ個の加工イメージＩＭ２１それぞれに対応する多数のネットワークで構成され得、それぞれの前記多数のネットワークは、前記ｎ個の加工イメージＩＭ２１それぞれに対するバウンディングボックスを生成することにより、前記ｎ個のラベリングされた加工イメージＩＭ３０を生成するか、前記ｎ個の加工イメージＩＭ２１のサイズをリサイズして同一サイズになるようにした後、前記物体検出ネットワーク３０をもって、前記同一サイズの前記ｎ個のラベリングされた加工イメージＩＭ３０を生成させることができる。

一方、図５を参照して、前記物体検出ネットワーク３０が少なくとも一つの特定の加工イメージ上で前記バウンディングボックスを生成する方法を説明すると以下のとおりである。

前記特定の加工イメージが取得されると、前記物体検出ネットワーク３０は、一つ以上のコンボリューションレイヤ３１をもって、前記特定の加工イメージに前記コンボリューション演算を適用して少なくとも一つの物体検出用特徴マップを出力させる。この際、前記コンボリューションレイヤ３１は、前記特定の加工イメージに前記コンボリューション演算を順次に適用して前記物体検出用特徴マップを生成することができる。

そして、前記物体検出ネットワーク３０は、ＲＰＮ（ＲｅｇｉｏｎＰｒｏｐｏｓａｌＮｅｔｗｏｒｋ）３２をもって、前記物体検出用特徴マップ上で前記物体を含むものと予測される候補領域に対応するプロポーザルボックスを出力させる。

以後、前記物体検出ネットワーク３０は、少なくとも一つのプーリングレイヤ３３をもって、前記物体検出用特徴マップ上で、前記プロポーザルボックスに対応する領域に一つ以上のプーリング演算を適用して一つ以上の特徴ベクトルを出力させる。

そして、前記物体検出ネットワーク３０は、少なくとも一つのＦＣ（Ｆｕｌｌｙｃｏｎｎｅｃｔｅｄ）レイヤ３４をもって、前記特徴ベクトルを利用して、それぞれの前記プロポーザルボックスに対応するそれぞれの物体クラス情報３５とそれぞれのリグレッション値３６とを出力することによって、前記特定の加工イメージ上に位置する前記物体に対応する前記バウンディングボックスを生成させる。

一方、前記物体検出ネットワーク３０は、事前に学習された状態であり得る。すなわち、一つ以上のロスを利用したバックプロパゲーションを通じて前記ＦＣレイヤ３４及び前記コンボリューションレイヤ３１の一つ以上のパラメータのうち少なくとも一部が調整された状態であり得る。また、前記ＲＰＮ３２も事前に学習された状態であり得る。

再び図２を参照すると、前記オートラベリング装置１００は、前記ｎ個のラベリングされた加工イメージＩＭ３０を併合して、ラベリングされた特定のトレーニングイメージＩＭ３１を生成することができる。

この場合、前記オートラベリング装置１００は、前記ｎ個のラベリングされた加工イメージＩＭ３０を併合するのにおいて、前記バウンディングボックスのうち、二つ以上の前記ラベリングされた加工イメージＩＭ３０が重なった領域の端から内側への特定の距離内で部分的に現れる一つ以上の特定のバウンディングボックスを除去することができる。一例として、前記オートラベリング装置１００は、前記ラベリングされた加工イメージＩＭ３０のうち３のラベリングされた加工イメージ内で部分的にのみ現れるバウンディングボックスｂを除去し、前記ラベリングされた加工イメージＩＭ３０を併合することができる。

また、前記オートラベリング装置１００は、前記ｎ個のラベリングされた加工イメージＩＭ３０を併合するのにおいて、二つ以上の前記ラベリングされた加工イメージが重なった領域内に位置する前記バウンディングボックスにＮＭＳ（ＮｏｎＭａｘｉｍｕｍＳｕｐｐｒｅｓｓｉｏｎ）を適用して、前記重なった領域内に位置する一つ以上の特定物体に対応する一つ以上の特定のバウンディングボックスを取得することができる。すなわち、前記重なった領域が、互いに重なるバウンディングボックスを含む場合、前記確率の最も高い特定のバウンディングボックスが特定の物体に対応する前記特定のバウンディングボックスに指定され、確率の低いバウンディングボックスを除去することができる。

そして、前記オートラベリング装置１００は、前記バウンディングボックスが生成された前記ｎ個のラベリングされた加工イメージＩＭ３０を併合するのにおいて、前記特定のトレーニングイメージに対応する前記ｎ個のラベリングされた加工イメージを併合することができる。特に、前記同一サイズの前記ｎ個のラベリングされた加工イメージＩＭ３０を併合する場合、前記ｎ個のラベリングされた加工イメージＩＭ３０をそれぞれ前記特定のトレーニングイメージに対応するようにリサイズした後、併合することができる。

前記方法は、ポリシー勾配アルゴリズム（ｐｏｌｉｃｙｇｒａｄｉｅｎｔａｌｇｏｒｉｔｈｍ）を使用する強化学習、オンライン学習、連続学習及びハイパーパラメータ学習を利用して、イメージを高精度に分析するために遂行され得る。

また、以上にて説明された本発明による各実施例は、多様なコンピュータの構成要素を通じて遂行することができるプログラム命令語の形態で具現されて、コンピュータ読取り可能な記録媒体に格納され得る。前記コンピュータ読取り可能な記録媒体は、プログラム命令語、データファイル、データ構造などを単独で又は組み合わせて含むことができる。前記コンピュータ読取り可能な記録媒体に格納されるプログラム命令語は、本発明のために特別に設計され、構成されたものであるか、コンピュータソフトウェア分野の当業者に公知にされて使用可能なものであり得る。コンピュータ読取り可能な記録媒体の例には、ハードディスク、フロッピーディスク及び磁気テープのような磁気媒体、ＣＤ−ＲＯＭ、ＤＶＤのような光記録媒体、フロプティカルディスク（ＦｌｏｐｔｉｃａｌＤｉｓｋ）のような磁気−光メディア（Ｍａｇｎｅｔｏ−ＯｐｔｉｃａｌＭｅｄｉａ）、及びＲＯＭ、ＲＡＭ、フラッシュメモリなどのようなプログラム命令語を格納して遂行するように特別に構成されたハードウェア装置が含まれる。プログラム命令語の例には、コンパイラによって作られるもののような機械語コードだけでなく、インタープリターなどを使用してコンピュータによって実行され得る高級言語コードも含まれる。前記ハードウェア装置は、本発明による処理を実行するために一つ以上のソフトウェアモジュールとして作動するように構成され得、その反対も同様である。

以上にて本発明が具体的な構成要素などのような特定事項と限定された実施例及び図面によって説明されたが、これは本発明のより全般的な理解の一助とするために提供されたものであるに過ぎず、本発明が前記実施例に限られるものではなく、本発明が属する技術分野において通常の知識を有する者であれば、かかる記載から多様な修正及び変形が行われ得る。

従って、本発明の思想は、前記説明された実施例に局限されて定められてはならず、後述する特許請求の範囲だけでなく、本特許請求の範囲と均等または等価的に変形されたものすべては、本発明の思想の範囲に属するといえる。

Claims

ニューラルネットワークを学習するのに利用される一つ以上のトレーニングイメージをオートラベリング（ａｕｔｏ−ｌａｂｅｌｉｎｇ）する方法において、
（ａ）オートラベリング装置が、前記トレーニングイメージのうち特定のトレーニングイメージが取得されると、メタＲＯＩ（ＲｅｇｉｏｎＯｆＩｎｔｅｒｅｓｔ）検出ネットワークをもって、前記特定のトレーニングイメージに一つ以上のコンボリューション演算を適用して少なくとも一つの特徴マップを出力させ、前記特徴マップを参照して、前記特定のトレーニングイメージ上の物体がそれぞれの位置によりグループ化された、前記物体の領域に対応するｎ個の現在メタＲＯＩを取得させる段階；及び
（ｂ）前記オートラベリング装置が、前記特定のトレーニングイメージ上で、前記ｎ個の現在メタＲＯＩに対応する領域をクロップ（ｃｒｏｐ）してｎ個の加工イメージを生成し、物体検出ネットワークをもって、前記ｎ個の加工イメージそれぞれに対するそれぞれのバウンディングボックスを有するｎ個のラベリングされた加工イメージそれぞれを出力させ、前記ｎ個のラベリングされた加工イメージを併合して、ラベリングされた特定のトレーニングイメージを生成する段階；
を含むことを特徴とする方法。
前記（ａ）段階で、
前記オートラベリング装置は、前記メタＲＯＩ検出ネットワークをもって、前記特徴マップのそれぞれのグリッドセル内それぞれの前記現在メタＲＯＩの各位置、各サイズ、及び各現在メタＲＯＩ点数を計算した後、前記現在メタＲＯＩ点数のうち第１の予め設定された閾値以上である特定の現在メタＲＯＩ点数に対応する特定の現在メタＲＯＩを前記ｎ個の現在メタＲＯＩとして判断させることを特徴とする請求項１に記載の方法。
前記トレーニングイメージは、検証のための検証イメージを含み、前記第１の予め設定された閾値は、前記検証イメージに対応して取得された検証メタＲＯＩのうち正答である確率が最も高い特定の検証メタＲＯＩの特定の検証メタＲＯＩ点数であることを特徴とする請求項２に記載の方法。
前記特徴マップは、前記現在メタＲＯＩの前記位置を計算するための二つ以上の第１特徴マップチャンネル、前記現在メタＲＯＩの前記サイズを計算するための二つ以上の第２特徴マップチャンネル、及び前記現在メタＲＯＩ点数を計算するための少なくとも一つの第３特徴マップチャンネルを含むことを特徴とする請求項２に記載の方法。
前記現在メタＲＯＩ点数それぞれは、それぞれの前記現在メタＲＯＩが正答である確率それぞれにシグモイド（ｓｉｇｍｏｉｄ）演算を適用したそれぞれの結果であることを特徴とする請求項２に記載の方法。
前記（ａ）段階で、
前記オートラベリング装置は、（ｉ）前記特定のトレーニングイメージをダウンサイズして少なくとも一つのダウンサイズされたイメージを生成した後、前記メタＲＯＩ検出ネットワークをもって、前記ダウンサイズされたイメージに前記コンボリューション演算を適用して前記特徴マップを出力させるプロセス、及び（ｉｉ）前記メタＲＯＩ検出ネットワークをもって、前記特定のトレーニングイメージをダウンサイズして前記ダウンサイズされたイメージを生成させた後、前記メタＲＯＩ検出ネットワークをもって、前記ダウンサイズされたイメージに前記コンボリューション演算を適用して前記特徴マップを出力させるプロセスのうち一つのプロセスを遂行することを特徴とする請求項１に記載の方法。
前記メタＲＯＩ検出ネットワークは、一つ以上のコンボリューションレイヤを含むことを特徴とする請求項１に記載の方法。
前記（ｂ）段階で、
前記オートラベリング装置は、前記ｎ個のラベリングされた加工イメージを併合するのにおいて、前記バウンディングボックスのうち、二つ以上の前記ラベリングされた加工イメージが重なった領域の端から内側への特定の距離内で部分的にのみ現れる一つ以上の特定のバウンディングボックスを除去することを特徴とする請求項１に記載の方法。
前記（ｂ）段階で、
前記オートラベリング装置は、前記ｎ個のラベリングされた加工イメージを併合するのにおいて、二つ以上の前記ラベリングされた加工イメージが重なった領域内に位置する前記バウンディングボックスにＮＭＳ（ＮｏｎＭａｘｉｍｕｍＳｕｐｐｒｅｓｓｉｏｎ）を適用して、前記重なった領域内に位置する一つ以上の特定物体に対応する一つ以上の特定のバウンディングボックスを取得することを特徴とする請求項１に記載の方法。
前記（ｂ）段階で、
前記オートラベリング装置は、前記ｎ個の加工イメージをリサイズして同一サイズになるようにした後、前記物体検出ネットワークをもって前記バウンディングボックスを生成させることを特徴とする請求項１に記載の方法。
前記オートラベリング装置は、前記バウンディングボックスを含む、前記同一サイズの前記ｎ個の加工イメージを前記特定のトレーニングイメージに対応するサイズになるようにリサイズした後、これを併合することを特徴とする請求項１０に記載の方法。
前記メタＲＯＩ検出ネットワークは、学習装置によって、（ｉ）事前トレーニングイメージのうち少なくとも一つの特定の事前トレーニングイメージが取得されると、前記特定の事前トレーニングイメージに前記コンボリューション演算を適用して少なくとも一つの事前学習用特徴マップを出力し、（ｉｉ）前記事前学習用特徴マップの各グリッドセル内の事前学習用メタＲＯＩを計算し、（ｉｉｉ）前記事前学習用メタＲＯＩを含む事前学習用メタＲＯＩ群に対応して、少なくとも一つの所定の規則によって調整された、一つ以上のサンプルメタＲＯＩ群を生成し、（ｉｖ）それぞれの前記サンプルメタＲＯＩ群の各サンプルメタ群点数を計算し、前記事前学習用メタＲＯＩ群の現在のメタ群点数を計算した後、高い前記サンプルメタ群点数を有する特定のサンプルメタＲＯＩ群の方向に前記事前学習用メタＲＯＩ群の前記現在のメタ群点数が調整されるようにする少なくとも一つの事前学習用グラディエントを計算し、（ｖ）前記事前学習用グラディエントを利用した強化学習によって前記メタＲＯＩ検出ネットワークの一つ以上のパラメータのうち少なくとも一部を学習するプロセスを遂行した状態であることを特徴とする請求項１に記載の方法。
前記現在のメタ群点数は、正確性Ｒ＋Ｃ×効率性Ｒによって取得され得、
前記正確性Ｒは、前記特定の事前トレーニングイメージ上の物体の総個数に対する、すべての前記事前学習用メタＲＯＩにおいて検出された物体個数の割合であり、
前記効率性Ｒは、前記特定の事前トレーニングイメージの面積に対する前記事前学習用メタＲＯＩの面積和の割合の１との差異値であり、
前記Ｃは、前記事前トレーニングイメージの検証のために使用される事前学習用検証イメージに対応して取得された検証メタ群点数と１とのうち最大値であることを特徴とする請求項１２に記載の方法。
前記サンプルメタＲＯＩ群のうち任意の一つのサンプルメタＲＯＩ群のサンプルメタ群点数は、正確性Ｒ’＋Ｃ×効率性Ｒ’によって取得され得、
前記正確性Ｒ’は、前記特定の事前トレーニングイメージ上の物体の総個数に対する、前記サンプルメタＲＯＩ群のうち前記任意の一つのサンプルメタＲＯＩ群における全てのサンプルメタＲＯＩ内で検出された物体個数の割合であり、
前記効率性Ｒ’は、前記特定の事前トレーニングイメージの面積に対する前記サンプルメタＲＯＩの面積和の割合の１との差異値であり、
前記Ｃは、前記事前トレーニングイメージの検証のために使用される事前学習用検証イメージに対応して取得された検証メタ群点数と１とのうち最大値であることを特徴とする請求項１２に記載の方法。
前記正確性Ｒ’は、前記特定の事前トレーニングイメージ上の物体の総個数に対する、前記任意の一つのサンプルメタＲＯＩ群における前記サンプルメタＲＯＩのうち、サンプルメタＲＯＩ点数が第２の予め設定された閾値以上である特定のサンプルメタＲＯＩで検出された物体個数の割合であり、
前記効率性Ｒ’は、前記特定の事前トレーニングイメージの面積に対する前記特定のサンプルメタＲＯＩの面積和の割合の１との差異値であることを特徴とする請求項１４に記載の方法。
ニューラルネットワークを学習するのに利用される一つ以上のトレーニングイメージをオートラベリング（ａｕｔｏ−ｌａｂｅｌｉｎｇ）するオートラベリング装置において、
各インストラクションを格納する少なくとも一つのメモリと、
（Ｉ）前記トレーニングイメージのうち特定のトレーニングイメージが取得されると、メタＲＯＩ（ＲｅｇｉｏｎＯｆＩｎｔｅｒｅｓｔ）検出ネットワークをもって、前記特定のトレーニングイメージに一つ以上のコンボリューション演算を適用して少なくとも一つの特徴マップを出力させ、前記特徴マップを参照して、前記特定のトレーニングイメージ上の物体がそれぞれの位置によりグループ化された、前記物体の領域に対応するｎ個の現在メタＲＯＩを取得させるプロセス、及び（ＩＩ）前記特定のトレーニングイメージ上で、前記ｎ個の現在メタＲＯＩに対応する領域をクロップ（ｃｒｏｐ）してｎ個の加工イメージを生成し、物体検出ネットワークをもって、前記ｎ個の加工イメージそれぞれに対するそれぞれのバウンディングボックスを有するｎ個のラベリングされた加工イメージそれぞれを出力させ、前記ｎ個のラベリングされた加工イメージを併合して、ラベリングされた特定のトレーニングイメージを生成するプロセスを遂行するための前記各インストラクションを実行するように構成された少なくとも一つのプロセッサと、
を含むことを特徴とするオートラベリング装置。
前記（Ｉ）プロセスで、
前記プロセッサは、前記メタＲＯＩ検出ネットワークをもって、前記特徴マップそれぞれのグリッドセル内それぞれの前記現在メタＲＯＩの各位置、各サイズ、及び各現在メタＲＯＩ点数を計算した後、前記現在メタＲＯＩ点数のうち第１の予め設定された閾値以上である特定の現在メタＲＯＩ点数に対応する特定の現在メタＲＯＩを前記ｎ個の現在メタＲＯＩとして判断させることを特徴とする請求項１６に記載のオートラベリング装置。
前記トレーニングイメージは、検証のための検証イメージを含み、前記第１の予め設定された閾値は、前記検証イメージに対応して取得された検証メタＲＯＩのうち正答である確率が最も高い特定の検証メタＲＯＩの特定の検証メタＲＯＩ点数であることを特徴とする請求項１７に記載のオートラベリング装置。
前記特徴マップは、前記現在メタＲＯＩの前記位置を計算するための二つ以上の第１特徴マップチャンネル、前記現在メタＲＯＩの前記サイズを計算するための二つ以上の第２特徴マップチャンネル、及び前記現在メタＲＯＩ点数を計算するための少なくとも一つの第３特徴マップチャンネルを含むことを特徴とする請求項１７に記載のオートラベリング装置。
前記現在メタＲＯＩ点数それぞれは、それぞれの前記現在メタＲＯＩが正答である確率それぞれにシグモイド（ｓｉｇｍｏｉｄ）演算を適用したそれぞれの結果であることを特徴とする請求項１７に記載のオートラベリング装置。
前記（Ｉ）プロセスで、
前記プロセッサは、（ｉ）前記特定のトレーニングイメージをダウンサイズして少なくとも一つのダウンサイズされたイメージを生成した後、前記メタＲＯＩ検出ネットワークをもって、前記ダウンサイズされたイメージに前記コンボリューション演算を適用して前記特徴マップを出力させるプロセス、及び（ｉｉ）前記メタＲＯＩ検出ネットワークをもって、前記特定のトレーニングイメージをダウンサイズして前記ダウンサイズされたイメージを生成させた後、前記メタＲＯＩ検出ネットワークをもって、前記ダウンサイズされたイメージに前記コンボリューション演算を適用して前記特徴マップを出力させるプロセスのうち一つのプロセスを遂行することを特徴とする請求項１６に記載のオートラベリング装置。
前記メタＲＯＩ検出ネットワークは、一つ以上のコンボリューションレイヤを含むことを特徴とする請求項１６に記載のオートラベリング装置。
前記（ＩＩ）プロセスで、
前記プロセッサは、前記ｎ個のラベリングされた加工イメージを併合するのにおいて、前記バウンディングボックスのうち、二つ以上の前記ラベリングされた加工イメージが重なった領域の端から内側への特定の距離内で部分的にのみ現れる一つ以上の特定のバウンディングボックスを除去することを特徴とする請求項１６に記載のオートラベリング装置。
前記（ＩＩ）プロセスで、
前記プロセッサは、前記ｎ個のラベリングされた加工イメージを併合するのにおいて、二つ以上の前記ラベリングされた加工イメージが重なった領域内に位置する前記バウンディングボックスにＮＭＳ（ＮｏｎＭａｘｉｍｕｍＳｕｐｐｒｅｓｓｉｏｎ）を適用して、前記重なった領域内に位置する一つ以上の特定物体に対応する一つ以上の特定のバウンディングボックスを取得することを特徴とする請求項１６に記載のオートラベリング装置。
前記（ＩＩ）プロセスで、
前記プロセッサは、前記ｎ個の加工イメージをリサイズして同一サイズになるようにした後、前記物体検出ネットワークをもって前記バウンディングボックスを生成させることを特徴とする請求項１６に記載のオートラベリング装置。
前記プロセッサは、前記バウンディングボックスを含む、前記同一サイズの前記ｎ個の加工イメージを前記特定のトレーニングイメージに対応するサイズになるようにリサイズした後、これを併合することを特徴とする請求項２５に記載のオートラベリング装置。
前記メタＲＯＩ検出ネットワークは、学習装置によって、（ｉ）事前トレーニングイメージのうち少なくとも一つの特定の事前トレーニングイメージが取得されると、前記特定の事前トレーニングイメージに前記コンボリューション演算を適用して少なくとも一つの事前学習用特徴マップを出力し、（ｉｉ）前記事前学習用特徴マップの各グリッドセル内の事前学習用メタＲＯＩを計算し、（ｉｉｉ）前記事前学習用メタＲＯＩを含む事前学習用メタＲＯＩ群に対応して、少なくとも一つの所定の規則によって調整された、一つ以上のサンプルメタＲＯＩ群を生成し、（ｉｖ）それぞれの前記サンプルメタＲＯＩ群の各サンプルメタ群点数を計算し、前記事前学習用メタＲＯＩ群の現在のメタ群点数を計算した後、高い前記サンプルメタ群点数を有する特定のサンプルメタＲＯＩ群の方向に前記事前学習用メタＲＯＩ群の前記現在のメタ群点数が調整されるようにする少なくとも一つの事前学習用グラディエントを計算し、（ｖ）前記事前学習用グラディエントを利用した強化学習によって前記メタＲＯＩ検出ネットワークの一つ以上のパラメータのうち少なくとも一部を学習するプロセスを遂行した状態であることを特徴とする請求項１６に記載のオートラベリング装置。
前記現在のメタ群点数は正確性Ｒ＋Ｃ×効率性Ｒによって取得され得、
前記正確性Ｒは、前記特定の事前トレーニングイメージ上の物体の総個数に対する、すべての前記事前学習用メタＲＯＩにおいて検出された物体個数の割合であり、
前記効率性Ｒは、前記特定の事前トレーニングイメージの面積に対する前記事前学習用メタＲＯＩの面積和の割合の１との差異値であり、
前記Ｃは、前記事前トレーニングイメージの検証のために使用される事前学習用検証イメージに対応して取得された検証メタ群点数と１とのうち最大値であることを特徴とする請求項２７に記載のオートラベリング装置。
前記サンプルメタＲＯＩ群のうち任意の一つのサンプルメタＲＯＩ群のサンプルメタ群点数は、正確性Ｒ’＋Ｃ×効率性Ｒ’によって取得され得、
前記正確性Ｒ’は、前記特定の事前トレーニングイメージ上の物体の総個数に対する、前記サンプルメタＲＯＩ群のうち前記任意の一つのサンプルメタＲＯＩ群における全てのサンプルメタＲＯＩ内で検出された物体個数の割合であり、
前記効率性Ｒ’は、前記特定の事前トレーニングイメージの面積に対する前記サンプルメタＲＯＩの面積和の割合の１との差異値であり、
前記Ｃは、前記事前トレーニングイメージの検証のために使用される事前学習用検証イメージに対応して取得された検証メタ群点数と１とのうち最大値であることを特徴とする請求項２７に記載のオートラベリング装置。
前記正確性Ｒ’は、前記特定の事前トレーニングイメージ上の物体の総個数に対する、前記任意の一つのサンプルメタＲＯＩ群における前記サンプルメタＲＯＩのうち、サンプルメタＲＯＩ点数が第２の予め設定された閾値以上である特定のサンプルメタＲＯＩで検出された物体個数の割合であり、
前記効率性Ｒ’は、前記特定の事前トレーニングイメージの面積に対する前記特定のサンプルメタＲＯＩの面積和の割合の１との差異値であることを特徴とする請求項２９に記載のオートラベリング装置。