JP6916548B2

JP6916548B2 - 自律走行自動車のレベル４を満たすために必要なｈｄマップとのコラボレーションを支援するエンベディングロス及びソフトマックスロスを利用して少なくとも一つの車線を有するイメージをセグメンテーションする学習方法及び学習装置、並びにそれを利用したテスト方法及びテスト装置

Info

Publication number: JP6916548B2
Application number: JP2020001763A
Authority: JP
Inventors: 桂賢金; 鎔重金; 寅洙金; 鶴京金; 雲鉉南; 碩▲ふん▼ 夫; 明哲成; 東勳呂; 宇宙柳; 泰雄張; 景中鄭; 泓模諸; 浩辰趙
Original assignee: Stradvision Inc
Current assignee: Stradvision Inc
Priority date: 2019-01-23
Filing date: 2020-01-08
Publication date: 2021-08-11
Anticipated expiration: 2040-01-08
Also published as: KR20200091781A; KR102252155B1; CN111476811A; JP2020119531A; US10311578B1; CN111476811B; EP3686842B1; EP3686842A1

Description

本発明は、自律走行自動車のレベル４を満たすために必要なＨＤマップとのコラボレーションを支援するのに使用される少なくとも一つの車線を有するイメージをセグメンテーションする学習方法に関し、より詳細には、前記車線を有する前記入力イメージをセグメンテーションする前記学習方法において、（ａ）前記入力イメージが取得されると、学習装置が、ＣＮＮ（ＣｏｎｖｏｌｕｔｉｏｎａｌＮｅｕｒａｌＮｅｔｗｏｒｋ）モジュールをもって、前記入力イメージに対してコンボリューション演算を少なくとも一回適用させて特徴マップを生成し、前記特徴マップに対してデコンボリューション演算を少なくとも一回適用させて前記入力イメージ上のそれぞれのピクセルに対するそれぞれのセグメンテーションスコア（ＳｅｇｍｅｎｔａｔｉｏｎＳｃｏｒｅ）を生成させる段階；（ｂ）前記学習装置が、前記ＣＮＮモジュールをもって、前記それぞれのセグメンテーションスコアに対してソフトマックス演算（ＳｏｆｔｍａｘＯｐｅｒａｔｉｏｎ）を少なくとも一回適用させてそれぞれのソフトマックススコアを生成させる段階；（ｃ）前記学習装置が、前記ＣＮＮモジュールをもって、（Ｉ）（ｉ）前記ソフトマックススコアそれぞれに対して多項ロジスティックロス演算（ＭｕｌｔｉｎｏｍｉａｌＬｏｇｉｓｔｉｃＬｏｓｓＯｐｅｒａｔｉｏｎ）を少なくとも一回適用させてそれぞれのソフトマックスロスを生成させ、（ｉｉ）前記ソフトマックススコアそれぞれに対してピクセルエンベディング演算（ＰｉｘｅｌＥｍｂｅｄｄｉｎｇＯｐｅｒａｔｉｏｎ）を少なくとも一回適用させて、前記車線それぞれの前記セグメンテーションスコアのそれぞれの平均のうち異なる車線間の平均の差は大きくなるようにし、前記車線それぞれの前記セグメンテーションスコアの分散のうちそれぞれの同一車線内部の分散は小さくなるように前記ＣＮＮモジュールの学習を誘導するそれぞれのエンベディングロスを生成した後、（ＩＩ）それぞれの前記ソフトマックスロス及びそれぞれの前記エンベディングロスを利用したバックプロパゲーションを通じて、前記ＣＮＮモジュールの少なくとも一つのパラメータを学習させる段階；を含むことを特徴とする学習方法及び学習装置、並びにこれを利用したテスト方法及びテスト装置に関する。

ディープコンボリューションニューラルネットワーク（ＤｅｅｐＣｏｎｖｏｌｕｔｉｏｎＮｅｕｒａｌＮｅｔｗｏｒｋｓ；ＤｅｅｐＣＮＮ）は、ディープラーニング分野で起きた驚くべき発展の核心である。ＣＮＮは、文字の認識問題を解決するために９０年代にすでに使われていたが、現在のように広く使用されるようになったのは最近の研究結果の賜物である。このようなディープＣＮＮは、２０１２年ＩｍａｇｅＮｅｔイメージ分類コンテストで他の競争相手に勝って優勝を収めた。その後、コンボリューションニューラルネットワークは機械学習（ＭａｃｈｉｎｅＬｅａｒｎｉｎｇ）分野で非常に有用なツールとなった。

一方、イメージセグメンテーション（ＩｍａｇｅＳｅｇｍｅｎｔａｔｉｏｎ）は入力イメージ（トレーニングイメージまたはテストイメージ）を受信して、ラベル（Ｌａｂｅｌ）イメージを出力イメージとして生成する方法である。最近、ディープランニング（ＤｅｅｐＬｅａｒｎｉｎｇ）技術が脚光を浴びるに伴い、イメージセグメンテーションにもディープラーニング技術を多く使用する傾向にある。

セグメンテーションが遂行される場合、イメージ上のそれぞれのクラスタ内でピクセル数の分布が不均衡であれば、ピクセル数が小さい部分がぼやけてしまう場合が多い。ピクセル数の分布が不均衡な代表的なケースとして、自律走行自動車で使用されるイメージがある。この場合、特定の車線が点線であるかイメージ内で遠距離領域に存在すると、車線の当該部分のピクセル数が少なくなってセグメンテーションを行う際にピクセル数の少ない部分が車線ではないものと誤って判断される問題点が存在する。

本発明は、上述した問題点を解決することを目的とする。

本発明は、ソフトマックスロスとエンベディングロスをバックプロパゲーションして、ピクセル数が少ない部分もセグメンテーション結果上で濃く出力され、互いに異なる車線を区分することがより容易になるようにセグメンテーションスコアを出力することを他の目的とする。

前記のような本発明の目的を達成し、後述する本発明の特徴的な効果を実現するための本発明の特徴的な構成は以下の通りである。

本発明の一態様によると、少なくとも一つの車線を有する入力イメージをセグメンテーションする前記学習方法において、（ａ）前記入力イメージが取得されると、学習装置が、ＣＮＮ（ＣｏｎｖｏｌｕｔｉｏｎａｌＮｅｕｒａｌＮｅｔｗｏｒｋ）モジュールをもって、前記入力イメージに対してコンボリューション演算を少なくとも一回適用させて特徴マップを生成し、前記特徴マップに対してデコンボリューション演算を少なくとも一回適用させて前記入力イメージ上のそれぞれのピクセルに対するそれぞれのセグメンテーションスコア（ＳｅｇｍｅｎｔａｔｉｏｎＳｃｏｒｅ）を生成させる段階；（ｂ）前記学習装置が、前記ＣＮＮモジュールをもって、前記それぞれのセグメンテーションスコアに対して、ソフトマックス演算（ＳｏｆｔｍａｘＯｐｅｒａｔｉｏｎ）を少なくとも一回適用させてそれぞれのソフトマックススコアを生成させる段階；（ｃ）前記学習装置が、前記ＣＮＮモジュールをもって、（Ｉ）（ｉ）前記ソフトマックススコアそれぞれに対して多項ロジスティックロス演算（ＭｕｌｔｉｎｏｍｉａｌＬｏｇｉｓｔｉｃＬｏｓｓＯｐｅｒａｔｉｏｎ）を少なくとも一回適用させてそれぞれのソフトマックスロスを生成するようにし、（ｉｉ）前記ソフトマックススコアそれぞれに対してピクセルエンベディング演算（ＰｉｘｅｌＥｍｂｅｄｄｉｎｇＯｐｅｒａｔｉｏｎ）を少なくとも一回適用させて、前記車線それぞれの前記セグメンテーションスコアのそれぞれの平均のうち異なる車線間の平均の差は大きくなるようにし、前記車線それぞれの前記セグメンテーションスコアの分散のうちそれぞれの同一車線内部の分散は小さくなるように前記ＣＮＮモジュールの学習を誘導するそれぞれのエンベディングロスを生成した後、（ＩＩ）それぞれの前記ソフトマックスロス及びそれぞれの前記エンベディングロスを利用したバックプロパゲーションを通じて、前記ＣＮＮモジュールの少なくとも一つのパラメータを学習する段階；を含むことを特徴とする。

一実施例において、

前記エンベディングロスそれぞれは、前記数式を通じて算出され、前記入力イメージが前記車線及び少なくとも一つの背景部分を有する複数個のクラスタを含むとすると、ＮＣは前記入力イメージ上の前記車線及び前記背景部分を含む前記クラスタの個数、ＮＣ_ｃはそれぞれの前記クラスタ内のピクセルの個数、μ_ｃはそれぞれの前記クラスタに含まれているピクセルそれぞれに対応するソフトマックススコアのそれぞれの平均、

はそれぞれの前記ピクセルに対応する前記ソフトマックススコア及びそれぞれの前記ピクセルに対応する前記μ_ｃを参照して算出された分散のうち最大値、

は互いに異なるクラスタに対応するμ_ｃ間の差のうち最小値を意味することを特徴とする。

一実施例において、それぞれの前記多項ロジスティックロスは、次の数式を利用して算出され、

この場合、ｓは前記入力イメージ一つに含まれる前記ピクセルの個数、ｌは第ｉピクセルがこれに対応する原本正解ラベル上でどのクラスタに属するのかを示すワンホットエンコード（Ｏｎｅ−Ｈｏｔ−Ｅｎｃｏｄｉｎｇ）ベクトル、Ｐ（ｉ）は、前記ピクセルそれぞれに対応するそれぞれのソフトマックスコアを意味することを特徴とする。

本発明の他の態様によると、少なくとも一つの車線を有するテストイメージをセグメンテーションするテスト方法において、（ａ）学習装置が、（１）ＣＮＮ（ＣｏｎｖｏｌｕｔｉｏｎａｌＮｅｕｒａｌＮｅｔｗｏｒｋ）モジュールをもって、トレーニングイメージに対してコンボリューション演算を少なくとも一回適用させて学習用特徴マップを生成した後、前記学習用特徴マップに対してデコンボリューション演算を少なくとも一回適用させて前記トレーニングイメージ上のそれぞれのピクセルに対する学習用セグメンテーションスコア（ＳｅｇｍｅｎｔａｔｉｏｎＳｃｏｒｅ）それぞれを生成させ；（２）前記ＣＮＮモジュールをもって、前記学習用セグメンテーションスコアそれぞれに対してソフトマックス演算（ＳｏｆｔｍａｘＯｐｅｒａｔｉｏｎ）を少なくとも一回適用させて学習用ソフトマックススコアそれぞれを生成するようにし；（３）前記ＣＮＮモジュールをもって、（Ｉ）（ｉ）前記学習用ソフトマックススコアそれぞれに対して多項ロジスティックロス演算（ＭｕｌｔｉｎｏｍｉａｌＬｏｇｉｓｔｉｃＬｏｓｓＯｐｅｒａｔｉｏｎ）を少なくとも一回適用させてソフトマックスロスそれぞれを生成させ、（ｉｉ）前記学習用ソフトマックススコアそれぞれに対してピクセルエンベディング演算（ＰｉｘｅｌＥｍｂｅｄｄｉｎｇＯｐｅｒａｔｉｏｎ）を少なくとも一回適用させて、前記車線それぞれの前記学習用セグメンテーションスコアのそれぞれの平均のうち異なる車線間の平均の差は大きくなるようにし、前記車線それぞれの前記学習用セグメンテーションスコアの分散のうちそれぞれの同一車線内部の分散は小さくなるように前記ＣＮＮモジュールの学習を誘導するそれぞれのエンベディングロスを生成した後、（ＩＩ）それぞれの前記ソフトマックスロス及びそれぞれの前記エンベディングロスを利用したバックプロパゲーションを通じて、前記ＣＮＮモジュールの少なくとも一つのパラメータを学習させた状態で、前記テストイメージが取得されると、テスト装置が、前記ＣＮＮモジュールをもって前記テストイメージに対してコンボリューション演算を少なくとも一回適用させてテスト用特徴マップを生成した後、前記テスト用特徴マップに対してデコンボリューション演算を適用させて前記テストイメージ上のそれぞれのピクセルに対するテスト用セグメンテーションスコアそれぞれを生成させる段階；及び（ｂ）前記テスト装置が、前記ＣＮＮモジュールをもって、前記テスト用セグメンテーションスコアそれぞれに対してソフトマックス演算を適用させてテスト用ソフトマックススコアそれぞれを生成させる段階；を含むことを特徴とする。

本発明のまた他の態様によると、少なくとも一つの車線を有する入力イメージをセグメンテーションする学習装置において、インストラクションを格納する少なくとも一つのメモリと、（Ｉ）ＣＮＮ（ＣｏｎｖｏｌｕｔｉｏｎａｌＮｅｕｒａｌＮｅｔｗｏｒｋ）モジュールをもって、前記入力イメージに対してコンボリューション演算を少なくとも一回適用させて特徴マップを生成し、前記特徴マップに対してデコンボリューション演算を少なくとも一回適用させて前記入力イメージ上のそれぞれのピクセルに対するそれぞれのセグメンテーションスコア（ＳｅｇｍｅｎｔａｔｉｏｎＳｃｏｒｅ）を生成させるプロセス、（ＩＩ）前記ＣＮＮモジュールをもって、前記それぞれのセグメンテーションスコアに対してソフトマックス演算（ＳｏｆｔｍａｘＯｐｅｒａｔｉｏｎ）を少なくとも一回適用させてそれぞれのソフトマックススコアを生成させるプロセス、（ＩＩＩ）前記ＣＮＮモジュールをもって、（１）（ｉ）前記ソフトマックススコアそれぞれに対して多項ロジスティックロス演算（ＭｕｌｔｉｎｏｍｉａｌＬｏｇｉｓｔｉｃＬｏｓｓＯｐｅｒａｔｉｏｎ）を少なくとも一回適用させてそれぞれのソフトマックスロスを生成させ、（ｉｉ）前記ソフトマックススコアそれぞれに対してピクセルエンベディング演算（ＰｉｘｅｌＥｍｂｅｄｄｉｎｇＯｐｅｒａｔｉｏｎ）を少なくとも一回適用させて、前記車線それぞれの前記セグメンテーションスコアのそれぞれの平均のうち異なる車線間の平均の差は大きくなるようにし、前記車線それぞれの前記セグメンテーションスコアの分散のうちそれぞれの同一車線内部の分散は小さくなるように前記ＣＮＮモジュールの学習を誘導するそれぞれのエンベディングロスを生成した後、（２）それぞれの前記ソフトマックスロス及びそれぞれの前記エンベディングロスを利用したバックプロパゲーションを通じて、前記ＣＮＮモジュールの少なくとも一つのパラメータを学習させるプロセスを遂行するための前記インストラクションを実行するように構成された少なくとも一つのプロセッサと、を含むことを特徴とする。

一実施例において、

前記エンベディングロスそれぞれは、前記数式を通じて算出され、前記入力イメージが前記車線及び少なくとも一つの背景部分を有する複数個のクラスタを含むとすると、ＮＣは前記入力イメージ上の前記車線及び前記背景部分を含む前記クラスタの個数、ＮＣ_ｃはそれぞれの前記クラスタ内のピクセルの個数、μ_ｃはそれぞれの前記クラスタに含まれたピクセルそれぞれに対応するソフトマックススコアのそれぞれの平均、

である場合、ｓは前記入力イメージ一つに含まれる前記ピクセルの個数、ｌは第ｉピクセルがこれに対応する原本正解ラベル上でどのクラスタに属するのかを示すワンホットエンコード（Ｏｎｅ−Ｈｏｔ−Ｅｎｃｏｄｉｎｇ）ベクトル、Ｐ（ｉ）は前記ピクセルそれぞれに対応するそれぞれのソフトマックススコアを意味することを特徴とする。

本発明のまた他の態様によると、少なくとも一つの車線を有するテストイメージをセグメンテーションするテスト装置において、インストラクションを格納する少なくとも一つのメモリと、学習装置が、（１）ＣＮＮ（ＣｏｎｖｏｌｕｔｉｏｎａｌＮｅｕｒａｌＮｅｔｗｏｒｋ）モジュールをもって、トレーニングイメージに対してコンボリューション演算を少なくとも一回適用させて学習用特徴マップを生成した後、前記学習用特徴マップに対してデコンボリューション演算を少なくとも一回適用させて前記トレーニングイメージ上のそれぞれのピクセルに対する学習用セグメンテーションスコア（ＳｅｇｍｅｎｔａｔｉｏｎＳｃｏｒｅ）それぞれを生成させ、（２）前記ＣＮＮモジュールをもって、前記学習用セグメンテーションスコアそれぞれに対してソフトマックス演算（ＳｏｆｔｍａｘＯｐｅｒａｔｉｏｎ）を少なくとも一回適用させて学習用ソフトマックススコアそれぞれを生成させ、（３）前記ＣＮＮモジュールをもって、（３−１）（ｉ）前記学習用ソフトマックススコアそれぞれに対して多項ロジスティックロス演算（ＭｕｌｔｉｎｏｍｉａｌＬｏｇｉｓｔｉｃＬｏｓｓＯｐｅｒａｔｉｏｎ）を少なくとも一回適用させてソフトマックスロスそれぞれを生成させ、（ｉｉ）前記学習用ソフトマックススコアそれぞれに対してピクセルエンベディング演算（ＰｉｘｅｌＥｍｂｅｄｄｉｎｇＯｐｅｒａｔｉｏｎ）を少なくとも一回適用させて、前記車線それぞれの前記学習用セグメンテーションスコアのそれぞれの平均のうち異なる車線間の平均の差は大きくなるようにし、前記車線それぞれの前記学習用セグメンテーションスコアの分散のうちそれぞれの同一車線内部の分散は小さくなるように前記ＣＮＮモジュールの学習を誘導するそれぞれのエンベディングロスを生成した後、（３−２）それぞれの前記ソフトマックスロス及びそれぞれの前記エンベディングロスを利用したバックプロパゲーションを通じて、前記ＣＮＮモジュールの少なくとも一つのパラメータを学習させた状態で、（Ｉ）前記ＣＮＮモジュールをもって、前記テストイメージに対してコンボリューション演算を適用させてテスト用特徴マップを生成した後、前記テスト用特徴マップに対してデコンボリューション演算を適用させて前記テストイメージ上のそれぞれのピクセルに対するテスト用セグメンテーションスコアそれぞれを生成させるプロセス、及び（ＩＩ）前記ＣＮＮモジュールをもって、前記テスト用セグメンテーションスコアそれぞれに対してソフトマックス演算を適用させてテスト用ソフトマックススコアそれぞれを生成させるプロセスを遂行するための前記インストラクションを実行するように構成された少なくとも一つのプロセッサと、を含むことを特徴とする。

本発明は、同一の車線に属するピクセル間のセグメンテーションスコア間における差は小さくし、異なる車線に属するピクセル間のセグメンテーションスコア間における差は大きくすることにより、最適化されたセグメンテーション結果が得られる効果がある。

本発明の実施例の説明に利用されるために添付された以下の図面は、本発明の実施例のうち単に一部であるにすぎず、本発明の属する技術分野において通常の知識を有する者（以下「通常の技術者」）にとっては、発明的作業が行われずにこれらの図面に基づいて他の各図面が得られ得る。
本発明による学習装置を示した図面である。本発明の一実施例にしたがって、エンベディングロス値及びソフトマックスロス値をバックプロパゲーションしてＣＮＮ（ＣｏｎｖｏｌｕｔｉｏｎａｌＮｅｕｒａｌＮｅｔｗｏｒｋ）を学習するプロセスを示した図面である。本発明によるクラスタ内のピクセル数が不均衡である場合を示した図面である。従来技術にしたがって、図３のイメージがセグメンテーションされた場合のセグメンテーションスコアを示した図面である。本発明の一実施例にしたがって、図３のイメージがセグメンテーションされた場合のセグメンテーションスコアを示した図面である。

後述する本発明に関する詳細な説明は、本発明が実施され得る特定の実施例を例示として示す添付図面を参照する。これらの実施例は、当業者が本発明を実施することができるように十分詳細に説明される。本発明の多様な実施例は互いに異なるが、相互に排他的である必要はないことが理解されるべきである。例えば、ここに記載されている特定の形状、構造及び特性は、一実施例に関連して本発明の精神及び範囲を逸脱せず、かつ他の実施例で具現され得る。また、それぞれの開示された実施例内の個別の構成要素の位置又は配置は、本発明の精神及び範囲を逸脱せず、かつ変更され得ることが理解されるべきである。したがって、後述の詳細な説明は、限定的な意味として受け取ろうとするものではなく、本発明の範囲は適切に説明されるのであれば、その請求項が主張することと均等な全ての範囲とともに添付された請求項によってのみ限定される。図面において類似の参照符号は、様々な側面にわたって同一であるか、又は類似の機能を指す。

また、本発明の詳細な説明及び各請求項にわたって、「含む」という単語及びそれらの変形は、他の技術的各特徴、各付加物、構成要素又は段階を除外することを意図したものではない。通常の技術者にとって本発明の他の各目的、長所及び各特性が、一部は、本説明書から、また一部は、本発明の実施から明らかになるであろう。以下の例示及び図面は実例として提供され、本発明を限定することを意図したものではない。

本発明で言及している各種イメージは、舗装または非舗装道路関連のイメージを含み得、この場合、道路環境で登場し得る物体（例えば、自動車、人、動物、植物、物、建物、飛行機やドローンのような飛行体、その他の障害物）を想定し得るが、必ずしもこれに限定されるものではなく、本発明で言及している各種イメージは、道路と関係のないイメージ（例えば、非舗装道路、路地、空き地、海、湖、川、山、森、砂漠、空、室内と関連したイメージ）でもあり得、この場合、非舗装道路、路地、空き地、海、湖、川、山、森、砂漠、空、室内環境で登場し得る物体（例えば、自動車、人、動物、植物、物、建物、飛行機やドローンのような飛行体、その他の障害物）を想定し得るが、必ずしもこれに限定されるものではない。

以下、本発明が属する技術分野で通常の知識を有する者が本発明を容易に実施することができるようにするために、本発明の好ましい実施例に対して添付の図面に基づいて詳細に説明することにする。

図１は、本発明による学習装置を示した図面である。図１を参照すると、学習装置１００は、ＣＮＮモジュール２００を含むことができる。そして、様々なデータは通信部１１０によって受信または送信され、前記ＣＮＮモジュール２００の様々なプロセスは、プロセッサ１２０によって行われ得る。ただし、図１では、通信部１１０と、プロセッサ１２０と、ＣＮＮモジュール２００との具体的な連結関係を省略した。また、学習装置は、以下のプロセスを遂行するためのコンピュータ読取り可能なインストラクション（Ｉｎｓｔｒｕｃｔｉｏｎ）を格納することができるメモリ１１５をさらに含むことができる。一実施例によると、プロセッサ、メモリ、媒体等は統合プロセッサ（ＩｎｔｅｇｒａｔｅｄＰｒｏｃｅｓｓｏｒ）として統合され得る。

図２は、本発明によるエンベディングロス値及びソフトマックスロス値をバックプロパゲーションしてＣＮＮ（ＣｏｎｖｏｌｕｔｉｏｎａｌＮｅｕｒａｌＮｅｔｗｏｒｋ）を学習するプロセスを示した図面である。

図２を参照すると、通信部１１０を通じて入力イメージが取得されると、ＣＮＮモジュール２００は予め設定されたニューラルネットワーク演算を通じて入力イメージに対するセグメンテーションスコアを出力することができる。

具体的に、ＣＮＮモジュール２００は、エンコードレイヤ２１０及びデコードレイヤ２２０を含むことができる。エンコードレイヤ２１０は、入力イメージに対してコンボリューション演算を少なくとも一回適用して少なくとも一つのエンコード済み特徴マップを生成するようにし、デコードレイヤ２２０は、エンコードレイヤ２１０で出力された特定のエンコード済み特徴マップに対してデコンボリューション演算を少なくとも一回適用して少なくとも一つのデコード済み特徴マップを生成させることができる。特定の特徴マップは、エンコードレイヤ２１０で最終的に出力されたエンコード済み特徴マップであり得るが、これに限定されるわけではない。

ＣＮＮモジュール２００は、特定のデコード済み特徴マップがセグメンテーションスコアそれぞれを含むこともでき、特定のデコード済み特徴マップに対してコンボリューション演算を少なくとも一回適用した結果がセグメンテーションスコアそれぞれを含むこともできる。また、特定のデコード済み特徴マップは、デコードレイヤ２２０で最終的に出力されたデコード済み特徴マップであり得るが、これに限定されるわけではない。

学習装置１００は、ＣＮＮモジュールをもって、ソフトマックスレイヤ２３０で出力されたセグメンテーションスコアそれぞれに対してソフトマックス演算を少なくとも一回適用させて、セグメンテーションスコアのそれぞれの値が０と１との間の範囲の値を有するように正規化されたソフトマックススコアそれぞれを生成させることができる。

ソフトマックスレイヤ２３０でソフトマックススコアそれぞれが生成されると、学習装置１００はＣＮＮモジュール２００をもって、（ｉ）ソフトマックススコアそれぞれに対して、ソフトマックススコアとそれに対応する原本正解とを参照してソフトマックスロスを出力するための演算である、多項ロジスティックロス演算（ＭｕｌｔｉｎｏｍｉａｌＬｏｇｉｓｔｉｃＬｏｓｓＯｐｅｒａｔｉｏｎ）を少なくとも一回適用させてそれぞれのソフトマックスロスを生成させ、（ｉｉ）ソフトマックススコアそれぞれに対してピクセルエンベディング演算（ＰｉｘｅｌＥｍｂｅｄｄｉｎｇＯｐｅｒａｔｉｏｎ）を少なくとも一回適用させてそれぞれのエンベディングロスを生成し、それぞれのエンベディングロスは、ＣＮＮモジュールの学習プロセスを遂行する途中に車線それぞれのセグメンテーションスコアのそれぞれの平均のうち異なる車線間の平均の差は大きくなるようにし、車線それぞれのセグメンテーションスコアの分散のうちそれぞれの同一車線内部の分散は小さくなるようにするのに使用される。ここで、ピクセルエンベディング演算と多項ロジスティックロス演算に関して詳しく説明することにする。

先に述べたように、ピクセルエンベディング演算は、車線それぞれのセグメンテーションスコアのそれぞれの平均のうち異なる車線間の平均の差は大きくなるようにし、車線それぞれのセグメンテーションスコアの分散のうちそれぞれの同一車線内部の分散は小さくなるようにするＣＮＮモジュールを学習するのに使用されるエンベディングロスそれぞれを生成する。

エンベディングロスそれぞれは、前記数式を利用して算出される。各文字の意味するところを説明すると、入力イメージが車線及び少なくとも一つの背景などを含む複数個のクラスタを含むとする場合、ＮＣは前記入力イメージ上の車線及び背景などを含むクラスタの個数、ＮＣ_ｃはそれぞれの前記クラスタ内のピクセルの個数、μ_ｃはそれぞれのクラスタに含まれているピクセルそれぞれに対応するソフトマックススコアのそれぞれの平均、

はそれぞれのピクセルに対応するソフトマックススコア及びそれぞれのピクセルに対応するμ_ｃを参照して算出された分散のうち最大値、

は互いに異なるクラスタに対応するμ_ｃ間の差のうち最小値を意味する。

前記数式において、

部分は分散に関するロスを意味し、

部分は平均に関するロスを意味する。分母の

は、正規化のためのものである。ここで、

の代わりに使用されるが、なぜなら

で割るとエンベディングロスがかなり大きくなってソフトマックスロスと均衡が合わないからである。このようなエンベディングロスは、同じ車線内のピクセルに対応するセグメンテーションスコア間の分散を

以下の値に減らし、互いに異なる車線内のピクセルの平均間の差を

以上の値に増やすことができる。本発明のエンベディングロスは、前記数式を通じて演算され得るが、これに限定されるわけではない。

次に、多項ロジスティックロス演算について説明すると、これはソフトマックススコア及びこれに対応する原本正解を参照してソフトマックスロスを出力する演算である。

前記数式により、多項ロジスティックロスそれぞれが算出され得る。ここで、ｓは入力イメージ一つに含まれるピクセルの個数、ｌは第ｉピクセルがこれに対応する原本正解ラベル上でどのクラスタに属するのかを示すワンホットエンコード（Ｏｎｅ−Ｈｏｔ−Ｅｎｃｏｄｉｎｇ）ベクトル、Ｐ（ｉ）はそれぞれのピクセルに対応するそれぞれのソフトマックススコアを意味する。

ここで、それぞれのソフトマックススコアは、それぞれのピクセルがどのクラスタに属するのかをベクトル内の最大の元素値を通じて指し示すが、（ｉ）ワンホットエンコードベクトルを示す１と（ｉｉ）ソフトマックススコアの対数であるベクトルとの間にベクトル内積（ＶｅｃｔｏｒＤｏｔＰｒｏｄｕｃｔ）演算が遂行されるのである。例えば、２番目の車線に含まれる特定ピクセルのソフトマックススコアが（０．１、０．８、０．１）及びｌベクトルが（０、１、０）と表現されるのであれば、特定ピクセルのロス値は−１×ｌｏｇ（０．８）として算出される。このような方式で計算されたピクセルごとのロス値それぞれが足し合わされた後、ピクセルの個数で割られてソフトマックスロスが生成され得る。それぞれのソフトマックスロスは、前記数式を通じて算出され得るが、これに限定されるわけではない。

前記ロスレイヤ２４０で出力されたそれぞれのソフトマックスロス及びそれぞれのエンベディングロスは、バックプロパゲーションを通じてＣＮＮ装置の少なくとも一つのパラメータを学習するのに使用される。

以後、ＣＮＮモジュール２００の学習プロセスが完了した場合にテスト装置が遂行したプロセスについては、図２を参照して説明する。

図２を参照すると、ＣＮＮモジュール２００が入力イメージを受信してデコードレイヤ２２０の出力としてセグメンテーションスコアそれぞれを生成し、ソフトマックスレイヤ２３０で前記セグメンテーションスコアそれぞれに対してソフトマックス演算を少なくとも一回適用する。テストプロセスでは前記レイヤのパラメータがすべて学習された状態であるので、ロスを求める過程とバックプロパゲーション過程は省略される。

図３は、それぞれの車線のそれぞれの位置によってそれぞれの車線内のピクセル数の分散それぞれが特定の閾値以上であるイメージの例示である。

図３を参照すると、図３のイメージ上でそれぞれの車線のピクセル数がピクセルの位置によって不均衡であることが分かる。すなわち、近距離領域に位置するそれぞれの車線は、それぞれの車線にピクセルが多いために厚く見えるが、遠距離領域に位置するそれぞれの車線のピクセルは、それぞれの車線にピクセルが少ないために薄く見える。よって、車線のピクセル数の分散が大きく表れる。そのような理由により、少なくとも一つの分散が特定の臨界値以上である場合、本発明によるセグメンテーション方法が適用されて、車線を検出するのにさらに正確な効果が得られるのである。

図４ａは、図３が従来の技術にしたがってセグメンテーションイメージのセグメンテーションスコアを示した図面であり、図４ｂは、図３が本発明の例示にしたがってセグメンテーションイメージのセグメンテーションスコアを示した図面である。

図４ａを参照すると、車線ピクセルが相対的に少ない特定領域のセグメンテーションスコアは、車線ピクセルが相対的に多い所定の領域のセグメンテーションスコアと大きく差があるであろう。この際、特定領域は、遠距離に位置する車線ピクセルまたはいくつかの理由によって相対的に少ない車線ピクセルを含むことができる。そして、所定の領域は、近距離に位置する車線ピクセルまたはいくつかの理由によって相対的に多くの車線ピクセルを含むことができる。例えば、図４ａの最も左側車線を参考にすると、最も上側のピクセル数が少ない車線のセグメンテーションスコアは０．８９であるが、中間部分と最も下側部分のセグメンテーションスコアはそれぞれ１．０５、１．１２である。よって、最も左側車線のセグメンテーションスコアとの間に大きな差が見られる。図４ａの最も右側車線もやはり同様に、中間部分と最も下側部分のセグメンテーションスコアがそれぞれ２．０２、２．０９であるのに対して、最も上側部分のセグメンテーションスコアは１．７２である。

特定領域に車線ピクセルが少ししかない場合には、車線のピクセルでない道路のピクセルが多いことから、ＣＮＮモジュール２００が特定領域のピクセルを車線と判断する蓋然性が少ない。したがって、セグメンテーション結果が出力された際に、車線ピクセルが少ない特定領域がぼやけて表現され得る。

それに対して、図４ｂのように、バックプロパゲーションを通じてＣＮＮ装置が学習されたので、最も左側車線の一番上、中間、一番下のセグメンテーションスコアが互いにほぼ同じに算出され得る。同様に、中間車線の上側部分と下側部分のセグメンテーションスコアも互いにほぼ同じように算出され得る。そして、最も右側車線の一番上、中間、一番下のセグメンテーションスコアも互いにほぼ同じように算出され得る。

学習方法及びテスト方法は、自律走行自動車のレベル４を満たすために必要なＨＤマップとのコラボレーションを支援するのに使用され得る。

本発明の技術分野における通常の技術者に理解され得るところとして、上記で説明されたイメージ、例えば、原本イメージ、原本ラベル、及び追加ラベルのようなイメージデータの送受信が学習装置及びテスト装置の各通信部により行われ得、特徴マップと演算を遂行するためのデータが学習装置及びテスト装置のプロセッサ（及び／又はメモリ）によって保有／維持され得、コンボリューション演算、デコンボリューション演算、ロス値演算の過程が主に学習装置及びテスト装置のプロセッサによって遂行され得るが、本発明がこれに限定されはしないであろう。

また、以上にて説明された本発明による実施例は、多様なコンピュータの構成要素を通じて遂行することができるプログラム命令語の形態で具現されて、コンピュータ読取り可能な記録媒体に格納され得る。前記コンピュータ読取り可能な記録媒体はプログラム命令語、データファイル、データ構造などを単独で又は組み合わせて含むことができる。前記コンピュータ読取り可能な記録媒体に格納されるプログラム命令語は、本発明のために特別に設計され、構成されたものであるか、コンピュータソフトウェア分野の当業者に公知にされて使用可能なものであり得る。コンピュータ読取り可能な記録媒体の例には、ハードディスク、フロッピーディスク及び磁気テープのような磁気媒体、ＣＤ−ＲＯＭ、ＤＶＤのような光記録媒体、フロプティカル・ディスク（ｆｌｏｐｔｉｃａｌｄｉｓｋ）のような磁気−光メディア（ｍａｇｎｅｔｏ−ｏｐｔｉｃａｌｍｅｄｉａ）、及びＲＯＭ、ＲＡＭ、フラッシュメモリなどのようなプログラム命令語を格納して遂行するように特別に構成されたハードウェア装置が含まれる。プログラム命令語の例には、コンパイラによって作られるもののような機械語コードだけでなく、インタープリターなどを使用してコンピュータによって実行される高級言語コードも含まれる。前記ハードウェア装置は、本発明による処理を実行するために一つ以上のソフトウェアモジュールとして作動するように構成され得、その反対も同様である。

以上にて本発明が具体的な構成要素などのような特定事項と限定された実施例及び図面によって説明されたが、これは本発明のより全般的な理解の一助とするために提供されたものであるに過ぎず、本発明が前記実施例に限られるものではなく、本発明が属する技術分野において通常の知識を有する者であれば、係る記載から多様な修正及び変形が行われ得る。

従って、本発明の思想は、前記説明された実施例に局限されて定められてはならず、後述する特許請求の範囲だけでなく、本特許請求の範囲と均等または等価的に変形されたものすべては、本発明の思想の範囲に属するといえる。

Claims

少なくとも一つの車線を有する入力イメージをセグメンテーションする学習方法において、
（ａ）前記入力イメージが取得されると、学習装置が、ＣＮＮ（ＣｏｎｖｏｌｕｔｉｏｎａｌＮｅｕｒａｌＮｅｔｗｏｒｋ）モジュールをもって、前記入力イメージに対してコンボリューション演算を少なくとも一回適用させて特徴マップを生成し、前記特徴マップに対してデコンボリューション演算を少なくとも一回適用させて前記入力イメージ上のそれぞれのピクセルに対するそれぞれのセグメンテーションスコア（ＳｅｇｍｅｎｔａｔｉｏｎＳｃｏｒｅ）を生成させる段階；
（ｂ）前記学習装置が、前記ＣＮＮモジュールをもって、前記それぞれのセグメンテーションスコアに対して、ソフトマックス演算（ＳｏｆｔｍａｘＯｐｅｒａｔｉｏｎ）を少なくとも一回適用させてそれぞれのソフトマックススコアを生成させる段階；
（ｃ）前記学習装置が、前記ＣＮＮモジュールをもって、（Ｉ）（ｉ）前記ソフトマックススコアそれぞれに対して多項ロジスティックロス演算（ＭｕｌｔｉｎｏｍｉａｌＬｏｇｉｓｔｉｃＬｏｓｓＯｐｅｒａｔｉｏｎ）を少なくとも一回適用させてそれぞれのソフトマックスロスを生成するようにし、（ｉｉ）前記ソフトマックススコアそれぞれに対してピクセルエンベディング演算（ＰｉｘｅｌＥｍｂｅｄｄｉｎｇＯｐｅｒａｔｉｏｎ）を少なくとも一回適用させて、前記車線それぞれの前記セグメンテーションスコアのそれぞれの平均のうち異なる車線間の平均の差は大きくなるようにし、前記車線それぞれの前記セグメンテーションスコアの分散のうちそれぞれの同一車線内部の分散は小さくなるように前記ＣＮＮモジュールの学習を誘導するそれぞれのエンベディングロスを生成した後、（ＩＩ）それぞれの前記ソフトマックスロス及びそれぞれの前記エンベディングロスを利用したバックプロパゲーションを通じて、前記ＣＮＮモジュールの少なくとも一つのパラメータを学習させる段階；
を含むことを特徴とする方法。
前記エンベディングロスそれぞれは、前記数式を通じて算出され、
前記入力イメージが前記車線及び少なくとも一つの背景部分を有する複数個のクラスタを含むとすると、ＮＣは前記入力イメージ上の前記車線及び前記背景部分を含む前記クラスタの個数、ＮＣ_ｃはそれぞれの前記クラスタ内のピクセルの個数、μ_ｃはそれぞれの前記クラスタに含まれているピクセルそれぞれに対応するソフトマックススコアのそれぞれの平均、

はそれぞれの前記ピクセルに対応する前記ソフトマックススコア及びそれぞれの前記ピクセルに対応する前記μ_ｃを参照して算出された分散のうち最大値、

は互いに異なるクラスタに対応するμ_ｃ間の差のうち最小値を意味することを特徴とする請求項１に記載の方法。
それぞれの前記多項ロジスティックロスは、次の数式を利用して算出され、

ここで、ｓは前記入力イメージ一つに含まれる前記ピクセルの個数、ｌは第ｉピクセルがこれに対応する原本正解ラベル上でどのクラスタに属するのかを示すワンホットエンコード（Ｏｎｅ−Ｈｏｔ−Ｅｎｃｏｄｉｎｇ）ベクトル、Ｐ（ｉ）は、前記ピクセルそれぞれに対応するそれぞれのソフトマックスコアを意味することを特徴とする請求項１に記載の方法。
少なくとも一つの車線を有するテストイメージをセグメンテーションするテスト方法において、
（ａ）学習装置が、（１）ＣＮＮ（ＣｏｎｖｏｌｕｔｉｏｎａｌＮｅｕｒａｌＮｅｔｗｏｒｋ）モジュールをもって、トレーニングイメージに対してコンボリューション演算を少なくとも一回適用させて学習用特徴マップを生成した後、前記学習用特徴マップに対してデコンボリューション演算を少なくとも一回適用させて前記トレーニングイメージ上のそれぞれのピクセルに対する学習用セグメンテーションスコア（ＳｅｇｍｅｎｔａｔｉｏｎＳｃｏｒｅ）それぞれを生成させ；（２）前記ＣＮＮモジュールをもって、前記学習用セグメンテーションスコアそれぞれに対してソフトマックス演算（ＳｏｆｔｍａｘＯｐｅｒａｔｉｏｎ）を少なくとも一回適用させて学習用ソフトマックススコアそれぞれを生成するようにし；（３）前記ＣＮＮモジュールをもって、（Ｉ）（ｉ）前記学習用ソフトマックススコアそれぞれに対して多項ロジスティックロス演算（ＭｕｌｔｉｎｏｍｉａｌＬｏｇｉｓｔｉｃＬｏｓｓＯｐｅｒａｔｉｏｎ）を少なくとも一回適用させてソフトマックスロスそれぞれを生成させ、（ｉｉ）前記学習用ソフトマックススコアそれぞれに対してピクセルエンベディング演算（ＰｉｘｅｌＥｍｂｅｄｄｉｎｇＯｐｅｒａｔｉｏｎ）を少なくとも一回適用させて、前記車線それぞれの前記学習用セグメンテーションスコアのそれぞれの平均のうち異なる車線間の平均の差は大きくなるようにし、前記車線それぞれの前記学習用セグメンテーションスコアの分散のうちそれぞれの同一車線内部の分散は小さくなるように前記ＣＮＮモジュールの学習を誘導するそれぞれのエンベディングロスを生成した後、（ＩＩ）それぞれの前記ソフトマックスロス及びそれぞれの前記エンベディングロスを利用したバックプロパゲーションを通じて、前記ＣＮＮモジュールの少なくとも一つのパラメータを学習させた状態で、前記テストイメージが取得されると、テスト装置が、前記ＣＮＮモジュールをもって前記テストイメージに対してコンボリューション演算を少なくとも一回適用させてテスト用特徴マップを生成した後、前記テスト用特徴マップに対してデコンボリューション演算を適用させて前記テストイメージ上のそれぞれのピクセルに対するテスト用セグメンテーションスコアそれぞれを生成させる段階；及び
（ｂ）前記テスト装置が、前記ＣＮＮモジュールをもって、前記テスト用セグメンテーションスコアそれぞれに対してソフトマックス演算を適用させてテスト用ソフトマックススコアそれぞれを生成させる段階；
を含むことを特徴とする方法。
少なくとも一つの車線を有する入力イメージをセグメンテーションする学習装置において、
インストラクションを格納する少なくとも一つのメモリと、
（Ｉ）ＣＮＮ（ＣｏｎｖｏｌｕｔｉｏｎａｌＮｅｕｒａｌＮｅｔｗｏｒｋ）モジュールをもって、前記入力イメージに対してコンボリューション演算を少なくとも一回適用させて特徴マップを生成し、前記特徴マップに対してデコンボリューション演算を少なくとも一回適用させて前記入力イメージ上のそれぞれのピクセルに対するそれぞれのセグメンテーションスコア（ＳｅｇｍｅｎｔａｔｉｏｎＳｃｏｒｅ）を生成させるプロセス、（ＩＩ）前記ＣＮＮモジュールをもって、前記それぞれのセグメンテーションスコアに対してソフトマックス演算（ＳｏｆｔｍａｘＯｐｅｒａｔｉｏｎ）を少なくとも一回適用させてそれぞれのソフトマックススコアを生成させるプロセス、（ＩＩＩ）前記ＣＮＮモジュールをもって、（１）（ｉ）前記ソフトマックススコアそれぞれに対して多項ロジスティックロス演算（ＭｕｌｔｉｎｏｍｉａｌＬｏｇｉｓｔｉｃＬｏｓｓＯｐｅｒａｔｉｏｎ）を少なくとも一回適用させてそれぞれのソフトマックスロスを生成させ、（ｉｉ）前記ソフトマックススコアそれぞれに対してピクセルエンベディング演算（ＰｉｘｅｌＥｍｂｅｄｄｉｎｇＯｐｅｒａｔｉｏｎ）を少なくとも一回適用させて、前記車線それぞれの前記セグメンテーションスコアのそれぞれの平均のうち異なる車線間の平均の差は大きくなるようにし、前記車線それぞれの前記セグメンテーションスコアの分散のうちそれぞれの同一車線内部の分散は小さくなるように前記ＣＮＮモジュールの学習を誘導するそれぞれのエンベディングロスを生成した後、（２）それぞれの前記ソフトマックスロス及びそれぞれの前記エンベディングロスを利用したバックプロパゲーションを通じて、前記ＣＮＮモジュールの少なくとも一つのパラメータを学習させるプロセスを遂行するための前記インストラクションを実行するように構成された少なくとも一つのプロセッサと、
を含むことを特徴とする学習装置。
前記エンベディングロスそれぞれは、前記数式を通じて算出され、
前記入力イメージが前記車線及び少なくとも一つの背景部分を有する複数個のクラスタを含むとすると、ＮＣは前記入力イメージ上の前記車線及び前記背景部分を含む前記クラスタの個数、ＮＣ_ｃはそれぞれの前記クラスタ内のピクセルの個数、μ_ｃはそれぞれの前記クラスタに含まれたピクセルそれぞれに対応するソフトマックススコアのそれぞれの平均、

はそれぞれの前記ピクセルに対応する前記ソフトマックススコア及びそれぞれの前記ピクセルに対応する前記μ_ｃを参照して算出された分散のうち最大値、

は互いに異なるクラスタに対応するμ_ｃ間の差のうち最小値を意味することを特徴とする請求項５に記載の学習装置。
それぞれの前記多項ロジスティックロスは、次の数式を利用して算出され、

ここで、ｓは前記入力イメージ一つに含まれる前記ピクセルの個数、ｌは第ｉピクセルがこれに対応する原本正解ラベル上でどのクラスタに属するのかを示すワンホットエンコード（Ｏｎｅ−Ｈｏｔ−Ｅｎｃｏｄｉｎｇ）ベクトル、Ｐ（ｉ）は前記ピクセルそれぞれに対応するそれぞれのソフトマックススコアを意味することを特徴とする請求項５に記載の学習装置。
少なくとも一つの車線を有するテストイメージをセグメンテーションするテスト装置において、
インストラクションを格納する少なくとも一つのメモリと、
学習装置が、（１）ＣＮＮ（ＣｏｎｖｏｌｕｔｉｏｎａｌＮｅｕｒａｌＮｅｔｗｏｒｋ）モジュールをもって、トレーニングイメージに対してコンボリューション演算を少なくとも一回適用させて学習用特徴マップを生成した後、前記学習用特徴マップに対してデコンボリューション演算を少なくとも一回適用させて前記トレーニングイメージ上のそれぞれのピクセルに対する学習用セグメンテーションスコア（ＳｅｇｍｅｎｔａｔｉｏｎＳｃｏｒｅ）それぞれを生成させ、（２）前記ＣＮＮモジュールをもって、前記学習用セグメンテーションスコアそれぞれに対してソフトマックス演算（ＳｏｆｔｍａｘＯｐｅｒａｔｉｏｎ）を少なくとも一回適用させて学習用ソフトマックススコアそれぞれを生成させ、（３）前記ＣＮＮモジュールをもって、（３−１）（ｉ）前記学習用ソフトマックススコアそれぞれに対して多項ロジスティックロス演算（ＭｕｌｔｉｎｏｍｉａｌＬｏｇｉｓｔｉｃＬｏｓｓＯｐｅｒａｔｉｏｎ）を少なくとも一回適用させてソフトマックスロスそれぞれを生成させ、（ｉｉ）前記学習用ソフトマックススコアそれぞれに対してピクセルエンベディング演算（ＰｉｘｅｌＥｍｂｅｄｄｉｎｇＯｐｅｒａｔｉｏｎ）を少なくとも一回適用させて、前記車線それぞれの前記学習用セグメンテーションスコアのそれぞれの平均のうち異なる車線間の平均の差は大きくなるようにし、前記車線それぞれの前記学習用セグメンテーションスコアの分散のうちそれぞれの同一車線内部の分散は小さくなるように前記ＣＮＮモジュールの学習を誘導するそれぞれのエンベディングロスを生成した後、（３−２）それぞれの前記ソフトマックスロス及びそれぞれの前記エンベディングロスを利用したバックプロパゲーションを通じて、前記ＣＮＮモジュールの少なくとも一つのパラメータを学習させた状態で、（Ｉ）前記ＣＮＮモジュールをもって、前記テストイメージに対してコンボリューション演算を適用させてテスト用特徴マップを生成した後、前記テスト用特徴マップに対してデコンボリューション演算を適用させて前記テストイメージ上のそれぞれのピクセルに対するテスト用セグメンテーションスコアそれぞれを生成させるプロセス、及び（ＩＩ）前記ＣＮＮモジュールをもって、前記テスト用セグメンテーションスコアそれぞれに対してソフトマックス演算を適用させてテスト用ソフトマックススコアそれぞれを生成させるプロセスを遂行するための前記インストラクションを実行するように構成された少なくとも一つのプロセッサと、
を含むことを特徴とするテスト装置。