JP2020119496A

JP2020119496A - 危険要素検出に利用される学習用イメージデータセットの生成方法及びコンピューティング装置、そしてこれを利用した学習方法及び学習装置｛ｍｅｔｈｏｄａｎｄｃｏｍｐｕｔｉｎｇｄｅｖｉｃｅｆｏｒｇｅｎｅｒａｔｉｎｇｉｍａｇｅｄａｔａｓｅｔｔｏｂｅｕｓｅｄｆｏｒｈａｚａｒｄｄｅｔｅｃｔｉｏｎａｎｄｌｅａｒｎｉｎｇｍｅｔｈｏｄａｎｄｌｅａｒｎｉｎｇｄｅｖｉｃｅｕｓｉｎｇｔｈｅｓａｍｅ｝

Info

Publication number: JP2020119496A
Application number: JP2019193145A
Authority: JP
Inventors: 金桂賢; Kye-Hyeon Kim; 金鎔重; Yongjoong Kim; 金寅洙; Insu Kim; 金鶴京; Hak-Kyoung Kim; 南雲鉉; Woonhyun Nam; 夫碩▲くん▼; Sukhoon Boo; 成明哲; Myungchul Sung; 呂東勳; Donghun Yeo; 柳宇宙; Wooju Ryu; 張泰雄; Taewoong Jang
Original assignee: Stradvision Inc
Current assignee: Stradvision Inc
Priority date: 2019-01-25
Filing date: 2019-10-24
Publication date: 2020-08-06
Anticipated expiration: 2039-10-24
Also published as: KR20200092841A; CN111489297B; EP3686796A1; US10551845B1; JP6869565B2; CN111489297A; KR102313607B1

Abstract

【課題】入力イメージから物体検出をするためのＣＮＮ（ＣｏｎｖｏｌｕｔｉｏｎａｌＮｅｕｒａｌＮｅｔｗｏｒｋ）に利用される学習用イメージデータセットを生成する方法を提供する。【解決手段】方法は、物体とバックグラウンドとの間の境界にエッジ部分が設定され、バックグラウンド及び物体のそれぞれに対応して、それぞれの互いに異なるラベル値が割り当てられた第１ラベルイメージを取得する段階と、エッジ部分を抽出して、第１ラベルイメージからエッジイメージを生成する段階と、第１ラベルイメージに、抽出されたエッジ部分に重み付け値を付与して生成されたエッジ強化イメージを併合して第２ラベルイメージを生成する段階及び入力イメージと、第２ラベルイメージとを学習用イメージデータセットとして格納する段階と、を含む。【選択図】図１

Description

本発明は、少なくとも一つの入力イメージから一つ以上の物体検出をするためのＣＮＮ（ＣｏｎｖｏｌｕｔｉｏｎａｌＮｅｕｒａｌＮｅｔｗｏｒｋ）を利用して危険要素の検出能力を向上させるために利用される学習用イメージデータセットを生成する方法に関し；具体的には、前記入力イメージから前記物体検出をするためのＣＮＮに利用される学習用イメージデータセットを生成する前記方法において、（ａ）前記入力イメージにおいて、前記物体とバックグラウンドとの間の一つ以上の境界に一つ以上のエッジ部分が設定され、前記バックグラウンド及び前記物体のそれぞれに対応するクラスにそれぞれの互いに異なるラベル値が割り当てられた、前記入力イメージに対応する、少なくとも一つの第１ラベルイメージを取得するか、他の装置をもって取得するよう支援する段階；（ｂ）前記バックグラウンドのクラスと、前記物体の各クラスとの間のエッジ部分を抽出して、前記第１ラベルイメージから少なくとも一つのエッジイメージを生成するか、他の装置をもって生成するように支援する段階；（ｃ）前記抽出されたエッジ部分に一つ以上の重み付け値を付与して少なくとも一つのエッジ強化イメージを生成するか、他の装置をもって生成するように支援し、前記第１ラベルイメージに前記エッジ強化イメージを併合して、少なくとも一つの第２ラベルイメージを生成するか、他の装置をもって生成するように支援する段階；及び（ｄ）前記入力イメージと、これに対応するＧＴ（ＧｒｏｕｎｄＴｒｕｔｈ）イメージとしての前記第２ラベルイメージとを前記学習用イメージデータセットとして格納するか、他の装置をもって格納するように支援する段階；を含む方法及びこれを利用した学習方法及びコンピューティング装置に関する。

ディープラーニング（ＤｅｅｐＬｅａｒｎｉｎｇ）は、物やデータを群集化・分類するのに用いられる技術である。例えば、コンピュータは写真だけで犬と猫を区別することができない。しかし、人はとても簡単に区別することができる。このため、「機械学習（ＭａｃｈｉｎｅＬｅａｒｎｉｎｇ）」という方法が考案された。多くのデータをコンピュータに入力し、類似したものを分類するようにする技術である。格納されている犬の写真と似たような写真が入力されれば、これを犬の写真だとコンピュータが分類するようにしたのである。

データをいかに分類するかをめぐり、すでに多くの機械学習アルゴリズムが登場した。「決定木」や「ベイジアンネットワーク」「サポートベクターマシン（ＳＶＭ）」「人工神経網」などが代表的だ。このうち、ディープラーニングは人工神経網の後裔だ。

ディープ・コンボリューション・ニューラル・ネットワーク（ＤｅｅｐＣｏｎｖｏｌｕｔｉｏｎＮｅｕｒａｌＮｅｔｗｏｒｋｓ；ＤｅｅｐＣＮＮ）は、ディープラーニング分野で起きた驚くべき発展の核心である。ＣＮＮは、文字の認識問題を解くために９０年代にすでに使われたが、現在のように広く使われるようになったのは最近の研究結果のおかげだ。このようなディープＣＮＮは２０１２年ＩｍａｇｅＮｅｔイメージ分類コンテストで他の競争相手に勝って優勝を収めた。そして、コンボリューションニューラルネットワークは機械学習分野で非常に有用なツールとなった。

イメージセグメンテーション（Ｉｍａｇｅｓｅｇｍｅｎｔａｔｉｏｎ）は、入力としてイメージを受けて、出力としてラベリングされたイメージを作り出す方法である。最近、ディープラーニング（Ｄｅｅｐｌｅａｒｎｉｎｇ）技術が脚光を浴び、セグメンテーションもディープラーニングを多く利用する傾向にある。コンボリューション演算を利用してラベルイメージを作り出す方法など、初期にはエンコーダのみを用いるセグメンテーションを試みていた。その後、エンコーダ・デコーダ構造を設計して、エンコーダでイメージの特徴を抽出し、デコーダを用いてラベルイメージに復元する方法が利用された。しかし、エンコーダ・デコーダの構造だけでは、精密なラベルイメージを得ることが難しかった。すなわち、イメージのエンコーディング及びデコーディング過程でエッジ部分が多く消える問題があり、このような問題を解決し、イメージやそれに対応する特徴マップからエッジを強化するための様々な方法が提案されている。

本発明は、前述した問題点を全て解決することを目的とする。

本発明は、一つ以上の強化されたセマンティック（ｓｅｍａｎｔｉｃ）エッジ部分を含む、少なくとも一つのラベルイメージを利用して、一つ以上のエッジ部分を検出するＣＮＮ（ＣｏｎｖｏｌｕｔｉｏｎａｌＮｅｕｒａｌＮｅｔｗｏｒｋ）の学習に利用される、少なくとも一つの学習用イメージデータセットを提供することを他の目的とする。

また、本発明は、イメージセグメンテーション（Ｉｍａｇｅｓｅｇｍｅｎｔａｔｉｏｎ）の過程で精密なエッジ部分を見つけ得るようにＣＮＮを学習し得る方法を提供することをまた他の目的とする。

前記のような本発明の目的を達成し、後述する本発明の特徴的な効果を実現するための、本発明の特徴的な構成は下記の通りである。

本発明の一態様によれば、少なくとも一つの入力イメージから一つ以上の物体検出をするためのＣＮＮ（ＣｏｎｖｏｌｕｔｉｏｎａｌＮｅｕｒａｌＮｅｔｗｏｒｋ）に利用される学習用イメージデータセットを生成する方法において、（ａ）コンピューティング装置が、前記入力イメージにおいて、前記物体とバックグラウンドとの間の一つ以上の境界に一つ以上のエッジ部分が設定され、前記バックグラウンド及び前記物体のそれぞれに対応するクラスにそれぞれの互いに異なるラベル値が割り当てられた、前記入力イメージに対応する、少なくとも一つの第１ラベルイメージを取得するか、他の装置をもって取得するよう支援する段階；（ｂ）前記コンピューティング装置が、前記バックグラウンドのクラスと、前記物体の各クラスとの間の前記エッジ部分を抽出して、前記第１ラベルイメージから少なくとも一つのエッジイメージを生成するか、他の装置をもって生成するように支援する段階；（ｃ）前記コンピューティング装置が、前記抽出されたエッジ部分に一つ以上の重み付け値を付与して少なくとも一つのエッジ強化イメージを生成するか、他の装置をもって生成するように支援し、前記第１ラベルイメージに前記エッジ強化イメージを併合して、少なくとも一つの第２ラベルイメージを生成するか、他の装置をもって生成するように支援する段階；及び（ｄ）前記コンピューティング装置が、前記入力イメージと、これに対応するＧＴ（ＧｒｏｕｎｄＴｒｕｔｈ）イメージとしての前記第２ラベルイメージとを前記学習用イメージデータセットとして格納するか、他の装置をもって格納するように支援する段階；を含むことを特徴とする方法が提供される。

一例として、前記エッジ強化イメージにおいて、前記エッジ部分に割り当てられたラベル値は、前記第１ラベルイメージにおいて前記物体それぞれに割り当てられたそれぞれのラベル値より大きい。

一例として、前記（ｃ）段階において、前記抽出されたエッジ部分の幅を増加させることにより、一つ以上の拡大されたエッジ部分が生成され、前記拡大されたエッジ部分に前記重み付け値を付与して、前記エッジ強化イメージが生成される。

一例として、前記（ｃ）段階において、前記拡大されたエッジ部分に付与された前記重み付け値が均一な（ｕｎｉｆｏｒｍ）分布を有するように前記エッジ強化イメージが生成される。

一例として、前記（ｃ）段階において、前記拡大されたエッジ部分に付与された前記重み付け値が、ガウシアン（Ｇａｕｓｓｉａｎ）分布を有するように前記エッジ強化イメージが生成される。

本発明の他の態様によれば、少なくとも一つの入力イメージから一つ以上の物体を検出するためのＣＮＮの学習方法において、（ａ）第１コンピューティング装置が、（ｉ）前記入力イメージにおいて、前記物体とバックグラウンドとの間の一つ以上の境界に一つ以上のエッジ部分が設定され、前記バックグラウンド及び前記物体のそれぞれに対応するクラスにそれぞれの互いに異なるラベル値が割り当てられた、前記入力イメージに対応する、少なくとも一つの第１ラベルイメージを取得するか、他の装置をもって取得するよう支援するプロセス、（ｉｉ）前記バックグラウンドのクラスと、前記物体の各クラスとの間のエッジ部分を抽出して、前記第１ラベルイメージから少なくとも一つのエッジイメージを生成するか、他の装置をもって生成するように支援するプロセス、（ｉｉｉ）前記抽出されたエッジ部分に一つ以上の重み付け値を付与して少なくとも一つのエッジ強化イメージを生成するか、他の装置をもって生成するように支援し、前記第１ラベルイメージに前記エッジ強化イメージを併合して、少なくとも一つの第２ラベルイメージを生成するか、他の装置をもって生成するように支援するプロセス、及び（ｉｖ）前記入力イメージと、これに対応するＧＴ（ＧｒｏｕｎｄＴｒｕｔｈ）イメージとしての前記第２ラベルイメージとを少なくとも一つの学習用イメージデータセットとして格納するか、他の装置をもって格納するように支援するプロセスによって、前記学習用イメージデータセットを生成した状態で、第２コンピューティング装置は、前記入力イメージを前記トレーニングイメージとして取得するか、他の装置をもって獲得するように支援する段階；（ｂ）前記第２コンピューティング装置が、前記ＣＮＮから前記トレーニングイメージの少なくとも一つのセグメンテーション（ｓｅｇｍｅｎｔａｔｉｏｎ）の結果を取得するか、他の装置をもって取得できるよう支援する段階；及び（ｃ）前記第２コンピューティング装置が、前記セグメンテーション結果及び前記第２ラベルイメージを利用して少なくとも一つのロスを算出し、前記算出されたロスをバックプロパゲーション（ｂａｃｋｐｒｏｐａｇａｔｉｏｎ）して、前記ＣＮＮの一つ以上のパラメータを最適化するか、他の装置をもって最適化するように支援する段階；を含むことを特徴とする方法が提供される。

本発明のまた他の態様によれば、少なくとも一つの入力イメージから一つ以上の物体検出のためのＣＮＮに利用される学習用イメージデータセットを生成するコンピューティング装置において、各インストラクションを格納する少なくとも一つのメモリ；及び（Ｉ）前記入力イメージにおいて、前記物体とバックグラウンドとの間の一つ以上の境界に一つ以上のエッジ部分が設定され、前記バックグラウンド及び前記物体のそれぞれに対応するクラスにそれぞれの互いに異なるラベル値が割り当てられた、前記入力イメージに対応する、少なくとも一つの第１ラベルイメージを取得するか、他の装置をもって取得するよう支援するプロセス、（ＩＩ）前記バックグラウンドのクラスと、前記物体の各クラスとの間のエッジ部分を抽出して、前記第１ラベルイメージから少なくとも一つのエッジイメージを生成するか、他の装置をもって生成するように支援するプロセス、（ＩＩＩ）前記抽出されたエッジ部分に一つ以上の重み付け値を付与して少なくとも一つのエッジ強化イメージを生成するか、他の装置をもって生成するように支援し、前記第１ラベルイメージに前記エッジ強化イメージを併合して少なくとも一つの第２ラベルイメージを生成するか、他の装置をもって生成するように支援するプロセス、及び（ＩＶ）前記入力イメージと、これに対応するＧＴ（ＧｒｏｕｎｄＴｒｕｔｈ）イメージとしての前記第２ラベルイメージとを前記学習用イメージデータセットとして格納するか、他の装置をもって格納するように支援するプロセスを遂行するための前記インストラクションを実行するように構成された少なくとも一つのプロセッサ；を含むことを特徴とするコンピューティング装置が提供される。

一例として、前記（ＩＩＩ）プロセスにおいて、前記抽出されたエッジ部分の幅を増加させることにより一つ以上の拡大されたエッジ部分が生成され、前記拡大されたエッジ部分に前記重み付け値を付与して、前記エッジ強化イメージが生成される。

一例として、前記（ＩＩＩ）プロセスにおいて、前記拡大されたエッジ部分に付与された前記重み付け値が均一な（ｕｎｉｆｏｒｍ）分布を有するように前記エッジ強化イメージが生成される。

一例として、前記（ＩＩＩ）プロセスにおいて、前記拡大されたエッジ部分に付与された前記重み付け値が、ガウシアン（Ｇａｕｓｓｉａｎ）分布を有するように前記エッジ強化イメージが生成される。

本発明のまた他の態様によれば、少なくとも一つの入力イメージから少なくとも一つの物体検出するためのＣＮＮのコンピューティング装置において、各インストラクションを格納する少なくとも一つのメモリ；及び第１コンピューティング装置が、（ｉ）前記入力イメージにおいて、前記物体とバックグラウンドとの間の一つ以上の境界に一つ以上のエッジ部分が設定され、前記バックグラウンド及び前記物体のそれぞれに対応するクラスにそれぞれの互いに異なるラベル値が割り当てられた、前記入力イメージに対応する、少なくとも一つの第１ラベルイメージを取得するか、他の装置をもって取得するよう支援するプロセス、（ｉｉ）前記バックグラウンドのクラスと、前記物体の各クラスとの間のエッジ部分を抽出して、前記第１ラベルイメージから少なくとも一つのエッジイメージを生成するか、他の装置をもって生成するように支援するプロセス、（ｉｉｉ）前記抽出されたエッジ部分に一つ以上の重み付け値を付与して少なくとも一つのエッジ強化イメージを生成するか、他の装置をもって生成するように支援し、前記第１ラベルイメージに前記エッジ強化イメージを併合して少なくとも一つの第２ラベルイメージを生成するか、他の装置をもって生成するように支援するプロセス、及び（ｉｖ）前記入力イメージと、これに対応するＧＴ（ＧｒｏｕｎｄＴｒｕｔｈ）イメージとしての前記第２ラベルイメージとを少なくとも一つの学習用イメージデータセットとして格納するか、他の装置をもって格納するように支援するプロセスによって、前記学習用イメージデータセットを生成した状態で；（Ｉ）前記ＣＮＮから前記トレーニングイメージの少なくとも一つのセグメンテーションの結果を取得するか、他の装置をもって取得するように支援するプロセス及び（ＩＩ）前記セグメンテーション結果及び前記第２ラベルイメージを利用して少なくとも一つのロスを算出し、前記算出されたロスをバックプロパゲーションして前記ＣＮＮの一つ以上のパラメータを最適化するか、他の装置をもって最適化するように支援するプロセスを遂行するための、前記各インストラクションを実行するように構成された少なくとも一つのプロセッサ；を含むことを特徴とするコンピューティング装置が提供される。

本発明によれば、エッジを強化したラベルのイメージを利用して、ＣＮＮ（ＣｏｎｖｏｌｕｔｉｏｎａｌＮｅｕｒａｌＮｅｔｗｏｒｋ）によってエッジを効果的に探し得る効果がある。

また、本発明によれば、エッジ強化イメージによる学習によって、今後イメージセグメンテーション（Ｉｍａｇｅｓｅｇｍｅｎｔａｔｉｏｎ）に関するテスト過程の際、精密なエッジを探し得る効果がある。

本発明の実施例の説明に利用されるために添付された以下の各図面は、本発明の実施例のうちの一部に過ぎず、本発明が属する技術分野でおいて、通常の知識を有する者（以下「通常の技術者」）は、発明的作業が行われることなくこの図面に基づいて他の図面が得られ得る。

本発明に係る学習用イメージデータセットの生成過程を概略的に示したフローチャートである。本発明に係る少なくとも一つのエッジ強化イメージを少なくとも一つの初期ラベルイメージと併合して、少なくとも一つの新しいラベルのイメージを作る過程での各イメージを例示的に示した図面である。本発明に係る前記エッジ強化イメージ、前記初期ラベルイメージ及び前記エッジ強化イメージを前記初期ラベルイメージと併合して生成された、前記新しいラベルイメージ、そしてこれらそれぞれに対応するラベル値分布の例を示す図面である。

後述する本発明に対する詳細な説明は、本発明の各目的、技術的解決方法及び長所を明確にするために、本発明が実施され得る特定の実施例を例示として示す添付図面を参照する。これらの実施例は、通常の技術者が本発明を実施することができるように充分詳細に説明される。

また、本発明の詳細な説明及び各請求項にわたって、「含む」という単語及びそれらの変形は、他の技術的各特徴、各付加物、構成要素又は段階を除外することを意図したものではない。通常の技術者にとって本発明の他の各目的、長所及び各特性が、一部は本説明書から、また一部は本発明の実施から明らかになるであろう。以下の例示及び図面は実例として提供され、本発明を限定することを意図したものではない。

さらに、本発明は、本明細書に示された実施例のあらゆる可能な組合せを網羅する。本発明の多様な実施例は相互異なるが、相互排他的である必要はないことを理解されたい。例えば、ここに記載されている特定の形状、構造及び特性は一例と関連して、本発明の精神及び範囲を逸脱せず、かつ他の実施例で実装され得る。また、各々の開示された実施例内の個別構成要素の位置または配置は本発明の精神及び範囲を逸脱せずに変更され得ることを理解されたい。従って、後述する詳細な説明は限定的な意味で捉えようとするものではなく、本発明の範囲は、適切に説明されれば、その請求項が主張することと均等なすべての範囲と、併せて添付された請求項によってのみ限定される。図面で類似する参照符号はいくつかの側面にかけて同一か類似する機能を指称する。

本発明で言及している各種イメージは、舗装または非舗装道路関連のイメージを含み得、この場合、道路環境で登場し得る物体（例えば、自動車、人、動物、植物、物、建物、飛行機やドローンのような飛行体、その他の障害物）を想定し得るが、必ずしもこれに限定されるものではなく、本発明で言及している各種イメージは、道路と関係のないイメージ（例えば、非舗装道路、路地、空き地、海、湖、川、山、森、砂漠、空、室内と関連したイメージ）でもあり得、この場合、非舗装道路、路地、空き地、海、湖、川、山、森、砂漠、空、室内環境で登場し得る物体（例えば、自動車、人、動物、植物、物、建物、飛行機やドローンのような飛行体、その他の障害物）を想定し得るが、必ずしもこれに限定されるものではない。
以下、本発明が属する技術分野で通常の知識を有する者が本発明を容易に実施することができるようにするために、本発明の好ましい実施例について添付の図面に基づいて詳細に説明する。

図１は、本発明に係る学習用イメージデータセットの生成過程を概略的に示したフローチャートである。図２は、本発明に係る少なくとも一つのエッジ強化イメージを少なくとも一つの初期ラベルイメージと併合して、少なくとも一つの新しいラベルのイメージを作る過程での各イメージを例示的に示している。

図１及び図２を参照して、本発明に係る一つ以上の物体検出をするためのＣＮＮ（ＣｏｎｖｏｌｕｔｉｏｎａｌＮｅｕｒａｌＮｅｔｗｏｒｋ）に利用される前記学習用イメージデータセットを生成する過程を説明する。

まず、コンピューティング装置が、入力イメージにおいて、前記物体とバックグラウンドとの間の一つ以上の境界に一つ以上のエッジ部分が設定され、前記バックグラウンド及び前記物体のそれぞれに対応するクラスにそれぞれの互いに異なるラベル値が割り当てられた、前記入力イメージに対応する、前記初期ラベル（ｌａｂｅｌ）イメージ、すなわち、少なくとも一つの第１ラベルイメージを取得するか、他の装置をもって取得するよう支援する（Ｓ０１）。図２を参照すれば、前記入力イメージ１０において、前記バックグラウンドと、前記物体それぞれに対応する各クラスにそれぞれ異なるラベル値が割り当てられた、前記入力イメージに対応される、前記第１ラベルのイメージ２０を取得するか、他の装置をもって取得するように支援する過程が示されている。この場合、前記第１ラベルイメージ２０において、前記バックグラウンドに対応するクラスのラベル値は０が、二つのコインに対応するクラスのラベル値は１が割り当てられ得、前記バックグラウンドに対応するクラスのラベル値は０、左側コインに対応するクラスのラベル値は１、右側コインに対応するクラスのラベル値は２に割り当てられ得るであろう。

その後、前記コンピューティング装置は、前記バックグラウンドのクラスと、前記物体の各クラスとの間の前記エッジ部分を抽出して、前記第１ラベルイメージから少なくとも一つのエッジイメージ３０を生成するか、他の装置をもって生成するように支援する（Ｓ０２）。その後、前記コンピューティング装置は、前記抽出されたエッジ部分に一つ以上の重み付け値（ｗｅｉｇｈｔ）を付与して、前記エッジ強化イメージ４０を生成するか、他の装置をもって生成するように支援する（Ｓ０３）。一例として、前記コンピューティング装置は、前記エッジ部分の幅を増加させ、前記拡大されたエッジ部分に前記重み付け値を付与し、前記エッジ強化イメージを生成するか、他の装置をもって生成するよう支援し得る。この際、前記エッジ強化イメージ４０において、前記エッジ部分（又は前記拡大されたエッジ部分）に割り当てられたラベル値は、前記第１ラベルイメージ２０内のそれぞれの前記物体に割り当てられたそれぞれのラベル値より大きく設定され得る。例えば、前記第１ラベルイメージ２０において、前記バックグラウンドに対応するクラスのラベル値は０、二つのコインに対応するクラスのラベル値は１に割り当てられるならば、前記エッジ部分のラベル値は２に割り当てられるであろう。しかしながら、前記第１ラベルイメージ２０において、前記二つのコインに対応するクラスの領域と、前記エッジ強化イメージ４０において前記エッジ部分に対応するクラス領域とが互いに重なるため、前記エッジ部分のラベル値が、前記二つのコインに対応するクラスラベル値より大きい必要はないであろう。この場合、以降で説明されるであろうが、前記エッジ部分のラベル値は、前記二つのコインに対応するクラスのラベル値より大きい値を有することになるためである。

図３は、本発明に係る（ｉ）前記エッジ強化イメージ、前記初期ラベルイメージ及び前記エッジ強化イメージを前記初期ラベルイメージと併合して生成された、前記新しいラベルイメージ、そして（ｉｉ）これらそれぞれに対応するラベル値分布の例を示している。

図３を参照すれば、前記エッジ強化イメージ４０は、前記エッジイメージ３０の前記エッジ部分に一つ以上の重み付け値を付与し、前記エッジ部分が強化されることにより生成される。他の例として、前記エッジ部分の幅を増加させることにより、一つ以上の拡大されたエッジ部分が生成され、前記拡大されたエッジ部分に前記重み付け値を付与して前記エッジ強化イメージ４０が生成され得る。この際、前記エッジ部分（又は前記拡大されたエッジ部分）のラベルの値は、他の部分、つまり、前記バックグラウンドのラベル値と異なることがある。図３の例において、一例に係る前記エッジ強化のイメージ４０は、前記エッジ強化のイメージ４０内の前記エッジ部分（又は前記拡大されたエッジ部分）のラベル値４１が均一な（ｕｎｉｆｏｒｍ）分布を有するように形成される。この際、前記エッジ部分（又は前記拡大されたエッジ部分）に前記重み付け値をする方法で前記エッジ強化のイメージ４０を生成する場合には、前記エッジ部分（又は前記拡大されたエッジ部分）に付与された前記重み付け値が均一な分布を有するように前記エッジ強化イメージ４０が形成され得る。また、他の例に係る前記エッジ強化のイメージ４０は、前記エッジ強化のイメージ４０内の前記エッジ部分（又は前記拡大されたエッジ部分）のラベル値４２がガウシアン（Ｇａｕｓｓｉａｎ）分布を有するように前記エッジ強化イメージ４０が生成され得る。この際、前記エッジ部分（又は前記拡大されたエッジ部分）に前記重み付け値を付与する方法で前記エッジ強化のイメージ４０を生成する場合には、前記拡大されたエッジ部分に付与された前記重み付け値がガウシアン分布を有するように前記エッジ強化イメージ４０が形成され得る。

その後、図１及び図２を再度参照すれば、前記コンピューティング装置が、前記初期ラベルイメージ、すなわち、前記第１ラベルイメージ２０に前記エッジ強化イメージ４０を併合して、前記新しいラベルイメージ、すなわち、第２ラベルイメージ５０を生成するか、他の装置をもって生成するように支援し得る（Ｓ０４）。前記第１ラベルイメージ２０に前記エッジ強化イメージ４０を併合する過程は、各イメージの各ラベル値の要素ごとの和（ｅｌｅｍｅｎｔ−ｗｉｓｅｓｕｍ）で遂行され得、前記第１ラベルイメージ２０のラベル値に前記エッジ強化イメージ４０の前記重み付け値を要素ごとの積（ｅｌｅｍｅｎｔ−ｗｉｓｅｐｒｏｄｕｃｔ）を適用した後に、前記要素ごとの和が遂行されることもある。
図３を参照すれば、一例に係る前記エッジ強化イメージ４０内の前記エッジ部分（又は前記拡大されたエッジ部分）のラベル値４１が均一な分布を有する場合に、前記ラベル値４１が前記第１ラベルイメージ２０のラベル値２１と合算されれば、前記第２ラベルイメージ５０のラベル値５１を得ることができ、他の実施例に係る前記エッジ強化のイメージ４０内の前記エッジ部分（又は前記拡大されたエッジ部分）のラベル値４２がカウシアン分布を有する場合、前記ラベル値４２が前記第１ラベルイメージ２０のラベル値２２と合算されれば、前記第２ラベルイメージ５０のラベル値５２を得ることができる。前記第２ラベルのイメージ５０では、前記エッジ部分の幅が広いだけでなく、二つの実施例（５１及び５２）の前記エッジ部分（又は前記拡大されたエッジ部分）の前記重み付け値またはラベル値が他のクラスより大きく設定される。

それから、前記コンピューティング装置が、（ｉ）前記入力イメージ１０と（ｉｉ）前記入力イメージ１０に対応するＧＴ（ＧｒｏｕｎｄＴｒｕｔｈ）イメージとして機能する前記第２ラベルイメージ５０とを学習用イメージデータセットとして格納するか、他の装置をもって格納するように支援し得る（Ｓ０５）。

そして、前記学習用イメージデータセットを利用して、前記ＣＮＮの一つ以上のパラメータが学習され得る（Ｓ０６）。この際、前記第２ラベルイメージ５０は、前記入力イメージ１０から求めたセグメンテーション（ｓｅｇｍｅｎｔａｔｉｏｎ）結果と比較される前記ＧＴイメージとして機能する。例えば、前記入力イメージ１０を前記ＣＮＮに入力してセグメンテーション結果が生成された後、前記セグメンテーション結果と、前記第２ラベルイメージ５０とを利用して、少なくとも一つのロスが算出され、前記算出されたロスをバックプロパゲーション（ｂａｃｋｐｒｏｐａｇａｔｉｏｎ）して前記ＣＮＮの前記パラメータが学習され得る。

これと同じ方式で生成された前記学習用イメージデータセットを利用して、前記ＣＮＮの前記パラメータが学習されれば、前記第２ラベルイメージ５０内の前記エッジ部分が前記ＧＴイメージのように強化されているため、前記エッジ部分を検出するための前記ＣＮＮの学習がより効果的に行われ得る。特に、前記エッジ部分のラベル値が他のクラスのラベル値より大きければ、前記エッジ部分のロス値が他の部分のロス値より大きく算出されて学習が良好にされ得る。これによって、前記エッジ部分をもっとよく探す方向で学習が行われるようになり、結局さらに精密なエッジ部分を有するセグメンテーション結果を得るように学習され得るようになる。

前述の方法は、走行の際の危険要素を検出する能力を向上させるために利用され得、交通信号機、表示版、道路標識などを検出する程度を増加させることができる。

本発明技術分野の通常の技術者に理解され、前記で説明されたイメージ、例えばトレーニングイメージ、テストイメージといったイメージデータの送受信が学習装置及びテスト装置の各通信部によって行われ得、特徴マップと演算を遂行するためのデータが学習装置及びテスト装置のプロセッサ（及び／またはメモリ）によって保有／維持され得、コンボリューション演算、デコンボリューション演算、ロス値の演算過程が主に学習装置及びテスト装置のプロセッサにより遂行され得るが、本発明はこれに限定されるものではない。

また、以上で説明された本発明に係る実施例は、多様なコンピュータ構成要素を通じて遂行できるプログラム命令語の形態で実装されてコンピュータで判読可能な記録媒体に記録され得る。前記コンピュータで判読可能な記録媒体はプログラム命令語、データファイル、データ構造などを単独でまたは組み合わせて含まれ得る。前記コンピュータ判読可能な記録媒体に記録されるプログラム命令語は、本発明のために特別に設計されて構成されたものか、コンピュータソフトウェア分野の当業者に公知となって使用可能なものでもよい。コンピュータで判読可能な記録媒体の例には、ハードディスク、フロッピィディスク及び磁気テープのような磁気媒体、ＣＤ−ＲＯＭ、ＤＶＤのような光記録媒体、フロプティカルディスク（ｆｌｏｐｔｉｃａｌｄｉｓｋ）のような磁気−光媒体（ｍａｇｎｅｔｏ−ｏｐｔｉｃａｌｍｅｄｉａ）、およびＲＯＭ、ＲＡＭ、フラッシュメモリなどといったプログラム命令語を格納して遂行するように特別に構成されたハードウェア装置が含まれる。プログラム命令語の例には、コンパイラによって作られるもののような機械語コードだけでなく、インタプリタなどを用いてコンピュータによって実行され得る高級言語コードも含まれる。前記ハードウェア装置は、本発明に係る処理を遂行するために一つ以上のソフトウェアモジュールとして作動するように構成され得、その逆も同様である。

以上、本発明が具体的な構成要素などのような特定事項と限定された実施例及び図面によって説明されたが、これは本発明のより全般的な理解を助けるために提供されたものであるに過ぎず、本発明が前記実施例に限られるものではなく、本発明が属する技術分野において通常の知識を有する者であれば係る記載から多様な修正及び変形が行われ得る。

従って、本発明の思想は前記説明された実施例に局限されて定められてはならず、後述する特許請求の範囲だけでなく、本特許請求の範囲と均等または等価的に変形されたものすべては、本発明の思想の範囲に属するといえる。

Claims

少なくとも一つの入力イメージから一つ以上の物体検出をするためのＣＮＮ（ＣｏｎｖｏｌｕｔｉｏｎａｌＮｅｕｒａｌＮｅｔｗｏｒｋ）に利用される学習用イメージデータセットを生成する方法において、
（ａ）コンピューティング装置が、前記入力イメージにおいて、前記物体とバックグラウンドとの間の一つ以上の境界に一つ以上のエッジ部分が設定され、前記バックグラウンド及び前記物体のそれぞれに対応するクラスにそれぞれの互いに異なるラベル値が割り当てられた、前記入力イメージに対応する、少なくとも一つの第１ラベルイメージを取得するか、他の装置をもって取得するよう支援する段階；
（ｂ）前記コンピューティング装置が、前記バックグラウンドのクラスと、前記物体の各クラスとの間の前記エッジ部分を抽出して、前記第１ラベルイメージから少なくとも一つのエッジイメージを生成するか、他の装置をもって生成するように支援する段階；
（ｃ）前記コンピューティング装置が、前記抽出されたエッジ部分に一つ以上の重み付け値を付与して少なくとも一つのエッジ強化イメージを生成するか、他の装置をもって生成するように支援し、前記第１ラベルイメージに前記エッジ強化イメージを併合して、少なくとも一つの第２ラベルイメージを生成するか、他の装置をもって生成するように支援する段階；及び
（ｄ）前記コンピューティング装置が、前記入力イメージと、これに対応するＧＴ（ＧｒｏｕｎｄＴｒｕｔｈ）イメージとしての前記第２ラベルイメージとを前記学習用イメージデータセットとして格納するか、他の装置をもって格納するように支援する段階；
を含むことを特徴とする方法。
前記エッジ強化イメージにおいて、前記エッジ部分に割り当てられたラベル値は、前記第１ラベルイメージにおいて前記物体それぞれに割り当てられたそれぞれのラベル値より大きいことを特徴とする請求項１に記載の方法。
前記（ｃ）段階において、
前記抽出されたエッジ部分の幅を増加させることにより、一つ以上の拡大されたエッジ部分が生成され、前記拡大されたエッジ部分に前記重み付け値を付与して、前記エッジ強化イメージが生成されることを特徴とする請求項１に記載の方法。
前記（ｃ）段階において、
前記拡大されたエッジ部分に付与された前記重み付け値が均一な（ｕｎｉｆｏｒｍ）分布を有するように前記エッジ強化イメージが生成されることを特徴とする請求項３に記載の方法。
前記（ｃ）段階において、
前記拡大されたエッジ部分に付与された前記重み付け値が、ガウシアン（Ｇａｕｓｓｉａｎ）分布を有するように前記エッジ強化イメージが生成されることを特徴とする請求項３に記載の方法。
少なくとも一つの入力イメージから一つ以上の物体を検出するためのＣＮＮの学習方法において、
（ａ）第１コンピューティング装置が、（ｉ）前記入力イメージにおいて、前記物体とバックグラウンドとの間の一つ以上の境界に一つ以上のエッジ部分が設定され、前記バックグラウンド及び前記物体のそれぞれに対応するクラスにそれぞれの互いに異なるラベル値が割り当てられた、前記入力イメージに対応する、少なくとも一つの第１ラベルイメージを取得するか、他の装置をもって取得するよう支援するプロセス、（ｉｉ）前記バックグラウンドのクラスと、前記物体の各クラスとの間のエッジ部分を抽出して、前記第１ラベルイメージから少なくとも一つのエッジイメージを生成するか、他の装置をもって生成するように支援するプロセス、（ｉｉｉ）前記抽出されたエッジ部分に一つ以上の重み付け値を付与して少なくとも一つのエッジ強化イメージを生成するか、他の装置をもって生成するように支援し、前記第１ラベルイメージに前記エッジ強化イメージを併合して、少なくとも一つの第２ラベルイメージを生成するか、他の装置をもって生成するように支援するプロセス、及び（ｉｖ）前記入力イメージと、これに対応するＧＴ（ＧｒｏｕｎｄＴｒｕｔｈ）イメージの前記第２ラベルイメージとを少なくとも一つの学習用イメージデータセットとして格納するか、他の装置をもって格納するように支援するプロセスによって、前記学習用イメージデータセットを生成した状態で、第２コンピューティング装置は、前記入力イメージを前記トレーニングイメージとして取得するか、他の装置をもって獲得するように支援する段階；
（ｂ）前記第２コンピューティング装置が、前記ＣＮＮから前記トレーニングイメージの少なくとも一つのセグメンテーション（ｓｅｇｍｅｎｔａｔｉｏｎ）の結果を取得するか、他の装置をもって取得できるよう支援する段階；及び
（ｃ）前記第２コンピューティング装置が、前記セグメンテーション結果及び前記第２ラベルイメージを利用して少なくとも一つのロスを算出し、前記算出されたロスをバックプロパゲーション（ｂａｃｋｐｒｏｐａｇａｔｉｏｎ）して、前記ＣＮＮの一つ以上のパラメータを最適化するか、他の装置をもって最適化するように支援する段階；
を含むことを特徴とする方法。
少なくとも一つの入力イメージから一つ以上の物体検出のためのＣＮＮに利用される学習用イメージデータセットを生成するコンピューティング装置において、
各インストラクションを格納する少なくとも一つのメモリ；及び
（Ｉ）前記入力イメージにおいて、前記物体とバックグラウンドとの間の一つ以上の境界に一つ以上のエッジ部分が設定され、前記バックグラウンド及び前記物体のそれぞれに対応するクラスにそれぞれの互いに異なるラベル値が割り当てられた、前記入力イメージに対応する、少なくとも一つの第１ラベルイメージを取得するか、他の装置をもって取得するよう支援するプロセス、（ＩＩ）前記バックグラウンドのクラスと、前記物体の各クラスとの間のエッジ部分を抽出して、前記第１ラベルイメージから少なくとも一つのエッジイメージを生成するか、他の装置をもって生成するように支援するプロセス、（ＩＩＩ）前記抽出されたエッジ部分に一つ以上の重み付け値を付与して少なくとも一つのエッジ強化イメージを生成するか、他の装置をもって生成するように支援し、前記第１ラベルイメージに前記エッジ強化イメージを併合して少なくとも一つの第２ラベルイメージを生成するか、他の装置をもって生成するように支援するプロセス、及び（ＩＶ）前記入力イメージと、これに対応するＧＴ（ＧｒｏｕｎｄＴｒｕｔｈ）イメージとしての前記第２ラベルイメージとを前記学習用イメージデータセットとして格納するか、他の装置をもって格納するように支援するプロセスを遂行するための前記インストラクションを実行するように構成された少なくとも一つのプロセッサ；
を含むことを特徴とするコンピューティング装置。
前記エッジ強化イメージにおいて、前記エッジ部分に割り当てられたラベル値は、前記第１ラベルイメージにおいて前記物体それぞれに割り当てられたそれぞれのラベル値より大きいことを特徴とする請求項７に記載のコンピューティング装置。
前記（ＩＩＩ）プロセスにおいて、
前記抽出されたエッジ部分の幅を増加させることにより一つ以上の拡大されたエッジ部分が生成され、前記拡大されたエッジ部分に前記重み付け値を付与して、前記エッジ強化イメージが生成されることを特徴とする請求項７に記載のコンピューティング装置。
前記（ＩＩＩ）プロセスにおいて、
前記拡大されたエッジ部分に付与された前記重み付け値が均一な（ｕｎｉｆｏｒｍ）分布を有するように前記エッジ強化イメージが生成されることを特徴とする請求項９に記載のコンピューティング装置。
前記（ＩＩＩ）プロセスにおいて、
前記拡大されたエッジ部分に付与された前記重み付け値が、ガウシアン（Ｇａｕｓｓｉａｎ）分布を有するように前記エッジ強化イメージが生成されることを特徴とする請求項９に記載のコンピューティング装置。
少なくとも一つの入力イメージから少なくとも一つの物体検出するためのＣＮＮのコンピューティング装置において、
各インストラクションを格納する少なくとも一つのメモリ；及び
第１コンピューティング装置が、（ｉ）前記入力イメージにおいて、前記物体とバックグラウンドとの間の一つ以上の境界に一つ以上のエッジ部分が設定され、前記バックグラウンド及び前記物体のそれぞれに対応するクラスにそれぞれの互いに異なるラベル値が割り当てられた、前記入力イメージに対応する、少なくとも一つの第１ラベルイメージを取得するか、他の装置をもって取得するよう支援するプロセス、（ｉｉ）前記バックグラウンドのクラスと、前記物体の各クラスとの間のエッジ部分を抽出して、前記第１ラベルイメージから少なくとも一つのエッジイメージを生成するか、他の装置をもって生成するように支援するプロセス、（ｉｉｉ）前記抽出されたエッジ部分に一つ以上の重み付け値を付与して少なくとも一つのエッジ強化イメージを生成するか、他の装置をもって生成するように支援し、前記第１ラベルイメージに前記エッジ強化イメージを併合して少なくとも一つの第２ラベルイメージを生成するか、他の装置をもって生成するように支援するプロセス、及び（ｉｖ）前記入力イメージと、これに対応するＧＴ（ＧｒｏｕｎｄＴｒｕｔｈ）イメージとしての前記第２ラベルイメージとを少なくとも一つの学習用イメージデータセットとして格納するか、他の装置をもって格納するように支援するプロセスによって、前記学習用イメージデータセットを生成した状態で；（Ｉ）前記ＣＮＮから前記トレーニングイメージの少なくとも一つのセグメンテーションの結果を取得するか、他の装置をもって取得するように支援するプロセス及び（ＩＩ）前記セグメンテーション結果及び前記第２ラベルイメージを利用して少なくとも一つのロスを算出し、前記算出されたロスをバックプロパゲーションして前記ＣＮＮの一つ以上のパラメータを最適化するか、他の装置をもって最適化するように支援するプロセスを遂行するための、前記各インストラクションを実行するように構成された少なくとも一つのプロセッサ；
を含むことを特徴とするコンピューティング装置。