JP2020068013A

JP2020068013A - 障害物の下段ラインを基準にｒｏｉを検出する学習方法及び学習装置、そしてこれを利用したテスト方法及びテスト装置｛ｌｅａｒｎｉｎｇｍｅｔｈｏｄ，ｌｅａｒｎｉｎｇｄｅｖｉｃｅｆｏｒｄｅｔｅｃｔｉｎｇｒｏｉｏｎｔｈｅｂａｓｉｓｏｆｂｏｔｔｏｍｌｉｎｅｓｏｆｏｂｓｔａｃｌｅｓａｎｄｔｅｓｔｉｎｇｍｅｔｈｏｄ，ｔｅｓｔｉｎｇｄｅｖｉｃｅｕｓｉｎｇｔｈｅｓａｍｅ｝

Info

Publication number: JP2020068013A
Application number: JP2019161673A
Authority: JP
Inventors: 金桂賢; Kye-Hyeon Kim; 金鎔重; Yongjoong Kim; 金寅洙; Insu Kim; 金鶴京; Hak-Kyoung Kim; 南雲鉉; Woonhyun Nam; 夫碩▲くん▼; Sukhoon Boo; 成明哲; Myungchul Sung; 呂東勳; Donghun Yeo; 柳宇宙; Wooju Ryu; 張泰雄; Taewoong Jang
Original assignee: Stradvision Inc
Current assignee: Stradvision Inc
Priority date: 2018-10-26
Filing date: 2019-09-05
Publication date: 2020-04-30
Anticipated expiration: 2039-09-05
Also published as: CN111104838B; JP6908939B2; US10438082B1; KR20200047303A; CN111104838A; EP3644240B1; EP3644240A1; KR102280401B1

Abstract

【課題】入力イメージ内の近接障害物のＲＯＩを検出し得るＣＮＮのパラメータを学習するための方法を提供する。【解決手段】学習装置は、第１〜第ｎのコンボリューションレイヤをもって、入力イメージから第１〜第ｎのエンコード済み特徴マップを生成し、第ｎ〜第１デコンボリューションレイヤをもって第ｎエンコード済み特徴マップから第ｎ〜第１デコード済み特徴マップを生成する。特定デコード済み特徴マップが行と列の方向に区画された場合、第ｎ〜第１デコード済み特徴マップを参照して障害物セグメンテーション結果を生成し、ＲＰＮ（ＲｅｇｉｏｎＰｒｏｐｏｓａｌＮｅｔｗｏｒｋ）をもって、アンカーボックス各々を参照にＲＯＩバウンディンボックスを生成し、ＲＯＩバウンディンボックス及びそれに対応する原本正解イメージを参照してロスを生成し、ロスをバックプロパゲーションして、パラメータを学習する。【選択図】図２

Description

本発明は、少なくとも一つの入力イメージから少なくとも一つの近接障害物の少なくとも一つの下段ライン（ｂｏｔｔｏｍｌｉｎｅ）を基準に少なくとも一つのＲＯＩ（ＲｅｇｉｏｎｏｆＩｎｔｅｒｅｓｔ）を検出するためのＣＮＮ（ＣｏｎｖｏｌｕｔｉｏｎａｌＮｅｕｒａｌＮｅｔｗｏｒｋ）のパラメータを学習する方法に関し；より詳細には、前記入力イメージから前記近接障害物の前記下段ラインを基準に前記ＲＯＩを検出するための前記ＣＮＮの前記パラメータを学習する前記方法において、（ａ）第１コンボリューションレイヤないし第ｎコンボリューションレイヤをもって、前記入力イメージから逐次的に第１エンコード済み特徴マップないし第ｎエンコード済み特徴マップを各々生成するようにする段階；（ｂ）第ｎデコンボリューションレイヤないし第１デコンボリューションレイヤをもって、前記第ｎエンコード済み特徴マップから逐次的に第ｎデコード済み特徴マップないし第１デコード済み特徴マップを生成するようにする段階；（ｃ）前記第ｎデコード済み特徴マップないし前記第１デコード済み特徴マップの中から少なくとも一つの特定デコード済み特徴マップをその行（ｒｏｗ）方向である第１方向及びその列（ｃｏｌｕｍｎ）方向である第２方向に分けることで、複数の列と複数の行を有するグリッドの各セルが生成されるとした場合、前記第ｎデコード済み特徴マップないし前記第１デコード済み特徴マップのうち、少なくとも一部特徴マップの少なくとも一つの特徴を参照することにより、前記列ごとに前記近接障害物各々の前記下段ライン各々が位置すると推定される特定の行各々を示す少なくとも一つの障害物セグメンテーション結果を生成する段階；（ｄ）前記特定の行の各々をもとに推定されるアンカリング行（ａｎｃｈｏｒｉｎｇｒｏｗ）各々のピクセルのうち、各々の前記ＲＯＩ検出に利用されるアンカーボックス（ａｎｃｈｏｒｂｏｘ）を生成するための各々の基礎としての前記列ごとのアンカー各々を決定する段階；（ｅ）ＲＰＮ（ＲｅｇｉｏｎＰｒｏｐｏｓａｌＮｅｔｗｏｒｋ）をもって、（ｉ）前記アンカーボックス各々を参照に少なくとも一つのＲＯＩバウンディンボックス（ｂｏｕｎｄｉｎｇｂｏｘ）を生成するようにするものの、前記アンカーボックスのうち少なくとも一つは、前記アンカー各々を基礎に推定され、（ｉｉ）前記ＲＯＩバウンディンボックス及びそれに対応する少なくとも一つの第１原本正解（ＧｒｏｕｎｄＴｒｕｔｈ）イメージを参照して少なくとも一つの第１ロスを生成するようにするものの、前記ＲＯＩバウンディンボックスは、前記アンカーボックスのうち、特定物体を含むものと推定される確率が高い特定のアンカーボックスであり、前記第１原本正解イメージは、前記入力イメージ内の前記特定物体を実際に含むバウンディンボックスを表示する段階；及び（ｆ）前記第１ロスをバックプロパゲーション（ｂａｃｋｐｒｏｐａｇａｔｉｏｎ）して、前記ＣＮＮの前記パラメータを学習する段階；を含むことを特徴とする方法及びこれを利用した学習装置、テスト方法及びテスト装置に関する。

ディープラーニング（ＤｅｅｐＬｅａｒｎｉｎｇ）は、モノやデータを群集化・分類するのに用いられる技術である。例えば、コンピュータは写真だけで犬と猫を区別することができない。しかし、人はとても簡単に区別できる。このため「機械学習（ＭａｃｈｉｎｅＬｅａｒｎｉｎｇ）」という方法が考案された。多くのデータをコンピュータに入力し、類似したものを分類するようにする技術である。保存されている犬の写真と似たような写真が入力されると、これを犬の写真だとコンピュータが分類するようにしたのである。

データをどのように分類するかをめぐり、すでに多くの機械学習アルゴリズムが登場した。「決定木」や「ベイジアンネットワーク」「サポートベクターマシン（ＳＶＭ）」「人工神経網」などが代表的だ。このうち、ディープラーニングは人工神経網の後裔だ。

ディープコンボリューションニューラルネットワーク（ＤｅｅｐＣｏｎｖｏｌｕｔｉｏｎＮｅｕｒａｌＮｅｔｗｏｒｋｓ；ＤｅｅｐＣＮＮｓ）は、ディープラーニング分野で起きた驚くべき発展の核心である。ＣＮＮｓは、文字の認識問題を解くために９０年代にすでに使われたが、現在のように広く使われるようになったのは最近の研究結果のおかげだ。このようなディープＣＮＮは２０１２年ＩｍａｇｅＮｅｔイメージ分類コンテストで他の競争相手に勝って優勝を収めた。そして、コンボリューションニューラルネットワークは機械学習分野で非常に有用なツールとなった。

図１は従来のＣＮＮを用いた一般的なセグメンテーションの従来のプロセスを簡略的に示した図面である。

図１を参照すれば、従来の車線検出方法では、学習装置が、入力イメージの入力を受けて、複数のコンボリューションレイヤで数回のコンボリューション演算とＲｅＬＵなどの非線形演算を遂行して特徴マップを生成し、デコンボリューションレイヤで複数回にわたるデコンボリューション演算と前記特徴マップの最後のマップでソフトマックス（ＳｏｆｔＭａｘ）演算を行うことでセグメンテーション結果を生成する。

一方、従来の道路セグメンテーション方法では、前記入力イメージからすべてのピクセルをセグメンテーションして、すべてのピクセルを見てこのピクセルが道路に該当するピクセルか、道路に該当しないピクセルかを区別しなければならなかった。この方法では、すべてのピクセルに対して判断を行うため演算量が多いという問題点が存在する。

一方、自動車の自律走行のために前記道路セグメンテーションをする際には、前記入力イメージから全ての物体や車線上の全ての物体をセグメンテーションする必要はなく、自律走行の妨げとなる障害物だけを検出すれば充分である。

従って、入力イメージから道路走行の妨げとなる可能性のある障害物（ｏｂｓｔａｃｌｅ）のみを検出する新たな手法の提示が求められている。

併せて、道路走行の妨げとなる可能性のある障害物に対する検出方法により、ＲＰＮ計算時にも演算量を減らして、前記物体のバウンディングボックスを見つけることができる方法の提示が求められている。

本発明は、自動車の自律走行のために、道路走行の妨げとなる可能性のある近接障害物を検出する新たな手法を提供することを目的とする。

また本発明は、入力イメージ内の全てのピクセルを検討することなく、少ない演算量で近接障害物の位置だけを素早く把握し、これに基づいて物体のバウンディングボックスを容易に探し得る方法を提示することを目的とする。

また、本発明は、ＲＰＮ（ＲｅｇｉｏｎＰｒｏｐｏｓａｌＮｅｔｗｏｒｋ）の演算量を減らす方法を提示することを目的とする。

本発明の一態様によれば、少なくとも一つの入力イメージから少なくとも一つの近接障害物の少なくとも一つの下段ライン（ｂｏｔｔｏｍｌｉｎｅ）を基準に少なくとも一つのＲＯＩ（ＲｅｇｉｏｎｏｆＩｎｔｅｒｅｓｔ）を検出するためのＣＮＮ（ＣｏｎｖｏｌｕｔｉｏｎａｌＮｅｕｒａｌＮｅｔｗｏｒｋ）のパラメータを学習する方法は、（ａ）学習装置が、第１コンボリューションレイヤないし第ｎコンボリューションレイヤをもって、前記入力イメージから逐次的に第１エンコード済み特徴マップないし第ｎエンコード済み特徴マップを各々生成するようにする段階；（ｂ）前記学習装置が、第ｎデコンボリューションレイヤないし第１デコンボリューションレイヤをもって、前記第ｎエンコード済み特徴マップから逐次的に第ｎデコード済み特徴マップないし第１デコード済み特徴マップを生成するようにする段階；（ｃ）前記第ｎデコード済み特徴マップないし前記第１デコード済み特徴マップの中から少なくとも一つの特定デコード済み特徴マップをその行（ｒｏｗ）方向である第１方向及びその列（ｃｏｌｕｍｎ）方向である第２方向に分けることで、複数の列と複数の行を有するグリッドの各セルが生成されるとした場合、前記第ｎデコード済み特徴マップないし前記第１デコード済み特徴マップのうち、少なくとも一部特徴マップの少なくとも一つの特徴を参照することにより、前記列ごとに前記近接障害物各々の前記下段ライン各々が位置すると推定される特定の行各々を示す少なくとも一つの障害物セグメンテーション結果を生成する段階；（ｄ）前記学習装置が、前記特定の行の各々をもとに推定されるアンカリング行（ａｎｃｈｏｒｉｎｇｒｏｗ）各々のピクセルのうち、各々の前記ＲＯＩ検出に利用されるアンカーボックス（ａｎｃｈｏｒｂｏｘ）を生成するための各々の基礎としての前記列ごとのアンカー各々を決定する段階；（ｅ）前記学習装置が、ＲＰＮ（ＲｅｇｉｏｎＰｒｏｐｏｓａｌＮｅｔｗｏｒｋ）をもって、（ｉ）前記アンカーボックス各々を参照に少なくとも一つのＲＯＩバウンディンボックス（ｂｏｕｎｄｉｎｇｂｏｘ）を生成するようにするものの、前記アンカーボックスのうち少なくとも一つは、前記アンカー各々を基礎に推定され、（ｉｉ）前記ＲＯＩバウンディンボックス及びそれに対応する少なくとも一つの第１原本正解（ＧｒｏｕｎｄＴｒｕｔｈ）イメージを参照して少なくとも一つの第１ロスを生成するようにするものの、前記ＲＯＩバウンディンボックスは、前記アンカーボックスのうち、特定物体を含むものと推定される確率が高い特定のアンカーボックスであり、前記第１原本正解イメージは、前記入力イメージ内の前記特定物体を実際に含むバウンディンボックスを表示する段階；及び（ｆ）前記学習装置は、前記第１ロスをバックプロパゲーション（ｂａｃｋｐｒｏｐａｇａｔｉｏｎ）して、前記ＣＮＮの前記パラメータを学習する段階を含むことを特徴とする。

一例として、前記（ｃ）段階は、（ｃ１）前記グリッドの各セルが、前記少なくとも一つのデコード済み特徴マップを前記第１方向に第１間隔ずつ区画し、前記第２方向に第２間隔ずつ区画することで生成されるとした場合、前記学習装置は、前記各々の列ごとに前記各々の行の特徴各々をチャネル方向へコンカチネート（ｃｏｎｃａｔｅｎａｔｅ）して、少なくとも一つの修正済み特徴マップを生成する段階；及び（ｃ２）前記学習装置は、前記修正済み特徴マップを参照して、前記列ごとにコンカチネートされた各チャネルにおける各々の前記近接障害物の前記下段ライン各々に対する各々の推定位置を確認することにより、前記列ごとに前記行の中から前記近接障害物各々の前記下段ライン各々が位置すると推定される行を示す前記障害物セグメンテーション結果を生成するものの、前記障害物セグメンテーション結果は、前記列ごとの各々のチャネルに対応する各々の値をノーマライジング（ｎｏｒｍａｌｉｚｉｎｇ）するソフトマックス演算によって生成される段階を含むことを特徴とする。

一例として、前記（ｃ）段階は、（ｃ３）前記学習装置は、（ｉ）少なくとも一つの第２原本正解イメージ上に、前記列ごとに前記近接障害物各々の前記下段ライン各々が位置する実際の行が表示される場合、前記実際の行の各々の位置及び（ｉｉ）前記障害物セグメンテーション結果上で、前記近接障害物の各々の前記下段ライン各々が前記列ごとに位置するものと推定される前記特定の行各々の位置を参照して、少なくとも一つの第２ロスを生成する段階を含み、前記（ｆ）段階で、前記学習装置は前記第１ロスおよび前記第２ロスをバックプロパゲーションして、前記ＣＮＮの前記パラメータを学習することを特徴とする。

一例として、前記（ｅ）段階で、前記アンカーボックスの中で、少なくとも一つの（ｉ）スケール（ｓｃａｌｅ）及び（ｉｉ）アスペクト比（ａｓｐｅｃｔｒａｔｉｏ）のうち少なくとも一つを参考にして、前記アンカー各々の複数の互いに異なるアンカーボックスを設定することを特徴とする。

一例として、前記各々の列は、前記第１方向に一つ以上のピクセルを含み、前記各々の行は、前記第２方向に一つ以上のピクセルを含むことを特徴とする。

一例として、前記第１原本正解イメージは、前記入力イメージがＮ_ｃ個の行に分割された状態で、前記列ごとに前記近接障害物各々の前記下段ライン各々が、前記行の中から実際に位置する行に対する情報を含み、前記障害物セグメンテーション結果は、前記入力イメージが前記Ｎ_ｃ個の行に分割された状態で、前記列ごとに前記近接障害物各々の前記下段ライン各々が前記行の中に位置するものと推測される行を示すことを特徴とする。

一例として、前記（ｃ）段階で、前記各々の列に対して、前記近接障害物各々の前記下段ライン各々が存在すると推定されると、前記Ｎ_ｃ個の行の中で、前記各々の列ごとに前記各々の特定の行にある前記下段ライン各々の推定位置各々は対応する最も大きい値を有し、残りの行にある位置は小さい値を有するように前記障害物セグメンテーションの結果値が生成されることを特徴とする。

本発明の他の態様によれば、少なくとも一つのテストイメージから、少なくとも一つのテスト用近接障害物の少なくとも一つの下段ラインを基準に、少なくとも一つのテスト用ＲＯＩを検出するためのＣＮＮをテストする方法において、（ａ）（１）第１コンボリューションレイヤないし第ｎコンボリューションレイヤをもって、少なくとも一つのトレーニングイメージから逐次的に学習用第１エンコード済み特徴マップないし学習用第ｎエンコード済み特徴マップを各々生成するようにするプロセス、（２）第ｎデコンボリューションレイヤないし第１デコンボリューションレイヤをもって、前記学習用第ｎエンコード済み特徴マップから逐次的に学習用第ｎデコード済み特徴マップないし学習用第１デコード済み特徴マップを生成するようにするプロセス、（３）前記学習用第ｎデコード済み特徴マップないし前記学習用第１デコード済み特徴マップの中から少なくとも一つの特定学習用デコード済み特徴マップをその行方向である第１方向及びその列方向である第２方向に分けることで、複数の列と複数の行を有するグリッドの各セルが生成されるとした場合、前記学習用第ｎデコード済み特徴マップないし前記学習用第１デコード済み特徴マップのうち、少なくとも一部特徴マップの少なくとも一つの特徴を参照することにより、前記列ごとに少なくとも一つの学習用近接障害物各々の下段ライン各々が位置すると推定される学習用特定の行の各々を示す、少なくとも一つの学習用障害物セグメンテーション結果を生成するようにするプロセス、（４）前記学習用特定の行の各々をもとに推定される学習用アンカリング行各々のピクセルのうち、各々の前記学習用ＲＯＩ検出に利用される学習用アンカーボックスを生成するための各々の基礎として前記列ごとの学習用アンカー各々を決定するプロセス、（５）ＲＰＮ（ＲｅｇｉｏｎＰｒｏｐｏｓａｌＮｅｔｗｏｒｋ）をもって、（ｉ）前記学習用アンカーボックス各々を参照に少なくとも一つの学習用ＲＯＩバウンディンボックス（ｂｏｕｎｄｉｎｇｂｏｘ）を生成するようにするものの、前記学習用アンカーボックスのうち少なくとも一つは、前記学習用アンカー各々を基礎に推定され、（ｉｉ）前記学習用ＲＯＩバウンディンボックス及びそれに相応する少なくとも一つの第１原本正解イメージを参照して少なくとも一つの第１ロスを生成するようにするものの、前記学習用ＲＯＩバウンディンボックスは、前記学習用アンカーボックスのうち、学習用特定物体を含むものと推定される確率が高い特定の学習用アンカーボックスであり、前記第１原本正解イメージは、前記トレーニングイメージ内の前記学習用特定物体を実際に含む学習用バウンディンボックスを示すプロセス、及び（６）前記第１ロスをバックプロパゲーションして、前記ＣＮＮのパラメータを学習するプロセスを学習装置が遂行した状態で、テスト装置が前記テストイメージを獲得する段階；（ｂ）前記テスト装置が、前記第１コンボリューションレイヤないし第ｎコンボリューションレイヤをもって、前記テストイメージから逐次的にテスト用第１エンコード済み特徴マップないしテスト用第ｎエンコード済み特徴マップを各々生成するようにする段階；（ｃ）前記テスト装置が、前記第ｎデコンボリューションレイヤないし第１デコンボリューションレイヤをもって、前記テスト用第ｎエンコード済み特徴マップから逐次的にテスト第ｎデコード済み特徴マップないしテスト用第１デコード済み特徴マップを生成するようにする段階；（ｄ）前記テスト用第ｎデコード済み特徴マップないし前記テスト用第１デコード済み特徴マップの中から少なくとも一つの特定テスト用デコード済み特徴マップをその行方向である第１方向、その列方向である第２方向に分けることで、複数の列と複数の行を有するグリッドの各セルが生成されるとした場合、前記テスト装置は、前記テスト用第ｎデコード済み特徴マップないし前記テスト用第１デコード済み特徴マップのうち、少なくとも一部特徴マップの少なくとも一つの特徴を参照することにより、前記列ごとに前記テスト用近接障害物各々の下段ライン各々が位置すると推定されるテスト用特定の行の各々を示す、少なくとも一つのテスト用障害物セグメンテーション結果を生成する段階；（ｅ）前記テスト装置が、前記テスト用特定の行の各々をもとに推定されるテスト用アンカリング行各々のピクセルのうち、各々のテスト用ＲＯＩ検出に利用されるテスト用アンカーボックスを生成するための各々の基礎として前記列ごとのテスト用アンカー各々を決定する段階、及び（ｆ）前記テスト装置が、前記ＲＰＮをもって、前記テスト用アンカーボックス各々を参照に少なくとも一つのテスト用ＲＯＩバウンディンボックスを生成するようにするものの、前記テスト用アンカーボックスのうち少なくとも一つは、前記テスト用アンカー各々を基礎に推定される段階；を含むことを特徴とする。

一例として、前記（ｄ）段階は、（ｄ１）前記グリッドの各セルが、前記テスト用第ｎデコード済み特徴マップないし前記テスト用第１デコード済み特徴マップ中から少なくとも一つの特定テスト用デコード済み特徴マップを前記第１方向に第１間隔ずつ区画し、前記第２方向に第２間隔ずつ区画することで生成されるとした場合、前記テスト装置が前記各々の列ごとに前記各々の行のテスト用特徴各々をチャネル方向へコンカチネートして、少なくとも一つの修正済みテスト用特徴マップを生成する段階；及び（ｄ２）前記テスト装置が前記修正済みテスト用特徴マップを参照して、前記列ごとにコンカチネートされた各チャネルにおける各々の前記テスト用近接障害物の前記下段ライン各々に対する各々の推定位置を確認することにより、前記列ごとに前記行の中から前記近接障害物各々の前記下段ライン各々が位置すると推定される行を示す前記テスト用障害物セグメンテーション結果を生成するものの、前記テスト用障害物セグメンテーション結果は、前記列ごとの各々のチャネルに対応する各々の値をノーマライジングするソフトマックス演算によって生成される段階；を含むことを特徴とする。

一例として、前記（ｆ）段階で、前記テスト用アンカーボックスのうち少なくとも一つの（ｉ）スケール及びアスペクト比のうち少なくとも一つを参考にして、前記テスト用アンカー各々の複数の互いに異なるテスト用アンカーボックスを設定することを特徴とする。

一例として、前記第１原本正解イメージは、前記トレーニングイメージがＮ_ｃ個の行に分割された状態で、前記列ごとに前記学習用近接障害物各々の前記下段ライン各々が、前記行の中から実際に位置する行に対する情報を含み、前記学習用障害物セグメンテーション結果は、前記トレーニングイメージが前記Ｎ_ｃ個の行に分割された状態で、前記列ごとに前記学習用近接障害物各々の前記下段ライン各々が前記行の中に位置するものと推測される行を示すことを特徴とし、前記（ｄ）段階で、前記テストイメージがＮ_ｃ個の行に分割された状態で、前記各々の列に対して、前記テスト用近接障害物各々の前記下段ライン各々が存在すると推定されると、前記Ｎｃ個の行の中で、前記各々のテスト用特定の行にある前記下段ライン各々の推定位置各々は前記列ごとに対応する最も大きい値を有し、残りの行にある位置は小さい値を有するように前記テスト用障害物セグメンテーションの結果値が生成されることを特徴とする。

本発明のまた他の態様によれば、少なくとも一つの入力イメージから、少なくとも一つの近接障害物の少なくとも一つの下段ライン（ｂｏｔｔｏｍｌｉｎｅ）を基準に、少なくとも一つのＲＯＩ（ＲｅｇｉｏｎｏｆＩｎｔｅｒｅｓｔ）を検出するためのＣＮＮ（ＣｏｎｖｏｌｕｔｉｏｎａｌＮｅｕｒａｌＮｅｔｗｏｒｋ）のパラメータを学習する学習装置おいて、前記入力イメージを獲得する通信部；及び（Ｉ）第１コンボリューションレイヤないし第ｎコンボリューションレイヤをもって、前記入力イメージから逐次的に第１エンコード済み特徴マップないし第ｎエンコード済み特徴マップを各々生成するようにするプロセス、（ＩＩ）第ｎデコンボリューションレイヤないし第１デコンボリューションレイヤをもって、前記第ｎエンコード済み特徴マップから逐次的に第ｎデコード済み特徴マップないし第１デコード済み特徴マップを生成するようにするプロセス、（ＩＩＩ）前記第ｎデコード済み特徴マップないし前記第１デコード済み特徴マップの中から少なくとも一つの特定デコード済み特徴マップをその行（ｒｏｗ）方向である第１方向及びその列（ｃｏｌｕｍｎ）方向である第２方向に分けることで、複数の列と複数の行を有するグリッドの各セルが生成されるとした場合、前記第ｎデコード済み特徴マップないし前記第１デコード済み特徴マップのうち、少なくとも一部特徴マップの少なくとも一つの特徴を参照することにより、前記列ごとに前記近接障害物各々の前記下段ライン各々が位置すると推定される特定の行各々を示す少なくとも一つの障害物セグメンテーション結果を生成するプロセス；（ＩＶ）前記特定の行の各々をもとに推定されるアンカリング行（ａｎｃｈｏｒｉｎｇｒｏｗ）各々のピクセルのうち、各々の前記ＲＯＩ検出に利用されるアンカーボックス（ａｎｃｈｏｒｂｏｘ）を生成するための各々の基礎としての前記列ごとのアンカー各々を決定するプロセス（Ｖ）ＲＰＮ（ＲｅｇｉｏｎＰｒｏｐｏｓａｌＮｅｔｗｏｒｋ）をもって、（ｉ）前記アンカーボックス各々を参照に少なくとも一つのＲＯＩバウンディンボックス（ｂｏｕｎｄｉｎｇｂｏｘ）を生成するようにするものの、前記アンカーボックスのうち少なくとも一つは、前記アンカー各々を基礎に推定され、（ｉｉ）前記ＲＯＩバウンディンボックス及びそれに対応する少なくとも一つの第１原本正解イメージを参照して少なくとも一つの第１ロスを生成するようにするものの、前記ＲＯＩバウンディンボックスは、前記アンカーボックスのうち、特定物体を含むものと推定される確率が高い特定のアンカーボックスであり、前記第１原本正解イメージは、前記入力イメージ内の前記特定物体を実際に含むバウンディンボックスを表示するプロセス、及び（ＶＩ）前記第１ロスをバックプロパゲーション（ｂａｃｋｐｒｏｐａｇａｔｉｏｎ）して、前記ＣＮＮの前記パラメータを学習するプロセスを遂行プロセッサ；を含むことを特徴とする。

一例として、前記（ＩＩＩ）プロセスは、（ＩＩＩ−Ｉ）前記グリッドの各セルが、前記少なくとも一つのデコード済み特徴マップを前記第１方向に第１間隔ずつ区画し、前記第２方向に第２間隔ずつ区画することで生成されるとした場合、前記各々の列ごとに前記各々の行の特徴各々をチャネル方向へコンカチネート（ｃｏｎｃａｔｅｎａｔｅ）して、少なくとも一つの修正済み特徴マップを生成するプロセス；及び（ＩＩＩ−２）前記修正済み特徴マップを参照して、前記列ごとにコンカチネートされた各チャネルにおける各々の前記近接障害物の前記下段ライン各々に対する各々の推定位置を確認することにより、前記列ごとに前記行の中から前記近接障害物各々の前記下段ライン各々が位置すると推定される行を示す前記障害物セグメンテーション結果を生成するものの、前記障害物セグメンテーション結果は、前記列ごとの各々のチャネルに対応する各々の値をノーマライジング（ｎｏｒｍａｌｉｚｉｎｇ）するソフトマックス演算によって生成されるプロセス；を含むことを特徴とする。

一例として、前記（ＩＩＩ）プロセスは、（ＩＩＩ−３）（ｉ）少なくとも一つの第２原本正解イメージ上に前記列ごとに前記近接障害物各々の前記下段ライン各々が位置する実際の行が表示される場合、前記実際の行の各々の位置及び（ｉｉ）前記障害物セグメンテーション結果上で、前記近接障害物の各々の前記下段ライン各々が前記列ごとに位置するものと推定される前記特定の行各々の位置を参照して、少なくとも一つの第２ロスを生成するプロセス；を含み、前記（ＶＩ）プロセスで、前記プロセッサは、前記第１ロス及び前記第２ロスをバックプロパゲーションして、前記ＣＮＮの前記パラメータを学習することを特徴とする

一例として、前記（Ｖ）プロセスで、前記アンカーボックスの中で、少なくとも一つの（ｉ）スケール（ｓｃａｌｅ）及び（ｉｉ）アスペクト比（ａｓｐｅｃｔｒａｔｉｏ）のうち少なくとも一つを参考にして、前記アンカー各々の複数の互いに異なるアンカーボックスを設定することを特徴とする

一例として、前記（ＩＩＩ）プロセスで、前記各々の列に対して、前記近接障害物各々の前記下段ライン各々が存在すると推定されると、前記Ｎ_ｃ個の行の中で、前記各々の列ごとに前記各々の特定の行にある前記下段ライン各々の推定位置各々は対応する最も大きい値を有し、残りの行にある位置は小さい値を有するように前記障害物セグメンテーションの結果値が生成されることを特徴とする。

本発明のまた他の態様によれば、少なくとも一つのテストイメージから、少なくとも一つのテスト用近接障害物の少なくとも一つの下段ラインを基準に、少なくとも一つのテスト用ＲＯＩを検出するためのＣＮＮをテストする装置において、（１）第１コンボリューションレイヤないし第ｎコンボリューションレイヤをもって、少なくとも一つのトレーニングイメージから逐次的に学習用第１エンコード済み特徴マップないし学習用第ｎエンコード済み特徴マップを各々生成するようにするプロセス、（２）第ｎデコンボリューションレイヤないし第１デコンボリューションレイヤをもって、前記学習用第ｎエンコード済み特徴マップから逐次的に学習用第ｎデコード済み特徴マップないし学習用第１デコード済み特徴マップを生成するようにするプロセス、（３）前記学習用第ｎデコード済み特徴マップないし前記学習用第１デコード済み特徴マップの中から少なくとも一つの特定学習用デコード済み特徴マップをその行方向である第１方向及びその列方向である第２方向に分けることで、複数の列と複数の行を有するグリッドの各セルが生成されるとした場合、前記学習用第ｎデコード済み特徴マップないし前記学習用第１デコード済み特徴マップのうち、少なくとも一部特徴マップの少なくとも一つの特徴を参照することにより、前記列ごとに少なくとも一つの学習用近接障害物各々の下段ライン各々が位置すると推定される学習用特定の行の各々を示す、少なくとも一つの学習用障害物セグメンテーション結果を生成するようにするプロセス、（４）前記学習用特定の行の各々をもとに推定される学習用アンカリング行各々のピクセルのうち、各々の前記学習用ＲＯＩ検出に利用される学習用アンカーボックスを生成するための各々の基礎として前記列ごとの学習用アンカー各々を決定するプロセス、（５）ＲＰＮ（ＲｅｇｉｏｎＰｒｏｐｏｓａｌＮｅｔｗｏｒｋ）をもって、（ｉ）前記アンカーボックス各々を参照に少なくとも一つの学習用ＲＯＩバウンディンボックス（ｂｏｕｎｄｉｎｇｂｏｘ）を生成するようにするものの、前記学習用アンカーボックスのうち少なくとも一つは、前記学習用アンカー各々を基礎に推定され、（ｉｉ）前記学習用ＲＯＩバウンディンボックス及びそれに相応する少なくとも一つの第１原本正解イメージを参照して少なくとも一つの第１ロスを生成するものの、前記学習用ＲＯＩバウンディンボックスは、前記学習用アンカーボックスのうち、学習用特定物体を含むものと推定される確率が高い特定の学習用アンカーボックスであり、前記第１原本正解イメージは、前記トレーニングイメージ内の前記学習用特定物体を実際に含む学習用バウンディンボックスを示すプロセス、及び（６）前記第１ロスをバックプロパゲーションして、前記ＣＮＮのパラメータを学習するプロセスを学習装置が遂行した状態で、前記テストイメージを獲得する通信部；及び（Ｉ）前記第１コンボリューションレイヤないし第ｎコンボリューションレイヤをもって、前記テストイメージから逐次的にテスト用第１エンコード済み特徴マップないしテスト用第ｎエンコード済み特徴マップを各々生成するようにするプロセス；（ＩＩ）前記第ｎデコンボリューションレイヤないし第１デコンボリューションレイヤをもって、前記テスト用第ｎエンコード済み特徴マップから逐次的にテスト第ｎデコード済み特徴マップないしテスト用第１デコード済み特徴マップを生成するようにするプロセス；（ＩＩＩ）前記テスト用第ｎデコード済み特徴マップないし前記テスト用第１デコード済み特徴マップの中から少なくとも一つの特定テスト用デコード済み特徴マップをその行方向である第１方向、その列方向である第２方向に分けることで、複数の列と複数の行を有するグリッドの各セルが生成されるとした場合、前記テスト用第ｎデコード済み特徴マップないし前記テスト用第１デコード済み特徴マップのうち、少なくとも一部特徴マップの少なくとも一つの特徴を参照することにより、前記列ごとに前記テスト用近接障害物各々の下段ライン各々が位置すると推定されるテスト用特定の行の各々を示す、少なくとも一つのテスト用障害物セグメンテーション結果を生成するプロセス；（ＩＶ）前記テスト用特定の行の各々をもとに推定されるテスト用アンカリング行各々のピクセルのうち、各々のテスト用ＲＯＩ検出に利用されるテスト用アンカーボックスを生成するための各々の基礎として前記列ごとのテスト用アンカー各々を決定するプロセス、及び（Ｖ）前記ＲＰＮをもって、前記テスト用アンカーボックス各々を参照に少なくとも一つのテスト用ＲＯＩバウンディンボックスを生成するようにするものの、前記テスト用アンカーボックスのうち少なくとも一つは、前記テスト用アンカー各々を基礎に推定されるプロセスを遂行するプロセッサ；を含むことを特徴とするテスト装置が提供される。

一例として、前記（ＩＩＩ）プロセスは、（ＩＩＩ−１）前記グリッドの各セルが、前記テスト用第ｎデコード済み特徴マップないし前記テスト用第１デコード済み特徴マップ中から少なくとも一つの特定テスト用デコード済み特徴マップを前記第１方向に第１間隔ずつ区画し、前記第２方向に第２間隔ずつ区画することで生成されるとした場合、前記各々の列ごとに前記各々の行のテスト用特徴各々をチャネル方向へコンカチネートして、少なくとも一つの修正済みテスト用特徴マップを生成するプロセス；及び（ＩＩＩ−２）前記修正済みテスト用特徴マップを参照して、前記列ごとにコンカチネートした各チャネルにおける各々の前記テスト用近接障害物の前記下段ライン各々に対する各々の推定位置を確認することにより、前記列ごとに前記行の中から前記近接障害物各々の前記下段ライン各々が位置すると推定される行を示す前記テスト用障害物セグメンテーション結果を生成するものの、前記テスト用障害物セグメンテーション結果は、前記列ごとの各々のチャネルに対応する各々の値をノーマライジングするソフトマックス演算によって生成されるプロセス；を含むことを特徴とする。

一例として、前記（Ｖ）プロセスで、前記テスト用アンカーボックスの中で、少なくとも一つの（ｉ）スケール及び（ｉｉ）アスペクト比のうち少なくとも一つを参考にして、前記テスト用アンカー各々の複数の互いに異なるテスト用アンカーボックスを設定することを特徴とする。

一例として、前記第１原本正解イメージは、前記トレーニングイメージがＮ_ｃ個の行に分割された状態で、前記列ごとに前記学習用近接障害物各々の前記下段ライン各々が、前記行の中から実際に位置する行に対する情報を含み、前記学習用障害物セグメンテーション結果は、前記トレーニングイメージが前記Ｎｃ個の行に分割された状態で、前記列ごとに前記学習用近接障害物各々の前記下段ライン各々が前記行の中に位置するものと推測される行を示すことを特徴とし、前記（ＩＩＩ）プロセスで、前記テストイメージがＮ_ｃ個の行に分割された状態で、前記各々の列に対して、前記テスト用近接障害物各々の前記下段ライン各々が存在すると推定されると、前記Ｎ_ｃ個の行の中で、前記各々のテスト用特定の行にある前記下段ライン各々の推定位置各々は前記列ごとに対応する最も大きい値を有し、残りの行にある位置は小さい値を有するように前記テスト用障害物セグメンテーションの結果値が生成されることを特徴とする。

本発明によれば、入力のイメージを所定の間隔に分けることで生成されたグリッド上で、列ごとにどの行に近接障害物があるかを検出し、自律走行する際に自動車が走行可能なルートを容易に把握し得る効果がある。

また、本発明によれば、前記入力イメージ内の全てのピクセルを検討しなくても、少ない演算量で近接障害物だけを容易に検出し得る。

また、本発明は、前記近接障害物検出のための新たな方法を前記近接障害物の前記下段ライン検出に適用し得り、前記物体の前記下段ラインの周辺領域に対してのみ前記ＲＰＮ演算を遂行して、前記ＲＯＩ検出演算量を大きく減らし得る効果がある。

従来のＣＮＮを用いて一般的なセグメンテーションプロセスを簡略的に示した図面である。本発明に係る近接障害物検出のためのＣＮＮの学習方法を示したフローチャートである。本発明に係る前記近接障害物検出のためのＣＮＮの学習方法を説明するために入力イメージの演算プロセスを例示的に示した図面である。本発明に係る前記近接障害物検出のための修正（ｒｅｓｈａｐｉｎｇ）プロセスを簡略的に表した図面である。本発明に係る前記近接障害物検出のための前記入力イメージ及びこれに対応する原本正解イメージを例示的に示した図面である。本発明に係る近接障害物検出のためのＣＮＮのテスト方法を説明するために前記入力イメージの演算プロセスを例示的に示した図面である。従来の物体検出結果を簡略的に示す図面である。本発明に係る物体の検出結果を簡略的に示した図面である。本発明に係る物体の検出結果を簡略的に示した図面である。本発明に係る少なくとも一つのＲＯＩ検出方法を示したフローチャートである。従来のＲＰＮを利用するプロセスを簡略的に示した図面である。本発明によって前記ＲＰＮを利用するプロセスを簡略的に示している図面である。本発明によって前記ＲＰＮを利用するプロセスを簡略的に示している図面である。

後述する本発明に対する詳細な説明は、本発明が実施され得る特定の実施例を例示として示す添付図面を参照する。これらの実施例は当業者が本発明を実施することができるように充分詳細に説明される。本発明の多様な実施例は相互異なるが、相互排他的である必要はないことを理解されたい。例えば、ここに記載されている特定の形状、構造及び特性は一実施例に係る本発明の精神及び範囲を逸脱せずに他の実施例で具現され得る。また、各々の開示された実施例内の個別構成要素の位置または配置は本発明の精神及び範囲を逸脱せずに変更され得ることを理解されたい。従って、後述する詳細な説明は限定的な意味で捉えようとするものではなく、本発明の範囲は、適切に説明されると、その請求項が主張することと均等なすべての範囲と、併せて添付された請求項によってのみ限定される。図面で類似する参照符号はいくつかの側面にかけて同一か類似する機能を指称する。

本発明で言及している各種イメージは、舗装または非舗装道路関連のイメージを含み得り、この場合、道路環境で登場し得る物体（例えば、自動車、人、動物、植物、物、建物、飛行機やドローンのような飛行体、その他の障害物）を想定し得るが、必ずしもこれに限定されるものではなく、本発明で言及している各種イメージは、道路と関係のないイメージ（例えば、非舗装道路、路地、空き地、海、湖、川、山、森、砂漠、空、室内と関連したイメージ）でもあり得り、この場合、非舗装道路、路地、空き地、海、湖、川、山、森、砂漠、空、室内環境で登場し得る物体（例えば、自動車、人、動物、植物、物、建物、飛行機やドローンのような飛行体、その他の障害物）を想定し得るが、必ずしもこれに限定されるものではない。

以下、本発明が属する技術分野で通常の知識を有する者が本発明を容易に実施することができるようにするために、本発明の好ましい実施例について添付の図面を参照して詳細に説明することとする。

本発明は、速くて少ない演算により高解像度のイメージから近接障害物を検出できるアルゴリズムを開発して提示された技術である。本発明の技術に係る前記近接障害物の検出方法は、入力イメージから道路と少なくとも一つの障害物の間の境界を見つけることを目標とする。このために、前記入力イメージの行方向を第１方向、列方向を第２方向とした場合、前記第１方向に第１間隔ずつ区画して複数の列を形成し、前記第２方向に第２間隔ずつ区画することで複数の行を形成した結果、グリッドが生成され得る。前記各々の列をこれに該当する前記グリッドの一番低いセルから始まって前記第２方向へ確認することで前記近接障害物が各々存在すると推定される前記各々の列に対して特定の行の情報を用いて前記近接障害物の道路上の位置を検出するものと言えるだろう。また、本発明は、（ｉ）高解像度情報を利用するマルチロス（Ｍｕｌｔｉ−ｌｏｓｓ）学習プロセス及び（ｉｉ）低解像度特徴だけを利用するテストプロセスによって演算量を減らし得るようにする。

図２は、本発明に係る前記近接障害物検出のためのＣＮＮの学習方法を示したフローチャートである。図３は本発明に係る前記近接障害物検出のための前記ＣＮＮの前記学習方法を説明するために前記入力イメージの演算プロセスを例示的に示した図面である。

図２及び図３を参照して、本発明に係る前記近接障害物検出のための前記ＣＮＮの前記学習方法を具体的に説明すると次の通りである。

本発明に係る前記近接障害物検出プロセスは、少なくとも一つの入力イメージからエンコード済み特徴マップ及びデコード済み特徴マップを生成する段階Ｓ０１から始まる。前記Ｓ０１段階では、学習装置がトレーニングイメージとして前記イメージを受信すると、前記学習装置は、第１ないし第ｎコンボリューションレイヤをもって、前記トレーニングイメージから逐次的に第１エンコード済み特徴マップないし第ｎエンコード済み特徴マップを各々生成するようにする。ここで、前記第１ないし第ｎコンボリューションレイヤは前記近接障害物検出用に用いられる前記ＣＮＮに含まれる。また、前記近接障害物検出用に用いられる前記ＣＮＮは、前記第１ないし第ｎコンボリューションレイヤに対応する第ｎないし第１デコンボリューションレイヤを含むが、前記学習装置は前記第ｎないし第１デコンボリューションレイヤをもって、前記第ｎエンコード済み特徴マップから逐次的に第ｎデコード済み特徴マップないし第１デコード済み特徴マップを生成するようにする。

例えば、図３を参照すれば、前記近接障害物検出用に用いられる前記ＣＮＮは、前記第１コンボリューションレイヤないし第５コンボリューションレイヤ（１１ないし１５）及び第５デコンボリューションレイヤないし前記第１デコンボリューションレイヤ（１６ないし２０）を含み得り、前記学習装置は、３ｃｈ、６４０×２５６サイズの前記トレーニングイメージ１００を受信し得る。この入力イメージは、前記第１コンボリューションレイヤ１１に入力され、８ｃｈ、３２０×１２８サイズの前記第１エンコード済み特徴マップ１１０が生成され、第２コンボリューションレイヤ１２に入力され、１６ｃｈ、１６０×６４サイズの第２エンコード済み特徴マップ１２０が生成され、第３コンボリューションレイヤ１３に入力され、３２ｃｈ、８０×３２サイズの第３エンコード済み特徴マップ１３０が生成され、第４コンボリューションレイヤ１４に入力され、６４ｃｈ、４０×１６サイズの第４エンコード済み特徴マップ１４０が生成され、第５コンボリューションレイヤ１５に入力され、１２８ｃｈ、２０×８サイズの第５エンコード済み特徴マップ１５０が生成される。

このように、前記コンボリューションレイヤは、前記入力イメージまたは特徴マップのチャネルは増やし、横及び縦のサイズは小さくして、前記エンコード済み特徴マップを生成する機能をする。例えば、前記第２コンボリューションレイヤ１２ないし前記第５コンボリューションレイヤ１５は、前記入力される特徴マップの前記チャネルは２倍に増やし、横や縦サイズは各々１／２に減らして前記エンコード済み特徴マップを生成する。

一方、前記学習装置は、前記第ｎコンボリューションレイヤに対応する前記第ｎデコンボリューションレイヤをもって、前記第ｎエンコード済み特徴マップの横サイズを所定倍数に拡大し、第ｎデコード済特徴マップを生成する。例えば、図３に示した例で、前記学習装置は、前記第５デコンボリューションレイヤ１６をもって、１２８ｃｈ、２０×８サイズの前記第５エンコード済み特徴マップ１５０から、６４ｃｈ、４０×８サイズの第５デコード済特徴マップ１６０を生成する。

一般的にデコンボリューションレイヤは、チャネル数は減らし、横及び縦サイズは大きくするが、本発明に係る前記第ｎデコンボリューションレイヤは、前記第ｎエンコード済み特徴マップのチャネルを減らして、前記横サイズを所定の倍数（例えば２倍）に大きくするが、前記特徴マップの前記縦サイズは変更させないことができる。その理由は、前述のように、本発明は前記グリッドの前記列の中でどの位置が最も高いスコアを有するかを区別することで充分だからである。すなわち、本発明では、従来のセグメンテーションと異なり、すべてのピクセルを確認する必要がなく、前記縦サイズを大きくする必要もない。本発明で提案している方法は、入力と出力の横の解像度が同一の効果があり、従来の横の解像度が低くなる問題がない。縦の解像度も高ければ更によいだろうが、そうすると多くの演算量が必要であるという問題がある。従って、本発明では、少ない演算量で前記近接障害物の検出をするために、前記横の解像度だけを増加させる方法を提示するものである。このため、前述したように、前記第ｎデコンボリューションレイヤは、前記第ｎエンコード済み特徴マップの前記チャネル数を減らして、前記横サイズのみ所定倍数（例えば２倍）に増加させるが、前記縦サイズは変更させないのである。

再度、図３に示したデコーディングプロセスを見ると、前記学習装置は、前記第４デコンボリューションレイヤ１７をもって、６４ｃｈ、４０×８サイズの前記第５デコード済み特徴マップ１６０から３２ｃｈ、８０×１６サイズの前記第４デコード済み特徴マップ１７０を生成するようにし、前記第３デコンボリューションレイヤ１８をもって３２ｃｈ、８０×１６サイズの前記第４デコード済み特徴マップ１７０から１６ｃｈ、１６０×３２サイズの前記第３デコード済み特徴マップ１８０を生成するようにし、前記第２デコンボリューションレイヤ１９をもって１６ｃｈ、１６０×３２サイズの前記第３デコード済み特徴マップ１８０から８ｃｈ、３２０×６４サイズの前記第２デコード済み特徴マップ１９０を生成するようにし、前記第１デコンボリューションレイヤ２０をもって８ｃｈ、３２０×６４サイズの前記第２デコード済み特徴マップ１９０から４ｃｈ、６４０×１２８サイズの前記第１デコード済み特徴マップ２００を生成するようにする。

このように、前記デコンボリューションレイヤは、入力される特徴マップのチャネルを減らし、前記横及び縦のサイズは大きくしてデコード済み特徴マップを生成する機能をする。例えば、前記第４デコンボリューションレイヤ１７ないし前記第１デコンボリューションレイヤ２０は、前記チャネル数を１／２に減らし、前記入力される特徴マップの前記横や縦サイズは各々２倍にして前記デコード済み特徴マップを生成する。

一方、前記コンボリューションレイヤは、コンボリューション、マックスプーリング（ｍａｘｐｏｏｌｉｎｇ）、ＲｅＬＵのうち少なくとも一つの演算を遂行し、前記デコンボリューションレイヤは、デコンボリューション及びＲｅＬＵのうち少なくとも一つの演算を遂行し得る。

その後、図２を参照すると、Ｓ０２段階において前記学習装置は、Ｃ_ｉ×Ｗ_ｉ×Ｈ_ｉサイズを有する前記デコード済み特徴マップを利用してＣ_ｉＨ_ｉ×Ｗ_ｉ×１サイズを有する第１修正済み特徴マップを生成し得り、この際Ｃ_ｉは、前記チャネルの数を意味し、前記Ｗ_ｉは、前記列のサイズ、前記Ｈ_ｉは、前記デコード済み特徴マップの前記行のサイズを意味する。

すなわち、本発明に係る修正（ｒｅｓｈａｐｉｎｇ）プロセスにおいて、前記少なくとも一つのデコード済み特徴マップを前記第１方向に第１間隔で区画し、前記第２方向に第２間隔で区画することで、複数の列と複数の行を有する前記グリッドの各セルが生成されるとした場合、前記学習装置は、前記列ごとに前記各々の行の特徴各々をチャネル方向へコンカチネート（ｃｏｎｃａｔｅｎａｔｅ）して、少なくとも一つの修正済み特徴マップを生成する。

図４は、本発明に係る前記近接障害物検出のための前記修正プロセスを簡略的に表した図面である。

図４を参照すると、前記修正プロセスで、図面符号４１０で表示された特徴マップに示したように、デコード済み特徴マップが行に分かれた後、図面符号４２０で表示された特徴マップに示したように、前記列ごとに前記各々の行の前記特徴各々が前記チャネルの方向にコンカチネートされる。これによって、（Ｃ×Ｗ×Ｈ）サイズの特徴マップは（（Ｃ＊Ｈ）×Ｗ×１）サイズの特徴マップに変換される。

図４の例で、前記図面符号４１０で表示された特徴マップ上で、太線で描かれた四角形各々は、前記デコード済み特徴マップの第１列に対応する各行の特徴各々を示す。仮に、前記図面符号４１０で表示された特徴マップが８つの行を有するなら、前記図面符号４２０で表示された特徴マップは、前記チャネル数の８倍に増えたチャネル数と、前記図面符号４１０で表示された特徴マップの高さの１／８の高さを有し得る。

図３の例で、６４ｃｈ、４０×８サイズの前記第５デコード済み特徴マップ１６０は、第１修正プロセス（ｒｅｓｈａｐｅ５−１）によって、６４＊８ｃｈ、４０×１サイズの前記第１修正済み特徴マップ１６１に変換され、３２ｃｈ、８０×１６サイズの前記第４デコード済み特徴マップ１７０は、第１修正プロセス（ｒｅｓｈａｐｅ４−１）によって、３２＊１６ｃｈ、８０×１サイズの前記第１修正済み特徴マップ１７１に変換され、１６ｃｈ、１６０×３２サイズの前記第３デコード済み特徴マップ１８０は、第１修正プロセス（ｒｅｓｈａｐｅ３−１）によって、１６＊３２ｃｈ、１６０×１サイズの前記第１修正済み特徴マップ１８１に変換され、８ｃｈ、３２０×６４サイズの前記第２デコード済み特徴マップ１９０は、第１修正プロセス（ｒｅｓｈａｐｅ２−１）によって、８＊６４ｃｈ、３２０×１サイズの前記第１修正済み特徴マップ１９１に変換され、４ｃｈ、６４０×１２８サイズの前記第１デコード済み特徴マップ２００は第１修正プロセス（ｒｅｓｈａｐｅ１−１）によって、４＊１２８ｃｈ、６４０×１サイズの前記第１修正済み特徴マップ２０１に変換される。

参考までに、図３では、すべてのデコード済み特徴マップに対して前記第１修正プロセスを遂行するものと説明したが、すべてのデコード済み特徴マップについて修正プロセスを遂行する必要はなく、前記デコード済み特徴マップの一部に対してのみ修正プロセスを遂行しても充分である。

その後、Ｓ０３段階では、Ｃ_ｉＨ_ｉ×Ｗ_ｉ×１サイズ有する前記第１修正済み特徴マップを（（Ｗ_Ｉ／Ｗ_ｉ）×Ｎ_ｃ）×Ｗ_ｉ×１サイズの前記第１修正済み特徴マップに変更するコンボリューション演算を遂行し得る。ここで、前記Ｗ_Ｉは、前記トレーニングのイメージの列サイズであり、前記Ｗ_ｉは、前記デコード済み特徴マップの列サイズである。このコンボリューション演算は、１×１コンボリューションであり、これは、横、縦は１マスのみ含まれるが、すべてのチャネルにわたっている前記グリッド内のセルを被演算子（ｏｐｅｒａｎｄ）とする演算であり、各第１修正済み特徴マップのＮ_ｃ個の列の各々において前記近接障害物の下段ライン各々がどこに位置するかを知るための過程であり、前記Ｎ_ｃは、前記入力イメージの前記第２方向を所定の大きさに分割した数である。すでに前記第１修正プロセスで前記デコード済み特徴マップのすべての前記列方向の情報を、同時に演算できるように前記チャンネルに統合した状態であるため、前記コンボリューション演算を通じて前記チャンネルの情報をすべて確認し、各列ごとにどの位置に前記近接障害物の前記下段ライン各々が位置するかどうかを確認し得る。もちろん、前記第５デコード済み特徴マップ１６０の例のように、修正プロセスなしで８×１コンボリューションが遂行される場合、前記第１修正演算と前記１×１コンボリューション演算を一度で行い得る。つまり、特定の特徴マップの高さがＮである場合、Ｎ×１コンボリューションを利用し得る。しかしながら、一般的にハードウェア上、１×１コンボリューション演算は素早くに計算できるが、あまり利用されない形である８×１カーネルまたはＮ×１カーネルは演算速度が著しく遅いため、前記修正プロセス演算と前記１×１コンボリューション演算を分けたほうが効果的である。

前記１×１コンボリューション演算結果を参照すれば、前記入力された特徴マップの前記列サイズがＷ_ｉ、前記元のイメージの前記列サイズがＷ_Ｉとした場合、（Ｗ_Ｉ／Ｗ_ｉ）×Ｎ_ｃくらいのチャネルを有するように前記入力特徴マップが変換される。

図３の例で、６４＊８ｃｈ、４０×１サイズの前記第５デコード済み特徴マップの第１修正済み特徴マップ１６１は、前記１×１コンボリューション演算によってＮ_ｃ＊１６ｃｈ、４０×１サイズの第１修正済み特徴マップ１６２に変更され、３２＊１６ｃｈ、８０×１サイズの前記第４デコード済み特徴マップの第１修正済み特徴マップ１７１は、前記１×１コンボリューション演算によってＮ_ｃ＊８ｃｈ、８０×１サイズの第１修正済み特徴マップ１７２に変更され、１６＊３２ｃｈ、１６０×１サイズの前記第３デコード済み特徴マップの第１修正済み特徴マップ（１８１）は、前記１×１コンボリューション演算によってＮ_ｃ＊４ｃｈ、１６０×１サイズの第１修正済み特徴マップ１８２に変更され、８＊６４ｃｈ、３２０×１サイズの前記第２デコード済み特徴マップの第１修正済み特徴マップ１９１は、前記１×１コンボリューション演算によってＮ_ｃ＊２ｃｈ、３２０×１サイズの第１修正済み特徴マップ１９２に変更され、４＊１２８ｃｈ、６４０×１サイズの前記第１デコード済み特徴マップの第１修正済み特徴マップ２０１は、前記１×１コンボリューション演算によってＮ_ｃｃｈ、６４０×１サイズの第１修正済み特徴マップ２０２に変更される。

再度図２を参照すれば、Ｓ０４段階では、（（Ｗ_Ｉ／Ｗ_ｉ）×Ｎ_ｃ）×Ｗ_ｉ×１サイズの前記第１修正済み特徴マップはＮ_ｃ×Ｗ_Ｉ×１サイズを有する第２修正済み特徴マップに修正され得る。ここで前記Ｎ_ｃ個は、前記近接障害物の各々の前記下段ライン各々が前記列ごとにどこに位置するかを特定するために前記入力イメージの前記第２方向に分割した前記行の数である。

そしてＳ０５段階では、前記第２修正済み特徴マップの前記列ごとに前記Ｎ_ｃ個のチャネルに対応する各々の値をノーマライジング（ｎｏｒｍａｌｉｚｉｎｇ）するソフトマックス演算が遂行され、Ｓ０６段階では、前記第２方向に沿って前記各々の列をこれに対応する一番下のセルから確認することで前記近接障害物が存在すると推定される前記特定の行の各々から前記近接障害物各々の前記下段ライン各々の推定位置各々を示す前記入力イメージ内の前記列ごとのセグメンテーション結果が生成される。

前記第２修正プロセスＳ０４で、前記出力された（（Ｗ_Ｉ／Ｗ_ｉ）×Ｎ_ｃ）×Ｗ_ｉ×１サイズの特徴マップは、データは固定されたままの形だけが変化してＮ_ｃ×Ｗ_Ｉ×１サイズの形態に変換され得る。そして前記ソフトマックスプロセスＳ０５で各列ごとに前記Ｎ_ｃ個のチャネルの前記値を０〜１の間の値へノーマライジングさせ、前記ノーマライジングされた値を参照して、前記列ごとにそれに対応する最も大きい値を有する特定のチャネル各々を探して前記近接障害物各々の前記下段ライン各々の前記列ごとの位置を推定し得る。

従って、前記１×１コンボリューション演算Ｓ０３と前記修正演算Ｓ０４によって、前記列ごとに前記行の中から前記近接障害物各々の前記下段ライン各々の前記推定位置各々は、各々に対応する最も大きい値を有し得り、残りの行はそれより小さい値を有するように特徴マップが生成され得る。前記ソフトマックス演算Ｓ０５は、前記入力イメージの列ごとに前記Ｎ_ｃ個の値の中で最も大きい値を見つけ、その位置を出力して前記近接障害物の前記位置各々を探し出すために利用される。

そして、前記ノーマライジングされた値を参照して前記列ごとに前記チャネルの値のうち大きい値を有する特定チャネル各々に前記近接障害物各々の前記下段ラインが位置すると推定されると、前記Ｎ_ｃ行のうち、前記列ごとの前記行の中から前記近接障害物各々の前記下段ライン各々の推定位置各々は、対応する最も大きい値を有し、前記列ごとの前記行のうち、残りの行はそれより小さい値を有するようにするセグメンテーション結果が生成され得るようにする。

このプロセスを理解するためには、最終結果（前記ソフトマックス演算の結果）の形態についての理解が必要である。前記ＣＮＮの前記学習方法から期待される出力は、前記入力イメージで前記列ごとに前記Ｎ_ｃ個の行のうち最大の値を有する各々の行を前記近接障害物の位置として探し出すことである。このためには、列ごとにＮ_ｃ個のスコアが必要である。例えば、前記入力イメージ内の前記列の個数（つまり前記入力イメージの前記幅）が６４０個（つまり６４０個のピクセルまたは６４０個の列）ならば、Ｎ_ｃ（チャネル）×６４０（幅）×１（高さ）サイズのスコアマップが出力として算出されるべきである。

前記出力としてＮ_ｃ（チャネル）×６４０（幅）×１（高さ）サイズの前記スコアマップを生成する前記プロセスを見ると次のとおりである。例えば、前記第１修正（ｒｅｓｈａｐｅ５−１）プロセスによって５１２（６４＊８）（チャネル）×４０（幅）×１（高さ）サイズの前記第５デコード済み特徴マップの前記第１修正済み特徴マップ１６１が生成された場合、この第１修正済み特徴マップの列は、前記入力イメージの列（６４０個）の１／１６の４０個だけである。従って、この場合、１６回の前記１×１コンボリューション演算でＮ_ｃ個のスコアマップを１６回出力すれば解決し得る。従って、図３でＣＯＮＶ＿ＯＵＴ５から出た前記出力１６２サイズは（Ｎ_ｃ＊１６）（チャネル）×４０（幅）×１（高さ）になるようにデザインされるべきだ。そして、（Ｎｃ＊１６）（チャネル）×４０（幅）×１（高さ）サイズの前記スコアマップをＮｃ（チャネル）×６４０（幅）×１（高さ）サイズの前記スコアマップへ変換するため、前記第２修正プロセス（ｒｅｓｈａｐｅ５−２）が必要なのである。

図３に示した例を参照に、Ｎ_ｃ＊１６ｃｈ、４０×１サイズの前記特徴マップ１６２は、前記１×１コンボリューションであるＣＯＮＶ＿ＯＵＴ５によってＮ_ｃｃｈ、６４０×１サイズの前記特徴マップ１６３に変換され、前記ソフトマックス演算によって６４０個の列ごとの前記Ｎ_ｃ個の行のうち、前記列ごとに前記行の中から前記近接障害物各々の前記下段ライン各々の前記推定位置各々に対応する最も大きい値を有し、前記列ごとに前記行の中の前記残りの位置はより小さい値を有するように出力１６４が生成される。そしてＮ_ｃ＊８ｃｈ、８０×１サイズの前記特徴マップ１７２、Ｎ_ｃ＊４ｃｈ、１６０×１サイズの前記特徴マップ１８２、Ｎ_ｃ＊２ｃｈ、３２０×１サイズの前記特徴マップ１９２、Ｎ_ｃｃｈ、６４０×１サイズの前記特徴マップ２０２は、ＣＯＮＶ＿ＯＵＴ４ないしＣＯＮＶ＿ＯＵＴ１の前記１×１コンボリューション演算各々によってＮ_ｃｃｈ、６４０×１サイズの前記特徴マップ１７３、１８３、１９３、２０３へ各々変換され、前記ソフトマックス演算によって６４０個の列ごとに前記Ｎ_ｃ個の行のうち、前記近接障害物各々の前記下段ライン各々の前記推定位置各々が存在する前記列ごとにこれに該当する最も大きい値を有し、前記列ごとの前記行の中の残りの位置はより小さい値を有するように各々の出力１７４、１８４、１９４、２０４が生成される。

つまり、前記学習装置が、前記少なくとも一つのデコード済み特徴マップにおいて、前記推定位置各々を示す前記セグメンテーション結果を生成し得り、前記各々の列をそれに対応する一番下のセルから前記第２方向に（つまり、上がりながら）確認することで、前記近接障害物各々の前記下段ライン各々の前記推定位置各々が推定される。前記学習装置は、前記修正済み特徴マップの前記列ごとにコンカチネートされたチャネル上の前記近接障害物各々の前記下段ライン各々の前記推定位置各々を確認することにより、前記セグメンテーション結果を生成し得る。

再び図２を参照すると、Ｓ０７段階では、前記セグメンテーション結果とそれに対応する少なくとも一つの原本正解イメージを参照して少なくとも一つのロスが算出され得り、Ｓ０８段階では、前記ロスをバックプロパゲーション（ｂａｃｋｐｒｏｐａｇａｔｉｏｎ）して、前記ＣＮＮのパラメータが学習されたり、最適化され得る。

この際、前記原本正解イメージは、前記各々の列についてそれに対応する一番下のセルから前記第２方向に（つまり、上がりながら）確認したとき、前記近接障害物各々が実際に位置する原本正解位置各々に対応する各々の列が表示されたイメージである。

図５は、本発明によって前記近接障害物検出のための前記入力イメージ及びこれに対応する原本正解イメージを例示的に示す図面である。図５を参照すれば、前記入力イメージで列ごと（６４０個のピクセルを前記第１間隔で区切ってできた列ごとまたは前記６４０個のピクセルごと）に前記下段から上段まで確認するとき、近接障害物を前記近接障害物に指定することで、前記原本正解イメージが生成され得る。前記原本正解イメージが前記入力イメージで前記列ごとに前記近接障害物各々の前記下段ライン各々が、実際前記Ｎ_ｃ個の行の中に位置する行を示す情報を含み、前記セグメンテーション結果が前記入力イメージで前記列ごとに前記近接障害物各々の前記下段ライン各々が前記Ｎ_ｃ個の行の中のどこに位置するかを推定する情報を含むため、前記デコード済み特徴マップを修正したすべての前記修正済み特徴マップ１６４、１７４、１８４、１９４、２０４は、前記Ｎ_ｃのチャネルを有するように生成されるのである。

前記Ｓ０７段階での前記ロスはクロスエントロピーロス（Ｃｒｏｓｓ−ｅｎｔｒｏｐｙｌｏｓｓ）であり得る。前記ロスは、前記ＣＮＮの前記パラメータを学習したり、最適化したりするためにバックプロパゲーションされる。図３の例では、５つのデコード済み特徴マップを通じて出力を算出するため５つのロスが算出されるが、前記５つのデコード済み特徴マップのうち、少なくとも一部からの前記ロスと、前記出力を参照して前記バックプロパゲーションを遂行し得る。特に、前記第１コンボリューションレイヤ２０から出力された前記第１デコード済み特徴マップを参照して算出した前記ロスを利用することが好ましいが、必須ではない。

前記のようなプロセスを経て、前記ＣＮＮの前記パラメータが学習された状態で、前記学習されたパラメータを有している前記ＣＮＮを利用したテスト装置は、前記入力イメージとしての少なくとも一つのテストイメージから近接障害物を検出し得る。

図６は、本発明に係る前記近接障害物検出のための前記ＣＮＮのテスト方法を説明するため、前記入力のイメージに対する演算の過程を例示的に示す。図６を参照すれば、図３の前記学習装置と異なって、一つの出力だけを生成すれば充分で、前記第５デコード済み特徴マップを利用し、直ちに前記出力を生成し得るため、前記第４デコンボリューションレイヤないし前記第１デコンボリューションレイヤは省略しても構わない。もう一つの例として、前記省略されたデコンボリューションレイヤの一部を含んでも構わないと言える。

具体的な前記プロセスは、図３で説明した内容と類似するため、図６の前記近接障害物検出過程を簡略に説明すると、次の通りだ。まず、前記テスト装置が、前記テストイメージ１００を受信し、前記第１ないし前記第ｎコンボリューションレイヤ（１１ないし１５）をもって前記テストイメージ１００から逐次的にテスト用第１エンコード済み特徴マップないしテスト用第ｎエンコード済み特徴マップ１１０、１２０、１３０、１４０、１５０を各々生成するようにし得る。そして前記テスト装置は少なくとも一つのデコンボリューションレイヤ１６をもって前記テスト用第ｎエンコード済み特徴マップ１５０からテスト用デコード済み特徴マップ１６０を生成するようにし得る。そして、前記テスト用デコード済み特徴マップ１６０から、前記グリッドを参照にし、前記第２方向に羅列された前記列ごとの前記各々の行の特徴各々を前記チャネル方向へコンカチネートしてテスト用修正済み特徴マップ１６１を生成し得る。そして、前記１×１コンボリューション演算および追加修正プロセスを経て、チャンネルが変更されたテスト用特徴マップ１６２と当該チャネルをＮ_ｃ個に合わせて、該当列の前記横軸の個数を前記テストイメージの前記横軸の個数に合わせたテスト用特徴マップ１６３が生成される。そして、前記テスト装置は、前記テスト用修正済み特徴マップの前記列ごとにコンカチネートされたチャンネル上で前記近接障害物各々の前記下段ライン各々の前記列ごとの前記行の中の前記推定位置各々を確認することにより、テスト用セグメンテーション結果１６４を生成して、前記近接障害物を検出し得る。

図７ａは、前記従来の障害物検出結果を簡略に示す図面であり、図７ｂ及び図７ｃは本発明に係る前記障害物の検出結果を簡略に示す図面である。

図７ａは、前記従来の検出方法によって前記近接障害物を検出した例を示すが、すべてのピクセルを見て前記ピクセルが前記道路に該当するピクセルであるか否かを区別しなければならないので、その結果、演算量が多くなってしまう。しかし、図７ｂ及び図７ｃに示した本発明に係る方法によれば、前記近接障害物各々の前記下段ライン各々の位置（黒線部）を推測するためにイメージの下段から上段へ所定の個数（例えば、Ｎ_ｃ個）の前記グリッドセルを確認することで、前記近接障害物を検出し、その結果として少ない演算によって速くて高解像度の前記近接障害物を検出し得る。

さらに、前記従来の技術は処理時間の関係で、前記障害物検出結果の前記横の解像度が前記入力イメージの前記解像度より低いという問題があるが、本発明で新たに提案する方法は、前記入力イメージの前記出力結果の横の解像度が同一であるためこの問題を解決し得る。

また、本発明では、マルチロスを用いた学習時に高解像度情報を利用し、実際のテストでは低解像度特徴マップだけでも高解像度の結果が出力され得る。これにより、前記低解像度の特徴マップから高解像度情報を出力し得り、演算量も少なくて処理速度も早くなり得る。

図８は、本発明に係る少なくとも一つのＲＯＩ（ＲｅｇｉｏｎｏｆＩｎｔｅｒｅｓｔ）検出方法を示したフローチャートである。

以下、図８を参照して、前記ＲＯＩ検出のための前記方法は、前述した前記近接障害物検出方法により生成された前記近接障害物各々の前記下段ライン各々の情報を参照し、次のように説明される。

まず、図８を参照すると、図２ないし図７を参照して説明した前記障害物検出方法を利用して、前記入力イメージから少なくとも一つの障害物セグメンテーション結果が生成される（Ｓ８１）。これは図２の前記Ｓ０６段階と同じである。

具体的に図２ないし図６を参照して説明したとおり、前記少なくとも一つの前記特定デコード済み特徴マップを分けることで、前記グリッドの各セルが生成されたとした場合、前記学習装置が、前記第ｎデコード済み特徴マップないし前記第１デコード済み特徴マップのうち、少なくとも一部の少なくとも一つの特徴を参照にして、前記列ごとにコンカチネートしたチャネルの値を参照して決定される、前記近接障害物各々の最低部分各々が位置する前記特定の行の各々を示す前記障害物セグメンテーション結果を生成したり、生成するように支援し得る。この際、前記列ごとに前記各々の行に対応する各々の値をノーマルライジングするソフトマックス演算によって、例えば、前記各々の値が１と０の間の値を結果として有する前記障害物セグメンテーション結果が獲得される。

そして（ｉ）前記列ごとに対応する一番下のセルから前記第２方向へ確認した時、前記近接障害物各々の前記下段ライン各々が実際に位置する原本正解位置の各々に対応する各々の列を示す、少なくとも一つの原本正解イメージ及び（ｉｉ）前記特定の行の各々が前記列ごとの前記近接障害物各々の前記下段ライン各々と推定される前記障害物セグメンテーション結果を参照して、少なくとも一つの障害物ロスが算出され得る（Ｓ８２）。これは図２の前記Ｓ０７段階と同じである。

その後、前記特定の行の各々をもとに決定されたアンカリング行（ａｎｃｈｏｒｉｎｇｒｏｗ）各々のピクセルのうち、各々の前記ＲＯＩ検出に利用されるアンカーボックス（ａｎｃｈｏｒｂｏｘ）を生成するための基礎としての前記列ごとの各々のアンカーが指定され得る（Ｓ８３）。例えば、前記列ごとの前記アンカリング行各々は、前記列ごとの前記特定の行の各々から前記第２方向に各々第１距離以内及び前記列ごとの前記特定の行の各々から前記第２方向の反対方向に各々第２以内の距離に位置するだろう。そして、ＲＰＮ（ＲｅｇｉｏｎＰｒｏｐｏｓａｌＮｅｔｗｏｒｋ）は、前記指定されたアンカー各々をもとに少なくとも一つの前記アンカーボックスを設定して（Ｓ８４）、前記アンカーボックス各々を参照して、前記アンカーボックスのうち特定物体を含むものと推定される確率が高い特定のアンカーボックスの少なくとも一つのＲＯＩバウンディングボックスを生成し得る（Ｓ８５）。

つまり、前記入力イメージ上で前記近接障害物のバウンディングボックスを検出しようとするとき、前記Ｓ８１段階で探した前記近接障害物各々の一番下の部分各々を前記近接障害物各々の前記下段ライン各々で決定して、前記ＲＰＮは、前記下段ライン周辺部分にのみ演算を遂行するのである。

図９ａは従来のＲＰＮを利用するプロセスを簡略に示し、図９ｂは、本発明に係る前記ＲＰＮを利用したプロセスを簡略に示す図面である。

図９ａを参照すれば、前記従来のＲＰＮを利用した前記プロセスは、前記特徴マップ上全てのポイントごとに各々のアンカーを設定して、各アンカーごとにスケール（ｓｃａｌｅ）またはアスペクト比（ａｓｐｅｃｔｒａｔｉｏ）が互いに異なる複数の互いに異なるアンカーボックスを生成し、ＲＰＮ演算を遂行する。このとき、前記全てのポイントはピクセル単位でもあり得り、特定間隔のピクセルでもある得る。

これに比べ、図９ｂに示した本発明に係る前記ＲＰＮを利用した前記プロセスでは、前記近接障害物の下段部分９１１を示すイメージ９１０で、前記近接障害物９１１周辺の所定の領域９２１（白い丸で表示）がアンカーとして設定されるが、残りの領域のポイントやピクセル９２２（黒い丸で表示）は、アンカーとして設定されない。

つまり、図９ｂに示されたライン９１１は、前記近接障害物の下段ラインとして検出されたことが確認され、前記確認された下段ラインから、前記第２方向へ所定の範囲内にあるポイント９２１は、前記アンカーに設定され得り、複数の互いに異なるアンカーボックスのスケールまたはアスペクト比ごとに前記アンカー各々に対して前記複数の互いに異なるアンカーボックスを設定して、前記ＲＰＮ演算が遂行され得る。

この際、前記各々の列は、前記第１方向に少なくとも一つのピクセルが含まれ得り、前記各々の行は前記第２方向に少なくとも一つのピクセルが含まれ得るので、前記ポイントまたはピクセル９２２は、前記列方向に列ごとのピクセルでもあり得り、Ｎ_ｃ個に分割された前記グリッド内の前記セルの一つでもあり得る。

このように、前記近接障害物周辺の前記アンカーをもとに前記アンカーボックスだけを計算するため、前記ＲＰＮの前記演算量を画期的に減らし得る。また、各アンカー当たり前記アンカーボックスの個数を増やして、すなわち、前記スケールと前記アスペクト比の個数を増やして、前記物体検出結果が改善されるため、演算量を減らしながら前記アンカーボックスの可能な組み合わせの数を増やせる付加的効果も存在する。

再び図８を参照すれば、前記推定されたバウンディングボックスとそれに対応する原本正解イメージを参照して、少なくとも一つのバウンディンボックスロスまたは少なくとも一つのＲＰＮロスが生成されるが、前記原本正解イメージは、前記入力イメージで前記近接障害物各々を実際に含む少なくとも一つのバウンディンボックス各々を含み（Ｓ８６）、前記バウンディンボックスロスはバックプロパゲーションされ、前記ＣＮＮの前記パラメータを学習し得る（Ｓ８７）。この際、前記Ｓ８７段階では、前記Ｓ８２段階で算出した前記障害物ロスと、前記Ｓ８６段階で算出した前記バウンディングボックスロスを一緒に利用し、前記ＣＮＮの前記パラメータが学習され得る。例えば、すでに前記近接障害物検出に対する前記ＣＮＮの前記パラメータが学習されたなら、前記障害物ロスに対する少なくとも一つの重み付け値は小さく設定し、前記バウンディングボックスロスの少なくとも一つの重み付け値は大きく設定して、前記バックプロパゲーションを遂行し得る。

図８及び図９ｂに示した前記学習方法は、前記テスト方法にもそのまま適用され得る。

すなわち、少なくとも一つのテストイメージから前記近接障害物の前記下段ラインを基準に前記ＲＯＩを検出するための前記ＣＮＮをテストする方法において、（ａ）前記学習装置が（ｉ）トレーニングイメージとして、前記入力イメージを獲得して、前記第１コンボリューションレイヤないし前記第ｎコンボリューションレイヤをもって、前記トレーニングのイメージから逐次的に学習用の第１エンコード済み特徴マップから学習用第ｎエンコード済み特徴マップを各々生成するようにするプロセス；（ｉｉ）前記第ｎデコンボリューションレイヤないし第１デコンボリューションレイヤをもって、前記学習用第ｎエンコード済み特徴マップから逐次的に学習用第ｎデコード済み特徴マップないし学習用第１デコード済み特徴マップを生成するようにするプロセス、（ｉｉｉ）前記学習用第ｎデコード済み特徴マップないし前記学習用第１デコード済み特徴マップの中から少なくとも一つの特定学習用デコード済み特徴マップをその行方向である第１方向及びその列方向である第２方向に分けることで、複数の列と複数の行を有するグリッドの各セルが生成されるとした場合、前記学習用第ｎデコード済み特徴マップないし前記学習用第１デコード済み特徴マップのうち、少なくとも一部特徴マップの少なくとも一つの特徴を参照することにより、前記列ごとに少なくとも一つの学習用近接障害物各々の下段ライン各々が位置すると推定される学習用特定の行の各々を示す、少なくとも一つの学習用障害物セグメンテーション結果を生成するようにするプロセス、（ｉｖ）前記学習用特定の行の各々をもとに推定される学習用アンカリング行各々のピクセルのうち、各々の前記学習用ＲＯＩ検出に利用される学習用アンカーボックスを生成するための各々の基礎として前記列ごとの学習用アンカー各々を決定するプロセス、（ｖ）前記ＲＰＮをもって、（ｖ−１）前記学習用アンカーボックス各々を参照に、少なくとも一つの学習用ＲＯＩバウンディングボックスを生成するようにするものの、前記学習用アンカーボックスのうち少なくとも一つは、前記学習用アンカー各々を基礎に推定され、（ｖ−２）前記学習用ＲＯＩバウンディンボックス及びそれに相応する少なくとも一つの第１原本正解イメージを参照して少なくとも一つの第１ロスを生成するようにするものの、前記学習用ＲＯＩバウンディンボックスは、前記学習用アンカーボックスのうち、学習用特定物体を含むものと推定される確率が高い特定の学習用アンカーボックスであり、前記第１原本正解イメージは、前記トレーニングイメージ内の前記学習用特定物体を実際に含む学習用バウンディンボックスを示すプロセス、及び（ｖｉ）前記第１ロスをバックプロパゲーションして、前記ＣＮＮのパラメータを学習するプロセスを学習装置が遂行した状態で、前記学習装置によって学習された前記ＣＮＮのパラメータを利用するテスト装置が前記入力イメージをテストイメージとして獲得する段階；（ｂ）前記テスト装置が、前記第１コンボリューションレイヤないし第ｎコンボリューションレイヤをもって、前記テストイメージから逐次的にテスト用第１エンコード済み特徴マップないしテスト用第ｎエンコード済み特徴マップを各々生成するようにする段階；（ｃ）前記テスト装置が、前記第ｎデコンボリューションレイヤないし第１デコンボリューションレイヤをもって、前記テスト用第ｎエンコード済み特徴マップから逐次的にテスト第ｎデコード済み特徴マップないしテスト用第１デコード済み特徴マップを生成するようにする段階；（ｄ）前記テスト用第ｎデコード済み特徴マップないし前記テスト用第１デコード済み特徴マップの中から少なくとも一つの特定テスト用デコード済み特徴マップをその行方向である第１方向、その列方向である第２方向に分けることで、複数の列と複数の行を有するグリッドの各セルが生成されるとした場合、前記テスト装置は、前記テスト用第ｎデコード済み特徴マップないし前記テスト用第１デコード済み特徴マップのうち、少なくとも一部特徴マップの少なくとも一つの特徴を参照することにより、前記列ごとに前記テスト用近接障害物各々の下段ライン各々が位置すると推定されるテスト用特定の行の各々を示す、少なくとも一つのテスト用障害物セグメンテーション結果を生成する段階；（ｅ）前記テスト装置が、前記テスト用特定の行の各々をもとに推定されるテスト用アンカリング行各々のピクセルのうち、各々のテスト用ＲＯＩ検出に利用されるテスト用アンカーボックスを生成するための各々の基礎として前記列ごとのテスト用アンカー各々を決定する段階、及び（ｆ）前記テスト装置が、前記ＲＰＮをもって、前記テスト用アンカーボックス各々を参照に少なくとも一つのテスト用ＲＯＩバウンディンボックスを生成するようにするものの、前記テスト用アンカーボックスのうち少なくとも一つは、前記テスト用アンカー各々を基礎に推定される段階；を含み得る。

このように、本発明に係る前記近接障害物検出のための新たな方法は、前記近接障害物の前記下段ライン検出に適用し得り、前記物体の前記下段ラインの周辺領域に対してのみ前記ＲＰＮ演算を遂行して、前記ＲＯＩ検出演算量を大きく減らし得る効果がある。

前記技術分野の通常の技術者に理解されるものとして、例えば、前記トレーニングイメージ、前記テストイメージ及び前記入力イメージといったイメージデータの送受信が前記学習装置及び前記テスト装置の各通信部によって行われ得り、特徴マップと演算を遂行するためのデータが前記学習装置及び前記テスト装置のプロセッサ（及び／またはメモリ）によって保有／維持され得り、コンボリューション演算、デコンボリューション演算及びロス値の演算が前記学習装置及び前記テスト装置の前記プロセッサによって遂行され得るが、本発明はこれに限定されるものではない。

以上で説明された本発明に係る実施例は、多様なコンピュータ構成要素を通じて遂行できるプログラム命令語の形態で具現されてコンピュータで判読可能な記録媒体に記録され得る。前記コンピュータで判読可能な記録媒体はプログラム命令語、データファイル、データ構造などを単独でまたは組み合わせて含まれ得る。前記コンピュータ判読可能な記録媒体に記録されるプログラム命令語は、本発明のために特別に設計されて構成されたものか、コンピュータソフトウェア分野の当業者に公知となって使用可能なものでもよい。コンピュータで判読可能な記録媒体の例には、ハードディスク、フロッピィディスク及び磁気テープのような磁気媒体、ＣＤ−ＲＯＭ、ＤＶＤのような光記録媒体、フロプティカルディスク（ｆｌｏｐｔｉｃａｌｄｉｓｋ）のような磁気−光媒体（ｍａｇｎｅｔｏ−ｏｐｔｉｃａｌｍｅｄｉａ）、およびＲＯＭ、ＲＡＭ、フラッシュメモリなどといったプログラム命令語を保存して遂行するように特別に構成されたハードウェア装置が含まれる。プログラム命令語の例には、コンパイラによって作られるもののような機械語コードだけでなく、インタプリタなどを用いてコンピュータによって実行され得る高級言語コードも含まれる。前記ハードウェア装置は本発明に係る処理を遂行するために一つ以上のソフトウェアモジュールとして作動するように構成されことがあり、その逆も同様である。

以上、本発明が具体的な構成要素などのような特定事項と限定された実施例及び図面によって説明されたが、これは本発明のより全般的な理解を助けるために提供されたものであるに過ぎず、本発明が前記実施例に限られるものではなく、本発明が属する技術分野において通常の知識を有する者であれば係る記載から多様な修正及び変形が行われ得る。

従って、本発明の思想は前記説明された実施例に極限されて定められてはならず、後述する特許請求の範囲だけでなく、本特許請求の範囲と均等または等価的に変形されたものすべては、本発明の思想の範囲に属するといえる。

従来のＣＮＮを用いて一般的なセグメンテーションプロセスを簡略的に示した図面である。本発明に係る近接障害物検出のためのＣＮＮの学習方法を示したフローチャートである。本発明に係る前記近接障害物検出のためのＣＮＮの学習方法を説明するために入力イメージの演算プロセスを例示的に示した図面である。本発明に係る前記近接障害物検出のための修正（ｒｅｓｈａｐｉｎｇ）プロセスを簡略的に表した図面である。本発明に係る前記近接障害物検出のための前記入力イメージ及びこれに対応する原本正解イメージを例示的に示した図面である。本発明に係る近接障害物検出のためのＣＮＮのテスト方法を説明するために前記入力イメージの演算プロセスを例示的に示した図面である。従来の物体検出結果を簡略的に示す図面である。本発明に係る物体の検出結果を簡略的に示した図面である。本発明に係る物体の検出結果を簡略的に示した図面である。本発明に係る少なくとも一つのＲＯＩ検出方法を示したフローチャートである。従来のＲＰＮを利用するプロセスを簡略的に示した図面である。本発明によって前記ＲＰＮを利用するプロセスを簡略的に示している図面である。

Claims

少なくとも一つの入力イメージから少なくとも一つの近接障害物の少なくとも一つの下段ライン（ｂｏｔｔｏｍｌｉｎｅ）を基準に少なくとも一つのＲＯＩ（ＲｅｇｉｏｎｏｆＩｎｔｅｒｅｓｔ）を検出するためのＣＮＮ（ＣｏｎｖｏｌｕｔｉｏｎａｌＮｅｕｒａｌＮｅｔｗｏｒｋ）のパラメータを学習する方法において、
（ａ）学習装置が、第１コンボリューションレイヤないし第ｎコンボリューションレイヤをもって、前記入力イメージから逐次的に第１エンコード済み特徴マップないし第ｎエンコード済み特徴マップを各々生成するようにする段階；
（ｂ）前記学習装置が、第ｎデコンボリューションレイヤないし第１デコンボリューションレイヤをもって、前記第ｎエンコード済み特徴マップから逐次的に第ｎデコード済み特徴マップないし第１デコード済み特徴マップを生成するようにする段階；
（ｃ）前記第ｎデコード済み特徴マップないし前記第１デコード済み特徴マップの中から少なくとも一つの特定デコード済み特徴マップをその行（ｒｏｗ）方向である第１方向及びその列（ｃｏｌｕｍｎ）方向である第２方向に分けることで、複数の列と複数の行を有するグリッドの各セルが生成されるとした場合、前記学習装置は、前記第ｎデコード済み特徴マップないし前記第１デコード済み特徴マップのうち、少なくとも一部特徴マップの少なくとも一つの特徴を参照することにより、前記列ごとに前記近接障害物各々の前記下段ライン各々が位置すると推定される特定の行各々を示す少なくとも一つの障害物セグメンテーション結果を生成する段階；
（ｄ）前記学習装置が、前記特定の行の各々をもとに推定されるアンカリング行（ａｎｃｈｏｒｉｎｇｒｏｗ）各々のピクセルのうち、各々の前記ＲＯＩ検出に利用されるアンカーボックス（ａｎｃｈｏｒｂｏｘ）を生成するための各々の基礎としての前記列ごとのアンカー各々を決定する段階；
（ｅ）前記学習装置が、ＲＰＮ（ＲｅｇｉｏｎＰｒｏｐｏｓａｌＮｅｔｗｏｒｋ）をもって、（ｉ）前記アンカーボックス各々を参照に少なくとも一つのＲＯＩバウンディンボックス（ｂｏｕｎｄｉｎｇｂｏｘ）を生成するようにするものの、前記アンカーボックスのうち少なくとも一つは、前記アンカー各々を基礎に推定され、（ｉｉ）前記ＲＯＩバウンディンボックス及びそれに対応する少なくとも一つの第１原本正解（ＧｒｏｕｎｄＴｒｕｔｈ）イメージを参照して少なくとも一つの第１ロスを生成するようにするものの、前記ＲＯＩバウンディンボックスは、前記アンカーボックスのうち、特定物体を含むものと推定される確率が高い特定のアンカーボックスであり、前記第１原本正解イメージは、前記入力イメージ内の前記特定物体を実際に含むバウンディンボックスを表示する段階；及び
（ｆ）前記学習装置は、前記第１ロスをバックプロパゲーション（ｂａｃｋｐｒｏｐａｇａｔｉｏｎ）して、前記ＣＮＮの前記パラメータを学習する段階；
を含むことを特徴とする方法。
前記（ｃ）段階は、
（ｃ１）前記グリッドの各セルが、前記少なくとも一つのデコード済み特徴マップを前記第１方向に第１間隔ずつ区画し、前記第２方向に第２間隔ずつ区画することで生成されるとした場合、前記学習装置は、前記各々の列ごとに前記各々の行の特徴各々をチャネル方向へコンカチネート（ｃｏｎｃａｔｅｎａｔｅ）して、少なくとも一つの修正済み特徴マップを生成する段階；及び
（ｃ２）前記学習装置は、前記修正済み特徴マップを参照して、前記列ごとにコンカチネートされた各チャネルにおける各々の前記近接障害物の前記下段ライン各々に対する各々の推定位置を確認することにより、前記列ごとに前記行の中から前記近接障害物各々の前記下段ライン各々が位置すると推定される行を示す前記障害物セグメンテーション結果を生成するものの、前記障害物セグメンテーション結果は、前記列ごとの各々のチャネルに対応する各々の値をノーマライジング（ｎｏｒｍａｌｉｚｉｎｇ）するソフトマックス演算によって生成される段階；
を含むことを特徴とする請求項１に記載の方法。
前記（ｃ）段階は、
（ｃ３）前記学習装置は、（ｉ）少なくとも一つの第２原本正解イメージ上に、前記列ごとに前記近接障害物各々の前記下段ライン各々が位置する実際の行が表示される場合、前記実際の行の各々の位置及び（ｉｉ）前記障害物セグメンテーション結果上で、前記近接障害物の各々の前記下段ライン各々が前記列ごとに位置するものと推定される前記特定の行各々の位置を参照して、少なくとも一つの第２ロスを生成する段階；
を含み、
前記（ｆ）段階で、
前記学習装置は前記第１ロスおよび前記第２ロスをバックプロパゲーションして、前記ＣＮＮの前記パラメータを学習することを特徴とする請求項２に記載の方法。
前記（ｅ）段階で、
前記アンカーボックスの中で、少なくとも一つの（ｉ）スケール（ｓｃａｌｅ）及び（ｉｉ）アスペクト比（ａｓｐｅｃｔｒａｔｉｏ）のうち少なくとも一つを参考にして、前記アンカー各々の複数の互いに異なるアンカーボックスを設定することを特徴とする請求項１に記載の方法。
前記各々の列は、前記第１方向に一つ以上のピクセルを含み、前記各々の行は、前記第２方向に一つ以上のピクセルを含むことを特徴とする請求項１に記載の方法。
前記第１原本正解イメージは、前記入力イメージがＮ_ｃ個の行に分割された状態で、前記列ごとに前記近接障害物各々の前記下段ライン各々が、前記行の中から実際に位置する行に対する情報を含み、前記障害物セグメンテーション結果は、前記入力イメージが前記Ｎ_ｃ個の行に分割された状態で、前記列ごとに前記近接障害物各々の前記下段ライン各々が前記行の中に位置するものと推測される行を示すことを特徴とする請求項１に記載の方法。
前記（ｃ）段階で、
前記各々の列に対して、前記近接障害物各々の前記下段ライン各々が存在すると推定されると、前記Ｎ_ｃ個の行の中で、前記各々の列ごとに前記各々の特定の行にある前記下段ライン各々の推定位置各々は対応する最も大きい値を有し、残りの行にある位置は小さい値を有するように前記障害物セグメンテーションの結果値が生成されることを特徴とする請求項６に記載の方法。
少なくとも一つのテストイメージから、少なくとも一つのテスト用近接障害物の少なくとも一つの下段ラインを基準に、少なくとも一つのテスト用ＲＯＩを検出するためのＣＮＮをテストする方法において、
（ａ）（１）第１コンボリューションレイヤないし第ｎコンボリューションレイヤをもって、少なくとも一つのトレーニングイメージから逐次的に学習用第１エンコード済み特徴マップないし学習用第ｎエンコード済み特徴マップを各々生成するようにするプロセス、（２）第ｎデコンボリューションレイヤないし第１デコンボリューションレイヤをもって、前記学習用第ｎエンコード済み特徴マップから逐次的に学習用第ｎデコード済み特徴マップないし学習用第１デコード済み特徴マップを生成するようにするプロセス、（３）前記学習用第ｎデコード済み特徴マップないし前記学習用第１デコード済み特徴マップの中から少なくとも一つの特定学習用デコード済み特徴マップをその行方向である第１方向及びその列方向である第２方向に分けることで、複数の列と複数の行を有するグリッドの各セルが生成されるとした場合、前記学習用第ｎデコード済み特徴マップないし前記学習用第１デコード済み特徴マップのうち、少なくとも一部特徴マップの少なくとも一つの特徴を参照することにより、前記列ごとに少なくとも一つの学習用近接障害物各々の下段ライン各々が位置すると推定される学習用特定の行の各々を示す、少なくとも一つの学習用障害物セグメンテーション結果を生成するようにするプロセス、（４）前記学習用特定の行の各々をもとに推定される学習用アンカリング行各々のピクセルのうち、各々の前記学習用ＲＯＩ検出に利用される学習用アンカーボックスを生成するための各々の基礎として前記列ごとの学習用アンカー各々を決定するプロセス、（５）ＲＰＮ（ＲｅｇｉｏｎＰｒｏｐｏｓａｌＮｅｔｗｏｒｋ）をもって、（ｉ）前記アンカーボックス各々を参照に少なくとも一つの学習用ＲＯＩバウンディンボックス（ｂｏｕｎｄｉｎｇｂｏｘ）を生成するようにするものの、前記学習用アンカーボックスのうち少なくとも一つは、前記学習用アンカー各々を基礎に推定され、（ｉｉ）前記学習用ＲＯＩバウンディンボックス及びそれに相応する少なくとも一つの第１原本正解イメージを参照して少なくとも一つの第１ロスを生成するようにするものの、前記学習用ＲＯＩバウンディンボックスは、前記学習用アンカーボックスのうち、学習用特定物体を含むものと推定される確率が高い特定の学習用アンカーボックスであり、前記第１原本正解イメージは、前記トレーニングイメージ内の前記学習用特定物体を実際に含む学習用バウンディンボックスを示すプロセス、及び（６）前記第１ロスをバックプロパゲーションして、前記ＣＮＮのパラメータを学習するプロセスを学習装置が遂行した状態で、テスト装置が前記テストイメージを獲得する段階；
（ｂ）前記テスト装置が、前記第１コンボリューションレイヤないし第ｎコンボリューションレイヤをもって、前記テストイメージから逐次的にテスト用第１エンコード済み特徴マップないしテスト用第ｎエンコード済み特徴マップを各々生成するようにする段階；
（ｃ）前記テスト装置が、前記第ｎデコンボリューションレイヤないし第１デコンボリューションレイヤをもって、前記テスト用第ｎエンコード済み特徴マップから逐次的にテスト第ｎデコード済み特徴マップないしテスト用第１デコード済み特徴マップを生成するようにする段階；
（ｄ）前記テスト用第ｎデコード済み特徴マップないし前記テスト用第１デコード済み特徴マップの中から少なくとも一つの特定テスト用デコード済み特徴マップをその行方向である第１方向、その列方向である第２方向に分けることで、複数の列と複数の行を有するグリッドの各セルが生成されるとした場合、前記テスト装置は、前記テスト用第ｎデコード済み特徴マップないし前記テスト用第１デコード済み特徴マップのうち、少なくとも一部特徴マップの少なくとも一つの特徴を参照することにより、前記列ごとに前記テスト用近接障害物各々の下段ライン各々が位置すると推定されるテスト用特定の行の各々を示す、少なくとも一つのテスト用障害物セグメンテーション結果を生成する段階；
（ｅ）前記テスト装置が、前記テスト用特定の行の各々をもとに推定されるテスト用アンカリング行各々のピクセルのうち、各々のテスト用ＲＯＩ検出に利用されるテスト用アンカーボックスを生成するための各々の基礎として前記列ごとのテスト用アンカー各々を決定する段階、及び
（ｆ）前記テスト装置が、前記ＲＰＮをもって、前記テスト用アンカーボックス各々を参照に少なくとも一つのテスト用ＲＯＩバウンディンボックスを生成するようにするものの、前記テスト用アンカーボックスのうち少なくとも一つは、前記テスト用アンカー各々を基礎に推定される段階；
を含むことを特徴とする方法。
前記（ｄ）段階は、
（ｄ１）前記グリッドの各セルが、前記テスト用第ｎデコード済み特徴マップないし前記テスト用第１デコード済み特徴マップ中から少なくとも一つの特定テスト用デコード済み特徴マップを前記第１方向に第１間隔ずつ区画し、前記第２方向に第２間隔ずつ区画することで生成されるとした場合、前記テスト装置が前記各々の列ごとに前記各々の行のテスト用特徴各々をチャネル方向へコンカチネートして、少なくとも一つの修正済みテスト用特徴マップを生成する段階；及び
（ｄ２）前記テスト装置が前記修正済みテスト用特徴マップを参照して、前記列ごとにコンカチネートされた各チャネルにおける各々の前記テスト用近接障害物の前記下段ライン各々に対する各々の推定位置を確認することにより、前記列ごとに前記行の中から前記近接障害物各々の前記下段ライン各々が位置すると推定される行を示す前記テスト用障害物セグメンテーション結果を生成するものの、前記テスト用障害物セグメンテーション結果は、前記列ごとの各々のチャネルに対応する各々の値をノーマライジングするソフトマックス演算によって生成される段階；
を含むことを特徴とする請求項８に記載の方法。
前記（ｆ）段階で、
前記テスト用アンカーボックスのうち少なくとも一つの（ｉ）スケール及びアスペクト比のうち少なくとも一つを参考にして、前記テスト用アンカー各々の複数の互いに異なるテスト用アンカーボックスを設定することを特徴とする請求項８に記載の方法。
前記各々の列は、前記第１方向に一つ以上のピクセルを含み、前記各々の行は、前記第２方向に一つ以上のピクセルを含むことを特徴とする請求項８に記載の方法。
前記第１原本正解イメージは、前記トレーニングイメージがＮ_ｃ個の行に分割された状態で、前記列ごとに前記学習用近接障害物各々の前記下段ライン各々が、前記行の中から実際に位置する行に対する情報を含み、前記学習用障害物セグメンテーション結果は、前記トレーニングイメージが前記Ｎ_ｃ個の行に分割された状態で、前記列ごとに前記学習用近接障害物各々の前記下段ライン各々が前記行の中に位置するものと推測される行を示すことを特徴とし、
前記（ｄ）段階で、
前記テストイメージがＮ_ｃ個の行に分割された状態で、前記各々の列に対して、前記テスト用近接障害物各々の前記下段ライン各々が存在すると推定されると、前記Ｎ_ｃ個の行の中で、前記各々のテスト用特定の行にある前記下段ライン各々の推定位置各々は前記列ごとに対応する最も大きい値を有し、残りの行にある位置は小さい値を有するように前記テスト用障害物セグメンテーションの結果値が生成されることを特徴とする請求項８に記載の方法。
少なくとも一つの入力イメージから、少なくとも一つの近接障害物の少なくとも一つの下段ライン（ｂｏｔｔｏｍｌｉｎｅ）を基準に、少なくとも一つのＲＯＩ（ＲｅｇｉｏｎｏｆＩｎｔｅｒｅｓｔ）を検出するためのＣＮＮ（ＣｏｎｖｏｌｕｔｉｏｎａｌＮｅｕｒａｌＮｅｔｗｏｒｋ）のパラメータを学習する学習装置おいて、
前記入力イメージを獲得する通信部；及び
（Ｉ）第１コンボリューションレイヤないし第ｎコンボリューションレイヤをもって、前記入力イメージから逐次的に第１エンコード済み特徴マップないし第ｎエンコード済み特徴マップを各々生成するようにするプロセス、（ＩＩ）第ｎデコンボリューションレイヤないし第１デコンボリューションレイヤをもって、前記第ｎエンコード済み特徴マップから逐次的に第ｎデコード済み特徴マップないし第１デコード済み特徴マップを生成するようにするプロセス、（ＩＩＩ）前記第ｎデコード済み特徴マップないし前記第１デコード済み特徴マップの中から少なくとも一つの特定デコード済み特徴マップをその行（ｒｏｗ）方向である第１方向及びその列（ｃｏｌｕｍｎ）方向である第２方向に分けることで、複数の列と複数の行を有するグリッドの各セルが生成されるとした場合、前記第ｎデコード済み特徴マップないし前記第１デコード済み特徴マップのうち、少なくとも一部特徴マップの少なくとも一つの特徴を参照することにより、前記列ごとに前記近接障害物各々の前記下段ライン各々が位置すると推定される特定の行各々を示す少なくとも一つの障害物セグメンテーション結果を生成するプロセス；（ＩＶ）前記特定の行の各々をもとに推定されるアンカリング行（ａｎｃｈｏｒｉｎｇｒｏｗ）各々のピクセルのうち、各々の前記ＲＯＩ検出に利用されるアンカーボックス（ａｎｃｈｏｒｂｏｘ）を生成するための各々の基礎としての前記列ごとのアンカー各々を決定するプロセス（Ｖ）ＲＰＮ（ＲｅｇｉｏｎＰｒｏｐｏｓａｌＮｅｔｗｏｒｋ）をもって、（ｉ）前記アンカーボックス各々を参照に少なくとも一つのＲＯＩバウンディンボックス（ｂｏｕｎｄｉｎｇｂｏｘ）を生成するようにするものの、前記アンカーボックスのうち少なくとも一つは、前記アンカー各々を基礎に推定され、（ｉｉ）前記ＲＯＩバウンディンボックス及びそれに対応する少なくとも一つの第１原本正解（ＧｒｏｕｎｄＴｒｕｔｈ）イメージを参照して少なくとも一つの第１ロスを生成するようにするものの、前記ＲＯＩバウンディンボックスは、前記アンカーボックスのうち、特定物体を含むものと推定される確率が高い特定のアンカーボックスであり、前記第１原本正解イメージは、前記入力イメージ内の前記特定物体を実際に含むバウンディンボックスを表示するプロセス、及び（ＶＩ）前記第１ロスをバックプロパゲーション（ｂａｃｋｐｒｏｐａｇａｔｉｏｎ）して、前記ＣＮＮの前記パラメータを学習するプロセスを遂行プロセッサ；
を含むことを特徴とする学習装置。
前記（ＩＩＩ）プロセスは、
（ＩＩＩ−Ｉ）前記グリッドの各セルが、前記少なくとも一つのデコード済み特徴マップを前記第１方向に第１間隔ずつ区画し、前記第２方向に第２間隔ずつ区画することで生成されるとした場合、前記各々の列ごとに前記各々の行の特徴各々をチャネル方向へコンカチネート（ｃｏｎｃａｔｅｎａｔｅ）して、少なくとも一つの修正済み特徴マップを生成するプロセス；及び
（ＩＩＩ−２）前記修正済み特徴マップを参照して、前記列ごとにコンカチネートされた各チャネルにおける各々の前記近接障害物の前記下段ライン各々に対する各々の推定位置を確認することにより、前記列ごとに前記行の中から前記近接障害物各々の前記下段ライン各々が位置すると推定される行を示す前記障害物セグメンテーション結果を生成するものの、前記障害物セグメンテーション結果は、前記列ごとの各々のチャネルに対応する各々の値をノーマライジング（ｎｏｒｍａｌｉｚｉｎｇ）するソフトマックス演算によって生成されるプロセス；
を含むことを特徴とする請求項１３に記載の学習装置。
前記（ＩＩＩ）プロセスは、
（ＩＩＩ−３）（ｉ）少なくとも一つの第２原本正解イメージ上に前記列ごとに前記近接障害物各々の前記下段ライン各々が位置する実際の行が表示される場合、前記実際の行の各々の位置及び（ｉｉ）前記障害物セグメンテーション結果上で、前記近接障害物の各々の前記下段ライン各々が前記列ごとに位置するものと推定される前記特定の行各々の位置を参照して、少なくとも一つの第２ロスを生成するプロセス；
を含み、
前記（ＶＩ）プロセスで、
前記プロセッサは、前記第１ロス及び前記第２ロスをバックプロパゲーション（ｂａｃｋｐｒｏｐａｇａｔｉｏｎ）して、前記ＣＮＮの前記パラメータを学習することを特徴とする請求項１３に記載の学習装置。
前記（Ｖ）プロセスで、
前記アンカーボックスの中で、少なくとも一つの（ｉ）スケール（ｓｃａｌｅ）及び（ｉｉ）アスペクト比（ａｓｐｅｃｔｒａｔｉｏ）のうち少なくとも一つを参考にして、前記アンカー各々の複数の互いに異なるアンカーボックスを設定することを特徴とする請求項１３に記載の学習装置。
前記各々の列は、前記第１方向に一つ以上のピクセルを含み、前記各々の行は、前記第２方向に一つ以上のピクセルを含むことを特徴とする請求項１３に記載の学習装置。
前記第１原本正解イメージは、前記入力イメージがＮ_ｃ個の行に分割された状態で、前記列ごとに前記近接障害物各々の前記下段ライン各々が、前記行の中から実際に位置する行に対する情報を含み、前記障害物セグメンテーション結果は、前記入力イメージが前記Ｎ_ｃ個の行に分割された状態で、前記列ごとに前記近接障害物各々の前記下段ライン各々が前記行の中に位置するものと推測される行を示すことを特徴とする請求項１３に記載の学習装置。
前記（ＩＩＩ）プロセスで、前記各々の列に対して、前記近接障害物各々の前記下段ライン各々が存在すると推定されると、前記Ｎ_ｃ個の行の中で、前記各々の列ごとに前記各々の特定の行にある前記下段ライン各々の推定位置各々は対応する最も大きい値を有し、残りの行にある位置は小さい値を有するように前記障害物セグメンテーションの結果値が生成されることを特徴とする請求項１８に記載の学習装置。
少なくとも一つのテストイメージから、少なくとも一つのテスト用近接障害物の少なくとも一つの下段ラインを基準に、少なくとも一つのテスト用ＲＯＩを検出するためのＣＮＮをテストするテスト装置において、
（１）第１コンボリューションレイヤないし第ｎコンボリューションレイヤをもって、少なくとも一つのトレーニングイメージから逐次的に学習用第１エンコード済み特徴マップないし学習用第ｎエンコード済み特徴マップを各々生成するようにするプロセス、（２）第ｎデコンボリューションレイヤないし第１デコンボリューションレイヤをもって、前記学習用第ｎエンコード済み特徴マップから逐次的に学習用第ｎデコード済み特徴マップないし学習用第１デコード済み特徴マップを生成するようにするプロセス、（３）前記学習用第ｎデコード済み特徴マップないし前記学習用第１デコード済み特徴マップの中から少なくとも一つの特定学習用デコード済み特徴マップをその行方向である第１方向及びその列方向である第２方向に分けることで、複数の列と複数の行を有するグリッドの各セルが生成されるとした場合、前記学習用第ｎデコード済み特徴マップないし前記学習用第１デコード済み特徴マップのうち、少なくとも一部特徴マップの少なくとも一つの特徴を参照することにより、前記列ごとに少なくとも一つの学習用近接障害物各々の下段ライン各々が位置すると推定される学習用特定の行の各々を示す、少なくとも一つの学習用障害物セグメンテーション結果を生成するようにするプロセス、（４）前記学習用特定の行の各々をもとに推定される学習用アンカリング行各々のピクセルのうち、各々の前記学習用ＲＯＩ検出に利用される学習用アンカーボックスを生成するための各々の基礎として前記列ごとの学習用アンカー各々を決定するプロセス、（５）ＲＰＮ（ＲｅｇｉｏｎＰｒｏｐｏｓａｌＮｅｔｗｏｒｋ）をもって、（ｉ）前記アンカーボックス各々を参照に少なくとも一つの学習用ＲＯＩバウンディンボックス（ｂｏｕｎｄｉｎｇｂｏｘ）を生成するようにするものの、前記学習用アンカーボックスのうち少なくとも一つは、前記学習用アンカー各々を基礎に推定され、（ｉｉ）前記学習用ＲＯＩバウンディンボックス及びそれに相応する少なくとも一つの第１原本正解イメージを参照して少なくとも一つの第１ロスを生成するようにするものの、前記学習用ＲＯＩバウンディンボックスは、前記学習用アンカーボックスのうち、学習用特定物体を含むものと推定される確率が高い特定の学習用アンカーボックスであり、前記第１原本正解イメージは、前記トレーニングイメージ内の前記学習用特定物体を実際に含む学習用バウンディンボックスを示すプロセス、及び（６）前記第１ロスをバックプロパゲーションして、前記ＣＮＮのパラメータを学習するプロセスを学習装置が遂行した状態で、前記テストイメージを獲得する通信部；
（Ｉ）前記第１コンボリューションレイヤないし第ｎコンボリューションレイヤをもって、前記テストイメージから逐次的にテスト用第１エンコード済み特徴マップないしテスト用第ｎエンコード済み特徴マップを各々生成するようにするプロセス；（ＩＩ）前記第ｎデコンボリューションレイヤないし第１デコンボリューションレイヤをもって、前記テスト用第ｎエンコード済み特徴マップから逐次的にテスト第ｎデコード済み特徴マップないしテスト用第１デコード済み特徴マップを生成するようにするプロセス；（ＩＩＩ）前記テスト用第ｎデコード済み特徴マップないし前記テスト用第１デコード済み特徴マップの中から少なくとも一つの特定テスト用デコード済み特徴マップをその行方向である第１方向、その列方向である第２方向に分けることで、複数の列と複数の行を有するグリッドの各セルが生成されるとした場合、前記テスト用第ｎデコード済み特徴マップないし前記テスト用第１デコード済み特徴マップのうち、少なくとも一部特徴マップの少なくとも一つの特徴を参照することにより、前記列ごとに前記テスト用近接障害物各々の下段ライン各々が位置すると推定されるテスト用特定の行の各々を示す、少なくとも一つのテスト用障害物セグメンテーション結果を生成するプロセス；（ＩＶ）前記テスト用特定の行の各々をもとに推定されるテスト用アンカリング行各々のピクセルのうち、各々のテスト用ＲＯＩ検出に利用されるテスト用アンカーボックスを生成するための各々の基礎として前記列ごとのテスト用アンカー各々を決定するプロセス、及び（Ｖ）前記ＲＰＮをもって、前記テスト用アンカーボックス各々を参照に少なくとも一つのテスト用ＲＯＩバウンディンボックスを生成するようにするものの、前記テスト用アンカーボックスのうち少なくとも一つは、前記テスト用アンカー各々を基礎に推定されるプロセスを遂行するプロセッサ；
を含むことを特徴とするテスト装置。
前記（ＩＩＩ）プロセスは、
（ＩＩＩ−１）前記グリッドの各セルが、前記テスト用第ｎデコード済み特徴マップないし前記テスト用第１デコード済み特徴マップ中から少なくとも一つの特定テスト用デコード済み特徴マップを前記第１方向に第１間隔ずつ区画し、前記第２方向に第２間隔ずつ区画することで生成されるとした場合、前記各々の列ごとに前記各々の行のテスト用特徴各々をチャネル方向へコンカチネートして、少なくとも一つの修正済みテスト用特徴マップを生成するプロセス；及び
（ＩＩＩ−２）前記修正済みテスト用特徴マップを参照して、前記列ごとにコンカチネートした各チャネルにおける各々の前記テスト用近接障害物の前記下段ライン各々に対する各々の推定位置を確認することにより、前記列ごとに前記行の中から前記近接障害物各々の前記下段ライン各々が位置すると推定される行を示す前記テスト用障害物セグメンテーション結果を生成するものの、前記テスト用障害物セグメンテーション結果は、前記列ごとの各々のチャネルに対応する各々の値をノーマライジングするソフトマックス演算によって生成されるプロセス；を含むことを特徴とする請求項２０に記載のテスト装置。
前記（Ｖ）プロセスで、
前記テスト用アンカーボックスの中で、少なくとも一つの（ｉ）スケール及び（ｉｉ）アスペクト比のうち少なくとも一つを参考にして、前記テスト用アンカー各々の複数の互いに異なるテスト用アンカーボックスを設定することを特徴とする請求項２０に記載のテスト装置。
前記各々の列は、前記第１方向に一つ以上のピクセルを含み、前記各々の行は、前記第２方向に一つ以上のピクセルを含むことを特徴とする請求項２０に記載のテスト装置。
前記第１原本正解イメージは、前記トレーニングイメージがＮ_ｃ個の行に分割された状態で、前記列ごとに前記学習用近接障害物各々の前記下段ライン各々が、前記行の中から実際に位置する行に対する情報を含み、前記学習用障害物セグメンテーション結果は、前記トレーニングイメージが前記Ｎ_ｃ個の行に分割された状態で、前記列ごとに前記学習用近接障害物各々の前記下段ライン各々が前記行の中に位置するものと推測される行を示すことを特徴とし、
前記（ＩＩＩ）プロセスで、
前記テストイメージがＮｃ個の行に分割された状態で、前記各々の列に対して、前記テスト用近接障害物各々の前記下段ライン各々が存在すると推定されると、前記Ｎ_ｃ個の行の中で、前記各々のテスト用特定の行にある前記下段ライン各々の推定位置各々は前記列ごとに対応する最も大きい値を有し、残りの行にある位置は小さい値を有するように前記テスト用障害物セグメンテーションの結果値が生成されることを特徴とする請求項２０に記載のテスト装置。