JP2020119523A

JP2020119523A - 疑似３ｄバウンディングボックスを検出する方法及びこれを利用した装置

Info

Publication number: JP2020119523A
Application number: JP2019239475A
Authority: JP
Inventors: − ヒョンキム、ケイ; Kye-Hyeon Kim; キム、ヨンジュン; Young Jun Kim; キム、インスー; Insu Kim; − キョンキム、ハク; Hak-Kyoung Kim; ナム、ウヒョン; Woonhyu Nam; ブー、ソッフン; Sukhoon Boo; ソン、ミュンチュル; Myungchul Sung; ヨー、ドンフン; Donghun Yeo; リュー、ウジュ; Wooju Ryu; チャン、テウン; Taewoong Jang
Original assignee: Stradvision Inc
Current assignee: Stradvision Inc
Priority date: 2019-01-25
Filing date: 2019-12-27
Publication date: 2020-08-06
Anticipated expiration: 2039-12-27
Also published as: US10402978B1; EP3686775C0; JP7112752B2; KR102309708B1; CN111489368A; EP3686775B1; KR20200092845A; EP3686775A1; CN111489368B

Abstract

【課題】インスタントセグメンテーションを利用して検出した物体の姿勢に応じてモードを切り換えることができるＣＮＮ基盤の疑似３Ｄバウンディングボックスを検出する方法を提供する。【解決手段】疑似３Ｄバウンディングボックスのそれぞれの表面に対する陰影情報を学習に反映することができ、疑似３Ｄバウンディングボックスがライダ（Ｌｉｄａｒ）またはレーダを介して取得され、表面がカメラを利用してセグメンテーションされる方法であって、検出方法は、学習装置１００がプーリングレイヤをもって２Ｄバウンディングボックスに対してプーリング演算を適用させてプーリング済み特徴マップを生成し、ＦＣレイヤをもってニューラルネットワーク演算を適用させ、コンボリューションレイヤをもって、表面の領域に対してコンボリューション演算を適用させ、ＦＣレイヤをもって、クラスロスとリグレッションロスを生成させる段階を含む。【選択図】図２

Description

インスタンスセグメンテーションを利用した物体の姿勢に応じてモードを切り換えることができるＣＮＮ基盤の疑似３Ｄバウンディングボックスを検出する方法及びこれを利用した装置｛ＭＥＴＨＯＤＦＯＲＤＥＴＥＣＴＩＮＧＰＳＥＵＤＯ−３ＤＢＯＵＮＤＩＮＧＢＯＸＢＡＳＥＤＯＮＣＮＮＣＡＰＡＢＬＥＯＦＣＯＮＶＥＲＴＩＮＧＭＯＤＥＳＡＣＣＯＲＤＩＮＧＴＯＰＯＳＥＳＯＦＯＢＪＥＣＴＳＵＳＩＮＧＩＮＳＴＡＮＣＥＳＥＧＭＥＮＴＡＴＩＯＮＡＮＤＤＥＶＩＣＥＵＳＩＮＧＴＨＥＳＡＭＥ｝を提供する。

本発明はインスタントセグメンテーション（ＩｎｓｔａｎｃｅＳｅｇｍｅｎｔａｔｉｏｎ）を利用した物体の姿勢に応じてモードを切り換えることができるＣＮＮ（ＣｏｎｖｏｌｕｔｉｏｎａｌＮｅｕｒａｌＮｅｔｗｏｒｋ）基盤の疑似３Ｄバウンディングボックスを検出する方法、及びこれを利用した装置に関し、より詳細には、前記インスタンスセグメンテーション（ＩｎｓｔａｎｃｅＳｅｇｍｅｎｔａｔｉｏｎ）を利用した前記ＣＮＮ基盤の前記疑似（Ｐｓｅｕｄｏ）３Ｄバウンディングボックスを少なくとも一つ検出する方法において、（ａ）少なくとも一つの入力特徴マップと少なくとも一つの２Ｄバウンディングボックスとが取得される際に、前記入力特徴マップが少なくとも一つのトレーニングイメージに対してコンボリューション演算を少なくとも一回適用して生成され、前記２Ｄバウンディングボックスが前記トレーニングイメージ内の少なくとも一つの物体を含むと、学習装置が、プーリングレイヤをもって前記入力特徴マップ上で前記２Ｄバウンディングボックスに対応する少なくとも一つの領域に対してプーリング演算を適用させてプーリング済み特徴マップを生成させ、ＦＣレイヤをもって、前記プーリング済み特徴マップに対してニューラルネットワーク（ＮｅｕｒａｌＮｅｔｗｏｒｋ）演算を少なくとも一回適用させて前記疑似３Ｄバウンディングボックスに対応するボックスパターン情報を生成させる段階；（ｂ）前記学習装置が、（ｉ）分類レイヤをもって、前記ボックスパターン情報を参照して前記物体の方向に対応するクラス情報を生成させ、（ｉｉ）リグレッションレイヤをもって、前記ボックスパターン情報を参照して前記２Ｄバウンディングボックスの座標に対応する前記疑似３Ｄバウンディングボックスの座標に関するリグレッション情報を生成させ、（ｉｉｉ）コンボリューションレイヤをもって、前記プーリング済み特徴マップ上の前記疑似３Ｄバウンディングボックスのそれぞれの表面（前記リグレッション情報を参照して生成）に対応するそれぞれの領域に対してコンボリューション演算を適用させて少なくとも一つのインスタンス特徴マップを生成し、マスクレイヤをもって、前記インスタンス特徴マップと前記クラス情報とを参照して前記それぞれの表面に対応するマスクそれぞれを生成させる段階；及び（ｃ）前記学習装置が、少なくとも一つのＦＣロスレイヤをもって、前記クラス情報と、前記リグレッション情報と、それに対応する少なくとも一つの原本正解とを参照してそれぞれのクラスロス及びそれぞれのリグレッションロスを生成させることにより、前記クラスロス及び前記リグレッションロスをバックプロパゲーションして前記ＦＣレイヤのパラメータを学習する段階；を含むことを特徴とする検出方法及び装置、それを利用したテスト方法及び装置に関する。

自律走行自動車は、人が入力した内容なしに周辺環境を感知して走行することができる車両である。自律走行自動車は、囲まれた環境を検出するために、レーダ、レーザ光線、ＧＰＳ、走行測定器、コンピュータビジョン（ＣｏｍｐｕｔｅｒＶｉｓｉｏｎ）のような多様な技術を使用する。

コンピュータビジョンを使用して２次元単眼映像（２ＤＭｏｎｏｃｕｌａｒＩｍａｇｅ）から３次元情報を推定することは、自律走行及び個人ロボットのような応用分野において非常に重要な作業である。一般的にイメージ内の物体をバウンディング（Ｂｏｕｎｄｉｎｇ）するための２Ｄボックスを生成した後、２Ｄボックスから３Ｄモデルを構成する。

物体をバウンディングするために２Ｄボックスを探し出す従来の技術は、一般的にテンプレート基盤の方法を使用していた。２Ｄボックスを生成するための従来の技術のうち一つであるスライディングウィンドウ方法（ＳｌｉｄｉｎｇＷｉｎｄｏｗｓＭｅｔｈｏｄ）である。この方法は、様々なスケールを有する全体イメージに対してウィンドウのようなボックスを繰り返しスライドさせて、ウィンドウのようなボックス内のそれぞれの個体を検出する方法である。つまり、イメージ内の物体が互いに異なるサイズやスケールを有することができるため、イメージを数回縮小し、ウィンドウのようなボックスをイメージ上に再びスライドさせて、サイズが異なる物体を探し出す。

他の従来の方法のうちの一つは、アンカーボックス方法である。この方法では、多様なアンカーボックスを所定の位置に中心を合わせ、多様なアンカーボックスのうち確率が最も高いアンカーボックス（例えば、原本正解物体と重なる領域が最も多いアンカーボックス）をリグレッション分析により決定する。

そして、３Ｄバウンディングボックス（３ＤＢｏｕｎｄｉｎｇＢｏｘ）が先に決定されたアンカーボックスから構成されるが、これに制限されはしない。まず、３Ｄバウンディングボックスは６つの表面を有することができ、６つの表面のうち３つは徹底して検索する必要があり得る。第二に、単一テンプレートを３Ｄバウンディングボックスの表面のうち３つを決定するために使用する場合、物体の３Ｄ方向が変わると、リグレッションの境界線の条件が異なるようになるため、正確度が低いことがある。第三に、３Ｄバウンディングボックスを取得する従来の方法は、コンピューティングリソースが多く必要である。例えば、３Ｄバウンディングボックスを探すために、正六面体テンプレートやボクセル（Ｖｏｘｅｌ）をマッチングさせるのに演算時間が長くかかるのと同じである。

したがって、本発明はこのような不必要な演算を取り除き、検出精度を向上させるための新たな方法を提示する。

本発明は、上述した問題点を全て解決することを目的とする。

本発明は、疑似３Ｄボックスを利用して３Ｄ物体に外接する３Ｄバウンディングボックス（３ＤＢｏｕｎｄｉｎｇＢｏｘ）を単純化することを他の目的とする。

本発明は、疑似３Ｄボックス（Ｐｓｅｕｄｏ−３ＤＢｏｘ）の頂点の２Ｄ座標を利用して演算時間とコンピューティングリソースを減らすことをまた他の目的とする。

前記のような本発明の目的を達成し、後述する本発明の特徴的な効果を実現するための、本発明の特徴的な構成は下記の通りである。

本発明の一態様によると、インスタンスセグメンテーション（ＩｎｓｔａｎｃｅＳｅｇｍｅｎｔａｔｉｏｎ）を利用したＣＮＮ基盤の疑似（Ｐｓｅｕｄｏ）３Ｄバウンディングボックスを少なくとも一つ検出する方法において、（ａ）少なくとも一つの入力特徴マップと少なくとも一つの２Ｄバウンディングボックスとが取得される際に、前記入力特徴マップが少なくとも一つのトレーニングイメージに対してコンボリューション演算を少なくとも一回適用して生成され、前記２Ｄバウンディングボックスが前記トレーニングイメージ内の少なくとも一つの物体を含むと、学習装置が、プーリングレイヤをもって前記入力特徴マップ上で前記２Ｄバウンディングボックスに対応する少なくとも一つの領域に対してプーリング演算を適用させてプーリング済み特徴マップを生成させ、ＦＣレイヤをもって、前記プーリング済み特徴マップに対してニューラルネットワーク（ＮｅｕｒａｌＮｅｔｗｏｒｋ）演算を少なくとも一回適用させて前記疑似３Ｄバウンディングボックスに対応するボックスパターン情報を生成させる段階；（ｂ）前記学習装置が、（ｉ）分類レイヤをもって、前記ボックスパターン情報を参照して前記物体の方向に対応するクラス情報を生成させ、（ｉｉ）リグレッションレイヤをもって、前記ボックスパターン情報を参照して前記２Ｄバウンディングボックスの座標に対応する前記疑似３Ｄバウンディングボックスの座標に関するリグレッション情報を生成させ、（ｉｉｉ）コンボリューションレイヤをもって、前記プーリング済み特徴マップ上の前記疑似３Ｄバウンディングボックスのそれぞれの表面（前記リグレッション情報を参照して生成）に対応するそれぞれの領域に対してコンボリューション演算を適用させて少なくとも一つのインスタンス特徴マップを生成し、マスクレイヤをもって、前記インスタンス特徴マップと前記クラス情報とを参照して前記それぞれの表面に対応するマスクそれぞれを生成させる段階；及び（ｃ）前記学習装置が、少なくとも一つのＦＣロスレイヤをもって前記クラス情報と、前記リグレッション情報と、これに対応する少なくとも一つの原本正解とを参照してそれぞれのクラスロス及びそれぞれのリグレッションロスを生成させることで、前記クラスロス及び前記リグレッションロスをバックプロパゲーションして前記ＦＣレイヤのパラメータを学習する段階；を含むことを特徴とする。

一実施例において、前記（ｂ）段階以後に、前記学習装置は、少なくとも一つのマスクロスレイヤをもって、前記マスクそれぞれとそれに対応するマスク原本正解とを参照して少なくとも一つのマスクロスを生成させることにより、前記マスクロスをバックプロパゲーションして前記マスクレイヤ及び前記コンボリューションレイヤのうち少なくとも一部のパラメータを調整することを特徴とする。

一実施例において、前記マスクレイヤは、ＦＣＮ（ＦｕｌｌｙＣｏｎｖｏｌｕｔｉｏｎａｌＮｅｔｗｏｒｋ）の少なくとも一部を含むことを特徴とする。

一実施例において、前記マスクは、前記それぞれのインスタンス特徴マップ上で前記物体が位置すると判断される少なくとも一つのピクセルと、前記物体が位置しないと判断される少なくとも一つのピクセルとを区分するバイナリマスク（ＢｉｎａｒｙＭａｓｋ）であることを特徴とする。

一実施例において、前記（ｂ）段階で、前記学習装置は、前記リグレッションレイヤをもって、（ｉ）前記２Ｄバウンディングボックスの頂点から前記物体の前面と裏面それぞれに対応するそれぞれのインスタンスバウンディングボックスの頂点までのそれぞれの変位（Ｄｉｓｐｌａｃｅｍｅｎｔ）、並びに（ｉｉ）前記２Ｄバウンディングボックスの中心から前記それぞれのインスタンスバウンディングボックスのそれぞれの中心までのそれぞれの変位、及び前記２Ｄバウンディングボックスの幅／高さの割合と前記インスタンスバウンディングボックスのそれぞれの幅／高さの割合との間のそれぞれの差のうち少なくとも一つを利用して、前記リグレッション情報を生成させることを特徴する。

一実施例において、対角線をなす前記２Ｄバウンディングボックスのそれぞれの頂点を第１頂点と第２頂点とし、前記第１頂点に少なくとも一つの頂点がマッチングするインスタンスバウンディングボックスを第１インスタンスバウンディングボックスとし、前記第２頂点に少なくとも一つの頂点がマッチングするインスタンスバウンディングボックスを第２インスタンスバウンディングボックスとする場合、前記学習装置は、（ｉ）前記第１及び前記第２インスタンスバウンディングボックスの頂点を連結し、前記頂点が前記２Ｄバウンディングボックスを構成する二つの隣接するラインの第１ペア（ＦｉｒｓｔＰａｉｒ）上に位置し、前記第１及び前記第２インスタンスバウンディングボックスの頂点を連結し、前記頂点が前記２Ｄバウンディングボックスの他の二つの隣接したラインの第２ペア（ＳｅｃｏｎｄＰａｉｒ）上に位置し、前記第１及び前記第２ペアそれぞれにある前記二つの隣接したラインが前記対角線をなす頂点それぞれのどの頂点とも接さず、（ｉｉ）前記２Ｄバウンディングボックスのどのライン上にも存在しない前記第２インスタンスバウンディングボックスの頂点を前記第１頂点と連結した後、前記２Ｄバウンディングボックスのどのライン上にも存在しない前記第１インスタンスバウンディングボックスの頂点を前記第２頂点と連結して、前記クラス情報を参照して前記疑似３Ｄバウンディングボックスを生成することを特徴する。

一実施例において、前記学習装置は、ＣＮＮ基盤の物体検出器から前記入力特徴マップと前記２Ｄバウンディングボックスとを取得することを特徴する。

一実施例において、前記物体検出器は、少なくとも一つの先行（Ｐｒｅｃｅｄｉｎｇ）コンボリューションレイヤをもって、前記トレーニングイメージに対して前記コンボリューション演算を遂行して少なくとも一つの先行特徴マップを生成させ、少なくとも一つの先行ＲＰＮをもって、前記先行特徴マップから前記トレーニングイメージ内に位置する少なくとも一つの前記学習用物体に対応する少なくとも一つの先行プロポーザルボックスを生成させ、少なくとも一つの先行プーリングレイヤをもって、前記先行特徴マップ上で前記先行プロポーザルボックスに対応する少なくとも一つの領域に前記プーリング演算を適用させて少なくとも一つの先行プーリング済み特徴マップを生成させ、少なくとも一つの先行ＦＣレイヤをもって、前記先行プーリング済み特徴マップに対して少なくとも一回ニューラルネットワーク演算を適用させて前記学習用物体に対応する先行物体パターン情報を生成させ、少なくとも一つの先行分類レイヤをもって、前記先行物体パターン情報を参照して前記学習用物体の先行クラス情報を生成させ、少なくとも一つの先行リグレッションレイヤをもって、前記先行物体パターン情報を参照して前記学習用物体に対応する前記２Ｄバウンディングボックスに関する先行リグレッション情報を生成させることで、前記入力特徴マップと前記２Ｄバウンディングボックスとを生成することを特徴する。

本発明の他の態様によると、インスタンスセグメンテーション（ＩｎｓｔａｎｃｅＳｅｇｍｅｎｔａｔｉｏｎ）を利用したＣＮＮ基盤の疑似（Ｐｓｅｕｄｏ）３Ｄバウンディングボックスを少なくとも一つ検出するテスト方法において、（ａ）学習装置が（ｉ）少なくとも一つの学習用入力特徴マップと少なくとも一つの学習用２Ｄバウンディングボックスとが取得された場合、前記学習用入力特徴マップが少なくとも一つのトレーニングイメージに対してコンボリューション演算を少なくとも一回適用して生成され、前記学習用２Ｄバウンディングボックスが前記トレーニングイメージ内の少なくとも一つの物体を含み、（ｉｉ）少なくとも一つのプーリングレイヤをもって、前記学習用入力特徴マップ上で前記学習用２Ｄバウンディングボックスに対応する少なくとも一つの領域に対してプーリング演算を少なくとも一回適用させて少なくとも一つの学習用プーリング済み特徴マップを生成させ、（ｉｉｉ）少なくとも一つのＦＣレイヤをもって、前記学習用プーリング済み特徴マップに対してニューラルネットワーク（ＮｅｕｒａｌＮｅｔｗｏｒｋ）演算を少なくとも一回適用させて前記疑似３Ｄバウンディングボックスに対応する学習用ボックスパターン情報を生成させ、（ｉｖ）少なくとも一つの分類レイヤをもって前記学習用ボックスパターン情報を参照して前記学習用物体の方向に対応する学習用クラス情報を生成し、（ｖ）少なくとも一つのリグレッションレイヤをもって、前記学習用ボックスパターン情報を参照して前記学習用２Ｄバウンディングボックスの座標に対応する前記疑似３Ｄバウンディングボックスの座標に対する学習用リグレッション情報を生成させ、（ｖｉ）少なくとも一つのコンボリューションレイヤをもって、前記学習用プーリング済み特徴マップ上の前記疑似３Ｄバウンディングボックスのそれぞれの表面（前記学習用リグレッション情報を参照して生成）に対応するそれぞれの領域に対して前記コンボリューション演算を適用させて少なくとも一つの学習用インスタンス特徴マップを生成し、（ｖｉｉ）少なくとも一つのマスクレイヤをもって、前記学習用インスタンス特徴マップと前記学習用クラス情報とを参照して前記それぞれの表面に対応する学習用マスクそれぞれを生成させ、（ｖｉｉｉ）少なくとも一つのＦＣロスレイヤをもって、前記学習用クラス情報と、前記学習用リグレッション情報と、それに対応する少なくとも一つの原本正解とを参照してそれぞれのクラスロス及びそれぞれのリグレッションロスを生成させることで、前記クラスロス及び前記リグレッションロスをバックプロパゲーションして前記ＦＣレイヤのパラメータを学習した状態で、テスト装置が、前記プーリングレイヤをもって、少なくとも一つのテスト用入力特徴マップ上で少なくとも一つのテスト用２Ｄバウンディングボックスに対応する少なくとも一つの領域に対して前記プーリング演算を適用させて少なくとも一つのテスト用プーリング済み特徴マップを生成させ、前記ＦＣレイヤをもって、前記テスト用プーリング済み特徴マップに対して前記ニューラルネットワーク（ＮｅｕｒａｌＮｅｔｗｏｒｋ）演算を適用させて前記疑似３Ｄバウンディングボックスに対応するテスト用ボックスパターン情報を生成させる段階；及び（ｂ）前記テスト装置が、（ｉ）前記分類レイヤをもって前記テスト用ボックスパターン情報を参照して少なくとも一つのテスト用物体の方向に対応するテスト用クラス情報を生成させ、（ｉｉ）前記リグレッションレイヤをもって、前記テスト用ボックスパターン情報を参照して前記テスト用２Ｄバウンディングボックスの座標に対応する前記疑似３Ｄバウンディングボックスの座標に関するテスト用リグレッション情報を生成させ、（ｉｉｉ）前記コンボリューションレイヤをもって、前記テスト用プーリング済み特徴マップ上の前記疑似３Ｄバウンディングボックスのそれぞれの表面（前記テスト用リグレッション情報を参照して生成）に対応するそれぞれの領域に対して前記コンボリューション演算を適用させて少なくとも一つのテスト用インスタンス特徴マップを生成し、前記マスクレイヤをもって前記テスト用インスタンス特徴マップと前記テスト用クラス情報とを参照して前記それぞれの表面に対応するテスト用マスクそれぞれを生成させる段階；を含むことを特徴とする。

一実施例において、前記（ｖｉｉ）プロセス以後に、前記学習装置は、少なくとも一つのマスクロスレイヤをもって前記学習用マスクそれぞれとそれに対応するマスク原本正解とを参照して少なくとも一つのマスクロスを生成させることにより、前記マスクロスをバックプロパゲーションして、前記マスクレイヤ及び前記コンボリューションレイヤのうち少なくとも一部のパラメータを調整することを特徴とする。

一実施例において、前記テスト用マスクそれぞれは、前記それぞれのテスト用インスタンス特徴マップ上で前記テスト用物体が位置すると判断される少なくとも一つのピクセルと、前記テスト用物体が位置しないと判断される少なくとも一つのピクセルとを区分するバイナリマスク（ＢｉｎａｒｙＭａｓｋ）であることを特徴とする。

一実施例において、前記（ｂ）段階で、前記テスト装置は前記リグレッションレイヤをもって、（ｉ）前記テスト用２Ｄバウンディングボックスの頂点から前記テスト用物体の前面と裏面それぞれに対応するそれぞれのテスト用インスタンスバウンディングボックスの頂点までのそれぞれの変位（Ｄｉｓｐｌａｃｅｍｅｎｔ）、並びに（ｉｉ）前記テスト用２Ｄバウンディングボックスの中心から前記それぞれのテスト用インスタンスバウンディングボックスのそれぞれの中心までのそれぞれの変位、及び前記テスト用２Ｄバウンディングボックスの幅／高さの割合と前記テスト用インスタンスバウンディングボックスのそれぞれの幅／高さの割合との間のそれぞれの差のうち少なくとも一つを利用して、前記テスト用リグレッション情報を生成させることを特徴とする。

一実施例において、対角線をなす前記テスト用２Ｄバウンディングボックスのそれぞれの頂点を第１頂点と第２頂点とし、前記第１頂点に少なくとも一つの頂点がマッチングする前記テスト用インスタンスバウンディングボックスをテスト用第１インスタンスバウンディングボックスとし、前記第２頂点に少なくとも一つの頂点がマッチングする前記テスト用インスタンスバウンディングボックスをテスト用第２インスタンスバウンディングボックスとする場合、前記テスト装置は、（ｉ）前記テスト用第１及び前記テスト用第２インスタンスバウンディングボックスの各頂点を連結し、前記頂点が前記テスト用２Ｄバウンディングボックスを構成する二つの隣接するラインの第１ペア（ＦｉｒｓｔＰａｉｒ）上に位置し、前記テスト用第１及び前記テスト用第２インスタンスバウンディングボックスの頂点を連結し、前記頂点が前記テスト用２Ｄバウンディングボックスの他の二つの隣接したラインの第２ペア（ＳｅｃｏｎｄＰａｉｒ）上に位置し、前記第１及び前記第２ペアそれぞれにある前記二つの隣接したラインが前記対角線をなす頂点それぞれのどの頂点とも接さず、（ｉｉ）前記テスト用２Ｄバウンディングボックスのどのライン上にも存在しない前記テスト用第２インスタンスバウンディングボックスの頂点を前記第１頂点と連結した後、前記テスト用２Ｄバウンディングボックスのどのライン上にも存在しない前記テスト用第１インスタンスバウンディングボックスの頂点を前記第２頂点と連結して、前記クラス情報を参照して前記疑似３Ｄバウンディングボックスを生成することを特徴する。

一実施例において、前記テスト装置は、ＣＮＮ基盤の物体検出器から前記テスト用入力特徴マップと前記テスト用２Ｄバウンディングボックスとを取得することを特徴する。

一実施例において、前記物体検出器は、少なくとも一つの先行コンボリューションレイヤをもって前記テストイメージに対して前記コンボリューション演算を遂行して少なくとも一つのテスト用先行特徴マップを生成させ、少なくとも一つの先行ＲＰＮをもって、前記テスト用先行特徴マップから前記テストイメージ内に位置する少なくとも一つの前記テスト用物体に対応する少なくとも一つのテスト用先行プロポーザルボックスを生成させ、少なくとも一つの先行プーリングレイヤをもって、前記テスト用先行特徴マップ上で前記テスト用先行プロポーザルボックスに対応する少なくとも一つの領域に前記プーリング演算を適用させて少なくとも一つのテスト用先行プーリング済み特徴マップを生成させ、少なくとも一つの先行ＦＣレイヤをもって、前記テスト用先行プーリング済み特徴マップに対して前記ニューラルネットワーク演算を適用させて前記テスト用物体に対応するテスト用先行物体パターン情報を生成させ、少なくとも一つの先行分類レイヤをもって前記テスト用先行物体パターン情報を参照して前記テスト用物体のテスト用先行クラス情報を生成させ、少なくとも一つの先行リグレッションレイヤをもって、前記テスト用先行物体パターン情報を参照して前記テスト用物体に対応する前記テスト用２Ｄバウンディングボックスに対するテスト用先行リグレッション情報を生成させることで、前記テスト用入力特徴マップと前記テスト用２Ｄバウンディングボックスとを生成することを特徴する。

本発明のまた他の態様によると、インスタンスセグメンテーション（ＩｎｓｔａｎｃｅＳｅｇｍｅｎｔａｔｉｏｎ）を利用したＣＮＮ基盤の疑似（Ｐｓｅｕｄｏ）３Ｄバウンディングボックスを検出する学習装置において、インストラクション（Ｉｎｓｔｒｕｃｔｉｏｎ）を格納する少なくとも一つのメモリ；及び（Ｉ）プーリングレイヤをもって、少なくとも一つの入力特徴マップ上で少なくとも一つの２Ｄバウンディングボックスに対応する少なくとも一つの領域に対してプーリング演算を適用させてプーリング済み特徴マップを生成させ、前記入力特徴マップは少なくとも一つのトレーニングイメージに対してコンボリューション演算を少なくとも一回適用して生成され、前記２Ｄバウンディングボックスは、前記トレーニングイメージ内の少なくとも一つの物体を含み、ＦＣレイヤをもって、前記プーリング済み特徴マップに対してニューラルネットワーク（ＮｅｕｒａｌＮｅｔｗｏｒｋ）演算を少なくとも一回適用させて前記疑似３Ｄバウンディングボックスに対応するボックスパターン情報を生成させるプロセス、（ＩＩ）（ＩＩ−１）分類レイヤをもって、前記ボックスパターン情報を参照して前記物体の方向に対応するクラス情報を生成させ、（ＩＩ−２）リグレッションレイヤをもって、前記ボックスパターン情報を参照して前記２Ｄバウンディングボックスの座標に対応する前記疑似３Ｄバウンディングボックスの座標に関するリグレッション情報を生成させ、（ＩＩ−３）コンボリューションレイヤをもって、前記プーリング済み特徴マップ上の前記疑似３Ｄバウンディングボックスのそれぞれの表面（前記リグレッション情報を参照して生成）に対応するそれぞれの領域に対してコンボリューション演算を適用させて少なくとも一つのインスタンス特徴マップを生成し、マスクレイヤをもって、前記インスタンス特徴マップと前記クラス情報とを参照して前記それぞれの表面に対応するマスクそれぞれを生成させるプロセス、及び（ＩＩＩ）少なくとも一つのＦＣロスレイヤをもって、前記クラス情報と、前記リグレッション情報と、これに対応する少なくとも一つの原本正解とを参照してそれぞれのクラスロス及びそれぞれのリグレッションロスを生成させることで、前記クラスロス及び前記リグレッションロスをバックプロパゲーションして前記ＦＣレイヤのパラメータを学習するプロセスを遂行するための前記インストラクションを実行するように構成された、少なくとも一つのプロセッサ；を含むことを特徴とする。

一実施例において、前記（ＩＩ−３）プロセス以後に、前記プロセッサは、少なくとも一つのマスクロスレイヤをもって前記マスクそれぞれとこれに対応するマスク原本正解とを参照して少なくとも一つのマスクロスを生成させることで、前記マスクロスをバックプロパゲーションして前記マスクレイヤ及び前記コンボリューションレイヤのうち少なくとも一部のパラメータを調整することを特徴する。

一実施例において、前記マスクレイヤは、ＦＣＮ（ＦｕｌｌｙＣｏｎｖｏｌｕｔｉｏｎａｌＮｅｔｗｏｒｋ）の少なくとも一部を含むことを特徴とする。
一実施例において、前記マスクは、前記それぞれのインスタンス特徴マップ上で前記物体が位置すると判断される少なくとも一つのピクセルと、前記物体が位置しないと判断される少なくとも一つのピクセルとを区分するバイナリマスク（ＢｉｎａｒｙＭａｓｋ）であることを特徴とする。

一実施例において、前記（ＩＩ−３）プロセスで、前記プロセッサは、前記リグレッションレイヤをもって、（ｉ）前記２Ｄバウンディングボックスの頂点から前記物体の前面と裏面それぞれに対応するそれぞれのインスタンスバウンディングボックスの頂点までのそれぞれの変位（Ｄｉｓｐｌａｃｅｍｅｎｔ）、並びに（ｉｉ）前記２Ｄバウンディングボックスの中心から前記それぞれのインスタンスバウンディングボックスのそれぞれの中心までのそれぞれの変位、及び前記２Ｄバウンディングボックスの幅／高さの割合と前記インスタンスバウンディングボックスのそれぞれの幅／高さの割合との間のそれぞれの差のうち少なくとも一つを利用して、前記リグレッション情報を生成させることを特徴する。

一実施例において、対角線をなす前記２Ｄバウンディングボックスのそれぞれの頂点を第１頂点と第２頂点とし、前記第１頂点に少なくとも一つの頂点がマッチングするインスタンスバウンディングボックスを第１インスタンスバウンディングボックスとし、前記第２頂点に少なくとも一つの頂点がマッチングするインスタンスバウンディングボックスを第２インスタンスバウンディングボックスとする場合、前記プロセッサは、（ｉ）前記第１及び前記第２インスタンスバウンディングボックスの頂点を連結し、前記頂点が前記２Ｄバウンディングボックスを構成する二つの隣接するラインの第１ペア（ＦｉｒｓｔＰａｉｒ）上に位置し、前記第１及び前記第２インスタンスバウンディングボックスの各頂点を連結し、前記頂点が前記２Ｄバウンディングボックスの他の二つの隣接したラインの第２ペア（ＳｅｃｏｎｄＰａｉｒ）上に位置し、前記第１及び前記第２ペアそれぞれにある前記二つの隣接したラインが前記対角線をなす頂点それぞれのどの頂点とも接さず、（ｉｉ）前記２Ｄバウンディングボックスのどのライン上にも存在しない前記第２インスタンスバウンディングボックスの頂点を前記第１頂点と連結した後、前記２Ｄバウンディングボックスのどのライン上にも存在しない前記第１インスタンスバウンディングボックスの頂点を前記第２頂点と連結して、前記クラス情報を参照して前記疑似３Ｄバウンディングボックスを生成することを特徴する。

一実施例において、前記プロセッサは、ＣＮＮ基盤の物体検出器から前記入力特徴マップと前記２Ｄバウンディングボックスとを取得することを特徴する。

本発明のまた他の態様によると、インスタンスセグメンテーション（ＩｎｓｔａｎｃｅＳｅｇｍｅｎｔａｔｉｏｎ）を利用したＣＮＮ基盤の疑似（Ｐｓｅｕｄｏ）３Ｄバウンディングボックスを少なくとも一つ検出するテスト装置において、インストラクション（Ｉｎｓｔｒｕｃｔｉｏｎ）を格納する少なくとも一つのメモリ；及び学習装置が（ｉ）少なくとも一つの学習用入力特徴マップと少なくとも一つの学習用２Ｄバウンディングボックスとが取得された場合、前記学習用入力特徴マップが少なくとも一つのトレーニングイメージに対してコンボリューション演算を少なくとも一回適用して生成され、前記学習用２Ｄバウンディングボックスが前記トレーニングイメージ内の少なくとも一つの物体を含み、（ｉｉ）少なくとも一つのプーリングレイヤをもって、前記学習用入力特徴マップ上で前記学習用２Ｄバウンディングボックスに対応する少なくとも一つの領域に対してプーリング演算を少なくとも一回適用させて少なくとも一つの学習用プーリング済み特徴マップを生成させ、（ｉｉｉ）少なくとも一つのＦＣレイヤをもって、前記学習用プーリング済み特徴マップに対してニューラルネットワーク（ＮｅｕｒａｌＮｅｔｗｏｒｋ）演算を少なくとも一回適用させて前記疑似３Ｄバウンディングボックスに対応する学習用ボックスパターン情報を生成させ、（ｉｖ）少なくとも一つの分類レイヤをもって前記学習用ボックスパターン情報を参照して前記学習用物体の方向に対応する学習用クラス情報を生成し、（ｖ）少なくとも一つのリグレッションレイヤをもって、前記学習用ボックスパターン情報を参照して前記学習用２Ｄバウンディングボックスの座標に対応する前記疑似３Ｄバウンディングボックスの座標に対する学習用リグレッション情報を生成させ、（ｖｉ）少なくとも一つのコンボリューションレイヤをもって、前記学習用プーリング済み特徴マップ上の前記疑似３Ｄバウンディングボックスのそれぞれの表面（前記学習用リグレッション情報を参照して生成）に対応するそれぞれの領域に対して前記コンボリューション演算を適用させて少なくとも一つの学習用インスタンス特徴マップを生成し、（ｖｉｉ）少なくとも一つのマスクレイヤをもって、前記学習用インスタンス特徴マップと前記学習用クラス情報とを参照して前記それぞれの表面に対応する学習用マスクそれぞれを生成させ、（ｖｉｉｉ）少なくとも一つのＦＣロスレイヤをもって、前記学習用クラス情報と、前記学習用リグレッション情報と、それに対応する少なくとも一つの原本正解とを参照してそれぞれのクラスロス及びそれぞれのリグレッションロスを生成させることで、前記クラスロス及び前記リグレッションロスをバックプロパゲーションして前記ＦＣレイヤのパラメータを学習するようにして、前記クラスロスと前記リグレッションロスとをバックプロパゲーションして、前記ＦＣレイヤを学習した状態で、（Ｉ）前記プーリングレイヤをもって、少なくとも一つのテスト用入力特徴マップ上で少なくとも一つのテスト用２Ｄバウンディングボックスに対応する少なくとも一つの領域に対してプーリング演算を適用させてテスト用プーリング済み特徴マップを生成させ、前記テスト用入力特徴マップは、少なくとも一つのテストイメージに対してコンボリューション演算を少なくとも一回適用して生成され、前記テスト用２Ｄバウンディングボックスは、前記テストイメージ内の少なくとも一つのテスト用物体を含み、ＦＣレイヤをもって、前記テスト用プーリング済み特徴マップに対してニューラルネットワーク（ＮｅｕｒａｌＮｅｔｗｏｒｋ）演算を少なくとも一回適用させて前記疑似３Ｄバウンディングボックスに対応するテスト用ボックスパターン情報を生成させるプロセス、及び（ＩＩ）（ＩＩ−１）前記分類レイヤをもって、前記テスト用ボックスパターン情報を参照して前記テスト用物体の方向に対応するテスト用クラス情報を生成させ、（ＩＩ−２）リグレッションレイヤをもって、前記テスト用ボックスパターン情報を参照して前記テスト用２Ｄバウンディングボックスの座標に対応する前記疑似３Ｄバウンディングボックスの座標に関するテスト用リグレッション情報を生成させ、（ＩＩ−３）コンボリューションレイヤをもって、前記テスト用プーリング済み特徴マップ上の前記疑似３Ｄバウンディングボックスのそれぞれの表面（前記テスト用リグレッション情報を参照して生成）に対応するそれぞれの領域に対してコンボリューション演算を適用させて少なくとも一つのテスト用インスタンス特徴マップを生成し、マスクレイヤをもって、前記テスト用インスタンス特徴マップと前記テスト用クラス情報とを参照して、前記それぞれの表面に対応するテスト用マスクそれぞれを生成させるプロセスを遂行する前記インストラクションを実行するように構成された少なくとも一つのプロセッサ；を含むことを特徴とする。

一実施例において、前記（ｖｉｉ）プロセス以後に、前記学習装置が少なくとも一つのマスクロスレイヤをもって、前記学習用マスクそれぞれとそれに対応するマスク原本正解とを参照して少なくとも一つのマスクロスを生成させることにより、前記マスクロスをバックプロパゲーションして、前記マスクレイヤ及び前記コンボリューションレイヤのうち少なくとも一部のパラメータを調整することを特徴とする。

一実施例において、前記（ＩＩ−２）プロセスで、前記プロセッサは、前記リグレッションレイヤをもって、（ｉ）前記テスト用２Ｄバウンディングボックスの頂点から前記テスト用物体の前面と裏面それぞれに対応するそれぞれのテスト用インスタンスバウンディングボックスの頂点までのそれぞれの変位（Ｄｉｓｐｌａｃｅｍｅｎｔ）、並びに（ｉｉ）前記テスト用２Ｄバウンディングボックスの中心から前記それぞれのテスト用インスタンスバウンディングボックスのそれぞれの中心までのそれぞれの変位、及び前記テスト用２Ｄバウンディングボックスの幅／高さの割合と前記テスト用インスタンスバウンディングボックスのそれぞれの幅／高さの割合との間のそれぞれの差のうち少なくとも一つを利用して、前記テスト用リグレッション情報を生成させることを特徴とする。

一実施例において、対角線をなす前記テスト用２Ｄバウンディングボックスのそれぞれの頂点を第１頂点と第２頂点とし、前記第１頂点に少なくとも一つの頂点がマッチングするテスト用インスタンスバウンディングボックスを第１テスト用インスタンスバウンディングボックスとし、前記第２頂点に少なくとも一つの頂点がマッチングするテスト用インスタンスバウンディングボックスを第２テスト用インスタンスバウンディングボックスとする場合、前記プロセッサは、（ｉ）前記テスト用第１及び前記テスト用第２インスタンスバウンディングボックスの頂点を連結し、前記頂点が前記テスト用２Ｄバウンディングボックスを構成する二つの隣接するラインの第１ペア（ＦｉｒｓｔＰａｉｒ）上に位置し、前記テスト用第１及び前記テスト用第２インスタンスバウンディングボックスの頂点を連結し、前記頂点が前記テスト用２Ｄバウンディングボックスの他の二つの隣接したラインの第２ペア（ＳｅｃｏｎｄＰａｉｒ）上に位置し、前記第１及び前記第２ペアそれぞれにある前記二つの隣接したラインが前記対角線をなす頂点それぞれのどの頂点とも接さず、（ｉｉ）前記テスト用２Ｄバウンディングボックスのどのライン上にも存在しない前記テスト用第２インスタンスバウンディングボックスの頂点を前記第１頂点と連結した後、前記テスト用２Ｄバウンディングボックスのどのライン上にも存在しない前記テスト用第１インスタンスバウンディングボックスの頂点を前記第２頂点と連結して、前記クラス情報を参照して前記疑似３Ｄバウンディングボックスを生成することを特徴する。

一実施例において、前記プロセッサは、ＣＮＮ基盤の物体検出器から前記テスト用入力特徴マップと前記テスト用２Ｄバウンディングボックスとを取得することを特徴する。

この他にも、本発明の方法を実行するためのコンピュータプログラムを格納するためのコンピュータ読取り可能な記録媒体がさらに提供される。

本発明は、３Ｄ座標生成のための複雑な演算なしに、物体の３Ｄバウンディングボックスを生成することができ、物体検出の正確性を向上させることができる効果がある。

また、本発明は、疑似３Ｄバウンディングボックスを利用することで、３Ｄ物体に外接する３Ｄバウンディングボックスを単純化することができる他の効果がある。

また、本発明は、疑似３Ｄボックスの位置に対する頂点の２Ｄ座標を利用することで、コンピューティングリソースと演算時間を減少させることが可能なまた他の効果がある。

本発明の実施例の説明に利用されるために添付された以下の図面は、本発明の実施例のうち単に一部であるにすぎず、本発明の属する技術分野において通常の知識を有する者（以下「通常の技術者」）にとっては、発明的作業が行われずにこれらの図面に基づいて他の各図面が得られ得る。

図１は、本発明の一実施例によるインスタンスセグメンテーション（ＩｎｓｔａｎｃｅＳｅｇｍｅｎｔａｔｉｏｎ）を利用したＣＮＮ基盤の疑似３Ｄバウンディングボックスを検出する学習装置を簡略に示したものである。図２は、本発明の一実施例によるインスタンスセグメンテーションを利用したＣＮＮ基盤の疑似３Ｄバウンディングボックスを検出する学習方法を簡略に示したものである。図３は、本発明の一実施例によるインスタンスセグメンテーションを利用したＣＮＮ基盤の疑似３Ｄバウンディングボックスを検出する学習方法において、物体方向のクラスを簡略に示したものである。図４は、本発明の一実施例によるインスタンスセグメンテーションを利用したＣＮＮ基盤の疑似３Ｄバウンディングボックスを検出する学習方法において、疑似３Ｄバウンディングボックスの位置情報を生成するプロセスを簡略に示したものである。図５は、本発明の一実施例によるインスタンスセグメンテーションを利用したＣＮＮ基盤の疑似３Ｄバウンディングボックスを検出する学習方法において、疑似３Ｄバウンディングボックスの位置情報を生成する他のプロセスを簡略に示したものである。図６は、本発明の一実施例によるインスタンスセグメンテーションを利用したＣＮＮ基盤の疑似３Ｄバウンディングボックスを検出するテスト装置を簡略に示したものである。図７は、本発明の一実施例によるインスタンスセグメンテーションを利用したＣＮＮ基盤の疑似３Ｄバウンディングボックスを検出するテスト方法を簡略に示したものである。図８は、本発明の一実施例によるインスタンスセグメンテーションを利用したＣＮＮ基盤の疑似３Ｄバウンディングボックスを検出するテスト方法によって生成された疑似３Ｄバウンディングボックスを簡略に示したものである。

後述する本発明に関する詳細な説明は、本発明の各目的、各技術的解法、及び各長所を明らかにするために本発明が実施され得る特定の実施例を例示として示す添付図面を参照する。これらの実施例は、通常の技術者が本発明を実施することができるように十分詳細に説明される。

また、本発明の詳細な説明及び各請求項にわたって、「含む」という単語及びそれらの変形は、他の技術的各特徴、各付加物、構成要素又は段階を除外することを意図したものではない。通常の技術者にとって本発明の他の各目的、長所及び各特性が、一部は本説明書から、また一部は本発明の実施から明らかになるであろう。以下の例示及び図面は実例として提供され、本発明を限定することを意図したものではない。

本発明で言及している各種イメージは、舗装または非舗装道路関連のイメージを含み得、この場合、道路環境で登場し得る物体（例えば、自動車、人、動物、植物、物、建物、飛行機やドローンのような飛行体、その他の障害物）を想定し得るが、必ずしもこれに限定されるものではなく、本発明で言及している各種イメージは、道路と関係のないイメージ（例えば、非舗装道路、路地、空き地、海、湖、川、山、森、砂漠、空、室内と関連したイメージ）でもあり得、この場合、非舗装道路、路地、空き地、海、湖、川、山、森、砂漠、空、室内環境で登場し得る物体（例えば、自動車、人、動物、植物、物、建物、飛行機やドローンのような飛行体、その他の障害物）を想定し得るが、必ずしもこれに限定されるものではない。

以下、本発明の属する技術分野において通常の知識を有する者が本発明を容易に実施するようにするために、本発明の好ましい実施例について、添付された図面を参照して詳細に説明することとする。

図１は、本発明の一実施例によるインスタンスセグメンテーション（ＩｎｓｔａｎｃｅＳｅｇｍｅｎｔａｔｉｏｎ）を利用したＣＮＮ基盤の疑似３Ｄバウンディングボックスを検出する学習装置を簡略に示したものであって、図１を参照すると、学習装置１００は、通信部１１０とプロセッサ１２０とを含むことができる。また、学習装置は、次のプロセスを遂行するためのコンピュータ読取り可能なインストラクション（Ｉｎｓｔｒｕｃｔｉｏｎ）を格納することができるメモリ１１５をさらに含むことができる。一実施例によると、プロセッサ、メモリ、媒体等は、統合プロセッサ（ＩｎｔｅｇｒａｔｅｄＰｒｏｃｅｓｓｏｒ）として統合され得る。

先ず、通信部１１０は、少なくとも一つの入力特徴マップと少なくとも一つの２Ｄバウンディングボックスとを取得することができる。ここで、入力特徴マップは、少なくとも一つのトレーニングイメージに対してコンボリューション演算を少なくとも一回適用して生成され、２Ｄバウンディングボックスは、トレーニングイメージにおいて少なくとも一つの物体に外接するボックスを設定する。

この際、通信部１１０は、データベース１３０に格納されたトレーニングイメージを物体検出器に入力することによって、データベース１３０またはＣＮＮ基盤の物体検出器から入力特徴マップ上の情報と２Ｄバウンディングボックスとを取得するか又は他の装置によって取得することができるよう支援することができる。物体検出器を利用して入力特徴マップと２Ｄバウンディングボックスとを生成するプロセスは、以下で詳しく説明することにする。そして、データベース１３０には、２Ｄバウンディングボックスに対応する物体の方向に関するクラス情報及び疑似３Ｄバウンディングボックスの位置情報に対する少なくとも一つの原本正解（ＧｒｏｕｎｄＴｒｕｔｈ）が格納されていてもよい。これに加えて、データベース１３０には、トレーニングイメージ内の物体の２Ｄバウンディングボックスに対する位置情報に対応する少なくとも一つの原本正解及び物体クラスに対応する少なくとも一つの原本正解が格納されていてもよい。

次に、プロセッサ１２０は、少なくとも一つのプーリングレイヤ（ＰｏｏｌｉｎｇＬａｙｅｒ）をもって、入力特徴マップ上で２Ｄバウンディングボックスに対応する少なくとも一つの領域に対してプーリング演算を少なくとも一回適用させて少なくとも一つのプーリング済み特徴マップを生成させ、少なくとも一つのＦＣレイヤをもってプーリング済み特徴マップに対してニューラルネットワーク演算を少なくとも一回適用させて、疑似３Ｄバウンディングボックスに対応するボックスパターン情報を生成させる。そして、プロセッサ１２０は（ｉ）少なくとも一つの分類レイヤをもって、ボックスパターン情報を参照して物体の方向に対応するクラス情報を生成させ、（ｉｉ）少なくとも一つのリグレッションレイヤをもって、ボックスパターン情報を参照して２Ｄバウンディングボックスの座標に対応する疑似３Ｄバウンディングボックスの座標に関するリグレッション情報を出力させ、（ｉｉｉ）少なくとも一つのコンボリューションレイヤをもって、プーリング済み特徴マップ上で疑似３Ｄバウンディングボックスのそれぞれの面（リグレッション情報、すなわち、疑似３Ｄバウンディングボックスの座標に関する情報を参照して生成された面）に対応する領域それぞれに対してコンボリューション演算を適用させて少なくとも一つのインスタンス特徴マップを出力させ、少なくとも一つのマスクレイヤをもって、インスタンス特徴マップとクラス情報とを参照して、それぞれの該当面に対応するマスクそれぞれを生成させる。以後、プロセッサ１２０は、少なくとも一つのＦＣロスレイヤをもって、クラス情報と、リグレッション情報と、これに対応する原本正解とを参照してそれぞれのクラスロス及びそれぞれのリグレッションロスを生成することにより、クラスロス及びリグレッションロスを利用したバックプロパゲーションを通じてＦＣレイヤのパラメータを学習することができる。
また、プロセッサ１２０は、少なくとも一つのマスクロスレイヤをもって、それぞれのマスク情報とこれに対応するマスク原本正解とを参照して少なくとも一つのマスクロスを生成することにより、マスクロスをバックプロパゲーションしてマスクレイヤ及びコンボリューションレイヤのうち少なくとも一部のパラメータを調整することができる。

この際、本発明の一実施例による学習装置１００は、コンピュータ装置であって、プロセッサを搭載して演算能力を備えた装置であればいくらでも本発明による学習装置１００として採択され得る。また、図１では、一つの学習装置１００のみを示したが、これに限定されず、学習装置１００は複数個に分けて役割を遂行することもできる。

本発明の一実施例による学習装置１００を利用して、インスタンスセグメンテーションを利用したＣＮＮ基盤の疑似３Ｄバウンディングボックスを検出する学習方法を図２を参照して説明すると次のとおりである。

まず、学習装置１００は、トレーニングイメージに対してコンボリューション演算を遂行して生成された特徴マップと、トレーニングイメージ内に物体を含む２Ｄバウンディングボックスとを取得することができる。

この際、学習装置１００は、トレーニングイメージを物体検出器に入力することによって、データベース１３０またはＣＮＮ基盤の物体検出器１０から入力特徴マップ上の情報と２Ｄバウンディングボックスとを取得するか又は他の装置によって取得することができるよう支援することができる。

そして、物体検出器１０から入力特徴マップと２Ｄバウンディングボックスとを取得するプロセスを簡略に説明すると次のとおりである。

この際、「先行（Ｐｒｅｃｅｄｉｎｇ）」という用語は、学習装置１００における混乱を防ぐために、本発明で最も重要な装置である学習装置１００の入力端のすぐ前に配置され得る物体検出器１０内のレイヤ、入力及び出力に関して使用され得る。

以下、物体検出器１０内のそれぞれのレイヤに対する演算は、物体検出器１０によって制御されるが、場合に応じて学習装置１００によって制御されてもよい。

物体検出器１０が、データベースからトレーニングイメージを取得した後、物体検出器１０が学習された少なくとも一つの先行コンボリューションレイヤ１１をもって、トレーニングイメージに対してコンボリューション演算を少なくとも一回適用させて少なくとも一つの先行特徴マップを出力させる。そして、物体検出器１０は、少なくとも一つのＲＰＮ１２をもって、先行特徴マップからトレーニングイメージ内の物体に対応する先行プロポーザルボックスを生成させ、少なくとも一つのプーリングレイヤ１３をもって、それぞれのプロポーザルボックスに対応する先行特徴マップ上のそれぞれの領域に対してプーリング演算を適用させて少なくとも一つの先行プーリング済み特徴マップを生成させる。以後、物体検出器１０は、学習された少なくとも一つの先行ＦＣレイヤ１４をもって、先行プーリング済み特徴マップに対してニューラルネットワーク演算を適用させ、物体に対応する物体パターン情報を生成させる。その際、特徴に対応する先行物体パターン情報は、検出しようとする物体クラスのうち予測される物体クラスに関する情報と、バウンディングボックスに関する位置情報を含むことができる。そして、物体検出器１０は、少なくとも一つの先行分類レイヤ１５をもって、先行物体パターン情報を参照して物体に対する先行クラス情報（例えば、検出しようとするそれぞれのクラスの確率情報）を生成させ、少なくとも一つの先行リグレッションレイヤ１６をもって、先行物体パターン情報を参照して物体に対応する先行リグレッション情報を生成させることができる。この際、２Ｄバウンディングボックスは、先行プロポーザルボックスと先行リグレッション情報とを参照して生成され得る。これを通じて、学習装置１００は、ＣＮＮ基盤の物体検出器１０の先行コンボリューションレイヤ１１から生成される先行特徴マップと、先行リグレッションレイヤ１６から生成される先行リグレッション情報とを利用して、入力特徴マップとトレーニングイメージ内の物体に対する２Ｄバウンディングボックスとを取得することができる。

次に、入力特徴マップと２Ｄバウンディングボックスとが取得されると、学習装置１００は、プーリングレイヤ１２１をもって、入力特徴マップ上で２Ｄバウンディングボックスに対応する領域に対してプーリング演算を適用させてプーリング済み特徴マップを生成させ、ＦＣレイヤ１２２をもってプーリング済み特徴マップに対してニューラルネットワーク演算を適用させて、疑似３Ｄバウンディングボックスに対応するパターン情報を生成させる。この際、特徴に対応する疑似３Ｄバウンディングボックスのパターン情報は、検出しようとする物体の方向クラスのうち予測される方向クラスに関する情報と疑似３Ｄバウンディングボックスに関する予測される位置情報とを含むことができる。

次に、学習装置１００は、分類レイヤ１２３をもって、ＦＣレイヤ１２２から生成されるボックスパターン情報を参照して物体の方向に対応するクラス情報を生成させる。一例として、学習装置１００は、分類レイヤ１２３をもって、ボックスパターン情報を参照して検出しようとするそれぞれの方向クラスに関する確率情報を生成させることができ、これを通じて確率が最も高いクラスを物体の方向クラスと判別することができるようになる。

この際、図３を参照すると、方向クラスは物体の方向を判別するためのものであって、自動車を例を挙げると、方向クラスそれぞれは（ａ）の場合、物体の裏面を、（ｂ）の場合、物体の右側裏面を、（ｃ）の場合、物体の右側面を、（ｄ）の場合、物体の右側前面を、（ｅ）の場合、物体の前面を、（ｆ）の場合、物体の左側前面、（ｇ）の場合、物体の左側面を、（ｈ）の場合、物体の左側裏面を示す。

そして、学習装置１００は、リグレッションレイヤ１２４をもって、ＦＣレイヤ１２２からのボックスパターン情報を参照して２Ｄバウンディングボックスの座標に対応する疑似３Ｄバウンディングボックスの座標に関するリグレッション情報を生成させることができる。

すなわち、学習装置１００は、リグレッションレイヤ１２４をもって、（ｉ）２Ｄバウンディングボックスの頂点から物体の前面と裏面それぞれに対応するそれぞれのインスタンスバウンディングボックスの頂点までのそれぞれの変位（Ｄｉｓｐｌａｃｅｍｅｎｔ）、並びに（ｉｉ）２Ｄバウンディングボックスの中心からそれぞれのインスタンスバウンディングボックスのそれぞれの中心までのそれぞれの変位、及び２Ｄバウンディングボックスの幅／高さの割合とインスタンスバウンディングボックスのそれぞれの幅／高さの割合との間のそれぞれの差のうち少なくとも一つを利用して、リグレッション情報を生成させる。この際、それぞれのインスタンスバウンディングボックスの少なくとも一つの頂点それぞれが、対角線をなす２Ｄバウンディングボックスのそれぞれの頂点にそれぞれ対応することができる。

一例として、図４を参照すると、（ｉ）物体の前面と裏面のうちいずれか一面に対応するインスタンスバウンディングボックスの頂点Ｐ１、Ｐ２、Ｐ３、Ｐ４と（ｉｉ）２Ｄバウンディングボックスの頂点Ｂ１、Ｂ２、Ｂ３、Ｂ４との間のそれぞれの変位、及び（ｉ）物体の前面と裏面のうち他の一面に対応する他のインスタンスバウンディングボックスの頂点Ｐ５、Ｐ６、Ｐ７、Ｐ８と頂点Ｂ１、Ｂ２、Ｂ３、Ｂ４との間の変位を含むリグレッション情報が生成され得る。この際、一つのインスタンスバウンディングボックスの頂点Ｐ１は、２Ｄバウンディングボックスの頂点Ｂ１とマッチングされ得、他のインスタンスバウンディングボックスの頂点Ｐ８は、２Ｄバウンディングボックスの頂点Ｂ４とマッチングされ得る。また、物体の前面と裏面についての判別は、分類レイヤ１２３からのクラス情報を通じて確認することができる。

そして、リグレッション情報は、一つのインスタンスバウンディングボックス内の左側上段にある頂点Ｐ１とＰ５との間の変位及び他のインスタンスのボックス内の右下にある頂点Ｐ４とＰ８との間の変位をそれぞれ含むことができ、この場合、一つのインスタンスバウンディングボックスの左側上段にある頂点であるＰ１は、２Ｄバウンディングボックスの左側上段にある頂点であるＢ１にマッチングし、他のインスタンスバウンディングボックスの右側下段にある頂点であるＰ８は、２Ｄバウンディングボックスの右側下段にある頂点であるＢ４にマッチングするので、リグレッション情報は頂点Ｂ４と頂点Ｐ４との間の変位、及び頂点Ｂ１と頂点Ｐ５との間の変位を含むことができる。一方、これとは異なり、リグレッション情報は一つのインスタンスバウンディングボックスの頂点Ｐ１、Ｐ２、Ｐ３、Ｐ４から他のインスタンスバウンディングボックスの頂点Ｐ５、Ｐ６、Ｐ７、Ｐ８までのそれぞれの変位を含むようにすることもできる。

他の例として、図５を参照すると、リグレッション情報は、（ｉ）物体の前面と裏面のうちいずれか一面に対応する一つのインスタンスバウンディングボックスの頂点Ｐ１、Ｐ２、Ｐ３、Ｐ４の中心であるＣ１と、２Ｄバウンディングボックスの頂点Ｂ１、Ｂ２、Ｂ３、Ｂ４の中心であるＣ０との間の変位、（ｉｉ）物体の前面と裏面のうち他の一面に対応する他のインスタンスバウンディングボックスの頂点Ｐ５、Ｐ６、Ｐ７、Ｐ８の中心であるＣ２と、２Ｄバウンディングボックスの頂点Ｂ１、Ｂ２、Ｂ３、Ｂ４の中心であるＣ０との間の変位、及び（ｉｉｉ）一つのインスタンスバウンディングボックスの頂点Ｐ１、Ｐ２、Ｐ３、Ｐ４の幅であるＷ１と高さであるＨ１から２Ｄバウンディングボックスの幅であるＷ０と高さであるＨ０までのそれぞれの変位、及び他のインスタンスバウンディングボックスの幅であるＷ２と高さであるＨ２から２Ｄバウンディングボックスの幅であるＷ０と高さであるＨ０までのそれぞれの変位を含み得、これを通じてリグレッション情報を参照して一つのインスタンスバウンディングボックス及び他のインスタンスバウンディングボックスのそれぞれの頂点に対する座標を確認することができるようになる。

一方、対角線をなす２Ｄバウンディングボックスのそれぞれの頂点（例えば、Ｂ１とＢ４）を第１頂点と第２頂点とし、第１頂点に少なくとも一つの頂点がマッチングするインスタンスバウンディングボックスを第１インスタンスバウンディングボックスとし、第２頂点に少なくとも一つの頂点がマッチングするインスタンスバウンディングボックスを第２インスタンスバウンディングボックスとする場合、学習装置１００は（ｉ）第１及び第２インスタンスバウンディングボックスの各頂点を連結し、前記各頂点が２Ｄバウンディングボックスを構成する二つの隣接するラインの第１ペア（ＦｉｒｓｔＰａｉｒ）上に位置し、第１及び第２インスタンスバウンディングボックスの各頂点を連結し、前記頂点が２Ｄバウンディングボックスの他の二つの隣接したラインの第２ペア（ＳｅｃｏｎｄＰａｉｒ）上に位置し、第１及び第２ペアそれぞれにある二つの隣接したラインが対角線をなす頂点それぞれのどの頂点とも接さず、（ｉｉ）２Ｄバウンディングボックスのどのライン上にも存在しない第２インスタンスバウンディングボックスの頂点を第１頂点と連結した後、２Ｄバウンディングボックスのどのライン上にも存在しない第１インスタンスバウンディングボックスの頂点を第２頂点と連結して、クラス情報を参照して疑似３Ｄバウンディングボックスを生成することができる。

つまり、図４または図５のように、頂点Ｂ１から始まって頂点Ｂ２を経て頂点Ｂ４までのライン上に位置する、一つのインスタンスバウンディングボックスの頂点Ｐ２と他のインスタンスバウンディングボックスの頂点Ｐ６とは連結され得、頂点Ｂ１から始まって頂点Ｂ３を経て頂点Ｂ４までのライン上に位置する、一つのインスタンスバウンディングボックスの頂点Ｐ３と他のインスタンスバウンディングボックスの頂点Ｐ７とは連結され得る。そして、一つのインスタンスバウンディングボックスの頂点Ｐ１と他のインスタンスバウンディングボックスの頂点Ｐ５とが連結され、頂点Ｐ４が頂点Ｐ８と連結され得る。これを通じて学習装置１００は、六面体の形態で疑似３Ｄバウンディングボックスを生成することができ、疑似３Ｄバウンディングボックスは、頂点Ｐ１、Ｐ２、Ｐ４、Ｐ３によって形成される一面と、頂点Ｐ５、Ｐ６、Ｐ８、Ｐ７によって形成される一面と、頂点Ｐ１、Ｐ５、Ｐ７、Ｐ３によって形成される一面と、頂点Ｐ２、Ｐ６、Ｐ８、Ｐ４によって形成される一面と、頂点Ｐ１、Ｐ２、Ｐ６、Ｐ５によって形成される一面と、頂点Ｐ３、Ｐ４、Ｐ８、Ｐ７によって形成される一面とを含むようになる。

次に、学習装置１００はコンボリューションレイヤ１２５をもって、プーリング済み特徴マップ上でリグレッション情報を参照して疑似３Ｄバウンディングボックスのそれぞれの面に対応するそれぞれの領域に対してコンボリューション演算を適用してインスタンス特徴マップを生成させ、マスクレイヤ１２６をもって、インスタンス特徴マップとクラス情報とを参照してそれぞれの前記面に対応するそれぞれのマスクを生成させる。

この際、マスクは、それぞれのインスタンス特徴マップ上で物体が位置すると判断される少なくとも一つのピクセルと、物体が位置しないと判断される少なくとも一つのピクセルとを区分するバイナリマスク（ＢｉｎａｒｙＭａｓｋ）であり得る。また、マスクレイヤ１２６は、ＦＣＮ（ＦｕｌｌｙＣｏｎｖｏｌｕｔｉｏｎａｌＮｅｔｗｏｒｋ）の少なくとも一部を含むことができる。

次に、学習装置１００はＦＣロスレイヤ１２７−１、１２７−２をもって、クラス情報、リグレッション情報と、これに対応する原本正解（つまり、方向クラスに対する原本正解と疑似３Ｄバウンディングボックスに対する原本正解）とを参照してそれぞれのクラスロス及びそれぞれのリグレッションロスを生成することにより、クラスロス及びリグレッションロスをバックプロパゲーションしてＦＣレイヤ１２２のパラメータを学習することができる。

また、学習装置１００は、少なくとも一つのマスクロスレイヤ１２７−３をもって、それぞれのマスクとそれに対応するマスク原本正解とを参照して少なくとも一つのマスクロスを生成することにより、マスクロスをバックプロパゲーションしてマスクレイヤ１２６及びコンボリューションレイヤ１２５のうち少なくとも一部のパラメータを調整することができる。

参考までに、以下の説明において混同を避けるため、「学習用」という文言は、前述の学習プロセスに関連する用語に対して追加され、「テスト用」という文言は、テストプロセスに関連する用語に対して追加される。

図６は、本発明の一実施例によるインスタンスセグメンテーションを利用したＣＮＮ基盤の疑似３Ｄバウンディングボックスを検出するテスト装置を簡略に示したものであって、図６を参照すると、テスト装置２００は通信部２１０とプロセッサ２２０を含むことができる。また、次のプロセスを遂行するためのコンピュータ読取り可能なインストラクション（Ｉｎｓｔｒｕｃｔｉｏｎ）を格納することができるメモリ１１５をさらに含むことができる。一実施例によると、プロセッサ、メモリ、媒体等は、統合プロセッサ（ＩｎｔｅｇｒａｔｅｄＰｒｏｃｅｓｓｏｒ）として統合され得る。

まず、図１と図２とを参照して説明した学習装置が、（ａ）少なくとも一つの学習用入力特徴マップと少なくとも一つの学習用２Ｄバウンディングボックスとを取得し、学習用入力特徴マップは、少なくとも一つのトレーニングイメージに対してコンボリューション演算を適用して生成され、学習用２Ｄバウンディングボックスは、トレーニングイメージ内の少なくとも一つの学習用物体を含むと、（ｉ）プーリングレイヤをもって入力特徴マップ上で学習用２Ｄバウンディングボックスに対応する少なくとも一つの領域に対してプーリング演算を適用させて学習用プーリング済み特徴マップを生成させ、（ｉｉ）ＦＣレイヤをもって学習用プーリング済み特徴マップに対してニューラルネットワーク（ＮｅｕｒａｌＮｅｔｗｏｒｋ）演算を適用させて、疑似３Ｄバウンディングボックスに対応する学習用ボックスパターン情報を生成させ、（ｂ）（ｉ）分類レイヤをもって、学習用ボックスパターン情報を参照して学習用物体の方向に対応する学習用クラス情報を生成させ、（ｉｉ）リグレッションレイヤをもって、学習用ボックスパターン情報を参照して学習用２Ｄバウンディングボックスの座標に対応する疑似３Ｄバウンディングボックスの座標に対する学習用リグレッション情報を生成させ、（ｉｉｉ）コンボリューションレイヤをもって、学習用プーリング済み特徴マップ上の疑似３Ｄバウンディングボックスのそれぞれの表面（学習用リグレッション情報を参照して生成）に対応するそれぞれの領域に対してコンボリューション演算を適用させて少なくとも一つの学習用インスタンス特徴マップを生成し、マスクレイヤをもって、学習用インスタンス特徴マップと学習用クラス情報とを参照してそれぞれの表面に対応する学習用マスクそれぞれを生成させ、（ｃ）ＦＣロスレイヤをもって、学習用クラス情報と、学習用リグレッション情報と、これに対応する少なくとも一つの原本正解とを参照してそれぞれのクラスロス及びそれぞれのリグレッションロスを生成させることにより、クラスロス及びリグレッションロスをバックプロパゲーションしてＦＣレイヤのパラメータを学習を遂行した状態で、通信部２１０は、少なくとも一つのテストイメージに対してコンボリューション演算を適用して生成された少なくとも一つのテスト用入力特徴マップと、テストイメージ内の少なくとも一つのテスト用物体に対する少なくとも一つのテスト用２Ｄバウンディングボックスとを取得するか又は他の装置によって取得することができるよう支援することができる。この際、通信部２１０は、テスト用入力特徴マップと少なくとも一つのテスト用２Ｄバウンディングボックスとを取得し、テスト用入力特徴マップは少なくとも一つのトレーニングイメージに対してコンボリューション演算を適用して生成され、テスト用２Ｄバウンディングボックスがトレーニングイメージ内の少なくとも一つの学習用物体を含む。

次に、プロセッサ２２０は、（ａ）（ｉ）プーリングレイヤをもって、少なくとも一つのテスト用入力特徴マップ上でテスト用２Ｄバウンディングボックスに対応する少なくとも一つの領域に対してプーリング演算を適用させて、テスト用プーリング済み特徴マップを生成させ、（ｉｉ）ＦＣレイヤをもってテスト用プーリング済み特徴マップに対してニューラルネットワーク（ＮｅｕｒａｌＮｅｔｗｏｒｋ）演算を適用させて、疑似３Ｄバウンディングボックスに対応するテスト用ボックスパターン情報を生成させる第１プロセス、及び（ｂ）（ｉ）分類レイヤをもってテスト用ボックスパターン情報を参照して少なくとも一つのテスト用物体の方向に対応するテスト用クラス情報を生成させ、（ｉｉ）リグレッションレイヤをもって、テスト用ボックスパターン情報を参照してテスト用２Ｄバウンディングボックスの座標に対応する疑似３Ｄバウンディングボックスの座標に関するテスト用リグレッション情報を生成させ、（ｉｉｉ）コンボリューションレイヤをもってテスト用プーリング済み特徴マップ上の疑似３Ｄバウンディングボックスのそれぞれの表面（テスト用リグレッション情報を参照して生成）に対応するそれぞれの領域に対してコンボリューション演算を適用させて少なくとも一つのテスト用インスタンス特徴マップを生成し、マスクレイヤをもって、テスト用インスタンス特徴マップとテスト用クラス情報とを参照してそれぞれの表面に対応するテスト用マスクそれぞれを生成させる第２プロセスを遂行するか又は他の装置をもって遂行を支援する。

この際、本発明の一実施例によるテスト装置２００はコンピュータ装置であって、プロセッサを搭載して演算能力を備えた装置であればいくらでも本発明によるテスト装置２００として採択され得る。また、図６では一つのテスト装置２００のみを示したが、これに限定されず、テスト装置は複数個に分けて役割を遂行することもできる。

このように構成された本発明の一実施例によるテスト装置２００を利用して、インスタンスセグメンテーションを用いたＣＮＮ基盤の疑似３Ｄバウンディングボックスを検出するテスト方法を図７を参照して説明すると次のとおりである。以下の説明で、図２ないし図５を参照して説明した学習方法から容易に理解可能な部分については詳細な説明を省略することとする。

まず、図２ないし図５を参照して説明した学習方法によってＦＣレイヤ２２２、コンボリューションレイヤ２２５及びマスクレイヤ２２６が学習された状態で、テストイメージがＣＮＮ基盤の物体検出器１０に入力されると、テスト装置２００は、物体検出器１０からテスト用入力特徴マップとテスト用２Ｄバウンディングボックスとを取得するか又は他の装置によって取得するように支援する。

つまり、物体検出器１０が、先行コンボリューションレイヤ１１をもって、テストイメージに対してコンボリューション演算を適用して少なくとも一つのテスト用先行特徴マップを出力させる。そして、物体検出器１０は、先行ＲＰＮ１２をもって、テスト用先行特徴マップからテストイメージ内に位置するテスト用物体に対応するテスト用先行プロポーザルボックスそれぞれを生成させ、先行プーリングレイヤ１３をもって、テスト用先行プロポーザルボックスに対応するテスト用先行特徴マップ上のそれぞれの領域に対してプーリング演算を適用させて少なくとも一つのテスト用先行プーリング済み特徴マップを生成させる。以後、物体検出器１０は、先行ＦＣレイヤ１４をもって、テスト用先行プーリング済み特徴マップに対してニューラルネットワーク演算を適用させてテスト用物体に対応するテスト用先行物体パターン情報を生成させる。そして、物体検出器１０は、先行分類レイヤ１５をもって、テスト用先行物体パターン情報を参照してテスト用物体に対するテスト用クラス情報を生成させ、先行リグレッションレイヤ１６をもって、テスト用先行物体パターン情報を参照してテスト用物体に対応するテスト用先行リグレッション情報を生成させることができる。これを通じてテスト装置２００は、ＣＮＮ基盤の物体検出器１０の先行コンボリューションレイヤ１１から生成されるテスト用先行特徴マップと、先行リグレッションレイヤ１６から生成されるテスト用先行リグレッション情報とを利用して、テスト用入力特徴マップとテストイメージ内のテスト用物体に対するテスト用２Ｄバウンディングボックスを取得するか又は他の装置によって取得することができるよう支援することができる。

次に、テストイメージに対してコンボリューション演算を適用して生成されたテスト用入力特徴マップとテストイメージ内にテスト用物体を含むテスト用２Ｄバウンディングボックスとが取得されると、テスト装置２００はプーリングレイヤ２２１をもって、テスト用入力特徴マップ上でテスト用２Ｄバウンディングボックスに対応する少なくとも一つの領域に対してプーリング演算を適用させてテスト用プーリング済み特徴マップを生成させ、ＦＣレイヤ２２２をもって、テスト用プーリング済み特徴マップに対してニューラルネットワーク演算を適用させて、疑似３Ｄバウンディングボックスに対応するテスト用ボックスパターン情報を生成させる。

次に、テスト装置２００は、分類レイヤ２２３をもって、ＦＣレイヤ２２２から出力されるテスト用ボックスパターン情報を参照してテスト用物体の方向に対応するテスト用クラス情報を生成させる。

そして、テスト装置２００は、リグレッションレイヤ２２４をもって、ＦＣレイヤ２２２から生成されるテスト用ボックスパターン情報を参照してテスト用２Ｄバウンディングボックスの座標に対応する疑似３Ｄバウンディングボックスの座標に関するテスト用リグレッション情報を生成させることができる。

次に、テスト装置２００は、コンボリューションレイヤ２２５をもって、テスト用プーリング済み特徴マップ上でテスト用リグレッション情報を参照して疑似３Ｄバウンディングボックスのそれぞれの面に対応するそれぞれの領域に対してコンボリューション演算を適用させてテスト用インスタンス特徴マップを生成させ、マスクレイヤ２２６をもって、テスト用インスタンス特徴マップとテスト用クラス情報とを参照してそれぞれの該当面に対応するマスクそれぞれを生成させる。

そうすると、図８から分かるように、テスト装置２００は、テスト用２Ｄバウンディングボックス内のテスト用物体に対して、テスト用リグレッション情報とテスト用マスクそれぞれを利用してテスト用物体のそれぞれの面に対してインスタンスセグメンテーションが遂行された疑似３Ｄバウンディングボックスを生成するか又は他の装置によって生成するように支援することができる。

ＣＮＮは、検出された物体の姿勢に応じてモードを切り換えることができ、仮想走行やこれと類似した環境で現実的なレンダリングに使用され得る。疑似３Ｄバウンディングボックスは、ライダ（Ｌｉｄａｒ）またはレーダを介して取得され、表面はカメラを利用してセグメンテーションされるので、疑似３Ｄバウンディングボックスのそれぞれの表面に対する陰影情報は学習に反映され得る。

また、以上にて説明された本発明による実施例は、多様なコンピュータの構成要素を通じて遂行することができるプログラム命令語の形態で具現されて、コンピュータ読取り可能な格納媒体に格納され得る。前記コンピュータ読取り可能な格納媒体は、プログラム命令語、データファイル、データ構造などを単独で又は組み合わせて含むことができる。前記コンピュータ読取り可能な格納媒体に格納されるプログラム命令語は、本発明のために特別に設計され、構成されたものであるか、コンピュータソフトウェア分野の当業者に公知にされて使用可能なものであり得る。コンピュータ読取り可能な格納媒体の例には、ハードディスク、フロッピーディスク及び磁気テープのような磁気媒体、ＣＤ−ＲＯＭ、ＤＶＤのような光格納媒体、フロプティカル・ディスク（ｆｌｏｐｔｉｃａｌｄｉｓｋ）のような磁気−光メディア（ｍａｇｎｅｔｏ−ｏｐｔｉｃａｌｍｅｄｉａ）、及びＲＯＭ、ＲＡＭ、フラッシュメモリなどのようなプログラム命令語を格納して遂行するように特別に構成されたハードウェア装置が含まれる。プログラム命令語の例には、コンパイラによって作られるもののような機械語コードだけでなく、インタープリターなどを使用してコンピュータによって実行される高級言語コードも含まれる。前記ハードウェア装置は、本発明による処理を実行するために一つ以上のソフトウェアモジュールとして作動するように構成され得、その反対も同様である。

以上にて本発明が具体的な構成要素などのような特定事項と限定された実施例及び図面によって説明されたが、これは本発明のより全般的な理解の一助とするために提供されたものであるに過ぎず、本発明が前記実施例に限られるものではなく、本発明が属する技術分野において通常の知識を有する者であれば、係る記載から多様な修正及び変形が行われ得る。

従って、本発明の思想は、前記説明された実施例に局限されて定められてはならず、後述する特許請求の範囲だけでなく、本特許請求の範囲と均等または等価的に変形されたものすべては、本発明の思想の範囲に属するといえる。

１１０：通信部
１２０：プロセッサ
１３０：データベース
２００：テスト装置
２１０：通信部
２２０：プロセッサ

Claims

インスタンスセグメンテーション（ＩｎｓｔａｎｃｅＳｅｇｍｅｎｔａｔｉｏｎ）を利用したＣＮＮ基盤の疑似（Ｐｓｅｕｄｏ）３Ｄバウンディングボックスを少なくとも一つ検出する方法において、
（ａ）少なくとも一つの入力特徴マップと少なくとも一つの２Ｄバウンディングボックスとが取得される際に、前記入力特徴マップが少なくとも一つのトレーニングイメージに対してコンボリューション演算を少なくとも一回適用して生成され、前記２Ｄバウンディングボックスが前記トレーニングイメージ内の少なくとも一つの物体を含むと、学習装置が、プーリングレイヤをもって前記入力特徴マップ上で前記２Ｄバウンディングボックスに対応する少なくとも一つの領域に対してプーリング演算を適用させてプーリング済み特徴マップを生成させ、ＦＣレイヤをもって、前記プーリング済み特徴マップに対してニューラルネットワーク（ＮｅｕｒａｌＮｅｔｗｏｒｋ）演算を少なくとも一回適用させて前記疑似３Ｄバウンディングボックス（ｐｓｅｕｄｏ−３Ｄｂｏｕｎｄｉｎｇｂｏｘ）に対応するボックスパターン情報を生成させる段階；
（ｂ）前記学習装置が、（ｉ）分類レイヤをもって、前記ボックスパターン情報を参照して前記物体の方向に対応するクラス情報を生成させ、（ｉｉ）リグレッションレイヤをもって、前記ボックスパターン情報を参照して前記２Ｄバウンディングボックスの座標に対応する前記疑似３Ｄバウンディングボックスの座標に関するリグレッション情報を生成させ、（ｉｉｉ）コンボリューションレイヤをもって、前記プーリング済み特徴マップ上の前記疑似３Ｄバウンディングボックスのそれぞれの表面（前記それぞれの表面は前記リグレッション情報を参照して生成される）に対応するそれぞれの領域に対してコンボリューション演算を適用させて少なくとも一つのインスタンス特徴マップを生成し、マスクレイヤをもって、前記インスタンス特徴マップと前記クラス情報とを参照して前記それぞれの表面に対応するマスクそれぞれを生成させる段階；及び
（ｃ）前記学習装置が、少なくとも一つのＦＣロスレイヤをもって、前記クラス情報と、前記リグレッション情報と、それに対応する少なくとも一つの原本正解とを参照してそれぞれのクラスロス及びそれぞれのリグレッションロスを生成させることにより、前記クラスロス及び前記リグレッションロスをバックプロパゲーションして前記ＦＣレイヤのパラメータを学習する段階；
を含むことを特徴とする検出方法。
前記（ｂ）段階以後に、
前記学習装置は、少なくとも一つのマスクロスレイヤをもって、前記マスクそれぞれとそれに対応するマスク原本正解とを参照して少なくとも一つのマスクロスを生成させることにより、前記マスクロスをバックプロパゲーションして前記マスクレイヤ及び前記コンボリューションレイヤのうち少なくとも一部のパラメータを調整することを特徴とする請求項１に記載の方法。
前記マスクレイヤは、ＦＣＮ（ＦｕｌｌｙＣｏｎｖｏｌｕｔｉｏｎａｌＮｅｔｗｏｒｋ）の少なくとも一部を含むことを特徴とする請求項１に記載の方法。
前記マスクは、前記それぞれのインスタンス特徴マップ上で、前記物体が位置すると判断される少なくとも一つのピクセルと、前記物体が位置しないと判断される少なくとも一つのピクセルとを区分するバイナリマスク（ＢｉｎａｒｙＭａｓｋ）であることを特徴とする請求項１に記載の方法。
前記（ｂ）段階で、
前記学習装置は、前記リグレッションレイヤをもって、（ｉ）前記２Ｄバウンディングボックスの頂点から前記物体の前面と裏面それぞれに対応するそれぞれのインスタンスバウンディングボックスの頂点までのそれぞれの変位（Ｄｉｓｐｌａｃｅｍｅｎｔ）、並びに（ｉｉ）前記２Ｄバウンディングボックスの中心から前記それぞれのインスタンスバウンディングボックスのそれぞれの中心までのそれぞれの変位、及び前記２Ｄバウンディングボックスの幅／高さの割合と前記インスタンスバウンディングボックスのそれぞれの幅／高さの割合との間のそれぞれの差のうち少なくとも一つを利用して、前記リグレッション情報を生成させることを特徴とする請求項１に記載の方法。
対角線をなす前記２Ｄバウンディングボックスのそれぞれの頂点を第１頂点と第２頂点とし、前記第１頂点に少なくとも一つの頂点がマッチングするインスタンスバウンディングボックスを第１インスタンスバウンディングボックスとし、前記第２頂点に少なくとも一つの頂点がマッチングするインスタンスバウンディングボックスを第２インスタンスバウンディングボックスとする場合、
前記学習装置は、（ｉ）前記第１及び前記第２インスタンスバウンディングボックスの各頂点を連結し、前記各頂点が前記２Ｄバウンディングボックスを構成する二つの隣接するラインの第１ペア（ＦｉｒｓｔＰａｉｒ）上に位置し、前記第１及び前記第２インスタンスバウンディングボックスの各頂点を連結し、前記各頂点が前記２Ｄバウンディングボックスの他の二つの隣接したラインの第２ペア（ＳｅｃｏｎｄＰａｉｒ）上に位置し、前記第１及び前記第２ペアそれぞれにある前記二つの隣接したラインが前記対角線をなす各頂点それぞれのどの各頂点とも接さず、（ｉｉ）前記２Ｄバウンディングボックスのどのライン上にも存在しない前記第２インスタンスバウンディングボックスの頂点を前記第１頂点と連結した後、前記２Ｄバウンディングボックスのどのライン上にも存在しない前記第１インスタンスバウンディングボックスの頂点を前記第２頂点と連結し、前記クラス情報を参照して前記疑似３Ｄバウンディングボックスを生成することを特徴とする請求項５に記載の方法。
前記学習装置は、ＣＮＮ基盤の物体検出器から前記入力特徴マップと前記２Ｄバウンディングボックスとを取得することを特徴とする請求項１に記載の方法。
前記物体検出器は、少なくとも一つの先行（Ｐｒｅｃｅｄｉｎｇ）コンボリューションレイヤをもって、前記トレーニングイメージに対して前記コンボリューション演算を遂行して少なくとも一つの先行特徴マップを生成させ、少なくとも一つの先行ＲＰＮをもって、前記先行特徴マップから前記トレーニングイメージ内に位置する少なくとも一つの前記学習用物体に対応する少なくとも一つの先行プロポーザルボックスを生成させ、少なくとも一つの先行プーリングレイヤをもって、前記先行特徴マップ上で前記先行プロポーザルボックスに対応する少なくとも一つの領域に前記プーリング演算を適用させて少なくとも一つの先行プーリング済み特徴マップを生成させ、少なくとも一つの先行ＦＣレイヤをもって、前記先行プーリング済み特徴マップに対して少なくとも一回ニューラルネットワーク演算を適用させて前記学習用物体に対応する先行物体パターン情報を生成させ、少なくとも一つの先行分類レイヤをもって、前記先行物体パターン情報を参照して前記学習用物体の先行クラス情報を生成させ、少なくとも一つの先行リグレッションレイヤをもって、前記先行物体パターン情報を参照して前記学習用物体に対応する前記２Ｄバウンディングボックスに関する先行リグレッション情報を生成させることで、前記入力特徴マップと前記２Ｄバウンディングボックスとを生成することを特徴とする請求項７に記載の方法。
インスタンスセグメンテーション（ＩｎｓｔａｎｃｅＳｅｇｍｅｎｔａｔｉｏｎ）を利用したＣＮＮ基盤の疑似（Ｐｓｅｕｄｏ）３Ｄバウンディングボックスを少なくとも一つ検出するテスト方法において、
（ａ）学習装置が（ｉ）少なくとも一つの学習用入力特徴マップと少なくとも一つの学習用２Ｄバウンディングボックスとが取得された場合、前記学習用入力特徴マップが少なくとも一つのトレーニングイメージに対してコンボリューション演算を少なくとも一回適用して生成され、前記学習用２Ｄバウンディングボックスが前記トレーニングイメージ内の少なくとも一つの物体を含み、（ｉｉ）少なくとも一つのプーリングレイヤをもって、前記学習用入力特徴マップ上で前記学習用２Ｄバウンディングボックスに対応する少なくとも一つの領域に対してプーリング演算を少なくとも一回適用させて少なくとも一つの学習用プーリング済み特徴マップを生成させ、（ｉｉｉ）少なくとも一つのＦＣレイヤをもって、前記学習用プーリング済み特徴マップに対してニューラルネットワーク（ＮｅｕｒａｌＮｅｔｗｏｒｋ）演算を少なくとも一回適用させて前記疑似３Ｄバウンディングボックスに対応する学習用ボックスパターン情報を生成させ、（ｉｖ）少なくとも一つの分類レイヤをもって、前記学習用ボックスパターン情報を参照して前記学習用物体の方向に対応する学習用クラス情報を生成し、（ｖ）少なくとも一つのリグレッションレイヤをもって、前記学習用ボックスパターン情報を参照して前記学習用２Ｄバウンディングボックスの座標に対応する前記疑似３Ｄバウンディングボックスの座標に対する学習用リグレッション情報を生成させ、（ｖｉ）少なくとも一つのコンボリューションレイヤをもって、前記学習用プーリング済み特徴マップ上の前記疑似３Ｄバウンディングボックスのそれぞれの表面（前記それぞれの表面は前記学習用リグレッション情報を参照して生成される）に対応するそれぞれの領域に対して前記コンボリューション演算を適用させて少なくとも一つの学習用インスタンス特徴マップを生成し、（ｖｉｉ）少なくとも一つのマスクレイヤをもって、前記学習用インスタンス特徴マップと前記学習用クラス情報とを参照して前記それぞれの表面に対応する学習用マスクそれぞれを生成させ、（ｖｉｉｉ）少なくとも一つのＦＣロスレイヤをもって、前記学習用クラス情報と、前記学習用リグレッション情報と、それに対応する少なくとも一つの原本正解とを参照してそれぞれのクラスロス及びそれぞれのリグレッションロスを生成させることで、前記クラスロス及び前記リグレッションロスをバックプロパゲーションして前記ＦＣレイヤのパラメータを学習した状態で、テスト装置が、前記プーリングレイヤをもって、少なくとも一つのテスト用入力特徴マップ上で少なくとも一つのテスト用２Ｄバウンディングボックスに対応する少なくとも一つの領域に対して前記プーリング演算を適用させて少なくとも一つのテスト用プーリング済み特徴マップを生成させ、前記ＦＣレイヤをもって、前記テスト用プーリング済み特徴マップに対して前記ニューラルネットワーク（ＮｅｕｒａｌＮｅｔｗｏｒｋ）演算を適用させて前記疑似３Ｄバウンディングボックスに対応するテスト用ボックスパターン情報を生成させる段階；及び
（ｂ）前記テスト装置が、（ｉ）前記分類レイヤをもって、前記テスト用ボックスパターン情報を参照して少なくとも一つのテスト用物体の方向に対応するテスト用クラス情報を生成させ、（ｉｉ）前記リグレッションレイヤをもって、前記テスト用ボックスパターン情報を参照して前記テスト用２Ｄバウンディングボックスの座標に対応する前記疑似３Ｄバウンディングボックスの座標に関するテスト用リグレッション情報を生成させ、（ｉｉｉ）前記コンボリューションレイヤをもって、前記テスト用プーリング済み特徴マップ上の前記疑似３Ｄバウンディングボックスのそれぞれの表面（前記表面は前記テスト用リグレッション情報を参照して生成される）に対応するそれぞれの領域に対して前記コンボリューション演算を適用させて少なくとも一つのテスト用インスタンス特徴マップを生成し、前記マスクレイヤをもって、前記テスト用インスタンス特徴マップと前記テスト用クラス情報とを参照して前記それぞれの表面に対応するテスト用マスクそれぞれを生成させる段階；
を含むことを特徴とするテスト方法。
前記（ｖｉｉ）プロセス以後に、
前記学習装置は、少なくとも一つのマスクロスレイヤをもって、前記学習用マスクそれぞれとそれに対応するマスク原本正解とを参照して少なくとも一つのマスクロスを生成させることにより、前記マスクロスをバックプロパゲーションして前記マスクレイヤ及び前記コンボリューションレイヤのうち少なくとも一部のパラメータを調整することを特徴とする請求項９に記載のテスト方法。
前記テスト用マスクそれぞれは、前記それぞれのテスト用インスタンス特徴マップ上で前記テスト用物体が位置すると判断される少なくとも一つのピクセルと、前記テスト用物体が位置しないと判断される少なくとも一つのピクセルとを区分するバイナリマスク（ＢｉｎａｒｙＭａｓｋ）であることを特徴とする請求項９に記載のテスト方法。
前記（ｂ）段階で、
前記テスト装置は、前記リグレッションレイヤをもって、（ｉ）前記テスト用２Ｄバウンディングボックスの頂点から前記テスト用物体の前面と裏面それぞれに対応するそれぞれのテスト用インスタンスバウンディングボックスの頂点までのそれぞれの変位（Ｄｉｓｐｌａｃｅｍｅｎｔ）、並びに（ｉｉ）前記テスト用２Ｄバウンディングボックスの中心から前記それぞれのテスト用インスタンスバウンディングボックスのそれぞれの中心までのそれぞれの変位、及び前記テスト用２Ｄバウンディングボックスの幅／高さの割合と前記テスト用インスタンスバウンディングボックスのそれぞれの幅／高さの割合との間のそれぞれの差のうち少なくとも一つを利用して、前記テスト用リグレッション情報を生成させることを特徴とする請求項９に記載のテスト方法。
対角線をなす前記テスト用２Ｄバウンディングボックスのそれぞれの頂点を第１頂点と第２頂点とし、前記第１頂点に少なくとも一つの頂点がマッチングする前記テスト用インスタンスバウンディングボックスをテスト用第１インスタンスバウンディングボックスとし、前記第２頂点に少なくとも一つの頂点がマッチングする前記テスト用インスタンスバウンディングボックスをテスト用第２インスタンスバウンディングボックスとする場合、
前記テスト装置は、（ｉ）前記テスト用第１及び前記テスト用第２インスタンスバウンディングボックスの各頂点を連結し、前記各頂点が前記テスト用２Ｄバウンディングボックスを構成する二つの隣接するラインの第１ペア（ＦｉｒｓｔＰａｉｒ）上に位置し、前記テスト用第１及び前記テスト用第２インスタンスバウンディングボックスの各頂点を連結し、前記各頂点が前記テスト用２Ｄバウンディングボックスの他の二つの隣接したラインの第２ペア（ＳｅｃｏｎｄＰａｉｒ）上に位置し、前記第１及び前記第２ペアそれぞれにある前記二つの隣接したラインが前記対角線をなす頂点それぞれのどの頂点とも接さず、（ｉｉ）前記テスト用２Ｄバウンディングボックスのどのライン上にも存在しない前記テスト用第２インスタンスバウンディングボックスの頂点を前記第１頂点と連結した後、前記テスト用２Ｄバウンディングボックスのどのライン上にも存在しない前記テスト用第１インスタンスバウンディングボックスの頂点を前記第２頂点と連結して、前記クラス情報を参照して前記疑似３Ｄバウンディングボックスを生成することを特徴とする請求項１２に記載のテスト方法。
前記テスト装置は、ＣＮＮ基盤の物体検出器から前記テスト用入力特徴マップと前記テスト用２Ｄバウンディングボックスとを取得することを特徴とする請求項９に記載のテスト方法。
前記物体検出器は、少なくとも一つの先行コンボリューションレイヤをもって、前記テストイメージに対して前記コンボリューション演算を遂行して少なくとも一つのテスト用先行特徴マップを生成させ、少なくとも一つの先行ＲＰＮをもって、前記テスト用先行特徴マップから前記テストイメージ内に位置する少なくとも一つの前記テスト用物体に対応する少なくとも一つのテスト用先行プロポーザルボックスを生成させ、少なくとも一つの先行プーリングレイヤをもって、前記テスト用先行特徴マップ上で前記テスト用先行プロポーザルボックスに対応する少なくとも一つの領域に前記プーリング演算を適用させて少なくとも一つのテスト用先行プーリング済み特徴マップを生成させ、少なくとも一つの先行ＦＣレイヤをもって、前記テスト用先行プーリング済み特徴マップに対して前記ニューラルネットワーク演算を適用させて前記テスト用物体に対応するテスト用先行物体パターン情報を生成させ、少なくとも一つの先行分類レイヤをもって、前記テスト用先行物体パターン情報を参照して前記テスト用物体のテスト用先行クラス情報を生成させ、少なくとも一つの先行リグレッションレイヤをもって、前記テスト用先行物体パターン情報を参照して前記テスト用物体に対応する前記テスト用２Ｄバウンディングボックスに対するテスト用先行リグレッション情報を生成させることで、前記テスト用入力特徴マップと前記テスト用２Ｄバウンディングボックスとを生成することを特徴とする請求項１４に記載のテスト方法。
インスタンスセグメンテーション（ＩｎｓｔａｎｃｅＳｅｇｍｅｎｔａｔｉｏｎ）を利用したＣＮＮ基盤の疑似（Ｐｓｅｕｄｏ）３Ｄバウンディングボックスを検出する学習装置において、
インストラクション（Ｉｎｓｔｒｕｃｔｉｏｎ）を格納する少なくとも一つのメモリ；及び
（Ｉ）プーリングレイヤをもって、少なくとも一つの入力特徴マップ上で少なくとも一つの２Ｄバウンディングボックスに対応する少なくとも一つの領域に対してプーリング演算を適用させてプーリング済み特徴マップを生成させ、前記入力特徴マップは少なくとも一つのトレーニングイメージに対してコンボリューション演算を少なくとも一回適用して生成され、前記２Ｄバウンディングボックスは、前記トレーニングイメージ内の少なくとも一つの物体を含み、ＦＣレイヤをもって、前記プーリング済み特徴マップに対してニューラルネットワーク（ＮｅｕｒａｌＮｅｔｗｏｒｋ）演算を少なくとも一回適用させて前記疑似３Ｄバウンディングボックスに対応するボックスパターン情報を生成させるプロセス、（ＩＩ）（ＩＩ−１）分類レイヤをもって、前記ボックスパターン情報を参照して前記物体の方向に対応するクラス情報を生成させ、（ＩＩ−２）リグレッションレイヤをもって、前記ボックスパターン情報を参照して前記２Ｄバウンディングボックスの座標に対応する前記疑似３Ｄバウンディングボックスの座標に関するリグレッション情報を生成させ、（ＩＩ−３）コンボリューションレイヤをもって、前記プーリング済み特徴マップ上の前記疑似３Ｄバウンディングボックスのそれぞれの表面（前記表面は前記リグレッション情報を参照して生成される）に対応するそれぞれの領域に対してコンボリューション演算を適用させて少なくとも一つのインスタンス特徴マップを生成し、マスクレイヤをもって、前記インスタンス特徴マップと前記クラス情報とを参照して前記それぞれの表面に対応するマスクそれぞれを生成させるプロセス、及び（ＩＩＩ）少なくとも一つのＦＣロスレイヤをもって、前記クラス情報と、前記リグレッション情報と、それに対応する少なくとも一つの原本正解とを参照してそれぞれのクラスロス及びそれぞれのリグレッションロスを生成させることにより、前記クラスロス及び前記リグレッションロスをバックプロパゲーションして前記ＦＣレイヤのパラメータを学習するプロセスを遂行するためのインストラクションを実行するように構成された少なくとも一つのプロセッサ；
を含むことを特徴とする学習装置。
前記（ＩＩ−３）プロセス以後に、
前記プロセッサは、少なくとも一つのマスクロスレイヤをもって、前記マスクそれぞれとそれに対応するマスク原本正解とを参照して少なくとも一つのマスクロスを生成させることにより、前記マスクロスをバックプロパゲーションして前記マスクレイヤ及び前記コンボリューションレイヤのうち少なくとも一部のパラメータを調整することを特徴とする請求項１６に記載の学習装置。
前記マスクレイヤは、ＦＣＮ（ＦｕｌｌｙＣｏｎｖｏｌｕｔｉｏｎａｌＮｅｔｗｏｒｋ）の少なくとも一部を含むことを特徴とする請求項１６に記載の学習装置。
前記マスクは、前記それぞれのインスタンス特徴マップ上で前記物体が位置すると判断される少なくとも一つのピクセルと、前記物体が位置しないと判断される少なくとも一つのピクセルとを区分するバイナリマスク（ＢｉｎａｒｙＭａｓｋ）であることを特徴とする請求項１６に記載の学習装置。
前記（ＩＩ−３）プロセスで、
前記プロセッサは、前記リグレッションレイヤをもって、（ｉ）前記２Ｄバウンディングボックスの頂点から前記物体の前面と裏面それぞれに対応するそれぞれのインスタンスバウンディングボックスの頂点までのそれぞれの変位（Ｄｉｓｐｌａｃｅｍｅｎｔ）、並びに（ｉｉ）前記２Ｄバウンディングボックスの中心から前記それぞれのインスタンスバウンディングボックスのそれぞれの中心までのそれぞれの変位、及び前記２Ｄバウンディングボックスの幅／高さの割合と前記インスタンスバウンディングボックスのそれぞれの幅／高さの割合との間のそれぞれの差のうち少なくとも一つを利用して、前記リグレッション情報を生成させることを特徴とする請求項１６に記載の学習装置。
対角線をなす前記２Ｄバウンディングボックスのそれぞれの頂点を第１頂点と第２頂点とし、前記第１頂点に少なくとも一つの頂点がマッチングするインスタンスバウンディングボックスを第１インスタンスバウンディングボックスとし、前記第２頂点に少なくとも一つの頂点がマッチングするインスタンスバウンディングボックスを第２インスタンスバウンディングボックスとする場合、
前記プロセッサは、（ｉ）前記第１及び前記第２インスタンスバウンディングボックスの各頂点を連結し、前記各頂点が前記２Ｄバウンディングボックスを構成する二つの隣接するラインの第１ペア（ＦｉｒｓｔＰａｉｒ）上に位置し、前記第１及び前記第２インスタンスバウンディングボックスの各頂点を連結し、前記各頂点が前記２Ｄバウンディングボックスの他の二つの隣接したラインの第２ペア（ＳｅｃｏｎｄＰａｉｒ）上に位置し、前記第１及び前記第２ペアそれぞれにある前記二つの隣接したラインが前記対角線をなす頂点それぞれのどの頂点とも接さず、（ｉｉ）前記２Ｄバウンディングボックスのどのライン上にも存在しない前記第２インスタンスバウンディングボックスの頂点を前記第１頂点と連結した後、前記２Ｄバウンディングボックスのどのライン上にも存在しない前記第１インスタンスバウンディングボックスの頂点を前記第２頂点と連結して、前記クラス情報を参照して前記疑似３Ｄバウンディングボックスを生成することを特徴とする請求項２０に記載の学習装置。
前記プロセッサは、ＣＮＮ基盤の物体検出器から前記入力特徴マップと前記２Ｄバウンディングボックスとを取得することを特徴とする請求項１６に記載の学習装置。
前記物体検出器は、少なくとも一つの先行（Ｐｒｅｃｅｄｉｎｇ）コンボリューションレイヤをもって、前記トレーニングイメージに対して前記コンボリューション演算を遂行して少なくとも一つの先行特徴マップを生成させ、少なくとも一つの先行ＲＰＮをもって、前記先行特徴マップから前記トレーニングイメージ内に位置する少なくとも一つの前記学習用物体に対応する少なくとも一つの先行プロポーザルボックスを生成させ、少なくとも一つの先行プーリングレイヤをもって、前記先行特徴マップ上で前記先行プロポーザルボックスに対応する少なくとも一つの領域に前記プーリング演算を適用させて少なくとも一つの先行プーリング済み特徴マップを生成させ、少なくとも一つの先行ＦＣレイヤをもって、前記先行プーリング済み特徴マップに対して少なくとも一回ニューラルネットワーク演算を適用させて前記学習用物体に対応する先行物体パターン情報を生成させ、少なくとも一つの先行分類レイヤをもって、前記先行物体パターン情報を参照して前記学習用物体の先行クラス情報を生成させ、少なくとも一つの先行リグレッションレイヤをもって、前記先行物体パターン情報を参照して前記学習用物体に対応する前記２Ｄバウンディングボックスに関する先行リグレッション情報を生成させることで、前記入力特徴マップと前記２Ｄバウンディングボックスとを生成することを特徴とする請求項２２に記載の学習装置。
インスタンスセグメンテーション（ＩｎｓｔａｎｃｅＳｅｇｍｅｎｔａｔｉｏｎ）を利用したＣＮＮ基盤の疑似（Ｐｓｅｕｄｏ）３Ｄバウンディングボックスを少なくとも一つ検出するテスト装置において、
インストラクション（Ｉｎｓｔｒｕｃｔｉｏｎ）を格納する少なくとも一つのメモリ；及び
学習装置が（ｉ）少なくとも一つの学習用入力特徴マップと少なくとも一つの学習用２Ｄバウンディングボックスとが取得された場合、前記学習用入力特徴マップが少なくとも一つのトレーニングイメージに対してコンボリューション演算を少なくとも一回適用して生成され、前記学習用２Ｄバウンディングボックスが前記トレーニングイメージ内の少なくとも一つの物体を含み、（ｉｉ）少なくとも一つのプーリングレイヤをもって、前記学習用入力特徴マップ上で前記学習用２Ｄバウンディングボックスに対応する少なくとも一つの領域に対してプーリング演算を少なくとも一回適用させて少なくとも一つの学習用プーリング済み特徴マップを生成させ、（ｉｉｉ）少なくとも一つのＦＣレイヤをもって、前記学習用プーリング済み特徴マップに対してニューラルネットワーク（ＮｅｕｒａｌＮｅｔｗｏｒｋ）演算を少なくとも一回適用させて前記疑似３Ｄバウンディングボックスに対応する学習用ボックスパターン情報を生成させ、（ｉｖ）少なくとも一つの分類レイヤをもって、前記学習用ボックスパターン情報を参照して前記学習用物体の方向に対応する学習用クラス情報を生成し、（ｖ）少なくとも一つのリグレッションレイヤをもって、前記学習用ボックスパターン情報を参照して前記学習用２Ｄバウンディングボックスの座標に対応する前記疑似３Ｄバウンディングボックスの座標に対する学習用リグレッション情報を生成させ、（ｖｉ）少なくとも一つのコンボリューションレイヤをもって、前記学習用プーリング済み特徴マップ上の前記疑似３Ｄバウンディングボックスのそれぞれの表面（前記表面は前記学習用リグレッション情報を参照して生成される）に対応するそれぞれの領域に対して前記コンボリューション演算を適用させて少なくとも一つの学習用インスタンス特徴マップを生成し、（ｖｉｉ）少なくとも一つのマスクレイヤをもって、前記学習用インスタンス特徴マップと前記学習用クラス情報とを参照して前記それぞれの表面に対応する学習用マスクそれぞれを生成させ、（ｖｉｉｉ）少なくとも一つのＦＣロスレイヤをもって、前記学習用クラス情報と、前記学習用リグレッション情報と、それに対応する少なくとも一つの原本正解とを参照してそれぞれのクラスロス及びそれぞれのリグレッションロスを生成するようにすることで、前記クラスロス及び前記リグレッションロスをバックプロパゲーションして前記ＦＣレイヤのパラメータを学習するようにして、前記クラスロスと前記リグレッションロスとをバックプロパゲーションして前記ＦＣレイヤを学習した状態で、（Ｉ）前記プーリングレイヤをもって、少なくとも一つのテスト用入力特徴マップ上で少なくとも一つのテスト用２Ｄバウンディングボックスに対応する少なくとも一つの領域に対してプーリング演算を適用させてテスト用プーリング済み特徴マップを生成させ、前記テスト用入力特徴マップは、少なくとも一つのテストイメージに対してコンボリューション演算を少なくとも一回適用して生成され、前記テスト用２Ｄバウンディングボックスは、前記テストイメージ内の少なくとも一つのテスト用物体を含み、ＦＣレイヤをもって、前記テスト用プーリング済み特徴マップに対してニューラルネットワーク（ＮｅｕｒａｌＮｅｔｗｏｒｋ）演算を少なくとも一回適用させて前記疑似３Ｄバウンディングボックスに対応するテスト用ボックスパターン情報を生成させるプロセス、及び（ＩＩ）（ＩＩ−１）前記分類レイヤをもって、前記テスト用ボックスパターン情報を参照して前記テスト用物体の方向に対応するテスト用クラス情報を生成させ、（ＩＩ−２）リグレッションレイヤをもって、前記テスト用ボックスパターン情報を参照して前記テスト用２Ｄバウンディングボックスの座標に対応する前記疑似３Ｄバウンディングボックスの座標に関するテスト用リグレッション情報を生成させ、（ＩＩ−３）コンボリューションレイヤをもって、前記テスト用プーリング済み特徴マップ上の前記疑似３Ｄバウンディングボックスのそれぞれの表面（前記表面は前記テスト用リグレッション情報を参照して生成される）に対応するそれぞれの領域に対してコンボリューション演算を適用させて少なくとも一つのテスト用インスタンス特徴マップを生成し、マスクレイヤをもって、前記テスト用インスタンス特徴マップと前記テスト用クラス情報とを参照して前記それぞれの表面に対応するテスト用マスクそれぞれを生成させるプロセスを遂行する前記インストラクションを実行するように構成された少なくとも一つのプロセッサ；
を含むことを特徴とするテスト装置。
前記（ｖｉｉ）プロセス以後に、
前記学習装置が、少なくとも一つのマスクロスレイヤをもって、前記学習用マスクそれぞれとそれに対応するマスク原本正解とを参照して少なくとも一つのマスクロスを生成させることにより、前記マスクロスをバックプロパゲーションして前記マスクレイヤ及び前記コンボリューションレイヤのうち少なくとも一部のパラメータを調整することを特徴とする請求項２４に記載のテスト装置。
前記テスト用マスクそれぞれは、前記それぞれのテスト用インスタンス特徴マップ上で前記テスト用物体が位置すると判断される少なくとも一つのピクセルと、前記テスト用物体が位置しないと判断される少なくとも一つのピクセルとを区分するバイナリマスク（ＢｉｎａｒｙＭａｓｋ）であることを特徴とする請求項２４に記載のテスト装置。
前記（ＩＩ−２）プロセスで、
前記プロセッサは、前記リグレッションレイヤをもって、（ｉ）前記テスト用２Ｄバウンディングボックスの頂点から前記テスト用物体の前面と裏面それぞれに対応するそれぞれのテスト用インスタンスバウンディングボックスの頂点までのそれぞれの変位（Ｄｉｓｐｌａｃｅｍｅｎｔ）、並びに（ｉｉ）前記テスト用２Ｄバウンディングボックスの中心から前記それぞれのテスト用インスタンスバウンディングボックスのそれぞれの中心までのそれぞれの変位、及び前記テスト用２Ｄバウンディングボックスの幅／高さの割合と前記テスト用インスタンスバウンディングボックスのそれぞれの幅／高さの割合との間のそれぞれの差のうち少なくとも一つを利用して、前記テスト用リグレッション情報を生成させることを特徴とする請求項２４に記載のテスト装置。
対角線をなす前記テスト用２Ｄバウンディングボックスのそれぞれの頂点を第１頂点と第２頂点とし、前記第１頂点に少なくとも一つの頂点がマッチングするテスト用インスタンスバウンディングボックスを第１テスト用インスタンスバウンディングボックスとし、前記第２頂点に少なくとも一つの頂点がマッチングするテスト用インスタンスバウンディングボックスを第２テスト用インスタンスバウンディングボックスとする場合、
前記プロセッサは、（ｉ）前記テスト用第１及び前記テスト用第２インスタンスバウンディングボックスの各頂点を連結し、前記各頂点が前記テスト用２Ｄバウンディングボックスを構成する二つの隣接するラインの第１ペア（ＦｉｒｓｔＰａｉｒ）上に位置し、前記テスト用第１及び前記テスト用第２インスタンスバウンディングボックスの各頂点を連結し、前記各頂点が前記テスト用２Ｄバウンディングボックスの他の二つの隣接したラインの第２ペア（ＳｅｃｏｎｄＰａｉｒ）上に位置し、前記第１及び前記第２ペアそれぞれにある前記二つの隣接したラインが前記対角線をなす頂点それぞれのどの頂点とも接さず、（ｉｉ）前記テスト用２Ｄバウンディングボックスのどのライン上にも存在しない前記テスト用第２インスタンスバウンディングボックスの頂点を前記第１頂点と連結した後、前記テスト用２Ｄバウンディングボックスのどのライン上にも存在しない前記テスト用第１インスタンスバウンディングボックスの頂点を前記第２頂点と連結して、前記クラス情報を参照して前記疑似３Ｄバウンディングボックスを生成することを特徴とする請求項２７に記載のテスト装置。
前記プロセッサは、ＣＮＮ基盤の物体検出器から前記テスト用入力特徴マップと前記テスト用２Ｄバウンディングボックスとを取得することを特徴とする請求項２４に記載のテスト装置。
前記物体検出器は、少なくとも一つの先行コンボリューションレイヤをもって前記テストイメージに対して前記コンボリューション演算を遂行して少なくとも一つのテスト用先行特徴マップを生成させ、少なくとも一つの先行ＲＰＮをもって、前記テスト用先行特徴マップから前記テストイメージ内に位置する少なくとも一つの前記テスト用物体に対応する少なくとも一つのテスト用先行プロポーザルボックスを生成させ、少なくとも一つの先行プーリングレイヤをもって、前記テスト用先行マップ上で前記テスト用先行プロポーザルボックスに対応する少なくとも一つの領域に前記プーリング演算を適用するようにして、少なくとも一つのテスト用先行プーリング済み特徴マップを生成するようにし、少なくとも一つの先行ＦＣレイヤをもって、前記テスト用先行プーリング済み特徴マップに対して前記ニューラルネットワーク演算を適用させて
前記テスト用物体に対応するテスト用先行物体パターン情報を生成させ、少なくとも一つの先行分類レイヤをもって、前記テスト用先行物体パターン情報を参照して前記テスト用物体のテスト用先行クラス情報を生成させ、少なくとも一つの先行リグレッションレイヤをもって、前記テスト用先行物体パターン情報を参照して前記テスト用物体に対応する前記テスト用２Ｄバウンディングボックスに対するテスト用先行リグレッション情報を生成させることで、前記テスト用入力特徴マップと前記テスト用２Ｄバウンディングボックスとを生成することを特徴とする請求項２９に記載のテスト装置。