JP2020119558A

JP2020119558A - イメージ分析に基づいたロバストサーベイランスのための歩行者検出器の学習方法及び学習装置、そしてそれを利用するテスト方法及びテスト装置

Info

Publication number: JP2020119558A
Application number: JP2020004614A
Authority: JP
Inventors: ゲヒョンキム; Kye-Hyeon Kim; ヨンジュンキム; Yong-Jun Kim; インスキム; Insu Kim; ハクギョンキム; Hak Kyoung Kim; ウンヒョンナム; Woonhyun Nam; ソクフンブ; Sukhoon Boo; ミョンチョルソン; Myungchul Sung; ドンフンヨ; Donghun Yeo; ウジュリュ; Wooju Ryu; テウンジャン; Taewoong Jang
Original assignee: Stradvision Inc
Current assignee: Stradvision Inc
Priority date: 2019-01-28
Filing date: 2020-01-15
Publication date: 2020-08-06
Anticipated expiration: 2040-01-15
Also published as: EP3690712A1; US10692002B1; JP6901802B2; KR20200093426A; KR102382693B1; CN111488789B; CN111488789A

Abstract

【課題】歩行者の検出率を向上させることができる歩行者検出器の学習方法及び学習装置、そしてそれを利用するテスト方法及びテスト装置を提供する。【解決手段】イメージ分析に基づいてロバストサーベイランスに使用される歩行者検出器を学習する方法において、学習装置１００は、トレーニングイメージ１１上の領域それぞれをクロップしてイメージパッチｘ１２を生成しＳ１、敵対的スタイル変換器１３０をもって、歩行者それぞれを検出を困難にする変形歩行者Ｒ−１（Ｇ（ｘ））に変換することによって変形イメージパッチＧ（ｘ）１３を生成させＳ２、領域それぞれを変形イメージパッチに代替して変形トレーニングイメージ１４を生成しＳ３、歩行者検出器１４０をもって変形歩行者を検出させ、ロスを最小化するように歩行者検出器のパラメータを学習するＳ４。【選択図】図２

Description

本発明は、自律走行車両に使用する学習方法及び学習装置、そしてテスト方法及びテスト装置に関し、より詳細には、ＧＡＮを利用したイメージ分析に基づいたロバストサーベイランス（ＲｏｂｕｓｔＳｕｒｖｅｉｌｌａｎｃｅ）に使用される歩行者検出器（ＰｅｄｅｓｔｒｉａｎＤｅｔｅｃｔｏｒ）を学習する方法及び学習装置、そしてそれを利用したテスト方法及びテスト装置に関する。

機械学習（ＭａｃｈｉｎｅＬｅａｒｎｉｎｇ）においてコンボリューションニューラルネットワーク（ＣｏｎｖｏｌｕｔｉｏｎａｌＮｅｕｒａｌＮｅｔｗｏｒｋ；ＣＮＮ又はＣｏｎｖＮｅｔ）は、視覚的イメージの分析に成功裏に適用されてきたディープフィードフォワード人工ニューラルネットワーク（Ｄｅｅｐ，Ｆｅｅｄ−ＦｏｒｗａｒｄＡｒｔｉｆｉｃｉａｌＮｅｕｒａｌＮｅｔｗｏｒｋ）の一つのクラス（Ｃｌａｓｓ）である。

このようなＣＮＮ基盤の物体検出器は、（ｉ）少なくとも一つのコンボリューションレイヤをもって、入力イメージに対してコンボリューション演算を適用して入力イメージに対応する特徴マップを生成させ、（ｉｉ）ＲＰＮ（ＲｅｇｉｏｎＰｒｏｐｏｓａｌＮｅｔｗｏｒｋ）をもって、特徴マップを利用して入力イメージ内の物体に対応するプロポーザルを生成させた後、（ｉｉｉ）プーリングレイヤ（ＰｏｏｌｉｎｇＬａｙｅｒ）をもって、プロポーザルに対応する特徴マップ上の領域に対してプーリング演算を適用させて少なくとも一つのプーリング済み特徴マップを生成し、（ｉｖ）ＦＣレイヤ（ＦｕｌｌｙＣｏｎｎｅｃｔｅｄＬａｙｅｒ）をもって、取得されたプーリング済み特徴マップに対してＦＣ演算（ＦｕｌｌｙＣｏｎｎｅｃｔｅｄＯｐｅｒａｔｉｏｎ）を少なくとも一回適用させて物体に関するクラス情報（ＣｌａｓｓＩｎｆｏｒｍａｔｉｏｎ）とリグレッション情報（ＲｅｇｒｅｓｓｉｏｎＩｎｆｏｒｍａｔｉｏｎ）とを出力させることで、これを通じて入力イメージ上の物体を検出させる。

最近では、このような物体検出器を利用した監視システムが開発されている。従来の監視システムは、監視カメラから入力されるイメージから物体である歩行者を検出するように特化された歩行者検出器（ＰｅｄｅｓｔｒｉａｎＤｅｔｅｃｔｏｒ）を利用しており、ヘアスタイル、服のテクスチャパターン及び形などを参照して歩行者を検出している。

しかしながら、従来の歩行者検出器は、トレーニングデータで接することができなかった独特なスタイル及び／又はパターンをした歩行者、暗い道端で黒い服を着た歩行者のように、周囲の背景と同じような歩行者等の事例においては、正確に歩行者を検出することができないという問題点がある。歩行者がこのような欠陥を理解して自らの存在を意図的に隠蔽及び掩蔽しようとする場合、監視システムに深刻な問題が発生するようになる。

したがって、従来の歩行者検出器が歩行者検出に失敗した場合、モニタリングの人員が失敗した事例に関するトレーニングデータを追加することによってトレーニングデータの範囲を向上させた後、周期的に歩行者検出器を再学習しなければならない。

しかし、歩行者検出器を周期的に再学習することによって検出失敗事例を予防するのは不可能であり、検出に失敗した事例が発生するたびにそれを補完するために再学習を遂行しなければならない短所があり、未検出か否かをモニタリングするための別途の人員が必要となる短所がある。

また、検出失敗事例に関する再学習を遂行するための適切なトレーニングデータを確保することにも困難がある。

本発明は、上述した問題点を全て解決することをその目的とする。

本発明は、トレーニングデータの範囲を拡張させることを他の目的とする。

本発明は、未検出の事例をモニタリングするための別途の人員を減らすことをまた他の目的とする。

本発明は、未検出の事例に対する適切なトレーニングを通じて、監視システムの性能を改善し得るようにすることをまた他の目的とする。

前記のような本発明の目的を達成し、後述する本発明の特徴的な効果を実現するための本発明の特徴的な構成は下記のとおりである。

本発明の一実施例によると、イメージ分析に基づいてロバストサーベイランス（ＲｏｂｕｓｔＳｕｒｖｅｉｌｌａｎｃｅ）に使用される歩行者検出器（ＰｅｄｅｓｔｒｉａｎＤｅｔｅｃｔｏｒ）を学習する方法において、（ａ）少なくとも一つのトレーニングイメージ上に生成された学習用歩行者それぞれに対応するバウンディングボックスそれぞれを有する前記トレーニングイメージが取得されると、学習装置が、前記トレーニングイメージ上で前記バウンディングボックスそれぞれに対応する領域それぞれをクロップ（Ｃｒｏｐ）して少なくとも一つのイメージパッチ（ＩｍａｇｅＰａｔｃｈ）を生成し、敵対的スタイル変換器（ＡｄｖｅｒｓａｒｉａｌＳｔｙｌｅＴｒａｎｓｆｏｒｍｅｒ）をもって、前記イメージパッチそれぞれに対応する前記学習用歩行者それぞれを、前記歩行者検出器による検出を困難にし得る変形歩行者それぞれに変換することによって少なくとも一つの変形イメージパッチ（ＴｒａｎｓｆｏｒｍｅｄＩｍａｇｅＰａｔｃｈ）を生成させる段階；及び（ｂ）前記学習装置が、前記トレーニングイメージ上で前記バウンディングボックスそれぞれに対応する前記領域それぞれを前記変形イメージパッチに代替して少なくとも一つの変形トレーニングイメージ（ＴｒａｎｓｆｏｒｍｅｄＴｒａｉｎｉｎｇＩｍａｇｅ）を生成し、前記歩行者検出器をもって、前記変形トレーニングイメージ内に位置する前記変形歩行者を検出して学習用歩行者検出情報を生成させ、第１ロスレイヤをもって、前記それぞれの学習用歩行者検出情報とこれに対応する原本正解とを参照して少なくとも一つの第１ロスを算出させ、前記第１ロスを最小化するように前記歩行者検出器の少なくとも一つのパラメータのうち少なくとも一部を学習する段階；を含むことを特徴とする。

一実施例において、前記（ｂ）段階で、前記学習装置が判別器（Ｄｉｓｃｒｉｍｉｎａｔｏｒ）をもって、前記それぞれの変形イメージパッチが前記それぞれの学習用歩行者であるそれぞれの確率を示す学習用歩行者スコア（ＰｅｄｅｓｔｒｉａｎＳｃｏｒｅ）それぞれを生成させ、前記学習用歩行者スコア及び前記第１ロスを最大化するように前記敵対的スタイル変換器の少なくとも一つのパラメータのうち少なくとも一部をさらに学習させることを特徴とする。

一実施例において、前記判別器は、（ｉ）少なくとも一つのコンボリューションレイヤと少なくとも一つのＦＣレイヤ（ＦｕｌｌｙＣｏｎｎｅｃｔｅｄＬａｙｅｒ）とを含むか、（ｉｉ）ＦＣＮ（ＦｕｌｌｙＣｏｎｖｏｌｕｔｉｏｎａｌＮｅｔｗｏｒｋ）を含むイメージ分類器（ＩｍａｇｅＣｌａｓｓｉｆｉｅｒ）であることを特徴とする。

一実施例において、前記（ｂ）段階で、前記学習装置が、第２ロスレイヤをもって、前記それぞれの学習用歩行者スコアとこれに対応する原本正解とを参照して少なくとも一つの第２ロスを算出させ、前記第２ロスを最小化するように前記判別器の少なくとも一つのパラメータのうち少なくとも一部を学習させることを特徴とする。

一実施例において、前記敵対的スタイル変換器は、前記イメージパッチに対してコンボリューション演算を少なくとも一回適用する少なくとも一つのコンボリューションレイヤを有するエンコーダと、前記エンコーダから出力される少なくとも一つの特徴マップに対してデコンボリューション演算を少なくとも一回適用する少なくとも一つのデコンボリューションレイヤを有するデコーダとを含むことを特徴とする。

一実施例において、前記（ａ）段階で、前記学習装置は、少なくとも１つの前記イメージパッチをリサイズ（Ｒｅｓｉｚｅ）して前記各イメージパッチが同一サイズを有するようにした後、前記敵対的スタイル変換器をもって同一サイズの前記変形イメージパッチを出力させ、前記（ｂ）段階で、前記学習装置は、前記同一サイズの前記変形イメージパッチをリサイズして前記変形イメージパッチそれぞれが変形する前の元のサイズになるようにした後、前記変形トレーニングイメージを生成させることを特徴とする。

一実施例において、前記トレーニングイメージは、（ｉ）監視カメラから取得された少なくとも一つのテストイメージ内に位置するテスト用歩行者を検出して前記バウンディングボックスを含むテスト用歩行者検出情報を出力する前記歩行者検出器、及び（ｉｉ）前記バウンディングボックスに対応するトゥルーラベル（ＴｒｕｅＬａｂｅｌ）を有する前記トレーニングイメージを格納するデータベースのうち一つから取得されることを特徴とする。

本発明の他の態様によると、イメージ分析に基づいてロバストサーベイランス（ＲｏｂｕｓｔＳｕｒｖｅｉｌｌａｎｃｅ）に使用されるテスト用歩行者検出器（ＰｅｄｅｓｔｒｉａｎＤｅｔｅｃｔｏｒ）をテストする方法において、（ａ）（１）学習装置が、少なくとも一つのトレーニングイメージ上に生成された学習用歩行者それぞれに対応する学習用バウンディングボックスそれぞれを有する前記トレーニングイメージ上で学習用バウンディングボックスそれぞれに対応する学習用領域それぞれをクロップ（Ｃｒｏｐ）して少なくとも一つの学習用イメージパッチ（ＩｍａｇｅＰａｔｃｈ）を生成し、敵対的スタイル変換器（ＡｄｖｅｒｓａｒｉａｌＳｔｙｌｅＴｒａｎｓｆｏｒｍｅｒ）をもって、前記学習用イメージパッチそれぞれに対応する前記学習用歩行者それぞれを、前記歩行者検出器による学習用検出を困難にし得る学習用変形歩行者それぞれに変換することによって少なくとも一つの学習用変形イメージパッチ（ＴｒａｎｓｆｏｒｍｅｄＩｍａｇｅＰａｔｃｈ）を生成させ、（２）前記学習装置が、前記トレーニングイメージ上で前記学習用バウンディングボックスそれぞれに対応する前記学習用領域それぞれを前記学習用変形イメージパッチに代替して少なくとも一つの変形トレーニングイメージ（ＴｒａｎｓｆｏｒｍｅｄＴｒａｉｎｉｎｇＩｍａｇｅ）を生成し、前記歩行者検出器をもって、前記変形トレーニングイメージ内に位置する前記学習用変形歩行者を検出して学習用歩行者検出情報を生成させ、第１ロスレイヤをもって、前記それぞれの学習用歩行者検出情報とこれに対応する原本正解とを参照して少なくとも一つの第１ロスを算出させ、前記第１ロスを最小化するように前記歩行者検出器の少なくとも一つのパラメータのうち少なくとも一部を学習した状態で、少なくとも一つのテストイメージに生成されたテスト用歩行者それぞれに対応するテスト用バウンディングボックスそれぞれを有する前記テストイメージが取得されると、テスト装置が、前記テストイメージ上で前記テスト用バウンディングボックスそれぞれに対応するテスト用領域それぞれをクロップして少なくとも一つのテスト用イメージパッチを生成し、前記敵対的スタイル変換器をもって、前記テスト用イメージパッチそれぞれに対応する前記テスト用歩行者それぞれを、前記歩行者検出器によるテスト用検出を困難にし得るテスト用変形歩行者それぞれに変換することによって少なくとも一つのテスト用変形イメージパッチを生成させる段階；及び（ｂ）前記テスト装置が、前記テストイメージ上で前記テスト用バウンディングボックスそれぞれに対応する前記テスト用領域それぞれを前記テスト用変形イメージパッチに代替して少なくとも一つの変形テストイメージ（ＴｒａｎｓｆｏｒｍｅｄＴｅｓｔＩｍａｇｅ）を生成し、前記歩行者検出器をもって、前記変形テストイメージ内に位置する前記テスト用変形歩行者を検出してテスト用歩行者検出情報を生成させる段階；を含むことを特徴とする。

一実施例において、前記（ｂ）段階で、前記テスト装置は、判別器（Ｄｉｓｃｒｉｍｉｎａｔｏｒ）をもって、前記それぞれのテスト用変形イメージパッチが前記それぞれのテスト用歩行者であるそれぞれの確率を示すテスト用歩行者スコア（ＰｅｄｅｓｔｒｉａｎＳｃｏｒｅ）それぞれを生成させる。

一実施例において、前記（２）プロセスで、前記学習装置が第２ロスレイヤをもって、前記それぞれの学習用歩行者スコアとこれに対応する原本正解とを参照して少なくとも一つの第２ロスを算出させ、前記第２ロスを最小化するように前記判別器の少なくとも一つのパラメータのうち少なくとも一部を学習させることを特徴とする。

一実施例において、前記敵対的スタイル変換器は、前記テスト用イメージパッチに対してコンボリューション演算を少なくとも一回適用する少なくとも一つのコンボリューションレイヤを有するエンコーダと、前記エンコーダから出力される少なくとも一つのテスト用特徴マップに対してデコンボリューション演算を少なくとも一回適用する少なくとも一つのデコンボリューションレイヤを有するデコーダとを含むことを特徴とする。

一実施例において、前記（ａ）段階で、前記テスト装置は、少なくとも１つの前記テスト用イメージパッチをリサイズ（Ｒｅｓｉｚｅ）して前記各テスト用イメージパッチが同一サイズを有するようにした後、前記敵対的スタイル変換器をもって、同一サイズの前記テスト用変形イメージパッチを出力させ、前記（ｂ）段階で、前記テスト装置は、前記同一サイズの前記テスト用変形イメージパッチをリサイズして前記テスト用変形イメージパッチそれぞれが変形する前の元のサイズになるようにした後、前記変形テストイメージを生成させることを特徴とする。

一実施例において、前記トレーニングイメージは、（ｉ）監視カメラから取得された前記テストイメージ内に位置するテスト用歩行者を検出して前記テスト用バウンディングボックスを含むテスト用歩行者検出情報を出力する前記歩行者検出器、及び（ｉｉ）前記テスト用バウンディングボックスに対応するトゥルーラベル（ＴｒｕｅＬａｂｅｌ）を有する前記トレーニングイメージを格納するデータベースのうち一つから取得されることを特徴とする。

本発明のまた他の態様によると、イメージ分析に基づいてロバストサーベイランス（ＲｏｂｕｓｔＳｕｒｖｅｉｌｌａｎｃｅ）に使用される歩行者検出器（ＰｅｄｅｓｔｒｉａｎＤｅｔｅｃｔｏｒ）を学習する装置において、インストラクションを格納する少なくとも一つのメモリと、（Ｉ）少なくとも一つのトレーニングイメージ上に生成された学習用歩行者それぞれに対応するバウンディングボックスそれぞれを有する前記トレーニングイメージが取得されると、前記トレーニングイメージ上で前記バウンディングボックスそれぞれに対応する領域それぞれをクロップ（Ｃｒｏｐ）して少なくとも一つのイメージパッチ（ＩｍａｇｅＰａｔｃｈ）を生成し、敵対的スタイル変換器（ＡｄｖｅｒｓａｒｉａｌＳｔｙｌｅＴｒａｎｓｆｏｒｍｅｒ）をもって、前記イメージパッチそれぞれに対応する前記学習用歩行者それぞれを、前記歩行者検出器による検出を困難にし得る変形歩行者それぞれに変換することによって少なくとも一つの変形イメージパッチ（ＴｒａｎｓｆｏｒｍｅｄＩｍａｇｅＰａｔｃｈ）を生成させるプロセス、及び（ＩＩ）前記トレーニングイメージ上で前記バウンディングボックスそれぞれに対応する前記領域それぞれを前記変形イメージパッチに代替して少なくとも一つの変形トレーニングイメージ（ＴｒａｎｓｆｏｒｍｅｄＴｒａｉｎｉｎｇＩｍａｇｅ）を生成し、前記歩行者検出器をもって、前記変形トレーニングイメージ内に位置する前記変形歩行者を検出して学習用歩行者検出情報を生成させ、第１ロスレイヤをもって、前記それぞれの学習用歩行者検出情報とこれに対応する原本正解とを参照して少なくとも一つの第１ロスを算出させ、前記第１ロスを最小化するように前記歩行者検出器の少なくとも一つのパラメータのうち少なくとも一部を学習するプロセスを遂行するための前記インストラクションを実行するように構成された少なくとも１つのプロセッサと、を含むことを特徴とする。

一実施例において、前記（ＩＩ）プロセスで、前記プロセッサが、判別器（Ｄｉｓｃｒｉｍｉｎａｔｏｒ）をもって、前記それぞれの変形イメージパッチが前記それぞれの学習用歩行者であるそれぞれの確率を示す学習用歩行者スコア（ＰｅｄｅｓｔｒｉａｎＳｃｏｒｅ）それぞれを生成させ、前記学習用歩行者スコア及び前記第１ロスを最大化するように前記敵対的スタイル変換器の少なくとも一つのパラメータのうち少なくとも一部をさらに学習させることを特徴とする。

一実施例において、前記（ＩＩ）プロセスで、前記プロセッサが第２ロスレイヤをもって、前記それぞれの学習用歩行者スコアとこれに対応する原本正解とを参照して少なくとも一つの第２ロスを算出させ、前記第２ロスを最小化するように前記判別器の少なくとも一つのパラメータのうち少なくとも一部を学習させることを特徴とする。

一実施例において、前記（Ｉ）プロセスで、前記プロセッサは、少なくとも１つの前記イメージパッチをリサイズ（Ｒｅｓｉｚｅ）して前記各イメージパッチが同一サイズを有するようにした後、前記敵対的スタイル変換器をもって、同一サイズの前記変形イメージパッチを出力させ、前記（ＩＩ）プロセスで、前記プロセッサは、前記同一サイズの前記変形イメージパッチをリサイズして前記変形イメージパッチそれぞれが変形する前の元のサイズになるようにした後、前記変形トレーニングイメージを生成させることを特徴とする。

一実施例において、前記トレーニングイメージは、（ｉ）前記監視カメラから取得された少なくとも一つのテストイメージ内に位置するテスト用歩行者を検出して前記バウンディングボックスを含むテスト用歩行者検出情報を出力する前記歩行者検出器、及び（ｉｉ）前記バウンディングボックスに対応するトゥルーラベル（ＴｒｕｅＬａｂｅｌ）を有する前記トレーニングイメージを格納するデータベースのうち一つから取得されることを特徴とする。

本発明のまた他の態様によると、イメージ分析に基づいてロバストサーベイランス（ＲｏｂｕｓｔＳｕｒｖｅｉｌｌａｎｃｅ）に使用されるテスト用歩行者検出器（ＰｅｄｅｓｔｒｉａｎＤｅｔｅｃｔｏｒ）のためのテスト装置において、インストラクションを格納する少なくとも一つのメモリと、（１）学習装置が、少なくとも一つのトレーニングイメージ上に生成された学習用歩行者それぞれに対応する学習用バウンディングボックスそれぞれを有する前記トレーニングイメージ上で学習用バウンディングボックスそれぞれに対応する学習用領域それぞれをクロップ（Ｃｒｏｐ）して少なくとも一つの学習用イメージパッチ（ＩｍａｇｅＰａｔｃｈ）を生成し、敵対的スタイル変換器（ＡｄｖｅｒｓａｒｉａｌＳｔｙｌｅＴｒａｎｓｆｏｒｍｅｒ）をもって、前記学習用イメージパッチそれぞれに対応する前記学習用歩行者それぞれを、前記歩行者検出器による学習用検出を困難にし得る学習用変形歩行者それぞれに変換することによって少なくとも一つの学習用変形イメージパッチ（ＴｒａｎｓｆｏｒｍｅｄＩｍａｇｅＰａｔｃｈ）を生成させ、（２）前記学習装置が、前記トレーニングイメージ上で前記学習用バウンディングボックスそれぞれに対応する前記学習用領域それぞれを前記学習用変形イメージパッチに代替して少なくとも一つの変形トレーニングイメージ（ＴｒａｎｓｆｏｒｍｅｄＴｒａｉｎｉｎｇＩｍａｇｅ）を生成し、前記歩行者検出器をもって、前記変形トレーニングイメージ内に位置する前記学習用変形歩行者を検出して学習用歩行者検出情報を生成させ、第１ロスレイヤをもって、前記それぞれの学習用歩行者検出情報とこれに対応する原本正解とを参照して少なくとも一つの第１ロスを算出させ、前記第１ロスを最小化するように前記歩行者検出器の少なくとも一つのパラメータのうち少なくとも一部を学習した状態で、（Ｉ）少なくとも一つのテストイメージに生成されたテスト用歩行者それぞれに対応するテスト用バウンディングボックスそれぞれを有する前記テストイメージが取得されると、前記テストイメージ上で前記テスト用バウンディングボックスそれぞれに対応するテスト用領域それぞれをクロップして少なくとも一つのテスト用イメージパッチを生成し、前記敵対的スタイル変換器をもって、前記テスト用イメージパッチそれぞれに対応する前記テスト用歩行者それぞれを、前記歩行者検出器によるテスト用検出を困難にし得るテスト用変形歩行者それぞれに変換することによって少なくとも一つのテスト用変形イメージパッチを生成させるプロセス、及び（ＩＩ）前記テストイメージ上で前記テスト用バウンディングボックスそれぞれに対応する前記テスト用領域それぞれを前記テスト用変形イメージパッチに代替して少なくとも一つの変形テストイメージ（ＴｒａｎｓｆｏｒｍｅｄＴｅｓｔＩｍａｇｅ）を生成し、前記歩行者検出器をもって、前記変形テストイメージ内に位置する前記テスト用変形歩行者を検出してテスト用歩行者検出情報を生成させるプロセスを遂行するための前記インストラクションを実行するように構成された少なくとも一つのプロセッサと、を含むことを特徴とする。

一実施例において、前記（ＩＩ）プロセスで、前記プロセッサは、判別器（Ｄｉｓｃｒｉｍｉｎａｔｏｒ）をもって、前記それぞれのテスト用変形イメージパッチが前記それぞれのテスト用歩行者であるそれぞれの確率を示すテスト用歩行者スコア（ＰｅｄｅｓｔｒｉａｎＳｃｏｒｅ）それぞれを生成させる。

一実施例において、前記（２）プロセスで、前記学習装置が、第２ロスレイヤをもって、前記それぞれの学習用歩行者スコアとこれに対応する原本正解とを参照して少なくとも一つの第２ロスを算出させ、前記第２ロスを最小化するように前記判別器の少なくとも一つのパラメータのうち少なくとも一部を学習させることを特徴とする。

一実施例において、前記（Ｉ）プロセスで、前記プロセッサは、少なくとも１つの前記テスト用イメージパッチをリサイズ（Ｒｅｓｉｚｅ）して前記各テスト用イメージパッチが同一サイズを有するようにした後、前記敵対的スタイル変換器をもって、同一サイズの前記テスト用変形イメージパッチを出力させ、前記（ＩＩ）プロセスで、前記プロセッサは、前記同一サイズの前記テスト用変形イメージパッチをリサイズして前記テスト用変形イメージパッチそれぞれが変形する前の元のサイズになるようにした後、前記変形テストイメージを生成させることを特徴とする。

その他にも、本発明の方法を実行するためのコンピュータプログラムを格納するためのコンピュータ読取り可能な記録媒体がさらに提供される。

本発明は、歩行者検出が容易であるイメージを歩行者検出が難しいイメージに変換して未検出の事例に関する学習を行うことによって、歩行者検出器テストの際に未検出の事例と類似する事例が発生した場合、歩行者検出器の検出率を向上させ得る効果がある。

また、本発明は、未検出事例に対応する多様なトレーニングデータを生成することができるため、検出が難しい事例に対する十分なトレーニングデータを確保することができる他の効果がある。

また、本発明は、検出が困難な事例に対する適切なトレーニングデータを学習することで未検出事例が発生する確率を最小化することによって、未検出事例をモニタリングするための別途の人員が必要でなくなり、監視システムの維持費用を最小化することができる、また他の効果がある。

本発明の実施例の説明に利用されるために添付された以下の各図面は、本発明の実施例のうち単に一部であるに過ぎず、本発明の属する技術分野において通常の知識を有する者（以下「通常の技術者」）にとっては、発明的作業が行われずにこれらの図面に基づいて他の各図面が得られ得る。
図１は、本発明の一実施例にしたがって、イメージ分析に基づいてロバストサーベイランス（ＲｏｂｕｓｔＳｕｒｖｅｉｌｌａｎｃｅ）に使用される歩行者検出器（ＰｅｄｅｓｔｒｉａｎＤｅｔｅｃｔｏｒ）を学習する学習装置を簡略に示したものであり、図２は、本発明の一実施例にしたがって、イメージ分析に基づいてロバストサーベイランスに使用される歩行者検出器を学習する方法を簡略に示したものであり、図３は、本発明の一実施例にしたがって、イメージ分析に基づいてロバストサーベイランスに使用される歩行者検出器を学習する方法において少なくとも一つのトレーニングイメージを取得するプロセスを簡略に示したものであり、図４は、本発明の一実施例にしたがって、イメージ分析に基づいてロバストサーベイランスに使用される歩行者検出器を簡略に示したものであり、図５は、本発明の一実施例にしたがって、イメージ分析に基づいてロバストサーベイランスに使用される歩行者検出器を学習する方法において、敵対的スタイル変換器（ＡｄｖｅｒｓａｒｉａｌＳｔｙｌｅＴｒａｎｓｆｏｒｍｅｒ）を学習するプロセスを簡略に示したものであり、図６は、本発明の一実施例にしたがって、イメージ分析に基づいてロバストサーベイランスに使用される歩行者検出器を学習する方法において、判別器（Ｄｉｓｃｒｉｍｉｎａｔｏｒ）を学習するプロセスを簡略に示したものであり、図７は、本発明の一実施例にしたがって、イメージ分析に基づいてロバストサーベイランスに使用される歩行者検出器をテストするテスト装置を簡略に示したものであり、図８は、本発明の一実施例にしたがって、イメージ分析に基づいてロバストサーベイランスに使用される歩行者検出器を利用して、少なくとも一つの歩行者を検出するプロセスを簡略に示したものである。

後述する本発明に対する詳細な説明は、本発明の各目的、技術的解決方法及び長所を明確にするために、本発明が実施され得る特定の実施例を例示として示す添付図面を参照する。これらの実施例は、通常の技術者が本発明を実施することができるように充分詳細に説明される。

また、本発明の詳細な説明及び各請求項にわたって、「含む」という単語及びそれらの変形は、他の技術的各特徴、各付加物、構成要素又は段階を除外することを意図したものではない。通常の技術者にとって本発明の他の各目的、長所及び各特性が、一部は、本説明書から、また一部は、本発明の実施から明らかになるであろう。以下の例示及び図面は実例として提供され、本発明を限定することを意図したものではない。

さらに、本発明は、本明細書に示された実施例のすべての可能な組合せを網羅する。本発明の多様な実施例は互いに異なるが、相互に排他的である必要はないことが理解されるべきである。例えば、ここに記載されている特定の形状、構造及び特性は、一実施例に関連して本発明の精神及び範囲を逸脱せず、かつ他の実施例で具現され得る。また、それぞれの開示された実施例内の個別の構成要素の位置又は配置は、本発明の精神及び範囲を逸脱せず、かつ変更され得ることが理解されるべきである。したがって、後述の詳細な説明は、限定的な意味として受け取ろうとするものではなく、本発明の範囲は適切に説明されるのであれば、その請求項が主張することと均等な全ての範囲とともに添付された請求項によってのみ限定される。図面において類似の参照符号は、様々な側面にわたって同一であるか、又は類似の機能を指す。

以下、本発明の属する技術分野において通常の知識を有する者が本発明を容易に実施し得るようにするために、本発明の好ましい実施例について、添付された図面を参照して詳細に説明することにする。

図１は、本発明の一実施例にしたがって、イメージ分析に基づいてロバストサーベイランス（ＲｏｂｕｓｔＳｕｒｖｅｉｌｌａｎｃｅ）に使用される歩行者検出器（ＰｅｄｅｓｔｒｉａｎＤｅｔｅｃｔｏｒ）を学習する学習装置を簡略に示したものである。図１を参照すると、学習装置１００は、歩行者検出器（ＰｅｄｅｓｔｒｉａｎＤｅｔｅｃｔｏｒ）を学習するためのインストラクション（Ｉｎｓｔｒｕｃｔｉｏｎ）を格納するメモリ１１０と、メモリ１１０に格納されたインストラクションに対応するプロセスを遂行して歩行者検出器を学習するプロセッサ１２０とを含むことができる。

具体的に、学習装置１００は、典型的に少なくとも一つのコンピューティング装置（例えば、コンピュータプロセッサ、メモリ、ストレージ、入力装置及び出力装置、その他従来のコンピューティング構成要素を含み得る装置；ルータ、スイッチなどのような電子通信装置；ネットワーク接続ストレージ（ＮＡＳ）及びストレージ領域ネットワーク（ＳＡＮ）のような電子情報ストレージシステム）と少なくとも一つのコンピュータソフトウェア（つまり、コンピューティング装置をもって特定の方式で機能させるインストラクション）との組み合わせを利用して所望のシステム性能を達成するものであり得る。

コンピューティング装置のプロセッサは、ＭＰＵ（ＭｉｃｒｏＰｒｏｃｅｓｓｉｎｇＵｎｉｔ）又はＣＰＵ（ＣｅｎｔｒａｌＰｒｏｃｅｓｓｉｎｇＵｎｉｔ）、キャッシュメモリ（ＣａｃｈｅＭｅｍｏｒｙ）、データバス（ＤａｔａＢｕｓ）などのハードウェア構成を含むことができる。また、コンピューティング装置は、オペレーティングシステム、特定の目的を遂行するアプリケーションのソフトウェア構成をさらに含むこともできる。

コンピューティング装置のプロセッサが、本発明を実施するためのプロセッサ、ミディアム、又は他のコンピューティング構成要素のうちいずれかの組み合わせを含む統合装置（ＩｎｔｅｇｒａｔｅｄＤｅｖｉｃｅ）を排除するわけではない。

このように構成された本発明の一実施例による学習装置１００を利用して、イメージ分析に基づいてロバストサーベイランスに使用される歩行者検出器を学習する方法について、図２を参照して説明すると以下のとおりである。

参考までに、以下の説明において混同を避けるために、「学習用」という文言は前述の学習プロセスに関する用語に対して追加され、「テスト用」という文言は、テストプロセスに関する用語に対して追加される。

まず、学習用歩行者それぞれに対応するバウンディングボックスＲ^−１（ｘ）それぞれを有する少なくとも一つのトレーニングイメージＩ１１が取得されると、学習装置１００が、トレーニングイメージＩ１１上でバウンディングボックスＲ^−１（ｘ）それぞれに対応する領域それぞれをクロップ（Ｃｒｏｐ）して少なくとも一つのイメージパッチｘ１２を生成する（Ｓ１）。前記Ｉは、学習に利用される少なくとも一つのトレーニングイメージに対応し、ｘは、それぞれのトレーニングイメージ上のバウンディングボックスのうちいずれか一つのバウンディングボックスに対応し得る。

この際、学習装置１００は、イメージパッチｘ１２のうち少なくとも一つをリサイズ（Ｒｅｓｉｚｅ）して各イメージパッチｘ１２が同一サイズを有するようにできる。また、各イメージパッチｘが同一サイズを有するようにするために、学習装置１００は、一部のイメージパッチｘのサイズを大きくするか、一部のイメージパッチｘはサイズを小さくすることができ、一部のイメージパッチｘはサイズを調整しなくてもよい。

一方、図３を参照すると、学習装置１００は、（ｉ）監視カメラから取得された少なくとも一つのテストイメージ１０内に位置するテスト用歩行者を検出してバウンディングボックスを含むテスト用歩行者検出情報を出力する歩行者検出器１４０、及び（ｉｉ）バウンディングボックスに対応するトゥルーラベル（ＴｒｕｅＬａｂｅｌ）を有するトレーニングイメージを格納するデータベース５のうち一つからトレーニングイメージＩ１１を取得することができる。

一例として、図３を参照して、歩行者検出器１４０からトレーニングイメージＩ１１を取得する方法を説明すると以下のとおりである。

監視カメラから取得されたテストイメージＩ１０が入力されると、歩行者検出器１４０は、少なくとも一つのコンボリューションレイヤ１４１をもって、テストイメージＩ１０に対してコンボリューション演算を少なくとも一回適用させて少なくとも一つのテスト用特徴マップを出力させる。この際、コンボリューションレイヤ１４１は、テストイメージＩ１０に対して順次にコンボリューション演算を適用してテスト用特徴マップを出力することができる。

そして、歩行者検出器１４０は、少なくとも一つのＲＰＮ（ＲｅｇｉｏｎＰｒｏｐｏｓａｌＮｅｔｗｏｒｋ）１４２をもって、テスト用特徴マップ上で少なくとも一つの歩行者を含むものと推定される候補領域に対応するテスト用プロポーザルボックスを生成させる。

以後、歩行者検出器１４０は、少なくとも一つのプーリングレイヤ１４３をもって、テスト用特徴マップ上でテスト用プロポーザルボックスに対応する領域に対してプーリング演算（ＰｏｏｌｉｎｇＯｐｅｒａｔｉｏｎ）を少なくとも一回適用して少なくとも一つのテスト用特徴ベクトル（ＦｅａｔｕｒｅＶｅｃｔｏｒ）を生成させる。

そして、歩行者検出器１４０は、少なくとも一つのＦＣレイヤ（ＦｕｌｌｙＣｏｎｎｅｃｔｅｄＬａｙｅｒ）１４４をもって、テスト用特徴ベクトルに対してＦＣ演算（ＦｕｌｌｙＣｏｎｎｅｃｔｅｄＯｐｅｒａｔｉｏｎ）を少なくとも一回適用させた後、少なくとも一つの分類レイヤ（ＣｌａｓｓｉｆｉｃａｔｉｏｎＬａｙｅｒ）１４５をもって、テスト用プロポーザルボックスそれぞれに対応するそれぞれのテスト用歩行者クラス情報を出力させ、少なくとも一つのリグレッションレイヤ（ＲｅｇｒｅｓｓｉｏｎＬａｙｅｒ）１４６をもって、それぞれのテスト用歩行者をバウンディングしたテスト用プロポーザルボックスそれぞれから生じたテスト用バウンディングボックスを生成させる。

一方、歩行者検出器１４０は、事前に学習された状態であり得る。つまり、少なくとも一つのロスを利用したバックプロパゲーションを通じてＦＣレイヤ１４４及びコンボリューションレイヤ１４１の少なくとも一つのパラメータのうち少なくとも一部が調整された状態であり得る。また、ＲＰＮ１４２も事前に学習された状態であり得る。

再び図２を参照すると、学習装置１００は、敵対的スタイル変換器（ＡｄｖｅｒｓａｒｉａｌＳｔｙｌｅＴｒａｎｓｆｏｒｍｅｒ）Ｇ１３０をもって、イメージパッチｘ１２それぞれに対応する学習用歩行者それぞれを、歩行者検出器１４０による検出を困難にする変形歩行者それぞれに変換して少なくとも一つの変形イメージパッチ（ＴｒａｎｓｆｏｒｍｅｄＩｍａｇｅＰａｔｃｈ）Ｇ（ｘ）１３それぞれを生成させる（Ｓ２）。

この際、敵対的スタイル変換器Ｇ１３０は、イメージパッチｘ１２に対してコンボリューション演算を少なくとも一回適用する少なくとも一つのコンボリューションレイヤを有するエンコーダと、エンコーダから出力される少なくとも一つの特徴マップに対してデコンボリューション演算を少なくとも一回適用して変形イメージパッチＧ（ｘ）１３を生成する少なくとも一つのデコンボリューションレイヤを有するデコーダとを含むことができる。

一方、敵対的スタイル変換器Ｇ１３０は、歩行者検出器１４０を介して検出されるか、トレーニングデータベースから取得されたトレーニングイメージＩ１１で検出が容易な歩行者それぞれに対応するイメージパッチｘ１２それぞれに対して歩行者検出器１４０で検出が困難な、すなわち、従来のトレーニングデータで接することができなかった独特のスタイル及び／又はパターンを有するように変換して変形イメージパッチＧ（ｘ）１３を生成するか、周囲の背景に対応してイメージパッチｘ１２を変換することで変形イメージパッチＧ（ｘ）１３を生成することができる。

次に、学習装置１００は、トレーニングイメージＩ１１上でバウンディングボックスＲ^−１（ｘ）それぞれに対応するそれぞれの領域を変形イメージパッチＧ（ｘ）に代替して変形歩行者それぞれが位置する領域Ｒ^−１（Ｇ（ｘ））それぞれを有する少なくとも一つの変形トレーニングイメージ１４を生成する（Ｓ３）。

この際、学習装置１００は、前記において少なくとも一つのイメージパッチｘ１２をリサイズした場合、これに対応する変形イメージパッチＧ（ｘ）をリサイズして変形イメージパッチそれぞれが変形する前の元のサイズになるようにした後、変形トレーニングイメージ１４を生成することができる。

そして、変形トレーニングイメージ１４は、次のように表すことができる。

次に、学習装置１００は、歩行者検出器１４０をもって、変形トレーニングイメージ１４内に位置する変形歩行者Ｒ^−１（Ｇ（ｘ））を検出させて学習用歩行者検出情報を生成させることができる。

一例として、再び図４を参照して歩行者検出器１４０が変形トレーニングイメージ１４から変形歩行者を検出する方法を説明すると、次のとおりである。

変形トレーニングイメージ１４が入力されると、歩行者検出器１４０はコンボリューションレイヤ１４１をもって、変形トレーニングイメージ１４に対してコンボリューション演算を適用させて少なくとも一つの学習用特徴マップを生成させる。この際、コンボリューションレイヤ１４１は、変形トレーニングイメージ１４に対して順次にコンボリューション演算を適用して学習用特徴マップを生成することができる。

そして、歩行者検出器１４０は、ＲＰＮ１４２をもって、学習用特徴マップ上で変形歩行者Ｒ^−１（Ｇ（ｘ））を含むものと推定される候補領域に対応する学習用プロポーザルボックスを生成させる。

以後、歩行者検出器１４０は、プーリングレイヤ１４３をもって、学習用特徴マップ上で学習用プロポーザルボックスに対応する領域に対してプーリング演算を適用して少なくとも一つの学習用特徴ベクトルを生成させる。

そして、歩行者検出器１４０は、ＦＣレイヤ１４４をもって、学習用特徴ベクトルに対してＦＣ演算を適用させた後、分類レイヤ１４５をもって、それぞれの学習用プロポーザルボックスに対応するそれぞれの学習用歩行者クラス情報を生成させ、リグレッションレイヤ１４６をもって、それぞれの変形歩行者をバウンディングした学習用プロポーザルボックスそれぞれから生じた学習用バウンディングボックスを生成させる。

次に、学習装置１００は、第１ロスレイヤ１６０をもって、学習用歩行者検出情報とこれに対応する原本正解とを参照して少なくとも一つの第１ロスを算出させ、第１ロスを最小化するように歩行者検出器１４０の少なくとも一つのパラメータのうち少なくとも一部を学習することができる（Ｓ４）。

この際、歩行者検出器（Ｆ）１４０に対する最適化の公式（ＯｐｔｉｍｉｚｉｎｇＦｏｒｍｕｌａ）は、次のように表すことができる。

したがって、歩行者検出器（Ｆ）１４０のそれぞれの重み付け値に対するアップデート公式（ＵｐｄａｔｉｎｇＦｏｒｍｕｌａ）は、次のように表すことができる。

一方、学習装置１００は、判別器１５０をもって、変形イメージパッチＧ（ｘ）１３それぞれが学習用歩行者それぞれである確率それぞれを表す学習用歩行者スコアＤ（Ｇ（ｘ））それぞれを生成させ、学習用歩行者スコア及び第１ロスを最大化するように敵対的スタイル変換器１３０の少なくとも一つのパラメータのうち少なくとも一部をさらに学習することができる（Ｓ５、Ｓ６）。

この場合、第１ロスを最大化するように敵対的スタイル変換器１３０のパラメータの少なくとも一部を学習する目的は、敵対的スタイル変換器１３０がイメージパッチｘ１２を変形イメージパッチＧ（ｘ）１３に変換する場合、歩行者検出器１４０が変形イメージパッチＧ（ｘ）１３を漸次にさらに検出しにくくするためである。また、学習用歩行者スコアを最大化するように敵対的スタイル変換器１３０のパラメータの少なくとも一部を学習する目的は、敵対的スタイル変換器１３０がイメージパッチｘ１２を、歩行者検出器１４０が検出しにくい変形イメージパッチＧ（ｘ）１３に変換するもかかわらず、変形イメージパッチＧ（ｘ）がこれに対応する歩行者クラスを維持させて変形イメージパッチＧ（ｘ）が現実的に見えるようにするためである。

そして、図５を参照して敵対的スタイル変換器１３０を学習する方法を説明すると、以下のとおりである。

学習装置１００は、第１ロスＬ（Ｆ（Ｉ_Ｇ））を最大化するためのバックプロパゲーションによって歩行者検出機Ｆ１４０から出力される変形トレーニングイメージ１４に対する微分値を演算することができる（Ｓ６−１）。この際、変形トレーニングイメージ１４に対する微分値は、次の数学式のように表すことができる。

そして、学習装置１００は、変形トレーニングイメージ１４内のそれぞれの変形歩行者Ｒ^−１（Ｇ（ｘ））に対する微分値を演算することができる（Ｓ６−２）。この際、それぞれの変形歩行者Ｒ^−１（Ｇ（ｘ））に対する微分値は、次の数学式のように表すことができる。

以後、学習装置１００は、変形歩行者Ｒ^−１（Ｇ（ｘ））に対する微分値を参照して変形イメージパッチＧ（ｘ）に対する微分値を演算することができる（Ｓ６−３）。この際、変形イメージパッチＧ（ｘ）に対する微分値は、次の数学式のように表すことができる。

次に、学習装置１００は、学習用歩行者スコアＤ（Ｇ（ｘ））を最大化するためのバックプロパゲーションにより判別器Ｄ１５０から出力される変形イメージパッチＧ（ｘ）に対する微分値を演算することができる（Ｓ５−１）。この際、変形イメージパッチＧ（ｘ）に対する微分値は、次の数学式のように表すことができる。

この際、敵対的スタイル変換器Ｇ１３０に対する最適化の公式は、次のように表すことができる。

再び図２を参照すると、学習装置１００は、第２ロスレイヤをもって、学習用歩行者スコアとこれに対応する原本正解とを参照して少なくとも一つの第２ロスを算出させ、第２ロスを最小化するように判別器１５０の少なくとも一つのパラメータのうち少なくとも一部をさらに学習することができる。

この際、判別器１５０は、変形イメージパッチＧ（ｘ）１３内に位置する物体が歩行者であるのかを判別するためのイメージ分類機（ＩｍａｇｅＣｌａｓｓｉｆｉｅｒ）であり得る。そして、イメージ分類器は、（ｉ）少なくとも１つのコンボリューションレイヤとＦＣレイヤとを含むか、（ｉｉ）ＦＣＮ（ＦｕｌｌｙＣｏｎｖｏｌｕｔｉｏｎａｌＮｅｔｗｏｒｋ）を含むことができるが、本発明はこれに限定されず、イメージ内の物体を認識するディープラーニングに基づくすべてのイメージ分類器が利用され得る。

そして、図６を参照して、判別器１５０を学習する方法を説明すると次のとおりである。

学習装置１００は、判別器１５０をもって、変形イメージパッチＧ（ｘ）１３それぞれが学習用歩行者それぞれである確率それぞれを表す学習用歩行者スコアＤ（Ｇ（ｘ））を生成させ、これに対応するイメージパッチｘ１２それぞれが学習用歩行者である確率を表す原本正解用歩行者スコアＤ（ｘ）それぞれを生成させる。

そして、学習装置１００は、第２ロスレイヤ１７０をもって、第２ロスを算出させる。

この際、第２ロスはｌｏｇＤ（ｘ）+ｌｏｇ（１−Ｄ（Ｇ（ｘ）））のように表すことができ、それに伴って判別器Ｄ１５０に対する最適化の公式は、次のように表すことができる。

したがって、判別器Ｄ１５０のそれぞれの重み付け値に対するアップデートの公式は、次のように表すことができる。

すなわち、本発明による学習方法は、簡略に次のように説明することができるが、これに限定されるわけではない。

まず、トレーニングイメージ上でそれぞれの学習用歩行者に対するそれぞれのバウンディングボックスＲ^−１（ｘ）を取得する。

以後、それぞれのＲ^−１（ｘ）に対してＧ（ｘ）、Ｄ（ｘ）、Ｄ（Ｇ（ｘ））及びＲ^−１（Ｇ（ｘ））が算出され、変形トレーニングイメージ１４に対するＩ_Ｇ＝Ｉ＋Σｘ（Ｒ^−１（Ｇ（ｘ））−Ｒ^−１（ｘ））が生成される。

以後、歩行者検出器の第１ロスＬ（Ｆ（Ｉ_Ｇ））が算出された後、全体バックプロパゲーションを通じてそれぞれのグラディエントが算出される。

そして、次の公式のように歩行者検出器１４０、判別器１５０、及び敵対的スタイル変換器１３０がアップデートされる。

図７を参照すると、テスト装置２００は、学習された歩行者検出器を利用してテスト用歩行者を検出するためのインストラクションを格納するメモリ２１０と、メモリ２１０に格納されたインストラクションに対応する歩行者検出器を利用してテスト用歩行者を検出するプロセッサ２２０とを含むことができる。

具体的に、テスト装置２００は、典型的に少なくとも一つのコンピューティング装置（例えば、コンピュータプロセッサ、メモリ、ストレージ、入力装置及び出力装置、その他従来のコンピューティング装置の構成要素を含むことができる装置；ルータ、スイッチなどのような電子通信装置；ネットワーク接続ストレージ（ＮＡＳ）及びストレージ領域ネットワーク（ＳＡＮ）のような電子情報ストレージシステム）と少なくとも一つのコンピュータソフトウェア（すなわち、コンピューティング装置をもって特定の方式で機能させるインストラクション）との組み合わせを利用して所望のシステム性能を達成するものであり得る。

また、コンピューティング装置のプロセッサは、ＭＰＵ（ＭｉｃｒｏＰｒｏｃｅｓｓｉｎｇＵｎｉｔ）又はＣＰＵ（ＣｅｎｔｒａｌＰｒｏｃｅｓｓｉｎｇＵｎｉｔ）、キャッシュメモリ（ＣａｃｈｅＭｅｍｏｒｙ）、データバス（ＤａｔａＢｕｓ）などのハードウェアの構成を含むことができる。また、コンピューティング装置は、オペレーティングシステム、特定の目的を遂行するアプリケーションのソフトウェア構成をさらに含むこともできる。

しかし、コンピューティング装置のプロセッサが、本発明を実施するためのプロセッサ、ミディアム、又は他のコンピューティング構成要素のいずれかの組み合わせを含む統合装置（ＩｎｔｅｇｒａｔｅｄＤｅｖｉｃｅ）を排除するわけではない。

このように構成された本発明の一実施例によるテスト装置２００を利用してテスト用歩行者を検出する方法について、図８を参照して説明すると以下のとおりである。

図２を参照して説明したように、歩行者検出器１４０が学習された状態で、監視カメラから少なくとも一つのテストイメージ１０が取得されると、テスト装置２００は、歩行者検出器１４０をもって、テストイメージ１０を分析させてテストイメージ１０内に位置するテスト用歩行者を検出させ、テスト用歩行者に対応するテスト用歩行者検出情報２１を生成させる。

この際、再び図４を参照して、歩行者検出器１４０がテストイメージ１０でテスト用歩行者を検出する方法を説明すると以下のとおりである。

監視カメラから取得されたテストイメージ１０が入力されると、歩行者検出器１４０は、コンボリューションレイヤ１４１をもって、テストイメージ１０に対してコンボリューション演算を適用してテスト用特徴マップを生成させる。この際、コンボリューションレイヤ１４１は、テストイメージ１０に対して順次にコンボリューション演算を適用してテスト用特徴マップを生成することができる。

そして、歩行者検出器１４０は、ＲＰＮ１４２をもって、テスト用特徴マップ上でテスト用歩行者が位置するものと推定される候補領域に対応するテスト用プロポーザルボックスを生成させる。

以後、歩行者検出器１４０は、プーリングレイヤ１４３をもって、テスト用特徴マップ上でテスト用プロポーザルボックスに対応する領域に対して、プーリング演算を適用して少なくとも一つのテスト用特徴ベクトルを生成させる。

そして、歩行者検出器１４０は、ＦＣレイヤ１４４をもって、テスト用特徴ベクトルに対してＦＣ演算を適用させた後、分類レイヤ１４５をもって、それぞれのテスト用プロポーザルボックスに対応するそれぞれのテスト用歩行者クラス情報を出力させ、リグレッションレイヤ１４６をもって、それぞれのテスト用歩行者をバウンディングしたテスト用プロポーザルボックスそれぞれから生じたテスト用バウンディングボックスを生成させる。

一方、学習装置は、歩行者検出器１４０をもって、（ａ）トレーニングイメージ上に生成された学習用歩行者それぞれに対応するバウンディングボックスそれぞれを有するトレーニングイメージが取得されると、トレーニングイメージ上でバウンディングボックスそれぞれに対応する領域それぞれをクロップ（Ｃｒｏｐ）してイメージパッチ（ＩｍａｇｅＰａｔｃｈ）を生成し、敵対的スタイル変換器（ＡｄｖｅｒｓａｒｉａｌＳｔｙｌｅＴｒａｎｓｆｏｒｍｅｒ）をもって、イメージパッチそれぞれに対応する学習用歩行者それぞれを、歩行者検出器による検出を困難にし得る変形歩行者それぞれに変換することによって変形イメージパッチ（ＴｒａｎｓｆｏｒｍｅｄＩｍａｇｅＰａｔｃｈ）を生成させるプロセス、及び（ｂ）トレーニングイメージ上でバウンディングボックスそれぞれに対応する領域それぞれを変形イメージパッチに代替して変形トレーニングイメージ（ＴｒａｎｓｆｏｒｍｅｄＴｒａｉｎｉｎｇＩｍａｇｅ）を生成し、変形トレーニングイメージ内に位置する変形歩行者を検出して学習用歩行者検出情報を生成し、第１ロスレイヤをもって、それぞれの学習用歩行者検出情報とこれに対応する原本正解とを参照して第１ロスを算出させ、第１ロスを最小化するように歩行者検出器のパラメータの少なくとも一部を学習するプロセスを完了した状態であり得る。

また、学習装置が、判別器をもって、変形イメージパッチそれぞれが学習用歩行者それぞれである確率それぞれを表す学習用歩行者スコアそれぞれを生成させるプロセスと、学習用歩行者スコア及び第１ロスを最大化するように敵対的スタイル変換器のパラメータのうち少なくとも一部をさらに学習させるプロセスとを完了した状態であり得る。

また、学習装置１００は、第２ロスレイヤをもって、学習用歩行者スコアとこれに対応する原本正解とを参照して第２ロスを算出させるプロセスと、第２ロスを最小化するように判別器１５０のパラメータのうち少なくとも一部を学習するプロセスとを完了した状態であり得る。

また、自律進化システム（Ｓｅｌｆ−ＥｖｏｌｖｉｎｇＳｙｓｔｅｍ）としての学習は、難しい例示を含むトレーニングデータを生成することで敵対的パターン（ＡｄｖｅｒｓａｒｉａｌＰａｔｔｅｒｎ）に影響され得ない。

前記方法は、ロバストサーベイランスだけでなく、ラベリングされたイメージ不足の問題に対する解決策、注釈費用の節減及び軍事目的で使用され得る。

また、以上にて説明された本発明による各実施例は、多様なコンピュータの構成要素を通じて遂行することができるプログラム命令語の形態で具現されて、コンピュータ読取り可能な記録媒体に格納され得る。前記コンピュータ読取り可能な記録媒体は、プログラム命令語、データファイル、データ構造などを単独で又は組み合わせて含むことができる。前記コンピュータ読取り可能な記録媒体に格納されるプログラム命令語は、本発明のために特別に設計され、構成されたものであるか、コンピュータソフトウェア分野の当業者に公知にされて使用可能なものであり得る。コンピュータ読取り可能な記録媒体の例には、ハードディスク、フロッピーディスク及び磁気テープのような磁気媒体、ＣＤ−ＲＯＭ、ＤＶＤのような光記録媒体、フロプティカルディスク（ＦｌｏｐｔｉｃａｌＤｉｓｋ）のような磁気−光メディア（Ｍａｇｎｅｔｏ−ＯｐｔｉｃａｌＭｅｄｉａ）、及びＲＯＭ、ＲＡＭ、フラッシュメモリなどのようなプログラム命令語を格納して遂行するように特別に構成されたハードウェア装置が含まれる。プログラム命令語の例には、コンパイラによって作られるもののような機械語コードだけでなく、インタープリターなどを使用してコンピュータによって実行され得る高級言語コードも含まれる。前記ハードウェア装置は、本発明による処理を実行するために一つ以上のソフトウェアモジュールとして作動するように構成され得、その反対も同様である。

以上にて本発明が具体的な構成要素などのような特定事項と限定された実施例及び図面によって説明されたが、これは本発明のより全般的な理解の一助とするために提供されたものであるに過ぎず、本発明が前記実施例に限られるものではなく、本発明が属する技術分野において通常の知識を有する者であれば、かかる記載から多様な修正及び変形が行われ得る。

従って、本発明の思想は、前記説明された実施例に局限されて定められてはならず、後述する特許請求の範囲だけでなく、本特許請求の範囲と均等又は等価的に変形されたものすべては、本発明の思想の範囲に属するといえる。

１００：学習装置
１１０：メモリ
１２０：プロセッサ
１３０：敵対的スタイル変換器
１４０：歩行者検出器
１５０：判別器
２００：テスト装置、
２１０：メモリ
２２０：プロセッサ

Claims

イメージ分析に基づいてロバストサーベイランス（ＲｏｂｕｓｔＳｕｒｖｅｉｌｌａｎｃｅ）に使用される歩行者検出器（ＰｅｄｅｓｔｒｉａｎＤｅｔｅｃｔｏｒ）を学習する方法において、
（ａ）少なくとも一つのトレーニングイメージ上に生成された学習用歩行者それぞれに対応するバウンディングボックスそれぞれを有する前記トレーニングイメージが取得されると、学習装置が、前記トレーニングイメージ上で前記バウンディングボックスそれぞれに対応する領域それぞれをクロップ（Ｃｒｏｐ）して少なくとも一つのイメージパッチ（ＩｍａｇｅＰａｔｃｈ）を生成し、敵対的スタイル変換器（ＡｄｖｅｒｓａｒｉａｌＳｔｙｌｅＴｒａｎｓｆｏｒｍｅｒ）をもって、前記イメージパッチそれぞれに対応する前記学習用歩行者それぞれを、前記歩行者検出器による検出を困難にし得る変形歩行者それぞれに変換することによって少なくとも一つの変形イメージパッチ（ＴｒａｎｓｆｏｒｍｅｄＩｍａｇｅＰａｔｃｈ）を生成させる段階；及び
（ｂ）前記学習装置が、前記トレーニングイメージ上で前記バウンディングボックスそれぞれに対応する前記領域それぞれを前記変形イメージパッチに代替して少なくとも一つの変形トレーニングイメージ（ＴｒａｎｓｆｏｒｍｅｄＴｒａｉｎｉｎｇＩｍａｇｅ）を生成し、前記歩行者検出器をもって、前記変形トレーニングイメージ内に位置する前記変形歩行者を検出して学習用歩行者検出情報を生成させ、第１ロスレイヤをもって、前記それぞれの学習用歩行者検出情報とこれに対応する原本正解とを参照して少なくとも一つの第１ロスを算出させ、前記第１ロスを最小化するように前記歩行者検出器の少なくとも一つのパラメータのうち少なくとも一部を学習する段階；
を含むことを特徴とする方法。
前記（ｂ）段階で、
前記学習装置が、判別器（Ｄｉｓｃｒｉｍｉｎａｔｏｒ）をもって、前記それぞれの変形イメージパッチが前記それぞれの学習用歩行者であるそれぞれの確率を示す学習用歩行者スコア（ＰｅｄｅｓｔｒｉａｎＳｃｏｒｅ）それぞれを生成させ、前記学習用歩行者スコア及び前記第１ロスを最大化するように前記敵対的スタイル変換器の少なくとも一つのパラメータのうち少なくとも一部をさらに学習させることを特徴とする請求項１に記載の方法。
前記判別器は、（ｉ）少なくとも一つのコンボリューションレイヤと少なくとも一つのＦＣレイヤ（ＦｕｌｌｙＣｏｎｎｅｃｔｅｄＬａｙｅｒ）とを含むか、（ｉｉ）ＦＣＮ（ＦｕｌｌｙＣｏｎｖｏｌｕｔｉｏｎａｌＮｅｔｗｏｒｋ）を含むイメージ分類器（ＩｍａｇｅＣｌａｓｓｉｆｉｅｒ）であることを特徴とする請求項２に記載の方法。
前記（ｂ）段階で、
前記学習装置が、第２ロスレイヤをもって、前記それぞれの学習用歩行者スコアとこれに対応する原本正解とを参照して少なくとも一つの第２ロスを算出させ、前記第２ロスを最小化するように前記判別器の少なくとも一つのパラメータのうち少なくとも一部を学習させることを特徴とする請求項１に記載の方法。
前記敵対的スタイル変換器は、前記イメージパッチに対してコンボリューション演算を少なくとも一回適用する少なくとも一つのコンボリューションレイヤを有するエンコーダと、前記エンコーダから出力される少なくとも一つの特徴マップに対してデコンボリューション演算を少なくとも一回適用する少なくとも一つのデコンボリューションレイヤを有するデコーダとを含むことを特徴とする請求項１に記載の方法。
前記（ａ）段階で、
前記学習装置は、少なくとも１つの前記イメージパッチをリサイズ（Ｒｅｓｉｚｅ）して前記各イメージパッチが同一サイズを有するようにした後、前記敵対的スタイル変換器をもって同一サイズの前記変形イメージパッチを出力させ、
前記（ｂ）段階で、
前記学習装置は、前記同一サイズの前記変形イメージパッチをリサイズして前記変形イメージパッチそれぞれが変形する前の元のサイズになるようにした後、前記変形トレーニングイメージを生成させることを特徴とする請求項１に記載の方法。
前記トレーニングイメージは、（ｉ）監視カメラから取得された少なくとも一つのテストイメージ内に位置するテスト用歩行者を検出して前記バウンディングボックスを含むテスト用歩行者検出情報を出力する前記歩行者検出器、及び（ｉｉ）前記バウンディングボックスに対応するトゥルーラベル（ＴｒｕｅＬａｂｅｌ）を有する前記トレーニングイメージを格納するデータベースのうち一つから取得されることを特徴とする請求項１に記載の方法。
イメージ分析に基づいてロバストサーベイランス（ＲｏｂｕｓｔＳｕｒｖｅｉｌｌａｎｃｅ）に使用されるテスト用歩行者検出器（ＰｅｄｅｓｔｒｉａｎＤｅｔｅｃｔｏｒ）をテストする方法において、
（ａ）（１）学習装置が、少なくとも一つのトレーニングイメージ上に生成された学習用歩行者それぞれに対応する学習用バウンディングボックスそれぞれを有する前記トレーニングイメージ上で学習用バウンディングボックスそれぞれに対応する学習用領域それぞれをクロップ（Ｃｒｏｐ）して少なくとも一つの学習用イメージパッチ（ＩｍａｇｅＰａｔｃｈ）を生成し、敵対的スタイル変換器（ＡｄｖｅｒｓａｒｉａｌＳｔｙｌｅＴｒａｎｓｆｏｒｍｅｒ）をもって、前記学習用イメージパッチそれぞれに対応する前記学習用歩行者それぞれを、前記歩行者検出器による学習用検出を困難にし得る学習用変形歩行者それぞれに変換することによって少なくとも一つの学習用変形イメージパッチ（ＴｒａｎｓｆｏｒｍｅｄＩｍａｇｅＰａｔｃｈ）を生成させ、（２）前記学習装置が、前記トレーニングイメージ上で前記学習用バウンディングボックスそれぞれに対応する前記学習用領域それぞれを前記学習用変形イメージパッチに代替して少なくとも一つの変形トレーニングイメージ（ＴｒａｎｓｆｏｒｍｅｄＴｒａｉｎｉｎｇＩｍａｇｅ）を生成し、前記歩行者検出器をもって、前記変形トレーニングイメージ内に位置する前記学習用変形歩行者を検出して学習用歩行者検出情報を生成させ、第１ロスレイヤをもって、前記それぞれの学習用歩行者検出情報とこれに対応する原本正解とを参照して少なくとも一つの第１ロスを算出させ、前記第１ロスを最小化するように前記歩行者検出器の少なくとも一つのパラメータのうち少なくとも一部を学習した状態で、少なくとも一つのテストイメージに生成されたテスト用歩行者それぞれに対応するテスト用バウンディングボックスそれぞれを有する前記テストイメージが取得されると、テスト装置が、前記テストイメージ上で前記テスト用バウンディングボックスそれぞれに対応するテスト用領域それぞれをクロップして少なくとも一つのテスト用イメージパッチを生成し、前記敵対的スタイル変換器をもって、前記テスト用イメージパッチそれぞれに対応する前記テスト用歩行者それぞれを、前記歩行者検出器によるテスト用検出を困難にし得るテスト用変形歩行者それぞれに変換することによって少なくとも一つのテスト用変形イメージパッチを生成させる段階；及び
（ｂ）前記テスト装置が、前記テストイメージ上で前記テスト用バウンディングボックスそれぞれに対応する前記テスト用領域それぞれを前記テスト用変形イメージパッチに代替して少なくとも一つの変形テストイメージ（ＴｒａｎｓｆｏｒｍｅｄＴｅｓｔＩｍａｇｅ）を生成し、前記歩行者検出器をもって、前記変形テストイメージ内に位置する前記テスト用変形歩行者を検出してテスト用歩行者検出情報を生成させる段階；
を含むことを特徴とする方法。
前記（ｂ）段階で、
前記テスト装置は、判別器（Ｄｉｓｃｒｉｍｉｎａｔｏｒ）をもって、前記それぞれのテスト用変形イメージパッチが前記それぞれのテスト用歩行者であるそれぞれの確率を示すテスト用歩行者スコア（ＰｅｄｅｓｔｒｉａｎＳｃｏｒｅ）それぞれを生成させる請求項８に記載の方法。
前記判別器は、（ｉ）少なくとも一つのコンボリューションレイヤと少なくとも一つのＦＣレイヤ（ＦｕｌｌｙＣｏｎｎｅｃｔｅｄＬａｙｅｒ）とを含むか、（ｉｉ）ＦＣＮ（ＦｕｌｌｙＣｏｎｖｏｌｕｔｉｏｎａｌＮｅｔｗｏｒｋ）を含むイメージ分類器（ＩｍａｇｅＣｌａｓｓｉｆｉｅｒ）であることを特徴とする請求項９に記載の方法。
前記（２）プロセスで、
前記学習装置が、第２ロスレイヤをもって、前記それぞれの学習用歩行者スコアとこれに対応する原本正解とを参照して少なくとも一つの第２ロスを算出させ、前記第２ロスを最小化するように前記判別器の少なくとも一つのパラメータのうち少なくとも一部を学習させることを特徴とする請求項８に記載の方法。
前記敵対的スタイル変換器は、前記テスト用イメージパッチに対してコンボリューション演算を少なくとも一回適用する少なくとも一つのコンボリューションレイヤを有するエンコーダと、前記エンコーダから出力される少なくとも一つのテスト用特徴マップに対してデコンボリューション演算を少なくとも一回適用する少なくとも一つのデコンボリューションレイヤを有するデコーダとを含むことを特徴とする請求項８に記載の方法。
前記（ａ）段階で、
前記テスト装置は、少なくとも１つの前記テスト用イメージパッチをリサイズ（Ｒｅｓｉｚｅ）して前記各テスト用イメージパッチが同一サイズを有するようにした後、前記敵対的スタイル変換器をもって、同一サイズの前記テスト用変形イメージパッチを出力させ、
前記（ｂ）段階で、
前記テスト装置は、前記同一サイズの前記テスト用変形イメージパッチをリサイズして前記テスト用変形イメージパッチそれぞれが変形する前の元のサイズになるようにした後、前記変形テストイメージを生成させることを特徴とする請求項８に記載の方法。
前記トレーニングイメージは、（ｉ）監視カメラから取得された前記テストイメージ内に位置するテスト用歩行者を検出して前記テスト用バウンディングボックスを含むテスト用歩行者検出情報を出力する前記歩行者検出器、及び（ｉｉ）前記テスト用バウンディングボックスに対応するトゥルーラベル（ＴｒｕｅＬａｂｅｌ）を有する前記トレーニングイメージを格納するデータベースのうち一つから取得されることを特徴とする請求項８に記載の方法。
イメージ分析に基づいてロバストサーベイランス（ＲｏｂｕｓｔＳｕｒｖｅｉｌｌａｎｃｅ）に使用される歩行者検出器（ＰｅｄｅｓｔｒｉａｎＤｅｔｅｃｔｏｒ）を学習する装置において、
インストラクションを格納する少なくとも一つのメモリと、
（Ｉ）少なくとも一つのトレーニングイメージ上に生成された学習用歩行者それぞれに対応するバウンディングボックスそれぞれを有する前記トレーニングイメージが取得されると、前記トレーニングイメージ上で前記バウンディングボックスそれぞれに対応する領域それぞれをクロップ（Ｃｒｏｐ）して少なくとも一つのイメージパッチ（ＩｍａｇｅＰａｔｃｈ）を生成し、敵対的スタイル変換器（ＡｄｖｅｒｓａｒｉａｌＳｔｙｌｅＴｒａｎｓｆｏｒｍｅｒ）をもって、前記イメージパッチそれぞれに対応する前記学習用歩行者それぞれを、前記歩行者検出器による検出を困難にし得る変形歩行者それぞれに変換することによって少なくとも一つの変形イメージパッチ（ＴｒａｎｓｆｏｒｍｅｄＩｍａｇｅＰａｔｃｈ）を生成させるプロセス、及び（ＩＩ）前記トレーニングイメージ上で前記バウンディングボックスそれぞれに対応する前記領域それぞれを前記変形イメージパッチに代替して少なくとも一つの変形トレーニングイメージ（ＴｒａｎｓｆｏｒｍｅｄＴｒａｉｎｉｎｇＩｍａｇｅ）を生成し、前記歩行者検出器をもって、前記変形トレーニングイメージ内に位置する前記変形歩行者を検出して学習用歩行者検出情報を生成させ、第１ロスレイヤをもって、前記それぞれの学習用歩行者検出情報とこれに対応する原本正解とを参照して少なくとも一つの第１ロスを算出させ、前記第１ロスを最小化するように前記歩行者検出器の少なくとも一つのパラメータのうち少なくとも一部を学習するプロセスを遂行するための前記インストラクションを実行するように構成された少なくとも１つのプロセッサと、
を含むことを特徴とする装置。
前記（ＩＩ）プロセスで、
前記プロセッサが、判別器（Ｄｉｓｃｒｉｍｉｎａｔｏｒ）をもって、前記それぞれの変形イメージパッチが前記それぞれの学習用歩行者であるそれぞれの確率を示す学習用歩行者スコア（ＰｅｄｅｓｔｒｉａｎＳｃｏｒｅ）それぞれを生成させ、前記学習用歩行者スコア及び前記第１ロスを最大化するように前記敵対的スタイル変換器の少なくとも一つのパラメータのうち少なくとも一部をさらに学習させることを特徴とする請求項１５に記載の装置。
前記判別器は、（ｉ）少なくとも一つのコンボリューションレイヤと少なくとも一つのＦＣレイヤ（ＦｕｌｌｙＣｏｎｎｅｃｔｅｄＬａｙｅｒ）とを含むか、（ｉｉ）ＦＣＮ（ＦｕｌｌｙＣｏｎｖｏｌｕｔｉｏｎａｌＮｅｔｗｏｒｋ）を含むイメージ分類器（ＩｍａｇｅＣｌａｓｓｉｆｉｅｒ）であることを特徴とする請求項１６に記載の装置。
前記（ＩＩ）プロセスで、
前記プロセッサが、第２ロスレイヤをもって、前記それぞれの学習用歩行者スコアとこれに対応する原本正解とを参照して少なくとも一つの第２ロスを算出させ、前記第２ロスを最小化するように前記判別器の少なくとも一つのパラメータのうち少なくとも一部を学習させることを特徴とする請求項１５に記載の装置。
前記敵対的スタイル変換器は、前記イメージパッチに対してコンボリューション演算を少なくとも一回適用する少なくとも一つのコンボリューションレイヤを有するエンコーダと、前記エンコーダから出力される少なくとも一つの特徴マップに対してデコンボリューション演算を少なくとも一回適用する少なくとも一つのデコンボリューションレイヤを有するデコーダとを含むことを特徴とする請求項１５に記載の装置。
前記（Ｉ）プロセスで、
前記プロセッサは、少なくとも１つの前記イメージパッチをリサイズ（Ｒｅｓｉｚｅ）して前記各イメージパッチが同一サイズを有するようにした後、前記敵対的スタイル変換器をもって、同一サイズの前記変形イメージパッチを出力させ、
前記（ＩＩ）プロセスで、
前記プロセッサは、前記同一サイズの前記変形イメージパッチをリサイズして前記変形イメージパッチそれぞれが変形する前の元のサイズになるようにした後、前記変形トレーニングイメージを生成させることを特徴とする請求項１５に記載の装置。
前記トレーニングイメージは、（ｉ）監視カメラから取得された少なくとも一つのテストイメージ内に位置するテスト用歩行者を検出して前記バウンディングボックスを含むテスト用歩行者検出情報を出力する前記歩行者検出器、及び（ｉｉ）前記バウンディングボックスに対応するトゥルーラベル（ＴｒｕｅＬａｂｅｌ）を有する前記トレーニングイメージを格納するデータベースのうち一つから取得されることを特徴とする請求項１５に記載の装置。
イメージ分析に基づいてロバストサーベイランス（ＲｏｂｕｓｔＳｕｒｖｅｉｌｌａｎｃｅ）に使用されるテスト用歩行者検出器（ＰｅｄｅｓｔｒｉａｎＤｅｔｅｃｔｏｒ）のためのテスト装置において、
インストラクションを格納する少なくとも一つのメモリと、
（１）学習装置が、少なくとも一つのトレーニングイメージ上に生成された学習用歩行者それぞれに対応する学習用バウンディングボックスそれぞれを有する前記トレーニングイメージ上で学習用バウンディングボックスそれぞれに対応する学習用領域それぞれをクロップ（Ｃｒｏｐ）して少なくとも一つの学習用イメージパッチ（ＩｍａｇｅＰａｔｃｈ）を生成し、敵対的スタイル変換器（ＡｄｖｅｒｓａｒｉａｌＳｔｙｌｅＴｒａｎｓｆｏｒｍｅｒ）をもって、前記学習用イメージパッチそれぞれに対応する前記学習用歩行者それぞれを、前記歩行者検出器による学習用検出を困難にし得る学習用変形歩行者それぞれに変換することによって少なくとも一つの学習用変形イメージパッチ（ＴｒａｎｓｆｏｒｍｅｄＩｍａｇｅＰａｔｃｈ）を生成させ、（２）前記学習装置が、前記トレーニングイメージ上で前記学習用バウンディングボックスそれぞれに対応する前記学習用領域それぞれを前記学習用変形イメージパッチに代替して少なくとも一つの変形トレーニングイメージ（ＴｒａｎｓｆｏｒｍｅｄＴｒａｉｎｉｎｇＩｍａｇｅ）を生成し、前記歩行者検出器をもって、前記変形トレーニングイメージ内に位置する前記学習用変形歩行者を検出して学習用歩行者検出情報を生成させ、第１ロスレイヤをもって、前記それぞれの学習用歩行者検出情報とこれに対応する原本正解とを参照して少なくとも一つの第１ロスを算出させ、前記第１ロスを最小化するように前記歩行者検出器の少なくとも一つのパラメータのうち少なくとも一部を学習した状態で、（Ｉ）少なくとも一つのテストイメージに生成されたテスト用歩行者それぞれに対応するテスト用バウンディングボックスそれぞれを有する前記テストイメージが取得されると、前記テストイメージ上で前記テスト用バウンディングボックスそれぞれに対応するテスト用領域それぞれをクロップして少なくとも一つのテスト用イメージパッチを生成し、前記敵対的スタイル変換器をもって、前記テスト用イメージパッチそれぞれに対応する前記テスト用歩行者それぞれを、前記歩行者検出器によるテスト用検出を困難にし得るテスト用変形歩行者それぞれに変換することによって少なくとも一つのテスト用変形イメージパッチを生成させるプロセス、及び（ＩＩ）前記テストイメージ上で前記テスト用バウンディングボックスそれぞれに対応する前記テスト用領域それぞれを前記テスト用変形イメージパッチに代替して少なくとも一つの変形テストイメージ（ＴｒａｎｓｆｏｒｍｅｄＴｅｓｔＩｍａｇｅ）を生成し、前記歩行者検出器をもって、前記変形テストイメージ内に位置する前記テスト用変形歩行者を検出してテスト用歩行者検出情報を生成させるプロセスを遂行するための前記インストラクションを実行するように構成された少なくとも一つのプロセッサと、
を含むことを特徴とする装置。
前記（ＩＩ）プロセスで、
前記プロセッサは、判別器（Ｄｉｓｃｒｉｍｉｎａｔｏｒ）をもって、前記それぞれのテスト用変形イメージパッチが前記それぞれのテスト用歩行者であるそれぞれの確率を示すテスト用歩行者スコア（ＰｅｄｅｓｔｒｉａｎＳｃｏｒｅ）それぞれを生成させる請求項２２に記載の装置。
前記判別器は、（ｉ）少なくとも一つのコンボリューションレイヤと少なくとも一つのＦＣレイヤ（ＦｕｌｌｙＣｏｎｎｅｃｔｅｄＬａｙｅｒ）とを含むか、（ｉｉ）ＦＣＮ（ＦｕｌｌｙＣｏｎｖｏｌｕｔｉｏｎａｌＮｅｔｗｏｒｋ）を含むイメージ分類器（ＩｍａｇｅＣｌａｓｓｉｆｉｅｒ）であることを特徴とする請求項２３に記載の装置。
前記（２）プロセスで、
前記学習装置が、第２ロスレイヤをもって、前記それぞれの学習用歩行者スコアとこれに対応する原本正解とを参照して少なくとも一つの第２ロスを算出させ、前記第２ロスを最小化するように前記判別器の少なくとも一つのパラメータのうち少なくとも一部を学習させることを特徴とする請求項２２に記載の装置。
前記敵対的スタイル変換器は、前記テスト用イメージパッチに対してコンボリューション演算を少なくとも一回適用する少なくとも一つのコンボリューションレイヤを有するエンコーダと、前記エンコーダから出力される少なくとも一つのテスト用特徴マップに対してデコンボリューション演算を少なくとも一回適用する少なくとも一つのデコンボリューションレイヤを有するデコーダとを含むことを特徴とする請求項２２に記載の装置。
前記（Ｉ）プロセスで、
前記プロセッサは、少なくとも１つの前記テスト用イメージパッチをリサイズ（Ｒｅｓｉｚｅ）して前記各テスト用イメージパッチが同一サイズを有するようにした後、前記敵対的スタイル変換器をもって、同一サイズの前記テスト用変形イメージパッチを出力させ、
前記（ＩＩ）プロセスで、
前記プロセッサは、前記同一サイズの前記テスト用変形イメージパッチをリサイズして前記テスト用変形イメージパッチそれぞれが変形する前の元のサイズになるようにした後、前記変形テストイメージを生成させることを特徴とする請求項２２に記載の装置。
前記トレーニングイメージは、（ｉ）監視カメラから取得された前記テストイメージ内に位置するテスト用歩行者を検出して前記テスト用バウンディングボックスを含むテスト用歩行者検出情報を出力する前記歩行者検出器、及び（ｉｉ）前記テスト用バウンディングボックスに対応するトゥルーラベル（ＴｒｕｅＬａｂｅｌ）を有する前記トレーニングイメージを格納するデータベースのうち一つから取得されることを特徴とする請求項２２に記載の装置。