JP2020119558A - イメージ分析に基づいたロバストサーベイランスのための歩行者検出器の学習方法及び学習装置、そしてそれを利用するテスト方法及びテスト装置 - Google Patents

イメージ分析に基づいたロバストサーベイランスのための歩行者検出器の学習方法及び学習装置、そしてそれを利用するテスト方法及びテスト装置 Download PDF

Info

Publication number
JP2020119558A
JP2020119558A JP2020004614A JP2020004614A JP2020119558A JP 2020119558 A JP2020119558 A JP 2020119558A JP 2020004614 A JP2020004614 A JP 2020004614A JP 2020004614 A JP2020004614 A JP 2020004614A JP 2020119558 A JP2020119558 A JP 2020119558A
Authority
JP
Japan
Prior art keywords
image
test
learning
pedestrian
deformed
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2020004614A
Other languages
English (en)
Other versions
JP6901802B2 (ja
Inventor
ゲヒョン キム
Kye-Hyeon Kim
ゲヒョン キム
ヨンジュン キム
Yong-Jun Kim
ヨンジュン キム
インス キム
Insu Kim
インス キム
ハクギョン キム
Hak Kyoung Kim
ハクギョン キム
ウンヒョン ナム
Woonhyun Nam
ウンヒョン ナム
ソクフン ブ
Sukhoon Boo
ソクフン ブ
ミョンチョル ソン
Myungchul Sung
ミョンチョル ソン
ドンフン ヨ
Donghun Yeo
ドンフン ヨ
ウジュ リュ
Wooju Ryu
ウジュ リュ
テウン ジャン
Taewoong Jang
テウン ジャン
ギョンジュン ジョン
Kyungjoong Jeong
ギョンジュン ジョン
ホンモ ジェ
Hongmo Je
ホンモ ジェ
ホジン ジョ
Hojin Cho
ホジン ジョ
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Stradvision Inc
Original Assignee
Stradvision Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Stradvision Inc filed Critical Stradvision Inc
Publication of JP2020119558A publication Critical patent/JP2020119558A/ja
Application granted granted Critical
Publication of JP6901802B2 publication Critical patent/JP6901802B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/103Static body considered as a whole, e.g. static pedestrian or occupant recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/44Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
    • G06V10/443Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components by matching or filtering
    • G06V10/449Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters
    • G06V10/451Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters with interaction between the filter responses, e.g. cortical complex cells
    • G06V10/454Integrating the filters into a hierarchical structure, e.g. convolutional neural networks [CNN]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N7/00Computing arrangements based on specific mathematical models
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T3/00Geometric image transformations in the plane of the image
    • G06T3/40Scaling of whole images or parts thereof, e.g. expanding or contracting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/10Segmentation; Edge detection
    • G06T7/11Region-based segmentation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/764Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/50Context or environment of the image
    • G06V20/56Context or environment of the image exterior to a vehicle by using sensors mounted on the vehicle
    • G06V20/58Recognition of moving objects or obstacles, e.g. vehicles or pedestrians; Recognition of traffic objects, e.g. traffic signs, traffic lights or roads
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/20Movements or behaviour, e.g. gesture recognition
    • G06V40/23Recognition of whole body movements, e.g. for sport training
    • G06V40/25Recognition of walking or running movements, e.g. gait recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20081Training; Learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/30Subject of image; Context of image processing
    • G06T2207/30196Human being; Person
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2210/00Indexing scheme for image generation or computer graphics
    • G06T2210/12Bounding box

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Multimedia (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Data Mining & Analysis (AREA)
  • Software Systems (AREA)
  • Computing Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • Biomedical Technology (AREA)
  • Molecular Biology (AREA)
  • Mathematical Physics (AREA)
  • Computational Linguistics (AREA)
  • Biophysics (AREA)
  • Human Computer Interaction (AREA)
  • Databases & Information Systems (AREA)
  • Medical Informatics (AREA)
  • Biodiversity & Conservation Biology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Psychiatry (AREA)
  • Social Psychology (AREA)
  • Algebra (AREA)
  • Computational Mathematics (AREA)
  • Mathematical Analysis (AREA)
  • Mathematical Optimization (AREA)
  • Pure & Applied Mathematics (AREA)
  • Image Analysis (AREA)
  • Image Processing (AREA)

Abstract

【課題】歩行者の検出率を向上させることができる歩行者検出器の学習方法及び学習装置、そしてそれを利用するテスト方法及びテスト装置を提供する。【解決手段】イメージ分析に基づいてロバストサーベイランスに使用される歩行者検出器を学習する方法において、学習装置100は、トレーニングイメージ11上の領域それぞれをクロップしてイメージパッチx12を生成しS1、敵対的スタイル変換器130をもって、歩行者それぞれを検出を困難にする変形歩行者R−1(G(x))に変換することによって変形イメージパッチG(x)13を生成させS2、領域それぞれを変形イメージパッチに代替して変形トレーニングイメージ14を生成しS3、歩行者検出器140をもって変形歩行者を検出させ、ロスを最小化するように歩行者検出器のパラメータを学習するS4。【選択図】図2

Description

本発明は、自律走行車両に使用する学習方法及び学習装置、そしてテスト方法及びテスト装置に関し、より詳細には、GANを利用したイメージ分析に基づいたロバストサーベイランス(Robust Surveillance)に使用される歩行者検出器(Pedestrian Detector)を学習する方法及び学習装置、そしてそれを利用したテスト方法及びテスト装置に関する。
機械学習(Machine Learning)においてコンボリューションニューラルネットワーク(Convolutional Neural Network;CNN又はConvNet)は、視覚的イメージの分析に成功裏に適用されてきたディープフィードフォワード人工ニューラルネットワーク(Deep,Feed−Forward Artificial Neural Network)の一つのクラス(Class)である。
このようなCNN基盤の物体検出器は、(i)少なくとも一つのコンボリューションレイヤをもって、入力イメージに対してコンボリューション演算を適用して入力イメージに対応する特徴マップを生成させ、(ii)RPN(Region Proposal Network)をもって、特徴マップを利用して入力イメージ内の物体に対応するプロポーザルを生成させた後、(iii)プーリングレイヤ(Pooling Layer)をもって、プロポーザルに対応する特徴マップ上の領域に対してプーリング演算を適用させて少なくとも一つのプーリング済み特徴マップを生成し、(iv)FCレイヤ(Fully Connected Layer)をもって、取得されたプーリング済み特徴マップに対してFC演算(Fully Connected Operation)を少なくとも一回適用させて物体に関するクラス情報(Class Information)とリグレッション情報(Regression Information)とを出力させることで、これを通じて入力イメージ上の物体を検出させる。
最近では、このような物体検出器を利用した監視システムが開発されている。従来の監視システムは、監視カメラから入力されるイメージから物体である歩行者を検出するように特化された歩行者検出器(Pedestrian Detector)を利用しており、ヘアスタイル、服のテクスチャパターン及び形などを参照して歩行者を検出している。
しかしながら、従来の歩行者検出器は、トレーニングデータで接することができなかった独特なスタイル及び/又はパターンをした歩行者、暗い道端で黒い服を着た歩行者のように、周囲の背景と同じような歩行者等の事例においては、正確に歩行者を検出することができないという問題点がある。歩行者がこのような欠陥を理解して自らの存在を意図的に隠蔽及び掩蔽しようとする場合、監視システムに深刻な問題が発生するようになる。
したがって、従来の歩行者検出器が歩行者検出に失敗した場合、モニタリングの人員が失敗した事例に関するトレーニングデータを追加することによってトレーニングデータの範囲を向上させた後、周期的に歩行者検出器を再学習しなければならない。
しかし、歩行者検出器を周期的に再学習することによって検出失敗事例を予防するのは不可能であり、検出に失敗した事例が発生するたびにそれを補完するために再学習を遂行しなければならない短所があり、未検出か否かをモニタリングするための別途の人員が必要となる短所がある。
また、検出失敗事例に関する再学習を遂行するための適切なトレーニングデータを確保することにも困難がある。
本発明は、上述した問題点を全て解決することをその目的とする。
本発明は、トレーニングデータの範囲を拡張させることを他の目的とする。
本発明は、未検出の事例をモニタリングするための別途の人員を減らすことをまた他の目的とする。
本発明は、未検出の事例に対する適切なトレーニングを通じて、監視システムの性能を改善し得るようにすることをまた他の目的とする。
前記のような本発明の目的を達成し、後述する本発明の特徴的な効果を実現するための本発明の特徴的な構成は下記のとおりである。
本発明の一実施例によると、イメージ分析に基づいてロバストサーベイランス(Robust Surveillance)に使用される歩行者検出器(Pedestrian Detector)を学習する方法において、(a)少なくとも一つのトレーニングイメージ上に生成された学習用歩行者それぞれに対応するバウンディングボックスそれぞれを有する前記トレーニングイメージが取得されると、学習装置が、前記トレーニングイメージ上で前記バウンディングボックスそれぞれに対応する領域それぞれをクロップ(Crop)して少なくとも一つのイメージパッチ(Image Patch)を生成し、敵対的スタイル変換器(Adversarial Style Transformer)をもって、前記イメージパッチそれぞれに対応する前記学習用歩行者それぞれを、前記歩行者検出器による検出を困難にし得る変形歩行者それぞれに変換することによって少なくとも一つの変形イメージパッチ(Transformed Image Patch)を生成させる段階;及び(b)前記学習装置が、前記トレーニングイメージ上で前記バウンディングボックスそれぞれに対応する前記領域それぞれを前記変形イメージパッチに代替して少なくとも一つの変形トレーニングイメージ(Transformed Training Image)を生成し、前記歩行者検出器をもって、前記変形トレーニングイメージ内に位置する前記変形歩行者を検出して学習用歩行者検出情報を生成させ、第1ロスレイヤをもって、前記それぞれの学習用歩行者検出情報とこれに対応する原本正解とを参照して少なくとも一つの第1ロスを算出させ、前記第1ロスを最小化するように前記歩行者検出器の少なくとも一つのパラメータのうち少なくとも一部を学習する段階;を含むことを特徴とする。
一実施例において、前記(b)段階で、前記学習装置が判別器(Discriminator)をもって、前記それぞれの変形イメージパッチが前記それぞれの学習用歩行者であるそれぞれの確率を示す学習用歩行者スコア(Pedestrian Score)それぞれを生成させ、前記学習用歩行者スコア及び前記第1ロスを最大化するように前記敵対的スタイル変換器の少なくとも一つのパラメータのうち少なくとも一部をさらに学習させることを特徴とする。
一実施例において、前記判別器は、(i)少なくとも一つのコンボリューションレイヤと少なくとも一つのFCレイヤ(Fully Connected Layer)とを含むか、(ii)FCN(Fully Convolutional Network)を含むイメージ分類器(Image Classifier)であることを特徴とする。
一実施例において、前記(b)段階で、前記学習装置が、第2ロスレイヤをもって、前記それぞれの学習用歩行者スコアとこれに対応する原本正解とを参照して少なくとも一つの第2ロスを算出させ、前記第2ロスを最小化するように前記判別器の少なくとも一つのパラメータのうち少なくとも一部を学習させることを特徴とする。
一実施例において、前記敵対的スタイル変換器は、前記イメージパッチに対してコンボリューション演算を少なくとも一回適用する少なくとも一つのコンボリューションレイヤを有するエンコーダと、前記エンコーダから出力される少なくとも一つの特徴マップに対してデコンボリューション演算を少なくとも一回適用する少なくとも一つのデコンボリューションレイヤを有するデコーダとを含むことを特徴とする。
一実施例において、前記(a)段階で、前記学習装置は、少なくとも1つの前記イメージパッチをリサイズ(Resize)して前記各イメージパッチが同一サイズを有するようにした後、前記敵対的スタイル変換器をもって同一サイズの前記変形イメージパッチを出力させ、前記(b)段階で、前記学習装置は、前記同一サイズの前記変形イメージパッチをリサイズして前記変形イメージパッチそれぞれが変形する前の元のサイズになるようにした後、前記変形トレーニングイメージを生成させることを特徴とする。
一実施例において、前記トレーニングイメージは、(i)監視カメラから取得された少なくとも一つのテストイメージ内に位置するテスト用歩行者を検出して前記バウンディングボックスを含むテスト用歩行者検出情報を出力する前記歩行者検出器、及び(ii)前記バウンディングボックスに対応するトゥルーラベル(True Label)を有する前記トレーニングイメージを格納するデータベースのうち一つから取得されることを特徴とする。
本発明の他の態様によると、イメージ分析に基づいてロバストサーベイランス(Robust Surveillance)に使用されるテスト用歩行者検出器(Pedestrian Detector)をテストする方法において、(a)(1)学習装置が、少なくとも一つのトレーニングイメージ上に生成された学習用歩行者それぞれに対応する学習用バウンディングボックスそれぞれを有する前記トレーニングイメージ上で学習用バウンディングボックスそれぞれに対応する学習用領域それぞれをクロップ(Crop)して少なくとも一つの学習用イメージパッチ(Image Patch)を生成し、敵対的スタイル変換器(Adversarial Style Transformer)をもって、前記学習用イメージパッチそれぞれに対応する前記学習用歩行者それぞれを、前記歩行者検出器による学習用検出を困難にし得る学習用変形歩行者それぞれに変換することによって少なくとも一つの学習用変形イメージパッチ(Transformed Image Patch)を生成させ、(2)前記学習装置が、前記トレーニングイメージ上で前記学習用バウンディングボックスそれぞれに対応する前記学習用領域それぞれを前記学習用変形イメージパッチに代替して少なくとも一つの変形トレーニングイメージ(Transformed Training Image)を生成し、前記歩行者検出器をもって、前記変形トレーニングイメージ内に位置する前記学習用変形歩行者を検出して学習用歩行者検出情報を生成させ、第1ロスレイヤをもって、前記それぞれの学習用歩行者検出情報とこれに対応する原本正解とを参照して少なくとも一つの第1ロスを算出させ、前記第1ロスを最小化するように前記歩行者検出器の少なくとも一つのパラメータのうち少なくとも一部を学習した状態で、少なくとも一つのテストイメージに生成されたテスト用歩行者それぞれに対応するテスト用バウンディングボックスそれぞれを有する前記テストイメージが取得されると、テスト装置が、前記テストイメージ上で前記テスト用バウンディングボックスそれぞれに対応するテスト用領域それぞれをクロップして少なくとも一つのテスト用イメージパッチを生成し、前記敵対的スタイル変換器をもって、前記テスト用イメージパッチそれぞれに対応する前記テスト用歩行者それぞれを、前記歩行者検出器によるテスト用検出を困難にし得るテスト用変形歩行者それぞれに変換することによって少なくとも一つのテスト用変形イメージパッチを生成させる段階;及び(b)前記テスト装置が、前記テストイメージ上で前記テスト用バウンディングボックスそれぞれに対応する前記テスト用領域それぞれを前記テスト用変形イメージパッチに代替して少なくとも一つの変形テストイメージ(Transformed Test Image)を生成し、前記歩行者検出器をもって、前記変形テストイメージ内に位置する前記テスト用変形歩行者を検出してテスト用歩行者検出情報を生成させる段階;を含むことを特徴とする。
一実施例において、前記(b)段階で、前記テスト装置は、判別器(Discriminator)をもって、前記それぞれのテスト用変形イメージパッチが前記それぞれのテスト用歩行者であるそれぞれの確率を示すテスト用歩行者スコア(Pedestrian Score)それぞれを生成させる。
一実施例において、前記判別器は、(i)少なくとも一つのコンボリューションレイヤと少なくとも一つのFCレイヤ(Fully Connected Layer)とを含むか、(ii)FCN(Fully Convolutional Network)を含むイメージ分類器(Image Classifier)であることを特徴とする。
一実施例において、前記(2)プロセスで、前記学習装置が第2ロスレイヤをもって、前記それぞれの学習用歩行者スコアとこれに対応する原本正解とを参照して少なくとも一つの第2ロスを算出させ、前記第2ロスを最小化するように前記判別器の少なくとも一つのパラメータのうち少なくとも一部を学習させることを特徴とする。
一実施例において、前記敵対的スタイル変換器は、前記テスト用イメージパッチに対してコンボリューション演算を少なくとも一回適用する少なくとも一つのコンボリューションレイヤを有するエンコーダと、前記エンコーダから出力される少なくとも一つのテスト用特徴マップに対してデコンボリューション演算を少なくとも一回適用する少なくとも一つのデコンボリューションレイヤを有するデコーダとを含むことを特徴とする。
一実施例において、前記(a)段階で、前記テスト装置は、少なくとも1つの前記テスト用イメージパッチをリサイズ(Resize)して前記各テスト用イメージパッチが同一サイズを有するようにした後、前記敵対的スタイル変換器をもって、同一サイズの前記テスト用変形イメージパッチを出力させ、前記(b)段階で、前記テスト装置は、前記同一サイズの前記テスト用変形イメージパッチをリサイズして前記テスト用変形イメージパッチそれぞれが変形する前の元のサイズになるようにした後、前記変形テストイメージを生成させることを特徴とする。
一実施例において、前記トレーニングイメージは、(i)監視カメラから取得された前記テストイメージ内に位置するテスト用歩行者を検出して前記テスト用バウンディングボックスを含むテスト用歩行者検出情報を出力する前記歩行者検出器、及び(ii)前記テスト用バウンディングボックスに対応するトゥルーラベル(True Label)を有する前記トレーニングイメージを格納するデータベースのうち一つから取得されることを特徴とする。
本発明のまた他の態様によると、イメージ分析に基づいてロバストサーベイランス(Robust Surveillance)に使用される歩行者検出器(Pedestrian Detector)を学習する装置において、インストラクションを格納する少なくとも一つのメモリと、(I)少なくとも一つのトレーニングイメージ上に生成された学習用歩行者それぞれに対応するバウンディングボックスそれぞれを有する前記トレーニングイメージが取得されると、前記トレーニングイメージ上で前記バウンディングボックスそれぞれに対応する領域それぞれをクロップ(Crop)して少なくとも一つのイメージパッチ(Image Patch)を生成し、敵対的スタイル変換器(Adversarial Style Transformer)をもって、前記イメージパッチそれぞれに対応する前記学習用歩行者それぞれを、前記歩行者検出器による検出を困難にし得る変形歩行者それぞれに変換することによって少なくとも一つの変形イメージパッチ(Transformed Image Patch)を生成させるプロセス、及び(II)前記トレーニングイメージ上で前記バウンディングボックスそれぞれに対応する前記領域それぞれを前記変形イメージパッチに代替して少なくとも一つの変形トレーニングイメージ(Transformed Training Image)を生成し、前記歩行者検出器をもって、前記変形トレーニングイメージ内に位置する前記変形歩行者を検出して学習用歩行者検出情報を生成させ、第1ロスレイヤをもって、前記それぞれの学習用歩行者検出情報とこれに対応する原本正解とを参照して少なくとも一つの第1ロスを算出させ、前記第1ロスを最小化するように前記歩行者検出器の少なくとも一つのパラメータのうち少なくとも一部を学習するプロセスを遂行するための前記インストラクションを実行するように構成された少なくとも1つのプロセッサと、を含むことを特徴とする。
一実施例において、前記(II)プロセスで、前記プロセッサが、判別器(Discriminator)をもって、前記それぞれの変形イメージパッチが前記それぞれの学習用歩行者であるそれぞれの確率を示す学習用歩行者スコア(Pedestrian Score)それぞれを生成させ、前記学習用歩行者スコア及び前記第1ロスを最大化するように前記敵対的スタイル変換器の少なくとも一つのパラメータのうち少なくとも一部をさらに学習させることを特徴とする。
一実施例において、前記判別器は、(i)少なくとも一つのコンボリューションレイヤと少なくとも一つのFCレイヤ(Fully Connected Layer)とを含むか、(ii)FCN(Fully Convolutional Network)を含むイメージ分類器(Image Classifier)であることを特徴とする。
一実施例において、前記(II)プロセスで、前記プロセッサが第2ロスレイヤをもって、前記それぞれの学習用歩行者スコアとこれに対応する原本正解とを参照して少なくとも一つの第2ロスを算出させ、前記第2ロスを最小化するように前記判別器の少なくとも一つのパラメータのうち少なくとも一部を学習させることを特徴とする。
一実施例において、前記敵対的スタイル変換器は、前記イメージパッチに対してコンボリューション演算を少なくとも一回適用する少なくとも一つのコンボリューションレイヤを有するエンコーダと、前記エンコーダから出力される少なくとも一つの特徴マップに対してデコンボリューション演算を少なくとも一回適用する少なくとも一つのデコンボリューションレイヤを有するデコーダとを含むことを特徴とする。
一実施例において、前記(I)プロセスで、前記プロセッサは、少なくとも1つの前記イメージパッチをリサイズ(Resize)して前記各イメージパッチが同一サイズを有するようにした後、前記敵対的スタイル変換器をもって、同一サイズの前記変形イメージパッチを出力させ、前記(II)プロセスで、前記プロセッサは、前記同一サイズの前記変形イメージパッチをリサイズして前記変形イメージパッチそれぞれが変形する前の元のサイズになるようにした後、前記変形トレーニングイメージを生成させることを特徴とする。
一実施例において、前記トレーニングイメージは、(i)前記監視カメラから取得された少なくとも一つのテストイメージ内に位置するテスト用歩行者を検出して前記バウンディングボックスを含むテスト用歩行者検出情報を出力する前記歩行者検出器、及び(ii)前記バウンディングボックスに対応するトゥルーラベル(True Label)を有する前記トレーニングイメージを格納するデータベースのうち一つから取得されることを特徴とする。
本発明のまた他の態様によると、イメージ分析に基づいてロバストサーベイランス(Robust Surveillance)に使用されるテスト用歩行者検出器(Pedestrian Detector)のためのテスト装置において、インストラクションを格納する少なくとも一つのメモリと、(1)学習装置が、少なくとも一つのトレーニングイメージ上に生成された学習用歩行者それぞれに対応する学習用バウンディングボックスそれぞれを有する前記トレーニングイメージ上で学習用バウンディングボックスそれぞれに対応する学習用領域それぞれをクロップ(Crop)して少なくとも一つの学習用イメージパッチ(Image Patch)を生成し、敵対的スタイル変換器(Adversarial Style Transformer)をもって、前記学習用イメージパッチそれぞれに対応する前記学習用歩行者それぞれを、前記歩行者検出器による学習用検出を困難にし得る学習用変形歩行者それぞれに変換することによって少なくとも一つの学習用変形イメージパッチ(Transformed Image Patch)を生成させ、(2)前記学習装置が、前記トレーニングイメージ上で前記学習用バウンディングボックスそれぞれに対応する前記学習用領域それぞれを前記学習用変形イメージパッチに代替して少なくとも一つの変形トレーニングイメージ(Transformed Training Image)を生成し、前記歩行者検出器をもって、前記変形トレーニングイメージ内に位置する前記学習用変形歩行者を検出して学習用歩行者検出情報を生成させ、第1ロスレイヤをもって、前記それぞれの学習用歩行者検出情報とこれに対応する原本正解とを参照して少なくとも一つの第1ロスを算出させ、前記第1ロスを最小化するように前記歩行者検出器の少なくとも一つのパラメータのうち少なくとも一部を学習した状態で、(I)少なくとも一つのテストイメージに生成されたテスト用歩行者それぞれに対応するテスト用バウンディングボックスそれぞれを有する前記テストイメージが取得されると、前記テストイメージ上で前記テスト用バウンディングボックスそれぞれに対応するテスト用領域それぞれをクロップして少なくとも一つのテスト用イメージパッチを生成し、前記敵対的スタイル変換器をもって、前記テスト用イメージパッチそれぞれに対応する前記テスト用歩行者それぞれを、前記歩行者検出器によるテスト用検出を困難にし得るテスト用変形歩行者それぞれに変換することによって少なくとも一つのテスト用変形イメージパッチを生成させるプロセス、及び(II)前記テストイメージ上で前記テスト用バウンディングボックスそれぞれに対応する前記テスト用領域それぞれを前記テスト用変形イメージパッチに代替して少なくとも一つの変形テストイメージ(Transformed Test Image)を生成し、前記歩行者検出器をもって、前記変形テストイメージ内に位置する前記テスト用変形歩行者を検出してテスト用歩行者検出情報を生成させるプロセスを遂行するための前記インストラクションを実行するように構成された少なくとも一つのプロセッサと、を含むことを特徴とする。
一実施例において、前記(II)プロセスで、前記プロセッサは、判別器(Discriminator)をもって、前記それぞれのテスト用変形イメージパッチが前記それぞれのテスト用歩行者であるそれぞれの確率を示すテスト用歩行者スコア(Pedestrian Score)それぞれを生成させる。
一実施例において、前記判別器は、(i)少なくとも一つのコンボリューションレイヤと少なくとも一つのFCレイヤ(Fully Connected Layer)とを含むか、(ii)FCN(Fully Convolutional Network)を含むイメージ分類器(Image Classifier)であることを特徴とする。
一実施例において、前記(2)プロセスで、前記学習装置が、第2ロスレイヤをもって、前記それぞれの学習用歩行者スコアとこれに対応する原本正解とを参照して少なくとも一つの第2ロスを算出させ、前記第2ロスを最小化するように前記判別器の少なくとも一つのパラメータのうち少なくとも一部を学習させることを特徴とする。
一実施例において、前記敵対的スタイル変換器は、前記テスト用イメージパッチに対してコンボリューション演算を少なくとも一回適用する少なくとも一つのコンボリューションレイヤを有するエンコーダと、前記エンコーダから出力される少なくとも一つのテスト用特徴マップに対してデコンボリューション演算を少なくとも一回適用する少なくとも一つのデコンボリューションレイヤを有するデコーダとを含むことを特徴とする。
一実施例において、前記(I)プロセスで、前記プロセッサは、少なくとも1つの前記テスト用イメージパッチをリサイズ(Resize)して前記各テスト用イメージパッチが同一サイズを有するようにした後、前記敵対的スタイル変換器をもって、同一サイズの前記テスト用変形イメージパッチを出力させ、前記(II)プロセスで、前記プロセッサは、前記同一サイズの前記テスト用変形イメージパッチをリサイズして前記テスト用変形イメージパッチそれぞれが変形する前の元のサイズになるようにした後、前記変形テストイメージを生成させることを特徴とする。
一実施例において、前記トレーニングイメージは、(i)監視カメラから取得された前記テストイメージ内に位置するテスト用歩行者を検出して前記テスト用バウンディングボックスを含むテスト用歩行者検出情報を出力する前記歩行者検出器、及び(ii)前記テスト用バウンディングボックスに対応するトゥルーラベル(True Label)を有する前記トレーニングイメージを格納するデータベースのうち一つから取得されることを特徴とする。
その他にも、本発明の方法を実行するためのコンピュータプログラムを格納するためのコンピュータ読取り可能な記録媒体がさらに提供される。
本発明は、歩行者検出が容易であるイメージを歩行者検出が難しいイメージに変換して未検出の事例に関する学習を行うことによって、歩行者検出器テストの際に未検出の事例と類似する事例が発生した場合、歩行者検出器の検出率を向上させ得る効果がある。
また、本発明は、未検出事例に対応する多様なトレーニングデータを生成することができるため、検出が難しい事例に対する十分なトレーニングデータを確保することができる他の効果がある。
また、本発明は、検出が困難な事例に対する適切なトレーニングデータを学習することで未検出事例が発生する確率を最小化することによって、未検出事例をモニタリングするための別途の人員が必要でなくなり、監視システムの維持費用を最小化することができる、また他の効果がある。
本発明の実施例の説明に利用されるために添付された以下の各図面は、本発明の実施例のうち単に一部であるに過ぎず、本発明の属する技術分野において通常の知識を有する者(以下「通常の技術者」)にとっては、発明的作業が行われずにこれらの図面に基づいて他の各図面が得られ得る。
図1は、本発明の一実施例にしたがって、イメージ分析に基づいてロバストサーベイランス(Robust Surveillance)に使用される歩行者検出器(Pedestrian Detector)を学習する学習装置を簡略に示したものであり、 図2は、本発明の一実施例にしたがって、イメージ分析に基づいてロバストサーベイランスに使用される歩行者検出器を学習する方法を簡略に示したものであり、 図3は、本発明の一実施例にしたがって、イメージ分析に基づいてロバストサーベイランスに使用される歩行者検出器を学習する方法において少なくとも一つのトレーニングイメージを取得するプロセスを簡略に示したものであり、 図4は、本発明の一実施例にしたがって、イメージ分析に基づいてロバストサーベイランスに使用される歩行者検出器を簡略に示したものであり、 図5は、本発明の一実施例にしたがって、イメージ分析に基づいてロバストサーベイランスに使用される歩行者検出器を学習する方法において、敵対的スタイル変換器(Adversarial Style Transformer)を学習するプロセスを簡略に示したものであり、 図6は、本発明の一実施例にしたがって、イメージ分析に基づいてロバストサーベイランスに使用される歩行者検出器を学習する方法において、判別器(Discriminator)を学習するプロセスを簡略に示したものであり、 図7は、本発明の一実施例にしたがって、イメージ分析に基づいてロバストサーベイランスに使用される歩行者検出器をテストするテスト装置を簡略に示したものであり、 図8は、本発明の一実施例にしたがって、イメージ分析に基づいてロバストサーベイランスに使用される歩行者検出器を利用して、少なくとも一つの歩行者を検出するプロセスを簡略に示したものである。
後述する本発明に対する詳細な説明は、本発明の各目的、技術的解決方法及び長所を明確にするために、本発明が実施され得る特定の実施例を例示として示す添付図面を参照する。これらの実施例は、通常の技術者が本発明を実施することができるように充分詳細に説明される。
また、本発明の詳細な説明及び各請求項にわたって、「含む」という単語及びそれらの変形は、他の技術的各特徴、各付加物、構成要素又は段階を除外することを意図したものではない。通常の技術者にとって本発明の他の各目的、長所及び各特性が、一部は、本説明書から、また一部は、本発明の実施から明らかになるであろう。以下の例示及び図面は実例として提供され、本発明を限定することを意図したものではない。
さらに、本発明は、本明細書に示された実施例のすべての可能な組合せを網羅する。本発明の多様な実施例は互いに異なるが、相互に排他的である必要はないことが理解されるべきである。例えば、ここに記載されている特定の形状、構造及び特性は、一実施例に関連して本発明の精神及び範囲を逸脱せず、かつ他の実施例で具現され得る。また、それぞれの開示された実施例内の個別の構成要素の位置又は配置は、本発明の精神及び範囲を逸脱せず、かつ変更され得ることが理解されるべきである。したがって、後述の詳細な説明は、限定的な意味として受け取ろうとするものではなく、本発明の範囲は適切に説明されるのであれば、その請求項が主張することと均等な全ての範囲とともに添付された請求項によってのみ限定される。図面において類似の参照符号は、様々な側面にわたって同一であるか、又は類似の機能を指す。
以下、本発明の属する技術分野において通常の知識を有する者が本発明を容易に実施し得るようにするために、本発明の好ましい実施例について、添付された図面を参照して詳細に説明することにする。
図1は、本発明の一実施例にしたがって、イメージ分析に基づいてロバストサーベイランス(Robust Surveillance)に使用される歩行者検出器(Pedestrian Detector)を学習する学習装置を簡略に示したものである。図1を参照すると、学習装置100は、歩行者検出器(Pedestrian Detector)を学習するためのインストラクション(Instruction)を格納するメモリ110と、メモリ110に格納されたインストラクションに対応するプロセスを遂行して歩行者検出器を学習するプロセッサ120とを含むことができる。
具体的に、学習装置100は、典型的に少なくとも一つのコンピューティング装置(例えば、コンピュータプロセッサ、メモリ、ストレージ、入力装置及び出力装置、その他従来のコンピューティング構成要素を含み得る装置;ルータ、スイッチなどのような電子通信装置;ネットワーク接続ストレージ(NAS)及びストレージ領域ネットワーク(SAN)のような電子情報ストレージシステム)と少なくとも一つのコンピュータソフトウェア(つまり、コンピューティング装置をもって特定の方式で機能させるインストラクション)との組み合わせを利用して所望のシステム性能を達成するものであり得る。
コンピューティング装置のプロセッサは、MPU(Micro Processing Unit)又はCPU(Central Processing Unit)、キャッシュメモリ(Cache Memory)、データバス(Data Bus)などのハードウェア構成を含むことができる。また、コンピューティング装置は、オペレーティングシステム、特定の目的を遂行するアプリケーションのソフトウェア構成をさらに含むこともできる。
コンピューティング装置のプロセッサが、本発明を実施するためのプロセッサ、ミディアム、又は他のコンピューティング構成要素のうちいずれかの組み合わせを含む統合装置(Integrated Device)を排除するわけではない。
このように構成された本発明の一実施例による学習装置100を利用して、イメージ分析に基づいてロバストサーベイランスに使用される歩行者検出器を学習する方法について、図2を参照して説明すると以下のとおりである。
参考までに、以下の説明において混同を避けるために、「学習用」という文言は前述の学習プロセスに関する用語に対して追加され、「テスト用」という文言は、テストプロセスに関する用語に対して追加される。
まず、学習用歩行者それぞれに対応するバウンディングボックスR−1(x)それぞれを有する少なくとも一つのトレーニングイメージI11が取得されると、学習装置100が、トレーニングイメージI11上でバウンディングボックスR−1(x)それぞれに対応する領域それぞれをクロップ(Crop)して少なくとも一つのイメージパッチx12を生成する(S1)。前記Iは、学習に利用される少なくとも一つのトレーニングイメージに対応し、xは、それぞれのトレーニングイメージ上のバウンディングボックスのうちいずれか一つのバウンディングボックスに対応し得る。
この際、学習装置100は、イメージパッチx12のうち少なくとも一つをリサイズ(Resize)して各イメージパッチx12が同一サイズを有するようにできる。また、各イメージパッチxが同一サイズを有するようにするために、学習装置100は、一部のイメージパッチxのサイズを大きくするか、一部のイメージパッチxはサイズを小さくすることができ、一部のイメージパッチxはサイズを調整しなくてもよい。
一方、図3を参照すると、学習装置100は、(i)監視カメラから取得された少なくとも一つのテストイメージ10内に位置するテスト用歩行者を検出してバウンディングボックスを含むテスト用歩行者検出情報を出力する歩行者検出器140、及び(ii)バウンディングボックスに対応するトゥルーラベル(True Label)を有するトレーニングイメージを格納するデータベース5のうち一つからトレーニングイメージI11を取得することができる。
一例として、図3を参照して、歩行者検出器140からトレーニングイメージI11を取得する方法を説明すると以下のとおりである。
監視カメラから取得されたテストイメージI10が入力されると、歩行者検出器140は、少なくとも一つのコンボリューションレイヤ141をもって、テストイメージI10に対してコンボリューション演算を少なくとも一回適用させて少なくとも一つのテスト用特徴マップを出力させる。この際、コンボリューションレイヤ141は、テストイメージI10に対して順次にコンボリューション演算を適用してテスト用特徴マップを出力することができる。
そして、歩行者検出器140は、少なくとも一つのRPN(Region Proposal Network)142をもって、テスト用特徴マップ上で少なくとも一つの歩行者を含むものと推定される候補領域に対応するテスト用プロポーザルボックスを生成させる。
以後、歩行者検出器140は、少なくとも一つのプーリングレイヤ143をもって、テスト用特徴マップ上でテスト用プロポーザルボックスに対応する領域に対してプーリング演算(Pooling Operation)を少なくとも一回適用して少なくとも一つのテスト用特徴ベクトル(Feature Vector)を生成させる。
そして、歩行者検出器140は、少なくとも一つのFCレイヤ(Fully Connected Layer)144をもって、テスト用特徴ベクトルに対してFC演算(Fully Connected Operation)を少なくとも一回適用させた後、少なくとも一つの分類レイヤ(Classification Layer)145をもって、テスト用プロポーザルボックスそれぞれに対応するそれぞれのテスト用歩行者クラス情報を出力させ、少なくとも一つのリグレッションレイヤ(Regression Layer)146をもって、それぞれのテスト用歩行者をバウンディングしたテスト用プロポーザルボックスそれぞれから生じたテスト用バウンディングボックスを生成させる。
一方、歩行者検出器140は、事前に学習された状態であり得る。つまり、少なくとも一つのロスを利用したバックプロパゲーションを通じてFCレイヤ144及びコンボリューションレイヤ141の少なくとも一つのパラメータのうち少なくとも一部が調整された状態であり得る。また、RPN142も事前に学習された状態であり得る。
再び図2を参照すると、学習装置100は、敵対的スタイル変換器(Adversarial Style Transformer)G130をもって、イメージパッチx12それぞれに対応する学習用歩行者それぞれを、歩行者検出器140による検出を困難にする変形歩行者それぞれに変換して少なくとも一つの変形イメージパッチ(Transformed Image Patch)G(x)13それぞれを生成させる(S2)。
この際、敵対的スタイル変換器G130は、イメージパッチx12に対してコンボリューション演算を少なくとも一回適用する少なくとも一つのコンボリューションレイヤを有するエンコーダと、エンコーダから出力される少なくとも一つの特徴マップに対してデコンボリューション演算を少なくとも一回適用して変形イメージパッチG(x)13を生成する少なくとも一つのデコンボリューションレイヤを有するデコーダとを含むことができる。
一方、敵対的スタイル変換器G130は、歩行者検出器140を介して検出されるか、トレーニングデータベースから取得されたトレーニングイメージI11で検出が容易な歩行者それぞれに対応するイメージパッチx12それぞれに対して歩行者検出器140で検出が困難な、すなわち、従来のトレーニングデータで接することができなかった独特のスタイル及び/又はパターンを有するように変換して変形イメージパッチG(x)13を生成するか、周囲の背景に対応してイメージパッチx12を変換することで変形イメージパッチG(x)13を生成することができる。
次に、学習装置100は、トレーニングイメージI11上でバウンディングボックスR−1(x)それぞれに対応するそれぞれの領域を変形イメージパッチG(x)に代替して変形歩行者それぞれが位置する領域R−1(G(x))それぞれを有する少なくとも一つの変形トレーニングイメージ14を生成する(S3)。
この際、学習装置100は、前記において少なくとも一つのイメージパッチx12をリサイズした場合、これに対応する変形イメージパッチG(x)をリサイズして変形イメージパッチそれぞれが変形する前の元のサイズになるようにした後、変形トレーニングイメージ14を生成することができる。
そして、変形トレーニングイメージ14は、次のように表すことができる。
次に、学習装置100は、歩行者検出器140をもって、変形トレーニングイメージ14内に位置する変形歩行者R−1(G(x))を検出させて学習用歩行者検出情報を生成させることができる。
一例として、再び図4を参照して歩行者検出器140が変形トレーニングイメージ14から変形歩行者を検出する方法を説明すると、次のとおりである。
変形トレーニングイメージ14が入力されると、歩行者検出器140はコンボリューションレイヤ141をもって、変形トレーニングイメージ14に対してコンボリューション演算を適用させて少なくとも一つの学習用特徴マップを生成させる。この際、コンボリューションレイヤ141は、変形トレーニングイメージ14に対して順次にコンボリューション演算を適用して学習用特徴マップを生成することができる。
そして、歩行者検出器140は、RPN142をもって、学習用特徴マップ上で変形歩行者R−1(G(x))を含むものと推定される候補領域に対応する学習用プロポーザルボックスを生成させる。
以後、歩行者検出器140は、プーリングレイヤ143をもって、学習用特徴マップ上で学習用プロポーザルボックスに対応する領域に対してプーリング演算を適用して少なくとも一つの学習用特徴ベクトルを生成させる。
そして、歩行者検出器140は、FCレイヤ144をもって、学習用特徴ベクトルに対してFC演算を適用させた後、分類レイヤ145をもって、それぞれの学習用プロポーザルボックスに対応するそれぞれの学習用歩行者クラス情報を生成させ、リグレッションレイヤ146をもって、それぞれの変形歩行者をバウンディングした学習用プロポーザルボックスそれぞれから生じた学習用バウンディングボックスを生成させる。
次に、学習装置100は、第1ロスレイヤ160をもって、学習用歩行者検出情報とこれに対応する原本正解とを参照して少なくとも一つの第1ロスを算出させ、第1ロスを最小化するように歩行者検出器140の少なくとも一つのパラメータのうち少なくとも一部を学習することができる(S4)。
この際、歩行者検出器(F)140に対する最適化の公式(Optimizing Formula)は、次のように表すことができる。
したがって、歩行者検出器(F)140のそれぞれの重み付け値に対するアップデート公式(Updating Formula)は、次のように表すことができる。
一方、学習装置100は、判別器150をもって、変形イメージパッチG(x)13それぞれが学習用歩行者それぞれである確率それぞれを表す学習用歩行者スコアD(G(x))それぞれを生成させ、学習用歩行者スコア及び第1ロスを最大化するように敵対的スタイル変換器130の少なくとも一つのパラメータのうち少なくとも一部をさらに学習することができる(S5、S6)。
この場合、第1ロスを最大化するように敵対的スタイル変換器130のパラメータの少なくとも一部を学習する目的は、敵対的スタイル変換器130がイメージパッチx12を変形イメージパッチG(x)13に変換する場合、歩行者検出器140が変形イメージパッチG(x)13を漸次にさらに検出しにくくするためである。また、学習用歩行者スコアを最大化するように敵対的スタイル変換器130のパラメータの少なくとも一部を学習する目的は、敵対的スタイル変換器130がイメージパッチx12を、歩行者検出器140が検出しにくい変形イメージパッチG(x)13に変換するもかかわらず、変形イメージパッチG(x)がこれに対応する歩行者クラスを維持させて変形イメージパッチG(x)が現実的に見えるようにするためである。
そして、図5を参照して敵対的スタイル変換器130を学習する方法を説明すると、以下のとおりである。
学習装置100は、第1ロスL(F(I))を最大化するためのバックプロパゲーションによって歩行者検出機F140から出力される変形トレーニングイメージ14に対する微分値を演算することができる(S6−1)。この際、変形トレーニングイメージ14に対する微分値は、次の数学式のように表すことができる。
そして、学習装置100は、変形トレーニングイメージ14内のそれぞれの変形歩行者R−1(G(x))に対する微分値を演算することができる(S6−2)。この際、それぞれの変形歩行者R−1(G(x))に対する微分値は、次の数学式のように表すことができる。
以後、学習装置100は、変形歩行者R−1(G(x))に対する微分値を参照して変形イメージパッチG(x)に対する微分値を演算することができる(S6−3)。この際、変形イメージパッチG(x)に対する微分値は、次の数学式のように表すことができる。
次に、学習装置100は、学習用歩行者スコアD(G(x))を最大化するためのバックプロパゲーションにより判別器D150から出力される変形イメージパッチG(x)に対する微分値を演算することができる(S5−1)。この際、変形イメージパッチG(x)に対する微分値は、次の数学式のように表すことができる。
この際、敵対的スタイル変換器G130に対する最適化の公式は、次のように表すことができる。
再び図2を参照すると、学習装置100は、第2ロスレイヤをもって、学習用歩行者スコアとこれに対応する原本正解とを参照して少なくとも一つの第2ロスを算出させ、第2ロスを最小化するように判別器150の少なくとも一つのパラメータのうち少なくとも一部をさらに学習することができる。
この際、判別器150は、変形イメージパッチG(x)13内に位置する物体が歩行者であるのかを判別するためのイメージ分類機(Image Classifier)であり得る。そして、イメージ分類器は、(i)少なくとも1つのコンボリューションレイヤとFCレイヤとを含むか、(ii)FCN(Fully Convolutional Network)を含むことができるが、本発明はこれに限定されず、イメージ内の物体を認識するディープラーニングに基づくすべてのイメージ分類器が利用され得る。
そして、図6を参照して、判別器150を学習する方法を説明すると次のとおりである。
学習装置100は、判別器150をもって、変形イメージパッチG(x)13それぞれが学習用歩行者それぞれである確率それぞれを表す学習用歩行者スコアD(G(x))を生成させ、これに対応するイメージパッチx12それぞれが学習用歩行者である確率を表す原本正解用歩行者スコアD(x)それぞれを生成させる。
そして、学習装置100は、第2ロスレイヤ170をもって、第2ロスを算出させる。
この際、第2ロスはlogD(x)+log(1−D(G(x)))のように表すことができ、それに伴って判別器D150に対する最適化の公式は、次のように表すことができる。
したがって、判別器D150のそれぞれの重み付け値に対するアップデートの公式は、次のように表すことができる。
すなわち、本発明による学習方法は、簡略に次のように説明することができるが、これに限定されるわけではない。
まず、トレーニングイメージ上でそれぞれの学習用歩行者に対するそれぞれのバウンディングボックスR−1(x)を取得する。
以後、それぞれのR−1(x)に対してG(x)、D(x)、D(G(x))及びR−1(G(x))が算出され、変形トレーニングイメージ14に対するI=I+Σx(R−1(G(x))−R−1(x))が生成される。
以後、歩行者検出器の第1ロスL(F(I))が算出された後、全体バックプロパゲーションを通じてそれぞれのグラディエントが算出される。
そして、次の公式のように歩行者検出器140、判別器150、及び敵対的スタイル変換器130がアップデートされる。
図7を参照すると、テスト装置200は、学習された歩行者検出器を利用してテスト用歩行者を検出するためのインストラクションを格納するメモリ210と、メモリ210に格納されたインストラクションに対応する歩行者検出器を利用してテスト用歩行者を検出するプロセッサ220とを含むことができる。
具体的に、テスト装置200は、典型的に少なくとも一つのコンピューティング装置(例えば、コンピュータプロセッサ、メモリ、ストレージ、入力装置及び出力装置、その他従来のコンピューティング装置の構成要素を含むことができる装置;ルータ、スイッチなどのような電子通信装置;ネットワーク接続ストレージ(NAS)及びストレージ領域ネットワーク(SAN)のような電子情報ストレージシステム)と少なくとも一つのコンピュータソフトウェア(すなわち、コンピューティング装置をもって特定の方式で機能させるインストラクション)との組み合わせを利用して所望のシステム性能を達成するものであり得る。
また、コンピューティング装置のプロセッサは、MPU(Micro Processing Unit)又はCPU(Central Processing Unit)、キャッシュメモリ(Cache Memory)、データバス(Data Bus)などのハードウェアの構成を含むことができる。また、コンピューティング装置は、オペレーティングシステム、特定の目的を遂行するアプリケーションのソフトウェア構成をさらに含むこともできる。
しかし、コンピューティング装置のプロセッサが、本発明を実施するためのプロセッサ、ミディアム、又は他のコンピューティング構成要素のいずれかの組み合わせを含む統合装置(Integrated Device)を排除するわけではない。
このように構成された本発明の一実施例によるテスト装置200を利用してテスト用歩行者を検出する方法について、図8を参照して説明すると以下のとおりである。
図2を参照して説明したように、歩行者検出器140が学習された状態で、監視カメラから少なくとも一つのテストイメージ10が取得されると、テスト装置200は、歩行者検出器140をもって、テストイメージ10を分析させてテストイメージ10内に位置するテスト用歩行者を検出させ、テスト用歩行者に対応するテスト用歩行者検出情報21を生成させる。
この際、再び図4を参照して、歩行者検出器140がテストイメージ10でテスト用歩行者を検出する方法を説明すると以下のとおりである。
監視カメラから取得されたテストイメージ10が入力されると、歩行者検出器140は、コンボリューションレイヤ141をもって、テストイメージ10に対してコンボリューション演算を適用してテスト用特徴マップを生成させる。この際、コンボリューションレイヤ141は、テストイメージ10に対して順次にコンボリューション演算を適用してテスト用特徴マップを生成することができる。
そして、歩行者検出器140は、RPN142をもって、テスト用特徴マップ上でテスト用歩行者が位置するものと推定される候補領域に対応するテスト用プロポーザルボックスを生成させる。
以後、歩行者検出器140は、プーリングレイヤ143をもって、テスト用特徴マップ上でテスト用プロポーザルボックスに対応する領域に対して、プーリング演算を適用して少なくとも一つのテスト用特徴ベクトルを生成させる。
そして、歩行者検出器140は、FCレイヤ144をもって、テスト用特徴ベクトルに対してFC演算を適用させた後、分類レイヤ145をもって、それぞれのテスト用プロポーザルボックスに対応するそれぞれのテスト用歩行者クラス情報を出力させ、リグレッションレイヤ146をもって、それぞれのテスト用歩行者をバウンディングしたテスト用プロポーザルボックスそれぞれから生じたテスト用バウンディングボックスを生成させる。
一方、学習装置は、歩行者検出器140をもって、(a)トレーニングイメージ上に生成された学習用歩行者それぞれに対応するバウンディングボックスそれぞれを有するトレーニングイメージが取得されると、トレーニングイメージ上でバウンディングボックスそれぞれに対応する領域それぞれをクロップ(Crop)してイメージパッチ(Image Patch)を生成し、敵対的スタイル変換器(Adversarial Style Transformer)をもって、イメージパッチそれぞれに対応する学習用歩行者それぞれを、歩行者検出器による検出を困難にし得る変形歩行者それぞれに変換することによって変形イメージパッチ(Transformed Image Patch)を生成させるプロセス、及び(b)トレーニングイメージ上でバウンディングボックスそれぞれに対応する領域それぞれを変形イメージパッチに代替して変形トレーニングイメージ(Transformed Training Image)を生成し、変形トレーニングイメージ内に位置する変形歩行者を検出して学習用歩行者検出情報を生成し、第1ロスレイヤをもって、それぞれの学習用歩行者検出情報とこれに対応する原本正解とを参照して第1ロスを算出させ、第1ロスを最小化するように歩行者検出器のパラメータの少なくとも一部を学習するプロセスを完了した状態であり得る。
また、学習装置が、判別器をもって、変形イメージパッチそれぞれが学習用歩行者それぞれである確率それぞれを表す学習用歩行者スコアそれぞれを生成させるプロセスと、学習用歩行者スコア及び第1ロスを最大化するように敵対的スタイル変換器のパラメータのうち少なくとも一部をさらに学習させるプロセスとを完了した状態であり得る。
また、学習装置100は、第2ロスレイヤをもって、学習用歩行者スコアとこれに対応する原本正解とを参照して第2ロスを算出させるプロセスと、第2ロスを最小化するように判別器150のパラメータのうち少なくとも一部を学習するプロセスとを完了した状態であり得る。
また、自律進化システム(Self−Evolving System)としての学習は、難しい例示を含むトレーニングデータを生成することで敵対的パターン(Adversarial Pattern)に影響され得ない。
前記方法は、ロバストサーベイランスだけでなく、ラベリングされたイメージ不足の問題に対する解決策、注釈費用の節減及び軍事目的で使用され得る。
また、以上にて説明された本発明による各実施例は、多様なコンピュータの構成要素を通じて遂行することができるプログラム命令語の形態で具現されて、コンピュータ読取り可能な記録媒体に格納され得る。前記コンピュータ読取り可能な記録媒体は、プログラム命令語、データファイル、データ構造などを単独で又は組み合わせて含むことができる。前記コンピュータ読取り可能な記録媒体に格納されるプログラム命令語は、本発明のために特別に設計され、構成されたものであるか、コンピュータソフトウェア分野の当業者に公知にされて使用可能なものであり得る。コンピュータ読取り可能な記録媒体の例には、ハードディスク、フロッピーディスク及び磁気テープのような磁気媒体、CD−ROM、DVDのような光記録媒体、フロプティカルディスク(Floptical Disk)のような磁気−光メディア(Magneto−Optical Media)、及びROM、RAM、フラッシュメモリなどのようなプログラム命令語を格納して遂行するように特別に構成されたハードウェア装置が含まれる。プログラム命令語の例には、コンパイラによって作られるもののような機械語コードだけでなく、インタープリターなどを使用してコンピュータによって実行され得る高級言語コードも含まれる。前記ハードウェア装置は、本発明による処理を実行するために一つ以上のソフトウェアモジュールとして作動するように構成され得、その反対も同様である。
以上にて本発明が具体的な構成要素などのような特定事項と限定された実施例及び図面によって説明されたが、これは本発明のより全般的な理解の一助とするために提供されたものであるに過ぎず、本発明が前記実施例に限られるものではなく、本発明が属する技術分野において通常の知識を有する者であれば、かかる記載から多様な修正及び変形が行われ得る。
従って、本発明の思想は、前記説明された実施例に局限されて定められてはならず、後述する特許請求の範囲だけでなく、本特許請求の範囲と均等又は等価的に変形されたものすべては、本発明の思想の範囲に属するといえる。
100:学習装置
110:メモリ
120:プロセッサ
130:敵対的スタイル変換器
140:歩行者検出器
150:判別器
200:テスト装置、
210:メモリ
220:プロセッサ

Claims (28)

  1. イメージ分析に基づいてロバストサーベイランス(Robust Surveillance)に使用される歩行者検出器(Pedestrian Detector)を学習する方法において、
    (a)少なくとも一つのトレーニングイメージ上に生成された学習用歩行者それぞれに対応するバウンディングボックスそれぞれを有する前記トレーニングイメージが取得されると、学習装置が、前記トレーニングイメージ上で前記バウンディングボックスそれぞれに対応する領域それぞれをクロップ(Crop)して少なくとも一つのイメージパッチ(Image Patch)を生成し、敵対的スタイル変換器(Adversarial Style Transformer)をもって、前記イメージパッチそれぞれに対応する前記学習用歩行者それぞれを、前記歩行者検出器による検出を困難にし得る変形歩行者それぞれに変換することによって少なくとも一つの変形イメージパッチ(Transformed Image Patch)を生成させる段階;及び
    (b)前記学習装置が、前記トレーニングイメージ上で前記バウンディングボックスそれぞれに対応する前記領域それぞれを前記変形イメージパッチに代替して少なくとも一つの変形トレーニングイメージ(Transformed Training Image)を生成し、前記歩行者検出器をもって、前記変形トレーニングイメージ内に位置する前記変形歩行者を検出して学習用歩行者検出情報を生成させ、第1ロスレイヤをもって、前記それぞれの学習用歩行者検出情報とこれに対応する原本正解とを参照して少なくとも一つの第1ロスを算出させ、前記第1ロスを最小化するように前記歩行者検出器の少なくとも一つのパラメータのうち少なくとも一部を学習する段階;
    を含むことを特徴とする方法。
  2. 前記(b)段階で、
    前記学習装置が、判別器(Discriminator)をもって、前記それぞれの変形イメージパッチが前記それぞれの学習用歩行者であるそれぞれの確率を示す学習用歩行者スコア(Pedestrian Score)それぞれを生成させ、前記学習用歩行者スコア及び前記第1ロスを最大化するように前記敵対的スタイル変換器の少なくとも一つのパラメータのうち少なくとも一部をさらに学習させることを特徴とする請求項1に記載の方法。
  3. 前記判別器は、(i)少なくとも一つのコンボリューションレイヤと少なくとも一つのFCレイヤ(Fully Connected Layer)とを含むか、(ii)FCN(Fully Convolutional Network)を含むイメージ分類器(Image Classifier)であることを特徴とする請求項2に記載の方法。
  4. 前記(b)段階で、
    前記学習装置が、第2ロスレイヤをもって、前記それぞれの学習用歩行者スコアとこれに対応する原本正解とを参照して少なくとも一つの第2ロスを算出させ、前記第2ロスを最小化するように前記判別器の少なくとも一つのパラメータのうち少なくとも一部を学習させることを特徴とする請求項1に記載の方法。
  5. 前記敵対的スタイル変換器は、前記イメージパッチに対してコンボリューション演算を少なくとも一回適用する少なくとも一つのコンボリューションレイヤを有するエンコーダと、前記エンコーダから出力される少なくとも一つの特徴マップに対してデコンボリューション演算を少なくとも一回適用する少なくとも一つのデコンボリューションレイヤを有するデコーダとを含むことを特徴とする請求項1に記載の方法。
  6. 前記(a)段階で、
    前記学習装置は、少なくとも1つの前記イメージパッチをリサイズ(Resize)して前記各イメージパッチが同一サイズを有するようにした後、前記敵対的スタイル変換器をもって同一サイズの前記変形イメージパッチを出力させ、
    前記(b)段階で、
    前記学習装置は、前記同一サイズの前記変形イメージパッチをリサイズして前記変形イメージパッチそれぞれが変形する前の元のサイズになるようにした後、前記変形トレーニングイメージを生成させることを特徴とする請求項1に記載の方法。
  7. 前記トレーニングイメージは、(i)監視カメラから取得された少なくとも一つのテストイメージ内に位置するテスト用歩行者を検出して前記バウンディングボックスを含むテスト用歩行者検出情報を出力する前記歩行者検出器、及び(ii)前記バウンディングボックスに対応するトゥルーラベル(True Label)を有する前記トレーニングイメージを格納するデータベースのうち一つから取得されることを特徴とする請求項1に記載の方法。
  8. イメージ分析に基づいてロバストサーベイランス(Robust Surveillance)に使用されるテスト用歩行者検出器(Pedestrian Detector)をテストする方法において、
    (a)(1)学習装置が、少なくとも一つのトレーニングイメージ上に生成された学習用歩行者それぞれに対応する学習用バウンディングボックスそれぞれを有する前記トレーニングイメージ上で学習用バウンディングボックスそれぞれに対応する学習用領域それぞれをクロップ(Crop)して少なくとも一つの学習用イメージパッチ(Image Patch)を生成し、敵対的スタイル変換器(Adversarial Style Transformer)をもって、前記学習用イメージパッチそれぞれに対応する前記学習用歩行者それぞれを、前記歩行者検出器による学習用検出を困難にし得る学習用変形歩行者それぞれに変換することによって少なくとも一つの学習用変形イメージパッチ(Transformed Image Patch)を生成させ、(2)前記学習装置が、前記トレーニングイメージ上で前記学習用バウンディングボックスそれぞれに対応する前記学習用領域それぞれを前記学習用変形イメージパッチに代替して少なくとも一つの変形トレーニングイメージ(Transformed Training Image)を生成し、前記歩行者検出器をもって、前記変形トレーニングイメージ内に位置する前記学習用変形歩行者を検出して学習用歩行者検出情報を生成させ、第1ロスレイヤをもって、前記それぞれの学習用歩行者検出情報とこれに対応する原本正解とを参照して少なくとも一つの第1ロスを算出させ、前記第1ロスを最小化するように前記歩行者検出器の少なくとも一つのパラメータのうち少なくとも一部を学習した状態で、少なくとも一つのテストイメージに生成されたテスト用歩行者それぞれに対応するテスト用バウンディングボックスそれぞれを有する前記テストイメージが取得されると、テスト装置が、前記テストイメージ上で前記テスト用バウンディングボックスそれぞれに対応するテスト用領域それぞれをクロップして少なくとも一つのテスト用イメージパッチを生成し、前記敵対的スタイル変換器をもって、前記テスト用イメージパッチそれぞれに対応する前記テスト用歩行者それぞれを、前記歩行者検出器によるテスト用検出を困難にし得るテスト用変形歩行者それぞれに変換することによって少なくとも一つのテスト用変形イメージパッチを生成させる段階;及び
    (b)前記テスト装置が、前記テストイメージ上で前記テスト用バウンディングボックスそれぞれに対応する前記テスト用領域それぞれを前記テスト用変形イメージパッチに代替して少なくとも一つの変形テストイメージ(Transformed Test Image)を生成し、前記歩行者検出器をもって、前記変形テストイメージ内に位置する前記テスト用変形歩行者を検出してテスト用歩行者検出情報を生成させる段階;
    を含むことを特徴とする方法。
  9. 前記(b)段階で、
    前記テスト装置は、判別器(Discriminator)をもって、前記それぞれのテスト用変形イメージパッチが前記それぞれのテスト用歩行者であるそれぞれの確率を示すテスト用歩行者スコア(Pedestrian Score)それぞれを生成させる請求項8に記載の方法。
  10. 前記判別器は、(i)少なくとも一つのコンボリューションレイヤと少なくとも一つのFCレイヤ(Fully Connected Layer)とを含むか、(ii)FCN(Fully Convolutional Network)を含むイメージ分類器(Image Classifier)であることを特徴とする請求項9に記載の方法。
  11. 前記(2)プロセスで、
    前記学習装置が、第2ロスレイヤをもって、前記それぞれの学習用歩行者スコアとこれに対応する原本正解とを参照して少なくとも一つの第2ロスを算出させ、前記第2ロスを最小化するように前記判別器の少なくとも一つのパラメータのうち少なくとも一部を学習させることを特徴とする請求項8に記載の方法。
  12. 前記敵対的スタイル変換器は、前記テスト用イメージパッチに対してコンボリューション演算を少なくとも一回適用する少なくとも一つのコンボリューションレイヤを有するエンコーダと、前記エンコーダから出力される少なくとも一つのテスト用特徴マップに対してデコンボリューション演算を少なくとも一回適用する少なくとも一つのデコンボリューションレイヤを有するデコーダとを含むことを特徴とする請求項8に記載の方法。
  13. 前記(a)段階で、
    前記テスト装置は、少なくとも1つの前記テスト用イメージパッチをリサイズ(Resize)して前記各テスト用イメージパッチが同一サイズを有するようにした後、前記敵対的スタイル変換器をもって、同一サイズの前記テスト用変形イメージパッチを出力させ、
    前記(b)段階で、
    前記テスト装置は、前記同一サイズの前記テスト用変形イメージパッチをリサイズして前記テスト用変形イメージパッチそれぞれが変形する前の元のサイズになるようにした後、前記変形テストイメージを生成させることを特徴とする請求項8に記載の方法。
  14. 前記トレーニングイメージは、(i)監視カメラから取得された前記テストイメージ内に位置するテスト用歩行者を検出して前記テスト用バウンディングボックスを含むテスト用歩行者検出情報を出力する前記歩行者検出器、及び(ii)前記テスト用バウンディングボックスに対応するトゥルーラベル(True Label)を有する前記トレーニングイメージを格納するデータベースのうち一つから取得されることを特徴とする請求項8に記載の方法。
  15. イメージ分析に基づいてロバストサーベイランス(Robust Surveillance)に使用される歩行者検出器(Pedestrian Detector)を学習する装置において、
    インストラクションを格納する少なくとも一つのメモリと、
    (I)少なくとも一つのトレーニングイメージ上に生成された学習用歩行者それぞれに対応するバウンディングボックスそれぞれを有する前記トレーニングイメージが取得されると、前記トレーニングイメージ上で前記バウンディングボックスそれぞれに対応する領域それぞれをクロップ(Crop)して少なくとも一つのイメージパッチ(Image Patch)を生成し、敵対的スタイル変換器(Adversarial Style Transformer)をもって、前記イメージパッチそれぞれに対応する前記学習用歩行者それぞれを、前記歩行者検出器による検出を困難にし得る変形歩行者それぞれに変換することによって少なくとも一つの変形イメージパッチ(Transformed Image Patch)を生成させるプロセス、及び(II)前記トレーニングイメージ上で前記バウンディングボックスそれぞれに対応する前記領域それぞれを前記変形イメージパッチに代替して少なくとも一つの変形トレーニングイメージ(Transformed Training Image)を生成し、前記歩行者検出器をもって、前記変形トレーニングイメージ内に位置する前記変形歩行者を検出して学習用歩行者検出情報を生成させ、第1ロスレイヤをもって、前記それぞれの学習用歩行者検出情報とこれに対応する原本正解とを参照して少なくとも一つの第1ロスを算出させ、前記第1ロスを最小化するように前記歩行者検出器の少なくとも一つのパラメータのうち少なくとも一部を学習するプロセスを遂行するための前記インストラクションを実行するように構成された少なくとも1つのプロセッサと、
    を含むことを特徴とする装置。
  16. 前記(II)プロセスで、
    前記プロセッサが、判別器(Discriminator)をもって、前記それぞれの変形イメージパッチが前記それぞれの学習用歩行者であるそれぞれの確率を示す学習用歩行者スコア(Pedestrian Score)それぞれを生成させ、前記学習用歩行者スコア及び前記第1ロスを最大化するように前記敵対的スタイル変換器の少なくとも一つのパラメータのうち少なくとも一部をさらに学習させることを特徴とする請求項15に記載の装置。
  17. 前記判別器は、(i)少なくとも一つのコンボリューションレイヤと少なくとも一つのFCレイヤ(Fully Connected Layer)とを含むか、(ii)FCN(Fully Convolutional Network)を含むイメージ分類器(Image Classifier)であることを特徴とする請求項16に記載の装置。
  18. 前記(II)プロセスで、
    前記プロセッサが、第2ロスレイヤをもって、前記それぞれの学習用歩行者スコアとこれに対応する原本正解とを参照して少なくとも一つの第2ロスを算出させ、前記第2ロスを最小化するように前記判別器の少なくとも一つのパラメータのうち少なくとも一部を学習させることを特徴とする請求項15に記載の装置。
  19. 前記敵対的スタイル変換器は、前記イメージパッチに対してコンボリューション演算を少なくとも一回適用する少なくとも一つのコンボリューションレイヤを有するエンコーダと、前記エンコーダから出力される少なくとも一つの特徴マップに対してデコンボリューション演算を少なくとも一回適用する少なくとも一つのデコンボリューションレイヤを有するデコーダとを含むことを特徴とする請求項15に記載の装置。
  20. 前記(I)プロセスで、
    前記プロセッサは、少なくとも1つの前記イメージパッチをリサイズ(Resize)して前記各イメージパッチが同一サイズを有するようにした後、前記敵対的スタイル変換器をもって、同一サイズの前記変形イメージパッチを出力させ、
    前記(II)プロセスで、
    前記プロセッサは、前記同一サイズの前記変形イメージパッチをリサイズして前記変形イメージパッチそれぞれが変形する前の元のサイズになるようにした後、前記変形トレーニングイメージを生成させることを特徴とする請求項15に記載の装置。
  21. 前記トレーニングイメージは、(i)監視カメラから取得された少なくとも一つのテストイメージ内に位置するテスト用歩行者を検出して前記バウンディングボックスを含むテスト用歩行者検出情報を出力する前記歩行者検出器、及び(ii)前記バウンディングボックスに対応するトゥルーラベル(True Label)を有する前記トレーニングイメージを格納するデータベースのうち一つから取得されることを特徴とする請求項15に記載の装置。
  22. イメージ分析に基づいてロバストサーベイランス(Robust Surveillance)に使用されるテスト用歩行者検出器(Pedestrian Detector)のためのテスト装置において、
    インストラクションを格納する少なくとも一つのメモリと、
    (1)学習装置が、少なくとも一つのトレーニングイメージ上に生成された学習用歩行者それぞれに対応する学習用バウンディングボックスそれぞれを有する前記トレーニングイメージ上で学習用バウンディングボックスそれぞれに対応する学習用領域それぞれをクロップ(Crop)して少なくとも一つの学習用イメージパッチ(Image Patch)を生成し、敵対的スタイル変換器(Adversarial Style Transformer)をもって、前記学習用イメージパッチそれぞれに対応する前記学習用歩行者それぞれを、前記歩行者検出器による学習用検出を困難にし得る学習用変形歩行者それぞれに変換することによって少なくとも一つの学習用変形イメージパッチ(Transformed Image Patch)を生成させ、(2)前記学習装置が、前記トレーニングイメージ上で前記学習用バウンディングボックスそれぞれに対応する前記学習用領域それぞれを前記学習用変形イメージパッチに代替して少なくとも一つの変形トレーニングイメージ(Transformed Training Image)を生成し、前記歩行者検出器をもって、前記変形トレーニングイメージ内に位置する前記学習用変形歩行者を検出して学習用歩行者検出情報を生成させ、第1ロスレイヤをもって、前記それぞれの学習用歩行者検出情報とこれに対応する原本正解とを参照して少なくとも一つの第1ロスを算出させ、前記第1ロスを最小化するように前記歩行者検出器の少なくとも一つのパラメータのうち少なくとも一部を学習した状態で、(I)少なくとも一つのテストイメージに生成されたテスト用歩行者それぞれに対応するテスト用バウンディングボックスそれぞれを有する前記テストイメージが取得されると、前記テストイメージ上で前記テスト用バウンディングボックスそれぞれに対応するテスト用領域それぞれをクロップして少なくとも一つのテスト用イメージパッチを生成し、前記敵対的スタイル変換器をもって、前記テスト用イメージパッチそれぞれに対応する前記テスト用歩行者それぞれを、前記歩行者検出器によるテスト用検出を困難にし得るテスト用変形歩行者それぞれに変換することによって少なくとも一つのテスト用変形イメージパッチを生成させるプロセス、及び(II)前記テストイメージ上で前記テスト用バウンディングボックスそれぞれに対応する前記テスト用領域それぞれを前記テスト用変形イメージパッチに代替して少なくとも一つの変形テストイメージ(Transformed Test Image)を生成し、前記歩行者検出器をもって、前記変形テストイメージ内に位置する前記テスト用変形歩行者を検出してテスト用歩行者検出情報を生成させるプロセスを遂行するための前記インストラクションを実行するように構成された少なくとも一つのプロセッサと、
    を含むことを特徴とする装置。
  23. 前記(II)プロセスで、
    前記プロセッサは、判別器(Discriminator)をもって、前記それぞれのテスト用変形イメージパッチが前記それぞれのテスト用歩行者であるそれぞれの確率を示すテスト用歩行者スコア(Pedestrian Score)それぞれを生成させる請求項22に記載の装置。
  24. 前記判別器は、(i)少なくとも一つのコンボリューションレイヤと少なくとも一つのFCレイヤ(Fully Connected Layer)とを含むか、(ii)FCN(Fully Convolutional Network)を含むイメージ分類器(Image Classifier)であることを特徴とする請求項23に記載の装置。
  25. 前記(2)プロセスで、
    前記学習装置が、第2ロスレイヤをもって、前記それぞれの学習用歩行者スコアとこれに対応する原本正解とを参照して少なくとも一つの第2ロスを算出させ、前記第2ロスを最小化するように前記判別器の少なくとも一つのパラメータのうち少なくとも一部を学習させることを特徴とする請求項22に記載の装置。
  26. 前記敵対的スタイル変換器は、前記テスト用イメージパッチに対してコンボリューション演算を少なくとも一回適用する少なくとも一つのコンボリューションレイヤを有するエンコーダと、前記エンコーダから出力される少なくとも一つのテスト用特徴マップに対してデコンボリューション演算を少なくとも一回適用する少なくとも一つのデコンボリューションレイヤを有するデコーダとを含むことを特徴とする請求項22に記載の装置。
  27. 前記(I)プロセスで、
    前記プロセッサは、少なくとも1つの前記テスト用イメージパッチをリサイズ(Resize)して前記各テスト用イメージパッチが同一サイズを有するようにした後、前記敵対的スタイル変換器をもって、同一サイズの前記テスト用変形イメージパッチを出力させ、
    前記(II)プロセスで、
    前記プロセッサは、前記同一サイズの前記テスト用変形イメージパッチをリサイズして前記テスト用変形イメージパッチそれぞれが変形する前の元のサイズになるようにした後、前記変形テストイメージを生成させることを特徴とする請求項22に記載の装置。
  28. 前記トレーニングイメージは、(i)監視カメラから取得された前記テストイメージ内に位置するテスト用歩行者を検出して前記テスト用バウンディングボックスを含むテスト用歩行者検出情報を出力する前記歩行者検出器、及び(ii)前記テスト用バウンディングボックスに対応するトゥルーラベル(True Label)を有する前記トレーニングイメージを格納するデータベースのうち一つから取得されることを特徴とする請求項22に記載の装置。

JP2020004614A 2019-01-28 2020-01-15 イメージ分析に基づいたロバストサーベイランスのための歩行者検出器の学習方法及び学習装置、そしてそれを利用するテスト方法及びテスト装置 Active JP6901802B2 (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US16/259,372 US10692002B1 (en) 2019-01-28 2019-01-28 Learning method and learning device of pedestrian detector for robust surveillance based on image analysis by using GAN and testing method and testing device using the same
US16/259,372 2019-01-28

Publications (2)

Publication Number Publication Date
JP2020119558A true JP2020119558A (ja) 2020-08-06
JP6901802B2 JP6901802B2 (ja) 2021-07-14

Family

ID=69172615

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2020004614A Active JP6901802B2 (ja) 2019-01-28 2020-01-15 イメージ分析に基づいたロバストサーベイランスのための歩行者検出器の学習方法及び学習装置、そしてそれを利用するテスト方法及びテスト装置

Country Status (5)

Country Link
US (1) US10692002B1 (ja)
EP (1) EP3690712A1 (ja)
JP (1) JP6901802B2 (ja)
KR (1) KR102382693B1 (ja)
CN (1) CN111488789B (ja)

Families Citing this family (32)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2018176000A1 (en) 2017-03-23 2018-09-27 DeepScale, Inc. Data synthesis for autonomous control systems
US11409692B2 (en) 2017-07-24 2022-08-09 Tesla, Inc. Vector computational unit
US11893393B2 (en) 2017-07-24 2024-02-06 Tesla, Inc. Computational array microprocessor system with hardware arbiter managing memory requests
US11157441B2 (en) 2017-07-24 2021-10-26 Tesla, Inc. Computational array microprocessor system using non-consecutive data formatting
US10671349B2 (en) 2017-07-24 2020-06-02 Tesla, Inc. Accelerated mathematical engine
US11501522B2 (en) * 2017-12-06 2022-11-15 Nec Corporation Image recognition model generating device, image recognition model generating method, and image recognition model generating program storing medium
US11561791B2 (en) 2018-02-01 2023-01-24 Tesla, Inc. Vector computational unit receiving data elements in parallel from a last row of a computational array
US11215999B2 (en) 2018-06-20 2022-01-04 Tesla, Inc. Data pipeline and deep learning system for autonomous driving
US11361457B2 (en) 2018-07-20 2022-06-14 Tesla, Inc. Annotation cross-labeling for autonomous control systems
US11636333B2 (en) 2018-07-26 2023-04-25 Tesla, Inc. Optimizing neural network structures for embedded systems
US11562231B2 (en) 2018-09-03 2023-01-24 Tesla, Inc. Neural networks for embedded devices
AU2019357615B2 (en) 2018-10-11 2023-09-14 Tesla, Inc. Systems and methods for training machine models with augmented data
US11196678B2 (en) 2018-10-25 2021-12-07 Tesla, Inc. QOS manager for system on a chip communications
US11816585B2 (en) 2018-12-03 2023-11-14 Tesla, Inc. Machine learning models operating at different frequencies for autonomous vehicles
US11537811B2 (en) 2018-12-04 2022-12-27 Tesla, Inc. Enhanced object detection for autonomous vehicles based on field view
US11610117B2 (en) 2018-12-27 2023-03-21 Tesla, Inc. System and method for adapting a neural network model on a hardware platform
US10997461B2 (en) 2019-02-01 2021-05-04 Tesla, Inc. Generating ground truth for machine learning from time series elements
US11150664B2 (en) 2019-02-01 2021-10-19 Tesla, Inc. Predicting three-dimensional features for autonomous driving
US11567514B2 (en) 2019-02-11 2023-01-31 Tesla, Inc. Autonomous and user controlled vehicle summon to a target
US10956755B2 (en) 2019-02-19 2021-03-23 Tesla, Inc. Estimating object properties using visual image data
US10997748B2 (en) * 2019-04-19 2021-05-04 The Boeing Company Machine learning model development with unsupervised image selection
DE102020207324A1 (de) * 2020-06-12 2021-12-16 Robert Bosch Gesellschaft mit beschränkter Haftung Plausibilisierung der Ausgabe eines Bildklassifikators mit einem Generator für abgewandelte Bilder
CN111753786A (zh) * 2020-06-30 2020-10-09 中国矿业大学 一种基于全尺度特征融合和轻量级生成式对抗网络的行人重识别方法
CN111931707A (zh) * 2020-09-16 2020-11-13 平安国际智慧城市科技股份有限公司 基于对抗补丁的人脸图像预测方法、装置、设备和介质
US11023777B1 (en) * 2020-09-25 2021-06-01 Deeping Source Inc. Methods for training and testing obfuscation network capable of performing distinct concealing processes for distinct regions of original image and learning and testing devices using the same
US20220148189A1 (en) * 2020-11-10 2022-05-12 Nec Laboratories America, Inc. Multi-domain semantic segmentation with label shifts
KR102256409B1 (ko) * 2020-11-23 2021-05-25 주식회사 에이모 학습 데이터 세트를 생성하는 방법 및 학습 데이터 세트를 생성하기 위한 컴퓨터 장치
CN112529114B (zh) * 2021-01-13 2021-06-29 北京云真信科技有限公司 基于gan的目标信息识别方法、电子设备和介质
KR102470187B1 (ko) * 2021-11-19 2022-11-23 부산대학교 산학협력단 비적대적 패치 생성 방법 및 시스템
US11423643B1 (en) * 2021-11-29 2022-08-23 Deeping Source Inc. Method for generating obfuscated image to be used in training learning net work and labeling device using the same
CN114529946A (zh) * 2022-02-23 2022-05-24 厦门市美亚柏科信息股份有限公司 基于自监督学习的行人重识别方法、装置、设备及存储介质
CN114550217A (zh) * 2022-02-28 2022-05-27 清华大学 对抗图像生成方法及装置、以及目标覆盖物加工方法

Family Cites Families (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CA2801593C (en) * 2010-06-10 2022-06-21 Brown University Parameterized model of 2d articulated human shape
CN101887524B (zh) * 2010-07-06 2012-07-04 湖南创合制造有限公司 基于视频监控的行人检测方法
EP3446281A1 (en) * 2016-04-21 2019-02-27 OSRAM GmbH Training method and detection method for object recognition
US10346723B2 (en) * 2016-11-01 2019-07-09 Snap Inc. Neural network for object detection in images
CN107133570B (zh) * 2017-04-07 2018-03-13 武汉睿智视讯科技有限公司 一种车辆/行人检测方法及系统
US10303953B2 (en) * 2017-04-17 2019-05-28 Intel Corporation Person tracking and privacy and acceleration of data using autonomous machines
US10679355B2 (en) * 2017-05-02 2020-06-09 Hrl Laboratories, Llc System and method for detecting moving obstacles based on sensory prediction from ego-motion
US10395385B2 (en) * 2017-06-27 2019-08-27 Qualcomm Incorporated Using object re-identification in video surveillance
JP2019015692A (ja) * 2017-07-11 2019-01-31 パナソニック インテレクチュアル プロパティ コーポレーション オブ アメリカPanasonic Intellectual Property Corporation of America 付着物検出方法、付着物学習方法、付着物検出装置、付着物学習装置、付着物検出システム、および、プログラム
US11080886B2 (en) * 2017-11-15 2021-08-03 Qualcomm Incorporated Learning disentangled invariant representations for one shot instance recognition
US20190147320A1 (en) * 2017-11-15 2019-05-16 Uber Technologies, Inc. "Matching Adversarial Networks"

Also Published As

Publication number Publication date
EP3690712A1 (en) 2020-08-05
US10692002B1 (en) 2020-06-23
JP6901802B2 (ja) 2021-07-14
KR20200093426A (ko) 2020-08-05
KR102382693B1 (ko) 2022-04-06
CN111488789B (zh) 2023-11-07
CN111488789A (zh) 2020-08-04

Similar Documents

Publication Publication Date Title
JP2020119558A (ja) イメージ分析に基づいたロバストサーベイランスのための歩行者検出器の学習方法及び学習装置、そしてそれを利用するテスト方法及びテスト装置
EP3182334B1 (en) License plate recognition using coarse-to-fine cascade adaptations of a convolutional neural network
US10269125B1 (en) Method for tracking object by using convolutional neural network including tracking network and computing device using the same
JP2020042816A (ja) 物体検出方法、装置、機器、記憶媒体及び車両
US8379994B2 (en) Digital image analysis utilizing multiple human labels
WO2017015390A1 (en) Deep multi-task learning framework for face detection, landmark localization, pose estimation, and gender recognition
US11900645B2 (en) Systems and methods for modeling and controlling physical dynamical systems using artificial intelligence
JP6943291B2 (ja) 学習装置、学習方法、及び、プログラム
EP3745309A1 (en) Training a generative adversarial network
CN111008576B (zh) 行人检测及其模型训练、更新方法、设备及可读存储介质
JP6860079B2 (ja) 異常検知装置、異常検知方法、及びプログラム
CN112149491A (zh) 用于确定探测到的对象的信任值的方法
EP4266246A1 (en) Automated defect classification and detection
CN115769229A (zh) 训练和测试通过利用注意力图检测图像上对象的对象检测网络的方法及设备
KR20210029110A (ko) 딥러닝 기반 소수 샷 이미지 분류 장치 및 방법
EP3882817A2 (en) Method, apparatus and device for recognizing bill and storage medium
US20240095927A1 (en) Segmentation Models Having Improved Strong Mask Generalization
EP4105893A1 (en) Dynamic artifical intelligence camera model update
CN110705695B (zh) 搜索模型结构的方法、装置、设备和存储介质
JP4834693B2 (ja) パターン認識パラメータ学習装置、パターン認識装置、パターン認識パラメータ学習方法
Raisi et al. Investigation of Deep Learning Optimization Algorithms in Scene Text Detection
KR20200106111A (ko) 가우시안 특징점맵과 회귀 기법을 이용한 얼굴 특징점 검출 장치 및 방법
JP7365261B2 (ja) コンピュータシステムおよびプログラム
KR102568037B1 (ko) 파이프 인식 모델 생성 방법 및 장치, 이를 이용한 파이프 이상 영역 판단 방법 및 시스템
WO2021214861A1 (ja) 学習装置、学習済みモデル生成方法、分類装置、分類方法、及びコンピュータ読み取り可能な記録媒体

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20200115

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20210126

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20210423

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20210601

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20210611

R150 Certificate of patent or registration of utility model

Ref document number: 6901802

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250