JP2020119558A - イメージ分析に基づいたロバストサーベイランスのための歩行者検出器の学習方法及び学習装置、そしてそれを利用するテスト方法及びテスト装置 - Google Patents
イメージ分析に基づいたロバストサーベイランスのための歩行者検出器の学習方法及び学習装置、そしてそれを利用するテスト方法及びテスト装置 Download PDFInfo
- Publication number
- JP2020119558A JP2020119558A JP2020004614A JP2020004614A JP2020119558A JP 2020119558 A JP2020119558 A JP 2020119558A JP 2020004614 A JP2020004614 A JP 2020004614A JP 2020004614 A JP2020004614 A JP 2020004614A JP 2020119558 A JP2020119558 A JP 2020119558A
- Authority
- JP
- Japan
- Prior art keywords
- image
- test
- learning
- pedestrian
- deformed
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000012360 testing method Methods 0.000 title claims abstract description 242
- 238000000034 method Methods 0.000 title claims abstract description 67
- 238000003703 image analysis method Methods 0.000 title 1
- 238000012549 training Methods 0.000 claims abstract description 119
- 238000001514 detection method Methods 0.000 claims abstract description 50
- 238000010191 image analysis Methods 0.000 claims abstract description 20
- 230000001131 transforming effect Effects 0.000 claims description 6
- 238000010998 test method Methods 0.000 claims description 2
- 230000009466 transformation Effects 0.000 claims 4
- 238000011176 pooling Methods 0.000 description 9
- 238000010586 diagram Methods 0.000 description 7
- 238000013527 convolutional neural network Methods 0.000 description 4
- 238000012545 processing Methods 0.000 description 4
- 230000000694 effects Effects 0.000 description 3
- 238000005457 optimization Methods 0.000 description 3
- 238000004891 communication Methods 0.000 description 2
- 238000012544 monitoring process Methods 0.000 description 2
- 238000007792 addition Methods 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 238000004590 computer program Methods 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 230000007812 deficiency Effects 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 238000012423 maintenance Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000001151 other effect Effects 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 239000013589 supplement Substances 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
- G06V40/103—Static body considered as a whole, e.g. static pedestrian or occupant recognition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/44—Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
- G06V10/443—Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components by matching or filtering
- G06V10/449—Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters
- G06V10/451—Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters with interaction between the filter responses, e.g. cortical complex cells
- G06V10/454—Integrating the filters into a hierarchical structure, e.g. convolutional neural networks [CNN]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/084—Backpropagation, e.g. using gradient descent
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N7/00—Computing arrangements based on specific mathematical models
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T3/00—Geometric image transformations in the plane of the image
- G06T3/40—Scaling of whole images or parts thereof, e.g. expanding or contracting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/10—Segmentation; Edge detection
- G06T7/11—Region-based segmentation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/764—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/50—Context or environment of the image
- G06V20/56—Context or environment of the image exterior to a vehicle by using sensors mounted on the vehicle
- G06V20/58—Recognition of moving objects or obstacles, e.g. vehicles or pedestrians; Recognition of traffic objects, e.g. traffic signs, traffic lights or roads
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/20—Movements or behaviour, e.g. gesture recognition
- G06V40/23—Recognition of whole body movements, e.g. for sport training
- G06V40/25—Recognition of walking or running movements, e.g. gait recognition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20081—Training; Learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/30—Subject of image; Context of image processing
- G06T2207/30196—Human being; Person
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2210/00—Indexing scheme for image generation or computer graphics
- G06T2210/12—Bounding box
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- Multimedia (AREA)
- Computer Vision & Pattern Recognition (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Data Mining & Analysis (AREA)
- Software Systems (AREA)
- Computing Systems (AREA)
- Life Sciences & Earth Sciences (AREA)
- General Engineering & Computer Science (AREA)
- Biomedical Technology (AREA)
- Molecular Biology (AREA)
- Mathematical Physics (AREA)
- Computational Linguistics (AREA)
- Biophysics (AREA)
- Human Computer Interaction (AREA)
- Databases & Information Systems (AREA)
- Medical Informatics (AREA)
- Biodiversity & Conservation Biology (AREA)
- Bioinformatics & Computational Biology (AREA)
- Evolutionary Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Psychiatry (AREA)
- Social Psychology (AREA)
- Algebra (AREA)
- Computational Mathematics (AREA)
- Mathematical Analysis (AREA)
- Mathematical Optimization (AREA)
- Pure & Applied Mathematics (AREA)
- Image Analysis (AREA)
- Image Processing (AREA)
Abstract
Description
110:メモリ
120:プロセッサ
130:敵対的スタイル変換器
140:歩行者検出器
150:判別器
200:テスト装置、
210:メモリ
220:プロセッサ
Claims (28)
- イメージ分析に基づいてロバストサーベイランス(Robust Surveillance)に使用される歩行者検出器(Pedestrian Detector)を学習する方法において、
(a)少なくとも一つのトレーニングイメージ上に生成された学習用歩行者それぞれに対応するバウンディングボックスそれぞれを有する前記トレーニングイメージが取得されると、学習装置が、前記トレーニングイメージ上で前記バウンディングボックスそれぞれに対応する領域それぞれをクロップ(Crop)して少なくとも一つのイメージパッチ(Image Patch)を生成し、敵対的スタイル変換器(Adversarial Style Transformer)をもって、前記イメージパッチそれぞれに対応する前記学習用歩行者それぞれを、前記歩行者検出器による検出を困難にし得る変形歩行者それぞれに変換することによって少なくとも一つの変形イメージパッチ(Transformed Image Patch)を生成させる段階;及び
(b)前記学習装置が、前記トレーニングイメージ上で前記バウンディングボックスそれぞれに対応する前記領域それぞれを前記変形イメージパッチに代替して少なくとも一つの変形トレーニングイメージ(Transformed Training Image)を生成し、前記歩行者検出器をもって、前記変形トレーニングイメージ内に位置する前記変形歩行者を検出して学習用歩行者検出情報を生成させ、第1ロスレイヤをもって、前記それぞれの学習用歩行者検出情報とこれに対応する原本正解とを参照して少なくとも一つの第1ロスを算出させ、前記第1ロスを最小化するように前記歩行者検出器の少なくとも一つのパラメータのうち少なくとも一部を学習する段階;
を含むことを特徴とする方法。 - 前記(b)段階で、
前記学習装置が、判別器(Discriminator)をもって、前記それぞれの変形イメージパッチが前記それぞれの学習用歩行者であるそれぞれの確率を示す学習用歩行者スコア(Pedestrian Score)それぞれを生成させ、前記学習用歩行者スコア及び前記第1ロスを最大化するように前記敵対的スタイル変換器の少なくとも一つのパラメータのうち少なくとも一部をさらに学習させることを特徴とする請求項1に記載の方法。 - 前記判別器は、(i)少なくとも一つのコンボリューションレイヤと少なくとも一つのFCレイヤ(Fully Connected Layer)とを含むか、(ii)FCN(Fully Convolutional Network)を含むイメージ分類器(Image Classifier)であることを特徴とする請求項2に記載の方法。
- 前記(b)段階で、
前記学習装置が、第2ロスレイヤをもって、前記それぞれの学習用歩行者スコアとこれに対応する原本正解とを参照して少なくとも一つの第2ロスを算出させ、前記第2ロスを最小化するように前記判別器の少なくとも一つのパラメータのうち少なくとも一部を学習させることを特徴とする請求項1に記載の方法。 - 前記敵対的スタイル変換器は、前記イメージパッチに対してコンボリューション演算を少なくとも一回適用する少なくとも一つのコンボリューションレイヤを有するエンコーダと、前記エンコーダから出力される少なくとも一つの特徴マップに対してデコンボリューション演算を少なくとも一回適用する少なくとも一つのデコンボリューションレイヤを有するデコーダとを含むことを特徴とする請求項1に記載の方法。
- 前記(a)段階で、
前記学習装置は、少なくとも1つの前記イメージパッチをリサイズ(Resize)して前記各イメージパッチが同一サイズを有するようにした後、前記敵対的スタイル変換器をもって同一サイズの前記変形イメージパッチを出力させ、
前記(b)段階で、
前記学習装置は、前記同一サイズの前記変形イメージパッチをリサイズして前記変形イメージパッチそれぞれが変形する前の元のサイズになるようにした後、前記変形トレーニングイメージを生成させることを特徴とする請求項1に記載の方法。 - 前記トレーニングイメージは、(i)監視カメラから取得された少なくとも一つのテストイメージ内に位置するテスト用歩行者を検出して前記バウンディングボックスを含むテスト用歩行者検出情報を出力する前記歩行者検出器、及び(ii)前記バウンディングボックスに対応するトゥルーラベル(True Label)を有する前記トレーニングイメージを格納するデータベースのうち一つから取得されることを特徴とする請求項1に記載の方法。
- イメージ分析に基づいてロバストサーベイランス(Robust Surveillance)に使用されるテスト用歩行者検出器(Pedestrian Detector)をテストする方法において、
(a)(1)学習装置が、少なくとも一つのトレーニングイメージ上に生成された学習用歩行者それぞれに対応する学習用バウンディングボックスそれぞれを有する前記トレーニングイメージ上で学習用バウンディングボックスそれぞれに対応する学習用領域それぞれをクロップ(Crop)して少なくとも一つの学習用イメージパッチ(Image Patch)を生成し、敵対的スタイル変換器(Adversarial Style Transformer)をもって、前記学習用イメージパッチそれぞれに対応する前記学習用歩行者それぞれを、前記歩行者検出器による学習用検出を困難にし得る学習用変形歩行者それぞれに変換することによって少なくとも一つの学習用変形イメージパッチ(Transformed Image Patch)を生成させ、(2)前記学習装置が、前記トレーニングイメージ上で前記学習用バウンディングボックスそれぞれに対応する前記学習用領域それぞれを前記学習用変形イメージパッチに代替して少なくとも一つの変形トレーニングイメージ(Transformed Training Image)を生成し、前記歩行者検出器をもって、前記変形トレーニングイメージ内に位置する前記学習用変形歩行者を検出して学習用歩行者検出情報を生成させ、第1ロスレイヤをもって、前記それぞれの学習用歩行者検出情報とこれに対応する原本正解とを参照して少なくとも一つの第1ロスを算出させ、前記第1ロスを最小化するように前記歩行者検出器の少なくとも一つのパラメータのうち少なくとも一部を学習した状態で、少なくとも一つのテストイメージに生成されたテスト用歩行者それぞれに対応するテスト用バウンディングボックスそれぞれを有する前記テストイメージが取得されると、テスト装置が、前記テストイメージ上で前記テスト用バウンディングボックスそれぞれに対応するテスト用領域それぞれをクロップして少なくとも一つのテスト用イメージパッチを生成し、前記敵対的スタイル変換器をもって、前記テスト用イメージパッチそれぞれに対応する前記テスト用歩行者それぞれを、前記歩行者検出器によるテスト用検出を困難にし得るテスト用変形歩行者それぞれに変換することによって少なくとも一つのテスト用変形イメージパッチを生成させる段階;及び
(b)前記テスト装置が、前記テストイメージ上で前記テスト用バウンディングボックスそれぞれに対応する前記テスト用領域それぞれを前記テスト用変形イメージパッチに代替して少なくとも一つの変形テストイメージ(Transformed Test Image)を生成し、前記歩行者検出器をもって、前記変形テストイメージ内に位置する前記テスト用変形歩行者を検出してテスト用歩行者検出情報を生成させる段階;
を含むことを特徴とする方法。 - 前記(b)段階で、
前記テスト装置は、判別器(Discriminator)をもって、前記それぞれのテスト用変形イメージパッチが前記それぞれのテスト用歩行者であるそれぞれの確率を示すテスト用歩行者スコア(Pedestrian Score)それぞれを生成させる請求項8に記載の方法。 - 前記判別器は、(i)少なくとも一つのコンボリューションレイヤと少なくとも一つのFCレイヤ(Fully Connected Layer)とを含むか、(ii)FCN(Fully Convolutional Network)を含むイメージ分類器(Image Classifier)であることを特徴とする請求項9に記載の方法。
- 前記(2)プロセスで、
前記学習装置が、第2ロスレイヤをもって、前記それぞれの学習用歩行者スコアとこれに対応する原本正解とを参照して少なくとも一つの第2ロスを算出させ、前記第2ロスを最小化するように前記判別器の少なくとも一つのパラメータのうち少なくとも一部を学習させることを特徴とする請求項8に記載の方法。 - 前記敵対的スタイル変換器は、前記テスト用イメージパッチに対してコンボリューション演算を少なくとも一回適用する少なくとも一つのコンボリューションレイヤを有するエンコーダと、前記エンコーダから出力される少なくとも一つのテスト用特徴マップに対してデコンボリューション演算を少なくとも一回適用する少なくとも一つのデコンボリューションレイヤを有するデコーダとを含むことを特徴とする請求項8に記載の方法。
- 前記(a)段階で、
前記テスト装置は、少なくとも1つの前記テスト用イメージパッチをリサイズ(Resize)して前記各テスト用イメージパッチが同一サイズを有するようにした後、前記敵対的スタイル変換器をもって、同一サイズの前記テスト用変形イメージパッチを出力させ、
前記(b)段階で、
前記テスト装置は、前記同一サイズの前記テスト用変形イメージパッチをリサイズして前記テスト用変形イメージパッチそれぞれが変形する前の元のサイズになるようにした後、前記変形テストイメージを生成させることを特徴とする請求項8に記載の方法。 - 前記トレーニングイメージは、(i)監視カメラから取得された前記テストイメージ内に位置するテスト用歩行者を検出して前記テスト用バウンディングボックスを含むテスト用歩行者検出情報を出力する前記歩行者検出器、及び(ii)前記テスト用バウンディングボックスに対応するトゥルーラベル(True Label)を有する前記トレーニングイメージを格納するデータベースのうち一つから取得されることを特徴とする請求項8に記載の方法。
- イメージ分析に基づいてロバストサーベイランス(Robust Surveillance)に使用される歩行者検出器(Pedestrian Detector)を学習する装置において、
インストラクションを格納する少なくとも一つのメモリと、
(I)少なくとも一つのトレーニングイメージ上に生成された学習用歩行者それぞれに対応するバウンディングボックスそれぞれを有する前記トレーニングイメージが取得されると、前記トレーニングイメージ上で前記バウンディングボックスそれぞれに対応する領域それぞれをクロップ(Crop)して少なくとも一つのイメージパッチ(Image Patch)を生成し、敵対的スタイル変換器(Adversarial Style Transformer)をもって、前記イメージパッチそれぞれに対応する前記学習用歩行者それぞれを、前記歩行者検出器による検出を困難にし得る変形歩行者それぞれに変換することによって少なくとも一つの変形イメージパッチ(Transformed Image Patch)を生成させるプロセス、及び(II)前記トレーニングイメージ上で前記バウンディングボックスそれぞれに対応する前記領域それぞれを前記変形イメージパッチに代替して少なくとも一つの変形トレーニングイメージ(Transformed Training Image)を生成し、前記歩行者検出器をもって、前記変形トレーニングイメージ内に位置する前記変形歩行者を検出して学習用歩行者検出情報を生成させ、第1ロスレイヤをもって、前記それぞれの学習用歩行者検出情報とこれに対応する原本正解とを参照して少なくとも一つの第1ロスを算出させ、前記第1ロスを最小化するように前記歩行者検出器の少なくとも一つのパラメータのうち少なくとも一部を学習するプロセスを遂行するための前記インストラクションを実行するように構成された少なくとも1つのプロセッサと、
を含むことを特徴とする装置。 - 前記(II)プロセスで、
前記プロセッサが、判別器(Discriminator)をもって、前記それぞれの変形イメージパッチが前記それぞれの学習用歩行者であるそれぞれの確率を示す学習用歩行者スコア(Pedestrian Score)それぞれを生成させ、前記学習用歩行者スコア及び前記第1ロスを最大化するように前記敵対的スタイル変換器の少なくとも一つのパラメータのうち少なくとも一部をさらに学習させることを特徴とする請求項15に記載の装置。 - 前記判別器は、(i)少なくとも一つのコンボリューションレイヤと少なくとも一つのFCレイヤ(Fully Connected Layer)とを含むか、(ii)FCN(Fully Convolutional Network)を含むイメージ分類器(Image Classifier)であることを特徴とする請求項16に記載の装置。
- 前記(II)プロセスで、
前記プロセッサが、第2ロスレイヤをもって、前記それぞれの学習用歩行者スコアとこれに対応する原本正解とを参照して少なくとも一つの第2ロスを算出させ、前記第2ロスを最小化するように前記判別器の少なくとも一つのパラメータのうち少なくとも一部を学習させることを特徴とする請求項15に記載の装置。 - 前記敵対的スタイル変換器は、前記イメージパッチに対してコンボリューション演算を少なくとも一回適用する少なくとも一つのコンボリューションレイヤを有するエンコーダと、前記エンコーダから出力される少なくとも一つの特徴マップに対してデコンボリューション演算を少なくとも一回適用する少なくとも一つのデコンボリューションレイヤを有するデコーダとを含むことを特徴とする請求項15に記載の装置。
- 前記(I)プロセスで、
前記プロセッサは、少なくとも1つの前記イメージパッチをリサイズ(Resize)して前記各イメージパッチが同一サイズを有するようにした後、前記敵対的スタイル変換器をもって、同一サイズの前記変形イメージパッチを出力させ、
前記(II)プロセスで、
前記プロセッサは、前記同一サイズの前記変形イメージパッチをリサイズして前記変形イメージパッチそれぞれが変形する前の元のサイズになるようにした後、前記変形トレーニングイメージを生成させることを特徴とする請求項15に記載の装置。 - 前記トレーニングイメージは、(i)監視カメラから取得された少なくとも一つのテストイメージ内に位置するテスト用歩行者を検出して前記バウンディングボックスを含むテスト用歩行者検出情報を出力する前記歩行者検出器、及び(ii)前記バウンディングボックスに対応するトゥルーラベル(True Label)を有する前記トレーニングイメージを格納するデータベースのうち一つから取得されることを特徴とする請求項15に記載の装置。
- イメージ分析に基づいてロバストサーベイランス(Robust Surveillance)に使用されるテスト用歩行者検出器(Pedestrian Detector)のためのテスト装置において、
インストラクションを格納する少なくとも一つのメモリと、
(1)学習装置が、少なくとも一つのトレーニングイメージ上に生成された学習用歩行者それぞれに対応する学習用バウンディングボックスそれぞれを有する前記トレーニングイメージ上で学習用バウンディングボックスそれぞれに対応する学習用領域それぞれをクロップ(Crop)して少なくとも一つの学習用イメージパッチ(Image Patch)を生成し、敵対的スタイル変換器(Adversarial Style Transformer)をもって、前記学習用イメージパッチそれぞれに対応する前記学習用歩行者それぞれを、前記歩行者検出器による学習用検出を困難にし得る学習用変形歩行者それぞれに変換することによって少なくとも一つの学習用変形イメージパッチ(Transformed Image Patch)を生成させ、(2)前記学習装置が、前記トレーニングイメージ上で前記学習用バウンディングボックスそれぞれに対応する前記学習用領域それぞれを前記学習用変形イメージパッチに代替して少なくとも一つの変形トレーニングイメージ(Transformed Training Image)を生成し、前記歩行者検出器をもって、前記変形トレーニングイメージ内に位置する前記学習用変形歩行者を検出して学習用歩行者検出情報を生成させ、第1ロスレイヤをもって、前記それぞれの学習用歩行者検出情報とこれに対応する原本正解とを参照して少なくとも一つの第1ロスを算出させ、前記第1ロスを最小化するように前記歩行者検出器の少なくとも一つのパラメータのうち少なくとも一部を学習した状態で、(I)少なくとも一つのテストイメージに生成されたテスト用歩行者それぞれに対応するテスト用バウンディングボックスそれぞれを有する前記テストイメージが取得されると、前記テストイメージ上で前記テスト用バウンディングボックスそれぞれに対応するテスト用領域それぞれをクロップして少なくとも一つのテスト用イメージパッチを生成し、前記敵対的スタイル変換器をもって、前記テスト用イメージパッチそれぞれに対応する前記テスト用歩行者それぞれを、前記歩行者検出器によるテスト用検出を困難にし得るテスト用変形歩行者それぞれに変換することによって少なくとも一つのテスト用変形イメージパッチを生成させるプロセス、及び(II)前記テストイメージ上で前記テスト用バウンディングボックスそれぞれに対応する前記テスト用領域それぞれを前記テスト用変形イメージパッチに代替して少なくとも一つの変形テストイメージ(Transformed Test Image)を生成し、前記歩行者検出器をもって、前記変形テストイメージ内に位置する前記テスト用変形歩行者を検出してテスト用歩行者検出情報を生成させるプロセスを遂行するための前記インストラクションを実行するように構成された少なくとも一つのプロセッサと、
を含むことを特徴とする装置。 - 前記(II)プロセスで、
前記プロセッサは、判別器(Discriminator)をもって、前記それぞれのテスト用変形イメージパッチが前記それぞれのテスト用歩行者であるそれぞれの確率を示すテスト用歩行者スコア(Pedestrian Score)それぞれを生成させる請求項22に記載の装置。 - 前記判別器は、(i)少なくとも一つのコンボリューションレイヤと少なくとも一つのFCレイヤ(Fully Connected Layer)とを含むか、(ii)FCN(Fully Convolutional Network)を含むイメージ分類器(Image Classifier)であることを特徴とする請求項23に記載の装置。
- 前記(2)プロセスで、
前記学習装置が、第2ロスレイヤをもって、前記それぞれの学習用歩行者スコアとこれに対応する原本正解とを参照して少なくとも一つの第2ロスを算出させ、前記第2ロスを最小化するように前記判別器の少なくとも一つのパラメータのうち少なくとも一部を学習させることを特徴とする請求項22に記載の装置。 - 前記敵対的スタイル変換器は、前記テスト用イメージパッチに対してコンボリューション演算を少なくとも一回適用する少なくとも一つのコンボリューションレイヤを有するエンコーダと、前記エンコーダから出力される少なくとも一つのテスト用特徴マップに対してデコンボリューション演算を少なくとも一回適用する少なくとも一つのデコンボリューションレイヤを有するデコーダとを含むことを特徴とする請求項22に記載の装置。
- 前記(I)プロセスで、
前記プロセッサは、少なくとも1つの前記テスト用イメージパッチをリサイズ(Resize)して前記各テスト用イメージパッチが同一サイズを有するようにした後、前記敵対的スタイル変換器をもって、同一サイズの前記テスト用変形イメージパッチを出力させ、
前記(II)プロセスで、
前記プロセッサは、前記同一サイズの前記テスト用変形イメージパッチをリサイズして前記テスト用変形イメージパッチそれぞれが変形する前の元のサイズになるようにした後、前記変形テストイメージを生成させることを特徴とする請求項22に記載の装置。 - 前記トレーニングイメージは、(i)監視カメラから取得された前記テストイメージ内に位置するテスト用歩行者を検出して前記テスト用バウンディングボックスを含むテスト用歩行者検出情報を出力する前記歩行者検出器、及び(ii)前記テスト用バウンディングボックスに対応するトゥルーラベル(True Label)を有する前記トレーニングイメージを格納するデータベースのうち一つから取得されることを特徴とする請求項22に記載の装置。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US16/259,372 US10692002B1 (en) | 2019-01-28 | 2019-01-28 | Learning method and learning device of pedestrian detector for robust surveillance based on image analysis by using GAN and testing method and testing device using the same |
US16/259,372 | 2019-01-28 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2020119558A true JP2020119558A (ja) | 2020-08-06 |
JP6901802B2 JP6901802B2 (ja) | 2021-07-14 |
Family
ID=69172615
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2020004614A Active JP6901802B2 (ja) | 2019-01-28 | 2020-01-15 | イメージ分析に基づいたロバストサーベイランスのための歩行者検出器の学習方法及び学習装置、そしてそれを利用するテスト方法及びテスト装置 |
Country Status (5)
Country | Link |
---|---|
US (1) | US10692002B1 (ja) |
EP (1) | EP3690712A1 (ja) |
JP (1) | JP6901802B2 (ja) |
KR (1) | KR102382693B1 (ja) |
CN (1) | CN111488789B (ja) |
Families Citing this family (32)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2018176000A1 (en) | 2017-03-23 | 2018-09-27 | DeepScale, Inc. | Data synthesis for autonomous control systems |
US11409692B2 (en) | 2017-07-24 | 2022-08-09 | Tesla, Inc. | Vector computational unit |
US11893393B2 (en) | 2017-07-24 | 2024-02-06 | Tesla, Inc. | Computational array microprocessor system with hardware arbiter managing memory requests |
US11157441B2 (en) | 2017-07-24 | 2021-10-26 | Tesla, Inc. | Computational array microprocessor system using non-consecutive data formatting |
US10671349B2 (en) | 2017-07-24 | 2020-06-02 | Tesla, Inc. | Accelerated mathematical engine |
US11501522B2 (en) * | 2017-12-06 | 2022-11-15 | Nec Corporation | Image recognition model generating device, image recognition model generating method, and image recognition model generating program storing medium |
US11561791B2 (en) | 2018-02-01 | 2023-01-24 | Tesla, Inc. | Vector computational unit receiving data elements in parallel from a last row of a computational array |
US11215999B2 (en) | 2018-06-20 | 2022-01-04 | Tesla, Inc. | Data pipeline and deep learning system for autonomous driving |
US11361457B2 (en) | 2018-07-20 | 2022-06-14 | Tesla, Inc. | Annotation cross-labeling for autonomous control systems |
US11636333B2 (en) | 2018-07-26 | 2023-04-25 | Tesla, Inc. | Optimizing neural network structures for embedded systems |
US11562231B2 (en) | 2018-09-03 | 2023-01-24 | Tesla, Inc. | Neural networks for embedded devices |
AU2019357615B2 (en) | 2018-10-11 | 2023-09-14 | Tesla, Inc. | Systems and methods for training machine models with augmented data |
US11196678B2 (en) | 2018-10-25 | 2021-12-07 | Tesla, Inc. | QOS manager for system on a chip communications |
US11816585B2 (en) | 2018-12-03 | 2023-11-14 | Tesla, Inc. | Machine learning models operating at different frequencies for autonomous vehicles |
US11537811B2 (en) | 2018-12-04 | 2022-12-27 | Tesla, Inc. | Enhanced object detection for autonomous vehicles based on field view |
US11610117B2 (en) | 2018-12-27 | 2023-03-21 | Tesla, Inc. | System and method for adapting a neural network model on a hardware platform |
US10997461B2 (en) | 2019-02-01 | 2021-05-04 | Tesla, Inc. | Generating ground truth for machine learning from time series elements |
US11150664B2 (en) | 2019-02-01 | 2021-10-19 | Tesla, Inc. | Predicting three-dimensional features for autonomous driving |
US11567514B2 (en) | 2019-02-11 | 2023-01-31 | Tesla, Inc. | Autonomous and user controlled vehicle summon to a target |
US10956755B2 (en) | 2019-02-19 | 2021-03-23 | Tesla, Inc. | Estimating object properties using visual image data |
US10997748B2 (en) * | 2019-04-19 | 2021-05-04 | The Boeing Company | Machine learning model development with unsupervised image selection |
DE102020207324A1 (de) * | 2020-06-12 | 2021-12-16 | Robert Bosch Gesellschaft mit beschränkter Haftung | Plausibilisierung der Ausgabe eines Bildklassifikators mit einem Generator für abgewandelte Bilder |
CN111753786A (zh) * | 2020-06-30 | 2020-10-09 | 中国矿业大学 | 一种基于全尺度特征融合和轻量级生成式对抗网络的行人重识别方法 |
CN111931707A (zh) * | 2020-09-16 | 2020-11-13 | 平安国际智慧城市科技股份有限公司 | 基于对抗补丁的人脸图像预测方法、装置、设备和介质 |
US11023777B1 (en) * | 2020-09-25 | 2021-06-01 | Deeping Source Inc. | Methods for training and testing obfuscation network capable of performing distinct concealing processes for distinct regions of original image and learning and testing devices using the same |
US20220148189A1 (en) * | 2020-11-10 | 2022-05-12 | Nec Laboratories America, Inc. | Multi-domain semantic segmentation with label shifts |
KR102256409B1 (ko) * | 2020-11-23 | 2021-05-25 | 주식회사 에이모 | 학습 데이터 세트를 생성하는 방법 및 학습 데이터 세트를 생성하기 위한 컴퓨터 장치 |
CN112529114B (zh) * | 2021-01-13 | 2021-06-29 | 北京云真信科技有限公司 | 基于gan的目标信息识别方法、电子设备和介质 |
KR102470187B1 (ko) * | 2021-11-19 | 2022-11-23 | 부산대학교 산학협력단 | 비적대적 패치 생성 방법 및 시스템 |
US11423643B1 (en) * | 2021-11-29 | 2022-08-23 | Deeping Source Inc. | Method for generating obfuscated image to be used in training learning net work and labeling device using the same |
CN114529946A (zh) * | 2022-02-23 | 2022-05-24 | 厦门市美亚柏科信息股份有限公司 | 基于自监督学习的行人重识别方法、装置、设备及存储介质 |
CN114550217A (zh) * | 2022-02-28 | 2022-05-27 | 清华大学 | 对抗图像生成方法及装置、以及目标覆盖物加工方法 |
Family Cites Families (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CA2801593C (en) * | 2010-06-10 | 2022-06-21 | Brown University | Parameterized model of 2d articulated human shape |
CN101887524B (zh) * | 2010-07-06 | 2012-07-04 | 湖南创合制造有限公司 | 基于视频监控的行人检测方法 |
EP3446281A1 (en) * | 2016-04-21 | 2019-02-27 | OSRAM GmbH | Training method and detection method for object recognition |
US10346723B2 (en) * | 2016-11-01 | 2019-07-09 | Snap Inc. | Neural network for object detection in images |
CN107133570B (zh) * | 2017-04-07 | 2018-03-13 | 武汉睿智视讯科技有限公司 | 一种车辆/行人检测方法及系统 |
US10303953B2 (en) * | 2017-04-17 | 2019-05-28 | Intel Corporation | Person tracking and privacy and acceleration of data using autonomous machines |
US10679355B2 (en) * | 2017-05-02 | 2020-06-09 | Hrl Laboratories, Llc | System and method for detecting moving obstacles based on sensory prediction from ego-motion |
US10395385B2 (en) * | 2017-06-27 | 2019-08-27 | Qualcomm Incorporated | Using object re-identification in video surveillance |
JP2019015692A (ja) * | 2017-07-11 | 2019-01-31 | パナソニック インテレクチュアル プロパティ コーポレーション オブ アメリカPanasonic Intellectual Property Corporation of America | 付着物検出方法、付着物学習方法、付着物検出装置、付着物学習装置、付着物検出システム、および、プログラム |
US11080886B2 (en) * | 2017-11-15 | 2021-08-03 | Qualcomm Incorporated | Learning disentangled invariant representations for one shot instance recognition |
US20190147320A1 (en) * | 2017-11-15 | 2019-05-16 | Uber Technologies, Inc. | "Matching Adversarial Networks" |
-
2019
- 2019-01-28 US US16/259,372 patent/US10692002B1/en active Active
- 2019-12-12 KR KR1020190166180A patent/KR102382693B1/ko active IP Right Grant
-
2020
- 2020-01-08 CN CN202010016997.5A patent/CN111488789B/zh active Active
- 2020-01-14 EP EP20151836.2A patent/EP3690712A1/en active Pending
- 2020-01-15 JP JP2020004614A patent/JP6901802B2/ja active Active
Also Published As
Publication number | Publication date |
---|---|
EP3690712A1 (en) | 2020-08-05 |
US10692002B1 (en) | 2020-06-23 |
JP6901802B2 (ja) | 2021-07-14 |
KR20200093426A (ko) | 2020-08-05 |
KR102382693B1 (ko) | 2022-04-06 |
CN111488789B (zh) | 2023-11-07 |
CN111488789A (zh) | 2020-08-04 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP2020119558A (ja) | イメージ分析に基づいたロバストサーベイランスのための歩行者検出器の学習方法及び学習装置、そしてそれを利用するテスト方法及びテスト装置 | |
EP3182334B1 (en) | License plate recognition using coarse-to-fine cascade adaptations of a convolutional neural network | |
US10269125B1 (en) | Method for tracking object by using convolutional neural network including tracking network and computing device using the same | |
JP2020042816A (ja) | 物体検出方法、装置、機器、記憶媒体及び車両 | |
US8379994B2 (en) | Digital image analysis utilizing multiple human labels | |
WO2017015390A1 (en) | Deep multi-task learning framework for face detection, landmark localization, pose estimation, and gender recognition | |
US11900645B2 (en) | Systems and methods for modeling and controlling physical dynamical systems using artificial intelligence | |
JP6943291B2 (ja) | 学習装置、学習方法、及び、プログラム | |
EP3745309A1 (en) | Training a generative adversarial network | |
CN111008576B (zh) | 行人检测及其模型训练、更新方法、设备及可读存储介质 | |
JP6860079B2 (ja) | 異常検知装置、異常検知方法、及びプログラム | |
CN112149491A (zh) | 用于确定探测到的对象的信任值的方法 | |
EP4266246A1 (en) | Automated defect classification and detection | |
CN115769229A (zh) | 训练和测试通过利用注意力图检测图像上对象的对象检测网络的方法及设备 | |
KR20210029110A (ko) | 딥러닝 기반 소수 샷 이미지 분류 장치 및 방법 | |
EP3882817A2 (en) | Method, apparatus and device for recognizing bill and storage medium | |
US20240095927A1 (en) | Segmentation Models Having Improved Strong Mask Generalization | |
EP4105893A1 (en) | Dynamic artifical intelligence camera model update | |
CN110705695B (zh) | 搜索模型结构的方法、装置、设备和存储介质 | |
JP4834693B2 (ja) | パターン認識パラメータ学習装置、パターン認識装置、パターン認識パラメータ学習方法 | |
Raisi et al. | Investigation of Deep Learning Optimization Algorithms in Scene Text Detection | |
KR20200106111A (ko) | 가우시안 특징점맵과 회귀 기법을 이용한 얼굴 특징점 검출 장치 및 방법 | |
JP7365261B2 (ja) | コンピュータシステムおよびプログラム | |
KR102568037B1 (ko) | 파이프 인식 모델 생성 방법 및 장치, 이를 이용한 파이프 이상 영역 판단 방법 및 시스템 | |
WO2021214861A1 (ja) | 学習装置、学習済みモデル生成方法、分類装置、分類方法、及びコンピュータ読み取り可能な記録媒体 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20200115 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20210126 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20210423 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20210601 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20210611 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 6901802 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |