JP2020119520A - 物体のスケールに応じてモード転換が可能なcnn基盤の監視用物体検出器の学習方法及び学習装置、そしてこれを利用したテスト方法及びテスト装置 - Google Patents
物体のスケールに応じてモード転換が可能なcnn基盤の監視用物体検出器の学習方法及び学習装置、そしてこれを利用したテスト方法及びテスト装置 Download PDFInfo
- Publication number
- JP2020119520A JP2020119520A JP2019239316A JP2019239316A JP2020119520A JP 2020119520 A JP2020119520 A JP 2020119520A JP 2019239316 A JP2019239316 A JP 2019239316A JP 2019239316 A JP2019239316 A JP 2019239316A JP 2020119520 A JP2020119520 A JP 2020119520A
- Authority
- JP
- Japan
- Prior art keywords
- layer
- learning
- test
- loss
- layers
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 67
- 238000012360 testing method Methods 0.000 title claims description 191
- 239000013598 vector Substances 0.000 claims abstract description 165
- 238000011176 pooling Methods 0.000 claims abstract description 91
- 238000013527 convolutional neural network Methods 0.000 claims description 33
- 238000012549 training Methods 0.000 claims description 28
- 238000010998 test method Methods 0.000 claims description 12
- 238000011156 evaluation Methods 0.000 claims 1
- 238000010586 diagram Methods 0.000 description 8
- 238000004891 communication Methods 0.000 description 7
- 238000007796 conventional method Methods 0.000 description 3
- 230000000694 effects Effects 0.000 description 3
- 241001465754 Metazoa Species 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000012544 monitoring process Methods 0.000 description 2
- 238000007792 addition Methods 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 238000010191 image analysis Methods 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/7715—Feature extraction, e.g. by transforming the feature space, e.g. multi-dimensional scaling [MDS]; Mappings, e.g. subspace methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/44—Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
- G06V10/443—Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components by matching or filtering
- G06V10/449—Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters
- G06V10/451—Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters with interaction between the filter responses, e.g. cortical complex cells
- G06V10/454—Integrating the filters into a hierarchical structure, e.g. convolutional neural networks [CNN]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/50—Context or environment of the image
- G06V20/52—Surveillance or monitoring of activities, e.g. for recognising suspicious objects
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/084—Backpropagation, e.g. using gradient descent
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/211—Selection of the most significant subset of features
- G06F18/2115—Selection of the most significant subset of features by evaluating different subsets according to an optimisation criterion, e.g. class separability, forward selection or backward elimination
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/0464—Convolutional networks [CNN, ConvNet]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/20—Image preprocessing
- G06V10/25—Determination of region of interest [ROI] or a volume of interest [VOI]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/46—Descriptors for shape, contour or point-related descriptors, e.g. scale invariant feature transform [SIFT] or bags of words [BoW]; Salient regional features
- G06V10/462—Salient features, e.g. scale invariant feature transforms [SIFT]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/74—Image or video pattern matching; Proximity measures in feature spaces
- G06V10/75—Organisation of the matching processes, e.g. simultaneous or sequential comparisons of image or video features; Coarse-fine approaches, e.g. multi-scale approaches; using context analysis; Selection of dictionaries
- G06V10/759—Region-based matching
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/764—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/774—Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/776—Validation; Performance evaluation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V2201/00—Indexing scheme relating to image or video recognition or understanding
- G06V2201/08—Detecting or categorising vehicles
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- Computer Vision & Pattern Recognition (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Software Systems (AREA)
- Computing Systems (AREA)
- Multimedia (AREA)
- Medical Informatics (AREA)
- Databases & Information Systems (AREA)
- Data Mining & Analysis (AREA)
- Life Sciences & Earth Sciences (AREA)
- General Engineering & Computer Science (AREA)
- Molecular Biology (AREA)
- Biomedical Technology (AREA)
- Mathematical Physics (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Evolutionary Biology (AREA)
- Bioinformatics & Computational Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Biodiversity & Conservation Biology (AREA)
- Image Analysis (AREA)
- Image Processing (AREA)
Abstract
Description
図1を参照すれば、従来の学習装置がバウンディンボックスを予測し、この予測されたバウンディンボックスをGTのバウンディンボックスと比較して、少なくとも一つのロス値を取得する。ここで、ロス値は、予測されたバウンディングボックスと、GTのバウンディングボックスとの間の差異値を意味する。例えば、図1でロス値は、dxc,dyc,dw,dhを含み得る。
図1の学習装置は、特徴マップをRPN(Region Proposal Network)に入力してプロポーザルボックスを生成し、特徴マップ上のプロポーザルボックスに対応される領域に含まれたピクセルデータに対し、マックスプーリング(Max Pooling)またはアベレージプーリング(Average Pooling)演算のいずれかを適用してプーリング済み特徴マップを生成し得る。ここで、マックスプーリングは、それぞれの細部領域ごとにこれに対応するプロポーザルボックス内の細部領域それぞれから最も大きな値を細部領域ごとに代表値としてそれぞれ選定する方法であり、アベレージプーリングは、それぞれの詳細領域ごとにこれに対応するプロポーザルボックス内の細部領域それぞれに対するそれぞれの平均値をそれぞれの代表値として算出する方法である。
また、本発明は、互いに異なるスケールを有するプーリングレイヤそれぞれをもって、それぞれのプーリング演算を遂行するようにして、演算量を減らす学習方法及び学習装置、これを利用したテスト方法及びテスト装置を提供することを他の目的とする。
従って、本発明の思想は前記説明された実施例に局限されて定められてはならず、後述する特許請求の範囲だけでなく、本特許請求の範囲と均等または等価的に変形されたものすべては、本発明の思想の範囲に属するといえる。
110:通信部
120:プロセッサ
130:データベース
400:テスト装置
410:通信部
420:プロセッサ
Claims (28)
- CNN(Convolutional Neural Network)基盤の物体検出器を学習する方法において、
(a)少なくとも一つの物体含むトレーニングイメージが入力されると、学習装置が、少なくとも一つのコンボリューションレイヤ(Convolutional Layer)をもって、前記トレーニングイメージに対してコンボリューション演算を少なくとも一度適用するようにして少なくとも一つの特徴マップを出力するようにし、RPN(Region Proposal Network)をもって、前記特徴マップを利用して前記トレーニングイメージ内のk個のROI(Region Of Interest)を出力するようにする段階;
(b)前記学習装置が、(i)互いに異なるプーリングスケール(Pooling Scale)を有するプーリングレイヤ(Pooling Layer)それぞれをもって、該当スケールごとに前記特徴マップ上で前記k個のROIに対応するそれぞれの領域をプーリングするようにして、該当スケールごとに前記k個のROIそれぞれに対応するk個の第1特徴ベクトル(Feature Vector)それぞれを出力するようにし、(ii)それぞれの前記プーリングレイヤに対応するそれぞれの第1FCレイヤ(Fully Connected Layer)それぞれをもって、該当スケールごとにk個の前記第1特徴ベクトルをそれぞれ利用して該当スケールごとにk個の第2特徴ベクトルをそれぞれ出力するようにし、(iii)少なくとも一つの第2FCレイヤをもって、該当スケールごとにk個の前記第2特徴ベクトルをそれぞれ利用して、前記k個のROIそれぞれに対応するそれぞれのクラス(Class)情報と、それぞれのリグレッション(Regression)情報とを出力するようにする段階;及び
(c)前記学習装置が、第1ロスレイヤ(Loss Layer)をもって、それぞれの前記クラス情報と、それぞれの前記リグレッション情報と、これに対応する第1GT(Ground Truth)とを参照して前記k個のROIに対応されるクラスロス(Class Loss)と、リグレッションロス(Regression Loss)とを生成するようにすることで、前記クラスロス及び前記リグレッションロスを利用したバックプロパゲーションを通じて、前記第2FCレイヤと、前記第1FCレイヤと、前記コンボリューションレイヤとを学習するようにする段階;
を含むことを特徴とする学習方法。 - 前記k個のROIは、前記RPNによって予め設定されたROI候補の中から選択されたものであり、
前記(a)段階の後に、
前記学習装置は、第2ロスレイヤをもって、前記ROI候補及びそれに対応する第2GTを参照してROIロスを生成するようにすることで、前記ROIロスを利用したバックプロパゲーションによって前記RPNを学習するようにすることを特徴とする請求項1に記載の学習方法。 - 前記第2FCレイヤは、第2_1FCレイヤ及び第2_2FCレイヤを含み、
前記(b)段階で、
前記学習装置は、(i)前記第2_1FCレイヤをもって、前記第1FCレイヤのそれぞれから出力される該当スケールごとにk個の前記第2特徴ベクトルそれぞれをコンカチネート(Concatenate)するようにして第3特徴ベクトルを出力するようにし、(ii)前記第2_2FCレイヤをもって、前記第3特徴ベクトルを利用して、前記k個のROIに対応するそれぞれの前記クラス情報と、それぞれの前記リグレッション情報とを出力するようにすることを特徴とする請求項1に記載の学習方法。 - 前記(c)段階で、
前記学習装置は、前記第1FCレイヤそれぞれから出力された該当スケールごとにk個の前記第2特徴ベクトルそれぞれに対応されるそれぞれの前記クラスロスと、それぞれの前記のリグレッションロスの少なくとも一部とを利用して、前記第1FCレイヤそれぞれを学習するようにすることを特徴とする請求項1に記載の学習方法。 - 前記学習装置は、それぞれの前記クラスロス及びそれぞれの前記リグレッションロスに対してそれぞれの重み付け値を適用して、バックプロパゲーションによって前記第1FCレイヤそれぞれを学習し、それぞれの前記重み付け値は、それぞれの前記クラスロスと、それぞれの前記リグレッションロスとに対するそれぞれの前記第1FCレイヤの寄与度に対する情報を参考にして決定されることを特徴とする請求項4に記載の学習方法。
- 前記学習装置は、それぞれの前記第1FCレイヤから出力される該当スケールごとに前記第2特徴ベクトルのチャネル数が互いに同一になるようにすることを特徴とする請求項1に記載の学習方法。
- 前記学習装置は、それぞれの前記第1FCレイヤから出力される前記第2特徴ベクトルの総チャネル数が予め設定された数未満になるようにすることを特徴とする請求項1に記載の学習方法。
- CNN(Convolutional Neural Network)基盤の物体検出器をテストする方法において、
(a)学習装置が、(1)少なくとも一つのコンボリューションレイヤ(Convolutional Layer)をもって、トレーニングイメージに対してコンボリューション演算を少なくとも一度適用するようにして少なくとも一つの学習用特徴マップを出力するようにし、RPN(Region Proposal Network)をもって、前記学習用特徴マップを利用して前記トレーニングイメージ内のk個のROI(Region Of Interest)を出力するようにし、(2)(i)互いに異なるプーリングスケール(Pooling Scale)を有するプーリングレイヤ(Pooling Layer)それぞれをもって、該当スケールごとに前記学習用特徴マップ上で前記k個の学習用ROIに対応するそれぞれの領域をプーリングするようにして、該当スケールごとに前記k個の学習用ROIそれぞれに対応するk個の第1特徴ベクトル(Feature Vector)それぞれを出力するようにし、(ii)それぞれの前記プーリングレイヤに対応するそれぞれの第1FCレイヤ(Fully Connected Layer)それぞれをもって、該当スケールごとにk個の前記学習用第1特徴ベクトルをそれぞれ利用して該当スケールごとにk個の前記学習用第2特徴ベクトルをそれぞれ出力するようにし、(iii)少なくとも一つの第2FCレイヤをもって、該当スケールごとにk個の前記学習用第2特徴ベクトルをそれぞれ利用して、前記k個の学習用ROIそれぞれに対応するそれぞれの学習用クラス(Class)情報と、それぞれの学習用リグレッション(Regression)情報とを出力するようにし、(3)第1ロスレイヤ(Loss Layer)をもって、それぞれの前記学習用クラス情報と、それぞれの前記学習用リグレッション情報と、これに対応する第1GT(Ground Truth)とを参照して前記k個の学習用ROIに対応されるクラスロス(Class Loss)と、リグレッションロス(Regression Loss)とを生成するようにすることで、前記クラスロス及び前記リグレッションロスを利用したバックプロパゲーションによって、前記第2FCレイヤと、前記第1FCレイヤと、前記コンボリューションレイヤとを学習した状態で、テスト装置が、(i)前記コンボリューションレイヤをもって、テストイメージに対してコンボリューション演算を少なくとも一度適用するようにして、少なくとも一つのテスト用特徴マップを出力するようにし、(ii)前記RPNにをもって前記テスト用特徴マップを用いて前記テストイメージ内のm個のテスト用ROIを出力させる段階;及び
(b)前記テスト装置が、(i)互いに異なるプーリングスケールを有する前記プーリングレイヤそれぞれをもって、該当スケールごとに前記テスト用特徴マップ上で前記m個のテスト用ROIに対応するそれぞれの領域をプーリングするようにして、該当スケールごとに前記m個のテスト用ROIそれぞれに対応するm個のテスト用第1特徴ベクトルそれぞれを出力するようにし、(ii)それぞれの前記プーリングレイヤに対応するそれぞれの前記第1FCレイヤをもって、該当スケールごとにm個の前記テスト用第1特徴ベクトルをそれぞれ利用して、該当スケールごとにm個のテスト用第2特徴ベクトルをそれぞれ出力するようにし、(iii)前記第2FCレイヤをもって、該当スケールごとにm個の前記テスト用第2特徴ベクトルをそれぞれ利用して前記m個のテスト用ROIそれぞれに対応するそれぞれのテスト用クラス情報と、それぞれのテスト用リグレッション情報とを出力するようにする段階;
を含むことを特徴とするテスト方法。 - 前記k個の学習用ROIは、前記RPNにより予め設定された学習用ROI候補の中から選択されたものであり、
前記(1)プロセスの後、
前記学習装置は、第2ロスレイヤをもって、前記学習用ROI候補及びそれに対応する第2GTを参照してROIロスを生成するようにすることで、前記ROIロスを利用したバックプロパゲーションによって前記RPNを学習するようにすることを特徴とする請求項8に記載のテスト方法。 - 前記第2FCレイヤは、第2_1FCレイヤ及び第2_2FCレイヤを含み、
前記(b)段階で、
前記テスト装置は、(i)前記第2_1FCレイヤをもって、前記第1FCレイヤのそれぞれから出力される該当スケールごとにm個の前記テスト用第2特徴ベクトルそれぞれをコンカチネート(Concatenate)するようにしてテスト用第3特徴ベクトルを出力するようにし、(ii)前記第2_2FCレイヤをもって、前記テスト用第3特徴ベクトルを利用して前記m個のテスト用ROIに対応するそれぞれの前記テスト用クラス情報と、それぞれの前記テスト用リグレッション情報とを出力するようにすることを特徴とする請求項8に記載のテスト方法。 - 前記(3)プロセスで、
前記学習装置は、前記第1FCレイヤそれぞれから出力された該当スケールごとにk個の前記学習用第2特徴ベクトルそれぞれに対応されるそれぞれの前記クラスロスと、それぞれの前記のリグレッションロスの少なくとも一部とを利用して前記第1FCレイヤそれぞれを学習するようにすることを特徴とする請求項8に記載のテスト方法。 - 前記学習装置は、それぞれの前記クラスロス及びそれぞれの前記リグレッションロスに対してそれぞれの重み付け値を適用して、バックプロパゲーションによって前記第1FCレイヤそれぞれを学習し、それぞれの前記重み付け値は、それぞれの前記クラスロスと、それぞれの前記リグレッションロスとに対するそれぞれの前記第1FCレイヤの寄与度に対する情報を参考にして決定されることを特徴とする請求項11に記載のテスト方法。
- 前記テスト装置は、それぞれの前記第1FCレイヤから出力される該当スケールごとに前記テスト用第2特徴ベクトルのチャネル数が互いに同一になるようにすることを特徴とする請求項8に記載のテスト方法。
- 前記テスト装置は、それぞれの前記第1FCレイヤから出力される前記テスト用第2特徴ベクトルの総チャネル数が予め設定された数未満になるようにすることを特徴とする請求項8に記載のテスト方法。
- CNN(Convolutional Neural Network)基盤の物体検出器を学習する学習装置において、
インストラクションを格納する少なくとも一つのメモリ;及び
(I)少なくとも一つのコンボリューションレイヤ(Convolutional Layer)をもって、少なくとも一つの物体を含むトレーニングイメージに対してコンボリューション演算を少なくとも一度適用するようにして、少なくとも一つの特徴マップを出力するようにし、RPN(Region Proposal Network)をもって、前記特徴マップを利用して前記トレーニングイメージ内のk個のROI(Region Of Interest)を出力するようにするプロセス、(II)(i)互いに異なるプーリングスケール(Pooling Scale)を有するプーリングレイヤ(Pooling Layer)それぞれをもって、該当スケールごとに前記特徴マップ上で前記k個のROIに対応するそれぞれの領域をプーリングするようにして、該当スケールごとに前記k個のROIそれぞれに対応するk個の第1特徴ベクトル(Feature Vector)それぞれを出力するようにし、(ii)それぞれの前記プーリングレイヤに対応するそれぞれの第1FCレイヤ(Fully Connected Layer)それぞれをもって、該当スケールごとにk個の前記第1特徴ベクトルをそれぞれ利用して該当スケールごとにk個の第2特徴ベクトルをそれぞれ出力するようにし、(iii)少なくとも一つの第2FCレイヤをもって、該当スケールごとにk個の前記第2特徴ベクトルをそれぞれ利用して、前記k個のROIそれぞれに対応されるそれぞれのクラス(Class)情報と、それぞれのリグレッション(Regression)情報を出力するようにするプロセス、及び(III)第1ロスレイヤ(Loss Layer)をもって、それぞれの前記クラス情報と、それぞれの前記リグレッション情報と、これに対応する第1GT(Ground Truth)とを参照して前記k個のROIに対応されるクラスロス(Class Loss)と、リグレッションロス(Regression Loss)とを生成するようにすることで、前記クラスロス及び前記リグレッションロスを利用したバックプロパゲーションによって、前記第2FCレイヤと、前記第1FCレイヤと、前記コンボリューションレイヤとを学習するようにするプロセスを遂行するための、前記インストラクションを実行するように構成された少なくとも一つのプロセッサ;
を含むことを特徴とする学習装置。 - 前記k個のROIは、前記RPNによって予め設定されたROI候補の中から選択されたものであり、
前記(I)プロセスの後、
前記プロセッサは、第2ロスレイヤをもって、前記ROI候補及びそれに対応する第2GTを参照してROIロスを生成するようにすることで、前記ROIロスを利用したバックプロパゲーションによって前記RPNを学習するようにすることを特徴とする請求項15に記載の学習方法。 - 前記第2FCレイヤは、第2_1FCレイヤ及び第2_2FCレイヤを含み、
前記(II)プロセスで、
前記プロセッサは、(i)前記第2_1FCレイヤをもって、前記第1FCレイヤのそれぞれから出力される該当スケールごとにk個の前記第2特徴ベクトルそれぞれをコンカチネート(Concatenate)するようにして第3特徴ベクトルを出力するようにし、(ii)前記第2_2FCレイヤをもって、前記第3特徴ベクトルを利用して前記k個のROIに対応するそれぞれの前記クラス情報と、それぞれの前記のリグレッション情報とを出力するようにすることを特徴とする請求項15に記載の学習装置。 - 前記(III)プロセスで、
前記プロセッサは、前記第1FCレイヤそれぞれから出力された該当スケールごとにk個の前記第2特徴ベクトルそれぞれに対応するそれぞれの前記クラスロスと、それぞれの前記のリグレッションロスの少なくとも一部とを利用して、前記第1FCレイヤそれぞれを学習するようにすることを特徴とする請求項15に記載の学習装置。 - 前記プロセッサは、それぞれの前記クラスロス及びそれぞれの前記リグレッションロスに対してそれぞれの重み付け値を適用して、バックプロパゲーションによって前記第1FCレイヤそれぞれを学習し、それぞれの前記重み付け値は、それぞれの前記クラスロスと、それぞれの前記リグレッションロスとに対するそれぞれの前記第1FCレイヤの寄与度に対する情報を参考にして決定されることを特徴とする請求項18に記載の学習装置。
- 前記プロセッサは、それぞれの前記第1FCレイヤから出力される該当スケールごとにそれぞれの前記第2特徴ベクトルのチャネル数が互いに同一になるようにすることを特徴とする請求項15に記載の学習装置。
- 前記プロセッサは、それぞれの前記第1FCレイヤから出力される前記第2特徴ベクトルの総チャネル数が予め設定された数未満になるようにすることを特徴とする請求項15に記載の学習装置。
- CNN(Convolutional Neural Network)基盤の物体検出器をテストするテスト装置において、
インストラクションを格納する少なくとも一つのメモリ;及び
学習装置が、(1)少なくとも一つのコンボリューションレイヤ(Convolutional Layer)をもって、トレーニングイメージに対してコンボリューション演算を少なくとも一度適用するようにして少なくとも一つの学習用特徴マップを出力するようにし、RPN(Region Proposal Network)をもって、前記学習用特徴マップを利用して前記トレーニングイメージ内のk個のROI(Region Of Interest)を出力するようにし、(2)(i)互いに異なるプーリングスケール(Pooling Scale)を有するプーリングレイヤ(Pooling Layer)それぞれをもって、該当スケールごとに前記学習用特徴マップ上で前記k個の学習用ROIに対応するそれぞれの領域をプーリングするようにして、該当スケールごとに前記k個の学習用ROIそれぞれに対応するk個の第1特徴ベクトル(Feature Vector)それぞれを出力するようにし、(ii)それぞれの前記プーリングレイヤに対応するそれぞれの第1FCレイヤ(Fully Connected Layer)それぞれをもって、該当スケールごとにk個の前記学習用第1特徴ベクトルをそれぞれ利用して該当スケールごとにk個の前記学習用第2特徴ベクトルをそれぞれ出力するようにし、(iii)少なくとも一つの第2FCレイヤをもって、該当スケールごとにk個の前記学習用第2特徴ベクトルをそれぞれ利用して、前記k個の学習用ROIそれぞれに対応するそれぞれの学習用クラス(Class)情報と、それぞれの学習用リグレッション(Regression)情報とを出力するようにし、(3)第1ロスレイヤ(Loss Layer)をもって、それぞれの前記学習用クラス情報と、それぞれの前記学習用リグレッション情報と、これに対応する第1GT(Ground Truth)とを参照して前記k個の学習用ROIに対応されるクラスロス(Class Loss)と、リグレッションロス(Regression Loss)とを生成するようにすることで、前記クラスロス及び前記リグレッションロスを利用したバックプロパゲーションによって、前記第2FCレイヤと、前記第1FCレイヤと、前記コンボリューションレイヤとを学習した状態で、(I)(i)前記コンボリューションレイヤをもって、テストイメージに対してコンボリューション演算を少なくとも一度適用するようにして、少なくとも一つのテスト用特徴マップを出力するようにし、(ii)前記RPNをもって、前記テスト用特徴マップを用いて前記テストイメージ内のm個のテスト用ROIを出力するようにするプロセス、及び(II)(i)互いに異なるプーリングスケール(Pooling Scale)を有する前記プーリングレイヤ(Pooling Layer)それぞれをもって、該当スケールごとに前記テスト用特徴マップ上で前記m個のテスト用ROIに対応するそれぞれの領域をプーリングするようにして、該当スケールごとに前記m個のテスト用ROIそれぞれに対応するm個のテスト用第1特徴ベクトル(Feature Vector)それぞれを出力するようにし、(ii)それぞれの前記プーリングレイヤに対応するそれぞれの前記第1FCレイヤ(Fully Connected Layer)それぞれをもって、該当スケールごとにm個の前記テスト用第1特徴ベクトルをそれぞれ利用して該当スケールごとにm個のテスト用第2特徴ベクトルをそれぞれ出力するようにし、(iii)前記第2FCレイヤをもって、該当スケールごとのm個の前記テスト用第2特徴ベクトルをそれぞれ利用して、前記m個のテスト用ROIそれぞれに対応するそれぞれのテスト用クラス(Class)情報と、それぞれのテスト用リグレッション(Regression)情報とを出力するようにするプロセスを遂行するための、前記インストラクションを実行するように構成された少なくとも一つのプロセッサ;
を含むことを特徴とするテスト装置。 - 前記k個の学習用ROIは、前記RPNにより予め設定された学習用ROI候補の中から選択されたものであり、
前記(1)プロセスの後、
前記学習装置は、第2ロスレイヤをもって、前記学習用ROI候補及びそれに対応する第2GTを参照してROIロスを生成するようにすることで、前記ROIロスを利用したバックプロパゲーションによって前記RPNを学習するようにすることを特徴とする請求項22に記載のテスト装置。 - 前記第2FCレイヤは、第2_1FCレイヤ及び第2_2FCレイヤを含み、
前記(II)プロセスで、
前記プロセッサは、(i)前記第2_1FCレイヤをもって、前記第1FCレイヤのそれぞれから出力される該当スケールごとにm個の前記テスト用第2特徴ベクトルそれぞれをコンカチネート(Concatenate)するようにしてテスト用第3特徴ベクトルを出力するようにし、(ii)前記第2_2FCレイヤをもって、前記テスト用第3特徴ベクトルを利用して前記m個のテスト用ROIに対応するそれぞれの前記テスト用クラス情報と、それぞれの前記テスト用リグレッション情報とを出力するようにすることを特徴とする請求項22に記載のテスト装置。 - 前記(3)プロセスで、
前記学習装置は、前記第1FCレイヤそれぞれから出力された該当スケールごとにk個の前記学習用第2特徴ベクトルそれぞれに対応されるそれぞれの前記クラスロスと、それぞれの前記リグレッションロスの少なくとも一部とを利用して前記第1FCレイヤそれぞれを学習するようにすることを特徴とする請求項22に記載のテスト装置。 - 前記学習装置は、それぞれの前記クラスロス及びそれぞれの前記リグレッションロスに対してそれぞれの重み付け値を適用して、バックプロパゲーションによって前記第1FCレイヤそれぞれを学習し、それぞれの前記重み付け値は、それぞれの前記クラスロスと、それぞれの前記リグレッションロスとに対するそれぞれの前記第1FCレイヤの寄与度に対する情報を参考にして決定されることを特徴とする請求項25に記載のテスト装置。
- 前記プロセッサは、それぞれの前記第1FCレイヤから出力される該当スケールごとにそれぞれの前記テスト用第2特徴ベクトルのチャネル数が互いに同一になるようにすることを特徴とする請求項22に記載のテスト装置。
- 前記プロセッサは、それぞれの前記第1FCレイヤから出力される前記テスト用第2特徴ベクトルの総チャネル数が予め設定された数未満になるようにすることを特徴とする請求項22に記載のテスト装置。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US16/258,248 | 2019-01-25 | ||
US16/258,248 US10402686B1 (en) | 2019-01-25 | 2019-01-25 | Learning method and learning device for object detector to be used for surveillance based on convolutional neural network capable of converting modes according to scales of objects, and testing method and testing device using the same |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2020119520A true JP2020119520A (ja) | 2020-08-06 |
JP6856904B2 JP6856904B2 (ja) | 2021-04-14 |
Family
ID=67769938
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2019239316A Active JP6856904B2 (ja) | 2019-01-25 | 2019-12-27 | 物体のスケールに応じてモード転換が可能なcnn基盤の監視用物体検出器の学習方法及び学習装置、そしてこれを利用したテスト方法及びテスト装置 |
Country Status (5)
Country | Link |
---|---|
US (1) | US10402686B1 (ja) |
EP (1) | EP3686807A3 (ja) |
JP (1) | JP6856904B2 (ja) |
KR (1) | KR102320995B1 (ja) |
CN (1) | CN111488786B (ja) |
Families Citing this family (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10726303B1 (en) * | 2019-01-30 | 2020-07-28 | StradVision, Inc. | Learning method and learning device for switching modes of autonomous vehicle based on on-device standalone prediction to thereby achieve safety of autonomous driving, and testing method and testing device using the same |
CN110648322B (zh) * | 2019-09-25 | 2023-08-15 | 杭州智团信息技术有限公司 | 一种子宫颈异常细胞检测方法及系统 |
CN112308156B (zh) * | 2020-11-05 | 2022-05-03 | 电子科技大学 | 一种基于对抗学习的两阶段图像变化检测方法 |
CN114092813B (zh) * | 2021-11-25 | 2022-08-05 | 中国科学院空天信息创新研究院 | 一种工业园区图像提取方法、系统、电子设备和存储介质 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20010007865A1 (en) * | 1993-03-31 | 2001-07-12 | D-Pharm Ltd. | Prodrugs with enhanced penetration into cells |
WO2017079521A1 (en) * | 2015-11-04 | 2017-05-11 | Nec Laboratories America, Inc. | Cascaded neural network with scale dependent pooling for object detection |
US20180068198A1 (en) * | 2016-09-06 | 2018-03-08 | Carnegie Mellon University | Methods and Software for Detecting Objects in an Image Using Contextual Multiscale Fast Region-Based Convolutional Neural Network |
US9953437B1 (en) * | 2017-10-18 | 2018-04-24 | StradVision, Inc. | Method and device for constructing a table including information on a pooling type and testing method and testing device using the same |
JP2020087355A (ja) * | 2018-11-30 | 2020-06-04 | 株式会社ポコアポコネットワークス | 検出装置、検出方法、コンピュータプログラム及び学習モデル |
Family Cites Families (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9665802B2 (en) * | 2014-11-13 | 2017-05-30 | Nec Corporation | Object-centric fine-grained image classification |
US10303977B2 (en) * | 2016-06-28 | 2019-05-28 | Conduent Business Services, Llc | System and method for expanding and training convolutional neural networks for large size input images |
US10678846B2 (en) * | 2017-03-10 | 2020-06-09 | Xerox Corporation | Instance-level image retrieval with a region proposal network |
US10621725B2 (en) * | 2017-04-12 | 2020-04-14 | Here Global B.V. | Small object detection from a large image |
US10169679B1 (en) * | 2017-10-13 | 2019-01-01 | StradVision, Inc. | Learning method and learning device for adjusting parameters of CNN by using loss augmentation and testing method and testing device using the same |
US9946960B1 (en) * | 2017-10-13 | 2018-04-17 | StradVision, Inc. | Method for acquiring bounding box corresponding to an object in an image by using convolutional neural network including tracking network and computing device using the same |
US10007865B1 (en) | 2017-10-16 | 2018-06-26 | StradVision, Inc. | Learning method and learning device for adjusting parameters of CNN by using multi-scale feature maps and testing method and testing device using the same |
CN108052881A (zh) * | 2017-11-30 | 2018-05-18 | 华中科技大学 | 一种实时检测施工现场图像中多类实体对象的方法及设备 |
CN108416394B (zh) * | 2018-03-22 | 2019-09-03 | 河南工业大学 | 基于卷积神经网络的多目标检测模型构建方法 |
-
2019
- 2019-01-25 US US16/258,248 patent/US10402686B1/en active Active
- 2019-09-27 KR KR1020190119513A patent/KR102320995B1/ko active IP Right Grant
- 2019-11-11 EP EP19208316.0A patent/EP3686807A3/en active Pending
- 2019-12-16 CN CN201911291795.5A patent/CN111488786B/zh active Active
- 2019-12-27 JP JP2019239316A patent/JP6856904B2/ja active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20010007865A1 (en) * | 1993-03-31 | 2001-07-12 | D-Pharm Ltd. | Prodrugs with enhanced penetration into cells |
WO2017079521A1 (en) * | 2015-11-04 | 2017-05-11 | Nec Laboratories America, Inc. | Cascaded neural network with scale dependent pooling for object detection |
US20180068198A1 (en) * | 2016-09-06 | 2018-03-08 | Carnegie Mellon University | Methods and Software for Detecting Objects in an Image Using Contextual Multiscale Fast Region-Based Convolutional Neural Network |
US9953437B1 (en) * | 2017-10-18 | 2018-04-24 | StradVision, Inc. | Method and device for constructing a table including information on a pooling type and testing method and testing device using the same |
JP2020087355A (ja) * | 2018-11-30 | 2020-06-04 | 株式会社ポコアポコネットワークス | 検出装置、検出方法、コンピュータプログラム及び学習モデル |
Also Published As
Publication number | Publication date |
---|---|
JP6856904B2 (ja) | 2021-04-14 |
CN111488786B (zh) | 2023-09-08 |
KR20200092848A (ko) | 2020-08-04 |
KR102320995B1 (ko) | 2021-11-03 |
CN111488786A (zh) | 2020-08-04 |
EP3686807A3 (en) | 2020-08-19 |
US10402686B1 (en) | 2019-09-03 |
EP3686807A2 (en) | 2020-07-29 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP2020119520A (ja) | 物体のスケールに応じてモード転換が可能なcnn基盤の監視用物体検出器の学習方法及び学習装置、そしてこれを利用したテスト方法及びテスト装置 | |
US10410120B1 (en) | Learning method and testing method of object detector to be used for surveillance based on R-CNN capable of converting modes according to aspect ratios or scales of objects, and learning device and testing device using the same | |
KR102296507B1 (ko) | 트래킹 네트워크를 포함한 cnn을 사용하여 객체를 트래킹하는 방법 및 이를 이용한 장치 | |
JP6895693B2 (ja) | レーンマスク(Lane Mask)を使用して後処理なしに入力イメージに含まれた一つ以上の車線を検出する方法及び装置、並びにそれを利用したテスト方法及びテスト装置{METHOD AND DEVICE FOR LANE DETECTION WITHOUT POST−PROCESSING BY USING LANE MASK, AND TESTING METHOD, AND TESTING DEVICE USING THE SAME} | |
US10621476B1 (en) | Learning method and learning device for object detector based on reconfigurable network for optimizing customers' requirements such as key performance index using target object estimating network and target object merging network, and testing method and testing device using the same | |
JP2019075121A (ja) | マルチスケール特徴マップを利用してcnnのパラメータを調節するための学習方法、学習装置及びこれを利用したテスティング方法、テスティング装置 | |
US10430691B1 (en) | Learning method and learning device for object detector based on CNN, adaptable to customers' requirements such as key performance index, using target object merging network and target region estimating network, and testing method and testing device using the same to be used for multi-camera or surround view monitoring | |
JP2020123343A (ja) | 自動駐車システムを提供するために決定地点間の関係及び決定地点に対するリグレッション結果を利用して駐車スペースを検出する学習方法及び学習装置、そしてこれを利用したテスティング方法及びテスティング装置 | |
JP6957050B2 (ja) | モバイルデバイスまたは小型ネットワークに適用可能なハードウェアを最適化するのに利用可能なroiをプーリングするために、マスキングパラメータを利用する方法及び装置、そしてこれを利用したテスト方法及びテスト装置{learning method and learning device for pooling roi by using masking parameters to be used for mobile devices or compact networks via hardware optimization, and testing method and testing device using the same} | |
KR102309708B1 (ko) | 인스턴스 세그멘테이션을 이용한 객체의 자세에 따라 모드를 전환할 수 있는 cnn 기반의 수도-3d 바운딩 박스를 검출하는 방법 및 이를 이용한 장치 | |
JP2020119537A (ja) | 自律走行車両レベル4を満たすために領域のクラスに応じてモードを切り換えるためにグリッド生成器を利用するニューラルネットワーク演算方法及びこれを利用した装置 | |
JP6850046B2 (ja) | 重要業績評価指標のようなユーザ要求事項に適したターゲット物体予測ネットワークを用いた、cnn基盤の変動に強い物体検出器を学習する方法及び学習装置、並びにこれを利用したテスティング方法及びテスティング装置 | |
KR20200091317A (ko) | 자율 주행 자동차의 레벨 4를 충족시키기 위해 영역의 클래스에 따라 모드를 전환하여 그리드 셀 별로 가중 컨벌루션 필터를 이용한 감시용 이미지 세그멘테이션 방법 및 장치, 그리고 이를 이용한 테스트 방법 및 테스트 장치 | |
JP2020119533A (ja) | 自律走行自動車のレベル4を満たすために要求されるhdマップアップデートに利用される、少なくとも一つのアダプティブロス重み付け値マップを利用したアテンションドリブン・イメージセグメンテーション学習方法及び学習装置、そしてこれを利用したテスティング方法及びテスティング装置 | |
KR102309712B1 (ko) | 객체의 조건에 따라 모드를 전환할 수 있는 CNN 기반으로 군사 목적, 스마트폰 또는 가상 주행에 사용되는 수도(Pseudo)-3D 바운딩 박스를 검출하는 방법 및 이를 이용한 장치 | |
CN111507152A (zh) | 基于内置独立型预测来转换自动驾驶模式的方法及装置 | |
JP2020126621A (ja) | 自律走行に対する論理的根拠を提示するために、管理者が物体検出器の検出プロセスを評価できるように支援する方法及び装置 | |
JP6856905B2 (ja) | 自律走行車両レベル4を満たすために領域のクラスに応じてモードを切り換えるためにグリッド生成器を利用するニューラルネットワーク演算方法及びこれを利用した装置 | |
KR102313605B1 (ko) | 자율주행 차량 레벨4를 충족하기 위해 영역의 클래스에 따라 모드를 전환하기 위하여 그리드 생성기를 이용하는 뉴럴 네트워크 연산 방법 및 이를 이용한 장치 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20191227 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20201125 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20210129 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20210224 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20210311 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 6856904 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |