JP6857370B2 - ターゲット物体予測ネットワーク及びターゲット物体統合ネットワークを利用して、重要業績評価指標のようなユーザー要求事項に係る最適化のための再構成可能なネットワーク基盤の物体検出器を学習する方法及び学習装置、並びにこれを利用したテスティング方法及びテスティング装置 - Google Patents
ターゲット物体予測ネットワーク及びターゲット物体統合ネットワークを利用して、重要業績評価指標のようなユーザー要求事項に係る最適化のための再構成可能なネットワーク基盤の物体検出器を学習する方法及び学習装置、並びにこれを利用したテスティング方法及びテスティング装置 Download PDFInfo
- Publication number
- JP6857370B2 JP6857370B2 JP2020002986A JP2020002986A JP6857370B2 JP 6857370 B2 JP6857370 B2 JP 6857370B2 JP 2020002986 A JP2020002986 A JP 2020002986A JP 2020002986 A JP2020002986 A JP 2020002986A JP 6857370 B2 JP6857370 B2 JP 6857370B2
- Authority
- JP
- Japan
- Prior art keywords
- test
- specific
- learning
- proposal
- bounding box
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000012360 testing method Methods 0.000 title claims description 845
- 238000000034 method Methods 0.000 title claims description 77
- 238000005457 optimization Methods 0.000 title description 2
- 238000001514 detection method Methods 0.000 claims description 154
- 238000012545 processing Methods 0.000 claims description 78
- 238000011176 pooling Methods 0.000 claims description 75
- 238000012549 training Methods 0.000 claims description 74
- 238000003754 machining Methods 0.000 claims description 56
- 238000004364 calculation method Methods 0.000 claims description 50
- 230000008569 process Effects 0.000 claims description 44
- 230000010354 integration Effects 0.000 claims description 7
- 238000010998 test method Methods 0.000 claims description 3
- 238000013527 convolutional neural network Methods 0.000 description 30
- 238000004891 communication Methods 0.000 description 4
- 230000000694 effects Effects 0.000 description 3
- 230000006870 function Effects 0.000 description 3
- 238000012986 modification Methods 0.000 description 3
- 230000004048 modification Effects 0.000 description 3
- 241001465754 Metazoa Species 0.000 description 2
- 238000007792 addition Methods 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000010191 image analysis Methods 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 238000012544 monitoring process Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/084—Backpropagation, e.g. using gradient descent
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/211—Selection of the most significant subset of features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/217—Validation; Performance evaluation; Active pattern learning techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
- G06F18/2413—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on distances to training or reference patterns
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/25—Fusion techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/0464—Convolutional networks [CNN, ConvNet]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/047—Probabilistic or stochastic networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/60—Analysis of geometric attributes
- G06T7/62—Analysis of geometric attributes of area, perimeter, diameter or volume
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/20—Image preprocessing
- G06V10/25—Determination of region of interest [ROI] or a volume of interest [VOI]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/44—Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
- G06V10/443—Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components by matching or filtering
- G06V10/449—Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters
- G06V10/451—Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters with interaction between the filter responses, e.g. cortical complex cells
- G06V10/454—Integrating the filters into a hierarchical structure, e.g. convolutional neural networks [CNN]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/74—Image or video pattern matching; Proximity measures in feature spaces
- G06V10/75—Organisation of the matching processes, e.g. simultaneous or sequential comparisons of image or video features; Coarse-fine approaches, e.g. multi-scale approaches; using context analysis; Selection of dictionaries
- G06V10/759—Region-based matching
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/764—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/776—Validation; Performance evaluation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/84—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using probabilistic graphical models from image or video features, e.g. Markov models or Bayesian networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/10—Image acquisition modality
- G06T2207/10004—Still image; Photographic image
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/50—Context or environment of the image
- G06V20/56—Context or environment of the image exterior to a vehicle by using sensors mounted on the vehicle
- G06V20/58—Recognition of moving objects or obstacles, e.g. vehicles or pedestrians; Recognition of traffic objects, e.g. traffic signs, traffic lights or roads
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V2201/00—Indexing scheme relating to image or video recognition or understanding
- G06V2201/07—Target detection
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Data Mining & Analysis (AREA)
- Software Systems (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Life Sciences & Earth Sciences (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- Multimedia (AREA)
- Biomedical Technology (AREA)
- Molecular Biology (AREA)
- Biophysics (AREA)
- Mathematical Physics (AREA)
- Computational Linguistics (AREA)
- Databases & Information Systems (AREA)
- Medical Informatics (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Evolutionary Biology (AREA)
- Biodiversity & Conservation Biology (AREA)
- Probability & Statistics with Applications (AREA)
- Geometry (AREA)
- Image Analysis (AREA)
Description
Claims (30)
- ターゲット物体予測ネットワークと、ターゲット物体統合ネットワークとを利用したCNN基盤の物体検出器のパラメータを学習する方法において、
(a)少なくとも一つのトレーニングイメージが入力されると、学習装置が、(i)一つ以上のコンボリューションレイヤをもって、前記トレーニングイメージに対応する少なくとも一つの第1加工イメージに一つ以上のコンボリューション演算を適用して、少なくとも一つの第1特徴マップを出力するようにし、(ii)RPN(Region Proposal Network)をもって、前記第1特徴マップを利用して、前記第1加工イメージ内に位置する一つ以上の第1物体それぞれに対応する一つ以上の第1物体プロポーザルを出力するようにし、(iii)プーリングレイヤをもって、前記第1特徴マップ上で、前記第1物体プロポーザルそれぞれに対応するそれぞれの領域に一つ以上のプーリング演算を適用して、少なくとも一つの第1プーリング済み特徴マップを出力するようにし、(iv)FC(Fully Connected)レイヤをもって、前記第1プーリング済み特徴マップに少なくとも一つのFC演算を適用して、前記第1物体に対応する第1物体検出情報を出力するようにする段階;
(b)kを2からnまで増加させながら、前記学習装置が、(i)前記ターゲット物体予測ネットワークをもって、第(k−1)加工イメージ上の一つ以上の第(k−1)物体プロポーザルを参照して、前記第(k−1)加工イメージ上で、少なくとも一つのターゲット物体が位置するものと予測される領域に対応する第(k−1)ターゲット領域を探すようにし、(ii)前記トレーニングイメージ、またはこれに対応するリサイズされたトレーニングイメージ上で、前記第(k−1)ターゲット領域に対応する第k加工イメージが取得されると、前記コンボリューションレイヤをもって、前記第k加工イメージに前記コンボリューション演算を適用して第k特徴マップを出力するようにし、(iii)前記RPNをもって、前記第k特徴マップを参照して、前記第k加工イメージ内に位置する一つ以上の第k物体それぞれに対応する一つ以上の第k物体プロポーザルを出力するようにし、(iv)前記プーリングレイヤをもって、前記第k特徴マップ上で、前記第k物体プロポーザルそれぞれに対応するそれぞれの領域に前記プーリング演算を適用して、少なくとも一つの第kプーリング済み特徴マップを出力するようにし、(v)前記FCレイヤをもって、前記第kプーリング済み特徴マップに前記FC演算を適用して、前記第k物体に対応する第k物体検出情報を出力するようにする段階;及び
(c)前記学習装置が、(i)前記ターゲット物体統合ネットワークをもって、前記第1物体プロポーザルないし前記第n物体プロポーザルを統合して統合物体プロポーザルを出力するようにし、前記第1物体検出情報ないし前記第n物体検出情報を統合して統合物体検出情報を出力するようにし、(ii)FCロスレイヤをもって、前記統合物体検出情報と、これに対応するGTとを参照して一つ以上のFCロスを生成するようにすることで、前記FCロスを利用したバックプロパゲーション(Backpropagation)によって、前記FCレイヤ及び前記コンボリューションレイヤのパラメータの中の少なくとも一部を学習する段階;
を含むことを特徴とする学習方法。 - 前記(c)段階で、
前記学習装置は、RPNロスレイヤをもって、前記統合物体プロポーザルと、これに対応するGTとを参照して一つ以上のRPNロスを算出するようにすることで、前記RPNロスを利用したバックプロパゲーションによって前記RPNのパラメータを学習することを特徴とする請求項1に記載の学習方法。 - 前記(c)段階で、
前記第(k−1)加工イメージ及び前記第k加工イメージ上に少なくとも一つの特定同一物体が位置し、前記第(k−1)加工イメージ上で前記第(k−1)物体プロポーザルの中の、前記特定同一物体に対応する少なくとも一つの物体プロポーザルを第(k−1)特定物体プロポーザルとし、前記第k加工イメージ上で、前記第k物体プロポーザルの中の、前記特定同一物体に対応する少なくとも一つの物体プロポーザルを第k特定物体プロポーザルであるとする場合、
前記学習装置は、前記ターゲット物体統合ネットワークをもって、前記第(k−1)特定物体プロポーザルと、前記第k特定物体プロポーザルとの間のIOU(Intersection Over Union)が、第1閾値以上になるかを判断するようにし、前記IOUが前記第1閾値未満であると判断されれば、前記第(k−1)特定物体プロポーザルと、前記第k特定物体プロポーザルとの間の調整IOUを算出するようにし、前記調整IOUが第2閾値以上と判断されれば、前記第(k−1)特定物体プロポーザルと、前記第k特定物体プロポーザルとの中で、(i)確率値の高い特定物体プロポーザルを選択するようにするか(ii)前記トレーニングイメージ上で演算される面積の大きい特定物体プロポーザルを選択するようにすることにより、前記選択された特定物体プロポーザルを前記特定同一物体に対応する特定統合物体プロポーザルとして生成することを特徴とする請求項1に記載の学習方法。 - 前記調整IOUは、前記第k加工イメージ上で前記第(k−1)特定物体プロポーザルに対応する領域と、前記第(k−1)加工イメージ上で前記第k特定物体プロポーザルに対応する領域とを参照して算出されることを特徴とする請求項3に記載の学習方法。
- 前記学習装置は、前記ターゲット物体統合ネットワークをもって、前記IOUが前記第1閾値以上になるか否かを判断するようにし、前記IOUが前記第1閾値以上と判断されれば、前記第(k−1)特定物体プロポーザルと、前記第k特定物体プロポーザルとの中で(i)確率値の高い特定物体プロポーザルを選択するようにするか(ii)それぞれの前記加工イメージ上で演算される面積の大きい特定物体プロポーザルを選択するようにすることにより、前記選択された特定物体プロポーザルを前記特定同一物体に対応する前記特定統合物体プロポーザルとして生成することを特徴とする請求項3に記載の学習方法。
- 前記(c)段階で、
前記第(k−1)加工イメージ及び前記第k加工イメージ上に少なくとも一つの特定同一物体が位置し、前記第(k−1)加工イメージ上で、前記第(k−1)物体検出情報に含まれた物体バウンディングボックス(Bounding box)の中の、前記特定同一物体に対応する少なくとも一つの物体バウンディングボックスを第(k−1)特定物体バウンディングボックスとし、前記第k加工イメージ上で、前記第k物体検出情報に含まれた物体バウンディングボックスの中の、前記特定同一物体に対応する少なくとも一つの物体バウンディングボックスを第k特定物体バウンディングボックスとした場合、
前記学習装置は、前記ターゲット物体統合ネットワークをもって、前記第(k−1)特定物体バウンディングボックスと、前記第k特定物体バウンディングボックスとの間のIOUが、第1閾値以上になるか否かを判断するようにし、前記IOUが前記第1閾値未満と判断されると、前記第(k−1)特定物体バウンディングボックスと、前記第k特定物体バウンディングボックスとの間の調整IOUを算出するようにし、前記調整IOUが、第2閾値以上と判断されたら、前記第(k−1)特定物体バウンディングボックスと、前記第k特定物体バウンディングボックスとの中から(i)確率値の高い特定物体バウンディングボックスを選択するようにするか(ii)前記トレーニングイメージ上で演算される面積の大きい特定物体バウンディングボックスを選択させることにより、前記選択された特定物体バウンディングボックスを前記特定同一物体に対応する特定統合物体検出情報として生成することを特徴とする請求項1に記載の学習方法。 - 前記調整IOUは、前記第k加工イメージ上で前記第(k−1)特定物体バウンディングボックスに対応する領域と、前記第(k−1)加工イメージ上で前記第k特定物体バウンディングボックスに対応する領域とを参照して算出されることを特徴とする請求項6に記載の学習方法。
- 前記学習装置は、前記ターゲット物体統合ネットワークをもって、前記IOUが前記第1閾値以上になるか否かを判断するようにし、前記IOUが前記第1閾値以上と判断されれば、前記第(k−1)特定物体バウンディングボックスと、前記第k特定物体バウンディングボックスとの中の(i)確率値の高い特定物体バウンディングボックスを選択するようにするか(ii)それぞれの前記加工イメージ上で演算される面積の大きい特定物体バウンディングボックスを選択させることにより、前記選択された特定物体バウンディングボックスを前記特定同一物体に対応する前記特定統合物体検出情報として生成することを特徴とする請求項6に記載の学習方法。
- ターゲット物体予測ネットワークと、ターゲット物体統合ネットワークとを利用したCNN基盤の物体検出器をテスティングする方法において、
(a)学習装置が、(1)(i)一つ以上のコンボリューションレイヤをもって、少なくとも一つのトレーニングイメージに対応する少なくとも一つの第1学習用加工イメージに一つ以上のコンボリューション演算を適用して、少なくとも一つの第1学習用特徴マップを出力するようにし、(ii)RPNをもって、前記第1学習用特徴マップを利用して、前記第1学習用加工イメージ内に位置する一つ以上の第1学習用物体それぞれに対応する一つ以上の第1学習用物体プロポーザルを出力するようにし、(iii)プーリングレイヤをもって、前記第1学習用特徴マップ上で、前記第1学習用物体プロポーザルそれぞれに対応するそれぞれの領域に一つ以上のプーリング演算を適用して、少なくとも一つの第1学習用プーリング済み特徴マップを出力するようにし、(iv)FCレイヤをもって、前記第1学習用プーリング済み特徴マップに少なくとも一つのFC演算を適用して、前記第1学習用物体に対応する第1学習用物体検出情報を出力するようにし、(2)kを2からnまで増加させながら、(i)前記ターゲット物体予測ネットワークをもって、第(k−1)学習用加工イメージ上の一つ以上の第(k−1)学習用物体プロポーザルを参照して、前記第(k−1)学習用加工イメージ上で、少なくとも一つの学習用ターゲット物体が位置するものと予測される領域に対応する第(k−1)学習用ターゲット領域を探すようにし、(ii)前記トレーニングイメージ、またはこれに対応する一つ以上のリサイズされたトレーニングイメージ上で、前記第(k−1)学習用ターゲット領域に対応する第k学習用加工イメージが取得されると、前記コンボリューションレイヤをもって、前記第k学習用加工イメージに前記コンボリューション演算を適用して第k学習用特徴マップを出力するようにし、(iii)前記RPNをもって、前記第k学習用特徴マップを利用して、前記第k学習用加工イメージ内に位置する一つ以上の第k学習用物体それぞれに対応する一つ以上の第k学習用物体プロポーザルを出力するようにし、(iv)前記プーリングレイヤをもって、前記第k学習用特徴マップ上で、前記第k学習用物体プロポーザルそれぞれに対応するそれぞれの領域に前記プーリング演算を適用して、少なくとも一つの第k学習用プーリング済み特徴マップを出力するようにし、(v)前記FCレイヤをもって、前記第k学習用プーリング済み特徴マップにFC演算を適用して、前記第k学習用物体に対応する第k学習用物体検出情報を出力するようにし、(3)(i)前記ターゲット物体統合ネットワークをもって、前記第1学習用物体プロポーザルないし前記第n学習用物体プロポーザルを統合して学習用統合物体プロポーザルを出力するようにし、前記第1学習用物体検出情報ないし前記第n学習用物体検出情報を統合して学習用統合物体検出情報を出力するようにし、(ii)FCロスレイヤをもって、前記学習用統合物体検出情報と、これに対応するGTとを参照して一つ以上のFCロスを生成するようにすることで、前記FCロスを利用したバックプロパゲーション(Backpropagation)によって、前記FCレイヤ及び前記コンボリューションレイヤのパラメータの中の少なくとも一部を学習した状態で、少なくとも一つのテストイメージが取得されると、テスティング装置が、(i)前記コンボリューションレイヤをもって、前記テストイメージに対応する少なくとも一つの第1テスト用加工イメージに前記コンボリューション演算を適用して、少なくとも一つの第1テスト用特徴マップを出力するようにし、(ii)前記RPNをもって、前記第1テスト用特徴マップを利用して、前記第1テスト用加工イメージ内に位置する一つ以上の第1テスト用物体それぞれに対応する一つ以上の第1テスト用物体プロポーザルを出力するようにし、(iii)前記プーリングレイヤをもって、前記第1テスト用特徴マップ上で、前記第1テスト用物体プロポーザルそれぞれに対応するそれぞれの領域に前記プーリング演算を適用して、少なくとも一つの第1テスト用プーリング済み特徴マップを出力するようにし、(iv)前記FCレイヤをもって、前記第1テスト用プーリング済み特徴マップに前記FC演算を適用して、前記第1テスト用物体に対応する第1テスト用物体検出情報を出力するようにする段階;
(b)kを2からnまで増加させながら、前記テスティング装置が、(i)前記ターゲット物体予測ネットワークをもって、第(k−1)テスト用加工イメージ上の一つ以上の第(k−1)テスト用物体プロポーザルを参照して、前記第(k−1)テスト用加工イメージ上で、少なくとも一つのテスト用ターゲット物体が位置するものと予測される領域に対応する第(k−1)テスト用ターゲット領域を探すようにし、(ii)前記テストイメージ、またはこれに対応する一つ以上のリサイズされたテストイメージ上で、前記第(k−1)テスト用ターゲット領域に対応する第kテスト用加工イメージが取得されると、前記コンボリューションレイヤをもって、前記第kテスト用加工イメージに前記コンボリューション演算を適用して第kテスト用特徴マップを出力するようにし、(iii)前記RPNをもって、前記第kテスト用特徴マップを参照して、前記第kテスト用加工イメージ内に位置する一つ以上の第kテスト用物体それぞれに対応する一つ以上の第kテスト用物体プロポーザルを出力するようにし、(iv)前記プーリングレイヤをもって、前記第kテスト用特徴マップ上で、前記第kテスト用物体プロポーザルそれぞれに対応するそれぞれの領域に前記プーリング演算を適用して、少なくとも一つの第kテスト用プーリング済み特徴マップを出力するようにし、(v)前記FCレイヤをもって、前記第kテスト用プーリング済み特徴マップに前記FC演算を適用して、前記第kテスト用物体に対応する第kテスト用物体検出情報を出力するようにする段階;及び
(c)前記テスティング装置が(i)前記ターゲット物体統合ネットワークをもって、前記第1テスト用物体プロポーザルないし前記第nテスト用物体プロポーザルを統合してテスト用統合物体プロポーザルを出力するようにし、前記第1テスト用物体検出情報ないし前記第nテスト用物体検出情報を統合してテスト用統合物体検出情報を出力する段階;
を含むことを特徴とするテスティング方法。 - 前記(c)段階で、
前記第(k−1)テスト用加工イメージ及び前記第kテスト用加工イメージ上に少なくとも一つのテスト用特定同一物体が位置し、前記第(k−1)テスト用加工イメージ上で前記第(k−1)テスト用物体プロポーザルの中の、前記特定同一物体に対応する少なくとも一つのテスト用物体プロポーザルを第(k−1)特定物体プロポーザルとし、前記第kテスト用加工イメージ上で、前記第kテスト用物体プロポーザルの中の、前記テスト用特定同一物体に対応する少なくとも一つのテスト用物体プロポーザルを第kテスト用特定物体プロポーザルであるとする場合、
前記テスティング装置は、前記ターゲット物体統合ネットワークをもって、前記第(k−1)テスト用特定物体プロポーザルと、前記第kテスト用特定物体プロポーザルとの間のテスト用IOU(Intersection Over Union)が、第1閾値以上になるかを判断するようにし、前記テスト用IOUが前記第1閾値未満であると判断されると、前記第(k−1)テスト用特定物体プロポーザルと、前記第kテスト用特定物体プロポーザルとの間のテスト用調整IOUを算出するようにし、前記テスト用調整IOUが第2閾値以上と判断されれば、前記第(k−1)テスト用特定物体プロポーザルと、前記第kテスト用特定物体プロポーザルとの中で、(i)確率値の高いテスト用特定物体プロポーザルを選択するようにするか(ii)前記テストイメージ上で演算される面積の大きいテスト用特定物体プロポーザルを選択させることにより、前記選択されたテスト用特定物体プロポーザルを前記テスト用特定同一物体に対応するテスト用特定統合物体プロポーザルとして生成することを特徴とする請求項9に記載のテスティング方法。 - 前記テスト用調整IOUは、前記第kテスト用加工イメージ上で前記第(k−1)テスト用特定物体プロポーザルに対応する領域と、前記第(k−1)テスト用加工イメージ上で前記第kテスト用特定物体プロポーザルに対応する領域とを参照して算出されることを特徴とする請求項10に記載のテスティング方法。
- 前記テスティング装置は、前記ターゲット物体統合ネットワークをもって、前記テスト用IOUが前記第1閾値以上になるか否かを判断するようにし、前記テスト用IOUが前記第1閾値以上であると判断されれば、前記第(k−1)テスト用特定物体プロポーザルと、前記第kテスト用特定物体プロポーザルとの中で、(i)確率値の高いテスト用特定物体プロポーザルを選択するようにするか(ii)それぞれの前記テスト加工イメージ上で演算される面積の大きいテスト用特定物体プロポーザルを選択するようにすることにより、前記選択されたテスト用物体プロポーザルを前記テスト用特定同一物体に対応する前記テスト用特定統合物体プロポーザルとして生成することを特徴とする請求項10に記載のテスティング方法。
- 前記(c)段階で、
前記第(k−1)テスト用加工イメージ及び前記第kテスト用加工イメージ上に少なくとも一つのテスト用特定同一物体が位置し、前記第(k−1)テスト用加工イメージ上で、前記第(k−1)テスト用物体検出情報に含まれたテスト用物体バウンディングボックス(Bounding box)の中の、前記テスト用特定同一物体に対応する少なくとも一つのテスト用物体バウンディングボックスを第(k−1)テスト用特定物体バウンディングボックスとし、前記第kテスト用加工イメージ上で、前記第kテスト用物体検出情報に含まれたテスト用物体バウンディングボックスの中の、前記テスト用特定同一物体に対応する少なくとも一つのテスト用物体バウンディングボックスを第kテスト用特定物体バウンディングボックスとした場合、
前記テスティング装置は、前記ターゲット物体統合ネットワークをもって、前記第(k−1)テスト用特定物体バウンディングボックスと、前記第kテスト用特定物体バウンディングボックスとの間のテスト用IOUが、第1閾値以上になるかを判断するようにし、前記テスト用IOUが前記第1閾値未満であると判断されれば、前記第(k−1)テスト用特定物体バウンディングボックスと、前記第kテスト用特定物体バウンディングボックスとの間のテスト用調整IOUを算出するようにし、前記テスト用調整IOUが第2閾値以上と判断されれば、前記第(k−1)テスト用特定物体バウンディングボックスと、前記第kテスト用特定物体バウンディングボックスとの中から(i)確率値の高いテスト用特定物体バウンディングボックスを選択するようにするか(ii)前記テストイメージ上で演算される面積の大きいテスト用特定物体バウンディングボックスを選択するようにすることにより、前記選択されたテスト用特定物体バウンディングボックスを前記テスト用特定同一物体に対応するテスト用特定統合物体検出情報として生成することを特徴とする請求項9に記載のテスティング方法。 - 前記テスト用調整IOUは、前記第kテスト用加工イメージ上で前記第(k−1)テスト用特定物体バウンディングボックスに対応する領域と、前記第(k−1)テスト用加工イメージ上で前記第kテスト用特定物体バウンディングボックスに対応する領域とを参照して算出されることを特徴とする請求項13に記載のテスティング方法。
- 前記テスティング装置は、前記ターゲット物体統合ネットワークをもって、前記テスト用IOUが前記第1閾値以上になるか否かを判断するようにし、前記テスト用IOUが前記第1閾値以上と判断されれば、前記第(k−1)テスト用特定物体バウンディングボックスと、前記第kテスト用特定物体バウンディングボックスとの中から(i)確率値の高いテスト用特定物体バウンディングボックスを選択するようにするか(ii)それぞれの前記テスト用加工イメージ上で演算される面積の大きいテスト用特定物体バウンディングボックスを選択するようにすることにより、前記選択されたテスト用特定物体バウンディングボックスを前記テスト用特定同一物体に対応する前記テスト用特定統合物体検出情報として生成することを特徴とする請求項13に記載のテスティング方法。
- ターゲット物体予測ネットワークと、ターゲット物体統合ネットワークとを利用したCNN基盤の物体検出器のパラメータを学習するための学習装置において、
インストラクションを格納する少なくとも一つのメモリ;及び
(I)(i)一つ以上のコンボリューションレイヤをもって、少なくとも一つのトレーニングイメージに対応する少なくとも一つの第1加工イメージに一つ以上のコンボリューション演算を適用して、少なくとも一つの第1特徴マップを出力するようにし、(ii)RPN(Region Proposal Network)をもって、前記第1特徴マップを利用して、前記第1加工イメージ内に位置する一つ以上の第1物体それぞれに対応する一つ以上の第1物体プロポーザルを出力するようにし、(iii)プーリングレイヤをもって、前記第1特徴マップ上で、前記第1物体プロポーザルそれぞれに対応するそれぞれの領域に一つ以上のプーリング演算を適用して、少なくとも一つの第1プーリング済み特徴マップを出力するようにし、(iv)FC(Fully Connected)レイヤをもって、前記第1プーリング済み特徴マップに少なくとも一つのFC演算を適用して、前記第1物体に対応する第1物体検出情報を出力するようにするプロセス、(II)kを2からnまで増加させながら、(i)前記ターゲット物体予測ネットワークをもって、第(k−1)加工イメージ上の一つ以上の第(k−1)物体プロポーザルを参照して、前記第(k−1)加工イメージ上で、少なくとも一つのターゲット物体が位置するものと予測される領域に対応する第(k−1)ターゲット領域を探すようにし、(ii)前記トレーニングイメージ、またはこれに対応するリサイズされたトレーニングイメージ上で、前記第(k−1)ターゲット領域に対応する第k加工イメージが取得されると、前記コンボリューションレイヤをもって、前記第k加工イメージに前記コンボリューション演算を適用して第k特徴マップを出力するようにし、(iii)前記RPNをもって、前記第k特徴マップを参照して、前記第k加工イメージ内に位置する一つ以上の第k物体それぞれに対応する一つ以上の第k物体プロポーザルを出力するようにし、(iv)前記プーリングレイヤをもって、前記第k特徴マップ上で、前記第k物体プロポーザルそれぞれに対応するそれぞれの領域に前記プーリング演算を適用して、少なくとも一つの第kプーリング済み特徴マップを出力するようにし、(v)前記FCレイヤをもって、前記第kプーリング済み特徴マップに前記FC演算を適用して、前記第k物体に対応する第k物体検出情報を出力するようにするプロセス、及び(III)(i)前記ターゲット物体統合ネットワークをもって、前記第1物体プロポーザルないし前記第n物体プロポーザルを統合して統合物体プロポーザルを出力するようにし、前記第1物体検出情報ないし前記第n物体検出情報を統合して統合物体検出情報を出力するようにし、(ii)FCロスレイヤをもって、前記統合物体検出情報と、これに対応するGTとを参照して一つ以上のFCロスを生成するようにすることで、前記FCロスを利用したバックプロパゲーション(Backpropagation)によって、前記FCレイヤ及び前記コンボリューションレイヤのパラメータの中の少なくとも一部を学習するプロセスを遂行するための、前記インストラクションを実行するように構成された少なくとも一つのプロセッサ;
を含むことを特徴とする学習装置。 - 前記(III)プロセスで、
前記プロセッサは、RPNロスレイヤをもって、前記統合物体プロポーザルと、これに対応するGTとを参照して一つ以上のRPNロスを算出するようにすることで、前記RPNロスを利用したバックプロパゲーションによって前記RPNのパラメータを学習することを特徴とする請求項16に記載の学習装置。 - 前記(III)プロセスで、
前記第(k−1)加工イメージ及び前記第k加工イメージ上に少なくとも一つの特定同一物体が位置し、前記第(k−1)加工イメージ上で前記第(k−1)物体プロポーザルの中の、前記特定同一物体に対応する少なくとも一つの物体プロポーザルを第(k−1)特定物体プロポーザルとし、前記第k加工イメージ上で、前記第k物体プロポーザルの中の、前記特定同一物体に対応する少なくとも一つの物体プロポーザルを第k特定物体プロポーザルであるとする場合、
前記プロセッサは、前記ターゲット物体統合ネットワークをもって、前記第(k−1)特定物体プロポーザルと、前記第k特定物体プロポーザルとの間のIOU(Intersection Over Union)が、第1閾値以上になるかを判断するようにし、前記IOUが前記第1閾値未満であると判断されれば、前記第(k−1)特定物体プロポーザルと、前記第k特定物体プロポーザルとの間の調整IOUを算出するようにし、前記調整IOUが第2閾値以上と判断されれば、前記第(k−1)特定物体プロポーザルと、前記第k特定物体プロポーザルとの中で、(i)確率値の高い特定物体プロポーザルを選択するようにするか(ii)前記トレーニングイメージ上で演算される面積の大きい特定物体プロポーザルを選択するようにすることにより、前記選択された特定物体プロポーザルを前記特定同一物体に対応する特定統合物体プロポーザルとして生成することを特徴とする請求項16に記載の学習装置。 - 前記調整IOUは、前記第k加工イメージ上で前記第(k−1)特定物体プロポーザルに対応する領域と、前記第(k−1)加工イメージ上で前記第k特定物体プロポーザルに対応する領域とを参照して算出されることを特徴とする請求項18に記載の学習装置。
- 前記プロセッサは、前記ターゲット物体統合ネットワークをもって、前記IOUが前記第1閾値以上になるか否かを判断するようにし、前記IOUが前記第1閾値以上と判断されれば、前記第(k−1)特定物体プロポーザルと、前記第k特定物体プロポーザルとの中の(i)確率値の高い特定物体プロポーザルを選択するようにするか(ii)それぞれの前記加工イメージ上で演算される面積の大きい特定物体プロポーザルを選択するようにすることにより、前記選択された特定物体プロポーザルを前記特定同一物体に対応する前記特定統合物体プロポーザルとして生成することを特徴とする請求項18に記載の学習装置。
- 前記(III)プロセスで、
前記第(k−1)加工イメージ及び前記第k加工イメージ上に少なくとも一つの特定同一物体が位置し、前記第(k−1)加工イメージ上で、前記第(k−1)物体検出情報に含まれた物体バウンディングボックス(Bounding box)の中の、前記特定同一物体に対応する少なくとも一つの物体バウンディングボックスを第(k−1)特定物体バウンディングボックスとし、前記第k加工イメージ上で、前記第k物体検出情報に含まれた物体バウンディングボックスの中の、前記特定同一物体に対応する少なくとも一つの物体バウンディングボックスを第k特定物体バウンディングボックスとした場合、
前記プロセッサは、前記ターゲット物体統合ネットワークをもって、前記第(k−1)特定物体バウンディングボックスと、前記第k特定物体バウンディングボックスとの間のIOUが、第1閾値以上になるか否かを判断するようにし、前記IOUが前記第1閾値未満と判断されると、前記第(k−1)特定物体バウンディングボックスと、前記第k特定物体バウンディングボックスとの間の調整IOUとを算出するようにし、前記調整IOUが、第2閾値以上と判断されたら、前記第(k−1)特定物体バウンディングボックスと、前記第k特定物体バウンディングボックスとの中から(i)確率値の高い特定物体バウンディングボックスを選択するようにするか(ii)前記トレーニングイメージ上で演算される面積の大きい特定物体バウンディングボックスを選択するようにすることにより、前記選択された特定物体バウンディングボックスを前記特定同一物体に対応する特定統合物体検出情報として生成することを特徴とする請求項16に記載の学習装置。 - 前記調整IOUは、前記第k加工イメージ上で前記第(k−1)特定物体バウンディングボックスに対応する領域と、前記第(k−1)加工イメージ上で前記第k特定物体バウンディングボックスに対応する領域とを参照して算出されることを特徴とする請求項21に記載の学習装置。
- 前記プロセッサは、前記ターゲット物体統合ネットワークをもって、前記IOUが前記第1閾値以上になるか否かを判断するようにし、前記IOUが前記第1閾値以上と判断されれば、前記第(k−1)特定物体バウンディングボックスと、前記第k特定物体バウンディングボックスとの中から(i)確率値の高い特定物体バウンディングボックスを選択するようにするか(ii)それぞれの前記加工イメージ上で演算される面積の大きい特定物体バウンディングボックスを選択させることにより、前記選択された特定物体バウンディングボックスを前記特定同一物体に対応する前記特定統合物体検出情報として生成することを特徴とする請求項21に記載の学習装置。
- ターゲット物体予測ネットワークと、ターゲット物体統合ネットワークとを利用したCNN基盤の物体検出器をテストするためのテスティング装置において、
インストラクションを格納する少なくとも一つのメモリ;及び
学習装置が、(1)(i)一つ以上のコンボリューションレイヤをもって、少なくとも一つのトレーニングイメージに対応する少なくとも一つの第1学習用加工イメージに一つ以上のコンボリューション演算を適用して、少なくとも一つの第1学習用特徴マップを出力するようにし、(ii)RPNをもって、前記第1学習用特徴マップを利用して、前記第1学習用加工イメージ内に位置する一つ以上の第1学習用物体それぞれに対応する一つ以上の第1学習用物体プロポーザルを出力するようにし、(iii)プーリングレイヤをもって、前記第1学習用特徴マップ上で、前記第1学習用物体プロポーザルそれぞれに対応するそれぞれの領域に一つ以上のプーリング演算を適用して、少なくとも一つの第1学習用プーリング済み特徴マップを出力するようにし、(iv)FCレイヤをもって、前記第1学習用プーリング済み特徴マップに少なくとも一つのFC演算を適用して、前記第1学習用物体に対応する第1学習用物体検出情報を出力するようにし、(2)kを2からnまで増加させながら、(i)前記ターゲット物体予測ネットワークをもって、第(k−1)学習用加工イメージ上の一つ以上の第(k−1)学習用物体プロポーザルを参照して、前記第(k−1)学習用加工イメージ上で、少なくとも一つの学習用ターゲット物体が位置するものと予測される領域に対応する第(k−1)学習用ターゲット領域を探すようにし、(ii)前記トレーニングイメージ、またはこれに対応する一つ以上のリサイズされたトレーニングイメージ上で、前記第(k−1)学習用ターゲット領域に対応する第k学習用加工イメージが取得されると、前記コンボリューションレイヤをもって、前記第k学習用加工イメージに前記コンボリューション演算を適用して第k学習用特徴マップを出力するようにし、(iv)前記プーリングレイヤをもって、前記第k学習用特徴マップ上で、前記第k学習用物体プロポーザルそれぞれに対応するそれぞれの領域に前記プーリング演算を適用して、少なくとも一つの第k学習用プーリング済み特徴マップを出力するようにし、(v)前記FCレイヤをもって、前記第k学習用プーリング済み特徴マップにFC演算を適用して、前記第k学習用物体に対応する第k学習用物体検出情報を出力するようにし、(3)(i)前記ターゲット物体統合ネットワークをもって、前記第1学習用物体プロポーザルないし前記第n学習用物体プロポーザルを統合して学習用統合物体プロポーザルを出力するようにし、前記第1学習用物体検出情報ないし前記第n学習用物体検出情報を統合して学習用統合物体検出情報を出力するようにし、(ii)FCロスレイヤをもって、前記学習用統合物体検出情報と、これに対応するGTとを参照して一つ以上のFCロスを生成するようにすることで、前記FCロスを利用したバックプロパゲーション(Backpropagation)によって、前記FCレイヤ及び前記コンボリューションレイヤのパラメータの中の少なくとも一部を学習した状態で、(I)(i)前記コンボリューションレイヤをもって、少なくとも一つのテストイメージに対応する少なくとも一つの第1テスト用加工イメージに前記コンボリューション演算を適用して、少なくとも一つの第1テスト用特徴マップを出力するようにし、(ii)前記RPNをもって、前記第1テスト用特徴マップを利用して、前記第1テスト用加工イメージ内に位置する一つ以上の第1テスト用物体それぞれに対応する一つ以上の第1テスト用物体プロポーザルを出力するようにし、(iii)前記プーリングレイヤをもって、前記第1テスト用特徴マップ上で、前記第1テスト用物体プロポーザルそれぞれに対応するそれぞれの領域に前記プーリング演算を適用して、少なくとも一つの第1テスト用プーリング済み特徴マップを出力するようにし、(iv)前記FCレイヤをもって、前記第1テスト用プーリング済み特徴マップに前記FC演算を適用して、前記第1テスト用物体に対応する第1テスト用物体検出情報を出力するようにするプロセス、(II)kを2からnまで増加させながら、(i)前記ターゲット物体予測ネットワークをもって、第(k−1)テスト用加工イメージ上の一つ以上の第(k−1)テスト用物体プロポーザルを参照して、前記第(k−1)テスト用加工イメージ上で、少なくとも一つのテスト用ターゲット物体が位置するものと予測される領域に対応する第(k−1)テスト用ターゲット領域を探すようにし、(ii)前記テストイメージ、またはこれに対応する一つ以上のリサイズされたテストイメージ上で、前記第(k−1)テスト用ターゲット領域に対応する第kテスト用加工イメージが取得されると、前記コンボリューションレイヤをもって、前記第kテスト用加工イメージに前記コンボリューション演算を適用して第kテスト用特徴マップを出力するようにし、(iii)前記RPNをもって、前記第kテスト用特徴マップを参照して、前記第kテスト用加工イメージ内に位置する一つ以上の第kテスト用物体それぞれに対応する一つ以上の第kテスト用物体プロポーザルを出力するようにし、(iv)前記プーリングレイヤをもって、前記第kテスト用特徴マップ上で、前記第kテスト用物体プロポーザルそれぞれに対応するそれぞれの領域に前記プーリング演算を適用して、少なくとも一つの第kテスト用プーリング済み特徴マップを出力するようにし、(v)前記FCレイヤをもって、前記第kテスト用プーリング済み特徴マップに前記FC演算を適用して、前記第kテスト用物体に対応する第kテスト用物体検出情報を出力するようにするプロセス、及び(III)(i)前記ターゲット物体統合ネットワークをもって、前記第1テスト用物体プロポーザルないし前記第nテスト用物体プロポーザルを統合してテスト用統合物体プロポーザルを出力するようにし、前記第1テスト用物体検出情報ないし前記第nテスト用物体検出情報を統合してテスト用統合物体検出情報を出力するプロセスを遂行するための、前記インストラクションを実行するように構成された少なくとも一つのプロセッサ;
を含むことを特徴とするテスティング装置。 - 前記(III)プロセスで、
前記第(k−1)テスト用加工イメージ及び前記第kテスト用加工イメージ上に少なくとも一つのテスト用特定同一物体が位置し、前記第(k−1)テスト用加工イメージ上で前記第(k−1)テスト用物体プロポーザルの中の、前記特定同一物体に対応する少なくとも一つのテスト用物体プロポーザルを第(k−1)特定物体プロポーザルとし、前記第kテスト用加工イメージ上で、前記第kテスト用物体プロポーザルの中の、前記テスト用特定同一物体に対応する少なくとも一つのテスト用物体プロポーザルを第kテスト用特定物体プロポーザルであるとする場合、
前記プロセッサは、前記ターゲット物体統合ネットワークをもって、前記第(k−1)テスト用特定物体プロポーザルと、前記第kテスト用特定物体プロポーザルとの間のテスト用IOU(Intersection Over Union)が、第1閾値以上になるかを判断するようにし、前記テスト用IOUが前記第1閾値未満であると判断されれば、前記第(k−1)テスト用特定物体プロポーザルと、前記第kテスト用特定物体プロポーザルとの間のテスト用調整IOUを算出するようにし、前記テスト用調整IOUが第2閾値以上と判断されれば、前記第(k−1)テスト用特定物体プロポーザルと、前記第kテスト用特定物体プロポーザルとの中で、(i)確率値の高いテスト用特定物体プロポーザルを選択するようにするか(ii)前記テストイメージ上で演算される面積の大きいテスト用特定物体プロポーザルを選択するようにすることにより、前記選択されたテスト用特定物体プロポーザルを前記テスト用特定同一物体に対応するテスト用特定統合物体プロポーザルとして生成することを特徴とする請求項24に記載のテスティング装置。 - 前記テスト用調整IOUは、前記第kテスト用加工イメージ上で前記第(k−1)テスト用特定物体プロポーザルに対応する領域と、前記第(k−1)テスト用加工イメージ上で前記第kテスト用特定物体プロポーザルに対応する領域とを参照して算出されることを特徴とする請求項25に記載のテスティング装置。
- 前記プロセッサは、前記ターゲット物体統合ネットワークをもって、前記テスト用IOUが前記第1閾値以上になるか否かを判断するようにし、前記テスト用IOUが前記第1閾値以上と判断されれば、前記第(k−1)テスト用特定物体プロポーザルと、前記第kテスト用特定物体プロポーザルとの中の(i)確率値の高いテスト用特定物体プロポーザルを選択するようにするか(ii)それぞれの前記テスト加工イメージ上で演算される面積の大きいテスト用特定物体プロポーザルを選択するようにすることにより、前記選択されたテスト用物体プロポーザルを前記テスト用特定同一物体に対応する前記テスト用特定統合物体プロポーザルとして生成することを特徴とする請求項25に記載のテスティング装置。
- 前記(III)プロセスで、
前記第(k−1)テスト用加工イメージ及び前記第kテスト用加工イメージ上に少なくとも一つのテスト用特定同一物体が位置し、前記第(k−1)テスト用加工イメージ上で、前記第(k−1)テスト用物体検出情報に含まれたテスト用物体バウンディングボックス(Bounding box)の中の、前記テスト用特定同一物体に対応する少なくとも一つのテスト用物体バウンディングボックスを第(k−1)テスト用特定物体バウンディングボックスとし、前記第kテスト用加工イメージ上で、前記第kテスト用物体検出情報に含まれたテスト用物体バウンディングボックスの中の、前記テスト用特定同一物体に対応する少なくとも一つのテスト用物体バウンディングボックスを第kテスト用特定物体バウンディングボックスとした場合、
前記プロセッサは、前記ターゲット物体統合ネットワークをもって、前記第(k−1)テスト用特定物体バウンディングボックスと、前記第kテスト用特定物体バウンディングボックスとの間のテスト用IOUが、第1閾値以上になるか否かを判断するようにし、前記テスト用IOUが前記第1閾値未満と判断されると、前記第(k−1)テスト用特定物体バウンディングボックスと、前記第kテスト用特定物体バウンディングボックスとの間のテスト用調整IOUを算出するようにし、前記テスト用調整IOUが第2閾値以上と判断されれば、前記第(k−1)テスト用特定物体バウンディングボックスと、前記第kテスト用特定物体バウンディングボックスとの中から(i)確率値の高いテスト用特定物体バウンディングボックスを選択するようにするか(ii)前記テストイメージ上で演算される面積の大きいテスト用特定物体バウンディングボックスを選択させることにより、前記選択されたテスト用特定物体バウンディングボックスを前記テスト用特定同一物体に対応するテスト用特定統合物体検出情報として生成することを特徴とする請求項24に記載のテスティング装置。 - 前記テスト用調整IOUは、前記第kテスト用加工イメージ上で前記第(k−1)テスト用特定物体バウンディングボックスに対応する領域と、前記第(k−1)テスト用加工イメージ上で前記第kテスト用特定物体バウンディングボックスに対応する領域とを参照して算出されることを特徴とする請求項28に記載のテスティング装置。
- 前記プロセッサは、前記ターゲット物体統合ネットワークをもって、前記テスト用IOUが前記第1閾値以上になるか否かを判断するようにし、前記テスト用IOUが前記第1閾値以上と判断されれば、前記第(k−1)テスト用特定物体バウンディングボックスと、前記第kテスト用特定物体バウンディングボックスとの中の(i)確率値の高いテスト用特定物体バウンディングボックスを選択するようにするか(ii)それぞれの前記テスト用加工イメージ上で演算される面積の大きいテスト用特定物体バウンディングボックスを選択させることにより、前記選択されたテスト用特定物体バウンディングボックスを前記テスト用特定同一物体に対応する前記テスト用特定統合物体検出情報として生成することを特徴とする請求項28に記載のテスティング装置。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US16/254,466 US10509987B1 (en) | 2019-01-22 | 2019-01-22 | Learning method and learning device for object detector based on reconfigurable network for optimizing customers' requirements such as key performance index using target object estimating network and target object merging network, and testing method and testing device using the same |
US16/254,466 | 2019-01-22 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2020119545A JP2020119545A (ja) | 2020-08-06 |
JP6857370B2 true JP6857370B2 (ja) | 2021-04-14 |
Family
ID=68841489
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2020002986A Active JP6857370B2 (ja) | 2019-01-22 | 2020-01-10 | ターゲット物体予測ネットワーク及びターゲット物体統合ネットワークを利用して、重要業績評価指標のようなユーザー要求事項に係る最適化のための再構成可能なネットワーク基盤の物体検出器を学習する方法及び学習装置、並びにこれを利用したテスティング方法及びテスティング装置 |
Country Status (5)
Country | Link |
---|---|
US (2) | US10509987B1 (ja) |
EP (1) | EP3686782A1 (ja) |
JP (1) | JP6857370B2 (ja) |
KR (1) | KR102338744B1 (ja) |
CN (1) | CN111461106B (ja) |
Families Citing this family (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2018089210A1 (en) * | 2016-11-09 | 2018-05-17 | Konica Minolta Laboratory U.S.A., Inc. | System and method of using multi-frame image features for object detection |
CN110096933B (zh) * | 2018-01-30 | 2023-07-18 | 华为技术有限公司 | 目标检测的方法、装置及系统 |
GB2589751B (en) * | 2019-01-23 | 2023-05-17 | Motional Ad Llc | Automatically choosing data samples for annotation |
US10943353B1 (en) | 2019-09-11 | 2021-03-09 | International Business Machines Corporation | Handling untrainable conditions in a network architecture search |
US11023783B2 (en) * | 2019-09-11 | 2021-06-01 | International Business Machines Corporation | Network architecture search with global optimization |
CN111563494B (zh) * | 2020-07-16 | 2020-10-27 | 平安国际智慧城市科技股份有限公司 | 基于目标检测的行为识别方法、装置和计算机设备 |
CN112733587A (zh) * | 2020-08-10 | 2021-04-30 | 长春理工大学 | 一种沙漠化进程演变监测方法 |
CN112001912B (zh) * | 2020-08-27 | 2024-04-05 | 北京百度网讯科技有限公司 | 目标检测方法和装置、计算机系统和可读存储介质 |
CN112257586B (zh) * | 2020-10-22 | 2024-01-23 | 无锡禹空间智能科技有限公司 | 目标检测中的真值框选择方法、装置、存储介质及设备 |
CN112183463B (zh) * | 2020-10-23 | 2021-10-15 | 珠海大横琴科技发展有限公司 | 基于雷达图像的船只识别模型的验证方法及装置 |
US11593597B2 (en) * | 2020-11-16 | 2023-02-28 | GM Global Technology Operations LLC | Object detection in vehicles using cross-modality sensors |
WO2024080393A1 (ko) * | 2022-10-12 | 2024-04-18 | 가톨릭대학교 산학협력단 | 흉부 의료 영상 객체 검출 시스템 및 그 방법 |
Family Cites Families (39)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9524450B2 (en) * | 2015-03-04 | 2016-12-20 | Accenture Global Services Limited | Digital image processing using convolutional neural networks |
US20160283864A1 (en) * | 2015-03-27 | 2016-09-29 | Qualcomm Incorporated | Sequential image sampling and storage of fine-tuned features |
US9965719B2 (en) * | 2015-11-04 | 2018-05-08 | Nec Corporation | Subcategory-aware convolutional neural networks for object detection |
US10002313B2 (en) * | 2015-12-15 | 2018-06-19 | Sighthound, Inc. | Deeply learned convolutional neural networks (CNNS) for object localization and classification |
US9858496B2 (en) * | 2016-01-20 | 2018-01-02 | Microsoft Technology Licensing, Llc | Object detection and classification in images |
CN108475331B (zh) * | 2016-02-17 | 2022-04-05 | 英特尔公司 | 用于对象检测的方法、装置、系统和计算机可读介质 |
US20170262996A1 (en) * | 2016-03-11 | 2017-09-14 | Qualcomm Incorporated | Action localization in sequential data with attention proposals from a recurrent network |
US9830529B2 (en) * | 2016-04-26 | 2017-11-28 | Xerox Corporation | End-to-end saliency mapping via probability distribution prediction |
US10929977B2 (en) * | 2016-08-25 | 2021-02-23 | Intel Corporation | Coupled multi-task fully convolutional networks using multi-scale contextual information and hierarchical hyper-features for semantic image segmentation |
US10354159B2 (en) * | 2016-09-06 | 2019-07-16 | Carnegie Mellon University | Methods and software for detecting objects in an image using a contextual multiscale fast region-based convolutional neural network |
US10354362B2 (en) * | 2016-09-08 | 2019-07-16 | Carnegie Mellon University | Methods and software for detecting objects in images using a multiscale fast region-based convolutional neural network |
EP3532993A4 (en) * | 2016-10-25 | 2020-09-30 | Deep North, Inc. | COMPARISON OF SIMILARITIES OF POINTS TO A SET AND DEEP LEARNING OF CHARACTERISTICS ALLOWING VISUAL RECOGNITION |
US10198671B1 (en) * | 2016-11-10 | 2019-02-05 | Snap Inc. | Dense captioning with joint interference and visual context |
CN110168477B (zh) * | 2016-11-15 | 2022-07-08 | 奇跃公司 | 用于长方体检测的深度学习系统 |
US10262237B2 (en) * | 2016-12-08 | 2019-04-16 | Intel Corporation | Technologies for improved object detection accuracy with multi-scale representation and training |
US10140709B2 (en) * | 2017-02-27 | 2018-11-27 | International Business Machines Corporation | Automatic detection and semantic description of lesions using a convolutional neural network |
US10635927B2 (en) * | 2017-03-06 | 2020-04-28 | Honda Motor Co., Ltd. | Systems for performing semantic segmentation and methods thereof |
US20180268292A1 (en) * | 2017-03-17 | 2018-09-20 | Nec Laboratories America, Inc. | Learning efficient object detection models with knowledge distillation |
US10496895B2 (en) * | 2017-03-28 | 2019-12-03 | Facebook, Inc. | Generating refined object proposals using deep-learning models |
KR20200028330A (ko) * | 2017-05-09 | 2020-03-16 | 뉴럴라 인코포레이티드 | 네트워크 연산 에지 전반에 걸쳐 연속적으로 애플리케이션을 작동하는 딥 러닝과 인공 지능에서 지속적인 메모리 기반 학습을 가능하게 하는 시스템 및 방법 |
US10503978B2 (en) * | 2017-07-14 | 2019-12-10 | Nec Corporation | Spatio-temporal interaction network for learning object interactions |
US10572963B1 (en) * | 2017-07-14 | 2020-02-25 | Synapse Technology Corporation | Detection of items |
KR102463175B1 (ko) * | 2017-09-04 | 2022-11-04 | 삼성전자주식회사 | 객체 인식 방법 및 장치 |
US10607119B2 (en) * | 2017-09-06 | 2020-03-31 | Kla-Tencor Corp. | Unified neural network for defect detection and classification |
US10043113B1 (en) * | 2017-10-04 | 2018-08-07 | StradVision, Inc. | Method and device for generating feature maps by using feature upsampling networks |
US10095977B1 (en) * | 2017-10-04 | 2018-10-09 | StradVision, Inc. | Learning method and learning device for improving image segmentation and testing method and testing device using the same |
US9934440B1 (en) * | 2017-10-04 | 2018-04-03 | StradVision, Inc. | Method for monitoring blind spot of monitoring vehicle and blind spot monitor using the same |
US9947228B1 (en) * | 2017-10-05 | 2018-04-17 | StradVision, Inc. | Method for monitoring blind spot of vehicle and blind spot monitor using the same |
US10497122B2 (en) * | 2017-10-11 | 2019-12-03 | Adobe Inc. | Image crop suggestion and evaluation using deep-learning |
US10169679B1 (en) * | 2017-10-13 | 2019-01-01 | StradVision, Inc. | Learning method and learning device for adjusting parameters of CNN by using loss augmentation and testing method and testing device using the same |
US9946960B1 (en) * | 2017-10-13 | 2018-04-17 | StradVision, Inc. | Method for acquiring bounding box corresponding to an object in an image by using convolutional neural network including tracking network and computing device using the same |
US10223610B1 (en) * | 2017-10-15 | 2019-03-05 | International Business Machines Corporation | System and method for detection and classification of findings in images |
US20190130583A1 (en) * | 2017-10-30 | 2019-05-02 | Qualcomm Incorporated | Still and slow object tracking in a hybrid video analytics system |
US20190130191A1 (en) * | 2017-10-30 | 2019-05-02 | Qualcomm Incorporated | Bounding box smoothing for object tracking in a video analytics system |
US10692243B2 (en) * | 2017-12-03 | 2020-06-23 | Facebook, Inc. | Optimizations for dynamic object instance detection, segmentation, and structure mapping |
KR102455633B1 (ko) * | 2017-12-21 | 2022-10-17 | 삼성전자주식회사 | 라이브니스 검사 방법 및 장치 |
US10878294B2 (en) * | 2018-01-05 | 2020-12-29 | Irobot Corporation | Mobile cleaning robot artificial intelligence for situational awareness |
US10304009B1 (en) * | 2018-10-08 | 2019-05-28 | StradVision, Inc. | Learning method and testing method for object detector based on R-CNN, and learning device and testing device using the same |
US10311321B1 (en) * | 2018-10-26 | 2019-06-04 | StradVision, Inc. | Learning method, learning device using regression loss and testing method, testing device using the same |
-
2019
- 2019-01-22 US US16/254,466 patent/US10509987B1/en active Active
- 2019-10-25 US US16/663,860 patent/US10621476B1/en active Active
- 2019-11-15 KR KR1020190147079A patent/KR102338744B1/ko active IP Right Grant
- 2019-12-20 CN CN201911330655.4A patent/CN111461106B/zh active Active
- 2019-12-27 EP EP19219859.6A patent/EP3686782A1/en active Pending
-
2020
- 2020-01-10 JP JP2020002986A patent/JP6857370B2/ja active Active
Also Published As
Publication number | Publication date |
---|---|
JP2020119545A (ja) | 2020-08-06 |
KR20200091329A (ko) | 2020-07-30 |
KR102338744B1 (ko) | 2021-12-14 |
EP3686782A1 (en) | 2020-07-29 |
US10509987B1 (en) | 2019-12-17 |
CN111461106A (zh) | 2020-07-28 |
CN111461106B (zh) | 2023-10-27 |
US10621476B1 (en) | 2020-04-14 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP6857370B2 (ja) | ターゲット物体予測ネットワーク及びターゲット物体統合ネットワークを利用して、重要業績評価指標のようなユーザー要求事項に係る最適化のための再構成可能なネットワーク基盤の物体検出器を学習する方法及び学習装置、並びにこれを利用したテスティング方法及びテスティング装置 | |
JP6850046B2 (ja) | 重要業績評価指標のようなユーザ要求事項に適したターゲット物体予測ネットワークを用いた、cnn基盤の変動に強い物体検出器を学習する方法及び学習装置、並びにこれを利用したテスティング方法及びテスティング装置 | |
JP6908944B2 (ja) | 多重カメラまたはサラウンドビューモニタリングに利用されるために、ターゲット物体統合ネットワーク及びターゲット物体予測ネットワークを利用して、重要業績評価指標のようなユーザー要求事項に適用可能なcnn基盤の物体検出器を学習する方法及び学習装置、並びにこれを利用したテスティング方法及びテスティング装置 | |
JP6908943B2 (ja) | イメージコンカチネーションと、ターゲット物体予測ネットワークとを利用して、多重カメラ又はサラウンドビューモニタリングに利用される物体検出器を学習する方法及び学習装置、並びにこれを利用したテスティング方法及びテスティング装置 | |
KR102373456B1 (ko) | 자동 주차 시스템을 제공하기 위해 결정 지점 간의 관계 및 결정 지점에 대한 리그레션 결과를 이용하여 주차 공간을 검출하는 학습 방법 및 학습 장치, 그리고 이를 이용한 테스팅 방법 및 테스팅 장치 | |
KR102296507B1 (ko) | 트래킹 네트워크를 포함한 cnn을 사용하여 객체를 트래킹하는 방법 및 이를 이용한 장치 | |
JP6875021B2 (ja) | 有用な学習データを取捨選別するためのcnn基盤の学習方法及び学習装置、そしてこれを利用したテスト方法及びテスト装置 | |
JP6846069B2 (ja) | 遠距離検出または軍事目的のために、イメージコンカチネーションを利用したcnn基盤のハードウェア最適化が可能な物体検出器を学習する方法及び学習装置、それを利用したテスト方法及びテスト装置{learning method and learning device for object detector with hardware optimization based on cnn for detection at distance or military purpose using image concatenation, and testing method and testing device using the same} | |
US10410120B1 (en) | Learning method and testing method of object detector to be used for surveillance based on R-CNN capable of converting modes according to aspect ratios or scales of objects, and learning device and testing device using the same | |
JP6849898B2 (ja) | 生成ニューラルネットワークと、判別ニューラルネットワークとを含む敵対的生成ネットワークを利用して、合成可否判断不可の合成イメージを生成する方法、及び装置 | |
KR102337376B1 (ko) | 레인 마스크(Lane Mask)를 사용하여 후처리 없이 입력 이미지에 포함된 하나 이상의 차선을 검출하는 방법 및 장치, 그리고 이를 이용한 테스트 방법 및 테스트 장치 | |
JP7092383B2 (ja) | 各領域において最適化された自律走行を遂行できるように位置基盤アルゴリズムの選択によってシームレスパラメータ変更を遂行する方法及び装置 | |
US10402978B1 (en) | Method for detecting pseudo-3D bounding box based on CNN capable of converting modes according to poses of objects using instance segmentation and device using the same | |
JP6910081B2 (ja) | 協調走行を遂行する各車両から取得された各走行イメージを統合する方法及びこれを利用した走行イメージ統合装置 | |
JP6892157B2 (ja) | V2x情報融合技術によって取得された、各物体に対する深さ予測情報及び各物体に対するクラス情報を利用して3d空間を再構築することによりhdマップをアップデートする学習方法及び学習装置、そしてこれを利用したテスティング方法及びテスティング装置 | |
CN111488786A (zh) | 基于cnn的监视用客体检测器的方法及装置 | |
JP6853543B2 (ja) | 自律走行に対する論理的根拠を提示するために、管理者が物体検出器の検出プロセスを評価できるように支援する方法及び装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20200110 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20210226 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20210309 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20210312 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 6857370 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |