JP6857370B2 - ターゲット物体予測ネットワーク及びターゲット物体統合ネットワークを利用して、重要業績評価指標のようなユーザー要求事項に係る最適化のための再構成可能なネットワーク基盤の物体検出器を学習する方法及び学習装置、並びにこれを利用したテスティング方法及びテスティング装置 - Google Patents

ターゲット物体予測ネットワーク及びターゲット物体統合ネットワークを利用して、重要業績評価指標のようなユーザー要求事項に係る最適化のための再構成可能なネットワーク基盤の物体検出器を学習する方法及び学習装置、並びにこれを利用したテスティング方法及びテスティング装置 Download PDF

Info

Publication number
JP6857370B2
JP6857370B2 JP2020002986A JP2020002986A JP6857370B2 JP 6857370 B2 JP6857370 B2 JP 6857370B2 JP 2020002986 A JP2020002986 A JP 2020002986A JP 2020002986 A JP2020002986 A JP 2020002986A JP 6857370 B2 JP6857370 B2 JP 6857370B2
Authority
JP
Japan
Prior art keywords
test
specific
learning
proposal
bounding box
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2020002986A
Other languages
English (en)
Other versions
JP2020119545A (ja
Inventor
桂賢 金
桂賢 金
鎔重 金
鎔重 金
寅洙 金
寅洙 金
鶴京 金
鶴京 金
雲鉉 南
雲鉉 南
碩▲ふん▼ 夫
碩▲ふん▼ 夫
明哲 成
明哲 成
東勳 呂
東勳 呂
宇宙 柳
宇宙 柳
泰雄 張
泰雄 張
景中 鄭
景中 鄭
泓模 諸
泓模 諸
浩辰 趙
浩辰 趙
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Stradvision Inc
Original Assignee
Stradvision Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Stradvision Inc filed Critical Stradvision Inc
Publication of JP2020119545A publication Critical patent/JP2020119545A/ja
Application granted granted Critical
Publication of JP6857370B2 publication Critical patent/JP6857370B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/211Selection of the most significant subset of features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/217Validation; Performance evaluation; Active pattern learning techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2413Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on distances to training or reference patterns
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/0464Convolutional networks [CNN, ConvNet]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/047Probabilistic or stochastic networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/60Analysis of geometric attributes
    • G06T7/62Analysis of geometric attributes of area, perimeter, diameter or volume
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/25Determination of region of interest [ROI] or a volume of interest [VOI]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/44Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
    • G06V10/443Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components by matching or filtering
    • G06V10/449Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters
    • G06V10/451Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters with interaction between the filter responses, e.g. cortical complex cells
    • G06V10/454Integrating the filters into a hierarchical structure, e.g. convolutional neural networks [CNN]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/74Image or video pattern matching; Proximity measures in feature spaces
    • G06V10/75Organisation of the matching processes, e.g. simultaneous or sequential comparisons of image or video features; Coarse-fine approaches, e.g. multi-scale approaches; using context analysis; Selection of dictionaries
    • G06V10/759Region-based matching
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/764Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/776Validation; Performance evaluation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/84Arrangements for image or video recognition or understanding using pattern recognition or machine learning using probabilistic graphical models from image or video features, e.g. Markov models or Bayesian networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10004Still image; Photographic image
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/50Context or environment of the image
    • G06V20/56Context or environment of the image exterior to a vehicle by using sensors mounted on the vehicle
    • G06V20/58Recognition of moving objects or obstacles, e.g. vehicles or pedestrians; Recognition of traffic objects, e.g. traffic signs, traffic lights or roads
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V2201/00Indexing scheme relating to image or video recognition or understanding
    • G06V2201/07Target detection

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Data Mining & Analysis (AREA)
  • Software Systems (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Biomedical Technology (AREA)
  • Molecular Biology (AREA)
  • Biophysics (AREA)
  • Mathematical Physics (AREA)
  • Computational Linguistics (AREA)
  • Databases & Information Systems (AREA)
  • Medical Informatics (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Biodiversity & Conservation Biology (AREA)
  • Probability & Statistics with Applications (AREA)
  • Geometry (AREA)
  • Image Analysis (AREA)

Description

本発明は、ターゲット物体予測ネットワーク及びターゲット物体統合ネットワークを利用して、重要業績評価指標(KPI)のようなユーザー要求事項に係る最適化のための再構成可能なCNN基盤の物体検出器のパラメータを学習する方法に関し;より詳細には、ターゲット物体予測ネットワークと、ターゲット物体統合ネットワークとを利用したCNN基盤の物体検出器のパラメータを学習する方法において、(a)少なくとも一つのトレーニングイメージが入力されると、(i)一つ以上のコンボリューションレイヤをもって、前記トレーニングイメージに対応する少なくとも一つの第1加工イメージに一つ以上のコンボリューション演算を適用して、少なくとも一つの第1特徴マップを出力するようにし、(ii)RPN(Region Proposal Network)をもって、前記第1特徴マップを利用して、前記第1加工イメージ内に位置する一つ以上の第1物体それぞれに対応する一つ以上の第1物体プロポーザルを出力するようにし、(iii)プーリングレイヤをもって、前記第1特徴マップ上で、前記第1物体プロポーザルそれぞれに対応するそれぞれの領域に一つ以上のプーリング演算を適用して、少なくとも一つの第1プーリング済み特徴マップを出力するようにし、(iv)FC(Fully Connected)レイヤをもって、前記第1プーリング済み特徴マップに少なくとも一つのFC演算を適用して、前記第1物体に対応する第1物体検出情報を出力するようにする段階;(b)kを2からnまで増加させながら、(i)前記ターゲット物体予測ネットワークをもって、第(k−1)加工イメージ上の一つ以上の第(k−1)物体プロポーザルを参照して、前記第(k−1)加工イメージ上で、少なくとも一つのターゲット物体が位置するものと予測される領域に対応する第(k−1)ターゲット領域を探すようにし、(ii)前記トレーニングイメージ、またはこれに対応するリサイズされたトレーニングイメージ上で、前記第(k−1)ターゲット領域に対応する第k加工イメージが取得されると、前記コンボリューションレイヤをもって、前記第k加工イメージに前記コンボリューション演算を適用して第k特徴マップを出力するようにし、(iii)前記RPNをもって、前記第k特徴マップを参照して、前記第k加工イメージ内に位置する一つ以上の第k物体それぞれに対応する一つ以上の第k物体プロポーザルを出力するようにし、(iv)前記プーリングレイヤをもって、前記第k特徴マップ上で、前記第k物体プロポーザルそれぞれに対応するそれぞれの領域に前記プーリング演算を適用して、少なくとも一つの第kプーリング済み特徴マップを出力するようにし、(v)前記FCレイヤをもって、前記第kプーリング済み特徴マップに前記FC演算を適用して、前記第k物体に対応する第k物体検出情報を出力するようにする段階;及び(c)(i)前記ターゲット物体統合ネットワークをもって、前記第1物体プロポーザルないし前記第n物体プロポーザルを統合して統合物体プロポーザルを出力するようにし、前記第1物体検出情報ないし前記第n物体検出情報を統合して統合物体検出情報を出力するようにし、(ii)FCロスレイヤをもって、前記統合物体検出情報と、これに対応するGTとを参照して一つ以上のFCロスを生成するようにすることで、前記FCロスを利用したバックプロパゲーション(Backpropagation)によって、前記FCレイヤ及び前記コンボリューションレイヤのパラメータの中の、少なくとも一部を学習する段階;を含むことを特徴とする前記方法及び学習装置、そしてこれを利用したテスティング方法及びテスティング装置に関する。
機械学習(machine learning)において、コンボリューションニューラルネットワーク(CNNまたはConvNet)は、視覚的イメージ分析に成功的に適用された深層フィードフォワード人工ニューラルネットワーク(Deep feedforward artificial neural network)である。
CNN基盤の物体検出器は、(i)コンボリューションレイヤをもって、入力イメージにコンボリューション演算を適用することにより、前記入力イメージに対応した特徴マップを出力し、(ii)RPN(Region Proposal Network)をもって、前記特徴マップを利用して、前記入力イメージ内の物体に対応するプロポーザルを確認し、(iii)プーリングレイヤをもって、前記確認されたプロポーザルに対応する前記特徴マップ上の領域に少なくとも一つのプーリング演算を適用して、プーリング済み特徴マップを取得し、(iv)FC(Fully Connected)レイヤをもって、少なくとも一つのFC演算を、前記取得されたプーリング済み特徴マップないし前記物体に関する出力クラス情報と、リグレッション情報とに適用することにより、前記入力イメージ上の前記物体を検出する。
だが、前記CNN基盤の物体検出器は、前記コンボリューションレイヤにより前記入力イメージのサイズを縮小したサイズの前記特徴マップを用いることになるので、前記入力イメージに位置するサイズの大きい物体は容易に検出されるが、前記入力イメージに位置するサイズの小さい物体を検出することは難しい。
他の例として、前記入力イメージを拡大して取得した、リサイズされたイメージを利用してサイズが小さい物体を検出し得るが、この場合は、前記物体検出器による演算量が増加することになり、これによって前記物体検出器の性能が低下する。
従って、本発明の発明者は、入力イメージ上に位置する様々なサイズの物体を、演算時間を減らして効率的に検出する学習方法と学習装置及びこれを利用したテスティング方法とテスティング装置を提案したい。
本発明は、前述した問題点を全て解決することを目的とする。
本発明は、イメージ上の物体をサイズに関係なく効率的に検出できるように、CNN基盤の物体検出器を提供することを他の目的とする。
本発明は、さらに演算量を増加させないうえ、前記イメージ上のサイズが小さい物体を検出できるようにするCNN基盤の物体検出器を提供することを別の目的とする。
前記のような本発明の目的を達成し、後述する本発明の特徴的な効果を実現するための、本発明の特徴的な構成は下記の通りである。
本発明の一態様によれば、ターゲット物体予測ネットワークと、ターゲット物体統合ネットワークとを利用したCNN基盤の物体検出器のパラメータを学習する方法において、(a)少なくとも一つのトレーニングイメージが入力されると、学習装置が、(i)一つ以上のコンボリューションレイヤをもって、前記トレーニングイメージに対応する少なくとも一つの第1加工イメージに一つ以上のコンボリューション演算を適用して、少なくとも一つの第1特徴マップを出力するようにし、(ii)RPN(Region Proposal Network)をもって、前記第1特徴マップを利用して、前記第1加工イメージ内に位置する一つ以上の第1物体それぞれに対応する一つ以上の第1物体プロポーザルを出力するようにし、(iii)プーリングレイヤをもって、前記第1特徴マップ上で、前記第1物体プロポーザルそれぞれに対応するそれぞれの領域に一つ以上のプーリング演算を適用して、少なくとも一つの第1プーリング済み特徴マップを出力するようにし、(iv)FC(Fully Connected)レイヤをもって、前記第1プーリング済み特徴マップに少なくとも一つのFC演算を適用して、前記第1物体に対応する第1物体検出情報を出力するようにする段階;(b)kを2からnまで増加させながら、前記学習装置が、(i)前記ターゲット物体予測ネットワークをもって、第(k−1)加工イメージ上の一つ以上の第(k−1)物体プロポーザルを参照して、前記第(k−1)加工イメージ上で、少なくとも一つのターゲット物体が位置するものと予測される領域に対応する第(k−1)ターゲット領域を探すようにし、(ii)前記トレーニングイメージ、またはこれに対応するリサイズされたトレーニングイメージ上で、前記第(k−1)ターゲット領域に対応する第k加工イメージが取得されると、前記コンボリューションレイヤをもって、前記第k加工イメージに前記コンボリューション演算を適用して第k特徴マップを出力するようにし、(iii)前記RPNをもって、前記第k特徴マップを参照して、前記第k加工イメージ内に位置する一つ以上の第k物体それぞれに対応する一つ以上の第k物体プロポーザルを出力するようにし、(iv)前記プーリングレイヤをもって、前記第k特徴マップ上で、前記第k物体プロポーザルそれぞれに対応するそれぞれの領域に前記プーリング演算を適用して、少なくとも一つの第kプーリング済み特徴マップを出力するようにし、(v)前記FCレイヤをもって、前記第kプーリング済み特徴マップに前記FC演算を適用して、前記第k物体に対応する第k物体検出情報を出力するようにする段階;及び(c)前記学習装置が、(i)前記ターゲット物体統合ネットワークをもって、前記第1物体プロポーザルないし前記第n物体プロポーザルを統合して統合物体プロポーザルを出力するようにし、前記第1物体検出情報ないし前記第n物体検出情報を統合して統合物体検出情報を出力するようにし、(ii)FCロスレイヤをもって、前記統合物体検出情報と、これに対応するGTとを参照して一つ以上のFCロスを生成するようにすることで、前記FCロスを利用したバックプロパゲーション(Backpropagation)によって、前記FCレイヤ及び前記コンボリューションレイヤのパラメータの中の少なくとも一部を学習する段階;を含むことを特徴とする学習方法が提供される。
一例として、前記(c)段階で、前記学習装置は、RPNロスレイヤをもって、前記統合物体プロポーザルと、これに対応するGTとを参照して一つ以上のRPNロスを算出するようにすることで、前記RPNロスを利用したバックプロパゲーションによって前記RPNのパラメータを学習する。
一例として、前記(c)段階で、前記第(k−1)加工イメージ及び前記第k加工イメージ上に少なくとも一つの特定同一物体が位置し、前記第(k−1)加工イメージ上で前記第(k−1)物体プロポーザルの中の、前記特定同一物体に対応する少なくとも一つの物体プロポーザルを第(k−1)特定物体プロポーザルとし、前記第k加工イメージ上で、前記第k物体プロポーザルの中の、前記特定同一物体に対応する少なくとも一つの物体プロポーザルを第k特定物体プロポーザルであるとする場合、前記学習装置は、前記ターゲット物体統合ネットワークをもって、前記第(k−1)特定物体プロポーザルと、前記第k特定物体プロポーザルとの間のIOU(Intersection Over Union)が、第1閾値以上になるかを判断するようにし、前記IOUが前記第1閾値未満であると判断されれば、前記第(k−1)特定物体プロポーザルと、前記第k特定物体プロポーザルとの間の調整IOUを算出するようにし、前記調整IOUが第2閾値以上と判断されれば、前記第(k−1)特定物体プロポーザルと、前記第k特定物体プロポーザルとの中で、(i)確率値の高い特定物体プロポーザルを選択するようにするか(ii)前記トレーニングイメージ上で演算される面積の大きい特定物体プロポーザルを選択するようにすることにより、前記選択された特定物体プロポーザルを前記特定同一物体に対応する特定統合物体プロポーザルとして生成する。
一例として、前記調整IOUは、前記第k加工イメージ上で前記第(k−1)特定物体プロポーザルに対応する領域と、前記第(k−1)加工イメージ上で前記第k特定物体プロポーザルに対応する領域とを参照して算出される。
一例として、前記学習装置は、前記ターゲット物体統合ネットワークをもって、前記IOUが前記第1閾値以上になるか否かを判断するようにし、前記IOUが前記第1閾値以上と判断されれば、前記第(k−1)特定物体プロポーザルと、前記第k特定物体プロポーザルとの中で(i)確率値の高い特定物体プロポーザルを選択するようにするか(ii)それぞれの前記加工イメージ上で演算される面積の大きい特定物体プロポーザルを選択するようにすることにより、前記選択された特定物体プロポーザルを前記特定同一物体に対応する前記特定統合物体プロポーザルとして生成する。
一例として、前記(c)段階で、前記第(k−1)加工イメージ及び前記第k加工イメージ上に少なくとも一つの特定同一物体が位置し、前記第(k−1)加工イメージ上で、前記第(k−1)物体検出情報に含まれた物体バウンディングボックス(Bounding box)の中の、前記特定同一物体に対応する少なくとも一つの物体バウンディングボックスを第(k−1)特定物体バウンディングボックスとし、前記第k加工イメージ上で、前記第k物体検出情報に含まれた物体バウンディングボックスの中の、前記特定同一物体に対応する少なくとも一つの物体バウンディングボックスを第k特定物体バウンディングボックスとした場合、前記学習装置は、前記ターゲット物体統合ネットワークをもって、前記第(k−1)特定物体バウンディングボックスと、前記第k特定物体バウンディングボックスとの間のIOUが、第1閾値以上になるか否かを判断するようにし、前記IOUが前記第1閾値未満と判断されると、前記第(k−1)特定物体バウンディングボックスと、前記第k特定物体バウンディングボックスとの間の調整IOUとを算出するようにし、前記調整IOUが、第2閾値以上と判断されたら、前記第(k−1)特定物体バウンディングボックスと、前記第k特定物体バウンディングボックスとの中から(i)確率値の高い特定物体バウンディングボックスを選択するようにするか(ii)前記トレーニングイメージ上で演算される面積の大きい特定物体バウンディングボックスを選択させることにより、前記選択された特定物体バウンディングボックスを前記特定同一物体に対応する特定統合物体検出情報として生成する。
一例として、前記調整IOUは、前記第k加工イメージ上で前記第(k−1)特定物体バウンディングボックスに対応する領域と、前記第(k−1)加工イメージ上で前記第k特定物体バウンディングボックスに対応する領域とを参照して算出される。
一例として、前記学習装置は、前記ターゲット物体統合ネットワークをもって、前記IOUが前記第1閾値以上になるか否かを判断するようにし、前記IOUが前記第1閾値以上と判断されれば、前記第(k−1)特定物体バウンディングボックスと、前記第k特定物体バウンディングボックスとの中の(i)確率値の高い特定物体バウンディングボックスを選択するようにするか(ii)それぞれの前記加工イメージ上で演算される面積の大きい特定物体バウンディングボックスを選択させることにより、前記選択された特定物体バウンディングボックスを前記特定同一物体に対応する前記特定統合物体検出情報として生成する。
本発明の他の態様によれば、ターゲット物体予測ネットワークと、ターゲット物体統合ネットワークとを利用したCNN基盤の物体検出器をテスティングする方法において、(a)学習装置が、(1)(i)一つ以上のコンボリューションレイヤをもって、少なくとも一つのトレーニングイメージに対応する少なくとも一つの第1学習用加工イメージに一つ以上のコンボリューション演算を適用して、少なくとも一つの第1学習用特徴マップを出力するようにし、(ii)RPNをもって、前記第1学習用特徴マップを利用して、前記第1学習用加工イメージ内に位置する一つ以上の第1学習用物体それぞれに対応する一つ以上の第1学習用物体プロポーザルを出力するようにし、(iii)プーリングレイヤをもって、前記第1学習用特徴マップ上で、前記第1学習用物体プロポーザルそれぞれに対応するそれぞれの領域に一つ以上のプーリング演算を適用して、少なくとも一つの第1学習用プーリング済み特徴マップを出力するようにし、(iv)FCレイヤをもって、前記第1学習用プーリング済み特徴マップに少なくとも一つのFC演算を適用して、前記第1学習用物体に対応する第1学習用物体検出情報を出力するようにし、(2)kを2からnまで増加させながら、(i)前記ターゲット物体予測ネットワークをもって、第(k−1)学習用加工イメージ上の一つ以上の第(k−1)学習用物体プロポーザルを参照して、前記第(k−1)学習用加工イメージ上で、少なくとも一つの学習用ターゲット物体が位置するものと予測される領域に対応する第(k−1)学習用ターゲット領域を探すようにし、(ii)前記トレーニングイメージ、またはこれに対応する一つ以上のリサイズされたトレーニングイメージ上で、前記第(k−1)学習用ターゲット領域に対応する第k学習用加工イメージが取得されると、前記コンボリューションレイヤをもって、前記第k学習用加工イメージに前記コンボリューション演算を適用して第k学習用特徴マップを出力するようにし、(iii)前記RPNをもって、前記第k学習用特徴マップを利用して、前記第k学習用加工イメージ内に位置する一つ以上の第k学習用物体それぞれに対応する一つ以上の第k学習用物体プロポーザルを出力するようにし、(iv)前記プーリングレイヤをもって、前記第k学習用特徴マップ上で、前記第k学習用物体プロポーザルそれぞれに対応するそれぞれの領域に前記プーリング演算を適用して、少なくとも一つの第k学習用プーリング済み特徴マップを出力するようにし、(v)前記FCレイヤをもって、前記第k学習用プーリング済み特徴マップにFC演算を適用して、前記第k学習用物体に対応する第k学習用物体検出情報を出力するようにし、(3)(i)前記ターゲット物体統合ネットワークをもって、前記第1学習用物体プロポーザルないし前記第n学習用物体プロポーザルを統合して学習用統合物体プロポーザルを出力するようにし、前記第1学習用物体検出情報ないし前記第n学習用物体検出情報を統合して学習用統合物体検出情報を出力するようにし、(ii)FCロスレイヤをもって、前記学習用統合物体検出情報と、これに対応するGTとを参照して一つ以上のFCロスを生成するようにすることで、前記FCロスを利用したバックプロパゲーション(Backpropagation)によって、前記FCレイヤ及び前記コンボリューションレイヤのパラメータの中の少なくとも一部を学習した状態で、少なくとも一つのテストイメージが取得されると、テスティング装置が、(i)前記コンボリューションレイヤをもって、前記テストイメージに対応する少なくとも一つの第1テスト用加工イメージに前記コンボリューション演算を適用して、少なくとも一つの第1テスト用特徴マップを出力するようにし、(ii)前記RPNをもって、前記第1テスト用特徴マップを利用して、前記第1テスト用加工イメージ内に位置する一つ以上の第1テスト用物体それぞれに対応する一つ以上の第1テスト用物体プロポーザルを出力するようにし、(iii)前記プーリングレイヤをもって、前記第1テスト用特徴マップ上で、前記第1テスト用物体プロポーザルそれぞれに対応するそれぞれの領域に前記プーリング演算を適用して、少なくとも一つの第1テスト用プーリング済み特徴マップを出力するようにし、(iv)前記FCレイヤをもって、前記第1テスト用プーリング済み特徴マップに前記FC演算を適用して、前記第1テスト用物体に対応する第1テスト用物体検出情報を出力するようにする段階;(b)kを2からnまで増加させながら、前記テスティング装置が、(i)前記ターゲット物体予測ネットワークをもって、第(k−1)テスト用加工イメージ上の一つ以上の第(k−1)テスト用物体プロポーザルを参照して、前記第(k−1)テスト用加工イメージ上で、少なくとも一つのテスト用ターゲット物体が位置するものと予測される領域に対応する第(k−1)テスト用ターゲット領域を探すようにし、(ii)前記テストイメージ、またはこれに対応する一つ以上のリサイズされたテストイメージ上で、前記第(k−1)テスト用ターゲット領域に対応する第kテスト用加工イメージが取得されると、前記コンボリューションレイヤをもって、前記第kテスト用加工イメージに前記コンボリューション演算を適用して第kテスト用特徴マップを出力するようにし、(iii)前記RPNをもって、前記第kテスト用特徴マップを参照して、前記第kテスト用加工イメージ内に位置する一つ以上の第kテスト用物体それぞれに対応する一つ以上の第kテスト用物体プロポーザルを出力するようにし、(iv)前記プーリングレイヤをもって、前記第kテスト用特徴マップ上で、前記第kテスト用物体プロポーザルそれぞれに対応するそれぞれの領域に前記プーリング演算を適用して、少なくとも一つの第kテスト用プーリング済み特徴マップを出力するようにし、(v)前記FCレイヤをもって、前記第kテスト用プーリング済み特徴マップに前記FC演算を適用して、前記第kテスト用物体に対応する第kテスト用物体検出情報を出力するようにする段階;及び(c)前記テスティング装置が(i)前記ターゲット物体統合ネットワークをもって、前記第1テスト用物体プロポーザルないし前記第nテスト用物体プロポーザルを統合してテスト用統合物体プロポーザルを出力するようにし、前記第1テスト用物体検出情報ないし前記第nテスト用物体検出情報を統合してテスト用統合物体検出情報を出力する段階;を含むことを特徴とするテスティング方法が提供される。
一例として、前記(c)段階で、前記第(k−1)テスト用加工イメージ及び前記第kテスト用加工イメージ上に少なくとも一つのテスト用特定同一物体が位置し、前記第(k−1)テスト用加工イメージ上で前記第(k−1)テスト用物体プロポーザルの中の、前記特定同一物体に対応する少なくとも一つのテスト用物体プロポーザルを第(k−1)特定物体プロポーザルとし、前記第kテスト用加工イメージ上で、前記第kテスト用物体プロポーザルの中の、前記テスト用特定同一物体に対応する少なくとも一つのテスト用物体プロポーザルを第kテスト用特定物体プロポーザルであるとする場合、前記テスティング装置は、前記ターゲット物体統合ネットワークをもって、前記第(k−1)テスト用特定物体プロポーザルと、前記第kテスト用特定物体プロポーザルとの間のテスト用IOU(Intersection Over Union)が、第1閾値以上になるかを判断するようにし、前記テスト用IOUが前記第1閾値未満であると判断されると、前記第(k−1)テスト用特定物体プロポーザルと、前記第kテスト用特定物体プロポーザルとの間のテスト用調整IOUを算出するようにし、前記テスト用調整IOUが第2閾値以上と判断されれば、前記第(k−1)テスト用特定物体プロポーザルと、前記第kテスト用特定物体プロポーザルとの中で、(i)確率値の高いテスト用特定物体プロポーザルを選択するようにするか(ii)前記テストイメージ上で演算される面積の大きいテスト用特定物体プロポーザルを選択させることにより、前記選択されたテスト用特定物体プロポーザルを前記テスト用特定同一物体に対応するテスト用特定統合物体プロポーザルとして生成する。
一例として、前記テスト用調整IOUは、前記第kテスト用加工イメージ上で前記第(k−1)テスト用特定物体プロポーザルに対応する領域と、前記第(k−1)テスト用加工イメージ上で前記第kテスト用特定物体プロポーザルに対応する領域とを参照して算出される。
一例として、前記テスティング装置は、前記ターゲット物体統合ネットワークをもって、前記テスト用IOUが前記第1閾値以上になるか否かを判断するようにし、前記テスト用IOUが前記第1閾値以上であると判断されれば、前記第(k−1)テスト用特定物体プロポーザルと、前記第kテスト用特定物体プロポーザルとの中で、(i)確率値の高いテスト用特定物体プロポーザルを選択するようにするか(ii)それぞれの前記テスト加工イメージ上で演算される面積の大きいテスト用特定物体プロポーザルを選択するようにすることにより、前記選択されたテスト用物体プロポーザルを前記テスト用特定同一物体に対応する前記テスト用特定統合物体プロポーザルとして生成する。
一例として、前記(c)段階で、前記第(k−1)テスト用加工イメージ及び前記第kテスト用加工イメージ上に少なくとも一つのテスト用特定同一物体が位置し、前記第(k−1)テスト用加工イメージ上で、前記第(k−1)テスト用物体検出情報に含まれたテスト用物体バウンディングボックス(Bounding box)の中の、前記テスト用特定同一物体に対応する少なくとも一つのテスト用物体バウンディングボックスを第(k−1)テスト用特定物体バウンディングボックスとし、前記第kテスト用加工イメージ上で、前記第kテスト用物体検出情報に含まれたテスト用物体バウンディングボックスの中の、前記テスト用特定同一物体に対応する少なくとも一つのテスト用物体バウンディングボックスを第kテスト用特定物体バウンディングボックスとした場合、前記テスティング装置は、前記ターゲット物体統合ネットワークをもって、前記第(k−1)テスト用特定物体バウンディングボックスと、前記第kテスト用特定物体バウンディングボックスとの間のテスト用IOUが、第1閾値以上になるかを判断するようにし、前記テスト用IOUが前記第1閾値未満であると判断されれば、前記第(k−1)テスト用特定物体バウンディングボックスと、前記第kテスト用特定物体バウンディングボックスとの間のテスト用調整IOUを算出するようにし、前記テスト用調整IOUが第2閾値以上と判断されれば、前記第(k−1)テスト用特定物体バウンディングボックスと、前記第kテスト用特定物体バウンディングボックスとの中から(i)確率値の高いテスト用特定物体バウンディングボックスを選択するようにするか(ii)前記テストイメージ上で演算される面積の大きいテスト用特定物体バウンディングボックスを選択するようにすることにより、前記選択されたテスト用特定物体バウンディングボックスを前記テスト用特定同一物体に対応するテスト用特定統合物体検出情報として生成する。
一例として、前記テスト用調整IOUは、前記第kテスト用加工イメージ上で前記第(k−1)テスト用特定物体バウンディングボックスに対応する領域と、前記第(k−1)テスト用加工イメージ上で前記第kテスト用特定物体バウンディングボックスに対応する領域とを参照して算出される。
一例として、前記テスティング装置は、前記ターゲット物体統合ネットワークをもって、前記テスト用IOUが前記第1閾値以上になるか否かを判断するようにし、前記テスト用IOUが前記第1閾値以上と判断されれば、前記第(k−1)テスト用特定物体バウンディングボックスと、前記第kテスト用特定物体バウンディングボックスとの中から(i)確率値の高いテスト用特定物体バウンディングボックスを選択するようにするか(ii)それぞれの前記テスト用加工イメージ上で演算される面積の大きいテスト用特定物体バウンディングボックスを選択するようにすることにより、前記選択されたテスト用特定物体バウンディングボックスを前記テスト用特定同一物体に対応する前記テスト用特定統合物体検出情報として生成する。
本発明のまた他の態様によれば、ターゲット物体予測ネットワークと、ターゲット物体統合ネットワークとを利用したCNN基盤の物体検出器のパラメータを学習するための学習装置において、インストラクションを格納する少なくとも一つのメモリ;及び(I)(i)一つ以上のコンボリューションレイヤをもって、少なくとも一つのトレーニングイメージに対応する少なくとも一つの第1加工イメージに一つ以上のコンボリューション演算を適用して、少なくとも一つの第1特徴マップを出力するようにし、(ii)RPN(Region Proposal Network)をもって、前記第1特徴マップを利用して、前記第1加工イメージ内に位置する一つ以上の第1物体それぞれに対応する一つ以上の第1物体プロポーザルを出力するようにし、(iii)プーリングレイヤをもって、前記第1特徴マップ上で、前記第1物体プロポーザルそれぞれに対応するそれぞれの領域に一つ以上のプーリング演算を適用して、少なくとも一つの第1プーリング済み特徴マップを出力するようにし、(iv)FC(Fully Connected)レイヤをもって、前記第1プーリング済み特徴マップに少なくとも一つのFC演算を適用して、前記第1物体に対応する第1物体検出情報を出力するようにするプロセス、(II)kを2からnまで増加させながら、(i)前記ターゲット物体予測ネットワークをもって、第(k−1)加工イメージ上の一つ以上の第(k−1)物体プロポーザルを参照して、前記第(k−1)加工イメージ上で、少なくとも一つのターゲット物体が位置するものと予測される領域に対応する第(k−1)ターゲット領域を探すようにし、(ii)前記トレーニングイメージ、またはこれに対応するリサイズされたトレーニングイメージ上で、前記第(k−1)ターゲット領域に対応する第k加工イメージが取得されると、前記コンボリューションレイヤをもって、前記第k加工イメージに前記コンボリューション演算を適用して第k特徴マップを出力するようにし、(iii)前記RPNをもって、前記第k特徴マップを参照して、前記第k加工イメージ内に位置する一つ以上の第k物体それぞれに対応する一つ以上の第k物体プロポーザルを出力するようにし、(iv)前記プーリングレイヤをもって、前記第k特徴マップ上で、前記第k物体プロポーザルそれぞれに対応するそれぞれの領域に前記プーリング演算を適用して、少なくとも一つの第kプーリング済み特徴マップを出力するようにし、(v)前記FCレイヤをもって、前記第kプーリング済み特徴マップに前記FC演算を適用して、前記第k物体に対応する第k物体検出情報を出力するようにするプロセス、及び(III)(i)前記ターゲット物体統合ネットワークをもって、前記第1物体プロポーザルないし前記第n物体プロポーザルを統合して統合物体プロポーザルを出力するようにし、前記第1物体検出情報ないし前記第n物体検出情報を統合して統合物体検出情報を出力するようにし、(ii)FCロスレイヤをもって、前記統合物体検出情報と、これに対応するGTとを参照して一つ以上のFCロスを生成するようにすることで、前記FCロスを利用したバックプロパゲーション(Backpropagation)によって、前記FCレイヤ及び前記コンボリューションレイヤのパラメータの中の少なくとも一部を学習するプロセスを遂行するための、前記インストラクションを実行するように構成された少なくとも一つのプロセッサ;を含むことを特徴とする学習装置が提供される。
一例として、前記(III)プロセスで、前記プロセッサは、RPNロスレイヤをもって、前記統合物体プロポーザルと、これに対応するGTとを参照して一つ以上のRPNロスを算出するようにすることで、前記RPNロスを利用したバックプロパゲーションによって前記RPNのパラメータを学習する。
一例として、前記(III)プロセスで、前記第(k−1)加工イメージ及び前記第k加工イメージ上に少なくとも一つの特定同一物体が位置し、前記第(k−1)加工イメージ上で前記第(k−1)物体プロポーザルの中の、前記特定同一物体に対応する少なくとも一つの物体プロポーザルを第(k−1)特定物体プロポーザルとし、前記第k加工イメージ上で、前記第k物体プロポーザルの中の、前記特定同一物体に対応する少なくとも一つの物体プロポーザルを第k特定物体プロポーザルであるとする場合、前記プロセッサは、前記ターゲット物体統合ネットワークをもって、前記第(k−1)特定物体プロポーザルと、前記第k特定物体プロポーザルとの間のIOU(Intersection Over Union)が、第1閾値以上になるかを判断するようにし、前記IOUが前記第1閾値未満であると判断されれば、前記第(k−1)特定物体プロポーザルと、前記第k特定物体プロポーザルとの間の調整IOUを算出するようにし、前記調整IOUが第2閾値以上と判断されれば、前記第(k−1)特定物体プロポーザルと、前記第k特定物体プロポーザルとの中で、(i)確率値の高い特定物体プロポーザルを選択するようにするか(ii)前記トレーニングイメージ上で演算される面積の大きい特定物体プロポーザルを選択するようにすることにより、前記選択された特定物体プロポーザルを前記特定同一物体に対応する特定統合物体プロポーザルとして生成する。
一例として、前記調整IOUは、前記第k加工イメージ上で前記第(k−1)特定物体プロポーザルに対応する領域と、前記第(k−1)加工イメージ上で前記第k特定物体プロポーザルに対応する領域とを参照して算出される。
一例として、前記プロセッサは、前記ターゲット物体統合ネットワークをもって、前記IOUが前記第1閾値以上になるか否かを判断するようにし、前記IOUが前記第1閾値以上と判断されれば、前記第(k−1)特定物体プロポーザルと、前記第k特定物体プロポーザルとの中の(i)確率値の高い特定物体プロポーザルを選択するようにするか(ii)それぞれの前記加工イメージ上で演算される面積の大きい特定物体プロポーザルを選択するようにすることにより、前記選択された特定物体プロポーザルを前記特定同一物体に対応する前記特定統合物体プロポーザルとして生成する。
一例として、前記(III)プロセスで、前記第(k−1)加工イメージ及び前記第k加工イメージ上に少なくとも一つの特定同一物体が位置し、前記第(k−1)加工イメージ上で、前記第(k−1)物体検出情報に含まれた物体バウンディングボックス(Bounding box)の中の、前記特定同一物体に対応する少なくとも一つの物体バウンディングボックスを第(k−1)特定物体バウンディングボックスとし、前記第k加工イメージ上で、前記第k物体検出情報に含まれた物体バウンディングボックスの中の、前記特定同一物体に対応する少なくとも一つの物体バウンディングボックスを第k特定物体バウンディングボックスとした場合、前記プロセッサは、前記ターゲット物体統合ネットワークをもって、前記第(k−1)特定物体バウンディングボックスと、前記第k特定物体バウンディングボックスとの間のIOUが、第1閾値以上になるか否かを判断するようにし、前記IOUが前記第1閾値未満と判断されると、前記第(k−1)特定物体バウンディングボックスと、前記第k特定物体バウンディングボックスとの間の調整IOUとを算出するようにし、前記調整IOUが、第2閾値以上と判断されたら、前記第(k−1)特定物体バウンディングボックスと、前記第k特定物体バウンディングボックスとの中から(i)確率値の高い特定物体バウンディングボックスを選択するようにするか(ii)前記トレーニングイメージ上で演算される面積の大きい特定物体バウンディングボックスを選択するようにすることにより、前記選択された特定物体バウンディングボックスを前記特定同一物体に対応する特定統合物体検出情報として生成する。
一例として、前記調整IOUは、前記第k加工イメージ上で前記第(k−1)特定物体バウンディングボックスに対応する領域と、前記第(k−1)加工イメージ上で前記第k特定物体バウンディングボックスに対応する領域とを参照して算出される。
一例として、前記プロセッサは、前記ターゲット物体統合ネットワークをもって、前記IOUが前記第1閾値以上になるか否かを判断するようにし、前記IOUが前記第1閾値以上と判断されれば、前記第(k−1)特定物体バウンディングボックスと、前記第k特定物体バウンディングボックスとの中から(i)確率値の高い特定物体バウンディングボックスを選択するようにするか(ii)それぞれの前記加工イメージ上で演算される面積の大きい特定物体バウンディングボックスを選択させることにより、前記選択された特定物体バウンディングボックスを前記特定同一物体に対応する前記特定統合物体検出情報として生成する。
本発明のまた他の態様によれば、ターゲット物体予測ネットワークと、ターゲット物体統合ネットワークとを利用したCNN基盤の物体検出器をテストするためのテスティング装置において、インストラクションを格納する少なくとも一つのメモリ;及び学習装置が、(1)(i)一つ以上のコンボリューションレイヤをもって、少なくとも一つのトレーニングイメージに対応する少なくとも一つの第1学習用加工イメージに一つ以上のコンボリューション演算を適用して、少なくとも一つの第1学習用特徴マップを出力するようにし、(ii)RPNをもって、前記第1学習用特徴マップを利用して、前記第1学習用加工イメージ内に位置する一つ以上の第1学習用物体それぞれに対応する一つ以上の第1学習用物体プロポーザルを出力するようにし、(iii)プーリングレイヤをもって、前記第1学習用特徴マップ上で、前記第1学習用物体プロポーザルそれぞれに対応するそれぞれの領域に一つ以上のプーリング演算を適用して、少なくとも一つの第1学習用プーリング済み特徴マップを出力するようにし、(iv)FCレイヤをもって、前記第1学習用プーリング済み特徴マップに少なくとも一つのFC演算を適用して、前記第1学習用物体に対応する第1学習用物体検出情報を出力するようにし、(2)kを2からnまで増加させながら、(i)前記ターゲット物体予測ネットワークをもって、第(k−1)学習用加工イメージ上の一つ以上の第(k−1)学習用物体プロポーザルを参照して、前記第(k−1)学習用加工イメージ上で、少なくとも一つの学習用ターゲット物体が位置するものと予測される領域に対応する第(k−1)学習用ターゲット領域を探すようにし、(ii)前記トレーニングイメージ、またはこれに対応する一つ以上のリサイズされたトレーニングイメージ上で、前記第(k−1)学習用ターゲット領域に対応する第k学習用加工イメージが取得されると、前記コンボリューションレイヤをもって、前記第k学習用加工イメージに前記コンボリューション演算を適用して第k学習用特徴マップを出力するようにし、(iv)前記プーリングレイヤをもって、前記第k学習用特徴マップ上で、前記第k学習用物体プロポーザルそれぞれに対応するそれぞれの領域に前記プーリング演算を適用して、少なくとも一つの第k学習用プーリング済み特徴マップを出力するようにし、(v)前記FCレイヤをもって、前記第k学習用プーリング済み特徴マップにFC演算を適用して、前記第k学習用物体に対応する第k学習用物体検出情報を出力するようにし、(3)(i)前記ターゲット物体統合ネットワークをもって、前記第1学習用物体プロポーザルないし前記第n学習用物体プロポーザルを統合して学習用統合物体プロポーザルを出力するようにし、前記第1学習用物体検出情報ないし前記第n学習用物体検出情報を統合して学習用統合物体検出情報を出力するようにし、(ii)FCロスレイヤをもって、前記学習用統合物体検出情報と、これに対応するGTとを参照して一つ以上のFCロスを生成するようにすることで、前記FCロスを利用したバックプロパゲーション(Backpropagation)によって、前記FCレイヤ及び前記コンボリューションレイヤのパラメータの中の少なくとも一部を学習した状態で、(I)(i)前記コンボリューションレイヤをもって、少なくとも一つのテストイメージに対応する少なくとも一つの第1テスト用加工イメージに前記コンボリューション演算を適用して、少なくとも一つの第1テスト用特徴マップを出力するようにし、(ii)前記RPNをもって、前記第1テスト用特徴マップを利用して、前記第1テスト用加工イメージ内に位置する一つ以上の第1テスト用物体それぞれに対応する一つ以上の第1テスト用物体プロポーザルを出力するようにし、(iii)前記プーリングレイヤをもって、前記第1テスト用特徴マップ上で、前記第1テスト用物体プロポーザルそれぞれに対応するそれぞれの領域に前記プーリング演算を適用して、少なくとも一つの第1テスト用プーリング済み特徴マップを出力するようにし、(iv)前記FCレイヤをもって、前記第1テスト用プーリング済み特徴マップに前記FC演算を適用して、前記第1テスト用物体に対応する第1テスト用物体検出情報を出力するようにするプロセス、(II)kを2からnまで増加させながら、(i)前記ターゲット物体予測ネットワークをもって、第(k−1)テスト用加工イメージ上の一つ以上の第(k−1)テスト用物体プロポーザルを参照して、前記第(k−1)テスト用加工イメージ上で、少なくとも一つのテスト用ターゲット物体が位置するものと予測される領域に対応する第(k−1)テスト用ターゲット領域を探すようにし、(ii)前記テストイメージ、またはこれに対応する一つ以上のリサイズされたテストイメージ上で、前記第(k−1)テスト用ターゲット領域に対応する第kテスト用加工イメージが取得されると、前記コンボリューションレイヤをもって、前記第kテスト用加工イメージに前記コンボリューション演算を適用して第kテスト用特徴マップを出力するようにし、(iii)前記RPNをもって、前記第kテスト用特徴マップを参照して、前記第kテスト用加工イメージ内に位置する一つ以上の第kテスト用物体それぞれに対応する一つ以上の第kテスト用物体プロポーザルを出力するようにし、(iv)前記プーリングレイヤをもって、前記第kテスト用特徴マップ上で、前記第kテスト用物体プロポーザルそれぞれに対応するそれぞれの領域に前記プーリング演算を適用して、少なくとも一つの第kテスト用プーリング済み特徴マップを出力するようにし、(v)前記FCレイヤをもって、前記第kテスト用プーリング済み特徴マップに前記FC演算を適用して、前記第kテスト用物体に対応する第kテスト用物体検出情報を出力するようにするプロセス、及び(III)(i)前記ターゲット物体統合ネットワークをもって、前記第1テスト用物体プロポーザルないし前記第nテスト用物体プロポーザルを統合してテスト用統合物体プロポーザルを出力するようにし、前記第1テスト用物体検出情報ないし前記第nテスト用物体検出情報を統合してテスト用統合物体検出情報を出力するプロセスを遂行するための、前記インストラクションを実行するように構成された少なくとも一つのプロセッサ;を含むことを特徴とするテスティング装置が提供される。
一例として、前記(III)プロセスで、前記第(k−1)テスト用加工イメージ及び前記第kテスト用加工イメージ上に少なくとも一つのテスト用特定同一物体が位置し、前記第(k−1)テスト用加工イメージ上で前記第(k−1)テスト用物体プロポーザルの中の、前記特定同一物体に対応する少なくとも一つのテスト用物体プロポーザルを第(k−1)特定物体プロポーザルとし、前記第kテスト用加工イメージ上で、前記第kテスト用物体プロポーザルの中の、前記テスト用特定同一物体に対応する少なくとも一つのテスト用物体プロポーザルを第kテスト用特定物体プロポーザルであるとする場合、前記プロセッサは、前記ターゲット物体統合ネットワークをもって、前記第(k−1)テスト用特定物体プロポーザルと、前記第kテスト用特定物体プロポーザルとの間のテスト用IOU(Intersection Over Union)が、第1閾値以上になるかを判断するようにし、前記テスト用IOUが前記第1閾値未満であると判断されれば、前記第(k−1)テスト用特定物体プロポーザルと、前記第kテスト用特定物体プロポーザルとの間のテスト用調整IOUを算出するようにし、前記テスト用調整IOUが第2閾値以上と判断されれば、前記第(k−1)テスト用特定物体プロポーザルと、前記第kテスト用特定物体プロポーザルとの中で、(i)確率値の高いテスト用特定物体プロポーザルを選択するようにするか(ii)前記テストイメージ上で演算される面積の大きいテスト用特定物体プロポーザルを選択するようにすることにより、前記選択されたテスト用特定物体プロポーザルを前記テスト用特定同一物体に対応するテスト用特定統合物体プロポーザルとして生成する。
一例として、前記テスト用調整IOUは、前記第kテスト用加工イメージ上で前記第(k−1)テスト用特定物体プロポーザルに対応する領域と、前記第(k−1)テスト用加工イメージ上で前記第kテスト用特定物体プロポーザルに対応する領域とを参照して算出される。
一例として、前記プロセッサは、前記ターゲット物体統合ネットワークをもって、前記テスト用IOUが前記第1閾値以上になるか否かを判断するようにし、前記テスト用IOUが前記第1閾値以上と判断されれば、前記第(k−1)テスト用特定物体プロポーザルと、前記第kテスト用特定物体プロポーザルとの中の(i)確率値の高いテスト用特定物体プロポーザルを選択するようにするか(ii)それぞれの前記テスト加工イメージ上で演算される面積の大きいテスト用特定物体プロポーザルを選択するようにすることにより、前記選択されたテスト用物体プロポーザルを前記テスト用特定同一物体に対応する前記テスト用特定統合物体プロポーザルとして生成する。
一例として、前記(III)プロセスで、前記第(k−1)テスト用加工イメージ及び前記第kテスト用加工イメージ上に少なくとも一つのテスト用特定同一物体が位置し、前記第(k−1)テスト用加工イメージ上で、前記第(k−1)テスト用物体検出情報に含まれたテスト用物体バウンディングボックス(Bounding box)の中の、前記テスト用特定同一物体に対応する少なくとも一つのテスト用物体バウンディングボックスを第(k−1)テスト用特定物体バウンディングボックスとし、前記第kテスト用加工イメージ上で、前記第kテスト用物体検出情報に含まれたテスト用物体バウンディングボックスの中の、前記テスト用特定同一物体に対応する少なくとも一つのテスト用物体バウンディングボックスを第kテスト用特定物体バウンディングボックスとした場合、前記プロセッサは、前記ターゲット物体統合ネットワークをもって、前記第(k−1)テスト用特定物体バウンディングボックスと、前記第kテスト用特定物体バウンディングボックスとの間のテスト用IOUが、第1閾値以上になるか否かを判断するようにし、前記テスト用IOUが前記第1閾値未満と判断されると、前記第(k−1)テスト用特定物体バウンディングボックスと、前記第kテスト用特定物体バウンディングボックスとの間のテスト用調整IOUを算出するようにし、前記テスト用調整IOUが第2閾値以上と判断されれば、前記第(k−1)テスト用特定物体バウンディングボックスと、前記第kテスト用特定物体バウンディングボックスとの中から(i)確率値の高いテスト用特定物体バウンディングボックスを選択するようにするか(ii)前記テストイメージ上で演算される面積の大きいテスト用特定物体バウンディングボックスを選択させることにより、前記選択されたテスト用特定物体バウンディングボックスを前記テスト用特定同一物体に対応するテスト用特定統合物体検出情報として生成する。
一例として、前記テスト用調整IOUは、前記第kテスト用加工イメージ上で前記第(k−1)テスト用特定物体バウンディングボックスに対応する領域と、前記第(k−1)テスト用加工イメージ上で前記第kテスト用特定物体バウンディングボックスに対応する領域とを参照して算出される。
一例として、前記プロセッサは、前記ターゲット物体統合ネットワークをもって、前記テスト用IOUが前記第1閾値以上になるか否かを判断するようにし、前記テスト用IOUが前記第1閾値以上と判断されれば、前記第(k−1)テスト用特定物体バウンディングボックスと、前記第kテスト用特定物体バウンディングボックスとの中の(i)確率値の高いテスト用特定物体バウンディングボックスを選択するようにするか(ii)それぞれの前記テスト用加工イメージ上で演算される面積の大きいテスト用特定物体バウンディングボックスを選択させることにより、前記選択されたテスト用特定物体バウンディングボックスを前記テスト用特定同一物体に対応する前記テスト用特定統合物体検出情報として生成する。
本発明によれば、入力イメージを互いに異なるサイズを有するイメージに加工した上で、それぞれの加工されたイメージ上にターゲット物体が位置するものと推定されるターゲット領域を利用してイメージ内の小さな物体を容易に検出し得る効果がある。
また、本発明によれば、前記入力イメージを互いに異なるサイズのイメージに加工した後、それぞれの前記加工されたイメージ上にターゲット物体が位置すると推定されるターゲット領域をクロップして加工されたイメージを利用して、イメージ内のサイズが小さい物体を検出することにより、演算量と演算時間を最小化し得る効果がある。
本発明の実施例の説明に利用されるために添付された以下の各図面は、本発明の実施例のうちの一部に過ぎず、本発明が属する技術分野でおいて、通常の知識を有する者(以下「通常の技術者」)は、発明的作業が行われることなくこの図面に基づいて他の図面が得られ得る。
本発明の一例に係るターゲット物体予測ネットワークと、ターゲット物体統合ネットワークとを利用した、CNN基盤物体検出器を学習する学習装置を概略的に示した図面である。 本発明の一例に係る前記ターゲット物体予測ネットワークと、前記ターゲット物体統合ネットワークとを利用した、前記CNN基盤物体検出器を学習する学習方法を概略的に示した図面である。 本発明の一例に係る前記ターゲット物体予測ネットワークと、前記ターゲット物体統合ネットワークとを利用した、前記CNN基盤物体の検出器の学習方法から考慮される、RPNから出力される、物体プロポーザルを概略的に示した図面である。 本発明の一例に係る前記ターゲット物体予測ネットワークと、前記ターゲット物体統合ネットワークとを利用した、前記CNN基盤物体検出器の学習方法において考慮される、前記RPNから出力される前記物体プロポーザルを利用してターゲット領域を探す状態を概略的に示した図面である。 本発明に一例に係る前記ターゲット物体予測ネットワークと、前記ターゲット物体統合ネットワークとを利用した、前記CNN基盤物体検出器の学習方法において考慮される、加工イメージを利用して少なくとも一つのターゲット物体を検出する状態を概略的に示した図面である。 本発明に一例に係る前記ターゲット物体予測ネットワークと、前記ターゲット物体統合ネットワークとを利用した、前記CNN基盤物体検出器の学習方法において考慮される、他のターゲット領域内に含まれる少なくとも一つの物体に対応する物体プロポーザルと、物体検出情報とを統合する状態を概略的に示した図面である。 本発明の一例に係る前記ターゲット物体予測ネットワークと、前記ターゲット物体統合ネットワークとを利用した、前記CNN基盤物体検出器をテスティングするためのテスティング装置を概略的に示した図面である。 本発明の一例に係る前記ターゲット物体予測ネットワークと、前記ターゲット物体統合ネットワークとを利用した、前記CNN基盤物体検出器をテスティングするためのテスティング方法を概略的に示した図面である。
後述する本発明に対する詳細な説明は、本発明の各目的、技術的解決方法及び長所を明確にするために、本発明が実施され得る特定の実施例を例示として示す添付図面を参照する。これらの実施例は、通常の技術者が本発明を実施することができるように充分詳細に説明される。
また、本発明の詳細な説明及び各請求項にわたって、「含む」という単語及びそれらの変形は、他の技術的各特徴、各付加物、構成要素又は段階を除外することを意図したものではない。通常の技術者にとって本発明の他の各目的、長所及び各特性が、一部は本説明書から、また一部は本発明の実施から明らかになるであろう。以下の例示及び図面は実例として提供され、本発明を限定することを意図したものではない。
さらに、本発明は、本明細書に示された実施例のあらゆる可能な組合せを網羅する。本発明の多様な実施例は相互異なるが、相互排他的である必要はないことを理解されたい。例えば、ここに記載されている特定の形状、構造及び特性は一例と関連して、本発明の精神及び範囲を逸脱せず、かつ他の実施例で実装され得る。また、各々の開示された実施例内の個別構成要素の位置または配置は本発明の精神及び範囲を逸脱せずに変更され得ることを理解されたい。従って、後述する詳細な説明は限定的な意味で捉えようとするものではなく、本発明の範囲は、適切に説明されれば、その請求項が主張することと均等なすべての範囲と、併せて添付された請求項によってのみ限定される。図面で類似する参照符号はいくつかの側面にかけて同一か類似する機能を指称する。
本発明で言及している各種イメージは、舗装または非舗装道路関連のイメージを含み得り、この場合、道路環境で登場し得る物体(例えば、自動車、人、動物、植物、物、建物、飛行機やドローンのような飛行体、その他の障害物)を想定し得るが、必ずしもこれに限定されるものではなく、本発明で言及している各種イメージは、道路と関係のないイメージ(例えば、非舗装道路、路地、空き地、海、湖、川、山、森、砂漠、空、室内と関連したイメージ)でもあり得、この場合、非舗装道路、路地、空き地、海、湖、川、山、森、砂漠、空、室内環境で登場し得る物体(例えば、自動車、人、動物、植物、物、建物、飛行機やドローンのような飛行体、その他の障害物)を想定し得るが、必ずしもこれに限定されるものではない。
以下、本発明が属する技術分野で通常の知識を有する者が本発明を容易に実施することができるようにするために、本発明の好ましい実施例について添付の図面に基づいて詳細に説明する。
図1は、本発明の一例に係るターゲット物体予測ネットワークと、ターゲット物体統合ネットワークとを利用した、CNN基盤物体検出器を学習する学習装置を概略的に示した図面である。
図1を参照すれば、前記学習装置100は、通信部110とプロセッサ120とを含み得る。
まず、前記通信部110は、少なくとも一つのトレーニングイメージを取得するか、他の装置をもって取得するように支援し得る。
この際、前記トレーニングイメージは、データベース130に格納され得り、前記データベース130は、前記トレーニングイメージに位置する一つ以上の物体それぞれに対応するクラス情報及び位置情報に対する少なくとも一つのGT(ground truth)を格納し得る。
また、前記学習装置は、後述するプロセスを遂行するコンピュータ読み取り可能なインストラクション(computer readable instruction)を格納し得るメモリ115を追加的に含み得る。一例として、前記プロセッサ、前記メモリ、及び媒体等は、一つのプロセッサに統合されて機能することもできる。
次に、前記プロセッサ120は(i)一つ以上のコンボリューションレイヤをもって、前記トレーニングイメージに対応する少なくとも一つの第1加工イメージに一つ以上のコンボリューション演算を適用して、少なくとも一つの第1特徴マップを出力するようにし、(ii)RPN(Region Proposal Network)をもって、前記第1特徴マップを利用して、前記第1加工イメージ内に位置する一つ以上の第1物体それぞれに対応する一つ以上の第1物体プロポーザルを出力するようにし、(iii)プーリングレイヤをもって、前記第1特徴マップ上で、前記第1物体プロポーザルそれぞれに対応するそれぞれの領域に一つ以上のプーリング演算を適用して、少なくとも一つの第1プーリング済み特徴マップを出力するようにし、(iv)FC(Fully Connected)レイヤをもって、前記第1プーリング済み特徴マップに少なくとも一つのFC演算を適用して、前記第1物体に対応する第1物体検出情報を出力するようにするプロセスを遂行するか、他の装置をもって遂行するように支援し得る。また、前記プロセッサ120は、kを2からnまで増加させながら、(i)前記ターゲット物体予測ネットワークをもって、第(k−1)加工イメージ上の一つ以上の第(k−1)物体プロポーザルを参照して、前記第(k−1)加工イメージ上で、少なくとも一つのターゲット物体が位置するものと予測される領域に対応する第(k−1)ターゲット領域を探すようにし、(ii)前記トレーニングイメージ、またはリサイズされたトレーニングイメージ上で、前記第(k−1)ターゲット領域に対応する第k加工イメージが取得されると、前記コンボリューションレイヤをもって、前記第k加工イメージに前記コンボリューション演算を適用して第k特徴マップを出力するようにし、(iii)前記RPNをもって、前記第k特徴マップを参照して、前記第k加工イメージ内に位置する一つ以上の第k物体それぞれに対応する一つ以上の第k物体プロポーザルを出力するようにし、(iv)前記プーリングレイヤをもって、前記第k特徴マップ上で、前記第k物体プロポーザルそれぞれに対応するそれぞれの領域に前記プーリング演算を適用して、少なくとも一つの第kプーリング済み特徴マップを出力するようにし、(v)前記FCレイヤをもって、前記第kプーリング済み特徴マップに前記FC演算を適用して、前記第k物体に対応する第k物体検出情報を出力するプロセスを遂行するか、他の装置をもって遂行するように支援し得る。
その後、前記プロセッサ120が、(i)前記ターゲット物体統合ネットワークをもって、前記第1物体プロポーザルないし前記第n物体プロポーザルを統合して統合物体プロポーザルを出力するようにし、前記第1物体検出情報ないし前記第n物体検出情報を統合して統合物体検出情報を出力するようにするプロセス、及び(ii)FCロスレイヤをもって、前記統合物体検出情報と、これに対応するGTとを参照して一つ以上のFCロスを生成するようにすることで、前記FCロスを利用したバックプロパゲーション(Backpropagation)によって、前記FCレイヤ及び前記コンボリューションレイヤのパラメータの中の少なくとも一部を学習するプロセスを遂行する。
また、前記プロセッサ120は、少なくとも一つのRPNロスレイヤをもって、前記統合物体プロポーザルと、これに対応するGTとを参照して一つ以上のRPNロスを取得するようにすることで、前記RPNロスを利用したバックプロパゲーションによって前記RPNのパラメータの中の少なくとも一部を学習する。
この際、本発明の一例に係る前記学習装置100は、コンピューティング装置であり、プロセッサを搭載して演算能力を備えた装置であればいくらでも本発明に係る学習装置100として採択され得る。また、図1では一つの学習装置100のみを示したが、これに限定されず、前記学習装置は複数に分けて役割を遂行することもできる。
このように構成された本発明の一例に係る前記学習装置100を利用して、前記ターゲット物体予測ネットワーク及び前記ターゲット物体統合ネットワークを利用してCNN基盤物体検出器のパラメータを学習する方法を、図2を参照して説明する。
まず、前記トレーニングイメージが入力されると、前記学習装置100がコンボリューションレイヤ121をもって、前記トレーニングイメージに対応する前記第1加工イメージに前記コンボリューション演算を適用して、前記第1特徴マップを出力するようにし得る。ここで、前記コンボリューションレイヤ121は、単一のコンボリューションレイヤまたは多数のコンボリューションレイヤになり得る。
この際、前記学習装置100は、イメージ加工ネットワーク111をもって、前記トレーニングイメージを加工してサイズが互いに異なるイメージ多数を含むイメージピラミッドを生成するようにし得、前記イメージピラミッドイメージの中の一つを前記第1加工イメージとして前記コンボリューションレイヤ121に入力し得る。
次に、前記学習装置100は、RPN122をもって、前記第1特徴マップを利用して、前記第1加工イメージ内に位置する前記第1物体それぞれに対応する一つ以上の第1物体プロポーザルを出力するようにし得る。
一例として、図3を参照すれば、前記RPN122から出力された前記第1物体プロポーザルは、前記第1加工イメージ内の前記第1物体それぞれに対応し得、前記第1物体プロポーザルそれぞれは、前記第1物体それぞれ、つまり、タグ付け領域に対応する位置情報と、前記タグ付け領域それぞれが物体であるか否かに対する情報とを有する各プロポーザルに対する情報を含み得る。この際、物体であるか否かに対する情報は、前記それぞれの物体プロポーザルが物体であると予測される確率情報を含み得り、前記プロポーザルボックスに関する情報は、前記プロポーザルボックスが前記物体の位置に一致すると予測される確率情報を含み得る。
次に、前記学習装置100は、プーリングレイヤ123をもって、前記第1特徴マップ上で、前記第1物体プロポーザルに対応する少なくとも一つの領域に前記プーリング演算を適用して、前記第1プーリング済み特徴マップを出力するようにし、FCレイヤ124をもって、前記第1プーリング済み特徴マップに前記FC演算を適用して、前記第1物体に対応する第1物体検出情報を出力するようにし得る。
この際、前記第1物体検出情報は、バウンディングボックスに関する情報(すなわち、前記第1物体それぞれに関する位置情報)と、前記第1物体プロポーザルに対応する前記第1物体それぞれに関するクラス情報とを含み得る。また、前記クラス情報は、前記第1物体それぞれが該当クラスと予測される確率情報を含み得、前記バウンディングボックスに関する情報は、前記バウンディングボックスそれぞれが前記物体の位置に一致するものと予測される確率情報を含み得る。
次に、前記学習装置100は、前記ターゲット物体予測ネットワーク125をもって、第1加工イメージ上の前記第1物体プロポーザルを参照して、前記第1加工イメージ上で、前記ターゲット物体が位置するものと予測される領域に対応する第1ターゲット領域を探すようにし得る。
一例として、図4を参照すれば、前記ターゲット物体予測ネットワーク125は(i)前記第1加工イメージをMxNグリッドで区分し、(ii)前記第(k−1)物体プロポーザルの中で、前記グリッドの各セルごとにそれぞれに対応するプロポーザルの個数を示す少なくとも一つ以上のヒストグラムを生成するようにし、前記グリッドの各セル内にそれに対応する前記プロポーザルそれぞれの全体領域または分割の領域が存在し、好ましくは、前記対応するプロポーザルのサイズが、前記RPN122から出力された前記物体プロポーザルの中の、前記ターゲット物体のサイズに対応する予め設定されているサイズより小さくなるようにすることができ、(iii)前記第1ターゲット領域のサイズに対応するPxQサイズを有するムービングウィンドウの少なくとも一つの領域を利用して前記第1ターゲット領域(TR)を決定し、前記少なくとも一つの領域は、前記ムービングウィンドウの位置を変更して占有されるすべての領域の中の前記ヒストグラムの合計が最も大きい値を有し得る。
次に、前記学習装置100は、前記イメージ加工ネットワーク111をもって、前記トレーニングイメージ、またはこれをリサイズしたイメージ、つまり、前記リサイズされたトレーニングイメージ上の前記第1ターゲット領域(TR)に対応する第2加工イメージを取得するか、他の装置をもって取得するように支援し得る。
この際、前記学習装置100は、前記イメージ加工ネットワーク111をもって、前記トレーニングイメージのサイズを前記第1加工イメージのサイズより大きいサイズに拡大して、前記リサイズされたトレーニングイメージを生成した後、前記リサイズされたトレーニングイメージ上で前記第1ターゲット領域(TR)に対応する少なくとも一つの領域をクロップして前記第2加工イメージを生成するか、前記トレーニングイメージ上の前記第1ターゲット領域(TR)に対応する少なくとも一つの領域をクロップ及びリサイズして前記第2加工イメージを生成するようにし得る。
一例として、前記イメージ加工ネットワーク111は、前記トレーニングイメージに対応する前記イメージピラミッドの中の、第1加工イメージよりサイズが大きいイメージ上で、第1ターゲット領域(TR)に対応する少なくとも一つの領域をクロップして、前記第2加工イメージを生成し得る。また、前記イメージ加工ネットワーク111は、前記トレーニングイメージにおいて前記第1ターゲット領域(TR)に対応する少なくとも一つの領域をクロップし、前記クロップされたイメージをリサイズすることにより、前記第2加工イメージを生成し得る。この際、前記第2加工イメージは、サイズが前記第1ターゲット領域のサイズより大きくなるようにリサイズされ得る。このために、前記イメージ加工ネットワーク111は、前記クロップされたイメージを、前記トレーニングイメージの前記イメージピラミッドの中の、前記第1加工イメージの次のイメージのサイズに対応するようにリサイズして、前記第2加工イメージを生成し得る。
次に、前記学習装置100は、前記生成された第2加工イメージを利用して、前記のような過程を繰り返して前記トレーニングイメージ上でのサイズが小さい物体、つまり、遠距離に位置する物体を効率的に検出できるようになる。
つまり、前記学習装置100は、kを2からnまで増加させながら、(i)前記ターゲット物体予測ネットワーク125をもって、第(k−1)加工イメージ上の一つ以上の第(k−1)物体プロポーザルを参照して、前記第(k−1)加工イメージ上で、前記ターゲット物体が位置するものと予測される領域に対応する第(k−1)ターゲット領域を探すようにし、(ii)前記トレーニングイメージ、またはリサイズされたトレーニングイメージ上で、前記第(k−1)ターゲット領域に対応する第k加工イメージが取得されると、前記コンボリューションレイヤをもって、前記第k加工イメージに前記コンボリューション演算を適用して第k特徴マップを出力するようにするプロセスを遂行するか、他の装置をもって遂行するように支援し得る。そして、前記学習装置100は、前記RPN122をもって、前記第k特徴マップを利用して、前記第k加工イメージ内に位置する第k物体それぞれに対応する前記第k物体プロポーザルを出力するようにし、前記プーリングレイヤ123をもって、前記第k特徴マップ上で、前記第k物体プロポーザルそれぞれに対応するそれぞれの領域に前記プーリング演算を適用して、前記少なくとも一つの第kプーリング済み特徴マップを出力するようにし得る。その後、前記テスティング装置100は、前記FCレイヤ124をもって、前記第kプーリング済み特徴マップに前記FC演算を適用して、前記第k物体に対応する第k物体検出情報を出力するようにし得る。
一例として、図5を参照すれば、前記イメージピラミッドの中の、最小サイズのイメージである第1イメージ(P1)に対応する前記第1加工イメージ(MI1)上で物体検出が遂行されて前記第1ターゲット領域(TR1)が予測され、前記イメージピラミッドの中で、次の最小サイズのイメージである第2イメージ(P2)において、前記第1ターゲット領域(TR1)に対応する前記第2加工イメージ(MI2)上で物体検出が遂行されて第2ターゲット領域(TR2)が確認され、前記イメージピラミッドの中の、第2イメージ(P2)の次の最小サイズのイメージである第3イメージ(P3)において、前記第2ターゲット領域(TR2)に対応する第3加工イメージ(MI3)上で物体検出が遂行されることにより、特定サイズを有する第k物体、好ましくは、遠距離に位置するサイズが小さい物体が短い演算時間によって容易に検出され得るようになる。
この際、前記第1加工イメージないし第(n−1)加工イメージにおいて、第1ターゲット領域ないし第(n−1)ターゲット領域のサイズは同一になるようにするか、それぞれの加工イメージのサイズに対応してアスペクト比(aspect ratio)を同一にした状態でそのサイズが異なるようにすることもできる。また、前記第1加工イメージないし前記第n加工イメージは、同一の大きさを有するようにすることもできる。
その後、前記学習装置100は、(i)前記ターゲット物体統合ネットワーク126をもって、前記第1物体プロポーザルないし前記第n物体プロポーザルを統合して統合物体プロポーザルを出力するようにし、前記第1物体検出情報ないし前記第n物体検出情報を統合して統合物体検出情報を出力するようにするプロセスを遂行する。
一例として、図6を参照すれば、前記第(k−1)加工イメージ(MI(k−1))及び前記第k加工イメージ(MI(k))上に少なくとも一つの特定同一物体が位置し、前記第(k−1)加工イメージ(MI(k−1))上の前記第(k−1)物体プロポーザルの中の、前記特定同一物体に対応する少なくとも一つの物体プロポーザルを第(k−1)特定物体プロポーザルとし、前記第k加工イメージ(MI(k))上で、前記第k物体プロポーザルの中の、前記特定同一物体に対応する少なくとも一つの物体プロポーザルを第k特定物体プロポーザルであるとする場合、前記学習装置100は、前記ターゲット物体統合ネットワーク126をもって、前記第(k−1)特定物体プロポーザル(PB(k−1))と、前記第k特定物体プロポーザル(PB(k))との間のIOU(Intersection Over Union)が、第1閾値以上になるかを判断するようにする。その後、前記IOUが前記第1閾値未満と判断されれば、前記第(k−1)特定物体プロポーザル(PB(k−1))と、前記第k特定物体プロポーザル(PB(k))との間の調整IOUが算出されるようにする。
この際、前記調整IOUは、前記第k加工イメージ(MI(k))上で前記第(k−1)特定物体プロポーザル(PB(k−1))に対応する領域、すなわち、交差領域(PB(k−1),MI(k))と、前記第(k−1)加工イメージ(MI(k−1))上で前記第k特定物体プロポーザル(PB(k))に対応する領域、すなわち、交差領域(PB(k),MI(k−1))とを参照して算出されたIOUである。
そして、前記調整IOUが第2閾値以上と判断されれば、前記学習装置100は、前記第(k−1)特定物体プロポーザル(PB(k−1))と、前記第k特定物体プロポーザル(PB(k))との中で、(i)確率値の高い特定物体プロポーザルを選択するようにするか(ii)前記トレーニングイメージ上で演算される面積の大きい特定物体プロポーザルを選択するようにすることにより、前記選択された特定物体プロポーザルを前記特定同一物体に対応する特定統合物体プロポーザルとして生成する。
しかし、前記調整IOUが前記第2閾値未満と判断されれば、前記学習装置100は、前記第(k−1)特定物体プロポーザル(PB(k−1))と、前記第k特定物体プロポーザル(PB(k))とが、それぞれ異なる物体に対応すると判断する。つまり、前記第(k−1)特定物体プロポーザル(PB(k−1))と、前記第k特定物体プロポーザル(PB(k))との間の前記IOUが前記第1閾値未満であり、これらの間の前記調整IOUが前記第2閾値未満と判断されれば、前記学習装置100は、前記第(k−1)特定物体プロポーザル(PB(k−1))と、前記第k特定物体プロポーザル(PB(k))とがそれぞれ異なる物体に対応するものと判断する。
一方、前記第(k−1)特定物体プロポーザル(PB(k−1))と、前記第k特定物体プロポーザル(PB(k))との間の前記IOUが前記第1閾値以上であると判断されれば、前記学習装置は、前記第(k−1)特定物体プロポーザル(PB(k−1))と、前記第k特定物体プロポーザル(PB(k))との中で(i)確率値の高い特定物体プロポーザルを選択するようにするか(ii)それぞれの前記加工イメージ(MI(k−1)及びMI(k))上で演算される面積の大きい特定物体プロポーザルを選択するようにすることにより、前記選択された特定物体プロポーザルを前記特定同一物体に対応する前記特定統合物体プロポーザルとして生成する。
また、図6を参照すれば、前記第(k−1)加工イメージ(MI(k−1))及び前記第k加工イメージ(MI(k))上に少なくとも一つの特定同一物体が位置し、前記第(k−1)加工イメージ(MI(k−1))上で、前記第(k−1)物体検出情報に含まれた物体バウンディングボックス(Bounding box)の中の、前記特定同一物体に対応する少なくとも一つの物体バウンディングボックスを第(k−1)特定物体バウンディングボックス(BB(k−1))とし、前記第k加工イメージ(MI(k))上で、前記第k物体検出情報に含まれた物体バウンディングボックスの中の、前記特定同一物体に対応する少なくとも一つの物体バウンディングボックスを第k特定物体バウンディングボックス(BB(k))とした場合、前記学習装置100は、前記ターゲット物体統合ネットワーク126をもって、前記第(k−1)特定物体バウンディングボックス(BB(k−1))と、前記第k特定物体バウンディングボックス(BB(k))との間のIOUが、第1閾値以上になるかを判断するようにする。この際、前記物体プロポーザル間のIOU判断に利用された前記第1閾値と、前記物体バウンディングボックス間のIOU判断に利用された前記第1閾値とは、同じこともあり、同じくないこともある。そして、前記物体プロポーザル間のIOU判断に利用された前記第2閾値と、前記物体バウンディングボックス間のIOU判断に利用された前記第2閾値とは、同じこともあり、同じくないこともある。その後、前記バウンディングボックス間のIOUが前記第1閾値未満と判断されれば、前記第(k−1)特定物体バウンディングボックス(BB(k−1))と、前記第k特定物体バウンディングボックス(BB(k))との間の調整IOUが算出される。
この際、前記調整IOUは、前記第k加工イメージ(MI(k))上で前記第(k−1)特定物体バウンディングボックス(BB(k−1))に対応する領域、すなわち、交差領域(BB(k−1),MI(k))と、前記第(k−1)加工イメージ(MI(k−1))上で前記第k特定物体バウンディングボックス(BB(k))に対応する領域、すなわち、交差領域(BB(k),MI(k−1))とを参照して算出されたIOUである。
そして、前記調整IOUが前記第2閾値以上と判断されれば、前記学習装置100は、前記第(k−1)特定物体バウンディングボックス(BB(k−1))と、前記第k特定物体バウンディングボックス(BB(k))との中で、(i)確率値の高い特定物体バウンディングボックスを選択するようにするか(ii)前記トレーニングイメージ上で演算される面積の大きい特定物体バウンディングボックスを選択するようにすることにより、前記選択された特定物体バウンディングボックスを前記特定同一物体に対応する特定統合物体検出情報として生成する。この際、前記物体プロポーザル間のIOU判断に利用された前記第2閾値と、前記物体バウンディングボックス間のIOU判断に利用された前記第2閾値とは、同じこともあり、同じくないこともある。
しかし、前記調整IOUが前記第2閾値未満と判断されれば、前記学習装置100は、前記第(k−1)特定物体バウンディングボックス(BB(k−1))と、前記第k特定物体バウンディングボックス(BB(k))とが、それぞれ異なる物体に対応すると判断する。つまり、前記第(k−1)特定物体バウンディングボックス(BB(k−1))と、前記第k特定物体バウンディングボックス(BB(k))との間の前記IOUが前記第1閾値未満であり、これらの間の前記調整IOUが前記第2閾値未満と判断されれば、前記学習装置100は、前記第(k−1)特定物体バウンディングボックス(BB(k−1))と、前記第k特定物体バウンディングボックス(BB(k))とがそれぞれ異なる物体に対応するものと判断する。
一方、前記第(k−1)特定物体バウンディングボックス(BB(k−1))と、前記第k特定物体バウンディングボックス(BB(k))との間の前記IOUが前記第1閾値以上であると判断されれば、前記学習装置は、前記第(k−1)特定物体バウンディングボックス(BB(k−1))と、前記第k特定物体バウンディングボックス(BB(k))との中で(i)確率値の高い特定物体バウンディングボックスを選択するようにするか(ii)それぞれの前記加工イメージ(MI(k−1)及びMI(k))上で演算される面積の大きい特定物体バウンディングボックスを選択するようにすることにより、前記選択された特定物体バウンディングボックスを前記特定同一物体に対応する前記特定統合物体検出情報として生成する。
前記のような方法により、前記のトレーニングイメージ内に位置するサイズが様々な物体、特にサイズが小さく、遠距離に位置した前記第k物体を効率的に検出できるようになり、また、前記予測されたターゲット領域に対応する領域のみを利用することで演算量を減らし得、これによって前記CNNベースの前記物体検出の演算時間を減らし得るようになる。
また、前記では、前記トレーニングイメージ上にターゲット物体が一つである場合を想定して説明したが、前記トレーニングイメージ内にターゲット物体多数がある場合にも、前記のような方法により前記トレーニングイメージ内での前記それぞれのターゲット物体に対応するそれぞれのターゲット領域を利用して、前記それぞれのターゲット物体の検出が可能である。
その後、前記学習装置100は、前記FCロスレイヤ127をもって、前記統合物体検出情報と、これに対応するGTとを参照して一つ以上のFCロスを取得するようにすることで、前記FCロスを利用したバックプロパゲーションによって、前記FCレイヤ124及び前記コンボリューションレイヤ121のパラメータの中の少なくとも一部を学習する。
また、前記学習装置100は、前記RPNロスレイヤ128をもって、前記統合物体プロポーザルと、これに対応するGTとを参照して一つ以上のRPNロスを取得するようにすることで、前記RPNロスを利用したバックプロパゲーションによって前記RPN122のパラメータの中の少なくとも一部を学習する。
図7は、本発明の一例に係る前記ターゲット物体予測ネットワークと、前記ターゲット物体統合ネットワークとを利用した、前記CNN基盤物体検出器をテスティングするテスティング装置を概略的に示したもので、図7を参照すれば、前記テスティング装置200は、通信部210とプロセッサ220とを含み得る。
まず、前記通信部210は、少なくとも一つのテストイメージを取得するか、他の装置をもって取得するように支援し得る。
また、前記テスティング装置は、後述するプロセスを遂行するコンピュータ読み取り可能なインストラクション(computer readable instruction)を格納し得るメモリ215を追加的に含み得る。一例として、前記プロセッサ、前記メモリ、及び媒体(medium)等は、一つのプロセッサに統合されて機能することもできる。
この際、前記ターゲット物体予測ネットワークと、前記ターゲット物体統合ネットワークとを利用した前記CNN基盤の前記物体検出器は、図1ないし図6を参照して説明された前記学習方法として学習され得る。
参考までに、以下の説明において混乱を避けるために、前記学習プロセスに関連する用語には「学習用」という単語が追加され、テスト用プロセスに関連する用語には「テスト用」という単語が追加された。
つまり、トレーニングイメージが取得されると、前記学習装置が、(a)(i)前記コンボリューションレイヤをもって、前記トレーニングイメージに対応する少なくとも一つの第1学習用加工イメージに前記コンボリューション演算を適用して、少なくとも一つの第1学習用特徴マップを出力するようにし、(ii)前記RPNをもって、前記第1学習用特徴マップを利用して、前記第1学習用加工イメージ内に位置する一つ以上の第1学習用物体それぞれに対応する一つ以上の第1学習用物体プロポーザルを出力するようにし、(iii)前記プーリングレイヤをもって、前記第1学習用特徴マップ上で、前記第1学習用物体プロポーザルそれぞれに対応するそれぞれの領域に前記プーリング演算を適用して、少なくとも一つの第1学習用プーリング済み特徴マップを出力するようにし、(iv)前記FCレイヤをもって、前記第1学習用プーリング済み特徴マップに少なくとも一つのFC演算を適用して、前記第1学習用物体に対応する第1学習用物体検出情報を出力するプロセス;(b)kを2からnまで増加させながら、(i)前記ターゲット物体予測ネットワークをもって、第(k−1)学習用加工イメージ上の一つ以上の第(k−1)学習用物体プロポーザルを参照して、前記第(k−1)学習用加工イメージ上で、少なくとも一つの学習用ターゲット物体が位置するものと予測される領域に対応する第(k−1)学習用ターゲット領域を探すようにし、(ii)前記トレーニングイメージ、またはリサイズされたトレーニングイメージ上で、前記第(k−1)学習用ターゲット領域に対応する第k学習用加工イメージが取得されると、前記コンボリューションレイヤをもって、前記第k学習用加工イメージに前記コンボリューション演算を適用して第k学習用特徴マップを出力するようにし、(iii)前記RPNをもって、前記第k学習用特徴マップを利用して、前記第k学習用加工イメージ内に位置する一つ以上の第k学習用物体それぞれに対応する一つ以上の第k学習用物体プロポーザルを出力するようにし、(iv)前記プーリングレイヤをもって、前記第k学習用特徴マップ上で、前記第k学習用物体プロポーザルそれぞれに対応するそれぞれの領域に前記プーリング演算を適用して、少なくとも一つの第k学習用プーリング済み特徴マップを出力するようにし、(v)前記FCレイヤをもって、前記第k学習用プーリング済み特徴マップにFC演算を適用して、前記第k学習用物体に対応する第k学習用物体検出情報を出力するようにするプロセス;及び(c)(i)前記ターゲット物体統合ネットワークをもって、前記第1学習用物体プロポーザルないし前記第n学習用物体プロポーザルを統合して学習用統合物体プロポーザルを出力するようにし、前記第1学習用物体検出情報ないし前記第n学習用物体検出情報を統合して学習用統合物体検出情報を出力するようにし、(ii)前記FCロスレイヤをもって、前記学習用統合物体検出情報と、これに対応するGTとを参照して前記FCロスを生成するようにすることで、前記FCロスを利用したバックプロパゲーションによって、前記FCレイヤ及び前記コンボリューションレイヤのパラメータの中の少なくとも一部を学習するプロセス;を遂行する。
また、前記学習装置は、前記RPNロスレイヤをもって、前記学習用統合物体プロポーザルと、これに対応するGTとを参照して一つ以上のRPNロスを取得するようにすることで、前記RPNロスを利用したバックプロパゲーションによって前記RPNのパラメータの中の少なくとも一部を学習する。
次に、前記プロセッサ220は(i)前記コンボリューションレイヤをもって、前記テストイメージに対応する少なくとも一つの第1テスト用加工イメージに前記コンボリューション演算を適用して、少なくとも一つの第1テスト用特徴マップを出力するようにし、(ii)前記RPNをもって、前記第1テスト用特徴マップを利用して、前記第1テスト用加工イメージ内に位置する一つ以上の第1テスト用物体それぞれに対応する一つ以上の第1テスト用物体プロポーザルを出力するようにし、(iii)前記プーリングレイヤをもって、前記第1テスト用特徴マップ上で、前記第1テスト用物体プロポーザルそれぞれに対応するそれぞれの領域に前記プーリング演算を適用して、少なくとも一つの第1テスト用プーリング済み特徴マップを出力するようにし、(iv)前記FCレイヤをもって、前記第1テスト用プーリング済み特徴マップに前記FC演算を適用して、前記第1テスト用物体に対応する第1テスト用物体検出情報を出力するようにするプロセスを遂行するか、他の装置をもって遂行するように支援し得る。その後、前記プロセッサ220は、kを2からnまで増加させながら、(i)前記ターゲット物体予測ネットワークをもって、第(k−1)テスト用加工イメージ上の一つ以上の第(k−1)テスト用物体プロポーザルを参照して、前記第(k−1)テスト用加工イメージ上で、少なくとも一つのテスト用ターゲット物体が位置するものと予測される領域に対応する第(k−1)テスト用ターゲット領域を探すようにし、(ii)前記テストイメージ、またはリサイズされたテストイメージ上で、前記第(k−1)テスト用ターゲット領域に対応する第kテスト用加工イメージが取得されると、前記コンボリューションレイヤをもって、前記第kテスト用加工イメージに前記コンボリューション演算を適用して第kテスト用特徴マップを出力するようにし、(iii)前記RPNをもって、前記第kテスト用特徴マップを参照して、前記第kテスト用加工イメージ内に位置する一つ以上の第kテスト用物体それぞれに対応する一つ以上の第kテスト用物体プロポーザルを出力するようにし、(iv)前記プーリングレイヤをもって、前記第kテスト用特徴マップ上で、前記第kテスト用物体プロポーザルそれぞれに対応するそれぞれの領域に前記プーリング演算を適用して、少なくとも一つの第kテスト用プーリング済み特徴マップを出力するようにし、(v)前記FCレイヤをもって、前記第kテスト用プーリング済み特徴マップに前記FC演算を適用して、前記第kテスト用物体に対応する第kテスト用物体検出情報を出力するようにするプロセスを遂行するか、他の装置をもって遂行するように支援し得る。その後、前記プロセッサ220は、(i)前記ターゲット物体統合ネットワークをもって、前記第1テスト用物体プロポーザルないし前記第nテスト用物体プロポーザルを統合してテスト用統合物体プロポーザルを出力するようにし、前記第1テスト用物体検出情報ないし前記第nテスト用物体検出情報を統合してテスト用統合物体検出情報を出力するプロセスを遂行する。
この際、本発明の一例に係るテスティング装置200は、コンピューティング装置であり、プロセッサを搭載して演算能力を備えた装置であればいくらでも本発明に係る学習装置200として採択され得る。また、図7では一つのテスティング装置200のみを示したが、これに限定されず、テスティング装置は複数に分けて役割を遂行することもできる。
本発明の一例に係る前記テスティング装置200を利用して、ターゲット物体予測ネットワーク及びターゲット物体統合ネットワークを利用した前記CNN基盤物体検出器をテスティングする方法を、図8を参照して説明する。以下の説明で、図1ないし図6を参照して説明した前記学習方法により容易に理解可能な部分については、詳細な説明を省略することにする。
まず、図1ないし図6を参照に説明した学習方法によってFCレイヤ224と、コンボリューションレイヤ221と、RPN222のパラメータとの中の少なくとも一部を学習した状態で、前記テストイメージが入力されると、前記テスティング装置200がをコンボリューションレイヤ221をもって、前記テストイメージに対応する前記第1加工イメージに前記コンボリューション演算を適用して、前記第1テスト用特徴マップを出力するようにし得る。この際、前記コンボリューションレイヤ221は、単一のコンボリューションレイヤであることもあり、または多数のコンボリューションレイヤであることもある。
この際、前記テスティング装置200は、イメージ加工ネットワーク211をもって、前記テストイメージを加工してサイズが互いに異なるイメージを含むイメージピラミッドを生成するようにし得、前記イメージピラミッドイメージの中の一つイメージを前記第1テスト用加工イメージとして前記コンボリューションレイヤ221に入力し得る。
次に、前記テスティング装置200は、前記RPN222をもって前記第1テスト用特徴マップを利用して、前記第1テスト用加工イメージ内に位置する前記第1テスト用物体それぞれに対応する一つ以上の第1テスト用物体プロポーザルを出力するようにし得る。
この際、前記第1テスト用物体プロポーザルそれぞれは、前記それぞれの第1テスト用物体、つまり、タグ付き領域に対応する位置情報と、前記それぞれのタグ付け領域が物体であるか否かに対する情報とを有する各プロポーザルに対する情報を含み得る。
次に、前記テスティング装置200は、プーリングレイヤ223をもって、前記第1テスト用特徴マップ上で、前記第1物体プロポーザルに対応する少なくとも一つの領域に前記プーリング演算を適用して、少なくとも一つの第1テスト用プーリング済み特徴マップを出力するようにし、前記FCレイヤ224をもって、前記第1テスト用プーリング済み特徴マップに前記FC演算を適用して、前記第1テスト用物体に対応する第1テスト用物体検出情報を出力するようにし得る。
この際、前記第1テスト用物体検出情報は、テスト用バウンディングボックスに関する情報(すなわち、前記第1テスト用物体それぞれに関する位置情報)と、前記第1テスト用物体プロポーザルに対応する前記第1テスト用物体それぞれに関するクラス情報とを含み得る。
次に、前記テスティング装置200は、ターゲット物体予測ネットワーク225をもって、第1テスト用加工イメージ上の前記第1テスト用物体プロポーザルを参照して、前記第1テスト用加工イメージ上で、少なくとも一つのテスト用ターゲット物体が位置するものと予測される領域に対応する第1テスト用ターゲット領域を探すようにし得る。
次に、前記テスティング装置200は、前記リサイズされたテストイメージ、または前記テストイメージ上の前記第1テスト用ターゲット領域に対応する第2テスト用加工イメージを取得するか、他の装置をもって取得するように支援し得る。
この際、前記テスティング装置200は、前記イメージ加工ネットワーク211をもって、前記テストイメージのサイズを前記第1テスト用加工イメージのサイズより大きいサイズに拡大して、前記リサイズされたテストイメージを生成した後、前記リサイズされたテストイメージ上で前記第1テスト用ターゲット領域に対応する少なくとも一つの領域をクロップして前記第2加工イメージを生成するか、前記テストイメージ上の前記第1テスト用ターゲット領域に対応する少なくとも一つの領域をクロップ及びリサイズして前記第2テスト用加工イメージを生成するようにし得る。
一例として、前記イメージ加工ネットワーク211は、前記テストイメージに対応する前記イメージピラミッドの中の、第1テスト用加工イメージよりサイズが大きいイメージ上で、第1テスト用ターゲット領域に対応する少なくとも一つの領域をクロップして、前記第2テスト用加工イメージを生成し得る。また、前記イメージ加工ネットワーク211は、前記トレーニングイメージにおいて前記第1ターゲット領域に対応する少なくとも一つの領域をクロップして、前記クロップされたイメージをリサイズすることにより、前記第2テスト用加工イメージを生成し得る。この際、前記第2テスト用加工イメージのサイズが、前記第1テスト用ターゲット領域のサイズより大きくなるようにリサイズされ得る。このために、前記イメージ加工ネットワーク211は、前記クロップされたイメージを、前記テストイメージの前記イメージピラミッドの中の、前記第1テスト用加工イメージの次のイメージのサイズに対応するようにリサイズして、前記第2加工イメージを生成し得る。
次に、前記テスティング装置200は、前記に生成された第2テスト用加工のイメージを利用して前記のような過程を繰り返して前記テストイメージ上でのサイズが小さい物体、つまり、遠距離に位置する物体を効率的に検出できるようになる。
つまり、前記テスティング装置200は、kを2からnまで増加させながら、(i)前記ターゲット物体予測ネットワーク225をもって、第(k−1)テスト用加工イメージ上の一つ以上の第(k−1)テスト用物体プロポーザルを参照して、前記第(k−1)テスト用加工イメージ上で、少なくとも一つのテスト用ターゲット物体が位置するものと予測される領域に対応する第(k−1)テスト用ターゲット領域を探すようにし、(ii)前記テストイメージ、またはリサイズされたテストイメージ上で、前記第(k−1)テスト用ターゲット領域に対応する第kテスト用加工イメージが取得されると、前記コンボリューションレイヤ221をもって、前記第kテスト用加工イメージに前記コンボリューション演算を適用して第kテスト用特徴マップを出力するようにするプロセスを遂行するか、他の装置をもって遂行するように支援し得る。そして、前記テスティング装置200は、前記RPN222をもって、前記第kテスト用特徴マップを利用して、前記第kテスト用加工イメージ内に位置する前記第kテスト用物体それぞれに対応する前記第kテスト用物体プロポーザルを出力するようにし、前記プーリングレイヤ223をもって、前記第kテスト用特徴マップ上で、前記第kテスト用物体プロポーザルそれぞれに対応するそれぞれの領域に前記プーリング演算を適用して、少なくとも一つの第kテスト用プーリング済み特徴マップを出力するようにし得る。その後、前記テスティング装置200は、前記FCレイヤ224をもって、前記第kテスト用プーリング済み特徴マップに前記FC演算を適用して、前記第kテスト用物体に対応する第kテスト用物体検出情報を出力するようにし得る。
その後、前記テスティング装置200は、(i)前記ターゲット物体統合ネットワーク226をもって、前記第1テスト用物体プロポーザルないし前記第nテスト用物体プロポーザルを統合してテスト用統合物体プロポーザルを出力するようにし、前記第1テスト用物体検出情報ないし前記第nテスト用物体検出情報を統合してテスト用統合物体検出情報を出力するようにする。
一例として、図6を参照すれば、前記第(k−1)テスト用加工イメージ(MI(k−1))及び前記第kテスト用加工イメージ(MI(k))上に少なくとも一つのテスト用特定同一物体が位置し、前記第(k−1)テスト用加工イメージ(MI(k−1))上の前記第(k−1)テスト用物体プロポーザルの中の、前記テスト用特定同一物体に対応する少なくとも一つのテスト用物体プロポーザルを第(k−1)テスト用特定物体プロポーザルとし、前記第kテスト用加工イメージ(MI(k))上で、前記第kテスト用物体プロポーザルの中の、前記テスト用特定同一物体に対応する少なくとも一つのテスト用物体プロポーザルを第kテスト用特定物体プロポーザルであるとする場合、前記テスティング装置200は、前記ターゲット物体統合ネットワーク226をもって、前記第(k−1)テスト用特定物体プロポーザル(PB(k−1))と、前記第kテスト用特定物体プロポーザル(PB(k))との間のテスト用IOU(Intersection Over Union)が、第1閾値以上になるかを判断するようにする。その後、前記テスト用IOUが前記第1閾値未満と判断されれば、前記第(k−1)テスト用特定物体プロポーザル(PB(k−1))と、前記第kテスト用特定物体プロポーザル(PB(k))との間のテスト用調整IOUが算出されるようにする。
この際、前記テスト用調整IOUは、前記第kテスト用加工イメージ(MI(k)上で前記第(k−1)テスト用特定物体プロポーザル(PB(k−1))に対応する領域、すなわち、交差領域(PB(k−1),MI(k))と、前記第(k−1)テスト用加工イメージ(MI(k−1))上で前記第kテスト用特定物体プロポーザル(PB(k))に対応する領域、すなわち、交差領域(PB(k),MI(k−1))とを参照して算出されたIOUである。
そして、前記テスト用調整IOUが第2閾値以上と判断されれば、前記テスティング装置200は、前記第(k−1)テスト用特定物体プロポーザル(PB(k−1))と、前記第kテスト用特定物体プロポーザル(PB(k))との中で、(i)確率値の高いテスト用特定物体プロポーザルを選択するようにするか(ii)前記テストイメージ上で演算される面積の大きいテスト用特定物体プロポーザルを選択させることにより、前記選択されたテスト用特定物体プロポーザルを前記テスト用特定同一物体に対応するテスト用特定統合物体プロポーザルとして生成する。
しかし、前記調整IOUが前記第2閾値未満と判断されれば、前記テスティング装置200は、前記第(k−1)テスト用特定物体プロポーザル(PB(k−1))と、前記第kテスト用特定物体プロポーザル(PB(k))とが、それぞれ異なるテスト用物体に対応すると判断する。つまり、前記第(k−1)テスト用特定物体プロポーザル(PB(k−1))と、前記第kテスト用特定物体プロポーザル(PB(k))との間の前記IOUが前記第1閾値未満であり、これら間の前記テスト用調整IOUが前記第2閾値未満と判断されれば、前記テスティング装置200は、前記第(k−1)テスト用特定物体プロポーザル(PB(k−1))と、前記第kテスト用特定物体プロポーザル(PB(k))とがそれぞれ異なる物体に対応するものと判断する。
つまり、前記第(k−1)テスト用特定物体プロポーザル(PB(k−1))と、前記第kテスト用特定物体プロポーザル(PB(k))との間の前記IOUが前記第1閾値以上であると判断されれば、前記テスティング装置は、前記第(k−1)テスト用特定物体プロポーザル(PB(k−1))と、前記第kテスト用特定物体プロポーザル(PB(k))との中で(i)確率値の高いテスト用特定物体プロポーザルを選択するようにするか(ii)それぞれの前記テスト用加工イメージ(MI(k−1)及びMI(k))上で演算される面積の大きいテスト用特定物体プロポーザルを選択するようにすることにより、前記選択されたテスト用特定物体プロポーザルを前記テスト用特定同一物体に対応する前記テスト用特定統合物体プロポーザルとして生成する。
また、図6を参照すれば、前記第(k−1)テスト用加工イメージ(MI(k−1))及び前記第kテスト用加工イメージ(MI(k))上に少なくとも一つのテスト用特定同一物体が位置し、前記第(k−1)テスト用加工イメージ(MI(k−1))上で、前記第(k−1)テスト用物体検出情報に含まれたテスト用物体バウンディングボックス(Bounding box)の中の、前記テスト用特定同一物体に対応する少なくとも一つのテスト用物体バウンディングボックスを第(k−1)テスト用特定物体バウンディングボックス(BB(k−1))とし、前記第kテスト用加工イメージ(MI(k))上で、前記第kテスト用物体検出情報に含まれたテスト用物体バウンディングボックスの中の、前記テスト用特定同一物体に対応する少なくとも一つのテスト用物体バウンディングボックスを第kテスト用特定物体バウンディングボックス(BB(k))とした場合、前記テスティング装置200は、前記ターゲット物体統合ネットワーク226をもって、前記第(k−1)テスト用特定物体バウンディングボックス(BB(k−1))と、前記第kテスト用特定物体バウンディングボックス(BB(k))との間の前記テスト用IOUが、前記第1閾値以上になるかを判断するようにする。この際、前記テスト用物体プロポーザル間のテスト用IOU判断に利用された前記第1閾値と、前記テスト用物体バウンディングボックス間のテスト用IOU判断に利用された前記第1閾値とは、同じこともあり、同じくないこともある。その後、前記テスト用バウンディングボックス間のテスト用IOUが前記第1閾値未満と判断されれば、前記第(k−1)テスト用特定物体バウンディングボックス(BB(k−1))と、前記第kテスト用特定物体バウンディングボックス(BB(k))との間のテスト用調整IOUが算出される。
この際、前記テスト用調整IOUは、前記第kテスト用加工イメージ(MI(k))上で前記第(k−1)テスト用特定物体バウンディングボックス(BB(k−1))に対応する領域、すなわち、交差領域(BB(k−1),MI(k))と、前記第(k−1)テスト用加工イメージ(MI(k−1))上で前記第kテスト用特定物体バウンディングボックス(BB(k))に対応する領域、すなわち、交差領域(BB(k),MI(k−1))とを参照して算出されたIOUである。
そして、前記テスト用調整IOUが前記第2閾値以上と判断されれば、前記テスティング装置200は、前記第(k−1)テスト用特定物体バウンディングボックス(BB(k−1))と、前記第kテスト用特定物体バウンディングボックス(BB(k))との中で、(i)確率値の高いテスト用特定物体バウンディングボックスを選択するようにするか(ii)前記テストイメージ上で演算される面積の大きいテスト用特定物体バウンディングボックスを選択するようにすることにより、前記選択されたテスト用特定物体バウンディングボックスを前記テスト用特定同一物体に対応するテスト用特定統合物体検出情報として生成する。この際、前記テスト用物体プロポーザル間のテスト用IOU判断に利用された前記第2閾値と、前記テスト用物体バウンディングボックス間のテスト用IOU判断に利用された前記第2閾値とは、同じこともあり、同じくないこともある。
しかし、前記テスト用調整IOUが前記第2閾値未満と判断されれば、前記テスティング装置200は、前記第(k−1)テスト用特定物体バウンディングボックス(BB(k−1))と、前記第kテスト用特定物体バウンディングボックス(BB(k))とが、それぞれ異なるテスト用物体に対応すると判断する。つまり、前記第(k−1)テスト用特定物体バウンディングボックス(BB(k−1))と、前記第kテスト用特定物体バウンディングボックス(BB(k))との間の前記テスト用IOUが前記第1閾値未満であり、これらの間の前記テスト用調整IOUが前記第2閾値未満と判断されれば、前記テスティング装置200は、前記第(k−1)テスト用特定物体バウンディングボックス(BB(k−1))と、前記第kテスト用特定物体バウンディングボックス(BB(k))とがそれぞれ異なるテスト用物体に対応するものと判断する。
つまり、前記第(k−1)テスト用特定物体バウンディングボックス(BB(k−1))と、前記第kテスト用特定物体バウンディングボックス(BB(k))との間の前記テスト用IOUが前記第1閾値未満であると判断されれば、前記テスティング装置は、前記第(k−1)テスト用特定物体バウンディングボックス(BB(k−1))と、前記第kテスト用特定物体バウンディングボックス(BB(k))との中で(i)確率値の高いテスト用特定物体バウンディングボックスを選択するようにするか(ii)それぞれの前記テスト用加工イメージ(MI(k−1)及びMI(k))上で演算される面積の大きいテスト用特定物体バウンディングボックスを選択するようにすることにより、前記選択されたテスト用特定物体バウンディングボックスを前記テスト用特定同一物体に対応する前記テスト用特定統合物体検出情報として生成する。
前記のような方法により、前記テストイメージ内に位置するサイズが様々な物体、特にサイズが小さく、遠距離に位置した物体を効率的に検出できるようになり、また、前記予測されたターゲット領域に対応する領域のみを利用することで演算量を減らし得、これによって前記CNNベースの前記物体検出の演算時間を減らし得るようになる。
また、前記では、前記テストイメージ上にターゲット物体が一つである場合を想定して説明したが、前記テストイメージ内にターゲット物体多数がある場合にも、前記のような方法により前記テストイメージ内での前記それぞれのターゲット物体に対応するそれぞれのターゲット領域を利用して前記それぞれのターゲット物体の検出が可能である。
前記CNNは、ターゲット物体予測ネットワーク及び物体統合ネットワークを利用して、重要業績評価指標(KPI:Key Performance Index)のようなユーザーの要求事項に合わせて調整可能である。また、前記CNNは、前記重要業績評価指標に係る解像度や焦点距離が変化し、物体のスケールが変化するに伴い再設計され得る。前記方法は、2Dバウンディングボックスの正確度が向上し、多重カメラ、サラウンドビューモニタリング(surround view monitoring)などに有用に遂行され得る。
また、以上で説明された本発明に係る実施例は、多様なコンピュータ構成要素を通じて遂行できるプログラム命令語の形態で実装されてコンピュータで判読可能な記録媒体に記録され得る。前記コンピュータで読み取り可能な記録媒体はプログラム命令語、データファイル、データ構造などを単独でまたは組み合わせて含まれ得る。前記コンピュータ判読可能な記録媒体に記録されるプログラム命令語は、本発明のために特別に設計されて構成されたものか、コンピュータソフトウェア分野の当業者に公知となって使用可能なものでもよい。コンピュータで判読可能な記録媒体の例には、ハードディスク、フロッピーディスク及び磁気テープのような磁気媒体、CD−ROM、DVDのような光記録媒体、フロプティカルディスク(flopticaldisk)のような磁気−光媒体(magneto−opticalmedia)、およびROM、RAM、フラッシュメモリなどといったプログラム命令語を格納して遂行するように特別に構成されたハードウェア装置が含まれる。プログラム命令語の例には、コンパイラによって作られるもののような機械語コードだけでなく、インタプリタなどを用いてコンピュータによって実行され得る高級言語コードも含まれる。前記ハードウェア装置は、本発明に係る処理を遂行するために一つ以上のソフトウェアモジュールとして作動するように構成され得、その逆も同様である。
以上、本発明が具体的な構成要素などのような特定事項と限定された実施例及び図面によって説明されたが、これは本発明のより全般的な理解を助けるために提供されたものであるに過ぎず、本発明が前記実施例に限られるものではなく、本発明が属する技術分野において通常の知識を有する者であれば係る記載から多様な修正及び変形が行われ得る。
従って、本発明の思想は前記説明された実施例に局限されて定められてはならず、後述する特許請求の範囲だけでなく、本特許請求の範囲と均等または等価的に変形されたものすべては、本発明の思想の範囲に属するといえる。

Claims (30)

  1. ターゲット物体予測ネットワークと、ターゲット物体統合ネットワークとを利用したCNN基盤の物体検出器のパラメータを学習する方法において、
    (a)少なくとも一つのトレーニングイメージが入力されると、学習装置が、(i)一つ以上のコンボリューションレイヤをもって、前記トレーニングイメージに対応する少なくとも一つの第1加工イメージに一つ以上のコンボリューション演算を適用して、少なくとも一つの第1特徴マップを出力するようにし、(ii)RPN(Region Proposal Network)をもって、前記第1特徴マップを利用して、前記第1加工イメージ内に位置する一つ以上の第1物体それぞれに対応する一つ以上の第1物体プロポーザルを出力するようにし、(iii)プーリングレイヤをもって、前記第1特徴マップ上で、前記第1物体プロポーザルそれぞれに対応するそれぞれの領域に一つ以上のプーリング演算を適用して、少なくとも一つの第1プーリング済み特徴マップを出力するようにし、(iv)FC(Fully Connected)レイヤをもって、前記第1プーリング済み特徴マップに少なくとも一つのFC演算を適用して、前記第1物体に対応する第1物体検出情報を出力するようにする段階;
    (b)kを2からnまで増加させながら、前記学習装置が、(i)前記ターゲット物体予測ネットワークをもって、第(k−1)加工イメージ上の一つ以上の第(k−1)物体プロポーザルを参照して、前記第(k−1)加工イメージ上で、少なくとも一つのターゲット物体が位置するものと予測される領域に対応する第(k−1)ターゲット領域を探すようにし、(ii)前記トレーニングイメージ、またはこれに対応するリサイズされたトレーニングイメージ上で、前記第(k−1)ターゲット領域に対応する第k加工イメージが取得されると、前記コンボリューションレイヤをもって、前記第k加工イメージに前記コンボリューション演算を適用して第k特徴マップを出力するようにし、(iii)前記RPNをもって、前記第k特徴マップを参照して、前記第k加工イメージ内に位置する一つ以上の第k物体それぞれに対応する一つ以上の第k物体プロポーザルを出力するようにし、(iv)前記プーリングレイヤをもって、前記第k特徴マップ上で、前記第k物体プロポーザルそれぞれに対応するそれぞれの領域に前記プーリング演算を適用して、少なくとも一つの第kプーリング済み特徴マップを出力するようにし、(v)前記FCレイヤをもって、前記第kプーリング済み特徴マップに前記FC演算を適用して、前記第k物体に対応する第k物体検出情報を出力するようにする段階;及び
    (c)前記学習装置が、(i)前記ターゲット物体統合ネットワークをもって、前記第1物体プロポーザルないし前記第n物体プロポーザルを統合して統合物体プロポーザルを出力するようにし、前記第1物体検出情報ないし前記第n物体検出情報を統合して統合物体検出情報を出力するようにし、(ii)FCロスレイヤをもって、前記統合物体検出情報と、これに対応するGTとを参照して一つ以上のFCロスを生成するようにすることで、前記FCロスを利用したバックプロパゲーション(Backpropagation)によって、前記FCレイヤ及び前記コンボリューションレイヤのパラメータの中の少なくとも一部を学習する段階;
    を含むことを特徴とする学習方法。
  2. 前記(c)段階で、
    前記学習装置は、RPNロスレイヤをもって、前記統合物体プロポーザルと、これに対応するGTとを参照して一つ以上のRPNロスを算出するようにすることで、前記RPNロスを利用したバックプロパゲーションによって前記RPNのパラメータを学習することを特徴とする請求項1に記載の学習方法。
  3. 前記(c)段階で、
    前記第(k−1)加工イメージ及び前記第k加工イメージ上に少なくとも一つの特定同一物体が位置し、前記第(k−1)加工イメージ上で前記第(k−1)物体プロポーザルの中の、前記特定同一物体に対応する少なくとも一つの物体プロポーザルを第(k−1)特定物体プロポーザルとし、前記第k加工イメージ上で、前記第k物体プロポーザルの中の、前記特定同一物体に対応する少なくとも一つの物体プロポーザルを第k特定物体プロポーザルであるとする場合、
    前記学習装置は、前記ターゲット物体統合ネットワークをもって、前記第(k−1)特定物体プロポーザルと、前記第k特定物体プロポーザルとの間のIOU(Intersection Over Union)が、第1閾値以上になるかを判断するようにし、前記IOUが前記第1閾値未満であると判断されれば、前記第(k−1)特定物体プロポーザルと、前記第k特定物体プロポーザルとの間の調整IOUを算出するようにし、前記調整IOUが第2閾値以上と判断されれば、前記第(k−1)特定物体プロポーザルと、前記第k特定物体プロポーザルとの中で、(i)確率値の高い特定物体プロポーザルを選択するようにするか(ii)前記トレーニングイメージ上で演算される面積の大きい特定物体プロポーザルを選択するようにすることにより、前記選択された特定物体プロポーザルを前記特定同一物体に対応する特定統合物体プロポーザルとして生成することを特徴とする請求項1に記載の学習方法。
  4. 前記調整IOUは、前記第k加工イメージ上で前記第(k−1)特定物体プロポーザルに対応する領域と、前記第(k−1)加工イメージ上で前記第k特定物体プロポーザルに対応する領域とを参照して算出されることを特徴とする請求項3に記載の学習方法。
  5. 前記学習装置は、前記ターゲット物体統合ネットワークをもって、前記IOUが前記第1閾値以上になるか否かを判断するようにし、前記IOUが前記第1閾値以上と判断されれば、前記第(k−1)特定物体プロポーザルと、前記第k特定物体プロポーザルとの中で(i)確率値の高い特定物体プロポーザルを選択するようにするか(ii)それぞれの前記加工イメージ上で演算される面積の大きい特定物体プロポーザルを選択するようにすることにより、前記選択された特定物体プロポーザルを前記特定同一物体に対応する前記特定統合物体プロポーザルとして生成することを特徴とする請求項3に記載の学習方法。
  6. 前記(c)段階で、
    前記第(k−1)加工イメージ及び前記第k加工イメージ上に少なくとも一つの特定同一物体が位置し、前記第(k−1)加工イメージ上で、前記第(k−1)物体検出情報に含まれた物体バウンディングボックス(Bounding box)の中の、前記特定同一物体に対応する少なくとも一つの物体バウンディングボックスを第(k−1)特定物体バウンディングボックスとし、前記第k加工イメージ上で、前記第k物体検出情報に含まれた物体バウンディングボックスの中の、前記特定同一物体に対応する少なくとも一つの物体バウンディングボックスを第k特定物体バウンディングボックスとした場合、
    前記学習装置は、前記ターゲット物体統合ネットワークをもって、前記第(k−1)特定物体バウンディングボックスと、前記第k特定物体バウンディングボックスとの間のIOUが、第1閾値以上になるか否かを判断するようにし、前記IOUが前記第1閾値未満と判断されると、前記第(k−1)特定物体バウンディングボックスと、前記第k特定物体バウンディングボックスとの間の調整IOUを算出するようにし、前記調整IOUが、第2閾値以上と判断されたら、前記第(k−1)特定物体バウンディングボックスと、前記第k特定物体バウンディングボックスとの中から(i)確率値の高い特定物体バウンディングボックスを選択するようにするか(ii)前記トレーニングイメージ上で演算される面積の大きい特定物体バウンディングボックスを選択させることにより、前記選択された特定物体バウンディングボックスを前記特定同一物体に対応する特定統合物体検出情報として生成することを特徴とする請求項1に記載の学習方法。
  7. 前記調整IOUは、前記第k加工イメージ上で前記第(k−1)特定物体バウンディングボックスに対応する領域と、前記第(k−1)加工イメージ上で前記第k特定物体バウンディングボックスに対応する領域とを参照して算出されることを特徴とする請求項6に記載の学習方法。
  8. 前記学習装置は、前記ターゲット物体統合ネットワークをもって、前記IOUが前記第1閾値以上になるか否かを判断するようにし、前記IOUが前記第1閾値以上と判断されれば、前記第(k−1)特定物体バウンディングボックスと、前記第k特定物体バウンディングボックスとの中の(i)確率値の高い特定物体バウンディングボックスを選択するようにするか(ii)それぞれの前記加工イメージ上で演算される面積の大きい特定物体バウンディングボックスを選択させることにより、前記選択された特定物体バウンディングボックスを前記特定同一物体に対応する前記特定統合物体検出情報として生成することを特徴とする請求項6に記載の学習方法。
  9. ターゲット物体予測ネットワークと、ターゲット物体統合ネットワークとを利用したCNN基盤の物体検出器をテスティングする方法において、
    (a)学習装置が、(1)(i)一つ以上のコンボリューションレイヤをもって、少なくとも一つのトレーニングイメージに対応する少なくとも一つの第1学習用加工イメージに一つ以上のコンボリューション演算を適用して、少なくとも一つの第1学習用特徴マップを出力するようにし、(ii)RPNをもって、前記第1学習用特徴マップを利用して、前記第1学習用加工イメージ内に位置する一つ以上の第1学習用物体それぞれに対応する一つ以上の第1学習用物体プロポーザルを出力するようにし、(iii)プーリングレイヤをもって、前記第1学習用特徴マップ上で、前記第1学習用物体プロポーザルそれぞれに対応するそれぞれの領域に一つ以上のプーリング演算を適用して、少なくとも一つの第1学習用プーリング済み特徴マップを出力するようにし、(iv)FCレイヤをもって、前記第1学習用プーリング済み特徴マップに少なくとも一つのFC演算を適用して、前記第1学習用物体に対応する第1学習用物体検出情報を出力するようにし、(2)kを2からnまで増加させながら、(i)前記ターゲット物体予測ネットワークをもって、第(k−1)学習用加工イメージ上の一つ以上の第(k−1)学習用物体プロポーザルを参照して、前記第(k−1)学習用加工イメージ上で、少なくとも一つの学習用ターゲット物体が位置するものと予測される領域に対応する第(k−1)学習用ターゲット領域を探すようにし、(ii)前記トレーニングイメージ、またはこれに対応する一つ以上のリサイズされたトレーニングイメージ上で、前記第(k−1)学習用ターゲット領域に対応する第k学習用加工イメージが取得されると、前記コンボリューションレイヤをもって、前記第k学習用加工イメージに前記コンボリューション演算を適用して第k学習用特徴マップを出力するようにし、(iii)前記RPNをもって、前記第k学習用特徴マップを利用して、前記第k学習用加工イメージ内に位置する一つ以上の第k学習用物体それぞれに対応する一つ以上の第k学習用物体プロポーザルを出力するようにし、(iv)前記プーリングレイヤをもって、前記第k学習用特徴マップ上で、前記第k学習用物体プロポーザルそれぞれに対応するそれぞれの領域に前記プーリング演算を適用して、少なくとも一つの第k学習用プーリング済み特徴マップを出力するようにし、(v)前記FCレイヤをもって、前記第k学習用プーリング済み特徴マップにFC演算を適用して、前記第k学習用物体に対応する第k学習用物体検出情報を出力するようにし、(3)(i)前記ターゲット物体統合ネットワークをもって、前記第1学習用物体プロポーザルないし前記第n学習用物体プロポーザルを統合して学習用統合物体プロポーザルを出力するようにし、前記第1学習用物体検出情報ないし前記第n学習用物体検出情報を統合して学習用統合物体検出情報を出力するようにし、(ii)FCロスレイヤをもって、前記学習用統合物体検出情報と、これに対応するGTとを参照して一つ以上のFCロスを生成するようにすることで、前記FCロスを利用したバックプロパゲーション(Backpropagation)によって、前記FCレイヤ及び前記コンボリューションレイヤのパラメータの中の少なくとも一部を学習した状態で、少なくとも一つのテストイメージが取得されると、テスティング装置が、(i)前記コンボリューションレイヤをもって、前記テストイメージに対応する少なくとも一つの第1テスト用加工イメージに前記コンボリューション演算を適用して、少なくとも一つの第1テスト用特徴マップを出力するようにし、(ii)前記RPNをもって、前記第1テスト用特徴マップを利用して、前記第1テスト用加工イメージ内に位置する一つ以上の第1テスト用物体それぞれに対応する一つ以上の第1テスト用物体プロポーザルを出力するようにし、(iii)前記プーリングレイヤをもって、前記第1テスト用特徴マップ上で、前記第1テスト用物体プロポーザルそれぞれに対応するそれぞれの領域に前記プーリング演算を適用して、少なくとも一つの第1テスト用プーリング済み特徴マップを出力するようにし、(iv)前記FCレイヤをもって、前記第1テスト用プーリング済み特徴マップに前記FC演算を適用して、前記第1テスト用物体に対応する第1テスト用物体検出情報を出力するようにする段階;
    (b)kを2からnまで増加させながら、前記テスティング装置が、(i)前記ターゲット物体予測ネットワークをもって、第(k−1)テスト用加工イメージ上の一つ以上の第(k−1)テスト用物体プロポーザルを参照して、前記第(k−1)テスト用加工イメージ上で、少なくとも一つのテスト用ターゲット物体が位置するものと予測される領域に対応する第(k−1)テスト用ターゲット領域を探すようにし、(ii)前記テストイメージ、またはこれに対応する一つ以上のリサイズされたテストイメージ上で、前記第(k−1)テスト用ターゲット領域に対応する第kテスト用加工イメージが取得されると、前記コンボリューションレイヤをもって、前記第kテスト用加工イメージに前記コンボリューション演算を適用して第kテスト用特徴マップを出力するようにし、(iii)前記RPNをもって、前記第kテスト用特徴マップを参照して、前記第kテスト用加工イメージ内に位置する一つ以上の第kテスト用物体それぞれに対応する一つ以上の第kテスト用物体プロポーザルを出力するようにし、(iv)前記プーリングレイヤをもって、前記第kテスト用特徴マップ上で、前記第kテスト用物体プロポーザルそれぞれに対応するそれぞれの領域に前記プーリング演算を適用して、少なくとも一つの第kテスト用プーリング済み特徴マップを出力するようにし、(v)前記FCレイヤをもって、前記第kテスト用プーリング済み特徴マップに前記FC演算を適用して、前記第kテスト用物体に対応する第kテスト用物体検出情報を出力するようにする段階;及び
    (c)前記テスティング装置が(i)前記ターゲット物体統合ネットワークをもって、前記第1テスト用物体プロポーザルないし前記第nテスト用物体プロポーザルを統合してテスト用統合物体プロポーザルを出力するようにし、前記第1テスト用物体検出情報ないし前記第nテスト用物体検出情報を統合してテスト用統合物体検出情報を出力する段階;
    を含むことを特徴とするテスティング方法。
  10. 前記(c)段階で、
    前記第(k−1)テスト用加工イメージ及び前記第kテスト用加工イメージ上に少なくとも一つのテスト用特定同一物体が位置し、前記第(k−1)テスト用加工イメージ上で前記第(k−1)テスト用物体プロポーザルの中の、前記特定同一物体に対応する少なくとも一つのテスト用物体プロポーザルを第(k−1)特定物体プロポーザルとし、前記第kテスト用加工イメージ上で、前記第kテスト用物体プロポーザルの中の、前記テスト用特定同一物体に対応する少なくとも一つのテスト用物体プロポーザルを第kテスト用特定物体プロポーザルであるとする場合、
    前記テスティング装置は、前記ターゲット物体統合ネットワークをもって、前記第(k−1)テスト用特定物体プロポーザルと、前記第kテスト用特定物体プロポーザルとの間のテスト用IOU(Intersection Over Union)が、第1閾値以上になるかを判断するようにし、前記テスト用IOUが前記第1閾値未満であると判断されると、前記第(k−1)テスト用特定物体プロポーザルと、前記第kテスト用特定物体プロポーザルとの間のテスト用調整IOUを算出するようにし、前記テスト用調整IOUが第2閾値以上と判断されれば、前記第(k−1)テスト用特定物体プロポーザルと、前記第kテスト用特定物体プロポーザルとの中で、(i)確率値の高いテスト用特定物体プロポーザルを選択するようにするか(ii)前記テストイメージ上で演算される面積の大きいテスト用特定物体プロポーザルを選択させることにより、前記選択されたテスト用特定物体プロポーザルを前記テスト用特定同一物体に対応するテスト用特定統合物体プロポーザルとして生成することを特徴とする請求項9に記載のテスティング方法。
  11. 前記テスト用調整IOUは、前記第kテスト用加工イメージ上で前記第(k−1)テスト用特定物体プロポーザルに対応する領域と、前記第(k−1)テスト用加工イメージ上で前記第kテスト用特定物体プロポーザルに対応する領域とを参照して算出されることを特徴とする請求項10に記載のテスティング方法。
  12. 前記テスティング装置は、前記ターゲット物体統合ネットワークをもって、前記テスト用IOUが前記第1閾値以上になるか否かを判断するようにし、前記テスト用IOUが前記第1閾値以上であると判断されれば、前記第(k−1)テスト用特定物体プロポーザルと、前記第kテスト用特定物体プロポーザルとの中で、(i)確率値の高いテスト用特定物体プロポーザルを選択するようにするか(ii)それぞれの前記テスト加工イメージ上で演算される面積の大きいテスト用特定物体プロポーザルを選択するようにすることにより、前記選択されたテスト用物体プロポーザルを前記テスト用特定同一物体に対応する前記テスト用特定統合物体プロポーザルとして生成することを特徴とする請求項10に記載のテスティング方法。
  13. 前記(c)段階で、
    前記第(k−1)テスト用加工イメージ及び前記第kテスト用加工イメージ上に少なくとも一つのテスト用特定同一物体が位置し、前記第(k−1)テスト用加工イメージ上で、前記第(k−1)テスト用物体検出情報に含まれたテスト用物体バウンディングボックス(Bounding box)の中の、前記テスト用特定同一物体に対応する少なくとも一つのテスト用物体バウンディングボックスを第(k−1)テスト用特定物体バウンディングボックスとし、前記第kテスト用加工イメージ上で、前記第kテスト用物体検出情報に含まれたテスト用物体バウンディングボックスの中の、前記テスト用特定同一物体に対応する少なくとも一つのテスト用物体バウンディングボックスを第kテスト用特定物体バウンディングボックスとした場合、
    前記テスティング装置は、前記ターゲット物体統合ネットワークをもって、前記第(k−1)テスト用特定物体バウンディングボックスと、前記第kテスト用特定物体バウンディングボックスとの間のテスト用IOUが、第1閾値以上になるかを判断するようにし、前記テスト用IOUが前記第1閾値未満であると判断されれば、前記第(k−1)テスト用特定物体バウンディングボックスと、前記第kテスト用特定物体バウンディングボックスとの間のテスト用調整IOUを算出するようにし、前記テスト用調整IOUが第2閾値以上と判断されれば、前記第(k−1)テスト用特定物体バウンディングボックスと、前記第kテスト用特定物体バウンディングボックスとの中から(i)確率値の高いテスト用特定物体バウンディングボックスを選択するようにするか(ii)前記テストイメージ上で演算される面積の大きいテスト用特定物体バウンディングボックスを選択するようにすることにより、前記選択されたテスト用特定物体バウンディングボックスを前記テスト用特定同一物体に対応するテスト用特定統合物体検出情報として生成することを特徴とする請求項9に記載のテスティング方法。
  14. 前記テスト用調整IOUは、前記第kテスト用加工イメージ上で前記第(k−1)テスト用特定物体バウンディングボックスに対応する領域と、前記第(k−1)テスト用加工イメージ上で前記第kテスト用特定物体バウンディングボックスに対応する領域とを参照して算出されることを特徴とする請求項13に記載のテスティング方法。
  15. 前記テスティング装置は、前記ターゲット物体統合ネットワークをもって、前記テスト用IOUが前記第1閾値以上になるか否かを判断するようにし、前記テスト用IOUが前記第1閾値以上と判断されれば、前記第(k−1)テスト用特定物体バウンディングボックスと、前記第kテスト用特定物体バウンディングボックスとの中から(i)確率値の高いテスト用特定物体バウンディングボックスを選択するようにするか(ii)それぞれの前記テスト用加工イメージ上で演算される面積の大きいテスト用特定物体バウンディングボックスを選択するようにすることにより、前記選択されたテスト用特定物体バウンディングボックスを前記テスト用特定同一物体に対応する前記テスト用特定統合物体検出情報として生成することを特徴とする請求項13に記載のテスティング方法。
  16. ターゲット物体予測ネットワークと、ターゲット物体統合ネットワークとを利用したCNN基盤の物体検出器のパラメータを学習するための学習装置において、
    インストラクションを格納する少なくとも一つのメモリ;及び
    (I)(i)一つ以上のコンボリューションレイヤをもって、少なくとも一つのトレーニングイメージに対応する少なくとも一つの第1加工イメージに一つ以上のコンボリューション演算を適用して、少なくとも一つの第1特徴マップを出力するようにし、(ii)RPN(Region Proposal Network)をもって、前記第1特徴マップを利用して、前記第1加工イメージ内に位置する一つ以上の第1物体それぞれに対応する一つ以上の第1物体プロポーザルを出力するようにし、(iii)プーリングレイヤをもって、前記第1特徴マップ上で、前記第1物体プロポーザルそれぞれに対応するそれぞれの領域に一つ以上のプーリング演算を適用して、少なくとも一つの第1プーリング済み特徴マップを出力するようにし、(iv)FC(Fully Connected)レイヤをもって、前記第1プーリング済み特徴マップに少なくとも一つのFC演算を適用して、前記第1物体に対応する第1物体検出情報を出力するようにするプロセス、(II)kを2からnまで増加させながら、(i)前記ターゲット物体予測ネットワークをもって、第(k−1)加工イメージ上の一つ以上の第(k−1)物体プロポーザルを参照して、前記第(k−1)加工イメージ上で、少なくとも一つのターゲット物体が位置するものと予測される領域に対応する第(k−1)ターゲット領域を探すようにし、(ii)前記トレーニングイメージ、またはこれに対応するリサイズされたトレーニングイメージ上で、前記第(k−1)ターゲット領域に対応する第k加工イメージが取得されると、前記コンボリューションレイヤをもって、前記第k加工イメージに前記コンボリューション演算を適用して第k特徴マップを出力するようにし、(iii)前記RPNをもって、前記第k特徴マップを参照して、前記第k加工イメージ内に位置する一つ以上の第k物体それぞれに対応する一つ以上の第k物体プロポーザルを出力するようにし、(iv)前記プーリングレイヤをもって、前記第k特徴マップ上で、前記第k物体プロポーザルそれぞれに対応するそれぞれの領域に前記プーリング演算を適用して、少なくとも一つの第kプーリング済み特徴マップを出力するようにし、(v)前記FCレイヤをもって、前記第kプーリング済み特徴マップに前記FC演算を適用して、前記第k物体に対応する第k物体検出情報を出力するようにするプロセス、及び(III)(i)前記ターゲット物体統合ネットワークをもって、前記第1物体プロポーザルないし前記第n物体プロポーザルを統合して統合物体プロポーザルを出力するようにし、前記第1物体検出情報ないし前記第n物体検出情報を統合して統合物体検出情報を出力するようにし、(ii)FCロスレイヤをもって、前記統合物体検出情報と、これに対応するGTとを参照して一つ以上のFCロスを生成するようにすることで、前記FCロスを利用したバックプロパゲーション(Backpropagation)によって、前記FCレイヤ及び前記コンボリューションレイヤのパラメータの中の少なくとも一部を学習するプロセスを遂行するための、前記インストラクションを実行するように構成された少なくとも一つのプロセッサ;
    を含むことを特徴とする学習装置。
  17. 前記(III)プロセスで、
    前記プロセッサは、RPNロスレイヤをもって、前記統合物体プロポーザルと、これに対応するGTとを参照して一つ以上のRPNロスを算出するようにすることで、前記RPNロスを利用したバックプロパゲーションによって前記RPNのパラメータを学習することを特徴とする請求項16に記載の学習装置。
  18. 前記(III)プロセスで、
    前記第(k−1)加工イメージ及び前記第k加工イメージ上に少なくとも一つの特定同一物体が位置し、前記第(k−1)加工イメージ上で前記第(k−1)物体プロポーザルの中の、前記特定同一物体に対応する少なくとも一つの物体プロポーザルを第(k−1)特定物体プロポーザルとし、前記第k加工イメージ上で、前記第k物体プロポーザルの中の、前記特定同一物体に対応する少なくとも一つの物体プロポーザルを第k特定物体プロポーザルであるとする場合、
    前記プロセッサは、前記ターゲット物体統合ネットワークをもって、前記第(k−1)特定物体プロポーザルと、前記第k特定物体プロポーザルとの間のIOU(Intersection Over Union)が、第1閾値以上になるかを判断するようにし、前記IOUが前記第1閾値未満であると判断されれば、前記第(k−1)特定物体プロポーザルと、前記第k特定物体プロポーザルとの間の調整IOUを算出するようにし、前記調整IOUが第2閾値以上と判断されれば、前記第(k−1)特定物体プロポーザルと、前記第k特定物体プロポーザルとの中で、(i)確率値の高い特定物体プロポーザルを選択するようにするか(ii)前記トレーニングイメージ上で演算される面積の大きい特定物体プロポーザルを選択するようにすることにより、前記選択された特定物体プロポーザルを前記特定同一物体に対応する特定統合物体プロポーザルとして生成することを特徴とする請求項16に記載の学習装置。
  19. 前記調整IOUは、前記第k加工イメージ上で前記第(k−1)特定物体プロポーザルに対応する領域と、前記第(k−1)加工イメージ上で前記第k特定物体プロポーザルに対応する領域とを参照して算出されることを特徴とする請求項18に記載の学習装置。
  20. 前記プロセッサは、前記ターゲット物体統合ネットワークをもって、前記IOUが前記第1閾値以上になるか否かを判断するようにし、前記IOUが前記第1閾値以上と判断されれば、前記第(k−1)特定物体プロポーザルと、前記第k特定物体プロポーザルとの中の(i)確率値の高い特定物体プロポーザルを選択するようにするか(ii)それぞれの前記加工イメージ上で演算される面積の大きい特定物体プロポーザルを選択するようにすることにより、前記選択された特定物体プロポーザルを前記特定同一物体に対応する前記特定統合物体プロポーザルとして生成することを特徴とする請求項18に記載の学習装置。
  21. 前記(III)プロセスで、
    前記第(k−1)加工イメージ及び前記第k加工イメージ上に少なくとも一つの特定同一物体が位置し、前記第(k−1)加工イメージ上で、前記第(k−1)物体検出情報に含まれた物体バウンディングボックス(Bounding box)の中の、前記特定同一物体に対応する少なくとも一つの物体バウンディングボックスを第(k−1)特定物体バウンディングボックスとし、前記第k加工イメージ上で、前記第k物体検出情報に含まれた物体バウンディングボックスの中の、前記特定同一物体に対応する少なくとも一つの物体バウンディングボックスを第k特定物体バウンディングボックスとした場合、
    前記プロセッサは、前記ターゲット物体統合ネットワークをもって、前記第(k−1)特定物体バウンディングボックスと、前記第k特定物体バウンディングボックスとの間のIOUが、第1閾値以上になるか否かを判断するようにし、前記IOUが前記第1閾値未満と判断されると、前記第(k−1)特定物体バウンディングボックスと、前記第k特定物体バウンディングボックスとの間の調整IOUとを算出するようにし、前記調整IOUが、第2閾値以上と判断されたら、前記第(k−1)特定物体バウンディングボックスと、前記第k特定物体バウンディングボックスとの中から(i)確率値の高い特定物体バウンディングボックスを選択するようにするか(ii)前記トレーニングイメージ上で演算される面積の大きい特定物体バウンディングボックスを選択するようにすることにより、前記選択された特定物体バウンディングボックスを前記特定同一物体に対応する特定統合物体検出情報として生成することを特徴とする請求項16に記載の学習装置。
  22. 前記調整IOUは、前記第k加工イメージ上で前記第(k−1)特定物体バウンディングボックスに対応する領域と、前記第(k−1)加工イメージ上で前記第k特定物体バウンディングボックスに対応する領域とを参照して算出されることを特徴とする請求項21に記載の学習装置。
  23. 前記プロセッサは、前記ターゲット物体統合ネットワークをもって、前記IOUが前記第1閾値以上になるか否かを判断するようにし、前記IOUが前記第1閾値以上と判断されれば、前記第(k−1)特定物体バウンディングボックスと、前記第k特定物体バウンディングボックスとの中から(i)確率値の高い特定物体バウンディングボックスを選択するようにするか(ii)それぞれの前記加工イメージ上で演算される面積の大きい特定物体バウンディングボックスを選択させることにより、前記選択された特定物体バウンディングボックスを前記特定同一物体に対応する前記特定統合物体検出情報として生成することを特徴とする請求項21に記載の学習装置。
  24. ターゲット物体予測ネットワークと、ターゲット物体統合ネットワークとを利用したCNN基盤の物体検出器をテストするためのテスティング装置において、
    インストラクションを格納する少なくとも一つのメモリ;及び
    学習装置が、(1)(i)一つ以上のコンボリューションレイヤをもって、少なくとも一つのトレーニングイメージに対応する少なくとも一つの第1学習用加工イメージに一つ以上のコンボリューション演算を適用して、少なくとも一つの第1学習用特徴マップを出力するようにし、(ii)RPNをもって、前記第1学習用特徴マップを利用して、前記第1学習用加工イメージ内に位置する一つ以上の第1学習用物体それぞれに対応する一つ以上の第1学習用物体プロポーザルを出力するようにし、(iii)プーリングレイヤをもって、前記第1学習用特徴マップ上で、前記第1学習用物体プロポーザルそれぞれに対応するそれぞれの領域に一つ以上のプーリング演算を適用して、少なくとも一つの第1学習用プーリング済み特徴マップを出力するようにし、(iv)FCレイヤをもって、前記第1学習用プーリング済み特徴マップに少なくとも一つのFC演算を適用して、前記第1学習用物体に対応する第1学習用物体検出情報を出力するようにし、(2)kを2からnまで増加させながら、(i)前記ターゲット物体予測ネットワークをもって、第(k−1)学習用加工イメージ上の一つ以上の第(k−1)学習用物体プロポーザルを参照して、前記第(k−1)学習用加工イメージ上で、少なくとも一つの学習用ターゲット物体が位置するものと予測される領域に対応する第(k−1)学習用ターゲット領域を探すようにし、(ii)前記トレーニングイメージ、またはこれに対応する一つ以上のリサイズされたトレーニングイメージ上で、前記第(k−1)学習用ターゲット領域に対応する第k学習用加工イメージが取得されると、前記コンボリューションレイヤをもって、前記第k学習用加工イメージに前記コンボリューション演算を適用して第k学習用特徴マップを出力するようにし、(iv)前記プーリングレイヤをもって、前記第k学習用特徴マップ上で、前記第k学習用物体プロポーザルそれぞれに対応するそれぞれの領域に前記プーリング演算を適用して、少なくとも一つの第k学習用プーリング済み特徴マップを出力するようにし、(v)前記FCレイヤをもって、前記第k学習用プーリング済み特徴マップにFC演算を適用して、前記第k学習用物体に対応する第k学習用物体検出情報を出力するようにし、(3)(i)前記ターゲット物体統合ネットワークをもって、前記第1学習用物体プロポーザルないし前記第n学習用物体プロポーザルを統合して学習用統合物体プロポーザルを出力するようにし、前記第1学習用物体検出情報ないし前記第n学習用物体検出情報を統合して学習用統合物体検出情報を出力するようにし、(ii)FCロスレイヤをもって、前記学習用統合物体検出情報と、これに対応するGTとを参照して一つ以上のFCロスを生成するようにすることで、前記FCロスを利用したバックプロパゲーション(Backpropagation)によって、前記FCレイヤ及び前記コンボリューションレイヤのパラメータの中の少なくとも一部を学習した状態で、(I)(i)前記コンボリューションレイヤをもって、少なくとも一つのテストイメージに対応する少なくとも一つの第1テスト用加工イメージに前記コンボリューション演算を適用して、少なくとも一つの第1テスト用特徴マップを出力するようにし、(ii)前記RPNをもって、前記第1テスト用特徴マップを利用して、前記第1テスト用加工イメージ内に位置する一つ以上の第1テスト用物体それぞれに対応する一つ以上の第1テスト用物体プロポーザルを出力するようにし、(iii)前記プーリングレイヤをもって、前記第1テスト用特徴マップ上で、前記第1テスト用物体プロポーザルそれぞれに対応するそれぞれの領域に前記プーリング演算を適用して、少なくとも一つの第1テスト用プーリング済み特徴マップを出力するようにし、(iv)前記FCレイヤをもって、前記第1テスト用プーリング済み特徴マップに前記FC演算を適用して、前記第1テスト用物体に対応する第1テスト用物体検出情報を出力するようにするプロセス、(II)kを2からnまで増加させながら、(i)前記ターゲット物体予測ネットワークをもって、第(k−1)テスト用加工イメージ上の一つ以上の第(k−1)テスト用物体プロポーザルを参照して、前記第(k−1)テスト用加工イメージ上で、少なくとも一つのテスト用ターゲット物体が位置するものと予測される領域に対応する第(k−1)テスト用ターゲット領域を探すようにし、(ii)前記テストイメージ、またはこれに対応する一つ以上のリサイズされたテストイメージ上で、前記第(k−1)テスト用ターゲット領域に対応する第kテスト用加工イメージが取得されると、前記コンボリューションレイヤをもって、前記第kテスト用加工イメージに前記コンボリューション演算を適用して第kテスト用特徴マップを出力するようにし、(iii)前記RPNをもって、前記第kテスト用特徴マップを参照して、前記第kテスト用加工イメージ内に位置する一つ以上の第kテスト用物体それぞれに対応する一つ以上の第kテスト用物体プロポーザルを出力するようにし、(iv)前記プーリングレイヤをもって、前記第kテスト用特徴マップ上で、前記第kテスト用物体プロポーザルそれぞれに対応するそれぞれの領域に前記プーリング演算を適用して、少なくとも一つの第kテスト用プーリング済み特徴マップを出力するようにし、(v)前記FCレイヤをもって、前記第kテスト用プーリング済み特徴マップに前記FC演算を適用して、前記第kテスト用物体に対応する第kテスト用物体検出情報を出力するようにするプロセス、及び(III)(i)前記ターゲット物体統合ネットワークをもって、前記第1テスト用物体プロポーザルないし前記第nテスト用物体プロポーザルを統合してテスト用統合物体プロポーザルを出力するようにし、前記第1テスト用物体検出情報ないし前記第nテスト用物体検出情報を統合してテスト用統合物体検出情報を出力するプロセスを遂行するための、前記インストラクションを実行するように構成された少なくとも一つのプロセッサ;
    を含むことを特徴とするテスティング装置。
  25. 前記(III)プロセスで、
    前記第(k−1)テスト用加工イメージ及び前記第kテスト用加工イメージ上に少なくとも一つのテスト用特定同一物体が位置し、前記第(k−1)テスト用加工イメージ上で前記第(k−1)テスト用物体プロポーザルの中の、前記特定同一物体に対応する少なくとも一つのテスト用物体プロポーザルを第(k−1)特定物体プロポーザルとし、前記第kテスト用加工イメージ上で、前記第kテスト用物体プロポーザルの中の、前記テスト用特定同一物体に対応する少なくとも一つのテスト用物体プロポーザルを第kテスト用特定物体プロポーザルであるとする場合、
    前記プロセッサは、前記ターゲット物体統合ネットワークをもって、前記第(k−1)テスト用特定物体プロポーザルと、前記第kテスト用特定物体プロポーザルとの間のテスト用IOU(Intersection Over Union)が、第1閾値以上になるかを判断するようにし、前記テスト用IOUが前記第1閾値未満であると判断されれば、前記第(k−1)テスト用特定物体プロポーザルと、前記第kテスト用特定物体プロポーザルとの間のテスト用調整IOUを算出するようにし、前記テスト用調整IOUが第2閾値以上と判断されれば、前記第(k−1)テスト用特定物体プロポーザルと、前記第kテスト用特定物体プロポーザルとの中で、(i)確率値の高いテスト用特定物体プロポーザルを選択するようにするか(ii)前記テストイメージ上で演算される面積の大きいテスト用特定物体プロポーザルを選択するようにすることにより、前記選択されたテスト用特定物体プロポーザルを前記テスト用特定同一物体に対応するテスト用特定統合物体プロポーザルとして生成することを特徴とする請求項24に記載のテスティング装置。
  26. 前記テスト用調整IOUは、前記第kテスト用加工イメージ上で前記第(k−1)テスト用特定物体プロポーザルに対応する領域と、前記第(k−1)テスト用加工イメージ上で前記第kテスト用特定物体プロポーザルに対応する領域とを参照して算出されることを特徴とする請求項25に記載のテスティング装置。
  27. 前記プロセッサは、前記ターゲット物体統合ネットワークをもって、前記テスト用IOUが前記第1閾値以上になるか否かを判断するようにし、前記テスト用IOUが前記第1閾値以上と判断されれば、前記第(k−1)テスト用特定物体プロポーザルと、前記第kテスト用特定物体プロポーザルとの中の(i)確率値の高いテスト用特定物体プロポーザルを選択するようにするか(ii)それぞれの前記テスト加工イメージ上で演算される面積の大きいテスト用特定物体プロポーザルを選択するようにすることにより、前記選択されたテスト用物体プロポーザルを前記テスト用特定同一物体に対応する前記テスト用特定統合物体プロポーザルとして生成することを特徴とする請求項25に記載のテスティング装置。
  28. 前記(III)プロセスで、
    前記第(k−1)テスト用加工イメージ及び前記第kテスト用加工イメージ上に少なくとも一つのテスト用特定同一物体が位置し、前記第(k−1)テスト用加工イメージ上で、前記第(k−1)テスト用物体検出情報に含まれたテスト用物体バウンディングボックス(Bounding box)の中の、前記テスト用特定同一物体に対応する少なくとも一つのテスト用物体バウンディングボックスを第(k−1)テスト用特定物体バウンディングボックスとし、前記第kテスト用加工イメージ上で、前記第kテスト用物体検出情報に含まれたテスト用物体バウンディングボックスの中の、前記テスト用特定同一物体に対応する少なくとも一つのテスト用物体バウンディングボックスを第kテスト用特定物体バウンディングボックスとした場合、
    前記プロセッサは、前記ターゲット物体統合ネットワークをもって、前記第(k−1)テスト用特定物体バウンディングボックスと、前記第kテスト用特定物体バウンディングボックスとの間のテスト用IOUが、第1閾値以上になるか否かを判断するようにし、前記テスト用IOUが前記第1閾値未満と判断されると、前記第(k−1)テスト用特定物体バウンディングボックスと、前記第kテスト用特定物体バウンディングボックスとの間のテスト用調整IOUを算出するようにし、前記テスト用調整IOUが第2閾値以上と判断されれば、前記第(k−1)テスト用特定物体バウンディングボックスと、前記第kテスト用特定物体バウンディングボックスとの中から(i)確率値の高いテスト用特定物体バウンディングボックスを選択するようにするか(ii)前記テストイメージ上で演算される面積の大きいテスト用特定物体バウンディングボックスを選択させることにより、前記選択されたテスト用特定物体バウンディングボックスを前記テスト用特定同一物体に対応するテスト用特定統合物体検出情報として生成することを特徴とする請求項24に記載のテスティング装置。
  29. 前記テスト用調整IOUは、前記第kテスト用加工イメージ上で前記第(k−1)テスト用特定物体バウンディングボックスに対応する領域と、前記第(k−1)テスト用加工イメージ上で前記第kテスト用特定物体バウンディングボックスに対応する領域とを参照して算出されることを特徴とする請求項28に記載のテスティング装置。
  30. 前記プロセッサは、前記ターゲット物体統合ネットワークをもって、前記テスト用IOUが前記第1閾値以上になるか否かを判断するようにし、前記テスト用IOUが前記第1閾値以上と判断されれば、前記第(k−1)テスト用特定物体バウンディングボックスと、前記第kテスト用特定物体バウンディングボックスとの中の(i)確率値の高いテスト用特定物体バウンディングボックスを選択するようにするか(ii)それぞれの前記テスト用加工イメージ上で演算される面積の大きいテスト用特定物体バウンディングボックスを選択させることにより、前記選択されたテスト用特定物体バウンディングボックスを前記テスト用特定同一物体に対応する前記テスト用特定統合物体検出情報として生成することを特徴とする請求項28に記載のテスティング装置。
JP2020002986A 2019-01-22 2020-01-10 ターゲット物体予測ネットワーク及びターゲット物体統合ネットワークを利用して、重要業績評価指標のようなユーザー要求事項に係る最適化のための再構成可能なネットワーク基盤の物体検出器を学習する方法及び学習装置、並びにこれを利用したテスティング方法及びテスティング装置 Active JP6857370B2 (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US16/254,466 US10509987B1 (en) 2019-01-22 2019-01-22 Learning method and learning device for object detector based on reconfigurable network for optimizing customers' requirements such as key performance index using target object estimating network and target object merging network, and testing method and testing device using the same
US16/254,466 2019-01-22

Publications (2)

Publication Number Publication Date
JP2020119545A JP2020119545A (ja) 2020-08-06
JP6857370B2 true JP6857370B2 (ja) 2021-04-14

Family

ID=68841489

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2020002986A Active JP6857370B2 (ja) 2019-01-22 2020-01-10 ターゲット物体予測ネットワーク及びターゲット物体統合ネットワークを利用して、重要業績評価指標のようなユーザー要求事項に係る最適化のための再構成可能なネットワーク基盤の物体検出器を学習する方法及び学習装置、並びにこれを利用したテスティング方法及びテスティング装置

Country Status (5)

Country Link
US (2) US10509987B1 (ja)
EP (1) EP3686782A1 (ja)
JP (1) JP6857370B2 (ja)
KR (1) KR102338744B1 (ja)
CN (1) CN111461106B (ja)

Families Citing this family (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2018089210A1 (en) * 2016-11-09 2018-05-17 Konica Minolta Laboratory U.S.A., Inc. System and method of using multi-frame image features for object detection
CN110096933B (zh) * 2018-01-30 2023-07-18 华为技术有限公司 目标检测的方法、装置及系统
GB2589751B (en) * 2019-01-23 2023-05-17 Motional Ad Llc Automatically choosing data samples for annotation
US10943353B1 (en) 2019-09-11 2021-03-09 International Business Machines Corporation Handling untrainable conditions in a network architecture search
US11023783B2 (en) * 2019-09-11 2021-06-01 International Business Machines Corporation Network architecture search with global optimization
CN111563494B (zh) * 2020-07-16 2020-10-27 平安国际智慧城市科技股份有限公司 基于目标检测的行为识别方法、装置和计算机设备
CN112733587A (zh) * 2020-08-10 2021-04-30 长春理工大学 一种沙漠化进程演变监测方法
CN112001912B (zh) * 2020-08-27 2024-04-05 北京百度网讯科技有限公司 目标检测方法和装置、计算机系统和可读存储介质
CN112257586B (zh) * 2020-10-22 2024-01-23 无锡禹空间智能科技有限公司 目标检测中的真值框选择方法、装置、存储介质及设备
CN112183463B (zh) * 2020-10-23 2021-10-15 珠海大横琴科技发展有限公司 基于雷达图像的船只识别模型的验证方法及装置
US11593597B2 (en) * 2020-11-16 2023-02-28 GM Global Technology Operations LLC Object detection in vehicles using cross-modality sensors
WO2024080393A1 (ko) * 2022-10-12 2024-04-18 가톨릭대학교 산학협력단 흉부 의료 영상 객체 검출 시스템 및 그 방법

Family Cites Families (39)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9524450B2 (en) * 2015-03-04 2016-12-20 Accenture Global Services Limited Digital image processing using convolutional neural networks
US20160283864A1 (en) * 2015-03-27 2016-09-29 Qualcomm Incorporated Sequential image sampling and storage of fine-tuned features
US9965719B2 (en) * 2015-11-04 2018-05-08 Nec Corporation Subcategory-aware convolutional neural networks for object detection
US10002313B2 (en) * 2015-12-15 2018-06-19 Sighthound, Inc. Deeply learned convolutional neural networks (CNNS) for object localization and classification
US9858496B2 (en) * 2016-01-20 2018-01-02 Microsoft Technology Licensing, Llc Object detection and classification in images
CN108475331B (zh) * 2016-02-17 2022-04-05 英特尔公司 用于对象检测的方法、装置、系统和计算机可读介质
US20170262996A1 (en) * 2016-03-11 2017-09-14 Qualcomm Incorporated Action localization in sequential data with attention proposals from a recurrent network
US9830529B2 (en) * 2016-04-26 2017-11-28 Xerox Corporation End-to-end saliency mapping via probability distribution prediction
US10929977B2 (en) * 2016-08-25 2021-02-23 Intel Corporation Coupled multi-task fully convolutional networks using multi-scale contextual information and hierarchical hyper-features for semantic image segmentation
US10354159B2 (en) * 2016-09-06 2019-07-16 Carnegie Mellon University Methods and software for detecting objects in an image using a contextual multiscale fast region-based convolutional neural network
US10354362B2 (en) * 2016-09-08 2019-07-16 Carnegie Mellon University Methods and software for detecting objects in images using a multiscale fast region-based convolutional neural network
EP3532993A4 (en) * 2016-10-25 2020-09-30 Deep North, Inc. COMPARISON OF SIMILARITIES OF POINTS TO A SET AND DEEP LEARNING OF CHARACTERISTICS ALLOWING VISUAL RECOGNITION
US10198671B1 (en) * 2016-11-10 2019-02-05 Snap Inc. Dense captioning with joint interference and visual context
CN110168477B (zh) * 2016-11-15 2022-07-08 奇跃公司 用于长方体检测的深度学习系统
US10262237B2 (en) * 2016-12-08 2019-04-16 Intel Corporation Technologies for improved object detection accuracy with multi-scale representation and training
US10140709B2 (en) * 2017-02-27 2018-11-27 International Business Machines Corporation Automatic detection and semantic description of lesions using a convolutional neural network
US10635927B2 (en) * 2017-03-06 2020-04-28 Honda Motor Co., Ltd. Systems for performing semantic segmentation and methods thereof
US20180268292A1 (en) * 2017-03-17 2018-09-20 Nec Laboratories America, Inc. Learning efficient object detection models with knowledge distillation
US10496895B2 (en) * 2017-03-28 2019-12-03 Facebook, Inc. Generating refined object proposals using deep-learning models
KR20200028330A (ko) * 2017-05-09 2020-03-16 뉴럴라 인코포레이티드 네트워크 연산 에지 전반에 걸쳐 연속적으로 애플리케이션을 작동하는 딥 러닝과 인공 지능에서 지속적인 메모리 기반 학습을 가능하게 하는 시스템 및 방법
US10503978B2 (en) * 2017-07-14 2019-12-10 Nec Corporation Spatio-temporal interaction network for learning object interactions
US10572963B1 (en) * 2017-07-14 2020-02-25 Synapse Technology Corporation Detection of items
KR102463175B1 (ko) * 2017-09-04 2022-11-04 삼성전자주식회사 객체 인식 방법 및 장치
US10607119B2 (en) * 2017-09-06 2020-03-31 Kla-Tencor Corp. Unified neural network for defect detection and classification
US10043113B1 (en) * 2017-10-04 2018-08-07 StradVision, Inc. Method and device for generating feature maps by using feature upsampling networks
US10095977B1 (en) * 2017-10-04 2018-10-09 StradVision, Inc. Learning method and learning device for improving image segmentation and testing method and testing device using the same
US9934440B1 (en) * 2017-10-04 2018-04-03 StradVision, Inc. Method for monitoring blind spot of monitoring vehicle and blind spot monitor using the same
US9947228B1 (en) * 2017-10-05 2018-04-17 StradVision, Inc. Method for monitoring blind spot of vehicle and blind spot monitor using the same
US10497122B2 (en) * 2017-10-11 2019-12-03 Adobe Inc. Image crop suggestion and evaluation using deep-learning
US10169679B1 (en) * 2017-10-13 2019-01-01 StradVision, Inc. Learning method and learning device for adjusting parameters of CNN by using loss augmentation and testing method and testing device using the same
US9946960B1 (en) * 2017-10-13 2018-04-17 StradVision, Inc. Method for acquiring bounding box corresponding to an object in an image by using convolutional neural network including tracking network and computing device using the same
US10223610B1 (en) * 2017-10-15 2019-03-05 International Business Machines Corporation System and method for detection and classification of findings in images
US20190130583A1 (en) * 2017-10-30 2019-05-02 Qualcomm Incorporated Still and slow object tracking in a hybrid video analytics system
US20190130191A1 (en) * 2017-10-30 2019-05-02 Qualcomm Incorporated Bounding box smoothing for object tracking in a video analytics system
US10692243B2 (en) * 2017-12-03 2020-06-23 Facebook, Inc. Optimizations for dynamic object instance detection, segmentation, and structure mapping
KR102455633B1 (ko) * 2017-12-21 2022-10-17 삼성전자주식회사 라이브니스 검사 방법 및 장치
US10878294B2 (en) * 2018-01-05 2020-12-29 Irobot Corporation Mobile cleaning robot artificial intelligence for situational awareness
US10304009B1 (en) * 2018-10-08 2019-05-28 StradVision, Inc. Learning method and testing method for object detector based on R-CNN, and learning device and testing device using the same
US10311321B1 (en) * 2018-10-26 2019-06-04 StradVision, Inc. Learning method, learning device using regression loss and testing method, testing device using the same

Also Published As

Publication number Publication date
JP2020119545A (ja) 2020-08-06
KR20200091329A (ko) 2020-07-30
KR102338744B1 (ko) 2021-12-14
EP3686782A1 (en) 2020-07-29
US10509987B1 (en) 2019-12-17
CN111461106A (zh) 2020-07-28
CN111461106B (zh) 2023-10-27
US10621476B1 (en) 2020-04-14

Similar Documents

Publication Publication Date Title
JP6857370B2 (ja) ターゲット物体予測ネットワーク及びターゲット物体統合ネットワークを利用して、重要業績評価指標のようなユーザー要求事項に係る最適化のための再構成可能なネットワーク基盤の物体検出器を学習する方法及び学習装置、並びにこれを利用したテスティング方法及びテスティング装置
JP6850046B2 (ja) 重要業績評価指標のようなユーザ要求事項に適したターゲット物体予測ネットワークを用いた、cnn基盤の変動に強い物体検出器を学習する方法及び学習装置、並びにこれを利用したテスティング方法及びテスティング装置
JP6908944B2 (ja) 多重カメラまたはサラウンドビューモニタリングに利用されるために、ターゲット物体統合ネットワーク及びターゲット物体予測ネットワークを利用して、重要業績評価指標のようなユーザー要求事項に適用可能なcnn基盤の物体検出器を学習する方法及び学習装置、並びにこれを利用したテスティング方法及びテスティング装置
JP6908943B2 (ja) イメージコンカチネーションと、ターゲット物体予測ネットワークとを利用して、多重カメラ又はサラウンドビューモニタリングに利用される物体検出器を学習する方法及び学習装置、並びにこれを利用したテスティング方法及びテスティング装置
KR102373456B1 (ko) 자동 주차 시스템을 제공하기 위해 결정 지점 간의 관계 및 결정 지점에 대한 리그레션 결과를 이용하여 주차 공간을 검출하는 학습 방법 및 학습 장치, 그리고 이를 이용한 테스팅 방법 및 테스팅 장치
KR102296507B1 (ko) 트래킹 네트워크를 포함한 cnn을 사용하여 객체를 트래킹하는 방법 및 이를 이용한 장치
JP6875021B2 (ja) 有用な学習データを取捨選別するためのcnn基盤の学習方法及び学習装置、そしてこれを利用したテスト方法及びテスト装置
JP6846069B2 (ja) 遠距離検出または軍事目的のために、イメージコンカチネーションを利用したcnn基盤のハードウェア最適化が可能な物体検出器を学習する方法及び学習装置、それを利用したテスト方法及びテスト装置{learning method and learning device for object detector with hardware optimization based on cnn for detection at distance or military purpose using image concatenation, and testing method and testing device using the same}
US10410120B1 (en) Learning method and testing method of object detector to be used for surveillance based on R-CNN capable of converting modes according to aspect ratios or scales of objects, and learning device and testing device using the same
JP6849898B2 (ja) 生成ニューラルネットワークと、判別ニューラルネットワークとを含む敵対的生成ネットワークを利用して、合成可否判断不可の合成イメージを生成する方法、及び装置
KR102337376B1 (ko) 레인 마스크(Lane Mask)를 사용하여 후처리 없이 입력 이미지에 포함된 하나 이상의 차선을 검출하는 방법 및 장치, 그리고 이를 이용한 테스트 방법 및 테스트 장치
JP7092383B2 (ja) 各領域において最適化された自律走行を遂行できるように位置基盤アルゴリズムの選択によってシームレスパラメータ変更を遂行する方法及び装置
US10402978B1 (en) Method for detecting pseudo-3D bounding box based on CNN capable of converting modes according to poses of objects using instance segmentation and device using the same
JP6910081B2 (ja) 協調走行を遂行する各車両から取得された各走行イメージを統合する方法及びこれを利用した走行イメージ統合装置
JP6892157B2 (ja) V2x情報融合技術によって取得された、各物体に対する深さ予測情報及び各物体に対するクラス情報を利用して3d空間を再構築することによりhdマップをアップデートする学習方法及び学習装置、そしてこれを利用したテスティング方法及びテスティング装置
CN111488786A (zh) 基于cnn的监视用客体检测器的方法及装置
JP6853543B2 (ja) 自律走行に対する論理的根拠を提示するために、管理者が物体検出器の検出プロセスを評価できるように支援する方法及び装置

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20200110

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20210226

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20210309

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20210312

R150 Certificate of patent or registration of utility model

Ref document number: 6857370

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250