JP6850046B2 - 重要業績評価指標のようなユーザ要求事項に適したターゲット物体予測ネットワークを用いた、cnn基盤の変動に強い物体検出器を学習する方法及び学習装置、並びにこれを利用したテスティング方法及びテスティング装置 - Google Patents

重要業績評価指標のようなユーザ要求事項に適したターゲット物体予測ネットワークを用いた、cnn基盤の変動に強い物体検出器を学習する方法及び学習装置、並びにこれを利用したテスティング方法及びテスティング装置 Download PDF

Info

Publication number
JP6850046B2
JP6850046B2 JP2020001648A JP2020001648A JP6850046B2 JP 6850046 B2 JP6850046 B2 JP 6850046B2 JP 2020001648 A JP2020001648 A JP 2020001648A JP 2020001648 A JP2020001648 A JP 2020001648A JP 6850046 B2 JP6850046 B2 JP 6850046B2
Authority
JP
Japan
Prior art keywords
test
learning
image
feature map
layer
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2020001648A
Other languages
English (en)
Other versions
JP2020119530A (ja
Inventor
ゲヒョン キム
ゲヒョン キム
ヨンジュン キム
ヨンジュン キム
インス キム
インス キム
ハクギョン キム
ハクギョン キム
ウンヒョン ナム
ウンヒョン ナム
ソクフン ブ
ソクフン ブ
ミョンチョル ソン
ミョンチョル ソン
ドンフン ヨ
ドンフン ヨ
ウジュ リュ
ウジュ リュ
テウン ジャン
テウン ジャン
ギョンジュン ジョン
ギョンジュン ジョン
ホンモ ジェ
ホンモ ジェ
ホジン ジョ
ホジン ジョ
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Stradvision Inc
Original Assignee
Stradvision Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Stradvision Inc filed Critical Stradvision Inc
Publication of JP2020119530A publication Critical patent/JP2020119530A/ja
Application granted granted Critical
Publication of JP6850046B2 publication Critical patent/JP6850046B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/211Selection of the most significant subset of features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/2163Partitioning the feature space
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/217Validation; Performance evaluation; Active pattern learning techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2413Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on distances to training or reference patterns
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T3/00Geometric image transformations in the plane of the image
    • G06T3/40Scaling of whole images or parts thereof, e.g. expanding or contracting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/20Analysis of motion
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/255Detecting or recognising potential candidate objects based on visual cues, e.g. shapes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/44Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
    • G06V10/443Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components by matching or filtering
    • G06V10/449Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters
    • G06V10/451Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters with interaction between the filter responses, e.g. cortical complex cells
    • G06V10/454Integrating the filters into a hierarchical structure, e.g. convolutional neural networks [CNN]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/764Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/50Context or environment of the image
    • G06V20/56Context or environment of the image exterior to a vehicle by using sensors mounted on the vehicle
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/50Context or environment of the image
    • G06V20/56Context or environment of the image exterior to a vehicle by using sensors mounted on the vehicle
    • G06V20/58Recognition of moving objects or obstacles, e.g. vehicles or pedestrians; Recognition of traffic objects, e.g. traffic signs, traffic lights or roads
    • G06V20/584Recognition of moving objects or obstacles, e.g. vehicles or pedestrians; Recognition of traffic objects, e.g. traffic signs, traffic lights or roads of vehicle lights or traffic lights
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20084Artificial neural networks [ANN]

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Data Mining & Analysis (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Multimedia (AREA)
  • Computing Systems (AREA)
  • Software Systems (AREA)
  • Molecular Biology (AREA)
  • Biomedical Technology (AREA)
  • Mathematical Physics (AREA)
  • Computational Linguistics (AREA)
  • Biophysics (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Medical Informatics (AREA)
  • Databases & Information Systems (AREA)
  • Biodiversity & Conservation Biology (AREA)
  • Image Analysis (AREA)

Description

重要業績評価指標(KPI)のようなユーザ要求事項によって適応可能なターゲット物体予測ネットワークを用いた、変動に強い物体検出器のパラメータを学習する方法に関し、より詳細には、前記ターゲット物体予測ネットワークを用いた前記物体検出器の前記パラメータを学習する方法において、(a)少なくとも一つのトレーニングイメージが取得されると、(i)一つ以上のコンボリューションレイヤをもって、前記トレーニングイメージに対応する少なくとも一つの第1加工イメージに一つ以上のコンボリューション演算を適用して、少なくとも一つの第1特徴マップを出力するようにし、(ii)RPN(Region Proposal Network)をもって、前記第1特徴マップを利用して、前記第1加工イメージ内に位置する一つ以上の第1物体それぞれに対応する一つ以上の第1物体プロポーザルを出力するようにし、(iii)プーリングレイヤをもって、前記第1特徴マップ上で、前記第1物体プロポーザルそれぞれに対応するそれぞれの領域に一つ以上のプーリング演算を適用して、少なくとも一つの第1プーリング済み特徴マップを出力するようにし、(iv)FC(Fully Connected)レイヤをもって、前記第1プーリング済み特徴マップに少なくとも一つのFC演算を適用して、前記第1物体に対応する第1物体検出情報を出力するようにし、(v)FCロスレイヤをもって、前記第1物体検出情報と、これに対応するGTとを参照して一つ以上の第1FCロスを取得するようにすることで、前記第1FCロスを利用したバックプロパゲーションによって、前記FCレイヤ及び前記コンボリューションレイヤのパラメータの中の少なくとも一部を学習する段階;及び(b)kを2からnまで増加させながら、(i)前記ターゲット物体予測ネットワークをもって、第(k−1)加工イメージ上の一つ以上の第(k−1)物体プロポーザルを参照して、前記第(k−1)加工イメージ上で、少なくとも一つのターゲット物体が位置するものと予測される領域に対応する第(k−1)ターゲット領域を探すようにし、(ii)前記トレーニングイメージ、またはリサイズされたトレーニングイメージ上で、前記第(k−1)ターゲット領域に対応する第k加工イメージが取得されると、前記コンボリューションレイヤをもって、前記第k加工イメージに前記コンボリューション演算を適用して第k特徴マップを出力するようにし、(iii)前記RPNをもって、前記第k特徴マップを参照して、前記第k加工イメージ内に位置する一つ以上の第k物体それぞれに対応する一つ以上の第k物体プロポーザルを出力するようにし、(iv)前記プーリングレイヤをもって、前記第k特徴マップ上で、前記第k物体プロポーザルそれぞれに対応するそれぞれの領域に前記プーリング演算を適用して、少なくとも一つの第kプーリング済み特徴マップを出力するようにし、(v)前記FCレイヤをもって、前記FC演算を前記第kプーリング済み特徴マップに適用して、前記第k物体に対応する第k物体検出情報を出力するようにし、(vi)前記FCロスレイヤをもって、前記第k物体検出情報と、これに対応するGTとを参照して一つ以上の第kFCロスを取得するようにすることで、前記第kFCロスを利用したバックプロパゲーションによって、前記FCレイヤ及び前記コンボリューションレイヤのパラメータの中の少なくとも一部を学習する段階;を含むことを特徴とする学習方法及び学習装置、そしてこれを利用したテスティング方法及びテスティング装置に関する。
機械学習(machine learning)において、コンボリューションニューラルネットワーク(CNNまたはConvNet)は、視覚的イメージ分析に成功的に適用された深層フィードフォワード人工ニューラルネットワーク(Deep feedforward artificial neural network)である。
CNN基盤の物体検出器は、(i)コンボリューションレイヤをもって、入力イメージにコンボリューション演算を適用することにより、前記入力イメージに対応した特徴マップを出力し、(ii)RPN(Region Proposal Network)をもって、前記特徴マップを利用して、前記入力イメージ内の物体に対応するプロポーザルを確認し、(iii)プーリングレイヤをもって、前記確認されたプロポーザルに対応する前記特徴マップ上の領域に少なくとも一つのプーリング演算を適用して、プーリング済み特徴マップを取得し、(iv)FC(Fully Connected)レイヤをもって、少なくとも一つのFC演算を、前記取得されたプーリング済み特徴マップないし前記物体に関する出力クラス情報と、リグレッション情報とに適用することにより、前記入力イメージ上の前記物体を検出する。
だが、前記CNN基盤の物体検出器は、前記コンボリューションレイヤにより前記入力イメージのサイズを縮小したサイズの前記特徴マップを用いることになるので、前記入力イメージに位置するサイズの大きい物体は容易に検出されるが、前記入力イメージに位置するサイズの小さい物体を検出することは難しい。
他の例として、前記入力イメージを拡大して取得した、リサイズされたイメージを利用してサイズが小さい物体を検出し得るが、この場合は、前記物体検出器による演算量が増加することになり、これによって前記物体検出器の性能が低下する。
従って、本発明の発明者は、入力イメージ上に位置する様々なサイズの物体を、演算時間を減らして効率的に検出する学習方法と学習装置及びこれを利用したテスティング方法とテスティング装置を提案したい。
本発明は、前述した問題点を全て解決することを目的とする。
本発明は、イメージ上の物体をサイズに関係なく効率的に検出できるように、CNN基盤の物体検出器を提供することを他の目的とする。
本発明は、さらに演算量を増加させないうえ、前記イメージ上のサイズが小さい物体を検出できるようにするCNN基盤の物体検出器を提供することを別の目的とする。
前記のような本発明の目的を達成し、後述する本発明の特徴的な効果を実現するための、本発明の特徴的な構成は次の通りである。
本発明の一態様によれば、ターゲット物体予測ネットワークを用いた物体検出器のパラメータの学習方法において、(a)少なくとも一つのトレーニングイメージが取得されると、学習装置が、(i)一つ以上のコンボリューションレイヤをもって、前記トレーニングイメージに対応する少なくとも一つの第1加工イメージに一つ以上のコンボリューション演算を適用して、少なくとも一つの第1特徴マップを出力するようにし、(ii)RPN(Region Proposal Network)をもって、前記第1特徴マップを利用して、前記第1加工イメージ内に位置する一つ以上の第1物体それぞれに対応する一つ以上の第1物体プロポーザルを出力するようにし、(iii)プーリングレイヤをもって、前記第1特徴マップ上で、前記第1物体プロポーザルそれぞれに対応するそれぞれの領域に一つ以上のプーリング演算を適用して、少なくとも一つの第1プーリング済み特徴マップを出力するようにし、(iv)FC(Fully Connected)レイヤをもって、前記第1プーリング済み特徴マップに少なくとも一つのFC演算を適用して、前記第1物体に対応する第1物体検出情報を出力するようにし、(v)FCロスレイヤをもって、前記第1物体検出情報と、これに対応するGTとを参照して一つ以上の第1FCロスを取得するようにすることで、前記第1FCロスを利用したバックプロパゲーションによって、前記FCレイヤ及び前記コンボリューションレイヤのパラメータの中の少なくとも一部を学習する段階;及び(b)kを2からnまで増加させながら、前記学習装置が、(i)前記ターゲット物体予測ネットワークをもって、第(k−1)加工イメージ上の一つ以上の第(k−1)物体プロポーザルを参照して、前記第(k−1)加工イメージ上で、少なくとも一つのターゲット物体が位置するものと予測される領域に対応する第(k−1)ターゲット領域を探すようにし、(ii)前記トレーニングイメージ、またはリサイズされたトレーニングイメージ上で、前記第(k−1)ターゲット領域に対応する第k加工イメージが取得されると、前記コンボリューションレイヤをもって、前記第k加工イメージに前記コンボリューション演算を適用して第k特徴マップを出力するようにし、(iii)前記RPNをもって、前記第k特徴マップを参照して、前記第k加工イメージ内に位置する一つ以上の第k物体それぞれに対応する一つ以上の第k物体プロポーザルを出力するようにし、(iv)前記プーリングレイヤをもって、前記第k特徴マップ上で、前記第k物体プロポーザルそれぞれに対応するそれぞれの領域に前記プーリング演算を適用して、少なくとも一つの第kプーリング済み特徴マップを出力するようにし、(v)前記FCレイヤをもって、前記FC演算を前記第kプーリング済み特徴マップに適用して、前記第k物体に対応する第k物体検出情報を出力するようにし、(vi)前記FCロスレイヤをもって、前記第k物体検出情報と、これに対応するGTとを参照して一つ以上の第kFCロスを取得するようにすることで、前記第kFCロスを利用したバックプロパゲーションによって、前記FCレイヤ及び前記コンボリューションレイヤのパラメータの中の少なくとも一部を学習する段階;を含むことを特徴とする方法が開示される。
一例として、前記(a)段階で、前記学習装置は、RPNロスレイヤをもって、前記第1物体プロポーザルの情報と、これに対応するGTとを参照して一つ以上の第1RPNロスを取得するようにすることで、前記第1RPNロスを利用したバックプロパゲーションによって前記RPNのパラメータの中の少なくとも一部を調整するようにし、前記(b)段階で、前記学習装置は、前記RPNロスレイヤをもって、前記第k物体プロポーザル情報と、これに対応するGTとを参照して一つ以上の第kRPNロスを取得するようにすることで、前記第kRPNロスを利用したバックプロパゲーションによって前記RPNのパラメータの中の少なくとも一部を調整することを特徴とする。
一例として、前記(b)段階で、前記学習装置は、前記ターゲット物体予測ネットワークをもって、(i)前記第(k−1)加工イメージをMxNグリッドで区分するようにし、(ii)前記第(k−1)物体プロポーザルの中で、前記グリッドの各セルごとにそれぞれに対応するプロポーザルの個数を示す少なくとも一つ以上のヒストグラムを生成するようにし、前記グリッドの各セル内にそれに対応する前記プロポーザルそれぞれの全体領域または分割の領域が存在し、(iii)ムービングウィンドウの中の少なくとも一つの領域を利用して、前記第(k−1)ターゲット領域を決定するようにし、前記少なくとも一つの領域は、前記ムービングウィンドウの位置を変更して占有されるすべての領域の中で、前記ヒストグラムの合計が最も大きい値を有する領域であることを特徴とする。
一例として、前記(b)段階で、前記学習装置は、前記トレーニングイメージのサイズを前記第1加工イメージのサイズより大きいサイズに拡大して、前記リサイズされたトレーニングイメージを生成した後、前記リサイズされたトレーニングイメージ上で、前記第(k−1)ターゲット領域に対応する少なくとも一つの領域をクロップ(crop)して、前記第k加工イメージを生成することを特徴とする。
一例として、前記(b)段階で、前記学習装置は、前記トレーニングイメージ上で、前記第(k−1)ターゲット領域に対応する少なくとも一つの領域をクロップし、前記クロップされた領域をリサイズして、前記第k加工イメージを生成することを特徴とする。
一例として、前記第k加工イメージのサイズが、前記第(k−1)ターゲット領域のサイズより大きくなるように前記第k加工イメージをリサイズすることを特徴とする。
一例として、前記第1加工イメージないし第n加工イメージのサイズが、同一の大きさを有することを特徴とする。
本発明の他の態様によれば、ターゲット物体予測ネットワークを用いた物体検出器のテスト方法において、(a)学習装置が、(1−1)一つ以上のコンボリューションレイヤをもって、少なくとも一つのトレーニングイメージに対応する少なくとも一つの第1学習用加工イメージに一つ以上のコンボリューション演算を適用して、少なくとも一つの第1学習用特徴マップを出力するようにし、(1−2)RPNをもって、前記第1学習用特徴マップを利用して、前記第1学習用加工イメージ内に位置する一つ以上の第1学習用物体それぞれに対応する一つ以上の第1学習用物体プロポーザルを出力するようにし、(1−3)プーリングレイヤをもって、前記第1学習用特徴マップ上で、前記第1学習用物体プロポーザルそれぞれに対応するそれぞれの領域に一つ以上のプーリング演算を適用して、少なくとも一つの第1学習用プーリング済み特徴マップを出力するようにし、(1−4)FCレイヤをもって、前記第1学習用プーリング済み特徴マップに少なくとも一つのFC演算を適用して、前記第1学習用物体に対応する第1学習用物体検出情報を出力するようにし、(1−5)FCロスレイヤをもって、前記第1学習用物体検出情報と、これに対応するGTとを参照して一つ以上の第1FCロスを取得するようにすることで、前記第1FCロスを利用したバックプロパゲーションによって、前記FCレイヤ及び前記コンボリューションレイヤのパラメータの中の少なくとも一部を学習するようにし、kを2からnまで増加させながら、(2−1)前記ターゲット物体予測ネットワークをもって、第(k−1)学習用加工イメージ上の一つ以上の第(k−1)学習用物体プロポーザルを参照して、前記第(k−1)学習用加工イメージ上で、少なくとも一つの学習用ターゲット物体が位置するものと予測される領域に対応する第(k−1)学習用ターゲット領域を探すようにし、(2−2)前記トレーニングイメージ、またはリサイズされたトレーニングイメージ上で、前記第(k−1)学習用ターゲット領域に対応する第k学習用加工イメージが取得されると、前記コンボリューションレイヤをもって、前記第k学習用加工イメージに前記コンボリューション演算を適用して第k学習用特徴マップを出力するようにし、(2−3)前記RPNをもって、前記第k学習用特徴マップを利用して、前記第k学習用加工イメージ内に位置する一つ以上の第k学習用物体それぞれに対応する一つ以上の第k学習用物体プロポーザルを出力するようにし、(2−4)前記プーリングレイヤをもって、前記第k学習用特徴マップ上で、前記第k学習用物体プロポーザルそれぞれに対応するそれぞれの領域に前記プーリング演算を適用して、少なくとも一つの第k学習用プーリング済み特徴マップを出力するようにし、(2−5)前記FCレイヤをもって、前記FC演算を前記第k学習用プーリング済み特徴マップに適用して、前記第k学習用物体に対応する第k学習用物体検出情報を出力するようにし、(2−6)前記FCロスレイヤをもって、前記第k学習用物体検出情報と、これに対応するGTとを参照して一つ以上の第kFCロスを取得するようにすることで、前記第kFCロスを利用したバックプロパゲーションによって、前記FCレイヤ及び前記コンボリューションレイヤのパラメータの中の少なくとも一部を学習した状態で、少なくとも一つのテストイメージが取得されると、テスティング装置が、(i)前記コンボリューションレイヤをもって、前記テストイメージに対応する少なくとも一つの第1テスト用加工イメージに前記コンボリューション演算を適用して、少なくとも一つの第1テスト用特徴マップを出力するようにし、(ii)前記RPNをもって、前記第1テスト用特徴マップを利用して、前記第1テスト用加工イメージ内に位置する一つ以上の第1テスト用物体それぞれに対応する一つ以上の第1テスト用物体プロポーザルを出力するようにし、(iii)前記プーリングレイヤをもって、前記第1テスト用特徴マップ上で、前記第1テスト用物体プロポーザルそれぞれに対応するそれぞれの領域に前記プーリング演算を適用して、少なくとも一つの第1テスト用プーリング済み特徴マップを出力するようにし、(iv)前記FCレイヤをもって、前記第1テスト用プーリング済み特徴マップに前記FC演算を適用して、前記第1テスト用物体に対応する第1テスト用物体検出情報を出力するようにする段階;及び(b)kを2からnまで増加させながら、前記テスティング装置が、(i)前記ターゲット物体予測ネットワークをもって、第(k−1)テスト用加工イメージ上の一つ以上の第(k−1)テスト用物体プロポーザルを参照して、前記第(k−1)テスト用加工イメージ上で、少なくとも一つのテスト用ターゲット物体が位置するものと予測される領域に対応する第(k−1)テスト用ターゲット領域を探すようにし、(ii)前記テストイメージ、またはリサイズされたテストイメージ上で、前記第(k−1)テスト用ターゲット領域に対応する第kテスト用加工イメージが取得されると、前記コンボリューションレイヤをもって、前記テスト用第k加工イメージに前記コンボリューション演算を適用して第kテスト用特徴マップを出力するようにし、(iii)前記RPNをもって、前記第kテスト用特徴マップを参照して、前記第kテスト用加工イメージ内に位置する一つ以上の第kテスト用物体それぞれに対応する一つ以上の第kテスト用物体プロポーザルを出力するようにし、(iv)前記プーリングレイヤをもって、前記第kテスト用特徴マップ上で、前記第kテスト用物体プロポーザルそれぞれに対応するそれぞれの領域に前記プーリング演算を適用して、少なくとも一つの第kテスト用プーリング済み特徴マップを出力するようにし、(v)前記FCレイヤをもって、前記FC演算を前記第kテスト用プーリング済み特徴マップに適用して、前記第kテスト用物体に対応する第kテスト用物体検出情報を出力するようにする段階;を含むことを特徴とする方法が開示される。
一例として、前記学習装置は、RPNロスレイヤをもって、前記第1学習用物体プロポーザル情報と、これに対応するGTとを参照して一つ以上の第1RPNロスを取得するようにすることで、前記第1RPNロスを利用したバックプロパゲーションによって前記RPNのパラメータの中の少なくとも一部を調整するようにし、前記学習装置は、前記RPNロスレイヤをもって、前記第k学習用物体プロポーザル情報と、これに対応するGTとを参照して一つ以上の第kRPNロスを取得するようにすることで、前記第kRPNロスを利用したバックプロパゲーションによって前記RPNのパラメータの中の少なくとも一部を調整することを特徴とする。
一例として、前記(b)段階で、前記テスティング装置は、前記ターゲット物体予測ネットワークをもって、(i)前記第(k−1)テスト用加工イメージをMxNグリッドで区分するようにし、(ii)前記第(k−1)テスト用物体プロポーザルの中で、前記グリッドの各セルごとにそれぞれに対応するテスト用プロポーザルの個数を示す少なくとも一つ以上のテスト用ヒストグラムを生成するようにし、前記グリッドの各セル内にそれに対応する前記テスト用プロポーザルそれぞれの全体領域または分割の領域が存在し、(iii)ムービングウィンドウの中の少なくとも一つの領域を利用して前記第(k−1)テスト用ターゲット領域を決定するようにし、前記少なくとも一つの領域は、前記ムービングウィンドウの位置を変更して占有されるすべての領域の中で、前記テスト用ヒストグラムの合計が最も大きい値を有する領域であることを特徴とする。
一例として、前記(b)段階で、前記テスティング装置は、前記テストイメージのサイズを前記第1テスト用加工イメージのサイズより大きいサイズに拡大して、前記リサイズされたテストイメージを生成した後、前記リサイズされたテストイメージ上で、前記第(k−1)テスト用ターゲット領域に対応する少なくとも一つの領域をクロップして、前記第kテスト用加工イメージを生成することを特徴とする。
一例として、前記(b)段階で、前記テスティング装置は、前記テストイメージ上で、前記第(k−1)テスト用ターゲット領域に対応する少なくとも一つの領域をクロップし、前記クロップされた領域をリサイズして、前記第kテスト用加工イメージを生成することを特徴とする。
一例として、前記第kテスト用加工イメージのサイズが、前記第(k−1)テスト用ターゲット領域のサイズより大きくなるように前記第kテスト用加工イメージをリサイズすることを特徴とする。
一例として、前記第1テスト用加工イメージないし第nテスト用加工イメージのサイズが同一の大きさを有することを特徴とする。
本発明のまた他の態様によれば、ターゲット物体予測ネットワークを用いた物体検出器のパラメータの学習するための学習装置において、各インストラクションを格納する少なくとも一つのメモリ;及び(I)(i)一つ以上のコンボリューションレイヤをもって、少なくとも一つのトレーニングイメージに対応する少なくとも一つの第1加工イメージに一つ以上のコンボリューション演算を適用して、少なくとも一つの第1特徴マップを出力するようにし、(ii)RPN(Region Proposal Network)をもって、前記第1特徴マップを利用して、前記第1加工イメージ内に位置する一つ以上の第1物体それぞれに対応する一つ以上の第1物体プロポーザルを出力するようにし、(iii)プーリングレイヤをもって、前記第1特徴マップ上で、前記第1物体プロポーザルそれぞれに対応するそれぞれの領域に一つ以上のプーリング演算を適用して、少なくとも一つの第1プーリング済み特徴マップを出力するようにし、(iv)FC(Fully Connected)レイヤをもって、前記第1プーリング済み特徴マップに少なくとも一つのFC演算を適用して、前記第1物体に対応する第1物体検出情報を出力するようにし、(v)FCロスレイヤをもって、前記第1物体検出情報と、これに対応するGTとを参照して一つ以上の第1FCロスを取得するようにすることで、前記第1FCロスを利用したバックプロパゲーションによって、前記FCレイヤ及び前記コンボリューションレイヤのパラメータの中の少なくとも一部を学習するプロセス、及び(II)kを2からnまで増加させながら、(i)前記ターゲット物体予測ネットワークをもって、第(k−1)加工イメージ上の一つ以上の第(k−1)物体プロポーザルを参照して、前記第(k−1)加工イメージ上で、少なくとも一つのターゲット物体が位置するものと予測される領域に対応する第(k−1)ターゲット領域を探すようにし、(ii)前記トレーニングイメージ、またはリサイズされたトレーニングイメージ上で、前記第(k−1)ターゲット領域に対応する第k加工イメージが取得されると、前記コンボリューションレイヤをもって、前記第k加工イメージに前記コンボリューション演算を適用して第k特徴マップを出力するようにし、(iii)前記RPNをもって、前記第k特徴マップを参照して、前記第k加工イメージ内に位置する一つ以上の第k物体それぞれに対応する一つ以上の第k物体プロポーザルを出力するようにし、(iv)プーリングレイヤをもって、前記第k特徴マップ上で、前記第k物体プロポーザルそれぞれに対応するそれぞれの領域に前記プーリング演算を適用して、少なくとも一つの第kプーリング済み特徴マップを出力するようにし、(v)前記FCレイヤをもって、前記FC演算を前記第kプーリング済み特徴マップに適用して、前記第k物体に対応する第k物体検出情報を出力するようにし、(vi)前記FCロスレイヤをもって、前記第k物体検出情報と、これに対応するGTとを参照して一つ以上の第kFCロスを取得するようにすることで、前記第kFCロスを利用したバックプロパゲーションによって、前記FCレイヤ及び前記コンボリューションレイヤのパラメータの中の少なくとも一部を学習するプロセスを遂行するための、前記インストラクションを実行するように構成された少なくとも一つのプロセッサ;を含むことを特徴とする学習装置が開示される。
一例として、前記(I)プロセスで、前記プロセッサは、RPNロスレイヤをもって、前記第1物体プロポーザル情報と、これに対応するGTとを参照して一つ以上の第1RPNロスを取得するようにすることで、前記第1RPNロスを利用したバックプロパゲーションによって前記RPNのパラメータの中の少なくとも一部を調整するようにし、前記(II)プロセスで、前記プロセッサは、前記RPNロスレイヤをもって、前記第k物体プロポーザル情報と、これに対応するGTとを参照して一つ以上の第kRPNロスを取得するようにすることで、前記第kRPNロスを利用したバックプロパゲーションによって前記RPNのパラメータの中の少なくとも一部を調整することを特徴とする。
一例として、前記(II)プロセスで、前記プロセッサは、前記ターゲット物体予測ネットワークをもって、(i)前記第(k−1)加工イメージをMxNグリッドで区分するようにし、(ii)前記第(k−1)物体プロポーザルの中で、前記グリッドの各セルごとにそれぞれに対応するプロポーザルの個数を示す少なくとも一つ以上のヒストグラムを生成するようにし、前記グリッドの各セル内にそれに対応する前記プロポーザルそれぞれの全体領域または分割の領域が存在し、(iii)ムービングウィンドウの中の少なくとも一つの領域を利用して、前記第(k−1)ターゲット領域を決定するようにし、前記少なくとも一つの領域は、前記ムービングウィンドウの位置を変更して占有されるすべての領域の中で、前記ヒストグラムの合計が最も大きい値を有する領域であることを特徴とする。
一例として、前記(II)プロセスで、前記プロセッサは、前記トレーニングイメージのサイズを前記第1加工イメージのサイズより大きいサイズに拡大して、前記リサイズされたトレーニングイメージを生成した後、前記リサイズされたトレーニングイメージ上で、前記第(k−1)ターゲット領域に対応する少なくとも一つの領域をクロップして、前記第k加工イメージを生成することを特徴とする。
一例として、前記(II)プロセスで、前記プロセッサは、前記トレーニングイメージ上で、前記第(k−1)ターゲット領域に対応する少なくとも一つの領域をクロップし、前記クロップされた領域をリサイズして、前記第k加工イメージを生成することを特徴とする。
一例として、前記第k加工イメージのサイズが、前記第(k−1)ターゲット領域のサイズより大きくなるように前記第k加工イメージをリサイズすることを特徴とする。
一例として、前記第1加工イメージないし第n加工イメージのサイズが同一の大きさを有することを特徴とする。
本発明のまた他の態様によれば、ターゲット物体予測ネットワークを用いた物体検出器をテストするためのテスティング装置において、各インストラクションを格納する少なくとも一つのメモリ;及び学習装置が、(1−1)一つ以上のコンボリューションレイヤをもって、少なくとも一つのトレーニングイメージに対応する少なくとも一つの第1学習用加工イメージに一つ以上のコンボリューション演算を適用して、少なくとも一つの第1学習用特徴マップを出力するようにし、(1−2)RPNをもって、前記第1学習用特徴マップを利用して、前記第1学習用加工イメージ内に位置する一つ以上の第1学習用物体それぞれに対応する一つ以上の第1学習用物体プロポーザルを出力するようにし、(1−3)プーリングレイヤをもって、前記第1学習用特徴マップ上で、前記第1学習用物体プロポーザルそれぞれに対応するそれぞれの領域に一つ以上のプーリング演算を適用して、少なくとも一つの第1学習用プーリング済み特徴マップを出力するようにし、(1−4)FCレイヤをもって、前記第1学習用プーリング済み特徴マップに少なくとも一つのFC演算を適用して、前記第1学習用物体に対応する第1学習用物体検出情報を出力するようにし、(1−5)FCロスレイヤをもって、前記第1学習用物体検出情報と、これに対応するGTとを参照して一つ以上の第1FCロスを取得するようにすることで、前記第1FCロスを利用したバックプロパゲーションによって、前記FCレイヤ及び前記コンボリューションレイヤのパラメータの中の少なくとも一部を学習するようにし、kを2からnまで増加させながら、(2−1)前記ターゲット物体予測ネットワークをもって、第(k−1)学習用加工イメージ上の一つ以上の第(k−1)学習用物体プロポーザルを参照して、前記第(k−1)学習用加工イメージ上で、少なくとも一つの学習用ターゲット物体が位置するものと予測される領域に対応する第(k−1)ターゲット学習用領域を探すようにし、(2−2)前記トレーニングイメージ、またはリサイズされたトレーニングイメージ上で、前記第(k−1)学習用ターゲット領域に対応する第k学習用加工イメージが取得されると、前記コンボリューションレイヤをもって、前記第k学習用加工イメージに前記コンボリューション演算を適用して第k学習用特徴マップを出力するようにし、(2−3)前記RPNをもって、前記第k学習用特徴マップを利用して、前記第k学習用加工イメージ内に位置する一つ以上の第k学習用物体それぞれに対応する一つ以上の第k学習用物体プロポーザルを出力するようにし、(2−4)前記プーリングレイヤをもって、前記第k学習用特徴マップ上で、前記第k学習用物体プロポーザルそれぞれに対応するそれぞれの領域に前記プーリング演算を適用して、少なくとも一つの第k学習用プーリング済み特徴マップを出力するようにし、(2−5)前記FCレイヤをもって、前記FC演算を前記第k学習用プーリング済み特徴マップに適用して、前記第k学習用物体に対応する第k学習用物体検出情報を出力するようにし、(2−6)前記FCロスレイヤをもって、前記第k学習用物体検出情報と、これに対応するGTとを参照して一つ以上の第kFCロスを取得するようにすることで、前記第kFCロスを利用したバックプロパゲーションによって、前記FCレイヤ及び前記コンボリューションレイヤのパラメータの中の少なくとも一部を学習した状態で、(I)(i)前記コンボリューションレイヤをもって、テストイメージに対応する少なくとも一つの第1テスト用加工イメージに前記コンボリューション演算を適用して、少なくとも一つの第1テスト用特徴マップを出力するようにし、(ii)前記RPNをもって、前記第1テスト用特徴マップを利用して、前記第1テスト用加工イメージ内に位置する一つ以上の第1テスト用物体それぞれに対応する一つ以上の第1テスト用物体プロポーザルを出力するようにし、(iii)前記プーリングレイヤをもって、前記第1テスト用特徴マップ上で、前記第1テスト用物体プロポーザルそれぞれに対応するそれぞれの領域に前記プーリング演算を適用して、少なくとも一つの第1テスト用プーリング済み特徴マップを出力するようにし、(iv)前記FCレイヤをもって、前記第1テスト用プーリング済み特徴マップに前記FC演算を適用して、前記第1テスト用物体に対応する第1テスト用物体検出情報を出力するようにするプロセス、及び(II)kを2からnまで増加させながら、(i)前記ターゲット物体予測ネットワークをもって、第(k−1)テスト用加工イメージ上の一つ以上の第(k−1)テスト用物体プロポーザルを参照して、前記第(k−1)テスト用加工イメージ上で、少なくとも一つのテスト用ターゲット物体が位置するものと予測される領域に対応する第(k−1)テスト用ターゲット領域を探すようにし、(ii)前記テストイメージ、またはリサイズされたテストイメージ上で、前記第(k−1)テスト用ターゲット領域に対応する第kテスト用加工イメージが取得されると、前記コンボリューションレイヤをもって、前記テスト用第k加工イメージに前記コンボリューション演算を適用して第kテスト用特徴マップを出力するようにし、(iii)前記RPNをもって、前記第kテスト用特徴マップを参照して、前記第kテスト用加工イメージ内に位置する一つ以上の第kテスト用物体それぞれに対応する一つ以上の第kテスト用物体プロポーザルを出力するようにし、(iv)前記プーリングレイヤをもって、前記第kテスト用特徴マップ上で、前記第kテスト用物体プロポーザルそれぞれに対応するそれぞれの領域に前記プーリング演算を適用して、少なくとも一つの第kテスト用プーリング済み特徴マップを出力するようにし、(v)前記FCレイヤをもって、前記FC演算を前記第kテスト用プーリング済み特徴マップに適用して、前記第kテスト用物体に対応する第kテスト用物体検出情報を出力するようにするプロセスを遂行するための、前記インストラクションを実行するように構成された少なくとも一つのプロセッサ;を含むことを特徴とするテスティング装置が開示される。
一例として、前記学習装置は、RPNロスレイヤをもって、前記第1学習用物体プロポーザル情報と、これに対応するGTとを参照して一つ以上の第1RPNロスを取得するようにすることで、前記第1RPNロスを利用したバックプロパゲーションによって前記RPNのパラメータの中の少なくとも一部を調整するようにし、前記学習装置は、前記RPNロスレイヤをもって、前記第k学習用物体プロポーザル情報と、これに対応するGTとを参照して一つ以上の第kRPNロスを取得するようにすることで、前記第kRPNロスを利用したバックプロパゲーションによって前記RPNのパラメータの中の少なくとも一部を調整することを特徴とする。
一例として、前記(II)プロセスで、前記プロセッサは、前記ターゲット物体予測ネットワークをもって、(i)前記第(k−1)テスト用加工イメージをMxNグリッドで区分するようにし、(ii)前記第(k−1)テスト用物体プロポーザルの中で、前記グリッドの各セルごとにそれぞれに対応するテスト用プロポーザルの個数を示す少なくとも一つ以上のテスト用ヒストグラムを生成するようにし、前記グリッドの各セル内にそれに対応する前記テスト用プロポーザルそれぞれの全体領域または分割の領域が存在し、(iii)ムービングウィンドウの中の少なくとも一つの領域を利用して、前記第(k−1)テスト用ターゲット領域を決定するようにし、前記少なくとも一つの領域は、前記ムービングウィンドウの位置を変更して占有されるすべての領域の中で、前記テスト用ヒストグラムの合計が最も大きい値を有する領域であることを特徴とする。
一例として、前記(II)プロセスで、前記プロセッサは、前記テストイメージのサイズを前記第1テスト用加工イメージのサイズより大きいサイズに拡大して、前記リサイズされたテストイメージを生成した後、前記リサイズされたテストイメージ上で、前記第(k−1)テスト用ターゲット領域に対応する少なくとも一つの領域をクロップして、前記第kテスト用加工イメージを生成することを特徴とする。
一例として、前記(II)プロセスで、前記プロセッサは、前記テストイメージ上で、前記第(k−1)テスト用ターゲット領域に対応する少なくとも一つの領域をクロップし、前記クロップされた領域をリサイズして、前記第kテスト用加工イメージを生成することを特徴とする。
一例として、前記第kテスト用加工イメージのサイズが、前記第(k−1)テスト用ターゲット領域のサイズより大きくなるように前記第kテスト用加工イメージをリサイズすることを特徴とする。
一例として、前記第1テスト用加工イメージないし第nテスト用加工イメージのサイズが、同一の大きさを有することを特徴とする。
この他にも、本発明の方法を実行するためのコンピュータプログラムを記録するためのコンピュータ読読可能な記録媒体がさらに提供される。
本発明によれば、入力イメージを互いに異なるサイズを有するイメージに加工した上で、それぞれの加工されたイメージ上に物体が位置するものと推定されるターゲット領域を利用してイメージ内の小さな物体を容易に検出し得る効果がある。
また、本発明によれば、前記入力イメージを互いに異なるサイズのイメージに加工した後、それぞれの前記加工されたイメージ上に物体が位置すると推定されるターゲット領域をクロップして加工されたイメージを利用して、イメージ内のサイズが小さい物体を検出することにより、演算量と演算時間を最小化し得る効果がある。
本発明の実施例の説明に利用されるために添付された以下の各図面は、本発明の実施例のうちの一部に過ぎず、本発明が属する技術分野でおいて、通常の知識を有する者(以下「通常の技術者」)は、発明的作業が行われることなくこの図面に基づいて他の図面が得られ得る。
図1は、本発明の一例に係るターゲット物体予測ネットワークを利用した、CNN基盤物体検出器を学習する学習装置を概略的に示した図面である。 図2は、本発明の一例に係る前記ターゲット物体予測ネットワークを利用した、前記CNN基盤物体検出器を学習する学習方法を概略的に示した図面である。 図3は、本発明の一例に係る前記ターゲット物体予測ネットワークを利用した、前記CNN基盤物体の検出器の学習方法から考慮される、RPNから出力される、物体プロポーザルを概略的に示した図面である。 図4は、本発明の一例に係る前記ターゲット物体予測ネットワークを利用した、前記CNN基盤物体の検出器の学習方法において考慮される、前記RPNから出力される前記物体プロポーザルを利用してターゲット領域を探す状態を概略的に示した図面である。 図5は、本発明の一例に係る加工イメージを利用して、少なくとも一つのターゲット物体を検出する状態を概略的に示した図面である。 図6は、本発明の一例に係る前記ターゲット物体予測ネットワークを利用した、前記CNN基盤物体検出器のテスティング装置を概略的に示した図面である。 図7は、本発明の一例に係る前記ターゲット物体予測ネットワークを利用した、前記CNN基盤物体検出器のテスティング方法を概略的に示した図面である。
後述する本発明に対する詳細な説明は、本発明の各目的、技術的解決方法及び長所を明確にするために、本発明が実施され得る特定の実施例を例示として示す添付図面を参照する。これらの実施例は、通常の技術者が本発明を実施することができるように充分詳細に説明される。
また、本発明の詳細な説明及び各請求項にわたって、「含む」という単語及びそれらの変形は、他の技術的各特徴、各付加物、構成要素又は段階を除外することを意図したものではない。通常の技術者にとって本発明の他の各目的、長所及び各特性が、一部は本説明書から、また一部は本発明の実施から明らかになるであろう。以下の例示及び図面は実例として提供され、本発明を限定することを意図したものではない。
さらに、本発明は、本明細書に示された実施例のあらゆる可能な組合せを網羅する。本発明の多様な実施例は相互異なるが、相互排他的である必要はないことを理解されたい。例えば、ここに記載されている特定の形状、構造及び特性は一例と関連して、本発明の精神及び範囲を逸脱せず、かつ他の実施例で実装され得る。また、各々の開示された実施例内の個別構成要素の位置または配置は本発明の精神及び範囲を逸脱せずに変更され得ることを理解されたい。従って、後述する詳細な説明は限定的な意味で捉えようとするものではなく、本発明の範囲は、適切に説明されれば、その請求項が主張することと均等なすべての範囲と、併せて添付された請求項によってのみ限定される。図面で類似する参照符号はいくつかの側面にかけて同一か類似する機能を指称する。
本発明で言及している各種イメージは、舗装または非舗装道路関連のイメージを含み得り、この場合、道路環境で登場し得る物体(例えば、自動車、人、動物、植物、物、建物、飛行機やドローンのような飛行体、その他の障害物)を想定し得るが、必ずしもこれに限定されるものではなく、本発明で言及している各種イメージは、道路と関係のないイメージ(例えば、非舗装道路、路地、空き地、海、湖、川、山、森、砂漠、空、室内と関連したイメージ)でもあり得、この場合、非舗装道路、路地、空き地、海、湖、川、山、森、砂漠、空、室内環境で登場し得る物体(例えば、自動車、人、動物、植物、物、建物、飛行機やドローンのような飛行体、その他の障害物)を想定し得るが、必ずしもこれに限定されるものではない。
以下、本発明が属する技術分野で通常の知識を有する者が本発明を容易に実施することができるようにするために、本発明の好ましい実施例について添付の図面に基づいて詳細に説明する。
図1は、本発明の一例に係るターゲット物体予測ネットワークを利用した、CNN基盤物体検出器を学習する学習装置を概略的に示した図面である。
図1を参照すれば、前記学習装置100は、通信部110とプロセッサ120とを含み得る。
まず、前記通信部110は、少なくとも一つのトレーニングイメージを取得するか、他の装置をもって取得するように支援し得る。
この際、前記トレーニングイメージは、データベース130に格納され得り、前記データベース130は、前記トレーニングイメージに位置する一つ以上の物体それぞれに対応するクラス情報及び位置情報に対する少なくとも一つのGT(ground truth)を格納し得る。
また、前記学習装置は、後述するプロセスを遂行するコンピュータ読み取り可能なインストラクション(computer readable instruction)を格納し得るメモリ115を追加的に含み得る。一例として、前記プロセッサ、前記メモリ、及び媒体等は、一つのプロセッサに統合されて機能することもできる。
次に、前記プロセッサ120は(i)一つ以上のコンボリューションレイヤをもって、前記トレーニングイメージに対応する少なくとも一つの第1加工イメージに一つ以上のコンボリューション演算を適用して、少なくとも一つの第1特徴マップを出力するようにし、(ii)RPN(Region Proposal Network)をもって、前記第1特徴マップを利用して、前記第1加工イメージ内に位置する一つ以上の第1物体それぞれに対応する一つ以上の第1物体プロポーザルを出力するようにし、(iii)プーリングレイヤをもって、前記第1特徴マップ上で、前記第1物体プロポーザルそれぞれに対応するそれぞれの領域に一つ以上のプーリング演算を適用して、少なくとも一つの第1プーリング済み特徴マップを出力するようにし、(iv)FC(Fully Connected)レイヤをもって、前記第1プーリング済み特徴マップに少なくとも一つのFC演算を適用して、前記第1物体に対応する第1物体検出情報を出力するようにし、(v)FCロスレイヤをもって、前記第1物体検出情報と、これに対応するGTとを参照して一つ以上の第1FCロスを取得するようにすることで、前記第1FCロスを利用したバックプロパゲーションによって、前記FCレイヤ及び前記コンボリューションレイヤのパラメータの中の少なくとも一部を学習するプロセスを遂行するか、他の装置をもって遂行するように支援し得る。
また、前記プロセッサ120は、kを2からnまで増加させながら、(i)前記ターゲット物体予測ネットワークをもって、第(k−1)加工イメージ上の一つ以上の第(k−1)物体プロポーザルを参照して、前記第(k−1)加工イメージ上で、少なくとも一つのターゲット物体が位置するものと予測される領域に対応する第(k−1)ターゲット領域を探すようにし、(ii)前記トレーニングイメージ、またはリサイズされたトレーニングイメージ上で、前記第(k−1)ターゲット領域に対応する第k加工イメージが取得されると、前記コンボリューションレイヤをもって、前記第k加工イメージに前記コンボリューション演算を適用して第k特徴マップを出力するようにし、(iii)前記RPNをもって、前記第k特徴マップを参照して、前記第k加工イメージ内に位置する一つ以上の第k物体それぞれに対応する一つ以上の第k物体プロポーザルを出力するようにし、(iv)前記プーリングレイヤをもって、前記第k特徴マップ上で、前記第k物体プロポーザルそれぞれに対応するそれぞれの領域に前記プーリング演算を適用して、少なくとも一つの第kプーリング済み特徴マップを出力するようにし、(v)前記FCレイヤをもって、前記FC演算を前記第kプーリング済み特徴マップに適用して、前記第k物体に対応する第k物体検出情報を出力するようにし、(vi)前記FCロスレイヤをもって、前記第k物体検出情報と、これに対応するGTとを参照して一つ以上の第kFCロスを取得するようにすることで、前記第kFCロスを利用したバックプロパゲーションによって、前記FCレイヤ及び前記コンボリューションレイヤのパラメータの中の少なくとも一部を学習するプロセスを遂行するか、他の装置をもって遂行するように支援し得る。
また、前記プロセッサ120は、RPNロスレイヤをもって、前記第1物体プロポーザル情報と、これに対応するGTとを参照して一つ以上の第1RPNロスを取得するようにすることで、前記第1RPNロスを利用したバックプロパゲーションによって前記RPNのパラメータの中の少なくとも一部を調整するようにし、前記RPNロスレイヤをもって、前記第k物体プロポーザル情報と、これに対応するGTとを参照して一つ以上の第kRPNロスを取得するようにすることで、前記第kRPNロスを利用したバックプロパゲーションによって前記RPNのパラメータの中の少なくとも一部を調整し得る。
この際、本発明の一例に係る前記学習装置100は、コンピューティング装置であり、プロセッサを搭載して演算能力を備えた装置であればいくらでも本発明に係る学習装置100として採択され得る。また、図1では一つの学習装置100のみを示したが、これに限定されず、前記学習装置は複数に分けて役割を遂行することもできる。
このように構成された本発明の一例に係る前記学習装置100を利用して、前記ターゲット物体予測ネットワークを利用してCNN基盤物体検出器のパラメータを学習する方法を、図2を参照して説明する。
まず、前記トレーニングイメージが入力されると、前記学習装置100がコンボリューションレイヤ121をもって、前記トレーニングイメージに対応する前記第1加工イメージに前記コンボリューション演算を適用して、前記第1特徴マップを出力するようにし得る。ここで、前記コンボリューションレイヤ121は、単一のコンボリューションレイヤまたは多数のコンボリューションレイヤになり得る。
この際、前記学習装置100は、イメージ加工ネットワーク111をもって、前記トレーニングイメージを加工してサイズが互いに異なるイメージ多数を含むイメージピラミッドを生成するようにし得、前記イメージピラミッドイメージの中の一つを前記第1加工イメージとして前記コンボリューションレイヤ121に入力し得る。
次に、前記学習装置100は、RPN122をもって、前記第1特徴マップを利用して、前記第1加工イメージ内に位置する前記第1物体それぞれに対応する一つ以上の第1物体プロポーザルを出力するようにし得る。
一例として、図3を参照すれば、前記RPN122から出力された前記第1物体プロポーザルは、前記第1加工イメージ内の前記第1物体それぞれに対応し得、前記第1物体プロポーザルそれぞれは、前記第1物体それぞれ、つまり、タグ付け領域に対応する位置情報と、前記タグ付け領域それぞれが物体であるか否かに対する情報とを有する各プロポーザルに対する情報を含み得る。この際、物体であるか否かに対する情報は、前記それぞれの物体プロポーザルが物体であると予測される確率情報を含み得り、前記プロポーザルボックスに関する情報は、前記プロポーザルボックスが前記物体の位置に一致すると予測される確率情報を含み得る。
次に、前記学習装置100は、プーリングレイヤ123をもって、前記第1特徴マップ上で、前記第1物体プロポーザルに対応する少なくとも一つの領域に前記プーリング演算を適用して、前記第1プーリング済み特徴マップを出力するようにし、FCレイヤ124をもって、前記第1プーリング済み特徴マップに前記FC演算を適用して、前記第1物体に対応する第1物体検出情報を出力するようにし得る。
この際、前記第1物体検出情報は、バウンディングボックスに関する情報(すなわち、前記第1物体それぞれに関する位置情報)と、前記第1物体プロポーザルに対応する前記第1物体それぞれに関するクラス情報とを含み得る。また、前記クラス情報は、前記第1物体それぞれが該当クラスと予測される確率情報を含み得、前記バウンディングボックスに関する情報は、前記バウンディングボックスそれぞれが前記物体の位置に一致するものと予測される確率情報を含み得る。
次に、前記学習装置100は、少なくとも一つのFCロスレイヤ125をもって、前記第1物体検出情報と、これに対応するGTとを参照して一つ以上の第1FCロスを取得するようにすることで、前記第1FCロスを利用したバックプロパゲーションによって、前記FCレイヤ124及び前記コンボリューションレイヤ121のパラメータの中の少なくとも一部を調整し得る。
また、前記学習装置100は、少なくとも一つのRPNロスレイヤ126をもって、前記第1物体プロポーザルと、これに対応するGTとを参照して一つ以上の第1RPNロスを取得するようにすることで、前記第1RPNロスを利用したバックプロパゲーションによって前記RPN122のパラメータの中の少なくとも一部を調整し得る。
次に、前記学習装置100は、前記ターゲット物体予測ネットワーク127をもって、第1加工イメージ上の前記第1物体プロポーザルを参照して、前記第1加工イメージ上で、少なくとも一つのターゲット物体が位置するものと予測される領域に対応する第1ターゲット領域を探すようにし得る。
一例として、図4を参照すれば、前記ターゲット物体予測ネットワーク127は(i)前記第1加工イメージをMxNグリッドで区分し、(ii)前記第(k−1)物体プロポーザルの中で、前記グリッドの各セルごとにそれぞれに対応するプロポーザルの個数を示す少なくとも一つ以上のヒストグラムを生成するようにし、前記グリッドの各セル内にそれに対応する前記プロポーザルそれぞれの全体領域または分割の領域が存在し、好ましくは、前記対応するプロポーザルのサイズが、前記RPN122から出力された前記物体プロポーザルの中の、前記ターゲット物体のサイズに対応する予め設定されているサイズより小さくなるようにすることができ、(iii)前記第1ターゲット領域のサイズに対応するPxQサイズを有するムービングウィンドウの少なくとも一つの領域を利用して前記第1ターゲット領域(TR)を決定し、前記少なくとも一つの領域は、前記ムービングウィンドウの位置を変更して占有されるすべての領域の中の前記ヒストグラムの合計が最も大きい値を有し得る。
次に、前記学習装置100は、前記トレーニングイメージ、またはこれをリサイズしたイメージ、つまり、前記リサイズされたトレーニングイメージ上の前記第1ターゲット領域(TR)に対応する第2加工イメージを取得するか、他の装置をもって取得するように支援し得る。
この際、前記学習装置100は、前記イメージ加工ネットワーク111をもって、前記トレーニングイメージのサイズを前記第1加工イメージのサイズより大きいサイズに拡大して、前記リサイズされたトレーニングのイメージを生成した後、前記リサイズされたトレーニングイメージ上で前記第1ターゲット領域(TR)に対応する少なくとも一つの領域をクロップして前記第2加工イメージを生成するか、前記トレーニングイメージ上の前記第1ターゲット領域(TR)に対応する少なくとも一つの領域をクロップ及びリサイズして前記第2加工イメージを生成するようにし得る。
一例として、前記イメージ加工ネットワーク111は、前記トレーニングイメージに対応する前記イメージピラミッドの中の、第1加工イメージよりサイズが大きいイメージ上で、第1ターゲット領域(TR)に対応する少なくとも一つの領域をクロップして、前記第2加工イメージを生成し得る。また、前記イメージ加工ネットワーク111は、前記トレーニングイメージにおいて前記第1ターゲット領域(TR)に対応する少なくとも一つの領域をクロップし、前記クロップされたイメージをリサイズすることにより、前記第2加工イメージを生成し得る。この際、前記第2加工イメージは、サイズが前記第1ターゲット領域のサイズより大きくリサイズされ得る。このために、前記イメージ加工ネットワーク111は、前記クロップされたイメージを、前記トレーニングイメージの前記イメージピラミッドの中の、前記第1加工イメージの次のイメージのサイズに対応するようにリサイズして、前記第2加工イメージを生成し得る。
次に、前記学習装置100は、前記生成された第2加工イメージを利用して、前記のような過程を繰り返して前記トレーニングイメージ上でのサイズが小さい物体、つまり、遠距離に位置する物体を効率的に検出できるようになる。
つまり、前記学習装置100は、kを2からnまで増加させながら、(i)前記ターゲット物体予測ネットワーク127をもって、第(k−1)加工イメージ上の一つ以上の第(k−1)物体プロポーザルを参照して、前記第(k−1)加工イメージ上で、前記ターゲット物体が位置するものと予測される領域に対応する第(k−1)ターゲット領域を探すようにし、(ii)前記トレーニングイメージ、またはリサイズされたトレーニングイメージ上で、前記第(k−1)ターゲット領域に対応する第k加工イメージが取得されると、前記コンボリューションレイヤをもって、前記第k加工イメージに前記コンボリューション演算を適用して第k特徴マップを出力するようにするプロセスを遂行するか、他の装置をもって遂行するように支援し得る。そして、前記学習装置100は、前記RPN122をもって、前記第k特徴マップを利用して、前記第k加工イメージ内に位置する第k物体それぞれに対応する前記第k物体プロポーザルを出力するようにし、前記プーリングレイヤ123をもって、前記第k特徴マップ上で、前記第k物体プロポーザルそれぞれに対応するそれぞれの領域に前記プーリング演算を適用して、前記少なくとも一つの第kプーリング済み特徴マップを出力するようにし得る。その後、前記テスティング装置100は、前記FCレイヤ124をもって、前記FC演算を前記第kプーリング済み特徴マップに適用して、前記第k物体に対応する第k物体検出情報を出力するようにし得る。そして、前記学習装置100は、前記FCロスレイヤ125をもって、前記第k物体検出情報と、これに対応するGTとを参照して一つ以上の第kFCロスを取得するようにすることで、前記第kFCロスを利用したバックプロパゲーションによって、前記FCレイヤ及び前記コンボリューションレイヤのパラメータの中の少なくとも一部を調整するようにし得る。また、前記学習装置100は、前記RPNロスレイヤ126をもって、前記第k物体プロポーザルと、これに対応するGTとを参照して一つ以上の第kRPNロスを取得するようにすることで、前記第kRPNロスを利用したバックプロパゲーションによって前記RPN122のパラメータの中の少なくとも一部を調整するようにし得る。
一例として、図5を参照すれば、前記イメージピラミッドの中の最小サイズのイメージである第1イメージ(P1)に対応する前記第1加工イメージ(MI1)上で物体検出が遂行されて前記第1ターゲット領域(TR1)が予測され、前記イメージピラミッドの中で、次の最小サイズのイメージである第2イメージ(P2)において、前記第1ターゲット領域(TR1)に対応する前記第2加工イメージ(MI2)上で物体検出が遂行されて第2ターゲット領域(TR2)が確認され、 前記イメージピラミッドの中の、第2イメージ(P2)の次の最小サイズのイメージである第3イメージ(P3)において、前記第2ターゲット領域(TR2)に対応する第3加工イメージ(MI3)上で物体検出が遂行されることにより、特定サイズを有する第k物体、好ましくは、遠距離に位置するサイズが小さい物体が短い演算時間によって容易に検出され得るようになる。
この際、前記第1加工イメージないし第(n−1)加工イメージにおいて、第1ターゲット領域ないし第(n−1)ターゲット領域のサイズは同一になるようにするか、それぞれの加工イメージのサイズに対応してアスペクト比(aspect ratio)を同一にした状態でそのサイズが異なるようにすることもできる。また、前記第1加工イメージないし前記第n加工イメージは、同一の大きさを有するようにすることもできる。
前記のような方法により、前記のトレーニングイメージ内に位置するサイズが様々な物体、特にサイズが小さく、遠距離に位置した前記第k物体を効率的に検出できるようになり、また、前記予測されたターゲット領域に対応する領域のみを利用することで演算量を減らし得、これによって前記CNNベースの前記物体検出の演算時間を減らし得るようになる。
また、前記では、前記トレーニングイメージ上にターゲット物体が一つである場合を想定して説明したが、前記トレーニングイメージ内にターゲット物体多数がある場合にも、前記のような方法により前記トレーニングイメージ内での前記それぞれのターゲット物体に対応するそれぞれのターゲット領域を利用して、前記それぞれのターゲット物体の検出が可能である。
図6は、本発明の一例に係る前記ターゲット物体予測ネットワークを利用した、前記CNN基盤物体検出器をテスティングするテスティング装置を概略的に示したもので、図6を参照すれば、前記テスティング装置200は、通信部210とプロセッサ220を含み得る。
まず、前記通信部210は、少なくとも一つのテストイメージを取得するか、他の装置をもって取得するように支援し得る。
また、前記テスティング装置は、後述するプロセスを遂行するコンピュータ読み取り可能なインストラクション(computer readable instruction)を格納し得るメモリ215を追加的に含み得る。一例として、前記プロセッサ、前記メモリ、及び媒体(medium)等は、一つのプロセッサに統合されて機能することもできる。
この際、前記ターゲット物体予測ネットワークを利用した、前記CNN基盤、前記物体検出器は、図1ないし図5を参照して説明された前記学習方法として学習され得る。
参考までに、以下の説明において混乱を避けるために、前記学習プロセスに関連する用語には「学習用」という単語が追加され、テスト用プロセスに関連する用語には「テスト用」という単語が追加された。
つまり、トレーニングイメージが取得されると、前記学習装置が、(a)(i)前記コンボリューションレイヤをもって、前記トレーニングイメージに対応する少なくとも一つの第1学習用加工イメージに前記コンボリューション演算を適用して、少なくとも一つの第1学習用特徴マップを出力するようにし、(ii)前記RPNをもって、前記第1学習用特徴マップを利用して、前記第1学習用加工イメージ内に位置する一つ以上の第1学習用物体それぞれに対応する一つ以上の第1学習用物体プロポーザルを出力するようにし、(iii)前記プーリングレイヤをもって、前記第1学習用特徴マップ上で、前記第1学習用物体プロポーザルそれぞれに対応するそれぞれの領域に前記プーリング演算を適用して、少なくとも一つの第1学習用プーリング済み特徴マップを出力するようにし、(iv)前記FCレイヤをもって、前記第1学習用プーリング済み特徴マップに少なくとも一つのFC演算を適用して、前記第1学習用物体に対応する第1学習用物体検出情報を出力するようにし、(v)前記FCロスレイヤをもって、前記第1学習用物体検出情報と、これに対応するGTとを参照して一つ以上の第1FCロスを取得するようにすることで、前記第1FCロスを利用したバックプロパゲーションによって、前記FCレイヤ及び前記コンボリューションレイヤのパラメータの中の少なくとも一部を学習するようにし、(b)kを2からnまで増加させながら、(i)前記ターゲット物体予測ネットワークをもって、第(k−1)学習用加工イメージ上の一つ以上の第(k−1)学習用物体プロポーザルを参照して、前記第(k−1)学習用加工イメージ上で、少なくとも一つの学習用ターゲット物体が位置するものと予測される領域に対応する第(k−1)学習用ターゲット領域を探すようにし、(ii)前記トレーニングイメージ、またはリサイズされたトレーニングイメージ上で、前記第(k−1)学習用ターゲット領域に対応する第k学習用加工イメージが取得されると、前記コンボリューションレイヤをもって、前記第k学習用加工イメージに前記コンボリューション演算を適用して第k学習用特徴マップを出力するようにし、(iii)前記RPNをもって、前記第k学習用特徴マップを利用して、前記第k学習用加工イメージ内に位置する一つ以上の第k学習用物体それぞれに対応する一つ以上の第k学習用物体プロポーザルを出力するようにし、(iv)前記プーリングレイヤをもって、前記第k学習用特徴マップ上で、前記第k学習用物体プロポーザルそれぞれに対応するそれぞれの領域に前記プーリング演算を適用して、少なくとも一つの第k学習用プーリング済み特徴マップを出力するようにし、(v)前記FCレイヤをもって、前記FC演算を前記第k学習用プーリング済み特徴マップに適用して、前記第k学習用物体に対応する第k学習用物体検出情報を出力するようにし、(vi)前記FCロスレイヤをもって、前記第k学習用物体検出情報と、これに対応するGTとを参照して一つ以上の第kFCロスを取得するようにすることで、前記第kFCロスを利用したバックプロパゲーションによって、前記FCレイヤ及び前記コンボリューションレイヤの前記パラメータの中の少なくとも一部を学習するプロセスを遂行し得る。
また、前記学習装置は、前記RPNロスレイヤをもって、前記第1学習用物体プロポーザル情報と、これに対応するGTとを参照して一つ以上の第1RPNロスを取得するようにすることで、前記第1RPNロスを利用したバックプロパゲーションによって前記RPNのパラメータの中の少なくとも一部を調整するようにし、前記RPNロスレイヤをもって、前記第k物体学習用プロポーザル情報と、これに対応するGTとを参照して一つ以上の第kRPNロスを取得するようにすることで、前記第kRPNロスを利用したバックプロパゲーションによって前記RPNのパラメータの中の少なくとも一部を調整し得る。
次に、前記プロセッサ220は(i)前記コンボリューションレイヤをもって、前記テストイメージに対応する少なくとも一つの第1テスト用加工イメージに前記コンボリューション演算を適用して、少なくとも一つの第1テスト用特徴マップを出力するようにし、(ii)前記RPNをもって、前記第1テスト用特徴マップを利用して、前記第1テスト用加工イメージ内に位置する一つ以上の第1テスト用物体それぞれに対応する一つ以上の第1テスト用物体プロポーザルを出力するようにし、(iii)前記プーリングレイヤをもって、前記第1テスト用特徴マップ上で、前記第1テスト用物体プロポーザルそれぞれに対応するそれぞれの領域に前記プーリング演算を適用して、少なくとも一つの第1テスト用プーリング済み特徴マップを出力するようにし、(iv)前記FCレイヤをもって、前記第1テスト用プーリング済み特徴マップに前記FC演算を適用して、前記第1テスト用物体に対応する第1テスト用物体検出情報を出力するようにする プロセスを遂行するか、他の装置をもって遂行するように支援し得る。その後、前記プロセッサ220は、kを2からnまで増加させながら、(i)前記ターゲット物体予測ネットワークをもって、第(k−1)テスト用加工イメージ上の一つ以上の第(k−1)テスト用物体プロポーザルを参照して、前記第(k−1)テスト用加工イメージ上で、少なくとも一つのテスト用ターゲット物体が位置するものと予測される領域に対応する第(k−1)テスト用ターゲット領域を探すようにし、(ii)前記テストイメージ、またはリサイズされたテストイメージ上で、前記第(k−1)テスト用ターゲット領域に対応する第kテスト用加工イメージが取得されると、前記コンボリューションレイヤをもって、前記テスト用第k加工イメージに前記コンボリューション演算を適用して第kテスト用特徴マップを出力するようにし、(iii)前記RPNをもって、前記第kテスト用特徴マップを参照して、前記第kテスト用加工イメージ内に位置する一つ以上の第kテスト用物体それぞれに対応する一つ以上の第kテスト用物体プロポーザルを出力するようにし、(iv)前記プーリングレイヤをもって、前記第kテスト用特徴マップ上で、前記第kテスト用物体プロポーザルそれぞれに対応するそれぞれの領域に前記プーリング演算を適用して、少なくとも一つの第kテスト用プーリング済み特徴マップを出力するようにし、(v)前記FCレイヤをもって、前記FC演算を前記第kテスト用プーリング済み特徴マップに適用して、前記第kテスト用物体に対応する第kテスト用物体検出情報を出力するようにする プロセスを遂行するか、他の装置をもって遂行するように支援し得る。
この際、本発明の一例に係るテスティング装置200は、コンピューティング装置であり、プロセッサを搭載して演算能力を備えた装置であればいくらでも本発明に係る学習装置200として採択され得る。また、図6では一つのテスティング装置200のみを示したが、これに限定されず、テスティング装置は複数に分けて役割を遂行することもできる。
本発明の一例に係る前記テスティング装置200を利用して、前記ターゲット物体予測ネットワークを利用した前記CNN基盤物体検出器をテスティングする方法を、図7を参照して説明する。以下の説明で、図1ないし図5を参照して説明した前記学習方法により容易に理解可能な部分については、詳細な説明を省略することにする。
まず、図1ないし図5を参照に説明した学習方法によってFCレイヤ224、コンボリューションレイヤ221、及びRPN222のパラメータの中の少なくとも一部を学習した状態で、前記テストイメージが入力されると、前記テスティング装置200がコンボリューションレイヤ221をもって、前記テストイメージに対応する前記第1加工イメージに前記コンボリューション演算を適用して、前記第1テスト用特徴マップを出力するようにし得る。この際、前記コンボリューションレイヤ221は、単一のコンボリューションレイヤであることもあり、または多数のコンボリューションレイヤであることもある。
この際、前記テスティング装置200は、イメージ加工ネットワーク211をもって、前記テストイメージを加工してサイズが互いに異なるイメージを含むイメージピラミッドを生成するようにし得、前記イメージピラミッドイメージの中の一つイメージを前記第1テスト用加工イメージとして前記コンボリューションレイヤ221に入力し得る。
次に、前記テスティング装置200は、前記RPN222をもって前記第1テスト用特徴マップを利用して、前記第1テスト用加工イメージ内に位置する前記第1テスト用物体それぞれに対応する一つ以上の第1テスト用物体プロポーザルを出力するようにし得る。
この際、前記第1テスト用物体プロポーザルそれぞれは、前記それぞれの第1テスト用物体、つまり、タグ付き領域に対応する位置情報と、前記それぞれのタグ付け領域が物体であるか否かに対する情報とを有する各プロポーザルに対する情報を含み得る。
次に、前記テスティング装置200は、プーリングレイヤ223をもって、前記第1テスト用特徴マップ上で、前記第1物体プロポーザルに対応する少なくとも一つの領域に前記プーリング演算を適用して、少なくとも一つの第1テスト用プーリング済み特徴マップを出力するようにし、前記FCレイヤ224をもって、前記FC演算を前記第1テスト用プーリング済み特徴マップに適用して、前記第1テスト用物体に対応する第1テスト用物体検出情報を出力するようにし得る。
この際、前記第1テスト用物体検出情報は、テスト用バウンディングボックスに関する情報(すなわち、前記テスト用物体それぞれに関する位置情報)と、前記第1テスト用物体プロポーザルに対応する前記第1テスト用物体それぞれに関するクラス情報とを含み得る。
次に、前記テスティング装置200は、ターゲット物体予測ネットワーク227をもって、第1テスト用加工イメージ上の前記第1テスト用物体プロポーザルを参照して、前記第1テスト用加工イメージ上で、少なくとも一つのテスト用ターゲット物体が位置するものと予測される領域に対応する第1テスト用ターゲット領域を探すようにし得る。
次に、前記テスティング装置200は、前記リサイズされたテストイメージ、または前記テストイメージ上の前記第1テスト用ターゲット領域に対応する第2テスト用加工イメージを取得するか、他の装置をもって取得するように支援し得る。
この際、前記テスティング装置200は、前記イメージ加工ネットワーク211をもって、前記テストイメージのサイズを前記第1テスト用加工イメージのサイズより大きいサイズに拡大して、前記リサイズされたテストイメージを生成した後、前記リサイズされたテストイメージ上で前記第1テスト用ターゲット領域に対応する少なくとも一つの領域をクロップして前記第2加工イメージを生成するか、前記テストイメージ上の前記第1テスト用ターゲット領域に対応する少なくとも一つの領域をクロップ及びリサイズして前記第2テスト用加工イメージを生成するようにし得る。
一例として、前記イメージ加工ネットワーク211は、前記テストイメージに対応する前記イメージピラミッドの中の、第1テスト用加工イメージよりサイズが大きいイメージ上で、第1テスト用ターゲット領域に対応する少なくとも一つの領域をクロップして、前記第2テスト用加工イメージを生成し得る。また、前記イメージ加工ネットワーク211は、前記トレーニングイメージにおいて前記第1ターゲット領域に対応する少なくとも一つの領域をクロップして、前記クロップされたイメージをリサイズすることにより、前記第2テスト用加工イメージを生成し得る。この際、前記第2テスト用加工イメージのサイズが、前記第1テスト用ターゲット領域のサイズより大きくなるようにリサイズされ得る。このために、前記イメージ加工ネットワーク211は、前記クロップされたイメージを、前記テストイメージの前記イメージピラミッドの中の、前記第1テスト用加工イメージの次のイメージのサイズに対応するようにリサイズして、前記第2加工イメージを生成し得る。
次に、前記テスティング装置200は、前記生成された第2テスト用加工イメージを利用して前記のような過程を繰り返して前記テストイメージ上でのサイズが小さい物体、つまり、遠距離に位置する物体を効率的に検出できるようになる。
つまり、前記テスティング装置200は、kを2からnまで増加させながら、(i)前記ターゲット物体予測ネットワーク227をもって、第(k−1)テスト用加工イメージ上の一つ以上の第(k−1)テスト用物体プロポーザルを参照して、前記第(k−1)テスト用加工イメージ上で、少なくとも一つのテスト用ターゲット物体が位置するものと予測される領域に対応する第(k−1)テスト用ターゲット領域を探すようにし、(ii)前記テストイメージ、またはリサイズされたテストイメージ上で、前記第(k−1)テスト用ターゲット領域に対応する第kテスト用加工イメージが取得されると、前記コンボリューションレイヤ221をもって、前記テスト用第k加工イメージに前記コンボリューション演算を適用して第kテスト用特徴マップを出力するようにするプロセスを遂行するか、他の装置をもって遂行するように支援し得る。そして、前記テスティング装置200は、前記RPN222をもって、前記第kテスト用特徴マップを利用して、前記第kテスト用加工イメージ内に位置する前記第kテスト用物体それぞれに対応する前記第kテスト用物体プロポーザルを出力するようにし、前記プーリングレイヤ223をもって、前記第kテスト用特徴マップ上で、前記第kテスト用物体プロポーザルそれぞれに対応するそれぞれの領域に前記プーリング演算を適用して、少なくとも一つの第kテスト用プーリング済み特徴マップを出力するようにし得る。その後、前記テスティング装置200は、前記FCレイヤ224をもって、前記FC演算を前記第kテスト用プーリング済み特徴マップに適用して、前記第kテスト用物体に対応する第kテスト用物体検出情報を出力するようにし得る。
前記のような方法により、前記テストイメージ内に位置するサイズが様々な物体、特にサイズが小さく、遠距離に位置した前記第k物体を効率的に検出できるようになり、また、前記予測されたターゲット領域に対応する領域のみを利用することで演算量を減らし得、これによって前記CNNベースの前記物体検出の演算時間を減らし得るようになる。
また、前記では、前記テストイメージ上にターゲット物体が一つである場合を想定して説明したが、前記テストイメージ内にターゲット物体多数がある場合にも、前記のような方法により前記テストイメージ内での前記それぞれのターゲット物体に対応するそれぞれのターゲット領域を利用して前記それぞれのターゲット物体の検出が可能である。
物体検出器のパラメータを学習して、重要業績評価指標(KPI)のようなユーザ要求事項に適応可能なターゲット物体予測ネットワークが提供され得る。前記KPIによる解像度(resolution)や焦点距離(focal length)が変われば、物体の大きさもまた変わる。ユーザ最適化設計のための前記方法で、落下する、または、落下した物体のように、確実でない物体がより正確に検出され得、また前記物体の変動(fluctuation)も感知し得る。従って、前記方法は、軍事目的や遠距離にある物体検出のために有用に遂行され得る。
また、以上で説明された本発明に係る実施例は、多様なコンピュータ構成要素を通じて遂行できるプログラム命令語の形態で実装されてコンピュータ読み取り可能な記録媒体に記録され得る。前記コンピュータで判読可能な記録媒体はプログラム命令語、データファイル、データ構造などを単独でまたは組み合わせて含まれ得る。前記コンピュータ判読可能な記録媒体に記録されるプログラム命令語は、本発明のために特別に設計されて構成されたものか、コンピュータソフトウェア分野の当業者に公知となって使用可能なものでもよい。コンピュータで判読可能な記録媒体の例には、ハードディスク、フロッピィディスク及び磁気テープのような磁気媒体、CD−ROM、DVDのような光記録媒体、フロプティカルディスク(flopticaldisk)のような磁気−光媒体(magneto−opticalmedia)、およびROM、RAM、フラッシュメモリなどといったプログラム命令語を格納して遂行するように特別に構成されたハードウェア装置が含まれる。プログラム命令語の例には、コンパイラによって作られるもののような機械語コードだけでなく、インタプリタなどを用いてコンピュータによって実行され得る高級言語コードも含まれる。前記ハードウェア装置は、本発明に係る処理を遂行するために一つ以上のソフトウェアモジュールとして作動するように構成され得、その逆も同様である。
以上、本発明が具体的な構成要素などのような特定事項と限定された実施例及び図面によって説明されたが、これは本発明のより全般的な理解を助けるために提供されたものであるに過ぎず、本発明が前記実施例に限られるものではなく、本発明が属する技術分野において通常の知識を有する者であれば係る記載から多様な修正及び変形が行われ得る。
従って、本発明の思想は前記説明された実施例に局限されて定められてはならず、後述する特許請求の範囲だけでなく、本特許請求の範囲と均等または等価的に変形されたものすべては、本発明の思想の範囲に属するといえる。

Claims (28)

  1. ターゲット物体予測ネットワークを用いた物体検出器のパラメータの学習方法において、
    (a)少なくとも一つのトレーニングイメージが取得されると、学習装置が、(i)一つ以上のコンボリューションレイヤをもって、前記トレーニングイメージに対応する少なくとも一つの第1加工イメージに一つ以上のコンボリューション演算を適用して、少なくとも一つの第1特徴マップを出力するようにし、(ii)RPN(Region Proposal Network)をもって、前記第1特徴マップを利用して、前記第1加工イメージ内に位置する一つ以上の第1物体それぞれに対応する一つ以上の第1物体プロポーザルを出力するようにし、(iii)プーリングレイヤをもって、前記第1特徴マップ上で、前記第1物体プロポーザルそれぞれに対応するそれぞれの領域に一つ以上のプーリング演算を適用して、少なくとも一つの第1プーリング済み特徴マップを出力するようにし、(iv)FC(Fully Connected)レイヤをもって、前記第1プーリング済み特徴マップに少なくとも一つのFC演算を適用して、前記第1物体に対応する第1物体検出情報を出力するようにし、(v)FCロスレイヤをもって、前記第1物体検出情報と、これに対応するGTとを参照して一つ以上の第1FCロスを取得するようにすることで、前記第1FCロスを利用したバックプロパゲーションによって、前記FCレイヤ及び前記コンボリューションレイヤのパラメータの中の少なくとも一部を学習する段階;
    及び
    (b)kを2からnまで増加させながら、前記学習装置が、(i)前記ターゲット物体予測ネットワークをもって、第(k−1)加工イメージ上の一つ以上の第(k−1)物体プロポーザルを参照して、前記第(k−1)加工イメージ上で、少なくとも一つのターゲット物体が位置するものと予測される領域に対応する第(k−1)ターゲット領域を探すようにし、(ii)前記トレーニングイメージ、またはリサイズされたトレーニングイメージ上で、前記第(k−1)ターゲット領域に対応する第k加工イメージが取得されると、前記コンボリューションレイヤをもって、前記第k加工イメージに前記コンボリューション演算を適用して第k特徴マップを出力するようにし、(iii)前記RPNをもって、前記第k特徴マップを参照して、前記第k加工イメージ内に位置する一つ以上の第k物体それぞれに対応する一つ以上の第k物体プロポーザルを出力するようにし、(iv)前記プーリングレイヤをもって、前記第k特徴マップ上で、前記第k物体プロポーザルそれぞれに対応するそれぞれの領域に前記プーリング演算を適用して、少なくとも一つの第kプーリング済み特徴マップを出力するようにし、(v)前記FCレイヤをもって、前記FC演算を前記第kプーリング済み特徴マップに適用して、前記第k物体に対応する第k物体検出情報を出力するようにし、(vi)前記FCロスレイヤをもって、前記第k物体検出情報と、これに対応するGTとを参照して一つ以上の第kFCロスを取得するようにすることで、前記第kFCロスを利用したバックプロパゲーションによって、前記FCレイヤ及び前記コンボリューションレイヤのパラメータの中の少なくとも一部を学習する段階;
    を含むことを特徴とする方法。
  2. 前記(a)段階で、
    前記学習装置は、RPNロスレイヤをもって、前記第1物体プロポーザルの情報と、これに対応するGTとを参照して一つ以上の第1RPNロスを取得するようにすることで、前記第1RPNロスを利用したバックプロパゲーションによって前記RPNのパラメータの中の少なくとも一部を調整するようにし、
    前記(b)段階で、
    前記学習装置は、前記RPNロスレイヤをもって、前記第k物体プロポーザル情報と、これに対応するGTとを参照して一つ以上の第kRPNロスを取得するようにすることで、前記第kRPNロスを利用したバックプロパゲーションによって前記RPNのパラメータの中の少なくとも一部を調整することを特徴とする請求項1に記載の方法。
  3. 前記(b)段階で、
    前記学習装置は、前記ターゲット物体予測ネットワークをもって、(i)前記第(k−1)加工イメージをMxNグリッドで区分するようにし、(ii)前記第(k−1)物体プロポーザルの中で、前記グリッドの各セルごとにそれぞれに対応するプロポーザルの個数を示す少なくとも一つ以上のヒストグラムを生成するようにし、前記グリッドの各セル内にそれに対応する前記プロポーザルそれぞれの全体領域または分割の領域が存在し、(iii)ムービングウィンドウの中の少なくとも一つの領域を利用して、前記第(k−1)ターゲット領域を決定するようにし、前記少なくとも一つの領域は、前記ムービングウィンドウの位置を変更して占有されるすべての領域の中で、前記ヒストグラムの合計が最も大きい値を有する領域であることを特徴とする請求項1に記載の方法。
  4. 前記(b)段階で、
    前記学習装置は、前記トレーニングイメージのサイズを前記第1加工イメージのサイズより大きいサイズに拡大して、前記リサイズされたトレーニングイメージを生成した後、前記リサイズされたトレーニングイメージ上で、前記第(k−1)ターゲット領域に対応する少なくとも一つの領域をクロップ(crop)して、前記第k加工イメージを生成することを特徴とする請求項1に記載の方法。
  5. 前記(b)段階で、
    前記学習装置は、前記トレーニングイメージ上で、前記第(k−1)ターゲット領域に対応する少なくとも一つの領域をクロップし、前記クロップされた領域をリサイズして、前記第k加工イメージを生成することを特徴とする請求項1に記載の方法。
  6. 前記第k加工イメージのサイズが、前記第(k−1)ターゲット領域のサイズより大きくなるように前記第k加工イメージをリサイズすることを特徴とする請求項5に記載の方法。
  7. 前記第1加工イメージないし第n加工イメージのサイズが、同一の大きさを有することを特徴とする請求項1に記載の方法。
  8. ターゲット物体予測ネットワークを用いた物体検出器のテスト方法において、
    (a)学習装置が、(1−1)一つ以上のコンボリューションレイヤをもって、少なくとも一つのトレーニングイメージに対応する少なくとも一つの第1学習用加工イメージに一つ以上のコンボリューション演算を適用して、少なくとも一つの第1学習用特徴マップを出力するようにし、(1−2)RPNをもって、前記第1学習用特徴マップを利用して、前記第1学習用加工イメージ内に位置する一つ以上の第1学習用物体それぞれに対応する一つ以上の第1学習用物体プロポーザルを出力するようにし、(1−3)プーリングレイヤをもって、前記第1学習用特徴マップ上で、前記第1学習用物体プロポーザルそれぞれに対応するそれぞれの領域に一つ以上のプーリング演算を適用して、少なくとも一つの第1学習用プーリング済み特徴マップを出力するようにし、(1−4)FCレイヤをもって、前記第1学習用プーリング済み特徴マップに少なくとも一つのFC演算を適用して、前記第1学習用物体に対応する第1学習用物体検出情報を出力するようにし、(1−5)FCロスレイヤをもって、前記第1学習用物体検出情報と、これに対応するGTとを参照して一つ以上の第1FCロスを取得するようにすることで、前記第1FCロスを利用したバックプロパゲーションによって、前記FCレイヤ及び前記コンボリューションレイヤのパラメータの中の少なくとも一部を学習するようにし、kを2からnまで増加させながら、(2−1)前記ターゲット物体予測ネットワークをもって、第(k−1)学習用加工イメージ上の一つ以上の第(k−1)学習用物体プロポーザルを参照して、前記第(k−1)学習用加工イメージ上で、少なくとも一つの学習用ターゲット物体が位置するものと予測される領域に対応する第(k−1)学習用ターゲット領域を探すようにし、(2−2)前記トレーニングイメージ、またはリサイズされたトレーニングイメージ上で、前記第(k−1)学習用ターゲット領域に対応する第k学習用加工イメージが取得されると、前記コンボリューションレイヤをもって、前記第k学習用加工イメージに前記コンボリューション演算を適用して第k学習用特徴マップを出力するようにし、(2−3)前記RPNをもって、前記第k学習用特徴マップを利用して、前記第k学習用加工イメージ内に位置する一つ以上の第k学習用物体それぞれに対応する一つ以上の第k学習用物体プロポーザルを出力するようにし、(2−4)前記プーリングレイヤをもって、前記第k学習用特徴マップ上で、前記第k学習用物体プロポーザルそれぞれに対応するそれぞれの領域に前記プーリング演算を適用して、少なくとも一つの第k学習用プーリング済み特徴マップを出力するようにし、(2−5)前記FCレイヤをもって、前記FC演算を前記第k学習用プーリング済み特徴マップに適用して、前記第k学習用物体に対応する第k学習用物体検出情報を出力するようにし、(2−6)前記FCロスレイヤをもって、前記第k学習用物体検出情報と、これに対応するGTとを参照して一つ以上の第kFCロスを取得するようにすることで、前記第kFCロスを利用したバックプロパゲーションによって、前記FCレイヤ及び前記コンボリューションレイヤのパラメータの中の少なくとも一部を学習した状態で、少なくとも一つのテストイメージが取得されると、テスティング装置が、(i)前記コンボリューションレイヤをもって、前記テストイメージに対応する少なくとも一つの第1テスト用加工イメージに前記コンボリューション演算を適用して、少なくとも一つの第1テスト用特徴マップを出力するようにし、(ii)前記RPNをもって、前記第1テスト用特徴マップを利用して、前記第1テスト用加工イメージ内に位置する一つ以上の第1テスト用物体それぞれに対応する一つ以上の第1テスト用物体プロポーザルを出力するようにし、(iii)前記プーリングレイヤをもって、前記第1テスト用特徴マップ上で、前記第1テスト用物体プロポーザルそれぞれに対応するそれぞれの領域に前記プーリング演算を適用して、少なくとも一つの第1テスト用プーリング済み特徴マップを出力するようにし、(iv)前記FCレイヤをもって、前記第1テスト用プーリング済み特徴マップに前記FC演算を適用して、前記第1テスト用物体に対応する第1テスト用物体検出情報を出力するようにする段階;及び
    (b)kを2からnまで増加させながら、前記テスティング装置が、(i)前記ターゲット物体予測ネットワークをもって、第(k−1)テスト用加工イメージ上の一つ以上の第(k−1)テスト用物体プロポーザルを参照して、前記第(k−1)テスト用加工イメージ上で、少なくとも一つのテスト用ターゲット物体が位置するものと予測される領域に対応する第(k−1)テスト用ターゲット領域を探すようにし、(ii)前記テストイメージ、またはリサイズされたテストイメージ上で、前記第(k−1)テスト用ターゲット領域に対応する第kテスト用加工イメージが取得されると、前記コンボリューションレイヤをもって、前記第kテスト用加工イメージに前記コンボリューション演算を適用して第kテスト用特徴マップを出力するようにし、(iii)前記RPNをもって、前記第kテスト用特徴マップを参照して、前記第kテスト用加工イメージ内に位置する一つ以上の第kテスト用物体それぞれに対応する一つ以上の第kテスト用物体プロポーザルを出力するようにし、(iv)前記プーリングレイヤをもって、前記第kテスト用特徴マップ上で、前記第kテスト用物体プロポーザルそれぞれに対応するそれぞれの領域に前記プーリング演算を適用して、少なくとも一つの第kテスト用プーリング済み特徴マップを出力するようにし、(v)前記FCレイヤをもって、前記FC演算を前記第kテスト用プーリング済み特徴マップに適用して、前記第kテスト用物体に対応する第kテスト用物体検出情報を出力するようにする段階;
    を含むことを特徴とする方法。
  9. 前記学習装置は、RPNロスレイヤをもって、前記第1学習用物体プロポーザル情報と、これに対応するGTとを参照して一つ以上の第1RPNロスを取得するようにすることで、前記第1RPNロスを利用したバックプロパゲーションによって前記RPNのパラメータの中の少なくとも一部を調整するようにし、
    前記学習装置は、前記RPNロスレイヤをもって、前記第k学習用物体プロポーザル情報と、これに対応するGTとを参照して一つ以上の第kRPNロスを取得するようにすることで、前記第kRPNロスを利用したバックプロパゲーションによって前記RPNのパラメータの中の少なくとも一部を調整することを特徴とする請求項8に記載の方法。
  10. 前記(b)段階で、
    前記テスティング装置は、前記ターゲット物体予測ネットワークをもって、(i)前記第(k−1)テスト用加工イメージをMxNグリッドで区分するようにし、(ii)前記第(k−1)テスト用物体プロポーザルの中で、前記グリッドの各セルごとにそれぞれに対応するテスト用プロポーザルの個数を示す少なくとも一つ以上のテスト用ヒストグラムを生成するようにし、前記グリッドの各セル内にそれに対応する前記テスト用プロポーザルそれぞれの全体領域または分割の領域が存在し、(iii)ムービングウィンドウの中の少なくとも一つの領域を利用して前記第(k−1)テスト用ターゲット領域を決定するようにし、前記少なくとも一つの領域は、前記ムービングウィンドウの位置を変更して占有されるすべての領域の中で、前記テスト用ヒストグラムの合計が最も大きい値を有する領域であることを特徴とする請求項8に記載の方法。
  11. 前記(b)段階で、
    前記テスティング装置は、前記テストイメージのサイズを前記第1テスト用加工イメージのサイズより大きいサイズに拡大して、前記リサイズされたテストイメージを生成した後、前記リサイズされたテストイメージ上で、前記第(k−1)テスト用ターゲット領域に対応する少なくとも一つの領域をクロップして、前記第kテスト用加工イメージを生成することを特徴とする請求項8に記載の方法。
  12. 前記(b)段階で、
    前記テスティング装置は、前記テストイメージ上で、前記第(k−1)テスト用ターゲット領域に対応する少なくとも一つの領域をクロップし、前記クロップされた領域をリサイズして、前記第kテスト用加工イメージを生成することを特徴とする請求項8に記載の方法。
  13. 前記第kテスト用加工イメージのサイズが、前記第(k−1)テスト用ターゲット領域のサイズより大きくなるように前記第kテスト用加工イメージをリサイズすることを特徴とする請求項12に記載の方法。
  14. 前記第1テスト用加工イメージないし第nテスト用加工イメージのサイズが同一の大きさを有することを特徴とする請求項8に記載の方法。
  15. ターゲット物体予測ネットワークを用いた物体検出器のパラメータの学習するための学習装置において、
    各インストラクションを格納する少なくとも一つのメモリ;及び
    (I)(i)一つ以上のコンボリューションレイヤをもって、少なくとも一つのトレーニングイメージに対応する少なくとも一つの第1加工イメージに一つ以上のコンボリューション演算を適用して、少なくとも一つの第1特徴マップを出力するようにし、(ii)RPN(Region Proposal Network)をもって、前記第1特徴マップを利用して、前記第1加工イメージ内に位置する一つ以上の第1物体それぞれに対応する一つ以上の第1物体プロポーザルを出力するようにし、(iii)プーリングレイヤをもって、前記第1特徴マップ上で、前記第1物体プロポーザルそれぞれに対応するそれぞれの領域に一つ以上のプーリング演算を適用して、少なくとも一つの第1プーリング済み特徴マップを出力するようにし、(iv)FC(Fully Connected)レイヤをもって、前記第1プーリング済み特徴マップに少なくとも一つのFC演算を適用して、前記第1物体に対応する第1物体検出情報を出力するようにし、(v)FCロスレイヤをもって、前記第1物体検出情報と、これに対応するGTとを参照して一つ以上の第1FCロスを取得するようにすることで、前記第1FCロスを利用したバックプロパゲーションによって、前記FCレイヤ及び前記コンボリューションレイヤのパラメータの中の少なくとも一部を学習するプロセス、及び(II)kを2からnまで増加させながら、(i)前記ターゲット物体予測ネットワークをもって、第(k−1)加工イメージ上の一つ以上の第(k−1)物体プロポーザルを参照して、前記第(k−1)加工イメージ上で、少なくとも一つのターゲット物体が位置するものと予測される領域に対応する第(k−1)ターゲット領域を探すようにし、(ii)前記トレーニングイメージ、またはリサイズされたトレーニングイメージ上で、前記第(k−1)ターゲット領域に対応する第k加工イメージが取得されると、前記コンボリューションレイヤをもって、前記第k加工イメージに前記コンボリューション演算を適用して第k特徴マップを出力するようにし、(iii)前記RPNをもって、前記第k特徴マップを参照して、前記第k加工イメージ内に位置する一つ以上の第k物体それぞれに対応する一つ以上の第k物体プロポーザルを出力するようにし、(iv)プーリングレイヤをもって、前記第k特徴マップ上で、前記第k物体プロポーザルそれぞれに対応するそれぞれの領域に前記プーリング演算を適用して、少なくとも一つの第kプーリング済み特徴マップを出力するようにし、(v)前記FCレイヤをもって、前記FC演算を前記第kプーリング済み特徴マップに適用して、前記第k物体に対応する第k物体検出情報を出力するようにし、(vi)前記FCロスレイヤをもって、前記第k物体検出情報と、これに対応するGTとを参照して一つ以上の第kFCロスを取得するようにすることで、前記第kFCロスを利用したバックプロパゲーションによって、前記FCレイヤ及び前記コンボリューションレイヤのパラメータの中の少なくとも一部を学習するプロセスを遂行するための、前記インストラクションを実行するように構成された少なくとも一つのプロセッサ;
    を含むことを特徴とする学習装置。
  16. 前記(I)プロセスで、
    前記プロセッサは、RPNロスレイヤをもって、前記第1物体プロポーザル情報と、これに対応するGTとを参照して一つ以上の第1RPNロスを取得するようにすることで、前記第1RPNロスを利用したバックプロパゲーションによって前記RPNのパラメータの中の少なくとも一部を調整するようにし、
    前記(II)プロセスで、
    前記プロセッサは、前記RPNロスレイヤをもって、前記第k物体プロポーザル情報と、これに対応するGTとを参照して一つ以上の第kRPNロスを取得するようにすることで、前記第kRPNロスを利用したバックプロパゲーションによって前記RPNのパラメータの中の少なくとも一部を調整することを特徴とする請求項15に記載の学習装置。
  17. 前記(II)プロセスで、
    前記プロセッサは、前記ターゲット物体予測ネットワークをもって、(i)前記第(k−1)加工イメージをMxNグリッドで区分するようにし、(ii)前記第(k−1)物体プロポーザルの中で、前記グリッドの各セルごとにそれぞれに対応するプロポーザルの個数を示す少なくとも一つ以上のヒストグラムを生成するようにし、前記グリッドの各セル内にそれに対応する前記プロポーザルそれぞれの全体領域または分割の領域が存在し、(iii)ムービングウィンドウの中の少なくとも一つの領域を利用して、前記第(k−1)ターゲット領域を決定するようにし、前記少なくとも一つの領域は、前記ムービングウィンドウの位置を変更して占有されるすべての領域の中で、前記ヒストグラムの合計が最も大きい値を有する領域であることを特徴とする請求項15に記載の学習装置。
  18. 前記(II)プロセスで、
    前記プロセッサは、前記トレーニングイメージのサイズを前記第1加工イメージのサイズより大きいサイズに拡大して、前記リサイズされたトレーニングイメージを生成した後、前記リサイズされたトレーニングイメージ上で、前記第(k−1)ターゲット領域に対応する少なくとも一つの領域をクロップして、前記第k加工イメージを生成することを特徴とする請求項15に記載の学習装置。
  19. 前記(II)プロセスで、
    前記プロセッサは、前記トレーニングイメージ上で、前記第(k−1)ターゲット領域に対応する少なくとも一つの領域をクロップし、前記クロップされた領域をリサイズして、前記第k加工イメージを生成することを特徴とする請求項15に記載の学習装置。
  20. 前記第k加工イメージのサイズが、前記第(k−1)ターゲット領域のサイズより大きくなるように前記第k加工イメージをリサイズすることを特徴とする請求項19に記載の学習装置。
  21. 前記第1加工イメージないし第n加工イメージのサイズが同一の大きさを有することを特徴とする請求項15に記載の学習装置。
  22. ターゲット物体予測ネットワークを用いた物体検出器をテストするためのテスティング装置において、
    各インストラクションを格納する少なくとも一つのメモリ;及び
    学習装置が、(1−1)一つ以上のコンボリューションレイヤをもって、少なくとも一つのトレーニングイメージに対応する少なくとも一つの第1学習用加工イメージに一つ以上のコンボリューション演算を適用して、少なくとも一つの第1学習用特徴マップを出力するようにし、(1−2)RPNをもって、前記第1学習用特徴マップを利用して、前記第1学習用加工イメージ内に位置する一つ以上の第1学習用物体それぞれに対応する一つ以上の第1学習用物体プロポーザルを出力するようにし、(1−3)プーリングレイヤをもって、前記第1学習用特徴マップ上で、前記第1学習用物体プロポーザルそれぞれに対応するそれぞれの領域に一つ以上のプーリング演算を適用して、少なくとも一つの第1学習用プーリング済み特徴マップを出力するようにし、(1−4)FCレイヤをもって、前記第1学習用プーリング済み特徴マップに少なくとも一つのFC演算を適用して、前記第1学習用物体に対応する第1学習用物体検出情報を出力するようにし、(1−5)FCロスレイヤをもって、前記第1学習用物体検出情報と、これに対応するGTとを参照して一つ以上の第1FCロスを取得するようにすることで、前記第1FCロスを利用したバックプロパゲーションによって、前記FCレイヤ及び前記コンボリューションレイヤのパラメータの中の少なくとも一部を学習するようにし、kを2からnまで増加させながら、(2−1)前記ターゲット物体予測ネットワークをもって、第(k−1)学習用加工イメージ上の一つ以上の第(k−1)学習用物体プロポーザルを参照して、前記第(k−1)学習用加工イメージ上で、少なくとも一つの学習用ターゲット物体が位置するものと予測される領域に対応する第(k−1)学習用ターゲット領域を探すようにし、(2−2)前記トレーニングイメージ、またはリサイズされたトレーニングイメージ上で、前記第(k−1)学習用ターゲット領域に対応する第k学習用加工イメージが取得されると、前記コンボリューションレイヤをもって、前記第k学習用加工イメージに前記コンボリューション演算を適用して第k学習用特徴マップを出力するようにし、(2−3)前記RPNをもって、前記第k学習用特徴マップを利用して、前記第k学習用加工イメージ内に位置する一つ以上の第k学習用物体それぞれに対応する一つ以上の第k学習用物体プロポーザルを出力するようにし、(2−4)前記プーリングレイヤをもって、前記第k学習用特徴マップ上で、前記第k学習用物体プロポーザルそれぞれに対応するそれぞれの領域に前記プーリング演算を適用して、少なくとも一つの第k学習用プーリング済み特徴マップを出力するようにし、(2−5)前記FCレイヤをもって、前記FC演算を前記第k学習用プーリング済み特徴マップに適用して、前記第k学習用物体に対応する第k学習用物体検出情報を出力するようにし、(2−6)前記FCロスレイヤをもって、前記第k学習用物体検出情報と、これに対応するGTとを参照して一つ以上の第kFCロスを取得するようにすることで、前記第kFCロスを利用したバックプロパゲーションによって、前記FCレイヤ及び前記コンボリューションレイヤのパラメータの中の少なくとも一部を学習した状態で、(I)(i)前記コンボリューションレイヤをもって、テストイメージに対応する少なくとも一つの第1テスト用加工イメージに前記コンボリューション演算を適用して、少なくとも一つの第1テスト用特徴マップを出力するようにし、(ii)前記RPNをもって、前記第1テスト用特徴マップを利用して、前記第1テスト用加工イメージ内に位置する一つ以上の第1テスト用物体それぞれに対応する一つ以上の第1テスト用物体プロポーザルを出力するようにし、(iii)前記プーリングレイヤをもって、前記第1テスト用特徴マップ上で、前記第1テスト用物体プロポーザルそれぞれに対応するそれぞれの領域に前記プーリング演算を適用して、少なくとも一つの第1テスト用プーリング済み特徴マップを出力するようにし、(iv)前記FCレイヤをもって、前記第1テスト用プーリング済み特徴マップに前記FC演算を適用して、前記第1テスト用物体に対応する第1テスト用物体検出情報を出力するようにするプロセス、及び(II)kを2からnまで増加させながら、(i)前記ターゲット物体予測ネットワークをもって、第(k−1)テスト用加工イメージ上の一つ以上の第(k−1)テスト用物体プロポーザルを参照して、前記第(k−1)テスト用加工イメージ上で、少なくとも一つのテスト用ターゲット物体が位置するものと予測される領域に対応する第(k−1)テスト用ターゲット領域を探すようにし、(ii)前記テストイメージ、またはリサイズされたテストイメージ上で、前記第(k−1)テスト用ターゲット領域に対応する第kテスト用加工イメージが取得されると、前記コンボリューションレイヤをもって、前記第kテスト用加工イメージに前記コンボリューション演算を適用して第kテスト用特徴マップを出力するようにし、(iii)前記RPNをもって、前記第kテスト用特徴マップを参照して、前記第kテスト用加工イメージ内に位置する一つ以上の第kテスト用物体それぞれに対応する一つ以上の第kテスト用物体プロポーザルを出力するようにし、(iv)前記プーリングレイヤをもって、前記第kテスト用特徴マップ上で、前記第kテスト用物体プロポーザルそれぞれに対応するそれぞれの領域に前記プーリング演算を適用して、少なくとも一つの第kテスト用プーリング済み特徴マップを出力するようにし、(v)前記FCレイヤをもって、前記FC演算を前記第kテスト用プーリング済み特徴マップに適用して、前記第kテスト用物体に対応する第kテスト用物体検出情報を出力するようにするプロセスを遂行するための、前記インストラクションを実行するように構成された少なくとも一つのプロセッサ;
    を含むことを特徴とするテスティング装置。
  23. 前記学習装置は、RPNロスレイヤをもって、前記第1学習用物体プロポーザル情報と、これに対応するGTとを参照して一つ以上の第1RPNロスを取得するようにすることで、前記第1RPNロスを利用したバックプロパゲーションによって前記RPNのパラメータの中の少なくとも一部を調整するようにし、
    前記学習装置は、前記RPNロスレイヤをもって、前記第k学習用物体プロポーザル情報と、これに対応するGTとを参照して一つ以上の第kRPNロスを取得するようにすることで、前記第kRPNロスを利用したバックプロパゲーションによって前記RPNのパラメータの中の少なくとも一部を調整することを特徴とする請求項22に記載のテスティング装置。
  24. 前記(II)プロセスで、
    前記プロセッサは、前記ターゲット物体予測ネットワークをもって、(i)前記第(k−1)テスト用加工イメージをMxNグリッドで区分するようにし、(ii)前記第(k−1)テスト用物体プロポーザルの中で、前記グリッドの各セルごとにそれぞれに対応するテスト用プロポーザルの個数を示す少なくとも一つ以上のテスト用ヒストグラムを生成するようにし、前記グリッドの各セル内にそれに対応する前記テスト用プロポーザルそれぞれの全体領域または分割の領域が存在し、(iii)ムービングウィンドウの中の少なくとも一つの領域を利用して、前記第(k−1)テスト用ターゲット領域を決定するようにし、前記少なくとも一つの領域は、前記ムービングウィンドウの位置を変更して占有されるすべての領域の中で、前記テスト用ヒストグラムの合計が最も大きい値を有する領域であることを特徴とする請求項22に記載のテスティング装置。
  25. 前記(II)プロセスで、
    前記プロセッサは、前記テストイメージのサイズを前記第1テスト用加工イメージのサイズより大きいサイズに拡大して、前記リサイズされたテストイメージを生成した後、前記リサイズされたテストイメージ上で、前記第(k−1)テスト用ターゲット領域に対応する少なくとも一つの領域をクロップして、前記第kテスト用加工イメージを生成することを特徴とする請求項22に記載のテスティング装置。
  26. 前記(II)プロセスで、
    前記プロセッサは、前記テストイメージ上で、前記第(k−1)テスト用ターゲット領域に対応する少なくとも一つの領域をクロップし、前記クロップされた領域をリサイズして、前記第kテスト用加工イメージを生成することを特徴とする請求項22に記載のテスティング装置。
  27. 前記第kテスト用加工イメージのサイズが、前記第(k−1)テスト用ターゲット領域のサイズより大きくなるように前記第kテスト用加工イメージをリサイズすることを特徴とする請求項26に記載のテスティング装置。
  28. 前記第1テスト用加工イメージないし第nテスト用加工イメージのサイズが、同一の大きさを有することを特徴とする請求項22に記載のテスティング装置。
JP2020001648A 2019-01-22 2020-01-08 重要業績評価指標のようなユーザ要求事項に適したターゲット物体予測ネットワークを用いた、cnn基盤の変動に強い物体検出器を学習する方法及び学習装置、並びにこれを利用したテスティング方法及びテスティング装置 Active JP6850046B2 (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US16/254,162 2019-01-22
US16/254,162 US10402692B1 (en) 2019-01-22 2019-01-22 Learning method and learning device for fluctuation-robust object detector based on CNN using target object estimating network adaptable to customers' requirements such as key performance index, and testing device using the same

Publications (2)

Publication Number Publication Date
JP2020119530A JP2020119530A (ja) 2020-08-06
JP6850046B2 true JP6850046B2 (ja) 2021-03-31

Family

ID=67770001

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2020001648A Active JP6850046B2 (ja) 2019-01-22 2020-01-08 重要業績評価指標のようなユーザ要求事項に適したターゲット物体予測ネットワークを用いた、cnn基盤の変動に強い物体検出器を学習する方法及び学習装置、並びにこれを利用したテスティング方法及びテスティング装置

Country Status (5)

Country Link
US (1) US10402692B1 (ja)
EP (1) EP3686785A1 (ja)
JP (1) JP6850046B2 (ja)
KR (1) KR102246368B1 (ja)
CN (1) CN111461161B (ja)

Families Citing this family (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10572770B2 (en) * 2018-06-15 2020-02-25 Intel Corporation Tangent convolution for 3D data
CN110910415A (zh) * 2019-11-28 2020-03-24 重庆中星微人工智能芯片技术有限公司 抛物检测方法、装置、服务器和计算机可读介质
CN111488711A (zh) * 2020-04-08 2020-08-04 暨南大学 一种网络鲁棒性评估方法及系统
CN111509810A (zh) * 2020-05-18 2020-08-07 广东电网有限责任公司东莞供电局 一种锂电池充电状态检测方法、装置及存储介质
CN112346056B (zh) * 2021-01-11 2021-03-26 长沙理工大学 多脉冲雷达信号的分辨性特征融合提取方法及识别方法
CN112801706B (zh) * 2021-02-04 2024-02-02 北京云上曲率科技有限公司 一种游戏用户行为数据挖掘方法及系统
US11961314B2 (en) 2021-02-16 2024-04-16 Nxp B.V. Method for analyzing an output of an object detector
US11688112B2 (en) 2021-05-07 2023-06-27 Nxp B.V. Method for generating detailed visualization of machine learning model behavior

Family Cites Families (23)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9418319B2 (en) * 2014-11-21 2016-08-16 Adobe Systems Incorporated Object detection using cascaded convolutional neural networks
US10410096B2 (en) * 2015-07-09 2019-09-10 Qualcomm Incorporated Context-based priors for object detection in images
US9965719B2 (en) * 2015-11-04 2018-05-08 Nec Corporation Subcategory-aware convolutional neural networks for object detection
US20170124409A1 (en) * 2015-11-04 2017-05-04 Nec Laboratories America, Inc. Cascaded neural network with scale dependent pooling for object detection
US10002313B2 (en) * 2015-12-15 2018-06-19 Sighthound, Inc. Deeply learned convolutional neural networks (CNNS) for object localization and classification
US9858496B2 (en) * 2016-01-20 2018-01-02 Microsoft Technology Licensing, Llc Object detection and classification in images
WO2017139927A1 (en) * 2016-02-17 2017-08-24 Intel Corporation Region proposal for image regions that include objects of interest using feature maps from multiple layers of a convolutional neural network model
US20180039853A1 (en) * 2016-08-02 2018-02-08 Mitsubishi Electric Research Laboratories, Inc. Object Detection System and Object Detection Method
US10354362B2 (en) * 2016-09-08 2019-07-16 Carnegie Mellon University Methods and software for detecting objects in images using a multiscale fast region-based convolutional neural network
US10387740B2 (en) * 2016-10-10 2019-08-20 Gyrfalcon Technology Inc. Object detection and recognition apparatus based on CNN based integrated circuits
US10198671B1 (en) * 2016-11-10 2019-02-05 Snap Inc. Dense captioning with joint interference and visual context
WO2018093796A1 (en) * 2016-11-15 2018-05-24 Magic Leap, Inc. Deep learning system for cuboid detection
US10657424B2 (en) * 2016-12-07 2020-05-19 Samsung Electronics Co., Ltd. Target detection method and apparatus
US20180211403A1 (en) * 2017-01-20 2018-07-26 Ford Global Technologies, Llc Recurrent Deep Convolutional Neural Network For Object Detection
JP6787196B2 (ja) * 2017-03-09 2020-11-18 コニカミノルタ株式会社 画像認識装置及び画像認識方法
US11042782B2 (en) * 2017-03-20 2021-06-22 Intel Corporation Topic-guided model for image captioning system
US10474908B2 (en) * 2017-07-06 2019-11-12 GM Global Technology Operations LLC Unified deep convolutional neural net for free-space estimation, object detection and object pose estimation
JP7149692B2 (ja) * 2017-08-09 2022-10-07 キヤノン株式会社 画像処理装置、画像処理方法
US10169679B1 (en) * 2017-10-13 2019-01-01 StradVision, Inc. Learning method and learning device for adjusting parameters of CNN by using loss augmentation and testing method and testing device using the same
US10007865B1 (en) * 2017-10-16 2018-06-26 StradVision, Inc. Learning method and learning device for adjusting parameters of CNN by using multi-scale feature maps and testing method and testing device using the same
US10223614B1 (en) * 2018-09-04 2019-03-05 StradVision, Inc. Learning method, learning device for detecting lane through classification of lane candidate pixels and testing method, testing device using the same
US10229346B1 (en) * 2018-09-04 2019-03-12 StradVision, Inc. Learning method, learning device for detecting object using edge image and testing method, testing device using the same
CN109241982B (zh) * 2018-09-06 2021-01-29 广西师范大学 基于深浅层卷积神经网络的目标检测方法

Also Published As

Publication number Publication date
KR102246368B1 (ko) 2021-04-29
JP2020119530A (ja) 2020-08-06
EP3686785A1 (en) 2020-07-29
CN111461161A (zh) 2020-07-28
CN111461161B (zh) 2024-03-15
KR20200091323A (ko) 2020-07-30
US10402692B1 (en) 2019-09-03

Similar Documents

Publication Publication Date Title
JP6850046B2 (ja) 重要業績評価指標のようなユーザ要求事項に適したターゲット物体予測ネットワークを用いた、cnn基盤の変動に強い物体検出器を学習する方法及び学習装置、並びにこれを利用したテスティング方法及びテスティング装置
JP6857370B2 (ja) ターゲット物体予測ネットワーク及びターゲット物体統合ネットワークを利用して、重要業績評価指標のようなユーザー要求事項に係る最適化のための再構成可能なネットワーク基盤の物体検出器を学習する方法及び学習装置、並びにこれを利用したテスティング方法及びテスティング装置
JP6853560B2 (ja) 高精度イメージを分析するディープラーニングネットワークの学習に利用するためのトレーニングイメージをオートラベリングするための方法、及びこれを利用したオートラベリング装置{method for auto−labeling training images for use in deep learning network to analyze images with high precision, and auto−labeling device using the same}
JP6908944B2 (ja) 多重カメラまたはサラウンドビューモニタリングに利用されるために、ターゲット物体統合ネットワーク及びターゲット物体予測ネットワークを利用して、重要業績評価指標のようなユーザー要求事項に適用可能なcnn基盤の物体検出器を学習する方法及び学習装置、並びにこれを利用したテスティング方法及びテスティング装置
JP6908943B2 (ja) イメージコンカチネーションと、ターゲット物体予測ネットワークとを利用して、多重カメラ又はサラウンドビューモニタリングに利用される物体検出器を学習する方法及び学習装置、並びにこれを利用したテスティング方法及びテスティング装置
JP6846069B2 (ja) 遠距離検出または軍事目的のために、イメージコンカチネーションを利用したcnn基盤のハードウェア最適化が可能な物体検出器を学習する方法及び学習装置、それを利用したテスト方法及びテスト装置{learning method and learning device for object detector with hardware optimization based on cnn for detection at distance or military purpose using image concatenation, and testing method and testing device using the same}
JP6875021B2 (ja) 有用な学習データを取捨選別するためのcnn基盤の学習方法及び学習装置、そしてこれを利用したテスト方法及びテスト装置
CN111507150B (zh) 利用基于深度神经网络的多重图像块组合识别人脸的方法
US10410120B1 (en) Learning method and testing method of object detector to be used for surveillance based on R-CNN capable of converting modes according to aspect ratios or scales of objects, and learning device and testing device using the same
US10970598B1 (en) Learning method and learning device for training an object detection network by using attention maps and testing method and testing device using the same
US10387754B1 (en) Learning method and learning device for object detector based on CNN using 1×H convolution to be used for hardware optimization, and testing method and testing device using the same
JP6964353B2 (ja) ハードウェア最適化に使用されるイメージ認識のための1x1コンボリューションを利用したCNN学習方法及び学習装置、それを利用したテスト方法及びテスト装置{LEARNING METHOD AND LEARNING DEVICE FOR CONVOLUTIONAL NEURAL NETWORK USING 1×1 CONVOLUTION FOR IMAGE RECOGNITION TO BE USED FOR HARDWARE OPTIMIZATION, AND TESTING METHOD AND TESTING DEVICE USING THE SAME}
KR20200027889A (ko) CNN(Convolutional Neural Network)을 사용하여 차선을 검출하기 위한 학습 방법 및 학습 장치 그리고 이를 이용한 테스트 방법 및 테스트 장치
JP6892157B2 (ja) V2x情報融合技術によって取得された、各物体に対する深さ予測情報及び各物体に対するクラス情報を利用して3d空間を再構築することによりhdマップをアップデートする学習方法及び学習装置、そしてこれを利用したテスティング方法及びテスティング装置
US20200234135A1 (en) LEARNING METHOD AND LEARNING DEVICE FOR CNN USING 1xK OR Kx1 CONVOLUTION TO BE USED FOR HARDWARE OPTIMIZATION, AND TESTING METHOD AND TESTING DEVICE USING THE SAME
CN111488786A (zh) 基于cnn的监视用客体检测器的方法及装置
JP6840412B2 (ja) テストパターンを使用してコンボリューションパラメータの無欠性を検証する過程で所要されるコンピューティングリソースを節約し、極度の状況で欠陥許容能力及び揺れに強靭な性質を向上させる方法及び装置
KR102464358B1 (ko) 머신러닝에 기반하여 이미지에 대응되는 공간 정보를 추정하기 위한 방법 및 이를 이용한 공간 추정 장치
EP4064126B1 (en) Methods for training and testing perception network by using images obtained from multiple imaging devices having diverse specifications and learning device and testing device using the same

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20200108

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20210107

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20210119

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20210122

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20210209

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20210226

R150 Certificate of patent or registration of utility model

Ref document number: 6850046

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250