JP6846069B2 - 遠距離検出または軍事目的のために、イメージコンカチネーションを利用したcnn基盤のハードウェア最適化が可能な物体検出器を学習する方法及び学習装置、それを利用したテスト方法及びテスト装置{learning method and learning device for object detector with hardware optimization based on cnn for detection at distance or military purpose using image concatenation, and testing method and testing device using the same} - Google Patents

遠距離検出または軍事目的のために、イメージコンカチネーションを利用したcnn基盤のハードウェア最適化が可能な物体検出器を学習する方法及び学習装置、それを利用したテスト方法及びテスト装置{learning method and learning device for object detector with hardware optimization based on cnn for detection at distance or military purpose using image concatenation, and testing method and testing device using the same} Download PDF

Info

Publication number
JP6846069B2
JP6846069B2 JP2020002303A JP2020002303A JP6846069B2 JP 6846069 B2 JP6846069 B2 JP 6846069B2 JP 2020002303 A JP2020002303 A JP 2020002303A JP 2020002303 A JP2020002303 A JP 2020002303A JP 6846069 B2 JP6846069 B2 JP 6846069B2
Authority
JP
Japan
Prior art keywords
image
test
nth
learning
target
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2020002303A
Other languages
English (en)
Other versions
JP2020119540A (ja
Inventor
金桂賢
金鎔重
金寅洙
金鶴京
南雲鉉
夫碩▲くん▼
成明哲
呂東勳
柳宇宙
張泰雄
鄭景中
諸泓模
趙浩辰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Stradvision Inc
Original Assignee
Stradvision Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Stradvision Inc filed Critical Stradvision Inc
Publication of JP2020119540A publication Critical patent/JP2020119540A/ja
Application granted granted Critical
Publication of JP6846069B2 publication Critical patent/JP6846069B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/10Terrestrial scenes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • G06F18/2148Generating training patterns; Bootstrap methods, e.g. bagging or boosting characterised by the process organisation or structure, e.g. boosting cascade
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/217Validation; Performance evaluation; Active pattern learning techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2413Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on distances to training or reference patterns
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T3/00Geometric image transformations in the plane of the image
    • G06T3/40Scaling of whole images or parts thereof, e.g. expanding or contracting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T5/00Image enhancement or restoration
    • G06T5/40Image enhancement or restoration using histogram techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/10Segmentation; Edge detection
    • G06T7/11Region-based segmentation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/25Determination of region of interest [ROI] or a volume of interest [VOI]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/44Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
    • G06V10/443Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components by matching or filtering
    • G06V10/449Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters
    • G06V10/451Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters with interaction between the filter responses, e.g. cortical complex cells
    • G06V10/454Integrating the filters into a hierarchical structure, e.g. convolutional neural networks [CNN]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/764Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/774Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/50Context or environment of the image
    • G06V20/56Context or environment of the image exterior to a vehicle by using sensors mounted on the vehicle
    • G06V20/58Recognition of moving objects or obstacles, e.g. vehicles or pedestrians; Recognition of traffic objects, e.g. traffic signs, traffic lights or roads
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N7/00Computing arrangements based on specific mathematical models
    • G06N7/01Probabilistic graphical models, e.g. probabilistic networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V2201/00Indexing scheme relating to image or video recognition or understanding
    • G06V2201/07Target detection

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Data Mining & Analysis (AREA)
  • Software Systems (AREA)
  • Computing Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Multimedia (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • General Engineering & Computer Science (AREA)
  • Molecular Biology (AREA)
  • Biomedical Technology (AREA)
  • Mathematical Physics (AREA)
  • Computational Linguistics (AREA)
  • Biophysics (AREA)
  • Medical Informatics (AREA)
  • Databases & Information Systems (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Biodiversity & Conservation Biology (AREA)
  • Image Analysis (AREA)

Description

本発明は遠距離検出又は軍事目的のために、イメージコンカチネーション(Image concatenation)を利用したCNN基盤のハードウェア最適化が可能な物体検出器のパラメータを学習する方法に関し;より詳細には、(a)少なくとも一つのトレーニングイメージが入力されると、(i)ターゲット領域予測ネットワークをもって、前記トレーニングイメージまたはこれに対応する一つ以上のリサイズ済みイメージにおいて一つ以上のターゲット物体が位置するものと予測される領域に対応する第1ターゲット領域ないし第nターゲット領域それぞれを予測させ、(ii)イメージ加工ネットワークをもって、前記トレーニングイメージまたはこれに対応するリサイズ済みイメージから、前記第1ターゲット領域ないし前記第nターゲット領域それぞれに対応する第1加工イメージないし第n加工イメージを取得させ、(iii)前記第1加工イメージないし前記第n加工イメージをコンカチネートした統合トレーニングイメージを出力させる段階;(b)(i)一つ以上のコンボリューションレイヤをもって、一つ以上のコンボリューション演算を前記統合トレーニングイメージに適用することにより、少なくとも一つの統合特徴マップを出力させ、(ii)RPNをもって、前記統合特徴マップを利用して、前記第1加工イメージないし前記第n加工イメージそれぞれ内に位置する一つ以上の物体に対応する第1物体プロポーザルないし第n物体プロポーザルそれぞれを出力させ、(iii)プーリングレイヤをもって、前記統合特徴マップ上で、前記第1物体プロポーザルないし前記第n物体プロポーザルそれぞれに対応するそれぞれの領域に一つ以上のプーリング演算を適用して、少なくとも一つのプーリング済み統合特徴マップを出力させ、(iv)FCレイヤをもって、前記プーリング済み統合特徴マップに少なくとも一つのFC(fully connected)演算を適用して、前記物体に対応する第1物体検出情報ないし第n物体検出情報を出力させる段階;及び(c)少なくとも一つのFCロスレイヤをもって、前記第1物体検出情報ないし前記第n物体検出情報とこれに対応する原本正解(Ground Truth)とを参照して、一つ以上の第1FCロスないし一つ以上の第nFCロスを取得させることにより、前記第1FCロスないし前記第nFCロスを利用したバックプロパゲーションを通じて、前記FCレイヤ及び前記コンボリューションレイヤのパラメータのうち少なくとも一部を調整させる段階;を含むことを特徴とする方法及び学習装置、並びにこれを利用したテスト方法及びテスト装置に関する。
機械学習(machine learning)において、コンボリューションニューラルネットワーク(CNNまたはConvNet)は、視覚的イメージ分析に成功裏に適用された深層フィードフォワード人工ニューラルネットワーク(Deep feedforward artificial neural network)である。
CNN基盤物体検出器は、(i)一つ以上のコンボリューションレイヤをもって、入力イメージにコンボリューション演算を適用することにより、前記入力イメージに対応する特徴マップを出力し、(ii)RPN(Region Proposal Network)をもって、前記特徴マップを利用して、前記入力イメージ内の物体に対応するプロポーザルを確認し、(iii)プーリングレイヤをもって、前記確認されたプロポーザルに対応する前記特徴マップ上の領域に少なくとも一つ以上のプーリング演算を適用してプーリング済み特徴マップを取得し、(iv)FC(Fully Connected)レイヤをもって、少なくとも一つのFC演算を前記取得されたプーリング済み特徴マップないし前記物体に関する出力クラス情報とリグレッション情報とに適用することにより、前記入力イメージ上の前記物体を検出する。
しかしながら、前記CNN基盤物体検出器は、前記コンボリューションレイヤによって前記入力イメージのサイズを縮小したサイズの前記特徴マップを利用するようになるので、前記入力イメージに位置するサイズが大きい物体は容易に検出されるものの、前記入力イメージに位置するサイズが小さい物体を検出することは難しい。
すなわち、前記入力イメージ上で検出される対象としての一つ以上の物体に対応する多数のターゲット領域がある場合、一部ターゲット領域からはサイズのために所望の特徴が正確に抽出され得なくなり、それに伴って特定の物体は検出することができなくなる。
これらの問題を解決するために、前記入力イメージから得たイメージピラミッドのうちそれぞれのイメージ内に前記ターゲット領域それぞれをクロップして物体検出を遂行することができるものの、この場合には前記ターゲット領域に対応してクロップしたそれぞれのイメージに対して前記物体検出を遂行しなければならないため、演算量が増加し得る。
また、CNN演算は、迅速な演算のために一定の単位、一例として、32、64、128などの倍数でブロック演算を行うのにおいて、前記単位の倍数にならない幅や高さを有する入力のイメージが取得されると、前記単位の倍数にするために一つ以上のパディング領域を追加しなければならないが、これは前記CNN演算に負担となる。したがって、前記単位の倍数ではない幅や高さを有するクロップしたイメージが多くなると、前記CNN演算にさらに大きな負担として作用して前記CNNの演算速度は減少するようになる。
したがって、本発明の発明者は、前記入力イメージ上に位置する様々なサイズの物体に対応する前記ターゲット領域を利用して、前記CNNの演算時間を減らし、効果的に物体を検出することができる学習方法、学習装置及びそれを利用したテスト方法とテスト装置を提案することにする。
本発明は、上述した問題点を全て解決することをその目的とする。
本発明は、イメージ上に位置する物体をサイズに関係なしに効果的に検出することができるようにするCNN基盤の物体検出器を提供することを他の目的とする。
本発明は、演算量を増加させずに前記イメージ上の前記物体を検出することができるようにする、前記CNN基盤の前記物体検出器を提供することをまた他の目的とする。
本発明は、前記入力イメージ上の様々なサイズの前記物体に対応するターゲット領域を利用して、前記CNNの演算時間を減らし、効果的に前記物体を検出することができるようにする前記CNN基盤の前記物体検出器を提供することを他の目的とする。
前記のような本発明の目的を達成し、後述する本発明の特徴的な効果を実現するための本発明の特徴的な構成は以下の通りである。
本発明の一態様によると、イメージコンカチネーション(Image concatenation)を利用した、CNN基盤物体検出器のパラメータを学習する方法において、(a)少なくとも一つのトレーニングイメージが入力されると、学習装置が、(i)ターゲット領域予測ネットワークをもって、前記トレーニングイメージまたはこれに対応する一つ以上のリサイズ済みイメージにおいて一つ以上のターゲット物体が位置するものと予測される領域に対応する第1ターゲット領域ないし第nターゲット領域それぞれを予測させ、(ii)イメージ加工ネットワークをもって、前記トレーニングイメージまたはこれに対応するリサイズ済みイメージから、前記第1ターゲット領域ないし前記第nターゲット領域それぞれに対応する第1加工イメージないし第n加工イメージを取得させ、(iii)前記第1加工イメージないし前記第n加工イメージをコンカチネートした統合トレーニングイメージを出力させる段階;(b)前記学習装置が、(i)一つ以上のコンボリューションレイヤをもって、一つ以上のコンボリューション演算を前記統合トレーニングイメージに適用することにより、少なくとも一つの統合特徴マップを出力させ、(ii)RPNをもって、前記統合特徴マップを利用して、前記第1加工イメージないし前記第n加工イメージそれぞれ内に位置する一つ以上の物体に対応する第1物体プロポーザルないし第n物体プロポーザルそれぞれを出力させ、(iii)プーリングレイヤをもって、前記統合特徴マップ上で、前記第1物体プロポーザルないし前記第n物体プロポーザルそれぞれに対応するそれぞれの領域に一つ以上のプーリング演算を適用して、少なくとも一つのプーリング済み統合特徴マップを出力させ、(iv)FCレイヤをもって、前記プーリング済み統合特徴マップに少なくとも一つのFC(fully connected)演算を適用して、前記物体に対応する第1物体検出情報ないし第n物体検出情報を出力させる段階;及び(c)前記学習装置が、少なくとも一つのFCロスレイヤをもって、前記第1物体検出情報ないし前記第n物体検出情報とこれに対応する原本正解(Ground Truth)とを参照して、一つ以上の第1FCロスないし一つ以上の第nFCロスを取得させることにより、前記第1FCロスないし前記第nFCロスを利用したバックプロパゲーションを通じて、前記FCレイヤ及び前記コンボリューションレイヤのパラメータのうち少なくとも一部を調整させる段階;を含むことを特徴とする方法が開示される。
一実施例において、前記(b)段階以後、前記学習装置が少なくとも一つのRPNロスレイヤをもって、前記第1物体プロポーザルないし前記第n物体プロポーザルとこれに対応する原本正解とを参照して、一つ以上の第1RPNロスないし一つ以上の第nRPNロスを取得させることにより、前記第1RPNロスないし前記第nRPNロスを利用したバックプロパゲーションを通じて、前記RPNのパラメータのうち少なくとも一部を調整することを特徴とする。
一実施例において、前記(a)段階で、前記学習装置が前記イメージ加工ネットワークをもって、第1加工イメージないし前記第n加工イメージの幅と高さのうち少なくとも一つを同一に調整した後、同一の大きさに調整された前記幅または前記高さ方向に前記第1調整済み加工イメージないし前記第n調整済み加工イメージをコンカチネート(concatenate)させることを特徴とする。
一実施例において、前記学習装置が、前記イメージ加工ネットワークをもって、前記第1調整済み加工イメージないし前記第n調整済み加工イメージのうち、隣接するそれぞれの二つの調整済み加工イメージから構成されるそれぞれのペアの間にそれぞれ少なくとも一つのゼロパディング領域を追加させることを特徴とする。
一実施例において、前記コンボリューションレイヤの多重コンボリューション演算によって前記統合トレーニングイメージが1/Sに縮小され、前記コンボリューションレイヤそれぞれのカーネルそれぞれの最大サイズをK×Kとする場合、前記ゼロパディング領域の幅が
Figure 0006846069

になるようにすることを特徴とする。
一実施例において、 前記(a)段階で、前記学習装置は前記ターゲット領域予測ネットワークをもって、前記トレーニングイメージまたはこれに対応するリサイズ済みイメージそれぞれに対するそれぞれのスケールヒストグラムを演算させ、前記スケールヒストグラムを参照することにより、前記ターゲット物体が位置するものと予測されるスケールプロポーザルに対応する前記第1ターゲット領域ないし前記第nターゲット領域を予測させることを特徴とする。
一実施例において、前記(a)段階で、前記学習装置は、前記イメージ加工ネットワークをもって、前記トレーニングイメージまたはこれに対応するリサイズ済みイメージ上で前記第1ターゲット領域ないし前記第nターゲット領域に対応する一つ以上の領域をクロップすることにより、前記第1加工イメージないし前記第n加工イメージを取得させるか、前記トレーニングイメージまたはこれに対応するリサイズ済みイメージ上で前記第1ターゲット領域ないし前記第nターゲット領域に対応する一つ以上の領域をクロップした後にリサイズすることにより、前記第1加工イメージないし前記第n加工イメージを取得させることを特徴とする。
一実施例において、前記第1ターゲット領域ないし前記第nターゲット領域は、前記トレーニングイメージ内に位置する前記ターゲット物体のうち互いに異なる多数のターゲット物体に対応するか、前記トレーニングイメージ及びこれに対応するリサイズ済みイメージ内に位置する少なくとも一つの同一のターゲット物体に対応することを特徴とする。
本発明の他の態様によると、イメージコンカチネーションを利用したCNN基盤物体検出器をテストする方法において、(a)学習装置が、(1)(i)ターゲット領域予測ネットワークをもって、少なくとも一つのトレーニングイメージまたはこれに対応する一つ以上のリサイズされた学習用イメージにおいて一つ以上の学習用ターゲット物体が位置するものと予測される領域に対応する第1学習用ターゲット領域ないし第n学習用ターゲット領域それぞれを予測させ、(ii)イメージ加工ネットワークをもって、前記トレーニングイメージまたはこれに対応するリサイズされた学習用イメージから前記第1学習用ターゲット領域ないし前記第n学習用ターゲット領域それぞれに対応する第1学習用加工イメージないし第n学習用加工イメージを取得させ、(iii)前記第1学習用加工イメージないし前記第n学習用加工イメージをコンカチネートした統合トレーニングイメージを出力させ、(2)(i)一つ以上のコンボリューションレイヤをもって、一つ以上のコンボリューション演算を前記統合トレーニングイメージに適用することにより、少なくとも一つの学習用統合特徴マップを出力させ、(ii)RPNをもって、前記学習用統合特徴マップを利用して、前記第1学習用加工イメージないし前記第n学習用加工イメージそれぞれ内に位置する一つ以上の学習用物体に対応する第1学習用物体プロポーザルないし第n学習用物体プロポーザルそれぞれを出力させ、(iii)プーリングレイヤをもって、前記学習用統合特徴マップ上で、前記第1学習用物体プロポーザルないし前記第n学習用物体プロポーザルそれぞれに対応するそれぞれの領域に一つ以上のプーリング演算を適用して、少なくとも一つの学習用プーリング済み統合特徴マップを出力させ、(iv)FCレイヤをもって、前記学習用プーリング済み統合特徴マップに少なくとも一つのFC(fully connected)演算を適用して、前記学習用物体に対応する第1学習用物体検出情報ないし第n学習用物体検出情報を出力させ、(3)少なくとも一つのFCロスレイヤをもって、前記第1学習用物体検出情報ないし前記第n学習用物体検出情報とこれに対応する原本正解(Ground Truth)とを参照して、一つ以上の第1FCロスないし一つ以上の第nFCロスを取得させることにより、前記第1FCロスないし前記第nFCロスを利用したバックプロパゲーションを通じて、前記FCレイヤ及び前記コンボリューションレイヤのパラメータのうち少なくとも一部を調整した状態で、テスト装置が、少なくとも一つのテストイメージが取得されると、(i)前記ターゲット領域予測ネットワークをもって、前記テストイメージまたはこれに対応する一つ以上のリサイズされたテスト用イメージで一つ以上のテスト用ターゲット物体が位置するものと予測される領域に対応する第1テスト用ターゲット領域ないし第nテスト用ターゲット領域それぞれを予測させ、(ii)前記イメージ加工ネットワークをもって、前記テストイメージまたはこれに対応するリサイズされたテスト用イメージから、前記第1テスト用ターゲット領域ないし前記第nテスト用ターゲット領域それぞれに対応する第1テスト用加工イメージないし第nテスト用加工イメージを取得させ、(iii)前記第1テスト用加工イメージないし前記第nテスト用加工イメージをコンカチネートした統合テストイメージを出力させる段階;及び(b)前記テスト装置が、(i)前記コンボリューションレイヤをもって、前記コンボリューション演算を前記統合テストイメージに適用することにより、少なくとも一つのテスト用統合特徴マップを出力させ、(ii)前記RPNをもって、前記テスト用統合特徴マップを利用して、前記第1テスト用加工イメージないし前記第nテスト用加工イメージそれぞれ内に位置する一つ以上のテスト用物体に対応する第1テスト用物体プロポーザルないし第nテスト用物体プロポーザルそれぞれを出力させ、(iii)前記プーリングレイヤをもって、前記テスト用統合特徴マップ上で、前記第1テスト用物体プロポーザルないし前記第nテスト用物体プロポーザルそれぞれに対応するそれぞれの領域に前記プーリング演算を適用して、少なくとも一つのテスト用プーリング済み統合特徴マップを出力させ、(iv)前記FCレイヤをもって、前記テスト用プーリング済み統合特徴マップに前記FC演算を適用して、前記テスト用物体に対応する第1テスト用物体検出情報ないし第nテスト用物体検出情報を出力させる段階;を含むことを特徴とする方法が開示される。
一実施例において、前記(a)段階で、前記テスト装置が、前記イメージ加工ネットワークをもって、前記第1テスト用加工イメージないし前記第nテスト用加工イメージの幅と高さのうち少なくとも一つを同一に調整した後、同一の大きさに調整された前記幅または前記高さ方向に前記第1テスト用調整済み加工イメージないし前記第nテスト用調整済み加工イメージをコンカチネートさせることを特徴とする。
一実施例において、前記テスト装置が、前記イメージ加工ネットワークをもって、前記第1テスト用調整済み加工イメージないし前記第nテスト用調整済み加工イメージのうち、隣接するそれぞれの二つのテスト用調整済み加工イメージから構成されるそれぞれのペアの間にそれぞれ少なくとも一つのゼロパディング領域を追加させることを特徴とする。
一実施例において、前記コンボリューションレイヤの多重コンボリューション演算によって前記統合テストイメージが1/Sに縮小され、前記コンボリューションレイヤそれぞれのカーネルそれぞれの最大サイズをK×Kとする場合、前記ゼロパディング領域の幅が
Figure 0006846069

になるようにすることを特徴とする。
一実施例において、前記(a)段階で、前記テスト装置は、前記ターゲット領域予測ネットワークをもって、前記テストイメージまたはこれに対応するリサイズされたテスト用イメージそれぞれに対するそれぞれのテスト用スケールヒストグラムを演算させ、前記テスト用スケールヒストグラムを参照することによって、前記テスト用ターゲット物体が位置するものと予測されるスケールプロポーザルに対応する前記第1テスト用ターゲット領域ないし前記第nテスト用ターゲット領域を予測させることを特徴とする。
一実施例において、前記(a)段階で、 前記テスト装置は、前記イメージ加工ネットワークをもって、前記テストイメージまたはこれに対応するリサイズされたテスト用イメージ上で前記第1テスト用ターゲット領域ないし前記第nテスト用ターゲット領域に対応する一つ以上の領域をクロップすることにより、前記第1テスト用加工イメージないし前記第nテスト用加工イメージを取得させるか、前記テストイメージまたはこれに対応するリサイズされたテスト用イメージ上で前記第1テスト用ターゲット領域ないし前記第nテスト用ターゲット領域に対応する一つ以上の領域をクロップした後にリサイズすることにより、前記第1テスト用加工イメージないし前記第nテスト用加工イメージを取得させることを特徴とする。
一実施例において、前記第1テスト用ターゲット領域ないし前記第nテスト用ターゲット領域は、前記テストイメージ内に位置する前記テスト用ターゲット物体のうち互いに異なる多数のテスト用ターゲット物体に対応するか、又は前記テストイメージ及びこれに対応するリサイズされたテスト用イメージ内に位置する少なくとも一つの同一のテスト用ターゲット物体に対応することを特徴とする
本発明のまた他の態様によると、イメージコンカチネーションを利用した、CNN基盤物体検出器のパラメータを学習するための学習装置において、インストラクションを格納する少なくとも一つのメモリと、(I)(i)ターゲット領域予測ネットワークをもって、少なくとも一つのトレーニングイメージまたはこれに対応する一つ以上のリサイズ済みイメージにおいて一つ以上のターゲット物体が位置するものと予測される領域に対応する第1ターゲット領域ないし第nターゲット領域それぞれを予測させ、(ii)イメージ加工ネットワークをもって、前記トレーニングイメージまたはこれに対応するリサイズ済みイメージから、前記第1ターゲット領域ないし前記第nターゲット領域それぞれに対応する第1加工イメージないし第n加工イメージを取得させ、(iii)前記第1加工イメージないし前記第n加工イメージをコンカチネートした統合トレーニングイメージを出力させるプロセス、(II)(i)一つ以上のコンボリューションレイヤをもって、一つ以上のコンボリューション演算を前記統合トレーニングイメージに適用することにより、少なくとも一つの統合特徴マップを出力させ、(ii)RPNをもって、前記統合特徴マップを利用して、前記第1加工イメージないし前記第n加工イメージそれぞれ内に位置する一つ以上の物体に対応する第1物体プロポーザルないし第n物体プロポーザルそれぞれを出力させ、(iii)プーリングレイヤをもって、前記統合特徴マップ上で、前記第1物体プロポーザルないし前記第n物体プロポーザルそれぞれに対応するそれぞれの領域に一つ以上のプーリング演算を適用して、少なくとも一つのプーリング済み統合特徴マップを出力させ、(iv)FCレイヤをもって、前記プーリング済み統合特徴マップに少なくとも一つのFC(fully connected)演算を適用して、前記物体に対応する第1物体検出情報ないし第n物体検出情報を出力させるプロセス、及び(III)少なくとも一つのFCロスレイヤをもって、前記第1物体検出情報ないし前記第n物体検出情報とこれに対応する原本正解(Ground Truth)とを参照して、一つ以上の第1FCロスないし一つ以上の第nFCロスを取得させることにより、前記第1FCロスないし前記第nFCロスを利用したバックプロパゲーションを通じて、前記FCレイヤ及び前記コンボリューションレイヤのパラメータのうち少なくとも一部を調整するプロセスを遂行するための前記各インストラクションを実行するように構成された少なくとも一つのプロセッサと、を含むことを特徴とする学習装置が開示される。
一実施例において、前記プロセッサは、前記(II)プロセス以後、少なくとも一つのRPNロスレイヤをもって、前記第1物体プロポーザルないし前記第n物体プロポーザルとこれに対応する原本正解とを参照して、一つ以上の第1RPNロスないし一つ以上の第nRPNロスを取得させることにより、前記第1RPNロスないし前記第nRPNロスを利用したバックプロパゲーションを通じて、前記RPNのパラメータのうち少なくとも一部を調整することを特徴とする。
一実施例において、前記プロセッサは、前記(I)プロセスにおいて、前記イメージ加工ネットワークをもって、前記第1加工イメージないし前記第n加工イメージの幅と高さのうち少なくとも一つを同一に調整した後、同一の大きさに調整された前記幅または前記高さ方向に前記第1調整済み加工イメージないし前記第n調整済み加工イメージをコンカチネート(concatenate)させることを特徴とする。
一実施例において、前記プロセッサは、前記イメージ加工ネットワークをもって、前記第1調整済み加工イメージないし前記第n調整済み加工イメージのうち、隣接するそれぞれの二つの調整済み加工イメージから構成されるそれぞれのペアの間にそれぞれ少なくとも一つのゼロパディング領域を追加させることを特徴とする。
一実施例において、前記コンボリューションレイヤの多重コンボリューション演算によって前記統合トレーニングイメージが1/Sに縮小され、前記コンボリューションレイヤそれぞれのカーネルそれぞれの最大サイズをK×Kとする場合、前記ゼロパディング領域の幅が
Figure 0006846069

になるようにすることを特徴とする。
一実施例において、前記プロセッサは、前記(I)プロセスにおいて、前記ターゲット領域予測ネットワークをもって、前記トレーニングイメージまたはこれに対応するリサイズ済みイメージそれぞれに対するそれぞれのスケールヒストグラムを演算させ、前記スケールヒストグラムを参照することにより、前記ターゲット物体が位置するものと予測されるスケールプロポーザルに対応する前記第1ターゲット領域ないし前記第nターゲット領域を予測させることを特徴とする。
一実施例において、前記プロセッサは、前記(I)プロセスにおいて、前記イメージ加工ネットワークをもって、前記トレーニングイメージまたはこれに対応するリサイズ済みイメージ上で前記第1ターゲット領域ないし前記第nターゲット領域に対応する一つ以上の領域をクロップすることにより、前記第1加工イメージないし前記第n加工イメージを取得させるか、前記トレーニングイメージまたはこれに対応するリサイズ済みイメージ上で前記第1ターゲット領域ないし前記第nターゲット領域に対応する一つ以上の領域をクロップした後にリサイズすることにより、前記第1加工イメージないし前記第n加工イメージを取得させることを特徴とする。
一実施例において、前記第1ターゲット領域ないし前記第nターゲット領域は、前記トレーニングイメージ内に位置する前記ターゲット物体のうち互いに異なる多数のターゲット物体に対応するか、前記トレーニングイメージ及びこれに対応するリサイズ済みイメージ内に位置する少なくとも一つの同一のターゲット物体に対応することを特徴とする。
本発明のまた他の態様によると、イメージコンカチネーションを利用した、CNN基盤物体検出器をテストするためのテスト装置において、各インストラクションを格納する少なくとも一つのメモリと、学習装置が、(1)(i)ターゲット領域予測ネットワークをもって、少なくとも一つのトレーニングイメージまたはこれに対応する一つ以上のリサイズされた学習用イメージにおいて一つ以上の学習用ターゲット物体が位置するものと予測される領域に対応する第1学習用ターゲット領域ないし第n学習用ターゲット領域それぞれを予測させ、(ii)イメージ加工ネットワークをもって、前記トレーニングイメージまたはこれに対応するリサイズされた学習用イメージから前記第1学習用ターゲット領域ないし前記第n学習用ターゲット領域それぞれに対応する第1学習用加工イメージないし第n学習用加工イメージを取得させ、(iii)前記第1学習用加工イメージないし前記第n学習用加工イメージをコンカチネートした統合トレーニングイメージを出力させ、(2)(i)一つ以上のコンボリューションレイヤをもって、一つ以上のコンボリューション演算を前記統合トレーニングイメージに適用することにより、少なくとも一つの学習用統合特徴マップを出力させ、(ii)RPNをもって、前記学習用統合特徴マップを利用して、前記第1学習用加工イメージないし前記第n学習用加工イメージそれぞれ内に位置する一つ以上の学習用物体に対応する第1学習用物体プロポーザルないし第n学習用物体プロポーザルそれぞれを出力させ、(iii)プーリングレイヤをもって、前記学習用統合特徴マップ上で、前記第1学習用物体プロポーザルないし前記第n学習用物体プロポーザルそれぞれに対応するそれぞれの領域に一つ以上のプーリング演算を適用して、少なくとも一つの学習用プーリング済み統合特徴マップを出力させ、(iv)FCレイヤをもって、前記学習用プーリング済み統合特徴マップに少なくとも一つのFC(fully connected)演算を適用して、前記学習用物体に対応する第1学習用物体検出情報ないし第n学習用物体検出情報を出力させ、(3)少なくとも一つのFCロスレイヤをもって、前記第1学習用物体検出情報ないし前記第n学習用物体検出情報とこれに対応する原本正解(Ground Truth)とを参照して、一つ以上の第1FCロスないし一つ以上の第nFCロスを取得させることにより、前記第1FCロスないし前記第nFCロスを利用したバックプロパゲーションを通じて、前記FCレイヤ及び前記コンボリューションレイヤのパラメータのうち少なくとも一部を調整した状態で、(I)(i)前記ターゲット領域予測ネットワークをもって、少なくとも一つのテストイメージまたはこれに対応する一つ以上のリサイズされたテスト用イメージで一つ以上のテスト用ターゲット物体が位置するものと予測される領域に対応する第1テスト用ターゲット領域ないし第nテスト用ターゲット領域それぞれを予測させ、(ii)前記イメージ加工ネットワークをもって、前記テストイメージまたはこれに対応するリサイズされたテスト用イメージから前記第1テスト用ターゲット領域ないし前記第nテスト用ターゲット領域それぞれに対応する第1テスト用加工イメージないし第nテスト用加工イメージを取得させ、(iii)前記第1テスト用加工イメージないし前記第nテスト用加工イメージをコンカチネートした統合テストイメージを出力させるプロセス、及び(II)(i)前記コンボリューションレイヤをもって、前記コンボリューション演算を前記統合テストイメージに適用することにより、少なくとも一つのテスト用統合特徴マップを出力させ、(ii)前記RPNをもって、前記テスト用統合特徴マップを利用して、前記第1テスト用加工イメージないし前記第nテスト用加工イメージそれぞれ内に位置する一つ以上のテスト用物体に対応する第1テスト用物体プロポーザルないし第nテスト用物体プロポーザルそれぞれを出力させ、(iii)前記プーリングレイヤをもって、前記テスト用統合特徴マップ上で、前記第1テスト用物体プロポーザルないし前記第nテスト用物体プロポーザルそれぞれに対応するそれぞれの領域に前記プーリング演算を適用して、少なくとも一つのテスト用プーリング済み統合特徴マップを出力させ、(iv)前記FCレイヤをもって、前記テスト用プーリング済み統合特徴マップに前記FC演算を適用して、前記テスト用物体に対応する第1テスト用物体検出情報ないし第nテスト用物体検出情報を出力させるプロセスを遂行するための前記各インストラクションを実行するように構成された少なくとも一つのプロセッサと、を含むことを特徴とするテスト装置が開示される。
一実施例において、前記プロセッサは、前記(I)プロセスにおいて、前記イメージ加工ネットワークをもって、前記第1テスト用加工イメージないし前記第nテスト用加工イメージの幅と高さのうち少なくとも一つを同一に調整した後、同一の大きさに調整された前記幅または前記高さ方向に前記第1テスト用調整済み加工イメージないし前記第nテスト用調整済み加工イメージをコンカチネートさせることを特徴とする。
一実施例において、前記プロセッサは、前記イメージ加工ネットワークをもって、第1テスト用調整済み加工イメージないし前記第nテスト用調整済み加工イメージのうち、隣接するそれぞれの二つのテスト用調整済み加工イメージから構成されるそれぞれのペアの間にそれぞれ少なくとも一つのゼロパディング領域を追加させることを特徴とする。
一実施例において、前記コンボリューションレイヤの多重コンボリューション演算によって前記統合テストイメージが1/Sに縮小され、前記コンボリューションレイヤそれぞれのカーネルそれぞれの最大サイズをK×Kとする場合、前記ゼロパディング領域の幅が
Figure 0006846069

になるようにすることを特徴とする。
一実施例において、前記プロセッサは、前記(I)プロセスにおいて、前記ターゲット領域予測ネットワークをもって、前記テストイメージまたはこれに対応するリサイズされたテスト用イメージそれぞれに対するそれぞれのテスト用スケールヒストグラムを演算させ、前記テスト用スケールヒストグラムを参照することによって、前記テスト用ターゲット物体が位置するものと予測されるスケールプロポーザルに対応する前記第1テスト用ターゲット領域ないし前記第nテスト用ターゲット領域を予測させることを特徴とする。
一実施例において、前記プロセッサは、前記(I)プロセスにおいて、前記イメージ加工ネットワークをもって、前記テストイメージまたはこれに対応するリサイズされたテスト用イメージ上で前記第1テスト用ターゲット領域ないし前記第nテスト用ターゲット領域に対応する一つ以上の領域をクロップすることにより、前記第1テスト用加工イメージないし前記第nテスト用加工イメージを取得させるか、前記テストイメージまたはこれに対応するリサイズされたテスト用イメージ上で前記第1テスト用ターゲット領域ないし前記第nテスト用ターゲット領域に対応する一つ以上の領域をクロップした後にリサイズすることにより、前記第1テスト用加工イメージないし前記第nテスト用加工イメージを取得させることを特徴とする。
一実施例において、前記第1テスト用ターゲット領域ないし前記第nテスト用ターゲット領域は、前記テストイメージ内に位置する前記テスト用ターゲット物体のうち互いに異なる多数のテスト用ターゲット物体に対応するか、又は前記テストイメージ及びこれに対応するリサイズされたテスト用イメージ内に位置する少なくとも一つの同一のテスト用ターゲット物体に対応することを特徴とする。
この他にも、本発明の方法を実行するためのコンピュータプログラムを格納するためのコンピュータ読取り可能な記録媒体(recordable media)がさらに提供される。
本発明は、イメージ上に位置する物体をサイズに関係なく効果的に検出することができる効果がある。
また、本発明は、演算量を増加させずに、かつ前記イメージ内の物体を検出することができる効果がある。
また、本発明は、サイズが様々な物体に対応するターゲット領域を利用して、CNNの演算量を減らし、かつ効果的に物体を検出することができる効果がある。
本発明の実施例の説明に利用されるために添付された以下の各図面は、本発明の実施例のうち単に一部であるにすぎず、本発明の属する技術分野において通常の知識を有する者(以下「通常の技術者」)にとっては、発明的作業が行われずにこれらの図面に基づいて他の各図面が得られ得る。
は本発明の一実施例によるイメージコンカチネーション(Image concatenation)を利用した、CNN基盤物体検出器を学習する学習装置を簡略に示した図面である。 本発明の一実施例による前記イメージコンカチネーションを利用した、前記CNN基盤物体検出器を学習する方法を簡略に示した図面である。 本発明の一実施例による前記イメージコンカチネーションを利用した、前記CNN基盤物体検出器を学習するのに使用されるイメージピラミッド上でそれぞれのターゲット領域を予測する状態を簡略に示した図面である。 本発明の一実施例による前記イメージコンカチネーションを利用した、前記CNN基盤物体検出器を学習するのに利用されるそれぞれのターゲット領域に対応して加工されたイメージをコンカチネートした状態を簡略に示した図面である。 本発明の一実施例による前記イメージコンカチネーションを利用した、前記CNN基盤物体検出器のテスト装置を簡略に示した図面である。 本発明の一実施例による前記イメージコンカチネーションを利用した、前記CNN基盤の物体検出器をテストする方法を簡略に示したものである。
後述する本発明に関する詳細な説明は、本発明の各目的、各技術的解法、及び各長所を明らかにするために本発明が実施され得る特定の実施例を例示として示す添付図面を参照する。これらの実施例は、通常の技術者が本発明を実施することができるように十分詳細に説明される。
また、本発明の詳細な説明及び各請求項にわたって、「含む」という単語及びそれらの変形は、他の技術的各特徴、各付加物、構成要素又は段階を除外することを意図したものではない。通常の技術者にとって本発明の他の各目的、長所及び各特性が、一部は本説明書から、また一部は本発明の実施から明らかになるであろう。以下の例示及び図面は実例として提供され、本発明を限定することを意図したものではない。
さらに、本発明は、本明細書に表示された実施例のすべての可能な組合せを網羅する。本発明の多様な実施例は互いに異なるが、相互に排他的である必要はないことが理解されるべきである。例えば、ここに記載されている特定の形状、構造及び特性は、一実施例に関連して本発明の精神及び範囲を逸脱せず、かつ他の実施例で具現され得る。また、それぞれの開示された実施例内の個別の構成要素の位置又は配置は、本発明の精神及び範囲を逸脱せず、かつ変更され得ることが理解されるべきである。したがって、後述の詳細な説明は、限定的な意味として受け取ろうとするものではなく、本発明の範囲は適切に説明されるのであれば、その請求項が主張することと均等な全ての範囲とともに添付された請求項によってのみ限定される。図面において類似の参照符号は、様々な側面にわたって同一であるか、又は類似の機能を指す。
本発明で言及している各種イメージは、舗装または非舗装道路関連のイメージを含み得、この場合、道路環境で登場し得る物体(例えば、自動車、人、動物、植物、物、建物、飛行機やドローンのような飛行体、その他の障害物)を想定し得るが、必ずしもこれに限定されるものではなく、本発明で言及している各種イメージは、道路と関係のないイメージ(例えば、非舗装道路、路地、空き地、海、湖、川、山、森、砂漠、空、室内と関連したイメージ)でもあり得、この場合、非舗装道路、路地、空き地、海、湖、川、山、森、砂漠、空、室内環境で登場し得る物体(例えば、自動車、人、動物、植物、物、建物、飛行機やドローンのような飛行体、その他の障害物)を想定し得るが、必ずしもこれに限定されるものではない。
以下、本発明の属する技術分野において通常の知識を有する者が本発明を容易に実施させるために、本発明の好ましい実施例について、添付された図面を参照して詳細に説明することにする。
図1は、本発明の一実施例によるイメージコンカチネーション(Image concatenation)を利用した、CNN基盤物体検出器を学習する学習装置を簡略に示したものであり、図1を参照すると、前記学習装置100は、通信部110とプロセッサ120を含むことができる。
まず、前記通信部110は、少なくとも一つのトレーニングイメージを取得するか、又は他の装置をもって取得し得るように支援することができる。
この際、前記トレーニングイメージは、データベース130に格納され得、前記データベース130は、前記トレーニングイメージに位置する一つ以上の物体それぞれに対応するクラス情報及び位置情報に対する少なくとも一つの原本正解(ground truth)を格納することができる。また、前記データベース130は、前記トレーニングイメージをリサイズして生成された、リサイズ済みイメージ内に位置する前記物体それぞれに関する位置情報及びクラス情報に関する少なくとも一つの原本正解を格納することができる。
また、前記学習装置は後述されるプロセスを遂行するコンピュータ読取り可能なインストラクション(computer readable instruction)を格納することが可能なメモリ115をさらに含むことができる。一例として、前記プロセッサ、前記メモリ、及び媒体等は、一つのプロセッサとして統合されて機能することもできる。
次に、前記プロセッサ120は、(i)ターゲット領域予測ネットワークをもって、前記トレーニングイメージまたはこれに対応する一つ以上のリサイズ済みイメージにおいて一つ以上のターゲット物体が位置するものと予測される領域に対応する第1ターゲット領域ないし第nターゲット領域それぞれを予測させ、(ii)イメージ加工ネットワークをもって、前記トレーニングイメージまたはこれに対応するリサイズ済みイメージから、前記第1ターゲット領域ないし前記第nターゲット領域それぞれに対応する第1加工イメージないし第n加工イメージを取得させ、(iii)前記第1加工イメージないし前記第n加工イメージをコンカチネート(concatenate)した統合トレーニングイメージを出力させることができる。そして、前記プロセッサ120は、(i)一つ以上のコンボリューションレイヤをもって、一つ以上のコンボリューション演算を前記統合トレーニングイメージに適用することにより、少なくとも一つの統合特徴マップを出力させ、(ii)RPNをもって、前記統合特徴マップを利用して、前記第1加工イメージないし前記第n加工イメージそれぞれ内に位置する前記物体に対応する第1物体プロポーザルないし第n物体プロポーザルそれぞれを出力させ、(iii)プーリングレイヤをもって、前記統合特徴マップ上で、前記第1物体プロポーザルないし前記第n物体プロポーザルそれぞれに対応するそれぞれの領域に一つ以上のプーリング演算を適用して、少なくとも一つのプーリング済み統合特徴マップを出力させ、(iv)FCレイヤをもって、前記プーリング済み統合特徴マップに少なくとも一つのFC(fully connected)演算を適用して、前記物体に対応する第1物体検出情報ないし第n物体検出情報を出力させることができる。以後、前記プロセッサ120は、少なくとも一つのFCロスレイヤをもって、前記第1物体検出情報ないし前記第n物体検出情報とこれに対応する原本正解(Ground Truth)とを参照して、一つ以上の第1FCロスないし一つ以上の第nFCロスを取得させることにより、前記第1FCロスないし前記第nFCロスを利用したバックプロパゲーションを通じて、前記FCレイヤ及び前記コンボリューションレイヤのパラメータのうち少なくとも一部を調整させることができる。
また、前記プロセッサ120は、少なくとも一つのRPNロスレイヤをもって、前記第1物体プロポーザルないし前記第n物体プロポーザルとこれに対応する原本正解とを参照して、一つ以上の第1RPNロスないし一つ以上の第nRPNロスを取得させることにより、前記第1RPNロスないし前記第nRPNロスを利用したバックプロパゲーションを通じて、前記RPNのパラメータのうち少なくとも一部を調整させることができる。
この際、本発明の一実施例による前記学習装置100は、コンピュータ装置であって、プロセッサを搭載して演算能力を備えた装置であればいくらでも本発明による学習装置100として採択され得る。また、図1では一つの学習装置100のみを示したが、これに限定されず、前記学習装置は複数個に分けて役割を遂行することもできる。
このように構成された本発明の一実施例による前記学習装置100を利用して、前記イメージコンカチネーションを利用したCNN基盤物体検出器のパラメータを学習する方法を図2を参照して説明すると以下のとおりである。
まず、前記トレーニングイメージが入力されると、前記学習装置100が、ターゲット領域予測ネットワーク121をもって、前記トレーニングイメージまたはこれに対応するリサイズ済みイメージ上に少なくとも一つのターゲット物体が位置するものと予測される少なくとも一つの領域に対応する前記第1ターゲット領域ないし前記第nターゲット領域を予測させる。
この際、前記第1ターゲット領域ないし前記第nターゲット領域は、同一のイメージ内に位置する前記ターゲット物体のうち互いに異なる複数のターゲット物体に対応するか、互いに異なるサイズの複数のイメージ内に位置する同一のターゲット物体に対応し得る。また、前記第1ターゲット領域ないし前記第nターゲット領域は、同一のイメージのサイズを互いに異なるようにした前記イメージピラミッドのうちそれぞれのイメージ内に位置すると予測されるターゲット物体に対応し得る。
つまり、前記ターゲット領域予測ネットワーク121は、前記トレーニングイメージ内、第1ターゲット物体ないし第nターゲット物体が位置するものと予測される領域に対応する、前記第1ターゲット領域ないし前記第nターゲット領域を探し出すか、又は前記トレーニングイメージをリサイズして得た第1リサイズ済みイメージないし第nリサイズ済みイメージそれぞれに、少なくとも一つの特定ターゲット物体が位置するものと予測される領域に対応する、前記第1ターゲット領域それぞれないし前記第nターゲット領域それぞれを探し出すことができる。
また、前記ターゲット領域予測ネットワーク121は、前記トレーニングイメージに、単一のターゲット物体が位置するものと予測される領域に対応する特定のターゲット領域を探し出し、前記トレーニングイメージをリサイズして得た前記第1リサイズ済みイメージないし前記第nリサイズ済みイメージそれぞれに、前記単一のターゲット物体が位置するものと予測される領域に対応する、前記第1ターゲット領域それぞれないし前記第nターゲット領域を探し出すことができる。これに加えて、前記トレーニングイメージ内に多数のターゲット物体が位置する場合、前記リサイズ済みイメージそれぞれにおいて前記ターゲット物体に対応する前記ターゲット領域を予測することができる。
一方、前記ターゲット領域予測ネットワーク121は、前記トレーニングイメージまたはこれに対応するリサイズ済みイメージそれぞれに対するそれぞれのスケールヒストグラムを演算し、前記スケールヒストグラムを参照することによって、前記ターゲット物体が位置するものと予測されるスケールプロポーザルに対応する前記第1ターゲット領域ないし前記第nターゲット領域を予測することができる。
また、前記ターゲット領域予測ネットワーク121は、前記トレーニングイメージまたはこれに対応するリサイズ済みイメージそれぞれに対してセグメンテーションを遂行し、前記セグメンテーションを基盤として前記ターゲット領域を探し出すためのシード(seed)を設定した後、小さなターゲット領域が繰り返し統合された統合領域を参照して前記ターゲット領域を設定することができる。
また、前記ターゲット領域予測ネットワーク121は、フォアグラウンドセグメンテーション(foreground segmentation)を通じてイメージ上のフォアグラウンドを確認し、前記確認されたフォアグラウンドを参照して、少なくとも一つのターゲット物体が位置するものと予測され、前記少なくとも一つのターゲット物体を含むものと予測されるサイズの、少なくとも一つの領域を少なくとも一つのターゲット領域に設定することができる。
これに加えて、前記ターゲット領域予測ネットワーク121は、重要度検出(saliency detection)方法を利用して、一つ以上のターゲット領域を設定することができる。
しかし、本願発明はこれに限定されず、イメージ内のターゲット物体が位置すると予測されるターゲット領域を探し出すすべての方法が使用され得る。
次に、前記学習装置100は、イメージ加工ネットワーク111をもって、前記ターゲット領域予測ネットワーク121で設定された第1ターゲット領域ないし第nターゲット領域それぞれに対応する前記トレーニングイメージまたはそれぞれのこれに対応するリサイズ済みイメージ上で、前記第1ターゲット領域ないし前記第nターゲット領域に対応する第1加工イメージないし第n加工イメージを取得させる。
この際、前記学習装置100は、前記イメージ加工ネットワーク111をもって、前記トレーニングイメージまたはこれに対応するリサイズ済みイメージ上で前記第1ターゲット領域ないし前記第nターゲット領域に対応する一つ以上の領域をクロップして、前記第1加工イメージないし前記第n加工イメージを取得させるか、前記トレーニングイメージまたはこれに対応するリサイズ済みイメージ上で前記第1ターゲット領域ないし前記第nターゲット領域に対応する一つ以上の領域をクロップした後、リサイズして、前記第1加工イメージないし前記第n加工イメージを取得させることができる。
一例として、図3を参照すると、前記第1ターゲット領域を含む前記第1リサイズ済みイメージRI1を前記第1加工イメージMI1として取得することができ、前記第2ターゲット領域に対応する前記第2加工イメージMI2は、前記第2リサイズ済みイメージRI2から生成され得、第3ターゲット領域に対応する前記第3加工イメージMI3は、第3リサイズ済みイメージから生成され得る。
次に、前記学習装置100は、前記イメージ加工ネットワーク111をもって、前記第1加工イメージないし前記第3加工イメージをコンカチネートした前記統合トレーニングイメージを取得させることができる。
この際、前記学習装置100は、前記イメージ加工ネットワーク111をもって、前記第1加工イメージないし前記第3加工イメージの幅と高さのうち少なくとも一つを同一に調整した後、同一に調整された前記幅または前記高さ方向に前記第1調整済み加工イメージないし前記第3調整済み加工イメージをコンカチネートさせることができる。
そして、前記学習装置100は、前記イメージ加工ネットワーク111をもって、前記第1調整済み加工イメージないし前記第3調整済み加工イメージのうち、隣接するそれぞれの二つの調整済み加工イメージで構成されるそれぞれのペアの間にそれぞれ少なくとも一つのゼロパディング(zero padding)領域を追加させることができる。この際、前記コンボリューションレイヤの多重コンボリューション演算によって前記統合トレーニングイメージが1/Sに縮小され、前記コンボリューションレイヤそれぞれのカーネルそれぞれの最大サイズをK×Kとする場合、前記ゼロパディング領域の幅が
Figure 0006846069

となるようにすることができる。これを通じて、前記CNNのオーバーヘッド(overhead)を最小化することができる。
一例として、図4を参照すると、図3の過程を通じて生成された前記第1加工イメージMI1、前記第2加工イメージMI2、及び前記第3加工イメージMI3は、互いに高さが同じに調整された後、コンカチネートされ得る。その際、それぞれのゼロパディング領域(PR)は、それぞれの前記隣接した調整済み加工イメージの間に追加され得る。他の例示として、前記加工イメージの幅を同一に調整した後、前記調整された幅を利用して前記それぞれの加工イメージをコンカチネートするか、又は前記幅と前記高さとを同一に調整した後、前記それぞれの加工イメージを大きな正方形状にコンカチネートすることができる。
次に、前記学習装置100は、コンボリューションレイヤ122をもって、前記統合トレーニングイメージに前記コンボリューション演算を適用することにより、少なくとも一つの統合特徴マップを出力させることができる。この際、前記コンボリューションレイヤ122は、単一のコンボリューションレイヤでもあり得、多数のコンボリューションレイヤでもあり得る。
次に、前記学習装置100は、RPN123をもって、前記統合ピッチャーマップを利用して、前記統合トレーニングイメージに含まれた前記第1加工イメージないし前記第n加工イメージ内に位置する前記物体に対応する一つ以上の第1物体プロポーザルないし一つ以上の第n物体プロポーザルを出力させることができる。
この際、前記第1物体プロポーザルないし前記第n物体プロポーザルそれぞれは、前記第1加工イメージないし前記第n加工イメージ内に位置する前記物体それぞれに対応することができ、前記物体プロポーザルそれぞれは、前記物体それぞれ、すなわち、タグ付けされた領域に対応する位置情報と、前記タグ付けされた領域それぞれが物体であるか否かに関する情報を有する各プロポーザルボックスに関する情報とを含むことができる。この際、物体であるか否かに関する情報は、前記それぞれの物体プロポーザルが物体と予測される確率情報を含むことができ、前記プロポーザルボックスに関する情報は、前記プロポーザルボックスが前記物体の位置に一致するものと予測される確率情報を含むことができる。
次に、前記学習装置100は、プーリングレイヤ124をもって、前記統合特徴マップ上で前記第1物体プロポーザルないし前記第n物体プロポーザルそれぞれに対応するそれぞれの領域に前記プーリング演算を適用して、少なくとも一つのプーリング済み統合特徴マップを出力させ、FCレイヤ125をもって、前記プーリング済み統合特徴マップに前記FC(fully connected)演算を適用して、前記物体に対応する第1物体検出情報ないし第n物体検出情報を出力させることができる。
この際、前記第1物体検出情報ないし前記第n物体検出情報は、前記第1物体プロポーザルないし前記第n物体プロポーザルに対応する前記物体それぞれに関するクラス情報とバウンディングボックスに関する情報(つまり、前記物体それぞれに関する位置情報)を含むことができる。また、前記クラス情報は、前記物体それぞれが当該クラスと予測される確率情報を含むことができ、前記バウンディングボックスに関する情報は、前記バウンディングボックスそれぞれが前記物体の位置に一致するものと予測される確率情報を含むことができる。
次に、前記学習装置100は、少なくとも一つのFCロスレイヤ126をもって、前記第1物体検出情報ないし前記第n物体検出情報とこれに対応する原本正解とを参照して、一つ以上の第1FCロスないし一つ以上の第nFCロスを取得させることにより、前記第1FCロスないし前記第nFCロスを利用したバックプロパゲーションを通じて、前記FCレイヤ125及び前記コンボリューションレイヤ122のパラメータのうち少なくとも一部を調整させることができる。
また、前記学習装置100は、少なくとも一つのRPNロスレイヤ127をもって、前記第1物体プロポーザルないし前記第n物体プロポーザルとこれに対応する原本正解とを参照して、一つ以上の第1RPNロスないし一つ以上の第nRPNロスを取得させることにより、前記第1RPNロスないし前記第nRPNロスを利用したバックプロパゲーションを通じて、前記RPN123のパラメータのうち少なくとも一部を調整させることができる。
前記のような方法により、前記トレーニングイメージ内に位置するサイズが様々な物体、特にサイズが小さく遠距離に位置する前記物体は効率的に検出することが可能となり、また、前記予測されたターゲット領域に対応する領域のみを使用するので演算量を減らすことができ、それに伴って前記CNN基盤の前記物体検出の演算時間を減らすことが可能となる。
また、前記では前記トレーニングイメージ上にターゲット物体が一つである場合を想定して説明したが、前記トレーニングイメージ内にターゲット物体が多数存在する場合にも、前記トレーニングイメージ内での前記それぞれのターゲット物体に対応するそれぞれのターゲット領域を利用して前記それぞれのターゲット物体の検出が可能である。
図5は、本発明の一実施例による前記イメージコンカチネーションを利用した、前記CNN基盤物体検出器をテストするテスト装置を簡略に示したものであり、図5を参照すると、前記テスト装置200は、通信部210とプロセッサ220とを含むことができる。
まず、前記通信部210は、少なくとも一つのテストイメージを取得するか、又は他の装置をもって取得し得るように支援することができる。
また、前記テスト装置は後述するプロセスを遂行するコンピュータ読取り可能なインストラクション(computer readable instruction)を格納することができるメモリ215をさらに含むことができる。一例として、前記プロセッサ、前記メモリ、及び媒体(medium)等は、一つのプロセッサとして統合されて機能することもできる。
この際、前記イメージコンカチネーションを利用した、前記CNNの基盤の前記物体検出器は、図1ないし図4を参照して説明された前記学習方法で学習され得る。
参考までに、以下の説明で混同を防止するために、学習プロセスに関連する用語には「学習用」という文言が追加され、テストプロセスに関連する用語には「テスト用」という文言が追加された。
つまり、少なくとも一つのトレーニングイメージが取得されると、前記学習装置は、(a)(i)前記ターゲット領域予測ネットワークをもって、前記トレーニングイメージまたはこれに対応する一つ以上のリサイズされた学習用イメージにおいて一つ以上の学習用ターゲット物体が位置するものと予測される領域に対応する第1学習用ターゲット領域ないし第n学習用ターゲット領域それぞれを予測させ、(ii)前記イメージ加工ネットワークをもって、前記トレーニングイメージまたはこれに対応するリサイズされた学習用イメージから前記第1学習用ターゲット領域ないし前記第n学習用ターゲット領域それぞれに対応する第1学習用加工イメージないし第n学習用加工イメージを取得させ、(iii)前記第1学習用加工イメージないし前記第n学習用加工イメージをコンカチネートした統合トレーニングイメージを出力させ、(b)(i)前記コンボリューションレイヤをもって、前記コンボリューション演算を前記統合トレーニングイメージに適用することにより、少なくとも一つの学習用統合特徴マップを出力させ、(ii)前記RPNをもって、前記学習用統合特徴マップを利用して、前記第1学習用加工イメージないし前記第n学習用加工イメージそれぞれ内に位置する一つ以上の学習用物体に対応する第1学習用物体プロポーザルないし第n学習用物体プロポーザルそれぞれを出力させ、(iii)前記プーリングレイヤをもって、前記学習用統合特徴マップ上で、前記第1学習用物体プロポーザルないし前記第n学習用物体プロポーザルそれぞれに対応するそれぞれの領域に前記プーリング演算を適用して、少なくとも一つの学習用プーリング済み統合特徴マップを出力させ、(iv)前記FCレイヤをもって、前記学習用プーリング済み統合特徴マップに前記FC(fully connected)演算を適用して、前記学習用物体に対応する第1学習用物体検出情報ないし第n学習用物体検出情報を出力させ、(c)前記FCロスレイヤをもって、前記第1学習用物体検出情報ないし前記第n学習用物体検出情報とこれに対応する原本正解(Ground Truth)とを参照して、一つ以上の第1FCロスないし一つ以上の第nFCロスを算出させることにより、前記第1FCロスないし前記第nFCロスを利用したバックプロパゲーションを通じて、前記FCレイヤ及び前記コンボリューションレイヤのパラメータのうち少なくとも一部を調整させた状態であり得る。
また、前記学習装置が、前記RPNロスレイヤをもって、第1トレーニング用物体プロポーザルないし第nトレーニング用物体プロポーザルの情報とこれにそれぞれ対応する原本正解とを参照して第1RPNロスないし第nRPNロスを取得させることにより、前記第1RPNロスないし前記第nRPNロスを利用したバックプロパゲーションを通じて、前記RPNのパラメータを調整した状態であり得る。
次に、前記プロセッサ220は、(i)前記ターゲット領域予測ネットワークをもって、少なくとも一つのテストイメージまたはこれに対応する一つ以上のリサイズされたテスト用イメージで一つ以上のテスト用ターゲット物体が位置するものと予測される領域に対応する第1テスト用ターゲット領域ないし第nテスト用ターゲット領域それぞれを予測させ、(ii)前記イメージ加工ネットワークをもって、前記テストイメージまたはこれに対応するリサイズされたテスト用イメージから前記第1テスト用ターゲット領域ないし前記第nテスト用ターゲット領域それぞれに対応する第1テスト用加工イメージないし第nテスト用加工イメージを取得させ、(iii)前記第1テスト用加工イメージないし前記第nテスト用加工イメージをコンカチネートした統合テストイメージを出力させるプロセスを遂行することができる。そして、前記プロセッサ220は、(i)前記コンボリューションレイヤをもって、前記コンボリューション演算を前記統合テストイメージに適用することにより、少なくとも一つのテスト用統合特徴マップを出力させ、(ii)前記RPNをもって、前記テスト用統合特徴マップを利用して、前記第1テスト用加工イメージないし前記第nテスト用加工イメージそれぞれ内に位置する一つ以上のテスト用物体に対応する第1テスト用物体プロポーザルないし第nテスト用物体プロポーザルそれぞれを出力させ、(iii)前記プーリングレイヤをもって、前記テスト用統合特徴マップ上で、前記第1テスト用物体プロポーザルないし前記第nテスト用物体プロポーザルそれぞれに対応するそれぞれの領域に前記プーリング演算を適用して、少なくとも一つのテスト用プーリングされた統合特徴マップを出力させ、(iv)前記FCレイヤをもって、前記テスト用プーリング済み統合特徴マップに前記FC演算を適用して、前記テスト用物体に対応する第1テスト用物体検出情報ないし第nテスト用物体検出情報を出力させることができる。
この際、本発明の一実施例によるテスト装置200は、コンピュータ装置であって、プロセッサを搭載して演算能力を備えた装置であればいくらでも本発明によるテスト装置200として採択され得る。また、図6では一つのテスト装置200のみを示したが、これに限定されず、テスト装置は複数個に分けて役割を遂行することもできる。
本発明の一実施例による前記テスト装置200を利用して、前記イメージコンカチネーションを利用した前記CNNの基盤の前記物体検出器をテストする方法を図6を参照して説明すると以下のとおりである。以下の説明で、図1ないし図4を参照して説明した前記学習方法で容易に理解可能な部分については、詳細な説明を省略することにする。
まず、図1ないし図4を参照して説明した学習方法によってFCレイヤ225、コンボリューションレイヤ222及びRPN223のパラメータのうち少なくとも一部が学習された状態で、前記テストイメージが入力されると、前記テスト装置200がターゲット領域予測ネットワーク221をもって、前記テストイメージまたはこれに対応するリサイズ済みイメージにおいて前記テスト用ターゲット物体が位置するものと予測される少なくとも一つの領域に対応する前記第1テスト用ターゲット領域ないし前記第nテスト用ターゲット領域を探すようにすることができる。
この際、前記第1テスト用ターゲット領域ないし前記第nテスト用ターゲット領域は、同一のテストイメージ内に位置する前記テスト用ターゲット物体のうち互いに異なる複数のテスト用ターゲット物体に対応するか、又は互いに異なるサイズの複数のイメージ内に位置する同一のテスト用ターゲット物体に対応し得る。また、前記第1テスト用ターゲット領域ないし前記第nテスト用ターゲット領域は、同一のイメージのサイズを互いに異にした前記イメージピラミッドのうちそれぞれのイメージ内に位置するものと予測されるテスト用ターゲット物体に対応し得る。
つまり、前記ターゲット領域予測ネットワーク221は、前記テストイメージ内に、第1テスト用ターゲット物体ないし第nテスト用ターゲット物体が位置するものと予測される領域に対応する、前記第1テスト用ターゲット領域ないし前記第nテスト用ターゲット領域を探し出すか、又は前記テストイメージをリサイズして得た第1テスト用リサイズ済みイメージないし第nテスト用リサイズ済みイメージそれぞれに、少なくとも一つの特定のテスト用ターゲット物体が位置するものと予測される領域に対応する、前記第1テスト用ターゲット領域それぞれないし前記第nテスト用ターゲット領域それぞれを探し出すことができる。また、前記ターゲット領域予測ネットワーク221は、前記テストイメージに、単一のターゲット物体が位置するものと予測される領域に対応する、特定のターゲット領域を探し出し、前記テストイメージをリサイズして得た第1テスト用リサイズ済みイメージないし第nテスト用リサイズ済みイメージそれぞれに、前記単一のテスト用ターゲット物体が位置するものと予測される領域に対応する、前記第1テスト用ターゲット領域それぞれないし前記第nテスト用ターゲット領域を探し出すことができる。これに加えて、前記テストイメージ内に多数のテスト用ターゲット物体が位置する場合、前記テストイメージのリサイズ済みイメージそれぞれにおいて、前記テスト用ターゲット物体に対応する前記テスト用ターゲット領域を予測することができる。
次に、前記テスト装置200は、前記イメージ加工ネットワーク211をもって、前記ターゲット領域予測ネットワーク221で設定された第1テスト用ターゲット領域ないし第nテスト用ターゲット領域それぞれに対応する前記テストイメージまたはそれぞれのこれに対応するリサイズ済みイメージ上で、前記第1テスト用ターゲット領域ないし前記第nテスト用ターゲット領域に対応する第1テスト用加工イメージないし第nテスト用加工イメージを取得させる。
この際、前記テスト装置200は、前記イメージ加工ネットワーク211をもって、前記テストイメージまたはこれに対応するリサイズ済みイメージ上で前記第1テスト用ターゲット領域ないし前記第nテスト用ターゲット領域に対応する一つ以上の領域をクロップして、前記第1テスト用加工イメージないし前記第nテスト用加工イメージを取得させるか、前記テストイメージまたはこれに対応するリサイズ済みイメージ上で前記第1テスト用ターゲット領域ないし前記第nテスト用ターゲット領域に対応する一つ以上の領域をクロップした後、リサイズして、前記第1テスト用加工イメージないし前記第nテスト用加工イメージを取得させることができる。
次に、前記テスト装置200は、前記イメージ加工ネットワーク211をもって、前記第1テスト用加工イメージないし前記第nテスト用加工イメージをコンカチネートした前記統合テストイメージを取得させることができる。
この際、前記テスト装置200は、前記イメージ加工ネットワーク211をもって、前記第1テスト用加工イメージないし前記第nテスト用加工イメージの幅と高さのうち少なくとも一つを同一に調整した後、同一に調整された前記幅または前記高さ方向に前記第1テスト用調整済み加工イメージないし前記第nテスト用調整済み加工イメージをコンカチネートさせることができる。
そして、前記テスト装置200は、前記イメージ加工ネットワーク211をもって、前記第1テスト用調整済み加工イメージないし前記第nテスト用調整済み加工イメージのうち、隣接するそれぞれの二つのテスト用調整済み加工イメージから構成されるそれぞれのペアの間にそれぞれ少なくとも一つのゼロパディング(zero padding)領域を追加させることができる。この際、前記コンボリューションレイヤの多重コンボリューション演算によって前記統合テストイメージが1/Sに縮小され、前記コンボリューションレイヤそれぞれのカーネルそれぞれの最大サイズをK×Kとする場合、前記ゼロパディング領域の幅が
Figure 0006846069

になるようにすることができる。
次に、前記テスト装置200は、前記コンボリューションレイヤ222をもって、前記統合テストイメージに前記コンボリューション演算を適用することにより、少なくとも一つのテスト用統合特徴マップを出力させることができる。この際、前記コンボリューションレイヤ222は、単一のコンボリューションレイヤでもあり得、多数のコンボリューションレイヤでもあり得る。
次に、前記テスト装置200は、前記RPN223をもって、前記テスト用統合ピッチャーマップを利用して、前記統合テストイメージに含まれた前記第1テスト用加工イメージないし前記第nテスト用加工イメージ内に位置する前記テスト用物体に対応する一つ以上の第1テスト用物体プロポーザルないし一つ以上の第nテスト用物体プロポーザルを出力させることができる。
この際、前記第1テスト用物体プロポーザルないし前記第nテスト用物体プロポーザルそれぞれは、前記テスト用物体それぞれ、つまり、タグ付けされた領域に対応する位置情報と、前記タグ付けされた領域が物体であるか否かに関する情報を有する各プロポーザルボックスに関する情報とを含むことができる。
次に、前記テスト装置200は、プーリングレイヤ224をもって、前記テスト用統合特徴マップ上で、前記第1テスト用物体プロポーザルないし前記第nテスト用物体プロポーザルそれぞれに対応するそれぞれの領域に前記プーリング演算を適用して、少なくとも一つのテスト用プーリング済み統合特徴マップを出力させ、前記FCレイヤ225をもって、前記テスト用プーリング済み統合特徴マップに前記FC(fully connected)演算を適用して、前記テスト用物体に対応する第1テスト用物体検出情報ないし第nテスト用物体検出情報を出力させることができる。
この際、前記第1テスト用物体検出情報ないし前記第nテスト用物体検出情報は、テスト用バウンディングボックスに関する情報(すなわち、前記テスト用物体それぞれに関する位置情報)及び前記第1テスト用物体プロポーザルないし前記第nテスト用物体プロポーザルに対応する前記テスト用物体それぞれに関するクラス情報を含むことができる。
前記のような方法により、前記テストイメージ内に位置するサイズが様々な物体、特にサイズが小さく遠距離に位置する前記物体は効率的に検出することが可能となり、また、前記予測されたターゲット領域に対応する領域のみを使用するので演算量を減らすことができ、それに伴って前記CNN基盤の前記物体検出の演算時間を減らすことが可能となる。
また、上記では前記テストイメージ上にターゲット物体が一つである場合を想定して説明したが、前記テストイメージ内にターゲット物体多数がある場合にも、上記のような方法により前記テストイメージ内における前記それぞれのターゲット物体に対応するそれぞれのターゲット領域を利用して前記それぞれのターゲット物体の検出が可能である。
前記CNNは、核心成果指標(KPI)のようなユーザ要求事項に適応することが可能である。すなわち、前記KPIによる解像度や焦点距離(focal length)が変わるようになるに伴って、物体サイズが変われば前記CNNの再設計が可能である。このようなCNNを利用して、ハードウェアは処理速度が向上し、最適化され得る。
本発明によると、イメージコンカチネーションを利用するCNN基盤のハードウェア最適化が可能な前記物体検出器は、軍事目的又は遠距離にある物体検出のために使用することができるようになる。
以上にて説明された本発明による実施例は、多様なコンピュータの構成要素を通じて遂行することができるプログラム命令語の形態で具現されて、コンピュータ読取り可能な記録媒体に格納され得る。前記コンピュータ読取り可能な記録媒体はプログラム命令語、データファイル、データ構造などを単独で又は組み合わせて含むことができる。前記コンピュータ読取り可能な記録媒体に格納されるプログラム命令語は、本発明のために特別に設計されて構成されたものであるか、コンピュータソフトウェア分野の当業者に公知にされて使用可能なものであり得る。コンピュータ読取り可能な記録媒体の例には、ハードディスク、フロッピー(登録商標)ディスク及び磁気テープのような磁気媒体、CD−ROM、DVDのような光記録媒体、フロプティカル・ディスク(floptical disk)のような磁気−光メディア(magneto−optical media)、及びROM、RAM、フラッシュメモリなどのようなプログラム命令語を格納して遂行するように特別に構成されたハードウェア装置が含まれる。プログラム命令語の例には、コンパイラによって作られるもののような機械語コードだけでなく、インタープリターなどを使用してコンピュータによって実行される高級言語コードも含まれる。前記ハードウェア装置は、本発明による処理を実行するために一つ以上のソフトウェアモジュールとして作動するように構成され得、その反対も同様である。
以上にて本発明が具体的な構成要素などのような特定事項と限定された実施例及び図面によって説明されたが、これは本発明のより全般的な理解の一助とするために提供されたものであるに過ぎず、本発明が前記各実施例に限られるものではなく、本発明が属する技術分野において通常の知識を有する者であれば、係る記載から多様な修正及び変形が行われ得る。
従って、本発明の思想は、前記説明された実施例に局限されて定められてはならず、後述する特許請求の範囲だけでなく、本特許請求の範囲と均等または等価的に変形されたものすべては、本発明の思想の範囲に属するといえる。

Claims (30)

  1. イメージコンカチネーション(Image concatenation)を利用した、CNN基盤物体検出器のパラメータを学習する方法において、
    (a)少なくとも一つのトレーニングイメージが入力されると、学習装置が、(i)ターゲット領域予測ネットワークをもって、前記トレーニングイメージまたはこれに対応する一つ以上のリサイズ済みイメージにおいて一つ以上のターゲット物体が位置するものと予測される領域に対応する第1ターゲット領域ないし第nターゲット領域それぞれを予測させ、(ii)イメージ加工ネットワークをもって、前記トレーニングイメージまたはこれに対応するリサイズ済みイメージから、前記第1ターゲット領域ないし前記第nターゲット領域それぞれに対応する第1加工イメージないし第n加工イメージを取得させ、(iii)前記第1加工イメージないし前記第n加工イメージをコンカチネートした統合トレーニングイメージを出力させる段階;
    (b)前記学習装置が、(i)一つ以上のコンボリューションレイヤをもって、一つ以上のコンボリューション演算を前記統合トレーニングイメージに適用することにより、少なくとも一つの統合特徴マップを出力させ、(ii)RPNをもって、前記統合特徴マップを利用して、前記第1加工イメージないし前記第n加工イメージそれぞれ内に位置する一つ以上の物体に対応する第1物体プロポーザルないし第n物体プロポーザルそれぞれを出力させ、(iii)プーリングレイヤをもって、前記統合特徴マップ上で、前記第1物体プロポーザルないし前記第n物体プロポーザルそれぞれに対応するそれぞれの領域に一つ以上のプーリング演算を適用して、少なくとも一つのプーリング済み統合特徴マップを出力させ、(iv)FCレイヤをもって、前記プーリング済み統合特徴マップに少なくとも一つのFC(fully connected)演算を適用して、前記物体に対応する第1物体検出情報ないし第n物体検出情報を出力させる段階;及び
    (c)前記学習装置が、少なくとも一つのFCロスレイヤをもって、前記第1物体検出情報ないし前記第n物体検出情報とこれに対応する原本正解(Ground Truth)とを参照して、一つ以上の第1FCロスないし一つ以上の第nFCロスを取得させることにより、前記第1FCロスないし前記第nFCロスを利用したバックプロパゲーションを通じて、前記FCレイヤ及び前記コンボリューションレイヤのパラメータのうち少なくとも一部を調整させる段階;
    を含むことを特徴とする方法。
  2. 前記(b)段階以後、
    前記学習装置が、少なくとも一つのRPNロスレイヤをもって、前記第1物体プロポーザルないし前記第n物体プロポーザルとこれに対応する原本正解とを参照して、一つ以上の第1RPNロスないし一つ以上の第nRPNロスを取得させることにより、前記第1RPNロスないし前記第nRPNロスを利用したバックプロパゲーションを通じて、前記RPNのパラメータのうち少なくとも一部を調整することを特徴とする請求項1に記載の方法。
  3. 前記(a)段階で、
    前記学習装置が、前記イメージ加工ネットワークをもって、第1加工イメージないし前記第n加工イメージの幅と高さのうち少なくとも一つを同一に調整した後、同一の大きさに調整された前記幅または前記高さ方向に前記第1調整済み加工イメージないし前記第n調整済み加工イメージをコンカチネート(concatenate)させることを特徴とする請求項1に記載の方法。
  4. 前記学習装置が、前記イメージ加工ネットワークをもって、前記第1調整済み加工イメージないし前記第n調整済み加工イメージのうち、隣接するそれぞれの二つの調整済み加工イメージから構成されるそれぞれのペアの間にそれぞれ少なくとも一つのゼロパディング(zero padding)領域を追加させることを特徴とする請求項3に記載の方法。
  5. 前記コンボリューションレイヤの多重コンボリューション演算によって前記統合トレーニングイメージが1/Sに縮小され、前記コンボリューションレイヤそれぞれのカーネルそれぞれの最大サイズをK×Kとする場合、前記ゼロパディング領域の幅が
    Figure 0006846069

    になるようにすることを特徴とする請求項4に記載の方法。
  6. 前記(a)段階で、
    前記学習装置は、前記ターゲット領域予測ネットワークをもって、前記トレーニングイメージまたはこれに対応するリサイズ済みイメージそれぞれに対するそれぞれのスケールヒストグラムを演算させ、前記スケールヒストグラムを参照することにより、前記ターゲット物体が位置するものと予測されるスケールプロポーザルに対応する前記第1ターゲット領域ないし前記第nターゲット領域を予測させることを特徴とする請求項1に記載の方法。
  7. 前記(a)段階で、
    前記学習装置は、前記イメージ加工ネットワークをもって、前記トレーニングイメージまたはこれに対応するリサイズ済みイメージ上で前記第1ターゲット領域ないし前記第nターゲット領域に対応する一つ以上の領域をクロップすることにより、前記第1加工イメージないし前記第n加工イメージを取得させるか、前記トレーニングイメージまたはこれに対応するリサイズ済みイメージ上で前記第1ターゲット領域ないし前記第nターゲット領域に対応する一つ以上の領域をクロップした後にリサイズすることにより、前記第1加工イメージないし前記第n加工イメージを取得させることを特徴とする請求項1に記載の方法。
  8. 前記第1ターゲット領域ないし前記第nターゲット領域は、前記トレーニングイメージ内に位置する前記ターゲット物体のうち互いに異なる多数のターゲット物体に対応するか、前記トレーニングイメージ及びこれに対応するリサイズ済みイメージ内に位置する少なくとも一つの同一のターゲット物体に対応することを特徴とする請求項1に記載の方法。
  9. イメージコンカチネーションを利用したCNN基盤物体検出器をテストする方法において、
    (a)学習装置が、(1)(i)ターゲット領域予測ネットワークをもって、少なくとも一つのトレーニングイメージまたはこれに対応する一つ以上のリサイズされた学習用イメージにおいて一つ以上の学習用ターゲット物体が位置するものと予測される領域に対応する第1学習用ターゲット領域ないし第n学習用ターゲット領域それぞれを予測させ、(ii)イメージ加工ネットワークをもって、前記トレーニングイメージまたはこれに対応するリサイズされた学習用イメージから前記第1学習用ターゲット領域ないし前記第n学習用ターゲット領域それぞれに対応する第1学習用加工イメージないし第n学習用加工イメージを取得させ、(iii)前記第1学習用加工イメージないし前記第n学習用加工イメージをコンカチネートした統合トレーニングイメージを出力させ、(2)(i)一つ以上のコンボリューションレイヤをもって、一つ以上のコンボリューション演算を前記統合トレーニングイメージに適用することにより、少なくとも一つの学習用統合特徴マップを出力させ、(ii)RPNをもって、前記学習用統合特徴マップを利用して、前記第1学習用加工イメージないし前記第n学習用加工イメージそれぞれ内に位置する一つ以上の学習用物体に対応する第1学習用物体プロポーザルないし第n学習用物体プロポーザルそれぞれを出力させ、(iii)プーリングレイヤをもって、前記学習用統合特徴マップ上で、前記第1学習用物体プロポーザルないし前記第n学習用物体プロポーザルそれぞれに対応するそれぞれの領域に一つ以上のプーリング演算を適用して、少なくとも一つの学習用プーリング済み統合特徴マップを出力させ、(iv)FCレイヤをもって、前記学習用プーリング済み統合特徴マップに少なくとも一つのFC(fully connected)演算を適用して、前記学習用物体に対応する第1学習用物体検出情報ないし第n学習用物体検出情報を出力させ、(3)少なくとも一つのFCロスレイヤをもって、前記第1学習用物体検出情報ないし前記第n学習用物体検出情報とこれに対応する原本正解(Ground Truth)とを参照して、一つ以上の第1FCロスないし一つ以上の第nFCロスを取得させることにより、前記第1FCロスないし前記第nFCロスを利用したバックプロパゲーションを通じて、前記FCレイヤ及び前記コンボリューションレイヤのパラメータのうち少なくとも一部を調整した状態で、テスト装置が、少なくとも一つのテストイメージが取得されると、(a−i)前記ターゲット領域予測ネットワークをもって、前記テストイメージまたはこれに対応する一つ以上のリサイズされたテスト用イメージで一つ以上のテスト用ターゲット物体が位置するものと予測される領域に対応する第1テスト用ターゲット領域ないし第nテスト用ターゲット領域それぞれを予測させ、(a−ii)前記イメージ加工ネットワークをもって、前記テストイメージまたはこれに対応するリサイズされたテスト用イメージから、前記第1テスト用ターゲット領域ないし前記第nテスト用ターゲット領域それぞれに対応する第1テスト用加工イメージないし第nテスト用加工イメージを取得させ、(a−iii)前記第1テスト用加工イメージないし前記第nテスト用加工イメージをコンカチネートした統合テストイメージを出力させる段階;及び
    (b)前記テスト装置が、(i)前記コンボリューションレイヤをもって、前記コンボリューション演算を前記統合テストイメージに適用することにより、少なくとも一つのテスト用統合特徴マップを出力させ、(ii)前記RPNをもって、前記テスト用統合特徴マップを利用して、前記第1テスト用加工イメージないし前記第nテスト用加工イメージそれぞれ内に位置する一つ以上のテスト用物体に対応する第1テスト用物体プロポーザルないし第nテスト用物体プロポーザルそれぞれを出力させ、(iii)前記プーリングレイヤをもって、前記テスト用統合特徴マップ上で、前記第1テスト用物体プロポーザルないし前記第nテスト用物体プロポーザルそれぞれに対応するそれぞれの領域に前記プーリング演算を適用して、少なくとも一つのテスト用プーリング済み統合特徴マップを出力させ、(iv)前記FCレイヤをもって、前記テスト用プーリング済み統合特徴マップに前記FC演算を適用して、前記テスト用物体に対応する第1テスト用物体検出情報ないし第nテスト用物体検出情報を出力させる段階;
    を含むことを特徴とする方法。
  10. 前記(a)段階で、
    前記テスト装置が、前記イメージ加工ネットワークをもって、前記第1テスト用加工イメージないし前記第nテスト用加工イメージの幅と高さのうち少なくとも一つを同一に調整した後、同一の大きさに調整された前記幅または前記高さ方向に前記第1テスト用調整済み加工イメージないし前記第nテスト用調整済み加工イメージをコンカチネートさせることを特徴とする請求項9に記載の方法。
  11. 前記テスト装置が、前記イメージ加工ネットワークをもって、前記第1テスト用調整済み加工イメージないし前記第nテスト用調整済み加工イメージのうち、隣接するそれぞれの二つのテスト用調整済み加工イメージから構成されるそれぞれのペアの間にそれぞれ少なくとも一つのゼロパディング領域を追加させることを特徴とする請求項10に記載の方法。
  12. 前記コンボリューションレイヤの多重コンボリューション演算によって前記統合テストイメージが1/Sに縮小され、前記コンボリューションレイヤそれぞれのカーネルそれぞれの最大サイズをK×Kとする場合、前記ゼロパディング領域の幅が
    Figure 0006846069

    になるようにすることを特徴とする請求項11に記載の方法。
  13. 前記(a)段階で、
    前記テスト装置は、前記ターゲット領域予測ネットワークをもって、前記テストイメージまたはこれに対応するリサイズされたテスト用イメージそれぞれに対するそれぞれのテスト用スケールヒストグラムを演算させ、前記テスト用スケールヒストグラムを参照することによって、前記テスト用ターゲット物体が位置するものと予測されるスケールプロポーザルに対応する前記第1テスト用ターゲット領域ないし前記第nテスト用ターゲット領域を予測させることを特徴とする請求項9に記載の方法。
  14. 前記(a)段階 で、
    前記テスト装置は、前記イメージ加工ネットワークをもって、前記テストイメージまたはこれに対応するリサイズされたテスト用イメージ上で前記第1テスト用ターゲット領域ないし前記第nテスト用ターゲット領域に対応する一つ以上の領域をクロップすることにより、前記第1テスト用加工イメージないし前記第nテスト用加工イメージを取得させるか、前記テストイメージまたはこれに対応するリサイズされたテスト用イメージ上で前記第1テスト用ターゲット領域ないし前記第nテスト用ターゲット領域に対応する一つ以上の領域をクロップした後にリサイズすることにより、前記第1テスト用加工イメージないし前記第nテスト用加工イメージを取得させることを特徴とする請求項9に記載の方法。
  15. 前記第1テスト用ターゲット領域ないし前記第nテスト用ターゲット領域は、前記テストイメージ内に位置する前記テスト用ターゲット物体のうち互いに異なる多数のテスト用ターゲット物体に対応するか、又は前記テストイメージ及びこれに対応するリサイズされたテスト用イメージ内に位置する少なくとも一つの同一のテスト用ターゲット物体に対応することを特徴とする請求項9に記載の方法。
  16. イメージコンカチネーションを利用した、CNN基盤物体検出器のパラメータを学習するための学習装置において、
    インストラクションを格納する少なくとも一つのメモリと、
    (I)(i)ターゲット領域予測ネットワークをもって、少なくとも一つのトレーニングイメージまたはこれに対応する一つ以上のリサイズ済みイメージにおいて一つ以上のターゲット物体が位置するものと予測される領域に対応する第1ターゲット領域ないし第nターゲット領域それぞれを予測させ、(ii)イメージ加工ネットワークをもって、前記トレーニングイメージまたはこれに対応するリサイズ済みイメージから、前記第1ターゲット領域ないし前記第nターゲット領域それぞれに対応する第1加工イメージないし第n加工イメージを取得させ、(iii)前記第1加工イメージないし前記第n加工イメージをコンカチネートした統合トレーニングイメージを出力させるプロセス、(II)(i)一つ以上のコンボリューションレイヤをもって、一つ以上のコンボリューション演算を前記統合トレーニングイメージに適用することにより、少なくとも一つの統合特徴マップを出力させ、(ii)RPNをもって、前記統合特徴マップを利用して、前記第1加工イメージないし前記第n加工イメージそれぞれ内に位置する一つ以上の物体に対応する第1物体プロポーザルないし第n物体プロポーザルそれぞれを出力させ、(iii)プーリングレイヤをもって、前記統合特徴マップ上で、前記第1物体プロポーザルないし前記第n物体プロポーザルそれぞれに対応するそれぞれの領域に一つ以上のプーリング演算を適用して、少なくとも一つのプーリング済み統合特徴マップを出力させ、(iv)FCレイヤをもって、前記プーリング済み統合特徴マップに少なくとも一つのFC(fully connected)演算を適用して、前記物体に対応する第1物体検出情報ないし第n物体検出情報を出力させるプロセス、及び(III)少なくとも一つのFCロスレイヤをもって、前記第1物体検出情報ないし前記第n物体検出情報とこれに対応する原本正解(Ground Truth)とを参照して、一つ以上の第1FCロスないし一つ以上の第nFCロスを取得させることにより、前記第1FCロスないし前記第nFCロスを利用したバックプロパゲーションを通じて、前記FCレイヤ及び前記コンボリューションレイヤのパラメータのうち少なくとも一部を調整するプロセスを遂行するための前記各インストラクションを実行するように構成された少なくとも一つのプロセッサと、
    を含むことを特徴とする学習装置。
  17. 前記プロセッサは、
    前記(II)プロセス以後、少なくとも一つのRPNロスレイヤをもって、前記第1物体プロポーザルないし前記第n物体プロポーザルとこれに対応する原本正解とを参照して、一つ以上の第1RPNロスないし一つ以上の第nRPNロスを取得させることにより、前記第1RPNロスないし前記第nRPNロスを利用したバックプロパゲーションを通じて、前記RPNのパラメータのうち少なくとも一部を調整することを特徴とする請求項16に記載の学習装置。
  18. 前記プロセッサは、
    前記(I)プロセスにおいて、前記イメージ加工ネットワークをもって、前記第1加工イメージないし前記第n加工イメージの幅と高さのうち少なくとも一つを同一に調整した後、同一の大きさに調整された前記幅または前記高さ方向に前記第1調整済み加工イメージないし前記第n調整済み加工イメージをコンカチネート(concatenate)させることを特徴とする請求項16に記載の学習装置。
  19. 前記プロセッサは、前記イメージ加工ネットワークをもって、前記第1調整済み加工イメージないし前記第n調整済み加工イメージのうち、隣接するそれぞれの二つの調整済み加工イメージから構成されるそれぞれのペアの間にそれぞれ少なくとも一つのゼロパディング領域を追加させることを特徴とする請求項18に記載の学習装置。
  20. 前記コンボリューションレイヤの多重コンボリューション演算によって前記統合トレーニングイメージが1/Sに縮小され、前記コンボリューションレイヤそれぞれのカーネルそれぞれの最大サイズをK×Kとする場合、前記ゼロパディング領域の幅が
    Figure 0006846069

    になるようにすることを特徴とする請求項19に記載の学習装置。
  21. 前記プロセッサは、
    前記(I)プロセスにおいて、前記ターゲット領域予測ネットワークをもって、前記トレーニングイメージまたはこれに対応するリサイズ済みイメージそれぞれに対するそれぞれのスケールヒストグラムを演算させ、前記スケールヒストグラムを参照することにより、前記ターゲット物体が位置するものと予測されるスケールプロポーザルに対応する前記第1ターゲット領域ないし前記第nターゲット領域を予測させることを特徴とする請求項16に記載の学習装置。
  22. 前記プロセッサは、
    前記(I)プロセスにおいて、前記イメージ加工ネットワークをもって、前記トレーニングイメージまたはこれに対応するリサイズ済みイメージ上で前記第1ターゲット領域ないし前記第nターゲット領域に対応する一つ以上の領域をクロップすることにより、前記第1加工イメージないし前記第n加工イメージを取得させるか、前記トレーニングイメージまたはこれに対応するリサイズ済みイメージ上で前記第1ターゲット領域ないし前記第nターゲット領域に対応する一つ以上の領域をクロップした後にリサイズすることにより、前記第1加工イメージないし前記第n加工イメージを取得させることを特徴とする請求項16に記載の学習装置。
  23. 前記第1ターゲット領域ないし前記第nターゲット領域は、前記トレーニングイメージ内に位置する前記ターゲット物体のうち互いに異なる多数のターゲット物体に対応するか、前記トレーニングイメージ及びこれに対応するリサイズ済みイメージ内に位置する少なくとも一つの同一のターゲット物体に対応することを特徴とする請求項16に記載の学習装置。
  24. イメージコンカチネーションを利用した、CNN基盤物体検出器をテストするためのテスト装置において、
    各インストラクションを格納する少なくとも一つのメモリと、
    学習装置が、(1)(i)ターゲット領域予測ネットワークをもって、少なくとも一つのトレーニングイメージまたはこれに対応する一つ以上のリサイズされた学習用イメージにおいて一つ以上の学習用ターゲット物体が位置するものと予測される領域に対応する第1学習用ターゲット領域ないし第n学習用ターゲット領域それぞれを予測させ、(ii)イメージ加工ネットワークをもって、前記トレーニングイメージまたはこれに対応するリサイズされた学習用イメージから前記第1学習用ターゲット領域ないし前記第n学習用ターゲット領域それぞれに対応する第1学習用加工イメージないし第n学習用加工イメージを取得させ、(iii)前記第1学習用加工イメージないし前記第n学習用加工イメージをコンカチネートした統合トレーニングイメージを出力させ、(2)(i)一つ以上のコンボリューションレイヤをもって、一つ以上のコンボリューション演算を前記統合トレーニングイメージに適用することにより、少なくとも一つの学習用統合特徴マップを出力させ、(ii)RPNをもって、前記学習用統合特徴マップを利用して、前記第1学習用加工イメージないし前記第n学習用加工イメージそれぞれ内に位置する一つ以上の学習用物体に対応する第1学習用物体プロポーザルないし第n学習用物体プロポーザルそれぞれを出力させ、(iii)プーリングレイヤをもって、前記学習用統合特徴マップ上で、前記第1学習用物体プロポーザルないし前記第n学習用物体プロポーザルそれぞれに対応するそれぞれの領域に一つ以上のプーリング演算を適用して、少なくとも一つの学習用プーリング済み統合特徴マップを出力させ、(iv)FCレイヤをもって、前記学習用プーリング済み統合特徴マップに少なくとも一つのFC(fully connected)演算を適用して、前記学習用物体に対応する第1学習用物体検出情報ないし第n学習用物体検出情報を出力させ、(3)少なくとも一つのFCロスレイヤをもって、前記第1学習用物体検出情報ないし前記第n学習用物体検出情報とこれに対応する原本正解(Ground Truth)とを参照して、一つ以上の第1FCロスないし一つ以上の第nFCロスを取得させることにより、前記第1FCロスないし前記第nFCロスを利用したバックプロパゲーションを通じて、前記FCレイヤ及び前記コンボリューションレイヤのパラメータのうち少なくとも一部を調整した状態で、(I)(i)前記ターゲット領域予測ネットワークをもって、少なくとも一つのテストイメージまたはこれに対応する一つ以上のリサイズされたテスト用イメージで一つ以上のテスト用ターゲット物体が位置するものと予測される領域に対応する第1テスト用ターゲット領域ないし第nテスト用ターゲット領域それぞれを予測させ、(ii)前記イメージ加工ネットワークをもって、前記テストイメージまたはこれに対応するリサイズされたテスト用イメージから前記第1テスト用ターゲット領域ないし前記第nテスト用ターゲット領域それぞれに対応する第1テスト用加工イメージないし第nテスト用加工イメージを取得させ、(iii)前記第1テスト用加工イメージないし前記第nテスト用加工イメージをコンカチネートした統合テストイメージを出力させるプロセス、及び(II)(i)前記コンボリューションレイヤをもって、前記コンボリューション演算を前記統合テストイメージに適用することにより、少なくとも一つのテスト用統合特徴マップを出力させ、(ii)前記RPNをもって、前記テスト用統合特徴マップを利用して、前記第1テスト用加工イメージないし前記第nテスト用加工イメージそれぞれ内に位置する一つ以上のテスト用物体に対応する第1テスト用物体プロポーザルないし第nテスト用物体プロポーザルそれぞれを出力させ、(iii)前記プーリングレイヤをもって、前記テスト用統合特徴マップ上で、前記第1テスト用物体プロポーザルないし前記第nテスト用物体プロポーザルそれぞれに対応するそれぞれの領域に前記プーリング演算を適用して、少なくとも一つのテスト用プーリング済み統合特徴マップを出力させ、(iv)前記FCレイヤをもって、前記テスト用プーリング済み統合特徴マップに前記FC演算を適用して、前記テスト用物体に対応する第1テスト用物体検出情報ないし第nテスト用物体検出情報を出力させるプロセスを遂行するための前記各インストラクションを実行するように構成された少なくとも一つのプロセッサと、
    を含むことを特徴とするテスト装置。
  25. 前記プロセッサは、
    前記(I)プロセスにおいて、前記イメージ加工ネットワークをもって、前記第1テスト用加工イメージないし前記第nテスト用加工イメージの幅と高さのうち少なくとも一つを同一に調整した後、同一の大きさに調整された前記幅または前記高さ方向に前記第1テスト用調整済み加工イメージないし前記第nテスト用調整済み加工イメージをコンカチネートさせることを特徴とする請求項24に記載のテスト装置。
  26. 前記プロセッサは、前記イメージ加工ネットワークをもって、第1テスト用調整済み加工イメージないし前記第nテスト用調整済み加工イメージのうち、隣接するそれぞれの二つのテスト用調整済み加工イメージから構成されるそれぞれのペアの間にそれぞれ少なくとも一つのゼロパディング領域を追加させることを特徴とする請求項25に記載のテスト装置。
  27. 前記コンボリューションレイヤの多重コンボリューション演算によって前記統合テストイメージが1/Sに縮小され、前記コンボリューションレイヤそれぞれのカーネルそれぞれの最大サイズをK×Kとする場合、前記ゼロパディング領域の幅が
    Figure 0006846069

    になるようにすることを特徴とする請求項26に記載のテスト装置。
  28. 前記プロセッサは、
    前記(I)プロセスにおいて、前記ターゲット領域予測ネットワークをもって、前記テストイメージまたはこれに対応するリサイズされたテスト用イメージそれぞれに対するそれぞれのテスト用スケールヒストグラムを演算させ、前記テスト用スケールヒストグラムを参照することによって、前記テスト用ターゲット物体が位置するものと予測されるスケールプロポーザルに対応する前記第1テスト用ターゲット領域ないし前記第nテスト用ターゲット領域を予測させることを特徴とする請求項24に記載のテスト装置。
  29. 前記プロセッサは、
    前記(I)プロセスにおいて、前記イメージ加工ネットワークをもって、前記テストイメージまたはこれに対応するリサイズされたテスト用イメージ上で前記第1テスト用ターゲット領域ないし前記第nテスト用ターゲット領域に対応する一つ以上の領域をクロップすることにより、前記第1テスト用加工イメージないし前記第nテスト用加工イメージを取得させるか、前記テストイメージまたはこれに対応するリサイズされたテスト用イメージ上で前記第1テスト用ターゲット領域ないし前記第nテスト用ターゲット領域に対応する一つ以上の領域をクロップした後にリサイズすることにより、前記第1テスト用加工イメージないし前記第nテスト用加工イメージを取得させることを特徴とする請求項24に記載のテスト装置。
  30. 前記第1テスト用ターゲット領域ないし前記第nテスト用ターゲット領域は、前記テストイメージ内に位置する前記テスト用ターゲット物体のうち互いに異なる多数のテスト用ターゲット物体に対応するか、又は前記テストイメージ及びこれに対応するリサイズされたテスト用イメージ内に位置する少なくとも一つの同一のテスト用ターゲット物体に対応することを特徴とする請求項24に記載のテスト装置。
JP2020002303A 2019-01-22 2020-01-09 遠距離検出または軍事目的のために、イメージコンカチネーションを利用したcnn基盤のハードウェア最適化が可能な物体検出器を学習する方法及び学習装置、それを利用したテスト方法及びテスト装置{learning method and learning device for object detector with hardware optimization based on cnn for detection at distance or military purpose using image concatenation, and testing method and testing device using the same} Active JP6846069B2 (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US16/254,279 US10387752B1 (en) 2019-01-22 2019-01-22 Learning method and learning device for object detector with hardware optimization based on CNN for detection at distance or military purpose using image concatenation, and testing method and testing device using the same
US16/254279 2019-01-22

Publications (2)

Publication Number Publication Date
JP2020119540A JP2020119540A (ja) 2020-08-06
JP6846069B2 true JP6846069B2 (ja) 2021-03-24

Family

ID=67620645

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2020002303A Active JP6846069B2 (ja) 2019-01-22 2020-01-09 遠距離検出または軍事目的のために、イメージコンカチネーションを利用したcnn基盤のハードウェア最適化が可能な物体検出器を学習する方法及び学習装置、それを利用したテスト方法及びテスト装置{learning method and learning device for object detector with hardware optimization based on cnn for detection at distance or military purpose using image concatenation, and testing method and testing device using the same}

Country Status (5)

Country Link
US (1) US10387752B1 (ja)
EP (1) EP3686781A1 (ja)
JP (1) JP6846069B2 (ja)
KR (1) KR102337367B1 (ja)
CN (1) CN111460877B (ja)

Families Citing this family (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2018211144A1 (en) * 2017-05-19 2018-11-22 Deepmind Technologies Limited Making object-level predictions of the future state of a physical system
US10572770B2 (en) * 2018-06-15 2020-02-25 Intel Corporation Tangent convolution for 3D data
US10915793B2 (en) * 2018-11-08 2021-02-09 Huawei Technologies Co., Ltd. Method and system for converting point cloud data for use with 2D convolutional neural networks
US20210056357A1 (en) * 2019-08-19 2021-02-25 Board Of Trustees Of Michigan State University Systems and methods for implementing flexible, input-adaptive deep learning neural networks
KR102637342B1 (ko) 2021-03-17 2024-02-16 삼성전자주식회사 대상 객체를 추적하는 방법과 장치 및 전자 장치
CN113034456B (zh) * 2021-03-18 2023-07-28 北京百度网讯科技有限公司 螺栓松动的检测方法、装置、设备以及存储介质
KR102618066B1 (ko) 2023-07-11 2023-12-27 같다커뮤니케이션 주식회사 군인 기반 커뮤니티 애플리케이션에서 자연어 처리 및 이미지 대조를 기반으로 하여 군사 보안을 강화하는 방법, 장치 및 시스템

Family Cites Families (32)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9536293B2 (en) * 2014-07-30 2017-01-03 Adobe Systems Incorporated Image assessment using deep convolutional neural networks
CN106156807B (zh) * 2015-04-02 2020-06-02 华中科技大学 卷积神经网络模型的训练方法及装置
WO2016165060A1 (en) * 2015-04-14 2016-10-20 Intel Corporation Skin detection based on online discriminative modeling
US9965719B2 (en) * 2015-11-04 2018-05-08 Nec Corporation Subcategory-aware convolutional neural networks for object detection
US9881234B2 (en) * 2015-11-25 2018-01-30 Baidu Usa Llc. Systems and methods for end-to-end object detection
JP2018005506A (ja) * 2016-06-30 2018-01-11 株式会社東芝 画像認識手法評価装置、画像認識手法評価方法、及びプログラム
US20180039853A1 (en) * 2016-08-02 2018-02-08 Mitsubishi Electric Research Laboratories, Inc. Object Detection System and Object Detection Method
US10354159B2 (en) * 2016-09-06 2019-07-16 Carnegie Mellon University Methods and software for detecting objects in an image using a contextual multiscale fast region-based convolutional neural network
US10354362B2 (en) * 2016-09-08 2019-07-16 Carnegie Mellon University Methods and software for detecting objects in images using a multiscale fast region-based convolutional neural network
US11308350B2 (en) * 2016-11-07 2022-04-19 Qualcomm Incorporated Deep cross-correlation learning for object tracking
US10846523B2 (en) * 2016-11-14 2020-11-24 Kodak Alaris Inc. System and method of character recognition using fully convolutional neural networks with attention
US10380741B2 (en) * 2016-12-07 2019-08-13 Samsung Electronics Co., Ltd System and method for a deep learning machine for object detection
US10262237B2 (en) * 2016-12-08 2019-04-16 Intel Corporation Technologies for improved object detection accuracy with multi-scale representation and training
CN108303748A (zh) * 2017-01-12 2018-07-20 同方威视技术股份有限公司 检查设备和检测行李物品中的枪支的方法
KR101902883B1 (ko) * 2017-02-22 2018-10-01 연세대학교 산학협력단 컴퓨터 단층촬영 영상에서 플라크를 분석하기 위한 방법 및 장치
US10185878B2 (en) * 2017-02-28 2019-01-22 Microsoft Technology Licensing, Llc System and method for person counting in image data
US10635927B2 (en) * 2017-03-06 2020-04-28 Honda Motor Co., Ltd. Systems for performing semantic segmentation and methods thereof
JP6787196B2 (ja) * 2017-03-09 2020-11-18 コニカミノルタ株式会社 画像認識装置及び画像認識方法
US10678846B2 (en) * 2017-03-10 2020-06-09 Xerox Corporation Instance-level image retrieval with a region proposal network
US20180260414A1 (en) * 2017-03-10 2018-09-13 Xerox Corporation Query expansion learning with recurrent networks
US11010595B2 (en) * 2017-03-23 2021-05-18 Samsung Electronics Co., Ltd. Facial verification method and apparatus
US10325342B2 (en) * 2017-04-27 2019-06-18 Apple Inc. Convolution engine for merging interleaved channel data
US10460470B2 (en) * 2017-07-06 2019-10-29 Futurewei Technologies, Inc. Recognition and reconstruction of objects with partial appearance
US10503978B2 (en) * 2017-07-14 2019-12-10 Nec Corporation Spatio-temporal interaction network for learning object interactions
KR101880901B1 (ko) * 2017-08-09 2018-07-23 펜타시큐리티시스템 주식회사 기계 학습 방법 및 장치
JP6972757B2 (ja) * 2017-08-10 2021-11-24 富士通株式会社 制御プログラム、制御方法、及び情報処理装置
JP6972756B2 (ja) * 2017-08-10 2021-11-24 富士通株式会社 制御プログラム、制御方法、及び情報処理装置
US10679351B2 (en) * 2017-08-18 2020-06-09 Samsung Electronics Co., Ltd. System and method for semantic segmentation of images
CN107492099B (zh) * 2017-08-28 2021-08-20 京东方科技集团股份有限公司 医学图像分析方法、医学图像分析系统以及存储介质
US9984325B1 (en) * 2017-10-04 2018-05-29 StradVision, Inc. Learning method and learning device for improving performance of CNN by using feature upsampling networks, and testing method and testing device using the same
US10169679B1 (en) * 2017-10-13 2019-01-01 StradVision, Inc. Learning method and learning device for adjusting parameters of CNN by using loss augmentation and testing method and testing device using the same
US10007865B1 (en) * 2017-10-16 2018-06-26 StradVision, Inc. Learning method and learning device for adjusting parameters of CNN by using multi-scale feature maps and testing method and testing device using the same

Also Published As

Publication number Publication date
KR20200091324A (ko) 2020-07-30
CN111460877A (zh) 2020-07-28
JP2020119540A (ja) 2020-08-06
US10387752B1 (en) 2019-08-20
EP3686781A1 (en) 2020-07-29
KR102337367B1 (ko) 2021-12-10
CN111460877B (zh) 2023-10-13

Similar Documents

Publication Publication Date Title
JP6846069B2 (ja) 遠距離検出または軍事目的のために、イメージコンカチネーションを利用したcnn基盤のハードウェア最適化が可能な物体検出器を学習する方法及び学習装置、それを利用したテスト方法及びテスト装置{learning method and learning device for object detector with hardware optimization based on cnn for detection at distance or military purpose using image concatenation, and testing method and testing device using the same}
US10509987B1 (en) Learning method and learning device for object detector based on reconfigurable network for optimizing customers' requirements such as key performance index using target object estimating network and target object merging network, and testing method and testing device using the same
JP6853560B2 (ja) 高精度イメージを分析するディープラーニングネットワークの学習に利用するためのトレーニングイメージをオートラベリングするための方法、及びこれを利用したオートラベリング装置{method for auto−labeling training images for use in deep learning network to analyze images with high precision, and auto−labeling device using the same}
JP6908943B2 (ja) イメージコンカチネーションと、ターゲット物体予測ネットワークとを利用して、多重カメラ又はサラウンドビューモニタリングに利用される物体検出器を学習する方法及び学習装置、並びにこれを利用したテスティング方法及びテスティング装置
JP6908944B2 (ja) 多重カメラまたはサラウンドビューモニタリングに利用されるために、ターゲット物体統合ネットワーク及びターゲット物体予測ネットワークを利用して、重要業績評価指標のようなユーザー要求事項に適用可能なcnn基盤の物体検出器を学習する方法及び学習装置、並びにこれを利用したテスティング方法及びテスティング装置
JP6850046B2 (ja) 重要業績評価指標のようなユーザ要求事項に適したターゲット物体予測ネットワークを用いた、cnn基盤の変動に強い物体検出器を学習する方法及び学習装置、並びにこれを利用したテスティング方法及びテスティング装置
US10410120B1 (en) Learning method and testing method of object detector to be used for surveillance based on R-CNN capable of converting modes according to aspect ratios or scales of objects, and learning device and testing device using the same
KR20200039547A (ko) 트래킹 네트워크를 포함한 cnn을 사용하여 객체를 트래킹하는 방법 및 이를 이용한 장치
US10402978B1 (en) Method for detecting pseudo-3D bounding box based on CNN capable of converting modes according to poses of objects using instance segmentation and device using the same
KR20200027889A (ko) CNN(Convolutional Neural Network)을 사용하여 차선을 검출하기 위한 학습 방법 및 학습 장치 그리고 이를 이용한 테스트 방법 및 테스트 장치
CN111738206A (zh) 基于CenterNet的用于无人机巡检的挖掘机检测方法
EP3686807A2 (en) Learning method and learning device for object detector to be used for surveillance based on convolutional neural network capable of converting modes according to scales of objects, and testing method and testing device using the same
US10474543B1 (en) Method and device for economizing computing resources to be used during a process of verification of convolutional parameters using test pattern to enhance fault tolerance and fluctuation robustness in extreme situations
KR102464358B1 (ko) 머신러닝에 기반하여 이미지에 대응되는 공간 정보를 추정하기 위한 방법 및 이를 이용한 공간 추정 장치

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20200110

RD02 Notification of acceptance of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7422

Effective date: 20200706

RD04 Notification of resignation of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7424

Effective date: 20200709

RD13 Notification of appointment of power of sub attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7433

Effective date: 20201022

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20210201

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20210210

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20210219

R150 Certificate of patent or registration of utility model

Ref document number: 6846069

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250