JP2019075122A - プーリングタイプに対する情報を含むテーブルを作成するための方法、装置及びこれを利用したテスティング方法、テスティング装置 - Google Patents

プーリングタイプに対する情報を含むテーブルを作成するための方法、装置及びこれを利用したテスティング方法、テスティング装置 Download PDF

Info

Publication number
JP2019075122A
JP2019075122A JP2018194937A JP2018194937A JP2019075122A JP 2019075122 A JP2019075122 A JP 2019075122A JP 2018194937 A JP2018194937 A JP 2018194937A JP 2018194937 A JP2018194937 A JP 2018194937A JP 2019075122 A JP2019075122 A JP 2019075122A
Authority
JP
Japan
Prior art keywords
learning
feature map
bounding box
pooling
table creation
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2018194937A
Other languages
English (en)
Other versions
JP6707608B2 (ja
Inventor
キム、ヨンジョン
Yongjoong Kim
ナム、ウンユン
Woonhyun Nam
ボ、シュクフン
Sukhoon Boo
シュン、ミュンチュル
Myungchul Sung
エオ、ドンフン
Donghun Yeo
リュウ、ウージュ
Wooju Ryu
ジャン、タエウォン
Taewoong Jang
ジョン、キュンジョン
Kyungjoong Jeong
ジェ、ホンモ
Hong Mo Je
チョ、ホジン
Hojin Cho
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Stradvision Inc
Original Assignee
Stradvision Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Stradvision Inc filed Critical Stradvision Inc
Publication of JP2019075122A publication Critical patent/JP2019075122A/ja
Application granted granted Critical
Publication of JP6707608B2 publication Critical patent/JP6707608B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T1/00General purpose image data processing
    • G06T1/0007Image acquisition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2413Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on distances to training or reference patterns
    • G06F18/24133Distances to prototypes
    • G06F18/24137Distances to cluster centroïds
    • G06F18/2414Smoothing the distance, e.g. radial basis function networks [RBFN]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T11/002D [Two Dimensional] image generation
    • G06T11/20Drawing from basic elements, e.g. lines or circles
    • G06T11/203Drawing of straight lines or curves
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/10Segmentation; Edge detection
    • G06T7/11Region-based segmentation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T9/00Image coding
    • G06T9/002Image coding using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/25Determination of region of interest [ROI] or a volume of interest [VOI]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/44Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
    • G06V10/443Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components by matching or filtering
    • G06V10/449Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters
    • G06V10/451Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters with interaction between the filter responses, e.g. cortical complex cells
    • G06V10/454Integrating the filters into a hierarchical structure, e.g. convolutional neural networks [CNN]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/764Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20021Dividing image into blocks, subimages or windows
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20081Training; Learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20084Artificial neural networks [ANN]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20112Image segmentation details
    • G06T2207/20132Image cropping

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Multimedia (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Computing Systems (AREA)
  • Software Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Data Mining & Analysis (AREA)
  • Molecular Biology (AREA)
  • Biomedical Technology (AREA)
  • General Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Biophysics (AREA)
  • Mathematical Physics (AREA)
  • Databases & Information Systems (AREA)
  • Medical Informatics (AREA)
  • Biodiversity & Conservation Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Image Analysis (AREA)

Abstract

【課題】少なくとも一つのテーブル作成用イメージ内の少なくとも一つの客体のスケール範囲別にプーリングタイプに対する情報を含むテーブルを作成するための方法を提供する。【解決手段】方法は、マックスプーリングを適用して第1プーリング済み特徴マップと平均プーリングを適用して第2プーリング済み特徴マップを生成する段階、第1プーリング済み特徴マップを利用して第1候補バウンディングボックスを獲得し、第2プーリング済み特徴マップを利用して第2候補バウンディングボックスを獲得する段階、及び第1候補バウンディングボックスと原本正解バウンディングボックス間の第1類似度と第2候補バウンディングボックスと原本正解バウンディングボックス間の第2類似度を比較して、客体のスケールの各範囲別に各々の最適プーリングタイプに対する情報を含むようにテーブルを形成する段階を含む。【選択図】図3

Description

本発明はプーリングタイプに対する情報を含むテーブルを作成するための方法及び装置、そしてこれを利用したテスト方法及びテスティング装置に関する。具体的に本発明は少なくとも一つのテーブル作成用イメージ内の少なくとも一つの客体のスケール範囲別にプーリングタイプに対する情報を含むテーブルを作成するための方法において、(a)(i)学習イメージがコンボリューションレイヤに入力されて所定の演算結果少なくとも一つ以上の学習用特徴マップが獲得され、前記学習イメージ上で学習用ROI(region−of−interest)領域がRPN(Region Proposal Network)から獲得されると、前記学習装置は、前記学習用ROI領域に対応される前記学習用特徴マップ上の領域を複数のサブ−区域に区分するか区分するように支援するプロセス、(ii)前記学習装置は、(ii−1)前記複数のサブ−区域各々に含まれたすべてのピクセルのうち前記サブ−区域毎に最大値のピクセルを選択するマックスプーリング演算を適用する場合に、前記一つ以上の特徴マップ内の学習用ROIに対応する、一つ以上の領域に対して一つ以上の前記マックスプーリング演算を適用して、学習用第1プーリング済み特徴マップを生成するか生成するように支援し、(ii−2)前記複数のサブ−区域各々に含まれた前記すべてのピクセルのうち前記サブ−区域毎に平均値を獲得する平均プーリング演算を適用する場合に、前記一つ以上の特徴マップ内の前記学習用ROIに対応する、一つ以上の領域に一つ以上の平均プーリングを適用して、学習用第2プーリング済み特徴マップを生成するか生成するように支援するプロセス、(iii)前記学習装置は、(iii−1)第1FC(Fully Connected)レイヤをもって、前記学習用第1プーリング済み特徴マップにリグレッション(regression)演算を適用して学習用第1候補バウンディングボックスのピクセルデータに対する情報を獲得するようにし、第1ロスレイヤをもって、前記学習用第1候補バウンディングボックスのピクセルデータに対する情報と第1原本正解イメージのバウンディングボックスのピクセルデータに対する情報を比較して第1比較データを獲得するようにして、前記第1比較データを利用してバックプロパゲーションを遂行して前記CNNの少なくとも一つのパラメータに対して調節をするプロセス及び(iii−2)第2FCレイヤをもって、前記学習用第2プーリング済み特徴マップにリグレッション(regression)演算を適用して学習用第2候補バウンディングボックスのピクセルデータ情報を獲得するようにし、第2ロスレイヤをもって、前記学習用第2候補バウンディングボックスのピクセルデータに対する情報と第1原本正解イメージのバウンディングボックスのピクセルデータ情報と比較して第2比較データを獲得するようにして、前記第2比較データを利用してバックプロパゲーションを遂行して前記CNNの少なくとも一つのパラメータに対して調節をするプロセス;を遂行して、前記学習装置の調節されたパラメータが獲得された状態で、テーブル作成装置が、前記調節されたパラメータを備えたCNNの入力として客体を含むテーブル作成用イメージを獲得するか、他の装置をもって獲得するようにする段階;(b)前記テーブル作成装置が、前記複数個のコンボリューションレイヤをもって前記テーブル作成用イメージにコンボリューション演算を適用するようにして少なくとも一つのテーブル作成用特徴マップが獲得されるようにし、前記RPNをもって前記テーブル作成用特徴マップに所定の演算を適用してテーブル作成用ROI領域が獲得されるようにする段階;(c)前記テーブル作成装置は、(c−1)前記一つ以上の特徴マップで、前記テーブル作成用ROIに対応する、一つ以上の領域に対して一つ以上のマックスプーリングを適用してテーブル作成用第1プーリング済み特徴マップを生成し、(c−2)前記一つ以上の特徴マップで、前記テーブル作成用ROIに対応する、一つ以上の領域に対して一つ以上の平均プーリングを適用してテーブル作成用第2プーリング済み特徴マップを生成し、(c−3)前記第1FCレイヤをもって、前記テーブル作成用第1プーリング済み特徴マップにリグレッション(regression)演算を適用してテーブル作成用第1候補バウンディングボックスのピクセルデータに対する情報を獲得するようにし、(c−4)第2FCレイヤをもって、前記テーブル作成用第2プーリング済み特徴マップにリグレッション演算を適用してテーブル作成用第2候補バウンディングボックスのピクセルデータに対する情報を獲得するようにする段階;及び(d)前記テーブル作成装置は、前記テーブル作成用第1候補バウンディングボックスと第2原本正解イメージ内のバウンディングボックス間の第1類似度及び前記テーブル作成用第2候補バウンディングボックスと前記第2原本正解イメージ内のバウンディングボックス間の第2類似度を比較して、前記第2原本正解イメージ内の客体または前記テーブル作成用イメージ内の客体の前記スケールの各範囲別に各々の最適のプーリングタイプ(type)に対する情報を含むようにテーブルを作成する段階;を含む少なくとも一つのテーブル作成用イメージ内の少なくとも一つの客体のスケール範囲別にプーリングタイプに対する情報を含むテーブルを作成するための方法及び装置、そしてこれを利用したテスト方法及びテスティング装置に関する。
機械学習で、CNN(Convolutional Neural Network;or ConvNet)は視覚心像(visual imagery)を分析するのに成功的に適用されてきたディープ、フィードフォワード人工ニューラルネットワーク(deep,feed−forward artificial neural network)分野である。
図1は既存のCNNを用いた学習過程を示したものであって、学習装置によって予測されたバウンディングボックスを原本正解のバウンディングボックスと比較する過程を示した図面である。図1を参照すれば、既存の学習装置がバウンディングボックスを獲得してこれを原本正解のバウンディングボックスと比較してロス値を獲得する過程が示されている。ここで、ロスはバウンディングボックスと原本正解のバウンディングボックスの差値を意味して図1ではdxc、dyc、dw、dhで示されている。
まず、図1に示されたような学習装置は学習イメージ、例えば、RGBイメージを入力されてコンボリューションブロックに含まれた多数のコンボリューションレイヤ、即ちコンボリューションフィルタに伝達されて、特徴マップを生成し得る。RGBイメージがコンボリューションレイヤを経るほど特徴マップの幅、高さが減少するが、チャネル数は増加する。
次に、学習装置はコンボリューションブロックから出力された最終特徴マップをRPN(Region Proposal Network)に通過させてプロポーザルボックス(proposal boxes)を生成するようにし、プーリングレイヤ、例えばROIプーリングレイヤをもって、プロポーザルボックスに対応する特徴マップのピクセルデータにマックスプーリング演算(または平均プーリング演算)を適用して、プロポーザルボックスに対応する特徴マップの領域を特定サイズ、例えば2×2の大きさにリサイズする。その結果、プーリング済み特徴マップが獲得される。参考までに、プーリング済み特徴マップは、特徴ベクタ(feature vector)と称することもある。ここで、マックスプーリング演算は図1に示されたように、特徴マップの対象領域で分割されたサブ−区域で最大の値を前記対象領域の代表値に各々選定する方法である。
その次に、プーリング済み特徴マップはFCレイヤ(Fully connected layer)に入力され得る。
すると、学習装置はFCレイヤをもってRGBイメージ内の客体の種類(カテゴリ)を識別し得るようにする。また、FCレイヤ(layer)を通じてRGBイメージ内の予測されたバウンディングボックスを獲得し得て、前記獲得されたバウンディングボックスを原本正解(ground truth)のバウンディングボックスと比較して差値であるロス値が求められ得る。ここで、原本正解のバウンディングボックスはイメージ上の客体を正確に含むバウンディングボックスであって、一般的には人が直接生成し得る。
以後、図1の学習装置はバックプロパゲーションを遂行しながら前記ロス(loss)値を減少させるためにFCレイヤのパラメータ、RPNのパラメータ、多数のコンボリューションレイヤのパラメータのうち少なくともいずれか一つを調節し得る。
前記パラメータを調節することで調節されたパラメータを有するCNNを備えたテスティング装置(未図示)は後でテストイメージで客体を囲むバウンディングボックスを獲得し得る。ところが、テスティング装置が調節されたパラメータを有するCNNを含むとしても、客体のカテゴリや客体のスケールが異なるにもかかわらず、所定のプーリング演算、例えばマックスプーリング演算または平均プーリング演算によって千編一律的な演算を遂行し得るに過ぎないので、テストイメージ内の客体を囲んだバウンディングボックスを正確に獲得することは相当困難である。
これに伴い、本発明の出願人は上述した短所を克服するために最適のプーリングタイプに対する情報を含むテーブルを作成するための方法及び装置、そしてこれを利用したテスト方法及びテスティング装置を提案しようとする。
本発明は上述した問題点をすべて解決することを目的とする。
また、本発明は客体の種類及び客体のスケールの範囲別にマックスプーリング及び平均プーリングの性能情報を対応させて記録したテーブルを参照するようにすることで、客体の種類及び客体のスケールの範囲別にマックスプーリングまたは平均プーリングのうち最適プーリングタイプが自動で選択されるようにすることを他の目的とする。
また、本発明は最適プーリングタイプの情報を含むテーブルを参照してテストイメージにプーリング演算を適用することを他の目的とする。
本発明の一態様によれば、少なくとも一つのテーブル作成用イメージ内の少なくとも一つの客体のスケール範囲別にプーリングタイプに対する情報を含むテーブルを作成するための方法は、(a)(i)学習イメージがコンボリューションレイヤに入力されて所定の演算結果少なくとも一つ以上の学習用特徴マップが獲得され、前記学習イメージ上で学習用ROI(region−of−interest)領域がRPN(Region Proposal Network)から獲得されると、前記学習装置は、前記学習用ROI領域に対応される前記学習用特徴マップ上の領域を複数のサブ−区域に区分するか区分するように支援するプロセス、(ii)前記学習装置は、(ii−1)前記複数のサブ−区域各々に含まれたすべてのピクセルのうち前記サブ−区域毎に最大値のピクセルを選択するマックスプーリング演算を適用する場合に、前記一つ以上の特徴マップ内の学習用ROIに対応する、一つ以上の領域に対して一つ以上の前記マックスプーリング演算を適用して、学習用第1プーリング済み特徴マップを生成するか生成するように支援し、(ii−2)前記複数のサブ−区域各々に含まれた前記すべてのピクセルのうち前記サブ−区域毎に平均値を獲得する平均プーリング演算を適用する場合に、前記一つ以上の特徴マップ内の前記学習用ROIに対応する、一つ以上の領域に一つ以上の平均プーリングを適用して、学習用第2プーリング済み特徴マップを生成するか生成するように支援するプロセス、(iii)前記学習装置は、(iii−1)第1FC(Fully Connected)レイヤをもって、前記学習用第1プーリング済み特徴マップにリグレッション(regression)演算を適用して学習用第1候補バウンディングボックスのピクセルデータに対する情報を獲得するようにし、第1ロスレイヤをもって、前記学習用第1候補バウンディングボックスのピクセルデータに対する情報と第1原本正解イメージのバウンディングボックスのピクセルデータに対する情報を比較して第1比較データを獲得するようにして、前記第1比較データを利用してバックプロパゲーションを遂行して前記CNNの少なくとも一つのパラメータに対して調節をするプロセス及び(iii−2)第2FCレイヤをもって、前記学習用第2プーリング済み特徴マップにリグレッション(regression)演算を適用して学習用第2候補バウンディングボックスのピクセルデータ情報を獲得するようにし、第2ロスレイヤをもって、前記学習用第2候補バウンディングボックスのピクセルデータに対する情報と第1原本正解イメージのバウンディングボックスのピクセルデータ情報と比較して第2比較データを獲得するようにして、前記第2比較データを利用してバックプロパゲーションを遂行して前記CNNの少なくとも一つのパラメータに対して調節をするプロセス;を遂行して、前記学習装置の調節されたパラメータが獲得された状態で、テーブル作成装置が、前記調節されたパラメータを備えたCNNの入力として客体を含むテーブル作成用イメージを獲得するか、他の装置をもって獲得するようにする段階;(b)前記テーブル作成装置が、前記複数個のコンボリューションレイヤをもって前記テーブル作成用イメージにコンボリューション演算を適用するようにして少なくとも一つのテーブル作成用特徴マップが獲得されるようにし、前記RPNをもって前記テーブル作成用特徴マップに所定の演算を適用してテーブル作成用ROI領域が獲得されるようにする段階;(c)前記テーブル作成装置は、(c−1)前記一つ以上の特徴マップで、前記テーブル作成用ROIに対応する、一つ以上の領域に対して一つ以上のマックスプーリングを適用してテーブル作成用第1プーリング済み特徴マップを生成し、(c−2)前記一つ以上の特徴マップで、前記テーブル作成用ROIに対応する、一つ以上の領域に対して一つ以上の平均プーリングを適用してテーブル作成用第2プーリング済み特徴マップを生成し、(c−3)前記第1FCレイヤをもって、前記テーブル作成用第1プーリング済み特徴マップにリグレッション(regression)演算を適用してテーブル作成用第1候補バウンディングボックスのピクセルデータに対する情報を獲得するようにし、(c−4)第2FCレイヤをもって、前記テーブル作成用第2プーリング済み特徴マップにリグレッション演算を適用してテーブル作成用第2候補バウンディングボックスのピクセルデータに対する情報を獲得するようにする段階;及び(d)前記テーブル作成装置は、前記テーブル作成用第1候補バウンディングボックスと第2原本正解イメージ内のバウンディングボックス間の第1類似度及び前記テーブル作成用第2候補バウンディングボックスと前記第2原本正解イメージ内のバウンディングボックス間の第2類似度を比較して、前記第2原本正解イメージ内の客体または前記テーブル作成用イメージ内の客体の前記スケールの各範囲別に各々の最適のプーリングタイプ(type)に対する情報を含むようにテーブルを作成する段階;を含むことを特徴とする方法が提供される。
一例として、前記(c)段階の(c−1)及び(c−2)プロセスで、前記テーブル作成装置が、前記一つ以上の特徴マップのうち一つの特定特徴マップ内の、前記テーブル作成用ROIに対応する、ある特定領域にマックスプーリング演算のうち一つを適用して前記テーブル作成用第1プーリング済み特徴マップを生成し、前記一つ以上の特徴マップのうち前記一つの特定特徴マップ内の、前記テーブル作成用ROIに対応する、前記ある特定領域に平均プーリング演算のうち一つを適用して前記テーブル作成用第2プーリング済み特徴マップを生成することを特徴とする方法が提供される。
一例として、前記(c)段階の(c−1)及び(c−2)プロセスで、前記テーブル作成装置が、前記一つ以上の特徴マップのうち多数の特定特徴マップ内の、前記テーブル作成用ROIに対応する、多数の特定領域にマックスプーリング演算を適用して前記テーブル作成用第1プーリング済み特徴マップを生成し、前記一つ以上の特徴マップのうち前記多数の特定特徴マップ内の、前記テーブル作成用ROIに対応する、前記多数の特定領域に平均プーリング演算を適用して前記テーブル作成用第2プーリング済み特徴マップを生成することを特徴とする方法が提供される。
一例として、前記(d)段階で、前記最適のプーリングタイプ各々は、(i)前記多数の特定特徴マップに対応する多数の特定サブ−プーリングタイプまたは(ii)前記多数の特定サブ−プーリングタイプを参照して定義された一つの統合プーリングタイプを含むことを特徴とする方法が提供される。
一例として、前記(d)段階で、前記テーブル装置は、(i)前記テーブル作成用第1候補バウンディングボックスと前記第2原本正解イメージ内のバウンディングボックス間の第1類似度と(ii)前記テーブル作成用第2候補バウンディングボックスと前記第2原本正解イメージ内のバウンディングボックス間の第2類似度を比較して、(i)前記第2原本正解イメージ内の客体または前記テーブル作成用イメージ内の客体のスケールの各範囲、及び(ii)前記客体の各カテゴリ別に、各々の最適のプーリングタイプに対する情報を含むように前記テーブルを作成することを特徴とする方法が提供される。
一例として、前記(d)段階で、前記テーブル作成装置は、前記客体の前記スケールの各範囲別に平均プーリングタイプのカテゴリの数に対するマックスプーリングタイプのカテゴリ数として決定された比率を参照して、前記客体の前記スケールの各範囲別に各々の最適のプーリングタイプに対する情報を含めるように前記テーブルを作成することを特徴とする方法が提供される。
一例として、前記テーブル作成装置は、前記客体のカテゴリ別に前記客体のスケールの臨界範囲を指定して管理し、前記臨界範囲は前記第1類似度が前記第2類似度よりも大きいか同じになり始める時の前記客体のスケールの特定範囲を前記臨界範囲に指定してこれを管理することを特徴とする方法が提供される。
一例として、前記類似度はテーブル作成用候補バウンディングボックスの領域と第2原本正解イメージのバウンディングボックスの領域の和集合(union)に対する、前記テーブル作成用候補バウンディングボックスの領域と前記第2原本正解イメージのバウンディングボックスの領域の交差集合(intersection)の比率として決定されて、前記類似度は前記第1類似度及び前記第2類似度を含み、前記テーブル作成用候補バウンディングボックスは、前記テーブル作成用第1候補バウンディングボックスと前記テーブル作成用第2候補バウンディングボックスを含むことを特徴とする方法が提供される。
一例として、前記客体のスケールは、前記テーブル作成用イメージ内の客体に対応する前記第1及び第2候補バウンディングボックス内に含まれたピクセルデータの個数及び前記第2原本正解イメージのバウンディングボックスに含まれたピクセルデータの個数のうち少なくとも一つを参照して決定されることを特徴とする学習方法が提供される。
本発明の他の態様によれば、CNN(Convolutional Neural Network)を含むテスティング装置を用いて一つ以上のテストイメージ上の一つ以上のテスト用客体に対するプーリングタイプの情報を含むテーブルを利用する方法は、(a)(I)(i)学習イメージがコンボリューションレイヤに入力されて所定の演算結果少なくとも一つ以上の学習用特徴マップが獲得され、前記学習イメージ上で学習用ROI(region−of−interest)領域がRPN(Region Proposal Network)から獲得されると、前記学習装置が、前記学習用ROI領域に対応される前記学習用特徴マップ上の領域を複数のサブ−区域に区分するか区分するように支援するプロセス、(ii)前記学習装置が、(ii−1)前記複数のサブ−区域各々に含まれたすべてのピクセルのうち前記サブ−区域毎に最大値のピクセルを選択するマックスプーリング演算を適用する場合に、前記一つ以上の特徴マップ内の学習用ROIに対応する、一つ以上の領域に対して一つ以上の前記マックスプーリング演算を適用して、学習用第1プーリング済み特徴マップを生成するか生成するように支援し、(ii−2)前記複数のサブ−区域各々に含まれた前記すべてのピクセルのうち前記サブ−区域毎に平均値を獲得する平均プーリング演算を適用する場合に、前記一つ以上の特徴マップ内の前記学習用ROIに対応する、一つ以上の領域に一つ以上の平均プーリングを適用して、学習用第2プーリング済み特徴マップを生成するか生成するように支援するプロセス、(iii)前記学習装置が、(iii−1)第1FC(Fully Connected)レイヤをもって、前記学習用第1プーリング済み特徴マップにリグレッション(regression)演算を適用して学習用第1候補バウンディングボックスのピクセルデータに対する情報を獲得するようにし、第1ロスレイヤをもって、前記学習用第1候補バウンディングボックスのピクセルデータに対する情報と第1原本正解イメージのバウンディングボックスのピクセルデータに対する情報を比較して第1比較データを獲得するようにして、前記第1比較データを利用してバックプロパゲーションを遂行して前記CNNの少なくとも一つのパラメータに対して調節をするプロセス及び(iii−2)第2FCレイヤをもって、前記学習用第2プーリング済み特徴マップにリグレッション(regression)演算を適用して学習用第2候補バウンディングボックスのピクセルデータ情報を獲得するようにし、第2ロスレイヤをもって、前記学習用第2候補バウンディングボックスのピクセルデータに対する情報と第1原本正解イメージのバウンディングボックスのピクセルデータ情報と比較して第2比較データを獲得するようにして、前記第2比較データを利用してバックプロパゲーションを遂行して前記CNNの少なくとも一つのパラメータに対して調節をするプロセス;を遂行して、前記学習装置の調節されたパラメータが獲得された状態で、テーブル作成装置が、前記調節されたパラメータを備えたCNNの入力として客体を含むテーブル作成用イメージを獲得する段階;(II)前記テーブル作成装置が、前記複数個のコンボリューションをもって前記テーブル作成用イメージにコンボリューション演算を適用するようにして少なくとも一つのテーブル作成用特徴マップが獲得されるようにし、前記RPNをもって前記テーブル作成用特徴マップに所定の演算を適用してテーブル作成用ROI領域が獲得されるようにする段階;(III)前記テーブル作成装置が、(i)前記一つ以上の特徴マップで、前記テーブル作成用ROIに対応する、一つ以上の領域に対して一つ以上のマックスプーリングを適用してテーブル作成用第1プーリング済み特徴マップを生成し、(ii)前記一つ以上の特徴マップで、前記テーブル作成用ROIに対応する、一つ以上の領域に対して一つ以上の平均プーリングを適用してテーブル作成用第2プーリング済み特徴マップを生成し、(iii)前記第1FCレイヤをもって、前記テーブル作成用第1プーリング済み特徴マップにリグレッション(regression)演算を適用してテーブル作成用第1候補バウンディングボックスのピクセルデータに対する情報を獲得するようにし(iv)第2FCレイヤをもって、前記テーブル作成用第2プーリング済み特徴マップにリグレッション演算を適用してテーブル作成用第2候補バウンディングボックスのピクセルデータに対する情報を獲得するようにする段階;及び(IV)前記テーブル作成装置が、(i)前記テーブル作成用第1候補バウンディングボックスと第2原本正解イメージ内のバウンディングボックス間の第1類似度及び(ii)前記テーブル作成用第2候補バウンディングボックスと前記第2原本正解イメージ内のバウンディングボックス間の第2類似度を比較して、前記第2原本正解イメージ内の客体または前記テーブル作成用イメージ内の客体の前記スケールの各範囲別に各々の最適のプーリングタイプ(type)に対する情報を含むようにテーブルを作成する段階;を遂行した状態で、前記テスティング装置が前記テストイメージを獲得するか、他の装置をもって獲得するようにする段階;(b)前記テスティング装置が、前記複数個のコンボリューションレイヤをもって前記テストイメージにコンボリューション演算を適用するようにして少なくとも一つのテスト用特徴マップが獲得されるようにし、前記RPNをもって前記テスト用特徴マップに所定の演算を適用してテスト用ROI領域が獲得されるようにする段階;(c)前記テスティング装置が、前記マックスプーリングタイプ及び前記平均プーリングタイプのうち、前記テスト用ROIに対応する情報を含む前記テーブルを参照して決定して選択された、特定最適プーリングタイプを利用してテスト用プーリング済み特徴マップを生成する段階;及び(d)前記テスティング装置が、前記FCレイヤを通じて前記テスト用プーリング済み特徴マップにリグレッション演算を適用してテスト用バウンディングボックスを獲得する段階;を含む方法が提供される。
一例として、前記テスティング装置は、前記テストイメージにコンボリューション演算を適用した結果互いに異なる大きさを有するテスト用特徴マップが獲得される場合、前記テスト用特徴マップに対応するサブ−プーリングタイプを利用して前記テスト用プーリング済み特徴マップを生成し、ここで前記サブ−プーリングタイプはテスト用客体のスケールに対応する情報を含む前記テーブルを参照に決定されることを特徴とする方法が提供される。
一例として、前記(b)段階で、前記テスティング装置は、前記マックスプーリングタイプまたは前記平均プーリングタイプの中から選択された前記特定最適プーリングタイプを利用して前記テスト用プーリング済み特徴マップを生成し、ここで前記特定最適プーリングタイプは前記テスト用ROIのスケール及び前記テスト用客体のカテゴリに対応する情報を含む前記テーブルを参照に決定されることを特徴とする方法が提供される。
一例として、前記(b)段階で、前記テスト用ROIの前記スケールは前記テスト用ROIの内部に含まれたピクセルデータ個数を参照にして決定されることを特徴とする方法が提供される。
本発明のまた他の態様によれば、少なくとも一つのテーブル作成用イメージ内の少なくとも一つの客体のスケール範囲別にプーリングタイプに対する情報を含むテーブルを作成するためのテーブル作成装置は、(i)学習イメージがコンボリューションレイヤに入力されて所定の演算結果少なくとも一つ以上の学習用特徴マップが獲得され、前記学習イメージ上で学習用ROI(region−of−interest)領域がRPN(Region Proposal Network)から獲得されると、前記学習装置は、前記学習用ROI領域に対応される前記学習用特徴マップ上の領域を複数のサブ−区域に区分するか区分するように支援するプロセス、(ii)前記学習装置は、(ii−1)前記複数のサブ−区域各々に含まれたすべてのピクセルのうち前記サブ−区域毎に最大値のピクセルを選択するマックスプーリング演算を適用する場合に、前記一つ以上の特徴マップ内の学習用ROIに対応する、一つ以上の領域に対して一つ以上の前記マックスプーリング演算を適用して、学習用第1プーリング済み特徴マップを生成するか生成するように支援し、(ii−2)前記複数のサブ−区域各々に含まれた前記すべてのピクセルのうち前記サブ−区域毎に平均値を獲得する平均プーリング演算を適用する場合に、前記一つ以上の特徴マップ内の前記学習用ROIに対応する、一つ以上の領域に一つ以上の平均プーリングを適用して、学習用第2プーリング済み特徴マップを生成するか生成するように支援するプロセス、(iii)前記学習装置は、(iii−1)第1FC(Fully Connected)レイヤをもって、前記学習用第1プーリング済み特徴マップにリグレッション(regression)演算を適用して学習用第1候補バウンディングボックスのピクセルデータに対する情報を獲得するようにし、第1ロスレイヤをもって、前記学習用第1候補バウンディングボックスのピクセルデータに対する情報と第1原本正解イメージのバウンディングボックスのピクセルデータに対する情報を比較して第1比較データを獲得するようにして、前記第1比較データを利用してバックプロパゲーションを遂行して前記CNNの少なくとも一つのパラメータに対して調節をするプロセス及び(iii−2)第2FCレイヤをもって、前記学習用第2プーリング済み特徴マップにリグレッション(regression)演算を適用して学習用第2候補バウンディングボックスのピクセルデータ情報を獲得するようにし、第2ロスレイヤをもって、前記学習用第2候補バウンディングボックスのピクセルデータに対する情報と第1原本正解イメージのバウンディングボックスのピクセルデータ情報と比較して第2比較データを獲得するようにして、前記第2比較データを利用してバックプロパゲーションを遂行して前記CNNの少なくとも一つのパラメータに対して調節をするプロセス;を遂行して、前記学習装置の調節されたパラメータが獲得された状態で、前記調節されたパラメータを備えたCNNの入力として客体を含むテーブル作成用イメージを獲得するか、他の装置をもって獲得するようにする通信部;(I)前記複数個のコンボリューションレイヤをもって前記テーブル作成用イメージにコンボリューション演算を適用するようにして少なくとも一つのテーブル作成用特徴マップが獲得されるようにし、前記RPNをもって前記テーブル作成用特徴マップに所定の演算を適用してテーブル作成用ROI領域が獲得されるようにするプロセス;(II)(II−1)前記一つ以上の特徴マップで、前記テーブル作成用ROIに対応する、一つ以上の領域に対して一つ以上のマックスプーリングを適用してテーブル作成用第1プーリング済み特徴マップを生成し、(II−2)前記一つ以上の特徴マップで、前記テーブル作成用ROIに対応する、一つ以上の領域に対して一つ以上の平均プーリングを適用してテーブル作成用第2プーリング済み特徴マップを生成し、(II−3)前記第1FCレイヤをもって、前記テーブル作成用第1プーリング済み特徴マップにリグレッション(regression)演算を適用してテーブル作成用第1候補バウンディングボックスのピクセルデータに対する情報を獲得するようにし、(II−4)第2FCレイヤをもって、前記テーブル作成用第2プーリング済み特徴マップにリグレッション演算を適用してテーブル作成用第2候補バウンディングボックスのピクセルデータに対する情報を獲得するようにするプロセス;及び(III)前記テーブル作成用第1候補バウンディングボックスと第2原本正解イメージ内のバウンディングボックス間の第1類似度及び前記テーブル作成用第2候補バウンディングボックスと前記第2原本正解イメージ内のバウンディングボックス間の第2類似度を比較して、前記第2原本正解イメージ内の客体または前記テーブル作成用イメージ内の客体の前記スケールの各範囲別に各々の最適のプーリングタイプ(type)に対する情報を含むようにテーブルを作成するプロセス;を含むプロセッサ;を含むことを特徴とする装置が提供される。
一例として、前記(II−1)及び(II−2)プロセスで、前記プロセッサが、前記一つ以上の特徴マップのうち一つの特定特徴マップ内の、前記テーブル作成用ROIに対応する、ある特定領域にマックスプーリング演算のうち一つを適用して前記テーブル作成用第1プーリング済み特徴マップを生成し、前記一つ以上の特徴マップのうち前記一つの特定特徴マップ内の、前記テーブル作成用ROIに対応する、前記ある特定領域に平均プーリング演算のうち一つを適用して前記テーブル作成用第2プーリング済み特徴マップを生成することを特徴とする装置が提供される。
一例として、前記(II−1)及び(II−2)プロセスで、前記プロセッサが、前記一つ以上の特徴マップのうち多数の特定特徴マップ内の、前記テーブル作成用ROIに対応する、多数の特定領域にマックスプーリング演算を適用して前記テーブル作成用第1プーリング済み特徴マップを生成し、前記一つ以上の特徴マップのうち前記多数の特定特徴マップ内の、前記テーブル作成用ROIに対応する、前記多数の特定領域に平均プーリング演算を適用して前記テーブル作成用第2プーリング済み特徴マップを生成することを特徴とする装置が提供される。
一例として、前記(III)プロセスで、前記最適のプーリングタイプ各々は、(i)前記多数の特定特徴マップに対応する多数の特定サブ−プーリングタイプまたは(ii)前記多数の特定サブ−プーリングタイプを参照して定義された一つの統合プーリングタイプを含むことを特徴とする装置が提供される。
一例として、前記(III)プロセスで、前記プロセッサは、(i)前記テーブル作成用第1候補バウンディングボックスと前記第2原本正解イメージ内のバウンディングボックス間の第1類似度と(ii)前記テーブル作成用第2候補バウンディングボックスと前記第2原本正解イメージ内のバウンディングボックス間の第2類似度を比較して、(i)前記第2原本正解イメージ内の客体または前記テーブル作成用イメージ内の客体のスケールの各範囲、及び(ii)前記客体の各カテゴリ別に、各々の最適のプーリングタイプに対する情報を含むように前記テーブルを作成することを特徴とする装置が提供される。
一例として、前記(III)プロセスで、前記プロセッサは、前記客体の前記スケールの各範囲別に平均プーリングタイプのカテゴリの数に対するマックスプーリングタイプのカテゴリ数として決定された比率を参照して前記客体の前記スケールの各範囲別に各々の最適のプーリングタイプに対する情報を含めるように前記テーブルを作成することを特徴とする装置が提供される。
一例として、前記プロセッサは、前記客体のカテゴリ別に前記客体のスケールの臨界範囲を指定して管理し、前記臨界範囲は前記第1類似度が前記第2類似度よりも大きいか同じになり始める時の前記客体のスケールの特定範囲を前記臨界範囲に指定してこれを管理することを特徴とする装置が提供される。
一例として、前記類似度はテーブル作成用候補バウンディングボックスの領域と第2原本正解イメージのバウンディングボックスの領域の和集合(union)に対する前記テーブル作成用候補バウンディングボックスの領域と前記第2原本正解イメージのバウンディングボックスの領域の交差集合(intersection)の比率として決定されて、前記類似度は前記第1類似度及び前記第2類似度を含み、前記テーブル作成用候補バウンディングボックスは、前記テーブル作成用第1候補バウンディングボックスと前記テーブル作成用第2候補バウンディングボックスを含むことを特徴とする装置が提供される。
一例として、前記客体のスケールは、前記テーブル作成用イメージ内の客体に対応する前記第1及び第2候補バウンディングボックス内に含まれたピクセルデータの個数及び前記第2原本正解イメージのバウンディングボックスに含まれたピクセルデータの個数のうち少なくとも一つを参照して決定されることを特徴とする学習装置が提供される。
本発明のまた他の態様によれば、一つ以上のテストイメージ上の一つ以上のテスト用客体に対するプーリングタイプの情報を含むテーブルを利用するテスティング装置は、(I)(i)学習イメージがコンボリューションレイヤに入力されて所定の演算結果少なくとも一つ以上の学習用特徴マップが獲得され、前記学習イメージ上で学習用ROI(region−of−interest)領域がRPN(Region Proposal Network)から獲得されると、前記学習装置が、前記学習用ROI領域に対応される前記学習用特徴マップ上の領域を複数のサブ−区域に区分するか区分するように支援するプロセス、(ii)前記学習装置が、(ii−1)前記複数のサブ−区域各々に含まれたすべてのピクセルのうち前記サブ−区域毎に最大値のピクセルを選択するマックスプーリング演算を適用する場合に、前記一つ以上の特徴マップ内の学習用ROIに対応する、一つ以上の領域に対して一つ以上の前記マックスプーリング演算を適用して、学習用第1プーリング済み特徴マップを生成するか生成するように支援し、(ii−2)前記複数のサブ−区域各々に含まれた前記すべてのピクセルのうち前記サブ−区域毎に平均値を獲得する平均プーリング演算を適用する場合に、前記一つ以上の特徴マップ内の前記学習用ROIに対応する、一つ以上の領域に一つ以上の平均プーリングを適用して、学習用第2プーリング済み特徴マップを生成するか生成するように支援するプロセス、(iii)前記学習装置が、(iii−1)第1FC(Fully Connected)レイヤをもって、前記学習用第1プーリング済み特徴マップにリグレッション(regression)演算を適用して学習用第1候補バウンディングボックスのピクセルデータに対する情報を獲得するようにし、第1ロスレイヤをもって、前記学習用第1候補バウンディングボックスのピクセルデータに対する情報と第1原本正解イメージのバウンディングボックスのピクセルデータに対する情報を比較して第1比較データを獲得するようにして、前記第1比較データを利用してバックプロパゲーションを遂行して前記CNNの少なくとも一つのパラメータに対して調節をするプロセス及び(iii−2)第2FCレイヤをもって、前記学習用第2プーリング済み特徴マップにリグレッション(regression)演算を適用して学習用第2候補バウンディングボックスのピクセルデータ情報を獲得するようにし、第2ロスレイヤをもって、前記学習用第2候補バウンディングボックスのピクセルデータに対する情報と第1原本正解イメージのバウンディングボックスのピクセルデータ情報と比較して第2比較データを獲得するようにして、前記第2比較データを利用してバックプロパゲーションを遂行して前記CNNの少なくとも一つのパラメータに対して調節をするプロセス;を遂行して、前記学習装置の調節されたパラメータが獲得された状態で、テーブル作成装置が、前記調節されたパラメータを備えたCNNの入力として客体を含むテーブル作成用イメージを獲得する段階;(II)前記テーブル作成装置が、前記複数個のコンボリューションレイヤをもって前記テーブル作成用イメージにコンボリューション演算を適用するようにして少なくとも一つのテーブル作成用特徴マップが獲得されるようにし、前記RPNをもって前記テーブル作成用特徴マップに所定の演算を適用してテーブル作成用ROI領域が獲得されるようにする段階;(III)前記テーブル作成装置が、(i)前記一つ以上の特徴マップで、前記テーブル作成用ROIに対応する、一つ以上の領域に対して一つ以上のマックスプーリングを適用してテーブル作成用第1プーリング済み特徴マップを生成し、(ii)前記一つ以上の特徴マップで、前記テーブル作成用ROIに対応する、一つ以上の領域に対して一つ以上の平均プーリングを適用してテーブル作成用第2プーリング済み特徴マップを生成し、(iii)前記第1FCレイヤをもって、前記テーブル作成用第1プーリング済み特徴マップにリグレッション(regression)演算を適用してテーブル作成用第1候補バウンディングボックスのピクセルデータに対する情報を獲得するようにし、(iv)第2FCレイヤをもって、前記テーブル作成用第2プーリング済み特徴マップにリグレッション演算を適用してテーブル作成用第2候補バウンディングボックスのピクセルデータに対する情報を獲得するようにする段階;及び(IV)前記テーブル作成装置が、(i)前記テーブル作成用第1候補バウンディングボックスと第2原本正解イメージ内のバウンディングボックス間の第1類似度及び(ii)前記テーブル作成用第2候補バウンディングボックスと前記第2原本正解イメージ内のバウンディングボックス間の第2類似度を比較して、前記第2原本正解イメージ内の客体または前記テーブル作成用イメージ内の客体の前記スケールの各範囲別に各々の最適のプーリングタイプ(type)に対する情報を含むようにテーブルを作成する段階;を遂行した状態で、前記テストイメージを獲得するか、他の装置をもって獲得するようにする通信部;及び(AA)前記複数個のコンボリューションレイヤをもって前記テストイメージにコンボリューション演算を適用するようにして少なくとも一つのテスト用特徴マップが獲得されるようにし、前記RPNをもって前記テスト用特徴マップに所定の演算を適用してテスト用ROI領域が獲得されるようにするプロセス;(BB)前記マックスプーリングタイプ及び前記平均プーリングタイプのうち、前記テスト用ROIに対応する情報を含む前記テーブルを参照して決定して選択された、特定最適プーリングタイプを利用してテスト用プーリング済み特徴マップを生成するプロセス;及び(CC)前記FCレイヤを通じて前記テスト用プーリング済み特徴マップにリグレッション演算を適用してテスト用バウンディングボックスを獲得するプロセス;を遂行するプロセッサ;を含む装置が提供される。
一例として、前記プロセッサは、前記テストイメージにコンボリューション演算を適用した結果互いに異なる大きさを有するテスト用特徴マップが獲得される場合、前記テスト用特徴マップに対応するサブ−プーリングタイプを利用して前記テスト用プーリング済み特徴マップを生成し、ここで前記サブ−プーリングタイプはテスト用客体のスケールに対応する情報を含む前記テーブルを参照に決定されることを特徴とする装置が提供される。
一例として、前記(AA)プロセスで、前記プロセッサは、前記マックスプーリングタイプまたは前記平均プーリングタイプの中から選択された前記特定最適プーリングタイプを利用して前記テスト用プーリング済み特徴マップを生成し、ここで前記特定最適プーリングタイプは前記テスト用ROIのスケール及び前記テスト用客体のカテゴリに対応する情報を含む前記テーブルを参照に決定されることを特徴とする装置が提供される。
一例として、前記(AA)プロセスで、前記テスト用ROIの前記スケールは前記テスト用ROIの内部に含まれたピクセルデータ個数を参照にして決定されることを特徴とする装置が提供される。
本発明によれば、客体の種類及び客体のスケールの範囲別にマックスプーリング及び平均プーリングの性能情報を対応させて記録したテーブルを参照するようにすることで、客体の種類及び客体のスケールの範囲別にマックスプーリングまたは平均プーリングのうち最適プーリングタイプが自動で選択されるようにすることができる。
図1は、既存の学習過程を示したものであって、学習装置がバウンディングボックスを獲得してこれを原本正解のバウンディングボックスと比較する過程を示した図面である。 図2は、本発明の一実施例にかかるテーブル作成装置200のブロック図である。 図3は、入力イメージ内のROI(Region on interest)に対応する特徴マップの領域にマックスプーリング及び平均プーリングで各々のバウンディングボックスを獲得する過程を示す図面である。 図4は、本発明の一実施例によりマックスプーリング及び平均プーリングのプロセスを例示的に示した図面である。 図5は、本発明の一実施例であって、入力イメージの客体のスケールの各範囲別に作成されたテーブルを示す。 図6は、本発明の一実施例にかかるテスティング装置のブロック図である。
後述する本発明に対する詳細な説明は、本発明が実施され得る特定の実施例を例示として示す添付図面を参照する。これらの実施例は当業者が本発明を実施することができるように充分詳細に説明される。本発明の多様な実施例は相互異なるが、相互排他的である必要はないことを理解されたい。例えば、ここに記載されている特定の形状、構造及び特性は一実施例にかかる本発明の精神及び範囲を逸脱せずに他の実施例で具現され得る。
また、各々の開示された実施例内の個別構成要素の位置または配置は本発明の精神及び範囲を逸脱せずに変更され得ることを理解されたい。従って、後述する詳細な説明は限定的な意味で捉えようとするものではなく、本発明の範囲は、適切に説明されると、その請求項が主張することと均等なすべての範囲と、併せて添付された請求項によってのみ限定される。図面で類似する参照符号はいくつかの側面にかけて同一か類似する機能を指称する。
以下、本発明が属する技術分野で通常の知識を有する者が本発明を容易に実施することができるようにするために、本発明の好ましい実施例について添付の図面を参照して詳細に説明することとする。
図2は本発明の一実施例にかかるテーブル作成装置200のブロック図である。
図2に示されたように、テーブル作成装置200は通信部210とプロセッサ220を含み、図2とは異なり後述するデータベース230も含まれ得る。場合によって、テーブル作成装置200は図2のようにデータベース230が含まれないことがある。
ここで、本発明の学習装置(未図示)は(i)学習イメージがコンボリューションレイヤに入力されて所定の演算結果少なくとも一つ以上の学習用特徴マップが獲得され、前記学習イメージ上で学習用ROI(region−of−interest)領域がRPN(Region Proposal Network)から獲得されると、前記学習装置は、前記学習用ROI領域に対応される前記学習用特徴マップ上の領域を複数のサブ−区域に区分するか区分するように支援するプロセス、(ii)前記学習装置は、(ii−1)前記複数のサブ−区域各々に含まれたすべてのピクセルのうち前記サブ−区域毎に最大値のピクセルを選択するマックスプーリング演算を適用する場合に、前記一つ以上の特徴マップ内の学習用ROIに対応する、一つ以上の領域に対して一つ以上の前記マックスプーリング演算を適用して、学習用第1プーリング済み特徴マップを生成するか生成するように支援し、(ii−2)前記複数のサブ−区域各々に含まれた前記すべてのピクセルのうち前記サブ−区域毎に平均値を獲得する平均プーリング演算を適用する場合に、前記一つ以上の特徴マップ内の前記学習用ROIに対応する、一つ以上の領域に一つ以上の平均プーリングを適用して、学習用第2プーリング済み特徴マップを生成するか生成するように支援するプロセス、(iii)前記学習装置は、(iii−1)第1FC(Fully Connected)レイヤをもって、前記学習用第1プーリング済み特徴マップにリグレッション(regression)演算を適用して学習用第1候補バウンディングボックスのピクセルデータに対する情報を獲得するようにし、第1ロスレイヤをもって、前記学習用第1候補バウンディングボックスのピクセルデータに対する情報と第1原本正解イメージのバウンディングボックスのピクセルデータに対する情報を比較して第1比較データを獲得するようにして、前記第1比較データを利用してバックプロパゲーションを遂行して前記CNNの少なくとも一つのパラメータに対して調節をするプロセス及び(iii−2)第2FCレイヤをもって、前記学習用第2プーリング済み特徴マップにリグレッション(regression)演算を適用して学習用第2候補バウンディングボックスのピクセルデータ情報を獲得するようにし、第2ロスレイヤをもって、前記学習用第2候補バウンディングボックスのピクセルデータに対する情報と第1原本正解イメージのバウンディングボックスのピクセルデータ情報と比較して第2比較データを獲得するようにして、前記第2比較データを利用してバックプロパゲーションを遂行して前記CNNの少なくとも一つのパラメータに対して調節をするプロセス;を遂行して、前記学習装置の調節されたパラメータが獲得された後、テーブル作成装置200の通信部210は、少なくとも一つのテーブル作成用入力イメージまたはテーブル作成用入力イメージ内の少なくとも一つのテーブル作成用ROI(region of interest)の情報を獲得する。即ち、テーブル作成装置200の通信部210はRGBフォーマットからなるテーブル作成用入力イメージまたは他の装置のRPN(Region Proposal Network)からテーブル作成用ROIの情報を獲得し得る。
以下、図2ないし図5の説明の便宜上、“テーブル作成用”という表現は省略する。
一方、テーブル作成装置200のプロセッサ220は入力イメージ内の客体の各スケール範囲別に及び/またはその各カテゴリ別にマックスプーリング及び平均プーリングのうちどちらが最適のプーリングタイプかに対する情報を利用してテーブルを作成するように構成される。最適プーリングタイプを決定することについては後でより詳細に説明することとする。
一方、データベース230はテーブルを作成するのに利用される情報を保存するように構成され得て、テーブルに保存された情報、即ち、客体の各スケール及び/または各カテゴリ別に最適のプーリングタイプに対する情報はテーブル作成装置200の通信部210を通じてアクセスが可能である。
参考までに、本発明に開示された演算またはコンピューティングを遂行するための少なくとも一つのプロセッサを備えた任意のデジタルコンピューティング装置がテーブル作成装置200に採択され得る。
図3はテーブル作成装置200が入力イメージ内のROI(Region on interest)に対応する特徴マップの領域にマックスプーリング演算及び平均プーリング演算で各々のバウンディングボックスを獲得する過程を示す図面である。参考までに、図3に示されたCNNの構成はテーブル作成装置200だけに含まれるものではなく、学習装置にも含まれ得る。テーブル作成装置200と学習装置間のCNN構成の差異は、学習装置はバックプロパゲーションプロセスに利用される少なくとも一つのロスレイヤ(loss layer)をさらに含むということである。
一方、図4はマックスプーリング及び平均プーリングのプロセスを例示的に示した図面である。
図3に示された構成を有するCNNを含む学習装置(未図示)及びテーブル作成装置200はコンボリューションブロック、RPN(Region Proposal Network)、ROIプーリングレイヤ、一つ以上のFC(Fully Connected)レイヤなどが含まれ得る。
特に、テーブル作成装置200の通信部210はS305段階で入力イメージ、即ちRGBイメージを受信するか、他の装置をもって受信するようにし、プロセッサ220はS310段階で多数のコンボリューションレイヤが前記イメージにコンボリューション演算を適用するようにし、S320段階でRPNが少なくとも一つの特徴マップに特定演算を遂行するようにし、S325段階でROIを獲得するようにする。
その次に、テーブル作成装置200のプロセッサ220はS330段階で(i)前記少なくとも一つの特徴マップ内の、ROIに対応する、一つ以上の領域に一つ以上のマックスプーリング演算を適用して第1プーリング済み特徴マップを生成して(ii)前記少なくとも一つの特徴マップ内の、ROIに対応する、一つ以上の領域に一つ以上の平均プーリング演算を適用して第2プーリング済み特徴マップを生成するように構成され得る。
図4に例示的に示されたように、ROIは領域410で4×4、即ち16ピクセルとして提示され得る。
図4で、RPNから獲得されたテーブル作成用ROIに対応する領域410が示される。例えば、領域410内のピクセルデータは数値で提示されるが、これに限定されない。領域410は4個のサブ−区域(sub−region)に区分され、各サブ区域は2×2ピクセルサイズを有する。多数の区分されたサブ−区域の数と共に多数のサブ−区域に含まれたピクセルの個数は例示に過ぎず、これに限定されないことは当業者に自明である。
図4を参照すれば、領域410にマックスプーリング演算を適用して第1プーリング済み特徴マップ420を獲得し、同一の領域410に平均プーリング演算を適用して第2プーリング特徴マップ430を獲得する。マックスプーリング演算によれば、多数のサブ−区域毎にその中にあるピクセルのうち各最大ピクセル値を有するピクセルが第1プーリング済み特徴マップに選択され、平均プーリング演算によれば、多数のサブ−区域毎にその中に含まれているピクセル値の平均値を獲得してその各平均値が第2プーリング済み特徴マップに決定される。
図3を再び参照すれば、テーブル作成装置のプロセッサは、第1FCレイヤをもって、S335段階で第1プーリング済み特徴マップにリグレッション(regression)演算を適用してS340段階で第1候補バウンディングボックスのピクセルに対する情報を獲得するようにし、第2FCレイヤをもって、S345段階で第2プーリング済み特徴マップにリグレッション演算を適用してS350段階で第2候補バウンディングボックスのピクセルに対する情報を獲得するようにする。参考までに、ピクセルの情報はピクセル座標値の場合もあるが、これに限定されない。ここで、第1FCレイヤ及び第2FCレイヤは場合によって分離したレイヤでない場合がある。しかし、学習装置またはテーブル作成装置が多数のコンピューティング装置を含む場合、前記第1FCレイヤ及び第2FCレイヤは互いに異なるコンピューティング装置内に含まれるように分離されることもある。
その次に、テーブル作成装置200のプロセッサ220は(i)第1候補バウンディングボックスと原本正解バウンディングボックス間の第1類似度及び(ii)第2候補バウンディングボックスと原本正解バウンディングボックス間の第2類似度を比較して、原本正解イメージ内の客体のスケールの各範囲別または入力イメージ内の客体のスケール各範囲別に各々最適のプーリングタイプに対する情報を含むようにテーブルを作成するように構成され得る。他の例として、前記テーブルは原本正解イメージまたは入力イメージ内での各客体のスケールの各範囲別だけでなく、各客体の各カテゴリ別に各々の最適プーリングタイプに対する情報を含むように構成され得る。
図5は本発明の一実施例であって、入力イメージの客体のスケールの各範囲別に作成されたテーブルを示す。
図5を参照すれば、前記テーブルは原本正解イメージ内の客体のスケールの各範囲別及び/または各カテゴリ別に各々の最適プーリングタイプに対する情報を保存するように構成されるが、これに限定されない。
特に、テーブル作成装置200のプロセッサ220は第1候補バウンディングボックスを原本正解バウンディングボックスと比較することでその間の第1類似度を獲得するように構成される。同様にテーブル作成装置200のプロセッサ220は第2候補バウンディングボックスを原本正解バウンディングボックスと比較することでその間の第2類似度を獲得するように構成され得る。
ここで、第1類似度(または第2類似度)は(i)第1候補バウンディングボックス内の領域(または第2候補バウンディングボックス内の領域)と原本正解バウンディングボックスの領域の和集合(union)に対応する領域に対する(ii)第1候補バウンディングボックス内の領域(または第2候補バウンディングボックス内の領域)と原本正解バウンディングボックスの領域の交差集合(intersection)に対応する領域の比率で計算される。
例えば、第1類似度が3/4で、第2類似度が1/3の場合、マックスプーリング演算を適用した結果は平均プーリング演算を適用した結果よりも原本正解バウンディングボックスにさらに類似すると判断され得る。
参考までに、第1候補バウンディングボックスと原本正解バウンディングボックス間を区別する任意の情報または第2候補バウンディングボックスと原本正解バウンディングボックス間を区別する任意の情報は各々の類似度を計算するのに利用され得る。かかる情報は、候補バウンディングボックス及び原本正解バウンディングボックスの中心座標(または他の所定の座標)、これらの幅及び高さ情報のうち少なくとも一つが含まれ得る。
また、テーブル作成装置200のプロセッサ220はスケールの各範囲別及び/または各カテゴリ別に、図5に示されたテーブルで、各最適プーリングタイプに対する情報をさらに含むように構成され得る。
ここで、各客体のスケールは原本正解バウンディングボックス内の領域(または第1候補バウンディングボックス内の領域または第2候補バウンディングボックス内の領域)のピクセル個数に平方根を適用して判断し得る。しかし、本発明はこれに限定されない。例えば、前記スケールを得るのに他の演算が前記領域に適用されることもある。前記平方根演算の結果は実数であり得る。その結果が14である場合、その結果は図5に示されたテーブルで0から15の間の範囲を含む“スケール1”の範囲内に属するようになる。
具体的に、原本正解バウンディングボックス内の領域に平方根演算を遂行することはスケールの範囲のうち一つに属するある値を得るようにし得る。スケールの範囲は特定基準に基づいて定められ得て、本発明はこれに制限されないことは当業者に明確である。
他の例として、テーブル作成装置200のプロセッサ220は第1類似度と第2類似度を多数回比較して各客体に対する最適プーリングタイプを決定することでテーブルを作成するように構成され得る。
具体的に、各々の比較結果が獲得されるたびに、マックスプーリング演算に対する正確度回数(accuracy count)または平均プーリング演算に対する正確度回数が1ずつ増加する。そして、客体のスケールの各範囲別及び/またはこれらの各カテゴリ別にマックスプーリング演算に対する正確度回数を平均プーリング演算に対する正確度回数と比較することで、テーブル作成装置200のプロセッサ220は客体のスケールの各範囲別及び/またはこれの各カテゴリ別の最適プーリングタイプを決定し得る。
例えば、1000個の入力イメージが特定スケール範囲、例えば、スケール2の範囲を有する客体を含む場合、マックスプーリング演算に対する正確度回数が500で、平均プーリング演算に対する正確度個数が800の場合、(即ち、マックスプーリングを適用した場合、有効と判断されるテーブル作成用イメージが500個、平均プーリングを適用した場合、有効と判断されるテーブル作成用イメージが800個の場合)、テーブル作成装置200のプロセッサ220はスケール2に対する最適プーリングタイプは平均プーリングと判断し得る。
他の例として、最適プーリングタイプは、すべての種類の客体のスケールの特定範囲に対して、前記スケールの特定範囲内の各客体のカテゴリとは関係なく、同一の一つのプーリングタイプ、例えば、平均プーリングと決定され得る。
例えば、万一10個のクラス、例えば、歩行者、車両、道、及びビルディングなどがある場合、大部分のクラス、即ち、歩行者を除く大部分のカテゴリでこれらに対応する最適プーリングタイプとしてマックスプーリングタイプと判断されると、歩行者に対する最適プーリングタイプが平均プーリングであっても、歩行者を含むすべての種類の客体に対する最適プーリングタイプはマックスプーリングと設定されることもある。
他の実施例で、テーブル作成装置200のプロセッサ220は客体の各カテゴリ別にスケールの臨界範囲を保存及び管理することもできる。
ここで、客体の各カテゴリ別スケールの臨界範囲は一つの類似度が他の類似度よりも大きいか同じになるスケールの範囲である。
一般的にマックスプーリング演算はより大きいスケールを有する客体に適用される反面、平均プーリング演算はより小さいスケールを有する客体に適用される。
従って、スケールが増加すると、客体の各カテゴリ別に、マックスプーリング演算にかかる類似度が平均プーリング演算にかかる類似度よりも大きくなるか同じになる対応する特定臨界範囲があるようになる。
従って、テーブル作成装置200は各客体の種類によってスケールの臨界範囲を保存して管理し得る。
一方、本発明の他の実施例によれば、コンボリューションレイヤによって各入力イメージから多数の特徴マップが生成されると、テーブル作成装置200は前記特定の複数の特徴マップ内の、前記ROIに対応する、特定の複数の領域にマックスプーリング演算を適用することで第1プーリング済み特徴マップを生成し、前記特定の複数の特徴マップ内の、前記ROIに対応する、特定の複数の領域に平均プーリング演算を適用することで第2プーリング済み特徴マップを生成する。
ここで、最適プーリングタイプ各々は(i)前記特定複数の特徴マップに対応する特定の複数のサブ−プーリングタイプまたは(ii)前記複数のサブ−プーリングタイプを参照して決定された一つの統合プーリングタイプのうち一つが含まれ得る。
例えば、互いに異なる大きさを有する3個の特徴マップが各入力イメージから生成された場合、最適プーリングタイプ各々が(i)特定の複数(=3個)の特徴マップに対応する特定の複数(=3個)のサブ−プーリングタイプを含む場合、テーブルの一つのセルに保存されるべき3個の各特徴マップに対する各々最適−サブプーリングタイプはa1、a2、a3として示され得る。ここで、最適のサブ−プーリングタイプは3個の特徴マップに対してマックスプーリング演算及び平均プーリング演算の互いに異なる組み合わせを比較することで、この組み合わせのうちどれが原本正解バウンディングボックスと最も高い正確度でオーバーラップされる候補バウンディングボックスを生成するかを把握することで決定され得る。場合によって、一連のマックスプーリング演算または一連の平均プーリング演算のうち一つが前記3個の特徴マップに適用され得る。
これに反して、最適プーリングタイプ各々が(ii)特定の複数のサブ−プーリングタイプを参照して決定された一つの統合プーリングタイプを含む場合、テーブル作成装置200のプロセッサ220は複数の特徴マップに対する一つの単一最適プーリングタイプを獲得するために対応する特徴マップに対する最適のサブ−プーリングタイプを参照し得る。例えば、3個の特徴マップの最適サブ−プーリングタイプがa1max、a2avg、a3maxまたはa1max、a2max、a3avgの場合、amaxがCNNに対する一つの単一最適プーリングタイプに決定され得る。
参考までに、テーブル作成装置200に対する入力イメージは学習のための入力イメージとは異なることもあり、場合によって、テーブル作成装置200に対する入力イメージが学習用入力イメージと同一なこともある。従って、テーブル作成用原本正解イメージは学習用原本正解イメージと異なる場合もあり、同じ場合もある。
図6は本発明の一実施例にかかるテスティング装置600のブロック図である。
図6に示されたように、本発明のテスティング装置600は通信部610とプロセッサ620を含む。場合によって、図6とは異なりテスティング装置600はデータベース630が含まれることもある。また、場合によって、テスティング装置600がデータベース630を含まないこともある。
参考までに、テスティング装置600、テーブル作成装置200及び学習装置(未図示)は同一のコンピューティング装置であり得るが、これらの装置が分離したコンピューティング装置であり得ることは当業者に自明である。
テスティング装置600は少なくとも一つのテストイメージ内の少なくとも一つのテスト用客体に対する最適プーリングタイプに対する情報を含むテーブルを利用し得る。
(I)(i)学習イメージがコンボリューションレイヤに入力されて所定の演算結果少なくとも一つ以上の学習用特徴マップが獲得され、前記学習イメージ上で学習用ROI(region−of−interest)領域がRPN(Region Proposal Network)から獲得されると、前記学習装置が、前記学習用ROI領域に対応される前記学習用特徴マップ上の領域を複数のサブ−区域に区分するか区分するように支援するプロセス、(ii)前記学習装置が、(ii−1)前記複数のサブ−区域各々に含まれたすべてのピクセルのうち前記サブ−区域毎に最大値のピクセルを選択するマックスプーリング演算を適用する場合に、前記一つ以上の特徴マップ内の学習用ROIに対応する、一つ以上の領域に対して一つ以上の前記マックスプーリング演算を適用して、学習用第1プーリング済み特徴マップを生成するか生成するように支援し、(ii−2)前記複数のサブ−区域各々に含まれた前記すべてのピクセルのうち前記サブ−区域毎に平均値を獲得する平均プーリング演算を適用する場合に、前記一つ以上の特徴マップ内の前記学習用ROIに対応する、一つ以上の領域に一つ以上の平均プーリングを適用して、学習用第2プーリング済み特徴マップを生成するか生成するように支援するプロセス、(iii)前記学習装置が、(iii−1)第1FC(Fully Connected)レイヤをもって、前記学習用第1プーリング済み特徴マップにリグレッション(regression)演算を適用して学習用第1候補バウンディングボックスのピクセルデータに対する情報を獲得するようにし、第1ロスレイヤをもって、前記学習用第1候補バウンディングボックスのピクセルデータに対する情報と第1原本正解イメージのバウンディングボックスのピクセルデータに対する情報を比較して第1比較データを獲得するようにして、前記第1比較データを利用してバックプロパゲーションを遂行して前記CNNの少なくとも一つのパラメータに対して調節をするプロセス及び(iii−2)第2FCレイヤをもって、前記学習用第2プーリング済み特徴マップにリグレッション(regression)演算を適用して学習用第2候補バウンディングボックスのピクセルデータ情報を獲得するようにし、第2ロスレイヤをもって、前記学習用第2候補バウンディングボックスのピクセルデータに対する情報と第1原本正解イメージのバウンディングボックスのピクセルデータ情報と比較して第2比較データを獲得するようにして、前記第2比較データを利用してバックプロパゲーションを遂行して前記CNNの少なくとも一つのパラメータに対して調節をするプロセス;を遂行して、前記学習装置の調節されたパラメータが獲得された状態で、テーブル作成装置が、前記調節されたパラメータを備えたCNNの入力として客体を含むテーブル作成用イメージを獲得する段階;(II)前記テーブル作成装置が、前記複数個のコンボリューションレイヤをもって前記テーブル作成用イメージにコンボリューション演算を適用するようにして少なくとも一つのテーブル作成用特徴マップが獲得されるようにし、前記RPNをもって前記テーブル作成用特徴マップに所定の演算を適用してテーブル作成用ROI領域が獲得されるようにする段階;(III)前記テーブル作成装置が、(c−1)前記一つ以上の特徴マップで、前記テーブル作成用ROIに対応する、一つ以上の領域に対して一つ以上のマックスプーリングを適用してテーブル作成用第1プーリング済み特徴マップを生成し、(c−2)前記一つ以上の特徴マップで、前記テーブル作成用ROIに対応する、一つ以上の領域に対して一つ以上の平均プーリングを適用してテーブル作成用第2プーリング済み特徴マップを生成し、(c−3)前記第1FCレイヤをもって、前記テーブル作成用第1プーリング済み特徴マップにリグレッション(regression)演算を適用してテーブル作成用第1候補バウンディングボックスのピクセルデータに対する情報を獲得するようにし、(c−4)第2FCレイヤをもって、前記テーブル作成用第2プーリング済み特徴マップにリグレッション演算を適用してテーブル作成用第2候補バウンディングボックスのピクセルデータに対する情報を獲得するようにする段階;及び(IV)前記テーブル作成装置が、(i)前記テーブル作成用第1候補バウンディングボックスと第2原本正解イメージ内のバウンディングボックス間の第1類似度及び(ii)前記テーブル作成用第2候補バウンディングボックスと前記第2原本正解イメージ内のバウンディングボックス間の第2類似度を比較して、前記第2原本正解イメージ内の客体または前記テーブル作成用イメージ内の客体の前記スケールの各範囲別に各々の最適のプーリングタイプ(type)に対する情報を含むようにテーブルを作成する段階;を遂行した状態で、テスティング装置600の通信部610はテストイメージを獲得するか、他の装置をもって獲得ようにし得る。
その次に、テスティング装置600は前記複数個のコンボリューションレイヤをもって前記テストイメージにコンボリューション演算を適用するようにして少なくとも一つのテスト用特徴マップが獲得されるようにし、前記RPNをもって前記テスト用特徴マップに所定の演算を適用してテスト用ROI領域が獲得されるようにする。
その次に、テスティング装置600は前記マックスプーリングタイプ及び前記平均プーリングタイプのうち、前記テスト用客体のスケールの範囲及び/またはカテゴリに対応する情報を含む前記テーブルを参照して決定して選択された、特定最適プーリングタイプを利用してテスト用プーリング済み特徴マップを生成する。
また、テスティング装置はFCレイヤを通じて前記テスト用プーリング済み特徴マップにリグレッション演算を適用してテスト用バウンディングボックスを獲得するようにする。
本発明は入力イメージで各客体のスケール及び/またはカテゴリにより互いに異なるプーリング技法を適用することができる効果がある。
また、本発明はマックスプーリング演算を平均プーリング演算と組み合わせてフィーチャー(feature)損失を減少させるためにプーリング演算の最適な組み合わせを獲得することができる他の効果を有する。
また、本発明は客体のスケール及び/またはカテゴリに基づいて互いに異なるプーリング方式を適用することで客体検出及び特徴表現の正確性を向上させるまた他の効果を有する。
以上で説明された本発明にかかる実施例は多様なコンピュータ構成要素を通じて遂行され得るプログラム命令語の形態で具現されてコンピュータで判読可能な記録媒体に記録され得る。前記コンピュータで判読可能な記録媒体はプログラム命令語、データファイル、データ構造などを単独または組み合わせて含まれ得る。前記コンピュータで判読可能な記録媒体に記録されるプログラム命令語は本発明のために特別に設計されて構成されたものか、コンピュータソフトウェア分野の当業者に公知となって使用可能なものでもよい。コンピュータで判読可能な記録媒体の例には、ハードディスク、フロッピィディスク及び磁気テープのような磁気媒体、CD−ROM、DVDのような光記録媒体、フロプティカルディスク(flopticaldisk)のような磁気−光媒体(magneto−opticalmedia)、及びROM、RAM、フラッシュメモリなどのようなプログラム命令語を保存して遂行するように特別に構成されたハードウェア装置が含まれる。プログラム命令語の例には、コンパイラによって作られるものような機械語コードだけではなく、インタプリタなどを用いてコンピュータによって実行され得る高級言語コードも含まれる。前記ハードウェア装置は本発明にかかる処理を遂行するために一つ以上のソフトウェアモジュールとして作動するように構成されることがあり、その逆も同様である。
以上、本発明が具体的な構成要素などのような特定の事項と限定された実施例及び図面によって説明されたが、これは本発明のより全般的な理解を助けるために提供されたものであるに過ぎず、本発明が前記実施例に限定されるものではなく、本発明が属する技術分野において通常の知識を有する者であればかかる記載から多様な修正及び変形が行なわれ得る。
従って、本発明の思想は前記説明された実施例に極限されて定められてはならず、後述する特許請求の範囲だけではなく、本特許請求の範囲と均等または等価的に変形されたすべてのものは本発明の思想の範疇に属するといえる。
200…テーブル作成装置、210…通信部、220…プロセッサ、230…データベース、410…ROI領域に対応される特徴マップ上の領域、420…マックスプーリング済み第1プーリング済み特徴マップ、430…平均プーリング済み第2プーリング済み特徴マップ、600…テスティング装置、610…通信部、620…プロセッサ、630…データベース。

Claims (26)

  1. 少なくとも一つのテーブル作成用イメージ内の少なくとも一つの客体のスケール範囲別にプーリングタイプに対する情報を含むテーブルを作成するための方法において、
    (a)(i)学習イメージがコンボリューションレイヤに入力されて所定の演算結果少なくとも一つ以上の学習用特徴マップが獲得され、学習用ROI(region−of−interest)領域がRPN(Region Proposal Network)から獲得されると、前記学習装置は、前記学習用ROI領域に対応される前記学習用特徴マップ上の領域を複数のサブ−区域に区分するか区分するように支援するプロセス、(ii)前記学習装置は、(ii−1)前記複数のサブ−区域各々に含まれたすべてのピクセルのうち前記サブ−区域毎に最大値のピクセルを選択するマックスプーリング演算を適用する場合に、前記一つ以上の特徴マップ内の学習用ROIに対応する、一つ以上の領域に対して一つ以上の前記マックスプーリング演算を適用して、学習用第1プーリング済み特徴マップを生成するか生成するように支援し、(ii−2)前記複数のサブ−区域各々に含まれた前記すべてのピクセルのうち前記サブ−区域毎に平均値を獲得する平均プーリング演算を適用する場合に、前記一つ以上の特徴マップ内の前記学習用ROIに対応する、一つ以上の領域に一つ以上の平均プーリングを適用して、学習用第2プーリング済み特徴マップを生成するか生成するように支援するプロセス、(iii)前記学習装置は、(iii−1)第1FC(Fully Connected)レイヤをもって、前記学習用第1プーリング済み特徴マップにリグレッション(regression)演算を適用して学習用第1候補バウンディングボックスのピクセルデータに対する情報を獲得するようにし、第1ロスレイヤをもって、前記学習用第1候補バウンディングボックスのピクセルデータに対する情報と第1原本正解イメージのバウンディングボックスのピクセルデータに対する情報を比較して第1比較データを獲得するようにして、前記第1比較データを利用してバックプロパゲーションを遂行して前記CNNの少なくとも一つのパラメータに対して調節をするプロセス及び(iii−2)第2FCレイヤをもって、前記学習用第2プーリング済み特徴マップにリグレッション(regression)演算を適用して学習用第2候補バウンディングボックスのピクセルデータ情報を獲得するようにし、第2ロスレイヤをもって、前記学習用第2候補バウンディングボックスのピクセルデータに対する情報と第1原本正解イメージのバウンディングボックスのピクセルデータ情報と比較して第2比較データを獲得するようにして、前記第2比較データを利用してバックプロパゲーションを遂行して前記CNNの少なくとも一つのパラメータに対して調節をするプロセス;を遂行して、前記学習装置の調節されたパラメータが獲得された状態で、テーブル作成装置が、前記調節されたパラメータを備えたCNNの入力として、客体を含むテーブル作成用イメージを獲得するか、他の装置をもって獲得するようにする段階;
    (b)前記テーブル作成装置が、前記複数個のコンボリューションレイヤをもって前記テーブル作成用イメージにコンボリューション演算を適用するようにして少なくとも一つのテーブル作成用特徴マップが獲得されるようにし、前記RPNをもって前記テーブル作成用特徴マップに所定の演算を適用してテーブル作成用ROI領域が獲得されるようにする段階;
    (c)前記テーブル作成装置は、(c−1)前記一つ以上の特徴マップで、前記テーブル作成用ROIに対応する、一つ以上の領域に対して一つ以上のマックスプーリングを適用してテーブル作成用第1プーリング済み特徴マップを生成し、(c−2)前記一つ以上の特徴マップで、前記テーブル作成用ROIに対応する、一つ以上の領域に対して一つ以上の平均プーリングを適用してテーブル作成用第2プーリング済み特徴マップを生成し、(c−3)前記第1FCレイヤをもって、前記テーブル作成用第1プーリング済み特徴マップにリグレッション(regression)演算を適用してテーブル作成用第1候補バウンディングボックスのピクセルデータに対する情報を獲得するようにし、(c−4)第2FCレイヤをもって、前記テーブル作成用第2プーリング済み特徴マップにリグレッション演算を適用してテーブル作成用第2候補バウンディングボックスのピクセルデータに対する情報を獲得するようにする段階;及び
    (d)前記テーブル作成装置は、前記テーブル作成用第1候補バウンディングボックスと第2原本正解イメージ内のバウンディングボックス間の第1類似度及び前記テーブル作成用第2候補バウンディングボックスと前記第2原本正解イメージ内のバウンディングボックス間の第2類似度を比較して、前記第2原本正解イメージ内の客体または前記テーブル作成用イメージ内の客体の前記スケールの各範囲別に各々の最適のプーリングタイプ(type)に対する情報を含むようにテーブルを作成する段階;
    を含むことを特徴とする方法。
  2. 前記(c)段階の(c−1)及び(c−2)プロセスで、
    前記テーブル作成装置が、前記一つ以上の特徴マップのうち一つの特定特徴マップ内の、前記テーブル作成用ROIに対応する、ある特定領域にマックスプーリング演算のうち一つを適用して前記テーブル作成用第1プーリング済み特徴マップを生成し、前記一つ以上の特徴マップのうち前記一つの特定特徴マップ内の、前記テーブル作成用ROIに対応する、前記ある特定領域に平均プーリング演算のうち一つを適用して前記テーブル作成用第2プーリング済み特徴マップを生成することを特徴とする請求項1に記載の方法。
  3. 前記(c)段階の(c−1)及び(c−2)プロセスで、
    前記テーブル作成装置が、前記一つ以上の特徴マップのうち多数の特定特徴マップ内の、前記テーブル作成用ROIに対応する、多数の特定領域にマックスプーリング演算を適用して前記テーブル作成用第1プーリング済み特徴マップを生成し、前記一つ以上の特徴マップのうち前記多数の特定特徴マップ内の、前記テーブル作成用ROIに対応する、前記多数の特定領域に平均プーリング演算を適用して前記テーブル作成用第2プーリング済み特徴マップを生成することを特徴とする請求項1に記載の方法。
  4. 前記(d)段階で、
    前記最適のプーリングタイプ各々は、(i)前記多数の特定特徴マップに対応する多数の特定サブ−プーリングタイプまたは(ii)前記多数の特定サブ−プーリングタイプを参照して定義された一つの統合プーリングタイプを含むことを特徴とする請求項3に記載の方法。
  5. 前記(d)段階で、
    前記テーブル装置は、(i)前記テーブル作成用第1候補バウンディングボックスと前記第2原本正解イメージ内のバウンディングボックス間の第1類似度と(ii)前記テーブル作成用第2候補バウンディングボックスと前記第2原本正解イメージ内のバウンディングボックス間の第2類似度を比較して、(i)前記第2原本正解イメージ内の客体または前記テーブル作成用イメージ内の客体のスケールの各範囲、及び(ii)前記客体の各カテゴリ別に、各々の最適のプーリングタイプに対する情報を含むように前記テーブルを作成することを特徴とする請求項1に記載の方法。
  6. 前記(d)段階で、
    前記テーブル作成装置は、前記客体の前記スケールの各範囲別に平均プーリングタイプのカテゴリの数に対するマックスプーリングタイプのカテゴリ数として決定された比率を参照して、前記客体の前記スケールの各範囲別に各々の最適のプーリングタイプに対する情報を含めるように前記テーブルを作成することを特徴とする請求項1に記載の方法。
  7. 前記テーブル作成装置は、前記客体のカテゴリ別に前記客体のスケールの臨界範囲を指定して管理し、前記臨界範囲は前記第1類似度が前記第2類似度よりも大きいか同じになり始める時の前記客体のスケールの特定範囲を前記臨界範囲に指定してこれを管理することを特徴とする請求項1に記載の方法。
  8. 前記類似度はテーブル作成用候補バウンディングボックスの領域と第2原本正解イメージのバウンディングボックスの領域の和集合(union)に対する、前記テーブル作成用候補バウンディングボックスの領域と前記第2原本正解イメージのバウンディングボックスの領域の交差集合(intersection)の比率として決定されて、前記類似度は前記第1類似度及び前記第2類似度を含み、前記テーブル作成用候補バウンディングボックスは、前記テーブル作成用第1候補バウンディングボックスと前記テーブル作成用第2候補バウンディングボックスを含むことを特徴とする請求項1に記載の方法。
  9. 前記客体のスケールは、前記テーブル作成用イメージ内の客体に対応する前記第1及び第2候補バウンディングボックス内に含まれたピクセルデータの個数及び前記第2原本正解イメージのバウンディングボックスに含まれたピクセルデータの個数のうち少なくとも一つを参照して決定されることを特徴とする請求項1に記載の学習方法。
  10. CNN(Convolutional Neural Network)を含むテスティング装置を用いて一つ以上のテストイメージ上の一つ以上のテスト用客体に対するプーリングタイプの情報を含むテーブルを利用する方法において、
    (a)(I)(i)学習イメージがコンボリューションレイヤに入力されて所定の演算結果少なくとも一つ以上の学習用特徴マップが獲得され、前記学習イメージ上で学習用ROI(region−of−interest)領域がRPN(Region Proposal Network)から獲得されると、前記学習装置が、前記学習用ROI領域に対応される前記学習用特徴マップ上の領域を複数のサブ−区域に区分するか区分するように支援するプロセス、(ii)前記学習装置が、(ii−1)前記複数のサブ−区域各々に含まれたすべてのピクセルのうち前記サブ−区域毎に最大値のピクセルを選択するマックスプーリング演算を適用する場合に、前記一つ以上の特徴マップ内の学習用ROIに対応する、一つ以上の領域に対して一つ以上の前記マックスプーリング演算を適用して、学習用第1プーリング済み特徴マップを生成するか生成するように支援し、(ii−2)前記複数のサブ−区域各々に含まれた前記すべてのピクセルのうち前記サブ−区域毎に平均値を獲得する平均プーリング演算を適用する場合に、前記一つ以上の特徴マップ内の前記学習用ROIに対応する、一つ以上の領域に一つ以上の平均プーリングを適用して、学習用第2プーリング済み特徴マップを生成するか生成するように支援するプロセス、(iii)前記学習装置が、(iii−1)第1FC(Fully Connected)レイヤをもって、前記学習用第1プーリング済み特徴マップにリグレッション(regression)演算を適用して学習用第1候補バウンディングボックスのピクセルデータに対する情報を獲得するようにし、第1ロスレイヤをもって、前記学習用第1候補バウンディングボックスのピクセルデータに対する情報と第1原本正解イメージのバウンディングボックスのピクセルデータに対する情報を比較して第1比較データを獲得するようにして、前記第1比較データを利用してバックプロパゲーションを遂行して前記CNNの少なくとも一つのパラメータに対して調節をするプロセス及び(iii−2)第2FCレイヤをもって、前記学習用第2プーリング済み特徴マップにリグレッション(regression)演算を適用して学習用第2候補バウンディングボックスのピクセルデータ情報を獲得するようにし、第2ロスレイヤをもって、前記学習用第2候補バウンディングボックスのピクセルデータに対する情報と第1原本正解イメージのバウンディングボックスのピクセルデータ情報と比較して第2比較データを獲得するようにして、前記第2比較データを利用してバックプロパゲーションを遂行して前記CNNの少なくとも一つのパラメータに対して調節をするプロセス;を遂行して、前記学習装置の調節されたパラメータが獲得された状態で、テーブル作成装置が、前記調節されたパラメータを備えたCNNの入力として客体を含むテーブル作成用イメージを獲得する段階;(II)前記テーブル作成装置が、前記複数個のコンボリューションレイヤをもって前記テーブル作成用イメージにコンボリューション演算を適用するようにして少なくとも一つのテーブル作成用特徴マップが獲得されるようにし、前記RPNをもって前記テーブル作成用特徴マップに所定の演算を適用してテーブル作成用ROI領域が獲得されるようにする段階;(III)前記テーブル作成装置が、(i)前記一つ以上の特徴マップで、前記テーブル作成用ROIに対応する、一つ以上の領域に対して一つ以上のマックスプーリングを適用してテーブル作成用第1プーリング済み特徴マップを生成し、(ii)前記一つ以上の特徴マップで、前記テーブル作成用ROIに対応する、一つ以上の領域に対して一つ以上の平均プーリングを適用してテーブル作成用第2プーリング済み特徴マップを生成し、(iii)前記第1FCレイヤをもって、前記テーブル作成用第1プーリング済み特徴マップにリグレッション(regression)演算を適用してテーブル作成用第1候補バウンディングボックスのピクセルデータに対する情報を獲得するようにし、(iv)第2FCレイヤをもって、前記テーブル作成用第2プーリング済み特徴マップにリグレッション演算を適用してテーブル作成用第2候補バウンディングボックスのピクセルデータに対する情報を獲得するようにする段階;及び(IV)前記テーブル作成装置が、(i)前記テーブル作成用第1候補バウンディングボックスと第2原本正解イメージ内のバウンディングボックス間の第1類似度及び(ii)前記テーブル作成用第2候補バウンディングボックスと前記第2原本正解イメージ内のバウンディングボックス間の第2類似度を比較して、前記第2原本正解イメージ内の客体または前記テーブル作成用イメージ内の客体の前記スケールの各範囲別に各々の最適のプーリングタイプ(type)に対する情報を含むようにテーブルを作成する段階;を遂行した状態で、前記テスティング装置が前記テストイメージを獲得するか、他の装置をもって獲得するようにする段階;
    (b)前記テスティング装置が、前記複数個のコンボリューションレイヤをもって前記テストイメージにコンボリューション演算を適用するようにして少なくとも一つのテスト用特徴マップが獲得されるようにし、前記RPNをもって前記テスト用特徴マップに所定の演算を適用してテスト用ROI領域が獲得されるようにする段階;
    (c)前記テスティング装置が、前記マックスプーリングタイプ及び前記平均プーリングタイプのうち、前記テスト用ROIに対応する情報を含む前記テーブルを参照して決定して選択された、特定最適プーリングタイプを利用してテスト用プーリング済み特徴マップを生成する段階;及び
    (d)前記テスティング装置が、前記FCレイヤを通じて前記テスト用プーリング済み特徴マップにリグレッション演算を適用してテスト用バウンディングボックスを獲得する段階;
    を含む方法。
  11. 前記テスティング装置は、前記テストイメージにコンボリューション演算を適用した結果互いに異なる大きさを有するテスト用特徴マップが獲得される場合、前記テスト用特徴マップに対応するサブ−プーリングタイプを利用して前記テスト用プーリング済み特徴マップを生成し、ここで前記サブ−プーリングタイプはテスト用客体のスケールに対応する情報を含む前記テーブルを参照に決定されることを特徴とする請求項10に記載の方法。
  12. 前記(b)段階で、
    前記テスティング装置は、前記マックスプーリングタイプまたは前記平均プーリングタイプの中から選択された前記特定最適プーリングタイプを利用して前記テスト用プーリング済み特徴マップを生成し、ここで前記特定最適プーリングタイプは前記テスト用ROIのスケール及び前記テスト用客体のカテゴリに対応する情報を含む前記テーブルを参照に決定されることを特徴とする請求項10に記載の方法。
  13. 前記(b)段階で、
    前記テスト用ROIの前記スケールは前記テスト用ROIの内部に含まれたピクセルデータ個数を参照にして決定されることを特徴とする請求項10に記載の方法。
  14. 少なくとも一つのテーブル作成用イメージ内の少なくとも一つの客体のスケール範囲別にプーリングタイプに対する情報を含むテーブルを作成するためのテーブル作成装置において、
    (i)学習イメージがコンボリューションレイヤに入力されて所定の演算結果少なくとも一つ以上の学習用特徴マップが獲得され、前記学習イメージ上で学習用ROI(region−of−interest)領域がRPN(Region Proposal Network)から獲得されると、前記学習装置が、前記学習用ROI領域に対応される前記学習用特徴マップ上の領域を複数のサブ−区域に区分するか区分するように支援するプロセス、(ii)前記学習装置は、(ii−1)前記複数のサブ−区域各々に含まれたすべてのピクセルのうち前記サブ−区域毎に最大値のピクセルを選択するマックスプーリング演算を適用する場合に、前記一つ以上の特徴マップ内の学習用ROIに対応する、一つ以上の領域に対して一つ以上の前記マックスプーリング演算を適用して、学習用第1プーリング済み特徴マップを生成するか生成するように支援し、(ii−2)前記複数のサブ−区域各々に含まれた前記すべてのピクセルのうち前記サブ−区域毎に平均値を獲得する平均プーリング演算を適用する場合に、前記一つ以上の特徴マップ内の前記学習用ROIに対応する、一つ以上の領域に一つ以上の平均プーリングを適用して、学習用第2プーリング済み特徴マップを生成するか生成するように支援するプロセス、(iii)前記学習装置は、(iii−1)第1FC(Fully Connected)レイヤをもって、前記学習用第1プーリング済み特徴マップにリグレッション(regression)演算を適用して学習用第1候補バウンディングボックスのピクセルデータに対する情報を獲得するようにし、第1ロスレイヤをもって、前記学習用第1候補バウンディングボックスのピクセルデータに対する情報と第1原本正解イメージのバウンディングボックスのピクセルデータに対する情報を比較して第1比較データを獲得するようにして、前記第1比較データを利用してバックプロパゲーションを遂行して前記CNNの少なくとも一つのパラメータに対して調節をするプロセス及び(iii−2)第2FCレイヤをもって、前記学習用第2プーリング済み特徴マップにリグレッション(regression)演算を適用して学習用第2候補バウンディングボックスのピクセルデータ情報を獲得するようにし、第2ロスレイヤをもって、前記学習用第2候補バウンディングボックスのピクセルデータに対する情報と第1原本正解イメージのバウンディングボックスのピクセルデータ情報と比較して第2比較データを獲得するようにして、前記第2比較データを利用してバックプロパゲーションを遂行して前記CNNの少なくとも一つのパラメータに対して調節をするプロセス;を遂行して、前記学習装置の調節されたパラメータが獲得された状態で、前記調節されたパラメータを備えたCNNの入力として、客体を含むテーブル作成用イメージを獲得するか、他の装置をもって獲得するようにする通信部;
    (I)前記複数個のコンボリューションレイヤをもって前記テーブル作成用イメージにコンボリューション演算を適用するようにして少なくとも一つのテーブル作成用特徴マップが獲得されるようにし、前記RPNをもって前記テーブル作成用特徴マップに所定の演算を適用してテーブル作成用ROI領域が獲得されるようにするプロセス;(II)(II−1)前記一つ以上の特徴マップで、前記テーブル作成用ROIに対応する、一つ以上の領域に対して一つ以上のマックスプーリングを適用してテーブル作成用第1プーリング済み特徴マップを生成し、(II−2)前記一つ以上の特徴マップで、前記テーブル作成用ROIに対応する、一つ以上の領域に対して一つ以上の平均プーリングを適用してテーブル作成用第2プーリング済み特徴マップを生成し、(II−3)前記第1FCレイヤをもって、前記テーブル作成用第1プーリング済み特徴マップにリグレッション(regression)演算を適用してテーブル作成用第1候補バウンディングボックスのピクセルデータに対する情報を獲得するようにし、(II−4)第2FCレイヤをもって、前記テーブル作成用第2プーリング済み特徴マップにリグレッション演算を適用してテーブル作成用第2候補バウンディングボックスのピクセルデータに対する情報を獲得するようにするプロセス;及び(III)前記テーブル作成用第1候補バウンディングボックスと第2原本正解イメージ内のバウンディングボックス間の第1類似度及び前記テーブル作成用第2候補バウンディングボックスと前記第2原本正解イメージ内のバウンディングボックス間の第2類似度を比較して、前記第2原本正解イメージ内の客体または前記テーブル作成用イメージ内の客体の前記スケールの各範囲別に各々の最適のプーリングタイプ(type)に対する情報を含むようにテーブルを作成するプロセス;を含むプロセッサ;
    を含むことを特徴とする装置。
  15. 前記(II−1)及び(II−2)プロセスで、
    前記プロセッサが、前記一つ以上の特徴マップのうち一つの特定特徴マップ内の、前記テーブル作成用ROIに対応する、ある特定領域にマックスプーリング演算のうち一つを適用して前記テーブル作成用第1プーリング済み特徴マップを生成し、前記一つ以上の特徴マップのうち前記一つの特定特徴マップ内の、前記テーブル作成用ROIに対応する、前記ある特定領域に平均プーリング演算のうち一つを適用して前記テーブル作成用第2プーリング済み特徴マップを生成することを特徴とする請求項14に記載の装置。
  16. 前記(II−1)及び(II−2)プロセスで、
    前記プロセッサが、前記一つ以上の特徴マップのうち多数の特定特徴マップ内の、前記テーブル作成用ROIに対応する、多数の特定領域にマックスプーリング演算を適用して前記テーブル作成用第1プーリング済み特徴マップを生成し、前記一つ以上の特徴マップのうち前記多数の特定特徴マップ内の、前記テーブル作成用ROIに対応する、前記多数の特定領域に平均プーリング演算を適用して前記テーブル作成用第2プーリング済み特徴マップを生成することを特徴とする請求項14に記載の装置。
  17. 前記(III)プロセスで、
    前記最適のプーリングタイプ各々は、(i)前記多数の特定特徴マップに対応する多数の特定サブ−プーリングタイプまたは(ii)前記多数の特定サブ−プーリングタイプを参照して定義された一つの統合プーリングタイプを含むことを特徴とする請求項16に記載の装置。
  18. 前記(III)プロセスで、
    前記プロセッサは、(i)前記テーブル作成用第1候補バウンディングボックスと前記第2原本正解イメージ内のバウンディングボックス間の第1類似度と(ii)前記テーブル作成用第2候補バウンディングボックスと前記第2原本正解イメージ内のバウンディングボックス間の第2類似度を比較して、(i)前記第2原本正解イメージ内の客体または前記テーブル作成用イメージ内の客体のスケールの各範囲、及び(ii)前記客体の各カテゴリ別に、各々の最適のプーリングタイプに対する情報を含むように前記テーブルを作成することを特徴とする請求項14に記載の装置。
  19. 前記(III)プロセスで、
    前記プロセッサは、前記客体の前記スケールの各範囲別に平均プーリングタイプのカテゴリの数に対するマックスプーリングタイプのカテゴリ数として決定された比率を参照して前記客体の前記スケールの各範囲別に各々の最適のプーリングタイプに対する情報を含めるように前記テーブルを作成することを特徴とする請求項14に記載の装置。
  20. 前記プロセッサは、前記客体のカテゴリ別に前記客体のスケールの臨界範囲を指定して管理し、前記臨界範囲は前記第1類似度が前記第2類似度よりも大きいか同じになり始める時の前記客体のスケールの特定範囲を前記臨界範囲に指定してこれを管理することを特徴とする請求項14に記載の装置。
  21. 前記類似度はテーブル作成用候補バウンディングボックスの領域と第2原本正解イメージのバウンディングボックスの領域の和集合(union)に対する前記テーブル作成用候補バウンディングボックスの領域と前記第2原本正解イメージのバウンディングボックスの領域の交差集合(intersection)の比率として決定されて、前記類似度は前記第1類似度及び前記第2類似度を含み、前記テーブル作成用候補バウンディングボックスは、前記テーブル作成用第1候補バウンディングボックスと前記テーブル作成用第2候補バウンディングボックスを含むことを特徴とする請求項14に記載の装置。
  22. 前記客体のスケールは、前記テーブル作成用イメージ内の客体に対応する前記第1及び第2候補バウンディングボックス内に含まれたピクセルデータの個数及び前記第2原本正解イメージのバウンディングボックスに含まれたピクセルデータの個数のうち少なくとも一つを参照して決定されることを特徴とする請求項14に記載の学習装置。
  23. 一つ以上のテストイメージ上の一つ以上のテスト用客体に対するプーリングタイプの情報を含むテーブルを利用するテスティング装置において、
    (I)(i)学習イメージがコンボリューションレイヤに入力されて所定の演算結果少なくとも一つ以上の学習用特徴マップが獲得され、前記学習イメージ上で学習用ROI(region−of−interest)領域がRPN(Region Proposal Network)から獲得されると、前記学習装置が、前記学習用ROI領域に対応される前記学習用特徴マップ上の領域を複数のサブ−区域に区分するか区分するように支援するプロセス、(ii)前記学習装置が、(ii−1)前記複数のサブ−区域各々に含まれたすべてのピクセルのうち前記サブ−区域毎に最大値のピクセルを選択するマックスプーリング演算を適用する場合に、前記一つ以上の特徴マップ内の学習用ROIに対応する、一つ以上の領域に対して一つ以上の前記マックスプーリング演算を適用して、学習用第1プーリング済み特徴マップを生成するか生成するように支援し、(ii−2)前記複数のサブ−区域各々に含まれた前記すべてのピクセルのうち前記サブ−区域毎に平均値を獲得する平均プーリング演算を適用する場合に、前記一つ以上の特徴マップ内の前記学習用ROIに対応する、一つ以上の領域に一つ以上の平均プーリングを適用して、学習用第2プーリング済み特徴マップを生成するか生成するように支援するプロセス、(iii)前記学習装置が、(iii−1)第1FC(Fully Connected)レイヤをもって、前記学習用第1プーリング済み特徴マップにリグレッション(regression)演算を適用して学習用第1候補バウンディングボックスのピクセルデータに対する情報を獲得するようにし、第1ロスレイヤをもって、前記学習用第1候補バウンディングボックスのピクセルデータに対する情報と第1原本正解イメージのバウンディングボックスのピクセルデータに対する情報を比較して第1比較データを獲得するようにして、前記第1比較データを利用してバックプロパゲーションを遂行して前記CNNの少なくとも一つのパラメータに対して調節をするプロセス及び(iii−2)第2FCレイヤをもって、前記学習用第2プーリング済み特徴マップにリグレッション(regression)演算を適用して学習用第2候補バウンディングボックスのピクセルデータ情報を獲得するようにし、第2ロスレイヤをもって、前記学習用第2候補バウンディングボックスのピクセルデータに対する情報と第1原本正解イメージのバウンディングボックスのピクセルデータ情報と比較して第2比較データを獲得するようにして、前記第2比較データを利用してバックプロパゲーションを遂行して前記CNNの少なくとも一つのパラメータに対して調節をするプロセス;を遂行して、前記学習装置の調節されたパラメータが獲得された状態で、テーブル作成装置が、前記調節されたパラメータを備えたCNNの入力として客体を含むテーブル作成用イメージを獲得する段階;(II)前記テーブル作成装置が、前記複数個のコンボリューションレイヤをもって前記テーブル作成用イメージにコンボリューション演算を適用するようにして少なくとも一つのテーブル作成用特徴マップが獲得されるようにし、前記RPNをもって前記テーブル作成用特徴マップに所定の演算を適用してテーブル作成用ROI領域が獲得されるようにする段階;(III)前記テーブル作成装置が、(i)前記一つ以上の特徴マップで、前記テーブル作成用ROIに対応する、一つ以上の領域に対して一つ以上のマックスプーリングを適用してテーブル作成用第1プーリング済み特徴マップを生成し、(ii)前記一つ以上の特徴マップで、前記テーブル作成用ROIに対応する、一つ以上の領域に対して一つ以上の平均プーリングを適用してテーブル作成用第2プーリング済み特徴マップを生成し、(iii)前記第1FCレイヤをもって、前記テーブル作成用第1プーリング済み特徴マップにリグレッション(regression)演算を適用してテーブル作成用第1候補バウンディングボックスのピクセルデータに対する情報を獲得するようにし、(iv)第2FCレイヤをもって、前記テーブル作成用第2プーリング済み特徴マップにリグレッション演算を適用してテーブル作成用第2候補バウンディングボックスのピクセルデータに対する情報を獲得するようにする段階;及び(IV)前記テーブル作成装置が、(i)前記テーブル作成用第1候補バウンディングボックスと第2原本正解イメージ内のバウンディングボックス間の第1類似度及び(ii)前記テーブル作成用第2候補バウンディングボックスと前記第2原本正解イメージ内のバウンディングボックス間の第2類似度を比較して、前記第2原本正解イメージ内の客体または前記テーブル作成用イメージ内の客体の前記スケールの各範囲別に各々の最適のプーリングタイプ(type)に対する情報を含むようにテーブルを作成する段階;を遂行した状態で、前記テストイメージを獲得するか、他の装置をもって獲得するようにする通信部;及び
    (AA)前記複数個のコンボリューションレイヤをもって前記テストイメージにコンボリューション演算を適用するようにして少なくとも一つのテスト用特徴マップが獲得されるようにし、前記RPNをもって前記テスト用特徴マップに所定の演算を適用してテスト用ROI領域が獲得されるようにするプロセス;(BB)前記マックスプーリングタイプ及び前記平均プーリングタイプのうち、前記テスト用ROIに対応する情報を含む前記テーブルを参照して決定して選択された、特定最適プーリングタイプを利用してテスト用プーリング済み特徴マップを生成するプロセス;及び(CC)前記FCレイヤを通じて前記テスト用プーリング済み特徴マップにリグレッション演算を適用してテスト用バウンディングボックスを獲得するプロセス;を遂行するプロセッサ;
    を含む装置。
  24. 前記プロセッサは、前記テストイメージにコンボリューション演算を適用した結果互いに異なる大きさを有するテスト用特徴マップが獲得される場合、前記テスト用特徴マップに対応するサブ−プーリングタイプを利用して前記テスト用プーリング済み特徴マップを生成し、ここで前記サブ−プーリングタイプはテスト用客体のスケールに対応する情報を含む前記テーブルを参照に決定されることを特徴とする請求項23に記載の装置。
  25. 前記(AA)プロセスで、
    前記プロセッサは、前記マックスプーリングタイプまたは前記平均プーリングタイプの中から選択された前記特定最適プーリングタイプを利用して前記テスト用プーリング済み特徴マップを生成し、ここで前記特定最適プーリングタイプは前記テスト用ROIのスケール及び前記テスト用客体のカテゴリに対応する情報を含む前記テーブルを参照に決定されることを特徴とする請求項23に記載の装置。
  26. 前記(AA)プロセスで、
    前記テスト用ROIの前記スケールは前記テスト用ROIの内部に含まれたピクセルデータ個数を参照にして決定されることを特徴とする請求項23に記載の装置。
JP2018194937A 2017-10-18 2018-10-16 プーリングタイプに対する情報を含むテーブルを作成するための方法、装置及びこれを利用したテスティング方法、テスティング装置 Active JP6707608B2 (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US15/786,680 US9953437B1 (en) 2017-10-18 2017-10-18 Method and device for constructing a table including information on a pooling type and testing method and testing device using the same
US15/786,680 2017-10-18

Publications (2)

Publication Number Publication Date
JP2019075122A true JP2019075122A (ja) 2019-05-16
JP6707608B2 JP6707608B2 (ja) 2020-06-10

Family

ID=61952390

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2018194937A Active JP6707608B2 (ja) 2017-10-18 2018-10-16 プーリングタイプに対する情報を含むテーブルを作成するための方法、装置及びこれを利用したテスティング方法、テスティング装置

Country Status (5)

Country Link
US (1) US9953437B1 (ja)
EP (1) EP3474191A1 (ja)
JP (1) JP6707608B2 (ja)
KR (1) KR102114357B1 (ja)
CN (1) CN109685199B (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2022000775A (ja) * 2021-03-05 2022-01-04 アポロ インテリジェント コネクティビティ (ベイジン) テクノロジー カンパニー リミテッドApollo Intelligent Connectivity (Beijing) Technology Co., Ltd. 交通流監視測定システムのテスト方法、装置及び機器

Families Citing this family (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10706267B2 (en) * 2018-01-12 2020-07-07 Qualcomm Incorporated Compact models for object recognition
DE102018212049A1 (de) * 2018-07-19 2020-01-23 Conti Temic Microelectronic Gmbh Verfahren zur dreidimensionalen bildlichen Rekonstruktion eines Fahrzeugs
US10325179B1 (en) * 2019-01-23 2019-06-18 StradVision, Inc. Learning method and learning device for pooling ROI by using masking parameters to be used for mobile devices or compact networks via hardware optimization, and testing method and testing device using the same
US10445611B1 (en) * 2019-01-25 2019-10-15 StradVision, Inc. Method for detecting pseudo-3D bounding box to be used for military purpose, smart phone or virtual driving based-on CNN capable of converting modes according to conditions of objects and device using the same
US10402686B1 (en) * 2019-01-25 2019-09-03 StradVision, Inc. Learning method and learning device for object detector to be used for surveillance based on convolutional neural network capable of converting modes according to scales of objects, and testing method and testing device using the same
US10713815B1 (en) * 2019-01-31 2020-07-14 StradVision, Inc. Method and device for supporting administrators to processes of object detectors to provide logical driving
US10817777B2 (en) * 2019-01-31 2020-10-27 StradVision, Inc. Learning method and learning device for integrating object detection information acquired through V2V communication from other autonomous vehicle with object detection information generated by present autonomous vehicle, and testing method and testing device using the same
US10650279B1 (en) * 2019-01-31 2020-05-12 StradVision, Inc. Learning method and learning device for heterogeneous sensor fusion by using merging network which learns non-maximum suppression
CN110490813B (zh) * 2019-07-05 2021-12-17 特斯联(北京)科技有限公司 卷积神经网络的特征图增强方法、装置、设备及介质
CN111127587B (zh) * 2019-12-16 2023-06-23 杭州电子科技大学 一种基于对抗生成网络的无参考图像质量地图生成方法
CN111339884B (zh) * 2020-02-19 2023-06-06 浙江大华技术股份有限公司 图像识别方法以及相关设备、装置
US11854239B2 (en) * 2021-01-07 2023-12-26 Canon Kabushiki Kaisha Image processing device, imaging device, image processing method, and recording medium

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2016155564A1 (zh) * 2015-04-02 2016-10-06 腾讯科技(深圳)有限公司 卷积神经网络模型的训练方法及装置
WO2017079522A1 (en) * 2015-11-04 2017-05-11 Nec Laboratories America, Inc. Subcategory-aware convolutional neural networks for object detection

Family Cites Families (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8467607B1 (en) * 2011-11-21 2013-06-18 Google Inc. Segmentation-based feature pooling for object models
CN104217208B (zh) * 2013-06-03 2018-01-16 株式会社理光 目标检测方法和装置
US20150104102A1 (en) 2013-10-11 2015-04-16 Universidade De Coimbra Semantic segmentation method with second-order pooling
CN104504743B (zh) * 2014-12-30 2017-10-24 深圳先进技术研究院 重建内部感兴趣区域图像的方法及系统
US9286524B1 (en) 2015-04-15 2016-03-15 Toyota Motor Engineering & Manufacturing North America, Inc. Multi-task deep convolutional neural networks for efficient and robust traffic lane detection
US20170124409A1 (en) 2015-11-04 2017-05-04 Nec Laboratories America, Inc. Cascaded neural network with scale dependent pooling for object detection
US10002313B2 (en) * 2015-12-15 2018-06-19 Sighthound, Inc. Deeply learned convolutional neural networks (CNNS) for object localization and classification
CN107229904B (zh) * 2017-04-24 2020-11-24 东北大学 一种基于深度学习的目标检测与识别方法

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2016155564A1 (zh) * 2015-04-02 2016-10-06 腾讯科技(深圳)有限公司 卷积神经网络模型的训练方法及装置
WO2017079522A1 (en) * 2015-11-04 2017-05-11 Nec Laboratories America, Inc. Subcategory-aware convolutional neural networks for object detection

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
Y-LAN BOUREAU, FRANCIS BACH, YANN LECUN AND JEAN PONCE: "Learning Mid-Level Features For Recognition", 2010 IEEE COMPUTER SOCIETY CONFERENCE ON COMPUTER VISION AND PATTERN RECOGNITION, JPN6019045988, 18 June 2010 (2010-06-18), pages 2559 - 2566, XP031725792, ISSN: 0004162207 *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2022000775A (ja) * 2021-03-05 2022-01-04 アポロ インテリジェント コネクティビティ (ベイジン) テクノロジー カンパニー リミテッドApollo Intelligent Connectivity (Beijing) Technology Co., Ltd. 交通流監視測定システムのテスト方法、装置及び機器
JP7348243B2 (ja) 2021-03-05 2023-09-20 阿波▲羅▼智▲聯▼(北京)科技有限公司 交通流監視測定システムのテスト方法、装置及び機器

Also Published As

Publication number Publication date
JP6707608B2 (ja) 2020-06-10
EP3474191A1 (en) 2019-04-24
KR20190043468A (ko) 2019-04-26
CN109685199A (zh) 2019-04-26
US9953437B1 (en) 2018-04-24
CN109685199B (zh) 2023-07-28
KR102114357B1 (ko) 2020-06-17

Similar Documents

Publication Publication Date Title
JP2019075122A (ja) プーリングタイプに対する情報を含むテーブルを作成するための方法、装置及びこれを利用したテスティング方法、テスティング装置
KR102229328B1 (ko) 로스 어그멘테이션을 이용하여 cnn의 파라미터를 조정하기 위한 학습 방법, 학습 장치 및 이를 이용한 테스팅 방법, 테스팅 장치
JP6720268B2 (ja) マルチスケール特徴マップを利用してcnnのパラメータを調節するための学習方法、学習装置及びこれを利用したテスティング方法、テスティング装置
JP6441980B2 (ja) 教師画像を生成する方法、コンピュータおよびプログラム
US9946960B1 (en) Method for acquiring bounding box corresponding to an object in an image by using convolutional neural network including tracking network and computing device using the same
JP6720263B2 (ja) 回帰分析により2dバウンディングボックスからスード(pseudo)−3dボックスを獲得する方法及びこれを利用した学習装置及びテスト装置
JP2020126614A (ja) 高精度イメージを分析するディープラーニングネットワークの学習に利用するためのトレーニングイメージをオートラベリングするための方法、及びこれを利用したオートラベリング装置{method for auto−labeling training images for use in deep learning network to analyze images with high precision, and auto−labeling device using the same}
WO2017096758A1 (zh) 图像分类方法、电子设备和存储介质
CN109583483A (zh) 一种基于卷积神经网络的目标检测方法和系统
US11449706B2 (en) Information processing method and information processing system
JP2020038663A (ja) 障害物を検出する学習方法及び学習装置そしてこれを利用したテスト方法及びテスト装置{learning method, learning device for detecting obstacles and testing method, testing device using the same}
JP2020119540A (ja) 遠距離検出または軍事目的のために、イメージコンカチネーションを利用したcnn基盤のハードウェア最適化が可能な物体検出器を学習する方法及び学習装置、それを利用したテスト方法及びテスト装置{learning method and learning device for object detector with hardware optimization based on cnn for detection at distance or military purpose using image concatenation, and testing method and testing device using the same}
KR20200095330A (ko) 세그먼테이션 스코어 맵 및 클러스터링 맵을 이용하여 자율 주행 차량의 주행 경로를 계획하기 위해 차선을 검출하는 포스트 프로세싱 방법 및 장치
JP2020119529A (ja) モバイルデバイスまたは小型ネットワークに適用可能なハードウェアを最適化するのに利用可能なroiをプーリングするために、マスキングパラメータを利用する方法及び装置、そしてこれを利用したテスト方法及びテスト装置{learning method and learning device for pooling roi by using masking parameters to be used for mobile devices or compact networks via hardware optimization, and testing method and testing device using the same}
TWI701608B (zh) 用於圖片匹配定位的神經網路系統、方法及裝置
KR20200027888A (ko) 차선 모델을 이용하여 차선을 검출할 수 있는 학습 방법 및 학습 장치 그리고 이를 이용한 테스트 방법 및 테스트 장치
KR20200091792A (ko) 하드웨어 최적화에 사용되는 이미지 인식을 위한 1x1 컨벌루션을 이용한 CNN 학습 방법 및 학습 장치, 이를 이용한 테스트 방법 및 테스트 장치
KR101853237B1 (ko) 딥 러닝을 이용한 3차원 기하 디노이징 방법 및 그 장치
WO2020047466A1 (en) Human-assisted machine learning through geometric manipulation and refinement
CN110298402A (zh) 一种小目标检测性能优化方法
US11703350B2 (en) System and method for automatically annotating a map
CN111027551B (zh) 图像处理方法、设备和介质
CN116468702A (zh) 黄褐斑评估方法、装置、电子设备及计算机可读存储介质
CN113343987B (zh) 文本检测处理方法、装置、电子设备及存储介质
WO2020108785A1 (en) Method and device for training a neural network to specify landmarks on 2d and 3d images

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20181114

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20191119

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20191203

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20200227

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20200512

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20200520

R150 Certificate of patent or registration of utility model

Ref document number: 6707608

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250