JP6908943B2 - イメージコンカチネーションと、ターゲット物体予測ネットワークとを利用して、多重カメラ又はサラウンドビューモニタリングに利用される物体検出器を学習する方法及び学習装置、並びにこれを利用したテスティング方法及びテスティング装置 - Google Patents

イメージコンカチネーションと、ターゲット物体予測ネットワークとを利用して、多重カメラ又はサラウンドビューモニタリングに利用される物体検出器を学習する方法及び学習装置、並びにこれを利用したテスティング方法及びテスティング装置 Download PDF

Info

Publication number
JP6908943B2
JP6908943B2 JP2020002987A JP2020002987A JP6908943B2 JP 6908943 B2 JP6908943 B2 JP 6908943B2 JP 2020002987 A JP2020002987 A JP 2020002987A JP 2020002987 A JP2020002987 A JP 2020002987A JP 6908943 B2 JP6908943 B2 JP 6908943B2
Authority
JP
Japan
Prior art keywords
test
image
specific
integrated
learning
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2020002987A
Other languages
English (en)
Other versions
JP2020119546A (ja
Inventor
桂賢 金
桂賢 金
鎔重 金
鎔重 金
寅洙 金
寅洙 金
鶴京 金
鶴京 金
雲鉉 南
雲鉉 南
碩▲ふん▼ 夫
碩▲ふん▼ 夫
明哲 成
明哲 成
東勳 呂
東勳 呂
宇宙 柳
宇宙 柳
泰雄 張
泰雄 張
景中 鄭
景中 鄭
泓模 諸
泓模 諸
浩辰 趙
浩辰 趙
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Stradvision Inc
Original Assignee
Stradvision Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Stradvision Inc filed Critical Stradvision Inc
Publication of JP2020119546A publication Critical patent/JP2020119546A/ja
Application granted granted Critical
Publication of JP6908943B2 publication Critical patent/JP6908943B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N7/00Television systems
    • H04N7/18Closed-circuit television [CCTV] systems, i.e. systems in which the video signal is not broadcast
    • H04N7/188Capturing isolated or intermittent images triggered by the occurrence of a predetermined event, e.g. an object reaching a predetermined position
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/7715Feature extraction, e.g. by transforming the feature space, e.g. multi-dimensional scaling [MDS]; Mappings, e.g. subspace methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/20Analysis of motion
    • G06T7/292Multi-camera tracking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • G06F18/2148Generating training patterns; Bootstrap methods, e.g. bagging or boosting characterised by the process organisation or structure, e.g. boosting cascade
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/217Validation; Performance evaluation; Active pattern learning techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2413Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on distances to training or reference patterns
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/0464Convolutional networks [CNN, ConvNet]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N7/00Computing arrangements based on specific mathematical models
    • G06N7/01Probabilistic graphical models, e.g. probabilistic networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/25Determination of region of interest [ROI] or a volume of interest [VOI]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/44Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
    • G06V10/443Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components by matching or filtering
    • G06V10/449Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters
    • G06V10/451Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters with interaction between the filter responses, e.g. cortical complex cells
    • G06V10/454Integrating the filters into a hierarchical structure, e.g. convolutional neural networks [CNN]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/764Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/774Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/776Validation; Performance evaluation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/50Context or environment of the image
    • G06V20/56Context or environment of the image exterior to a vehicle by using sensors mounted on the vehicle
    • G06V20/58Recognition of moving objects or obstacles, e.g. vehicles or pedestrians; Recognition of traffic objects, e.g. traffic signs, traffic lights or roads
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N7/00Television systems
    • H04N7/18Closed-circuit television [CCTV] systems, i.e. systems in which the video signal is not broadcast
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N7/00Television systems
    • H04N7/18Closed-circuit television [CCTV] systems, i.e. systems in which the video signal is not broadcast
    • H04N7/181Closed-circuit television [CCTV] systems, i.e. systems in which the video signal is not broadcast for receiving images from a plurality of remote sources
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10016Video; Image sequence

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Multimedia (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Computing Systems (AREA)
  • Software Systems (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Data Mining & Analysis (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • Biomedical Technology (AREA)
  • Molecular Biology (AREA)
  • Medical Informatics (AREA)
  • Databases & Information Systems (AREA)
  • Mathematical Physics (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Biodiversity & Conservation Biology (AREA)
  • Probability & Statistics with Applications (AREA)
  • Algebra (AREA)
  • Computational Mathematics (AREA)
  • Mathematical Analysis (AREA)
  • Mathematical Optimization (AREA)
  • Pure & Applied Mathematics (AREA)
  • Image Analysis (AREA)

Description

本発明は、イメージコンカチネーション(Image concatenation)と、ターゲット物体統合ネットワークとを利用した、多重カメラまたはサラウンドビューモニタリング(surround view monitoring)に利用されるCNN基盤物体検出器のパラメータを学習する方法に関し;より詳細には、イメージコンカチネーションと、ターゲット物体統合ネットワークとを利用したCNN基盤の物体検出器のパラメータを学習する方法において、(a)少なくとも一つのトレーニングイメージが入力されると、(i)ターゲット領域予測ネットワークをもって、前記トレーニングイメージまたはこれに対応する一つ以上のリサイズされたイメージにおいて一つ以上のターゲット物体が位置するものと予測される領域に対応する第1ターゲット領域ないし第nターゲット領域それぞれを探すようにし、(ii)イメージ加工ネットワークをもって、前記トレーニングイメージまたはこれに対応するリサイズされたイメージから、前記第1ターゲット領域ないし前記第nターゲット領域それぞれに対応する第1加工イメージないし第n加工イメージを取得させ、(iii)前記第1加工イメージないし前記第n加工イメージをコンカチネートした統合トレーニングイメージを出力させる段階;(b)(i)一つ以上のコンボリューションレイヤをもって、一つ以上のコンボリューション演算を前記統合トレーニングイメージに適用することにより、少なくとも一つの統合特徴マップを出力するようにし、(ii)RPN(Region Proposal Network)をもって、前記統合特徴マップを利用して、前記第1加工イメージないし前記第n加工イメージそれぞれ内に位置する一つ以上の物体に対応する第1物体プロポーザルないし第n物体プロポーザルそれぞれを出力させ、(iii)プーリングレイヤをもって、前記統合特徴マップ上で、前記第1物体プロポーザルないし前記第n物体プロポーザルそれぞれに対応するそれぞれの領域に一つ以上のプーリング演算を適用して、少なくとも一つのプーリング済み統合特徴マップを出力させ、(iv)FCレイヤをもって、前記プーリング済み統合特徴マップに少なくとも一つのFC(fully connected)演算を適用して、前記物体に対応する第1物体検出情報ないし第n物体検出情報を出力させる段階;及び(c)(i)前記ターゲット物体統合ネットワークをもって、前記第1物体プロポーザルないし前記第n物体プロポーザルを統合して統合物体プロポーザルを生成するようにし、前記第1物体検出情報ないし前記第n物体検出情報を統合して統合物体検出情報を生成するようにし、(ii)少なくとも一つのFCロスレイヤをもって、前記統合物体検出情報と、これに対応するGTとを参照して一つ以上のFCロスを生成するようにすることで、前記FCロスを利用したバックプロパゲーション(Backpropagation)によって、前記FCレイヤ及び前記コンボリューションレイヤのパラメータの中の少なくとも一部を学習する段階;を含むことを特徴とする学習方法及び学習装置、そしてこれを利用したテスティング方法及びテスティング装置に関する。
機械学習(machine learning)において、コンボリューションニューラルネットワーク(CNNまたはConvNet)は、視覚的イメージ分析に成功的に適用された深層フィードフォワード人工ニューラルネットワーク(Deep feedforward artificial neural network)である。
CNN基盤の物体検出器は、(i)一つ以上のコンボリューションレイヤをもって、入力イメージにコンボリューション演算を適用することにより、前記入力イメージに対応した特徴マップを出力し、(ii)RPN(Region Proposal Network)をもって、前記特徴マップを利用して、前記入力イメージ内の物体に対応するプロポーザルを確認し、(iii)プーリングレイヤをもって、前記確認されたプロポーザルに対応する前記特徴マップ上の領域に少なくとも一つのプーリング演算を適用して、プーリング済み特徴マップを取得し、(iv)FC(Fully Connected)レイヤをもって、少なくとも一つのFC演算を、前記取得されたプーリング済み特徴マップないし前記物体に関する出力クラス情報と、リグレッション情報とに適用することにより、前記入力イメージ上の前記物体を検出する。
だが、前記CNN基盤の物体検出器は、前記コンボリューションレイヤにより前記入力イメージのサイズを縮小したサイズの前記特徴マップを用いることになるので、前記入力イメージに位置するサイズの大きい物体は容易に検出されるが、前記入力イメージに位置するサイズの小さい物体を検出することは難しい。
すなわち、前記入力イメージ上で検出される対象としての一つ以上の物体に対応する多数のターゲット領域がある場合、一部ターゲット領域からはサイズのために所望の特徴が正確に抽出され得なくなり、それに伴って特定の物体は検出することができなくなる。
これらの問題を解決するために、前記入力イメージから得たイメージピラミッドのうちそれぞれのイメージ内に前記ターゲット領域それぞれをクロップして物体検出を遂行することができるものの、この場合には前記ターゲット領域に対応してクロップしたそれぞれのイメージに対して前記物体検出を遂行しなければならないため、演算量が増加し得る。
また、CNN演算は、迅速な演算のために一定の単位、一例として、32、64、128などの倍数でブロック演算を行うにおいて、前記単位の倍数にならない幅や高さを有する入力イメージが取得されると、前記単位の倍数にするために一つ以上のパディング領域を追加しなければならないが、これは前記CNN演算に負担となる。したがって、前記単位の倍数ではない幅や高さを有するクロップしたイメージが多くなると、前記CNN演算にさらに大きな負担として作用して前記CNNの演算速度は減少するようになる。
したがって、本発明の発明者は、前記入力イメージ上に位置する様々なサイズの物体に対応する前記ターゲット領域を利用して、前記CNNの演算時間を減らし、効果的に物体を検出することができる学習方法、学習装置及びそれを利用したテスト方法とテスティング装置を提案することにする。
本発明は、前述した問題点を全て解決することを目的とする。
本発明は、イメージ上に位置する物体をサイズに関係なく効果的に検出することができるようにするCNN基盤の物体検出器を提供することを他の目的とする。
本発明は、演算量を増加させずに前記イメージ上の前記物体を検出することができるようにする、前記CNN基盤の前記物体検出器を提供することをまた他の目的とする。
本発明は、前記入力イメージ上の様々なサイズの前記物体に対応するターゲット領域を利用して、前記CNNの演算時間を減らし、効果的に前記物体を検出することができるようにする前記CNN基盤の前記物体検出器を提供することを他の目的とする。
前記のような本発明の目的を達成し、後述する本発明の特徴的な効果を実現するための、本発明の特徴的な構成は下記の通りである。
本発明の一態様によれば、イメージコンカチネーション(Image concatenation)と、ターゲット物体統合ネットワークとを利用した、CNN基盤物体検出器のパラメータを学習する方法において、(a)少なくとも一つのトレーニングイメージが入力されると、学習装置が、(i)ターゲット領域予測ネットワークをもって、前記トレーニングイメージまたはこれに対応する一つ以上のリサイズされたイメージにおいて一つ以上のターゲット物体が位置するものと予測される領域に対応する第1ターゲット領域ないし第nターゲット領域それぞれを探すようにし、(ii)イメージ加工ネットワークをもって、前記トレーニングイメージまたはこれに対応するリサイズされたイメージから、前記第1ターゲット領域ないし前記第nターゲット領域それぞれに対応する第1加工イメージないし第n加工イメージを取得させ、(iii)前記第1加工イメージないし前記第n加工イメージをコンカチネートした統合トレーニングイメージを出力させる段階;(b)前記学習装置が、(i)一つ以上のコンボリューションレイヤをもって、一つ以上のコンボリューション演算を前記統合トレーニングイメージに適用することにより、少なくとも一つの統合特徴マップを出力するようにし、(ii)RPN(Region Proposal Network)をもって、前記統合特徴マップを利用して、前記第1加工イメージないし前記第n加工イメージそれぞれ内に位置する一つ以上の物体に対応する第1物体プロポーザルないし第n物体プロポーザルそれぞれを出力させ、(iii)プーリングレイヤをもって、前記統合特徴マップ上で、前記第1物体プロポーザルないし前記第n物体プロポーザルそれぞれに対応するそれぞれの領域に一つ以上のプーリング演算を適用して、少なくとも一つのプーリング済み統合特徴マップを出力させ、(iv)FCレイヤをもって、前記プーリング済み統合特徴マップに少なくとも一つのFC(fully connected)演算を適用して、前記物体に対応する第1物体検出情報ないし第n物体検出情報を出力させる段階;及び(c)前記学習装置が、(i)前記ターゲット物体統合ネットワークをもって、前記第1物体プロポーザルないし前記第n物体プロポーザルを統合して統合物体プロポーザルを生成するようにし、前記第1物体検出情報ないし前記第n物体検出情報を統合して統合物体検出情報を生成するようにし、(ii)少なくとも一つのFCロスレイヤをもって、前記統合物体検出情報と、これに対応するGTとを参照して一つ以上のFCロスを生成するようにすることで、前記FCロスを利用したバックプロパゲーション(Backpropagation)によって、前記FCレイヤ及び前記コンボリューションレイヤのパラメータの中の少なくとも一部を学習する段階;を含むことを特徴とする方法が提供される。
一例として、前記(c)段階で、前記学習装置が、少なくとも一つのRPNロスレイヤをもって、前記統合物体プロポーザル情報と、これに対応するGTとを参照して一つ以上のRPNロスを算出するようにすることで、前記RPNロスを利用したバックプロパゲーションによって前記RPNのパラメータを学習する。
一例として、前記(a)段階で、前記学習装置が、前記イメージ加工ネットワークをもって、第1加工イメージないし前記第n加工イメージの幅と高さのうち少なくとも一つを同一に調整した後、同一の大きさに調整された前記幅または前記高さ方向に前記第1調整済み加工イメージないし前記第n調整済み加工イメージをコンカチネート(concatenate)させる。
一例として、前記学習装置が、前記イメージ加工ネットワークをもって、前記第1調整済み加工イメージないし前記第n調整済み加工イメージのうち、コンカチネートされた隣接するそれぞれの二つの調整済み加工イメージから構成されるそれぞれのペアの間にそれぞれ少なくとも一つのゼロパディング(zero padding)領域を追加するようにする。
一例として、前記コンボリューションレイヤの多重コンボリューション演算によって前記統合トレーニングイメージが1/Sに縮小され、前記コンボリューションレイヤそれぞれのカーネルそれぞれの最大サイズをK×Kとする場合、前記ゼロパディング領域の幅が
Figure 0006908943
になるようにする。
一例として、前記(c)段階で、第1特定加工イメージ及び第2特定加工イメージ上にそれぞれ少なくとも一つの特定同一物体が位置し、前記第1特定加工イメージ上で、前記特定同一物体に対応する少なくとも一つの物体プロポーザルを第1特定物体プロポーザルとし、前記第2特定加工イメージ上で、前記特定同一物体に対応する少なくとも一つの物体プロポーザルを第2特定物体プロポーザルとした場合、前記学習装置は、前記ターゲット物体統合ネットワークをもって、前記第1特定物体プロポーザルと、前記第2特定物体プロポーザルとの間のIOU(Intersection Over Union)が第1閾値以上になるかを判断するようにし、(I)前記IOUが、前記第1閾値未満と判断されれば、前記第2特定加工イメージ上で前記第1特定物体プロポーザルに対応する領域と、前記第1特定加工イメージ上で前記第2特定物体プロポーザルに対応する領域との間の調整IOUを算出し、(II)前記調整IOUが第2閾値以上と判断されれば、前記第1特定物体プロポーザルと、前記第2特定物体プロポーザルとの中から、(i)確率値の高い特定物体プロポーザルを選択するようにするか(ii)前記トレーニングイメージ上で演算される面積の大きい特定物体プロポーザルを選択するようにすることにより、前記選択された特定物体プロポーザルを前記特定同一物体に対応する特定統合物体プロポーザルとして生成する。
一例として、前記(c)段階で、第1特定加工イメージ及び第2特定加工イメージ上に少なくとも一つの特定同一物体が位置し、前記第1特定加工イメージ上で、前記特定同一物体に対応する少なくとも一つの物体バウンディングボックスを第1特定物体バウンディングボックスとし、前記第2特定加工イメージ上で、前記特定同一物体に対応する少なくとも一つの物体バウンディングボックスを第2特定物体バウンディングボックスとした場合、前記学習装置は、前記ターゲット物体統合ネットワークをもって、前記第1特定物体バウンディングボックスと、前記第2特定物体バウンディングボックスとの間のIOUが、第1閾値以上になるか否かを判断するようにし、(I)前記IOUが、前記第1閾値未満と判断されれば、前記第2特定加工イメージ上で前記第1特定物体バウンディングボックスに対応する領域と、前記第1特定加工イメージ上で前記第2特定物体バウンディングボックスに対応する領域との間の調整IOUを算出し、(II)前記調整IOUが第2閾値以上と判断されたら、前記第1特定物体バウンディングボックスと、前記第2特定物体バウンディングボックスとの中から(i)確率値の高い特定物体バウンディングボックスを選択するようにするか(ii)前記トレーニングイメージ上で演算される面積の大きい特定物体バウンディングボックスを選択するようにすることにより、前記選択された特定物体バウンディングボックスを前記特定同一物体に対応する特定統合物体検出情報として生成する。
本発明の他の態様によれば、イメージコンカチネーション(Image concatenation)と、ターゲット物体統合ネットワークとを利用したCNN基盤物体検出器をテスティングする方法において、(a)学習装置が、(1)(i)ターゲット領域予測ネットワークをもって、少なくとも一つのトレーニングイメージまたはこれに対応する一つ以上のリサイズされたトレーニングイメージにおいて一つ以上のターゲット物体が位置するものと予測される領域に対応する第1学習用ターゲット領域ないし第n学習用ターゲット領域それぞれを探すようにし、(ii)イメージ加工ネットワークをもって、前記トレーニングイメージまたはこれに対応するリサイズされたトレーニングイメージから、前記第1学習用ターゲット領域ないし前記第n学習用ターゲット領域それぞれに対応する第1学習用加工イメージないし第n学習用加工イメージを取得するようにし、(iii)前記第1学習用加工イメージないし前記第n学習用加工イメージをコンカチネートした統合トレーニングイメージを出力するようにし、(2)(i)一つ以上のコンボリューションレイヤをもって、一つ以上のコンボリューション演算を前記統合トレーニングイメージに適用することにより、少なくとも一つの学習用統合特徴マップを出力するようにし、(ii)RPNをもって、前記学習用統合特徴マップを利用して、前記第1学習用加工イメージないし前記第n学習用加工イメージそれぞれ内に位置する学習用物体に対応する第1学習用物体プロポーザルないし第n学習用物体プロポーザルそれぞれを出力するようにし、(iii)プーリングレイヤをもって、前記学習用統合特徴マップ上で、前記第1学習用物体プロポーザルないし前記第n学習用物体プロポーザルそれぞれに対応するそれぞれの領域に一つ以上のプーリング演算を適用して、少なくとも一つの学習用プーリング済み統合特徴マップを出力させ、(iv)FCレイヤをもって、前記学習用プーリング済み統合特徴マップに少なくとも一つの前記FC(fully connected)演算を適用して、前記学習用物体に対応する第1学習用物体検出情報ないし第n学習用物体検出情報を出力するようにし、(3)(i)前記ターゲット物体統合ネットワークをもって、前記第1学習用物体プロポーザルないし前記第n学習用物体プロポーザルを統合して学習用統合物体プロポーザルを生成するようにし、前記第1学習用物体検出情報ないし前記第n学習用物体検出情報を統合して学習用統合物体検出情報を生成するようにし、(ii)少なくとも一つのFCロスレイヤをもって、前記学習用統合物体検出情報と、これに対応するGTとを参照して一つ以上のFCロスを生成するようにすることで、前記FCロスを利用したバックプロパゲーション(Backpropagation)によって、前記FCレイヤ及び前記コンボリューションレイヤのパラメータの中の少なくとも一部を学習した状態で、テスティング装置が、少なくとも一つのテストイメージを取得すると、(i)前記ターゲット領域予測ネットワークをもって、前記テストイメージまたはこれに対応する一つ以上のリサイズされたテスト用イメージ上で、一つ以上のテスト用ターゲット物体が位置するものと予測される領域に対応する第1テスト用ターゲット領域ないし第nテスト用ターゲット領域それぞれを探すようにし、(ii)前記イメージ加工ネットワークをもって、前記テストイメージまたはこれに対応するリサイズされたテストイメージから、前記第1テスト用ターゲット領域ないし前記第nテスト用ターゲット領域それぞれに対応する第1テスト用加工イメージないし第nテスト用加工イメージを取得するようにし、(iii)前記第1テスト用加工イメージないし前記第nテスト用加工イメージをコンカチネートした統合テストイメージを出力するようにする段階;(b)前記テスティング装置が、(i)前記コンボリューションレイヤをもって、前記コンボリューション演算を前記統合テストイメージに適用することにより、少なくとも一つのテスト用統合特徴マップを出力するようにし、(ii)前記RPNをもって、前記テスト用統合特徴マップを利用して、前記第1テスト用加工イメージないし前記第nテスト用加工イメージそれぞれ内に位置するテスト用物体に対応する第1テスト用物体プロポーザルないし第nテスト用物体プロポーザルそれぞれを出力するようにし、(iii)前記プーリングレイヤをもって、前記テスト用統合特徴マップ上で、前記第1テスト用物体プロポーザルないし前記第nテスト用物体プロポーザルそれぞれに対応するそれぞれの領域に前記プーリング演算を適用して、少なくとも一つのテスト用プーリング済み統合特徴マップを出力するようにし、(iv)前記FCレイヤをもって、前記テスト用プーリング済み統合特徴マップに前記FC演算を適用して、前記テスト用物体に対応する第1テスト用物体検出情報ないし第nテスト用物体検出情報を出力するようにする段階;及び(c)前記テスティング装置が、(i)前記ターゲット物体統合ネットワークをもって、前記第1テスト用物体プロポーザルないし前記第nテスト用物体プロポーザルを統合してテスト用統合物体プロポーザルを生成するようにし、前記第1テスト用物体検出情報ないし前記第nテスト用物体検出情報を統合してテスト用統合物体検出情報を生成するようにする段階;を含むことを特徴とする方法が提供される。
一例として、前記(3)プロセスで、前記学習装置が、少なくとも一つのRPNロスレイヤをもって、前記学習用統合物体プロポーザル情報と、これに対応するGTとを参照して一つ以上のRPNロスを算出するようにすることで、前記RPNロスを利用したバックプロパゲーションによって前記RPNのパラメータを学習する。
一例として、前記(a)段階で、前記テスティング装置が、前記イメージ加工ネットワークをもって、前記第1テスト用加工イメージないし前記第nテスト用加工イメージの幅と高さのうち少なくとも一つを同一に調整した後、同一の大きさに調整された前記幅または前記高さ方向に前記第1テスト用調整済み加工イメージないし前記第nテスト用調整済み加工イメージをコンカチネートするようにする。
一例として、前記テスティング装置が、前記イメージ加工ネットワークをもって、前記第1テスト用調整済み加工イメージないし前記第nテスト用調整済み加工イメージのうち、コンカチネートされた隣接するそれぞれの二つのテスト用調整済み加工イメージから構成されるそれぞれのペアの間にそれぞれ少なくとも一つのゼロパディング領域を追加するようにする。
一例として、前記コンボリューションレイヤの多重コンボリューション演算によって前記統合テストイメージが1/Sに縮小され、前記コンボリューションレイヤそれぞれのカーネルそれぞれの最大サイズをK×Kとする場合、前記ゼロパディング領域の幅が
Figure 0006908943
になるようにする。
一例として、前記(c)段階で、第1テスト用特定加工イメージ及び第2テスト用特定加工イメージ上にそれぞれ少なくとも一つのテスト用特定同一物体が位置し、前記第1テスト用特定加工イメージ上で、前記テスト用特定同一物体に対応する少なくとも一つのテスト用物体プロポーザルを第1テスト用特定物体プロポーザルとし、前記第2テスト用特定加工イメージ上で、前記テスト用特定同一物体に対応する少なくとも一つのテスト用物体プロポーザルを第2テスト用特定物体プロポーザルとした場合、前記テスティング装置は、前記ターゲット物体統合ネットワークをもって、前記第1テスト用特定物体プロポーザルと、前記第2テスト用特定物体プロポーザルとの間のテスト用IOU(Intersection Over Union)が、第1閾値以上になるかを判断するようにし、(I)前記テスト用IOUが、前記第1閾値未満と判断されれば、前記第2テスト用特定加工イメージ上で前記第1テスト用特定物体プロポーザルに対応する領域と、前記第1テスト用特定加工イメージ上で前記第2テスト用特定物体プロポーザルに対応する領域との間のテスト用調整IOUを算出し、(II)前記テスト用調整IOUが第2閾値以上と判断されれば、前記第1テスト用特定物体プロポーザルと、前記第2テスト用特定物体プロポーザルとの中から、(i)確率値の高いテスト用特定物体プロポーザルを選択するようにするか(ii)前記テストイメージ上で演算される面積の大きいテスト用特定物体プロポーザルを選択させることにより、前記選択されたテスト用特定物体プロポーザルを前記テスト用特定同一物体に対応するテスト用特定統合物体プロポーザルとして生成する。
一例として、前記(c)段階で、第1テスト用特定加工イメージ及び第2テスト用特定加工イメージ上にそれぞれ少なくとも一つのテスト用特定同一物体が位置し、前記第1テスト用特定加工イメージ上で、前記テスト用特定同一物体に対応する少なくとも一つのテスト用物体バウンディングボックスを第1テスト用特定物体バウンディングボックスとし、前記第2テスト用特定加工イメージ上で、前記テスト用特定同一物体に対応する少なくとも一つのテスト用物体バウンディングボックスを第2テスト用特定物体バウンディングボックスとした場合、前記テスティング装置は、前記ターゲット物体統合ネットワークをもって、前記第1テスト用特定物体バウンディングボックスと、前記第2テスト用特定物体バウンディングボックスとの間のテスト用IOUが第1閾値以上になるかを判断するようにし、(I)前記テスト用IOUが、前記第1閾値未満と判断されれば、前記第2テスト用特定加工イメージ上で前記第1テスト用特定物体バウンディングボックスに対応する領域と、前記第1テスト用特定加工イメージ上で前記第2テスト用特定物体バウンディングボックスに対応する領域との間のテスト用調整IOUを算出し、(II)前記テスト用調整IOUが第2閾値以上と判断されれば、前記第1テスト用特定物体バウンディングボックスと、前記第2テスト用特定物体バウンディングボックスとの中から、(i)確率値の高いテスト用特定物体バウンディングボックスを選択するようにするか(ii)前記テストイメージ上で演算される面積の大きいテスト用特定物体バウンディングボックスを選択するようにすることにより、前記選択されたテスト用特定物体バウンディングボックスを前記テスト用特定同一物体に対応するテスト用特定統合物体検出情報として生成する。
本発明のまた他の態様によれば、イメージコンカチネーション(Image concatenation)と、ターゲット物体統合ネットワークとを利用したCNN基盤物体検出器のパラメータを学習するための学習装置において、インストラクションを格納する少なくとも一つのメモリ;及び(I)(i)ターゲット領域予測ネットワークをもって、少なくとも一つのトレーニングイメージまたはこれに対応する一つ以上のリサイズされたイメージにおいて、一つ以上のターゲット物体が位置するものと予測される領域に対応する第1ターゲット領域ないし第nターゲット領域それぞれを探すようにし、(ii)イメージ加工ネットワークをもって、前記トレーニングイメージまたはこれに対応するリサイズされたイメージから、前記第1ターゲット領域ないし前記第nターゲット領域それぞれに対応する第1加工イメージないし第n加工イメージを取得させ、(iii)前記第1加工イメージないし前記第n加工イメージをコンカチネートした統合トレーニングイメージを出力させるプロセス、(II)(i)一つ以上のコンボリューションレイヤをもって、一つ以上のコンボリューション演算を前記統合トレーニングイメージに適用することにより、少なくとも一つの統合特徴マップを出力するようにし、(ii)RPN(Region Proposal Network)をもって、前記統合特徴マップを利用して、前記第1加工イメージないし前記第n加工イメージそれぞれ内に位置する一つ以上の物体に対応する第1物体プロポーザルないし第n物体プロポーザルそれぞれを出力させ、(iii)プーリングレイヤをもって、前記統合特徴マップ上で、前記第1物体プロポーザルないし前記第n物体プロポーザルそれぞれに対応するそれぞれの領域に一つ以上のプーリング演算を適用して、少なくとも一つのプーリング済み統合特徴マップを出力させ、(iv)FCレイヤをもって、前記プーリング済み統合特徴マップに少なくとも一つのFC(fully connected)演算を適用して、前記物体に対応する第1物体検出情報ないし第n物体検出情報を出力させるプロセス、及び(III)(i)前記ターゲット物体統合ネットワークをもって、前記第1物体プロポーザルないし前記第n物体プロポーザルを統合して統合物体プロポーザルを生成するようにし、前記第1物体検出情報ないし前記第n物体検出情報を統合して統合物体検出情報を生成するようにし、(ii)少なくとも一つのFCロスレイヤをもって、前記統合物体検出情報と、これに対応するGTとを参照して一つ以上のFCロスを生成するようにすることで、前記FCロスを利用したバックプロパゲーション(Backpropagation)によって、前記FCレイヤ及び前記コンボリューションレイヤのパラメータの中の少なくとも一部を学習するプロセスを遂行するための、前記インストラクションを実行するように構成された少なくとも一つのプロセッサ;を含むことを特徴とする学習装置が提供される。
一例として、前記(III)プロセスで、前記プロセッサが、少なくとも一つのRPNロスレイヤをもって、前記統合物体プロポーザル情報と、これに対応するGTとを参照して一つ以上のRPNロスを算出するようにすることで、前記RPNロスを利用したバックプロパゲーションによって前記RPNのパラメータを学習する。
一例として、前記(I)プロセスで、前記プロセッサが、前記イメージ加工ネットワークをもって、前記第1加工イメージないし前記第n加工イメージの幅と高さのうち少なくとも一つを同一に調整した後、同一の大きさに調整された前記幅または前記高さ方向に前記第1調整済み加工イメージないし前記第n調整済み加工イメージをコンカチネート(concatenate)させる。
一例として、前記プロセッサが、前記イメージ加工ネットワークをもって、前記第1調整済み加工イメージないし前記第n調整済み加工イメージのうち、コンカチネートされた隣接するそれぞれの二つの調整済み加工イメージから構成されるそれぞれのペアの間にそれぞれ少なくとも一つのゼロパディング(zero padding)領域を追加するようにする。
一例として、前記コンボリューションレイヤの多重コンボリューション演算によって前記統合トレーニングイメージが1/Sに縮小され、前記コンボリューションレイヤそれぞれのカーネルそれぞれの最大サイズをK×Kとする場合、前記ゼロパディング領域の幅が
Figure 0006908943
になるようにする。
一例として、前記(III)プロセスで、第1特定加工イメージ及び第2特定加工イメージ上にそれぞれ少なくとも一つの特定同一物体が位置し、前記第1特定加工イメージ上で、前記特定同一物体に対応する少なくとも一つの物体プロポーザルを第1特定物体プロポーザルとし、前記第2特定加工イメージ上で、前記特定同一物体に対応する少なくとも一つの物体プロポーザルを第2特定物体プロポーザルとした場合、前記プロセッサは、前記ターゲット物体統合ネットワークをもって、前記第1特定物体プロポーザルと、前記第2特定物体プロポーザルとの間のIOU(Intersection Over Union)が、第1閾値以上になるかを判断するようにし、(i)前記IOUが、前記第1閾値未満と判断されれば、前記第2特定加工イメージ上で前記第1特定物体プロポーザルに対応する領域と、前記第1特定加工イメージ上で前記第2特定物体プロポーザルに対応する領域との間の調整IOUを算出し、(ii)前記調整IOUが第2閾値以上と判断されれば、前記第1特定物体プロポーザルと、前記第2特定物体プロポーザルとの中から、確率値の高い特定物体プロポーザルを選択するようにするか、前記トレーニングイメージ上で演算される面積の大きい特定物体プロポーザルを選択するようにすることにより、前記選択された特定物体プロポーザルを前記特定同一物体に対応する特定統合物体プロポーザルとして生成する。
一例として、前記(III)プロセスで、第1特定加工イメージ及び第2特定加工イメージ上に少なくとも一つの特定同一物体が位置し、前記第1特定加工イメージ上で、前記特定同一物体に対応する少なくとも一つの物体バウンディングボックスを第1特定物体バウンディングボックスとし、前記第2特定加工イメージ上で、前記特定同一物体に対応する少なくとも一つの物体バウンディングボックスを第2特定物体バウンディングボックスとした場合、前記プロセスは、前記ターゲット物体統合ネットワークをもって、前記第1特定物体バウンディングボックスと、前記第2特定物体バウンディングボックスとの間のIOUが、第1閾値以上になるか否かを判断するようにし、(i)前記IOUが、前記第1閾値未満と判断されれば、前記第2特定加工イメージ上で前記第1特定物体バウンディングボックスに対応する領域と、前記第1特定加工イメージ上で前記第2特定物体バウンディングボックスに対応する領域との間の調整IOUを算出し、(ii)前記調整IOUが第2閾値以上と判断されたら、前記第1特定物体バウンディングボックスと、前記第2特定物体バウンディングボックスとの中から、確率値の高い特定物体バウンディングボックスを選択するようにするか、前記トレーニングイメージ上で演算される面積の大きい特定物体バウンディングボックスを選択するようにすることにより、前記選択された特定物体バウンディングボックスを前記特定同一物体に対応する特定統合物体検出情報として生成する。
本発明のまた他の態様によれば、イメージコンカチネーション(Image concatenation)と、ターゲット物体統合ネットワークとを利用したCNN基盤物体検出器をテストするためのテスティング装置において、インストラクションを格納する少なくとも一つのメモリ;及び学習装置が、(1)(i)ターゲット領域予測ネットワークをもって、少なくとも一つのトレーニングイメージまたはこれに対応する一つ以上のリサイズされたトレーニングイメージにおいて一つ以上のターゲット物体が位置するものと予測される領域に対応する第1学習用ターゲット領域ないし第n学習用ターゲット領域それぞれを探すようにし、(ii)イメージ加工ネットワークをもって、前記トレーニングイメージまたはこれに対応するリサイズされたトレーニングイメージから、前記第1学習用ターゲット領域ないし前記第n学習用ターゲット領域それぞれに対応する第1学習用加工イメージないし第n学習用加工イメージを取得するようにし、(iii)前記第1学習用加工イメージないし前記第n学習用加工イメージをコンカチネートした統合トレーニングイメージを出力するようにし、(2)(i)一つ以上のコンボリューションレイヤをもって、一つ以上のコンボリューション演算を前記統合トレーニングイメージに適用することにより、少なくとも一つの学習用統合特徴マップを出力するようにし、(ii)RPNをもって、前記学習用統合特徴マップを利用して、前記第1学習用加工イメージないし前記第n学習用加工イメージそれぞれ内に位置する学習用物体に対応する第1学習用物体プロポーザルないし第n学習用物体プロポーザルそれぞれを出力するようにし、(iii)プーリングレイヤをもって、前記学習用統合特徴マップ上で、前記第1学習用物体プロポーザルないし前記第n学習用物体プロポーザルそれぞれに対応するそれぞれの領域に一つ以上のプーリング演算を適用して、少なくとも一つの学習用プーリング済み統合特徴マップを出力させ、(iv)FCレイヤをもって、前記学習用プーリング済み統合特徴マップに少なくとも一つの前記FC(fully connected)演算を適用して、前記学習用物体に対応する第1学習用物体検出情報ないし第n学習用物体検出情報を出力するようにし、(3)(i)前記ターゲット物体統合ネットワークをもって、前記第1学習用物体プロポーザルないし前記第n学習用物体プロポーザルを統合して学習用統合物体プロポーザルを生成するようにし、前記第1学習用物体検出情報ないし前記第n学習用物体検出情報を統合して学習用統合物体検出情報を生成するようにし、(ii)少なくとも一つのFCロスレイヤをもって、前記学習用統合物体検出情報と、これに対応するGTとを参照して前記FCロスを生成するようにすることで、前記FCロスを利用したバックプロパゲーションによって、前記FCレイヤ及び前記コンボリューションレイヤのパラメータの中の少なくとも一部を学習した状態で、(I)(i)前記ターゲット領域予測ネットワークをもって、少なくとも一つのテストイメージまたはこれに対応する一つ以上のリサイズされたテスト用イメージ上で、一つ以上のテスト用ターゲット物体が位置するものと予測される領域に対応する第1テスト用ターゲット領域ないし第nテスト用ターゲット領域それぞれを探すようにし、(ii)前記イメージ加工ネットワークをもって、前記テストイメージまたはこれに対応するリサイズされたテストイメージから、前記第1テスト用ターゲット領域ないし前記第nテスト用ターゲット領域それぞれに対応する第1テスト用加工イメージないし第nテスト用加工イメージを取得するようにし、(iii)前記第1テスト用加工イメージないし前記第nテスト用加工イメージをコンカチネートした統合テストイメージを出力するようにするプロセス、(II)(i)前記コンボリューションレイヤをもって、前記コンボリューション演算を前記統合テストイメージに適用することにより、少なくとも一つのテスト用統合特徴マップを出力するようにし、(ii)前記RPNをもって、前記テスト用統合特徴マップを利用して、前記第1テスト用加工イメージないし前記第nテスト用加工イメージそれぞれ内に位置するテスト用物体に対応する第1テスト用物体プロポーザルないし第nテスト用物体プロポーザルそれぞれを出力するようにし、(iii)前記プーリングレイヤをもって、前記テスト用統合特徴マップ上で、前記第1テスト用物体プロポーザルないし前記第nテスト用物体プロポーザルそれぞれに対応するそれぞれの領域に前記プーリング演算を適用して、少なくとも一つのテスト用プーリング済み統合特徴マップを出力するようにし、(iv)前記FCレイヤをもって、前記テスト用プーリング済み統合特徴マップに前記FC演算を適用して、前記テスト用物体に対応する第1テスト用物体検出情報ないし第nテスト用物体検出情報を出力するようにするプロセス、及び(III)(i)前記ターゲット物体統合ネットワークをもって、前記第1テスト用物体プロポーザルないし前記第nテスト用物体プロポーザルを統合してテスト用統合物体プロポーザルを生成するようにし、前記第1テスト用物体検出情報ないし前記第nテスト用物体検出情報を統合してテスト用統合物体検出情報を生成するようにするプロセスを遂行するための、前記インストラクションを実行するように構成された少なくとも一つのプロセッサ;を含むことを特徴とするテスティング装置が提供される。
一例として、前記(3)プロセスで、前記学習装置が、少なくとも一つのRPNロスレイヤをもって、前記学習用統合物体プロポーザル情報と、これに対応するGTとを参照して一つ以上のRPNロスを算出するようにすることで、前記RPNロスを利用したバックプロパゲーションによって前記RPNのパラメータを学習する。
一例として、前記(I)プロセスで、前記プロセッサが、前記イメージ加工ネットワークをもって、前記第1テスト用加工イメージないし前記第nテスト用加工イメージの幅と高さのうち少なくとも一つを同一に調整した後、同一の大きさに調整された前記幅または前記高さ方向に前記第1テスト用調整済み加工イメージないし前記第nテスト用調整済み加工イメージをコンカチネートするようにする。
一例として、前記プロセッサが、前記イメージ加工ネットワークをもって、前記第1テスト用調整済み加工イメージないし前記第nテスト用調整済み加工イメージのうち、コンカチネートされた隣接するそれぞれの二つのテスト用調整済み加工イメージから構成されるそれぞれのペアの間にそれぞれ少なくとも一つのゼロパディング領域を追加するようにする。
一例として、前記コンボリューションレイヤの多重コンボリューション演算によって前記統合テストイメージが1/Sに縮小され、前記コンボリューションレイヤそれぞれのカーネルそれぞれの最大サイズをK×Kとする場合、前記ゼロパディング領域の幅が
Figure 0006908943
になるようにする。
一例として、前記(III)プロセスで、第1テスト用特定加工イメージ及び第2テスト用特定加工イメージ上にそれぞれ少なくとも一つのテスト用特定同一物体が位置し、前記第1テスト用特定加工イメージ上で、前記テスト用特定同一物体に対応する少なくとも一つのテスト用物体プロポーザルを第1テスト用特定物体プロポーザルとし、前記第2テスト用特定加工イメージ上で、前記テスト用特定同一物体に対応する少なくとも一つのテスト用物体プロポーザルを第2テスト用特定物体プロポーザルとした場合、前記プロセッサは、前記ターゲット物体統合ネットワークをもって、前記第1テスト用特定物体プロポーザルと、前記第2テスト用特定物体プロポーザルとの間のテスト用IOU(Intersection Over Union)が、第1閾値以上になるかを判断するようにし、(i)前記テスト用IOUが、前記第1閾値未満と判断されれば、前記第2テスト用特定加工イメージ上で前記第1テスト用特定物体プロポーザルに対応する領域と、前記第1テスト用特定加工イメージ上で前記第2テスト用特定物体プロポーザルに対応する領域との間のテスト用調整IOUを算出し、(ii)前記テスト用調整IOUが第2閾値以上と判断されれば、前記第1テスト用特定物体プロポーザルと、前記第2テスト用特定物体プロポーザルとの中から、確率値の高いテスト用特定物体プロポーザルを選択するようにするか、前記テストイメージ上で演算される面積の大きいテスト用特定物体プロポーザルを選択するようにすることにより、前記選択されたテスト用特定物体プロポーザルを前記テスト用特定同一物体に対応するテスト用特定統合物体プロポーザルとして生成する。
一例として、前記(III)プロセスで、第1テスト用特定加工イメージ及び第2テスト用特定加工イメージ上にそれぞれ少なくとも一つのテスト用特定同一物体が位置し、前記第1テスト用特定加工イメージ上で、前記テスト用特定同一物体に対応する少なくとも一つのテスト用物体バウンディングボックスを第1テスト用特定物体バウンディングボックスとし、前記第2テスト用特定加工イメージ上で、前記テスト用特定同一物体に対応する少なくとも一つのテスト用物体バウンディングボックスを第2テスト用特定物体バウンディングボックスとした場合、前記プロセッサは、前記ターゲット物体統合ネットワークをもって、前記第1テスト用特定物体バウンディングボックスと、前記第2テスト用特定物体バウンディングボックスとの間のテスト用IOUが第1閾値以上になるかを判断するようにし、(i)前記テスト用IOUが、前記第1閾値未満と判断されれば、前記第2テスト用特定加工イメージ上で前記第1テスト用特定物体バウンディングボックスに対応する領域と、前記第1テスト用特定加工イメージ上で前記第2テスト用特定物体バウンディングボックスに対応する領域との間のテスト用調整IOUを算出し、(ii)前記テスト用調整IOUが第2閾値以上と判断されれば、前記第1テスト用特定物体バウンディングボックスと、前記第2テスト用特定物体バウンディングボックスとの中から、確率値の高いテスト用特定物体バウンディングボックスを選択するようにするか、前記テストイメージ上で演算される面積の大きいテスト用特定物体バウンディングボックスを選択するようにすることにより、前記選択されたテスト用特定物体バウンディングボックスを前記テスト用特定同一物体に対応するテスト用特定統合物体検出情報として生成する。
本発明は、イメージ上に位置する物体をサイズに関係なく効果的に検出し得る効果がある。
また、本発明は、演算量を増加させずに前記イメージ内の物体を検出し得る効果がある。
また、本発明は、サイズが多様な物体に対応するターゲット領域を利用して、CNNの演算量を減らしながら効果的に物体を検出し得る効果がある。
本発明の実施例の説明に利用されるために添付された以下の各図面は、本発明の実施例のうちの一部に過ぎず、本発明が属する技術分野でおいて、通常の知識を有する者(以下「通常の技術者」)は、発明的作業が行われることなくこの図面に基づいて他の図面が得られ得る。
本発明の一例に係るイメージコンカチネーション(Image concatenation)と、ターゲット物体統合ネットワークとを利用したCNN基盤物体検出器を学習する学習装置を概略的に示した図面である。 本発明の一例に係る前記イメージコンカチネーションと、前記ターゲット物体統合ネットワークとを利用した前記CNN基盤物体検出器を学習する方法を概略的に示した図面である。 本発明の一例に係る前記イメージコンカチネーションと、前記ターゲット物体統合ネットワークとを利用した前記CNN基盤物体検出器学習に利用される、イメージピラミッド内に含まれたイメージ上のそれぞれのターゲット領域を予測するプロセスを概略的に示した図面である。 本発明の一例に係る前記イメージコンカチネーションと、前記ターゲット物体統合ネットワークとを利用した前記CNN基盤物体検出器学習に利用される、それぞれのターゲット領域に対応する加工済みイメージをコンカチネートするプロセスを概略的に示した図面である。 本発明の一例に係る前記イメージコンカチネーションと、前記ターゲット物体統合ネットワークとを利用した前記CNN基盤物体検出器学習に利用される、一つ以上のターゲット物体を統合するプロセスを概略的に示した図面である。 本発明の一例に係る前記イメージコンカチネーションと、前記ターゲット物体統合ネットワークとを利用した前記CNN基盤物体検出器をテスティングするテスティング装置を概略的に示した図面である。 本発明の一例に係る前記イメージコンカチネーションと、前記ターゲット物体統合ネットワークとを利用した前記CNN基盤物体検出器をテスティングするテスティング方法を概略的に示した図面である。
後述する本発明に対する詳細な説明は、本発明の各目的、技術的解決方法及び長所を明確にするために、本発明が実施され得る特定の実施例を例示として示す添付図面を参照する。これらの実施例は、通常の技術者が本発明を実施することができるように充分詳細に説明される。
また、本発明の詳細な説明及び各請求項にわたって、「含む」という単語及びそれらの変形は、他の技術的各特徴、各付加物、構成要素又は段階を除外することを意図したものではない。通常の技術者にとって本発明の他の各目的、長所及び各特性が、一部は本説明書から、また一部は本発明の実施から明らかになるであろう。以下の例示及び図面は実例として提供され、本発明を限定することを意図したものではない。
さらに、本発明は、本明細書に示された実施例のあらゆる可能な組合せを網羅する。本発明の多様な実施例は相互異なるが、相互排他的である必要はないことを理解されたい。例えば、ここに記載されている特定の形状、構造及び特性は一例と関連して、本発明の精神及び範囲を逸脱せず、かつ他の実施例で実装され得る。また、各々の開示された実施例内の個別構成要素の位置または配置は本発明の精神及び範囲を逸脱せずに変更され得ることを理解されたい。従って、後述する詳細な説明は限定的な意味で捉えようとするものではなく、本発明の範囲は、適切に説明されれば、その請求項が主張することと均等なすべての範囲と、併せて添付された請求項によってのみ限定される。図面で類似する参照符号はいくつかの側面にかけて同一か類似する機能を指称する。
本発明で言及している各種イメージは、舗装または非舗装道路関連のイメージを含み得、この場合、道路環境で登場し得る物体(例えば、自動車、人、動物、植物、物、建物、飛行機やドローンのような飛行体、その他の障害物)を想定し得るが、必ずしもこれに限定されるものではなく、本発明で言及している各種イメージは、道路と関係のないイメージ(例えば、非舗装道路、路地、空き地、海、湖、川、山、森、砂漠、空、室内と関連したイメージ)でもあり得、この場合、非舗装道路、路地、空き地、海、湖、川、山、森、砂漠、空、室内環境で登場し得る物体(例えば、自動車、人、動物、植物、物、建物、飛行機やドローンのような飛行体、その他の障害物)を想定し得るが、必ずしもこれに限定されるものではない。
以下、本発明が属する技術分野で通常の知識を有する者が本発明を容易に実施することができるようにするために、本発明の好ましい実施例について添付の図面に基づいて詳細に説明する。
図1は、本発明の一実施例によるイメージコンカチネーション(Image concatenation)と、ターゲット物体統合ネットワークとを利用したCNN基盤物体検出器を学習する学習装置を簡略に示したものであり、図1を参照すると、前記学習装置100は、通信部110とプロセッサ120とを含むことができる。
まず、前記通信部110は、少なくとも一つのトレーニングイメージを取得するか、他の装置をもって取得するように支援し得る。
この際、前記トレーニングイメージは、データベース130に格納され得、前記データベース130は、前記トレーニングイメージに位置する一つ以上の物体それぞれに対応するクラス情報及び位置情報に対する少なくとも一つのGT(ground truth)を格納し得る。また、前記データベース130は、前記トレーニングイメージをリサイズして生成された、リサイズされたイメージ内に位置する前記物体それぞれに関する位置情報及びクラス情報に関する少なくとも一つのGTを格納することができる。
また、前記学習装置は、後述されるプロセスを遂行するコンピュータ読取り可能なインストラクション(computer readable instruction)を格納し得るメモリ115をさらに含み得る。一例として、前記プロセッサ、前記メモリ、及び媒体等は、一つのプロセッサに統合されて機能することもできる。
次に、前記プロセッサ120は(i)ターゲット領域予測ネットワークをもって、前記トレーニングイメージまたはこれに対応する一つ以上のリサイズされたイメージにおいて一つ以上のターゲット物体が位置するものと予測される領域に対応する第1ターゲット領域ないし第nターゲット領域それぞれを探すようにし、(ii)イメージ加工ネットワークをもって、前記トレーニングイメージまたはこれに対応するリサイズされたイメージから、前記第1ターゲット領域ないし前記第nターゲット領域それぞれに対応する第1加工イメージないし第n加工イメージを取得させ、(iii)前記第1加工イメージないし前記第n加工イメージをコンカチネート(concatenate)した統合トレーニングイメージを出力するようにすることができる。また、前記プロセッサ120は、(i)一つ以上のコンボリューションレイヤをもって、一つ以上のコンボリューション演算を前記統合トレーニングイメージに適用することにより、少なくとも一つの統合特徴マップを出力するようにし、(ii)RPNをもって、前記統合特徴マップを利用して、前記第1加工イメージないし前記第n加工イメージそれぞれ内に位置する前記物体に対応する第1物体プロポーザルないし第n物体プロポーザルそれぞれを出力するようにし、(iii)プーリングレイヤをもって、前記統合特徴マップ上で、前記第1物体プロポーザルないし前記第n物体プロポーザルそれぞれに対応するそれぞれの領域に一つ以上のプーリング演算を適用して、少なくとも一つのプーリング済み統合特徴マップを出力させ、(iv)FCレイヤをもって、前記プーリング済み統合特徴マップに少なくとも一つのFC(fully connected)演算を適用して、前記物体に対応する第1物体検出情報ないし第n物体検出情報を出力するようにし得る。その後、前記プロセッサ120が、(i)前記ターゲット物体統合ネットワークをもって、前記第1物体プロポーザルないし前記第n物体プロポーザルを統合して統合物体プロポーザルを生成するようにし、前記第1物体検出情報ないし前記第n物体検出情報を統合して統合物体検出情報を生成するようにし、(ii)少なくとも一つのFCロスレイヤをもって、前記統合物体検出情報と、これに対応するGTとを参照して一つ以上のFCロスを生成するようにすることで、前記FCロスを利用したバックプロパゲーション(Backpropagation)によって、前記FCレイヤ及び前記コンボリューションレイヤのパラメータの中の少なくとも一部を学習する。
また、前記プロセッサ120は、少なくとも一つのRPNロスレイヤをもって、前記統合物体プロポーザル情報と、これに対応するGTとを参照して一つ以上のRPNロスを取得するようにすることで、前記RPNロスを利用したバックプロパゲーションによって前記RPNのパラメータの中の少なくとも一部を学習する。
この際、本発明の一例に係る前記学習装置100は、コンピューティング装置であり、プロセッサを搭載して演算能力を備えた装置であればいくらでも本発明に係る学習装置100として採択され得る。また、図1では一つの学習装置100のみを示したが、これに限定されず、前記学習装置は複数に分けて役割を遂行することもできる。
このように構成された本発明の一例に係る前記学習装置100を利用して、前記イメージコンカチネーションと、前記ターゲット物体統合ネットワークを利用してCNN基盤物体検出器のパラメータを学習する方法を、図2を参照して説明する。
まず、前記トレーニングイメージが入力されると、前記学習装置100が、ターゲット領域予測ネットワーク121をもって、前記トレーニングイメージまたはこれに対応するリサイズされたイメージ上に少なくとも一つのターゲット物体が位置するものと予測される少なくとも一つの領域に対応する前記第1ターゲット領域ないし前記第nターゲット領域を探すようにする。
この際、前記第1ターゲット領域ないし前記第nターゲット領域は、同一のイメージ内に位置する前記ターゲット物体のうち互いに異なる複数のターゲット物体に対応するか、互いに異なるサイズの複数のイメージ内に位置する同一のターゲット物体に対応し得る。また、前記第1ターゲット領域ないし前記第nターゲット領域は、同一のイメージのサイズを互いに異なるようにした前記イメージピラミッドのうちそれぞれのイメージ内に位置すると予測されるターゲット物体に対応し得る。
つまり、前記ターゲット領域予測ネットワーク121は、前記トレーニングイメージ内、第1ターゲット物体ないし第nターゲット物体が位置するものと予測される領域に対応する、前記第1ターゲット領域ないし前記第nターゲット領域を探し出すか、前記トレーニングイメージをリサイズして得た第1リサイズされたイメージないし第nリサイズされたイメージそれぞれに、少なくとも一つの特定ターゲット物体が位置するものと予測される領域に対応する、前記第1ターゲット領域それぞれないし前記第nターゲット領域それぞれを探し出すことができる。また、前記ターゲット領域予測ネットワーク121は、前記トレーニングイメージに、単一のターゲット物体が位置するものと予測される領域に対応する特定のターゲット領域を探し出し、前記トレーニングイメージをリサイズして得た前記第1リサイズされたイメージないし前記第nリサイズされたイメージそれぞれに、前記単一のターゲット物体が位置するものと予測される領域に対応する、前記第1ターゲット領域それぞれないし前記第nターゲット領域を探し出すことができる。これに加えて、前記トレーニングイメージ内に多数のターゲット物体が位置する場合、前記リサイズされたイメージそれぞれにおいて前記ターゲット物体に対応する前記ターゲット領域を探すことができる。
一方、前記ターゲット領域予測ネットワーク121は、前記トレーニングイメージまたはこれに対応するリサイズされたイメージそれぞれに対するそれぞれのスケールヒストグラムを演算し、前記スケールヒストグラムを参照することによって、前記ターゲット物体が位置するものと予測されるスケールプロポーザルに対応する前記第1ターゲット領域ないし前記第nターゲット領域を探すことができる。また、前記ターゲット領域予測ネットワーク121は、前記トレーニングイメージまたはこれに対応するリサイズされたイメージそれぞれに対してセグメンテーションを遂行し、前記セグメンテーションを基盤として前記ターゲット領域を探し出すためのシード(seed)を設定した後、小さなターゲット領域が繰り返し統合された統合領域を参照して前記ターゲット領域を設定することができる。また、前記ターゲット領域予測ネットワーク121は、フォアグラウンドセグメンテーション(foreground segmentation)を通じてイメージ上のフォアグラウンドを確認し、前記確認されたフォアグラウンドを参照して、少なくとも一つのターゲット物体が位置するものと予測され、前記少なくとも一つのターゲット物体を含むものと予測されるサイズの、少なくとも一つの領域を少なくとも一つのターゲット領域に設定することができる。これに加えて、前記ターゲット領域予測ネットワーク121は、重要度検出(saliency detection)方法を利用して、一つ以上のターゲット領域を設定することができる。しかし、本願発明はこれに限定されず、イメージ内のターゲット物体が位置すると予測されるターゲット領域を探し出すすべての方法が使用され得る。
次に、前記学習装置100は、イメージ加工ネットワーク111をもって、前記ターゲット領域予測ネットワーク121で設定された第1ターゲット領域ないし第nターゲット領域それぞれに対応する前記トレーニングイメージまたはそれぞれのこれに対応するリサイズされたイメージ上で、前記第1ターゲット領域ないし前記第nターゲット領域に対応する第1加工イメージないし第n加工イメージを取得するようにする。
この際、前記学習装置100は、前記イメージ加工ネットワーク111をもって、前記トレーニングイメージまたはこれに対応するリサイズされたイメージ上で前記第1ターゲット領域ないし前記第nターゲット領域に対応する一つ以上の領域をクロップして、前記第1加工イメージないし前記第n加工イメージを取得させるか、前記トレーニングイメージまたはこれに対応するリサイズされたイメージ上で前記第1ターゲット領域ないし前記第nターゲット領域に対応する一つ以上の領域をクロップした後、リサイズして、前記第1加工イメージないし前記第n加工イメージを取得させることができる。
一例として、図3を参照すると、前記第1ターゲット領域を含む前記第1リサイズされたイメージRI1を前記第1加工イメージMI1として取得することができ、前記第2ターゲット領域に対応する前記第2加工イメージMI2は、前記第2リサイズされたイメージRI2から生成され得、第3ターゲット領域に対応する前記第3加工イメージMI3は、第3リサイズされたイメージから生成され得る。
次に、前記学習装置100は、前記イメージ加工ネットワーク111をもって、前記第1加工イメージないし前記第3加工イメージをコンカチネートした前記統合トレーニングイメージを取得させることができる。
この際、前記学習装置100は、前記イメージ加工ネットワーク111をもって、前記第1加工イメージないし前記第3加工イメージの幅と高さのうち少なくとも一つを同一に調整した後、同一に調整された前記幅または前記高さ方向に前記第1調整済み加工イメージないし前記第3調整済み加工イメージをコンカチネートさせることができる。
そして、前記学習装置100は、前記イメージ加工ネットワーク111をもって、前記第1調整済み加工イメージないし前記第3調整済み加工イメージのうち、コンカチネートされた隣接するそれぞれの二つの調整済み加工イメージで構成されるそれぞれのペアの間にそれぞれ少なくとも一つのゼロパディング(zero padding)領域を追加させることができる。この際、前記コンボリューションレイヤの多重コンボリューション演算によって前記統合トレーニングイメージが1/Sに縮小され、前記コンボリューションレイヤそれぞれのカーネルそれぞれの最大サイズをK×Kとする場合、前記ゼロパディング領域の幅が
Figure 0006908943
となるようにすることができる。これを通じて、前記CNNのオーバーヘッド(overhead)を最小化することができる。
一例として、図4を参照すると、図3の過程を通じて生成された前記第1加工イメージMI1、前記第2加工イメージMI2、及び前記第3加工イメージMI3は、互いに高さが同じに調整された後、コンカチネートされ得る。その際、それぞれのゼロパディング領域(PR)は、それぞれの前記隣接した調整済み加工イメージの間に追加され得る。他の例示として、前記加工イメージの幅を同一に調整した後、前記調整された幅を利用して前記それぞれの加工イメージをコンカチネートするか、又は前記幅と前記高さとを同一に調整した後、前記それぞれの加工イメージを大きな正方形状にコンカチネートすることができる。
次に、前記学習装置100は、コンボリューションレイヤ122をもって、前記統合トレーニングイメージに前記コンボリューション演算を適用することにより、少なくとも一つの統合特徴マップを出力させることができる。この際、前記コンボリューションレイヤ122は、単一のコンボリューションレイヤでもあり得、多数のコンボリューションレイヤでもあり得る。
次に、前記学習装置100は、RPN123をもって、前記統合ピッチャーマップを利用して、前記統合トレーニングイメージに含まれた前記第1加工イメージないし前記第n加工イメージ内に位置する前記物体に対応する一つ以上の第1物体プロポーザルないし一つ以上の第n物体プロポーザルを出力させることができる。
この際、前記第1物体プロポーザルないし前記第n物体プロポーザルそれぞれは、前記第1加工イメージないし前記第n加工イメージ内に位置する前記物体それぞれに対応することができ、前記物体プロポーザルそれぞれは、前記物体それぞれ、すなわち、タグ付けされた領域に対応する位置情報と、前記タグ付けされた領域それぞれが物体であるか否かに関する情報を有する各プロポーザルボックスに関する情報とを含むことができる。この際、物体であるか否かに対する情報は、前記それぞれの物体プロポーザルが物体であると予測される確率情報を含み得、前記プロポーザルボックスに関する情報は、前記プロポーザルボックスが前記物体の位置に一致すると予測される確率情報を含み得る。
次に、前記学習装置100は、プーリングレイヤ124をもって、前記統合特徴マップ上で前記第1物体プロポーザルないし前記第n物体プロポーザルそれぞれに対応するそれぞれの領域に前記プーリング演算を適用して、少なくとも一つのプーリング済み統合特徴マップを出力させ、FCレイヤ125をもって、前記プーリング済み統合特徴マップに前記FC(fully connected)演算を適用して、前記物体に対応する第1物体検出情報ないし第n物体検出情報を出力させることができる。
この際、前記第1物体検出情報ないし前記第n物体検出情報は、前記第1物体プロポーザルないし前記第n物体プロポーザルに対応する前記物体それぞれに関するクラス情報とバウンディングボックスに関する情報(つまり、前記物体それぞれに関する位置情報)を含むことができる。また、前記クラス情報は、前記物体それぞれが該当クラスと予測される確率情報を含み得、前記バウンディングボックスに関する情報は、前記バウンディングボックスそれぞれが前記物体の位置に一致するものと予測される確率情報を含み得る。
その後、前記学習装置100は、(i)前記ターゲット物体統合ネットワーク126をもって、前記第1物体プロポーザルないし前記第n物体プロポーザルを統合して統合物体プロポーザルを出力するようにし、前記第1物体検出情報ないし前記第n物体検出情報を統合して統合物体検出情報を出力するようにする。ここで、前記第1物体プロポーザルないし第n物体プロポーザルに対する情報は、前記トレーニングイメージに対応するように変換され得る。
一例として、図5を参照すれば、前記第1加工イメージMI1及び前記第2加工イメージMI2上に少なくとも一つの特定同一物体が位置し、前記第1加工イメージMI1上の前記第1物体プロポーザルの中の、前記特定同一物体に対応する少なくとも一つの物体プロポーザルを第1特定物体プロポーザルPB1とし、前記第2加工イメージMI2上の前記第2物体プロポーザルの中の、前記特定同一物体に対応する少なくとも一つの物体プロポーザルを第2特定物体プロポーザルPB2とした場合、前記学習装置100は、前記ターゲット物体統合ネットワーク126をもって、前記第1特定物体プロポーザルPB1と、前記第2特定物体プロポーザルPB2との間のIOU(Intersection Over Union)が、第1閾値以上になるかを判断するようにする。その後、前記IOUが前記第1閾値未満と判断されれば、前記第1特定物体プロポーザルPB1と、前記第2特定物体プロポーザルPB2との間の調整IOUが算出されるようにする。
この際、前記調整IOUは、前記第2加工イメージMI2上で前記第1特定物体プロポーザルPB1に対応する領域、すなわち、交差領域PB1,MI2と、前記第1加工イメージMI1上で前記第2特定物体プロポーザルPB2に対応する領域、すなわち、交差領域PB2,MI1とを参照して算出されたIOUである。
そして、前記調整IOUが第2閾値以上と判断されれば、前記学習装置100は、前記第1特定物体プロポーザルPB1と、前記第2特定物体プロポーザルPB2との中から、(i)確率値の高い特定物体プロポーザルを選択するようにするか(ii)前記トレーニングイメージ上で演算される面積の大きい特定物体プロポーザルを選択するようにすることにより、前記選択された特定物体プロポーザルを前記特定同一物体に対応する特定統合物体プロポーザルとして生成する。
しかし、前記調整IOUが前記第2閾値未満と判断されれば、前記学習装置100は、前記第1特定物体プロポーザルPB1と、前記第2特定物体プロポーザルPB2とが、それぞれ異なる物体に対応すると判断する。つまり、前記第1特定物体プロポーザルPB1と、前記第2特定物体プロポーザルPB2との間の前記IOUが前記第1閾値未満であり、これらの間の前記調整IOUが前記第2閾値未満と判断されれば、前記学習装置100は、前記第1特定物体プロポーザルPB1と、前記第2特定物体プロポーザルPB2とがそれぞれ異なる物体に対応するものと判断する。
一方、前記第1特定物体プロポーザルPB1と、前記第2特定物体プロポーザルPB2との間の前記IOUが前記第1閾値以上であると判断されれば、前記学習装置は、前記第1特定物体プロポーザルPB1と、前記第2特定物体プロポーザルPB2との中から(i)確率値の高い特定物体プロポーザルを選択するようにするか(ii)それぞれの前記加工イメージMI1及びMI2上で演算される面積の大きい特定物体プロポーザルを選択するようにすることにより、前記選択された特定物体プロポーザルを前記特定同一物体に対応する前記特定統合物体プロポーザルとして生成する。
また、図5を参照すれば、前記第1加工イメージMI1及び前記第2加工イメージMI2上に少なくとも一つの特定同一物体が位置し、前記第1加工イメージMI1上で、前記第1物体検出情報に含まれた物体バウンディングボックスの中の、前記特定同一物体に対応する少なくとも一つの物体バウンディングボックスを第1特定物体バウンディングボックスBB1とし、前記第2加工イメージMI2上で、前記第2物体検出情報に含まれた物体バウンディングボックスの中の、前記特定同一物体に対応する少なくとも一つの物体バウンディングボックスを第2特定物体バウンディングボックスBB2とした場合、前記学習装置100は、前記ターゲット物体統合ネットワーク126をもって、前記第1特定物体バウンディングボックスBB1と、前記第2特定物体バウンディングボックスBB2との間のIOUが、前記第1閾値以上になるかを判断するようにする。この際、前記物体プロポーザル間の前記IOU判断に利用された前記第1閾値と、前記物体バウンディングボックス間のIOU判断に利用された前記第1閾値とは、同じこともあり、同じくないこともある。その後、前記バウンディングボックス間のIOUが前記第1閾値未満と判断されれば、前記第1特定物体バウンディングボックスBB1と、前記第2特定物体バウンディングボックスBB2との間の調整IOUが算出される。
この際、前記調整IOUは、前記第2加工イメージMI2上で前記第1特定物体バウンディングボックスBB1に対応する領域、すなわち、交差領域BB1,MI2と、前記第1加工イメージMI1上で前記第2特定物体プロポーザルBB2に対応する領域、すなわち、交差領域BB2,MI1とを参照して算出されたIOUである。
そして、前記調整IOUが前記第2閾値以上と判断されれば、前記学習装置100は、前記第1特定物体バウンディングボックスBB1と、前記第2特定物体バウンディングボックスBB2との中から、(i)確率値の高い特定物体バウンディングボックスを選択するようにするか(ii)前記トレーニングイメージ上で演算される面積の大きい特定物体バウンディングボックスを選択するようにすることにより、前記選択された特定物体バウンディングボックスを前記特定同一物体に対応する特定統合物体検出情報として生成する。この際、前記物体プロポーザル間のIOU判断に利用された前記第2閾値と、前記物体バウンディングボックス間のIOU判断に利用された前記第2閾値とは、同じこともあり、同じくないこともある。
しかし、前記調整IOUが前記第2閾値未満と判断されれば、前記学習装置100は、前記第1特定物体バウンディングボックスBB1と、前記第2特定物体バウンディングボックスBB2とが、それぞれ異なる物体に対応すると判断する。つまり、前記第1特定物体バウンディングボックスBB1と、前記第2特定物体バウンディングボックスBB2との間の前記IOUが前記第1閾値未満であり、これらの間の前記調整IOUが前記第2閾値未満と判断されれば、前記学習装置100は、前記第1特定物体バウンディングボックスBB1と、前記第2特定物体バウンディングボックスBB2とがそれぞれ異なる物体に対応するものと判断する。
一方、前記第1特定物体バウンディングボックスBB1と、前記第2特定物体バウンディングボックスBB2との間の前記IOUが前記第1閾値以上であると判断されれば、前記学習装置は、前記第1特定物体バウンディングボックスBB1と、前記第2特定物体バウンディングボックスBB2との中から(i)確率値の高い特定物体バウンディングボックスを選択するようにするか(ii)それぞれの前記加工イメージMI1及びMI2上で演算される面積の大きい特定物体バウンディングボックスを選択するようにすることにより、前記選択された特定物体バウンディングボックスを前記特定同一物体に対応する前記特定統合物体検出情報として生成する。
その後、前記学習装置100は、前記FCロスレイヤ127をもって、前記統合物体検出情報と、これに対応するGTとを参照して一つ以上のFCロスを取得するようにすることで、前記FCロスを利用したバックプロパゲーションによって、前記FCレイヤ125及び前記コンボリューションレイヤ122のパラメータの中の少なくとも一部を学習する。
また、前記学習装置100が、前記RPNロスレイヤ128をもって、前記統合物体プロポーザルと、これに対応するGTとを参照して一つ以上のRPNロスを取得するようにすることで、前記RPNロスを利用したバックプロパゲーションによって前記RPN123のパラメータの中の少なくとも一部を学習する。
前記のような方法により、前記トレーニングイメージ内に位置するサイズが様々な物体、特にサイズが小さく、遠距離に位置した前記物体を効率的に検出できるようになり、また、前記予測されたターゲット領域に対応する領域のみを利用することで演算量を減らし得、これによって前記CNN基盤の前記物体検出の演算時間を減らし得るようになる。
また、前記では、前記トレーニングイメージ上にターゲット物体が一つである場合を想定して説明したが、前記トレーニングイメージ内にターゲット物体多数がある場合にも、前記のような方法により前記トレーニングイメージ内での前記それぞれのターゲット物体に対応するそれぞれのターゲット領域を利用して、前記それぞれのターゲット物体の検出が可能である。
図6は、本発明の一例に係る前記イメージコンカチネーションと、前記ターゲット物体統合ネットワークとを利用した、前記CNN基盤物体検出器をテスティングするテスティング装置を概略的に示したもので、図6を参照すれば、前記テスティング装置200は、通信部210とプロセッサ220とを含み得る。
まず、前記通信部210は、少なくとも一つのテストイメージを取得するか、他の装置をもって取得するように支援し得る。
また、前記テスティング装置は、後述するプロセスを遂行するコンピュータ読取り可能なインストラクション(computer readable instruction)を格納し得るメモリ215を追加的に含み得る。一例として、前記プロセッサ、前記メモリ、及び媒体(medium)等は、一つのプロセッサに統合されて機能することもできる。
この際、前記イメージコンカチネーションと、前記ターゲット物体統合ネットワークとを利用した前記CNN基盤の前記物体検出器は、図1ないし図5を参照して説明された前記学習方法として学習され得る。
参考までに、以下の説明において混乱を避けるために、前記学習プロセスに関連する用語には「学習用」という単語が追加され、テスト用プロセスに関連する用語には「テスト用」という単語が追加された。
つまり、少なくとも一つのトレーニングイメージが取得されると、前記学習装置は、(a)(i)前記ターゲット領域予測ネットワークをもって、前記トレーニングイメージまたはこれに対応する一つ以上のリサイズされた学習用イメージにおいて一つ以上の学習用ターゲット物体が位置するものと予測される領域に対応する第1学習用ターゲット領域ないし第n学習用ターゲット領域それぞれを探すようにし、(ii)前記イメージ加工ネットワークをもって、前記トレーニングイメージまたはこれに対応するリサイズされた学習用イメージから前記第1学習用ターゲット領域ないし前記第n学習用ターゲット領域それぞれに対応する第1学習用加工イメージないし第n学習用加工イメージを取得するようにし、(iii)前記第1学習用加工イメージないし前記第n学習用加工イメージをコンカチネートした統合トレーニングイメージを出力するようにし、(b)(i)前記コンボリューションレイヤをもって、前記コンボリューション演算を前記統合トレーニングイメージに適用することにより、少なくとも一つの学習用統合特徴マップを出力するようにし、(ii)前記RPNをもって、前記学習用統合特徴マップを利用して、前記第1学習用加工イメージないし前記第n学習用加工イメージそれぞれ内に位置する一つ以上の学習用物体に対応する第1学習用物体プロポーザルないし第n学習用物体プロポーザルそれぞれを出力するようにし、(iii)前記プーリングレイヤをもって、前記学習用統合特徴マップ上で、前記第1学習用物体プロポーザルないし前記第n学習用物体プロポーザルそれぞれに対応するそれぞれの領域に前記プーリング演算を適用して、少なくとも一つの学習用プーリング済み統合特徴マップを出力させ、(iv)前記FCレイヤをもって、前記学習用プーリング済み統合特徴マップに前記FC(fully connected)演算を適用して、前記学習用物体に対応する第1学習用物体検出情報ないし第n学習用物体検出情報を出力するようにし、(c)(i)前記ターゲット物体統合ネットワークをもって、前記第1学習用物体プロポーザルないし前記第n学習用物体プロポーザルを統合して学習用統合物体プロポーザルを出力するようにし、前記第1学習用物体検出情報ないし前記第n学習用物体検出情報を統合して学習用統合物体検出情報を出力するようにし、(ii)前記FCロスレイヤをもって、前記学習用統合物体検出情報と、これに対応するGTとを参照して前記FCロスを生成するようにすることで、前記FCロスを利用したバックプロパゲーションによって、前記FCレイヤ及び前記コンボリューションレイヤのパラメータの中の少なくとも一部を学習する。
また、前記学習装置は、前記RPNロスレイヤをもって、前記学習用統合物体プロポーザルと、これに対応するGTとを参照して一つ以上のRPNロスを取得するようにすることで、前記RPNロスを利用したバックプロパゲーションによって前記RPNのパラメータの中の少なくとも一部を学習する。
次に、前記プロセッサ220が、(i)前記ターゲット領域予測ネットワークをもって、少なくとも一つのテストイメージまたはこれに対応する一つ以上のリサイズされたテスト用イメージ上で、一つ以上のテスト用ターゲット物体が位置するものと予測される領域に対応する第1テスト用ターゲット領域ないし第nテスト用ターゲット領域それぞれを探すようにし、(ii)前記イメージ加工ネットワークをもって、前記テストイメージまたはこれに対応するリサイズされたテストイメージから、前記第1テスト用ターゲット領域ないし前記第nテスト用ターゲット領域それぞれに対応する第1テスト用加工イメージないし第nテスト用加工イメージを取得するようにし、(iii)前記第1テスト用加工イメージないし前記第nテスト用加工イメージをコンカチネートした統合テストイメージを出力するようにする。その後、前記プロセッサ220は、(i)前記コンボリューションレイヤをもって、前記コンボリューション演算を前記統合テストイメージに適用することにより、少なくとも一つのテスト用統合特徴マップを出力するようにし、(ii)前記RPNをもって、前記テスト用統合特徴マップを利用して、前記第1テスト用加工イメージないし前記第nテスト用加工イメージそれぞれ内に位置するテスト用物体に対応する第1テスト用物体プロポーザルないし第nテスト用物体プロポーザルそれぞれを出力するようにし、(iii)前記プーリングレイヤをもって、前記テスト用統合特徴マップ上で、前記第1テスト用物体プロポーザルないし前記第nテスト用物体プロポーザルそれぞれに対応するそれぞれの領域に前記プーリング演算を適用して、少なくとも一つのテスト用プーリングされた統合特徴マップを出力するようにし、(iv)前記FCレイヤをもって、前記テスト用プーリング済み統合特徴マップに前記FC演算を適用して、前記テスト用物体に対応する第1テスト用物体検出情報ないし第nテスト用物体検出情報を出力するようにすることができる。その後、前記プロセッサ220は、(i)前記ターゲット物体統合ネットワークをもって、前記第1テスト用物体プロポーザルないし前記第nテスト用物体プロポーザルを統合してテスト用統合物体プロポーザルを出力するようにし、前記第1テスト用物体検出情報ないし前記第nテスト用物体検出情報を統合してテスト用統合物体検出情報を出力するプロセスを遂行する。
この際、本発明の一例に係るテスティング装置200は、コンピューティング装置であり、プロセッサを搭載して演算能力を備えた装置であればいくらでも本発明に係る学習装置200として採択され得る。本発明の一例に係る前記テスティング装置200を利用して、前記イメージコンカチネーションと、前記ターゲット物体統合ネットワークとを利用した前記CNN基盤物体検出器をテスティングする方法を、図7を参照して説明する。
本発明の一例に係る前記テスティング装置200を利用して、前記イメージコンカチネーションと、前記ターゲット物体統合ネットワークとを利用した前記CNN基盤物体検出器をテスティングする方法を、図7を参照して説明する。以下の説明で、図1ないし図5を参照して説明した前記学習方法により容易に理解可能な部分については、詳細な説明を省略することにする。
まず、図1ないし図5を参照して説明した学習方法によってFCレイヤ225、コンボリューションレイヤ222及びRPN223のパラメータのうち少なくとも一部が学習された状態で、前記テストイメージが入力されると、前記テスティング装置200がターゲット領域予測ネットワーク221をもって、前記テストイメージまたはこれに対応するリサイズされたイメージにおいて前記テスト用ターゲット物体が位置するものと予測される少なくとも一つの領域に対応する前記第1テスト用ターゲット領域ないし前記第nテスト用ターゲット領域を探すようにすることができる。
この際、前記第1テスト用ターゲット領域ないし前記第nテスト用ターゲット領域は、同一のテストイメージ内に位置する前記テスト用ターゲット物体のうち互いに異なる複数のテスト用ターゲット物体に対応するか、互いに異なるサイズの複数のイメージ内に位置する同一のテスト用ターゲット物体に対応し得る。また、前記第1テスト用ターゲット領域ないし前記第nテスト用ターゲット領域は、同一のイメージのサイズを互いに異にした前記イメージピラミッドのうちそれぞれのイメージ内に位置するものと予測されるテスト用ターゲット物体に対応し得る。
つまり、前記ターゲット領域予測ネットワーク221は、前記テストイメージ内に、第1テスト用ターゲット物体ないし第nテスト用ターゲット物体が位置するものと予測される領域に対応する、前記第1テスト用ターゲット領域ないし前記第nテスト用ターゲット領域を探し出すか、前記テストイメージをリサイズして得た第1テスト用リサイズされたイメージないし第nテスト用リサイズされたイメージそれぞれに、少なくとも一つの特定のテスト用ターゲット物体が位置するものと予測される領域に対応する、前記第1テスト用ターゲット領域それぞれないし前記第nテスト用ターゲット領域それぞれを探し出すことができる。また、前記ターゲット領域予測ネットワーク221は、前記テストイメージ上で、単一のターゲット物体が位置するものと予測される領域に対応する、特定のターゲット領域を探し出し、前記テストイメージをリサイズして得た第1テスト用リサイズされたイメージないし第nテスト用リサイズされたイメージそれぞれに、前記単一のテスト用ターゲット物体が位置するものと予測される領域に対応する、前記第1テスト用ターゲット領域それぞれないし前記第nテスト用ターゲット領域を探し出すことができる。これに加えて、前記テストイメージ内に多数のテスト用ターゲット物体が位置する場合、前記テストイメージのリサイズされたイメージそれぞれにおいて、前記テスト用ターゲット物体に対応する前記テスト用ターゲット領域を予測することができる。
次に、前記テスト装置200は、前記イメージ加工ネットワーク211をもって、前記ターゲット領域予測ネットワーク221で設定された第1テスト用ターゲット領域ないし第nテスト用ターゲット領域それぞれに対応する前記テストイメージまたはそれぞれのこれに対応するリサイズされたイメージ上で、前記第1テスト用ターゲット領域ないし前記第nテスト用ターゲット領域に対応する第1テスト用加工イメージないし第nテスト用加工イメージを取得するようにする。
この際、前記テスト装置200は、前記イメージ加工ネットワーク211をもって、前記テストイメージまたはこれに対応するリサイズされたイメージ上で前記第1テスト用ターゲット領域ないし前記第nテスト用ターゲット領域に対応する一つ以上の領域をクロップして、前記第1テスト用加工イメージないし前記第nテスト用加工イメージを取得するようにするか、前記テストイメージまたはこれに対応するリサイズされたイメージ上で前記第1テスト用ターゲット領域ないし前記第nテスト用ターゲット領域に対応する一つ以上の領域をクロップした後、リサイズして、前記第1テスト用加工イメージないし前記第nテスト用加工イメージを取得するようにできる。
次に、前記テスト装置200は、前記イメージ加工ネットワーク211をもって、前記第1テスト用加工イメージないし前記第nテスト用加工イメージをコンカチネートした前記統合テストイメージを取得させることができる。
この際、前記テスト装置200は、前記イメージ加工ネットワーク211をもって、前記第1テスト用加工イメージないし前記第nテスト用加工イメージの幅と高さのうち少なくとも一つを同一に調整した後、同一に調整された前記幅または前記高さ方向に前記第1テスト用調整済み加工イメージないし前記第nテスト用調整済み加工イメージをコンカチネートさせることができる。
そして、前記テスト装置200は、前記イメージ加工ネットワーク211をもって、前記第1テスト用調整済み加工イメージないし前記第nテスト用調整済み加工イメージのうち、コンカチネートされた隣接するそれぞれの二つのテスト用調整済み加工イメージから構成されるそれぞれのペアの間にそれぞれ少なくとも一つのゼロパディング(zero padding)領域を追加するようにすることができる。この際、前記コンボリューションレイヤの多重コンボリューション演算によって前記統合テストイメージが1/Sに縮小され、前記コンボリューションレイヤそれぞれのカーネルそれぞれの最大サイズをK×Kとする場合、前記ゼロパディング領域の幅が
Figure 0006908943
になるようにすることができる。
次に、前記テスト装置200は、前記コンボリューションレイヤ222をもって、前記統合テストイメージに前記コンボリューション演算を適用することにより、少なくとも一つのテスト用統合特徴マップを出力させることができる。この際、前記コンボリューションレイヤ222は、単一のコンボリューションレイヤでもあり得、多数のコンボリューションレイヤでもあり得る。
次に、前記テスト装置200は、前記RPN223をもって、前記テスト用統合特徴マップを利用して、前記統合テストイメージに含まれた前記第1テスト用加工イメージないし前記第nテスト用加工イメージ内に位置する前記テスト用物体に対応する一つ以上の第1テスト用物体プロポーザルないし一つ以上の第nテスト用物体プロポーザルを出力させることができる。
この際、前記第1テスト用物体プロポーザルないし前記第nテスト用物体プロポーザルそれぞれは、前記テスト用物体それぞれ、つまり、タグ付けされた領域に対応する位置情報と、前記タグ付けされた領域が物体であるか否かに関する情報を有する各プロポーザルボックスに関する情報とを含むことができる。
次に、前記テスト装置200は、プーリングレイヤ224をもって、前記テスト用統合特徴マップ上で、前記第1テスト用物体プロポーザルないし前記第nテスト用物体プロポーザルそれぞれに対応するそれぞれの領域に前記プーリング演算を適用して、少なくとも一つのテスト用プーリング済み統合特徴マップを出力させ、前記FCレイヤ225をもって、前記テスト用プーリング済み統合特徴マップに前記FC演算を適用して、前記テスト用物体に対応する第1テスト用物体検出情報ないし第nテスト用物体検出情報を出力させることができる。
この際、前記第1テスト用物体検出情報ないし前記第nテスト用物体検出情報は、テスト用バウンディングボックスに関する情報(すなわち、前記テスト用物体それぞれに関する位置情報)及び前記第1テスト用物体プロポーザルないし前記第nテスト用物体プロポーザルに対応する前記テスト用物体それぞれに関するクラス情報を含むことができる。
その後、前記テスティング装置200は、(i)前記ターゲット物体統合ネットワーク226をもって、前記第1テスト用物体プロポーザルないし前記第nテスト用物体プロポーザルを統合してテスト用統合物体プロポーザルを出力するようにし、前記第1テスト用物体検出情報ないし前記第nテスト用物体検出情報を統合してテスト用統合物体検出情報を出力するようにする。ここで、前記第1テスト用物体プロポーザルないし第nテスト用物体プロポーザルに対する情報は、前記テスト用イメージに対応するように変換され得る。
一例として、図6を参照すれば、前記第1テスト用加工イメージMI1及び前記第2テスト用加工イメージMI2上に少なくとも一つのテスト用特定同一物体が位置し、前記第1テスト用加工イメージMI1上の前記第1テスト用物体プロポーザルの中の、前記テスト用特定同一物体に対応する少なくとも一つのテスト用物体プロポーザルを第1テスト用特定物体プロポーザルとし、前記第2テスト用加工イメージMI2上で、前記第2テスト用物体プロポーザルの中の、前記テスト用特定同一物体に対応する少なくとも一つのテスト用物体プロポーザルを第2テスト用特定物体プロポーザルであるとする場合、前記テスティング装置200は、前記ターゲット物体統合ネットワーク226をもって、前記第1テスト用特定物体プロポーザルPB1と、前記第2テスト用特定物体プロポーザルPB2との間のテスト用IOUが、第1閾値以上になるかを判断するようにする。その後、前記テスト用IOUが前記第1閾値未満と判断されれば、前記第1テスト用特定物体プロポーザルPB1と、前記第2テスト用特定物体プロポーザルPB2との間のテスト用調整IOUが算出されるようにする。
この際、前記テスト用調整IOUは、前記第2テスト用加工イメージMI2上で前記第1テスト用特定物体プロポーザルPB1に対応する領域、すなわち、交差領域PB1,MI2と、前記第1テスト用加工イメージMI1上で前記第2テスト用特定物体プロポーザルPB2に対応する領域、すなわち、交差領域PB2,MI1とを参照して算出されたIOUである。
そして、前記テスト用調整IOUが第2閾値以上と判断されれば、前記テスティング装置200は、前記第1テスト用特定物体プロポーザルPB1と、前記第2テスト用特定物体プロポーザルPB2との中から、(i)確率値の高いテスト用特定物体プロポーザルを選択するようにするか(ii)前記テストイメージ上で演算される面積の大きいテスト用特定物体プロポーザルを選択させることにより、前記選択されたテスト用特定物体プロポーザルを前記テスト用特定同一物体に対応するテスト用特定統合物体プロポーザルとして生成する。
しかし、前記テスト用調整IOUが前記第2閾値未満と判断されれば、前記テスティング装置200は、前記第1テスト用特定物体プロポーザルPB1と、前記第2テスト用特定物体プロポーザルPB2とが、それぞれ異なるテスト用物体に対応すると判断する。つまり、前記第1テスト用特定物体プロポーザルPB1と、前記第2テスト用特定物体プロポーザルPB2との間の前記テスト用IOUが前記第1閾値未満であり、これら間の前記テスト用調整IOUが前記第2閾値未満と判断されれば、前記テスティング装置200は、前記第1テスト用特定物体プロポーザルPB1と、前記第2テスト用特定物体プロポーザルPB2とがそれぞれ異なる物体に対応するものと判断する。
つまり、前記第1テスト用特定物体プロポーザルPB1と、前記第2テスト用特定物体プロポーザルPB2との間の前記IOUが前記第1閾値以上であると判断されれば、前記テスティング装置は、前記第1テスト用特定物体プロポーザルPB1と、前記第2テスト用特定物体プロポーザルPB2との中から(i)確率値の高いテスト用特定物体プロポーザルを選択するようにするか(ii)それぞれの前記テスト用加工イメージMI1及びMI2上で演算される面積の大きいテスト用特定物体プロポーザルを選択するようにすることにより、前記選択されたテスト用特定物体プロポーザルを前記テスト用特定同一物体に対応する前記テスト用特定統合物体プロポーザルとして生成する。
また、図6を参照すれば、前記第1テスト用加工イメージMI1及び前記第2テスト用加工イメージMI2上に少なくとも一つのテスト用特定同一物体が位置し、前記第1テスト用加工イメージMI1上で、前記第1テスト用物体検出情報に含まれたテスト用物体バウンディングボックスの中の、前記テスト用特定同一物体に対応する少なくとも一つのテスト用物体バウンディングボックスを第1テスト用特定物体バウンディングボックスBB1とし、前記第2テスト用加工イメージMI2上で、前記第2テスト用物体検出情報に含まれたテスト用物体バウンディングボックスの中の、前記テスト用特定同一物体に対応する少なくとも一つのテスト用物体バウンディングボックスを第2テスト用特定物体バウンディングボックスBB2とした場合、前記テスティング装置200は、前記ターゲット物体統合ネットワーク226をもって、前記第1テスト用特定物体バウンディングボックスBB1と、前記第2テスト用特定物体バウンディングボックスBB2との間の前記テスト用IOUが、前記第1閾値以上になるかを判断するようにする。この際、前記テスト用物体プロポーザル間のテスト用IOU判断に利用された前記第1閾値と、前記テスト用物体バウンディングボックス間のテスト用IOU判断に利用された前記第1閾値とは、同じこともあり、同じくないこともある。その後、前記テスト用バウンディングボックス間のテスト用IOUが前記第1閾値未満と判断されれば、前記第1テスト用特定物体バウンディングボックスBB1と、前記第2テスト用特定物体バウンディングボックスBB2との間のテスト用調整IOUが算出される。
この際、前記テスト用調整IOUは、前記第2テスト用加工イメージMI2上で前記第1テスト用特定物体バウンディングボックスBB1に対応する領域、すなわち、交差領域BB1,MI2と、前記第1テスト用加工イメージMI1上で前記第2テスト用特定物体バウンディングボックスBB2に対応する領域、すなわち、交差領域BB2,MI1とを参照して算出されたIOUである。
そして、前記テスト用調整IOUが前記第2閾値以上と判断されれば、前記テスティング装置200は、前記第1テスト用特定物体バウンディングボックスBB1と、前記第2テスト用特定物体バウンディングボックスBB2との中から、(i)確率値の高いテスト用特定物体バウンディングボックスを選択するようにするか(ii)前記テストイメージ上で演算される面積の大きいテスト用特定物体バウンディングボックスを選択するようにすることにより、前記選択されたテスト用特定物体バウンディングボックスを前記テスト用特定同一物体に対応するテスト用特定統合物体検出情報として生成する。この際、前記テスト用物体プロポーザル間のテスト用IOU判断に利用された前記第2閾値と、前記テスト用物体バウンディングボックス間のテスト用IOU判断に利用された前記第2閾値とは、同じこともあり、同じくないこともある。
しかし、前記テスト用調整IOUが前記第2閾値未満と判断されれば、前記テスティング装置200は、前記第1テスト用特定物体バウンディングボックスBB1と、前記第2テスト用特定物体バウンディングボックスBB2とが、それぞれ異なるテスト用物体に対応すると判断する。つまり、前記第1テスト用特定物体バウンディングボックスBB1と、前記第2テスト用特定物体バウンディングボックスBB2との間の前記テスト用IOUが前記第1閾値未満であり、これらの間の前記テスト用調整IOUが前記第2閾値未満と判断されれば、前記テスティング装置200は、前記第1テスト用特定物体バウンディングボックスBB1と、前記第2テスト用特定物体バウンディングボックスBB2とがそれぞれ異なるテスト用物体に対応するものと判断する。
一方、前記第1テスト用特定物体バウンディングボックスBB1と、前記第2テスト用特定物体バウンディングボックスBB2との間の前記テスト用IOUが前記第1閾値未満であると判断されれば、前記テスティング装置は、前記第1テスト用特定物体バウンディングボックスBB1と、前記第2テスト用特定物体バウンディングボックスBB2との中から(i)確率値の高いテスト用特定物体バウンディングボックスを選択するようにするか(ii)それぞれの前記テスト用加工イメージMI1及びMI2上で演算される面積の大きいテスト用特定物体バウンディングボックスを選択するようにすることにより、前記選択されたテスト用特定物体バウンディングボックスを前記テスト用特定同一物体に対応する前記テスト用特定統合物体検出情報として生成する。
前記のような方法により、前記テストイメージ内に位置するサイズが様々な物体、特にサイズが小さく、遠距離に位置した前記物体を効率的に検出できるようになり、また、前記予測されたターゲット領域に対応する領域のみを利用することで演算量を減らし得、これによって前記CNN基盤の前記物体検出の演算時間を減らし得るようになる。
また、前記では、前記テストイメージ上にターゲット物体が一つである場合を想定して説明したが、前記テストイメージ内にターゲット物体多数がある場合にも、前記のような方法により前記テストイメージ内での前記それぞれのターゲット物体に対応するそれぞれのターゲット領域を利用して前記それぞれのターゲット物体の検出が可能である。
前記CNNは、重要業績評価指標(Key Performance Index)のようなユーザー要求事項に適応することが可能であり、前記重要業績評価指標による解像度や焦点距離が変わるようになるに伴って、前記CNNが再設計され得る。前記方法によって、2Dバウンディングボックスの正確度が向上し、多重カメラ、サラウンドビューモニタリング(surround view monitoring)などに有用に遂行され得る。
また、以上で説明された本発明に係る実施例は、多様なコンピュータ構成要素を通じて遂行できるプログラム命令語の形態で実装されてコンピュータで判読可能な記録媒体に記録され得る。前記コンピュータで読取り可能な記録媒体はプログラム命令語、データファイル、データ構造などを単独でまたは組み合わせて含まれ得る。前記コンピュータ判読可能な記録媒体に記録されるプログラム命令語は、本発明のために特別に設計されて構成されたものか、コンピュータソフトウェア分野の当業者に公知となって使用可能なものでもよい。コンピュータで判読可能な記録媒体の例には、ハードディスク、フロッピーディスク及び磁気テープのような磁気媒体、CD−ROM、DVDのような光記録媒体、フロプティカルディスク(flopticaldisk)のような磁気−光媒体(magneto−opticalmedia)、およびROM、RAM、フラッシュメモリなどといったプログラム命令語を格納して遂行するように特別に構成されたハードウェア装置が含まれる。プログラム命令語の例には、コンパイラによって作られるもののような機械語コードだけでなく、インタプリタなどを用いてコンピュータによって実行され得る高級言語コードも含まれる。前記ハードウェア装置は、本発明に係る処理を遂行するために一つ以上のソフトウェアモジュールとして作動するように構成され得、その逆も同様である。
以上、本発明が具体的な構成要素などのような特定事項と限定された実施例及び図面によって説明されたが、これは本発明のより全般的な理解を助けるために提供されたものであるに過ぎず、本発明が前記実施例に限られるものではなく、本発明が属する技術分野において通常の知識を有する者であれば係る記載から多様な修正及び変形が行われ得る。
従って、本発明の思想は前記説明された実施例に局限されて定められてはならず、後述する特許請求の範囲だけでなく、本特許請求の範囲と均等または等価的に変形されたものすべては、本発明の思想の範囲に属するといえる。

Claims (28)

  1. イメージコンカチネーション(Image concatenation)と、ターゲット物体統合ネットワークとを利用した、CNN基盤物体検出器のパラメータを学習する方法において、
    (a)少なくとも一つのトレーニングイメージが入力されると、学習装置が、(i)ターゲット領域予測ネットワークをもって、前記トレーニングイメージまたはこれに対応する一つ以上のリサイズされたイメージにおいて一つ以上のターゲット物体が位置するものと予測される領域に対応する第1ターゲット領域ないし第nターゲット領域それぞれを探すようにし、(ii)イメージ加工ネットワークをもって、前記トレーニングイメージまたはこれに対応するリサイズされたイメージから、前記第1ターゲット領域ないし前記第nターゲット領域それぞれに対応する第1加工イメージないし第n加工イメージを取得させ、(iii)前記第1加工イメージないし前記第n加工イメージをコンカチネートした統合トレーニングイメージを出力させる段階;
    (b)前記学習装置が、(i)一つ以上のコンボリューションレイヤをもって、一つ以上のコンボリューション演算を前記統合トレーニングイメージに適用することにより、少なくとも一つの統合特徴マップを出力するようにし、(ii)RPN(Region Proposal Network)をもって、前記統合特徴マップを利用して、前記第1加工イメージないし前記第n加工イメージそれぞれ内に位置する一つ以上の物体に対応する第1物体プロポーザルないし第n物体プロポーザルそれぞれを出力させ、(iii)プーリングレイヤをもって、前記統合特徴マップ上で、前記第1物体プロポーザルないし前記第n物体プロポーザルそれぞれに対応するそれぞれの領域に一つ以上のプーリング演算を適用して、少なくとも一つのプーリング済み統合特徴マップを出力させ、(iv)FCレイヤをもって、前記プーリング済み統合特徴マップに少なくとも一つのFC(fully connected)演算を適用して、前記物体に対応する第1物体検出情報ないし第n物体検出情報を出力させる段階;及び
    (c)前記学習装置が、(i)前記ターゲット物体統合ネットワークをもって、前記第1物体プロポーザルないし前記第n物体プロポーザルを統合して統合物体プロポーザルを生成するようにし、前記第1物体検出情報ないし前記第n物体検出情報を統合して統合物体検出情報を生成するようにし、(ii)少なくとも一つのFCロスレイヤをもって、前記統合物体検出情報と、これに対応するGTとを参照して一つ以上のFCロスを生成するようにすることで、前記FCロスを利用したバックプロパゲーション(Backpropagation)によって、前記FCレイヤ及び前記コンボリューションレイヤのパラメータの中の少なくとも一部を学習する段階;
    を含むことを特徴とする方法。
  2. 前記(c)段階で、
    前記学習装置が、少なくとも一つのRPNロスレイヤをもって、前記統合物体プロポーザル情報と、これに対応するGTとを参照して一つ以上のRPNロスを算出するようにすることで、前記RPNロスを利用したバックプロパゲーションによって前記RPNのパラメータを学習することを特徴とする請求項1に記載の方法。
  3. 前記(a)段階で、
    前記学習装置が、前記イメージ加工ネットワークをもって、第1加工イメージないし前記第n加工イメージの幅と高さのうち少なくとも一つを同一に調整した後、同一の大きさに調整された前記幅または前記高さ方向に第1調整済み加工イメージないし第n調整済み加工イメージをコンカチネート(concatenate)させることを特徴とする請求項1に記載の方法。
  4. 前記学習装置が、前記イメージ加工ネットワークをもって、前記第1調整済み加工イメージないし前記第n調整済み加工イメージのうち、コンカチネートされた隣接するそれぞれの二つの調整済み加工イメージから構成されるそれぞれのペアの間にそれぞれ少なくとも一つのゼロパディング(zero padding)領域を追加するようにすることを特徴とする請求項3に記載の方法。
  5. 前記コンボリューションレイヤの多重コンボリューション演算によって前記統合トレーニングイメージが1/Sに縮小され、前記コンボリューションレイヤそれぞれのカーネルそれぞれの最大サイズをK×Kとする場合、前記ゼロパディング領域の幅が
    Figure 0006908943
    になるようにすることを特徴とする請求項4に記載の方法。
  6. 前記(c)段階で、
    第1特定加工イメージ及び第2特定加工イメージ上にそれぞれ少なくとも一つの特定同一物体が位置し、前記第1特定加工イメージ上で、前記特定同一物体に対応する少なくとも一つの物体プロポーザルを第1特定物体プロポーザルとし、前記第2特定加工イメージ上で、前記特定同一物体に対応する少なくとも一つの物体プロポーザルを第2特定物体プロポーザルとした場合、
    前記学習装置は、前記ターゲット物体統合ネットワークをもって、前記第1特定物体プロポーザルと、前記第2特定物体プロポーザルとの間のIOU(Intersection Over Union)が第1閾値以上になるかを判断するようにし、(I)前記IOUが、前記第1閾値未満と判断されれば、前記第2特定加工イメージ上で前記第1特定物体プロポーザルに対応する領域と、前記第1特定加工イメージ上で前記第2特定物体プロポーザルに対応する領域との間の調整IOUを算出し、(II)前記調整IOUが第2閾値以上と判断されれば、前記第1特定物体プロポーザルと、前記第2特定物体プロポーザルとの中から、(i)確率値の高い特定物体プロポーザルを選択するようにするか(ii)前記トレーニングイメージ上で演算される面積の大きい特定物体プロポーザルを選択するようにすることにより、前記選択された特定物体プロポーザルを前記特定同一物体に対応する特定統合物体プロポーザルとして生成することを特徴とする請求項1に記載の方法。
  7. 前記(c)段階で、
    第1特定加工イメージ及び第2特定加工イメージ上に少なくとも一つの特定同一物体が位置し、前記第1特定加工イメージ上で、前記特定同一物体に対応する少なくとも一つの物体バウンディングボックスを第1特定物体バウンディングボックスとし、前記第2特定加工イメージ上で、前記特定同一物体に対応する少なくとも一つの物体バウンディングボックスを第2特定物体バウンディングボックスとした場合、
    前記学習装置は、前記ターゲット物体統合ネットワークをもって、前記第1特定物体バウンディングボックスと、前記第2特定物体バウンディングボックスとの間のIOUが、第1閾値以上になるか否かを判断するようにし、(I)前記IOUが、前記第1閾値未満と判断されれば、前記第2特定加工イメージ上で前記第1特定物体バウンディングボックスに対応する領域と、前記第1特定加工イメージ上で前記第2特定物体バウンディングボックスに対応する領域との間の調整IOUを算出し、(II)前記調整IOUが第2閾値以上と判断されたら、前記第1特定物体バウンディングボックスと、前記第2特定物体バウンディングボックスとの中から(i)確率値の高い特定物体バウンディングボックスを選択するようにするか(ii)前記トレーニングイメージ上で演算される面積の大きい特定物体バウンディングボックスを選択するようにすることにより、前記選択された特定物体バウンディングボックスを前記特定同一物体に対応する特定統合物体検出情報として生成することを特徴とする請求項1に記載の方法。
  8. イメージコンカチネーション(Image concatenation)と、ターゲット物体統合ネットワークとを利用したCNN基盤物体検出器をテスティングする方法において、
    (a)学習装置が、(1)(i)ターゲット領域予測ネットワークをもって、少なくとも一つのトレーニングイメージまたはこれに対応する一つ以上のリサイズされたトレーニングイメージにおいて一つ以上のターゲット物体が位置するものと予測される領域に対応する第1学習用ターゲット領域ないし第n学習用ターゲット領域それぞれを探すようにし、(ii)イメージ加工ネットワークをもって、前記トレーニングイメージまたはこれに対応するリサイズされたトレーニングイメージから、前記第1学習用ターゲット領域ないし前記第n学習用ターゲット領域それぞれに対応する第1学習用加工イメージないし第n学習用加工イメージを取得するようにし、(iii)前記第1学習用加工イメージないし前記第n学習用加工イメージをコンカチネートした統合トレーニングイメージを出力するようにし、(2)(i)一つ以上のコンボリューションレイヤをもって、一つ以上のコンボリューション演算を前記統合トレーニングイメージに適用することにより、少なくとも一つの学習用統合特徴マップを出力するようにし、(ii)RPNをもって、前記学習用統合特徴マップを利用して、前記第1学習用加工イメージないし前記第n学習用加工イメージそれぞれ内に位置する学習用物体に対応する第1学習用物体プロポーザルないし第n学習用物体プロポーザルそれぞれを出力するようにし、(iii)プーリングレイヤをもって、前記学習用統合特徴マップ上で、前記第1学習用物体プロポーザルないし前記第n学習用物体プロポーザルそれぞれに対応するそれぞれの領域に一つ以上のプーリング演算を適用して、少なくとも一つの学習用プーリング済み統合特徴マップを出力させ、(iv)FCレイヤをもって、前記学習用プーリング済み統合特徴マップに少なくとも一つのFC(fully connected)演算を適用して、前記学習用物体に対応する第1学習用物体検出情報ないし第n学習用物体検出情報を出力するようにし、(3)(i)前記ターゲット物体統合ネットワークをもって、前記第1学習用物体プロポーザルないし前記第n学習用物体プロポーザルを統合して学習用統合物体プロポーザルを生成するようにし、前記第1学習用物体検出情報ないし前記第n学習用物体検出情報を統合して学習用統合物体検出情報を生成するようにし、(ii)少なくとも一つのFCロスレイヤをもって、前記学習用統合物体検出情報と、これに対応するGTとを参照して一つ以上のFCロスを生成するようにすることで、前記FCロスを利用したバックプロパゲーション(Backpropagation)によって、前記FCレイヤ及び前記コンボリューションレイヤのパラメータの中の少なくとも一部を学習した状態で、テスティング装置が、少なくとも一つのテストイメージを取得すると、(i)前記ターゲット領域予測ネットワークをもって、前記テストイメージまたはこれに対応する一つ以上のリサイズされたテスト用イメージ上で、一つ以上のテスト用ターゲット物体が位置するものと予測される領域に対応する第1テスト用ターゲット領域ないし第nテスト用ターゲット領域それぞれを探すようにし、(ii)前記イメージ加工ネットワークをもって、前記テストイメージまたはこれに対応するリサイズされたテストイメージから、前記第1テスト用ターゲット領域ないし前記第nテスト用ターゲット領域それぞれに対応する第1テスト用加工イメージないし第nテスト用加工イメージを取得するようにし、(iii)前記第1テスト用加工イメージないし前記第nテスト用加工イメージをコンカチネートした統合テストイメージを出力するようにする段階;
    (b)前記テスティング装置が、(i)前記コンボリューションレイヤをもって、前記コンボリューション演算を前記統合テストイメージに適用することにより、少なくとも一つのテスト用統合特徴マップを出力するようにし、(ii)前記RPNをもって、前記テスト用統合特徴マップを利用して、前記第1テスト用加工イメージないし前記第nテスト用加工イメージそれぞれ内に位置するテスト用物体に対応する第1テスト用物体プロポーザルないし第nテスト用物体プロポーザルそれぞれを出力するようにし、(iii)前記プーリングレイヤをもって、前記テスト用統合特徴マップ上で、前記第1テスト用物体プロポーザルないし前記第nテスト用物体プロポーザルそれぞれに対応するそれぞれの領域に前記プーリング演算を適用して、少なくとも一つのテスト用プーリング済み統合特徴マップを出力するようにし、(iv)前記FCレイヤをもって、前記テスト用プーリング済み統合特徴マップに前記FC演算を適用して、前記テスト用物体に対応する第1テスト用物体検出情報ないし第nテスト用物体検出情報を出力するようにする段階;及び
    (c)前記テスティング装置が、(i)前記ターゲット物体統合ネットワークをもって、前記第1テスト用物体プロポーザルないし前記第nテスト用物体プロポーザルを統合してテスト用統合物体プロポーザルを生成するようにし、前記第1テスト用物体検出情報ないし前記第nテスト用物体検出情報を統合してテスト用統合物体検出情報を生成するようにする段階;
    を含むことを特徴とする方法。
  9. 前記(3)プロセスで、
    前記学習装置が、少なくとも一つのRPNロスレイヤをもって、前記学習用統合物体プロポーザル情報と、これに対応するGTとを参照して一つ以上のRPNロスを算出するようにすることで、前記RPNロスを利用したバックプロパゲーションによって前記RPNのパラメータを学習することを特徴とする請求項8に記載の方法。
  10. 前記(a)段階で、
    前記テスティング装置が、前記イメージ加工ネットワークをもって、前記第1テスト用加工イメージないし前記第nテスト用加工イメージの幅と高さのうち少なくとも一つを同一に調整した後、同一の大きさに調整された前記幅または前記高さ方向に第1テスト用調整済み加工イメージないし第nテスト用調整済み加工イメージをコンカチネートするようにすることを特徴とする請求項8に記載の方法。
  11. 前記テスティング装置が、前記イメージ加工ネットワークをもって、前記第1テスト用調整済み加工イメージないし前記第nテスト用調整済み加工イメージのうち、コンカチネートされた隣接するそれぞれの二つのテスト用調整済み加工イメージから構成されるそれぞれのペアの間にそれぞれ少なくとも一つのゼロパディング領域を追加するようにすることを特徴とする請求項10に記載の方法。
  12. 前記コンボリューションレイヤの多重コンボリューション演算によって前記統合テストイメージが1/Sに縮小され、前記コンボリューションレイヤそれぞれのカーネルそれぞれの最大サイズをK×Kとする場合、前記ゼロパディング領域の幅が
    Figure 0006908943
    になるようにすることを特徴とする請求項11に記載の方法。
  13. 前記(c)段階で、
    第1テスト用特定加工イメージ及び第2テスト用特定加工イメージ上にそれぞれ少なくとも一つのテスト用特定同一物体が位置し、前記第1テスト用特定加工イメージ上で、前記テスト用特定同一物体に対応する少なくとも一つのテスト用物体プロポーザルを第1テスト用特定物体プロポーザルとし、前記第2テスト用特定加工イメージ上で、前記テスト用特定同一物体に対応する少なくとも一つのテスト用物体プロポーザルを第2テスト用特定物体プロポーザルとした場合、前記テスティング装置は、前記ターゲット物体統合ネットワークをもって、前記第1テスト用特定物体プロポーザルと、前記第2テスト用特定物体プロポーザルとの間のテスト用IOU(Intersection Over Union)が、第1閾値以上になるかを判断するようにし、(I)前記テスト用IOUが、前記第1閾値未満と判断されれば、前記第2テスト用特定加工イメージ上で前記第1テスト用特定物体プロポーザルに対応する領域と、前記第1テスト用特定加工イメージ上で前記第2テスト用特定物体プロポーザルに対応する領域との間のテスト用調整IOUを算出し、(II)前記テスト用調整IOUが第2閾値以上と判断されれば、前記第1テスト用特定物体プロポーザルと、前記第2テスト用特定物体プロポーザルとの中から、(i)確率値の高いテスト用特定物体プロポーザルを選択するようにするか(ii)前記テストイメージ上で演算される面積の大きいテスト用特定物体プロポーザルを選択させることにより、前記選択されたテスト用特定物体プロポーザルを前記テスト用特定同一物体に対応するテスト用特定統合物体プロポーザルとして生成することを特徴とする請求項8に記載の方法。
  14. 前記(c)段階で、
    第1テスト用特定加工イメージ及び第2テスト用特定加工イメージ上にそれぞれ少なくとも一つのテスト用特定同一物体が位置し、前記第1テスト用特定加工イメージ上で、前記テスト用特定同一物体に対応する少なくとも一つのテスト用物体バウンディングボックスを第1テスト用特定物体バウンディングボックスとし、前記第2テスト用特定加工イメージ上で、前記テスト用特定同一物体に対応する少なくとも一つのテスト用物体バウンディングボックスを第2テスト用特定物体バウンディングボックスとした場合、
    前記テスティング装置は、前記ターゲット物体統合ネットワークをもって、前記第1テスト用特定物体バウンディングボックスと、前記第2テスト用特定物体バウンディングボックスとの間のテスト用IOUが第1閾値以上になるかを判断するようにし、(I)前記テスト用IOUが、前記第1閾値未満と判断されれば、前記第2テスト用特定加工イメージ上で前記第1テスト用特定物体バウンディングボックスに対応する領域と、前記第1テスト用特定加工イメージ上で前記第2テスト用特定物体バウンディングボックスに対応する領域との間のテスト用調整IOUを算出し、(II)前記テスト用調整IOUが第2閾値以上と判断されれば、前記第1テスト用特定物体バウンディングボックスと、前記第2テスト用特定物体バウンディングボックスとの中から、(i)確率値の高いテスト用特定物体バウンディングボックスを選択するようにするか(ii)前記テストイメージ上で演算される面積の大きいテスト用特定物体バウンディングボックスを選択するようにすることにより、前記選択されたテスト用特定物体バウンディングボックスを前記テスト用特定同一物体に対応するテスト用特定統合物体検出情報として生成することを特徴とする請求項8に記載の方法。
  15. イメージコンカチネーション(Image concatenation)と、ターゲット物体統合ネットワークとを利用したCNN基盤物体検出器のパラメータを学習するための学習装置において、
    インストラクションを格納する少なくとも一つのメモリ;及び
    (I)(i)ターゲット領域予測ネットワークをもって、少なくとも一つのトレーニングイメージまたはこれに対応する一つ以上のリサイズされたイメージにおいて、一つ以上のターゲット物体が位置するものと予測される領域に対応する第1ターゲット領域ないし第nターゲット領域それぞれを探すようにし、(ii)イメージ加工ネットワークをもって、前記トレーニングイメージまたはこれに対応するリサイズされたイメージから、前記第1ターゲット領域ないし前記第nターゲット領域それぞれに対応する第1加工イメージないし第n加工イメージを取得させ、(iii)前記第1加工イメージないし前記第n加工イメージをコンカチネートした統合トレーニングイメージを出力させるプロセス、(II)(i)一つ以上のコンボリューションレイヤをもって、一つ以上のコンボリューション演算を前記統合トレーニングイメージに適用することにより、少なくとも一つの統合特徴マップを出力するようにし、(ii)RPN(Region Proposal Network)をもって、前記統合特徴マップを利用して、前記第1加工イメージないし前記第n加工イメージそれぞれ内に位置する一つ以上の物体に対応する第1物体プロポーザルないし第n物体プロポーザルそれぞれを出力させ、(iii)プーリングレイヤをもって、前記統合特徴マップ上で、前記第1物体プロポーザルないし前記第n物体プロポーザルそれぞれに対応するそれぞれの領域に一つ以上のプーリング演算を適用して、少なくとも一つのプーリング済み統合特徴マップを出力させ、(iv)FCレイヤをもって、前記プーリング済み統合特徴マップに少なくとも一つのFC(fully connected)演算を適用して、前記物体に対応する第1物体検出情報ないし第n物体検出情報を出力させるプロセス、及び(III)(i)前記ターゲット物体統合ネットワークをもって、前記第1物体プロポーザルないし前記第n物体プロポーザルを統合して統合物体プロポーザルを生成するようにし、前記第1物体検出情報ないし前記第n物体検出情報を統合して統合物体検出情報を生成するようにし、(ii)少なくとも一つのFCロスレイヤをもって、前記統合物体検出情報と、これに対応するGTとを参照して一つ以上のFCロスを生成するようにすることで、前記FCロスを利用したバックプロパゲーション(Backpropagation)によって、前記FCレイヤ及び前記コンボリューションレイヤのパラメータの中の少なくとも一部を学習するプロセスを遂行するための、前記インストラクションを実行するように構成された少なくとも一つのプロセッサ;
    を含むことを特徴とする学習装置。
  16. 前記(III)プロセスで、
    前記プロセッサが、少なくとも一つのRPNロスレイヤをもって、前記統合物体プロポーザル情報と、これに対応するGTとを参照して一つ以上のRPNロスを算出するようにすることで、前記RPNロスを利用したバックプロパゲーションによって前記RPNのパラメータを学習することを特徴とする請求項15に記載の学習装置。
  17. 前記(I)プロセスで、
    前記プロセッサが、前記イメージ加工ネットワークをもって、前記第1加工イメージないし前記第n加工イメージの幅と高さのうち少なくとも一つを同一に調整した後、同一の大きさに調整された前記幅または前記高さ方向に第1調整済み加工イメージないし第n調整済み加工イメージをコンカチネート(concatenate)させることを特徴とする請求項15に記載の学習装置。
  18. 前記プロセッサが、前記イメージ加工ネットワークをもって、前記第1調整済み加工イメージないし前記第n調整済み加工イメージのうち、コンカチネートされた隣接するそれぞれの二つの調整済み加工イメージから構成されるそれぞれのペアの間にそれぞれ少なくとも一つのゼロパディング(zero padding)領域を追加するようにすることを特徴とする請求項17に記載の学習装置。
  19. 前記コンボリューションレイヤの多重コンボリューション演算によって前記統合トレーニングイメージが1/Sに縮小され、前記コンボリューションレイヤそれぞれのカーネルそれぞれの最大サイズをK×Kとする場合、前記ゼロパディング領域の幅が
    Figure 0006908943
    になるようにすることを特徴とする請求項18に記載の学習装置。
  20. 前記(III)プロセスで、
    第1特定加工イメージ及び第2特定加工イメージ上にそれぞれ少なくとも一つの特定同一物体が位置し、前記第1特定加工イメージ上で、前記特定同一物体に対応する少なくとも一つの物体プロポーザルを第1特定物体プロポーザルとし、前記第2特定加工イメージ上で、前記特定同一物体に対応する少なくとも一つの物体プロポーザルを第2特定物体プロポーザルとした場合、
    前記プロセッサは、前記ターゲット物体統合ネットワークをもって、前記第1特定物体プロポーザルと、前記第2特定物体プロポーザルとの間のIOU(Intersection Over Union)が、第1閾値以上になるかを判断するようにし、(i)前記IOUが、前記第1閾値未満と判断されれば、前記第2特定加工イメージ上で前記第1特定物体プロポーザルに対応する領域と、前記第1特定加工イメージ上で前記第2特定物体プロポーザルに対応する領域との間の調整IOUを算出し、(ii)前記調整IOUが第2閾値以上と判断されれば、前記第1特定物体プロポーザルと、前記第2特定物体プロポーザルとの中から、確率値の高い特定物体プロポーザルを選択するようにするか、前記トレーニングイメージ上で演算される面積の大きい特定物体プロポーザルを選択するようにすることにより、前記選択された特定物体プロポーザルを前記特定同一物体に対応する特定統合物体プロポーザルとして生成することを特徴とする請求項15に記載の学習装置。
  21. 前記(III)プロセスで、
    第1特定加工イメージ及び第2特定加工イメージ上に少なくとも一つの特定同一物体が位置し、前記第1特定加工イメージ上で、前記特定同一物体に対応する少なくとも一つの物体バウンディングボックスを第1特定物体バウンディングボックスとし、前記第2特定加工イメージ上で、前記特定同一物体に対応する少なくとも一つの物体バウンディングボックスを第2特定物体バウンディングボックスとした場合、
    前記プロセスは、前記ターゲット物体統合ネットワークをもって、前記第1特定物体バウンディングボックスと、前記第2特定物体バウンディングボックスとの間のIOUが、第1閾値以上になるか否かを判断するようにし、(i)前記IOUが、前記第1閾値未満と判断されれば、前記第2特定加工イメージ上で前記第1特定物体バウンディングボックスに対応する領域と、前記第1特定加工イメージ上で前記第2特定物体バウンディングボックスに対応する領域との間の調整IOUを算出し、(ii)前記調整IOUが第2閾値以上と判断されたら、前記第1特定物体バウンディングボックスと、前記第2特定物体バウンディングボックスとの中から、確率値の高い特定物体バウンディングボックスを選択するようにするか、前記トレーニングイメージ上で演算される面積の大きい特定物体バウンディングボックスを選択するようにすることにより、前記選択された特定物体バウンディングボックスを前記特定同一物体に対応する特定統合物体検出情報として生成することを特徴とする請求項15に記載の学習装置。
  22. イメージコンカチネーション(Image concatenation)と、ターゲット物体統合ネットワークとを利用したCNN基盤物体検出器をテストするためのテスティング装置において、
    インストラクションを格納する少なくとも一つのメモリ;及び
    学習装置が、(1)(i)ターゲット領域予測ネットワークをもって、少なくとも一つのトレーニングイメージまたはこれに対応する一つ以上のリサイズされたトレーニングイメージにおいて一つ以上のターゲット物体が位置するものと予測される領域に対応する第1学習用ターゲット領域ないし第n学習用ターゲット領域それぞれを探すようにし、(ii)イメージ加工ネットワークをもって、前記トレーニングイメージまたはこれに対応するリサイズされたトレーニングイメージから、前記第1学習用ターゲット領域ないし前記第n学習用ターゲット領域それぞれに対応する第1学習用加工イメージないし第n学習用加工イメージを取得するようにし、(iii)前記第1学習用加工イメージないし前記第n学習用加工イメージをコンカチネートした統合トレーニングイメージを出力するようにし、(2)(i)一つ以上のコンボリューションレイヤをもって、一つ以上のコンボリューション演算を前記統合トレーニングイメージに適用することにより、少なくとも一つの学習用統合特徴マップを出力するようにし、(ii)RPNをもって、前記学習用統合特徴マップを利用して、前記第1学習用加工イメージないし前記第n学習用加工イメージそれぞれ内に位置する学習用物体に対応する第1学習用物体プロポーザルないし第n学習用物体プロポーザルそれぞれを出力するようにし、(iii)プーリングレイヤをもって、前記学習用統合特徴マップ上で、前記第1学習用物体プロポーザルないし前記第n学習用物体プロポーザルそれぞれに対応するそれぞれの領域に一つ以上のプーリング演算を適用して、少なくとも一つの学習用プーリング済み統合特徴マップを出力させ、(iv)FCレイヤをもって、前記学習用プーリング済み統合特徴マップに少なくとも一つのFC(fully connected)演算を適用して、前記学習用物体に対応する第1学習用物体検出情報ないし第n学習用物体検出情報を出力するようにし、(3)(i)前記ターゲット物体統合ネットワークをもって、前記第1学習用物体プロポーザルないし前記第n学習用物体プロポーザルを統合して学習用統合物体プロポーザルを生成するようにし、前記第1学習用物体検出情報ないし前記第n学習用物体検出情報を統合して学習用統合物体検出情報を生成するようにし、(ii)少なくとも一つのFCロスレイヤをもって、前記学習用統合物体検出情報と、これに対応するGTとを参照してFCロスを生成するようにすることで、前記FCロスを利用したバックプロパゲーションによって、前記FCレイヤ及び前記コンボリューションレイヤのパラメータの中の少なくとも一部を学習した状態で、(I)(i)前記ターゲット領域予測ネットワークをもって、少なくとも一つのテストイメージまたはこれに対応する一つ以上のリサイズされたテスト用イメージ上で、一つ以上のテスト用ターゲット物体が位置するものと予測される領域に対応する第1テスト用ターゲット領域ないし第nテスト用ターゲット領域それぞれを探すようにし、(ii)前記イメージ加工ネットワークをもって、前記テストイメージまたはこれに対応するリサイズされたテストイメージから、前記第1テスト用ターゲット領域ないし前記第nテスト用ターゲット領域それぞれに対応する第1テスト用加工イメージないし第nテスト用加工イメージを取得するようにし、(iii)前記第1テスト用加工イメージないし前記第nテスト用加工イメージをコンカチネートした統合テストイメージを出力するようにするプロセス、(II)(i)前記コンボリューションレイヤをもって、前記コンボリューション演算を前記統合テストイメージに適用することにより、少なくとも一つのテスト用統合特徴マップを出力するようにし、(ii)前記RPNをもって、前記テスト用統合特徴マップを利用して、前記第1テスト用加工イメージないし前記第nテスト用加工イメージそれぞれ内に位置するテスト用物体に対応する第1テスト用物体プロポーザルないし第nテスト用物体プロポーザルそれぞれを出力するようにし、(iii)前記プーリングレイヤをもって、前記テスト用統合特徴マップ上で、前記第1テスト用物体プロポーザルないし前記第nテスト用物体プロポーザルそれぞれに対応するそれぞれの領域に前記プーリング演算を適用して、少なくとも一つのテスト用プーリング済み統合特徴マップを出力するようにし、(iv)前記FCレイヤをもって、前記テスト用プーリング済み統合特徴マップに前記FC演算を適用して、前記テスト用物体に対応する第1テスト用物体検出情報ないし第nテスト用物体検出情報を出力するようにするプロセス、及び(III)(i)前記ターゲット物体統合ネットワークをもって、前記第1テスト用物体プロポーザルないし前記第nテスト用物体プロポーザルを統合してテスト用統合物体プロポーザルを生成するようにし、前記第1テスト用物体検出情報ないし前記第nテスト用物体検出情報を統合してテスト用統合物体検出情報を生成するようにするプロセスを遂行するための、前記インストラクションを実行するように構成された少なくとも一つのプロセッサ;
    を含むことを特徴とするテスティング装置。
  23. 前記(3)プロセスで、
    前記学習装置が、少なくとも一つのRPNロスレイヤをもって、前記学習用統合物体プロポーザル情報と、これに対応するGTとを参照して一つ以上のRPNロスを算出するようにすることで、前記RPNロスを利用したバックプロパゲーションによって前記RPNのパラメータを学習することを特徴とする請求項22に記載のテスティング装置。
  24. 前記(I)プロセスで、
    前記プロセッサが、前記イメージ加工ネットワークをもって、前記第1テスト用加工イメージないし前記第nテスト用加工イメージの幅と高さのうち少なくとも一つを同一に調整した後、同一の大きさに調整された前記幅または前記高さ方向に第1テスト用調整済み加工イメージないし第nテスト用調整済み加工イメージをコンカチネートするようにすることを特徴とする請求項22に記載のテスティング装置。
  25. 前記プロセッサが、前記イメージ加工ネットワークをもって、前記第1テスト用調整済み加工イメージないし前記第nテスト用調整済み加工イメージのうち、コンカチネートされた隣接するそれぞれの二つのテスト用調整済み加工イメージから構成されるそれぞれのペアの間にそれぞれ少なくとも一つのゼロパディング領域を追加するようにすることを特徴とする請求項24に記載のテスティング装置。
  26. 前記コンボリューションレイヤの多重コンボリューション演算によって前記統合テストイメージが1/Sに縮小され、前記コンボリューションレイヤそれぞれのカーネルそれぞれの最大サイズをK×Kとする場合、前記ゼロパディング領域の幅が
    Figure 0006908943
    になるようにすることを特徴とする請求項25に記載のテスティング装置。
  27. 前記(III)プロセスで、
    第1テスト用特定加工イメージ及び第2テスト用特定加工イメージ上にそれぞれ少なくとも一つのテスト用特定同一物体が位置し、前記第1テスト用特定加工イメージ上で、前記テスト用特定同一物体に対応する少なくとも一つのテスト用物体プロポーザルを第1テスト用特定物体プロポーザルとし、前記第2テスト用特定加工イメージ上で、前記テスト用特定同一物体に対応する少なくとも一つのテスト用物体プロポーザルを第2テスト用特定物体プロポーザルとした場合、
    前記プロセッサは、前記ターゲット物体統合ネットワークをもって、前記第1テスト用特定物体プロポーザルと、前記第2テスト用特定物体プロポーザルとの間のテスト用IOU(Intersection Over Union)が、第1閾値以上になるかを判断するようにし、(i)前記テスト用IOUが、前記第1閾値未満と判断されれば、前記第2テスト用特定加工イメージ上で前記第1テスト用特定物体プロポーザルに対応する領域と、前記第1テスト用特定加工イメージ上で前記第2テスト用特定物体プロポーザルに対応する領域との間のテスト用調整IOUを算出し、(ii)前記テスト用調整IOUが第2閾値以上と判断されれば、前記第1テスト用特定物体プロポーザルと、前記第2テスト用特定物体プロポーザルとの中から、確率値の高いテスト用特定物体プロポーザルを選択するようにするか、前記テストイメージ上で演算される面積の大きいテスト用特定物体プロポーザルを選択するようにすることにより、前記選択されたテスト用特定物体プロポーザルを前記テスト用特定同一物体に対応するテスト用特定統合物体プロポーザルとして生成することを特徴とする請求項22に記載のテスティング装置。
  28. 前記(III)プロセスで、
    第1テスト用特定加工イメージ及び第2テスト用特定加工イメージ上にそれぞれ少なくとも一つのテスト用特定同一物体が位置し、前記第1テスト用特定加工イメージ上で、前記テスト用特定同一物体に対応する少なくとも一つのテスト用物体バウンディングボックスを第1テスト用特定物体バウンディングボックスとし、前記第2テスト用特定加工イメージ上で、前記テスト用特定同一物体に対応する少なくとも一つのテスト用物体バウンディングボックスを第2テスト用特定物体バウンディングボックスとした場合、
    前記プロセッサは、前記ターゲット物体統合ネットワークをもって、前記第1テスト用特定物体バウンディングボックスと、前記第2テスト用特定物体バウンディングボックスとの間のテスト用IOUが第1閾値以上になるかを判断するようにし、(i)前記テスト用IOUが、前記第1閾値未満と判断されれば、前記第2テスト用特定加工イメージ上で前記第1テスト用特定物体バウンディングボックスに対応する領域と、前記第1テスト用特定加工イメージ上で前記第2テスト用特定物体バウンディングボックスに対応する領域との間のテスト用調整IOUを算出し、(ii)前記テスト用調整IOUが第2閾値以上と判断されれば、前記第1テスト用特定物体バウンディングボックスと、前記第2テスト用特定物体バウンディングボックスとの中から、確率値の高いテスト用特定物体バウンディングボックスを選択するようにするか、前記テストイメージ上で演算される面積の大きいテスト用特定物体バウンディングボックスを選択するようにすることにより、前記選択されたテスト用特定物体バウンディングボックスを前記テスト用特定同一物体に対応するテスト用特定統合物体検出情報として生成することを特徴とする請求項22に記載のテスティング装置。
JP2020002987A 2019-01-22 2020-01-10 イメージコンカチネーションと、ターゲット物体予測ネットワークとを利用して、多重カメラ又はサラウンドビューモニタリングに利用される物体検出器を学習する方法及び学習装置、並びにこれを利用したテスティング方法及びテスティング装置 Active JP6908943B2 (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US16/254,522 US10423860B1 (en) 2019-01-22 2019-01-22 Learning method and learning device for object detector based on CNN to be used for multi-camera or surround view monitoring using image concatenation and target object merging network, and testing method and testing device using the same
US16/254,522 2019-01-22

Publications (2)

Publication Number Publication Date
JP2020119546A JP2020119546A (ja) 2020-08-06
JP6908943B2 true JP6908943B2 (ja) 2021-07-28

Family

ID=67988595

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2020002987A Active JP6908943B2 (ja) 2019-01-22 2020-01-10 イメージコンカチネーションと、ターゲット物体予測ネットワークとを利用して、多重カメラ又はサラウンドビューモニタリングに利用される物体検出器を学習する方法及び学習装置、並びにこれを利用したテスティング方法及びテスティング装置

Country Status (5)

Country Link
US (1) US10423860B1 (ja)
EP (1) EP3686791B1 (ja)
JP (1) JP6908943B2 (ja)
KR (1) KR102349920B1 (ja)
CN (1) CN111462193B (ja)

Families Citing this family (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2018211144A1 (en) * 2017-05-19 2018-11-22 Deepmind Technologies Limited Making object-level predictions of the future state of a physical system
JP7163766B2 (ja) * 2018-12-28 2022-11-01 株式会社デンソーテン 付着物検出装置および付着物検出方法
US11043003B2 (en) 2019-11-18 2021-06-22 Waymo Llc Interacted object detection neural network
CN110909794B (zh) * 2019-11-22 2022-09-13 乐鑫信息科技(上海)股份有限公司 一种适用于嵌入式设备的目标检测系统
US11132607B1 (en) * 2020-05-05 2021-09-28 StradVision, Inc. Method for explainable active learning, to be used for object detector, by using deep encoder and active learning device using the same
US10970645B1 (en) * 2020-05-08 2021-04-06 StradVision, Inc. Method for explainable active learning, to be used for object detector, by using Bayesian dual autoencoder and active learning device using the same
US11987236B2 (en) * 2020-08-31 2024-05-21 Nec Corporation Monocular 3D object localization from temporal aggregation
KR102423047B1 (ko) * 2020-11-17 2022-07-19 연세대학교 산학협력단 하드웨어로 구현되는 초해상도 장치를 위한 전처리 장치 및 방법

Family Cites Families (34)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP6340228B2 (ja) * 2014-03-27 2018-06-06 株式会社メガチップス 物体検出装置
US9536293B2 (en) * 2014-07-30 2017-01-03 Adobe Systems Incorporated Image assessment using deep convolutional neural networks
CN106156807B (zh) * 2015-04-02 2020-06-02 华中科技大学 卷积神经网络模型的训练方法及装置
WO2016165060A1 (en) * 2015-04-14 2016-10-20 Intel Corporation Skin detection based on online discriminative modeling
US9965719B2 (en) * 2015-11-04 2018-05-08 Nec Corporation Subcategory-aware convolutional neural networks for object detection
US9881234B2 (en) * 2015-11-25 2018-01-30 Baidu Usa Llc. Systems and methods for end-to-end object detection
US20180039853A1 (en) * 2016-08-02 2018-02-08 Mitsubishi Electric Research Laboratories, Inc. Object Detection System and Object Detection Method
US10354159B2 (en) * 2016-09-06 2019-07-16 Carnegie Mellon University Methods and software for detecting objects in an image using a contextual multiscale fast region-based convolutional neural network
US10354362B2 (en) * 2016-09-08 2019-07-16 Carnegie Mellon University Methods and software for detecting objects in images using a multiscale fast region-based convolutional neural network
US11308350B2 (en) * 2016-11-07 2022-04-19 Qualcomm Incorporated Deep cross-correlation learning for object tracking
US10846523B2 (en) * 2016-11-14 2020-11-24 Kodak Alaris Inc. System and method of character recognition using fully convolutional neural networks with attention
US10380741B2 (en) * 2016-12-07 2019-08-13 Samsung Electronics Co., Ltd System and method for a deep learning machine for object detection
US10262237B2 (en) * 2016-12-08 2019-04-16 Intel Corporation Technologies for improved object detection accuracy with multi-scale representation and training
CN108303748A (zh) * 2017-01-12 2018-07-20 同方威视技术股份有限公司 检查设备和检测行李物品中的枪支的方法
CN106910206B (zh) * 2017-01-17 2020-02-18 邢惠钧 一种目标跟踪方法及装置
US10185878B2 (en) * 2017-02-28 2019-01-22 Microsoft Technology Licensing, Llc System and method for person counting in image data
US10635927B2 (en) * 2017-03-06 2020-04-28 Honda Motor Co., Ltd. Systems for performing semantic segmentation and methods thereof
US10678846B2 (en) * 2017-03-10 2020-06-09 Xerox Corporation Instance-level image retrieval with a region proposal network
US20180260414A1 (en) * 2017-03-10 2018-09-13 Xerox Corporation Query expansion learning with recurrent networks
US11010595B2 (en) * 2017-03-23 2021-05-18 Samsung Electronics Co., Ltd. Facial verification method and apparatus
US10325342B2 (en) * 2017-04-27 2019-06-18 Apple Inc. Convolution engine for merging interleaved channel data
EP3619681A4 (en) * 2017-05-02 2020-12-16 HRL Laboratories, LLC SYSTEM AND METHOD FOR DETECTION OF MOVING OBSTACLES BASED ON A SENSORIC PREDICTION FROM OWN MOVEMENT
CN108985135A (zh) * 2017-06-02 2018-12-11 腾讯科技(深圳)有限公司 一种人脸检测器训练方法、装置及电子设备
US10460470B2 (en) * 2017-07-06 2019-10-29 Futurewei Technologies, Inc. Recognition and reconstruction of objects with partial appearance
CN107451602A (zh) * 2017-07-06 2017-12-08 浙江工业大学 一种基于深度学习的果蔬检测方法
US10503978B2 (en) * 2017-07-14 2019-12-10 Nec Corporation Spatio-temporal interaction network for learning object interactions
CN107451997A (zh) * 2017-07-31 2017-12-08 南昌航空大学 一种基于深度学习的焊缝超声tofd‑d扫描缺陷类型的自动识别方法
KR101880901B1 (ko) * 2017-08-09 2018-07-23 펜타시큐리티시스템 주식회사 기계 학습 방법 및 장치
JP6972757B2 (ja) * 2017-08-10 2021-11-24 富士通株式会社 制御プログラム、制御方法、及び情報処理装置
JP6972756B2 (ja) * 2017-08-10 2021-11-24 富士通株式会社 制御プログラム、制御方法、及び情報処理装置
US10679351B2 (en) * 2017-08-18 2020-06-09 Samsung Electronics Co., Ltd. System and method for semantic segmentation of images
CN107492099B (zh) * 2017-08-28 2021-08-20 京东方科技集团股份有限公司 医学图像分析方法、医学图像分析系统以及存储介质
US10169679B1 (en) * 2017-10-13 2019-01-01 StradVision, Inc. Learning method and learning device for adjusting parameters of CNN by using loss augmentation and testing method and testing device using the same
US9946960B1 (en) * 2017-10-13 2018-04-17 StradVision, Inc. Method for acquiring bounding box corresponding to an object in an image by using convolutional neural network including tracking network and computing device using the same

Also Published As

Publication number Publication date
EP3686791A1 (en) 2020-07-29
JP2020119546A (ja) 2020-08-06
CN111462193B (zh) 2023-09-12
KR102349920B1 (ko) 2022-01-12
CN111462193A (zh) 2020-07-28
US10423860B1 (en) 2019-09-24
EP3686791C0 (en) 2023-11-08
EP3686791B1 (en) 2023-11-08
KR20200091330A (ko) 2020-07-30

Similar Documents

Publication Publication Date Title
JP6908943B2 (ja) イメージコンカチネーションと、ターゲット物体予測ネットワークとを利用して、多重カメラ又はサラウンドビューモニタリングに利用される物体検出器を学習する方法及び学習装置、並びにこれを利用したテスティング方法及びテスティング装置
JP6857370B2 (ja) ターゲット物体予測ネットワーク及びターゲット物体統合ネットワークを利用して、重要業績評価指標のようなユーザー要求事項に係る最適化のための再構成可能なネットワーク基盤の物体検出器を学習する方法及び学習装置、並びにこれを利用したテスティング方法及びテスティング装置
JP6908944B2 (ja) 多重カメラまたはサラウンドビューモニタリングに利用されるために、ターゲット物体統合ネットワーク及びターゲット物体予測ネットワークを利用して、重要業績評価指標のようなユーザー要求事項に適用可能なcnn基盤の物体検出器を学習する方法及び学習装置、並びにこれを利用したテスティング方法及びテスティング装置
JP6846069B2 (ja) 遠距離検出または軍事目的のために、イメージコンカチネーションを利用したcnn基盤のハードウェア最適化が可能な物体検出器を学習する方法及び学習装置、それを利用したテスト方法及びテスト装置{learning method and learning device for object detector with hardware optimization based on cnn for detection at distance or military purpose using image concatenation, and testing method and testing device using the same}
JP6850046B2 (ja) 重要業績評価指標のようなユーザ要求事項に適したターゲット物体予測ネットワークを用いた、cnn基盤の変動に強い物体検出器を学習する方法及び学習装置、並びにこれを利用したテスティング方法及びテスティング装置
JP6875021B2 (ja) 有用な学習データを取捨選別するためのcnn基盤の学習方法及び学習装置、そしてこれを利用したテスト方法及びテスト装置
KR20200039547A (ko) 트래킹 네트워크를 포함한 cnn을 사용하여 객체를 트래킹하는 방법 및 이를 이용한 장치
KR20200027889A (ko) CNN(Convolutional Neural Network)을 사용하여 차선을 검출하기 위한 학습 방법 및 학습 장치 그리고 이를 이용한 테스트 방법 및 테스트 장치
JP6892157B2 (ja) V2x情報融合技術によって取得された、各物体に対する深さ予測情報及び各物体に対するクラス情報を利用して3d空間を再構築することによりhdマップをアップデートする学習方法及び学習装置、そしてこれを利用したテスティング方法及びテスティング装置
KR20200027888A (ko) 차선 모델을 이용하여 차선을 검출할 수 있는 학습 방법 및 학습 장치 그리고 이를 이용한 테스트 방법 및 테스트 장치
KR102464358B1 (ko) 머신러닝에 기반하여 이미지에 대응되는 공간 정보를 추정하기 위한 방법 및 이를 이용한 공간 추정 장치

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20200110

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20210219

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20210302

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20210527

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20210622

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20210625

R150 Certificate of patent or registration of utility model

Ref document number: 6908943

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250