JP6908944B2 - 多重カメラまたはサラウンドビューモニタリングに利用されるために、ターゲット物体統合ネットワーク及びターゲット物体予測ネットワークを利用して、重要業績評価指標のようなユーザー要求事項に適用可能なcnn基盤の物体検出器を学習する方法及び学習装置、並びにこれを利用したテスティング方法及びテスティング装置 - Google Patents

多重カメラまたはサラウンドビューモニタリングに利用されるために、ターゲット物体統合ネットワーク及びターゲット物体予測ネットワークを利用して、重要業績評価指標のようなユーザー要求事項に適用可能なcnn基盤の物体検出器を学習する方法及び学習装置、並びにこれを利用したテスティング方法及びテスティング装置 Download PDF

Info

Publication number
JP6908944B2
JP6908944B2 JP2020002988A JP2020002988A JP6908944B2 JP 6908944 B2 JP6908944 B2 JP 6908944B2 JP 2020002988 A JP2020002988 A JP 2020002988A JP 2020002988 A JP2020002988 A JP 2020002988A JP 6908944 B2 JP6908944 B2 JP 6908944B2
Authority
JP
Japan
Prior art keywords
test
image
learning
specific
proposal
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2020002988A
Other languages
English (en)
Other versions
JP2020119547A (ja
Inventor
桂賢 金
桂賢 金
鎔重 金
鎔重 金
寅洙 金
寅洙 金
鶴京 金
鶴京 金
雲鉉 南
雲鉉 南
碩▲ふん▼ 夫
碩▲ふん▼ 夫
明哲 成
明哲 成
東勳 呂
東勳 呂
宇宙 柳
宇宙 柳
泰雄 張
泰雄 張
景中 鄭
景中 鄭
泓模 諸
泓模 諸
浩辰 趙
浩辰 趙
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Stradvision Inc
Original Assignee
Stradvision Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Stradvision Inc filed Critical Stradvision Inc
Publication of JP2020119547A publication Critical patent/JP2020119547A/ja
Application granted granted Critical
Publication of JP6908944B2 publication Critical patent/JP6908944B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N7/00Television systems
    • H04N7/18Closed-circuit television [CCTV] systems, i.e. systems in which the video signal is not broadcast
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • G06F18/2148Generating training patterns; Bootstrap methods, e.g. bagging or boosting characterised by the process organisation or structure, e.g. boosting cascade
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/217Validation; Performance evaluation; Active pattern learning techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N7/00Computing arrangements based on specific mathematical models
    • G06N7/01Probabilistic graphical models, e.g. probabilistic networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/20Analysis of motion
    • G06T7/246Analysis of motion using feature-based methods, e.g. the tracking of corners or segments
    • G06T7/251Analysis of motion using feature-based methods, e.g. the tracking of corners or segments involving models
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/25Determination of region of interest [ROI] or a volume of interest [VOI]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/764Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/776Validation; Performance evaluation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/50Context or environment of the image
    • G06V20/56Context or environment of the image exterior to a vehicle by using sensors mounted on the vehicle
    • G06V20/58Recognition of moving objects or obstacles, e.g. vehicles or pedestrians; Recognition of traffic objects, e.g. traffic signs, traffic lights or roads
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20084Artificial neural networks [ANN]

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Software Systems (AREA)
  • Computing Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Multimedia (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Mathematical Physics (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Computational Linguistics (AREA)
  • Molecular Biology (AREA)
  • Databases & Information Systems (AREA)
  • Medical Informatics (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Signal Processing (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Pure & Applied Mathematics (AREA)
  • Computational Mathematics (AREA)
  • Image Analysis (AREA)
  • Probability & Statistics with Applications (AREA)
  • Mathematical Optimization (AREA)
  • Mathematical Analysis (AREA)
  • Algebra (AREA)

Description

本発明は、多重カメラまたはサラウンドビューモニタリング(Surround View Monitoring)に利用されるために、ターゲット物体統合ネットワーク及びターゲット領域予測ネットワークを利用して、重要業績評価指標(KPI)のようなユーザー要求事項に適用可能なCNN基盤の物体検出器を学習する方法に関し;より詳細には、ターゲット物体統合予測ネットワークと、ターゲット領域予測物体ネットワークとを利用したCNN基盤の物体検出器のパラメータを学習する方法において、(a)少なくとも一つのトレーニングビデオが取得されると、(i)イメージ加工ネットワークをもって、前記トレーニングビデオの現在フレームである第1フレームに対応する第1イメージピラミッドに含まれた第1_1イメージないし第1_nイメージそれぞれから、少なくとも一つのターゲット物体が位置すると推定される第1予測ターゲット領域にそれぞれ対応する、第1_1加工イメージないし前記第1_n加工イメージを生成するようにし、前記第1_1加工イメージないし第1_n加工イメージをコンカチネート(concatenate)した第1統合トレーニングイメージを生成するようにし、(ii)一つ以上のコンボリューションレイヤをもって、一つ以上のコンボリューション演算を前記第1統合トレーニングイメージに適用することにより、少なくとも一つの第1特徴マップを出力するようにし、RPN(Region Proposal Network)をもって、前記第1特徴マップを利用して、前記第1統合トレーニングイメージに含まれた前記第1_1加工イメージないし前記第1_n加工イメージそれぞれに位置する一つ以上の物体に対応する第1_1物体プロポーザルないし第1_n物体プロポーザルを出力するようにし、プーリングレイヤをもって、前記第1特徴マップ上で、前記第1_1物体プロポーザルないし前記第1_n物体プロポーザルに対応する一つ以上の領域に一つ以上のプーリング演算を適用して、少なくとも一つの第1プーリング済み特徴マップを出力するようにし、FC(fully connected)レイヤをもって、前記第1プーリング済み特徴マップに少なくとも一つのFC演算を適用して、前記物体に対応する第1_1物体検出情報ないし第1_n物体検出情報を出力するようにし、(iii)前記ターゲット物体統合ネットワークをもって、前記第1_1物体プロポーザルないし前記第1_n物体プロポーザルを統合して第1統合物体プロポーザルを生成するようにし、前記第1_1物体検出情報ないし前記第1_n物体検出情報を統合して第1統合物体検出情報を生成するようにし、少なくとも一つのFCロスレイヤをもって、前記第1統合物体検出情報及びこれに対応するGTを参照して一つ以上の第1FCロスを生成するようにすることで、前記第1FCロスを利用したバックプロパゲーション(Backpropagation)によって、前記FCレイヤと、前記コンボリューションレイヤのパラメータとの中の少なくとも一部を学習する段階;及び(b)kを2からnまで増加させながら、(i)前記ターゲット物体予測ネットワークをもって、第k−1統合トレーニングイメージ上の第(k−1)_1物体プロポーザルないし第(k−1)_n物体プロポーザルを参照して、前記第k−1フレーム上で、前記ターゲット物体が位置すると予測される第k−1ターゲット領域を探すようにし、前記ターゲット領域予測ネットワークをもって、第kフレーム上で、前記k−1ターゲット領域が位置すると予測される一つ以上の領域に対応する第k予測ターゲット領域を探すようにし、(ii)前記イメージ加工ネットワークをもって、前記第kフレームに対応する第kイメージピラミッド内に含まれた第k_1イメージないし第k_nイメージそれぞれから、前記k予測ターゲット領域にそれぞれ対応する、第k_1加工イメージないし第k_n加工イメージを生成するようにし、前記第k_1加工イメージないし第k_n加工イメージをコンカチネートした第k統合トレーニングイメージを出力するようにし、(iii)前記コンボリューションレイヤをもって、前記コンボリューション演算を前記第k統合トレーニングイメージに適用することで、第k特徴マップを出力させ、前記RPNをもって、前記第k特徴マップを利用して、前記第k統合トレーニングイメージ内に含まれた前記第k_1加工イメージないし前記第k_n加工イメージそれぞれに位置する前記物体に対応する第k_1物体プロポーザルないし第k_n物体プロポーザルを出力させ、前記プーリングレイヤをもって、前記第k特徴マップ上で、前記第k_1物体プロポーザルないし前記第k_n物体プロポーザルに対応する一つ以上の領域に一つ以上の前記プーリング演算を適用して、少なくとも一つの第kプーリング済み特徴マップを出力するようにし、前記FCレイヤをもって、前記第kプーリング済み特徴マップに前記FC演算を適用して、前記物体に対応する第k_1物体検出情報ないし第k_n物体検出情報を出力するようにし、(iv)前記ターゲット物体統合ネットワークをもって、前記第k_1物体プロポーザルないし前記第k_n物体プロポーザルを統合して第k統合物体プロポーザルを生成するようにし、前記第k_1物体検出情報ないし前記第k_n物体検出情報を統合して第k統合物体検出情報を生成するようにし、前記FCロスレイヤをもって、前記第k統合物体検出情報及びこれに対応するGTを参照して一つ以上の第kFCロスを生成するようにすることで、前記第kFCロスを利用したバックプロパゲーション(Backpropagation)によって、前記FCレイヤと、前記コンボリューションレイヤのパラメータとの中の少なくとも一部を学習する段階;を含むことを特徴とする方法及び学習装置、そしてこれを利用したテスティング方法及びテスティング装置に関する。
機械学習(machine learning)において、コンボリューションニューラルネットワーク(CNNまたはConvNet)は、視覚的イメージ分析に成功的に適用された深層フィードフォワード人工ニューラルネットワーク(Deep feedforward artificial neural network)である。
CNN基盤の物体検出器は、(i)一つ以上のコンボリューションレイヤをもって、入力イメージにコンボリューション演算を適用することにより、前記入力イメージに対応した特徴マップを出力し、(ii)RPN(Region Proposal Network)をもって、前記特徴マップを利用して、前記入力イメージ内の物体に対応するプロポーザルを確認し、(iii)プーリングレイヤをもって、前記確認されたプロポーザルに対応する前記特徴マップ上の領域に少なくとも一つのプーリング演算を適用して、プーリング済み特徴マップを取得し、(iv)FC(Fully Connected)レイヤをもって、少なくとも一つのFC演算を、前記取得されたプーリング済み特徴マップないし前記物体に関する出力クラス情報と、リグレッション情報とに適用することにより、前記入力イメージ上の前記物体を検出する。
だが、前記CNN基盤の物体検出器は、前記コンボリューションレイヤにより前記入力イメージのサイズを縮小したサイズの前記特徴マップを用いることになるので、前記入力イメージに位置するサイズの大きい物体は容易に検出されるが、前記入力イメージに位置するサイズの小さい物体を検出することは難しい。
すなわち、前記入力イメージ上で検出される対象としての一つ以上の物体に対応する多数のターゲット領域がある場合、一部ターゲット領域からはサイズのために所望の特徴が正確に抽出され得なくなり、それに伴って特定の物体は検出することができなくなる。
これらの問題を解決するために、前記入力イメージから得たイメージピラミッドのうちそれぞれのイメージ内に前記ターゲット領域それぞれをクロップして物体検出を遂行することができるものの、この場合には前記ターゲット領域に対応してクロップしたそれぞれのイメージに対して前記物体検出を遂行しなければならないため、演算量が増加し得る。
また、CNN演算は、迅速な演算のために一定の単位、一例として、32、64、128などの倍数でブロック演算を行うにおいて、前記単位の倍数にならない幅や高さを有する入力イメージが取得されると、前記単位の倍数にするために一つ以上のパディング領域を追加しなければならないが、これは前記CNN演算に負担となる。したがって、前記単位の倍数ではない幅や高さを有するクロップしたイメージが多くなると、前記CNN演算にさらに大きな負担として作用して前記CNNの演算速度は減少するようになる。
したがって、本発明の発明者は、前記入力イメージ上に位置する様々なサイズの物体に対応する前記ターゲット領域を利用して、前記CNNの演算時間を減らし、効果的に物体を検出することができる学習方法、学習装置及びそれを利用したテスト方法とテスティング装置を提案することにする。
本発明は、前述した問題点を全て解決することを目的とする。
本発明は、イメージ上に位置する物体をサイズに関係なく効果的に検出することができるようにするCNN基盤の物体検出器を提供することを他の目的とする。
本発明は、演算量を増加させずに前記イメージ上の前記物体を検出することができるようにする、前記CNN基盤の前記物体検出器を提供することをまた他の目的とする。
本発明は、前記入力イメージ上の様々なサイズの前記物体に対応するターゲット領域を利用して、前記CNNの演算時間を減らし、効果的に前記物体を検出することができるようにする前記CNN基盤の前記物体検出器を提供することを他の目的とする。
前記のような本発明の目的を達成し、後述する本発明の特徴的な効果を実現するための、本発明の特徴的な構成は下記の通りである。
本発明の一態様によれば、ターゲット物体統合予測ネットワークと、ターゲット領域予測物体ネットワークとを利用したCNN基盤の物体検出器のパラメータを学習する方法において、(a)少なくとも一つのトレーニングビデオが取得されると、学習装置が、(i)イメージ加工ネットワークをもって、前記トレーニングビデオの現在フレームである第1フレームに対応する第1イメージピラミッドに含まれた第1_1イメージないし第1_nイメージそれぞれから、少なくとも一つのターゲット物体が位置すると推定される第1予測ターゲット領域にそれぞれ対応する、第1_1加工イメージないし前記第1_n加工イメージを生成するようにし、前記第1_1加工イメージないし第1_n加工イメージをコンカチネート(concatenate)した第1統合トレーニングイメージを生成するようにし、(ii)一つ以上のコンボリューションレイヤをもって、一つ以上のコンボリューション演算を前記第1統合トレーニングイメージに適用することで、少なくとも一つの第1特徴マップを出力させ、RPN(Region Proposal Network)をもって、前記第1特徴マップを利用して、前記第1統合トレーニングイメージに含まれた前記第1_1加工イメージないし前記第1_n加工イメージそれぞれに位置する一つ以上の物体に対応する第1_1物体プロポーザルないし第1_n物体プロポーザルを出力させ、プーリングレイヤをもって、前記第1特徴マップ上で、前記第1_1物体プロポーザルないし前記第1_n物体プロポーザルに対応する一つ以上の領域に一つ以上のプーリング演算を適用して、少なくとも一つの第1プーリング済み特徴マップを出力させ、FC(fully connected)レイヤをもって、前記第1プーリング済み特徴マップに一つ以上のFC演算を適用して、前記物体に対応する第1_1物体検出情報ないし第1_n物体検出情報を出力させ、(iii)前記ターゲット物体統合ネットワークをもって、前記第1_1物体プロポーザルないし前記第1_n物体プロポーザルを統合して第1統合物体プロポーザルを生成するようにし、前記第1_1物体検出情報ないし前記第1_n物体検出情報を統合して第1統合物体検出情報を生成するようにし、少なくとも一つのFCロスレイヤをもって、前記第1統合物体検出情報及びこれに対応するGTを参照して一つ以上の第1FCロスを生成するようにすることで、前記第1FCロスを利用したバックプロパゲーション(Backpropagation)によって、前記FCレイヤと、前記コンボリューションレイヤのパラメータとの中の少なくとも一部を学習する段階;及び (b)kを2からnまで増加させながら、前記学習装置が、(i)前記ターゲット物体予測ネットワークをもって、第k−1統合トレーニングイメージ上の第(k−1)_1物体プロポーザルないし第(k−1)_n物体プロポーザルを参照して、前記第k−1フレーム上で、前記ターゲット物体が位置すると予測される第k−1ターゲット領域を探すようにし、前記ターゲット領域予測ネットワークをもって、第kフレーム上で、前記k−1ターゲット領域が位置すると予測される一つ以上の領域に対応する第k予測ターゲット領域を探すようにし、(ii)前記イメージ加工ネットワークをもって、前記第kフレームに対応する第kイメージピラミッド内に含まれた第k_1イメージないし第k_nイメージそれぞれから、前記k予測ターゲット領域にそれぞれ対応する、第k_1加工イメージないし第k_n加工イメージを生成するようにし、前記第k_1加工イメージないし第k_n加工イメージをコンカチネートした第k統合トレーニングイメージを出力するようにし、(iii)前記コンボリューションレイヤをもって、前記コンボリューション演算を前記第k統合トレーニングイメージに適用することで、第k特徴マップを出力させ、前記RPNをもって、前記第k特徴マップを利用して、前記第k統合トレーニングイメージ内に含まれた前記第k_1加工イメージないし前記第k_n加工イメージそれぞれに位置する前記物体に対応する第k_1物体プロポーザルないし第k_n物体プロポーザルを出力させ、前記プーリングレイヤをもって、前記第k特徴マップ上で、前記第k_1物体プロポーザルないし前記第k_n物体プロポーザルに対応する一つ以上の領域に前記プーリング演算を適用して、少なくとも一つの第kプーリング済み特徴マップを出力させ、前記FCレイヤをもって、前記第kプーリング済み特徴マップに前記FC演算を適用して、前記物体に対応する第k_1物体検出情報ないし第k_n物体検出情報を出力させ、(iv)前記ターゲット物体統合ネットワークをもって、前記第k_1物体プロポーザルないし前記第k_n物体プロポーザルを統合して第k統合物体プロポーザルを生成するようにし、前記第k_1物体検出情報ないし前記第k_n物体検出情報を統合して第k統合物体検出情報を生成するようにし、前記FCロスレイヤをもって、前記第k統合物体検出情報及びこれに対応するGTを参照して一つ以上の第kFCロスを生成するようにすることで、前記第kFCロスを利用したバックプロパゲーション(Backpropagation)によって、前記FCレイヤと、前記コンボリューションレイヤのパラメータとの中の少なくとも一部を学習する段階;を含むことを特徴とする方法が提供される。
一例として、前記(a)段階で、前記学習装置は、RPNロスレイヤをもって、前記第1統合物体プロポーザルの情報及びこれに対応するGTを参照して一つ以上の第1RPNロスを取得するようにすることで、前記第1RPNロスを利用したバックプロパゲーションによって前記RPNのパラメータの中の少なくとも一部を調整するようにし、前記(b)段階で、前記学習装置は、前記RPNロスレイヤをもって、前記第k統合物体プロポーザル情報及びこれに対応するGTを参照して一つ以上の第kRPNロスを取得するようにすることで、前記第kRPNロスを利用したバックプロパゲーションによって前記RPNの前記パラメータの中の少なくとも一部を調整する。
一例として、前記(a)段階で、前記学習装置が、前記イメージ加工ネットワークをもって、第1_1加工イメージないし前記第1_n加工イメージの幅と高さのうち少なくとも一つを同一に調整した後、同一の大きさに調整された前記幅または前記高さ方向に前記第1_1調整済み加工イメージないし前記第1_n調整済み加工イメージをコンカチネートするようにし、前記(b)段階で、前記学習装置が、前記イメージ加工ネットワークをもって、前記第k_1加工イメージないし前記第k_n加工イメージの幅と高さのうち少なくとも一つを同一に調整した後、同一の大きさに調整された前記幅または前記高さ方向に前記第k_1調整済み加工イメージないし前記第k_n調整済み加工イメージをコンカチネートするようにする。
一例として、前記学習装置が、前記イメージ加工ネットワークをもって、前記第k_1調整済み加工イメージないし前記第k_n調整済み加工イメージのうち、コンカチネートされた隣接するそれぞれの二つの調整済み加工イメージから構成されるそれぞれのペアの間にそれぞれ少なくとも一つのゼロパディング(zero padding)領域を追加するようにし、前記コンボリューションレイヤの多重コンボリューション演算によって前記統合トレーニングイメージが1/Sに縮小され、前記コンボリューションレイヤそれぞれのカーネルそれぞれの最大サイズをK×Kとする場合、前記ゼロパディング領域の幅が
Figure 0006908944
になるようにする。
一例として、第1特定加工イメージ及び第2特定加工イメージ上にそれぞれ少なくとも一つの特定同一物体が位置し、前記第1特定加工イメージ上で、前記特定同一物体に対応する少なくとも一つの物体プロポーザルを第1特定物体プロポーザルとし、前記第2特定加工イメージ上で、前記特定同一物体に対応する少なくとも一つの物体プロポーザルを第2特定物体プロポーザルとした場合、前記学習装置は、前記ターゲット物体統合ネットワークをもって、前記第1特定物体プロポーザルと、前記第2特定物体プロポーザルとの間のIOU(Intersection Over Union)が第1閾値以上になるかを判断するようにし、(I)前記IOUが、前記第1閾値未満と判断されれば、前記第2特定加工イメージ上で前記第1特定物体プロポーザルに対応する領域と、前記第1特定加工イメージ上で前記第2特定物体プロポーザルに対応する領域との間の調整IOUを算出し、(II)前記調整IOUが第2閾値以上と判断されれば、前記第1特定物体プロポーザルと、前記第2特定物体プロポーザルとの中から、(i)確率値の高い特定物体プロポーザルを選択するようにするか(ii)前記トレーニングイメージ上で演算される面積の大きい特定物体プロポーザルを選択するようにすることにより、前記選択された特定物体プロポーザルを前記特定同一物体に対応する特定統合物体プロポーザルとして生成する。
一例として、第1特定加工イメージ及び第2特定加工イメージ上に少なくとも一つの特定同一物体が位置し、前記第1特定加工イメージ上で、前記特定同一物体に対応する少なくとも一つの物体バウンディングボックスを第1特定物体バウンディングボックスとし、前記第2特定加工イメージ上で、前記特定同一物体に対応する少なくとも一つの物体バウンディングボックスを第2特定物体バウンディングボックスとした場合、前記学習装置は、前記ターゲット物体統合ネットワークをもって、前記第1特定物体バウンディングボックスと、前記第2特定物体バウンディングボックスとの間のIOUが、第1閾値以上になるか否かを判断するようにし、(I)前記IOUが、前記第1閾値未満と判断されれば、前記第2特定加工イメージ上で前記第1特定物体バウンディングボックスに対応する領域と、前記第1特定加工イメージ上で前記第2特定物体バウンディングボックスに対応する領域との間の調整IOUを算出し、(II)前記調整IOUが第2閾値以上と判断されたら、前記第1特定物体バウンディングボックスと、前記第2特定物体バウンディングボックスの中から、(i)確率値の高い特定物体バウンディングボックスを選択するようにするか(ii)前記トレーニングイメージ上で演算される面積の大きい特定物体バウンディングボックスを選択するようにすることにより、前記選択された特定物体バウンディングボックスを前記特定同一物体に対応する特定統合物体検出情報として生成する。
一例として、前記(b)段階で、前記学習装置は、前記ターゲット物体予測ネットワークをもって、(i)特定加工イメージをMxNグリッドに区分するようにし、(ii)前記第k−1物体プロポーザルないし前記k_n物体プロポーザルのうち、前記グリッドの各セルごとにそれぞれ対応する特定物体プロポーザルの個数を示す少なくとも一つ以上のヒストグラムマップを生成するようにし、前記グリッドの各セル内にそれに対応する前記特定プロポーザルそれぞれの全体領域または分割領域が存在し、(iii)ムービングウィンドウの中の少なくとも一つの領域を利用して、少なくとも一つの特定ターゲット領域を決定するようにし、前記少なくとも一つの領域は、前記ムービングウィンドウの位置を変更して占有されるすべての領域のうち、前記ヒストグラムマップの合計が最も大きい値を有する領域である。
本発明の他の態様によれば、ターゲット物体統合予測ネットワークと、ターゲット領域予測物体ネットワークとを利用したCNN基盤の物体検出器のテスティングする方法において、(a)学習装置が、(1)(i)イメージ加工ネットワークをもって、少なくとも一つのトレーニングビデオの現在フレームである第1学習用フレームに対応する第1学習用イメージピラミッドに含まれた第1_1トレーニングイメージないし第1_nトレーニングイメージそれぞれから、少なくとも一つの学習用ターゲット物体が位置すると推定される第1学習用予測ターゲット領域にそれぞれ対応する、第1_1学習用加工イメージないし前記第1_n学習用加工イメージを生成するようにし、前記第1_1学習用加工イメージないし第1_n学習用加工イメージをコンカチネートした第1統合トレーニングイメージを生成するようにし、(ii)一つ以上のコンボリューションレイヤをもって、一つ以上のコンボリューション演算を前記第1統合トレーニングイメージに適用することで、少なくとも一つの第1学習用特徴マップを出力させ、RPN(Region Proposal Network)をもって、前記第1学習用特徴マップを利用して、前記第1統合トレーニングイメージに含まれた前記第1_1学習用加工イメージないし前記第1_n学習用加工イメージそれぞれに位置する一つ以上の学習用物体に対応する第1_1学習用物体プロポーザルないし第1_n学習用物体プロポーザルを出力させ、プーリングレイヤをもって、前記第1学習用特徴マップ上で、前記第1_1学習用物体プロポーザルないし前記第1_n学習用物体プロポーザルに対応する一つ以上の領域に一つ以上のプーリング演算を適用して、少なくとも一つの第1学習用プーリング済み特徴マップを出力させ、FC(fully connected)レイヤをもって、前記第1学習用プーリング済み特徴マップに少なくとも一つのFC演算を適用して、前記学習用物体に対応する第1_1学習用物体検出情報ないし第1_n学習用物体検出情報を出力するようにし、(iii)前記ターゲット物体統合ネットワークをもって、前記第1_1学習用物体プロポーザルないし前記第1_n学習用物体プロポーザルを統合して第1学習用統合物体プロポーザルを生成するようにし、前記第1_1学習用物体検出情報ないし前記第1_n学習用物体検出情報を統合して第1学習用統合物体検出情報を生成するようにし、少なくとも一つのFCロスレイヤをもって、前記第1学習用統合物体検出情報及びこれに対応するGTを参照して一つ以上の第1FCロスを生成するようにすることで、前記第1FCロスを利用したバックプロパゲーション(Backpropagation)によって、前記FCレイヤと、前記コンボリューションレイヤのパラメータとの中の少なくとも一部を学習するプロセス、及び(2)kを2からnまで増加させながら、(i)前記ターゲット物体予測ネットワークをもって、第k−1統合トレーニングイメージ上の第(k−1)_1学習用物体プロポーザルないし第(k−1)_n学習用物体プロポーザルを参照して、前記第k−1学習用フレーム上で、前記学習用ターゲット物体が位置すると予測される第k−1学習用ターゲット領域を探すようにし、前記ターゲット領域予測ネットワークをもって、第k学習用フレーム上で、前記k−1学習用ターゲット領域が位置すると予測される一つ以上の領域に対応する第k学習用予測ターゲット領域を探すようにし、(ii)前記イメージ加工ネットワークをもって、前記第k学習用フレームに対応する第k学習用イメージピラミッド内に含まれた第k_1トレーニングイメージないし第k_nトレーニングイメージそれぞれから、前記k学習用予測ターゲット領域にそれぞれ対応する、第k_1学習用加工イメージないし第k_n学習用加工イメージを生成するようにし、前記第k_1学習用加工イメージないし第k_n学習用加工イメージをコンカチネートした第k統合トレーニングイメージを出力するようにし、(iii)前記コンボリューションレイヤをもって、前記コンボリューション演算を前記第k統合トレーニングイメージに適用することで、第k学習用特徴マップを出力させ、前記RPNをもって、前記第k学習用特徴マップを利用して、前記第k統合トレーニングイメージ内に含まれた前記第k_1学習用加工イメージないし前記第k_n学習用加工イメージそれぞれに位置する前記学習用物体に対応する第k_1学習用物体プロポーザルないし第k_n学習用物体プロポーザルを出力させ、前記プーリングレイヤをもって、前記第k学習用特徴マップ上で、前記第k_1学習用物体プロポーザルないし前記第k_n学習用物体プロポーザルに対応する一つ以上の領域に前記プーリング演算を適用して、少なくとも一つの第k学習用プーリング済み特徴マップを出力させ、前記FCレイヤをもって、前記第k学習用プーリング済み特徴マップに前記FC演算を適用して、前記学習用物体に対応する第k_1学習用物体検出情報ないし第k_n学習用物体検出情報を出力させ、(iv)前記ターゲット物体統合ネットワークをもって、前記第k_1学習用物体プロポーザルないし前記第k_n学習用物体プロポーザルを統合して第k学習用統合物体プロポーザルを生成するようにし、前記第k_1学習用物体検出情報ないし前記第k_n学習用物体検出情報を統合して第k学習用統合物体検出情報を生成するようにし、前記FCロスレイヤをもって、前記第k学習用統合物体検出情報及びこれに対応するGTを参照して一つ以上の第kFCロスを生成するようにすることで、前記第kFCロスを利用したバックプロパゲーション(Backpropagation)によって、前記FCレイヤと、前記コンボリューションレイヤのパラメータとの中の少なくとも一部を学習するプロセスを遂行した状態で;少なくとも一つのテストビデオが取得されると、テスティング装置が、(i)前記イメージ加工ネットワークをもって、前記テストビデオの現在フレームである第1テスト用フレームに対応する第1テスト用イメージピラミッドに含まれた第1_1テストイメージないし第1_nテストイメージそれぞれから、少なくとも一つのテスト用ターゲット物体が位置すると推定される第1テスト用予測ターゲット領域にそれぞれ対応する、第1_1テスト用加工イメージないし前記第1_nテスト用加工イメージを生成するようにし、前記第1_1テスト用加工イメージないし第1_nテスト用加工イメージをコンカチネートした第1統合テストイメージを生成するようにし、(ii)前記コンボリューションレイヤをもって、前記コンボリューション演算を前記第1統合テストイメージに適用することで、少なくとも一つの第1テスト用特徴マップを出力させ、前記RPNをもって、前記第1テスト用特徴マップを利用して、前記第1統合テストイメージ内に含まれた前記第1_1テスト用加工イメージないし前記第1_nテスト用加工イメージそれぞれに位置する一つ以上のテスト用物体に対応する第1_1テスト用物体プロポーザルないし第1_nテスト用物体プロポーザルを出力させ、前記プーリングレイヤをもって、前記第1テスト用特徴マップ上で、前記第1_1テスト用物体プロポーザルないし前記第1_nテスト用物体プロポーザルに対応する一つ以上の領域に前記プーリング演算を適用して、少なくとも一つの第1テスト用プーリング済み特徴マップを出力させ、前記FCレイヤをもって、前記第1テスト用プーリング済み特徴マップに前記FC演算を適用して、前記テスト用物体に対応する第1_1テスト用物体検出情報ないし第1_nテスト用物体検出情報を出力させ、(iii)前記ターゲット物体統合ネットワークをもって、前記第1_1テスト用物体プロポーザルないし前記第1_nテスト用物体プロポーザルを統合して第1テスト用統合物体プロポーザルを生成するようにし、前記第1_1テスト用物体検出情報ないし前記第1_nテスト用物体検出情報を統合して第1テスト用統合物体検出情報を生成するようにする段階;及び(b)前記テスティング装置が、kを2からnまで増加させながら、(i)前記ターゲット物体予測ネットワークをもって、第k−1統合テストイメージ上の第(k−1)_1テスト用物体プロポーザルないし第(k−1)_nテスト用物体プロポーザルを参照して、前記第k−1テスト用フレーム上で、前記テスト用ターゲット物体が位置すると予測される第k−1テスト用ターゲット領域を探すようにし、前記ターゲット領域予測ネットワークをもって、第kテスト用フレーム上で、前記k−1テスト用ターゲット領域が位置すると予測される一つ以上の領域に対応する第kテスト用予測ターゲット領域を探すようにし、(ii)前記イメージ加工ネットワークをもって、前記第kテスト用フレームに対応する第kテスト用イメージピラミッド内に含まれた第k_1テストイメージないし第k_nテストイメージそれぞれから、前記kテスト用予測ターゲット領域にそれぞれ対応する、第k_1テスト用加工イメージないし第k_nテスト用加工イメージを生成するようにし、前記第k_1テスト用加工イメージないし第k_nテスト用加工イメージをコンカチネートした第k統合テスト用イメージを出力するようにし、(iii)前記コンボリューションレイヤをもって、前記コンボリューション演算を前記第k統合テストイメージに適用することで第kテスト用特徴マップを出力させ、前記RPNをもって、前記第kテスト用特徴マップを利用して、前記第k統合テストイメージ内に含まれた前記第k_1テスト用加工イメージないし前記第k_nテスト用加工イメージそれぞれに位置する前記テスト用物体に対応する第k_1テスト用物体プロポーザルないし第k_nテスト用物体プロポーザルを出力させ、前記プーリングレイヤをもって、前記第kテスト用特徴マップ上で、前記第k_1テスト用物体プロポーザルないし前記第k_nテスト用物体プロポーザルに対応する一つ以上の領域に前記プーリング演算を適用して、少なくとも一つの第kテスト用プーリング済み特徴マップを出力させ、前記FCレイヤをもって、前記第kテスト用プーリング済み特徴マップに前記FC演算を適用して、前記テスト用物体に対応する第k_1テスト用物体検出情報ないし第k_nテスト用物体検出情報を出力させ、(iv)前記ターゲット物体統合ネットワークをもって、前記第k_1テスト用物体プロポーザルないし前記第k_nテスト用物体プロポーザルを統合して第kテスト用統合物体プロポーザルを生成するようにし、前記第k_1テスト用物体検出情報ないし前記第k_nテスト用物体検出情報を統合して第kテスト用統合物体検出情報を生成するようにする段階;を含むことを特徴とする方法が提供される。
一例として、前記(1)プロセスで、前記学習装置は、少なくとも一つのRPNロスレイヤをもって、前記第1学習用統合物体プロポーザルの情報及びこれに対応するGTを参照して一つ以上の第1RPNロスを取得するようにすることで、前記第1RPNロスを利用したバックプロパゲーションによって前記RPNのパラメータの中の少なくとも一部を調整するようにし、前記(2)プロセスで、前記学習装置は、前記RPNロスレイヤをもって、前記第k学習用統合物体プロポーザル情報及びこれに対応するGTを参照して一つ以上の第kRPNロスを取得するようにすることで、前記第kRPNロスを利用したバックプロパゲーションによって前記RPNの前記パラメータの中の少なくとも一部を調整する。
一例として、前記(a)段階で、前記テスティング装置が、前記イメージ加工ネットワークをもって、前記第1_1テスト用加工イメージないし前記第1_nテスト用加工イメージの幅と高さのうち少なくとも一つを同一に調整した後、同一に調整された前記幅または前記高さ方向に前記第1_1テスト用調整済み加工イメージないし前記第1_nテスト用調整済み加工イメージをコンカチネートするようにし、前記(b)段階で、前記テスティング装置が、前記イメージ加工ネットワークをもって、前記第k_1テスト用加工イメージないし前記第k_nテスト用加工イメージの幅と高さのうち少なくとも一つを同一に調整した後、同一に調整された前記幅または前記高さ方向に前記第k_1テスト用調整済み加工イメージないし前記第k_nテスト用調整済み加工イメージをコンカチネートする。
一例として、前記テスティング装置が、前記イメージ加工ネットワークをもって、前記第k_1テスト用調整済み加工イメージないし前記第k_nテスト用調整済み加工イメージのうち、コンカチネートされた隣接するそれぞれの二つのテスト用調整済み加工イメージから構成されるそれぞれのペアの間にそれぞれ少なくとも一つのゼロパディング(zero padding)領域を追加するようにし、前記コンボリューションレイヤの多重コンボリューション演算によって前記統合テストイメージが1/Sに縮小され、前記コンボリューションレイヤそれぞれのカーネルそれぞれの最大サイズをK×Kとする場合、前記ゼロパディング領域の幅が
Figure 0006908944
になるようにする。
一例として、第1テスト用特定加工イメージ及び第2テスト用特定加工イメージ上にそれぞれ少なくとも一つのテスト用特定同一物体が位置し、前記第1テスト用特定加工イメージ上で、前記テスト用特定同一物体に対応する少なくとも一つのテスト用物体プロポーザルを第1テスト用特定物体プロポーザルとし、前記第2テスト用特定加工イメージ上で、前記テスト用特定同一物体に対応する少なくとも一つのテスト用物体プロポーザルを第2テスト用特定物体プロポーザルとした場合、前記テスティング装置は、前記ターゲット物体統合ネットワークをもって、前記第1テスト用特定物体プロポーザルと、前記第2テスト用特定物体プロポーザルとの間のテスト用IOU(Intersection Over Union)が、第1閾値以上になるかを判断するようにし、(I)前記テスト用IOUが、前記第1閾値未満と判断されれば、前記第2テスト用特定加工イメージ上で前記第1テスト用特定物体プロポーザルに対応する領域と、前記第1テスト用特定加工イメージ上で前記第2テスト用特定物体プロポーザルに対応する領域との間のテスト用調整IOUを算出し、(II)前記テスト用調整IOUが第2閾値以上と判断されれば、前記第1テスト用特定物体プロポーザルと、前記第2テスト用特定物体プロポーザルとの中から、(i)確率値の高いテスト用特定物体プロポーザルを選択するようにするか(ii)前記テストイメージ上で演算される面積の大きいテスト用特定物体プロポーザルを選択させることにより、前記選択されたテスト用特定物体プロポーザルを前記テスト用特定同一物体に対応するテスト用特定統合物体プロポーザルとして生成する。
一例として、第1テスト用特定加工イメージ及び第2テスト用特定加工イメージ上にそれぞれ少なくとも一つのテスト用特定同一物体が位置し、前記第1テスト用特定加工イメージ上で、前記テスト用特定同一物体に対応する少なくとも一つのテスト用物体バウンディングボックスを第1テスト用特定物体バウンディングボックスとし、前記第2テスト用特定加工イメージ上で、前記テスト用特定同一物体に対応する少なくとも一つのテスト用物体バウンディングボックスを第2テスト用特定物体バウンディングボックスとした場合、前記テスティング装置は、前記ターゲット物体統合ネットワークをもって、前記第1テスト用特定物体バウンディングボックスと、前記第2テスト用特定物体バウンディングボックスとの間のテスト用IOUが第1閾値以上になるかを判断するようにし、(I)前記テスト用IOUが、前記第1閾値未満と判断されれば、前記第2テスト用特定加工イメージ上で前記第1テスト用特定物体バウンディングボックスに対応する領域と、前記第1テスト用特定加工イメージ上で前記第2テスト用特定物体バウンディングボックスに対応する領域との間のテスト用調整IOUを算出し、(II)前記テスト用調整IOUが第2閾値以上と判断されれば、前記第1テスト用特定物体バウンディングボックスと、前記第2テスト用特定物体バウンディングボックスとの中から、(i)確率値の高いテスト用特定物体バウンディングボックスを選択するようにするか、(ii)前記テストイメージ上で演算される面積の大きいテスト用特定物体バウンディングボックスを選択するようにすることにより、前記選択されたテスト用特定物体バウンディングボックスを前記テスト用特定同一物体に対応するテスト用特定統合物体検出情報として生成する。
一例として、前記(b)段階で、前記テスティング装置は、前記ターゲット物体予測ネットワークをもって、(i)テスト用特定加工イメージをMxNグリッドに区分するようにし、(ii)前記第k−1テスト用物体プロポーザルないし前記k_nテスト用物体プロポーザルのうち、前記グリッドの各セルごとにそれぞれ対応するテスト用特定物体プロポーザルの個数を示す少なくとも一つ以上のテスト用ヒストグラムマップを生成するようにし、前記グリッドの各セル内に、それに対応する前記テスト用特定プロポーザルそれぞれの全体領域または分割領域が存在し、(iii)テスト用ムービングウィンドウの中の少なくとも一つの領域を利用して、少なくとも一つのテスト用特定ターゲット領域を決定するようにし、前記少なくとも一つの領域は、前記テスト用ムービングウィンドウの位置を変更して占有されるすべての領域のうち、前記テスト用ヒストグラムマップの合計が最も大きい値を有する領域である。
本発明のまた他の態様によれば、ターゲット物体統合予測ネットワークと、ターゲット領域予測物体ネットワークとを利用したCNN基盤の物体検出器のパラメータを学習するための学習装置において、インストラクションを格納する少なくとも一つのメモリ;及び(I)(i)イメージ加工ネットワークをもって、少なくとも一つのトレーニングビデオの現在フレームである第1フレームに対応する第1イメージピラミッドに含まれた第1_1イメージないし第1_nイメージそれぞれから、少なくとも一つのターゲット物体が位置すると推定される第1予測ターゲット領域にそれぞれ対応する、第1_1加工イメージないし前記第1_n加工イメージを生成するようにし、前記第1_1加工イメージないし第1_n加工イメージをコンカチネート(concatenate)した第1統合トレーニングイメージを生成するようにし、(ii)一つ以上のコンボリューションレイヤをもって、一つ以上のコンボリューション演算を前記第1統合トレーニングイメージに適用することで、少なくとも一つの第1特徴マップを出力させ、RPN(Region Proposal Network)をもって、前記第1特徴マップを利用して、前記第1統合トレーニングイメージに含まれた前記第1_1加工イメージないし前記第1_n加工イメージそれぞれに位置する一つ以上の物体に対応する第1_1物体プロポーザルないし第1_n物体プロポーザルを出力させ、プーリングレイヤをもって、前記第1特徴マップ上で、前記第1_1物体プロポーザルないし前記第1_n物体プロポーザルに対応する一つ以上の領域に一つ以上のプーリング演算を適用して、少なくとも一つの第1プーリング済み特徴マップを出力させ、FC(fully connected)レイヤをもって、前記第1プーリング済み特徴マップに一つ以上のFC演算を適用して、前記物体に対応する第1_1物体検出情報ないし第1_n物体検出情報を出力させ、(iii)前記ターゲット物体統合ネットワークをもって、前記第1_1物体プロポーザルないし前記第1_n物体プロポーザルを統合して第1統合物体プロポーザルを生成するようにし、前記第1_1物体検出情報ないし前記第1_n物体検出情報を統合して第1統合物体検出情報を生成するようにし、少なくとも一つのFCロスレイヤをもって、前記第1統合物体検出情報及びこれに対応するGTを参照して一つ以上の第1FCロスを生成するようにすることで、前記第1FCロスを利用したバックプロパゲーション(Backpropagation)によって、前記FCレイヤと、前記コンボリューションレイヤのパラメータとの中の少なくとも一部を学習するプロセス、及び(II)kを2からnまで増加させながら、(i)前記ターゲット物体予測ネットワークをもって、第k−1統合トレーニングイメージ上の第(k−1)_1物体プロポーザルないし第(k−1)_n物体プロポーザルを参照して、前記第k−1フレーム上で、前記ターゲット物体が位置すると予測される第k−1ターゲット領域を探すようにし、前記ターゲット領域予測ネットワークをもって、第kフレーム上で、前記k−1ターゲット領域が位置すると予測される一つ以上の領域に対応する第k予測ターゲット領域を探すようにし、(ii)前記イメージ加工ネットワークをもって、前記第kフレームに対応する第kイメージピラミッド内に含まれた第k_1イメージないし第k_nイメージそれぞれから、前記k予測ターゲット領域にそれぞれ対応する、第k_1加工イメージないし第k_n加工イメージを生成するようにし、前記第k_1加工イメージないし第k_n加工イメージをコンカチネートした第k統合トレーニングイメージを出力するようにし、(iii)前記コンボリューションレイヤをもって、前記コンボリューション演算を前記第k統合トレーニングイメージに適用することで、第k特徴マップを出力させ、前記RPNをもって、前記第k特徴マップを利用して、前記第k統合トレーニングイメージ内に含まれた前記第k_1加工イメージないし前記第k_n加工イメージそれぞれに位置する前記物体に対応する第k_1物体プロポーザルないし第k_n物体プロポーザルを出力させ、前記プーリングレイヤをもって、前記第k特徴マップ上で、前記第k_1物体プロポーザルないし前記第k_n物体プロポーザルに対応する一つ以上の領域に前記プーリング演算を適用して、少なくとも一つの第kプーリング済み特徴マップを出力させ、前記FCレイヤをもって、前記第kプーリング済み特徴マップに前記FC演算を適用して、前記物体に対応する第k_1物体検出情報ないし第k_n物体検出情報を出力させ、(iv)前記ターゲット物体統合ネットワークをもって、前記第k_1物体プロポーザルないし前記第k_n物体プロポーザルを統合して第k統合物体プロポーザルを生成するようにし、前記第k_1物体検出情報ないし前記第k_n物体検出情報を統合して第k統合物体検出情報を生成するようにし、前記FCロスレイヤをもって、前記第k統合物体検出情報及びこれに対応するGTを参照して一つ以上の第kFCロスを生成するようにすることで、前記第kFCロスを利用したバックプロパゲーション(Backpropagation)によって、前記FCレイヤと、前記コンボリューションレイヤのパラメータとの中の少なくとも一部を学習するプロセスを遂行するための、前記インストラクションを実行するように構成された少なくとも一つのプロセッサ;を含むことを特徴とする学習装置が提供される。
一例として、前記(I)プロセスで、前記プロセッサは、少なくとも一つのRPNロスレイヤをもって、前記第1統合物体プロポーザル情報及びこれに対応するGTを参照して一つ以上の第1RPNロスを取得するようにすることで、前記第1RPNロスを利用したバックプロパゲーションによって前記RPNのパラメータの中の少なくとも一部を調整するようにし、前記(II)プロセスで、前記プロセッサは、前記RPNロスレイヤをもって、前記第k統合物体プロポーザル情報と、これに対応するGTとを参照して一つ以上の第kRPNロスを取得するようにすることで、前記第kRPNロスを利用したバックプロパゲーションによって前記RPNの前記パラメータの中の少なくとも一部を調整する。
一例として、前記(I)プロセスで、前記プロセッサが、前記イメージ加工ネットワークをもって、前記第1_1加工イメージないし前記第1_n加工イメージの幅と高さのうち少なくとも一つを同一に調整した後、同一に調整された前記幅または前記高さ方向に前記第1_1調整済み加工イメージないし前記第1_n調整済み加工イメージをコンカチネートするようにし、前記(II)プロセスで、前記プロセッサが、前記イメージ加工ネットワークをもって、前記第k_1加工イメージないし前記第k_n加工イメージの幅と高さのうち少なくとも一つを同一に調整した後、同一に調整された前記幅または前記高さ方向に前記第k_1調整済み加工イメージないし前記第k_n調整済み加工イメージをコンカチネートするようにするする。
一例として、前記プロセッサが、前記イメージ加工ネットワークをもって、前記第k_1調整済み加工イメージないし前記第k_n調整済み加工イメージのうち、コンカチネートされた隣接するそれぞれの二つの調整済み加工イメージから構成されるそれぞれのペアの間にそれぞれ少なくとも一つのゼロパディング(zero padding)領域を追加するようにし、前記コンボリューションレイヤの多重コンボリューション演算によって前記統合トレーニングイメージが1/Sに縮小され、前記コンボリューションレイヤそれぞれのカーネルそれぞれの最大サイズをK×Kとする場合、前記ゼロパディング領域の幅が
Figure 0006908944
になるようにする。
一例として、第1特定加工イメージ及び第2特定加工イメージ上にそれぞれ少なくとも一つの特定同一物体が位置し、前記第1特定加工イメージ上で、前記特定同一物体に対応する少なくとも一つの物体プロポーザルを第1特定物体プロポーザルとし、前記第2特定加工イメージ上で、前記特定同一物体に対応する少なくとも一つの物体プロポーザルを第2特定物体プロポーザルとした場合、前記プロセッサは、前記ターゲット物体統合ネットワークをもって、前記第1特定物体プロポーザルと、前記第2特定物体プロポーザルとの間のIOU(Intersection Over Union)が、第1閾値以上になるかを判断するようにし、(i)前記IOUが、前記第1閾値未満と判断されれば、前記第2特定加工イメージ上で前記第1特定物体プロポーザルに対応する領域と、前記第1特定加工イメージ上で前記第2特定物体プロポーザルに対応する領域との間の調整IOUを算出し、(ii)前記調整IOUが第2閾値以上と判断されると、前記第1特定物体プロポーザルと、前記第2特定物体プロポーザルとの中から、確率値の高い特定物体プロポーザルを選択するようにするか、前記トレーニングイメージ上で演算される面積の大きい特定物体プロポーザルを選択するようにすることにより、前記選択された特定物体プロポーザルを前記特定同一物体に対応する特定統合物体プロポーザルとして生成する。
一例として、第1特定加工イメージ及び第2特定加工イメージ上に少なくとも一つの特定同一物体が位置し、前記第1特定加工イメージ上で、前記特定同一物体に対応する少なくとも一つの物体バウンディングボックスを第1特定物体バウンディングボックスとし、前記第2特定加工イメージ上で、前記特定同一物体に対応する少なくとも一つの物体バウンディングボックスを第2特定物体バウンディングボックスとした場合、前記プロセッサは、前記ターゲット物体統合ネットワークをもって、前記第1特定物体バウンディングボックスと、前記第2特定物体バウンディングボックスとの間のIOUが、第1閾値以上になるか否かを判断するようにし、(i)前記IOUが、前記第1閾値未満と判断されれば、前記第2特定加工イメージ上で前記第1特定物体バウンディングボックスに対応する領域と、前記第1特定加工イメージ上で前記第2特定物体バウンディングボックスに対応する領域との間の調整IOUを算出し、(ii)前記調整IOUが第2閾値以上と判断されれば、前記第1特定物体バウンディングボックスと、前記第2特定物体バウンディングボックスとの中から、確率値の高い特定物体バウンディングボックスを選択するようにするか、前記トレーニングイメージ上で演算される面積の大きい特定物体バウンディングボックスを選択するようにすることにより、前記選択された特定物体バウンディングボックスを前記特定同一物体に対応する特定統合物体検出情報として生成する。
一例として、前記(II)プロセスで、前記プロセッサは、前記ターゲット物体予測ネットワークをもって、(i)特定加工イメージをMxNグリッドに区分するようにし、(ii)前記第k−1物体プロポーザルないし前記k_n物体プロポーザルのうち、前記グリッドの各セルごとにそれぞれ対応する特定物体プロポーザルの個数を示す少なくとも一つ以上のヒストグラムマップを生成するようにし、前記グリッドの各セル内にそれに対応する前記特定プロポーザルそれぞれの全体領域または分割領域が存在し、(iii)ムービングウィンドウの中の少なくとも一つの領域を利用して、少なくとも一つの特定ターゲット領域を決定するようにし、前記少なくとも一つの領域は、前記ムービングウィンドウの位置を変更して占有されるすべての領域のうち、前記ヒストグラムマップの合計が最も大きい値を有する領域である。
本発明のまた他の態様によれば、ターゲット物体統合予測ネットワークと、ターゲット領域予測物体ネットワークとを利用したCNN基盤の物体検出器をテスティングするためのテスティング装置において、インストラクションを格納する少なくとも一つのメモリ;及び(1)学習装置が、(i)イメージ加工ネットワークをもって、少なくとも一つのトレーニングビデオの現在フレームである第1学習用フレームに対応する第1学習用イメージピラミッドに含まれた第1_1トレーニングイメージないし第1_nトレーニングイメージそれぞれから、少なくとも一つの学習用ターゲット物体が位置すると推定される第1学習用予測ターゲット領域にそれぞれ対応する、第1_1学習用加工イメージないし前記第1_n学習用加工イメージを生成するようにし、前記第1_1学習用加工イメージないし第1_n学習用加工イメージをコンカチネートした第1統合トレーニングイメージを生成するようにし、(ii)一つ以上のコンボリューションレイヤをもって、一つ以上のコンボリューション演算を前記第1統合トレーニングイメージに適用することで、少なくとも一つの第1学習用特徴マップを出力させ、RPN(Region Proposal Network)をもって、前記第1学習用特徴マップを利用して、前記第1統合トレーニングイメージに含まれた前記第1_1学習用加工イメージないし前記第1_n学習用加工イメージそれぞれに位置する一つ以上の学習用物体に対応する第1_1学習用物体プロポーザルないし第1_n学習用物体プロポーザルを出力させ、プーリングレイヤをもって、前記第1学習用特徴マップ上で、前記第1_1学習用物体プロポーザルないし前記第1_n学習用物体プロポーザルに対応する一つ以上の領域に一つ以上のプーリング演算を適用して、少なくとも一つの第1学習用プーリング済み特徴マップを出力させ、FC(fully connected)レイヤをもって、前記第1学習用プーリング済み特徴マップに少なくとも一つのFC演算を適用して、前記学習用物体に対応する第1_1学習用物体検出情報ないし第1_n学習用物体検出情報を出力させ、(iii)前記ターゲット物体統合ネットワークをもって、前記学習用第1_1物体プロポーザルないし前記第1_n学習用物体プロポーザルを統合して第1学習用統合物体プロポーザルを生成するようにし、前記第1_1学習用物体検出情報ないし前記第1_n学習用物体検出情報を統合して第1学習用統合物体検出情報を生成するようにし、少なくとも一つのFCロスレイヤをもって、前記第1学習用統合物体検出情報及びこれに対応するGTを参照して一つ以上の第1FCロスを生成するようにすることで、前記第1FCロスを利用したバックプロパゲーション(Backpropagation)によって、前記FCレイヤと、前記コンボリューションレイヤのパラメータとの中の少なくとも一部を学習するプロセス、及び(2)kを2からnまで増加させながら、(i)前記ターゲット物体予測ネットワークをもって、第k−1統合トレーニングイメージ上の第(k−1)_1学習用物体プロポーザルないし第(k−1)_n学習用物体プロポーザルを参照して、前記第k−1学習用フレーム上で、前記学習用ターゲット物体が位置すると予測される第k−1学習用ターゲット領域を探すようにし、前記ターゲット領域予測ネットワークをもって、第k学習用フレーム上で、前記k−1学習用ターゲット領域が位置すると予測される一つ以上の領域に対応する第k学習用予測ターゲット領域を探すようにし、(ii)前記イメージ加工ネットワークをもって、前記第k学習用フレームに対応する第k学習用イメージピラミッド内に含まれた第k_1トレーニングイメージないし第k_nトレーニングイメージそれぞれから、前記k学習用予測ターゲット領域にそれぞれ対応する、第k_1学習用加工イメージないし第k_n学習用加工イメージを生成するようにし、前記第k_1学習用加工イメージないし第k_n学習用加工イメージをコンカチネートした第k統合トレーニングイメージを出力するようにし、(iii)前記コンボリューションレイヤをもって、前記コンボリューション演算を前記第k統合トレーニングイメージに適用することで、第k学習用特徴マップを出力させ、前記RPNをもって、前記第k学習用特徴マップを利用して、前記第k統合トレーニングイメージ内に含まれた前記第k_1学習用加工イメージないし前記第k_n学習用加工イメージそれぞれに位置する前記学習用物体に対応する第k_1学習用物体プロポーザルないし第k_n学習用物体プロポーザルを出力させ、前記プーリングレイヤをもって、前記第k学習用特徴マップ上で、前記第k_1学習用物体プロポーザルないし前記第k_n学習用物体プロポーザルに対応する一つ以上の領域に前記プーリング演算を適用して、少なくとも一つの第k学習用プーリング済み特徴マップを出力させ、前記FCレイヤをもって、前記第k学習用プーリング済み特徴マップに前記FC演算を適用して、前記学習用物体に対応する第k_1学習用物体検出情報ないし第k_n学習用物体検出情報を出力させ、(iv)前記ターゲット物体統合ネットワークをもって、前記第k_1学習用物体プロポーザルないし前記第k_n学習用物体プロポーザルを統合して第k学習用統合物体プロポーザルを生成するようにし、前記第k_1学習用物体検出情報ないし前記第k_n学習用物体検出情報を統合して第k学習用統合物体検出情報を生成するようにし、前記FCロスレイヤをもって、前記第k学習用統合物体検出情報及びこれに対応するGTを参照して一つ以上の第kFCロスを生成するようにすることで、前記第kFCロスを利用したバックプロパゲーション(Backpropagation)によって、前記FCレイヤと、前記コンボリューションレイヤのパラメータとの中の少なくとも一部を学習するプロセスを遂行した状態で;(I)(i)前記イメージ加工ネットワークをもって、少なくとも一つのテストビデオの現在フレームである第1テスト用フレームに対応する第1テスト用イメージピラミッドに含まれた第1_1テストイメージないし第1_nテストイメージそれぞれから、少なくとも一つのテスト用ターゲット物体が位置すると推定される第1テスト用予測ターゲット領域にそれぞれ対応する、第1_1テスト用加工イメージないし前記第1_nテスト用加工イメージを生成するようにし、前記第1_1テスト用加工イメージないし第1_nテスト用加工イメージをコンカチネートした第1統合テストイメージを生成するようにし、(ii)前記コンボリューションレイヤをもって、前記コンボリューション演算を前記第1統合テストイメージに適用することで、少なくとも一つの第1テスト用特徴マップを出力させ、前記RPNをもって、前記第1テスト用特徴マップを利用して、前記第1統合テストイメージ内に含まれた前記第1_1テスト用加工イメージないし前記第1_nテスト用加工イメージそれぞれに位置する一つ以上のテスト用物体に対応する第1_1テスト用物体プロポーザルないし第1_nテスト用物体プロポーザルを出力させ、前記プーリングレイヤをもって、前記第1テスト用特徴マップ上で、前記第1_1テスト用物体プロポーザルないし前記第1_nテスト用物体プロポーザルに対応する一つ以上の領域に前記プーリング演算を適用して、少なくとも一つの第1テスト用プーリング済み特徴マップを出力させ、前記FCレイヤをもって、前記第1テスト用プーリング済み特徴マップに前記FC演算を適用して、前記テスト用物体に対応する第1_1テスト用物体検出情報ないし第1_nテスト用物体検出情報を出力させ、(iii)前記ターゲット物体統合ネットワークをもって、前記第1_1テスト用物体プロポーザルないし前記第1_nテスト用物体プロポーザルを統合して第1テスト用統合物体プロポーザルを生成するようにし、前記第1_1テスト用物体検出情報ないし前記第1_nテスト用物体検出情報を統合して第1テスト用統合物体検出情報を生成するようにするプロセス、及び(II)kを2からnまで増加させながら、(i)前記ターゲット物体予測ネットワークをもって、第k−1統合テストイメージ上の第(k−1)_1テスト用物体プロポーザルないし第(k−1)_nテスト用物体プロポーザルを参照して、前記第k−1テスト用フレーム上で、前記テスト用ターゲット物体が位置すると予測される第k−1テスト用ターゲット領域を探すようにし、前記ターゲット領域予測ネットワークをもって、第kテスト用フレーム上で、前記k−1テスト用ターゲット領域が位置すると予測される一つ以上の領域に対応する第kテスト用予測ターゲット領域を探すようにし、(ii)前記イメージ加工ネットワークをもって、前記第kテスト用フレームに対応する第kテスト用イメージピラミッド内に含まれた第k_1テストイメージないし第k_nテストイメージそれぞれから、前記kテスト用予測ターゲット領域にそれぞれ対応する、第k_1テスト用加工イメージないし第k_nテスト用加工イメージを生成するようにし、前記第k_1テスト用加工イメージないし第k_nテスト用加工イメージをコンカチネートした第k統合テスト用イメージを出力するようにし、(iii)前記コンボリューションレイヤをもって、前記コンボリューション演算を前記第k統合テストイメージに適用することで第kテスト用特徴マップを出力させ、前記RPNをもって、前記第kテスト用特徴マップを利用して、前記第k統合テストイメージ内に含まれた前記第k_1テスト用加工イメージないし前記第k_nテスト用加工イメージそれぞれに位置する前記テスト用物体に対応する第k_1テスト用物体プロポーザルないし第k_nテスト用物体プロポーザルを出力させ、前記プーリングレイヤをもって、前記第kテスト用統合特徴マップ上で、前記第k_1テスト用物体プロポーザルないし前記第k_nテスト用物体プロポーザルそれぞれに対応するそれぞれの領域に前記プーリング演算を適用して、少なくとも一つの第kテスト用プーリング済み特徴マップを出力するようにし、前記FCレイヤをもって、前記第kテスト用プーリング済み統合特徴マップに前記FC演算を適用して、前記テスト用物体に対応する第k_1テスト用物体検出情報ないし第k_nテスト用物体検出情報を出力するようにし、(iv)前記ターゲット物体統合ネットワークをもって、前記第k_1テスト用物体プロポーザルないし前記第k_nテスト用物体プロポーザルを統合して第kテスト用統合物体プロポーザルを生成するようにし、前記第k_1テスト用物体検出情報ないし前記第k_nテスト用物体検出情報を統合して第kテスト用統合物体検出情報を生成するようにするプロセスを遂行するための、前記インストラクションを実行するように構成された少なくとも一つのプロセッサ;を含むことを特徴とするテスティング装置が提供される。
一例として、前記(1)プロセスで、前記学習装置は、少なくとも一つのRPNロスレイヤをもって、前記第1学習用統合物体プロポーザルの情報及びこれに対応するGTを参照して一つ以上の第1RPNロスを取得するようにすることで、前記第1RPNロスを利用したバックプロパゲーションによって前記RPNのパラメータの中の少なくとも一部を調整するようにし、前記(2)プロセスで、前記学習装置は、前記RPNロスレイヤをもって、前記第k学習用統合物体プロポーザル情報及びこれに対応するGTを参照して一つ以上の第kRPNロスを取得するようにすることで、前記第kRPNロスを利用したバックプロパゲーションによって前記RPNの前記パラメータの中の少なくとも一部を調整する。
一例として、前記(I)プロセスで、前記プロセッサが、前記イメージ加工ネットワークをもって、前記第1_1テスト用加工イメージないし前記第1_nテスト用加工イメージの幅と高さのうち少なくとも一つを同一に調整した後、同一に調整された前記幅または前記高さ方向に前記第1_1テスト用調整済み加工イメージないし前記第1_nテスト用調整済み加工イメージをコンカチネートするようにし、前記(II)プロセスで、前記プロセッサが、前記イメージ加工ネットワークをもって、前記第k_1テスト用加工イメージないし前記第k_nテスト用加工イメージの幅と高さのうち少なくとも一つを同一に調整した後、同一に調整された前記幅または前記高さ方向に前記第k_1テスト用調整済み加工イメージないし前記第k_nテスト用調整済み加工イメージをコンカチネートする。
一例として、前記プロセッサが、前記イメージ加工ネットワークをもって、前記第k_1テスト用調整済み加工イメージないし前記第k_nテスト用調整済み加工イメージのうち、コンカチネートされた隣接するそれぞれの二つのテスト用調整済み加工イメージから構成されるそれぞれのペアの間にそれぞれ少なくとも一つのゼロパディング(zero padding)領域を追加するようにし、前記コンボリューションレイヤの多重コンボリューション演算によって前記統合テストイメージが1/Sに縮小され、前記コンボリューションレイヤそれぞれのカーネルそれぞれの最大サイズをK×Kとする場合、前記ゼロパディング領域の幅が
Figure 0006908944
になるようにする。
一例として、第1テスト用特定加工イメージ及び第2テスト用特定加工イメージ上にそれぞれ少なくとも一つのテスト用特定同一物体が位置し、前記第1テスト用特定加工イメージ上で、前記テスト用特定同一物体に対応する少なくとも一つのテスト用物体プロポーザルを第1テスト用特定物体プロポーザルとし、前記第2テスト用特定加工イメージ上で、前記テスト用特定同一物体に対応する少なくとも一つのテスト用物体プロポーザルを第2テスト用特定物体プロポーザルとした場合、前記プロセッサは、前記ターゲット物体統合ネットワークをもって、前記第1テスト用特定物体プロポーザルと、前記第2テスト用特定物体プロポーザルとの間のテスト用IOU(Intersection Over Union)が、第1閾値以上になるかを判断するようにし、(i)前記テスト用IOUが、前記第1閾値未満と判断されると、前記第2テスト用特定加工イメージ上で前記第1テスト用特定物体プロポーザルに対応する領域と、前記第1テスト用特定加工イメージ上で前記第2テスト用特定物体プロポーザルに対応する領域との間のテスト用調整IOUを算出し、(ii)前記テスト用調整IOUが第2閾値以上と判断されれば、前記第1テスト用特定物体プロポーザルと、前記第2テスト用特定物体プロポーザルとの中から、確率値の高いテスト用特定物体プロポーザルを選択するようにするか、前記テストイメージ上で演算される面積の大きいテスト用特定物体プロポーザルを選択するようにすることにより、前記選択されたテスト用特定物体プロポーザルを前記テスト用特定同一物体に対応するテスト用特定統合物体プロポーザルとして生成する。
一例として、 第1テスト用特定加工イメージ及び第2テスト用特定加工イメージ上にそれぞれ少なくとも一つのテスト用特定同一物体が位置し、前記第1テスト用特定加工イメージ上で、前記テスト用特定同一物体に対応する少なくとも一つのテスト用物体バウンディングボックスを第1テスト用特定物体バウンディングボックスとし、前記第2テスト用特定加工イメージ上で、前記テスト用特定同一物体に対応する少なくとも一つのテスト用物体バウンディングボックスを第2テスト用特定物体バウンディングボックスとした場合、前記プロセッサは、前記ターゲット物体統合ネットワークをもって、前記第1テスト用特定物体バウンディングボックスと、前記第2テスト用特定物体バウンディングボックスとの間のテスト用IOUが第1閾値以上になるかを判断するようにし、(i)前記テスト用IOUが、前記第1閾値未満と判断されれば、前記第2テスト用特定加工イメージ上で前記第1テスト用特定物体バウンディングボックスに対応する領域と、前記第1テスト用特定加工イメージ上で前記第2テスト用特定物体バウンディングボックスに対応する領域との間のテスト用調整IOUを算出し、(ii)前記テスト用調整IOUが第2閾値以上と判断されれば、前記第1テスト用特定物体バウンディングボックスと、前記第2テスト用特定物体バウンディングボックスとの中から、確率値の高いテスト用特定物体バウンディングボックスを選択するようにするか、前記テストイメージ上で演算される面積の大きいテスト用特定物体バウンディングボックスを選択するようにすることにより、前記選択されたテスト用特定物体バウンディングボックスを前記テスト用特定同一物体に対応するテスト用特定統合物体検出情報として生成する。
一例として、前記(II)プロセスで、前記プロセッサは、前記ターゲット物体予測ネットワークをもって、(i)テスト用特定加工イメージをMxNグリッドに区分するようにし、(ii)前記第k−1テスト用物体プロポーザルないし前記k_nテスト用物体プロポーザルのうち、前記グリッドの各セルごとにそれぞれ対応するテスト用特定物体プロポーザルの個数を示す少なくとも一つ以上のテスト用ヒストグラムマップを生成するようにし、前記グリッドの各セル内に、それに対応する前記テスト用特定プロポーザルそれぞれの全体領域または分割領域が存在し、(iii)テスト用ムービングウィンドウの中の少なくとも一つの領域を利用して、少なくとも一つのテスト用特定ターゲット領域を決定するようにし、前記少なくとも一つの領域は、前記テスト用ムービングウィンドウの位置を変更して占有されるすべての領域のうち、前記テスト用ヒストグラムマップの合計が最も大きい値を有する領域である。
本発明は、イメージ上に位置する物体をサイズに関係なく効果的に検出し得る効果がある。
また、本発明は、演算量を増加させずに前記イメージ内の物体を検出し得る効果がある。
また、本発明は、サイズが多様な物体に対応するターゲット領域を利用して、CNNの演算量を減らしながら効果的に物体を検出し得る効果がある。
本発明の実施例の説明に利用されるために添付された以下の各図面は、本発明の実施例のうちの一部に過ぎず、本発明が属する技術分野でおいて、通常の知識を有する者(以下「通常の技術者」)は、発明的作業が行われることなくこの図面に基づいて他の図面が得られ得る。
本発明の一例に係るターゲット物体統合ネットワークと、ターゲット領域予測ネットワークとを利用した、CNN基盤物体検出器を学習する学習装置を概略的に示した図面である。 本発明の一例に係る前記ターゲット物体統合ネットワークと、前記ターゲット領域予測ネットワークとを利用した、前記CNN基盤物体検出器を学習する方法を概略的に示した図面である。 本発明の一例に係る前記ターゲット物体統合ネットワークと、前記ターゲット物体予測ネットワークとを利用した、前記CNN基盤物体検出器学習に利用されるイメージピラミッド上でそれぞれのターゲット領域を予測するプロセスを概略的に示した図面である。 本発明の一例に係る前記ターゲット物体統合ネットワークと、前記ターゲット物体予測ネットワークとを利用した、前記CNN基盤物体検出器学習に利用されるそれぞれのターゲット領域に対応する加工済みイメージをコンカチネートするプロセスを概略的に示した図面である。 本発明の一例に係る前記ターゲット物体統合ネットワークと、前記ターゲット領域予測ネットワークとを利用した、前記CNN基盤物体検出器学習に利用される一つ以上のターゲット物体を統合するプロセスを概略的に示した図面である。 本発明の一例に係る前記ターゲット物体予測ネットワークと、前記ターゲット物体統合ネットワークとを利用した、前記CNN基盤物体検出器の学習方法において考慮される、RPNから出力される物体プロポーザルを利用してターゲット領域を探すプロセスを概略的に示した図面である。 本発明の一例に係る前記ターゲット物体統合ネットワークと、前記ターゲット領域予測ネットワークとを利用した、前記CNN基盤物体検出器をテスティングするテスティング装置を概略的に示した図面である。 本発明の一例に係る前記ターゲット物体統合ネットワークと、前記ターゲット領域予測ネットワークとを利用した、前記CNN基盤物体検出器をテスティングするテスティング方法を概略的に示した図面である。
後述する本発明に対する詳細な説明は、本発明の各目的、技術的解決方法及び長所を明確にするために、本発明が実施され得る特定の実施例を例示として示す添付図面を参照する。これらの実施例は、通常の技術者が本発明を実施することができるように充分詳細に説明される。
また、本発明の詳細な説明及び各請求項にわたって、「含む」という単語及びそれらの変形は、他の技術的各特徴、各付加物、構成要素又は段階を除外することを意図したものではない。通常の技術者にとって本発明の他の各目的、長所及び各特性が、一部は本説明書から、また一部は本発明の実施から明らかになるであろう。以下の例示及び図面は実例として提供され、本発明を限定することを意図したものではない。
さらに、本発明は、本明細書に示された実施例のあらゆる可能な組合せを網羅する。本発明の多様な実施例は相互異なるが、相互排他的である必要はないことを理解されたい。例えば、ここに記載されている特定の形状、構造及び特性は一例と関連して、本発明の精神及び範囲を逸脱せず、かつ他の実施例で実装され得る。また、各々の開示された実施例内の個別構成要素の位置または配置は本発明の精神及び範囲を逸脱せずに変更され得ることを理解されたい。従って、後述する詳細な説明は限定的な意味で捉えようとするものではなく、本発明の範囲は、適切に説明されれば、その請求項が主張することと均等なすべての範囲と、併せて添付された請求項によってのみ限定される。図面で類似する参照符号はいくつかの側面にかけて同一か類似する機能を指称する。
本発明で言及している各種イメージは、舗装または非舗装道路関連のイメージを含み得り、この場合、道路環境で登場し得る物体(例えば、自動車、人、動物、植物、物、建物、飛行機やドローンのような飛行体、その他の障害物)を想定し得るが、必ずしもこれに限定されるものではなく、本発明で言及している各種イメージは、道路と関係のないイメージ(例えば、非舗装道路、路地、空き地、海、湖、川、山、森、砂漠、空、室内と関連したイメージ)でもあり得、この場合、非舗装道路、路地、空き地、海、湖、川、山、森、砂漠、空、室内環境で登場し得る物体(例えば、自動車、人、動物、植物、物、建物、飛行機やドローンのような飛行体、その他の障害物)を想定し得るが、必ずしもこれに限定されるものではない。
以下、本発明が属する技術分野で通常の知識を有する者が本発明を容易に実施することができるようにするために、本発明の好ましい実施例について添付の図面に基づいて詳細に説明する。
図1は、本発明の一例に係るターゲット物体統合ネットワークと、ターゲット物体予測ネットワークとを利用した、CNN基盤物体検出器を学習する学習装置を概略的に示したもので、図1を参照すれば、前記試験装置100は、通信部110とプロセッサ120とを含み得る。
まず、前記通信部110は、少なくとも一つのトレーニングビデオを取得するか、他の装置をもって取得するように支援し得る。
この際、前記トレーニングイメージは、データベース130に格納され得、前記データベース130は、前記トレーニングビデオにそれぞれのフレームが位置する一つ以上の物体それぞれに対応するクラス情報及び位置情報に対する少なくとも一つのGT(ground truth)を格納し得る。また、前記データベース130は、前記トレーニングビデオのそれぞれの前記フレームをリサイズして生成された、リサイズされたイメージ内に位置する前記物体それぞれに関する位置情報及びクラス情報に関する少なくとも一つのGTを格納し得る。
また、前記学習装置は、後述されるプロセスを遂行するコンピュータ読取り可能なインストラクション(computer readable instruction)を格納し得るメモリ115をさらに含み得る。一例として、前記プロセッサ、前記メモリ、及び媒体等は、一つのプロセッサに統合されて機能することもできる。
次に、前記プロセッサ120は(i)イメージ加工ネットワークをもって、前記トレーニングビデオの現在フレームである第1フレームに対応する第1イメージピラミッドに含まれた第1_1イメージないし第1_nイメージそれぞれから、少なくとも一つのターゲット物体が位置すると推定される第1予測ターゲット領域にそれぞれ対応する、第1_1加工イメージないし前記第1_n加工イメージを生成するようにし、前記第1_1加工イメージないし第1_n加工イメージをコンカチネート(concatenate)した第1統合トレーニングイメージを生成するようにし、(ii)一つ以上のコンボリューションレイヤをもって、一つ以上のコンボリューション演算を前記第1統合トレーニングイメージに適用することで、少なくとも一つの第1特徴マップを出力させ、RPN(Region Proposal Network)をもって、前記第1特徴マップを利用して、前記第1統合トレーニングイメージに含まれた前記第1_1加工イメージないし前記第1_n加工イメージそれぞれに位置する一つ以上の物体に対応する第1_1物体プロポーザルないし第1_n物体プロポーザルを出力させ、プーリングレイヤをもって、前記第1特徴マップ上で、前記第1_1物体プロポーザルないし前記第1_n物体プロポーザルに対応する一つ以上の領域に一つ以上のプーリング演算を適用して、少なくとも一つの第1プーリング済み特徴マップを出力させ、FC(fully connected)レイヤをもって、前記第1プーリング済み特徴マップに一つ以上のFC演算を適用して、前記物体に対応する第1_1物体検出情報ないし第1_n物体検出情報を出力させ、(iii)前記ターゲット物体統合ネットワークをもって、前記第1_1物体プロポーザルないし前記第1_n物体プロポーザルを統合して第1統合物体プロポーザルを生成するようにし、前記第1_1物体検出情報ないし前記第1_n物体検出情報を統合して第1統合物体検出情報を生成するようにし、少なくとも一つのFCロスレイヤをもって、前記第1統合物体検出情報及びこれに対応するGTを参照して一つ以上の第1FCロスを生成するようにすることで、前記第1FCロスを利用したバックプロパゲーション(Backpropagation)によって、前記FCレイヤと、前記コンボリューションレイヤのパラメータとの中の少なくとも一部を学習するプロセスを遂行する。また、前記プロセッサ120は、kを2からnまで増加させながら、(i)前記ターゲット物体予測ネットワークをもって、第k−1統合トレーニングイメージ上の第(k−1)_1物体プロポーザルないし第(k−1)_n物体プロポーザルを参照して、前記第k−1フレーム上で、前記ターゲット物体が位置すると予測される第k−1ターゲット領域を探すようにし、前記ターゲット領域予測ネットワークをもって、第kフレーム上で、前記k−1ターゲット領域が位置すると予測される一つ以上の領域に対応する第k予測ターゲット領域を探すようにし、(ii)前記イメージ加工ネットワークをもって、前記第kフレームに対応する第kイメージピラミッド内に含まれた第k_1イメージないし第k_nイメージそれぞれから、前記k予測ターゲット領域にそれぞれ対応する、第k_1加工イメージないし第k_n加工イメージを生成するようにし、前記第k_1加工イメージないし第k_n加工イメージをコンカチネートした第k統合トレーニングイメージを出力するようにし、(iii)前記コンボリューションレイヤをもって、前記コンボリューション演算を前記第k統合トレーニングイメージに適用することで、第k特徴マップを出力させ、前記RPNをもって、前記第k特徴マップを利用して、前記第k統合トレーニングイメージ内に含まれた前記第k_1加工イメージないし前記第k_n加工イメージそれぞれに位置する前記物体に対応する第k_1物体プロポーザルないし第k_n物体プロポーザルを出力させ、前記プーリングレイヤをもって、前記第k特徴マップ上で、前記第k_1物体プロポーザルないし前記第k_n物体プロポーザルに対応する一つ以上の領域に前記プーリング演算を適用して、少なくとも一つの第kプーリング済み特徴マップを出力させ、前記FCレイヤをもって、前記第kプーリング済み特徴マップに前記FC演算を適用して、前記物体に対応する第k_1物体検出情報ないし第k_n物体検出情報を出力させ、(iv)前記ターゲット物体統合ネットワークをもって、前記第k_1物体プロポーザルないし前記第k_n物体プロポーザルを統合して第k統合物体プロポーザルを生成するようにし、前記第k_1物体検出情報ないし前記第k_n物体検出情報を統合して第k統合物体検出情報を生成するようにし、前記FCロスレイヤをもって、前記第k統合物体検出情報及びこれに対応するGTを参照して一つ以上の第kFCロスを生成するようにすることで、前記第kFCロスを利用したバックプロパゲーション(Backpropagation)によって、前記FCレイヤと、前記コンボリューションレイヤのパラメータとの中の少なくとも一部を学習するプロセスを遂行する。
また、前記プロセッサ120は、RPNロスレイヤをもって、前記第1統合物体プロポーザル情報と、これに対応するGTとを参照して一つ以上の第1RPNロスを取得するようにすることで、前記第1RPNロスを利用したバックプロパゲーションによって前記RPNのパラメータの中の少なくとも一部を学習するようにし、前記RPNロスレイヤをもって、前記第k統合物体プロポーザル情報と、これに対応するGTとを参照して一つ以上の第kRPNロスを取得するようにすることで、前記第kRPNロスを利用したバックプロパゲーションによって前記RPNの前記パラメータの中の少なくとも一部を学習する。
この際、本発明の一例に係る前記学習装置100は、コンピューティング装置であり、プロセッサを搭載して演算能力を備えた装置であればいくらでも本発明に係る学習装置100として採択され得る。また、図1では一つの学習装置100のみを示したが、これに限定されず、前記学習装置は複数に分けて役割を遂行することもできる。
このように構成された本発明の一例に係る前記学習装置100を利用して、前記ターゲット物体統合ネットワーク及び前記ターゲット物体統合ネットワークを利用してCNN基盤物体検出器のパラメータを学習する方法を、図2を参照して説明する。
まず、前記トレーニングビデオが入力されれば、前記学習装置100が、イメージ加工ネットワーク111をもって、前記トレーニングビデオの現在のフレームである前記第1フレームに対応する前記第1イメージピラミッドに含まれた前記第1_1イメージないし前記第1_nのイメージのそれぞれにおいて、前記ターゲット物体が位置するものと推定される前記第1予測ターゲット領域にそれぞれ対応する、前記第1_1加工イメージないし前記第1_n加工イメージを生成するようにする。
この際、前記第1予測ターゲット領域は、ターゲット領域予測ネットワーク121によって設定された領域であり得る。そして、前記ターゲット領域予測ネットワーク121は、前記第1_1イメージないし前記1_nイメージそれぞれに対するそれぞれのスケールヒストグラムを演算し、前記スケールヒストグラムを参照することによって、前記ターゲット物体が位置するものと予測されるスケールプロポーザルに対応する前記第1予測ターゲット領域を探すことができる。また、前記ターゲット領域予測ネットワーク121は、前記1_1イメージないし前記1_nイメージそれぞれに対してセグメンテーションを遂行し、前記セグメンテーションを基盤として前記ターゲット領域を探し出すためのシード(seed)を設定した後、小さなターゲット領域が繰り返し統合された統合領域を参照して前記ターゲット領域を設定することができる。また、前記ターゲット領域予測ネットワーク121は、フォアグラウンドセグメンテーション(foreground segmentation)を通じてそれぞれの前記第1_1イメージないし第1_nイメージ上のフォアグラウンドを確認し、前記確認されたフォアグラウンドを参照して、少なくとも一つのターゲット物体が位置するものと予測され、前記少なくとも一つのターゲット物体を含むものと予測されるサイズの、少なくとも一つの領域を前記第1予測ターゲット領域に設定することができる。これに加えて、前記ターゲット領域予測ネットワーク121は、重要度検出(saliency detection)方法を利用して、前記第1予測ターゲット領域を設定することができる。しかし、本願発明はこれに限定されず、イメージ内のターゲット物体が位置すると予測されるターゲット領域を探し出すすべての方法が利用され得る。
一例として、図3を参照すれば、前記第1予測ターゲット領域のうち、前記第1_1予測ターゲット領域を含む前記第1_1イメージP1を前記第1_1加工イメージMI1として取得し得り、前記第1_2イメージP2上の前記第1予測ターゲット領域のうち、前記第1_2予測ターゲット領域に対応する前記第1_2加工イメージMI2が生成され得、前記第1_3イメージP3上の前記第1予測ターゲット領域のうち、前記第1_3予測ターゲット領域に対応する前記第1_3加工イメージMI3が生成され得る。
次に、前記学習装置100は、前記イメージ加工ネットワーク111をもって、前記第1_1加工イメージないし前記第1_3加工イメージをコンカチネートした前記第1統合トレーニングイメージを生成させ得る。
この際、前記学習装置100は、前記イメージ加工ネットワーク111をもって、前記第1_1加工イメージないし前記第1_3加工イメージの幅と高さのうち少なくとも一つを同一に調整した後、同一に調整された前記幅または前記高さ方向に前記第1_1調整済み加工イメージないし前記第1_3調整済み加工イメージをコンカチネートさせることができる。
そして、前記学習装置100は、前記イメージ加工ネットワーク111をもって、前記第1_1調整済み加工イメージないし前記第1_3調整済み加工イメージのうち、コンカチネートされた隣接するそれぞれの二つの調整済み加工イメージで構成されるそれぞれのペアの間にそれぞれ少なくとも一つのゼロパディング(zero padding)領域を追加させることができる。前記コンボリューションレイヤの多重コンボリューション演算によって前記第1統合トレーニングイメージが1/Sに縮小され、前記コンボリューションレイヤそれぞれのカーネルそれぞれの最大サイズをK×Kとする場合、前記ゼロパディング領域の幅が
Figure 0006908944
になるようにすることができる。これを通じて、前記CNNのオーバーヘッド(overhead)を最小化することができる。
一例として、図4を参照すると、図3の過程を通じて生成された前記第1_1加工イメージMI1、前記第1_2加工イメージMI2、及び前記第1_3加工イメージMI3は、互いに高さが同じに調整された後、コンカチネートされ得る。その際、それぞれのゼロパディング領域(PR)は、それぞれの前記隣接した調整済み加工イメージの間に追加され得る。他の例示として、前記加工イメージの幅を同一に調整した後、前記調整された幅を利用して前記それぞれの加工イメージをコンカチネートするか、前記幅と前記高さとを同一に調整した後、前記それぞれの加工イメージを大きな正方形状にコンカチネートすることができる。
次に、前記学習装置100は、コンボリューションレイヤ122をもって、前記第1統合トレーニングイメージに前記コンボリューション演算を適用することにより、少なくとも一つの第1統合特徴マップを出力させることができる。この際、前記コンボリューションレイヤ122は、単一のコンボリューションレイヤでもあり得、多数のコンボリューションレイヤでもあり得る。
次に、前記学習装置100は、RPN123をもって、前記第1統合特徴マップを利用して、前記第1統合トレーニングイメージに含まれた前記第1_1加工イメージないし前記第1_n加工イメージ内に位置する前記物体に対応する一つ以上の第1_1物体プロポーザルないし一つ以上の第1_n物体プロポーザルを出力させることができる。
この際、前記第1_1物体プロポーザルないし前記第1_n物体プロポーザルそれぞれは、前記第1_1加工イメージないし前記第1_n加工イメージ内に位置する前記物体それぞれに対応することができ、前記物体プロポーザルそれぞれは、前記物体それぞれ、すなわち、タグ付けされた領域に対応する位置情報と、前記タグ付けされた領域それぞれが物体であるか否かに関する情報を有する各プロポーザルボックスに関する情報とを含むことができる。この際、物体であるか否かに対する情報は、前記それぞれの物体プロポーザルが物体であると予測される確率情報を含み得、前記プロポーザルボックスに関する情報は、前記プロポーザルボックスが前記物体の位置に一致すると予測される確率情報を含み得る。
次に、前記学習装置100は、プーリングレイヤ124をもって、前記第1統合特徴マップ上で前記第1_1物体プロポーザルないし前記第1_n物体プロポーザルそれぞれに対応するそれぞれの領域に前記プーリング演算を適用して、少なくとも一つの第1プーリング済み統合特徴マップを出力させ、FCレイヤ125をもって、前記第1プーリング済み統合特徴マップに前記FC(fully connected)演算を適用して、前記物体に対応する第1_1物体検出情報ないし第1_n物体検出情報を出力させることができる。
この際、前記第1_1物体検出情報ないし前記第1_n物体検出情報は、前記第1_1物体プロポーザルないし前記第1_n物体プロポーザルに対応する前記物体それぞれに関するクラス情報とバウンディングボックスに関する情報(つまり、前記物体それぞれに関する位置情報)を含むことができる。また、前記クラス情報は、前記物体それぞれが該当クラスと予測される確率情報を含み得、前記バウンディングボックスに関する情報は、前記バウンディングボックスそれぞれが前記物体の位置に一致するものと予測される確率情報を含み得る。
その後、前記学習装置100は、(i)前記ターゲット物体統合ネットワーク126をもって、前記第1_1物体プロポーザルないし前記第1_n物体プロポーザルを統合して第1統合物体プロポーザルを出力するようにし、前記第1_1物体検出情報ないし前記第1_n物体検出情報を統合して第1統合物体検出情報を出力するようにする。ここで、前記第1_1物体プロポーザルないし前記第1_n物体プロポーザルに対する情報は、前記トレーニングビデオ内の前記現在のフレームである前記第1フレームに対応されるように変換され得る。
一例として、図5を参照すれば、前記第1_1加工イメージMI1及び前記第1_2加工イメージMI2上に少なくとも一つの特定同一物体が位置し、前記第1_1加工イメージMI1上の前記第1_1物体プロポーザルの中の、前記特定同一物体に対応する少なくとも一つの物体プロポーザルを第1_1特定物体プロポーザルPB1とし、前記第1_2加工イメージMI2上の前記第1_2物体プロポーザルの中の、前記特定同一物体に対応する少なくとも一つの物体プロポーザルを第1_2特定物体プロポーザルPB2とした場合、前記学習装置100は、前記ターゲット物体統合ネットワーク126をもって、前記第1_1特定物体プロポーザルPB1と、前記第1_2特定物体プロポーザルPB2との間のIOU(Intersection Over Union)が、第1閾値以上になるかを判断するようにする。その後、前記IOUが前記第1閾値未満と判断されれば、前記第1_1特定物体プロポーザルPB1と、前記第1_2特定物体プロポーザルPB2との間の調整IOUが算出されるようにする。
この際、前記調整IOUは、前記第1_2加工イメージMI2上で前記第1_1特定物体プロポーザルPB1に対応する領域、すなわち、交差領域PB1,MI2と、前記第1_1加工イメージMI1上で前記第1_2特定物体プロポーザルPB2に対応する領域、すなわち、交差領域PB2,MI1とを参照して算出されたIOUである。
しかし、前記調整IOUが前記第2閾値以上と判断されれば、前記学習装置100は、前記第1_1特定物体プロポーザルPB1と、前記第1_2特定物体プロポーザルPB2との中から、(i)確率値の高い特定物体プロポーザルを選択するようにするか(ii)前記トレーニングビデオの現在フレームである前記第1フレーム上で演算される面積の大きい特定物体プロポーザルを選択するようにすることにより、前記選択された特定物体プロポーザルを前記特定同一物体に対応する特定統合物体プロポーザルとして生成する。
しかし、前記調整IOUが前記第2閾値未満と判断されれば、前記学習装置100は、前記第1_1特定物体プロポーザルPB1と、前記第1_2特定物体プロポーザルPB2とが、それぞれ異なる物体に対応すると判断する。つまり、前記第1_1特定物体プロポーザルPB1と、前記第1_2特定物体プロポーザルPB2との間の前記IOUが前記第1閾値未満であり、これらの間の前記調整IOUが前記第2閾値未満と判断されれば、前記学習装置100は、前記第1_1特定物体プロポーザルPB1と、前記第1_2特定物体プロポーザルPB2とがそれぞれ異なる物体に対応するものと判断する。
一方、前記第1_1特定物体プロポーザルPB1と、前記第2特定物体プロポーザルPB2との間の前記IOUが前記第1閾値以上であると判断されれば、前記学習装置は、前記第1_1特定物体プロポーザルPB1と、前記第1_2特定物体プロポーザルPB2との中から(i)確率値の高い特定物体プロポーザルを選択するようにするか(ii)それぞれの前記加工イメージMI1及びMI2上で演算される面積の大きい特定物体プロポーザルを選択するようにすることにより、前記選択された特定物体プロポーザルを前記特定同一物体に対応する前記特定統合物体プロポーザルとして生成する。
また、図5を参照すれば、前記第1_1加工イメージMI1及び前記第1_2加工イメージMI2上に少なくとも一つの特定同一物体が位置し、前記第1_1加工イメージMI1上で、前記第1_1物体検出情報に含まれた物体バウンディングボックスの中の、前記特定同一物体に対応する少なくとも一つの物体バウンディングボックスを第1_1特定物体バウンディングボックスBB1とし、前記第1_2加工イメージMI2上で、前記第1_2物体検出情報に含まれた物体バウンディングボックスの中の、前記特定同一物体に対応する少なくとも一つの物体バウンディングボックスを第1_2特定物体バウンディングボックスBB2とした場合、前記学習装置100は、前記ターゲット物体統合ネットワーク126をもって、前記第1_1特定物体バウンディングボックスBB1と、前記第1_2特定物体バウンディングボックスBB2との間のIOUが、前記第1閾値以上になるかを判断するようにする。この際、前記物体プロポーザル間のIOU判断に利用された前記第1閾値と、前記物体バウンディングボックス間のIOU判断に利用された前記第1閾値とは、同じこともあり得、同じくないこともあり得る。その後、前記バウンディングボックス間のIOUが前記第1閾値未満と判断されれば、前記第1_1特定物体バウンディングボックスBB1と、前記第1_2特定物体バウンディングボックスBB2との間の調整IOUが算出される。
この際、前記調整IOUは、前記第1_2加工イメージMI2上で前記第1_1特定物体バウンディングボックスBB1に対応する領域、すなわち、交差領域BB1,MI2と、前記第1_1加工イメージMI1上で前記第1_2特定物体バウンディングボックスBB2に対応する領域、すなわち、交差領域BB2,MI1とを参照して算出されたIOUである。
そして、前記調整IOUが前記第2閾値以上と判断されれば、前記学習装置100は、前記第1_1特定物体バウンディングボックスBB1と、前記第1_2特定物体バウンディングボックスBB2との中から、(i)確率値の高い特定物体バウンディングボックスを選択するようにするか(ii)前記トレーニングビデオの現在フレームである前記第1フレーム上で演算される面積の大きい特定物体バウンディングボックスを選択するようにすることにより、前記選択された特定物体バウンディングボックスを前記特定同一物体に対応する特定統合物体検出情報として生成する。この際、前記物体プロポーザル間のIOU判断に利用された前記第2閾値と、前記物体バウンディングボックス間のIOU判断に利用された前記第2閾値とは、同じこともあり得、同じくないこともあり得る。
しかし、前記調整IOUが前記第2閾値未満と判断されれば、前記学習装置100は、前記第1_1特定物体バウンディングボックスBB1と、前記第1_2特定物体バウンディングボックスBB2とが、それぞれ異なる物体に対応すると判断する。つまり、前記第1_1特定物体バウンディングボックスBB1と、前記第1_2特定物体バウンディングボックスBB2との間の前記IOUが前記第1閾値未満であり、これらの間の前記調整IOUが前記第2閾値未満と判断されれば、前記学習装置100は、前記第1_1特定物体バウンディングボックスBB1と、前記第1_2特定物体バウンディングボックスBB2とがそれぞれ異なる物体に対応するものと判断する。
一方、前記第1_1特定物体バウンディングボックスBB1と、前記第1_2特定物体バウンディングボックスBB2との間の前記IOUが前記第1閾値以上であると判断されれば、前記学習装置は、前記第1_1特定物体バウンディングボックスBB1と、前記第1_2特定物体バウンディングボックスBB2との中から(i)確率値の高い特定物体バウンディングボックスを選択するようにするか(ii)それぞれの前記加工イメージMI1及びMI2上で演算される面積の大きい特定物体バウンディングボックスを選択するようにすることにより、前記選択された特定物体バウンディングボックスを前記特定同一物体に対応する前記特定統合物体検出情報として生成する。
次に、前記学習装置100は、少なくとも一つのFCロスレイヤ128をもって、前記第1統合物体検出情報と、これに対応するGTとを参照して一つ以上の第1FCロスを取得するようにすることで、前記第1FCロスを利用したバックプロパゲーションによって、前記FCレイヤ125及び前記コンボリューションレイヤ122のパラメータの中の少なくとも一部を学習し得る。
また、前記学習装置100は、少なくとも一つのRPNロスレイヤ129をもって、前記第1物体プロポーザルと、これに対応するGTとを参照して一つ以上の第1RPNロスを取得するようにすることで、前記第1RPNロスを利用したバックプロパゲーションによって前記RPN123のパラメータの中の少なくとも一部を調整し得る。
次に、前記学習装置100は、ターゲット物体予測ネットワーク127をもって、前記第1_1加工イメージないし前記1_n加工イメージ上の前記第1_1物体プロポーザルないし前記第1_n物体プロポーザルを参照して、前記第1_1加工イメージないし前記第1_n加工イメージ上で前記ターゲット物体が位置するものと予測される領域に対応する第1ターゲット領域を探すようにし得る。
一例として、図6を参照すれば、前記ターゲット物体予測ネットワーク127は(i)特定加工イメージをMxNグリッドに区分し、(ii)前記第1_1物体プロポーザルないし前記第1_n物体プロポーザルのうち、前記グリッドの各セルごとにそれぞれ対応するプロポーザルの数を示す少なくとも一つ以上のヒストグラムを生成し、前記グリッドの各セル内にそれに対応する前記プロポーザルそれぞれの全体領域または分割の領域が存在し、好ましくは、前記対応するプロポーザルのサイズが、前記RPN123から出力された前記物体プロポーザルのうち、前記ターゲット物体のサイズに対応する予め設定されたサイズより小さくなるようにすることができ、(iii)前記第1ターゲット領域のサイズに対応するPxQサイズを有するムービングウィンドウの少なくとも一つの領域を利用して前記ターゲット領域TRを決定し、前記少なくとも一つの領域は、前記ムービングウィンドウの位置を変更して占有されるすべての領域の中の前記ヒストグラムの合計が最も大きい値を有し得る。
次に、前記学習装置100は、前記ターゲット領域予測ネットワーク121をもって、前記トレーニングビデオの前記第1フレームの次のフレームである第2フレーム上で、前記第1ターゲット領域が位置するものと予測される、少なくとも一つの領域に対応する第2予測ターゲット領域を探すようにすることができる。
その後、前記学習装置100は、前記イメージ加工ネットワーク111をもって、前記第2フレームに対応する第2イメージピラミッドに含まれた第2_1イメージないし第2_nイメージそれぞれにおいて、第2予測ターゲット領域にそれぞれ対応する第2_1加工イメージないし第2_n加工イメージを生成するようにし、前記第2_1加工イメージないし前記第2_n加工イメージをコンカチネート(concatenate)した第2統合トレーニングイメージを生成するようにし、前記のような過程を繰り返し、前記トレーニングビデオ上でのターゲット物体を効果的に検出し得るようになる。
つまり、前記学習装置100は、kを2からnまで増加させながら、(i)前記ターゲット物体予測ネットワーク127をもって、第k−1統合トレーニングイメージ上の第(k−1)_1物体プロポーザルないし第(k−1)_n物体プロポーザルを参照して、第k−1フレーム上で前記ターゲット物体が位置するものと予測される第k−1ターゲット領域を探すようにし、(ii)前記ターゲット領域予測ネットワーク121をもって、前記第kフレーム上で前記第k−1ターゲット領域が位置するものと予測される一つ以上の領域に対応する第k予測ターゲット領域を探すようにするプロセスを遂行するか、他の装置をもって遂行するよう支援し得る。次に、前記学習装置100は、イメージ加工ネットワーク121をもって、前記第kフレームに対応する第kイメージピラミッド内に含まれた第k_1イメージないし第k_nイメージそれぞれから、前記k予測ターゲット領域にそれぞれ対応する、第k_1加工イメージないし第k_n加工イメージを生成するようにし、前記第k_1加工イメージないし第k_n加工イメージをコンカチネートした第k統合トレーニングイメージを出力するようにする。その後、前記学習装置100は(i)前記コンボリューションレイヤ122をもって、前記コンボリューション演算を前記第k統合トレーニングイメージに適用することにより、第k統合特徴マップを出力するようにし、(ii)前記RPN123をもって、前記第k特徴マップを利用して、前記第k統合トレーニングイメージに含まれた前記第k_1加工イメージないし前記第k_n加工イメージそれぞれに位置する一つ以上の前記物体に対応する第k_1物体プロポーザルないし第k_n物体プロポーザルを出力するようにし、(iii)前記プーリングレイヤ124をもって、前記第k統合特徴マップ上で、前記第k_1物体プロポーザルないし前記第k_n物体プロポーザルに対応するそれぞれの領域に前記プーリング演算を適用して、少なくとも一つの第kプーリング済み統合特徴マップを出力させ、(iv)前記FCレイヤ125をもって、前記第kプーリング済み統合特徴マップに前記FC演算を適用して、前記物体に対応する第k_1物体検出情報ないし第k_n物体検出情報を出力するようにする。その後、前記学習装置100は(i)前記ターゲット物体統合ネットワーク126をもって、前記第k_1物体プロポーザルないし前記第k_n物体プロポーザルを統合して第k統合物体プロポーザルを生成するようにし、前記第k_1物体検出情報ないし前記第k_n物体検出情報を統合して第k統合物体検出情報を生成するようにするプロセス、及び(ii)前記FCロスレイヤ128をもって、前記第k統合物体検出情報及びこれに対応するGTを参照して一つ以上の第kFCロスを算出するようにすることで、前記第kFCロスを利用したバックプロパゲーション(Backpropagation)によって、前記FCレイヤ125と、前記コンボリューションレイヤ122のパラメータとの中の少なくとも一部を学習するプロセスを遂行し得る。また、前記学習装置100は、前記RPNロスレイヤ129をもって、前記第k物体プロポーザルと、これに対応するGTとを参照して一つ以上の第kRPNロスを取得するようにすることで、前記第kRPNロスを利用したバックプロパゲーションによって前記RPN123のパラメータの中の少なくとも一部を学習し得る。
前記のような方法により、前記トレーニングビデオのそれぞれのフレームに位置するサイズが様々な物体、特にサイズが小さく、遠距離に位置した前記物体を効率的に検出し得るようになり、また、前記予測されたターゲット領域に対応する領域のみを利用することで演算量を減らし得、これによって前記CNN基盤の前記物体検出の演算時間を減らし得るようになる。
また、前記では、前記トレーニングビデオのそれぞれの前記フレーム上にターゲット物体が一つである場合を想定して説明したが、前記トレーニングビデオのそれぞれの前記フレーム上にターゲット物体多数がある場合でも、前記のような方法により前記トレーニングビデオのそれぞれの前記フレーム上に前記それぞれのターゲット物体に対応するそれぞれのターゲット領域を利用して、前記それぞれのターゲット物体の検出が可能である。
図7は、本発明の一例に係る前記ターゲット物体統合ネットワークと、前記ターゲット領域予測ネットワークとを利用した、前記CNN基盤の前記物体検出器をテスティングするテスティング装置を概略的に示したもので、図7を参照すれば、前記テスティング装置200は、通信部210とプロセッサ220とを含み得る。
まず、前記通信部210は、少なくとも一つのテストビデオを取得するか、他の装置をもって取得するように支援し得る。
また、前記テスティング装置は、後述するプロセスを遂行するコンピュータ読み取り可能なインストラクション(computer readable instruction)を格納し得るメモリ215を追加的に含み得る。一例として、前記プロセッサ、前記メモリ、及び媒体(medium)等は、一つのプロセッサに統合されて機能することもできる。
この際、前記ターゲット物体統合ネットワークと、前記ターゲット領域予測ネットワークとを利用した前記CNN基盤の前記物体検出器は、図1ないし図6を参照して説明された前記学習方法で学習され得る。
参考までに、以下の説明において混乱を避けるために、前記学習プロセスに関連する用語には「学習用」という単語が追加され、テスト用プロセスに関連する用語には「テスト用」という単語が追加された。
つまり、少なくとも一つのトレーニングビデオが取得されると、前記学習装置が、(i)イメージ加工ネットワークをもって、前記トレーニングビデオの現在フレームである第1学習用フレームに対応する第1学習用イメージピラミッドに含まれた第1_1トレーニングイメージないし第1_nトレーニングイメージそれぞれから、少なくとも一つの学習用ターゲット物体が位置すると推定される第1学習用予測ターゲット領域にそれぞれ対応する、第1_1学習用加工イメージないし前記第1_n学習用加工イメージを生成するようにし、前記第1_1学習用加工イメージないし第1_n学習用加工イメージをコンカチネートした第1統合トレーニングイメージを生成するようにし、(ii)前記コンボリューションレイヤをもって、前記コンボリューション演算を前記第1統合トレーニングイメージに適用することで、少なくとも一つの第1学習用特徴マップを出力させ、前記RPN(Region Proposal Network)をもって、前記第1学習用特徴マップを利用して、前記第1統合トレーニングイメージに含まれた前記第1_1学習用加工イメージないし前記第1_n学習用加工イメージそれぞれに位置する一つ以上の学習用物体に対応する第1_1学習用物体プロポーザルないし第1_n学習用物体プロポーザルを出力させ、前記プーリングレイヤをもって、前記第1学習用特徴マップ上で、前記第1_1学習用物体プロポーザルないし前記第1_n学習用物体プロポーザルに対応する一つ以上の領域に前記プーリング演算を適用して、少なくとも一つの第1学習用プーリング済み特徴マップを出力させ、前記FC(fully connected)レイヤをもって、前記第1学習用プーリング済み特徴マップに前記FC演算を適用して、前記学習用物体に対応する第1_1学習用物体検出情報ないし第1_n学習用物体検出情報を出力させ、(iii)前記ターゲット物体統合ネットワークをもって、前記学習用第1_1物体プロポーザルないし前記第1_n学習用物体プロポーザルを統合して第1学習用統合物体プロポーザルを生成するようにし、前記第1_1学習用物体検出情報ないし前記第1_n学習用物体検出情報を統合して第1学習用統合物体検出情報を生成するようにし、前記FCロスレイヤをもって、前記第1学習用統合物体検出情報及びこれに対応するGTを参照して一つ以上の第1FCロスを生成するようにすることで、前記第1FCロスを利用したバックプロパゲーション(Backpropagation)によって、前記FCレイヤと、前記コンボリューションレイヤのパラメータとの中の少なくとも一部を学習するプロセスを遂行する。その後、前記学習装置が、kを2からnまで増加させながら、(i)前記ターゲット物体予測ネットワークをもって、第k−1統合トレーニングイメージ上の第(k−1)_1学習用物体プロポーザルないし第(k−1)_n学習用物体プロポーザルを参照して、前記第k−1学習用フレーム上で、前記学習用ターゲット物体が位置すると予測される第k−1学習用ターゲット領域を探すようにし、前記ターゲット領域予測ネットワークをもって、第k学習用フレーム上で、前記k−1学習用ターゲット領域が位置すると予測される一つ以上の領域に対応する第k学習用予測ターゲット領域を探すようにし、(ii)前記イメージ加工ネットワークをもって、前記第k学習用フレームに対応する第k学習用イメージピラミッド内に含まれた第k_1トレーニングイメージないし第k_nトレーニングイメージそれぞれから、前記k学習用予測ターゲット領域にそれぞれ対応する、第k_1学習用加工イメージないし第k_n学習用加工イメージを生成するようにし、前記第k_1学習用加工イメージないし第k_n学習用加工イメージをコンカチネートした第k統合トレーニングイメージを出力するようにし、(iii)前記コンボリューションレイヤをもって、前記コンボリューション演算を前記第k統合トレーニングイメージに適用することにより、第k学習用特徴マップを出力するようにし、前記RPNをもって、前記第k学習用特徴マップを利用して、前記第k統合トレーニングイメージ内に含まれた前記第k_1学習用加工イメージないし前記第k_n学習用加工イメージそれぞれに位置する一つ以上の前記学習用物体に対応する第k_1学習用物体プロポーザルないし第k_n学習用物体プロポーザルを出力するようにし、前記プーリングレイヤをもって、前記第k学習用特徴マップ上で、前記第k_1学習用物体プロポーザルないし前記第k_n学習用物体プロポーザルに対応する一つ以上の領域に前記プーリング演算を適用して、少なくとも一つの第k学習用プーリング済み特徴マップを出力させ、前記FCレイヤをもって、前記第k学習用プーリング済み特徴マップに前記FC演算を適用して、前記学習用物体に対応する第k_1学習用物体検出情報ないし第k_n学習用物体検出情報を出力させ、(iv)前記ターゲット物体統合ネットワークをもって、前記第k_1学習用物体プロポーザルないし前記第k_n学習用物体プロポーザルを統合して第k学習用統合物体プロポーザルを生成するようにし、前記第k_1学習用物体検出情報ないし前記第k_n学習用物体検出情報を統合して第k学習用統合物体検出情報を生成するようにし、前記FCロスレイヤをもって、前記第k学習用統合物体検出情報及びこれに対応するGTを参照して一つ以上の第kFCロスを生成するようにすることで、前記第kFCロスを利用したバックプロパゲーション(Backpropagation)によって、前記FCレイヤと、前記コンボリューションレイヤのパラメータとの中の少なくとも一部を学習するプロセスを遂行し得る。
また、前記学習装置は、前記RPNロスレイヤをもって、前記第1学習用統合物体プロポーザル情報と、これに対応するGTとを参照して一つ以上の第1RPNロスを取得するようにすることで、前記第1RPNロスを利用したバックプロパゲーションによって前記RPNのパラメータの中の少なくとも一部を学習するようにし、前記RPNロスレイヤをもって、前記第k学習用統合物体プロポーザル情報と、これに対応するGTとを参照して一つ以上の第kRPNロスを取得するようにすることで、前記第kRPNロスを利用したバックプロパゲーションによって前記RPNの前記パラメータの中の少なくとも一部を学習し得る。
その後、前記プロセッサ220は、(i)前記イメージ加工ネットワークをもって、前記テストビデオの現在フレームである第1テスト用フレームに対応する第1テスト用イメージピラミッドに含まれた第1_1テストイメージないし第1_nテストイメージそれぞれから、少なくとも一つのテスト用ターゲット物体が位置すると推定される第1テスト用予測ターゲット領域にそれぞれ対応する、第1_1テスト用加工イメージないし前記第1_nテスト用加工イメージを生成するようにし、前記第1_1テスト用加工イメージないし第1_nテスト用加工イメージをコンカチネートした第1統合テストイメージを生成するようにし、(ii)前記コンボリューションレイヤをもって、前記コンボリューション演算を前記第1統合テストイメージに適用することで、少なくとも一つの第1テスト用特徴マップを出力させ、前記RPNをもって、前記第1テスト用特徴マップを利用して、前記第1統合テストイメージ内に含まれた前記第1_1テスト用加工イメージないし前記第1_nテスト用加工イメージそれぞれに位置する一つ以上のテスト用物体に対応する第1_1テスト用物体プロポーザルないし第1_nテスト用物体プロポーザルを出力させ、前記プーリングレイヤをもって、前記第1テスト用特徴マップ上で、前記第1_1テスト用物体プロポーザルないし前記第1_nテスト用物体プロポーザルに対応する一つ以上の領域に前記プーリング演算を適用して、少なくとも一つの第1テスト用プーリング済み特徴マップを出力させ、前記FCレイヤをもって、前記第1テスト用プーリング済み特徴マップに前記FC演算を適用して、前記テスト用物体に対応する第1_1テスト用物体検出情報ないし第1_nテスト用物体検出情報を出力させ、(iii)前記ターゲット物体統合ネットワークをもって、前記第1_1テスト用物体プロポーザルないし前記第1_nテスト用物体プロポーザルを統合して第1テスト用統合物体プロポーザルを生成するようにし、前記第1_1テスト用物体検出情報ないし前記第1_nテスト用物体検出情報を統合して第1テスト用統合物体検出情報を生成するようにするプロセスを遂行し得る。その後、前記プロセッサ220は、kを2からnまで増加させながら、(i)前記ターゲット物体予測ネットワークをもって、第k−1統合テストイメージ上の第(k−1)_1テスト用物体プロポーザルないし第(k−1)_nテスト用物体プロポーザルを参照して、前記第k−1テスト用フレーム上で、前記テスト用ターゲット物体が位置すると予測される第k−1テスト用ターゲット領域を探すようにし、前記ターゲット領域予測ネットワークをもって、第kテスト用フレーム上で、前記k−1テスト用ターゲット領域が位置すると予測される一つ以上の領域に対応する第kテスト用予測ターゲット領域を探すようにし、(ii)前記イメージ加工ネットワークをもって、前記第kテスト用フレームに対応する第kテスト用イメージピラミッド内に含まれた第k_1テストイメージないし第k_nテストイメージそれぞれから、前記kテスト用予測ターゲット領域にそれぞれ対応する、第k_1テスト用加工イメージないし第k_nテスト用加工イメージを生成するようにし、前記第k_1テスト用加工イメージないし第k_nテスト用加工イメージをコンカチネートした第k統合テスト用イメージを出力するようにし、(iii)前記コンボリューションレイヤをもって、前記コンボリューション演算を前記第k統合テストイメージに適用することで第kテスト用特徴マップを出力させ、前記RPNをもって、前記第kテスト用特徴マップを利用して、前記第k統合テストイメージ内に含まれた前記第k_1テスト用加工イメージないし前記第k_nテスト用加工イメージそれぞれに位置する前記テスト用物体に対応する第k_1テスト用物体プロポーザルないし第k_nテスト用物体プロポーザルを出力させ、前記プーリングレイヤをもって、前記第kテスト用特徴マップ上で、前記第k_1テスト用物体プロポーザルないし前記第k_nテスト用物体プロポーザルに対応する一つ以上の領域に前記プーリング演算を適用して、少なくとも一つの第kテスト用プーリング済み特徴マップを出力させ、前記FCレイヤをもって、前記第kテスト用プーリング済み特徴マップに前記FC演算を適用して、前記テスト用物体に対応する第k_1テスト用物体検出情報ないし第k_nテスト用物体検出情報を出力させ、(iv)前記ターゲット物体統合ネットワークをもって、前記第k_1テスト用物体プロポーザルないし前記第k_nテスト用物体プロポーザルを統合して第kテスト用統合物体プロポーザルを生成するようにし、前記第k_1テスト用物体検出情報ないし前記第k_nテスト用物体検出情報を統合して第kテスト用統合物体検出情報を生成するようにプロセスを遂行し得る。
この際、本発明の一例に係るテスティング装置200は、コンピューティング装置であり、プロセッサを搭載して演算能力を備えた装置であればいくらでも本発明に係る学習装置200として採択され得る。また、図6では一つのテスティング装置200のみを示したが、これに限定されず、テスティング装置は複数に分けて役割を遂行することもできる。
本発明の一例に係る前記テスティング装置200を利用して、前記ターゲット物体統合ネットワーク及び前記ターゲット領域予測ネットワークを利用した前記CNN基盤物体検出器をテスティングする方法を、図8を参照して説明する。以下の説明で、図1ないし図6を参照して説明した前記学習方法により容易に理解可能な部分については、詳細な説明を省略することにする。
まず、図1ないし図6を参照して説明した学習方法によってFCレイヤ225と、コンボリューションレイヤ222と、RPN223のパラメータとの中の少なくとも一部が学習された状態で、前記テストビデオイメージが入力されると、前記テスティング装置200がイメージ加工ネットワーク211をもって、前記テストビデオ内の現在フレームである第1フレームに含まれた前記第1_1テストイメージないしテストイメージそれぞれにおいて、少なくとも一つのテスト用ターゲット物体が位置するものと予測される、前記第1予測ターゲット領域に対応する前記第1_1テスト用加工イメージないし前記第1_nテスト用加工イメージを生成するようにする。
ここで、前記第1テスト用予測ターゲット領域は、前記ターゲット領域予測ネットワーク221によって設定されるか、前記第1_1テストイメージないし前記1_nテストイメージを参照して予測され得る。
次に、前記テスト装置200は、前記イメージ加工ネットワーク211をもって、前記第1_1テスト用加工イメージないし前記第1_nテスト用加工イメージをコンカチネートした前記第1統合テストイメージを生成するようにできる。
この際、前記テスティング装置200は、前記イメージ加工ネットワーク211をもって、前記第1_1テスト用加工イメージないし前記第1_nテスト用加工イメージの幅と高さのうち少なくとも一つを同一に調整した後、同一に調整された前記幅または前記高さ方向に前記第1_1テスト用調整済み加工イメージないし前記第1_nテスト用調整済み加工イメージをコンカチネートするようにし得る。他の例示として、前記テスト用加工イメージの幅を同一に調整した後、前記調整された幅を利用して前記それぞれのテスト用加工イメージをコンカチネートするか、前記幅と前記高さとを同一に調整した後、前記それぞれのテスト用加工イメージを大きな正方形状にコンカチネートすることができる。
そして、前記テスト装置200は、前記イメージ加工ネットワーク211をもって、前記第1_1テスト用調整済み加工イメージないし前記第1_nテスト用調整済み加工イメージのうち、コンカチネートされた隣接するそれぞれの二つのテスト用調整済み加工イメージから構成されるそれぞれのペアの間にそれぞれ少なくとも一つのゼロパディング(zero padding)領域を追加するようにすることができる。この際、前記コンボリューションレイヤの前記多重コンボリューション演算によって前記統合テストイメージが1/Sに縮小され、前記コンボリューションレイヤそれぞれのカーネルそれぞれの最大サイズをK×Kとする場合、前記ゼロパディング領域の幅が
Figure 0006908944
になるようにすることができる。
次に、前記テスティング装置200は、前記コンボリューションレイヤ222をもって、前記第1統合テストイメージに前記コンボリューション演算を適用することにより、少なくとも一つの第1テスト用統合特徴マップを出力させることができる。この際、前記コンボリューションレイヤ222は、単一のコンボリューションレイヤでもあり得、多数のコンボリューションレイヤでもあり得る。
次に、前記テスト装置200は、前記RPN223をもって、前記第1テスト用統合特徴マップを利用して、前記第1統合テストイメージに含まれた前記第1_1テスト用加工イメージないし前記第1_nテスト用加工イメージ内に位置する前記テスト用物体に対応する一つ以上の第1_1テスト用物体プロポーザルないし一つ以上の第1_nテスト用物体プロポーザルを出力させることができる。
この際、前記第1_1テスト用物体プロポーザルないし前記第1_nテスト用物体プロポーザルそれぞれは、前記テスト用物体それぞれ、つまり、タグ付けされた領域に対応する位置情報と、前記タグ付けされた領域が物体であるか否かに関する情報を有する各テスト用プロポーザルボックスに関する情報とを含むことができる。
次に、前記テスティング装置200は、プーリングレイヤ224をもって、前記第1テスト用統合特徴マップ上で、前記第1_1テスト用物体プロポーザルないし前記第1_nテスト用物体プロポーザルそれぞれに対応するそれぞれの領域に前記プーリング演算を適用して、少なくとも一つの第1テスト用プーリング済み統合特徴マップを出力させ、前記FCレイヤ225をもって、前記第1テスト用プーリング済み統合特徴マップに前記FC演算を適用して、前記テスト用物体に対応する第1_1テスト用物体検出情報ないし第1_nテスト用物体検出情報を出力させることができる。
この際、前記第1_1テスト用物体検出情報ないし前記第1_nテスト用物体検出情報は、テスト用バウンディングボックスに関する情報(すなわち、前記テスト用物体それぞれに関する位置情報)及び前記第1_1テスト用物体プロポーザルないし前記第1_nテスト用物体プロポーザルに対応する前記テスト用物体それぞれに関するクラス情報を含むことができる。
その後、前記テスティング装置200は、(i)前記ターゲット物体統合ネットワーク226をもって、前記第1_1テスト用物体プロポーザルないし前記第1_nテスト用物体プロポーザルを統合して第1テスト用統合物体プロポーザルを生成するようにし、前記第1_1テスト用物体検出情報ないし前記第1_nテスト用物体検出情報を統合して第1テスト用統合物体検出情報を生成するようにする。ここで、前記第1_1テスト用物体プロポーザルないし前記第1_nテスト用物体プロポーザルに対する情報は、前記テストビデオ内の前記現在のフレームである前記第1フレームに対応するように変換され得る。
一例として、図5を参照すれば、前記第1_1テスト用加工イメージMI1及び前記第1_2テスト用加工イメージMI2上に少なくとも一つのテスト用特定同一物体が位置し、前記第1_1テスト用加工イメージMI1上の前記第1_1テスト用物体プロポーザルの中の、前記テスト用特定同一物体に対応する少なくとも一つのテスト用物体プロポーザルを第1_1テスト用特定物体プロポーザルPB1とし、前記第1_2テスト用加工イメージMI2上で、前記第1_2テスト用物体プロポーザルの中の、前記テスト用特定同一物体に対応する少なくとも一つのテスト用物体プロポーザルを第1_2テスト用特定物体プロポーザルPB2であるとする場合、前記テスティング装置200は、前記ターゲット物体統合ネットワーク226をもって、前記第1_1テスト用特定物体プロポーザルPB1と、前記第1_2テスト用特定物体プロポーザルPB2との間のテスト用IOUが、第1閾値以上になるかを判断するようにする。その後、前記テスト用IOUが前記第1閾値未満と判断されれば、前記第1_1テスト用特定物体プロポーザルPB1と、前記第1_2テスト用特定物体プロポーザルPB2との間のテスト用調整IOUが算出されるようにする。
この際、前記テスト用調整IOUは、前記第1_2テスト用加工イメージMI2上で前記第1_1テスト用特定物体プロポーザルPB1に対応する領域、すなわち、交差領域PB1,MI2と、前記第1_1テスト用加工イメージMI1上で前記第1_2テスト用特定物体プロポーザルPB2に対応する領域、すなわち、交差領域PB2,MI1とを参照して算出されたIOUである。
そして、前記テスト用調整IOUが前記第2閾値以上と判断されれば、前記テスティング装置200は、前記第1_1テスト用特定物体プロポーザルPB1と、前記第1_2テスト用特定物体プロポーザルPB2との中から、(i)確率値の高いテスト用特定物体プロポーザルを選択するようにするか(ii)前記テストビデオの現在フレームである前記第1テスト用フレーム上で演算される面積の大きいテスト用特定物体プロポーザルを選択させることにより、前記選択されたテスト用特定物体プロポーザルを前記テスト用特定同一物体に対応するテスト用特定統合物体プロポーザルとして生成する。
しかし、前記テスト用調整IOUが前記第2閾値未満と判断されれば、前記テスティング装置200は、前記第1_1テスト用特定物体プロポーザルPB1と、前記第1_2テスト用特定物体プロポーザルPB2とが、それぞれ異なるテスト用物体に対応すると判断する。つまり、前記第1_1テスト用特定物体プロポーザルPB1と、前記第1_2テスト用特定物体プロポーザルPB2との間の前記テスト用IOUが前記第1閾値未満であり、これら間の前記テスト用調整IOUが前記第2閾値未満と判断されれば、前記テスティング装置200は、前記第1_1テスト用特定物体プロポーザルPB1と、前記第1_2テスト用特定物体プロポーザルPB2とがそれぞれ異なる物体に対応するものと判断する。
つまり、前記第1_1テスト用特定物体プロポーザルPB1と、前記第1_2テスト用特定物体プロポーザルPB2との間の前記IOUが前記第1閾値以上であると判断されれば、前記テスティング装置は、前記第1_1テスト用特定物体プロポーザルPB1と、前記第1_2テスト用特定物体プロポーザルPB2との中から(i)確率値の高いテスト用特定物体プロポーザルを選択するようにするか(ii)それぞれの前記テスト用加工イメージMI1及びMI2上で演算される面積の大きいテスト用特定物体プロポーザルを選択するようにすることにより、前記選択されたテスト用特定物体プロポーザルを前記テスト用特定同一物体に対応する前記テスト用特定統合物体プロポーザルとして生成する。
また、図5を参照すれば、前記第1_1テスト用加工イメージMI1及び前記第1_2テスト用加工イメージMI2上に少なくとも一つのテスト用特定同一物体が位置し、前記第1_1テスト用加工イメージMI1上で、前記第1_1テスト用物体検出情報に含まれたテスト用物体バウンディングボックスの中の、前記テスト用特定同一物体に対応する少なくとも一つのテスト用物体バウンディングボックスを第1_1テスト用特定物体バウンディングボックスBB1とし、前記第1_2テスト用加工イメージMI2上で、前記第1_2テスト用物体検出情報に含まれたテスト用物体バウンディングボックスの中の、前記テスト用特定同一物体に対応する少なくとも一つのテスト用物体バウンディングボックスを第1_2テスト用特定物体バウンディングボックスBB2とした場合、前記テスティング装置200は、前記ターゲット物体統合ネットワーク226をもって、前記第1_1テスト用特定物体バウンディングボックスBB1と、前記第1_2テスト用特定物体バウンディングボックスBB2との間の前記テスト用IOUが、前記第1閾値以上になるかを判断するようにする。この際、前記テスト用物体プロポーザル間のテスト用IOU判断に利用された前記第1閾値と、前記テスト用物体バウンディングボックス間のテスト用IOU判断に利用された前記第1閾値とは、同じこともあり得、同じくないこともあり得る。その後、前記テスト用バウンディングボックス間の前記テスト用IOUが前記第1閾値未満と判断されれば、前記第1_1テスト用特定物体バウンディングボックスBB1と、前記第1_2テスト用特定物体バウンディングボックスBB2との間のテスト用調整IOUが算出される。
この際、前記テスト用調整IOUは、前記第1_2テスト用加工イメージMI2上で前記第1_1テスト用特定物体バウンディングボックスBB1に対応する領域、すなわち、交差領域BB1,MI2と、前記第1_1テスト用加工イメージMI1上で前記第1_2テスト用特定物体バウンディングボックスBB2に対応する領域、すなわち、交差領域BB2,MI1とを参照して算出されたIOUである。
そして、前記テスト用調整IOUが前記第2閾値以上と判断されれば、前記テスティング装置200は、前記第1_1テスト用特定物体バウンディングボックスBB1と、前記第1_2テスト用特定物体バウンディングボックスBB2との中から、(i)確率値の高いテスト用特定物体バウンディングボックスを選択するようにするか(ii)前記テストビデオの現在フレームである前記第1テスト用フレーム上で演算される面積の大きいテスト用特定物体バウンディングボックスを選択させることにより、前記選択されたテスト用特定物体バウンディングボックスを前記テスト用特定同一物体に対応するテスト用特定統合物体検出情報として生成する。この際、前記テスト用物体プロポーザル間のテスト用IOU判断に利用された前記第2閾値と、前記テスト用物体バウンディングボックス間のテスト用IOU判断に利用された前記第2閾値とは、同じこともあり得、同じくないこともあり得る。
しかし、前記テスト用調整IOUが前記第2閾値未満と判断されれば、前記テスティング装置200は、前記第1_1テスト用特定物体バウンディングボックスBB1と、前記第1_2テスト用特定物体バウンディングボックスBB2とが、それぞれ異なるテスト用物体に対応すると判断する。つまり、前記第1_1テスト用特定物体バウンディングボックスBB1と、前記第1_2テスト用特定物体バウンディングボックスBB2との間の前記テスト用IOUが前記第1閾値未満であり、これらの間の前記テスト用調整IOUが前記第2閾値未満と判断されれば、前記テスティング装置200は、前記第1_1テスト用特定物体バウンディングボックスBB1と、前記第1_2テスト用特定物体バウンディングボックスBB2とがそれぞれ異なるテスト用物体に対応するものと判断する。
一方、前記第1_1テスト用特定物体バウンディングボックスBB1と、前記第1_2テスト用特定物体バウンディングボックスBB2との間の前記テスト用IOUが前記第1閾値未満であると判断されれば、前記テスティング装置は、前記第1_1テスト用特定物体バウンディングボックスBB1と、前記第1_2テスト用特定物体バウンディングボックスBB2との中から(i)確率値の高いテスト用特定物体バウンディングボックスを選択するようにするか(ii)それぞれの前記テスト用加工イメージMI1及びMI2上で演算される面積の大きいテスト用特定物体バウンディングボックスを選択するようにすることにより、前記選択されたテスト用特定物体バウンディングボックスを前記テスト用特定同一物体に対応する前記テスト用特定統合物体検出情報として生成する。
次に、前記テスティング装置200は、前記ターゲット物体予測ネットワーク227をもって、前記第1_1テスト用加工イメージないし前記1_nテスト用加工イメージ上の前記第1_1テスト用物体プロポーザルないし前記第1_nテスト用物体プロポーザルを参照して、前記第1_1テスト用加工イメージないし前記第1_nテスト用加工イメージ上で前記テスト用ターゲット物体が位置するものと予測される領域に対応する第1テスト用ターゲット領域を探すようにする。
その後、前記テスティング装置200は、前記ターゲット領域予測ネットワーク221をもって、前記テストビデオの前記テスト用第1フレームの次のフレームであるテスト用第2フレーム上で、前記第1テスト用ターゲット領域が位置するものと予測される、少なくとも一つの領域に対応する第2テスト用予測ターゲット領域を探すようにする。
その後、前記テスティング装置200は、前記イメージ加工ネットワーク211をもって、前記第2テスト用フレームに対応する第2イメージピラミッドに含まれた第2_1テストイメージないし第2_nテストイメージそれぞれにおいて、第2テスト用予測ターゲット領域にそれぞれ対応する第2_1テスト用加工イメージないし第2_nテスト用加工イメージを生成するようにし、前記第2_1テスト用加工イメージないし前記第2_nテスト用加工イメージをコンカチネートした第2統合トレーニングイメージを生成するようにし、前記のような過程を繰り返し、テストビデオ上での前記ターゲット物体を効果的に検出し得るようになる。
つまり、前記テスティング装置200は、kを2からnまで増加させながら、(i)前記ターゲット物体予測ネットワーク227をもって、第k−1統合テストイメージ上の第(k−1)_1テスト物体プロポーザルないし第(k−1)_nテスト用物体プロポーザルを参照して、第k−1テスト用フレーム上で前記テスト用ターゲット物体が位置するものと予測される第k−1テスト用ターゲット領域を探すようにし、(ii)前記ターゲット領域予測ネットワーク221をもって、前記第kテスト用フレーム上で前記第k−1テスト用ターゲット領域が位置するものと予測される一つ以上の領域に対応する第kテスト用予測ターゲット領域を探すようにするプロセスを遂行するか、他の装置をもって遂行するよう支援し得る。そして、前記テスティング装置200は、前記イメージ加工ネットワーク211をもって、前記第kテスト用フレームに対応する第kテスト用イメージピラミッド内に含まれた第k_1テストイメージないし第k_nテストイメージそれぞれから、前記kテスト用予測ターゲット領域にそれぞれ対応する、第k_1テスト用加工イメージないし第k_nテスト用加工イメージを生成するようにし、前記第k_1テスト用加工イメージないし第k_nテスト用加工イメージをコンカチネートした第k統合テスト用イメージを出力するようにする。その後、前記テスティング装置200は、(i)前記コンボリューションレイヤ222をもって、前記コンボリューション演算を前記第kテストイメージに適用することにより、第kテスト統合特徴マップを出力するようにし、(ii)前記RPN223をもって、前記第kテスト用特徴マップを利用して、前記第k統合テストイメージに含まれた前記第k_1テスト用加工イメージないし前記第k_nテスト用加工イメージそれぞれに位置する前記テスト用物体に対応する第k_1テスト用物体プロポーザルないし第k_nテスト用物体プロポーザルを出力するようにし、(iii)前記プーリングレイヤ224をもって、前記第kテスト用統合特徴マップ上で、前記第k_1テスト用物体プロポーザルないし前記第k_nテスト用物体プロポーザルに対応する各領域に前記プーリング演算を適用して、少なくとも一つの第kテスト用プーリング済み統合特徴マップを出力するようにし、(iv)前記FCレイヤ225をもって、前記第kテスト用プーリング済み統合特徴マップに前記FC演算を適用して、前記テスト用物体に対応する第k_1テスト用物体検出情報ないし第k_nテスト用物体検出情報を出力するようにする。その後、前記テスティング装置200は、前記ターゲット物体統合ネットワーク226をもって、前記第k_1テスト用物体プロポーザルないし前記第k_nテスト用物体プロポーザルを統合して第kテスト用統合物体プロポーザルを生成するようにし、前記第k_1テスト用物体検出情報ないし前記第k_nテスト用物体検出情報を統合して第kテスト用統合物体検出情報を生成するようにプロセスを遂行する。
前記のような方法により、前記テストビデオのそれぞれのフレームに位置するサイズが様々な物体、特にサイズが小さく、遠距離に位置した前記物体を効率的に検出し得るようになり、また、前記予測されたターゲット領域に対応する領域のみを利用することで演算量を減らし得、これによって前記CNN基盤の前記物体検出の演算時間を減らし得るようになる。
また、前記では、前記テストビデオの前記それぞれのフレーム上にターゲット物体が一つである場合を想定して説明したが、前記テストビデオのそれぞれの前記フレーム上に物体が多数ある場合でも、前記のような方法により前記テストビデオのそれぞれの前記フレーム上に前記それぞれの物体に対応するそれぞれのターゲット領域を利用して、前記それぞれの物体の検出が可能である。
前記CNNは、ターゲット物体予測ネットワーク及び物体統合ネットワークを利用して、重要業績評価指標(KPI:Key Performance Index)のようなユーザーの要求事項に合わせて調整可能である。また、前記CNNは、前記重要業績評価指標に係る解像度や焦点距離が変化し、物体のスケールが変化するに伴い再設計され得る。前記方法は、2Dバウンディングボックスの正確度が向上し、多重カメラ、サラウンドビューモニタリング(Surround View Monitoring)などに有用に遂行され得る。
また、以上で説明された本発明に係る実施例は、多様なコンピュータ構成要素を通じて遂行できるプログラム命令語の形態で実装されてコンピュータで判読可能な記録媒体に記録され得る。前記コンピュータで読取り可能な記録媒体はプログラム命令語、データファイル、データ構造などを単独でまたは組み合わせて含まれ得る。前記コンピュータ判読可能な記録媒体に記録されるプログラム命令語は、本発明のために特別に設計されて構成されたものか、コンピュータソフトウェア分野の当業者に公知となって使用可能なものでもよい。コンピュータで判読可能な記録媒体の例には、ハードディスク、フロッピーディスク及び磁気テープのような磁気媒体、CD−ROM、DVDのような光記録媒体、フロプティカルディスク(flopticaldisk)のような磁気−光媒体(magneto−opticalmedia)、およびROM、RAM、フラッシュメモリなどといったプログラム命令語を格納して遂行するように特別に構成されたハードウェア装置が含まれる。プログラム命令語の例には、コンパイラによって作られるもののような機械語コードだけでなく、インタプリタなどを用いてコンピュータによって実行され得る高級言語コードも含まれる。前記ハードウェア装置は、本発明に係る処理を遂行するために一つ以上のソフトウェアモジュールとして作動するように構成され得、その逆も同様である。
以上、本発明が具体的な構成要素などのような特定事項と限定された実施例及び図面によって説明されたが、これは本発明のより全般的な理解を助けるために提供されたものであるに過ぎず、本発明が前記実施例に限られるものではなく、本発明が属する技術分野において通常の知識を有する者であれば係る記載から多様な修正及び変形が行われ得る。
従って、本発明の思想は前記説明された実施例に局限されて定められてはならず、後述する特許請求の範囲だけでなく、本特許請求の範囲と均等または等価的に変形されたものすべては、本発明の思想の範囲に属するといえる。

Claims (28)

  1. ターゲット物体統合ネットワークと、ターゲット領域予測ネットワークとを利用したCNN基盤の物体検出器のパラメータを学習する方法において、
    (a)少なくとも一つのトレーニングビデオが取得されると、学習装置が、(i)イメージ加工ネットワークをもって、前記トレーニングビデオの現在フレームである第1フレームに対応する第1イメージピラミッドに含まれた第1_1イメージないし第1_nイメージそれぞれから、少なくとも一つのターゲット物体が位置すると推定される第1予測ターゲット領域にそれぞれ対応する、第1_1加工イメージないし第1_n加工イメージを生成するようにし、前記第1_1加工イメージないし前記第1_n加工イメージをコンカチネート(concatenate)した第1統合トレーニングイメージを生成するようにし、(ii)一つ以上のコンボリューションレイヤをもって、一つ以上のコンボリューション演算を前記第1統合トレーニングイメージに適用することで、少なくとも一つの第1特徴マップを出力させ、RPN(Region Proposal Network)をもって、前記第1特徴マップを利用して、前記第1統合トレーニングイメージに含まれた前記第1_1加工イメージないし前記第1_n加工イメージそれぞれに位置する一つ以上の物体に対応する第1_1物体プロポーザルないし第1_n物体プロポーザルを出力させ、プーリングレイヤをもって、前記第1特徴マップ上で、前記第1_1物体プロポーザルないし前記第1_n物体プロポーザルに対応する一つ以上の領域に一つ以上のプーリング演算を適用して、少なくとも一つの第1プーリング済み特徴マップを出力させ、FC(fully connected)レイヤをもって、前記第1プーリング済み特徴マップに一つ以上のFC演算を適用して、前記物体に対応する第1_1物体検出情報ないし第1_n物体検出情報を出力させ、(iii)ターゲット物体統合ネットワークをもって、前記第1_1物体プロポーザルないし前記第1_n物体プロポーザルを統合して第1統合物体プロポーザルを生成するようにし、前記第1_1物体検出情報ないし前記第1_n物体検出情報を統合して第1統合物体検出情報を生成するようにし、少なくとも一つのFCロスレイヤをもって、前記第1統合物体検出情報及びこれに対応するGTを参照して一つ以上の第1FCロスを生成するようにすることで、前記第1FCロスを利用したバックプロパゲーション(Backpropagation)によって、前記FCレイヤと、前記コンボリューションレイヤのパラメータとの中の少なくとも一部を学習する段階;及び
    (b)kを2からnまで増加させながら、前記学習装置が、(i)ターゲット物体予測ネットワークをもって、第k−1統合トレーニングイメージ上の第(k−1)_1物体プロポーザルないし第(k−1)_n物体プロポーザルを参照して、第k−1フレーム上で、前記ターゲット物体が位置すると予測される第k−1ターゲット領域を探すようにし、ターゲット領域予測ネットワークをもって、第kフレーム上で、前記k−1ターゲット領域が位置すると予測される一つ以上の領域に対応する第k予測ターゲット領域を探すようにし、(ii)前記イメージ加工ネットワークをもって、前記第kフレームに対応する第kイメージピラミッド内に含まれた第k_1イメージないし第k_nイメージそれぞれから、前記k予測ターゲット領域にそれぞれ対応する、第k_1加工イメージないし第k_n加工イメージを生成するようにし、前記第k_1加工イメージないし前記第k_n加工イメージをコンカチネートした第k統合トレーニングイメージを出力するようにし、(iii)前記コンボリューションレイヤをもって、前記コンボリューション演算を前記第k統合トレーニングイメージに適用することで、第k特徴マップを出力させ、前記RPNをもって、前記第k特徴マップを利用して、前記第k統合トレーニングイメージ内に含まれた前記第k_1加工イメージないし前記第k_n加工イメージそれぞれに位置する前記物体に対応する第k_1物体プロポーザルないし第k_n物体プロポーザルを出力させ、前記プーリングレイヤをもって、前記第k特徴マップ上で、前記第k_1物体プロポーザルないし前記第k_n物体プロポーザルに対応する一つ以上の領域に前記プーリング演算を適用して、少なくとも一つの第kプーリング済み特徴マップを出力させ、前記FCレイヤをもって、前記第kプーリング済み特徴マップに前記FC演算を適用して、前記物体に対応する第k_1物体検出情報ないし第k_n物体検出情報を出力させ、(iv)前記ターゲット物体統合ネットワークをもって、前記第k_1物体プロポーザルないし前記第k_n物体プロポーザルを統合して第k統合物体プロポーザルを生成するようにし、前記第k_1物体検出情報ないし前記第k_n物体検出情報を統合して第k統合物体検出情報を生成するようにし、前記FCロスレイヤをもって、前記第k統合物体検出情報及びこれに対応するGTを参照して一つ以上の第kFCロスを生成するようにすることで、前記第kFCロスを利用したバックプロパゲーション(Backpropagation)によって、前記FCレイヤと、前記コンボリューションレイヤのパラメータとの中の少なくとも一部を学習する段階;
    を含むことを特徴とする方法。
  2. 前記(a)段階で、
    前記学習装置は、RPNロスレイヤをもって、前記第1統合物体プロポーザルの情報及びこれに対応するGTを参照して一つ以上の第1RPNロスを取得するようにすることで、前記第1RPNロスを利用したバックプロパゲーションによって前記RPNのパラメータの中の少なくとも一部を調整するようにし、
    前記(b)段階で、
    前記学習装置は、前記RPNロスレイヤをもって、前記第k統合物体プロポーザル情報及びこれに対応するGTを参照して一つ以上の第kRPNロスを取得するようにすることで、前記第kRPNロスを利用したバックプロパゲーションによって前記RPNの前記パラメータの中の少なくとも一部を調整することを特徴とする請求項1に記載の方法。
  3. 前記(a)段階で、
    前記学習装置が、前記イメージ加工ネットワークをもって、第1_1加工イメージないし前記第1_n加工イメージの幅と高さのうち少なくとも一つを同一に調整した後、同一の大きさに調整された前記幅または前記高さ方向に第1_1調整済み加工イメージないし第1_n調整済み加工イメージをコンカチネート(concatenate)するようにし、
    前記(b)段階で、
    前記学習装置が、前記イメージ加工ネットワークをもって、前記第k_1加工イメージないし前記第k_n加工イメージの幅と高さのうち少なくとも一つを同一に調整した後、同一の大きさに調整された前記幅または前記高さ方向に第k_1調整済み加工イメージないし第k_n調整済み加工イメージをコンカチネート(concatenate)するようにすることを特徴とする請求項1に記載の方法。
  4. 前記学習装置が、前記イメージ加工ネットワークをもって、前記第k_1調整済み加工イメージないし前記第k_n調整済み加工イメージのうち、コンカチネートされた隣接するそれぞれの二つの調整済み加工イメージから構成されるそれぞれのペアの間にそれぞれ少なくとも一つのゼロパディング(zero padding)領域を追加するようにし、
    前記コンボリューションレイヤの多重コンボリューション演算によって前記第k統合トレーニングイメージが1/Sに縮小され、前記コンボリューションレイヤそれぞれのカーネルそれぞれの最大サイズをK×Kとする場合、前記ゼロパディング領域の幅が
    Figure 0006908944
    になるようにすることを含むことを特徴とする請求項3に記載の方法。
  5. 第1特定加工イメージ及び第2特定加工イメージ上にそれぞれ少なくとも一つの特定同一物体が位置し、前記第1特定加工イメージ上で、前記特定同一物体に対応する少なくとも一つの物体プロポーザルを第1特定物体プロポーザルとし、前記第2特定加工イメージ上で、前記特定同一物体に対応する少なくとも一つの物体プロポーザルを第2特定物体プロポーザルとした場合、
    前記学習装置は、前記ターゲット物体統合ネットワークをもって、前記第1特定物体プロポーザルと、前記第2特定物体プロポーザルとの間のIOU(Intersection Over Union)が第1閾値以上になるかを判断するようにし、(I)前記IOUが、前記第1閾値未満と判断されれば、前記第2特定加工イメージ上で前記第1特定物体プロポーザルに対応する領域と、前記第1特定加工イメージ上で前記第2特定物体プロポーザルに対応する領域との間の調整IOUを算出し、(II)前記調整IOUが第2閾値以上と判断されれば、前記第1特定物体プロポーザルと、前記第2特定物体プロポーザルとの中から、(i)確率値の高い特定物体プロポーザルを選択するようにするか(ii)前記トレーニングイメージ上で演算される面積の大きい特定物体プロポーザルを選択するようにすることにより、前記選択された特定物体プロポーザルを前記特定同一物体に対応する特定統合物体プロポーザルとして生成することを特徴とする請求項1に記載の方法。
  6. 第1特定加工イメージ及び第2特定加工イメージ上に少なくとも一つの特定同一物体が位置し、前記第1特定加工イメージ上で、前記特定同一物体に対応する少なくとも一つの物体バウンディングボックスを第1特定物体バウンディングボックスとし、前記第2特定加工イメージ上で、前記特定同一物体に対応する少なくとも一つの物体バウンディングボックスを第2特定物体バウンディングボックスとした場合、
    前記学習装置は、前記ターゲット物体統合ネットワークをもって、前記第1特定物体バウンディングボックスと、前記第2特定物体バウンディングボックスとの間のIOUが、第1閾値以上になるか否かを判断するようにし、(I)前記IOUが、前記第1閾値未満と判断されれば、前記第2特定加工イメージ上で前記第1特定物体バウンディングボックスに対応する領域と、前記第1特定加工イメージ上で前記第2特定物体バウンディングボックスに対応する領域との間の調整IOUを算出し、(II)前記調整IOUが第2閾値以上と判断されたら、前記第1特定物体バウンディングボックスと、前記第2特定物体バウンディングボックスの中から、(i)確率値の高い特定物体バウンディングボックスを選択するようにするか(ii)前記トレーニングイメージ上で演算される面積の大きい特定物体バウンディングボックスを選択するようにすることにより、前記選択された特定物体バウンディングボックスを前記特定同一物体に対応する特定統合物体検出情報として生成することを特徴とする請求項1に記載の方法。
  7. 前記(b)段階で、
    前記学習装置は、前記ターゲット物体予測ネットワークをもって、(i)特定加工イメージをMxNグリッドに区分するようにし、(ii)前記第k−1物体プロポーザルないし前記k_n物体プロポーザルのうち、前記グリッドの各セルごとにそれぞれ対応する特定物体プロポーザルの個数を示す少なくとも一つ以上のヒストグラムマップを生成するようにし、前記グリッドの各セル内にそれに対応する前記特定物体プロポーザルそれぞれの全体領域または分割領域が存在し、(iii)ムービングウィンドウの中の少なくとも一つの領域を利用して、少なくとも一つの特定ターゲット領域を決定するようにし、前記少なくとも一つの領域は、前記ムービングウィンドウの位置を変更して占有されるすべての領域のうち、前記ヒストグラムマップの合計が最も大きい値を有する領域であることを特徴とする請求項1に記載の方法。
  8. ターゲット物体統合ネットワークと、ターゲット領域予測ネットワークとを利用したCNN基盤の物体検出器のテスティングする方法において、
    (a)学習装置が、(1)(i)イメージ加工ネットワークをもって、少なくとも一つのトレーニングビデオの現在フレームである第1学習用フレームに対応する第1学習用イメージピラミッドに含まれた第1_1トレーニングイメージないし第1_nトレーニングイメージそれぞれから、少なくとも一つの学習用ターゲット物体が位置すると推定される第1学習用予測ターゲット領域にそれぞれ対応する、第1_1学習用加工イメージないし第1_n学習用加工イメージを生成するようにし、前記第1_1学習用加工イメージないし前記第1_n学習用加工イメージをコンカチネートした第1統合トレーニングイメージを生成するようにし、(ii)一つ以上のコンボリューションレイヤをもって、一つ以上のコンボリューション演算を前記第1統合トレーニングイメージに適用することで、少なくとも一つの第1学習用特徴マップを出力させ、RPN(Region Proposal Network)をもって、前記第1学習用特徴マップを利用して、前記第1統合トレーニングイメージに含まれた前記第1_1学習用加工イメージないし前記第1_n学習用加工イメージそれぞれに位置する一つ以上の学習用物体に対応する第1_1学習用物体プロポーザルないし第1_n学習用物体プロポーザルを出力させ、プーリングレイヤをもって、前記第1学習用特徴マップ上で、前記第1_1学習用物体プロポーザルないし前記第1_n学習用物体プロポーザルに対応する一つ以上の領域に一つ以上のプーリング演算を適用して、少なくとも一つの第1学習用プーリング済み特徴マップを出力させ、FC(fully connected)レイヤをもって、前記第1学習用プーリング済み特徴マップに少なくとも一つのFC演算を適用して、前記学習用物体に対応する第1_1学習用物体検出情報ないし第1_n学習用物体検出情報を出力するようにし、(iii)ターゲット物体統合ネットワークをもって、前記第1_1学習用物体プロポーザルないし前記第1_n学習用物体プロポーザルを統合して第1学習用統合物体プロポーザルを生成するようにし、前記第1_1学習用物体検出情報ないし前記第1_n学習用物体検出情報を統合して第1学習用統合物体検出情報を生成するようにし、少なくとも一つのFCロスレイヤをもって、前記第1学習用統合物体検出情報及びこれに対応するGTを参照して一つ以上の第1FCロスを生成するようにすることで、前記第1FCロスを利用したバックプロパゲーション(Backpropagation)によって、前記FCレイヤと、前記コンボリューションレイヤのパラメータとの中の少なくとも一部を学習するプロセス、及び(2)kを2からnまで増加させながら、(i)ターゲット物体予測ネットワークをもって、第k−1統合トレーニングイメージ上の第(k−1)_1学習用物体プロポーザルないし第(k−1)_n学習用物体プロポーザルを参照して、第k−1学習用フレーム上で、前記学習用ターゲット物体が位置すると予測される第k−1学習用ターゲット領域を探すようにし、ターゲット領域予測ネットワークをもって、第k学習用フレーム上で、前記k−1学習用ターゲット領域が位置すると予測される一つ以上の領域に対応する第k学習用予測ターゲット領域を探すようにし、(ii)前記イメージ加工ネットワークをもって、前記第k学習用フレームに対応する第k学習用イメージピラミッド内に含まれた第k_1トレーニングイメージないし第k_nトレーニングイメージそれぞれから、前記k学習用予測ターゲット領域にそれぞれ対応する、第k_1学習用加工イメージないし第k_n学習用加工イメージを生成するようにし、前記第k_1学習用加工イメージないし前記第k_n学習用加工イメージをコンカチネートした第k統合トレーニングイメージを出力するようにし、(iii)前記コンボリューションレイヤをもって、前記コンボリューション演算を前記第k統合トレーニングイメージに適用することで、第k学習用特徴マップを出力させ、前記RPNをもって、前記第k学習用特徴マップを利用して、前記第k統合トレーニングイメージ内に含まれた前記第k_1学習用加工イメージないし前記第k_n学習用加工イメージそれぞれに位置する前記学習用物体に対応する第k_1学習用物体プロポーザルないし第k_n学習用物体プロポーザルを出力させ、前記プーリングレイヤをもって、前記第k学習用特徴マップ上で、前記第k_1学習用物体プロポーザルないし前記第k_n学習用物体プロポーザルに対応する一つ以上の領域に前記プーリング演算を適用して、少なくとも一つの第k学習用プーリング済み特徴マップを出力させ、前記FCレイヤをもって、前記第k学習用プーリング済み特徴マップに前記FC演算を適用して、前記学習用物体に対応する第k_1学習用物体検出情報ないし第k_n学習用物体検出情報を出力させ、(iv)前記ターゲット物体統合ネットワークをもって、前記第k_1学習用物体プロポーザルないし前記第k_n学習用物体プロポーザルを統合して第k学習用統合物体プロポーザルを生成するようにし、前記第k_1学習用物体検出情報ないし前記第k_n学習用物体検出情報を統合して第k学習用統合物体検出情報を生成するようにし、前記FCロスレイヤをもって、前記第k学習用統合物体検出情報及びこれに対応するGTを参照して一つ以上の第kFCロスを生成するようにすることで、前記第kFCロスを利用したバックプロパゲーション(Backpropagation)によって、前記FCレイヤと、前記コンボリューションレイヤのパラメータとの中の少なくとも一部を学習するプロセスを遂行した状態で;少なくとも一つのテストビデオが取得されると、テスティング装置が、(i)前記イメージ加工ネットワークをもって、前記テストビデオの現在フレームである第1テスト用フレームに対応する第1テスト用イメージピラミッドに含まれた第1_1テストイメージないし第1_nテストイメージそれぞれから、少なくとも一つのテスト用ターゲット物体が位置すると推定される第1テスト用予測ターゲット領域にそれぞれ対応する、第1_1テスト用加工イメージないし第1_nテスト用加工イメージを生成するようにし、前記第1_1テスト用加工イメージないし前記第1_nテスト用加工イメージをコンカチネートした第1統合テストイメージを生成するようにし、(ii)前記コンボリューションレイヤをもって、前記コンボリューション演算を前記第1統合テストイメージに適用することで、少なくとも一つの第1テスト用特徴マップを出力させ、前記RPNをもって、前記第1テスト用特徴マップを利用して、前記第1統合テストイメージ内に含まれた前記第1_1テスト用加工イメージないし前記第1_nテスト用加工イメージそれぞれに位置する一つ以上のテスト用物体に対応する第1_1テスト用物体プロポーザルないし第1_nテスト用物体プロポーザルを出力させ、前記プーリングレイヤをもって、前記第1テスト用特徴マップ上で、前記第1_1テスト用物体プロポーザルないし前記第1_nテスト用物体プロポーザルに対応する一つ以上の領域に前記プーリング演算を適用して、少なくとも一つの第1テスト用プーリング済み特徴マップを出力させ、前記FCレイヤをもって、前記第1テスト用プーリング済み特徴マップに前記FC演算を適用して、前記テスト用物体に対応する第1_1テスト用物体検出情報ないし第1_nテスト用物体検出情報を出力させ、(iii)前記ターゲット物体統合ネットワークをもって、前記第1_1テスト用物体プロポーザルないし前記第1_nテスト用物体プロポーザルを統合して第1テスト用統合物体プロポーザルを生成するようにし、前記第1_1テスト用物体検出情報ないし前記第1_nテスト用物体検出情報を統合して第1テスト用統合物体検出情報を生成するようにする段階;及び
    (b)前記テスティング装置が、kを2からnまで増加させながら、(i)前記ターゲット物体予測ネットワークをもって、第k−1統合テストイメージ上の第(k−1)_1テスト用物体プロポーザルないし第(k−1)_nテスト用物体プロポーザルを参照して、第k−1テスト用フレーム上で、前記テスト用ターゲット物体が位置すると予測される第k−1テスト用ターゲット領域を探すようにし、前記ターゲット領域予測ネットワークをもって、第kテスト用フレーム上で、前記k−1テスト用ターゲット領域が位置すると予測される一つ以上の領域に対応する第kテスト用予測ターゲット領域を探すようにし、(ii)前記イメージ加工ネットワークをもって、前記第kテスト用フレームに対応する第kテスト用イメージピラミッド内に含まれた第k_1テストイメージないし第k_nテストイメージそれぞれから、前記kテスト用予測ターゲット領域にそれぞれ対応する、第k_1テスト用加工イメージないし第k_nテスト用加工イメージを生成するようにし、前記第k_1テスト用加工イメージないし前記第k_nテスト用加工イメージをコンカチネートした第k統合テストイメージを出力するようにし、(iii)前記コンボリューションレイヤをもって、前記コンボリューション演算を前記第k統合テストイメージに適用することで第kテスト用特徴マップを出力させ、前記RPNをもって、前記第kテスト用特徴マップを利用して、前記第k統合テストイメージ内に含まれた前記第k_1テスト用加工イメージないし前記第k_nテスト用加工イメージそれぞれに位置する前記テスト用物体に対応する第k_1テスト用物体プロポーザルないし第k_nテスト用物体プロポーザルを出力させ、前記プーリングレイヤをもって、前記第kテスト用特徴マップ上で、前記第k_1テスト用物体プロポーザルないし前記第k_nテスト用物体プロポーザルに対応する一つ以上の領域に前記プーリング演算を適用して、少なくとも一つの第kテスト用プーリング済み特徴マップを出力させ、前記FCレイヤをもって、前記第kテスト用プーリング済み特徴マップに前記FC演算を適用して、前記テスト用物体に対応する第k_1テスト用物体検出情報ないし第k_nテスト用物体検出情報を出力させ、(iv)前記ターゲット物体統合ネットワークをもって、前記第k_1テスト用物体プロポーザルないし前記第k_nテスト用物体プロポーザルを統合して第kテスト用統合物体プロポーザルを生成するようにし、前記第k_1テスト用物体検出情報ないし前記第k_nテスト用物体検出情報を統合して第kテスト用統合物体検出情報を生成するようにする段階;
    を含むことを特徴とする方法。
  9. 前記(1)プロセスで、
    前記学習装置は、少なくとも一つのRPNロスレイヤをもって、前記第1学習用統合物体プロポーザルの情報及びこれに対応するGTを参照して一つ以上の第1RPNロスを取得するようにすることで、前記第1RPNロスを利用したバックプロパゲーションによって前記RPNのパラメータの中の少なくとも一部を調整するようにし、
    前記(2)プロセスで、
    前記学習装置は、前記RPNロスレイヤをもって、前記第k学習用統合物体プロポーザル情報及びこれに対応するGTを参照して一つ以上の第kRPNロスを取得するようにすることで、前記第kRPNロスを利用したバックプロパゲーションによって前記RPNの前記パラメータの中の少なくとも一部を調整することを特徴とする請求項8に記載の方法。
  10. 前記(a)段階で、
    前記テスティング装置が、前記イメージ加工ネットワークをもって、前記第1_1テスト用加工イメージないし前記第1_nテスト用加工イメージの幅と高さのうち少なくとも一つを同一に調整した後、同一に調整された前記幅または前記高さ方向に第1_1テスト用調整済み加工イメージないし第1_nテスト用調整済み加工イメージをコンカチネートするようにし、
    前記(b)段階で、
    前記テスティング装置が、前記イメージ加工ネットワークをもって、前記第k_1テスト用加工イメージないし前記第k_nテスト用加工イメージの幅と高さのうち少なくとも一つを同一に調整した後、同一に調整された前記幅または前記高さ方向に第k_1テスト用調整済み加工イメージないし第k_nテスト用調整済み加工イメージをコンカチネートすることを特徴とする請求項8に記載の方法。
  11. 前記テスティング装置が、前記イメージ加工ネットワークをもって、前記第k_1テスト用調整済み加工イメージないし前記第k_nテスト用調整済み加工イメージのうち、コンカチネートされた隣接するそれぞれの二つのテスト用調整済み加工イメージから構成されるそれぞれのペアの間にそれぞれ少なくとも一つのゼロパディング(zero padding)領域を追加するようにし、
    前記コンボリューションレイヤの多重コンボリューション演算によって前記第k統合テストイメージが1/Sに縮小され、前記コンボリューションレイヤそれぞれのカーネルそれぞれの最大サイズをK×Kとする場合、前記ゼロパディング領域の幅が
    Figure 0006908944
    になるようにすることを含むことを特徴とする請求項10に記載の方法。
  12. 第1テスト用特定加工イメージ及び第2テスト用特定加工イメージ上にそれぞれ少なくとも一つのテスト用特定同一物体が位置し、前記第1テスト用特定加工イメージ上で、前記テスト用特定同一物体に対応する少なくとも一つのテスト用物体プロポーザルを第1テスト用特定物体プロポーザルとし、前記第2テスト用特定加工イメージ上で、前記テスト用特定同一物体に対応する少なくとも一つのテスト用物体プロポーザルを第2テスト用特定物体プロポーザルとした場合、
    前記テスティング装置は、前記ターゲット物体統合ネットワークをもって、前記第1テスト用特定物体プロポーザルと、前記第2テスト用特定物体プロポーザルとの間のテスト用IOU(Intersection Over Union)が、第1閾値以上になるかを判断するようにし、(I)前記テスト用IOUが、前記第1閾値未満と判断されれば、前記第2テスト用特定加工イメージ上で前記第1テスト用特定物体プロポーザルに対応する領域と、前記第1テスト用特定加工イメージ上で前記第2テスト用特定物体プロポーザルに対応する領域との間のテスト用調整IOUを算出し、(II)前記テスト用調整IOUが第2閾値以上と判断されれば、前記第1テスト用特定物体プロポーザルと、前記第2テスト用特定物体プロポーザルとの中から、(i)確率値の高いテスト用特定物体プロポーザルを選択するようにするか(ii)前記テストイメージ上で演算される面積の大きいテスト用特定物体プロポーザルを選択させることにより、前記選択されたテスト用特定物体プロポーザルを前記テスト用特定同一物体に対応するテスト用特定統合物体プロポーザルとして生成することを特徴とする請求項8に記載の方法。
  13. 第1テスト用特定加工イメージ及び第2テスト用特定加工イメージ上にそれぞれ少なくとも一つのテスト用特定同一物体が位置し、前記第1テスト用特定加工イメージ上で、前記テスト用特定同一物体に対応する少なくとも一つのテスト用物体バウンディングボックスを第1テスト用特定物体バウンディングボックスとし、前記第2テスト用特定加工イメージ上で、前記テスト用特定同一物体に対応する少なくとも一つのテスト用物体バウンディングボックスを第2テスト用特定物体バウンディングボックスとした場合、
    前記テスティング装置は、前記ターゲット物体統合ネットワークをもって、前記第1テスト用特定物体バウンディングボックスと、前記第2テスト用特定物体バウンディングボックスとの間のテスト用IOUが第1閾値以上になるかを判断するようにし、(I)前記テスト用IOUが、前記第1閾値未満と判断されれば、前記第2テスト用特定加工イメージ上で前記第1テスト用特定物体バウンディングボックスに対応する領域と、前記第1テスト用特定加工イメージ上で前記第2テスト用特定物体バウンディングボックスに対応する領域との間のテスト用調整IOUを算出し、(II)前記テスト用調整IOUが第2閾値以上と判断されれば、前記第1テスト用特定物体バウンディングボックスと、前記第2テスト用特定物体バウンディングボックスとの中から、(i)確率値の高いテスト用特定物体バウンディングボックスを選択するようにするか、(ii)前記テストイメージ上で演算される面積の大きいテスト用特定物体バウンディングボックスを選択するようにすることにより、前記選択されたテスト用特定物体バウンディングボックスを前記テスト用特定同一物体に対応するテスト用特定統合物体検出情報として生成することを特徴とする請求項8に記載の方法。
  14. 前記(b)段階で、
    前記テスティング装置は、前記ターゲット物体予測ネットワークをもって、(i)テスト用特定加工イメージをMxNグリッドに区分するようにし、(ii)前記第k−1テスト用物体プロポーザルないし前記k_nテスト用物体プロポーザルのうち、前記グリッドの各セルごとにそれぞれ対応するテスト用特定物体プロポーザルの個数を示す少なくとも一つ以上のテスト用ヒストグラムマップを生成するようにし、前記グリッドの各セル内に、それに対応する前記テスト用特定物体プロポーザルそれぞれの全体領域または分割領域が存在し、(iii)テスト用ムービングウィンドウの中の少なくとも一つの領域を利用して、少なくとも一つのテスト用特定ターゲット領域を決定するようにし、前記少なくとも一つの領域は、前記テスト用ムービングウィンドウの位置を変更して占有されるすべての領域のうち、前記テスト用ヒストグラムマップの合計が最も大きい値を有する領域であることを特徴とする 請求項8に記載の方法。
  15. ターゲット物体統合ネットワークと、ターゲット領域予測ネットワークとを利用したCNN基盤の物体検出器のパラメータを学習するための学習装置において、
    インストラクションを格納する少なくとも一つのメモリ;及び
    (I)(i)イメージ加工ネットワークをもって、少なくとも一つのトレーニングビデオの現在フレームである第1フレームに対応する第1イメージピラミッドに含まれた第1_1イメージないし第1_nイメージそれぞれから、少なくとも一つのターゲット物体が位置すると推定される第1予測ターゲット領域にそれぞれ対応する、第1_1加工イメージないし第1_n加工イメージを生成するようにし、前記第1_1加工イメージないし前記第1_n加工イメージをコンカチネート(concatenate)した第1統合トレーニングイメージを生成するようにし、(ii)一つ以上のコンボリューションレイヤをもって、一つ以上のコンボリューション演算を前記第1統合トレーニングイメージに適用することで、少なくとも一つの第1特徴マップを出力させ、RPN(Region Proposal Network)をもって、前記第1特徴マップを利用して、前記第1統合トレーニングイメージに含まれた前記第1_1加工イメージないし前記第1_n加工イメージそれぞれに位置する一つ以上の物体に対応する第1_1物体プロポーザルないし第1_n物体プロポーザルを出力させ、プーリングレイヤをもって、前記第1特徴マップ上で、前記第1_1物体プロポーザルないし前記第1_n物体プロポーザルに対応する一つ以上の領域に一つ以上のプーリング演算を適用して、少なくとも一つの第1プーリング済み特徴マップを出力させ、FC(fully connected)レイヤをもって、前記第1プーリング済み特徴マップに一つ以上のFC演算を適用して、前記物体に対応する第1_1物体検出情報ないし第1_n物体検出情報を出力させ、(iii)ターゲット物体統合ネットワークをもって、前記第1_1物体プロポーザルないし前記第1_n物体プロポーザルを統合して第1統合物体プロポーザルを生成するようにし、前記第1_1物体検出情報ないし前記第1_n物体検出情報を統合して第1統合物体検出情報を生成するようにし、少なくとも一つのFCロスレイヤをもって、前記第1統合物体検出情報及びこれに対応するGTを参照して一つ以上の第1FCロスを生成するようにすることで、前記第1FCロスを利用したバックプロパゲーション(Backpropagation)によって、前記FCレイヤと、前記コンボリューションレイヤのパラメータとの中の少なくとも一部を学習するプロセス、及び(II)kを2からnまで増加させながら、(i)ターゲット物体予測ネットワークをもって、第k−1統合トレーニングイメージ上の第(k−1)_1物体プロポーザルないし第(k−1)_n物体プロポーザルを参照して、第k−1フレーム上で、前記ターゲット物体が位置すると予測される第k−1ターゲット領域を探すようにし、ターゲット領域予測ネットワークをもって、第kフレーム上で、前記k−1ターゲット領域が位置すると予測される一つ以上の領域に対応する第k予測ターゲット領域を探すようにし、(ii)前記イメージ加工ネットワークをもって、前記第kフレームに対応する第kイメージピラミッド内に含まれた第k_1イメージないし第k_nイメージそれぞれから、前記k予測ターゲット領域にそれぞれ対応する、第k_1加工イメージないし第k_n加工イメージを生成するようにし、前記第k_1加工イメージないし前記第k_n加工イメージをコンカチネートした第k統合トレーニングイメージを出力するようにし、(iii)前記コンボリューションレイヤをもって、前記コンボリューション演算を前記第k統合トレーニングイメージに適用することで、第k特徴マップを出力させ、前記RPNをもって、前記第k特徴マップを利用して、前記第k統合トレーニングイメージ内に含まれた前記第k_1加工イメージないし前記第k_n加工イメージそれぞれに位置する前記物体に対応する第k_1物体プロポーザルないし第k_n物体プロポーザルを出力させ、前記プーリングレイヤをもって、前記第k特徴マップ上で、前記第k_1物体プロポーザルないし前記第k_n物体プロポーザルに対応する一つ以上の領域に前記プーリング演算を適用して、少なくとも一つの第kプーリング済み特徴マップを出力させ、前記FCレイヤをもって、前記第kプーリング済み特徴マップに前記FC演算を適用して、前記物体に対応する第k_1物体検出情報ないし第k_n物体検出情報を出力させ、(iv)前記ターゲット物体統合ネットワークをもって、前記第k_1物体プロポーザルないし前記第k_n物体プロポーザルを統合して第k統合物体プロポーザルを生成するようにし、前記第k_1物体検出情報ないし前記第k_n物体検出情報を統合して第k統合物体検出情報を生成するようにし、前記FCロスレイヤをもって、前記第k統合物体検出情報及びこれに対応するGTを参照して一つ以上の第kFCロスを生成するようにすることで、前記第kFCロスを利用したバックプロパゲーション(Backpropagation)によって、前記FCレイヤと、前記コンボリューションレイヤのパラメータとの中の少なくとも一部を学習するプロセスを遂行するための、前記インストラクションを実行するように構成された少なくとも一つのプロセッサ;
    を含むことを特徴とする学習装置。
  16. 前記(I)プロセスで、
    前記プロセッサは、少なくとも一つのRPNロスレイヤをもって、前記第1統合物体プロポーザル情報及びこれに対応するGTを参照して一つ以上の第1RPNロスを取得するようにすることで、前記第1RPNロスを利用したバックプロパゲーションによって前記RPNのパラメータの中の少なくとも一部を調整するようにし、
    前記(II)プロセスで、
    前記プロセッサは、前記RPNロスレイヤをもって、前記第k統合物体プロポーザル情報と、これに対応するGTとを参照して一つ以上の第kRPNロスを取得するようにすることで、前記第kRPNロスを利用したバックプロパゲーションによって前記RPNの前記パラメータの中の少なくとも一部を調整することを特徴とする請求項15に記載の学習装置。
  17. 前記(I)プロセスで、
    前記プロセッサが、前記イメージ加工ネットワークをもって、前記第1_1加工イメージないし前記第1_n加工イメージの幅と高さのうち少なくとも一つを同一に調整した後、同一に調整された前記幅または前記高さ方向に第1_1調整済み加工イメージないし第1_n調整済み加工イメージをコンカチネートするようにし、
    前記(II)プロセスで、
    前記プロセッサが、前記イメージ加工ネットワークをもって、前記第k_1加工イメージないし前記第k_n加工イメージの幅と高さのうち少なくとも一つを同一に調整した後、同一に調整された前記幅または前記高さ方向に第k_1調整済み加工イメージないし第k_n調整済み加工イメージをコンカチネートするようにすることを特徴とする請求項15に記載の学習装置。
  18. 前記プロセッサが、前記イメージ加工ネットワークをもって、前記第k_1調整済み加工イメージないし前記第k_n調整済み加工イメージのうち、コンカチネートされた隣接するそれぞれの二つの調整済み加工イメージから構成されるそれぞれのペアの間にそれぞれ少なくとも一つのゼロパディング(zero padding)領域を追加するようにし、
    前記コンボリューションレイヤの多重コンボリューション演算によって前記第k統合トレーニングイメージが1/Sに縮小され、前記コンボリューションレイヤそれぞれのカーネルそれぞれの最大サイズをK×Kとする場合、前記ゼロパディング領域の幅が
    Figure 0006908944
    になるようにすることを特徴とする請求項17に記載の学習装置。
  19. 第1特定加工イメージ及び第2特定加工イメージ上にそれぞれ少なくとも一つの特定同一物体が位置し、前記第1特定加工イメージ上で、前記特定同一物体に対応する少なくとも一つの物体プロポーザルを第1特定物体プロポーザルとし、前記第2特定加工イメージ上で、前記特定同一物体に対応する少なくとも一つの物体プロポーザルを第2特定物体プロポーザルとした場合、
    前記プロセッサは、前記ターゲット物体統合ネットワークをもって、前記第1特定物体プロポーザルと、前記第2特定物体プロポーザルとの間のIOU(Intersection Over Union)が、第1閾値以上になるかを判断するようにし、(i)前記IOUが、前記第1閾値未満と判断されれば、前記第2特定加工イメージ上で前記第1特定物体プロポーザルに対応する領域と、前記第1特定加工イメージ上で前記第2特定物体プロポーザルに対応する領域との間の調整IOUを算出し、(ii)前記調整IOUが第2閾値以上と判断されると、前記第1特定物体プロポーザルと、前記第2特定物体プロポーザルとの中から、確率値の高い特定物体プロポーザルを選択するようにするか、前記トレーニングイメージ上で演算される面積の大きい特定物体プロポーザルを選択するようにすることにより、前記選択された特定物体プロポーザルを前記特定同一物体に対応する特定統合物体プロポーザルとして生成することを特徴とする請求項15に記載の学習装置。
  20. 第1特定加工イメージ及び第2特定加工イメージ上に少なくとも一つの特定同一物体が位置し、前記第1特定加工イメージ上で、前記特定同一物体に対応する少なくとも一つの物体バウンディングボックスを第1特定物体バウンディングボックスとし、前記第2特定加工イメージ上で、前記特定同一物体に対応する少なくとも一つの物体バウンディングボックスを第2特定物体バウンディングボックスとした場合、
    前記プロセッサは、前記ターゲット物体統合ネットワークをもって、前記第1特定物体バウンディングボックスと、前記第2特定物体バウンディングボックスとの間のIOUが、第1閾値以上になるか否かを判断するようにし、(i)前記IOUが、前記第1閾値未満と判断されれば、前記第2特定加工イメージ上で前記第1特定物体バウンディングボックスに対応する領域と、前記第1特定加工イメージ上で前記第2特定物体バウンディングボックスに対応する領域との間の調整IOUを算出し、(ii)前記調整IOUが第2閾値以上と判断されれば、前記第1特定物体バウンディングボックスと、前記第2特定物体バウンディングボックスとの中から、確率値の高い特定物体バウンディングボックスを選択するようにするか、前記トレーニングイメージ上で演算される面積の大きい特定物体バウンディングボックスを選択するようにすることにより、前記選択された特定物体バウンディングボックスを前記特定同一物体に対応する特定統合物体検出情報として生成することを特徴とする請求項15に記載の学習装置。
  21. 前記(II)プロセスで、
    前記プロセッサは、前記ターゲット物体予測ネットワークをもって、(i)特定加工イメージをMxNグリッドに区分するようにし、(ii)前記第k−1物体プロポーザルないし前記k_n物体プロポーザルのうち、前記グリッドの各セルごとにそれぞれ対応する特定物体プロポーザルの個数を示す少なくとも一つ以上のヒストグラムマップを生成するようにし、前記グリッドの各セル内にそれに対応する前記特定物体プロポーザルそれぞれの全体領域または分割領域が存在し、(iii)ムービングウィンドウの中の少なくとも一つの領域を利用して、少なくとも一つの特定ターゲット領域を決定するようにし、前記少なくとも一つの領域は、前記ムービングウィンドウの位置を変更して占有されるすべての領域のうち、前記ヒストグラムマップの合計が最も大きい値を有する領域であることを特徴とする請求項15に記載の学習装置。
  22. ターゲット物体統合ネットワークと、ターゲット領域予測ネットワークとを利用したCNN基盤の物体検出器をテスティングするためのテスティング装置において、
    インストラクションを格納する少なくとも一つのメモリ;及び
    (1)学習装置が、(i)イメージ加工ネットワークをもって、少なくとも一つのトレーニングビデオの現在フレームである第1学習用フレームに対応する第1学習用イメージピラミッドに含まれた第1_1トレーニングイメージないし第1_nトレーニングイメージそれぞれから、少なくとも一つの学習用ターゲット物体が位置すると推定される第1学習用予測ターゲット領域にそれぞれ対応する、第1_1学習用加工イメージないし第1_n学習用加工イメージを生成するようにし、前記第1_1学習用加工イメージないし前記第1_n学習用加工イメージをコンカチネートした第1統合トレーニングイメージを生成するようにし、(ii)一つ以上のコンボリューションレイヤをもって、一つ以上のコンボリューション演算を前記第1統合トレーニングイメージに適用することで、少なくとも一つの第1学習用特徴マップを出力させ、RPN(Region Proposal Network)をもって、前記第1学習用特徴マップを利用して、前記第1統合トレーニングイメージに含まれた前記第1_1学習用加工イメージないし前記第1_n学習用加工イメージそれぞれに位置する一つ以上の学習用物体に対応する第1_1学習用物体プロポーザルないし第1_n学習用物体プロポーザルを出力させ、プーリングレイヤをもって、前記第1学習用特徴マップ上で、前記第1_1学習用物体プロポーザルないし前記第1_n学習用物体プロポーザルに対応する一つ以上の領域に一つ以上のプーリング演算を適用して、少なくとも一つの第1学習用プーリング済み特徴マップを出力させ、FC(fully connected)レイヤをもって、前記第1学習用プーリング済み特徴マップに少なくとも一つのFC演算を適用して、前記学習用物体に対応する第1_1学習用物体検出情報ないし第1_n学習用物体検出情報を出力させ、(iii)ターゲット物体統合ネットワークをもって、前記第1_1学習用物体プロポーザルないし前記第1_n学習用物体プロポーザルを統合して第1学習用統合物体プロポーザルを生成するようにし、前記第1_1学習用物体検出情報ないし前記第1_n学習用物体検出情報を統合して第1学習用統合物体検出情報を生成するようにし、少なくとも一つのFCロスレイヤをもって、前記第1学習用統合物体検出情報及びこれに対応するGTを参照して一つ以上の第1FCロスを生成するようにすることで、前記第1FCロスを利用したバックプロパゲーション(Backpropagation)によって、前記FCレイヤと、前記コンボリューションレイヤのパラメータとの中の少なくとも一部を学習するプロセス、及び(2)kを2からnまで増加させながら、(i)ターゲット物体予測ネットワークをもって、第k−1統合トレーニングイメージ上の第(k−1)_1学習用物体プロポーザルないし第(k−1)_n学習用物体プロポーザルを参照して、第k−1学習用フレーム上で、前記学習用ターゲット物体が位置すると予測される第k−1学習用ターゲット領域を探すようにし、ターゲット領域予測ネットワークをもって、第k学習用フレーム上で、前記k−1学習用ターゲット領域が位置すると予測される一つ以上の領域に対応する第k学習用予測ターゲット領域を探すようにし、(ii)前記イメージ加工ネットワークをもって、前記第k学習用フレームに対応する第k学習用イメージピラミッド内に含まれた第k_1トレーニングイメージないし第k_nトレーニングイメージそれぞれから、前記k学習用予測ターゲット領域にそれぞれ対応する、第k_1学習用加工イメージないし第k_n学習用加工イメージを生成するようにし、前記第k_1学習用加工イメージないし前記第k_n学習用加工イメージをコンカチネートした第k統合トレーニングイメージを出力するようにし、(iii)前記コンボリューションレイヤをもって、前記コンボリューション演算を前記第k統合トレーニングイメージに適用することで、第k学習用特徴マップを出力させ、前記RPNをもって、前記第k学習用特徴マップを利用して、前記第k統合トレーニングイメージ内に含まれた前記第k_1学習用加工イメージないし前記第k_n学習用加工イメージそれぞれに位置する前記学習用物体に対応する第k_1学習用物体プロポーザルないし第k_n学習用物体プロポーザルを出力させ、前記プーリングレイヤをもって、前記第k学習用特徴マップ上で、前記第k_1学習用物体プロポーザルないし前記第k_n学習用物体プロポーザルに対応する一つ以上の領域に前記プーリング演算を適用して、少なくとも一つの第k学習用プーリング済み特徴マップを出力させ、前記FCレイヤをもって、前記第k学習用プーリング済み特徴マップに前記FC演算を適用して、前記学習用物体に対応する第k_1学習用物体検出情報ないし第k_n学習用物体検出情報を出力させ、(iv)前記ターゲット物体統合ネットワークをもって、前記第k_1学習用物体プロポーザルないし前記第k_n学習用物体プロポーザルを統合して第k学習用統合物体プロポーザルを生成するようにし、前記第k_1学習用物体検出情報ないし前記第k_n学習用物体検出情報を統合して第k学習用統合物体検出情報を生成するようにし、前記FCロスレイヤをもって、前記第k学習用統合物体検出情報及びこれに対応するGTを参照して一つ以上の第kFCロスを生成するようにすることで、前記第kFCロスを利用したバックプロパゲーション(Backpropagation)によって、前記FCレイヤと、前記コンボリューションレイヤのパラメータとの中の少なくとも一部を学習するプロセスを遂行した状態で;(I)(i)前記イメージ加工ネットワークをもって、少なくとも一つのテストビデオの現在フレームである第1テスト用フレームに対応する第1テスト用イメージピラミッドに含まれた第1_1テストイメージないし第1_nテストイメージそれぞれから、少なくとも一つのテスト用ターゲット物体が位置すると推定される第1テスト用予測ターゲット領域にそれぞれ対応する、第1_1テスト用加工イメージないし第1_nテスト用加工イメージを生成するようにし、前記第1_1テスト用加工イメージないし前記第1_nテスト用加工イメージをコンカチネートした第1統合テストイメージを生成するようにし、(ii)前記コンボリューションレイヤをもって、前記コンボリューション演算を前記第1統合テストイメージに適用することで、少なくとも一つの第1テスト用特徴マップを出力させ、前記RPNをもって、前記第1テスト用特徴マップを利用して、前記第1統合テストイメージ内に含まれた前記第1_1テスト用加工イメージないし前記第1_nテスト用加工イメージそれぞれに位置する一つ以上のテスト用物体に対応する第1_1テスト用物体プロポーザルないし第1_nテスト用物体プロポーザルを出力させ、前記プーリングレイヤをもって、前記第1テスト用特徴マップ上で、前記第1_1テスト用物体プロポーザルないし前記第1_nテスト用物体プロポーザルに対応する一つ以上の領域に前記プーリング演算を適用して、少なくとも一つの第1テスト用プーリング済み特徴マップを出力させ、前記FCレイヤをもって、前記第1テスト用プーリング済み特徴マップに前記FC演算を適用して、前記テスト用物体に対応する第1_1テスト用物体検出情報ないし第1_nテスト用物体検出情報を出力させ、(iii)前記ターゲット物体統合ネットワークをもって、前記第1_1テスト用物体プロポーザルないし前記第1_nテスト用物体プロポーザルを統合して第1テスト用統合物体プロポーザルを生成するようにし、前記第1_1テスト用物体検出情報ないし前記第1_nテスト用物体検出情報を統合して第1テスト用統合物体検出情報を生成するようにするプロセス、及び(II)kを2からnまで増加させながら、(i)前記ターゲット物体予測ネットワークをもって、第k−1統合テストイメージ上の第(k−1)_1テスト用物体プロポーザルないし第(k−1)_nテスト用物体プロポーザルを参照して、第k−1テスト用フレーム上で、前記テスト用ターゲット物体が位置すると予測される第k−1テスト用ターゲット領域を探すようにし、前記ターゲット領域予測ネットワークをもって、第kテスト用フレーム上で、前記k−1テスト用ターゲット領域が位置すると予測される一つ以上の領域に対応する第kテスト用予測ターゲット領域を探すようにし、(ii)前記イメージ加工ネットワークをもって、前記第kテスト用フレームに対応する第kテスト用イメージピラミッド内に含まれた第k_1テストイメージないし第k_nテストイメージそれぞれから、前記kテスト用予測ターゲット領域にそれぞれ対応する、第k_1テスト用加工イメージないし第k_nテスト用加工イメージを生成するようにし、前記第k_1テスト用加工イメージないし前記第k_nテスト用加工イメージをコンカチネートした第k統合テストイメージを出力するようにし、(iii)前記コンボリューションレイヤをもって、前記コンボリューション演算を前記第k統合テストイメージに適用することで第kテスト用特徴マップを出力させ、前記RPNをもって、前記第kテスト用特徴マップを利用して、前記第k統合テストイメージ内に含まれた前記第k_1テスト用加工イメージないし前記第k_nテスト用加工イメージそれぞれに位置する前記テスト用物体に対応する第k_1テスト用物体プロポーザルないし第k_nテスト用物体プロポーザルを出力させ、前記プーリングレイヤをもって、前記第kテスト用特徴マップ上で、前記第k_1テスト用物体プロポーザルないし前記第k_nテスト用物体プロポーザルそれぞれに対応するそれぞれの領域に前記プーリング演算を適用して、少なくとも一つの第kテスト用プーリング済み特徴マップを出力するようにし、前記FCレイヤをもって、前記第kテスト用プーリング済み特徴マップに前記FC演算を適用して、前記テスト用物体に対応する第k_1テスト用物体検出情報ないし第k_nテスト用物体検出情報を出力するようにし、(iv)前記ターゲット物体統合ネットワークをもって、前記第k_1テスト用物体プロポーザルないし前記第k_nテスト用物体プロポーザルを統合して第kテスト用統合物体プロポーザルを生成するようにし、前記第k_1テスト用物体検出情報ないし前記第k_nテスト用物体検出情報を統合して第kテスト用統合物体検出情報を生成するようにするプロセスを遂行するための、前記インストラクションを実行するように構成された少なくとも一つのプロセッサ;
    を含むことを特徴とするテスティング装置。
  23. 前記(1)プロセスで、
    前記学習装置は、少なくとも一つのRPNロスレイヤをもって、前記第1学習用統合物体プロポーザルの情報及びこれに対応するGTを参照して一つ以上の第1RPNロスを取得するようにすることで、前記第1RPNロスを利用したバックプロパゲーションによって前記RPNのパラメータの中の少なくとも一部を調整するようにし、
    前記(2)プロセスで、
    前記学習装置は、前記RPNロスレイヤをもって、前記第k学習用統合物体プロポーザル情報及びこれに対応するGTを参照して一つ以上の第kRPNロスを取得するようにすることで、前記第kRPNロスを利用したバックプロパゲーションによって前記RPNの前記パラメータの中の少なくとも一部を調整することを特徴とする請求項22に記載のテスティング装置。
  24. 前記(I)プロセスで、
    前記プロセッサが、前記イメージ加工ネットワークをもって、前記第1_1テスト用加工イメージないし前記第1_nテスト用加工イメージの幅と高さのうち少なくとも一つを同一に調整した後、同一に調整された前記幅または前記高さ方向に第1_1テスト用調整済み加工イメージないし第1_nテスト用調整済み加工イメージをコンカチネートするようにし、
    前記(II)プロセスで、
    前記プロセッサが、前記イメージ加工ネットワークをもって、前記第k_1テスト用加工イメージないし前記第k_nテスト用加工イメージの幅と高さのうち少なくとも一つを同一に調整した後、同一に調整された前記幅または前記高さ方向に第k_1テスト用調整済み加工イメージないし第k_nテスト用調整済み加工イメージをコンカチネートすることを特徴とする請求項22に記載のテスティング装置。
  25. 前記プロセッサが、前記イメージ加工ネットワークをもって、前記第k_1テスト用調整済み加工イメージないし前記第k_nテスト用調整済み加工イメージのうち、コンカチネートされた隣接するそれぞれの二つのテスト用調整済み加工イメージから構成されるそれぞれのペアの間にそれぞれ少なくとも一つのゼロパディング(zero padding)領域を追加するようにし、
    前記コンボリューションレイヤの多重コンボリューション演算によって前記第k統合テストイメージが1/Sに縮小され、前記コンボリューションレイヤそれぞれのカーネルそれぞれの最大サイズをK×Kとする場合、前記ゼロパディング領域の幅が
    Figure 0006908944
    になるようにすることを特徴とする請求項24に記載のテスティング装置。
  26. 第1テスト用特定加工イメージ及び第2テスト用特定加工イメージ上にそれぞれ少なくとも一つのテスト用特定同一物体が位置し、前記第1テスト用特定加工イメージ上で、前記テスト用特定同一物体に対応する少なくとも一つのテスト用物体プロポーザルを第1テスト用特定物体プロポーザルとし、前記第2テスト用特定加工イメージ上で、前記テスト用特定同一物体に対応する少なくとも一つのテスト用物体プロポーザルを第2テスト用特定物体プロポーザルとした場合、
    前記プロセッサは、前記ターゲット物体統合ネットワークをもって、前記第1テスト用特定物体プロポーザルと、前記第2テスト用特定物体プロポーザルとの間のテスト用IOU(Intersection Over Union)が、第1閾値以上になるかを判断するようにし、(i)前記テスト用IOUが、前記第1閾値未満と判断されると、前記第2テスト用特定加工イメージ上で前記第1テスト用特定物体プロポーザルに対応する領域と、前記第1テスト用特定加工イメージ上で前記第2テスト用特定物体プロポーザルに対応する領域との間のテスト用調整IOUを算出し、(ii)前記テスト用調整IOUが第2閾値以上と判断されれば、前記第1テスト用特定物体プロポーザルと、前記第2テスト用特定物体プロポーザルとの中から、確率値の高いテスト用特定物体プロポーザルを選択するようにするか、前記テストイメージ上で演算される面積の大きいテスト用特定物体プロポーザルを選択するようにすることにより、前記選択されたテスト用特定物体プロポーザルを前記テスト用特定同一物体に対応するテスト用特定統合物体プロポーザルとして生成することを特徴とする請求項22に記載のテスティング装置。
  27. 第1テスト用特定加工イメージ及び第2テスト用特定加工イメージ上にそれぞれ少なくとも一つのテスト用特定同一物体が位置し、前記第1テスト用特定加工イメージ上で、前記テスト用特定同一物体に対応する少なくとも一つのテスト用物体バウンディングボックスを第1テスト用特定物体バウンディングボックスとし、前記第2テスト用特定加工イメージ上で、前記テスト用特定同一物体に対応する少なくとも一つのテスト用物体バウンディングボックスを第2テスト用特定物体バウンディングボックスとした場合、
    前記プロセッサは、前記ターゲット物体統合ネットワークをもって、前記第1テスト用特定物体バウンディングボックスと、前記第2テスト用特定物体バウンディングボックスとの間のテスト用IOUが第1閾値以上になるかを判断するようにし、(i)前記テスト用IOUが、前記第1閾値未満と判断されれば、前記第2テスト用特定加工イメージ上で前記第1テスト用特定物体バウンディングボックスに対応する領域と、前記第1テスト用特定加工イメージ上で前記第2テスト用特定物体バウンディングボックスに対応する領域との間のテスト用調整IOUを算出し、(ii)前記テスト用調整IOUが第2閾値以上と判断されれば、前記第1テスト用特定物体バウンディングボックスと、前記第2テスト用特定物体バウンディングボックスとの中から、確率値の高いテスト用特定物体バウンディングボックスを選択するようにするか、前記テストイメージ上で演算される面積の大きいテスト用特定物体バウンディングボックスを選択するようにすることにより、前記選択されたテスト用特定物体バウンディングボックスを前記テスト用特定同一物体に対応するテスト用特定統合物体検出情報として生成することを特徴とする請求項22に記載のテスティング装置。
  28. 前記(II)プロセスで、
    前記プロセッサは、前記ターゲット物体予測ネットワークをもって、(i)テスト用特定加工イメージをMxNグリッドに区分するようにし、(ii)前記第k−1テスト用物体プロポーザルないし前記k_nテスト用物体プロポーザルのうち、前記グリッドの各セルごとにそれぞれ対応するテスト用特定物体プロポーザルの個数を示す少なくとも一つ以上のテスト用ヒストグラムマップを生成するようにし、前記グリッドの各セル内に、それに対応する前記テスト用特定物体プロポーザルそれぞれの全体領域または分割領域が存在し、(iii)テスト用ムービングウィンドウの中の少なくとも一つの領域を利用して、少なくとも一つのテスト用特定ターゲット領域を決定するようにし、前記少なくとも一つの領域は、前記テスト用ムービングウィンドウの位置を変更して占有されるすべての領域のうち、前記テスト用ヒストグラムマップの合計が最も大きい値を有する領域であることを特徴とする請求項22に記載のテスティング装置。
JP2020002988A 2019-01-22 2020-01-10 多重カメラまたはサラウンドビューモニタリングに利用されるために、ターゲット物体統合ネットワーク及びターゲット物体予測ネットワークを利用して、重要業績評価指標のようなユーザー要求事項に適用可能なcnn基盤の物体検出器を学習する方法及び学習装置、並びにこれを利用したテスティング方法及びテスティング装置 Active JP6908944B2 (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US16/254,541 US10430691B1 (en) 2019-01-22 2019-01-22 Learning method and learning device for object detector based on CNN, adaptable to customers' requirements such as key performance index, using target object merging network and target region estimating network, and testing method and testing device using the same to be used for multi-camera or surround view monitoring
US16/254,541 2019-01-22

Publications (2)

Publication Number Publication Date
JP2020119547A JP2020119547A (ja) 2020-08-06
JP6908944B2 true JP6908944B2 (ja) 2021-07-28

Family

ID=68063920

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2020002988A Active JP6908944B2 (ja) 2019-01-22 2020-01-10 多重カメラまたはサラウンドビューモニタリングに利用されるために、ターゲット物体統合ネットワーク及びターゲット物体予測ネットワークを利用して、重要業績評価指標のようなユーザー要求事項に適用可能なcnn基盤の物体検出器を学習する方法及び学習装置、並びにこれを利用したテスティング方法及びテスティング装置

Country Status (5)

Country Link
US (1) US10430691B1 (ja)
EP (1) EP3686798B1 (ja)
JP (1) JP6908944B2 (ja)
KR (1) KR102328731B1 (ja)
CN (1) CN111461319B (ja)

Families Citing this family (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP3593291B8 (en) * 2017-05-19 2024-08-14 DeepMind Technologies Limited Making object-level predictions of the future state of a physical system
DE102019210801A1 (de) * 2019-07-22 2021-01-28 Robert Bosch Gmbh Verfahren, Vorrichtung, Computerprogramm und maschinenlesbares Speichermedium zur Detektion eines Objekts
CN112840348B (zh) * 2019-10-11 2024-05-03 安徽中科智能感知科技股份有限公司 一种基于时序遥感数据和卷积神经网络的作物种植分布预测方法
CN114766042A (zh) 2019-12-12 2022-07-19 Oppo广东移动通信有限公司 目标检测方法、装置、终端设备及介质
CN111401424B (zh) * 2020-03-10 2024-01-26 北京迈格威科技有限公司 目标检测方法、装置和电子系统
DE102020206641B4 (de) 2020-05-27 2023-09-28 Robert Bosch Gesellschaft mit beschränkter Haftung Verfahren und Vorrichtung zum Bereitstellen einer hochauflösenden digitalen Karte
KR102429272B1 (ko) * 2020-06-15 2022-08-04 주식회사 베이리스 딥러닝에 기반한 객체 검출 장치 및 그 방법
CN112686170B (zh) * 2020-12-31 2023-10-17 北京一起教育科技有限责任公司 一种图像识别方法、装置及电子设备
DE102021213757B3 (de) 2021-12-03 2023-02-02 Continental Autonomous Mobility Germany GmbH Verfahren zum Fusionieren von Bilddaten im Kontext eines künstlichen neuronalen Netzwerks
DE102021213756B3 (de) 2021-12-03 2023-02-02 Continental Autonomous Mobility Germany GmbH Verfahren zum Fusionieren von Sensordaten im Kontext eines künstlichen neuronalen Netzwerks

Family Cites Families (38)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP5877376B2 (ja) 2011-06-02 2016-03-08 パナソニックIpマネジメント株式会社 物体検出装置、物体検出方法および物体検出プログラム
JP6340228B2 (ja) 2014-03-27 2018-06-06 株式会社メガチップス 物体検出装置
US9536293B2 (en) * 2014-07-30 2017-01-03 Adobe Systems Incorporated Image assessment using deep convolutional neural networks
US9524450B2 (en) * 2015-03-04 2016-12-20 Accenture Global Services Limited Digital image processing using convolutional neural networks
CN106156807B (zh) * 2015-04-02 2020-06-02 华中科技大学 卷积神经网络模型的训练方法及装置
WO2016165060A1 (en) * 2015-04-14 2016-10-20 Intel Corporation Skin detection based on online discriminative modeling
US9965719B2 (en) 2015-11-04 2018-05-08 Nec Corporation Subcategory-aware convolutional neural networks for object detection
US9881234B2 (en) * 2015-11-25 2018-01-30 Baidu Usa Llc. Systems and methods for end-to-end object detection
US9524430B1 (en) * 2016-02-03 2016-12-20 Stradvision Korea, Inc. Method for detecting texts included in an image and apparatus using the same
US20180039853A1 (en) * 2016-08-02 2018-02-08 Mitsubishi Electric Research Laboratories, Inc. Object Detection System and Object Detection Method
US10354159B2 (en) * 2016-09-06 2019-07-16 Carnegie Mellon University Methods and software for detecting objects in an image using a contextual multiscale fast region-based convolutional neural network
US10354362B2 (en) * 2016-09-08 2019-07-16 Carnegie Mellon University Methods and software for detecting objects in images using a multiscale fast region-based convolutional neural network
US11308350B2 (en) * 2016-11-07 2022-04-19 Qualcomm Incorporated Deep cross-correlation learning for object tracking
JP6964234B2 (ja) 2016-11-09 2021-11-10 パナソニックIpマネジメント株式会社 情報処理方法、情報処理装置およびプログラム
US10846523B2 (en) * 2016-11-14 2020-11-24 Kodak Alaris Inc. System and method of character recognition using fully convolutional neural networks with attention
US10380741B2 (en) * 2016-12-07 2019-08-13 Samsung Electronics Co., Ltd System and method for a deep learning machine for object detection
US10262237B2 (en) * 2016-12-08 2019-04-16 Intel Corporation Technologies for improved object detection accuracy with multi-scale representation and training
CN108303748A (zh) * 2017-01-12 2018-07-20 同方威视技术股份有限公司 检查设备和检测行李物品中的枪支的方法
US10185878B2 (en) * 2017-02-28 2019-01-22 Microsoft Technology Licensing, Llc System and method for person counting in image data
US10635927B2 (en) * 2017-03-06 2020-04-28 Honda Motor Co., Ltd. Systems for performing semantic segmentation and methods thereof
US10678846B2 (en) * 2017-03-10 2020-06-09 Xerox Corporation Instance-level image retrieval with a region proposal network
US20180260414A1 (en) * 2017-03-10 2018-09-13 Xerox Corporation Query expansion learning with recurrent networks
EP3596449A4 (en) * 2017-03-14 2021-01-06 University of Manitoba DETECTION OF STRUCTURAL DEFECTS USING AUTOMATIC LEARNING ALGORITHMS
US11010595B2 (en) * 2017-03-23 2021-05-18 Samsung Electronics Co., Ltd. Facial verification method and apparatus
US10496895B2 (en) * 2017-03-28 2019-12-03 Facebook, Inc. Generating refined object proposals using deep-learning models
CN107392218B (zh) * 2017-04-11 2020-08-04 创新先进技术有限公司 一种基于图像的车辆定损方法、装置及电子设备
US10325342B2 (en) * 2017-04-27 2019-06-18 Apple Inc. Convolution engine for merging interleaved channel data
US20200085382A1 (en) * 2017-05-30 2020-03-19 Arterys Inc. Automated lesion detection, segmentation, and longitudinal identification
CN108985135A (zh) * 2017-06-02 2018-12-11 腾讯科技(深圳)有限公司 一种人脸检测器训练方法、装置及电子设备
US10460470B2 (en) * 2017-07-06 2019-10-29 Futurewei Technologies, Inc. Recognition and reconstruction of objects with partial appearance
US10503978B2 (en) * 2017-07-14 2019-12-10 Nec Corporation Spatio-temporal interaction network for learning object interactions
KR101880901B1 (ko) * 2017-08-09 2018-07-23 펜타시큐리티시스템 주식회사 기계 학습 방법 및 장치
JP6972756B2 (ja) * 2017-08-10 2021-11-24 富士通株式会社 制御プログラム、制御方法、及び情報処理装置
JP6972757B2 (ja) * 2017-08-10 2021-11-24 富士通株式会社 制御プログラム、制御方法、及び情報処理装置
US10679351B2 (en) * 2017-08-18 2020-06-09 Samsung Electronics Co., Ltd. System and method for semantic segmentation of images
CN107492099B (zh) * 2017-08-28 2021-08-20 京东方科技集团股份有限公司 医学图像分析方法、医学图像分析系统以及存储介质
US10169679B1 (en) * 2017-10-13 2019-01-01 StradVision, Inc. Learning method and learning device for adjusting parameters of CNN by using loss augmentation and testing method and testing device using the same
CN108427912B (zh) * 2018-02-05 2020-06-05 西安电子科技大学 基于稠密目标特征学习的光学遥感图像目标检测方法

Also Published As

Publication number Publication date
KR102328731B1 (ko) 2021-11-22
EP3686798B1 (en) 2022-05-25
JP2020119547A (ja) 2020-08-06
EP3686798A1 (en) 2020-07-29
CN111461319A (zh) 2020-07-28
US10430691B1 (en) 2019-10-01
CN111461319B (zh) 2023-04-18
KR20200091331A (ko) 2020-07-30

Similar Documents

Publication Publication Date Title
JP6908944B2 (ja) 多重カメラまたはサラウンドビューモニタリングに利用されるために、ターゲット物体統合ネットワーク及びターゲット物体予測ネットワークを利用して、重要業績評価指標のようなユーザー要求事項に適用可能なcnn基盤の物体検出器を学習する方法及び学習装置、並びにこれを利用したテスティング方法及びテスティング装置
JP6908943B2 (ja) イメージコンカチネーションと、ターゲット物体予測ネットワークとを利用して、多重カメラ又はサラウンドビューモニタリングに利用される物体検出器を学習する方法及び学習装置、並びにこれを利用したテスティング方法及びテスティング装置
JP6857370B2 (ja) ターゲット物体予測ネットワーク及びターゲット物体統合ネットワークを利用して、重要業績評価指標のようなユーザー要求事項に係る最適化のための再構成可能なネットワーク基盤の物体検出器を学習する方法及び学習装置、並びにこれを利用したテスティング方法及びテスティング装置
KR102326256B1 (ko) 고정밀도 이미지를 분석하는 딥러닝 네트워크의 학습에 이용하기 위한 트레이닝 이미지를 오토 라벨링하기 위한 방법 및 이를 이용한 오토 라벨링 장치
JP6846069B2 (ja) 遠距離検出または軍事目的のために、イメージコンカチネーションを利用したcnn基盤のハードウェア最適化が可能な物体検出器を学習する方法及び学習装置、それを利用したテスト方法及びテスト装置{learning method and learning device for object detector with hardware optimization based on cnn for detection at distance or military purpose using image concatenation, and testing method and testing device using the same}
JP6850046B2 (ja) 重要業績評価指標のようなユーザ要求事項に適したターゲット物体予測ネットワークを用いた、cnn基盤の変動に強い物体検出器を学習する方法及び学習装置、並びにこれを利用したテスティング方法及びテスティング装置
JP6875021B2 (ja) 有用な学習データを取捨選別するためのcnn基盤の学習方法及び学習装置、そしてこれを利用したテスト方法及びテスト装置
JP6892157B2 (ja) V2x情報融合技術によって取得された、各物体に対する深さ予測情報及び各物体に対するクラス情報を利用して3d空間を再構築することによりhdマップをアップデートする学習方法及び学習装置、そしてこれを利用したテスティング方法及びテスティング装置

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20200110

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20210219

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20210302

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20210527

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20210622

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20210625

R150 Certificate of patent or registration of utility model

Ref document number: 6908944

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250