JP6908944B2 - 多重カメラまたはサラウンドビューモニタリングに利用されるために、ターゲット物体統合ネットワーク及びターゲット物体予測ネットワークを利用して、重要業績評価指標のようなユーザー要求事項に適用可能なcnn基盤の物体検出器を学習する方法及び学習装置、並びにこれを利用したテスティング方法及びテスティング装置 - Google Patents
多重カメラまたはサラウンドビューモニタリングに利用されるために、ターゲット物体統合ネットワーク及びターゲット物体予測ネットワークを利用して、重要業績評価指標のようなユーザー要求事項に適用可能なcnn基盤の物体検出器を学習する方法及び学習装置、並びにこれを利用したテスティング方法及びテスティング装置 Download PDFInfo
- Publication number
- JP6908944B2 JP6908944B2 JP2020002988A JP2020002988A JP6908944B2 JP 6908944 B2 JP6908944 B2 JP 6908944B2 JP 2020002988 A JP2020002988 A JP 2020002988A JP 2020002988 A JP2020002988 A JP 2020002988A JP 6908944 B2 JP6908944 B2 JP 6908944B2
- Authority
- JP
- Japan
- Prior art keywords
- test
- image
- learning
- specific
- proposal
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000012360 testing method Methods 0.000 title claims description 1054
- 238000000034 method Methods 0.000 title claims description 108
- 230000010354 integration Effects 0.000 title claims description 35
- 238000012544 monitoring process Methods 0.000 title description 3
- 238000012545 processing Methods 0.000 claims description 301
- 238000001514 detection method Methods 0.000 claims description 229
- 238000012549 training Methods 0.000 claims description 152
- 238000011176 pooling Methods 0.000 claims description 77
- 230000008569 process Effects 0.000 claims description 69
- 238000004364 calculation method Methods 0.000 claims description 56
- SUBDBMMJDZJVOS-UHFFFAOYSA-N 5-methoxy-2-{[(4-methoxy-3,5-dimethylpyridin-2-yl)methyl]sulfinyl}-1H-benzimidazole Chemical compound N=1C2=CC(OC)=CC=C2NC=1S(=O)CC1=NC=C(C)C(OC)=C1C SUBDBMMJDZJVOS-UHFFFAOYSA-N 0.000 claims 1
- 238000007689 inspection Methods 0.000 claims 1
- 238000013527 convolutional neural network Methods 0.000 description 39
- 238000003754 machining Methods 0.000 description 36
- 238000004891 communication Methods 0.000 description 4
- 230000000694 effects Effects 0.000 description 4
- 230000006870 function Effects 0.000 description 3
- 238000012986 modification Methods 0.000 description 3
- 230000004048 modification Effects 0.000 description 3
- 230000011218 segmentation Effects 0.000 description 3
- 239000000758 substrate Substances 0.000 description 3
- 238000010998 test method Methods 0.000 description 3
- 241001465754 Metazoa Species 0.000 description 2
- 230000008901 benefit Effects 0.000 description 2
- 230000003993 interaction Effects 0.000 description 2
- 238000007792 addition Methods 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 230000007423 decrease Effects 0.000 description 1
- 238000010191 image analysis Methods 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Images
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N7/00—Television systems
- H04N7/18—Closed-circuit television [CCTV] systems, i.e. systems in which the video signal is not broadcast
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/084—Backpropagation, e.g. using gradient descent
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
- G06F18/2148—Generating training patterns; Bootstrap methods, e.g. bagging or boosting characterised by the process organisation or structure, e.g. boosting cascade
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/217—Validation; Performance evaluation; Active pattern learning techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N7/00—Computing arrangements based on specific mathematical models
- G06N7/01—Probabilistic graphical models, e.g. probabilistic networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/20—Analysis of motion
- G06T7/246—Analysis of motion using feature-based methods, e.g. the tracking of corners or segments
- G06T7/251—Analysis of motion using feature-based methods, e.g. the tracking of corners or segments involving models
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/20—Image preprocessing
- G06V10/25—Determination of region of interest [ROI] or a volume of interest [VOI]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/764—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/776—Validation; Performance evaluation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/50—Context or environment of the image
- G06V20/56—Context or environment of the image exterior to a vehicle by using sensors mounted on the vehicle
- G06V20/58—Recognition of moving objects or obstacles, e.g. vehicles or pedestrians; Recognition of traffic objects, e.g. traffic signs, traffic lights or roads
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20084—Artificial neural networks [ANN]
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- Software Systems (AREA)
- Computing Systems (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Multimedia (AREA)
- Data Mining & Analysis (AREA)
- General Engineering & Computer Science (AREA)
- Life Sciences & Earth Sciences (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Mathematical Physics (AREA)
- Biophysics (AREA)
- Biomedical Technology (AREA)
- Computational Linguistics (AREA)
- Molecular Biology (AREA)
- Databases & Information Systems (AREA)
- Medical Informatics (AREA)
- Evolutionary Biology (AREA)
- Bioinformatics & Computational Biology (AREA)
- Signal Processing (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Pure & Applied Mathematics (AREA)
- Computational Mathematics (AREA)
- Image Analysis (AREA)
- Probability & Statistics with Applications (AREA)
- Mathematical Optimization (AREA)
- Mathematical Analysis (AREA)
- Algebra (AREA)
Description
になるようにする。
Claims (28)
- ターゲット物体統合ネットワークと、ターゲット領域予測ネットワークとを利用したCNN基盤の物体検出器のパラメータを学習する方法において、
(a)少なくとも一つのトレーニングビデオが取得されると、学習装置が、(i)イメージ加工ネットワークをもって、前記トレーニングビデオの現在フレームである第1フレームに対応する第1イメージピラミッドに含まれた第1_1イメージないし第1_nイメージそれぞれから、少なくとも一つのターゲット物体が位置すると推定される第1予測ターゲット領域にそれぞれ対応する、第1_1加工イメージないし第1_n加工イメージを生成するようにし、前記第1_1加工イメージないし前記第1_n加工イメージをコンカチネート(concatenate)した第1統合トレーニングイメージを生成するようにし、(ii)一つ以上のコンボリューションレイヤをもって、一つ以上のコンボリューション演算を前記第1統合トレーニングイメージに適用することで、少なくとも一つの第1特徴マップを出力させ、RPN(Region Proposal Network)をもって、前記第1特徴マップを利用して、前記第1統合トレーニングイメージに含まれた前記第1_1加工イメージないし前記第1_n加工イメージそれぞれに位置する一つ以上の物体に対応する第1_1物体プロポーザルないし第1_n物体プロポーザルを出力させ、プーリングレイヤをもって、前記第1特徴マップ上で、前記第1_1物体プロポーザルないし前記第1_n物体プロポーザルに対応する一つ以上の領域に一つ以上のプーリング演算を適用して、少なくとも一つの第1プーリング済み特徴マップを出力させ、FC(fully connected)レイヤをもって、前記第1プーリング済み特徴マップに一つ以上のFC演算を適用して、前記物体に対応する第1_1物体検出情報ないし第1_n物体検出情報を出力させ、(iii)ターゲット物体統合ネットワークをもって、前記第1_1物体プロポーザルないし前記第1_n物体プロポーザルを統合して第1統合物体プロポーザルを生成するようにし、前記第1_1物体検出情報ないし前記第1_n物体検出情報を統合して第1統合物体検出情報を生成するようにし、少なくとも一つのFCロスレイヤをもって、前記第1統合物体検出情報及びこれに対応するGTを参照して一つ以上の第1FCロスを生成するようにすることで、前記第1FCロスを利用したバックプロパゲーション(Backpropagation)によって、前記FCレイヤと、前記コンボリューションレイヤのパラメータとの中の少なくとも一部を学習する段階;及び
(b)kを2からnまで増加させながら、前記学習装置が、(i)ターゲット物体予測ネットワークをもって、第k−1統合トレーニングイメージ上の第(k−1)_1物体プロポーザルないし第(k−1)_n物体プロポーザルを参照して、第k−1フレーム上で、前記ターゲット物体が位置すると予測される第k−1ターゲット領域を探すようにし、ターゲット領域予測ネットワークをもって、第kフレーム上で、前記第k−1ターゲット領域が位置すると予測される一つ以上の領域に対応する第k予測ターゲット領域を探すようにし、(ii)前記イメージ加工ネットワークをもって、前記第kフレームに対応する第kイメージピラミッド内に含まれた第k_1イメージないし第k_nイメージそれぞれから、前記第k予測ターゲット領域にそれぞれ対応する、第k_1加工イメージないし第k_n加工イメージを生成するようにし、前記第k_1加工イメージないし前記第k_n加工イメージをコンカチネートした第k統合トレーニングイメージを出力するようにし、(iii)前記コンボリューションレイヤをもって、前記コンボリューション演算を前記第k統合トレーニングイメージに適用することで、第k特徴マップを出力させ、前記RPNをもって、前記第k特徴マップを利用して、前記第k統合トレーニングイメージ内に含まれた前記第k_1加工イメージないし前記第k_n加工イメージそれぞれに位置する前記物体に対応する第k_1物体プロポーザルないし第k_n物体プロポーザルを出力させ、前記プーリングレイヤをもって、前記第k特徴マップ上で、前記第k_1物体プロポーザルないし前記第k_n物体プロポーザルに対応する一つ以上の領域に前記プーリング演算を適用して、少なくとも一つの第kプーリング済み特徴マップを出力させ、前記FCレイヤをもって、前記第kプーリング済み特徴マップに前記FC演算を適用して、前記物体に対応する第k_1物体検出情報ないし第k_n物体検出情報を出力させ、(iv)前記ターゲット物体統合ネットワークをもって、前記第k_1物体プロポーザルないし前記第k_n物体プロポーザルを統合して第k統合物体プロポーザルを生成するようにし、前記第k_1物体検出情報ないし前記第k_n物体検出情報を統合して第k統合物体検出情報を生成するようにし、前記FCロスレイヤをもって、前記第k統合物体検出情報及びこれに対応するGTを参照して一つ以上の第kFCロスを生成するようにすることで、前記第kFCロスを利用したバックプロパゲーション(Backpropagation)によって、前記FCレイヤと、前記コンボリューションレイヤのパラメータとの中の少なくとも一部を学習する段階;
を含むことを特徴とする方法。 - 前記(a)段階で、
前記学習装置は、RPNロスレイヤをもって、前記第1統合物体プロポーザルの情報及びこれに対応するGTを参照して一つ以上の第1RPNロスを取得するようにすることで、前記第1RPNロスを利用したバックプロパゲーションによって前記RPNのパラメータの中の少なくとも一部を調整するようにし、
前記(b)段階で、
前記学習装置は、前記RPNロスレイヤをもって、前記第k統合物体プロポーザル情報及びこれに対応するGTを参照して一つ以上の第kRPNロスを取得するようにすることで、前記第kRPNロスを利用したバックプロパゲーションによって前記RPNの前記パラメータの中の少なくとも一部を調整することを特徴とする請求項1に記載の方法。 - 前記(a)段階で、
前記学習装置が、前記イメージ加工ネットワークをもって、第1_1加工イメージないし前記第1_n加工イメージの幅と高さのうち少なくとも一つを同一に調整した後、同一の大きさに調整された前記幅または前記高さ方向に第1_1調整済み加工イメージないし第1_n調整済み加工イメージをコンカチネート(concatenate)するようにし、
前記(b)段階で、
前記学習装置が、前記イメージ加工ネットワークをもって、前記第k_1加工イメージないし前記第k_n加工イメージの幅と高さのうち少なくとも一つを同一に調整した後、同一の大きさに調整された前記幅または前記高さ方向に第k_1調整済み加工イメージないし第k_n調整済み加工イメージをコンカチネート(concatenate)するようにすることを特徴とする請求項1に記載の方法。 - 前記学習装置が、前記イメージ加工ネットワークをもって、前記第k_1調整済み加工イメージないし前記第k_n調整済み加工イメージのうち、コンカチネートされた隣接するそれぞれの二つの調整済み加工イメージから構成されるそれぞれのペアの間にそれぞれ少なくとも一つのゼロパディング(zero padding)領域を追加するようにし、
前記コンボリューションレイヤの多重コンボリューション演算によって前記第k統合トレーニングイメージが1/Sに縮小され、前記コンボリューションレイヤそれぞれのカーネルそれぞれの最大サイズをK×Kとする場合、前記ゼロパディング領域の幅が
- 第1特定加工イメージ及び第2特定加工イメージ上にそれぞれ少なくとも一つの特定同一物体が位置し、前記第1特定加工イメージ上で、前記特定同一物体に対応する少なくとも一つの物体プロポーザルを第1特定物体プロポーザルとし、前記第2特定加工イメージ上で、前記特定同一物体に対応する少なくとも一つの物体プロポーザルを第2特定物体プロポーザルとした場合、
前記学習装置は、前記ターゲット物体統合ネットワークをもって、前記第1特定物体プロポーザルと、前記第2特定物体プロポーザルとの間のIOU(Intersection Over Union)が第1閾値以上になるかを判断するようにし、(I)前記IOUが、前記第1閾値未満と判断されれば、前記第2特定加工イメージ上で前記第1特定物体プロポーザルに対応する領域と、前記第1特定加工イメージ上で前記第2特定物体プロポーザルに対応する領域との間の調整IOUを算出し、(II)前記調整IOUが第2閾値以上と判断されれば、前記第1特定物体プロポーザルと、前記第2特定物体プロポーザルとの中から、(i)確率値の高い特定物体プロポーザルを選択するようにするか(ii)前記トレーニングイメージ上で演算される面積の大きい特定物体プロポーザルを選択するようにすることにより、前記選択された特定物体プロポーザルを前記特定同一物体に対応する特定統合物体プロポーザルとして生成することを特徴とする請求項1に記載の方法。 - 第1特定加工イメージ及び第2特定加工イメージ上に少なくとも一つの特定同一物体が位置し、前記第1特定加工イメージ上で、前記特定同一物体に対応する少なくとも一つの物体バウンディングボックスを第1特定物体バウンディングボックスとし、前記第2特定加工イメージ上で、前記特定同一物体に対応する少なくとも一つの物体バウンディングボックスを第2特定物体バウンディングボックスとした場合、
前記学習装置は、前記ターゲット物体統合ネットワークをもって、前記第1特定物体バウンディングボックスと、前記第2特定物体バウンディングボックスとの間のIOUが、第1閾値以上になるか否かを判断するようにし、(I)前記IOUが、前記第1閾値未満と判断されれば、前記第2特定加工イメージ上で前記第1特定物体バウンディングボックスに対応する領域と、前記第1特定加工イメージ上で前記第2特定物体バウンディングボックスに対応する領域との間の調整IOUを算出し、(II)前記調整IOUが第2閾値以上と判断されたら、前記第1特定物体バウンディングボックスと、前記第2特定物体バウンディングボックスの中から、(i)確率値の高い特定物体バウンディングボックスを選択するようにするか(ii)前記トレーニングイメージ上で演算される面積の大きい特定物体バウンディングボックスを選択するようにすることにより、前記選択された特定物体バウンディングボックスを前記特定同一物体に対応する特定統合物体検出情報として生成することを特徴とする請求項1に記載の方法。 - 前記(b)段階で、
前記学習装置は、前記ターゲット物体予測ネットワークをもって、(i)特定加工イメージをMxNグリッドに区分するようにし、(ii)前記第k−1物体プロポーザルないし前記第k_n物体プロポーザルのうち、前記グリッドの各セルごとにそれぞれ対応する特定物体プロポーザルの個数を示す少なくとも一つ以上のヒストグラムマップを生成するようにし、前記グリッドの各セル内にそれに対応する前記特定物体プロポーザルそれぞれの全体領域または分割領域が存在し、(iii)ムービングウィンドウの中の少なくとも一つの領域を利用して、少なくとも一つの特定ターゲット領域を決定するようにし、前記少なくとも一つの領域は、前記ムービングウィンドウの位置を変更して占有されるすべての領域のうち、前記ヒストグラムマップの合計が最も大きい値を有する領域であることを特徴とする請求項1に記載の方法。 - ターゲット物体統合ネットワークと、ターゲット領域予測ネットワークとを利用したCNN基盤の物体検出器のテスティングする方法において、
(a)学習装置が、(1)(i)イメージ加工ネットワークをもって、少なくとも一つのトレーニングビデオの現在フレームである第1学習用フレームに対応する第1学習用イメージピラミッドに含まれた第1_1トレーニングイメージないし第1_nトレーニングイメージそれぞれから、少なくとも一つの学習用ターゲット物体が位置すると推定される第1学習用予測ターゲット領域にそれぞれ対応する、第1_1学習用加工イメージないし第1_n学習用加工イメージを生成するようにし、前記第1_1学習用加工イメージないし前記第1_n学習用加工イメージをコンカチネートした第1統合トレーニングイメージを生成するようにし、(ii)一つ以上のコンボリューションレイヤをもって、一つ以上のコンボリューション演算を前記第1統合トレーニングイメージに適用することで、少なくとも一つの第1学習用特徴マップを出力させ、RPN(Region Proposal Network)をもって、前記第1学習用特徴マップを利用して、前記第1統合トレーニングイメージに含まれた前記第1_1学習用加工イメージないし前記第1_n学習用加工イメージそれぞれに位置する一つ以上の学習用物体に対応する第1_1学習用物体プロポーザルないし第1_n学習用物体プロポーザルを出力させ、プーリングレイヤをもって、前記第1学習用特徴マップ上で、前記第1_1学習用物体プロポーザルないし前記第1_n学習用物体プロポーザルに対応する一つ以上の領域に一つ以上のプーリング演算を適用して、少なくとも一つの第1学習用プーリング済み特徴マップを出力させ、FC(fully connected)レイヤをもって、前記第1学習用プーリング済み特徴マップに少なくとも一つのFC演算を適用して、前記学習用物体に対応する第1_1学習用物体検出情報ないし第1_n学習用物体検出情報を出力するようにし、(iii)ターゲット物体統合ネットワークをもって、前記第1_1学習用物体プロポーザルないし前記第1_n学習用物体プロポーザルを統合して第1学習用統合物体プロポーザルを生成するようにし、前記第1_1学習用物体検出情報ないし前記第1_n学習用物体検出情報を統合して第1学習用統合物体検出情報を生成するようにし、少なくとも一つのFCロスレイヤをもって、前記第1学習用統合物体検出情報及びこれに対応するGTを参照して一つ以上の第1FCロスを生成するようにすることで、前記第1FCロスを利用したバックプロパゲーション(Backpropagation)によって、前記FCレイヤと、前記コンボリューションレイヤのパラメータとの中の少なくとも一部を学習するプロセス、及び(2)kを2からnまで増加させながら、(i)ターゲット物体予測ネットワークをもって、第k−1統合トレーニングイメージ上の第(k−1)_1学習用物体プロポーザルないし第(k−1)_n学習用物体プロポーザルを参照して、第k−1学習用フレーム上で、前記学習用ターゲット物体が位置すると予測される第k−1学習用ターゲット領域を探すようにし、ターゲット領域予測ネットワークをもって、第k学習用フレーム上で、前記第k−1学習用ターゲット領域が位置すると予測される一つ以上の領域に対応する第k学習用予測ターゲット領域を探すようにし、(ii)前記イメージ加工ネットワークをもって、前記第k学習用フレームに対応する第k学習用イメージピラミッド内に含まれた第k_1トレーニングイメージないし第k_nトレーニングイメージそれぞれから、前記第k学習用予測ターゲット領域にそれぞれ対応する、第k_1学習用加工イメージないし第k_n学習用加工イメージを生成するようにし、前記第k_1学習用加工イメージないし前記第k_n学習用加工イメージをコンカチネートした第k統合トレーニングイメージを出力するようにし、(iii)前記コンボリューションレイヤをもって、前記コンボリューション演算を前記第k統合トレーニングイメージに適用することで、第k学習用特徴マップを出力させ、前記RPNをもって、前記第k学習用特徴マップを利用して、前記第k統合トレーニングイメージ内に含まれた前記第k_1学習用加工イメージないし前記第k_n学習用加工イメージそれぞれに位置する前記学習用物体に対応する第k_1学習用物体プロポーザルないし第k_n学習用物体プロポーザルを出力させ、前記プーリングレイヤをもって、前記第k学習用特徴マップ上で、前記第k_1学習用物体プロポーザルないし前記第k_n学習用物体プロポーザルに対応する一つ以上の領域に前記プーリング演算を適用して、少なくとも一つの第k学習用プーリング済み特徴マップを出力させ、前記FCレイヤをもって、前記第k学習用プーリング済み特徴マップに前記FC演算を適用して、前記学習用物体に対応する第k_1学習用物体検出情報ないし第k_n学習用物体検出情報を出力させ、(iv)前記ターゲット物体統合ネットワークをもって、前記第k_1学習用物体プロポーザルないし前記第k_n学習用物体プロポーザルを統合して第k学習用統合物体プロポーザルを生成するようにし、前記第k_1学習用物体検出情報ないし前記第k_n学習用物体検出情報を統合して第k学習用統合物体検出情報を生成するようにし、前記FCロスレイヤをもって、前記第k学習用統合物体検出情報及びこれに対応するGTを参照して一つ以上の第kFCロスを生成するようにすることで、前記第kFCロスを利用したバックプロパゲーション(Backpropagation)によって、前記FCレイヤと、前記コンボリューションレイヤのパラメータとの中の少なくとも一部を学習するプロセスを遂行した状態で;少なくとも一つのテストビデオが取得されると、テスティング装置が、(i)前記イメージ加工ネットワークをもって、前記テストビデオの現在フレームである第1テスト用フレームに対応する第1テスト用イメージピラミッドに含まれた第1_1テストイメージないし第1_nテストイメージそれぞれから、少なくとも一つのテスト用ターゲット物体が位置すると推定される第1テスト用予測ターゲット領域にそれぞれ対応する、第1_1テスト用加工イメージないし第1_nテスト用加工イメージを生成するようにし、前記第1_1テスト用加工イメージないし前記第1_nテスト用加工イメージをコンカチネートした第1統合テストイメージを生成するようにし、(ii)前記コンボリューションレイヤをもって、前記コンボリューション演算を前記第1統合テストイメージに適用することで、少なくとも一つの第1テスト用特徴マップを出力させ、前記RPNをもって、前記第1テスト用特徴マップを利用して、前記第1統合テストイメージ内に含まれた前記第1_1テスト用加工イメージないし前記第1_nテスト用加工イメージそれぞれに位置する一つ以上のテスト用物体に対応する第1_1テスト用物体プロポーザルないし第1_nテスト用物体プロポーザルを出力させ、前記プーリングレイヤをもって、前記第1テスト用特徴マップ上で、前記第1_1テスト用物体プロポーザルないし前記第1_nテスト用物体プロポーザルに対応する一つ以上の領域に前記プーリング演算を適用して、少なくとも一つの第1テスト用プーリング済み特徴マップを出力させ、前記FCレイヤをもって、前記第1テスト用プーリング済み特徴マップに前記FC演算を適用して、前記テスト用物体に対応する第1_1テスト用物体検出情報ないし第1_nテスト用物体検出情報を出力させ、(iii)前記ターゲット物体統合ネットワークをもって、前記第1_1テスト用物体プロポーザルないし前記第1_nテスト用物体プロポーザルを統合して第1テスト用統合物体プロポーザルを生成するようにし、前記第1_1テスト用物体検出情報ないし前記第1_nテスト用物体検出情報を統合して第1テスト用統合物体検出情報を生成するようにする段階;及び
(b)前記テスティング装置が、kを2からnまで増加させながら、(i)前記ターゲット物体予測ネットワークをもって、第k−1統合テストイメージ上の第(k−1)_1テスト用物体プロポーザルないし第(k−1)_nテスト用物体プロポーザルを参照して、第k−1テスト用フレーム上で、前記テスト用ターゲット物体が位置すると予測される第k−1テスト用ターゲット領域を探すようにし、前記ターゲット領域予測ネットワークをもって、第kテスト用フレーム上で、前記第k−1テスト用ターゲット領域が位置すると予測される一つ以上の領域に対応する第kテスト用予測ターゲット領域を探すようにし、(ii)前記イメージ加工ネットワークをもって、前記第kテスト用フレームに対応する第kテスト用イメージピラミッド内に含まれた第k_1テストイメージないし第k_nテストイメージそれぞれから、前記第kテスト用予測ターゲット領域にそれぞれ対応する、第k_1テスト用加工イメージないし第k_nテスト用加工イメージを生成するようにし、前記第k_1テスト用加工イメージないし前記第k_nテスト用加工イメージをコンカチネートした第k統合テストイメージを出力するようにし、(iii)前記コンボリューションレイヤをもって、前記コンボリューション演算を前記第k統合テストイメージに適用することで第kテスト用特徴マップを出力させ、前記RPNをもって、前記第kテスト用特徴マップを利用して、前記第k統合テストイメージ内に含まれた前記第k_1テスト用加工イメージないし前記第k_nテスト用加工イメージそれぞれに位置する前記テスト用物体に対応する第k_1テスト用物体プロポーザルないし第k_nテスト用物体プロポーザルを出力させ、前記プーリングレイヤをもって、前記第kテスト用特徴マップ上で、前記第k_1テスト用物体プロポーザルないし前記第k_nテスト用物体プロポーザルに対応する一つ以上の領域に前記プーリング演算を適用して、少なくとも一つの第kテスト用プーリング済み特徴マップを出力させ、前記FCレイヤをもって、前記第kテスト用プーリング済み特徴マップに前記FC演算を適用して、前記テスト用物体に対応する第k_1テスト用物体検出情報ないし第k_nテスト用物体検出情報を出力させ、(iv)前記ターゲット物体統合ネットワークをもって、前記第k_1テスト用物体プロポーザルないし前記第k_nテスト用物体プロポーザルを統合して第kテスト用統合物体プロポーザルを生成するようにし、前記第k_1テスト用物体検出情報ないし前記第k_nテスト用物体検出情報を統合して第kテスト用統合物体検出情報を生成するようにする段階;
を含むことを特徴とする方法。 - 前記(1)プロセスで、
前記学習装置は、少なくとも一つのRPNロスレイヤをもって、前記第1学習用統合物体プロポーザルの情報及びこれに対応するGTを参照して一つ以上の第1RPNロスを取得するようにすることで、前記第1RPNロスを利用したバックプロパゲーションによって前記RPNのパラメータの中の少なくとも一部を調整するようにし、
前記(2)プロセスで、
前記学習装置は、前記RPNロスレイヤをもって、前記第k学習用統合物体プロポーザル情報及びこれに対応するGTを参照して一つ以上の第kRPNロスを取得するようにすることで、前記第kRPNロスを利用したバックプロパゲーションによって前記RPNの前記パラメータの中の少なくとも一部を調整することを特徴とする請求項8に記載の方法。 - 前記(a)段階で、
前記テスティング装置が、前記イメージ加工ネットワークをもって、前記第1_1テスト用加工イメージないし前記第1_nテスト用加工イメージの幅と高さのうち少なくとも一つを同一に調整した後、同一に調整された前記幅または前記高さ方向に第1_1テスト用調整済み加工イメージないし第1_nテスト用調整済み加工イメージをコンカチネートするようにし、
前記(b)段階で、
前記テスティング装置が、前記イメージ加工ネットワークをもって、前記第k_1テスト用加工イメージないし前記第k_nテスト用加工イメージの幅と高さのうち少なくとも一つを同一に調整した後、同一に調整された前記幅または前記高さ方向に第k_1テスト用調整済み加工イメージないし第k_nテスト用調整済み加工イメージをコンカチネートすることを特徴とする請求項8に記載の方法。 - 前記テスティング装置が、前記イメージ加工ネットワークをもって、前記第k_1テスト用調整済み加工イメージないし前記第k_nテスト用調整済み加工イメージのうち、コンカチネートされた隣接するそれぞれの二つのテスト用調整済み加工イメージから構成されるそれぞれのペアの間にそれぞれ少なくとも一つのゼロパディング(zero padding)領域を追加するようにし、
前記コンボリューションレイヤの多重コンボリューション演算によって前記第k統合テストイメージが1/Sに縮小され、前記コンボリューションレイヤそれぞれのカーネルそれぞれの最大サイズをK×Kとする場合、前記ゼロパディング領域の幅が
- 第1テスト用特定加工イメージ及び第2テスト用特定加工イメージ上にそれぞれ少なくとも一つのテスト用特定同一物体が位置し、前記第1テスト用特定加工イメージ上で、前記テスト用特定同一物体に対応する少なくとも一つのテスト用物体プロポーザルを第1テスト用特定物体プロポーザルとし、前記第2テスト用特定加工イメージ上で、前記テスト用特定同一物体に対応する少なくとも一つのテスト用物体プロポーザルを第2テスト用特定物体プロポーザルとした場合、
前記テスティング装置は、前記ターゲット物体統合ネットワークをもって、前記第1テスト用特定物体プロポーザルと、前記第2テスト用特定物体プロポーザルとの間のテスト用IOU(Intersection Over Union)が、第1閾値以上になるかを判断するようにし、(I)前記テスト用IOUが、前記第1閾値未満と判断されれば、前記第2テスト用特定加工イメージ上で前記第1テスト用特定物体プロポーザルに対応する領域と、前記第1テスト用特定加工イメージ上で前記第2テスト用特定物体プロポーザルに対応する領域との間のテスト用調整IOUを算出し、(II)前記テスト用調整IOUが第2閾値以上と判断されれば、前記第1テスト用特定物体プロポーザルと、前記第2テスト用特定物体プロポーザルとの中から、(i)確率値の高いテスト用特定物体プロポーザルを選択するようにするか(ii)前記テストイメージ上で演算される面積の大きいテスト用特定物体プロポーザルを選択させることにより、前記選択されたテスト用特定物体プロポーザルを前記テスト用特定同一物体に対応するテスト用特定統合物体プロポーザルとして生成することを特徴とする請求項8に記載の方法。 - 第1テスト用特定加工イメージ及び第2テスト用特定加工イメージ上にそれぞれ少なくとも一つのテスト用特定同一物体が位置し、前記第1テスト用特定加工イメージ上で、前記テスト用特定同一物体に対応する少なくとも一つのテスト用物体バウンディングボックスを第1テスト用特定物体バウンディングボックスとし、前記第2テスト用特定加工イメージ上で、前記テスト用特定同一物体に対応する少なくとも一つのテスト用物体バウンディングボックスを第2テスト用特定物体バウンディングボックスとした場合、
前記テスティング装置は、前記ターゲット物体統合ネットワークをもって、前記第1テスト用特定物体バウンディングボックスと、前記第2テスト用特定物体バウンディングボックスとの間のテスト用IOUが第1閾値以上になるかを判断するようにし、(I)前記テスト用IOUが、前記第1閾値未満と判断されれば、前記第2テスト用特定加工イメージ上で前記第1テスト用特定物体バウンディングボックスに対応する領域と、前記第1テスト用特定加工イメージ上で前記第2テスト用特定物体バウンディングボックスに対応する領域との間のテスト用調整IOUを算出し、(II)前記テスト用調整IOUが第2閾値以上と判断されれば、前記第1テスト用特定物体バウンディングボックスと、前記第2テスト用特定物体バウンディングボックスとの中から、(i)確率値の高いテスト用特定物体バウンディングボックスを選択するようにするか、(ii)前記テストイメージ上で演算される面積の大きいテスト用特定物体バウンディングボックスを選択するようにすることにより、前記選択されたテスト用特定物体バウンディングボックスを前記テスト用特定同一物体に対応するテスト用特定統合物体検出情報として生成することを特徴とする請求項8に記載の方法。 - 前記(b)段階で、
前記テスティング装置は、前記ターゲット物体予測ネットワークをもって、(i)テスト用特定加工イメージをMxNグリッドに区分するようにし、(ii)前記第k−1テスト用物体プロポーザルないし前記第k_nテスト用物体プロポーザルのうち、前記グリッドの各セルごとにそれぞれ対応するテスト用特定物体プロポーザルの個数を示す少なくとも一つ以上のテスト用ヒストグラムマップを生成するようにし、前記グリッドの各セル内に、それに対応する前記テスト用特定物体プロポーザルそれぞれの全体領域または分割領域が存在し、(iii)テスト用ムービングウィンドウの中の少なくとも一つの領域を利用して、少なくとも一つのテスト用特定ターゲット領域を決定するようにし、前記少なくとも一つの領域は、前記テスト用ムービングウィンドウの位置を変更して占有されるすべての領域のうち、前記テスト用ヒストグラムマップの合計が最も大きい値を有する領域であることを特徴とする 請求項8に記載の方法。 - ターゲット物体統合ネットワークと、ターゲット領域予測ネットワークとを利用したCNN基盤の物体検出器のパラメータを学習するための学習装置において、
インストラクションを格納する少なくとも一つのメモリ;及び
(I)(i)イメージ加工ネットワークをもって、少なくとも一つのトレーニングビデオの現在フレームである第1フレームに対応する第1イメージピラミッドに含まれた第1_1イメージないし第1_nイメージそれぞれから、少なくとも一つのターゲット物体が位置すると推定される第1予測ターゲット領域にそれぞれ対応する、第1_1加工イメージないし第1_n加工イメージを生成するようにし、前記第1_1加工イメージないし前記第1_n加工イメージをコンカチネート(concatenate)した第1統合トレーニングイメージを生成するようにし、(ii)一つ以上のコンボリューションレイヤをもって、一つ以上のコンボリューション演算を前記第1統合トレーニングイメージに適用することで、少なくとも一つの第1特徴マップを出力させ、RPN(Region Proposal Network)をもって、前記第1特徴マップを利用して、前記第1統合トレーニングイメージに含まれた前記第1_1加工イメージないし前記第1_n加工イメージそれぞれに位置する一つ以上の物体に対応する第1_1物体プロポーザルないし第1_n物体プロポーザルを出力させ、プーリングレイヤをもって、前記第1特徴マップ上で、前記第1_1物体プロポーザルないし前記第1_n物体プロポーザルに対応する一つ以上の領域に一つ以上のプーリング演算を適用して、少なくとも一つの第1プーリング済み特徴マップを出力させ、FC(fully connected)レイヤをもって、前記第1プーリング済み特徴マップに一つ以上のFC演算を適用して、前記物体に対応する第1_1物体検出情報ないし第1_n物体検出情報を出力させ、(iii)ターゲット物体統合ネットワークをもって、前記第1_1物体プロポーザルないし前記第1_n物体プロポーザルを統合して第1統合物体プロポーザルを生成するようにし、前記第1_1物体検出情報ないし前記第1_n物体検出情報を統合して第1統合物体検出情報を生成するようにし、少なくとも一つのFCロスレイヤをもって、前記第1統合物体検出情報及びこれに対応するGTを参照して一つ以上の第1FCロスを生成するようにすることで、前記第1FCロスを利用したバックプロパゲーション(Backpropagation)によって、前記FCレイヤと、前記コンボリューションレイヤのパラメータとの中の少なくとも一部を学習するプロセス、及び(II)kを2からnまで増加させながら、(i)ターゲット物体予測ネットワークをもって、第k−1統合トレーニングイメージ上の第(k−1)_1物体プロポーザルないし第(k−1)_n物体プロポーザルを参照して、第k−1フレーム上で、前記ターゲット物体が位置すると予測される第k−1ターゲット領域を探すようにし、ターゲット領域予測ネットワークをもって、第kフレーム上で、前記第k−1ターゲット領域が位置すると予測される一つ以上の領域に対応する第k予測ターゲット領域を探すようにし、(ii)前記イメージ加工ネットワークをもって、前記第kフレームに対応する第kイメージピラミッド内に含まれた第k_1イメージないし第k_nイメージそれぞれから、前記第k予測ターゲット領域にそれぞれ対応する、第k_1加工イメージないし第k_n加工イメージを生成するようにし、前記第k_1加工イメージないし前記第k_n加工イメージをコンカチネートした第k統合トレーニングイメージを出力するようにし、(iii)前記コンボリューションレイヤをもって、前記コンボリューション演算を前記第k統合トレーニングイメージに適用することで、第k特徴マップを出力させ、前記RPNをもって、前記第k特徴マップを利用して、前記第k統合トレーニングイメージ内に含まれた前記第k_1加工イメージないし前記第k_n加工イメージそれぞれに位置する前記物体に対応する第k_1物体プロポーザルないし第k_n物体プロポーザルを出力させ、前記プーリングレイヤをもって、前記第k特徴マップ上で、前記第k_1物体プロポーザルないし前記第k_n物体プロポーザルに対応する一つ以上の領域に前記プーリング演算を適用して、少なくとも一つの第kプーリング済み特徴マップを出力させ、前記FCレイヤをもって、前記第kプーリング済み特徴マップに前記FC演算を適用して、前記物体に対応する第k_1物体検出情報ないし第k_n物体検出情報を出力させ、(iv)前記ターゲット物体統合ネットワークをもって、前記第k_1物体プロポーザルないし前記第k_n物体プロポーザルを統合して第k統合物体プロポーザルを生成するようにし、前記第k_1物体検出情報ないし前記第k_n物体検出情報を統合して第k統合物体検出情報を生成するようにし、前記FCロスレイヤをもって、前記第k統合物体検出情報及びこれに対応するGTを参照して一つ以上の第kFCロスを生成するようにすることで、前記第kFCロスを利用したバックプロパゲーション(Backpropagation)によって、前記FCレイヤと、前記コンボリューションレイヤのパラメータとの中の少なくとも一部を学習するプロセスを遂行するための、前記インストラクションを実行するように構成された少なくとも一つのプロセッサ;
を含むことを特徴とする学習装置。 - 前記(I)プロセスで、
前記プロセッサは、少なくとも一つのRPNロスレイヤをもって、前記第1統合物体プロポーザル情報及びこれに対応するGTを参照して一つ以上の第1RPNロスを取得するようにすることで、前記第1RPNロスを利用したバックプロパゲーションによって前記RPNのパラメータの中の少なくとも一部を調整するようにし、
前記(II)プロセスで、
前記プロセッサは、前記RPNロスレイヤをもって、前記第k統合物体プロポーザル情報と、これに対応するGTとを参照して一つ以上の第kRPNロスを取得するようにすることで、前記第kRPNロスを利用したバックプロパゲーションによって前記RPNの前記パラメータの中の少なくとも一部を調整することを特徴とする請求項15に記載の学習装置。 - 前記(I)プロセスで、
前記プロセッサが、前記イメージ加工ネットワークをもって、前記第1_1加工イメージないし前記第1_n加工イメージの幅と高さのうち少なくとも一つを同一に調整した後、同一に調整された前記幅または前記高さ方向に第1_1調整済み加工イメージないし第1_n調整済み加工イメージをコンカチネートするようにし、
前記(II)プロセスで、
前記プロセッサが、前記イメージ加工ネットワークをもって、前記第k_1加工イメージないし前記第k_n加工イメージの幅と高さのうち少なくとも一つを同一に調整した後、同一に調整された前記幅または前記高さ方向に第k_1調整済み加工イメージないし第k_n調整済み加工イメージをコンカチネートするようにすることを特徴とする請求項15に記載の学習装置。 - 前記プロセッサが、前記イメージ加工ネットワークをもって、前記第k_1調整済み加工イメージないし前記第k_n調整済み加工イメージのうち、コンカチネートされた隣接するそれぞれの二つの調整済み加工イメージから構成されるそれぞれのペアの間にそれぞれ少なくとも一つのゼロパディング(zero padding)領域を追加するようにし、
前記コンボリューションレイヤの多重コンボリューション演算によって前記第k統合トレーニングイメージが1/Sに縮小され、前記コンボリューションレイヤそれぞれのカーネルそれぞれの最大サイズをK×Kとする場合、前記ゼロパディング領域の幅が
- 第1特定加工イメージ及び第2特定加工イメージ上にそれぞれ少なくとも一つの特定同一物体が位置し、前記第1特定加工イメージ上で、前記特定同一物体に対応する少なくとも一つの物体プロポーザルを第1特定物体プロポーザルとし、前記第2特定加工イメージ上で、前記特定同一物体に対応する少なくとも一つの物体プロポーザルを第2特定物体プロポーザルとした場合、
前記プロセッサは、前記ターゲット物体統合ネットワークをもって、前記第1特定物体プロポーザルと、前記第2特定物体プロポーザルとの間のIOU(Intersection Over Union)が、第1閾値以上になるかを判断するようにし、(i)前記IOUが、前記第1閾値未満と判断されれば、前記第2特定加工イメージ上で前記第1特定物体プロポーザルに対応する領域と、前記第1特定加工イメージ上で前記第2特定物体プロポーザルに対応する領域との間の調整IOUを算出し、(ii)前記調整IOUが第2閾値以上と判断されると、前記第1特定物体プロポーザルと、前記第2特定物体プロポーザルとの中から、確率値の高い特定物体プロポーザルを選択するようにするか、前記トレーニングイメージ上で演算される面積の大きい特定物体プロポーザルを選択するようにすることにより、前記選択された特定物体プロポーザルを前記特定同一物体に対応する特定統合物体プロポーザルとして生成することを特徴とする請求項15に記載の学習装置。 - 第1特定加工イメージ及び第2特定加工イメージ上に少なくとも一つの特定同一物体が位置し、前記第1特定加工イメージ上で、前記特定同一物体に対応する少なくとも一つの物体バウンディングボックスを第1特定物体バウンディングボックスとし、前記第2特定加工イメージ上で、前記特定同一物体に対応する少なくとも一つの物体バウンディングボックスを第2特定物体バウンディングボックスとした場合、
前記プロセッサは、前記ターゲット物体統合ネットワークをもって、前記第1特定物体バウンディングボックスと、前記第2特定物体バウンディングボックスとの間のIOUが、第1閾値以上になるか否かを判断するようにし、(i)前記IOUが、前記第1閾値未満と判断されれば、前記第2特定加工イメージ上で前記第1特定物体バウンディングボックスに対応する領域と、前記第1特定加工イメージ上で前記第2特定物体バウンディングボックスに対応する領域との間の調整IOUを算出し、(ii)前記調整IOUが第2閾値以上と判断されれば、前記第1特定物体バウンディングボックスと、前記第2特定物体バウンディングボックスとの中から、確率値の高い特定物体バウンディングボックスを選択するようにするか、前記トレーニングイメージ上で演算される面積の大きい特定物体バウンディングボックスを選択するようにすることにより、前記選択された特定物体バウンディングボックスを前記特定同一物体に対応する特定統合物体検出情報として生成することを特徴とする請求項15に記載の学習装置。 - 前記(II)プロセスで、
前記プロセッサは、前記ターゲット物体予測ネットワークをもって、(i)特定加工イメージをMxNグリッドに区分するようにし、(ii)前記第k−1物体プロポーザルないし前記第k_n物体プロポーザルのうち、前記グリッドの各セルごとにそれぞれ対応する特定物体プロポーザルの個数を示す少なくとも一つ以上のヒストグラムマップを生成するようにし、前記グリッドの各セル内にそれに対応する前記特定物体プロポーザルそれぞれの全体領域または分割領域が存在し、(iii)ムービングウィンドウの中の少なくとも一つの領域を利用して、少なくとも一つの特定ターゲット領域を決定するようにし、前記少なくとも一つの領域は、前記ムービングウィンドウの位置を変更して占有されるすべての領域のうち、前記ヒストグラムマップの合計が最も大きい値を有する領域であることを特徴とする請求項15に記載の学習装置。 - ターゲット物体統合ネットワークと、ターゲット領域予測ネットワークとを利用したCNN基盤の物体検出器をテスティングするためのテスティング装置において、
インストラクションを格納する少なくとも一つのメモリ;及び
(1)学習装置が、(i)イメージ加工ネットワークをもって、少なくとも一つのトレーニングビデオの現在フレームである第1学習用フレームに対応する第1学習用イメージピラミッドに含まれた第1_1トレーニングイメージないし第1_nトレーニングイメージそれぞれから、少なくとも一つの学習用ターゲット物体が位置すると推定される第1学習用予測ターゲット領域にそれぞれ対応する、第1_1学習用加工イメージないし第1_n学習用加工イメージを生成するようにし、前記第1_1学習用加工イメージないし前記第1_n学習用加工イメージをコンカチネートした第1統合トレーニングイメージを生成するようにし、(ii)一つ以上のコンボリューションレイヤをもって、一つ以上のコンボリューション演算を前記第1統合トレーニングイメージに適用することで、少なくとも一つの第1学習用特徴マップを出力させ、RPN(Region Proposal Network)をもって、前記第1学習用特徴マップを利用して、前記第1統合トレーニングイメージに含まれた前記第1_1学習用加工イメージないし前記第1_n学習用加工イメージそれぞれに位置する一つ以上の学習用物体に対応する第1_1学習用物体プロポーザルないし第1_n学習用物体プロポーザルを出力させ、プーリングレイヤをもって、前記第1学習用特徴マップ上で、前記第1_1学習用物体プロポーザルないし前記第1_n学習用物体プロポーザルに対応する一つ以上の領域に一つ以上のプーリング演算を適用して、少なくとも一つの第1学習用プーリング済み特徴マップを出力させ、FC(fully connected)レイヤをもって、前記第1学習用プーリング済み特徴マップに少なくとも一つのFC演算を適用して、前記学習用物体に対応する第1_1学習用物体検出情報ないし第1_n学習用物体検出情報を出力させ、(iii)ターゲット物体統合ネットワークをもって、前記第1_1学習用物体プロポーザルないし前記第1_n学習用物体プロポーザルを統合して第1学習用統合物体プロポーザルを生成するようにし、前記第1_1学習用物体検出情報ないし前記第1_n学習用物体検出情報を統合して第1学習用統合物体検出情報を生成するようにし、少なくとも一つのFCロスレイヤをもって、前記第1学習用統合物体検出情報及びこれに対応するGTを参照して一つ以上の第1FCロスを生成するようにすることで、前記第1FCロスを利用したバックプロパゲーション(Backpropagation)によって、前記FCレイヤと、前記コンボリューションレイヤのパラメータとの中の少なくとも一部を学習するプロセス、及び(2)kを2からnまで増加させながら、(i)ターゲット物体予測ネットワークをもって、第k−1統合トレーニングイメージ上の第(k−1)_1学習用物体プロポーザルないし第(k−1)_n学習用物体プロポーザルを参照して、第k−1学習用フレーム上で、前記学習用ターゲット物体が位置すると予測される第k−1学習用ターゲット領域を探すようにし、ターゲット領域予測ネットワークをもって、第k学習用フレーム上で、前記第k−1学習用ターゲット領域が位置すると予測される一つ以上の領域に対応する第k学習用予測ターゲット領域を探すようにし、(ii)前記イメージ加工ネットワークをもって、前記第k学習用フレームに対応する第k学習用イメージピラミッド内に含まれた第k_1トレーニングイメージないし第k_nトレーニングイメージそれぞれから、前記第k学習用予測ターゲット領域にそれぞれ対応する、第k_1学習用加工イメージないし第k_n学習用加工イメージを生成するようにし、前記第k_1学習用加工イメージないし前記第k_n学習用加工イメージをコンカチネートした第k統合トレーニングイメージを出力するようにし、(iii)前記コンボリューションレイヤをもって、前記コンボリューション演算を前記第k統合トレーニングイメージに適用することで、第k学習用特徴マップを出力させ、前記RPNをもって、前記第k学習用特徴マップを利用して、前記第k統合トレーニングイメージ内に含まれた前記第k_1学習用加工イメージないし前記第k_n学習用加工イメージそれぞれに位置する前記学習用物体に対応する第k_1学習用物体プロポーザルないし第k_n学習用物体プロポーザルを出力させ、前記プーリングレイヤをもって、前記第k学習用特徴マップ上で、前記第k_1学習用物体プロポーザルないし前記第k_n学習用物体プロポーザルに対応する一つ以上の領域に前記プーリング演算を適用して、少なくとも一つの第k学習用プーリング済み特徴マップを出力させ、前記FCレイヤをもって、前記第k学習用プーリング済み特徴マップに前記FC演算を適用して、前記学習用物体に対応する第k_1学習用物体検出情報ないし第k_n学習用物体検出情報を出力させ、(iv)前記ターゲット物体統合ネットワークをもって、前記第k_1学習用物体プロポーザルないし前記第k_n学習用物体プロポーザルを統合して第k学習用統合物体プロポーザルを生成するようにし、前記第k_1学習用物体検出情報ないし前記第k_n学習用物体検出情報を統合して第k学習用統合物体検出情報を生成するようにし、前記FCロスレイヤをもって、前記第k学習用統合物体検出情報及びこれに対応するGTを参照して一つ以上の第kFCロスを生成するようにすることで、前記第kFCロスを利用したバックプロパゲーション(Backpropagation)によって、前記FCレイヤと、前記コンボリューションレイヤのパラメータとの中の少なくとも一部を学習するプロセスを遂行した状態で;(I)(i)前記イメージ加工ネットワークをもって、少なくとも一つのテストビデオの現在フレームである第1テスト用フレームに対応する第1テスト用イメージピラミッドに含まれた第1_1テストイメージないし第1_nテストイメージそれぞれから、少なくとも一つのテスト用ターゲット物体が位置すると推定される第1テスト用予測ターゲット領域にそれぞれ対応する、第1_1テスト用加工イメージないし第1_nテスト用加工イメージを生成するようにし、前記第1_1テスト用加工イメージないし前記第1_nテスト用加工イメージをコンカチネートした第1統合テストイメージを生成するようにし、(ii)前記コンボリューションレイヤをもって、前記コンボリューション演算を前記第1統合テストイメージに適用することで、少なくとも一つの第1テスト用特徴マップを出力させ、前記RPNをもって、前記第1テスト用特徴マップを利用して、前記第1統合テストイメージ内に含まれた前記第1_1テスト用加工イメージないし前記第1_nテスト用加工イメージそれぞれに位置する一つ以上のテスト用物体に対応する第1_1テスト用物体プロポーザルないし第1_nテスト用物体プロポーザルを出力させ、前記プーリングレイヤをもって、前記第1テスト用特徴マップ上で、前記第1_1テスト用物体プロポーザルないし前記第1_nテスト用物体プロポーザルに対応する一つ以上の領域に前記プーリング演算を適用して、少なくとも一つの第1テスト用プーリング済み特徴マップを出力させ、前記FCレイヤをもって、前記第1テスト用プーリング済み特徴マップに前記FC演算を適用して、前記テスト用物体に対応する第1_1テスト用物体検出情報ないし第1_nテスト用物体検出情報を出力させ、(iii)前記ターゲット物体統合ネットワークをもって、前記第1_1テスト用物体プロポーザルないし前記第1_nテスト用物体プロポーザルを統合して第1テスト用統合物体プロポーザルを生成するようにし、前記第1_1テスト用物体検出情報ないし前記第1_nテスト用物体検出情報を統合して第1テスト用統合物体検出情報を生成するようにするプロセス、及び(II)kを2からnまで増加させながら、(i)前記ターゲット物体予測ネットワークをもって、第k−1統合テストイメージ上の第(k−1)_1テスト用物体プロポーザルないし第(k−1)_nテスト用物体プロポーザルを参照して、第k−1テスト用フレーム上で、前記テスト用ターゲット物体が位置すると予測される第k−1テスト用ターゲット領域を探すようにし、前記ターゲット領域予測ネットワークをもって、第kテスト用フレーム上で、前記第k−1テスト用ターゲット領域が位置すると予測される一つ以上の領域に対応する第kテスト用予測ターゲット領域を探すようにし、(ii)前記イメージ加工ネットワークをもって、前記第kテスト用フレームに対応する第kテスト用イメージピラミッド内に含まれた第k_1テストイメージないし第k_nテストイメージそれぞれから、前記第kテスト用予測ターゲット領域にそれぞれ対応する、第k_1テスト用加工イメージないし第k_nテスト用加工イメージを生成するようにし、前記第k_1テスト用加工イメージないし前記第k_nテスト用加工イメージをコンカチネートした第k統合テストイメージを出力するようにし、(iii)前記コンボリューションレイヤをもって、前記コンボリューション演算を前記第k統合テストイメージに適用することで第kテスト用特徴マップを出力させ、前記RPNをもって、前記第kテスト用特徴マップを利用して、前記第k統合テストイメージ内に含まれた前記第k_1テスト用加工イメージないし前記第k_nテスト用加工イメージそれぞれに位置する前記テスト用物体に対応する第k_1テスト用物体プロポーザルないし第k_nテスト用物体プロポーザルを出力させ、前記プーリングレイヤをもって、前記第kテスト用特徴マップ上で、前記第k_1テスト用物体プロポーザルないし前記第k_nテスト用物体プロポーザルそれぞれに対応するそれぞれの領域に前記プーリング演算を適用して、少なくとも一つの第kテスト用プーリング済み特徴マップを出力するようにし、前記FCレイヤをもって、前記第kテスト用プーリング済み特徴マップに前記FC演算を適用して、前記テスト用物体に対応する第k_1テスト用物体検出情報ないし第k_nテスト用物体検出情報を出力するようにし、(iv)前記ターゲット物体統合ネットワークをもって、前記第k_1テスト用物体プロポーザルないし前記第k_nテスト用物体プロポーザルを統合して第kテスト用統合物体プロポーザルを生成するようにし、前記第k_1テスト用物体検出情報ないし前記第k_nテスト用物体検出情報を統合して第kテスト用統合物体検出情報を生成するようにするプロセスを遂行するための、前記インストラクションを実行するように構成された少なくとも一つのプロセッサ;
を含むことを特徴とするテスティング装置。 - 前記(1)プロセスで、
前記学習装置は、少なくとも一つのRPNロスレイヤをもって、前記第1学習用統合物体プロポーザルの情報及びこれに対応するGTを参照して一つ以上の第1RPNロスを取得するようにすることで、前記第1RPNロスを利用したバックプロパゲーションによって前記RPNのパラメータの中の少なくとも一部を調整するようにし、
前記(2)プロセスで、
前記学習装置は、前記RPNロスレイヤをもって、前記第k学習用統合物体プロポーザル情報及びこれに対応するGTを参照して一つ以上の第kRPNロスを取得するようにすることで、前記第kRPNロスを利用したバックプロパゲーションによって前記RPNの前記パラメータの中の少なくとも一部を調整することを特徴とする請求項22に記載のテスティング装置。 - 前記(I)プロセスで、
前記プロセッサが、前記イメージ加工ネットワークをもって、前記第1_1テスト用加工イメージないし前記第1_nテスト用加工イメージの幅と高さのうち少なくとも一つを同一に調整した後、同一に調整された前記幅または前記高さ方向に第1_1テスト用調整済み加工イメージないし第1_nテスト用調整済み加工イメージをコンカチネートするようにし、
前記(II)プロセスで、
前記プロセッサが、前記イメージ加工ネットワークをもって、前記第k_1テスト用加工イメージないし前記第k_nテスト用加工イメージの幅と高さのうち少なくとも一つを同一に調整した後、同一に調整された前記幅または前記高さ方向に第k_1テスト用調整済み加工イメージないし第k_nテスト用調整済み加工イメージをコンカチネートすることを特徴とする請求項22に記載のテスティング装置。 - 前記プロセッサが、前記イメージ加工ネットワークをもって、前記第k_1テスト用調整済み加工イメージないし前記第k_nテスト用調整済み加工イメージのうち、コンカチネートされた隣接するそれぞれの二つのテスト用調整済み加工イメージから構成されるそれぞれのペアの間にそれぞれ少なくとも一つのゼロパディング(zero padding)領域を追加するようにし、
前記コンボリューションレイヤの多重コンボリューション演算によって前記第k統合テストイメージが1/Sに縮小され、前記コンボリューションレイヤそれぞれのカーネルそれぞれの最大サイズをK×Kとする場合、前記ゼロパディング領域の幅が
- 第1テスト用特定加工イメージ及び第2テスト用特定加工イメージ上にそれぞれ少なくとも一つのテスト用特定同一物体が位置し、前記第1テスト用特定加工イメージ上で、前記テスト用特定同一物体に対応する少なくとも一つのテスト用物体プロポーザルを第1テスト用特定物体プロポーザルとし、前記第2テスト用特定加工イメージ上で、前記テスト用特定同一物体に対応する少なくとも一つのテスト用物体プロポーザルを第2テスト用特定物体プロポーザルとした場合、
前記プロセッサは、前記ターゲット物体統合ネットワークをもって、前記第1テスト用特定物体プロポーザルと、前記第2テスト用特定物体プロポーザルとの間のテスト用IOU(Intersection Over Union)が、第1閾値以上になるかを判断するようにし、(i)前記テスト用IOUが、前記第1閾値未満と判断されると、前記第2テスト用特定加工イメージ上で前記第1テスト用特定物体プロポーザルに対応する領域と、前記第1テスト用特定加工イメージ上で前記第2テスト用特定物体プロポーザルに対応する領域との間のテスト用調整IOUを算出し、(ii)前記テスト用調整IOUが第2閾値以上と判断されれば、前記第1テスト用特定物体プロポーザルと、前記第2テスト用特定物体プロポーザルとの中から、確率値の高いテスト用特定物体プロポーザルを選択するようにするか、前記テストイメージ上で演算される面積の大きいテスト用特定物体プロポーザルを選択するようにすることにより、前記選択されたテスト用特定物体プロポーザルを前記テスト用特定同一物体に対応するテスト用特定統合物体プロポーザルとして生成することを特徴とする請求項22に記載のテスティング装置。 - 第1テスト用特定加工イメージ及び第2テスト用特定加工イメージ上にそれぞれ少なくとも一つのテスト用特定同一物体が位置し、前記第1テスト用特定加工イメージ上で、前記テスト用特定同一物体に対応する少なくとも一つのテスト用物体バウンディングボックスを第1テスト用特定物体バウンディングボックスとし、前記第2テスト用特定加工イメージ上で、前記テスト用特定同一物体に対応する少なくとも一つのテスト用物体バウンディングボックスを第2テスト用特定物体バウンディングボックスとした場合、
前記プロセッサは、前記ターゲット物体統合ネットワークをもって、前記第1テスト用特定物体バウンディングボックスと、前記第2テスト用特定物体バウンディングボックスとの間のテスト用IOUが第1閾値以上になるかを判断するようにし、(i)前記テスト用IOUが、前記第1閾値未満と判断されれば、前記第2テスト用特定加工イメージ上で前記第1テスト用特定物体バウンディングボックスに対応する領域と、前記第1テスト用特定加工イメージ上で前記第2テスト用特定物体バウンディングボックスに対応する領域との間のテスト用調整IOUを算出し、(ii)前記テスト用調整IOUが第2閾値以上と判断されれば、前記第1テスト用特定物体バウンディングボックスと、前記第2テスト用特定物体バウンディングボックスとの中から、確率値の高いテスト用特定物体バウンディングボックスを選択するようにするか、前記テストイメージ上で演算される面積の大きいテスト用特定物体バウンディングボックスを選択するようにすることにより、前記選択されたテスト用特定物体バウンディングボックスを前記テスト用特定同一物体に対応するテスト用特定統合物体検出情報として生成することを特徴とする請求項22に記載のテスティング装置。 - 前記(II)プロセスで、
前記プロセッサは、前記ターゲット物体予測ネットワークをもって、(i)テスト用特定加工イメージをMxNグリッドに区分するようにし、(ii)前記第k−1テスト用物体プロポーザルないし前記第k_nテスト用物体プロポーザルのうち、前記グリッドの各セルごとにそれぞれ対応するテスト用特定物体プロポーザルの個数を示す少なくとも一つ以上のテスト用ヒストグラムマップを生成するようにし、前記グリッドの各セル内に、それに対応する前記テスト用特定物体プロポーザルそれぞれの全体領域または分割領域が存在し、(iii)テスト用ムービングウィンドウの中の少なくとも一つの領域を利用して、少なくとも一つのテスト用特定ターゲット領域を決定するようにし、前記少なくとも一つの領域は、前記テスト用ムービングウィンドウの位置を変更して占有されるすべての領域のうち、前記テスト用ヒストグラムマップの合計が最も大きい値を有する領域であることを特徴とする請求項22に記載のテスティング装置。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US16/254,541 US10430691B1 (en) | 2019-01-22 | 2019-01-22 | Learning method and learning device for object detector based on CNN, adaptable to customers' requirements such as key performance index, using target object merging network and target region estimating network, and testing method and testing device using the same to be used for multi-camera or surround view monitoring |
US16/254,541 | 2019-01-22 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2020119547A JP2020119547A (ja) | 2020-08-06 |
JP6908944B2 true JP6908944B2 (ja) | 2021-07-28 |
Family
ID=68063920
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2020002988A Active JP6908944B2 (ja) | 2019-01-22 | 2020-01-10 | 多重カメラまたはサラウンドビューモニタリングに利用されるために、ターゲット物体統合ネットワーク及びターゲット物体予測ネットワークを利用して、重要業績評価指標のようなユーザー要求事項に適用可能なcnn基盤の物体検出器を学習する方法及び学習装置、並びにこれを利用したテスティング方法及びテスティング装置 |
Country Status (5)
Country | Link |
---|---|
US (1) | US10430691B1 (ja) |
EP (1) | EP3686798B1 (ja) |
JP (1) | JP6908944B2 (ja) |
KR (1) | KR102328731B1 (ja) |
CN (1) | CN111461319B (ja) |
Families Citing this family (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP3593291B8 (en) * | 2017-05-19 | 2024-08-14 | DeepMind Technologies Limited | Making object-level predictions of the future state of a physical system |
DE102019210801A1 (de) * | 2019-07-22 | 2021-01-28 | Robert Bosch Gmbh | Verfahren, Vorrichtung, Computerprogramm und maschinenlesbares Speichermedium zur Detektion eines Objekts |
CN112840348B (zh) * | 2019-10-11 | 2024-05-03 | 安徽中科智能感知科技股份有限公司 | 一种基于时序遥感数据和卷积神经网络的作物种植分布预测方法 |
CN114766042A (zh) | 2019-12-12 | 2022-07-19 | Oppo广东移动通信有限公司 | 目标检测方法、装置、终端设备及介质 |
CN111401424B (zh) * | 2020-03-10 | 2024-01-26 | 北京迈格威科技有限公司 | 目标检测方法、装置和电子系统 |
DE102020206641B4 (de) | 2020-05-27 | 2023-09-28 | Robert Bosch Gesellschaft mit beschränkter Haftung | Verfahren und Vorrichtung zum Bereitstellen einer hochauflösenden digitalen Karte |
KR102429272B1 (ko) * | 2020-06-15 | 2022-08-04 | 주식회사 베이리스 | 딥러닝에 기반한 객체 검출 장치 및 그 방법 |
CN112686170B (zh) * | 2020-12-31 | 2023-10-17 | 北京一起教育科技有限责任公司 | 一种图像识别方法、装置及电子设备 |
DE102021213757B3 (de) | 2021-12-03 | 2023-02-02 | Continental Autonomous Mobility Germany GmbH | Verfahren zum Fusionieren von Bilddaten im Kontext eines künstlichen neuronalen Netzwerks |
DE102021213756B3 (de) | 2021-12-03 | 2023-02-02 | Continental Autonomous Mobility Germany GmbH | Verfahren zum Fusionieren von Sensordaten im Kontext eines künstlichen neuronalen Netzwerks |
Family Cites Families (38)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP5877376B2 (ja) | 2011-06-02 | 2016-03-08 | パナソニックIpマネジメント株式会社 | 物体検出装置、物体検出方法および物体検出プログラム |
JP6340228B2 (ja) | 2014-03-27 | 2018-06-06 | 株式会社メガチップス | 物体検出装置 |
US9536293B2 (en) * | 2014-07-30 | 2017-01-03 | Adobe Systems Incorporated | Image assessment using deep convolutional neural networks |
US9524450B2 (en) * | 2015-03-04 | 2016-12-20 | Accenture Global Services Limited | Digital image processing using convolutional neural networks |
CN106156807B (zh) * | 2015-04-02 | 2020-06-02 | 华中科技大学 | 卷积神经网络模型的训练方法及装置 |
WO2016165060A1 (en) * | 2015-04-14 | 2016-10-20 | Intel Corporation | Skin detection based on online discriminative modeling |
US9965719B2 (en) | 2015-11-04 | 2018-05-08 | Nec Corporation | Subcategory-aware convolutional neural networks for object detection |
US9881234B2 (en) * | 2015-11-25 | 2018-01-30 | Baidu Usa Llc. | Systems and methods for end-to-end object detection |
US9524430B1 (en) * | 2016-02-03 | 2016-12-20 | Stradvision Korea, Inc. | Method for detecting texts included in an image and apparatus using the same |
US20180039853A1 (en) * | 2016-08-02 | 2018-02-08 | Mitsubishi Electric Research Laboratories, Inc. | Object Detection System and Object Detection Method |
US10354159B2 (en) * | 2016-09-06 | 2019-07-16 | Carnegie Mellon University | Methods and software for detecting objects in an image using a contextual multiscale fast region-based convolutional neural network |
US10354362B2 (en) * | 2016-09-08 | 2019-07-16 | Carnegie Mellon University | Methods and software for detecting objects in images using a multiscale fast region-based convolutional neural network |
US11308350B2 (en) * | 2016-11-07 | 2022-04-19 | Qualcomm Incorporated | Deep cross-correlation learning for object tracking |
JP6964234B2 (ja) | 2016-11-09 | 2021-11-10 | パナソニックIpマネジメント株式会社 | 情報処理方法、情報処理装置およびプログラム |
US10846523B2 (en) * | 2016-11-14 | 2020-11-24 | Kodak Alaris Inc. | System and method of character recognition using fully convolutional neural networks with attention |
US10380741B2 (en) * | 2016-12-07 | 2019-08-13 | Samsung Electronics Co., Ltd | System and method for a deep learning machine for object detection |
US10262237B2 (en) * | 2016-12-08 | 2019-04-16 | Intel Corporation | Technologies for improved object detection accuracy with multi-scale representation and training |
CN108303748A (zh) * | 2017-01-12 | 2018-07-20 | 同方威视技术股份有限公司 | 检查设备和检测行李物品中的枪支的方法 |
US10185878B2 (en) * | 2017-02-28 | 2019-01-22 | Microsoft Technology Licensing, Llc | System and method for person counting in image data |
US10635927B2 (en) * | 2017-03-06 | 2020-04-28 | Honda Motor Co., Ltd. | Systems for performing semantic segmentation and methods thereof |
US10678846B2 (en) * | 2017-03-10 | 2020-06-09 | Xerox Corporation | Instance-level image retrieval with a region proposal network |
US20180260414A1 (en) * | 2017-03-10 | 2018-09-13 | Xerox Corporation | Query expansion learning with recurrent networks |
EP3596449A4 (en) * | 2017-03-14 | 2021-01-06 | University of Manitoba | DETECTION OF STRUCTURAL DEFECTS USING AUTOMATIC LEARNING ALGORITHMS |
US11010595B2 (en) * | 2017-03-23 | 2021-05-18 | Samsung Electronics Co., Ltd. | Facial verification method and apparatus |
US10496895B2 (en) * | 2017-03-28 | 2019-12-03 | Facebook, Inc. | Generating refined object proposals using deep-learning models |
CN107392218B (zh) * | 2017-04-11 | 2020-08-04 | 创新先进技术有限公司 | 一种基于图像的车辆定损方法、装置及电子设备 |
US10325342B2 (en) * | 2017-04-27 | 2019-06-18 | Apple Inc. | Convolution engine for merging interleaved channel data |
US20200085382A1 (en) * | 2017-05-30 | 2020-03-19 | Arterys Inc. | Automated lesion detection, segmentation, and longitudinal identification |
CN108985135A (zh) * | 2017-06-02 | 2018-12-11 | 腾讯科技(深圳)有限公司 | 一种人脸检测器训练方法、装置及电子设备 |
US10460470B2 (en) * | 2017-07-06 | 2019-10-29 | Futurewei Technologies, Inc. | Recognition and reconstruction of objects with partial appearance |
US10503978B2 (en) * | 2017-07-14 | 2019-12-10 | Nec Corporation | Spatio-temporal interaction network for learning object interactions |
KR101880901B1 (ko) * | 2017-08-09 | 2018-07-23 | 펜타시큐리티시스템 주식회사 | 기계 학습 방법 및 장치 |
JP6972756B2 (ja) * | 2017-08-10 | 2021-11-24 | 富士通株式会社 | 制御プログラム、制御方法、及び情報処理装置 |
JP6972757B2 (ja) * | 2017-08-10 | 2021-11-24 | 富士通株式会社 | 制御プログラム、制御方法、及び情報処理装置 |
US10679351B2 (en) * | 2017-08-18 | 2020-06-09 | Samsung Electronics Co., Ltd. | System and method for semantic segmentation of images |
CN107492099B (zh) * | 2017-08-28 | 2021-08-20 | 京东方科技集团股份有限公司 | 医学图像分析方法、医学图像分析系统以及存储介质 |
US10169679B1 (en) * | 2017-10-13 | 2019-01-01 | StradVision, Inc. | Learning method and learning device for adjusting parameters of CNN by using loss augmentation and testing method and testing device using the same |
CN108427912B (zh) * | 2018-02-05 | 2020-06-05 | 西安电子科技大学 | 基于稠密目标特征学习的光学遥感图像目标检测方法 |
-
2019
- 2019-01-22 US US16/254,541 patent/US10430691B1/en active Active
- 2019-11-15 KR KR1020190147082A patent/KR102328731B1/ko active IP Right Grant
- 2019-12-20 CN CN201911330753.8A patent/CN111461319B/zh active Active
- 2019-12-27 EP EP19219886.9A patent/EP3686798B1/en active Active
-
2020
- 2020-01-10 JP JP2020002988A patent/JP6908944B2/ja active Active
Also Published As
Publication number | Publication date |
---|---|
KR102328731B1 (ko) | 2021-11-22 |
EP3686798B1 (en) | 2022-05-25 |
JP2020119547A (ja) | 2020-08-06 |
EP3686798A1 (en) | 2020-07-29 |
CN111461319A (zh) | 2020-07-28 |
US10430691B1 (en) | 2019-10-01 |
CN111461319B (zh) | 2023-04-18 |
KR20200091331A (ko) | 2020-07-30 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP6908944B2 (ja) | 多重カメラまたはサラウンドビューモニタリングに利用されるために、ターゲット物体統合ネットワーク及びターゲット物体予測ネットワークを利用して、重要業績評価指標のようなユーザー要求事項に適用可能なcnn基盤の物体検出器を学習する方法及び学習装置、並びにこれを利用したテスティング方法及びテスティング装置 | |
JP6908943B2 (ja) | イメージコンカチネーションと、ターゲット物体予測ネットワークとを利用して、多重カメラ又はサラウンドビューモニタリングに利用される物体検出器を学習する方法及び学習装置、並びにこれを利用したテスティング方法及びテスティング装置 | |
JP6857370B2 (ja) | ターゲット物体予測ネットワーク及びターゲット物体統合ネットワークを利用して、重要業績評価指標のようなユーザー要求事項に係る最適化のための再構成可能なネットワーク基盤の物体検出器を学習する方法及び学習装置、並びにこれを利用したテスティング方法及びテスティング装置 | |
KR102326256B1 (ko) | 고정밀도 이미지를 분석하는 딥러닝 네트워크의 학습에 이용하기 위한 트레이닝 이미지를 오토 라벨링하기 위한 방법 및 이를 이용한 오토 라벨링 장치 | |
JP6846069B2 (ja) | 遠距離検出または軍事目的のために、イメージコンカチネーションを利用したcnn基盤のハードウェア最適化が可能な物体検出器を学習する方法及び学習装置、それを利用したテスト方法及びテスト装置{learning method and learning device for object detector with hardware optimization based on cnn for detection at distance or military purpose using image concatenation, and testing method and testing device using the same} | |
JP6850046B2 (ja) | 重要業績評価指標のようなユーザ要求事項に適したターゲット物体予測ネットワークを用いた、cnn基盤の変動に強い物体検出器を学習する方法及び学習装置、並びにこれを利用したテスティング方法及びテスティング装置 | |
JP6875021B2 (ja) | 有用な学習データを取捨選別するためのcnn基盤の学習方法及び学習装置、そしてこれを利用したテスト方法及びテスト装置 | |
JP6892157B2 (ja) | V2x情報融合技術によって取得された、各物体に対する深さ予測情報及び各物体に対するクラス情報を利用して3d空間を再構築することによりhdマップをアップデートする学習方法及び学習装置、そしてこれを利用したテスティング方法及びテスティング装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20200110 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20210219 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20210302 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20210527 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20210622 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20210625 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 6908944 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |