JP7361949B2 - 物体検出装置、モニタリング装置、学習装置、及び、モデル生成方法 - Google Patents
物体検出装置、モニタリング装置、学習装置、及び、モデル生成方法 Download PDFInfo
- Publication number
- JP7361949B2 JP7361949B2 JP2022570922A JP2022570922A JP7361949B2 JP 7361949 B2 JP7361949 B2 JP 7361949B2 JP 2022570922 A JP2022570922 A JP 2022570922A JP 2022570922 A JP2022570922 A JP 2022570922A JP 7361949 B2 JP7361949 B2 JP 7361949B2
- Authority
- JP
- Japan
- Prior art keywords
- feature
- feature map
- object detection
- unit
- map
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000001514 detection method Methods 0.000 title claims description 310
- 238000000034 method Methods 0.000 title claims description 86
- 238000012806 monitoring device Methods 0.000 title claims description 36
- 238000000605 extraction Methods 0.000 claims description 86
- 238000004458 analytical method Methods 0.000 claims description 52
- 238000013527 convolutional neural network Methods 0.000 claims description 22
- 230000005856 abnormality Effects 0.000 claims description 18
- 238000004364 calculation method Methods 0.000 claims description 12
- 238000010801 machine learning Methods 0.000 claims description 11
- 238000013135 deep learning Methods 0.000 claims description 4
- 238000012732 spatial analysis Methods 0.000 claims description 4
- 238000012545 processing Methods 0.000 description 96
- 230000015654 memory Effects 0.000 description 62
- 238000010586 diagram Methods 0.000 description 59
- 230000006870 function Effects 0.000 description 44
- 238000013528 artificial neural network Methods 0.000 description 38
- 238000012544 monitoring process Methods 0.000 description 12
- 238000013500 data storage Methods 0.000 description 9
- 238000012986 modification Methods 0.000 description 6
- 230000004048 modification Effects 0.000 description 6
- 238000012731 temporal analysis Methods 0.000 description 4
- 239000003086 colorant Substances 0.000 description 3
- 230000001537 neural effect Effects 0.000 description 3
- 230000003287 optical effect Effects 0.000 description 3
- 238000011176 pooling Methods 0.000 description 3
- 239000004065 semiconductor Substances 0.000 description 3
- 239000007787 solid Substances 0.000 description 3
- 230000002123 temporal effect Effects 0.000 description 3
- 230000002159 abnormal effect Effects 0.000 description 2
- 235000019800 disodium phosphate Nutrition 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 238000011156 evaluation Methods 0.000 description 2
- 230000011218 segmentation Effects 0.000 description 2
- 230000000007 visual effect Effects 0.000 description 2
- 230000003190 augmentative effect Effects 0.000 description 1
- 238000003708 edge detection Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 239000002360 explosive Substances 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 230000004927 fusion Effects 0.000 description 1
- 230000010354 integration Effects 0.000 description 1
- 238000010606 normalization Methods 0.000 description 1
- 238000003909 pattern recognition Methods 0.000 description 1
- 230000002787 reinforcement Effects 0.000 description 1
- 230000006403 short-term memory Effects 0.000 description 1
- 230000005236 sound signal Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/80—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
- G06V10/806—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of extracted features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/50—Context or environment of the image
- G06V20/56—Context or environment of the image exterior to a vehicle by using sensors mounted on the vehicle
- G06V20/58—Recognition of moving objects or obstacles, e.g. vehicles or pedestrians; Recognition of traffic objects, e.g. traffic signs, traffic lights or roads
-
- G—PHYSICS
- G01—MEASURING; TESTING
- G01J—MEASUREMENT OF INTENSITY, VELOCITY, SPECTRAL CONTENT, POLARISATION, PHASE OR PULSE CHARACTERISTICS OF INFRARED, VISIBLE OR ULTRAVIOLET LIGHT; COLORIMETRY; RADIATION PYROMETRY
- G01J5/00—Radiation pyrometry, e.g. infrared or optical thermometry
- G01J5/0022—Radiation pyrometry, e.g. infrared or optical thermometry for sensing the radiation of moving bodies
- G01J5/0025—Living bodies
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/0002—Inspection of images, e.g. flaw detection
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/20—Analysis of motion
- G06T7/246—Analysis of motion using feature-based methods, e.g. the tracking of corners or segments
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/70—Determining position or orientation of objects or cameras
- G06T7/73—Determining position or orientation of objects or cameras using feature-based methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/46—Descriptors for shape, contour or point-related descriptors, e.g. scale invariant feature transform [SIFT] or bags of words [BoW]; Salient regional features
- G06V10/462—Salient features, e.g. scale invariant feature transforms [SIFT]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/62—Extraction of image or video features relating to a temporal dimension, e.g. time-based feature extraction; Pattern tracking
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/764—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/7715—Feature extraction, e.g. by transforming the feature space, e.g. multi-dimensional scaling [MDS]; Mappings, e.g. subspace methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/774—Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/10—Image acquisition modality
- G06T2207/10016—Video; Image sequence
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20081—Training; Learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20084—Artificial neural networks [ANN]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/30—Subject of image; Context of image processing
- G06T2207/30248—Vehicle exterior or interior
- G06T2207/30252—Vehicle exterior; Vicinity of vehicle
- G06T2207/30261—Obstacle
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V2201/00—Indexing scheme relating to image or video recognition or understanding
- G06V2201/08—Detecting or categorising vehicles
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Physics & Mathematics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Multimedia (AREA)
- Evolutionary Computation (AREA)
- Computing Systems (AREA)
- Medical Informatics (AREA)
- Software Systems (AREA)
- General Health & Medical Sciences (AREA)
- Databases & Information Systems (AREA)
- Artificial Intelligence (AREA)
- Health & Medical Sciences (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Quality & Reliability (AREA)
- Image Analysis (AREA)
Description
図1は、実施の形態1に係る物体検出装置を含む物体検出システムの要部を示すブロック図である。図2は、実施の形態1に係る物体検出装置における第1特徴量抽出部、第2特徴量抽出部及び物体検出部の要部を示すブロック図である。図1及び図2を参照して、実施の形態1に係る物体検出装置を含む物体検出システムについて説明する。
国際公開第2018/051459号
以下、第3特徴マップ生成部33による、複数個の第3特徴マップFM3の生成方法の具体例について説明する。
例えば、第3特徴マップ生成部33は、第1特徴マップFM1における個々の第1特徴量を個々の第2特徴マップFM2における対応する第2特徴量に足し合わせる足し算を行う。具体的には、第3特徴マップ生成部33は、まず、1個の第1特徴マップFM1を、第2特徴マップFM2の数だけ複製する。そして、第3特徴マップ生成部33は、複製した第1特徴マップFM1をそれぞれ個々の第2特徴マップFM2と対応付け、レイヤー毎に、ピクセル単位で足し合わせる。すなわち、第3特徴マップ生成部33は、第1特徴マップFM1と第2特徴マップFM2とを、空間的に足し合わせる。
これにより、第3特徴マップ生成部33は、第1特徴マップFM1を用いた、第2特徴マップFM2に対する重み付けをする。すなわち、第3特徴マップ生成部33は、個々の第2特徴マップFM2における対応する第2特徴量に対する重み付けをする。
例えば、第3特徴マップ生成部33は、第1特徴マップFM1における個々の第1特徴量を個々の第2特徴マップFM2における対応する第2特徴量に掛け合わせる掛け算を行う。具体的には、第3特徴マップ生成部33は、まず、1個の第1特徴マップFM1を、第2特徴マップFM2の数だけ複製する。そして、第3特徴マップ生成部33は、複製した第1特徴マップFM1をそれぞれ個々の第2特徴マップFM2と対応付け、レイヤー毎に、ピクセル単位で掛け合わせる。すなわち、第3特徴マップ生成部33は、第1特徴マップFM1と第2特徴マップFM2とを、空間的に掛け合わせる。
これにより、第3特徴マップ生成部33は、第1特徴マップFM1を用いた、第2特徴マップFM2に対する重み付けをする。すなわち、第3特徴マップ生成部33は、個々の第2特徴マップFM2における対応する第2特徴量に対する重み付けをする。
当該生成方法においては、第1特徴量抽出部22の第4特徴マップ生成部36が、第1特徴マップ生成部31によって生成された第1特徴マップFM1から、当該第1特徴マップに対応する複数個の第4特徴マップFM4を生成していることを前提とする。
例えば、第3特徴マップ生成部33は、第4特徴マップFM4における個々の第4特徴量を第4特徴マップに対応する第2特徴マップFM2における対応する第2特徴量に足し合わせる足し算を行う。具体的には、第3特徴マップ生成部33は、個々の第4特徴マップFM4と個々の第2特徴マップFM2とを対応付け、レイヤー毎に、ピクセル単位で足し合わせる。すなわち、第3特徴マップ生成部33は、第4特徴マップFM4と第2特徴マップFM2とを、空間的に足し合わせる。
これにより、第3特徴マップ生成部33は、第1特徴マップFM1を用いた、より詳細には、第1特徴マップFM1を用いて生成された第4特徴マップFM4を用いた、第2特徴マップFM2に対する重み付けをする。すなわち、第3特徴マップ生成部33は、個々の第2特徴マップFM2における対応する第2特徴量に対する重み付けをする。
当該生成方法においても、上述の<足し算による生成方法(2)>同様、第1特徴量抽出部22の第4特徴マップ生成部36が、第1特徴マップ生成部31によって生成された第1特徴マップFM1から、当該第1特徴マップに対応する複数個の第4特徴マップFM4を生成していることを前提とする。
例えば、第3特徴マップ生成部33は、第4特徴マップFM4における個々の第4特徴量を個々の第2特徴マップFM2における対応する第2特徴量に掛け合わせる掛け算を行う。具体的には、第3特徴マップ生成部33は、個々の第4特徴マップFM4と個々の第2特徴マップFM2とを対応付け、レイヤー毎に、ピクセル単位で掛け合わせる。すなわち、第3特徴マップ生成部33は、第4特徴マップFM4と第2特徴マップFM2とを、空間的に掛け合わせる。
これにより、第3特徴マップ生成部33は、第1特徴マップFM1を用いた、より詳細には、第1特徴マップFM1を用いて生成された第4特徴マップFM4を用いた、第2特徴マップFM2に対する重み付けをする。すなわち、第3特徴マップ生成部33は、個々の第2特徴マップFM2における対応する第2特徴量に対する重み付けをする。
例えば、第3特徴マップ生成部33は、第1特徴マップFM1を、複数個の第2特徴マップFM2の次元方向、言い換えれば、チャネル方向に足し合わせる足し算を行う。言い換えれば、第3特徴マップ生成部33は、第1特徴マップFM1を、複数個の第2特徴マップFM2の次元方向に連結(concatenete)する。具体的には、第3特徴マップ生成部33は、1個の第1特徴マップFM1を、例えば、第2特徴マップFM2の数だけ複製する。そして、第3特徴マップ生成部33は、複製した第1特徴マップFM1を、複数個の第2特徴マップFM2の次元方向に足し合わせる。
これにより、第3特徴マップ生成部33は、第1特徴マップFM1を用いた第2特徴マップFM2に対する重み付けをする。すなわち、第3特徴マップ生成部33は、個々の第2特徴マップFM2に対して、次元の数を増やす重み付けをする。
物体の構造を評価するSSIM指標又はピクセル単位での相関類似度の指標を用いて重要度Wを設定することで、第3特徴マップ生成部33は、第3特徴マップFM3を用いた、撮像画像における物体検出精度を高めることができる。なお、第3特徴マップFM3を用いた、撮像画像における物体の検出は、物体検出部24が行う。
つまり、学習部25は、画像データ取得部21による取得された画像データを入力とし、個々の撮像画像における個々の物体の検出結果を出力する学習済みのモデル(以下「機械学習モデル」という。)を生成する。機械学習モデルにおいて、複数個のパラメータセットが設定されている。個々のパラメータセットは、第1ニューラルネットワークNN1用の学習済みパラメータを含むものであり、かつ、第2ニューラルネットワークNN2用の学習済みパラメータを含むものである。
なお、個々の撮像画像における個々の物体の検出結果とは、具体的には、個々の撮像画像における個々の物体の位置の推定結果、及び、個々の物体の種別の推定結果である。機械学習モデルは、例えば、記憶装置(不図示)に記憶される。
Mingxing Tan, Quoc Le, "EfficientNet: Rethinking Model Scaling for Convolutional Neural Networks" Proceedings of the 36th International Conference on Machine Learning, PMLR 97:6105-6114, 2019, http://proceedings.mlr.press/v97/tan19a/tan19a.pdf
なお、図13~図21において、図中「Input image」は、画像データ取得部21により取得された画像データが示す撮像画像又は学習用画像を示している。実施の形態1では、上述のとおり、カメラ1は電子ミラー用のカメラにより構成され、車両に設けられているものとしているが、図13~図21では、便宜上、画像データ取得部21による取得された画像データは、例えば、海岸を撮像する監視カメラで構成されているカメラ1により撮像された画像データとしている。図中「Saliency Map」は、第1特徴マップ生成部31により生成された第1特徴マップFM1を示している。図中「Feature Map」は、第2特徴マップ生成部32により生成される個々の第2特徴マップFM2、第3特徴マップ生成部33により生成される個々の第3特徴マップFM3、又は、第4特徴マップ生成部36により生成される個々の第4特徴マップFM4を示している。
図14は、上述の<掛け算による生成方法(1)>を用いて第3特徴マップFM3が生成されるイメージを説明するための図である。
図13及び図14は、例えば、一層目の顕著性ブロック層L1においてのみ、第1特徴マップFM1を用いて、複数個の第2特徴マップFM2のうちの対応する第2特徴マップFM2が生成されるとともに、当該生成された第2特徴マップFM2に対する重み付けがなされ、第3特徴マップFM3が生成されるイメージを示している。
図13及び図14に示すように、個々の第1特徴マップFM1において、検出対象となる物体(ここでは人)に対応する領域が活性化している。第1特徴マップFM1上、活性化した領域の第1特徴量には大きな値が設定されている。なお、第1特徴マップFM1においては、遠くに存在する小さい物体に対応する領域も活性化する。
これに対し、例えば、図14に示すように、第2特徴マップFM2と第1特徴マップFM1とを掛け算し、第1特徴量が第2特徴量に空間的に掛け合わされることで、冗長な第2特徴量は切り捨てられる。なお、第1特徴マップFM1上、物体検出において意味のない第1特徴量には、例えば「0」が設定されている。「0」が掛け合わされることで、第2特徴量は「0」となる。これにより、前景物体の学習が阻害されることを防ぐことができる。
図16は、上述の<掛け算による生成方法(2)>を用いて第3特徴マップFM3が生成されるイメージを説明するための図である。
図15及び図16は、例えば、一層目の顕著性ブロック層L1においてのみ、第1特徴マップFM1を用いて、複数個の第2特徴マップFM2のうちの対応する第2特徴マップFM2が生成されるとともに、当該生成された第2特徴マップFM2に対する重み付けがなされ、第3特徴マップFM3が生成されるイメージを示している。
図15及び図16に示すように、第1特徴マップFM1において、検出対象となる物体(ここでは人)に対応する領域が活性化している。当該第1特徴マップFM1から、複数個の第4特徴マップFM4が生成される。複数個の第4特徴マップFM4は、畳み込みにより生成されるため、それぞれ、特徴量の取り方の異なる特徴マップとなっている。なお、第4特徴マップ生成部36が複数個の第4特徴マップFM4を生成するために行う畳み込みの演算内容は、第2特徴量抽出部23が複数個の第2特徴マップFM2を生成する際に行う畳み込みの演算内容と同じである。
また、例えば、図16に示すように、個々の第4特徴マップFM4における個々の第4特徴量と、対応する第2特徴マップFM2における対応する第2特徴量とが掛け合わされることで、異なるバリエーションを持つ特徴量の組み合わせでの掛け算が行われることになる。これにより、図14に示すように、1個の第1特徴マップFM1を複製してそれぞれ第2特徴マップFM2に掛け合わせる<掛け算による生成方法(2)>と比べ、より高度な、空間的な掛け算が実現できる。
これに限らず、第3特徴マップFM3は、例えば、各顕著性ブロック層L1において、<足し算による生成方法(1)>、<掛け算による生成方法(1)>、<足し算による生成方法(2)>又は<掛け算による生成方法(2)>を用いて、生成されるようにしても良い。
図17は、各顕著性ブロック層L1おいて、上述の<足し算による生成方法(1)>を用いて第3特徴マップFM3が生成されるイメージを示す図である。各顕著性ブロック層L1において、図17にてイメージを示しているような第3特徴マップFM3の生成が行われる。
図18は、各顕著性ブロック層L1において、上述の<掛け算による生成方法(1)>を用いて第3特徴マップFM3が生成されるイメージを示す図である。各顕著性ブロック層L1において、図18にてイメージを示しているような第3特徴マップFM3の生成が行われる。
図19は、各顕著性ブロック層L1おいて、上述の<足し算による生成方法(2)>を用いて第3特徴マップFM3が生成されるイメージを示す図である。各顕著性ブロック層L1において、図19にてイメージを示しているような第3特徴マップFM3の生成が行われる。
図20は、各顕著性ブロック層L1において、上述の<掛け算による生成方法(2)>を用いて第3特徴マップFM3が生成されるイメージを示す図である。各顕著性ブロック層L1において、図20にてイメージを示しているような第3特徴マップFM3の生成が行われる。
なお、図21は、各顕著性ブロック層L1において、上述の<足し算による生成方法(3)>によって第3特徴マップFM3が生成されるイメージを示している。
検出対象となる物体(ここでは人)に対応する領域が活性化した個々の第1特徴マップFM1は、次元方向において複数個の第2特徴マップFM2の後に足し合わされる。
<足し算による生成方法(3)>は、第2特徴量に対して第1特徴量を空間的に足すのではなく、特徴マップのバリエーションを増やすことで第2特徴マップFM2に重み付けをすることを目的とした方法である。
例えば、第1特徴マップFM1及び第2特徴マップFM2がそれぞれ500次元の特徴マップであったとする。この場合、例えば、上述の<足し算による生成方法(1)>では、生成される第3特徴マップFM3は、500次元の特徴マップであり、次元方向の数は変わらない。これに対し、<足し算による生成方法(3)>では、生成される第3特徴マップFM3は、1000次元の特徴マップとなる。すなわち、次元方向に特徴マップの数が増える。生成された1000次元の第3特徴マップFM3が次の顕著性ブロック層L1においてさらに畳み込み演算されることで、特徴量のバリエーションがさらに豊かになった第3特徴マップFM3が生成される。
具体的には、例えば、Smallは、32×32ピクセルより小さいサイズの物体を含む範囲であり、Mediumは、32×32ピクセルより大きく、96×96ピクセルより小さいサイズの物体を含む範囲であり、Largeは、96×96ピクセルよりも大きいサイズの物体を含む範囲である。
物体検出装置200は、演算量を削減しつつ、小さい物体の検出に足りる特徴量を取得することができる。物体検出装置200を用いることにより、演算量を低減することができるとともに、小さい物体の検出を実現することができる。
距離画像又はソナー画像は、例えば、距離センサ、ミリ波レーダ、ソナーセンサ、又は、赤外線センサから得られる。温度画像は、例えば、サーマルセンサから得られる。距離センサは、物体までの距離が正しく測定できるため、当該距離センサから得られた距離画像を用いた場合、物体らしさをあらわす第1特徴マップの精度が高くなる。ミリ波レーダは、悪天候時であっても物体までの距離を正確に測定できる。ソナーセンサ又は赤外線センサは、安価で近距離の物体位置を測定できる。サーマルセンサは、夜間の撮影に適している。
第1特徴マップ生成部31は、例えば、距離画像、ソナー画像、又は、温度画像を用いて第1特徴マップを生成することで、上述したように、抽出する特徴に応じた第1特徴マップを生成することができるとともに、プライバシー保護の観点から匿名性の高い第1特徴マップの生成を行うことができる。
ここで、図31は、第1特徴マップ生成部31が、個々の撮像画像に対応する温度画像を用いて生成した、第1特徴マップとしての熱マップのイメージの一例を示す図である。 熱マップは、人に対応する領域が活性化するため、人を検出したい場合の第1特徴マップとして用いられるのに適している。また、温度画像を用いて生成された熱マップは、撮像画像を用いて生成された第1特徴マップと比して、より夜間の人物検出に優れる。
また、例えば、物体検出部24における物体検出は、EfficientDet(以下の参考文献3参照)によるものであっても良い。
Mingxing Tan, Ruoming Pang, Quoc V. Le,"EfficientDet: Scalable and Efficient Object Detection"; Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR), 2020, pp. 10781-10790
図32は、実施の形態2に係る物体検出装置を含む物体検出システムの要部を示すブロック図である。図32を参照して、実施の形態2に係る物体検出装置を含む物体検出システムについて説明する。なお、図32において、図1に示すブロックと同様のブロックには同一符号を付して説明を省略する。
図35は、実施の形態3に係る物体検出装置を含む物体検出システムの要部を示すブロック図である。図35を参照して、実施の形態3に係る物体検出装置を含む物体検出システムについて説明する。なお、図35において、図1に示すブロックと同様のブロックには同一符号を付して説明を省略する。
図38は、実施の形態4に係るモニタリング装置を含むモニタリングシステムの要部を示すブロック図である。図39は、実施の形態4に係るモニタリング装置における解析部及び出力制御部の要部を示すブロック図である。図38及び図39を参照して、実施の形態4に係るモニタリング装置を含むモニタリングシステムについて説明する。なお、図38において、図1に示すブロックと同様のブロックには同一符号を付して説明を省略する。
Claims (29)
- カメラによる撮像画像を示す画像データを取得する画像データ取得部と、
前記画像データを用いて第1特徴マップを生成する第1特徴量抽出部と、
前記画像データを用いて第2特徴マップを生成するとともに、当該第2特徴マップに対して前記第1特徴マップを用いた足し算又は掛け算を行って、当該第2特徴マップに対する重み付けをすることにより第3特徴マップを生成する第2特徴量抽出部と、
前記第3特徴マップを用いて前記撮像画像における物体を検出する物体検出部と、を備え、
前記第1特徴マップにおける第1特徴量は、物体らしさに対応する中レベル特徴を用いたものであり、
前記第2特徴マップにおける第2特徴量は、高レベル特徴を用いたものである
ことを特徴とする物体検出装置。 - 前記第2特徴量抽出部は、前記第1特徴マップにおける個々の前記第1特徴量を個々の前記第2特徴マップにおける対応する前記第2特徴量に足し合わせる足し算を行って、前記重み付けを行う
ことを特徴とする請求項1記載の物体検出装置。 - 前記第2特徴量抽出部は、前記第1特徴マップにおける個々の前記第1特徴量を、個々の前記第2特徴マップにおける対応する前記第2特徴量に掛ける掛け算を行って、前記重み付けを行う
ことを特徴とする請求項1記載の物体検出装置。 - 前記第1特徴量抽出部は、前記第1特徴マップから、それぞれ異なる第4特徴量により構成される複数の第4特徴マップを生成し、
前記第2特徴量抽出部は、前記第4特徴マップにおける個々の前記第4特徴量を前記第4特徴マップに対応する前記第2特徴マップにおける対応する前記第2特徴量に足し合わせる足し算を行って、前記重み付けを行う
ことを特徴とする請求項1記載の物体検出装置。 - 前記第1特徴量抽出部は、前記第1特徴マップから、それぞれ異なる第4特徴量により構成される複数の第4特徴マップを生成し、
前記第2特徴量抽出部は、前記第4特徴マップにおける個々の前記第4特徴量を前記第4特徴マップに対応する前記第2特徴マップにおける対応する前記第2特徴量に掛ける掛け算を行って、前記重み付けを行う
ことを特徴とする請求項1記載の物体検出装置。 - 前記第2特徴量抽出部は、前記第1特徴マップを前記第2特徴マップの次元方向に足し合わせる足し算を行って、前記重み付けを行う
ことを特徴とする請求項1記載の物体検出装置。 - 前記第1特徴量抽出部は、教師なし学習により学習自在であることを特徴とする請求項1記載の物体検出装置。
- 前記第2特徴量抽出部は、教師あり学習により学習自在であることを特徴とする請求項1記載の物体検出装置。
- 前記第2特徴量抽出部は、畳み込みニューラルネットワークを用いて前記第2特徴マップを生成することを特徴とする請求項8記載の物体検出装置。
- 前記第2特徴量抽出部は、深層学習により学習自在であることを特徴とする請求項9記載の物体検出装置。
- 前記第1特徴量抽出部が生成する前記第1特徴マップは、前記画像データとしての前記撮像画像に基づく顕著性マップ、前記画像データとしての距離画像又はソナー画像に基づく深度マップ、及び、前記画像データとしての熱画像に基づくヒートマップのうちの少なくとも一つであることを特徴とする請求項7記載の物体検出装置。
- 前記第2特徴量抽出部は、構造的類似性及び画像類似度相関のうち少なくとも一つに基づいて前記重み付けにおける重要度を設定する
ことを特徴とする請求項2から請求項5のうちのいずれか1項記載の物体検出装置。 - 前記重み付けがなされることにより、個々の前記第2特徴マップにおける個々の前記第2特徴量が対応する前記物体らしさに応じて補強されるものであることを特徴とする請求項1記載の物体検出装置。
- 前記物体検出部は、互いに異なるカーネルサイズによる複数回の畳み込み演算を実行することにより前記物体を検出することを特徴とする請求項1記載の物体検出装置。
- 前記物体検出部は、教師あり学習により学習自在であることを特徴とする請求項1記載の物体検出装置。
- 前記物体検出部は、回帰により前記物体の位置を推定するとともに、分類により前記物体の種別を推定することを特徴とする請求項15記載の物体検出装置。
- 前記物体の種別は、前記物体の進行方向を含むことを特徴とする請求項16記載の物体検出装置。
- 時刻情報を取得する時刻情報取得部と、
時刻別学習済みパラメータデータベースに含まれるパラメータセットのうちの前記時刻情報が示す時刻に対応するパラメータセットを選択するパラメータ選択部と、を備え、
前記第2特徴量抽出部は、前記パラメータ選択部により選択されたパラメータセットに含まれる学習済みパラメータを用いて前記第2特徴マップ及び前記第3特徴マップを生成する
ことを特徴とする請求項8記載の物体検出装置。 - 場所情報を取得する場所情報取得部と、
場所別学習済みパラメータデータベースに含まれるパラメータセットのうちの前記場所情報が示す場所に対応するパラメータセットを選択するパラメータ選択部と、を備え、
前記第2特徴量抽出部は、前記パラメータ選択部により選択されたパラメータセットに含まれる学習済みパラメータを用いて前記第2特徴マップ及び前記第3特徴マップを生成する
ことを特徴とする請求項8記載の物体検出装置。 - 請求項1記載の物体検出装置と、
前記物体検出部による検出結果を解析する解析部と、
前記解析部による解析結果に対応する解析結果信号を出力する出力制御部と、
を備えるモニタリング装置。 - 前記解析部は、前記物体の異常度を判定する異常判定部及び前記物体の脅威度を判定する脅威判定部のうちの少なくとも一方を有することを特徴とする請求項20記載のモニタリング装置。
- 前記異常判定部は、前記物体検出部による検出結果が示す前記物体の位置に基づき前記異常度を判定することを特徴とする請求項21記載のモニタリング装置。
- 前記脅威判定部は、前記物体検出部による検出結果が示す前記物体の進行方向に基づき前記脅威度を判定することを特徴とする請求項21記載のモニタリング装置。
- 前記脅威判定部は、前記撮像画像における前記物体のサイズの時間変化量に基づき前記脅威度を判定することを特徴とする請求項21記載のモニタリング装置。
- 前記解析部は、前記物体検出部による検出結果を時間的に解析することにより前記時間変化量を算出する時間解析部を有することを特徴とする請求項24記載のモニタリング装置。
- 前記解析部は、前記異常判定部による判定結果及び前記脅威判定部による判定結果のうちの少なくとも一方を空間的に解析することによりリスクマップを生成する空間解析部を有することを特徴とする請求項21記載のモニタリング装置。
- 前記出力制御部は、前記解析結果信号をディスプレイに出力することにより、前記リスクマップに対応するリスクマップ画像を前記ディスプレイに表示させることを特徴とする請求項26記載のモニタリング装置。
- 学習用画像を示す画像データを取得する画像データ取得部と、
前記画像データを用いて第1特徴マップを生成する第1特徴量抽出部と、
前記画像データを用いて第2特徴マップを生成するとともに、当該第2特徴マップに対して前記第1特徴マップを用いた足し算又は掛け算を行って当該第2特徴マップに対する重み付けをすることにより第3特徴マップを生成する第2特徴量抽出部と、
前記第3特徴マップを用いて前記学習用画像における物体を検出する物体検出部と、
前記物体検出部による検出結果に応じて前記第2特徴量抽出部及び前記物体検出部の学習をする学習部と、を備え、
前記第1特徴マップにおける第1特徴量は、物体らしさに対応する中レベル特徴を用いたものであり、
前記第2特徴マップにおける第2特徴量は、高レベル特徴を用いたものである
ことを特徴とする学習装置。 - 画像データ取得部が、学習用画像を示す画像データを取得するステップと、
第1特徴量抽出部が、前記画像データを用いて第1特徴マップを生成するステップと、
第2特徴量抽出部が、前記画像データを用いて第2特徴マップを生成するとともに、当該第2特徴マップに対して前記第1特徴マップを用いた演算を行って当該第2特徴マップに対する重み付けをすることにより第3特徴マップを生成するステップと、
物体検出部が、前記第3特徴マップを用いて前記学習用画像における物体を検出するステップと、
学習部が、前記物体検出部による検出結果に応じて前記第2特徴量抽出部及び前記物体検出部の学習をして、前記画像データを入力とし前記物体の検出結果を出力する機械学習モデルを生成するステップとを備え、
前記第1特徴マップにおける第1特徴量は、物体らしさに対応する中レベル特徴を用いたものであり、
前記第2特徴マップにおける第2特徴量は、高レベル特徴を用いたものである
ことを特徴とするモデル生成方法。
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
PCT/JP2020/048617 WO2022137476A1 (ja) | 2020-12-25 | 2020-12-25 | 物体検出装置、モニタリング装置、学習装置、及び、モデル生成方法 |
Publications (3)
Publication Number | Publication Date |
---|---|
JPWO2022137476A1 JPWO2022137476A1 (ja) | 2022-06-30 |
JPWO2022137476A5 JPWO2022137476A5 (ja) | 2023-03-29 |
JP7361949B2 true JP7361949B2 (ja) | 2023-10-16 |
Family
ID=82157437
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2022570922A Active JP7361949B2 (ja) | 2020-12-25 | 2020-12-25 | 物体検出装置、モニタリング装置、学習装置、及び、モデル生成方法 |
Country Status (5)
Country | Link |
---|---|
US (1) | US20230410532A1 (ja) |
EP (1) | EP4270301A4 (ja) |
JP (1) | JP7361949B2 (ja) |
CN (1) | CN116686001A (ja) |
WO (1) | WO2022137476A1 (ja) |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2018147431A (ja) | 2017-03-09 | 2018-09-20 | コニカミノルタ株式会社 | 画像認識装置及び画像認識方法 |
JP2020047270A (ja) | 2018-09-17 | 2020-03-26 | 株式会社ストラドビジョン | マルチフィーディングを適用した学習方法及び学習装置並びにそれを利用したテスト方法及びテスト装置 |
JP2020113000A (ja) | 2019-01-10 | 2020-07-27 | 日本電信電話株式会社 | 物体検出認識装置、方法、及びプログラム |
WO2021130881A1 (ja) | 2019-12-25 | 2021-07-01 | 三菱電機株式会社 | 物体検出装置、モニタリング装置及び学習装置 |
-
2020
- 2020-12-25 US US18/037,020 patent/US20230410532A1/en active Pending
- 2020-12-25 JP JP2022570922A patent/JP7361949B2/ja active Active
- 2020-12-25 EP EP20966963.9A patent/EP4270301A4/en active Pending
- 2020-12-25 CN CN202080108058.1A patent/CN116686001A/zh active Pending
- 2020-12-25 WO PCT/JP2020/048617 patent/WO2022137476A1/ja active Application Filing
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2018147431A (ja) | 2017-03-09 | 2018-09-20 | コニカミノルタ株式会社 | 画像認識装置及び画像認識方法 |
JP2020047270A (ja) | 2018-09-17 | 2020-03-26 | 株式会社ストラドビジョン | マルチフィーディングを適用した学習方法及び学習装置並びにそれを利用したテスト方法及びテスト装置 |
JP2020113000A (ja) | 2019-01-10 | 2020-07-27 | 日本電信電話株式会社 | 物体検出認識装置、方法、及びプログラム |
WO2021130881A1 (ja) | 2019-12-25 | 2021-07-01 | 三菱電機株式会社 | 物体検出装置、モニタリング装置及び学習装置 |
Also Published As
Publication number | Publication date |
---|---|
CN116686001A (zh) | 2023-09-01 |
JPWO2022137476A1 (ja) | 2022-06-30 |
US20230410532A1 (en) | 2023-12-21 |
WO2022137476A1 (ja) | 2022-06-30 |
EP4270301A4 (en) | 2024-01-24 |
EP4270301A1 (en) | 2023-11-01 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP7052663B2 (ja) | 物体検出装置、物体検出方法及び物体検出用コンピュータプログラム | |
Rani | LittleYOLO-SPP: A delicate real-time vehicle detection algorithm | |
JP4782123B2 (ja) | カメラによりシーンに関して取得された映像中の移動物体を追跡する方法 | |
CN113468967B (zh) | 基于注意力机制的车道线检测方法、装置、设备及介质 | |
Philomin et al. | Pedestrian tracking from a moving vehicle | |
CN113409361B (zh) | 一种多目标跟踪方法、装置、计算机及存储介质 | |
JP4420512B2 (ja) | 移動物体間動作分類方法及び装置並びに画像認識装置 | |
CN112906816B (zh) | 基于光微分与双通道神经网络的目标检测方法和装置 | |
JP4583493B2 (ja) | 移動物体認識方法及び装置 | |
JP7031081B2 (ja) | 物体検出装置、モニタリング装置及び学習装置 | |
JP7361949B2 (ja) | 物体検出装置、モニタリング装置、学習装置、及び、モデル生成方法 | |
Gu et al. | Integrated multi-scale event verification in an augmented foreground motion space | |
Hafeezallah et al. | Multi-Scale Network with Integrated Attention Unit for Crowd Counting. | |
Abdallah et al. | Multi-vehicle tracking using heterogeneous neural networks for appearance and motion features | |
Tourani et al. | Challenges of video-based vehicle detection and tracking in intelligent transportation systems | |
CN115808685A (zh) | 一种基于相机与毫米波雷达融合的3d目标检测方法 | |
Niknejad et al. | Embedded multi-sensors objects detection and tracking for urban autonomous driving | |
Zhang et al. | LanePainter: lane marks enhancement via generative adversarial network | |
Cao et al. | Robust crowd counting based on refined density map | |
SR | OBJECT DETECTION, TRACKING AND BEHAVIOURAL ANALYSIS FOR STATIC AND MOVING BACKGROUND. | |
Kovačić et al. | Measurement of road traffic parameters based on multi-vehicle tracking | |
Pandya et al. | A novel approach for vehicle detection and classification | |
Adaimi et al. | Traffic perception from aerial images using butterfly fields | |
Sayani et al. | Traffic analysis and estimation using deep learning techniques | |
Turker et al. | 3D convolutional long short-term encoder-decoder network for moving object segmentation |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20230111 |
|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20230111 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20230905 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20231003 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 7361949 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |