JP7361949B2 - 物体検出装置、モニタリング装置、学習装置、及び、モデル生成方法 - Google Patents

物体検出装置、モニタリング装置、学習装置、及び、モデル生成方法 Download PDF

Info

Publication number
JP7361949B2
JP7361949B2 JP2022570922A JP2022570922A JP7361949B2 JP 7361949 B2 JP7361949 B2 JP 7361949B2 JP 2022570922 A JP2022570922 A JP 2022570922A JP 2022570922 A JP2022570922 A JP 2022570922A JP 7361949 B2 JP7361949 B2 JP 7361949B2
Authority
JP
Japan
Prior art keywords
feature
feature map
object detection
unit
map
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2022570922A
Other languages
English (en)
Other versions
JPWO2022137476A1 (ja
JPWO2022137476A5 (ja
Inventor
友哉 澤田
賢 福地
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Mitsubishi Electric Corp
Original Assignee
Mitsubishi Electric Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Mitsubishi Electric Corp filed Critical Mitsubishi Electric Corp
Publication of JPWO2022137476A1 publication Critical patent/JPWO2022137476A1/ja
Publication of JPWO2022137476A5 publication Critical patent/JPWO2022137476A5/ja
Application granted granted Critical
Publication of JP7361949B2 publication Critical patent/JP7361949B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/80Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
    • G06V10/806Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/50Context or environment of the image
    • G06V20/56Context or environment of the image exterior to a vehicle by using sensors mounted on the vehicle
    • G06V20/58Recognition of moving objects or obstacles, e.g. vehicles or pedestrians; Recognition of traffic objects, e.g. traffic signs, traffic lights or roads
    • GPHYSICS
    • G01MEASURING; TESTING
    • G01JMEASUREMENT OF INTENSITY, VELOCITY, SPECTRAL CONTENT, POLARISATION, PHASE OR PULSE CHARACTERISTICS OF INFRARED, VISIBLE OR ULTRAVIOLET LIGHT; COLORIMETRY; RADIATION PYROMETRY
    • G01J5/00Radiation pyrometry, e.g. infrared or optical thermometry
    • G01J5/0022Radiation pyrometry, e.g. infrared or optical thermometry for sensing the radiation of moving bodies
    • G01J5/0025Living bodies
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/0002Inspection of images, e.g. flaw detection
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/20Analysis of motion
    • G06T7/246Analysis of motion using feature-based methods, e.g. the tracking of corners or segments
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/70Determining position or orientation of objects or cameras
    • G06T7/73Determining position or orientation of objects or cameras using feature-based methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/46Descriptors for shape, contour or point-related descriptors, e.g. scale invariant feature transform [SIFT] or bags of words [BoW]; Salient regional features
    • G06V10/462Salient features, e.g. scale invariant feature transforms [SIFT]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/62Extraction of image or video features relating to a temporal dimension, e.g. time-based feature extraction; Pattern tracking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/764Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/7715Feature extraction, e.g. by transforming the feature space, e.g. multi-dimensional scaling [MDS]; Mappings, e.g. subspace methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/774Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10016Video; Image sequence
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20081Training; Learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20084Artificial neural networks [ANN]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/30Subject of image; Context of image processing
    • G06T2207/30248Vehicle exterior or interior
    • G06T2207/30252Vehicle exterior; Vicinity of vehicle
    • G06T2207/30261Obstacle
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V2201/00Indexing scheme relating to image or video recognition or understanding
    • G06V2201/08Detecting or categorising vehicles

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Multimedia (AREA)
  • Evolutionary Computation (AREA)
  • Computing Systems (AREA)
  • Medical Informatics (AREA)
  • Software Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • Databases & Information Systems (AREA)
  • Artificial Intelligence (AREA)
  • Health & Medical Sciences (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Quality & Reliability (AREA)
  • Image Analysis (AREA)

Description

本開示は、物体検出装置、モニタリング装置、学習装置、及び、モデル生成方法に関する。
従来、深層学習により学習自在な畳み込みニューラルネットワーク(以下「CNN」と記載することがある。)を用いて、カメラにより撮像された動画における個々の物体をリアルタイムに検出する技術が開発されている。すなわち、個々の物体の位置を推定するとともに、個々の物体の種別を推定する技術が開発されている。例えば、SSD(Single Shot MultiBox Detector)、YOLO(You Only Look Once)及びFaster R-CNN(Region-based Convolutional Neural Network)が開発されている。非特許文献1には、SSDが開示されている。
Wei Liu, Dragomir Anguelov, Dumitru Erhan, Christian Szegedy, Scott Reed, Cheng-Yang Fu, Alexander C. Berg, "SSD: Single Shot MultiBox Detector," v5, 29 Dec 2016, https://arxiv.org/pdf/1512.02325v5.pdf
従来の物体検出(Object Detection)は、ディープなCNNを用いたものである。このため、主にプーリングにより、空間的な情報が消失する。この結果、特に画像における物体のサイズが小さいとき、かかる物体の位置を推定することが技術的に困難であるという問題があった。すなわち、小さい物体を検出することが技術的に困難であるという問題があった。
ここで、従来の物体検出において、個々の特徴マップのサイズを大きくすることにより、小さい物体の検出に対応することが考えられる。しかしながら、ディープなCNNにおいて個々の特徴マップのサイズを大きくすることにより、演算量が爆発的に増加する。このため、かかる方法は非実際的である。
本開示は、上記のような課題を解決するためになされたものであり、小さい物体の検出を実現することを目的とする。
本開示に係る物体検出装置は、カメラによる撮像画像を示す画像データを取得する画像データ取得部と、画像データを用いて第1特徴マップを生成する第1特徴量抽出部と、画像データを用いて第2特徴マップを生成するとともに、当該第2特徴マップに対して第1特徴マップを用いた足し算又は掛け算を行って、当該第2特徴マップに対する重み付けをすることにより第3特徴マップを生成する第2特徴量抽出部と、第3特徴マップを用いて撮像画像における物体を検出する物体検出部と、を備え、第1特徴マップにおける第1特徴量は、物体らしさに対応する中レベル特徴を用いたものであり、第2特徴マップにおける第2特徴量は、高レベル特徴を用いたものである。
本開示によれば、上記のように構成したので、小さい物体の検出を実現することができる。
実施の形態1に係る物体検出装置を含む物体検出システムの要部を示すブロック図である。 実施の形態1に係る物体検出装置における第1特徴量抽出部、第2特徴量抽出部及び物体検出部の要部を示すブロック図である。 実施の形態1に係る物体検出装置における物体検出部により分類されるクラスの例を示す説明図である。 実施の形態1に係る学習装置を含む学習システムの要部を示すブロック図である。 実施の形態1に係る物体検出装置の要部のハードウェア構成を示すブロック図である。 実施の形態1に係る物体検出装置の要部の他のハードウェア構成を示すブロック図である。 実施の形態1に係る学習装置の要部のハードウェア構成を示すブロック図である。 実施の形態1に係る学習装置の要部の他のハードウェア構成を示すブロック図である。 実施の形態1に係る物体検出装置の動作を示すフローチャートである。 実施の形態1に係る学習装置の動作を示すフローチャートである。 第1ニューラルネットワークの構造を示す説明図である。 個々の顕著性ブロック層の構造を示す説明図である。 顕著性ブロック層にて個々の第2特徴マップに対して重み付けがなされ、第3特徴マップが生成されるイメージを説明するための図である。 顕著性ブロック層にて個々の第2特徴マップに対して重み付けがなされ、第3特徴マップが生成されるその他のイメージを説明するための図である。 顕著性ブロック層にて個々の第2特徴マップに対して重み付けがなされ、第3特徴マップが生成されるその他のイメージを説明するための図である。 顕著性ブロック層にて個々の第2特徴マップに対して重み付けがなされ、第3特徴マップが生成されるその他のイメージを説明するための図である。 顕著性ブロック層にて個々の第2特徴マップに対して重み付けがなされ、第3特徴マップが生成されるその他のイメージを説明するための図である。 顕著性ブロック層にて個々の第2特徴マップに対して重み付けがなされ、第3特徴マップが生成されるその他のイメージを説明するための図である。 顕著性ブロック層にて個々の第2特徴マップに対して重み付けがなされ、第3特徴マップが生成されるその他のイメージを説明するための図である。 顕著性ブロック層にて個々の第2特徴マップに対して重み付けがなされ、第3特徴マップが生成されるその他のイメージを説明するための図である。 顕著性ブロック層にて個々の第2特徴マップに対して重み付けがなされ、第3特徴マップが生成されるその他のイメージを説明するための図である。 撮像画像の例を示す説明図である。 顕著性マップに対応するフィーチャーマップの例を示す説明図である。 複数個の特徴マップのうちの第1の特徴マップに対応するフィーチャーマップの例を示す説明図である。 複数個の第3特徴マップのうちの第1の第3特徴マップに対応するフィーチャーマップの例を示す説明図である。 比較用の物体検出装置による検出結果の例を示す説明図である。 実施の形態1に係る物体検出装置による検出結果の例を示す説明図である。 比較用の物体検出装置による検出精度の例、及び実施の形態1に係る物体検出装置による検出精度の例を示す説明図である。 比較用の物体検出装置による検出精度の他の例、及び実施の形態1に係る物体検出装置による検出精度の他の例を示す説明図である。 比較用の物体検出装置による検出精度の他の例、及び実施の形態1に係る物体検出装置による検出精度の他の例を示す説明図である。 第1特徴マップ生成部が、個々の撮像画像に対応する温度画像を用いて生成した、第1特徴マップとしての熱マップのイメージの一例を示す図である。 実施の形態2に係る物体検出装置を含む物体検出システムの要部を示すブロック図である。 実施の形態2に係る学習装置を含む学習システムの要部を示すブロック図である。 実施の形態2に係る物体検出装置の動作を示すフローチャートである。 実施の形態3に係る物体検出装置を含む物体検出システムの要部を示すブロック図である。 実施の形態3に係る学習装置を含む学習システムの要部を示すブロック図である。 実施の形態3に係る物体検出装置の動作を示すフローチャートである。 実施の形態4に係るモニタリング装置を含むモニタリングシステムの要部を示すブロック図である。 実施の形態4に係るモニタリング装置における解析部及び出力制御部の要部を示すブロック図である。 リスクマップ画像の例を示す説明図である。 実施の形態4に係るモニタリング装置の要部のハードウェア構成を示すブロック図である。 実施の形態4に係るモニタリング装置の要部の他のハードウェア構成を示すブロック図である。 実施の形態4に係るモニタリング装置の動作を示すフローチャートである。 実施の形態4に係る他のモニタリング装置を含むモニタリングシステムの要部を示すブロック図である。 実施の形態4に係る他のモニタリング装置を含むモニタリングシステムの要部を示すブロック図である。
以下、この開示をより詳細に説明するために、この開示を実施するための形態について、添付の図面に従って説明する。
実施の形態1.
図1は、実施の形態1に係る物体検出装置を含む物体検出システムの要部を示すブロック図である。図2は、実施の形態1に係る物体検出装置における第1特徴量抽出部、第2特徴量抽出部及び物体検出部の要部を示すブロック図である。図1及び図2を参照して、実施の形態1に係る物体検出装置を含む物体検出システムについて説明する。
図1に示す如く、物体検出システム100は、カメラ1、記憶装置2及び物体検出装置200を含むものである。記憶装置2は、特徴マップ記憶部11を有している。物体検出装置200は、画像データ取得部21、第1特徴量抽出部22、第2特徴量抽出部23及び物体検出部24を有している。カメラ1は、例えば、監視カメラ、防犯カメラ又は電子ミラー用のカメラにより構成されている。すなわち、カメラ1は、動画撮像用のカメラにより構成されている。記憶装置2は、メモリにより構成されている。
以下、カメラ1が電子ミラー用のカメラにより構成されている場合の例を中心に説明する。この場合、カメラ1、記憶装置2及び物体検出装置200は、車両(不図示)に設けられている。以下、かかる車両を「自車両」ということがある。
図2に示す如く、第1特徴量抽出部22は、第1特徴マップ生成部31を有している。第2特徴量抽出部23は、第1ニューラルネットワークNN1により構成されている。第1ニューラルネットワークNN1は、第2特徴マップ生成部32及び第3特徴マップ生成部33を有している。物体検出部24は、第2ニューラルネットワークNN2により構成されている。第2ニューラルネットワークNN2は、位置推定部34及び種別推定部35を有している。
画像データ取得部21は、カメラ1により撮像された画像を示す画像データを取得するものである。すなわち、画像データ取得部21は、カメラ1により撮像された動画を構成する個々の静止画(以下「撮像画像」ということがある。)を示す画像データを取得するものである。
第1特徴マップ生成部31は、画像データ取得部21により取得された画像データを用いて、個々の撮像画像に対応する1個の特徴マップ(以下「第1特徴マップ」という。)FM1を生成するものである。第1特徴マップFM1は、二次元状に配列された複数個の特徴量(以下「第1特徴量」という。)により構成されている。個々の第1特徴量は、物体らしさ(Objectness)に対応する中レベル特徴(Mid-level Feature)を用いたものである。
ここで、中レベル特徴における「中レベル」とは、人の視覚モデルに基づくレベルと同等のレベルである。すなわち、かかる「中レベル」とは、従来の物体検出に用いられる特徴のレベルに比して低いレベルである。
具体的には、例えば、個々の第1特徴量は、顕著性(Saliency)を用いたものである。第1特徴マップ生成部31は、顕著性推定(Saliency Estimation)を実行することにより、顕著性マップ(Saliency Map)を生成する。このとき、第1特徴マップ生成部31は、例えば、以下の参考文献1に記載された方法と同様の方法により顕著性マップを生成する。すなわち、第1特徴マップ生成部31は、参考文献1に記載された物体検出装置における画像特徴マップ生成部による生成方法と同様の生成方法により顕著性マップを生成する。
[参考文献1]
国際公開第2018/051459号
かかる方法により、画像データ取得部21により取得された画像データを用いて、他の特徴マップを経ることなく直接的に顕著性マップが生成される。また、CNNを用いることなく顕著性マップが生成される。
第4特徴マップ生成部36は、第1特徴マップ生成部31によって生成された第1特徴マップFM1から、当該第1特徴マップFM1に対応する複数個の特徴マップ(以下「第4特徴マップ」という。)FM4を生成するものである。具体的には、第4特徴マップ生成部36は、畳み込み(Convolution)を行って、複数個の第4特徴マップFM4を生成する。個々の第4特徴マップFM4は、二次元状に配列された複数個の特徴量(以下「第4特徴量」という。)により構成されている。個々の第4特徴量は、中レベル特徴(Middle-level Feature)を用いたものである。
第1特徴マップ生成部31及び第4特徴マップ生成部36は、教師なし学習により学習自在なものである。すなわち、第1特徴量抽出部22は、教師なし学習により学習自在なものである。かかる教師なし学習には、公知の種々の技術を用いることができる。これらの技術についての詳細な説明は省略する。
第2特徴マップ生成部32は、画像データ取得部21により取得された画像データを用いて、個々の撮像画像に対応する複数個の特徴マップ(以下「第2特徴マップ」という。)FM2を生成するものである。個々の第2特徴マップFM2は、二次元状に配列された複数個の特徴量(以下「第2特徴量」という。)により構成されている。個々の第2特徴量は、高レベル特徴(High-level Feature)を用いたものである。
ここで、高レベル特徴における「高レベル」とは、従来の物体検出に用いられる特徴のレベルと同等のレベルである。すなわち、かかる「高レベル」とは、人の視覚モデルに基づくレベルに比して高いレベルである。
具体的には、例えば、第1ニューラルネットワークNN1のうちの第2特徴マップ生成部32に対応する部位により、CNNが構成されている。かかるCNNにより、複数個の第2特徴マップFM2が順次生成される。
第3特徴マップ生成部33は、第2特徴マップFM2に対して第1特徴マップFM1を用いた足し算又は掛け算を行って第2特徴マップに対する重み付けをすることにより、複数個の第2特徴マップFM2に基づく複数個の特徴マップ(以下「第3特徴マップ」という。)FM3を生成するものである。
以下、第3特徴マップ生成部33による、複数個の第3特徴マップFM3の生成方法の具体例について説明する。
<足し算による生成方法(1)>
例えば、第3特徴マップ生成部33は、第1特徴マップFM1における個々の第1特徴量を個々の第2特徴マップFM2における対応する第2特徴量に足し合わせる足し算を行う。具体的には、第3特徴マップ生成部33は、まず、1個の第1特徴マップFM1を、第2特徴マップFM2の数だけ複製する。そして、第3特徴マップ生成部33は、複製した第1特徴マップFM1をそれぞれ個々の第2特徴マップFM2と対応付け、レイヤー毎に、ピクセル単位で足し合わせる。すなわち、第3特徴マップ生成部33は、第1特徴マップFM1と第2特徴マップFM2とを、空間的に足し合わせる。
これにより、第3特徴マップ生成部33は、第1特徴マップFM1を用いた、第2特徴マップFM2に対する重み付けをする。すなわち、第3特徴マップ生成部33は、個々の第2特徴マップFM2における対応する第2特徴量に対する重み付けをする。
<掛け算による生成方法(1)>
例えば、第3特徴マップ生成部33は、第1特徴マップFM1における個々の第1特徴量を個々の第2特徴マップFM2における対応する第2特徴量に掛け合わせる掛け算を行う。具体的には、第3特徴マップ生成部33は、まず、1個の第1特徴マップFM1を、第2特徴マップFM2の数だけ複製する。そして、第3特徴マップ生成部33は、複製した第1特徴マップFM1をそれぞれ個々の第2特徴マップFM2と対応付け、レイヤー毎に、ピクセル単位で掛け合わせる。すなわち、第3特徴マップ生成部33は、第1特徴マップFM1と第2特徴マップFM2とを、空間的に掛け合わせる。
これにより、第3特徴マップ生成部33は、第1特徴マップFM1を用いた、第2特徴マップFM2に対する重み付けをする。すなわち、第3特徴マップ生成部33は、個々の第2特徴マップFM2における対応する第2特徴量に対する重み付けをする。
<足し算による生成方法(2)>
当該生成方法においては、第1特徴量抽出部22の第4特徴マップ生成部36が、第1特徴マップ生成部31によって生成された第1特徴マップFM1から、当該第1特徴マップに対応する複数個の第4特徴マップFM4を生成していることを前提とする。
例えば、第3特徴マップ生成部33は、第4特徴マップFM4における個々の第4特徴量を第4特徴マップに対応する第2特徴マップFM2における対応する第2特徴量に足し合わせる足し算を行う。具体的には、第3特徴マップ生成部33は、個々の第4特徴マップFM4と個々の第2特徴マップFM2とを対応付け、レイヤー毎に、ピクセル単位で足し合わせる。すなわち、第3特徴マップ生成部33は、第4特徴マップFM4と第2特徴マップFM2とを、空間的に足し合わせる。
これにより、第3特徴マップ生成部33は、第1特徴マップFM1を用いた、より詳細には、第1特徴マップFM1を用いて生成された第4特徴マップFM4を用いた、第2特徴マップFM2に対する重み付けをする。すなわち、第3特徴マップ生成部33は、個々の第2特徴マップFM2における対応する第2特徴量に対する重み付けをする。
<掛け算による生成方法(2)>
当該生成方法においても、上述の<足し算による生成方法(2)>同様、第1特徴量抽出部22の第4特徴マップ生成部36が、第1特徴マップ生成部31によって生成された第1特徴マップFM1から、当該第1特徴マップに対応する複数個の第4特徴マップFM4を生成していることを前提とする。
例えば、第3特徴マップ生成部33は、第4特徴マップFM4における個々の第4特徴量を個々の第2特徴マップFM2における対応する第2特徴量に掛け合わせる掛け算を行う。具体的には、第3特徴マップ生成部33は、個々の第4特徴マップFM4と個々の第2特徴マップFM2とを対応付け、レイヤー毎に、ピクセル単位で掛け合わせる。すなわち、第3特徴マップ生成部33は、第4特徴マップFM4と第2特徴マップFM2とを、空間的に掛け合わせる。
これにより、第3特徴マップ生成部33は、第1特徴マップFM1を用いた、より詳細には、第1特徴マップFM1を用いて生成された第4特徴マップFM4を用いた、第2特徴マップFM2に対する重み付けをする。すなわち、第3特徴マップ生成部33は、個々の第2特徴マップFM2における対応する第2特徴量に対する重み付けをする。
<足し算による生成方法(3)>
例えば、第3特徴マップ生成部33は、第1特徴マップFM1を、複数個の第2特徴マップFM2の次元方向、言い換えれば、チャネル方向に足し合わせる足し算を行う。言い換えれば、第3特徴マップ生成部33は、第1特徴マップFM1を、複数個の第2特徴マップFM2の次元方向に連結(concatenete)する。具体的には、第3特徴マップ生成部33は、1個の第1特徴マップFM1を、例えば、第2特徴マップFM2の数だけ複製する。そして、第3特徴マップ生成部33は、複製した第1特徴マップFM1を、複数個の第2特徴マップFM2の次元方向に足し合わせる。
これにより、第3特徴マップ生成部33は、第1特徴マップFM1を用いた第2特徴マップFM2に対する重み付けをする。すなわち、第3特徴マップ生成部33は、個々の第2特徴マップFM2に対して、次元の数を増やす重み付けをする。
第3特徴マップ生成部33は、上記<足し算による生成方法(1)>、<掛け算による生成方法(1)>、<足し算による生成方法(2)>及び<掛け算による生成方法(2)>において重み付けをするとき、構造的類似性(SSIM(Structual Similarity))及び画像類似度相関のうち少なくとも一つに基づいて、個々の第2特徴量に付与される重みを示す値(以下「重要度」という。)Wを設定しても良い。例えば、第3特徴マップ生成部33は、SSIM指標が大きいほど重要度Wを大きい値に設定する。また、例えば、第3特徴マップ生成部33は、相関類似度の指標が大きいほど重要度Wを大きい値に設定する。
物体の構造を評価するSSIM指標又はピクセル単位での相関類似度の指標を用いて重要度Wを設定することで、第3特徴マップ生成部33は、第3特徴マップFM3を用いた、撮像画像における物体検出精度を高めることができる。なお、第3特徴マップFM3を用いた、撮像画像における物体の検出は、物体検出部24が行う。
第3特徴マップ生成部33が、第3特徴マップFM3を生成するにあたり、上記<足し算による生成方法(2)>又は<掛け算による生成方法(2)>を採用しない場合、第1特徴量抽出部22は、第4特徴マップ生成部36を備えない構成とすることができる。
上記のとおり、個々の第1特徴量および個々の第4特徴量は、物体らしさに対応する中レベル特徴を用いたものである。このため、<足し算による生成方法(1)>、<掛け算による生成方法(1)>、<足し算による生成方法(2)>、又は、<掛け算による生成方法(2)>によって重み付けがなされることにより、個々の第2特徴量が対応する物体らしさに応じて補強されることになる。すなわち、より高い物体らしさに対応する第2特徴量は、より低い物体らしさに対応する第2特徴量に比して相対的に強められる。他方、より低い物体らしさに対応する第2特徴量は、より高い物体らしさに対応する第2特徴量に比して相対的に弱められる。個々の第3特徴マップFM3は、かかる補強がなされた複数個の特徴量(以下「第3特徴量」ということがある。)によるものである。
また、<足し算による生成方法(3)>によって重み付けがなされることにより、第2特徴マップFM2の空間的な解像度を完全に保ってそれぞれのレイヤー情報は独立されたまま、次元の数が増やされる。個々の第3特徴マップFM3は、第2特徴マップFM2の個々の第2特徴量の空間的な独立が保たれたまま、次元方向に複数個の特徴量(第1特徴量)が補強されたものであり、個々の第2特徴量及び個々の第1特徴量によるものである。<足し算による生成方法(3)>によって生成された個々の第3特徴マップFM3を構成する個々の第2特徴量及び個々の第1特徴量のことを、以下「第3特徴量」ということがある。
上記<足し算による生成方法(1)>、<掛け算による生成方法(1)>、<足し算による生成方法(2)>、<掛け算による生成方法(2)>及び<足し算による生成方法(3)>による第3特徴マップFM3の生成については、図13~図21を参照してそのイメージを後述する。
第1ニューラルネットワークNN1は、教師あり学習により学習自在なものである。すなわち、第2特徴量抽出部23は、教師あり学習により学習自在なものである。ここで、上記のとおり、第1ニューラルネットワークNN1は、CNNを含むものである。すなわち、第2特徴量抽出部23は、CNNを含むものである。このため、第2特徴量抽出部23は、深層学習により学習自在なものである。第1ニューラルネットワークNN1の構造については、図11~図12を参照して後述する。
特徴マップ記憶部11は、第2特徴マップ生成部32により個々の第2特徴マップFM2が生成されたとき、当該生成された第2特徴マップFM2を一時的に記憶するものである。特徴マップ記憶部11が第2特徴量抽出部23外に設けられていることにより、記憶容量の使用効率の向上を図ることができる。
物体検出部24は、第3特徴マップ生成部33により生成された複数個の第3特徴マップFM3を用いて、個々の撮像画像における個々の物体を検出するものである。より具体的には、位置推定部34が回帰(Regression)により個々の物体の位置を推定するとともに、種別推定部35が分類(Classification)により個々の物体の種別を推定するものである。すなわち、第2ニューラルネットワークNN2は、教師あり学習により学習自在なものである。換言すれば、物体検出部24は、教師あり学習により学習自在なものである。
具体的には、例えば、物体検出部24は、SSDにより個々の物体を検出する。すなわち、第2ニューラルネットワークNN2は、非特許文献1に記載されたSSDにおける「VGG-16」よりも後段のニューラルネットワークと同様のニューラルネットワークにより構成されている(非特許文献1のFig.2等参照。)。すなわち、第2ニューラルネットワークNN2は、非特許文献1に記載されたSSDにおける「Extra Feature Layers」と同様のニューラルネットワークを含むニューラルネットワークにより構成されている。かかるニューラルネットワークにより、複数回の畳み込み演算が実行される。これにより、個々の物体の位置が推定されるとともに、個々の物体の種別が推定される。
ここで、かかる複数回の畳み込み演算は、互いに異なるカーネルサイズによるものである。より具体的には、カーネルサイズが次第に小さくなるものである。これにより、撮像画像における個々の物体のサイズの変動に対応することができる。すなわち、いわゆる「マルチスケール」による物体検出を実現することができる。
図3は、種別推定部35により推定される種別の例を示している。すなわち、図3は、種別推定部35により分類されるクラスの例を示している。
図中「cars(same direction)」は、自車両の走行方向に対する同一方向に走行中の自動車を示している。図中「large vehicles(same direction)」は、自車両の走行方向に対する同一方向に走行中の大型自動車を示している。図中「motorbikes(same direction)」は、自車両の走行方向に対する同一方向に走行中の自動二輪車を示している。すなわち、これらのクラスは、自車両の走行方向に対する同一方向に走行中の他車両を示している。換言すれば、これらのクラスは、後続車両又は追越し車両を示している。
図中「cars(opposite direction)」は、自車両の走行方向に対する反対方向に走行中の自動車を示している。図中「large vehicles(opposite direction)」は、自車両の走行方向に対する反対方向に走行中の大型自動車を示している。図中「motorbikes(opposite direction)」は、自車両の走行方向に対する反対方向に走行中の自動二輪車を示している。すなわち、これらのクラスは、自車両の走行方向に対する反対方向に走行中の他車両を示している。換言すれば、これらのクラスは、対向車両を示している。
このように、種別推定部35により分類されるクラスは、個々の物体の進行方向を含むものである。すなわち、種別推定部35により推定される種別は、個々の物体の進行方向を含むものである。これにより、物体検出部24に対する後段の処理において、かかる進行方向の判定を不要とすることができる。この結果、物体検出部24に対する後段の処理における演算量を低減することができる。
図4は、実施の形態1に係る学習装置を含む学習システムの要部を示すブロック図である。図4を参照して、実施の形態1に係る学習装置を含む学習システムについて説明する。なお、図4において、図1に示すブロックと同様のブロックには同一符号を付して説明を省略する。
図4に示す如く、学習システム300は、記憶装置2、記憶装置3及び学習装置400を含むものである。記憶装置2は、特徴マップ記憶部11を有している。記憶装置3は、画像データ記憶部12を有している。学習装置400は、画像データ取得部21、第1特徴量抽出部22、第2特徴量抽出部23、物体検出部24及び学習部25を有している。記憶装置3は、メモリにより構成されている。
画像データ記憶部12は、複数個の学習用の画像(以下「学習用画像」ということがある。)を含むデータベース(以下「学習用画像データベース」という。)を記憶するものである。学習装置400における画像データ取得部21は、個々の撮像画像を示す画像データを取得するのに代えて、個々の学習用画像を示す画像データを取得するものである。
学習装置400における第1特徴量抽出部22、第2特徴量抽出部23及び物体検出部24は、物体検出装置200における第1特徴量抽出部22、第2特徴量抽出部23及び物体検出部24とそれぞれ同様のものである。このため、詳細な説明は省略する。
学習部25は、物体検出部24による検出結果に基づき、教師あり学習(より具体的には深層学習)による第2特徴量抽出部23の学習をするものである。また、学習部25は、物体検出部24による検出結果に基づき、教師あり学習による物体検出部24の学習をするものである。
すなわち、学習部25は、画像データ取得部21により取得された画像データが示す学習用画像に対応する物体検出に係る正解を示すデータ(以下「正解データ」という。)を取得する。正解データは、人(例えば物体検出装置200の製造者又は物体検出システム100を用いた役務の提供者)により予め入力されたものである。学習部25は、物体検出部24による検出結果と当該取得された正解データが示す正解とを比較する。学習部25は、かかる比較の結果に基づき、必要に応じて第1ニューラルネットワークNN1におけるパラメータを更新するとともに、必要に応じて第2ニューラルネットワークNN2におけるパラメータを更新する。かかるパラメータの更新には、公知の種々の技術を用いることができる。これらの技術についての詳細な説明は省略する。
つまり、学習部25は、画像データ取得部21による取得された画像データを入力とし、個々の撮像画像における個々の物体の検出結果を出力する学習済みのモデル(以下「機械学習モデル」という。)を生成する。機械学習モデルにおいて、複数個のパラメータセットが設定されている。個々のパラメータセットは、第1ニューラルネットワークNN1用の学習済みパラメータを含むものであり、かつ、第2ニューラルネットワークNN2用の学習済みパラメータを含むものである。
なお、個々の撮像画像における個々の物体の検出結果とは、具体的には、個々の撮像画像における個々の物体の位置の推定結果、及び、個々の物体の種別の推定結果である。機械学習モデルは、例えば、記憶装置(不図示)に記憶される。
以下、画像データ取得部21の機能に「F1」の符号を用いることがある。また、第1特徴量抽出部22の機能に「F2」の符号を用いることがある。また、第2特徴量抽出部23の機能に「F3」の符号を用いることがある。また、物体検出部24の機能に「F4」の符号を用いることがある。また、学習部25の機能に「F5」の符号を用いることがある。
以下、画像データ取得部21により実行される処理を総称して「画像データ取得処理」ということがある。また、第1特徴量抽出部22により実行される処理を総称して「第1特徴量抽出処理」ということがある。また、第2特徴量抽出部23により実行される処理を総称して「第2特徴量抽出処理」ということがある。また、物体検出部24により実行される処理を総称して「物体検出処理」ということがある。また、学習部25により実行される処理を総称して「学習処理」ということがある。
次に、図5及び図6を参照して、物体検出装置200の要部のハードウェア構成について説明する。
図5に示す如く、物体検出装置200は、プロセッサ41及びメモリ42を有している。メモリ42には、複数個の機能F1~F4に対応するプログラムが記憶されている。プロセッサ41は、メモリ42に記憶されているプログラムを読み出して実行する。これにより、複数個の機能F1~F4が実現される。
または、図6に示す如く、物体検出装置200は、処理回路43を有している。この場合、専用の処理回路43により複数個の機能F1~F4が実現される。
または、物体検出装置200は、プロセッサ41、メモリ42及び処理回路43を有している(不図示)。この場合、複数個の機能F1~F4のうちの一部の機能がプロセッサ41及びメモリ42により実現されるとともに、複数個の機能F1~F4のうちの残余の機能が専用の処理回路43により実現される。
プロセッサ41は、1個以上のプロセッサにより構成されている。個々のプロセッサは、例えば、CPU(Central Processing Unit)、GPU(Graphics Processing Unit)、マイクロプロセッサ、マイクロコントローラ又はDSP(Digital Signal Processor)を用いたものである。
メモリ42は、1個以上の不揮発性メモリにより構成されている。または、メモリ42は、1個以上の不揮発性メモリ及び1個以上の揮発性メモリにより構成されている。すなわち、メモリ42は、1個以上のメモリにより構成されている。個々のメモリは、例えば、半導体メモリ、磁気ディスク、光ディスク、光磁気ディスク又は磁気テープを用いたものである。
より具体的には、個々の揮発性メモリは、例えば、RAM(Random Access Memory)を用いたものである。また、個々の不揮発性メモリは、例えば、ROM(Read Only Memory)、フラッシュメモリ、EPROM(Erasable Programmable Read Only Memory)、EEPROM(Electrically Erasable Programmable Read Only Memory)、ソリッドステートドライブ、ハードディスクドライブ、フレキシブルディスク、コンパクトディスク、DVD(Digital Versatile Disc)、ブルーレイディスク又はミニディスクを用いたものである。
処理回路43は、1個以上のデジタル回路により構成されている。または、処理回路43は、1個以上のデジタル回路及び1個以上のアナログ回路により構成されている。すなわち、処理回路43は、1個以上の処理回路により構成されている。個々の処理回路は、例えば、ASIC(Application Specific Integrated Circuit)、PLD(Programmable Logic Device)、FPGA(Field Programmable Gate Array)、SoC(System on a Chip)又はシステムLSI(Large Scale Integration)を用いたものである。
ここで、処理回路43が複数個の処理回路により構成されているとき、複数個の機能F1~F4と複数個の処理回路との対応関係は任意である。例えば、物体検出装置200は、複数個の機能F1~F4と一対一に対応する複数個の処理回路を有するものであっても良い。この場合、複数個の機能F1~F4の各々は、複数個の処理回路のうちの対応する1個の処理回路により専ら実現されるものであっても良い。
次に、図7及び図8を参照して、学習装置400の要部のハードウェア構成について説明する。
図7に示す如く、学習装置400は、プロセッサ44及びメモリ45を有している。メモリ45には、複数個の機能F1~F5に対応するプログラムが記憶されている。プロセッサ44は、メモリ45に記憶されているプログラムを読み出して実行する。これにより、複数個の機能F1~F5が実現される。
または、図8に示す如く、学習装置400は、処理回路46を有している。この場合、専用の処理回路46により複数個の機能F1~F5が実現される。
または、学習装置400は、プロセッサ44、メモリ45及び処理回路46を有している(不図示)。この場合、複数個の機能F1~F5のうちの一部の機能がプロセッサ44及びメモリ45により実現されるとともに、複数個の機能F1~F5のうちの残余の機能が専用の処理回路46により実現される。
プロセッサ44は、1個以上のプロセッサにより構成されている。個々のプロセッサは、例えば、CPU、GPU、マイクロプロセッサ、マイクロコントローラ又はDSPを用いたものである。
メモリ45は、1個以上の不揮発性メモリにより構成されている。または、メモリ45は、1個以上の不揮発性メモリ及び1個以上の揮発性メモリにより構成されている。すなわち、メモリ45は、1個以上のメモリにより構成されている。個々のメモリは、例えば、半導体メモリ、磁気ディスク、光ディスク、光磁気ディスク又は磁気テープを用いたものである。
より具体的には、個々の揮発性メモリは、例えば、RAMを用いたものである。また、個々の不揮発性メモリは、例えば、ROM、フラッシュメモリ、EPROM、EEPROM、ソリッドステートドライブ、ハードディスクドライブ、フレキシブルディスク、コンパクトディスク、DVD、ブルーレイディスク又はミニディスクを用いたものである。
処理回路46は、1個以上のデジタル回路により構成されている。または、処理回路46は、1個以上のデジタル回路及び1個以上のアナログ回路により構成されている。すなわち、処理回路46は、1個以上の処理回路により構成されている。個々の処理回路は、例えば、ASIC、PLD、FPGA、SoC又はシステムLSIを用いたものである。
ここで、処理回路46が複数個の処理回路により構成されているとき、複数個の機能F1~F5と複数個の処理回路との対応関係は任意である。例えば、学習装置400は、複数個の機能F1~F5と一対一に対応する複数個の処理回路を有するものであっても良い。この場合、複数個の機能F1~F5の各々は、複数個の処理回路のうちの対応する1個の処理回路により専ら実現されるものであっても良い。
次に、図9のフローチャートを参照して、物体検出装置200の動作について説明する。
まず、画像データ取得部21が画像データ取得処理を実行する(ステップST1)。次いで、第1特徴量抽出部22が第1特徴量抽出処理を実行する(ステップST2)。次いで、第2特徴量抽出部23が第2特徴量抽出処理を実行する(ステップST3)。次いで、物体検出部24が物体検出処理を実行する(ステップST4)。
次に、図10のフローチャートを参照して、学習装置400の動作について説明する。
まず、画像データ取得部21が画像データ取得処理を実行する(ステップST11)。次いで、第1特徴量抽出部22が第1特徴量抽出処理を実行する(ステップST12)。次いで、第2特徴量抽出部23が第2特徴量抽出処理を実行する(ステップST13)。次いで、物体検出部24が物体検出処理を実行する(ステップST14)。次いで、学習部25が学習処理を実行する(ステップST15)。
次に、図11~図12を参照して、第1ニューラルネットワークNN1の構造について説明する。
図11に示す如く、第1ニューラルネットワークNN1は、複数個の顕著性ブロック層L1を有している。図中「Input image」は、画像データ取得部21により取得された画像データが示す撮像画像又は学習用画像を示している。図中「Saliency Map」は、第1特徴マップ生成部31により生成された第1特徴マップFM1を示している。図中「Feature Map」は、第3特徴マップ生成部33により生成される個々の第3特徴マップFM3を示している。
図12に示す如く、個々の顕著性ブロック層L1は、3×3による畳み込み層L11、BN(Batch Normalization)層L12、ELU(Exponential Linear Unit)層L13、最大プーリング層L14及び顕著性ガイド層L15を有している。
第1ニューラルネットワークNN1におけるCNNは、例えば、VGGネットワークを用いたものである。VGGネットワークはBNが追加されたものであっても良い。これに限らず、第1ニューラルネットワークNN1におけるCNNは、例えば、残差ネットワーク(Residual Network)を用いたものであっても良いし、DenseNet又はMobileNetを用いたものであっても良い。また、第1ニューラルネットワークNN1におけるCNNは、例えば、以下の参考文献2に記載された技術を用いたものであっても良い。
[参考文献2]
Mingxing Tan, Quoc Le, "EfficientNet: Rethinking Model Scaling for Convolutional Neural Networks" Proceedings of the 36th International Conference on Machine Learning, PMLR 97:6105-6114, 2019, http://proceedings.mlr.press/v97/tan19a/tan19a.pdf
図11に示したような構造を有する第1ニューラルネットワークNN1を用いることにより、顕著性ブロック層L1にて、複数個の第2特徴マップFM2のうちの対応する第2特徴マップFM2が生成されるとともに、当該生成された第2特徴マップFM2に対する重み付けがなされる。すなわち、個々の第2特徴マップFM2に対して第1特徴マップFM1を用いた足し算又は掛け算が行われ、第1特徴マップFM1による個々の第2特徴マップFM2に対する重み付けがなされる。
ここで、図13~図21は、顕著性ブロック層L1にて個々の第2特徴マップFM2に対して重み付けがなされ、第3特徴マップFM3が生成されるイメージを説明するための図である。
なお、図13~図21において、図中「Input image」は、画像データ取得部21により取得された画像データが示す撮像画像又は学習用画像を示している。実施の形態1では、上述のとおり、カメラ1は電子ミラー用のカメラにより構成され、車両に設けられているものとしているが、図13~図21では、便宜上、画像データ取得部21による取得された画像データは、例えば、海岸を撮像する監視カメラで構成されているカメラ1により撮像された画像データとしている。図中「Saliency Map」は、第1特徴マップ生成部31により生成された第1特徴マップFM1を示している。図中「Feature Map」は、第2特徴マップ生成部32により生成される個々の第2特徴マップFM2、第3特徴マップ生成部33により生成される個々の第3特徴マップFM3、又は、第4特徴マップ生成部36により生成される個々の第4特徴マップFM4を示している。
図13は、上述の<足し算による生成方法(1)>を用いて第3特徴マップFM3が生成されるイメージを説明するための図である。
図14は、上述の<掛け算による生成方法(1)>を用いて第3特徴マップFM3が生成されるイメージを説明するための図である。
図13及び図14は、例えば、一層目の顕著性ブロック層L1においてのみ、第1特徴マップFM1を用いて、複数個の第2特徴マップFM2のうちの対応する第2特徴マップFM2が生成されるとともに、当該生成された第2特徴マップFM2に対する重み付けがなされ、第3特徴マップFM3が生成されるイメージを示している。
図13及び図14に示すように、個々の第1特徴マップFM1において、検出対象となる物体(ここでは人)に対応する領域が活性化している。第1特徴マップFM1上、活性化した領域の第1特徴量には大きな値が設定されている。なお、第1特徴マップFM1においては、遠くに存在する小さい物体に対応する領域も活性化する。
第2特徴マップFM2上、例えば、遠くに存在する小さい物体は検出されず、背景となる。しかし、図13,図14に示すように、第2特徴マップFM2と第1特徴マップFM1とを足し算又は掛け算し、第1特徴量が第2特徴量に空間的に足し合わされる又は掛け合わされることで、重み付けがなされ、重要度Wが設定される。これにより、第2特徴マップFM2は、小さい物体が検出されず背景となっていたところ、小さい物体を検出することができる特徴マップとなる。
また、第2特徴マップFM2上、物体検出においては意味のない情報、不要な情報、または、冗長な情報であったとしても、特徴量としてあらわれることがある。当該特徴量は、意味のない、不要な、または、冗長な特徴量であり、学習を阻害する情報である。具体例を挙げると、例えば、人又は車両等の前景物体を学習させたいのに、海又は建物等の背景物体が多量に含まれている場合、機械学習においては、背景パターンを多く学習してしまい、前景物体の学習が阻害されることがある。
これに対し、例えば、図14に示すように、第2特徴マップFM2と第1特徴マップFM1とを掛け算し、第1特徴量が第2特徴量に空間的に掛け合わされることで、冗長な第2特徴量は切り捨てられる。なお、第1特徴マップFM1上、物体検出において意味のない第1特徴量には、例えば「0」が設定されている。「0」が掛け合わされることで、第2特徴量は「0」となる。これにより、前景物体の学習が阻害されることを防ぐことができる。
図15は、上述の<足し算による生成方法(2)>を用いて第3特徴マップFM3が生成されるイメージを説明するための図である。
図16は、上述の<掛け算による生成方法(2)>を用いて第3特徴マップFM3が生成されるイメージを説明するための図である。
図15及び図16は、例えば、一層目の顕著性ブロック層L1においてのみ、第1特徴マップFM1を用いて、複数個の第2特徴マップFM2のうちの対応する第2特徴マップFM2が生成されるとともに、当該生成された第2特徴マップFM2に対する重み付けがなされ、第3特徴マップFM3が生成されるイメージを示している。
図15及び図16に示すように、第1特徴マップFM1において、検出対象となる物体(ここでは人)に対応する領域が活性化している。当該第1特徴マップFM1から、複数個の第4特徴マップFM4が生成される。複数個の第4特徴マップFM4は、畳み込みにより生成されるため、それぞれ、特徴量の取り方の異なる特徴マップとなっている。なお、第4特徴マップ生成部36が複数個の第4特徴マップFM4を生成するために行う畳み込みの演算内容は、第2特徴量抽出部23が複数個の第2特徴マップFM2を生成する際に行う畳み込みの演算内容と同じである。
例えば、図15に示すように、個々の第4特徴マップFM4における個々の第4特徴量と、対応する第2特徴マップFM2における対応する第2特徴量とが足し合わされることで、異なるバリエーションを持つ特徴量の組み合わせでの足し算が行われることになる。これにより、図13に示すように、1個の第1特徴マップFM1を複製してそれぞれ第2特徴マップFM2に足し合わせる<足し算による生成方法(1)>と比べ、より高度な、空間的な足し算が実現できる。
また、例えば、図16に示すように、個々の第4特徴マップFM4における個々の第4特徴量と、対応する第2特徴マップFM2における対応する第2特徴量とが掛け合わされることで、異なるバリエーションを持つ特徴量の組み合わせでの掛け算が行われることになる。これにより、図14に示すように、1個の第1特徴マップFM1を複製してそれぞれ第2特徴マップFM2に掛け合わせる<掛け算による生成方法(2)>と比べ、より高度な、空間的な掛け算が実現できる。
上述のとおり、図13~図16は、個々の顕著性ブロック層L1のうち、一層目の顕著性ブロック層L1においてのみ、それぞれ、<足し算による生成方法(1)>、<掛け算による生成方法(1)>、<足し算による生成方法(2)>及び<掛け算による生成方法(2)>を用いて第3特徴マップFM3が生成されるイメージとしていた。
これに限らず、第3特徴マップFM3は、例えば、各顕著性ブロック層L1において、<足し算による生成方法(1)>、<掛け算による生成方法(1)>、<足し算による生成方法(2)>又は<掛け算による生成方法(2)>を用いて、生成されるようにしても良い。
図17は、各顕著性ブロック層L1おいて、上述の<足し算による生成方法(1)>を用いて第3特徴マップFM3が生成されるイメージを示す図である。各顕著性ブロック層L1において、図17にてイメージを示しているような第3特徴マップFM3の生成が行われる。
図18は、各顕著性ブロック層L1において、上述の<掛け算による生成方法(1)>を用いて第3特徴マップFM3が生成されるイメージを示す図である。各顕著性ブロック層L1において、図18にてイメージを示しているような第3特徴マップFM3の生成が行われる。
図19は、各顕著性ブロック層L1おいて、上述の<足し算による生成方法(2)>を用いて第3特徴マップFM3が生成されるイメージを示す図である。各顕著性ブロック層L1において、図19にてイメージを示しているような第3特徴マップFM3の生成が行われる。
図20は、各顕著性ブロック層L1において、上述の<掛け算による生成方法(2)>を用いて第3特徴マップFM3が生成されるイメージを示す図である。各顕著性ブロック層L1において、図20にてイメージを示しているような第3特徴マップFM3の生成が行われる。
図21は、上述の<足し算による生成方法(3)>を用いて第3特徴マップFM3が生成されるイメージを説明するための図である。
なお、図21は、各顕著性ブロック層L1において、上述の<足し算による生成方法(3)>によって第3特徴マップFM3が生成されるイメージを示している。
検出対象となる物体(ここでは人)に対応する領域が活性化した個々の第1特徴マップFM1は、次元方向において複数個の第2特徴マップFM2の後に足し合わされる。
<足し算による生成方法(3)>は、第2特徴量に対して第1特徴量を空間的に足すのではなく、特徴マップのバリエーションを増やすことで第2特徴マップFM2に重み付けをすることを目的とした方法である。
例えば、第1特徴マップFM1及び第2特徴マップFM2がそれぞれ500次元の特徴マップであったとする。この場合、例えば、上述の<足し算による生成方法(1)>では、生成される第3特徴マップFM3は、500次元の特徴マップであり、次元方向の数は変わらない。これに対し、<足し算による生成方法(3)>では、生成される第3特徴マップFM3は、1000次元の特徴マップとなる。すなわち、次元方向に特徴マップの数が増える。生成された1000次元の第3特徴マップFM3が次の顕著性ブロック層L1においてさらに畳み込み演算されることで、特徴量のバリエーションがさらに豊かになった第3特徴マップFM3が生成される。
次に、図22~図30を参照して、物体検出装置200の効果について説明する。
以下、SE(Squeeze-and-Excitation)ネットワークを「SENet」と記載する。また、SENetが追加されたVGG+BNを「VGG+BN+SE」と記載する。また、SENetが追加されたResNetを「ResNet+SE」と記載する。
以下、VGGによる特徴量抽出部を有し、かつ、SSDによる物体検出部を有する従来の物体検出装置(不図示)に「200’_1」の符号を用いる。また、VGG+BN+SE又はResNet+SEによる特徴量抽出部を有し、かつ、SSDによる物体検出部を有する従来の物体検出装置(不図示)に「200’_2」の符号を用いる。すなわち、これらの物体検出装置200’_1,200’_2は、物体検出装置200に対する比較対象となるものである。また、これらの物体検出装置200’_1,200’_2は、第1特徴マップ生成部31に相当する部位を有しないものであり、かつ、第3特徴マップ生成部33に相当する部位を有しないものである。
以下、個々の撮像画像における個々の物体のサイズに対する範囲について、中程度のサイズを含む範囲を「Medium」という。また、Mediumに含まれるサイズに比して小さいサイズを含む範囲を「Small」という。また、Mediumに含まれるサイズに比して大きいサイズを含む範囲を「Large」という。
具体的には、例えば、Smallは、32×32ピクセルより小さいサイズの物体を含む範囲であり、Mediumは、32×32ピクセルより大きく、96×96ピクセルより小さいサイズの物体を含む範囲であり、Largeは、96×96ピクセルよりも大きいサイズの物体を含む範囲である。
以下、例えば、CMS-DD(Camera Monitoring System Driving Dataset)によるデータセットであって、図3に示す8個のクラスのうちの2個のクラスのみを分類対象に含むデータセットを「2class」と記載する。また、例えば、CMS-DDによるデータセットであって、図3に示す8個のクラスのうちの4個のクラスのみを分類対象に含むデータセットを「4class」と記載する。また、例えば、CMS-DDによるデータセットであって、図3に示す8個のクラスを分類対象に含むデータセットを「8class」と記載する。
図22は、撮像画像の例を示している。
図23は、図22に示す撮像画像を示す画像データが物体検出装置200に入力されたとき、物体検出装置200にて生成される第1特徴マップFM1に対応するフィーチャーマップの例を示している。より具体的には、図23は、物体検出装置200にて生成される顕著性マップに対応するフィーチャーマップの例を示している。
図24は、図22に示す撮像画像を示す画像データが物体検出装置200’_2に入力されたとき、物体検出装置200’_2にて生成される複数個の特徴マップFM’のうちの1個の特徴マップFM’に対応するフィーチャーマップの例を示している。より具体的には、図24は、複数個の特徴マップFM’のうちの第1の特徴マップFM’に対応するフィーチャーマップの例を示している。
図25は、図22に示す撮像画像を示す画像データが物体検出装置200に入力されたとき、物体検出装置200にて生成される複数個の第3特徴マップFM3のうちの1個の第3特徴マップFM3に対応するフィーチャーマップの例を示している。より具体的には、図25は、複数個の第3特徴マップFM3のうちの第1の第3特徴マップFM3に対応するフィーチャーマップの例を示している。
図24に示すフィーチャーマップにおいては、検出対象となる物体(すなわち他車両)に対応する領域と異なる領域が活性化している。より具体的には、背景のうちの空に対応する領域が活性化している。これに対して、図25に示すフィーチャーマップにおいては、検出対象となる物体(すなわち他車両)に対応する領域が活性化している。これは、図23に示すフィーチャーマップに対応する顕著性マップを用いた重み付けがなされたことによるものである。
すなわち、SENetを使用した場合、大域特徴として広いエリアにて発火したフィーチャーマップがより良い特徴を得たものとして評価される。このため、実際には発火した領域の意味にまで踏み込んでいないことになる。このため、物体検出においては、顕著性のような物体由来の特徴により重み付けがなされる手法の方が優れるのである。
したがって、重み付け後の第3特徴マップFM3を物体検出に用いることにより、特徴マップFM’を物体検出に用いる場合に比して(すなわち仮に重み付け前の第1特徴マップFM1を物体検出に用いる場合に比して)、以下のような効果が得られる。
第一に、物体検出の精度を向上することができる。また、物体らしさに係るコンテクスクトが考慮されることになるため、誤検出の発生を抑制することができる。
第二に、よりシャローなCNNを用いて抽出された特徴量(すなわち第2特徴量及び第3特徴量)による物体検出を実現することができる。この結果、特徴量抽出部(すなわち第2特徴量抽出部23)における演算量を低減することができる。
第三に、よりシャローなCNNを用いることにより、プーリングによる空間的な情報の消失を抑制することができる。また、演算量の爆発的な増加を回避しつつ、個々の特徴マップ(すなわち個々の第2特徴マップFM2及び個々の第3特徴マップFM3)のサイズを大きくすることができる。この結果、小さい物体の検出を実現することができる。
特に、物体検出装置200が電子ミラーに用いられるものである場合、車載用のプロセッサ41又は処理回路43を用いることが要求される。すなわち、安価なプロセッサ41又は処理回路43を用いることが要求される。換言すれば、低い演算能力を有するプロセッサ41又は処理回路43を用いることが要求される。他方、この場合、自車両の位置に対する遠い位置を走行中の他車両等を検出する観点から、小さい物体の検出を実現することが要求される。これに対して、物体検出装置200を用いることにより、演算量を低減することができるとともに、小さい物体の検出を実現することができる。
図26は、図22に示す撮像画像に係る物体検出装置200’_2による検出結果の例を示している。これに対して、図27は、図22に示す撮像画像に係る物体検出装置200による検出結果の例を示している。図26及び図27に示す如く、物体検出装置200を用いることにより、物体検出装置200’_2を用いた場合に比して、小さい物体の検出を実現することができる。すなわち、自車両の位置に対する遠い位置を走行中の他車両等の検出を実現することができる。
図28は、2classを用いた場合における物体検出装置200及び物体検出装置200’_1の各々による検出精度に係る実験結果を示す折れ線グラフである。図29は、4classを用いた場合における物体検出装置200及び物体検出装置200’_1の各々による検出精度に係る実験結果を示す折れ線グラフである。図30は、8classを用いた場合における物体検出装置200及び物体検出装置200’_1の各々による検出精度に係る実験結果を示す折れ線グラフである。図28~図30における縦軸の数値の単位は、mAP(mean Average Precision)である。mAPは、物体がどのくらいの認識率で捉えられたかを示す精度評価指標である。なお、VGGNetにおける層数は、4に設定されている。
図28~図30では、物体検出装置200による検出精度に係る実験結果について、物体検出に用いる、重み付け後の第3特徴マップFM3がどのような方法で生成されたかに応じた実験結果を示している。
図28~図30において、「approach2(mul)」で示す各数値は、一層目の顕著性ブロック層L1においてのみ上述の<掛け算による生成方法(1)>を用いて第3特徴マップFM3が生成された場合の物体検出装置200における検出精度に係る実験結果を示している。「approach2(add)」で示す各数値は、一層目の顕著性ブロック層L1においてのみ上述の<足し算による生成方法(1)>を用いて第3特徴マップFM3が生成された場合の物体検出装置200における検出精度に係る実験結果を示している。「approach3(mul)」で示す各数値は、一層目の顕著性ブロック層L1においてのみ上述の<掛け算による生成方法(2)>を用いて第3特徴マップFM3が生成された場合の物体検出装置200における検出精度に係る実験結果を示している。「approach3(add)」で示す各数値は、一層目の顕著性ブロック層L1においてのみ上述の<足し算による生成方法(2)>を用いて第3特徴マップFM3が生成された場合の物体検出装置200における検出精度に係る実験結果を示している。「approach4」で示す各数値は、各顕著性ブロック層L1において上述の<足し算による生成方法(1)>を用いて第3特徴マップFM3が生成された場合の物体検出装置200における検出精度に係る実験結果を示している。「approach4_advance_v1」で示す各数値は、各顕著性ブロック層L1において上述の<掛け算による生成方法(1)>を用いて第3特徴マップFM3が生成された場合の物体検出装置200における検出精度に係る実験結果を示している。「approach4_advance_v2」で示す各数値は、各顕著性ブロック層L1において上述の<足し算による生成方法(2)>を用いて第3特徴マップFM3が生成された場合の物体検出装置200における検出精度に係る実験結果を示している。「approach4_advance_v3」で示す各数値は、各顕著性ブロック層L1において上述の<足し算による生成方法(3)>を用いて第3特徴マップFM3が生成された場合の物体検出装置200における検出精度に係る実験結果を示している。
また、図28~図30において、「VGG」で示す各数値は、物体検出装置200’_1における検出精度に係る実験結果を示している。
図28~図30に示す如く、物体検出装置200を用いることにより、物体検出装置200’_1を用いた場合に比して、物体に対する検出精度を向上することができる。すなわち、物体検出の精度を向上することができる。特に、Smallの評価は、低い演算能力を有するプロセッサ41又は処理回路43を用いることが要求される一方で小さい物体の検出を実現することが要求される車載用の電子ミラーでは重要となる。一般に、CNNでは、ディープなネットワーク(Deep CNNs)を用いなければ小さい物体の特徴を取得することは難しいと言われる。一方、ディープなネットワークを用いると、演算速度が爆発的に遅くなる。そのため、演算量を削減しつつ、小さな物体の検出を実現することは難易度が高い傾向にある。
物体検出装置200は、演算量を削減しつつ、小さい物体の検出に足りる特徴量を取得することができる。物体検出装置200を用いることにより、演算量を低減することができるとともに、小さい物体の検出を実現することができる。
次に、物体検出装置200の変形例について説明する。
個々の第1特徴量は、物体らしさに対応する中レベル特徴を用いたものであれば良い。すなわち、第1特徴量は、顕著性に限定されるものではない。第1特徴マップは、顕著性マップに限定されるものではない。例えば、第1特徴マップ生成部31は、個々の撮像画像に対応する距離画像又はソナー画像を用いて、深度マップ(Depth Map)を生成するものであっても良い。または、例えば、第1特徴マップ生成部31は、個々の撮像画像に対応する温度画像を用いて、熱マップ(Thermal Map)を生成するものであっても良い。すなわち、第2特徴量抽出部23における重み付けは、いわゆる「Middle-level Sensor Fusion」によるものであっても良い。
距離画像又はソナー画像は、例えば、距離センサ、ミリ波レーダ、ソナーセンサ、又は、赤外線センサから得られる。温度画像は、例えば、サーマルセンサから得られる。距離センサは、物体までの距離が正しく測定できるため、当該距離センサから得られた距離画像を用いた場合、物体らしさをあらわす第1特徴マップの精度が高くなる。ミリ波レーダは、悪天候時であっても物体までの距離を正確に測定できる。ソナーセンサ又は赤外線センサは、安価で近距離の物体位置を測定できる。サーマルセンサは、夜間の撮影に適している。
第1特徴マップ生成部31が生成する第1特徴マップは、撮像画像に基づく顕著性マップ、距離画像又はソナー画像に基づく深度マップ、及び、熱画像に基づくヒートマップのうちの少なくとも一つとすることができる。
第1特徴マップ生成部31は、例えば、距離画像、ソナー画像、又は、温度画像を用いて第1特徴マップを生成することで、上述したように、抽出する特徴に応じた第1特徴マップを生成することができるとともに、プライバシー保護の観点から匿名性の高い第1特徴マップの生成を行うことができる。
ここで、図31は、第1特徴マップ生成部31が、個々の撮像画像に対応する温度画像を用いて生成した、第1特徴マップとしての熱マップのイメージの一例を示す図である。 熱マップは、人に対応する領域が活性化するため、人を検出したい場合の第1特徴マップとして用いられるのに適している。また、温度画像を用いて生成された熱マップは、撮像画像を用いて生成された第1特徴マップと比して、より夜間の人物検出に優れる。
また、第1特徴マップ生成部31による第1特徴マップFM1の生成方法は、顕著性推定に限定されるものではない。例えば、第1特徴マップ生成部31は、顕著性推定に代えて又は加えて、画像勾配検出(Edge Detection)、物体らしさ推定(Objectness Estimation)及び領域分割(Segmentation)のうちの少なくとも一つを実行することにより第1特徴マップFM1を生成するものであっても良い。
物体検出部24における物体検出は、SSDに限定されるものではない。例えば、物体検出部24における物体検出は、RetinaNet、Mask R-CNN、YOLO又はFaster R-CNNによるものであっても良い。
また、例えば、物体検出部24における物体検出は、EfficientDet(以下の参考文献3参照)によるものであっても良い。
[参考文献3]
Mingxing Tan, Ruoming Pang, Quoc V. Le,"EfficientDet: Scalable and Efficient Object Detection"; Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR), 2020, pp. 10781-10790
物体検出装置200は、学習部25を有するものであっても良い。物体検出装置200における学習部25は、カメラ1による撮像画像を学習用画像に用いて、第2特徴量抽出部23及び物体検出部24の学習をするものであっても良い。言い換えれば、物体検出装置200における学習部25は、カメラ1による撮像画像を入力とし、撮像画像における個々の物体の検出結果を出力する機械学習モデルを生成するものであっても良い。
以上のように、実施の形態1に係る物体検出装置200は、カメラ1による撮像画像を示す画像データを取得する画像データ取得部21と、画像データを用いて第1特徴マップFM1を生成する第1特徴量抽出部22と、画像データを用いて第2特徴マップFM2を生成するとともに、当該第2特徴マップFM2に対して第1特徴マップFM1を用いた足し算又は掛け算を行って、当該第2特徴マップFM2に対する重み付けをすることにより第3特徴マップFM3を生成する第2特徴量抽出部23と、第3特徴マップFM3を用いて撮像画像における物体を検出する物体検出部24と、を備え、第1特徴マップFM1における第1特徴量は、物体らしさに対応する中レベル特徴を用いたものであり、第2特徴マップFM2における第2特徴量は、高レベル特徴を用いたものである。これにより、物体検出の精度を向上することができる。また、演算量を低減することができる。また、小さい物体の検出を実現することができる。
また、実施の形態1に係る学習装置400は、学習用画像を示す画像データを取得する画像データ取得部21と、画像データを用いて第1特徴マップFM1を生成する第1特徴量抽出部22と、画像データを用いて第2特徴マップFM2を生成するとともに、当該第2特徴マップFM2に対して第1特徴マップFM1を用いた足し算又は掛け算を行って、当該第2特徴マップFM2に対する重み付けをすることにより第3特徴マップFM3を生成する第2特徴量抽出部23と、第3特徴マップFM3を用いて学習用画像における物体を検出する物体検出部24と、物体検出部24による検出結果に応じて第2特徴量抽出部23及び物体検出部24の学習をする学習部25と、を備え、第1特徴マップFM1における第1特徴量は、物体らしさに対応する中レベル特徴を用いたものであり、第2特徴マップFM2における第2特徴量は、高レベル特徴を用いたものである。これにより、物体検出装置200用の学習装置400を実現することができる。
実施の形態2.
図32は、実施の形態2に係る物体検出装置を含む物体検出システムの要部を示すブロック図である。図32を参照して、実施の形態2に係る物体検出装置を含む物体検出システムについて説明する。なお、図32において、図1に示すブロックと同様のブロックには同一符号を付して説明を省略する。
図32に示す如く、物体検出システム100aは、カメラ1、記憶装置2、時計4、記憶装置5及び物体検出装置200aを含むものである。記憶装置2は、特徴マップ記憶部11を有している。記憶装置5は、時刻別パラメータ記憶部13を有している。物体検出装置200aは、画像データ取得部21、第1特徴量抽出部22、第2特徴量抽出部23、物体検出部24、時刻情報取得部26及びパラメータ選択部27を有している。記憶装置5は、メモリにより構成されている。
時刻情報取得部26は、時計4を用いて、時刻を示す情報(以下「時刻情報」という。)を取得するものである。時刻情報は、例えば、現在時刻を示すものである。
時刻別パラメータ記憶部13は、複数個のパラメータセットが設定された複数個の機械学習モデルを含むデータベース(以下「時刻別学習済みパラメータデータベース」という。)を記憶するものである。個々のパラメータセットは、第1ニューラルネットワークNN1用の学習済みパラメータを含むものであり、かつ、第2ニューラルネットワークNN2用の学習済みパラメータを含むものである。
ここで、時刻別学習済みパラメータデータベースに含まれる複数個のパラメータセットは、互いに異なる時間帯に対応するものである。例えば、時刻別学習済みパラメータデータベースは、昼間(daytime)に対応するパラメータセット、夕刻(evening)に対応するパラメータセット、夕闇(dusk)に対応するパラメータセット、及び夜間(night time)に対応するパラメータセットを含むものである。
パラメータ選択部27は、時刻別学習済みパラメータデータベースに含まれる複数個のパラメータセットのうち、時刻情報が示す時刻を含む時間帯に対応するパラメータセットを選択するものである。パラメータ選択部27は、当該選択されたパラメータセットを用いて、第1ニューラルネットワークNN1におけるパラメータを設定するとともに、第2ニューラルネットワークNN2におけるパラメータを設定するものである。
これにより、第2特徴量抽出部23は、パラメータ選択部27により設定されたパラメータを用いて第2特徴量抽出処理を実行するようになっている。また、物体検出部24は、パラメータ選択部27により設定されたパラメータを用いて物体検出処理を実行するようになっている。
換言すれば、第2特徴量抽出部23は、パラメータ選択部27により選択されたパラメータセットに含まれる学習済みパラメータを用いて第2特徴量抽出処理を実行するようになっている。また、物体検出部24は、パラメータ選択部27により選択されたパラメータセットに含まれる学習済みパラメータを用いて物体検出処理を実行するようになっている。
図33は、実施の形態2に係る学習装置を含む学習システムの要部を示すブロック図である。図33を参照して、実施の形態2に係る学習装置を含む学習システムについて説明する。なお、図33において、図4に示すブロックと同様のブロックには同一符号を付して説明を省略する。
図33に示す如く、学習システム300aは、記憶装置2、記憶装置3a、記憶装置5及び学習装置400を含むものである。記憶装置2は、特徴マップ記憶部11を有している。記憶装置3aは、時刻別画像データ記憶部14を有している。記憶装置5は、時刻別パラメータ記憶部13を有している。学習装置400は、画像データ取得部21、第1特徴量抽出部22、第2特徴量抽出部23、物体検出部24及び学習部25を有している。
時刻別画像データ記憶部14は、複数個の学習用画像データベースを記憶するものである。複数個の学習用画像データベースは、互いに異なる時間帯に対応するものである。例えば、複数個の学習用画像データベースは、昼間に対応する学習用画像データベース、夕刻に対応する学習用画像データベース、夕闇に対応する学習用画像データベース、及び夜間に対応する学習用画像データベースを含むものである。
すなわち、個々の学習用画像データベースに含まれる複数個の学習用画像は、対応する時間帯内の時刻にカメラ1と同様のカメラにより撮像されたものである。
学習システム300aにおいて、学習部25による第2特徴量抽出部23及び物体検出部24の学習は、個々の学習用画像データベースを用いて実行されるようになっている。すなわち、かかる学習は、学習用画像データベース毎に実行されるようになっている。これにより、互いに異なる時間帯に対応する複数個のパラメータセットが設定された複数個の機械学習モデルが生成される。学習部25は、当該生成された複数個のパラメータセットが設定された複数個の機械学習モデルを時刻別パラメータ記憶部13に記憶させる。これにより、時刻別学習済みパラメータデータベースが生成される。
以下、時刻情報取得部26の機能に「F6」の符号を用いることがある。また、パラメータ選択部27の機能に「F7」の符号を用いることがある。
以下、時刻情報取得部26により実行される処理を総称して「時刻情報取得処理」ということがある。また、パラメータ選択部27により実行される処理を総称して「パラメータ選択処理」ということがある。
物体検出装置200aの要部のハードウェア構成は、実施の形態1にて図5及び図6を参照して説明したものと同様である。このため、図示及び説明を省略する。すなわち、物体検出装置200aは、複数個の機能F1~F4,F6,F7を有している。複数個の機能F1~F4,F6,F7の各々は、プロセッサ41及びメモリ42により実現されるものであっても良く、又は専用の処理回路43により実現されるものであっても良い。また、処理回路43は、複数個の機能F1~F4,F6,F7に対応する複数個の処理回路を含むものであっても良い。
学習装置400の要部のハードウェア構成は、実施の形態1にて図7及び図8を参照して説明したものと同様である。このため、図示及び説明を省略する。
次に、図34のフローチャートを参照して、物体検出装置200aの動作について説明する。なお、図34において、図9に示すステップと同様のステップには同一符号を付して説明を省略する。
まず、時刻情報取得部26が時刻情報取得処理を実行する(ステップST5)。次いで、パラメータ選択部27がパラメータ選択処理を実行する(ステップST6)。次いで、ステップST1~ST4の処理が実行される。
学習装置400の動作は、実施の形態1にて図10のフローチャートを参照して説明したものと同様である。このため、図示及び説明を省略する。
このように、時刻別学習用画像データベースを学習に用いるとともに、時刻別学習済みパラメータデータベースを推論に用いることにより、物体検出の精度を更に向上することができる。すなわち、適切なネットワーク自由度(Network Flexibility)を実現することができる。
なお、物体検出装置200aは、実施の形態1にて説明したものと同様の種々の変形例を採用することができる。
以上のように、実施の形態2に係る物体検出装置200aは、時刻情報を取得する時刻情報取得部26と、時刻別学習済みパラメータデータベースに含まれるパラメータセットのうちの時刻情報が示す時刻に対応するパラメータセットを選択するパラメータ選択部27と、を備え、第2特徴量抽出部23は、パラメータ選択部27により選択されたパラメータセットに含まれる学習済みパラメータを用いて第2特徴マップFM2及び第3特徴マップFM3を生成する。これにより、物体検出の精度を更に向上することができる。
実施の形態3.
図35は、実施の形態3に係る物体検出装置を含む物体検出システムの要部を示すブロック図である。図35を参照して、実施の形態3に係る物体検出装置を含む物体検出システムについて説明する。なお、図35において、図1に示すブロックと同様のブロックには同一符号を付して説明を省略する。
図35に示す如く、物体検出システム100bは、カメラ1、記憶装置2、ロケータ6、記憶装置7及び物体検出装置200bを含むものである。記憶装置2は、特徴マップ記憶部11を有している。記憶装置7は、場所別パラメータ記憶部15を有している。物体検出装置200bは、画像データ取得部21、第1特徴量抽出部22、第2特徴量抽出部23、物体検出部24、場所情報取得部28及びパラメータ選択部29を有している。記憶装置7は、メモリにより構成されている。
場所情報取得部28は、ロケータ6を用いて、場所を示す情報(以下「場所情報」という。)を取得するものである。より具体的には、場所情報は、自車両の現在位置に対応する場所の種別を示すものである。例えば、場所情報は、自車両の現在位置に対応する場所が都市圏(urban area)、幹線道路(highway)及び郊外(suburbs)のうちのいずれであるかを示すものである。
場所別パラメータ記憶部15は、複数個のパラメータセットが設定された複数個の機械学習モデルを含むデータベース(以下「場所別学習済みパラメータデータベース」という。)を記憶するものである。個々のパラメータセットは、第1ニューラルネットワークNN1用の学習済みパラメータを含むものであり、かつ、第2ニューラルネットワークNN2用の学習済みパラメータを含むものである。
ここで、場所別学習済みパラメータデータベースに含まれる複数個のパラメータセットは、互いに異なる場所に対応するものである。例えば、場所別学習済みパラメータデータベースは、首都圏に対応するパラメータセット、幹線道路に対応するパラメータセット、及び郊外に対応するパラメータセットを含むものである。
パラメータ選択部29は、場所別学習済みパラメータデータベースに含まれる複数個のパラメータセットのうち、場所情報が示す場所に対応するパラメータセットを選択するものである。パラメータ選択部29は、当該選択されたパラメータセットを用いて、第1ニューラルネットワークNN1におけるパラメータを設定するとともに、第2ニューラルネットワークNN2におけるパラメータを設定するものである。
これにより、第2特徴量抽出部23は、パラメータ選択部29により設定されたパラメータを用いて第2特徴量抽出処理を実行するようになっている。また、物体検出部24は、パラメータ選択部29により設定されたパラメータを用いて物体検出処理を実行するようになっている。
換言すれば、第2特徴量抽出部23は、パラメータ選択部29により選択されたパラメータセットに含まれる学習済みパラメータを用いて第2特徴量抽出処理を実行するようになっている。また、物体検出部24は、パラメータ選択部29により選択されたパラメータセットに含まれる学習済みパラメータを用いて物体検出処理を実行するようになっている。
図36は、実施の形態3に係る学習装置を含む学習システムの要部を示すブロック図である。図36を参照して、実施の形態3に係る学習装置を含む学習システムについて説明する。なお、図36において、図4に示すブロックと同様のブロックには同一符号を付して説明を省略する。
図36に示す如く、学習システム300bは、記憶装置2、記憶装置3b、記憶装置7及び学習装置400を含むものである。記憶装置2は、特徴マップ記憶部11を有している。記憶装置3bは、場所別画像データ記憶部16を有している。記憶装置7は、場所別パラメータ記憶部15を有している。学習装置400は、画像データ取得部21、第1特徴量抽出部22、第2特徴量抽出部23、物体検出部24及び学習部25を有している。
場所別画像データ記憶部16は、複数個の学習用画像データベースを記憶するものである。複数個の学習用画像データベースは、互いに異なる場所に対応するものである。例えば、複数個の学習用画像データベースは、都市圏に対応する学習用画像データベース、幹線道路に対応する学習用画像データベース、及び郊外に対応する学習用画像データベースを含むものである。
すなわち、個々の学習用画像データベースに含まれる複数個の学習用画像は、対応する場所にてカメラ1と同様のカメラにより撮像されたものである。
学習システム300bにおいて、学習部25による第2特徴量抽出部23及び物体検出部24の学習は、個々の学習用画像データベースを用いて実行されるようになっている。すなわち、かかる学習は、学習用画像データベース毎に実行されるようになっている。これにより、互いに異なる場所に対応する複数個のパラメータセットが生成される。学習部25は、当該生成された複数個のパラメータセットを場所別パラメータ記憶部15に記憶させる。これにより、場所別学習済みパラメータデータベースが生成される。
以下、場所情報取得部28の機能に「F8」の符号を用いることがある。また、パラメータ選択部29の機能に「F9」の符号を用いることがある。
以下、場所情報取得部28により実行される処理を総称して「場所情報取得処理」ということがある。また、パラメータ選択部29により実行される処理を総称して「パラメータ選択処理」ということがある。
物体検出装置200bの要部のハードウェア構成は、実施の形態1にて図5及び図6を参照して説明したものと同様である。このため、図示及び説明を省略する。すなわち、物体検出装置200bは、複数個の機能F1~F4,F8,F9を有している。複数個の機能F1~F4,F8,F9の各々は、プロセッサ41及びメモリ42により実現されるものであっても良く、又は専用の処理回路43により実現されるものであっても良い。また、処理回路43は、複数個の機能F1~F4,F8,F9に対応する複数個の処理回路を含むものであっても良い。
学習装置400の要部のハードウェア構成は、実施の形態1にて図7及び図8を参照して説明したものと同様である。このため、図示及び説明を省略する。
次に、図37のフローチャートを参照して、物体検出装置200bの動作について説明する。なお、図37において、図9に示すステップと同様のステップには同一符号を付して説明を省略する。
まず、場所情報取得部28が場所情報取得処理を実行する(ステップST7)。次いで、パラメータ選択部29がパラメータ選択処理を実行する(ステップST8)。次いで、ステップST1~ST4の処理が実行される。
学習装置400の動作は、実施の形態1にて図10を参照して説明したものと同様である。このため、図示及び説明を省略する。
このように、場所別学習用画像データベースを学習に用いるとともに、場所別学習済みパラメータデータベースを推論に用いることにより、物体検出の精度を更に向上することができる。すなわち、適切なネットワーク自由度を実現することができる。
なお、物体検出装置200bは、実施の形態1にて説明したものと同様の種々の変形例を採用することができる。
以上のように、実施の形態3に係る物体検出装置200bは、場所情報を取得する場所情報取得部28と、場所別学習済みパラメータデータベースに含まれるパラメータセットのうちの場所情報が示す場所に対応するパラメータセットを選択するパラメータ選択部29と、を備え、第2特徴量抽出部23は、パラメータ選択部29により選択されたパラメータセットに含まれる学習済みパラメータを用いて第2特徴マップFM2及び第3特徴マップFM3を生成する。これにより、物体検出の精度を更に向上することができる。
実施の形態4.
図38は、実施の形態4に係るモニタリング装置を含むモニタリングシステムの要部を示すブロック図である。図39は、実施の形態4に係るモニタリング装置における解析部及び出力制御部の要部を示すブロック図である。図38及び図39を参照して、実施の形態4に係るモニタリング装置を含むモニタリングシステムについて説明する。なお、図38において、図1に示すブロックと同様のブロックには同一符号を付して説明を省略する。
図38に示す如く、モニタリングシステム500は、カメラ1、記憶装置2、出力装置8及びモニタリング装置600を含むものである。モニタリング装置600は、物体検出装置200、解析部51及び出力制御部52を有している。
図39に示す如く、解析部51は、異常判定部61、時間解析部62、脅威判定部63及び空間解析部64を有している。出力制御部52は、画像出力制御部65及び音声出力制御部66を有している。出力装置8は、ディスプレイ71及びスピーカ72を含むものである。
実施の形態1にて説明したとおり、カメラ1は、例えば、監視カメラ、防犯カメラ又は電子ミラー用のカメラにより構成されている。ここで、カメラ1が電子ミラー用のカメラにより構成されている場合、ディスプレイ71は、電子ミラー用のディスプレイにより構成されている。すなわち、この場合、カメラ1及びディスプレイ71により、電子ミラーの要部が構成されている。以下、この場合の例を中心に説明する。
異常判定部61は、物体検出部24による検出結果を用いて、個々の物体の異常度Aを判定するものである。より具体的には、異常判定部61は、位置推定部34による推定結果を用いて、個々の物体の位置に基づき異常度Aを判定するものである。
例えば、物体検出部24により他車両が検出された場合において、かかる他車両が正常な位置(例えば所定値以上の車間距離に対応する位置)に位置しているときは、かかる他車両が異常な位置(例えば所定値未満の車間距離に対応する位置)に位置しているときに比して、異常度Aが小さい値に設定される。他方、この場合において、かかる他車両が異常な位置(同上)に位置しているときは、かかる他車両が正常な位置(同上)に位置しているときに比して、異常度Aが大きい値に設定される。
時間解析部62は、物体検出部24による検出結果を時間的に解析するものである。すなわち、時間解析部62は、時間的に連続する複数個の撮像画像に対応する複数回分の物体検出処理の結果を時間的に解析するものである。換言すれば、時間解析部62は、複数フレーム分の物体検出処理の結果を時間的に解析するものである。これにより、時間解析部62は、カメラ1により撮像された動画における個々の物体のサイズの時間変化量ΔSを算出するものである。
具体的には、例えば、時間解析部62は、個々の物体に対応するバウンディングボックスの単位時間当たりの膨張率を算出する。時間解析部62は、当該算出された膨張率を積算することにより時間変化量ΔSを算出する。
脅威判定部63は、物体検出部24による検出結果を用いて、個々の物体の脅威度Tを判定するものである。より具体的には、脅威判定部63は、種別推定部35による推定結果を用いて、個々の物体の進行方向に基づき脅威度Tを判定するものである。
すなわち、実施の形態1にて説明したとおり、種別推定部35により分類されるクラスは、物体の進行方向を含むものである。そこで、例えば、物体検出部24により他車両が検出された場合において、かかる他車両が後続車両又は追越し車両であるときは、かかる他車両が対向車両であるときに比して、脅威度Tが大きい値に設定される。他方、この場合において、かかる他車両が対向車両であるときは、かかる車両が後続車両又は追越し車両であるときに比して、脅威度Tが小さい値に設定される。
また、脅威判定部63は、時間解析部62による解析結果を用いて、個々の物体の脅威度Tを判定するものである。
すなわち、脅威判定部63は、個々の物体について、以下のような演算を実行する。脅威判定部63は、時間解析部62により時間変化量ΔSが算出される毎に、当該算出された時間変化量ΔSを閾値ΔSthと比較する。かかる時間変化量ΔSが閾値ΔSthを超えているときは、かかる時間変化量ΔSが閾値ΔSth以下であるときに比して、脅威度Tが大きい値に設定される。他方、かかる時間変化量ΔSが閾値ΔSth以下であるときは、かかる時間変化量ΔSが閾値ΔSthを超えているときに比して、脅威度Tが小さい値に設定される。このとき、閾値ΔSthは、対応する物体について過去に算出された時間変化量ΔSの平均値ΔS_aveに基づく値に設定される。
空間解析部64は、異常判定部61による判定結果及び脅威判定部63による判定結果を空間的に解析することにより、リスクマップを生成するものである。リスクマップは、二次元状に配列された複数個のリスク値により構成されている。個々のリスク値は、対応する異常度Aによる重み付けがなされた値であり、かつ、対応する脅威度Tによる重み付けがなされた値である。
このように、解析部51は、物体検出部24による検出結果を解析するものである。
画像出力制御部65は、解析部51による解析結果に対応する画像信号をディスプレイ71に出力するものである。これにより、画像出力制御部65は、解析部51による解析結果に対応する画像をディスプレイ71に表示させる制御を実行するものである。また、音声出力制御部66は、解析部51による解析結果に対応する音声信号をスピーカ72に出力するものである。これにより、音声出力制御部66は、解析部51による解析結果に対応する音声をスピーカ72に出力させる制御を実行するものである。
このように、出力制御部52は、解析部51による解析結果に対応する信号を出力装置8に出力するものである。以下、出力制御部52により出力される信号を総称して「解析結果信号」ということがある。
ここで、画像出力制御部65により出力される画像信号は、空間解析部64により生成されたリスクマップを含む画像(以下「リスクマップ画像」という。)を示すものであっても良い。これにより、リスクマップ画像がディスプレイ71に表示されるものであっても良い。
図40は、リスクマップ画像の例を示している。図40に示すリスクマップ画像に対応するリスクマップにおいては、2個の領域A1,A2におけるリスク値が他の領域におけるリスク値に比して高い値に設定されている。これにより、図40に示すリスクマップ画像においては、2個の領域A1,A2における色が他の領域における色と異なる色により表示されている。2個の領域A1,A2は、例えば、2台の他車両にそれぞれ対応するものである。
このように、リスクマップ画像においては、リスクマップにおける個々のリスク値が可視化されている。ディスプレイ71がリスクマップ画像を表示することにより、かかるリスク値を自車両の搭乗者に対して視覚的に提示することができる。
以下、解析部51の機能に「F11」の符号を用いることがある。また、出力制御部52の機能に「F12」の符号を用いることがある。
以下、物体検出装置200により実行される処理を総称して「物体検出処理等」ということがある。すなわち、物体検出処理等は、画像データ取得処理、第1特徴量抽出処理、第2特徴量抽出処理及び物体検出処理を含むものである。また、解析部51により実行される処理を総称して「解析処理」ということがある。また、出力制御部52により実行される処理及び制御を総称して「出力制御」ということがある。
次に、図41及び図42を参照して、モニタリング装置600の要部のハードウェア構成について説明する。
図41に示す如く、モニタリング装置600は、プロセッサ81及びメモリ82を有している。メモリ82には、複数個の機能F1~F4,F11,F12に対応するプログラムが記憶されている。プロセッサ81は、メモリ82に記憶されているプログラムを読み出して実行する。これにより、複数個の機能F1~F4,F11,F12が実現される。
または、図42に示す如く、モニタリング装置600は、処理回路83を有している。この場合、専用の処理回路83により複数個の機能F1~F4,F11,F12が実現される。
または、モニタリング装置600は、プロセッサ81、メモリ82及び処理回路83を有している(不図示)。この場合、複数個の機能F1~F4,F11,F12のうちの一部の機能がプロセッサ81及びメモリ82により実現されるとともに、複数個の機能F1~F4,F11,F12のうちの残余の機能が専用の処理回路83により実現される。
プロセッサ81は、1個以上のプロセッサにより構成されている。個々のプロセッサは、例えば、CPU、GPU、マイクロプロセッサ、マイクロコントローラ又はDSPを用いたものである。
メモリ82は、1個以上の不揮発性メモリにより構成されている。または、メモリ82は、1個以上の不揮発性メモリ及び1個以上の揮発性メモリにより構成されている。すなわち、メモリ82は、1個以上のメモリにより構成されている。個々のメモリは、例えば、半導体メモリ、磁気ディスク、光ディスク、光磁気ディスク又は磁気テープを用いたものである。
より具体的には、個々の揮発性メモリは、例えば、RAMを用いたものである。また、個々の不揮発性メモリは、例えば、ROM、フラッシュメモリ、EPROM、EEPROM、ソリッドステートドライブ、ハードディスクドライブ、フレキシブルディスク、コンパクトディスク、DVD、ブルーレイディスク又はミニディスクを用いたものである。
処理回路83は、1個以上のデジタル回路により構成されている。または、処理回路83は、1個以上のデジタル回路及び1個以上のアナログ回路により構成されている。すなわち、処理回路83は、1個以上の処理回路により構成されている。個々の処理回路は、例えば、ASIC、PLD、FPGA、SoC又はシステムLSIを用いたものである。
ここで、処理回路83が複数個の処理回路により構成されているとき、複数個の機能F1~F4,F11,F12と複数個の処理回路との対応関係は任意である。例えば、モニタリング装置600は、複数個の機能F1~F4,F11,F12と一対一に対応する複数個の処理回路を有するものであっても良い。この場合、複数個の機能F1~F4,F11,F12の各々は、複数個の処理回路のうちの対応する1個の処理回路により専ら実現されるものであっても良い。
次に、図43のフローチャートを参照して、モニタリング装置600の動作について説明する。
まず、物体検出装置200が物体検出処理等を実行する(ステップST21)。次いで、解析部51が解析処理を実行する(ステップST22)。次いで、出力制御部52が出力制御を実行する(ステップST23)。
次に、図44及び図45を参照して、モニタリングシステム500の変形例について説明する。
図44に示す如く、モニタリング装置600は、物体検出装置200に代えて物体検出装置200aを有するものであっても良い。この場合、モニタリングシステム500は、時計4及び記憶装置5を含むものであっても良い。
または、図45に示す如く、モニタリング装置600は、物体検出装置200に代えて物体検出装置200bを有するものであっても良い。この場合、モニタリングシステム500は、ロケータ6及び記憶装置7を含むものであっても良い。
次に、モニタリング装置600の変形例について説明する。
解析部51は、異常判定部61及び脅威判定部63のうちのいずれか一方のみを有するものであっても良い。解析部51が異常判定部61のみを有するものである場合、リスクマップにおける個々のリスク値は、対応する異常度Aによる重み付けがなされた値となる。他方、解析部51が脅威判定部63のみを有するものである場合、リスクマップにおける個々のリスク値は、対応する脅威度Tによる重み付けがなされた値となる。
脅威判定部63は、種別推定部35による推定結果に基づく脅威度Tの判定、及び時間解析部62による解析結果に基づく脅威度Tの判定のうちのいずれか一方にのみを実行するものであっても良い。
出力制御部52は、画像出力制御部65及び音声出力制御部66のうちのいずれか一方のみを有するものであっても良い。出力制御部52が画像出力制御部65のみを有するものである場合、出力装置8は、ディスプレイ71及びスピーカ72のうちのディスプレイ71のみを含むものであっても良い。他方、出力制御部52が音声出力制御部66のみを有するものである場合、出力装置8は、ディスプレイ71及びスピーカ72のうちのスピーカ72のみを含むものであっても良い。
次に、モニタリング装置600における物体検出装置200、物体検出装置200a又は物体検出装置200bの変形例について説明する。
上記のとおり、時間解析部62は、物体検出部24による検出結果を時間的に解析するものである。かかる解析に対応する観点から、モニタリング装置600における物体検出装置200、物体検出装置200a又は物体検出装置200bは、以下のように構成されたものであっても良い。
画像データ取得部21は、時間的に連続する複数個の撮像画像(すなわち複数フレーム分の静止画)に対応する画像データを取得するものであっても良い。すなわち、画像データ取得部21は、時系列データを取得するものであっても良い。
第1特徴量抽出部22は、上記取得された時系列データを用いて、時間的な情報を含む特徴マップ(すなわち第1特徴マップFM1)を生成するものであっても良い。また、第2特徴量抽出部23は、上記取得された時系列データを用いて、時間的な情報を含む特徴マップ(すなわち個々の第2特徴マップFM2及び個々の第3特徴マップFM3)を生成するものであっても良い。
これにより、時間解析部62による時間的な解析に対応することができるのはもちろんのこと、いわゆる「検出ぶれ」の発生を抑制することができる。すなわち、ある物体について、当該物体が検出される状態と当該物体が検出されない状態とが時間的に交互に繰り返される現象の発生を抑制することができる。
また、第1ニューラルネットワークNN1は、上記取得された時系列データを時系列的に処理する構造を有するものであっても良い。例えば、第1ニューラルネットワークNN1におけるCNNは、LSTM(Long Short Term Memory)ネットワークを用いたものであっても良い。
以上のように、実施の形態4に係るモニタリング装置600は、物体検出装置200、物体検出装置200a又は物体検出装置200bと、物体検出部24による検出結果を解析する解析部51と、解析部51による解析結果に対応する解析結果信号を出力する出力制御部52と、を備える。これにより、高精度な物体検出の結果に基づくモニタリングを実現することができる。
なお、本願開示はその開示の範囲内において、各実施の形態の自由な組み合わせ、あるいは各実施の形態の任意の構成要素の変形、もしくは各実施の形態において任意の構成要素の省略が可能である。
本開示に係る物体検出装置、モニタリング装置及び学習装置は、例えば、電子ミラーに用いることができる。
1 カメラ、2 記憶装置、3,3a,3b 記憶装置、4 時計、5 記憶装置、6 ロケータ、7 記憶装置、8 出力装置、11 特徴マップ記憶部、12 画像データ記憶部、13 時刻別パラメータ記憶部、14 時刻別画像データ記憶部、15 場所別パラメータ記憶部、16 場所別画像データ記憶部、21 画像データ取得部、22 第1特徴量抽出部、23 第2特徴量抽出部、24 物体検出部、25 学習部、26 時刻情報取得部、27 パラメータ選択部、28 場所情報取得部、29 パラメータ選択部、31 第1特徴マップ生成部、32 第2特徴マップ生成部、33 第3特徴マップ生成部、34 位置推定部、35 種別推定部、36 第4特徴マップ生成部、41 プロセッサ、42 メモリ、43 処理回路、44 プロセッサ、45 メモリ、46 処理回路、51 解析部、52 出力制御部、61 異常判定部、62 時間解析部、63 脅威判定部、64 空間解析部、65 画像出力制御部、66 音声出力制御部、71 ディスプレイ、72 スピーカ、81 プロセッサ、82 メモリ、83 処理回路、100,100a,100b 物体検出システム、200,200a,200b 物体検出装置、300,300a,300b 学習システム、400 学習装置、500 モニタリングシステム、600 モニタリング装置。

Claims (29)

  1. カメラによる撮像画像を示す画像データを取得する画像データ取得部と、
    前記画像データを用いて第1特徴マップを生成する第1特徴量抽出部と、
    前記画像データを用いて第2特徴マップを生成するとともに、当該第2特徴マップに対して前記第1特徴マップを用いた足し算又は掛け算を行って、当該第2特徴マップに対する重み付けをすることにより第3特徴マップを生成する第2特徴量抽出部と、
    前記第3特徴マップを用いて前記撮像画像における物体を検出する物体検出部と、を備え、
    前記第1特徴マップにおける第1特徴量は、物体らしさに対応する中レベル特徴を用いたものであり、
    前記第2特徴マップにおける第2特徴量は、高レベル特徴を用いたものである
    ことを特徴とする物体検出装置。
  2. 前記第2特徴量抽出部は、前記第1特徴マップにおける個々の前記第1特徴量を個々の前記第2特徴マップにおける対応する前記第2特徴量に足し合わせる足し算を行って、前記重み付けを行う
    ことを特徴とする請求項1記載の物体検出装置。
  3. 前記第2特徴量抽出部は、前記第1特徴マップにおける個々の前記第1特徴量を、個々の前記第2特徴マップにおける対応する前記第2特徴量に掛ける掛け算を行って、前記重み付けを行う
    ことを特徴とする請求項1記載の物体検出装置。
  4. 前記第1特徴量抽出部は、前記第1特徴マップから、それぞれ異なる第4特徴量により構成される複数の第4特徴マップを生成し、
    前記第2特徴量抽出部は、前記第4特徴マップにおける個々の前記第4特徴量を前記第4特徴マップに対応する前記第2特徴マップにおける対応する前記第2特徴量に足し合わせる足し算を行って、前記重み付けを行う
    ことを特徴とする請求項1記載の物体検出装置。
  5. 前記第1特徴量抽出部は、前記第1特徴マップから、それぞれ異なる第4特徴量により構成される複数の第4特徴マップを生成し、
    前記第2特徴量抽出部は、前記第4特徴マップにおける個々の前記第4特徴量を前記第4特徴マップに対応する前記第2特徴マップにおける対応する前記第2特徴量に掛ける掛け算を行って、前記重み付けを行う
    ことを特徴とする請求項1記載の物体検出装置。
  6. 前記第2特徴量抽出部は、前記第1特徴マップを前記第2特徴マップの次元方向に足し合わせる足し算を行って、前記重み付けを行う
    ことを特徴とする請求項1記載の物体検出装置。
  7. 前記第1特徴量抽出部は、教師なし学習により学習自在であることを特徴とする請求項1記載の物体検出装置。
  8. 前記第2特徴量抽出部は、教師あり学習により学習自在であることを特徴とする請求項1記載の物体検出装置。
  9. 前記第2特徴量抽出部は、畳み込みニューラルネットワークを用いて前記第2特徴マップを生成することを特徴とする請求項8記載の物体検出装置。
  10. 前記第2特徴量抽出部は、深層学習により学習自在であることを特徴とする請求項9記載の物体検出装置。
  11. 前記第1特徴量抽出部が生成する前記第1特徴マップは、前記画像データとしての前記撮像画像に基づく顕著性マップ、前記画像データとしての距離画像又はソナー画像に基づく深度マップ、及び、前記画像データとしての熱画像に基づくヒートマップのうちの少なくとも一つであることを特徴とする請求項7記載の物体検出装置。
  12. 前記第2特徴量抽出部は、構造的類似性及び画像類似度相関のうち少なくとも一つに基づいて前記重み付けにおける重要度を設定する
    ことを特徴とする請求項2から請求項5のうちのいずれか1項記載の物体検出装置。
  13. 前記重み付けがなされることにより、個々の前記第2特徴マップにおける個々の前記第2特徴量が対応する前記物体らしさに応じて補強されるものであることを特徴とする請求項1記載の物体検出装置。
  14. 前記物体検出部は、互いに異なるカーネルサイズによる複数回の畳み込み演算を実行することにより前記物体を検出することを特徴とする請求項1記載の物体検出装置。
  15. 前記物体検出部は、教師あり学習により学習自在であることを特徴とする請求項1記載の物体検出装置。
  16. 前記物体検出部は、回帰により前記物体の位置を推定するとともに、分類により前記物体の種別を推定することを特徴とする請求項15記載の物体検出装置。
  17. 前記物体の種別は、前記物体の進行方向を含むことを特徴とする請求項16記載の物体検出装置。
  18. 時刻情報を取得する時刻情報取得部と、
    時刻別学習済みパラメータデータベースに含まれるパラメータセットのうちの前記時刻情報が示す時刻に対応するパラメータセットを選択するパラメータ選択部と、を備え、
    前記第2特徴量抽出部は、前記パラメータ選択部により選択されたパラメータセットに含まれる学習済みパラメータを用いて前記第2特徴マップ及び前記第3特徴マップを生成する
    ことを特徴とする請求項8記載の物体検出装置。
  19. 場所情報を取得する場所情報取得部と、
    場所別学習済みパラメータデータベースに含まれるパラメータセットのうちの前記場所情報が示す場所に対応するパラメータセットを選択するパラメータ選択部と、を備え、
    前記第2特徴量抽出部は、前記パラメータ選択部により選択されたパラメータセットに含まれる学習済みパラメータを用いて前記第2特徴マップ及び前記第3特徴マップを生成する
    ことを特徴とする請求項8記載の物体検出装置。
  20. 請求項1記載の物体検出装置と、
    前記物体検出部による検出結果を解析する解析部と、
    前記解析部による解析結果に対応する解析結果信号を出力する出力制御部と、
    を備えるモニタリング装置。
  21. 前記解析部は、前記物体の異常度を判定する異常判定部及び前記物体の脅威度を判定する脅威判定部のうちの少なくとも一方を有することを特徴とする請求項20記載のモニタリング装置。
  22. 前記異常判定部は、前記物体検出部による検出結果が示す前記物体の位置に基づき前記異常度を判定することを特徴とする請求項21記載のモニタリング装置。
  23. 前記脅威判定部は、前記物体検出部による検出結果が示す前記物体の進行方向に基づき前記脅威度を判定することを特徴とする請求項21記載のモニタリング装置。
  24. 前記脅威判定部は、前記撮像画像における前記物体のサイズの時間変化量に基づき前記脅威度を判定することを特徴とする請求項21記載のモニタリング装置。
  25. 前記解析部は、前記物体検出部による検出結果を時間的に解析することにより前記時間変化量を算出する時間解析部を有することを特徴とする請求項24記載のモニタリング装置。
  26. 前記解析部は、前記異常判定部による判定結果及び前記脅威判定部による判定結果のうちの少なくとも一方を空間的に解析することによりリスクマップを生成する空間解析部を有することを特徴とする請求項21記載のモニタリング装置。
  27. 前記出力制御部は、前記解析結果信号をディスプレイに出力することにより、前記リスクマップに対応するリスクマップ画像を前記ディスプレイに表示させることを特徴とする請求項26記載のモニタリング装置。
  28. 学習用画像を示す画像データを取得する画像データ取得部と、
    前記画像データを用いて第1特徴マップを生成する第1特徴量抽出部と、
    前記画像データを用いて第2特徴マップを生成するとともに、当該第2特徴マップに対して前記第1特徴マップを用いた足し算又は掛け算を行って当該第2特徴マップに対する重み付けをすることにより第3特徴マップを生成する第2特徴量抽出部と、
    前記第3特徴マップを用いて前記学習用画像における物体を検出する物体検出部と、
    前記物体検出部による検出結果に応じて前記第2特徴量抽出部及び前記物体検出部の学習をする学習部と、を備え、
    前記第1特徴マップにおける第1特徴量は、物体らしさに対応する中レベル特徴を用いたものであり、
    前記第2特徴マップにおける第2特徴量は、高レベル特徴を用いたものである
    ことを特徴とする学習装置。
  29. 画像データ取得部が、学習用画像を示す画像データを取得するステップと、
    第1特徴量抽出部が、前記画像データを用いて第1特徴マップを生成するステップと、
    第2特徴量抽出部が、前記画像データを用いて第2特徴マップを生成するとともに、当該第2特徴マップに対して前記第1特徴マップを用いた演算を行って当該第2特徴マップに対する重み付けをすることにより第3特徴マップを生成するステップと、
    物体検出部が、前記第3特徴マップを用いて前記学習用画像における物体を検出するステップと、
    学習部が、前記物体検出部による検出結果に応じて前記第2特徴量抽出部及び前記物体検出部の学習をして、前記画像データを入力とし前記物体の検出結果を出力する機械学習モデルを生成するステップとを備え、
    前記第1特徴マップにおける第1特徴量は、物体らしさに対応する中レベル特徴を用いたものであり、
    前記第2特徴マップにおける第2特徴量は、高レベル特徴を用いたものである
    ことを特徴とするモデル生成方法。
JP2022570922A 2020-12-25 2020-12-25 物体検出装置、モニタリング装置、学習装置、及び、モデル生成方法 Active JP7361949B2 (ja)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/JP2020/048617 WO2022137476A1 (ja) 2020-12-25 2020-12-25 物体検出装置、モニタリング装置、学習装置、及び、モデル生成方法

Publications (3)

Publication Number Publication Date
JPWO2022137476A1 JPWO2022137476A1 (ja) 2022-06-30
JPWO2022137476A5 JPWO2022137476A5 (ja) 2023-03-29
JP7361949B2 true JP7361949B2 (ja) 2023-10-16

Family

ID=82157437

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2022570922A Active JP7361949B2 (ja) 2020-12-25 2020-12-25 物体検出装置、モニタリング装置、学習装置、及び、モデル生成方法

Country Status (5)

Country Link
US (1) US20230410532A1 (ja)
EP (1) EP4270301A4 (ja)
JP (1) JP7361949B2 (ja)
CN (1) CN116686001A (ja)
WO (1) WO2022137476A1 (ja)

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2018147431A (ja) 2017-03-09 2018-09-20 コニカミノルタ株式会社 画像認識装置及び画像認識方法
JP2020047270A (ja) 2018-09-17 2020-03-26 株式会社ストラドビジョン マルチフィーディングを適用した学習方法及び学習装置並びにそれを利用したテスト方法及びテスト装置
JP2020113000A (ja) 2019-01-10 2020-07-27 日本電信電話株式会社 物体検出認識装置、方法、及びプログラム
WO2021130881A1 (ja) 2019-12-25 2021-07-01 三菱電機株式会社 物体検出装置、モニタリング装置及び学習装置

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2018147431A (ja) 2017-03-09 2018-09-20 コニカミノルタ株式会社 画像認識装置及び画像認識方法
JP2020047270A (ja) 2018-09-17 2020-03-26 株式会社ストラドビジョン マルチフィーディングを適用した学習方法及び学習装置並びにそれを利用したテスト方法及びテスト装置
JP2020113000A (ja) 2019-01-10 2020-07-27 日本電信電話株式会社 物体検出認識装置、方法、及びプログラム
WO2021130881A1 (ja) 2019-12-25 2021-07-01 三菱電機株式会社 物体検出装置、モニタリング装置及び学習装置

Also Published As

Publication number Publication date
CN116686001A (zh) 2023-09-01
JPWO2022137476A1 (ja) 2022-06-30
US20230410532A1 (en) 2023-12-21
WO2022137476A1 (ja) 2022-06-30
EP4270301A4 (en) 2024-01-24
EP4270301A1 (en) 2023-11-01

Similar Documents

Publication Publication Date Title
JP7052663B2 (ja) 物体検出装置、物体検出方法及び物体検出用コンピュータプログラム
Rani LittleYOLO-SPP: A delicate real-time vehicle detection algorithm
JP4782123B2 (ja) カメラによりシーンに関して取得された映像中の移動物体を追跡する方法
CN113468967B (zh) 基于注意力机制的车道线检测方法、装置、设备及介质
Philomin et al. Pedestrian tracking from a moving vehicle
CN113409361B (zh) 一种多目标跟踪方法、装置、计算机及存储介质
JP4420512B2 (ja) 移動物体間動作分類方法及び装置並びに画像認識装置
CN112906816B (zh) 基于光微分与双通道神经网络的目标检测方法和装置
JP4583493B2 (ja) 移動物体認識方法及び装置
JP7031081B2 (ja) 物体検出装置、モニタリング装置及び学習装置
JP7361949B2 (ja) 物体検出装置、モニタリング装置、学習装置、及び、モデル生成方法
Gu et al. Integrated multi-scale event verification in an augmented foreground motion space
Hafeezallah et al. Multi-Scale Network with Integrated Attention Unit for Crowd Counting.
Abdallah et al. Multi-vehicle tracking using heterogeneous neural networks for appearance and motion features
Tourani et al. Challenges of video-based vehicle detection and tracking in intelligent transportation systems
CN115808685A (zh) 一种基于相机与毫米波雷达融合的3d目标检测方法
Niknejad et al. Embedded multi-sensors objects detection and tracking for urban autonomous driving
Zhang et al. LanePainter: lane marks enhancement via generative adversarial network
Cao et al. Robust crowd counting based on refined density map
SR OBJECT DETECTION, TRACKING AND BEHAVIOURAL ANALYSIS FOR STATIC AND MOVING BACKGROUND.
Kovačić et al. Measurement of road traffic parameters based on multi-vehicle tracking
Pandya et al. A novel approach for vehicle detection and classification
Adaimi et al. Traffic perception from aerial images using butterfly fields
Sayani et al. Traffic analysis and estimation using deep learning techniques
Turker et al. 3D convolutional long short-term encoder-decoder network for moving object segmentation

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20230111

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20230111

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20230905

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20231003

R150 Certificate of patent or registration of utility model

Ref document number: 7361949

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150