JP7361949B2

JP7361949B2 - 物体検出装置、モニタリング装置、学習装置、及び、モデル生成方法

Info

Publication number: JP7361949B2
Application number: JP2022570922A
Authority: JP
Inventors: 友哉澤田; 賢福地
Original assignee: Mitsubishi Electric Corp
Current assignee: Mitsubishi Electric Corp
Priority date: 2020-12-25
Filing date: 2020-12-25
Publication date: 2023-10-16
Anticipated expiration: 2040-12-25
Also published as: CN116686001A; JPWO2022137476A1; US20230410532A1; WO2022137476A1; EP4270301A4; EP4270301A1

Description

本開示は、物体検出装置、モニタリング装置、学習装置、及び、モデル生成方法に関する。

従来、深層学習により学習自在な畳み込みニューラルネットワーク（以下「ＣＮＮ」と記載することがある。）を用いて、カメラにより撮像された動画における個々の物体をリアルタイムに検出する技術が開発されている。すなわち、個々の物体の位置を推定するとともに、個々の物体の種別を推定する技術が開発されている。例えば、ＳＳＤ（ＳｉｎｇｌｅＳｈｏｔＭｕｌｔｉＢｏｘＤｅｔｅｃｔｏｒ）、ＹＯＬＯ（ＹｏｕＯｎｌｙＬｏｏｋＯｎｃｅ）及びＦａｓｔｅｒＲ－ＣＮＮ（Ｒｅｇｉｏｎ－ｂａｓｅｄＣｏｎｖｏｌｕｔｉｏｎａｌＮｅｕｒａｌＮｅｔｗｏｒｋ）が開発されている。非特許文献１には、ＳＳＤが開示されている。

Wei Liu, Dragomir Anguelov, Dumitru Erhan, Christian Szegedy, Scott Reed, Cheng-Yang Fu, Alexander C. Berg, "SSD: Single Shot MultiBox Detector," v5, 29 Dec 2016, https://arxiv.org/pdf/1512.02325v5.pdf

従来の物体検出（ＯｂｊｅｃｔＤｅｔｅｃｔｉｏｎ）は、ディープなＣＮＮを用いたものである。このため、主にプーリングにより、空間的な情報が消失する。この結果、特に画像における物体のサイズが小さいとき、かかる物体の位置を推定することが技術的に困難であるという問題があった。すなわち、小さい物体を検出することが技術的に困難であるという問題があった。

ここで、従来の物体検出において、個々の特徴マップのサイズを大きくすることにより、小さい物体の検出に対応することが考えられる。しかしながら、ディープなＣＮＮにおいて個々の特徴マップのサイズを大きくすることにより、演算量が爆発的に増加する。このため、かかる方法は非実際的である。

本開示は、上記のような課題を解決するためになされたものであり、小さい物体の検出を実現することを目的とする。

本開示に係る物体検出装置は、カメラによる撮像画像を示す画像データを取得する画像データ取得部と、画像データを用いて第１特徴マップを生成する第１特徴量抽出部と、画像データを用いて第２特徴マップを生成するとともに、当該第２特徴マップに対して第１特徴マップを用いた足し算又は掛け算を行って、当該第２特徴マップに対する重み付けをすることにより第３特徴マップを生成する第２特徴量抽出部と、第３特徴マップを用いて撮像画像における物体を検出する物体検出部と、を備え、第１特徴マップにおける第１特徴量は、物体らしさに対応する中レベル特徴を用いたものであり、第２特徴マップにおける第２特徴量は、高レベル特徴を用いたものである。

本開示によれば、上記のように構成したので、小さい物体の検出を実現することができる。

実施の形態１に係る物体検出装置を含む物体検出システムの要部を示すブロック図である。実施の形態１に係る物体検出装置における第１特徴量抽出部、第２特徴量抽出部及び物体検出部の要部を示すブロック図である。実施の形態１に係る物体検出装置における物体検出部により分類されるクラスの例を示す説明図である。実施の形態１に係る学習装置を含む学習システムの要部を示すブロック図である。実施の形態１に係る物体検出装置の要部のハードウェア構成を示すブロック図である。実施の形態１に係る物体検出装置の要部の他のハードウェア構成を示すブロック図である。実施の形態１に係る学習装置の要部のハードウェア構成を示すブロック図である。実施の形態１に係る学習装置の要部の他のハードウェア構成を示すブロック図である。実施の形態１に係る物体検出装置の動作を示すフローチャートである。実施の形態１に係る学習装置の動作を示すフローチャートである。第１ニューラルネットワークの構造を示す説明図である。個々の顕著性ブロック層の構造を示す説明図である。顕著性ブロック層にて個々の第２特徴マップに対して重み付けがなされ、第３特徴マップが生成されるイメージを説明するための図である。顕著性ブロック層にて個々の第２特徴マップに対して重み付けがなされ、第３特徴マップが生成されるその他のイメージを説明するための図である。顕著性ブロック層にて個々の第２特徴マップに対して重み付けがなされ、第３特徴マップが生成されるその他のイメージを説明するための図である。顕著性ブロック層にて個々の第２特徴マップに対して重み付けがなされ、第３特徴マップが生成されるその他のイメージを説明するための図である。顕著性ブロック層にて個々の第２特徴マップに対して重み付けがなされ、第３特徴マップが生成されるその他のイメージを説明するための図である。顕著性ブロック層にて個々の第２特徴マップに対して重み付けがなされ、第３特徴マップが生成されるその他のイメージを説明するための図である。顕著性ブロック層にて個々の第２特徴マップに対して重み付けがなされ、第３特徴マップが生成されるその他のイメージを説明するための図である。顕著性ブロック層にて個々の第２特徴マップに対して重み付けがなされ、第３特徴マップが生成されるその他のイメージを説明するための図である。顕著性ブロック層にて個々の第２特徴マップに対して重み付けがなされ、第３特徴マップが生成されるその他のイメージを説明するための図である。撮像画像の例を示す説明図である。顕著性マップに対応するフィーチャーマップの例を示す説明図である。複数個の特徴マップのうちの第１の特徴マップに対応するフィーチャーマップの例を示す説明図である。複数個の第３特徴マップのうちの第１の第３特徴マップに対応するフィーチャーマップの例を示す説明図である。比較用の物体検出装置による検出結果の例を示す説明図である。実施の形態１に係る物体検出装置による検出結果の例を示す説明図である。比較用の物体検出装置による検出精度の例、及び実施の形態１に係る物体検出装置による検出精度の例を示す説明図である。比較用の物体検出装置による検出精度の他の例、及び実施の形態１に係る物体検出装置による検出精度の他の例を示す説明図である。比較用の物体検出装置による検出精度の他の例、及び実施の形態１に係る物体検出装置による検出精度の他の例を示す説明図である。第１特徴マップ生成部が、個々の撮像画像に対応する温度画像を用いて生成した、第１特徴マップとしての熱マップのイメージの一例を示す図である。実施の形態２に係る物体検出装置を含む物体検出システムの要部を示すブロック図である。実施の形態２に係る学習装置を含む学習システムの要部を示すブロック図である。実施の形態２に係る物体検出装置の動作を示すフローチャートである。実施の形態３に係る物体検出装置を含む物体検出システムの要部を示すブロック図である。実施の形態３に係る学習装置を含む学習システムの要部を示すブロック図である。実施の形態３に係る物体検出装置の動作を示すフローチャートである。実施の形態４に係るモニタリング装置を含むモニタリングシステムの要部を示すブロック図である。実施の形態４に係るモニタリング装置における解析部及び出力制御部の要部を示すブロック図である。リスクマップ画像の例を示す説明図である。実施の形態４に係るモニタリング装置の要部のハードウェア構成を示すブロック図である。実施の形態４に係るモニタリング装置の要部の他のハードウェア構成を示すブロック図である。実施の形態４に係るモニタリング装置の動作を示すフローチャートである。実施の形態４に係る他のモニタリング装置を含むモニタリングシステムの要部を示すブロック図である。実施の形態４に係る他のモニタリング装置を含むモニタリングシステムの要部を示すブロック図である。

以下、この開示をより詳細に説明するために、この開示を実施するための形態について、添付の図面に従って説明する。

実施の形態１．
図１は、実施の形態１に係る物体検出装置を含む物体検出システムの要部を示すブロック図である。図２は、実施の形態１に係る物体検出装置における第１特徴量抽出部、第２特徴量抽出部及び物体検出部の要部を示すブロック図である。図１及び図２を参照して、実施の形態１に係る物体検出装置を含む物体検出システムについて説明する。

図１に示す如く、物体検出システム１００は、カメラ１、記憶装置２及び物体検出装置２００を含むものである。記憶装置２は、特徴マップ記憶部１１を有している。物体検出装置２００は、画像データ取得部２１、第１特徴量抽出部２２、第２特徴量抽出部２３及び物体検出部２４を有している。カメラ１は、例えば、監視カメラ、防犯カメラ又は電子ミラー用のカメラにより構成されている。すなわち、カメラ１は、動画撮像用のカメラにより構成されている。記憶装置２は、メモリにより構成されている。

以下、カメラ１が電子ミラー用のカメラにより構成されている場合の例を中心に説明する。この場合、カメラ１、記憶装置２及び物体検出装置２００は、車両（不図示）に設けられている。以下、かかる車両を「自車両」ということがある。

図２に示す如く、第１特徴量抽出部２２は、第１特徴マップ生成部３１を有している。第２特徴量抽出部２３は、第１ニューラルネットワークＮＮ１により構成されている。第１ニューラルネットワークＮＮ１は、第２特徴マップ生成部３２及び第３特徴マップ生成部３３を有している。物体検出部２４は、第２ニューラルネットワークＮＮ２により構成されている。第２ニューラルネットワークＮＮ２は、位置推定部３４及び種別推定部３５を有している。

画像データ取得部２１は、カメラ１により撮像された画像を示す画像データを取得するものである。すなわち、画像データ取得部２１は、カメラ１により撮像された動画を構成する個々の静止画（以下「撮像画像」ということがある。）を示す画像データを取得するものである。

第１特徴マップ生成部３１は、画像データ取得部２１により取得された画像データを用いて、個々の撮像画像に対応する１個の特徴マップ（以下「第１特徴マップ」という。）ＦＭ１を生成するものである。第１特徴マップＦＭ１は、二次元状に配列された複数個の特徴量（以下「第１特徴量」という。）により構成されている。個々の第１特徴量は、物体らしさ（Ｏｂｊｅｃｔｎｅｓｓ）に対応する中レベル特徴（Ｍｉｄ－ｌｅｖｅｌＦｅａｔｕｒｅ）を用いたものである。

ここで、中レベル特徴における「中レベル」とは、人の視覚モデルに基づくレベルと同等のレベルである。すなわち、かかる「中レベル」とは、従来の物体検出に用いられる特徴のレベルに比して低いレベルである。

具体的には、例えば、個々の第１特徴量は、顕著性（Ｓａｌｉｅｎｃｙ）を用いたものである。第１特徴マップ生成部３１は、顕著性推定（ＳａｌｉｅｎｃｙＥｓｔｉｍａｔｉｏｎ）を実行することにより、顕著性マップ（ＳａｌｉｅｎｃｙＭａｐ）を生成する。このとき、第１特徴マップ生成部３１は、例えば、以下の参考文献１に記載された方法と同様の方法により顕著性マップを生成する。すなわち、第１特徴マップ生成部３１は、参考文献１に記載された物体検出装置における画像特徴マップ生成部による生成方法と同様の生成方法により顕著性マップを生成する。

［参考文献１］
国際公開第２０１８／０５１４５９号

かかる方法により、画像データ取得部２１により取得された画像データを用いて、他の特徴マップを経ることなく直接的に顕著性マップが生成される。また、ＣＮＮを用いることなく顕著性マップが生成される。

第４特徴マップ生成部３６は、第１特徴マップ生成部３１によって生成された第１特徴マップＦＭ１から、当該第１特徴マップＦＭ１に対応する複数個の特徴マップ（以下「第４特徴マップ」という。）ＦＭ４を生成するものである。具体的には、第４特徴マップ生成部３６は、畳み込み（Ｃｏｎｖｏｌｕｔｉｏｎ）を行って、複数個の第４特徴マップＦＭ４を生成する。個々の第４特徴マップＦＭ４は、二次元状に配列された複数個の特徴量（以下「第４特徴量」という。）により構成されている。個々の第４特徴量は、中レベル特徴（Ｍｉｄｄｌｅ－ｌｅｖｅｌＦｅａｔｕｒｅ）を用いたものである。

第１特徴マップ生成部３１及び第４特徴マップ生成部３６は、教師なし学習により学習自在なものである。すなわち、第１特徴量抽出部２２は、教師なし学習により学習自在なものである。かかる教師なし学習には、公知の種々の技術を用いることができる。これらの技術についての詳細な説明は省略する。

第２特徴マップ生成部３２は、画像データ取得部２１により取得された画像データを用いて、個々の撮像画像に対応する複数個の特徴マップ（以下「第２特徴マップ」という。）ＦＭ２を生成するものである。個々の第２特徴マップＦＭ２は、二次元状に配列された複数個の特徴量（以下「第２特徴量」という。）により構成されている。個々の第２特徴量は、高レベル特徴（Ｈｉｇｈ－ｌｅｖｅｌＦｅａｔｕｒｅ）を用いたものである。

ここで、高レベル特徴における「高レベル」とは、従来の物体検出に用いられる特徴のレベルと同等のレベルである。すなわち、かかる「高レベル」とは、人の視覚モデルに基づくレベルに比して高いレベルである。

具体的には、例えば、第１ニューラルネットワークＮＮ１のうちの第２特徴マップ生成部３２に対応する部位により、ＣＮＮが構成されている。かかるＣＮＮにより、複数個の第２特徴マップＦＭ２が順次生成される。

第３特徴マップ生成部３３は、第２特徴マップＦＭ２に対して第１特徴マップＦＭ１を用いた足し算又は掛け算を行って第２特徴マップに対する重み付けをすることにより、複数個の第２特徴マップＦＭ２に基づく複数個の特徴マップ（以下「第３特徴マップ」という。）ＦＭ３を生成するものである。
以下、第３特徴マップ生成部３３による、複数個の第３特徴マップＦＭ３の生成方法の具体例について説明する。

＜足し算による生成方法（１）＞
例えば、第３特徴マップ生成部３３は、第１特徴マップＦＭ１における個々の第１特徴量を個々の第２特徴マップＦＭ２における対応する第２特徴量に足し合わせる足し算を行う。具体的には、第３特徴マップ生成部３３は、まず、１個の第１特徴マップＦＭ１を、第２特徴マップＦＭ２の数だけ複製する。そして、第３特徴マップ生成部３３は、複製した第１特徴マップＦＭ１をそれぞれ個々の第２特徴マップＦＭ２と対応付け、レイヤー毎に、ピクセル単位で足し合わせる。すなわち、第３特徴マップ生成部３３は、第１特徴マップＦＭ１と第２特徴マップＦＭ２とを、空間的に足し合わせる。
これにより、第３特徴マップ生成部３３は、第１特徴マップＦＭ１を用いた、第２特徴マップＦＭ２に対する重み付けをする。すなわち、第３特徴マップ生成部３３は、個々の第２特徴マップＦＭ２における対応する第２特徴量に対する重み付けをする。

＜掛け算による生成方法（１）＞
例えば、第３特徴マップ生成部３３は、第１特徴マップＦＭ１における個々の第１特徴量を個々の第２特徴マップＦＭ２における対応する第２特徴量に掛け合わせる掛け算を行う。具体的には、第３特徴マップ生成部３３は、まず、１個の第１特徴マップＦＭ１を、第２特徴マップＦＭ２の数だけ複製する。そして、第３特徴マップ生成部３３は、複製した第１特徴マップＦＭ１をそれぞれ個々の第２特徴マップＦＭ２と対応付け、レイヤー毎に、ピクセル単位で掛け合わせる。すなわち、第３特徴マップ生成部３３は、第１特徴マップＦＭ１と第２特徴マップＦＭ２とを、空間的に掛け合わせる。
これにより、第３特徴マップ生成部３３は、第１特徴マップＦＭ１を用いた、第２特徴マップＦＭ２に対する重み付けをする。すなわち、第３特徴マップ生成部３３は、個々の第２特徴マップＦＭ２における対応する第２特徴量に対する重み付けをする。

＜足し算による生成方法（２）＞
当該生成方法においては、第１特徴量抽出部２２の第４特徴マップ生成部３６が、第１特徴マップ生成部３１によって生成された第１特徴マップＦＭ１から、当該第１特徴マップに対応する複数個の第４特徴マップＦＭ４を生成していることを前提とする。
例えば、第３特徴マップ生成部３３は、第４特徴マップＦＭ４における個々の第４特徴量を第４特徴マップに対応する第２特徴マップＦＭ２における対応する第２特徴量に足し合わせる足し算を行う。具体的には、第３特徴マップ生成部３３は、個々の第４特徴マップＦＭ４と個々の第２特徴マップＦＭ２とを対応付け、レイヤー毎に、ピクセル単位で足し合わせる。すなわち、第３特徴マップ生成部３３は、第４特徴マップＦＭ４と第２特徴マップＦＭ２とを、空間的に足し合わせる。
これにより、第３特徴マップ生成部３３は、第１特徴マップＦＭ１を用いた、より詳細には、第１特徴マップＦＭ１を用いて生成された第４特徴マップＦＭ４を用いた、第２特徴マップＦＭ２に対する重み付けをする。すなわち、第３特徴マップ生成部３３は、個々の第２特徴マップＦＭ２における対応する第２特徴量に対する重み付けをする。

＜掛け算による生成方法（２）＞
当該生成方法においても、上述の＜足し算による生成方法（２）＞同様、第１特徴量抽出部２２の第４特徴マップ生成部３６が、第１特徴マップ生成部３１によって生成された第１特徴マップＦＭ１から、当該第１特徴マップに対応する複数個の第４特徴マップＦＭ４を生成していることを前提とする。
例えば、第３特徴マップ生成部３３は、第４特徴マップＦＭ４における個々の第４特徴量を個々の第２特徴マップＦＭ２における対応する第２特徴量に掛け合わせる掛け算を行う。具体的には、第３特徴マップ生成部３３は、個々の第４特徴マップＦＭ４と個々の第２特徴マップＦＭ２とを対応付け、レイヤー毎に、ピクセル単位で掛け合わせる。すなわち、第３特徴マップ生成部３３は、第４特徴マップＦＭ４と第２特徴マップＦＭ２とを、空間的に掛け合わせる。
これにより、第３特徴マップ生成部３３は、第１特徴マップＦＭ１を用いた、より詳細には、第１特徴マップＦＭ１を用いて生成された第４特徴マップＦＭ４を用いた、第２特徴マップＦＭ２に対する重み付けをする。すなわち、第３特徴マップ生成部３３は、個々の第２特徴マップＦＭ２における対応する第２特徴量に対する重み付けをする。

＜足し算による生成方法（３）＞
例えば、第３特徴マップ生成部３３は、第１特徴マップＦＭ１を、複数個の第２特徴マップＦＭ２の次元方向、言い換えれば、チャネル方向に足し合わせる足し算を行う。言い換えれば、第３特徴マップ生成部３３は、第１特徴マップＦＭ１を、複数個の第２特徴マップＦＭ２の次元方向に連結（ｃｏｎｃａｔｅｎｅｔｅ）する。具体的には、第３特徴マップ生成部３３は、１個の第１特徴マップＦＭ１を、例えば、第２特徴マップＦＭ２の数だけ複製する。そして、第３特徴マップ生成部３３は、複製した第１特徴マップＦＭ１を、複数個の第２特徴マップＦＭ２の次元方向に足し合わせる。
これにより、第３特徴マップ生成部３３は、第１特徴マップＦＭ１を用いた第２特徴マップＦＭ２に対する重み付けをする。すなわち、第３特徴マップ生成部３３は、個々の第２特徴マップＦＭ２に対して、次元の数を増やす重み付けをする。

第３特徴マップ生成部３３は、上記＜足し算による生成方法（１）＞、＜掛け算による生成方法（１）＞、＜足し算による生成方法（２）＞及び＜掛け算による生成方法（２）＞において重み付けをするとき、構造的類似性（ＳＳＩＭ（ＳｔｒｕｃｔｕｒａｌＳｉｍｉｌａｒｉｔｙ））及び画像類似度相関のうち少なくとも一つに基づいて、個々の第２特徴量に付与される重みを示す値（以下「重要度」という。）Ｗを設定しても良い。例えば、第３特徴マップ生成部３３は、ＳＳＩＭ指標が大きいほど重要度Ｗを大きい値に設定する。また、例えば、第３特徴マップ生成部３３は、相関類似度の指標が大きいほど重要度Ｗを大きい値に設定する。
物体の構造を評価するＳＳＩＭ指標又はピクセル単位での相関類似度の指標を用いて重要度Ｗを設定することで、第３特徴マップ生成部３３は、第３特徴マップＦＭ３を用いた、撮像画像における物体検出精度を高めることができる。なお、第３特徴マップＦＭ３を用いた、撮像画像における物体の検出は、物体検出部２４が行う。

第３特徴マップ生成部３３が、第３特徴マップＦＭ３を生成するにあたり、上記＜足し算による生成方法（２）＞又は＜掛け算による生成方法（２）＞を採用しない場合、第１特徴量抽出部２２は、第４特徴マップ生成部３６を備えない構成とすることができる。

上記のとおり、個々の第１特徴量および個々の第４特徴量は、物体らしさに対応する中レベル特徴を用いたものである。このため、＜足し算による生成方法（１）＞、＜掛け算による生成方法（１）＞、＜足し算による生成方法（２）＞、又は、＜掛け算による生成方法（２）＞によって重み付けがなされることにより、個々の第２特徴量が対応する物体らしさに応じて補強されることになる。すなわち、より高い物体らしさに対応する第２特徴量は、より低い物体らしさに対応する第２特徴量に比して相対的に強められる。他方、より低い物体らしさに対応する第２特徴量は、より高い物体らしさに対応する第２特徴量に比して相対的に弱められる。個々の第３特徴マップＦＭ３は、かかる補強がなされた複数個の特徴量（以下「第３特徴量」ということがある。）によるものである。

また、＜足し算による生成方法（３）＞によって重み付けがなされることにより、第２特徴マップＦＭ２の空間的な解像度を完全に保ってそれぞれのレイヤー情報は独立されたまま、次元の数が増やされる。個々の第３特徴マップＦＭ３は、第２特徴マップＦＭ２の個々の第２特徴量の空間的な独立が保たれたまま、次元方向に複数個の特徴量（第１特徴量）が補強されたものであり、個々の第２特徴量及び個々の第１特徴量によるものである。＜足し算による生成方法（３）＞によって生成された個々の第３特徴マップＦＭ３を構成する個々の第２特徴量及び個々の第１特徴量のことを、以下「第３特徴量」ということがある。

上記＜足し算による生成方法（１）＞、＜掛け算による生成方法（１）＞、＜足し算による生成方法（２）＞、＜掛け算による生成方法（２）＞及び＜足し算による生成方法（３）＞による第３特徴マップＦＭ３の生成については、図１３～図２１を参照してそのイメージを後述する。

第１ニューラルネットワークＮＮ１は、教師あり学習により学習自在なものである。すなわち、第２特徴量抽出部２３は、教師あり学習により学習自在なものである。ここで、上記のとおり、第１ニューラルネットワークＮＮ１は、ＣＮＮを含むものである。すなわち、第２特徴量抽出部２３は、ＣＮＮを含むものである。このため、第２特徴量抽出部２３は、深層学習により学習自在なものである。第１ニューラルネットワークＮＮ１の構造については、図１１～図１２を参照して後述する。

特徴マップ記憶部１１は、第２特徴マップ生成部３２により個々の第２特徴マップＦＭ２が生成されたとき、当該生成された第２特徴マップＦＭ２を一時的に記憶するものである。特徴マップ記憶部１１が第２特徴量抽出部２３外に設けられていることにより、記憶容量の使用効率の向上を図ることができる。

物体検出部２４は、第３特徴マップ生成部３３により生成された複数個の第３特徴マップＦＭ３を用いて、個々の撮像画像における個々の物体を検出するものである。より具体的には、位置推定部３４が回帰（Ｒｅｇｒｅｓｓｉｏｎ）により個々の物体の位置を推定するとともに、種別推定部３５が分類（Ｃｌａｓｓｉｆｉｃａｔｉｏｎ）により個々の物体の種別を推定するものである。すなわち、第２ニューラルネットワークＮＮ２は、教師あり学習により学習自在なものである。換言すれば、物体検出部２４は、教師あり学習により学習自在なものである。

具体的には、例えば、物体検出部２４は、ＳＳＤにより個々の物体を検出する。すなわち、第２ニューラルネットワークＮＮ２は、非特許文献１に記載されたＳＳＤにおける「ＶＧＧ－１６」よりも後段のニューラルネットワークと同様のニューラルネットワークにより構成されている（非特許文献１のＦｉｇ．２等参照。）。すなわち、第２ニューラルネットワークＮＮ２は、非特許文献１に記載されたＳＳＤにおける「ＥｘｔｒａＦｅａｔｕｒｅＬａｙｅｒｓ」と同様のニューラルネットワークを含むニューラルネットワークにより構成されている。かかるニューラルネットワークにより、複数回の畳み込み演算が実行される。これにより、個々の物体の位置が推定されるとともに、個々の物体の種別が推定される。

ここで、かかる複数回の畳み込み演算は、互いに異なるカーネルサイズによるものである。より具体的には、カーネルサイズが次第に小さくなるものである。これにより、撮像画像における個々の物体のサイズの変動に対応することができる。すなわち、いわゆる「マルチスケール」による物体検出を実現することができる。

図３は、種別推定部３５により推定される種別の例を示している。すなわち、図３は、種別推定部３５により分類されるクラスの例を示している。

図中「ｃａｒｓ（ｓａｍｅｄｉｒｅｃｔｉｏｎ）」は、自車両の走行方向に対する同一方向に走行中の自動車を示している。図中「ｌａｒｇｅｖｅｈｉｃｌｅｓ（ｓａｍｅｄｉｒｅｃｔｉｏｎ）」は、自車両の走行方向に対する同一方向に走行中の大型自動車を示している。図中「ｍｏｔｏｒｂｉｋｅｓ（ｓａｍｅｄｉｒｅｃｔｉｏｎ）」は、自車両の走行方向に対する同一方向に走行中の自動二輪車を示している。すなわち、これらのクラスは、自車両の走行方向に対する同一方向に走行中の他車両を示している。換言すれば、これらのクラスは、後続車両又は追越し車両を示している。

図中「ｃａｒｓ（ｏｐｐｏｓｉｔｅｄｉｒｅｃｔｉｏｎ）」は、自車両の走行方向に対する反対方向に走行中の自動車を示している。図中「ｌａｒｇｅｖｅｈｉｃｌｅｓ（ｏｐｐｏｓｉｔｅｄｉｒｅｃｔｉｏｎ）」は、自車両の走行方向に対する反対方向に走行中の大型自動車を示している。図中「ｍｏｔｏｒｂｉｋｅｓ（ｏｐｐｏｓｉｔｅｄｉｒｅｃｔｉｏｎ）」は、自車両の走行方向に対する反対方向に走行中の自動二輪車を示している。すなわち、これらのクラスは、自車両の走行方向に対する反対方向に走行中の他車両を示している。換言すれば、これらのクラスは、対向車両を示している。

このように、種別推定部３５により分類されるクラスは、個々の物体の進行方向を含むものである。すなわち、種別推定部３５により推定される種別は、個々の物体の進行方向を含むものである。これにより、物体検出部２４に対する後段の処理において、かかる進行方向の判定を不要とすることができる。この結果、物体検出部２４に対する後段の処理における演算量を低減することができる。

図４は、実施の形態１に係る学習装置を含む学習システムの要部を示すブロック図である。図４を参照して、実施の形態１に係る学習装置を含む学習システムについて説明する。なお、図４において、図１に示すブロックと同様のブロックには同一符号を付して説明を省略する。

図４に示す如く、学習システム３００は、記憶装置２、記憶装置３及び学習装置４００を含むものである。記憶装置２は、特徴マップ記憶部１１を有している。記憶装置３は、画像データ記憶部１２を有している。学習装置４００は、画像データ取得部２１、第１特徴量抽出部２２、第２特徴量抽出部２３、物体検出部２４及び学習部２５を有している。記憶装置３は、メモリにより構成されている。

画像データ記憶部１２は、複数個の学習用の画像（以下「学習用画像」ということがある。）を含むデータベース（以下「学習用画像データベース」という。）を記憶するものである。学習装置４００における画像データ取得部２１は、個々の撮像画像を示す画像データを取得するのに代えて、個々の学習用画像を示す画像データを取得するものである。

学習装置４００における第１特徴量抽出部２２、第２特徴量抽出部２３及び物体検出部２４は、物体検出装置２００における第１特徴量抽出部２２、第２特徴量抽出部２３及び物体検出部２４とそれぞれ同様のものである。このため、詳細な説明は省略する。

学習部２５は、物体検出部２４による検出結果に基づき、教師あり学習（より具体的には深層学習）による第２特徴量抽出部２３の学習をするものである。また、学習部２５は、物体検出部２４による検出結果に基づき、教師あり学習による物体検出部２４の学習をするものである。

すなわち、学習部２５は、画像データ取得部２１により取得された画像データが示す学習用画像に対応する物体検出に係る正解を示すデータ（以下「正解データ」という。）を取得する。正解データは、人（例えば物体検出装置２００の製造者又は物体検出システム１００を用いた役務の提供者）により予め入力されたものである。学習部２５は、物体検出部２４による検出結果と当該取得された正解データが示す正解とを比較する。学習部２５は、かかる比較の結果に基づき、必要に応じて第１ニューラルネットワークＮＮ１におけるパラメータを更新するとともに、必要に応じて第２ニューラルネットワークＮＮ２におけるパラメータを更新する。かかるパラメータの更新には、公知の種々の技術を用いることができる。これらの技術についての詳細な説明は省略する。
つまり、学習部２５は、画像データ取得部２１による取得された画像データを入力とし、個々の撮像画像における個々の物体の検出結果を出力する学習済みのモデル（以下「機械学習モデル」という。）を生成する。機械学習モデルにおいて、複数個のパラメータセットが設定されている。個々のパラメータセットは、第１ニューラルネットワークＮＮ１用の学習済みパラメータを含むものであり、かつ、第２ニューラルネットワークＮＮ２用の学習済みパラメータを含むものである。
なお、個々の撮像画像における個々の物体の検出結果とは、具体的には、個々の撮像画像における個々の物体の位置の推定結果、及び、個々の物体の種別の推定結果である。機械学習モデルは、例えば、記憶装置（不図示）に記憶される。

以下、画像データ取得部２１の機能に「Ｆ１」の符号を用いることがある。また、第１特徴量抽出部２２の機能に「Ｆ２」の符号を用いることがある。また、第２特徴量抽出部２３の機能に「Ｆ３」の符号を用いることがある。また、物体検出部２４の機能に「Ｆ４」の符号を用いることがある。また、学習部２５の機能に「Ｆ５」の符号を用いることがある。

以下、画像データ取得部２１により実行される処理を総称して「画像データ取得処理」ということがある。また、第１特徴量抽出部２２により実行される処理を総称して「第１特徴量抽出処理」ということがある。また、第２特徴量抽出部２３により実行される処理を総称して「第２特徴量抽出処理」ということがある。また、物体検出部２４により実行される処理を総称して「物体検出処理」ということがある。また、学習部２５により実行される処理を総称して「学習処理」ということがある。

次に、図５及び図６を参照して、物体検出装置２００の要部のハードウェア構成について説明する。

図５に示す如く、物体検出装置２００は、プロセッサ４１及びメモリ４２を有している。メモリ４２には、複数個の機能Ｆ１～Ｆ４に対応するプログラムが記憶されている。プロセッサ４１は、メモリ４２に記憶されているプログラムを読み出して実行する。これにより、複数個の機能Ｆ１～Ｆ４が実現される。

または、図６に示す如く、物体検出装置２００は、処理回路４３を有している。この場合、専用の処理回路４３により複数個の機能Ｆ１～Ｆ４が実現される。

または、物体検出装置２００は、プロセッサ４１、メモリ４２及び処理回路４３を有している（不図示）。この場合、複数個の機能Ｆ１～Ｆ４のうちの一部の機能がプロセッサ４１及びメモリ４２により実現されるとともに、複数個の機能Ｆ１～Ｆ４のうちの残余の機能が専用の処理回路４３により実現される。

プロセッサ４１は、１個以上のプロセッサにより構成されている。個々のプロセッサは、例えば、ＣＰＵ（ＣｅｎｔｒａｌＰｒｏｃｅｓｓｉｎｇＵｎｉｔ）、ＧＰＵ（ＧｒａｐｈｉｃｓＰｒｏｃｅｓｓｉｎｇＵｎｉｔ）、マイクロプロセッサ、マイクロコントローラ又はＤＳＰ（ＤｉｇｉｔａｌＳｉｇｎａｌＰｒｏｃｅｓｓｏｒ）を用いたものである。

メモリ４２は、１個以上の不揮発性メモリにより構成されている。または、メモリ４２は、１個以上の不揮発性メモリ及び１個以上の揮発性メモリにより構成されている。すなわち、メモリ４２は、１個以上のメモリにより構成されている。個々のメモリは、例えば、半導体メモリ、磁気ディスク、光ディスク、光磁気ディスク又は磁気テープを用いたものである。

より具体的には、個々の揮発性メモリは、例えば、ＲＡＭ（ＲａｎｄｏｍＡｃｃｅｓｓＭｅｍｏｒｙ）を用いたものである。また、個々の不揮発性メモリは、例えば、ＲＯＭ（ＲｅａｄＯｎｌｙＭｅｍｏｒｙ）、フラッシュメモリ、ＥＰＲＯＭ（ＥｒａｓａｂｌｅＰｒｏｇｒａｍｍａｂｌｅＲｅａｄＯｎｌｙＭｅｍｏｒｙ）、ＥＥＰＲＯＭ（ＥｌｅｃｔｒｉｃａｌｌｙＥｒａｓａｂｌｅＰｒｏｇｒａｍｍａｂｌｅＲｅａｄＯｎｌｙＭｅｍｏｒｙ）、ソリッドステートドライブ、ハードディスクドライブ、フレキシブルディスク、コンパクトディスク、ＤＶＤ（ＤｉｇｉｔａｌＶｅｒｓａｔｉｌｅＤｉｓｃ）、ブルーレイディスク又はミニディスクを用いたものである。

処理回路４３は、１個以上のデジタル回路により構成されている。または、処理回路４３は、１個以上のデジタル回路及び１個以上のアナログ回路により構成されている。すなわち、処理回路４３は、１個以上の処理回路により構成されている。個々の処理回路は、例えば、ＡＳＩＣ（ＡｐｐｌｉｃａｔｉｏｎＳｐｅｃｉｆｉｃＩｎｔｅｇｒａｔｅｄＣｉｒｃｕｉｔ）、ＰＬＤ（ＰｒｏｇｒａｍｍａｂｌｅＬｏｇｉｃＤｅｖｉｃｅ）、ＦＰＧＡ（ＦｉｅｌｄＰｒｏｇｒａｍｍａｂｌｅＧａｔｅＡｒｒａｙ）、ＳｏＣ（ＳｙｓｔｅｍｏｎａＣｈｉｐ）又はシステムＬＳＩ（ＬａｒｇｅＳｃａｌｅＩｎｔｅｇｒａｔｉｏｎ）を用いたものである。

ここで、処理回路４３が複数個の処理回路により構成されているとき、複数個の機能Ｆ１～Ｆ４と複数個の処理回路との対応関係は任意である。例えば、物体検出装置２００は、複数個の機能Ｆ１～Ｆ４と一対一に対応する複数個の処理回路を有するものであっても良い。この場合、複数個の機能Ｆ１～Ｆ４の各々は、複数個の処理回路のうちの対応する１個の処理回路により専ら実現されるものであっても良い。

次に、図７及び図８を参照して、学習装置４００の要部のハードウェア構成について説明する。

図７に示す如く、学習装置４００は、プロセッサ４４及びメモリ４５を有している。メモリ４５には、複数個の機能Ｆ１～Ｆ５に対応するプログラムが記憶されている。プロセッサ４４は、メモリ４５に記憶されているプログラムを読み出して実行する。これにより、複数個の機能Ｆ１～Ｆ５が実現される。

または、図８に示す如く、学習装置４００は、処理回路４６を有している。この場合、専用の処理回路４６により複数個の機能Ｆ１～Ｆ５が実現される。

または、学習装置４００は、プロセッサ４４、メモリ４５及び処理回路４６を有している（不図示）。この場合、複数個の機能Ｆ１～Ｆ５のうちの一部の機能がプロセッサ４４及びメモリ４５により実現されるとともに、複数個の機能Ｆ１～Ｆ５のうちの残余の機能が専用の処理回路４６により実現される。

プロセッサ４４は、１個以上のプロセッサにより構成されている。個々のプロセッサは、例えば、ＣＰＵ、ＧＰＵ、マイクロプロセッサ、マイクロコントローラ又はＤＳＰを用いたものである。

メモリ４５は、１個以上の不揮発性メモリにより構成されている。または、メモリ４５は、１個以上の不揮発性メモリ及び１個以上の揮発性メモリにより構成されている。すなわち、メモリ４５は、１個以上のメモリにより構成されている。個々のメモリは、例えば、半導体メモリ、磁気ディスク、光ディスク、光磁気ディスク又は磁気テープを用いたものである。

より具体的には、個々の揮発性メモリは、例えば、ＲＡＭを用いたものである。また、個々の不揮発性メモリは、例えば、ＲＯＭ、フラッシュメモリ、ＥＰＲＯＭ、ＥＥＰＲＯＭ、ソリッドステートドライブ、ハードディスクドライブ、フレキシブルディスク、コンパクトディスク、ＤＶＤ、ブルーレイディスク又はミニディスクを用いたものである。

処理回路４６は、１個以上のデジタル回路により構成されている。または、処理回路４６は、１個以上のデジタル回路及び１個以上のアナログ回路により構成されている。すなわち、処理回路４６は、１個以上の処理回路により構成されている。個々の処理回路は、例えば、ＡＳＩＣ、ＰＬＤ、ＦＰＧＡ、ＳｏＣ又はシステムＬＳＩを用いたものである。

ここで、処理回路４６が複数個の処理回路により構成されているとき、複数個の機能Ｆ１～Ｆ５と複数個の処理回路との対応関係は任意である。例えば、学習装置４００は、複数個の機能Ｆ１～Ｆ５と一対一に対応する複数個の処理回路を有するものであっても良い。この場合、複数個の機能Ｆ１～Ｆ５の各々は、複数個の処理回路のうちの対応する１個の処理回路により専ら実現されるものであっても良い。

次に、図９のフローチャートを参照して、物体検出装置２００の動作について説明する。

まず、画像データ取得部２１が画像データ取得処理を実行する（ステップＳＴ１）。次いで、第１特徴量抽出部２２が第１特徴量抽出処理を実行する（ステップＳＴ２）。次いで、第２特徴量抽出部２３が第２特徴量抽出処理を実行する（ステップＳＴ３）。次いで、物体検出部２４が物体検出処理を実行する（ステップＳＴ４）。

次に、図１０のフローチャートを参照して、学習装置４００の動作について説明する。

まず、画像データ取得部２１が画像データ取得処理を実行する（ステップＳＴ１１）。次いで、第１特徴量抽出部２２が第１特徴量抽出処理を実行する（ステップＳＴ１２）。次いで、第２特徴量抽出部２３が第２特徴量抽出処理を実行する（ステップＳＴ１３）。次いで、物体検出部２４が物体検出処理を実行する（ステップＳＴ１４）。次いで、学習部２５が学習処理を実行する（ステップＳＴ１５）。

次に、図１１～図１２を参照して、第１ニューラルネットワークＮＮ１の構造について説明する。

図１１に示す如く、第１ニューラルネットワークＮＮ１は、複数個の顕著性ブロック層Ｌ１を有している。図中「Ｉｎｐｕｔｉｍａｇｅ」は、画像データ取得部２１により取得された画像データが示す撮像画像又は学習用画像を示している。図中「ＳａｌｉｅｎｃｙＭａｐ」は、第１特徴マップ生成部３１により生成された第１特徴マップＦＭ１を示している。図中「ＦｅａｔｕｒｅＭａｐ」は、第３特徴マップ生成部３３により生成される個々の第３特徴マップＦＭ３を示している。

図１２に示す如く、個々の顕著性ブロック層Ｌ１は、３×３による畳み込み層Ｌ１１、ＢＮ（ＢａｔｃｈＮｏｒｍａｌｉｚａｔｉｏｎ）層Ｌ１２、ＥＬＵ（ＥｘｐｏｎｅｎｔｉａｌＬｉｎｅａｒＵｎｉｔ）層Ｌ１３、最大プーリング層Ｌ１４及び顕著性ガイド層Ｌ１５を有している。

第１ニューラルネットワークＮＮ１におけるＣＮＮは、例えば、ＶＧＧネットワークを用いたものである。ＶＧＧネットワークはＢＮが追加されたものであっても良い。これに限らず、第１ニューラルネットワークＮＮ１におけるＣＮＮは、例えば、残差ネットワーク（ＲｅｓｉｄｕａｌＮｅｔｗｏｒｋ）を用いたものであっても良いし、ＤｅｎｓｅＮｅｔ又はＭｏｂｉｌｅＮｅｔを用いたものであっても良い。また、第１ニューラルネットワークＮＮ１におけるＣＮＮは、例えば、以下の参考文献２に記載された技術を用いたものであっても良い。

［参考文献２］
Mingxing Tan, Quoc Le, "EfficientNet: Rethinking Model Scaling for Convolutional Neural Networks" Proceedings of the 36th International Conference on Machine Learning, PMLR 97:6105-6114, 2019, http://proceedings.mlr.press/v97/tan19a/tan19a.pdf

図１１に示したような構造を有する第１ニューラルネットワークＮＮ１を用いることにより、顕著性ブロック層Ｌ１にて、複数個の第２特徴マップＦＭ２のうちの対応する第２特徴マップＦＭ２が生成されるとともに、当該生成された第２特徴マップＦＭ２に対する重み付けがなされる。すなわち、個々の第２特徴マップＦＭ２に対して第１特徴マップＦＭ１を用いた足し算又は掛け算が行われ、第１特徴マップＦＭ１による個々の第２特徴マップＦＭ２に対する重み付けがなされる。

ここで、図１３～図２１は、顕著性ブロック層Ｌ１にて個々の第２特徴マップＦＭ２に対して重み付けがなされ、第３特徴マップＦＭ３が生成されるイメージを説明するための図である。
なお、図１３～図２１において、図中「Ｉｎｐｕｔｉｍａｇｅ」は、画像データ取得部２１により取得された画像データが示す撮像画像又は学習用画像を示している。実施の形態１では、上述のとおり、カメラ１は電子ミラー用のカメラにより構成され、車両に設けられているものとしているが、図１３～図２１では、便宜上、画像データ取得部２１による取得された画像データは、例えば、海岸を撮像する監視カメラで構成されているカメラ１により撮像された画像データとしている。図中「ＳａｌｉｅｎｃｙＭａｐ」は、第１特徴マップ生成部３１により生成された第１特徴マップＦＭ１を示している。図中「ＦｅａｔｕｒｅＭａｐ」は、第２特徴マップ生成部３２により生成される個々の第２特徴マップＦＭ２、第３特徴マップ生成部３３により生成される個々の第３特徴マップＦＭ３、又は、第４特徴マップ生成部３６により生成される個々の第４特徴マップＦＭ４を示している。

図１３は、上述の＜足し算による生成方法（１）＞を用いて第３特徴マップＦＭ３が生成されるイメージを説明するための図である。
図１４は、上述の＜掛け算による生成方法（１）＞を用いて第３特徴マップＦＭ３が生成されるイメージを説明するための図である。
図１３及び図１４は、例えば、一層目の顕著性ブロック層Ｌ１においてのみ、第１特徴マップＦＭ１を用いて、複数個の第２特徴マップＦＭ２のうちの対応する第２特徴マップＦＭ２が生成されるとともに、当該生成された第２特徴マップＦＭ２に対する重み付けがなされ、第３特徴マップＦＭ３が生成されるイメージを示している。
図１３及び図１４に示すように、個々の第１特徴マップＦＭ１において、検出対象となる物体（ここでは人）に対応する領域が活性化している。第１特徴マップＦＭ１上、活性化した領域の第１特徴量には大きな値が設定されている。なお、第１特徴マップＦＭ１においては、遠くに存在する小さい物体に対応する領域も活性化する。

第２特徴マップＦＭ２上、例えば、遠くに存在する小さい物体は検出されず、背景となる。しかし、図１３，図１４に示すように、第２特徴マップＦＭ２と第１特徴マップＦＭ１とを足し算又は掛け算し、第１特徴量が第２特徴量に空間的に足し合わされる又は掛け合わされることで、重み付けがなされ、重要度Ｗが設定される。これにより、第２特徴マップＦＭ２は、小さい物体が検出されず背景となっていたところ、小さい物体を検出することができる特徴マップとなる。

また、第２特徴マップＦＭ２上、物体検出においては意味のない情報、不要な情報、または、冗長な情報であったとしても、特徴量としてあらわれることがある。当該特徴量は、意味のない、不要な、または、冗長な特徴量であり、学習を阻害する情報である。具体例を挙げると、例えば、人又は車両等の前景物体を学習させたいのに、海又は建物等の背景物体が多量に含まれている場合、機械学習においては、背景パターンを多く学習してしまい、前景物体の学習が阻害されることがある。
これに対し、例えば、図１４に示すように、第２特徴マップＦＭ２と第１特徴マップＦＭ１とを掛け算し、第１特徴量が第２特徴量に空間的に掛け合わされることで、冗長な第２特徴量は切り捨てられる。なお、第１特徴マップＦＭ１上、物体検出において意味のない第１特徴量には、例えば「０」が設定されている。「０」が掛け合わされることで、第２特徴量は「０」となる。これにより、前景物体の学習が阻害されることを防ぐことができる。

図１５は、上述の＜足し算による生成方法（２）＞を用いて第３特徴マップＦＭ３が生成されるイメージを説明するための図である。
図１６は、上述の＜掛け算による生成方法（２）＞を用いて第３特徴マップＦＭ３が生成されるイメージを説明するための図である。
図１５及び図１６は、例えば、一層目の顕著性ブロック層Ｌ１においてのみ、第１特徴マップＦＭ１を用いて、複数個の第２特徴マップＦＭ２のうちの対応する第２特徴マップＦＭ２が生成されるとともに、当該生成された第２特徴マップＦＭ２に対する重み付けがなされ、第３特徴マップＦＭ３が生成されるイメージを示している。
図１５及び図１６に示すように、第１特徴マップＦＭ１において、検出対象となる物体（ここでは人）に対応する領域が活性化している。当該第１特徴マップＦＭ１から、複数個の第４特徴マップＦＭ４が生成される。複数個の第４特徴マップＦＭ４は、畳み込みにより生成されるため、それぞれ、特徴量の取り方の異なる特徴マップとなっている。なお、第４特徴マップ生成部３６が複数個の第４特徴マップＦＭ４を生成するために行う畳み込みの演算内容は、第２特徴量抽出部２３が複数個の第２特徴マップＦＭ２を生成する際に行う畳み込みの演算内容と同じである。

例えば、図１５に示すように、個々の第４特徴マップＦＭ４における個々の第４特徴量と、対応する第２特徴マップＦＭ２における対応する第２特徴量とが足し合わされることで、異なるバリエーションを持つ特徴量の組み合わせでの足し算が行われることになる。これにより、図１３に示すように、１個の第１特徴マップＦＭ１を複製してそれぞれ第２特徴マップＦＭ２に足し合わせる＜足し算による生成方法（１）＞と比べ、より高度な、空間的な足し算が実現できる。
また、例えば、図１６に示すように、個々の第４特徴マップＦＭ４における個々の第４特徴量と、対応する第２特徴マップＦＭ２における対応する第２特徴量とが掛け合わされることで、異なるバリエーションを持つ特徴量の組み合わせでの掛け算が行われることになる。これにより、図１４に示すように、１個の第１特徴マップＦＭ１を複製してそれぞれ第２特徴マップＦＭ２に掛け合わせる＜掛け算による生成方法（２）＞と比べ、より高度な、空間的な掛け算が実現できる。

上述のとおり、図１３～図１６は、個々の顕著性ブロック層Ｌ１のうち、一層目の顕著性ブロック層Ｌ１においてのみ、それぞれ、＜足し算による生成方法（１）＞、＜掛け算による生成方法（１）＞、＜足し算による生成方法（２）＞及び＜掛け算による生成方法（２）＞を用いて第３特徴マップＦＭ３が生成されるイメージとしていた。
これに限らず、第３特徴マップＦＭ３は、例えば、各顕著性ブロック層Ｌ１において、＜足し算による生成方法（１）＞、＜掛け算による生成方法（１）＞、＜足し算による生成方法（２）＞又は＜掛け算による生成方法（２）＞を用いて、生成されるようにしても良い。
図１７は、各顕著性ブロック層Ｌ１おいて、上述の＜足し算による生成方法（１）＞を用いて第３特徴マップＦＭ３が生成されるイメージを示す図である。各顕著性ブロック層Ｌ１において、図１７にてイメージを示しているような第３特徴マップＦＭ３の生成が行われる。
図１８は、各顕著性ブロック層Ｌ１において、上述の＜掛け算による生成方法（１）＞を用いて第３特徴マップＦＭ３が生成されるイメージを示す図である。各顕著性ブロック層Ｌ１において、図１８にてイメージを示しているような第３特徴マップＦＭ３の生成が行われる。
図１９は、各顕著性ブロック層Ｌ１おいて、上述の＜足し算による生成方法（２）＞を用いて第３特徴マップＦＭ３が生成されるイメージを示す図である。各顕著性ブロック層Ｌ１において、図１９にてイメージを示しているような第３特徴マップＦＭ３の生成が行われる。
図２０は、各顕著性ブロック層Ｌ１において、上述の＜掛け算による生成方法（２）＞を用いて第３特徴マップＦＭ３が生成されるイメージを示す図である。各顕著性ブロック層Ｌ１において、図２０にてイメージを示しているような第３特徴マップＦＭ３の生成が行われる。

図２１は、上述の＜足し算による生成方法（３）＞を用いて第３特徴マップＦＭ３が生成されるイメージを説明するための図である。
なお、図２１は、各顕著性ブロック層Ｌ１において、上述の＜足し算による生成方法（３）＞によって第３特徴マップＦＭ３が生成されるイメージを示している。
検出対象となる物体（ここでは人）に対応する領域が活性化した個々の第１特徴マップＦＭ１は、次元方向において複数個の第２特徴マップＦＭ２の後に足し合わされる。
＜足し算による生成方法（３）＞は、第２特徴量に対して第１特徴量を空間的に足すのではなく、特徴マップのバリエーションを増やすことで第２特徴マップＦＭ２に重み付けをすることを目的とした方法である。
例えば、第１特徴マップＦＭ１及び第２特徴マップＦＭ２がそれぞれ５００次元の特徴マップであったとする。この場合、例えば、上述の＜足し算による生成方法（１）＞では、生成される第３特徴マップＦＭ３は、５００次元の特徴マップであり、次元方向の数は変わらない。これに対し、＜足し算による生成方法（３）＞では、生成される第３特徴マップＦＭ３は、１０００次元の特徴マップとなる。すなわち、次元方向に特徴マップの数が増える。生成された１０００次元の第３特徴マップＦＭ３が次の顕著性ブロック層Ｌ１においてさらに畳み込み演算されることで、特徴量のバリエーションがさらに豊かになった第３特徴マップＦＭ３が生成される。

次に、図２２～図３０を参照して、物体検出装置２００の効果について説明する。

以下、ＳＥ（Ｓｑｕｅｅｚｅ－ａｎｄ－Ｅｘｃｉｔａｔｉｏｎ）ネットワークを「ＳＥＮｅｔ」と記載する。また、ＳＥＮｅｔが追加されたＶＧＧ＋ＢＮを「ＶＧＧ＋ＢＮ＋ＳＥ」と記載する。また、ＳＥＮｅｔが追加されたＲｅｓＮｅｔを「ＲｅｓＮｅｔ＋ＳＥ」と記載する。

以下、ＶＧＧによる特徴量抽出部を有し、かつ、ＳＳＤによる物体検出部を有する従来の物体検出装置（不図示）に「２００’＿１」の符号を用いる。また、ＶＧＧ＋ＢＮ＋ＳＥ又はＲｅｓＮｅｔ＋ＳＥによる特徴量抽出部を有し、かつ、ＳＳＤによる物体検出部を有する従来の物体検出装置（不図示）に「２００’＿２」の符号を用いる。すなわち、これらの物体検出装置２００’＿１，２００’＿２は、物体検出装置２００に対する比較対象となるものである。また、これらの物体検出装置２００’＿１，２００’＿２は、第１特徴マップ生成部３１に相当する部位を有しないものであり、かつ、第３特徴マップ生成部３３に相当する部位を有しないものである。

以下、個々の撮像画像における個々の物体のサイズに対する範囲について、中程度のサイズを含む範囲を「Ｍｅｄｉｕｍ」という。また、Ｍｅｄｉｕｍに含まれるサイズに比して小さいサイズを含む範囲を「Ｓｍａｌｌ」という。また、Ｍｅｄｉｕｍに含まれるサイズに比して大きいサイズを含む範囲を「Ｌａｒｇｅ」という。
具体的には、例えば、Ｓｍａｌｌは、３２×３２ピクセルより小さいサイズの物体を含む範囲であり、Ｍｅｄｉｕｍは、３２×３２ピクセルより大きく、９６×９６ピクセルより小さいサイズの物体を含む範囲であり、Ｌａｒｇｅは、９６×９６ピクセルよりも大きいサイズの物体を含む範囲である。

以下、例えば、ＣＭＳ－ＤＤ（ＣａｍｅｒａＭｏｎｉｔｏｒｉｎｇＳｙｓｔｅｍＤｒｉｖｉｎｇＤａｔａｓｅｔ）によるデータセットであって、図３に示す８個のクラスのうちの２個のクラスのみを分類対象に含むデータセットを「２ｃｌａｓｓ」と記載する。また、例えば、ＣＭＳ－ＤＤによるデータセットであって、図３に示す８個のクラスのうちの４個のクラスのみを分類対象に含むデータセットを「４ｃｌａｓｓ」と記載する。また、例えば、ＣＭＳ－ＤＤによるデータセットであって、図３に示す８個のクラスを分類対象に含むデータセットを「８ｃｌａｓｓ」と記載する。

図２２は、撮像画像の例を示している。

図２３は、図２２に示す撮像画像を示す画像データが物体検出装置２００に入力されたとき、物体検出装置２００にて生成される第１特徴マップＦＭ１に対応するフィーチャーマップの例を示している。より具体的には、図２３は、物体検出装置２００にて生成される顕著性マップに対応するフィーチャーマップの例を示している。

図２４は、図２２に示す撮像画像を示す画像データが物体検出装置２００’＿２に入力されたとき、物体検出装置２００’＿２にて生成される複数個の特徴マップＦＭ’のうちの１個の特徴マップＦＭ’に対応するフィーチャーマップの例を示している。より具体的には、図２４は、複数個の特徴マップＦＭ’のうちの第１の特徴マップＦＭ’に対応するフィーチャーマップの例を示している。

図２５は、図２２に示す撮像画像を示す画像データが物体検出装置２００に入力されたとき、物体検出装置２００にて生成される複数個の第３特徴マップＦＭ３のうちの１個の第３特徴マップＦＭ３に対応するフィーチャーマップの例を示している。より具体的には、図２５は、複数個の第３特徴マップＦＭ３のうちの第１の第３特徴マップＦＭ３に対応するフィーチャーマップの例を示している。

図２４に示すフィーチャーマップにおいては、検出対象となる物体（すなわち他車両）に対応する領域と異なる領域が活性化している。より具体的には、背景のうちの空に対応する領域が活性化している。これに対して、図２５に示すフィーチャーマップにおいては、検出対象となる物体（すなわち他車両）に対応する領域が活性化している。これは、図２３に示すフィーチャーマップに対応する顕著性マップを用いた重み付けがなされたことによるものである。

すなわち、ＳＥＮｅｔを使用した場合、大域特徴として広いエリアにて発火したフィーチャーマップがより良い特徴を得たものとして評価される。このため、実際には発火した領域の意味にまで踏み込んでいないことになる。このため、物体検出においては、顕著性のような物体由来の特徴により重み付けがなされる手法の方が優れるのである。

したがって、重み付け後の第３特徴マップＦＭ３を物体検出に用いることにより、特徴マップＦＭ’を物体検出に用いる場合に比して（すなわち仮に重み付け前の第１特徴マップＦＭ１を物体検出に用いる場合に比して）、以下のような効果が得られる。

第一に、物体検出の精度を向上することができる。また、物体らしさに係るコンテクスクトが考慮されることになるため、誤検出の発生を抑制することができる。

第二に、よりシャローなＣＮＮを用いて抽出された特徴量（すなわち第２特徴量及び第３特徴量）による物体検出を実現することができる。この結果、特徴量抽出部（すなわち第２特徴量抽出部２３）における演算量を低減することができる。

第三に、よりシャローなＣＮＮを用いることにより、プーリングによる空間的な情報の消失を抑制することができる。また、演算量の爆発的な増加を回避しつつ、個々の特徴マップ（すなわち個々の第２特徴マップＦＭ２及び個々の第３特徴マップＦＭ３）のサイズを大きくすることができる。この結果、小さい物体の検出を実現することができる。

特に、物体検出装置２００が電子ミラーに用いられるものである場合、車載用のプロセッサ４１又は処理回路４３を用いることが要求される。すなわち、安価なプロセッサ４１又は処理回路４３を用いることが要求される。換言すれば、低い演算能力を有するプロセッサ４１又は処理回路４３を用いることが要求される。他方、この場合、自車両の位置に対する遠い位置を走行中の他車両等を検出する観点から、小さい物体の検出を実現することが要求される。これに対して、物体検出装置２００を用いることにより、演算量を低減することができるとともに、小さい物体の検出を実現することができる。

図２６は、図２２に示す撮像画像に係る物体検出装置２００’＿２による検出結果の例を示している。これに対して、図２７は、図２２に示す撮像画像に係る物体検出装置２００による検出結果の例を示している。図２６及び図２７に示す如く、物体検出装置２００を用いることにより、物体検出装置２００’＿２を用いた場合に比して、小さい物体の検出を実現することができる。すなわち、自車両の位置に対する遠い位置を走行中の他車両等の検出を実現することができる。

図２８は、２ｃｌａｓｓを用いた場合における物体検出装置２００及び物体検出装置２００’＿１の各々による検出精度に係る実験結果を示す折れ線グラフである。図２９は、４ｃｌａｓｓを用いた場合における物体検出装置２００及び物体検出装置２００’＿１の各々による検出精度に係る実験結果を示す折れ線グラフである。図３０は、８ｃｌａｓｓを用いた場合における物体検出装置２００及び物体検出装置２００’＿１の各々による検出精度に係る実験結果を示す折れ線グラフである。図２８～図３０における縦軸の数値の単位は、ｍＡＰ（ｍｅａｎＡｖｅｒａｇｅＰｒｅｃｉｓｉｏｎ）である。ｍＡＰは、物体がどのくらいの認識率で捉えられたかを示す精度評価指標である。なお、ＶＧＧＮｅｔにおける層数は、４に設定されている。

図２８～図３０では、物体検出装置２００による検出精度に係る実験結果について、物体検出に用いる、重み付け後の第３特徴マップＦＭ３がどのような方法で生成されたかに応じた実験結果を示している。

図２８～図３０において、「ａｐｐｒｏａｃｈ２（ｍｕｌ）」で示す各数値は、一層目の顕著性ブロック層Ｌ１においてのみ上述の＜掛け算による生成方法（１）＞を用いて第３特徴マップＦＭ３が生成された場合の物体検出装置２００における検出精度に係る実験結果を示している。「ａｐｐｒｏａｃｈ２（ａｄｄ）」で示す各数値は、一層目の顕著性ブロック層Ｌ１においてのみ上述の＜足し算による生成方法（１）＞を用いて第３特徴マップＦＭ３が生成された場合の物体検出装置２００における検出精度に係る実験結果を示している。「ａｐｐｒｏａｃｈ３（ｍｕｌ）」で示す各数値は、一層目の顕著性ブロック層Ｌ１においてのみ上述の＜掛け算による生成方法（２）＞を用いて第３特徴マップＦＭ３が生成された場合の物体検出装置２００における検出精度に係る実験結果を示している。「ａｐｐｒｏａｃｈ３（ａｄｄ）」で示す各数値は、一層目の顕著性ブロック層Ｌ１においてのみ上述の＜足し算による生成方法（２）＞を用いて第３特徴マップＦＭ３が生成された場合の物体検出装置２００における検出精度に係る実験結果を示している。「ａｐｐｒｏａｃｈ４」で示す各数値は、各顕著性ブロック層Ｌ１において上述の＜足し算による生成方法（１）＞を用いて第３特徴マップＦＭ３が生成された場合の物体検出装置２００における検出精度に係る実験結果を示している。「ａｐｐｒｏａｃｈ４＿ａｄｖａｎｃｅ＿ｖ１」で示す各数値は、各顕著性ブロック層Ｌ１において上述の＜掛け算による生成方法（１）＞を用いて第３特徴マップＦＭ３が生成された場合の物体検出装置２００における検出精度に係る実験結果を示している。「ａｐｐｒｏａｃｈ４＿ａｄｖａｎｃｅ＿ｖ２」で示す各数値は、各顕著性ブロック層Ｌ１において上述の＜足し算による生成方法（２）＞を用いて第３特徴マップＦＭ３が生成された場合の物体検出装置２００における検出精度に係る実験結果を示している。「ａｐｐｒｏａｃｈ４＿ａｄｖａｎｃｅ＿ｖ３」で示す各数値は、各顕著性ブロック層Ｌ１において上述の＜足し算による生成方法（３）＞を用いて第３特徴マップＦＭ３が生成された場合の物体検出装置２００における検出精度に係る実験結果を示している。

また、図２８～図３０において、「ＶＧＧ」で示す各数値は、物体検出装置２００’＿１における検出精度に係る実験結果を示している。

図２８～図３０に示す如く、物体検出装置２００を用いることにより、物体検出装置２００’＿１を用いた場合に比して、物体に対する検出精度を向上することができる。すなわち、物体検出の精度を向上することができる。特に、Ｓｍａｌｌの評価は、低い演算能力を有するプロセッサ４１又は処理回路４３を用いることが要求される一方で小さい物体の検出を実現することが要求される車載用の電子ミラーでは重要となる。一般に、ＣＮＮでは、ディープなネットワーク（ＤｅｅｐＣＮＮｓ）を用いなければ小さい物体の特徴を取得することは難しいと言われる。一方、ディープなネットワークを用いると、演算速度が爆発的に遅くなる。そのため、演算量を削減しつつ、小さな物体の検出を実現することは難易度が高い傾向にある。
物体検出装置２００は、演算量を削減しつつ、小さい物体の検出に足りる特徴量を取得することができる。物体検出装置２００を用いることにより、演算量を低減することができるとともに、小さい物体の検出を実現することができる。

次に、物体検出装置２００の変形例について説明する。

個々の第１特徴量は、物体らしさに対応する中レベル特徴を用いたものであれば良い。すなわち、第１特徴量は、顕著性に限定されるものではない。第１特徴マップは、顕著性マップに限定されるものではない。例えば、第１特徴マップ生成部３１は、個々の撮像画像に対応する距離画像又はソナー画像を用いて、深度マップ（ＤｅｐｔｈＭａｐ）を生成するものであっても良い。または、例えば、第１特徴マップ生成部３１は、個々の撮像画像に対応する温度画像を用いて、熱マップ（ＴｈｅｒｍａｌＭａｐ）を生成するものであっても良い。すなわち、第２特徴量抽出部２３における重み付けは、いわゆる「Ｍｉｄｄｌｅ－ｌｅｖｅｌＳｅｎｓｏｒＦｕｓｉｏｎ」によるものであっても良い。
距離画像又はソナー画像は、例えば、距離センサ、ミリ波レーダ、ソナーセンサ、又は、赤外線センサから得られる。温度画像は、例えば、サーマルセンサから得られる。距離センサは、物体までの距離が正しく測定できるため、当該距離センサから得られた距離画像を用いた場合、物体らしさをあらわす第１特徴マップの精度が高くなる。ミリ波レーダは、悪天候時であっても物体までの距離を正確に測定できる。ソナーセンサ又は赤外線センサは、安価で近距離の物体位置を測定できる。サーマルセンサは、夜間の撮影に適している。

第１特徴マップ生成部３１が生成する第１特徴マップは、撮像画像に基づく顕著性マップ、距離画像又はソナー画像に基づく深度マップ、及び、熱画像に基づくヒートマップのうちの少なくとも一つとすることができる。
第１特徴マップ生成部３１は、例えば、距離画像、ソナー画像、又は、温度画像を用いて第１特徴マップを生成することで、上述したように、抽出する特徴に応じた第１特徴マップを生成することができるとともに、プライバシー保護の観点から匿名性の高い第１特徴マップの生成を行うことができる。
ここで、図３１は、第１特徴マップ生成部３１が、個々の撮像画像に対応する温度画像を用いて生成した、第１特徴マップとしての熱マップのイメージの一例を示す図である。熱マップは、人に対応する領域が活性化するため、人を検出したい場合の第１特徴マップとして用いられるのに適している。また、温度画像を用いて生成された熱マップは、撮像画像を用いて生成された第１特徴マップと比して、より夜間の人物検出に優れる。

また、第１特徴マップ生成部３１による第１特徴マップＦＭ１の生成方法は、顕著性推定に限定されるものではない。例えば、第１特徴マップ生成部３１は、顕著性推定に代えて又は加えて、画像勾配検出（ＥｄｇｅＤｅｔｅｃｔｉｏｎ）、物体らしさ推定（ＯｂｊｅｃｔｎｅｓｓＥｓｔｉｍａｔｉｏｎ）及び領域分割（Ｓｅｇｍｅｎｔａｔｉｏｎ）のうちの少なくとも一つを実行することにより第１特徴マップＦＭ１を生成するものであっても良い。

物体検出部２４における物体検出は、ＳＳＤに限定されるものではない。例えば、物体検出部２４における物体検出は、ＲｅｔｉｎａＮｅｔ、ＭａｓｋＲ－ＣＮＮ、ＹＯＬＯ又はＦａｓｔｅｒＲ－ＣＮＮによるものであっても良い。
また、例えば、物体検出部２４における物体検出は、ＥｆｆｉｃｉｅｎｔＤｅｔ（以下の参考文献３参照）によるものであっても良い。

［参考文献３］
Mingxing Tan, Ruoming Pang, Quoc V. Le,"EfficientDet: Scalable and Efficient Object Detection"; Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR), 2020, pp. 10781-10790

物体検出装置２００は、学習部２５を有するものであっても良い。物体検出装置２００における学習部２５は、カメラ１による撮像画像を学習用画像に用いて、第２特徴量抽出部２３及び物体検出部２４の学習をするものであっても良い。言い換えれば、物体検出装置２００における学習部２５は、カメラ１による撮像画像を入力とし、撮像画像における個々の物体の検出結果を出力する機械学習モデルを生成するものであっても良い。

以上のように、実施の形態１に係る物体検出装置２００は、カメラ１による撮像画像を示す画像データを取得する画像データ取得部２１と、画像データを用いて第１特徴マップＦＭ１を生成する第１特徴量抽出部２２と、画像データを用いて第２特徴マップＦＭ２を生成するとともに、当該第２特徴マップＦＭ２に対して第１特徴マップＦＭ１を用いた足し算又は掛け算を行って、当該第２特徴マップＦＭ２に対する重み付けをすることにより第３特徴マップＦＭ３を生成する第２特徴量抽出部２３と、第３特徴マップＦＭ３を用いて撮像画像における物体を検出する物体検出部２４と、を備え、第１特徴マップＦＭ１における第１特徴量は、物体らしさに対応する中レベル特徴を用いたものであり、第２特徴マップＦＭ２における第２特徴量は、高レベル特徴を用いたものである。これにより、物体検出の精度を向上することができる。また、演算量を低減することができる。また、小さい物体の検出を実現することができる。

また、実施の形態１に係る学習装置４００は、学習用画像を示す画像データを取得する画像データ取得部２１と、画像データを用いて第１特徴マップＦＭ１を生成する第１特徴量抽出部２２と、画像データを用いて第２特徴マップＦＭ２を生成するとともに、当該第２特徴マップＦＭ２に対して第１特徴マップＦＭ１を用いた足し算又は掛け算を行って、当該第２特徴マップＦＭ２に対する重み付けをすることにより第３特徴マップＦＭ３を生成する第２特徴量抽出部２３と、第３特徴マップＦＭ３を用いて学習用画像における物体を検出する物体検出部２４と、物体検出部２４による検出結果に応じて第２特徴量抽出部２３及び物体検出部２４の学習をする学習部２５と、を備え、第１特徴マップＦＭ１における第１特徴量は、物体らしさに対応する中レベル特徴を用いたものであり、第２特徴マップＦＭ２における第２特徴量は、高レベル特徴を用いたものである。これにより、物体検出装置２００用の学習装置４００を実現することができる。

実施の形態２．
図３２は、実施の形態２に係る物体検出装置を含む物体検出システムの要部を示すブロック図である。図３２を参照して、実施の形態２に係る物体検出装置を含む物体検出システムについて説明する。なお、図３２において、図１に示すブロックと同様のブロックには同一符号を付して説明を省略する。

図３２に示す如く、物体検出システム１００ａは、カメラ１、記憶装置２、時計４、記憶装置５及び物体検出装置２００ａを含むものである。記憶装置２は、特徴マップ記憶部１１を有している。記憶装置５は、時刻別パラメータ記憶部１３を有している。物体検出装置２００ａは、画像データ取得部２１、第１特徴量抽出部２２、第２特徴量抽出部２３、物体検出部２４、時刻情報取得部２６及びパラメータ選択部２７を有している。記憶装置５は、メモリにより構成されている。

時刻情報取得部２６は、時計４を用いて、時刻を示す情報（以下「時刻情報」という。）を取得するものである。時刻情報は、例えば、現在時刻を示すものである。

時刻別パラメータ記憶部１３は、複数個のパラメータセットが設定された複数個の機械学習モデルを含むデータベース（以下「時刻別学習済みパラメータデータベース」という。）を記憶するものである。個々のパラメータセットは、第１ニューラルネットワークＮＮ１用の学習済みパラメータを含むものであり、かつ、第２ニューラルネットワークＮＮ２用の学習済みパラメータを含むものである。

ここで、時刻別学習済みパラメータデータベースに含まれる複数個のパラメータセットは、互いに異なる時間帯に対応するものである。例えば、時刻別学習済みパラメータデータベースは、昼間（ｄａｙｔｉｍｅ）に対応するパラメータセット、夕刻（ｅｖｅｎｉｎｇ）に対応するパラメータセット、夕闇（ｄｕｓｋ）に対応するパラメータセット、及び夜間（ｎｉｇｈｔｔｉｍｅ）に対応するパラメータセットを含むものである。

パラメータ選択部２７は、時刻別学習済みパラメータデータベースに含まれる複数個のパラメータセットのうち、時刻情報が示す時刻を含む時間帯に対応するパラメータセットを選択するものである。パラメータ選択部２７は、当該選択されたパラメータセットを用いて、第１ニューラルネットワークＮＮ１におけるパラメータを設定するとともに、第２ニューラルネットワークＮＮ２におけるパラメータを設定するものである。

これにより、第２特徴量抽出部２３は、パラメータ選択部２７により設定されたパラメータを用いて第２特徴量抽出処理を実行するようになっている。また、物体検出部２４は、パラメータ選択部２７により設定されたパラメータを用いて物体検出処理を実行するようになっている。

換言すれば、第２特徴量抽出部２３は、パラメータ選択部２７により選択されたパラメータセットに含まれる学習済みパラメータを用いて第２特徴量抽出処理を実行するようになっている。また、物体検出部２４は、パラメータ選択部２７により選択されたパラメータセットに含まれる学習済みパラメータを用いて物体検出処理を実行するようになっている。

図３３は、実施の形態２に係る学習装置を含む学習システムの要部を示すブロック図である。図３３を参照して、実施の形態２に係る学習装置を含む学習システムについて説明する。なお、図３３において、図４に示すブロックと同様のブロックには同一符号を付して説明を省略する。

図３３に示す如く、学習システム３００ａは、記憶装置２、記憶装置３ａ、記憶装置５及び学習装置４００を含むものである。記憶装置２は、特徴マップ記憶部１１を有している。記憶装置３ａは、時刻別画像データ記憶部１４を有している。記憶装置５は、時刻別パラメータ記憶部１３を有している。学習装置４００は、画像データ取得部２１、第１特徴量抽出部２２、第２特徴量抽出部２３、物体検出部２４及び学習部２５を有している。

時刻別画像データ記憶部１４は、複数個の学習用画像データベースを記憶するものである。複数個の学習用画像データベースは、互いに異なる時間帯に対応するものである。例えば、複数個の学習用画像データベースは、昼間に対応する学習用画像データベース、夕刻に対応する学習用画像データベース、夕闇に対応する学習用画像データベース、及び夜間に対応する学習用画像データベースを含むものである。

すなわち、個々の学習用画像データベースに含まれる複数個の学習用画像は、対応する時間帯内の時刻にカメラ１と同様のカメラにより撮像されたものである。

学習システム３００ａにおいて、学習部２５による第２特徴量抽出部２３及び物体検出部２４の学習は、個々の学習用画像データベースを用いて実行されるようになっている。すなわち、かかる学習は、学習用画像データベース毎に実行されるようになっている。これにより、互いに異なる時間帯に対応する複数個のパラメータセットが設定された複数個の機械学習モデルが生成される。学習部２５は、当該生成された複数個のパラメータセットが設定された複数個の機械学習モデルを時刻別パラメータ記憶部１３に記憶させる。これにより、時刻別学習済みパラメータデータベースが生成される。

以下、時刻情報取得部２６の機能に「Ｆ６」の符号を用いることがある。また、パラメータ選択部２７の機能に「Ｆ７」の符号を用いることがある。

以下、時刻情報取得部２６により実行される処理を総称して「時刻情報取得処理」ということがある。また、パラメータ選択部２７により実行される処理を総称して「パラメータ選択処理」ということがある。

物体検出装置２００ａの要部のハードウェア構成は、実施の形態１にて図５及び図６を参照して説明したものと同様である。このため、図示及び説明を省略する。すなわち、物体検出装置２００ａは、複数個の機能Ｆ１～Ｆ４，Ｆ６，Ｆ７を有している。複数個の機能Ｆ１～Ｆ４，Ｆ６，Ｆ７の各々は、プロセッサ４１及びメモリ４２により実現されるものであっても良く、又は専用の処理回路４３により実現されるものであっても良い。また、処理回路４３は、複数個の機能Ｆ１～Ｆ４，Ｆ６，Ｆ７に対応する複数個の処理回路を含むものであっても良い。

学習装置４００の要部のハードウェア構成は、実施の形態１にて図７及び図８を参照して説明したものと同様である。このため、図示及び説明を省略する。

次に、図３４のフローチャートを参照して、物体検出装置２００ａの動作について説明する。なお、図３４において、図９に示すステップと同様のステップには同一符号を付して説明を省略する。

まず、時刻情報取得部２６が時刻情報取得処理を実行する（ステップＳＴ５）。次いで、パラメータ選択部２７がパラメータ選択処理を実行する（ステップＳＴ６）。次いで、ステップＳＴ１～ＳＴ４の処理が実行される。

学習装置４００の動作は、実施の形態１にて図１０のフローチャートを参照して説明したものと同様である。このため、図示及び説明を省略する。

このように、時刻別学習用画像データベースを学習に用いるとともに、時刻別学習済みパラメータデータベースを推論に用いることにより、物体検出の精度を更に向上することができる。すなわち、適切なネットワーク自由度（ＮｅｔｗｏｒｋＦｌｅｘｉｂｉｌｉｔｙ）を実現することができる。

なお、物体検出装置２００ａは、実施の形態１にて説明したものと同様の種々の変形例を採用することができる。

以上のように、実施の形態２に係る物体検出装置２００ａは、時刻情報を取得する時刻情報取得部２６と、時刻別学習済みパラメータデータベースに含まれるパラメータセットのうちの時刻情報が示す時刻に対応するパラメータセットを選択するパラメータ選択部２７と、を備え、第２特徴量抽出部２３は、パラメータ選択部２７により選択されたパラメータセットに含まれる学習済みパラメータを用いて第２特徴マップＦＭ２及び第３特徴マップＦＭ３を生成する。これにより、物体検出の精度を更に向上することができる。

実施の形態３．
図３５は、実施の形態３に係る物体検出装置を含む物体検出システムの要部を示すブロック図である。図３５を参照して、実施の形態３に係る物体検出装置を含む物体検出システムについて説明する。なお、図３５において、図１に示すブロックと同様のブロックには同一符号を付して説明を省略する。

図３５に示す如く、物体検出システム１００ｂは、カメラ１、記憶装置２、ロケータ６、記憶装置７及び物体検出装置２００ｂを含むものである。記憶装置２は、特徴マップ記憶部１１を有している。記憶装置７は、場所別パラメータ記憶部１５を有している。物体検出装置２００ｂは、画像データ取得部２１、第１特徴量抽出部２２、第２特徴量抽出部２３、物体検出部２４、場所情報取得部２８及びパラメータ選択部２９を有している。記憶装置７は、メモリにより構成されている。

場所情報取得部２８は、ロケータ６を用いて、場所を示す情報（以下「場所情報」という。）を取得するものである。より具体的には、場所情報は、自車両の現在位置に対応する場所の種別を示すものである。例えば、場所情報は、自車両の現在位置に対応する場所が都市圏（ｕｒｂａｎａｒｅａ）、幹線道路（ｈｉｇｈｗａｙ）及び郊外（ｓｕｂｕｒｂｓ）のうちのいずれであるかを示すものである。

場所別パラメータ記憶部１５は、複数個のパラメータセットが設定された複数個の機械学習モデルを含むデータベース（以下「場所別学習済みパラメータデータベース」という。）を記憶するものである。個々のパラメータセットは、第１ニューラルネットワークＮＮ１用の学習済みパラメータを含むものであり、かつ、第２ニューラルネットワークＮＮ２用の学習済みパラメータを含むものである。

ここで、場所別学習済みパラメータデータベースに含まれる複数個のパラメータセットは、互いに異なる場所に対応するものである。例えば、場所別学習済みパラメータデータベースは、首都圏に対応するパラメータセット、幹線道路に対応するパラメータセット、及び郊外に対応するパラメータセットを含むものである。

パラメータ選択部２９は、場所別学習済みパラメータデータベースに含まれる複数個のパラメータセットのうち、場所情報が示す場所に対応するパラメータセットを選択するものである。パラメータ選択部２９は、当該選択されたパラメータセットを用いて、第１ニューラルネットワークＮＮ１におけるパラメータを設定するとともに、第２ニューラルネットワークＮＮ２におけるパラメータを設定するものである。

これにより、第２特徴量抽出部２３は、パラメータ選択部２９により設定されたパラメータを用いて第２特徴量抽出処理を実行するようになっている。また、物体検出部２４は、パラメータ選択部２９により設定されたパラメータを用いて物体検出処理を実行するようになっている。

換言すれば、第２特徴量抽出部２３は、パラメータ選択部２９により選択されたパラメータセットに含まれる学習済みパラメータを用いて第２特徴量抽出処理を実行するようになっている。また、物体検出部２４は、パラメータ選択部２９により選択されたパラメータセットに含まれる学習済みパラメータを用いて物体検出処理を実行するようになっている。

図３６は、実施の形態３に係る学習装置を含む学習システムの要部を示すブロック図である。図３６を参照して、実施の形態３に係る学習装置を含む学習システムについて説明する。なお、図３６において、図４に示すブロックと同様のブロックには同一符号を付して説明を省略する。

図３６に示す如く、学習システム３００ｂは、記憶装置２、記憶装置３ｂ、記憶装置７及び学習装置４００を含むものである。記憶装置２は、特徴マップ記憶部１１を有している。記憶装置３ｂは、場所別画像データ記憶部１６を有している。記憶装置７は、場所別パラメータ記憶部１５を有している。学習装置４００は、画像データ取得部２１、第１特徴量抽出部２２、第２特徴量抽出部２３、物体検出部２４及び学習部２５を有している。

場所別画像データ記憶部１６は、複数個の学習用画像データベースを記憶するものである。複数個の学習用画像データベースは、互いに異なる場所に対応するものである。例えば、複数個の学習用画像データベースは、都市圏に対応する学習用画像データベース、幹線道路に対応する学習用画像データベース、及び郊外に対応する学習用画像データベースを含むものである。

すなわち、個々の学習用画像データベースに含まれる複数個の学習用画像は、対応する場所にてカメラ１と同様のカメラにより撮像されたものである。

学習システム３００ｂにおいて、学習部２５による第２特徴量抽出部２３及び物体検出部２４の学習は、個々の学習用画像データベースを用いて実行されるようになっている。すなわち、かかる学習は、学習用画像データベース毎に実行されるようになっている。これにより、互いに異なる場所に対応する複数個のパラメータセットが生成される。学習部２５は、当該生成された複数個のパラメータセットを場所別パラメータ記憶部１５に記憶させる。これにより、場所別学習済みパラメータデータベースが生成される。

以下、場所情報取得部２８の機能に「Ｆ８」の符号を用いることがある。また、パラメータ選択部２９の機能に「Ｆ９」の符号を用いることがある。

以下、場所情報取得部２８により実行される処理を総称して「場所情報取得処理」ということがある。また、パラメータ選択部２９により実行される処理を総称して「パラメータ選択処理」ということがある。

物体検出装置２００ｂの要部のハードウェア構成は、実施の形態１にて図５及び図６を参照して説明したものと同様である。このため、図示及び説明を省略する。すなわち、物体検出装置２００ｂは、複数個の機能Ｆ１～Ｆ４，Ｆ８，Ｆ９を有している。複数個の機能Ｆ１～Ｆ４，Ｆ８，Ｆ９の各々は、プロセッサ４１及びメモリ４２により実現されるものであっても良く、又は専用の処理回路４３により実現されるものであっても良い。また、処理回路４３は、複数個の機能Ｆ１～Ｆ４，Ｆ８，Ｆ９に対応する複数個の処理回路を含むものであっても良い。

次に、図３７のフローチャートを参照して、物体検出装置２００ｂの動作について説明する。なお、図３７において、図９に示すステップと同様のステップには同一符号を付して説明を省略する。

まず、場所情報取得部２８が場所情報取得処理を実行する（ステップＳＴ７）。次いで、パラメータ選択部２９がパラメータ選択処理を実行する（ステップＳＴ８）。次いで、ステップＳＴ１～ＳＴ４の処理が実行される。

学習装置４００の動作は、実施の形態１にて図１０を参照して説明したものと同様である。このため、図示及び説明を省略する。

このように、場所別学習用画像データベースを学習に用いるとともに、場所別学習済みパラメータデータベースを推論に用いることにより、物体検出の精度を更に向上することができる。すなわち、適切なネットワーク自由度を実現することができる。

なお、物体検出装置２００ｂは、実施の形態１にて説明したものと同様の種々の変形例を採用することができる。

以上のように、実施の形態３に係る物体検出装置２００ｂは、場所情報を取得する場所情報取得部２８と、場所別学習済みパラメータデータベースに含まれるパラメータセットのうちの場所情報が示す場所に対応するパラメータセットを選択するパラメータ選択部２９と、を備え、第２特徴量抽出部２３は、パラメータ選択部２９により選択されたパラメータセットに含まれる学習済みパラメータを用いて第２特徴マップＦＭ２及び第３特徴マップＦＭ３を生成する。これにより、物体検出の精度を更に向上することができる。

実施の形態４．
図３８は、実施の形態４に係るモニタリング装置を含むモニタリングシステムの要部を示すブロック図である。図３９は、実施の形態４に係るモニタリング装置における解析部及び出力制御部の要部を示すブロック図である。図３８及び図３９を参照して、実施の形態４に係るモニタリング装置を含むモニタリングシステムについて説明する。なお、図３８において、図１に示すブロックと同様のブロックには同一符号を付して説明を省略する。

図３８に示す如く、モニタリングシステム５００は、カメラ１、記憶装置２、出力装置８及びモニタリング装置６００を含むものである。モニタリング装置６００は、物体検出装置２００、解析部５１及び出力制御部５２を有している。

図３９に示す如く、解析部５１は、異常判定部６１、時間解析部６２、脅威判定部６３及び空間解析部６４を有している。出力制御部５２は、画像出力制御部６５及び音声出力制御部６６を有している。出力装置８は、ディスプレイ７１及びスピーカ７２を含むものである。

実施の形態１にて説明したとおり、カメラ１は、例えば、監視カメラ、防犯カメラ又は電子ミラー用のカメラにより構成されている。ここで、カメラ１が電子ミラー用のカメラにより構成されている場合、ディスプレイ７１は、電子ミラー用のディスプレイにより構成されている。すなわち、この場合、カメラ１及びディスプレイ７１により、電子ミラーの要部が構成されている。以下、この場合の例を中心に説明する。

異常判定部６１は、物体検出部２４による検出結果を用いて、個々の物体の異常度Ａを判定するものである。より具体的には、異常判定部６１は、位置推定部３４による推定結果を用いて、個々の物体の位置に基づき異常度Ａを判定するものである。

例えば、物体検出部２４により他車両が検出された場合において、かかる他車両が正常な位置（例えば所定値以上の車間距離に対応する位置）に位置しているときは、かかる他車両が異常な位置（例えば所定値未満の車間距離に対応する位置）に位置しているときに比して、異常度Ａが小さい値に設定される。他方、この場合において、かかる他車両が異常な位置（同上）に位置しているときは、かかる他車両が正常な位置（同上）に位置しているときに比して、異常度Ａが大きい値に設定される。

時間解析部６２は、物体検出部２４による検出結果を時間的に解析するものである。すなわち、時間解析部６２は、時間的に連続する複数個の撮像画像に対応する複数回分の物体検出処理の結果を時間的に解析するものである。換言すれば、時間解析部６２は、複数フレーム分の物体検出処理の結果を時間的に解析するものである。これにより、時間解析部６２は、カメラ１により撮像された動画における個々の物体のサイズの時間変化量ΔＳを算出するものである。

具体的には、例えば、時間解析部６２は、個々の物体に対応するバウンディングボックスの単位時間当たりの膨張率を算出する。時間解析部６２は、当該算出された膨張率を積算することにより時間変化量ΔＳを算出する。

脅威判定部６３は、物体検出部２４による検出結果を用いて、個々の物体の脅威度Ｔを判定するものである。より具体的には、脅威判定部６３は、種別推定部３５による推定結果を用いて、個々の物体の進行方向に基づき脅威度Ｔを判定するものである。

すなわち、実施の形態１にて説明したとおり、種別推定部３５により分類されるクラスは、物体の進行方向を含むものである。そこで、例えば、物体検出部２４により他車両が検出された場合において、かかる他車両が後続車両又は追越し車両であるときは、かかる他車両が対向車両であるときに比して、脅威度Ｔが大きい値に設定される。他方、この場合において、かかる他車両が対向車両であるときは、かかる車両が後続車両又は追越し車両であるときに比して、脅威度Ｔが小さい値に設定される。

また、脅威判定部６３は、時間解析部６２による解析結果を用いて、個々の物体の脅威度Ｔを判定するものである。

すなわち、脅威判定部６３は、個々の物体について、以下のような演算を実行する。脅威判定部６３は、時間解析部６２により時間変化量ΔＳが算出される毎に、当該算出された時間変化量ΔＳを閾値ΔＳｔｈと比較する。かかる時間変化量ΔＳが閾値ΔＳｔｈを超えているときは、かかる時間変化量ΔＳが閾値ΔＳｔｈ以下であるときに比して、脅威度Ｔが大きい値に設定される。他方、かかる時間変化量ΔＳが閾値ΔＳｔｈ以下であるときは、かかる時間変化量ΔＳが閾値ΔＳｔｈを超えているときに比して、脅威度Ｔが小さい値に設定される。このとき、閾値ΔＳｔｈは、対応する物体について過去に算出された時間変化量ΔＳの平均値ΔＳ＿ａｖｅに基づく値に設定される。

空間解析部６４は、異常判定部６１による判定結果及び脅威判定部６３による判定結果を空間的に解析することにより、リスクマップを生成するものである。リスクマップは、二次元状に配列された複数個のリスク値により構成されている。個々のリスク値は、対応する異常度Ａによる重み付けがなされた値であり、かつ、対応する脅威度Ｔによる重み付けがなされた値である。

このように、解析部５１は、物体検出部２４による検出結果を解析するものである。

画像出力制御部６５は、解析部５１による解析結果に対応する画像信号をディスプレイ７１に出力するものである。これにより、画像出力制御部６５は、解析部５１による解析結果に対応する画像をディスプレイ７１に表示させる制御を実行するものである。また、音声出力制御部６６は、解析部５１による解析結果に対応する音声信号をスピーカ７２に出力するものである。これにより、音声出力制御部６６は、解析部５１による解析結果に対応する音声をスピーカ７２に出力させる制御を実行するものである。

このように、出力制御部５２は、解析部５１による解析結果に対応する信号を出力装置８に出力するものである。以下、出力制御部５２により出力される信号を総称して「解析結果信号」ということがある。

ここで、画像出力制御部６５により出力される画像信号は、空間解析部６４により生成されたリスクマップを含む画像（以下「リスクマップ画像」という。）を示すものであっても良い。これにより、リスクマップ画像がディスプレイ７１に表示されるものであっても良い。

図４０は、リスクマップ画像の例を示している。図４０に示すリスクマップ画像に対応するリスクマップにおいては、２個の領域Ａ１，Ａ２におけるリスク値が他の領域におけるリスク値に比して高い値に設定されている。これにより、図４０に示すリスクマップ画像においては、２個の領域Ａ１，Ａ２における色が他の領域における色と異なる色により表示されている。２個の領域Ａ１，Ａ２は、例えば、２台の他車両にそれぞれ対応するものである。

このように、リスクマップ画像においては、リスクマップにおける個々のリスク値が可視化されている。ディスプレイ７１がリスクマップ画像を表示することにより、かかるリスク値を自車両の搭乗者に対して視覚的に提示することができる。

以下、解析部５１の機能に「Ｆ１１」の符号を用いることがある。また、出力制御部５２の機能に「Ｆ１２」の符号を用いることがある。

以下、物体検出装置２００により実行される処理を総称して「物体検出処理等」ということがある。すなわち、物体検出処理等は、画像データ取得処理、第１特徴量抽出処理、第２特徴量抽出処理及び物体検出処理を含むものである。また、解析部５１により実行される処理を総称して「解析処理」ということがある。また、出力制御部５２により実行される処理及び制御を総称して「出力制御」ということがある。

次に、図４１及び図４２を参照して、モニタリング装置６００の要部のハードウェア構成について説明する。

図４１に示す如く、モニタリング装置６００は、プロセッサ８１及びメモリ８２を有している。メモリ８２には、複数個の機能Ｆ１～Ｆ４，Ｆ１１，Ｆ１２に対応するプログラムが記憶されている。プロセッサ８１は、メモリ８２に記憶されているプログラムを読み出して実行する。これにより、複数個の機能Ｆ１～Ｆ４，Ｆ１１，Ｆ１２が実現される。

または、図４２に示す如く、モニタリング装置６００は、処理回路８３を有している。この場合、専用の処理回路８３により複数個の機能Ｆ１～Ｆ４，Ｆ１１，Ｆ１２が実現される。

または、モニタリング装置６００は、プロセッサ８１、メモリ８２及び処理回路８３を有している（不図示）。この場合、複数個の機能Ｆ１～Ｆ４，Ｆ１１，Ｆ１２のうちの一部の機能がプロセッサ８１及びメモリ８２により実現されるとともに、複数個の機能Ｆ１～Ｆ４，Ｆ１１，Ｆ１２のうちの残余の機能が専用の処理回路８３により実現される。

プロセッサ８１は、１個以上のプロセッサにより構成されている。個々のプロセッサは、例えば、ＣＰＵ、ＧＰＵ、マイクロプロセッサ、マイクロコントローラ又はＤＳＰを用いたものである。

メモリ８２は、１個以上の不揮発性メモリにより構成されている。または、メモリ８２は、１個以上の不揮発性メモリ及び１個以上の揮発性メモリにより構成されている。すなわち、メモリ８２は、１個以上のメモリにより構成されている。個々のメモリは、例えば、半導体メモリ、磁気ディスク、光ディスク、光磁気ディスク又は磁気テープを用いたものである。

処理回路８３は、１個以上のデジタル回路により構成されている。または、処理回路８３は、１個以上のデジタル回路及び１個以上のアナログ回路により構成されている。すなわち、処理回路８３は、１個以上の処理回路により構成されている。個々の処理回路は、例えば、ＡＳＩＣ、ＰＬＤ、ＦＰＧＡ、ＳｏＣ又はシステムＬＳＩを用いたものである。

ここで、処理回路８３が複数個の処理回路により構成されているとき、複数個の機能Ｆ１～Ｆ４，Ｆ１１，Ｆ１２と複数個の処理回路との対応関係は任意である。例えば、モニタリング装置６００は、複数個の機能Ｆ１～Ｆ４，Ｆ１１，Ｆ１２と一対一に対応する複数個の処理回路を有するものであっても良い。この場合、複数個の機能Ｆ１～Ｆ４，Ｆ１１，Ｆ１２の各々は、複数個の処理回路のうちの対応する１個の処理回路により専ら実現されるものであっても良い。

次に、図４３のフローチャートを参照して、モニタリング装置６００の動作について説明する。

まず、物体検出装置２００が物体検出処理等を実行する（ステップＳＴ２１）。次いで、解析部５１が解析処理を実行する（ステップＳＴ２２）。次いで、出力制御部５２が出力制御を実行する（ステップＳＴ２３）。

次に、図４４及び図４５を参照して、モニタリングシステム５００の変形例について説明する。

図４４に示す如く、モニタリング装置６００は、物体検出装置２００に代えて物体検出装置２００ａを有するものであっても良い。この場合、モニタリングシステム５００は、時計４及び記憶装置５を含むものであっても良い。

または、図４５に示す如く、モニタリング装置６００は、物体検出装置２００に代えて物体検出装置２００ｂを有するものであっても良い。この場合、モニタリングシステム５００は、ロケータ６及び記憶装置７を含むものであっても良い。

次に、モニタリング装置６００の変形例について説明する。

解析部５１は、異常判定部６１及び脅威判定部６３のうちのいずれか一方のみを有するものであっても良い。解析部５１が異常判定部６１のみを有するものである場合、リスクマップにおける個々のリスク値は、対応する異常度Ａによる重み付けがなされた値となる。他方、解析部５１が脅威判定部６３のみを有するものである場合、リスクマップにおける個々のリスク値は、対応する脅威度Ｔによる重み付けがなされた値となる。

脅威判定部６３は、種別推定部３５による推定結果に基づく脅威度Ｔの判定、及び時間解析部６２による解析結果に基づく脅威度Ｔの判定のうちのいずれか一方にのみを実行するものであっても良い。

出力制御部５２は、画像出力制御部６５及び音声出力制御部６６のうちのいずれか一方のみを有するものであっても良い。出力制御部５２が画像出力制御部６５のみを有するものである場合、出力装置８は、ディスプレイ７１及びスピーカ７２のうちのディスプレイ７１のみを含むものであっても良い。他方、出力制御部５２が音声出力制御部６６のみを有するものである場合、出力装置８は、ディスプレイ７１及びスピーカ７２のうちのスピーカ７２のみを含むものであっても良い。

次に、モニタリング装置６００における物体検出装置２００、物体検出装置２００ａ又は物体検出装置２００ｂの変形例について説明する。

上記のとおり、時間解析部６２は、物体検出部２４による検出結果を時間的に解析するものである。かかる解析に対応する観点から、モニタリング装置６００における物体検出装置２００、物体検出装置２００ａ又は物体検出装置２００ｂは、以下のように構成されたものであっても良い。

画像データ取得部２１は、時間的に連続する複数個の撮像画像（すなわち複数フレーム分の静止画）に対応する画像データを取得するものであっても良い。すなわち、画像データ取得部２１は、時系列データを取得するものであっても良い。

第１特徴量抽出部２２は、上記取得された時系列データを用いて、時間的な情報を含む特徴マップ（すなわち第１特徴マップＦＭ１）を生成するものであっても良い。また、第２特徴量抽出部２３は、上記取得された時系列データを用いて、時間的な情報を含む特徴マップ（すなわち個々の第２特徴マップＦＭ２及び個々の第３特徴マップＦＭ３）を生成するものであっても良い。

これにより、時間解析部６２による時間的な解析に対応することができるのはもちろんのこと、いわゆる「検出ぶれ」の発生を抑制することができる。すなわち、ある物体について、当該物体が検出される状態と当該物体が検出されない状態とが時間的に交互に繰り返される現象の発生を抑制することができる。

また、第１ニューラルネットワークＮＮ１は、上記取得された時系列データを時系列的に処理する構造を有するものであっても良い。例えば、第１ニューラルネットワークＮＮ１におけるＣＮＮは、ＬＳＴＭ（ＬｏｎｇＳｈｏｒｔＴｅｒｍＭｅｍｏｒｙ）ネットワークを用いたものであっても良い。

以上のように、実施の形態４に係るモニタリング装置６００は、物体検出装置２００、物体検出装置２００ａ又は物体検出装置２００ｂと、物体検出部２４による検出結果を解析する解析部５１と、解析部５１による解析結果に対応する解析結果信号を出力する出力制御部５２と、を備える。これにより、高精度な物体検出の結果に基づくモニタリングを実現することができる。

なお、本願開示はその開示の範囲内において、各実施の形態の自由な組み合わせ、あるいは各実施の形態の任意の構成要素の変形、もしくは各実施の形態において任意の構成要素の省略が可能である。

本開示に係る物体検出装置、モニタリング装置及び学習装置は、例えば、電子ミラーに用いることができる。

１カメラ、２記憶装置、３，３ａ，３ｂ記憶装置、４時計、５記憶装置、６ロケータ、７記憶装置、８出力装置、１１特徴マップ記憶部、１２画像データ記憶部、１３時刻別パラメータ記憶部、１４時刻別画像データ記憶部、１５場所別パラメータ記憶部、１６場所別画像データ記憶部、２１画像データ取得部、２２第１特徴量抽出部、２３第２特徴量抽出部、２４物体検出部、２５学習部、２６時刻情報取得部、２７パラメータ選択部、２８場所情報取得部、２９パラメータ選択部、３１第１特徴マップ生成部、３２第２特徴マップ生成部、３３第３特徴マップ生成部、３４位置推定部、３５種別推定部、３６第４特徴マップ生成部、４１プロセッサ、４２メモリ、４３処理回路、４４プロセッサ、４５メモリ、４６処理回路、５１解析部、５２出力制御部、６１異常判定部、６２時間解析部、６３脅威判定部、６４空間解析部、６５画像出力制御部、６６音声出力制御部、７１ディスプレイ、７２スピーカ、８１プロセッサ、８２メモリ、８３処理回路、１００，１００ａ，１００ｂ物体検出システム、２００，２００ａ，２００ｂ物体検出装置、３００，３００ａ，３００ｂ学習システム、４００学習装置、５００モニタリングシステム、６００モニタリング装置。

Claims

カメラによる撮像画像を示す画像データを取得する画像データ取得部と、
前記画像データを用いて第１特徴マップを生成する第１特徴量抽出部と、
前記画像データを用いて第２特徴マップを生成するとともに、当該第２特徴マップに対して前記第１特徴マップを用いた足し算又は掛け算を行って、当該第２特徴マップに対する重み付けをすることにより第３特徴マップを生成する第２特徴量抽出部と、
前記第３特徴マップを用いて前記撮像画像における物体を検出する物体検出部と、を備え、
前記第１特徴マップにおける第１特徴量は、物体らしさに対応する中レベル特徴を用いたものであり、
前記第２特徴マップにおける第２特徴量は、高レベル特徴を用いたものである
ことを特徴とする物体検出装置。
前記第２特徴量抽出部は、前記第１特徴マップにおける個々の前記第１特徴量を個々の前記第２特徴マップにおける対応する前記第２特徴量に足し合わせる足し算を行って、前記重み付けを行う
ことを特徴とする請求項１記載の物体検出装置。
前記第２特徴量抽出部は、前記第１特徴マップにおける個々の前記第１特徴量を、個々の前記第２特徴マップにおける対応する前記第２特徴量に掛ける掛け算を行って、前記重み付けを行う
ことを特徴とする請求項１記載の物体検出装置。
前記第１特徴量抽出部は、前記第１特徴マップから、それぞれ異なる第４特徴量により構成される複数の第４特徴マップを生成し、
前記第２特徴量抽出部は、前記第４特徴マップにおける個々の前記第４特徴量を前記第４特徴マップに対応する前記第２特徴マップにおける対応する前記第２特徴量に足し合わせる足し算を行って、前記重み付けを行う
ことを特徴とする請求項１記載の物体検出装置。
前記第１特徴量抽出部は、前記第１特徴マップから、それぞれ異なる第４特徴量により構成される複数の第４特徴マップを生成し、
前記第２特徴量抽出部は、前記第４特徴マップにおける個々の前記第４特徴量を前記第４特徴マップに対応する前記第２特徴マップにおける対応する前記第２特徴量に掛ける掛け算を行って、前記重み付けを行う
ことを特徴とする請求項１記載の物体検出装置。
前記第２特徴量抽出部は、前記第１特徴マップを前記第２特徴マップの次元方向に足し合わせる足し算を行って、前記重み付けを行う
ことを特徴とする請求項１記載の物体検出装置。
前記第１特徴量抽出部は、教師なし学習により学習自在であることを特徴とする請求項１記載の物体検出装置。
前記第２特徴量抽出部は、教師あり学習により学習自在であることを特徴とする請求項１記載の物体検出装置。
前記第２特徴量抽出部は、畳み込みニューラルネットワークを用いて前記第２特徴マップを生成することを特徴とする請求項８記載の物体検出装置。
前記第２特徴量抽出部は、深層学習により学習自在であることを特徴とする請求項９記載の物体検出装置。
前記第１特徴量抽出部が生成する前記第１特徴マップは、前記画像データとしての前記撮像画像に基づく顕著性マップ、前記画像データとしての距離画像又はソナー画像に基づく深度マップ、及び、前記画像データとしての熱画像に基づくヒートマップのうちの少なくとも一つであることを特徴とする請求項７記載の物体検出装置。
前記第２特徴量抽出部は、構造的類似性及び画像類似度相関のうち少なくとも一つに基づいて前記重み付けにおける重要度を設定する
ことを特徴とする請求項２から請求項５のうちのいずれか１項記載の物体検出装置。
前記重み付けがなされることにより、個々の前記第２特徴マップにおける個々の前記第２特徴量が対応する前記物体らしさに応じて補強されるものであることを特徴とする請求項１記載の物体検出装置。
前記物体検出部は、互いに異なるカーネルサイズによる複数回の畳み込み演算を実行することにより前記物体を検出することを特徴とする請求項１記載の物体検出装置。
前記物体検出部は、教師あり学習により学習自在であることを特徴とする請求項１記載の物体検出装置。
前記物体検出部は、回帰により前記物体の位置を推定するとともに、分類により前記物体の種別を推定することを特徴とする請求項１５記載の物体検出装置。
前記物体の種別は、前記物体の進行方向を含むことを特徴とする請求項１６記載の物体検出装置。
時刻情報を取得する時刻情報取得部と、
時刻別学習済みパラメータデータベースに含まれるパラメータセットのうちの前記時刻情報が示す時刻に対応するパラメータセットを選択するパラメータ選択部と、を備え、
前記第２特徴量抽出部は、前記パラメータ選択部により選択されたパラメータセットに含まれる学習済みパラメータを用いて前記第２特徴マップ及び前記第３特徴マップを生成する
ことを特徴とする請求項８記載の物体検出装置。
場所情報を取得する場所情報取得部と、
場所別学習済みパラメータデータベースに含まれるパラメータセットのうちの前記場所情報が示す場所に対応するパラメータセットを選択するパラメータ選択部と、を備え、
前記第２特徴量抽出部は、前記パラメータ選択部により選択されたパラメータセットに含まれる学習済みパラメータを用いて前記第２特徴マップ及び前記第３特徴マップを生成する
ことを特徴とする請求項８記載の物体検出装置。
請求項１記載の物体検出装置と、
前記物体検出部による検出結果を解析する解析部と、
前記解析部による解析結果に対応する解析結果信号を出力する出力制御部と、
を備えるモニタリング装置。
前記解析部は、前記物体の異常度を判定する異常判定部及び前記物体の脅威度を判定する脅威判定部のうちの少なくとも一方を有することを特徴とする請求項２０記載のモニタリング装置。
前記異常判定部は、前記物体検出部による検出結果が示す前記物体の位置に基づき前記異常度を判定することを特徴とする請求項２１記載のモニタリング装置。
前記脅威判定部は、前記物体検出部による検出結果が示す前記物体の進行方向に基づき前記脅威度を判定することを特徴とする請求項２１記載のモニタリング装置。
前記脅威判定部は、前記撮像画像における前記物体のサイズの時間変化量に基づき前記脅威度を判定することを特徴とする請求項２１記載のモニタリング装置。
前記解析部は、前記物体検出部による検出結果を時間的に解析することにより前記時間変化量を算出する時間解析部を有することを特徴とする請求項２４記載のモニタリング装置。
前記解析部は、前記異常判定部による判定結果及び前記脅威判定部による判定結果のうちの少なくとも一方を空間的に解析することによりリスクマップを生成する空間解析部を有することを特徴とする請求項２１記載のモニタリング装置。
前記出力制御部は、前記解析結果信号をディスプレイに出力することにより、前記リスクマップに対応するリスクマップ画像を前記ディスプレイに表示させることを特徴とする請求項２６記載のモニタリング装置。
学習用画像を示す画像データを取得する画像データ取得部と、
前記画像データを用いて第１特徴マップを生成する第１特徴量抽出部と、
前記画像データを用いて第２特徴マップを生成するとともに、当該第２特徴マップに対して前記第１特徴マップを用いた足し算又は掛け算を行って当該第２特徴マップに対する重み付けをすることにより第３特徴マップを生成する第２特徴量抽出部と、
前記第３特徴マップを用いて前記学習用画像における物体を検出する物体検出部と、
前記物体検出部による検出結果に応じて前記第２特徴量抽出部及び前記物体検出部の学習をする学習部と、を備え、
前記第１特徴マップにおける第１特徴量は、物体らしさに対応する中レベル特徴を用いたものであり、
前記第２特徴マップにおける第２特徴量は、高レベル特徴を用いたものである
ことを特徴とする学習装置。
画像データ取得部が、学習用画像を示す画像データを取得するステップと、
第１特徴量抽出部が、前記画像データを用いて第１特徴マップを生成するステップと、
第２特徴量抽出部が、前記画像データを用いて第２特徴マップを生成するとともに、当該第２特徴マップに対して前記第１特徴マップを用いた演算を行って当該第２特徴マップに対する重み付けをすることにより第３特徴マップを生成するステップと、
物体検出部が、前記第３特徴マップを用いて前記学習用画像における物体を検出するステップと、
学習部が、前記物体検出部による検出結果に応じて前記第２特徴量抽出部及び前記物体検出部の学習をして、前記画像データを入力とし前記物体の検出結果を出力する機械学習モデルを生成するステップとを備え、
前記第１特徴マップにおける第１特徴量は、物体らしさに対応する中レベル特徴を用いたものであり、
前記第２特徴マップにおける第２特徴量は、高レベル特徴を用いたものである
ことを特徴とするモデル生成方法。