JP6965298B2

JP6965298B2 - 物体検出装置、物体検出方法、プログラム、および移動体

Info

Publication number: JP6965298B2
Application number: JP2019050503A
Authority: JP
Inventors: 大祐小林
Original assignee: Toshiba Corp
Current assignee: Toshiba Corp
Priority date: 2019-03-18
Filing date: 2019-03-18
Publication date: 2021-11-10
Anticipated expiration: 2039-03-18
Also published as: US20200302222A1; EP3712803A1; JP2020154478A; US11113583B2

Description

本発明の実施の形態は、物体検出装置、物体検出方法、プログラム、および移動体に関する。

入力画像に含まれる物体を検出する技術が知られている。例えば、畳み込みニューラルネットワーク（ＣＮＮ：ＣｏｎｖｏｌｕｔｉｏｎａｌＮｅｕｒａｌＮｅｔｗｏｒｋ）を用いて、入力画像から解像度の異なる複数の画像を生成する。そして、生成した複数の画像から特徴を抽出することで、物体を検出する技術が知られている。

しかし、従来技術では、単に、解像度の異なる複数の画像を結合、または、含まれる要素の和を算出することで、物体を検出していた。このため、従来では局所的な特徴に応じた物体検出が行われており、物体検出精度が低下する場合があった。

Ｄｏｌｌaｒ，Ｐｉｏｔｒ，ＳｅｒｇｅＪ．Ｂｅｌｏｎｇｉｅ，ａｎｄＰｉｅｔｒｏＰｅｒｏｎａ．"Ｔｈｅｆａｓｔｅｓｔｐｅｄｅｓｔｒｉａｎｄｅｔｅｃｔｏｒｉｎｔｈｅｗｅｓｔ．"ＢＭＶＣ２０１０，２０１０．ＬｉｕＷｅｉ，ｅｔａｌ．"Ｓｓｄ：Ｓｉｎｇｌｅｓｈｏｔｍｕｌｔｉｂｏｘｄｅｔｅｃｔｏｒ．"Ｅｕｒｏｐｅａｎｃｏｎｆｅｒｅｎｃｅｏｎｃｏｍｐｕｔｅｒｖｉｓｉｏｎ．Ｓｐｒｉｎｇｅｒ，Ｃｈａｍ，２０１６．

本発明は、上記に鑑みてなされたものであって、物体検出精度の向上を図ることができる、物体検出装置、物体検出方法、プログラム、および移動体を提供することを目的とする。

実施の形態の物体検出装置は、入力画像から、少なくとも一部の要素の特徴量が異なる複数の第１の特徴マップを算出する算出部と、複数の前記第１の特徴マップに基づいて、前記第１の特徴マップ中の位置方向および複数の前記第１の特徴マップ間の関係方向によって規定される第１の空間的に関係性の高い要素であるほど高い第１の重み付け値が規定された空間注目マップを生成する第１の生成部と、複数の第１の特徴マップの各々に、前記空間注目マップに示される第１の重み付け値に応じた重み付けを行い、複数の第２の特徴マップを生成する第２の生成部と、複数の前記第２の特徴マップを用いて、前記入力画像に含まれる物体を検出する検出部と、を備える。

物体検出装置のブロック図。処理部が実行する処理の概要図。空間注目マップおよび第２の特徴マップの生成の説明図。空間注目マップの模式図。第１の結合マップの模式図。第３の結合マップの模式図。第２の特徴マップの模式図。表示画像の模式図。物体検出処理の流れを示すフローチャート。物体検出装置のブロック図。処理部が実行する処理の概要図。時間注目マップおよび第３の特徴マップの生成の説明図。時間注目マップの模式図。第４の結合マップの模式図。第５の結合マップの模式図。第３の特徴マップの模式図。物体検出処理のフローチャート。物体検出装置の適用形態を示す図。物体検出装置のハードウェア構成図。

以下に添付図面を参照して、物体検出装置、物体検出方法、プログラム、および移動体を詳細に説明する。

（第１の実施の形態）
図１は、本実施の形態の物体検出装置１０の構成の一例を示すブロック図である。

物体検出装置１０は、入力画像に含まれる物体を検出する装置である。

物体検出装置１０は、処理部１２と、記憶部１４と、出力部１６と、を備える。処理部１２と、記憶部１４および出力部１６とは、バス１７を介してデータまたは信号を授受可能に接続されている。

記憶部１４は、各種のデータを記憶する。記憶部１４は、例えば、ＲＡＭ（ＲａｎｄｏｍＡｃｃｅｓｓＭｅｍｏｒｙ）、フラッシュメモリ等の半導体メモリ素子、ハードディスク、光ディスク等である。なお、記憶部１４は、物体検出装置１０の外部に設けられた記憶装置であってもよい。また、記憶部１４は、記憶媒体であってもよい。具体的には、記憶媒体は、プログラムや各種情報を、ＬＡＮ（ＬｏｃａｌＡｒｅａＮｅｔｗｏｒｋ）やインターネットなどを介してダウンロードして記憶または一時記憶したものであってもよい。また、記憶部１４を、複数の記憶媒体から構成してもよい。

出力部１６は、各種の情報を表示する表示機能、音を出力する音出力機能、外部装置との間でデータを通信する通信機能、の少なくとも１つを備える。外部装置とは、物体検出装置１０の外部に設けられた装置である。物体検出装置１０と外部装置とは、ネットワークなどを介して通信可能とすればよい。例えば、出力部１６は、公知の表示装置、公知のスピーカ、および公知の通信装置の少なくとも１つを組み合わせることで構成される。

処理部１２は、取得部１２Ａと、算出部１２Ｂと、第１の生成部１２Ｃと、第２の生成部１２Ｄと、検出部１２Ｅと、出力制御部１２Ｆと、を備える。

取得部１２Ａ、算出部１２Ｂ、第１の生成部１２Ｃ、第２の生成部１２Ｄ、検出部１２Ｅ、および出力制御部１２Ｆは、例えば、１または複数のプロセッサにより実現される。例えば上記各部は、ＣＰＵ（ＣｅｎｔｒａｌＰｒｏｃｅｓｓｉｎｇＵｎｉｔ）などのプロセッサにプログラムを実行させること、すなわちソフトウェアにより実現してもよい。上記各部は、専用のＩＣなどのプロセッサ、すなわちハードウェアにより実現してもよい。上記各部は、ソフトウェアおよびハードウェアを併用して実現してもよい。複数のプロセッサを用いる場合、各プロセッサは、各部のうち１つを実現してもよいし、各部のうち２以上を実現してもよい。

図２は、本実施の形態の処理部１２が実行する処理の概要図である。本実施の形態では、処理部１２は、入力画像１８から複数の第１の特徴マップ２０を生成する。そして、処理部１２は、複数の第１の特徴マップ２０を用いて、空間注目マップ３０を生成する。処理部１２は、生成した空間注目マップ３０を用いて、第１の特徴マップ２０に重み付けを行うことで、第２の特徴マップ４０を生成する。処理部１２は、第２の特徴マップ４０を用いて、入力画像１８に含まれる物体を検出する。入力画像１８、第１の特徴マップ２０、空間注目マップ３０、および第２の特徴マップ４０の詳細は後述する。

図１に戻り、処理部１２の各部について詳細に説明する。

取得部１２Ａは、入力画像１８を取得する。入力画像１８は、物体を検出する対象の画像データである。

入力画像１８は、例えば、画素ごとに画素値を規定したビットマップ画像、および、ベクター画像、の何れであってもよい。本実施の形態では、入力画像１８は、ビットマップ画像である場合を一例として説明する。なお、入力画像１８がベクター画像である場合には、処理部１２は、ビットマップ画像に変換すればよい。

入力画像１８は、予め記憶部１４に記憶すればよい。そして、取得部１２Ａは、記憶部１４から入力画像１８を読取ることで、入力画像１８を取得する。なお、取得部１２Ａは、出力制御部１２Ｆを介して外部装置または撮影装置から、入力画像１８を取得してもよい。撮影装置は、撮影によって撮影画像データを得る公知の装置である。取得部１２Ａは、撮影画像データを撮影装置から受付けることで、撮影画像データである入力画像１８を取得してもよい。

算出部１２Ｂは、入力画像１８から、複数の第１の特徴マップ２０を生成する。例えば、図２に示すように、算出部１２Ｂは、１つの入力画像１８から、複数の第１の特徴マップ２０を生成する。図２には、一例として、５つの第１の特徴マップ２０（第１の特徴マップ２０Ａ〜第１の特徴マップ２０Ｄ）を生成する場合を示した。なお、算出部１２Ｂが生成する第１の特徴マップ２０の数は、複数であればよく、その数は限定されない。

第１の特徴マップ２０は、要素ＦＡごとに、特徴量を規定したマップである。要素ＦＡとは、第１の特徴マップ２０を複数領域に分割した各領域を示す。要素ＦＡのサイズは、第１の特徴マップ２０の生成時に用いるカーネルによって定まる。カーネルは、フィルタと称される場合がある。具体的には、第１の特徴マップ２０の要素ＦＡは、該第１の特徴マップ２０の算出元として用いた入力画像１８の、１または複数の画素の画素領域に相当する。

特徴量は、各要素ＦＡの特徴を表す値である。特徴量は、入力画像１８から第１の特徴マップ２０を算出する時に用いるカーネルにより要素ＦＡごとに抽出される。特徴量は、例えば、入力画像１８における対応する画素の画素値に応じた値となる。特徴量の抽出には、公知の画像処理技術を用いればよい。

複数の第１の特徴マップ２０は、少なくとも一部の要素ＦＡの特徴量が異なる。

詳細には、例えば、本実施の形態では、複数の第１の特徴マップ２０は、解像度およびスケールの少なくとも一方が互いに異なる。スケールが異なるとは、拡大率および縮小率の少なくとも一方が異なる事を示す。

算出部１２Ｂは、１つの入力画像１８から、解像度およびスケールの少なくとも一方の異なる複数の第１の特徴マップ２０を算出する。この算出により、算出部１２Ｂは、少なくとも一部の要素ＦＡの特徴量が異なる複数の第１の特徴マップ２０を生成する。

算出部１２Ｂは、公知の方法を用いて、入力画像１８から複数の第１の特徴マップ２０を算出すればよい。例えば、算出部１２Ｂは、公知の畳み込みニューラルネットワーク（ＣＮＮ：ＣｏｎｖｏｌｕｔｉｏｎａｌＮｅｕｒａｌＮｅｔｗｏｒｋ）を用いて、入力画像１８から複数の第１の特徴マップ２０（第１の特徴マップ２０Ａ〜第１の特徴マップ２０Ｅ）を算出する。

この場合、算出部１２Ｂは、公知の畳み込み演算の繰返しにより、入力画像１８から得られる複数のテンソルの各々を、第１の特徴マップ２０として算出する。

なお、算出部１２Ｂは、入力画像１８に対して、プーリング（Ｐｏｏｌｉｎｇ）と称されるノイズ処理を行うことで、入力画像１８から複数の第１の特徴マップ２０を算出してもよい。また、算出部１２Ｂは、入力画像１８に対して、畳み込み演算とプーリングとを交互に繰り返すことで、複数の第１の特徴マップ２０を算出してもよい。

本実施の形態では、算出部１２Ｂは、ＣＮＮを用いて、入力画像１８の畳み込み演算を順次繰り返すことで、少なくとも解像度の異なる複数の第１の特徴マップ２０（第１の特徴マップ２０Ａ〜第１の特徴マップ２０Ｅ）を算出する形態を、一例として説明する。

このため、図２に示すように、入力画像１８から、複数の第１の特徴マップ２０（第１の特徴マップ２０Ａ〜第１の特徴マップ２０Ｅ）が生成される。

図１に戻り説明を続ける。次に、第１の生成部１２Ｃについて説明する。第１の生成部１２Ｃは、複数の第１の特徴マップ２０に基づいて、空間注目マップ３０を生成する。空間注目マップ３０の生成に用いる第１の特徴マップ２０は、複数であればよい。このため、第１の生成部１２Ｃは、算出部１２Ｂが算出した複数の第１の特徴マップ２０の全てを用いる形態に限定されない。本実施の形態では、第１の生成部１２Ｃは、算出部１２Ｂによって算出された複数の第１の特徴マップ２０（第１の特徴マップ２０Ａ〜第１の特徴マップ２０Ｅ）の内の一部である、複数の第１の特徴マップ２０（第１の特徴マップ２０Ｂ〜第１の特徴マップ２０Ｅ）を、空間注目マップ３０の生成に用いる形態を説明する。

図３Ａは、空間注目マップ３０の生成および第２の特徴マップ４０の生成の一例の説明図である。

図３Ａに示すように、第１の生成部１２Ｃは、複数の第１の特徴マップ２０（第１の特徴マップ２０Ｂ〜第１の特徴マップ２０Ｅ）から、空間注目マップ３０を生成する。

図３Ｂは、空間注目マップ３０の一例を示す模式図である。空間注目マップ３０は、要素Ｆごとに重み付け値を規定したものである。空間注目マップ３０の各要素Ｆの重み付け値は、第１の生成部１２Ｃによる生成（学習）によって更新される。空間注目マップ３０の、この更新後の値である要素Ｆの重み付け値が高いほど、第１の空間Ｐ１的な関係性が高い事を意味する。このため、更新後、すなわち、生成された空間注目マップ３０の各要素Ｆには、第１の空間Ｐ１的に関係性が高い要素Ｆであるほど、高い重み付け値（第１の重み付け値）が規定されたものとなる。言い換えると、生成された空間注目マップ３０は、第１の空間Ｐ１的に関係性のある要素Ｆである第１の要素Ｆ１には、第１の要素Ｆ１以外の要素Ｆより高い第１の重み付け値が規定されたものとなる。また、空間注目マップ３０は、第１の空間Ｐ１的に関係性の低い要素Ｆであるほど、低い重み付け値が規定されたものとなる。なお、本実施の形態および以下の実施の形態で説明するマップの要素を総称して説明する場合には、要素Ｆと称して説明する場合がある。

図３Ａに示すように、第１の空間Ｐ１は、第１の特徴マップ２０中の位置方向および複数の第１の特徴マップ２０間の関係方向によって規定される多次元空間である。

第１の特徴マップ２０中の位置方向とは、第１の特徴マップ２０の要素ＦＡの配列面である二次元平面に沿った方向である。この配列面は、入力画像１８の画素の配列面に相当する。

具体的には、第１の特徴マップ２０の要素ＦＡの配列面は、要素Ｆの特定の配列方向である第１の位置方向（矢印Ｈ方向参照）と、第１の特徴マップ２０の要素ＦＡの配列面に沿った、該第１の位置方向Ｈに直交する第２の位置方向（矢印Ｗ方向）と、によって形成される二次元平面である。なお、以下では、第１の位置方向を、第１の位置方向Ｈ、第２の位置方向を、第２の位置方向Ｗと称して説明する場合がある。

複数の第１の特徴マップ２０間の関係方向とは、複数の第１の特徴マップ２０を、解像度順またはスケール順に配列したときの、該配列方向を意味する。すなわち、互いに解像度の異なる複数の第１の特徴マップ２０が算出された場合、関係方向は、解像度の増減方向に一致する。また、互いにスケールの異なる複数の第１の特徴マップ２０が算出された場合、関係方向は、スケールの拡大縮小方向に一致する。図３Ａに示す例の場合、関係方向は、矢印Ｌ方向に一致する。以下では、関係方向を、関係方向Ｌと称して説明する場合がある。

このため、第１の空間Ｐ１は、第１の位置方向Ｈ、第２の位置方向Ｗ、および関係方向Ｌによって規定される３次元空間である。

第１の生成部１２Ｃによる生成（学習）によって、空間注目マップ３０の要素Ｆごとの重み付け値が更新される。この更新後の値である要素Ｆの重み付け値が高いほど、第１の空間Ｐ１的な関係性が高い事を意味する。

複数の第１の特徴マップ２０間で対応する要素ＦＡの要素群とは、該要素群に属する複数の要素Ｆの各々の算出に用いた算出元の入力画像１８の画素が、同じ画素位置の画素であることを意味する。すなわち、該要素群に属する要素Ｆは、入力画像１８における同じ画素位置の画素から生成された要素Ｆであり、互いに異なる第１の特徴マップ２０中の要素Ｆである。

本実施の形態では、第１の生成部１２Ｃは、以下の方法により、第１の特徴マップ２０から空間注目マップ３０を生成する。

詳細には、第１の生成部１２Ｃは、複数の第１の特徴マップ２０間で対応する要素ＦＡの要素群ごとに、関係方向Ｌおよび位置方向（第１の位置方向Ｈ、第２の位置方向Ｗ）の各々に沿った、特徴量のベクトル列の内積結果を算出する。

本実施の形態では、特徴量の種類が、２５６である場合を一例として説明する。特徴量の種類の数は、チャネル数と称される場合がある。なお、特徴量の種類は、２５６に限定されない。特徴量の種類が２５６である場合、第１の生成部１２Ｃは、第１の位置方向Ｈ、第２の位置方向Ｗ、および関係方向Ｌの各々の方向に沿った、２５６種類の特徴量のベクトル列の内積結果を算出する。

そして、第１の生成部１２Ｃは、各要素Ｆの内積結果を第１の重み付け値として要素Ｆごとに規定した、空間注目マップ３０を生成する。

このため、例えば、図３Ｂに示す空間注目マップ３０が生成される。上述したように、空間注目マップ３０は、要素ＦＣごとに重み付け値を規定したものである。空間注目マップ３０の各要素ＦＣの重み付け値は、第１の生成部１２Ｃによる生成（学習）によって更新される。空間注目マップ３０の、この更新後の値である要素ＦＣの重み付け値が高いほど、第１の空間Ｐ１的な関係性が高い事を意味する。空間注目マップ３０の要素ＦＣは、第１の特徴マップ２０の要素Ｆに対応する。

図３Ａに戻り説明を続ける。なお、第１の生成部１２Ｃは、複数の第１の特徴マップ２０を互いに異なる重み値で線形埋込した複数の結合マップを用いて、空間注目マップ３０を生成してもよい。複数の結合マップを用いて空間注目マップ３０を生成することで、空間注目マップ３０の精度向上を図ることができる。

詳細には、例えば、第１の生成部１２Ｃは、複数の第１の特徴マップ２０（第１の特徴マップ２０Ｂ〜第１の特徴マップ２０Ｅ）間で対応する要素Ｆの要素群ごとに、該要素群に含まれる要素Ｆの各々の特徴量を線形埋込した、第１の結合マップ２１を生成する。

図３Ｃは、第１の結合マップ２１の一例を示す模式図である。第１の結合マップ２１を構成する要素ＦＢは、第１の特徴マップ２０間で対応する要素ＦＡの要素群から構成される。

このため、第１の結合マップ２１は、ＬＨＷ×２５６のテンソルである。Ｌは上記関係方向Ｌに相当し、Ｈは上記第１の位置方向Ｈに相当し、Ｗは上記第２の位置方向Ｗに相当する。また、第１の結合マップ２１に含まれる各要素ＦＢの特徴量は、複数の第１の特徴マップ２０間で対応する要素ＦＡの要素群ごとに、該要素群に含まれる複数の要素Ｆの各々の特徴量を線形埋込した値となる。

本実施の形態では、第１の生成部１２Ｃは、公知の線形埋込方法を用いて、第１の結合マップ２１を生成すればよい。

図３Ａに戻り説明を続ける。なお、本実施の形態では、第１の生成部１２Ｃは、複数の第１の特徴マップ２０から、線形埋込時の重み値の異なる複数の第１の結合マップ２１（第１の結合マップ２１Ａ、第１の結合マップ２１Ｂ）を生成する（ステップＳ１、ステップＳ２参照）。これらの第１の結合マップ２１Ａおよび第１の結合マップ２１Ｂの構成は、図３Ｃに示す第１の結合マップ２１と同様である。

ここで、複数の第１の特徴マップ２０間で対応する要素ＦＡの要素群の各々を“ｘ”と表す。すると、該要素群である要素ＦＢから構成される第１の結合マップ２１は、第１の特徴マップ２０の要素群“ｘ”を用いた関数で表される。具体的には、例えば、第１の結合マップ２１Ａは、ｆ（ｘ）で表される。また、第１の結合マップ２１Ｂは、ｇ（ｘ）で表される。

そして、第１の生成部１２Ｃは、複数の第１の結合マップ２１（第１の結合マップ２１Ａ、第１の結合マップ２１Ｂ）間で対応する要素ＦＢごとに、関係方向Ｌおよび位置方向（第１の位置方向Ｈ、第２の位置方向Ｗ）の各々に沿った特徴量のベクトル列の内積結果を、第１の重み付け値として規定した、空間注目マップ３０を生成する（ステップＳ３、ステップＳ４、ステップＳ５）。

例えば、第１の生成部１２Ｃは、公知のＳｏｆｔｍａｘ関数を使用し、下記式（１）を用いて、空間注目マップ３０を生成する。

式（１）中、αｉ，ｊは、ＬＨＷ×ＬＨＷのテンソルを示す。ｆ（ｘｉ），ｇ（ｘｊ）は、ＬＨＷ×２５６のテンソルを示す。ｆ（ｘｉ）ＴのＴは、ｆ（ｘｉ）の転置を表しており、２５６×ＬＨＷのテンソルを示す。ｉ，ｊは、ＬＨＷの位置を示す。

第１の生成部１２Ｃは、第１の結合マップ２１Ａと第１の結合マップ２１Ｂとの対応する要素ＦＢごとに、要素ＦＢの特徴量を上記式（１）へ代入する。この処理により、第１の生成部１２Ｃは、空間注目マップ３０の要素ＦＣごとに第１の重み付け値を算出する。そして、第１の生成部１２Ｃは、要素ＦＣごとに第１の重み付け値を規定した空間注目マップ３０を生成する。このため、空間注目マップ３０は、ＬＨＷ×ＬＨＷのテンソルの空間注目マップ３０となる（図３Ｂ参照）。

図１に戻り説明を続ける。第２の生成部１２Ｄは、複数の第１の特徴マップ２０の各々に、空間注目マップ３０に示される第１の重み付け値に応じた重み付けを行う。この処理により、第２の生成部１２Ｄは、複数の第１の特徴マップ２０の各々に対応する第２の特徴マップ４０を生成する。

図３Ａを用いて説明する。例えば、第２の生成部１２Ｄは、複数の第１の特徴マップ２０から、第２の結合マップ２２を生成する（ステップＳ６）。第２の生成部１２Ｄは、第１の結合マップ２１と同様にして、複数の第１の特徴マップ２０から第２の結合マップ２２を生成する。このとき、第２の生成部１２Ｄは、第１の結合マップ２１とは異なる重み値で線形埋込を行うことで、第２の結合マップ２２を生成する。このため、図３Ｃに示すように、第２の結合マップ２２は、複数の第１の特徴マップ２０間で対応する要素ＦＡの要素群を１つの要素ＦＢとして規定した、結合マップとなる。

図３Ａに戻り説明を続ける。ここで、複数の第１の特徴マップ２０間で対応する要素ＦＡの要素群の各々を“ｘ”と表す。すると、該要素群である要素ＦＢから構成される第２の結合マップ２２は、第１の特徴マップ２０の要素群“ｘ”を用いた関数で表される。具体的には、例えば、第２の結合マップ２２は、ｈ（ｘ）で表される。

そして、図３Ａに示すように、第２の生成部１２Ｄは、空間注目マップ３０を用いて第２の結合マップ２２に重み付けを行い（ステップＳ５、ステップＳ７）、第２の特徴マップ４０を生成する（ステップＳ８、ステップＳ１０）。

本実施の形態では、第２の生成部１２Ｄは、空間注目マップ３０を用いて第２の結合マップ２２に重み付けを行い（ステップＳ５、ステップＳ７）、第３の結合マップを生成する（ステップＳ８）。そして、第２の生成部１２Ｄは、該第３の結合マップを用いて、第２の特徴マップ４０を生成する（ステップＳ１０）。

例えば、第２の生成部１２Ｄは、第２の結合マップ２２に含まれる各要素ＦＢの特徴量の各々に、空間注目マップ３０に示される対応する要素ＦＣに規定された第１の重み値に応じた重み付けを行う。

詳細には、第２の生成部１２Ｄは、第２の結合マップ２２に含まれる要素ＦＢごとに、該要素ＦＢの特徴量に、空間注目マップ３０における対応する要素ＦＣの第１の重み付け値を加算または乗算する。要素ＦＢに対応する要素ＦＣとは、算出元の入力画像１８における画素位置が同じであることを意味する。ここでは、重み付けの方法として、乗算を用いる場合を一例として説明する。そして、第２の生成部１２Ｄは、乗算結果を、第２の結合マップ２２の要素ＦＢごとの重み付け後の特徴量として得る。同様にして、第２の生成部１２Ｄは、第２の結合マップ２２の全ての要素ＦＢに、同様の処理を行うことで、第３の結合マップを生成する。

図３Ｄは、第３の結合マップ４２の一例の模式図である。第３の結合マップ４２は、複数の要素ＦＥから構成される。要素ＦＥは、第２の結合マップ２２に含まれる要素ＦＢに対応する。すなわち、第３の結合マップ４２の各要素ＦＥは、複数の第１の特徴マップ２０間で対応する要素ＦＡの要素群の各々に相当する。このため、第３の結合マップ４２は、ＬＨＷ×２５６のテンソルである。また、第３の結合マップ４２を構成する要素ＦＥには、空間注目マップ３０を用いて重み付けした後の特徴量が規定されることとなる。

図３Ａに戻り説明を続ける。そして、第２の生成部１２Ｄは、第３の結合マップ４２をＬ×Ｈ×Ｗ×２５６に変形し、該第３の結合マップ４２を複数の第２の特徴マップ４０に分離する（ステップＳ１０）。

図３Ｅは、複数の第２の特徴マップ４０の一例を示す模式図である。複数の第２の特徴マップ４０を構成する要素ＦＤには、第１の特徴マップ２０の要素ＦＡの特徴量を、空間注目マップ３０によって補正した値が規定された状態となる。言い換えると、複数の第２の特徴マップ４０の各々を構成する要素ＦＤは、該要素ＦＤの内、第１の空間Ｐ１的に関係性のある要素ＦＤの特徴量が、他の要素Ｆの特徴量より、高い値（大きい値）を示すものとなる。

具体的には、第２の生成部１２Ｄは、下記式（２）を用いて、第２の特徴マップ４０を生成する。

式（２）中、“ｙ”は、第２の特徴マップ４０の要素ＦＤの値を示す。α_ｊ，ｉ、ｊおよびｉは、上記式（１）と同様である。ｈ（ｘ_ｉ）は、第２の結合マップ２２の要素ＦＢの値を示す。

第２の生成部１２Ｄは、第２の結合マップ２２の要素ＦＢごとに、要素ＦＢの特徴量を上記式（２）へ代入することで、第３の結合マップ４２の要素ＦＥごとの、重み付け後の特徴量を算出する。そして、第２の生成部１２Ｄは、要素ＦＢごとにこの処理を実行することで、要素ＦＥごとに重み付け後の特徴量を規定した、第３の結合マップ４２を生成する。そして、第２の生成部１２Ｄは、第３の結合マップ４２をＬ×Ｈ×Ｗ×２５６に変形し、該第３の結合マップ４２を複数の第２の特徴マップ４０に分離する。

なお、図３Ａに示すように、第２の生成部１２Ｄは、第３の結合マップ４２へ、複数の第１の特徴マップ２０の各々に規定される特徴量を加えた、第２の特徴マップ４０を生成してもよい（ステップＳ９、ステップＳ１０）。

この場合、第２の生成部１２Ｄは、第３の結合マップ４２の各要素ＦＥの特徴量と、複数の第１の特徴マップ２０の各要素Ｆの特徴量と、を対応する要素Ｆごとに加算することで、複数の第２の特徴マップ４０を生成してもよい（ステップＳ９、ステップＳ１０）。すなわち、第２の生成部１２Ｄは、第３の結合マップ４２に、複数の第１の特徴マップ２０の各要素Ｆの特徴量を加算する。

そして、第２の生成部１２Ｄは、複数の第１の特徴マップ２０の特徴量を加算した後の第３の結合マップ４２をＬ×Ｈ×Ｗ×２５６に変形し、該第３の結合マップ４２を複数の第２の特徴マップ４０に分離すればよい。

このように、第２の生成部１２Ｄが、第３の結合マップ４２に更に第１の特徴マップ２０の特徴量を加えることで、線形埋込前の第１の特徴マップ２０に示される特徴量を加えた、複数の第２の特徴マップ４０を生成することができる。

図１に戻り説明を続ける。検出部１２Ｅは、複数の第２の特徴マップ４０を用いて、入力画像１８に含まれる物体を検出する。

詳細には、検出部１２Ｅは、複数の第２の特徴マップ４０を用いて、入力画像１８中の物体の位置および物体の種類の少なくとも一方を検出する。

検出部１２Ｅは、公知の方法を用いて、第２の特徴マップ４０から、入力画像１８に含まれる物体を検出すればよい。

例えば、検出部１２Ｅは、複数の第２の特徴マップ４０を用いて、物体の位置推定および物体の属するクラスの識別を公知の方法で実行する。なお、位置推定およびクラスの識別を行う際に、第２の特徴マップ４０のチャネル数（特徴量の種類の数）または第２の特徴マップ４０のサイズを調整するために、公知の畳み込み処理およびリサイズ処理を実行してもよい。そして、検出部１２Ｅは、畳み込み処理およびリサイズ処理を実行した後の第２の特徴マップ４０を用いて、物体の検出を実行してもよい。

なお、検出部１２Ｅは、物体位置推定およびクラスの識別には、例えば、ＳｉｎｇｌｅＳｈｏｔＭｕｌｔｉｂｏｘＤｅｔｅｃｔｏｒ（ＳＳＤ）のように、第２の特徴マップ４０の要素Ｆごとに、物体のクラス分類と物体の占める領域の回帰を直接行えばよい。また、検出部１２Ｅは、ＦａｓｔｅｒＲ−ＣＮＮのように、第２の特徴マップ４０から物体の候補となる候補領域を抽出し、公庫領域ごとに、物体のクラス分類および物体の占める領域の回帰を実行してもよい。これらの処理には、例えば、以下の公知文献１または公知文献２に示される方法を用いればよい。

公知文献１：ＬｉｕＷｅｉ，ｅｔａｌ．“Ｓｓｄ：Ｓｉｎｇｌｅｓｈｏｔｍｕｌｔｉｂｏｘｄｅｔｅｃｔｏｒ．”Ｅｕｒｏｐｅａｎｃｏｎｆｅｒｅｎｃｅｏｎｃｏｍｐｕｔｅｒｖｉｓｉｏｎ．Ｓｐｒｉｎｇｅｒ，Ｃｈａｍ，２０１６．
公知文献２：Ｒｅｎ，Ｓｈａｏｑｉｎｇ，ｅｔａｌ．“Ｆａｓｔｅｒｒ−ｃｎｎ：Ｔｏｗａｒｄｓｒｅａｌ−ｔｉｍｅｏｂｊｅｃｔｄｅｔｅｃｔｉｏｎｗｉｔｈｒｅｇｉｏｎｐｒｏｐｏｓａｌｎｅｔｗｏｒｋｓ．”Ａｄｖａｎｃｅｓｉｎｎｅｕｒａｌｉｎｆｏｒｍａｔｉｏｎｐｒｏｃｅｓｓｉｎｇｓｙｓｔｅｍｓ．２０１５．

なお、検出部１２Ｅが検出する物体は限定されない。物体は、例えば、車両、人物、障害物、などであるが、これらに限定されない。

次に、出力制御部１２Ｆについて説明する。出力制御部１２Ｆは、検出部１２Ｅによる物体検出結果を出力部１６へ出力する。

出力部１６が音出力機能を有する場合、出力部１６は、物体検出結果を示す音を出力する。出力部１６が通信機能を有する場合、出力部１６は、物体検出結果を示す情報を、ネットワーク等を介して外部装置へ送信する。

出力部１６が表示機能を有する場合、出力部１６は、物体検出結果を示す表示画像を表示する。

図４は、表示画像５０の一例を示す模式図である。出力部１６は、例えば、表示画像５０を表示する。表示画像５０は、物体情報５２を含む。物体情報５２は、検出部１２Ｅによって検出された物体を示す情報である。言い換えると、物体情報５２は、検出部１２Ｅによる検出結果を示す情報である。図４には、一例として、物体Ａを示す物体情報５２Ａと、物体Ｂを示す物体情報５２Ｂと、を含む表示画像５０を一例として示した。例えば、出力制御部１２Ｆは、図４に示す表示画像５０を生成し、出力部１６へ表示すればよい。

なお、物体情報５２の出力形態は、図４に示す形態に限定されない。例えば、物体情報５２は、物体情報５２を示す枠線、物体情報５２を示す文字、物体情報５２によって表される物体を強調表示した強調表示画像、などであってもよい。

次に、物体検出装置１０が実行する物体検出処理の手順を説明する。

図５は、物体検出装置１０が実行する物体検出処理の流れの一例を示す、フローチャートである。

取得部１２Ａは、入力画像１８を取得する（ステップＳ１００）。

次に、算出部１２Ｂが、ステップＳ１００で取得した入力画像１８から、複数の第１の特徴マップ２０を算出する（ステップＳ１０２）。例えば、算出部１２Ｂは、ＣＮＮを用いて、畳み込み演算を繰返すことで、入力画像１８から複数の第１の特徴マップ２０を算出する。

第１の生成部１２Ｃは、ステップＳ１０２で算出した複数の第１の特徴マップ２０に基づいて、空間注目マップ３０を生成する（ステップＳ１０４）。

第２の生成部１２Ｄは、ステップＳ１０２で算出した複数の第１の特徴マップ２０の各々に、ステップＳ１０４で生成した空間注目マップ３０に示される第１の重み付け値に応じた重み付けを行い、複数の第１の特徴マップ２０の各々に対応する第２の特徴マップ４０を生成する（ステップＳ１０６）。

次に、検出部１２Ｅは、複数の第２の特徴マップ４０を用いて、入力画像１８に含まれる物体を検出する（ステップＳ１０８）。

そして、出力制御部１２Ｆは、ステップＳ１０８の物体の検出結果を、出力部１６へ出力する（ステップＳ１１０）。そして、本ルーチンを終了する。

以上説明したように、本実施の形態の物体検出装置１０は、算出部１２Ｂと、第１の生成部１２Ｃと、第２の生成部１２Ｄと、検出部１２Ｅと、を備える。算出部１２Ｂは、入力画像１８から、少なくとも一部の要素ＦＡの特徴量が異なる複数の第１の特徴マップ２０を算出する。第１の生成部１２Ｃは、複数の第１の特徴マップ２０に基づいて、空間注目マップ３０を生成する。空間注目マップ３０は、第１の特徴マップ２０中の位置方向（第１の位置方向Ｈ、第２の位置方向Ｗ）および複数の第１の特徴マップ２０間の関係方向Ｌによって規定される第１の空間Ｐ１的に関係性の高い要素であるほど高い第１の重み付け値が規定されたマップである。第２の生成部１２Ｄは、複数の第１の特徴マップ２０の各々に、空間注目マップ３０に示される第１の重み付け値に応じた重み付けを行い、複数の第２の特徴マップ４０を生成する。検出部１２Ｅは、複数の第２の特徴マップ４０を用いて、入力画像１８に含まれる物体を検出する。

ここで、従来技術では、解像度の異なる複数の画像を結合、または、含まれる要素の和を算出することで、物体を検出していた。詳細には、スケールを固定とし、解像度の異なる複数の画像から特徴を抽出する、画像ピラミッド法と称される技術が知られている。しかし、画像ピラミッド法では、各々の解像度の画像から独立して特徴を抽出する必要があり、処理負荷が大きかった。そこで、画像ピラミッド法に代えて、ＣＮＮで生成される複数の中間層である複数の特徴マップを、物体検出に利用する技術が開示されている。例えば、物体検出に用いる中間層を検出対象のサイズに応じて選択し、選択した中間層を結合したマップを用いて、物体を検出することが行われている。

しかし、従来技術では、複数の中間層を結合または複数の中間層の要素の和の算出結果を用いて、物体検出が行われていた。このように、従来技術では、局所的な特徴に応じた物体検出が行われており、物体検出精度が低下する場合があった。

一方、本実施の形態の物体検出装置１０では、第１の位置方向Ｈ、第２の位置方向Ｗ、および関係方向Ｌによって規定される第１の空間Ｐ１的に関係性の高い要素であるほど高い第１の重み付け値が規定された空間注目マップ３０を生成する。物体検出装置１０は、生成した空間注目マップ３０を用いて、第１の特徴マップ２０に重み付けを行うことで、第２の特徴マップ４０を生成する。そして、物体検出装置１０は、生成した第２の特徴マップ４０を用いて、物体検出を行う。

このため、本実施の形態の物体検出装置１０は、第１の特徴マップ２０における、第１の空間Ｐ１的に重要な領域の特徴量を高くした（大きくした）第２の特徴マップ４０を用いて、物体検出を行う。すなわち、本実施の形態の物体検出装置１０は、解像度の増減方向およびスケール方向などの関係方向Ｌの関係性を加えた第２の特徴マップ４０を用いて、物体検出を行う。よって、本実施の形態の物体検出装置１０は、関係方向Ｌの関係性を加えることで、従来技術に比べて、大局的な特徴に応じた物体検出を行うことができる。

従って、本実施の形態の物体検出装置１０は、物体検出精度の向上を図ることができる。

（第２の実施の形態）
本実施の形態では、第２の特徴マップ４０に、時間方向の関係性を更に加えた第３の特徴マップを用いて、物体検出を行う形態を説明する。

なお、本実施の形態では、第１の実施の形態と同様の構成には同じ符号を付与し、詳細な説明を省略する場合がある。

図６は、本実施の形態の物体検出装置１０Ｂの構成の一例を示すブロック図である。

物体検出装置１０Ｂは、処理部１３と、記憶部１４と、出力部１６と、を備える。処理部１３と、記憶部１４および出力部１６とは、バス１７を介してデータまたは信号を授受可能に接続されている。物体検出装置１０Ｂは、処理部１２に代えて処理部１３を備える点以外は、上記実施の形態の物体検出装置１０と同様である。

処理部１３は、取得部１３Ａと、算出部１３Ｂと、第１の生成部１３Ｃと、第２の生成部１３Ｄと、第３の生成部１３Ｅと、第４の生成部１３Ｆと、検出部１３Ｇと、出力制御部１３Ｈと、を備える。

取得部１３Ａ、算出部１３Ｂ、第１の生成部１３Ｃ、第２の生成部１３Ｄ、第３の生成部１３Ｅ、第４の生成部１３Ｆ、検出部１３Ｇ、および出力制御部１３Ｈは、例えば、１または複数のプロセッサにより実現される。例えば上記各部は、ＣＰＵなどのプロセッサにプログラムを実行させること、すなわちソフトウェアにより実現してもよい。上記各部は、専用のＩＣなどのプロセッサ、すなわちハードウェアにより実現してもよい。上記各部は、ソフトウェアおよびハードウェアを併用して実現してもよい。複数のプロセッサを用いる場合、各プロセッサは、各部のうち１つを実現してもよいし、各部のうち２以上を実現してもよい。

図７は、本実施の形態の処理部１３が実行する処理の概要図である。

本実施の形態では、処理部１３は、上記実施の形態と同様にして、複数の第２の特徴マップ４０を生成する。そして、処理部１３では、今回生成した複数の第２の特徴マップ４０の群である第１の群４１Ａと、過去に生成した第２の特徴マップ４０（第２の特徴マップ４０’と称する）の群である第２の群４１Ｂと、を用いて、時間注目マップ４６を生成する。そして、処理部１３は、時間注目マップ４６を用いて、第１の群４１Ａまたは第２の群４１Ｂに含まれる複数の第２の特徴マップ４０（第２の特徴マップ４０’）に重み付けを行うことで、第３の特徴マップ４８を生成する。処理部１３は、第３の特徴マップ４８を用いて、入力画像１８に含まれる物体を検出する。時間注目マップ４６および第３の特徴マップ４８の詳細は後述する。

図６に戻り、処理部１３の各部について詳細に説明する。

取得部１３Ａ、算出部１３Ｂ、第１の生成部１３Ｃ、および第２の生成部１３Ｄは、上記実施の形態の取得部１２Ａ、算出部１２Ｂ、第１の生成部１２Ｃ、および第２の生成部１２Ｄと同様である。

すなわち、取得部１３Ａは、入力画像１８を取得する。算出部１３Ｂは、入力画像１８から、複数の第１の特徴マップ２０を生成する。第１の生成部１３Ｃは、複数の第１の特徴マップ２０に基づいて、空間注目マップ３０を生成する。第２の生成部１３Ｄは、複数の第１の特徴マップ２０の各々に、空間注目マップ３０に示される第１の重み付け値に応じた重み付けを行い、複数の第１の特徴マップ２０の各々に対応する第２の特徴マップ４０を生成する。

本実施の形態では、第２の生成部１３Ｄは、生成した複数の第２の特徴マップ４０を第３の生成部１３Ｅへ出力すると共に、記憶部１４へ記憶する。このため、記憶部１４には、過去に生成された複数の第２の特徴マップ４０が記憶されることとなる。

第３の生成部１３Ｅは、第２の生成部１３Ｄで今回生成された複数の第２の特徴マップ４０の第１の群４１Ａと、過去に生成された複数の第２の特徴マップ４０’の第２の群４１Ｂと、に基づいて、時間注目マップ４６を生成する。なお、第２の特徴マップ４０’と第２の特徴マップ４０とは、双方とも第２の生成部１３Ｄが同じ方法で生成した“第２の特徴マップ”であり、生成タイミングおよび生成に用いた入力画像１８の少なくとも一方が異なる。

図８Ａは、時間注目マップ４６の生成および第３の特徴マップ４８の生成の一例の説明図である。

時間注目マップ４６は、第１の群４１Ａと、第２の群４１Ｂと、に基づいて生成される。

図８Ｂは、時間注目マップ４６の一例を示す模式図である。時間注目マップ４６は、要素Ｆごとに重み付け値を規定したものである。第３の生成部１３Ｅは、第１の群４１Ａおよび第２の群４１Ｂの間の全要素Ｆの重み付け値を求めることで、時間注目マップ４６を生成する。時間注目マップ４６の重み付け値は、ネットワークを学習することで、自動で時間方向Ｔの関係性を学習することによって、導出される。このため、時間注目マップ４６の各要素Ｆに示される重み付け値が大きいほど時間方向Ｔの関係性が高いことを示し、小さいほど時間方向Ｔの関係性が低いことを示す。言い換えると、生成された時間注目マップ４６は、時間方向Ｔに関係性の高い要素Ｆであるほど、高い重み付け値（第２の重み付け値）の規定されたマップとなる。また、時間注目マップ４６は、時間方向Ｔに関係性の低い要素Ｆであるほど、低い重み付け値が規定されたものとなる。

ここで、上述したように、第２の特徴マップ４０は、空間注目マップ３０を用いて生成されたマップである。このため、時間注目マップ４６は、第２の空間的に関係性の高い要素Ｆであるほど、高い第２の重み付け値を規定したマップであるといえる。

図８Ａに示すように、第２の空間Ｐ２は、第１の位置方向Ｈと、第２の位置方向Ｗと、関係方向Ｌと、時間方向Ｔと、によって規定される多次元空間である。

第３の生成部１３Ｅによる生成（学習）によって、時間注目マップ４６の要素Ｆごとの重み付け値が更新される。この更新後の値である要素Ｆの重み付け値が高いほど、第２の空間Ｐ２的な関係性が高い事を意味する。

本実施の形態では、第３の生成部１３Ｅは、以下の方法により、第１の群４１Ａに属する複数の第２の特徴マップ４０と、第２の群４１Ｂに属する複数の第２の特徴マップ４０’とから、時間注目マップ４６を生成する。

詳細には、第３の生成部１３Ｅは、時間方向Ｔ、関係方向Ｌおよび位置方向（第１の位置方向Ｈ、第２の位置方向Ｗ）の各々に沿った、特徴量のベクトル列の内積結果を算出する。図８Ａには、特徴量の種類が、２５６である場合を一例として示した。

そして、第３の生成部１３Ｅは、各要素ＦＤの内積結果を第２の重み付け値として要素ＦＧごとに規定した、時間注目マップ４６を生成する（図８Ｂ参照）。

なお、第３の生成部１３Ｅは、第１の群４１Ａに属する複数の第２の特徴マップ４０と、第２の群４１Ｂに属する複数の第２の特徴マップ４０’と、の各々を線形埋込した結合マップを用いて、時間注目マップ４６を生成してもよい。

詳細には、例えば、第３の生成部１３Ｅは、第１の群４１Ａに属する複数の第２の特徴マップ４０（第２の特徴マップ４０Ｂ〜第２の特徴マップ４０Ｅ）間で対応する要素ＦＤの要素群ごとに、該要素群に含まれる要素ＦＤの各々の特徴量を線形埋込した、第４の結合マップ４４を生成する（ステップＳ２０）。

図８Ｃは、第４の結合マップ４４の一例を示す模式図である。第４の結合マップ４４を構成する要素ＦＦは、第２の特徴マップ４０の複数の要素ＦＤの群から構成される。このため、第４の結合マップ４４は、ＬＨＷ×２５６のテンソルである。第４の結合マップ４４に含まれる各要素ＦＦの特徴量は、複数の第２の特徴マップ４０間で対応する要素ＦＤの要素群ごとに、該要素群に含まれる複数の要素ＦＤの各々の特徴量を線形埋込した値となる。

本実施の形態では、第３の生成部１３Ｅは、公知の線形埋込方法を用いて、第４の結合マップ４４を生成すればよい。

図８Ａに戻り説明を続ける。また、第３の生成部１３Ｅは、第２の群４１Ｂに属する複数の第２の特徴マップ４０’を用いて、第５の結合マップ４５を生成する。第５の結合マップ４５の生成は、第２の特徴マップ４０に代えて第２の特徴マップ４０’を用いる点以外は、第４の結合マップ４４の生成と同様である。なお、第３の生成部１３Ｅは、第２の群４１Ｂに属する複数の第２の特徴マップ４０’から、線形埋込時の重み値の異なる複数の第５の結合マップ４５（第５の結合マップ４５Ａ、第５の結合マップ４５Ｂ）を生成する（ステップＳ２１、ステップＳ２２）。このため、第５の結合マップ４５の構成は、図８Ｃに示すように、第４の結合マップ４４と同様となる。

図８Ａに戻り説明を続ける。ここで、複数の第２の特徴マップ４０間で対応する要素ＦＤの要素群の各々を、“ｘ”と表す。すると、該要素群である要素ＦＦから構成される第４の結合マップ４４および第５の結合マップ４５（第５の結合マップ４５Ａ、および第５の結合マップ４５Ｂ）は、該要素群“ｘ”を用いた関数で表される。具体的には、例えば、第４の結合マップ４４は、ｆ（ｘ）で表され、第５の結合マップ４５Ａはｇ（ｘ）で表され、第５の結合マップ４５Ｂはｈ（ｘ）で表される。

そして、第３の生成部１３Ｅは、第４の結合マップ４４と第５の結合マップ４５Ａ間で対応する要素ＦＦごとに、時間方向Ｔに沿った特徴量のベクトル列の内積結果を、第２の重み付け値として規定した、時間注目マップ４６を生成する（ステップＳ２３、ステップＳ２４、ステップＳ２５）。このため、図８Ｂに示す、時間注目マップ４６が生成される。

なお、第３の生成部１３Ｅは、上記実施の形態の第１の生成部１２Ｃと同様に、公知のＳｏｆｔｍａｘ関数を使用し、上記式（１）を用いて、時間注目マップ４６を生成すればよい。

この場合、上記式（１）中、αｉ，ｊはＬＨＷ×ＴＬＨＷのテンソルを示す。ｆ（ｘｉ）は、ＬＨＷ×２５６のテンソルを示す。ｇ（ｘｊ）は、ＴＬＨＷ×２５６のテンソルを示す。ｆ（ｘｉ）Ｔは、ｆ（ｘｉ）の転置であり、２５６×ＬＨＷのテンソルを示す。ｉ，ｊは、ＬＨＷの位置を示す。ｊは、ＴＬＨＷの位置を示す。

第３の生成部１３Ｅは、第４の結合マップ４４と第５の結合マップ４５Ａとの間で対応する要素ＦＦごとに、要素ＦＦの特徴量を上記式（１）へ代入する。この処理により、第３の生成部１３Ｅは、時間注目マップ４６の要素ＦＧごとに第２の重み付け値を算出する。そして、第３の生成部１３Ｅは、要素ＦＧごとに第２の重み付け値を規定した時間注目マップ４６を生成する。このため、時間注目マップ４６は、ＬＨＷ×ＴＬＨＷのテンソルとなる（図８Ｂ参照）。Ｔは、時間方向Ｔを示す。例えば、Ｔは、撮影タイミングの異なる複数の入力画像１８の枚数（フレーム数）で表してもよい。

図６に戻り説明を続ける。第４の生成部１３Ｆは、第１の群４１Ａまたは第２の群４１Ｂに含まれる複数の第２の特徴マップ４０（または第２の特徴マップ４０’）の各々に、時間注目マップ４６に示される第２の重み付け値に応じた重み付けを行い、複数の第３の特徴マップ４８を生成する。

例えば、図８Ａに示すように、第４の生成部１３Ｆは、第２の群４１Ｂに属する複数の第２の特徴マップ４０’を結合した第５の結合マップ４５Ｂを用いる。詳細には、第４の生成部１３Ｆは、時間注目マップ４６を用いて第５の結合マップ４５Ｂに重み付けを行い（ステップＳ２５、ステップＳ２６）、第３の特徴マップ４８を生成する（ステップＳ２７）。

例えば、第４の生成部１３Ｆは、第５の結合マップ４５Ｂに含まれる各要素ＦＦの特徴量の各々に、時間注目マップ４６に示される対応する要素ＦＧに規定された第２の重み値に応じた重み付けを行う。

詳細には、第４の生成部１３Ｆは、第５の結合マップ４５Ｂに含まれる要素ＦＦごとに、該要素ＦＦの特徴量に、時間注目マップ４６における対応する要素ＦＧの第２の重み付け値を加算または乗算する。本実施の形態では、乗算する場合を一例として説明する。そして、第４の生成部１３Ｆは、乗算結果を、要素ＦＦごとの重み付け後の特徴量として得る。同様にして、第４の生成部１３Ｆは、第５の結合マップ４５Ｂの全ての要素ＦＦに、同様の処理を行うことで、第５の結合マップ４７を生成する。

図８Ｄは、第５の結合マップ４７の一例を示す模式図である。第５の結合マップ４７は、複数の要素ＦＨから構成される。要素ＦＨは、第５の結合マップ４５Ｂに含まれる要素ＦＦに対応する。すなわち、第５の結合マップ４７の各要素ＦＨは、複数の第１の特徴マップ２０間で対応する要素ＦＡの要素群の各々に相当する。このため、第５の結合マップ４７は、ＬＨＷ×２５６のテンソルである。また、第５の結合マップ４７を構成する要素ＦＨには、時間注目マップ４６を用いて重み付けした後の特徴量が規定されることとなる。

そして、第４の生成部１３Ｆは、第５の結合マップ４７をＬ×Ｈ×Ｗ×２５６に変形し、該第５の結合マップ４７を複数の第３の特徴マップ４８に分離する。

図８Ｅは、複数の第３の特徴マップ４８の一例を示す模式図である。複数の第３の特徴マップ４８を構成する要素ＦＩには、それぞれ、第１の特徴マップ２０の要素ＦＡの特徴量を、空間注目マップ３０および時間注目マップ４６によって補正した値が規定された状態となる。言い換えると、複数の第３の特徴マップ４８の各々を構成する要素ＦＩは、該要素ＦＩの内、第１の空間Ｐ１および第２の空間Ｐ２的に関係性のある要素ＦＩの特徴量が、他の要素ＦＩの特徴量より、高い値（大きい値）を示すものとなる。

具体的には、第４の生成部１３Ｆは、上記式（２）を用いて、第３の特徴マップ４８を生成すればよい。

この場合、式（２）中、“ｙ”は、第３の特徴マップ４８の要素ＦＩの値を示す。α_ｊ，ｉ、ｊおよびｉは、本実施の形態で用いる上記式（１）と同様である。ｈ（ｘ_ｉ）は、第５の結合マップ４５Ｂの要素ＦＦの値を示す。

第４の生成部１３Ｆは、第５の結合マップ４５Ｂの要素ＦＦごとに、要素ＦＦの特徴量を上記式（２）へ代入することで、要素Ｆごとの重み付け後の特徴量を算出する。そして、第４の生成部１３Ｆは、要素Ｆごとにこの処理を実行することで、要素Ｆごとに重み付け後の特徴量を規定した結合マップを生成する。そして、更に、第４の生成部１３Ｆは、この結合マップをＬ×Ｈ×Ｗ×２５６に変形することで、要素ＦＩごとに重み付け後の特徴量を規定した、第３の特徴マップ４８を生成する。

図６に戻り説明を続ける。検出部１３Ｇは、複数の第３の特徴マップ４８を用いて、入力画像１８に含まれる物体を検出する。すなわち、第３の生成部１３Ｅは、複数の第２の特徴マップ４０から生成された複数の第３の特徴マップ４８を用いて、入力画像１８に含まれる物体を検出する。

第３の生成部１３Ｅは、第２の特徴マップ４０に代えて第３の特徴マップ４８を用いる点以外は、上記実施の形態の検出部１２Ｅと同様にして、入力画像１８に含まれる物体を検出する。

出力制御部１３Ｈは、検出部１３Ｇによる物体検出結果を出力部１６へ出力する。

出力部１６が音出力機能を有する場合、出力部１６は、物体検出結果を示す音を出力する。出力部１６が通信機能を有する場合、出力部１６は、物体検出結果を示す情報を、ネットワーク等を介して外部装置へ送信する。出力部１６が表示機能を有する場合、出力部１６は、物体検出結果を示す表示画像を表示する。この場合、出力部１６には、例えば、図４に示す表示画像５０が表示される。

図９は、物体検出装置１０Ｂが実行する物体検出処理の流れの一例を示す、フローチャートである。

取得部１３Ａは、入力画像１８を取得する（ステップＳ２００）。

次に、算出部１３Ｂが、ステップＳ２００で取得した入力画像１８から、複数の第１の特徴マップ２０を算出する（ステップＳ２０２）。例えば、算出部１３Ｂは、ＣＮＮを用いて、畳み込み演算を繰返すことで、入力画像１８から複数の第１の特徴マップ２０を算出する。

第１の生成部１３Ｃは、ステップＳ２０２で算出した複数の第１の特徴マップ２０に基づいて、空間注目マップ３０を生成する（ステップＳ２０４）。

第２の生成部１３Ｄは、ステップＳ２０２で算出した複数の第１の特徴マップ２０の各々に、ステップＳ２０４で生成した空間注目マップ３０に示される第１の重み付け値に応じた重み付けを行い、複数の第１の特徴マップ２０の各々にそれぞれ対応する複数の第２の特徴マップ４０を生成する（ステップＳ２０６）。

第２の生成部１３Ｄは、ステップＳ２０６で今回生成した複数の第２の特徴マップ４０の第１の群４１Ａと、過去に生成された複数の第２の特徴マップ４０’の第２の群４１Ｂと、を用いて、時間注目マップ４６を生成する（ステップＳ２０８）。

次に、第４の生成部１３Ｆは、第１の群４１Ａまたは第２の群４１Ｂに属する第２の特徴マップ４０（第２の特徴マップ４０’）に、時間注目マップ４６に示される第２の重み付け値に応じた重み付けを行い、複数の第３の特徴マップ４８を生成する（ステップＳ２１０）。

次に、検出部１３Ｇは、ステップＳ２１０で生成された複数の第３の特徴マップ４８を用いて、入力画像１８に含まれる物体を検出する（ステップＳ２１２）。

そして、出力制御部１３Ｈは、ステップＳ２１２の物体の検出結果を、出力部１６へ出力する（ステップＳ２１４）。そして、本ルーチンを終了する。

以上説明したように、本実施の形態の物体検出装置１０Ｂは、上記実施の形態の構成に加えて、第３の生成部１３Ｅと、第４の生成部１３Ｆと、を更に備える。また、記憶部１４が、第２の特徴マップ４０を記憶する。

第３の生成部１３Ｅは、今回生成された複数の第２の特徴マップ４０の第１の群４１Ａと、過去に生成された複数の第２の特徴マップ４０’の第２の群４１Ｂと、に基づいて、第１の群４１Ａおよび１４Ｂの間の時間方向Ｔに関係性の高い要素であるほど高い第２の重み付け値が規定された時間注目マップ４６を生成する。第４の生成部１３Ｆは、第１の群４１Ａまたは第２の群４１Ｂに含まれる複数の第２の特徴マップ４０（第２の特徴マップ４０’）の各々に、時間注目マップ４６に示される第２の重み付け値に応じた重み付けを行い、第３の特徴マップ４８を生成する。そして、検出部１３Ｇは、複数の第２の特徴マップ４０から生成された第３の特徴マップ４８を用いて、入力画像１８に含まれる物体を検出する。

このように、本実施の形態の物体検出装置１０Ｂは、第１の特徴マップ２０における、第２の空間Ｐ２的に重要な領域の特徴量を高くした第３の特徴マップ４８を用いて、物体検出を行う。第２の空間Ｐ２は、上述したように、第１の空間Ｐ１に、更に時間方向Ｔを規定した多次元空間である。

このため、本実施の形態の物体検出装置１０Ｂは、従来技術に比べて、時間方向Ｔの関係性を加えることで、上記実施の形態に比べて、更に大局的な特徴に応じた物体検出を行うことができる。

従って、本実施の形態の物体検出装置１０Ｂは、上記実施の形態の効果に加えて、物体検出精度の向上を更に図ることができる。

（変形例）
上記実施の形態の物体検出装置１０および物体検出装置１０Ｂの適用対象は限定されない。物体検出装置１０および物体検出装置１０Ｂは、入力画像１８に含まれる物体の検出結果を用いて、各種の処理を実行する種々の装置に適用される。

図１０は、物体検出装置１０および物体検出装置１０Ｂの適用形態の一例を示す図である。図１０には、物体検出装置１０または物体検出装置１０Ｂを、移動体６０に搭載した形態を一例として示した。

移動体６０は、走行することで移動可能な物体である。移動体６０は、例えば、車両（自動二輪車、自動四輪車、自転車）、台車、ロボット、などである。移動体６０は、例えば、人による運転操作を介して走行する移動体や、人による運転操作を介さずに自動的に走行（自律走行）可能な移動体である。本変形例では、移動体６０は、自律走行可能な移動体である場合を一例として説明する。

なお、物体検出装置１０および物体検出装置１０Ｂは、移動体６０に搭載された形態に限定されない。物体検出装置１０および物体検出装置１０Ｂは、静止物に搭載されていてもよい。静止物は、地面に固定された物である。静止物は、移動不可能な物や、地面に対して静止した状態の物である。静止物は、例えば、駐車車両、道路標識、などである。また、物体検出装置１０および物体検出装置１０Ｂは、クラウド上で処理を実行するクラウドサーバに搭載されていてもよい。

移動体６０は、物体検出装置１０または物体検出装置１０Ｂと、駆動制御部６２と、駆動部６４と、を備える。物体検出装置１０および物体検出装置１０Ｂの構成は、上記実施の形態と同様である。駆動制御部６２および駆動部６４と、処理部１２または処理部１３とは、バス１７を介してデータまたは信号を授受可能に接続されている。

駆動部６４は、移動体６０に搭載された、駆動するデバイスである。駆動部６４は、例えば、エンジン、モータ、車輪、ハンドル位置変更部、などである。

駆動制御部６２は、駆動部６４を制御する。駆動制御部６２の制御によって、駆動部６４が駆動する。

例えば、処理部１２または処理部１３は、物体の検出結果を示す情報を駆動制御部６２へも出力する。駆動制御部６２は、受付けた物体の検出結果を示す情報を用いて、駆動部６４を制御する。例えば、駆動制御部６２は、物体の検出結果を示す情報に示される、物体を避けて走行、該物体との距離を維持、などの走行を行うように、駆動部６４を制御する。このため、例えば、駆動制御部６２は、物体の検出結果に応じて移動体６０が自律走行するように、駆動部６４を制御することができる。

なお、処理部１２または処理部１３が用いる入力画像１８には、例えば、移動体６０に搭載された撮影装置で撮影された撮影画像、外部装置から取得した撮影画像、を用いればよい。

なお、上記実施の形態の物体検出装置１０および物体検出装置１０Ｂの適用対象は、移動体６０に限定されない。

例えば、物体検出装置１０および物体検出装置１０Ｂは、防犯カメラなどで撮影された撮影画像に含まれる物体を検出する検出装置などに適用されてもよい。

次に、上記実施の形態の物体検出装置１０および物体検出装置１０Ｂのハードウェア構成の一例を説明する。

図１１は、上記実施の形態の物体検出装置１０および物体検出装置１０Ｂのハードウェア構成図の一例である。

上記実施の形態の物体検出装置１０および物体検出装置１０Ｂは、ＣＰＵ（ＣｅｎｔｒａｌＰｒｏｃｅｓｓｉｎｇＵｎｉｔ）７１、ＲＯＭ（ＲｅａｄＯｎｌｙＭｅｍｏｒｙ）７２、ＲＡＭ（ＲａｎｄｏｍＡｃｃｅｓｓＭｅｍｏｒｙ）７３、およびＩ／Ｆ７４等がバス７５により相互に接続されており、通常のコンピュータを利用したハードウェア構成となっている。

ＣＰＵ７１は、上記実施の形態の物体検出装置１０および物体検出装置１０Ｂを制御する演算装置である。ＲＯＭ７２は、ＣＰＵ７１による各種処理を実現するプログラム等を記憶する。ＲＡＭ７３は、ＣＰＵ７１による各種処理に必要なデータを記憶する。Ｉ／Ｆ７４は、出力部１６および駆動制御部６２などに接続し、データを送受信するためのインターフェースである。

上記実施の形態の物体検出装置１０および物体検出装置１０Ｂでは、ＣＰＵ７１が、ＲＯＭ７２からプログラムをＲＡＭ７３上に読み出して実行することにより、上記各機能がコンピュータ上で実現される。

なお、上記実施の形態の物体検出装置１０および物体検出装置１０Ｂで実行される上記各処理を実行するためのプログラムは、ＨＤＤ（ハードディスクドライブ）に記憶されていてもよい。また、上記実施の形態の物体検出装置１０および物体検出装置１０Ｂで実行される上記各処理を実行するためのプログラムは、ＲＯＭ７２に予め組み込まれて提供されていてもよい。

また、上記実施の形態の物体検出装置１０および物体検出装置１０Ｂで実行される上記処理を実行するためのプログラムは、インストール可能な形式または実行可能な形式のファイルでＣＤ−ＲＯＭ、ＣＤ−Ｒ、メモリカード、ＤＶＤ（ＤｉｇｉｔａｌＶｅｒｓａｔｉｌｅＤｉｓｋ）、フレキシブルディスク（ＦＤ）等のコンピュータで読み取り可能な記憶媒体に記憶されてコンピュータプログラムプロダクトとして提供されるようにしてもよい。また、上記実施の形態の物体検出装置１０および物体検出装置１０Ｂで実行される上記処理を実行するためのプログラムを、インターネットなどのネットワークに接続されたコンピュータ上に格納し、ネットワーク経由でダウンロードさせることにより提供するようにしてもよい。また、上記実施の形態の物体検出装置１０および物体検出装置１０Ｂで実行される上記処理を実行するためのプログラムを、インターネットなどのネットワーク経由で提供または配布するようにしてもよい。

なお、上記には、本発明の実施の形態を説明したが、上記実施の形態は、例として提示したものであり、発明の範囲を限定することは意図していない。この新規な実施の形態は、その他の様々な形態で実施されることが可能であり、発明の要旨を逸脱しない範囲で、種々の省略、置き換え、変更を行うことができる。この実施の形態やその変形は、発明の範囲や要旨に含まれるとともに、特許請求の範囲に記載された発明とその均等の範囲に含まれる。

１０、１０Ｂ物体検出装置
１２Ｂ、１３Ｂ算出部
１２Ｃ、１３Ｃ第１の生成部
１２Ｄ、１３Ｄ第２の生成部
１２Ｅ、１３Ｇ検出部
１３Ｅ第３の生成部
１３Ｆ第４の生成部
２０第１の特徴マップ
３０空間注目マップ
４０第２の特徴マップ
４６時間注目マップ
４８第３の特徴マップ

Claims

入力画像から、少なくとも一部の要素の特徴量が異なる複数の第１の特徴マップを算出する算出部と、
複数の前記第１の特徴マップに基づいて、前記第１の特徴マップ中の位置方向および複数の前記第１の特徴マップ間の関係方向によって規定される第１の空間的に関係性の高い要素であるほど高い第１の重み付け値が規定された空間注目マップを生成する第１の生成部と、
複数の第１の特徴マップの各々に、前記空間注目マップに示される前記第１の重み付け値に応じた重み付けを行い、複数の第２の特徴マップを生成する第２の生成部と、
複数の前記第２の特徴マップを用いて、前記入力画像に含まれる物体を検出する検出部と、
を備える物体検出装置。
前記算出部は、
解像度およびスケールの少なくとも一方の異なる複数の前記第１の特徴マップを算出し、
前記関係方向は、
前記解像度の増減方向または前記スケールの拡大縮小方向である、
請求項１に記載の物体検出装置。
前記第１の生成部は、
複数の前記第１の特徴マップの対応する要素の要素群ごとに、前記関係方向、および前記位置方向の各々に沿った、前記特徴量のベクトル列の内積結果を、前記第１の重み付け値として要素ごとに規定した、前記空間注目マップを生成する、
請求項１または請求項２に記載の物体検出装置。
前記第１の生成部は、
前記複数の第１の特徴マップの対応する要素の要素群ごとに、該要素群に含まれる要素の各々の特徴量を線形埋込した、線形埋込時の重み値が互いに異なる複数の第１の結合マップを生成し、
複数の前記第１の結合マップ間の対応する要素ごとに、前記関係方向および前記位置方向の各々に沿った前記特徴量のベクトル列の内積結果を前記第１の重み付け値として要素ごとに規定した、前記空間注目マップを生成する、
請求項１〜請求項３の何れか１項に記載の物体検出装置。
前記第２の生成部は、
複数の前記第１の特徴マップの対応する要素の要素群ごとに、該要素群に含まれる要素の各々の特徴量を線形埋込した、線形埋込時の重み値が前記第１の結合マップとは異なる第２の結合マップを生成し、
前記第２の結合マップに含まれる各要素の特徴量の各々に、前記空間注目マップに示される第１の重み付け値に応じた重み付けを行い、複数の前記第２の特徴マップを生成する、
請求項４に記載の物体検出装置。
前記第２の生成部は、
前記第２の結合マップに含まれる各要素の特徴量の各々に、前記空間注目マップに示される第１の重み付け値に応じた重み付けを行った第３の結合マップの各要素の特徴量と、複数の前記第１の特徴マップの各要素の特徴量と、を対応する要素ごとに加算した、複数の前記第２の特徴マップを生成する、
請求項５に記載の物体検出装置。
前記第２の特徴マップを記憶する記憶部を備え、今回生成された複数の前記第２の特徴マップの第１の群と、過去に生成された複数の前記第２の特徴マップの第２の群と、に基づいて、前記第１の群および前記第２の群の間の時間方向に関係性の高い要素であるほど高い第２の重み付け値が規定された時間注目マップを生成する第３の生成部と、
前記第１の群または前記第２の群に含まれる複数の第２の特徴マップの各々に、前記時間注目マップに示される第２の重み付け値に応じた重み付けを行い、第３の特徴マップを生成する第４の生成部と、
を備え、
前記検出部は、
複数の前記第２の特徴マップから生成された複数の前記第３の特徴マップを用いて、前記入力画像に含まれる物体を検出する、
請求項１〜請求項６の何れか１項に記載の物体検出装置。
前記算出部は、
畳み込みニューラルネットワークを用いて、前記入力画像から複数の前記第１の特徴マップを算出する、
請求項１〜請求項７の何れか１項に記載の物体検出装置。
コンピュータが実行する物体検出方法であって、
入力画像から、少なくとも一部の要素の特徴量が異なる複数の第１の特徴マップを算出するステップと、
複数の前記第１の特徴マップに基づいて、前記第１の特徴マップ中の位置方向および複数の前記第１の特徴マップ間の関係方向によって規定される第１の空間的に関係性の高い要素であるほど高い第１の重み付け値が規定された空間注目マップを生成するステップと、
複数の第１の特徴マップの各々に、前記空間注目マップに示される第１の重み付け値に応じた重み付けを行い、複数の第２の特徴マップを生成するステップと、
複数の前記第２の特徴マップを用いて、前記入力画像に含まれる物体を検出するステップと、
を含む物体検出方法。
入力画像から、少なくとも一部の要素の特徴量が異なる複数の第１の特徴マップを算出するステップと、
複数の前記第１の特徴マップに基づいて、前記第１の特徴マップ中の位置方向および複数の前記第１の特徴マップ間の関係方向によって規定される第１の空間的に関係性の高い要素であるほど高い第１の重み付け値が規定された空間注目マップを生成するステップと、
複数の第１の特徴マップの各々に、前記空間注目マップに示される第１の重み付け値に応じた重み付けを行い、複数の第２の特徴マップを生成するステップと、
複数の前記第２の特徴マップを用いて、前記入力画像に含まれる物体を検出するステップと、
コンピュータに実行させるためのプログラム。
請求項１〜請求項８の何れか１項に記載の物体検出装置と、
物体の検出結果を示す情報に基づいて、駆動部を制御する駆動制御部と、
を備える移動体。