JP7448006B2

JP7448006B2 - 物体位置推定装置

Info

Publication number: JP7448006B2
Application number: JP2022531267A
Authority: JP
Inventors: 浩雄池田
Original assignee: NEC Corp
Current assignee: NEC Corp
Priority date: 2020-06-23
Filing date: 2020-06-23
Publication date: 2024-03-12
Anticipated expiration: 2040-06-23
Also published as: JPWO2021260780A1; CN115720664A; US20230230277A1; WO2021260780A1

Description

本発明は、物体位置推定装置、物体位置推定方法、および記録媒体に関し、特に、画像中の物体の位置を推定する物体位置推定装置、物体位置推定方法、および記録媒体に関する。

画像中の物体の位置を推定するための関連する技術が知られている（特許文献１，２）。非特許文献１に記載の関連する技術では、物体の全体が映るサンプル画像を用いて、推定器が物体の識別を学習する。このように学習した推定器が、画像中の物体の位置を推定するために、画像を走査する。具体的には、非特許文献１に記載の関連する技術では、例えば推定器が画像中の物体のHaar-Like特徴量を推定し、識別した物体についての物体領域を推定する。このとき、推定器は、画像中の部分領域の位置および大きさを変化させながら、１つ１つの部分領域をそれぞれ走査する。

特開２０１９－０９６０７２号公報特開２０１８－１４７４３１号公報

"Rapid Object Detection Using a Boosted Cascade of Simple Features", P.Viola,et al., CVPR (Conference on Computer Vision and Pattern Recognition), pp.511-518

コンピュータの処理速度には限界がある。そのため、推定器が画像を走査する際、画像中の部分領域の位置および大きさを連続的かつ網羅的に変化させることは困難である。また、画像において、物体の一部または全体が、他の物体によって遮蔽されている場合、画像中の物体領域を特定し、それぞれの物体の位置を正確に推定することが難しい場合がある。

本発明は、上記の課題に鑑みてなされたものであり、その目的は、画像中で物体同士の重なりがあっても、それぞれの物体の位置を頑健かつ高精度に推定できる物体位置推定装置及びその方法、ならびに記録媒体を提供することにある。

本発明の一態様に係わる物体位置推定装置は、対象画像に対して、畳み込み演算処理を行うことにより、第１特徴マップを生成する第１特徴抽出手段と、前記第１特徴マップに対して、畳み込み演算処理をさらに行うことにより、第２特徴マップを生成する第２特徴抽出手段とを含む特徴抽出手段と、前記第１特徴マップを用いて、前記対象画像の各位置において、第１のサイズを持つ物体が存在する確率を示す第１尤度マップを推定する第１位置尤度推定手段と、前記第２特徴マップを用いて、前記対象画像の各位置において、前記第１のサイズよりも大きい第２のサイズを持つ物体が存在する確率を示す第２尤度マップを推定する第２位置尤度推定手段とを含む尤度マップ推定手段とを備えている。

本発明の一態様に係わる物体位置推定方法は、対象画像に対して、畳み込み演算処理を行うことにより、第１特徴マップを生成するともに、前記第１特徴マップに対して、畳み込み演算処理をさらに行うことにより、第２特徴マップを生成し、前記第１特徴マップを用いて、前記対象画像の各位置において、第１のサイズを持つ物体が存在する確率を示す第１尤度マップを推定するとともに、前記第２特徴マップを用いて、前記対象画像の各位置において、前記第１のサイズよりも大きい第２のサイズを持つ物体が存在する確率を示す第２尤度マップを推定することを含む。

本発明の一態様に係わる記録媒体は、対象画像に対して、畳み込み演算処理を行うことにより、第１特徴マップを生成することと、前記第１特徴マップに対して、畳み込み演算処理をさらに行うことにより、第２特徴マップを生成することと、前記第１特徴マップを用いて、前記対象画像の各位置において、第１のサイズを持つ物体が存在する確率を示す第１尤度マップを推定することと、前記第２特徴マップを用いて、前記対象画像の各位置において、前記第１のサイズよりも大きい第２のサイズを持つ物体が存在する確率を示す第２尤度マップを推定することとをコンピュータに実行させる。

本発明の一態様によれば、画像中で物体同士の重なりがあっても、それぞれの物体の位置を頑健かつ高精度に推定することができる。

実施形態１に係わる物体位置推定装置の構成を示すブロック図である。実施形態２に係わる物体位置推定装置を含むシステムの構成を示すブロック図である。実施形態２に係わる物体位置推定装置の各部が実行する処理の流れを示すフローチャートである。実施形態２の一変形例に係わる物体位置推定装置の構成を示すブロック図である。実施形態３に係わる物体位置推定装置の構成を示すブロック図である。実施形態４に係わる物体位置推定装置の構成を示すブロック図である。実施形態５に係わる物体位置推定装置の構成を示すブロック図である。実施形態６に係わる物体位置推定装置の構成を示すブロック図である。実施形態６に係わる物体位置推定装置の各部が実行する処理の流れを示すフローチャートである。実施形態６の一変形例に係わる物体位置推定装置の構成を示すブロック図である。実施形態６の一変形例に係わる物体位置推定装置の学習データ生成手段が第１正解尤度マップ／第２正解尤度マップを生成する処理の流れを説明する図である。実施形態７に係わる物体位置推定装置の構成を示すブロック図である。実施形態７の一変形例に係わる物体位置推定装置の構成を示すブロック図である。実施形態１から７のいずれかの物体位置推定装置のハードウェア構成を示す図である。

〔実施形態１〕
図１を参照して、実施形態１について説明する。

（システム）
図１を参照して、本実施形態１に係わるシステムについて説明する。図１は、本実施形態１に係わるシステムの構成を概略的に示す。図１に示すように、本実施形態１に係わるシステムは、画像取得装置９０および物体位置推定装置１を備えている。画像取得装置９０は、１または複数の画像を取得する。例えば、画像取得装置９０は、カメラ等の映像装置から出力される静止画像、または、ビデオ等の映像装置から出力される動画の画像フレームを取得する。

画像取得装置９０は、取得した1または複数の画像（例えば、静止画像、または動画の画像フレーム）を、物体位置推定装置１へ送信する。以下では、画像取得装置９０が物体位置推定装置１へ送信する画像を、対象画像７０と呼ぶ。物体位置推定装置１は、例えば、コンピュータプログラムによって、その動作を制御される。

（物体位置推定装置１）
図１に示すように、物体位置推定装置１は、特徴抽出部１０および尤度マップ推定部２０を備えている。尤度マップ推定部２０は、尤度マップ推定手段の一例である。

特徴抽出部１０は、第１特徴抽出部２１および第２特徴抽出部２２を備えている。尤度マップ推定部２０は、第１位置尤度推定部２３および第２位置尤度推定部２４を備えている。なお、物体位置推定装置１は、特徴抽出部および位置尤度推定部を、それぞれ３つ以上有していてもよい。第１特徴抽出部２１および第２特徴抽出部２２は、第１特徴抽出手段および第２特徴抽出手段の一例である。第１位置尤度推定部２３および第２位置尤度推定部２４は、第１位置尤度推定手段および第２位置尤度推定手段の一例である。

第１特徴抽出部２１は、対象画像７０に対して、畳み込み演算処理を行うことにより、物体の特徴を示す第１特徴マップを生成する。具体的には、第１特徴抽出部２１は、対象画像７０を画素値で表した行列に対して、第１のフィルタを所定の移動量ずつスライドさせながら適用する。第１のフィルタは、対象画像７０を画素値で表した行列の部分（部分領域と呼ばれる）に対して掛け合わされる行列（カーネル）である。第１特徴抽出部２１は、対象画像７０を画素値で表した行列の一部と、第１のフィルタを表す行列との間の行列演算によって得られた値を足し合わせたものを、第１特徴マップの要素として出力する。第１特徴抽出部２１は、複数の要素で構成される第１特徴マップを、尤度マップ推定部２０の第１位置尤度推定部２３へ出力する。

第２特徴抽出部２２は、第１特徴マップに対して、畳み込み演算処理をさらに行うことにより、物体の特徴を示す第２特徴マップを生成する。具体的には、第２特徴抽出部２２は、第１特徴マップに対して、第２のフィルタを所定の移動量ずつスライドさせながら適用し、第１特徴マップの行列の一部と、第２のフィルタを表す行列との間の行列演算によって得られた値を足し合わせたものを、第２特徴マップの要素として出力する。具体的には、第２のフィルタは、第１特徴マップの一部に対して掛け合わされる行列である。第２特徴抽出部２２は、複数の要素で構成される第２特徴マップを、尤度マップ推定部２０の第２位置尤度推定部２４へ出力する。

第１位置尤度推定部２３は、第１特徴抽出部２１から受信した第１特徴マップを用いて、対象画像７０の各位置において、第１のサイズを持つ物体が存在する確率を示す第１尤度マップを推定する。具体的には、第１位置尤度推定部２３として、ディープラーニングを用いて学習させた推定部（一例ではＣＮＮ；Convolutional Neural Network）を用いる。学習した推定部は、第１特徴マップから、対象画像７０において、第１のサイズを持つ物体の位置（の尤度マップ）を推定する。第１のサイズは、対象画像７０における第１所定範囲（後述する）に含まれる任意の形状および大きさを示す。

第１位置尤度推定部２３は、対象画像７０の部分領域ごとに、第１のサイズの物体らしさ、すなわち第１のサイズを持つ物体である確率を算出する。第１位置尤度推定部２３は、対象画像７０の部分領域ごとに算出した第１のサイズの物体らしさを尤度によって表した第１尤度マップを推定する。第１尤度マップの各座標における尤度は、対象画像７０中の対応する位置に、第１のサイズを持つ物体が存在する確率を示す。第１位置尤度推定部２３は、このように推定した第１尤度マップを出力する。

第２位置尤度推定部２４は、第２特徴マップを用いて、対象画像７０における対応する各位置において、第２のサイズを持つ物体が存在する確率を示す第２尤度マップを推定する。具体的には、第２特徴抽出部２２は、対象画像７０の部分領域ごとに、第２のサイズの物体らしさ、すなわち第２のサイズを持つ物体である確率を算出する。第２特徴抽出部２２は、対象画像７０の部分領域ごとの第２のサイズの物体らしさを尤度によって表した第２尤度マップを推定する。第２尤度マップの各座標における尤度は、対象画像７０中の対応する位置に、第２のサイズを持つ物体が存在する確率を示す。第２位置尤度推定部２４は、このように推定した第２尤度マップを出力する。第２のサイズは、対象画像７０における第２所定範囲（後述）内の任意の大きさを示す。

なお、以下では、「第１のサイズを持つ物体」と同じ意味で「第１のサイズを有する物体」と呼ぶ場合がある。また「第２のサイズを持つ物体」と同じ意味で「第２のサイズを有する物体」と呼ぶ場合がある。

あるいは、第１位置尤度推定部２３および第２位置尤度推定部２４は、予め分類された物体の属性ごとに、互いに属性の異なる物体の位置をそれぞれ推定する。そして、第１位置尤度推定部２３および第２位置尤度推定部２４は、物体の属性ごとに、第１尤度マップ／第２尤度マップを推定し、物体の属性ごとの第１尤度マップ／第２尤度マップを出力する。なお、第１位置尤度推定部２３および第２位置尤度推定部２４は、属性ごとに、それぞれ異なるネットワークで構成されてもよいし、単一のネットワークで構成されてもよい。この場合、第１位置尤度推定部２３と第２位置尤度推定部２４のどちらも、属性というチャネル方向に複数の尤度マップを出力する。

（本実施形態の効果）
本実施形態の構成によれば、特徴抽出部１０の第１特徴抽出部２１は、対象画像７０に対して、畳み込み演算処理を行うことにより、物体の特徴を示す第１特徴マップを生成する。特徴抽出部１０の第２特徴抽出部２２は、第１特徴マップに対して、畳み込み演算処理をさらに行うことにより、物体の特徴を示す第２特徴マップを生成する。尤度マップ推定部２０の第１位置尤度推定部２３は、第１特徴マップを用いて、画像の各位置において、第１のサイズを持つ物体が存在する確率を示す第１尤度マップを推定する。尤度マップ推定部２０の第２位置尤度推定部２４は、第２特徴マップを用いて、画像の各位置において、第１のサイズよりも大きい第２のサイズを持つ物体が存在する確率を示す第２尤度マップを推定する。

このように、物体位置推定装置１は、第１特徴マップおよび第２特徴マップを用いて、第１のサイズを持つ物体および第２のサイズを持つ物体を、別々に、対象画像７０中の位置を推定する。そのため、画像中で物体同士の重なりがあっても、それぞれの物体の位置を頑健かつ高精度に推定することができる。

〔実施形態２〕
図２から図３を参照して、実施形態２について説明する。

（物体位置推定装置２）
図２に示すように、物体位置推定装置２は、第１特徴抽出部２１と、第２特徴抽出部２２と、第１位置尤度推定部２３と、第２位置尤度推定部２４とを備えている。

物体位置推定装置２は、画像取得装置９０から、対象画像７０を取得する。物体位置推定装置２は、対象画像７０に含まれる所定の種類の物体（以下、単に物体と呼ぶ）の位置を推定する。例えば、物体位置推定装置２は、人、車、木、動物、傘、又はその一部の位置を推定する。以下では、物体が人の頭部である例を説明する。

本実施形態２において、物体位置推定装置２が出力する第１尤度マップ／第２尤度マップの各座標における尤度は、対象画像７０における対応する各位置において、第１のサイズ／第２のサイズを持つ人の頭部（物体の一例である）が存在する確率を示す。第１尤度マップ／第２尤度マップのそれぞれにおける尤度の合計と、対象画像７０に映る第１のサイズ／第２のサイズを持つ人の頭部のそれぞれの数とが一致するように、第１尤度マップ／第２尤度マップにおける尤度は正規化される。その結果、第１尤度マップ／第２尤度マップのそれぞれにおける全体の尤度の合計は、対象画像７０内において、対象画像７０に映る第１のサイズ／第２のサイズを持つそれぞれの人の総数と対応する。なお、第１尤度マップ／第２尤度マップにおける尤度の正規化は必須ではない。

第１特徴抽出部２１は、対象画像７０に対して、畳み込み演算処理を行うことによって、物体の特徴を示す第１特徴マップ８０を生成する。例えば、第１特徴抽出部２１は、畳み込みニューラルネットワーク（CNN；Convolutional Neural Network）である。第１特徴抽出部２１は、第１位置尤度推定部２３および第２特徴抽出部２２のそれぞれに、第１特徴マップ８０を出力する。

第１位置尤度推定部２３に対し、第１特徴抽出部２１から、第１特徴マップ８０が入力される。第１位置尤度推定部２３は、第１特徴マップ８０に対して、畳み込み演算処理を行うことにより、第１尤度マップを推定する。例えば、第１位置尤度推定部２３は、第１特徴抽出部２１と別に、または一体で、畳み込みニューラルネットワークとして実現される。上述したように、第１尤度マップの各座標における尤度は、対象画像７０中の対応する各位置において、第１のサイズを有する物体が存在する確率を示す。上述したように、第１のサイズは、対象画像７０における第１所定範囲（後述する）に含まれる任意の形状および大きさを示す。第１位置尤度推定部２３は、推定した第１尤度マップを出力する。

第２特徴抽出部２２は、第１特徴抽出部２１から、第１特徴マップ８０を取得する。第２特徴抽出部２２は、第１特徴マップ８０に対し、畳み込み演算処理をさらに行うことによって、物体の特徴を示す第２特徴マップ８１を生成する。第２特徴マップ８１のデータサイズは、第１特徴マップ８０のデータサイズよりも小さい。第２特徴抽出部２２は、第２位置尤度推定部２４に対し、第２特徴マップ８１を出力する。

上述したように、第１特徴マップ８０のデータサイズは、第２特徴マップ８１のデータサイズと比較して、相対的に大きい。すなわち、第１特徴マップ８０の各要素は、対象画像７０の小さな部分領域の特徴にそれぞれ対応する。したがって、第１特徴マップ８０は、対象画像７０の細かな特徴を捉えることに適する。一方、第２特徴マップ８１の各要素は、対象画像７０の大きな部分領域の特徴にそれぞれ対応する。そのため、第２特徴マップ８１は、対象画像７０の大まかな特徴を捉えることに適する。

図２では、物体位置推定装置２の第１特徴抽出部２１および第２特徴抽出部２２は、別々の機能ブロックとして示されている。しかしながら、第１特徴抽出部２１および第２特徴抽出部２２は、一つの統合されたネットワークを構成していてもよい。この場合、統合されたネットワークの前半部分が、第１特徴抽出部２１に相当し、統合されたネットワークの後半部分が、第２特徴抽出部２２に相当する。

第２位置尤度推定部２４に対し、第２特徴抽出部２２から、第２特徴マップ８１が入力される。第２位置尤度推定部２４は、第２特徴マップ８１に対して、畳み込み演算処理を行うことによって、第２尤度マップを推定する。上述したように、第２尤度マップの各座標における尤度は、対象画像７０における対応する各位置において、第２のサイズを持つ物体が存在する確率を示す。上述したように、第２のサイズは、対象画像７０における第２所定範囲（後述）内の任意の大きさを示す。

あるいは、第２特徴抽出部２２は、対象画像７０そのものから、第２の特徴マップを生成してもよい。この場合、第２特徴抽出部２２は、第１特徴マップ８０の代わりに、対象画像７０を取得する。第２特徴抽出部２２は、対象画像７０に対して、畳み込み演算処理を行うことによって、第２特徴マップ８１を生成する。
図２では、物体位置推定装置２の第１特徴抽出部２１、第２特徴抽出部２２、第１位置尤度推定部２３、および、第２位置尤度推定部２４は、別々の機能ブロックとして示されている。しかしながら、第１特徴抽出部２１、第２特徴抽出部２２、第１位置尤度推定部２３、および、第２位置尤度推定部２４は、一つの統合されたネットワークを構成していてもよい。

第１位置尤度推定部２３は、第１所定範囲内の第１のサイズを有する物体の位置を推定する。換言すれば、対象画像７０中に存在する物体が第１のサイズを有する場合、第１位置尤度推定部２３によって、第１尤度マップが推定される。

一方、第２位置尤度推定部２４は、第２所定範囲内の第２のサイズを有する物体の位置を推定する。すなわち、対象画像７０中に存在する物体が第２のサイズを有する場合、第２位置尤度推定部２４によって、その物体の位置が推定される。第２のサイズは第１のサイズよりも大きい。第１のサイズを規定する第１所定範囲と、第２のサイズを規定する第２所定範囲とは重複しないように、予め決定される。

例えば、第１所定範囲と第２所定範囲は、それぞれ、対応する第１特徴マップ８０および第２特徴マップ８１のデータサイズに基づいて定められる。例えば、第１特徴マップ８０を利用して、対象画像７０における物体の基準サイズ（以下では、第１基準サイズと呼ぶ）がまず定められる。次に、第２特徴マップ８１を利用して、対象画像７０における物体の他の基準サイズ（以下では、第２基準サイズと呼ぶ）が定められる。

具体的には、上述の第１基準サイズをＴ１とし、上述の第２基準サイズをＴ２とする。このとき、第１所定範囲は、第１基準サイズＴ１及び定数ａとｂ（０＜ａ＜ｂ）を用いて、a*T1<k≦b*T1と定められる。ここで、ｋは物体のサイズを表す。一方、第２所定範囲は、第２基準サイズＴ２及び定数ｃとｄ（０＜ｃ＜ｄ）を用いて、c*T2<k≦d*T2と定められる。

第１所定範囲を定めるための定数（ａ，ｂ）と、第２所定範囲を定めるための定数（ｃ，ｄ）とは、互いに等しくてもよいし、異なっていてもよい。第１所定範囲と第２所定範囲との間にギャップがないように、b*T1=c*T2の条件が満たされることが好ましい。
基準サイズ及び所定範囲について補足する。上記に示す通り、各基準サイズは、各特徴マップのデータサイズに基づいて定められ、具体的には、各基準サイズは、各特徴マップのデータサイズの逆数に比例するサイズで定められる。基準サイズと所定範囲は、比例の関係である。したがって、各所定範囲は各特徴マップのデータサイズの逆数に比例するサイズで定められる。

本実施形態２に係わる物体位置推定装置２が備えた各部（すなわち第１特徴抽出部２１、第２特徴抽出部２２、第１位置尤度推定部２３、第２位置尤度推定部２４）の学習方法について、後述の実施形態６で説明する。学習機能は、物体位置推定装置２に設けられていてもよいし、物体位置推定装置２ではない他の装置に設けられていてもよい。後者の場合、物体位置推定装置２は、他の装置によって事前に学習済の各部を取得する。

ここでいう「学習済の各部を取得する」ことは、各部に対応するネットワークそのもの（すなわち、学習されたパラメータを設定されたプログラム）を取得することであってもよいし、学習されたパラメータのみを取得することであってもよい。後者の場合、物体位置推定装置２は、他の装置から、学習されたパラメータを取得し、学習されたパラメータを、物体位置推定装置２の記録媒体に予め準備されているプログラムに設定する。

上述したように、第１特徴マップ８０は、対象画像７０の細かな特徴を捉えることに適する。第１位置尤度推定部２３は、第１特徴マップ８０を用いて、対象画像７０中の第１のサイズを持つ物体（画像上で小さく映る物体）の位置を推定する。一方、第２特徴マップ８１は、対象画像７０の大まかな特徴を捉えることに適する。第２位置尤度推定部２４は、第２特徴マップ８１を用いて、第１のサイズよりも大きい第２のサイズを持つ物体（画像上で大きく映る物体）の位置を推定する。

本実施形態２に係わる物体位置推定装置２は、第１特徴マップ８０および第２特徴マップ８１を併用することにより、対象画像７０中の第１のサイズを持つ物体および第２のサイズを持つ物体の位置を効率的に推定することができる。

第１位置尤度推定部２３は、正規化された第１尤度マップの全体の尤度を合計することによって、対象画像７０において第１のサイズを持つ物体の総数を算出してもよい。また、第２位置尤度推定部２４は、正規化された第２尤度マップの全体の尤度を合計することによって、第２のサイズを持つ物体の総数を算出してもよい。さらに、物体位置推定装置２は、上記の方法によって得られた第１のサイズを持つ物体の総数、および、第２のサイズを持つ物体の総数を合計することによって、対象画像７０中の第１のサイズまたは第２のサイズを有する物体の総数を算出してもよい。

（物体位置推定装置２の動作）
図３を参照して、本実施形態２に係わる物体位置推定装置２の動作について詳細に説明する。図３は、物体位置推定装置２の動作を示すフローチャートである。

図３に示すように、第１特徴抽出部２１は、画像取得装置９０から、対象画像７０を取得する（ステップＳ１０）。

第１特徴抽出部２１は、対象画像７０に対して畳み込み演算処理を行うことによって、第１特徴マップ８０を生成する（ステップＳ１１）。第１特徴抽出部２１は、第１特徴マップ８０を、第１位置尤度推定部２３および第２特徴抽出部２２へ出力する。

第１位置尤度推定部２３は、第１特徴マップ８０に対して、畳み込み演算処理を行うことによって、第１のサイズを持つ物体の位置を示す第１尤度マップを推定する（ステップＳ１２）。第１位置尤度推定部２３は、推定した第１尤度マップを出力する。

第２特徴抽出部２２は、第１特徴抽出部２１から第１特徴マップ８０を取得し、第１特徴マップ８０に対して畳み込み演算処理を行うことによって、第２特徴マップ８１を生成する（ステップＳ１３）。

第２位置尤度推定部２４は、第２特徴マップ８１に対して、畳み込み演算処理を行うことによって、第２のサイズを持つ物体の位置を示す第２尤度マップを推定する（ステップＳ１４）。第２位置尤度推定部２４は、推定した第２尤度マップを出力する。

なお、上述したステップＳ１２、Ｓ１３、及びＳ１４は、逐次的に実行されてもよい。また、ステップＳ１２、Ｓ１３及びＳ１４の各処理の間の順序は入れ替わってもよい。ただし、ステップＳ１４の処理はステップＳ１３の処理よりも後に実行される必要がある。

以上で、物体位置推定装置２の動作は終了する。

ここまでは、物体位置推定装置２が、特徴抽出部（すなわち第１特徴抽出部２１および第２特徴抽出部２２）および尤度マップ推定部（すなわち第１位置尤度推定部２３および第２位置尤度推定部２４）をそれぞれ２つずつ備える構成を上述した。しかしながら、物体位置推定装置２は、特徴抽出部および位置尤度推定部を、それぞれ３つ以上有していてもよい（変形例１）。

（変形例１）
図４は、本変形例１に係わる物体位置推定装置２ａの構成を示す。図４に示すように、物体位置推定装置２ａは、特徴抽出部および位置尤度推定部を、それぞれｎ（ｎは３以上の整数）個ずつ備える。第１特徴マップは、対象画像に対して、第１特徴抽出部が畳み込み演算処理を行うことによって得られる。第２特徴マップ、第３の特徴マップ、・・・第ｎの特徴マップは、それぞれ、前段の特徴マップに対して、第ｉ特徴抽出部が畳み込み演算処理を行うことによって得られる。ここでｉは２からｎまでのいずれかの整数である。

具体的には、物体位置推定装置２ａの第ｉ特徴抽出部は、第（ｉ－１）特徴マップに対して、畳み込み演算処理を行うことによって、第ｉ特徴マップを生成する。図４に示す変形例１において、第１特徴抽出部から第ｎ特徴抽出部までが連結されたネットワークは、1つの統合された特徴抽出部１０として捉えることができる。

第ｉ特徴マップ（ｉ＝１～ｎ）は、第ｉ位置尤度推定部へ入力される。第ｉ位置尤度推定部は、第ｉ特徴マップに対して、畳み込み演算処理を行うことによって、第ｉのサイズを持つ物体の位置を推定する。そして、第ｉ位置尤度推定部は、第ｉのサイズを持つ物体の位置を示す第ｉの尤度マップを推定し、出力する。また、図４に示す変形例１において、全ての特徴抽出部及び全ての尤度推定部を、１つの統合されたニューラルネットワークとして実現することもできる。

本変形例１の構成によれば、対象画像から、互いに異なる３つ以上のサイズを持つ物体の位置を示す３つ以上の尤度マップを推定し、出力することができる。すなわち、本変形例１に係わる物体位置推定装置２ａは、互いに異なる３つ以上のサイズを持つ物体の位置を推定することができる。

（変形例２）
変形例２において、第１位置尤度推定部２３および第２位置尤度推定部２４は、予め分類された物体の属性ごとに、物体の位置をそれぞれ推定する。そして、第１位置尤度推定部２３および第２位置尤度推定部２４は、物体の属性ごとに、第１尤度マップ／第２尤度マップを推定し、推定した第１尤度マップ／第２尤度マップを出力する。

例えば、物体が人物またはその一部である場合、属性は、人物の年齢、人物の性別、人物の顔の向き、人物の移動速度、または人物の所属（社会人、学生、又は家族など）など、人物そのものに関係していてもよい。あるいは、属性は、人物を含む群衆の行列または滞留、あるいは人物を含む群衆の状態（例えばパニック）など、物体が構成する集団に関係していてもよい。

一例では、人物（物体）の属性が、子供および大人の２つに分類される。この場合、第１位置尤度推定部２３は、対象画像７０中、第１のサイズを有する子供および大人の位置をそれぞれ推定する。一方、第２位置尤度推定部２４は、対象画像７０中、第２のサイズを有する子供および大人の位置をそれぞれ推定する。

第１位置尤度推定部２３および第２位置尤度推定部２４は、子供の位置および大人の位置を各チャネルに出力するニューラルネットワークとして構成してもよい。この場合、第１位置尤度推定部２３は、対象画像７０中、第１のサイズを有する子供の位置および第１のサイズを有する大人の位置をそれぞれ推定して、各チャネルとして出力する。第２位置尤度推定部２４は、対象画像７０中、第２のサイズを有する子供の位置および第２のサイズを有する大人の位置をそれぞれ推定して、各チャネルとして出力する。

本変形例２によれば、第１位置尤度推定部２３および第２位置尤度推定部２４は、物体の属性（上記の例では、子供と大人）をニューラルネットワークのチャネルとし、属性ごとに、各位置尤度推定部で定められたサイズをもつ物体の位置を尤度マップとして推定する。これにより、第１位置尤度推定部２３および第２位置尤度推定部２４は、物体のサイズ別に、さらに、属性別に、物体の位置を推定することができる。

このように、物体位置推定装置１は、第１特徴マップおよび第２特徴マップを用いて、第１のサイズを持つ物体および第２のサイズを持つ物体を、別々に、対象画像７０中の位置を推定するので、画像中で物体同士の重なりがあっても、それぞれの物体の位置を頑健かつ高精度に推定することができる。

また、本実施形態の構成によれば、関連する技術のように、対象画像７０を走査する際、物体を検出される部分領域のサイズおよび位置を変化させる必要がない。したがって、物体位置推定装置２は、部分領域の配置に依存しないで、物体の位置を精度良く推定することができる。

さらに、本実施形態の構成によれば、第１尤度マップ／第２尤度マップのそれぞれの全体の尤度の合計が、対象画像７０における第１のサイズ／第２のサイズを持つ物体の各総数と等しくなるように、第１尤度マップ／第２尤度マップは正規化される。そのため、物体位置推定装置２は、第１尤度マップの全体における尤度の合計と、第２尤度マップの全体における尤度の合計によって、対象画像７０に含まれる第１のサイズを持つ物体の総数、第２のサイズを持つ物体の総数、および、画像７０に含まれる物体の総数、を得ることができる。

〔実施形態３〕
図５を参照して、実施形態３について説明する。

（物体位置推定装置３）
図５は、本実施形態３に係わる物体位置推定装置３の構成を示すブロック図である。図５に示すように、物体位置推定装置３は、第１特徴抽出部２１と、第２特徴抽出部２２と、第１位置尤度推定部２３と、第２位置尤度推定部２４とを備える。それに加えて、物体位置推定装置３は、第１計数部２５および第２計数部２６をさらに有する。前記実施形態２の変形例に係わる物体位置推定装置２ａと同様に、本実施形態３の一変形例に係る物体位置推定装置３は、特徴抽出部および位置尤度推定部を、それぞれ３つ以上有していてもよい。その場合、特徴抽出部及び位置尤度推定の数に応じた数の計数部を追加する。第１計数部２５および第２計数部２６は、第１計数手段および第２計数手段の一例である。

第１特徴抽出部２１は、対象画像７０から、第１特徴マップ８０を生成し、第２特徴抽出部２２は、第１特徴抽出部２１が生成した第１特徴マップ８０から、第２特徴マップ８１を生成する。

あるいは、第２特徴抽出部２２は、対象画像７０そのものから、第２の特徴マップを生成してもよい。この場合、第２特徴抽出部２２は、第１特徴マップ８０の代わりに、対象画像７０を取得する。第２特徴抽出部２２は、対象画像７０そのものに対して、畳み込み演算処理を行うことによって、第２特徴マップ８１を生成する。

第１計数部２５は、第１特徴抽出部２１から、第１特徴マップ８０を取得し、第１特徴マップ８０を用いて、対象画像７０中の第１のサイズを持つ物体の総数を算出する。具体的には、第１計数部２５は、第１のサイズを持つ物体の特徴を判別できるように学習される。学習が完了した第１計数部２５は、対象画像７０中の第１のサイズを持つ物体をそれぞれ検出し、それらをカウントすることによって、第１のサイズを持つ物体の総数を算出する。

第２計数部２６は、第２特徴抽出部２２から、第２特徴マップ８１を取得し、第２特徴マップ８１を用いて、対象画像７０中の第２のサイズを持つ物体の総数を算出する。具体的には、第２計数部２６は、第２のサイズを持つ物体の特徴を判別できるように学習される。学習が完了した第２計数部２６は、対象画像７０中の第２のサイズを持つ物体をそれぞれ検出し、それらをカウントすることによって、第２のサイズを持つ物体の総数を算出する。例えば、第１計数部２５／第２計数部２６は、学習されたパラメータを有する畳み込みニューラルネットワークである。そして、第１特徴抽出部２１、第２特徴抽出部２２、第１位置尤度推定部２３、第２位置尤度推定部２４、第１計数部２５、及び第２計数部２６は、１つのニューラルネットワークとして構成してもよい。なお、第１計数部２５および第２計数部２６の学習方法の一例を、後の実施形態で説明する。

（本実施形態の効果）
本実施形態の構成によれば、第１特徴抽出部２１は、対象画像７０に対して、畳み込み演算処理を行うことにより、物体の特徴を示す第１特徴マップ８０を生成する。第２特徴抽出部２２は、第１特徴マップ８０に対して、畳み込み演算処理をさらに行うことにより、物体の特徴を示す第２特徴マップ８１を生成する。第１位置尤度推定部２３は、第１特徴マップ８０を用いて、対象画像７０の各位置において、第１のサイズを持つ物体が存在する確率を示す第１尤度マップを推定する。第２位置尤度推定部２４は、第２特徴マップ８１を用いて、対象画像７０の各位置において、第１のサイズよりも大きい第２のサイズを持つ物体が存在する確率を示す第２尤度マップを推定する。

このように、物体位置推定装置３は、第１特徴マップ８０および第２特徴マップ８１を用いて、第１のサイズを持つ物体の位置および第２のサイズを持つ物体の位置を推定するので、対象画像７０中で物体同士の重なりがあっても、各物体の位置を頑健かつ高精度に推定することができる。

さらに、本実施形態の構成によれば、第１計数部２５は、第１特徴マップ８０を用いて、対象画像７０中の第１のサイズを持つ物体を計数する。第２計数部２６は、第２特徴マップ８１を用いて、対象画像７０中の第２のサイズを持つ物体を計数する。これにより、物体位置推定装置３は、対象画像７０に含まれる第１のサイズを持つ物体／第２のサイズを持つ物体の総数をより正確に推定することができる。

〔実施形態４〕
図６を参照して、実施形態４について説明する。

（物体位置推定装置４）
図６は、本実施形態４に係わる物体位置推定装置４の構成を示すブロック図である。図６に示すように、物体位置推定装置４は、第１特徴抽出部２１と、第２特徴抽出部２２と、第１位置尤度推定部２３と、第２位置尤度推定部２４とを備える。それに加えて、物体位置推定装置４は、第１位置特定部２７および第２位置特定部２８をさらに備える。なお、前記実施形態２の変形例に係わる物体位置推定装置２ａと同様に、本実施形態４の一変形例に係る物体位置推定装置４は、特徴抽出部および位置尤度推定部を、それぞれ３つ以上有していてもよい。その場合、特徴抽出部及び位置尤度推定の数に応じた数の位置特定部を追加する。第１位置特定部２７および第２位置特定部２８は、第１位置特定手段および第２位置特定手段の一例である。

第１位置特定部２７は、第１位置尤度推定部２３から得られた第１のサイズを持つ物体の位置を示す第１尤度マップから、対象画像７０において第１のサイズを持つ物体の位置を特定する。

具体的には、第１位置特定部２７は、第１尤度マップから尤度の極大値を示す座標を抽出する。第１位置特定部２７は、第１尤度マップから、尤度の極大値を示す座標を取得した後、尤度の極大値を示す座標間の距離、または、尤度の極大値を示す座標の周辺での尤度の広がりを分散値としたマハラノビス距離に基づいて、尤度の極大値を示す複数の座標を１つに統合してもよい。

例えば、第１位置特定部２７は、尤度の極大値を示す座標間のマハラノビス距離が閾値を下回る場合、それらの極大値を統合する。この場合、第１位置特定部２７は、複数の極大値の平均値を、統合された極大値としてもよい。または、第１位置特定部２７は、それぞれ極大値を示す複数の座標の中間の位置を、統合された極大値の座標としてもよい。

その後、第１位置特定部２７は、第１尤度マップ中の全ての尤度を合計することによって、対象画像７０において第１のサイズを有する物体の総数（以下、第１の物体数と呼ぶ）を算出する。

対象画像７０において第１の物体数が０でない場合、さらに、第１位置特定部２７は、第１尤度マップにおいて尤度の極大値を示す座標のうち、尤度の高い順に、対象画像７０における第１の物体数と同数の座標を抽出する。これにより、ノイズを原因とする大量の極大値が第１尤度マップに表れた場合であっても、第１位置特定部２７は、第１のサイズを持つ物体と対応しない極大値を排除することができる。第１位置特定部２７は、このように抽出された１または複数の座標が、第１のサイズを有する物体の位置と対応するとした場合の第１物体位置マップを生成する。第１位置特定部２７は、物体位置マップではなく、座標そのものを出力してもよい。第１物体位置マップは、対象画像７０において第１のサイズを持つ物体が存在する位置を示す。
第１位置特定部２７は、第１尤度マップから抽出された尤度の極大値を示す座標のうち、所定値以上の尤度を持つ座標をさらに抽出してもよい。これにより、第１位置特定部２７は、第１のサイズを持つ物体と対応しない極大値を排除することができる。第１位置特定部２７は、このようにして抽出された座標と対応する対象画像７０における位置に、第１のサイズを有する物体が存在すると特定する。

具体的には、第２位置特定部２８は、第２尤度マップを用いて、対象画像７０中の第２のサイズを持つ物体の位置を特定する。例えば、第２位置特定部２８は、第２尤度マップから尤度の極大値を示す座標を抽出する。第２位置特定部２８は、第２尤度マップから、尤度の極大値を示す座標を取得した後、尤度の極大値を示す座標間の距離、または、尤度の極大値を示す座標の周辺での尤度の広がりを分散値としたマハラノビス距離に基づいて、尤度の極大値を示す複数の座標を１つに統合してもよい。

例えば、第２位置特定部２８は、尤度の極大値を示す座標間のマハラノビス距離が閾値を下回る場合、それらの極大値を統合する。この場合、第２位置特定部２８は、複数の極大値の平均値を、統合された極大値としてもよい。または、第２位置特定部２８は、それぞれ極大値を示す複数の座標の中間の位置を、統合された極大値の座標としてもよい。

その後、第２位置特定部２８は、第２尤度マップ中の全ての尤度を合計することによって、対象画像７０において第２のサイズを有する物体の総数（以下、第２の物体数と呼ぶ）を算出する。

対象画像７０において第２の物体数が０でない場合、さらに、第２位置特定部２８は、第２尤度マップにおいて尤度の極大値を示す座標から、尤度の高い順に、対象画像７０における第２の物体数と同数の座標を抽出する。第２位置特定部２８は、こうして抽出された１または複数の座標が、第２のサイズを有する物体の位置と対応するとした場合の第２物体位置マップを生成する。第２位置特定部２８は、物体位置マップではなく、座標そのものを出力してもよい。第２物体位置マップは、対象画像７０において第２のサイズを持つ物体が存在する位置を示す。

第２位置特定部２８は、第２尤度マップから抽出された尤度の極大値を示す座標のうち、所定値以上の尤度を持つ座標をさらに抽出してもよい。これにより、第２位置特定部２８は、第２のサイズを持つ物体と対応しない極大値を排除することができる。第２位置特定部２８は、このようにして抽出された座標と対応する対象画像７０における位置に、第２のサイズを有する物体が存在すると特定する。

第１位置特定部２７／第２位置特定部２８は、第１物体位置マップ／第２物体位置マップを生成するための前処理として、第１尤度マップ／第２尤度マップに対し、ぼかし処理などの画像処理を実施してもよい。これにより、第１尤度マップ／第２尤度マップから、ノイズを除去することができる。また、第１物体位置マップ／第２物体位置マップを生成した後処理として、第１位置特定部２７／第２位置特定部２８は、例えば、第１のサイズ／第２のサイズを持つ物体の位置を示す座標間の距離や、第１のサイズ／第２のサイズを持つ物体の位置を示す座標周辺の尤度の広がりを分散値とするマハラノビス距離を用いて、第１のサイズ／第２のサイズを持つ物体の位置を示す座標を統合してもよい。

第１位置特定部２７／第２位置特定部２８は、以上のように推定した第１のサイズ／第２のサイズを持つ物体の位置を示す座標を、任意の方法で出力してよい。例えば、第１位置特定部２７／第２位置特定部２８は、物体の位置を示す座標を提示するマップをディスプレイ装置に表示させてもよいし、物体の位置を示す座標のデータを、図示しない記憶装置に格納してもよい。

このように、物体位置推定装置４は、第１特徴マップ８０および第２特徴マップ８１を用いて、第１のサイズを持つ物体の位置および第２のサイズを持つ物体の位置を推定するので、対象画像７０中で物体同士の重なりがあっても、各物体の位置を頑健かつ高精度に推定することができる。

また、本実施形態の構成によれば、第１尤度マップ／第２尤度マップから、物体の確定した位置を示す第１物体位置マップ／第２物体位置マップに変換する。そして、物体の位置の推定結果として、第１物体位置マップ／第２物体位置マップあるいはそれに基づく情報を出力する。これにより、物体位置推定装置４は、他の装置または他のアプリケーションにとって扱いやすい形で、物体の位置の推定結果を示す情報を提供することができる。

〔実施形態５〕
図７を参照して、実施形態５について説明する。

（物体位置推定装置５）
図７は、本実施形態５に係わる物体位置推定装置５の構成を示すブロック図である。図７に示すように、物体位置推定装置５は、実施形態３と同様に、第１特徴抽出部２１と、第２特徴抽出部２２と、第１位置尤度推定部２３と、第２位置尤度推定部２４と、第１計数部２５と、第２計数部１６とを備える。それに加えて、物体位置推定装置５は、第１位置特定部２９と第２位置特定部３０とをさらに有する。なお、物体位置推定装置５は、特徴抽出部、位置尤度推定部、および計数部を、それぞれ３つ以上有していてもよい。その場合、特徴抽出部、位置尤度推定および計数部の数に応じた数の位置特定部を追加する。

第１位置特定部２９は、第１位置尤度推定部２３から、第１のサイズを持つ物体が存在する確率を示す第１尤度マップを取得する。また、第１位置特定部２９は、第１計数部２５から、第１のサイズを持つ物体の総数である第１物体数を取得する。第１位置特定部２９は、第１尤度マップから、尤度の極大値を示す座標を特定する。第１位置特定部２９は、第１尤度マップにおいて尤度の極大値を示す座標のうち、第１物体数が示す物体の総数と同数の座標を、尤度の高い順に抽出する。そして、第１位置特定部２９は、第１のサイズを有する物体の位置を示す第１物体位置マップを生成する。

第２位置特定部３０は、第２位置尤度推定部２４から、第２のサイズを持つ物体が存在する確率を示す第２尤度マップを取得する。また、第２位置特定部３０は、第２計数部２６から、第２のサイズを持つ物体の総数である第２物体数を取得する。第２位置特定部３０は、第２尤度マップから、尤度の極大値を示す座標を特定する。第２位置特定部３０は、第２尤度マップにおいて尤度の極大値を示す座標のうち、第２物体数が示す物体の総数と同数の座標を、尤度の高い順に抽出する。そして、第２位置特定部３０は、抽出した座標が第２のサイズを有する物体の位置と対応するとした場合の第２物体位置マップを生成する。

あるいは、第１位置特定部２９および第２位置特定部３０は、前記実施形態４で説明した第１位置特定部２７および第２位置特定部２８の機能をさらに有していてもよい。

具体的には、第１尤度マップ／第２尤度マップはノイズを含む場合がある。そこで、第１物体位置マップ／第２物体位置マップを生成するための前処理として、第１位置特定部２９／第２位置特定部３０は、第１尤度マップ／第２尤度マップに対して、それぞれ、ぼかし処理などの画像処理を行ってもよい。これにより、第１尤度マップ／第２尤度マップに含まれるノイズを目立たなくさせることができる。

また後処理として、第１位置特定部２９／第２位置特定部３０は、第１物体位置マップ／第２物体位置マップから、尤度の極大値を示す座標を取得した後、尤度の極大値を示す座標間の距離、または、尤度の極大値を示す座標の周辺での尤度の広がりを分散値としたマハラノビス距離に基づいて、尤度の極大値を示す複数の座標を１つに統合してもよい。

例えば、第１位置特定部２９／第２位置特定部３０は、尤度の極大値を示す座標間のマハラノビス距離が閾値を下回る場合、それらの極大値を統合する。この場合、第１位置特定部２９／第２位置特定部３０は、複数の極大値の平均値を、統合された極大値としてもよい。または、第１位置特定部２９／第２位置特定部３０は、それぞれ極大値を示す複数の座標の中間の位置を、統合された極大値の座標としてもよい。

第１位置特定部２９／第２位置特定部３０は、第１物体位置マップ／第２物体位置マップ、あるいはそれに基づく情報を、任意の方法で出力してよい。例えば、第１位置特定部２９／第２位置特定部３０は、ディスプレイ装置を制御して、第１物体位置マップ／第２物体位置マップ、あるいはそれに基づく情報を、ディスプレイ装置に表示させる。あるいは、第１位置特定部２９／第２位置特定部３０は、物体位置推定装置５からアクセス可能な記憶装置に、第１物体位置マップ／第２物体位置マップを格納してもよい。そのほか、第１位置特定部２９／第２位置特定部３０は、物体位置推定装置５からアクセス可能な他の装置に対し、第１物体位置マップ／第２物体位置マップあるいはそれに基づく情報を送信してもよい。

このように、物体位置推定装置５は、第１特徴マップ８０および第２特徴マップ８１を用いて、第１のサイズ／第２のサイズを持つ物体の位置を推定するので、対象画像７０中で、これらの物体同士の重なりがあっても、各物体の位置を頑健かつ高精度に推定することができる。

また、本実施形態の構成によれば、第１位置特定部２９／第２位置特定部３０は、第１尤度マップ／第２尤度マップを、物体の確定した位置を示す第１物体位置マップ／第２物体位置マップに変換する。そして、物体の位置の推定結果として、第１物体位置マップ／第２物体位置マップあるいはそれに基づく情報を出力する。これにより、物体位置推定装置５は、他の装置または他のアプリケーションにとって扱いやすい形で、物体の位置の推定結果を示す情報を提供することができる。

さらに、第１位置特定部２９／第２位置特定部３０は、尤度マップにおける尤度の極大値を示す座標のうち、第１計数部２５および第２計数部２６によってカウントされた第１のサイズ／第２のサイズを持つ物体の総数と同数の座標を、尤度の高い順に取得する。そのため、第１尤度マップ／第２尤度マップ上に、ノイズを原因とする尤度の極大値が大量に表れている場合であっても、物体位置推定装置５は、対象画像７０に映る第１のサイズ／第２のサイズを持つ物体の座標を、正しく取得することができる。

〔実施形態６〕
図８から図９を参照して、実施形態６について説明する。

（物体位置推定装置６）
図８は、本実施形態６に係わる物体位置推定装置６の構成を示すブロック図である。物体位置推定装置６は、以下で説明する点を除き、前記実施形態２に係わる物体位置推定装置２と同等の機能を有する。

図８に示すように、本実施形態６に係わる物体位置推定装置６は、第１特徴抽出部２１と、第２特徴抽出部２２と、第１位置尤度推定部２３と、第２位置尤度推定部２４とを備える。そして、物体位置推定装置６は、学習部４１をさらに有する。学習部４１は、学習手段の一例である。

なお、本実施形態６の一変形例では、物体位置推定装置６は、特徴抽出部および位置尤度推定部を、それぞれ３つ以上有していてもよい。例えば、物体位置推定装置６には、特徴抽出部および位置尤度推定部が、それぞれｎ（＞２）個設けられる。この場合、学習データ（すなわち教師データ）は、学習画像と、物体情報と、第１正解尤度マップから第ｎ正解尤度マップまでのｎ個の正解尤度マップとを含む。第１正解尤度マップから第ｎ正解尤度マップまでのｎ個の正解尤度マップを、正解値と呼ぶ場合がある。

（学習部４１）
学習部４１は、予め準備された学習データ（すなわち教師データ）を利用して、物体位置推定装置６の各部（ただし学習部４１を除く）の学習を行う。学習データは、学習画像、物体情報、第１正解尤度マップ、および第２正解尤度マップを含む。

第１正解尤度マップは、学習画像において、第１のサイズを有する物体の位置を示す確率であり、物体領域に基づいて定められる。第２正解尤度マップは、学習画像中の第２のサイズを有する物体の位置を示す確率であり、物体領域に基づいて定められる。第１正解尤度マップおよび第２正解尤度マップを生成する方法は限定されない。例えば、オペレータが、ディスプレイデバイスに表示された学習画像中の物体領域を目視し、手動にて、第１正解尤度マップおよび第２正解尤度マップを生成してもよい。また、物体位置推定装置６は、後述の物体位置推定装置６ａに示される学習データ生成部４２をさらに備え、学習データ生成部４２は、第１正解尤度マップおよび第２正解尤度マップを生成してもよい。

なお、物体位置推定装置６とは異なる他の装置によって、学習データが生成される場合、物体位置推定装置６は、他の装置から学習データを取得する。例えば、学習データは、物体位置推定装置６からアクセス可能な記憶装置に予め格納されている。この場合、物体位置推定装置６は、この記憶装置から学習データを取得する。あるいは、物体位置推定装置６は、学習データ生成部４２が生成した学習データを取得してもよい（後述する変形例）。

物体位置推定装置６は、物体の形状の特徴を学習するのではなく、学習画像における物体の位置を物体同士の重なりも考慮して学習する。これにより、物体位置推定装置６は、学習画像における物体同士の重なりもそのまま学習することができる。

学習部４１は、学習画像を第１特徴抽出部２１に入力する。第１特徴抽出部２１は、学習画像から、第１特徴マップ８０を生成する。そして、第１位置尤度推定部２３は、第１特徴マップ８０に基づいて、第１のサイズを持つ物体の位置を示す第１尤度マップを出力する。第１位置尤度推定部２３は、第１尤度マップを学習部４１へ出力する。

第１特徴抽出部２１から、第２特徴抽出部２２に対して、第１特徴マップ８０が入力される。第２特徴抽出部２２は、第１特徴マップ８０から、第２特徴マップ８１を生成する。

あるいは、第２特徴抽出部２２は、学習画像そのものから、第２の特徴マップを生成してもよい。この場合、第２特徴抽出部２２は、第１特徴マップ８０の代わりに、学習画像を取得する。第２特徴抽出部２２は、学習画像そのものに対して、第１特徴抽出部２１よりも多くの畳み込み演算処理を行うことによって、第２特徴マップ８１を生成する。

第２位置尤度推定部２４は、第２特徴マップ８１に基づいて、学習画像において、第２のサイズを持つ物体の位置を示す第２尤度マップを出力する。第２位置尤度推定部２４は、第２尤度マップを学習部４１へ出力する。

学習部４１は、第１位置尤度推定部２３および第２位置尤度推定部２４からの各出力（第１尤度マップ、第２尤度マップ）と、学習データに含まれる正解値（第１正解尤度マップ、第２正解尤度マップ）との誤差を、第１の損失として算出する。例えば、学習部４１は、第１尤度マップ／第２尤度マップと、第１正解尤度マップ／第２正解尤度マップとの間で、平均二乗誤差を算出する。そして、学習部４１は、算出したマップの間の平均二乗誤差を第１の損失とする。学習部４１は、算出した第１の損失を小さくするように、物体位置推定装置６の各部（学習部４１を除く）の学習を行う。

ここでいう学習とは、物体位置推定装置６の各部のパラメータを更新することを意味する。例えば、学習部４１は、バックプロパゲーション等の既知の技術を利用して、学習処理を実行することができる。具体的には、学習部４１は、予め設定された第１の損失の算出式（例えば損失関数）を用いて、第１の損失を算出し、第１の損失を低減するように、物体位置推定装置６の各部の学習を行う。または、学習部４１は、アクセス可能な記憶装置に記憶された第１の損失の算出式を取得して、第１の損失を算出し、第１の損失を低減するように、物体位置推定装置６の各部の学習を行う。

一例では、学習部４１は、第１位置尤度推定部２３／第２位置尤度推定部２４の出力から、学習部４１へフィードバックされた情報（すなわち第１尤度マップ／第２尤度マップ）に基づいて、物体位置推定装置６の各部（学習部４１を除く）のパラメータを更新する。
物体位置推定装置６の各部（学習部４１を除く）のパラメータが更新された後、物体位置推定装置６の各部は、別の学習データを用いて、第１尤度マップ／第２尤度マップを推定し出力する。第１位置尤度推定部２３／第２位置尤度推定部２４の出力から、学習部４１へ、第１尤度マップ／第２尤度マップがフィードバックされる。学習部４１は、フィードバックされた情報（すなわち第１尤度マップ／第２尤度マップ）に基づいて、物体位置推定装置６の各部（学習部４１を除く）のパラメータを再び更新する。

学習部４１は、第１の損失の大きさが所定の閾値以下となるまで、上述した方法で、物体位置推定装置６の各部の学習を繰り返し行ってもよい。しかしながら、学習部４１が物体位置推定装置６の各部（学習部４１を除く）の学習を終了する条件は限定されない。このようにして、学習部４１は、第１の損失を低減するように、物体位置推定装置６の各部のパラメータを繰り返し学習する。これにより、第１尤度マップの推定および第２尤度マップの推定が、第１特徴抽出部２１を通じて、同時に学習されるので、物体位置推定装置６が物体の位置をより精度よく推定できるとともに、学習速度を向上させることができる。

（物体位置推定装置６の動作）
図９を参照して、本実施形態６に係わる物体位置推定装置６の動作を説明する。図９は、物体位置推定装置６の動作の流れを示すフローチャートである。ここでは、物体位置推定装置６が単一の学習データを用いて学習を行う場合を説明する。なお、複数の学習データが存在する場合、物体位置推定装置６は、図９に示すステップＳ２０からＳ２３までの処理を繰り返し、学習データごとに実行する。

図９に示すように、まず、学習部４１は、学習データを取得する（Ｓ２０）。学習部４１は、学習データに含まれる学習画像を、第１特徴抽出部２１に入力する（Ｓ２１）。学習部４１は、各位置尤度推定部の出力と正解値との誤差を示す第１の損失を算出し（Ｓ２２）、算出した第１の損失を小さくするように、物体位置推定装置６の各部の学習（パラメータ更新）を行う（Ｓ２３）。

以上で、物体位置推定装置６の動作は終了する。

（変形例１）
変形例１では、学習データの物体情報は、物体の位置およびサイズに加え、その物体の属性も示す。学習部４１は、学習データとして、第１のサイズを有する物体の位置を示す確率である第１正解尤度マップと、第２のサイズを有する物体の位置を示す確率である第２正解尤度マップを、物体の属性ごとに用意する。そして、学習部４１は、学習画像と、属性毎の第１のサイズを有する物体の位置を示す確率である第１正解尤度マップと、属性毎の第２のサイズを有する物体の位置を示す確率である第２正解尤度マップとを用いて、上述した方法（図９）によって、物体位置推定装置６の各部の学習を実行する。

本変形例１の構成によれば、属性毎の第１正解尤度マップおよび第２正解尤度マップを用いて、物体位置推定装置６の各部の学習を実行する。これにより、物体位置推定装置６は、物体の属性ごとに、物体の位置を推定することができる。例えば、物体位置推定装置６は、大人（物体の属性の一例である）の位置を推定するとともに、子供（物体の位置の他の例である）の位置も別に推定することができる。

（変形例２）
学習画像中の物体の総数が少なかったり、あるいは物体の配置の偏りが大きかったりする場合、学習が正しく進行しない可能性がある。具体的には、学習データである第１正解尤度マップまたは第２正解尤度マップにおいて、尤度が０である座標が多く存在する場合がある。

本変形例２に係わる学習部４１は、上述した第１の損失を最小化するための学習において、学習データである第１正解尤度マップ／第２正解尤度マップ、および推定結果である第１尤度マップ／第２尤度マップにおける全ての座標における誤差を用いるのではなく、一部の座標における誤差を最小化するように、物体位置推定装置６の各部の学習を行う。具体的には、本変形例２に係わる学習部４１は、学習データである第１正解尤度マップ／第２正解尤度マップにおいて、尤度が０の座標の数とそれ以外の座標の数とが所定の比率になるように、学習データである第１正解尤度マップ／第２正解尤度マップ上のいくつかの座標を選択する。そして、選択された第１正解尤度マップ／第２正解尤度マップ上の座標に応じて、推定結果である第１尤度マップ／第２尤度マップの座標も選択する。例えば、学習部４１は、尤度が０の座標と、それ以外の座標とを、同数ずつ、第１正解尤度マップ／第２正解尤度マップ上から選択し、選択された第１正解尤度マップ／第２正解尤度マップ上の座標に応じて、第１尤度マップ／第２尤度マップの座標も選択する。学習部４１は、選択した座標における第１の誤差を最小化するように、物体位置推定装置６の各部のパラメータを更新する。

（物体位置推定装置６ａ）
図１０は、本実施形態６の一変形例に係わる物体位置推定装置６ａの構成を示すブロック図である。本変形例に係わる物体位置推定装置６ａは、第１特徴抽出部２１と、第２特徴抽出部２２と、第１位置尤度推定部２３と、第２位置尤度推定部２４とを備える。物体位置推定装置６ａは、学習部４１および学習データ生成部４２をさらに有する。学習データ生成部４２は、学習データ生成手段の一例である。物体位置推定装置６ａは、学習データ生成部４２をさらに備えている点で、上述した物体位置推定装置６とは構成が異なる。

（学習データ生成部４２）
学習データ生成部４２は、学習部４１が学習を行うための学習データ（教師データ）を生成する。

図１１を参照して、本変形例に係わる学習データ生成部４２の動作を説明する。図１１は、学習データ生成部４２が、学習データである第１正解尤度マップおよび第２正解尤度マップを作成するために実行する処理の流れを示す。

学習データ生成部４２は、学習画像を取得する。例えば、学習画像および物体情報は、オペレータによって、物体位置推定装置６ａへ入力される。ここで、学習画像は、物体位置推定装置６ａによる位置の推定の対象である第１のサイズを持つ物体／第２のサイズを持つ物体（図１１では「対象物体」である頭部）を含む。学習画像に紐付けられた物体情報によって、学習画像における物体領域が特定される。

物体領域は、学習画像において、物体が占有する領域と対応する。例えば、物体領域は、学習画像中の物体に外接する矩形またはその他の２次元形状によって囲まれた領域である。例えば、物体情報は、学習画像における物体領域（例えば物体の外接矩形）の左上隅及び右下隅の座標をそれぞれ指定する。

学習データ生成部４２は、学習画像に紐付けられた物体情報を用いて、学習画像中の物体の位置および大きさを特定する。そして、以下で説明する手順にしたがって、学習データ生成部４２は、第１正解尤度マップおよび第２正解尤度マップをそれぞれ生成する。

図１１に示すように、学習データ生成部４２は、まず、学習画像に紐付けられた物体情報に基づいて、第１のサイズを持つ物体／第２のサイズを持つ物体のそれぞれを検出する。学習データ生成部４２は、学習画像において、第１のサイズを持つ物体／第２のサイズを持つ物体の位置を特定する。

次に、学習データ生成部４２は、全ての座標の尤度がゼロである初期の第１正解尤度マップ／第２正解尤度マップを用意し、その第１正解尤度マップ／第２正解尤度マップ上に、第１のサイズを持つ物体／第２のサイズを持つ物体についての物体領域の中心または重心を中心とする尤度の正規分布を生成する。尤度の正規分布の生成において、学習データ生成部４２は、第１のサイズを持つ物体についての尤度の正規分布を、第１正解尤度マップ上に生成し、第２のサイズを持つ物体についての尤度の正規分布を、第２正解尤度マップ上に生成する。
また、学習データ生成部４２は、第１正解尤度マップ／第２正解尤度マップ上における正規分布の広がりを、パラメータによって規定する。例えば、パラメータは、正規分布を示す関数の中心（平均）と分散のパラメータであってよい。この場合、正規分布を示す関数の中心を、物体の位置を示す値（例えば物体領域の中心または重心）とし、正規分布を示す関数の分散を、物体領域の大きさに対応した値にしてもよい。また、正規分布を示す関数の中心の値が１になるように、正規分布を示す関数の形を設定してもよい。

以上のようにして、学習データ生成部４２は、学習画像の各位置に第１のサイズを持つ物体／第２のサイズを持つ物体が存在する確率を示す第１正解尤度マップ／第２正解尤度マップを生成する。第１正解尤度マップ／第２正解尤度マップでは、第１のサイズを持つ物体／第２のサイズを持つ物体についての物体領域が、尤度の正規分布の広がりに対応する。

なお、第１正解尤度マップおよび第２正解尤度マップ上のある部分において、複数の尤度の正規分布が重なっている場合、学習データ生成部４２は、その部分内の同一の座標における尤度の最大値を、その座標における尤度としてもよい。あるいは、学習データ生成部４２は、複数の正規分布が重なった部分の各座標での尤度の平均値を、その座標における尤度としてもよい。しかしながら、学習データ生成部４２は、これ以外の方法で、第１正解尤度マップおよび第２正解尤度マップ上において、複数の正規分布が重なった部分における尤度を算出してもよい。

学習データ生成部４２は、物体情報に基づいて、学習画像における第１のサイズを持つ物体の総数（第１の物体数）をカウントする。第１正解尤度マップ内の尤度の合計が、学習画像における第１の物体数と一致するように、学習データ生成部４２は、第１正解尤度マップの尤度を正規化する。なお、図１１では、正規化した第１正解尤度マップを省略している。または、学習データ生成部４２は、学習画像内に含まれる物体領域の割合の合計を用いて、第１の物体数のカウントを行ってもよい。

正規化された第１正解尤度マップの各座標における尤度は、第１のサイズを持つ物体がその座標によって示される位置に存在する確率を表す。正規化された第１正解尤度マップ全体の尤度を合計すると、学習画像に含まれる第１のサイズを持つ物体の総数と等しくなる。つまり、第１正解尤度マップ全体の尤度の合計は、第１正解尤度マップに存在する物体の総数の意味も持つ。

さらに、学習データ生成部４２は、正規化された第１正解尤度マップのサイズを、第１位置尤度推定部２３の出力である第１尤度マップのサイズと等しくする。言い換えれば、学習データ生成部４２は、正規化された第１正解尤度マップ上の各座標と、学習画像における各位置とが一対一で対応するように、第１正解尤度マップを変換する。上記では、学習データ生成部４２が正規化を行う場合を一例として説明したが、正規化の処理は必須ではない。すなわち、学習データ生成部４２は、第１正解尤度マップおよび第２正解尤度マップの正規化を行わなくてもよい。

学習データ生成部４２は、物体情報を用いて、学習画像から、第２のサイズを持つ物体を特定する。学習データ生成部４２は、特定した第２のサイズを持つ物体の位置を表す正規分布を生成する。そして、学習データ生成部４２は、第１正解尤度マップに関して説明した手順と同様に、第２正解尤度マップを生成し、第２正解尤度マップを正規化する。なお、図１１では、正規化した第２正解尤度マップを省略している。

さらに、学習データ生成部４２は、正規化された第２正解尤度マップのサイズを、第２尤度マップのサイズと一致させる。すなわち、学習データ生成部４２は、正規化された第２正解尤度マップ上の各座標と、学習画像における各位置とが一対一で対応するように、第２正解尤度マップを変換する。第２正解尤度マップ上の各座標における尤度は、学習画像上の対応する位置において、第２のサイズを持つ物体が存在する確率を示す。上記では、学習データ生成部４２が正規化を行う場合を例として説明したが、正規化の処理は必須ではない。すなわち、学習データ生成部４２は、第１正解尤度マップおよび第２正解尤度マップの正規化を行わなくてもよい。

学習データ生成部４２は、学習画像と、物体情報と、正解値とを紐付ける。正解値は、第１正解尤度マップおよび第２正解尤度マップを含む。

このように、物体位置推定装置６（６ａ）は、第１特徴マップ８０および第２特徴マップ８１を用いて、第１のサイズ／第２のサイズを持つ物体の位置を推定するので、対象画像７０中で、これらの物体同士の重なりがあっても、各物体の位置を頑健かつ高精度に推定することができる。

物体位置推定装置６（６ａ）は、第１正解尤度マップ／第２正解尤度マップを用いて、第１のサイズを持つ物体／第２のサイズを持つ物体の位置を、物体同士の重なりを含む物体の配置パターンとして学習する。第１正解尤度マップ／第２正解尤度マップは、学習画像の各座標に、第１のサイズを持つ物体／第２のサイズを持つ物体が存在する確率を尤度によって表す。これにより、対象画像７０中で、物体同士の重なりがある場合であっても、物体位置推定装置６（６ａ）は、対象画像７０におけるそれぞれの物体の位置を頑健かつ高精度に推定することができる。

〔実施形態７〕
実施形態７について、図１２から図１３を参照して詳細に説明する。

（物体位置推定装置７）
図１２は、本実施形態７に係わる物体位置推定装置７の構成を例示するブロック図である。図１２に示すように、物体位置推定装置７は、第１特徴抽出部２１と、第２特徴抽出部２２と、第１位置尤度推定部２３と、第２位置尤度推定部２４とを備える。物体位置推定装置７は、学習部４１を備える。それに加えて、物体位置推定装置７は、第１計数部２５および第２計数部２６をさらに有する。例えば、物体位置推定装置７の各部は、個別に、または一体で、畳み込みニューラルネットワーク等のニューラルネットワークで実現される。

（学習部４１）
学習部４１は、予め準備された学習データ（すなわち教師データ）を用いて、物体位置推定装置７が備える各部（学習部４１を除く）の学習を行う。

本実施形態７では、学習データは、学習画像および物体情報を含む。学習画像は、位置尤度の推定の対象である物体を含む。学習画像は、学習部４１が物体の位置の尤度および物体の総数を推定することを学習するために利用される。また学習データは、第１の物体数の正解、第２の物体数の正解、第１正解尤度マップ、及び第２正解尤度マップをさらに含む。以下では、第１正解尤度マップ、第２正解尤度マップ、第１の物体数の正解、および第２の物体数の正解を、まとめて正解値と呼ぶ場合がある。これら学習データは、学習部４１が物体の位置の尤度と物体の総数を推定することを、物体位置推定装置７の各部（学習部４１を除く）に学習させるために利用される。なお、正解値を生成する方法は限定されない。

例えば、オペレータが、学習画像における第１のサイズを持つ物体／第２のサイズを持つ物体の位置を特定し、全ての座標の尤度がゼロである初期の第１正解尤度マップ／第２正解尤度マップ上に、第１のサイズ／第２のサイズを持つ物体の位置を中心とする尤度の正規分布を付与する。また、オペレータが、学習画像に映る第１のサイズを持つ物体および第２のサイズを持つ物体をそれぞれカウントし、学習画像に映る第１のサイズを持つ物体の総数を、第１の物体数の正解とし、学習画像に映る第２のサイズを持つ物体の総数を、第２の物体数の正解とする。

第１正解尤度マップの各座標における尤度は、第１のサイズを有する物体が、学習画像における対応する位置に存在する確率を示す。第２正解尤度マップの各座標における尤度は、第２のサイズを有する物体が、学習画像における対応する位置に存在する確率を示す。

第１の物体数の正解は、学習画像に含まれる第１のサイズを持つ物体の総数を示す。第２の物体数の正解は、学習画像に含まれる第２のサイズを持つ物体の総数を示す。このほか、物体位置推定装置７は、後述の物体位置推定装置７ａに示される学習データ生成部４２を備え、学習データ生成部４２は各正解値を生成してもよい。

学習部４１は、第１特徴抽出部２１に学習画像を入力し、第１位置尤度推定部２３及び第２位置尤度推定部２４から出力される第１尤度マップ／第２尤度マップと、学習データに含まれる正解値（第１正解尤度マップ／第２正解尤度マップ）との誤差を、第１の損失として算出する。また、学習部４１は、第１特徴抽出部２１に学習画像を入力したときに第１計数部２５及び第２計数部２６から出力される第１の物体数／第２の物体数と、学習データに含まれる他の正解値（第１の物体数の正解、および第２の物体数の正解）との誤差を、第２の損失として算出する。

学習部４１は、第１の損失および第２の損失の少なくとも一方を低減するように、物体位置推定装置７の各部を学習させる。

具体的には、学習部４１は、第１の損失および第２の損失の少なくとも一方に基づいて、物体位置推定装置７の各部（学習部４１を除く）のパラメータを更新する。一例では、学習部４１は、第１位置尤度推定部２３が出力する第１尤度マップと、第１正解尤度マップとが一致するように、物体位置推定装置７の各部を学習させる。それとともに、学習部４１は、第２位置尤度推定部２４が出力する第２尤度マップと、第２正解尤度マップとが一致するように、物体位置推定装置７の各部を学習させる。

さらに、学習部４１は、第１計数部２５が計数した第１の物体数と、第１の物体数の正解とが一致するように、物体位置推定装置７の各部を学習させる。さらに加えて、学習部４１は、第２計数部２６が計数した第２の物体数と、第２の物体数の正解とが一致するように、物体位置推定装置７の各部を学習させる。

なお、学習画像における物体の配置の偏りが大きい場合があり得る。そのような場合、学習部４１は、第１尤度マップ／第２尤度マップにおける一部の座標のみにおける誤差を最小化するように、物体位置推定装置７の各部を学習させてもよい。ここで説明した例を、物体位置推定装置６の変形例２に示している。

（物体位置推定装置７ａ）
図１３は、本実施形態７の一変形例に係わる物体位置推定装置７ａの構成を示すブロック図である。本変形例に係わる物体位置推定装置７ａは、第１特徴抽出部２１と、第２特徴抽出部２２と、第１位置尤度推定部２３と、第２位置尤度推定部２４と、第１計数部２５と、第２計数部２６と、学習部４１とを備える。物体位置推定装置７ａは、学習データ生成部４２をさらに有する。本変形例に係わる物体位置推定装置７ａは、学習データ生成部４２をさらに備えている点で、物体位置推定装置７とは構成が異なる。

前記実施形態６ａと同様に、学習データ生成部４２は、対象画像７０中の第１のサイズを持つ物体の位置／第２のサイズを持つ物体の位置の推定に係わる学習を行うための学習データ（教師データ）を生成する。学習データ生成部４２が生成する学習データは、学習画像、物体情報、および正解値を含む。

本変形例に係わる学習データ生成部４２は、第１の物体数の正解、および第２の物体数の正解を正解値として含む学習データを生成する。この点において、物体位置推定装置７ａの学習データ生成部４２は、物体位置推定装置６ａの学習データ生成部４２とは異なる。物体位置推定装置７ａの学習データ生成部４２は、前記実施形態６の一変形例に係わる物体位置推定装置６ａの学習データ生成部４２の処理の中で得られる第１のサイズを持つ物体の総数、および第２のサイズを持つ物体の総数を用いて、第１の物体数の正解、および第２の物体数の正解をそれぞれ生成する。第１のサイズを持つ物体の総数、および第２のサイズを持つ物体の総数は、前記実施形態６の一変形例に係わる物体位置推定装置６ａの学習データ生成部４２について説明したように、第１正解尤度マップおよび第２正解尤度マップの正規化を行うためのカウント処理で得られる。

（本実施形態の効果）
本実施形態の構成によれば、本実施形態７に係わる物体位置推定装置７、およびその一変形例に係わる物体位置推定装置７ａは、それぞれ、第１特徴抽出部２１、および第２特徴抽出部２２において、後段に同時に複数の部が接続されるように構成され、学習において、第１特徴抽出部２１、および第２特徴抽出部２２は、複数の部の影響を受けて適切にパラメータが更新される。さらに、第１特徴抽出部２１および第２特徴抽出部２２は、後段に接続された複数の部の共通部分として機能し、また第１特徴抽出部２１および第２特徴抽出部２２は、同時に学習される。これにより、物体位置推定装置７、７ａにおける物体の位置を推定する精度、および物体を計数する精度を向上させるとともに、学習速度を向上させることもできる。

〔ハードウェア構成〕
図１４は、前記実施形態１に係わる物体位置推定装置１のハードウェア構成を示す。物体位置推定装置１の各構成は、コンピュータ１００が物体位置推定用プログラム１０１（以下、単にプログラム１０１と記載する）を読み込んで実行する機能として実現される。図１４を参照すると、画像取得装置９０が、コンピュータ１００に接続されている。また、コンピュータ１００が読み取り可能なプログラム１０１を記憶した記録媒体１０２が、コンピュータ１００に接続されている。

記録媒体１０２は、磁気ディスクまたは半導体メモリ等で構成される。コンピュータ１００は、例えば起動時に、記録媒体１０２に格納されたプログラム１０１を読み取る。プログラム１０１は、コンピュータ１００の動作を制御することにより、そのコンピュータ１００を前述した本発明の実施形態１に係る物体位置推定装置１内の各部として機能させる。

ここでは、前記実施形態１に係わる物体位置推定装置１をコンピュータ１００とプログラム１０１とで実現する構成を説明した。ただし、前記実施形態２～７に係わる物体位置推定装置２～７（７ａ）をコンピュータ１００とプログラム１０１とで実現することも可能である。

〔付記〕
以上、図面を参照して本発明の実施形態について述べたが、これらは本発明の例示であり、上記各実施形態の構成を組み合わせた構成や、上記以外の様々な構成を採用することもできる。上記の実施形態の一部又は全部は、以下の付記のようにも記載されうるが、以下には限られない。

（付記１）
対象画像に対して、畳み込み演算処理を行うことにより、第１特徴マップを生成する第１特徴抽出手段と、前記第１特徴マップに対して、畳み込み演算処理をさらに行うことにより、第２特徴マップを生成する第２特徴抽出手段とを含む特徴抽出手段と、
前記第１特徴マップを用いて、前記対象画像の各位置において、第１のサイズを持つ物体が存在する確率を示す第１尤度マップを推定する第１位置尤度推定手段と、前記第２特徴マップを用いて、前記対象画像の各位置において、前記第１のサイズよりも大きい第２のサイズを持つ物体が存在する確率を示す第２尤度マップを推定する第２位置尤度推定手段とを含む尤度マップ推定手段と
を備えた物体位置推定装置。

（付記２）
前記第１尤度マップ上の各座標は、前記対象画像上の一つの位置にそれぞれ対応しており、前記第１尤度マップ上の各座標における尤度は、前記対象画像上の対応する前記一つの位置に第１のサイズを持つ物体が存在する確率を示す、もしくは追加で前記対象画像上に存在する第１のサイズを持つ物体の数を示し、
前記第２尤度マップ上の各座標は、前記対象画像上の一つの位置にそれぞれ対応しており、前記第２尤度マップ上の各座標における尤度は、前記対象画像上の対応する前記一つの位置に第２のサイズを持つ物体が存在する確率を示す、もしくは追加で前記対象画像上に存在する第２のサイズを持つ物体の数を示す
ことを特徴とする付記１に記載の物体位置推定装置。

（付記３）
前記第１位置尤度推定手段は、前記第１のサイズを有する物体の属性ごとに、前記第１のサイズを持つ物体の位置をそれぞれ推定し、
前記第２位置尤度推定手段は、前記第２のサイズを持つ物体の属性ごとに、前記第２のサイズを持つ物体の位置をそれぞれ推定する
ことを特徴とする付記１または２に記載の物体位置推定装置。

（付記４）
前記第１特徴マップに基づいて、前記対象画像において、前記第１のサイズを持つ物体の総数を計数する第１計数手段と、
前記第２特徴マップに基づいて、前記対象画像において、前記第２のサイズを持つ物体の総数を計数する第２計数手段と、をさらに備えた
ことを特徴とする付記１から３のいずれかに記載の物体位置推定装置。

（付記５）
前記第１尤度マップにおいて尤度の極大値を示す座標に基づいて、前記対象画像において、前記第１のサイズを持つ物体の位置を特定する第１位置特定手段と、
前記第２尤度マップにおいて尤度の極大値を示す座標に基づいて、前記対象画像において、前記第２のサイズを持つ物体の位置を特定する第２位置特定手段とをさらに備えた
ことを特徴とする付記１から４のいずれかに記載の物体位置推定装置。

（付記６）
前記第１位置特定手段は、
前記第１尤度マップの全体の尤度の合計から、前記対象画像において、前記第１のサイズを持つ物体の総数を算出し、もしくは、前記第１計数手段から、前記対象画像において、前記第１のサイズを持つ物体の総数を計数し、
前記第１尤度マップにおいて尤度の極大値を示す座標のうち、前記第１のサイズを持つ物体の総数と同数の座標を、前記尤度の極大値が大きい順に抽出し、
抽出した前記尤度の極大値を示す座標に基づいて、前記対象画像において前記第１のサイズを持つ物体の位置を特定し、
前記第２位置特定手段は、
前記第２尤度マップの全体の尤度の合計から、前記対象画像において、前記第２のサイズを持つ物体の総数を算出し、もしくは、前記第２計数手段から、前記対象画像において、前記第１のサイズを持つ物体の総数を計数し、
前記第２尤度マップにおいて尤度の極大値を示す座標のうち、前記第２のサイズを持つ物体の総数と同数の座標を、前記尤度の極大値が大きい順に抽出し、
抽出した前記尤度の極大値を示す座標に基づいて、前記対象画像において前記第２のサイズを持つ物体の位置を特定する
ことを特徴とする付記５に記載の物体位置推定装置。

（付記７）
前記第１位置尤度推定手段および前記第２位置尤度推定手段から出力される前記第１尤度マップおよび前記第２尤度マップにおいて、予め得られた正解値に対する誤差が小さくなるように、前記物体位置推定装置の各部に学習させる学習手段をさらに備えた
ことを特徴とする付記１から６のいずれかに記載の物体位置推定装置。

（付記８）
学習画像および物体情報に基づいて、前記学習手段による学習に用いられる学習データを生成する学習データ生成手段をさらに備え、
前記学習データは、前記学習画像、物体情報、及び正解値を含み、
前記正解値は、第１正解尤度マップおよび第２正解尤度マップを含み、
前記第１正解尤度マップは、前記学習画像において、第１のサイズを有する物体についての位置および物体領域の広がりを示し、前記第２正解尤度マップは、前記学習画像において、第２のサイズを有する物体についての位置および物体領域の広がりを示す
ことを特徴とする付記７に記載の物体位置推定装置。

（付記９）
前記学習手段は、前記学習データに含まれる前記第１正解尤度マップおよび前記第２正解尤度マップを前記正解値として用いて、前記正解値に対する、前記第１尤度マップおよび前記第２尤度マップの誤差を示す第１の損失を算出する
ことを特徴とする付記８に記載の物体位置推定装置。

（付記１０）
前記第１のサイズは、第１最小サイズから第１最大サイズまでの第１所定範囲内における任意のサイズであり、
前記第２のサイズは、第２最小サイズから第２最大サイズまでの第２所定範囲内における任意のサイズであり、前記第１所定範囲と前記第２所定範囲とは重複せず、前記第２のサイズは前記第１のサイズよりも大きい
ことを特徴とする付記１から９のいずれかに記載の物体位置推定装置。
（付記１１）
前記第１のサイズおよび第２のサイズは、第１特徴マップおよび第２特徴マップのデータサイズの逆数に比例する
ことを特徴とする付記１から１０のいずれかに記載の物体位置推定装置。

（付記１２）
対象画像に対して、畳み込み演算処理を行うことにより、第１特徴マップを生成するともに、前記第１特徴マップに対して、畳み込み演算処理をさらに行うことにより、第２特徴マップを生成し、
前記第１特徴マップを用いて、前記対象画像の各位置において、第１のサイズを持つ物体が存在する確率を示す第１尤度マップを推定するとともに、前記第２特徴マップを用いて、前記対象画像の各位置において、前記第１のサイズよりも大きい第２のサイズを持つ物体が存在する確率を示す第２尤度マップを推定する
ことを含む物体位置推定方法。

（付記１３）
対象画像に対して、畳み込み演算処理を行うことにより、第１特徴マップを生成することと、前記第１特徴マップに対して、畳み込み演算処理をさらに行うことにより、第２特徴マップを生成することと、
前記第１特徴マップを用いて、前記対象画像の各位置において、第１のサイズを持つ物体が存在する確率を示す第１尤度マップを推定することと、前記第２特徴マップを用いて、前記対象画像の各位置において、前記第１のサイズよりも大きい第２のサイズを持つ物体が存在する確率を示す第２尤度マップを推定することと
をコンピュータに実行させるための、一時的でない記録媒体。

本発明は、映像監視システムにおいて、撮影又は録画された映像から、不審者または不審物を発見したり、不審な行動または状態を検知したりといった用途に利用できる。また、本発明は、動線解析または行動解析といったマーケティングでの用途に適用できる。加えて、本発明は、撮影又は録画された映像から、物体の位置を推定し、推定した２次元空間または３次元空間の位置情報を入力するためのユーザインタフェースといった用途に適用できる。この他、本発明は、物体の位置の推定結果とその位置をトリガ・キーとするビデオ／映像検索装置または映像探索機能といった用途にも適用できる。

１物体位置推定装置
２（２a）物体位置推定装置
３物体位置推定装置
４物体位置推定装置
５物体位置推定装置
６（６a）物体位置推定装置
７物体位置推定装置
１０特徴抽出部
２０尤度マップ推定部
２１第１特徴抽出部
２２第２特徴抽出部
２３第１位置尤度推定部
２４第２位置尤度推定部
２５第１計数部
２６第２計数部
２７第１位置特定部
２８第２位置特定部
２９第１位置特定部
３０第２位置特定部
４１学習部
４２学習データ生成部
８０第１特徴マップ
８１第２特徴マップ
９０画像取得装置

Claims

対象画像に対して、第１のフィルタを用いて、畳み込み演算処理を行うことにより、前記対象画像から第１特徴マップを生成する第１特徴抽出手段と、前記第１特徴マップに対して、第２のフィルタを用いて、畳み込み演算処理をさらに行うことにより、前記第１特徴マップから第２特徴マップを生成する第２特徴抽出手段とを含む特徴抽出手段と、
前記第１特徴マップを用いて、前記対象画像の各位置において、第１のサイズを持つ物体が存在する確率を示す第１尤度マップを推定する第１位置尤度推定手段と、
前記第２特徴マップを用いて、前記対象画像の各位置において、前記第１のサイズよりも大きい第２のサイズを持つ物体が存在する確率を示す第２尤度マップを推定する第２位置尤度推定手段と、
を含む尤度マップ推定手段と、
を備え、
前記第１のサイズは、物体の第１基準サイズに基づいて定められた第１最小サイズから第１最大サイズまでの第１所定範囲内における任意のサイズであり、
前記第２のサイズは、物体の第２基準サイズに基づいて定められた第２最小サイズから第２最大サイズまでの第２所定範囲内における任意のサイズであり、前記第１所定範囲と前記第２所定範囲とは重複せず、前記第２のサイズは前記第１のサイズよりも大きい
物体位置推定装置。
前記第１尤度マップ上の各座標は、前記対象画像上の一つの位置にそれぞれ対応しており、前記第１尤度マップ上の各座標における尤度は、前記対象画像上の対応する前記一つの位置に前記第１のサイズを持つ物体が存在する確率を示す、もしくは追加で前記対象画像上に存在する前記第１のサイズを持つ物体の数を示し、
前記第２尤度マップ上の各座標は、前記対象画像上の一つの位置にそれぞれ対応しており、前記第２尤度マップ上の各座標における尤度は、前記対象画像上の対応する前記一つの位置に前記第２のサイズを持つ物体が存在する確率を示す、もしくは追加で前記対象画像上に存在する前記第２のサイズを持つ物体の数を示す
ことを特徴とする請求項１に記載の物体位置推定装置。
前記第１位置尤度推定手段は、前記第１のサイズを有する物体の属性ごとに、前記第１のサイズを持つ物体の位置をそれぞれ推定し、
前記第２位置尤度推定手段は、前記第２のサイズを有する物体の属性ごとに、前記第２のサイズを持つ物体の位置をそれぞれ推定する
ことを特徴とする請求項１または２に記載の物体位置推定装置。
前記第１特徴マップに基づいて、前記対象画像において、前記第１のサイズを持つ物体の総数を計数する第１計数手段と、
前記第２特徴マップに基づいて、前記対象画像において、前記第２のサイズを持つ物体の総数を計数する第２計数手段と、をさらに備えた
ことを特徴とする請求項１から３のいずれか1項に記載の物体位置推定装置。
前記第１尤度マップにおいて尤度の極大値を示す座標に基づいて、前記対象画像において、前記第１のサイズを持つ物体の位置を特定する第１位置特定手段と、
前記第２尤度マップにおいて尤度の極大値を示す座標に基づいて、前記対象画像において、前記第２のサイズを持つ物体の位置を特定する第２位置特定手段とをさらに備え、
前記第１位置特定手段は、
前記第１尤度マップの全体の尤度の合計から、前記対象画像において、前記第１のサイズを持つ物体の総数を算出し、もしくは、前記対象画像において、前記第１のサイズを持つ物体の総数を計数し、
前記第１尤度マップにおいて尤度の極大値を示す座標のうち、前記第１のサイズを持つ物体の総数と同数の座標を、前記尤度の極大値が大きい順に抽出し、
抽出した前記尤度の極大値を示す座標に基づいて、前記対象画像において前記第１のサイズを持つ物体の位置を特定し、
前記第２位置特定手段は、
前記第２尤度マップの全体の尤度の合計から、前記対象画像において、前記第２のサイズを持つ物体の総数を算出し、もしくは、前記対象画像において、前記第１のサイズを持つ物体の総数を計数し、
前記第２尤度マップにおいて尤度の極大値を示す座標のうち、前記第２のサイズを持つ物体の総数と同数の座標を、前記尤度の極大値が大きい順に抽出し、
抽出した前記尤度の極大値を示す座標に基づいて、前記対象画像において前記第２のサイズを持つ物体の位置を特定する
ことを特徴とする請求項１から４のいずれ１項に記載の物体位置推定装置。
前記第１位置尤度推定手段および前記第２位置尤度推定手段から出力される前記第１尤度マップおよび前記第２尤度マップにおいて、予め得られた正解値に対する誤差が小さくなるように、前記物体位置推定装置の各部に学習させる学習手段をさらに備え、
学習画像および物体情報に基づいて、前記学習手段による学習に用いられる学習データを生成する学習データ生成手段をさらに備え、
前記学習データは、前記学習画像、物体情報、及び正解値を含み、
前記正解値は、第１正解尤度マップおよび第２正解尤度マップを含み、
前記第１正解尤度マップは、前記学習画像において、前記第１のサイズを有する物体についての位置および物体領域の広がりを示し、前記第２正解尤度マップは、前記学習画像において、前記第２のサイズを有する物体についての位置および物体領域の広がりを示し、
前記学習手段は、前記学習データに含まれる前記第１正解尤度マップおよび前記第２正解尤度マップを前記正解値として用いて、前記正解値に対する、前記第１尤度マップおよび前記第２尤度マップの誤差を示す第１の損失を算出する
ことを特徴とする請求項１から５のいずれか１項に記載の物体位置推定装置。
前記第１のサイズおよび前記第２のサイズは、前記第１特徴マップおよび前記第２特徴マップのデータサイズの逆数に比例する
ことを特徴とする請求項１から６のいずれか１項に記載の物体位置推定装置。