JP2021149665A

JP2021149665A - 推定装置、推定方法、推定プログラム及び学習装置

Info

Publication number: JP2021149665A
Application number: JP2020050053A
Authority: JP
Inventors: 絢香能上; Ayaka Nogami
Original assignee: Secom Co Ltd
Current assignee: Secom Co Ltd
Priority date: 2020-03-19
Filing date: 2020-03-19
Publication date: 2021-09-27

Abstract

【課題】画像から検知対象の目的量に関する画像内での分布を高精度に推定する。【解決手段】分布生成モデル１０は、画像に現れる検知対象についての存在度を、当該存在度が集中する領域の位置及びサイズをパラメータで設定できる所定の存在度関数により算出する。位置マップ生成手段１２は画像における検知対象の位置を推定する。サイズマップ生成手段１３は画像の各画素と対応する対応位置での検知対象のサイズを推定する。存在度分布生成手段１４は、位置マップ生成手段１２による検知対象の推定位置及び当該推定位置でのサイズマップ生成手段１３による検知対象の推定サイズにより、存在度関数のパラメータの値を設定し存在度を算出する。分布生成モデル１０は、学習用画像及び当該学習用画像に対し予め与えられた存在度分布の正解データを用いて学習される。【選択図】図２

Description

本発明は、画像から検知対象の存在度などに関する画像内での分布を推定する技術、及び画像から当該分布を生成する分布生成モデルを学習させる技術に関する。

雑踏やイベント会場を撮影した画像を解析して混雑度合いや群衆を構成する人数を自動認識する研究が盛んに行われており、このようにして認識される情報はイベント警備を円滑に運用するための情報などとして期待される。

下記非特許文献１には、画像を入力とし人の頭の位置と人の頭の密度マップ（density map）とを出力とする畳み込みニューラルネット―ワーク（ＣＮＮ；Convolutional Neural Networks）を学習させて、群衆を画像解析する技術が記載されている。その学習に用いるデータは、群衆が撮影された学習用画像と、当該学習用画像において人の頭の領域それぞれの重心位置を示すデータと、人の頭の領域それぞれについてその重心位置を平均値としそのサイズに応じた分散を有する総和が１の２次元正規分布を足し合わせてなる密度マップとで構成される。

非特許文献１に記載のＣＮＮは、位置の出力と位置の学習データとの誤差を最小化するように学習され、また、密度マップの出力と密度マップの学習データとの誤差を最小化するように学習されていた。

H. Idrees, M. Tayyab, K. Athrey, D. Zhang, S. Maadeed, N. Rajpoot, and M. Shah, "Composition Loss for Counting, Density Map Estimation and Localization in Dense Crowds", European Conference on Computer Vision（ECCV）, Munich, Germany, 2018.

しかしながら、従来技術では、例えば頭の位置ではないことを示す出力がなされる画素に対して一定以上の密度が出力されるなど、誤出力が多い問題があった。

これは、従来技術において位置の出力と密度の出力とが独立していることや位置及び密度の誤差がそれぞれに小さくなるように学習することと関連していると考えられる。すなわち、本来は頭の位置であるとの出力と密度についての出力とが共に高い値となるよう整合性をもった出力とすべきところ、従来技術においては両出力間の拘束が弱く、頭の位置であることを示す出力がなされる画素で低い密度を出力してしまう場合のあるモデル又は一定以上の密度が出力される画素で頭の位置ではないことを示す出力がなされてしまう場合のあるモデルが学習されると考えられる。

また、このような問題は、さらに人の頭のサイズを加えた３パラメータ（位置、密度、サイズ）のうちの１つ以上を出力するモデルについても同様に生じ得る。

本発明は、上記問題を鑑みてなされたものであり、画像から検知対象の目的量に関する画像内での分布、例えば密度マップ等である存在度分布を高精度に推定できる技術、及び画像から検知対象の当該分布を高精度に生成できる分布生成モデルを学習させる技術を提供することを目的とする。

（１）本発明に係る推定装置は、画像に現れる検知対象についての目的量を、第１パラメータ及び第２パラメータを有する所定の目的量関数により算出し、前記画像における前記検知対象の目的量分布を生成する分布生成モデルであって、前記画像の各画素と対応する対応位置での前記第１パラメータを推定する第１パラメータ推定部と、前記対応位置での前記第２パラメータを推定する第２パラメータ推定部と、前記第１パラメータ推定部及び前記第２パラメータ推定部による推定値により前記目的量関数の前記第１パラメータ及び前記第２パラメータそれぞれの値を設定し前記目的量を算出する目的量算出部とを含み、学習用画像及び当該学習用画像に対し予め与えられた前記目的量分布の正解データを用いた学習が行われた学習済みのモデルを記憶する記憶手段と、処理対象の画像を前記分布生成モデルに入力し、前記目的量分布を推定する推定手段と、を備える。

（２）他の本発明に係る推定装置は、画像に現れる検知対象についての存在度を、当該存在度が集中する領域の位置及びサイズをパラメータで設定できる所定の存在度関数により算出し、前記画像における前記検知対象の存在度分布を生成する分布生成モデルであって、前記画像における前記検知対象の位置を推定する位置推定部と、前記画像の各画素と対応する対応位置での前記検知対象のサイズを推定するサイズ推定部と、前記位置推定部による前記検知対象の推定位置及び当該推定位置での前記サイズ推定部による前記検知対象の推定サイズにより前記存在度関数の前記パラメータの値を設定し前記存在度を算出する存在度算出部とを含み、学習用画像及び当該学習用画像に対し予め与えられた前記存在度分布の正解データを用いた学習が行われた学習済みのモデルを記憶する記憶手段と、処理対象の画像を前記分布生成モデルに入力し、前記存在度分布を推定する推定手段と、を備える。

（３）上記（２）に記載の推定装置において、前記分布生成モデルは、前記存在度関数が互いに異なる複数の前記存在度算出部を含む構成とすることができる。

（４）上記（２），（３）に記載の推定装置において、前記存在度関数は、正規分布、一様分布、又は矩形関数である構成とすることができる。

（５）上記（２）〜（４）に記載の推定装置において、前記画像における前記検知対象に対応する関心領域とそれ以外である非関心領域とを区別する二値画像を取得する二値画像取得手段と、前記位置推定部による前記推定位置に対し前記二値画像を用いてマスク処理を行い、前記非関心領域に属する前記推定位置を削除するマスク手段と、を有し、前記存在度算出部は、前記パラメータの値に、前記マスク手段での削除後の前記推定位置を用いる構成とすることができる。

（６）上記（２）〜（５）に記載の推定装置において、前記存在度を算出する関数として、前記分布生成モデルの前記存在度関数とは別の所定の関数であって、前記存在度が集中する領域の位置及びサイズをパラメータで設定できる第２の存在度関数を記憶する手段を有し、前記推定手段は、処理対象の画像を前記分布生成モデルに入力し、前記位置推定部による前記推定位置及び当該推定位置での前記サイズ推定部による前記推定サイズにより前記第２の存在度関数の前記パラメータの値を設定して当該第２の存在度関数により前記存在度分布を推定する構成とすることができる。

（７）本発明に係る学習装置は、画像における検知対象の存在度分布を生成する分布生成モデルを学習させる学習装置であって、前記分布生成モデルの学習モデルとして、前記画像に現れる前記検知対象についての存在度を、当該存在度が集中する領域の位置及びサイズをパラメータで設定できる所定の存在度関数により算出し、前記画像における前記検知対象の存在度分布を生成するモデルであって、前記画像における前記検知対象の位置を推定する位置推定部と、前記画像の各画素と対応する対応位置での前記検知対象のサイズを推定するサイズ推定部と、前記位置推定部による前記検知対象の推定位置及び当該推定位置での前記サイズ推定部による前記検知対象の推定サイズにより前記存在度関数の前記パラメータを設定し前記存在度を算出する存在度算出部とを含んだモデルを記憶する学習モデル記憶手段と、学習用画像及び当該学習用画像に対し予め与えられた前記存在度分布の正解データを記憶している学習用データ記憶手段と、前記学習モデルに前記学習用画像を入力し、前記存在度算出部の出力に基づく前記存在度分布の前記正解データに対する誤差に基づいて前記学習モデルを更新する学習を行う学習手段と、を有する。

（８）本発明に係る推定方法は、画像に現れる検知対象についての目的量を、第１パラメータ及び第２パラメータを有する所定の目的量関数により算出し、前記画像における前記検知対象の目的量分布を生成する分布生成モデルであって、前記画像の各画素と対応する対応位置での前記第１パラメータを推定する第１パラメータ推定部と、前記対応位置での前記第２パラメータを推定する第２パラメータ推定部と、前記第１パラメータ推定部及び前記第２パラメータ推定部による推定値により前記目的量関数の前記第１パラメータ及び前記第２パラメータそれぞれの値を設定し前記目的量を算出する目的量算出部とを含み、学習用画像及び当該学習用画像に対し予め与えられた前記目的量分布の正解データを用いた学習が行われた学習済みのモデルを用意するステップと、処理対象の画像を前記分布生成モデルに入力し、前記目的量分布を推定する推定ステップと、を有する。

（９）本発明に係る推定プログラムは、画像における検知対象の目的量分布を推定する処理をコンピュータに行わせるプログラムであって、当該コンピュータを、前記画像に現れる前記検知対象についての目的量を、第１パラメータ及び第２パラメータを有する所定の目的量関数により算出し、前記目的量分布を生成する分布生成モデルであって、前記画像の各画素と対応する対応位置での前記第１パラメータを推定する第１パラメータ推定部と、前記対応位置での前記第２パラメータを推定する第２パラメータ推定部と、前記第１パラメータ推定部及び前記第２パラメータ推定部による推定値により前記目的量関数の前記第１パラメータ及び前記第２パラメータそれぞれの値を設定し前記目的量を算出する目的量算出部とを含み、学習用画像及び当該学習用画像に対し予め与えられた前記目的量分布の正解データを用いた学習が行われた学習済みのモデルを記憶する記憶手段、及び、処理対象の画像を前記分布生成モデルに入力し、前記目的量分布を推定する推定手段、として機能させる。

本発明によれば、例えば、分布生成モデルにおいて検知対象の位置とサイズと存在度分布との間で整合性を維持できるため画像から検知対象の存在度分布を高精度に推定することが可能となる。

また、本発明によれば、例えば、分布生成モデルにおいて検知対象の位置とサイズと存在度分布との間で整合性を維持できるため画像から検知対象の存在度分布を高精度に生成できる分布生成モデルを学習させることが可能となる。

本発明の実施形態に係る画像監視装置の概略の構成を示すブロック図である。本発明の実施形態における分布生成モデルの概略の構造を示すブロック図である。存在度分布作成の処理を説明する模式図である。本発明の実施形態に係る画像監視装置の学習装置としての概略の機能ブロック図である。異なる形の関数に基づく学習用存在度分布の作り方を示す模式図である。本発明の実施形態に係る画像監視装置の学習装置としての動作の概略のフロー図である。本発明の実施形態に係る画像監視装置の推定装置としての概略の機能ブロック図である。本発明の実施形態に係る画像監視装置の推定装置としての動作の概略のフロー図である。本発明の実施形態の変形例に係る分布生成モデルの概略の構造を示すブロック図である。本発明の実施形態の他の変形例に係る分布生成モデルの概略の構造を示すブロック図である。

以下、本発明の実施の形態（以下実施形態という）である画像監視装置１について、図面に基づいて説明する。当該画像監視装置１は本発明に係る学習装置２０及び推定装置３０を含んで構成され、推定結果を報知する。ここで、学習装置２０は画像から検知対象の存在度分布を推定するモデル１０を構築し、推定装置３０は学習装置２０で作成された分布生成モデル１０を用いて、撮影画像から検知対象の存在度分布を推定する。本実施形態の存在度分布は、検知対象の位置とサイズをパラメータ（入力パラメータ）とする関数で検知対象の存在度を表現した分布である。１個の検知対象に対して関数表現した存在度を、画像内の全ての検知対象について足し合わせたものを、その画像における存在度分布とする。存在度分布の各画素の値は、１画素当たりの検知対象の個数を表す。

本実施形態では、検知対象を人の頭部として説明する。すなわち、画像監視装置１は例えば、群衆が存在し得る空間が撮影された画像を解析することで、頭部の存在度分布を推定する。

また、本実施形態では、頭部の位置を画像上での頭部領域の重心の座標と定義し、頭部のサイズを画像上での頭部領域の幅で規定される大きさと定義する。

［画像監視装置の構成］
図１は実施形態に係る画像監視装置１の概略の構成を示すブロック図である。画像監視装置１は、撮影部２、通信部３、記憶部４、画像処理部５及び表示部６を含んで構成される。

撮影部２は監視カメラであり、通信部３を介して画像処理部５と接続され、監視空間を所定の時間間隔で撮影して撮影画像を生成し、撮影画像を順次、画像処理部５に入力する。例えば、撮影部２はイベント会場に設置され、監視空間である当該会場を所定のフレーム周期（例えば、１秒）で撮影してカラー画像又はモノクロ画像を生成する。

通信部３は通信回路であり、その一端が画像処理部５に接続され、他端が同軸ケーブルまたはＬＡＮ（Local Area Network）、インターネットなどの通信網を介して撮影部２及び表示部６と接続される。通信部３は撮影部２から撮影画像を取得して画像処理部５に入力し、画像処理部５から入力された推定結果を表示部６に出力する。

記憶部４はＨＤＤ（Hard Disk Drive）、半導体メモリなどで構成される記憶装置であり、各種プログラムや各種データを記憶する。記憶部４は画像処理部５と接続されて画像処理部５との間でこれらの情報を入出力する。例えば、記憶部４は、画像処理部５を後述する分布生成モデル１０、学習装置２０及び推定装置３０の各手段として機能させるためのプログラムを記憶する。また、記憶部４は学習装置２０にて学習用データ記憶手段２１、学習モデル記憶手段２４として機能し、推定装置３０にて分布生成モデル記憶手段３４として機能する。

画像処理部５はＣＰＵ（Central Processing Unit）、ＤＳＰ（Digital Signal Processor）、ＭＣＵ（Micro Control Unit）、ＧＰＵ(Graphics Processing Unit)、ＦＰＧＡ(field-programmable gate array)等の演算装置で構成される。画像処理部５は記憶部４と接続され、記憶部４からプログラムを読み出して実行することにより各種の処理手段、制御手段として動作し、また記憶部４との間で各種データを入出力する。また、画像処理部５は通信部３を介して撮影部２及び表示部６とも接続され、通信部３経由で撮影部２から取得した撮影画像を解析することにより検知対象の分布を推定し、推定結果を通信部３経由で表示部６に表示させる。

表示部６はディスプレイ装置であり、通信部３を介して画像処理部５と接続され、画像処理部５による推定結果を表示する。例えば、監視員が表示された推定結果を視認して状況を判断し、必要に応じて対処員を派遣する。

以下、画像監視装置１の構成に関し、まず、画像を入力とし存在度分布を出力する分布生成モデル１０の構造を説明し、その後、当該モデルを学習する学習装置２０としての構成及び動作について説明し、次いで、画像から存在度分布を推定する推定装置３０としての構成及び動作について説明する。

［分布生成モデルの構造］
図２は本実施形態における分布生成モデル１０の概略の構造を示すブロック図である。分布生成モデル１０は、画像に現れる検知対象についての存在度を、当該存在度が集中する領域の位置及びサイズを入力パラメータで設定できる所定の存在度関数により算出し、画像における検知対象の存在度分布を生成するモデルであって、画像における検知対象の位置を推定する位置推定部と、画像の各画素と対応する対応位置での検知対象のサイズを推定するサイズ推定部と、位置推定部による検知対象の推定位置及び当該推定位置でのサイズ推定部による検知対象の推定サイズにより存在度関数の入力パラメータの値を設定し存在度を算出する存在度算出部とを含み、学習用画像及び当該学習用画像に対し予め与えられた存在度分布の正解データを用いた学習が行われた学習済みのモデルである。本実施形態では分布生成モデル１０をＣＮＮでモデル化する。当該ＣＮＮは、共通特徴量抽出手段１１、位置マップ生成手段１２、サイズマップ生成手段１３及び存在度分布生成手段１４が接続されたネットワークとして構成され、これらのうち位置マップ生成手段１２、サイズマップ生成手段１３、存在度分布生成手段１４がそれぞれ上述の位置推定部、サイズ推定部、存在度算出部に当たる。

本実施形態においては、共通特徴量抽出手段１１、位置マップ生成手段１２及びサイズマップ生成手段１３をいずれもＣＮＮでモデル化する。すなわち共通特徴量抽出手段１１、位置マップ生成手段１２及びサイズマップ生成手段１３のそれぞれは、畳み込み層、プーリング層、ＲｅＬＵ関数（活性化関数）の層などが連結された多層のネットワーク構造を有し、これらの層で用いられるフィルタや関数のパラメータが学習の対象（学習パラメータ）となる。

共通特徴量抽出手段１１は、画像を入力されて当該画像から特徴量を抽出し、抽出した特徴量を位置マップ生成手段１２とサイズマップ生成手段１３とに出力する。抽出する特徴量は２つの手段に共通して入力されることから、この特徴量を共通特徴量と称する。なお、画像監視装置１が学習装置２０として動作する場合に入力される画像は学習用画像であり、画像監視装置１が推定装置３０として動作する場合に入力される画像は撮影画像である。

位置マップ生成手段１２は、共通特徴量抽出手段１１から入力された共通特徴量から頭部の推定位置を表す位置マップを生成し、生成した位置マップを存在度分布生成手段１４に出力する。本実施形態において、位置マップは、共通特徴量抽出手段１１に入力される画像の各画素の位置が頭部の位置である尤度が当該画像の画素と同じ配置で並んだデータである。つまり、位置マップは１チャンネルの特徴マップであり、入力される画像の幅、高さをＭ画素、Ｎ画素とすると、位置マップはＭ画素×Ｎ画素×１チャンネルのデータである。以下では、位置マップの各要素の値を位置マップの値とも称する。位置マップの値の値域は［０，１］であり、値が大きな要素と対応する画素の位置ほど頭部の位置らしさが高いと推定されたことを意味する。

サイズマップ生成手段１３は、共通特徴量抽出手段１１から入力された共通特徴量から頭部の推定サイズを表すサイズマップを生成し、生成したサイズマップを存在度分布生成手段１４に出力する。本実施形態において、サイズマップは、共通特徴量抽出手段１１に入力される画像の各画素の位置にその存在が推定される頭部のサイズが当該画像の画素と同じ配置で並んだデータである。つまり、サイズマップも１チャンネルの特徴マップであり、サイズマップはＭ画素×Ｎ画素×１チャンネルのデータである。以下では、位置マップの各要素の値をサイズマップの値と称する。なお、好適にはサイズマップ生成手段１３の最終層に、ＲｅＬＵ関数によってサイズマップの値を０以上に変換した後に値が予め定めた下限値未満である場合は当該下限値で置き換える処理を含ませ、存在度分布生成手段１４での０割りを防止する。

位置マップ生成手段１２から算出された位置マップ、サイズマップ生成手段１３から算出されたサイズマップそれぞれは存在度分布生成手段１４に入力される。本実施形態では、存在度分布生成手段１４は、位置及びサイズを入力パラメータとする存在度関数として正規分布を用い、存在度分布を作成する。作成させる存在度分布は、入力画像と同サイズとなる。

図３は存在度分布作成の処理を説明する模式図である。上述のように位置マップ、サイズマップは入力される画像と同じ画素数であり、それらは互いに対応する画素を有する。分布生成モデル１０は、当該画素ごとに、位置マップ及びサイズマップそれぞれの値を用いて２次元の正規分布を作成する。そして、この画素ごとの正規分布を全て足し合わせたものを１枚の画像における存在度分布とする。具体的には、存在度分布生成手段１４は、幅、高さがそれぞれＭ画素、Ｎ画素である画像にて、座標（ｉ，ｊ）の画素にξ＝ｉ＋Ｍ（ｊ−１）で定義するインデックスξを付与し、ξ＝１〜ＭＮの範囲で画素ξの座標（ｉ，ｊ）を平均値（分布の中心）とし、画素ξにおけるサイズマップの値ｓ_ξに定数αを乗じた値ｈ_ξを標準偏差とする正規分布を導出し、各画素ξの正規分布に画素ξにおける位置マップの値ｗ_ξを重みとして乗じて全画素について総和して存在度分布を生成する。ただしαは分布調整用定数であり、０＜α＜１の範囲で予め設定される。このように正規分布に基づいて存在度分布を作成した場合、存在度分布の和は頭部の個数となる。なお、存在度関数は位置とサイズが決まれば一意に決まる関数であるので、学習パラメータは存在しない。

［学習装置の構成］
学習装置２０は、事前に用意した学習データを用いて分布生成モデル１０を学習する装置である。

図４は画像監視装置１の学習装置２０としての概略の機能ブロック図である。学習装置２０は、学習用データ記憶手段２１、学習用存在度分布生成手段２２、学習手段２３、学習モデル記憶手段２４を含み、記憶部４が学習用データ記憶手段２１及び学習モデル記憶手段２４として機能し、画像処理部５が学習用存在度分布生成手段２２及び学習手段２３として機能する。

学習用データ記憶手段２１は学習用画像と学習用画像に映っている頭部の位置とサイズのデータを紐づけて予め記憶している。また学習用データ記憶手段２１は学習用の存在度分布（学習用存在度分布）を記憶する。

学習用存在度分布生成手段２２は学習用存在度分布を生成する。学習用存在度分布は、学習手段２３での学習にて、学習用画像に対応する存在度分布の正解データとして用いられる。具体的には、学習用存在度分布は、対応する学習用画像と同じ幅、高さをもったマップであり、各画素に対応して存在度が格納される。

学習用存在度分布生成手段２２は、学習用データ記憶手段２１から頭部の位置及びサイズのデータを読み込み、学習用存在度分布を作成する。学習用存在度分布の作り方を図５（ａ）に示す。まず、１個の頭部の位置（ｘ，ｙ）とサイズｓを入力パラメータとする存在度関数で存在度を表す分布を作成する。存在度関数は、位置（図５にて×印）を平均値に用い、サイズ×αの値を標準偏差に用いた正規分布を作成する。正規分布の重み（図３のｗに相当）は１とする。αは上述した分布調整用定数である。そして、各画素に存在度を割り当てる際に座標が離散的になるため、画素に割り当てる存在度の和が１になるように正規化する。このような１個の頭部に対する分布を、画像内の全ての頭部に対して同様に作成し、これらを足し合わせたものを学習画像に対する学習用存在度分布とする。このように作成された学習用存在度分布は足し合わせると画像内の頭部個数になる。作成した学習用存在度分布は学習用データ記憶手段２１に出力され、対応する学習画像と紐づけて記憶される。

学習手段２３は、学習用データ記憶手段２１から学習用画像と対応する学習用存在度分布を読み取り、分布生成モデル１０の学習モデルに学習用画像を入力し、存在度分布生成手段１４の出力に基づく存在度分布について学習用存在度分布に対する誤差を求め、当該誤差に基づいて学習モデルを更新する学習を行う。よって、学習用画像と学習用存在度分布はペアで与えられる。学習用データの読み出しでは、１回に全学習用データを読み出すのではなく、予め定めたペア数を読み出し、逐次的に学習を行う。

このモデルの学習は、学習用画像を入力した際に分布生成モデル１０から出力される存在度分布と、入力した学習用画像に対応する学習用存在度分布とから算出される誤差関数を最小化させることで行う。最小化する誤差関数は下記のように算出する。

誤差関数は、頭部の存在度分布についての推定に関する誤差関数と、頭部の個数に相当する存在度分布の和についての推定に関する誤差関数の重みづけ和からなる。前者は存在度分布の誤差を画素ごとに計算する微視的な視点の誤差であり、後者は画像全体の存在度分布の和の誤差を計算する大局的な視点の誤差である。これら２種類の誤差関数を用いることで、画像手前の大きい頭部、画像奥の小さい頭部といった異なる見え方の対象物に対して推定精度を向上させる効果がある。

存在度分布についての推定に関する誤差関数には、正解データである学習用存在度分布と分布生成モデル１０が出力する存在度分布とに対して、画素ごとに差の二乗を計算し、全画素の平均（以降、平均二乗誤差と呼ぶ）を用いる。このとき、存在度分布は、頭部が存在する部分（存在度分布の値がゼロより大きい部分）と頭部が存在しない部分（存在度分布の値がゼロの部分）との画素数比率が大きく偏っている場合がある。このような状況で、平均二乗誤差を誤差関数としてしまうと、画素数の多い状態を推定しやすくなってしまう。そこで、正解データにおいて頭部が存在する部分と頭部が存在しない部分とに対して、別々に平均二乗誤差を計算し、正解データの対象物が存在する部分と対象物が存在しない部分との画素数の逆比率に基づいて、それぞれの平均二乗誤差に重みづけをしてから加算する。

一方、頭部の個数に関する誤差関数には、頭部の学習用存在度分布の和と分布生成モデル１０が出力する存在度分布の和との差の二乗を用いる。この誤差関数も、存在度分布の誤差関数と同様に、正解データにおいて頭部が存在する部分と頭部が存在しない部分とに対して、別々に存在度分布の和について差の二乗を計算し、正解データの頭部が存在する部分と頭部が存在しない部分との画素数の逆比率に基づいて、それぞれの差の二乗に重みづけをしてから加算する。

なお、誤差計算は分布生成モデル１０が出力する存在度分布に対してのみ行い、位置マップ、サイズマップに対しては正解データを用いた誤差計算を行わない。存在度関数が学習パラメータを有さず且つ入力パラメータが位置及びサイズと定められているため、存在度分布の正解データを与えれば位置マップ生成手段１２及びサイズマップ生成手段１３の出力が正解データに整合する位置マップ及びサイズマップに近づく学習が十分に行われるからである。

上記の誤差関数の最小化には確率的勾配法を用いる。確率的勾配法による学習では、誤差逆伝播法にて各処理の勾配を算出し、その勾配をもとに各学習パラメータを更新していく。学習後、得られたモデルを学習モデル記憶手段２４に記憶する。

学習モデル記憶手段２４には、分布生成モデル１０を学習する際の分布生成モデル１０の構造とその初期値が格納され、学習手段２３から必要に応じて読み出される。学習後においては、学習モデル記憶手段２４には、学習手段２３によって算出した学習済みモデルが記憶される。

［学習装置の動作］
画像監視装置１は、撮影画像に現れる対象物の存在度分布を推定する推定装置３０としての動作に先立って、学習装置２０として動作し、分布生成モデル１０を学習する。

図６は学習装置２０の動作に関する概略のフロー図である。

学習動作開始が指示されると、画像処理部５は、まず、学習用存在度分布生成手段２２として機能し、学習用データ記憶手段２１から頭部位置及び頭部サイズを読み込み、学習用存在度分布を作成する（ステップＳ１０）。

次に画像処理部５は学習手段２３として機能し、学習手段２３は分布生成モデル１０の学習を行うために、学習モデル記憶手段２４から学習モデルを読み出す（ステップＳ１１）。この時点での学習モデルの学習パラメータは初期値である。

しかる後、学習手段２３は当該モデルについての学習動作（ステップＳ１２〜Ｓ１６）を開始する。以下、当該動作を説明する。

学習手段２３は学習用データ記憶手段２１から、学習用画像、及び当該画像の学習用存在度分布を読み込む（ステップＳ１２）。

学習手段２３は、学習モデルへ学習用画像を入力して推定処理を行う（ステップＳ１３）。そして、学習手段２３は、推定された存在度分布と学習用存在度分布との乖離度を予め定めた誤差関数を用いて計算し（ステップＳ１４）、その誤差を用いて学習モデルの学習パラメータを更新する（ステップＳ１５）。

続いて、学習手段２３は、予め定められた反復終了条件が満たされているかを判定する（ステップＳ１６）。学習手段２３はステップＳ１２〜Ｓ１５の処理を、学習データを変えながら、反復終了条件が満たされるまで繰り返し（ステップＳ１６にて「ＮＯ」の場合）、反復終了条件を満たすと（ステップＳ１６にて「ＹＥＳ」の場合）、学習モデル記憶手段２４に学習済みモデルの学習パラメータを記憶させ（ステップＳ１７）、学習動作を終了する。反復終了条件としては、例えば、誤差関数の変動量が事前に定めた閾値よりも小さくなったことや、事前に定めた反復回数に達したことなどを用いることができる。

［推定装置の構成］
図７は画像監視装置１の推定装置３０としての概略の機能ブロック図である。推定装置３０は、画像入力手段３１、推定手段３２、結果出力手段３３、分布生成モデル記憶手段３４を含み、記憶部４が分布生成モデル記憶手段３４として機能し、画像処理部５が推定手段３２として機能する。また、通信部３が画像処理部５と協働し、画像入力手段３１及び結果出力手段３３として機能する。

分布生成モデル記憶手段３４は学習済みの分布生成モデル１０を記憶している。本実施形態において分布生成モデル記憶手段３４は学習装置２０の構成として上述した学習モデル記憶手段２４と同一である。

画像入力手段３１は撮影部２から撮影画像を順次取得して推定手段３２に入力する。

推定手段３２は、分布生成モデル記憶手段３４に記憶されている分布生成モデル１０を読み込む。そして、画像入力手段３１から入力された撮影画像を分布生成モデル１０に入力することによって存在度分布を算出する。また、推定手段３２は算出した存在度分布を、撮影画像と共に結果出力手段３３に出力する。

結果出力手段３３は、推定手段３２から入力された撮影画像と存在度分布を表示部６に出力する。

［推定装置の動作］
図８は推定装置３０の動作に関する概略のフロー図である。

監視開始が指示されると画像監視装置１は推定装置３０としての動作を開始する。画像処理部５は推定手段３２として機能し、推定手段３２は、分布生成モデル記憶手段３４から学習済みの分布生成モデル１０を読み込む（ステップＳ２０）。また、撮影部２は所定時間おきに監視空間を撮影した画像を順次出力する動作を開始する。

画像処理部５は通信部３と協働して画像入力手段３１として機能し、撮影部２が出力する撮影画像を取得して推定手段３２に入力する（ステップＳ２１）。

推定手段３２は、入力された撮影画像を分布生成モデル１０に入力することで存在度分布を推定する（ステップＳ２２）。

画像処理部５は通信部３と協働して結果出力手段３３として機能し、推定した存在度分布と撮影画像とを表示部６へ出力する（ステップＳ２３）。これにより、表示部６に存在度分布等が表示される。

推定装置３０は基本的に、撮影部２による撮影に連動して、ステップＳ２１〜Ｓ２３の処理を繰り返す。この反復動作は例えば、停止指示があるまで継続される。

［変形例］
（１）上記実施形態では検知対象が頭部である例を説明したが、画像内に複数現れ得る他の物体、例えば椅子、車両、魚、羊、馬または商品など、を検知対象としても良い。

（２）学習用データに、学習用画像それぞれに現れている検知対象の個数に応じたクラス分類情報を含ませてもよい。クラス分類情報とは、例えば、撮影されている頭部の個数が５個未満の画像を「クラス１」、５個以上１０個未満の画像を「クラス２」、１０個以上の画像を「クラス３」というようにクラス分けした情報である。学習用データ記憶手段２１にはこのクラス分類情報を学習用画像と紐づけて予め記憶させておく。上記実施形態の説明にて、学習手段２３が、予め定めたペア数の学習用データを用いて逐次的に学習を行うことを述べた。変形例において学習手段２３は、クラス分類情報を参照し、上記所定ペア数の学習用データにおける各クラスの比率が予め定めた比率となるようにする。こうすることで１回の学習で用いる学習用画像における検知対象数が偏らないように調整されて高精度な分布生成モデル１０を学習させることが可能となる。

（３）上記実施形態及びその変形例では共通特徴量抽出手段１１をＣＮＮでモデル化したが、共通特徴量抽出手段１１を、画像からＨＯＧ（Histograms of Oriented Gradients）、ＧＬＣＭ（Gray-Level Co-Occurrence Matrix）、他の周知の画像特徴量、またはこれらのうちの１以上の画像特徴量を抽出する手段としてもよい。

（４）或いは、共通特徴量抽出手段１１を省略し、画像を位置マップ生成手段１２とサイズマップ生成手段１３とに直接入力する分布生成モデル１０としてもよい。

（５）上記実施形態及びその変形例の分布生成モデル１０は１つの存在度分布生成手段１４によって１つの存在度分布を生成したが、存在度関数が互いに異なる複数の存在度分布生成手段を備えて互いに異なる複数の存在度分布を生成する分布生成モデルとしても良い。この場合、位置マップ生成手段１２及びサイズマップ生成手段１３の出力が複数の存在度分布生成手段のそれぞれに入力される分布生成モデルとなる。すなわち複数の存在度分布生成手段のそれぞれは共通の位置マップ及びサイズマップを互いに異なる存在度関数に入力して互いに異なる存在度分布を生成する。

正規分布以外に基づく存在度関数として一様分布、矩形関数、正規分布の１次微分、正規分布の２次微分に基づく存在度関数が挙げられる。図５（ａ）〜（ｅ）はそれぞれ、正規分布、一様分布、矩形関数、正規分布の１次微分、正規分布の２次微分に基づく存在度関数を用いて学習用存在度分布を生成する様子の模式図である。一様分布に基づく存在度関数は、各頭部に対して、その位置を重心、そのサイズを直径とする頭部領域に総和を１とする一様な値を算出する。つまり頭部領域内の各画素の値は１／（頭部領域面積）となる。矩形関数に基づく存在度関数は、各頭部に対して、その位置を重心、そのサイズを直径とする頭部領域の内側にて１、外側にて０を算出する。正規分布の１次微分、２次微分に基づく存在度関数はそれぞれ、各頭部に対して、その位置を平均値、そのサイズのα倍を標準偏差とした正規分布の１次微分値、２次微分値を算出する。ここでαは上述した分布調整用定数である。正規分布の１次微分には、ｘ方向微分、ｙ方向微分の２種類がある。図５（ｄ）はｘ方向微分を示している。正規分布の２次微分にはｘ方向２次微分、ｙ方向２次微分、ｘｙ方向（ｘ方向及びｙ方向）２次微分の３種類がある。図５（ｅ）はｘ方向２次微分を示している。

各存在度分布生成手段は、正規分布の場合と同様、画像内の全ての頭部に対して算出した分布を合成した分布を１枚の画像の学習用存在度分布とする。なお、矩形関数に基づく存在度関数は、合成後、画素ごとの存在度のうち１より大きな存在度を１に補正する上限値設定処理を行って学習用存在度分布とする。

各存在度関数の存在度分布生成手段１４では、図３を用いて説明した存在度分布作成の処理にて正規分布の関数を用いたところを、それぞれの分布に対応する関数に置き換えて、存在度分布を作成する。

一様分布と矩形関数では、サイズマップの値を直径として頭部領域を計算している。但し、矩形関数を用いて作成された存在度分布については、その値が１を超える場合があるため、存在度分布を作成した後に、値を０〜１の範囲に収める為の後処理を追加する。具体的には、（矩形関数にて作成した存在度分布−０．５）×定数という演算をし、その演算結果をシグモイド関数に入力することで、０〜１の値の範囲に収める。ここでの定数は予め定めた１より大きい値である。このように変換した値が矩形関数にて作成した存在度分布の出力となる。

分布生成モデル１０の学習では、複数の存在度分布生成手段１４それぞれについて、対応する学習用存在度分布を作成し、推定された存在度分布との誤差計算を行う。学習で用いる誤差関数は、複数種類の存在度分布に対してそれぞれ誤差関数を設定し、これらの重みづけ和とする。頭部の存在度分布の推定に関する誤差関数として、一様分布、正規分布の１次微分分布、正規分布の２次微分分布を用いて作成した存在度分布には、正解データである学習用存在度分布と分布生成モデルが出力する存在度分布とに対して、平均二乗誤差を計算する。矩形関数を用いて作成した存在度分布に対しては、頭部領域とそれ以外の領域を識別する交差エントロピー誤差を画素ごとに計算し、全画素の平均を用いる。また、一様分布に対しては、頭部の個数の推定に関する誤差関数として、学習用存在度分布の和と分布生成モデルが出力する存在度分布の和との差の二乗を用いる。

複数種類の存在度分布を用いた学習は、様々な見方で存在度分布を学習することになるため、精度向上の効果がある。特に、一様分布はサイズの精度に効果があり、矩形関数は頭部領域と頭部領域以外を区別する精度に効果がある。また、正規分布の１次微分、２次微分は、正規分布の形状を反映する勾配に関する関数なので、位置とサイズの両方の精度に効果がある。さらに、各存在度分布の作成に際し、共通の位置マップ及びサイズマップから存在度関数の入力パラメータを設定するので、存在度分布間での整合が取れる。したがって、整合が取れた複数の存在度分布での学習という観点から、従来手法よりも大きな精度向上の効果がある。従来手法においても、複数の存在度分布を用いた学習はできる。しかし、従来手法で複数の存在度分布を作成する場合、存在度分布間の整合性は学習次第であるため、各存在度分布が独立し、精度向上の効果が小さくなってしまう傾向がある。

推定動作の際の分布生成モデル１０は、学習に用いた複数種類の存在度分布のうち出力したいものに対応する存在度分布生成手段１４を複数持つネットワークとして構成することができる。共通の位置マップ、サイズマップをそれぞれの存在度分布生成手段１４に入力して、図３での処理と同様に、それぞれ対応する関数によって存在度分布作成の処理を行い、それぞれの存在度分布を出力する。

（６）また、変形例（５）で述べた矩形関数を用いて生成する存在度分布を、推定時の誤報削除処理に利用できる。この誤報削除処理はマスク処理で行うことができるが、本変形例では、推定された存在度分布を利用して位置マップ上で当該マスク処理を行う。図９は本変形例に係る分布生成モデル１０Ｂのネットワーク構造の概略のブロック図である。

まず、画像を共通特徴量抽出手段１１に入力し、共通特徴量を出力する。この共通特徴量を位置マップ生成手段１２及びサイズマップ生成手段１３の各々に入力し、それぞれから位置マップとサイズマップが出力される。そして、位置マップとサイズマップを二値画像取得手段１５に入力する。二値画像取得手段１５は、上記変形例（５）で説明した矩形関数を用いた存在度分布生成手段１４と同様にして存在度分布を作成する。そして、二値画像取得手段１５は予め定めた閾値処理にて当該存在度分布の値を二値化し、マスクを作成する。当該二値化では例えば、閾値以上の位置に１が設定され、閾値未満の位置に０が設定される。つまり、二値画像取得手段１５は、共通特徴量抽出手段１１に入力された画像における検知対象に対応する関心領域（１が設定された領域）とそれ以外である非関心領域とを区別する二値画像をマスクとして取得する。

二値画像取得手段１５が作成したマスクはマスク処理手段１６（本発明のマスク手段）に入力される。マスク処理手段１６は、位置マップ生成手段１２から入力された位置マップと、二値画像取得手段１５から入力されたマスクとの掛け算処理を行い、マスク処理後位置マップを出力する。つまり、マスク処理手段１６は、位置マップ生成手段１２による推定位置に対し二値画像を用いてマスク処理を行い、非関心領域に属する推定位置を削除する。その後、マスク処理後位置マップとサイズマップ生成手段１３から出力されたサイズマップとを存在度分布生成手段１４に入力する。存在度分布生成手段１４は図３の存在度分布作成処理と同様に、正規分布を用いて存在度分布を作成し、マスク処理後存在度分布を出力する。つまり、存在度分布生成手段１４は存在度関数の入力パラメータの１つとしてマスク処理手段１６での削除後に残った推定位置を用いて存在度分布を推定する。

このように、マスク処理を位置マップ上で行うことで精度よく誤報を削除できる効果が得られる。すなわち、存在度分布の値は複数の頭部の値の和となっており分離できないため、存在度分布に対して誤報要因を削除するためのマスク処理をすると真の頭部も削除してしまう場合がある。これに対し、位置マップは頭部の中心付近に値が局在しているため、位置マップに対して誤報要因を削除するためのマスク処理をすれば誤報要因だけを削除できる。よって、位置マップ上でマスク処理を行うことによって、誤報のみを削除し、頭部の存在度分布を残すことができる。

本変形例の図９に示す分布生成モデル１０Ｂでは、二値画像取得手段１５が位置マップ生成手段１２及びサイズマップ生成手段１３の出力を用いて二値画像を取得した。これに対し、二値画像取得手段１５を、分布生成モデル１０の位置マップ生成手段１２及びサイズマップ生成手段１３の出力を用いずに二値画像を取得する構成としてもよい。例えば、二値画像取得手段１５を、画像を入力されて別モデルにて二値画像を取得する構成、または画像を入力されて背景差分処理により二値画像を取得する構成等とすることができる。

（７）上記実施形態及びその変形例では入力される画像と同じ画素数の存在度分布を生成する分布生成モデルを示したが、入力される画像よりも少ない画素数の存在度分布を生成する分布生成モデルとしても良い。こうすることで処理負荷の小さな学習装置２０、推定装置３０とすることができる。

例えば、分布生成モデルが出力する存在度分布を１／２スケール（画素数は１／４倍）とする場合、学習用存在度分布生成手段は頭部の位置のＸ座標、Ｙ座標及び頭部のサイズをそれぞれ１／２倍して学習用存在度分布を作成する。そして、学習手段２３は、原スケールの学習用画像と１／２スケールの学習用存在度分布を用いて分布生成モデルを学習させる。また、存在度分布生成手段は、撮影画像を分布生成モデルに入力して得られる存在度分布に対し、バイリニア補間処理を行って撮影画像と同じ画素数の存在度分布を生成する。ただし、正規分布に基づく存在度分布生成手段及び一様分布に基づく存在度分布生成手段は、さらに、バイリニア補間処理後の存在度分布の各値を１／４倍して存在度分布の全体の積分値が撮影画像内の頭部個数になるようにする。

（８）変形例（７）では分布生成モデル外で存在度分布を拡大したが、分布生成モデル内で拡大する構成とすることもできる。その場合、分布生成モデルを、入力される画像よりも少ない画素数の（以下「縮小スケールの」と表現する）存在度分布、位置マップ、サイズマップを前段部が求め、後段部がこれらを特徴量として用いて、入力された画像と同じ画素数の（以下「原スケールの」と表現する）存在度分布を出力する構成とするのがさらに好ましい。

図１０は本変形例に係る分布生成モデル１０Ｃの概略のブロック図である。分布生成モデル１０Ｃは、第一共通特徴量抽出手段１１ａ、第一位置マップ生成手段１２ａ、第一サイズマップ生成手段１３ａ及び第一存在度分布生成手段１４ａからなる前段部と、第二共通特徴量抽出手段１１ｂ、第二位置マップ生成手段１２ｂ、第二サイズマップ生成手段１３ｂ及び第二存在度分布生成手段１４ｂからなる後段部とで構成される。ここで、第一共通特徴量抽出手段１１ａ及び第二共通特徴量抽出手段１１ｂの機能は基本的に上記実施形態の共通特徴量抽出手段１１の機能に対応し、同様に、第一位置マップ生成手段１２ａ及び第二位置マップ生成手段１２ｂは位置マップ生成手段１２に、また第一サイズマップ生成手段１３ａ及び第二サイズマップ生成手段１３ｂはサイズマップ生成手段１３に、さらに第一存在度分布生成手段１４ａ及び第二存在度分布生成手段１４ｂは存在度分布生成手段１４に対応するが、それぞれが扱う画像や特徴マップの画素数において前段部と後段部、またそれらと上記実施形態との間で違いを有し得る。

前段部は画像を入力され、縮小スケールの存在度分布を作成する。具体的には、第一共通特徴量抽出手段１１ａは入力された画像から特徴量を抽出し、第一位置マップ生成手段１２ａ及び第一サイズマップ生成手段１３ａは当該特徴量からそれぞれ縮小スケールの位置マップ及びサイズマップを作成し、第一存在度分布生成手段１４ａは第一位置マップ生成手段１２ａ及び第一サイズマップ生成手段１３ａの出力に基づいて縮小スケールの存在度分布を作成する。

後段部は前段部からの入力に基づいて原スケールの存在度分布を作成する。具体的には、第二共通特徴量抽出手段１１ｂに、第一共通特徴量抽出手段１１ａで作成された特徴量と、第一位置マップ生成手段１２ａ、第一サイズマップ生成手段１３ａ及び第一存在度分布生成手段１４ａでそれぞれ作成された縮小スケールの位置マップ、サイズマップ及び存在度分布とが入力され、第二共通特徴量抽出手段１１ｂはこれらを連結した特徴量から共通特徴量を作成する。これ以降は、図２のネットワーク構造と同様であり、第二存在度分布生成手段１４ｂから原スケールの存在度分布が出力される。

なお、分布生成モデル１０Ｃの学習で用いる誤差関数は、縮小スケールの存在度分布に関する誤差関数と、原スケールの存在度分布に関する誤差関数との重みづけ和からなる。

このように、扱うスケールが異なる前段部と後段部を含んだ分布生成モデルとすることで、縮小スケールで広い範囲を畳み込んで大まかに解析し、且つ原スケールで狭い範囲を畳み込んで詳細に解析するので高精度な分布を生成できる効果がある。

（９）上記実施形態及びその変形例の分布生成モデルは正規分布に基づく分布関数を用いたが、正規分布以外に基づく分布関数を用いることもできる。

（１０）上記実施形態及びその変形例では学習装置２０にて学習させた分布生成モデルを推定装置３０の存在度分布生成手段がそのまま用いたが、推定装置３０の存在度分布生成手段は学習装置２０により学習させた分布生成モデルにおける存在度関数を置換した分布生成モデルを用いることもできる。ただし、存在度関数以外は変更しないこと、置換前後の存在度関数が存在度を設定するための入力パラメータ（例えば頭部の位置とサイズ）が共通することが置換の条件となる。

例えば、学習時点で用いた正規分布よりも標準偏差が小さい正規分布を使って存在度分布を推定したい場合、推定装置３０の存在度分布生成手段１４は、正規分布で用いる標準偏差の値をサイズマップ×β（０＜β＜α、αは学習時に用いた分布調整用定数）に変更した分布生成モデル１０を用いて存在度分布を生成する。また例えば、推定装置３０の存在度分布生成手段１４は、正規分布を、変形例（５）で述べた一様分布、矩形関数、正規分布の１次微分または正規分布の２次微分に変更した分布生成モデル１０を用いて存在度分布を生成する。

つまり、本発明の分布生成モデルに含まれる存在度関数は、学習によって更新されない関数であるから、存在度を設定するための入力パラメータが共通であれば置換可能である。また、整合がとれた高精度な位置マップとサイズマップを利用しての置換が可能である。換言すると、改めての学習を行うことなく高精度を維持して存在度分布の種類を変更可能であり、利用者の仕様変更などに柔軟に対応可能な推定装置を提供できる。

（１１）上記実施形態及び各変形例では、分布生成モデル１０は画像に現れる検知対象の存在度についての分布を生成するものであったが、存在度以外の目的量についての分布を生成する分布生成モデルに関して本発明を適用することもできる。つまり、分布生成モデルは、画像に現れる検知対象についての目的量を、複数の入力パラメータ（第１パラメータ及び第２パラメータ）を有する所定の目的量関数により算出し、画像における検知対象の目的量分布を生成するものとすることができる。そして、この分布生成モデルに処理対象の画像を入力し目的量分布を推定する推定手段を備えた推定装置を構成することができる。

上記実施形態の分布生成モデル１０では、位置マップ生成手段１２から算出された位置マップの値と、サイズマップ生成手段１３から算出されたサイズマップの値とを入力パラメータとし、存在度分布生成手段１４において存在度関数を用いて存在度分布を作成・出力したのに対し、本変形例では、存在度分布の値とサイズマップの値とを入力パラメータ（第１パラメータ及び第２パラメータ）とし、予め定めた関数処理にて位置マップを出力する分布生成モデルを説明する。つまり、本変形例は検知対象である頭部の位置を目的量とし、目的量分布として位置マップを推定する。学習での誤差計算は、上記実施形態では存在度分布に対して行ったが、本変形例では位置マップに対して行う。なお、本変形例でのサイズマップの値は、位置マップを作成するのに適切なサイズであり、学習によって求まる値である。

本変形例の画像を入力とし位置マップを出力する分布生成モデルを分布生成モデル５０と表すこととし、以下、まず、分布生成モデル５０の構造を説明し、その後、分布生成モデル５０の学習について説明する。

分布生成モデル５０は、共通特徴量抽出手段５１、存在度分布生成手段５２、サイズマップ生成手段５３、位置マップ生成手段５４から構成される。ここで存在度分布生成手段５２、サイズマップ生成手段５３が第１パラメータ推定部、第２パラメータ推定部であり、位置マップ生成手段５４が目的量算出部である。そのネットワーク構造については図示を省略するが、図２において位置マップ生成手段１２と存在度分布生成手段１４とを入れ替えたような構造である。本変形例において共通特徴量抽出手段５１、存在度分布生成手段５２及びサイズマップ生成手段５３は学習により更新され、位置マップ生成手段５４は学習により更新されない。

よって、共通特徴量抽出手段５１は図２の共通特徴量抽出手段１１に対応し、共通特徴量抽出手段５１はＣＮＮでモデル化でき、画像を入力され、共通特徴量を出力する。当該共通特徴量は存在度分布生成手段５２とサイズマップ生成手段５３それぞれに入力される。

存在度分布生成手段５２とサイズマップ生成手段５３は、ＣＮＮでモデル化され、共通特徴量から１チャンネルの特徴マップとして存在度分布、サイズマップを生成し出力する。存在度分布生成手段５２の最終層は存在度分布の値が０から１の範囲になるようにする。サイズマップ生成手段５３はサイズマップの値を０以上に変換した後、その値が予め定めた下限値未満である場合は当該下限値で置き換える。

位置マップ生成手段５４は、サイズマップから定まるフィルタを用いて、存在度分布に対してフィルタリング処理を行い、位置マップを作成する。作成される位置マップは入力画像と同サイズとなる。フィルタはサイズマップ上の１画素ごとに作成する。具体的には、ある注目点におけるフィルタとして、当該注目点の座標を平均値とし、また注目点におけるサイズマップの値×α（０＜α＜１）を標準偏差とする正規分布のラプラシアンフィルタを作成する。位置マップ生成手段５４はこのフィルタと存在度分布との内積を計算し、計算した結果を注目点での位置マップの値とする。なお、サイズマップの値が予め定めた値より小さい場合は、内積計算は行わず、注目点での位置マップの値はゼロとする。全画素を注目点として、フィルタの作成と内積計算とが行われ、位置マップが生成される。なお、位置マップとの内積計算で用いるフィルタは、サイズマップの値により一意に決まるため、学習により更新されない。

分布生成モデル５０は学習用画像と学習用位置マップを学習用データに用いて学習される。これに対応して、本変形例に関する学習装置は上記実施形態に関する図４の機能ブロック図にて、学習用存在度分布生成手段２２に代えて学習用位置マップ生成手段を設けた構成となり、学習用データ記憶手段２１は、学習用位置マップ生成手段が生成した学習用位置マップを格納し、これを学習手段２３に供する。ちなみに、学習用位置マップは、各頭部位置に１の値を入れたマップである。

分布生成モデル５０の学習は、共通特徴量抽出手段５１に学習用画像を入力した際に位置マップ生成手段５４から出力される位置マップと、入力した学習用画像に対応する学習用位置マップとから算出される誤差関数を最小化させることで行う。最小化する誤差関数は、正解データである学習用位置マップと分布生成モデル５０が出力する位置マップとから計算される平均二乗誤差を用いる。誤差計算は位置マップに対してのみ行っているため、この誤差が小さくなるように、サイズマップ及び存在度分布それぞれの値は学習により調整されていく。よって、サイズマップに入る値は、分布生成モデル５０が位置マップを作成しやすいサイズとなる。

分布生成モデル５０のネットワーク構造にすると、頭部位置に対して、存在度分布と、位置マップ作成に適したサイズとが整合の取れた状態でモデルを学習できるため、頭部位置の推定精度が向上する効果がある。

（１２）上記実施形態では、分布生成モデル１０の学習で用いる誤差関数として、存在度分布生成手段１４から出力される存在度分布に対してのみ計算を行ったが、併せて、存在度分布生成手段１４にて存在度関数の入力パラメータとしてサイズマップ生成手段１３から出力されるサイズマップに対しても誤差関数を計算してモデル全体の誤差を評価する学習を行ってもよい。以下では、サイズマップの正解データの作成方法、サイズマップに対する誤差関数、全体の誤差関数の順に説明する。

正解データのサイズマップは、学習用データ記憶手段２１に記憶されている頭部位置、サイズを用い、１個の頭部に対して、頭部位置（頭部の中心）の座標に、頭部サイズを入れる操作を画像内の全ての頭部に対して同様に行うことで作成される。例えば、この処理は学習用存在度分布生成手段２２が学習用データ記憶手段２１から頭部位置、サイズのデータを読み込んで行い、作成された正解データのサイズマップは学習用データ記憶手段２１に出力され、対応する学習画像と紐づけて記憶される。

サイズマップに対する誤差関数は、正解データのサイズマップとサイズマップ生成手段１３が出力するサイズマップとの平均二乗誤差を用いる。サイズマップに対して誤差計算を行う領域は、正解データのサイズマップで値を代入した領域（各頭部の中心座標）のみであり、それ以外の領域では計算を行わない。

全体の誤差関数は、存在度分布に対する誤差関数とサイズマップに対する誤差関数との重みづけ和からなる。このとき、サイズマップに対する誤差関数は存在度分布に対する誤差関数より小さくなるように重みづけを行い、存在度分布に対する誤差関数が主要な誤差関数となるようにする。

このような目的量分布に対する誤差関数と目的量関数の入力パラメータに対する誤差関数とを総合して分布生成モデルの誤差を評価する手法は、上記変形例（１０）の分布生成モデル５０の学習においても適用することができる。具体的には、位置マップに対する誤差関数だけでなく、サイズマップに対する誤差関数も計算し、全体の誤差関数は、位置マップに対する誤差関数とサイズマップに対する誤差関数との重みづけ和とする。なお、サイズマップの正解データの作成、及びサイズマップに対する誤差関数の計算は上述した本変形例の分布生成モデル１０の学習の場合と同様である。ちなみに、このネットワーク構造にすると、頭部位置、頭部サイズに対して、存在度分布が整合の取れた状態でモデルを学習できるため、頭部位置と頭部サイズの推定精度が向上する効果がある。

（１３）上記実施形態及びその各変形例では、存在度関数の入力パラメータの１つであるサイズを人の頭部領域の幅で規定される大きさとし、正規分布の標準偏差に対応する入力パラメータとした。別の実施形態では、サイズを検知対象の幅と高さで規定される大きさとし、正規分布の標準偏差に対応する入力パラメータをｘ方向とｙ方向の２つにしてもよい。例えば、幅サイズ×α（０＜α＜１）をｘ方向の標準偏差、高さサイズ×α（０＜α＜１）をｙ方向の標準偏差とする。サイズを検知対象の幅と高さとすることで、検知結果を矩形、楕円など検知対象の形状に応じた検知結果を適宜定義することができるようになる。

（１４）上記実施形態及びその各変形例では、検知対象を人の頭部、目的量を頭部の存在度、第１パラメータを頭部の位置、第２パラメータを頭部のサイズとする例を示したが、本発明はこれ以外にも適用できる。例えば、検知対象を凸多角形の剛体とし、目的量を剛体の構造量、第１パラメータを剛体の重心位置、第２パラメータを頂点位置とすることができる。剛体が机の上面、椅子の背もたれなど４角形の剛体である場合を例に説明する。第１パラメータの特徴マップの値は剛体の重心位置である尤度とする。第２パラメータは重心から４頂点への相対ベクトルとし、第２パラメータの特徴マップにおいて剛体の重心位置に対応する要素は相対ベクトルを並べた８次元ベクトルとする。目的量である剛体の構造量は剛体の傾き、重心から４頂点までの長さ、４頂点の角度、表裏の別、面積とし、目的量分布において剛体の重心位置に対応する要素を傾き、長さ、角度、表裏の別、面積が列挙されたベクトルとする。剛体の傾きは、画像ｘ軸正方向を基準とした第１頂点の相対ベクトルの傾きであり、第１頂点の相対ベクトルを長さ１に正規化した単位ベクトルのｘ座標とｙ座標が列挙された２次元ベクトルである。重心から４頂点までの長さは４つの長さが列挙された４次元ベクトルである。４頂点の角度は第ｎ頂点の相対ベクトルに対する第ｎ＋１頂点の相対ベクトルの角度が列挙された４次元ベクトルである。表裏の別は表裏（傾きを時計回りに算出するか反時計回りに算出するか）を表すフラグである。面積は４角形の面積を表すスカラである。よって、構造量は１２次元ベクトルである。目的量関数は４頂点の座標から、傾き、長さ、角度、表裏の別、面積を導出する関数となる。そして、第１パラメータである剛体の重心位置の特徴マップを参照し、尤度が最大の位置に対応する目的量のマップの要素から、傾き、長さ、角度、表裏の別、面積を求める。学習においては第１パラメータである剛体の重心位置の特徴マップと、構造量の傾き、長さ、角度、表裏の別、面積の正解データを与え、それぞれの誤差計算を行う。なお、第２パラメータである４頂点への相対ベクトルと、目的量の剛体の構造量を入れ替えた分布生成モデルとすることもできる。つまり、第２パラメータを剛体の構造量、目的量を重心から４頂点への相対ベクトルとすることもできる。

１画像監視装置、２撮影部、３通信部、４記憶部、５画像処理部、６表示部、１０分布生成モデル、１１共通特徴量抽出手段、１２位置マップ生成手段、１３サイズマップ生成手段、１４存在度分布生成手段、１５二値画像取得手段、１６マスク処理手段、２０学習装置、２１学習用データ記憶手段、２２学習用存在度分布生成手段、２３学習手段、２４学習モデル記憶手段、３０推定装置、３１画像入力手段、３２推定手段、３３結果出力手段、３４分布生成モデル記憶手段。

Claims

画像に現れる検知対象についての目的量を、第１パラメータ及び第２パラメータを有する所定の目的量関数により算出し、前記画像における前記検知対象の目的量分布を生成する分布生成モデルであって、前記画像の各画素と対応する対応位置での前記第１パラメータを推定する第１パラメータ推定部と、前記対応位置での前記第２パラメータを推定する第２パラメータ推定部と、前記第１パラメータ推定部及び前記第２パラメータ推定部による推定値により前記目的量関数の前記第１パラメータ及び前記第２パラメータそれぞれの値を設定し前記目的量を算出する目的量算出部とを含み、学習用画像及び当該学習用画像に対し予め与えられた前記目的量分布の正解データを用いた学習が行われた学習済みのモデルを記憶する記憶手段と、
処理対象の画像を前記分布生成モデルに入力し、前記目的量分布を推定する推定手段と、
を備えたことを特徴とする推定装置。
画像に現れる検知対象についての存在度を、当該存在度が集中する領域の位置及びサイズをパラメータで設定できる所定の存在度関数により算出し、前記画像における前記検知対象の存在度分布を生成する分布生成モデルであって、前記画像における前記検知対象の位置を推定する位置推定部と、前記画像の各画素と対応する対応位置での前記検知対象のサイズを推定するサイズ推定部と、前記位置推定部による前記検知対象の推定位置及び当該推定位置での前記サイズ推定部による前記検知対象の推定サイズにより前記存在度関数の前記パラメータの値を設定し前記存在度を算出する存在度算出部とを含み、学習用画像及び当該学習用画像に対し予め与えられた前記存在度分布の正解データを用いた学習が行われた学習済みのモデルを記憶する記憶手段と、
処理対象の画像を前記分布生成モデルに入力し、前記存在度分布を推定する推定手段と、
を備えたことを特徴とする推定装置。
請求項２に記載の推定装置において、
前記分布生成モデルは、前記存在度関数が互いに異なる複数の前記存在度算出部を含むこと、を特徴とする推定装置。
請求項２又は請求項３に記載の推定装置において、
前記存在度関数は、正規分布、一様分布、又は矩形関数であること、を特徴とする推定装置。
請求項２から請求項４のいずれか１つに記載の推定装置において、
前記画像における前記検知対象に対応する関心領域とそれ以外である非関心領域とを区別する二値画像を取得する二値画像取得手段と、
前記位置推定部による前記推定位置に対し前記二値画像を用いてマスク処理を行い、前記非関心領域に属する前記推定位置を削除するマスク手段と、を有し、
前記存在度算出部は、前記パラメータの値に、前記マスク手段での削除後の前記推定位置を用いること、
を特徴とする推定装置。
請求項２から請求項５のいずれか１つに記載の推定装置において、
前記存在度を算出する関数として、前記分布生成モデルの前記存在度関数とは別の所定の関数であって、前記存在度が集中する領域の位置及びサイズをパラメータで設定できる第２の存在度関数を記憶する手段を有し、
前記推定手段は、処理対象の画像を前記分布生成モデルに入力し、前記位置推定部による前記推定位置及び当該推定位置での前記サイズ推定部による前記推定サイズにより前記第２の存在度関数の前記パラメータの値を設定して当該第２の存在度関数により前記存在度分布を推定すること、
を特徴とする推定装置。
画像における検知対象の存在度分布を生成する分布生成モデルを学習させる学習装置であって、
前記分布生成モデルの学習モデルとして、前記画像に現れる前記検知対象についての存在度を、当該存在度が集中する領域の位置及びサイズをパラメータで設定できる所定の存在度関数により算出し、前記画像における前記検知対象の存在度分布を生成するモデルであって、前記画像における前記検知対象の位置を推定する位置推定部と、前記画像の各画素と対応する対応位置での前記検知対象のサイズを推定するサイズ推定部と、前記位置推定部による前記検知対象の推定位置及び当該推定位置での前記サイズ推定部による前記検知対象の推定サイズにより前記存在度関数の前記パラメータを設定し前記存在度を算出する存在度算出部とを含んだモデルを記憶する学習モデル記憶手段と、
学習用画像及び当該学習用画像に対し予め与えられた前記存在度分布の正解データを記憶している学習用データ記憶手段と、
前記学習モデルに前記学習用画像を入力し、前記存在度算出部の出力に基づく前記存在度分布の前記正解データに対する誤差に基づいて前記学習モデルを更新する学習を行う学習手段と、
を有することを特徴とする学習装置。
画像に現れる検知対象についての目的量を、第１パラメータ及び第２パラメータを有する所定の目的量関数により算出し、前記画像における前記検知対象の目的量分布を生成する分布生成モデルであって、前記画像の各画素と対応する対応位置での前記第１パラメータを推定する第１パラメータ推定部と、前記対応位置での前記第２パラメータを推定する第２パラメータ推定部と、前記第１パラメータ推定部及び前記第２パラメータ推定部による推定値により前記目的量関数の前記第１パラメータ及び前記第２パラメータそれぞれの値を設定し前記目的量を算出する目的量算出部とを含み、学習用画像及び当該学習用画像に対し予め与えられた前記目的量分布の正解データを用いた学習が行われた学習済みのモデルを用意するステップと、
処理対象の画像を前記分布生成モデルに入力し、前記目的量分布を推定する推定ステップと、
を有することを特徴とする推定方法。
画像における検知対象の目的量分布を推定する処理をコンピュータに行わせるプログラムであって、
当該コンピュータを、
前記画像に現れる前記検知対象についての目的量を、第１パラメータ及び第２パラメータを有する所定の目的量関数により算出し、前記目的量分布を生成する分布生成モデルであって、前記画像の各画素と対応する対応位置での前記第１パラメータを推定する第１パラメータ推定部と、前記対応位置での前記第２パラメータを推定する第２パラメータ推定部と、前記第１パラメータ推定部及び前記第２パラメータ推定部による推定値により前記目的量関数の前記第１パラメータ及び前記第２パラメータそれぞれの値を設定し前記目的量を算出する目的量算出部とを含み、学習用画像及び当該学習用画像に対し予め与えられた前記目的量分布の正解データを用いた学習が行われた学習済みのモデルを記憶する記憶手段、及び、
処理対象の画像を前記分布生成モデルに入力し、前記目的量分布を推定する推定手段、
として機能させることを特徴とする推定プログラム。