JP2021039625A

JP2021039625A - 物体数推定装置、物体数推定方法、および物体数推定プログラム

Info

Publication number: JP2021039625A
Application number: JP2019161610A
Authority: JP
Inventors: 雄土山地; Yuto Yamaji; 智行柴田; Satoyuki Shibata
Original assignee: Toshiba Corp
Current assignee: Toshiba Corp
Priority date: 2019-09-04
Filing date: 2019-09-04
Publication date: 2021-03-11
Anticipated expiration: 2039-09-04
Also published as: US11449975B2; CN112446275A; US20210065351A1; JP7118934B2

Abstract

【課題】高精度に物体数を推定する。
【解決手段】物体数推定装置２０は、取得部２０Ｃと、設定部２０Ｄと、推定部２０Ｇと、を備える。取得部２０Ｃは、画像３０を取得する。設定部２０Ｄは、画像３０に応じて、画像３０における物体数推定単位である局所領域サイズを設定する。推定部２０Ｇは、設定された局所領域サイズの局所領域４０ごとに画像３０に含まれる物体数を推定する。
【選択図】図１

Description

本発明の実施形態は、物体数推定装置、物体数推定方法、および物体数推定プログラムに関する。

監視カメラなどで得られた画像を解析し、画像に含まれる人物の人数を推定する方法が知られている。例えば、画像と、画像に映る群衆状態および群衆位置を示す正解ラベルと、の対応を教師データと用いて学習モデルを学習する。そして、この学習モデルを用いて、画像から群衆位置を推定する技術が開示されている。また、従来では、画像に含まれる物体を固定サイズの領域ごとに推定することで、群衆位置から物体数を推定していた。

国際公開第２０１８／２１６６４８号公報

しかし、画像の撮影範囲などによって、画像に含まれる人物の大きさは変動する。このため、推定の単位である固定サイズが画像中の人物のサイズに適合しない場合、物体数の推定精度が低下する場合があった。

実施形態の物体数推定装置は、取得部と、設定部と、推定部と、を備える。取得部は、画像を取得する。設定部は、前記画像に応じて、前記画像における物体数推定単位である局所領域サイズを設定する。推定部は、設定された前記局所領域サイズの局所領域ごとに前記画像に含まれる物体数を推定する。

第１の実施形態に係る物体数推定システムの模式図。第１の実施形態に係る画像の模式図。第１の実施形態に係る局所領域の説明図。第１の実施形態に係る基準学習モデルの模式図。第１の実施形態に係る局所領域サイズと特徴マップと推定結果との関係を示す模式図。第１の実施形態に係る画像の模式図。第１の実施形態に係る画像の模式図。第１の実施形態に係る出力画像の模式図。第１の実施形態に係る出力画像の模式図。第１の実施形態に係る学習モデルの模式図。第１の実施形態に係る物体数推定処理の流れを示すフローチャート。第１の実施形態に係る物体数推定処理の流れを示すフローチャート。第２の実施形態に係る物体数推定システムの模式図。第２の実施形態に係る教師画像の模式図。第２の実施形態に係るハードウェア構成図。

以下に添付図面を参照して、物体数推定装置、物体数推定方法、および物体数推定プログラムを詳細に説明する。

（第１の実施形態）
図１は、本実施形態の物体数推定システム１０の一例を示す模式図である。

物体数推定システム１０は、物体数推定装置２０と、通信部１０Ａと、撮影部１０Ｂと、ＵＩ（ユーザ・インターフェース）部１０Ｃと、を備える。

物体数推定装置２０と、通信部１０Ａ、撮影部１０Ｂ、およびＵＩ部１０Ｃとは、データまたは信号を授受可能に接続されている。

物体数推定装置２０は、例えば、専用または汎用コンピュータである。物体数推定装置２０は、画像に含まれる物体数を推定する（詳細後述）。

通信部１０Ａは、外部装置と通信する。例えば、通信部１０Ａは、公知の通信回線を介して、各種の情報を外部装置へ送信、または各種の情報を外部装置から受信する。

撮影部１０Ｂは、物体を撮影する撮影装置である。撮影部１０Ｂは、例えば、撮影によって撮影画像の画像データを得る。以下、画像データを、単に、画像と称して説明する場合がある。

撮影部１０Ｂは、対象領域の撮影画像を取得する。対象領域は、実空間における特定の領域である。対象領域は、予め定めればよい。対象領域は、例えば、特定の建物内の領域や、特定の地域や、特定のスペースなどである。

撮影部１０Ｂは、対象領域に含まれる物体を撮影した撮影画像を取得する。

物体とは、物体数推定装置２０による数の推定対象である。物体の種類は、予め定めればよい。例えば、物体は、人物、動物、細胞、各種の生物、車両、飛行可能な物体（有人飛行機、無人飛行機（例えば、ＵＡＶ（ＵｎｍａｎｎｅｄＡｅｒｉａｌＶｅｈｉｃｌｅ）、ドローン））、ロボット、などである。なお、物体は、これらに限定されない。本実施形態では、物体が人物である場合を、一例として説明する。

ＵＩ部１０Ｃは、ユーザによる操作入力を受付ける機能、および、各種の情報を出力する機能を備える。例えば、ＵＩ部１０Ｃは、ディスプレイ１０Ｄと、入力部１０Ｅと、を含む。

ディスプレイ１０Ｄは、各種の情報を表示する。ディスプレイ１０Ｄは、例えば、公知の有機ＥＬ（Ｅｌｅｃｔｒｏ−Ｌｕｍｉｎｅｓｃｅｎｃｅ）ディスプレイ、ＬＣＤ（ＬｉｑｕｉｄＣｒｙｓｔａｌＤｉｓｐｌａｙ、投影装置などである。

入力部１０Ｅは、ユーザからの各種指示を受付ける。入力部１０Ｅは、例えば、キーボード、マウス、タッチパネル、マイクロフォン、などである。

なお、ＵＩ部１０Ｃを、入力機構と出力機構とを備えたタッチパネルで構成してもよい。また、ＵＩ部１０Ｃは、更に、音声を出力するスピーカを含む構成であってもよい。

次に、物体数推定装置２０について説明する。物体数推定装置２０は、処理部２０Ａと、記憶部２０Ｂと、を備える。処理部２０Ａ、記憶部２０Ｂ、通信部１０Ａ、撮影部１０Ｂ、ディスプレイ１０Ｄ、および入力部１０Ｅは、バス１０Ｆを介して接続されている。

記憶部２０Ｂ、通信部１０Ａ、撮影部１０Ｂ、ディスプレイ１０Ｄ、および入力部１０Ｅの少なくとも１つと、処理部２０Ａと、を、ネットワークを介して接続してもよい。

記憶部２０Ｂは、各種データを記憶する。本実施形態では、記憶部２０Ｂは、基準学習モデル５０を予め記憶する。基準学習モデル５０は、後述する処理部２０Ａの処理によって、学習モデル５２に再構築される。基準学習モデル５０および学習モデル５２の詳細は後述する。

記憶部２０Ｂは、例えば、ＲＡＭ（ＲａｎｄｏｍＡｃｃｅｓｓＭｅｍｏｒｙ）、フラッシュメモリ等の半導体メモリ素子、ハードディスク、光ディスク等である。なお、記憶部２０Ｂは、物体数推定装置２０の外部に設けられた記憶装置であってもよい。また、記憶部２０Ｂは、記憶媒体であってもよい。具体的には、記憶媒体は、プログラムや各種情報を、ＬＡＮ（ＬｏｃａｌＡｒｅａＮｅｔｗｏｒｋ）やインターネットなどを介してダウンロードして記憶または一時記憶したものであってもよい。また、記憶部２０Ｂを、複数の記憶媒体から構成してもよい。

記憶部２０Ｂおよび処理部２０Ａの少なくとも一方を、ネットワークに接続されたサーバ装置などの外部装置に搭載した構成としてもよい。また、処理部２０Ａに含まれる後述する機能部の少なくとも１つを、ネットワークを介して処理部２０Ａに接続されたサーバ装置などの外部装置に搭載してもよい。

処理部２０Ａは、取得部２０Ｃと、設定部２０Ｄと、出力制御部２０Ｅと、受付部２０Ｆと、推定部２０Ｇと、を備える。取得部２０Ｃ、設定部２０Ｄ、出力制御部２０Ｅ、受付部２０Ｆ、および推定部２０Ｇの少なくとも１つは、例えば、１または複数のプロセッサにより実現される。例えば、上記各部は、ＣＰＵ（ＣｅｎｔｒａｌＰｒｏｃｅｓｓｉｎｇＵｎｉｔ）などのプロセッサにプログラムを実行させること、すなわちソフトウェアにより実現してもよい。上記各部は、専用のＩＣ（ＩｎｔｅｇｒａｔｅｄＣｉｒｃｕｉｔ）などのプロセッサ、すなわちハードウェアにより実現してもよい。上記各部は、ソフトウェアおよびハードウェアを併用して実現してもよい。複数のプロセッサを用いる場合、各プロセッサは、各部のうち１つを実現してもよいし、各部のうち２以上を実現してもよい。

取得部２０Ｃは、画像を取得する。取得部２０Ｃは、物体数推定対象の画像を取得する。

図２Ａは、取得部２０Ｃが取得する画像３０の一例を示す模式図である。画像３０には、１または複数の人物３２が含まれる。上述したように、人物３２は、物体の一例である。

図１に戻り説明を続ける。画像３０は、撮影部１０Ｂで得られた撮影画像、通信部１０Ａを介して接続された外部装置から取得した画像、記憶部２０Ｂに予め記憶された画像、の何れであってもよい。また、通信部１０Ａを介して接続された外部装置は、通信部１０Ａを介して接続された撮影装置であってもよい。該撮影装置は、撮影によって撮影画像の画像データを得る装置であればよい。画像３０は、撮影画像に限定されない。例えば、画像３０は、撮影画像、スキャナ等で読取られた画像、公知の画像作成アプリケーションなどを用いて作成された画像、の何れであってもよい。

設定部２０Ｄは、取得部２０Ｃで取得した画像３０に応じて、該画像３０における局所領域サイズを設定する。局所領域サイズは、画像３０における、物体数推定単位である。

図２Ｂは、局所領域４０の一例の説明図である。図２Ｂには、局所領域サイズの異なる複数の局所領域４０（局所領域４０Ａ〜局所領域４０Ｄ）を一例として示した。局所領域４０Ａは、例えば、８×８ピクセルの局所領域サイズの局所領域４０である。局所領域４０Ｂは、例えば、１６×１６ピクセルの局所領域サイズの局所領域４０である。局所領域４０Ｃは、例えば、３２×３２ピクセルの局所領域サイズの局所領域４０である。局所領域４０Ｄは、例えば、６４×６４ピクセルの局所領域サイズの局所領域４０である。なお、局所領域サイズは、図２Ｂに示す例に限定されない。

例えば、設定部２０Ｄは、公知の検出器を用いて、画像３０に含まれる人物の頭部のサイズを導出する。そして、設定部２０Ｄは、導出された頭部のサイズから、局所領域サイズを（自動的に）設定してもよい。

詳細を後述する推定部２０Ｇでは、画像３０における局所領域サイズの局所領域４０ごとに人物３２の数を推定する。この局所領域４０ごとの推定処理により、推定部２０Ｇは、画像３０に含まれる人物３２の数を推定する。なお、人物３２の数を、物体数と称して説明する場合がある。

この物体数の推定には、基準学習モデル５０が用いられる。本実施形態では、基準学習モデル５０は、予め記憶部２０Ｂに記憶されているものとする。

図３は、基準学習モデル５０を示す模式図である。基準学習モデル５０は、画像３０に対する畳み込み演算の繰返しによって、画像３０における局所領域サイズの局所領域４０内の物体数の推定結果を導出するためのモデルである。基準学習モデル５０は、ニューラルネットワークのモデルである。

基準学習モデル５０では、入力層として入力された画像３０に対して、畳み込み演算を繰返すことで複数の畳み込み層４２が生成されることで、サイズ（解像度およびスケール）の異なる複数の特徴マップ４４が生成される。そして、基準学習モデル５０では、複数の特徴マップ４４の各々に対応する複数の出力マップ（出力層）である推定結果４６が出力される。推定結果４６は、物体数の推定結果である。

図３には、特徴マップ４４として、特徴マップ４４Ａ〜特徴マップ４４Ｄを一例として示した。

特徴マップ４４Ａは、１／８のサイズに縮小されたサイズの特徴マップ４４である。推定結果４６Ａは、該サイズの特徴マップ４４Ａから導出された物体数の推定結果である。すなわち、推定結果４６Ａは、画像３０における８×８ピクセルの局所領域サイズの局所領域４０Ａについて、物体数を推定した推定結果に相当する。

特徴マップ４４Ｂは、１／１６のサイズに縮小されたサイズの特徴マップ４４である。推定結果４６Ｂは、該サイズの特徴マップ４４Ｂから導出された物体数の推定結果である。すなわち、推定結果４６Ｂは、１６×１６ピクセルの局所領域サイズの局所領域４０Ｂについて、物体数を推定した推定結果に相当する。

特徴マップ４４Ｃは、１／３２のサイズに縮小されたサイズの特徴マップ４４である。推定結果４６Ｃは、該サイズの特徴マップ４４Ｃから導出された物体数の推定結果である。すなわち、推定結果４６Ｃは、３２×３２ピクセルの局所領域サイズの局所領域４０Ｃについて、物体数を推定した推定結果に相当する。

特徴マップ４４Ｄは、１／６４のサイズに縮小されたサイズの特徴マップ４４である。推定結果４６Ｄは、該サイズの特徴マップ４４Ｄから導出された物体数の推定結果である。すなわち、推定結果４６Ｄは、６４×６４ピクセルの局所領域サイズの局所領域４０Ｄについて、物体数を推定した推定結果に相当する。

図４は、画像３０における局所領域４０Ｂの局所領域サイズと、特徴マップ４４と、推定結果４６と、の関係の一例を示す模式図である。図４には、局所領域サイズが１６×１６ピクセルである場合を、一例として示した。

図４に示すように、画像３０における、１６×１６ピクセルの局所領域サイズの局所領域４０Ｂの物体数を推定すると想定する。この場合、画像３０を、基準学習モデル５０を用いて１／１６に縮小することで、該局所領域４０Ｂに対応する特徴マップ４４Ｂが得られることとなる。そして、該特徴マップ４４Ｂから、例えば、６人、といった推定結果４６Ｂが得られることとなる。

ここで、画像３０に映る対象領域の範囲が変更されると、画像３０に含まれる人物３２の大きさが変動する。

対象領域の範囲の変更とは、撮影画像を物体数推定対象の画像３０として用いる場合、撮影範囲が変更されることを意味する。すなわち、対象領域の範囲の変更とは、画像３０を撮影する撮影部１０Ｂまたは該画像３０を撮影する他の撮影装置の、地上からの設置位置の高さ、撮影角度、画角、撮影倍率、解像度、および撮影環境（明るさなど）の少なくとも１つが変更されたことを意味する。また、撮影画像以外の画像３０を用いる場合には、画像３０に含まれる物体の大きさが変更された場合などが挙げられる。

すると、物体数推定単位である局所領域４０の局所領域サイズを画像３０に拘らず固定とした場合、物体数の推定精度が低下する場合がある。

図５Ａおよび図５Ｂは、画像３０に映る対象領域の範囲の異なる画像３０の一例を示す模式図である。図５Ａは、対象領域の範囲の狭い画像３０Ａの一例を示す模式図である。図５Ｂは、対象領域の範囲が画像３０Ａより広い画像３０Ｂの一例を示す模式図である。画像３０Ａおよび画像３０Ｂは、画像３０の一例である。

図５Ａおよび図５Ｂに示すように、局所領域サイズが固定であり、画像３０Ａと画像３０Ｂに同じ局所領域サイズの局所領域４０（例えば、１６×１６ピクセルの局所領域サイズの局所領域４０Ｂ）が設定されたと想定する。この場合、対象領域の範囲の広い画像３０Ｂでは、該局所領域サイズの局所領域４０Ｂ中には、人物３２を特定可能な部位（例えば頭部）の全体が含まれる（図５Ｂ参照）。一方、対象領域の範囲の狭い画像３０Ａでは、該局所領域サイズの局所領域４０Ｂ中には人物３２を特定可能な部位（例えば頭部）の一部の領域しか含まれない（図５Ａ）。このため、局所領域サイズを画像３０に拘らず固定として、人物３２の推定を行うと、推定精度が低下する場合があった。

図１に戻り説明を続ける。そこで、本実施形態では、設定部２０Ｄが、画像３０に応じて局所領域サイズを設定する。

例えば、設定部２０Ｄは、ユーザによって選択された局所領域サイズを設定する。この場合、例えば、ユーザは、出力制御部２０Ｅによって表示された出力画像から所望の推定結果４６を選択することで、局所領域サイズを選択する。

詳細には、出力制御部２０Ｅは、出力画像を出力する。例えば、出力制御部２０Ｅは、出力画像をディスプレイ１０Ｄへ表示する。なお、出力制御部２０Ｅは、出力画像を、通信部１０Ａを介して接続された外部装置へ出力してもよい。本実施形態では、出力制御部２０Ｅは、出力画像をディスプレイ１０Ｄへ表示する形態を、一例として説明する。

出力画像は、画像３０に含まれる物体数を、互いにサイズの異なる複数の局所領域サイズの局所領域４０ごとに推定した、推定結果４６の一覧を含む画像である。

図６は、出力画像５４の一例を示す模式図である。出力画像５４は、画像３０と、複数の推定結果４６と、を含む。

出力画像５４に表示される推定結果４６は、互いにサイズの異なる複数の局所領域サイズの局所領域４０ごとに推定された物体数（すなわち、人物３２の人数）を示す情報である。図６には、推定結果４６（４６Ａ〜４６Ｄ）の推定結果画像４８（４８Ａ〜４８Ｄ）を一例として示した。また、図６には、推定結果画像４８が、局所領域４０ごとの推定結果４６に代えて、画像３０に含まれる物体数４７（４７Ａ〜４７Ｄ）を含む場合を一例として示した。物体数４７（４７Ａ〜４７Ｄ）は、画像３０の局所領域４０（４０Ａ〜４０Ｄ）ごとに物体数（推定結果４６）を推定する処理を、局所領域４０の位置を変えながら画像３０全体に対して行うことで、画像３０全体に含まれる物体数を算出した算出結果である。

なお、推定結果画像４８は、画像３０上に、推定結果４６および物体数４７の少なくとも一方を示す情報を重畳した重畳画像であることが好ましい。

なお、図６中、推定結果画像４８Ａは、８×８ピクセルの局所領域サイズの局所領域４０Ａごとに推定された、画像３０に含まれる物体数４７Ａを示す画像である。推定結果画像４８Ｂは、１６×１６ピクセルの局所領域サイズの局所領域４０Ｂごとに推定された、画像３０に含まれる物体数４７Ｂを示す画像である。推定結果画像４８Ｃは、３２×３２ピクセルの局所領域サイズの局所領域４０Ｃごとに推定された、画像３０に含まれる物体数４７Ｃを示す画像である。推定結果画像４８Ｄは、６４×６４ピクセルの局所領域サイズの局所領域４０Ｄごとに推定された、画像３０に含まれる物体数４７Ｄを示す画像である。

例えば、出力制御部２０Ｅは、取得部２０Ｃで取得した画像３０を基準学習モデル５０へ入力することで、互いにサイズの異なる複数の局所領域サイズの各々に対応する、複数の推定結果画像４８を生成する。そして、出力制御部２０Ｅは、画像３０と、複数の推定結果画像４８と、を含む出力画像５４を、ディスプレイ１０Ｄへ表示すればよい。

ユーザは、表示された出力画像５４を視認しながら入力部１０Ｅを操作することで、推定結果４６（または物体数４７）の何れかを選択する。すなわち、ユーザは、表示されている複数の推定結果画像４８の何れかを選択することで、推定結果４６（または物体数４７）の何れかを選択する。図６には、推定結果画像４８Ａが選択された場合を一例として示した。ユーザは、表示されている複数の推定結果画像４８の内、少なくとも１つの推定結果画像４８を選択すればよく、２以上の推定結果画像４８を選択してもよい。ここでは、１つの推定結果画像４８を選択した場合を想定し、説明を続ける。

そして、ユーザは、入力部１０Ｅを操作することで、出力画像５４に含まれる決定ボタンＤの表示位置を選択する。すると、受付部２０Ｆは、出力画像５４に含まれる推定結果４６のユーザによる選択を入力部１０Ｅから受付ける。

設定部２０Ｄは、受付けた推定結果４６（または物体数４７）に対応する局所領域サイズを、該画像３０の物体数推定単位である局所領域サイズとして設定すればよい。

なお、設定部２０Ｄによる局所領域サイズの設定は、上記方法に限定されない。

例えば、設定部２０Ｄは、複数の推定結果４６の内、画像３０に含まれる予め取得した正解の物体数に最も近い推定結果４６の導出に用いた局所領域サイズを、該画像３０の物体数推定単位である局所領域サイズとして設定してもよい。

この場合、設定部２０Ｄは、推定結果４６に代えて物体数４７を用いる事が好ましい。上述したように、物体数４７は、画像３０の局所領域４０ごとに推定結果４６を推定する処理を、局所領域４０の位置を変えながら画像３０全体に対して行うことで、画像３０全体に含まれる物体数を算出した算出結果である。そして、設定部２０Ｄは、取得した正解の物体数に最も近い物体数４７の推定に用いた局所領域サイズを、該画像３０の物体数推定単位である局所領域サイズとして設定すればよい。

また、設定部２０Ｄは、画像３０に含まれる予め取得した正解の物体数を、入力部１０Ｅから受付ければよい。この場合、ユーザは、画像３０に含まれる正解の物体数を、入力部１０Ｅを操作することで入力すればよい。また、設定部２０Ｄは、外部装置などで推定された、画像３０に含まれる物体数を、予め取得した正解の物体数として用いてもよい。

また、設定部２０Ｄは、１つの画像３０に対して、１つの局所領域サイズを設定してもよいし、互いにサイズの異なる複数の局所領域サイズを設定してもよい。複数の局所領域サイズを設定する場合、例えば、ユーザは、出力画像５４に含まれる複数の推定結果画像４８（推定結果４６）の内、２以上の推定結果画像４８（推定結果４６）を選択すればよい。そして、設定部２０Ｄは、受付部２０Ｆを介して入力部１０Ｅから受付けた複数の推定結果画像４８における推定結果４６の各々の推定に用いた局所領域サイズを、設定すればよい。

また、設定部２０Ｄは、画像３０内の互いに異なる領域に、互いに異なる局所領域サイズを設定してもよい。

図７は、出力画像５４の一例を示す模式図である。

例えば、ユーザは、表示された出力画像５４を視認しながら入力部１０Ｅを操作することで、互いに異なる局所領域サイズの推定結果画像４８（推定結果４６）を複数選択する。このとき、ユーザは、入力部１０Ｅを操作することで、推定結果画像４８における特定の領域を選択する。

図７には、一例として、８×８ピクセルの局所領域サイズに対応する推定結果画像４８Ａにおける、図７中の上側の領域ＳＡが選択され、１６×１６ピクセルの局所領域サイズに対応する推定結果画像４８Ｂにおける、図７中の下側の領域ＳＢが選択された状態を示した。

この場合、設定部２０Ｄは、画像３０における領域ＳＡについては推定結果画像４８Ａにおける推定結果４６Ａの導出に用いた８×８ピクセルの局所領域サイズを設定する。また、設定部２０Ｄは、画像３０における領域ＳＢについては推定結果画像４８Ｂにおける推定結果４６Ｂの導出に用いた１６×１６ピクセルの局所領域サイズを設定すればよい。

図１に戻り説明を続ける。推定部２０Ｇは、基準学習モデル５０を、設定部２０Ｄで設定された局所領域サイズの局所領域４０の推定結果４６を導出するための学習モデル５２に再構築する。

図８は、再構築された学習モデル５２の一例を示す模式図である。例えば、設定部２０Ｄが、１６×１６ピクセルの局所領域サイズを設定したと想定する。この場合、推定部２０Ｇは、図３に示す基準学習モデル５０を、畳み込み演算の繰返しによって、画像３０を１／１６のサイズの特徴マップ４４Ｂに縮小することで推定結果４６Ｂを出力する学習モデル５２に再構築する。

詳細には、推定部２０Ｇは、学習モデル５２における、設定された局所領域サイズより後段の（下位の）畳み込み演算によって形成される特徴マップ４４および推定結果４６を削除することで、学習モデル５２のネットワークを再構築する。この処理により、推定部２０Ｇは、基準学習モデル５０から学習モデル５２を再構築する。

そして、推定部２０Ｇは、再構築した学習モデル５２を、該学習モデル５２の再構築に用いた画像３０の対象領域の範囲を一意に識別する識別情報に対応付けて、記憶部２０Ｂへ記憶する。この識別情報には、例えば、該画像３０を撮影した撮影部１０Ｂの識別情報などを用いればよい。

取得部２０Ｃが新たな画像３０を取得すると、推定部２０Ｇは、該画像３０に応じて設定された局所領域サイズの局所領域４０ごとに、該画像３０に含まれる物体数を推定する。

すなわち、推定部２０Ｇは、取得部２０Ｃで取得した画像３０の対象領域の範囲の識別情報に対応する学習モデル５２を、記憶部２０Ｂから読取る。そして、推定部２０Ｇは、該画像３０と、該学習モデル５２とを用いて、該画像３０に含まれる物体数を推定する。上述したように、学習モデル５２は、該画像３０に設定された局所領域サイズに応じて基準学習モデル５０を再構築することで得られた学習モデルである。このため、推定部２０Ｇは、読取った学習モデル５２に該画像３０を入力することで、画像３０に設定された局所領域サイズの局所領域４０ごとの物体数である推定結果４６を得る。そして、推定部２０Ｇは、該画像３０における局所領域４０の位置を変更しながら、画像３０全体に対して該推定処理を行うことで、画像３０に含まれる物体数を推定する。

推定部２０Ｇは、推定結果４６をディスプレイ１０Ｄに表示、記憶部２０Ｂへ記憶、および、通信部１０Ａを介して外部装置へ送信、の何れかの処理を更に実行してもよい。

なお、上述したように、設定部２０Ｄが、１つの画像３０に対して複数の局所領域サイズを設定する場合がある。この場合、推定部２０Ｇは、該画像３０の対象領域の範囲を一意に識別する識別情報に対応付けて、複数の局所領域サイズの各々用に再構築された複数の学習モデル５２を記憶部２０Ｂへ記憶することとなる。このため、この場合、推定部２０Ｇは、取得部２０Ｃで新たに取得した画像３０の対象領域の範囲の識別情報に対応する、複数の学習モデル５２を、記憶部２０Ｂから読取ることとなる。

この場合、推定部２０Ｇは、読取った複数の学習モデル５２の各々に画像３０を入力することで、これらの学習モデル５２の各々からの出力として複数の推定結果４６を得る。そして、推定部２０Ｇは、複数の推定結果４６の重み付け和を、該画像３０の各局所領域４０の推定結果４６として用いればよい。

詳細には、推定部２０Ｇは、局所領域４０ごとに、複数の学習モデル５２から導出された該局所領域に対する複数の推定結果４６の各々に、予め定めた重み係数を乗算し、これらの乗算した結果の和である重み付け和を、該局所領域４０の推定結果４６として用いればよい。重み係数は、局所領域サイズごとに予め設定し、予め画像３０Ｂへ記憶すればよい。そして、推定部２０Ｇは、該画像３０における局所領域４０の位置を変更しながら、画像３０全体に対して該推定処理を行うことで、画像３０に含まれる物体数を推定すればよい。

また、上述したように、設定部２０Ｄが、画像３０内の互いに異なる領域に、互いにサイズの異なる局所領域サイズを設定する場合がある（図７参照）。この場合、設定部２０Ｄは、画像３０の対象領域の範囲を一意に識別する識別情報に対応付けて、画像３０内における位置および範囲を示す領域情報、および、該領域情報の領域に設定された局所領域サイズに応じて再構築された学習モデル５２と、を対応付け記憶部２０Ｂに記憶すればよい。

そして、推定部２０Ｇは、該画像３０における該領域ごとに、該領域に設定された局所領域サイズに対応する学習モデル５２を用いて、局所領域４０ごとの物体数である推定結果４６を得ればよい。そして、推定部２０Ｇは、該画像３０における局所領域４０の位置を変更させながら、画像３０全体に対して該推定処理を行うことで、画像３０に含まれる物体数を推定すればよい。

次に、本実施形態の物体数推定装置２０で実行する物体数推定処理の流れの一例を説明する。図９および図１０は、物体数推定処理の流れの一例を示すフローチャートである。

図９は、物体数推定処理における、学習モデル５２の生成の流れの一例を示すフローチャートである。

処理部２０Ａは、対象領域の範囲が変更されたか否かを判断する（ステップＳ１００）。

対象領域の範囲の変更とは、撮影画像を物体数推定対象の画像３０として用いる場合、該撮影画像を撮影する撮影部１０Ｂまたは該撮影画像を撮影する他の撮影装置の、撮影部１０Ｂまたは該他の撮影装置自体の新たな設置または変更、撮影条件、地上からの設置位置の高さ、撮影角度、撮影環境（明るさなど）、画角、解像度、の少なくとも１つが変更されたことを意味する。また、撮影画像以外の画像３０を物体数推定対象の画像３０として用いる場合には、画像３０に含まれる物体の大きさが変更された場合や、新たな画像３０を取得した場合、などが挙げられる。なお、ステップＳ１００において、処理部２０Ａは、ユーザによる入力部１０Ｅの指示などによって変更を示す変更情報が入力された場合に、対象領域の範囲が変更されたと判断してもよい。

ステップＳ１００で否定判断すると（ステップＳ１００：Ｎｏ）、本ルーチンを終了する。ステップＳ１００で肯定判断すると（ステップＳ１００：Ｙｅｓ）、ステップＳ１０２へ進む。

ステップＳ１０２では、取得部２０Ｃが、ステップＳ１００で対象領域の範囲を変更すると判断された画像３０を取得する（ステップＳ１０２）。

設定部２０Ｄは、ステップＳ１０２で取得した画像３０に応じて、該画像３０における物体数推定単位である局所領域サイズを設定する（ステップＳ１０４）。

次に、推定部２０Ｇは、記憶部２０Ｂに記憶されている基準学習モデル５０を、ステップＳ１０４で設定された局所領域サイズの局所領域４０の推定結果４６を導出するための学習モデル５２に再構築する（ステップＳ１０６）。そして、推定部２０Ｇは、ステップＳ１０６で再構築した学習モデル５２を、ステップＳ１０２で取得した画像３０の対象領域の範囲を一意に識別する識別情報に対応付けて、記憶部２０Ｂへ記憶する（ステップＳ１０８）。そして、本ルーチンを終了する。

図１０は、物体数推定処理における、物体数推定の流れの一例を示すフローチャートである。

取得部２０Ｃが画像３０を取得する（ステップＳ２００）。設定部２０Ｄは、ステップＳ２００で取得した画像３０の、対象領域の範囲を一意に識別する識別情報に対応する学習モデル５２を、記憶部２０Ｂから読取る（ステップＳ２０２）。

例えば、設定部２０Ｄは、取得した画像３０を公知の画像解析方法を用いて解析することで、該画像３０の対象領域の範囲を特定すればよい。また、識別情報には、特定した対象領域の範囲を示す情報を含む、識別情報を用いればよい。なお、画像３０に、該識別情報または該画像３０の対象領域の範囲を示す情報を含む構成としてもよい。この場合、画像３０のヘッダー部分などに、該情報を含む構成とすればよい。そして、該画像３０の送信側（例えば、撮影部１０Ｂ）では、該画像３０の物体数推定装置２０への送信時に、該情報を付与した画像３０を送信すればよい。この場合、設定部２０Ｄは、画像３０に含まれる該識別情報に対応する学習モデル５２を、記憶部２０Ｂから読取ればよい。

次に、推定部２０Ｇは、ステップＳ２００で取得した画像３０を、ステップＳ２０２で読み込んだ学習モデル５２へ入力することで、該画像３０に設定された局所領域サイズの局所領域４０ごとに、該画像３０に含まれる物体数を推定する（ステップＳ２０４）。そして、本ルーチンを終了する。

なお、ステップＳ２０２の処理において、ステップＳ２００で取得した画像３０の、対象領域の範囲を一意に識別する識別情報に対応する学習モデル５２が、記憶部２０Ｂに記憶されていない場合がある。この場合、処理部２０Ａは、図９のステップＳ１００で肯定判断したとして（ステップＳ１００：Ｙｅｓ）、該画像３０について、ステップＳ１０４〜ステップＳ１０８の処理を実行すればよい。そして、次に、ステップＳ２０２〜ステップＳ２０４の処理を実行すればよい。

以上説明したように、本実施形態の物体数推定装置２０は、取得部２０Ｃと、設定部２０Ｄと、推定部２０Ｇと、を備える。取得部２０Ｃは、画像３０を取得する。設定部２０Ｄは、画像３０に応じて、画像３０における物体数推定単位である局所領域サイズを設定する。推定部２０Ｇは、設定された局所領域サイズの局所領域４０ごとに画像３０に含まれる物体数を推定する。

このように、本実施形態の物体数推定装置２０では、画像３０に応じて、画像３０における物体数推定単位である局所領域サイズを設定する。

すなわち、本実施形態の物体数推定装置２０では、画像３０に映る対象領域の範囲が変更されることで、画像３０に含まれる人物３２の大きさが変動した場合であっても、該画像３０に応じた局所領域サイズを設定する。そして、物体数推定装置２０では、設定した局所領域サイズごとに、画像３０に含まれる物体数を推定することができる。

従って、本実施形態の物体数推定装置２０は、高精度に物体数を推定することができる。

なお、基準学習モデル５０および学習モデル５２を、含まれる人物３２の数に加えて、画像３０における人物３２の位置および密度の少なくとも一方を更に含む推定結果４６を出力するモデルとしてもよい。この場合、本実施形態の物体数推定装置２０は、上記効果に加えて、画像３０に含まれる人物３２の密度、および、画像３０における人物３２の位置、の少なくとも一方を、高精度に推定することができる。

（第２の実施形態）
第２の実施形態では、基準学習モデル５０として、特定の教師画像を用いて学習した学習モデルを用いる場合を説明する。

なお、第１の実施形態と同じ機能および構成の部分には、同じ符号を付与し、詳細な説明を省略する。

図１１は、本実施形態の物体数推定システム１１の一例を示す模式図である。

物体数推定システム１１は、物体数推定装置２１と、通信部１０Ａと、撮影部１０Ｂと、ＵＩ部１０Ｃと、を備える。物体数推定装置２１と、通信部１０Ａ、撮影部１０Ｂ、およびＵＩ部１０Ｃとは、データまたは信号を授受可能に接続されている。

物体数推定装置２１は、記憶部２０Ｂと、処理部２１Ａと、を備える。物体数推定装置２１は、処理部２０Ａに代えて処理部２１Ａを備える点以外は、上記実施形態の物体数推定装置２０と同様である。

処理部２１Ａは、取得部２０Ｃと、設定部２０Ｄと、出力制御部２１Ｅと、受付部２０Ｆと、推定部２１Ｇと、学習部２１Ｈと、を備える。

学習部２１Ｈは、基準学習モデル５０を学習する。学習部２１Ｈは、教師画像と、教師画像を互いに異なる複数の局所領域サイズの各々に縮小した縮小画像の各々から推定された物体数と、の対応を示す教師データを用いて、該教師画像から推定結果４６を導出するための基準学習モデル５０を学習する。

教師画像は、物体の位置情報および物体の存在確率分布を示す分布情報を含む画像である。図１２は、教師画像６０の一例を示す模式図である。図１２には、教師画像６０の一例として、教師画像６０Ａおよび教師画像６０Ｂを示した。

図１２に示すように、教師画像６０は、人物３２の位置情報６２と、分布情報６４と、を含む。位置情報６２は、教師画像６０に含まれる人物３２の、画像３０における位置を示す情報である。分布情報６４は、人物３２の存在確率分布を示す情報である。図１２には、分布情報６４をガウシアン分布で示した形態を一例として示した。また、図１２には、人物３２の特定に用いる部位の一例である頭部の存在確率を示す分布情報６４を、ガウシアン分布で表した例を示した。

例えば、学習部２１Ｈは、教師画像６０と、教師画像６０を互いに異なる複数の局所領域サイズの各々に縮小した縮小画像の各々から推定された物体数と、の対応を示す教師データを予め記憶部２０Ｂへ記憶する。なお、教師画像６０に対応する分布情報６４の縮小画像は、縮小前と縮小後とで含まれる画素の総和値が変わらないように縮小された画像である。

そして、学習部２１Ｈは、該教師データを用いて、公知の学習方法により、基準学習モデル５０を学習する（図３参照）。

出力制御部２１Ｅ、および推定部２１Ｇは、基準学習モデル５０として、学習部２１Ｈで学習された基準学習モデル５０を用いる点以外は、上記第１の実施形態と同様の処理を実行すればよい。

すなわち、推定部２１Ｇは、学習部２１Ｈの学習により得られた基準学習モデル５０を学習モデル５２に再構築すればよい。そして、推定部２１Ｇは、再構築した学習モデル５２と画像３０とを用いて、画像３０に含まれる物体数を推定すればよい。

ここで、図１２に示すように、教師画像６０は、人物３２の存在確率分布を示す分布情報６４を含む。具体的には、教師画像６０の人物３２は、一様なガウシアン分布によってぼかされた状態となっている。このため、ガウシアン分布によってぼかされた状態となっている分布情報６４と、該教師画像６０の実画像と、の間には、差異が生じた状態となる。この差異は、基準学習モデル５０に悪影響を与える場合があると考えられる。

しかし、本実施形態では、物体数推定装置２１は、画像３０に応じて設定された局所領域サイズの局所領域４０ごとに、画像３０に含まれる人物３２の物体数を推定する。このため、本実施形態の物体数推定装置２１は、縮小された分布情報６４を用いて学習することで、ぼかしの影響を受けにくくなる。従って、本実施形態の物体数推定装置２１は、上記実施形態の効果に加えて、高精度な学習モデル５０を学習することができ、また、高精度な学習モデル５２を再構成することができる。

次に、上記実施形態の物体数推定装置２０および物体数推定装置２１のハードウェア構成の一例を説明する。

図１３は、上記実施形態の物体数推定装置２０および物体数推定装置２１のハードウェア構成図の一例である。

上記実施形態の物体数推定装置２０および物体数推定装置２１は、ＣＰＵ８６などの制御装置と、ＲＯＭ（ＲｅａｄＯｎｌｙＭｅｍｏｒｙ）８８やＲＡＭ（ＲａｎｄｏｍＡｃｃｅｓｓＭｅｍｏｒｙ）９０やＨＤＤ（ハードディスクドライブ）９２などの記憶装置と、各種機器とのインターフェースであるＩ／Ｆ部８２と、出力情報などの各種情報を出力する出力部８０と、ユーザによる操作を受付ける入力部９４と、各部を接続するバス９６とを備えており、通常のコンピュータを利用したハードウェア構成となっている。

上記実施形態の物体数推定装置２０および物体数推定装置２１では、ＣＰＵ８６が、ＲＯＭ８８からプログラムをＲＡＭ９０上に読み出して実行することにより、上記各部がコンピュータ上で実現される。

なお、上記実施形態の物体数推定装置２０および物体数推定装置２１で実行される上記各処理を実行するためのプログラムは、ＨＤＤ９２に記憶されていてもよい。また、上記実施形態の物体数推定装置２０および物体数推定装置２１で実行される上記各処理を実行するためのプログラムは、ＲＯＭ８８に予め組み込まれて提供されていてもよい。

また、上記実施形態の物体数推定装置２０および物体数推定装置２１で実行される上記処理を実行するためのプログラムは、インストール可能な形式または実行可能な形式のファイルでＣＤ−ＲＯＭ、ＣＤ−Ｒ、メモリカード、ＤＶＤ（ＤｉｇｉｔａｌＶｅｒｓａｔｉｌｅＤｉｓｋ）、フレキシブルディスク（ＦＤ）等のコンピュータで読み取り可能な記憶媒体に記憶されてコンピュータプログラムプロダクトとして提供されるようにしてもよい。また、上記実施形態の物体数推定装置２０および物体数推定装置２１で実行される上記処理を実行するためのプログラムを、インターネットなどのネットワークに接続されたコンピュータ上に格納し、ネットワーク経由でダウンロードさせることにより提供するようにしてもよい。また、上記実施形態の物体数推定装置２０および物体数推定装置２１で実行される上記処理を実行するためのプログラムを、インターネットなどのネットワーク経由で提供または配布するようにしてもよい。

なお、上記には、本発明の実施形態を説明したが、上記実施形態は、例として提示したものであり、発明の範囲を限定することは意図していない。この新規な実施形態は、その他の様々な形態で実施されることが可能であり、発明の要旨を逸脱しない範囲で、種々の省略、置き換え、変更を行うことができる。この実施形態やその変形は、発明の範囲や要旨に含まれるとともに、特許請求の範囲に記載された発明とその均等の範囲に含まれる。

１０、１１物体数推定システム
２０、２１物体数推定装置
２０Ｃ取得部
２０Ｄ設定部
２０Ｅ、２１Ｅ出力制御部
２０Ｆ受付部
２０Ｇ、２１Ｇ推定部
５０基準学習モデル
５２学習モデル

Claims

画像を取得する取得部と、
前記画像に応じて、前記画像における物体数推定単位である局所領域サイズを設定する設定部と、
設定された前記局所領域サイズの局所領域ごとに前記画像に含まれる物体数を推定する推定部と、
を備える物体数推定装置。
前記推定部は、
前記画像に対する畳み込み演算の繰返しによって、前記画像における前記局所領域サイズの領域の物体数の推定結果を導出するための学習モデル、前記画像、及び設定された前記局所領域サイズを用いて、前記画像に含まれる物体数を推定する、
請求項１に記載の物体数推定装置。
前記推定部は、
前記画像に対する畳み込み演算の繰返しによって、前記画像から互いに異なる複数の前記局所領域サイズの局所領域の各々の前記推定結果を導出するための基準学習モデルを、設定された前記局所領域サイズの局所領域の前記推定結果を導出するための前記学習モデルに再構築し、再構築した前記学習モデルと前記画像とを用いて、前記画像に含まれる物体数を推定する、
請求項２に記載の物体数推定装置。
物体の位置情報および物体の存在確率分布を示す分布情報を含む教師画像と、前記教師画像を互いに異なる複数の前記局所領域サイズの各々に縮小した縮小画像の各々から推定された物体数と、の対応を示す教師データを用いて、前記教師画像から前記推定結果を導出するための前記基準学習モデルを学習する学習部を備え、
前記推定部は、
前記基準学習モデルを、設定された前記局所領域サイズの前記縮小画像から推定された前記推定結果を導出するための前記学習モデルに再構築し、再構築した前記学習モデルと前記画像とを用いて前記画像に含まれる物体数を推定する、
請求項３に記載の物体数推定装置。
前記画像に含まれる物体数を、互いにサイズの異なる複数の前記局所領域サイズの局所領域ごとに推定した前記推定結果の一覧を含む出力画像を出力する出力制御部と、
前記出力画像に含まれる前記推定結果のユーザによる選択を受付ける受付部と、
を備え、
前記設定部は、
受付けた前記推定結果に対応する前記局所領域サイズを設定する、
請求項２〜請求項４の何れか１項に記載の物体数推定装置。
前記設定部は、
前記画像に含まれる物体数を、互いにサイズの異なる複数の前記局所領域サイズの局所領域ごとに推定した前記推定結果の内、前記画像に含まれる予め取得した正解の物体数に最も近い前記推定結果に対応する前記局所領域サイズを設定する、
請求項２〜請求項５の何れか１項に記載の物体数推定装置。
前記設定部は、
互いにサイズの異なる複数の前記局所領域サイズを設定し、
前記推定部は、
前記画像に含まれる物体数を、設定された複数の前記局所領域サイズの領域ごとに推定した結果の重み付け和を、前記推定結果として推定する、
請求項２〜請求項６の何れか１項に記載の物体数推定装置。
前記設定部は、
前記画像内の互いに異なる領域に互いに異なる前記局所領域サイズを設定し、
前記推定部は、
前記画像における前記領域ごとに、前記領域に設定された前記局所領域サイズの局所領域ごとの物体数を推定する、
請求項１〜請求項７の何れか１項に記載の物体数推定装置。
コンピュータによって実行される物体数推定方法であって、
画像を取得するステップと、
前記画像に応じて、前記画像における物体数推定単位である局所領域サイズを設定するステップと、
設定された前記局所領域サイズの局所領域ごとに前記画像に含まれる物体数を推定するステップと、
を含む物体数推定方法。
画像を取得するステップと、
前記画像に応じて、前記画像における物体数推定単位である局所領域サイズを設定するステップと、
設定された前記局所領域サイズの局所領域ごとに前記画像に含まれる物体数を推定するステップと、
をコンピュータに実行させるための物体数推定プログラム。