JP2023133962A

JP2023133962A - 画像処理装置、画像処理方法及びプログラム

Info

Publication number: JP2023133962A
Application number: JP2022039245A
Authority: JP
Inventors: 調石川; Mitsugi Ishikawa
Original assignee: Canon Inc
Current assignee: Canon Inc
Priority date: 2022-03-14
Filing date: 2022-03-14
Publication date: 2023-09-27

Abstract

【課題】画像内の所定物体の数を推定する場合に、推定の精度を向上させつつ装置に係る負荷を軽減させる。【解決手段】画像と前記画像の撮像条件を取得する取得手段と、前記画像上の検出領域内の所定物体の位置及びサイズを検出する検出手段と、前記撮像条件に基づいて、前記検出領域の範囲を決定する決定手段と、前記検出手段による検出結果に基づいて、前記画像上に複数の矩形領域を設定する設定手段と、前記画像に対し前記矩形領域毎に前記所定物体の数を推定する処理を行う推定手段と、を有する。【選択図】図５

Description

本発明は、画像解析の技術に関する。

近年、ネットワークカメラ等の撮像機器で撮像した画像を解析することで、画像内の人物の数を計測する技術が注目されている。この技術は、イベント会場の混雑度の把握やマーケティング戦略に活用されることが期待されている。この技術に用いられる方法として、背景差分やパターンマッチングによる人体の検出手段で検出した人物の数をカウントする方法や、機械学習によって人物の数を回帰的に推定する方法がある。特許文献１には、人体の検出手段によって人物の数をカウントする方法と、機械学習によって得た回帰器を用いて人物の数を推定する方法とを組み合わせて、画像内の人数を計測することが記載されている。

特開２０１８－２２３４０号公報

機械学習によって人数推定を行う方法では、画像を人数推定を行う単位である小領域に分割し、当該小領域毎に人数推定を行う。このとき小領域のサイズに対する人体のサイズの比率をほぼ同一にすることで、人数推定の精度が向上する。しかしながら、画像上の位置に応じたサイズの小領域を設定するために、人体の位置やサイズを検出する工程が必要となるため、処理に係る負荷が増加するという課題がある。

そこで本発明は、画像内の所定物体の数を推定する場合に、推定の精度を向上させつつ装置に係る負荷を軽減させることを目的とする。

本発明の画像処理装置は、画像と前記画像の撮像条件を取得する取得手段と、前記画像上の検出領域内の所定物体の位置及びサイズを検出する検出手段と、前記撮像条件に基づいて、前記検出領域の範囲を決定する決定手段と、前記検出手段による検出結果に基づいて、前記画像上に複数の矩形領域を設定する設定手段と、前記画像に対し前記矩形領域毎に前記所定物体の数を推定する処理を行う推定手段と、を有することを特徴とする。

本発明によれば、画像内の所定物体の数を推定する場合に、推定の精度を向上させつつ処理に係る負荷を軽減させることができる。

画像処理システムの全体構成例を示す図である。各装置のハードウェア構成例を示す図である。各装置の機能構成例を示す図である。本実施形態に係る処理を説明するためのシーケンス図である。解析処理の詳細を示すフローチャートである。解析対象の画像の例を示す図である。頭部検出領域の例を示す図である。矩形領域の例を示す図である。

以下、本発明を実施するための形態について図面を用いて説明する。

図１は、本実施形態に係る画像処理システム１００の全体構成例を示す。本実施形態では、イベント会場やスタジアムのような人が多く集まる場所を撮像した画像を解析して、当該画像内の人物の数を計測する方法を例に説明する。

画像処理システム１００は、カメラ装置１０１、端末装置１０２、及びサーバ装置１０３を備えている。これらの各装置は、ネットワーク１０４を介して相互に接続されている。ネットワーク１０４は、インターネットでもよく、ローカルネットワークでもよい。カメラ装置１０１は、パンチルトズームカメラである。カメラ装置１０１は、画像を定期的に撮像し、撮像した画像をサーバ装置１０３に送信する。端末装置１０２は、カメラ機能を有するスマートフォンであり、ユーザの指示により画像を撮像し、撮像した画像をサーバ装置１０３に送信する。また、端末装置１０２は、サーバ装置１０３が管理する解析結果の取得指示を送信して、サーバ装置１０３から解析結果を受信し、受信した解析結果の表示を行う。サーバ装置１０３は、カメラ装置１０１や端末装置１０２から送信された画像を受信し、画像内の人物の数を推定するための解析を行い、解析結果を管理する。なお、画像処理システム１００は、カメラ装置１０１及び端末装置１０２のうちの一方を含む構成でもよく、他のカメラ装置や端末装置を含む構成でもよい。本実施形態では、サーバ装置１０３を画像処理装置とし、カメラ装置１０１及び端末装置１０２を撮像装置として説明するが、サーバ装置１０３を撮像装置と画像処理装置が一体化した装置としてもよい。

図２は、画像処理システム１００が備える各装置のハードウェア構成例を示す。
図２（ａ）は、カメラ装置１０１のハードウェア構成例を示す。カメラ装置１０１は、ＣＰＵ２００、ＲＡＭ２０１、ＲＯＭ２０２、ネットワークＩ／Ｆ２０３、及び入出力Ｉ／Ｆ２０４を備えている。これらの各部は、バス２０８を介して相互に接続されている。ＣＰＵ（ＣｅｎｔｒａｌＰｒｏｃｅｓｓｉｎｇＵｎｉｔ）２００は、カメラ装置１０１の全体を統括的に制御する。ＲＡＭ（ＲａｎｄａｍＡｃｃｅｓｓＭｅｍｏｒｙ）２０１は、ＣＰＵ２００の主メモリ、及びワークメモリ等の一時記憶領域として用いられる。ＲＯＭ（ＲｅａｄＯｎｌｙＭｅｍｏｒｙ）２０２は、カメラ装置１０１に実行されるプログラム、及びデバイスドライバ等を格納している。カメラ装置１０１のＣＰＵ２００がＲＯＭ２０２に格納されているプログラムを実行することで、図４（ａ）に示すシーケンス図におけるカメラ装置１０１の処理が実現する。ネットワークＩ／Ｆ（インタフェース）２０３は、ネットワーク１０４に接続されており、ネットワーク１０４に接続される他の装置との通信に用いられる。

入出力Ｉ／Ｆ（インタフェース）２０４は、カメラ部２０５を接続している。カメラ部２０５は、撮像光学系、ＲＧＢセンサ等の撮像素子、及びその制御系から構成され、被写体の像を撮像して、撮像信号への変換を行う。入出力Ｉ／Ｆ２０４は、カメラ部２０５からの撮像信号をＣＰＵ２００が処理可能な形式に変換してＣＰＵ２００に入力する。また、入出力Ｉ／Ｆ２０４は、加速度センサ２０６とジャイロセンサ２０７を接続している。加速度センサ２０６は、カメラ部２０５の３軸方向の加速度を計測するセンサである。ジャイロセンサ２０７は、カメラ部２０５の３軸方向の角速度を計測するセンサである。ＣＰＵ２００は、加速度センサ２０６やジャイロセンサ２０７から入力された測定結果を用いて、カメラ部２０５の移動、位置、姿勢及び向きに関する情報を取得する。なお、カメラ部２０５の移動、位置、姿勢及び向きに関する情報を取得する方法は、加速度センサ２０６やジャイロセンサ２０７を用いる方法に限られず、パンチルトズームの設定情報を用いる方法等、他の方法でも構わない。

図２（ｂ）は、端末装置１０２のハードウェア構成例を示す。端末装置１０２は、ＣＰＵ２１０、ＲＡＭ２１１、ＲＯＭ２１２、ネットワークＩ／Ｆ２１３、ストレージＩ／Ｆ２１４、ディスプレイＩ／Ｆ２１６、及び入出力Ｉ／Ｆ２１８を備えている。これらの各部は、バス２２２を介して相互に接続されている。入出力Ｉ／Ｆ２１８は、カメラ部２１９、加速度センサ２２０、及びジャイロセンサ２２１を接続している。ＣＰＵ２１０、ＲＡＭ２１１、ＲＯＭ２１２、ネットワークＩ／Ｆ２１３、入出力Ｉ／Ｆ２１８、カメラ部２１９、加速度センサ２２０、及びジャイロセンサ２２１は、図２（ａ）で説明したカメラ装置１０１の各部と同様である。端末装置１０２のＣＰＵ２１０がＲＯＭ２１２に格納されているプログラムを実行することで、図４に示すシーケンス図における端末装置１０２の処理が実現する。

ストレージＩ／Ｆ２１４は、ストレージ２１５を接続している。ＣＰＵ２１０は、ストレージＩ／Ｆ２１４を介してストレージ２１５との間でデータの入出力を行う。ストレージ２１５は、内部で稼働するプログラム等を格納している。ＣＰＵ２１０は、電源投入時に必要な情報をストレージ２１５からＲＡＭ２１１に読み込む。ディスプレイＩ／Ｆ２１６は、ディスプレイ２１７を接続している。ディスプレイ２１７は、タッチパネル付きの液晶画面である。ディスプレイＩ／Ｆ２１６は、ＣＰＵ２１０が生成する画面信号をディスプレイ２１７が出力可能な信号に変換する。また、ディスプレイＩ／Ｆ２１６は、ユーザがディスプレイ２１７を通じて操作した内容をＣＰＵ２１０に出力する。

図２（ｃ）は、サーバ装置１０３のハードウェア構成例を示す。サーバ装置１０３は、ＣＰＵ２３０、ＲＡＭ２３１、ＲＯＭ２３２、ネットワークＩ／Ｆ２３３、及びストレージＩ／Ｆ２３４を備えている。これらの各部は、バス２３６を介して相互に接続されている。ＣＰＵ２３０は、サーバ装置１０３の全体を統括的に制御する。ＲＡＭ２３１は、ＣＰＵ２３０の主メモリ、及びワークメモリ等の一時記憶領域として用いられる。ＲＯＭ２３２は、サーバ装置１０３に実行されるプログラム等を格納している。サーバ装置１０３のＣＰＵ２３０がＲＯＭ２３２に格納されているプログラムを実行することで、図４に示すシーケンス図におけるサーバ装置１０３の処理、及び図５に示すフローチャートの処理が実現する。ストレージＩ／Ｆ２３４は、ストレージ２３５を接続している。ＣＰＵ２３０は、ストレージＩ／Ｆ２３４を介してストレージ２３５との間でデータの入出力を行う。ストレージ２３５は、内部で稼働するプログラム、後述する各種の処理に必要な情報、及び解析結果等を格納している。
なお、以上の各装置と同等の機能を実現するソフトウェアにより、ハードウェア装置の代替として構成することもできる。

図３は、画像処理システム１００が備える各装置の機能構成例を示す。
図３（ａ）は、カメラ装置１０１の機能構成例を示す。カメラ装置１０１は、ＣＰＵ２００がＲＯＭ２０２等に格納されているプログラムを実行することにより、撮像部３００、画像処理部３０１、及び通信部３０２として機能する。
撮像部３００は、入出力Ｉ／Ｆ２０４を介してカメラ部２０５から撮像信号を受け取り、ＲＧＢ画像を生成し、画像処理部３０１に出力する。ＲＧＢ画像は、画像を構成する各要素（画素）の色をＲＧＢで表したもので、各画素がＲＧＢの画素値を有している。
画像処理部３０１は、撮像部３００から受け取ったＲＧＢ画像から、Ｈ．２６５／ＨＥＶＣ符号化方式でエンコードされた画像データを生成する。また、画像処理部３０１は、撮像時に用いたズーム情報や画角情報等の撮像条件に関する情報をメタデータとして、画像データに付与して、通信部３０２に出力する。
通信部３０２は、メタデータが付与された画像データを、通信可能なデータに変換し、ネットワークＩ／Ｆ２０３を介してサーバ装置１０３に送信する。

図３（ｂ）は、端末装置１０２の機能構成例を示す。端末装置１０２は、ＣＰＵ２１０がＲＯＭ２１２等に格納されているプログラムを実行することにより、撮像部３１０、画像処理部３１１、通信部３１２、操作部３１３、及び表示部３１４として機能する。
撮像部３１０は、カメラ装置１０１の撮像部３００と同様の機能を有する。本実施形態において、端末装置１０２は、パノラマモードでの撮影が可能である。パノラマモードでは、画像処理部３１１が、装置本体を水平方向に回転させながら撮像されたＲＧＢ画像を合成して、パノラマ画像を生成する。画像処理部３１１は、パノラマ画像から、Ｈ．２６５／ＨＥＶＣ符号化方式でエンコードされた画像データを生成する。また、画像処理部３１１は、パノラマ撮像時の撮像条件に関する情報をメタデータとして、画像データに付与する。具体的には、加速度センサ２２０やジャイロセンサ２２１から入力された測定結果に基づき、パノラマ撮像時のカメラ部２１９の各方向に対する加速度に関する情報や、パノラマ撮像時の方位角に関する情報を取得し、画像データに付与する。ここで方位角は、カメラ部２１９の水平面上の向きを表す。なお、メタデータとしては、上記に限られず、パノラマ撮像時のカメラ部２１９の移動、位置、及び姿勢に関する情報を適宜用いることが可能である。また、カメラ装置１０１の画像処理部３０１と同様に、撮像時に用いたズーム情報や画角情報等をメタデータとして用いてもよい。そして、画像処理部３１１は、メタデータが付与された画像データを、通信部３１２に出力する。

通信部３１２は、メタデータが付与された画像データを、通信可能なデータに変換し、ネットワークＩ／Ｆ２１３を介してサーバ装置１０３に送信する。また、通信部３１２は、操作部３１３から解析結果の取得指示を受け取り、通信可能なデータに変換し、ネットワークＩ／Ｆ２１３を介してサーバ装置１０３に送信する。また、通信部３１２は、サーバ装置１０３からネットワークＩ／Ｆ２１３を介して解析結果を受け取り、表示部３１４に出力する。

操作部３１３は、ユーザの操作入力をディスプレイＩ／Ｆ２１６介して受け取り、受け取った操作入力を解釈して得られた各種の指示を各機能部に出力する。具体的には、操作部３１３は、ディスプレイ２１７に表示されたＵＩ画面を利用したユーザの操作入力により、パノラマ画像の撮像指示、画像データの送信指示、解析結果の取得指示等を受け付ける。ここでＵＩ画面とは、画像内の人物の数を計測するためのアプリケーションの画面である。
表示部３１４は、ユーザの操作入力を受け付けるためのＵＩ画面を、ディスプレイＩ／Ｆ２１６を介し、ディスプレイ２１７に表示する。また、表示部３１４は、通信部３１２から受け取った解析結果を、ディスプレイ２１７に表示する。
本実施形態では、端末装置１０２がパノラマモードで撮像したパノラマ画像を解析対象の画像とする。なお、パノラマ画像は、パノラマモードが搭載されたデジタルカメラ等の撮像装置により撮像されてもよい。

図３（ｃ）は、サーバ装置１０３の機能構成例を示す。サーバ装置１０３は、ＣＰＵ２３０がＲＯＭ２３２等に格納されているプログラムを実行することにより、通信部３２０、データ取得部３２１、頭部検出領域決定部３２２、及び頭部検出部３２３として機能する。また、サーバ装置１０３は、解析パラメタ算出部３２４、矩形領域分割部３２５、人数算出部３２６、及び解析結果管理部３２７として機能する。
本実施形態において、サーバ装置１０３は、カメラ装置１０１や端末装置１０２から解析対象の画像を取得して、画像を人数推定を行う単位である矩形領域に分割する。そして、画像を矩形領域毎に学習モデルに入力して得られる出力結果に基づき、その矩形領域に映る人物の数を推定する。ここでサーバ装置１０３は、矩形領域のサイズに対する人体の所定部位のサイズの比率がほぼ同一になるように、画像上の位置に応じたサイズの矩形領域を設定する。これにより、人数推定の精度が向上する。そこでサーバ装置１０３は、人数推定を行う前に、画像に対し人体の所定部位の位置やサイズを検出する処理を行う。ここで行う人体の所定部位を検出する処理は、画像上の位置に応じた適切なサイズの矩形領域を設定することを目的とするものであるから、必ずしも画像全体に対して行う必要はない。そこでサーバ装置１０３は、画像に付与されるメタデータに基づき、画像の一部から人体の所定部位を検出するように決定する。これにより、処理に係る負荷を軽減させることが可能になる。なお、検出する所定部位は、人体の全体又はその一部等、予め定められた部位であれば、特に限定されないが、本実施形態では頭部とする。

以下、サーバ装置１０３の各機能部について説明する。
通信部３２０は、ネットワークＩ／Ｆ２３３を介してカメラ装置１０１や端末装置１０２から画像データとメタデータを受信する。また、通信部３２０は、ネットワークＩ／Ｆ２３３を介して端末装置１０２から解析結果の取得指示を受信する。また、通信部３２０は、ネットワークＩ／Ｆ２３３を介して取得指示に応じた解析結果を、端末装置１０２に送信する。
データ取得部３２１は、通信部３２０で受信した画像データとメタデータを解析可能なデータ形式に変換する。
頭部検出領域決定部３２２は、取得したメタデータに基づいて画像から頭部を検出する領域（以下、頭部検出領域と呼ぶ）の範囲を決定する。本実施形態において、頭部検出領域決定部３２２は、画像内の人物が同一平面上に存在している可能性が高いと判断される場合には、画像の一部を頭部検領域に決定する。一方で、画像内の人物が異なる複数の平面上に存在している可能性が高いと判断される場合には、画像全体を頭部検出領域に決定する。
頭部検出部３２３は、頭部検出領域決定部３２２で決定された頭部検出領域に対して頭部検出処理を行い、頭部の位置（ｘ，ｙ）とサイズを検出する。頭部検出処理には、パターンマッチングやディープラーニング等の機械学習の各種の手法が用いられる。

解析パラメタ算出部３２４は、頭部検出部３２３での頭部の位置やサイズの検出結果に基づいて解析パラメタを算出する。解析パラメタは、画像内の頭部が存在すると想定される平面の位置や勾配を表すパラメタである。ここでは、画像内の頭部が存在する平面が認識できればよいため、画像内のすべての人物の頭部を検出する必要はない。そこで本実施形態では、頭部検出領域決定３２２で決定された頭部検出領域の範囲に基づき、画像の一部から検出された頭部の位置やサイズに基づき解析パラメタを算出する。
矩形領域分割部３２５は、解析パラメタ算出部３２４で算出された解析パラメタを用いて、矩形領域のサイズに対する頭部のサイズの比率がほぼ同一になるように、画像上の位置に応じたサイズの矩形領域を設定する。これにより、人数の推定精度が向上する。そして、矩形領域の画像を固定サイズにリサイズすることで、人数算出部３２６にて学習モデルに適用する際の入力データを取得する。

人数算出部３２６は、矩形領域の画像を学習モデルに順次入力することで各矩形領域内の人数を推定し、すべての矩形領域で推定された人数を合算して、解析結果管理部３２７に出力する。具体的には、人数算出部３２６は、学習フェーズでは、人数が既知の大量の画像を学習データとして、サポートベクターマシンや深層学習等既知の機械学習手法に基づいて学習モデルを学習しておく。そして、推定フェーズでは、矩形領域の画像を学習済みの学習モデルに入力して得られる出力結果に基づき、矩形領域内の人数を推定する。本実施形態では、学習モデルを適用して画像内の人数を推定する方法を用いるが、機械学習によって画像内の人数を回帰的に推定する方法であれば、これに限定されない。なお、人数算出部３２６が算出した人数は、整数とは限らず、整数を除く実数であってもよい。
解析結果管理部３２７は、人数算出部３２６から画像内の人数の推定結果を受け取り、解析日時と、解析ＩＤとを、解析結果と関連付けてストレージＩ／Ｆ２３４を介してストレージ２３５に格納する。また、解析結果管理部３２７は、通信部３２０から解析結果の取得指示を受け取り、ストレージＩ／Ｆ２３４を介し、ストレージ２３５から解析結果を取得し、通信部３２０へ出力する。

次いで、画像処理システム１００で実行される処理の流れについて説明する。
画像処理システム１００は、画像解析機能と解析結果取得機能を有する。画像解析機能は、サーバ装置１０３がカメラ装置１０１や端末装置１０２から受信した画像データを解析して、解析結果をサーバ装置１０３のストレージ２３５に格納する機能である。解析結果取得機能は、端末装置１０２に対するユーザからの指示に応じて、サーバ装置１０３が解析結果を端末装置１０２のディスプレイ２１７に表示させる機能である。以下、これら各機能における処理の流れについて説明する。

図４（ａ）は、画像処理システム１００の画像解析機能における処理を示すシーケンス図である。以下、シーケンス図、及びフローチャートの各工程（ステップ）は、それら符号の先頭にＳ（ステップ）を付与して説明する。なお、以下では、図４（ａ）の処理を、端末装置１０２の処理として説明するが、カメラ装置１０１の処理としても構わない。
Ｓ４００において、端末装置１０２の撮像部３１０は、カメラ部２１９を用いて撮像処理を行う。本実施形態では、端末装置１０２の画像処理部３１１が、端末装置１０２を水平方向に回転させることで撮像されたＲＧＢ画像を合成することでパノラマ画像を生成する。また、端末装置１０２の画像処理部３１１は、加速度センサ２２０やジャイロセンサ２２１の測定結果から、パノラマ撮像時の撮像条件を取得する。また、カメラ設定からズーム情報や画角情報を取得する。画像処理部３１１は、これら取得した情報をメタデータとして、送信可能に変換された画像データに付与する。なお以下では、画像データに付与されたメタデータが、パノラマ撮像時の方位角と、パノラマ撮像時の各方位角でのカメラ部２１９の垂直方向の加速度であるとして説明する。

Ｓ４０１において、端末装置１０２の通信部３１２は、Ｓ４００で撮像した画像とメタデータをサーバ装置１０３に送信する。図６（ａ）、（ｂ）は、本工程で送信される画像の例を示す。図６（ａ）に示すように、画像には人６００と人６００が立っている平面６０１が存在する。また、図６（ａ）、（ｂ）に示す画像には、メタデータとして、パノラマ撮像時の方位角と、各方位角でのカメラ部２１９の垂直方向の加速度が付与されている。図６（ａ）は、方位角０°から６０°で撮像されたパノラマ画像を示す。図６（ｂ）は、方位角０°から１８０°で撮像されたパノラマ画像を示す。なお、撮像光学系やＲＧＢセンサの画角があるため、パノラマ画像の撮影範囲はパノラマ撮像時の方位角とは実際には一致しないが、簡単のために一致しているものとして以下の説明をする。
Ｓ４０２において、サーバ装置１０３は、Ｓ４０１で端末装置１０２から送信された画像とメタデータを受信して解析処理を行う。

次いで、図５（ａ）を用いてＳ４０２の解析処理について詳細に説明する。
Ｓ５００において、サーバ装置１０３の通信部３２０は、端末装置１０２から画像データとメタデータを受信する。また、Ｓ５００において、サーバ装置１０３のデータ取得部３２１は、画像データとメタデータを解析可能なデータ形式に変換する。
Ｓ５０１において、サーバ装置１０３は、頭部検出領域の範囲を決定する。

次いで、図５（ｂ）を用いてＳ５０１の頭部検出領域の範囲を決定する処理について詳細に説明する。
Ｓ５１０において、頭部検出領域決定部３２２は、Ｓ５００で取得したメタデータに含まれるパノラマ撮像時の方位角の範囲が閾値未満であるという条件を満たすか否かを判定する。頭部検出領域決定部３２２が上記の条件を満たすと判定した場合（Ｓ５１０のＹＥＳ）、処理はＳ５１１に移行する。一方で、頭部検出領域決定部３２２が上記の条件を満たさないと判定した場合（Ｓ５１０のＮＯ）、画像内に勾配の異なる平面が存在している可能性が高いと判断して、処理はＳ５１３に移行する。ここで、方位角の範囲の閾値は、画像処理システム１００のユーザが事前に設定可能であり、本実施形態では６０°とする。なお、方位角の範囲を用いる方法に代えて、ズーム情報や画角情報等のカメラ設定を用いる方法でもよい。

Ｓ５１１において、頭部検出領域決定部３２２は、Ｓ５００で取得したメタデータに含まれるパノラマ撮像時のカメラ部２１９の垂直方向（上下方向）の加速度の絶対値の最大値が閾値未満であるという条件を満たすか否かを判定する。頭部検出領域決定部３２２が上記の条件を満たすと判定した場合（Ｓ５１１のＹＥＳ）、処理はＳ５１２へ移行する。一方で、頭部検出領域決定部３２２が所定の条件を満たさないと判定した場合（Ｓ５１１のＮＯ）、画像内にパノラマ撮像時の手振れの影響による地面の歪みが存在している可能性が高いと判断して、処理はＳ５１３に移行する。ここで、加速度の絶対値の最大値の閾値は、画像処理システム１００のユーザが事前に設定することが可能であり、本実施形態では０．１ｍ／ｓ²とする。なお、加速度の絶対値を用いる方法に代えて、加速度変化や角速度変化等他の条件を用いる方法でもよい。

Ｓ５１２において、頭部検出領域決定部３２２は、画像の縦幅と横幅、方位角の情報に基づき、画像の一部を頭部検出領域に決定する。具体的には、画像の横幅の中心から所定の方位角にあたる画素数分の領域を、頭部検出領域７００に決定する。図７（ａ）は、Ｓ５１２の処理により、図６（ａ）の画像に対して決定された頭部検出領域の例を示す。例えば、図６（ａ）の画像の縦幅が３００ｐｘ、横幅が６００ｐｘ、方位角が０°から６０°の場合、図７（ａ）のように、方位角１５°から４５°にあたる、横幅１５０ｐｘから４５０ｐｘの間の領域が、頭部検出領域に決定される。但し、頭部検出領域の決定方法は、これに限るものではなく画像内の他の部分を頭部検出領域に決定してもよい。例えば、画像の横幅の中心だけでなく、画像の縦幅の中心を利用してもよい。また、メタデータに含まれる撮像条件（例えば、ズーム情報）に基づいて、頭部検出領域の範囲を段階的に変更するようにしてもよい。
以上のように、サーバ装置１０３は、パノラマ撮像時の方位角の範囲が閾値未満であるという条件を満たし、且つカメラ部２１９の垂直方向の加速度の絶対値の最大値が閾値未満であるという条件を満たした場合に、頭部検出領域を画像の一部に決定する。なお、上記条件のうちの一方の条件を満たした場合に、頭部検出領域を画像の一部に決定してもよい。

Ｓ５１３において、頭部検出領域決定部３２２は、画像の全体を頭部検出領域として決定する。図７（ｂ）は、Ｓ５１３の処理により、図６（ｂ）の画像に対して決定された頭部検出領域の例を示す。例えば、図６（ｂ）の画像の縦幅が３００ｐｘ、横幅が１８００ｐｘ、方位角が０°から１８０°の場合、図７（ｂ）のように、画像全体が頭部検出領域に決定される。

Ｓ５１４において、頭部検出部３２３は、前段の処理で決定された頭部検出領域内の全人物の頭部を検出する。ここで、頭部の検出結果は、頭部のＸ座標、頭部のＹ座標、及び頭部のサイズ（横幅と縦幅の平均値）のデータを頭部の個数分含むリストである。
Ｓ５１５において、解析パラメタ算出部３２４は、Ｓ５１４で検出した頭部の個数が基準値以上であるか否かを判定する。解析パラメタ算出部３２４が基準値以上であると判定した場合（Ｓ５１５のＹＥＳ）、処理はＳ５０２に移行し、基準値未満であると判定した場合（Ｓ５１５のＮＯ）、処理はＳ５１６に移行する。

Ｓ５１６において、頭部検出領域決定部３２２は、頭部検出領域を決定し直す。本工程では、前回決定した領域を除外した残りのすべての領域を新たに頭部検出領域に決定してもよく、前回決定した領域を所定量ずらした領域を新たに頭部検出領域に決定してもよい。なお、頭部検出領域を決定し直すかの頭部の個数の基準値は、画像処理システム１００のユーザが事前に設定可能であり、本実施形態では３個とする。
Ｓ５１７の処理は、Ｓ５１４と同様である。
Ｓ５１８において、解析パラメタ算出部３２４は、Ｓ５１７で検出した頭部の個数が基準値以上であるか否かを判定する。解析パラメタ算出部３２４が基準値以上であると判定した場合（Ｓ５１５のＹＥＳ）、処理はＳ５０２に移行し、基準値未満であると判定した場合、Ｓ４０２の解析処理が終了する。

Ｓ５０２において、解析パラメタ算出部３２４は、Ｓ５１４又はＳ５１７で得られた頭部の検出結果に基づいて、下記の式（１）を満たす解析パラメタ（ａ，ｂ，ｃ）を算出する。
但し、各符号は以下を表す。
ａ，ｂ，ｃ：解析パラメタ
ｘ：頭部のＸ座標
ｙ：頭部のＹ座標
ｚ：頭部の横幅と縦幅の平均値
ｎ：検出された頭部の個数

Ｓ５０３において、矩形領域分割部３２５は、Ｓ５０２で算出された解析パラメタに基づいて、画像上の位置に応じたサイズの矩形領域を設定する。本実施形態において、矩形領域分割部３２５は、画像内の頭部がｚ＝ａｘ＋ｂｙ＋ｃで表される平面上に存在していると仮定し、矩形領域内の頭部の個数がなるべく等しくなるように、画像上に矩形領域を設定する。図８（ａ）、（ｂ）は、図６（ａ）、（ｂ）の画像を複数の矩形領域８００に分割した結果を示す。カメラ部２１９に近い手前側の領域では頭部のサイズが大きいため矩形領域が拡大され、カメラ部２１９から遠い奥側の領域では頭部のサイズが小さいため矩形領域が縮小される。図８（ａ）のような画像では、画像内の平面の勾配が小さいため、手前側の領域から奥側の領域に向かって矩形領域の縮小の割合が大きい。一方、図８（ｂ）のような画像では、画像内の平面の勾配が大きいため、手前側の領域から奥側の領域に向かって矩形領域の縮小の割合が小さい。

Ｓ５０４において、人数算出部３２６は、画像をＳ５０３で設定された矩形領域毎に学習モデルに入力して得られる出力結果に基づき、当該矩形領域内の人数を推定し、すべての矩形領域で推定された人数を合算することで、画像内の人数を算出する。また、Ｓ５０４において、解析結果管理部３２７は、解析ＩＤを発行し、発行された解析ＩＤに、画像データと、画像内の人数と、解析時間とを解析結果として紐づけて、解析ＩＤが紐づけられた解析結果を、ストレージ２３５に格納する。以上のようにして、Ｓ４０２の解析処理が終了する。その後図４（ａ）に示す画像解析機能における一連の処理が終了する。

図４（ｂ）は、画像処理システム１００の解析結果取得機能における処理を示すシーケンス図である。
Ｓ４１０において、端末装置１０２の操作部３１３は、ユーザからの操作入力を受け付け、解析結果の取得指示を生成する。
Ｓ４１１において、端末装置１０２の通信部３１２は、解析結果の取得指示をネットワーク１０４を介してサーバ装置１０３に送信する。
Ｓ４１２において、サーバ装置１０３の通信部３２０は、ネットワーク１０４を介して端末装置１０２から解析結果の取得指示を受信する。
Ｓ４１３において、サーバ装置１０３の解析結果管理部３２７は、ストレージ２３５から取得指示された解析結果を取得する。
Ｓ４１４において、サーバ装置１０３の通信部３２０は、ネットワーク１０４を介して端末装置１０２に解析結果を送信する。
Ｓ４１５において、端末装置１０２の通信部３１２は、ネットワーク１０４を介してサーバ装置１０３から解析結果を受信する。
Ｓ４１６において、端末装置１０２の表示部３１４は、取得した解析結果をディスプレイ２１７上に表示させる。その後図４（ｂ）に示す画像解析機能における一連の処理が終了する。

以上のような本実施形態では、画像内の人数を推定する場合に、画像内の人体の位置やサイズを検出して、人数推定を行う単位である小領域のサイズを設定する。このとき、撮像条件が所定の条件を満たす場合には、画像の一部から人体の位置やサイズを検出するように決定する。これにより、人数の推定精度を向上させつつ、処理に係る負荷を軽減させることができる。従って、システムのユーザビリティの低下の抑制や、クラウド環境を利用した解析における、使用するコンピューティングリソースの縮小を実現することが可能になる。

（その他の実施形態）
以上、本発明を実施形態と共に説明したが、上記実施形態は本発明を実施するにあたっての具体化の例を示したものに過ぎず、これらによって本発明の技術的範囲が限定的に解釈されてはならないものである。すなわち、本発明はその技術思想、又はその主要な特徴から逸脱することなく、様々な形で実施することができる。

上述の実施形態では、所定物体の一例としての人物の画像内の数を計測する場合について説明をしたが、計測対象は人物に限定されるものではなく、車や自転車、バイク等であってもよい。また、検出部位としては頭部について述べたが、顔、手等他の部位の検出を行って人物の数を推定する場合にも、本実施形態を適用することも可能である。

本実施形態の変形例として、解析対象の画像としてパノラマ画像を用いたが、全方位カメラで撮像された全方位画像を用いてもよい。サーバ装置１０３は、全方位画像から解析対象の範囲を切り出して、切り出し範囲内に存在する人物の数を推定する。この場合に、サーバ装置１０３は、切り出し範囲が閾値未満の場合、切り出し範囲の画像の一部を頭部検出領域に決定する。

（その他の実施形態）
本発明は、上述の実施形態の１以上の機能を実現するプログラムを、ネットワーク又は記憶媒体を介してシステム又は装置に供給し、そのシステム又は装置のコンピュータにおける１つ以上のプロセッサーがプログラムを読出し実行する処理でも実現可能である。また、１以上の機能を実現する回路（例えば、ＡＳＩＣ）によっても実現可能である。

１０１：カメラ装置、１０２：端末装置、１０３：サーバ装置、１０４：ネットワーク

Claims

画像と前記画像の撮像条件を取得する取得手段と、
前記画像上の検出領域内の所定物体の位置及びサイズを検出する検出手段と、
前記撮像条件に基づいて、前記検出領域の範囲を決定する決定手段と、
前記検出手段による検出結果に基づいて、前記画像上に複数の矩形領域を設定する設定手段と、
前記画像に対し前記矩形領域毎に前記所定物体の数を推定する処理を行う推定手段と、を有することを特徴とする画像処理装置。
前記決定手段は、前記撮像条件が所定の条件を満たす場合、前記検出領域を前記画像の一部にし、前記撮像条件が前記所定の条件を満たさない場合、前記検出領域を前記画像の全体にすることを特徴とする請求項１に記載の画像処理装置。
前記撮像条件が、撮像時の画角情報に関することを特徴とする請求項１又は２に記載の画像処理装置。
前記撮像条件が、撮像時のズーム情報に関することを特徴とする請求項１乃至３の何れか１項に記載の画像処理装置。
前記画像が、撮像装置を水平方向に回転させながら撮像された画像を合成して生成されたパノラマ画像であって、
前記所定の条件が、前記パノラマ画像の撮像時に回転された範囲が閾値未満であることを特徴とする請求項２乃至４の何れか１項に記載の画像処理装置。
前記画像が、撮像装置を水平方向に回転させながら撮像された画像を合成して生成されたパノラマ画像であって、
前記所定の条件が、前記パノラマ画像の撮像時の前記撮像装置の垂直方向の加速度の絶対値が閾値未満であることを特徴とする請求項２乃至５の何れか１項に記載の画像処理装置。
前記決定手段は、前記撮像条件が前記所定の条件を満たす場合、前記検出領域を前記画像の横幅の中心から所定の画素数分にすることを特徴とする請求項２乃至６の何れか１項に記載の画像処理装置。
前記設定手段は、前記矩形領域のサイズに対する前記所定物体のサイズの比率が同一になるように、前記画像上の位置に応じたサイズの前記矩形領域を設定することを特徴とする請求項１乃至７の何れか１項に記載の画像処理装置。
前記設定手段は、前記検出領域内の前記所定物体が存在すると想定される平面を表すパラメタを算出し、前記パラメタに基づいて前記矩形領域を設定することを特徴とする請求項１乃至８の何れか１項に記載の画像処理装置。
前記推定手段は、前記矩形領域の画像を学習モデルに入力して得られる出力結果に基づいて、推定する処理を行うことを特徴とする請求項１乃至９の何れか１項に記載の画像処理装置。
前記決定手段は、前記検出領域から検出された前記所定物体の数が基準値未満であった場合に、前記検出領域の範囲を変更することを特徴とする請求項１乃至１０の何れか１項に記載の画像処理装置。
前記決定手段は、前記検出領域の範囲を変更する場合に、前回決定した前記検出領域の範囲を含まないようにすることを特徴とする請求項１１に記載の画像処理装置。
前記所定物体が、人体であることを特徴とする請求項１乃至１２の何れか１項に記載の画像処理装置。
前記検出手段は、前記所定物体の所定部位を検出することを特徴とする請求項１乃至１３の何れか１項に記載の画像処理装置。
前記所定部位が、人体の頭部であることを特徴とする請求項１４に記載の画像処理装置。
画像と前記画像の撮像条件を取得する取得ステップと、
前記画像上の検出領域内の所定物体の位置及びサイズを検出する検出ステップと、
前記撮像条件に基づいて、前記検出領域の範囲を決定する決定ステップと、
前記検出ステップによる検出結果に基づいて、前記画像上に複数の矩形領域を設定する設定ステップと、
前記画像に対し前記矩形領域毎に前記所定物体の数を推定する処理を行う推定ステップと、
を含むことを特徴とする画像処理方法。
コンピュータを、請求項１乃至１５の何れか１項に記載された画像処理装置の各手段として機能させるためのプログラム。