JP7695083B2

JP7695083B2 - 情報処理装置、情報処理方法、及びプログラム

Info

Publication number: JP7695083B2
Application number: JP2021013600A
Authority: JP
Inventors: 真司山本; 大輔山田
Original assignee: Canon Inc
Current assignee: Canon Inc
Priority date: 2021-01-29
Filing date: 2021-01-29
Publication date: 2025-06-18
Anticipated expiration: 2041-01-29
Also published as: JP2022117094A

Description

本発明は、情報処理装置、情報処理方法、及びプログラムに関する。

人物の行動や状況を検知するため、映像中の人体を検出して人物の位置や人物間の距離を計測する技術が開発されている。特許文献１では、カメラの高さ、俯角、画角、及びカメラのレンズの焦点距離をユーザが入力することにより、画像中の人物位置を三次元座標に変換する方法が開示されている。また特許文献２では、画像の座標と床面二次元位置の対応テーブルをユーザが入力することにより、画像中の人物位置を三次元座標に変換する方法が開示されている。

特開２００２－１９７４６３号公報特許３６３７３６０号公報

しかしながら特許文献１及び特許文献２では、システム設置時にユーザによる入力が必要であるため、ユーザへの負荷が高い。

本発明は、画像内の被写体の位置を別座標系の位置へと変換する際の、ユーザが負担する負荷を軽減することを目的とする。

本発明の目的を達成するために、例えば、一実施形態に係る情報処理装置は以下の構成を備える。すなわち、画像から検出された少なくとも１つ以上の物体について、前記画像における位置を示すための第１の座標系における、前記物体の位置とサイズとを取得する取得手段と、前記取得手段によって取得された前記物体の位置とサイズとに基づいて、前記第１の座標系における位置から前記第１の座標系とは異なる第２の座標系における位置を推定するパラメータを算出する算出手段と、前記パラメータに基づいて、前記画像から検出された少なくとも１つ以上の物体の前記第１の座標系における位置を、前記第２の座標系に変換した位置を出力する出力手段と、を備えることを特徴とする。

画像内の被写体の位置を別座標系の位置へと変換する際の、ユーザが負担する負荷を軽減する。

情報処理装置のハードウェア構成の一例を示す図。情報処理装置の機能構成の一例を示す図。処理対象となる画像の一例を示す図。人体情報を描画する一例を示す図。画像の座標から推定される物体サイズを濃淡で表す図。変換後の座標系における人体と遮蔽物の一例を示す図。変換後の座標系における人体の追尾の軌跡の一例を示す図。遮蔽物マップの一例を示す図。パラメータ生成時のＵＩの一例を示す図。パラメータ生成処理の一例を示すフローチャート。単独判定処理の一例を示すフローチャート。情報処理装置の機能構成の一例を示す図。

以下、添付図面を参照して実施形態を詳しく説明する。なお、以下の実施形態は特許請求の範囲に係る発明を限定するものではない。実施形態には複数の特徴が記載されているが、これらの複数の特徴の全てが発明に必須のものとは限らず、また、複数の特徴は任意に組み合わせられてもよい。さらに、添付図面においては、同一若しくは同様の構成に同一の参照番号を付し、重複した説明は省略する。

［実施形態１］
実施形態１に係る情報処理装置は、画像から検出された被写体の画像上での第１の座標系における位置及び大きさを示す情報に基づいて、画像上の座標を第２の座標系における座標へと変換するパラメータを算出する。すなわち、画像上の座標から三次元座標への変換を行う際に、ユーザが入力するパラメータを必要としない簡易な手法により変換パラメータを算出することができる。このような情報処理装置は、例えばコンビニエンスストアなどの小売店舗における監視システムにおいて、店内における人物の位置や周りの状況を映像解析することによって人物の単独行動を検知した際（すなわち、万引きの恐れがある場合）にデータの送受信を行うカメラシステムとして実装することができる。本実施形態においては万引き防止のため、万引きを行う恐れがある人物に対して声掛けを行うよう、外部の解析装置又はユーザが保有する通知部（不図示）へと通知を送信する。

図２は、本実施形態に係る情報処理装置のハードウェア構成の一例を示すブロック図である。情報処理装置１００は、入力部２０１、表示部２０２、Ｉ／Ｆ部２０３、ＣＰＵ２０４、ＲＡＭ２０５、ＲＯＭ２０６、ＨＤＤ２０７、及びデータバス２０８を備える。入力部２０１は、例えばキーボード及びマウス、又はタッチパネルなどであり、ユーザ入力を取得する。表示部２０２は、例えば液晶ディスプレイなどの表示装置であり、情報処理装置１００による処理の結果又は過程などを表示してユーザへと提示する。Ｉ／Ｆ部２０３は、インターネットを介して情報処理装置１００と他の装置との間での各種情報の送受信を行う。

ＣＰＵ２０４は、ＲＯＭ２０６に格納された制御用コンピュータプログラムをＲＡＭ２０５にロードし、各種制御処理を実行する。ＲＡＭ２０５は、ＣＰＵ２０４が実行するプログラムを一時的に格納する領域、又はワークメモリなどの一時記憶領域として用いられる。ＨＤＤ２０７は、画像データ、設定パラメータ、又は各種プログラムなどを格納する。これらの各部はデータバス２０８によって接続され、データの送受信が行われる。本実施形態においては、ＣＰＵ２０４がＲＯＭ２０６又はＨＤＤ２０７に格納された画像処理プログラムを実行することにより本実施形態に係る処理が実現されるものとするが、図１の各機能部を有する専用のハードウェアによって実現されてもよい。なお、ＣＰＵの代わりにＧＰＵ（グラフィックスプロセッシングユニット）を用いて画像処理や画像解析を行ってもよい。またＨＤＤ２０７は、Ｉ／Ｆ部２０３を介した外部装置からの画像データなどのデータの取得が可能であり、取得したデータをＣＰＵ２０４、ＲＡＭ２０５及びＲＯＭ２０６との間で送受信することができる。

図１は、本実施形態に係る情報処理装置の機能構成の一例を示すブロック図である。情報処理装置１００は、取得部１０１、追尾部１０２、管理部１０３、フィルタ部１０４、算出部１０５、変換部１０６、推定部１０７、判定部１０８、及び送信部１０９を備える。

取得部１０１は、処理対象となる画像を取得する。取得部１０１は、防犯カメラなどの撮像部（不図示）により撮像された画像を取得してもよく、ハードディスクなどの記憶装置に格納されている画像を取得してもよく、インターネットなどのネットワークを介して画像を取得してもよい。本実施形態に係る取得部１０１は、時間的に連続した複数の画像（映像）を取得し、そのそれぞれを用いて後述する処理が行われる。取得部１０１は、取得した画像を追尾部１０２へと送信する。

追尾部１０２は、取得部１０１から取得した画像内の被写体を検出し、検出した被写体を画像間で対応付ける追尾処理を行うことで人体情報（第１の情報）を生成する。ここで、被写体は人体であり、人体情報とは人体の頭部を内包する矩形を示す情報（例えば、バウンディングボックス）であるが、例えば矩形が人体全体又は頭部ではない一部分を内包する矩形であってもよく、またその形状は矩形でなくともよい。つまり、第１の情報は、検出された人物（物体）の位置またはサイズ（それらを示す矩形）を含む。また、他者と識別可能なような情報（例えば、下記の人物ＩＤ）を含んでもよい。なお、被写体は、人物以外であってもよく、車いすや動物、ロボット、自動車等の物体であってもよい。本実施形態に係る追尾部１０２は、機械学習を用いて矩形の中心座標、幅、高さ、及びその検出の信頼度を生成することにより、人体情報を生成する。また、追尾処理は検出した人体を連続するフレーム（画像）間で関連付ける処理であり、公知の技術が用いられるため詳細な説明は省略する。追尾部１０２は追尾処理として、矩形の中心座標、幅、及び高さと、過去の追尾結果に基づく予測位置を用いてフレーム間の対応付けを行い、各被写体を識別する追尾ＩＤ及び追尾の信頼度を付与する。追尾ＩＤは、各画像間で同一の人体に対して同一の識別子が付与されるように設定される。追尾部１０２は、生成した人体情報と追尾ＩＤとを管理部１０３及び変換部１０６へと送信する。以下、人体情報とは、単に一画像における矩形と、画像間で追尾される同一の被写体を示す一連の矩形との両方を指すものとして説明を行う。

図３は、追尾部１０２によって生成された人体情報で示される画像内の矩形を表示する追尾処理の結果の一例である。画像３００には、人体３０１を含む各人体、遮蔽物３０２、追尾ＩＤ３０３、及び人体情報（矩形）３０４が表示されている。追尾部１０２は、人体検出追尾処理を行うことにより人体３０１を検出し、追尾ＩＤ３０３と人体情報３０４とを生成することができる。図３の例においては人体情報は７つ生成されており、それぞれに１～７の追尾ＩＤが付与されている。

管理部１０３は、追尾部１０２が生成した人体情報及び追尾ＩＤを管理する。本実施形態においては、管理部１０３は、人体情報及び追尾ＩＤを所定の期間保持することにより管理を行う。管理部１０３は、人体情報及び追尾ＩＤを、入力部２０１を介したユーザからの指示を取得するまで保持してもよく、所定の期間（例えば１日など、ユーザが任意に設定できてもよい）保持しその期間が過ぎた情報を自動的に破棄してもよい。また、管理部１０３は、保持している人体情報及び追尾ＩＤをフィルタ部１０４へと送信する。図４は、管理部１０３が管理し蓄積された人体情報の表示の一例である。図４においては、管理部１０３によって管理されている人体情報が全て画像４００上に描画されている（追尾ＩＤは不図示）。

フィルタ部１０４は、複数の人体情報からフィルタ条件を満たす人体情報を抽出する。さらに、抽出された人物情報について、人物情報に含まれるサイズや位置を補正する。ここでは、予め設定されたフィルタ条件に基づいて、人体情報の座標及びサイズを補正するためのパラメータを推定するのに用いる人物情報の抽出を行う。フィルタ条件とは、人体情報が複数フレームに渡って満たしていることが要求される条件であり、本実施形態においては後続するパラメータの算出処理はフィルタ条件を満たす人体情報を用いて行われる。フィルタ条件の具体例は、所定期間あたりの人物情報の位置またはサイズの変動が所定基準値以内であることである。また、ある追尾ＩＤについての人物情報のうち、追尾開始直後と追尾終了時を除外するようなフィルタ条件を設定してもよい。本実施形態における変換パラメータは、人物の実際の大きさは一定であると仮定し、現実空間の距離と画像における人物サイズが対応関係（距離が小さいほど人物のサイズが大きく、距離が遠いほど人物のサイズが小さい）というルールに基づいて設計される。そのため、フィルタ条件を設定することによって、様々なサイズの人物を抽出することで、ユーザの手間を省きつつパラメータの精度を向上できる。

フィルタ部１０４は、位置及びサイズの時系列情報に基づいたカルマンフィルタを適用することにより、座標及びサイズを補正するフィルタ処理を行うことができる。その場合、後続する処理は補正後の値を用いて行われる。誤追尾、又はサイズ若しくは位置のずれの影響を調整するために、ユーザによって所望の条件がフィルタ条件として設定されてもよい。例えばフィルタ条件は、複数の時刻で撮像された画像において、検出若しくは追尾の信頼度が一定（閾値）以上であること、フレーム間で位置及びサイズのずれが一定以下であること、又は縦方向若しくは横方向の移動量が所定の値以上であることであってもよい。またフィルタ条件は、追尾開始から所定時間以上が経過していること、すなわちその被写体の追尾開始から所定数以上のフレーム数が含まれていることであってもよい。また、フィルタ条件は、追尾終了から所定時間以上前であること、すなわちその被写体の追尾が終了してから所定フレーム以上が含まれていることであってもよい。さらに、これらの条件の任意の組み合わせを満たすことがフィルタ条件であってもよい。なお、入力部２０１を介したユーザ入力によって選択された人体情報がフィルタ条件を満たすものであるとしてもよい。なお、パラメータ推定に好適な人物情報を選択できるフィルタ条件であれば上記以外の条件であってよい。パラメータ推定に適した人物情報を選択することによって変換の精度が向上し、ユーザにとって視認しやすい（違和感の少ない）表示を実現できる。

またフィルタ部１０４は、検出された人体の属性に基づいて、その人物を後続するパラメータの算出処理における処理対象から除外してもよい。例えば、フィルタ部は、その人物の年齢、性別、又は服装などに基づいて、所定の年齢以下の人物は処理対象から除外するなどのフィルタ処理を行うことができる。これらの属性は、一般的な検出処理によって検出されるため説明は省略する。

フィルタ部１０４は、フィルタ処理後の人体情報を算出部１０５及び変換部１０６へと送信する。なお、本実施形態に係るフィルタ処理に必要なパラメータは入力部２０１を介してユーザ又は別システムによって任意に入力され、それを取得することによりフィルタ部１０４がフィルタ処理を行うものとする。ここで入力及び変更が可能なパラメータは、例えばフィルタ条件に用いられる各処理において閾値として用いられる値であってもよく、カルマンフィルタの補正強度であってもよく、特に限定はされない。ここで用いられる各閾値はユーザによって所望の値として設定されてもよく、予め任意の値が割り振られていてもよい。フィルタ処理の一例は図９に示されるが、具体的な説明は後述する。

算出部１０５は、画像座標系の座標を異なる座標系での座標へと変換するためのパラメータ（変換パラメータ）を算出する。そのために算出部１０５は、画像上の人体情報の位置と物体サイズ（被写体の大きさ）との関係性を示すパラメータを求める。以下の式（１）は、位置情報（ｘ，ｙ）から物体サイズＷを推定するために用いられる、検出平面（被写体の中心座標が移動する仮想平面）上の位置情報と物体サイズの関係式である。
Ｗ＝ａ（ｘ－ｘｍ）＋ｂ（ｙ－ｙｍ）＋ｗｍ式（１）

ここで、一次方程式の係数となるａ及びｂは変換パラメータであり、（ｘ，ｙ）は画像座標上の位置（座標）である。また、ｘｍ及びｙｍはそれぞれ、生成した人体情報に含まれる人体の位置のｘ座標の平均値及びｙ座標の平均値である。またｗｍは生成した人体情報に含まれる人体の大きさの平均値である。この変換パラメータａ及びｂは、画像内の奥行きを考慮し、処理対象の画像を撮像したカメラと位置（ｘ，ｙ）における被写体との間の距離を算出するためのパラメータとなる。以下、人体情報の位置とは人体情報を表す矩形の中心座標とし、人体の大きさは人体情報が示す矩形のサイズであるものとして説明を行う。変換パラメータａ及びｂは、監視カメラにより蓄積された画像群から取得される人体情報を用いて、最小二乗法により算出することが可能である。算出部１０５は、ｘｍ，ｙｍ，及びｗｍの値と、算出した変換パラメータａ及びｂとを変換部１０６へと送信する。

図５は、最小二乗法を用いて生成した、検出平面上の座標と物体サイズ５０１との関係を、画像５００上に色の濃淡で示す一例の図である。図５においては、色が黒に近いほどその位置における物体サイズが小さくなり、色が白に近いほどその位置における物体サイズが大きくなることが示されている。すなわち、画像５００においては、右上端に近いほど遠くなるような奥行きが設定されている。

変換部１０６は、算出部１０５から受信した値を用いて、人体情報に含まれる人体の位置を異なる座標系における位置へと変換し出力する。本実施形態において変換部１０６は、画像座標系における座標を三次元座標へと変換する。変換部１０６は例えば、以下の式（２）に従って人体情報の位置（ｘ，ｙ）における物体サイズの推定量Ｗ’を算出する。
Ｗ’＝ａ（ｘ－ｘｍ）＋ｂ（ｙ－ｙｍ）＋ｗｍ式（２）

次いで変換部１０６は、座標（ｘ，ｙ）と算出されたＷ’とを用いて、以下の式（３）に基づいて人体情報の三次元座標（Ｘ，Ｙ，Ｚ）を算出する。ここでの三次元座標（Ｘ，Ｙ，Ｚ）は、世界座標系であって、撮像対象となる現実空間における床面をＸ軸（例えば東西を示す方向）とＹ軸（例えば南北を示す方向）とみなし、床面から天井方向に伸ばした鉛直方向をＺ軸（空間の高さを示す）とした座標である。
Ｚ＝ｆｏｃａｌ×Ｂ／Ｗ’
Ｘ＝Ｚ×（ｘ－ｃｘ）／ｆｏｃａｌ式（３）
Ｙ＝Ｚ×（ｙ－ｃｙ）／ｆｏｃａｌ

ここで、Ｂは予め設定した人体サイズの平均値であり、例えば肩幅を想定した平均値０．４３など任意の値が設定される。また、ｆｏｃａｌはカメラの焦点距離であり、画像の拡張領域に記載されているものを使用してもよく、カメラのパラメータを取得して使用してもよく、予め設定されていてもよい。ｃｘ及びｃｙは画像座標系における画像の中心の座標であり、画像サイズに基づいて算出することができる。変換部１０６は、算出した位置を推定部１０７及び判定部１０８へと送信する。

図６は、図３に示される人体情報を変換部１０６が変換した場合に生成される位置の情報の一例を示す図である。６００においては、丸で示される変換後の位置情報６０１と、遮蔽物６０２とが表示されている。遮蔽物は例えば店内の陳列棚などであり、この位置の求め方は後述する。また、本実施形態においてはカメラを中心とした三次元座標系における位置への変換が行われているが、人物間の距離が算出できるのであれば別の座標系への変換が行われてもよい。なお、人物間の距離の表現を容易にするため、図６～図８においては撮像される空間（店舗）を真上から俯瞰した俯瞰図を用いて説明が行われている。このような俯瞰図における座標への変換を行う場合には、情報処理装置１００が例えば重力センサを備え、撮像を行う空間に対するカメラの位置及び俯角などのパラメータを取得してもよいが、この構成及び処理は特に必須とされるわけではない。

推定部１０７は、変換部１０６が変換した座標系上での遮蔽物の位置を推定する。本実施形態において推定部１０７は、変換部１０６が変換した各人体情報の三次元座標の分布に基づいて遮蔽物の位置を示す情報を作成する。例えば推定部１０７は、図６に示されるような三次元座標のマップを所定のサイズ（例えば１ｍｍ四方）の部分領域にグリッド分割し、各グリッド内に存在する人体情報の中心位置の数を計測する。図７は、図６のような三次元座標のマップ上において、各人体情報の追尾結果の変換後の位置を、それぞれ破線としてプロットした図の一例である。この各グリッドにおける人体情報の中心位置の数を０から１の範囲で正規化したマップ（以下、遮蔽マップと呼ぶ）が図８に示されている。図８において推定部１０７は、中心位置の数が０であったグリッドを黒色で示しており、このグリッドが存在する領域を、人物が移動しない領域、すなわち遮蔽物の存在する領域であると推定することができる。推定部１０７は、ここで作成した遮蔽物の位置を示す情報（本実施形態においては遮蔽マップ）を判定部１０８へと送信する。

判定部１０８は、変換部１０６から取得した変換後の位置と推定部１０７から取得した遮蔽物の位置を示す情報とに基づいて、各人物が単独であるか否かを判定し、その判定結果を送信部１０９へと送信する。判定部１０８は、例えば変換後の位置における各人物間の距離ｄと遮蔽物の有無とに基づいて、各人物が単独であるか否かを判定することができる。ここでは、判定部１０８は、ある人物ｉに対応する人体情報の三次元座標に対して、他の人物ｊに対応する三次元座標全てが以下の条件を満たす場合に、人物ｉが単独であると判定する。この例では、人物間の距離ｄが所定の閾値以上である、又は人物間に遮蔽物が存在する場合に、人物ｉが単独であると判定される。本実施形態に係る判定部１０８は、以下の式（４）に従って人物間の距離ｄを算出する。
ｄ＝ｓｑｒｔ（（Ｘ_ｉ－Ｘ_ｊ）^２＋（Ｙ_ｉ－Ｙ_ｊ）^２＋（Ｚ_ｉ－Ｚ_ｊ）^２）式（４）

ここで、ｓｑｒｔは平方根を求める関数であり、人物ｉの位置は（Ｘ_ｉ，Ｙ_ｉ，Ｚ_ｉ）、他の人物ｊの位置は（Ｘ_ｊ，Ｙ_ｊ，Ｚ_ｊ）である。ｄの判定に用いられる閾値の値は特に限定されず、単独であるか否かの判定に用いられることを踏まえてユーザが任意に設定することができる。

次いで、人物間に遮蔽物が存在するか否かの判定について説明する。判定部１０８は、推定部１０７から取得した遮蔽マップにおける正規化値と、遮蔽マップ上の（Ｘ_ｉ，Ｙ_ｉ）から（Ｘ_ｊ，Ｙ_ｊ）をつないだ線分（直線）とを用いて上述の判定を行う。まず判定部１０８は、遮蔽マップ上の、（Ｘ_ｉ，Ｙ_ｉ）から（Ｘ_ｊ，Ｙ_ｊ）をつないだ線分が通過する各グリッドにおける正規化値ｖを遮蔽値Ｏｃｃ（＝１－ｖ）へと変換する。次いで判定部１０８は、直線状の各グリッドにおける遮蔽値の総和、平均値、及び最大値のいずれかを算出し、その値が予め設定した閾値以上であれば人物間に遮蔽物があると判定する。

送信部１０９は、単独であると判定された人物を示す情報を、Ｉ／Ｆ部２０３を介して別の解析装置又はユーザが保有する通知部に送信する。このように単独である人物を示す情報を得ることにより、万引き防止のために単独の人物に声掛けを行うことを推奨するシステムなどの実装に寄与することができる。

情報処理装置１００は、入力部２０１及び表示部２０２を利用して、フィルタ部１０４で用いるパラメータの調整、フィルタ部１０４若しくは推定部１０７による処理結果の確認、又は変換部１０６による処理の動作確認などを行うことができる。図９は、そのような処理を実行及び確認するためのＵＩの一例を示す図である。画面９００上の設定ＵＩ９０１は、フィルタ部１０４で用いるパラメータ（閾値）の設定に用いられる。図９の例では、設定ＵＩ９０１に表示されるバーを操作することにより、検出の信頼度の閾値、検出位置のずれの補正強度、及び検出のサイズのずれの補正強度を変更し、適用ボタン９０２を押下することにより変更した設定を反映することができる。また、画面９００上にはプレビューが表示され、パラメータの設定に応じて追尾部１０２によって生成される人体情報９０３と推定部１０７によって生成された遮蔽マップ９０４とを確認することができる。ユーザは、例えばプレビュー上の人体情報９０３をクリックすることにより、対応する人体情報を処理対象から除外することができてもよい。またユーザは、遮蔽マップ９０４に記載される値を編集及び修正することが可能であってもよい。また、変換部１０６は、画面９００上でユーザが指定した画像上の位置を、三次元座標での位置へと変換してユーザへと提示することができる。すなわち、画面９００上に座標変換テスト画面が表示され、ユーザが指定した位置に関して変換部１０６の動作確認が行われてもよい。ここでは、画像が表示されている座標変換テスト画面９０５上の任意の位置をユーザがクリックした場合に、その対応座標上に仮想人物がプロットされる。次いで変換部１０６は、その画像上での仮想人物の位置を三次元座標上での位置へと変換し、変換結果画面９０６上に表示してユーザに提示する。

本実施形態においては式（１）に基づいて変換パラメータａ及びｂが算出されたが、用いられる各式は一例であり、特にこれらに限定されるわけではない。例えば、式（１）の代わりに下記の式（５）によって、検出平面上の位置情報と物体サイズとの関係が定義されてもよい。
Ｗ＝ａｘ＋ｂｙ＋ｃ式（５）

ここでＷは人体サイズであり、（ｘ，ｙ）は画像座標上の位置であり、ａ、ｂ及びｃは推定される変換パラメータである。式（１）の代わりに式（５）を用いる場合には、変換部１０６も式（２）の代わりに同様の式を用いて物体サイズＷ’の計算を行う。

また本実施形態において、推定部１０７はグリッドごとに人体情報の数を計測及び加算して正規化を行ったが、人物が移動した領域に対して人体情報数がより多く加算されるのであれば特にこの方法に限定はされない。推定部１０７は、例えばグリッド上の人体情報の数をそのまま計測するのではなく、その近傍のグリッドにも計測数の加算を行ってもよい。例えば、推定部１０７は、人体情報を内包するグリッドには１を加算し、その近傍８グリッドには０．２５を加算するといった加算方法を採用してもよい。このような方法によれば、人体情報の位置のずれの発生などに対して余裕をもたせた遮蔽マップを作成することができる。

図１０は、本実施形態に係る情報処理装置のシステム設定時に行う処理（すなわち、変換パラメータを算出する準備段階における処理）の一例を示すフローチャートである。ステップＳ１００１で取得部１０１は、処理対象となる画像を取得する。ステップＳ１００２で追尾部１０２は、取得した画像に対して追尾処理を行い、人体情報と追尾ＩＤとを生成する。ステップＳ１００３で管理部１０３は、生成した人体情報と追尾ＩＤとを格納する。ステップＳ１００４で管理部１０３は、生成した人体情報の数が所定の閾値以上であるか否かを判定する。変換パラメータを推定するためには質の良い人体情報を一定数以上抽出する必要がある。人体情報の数が閾値以上である場合には処理がステップＳ１００５へと進み、そうでない場合には処理はステップＳ１００１へと戻る。なお、人体情報の数に基づいて判定を行う代わりに、撮像開始から一定時間以上経過したことを判定して、Ｓ１００５に進むようにしても良い。好適な人体情報を一定数以上取得できる可能性がある方法であれば他の判定方法であってもよい。

ステップＳ１００５でフィルタ部１０４は、生成した人体情報に基づいてフィルタ処理を行う。すなわち、予め設定された条件に基づいて、人体情報を抽出する。ステップＳ１００６で算出部１０５は、フィルタ処理を行った人体情報に基づいて、画像座標系の座標を異なる座標系での座標へと変換するための変換パラメータを算出する。ステップＳ１００７においては、変換部１０６はフィルタ処理を行った人体情報の位置を三次元座標上の座標に変換し、推定部１０７は変換した位置を用いて遮蔽マップを作成して遮蔽物の位置を推定する。ステップＳ１００８で推定部１０７は、変換パラメータと遮蔽マップとを記録してシステムの設定処理を終了する。

図１１は、本実施形態に係る情報処理装置が画像解析を行う際の処理の一例を示すフローチャートである（実行段階）。例えば、リアルタイムに店舗の監視を行う際に実行する処理である。図１１の処理は、図１０に示される処理によって設定されるシステムを用いて行われる。ステップＳ１１０１で取得部１０１は、処理対象となる画像を取得する。ステップＳ１１０２で追尾部１０２は、取得した画像に対して追尾処理を行い、人体情報と追尾ＩＤとを生成する。ステップＳ１１０３で変換部１０６は、ステップＳ１００８で記録した変換パラメータと遮蔽マップとを取得する。ステップＳ１１０４で変換部１０６は、生成した人体情報の位置を変換パラメータに基づいて三次元座標上の座標に変換する。ステップＳ１１０５で判定部１０８は、変換した各人体情報の位置に対して、その人物が単独であるか否かの判定を行う。ステップＳ１１０６で送信部１０９は、単独であると判定された人物を示す情報を別の解析装置又はユーザが保有する通知部に送信して処理を終了する。なお送信部１０９は、ステップＳ１１０６の処理の後に処理をＳ１１０１へと戻してもよい。

このような処理によれば、人体の画像上の座標における位置及び大きさに基づいて、画像上の座標から異なる座標系での座標へと変換するパラメータを算出することができる。また、画像上の人体のうち単独であるものを判別し、万引き防止の声掛けを促すシステムなどにおいて単独行動している人物を示す情報を提供することができる。したがって、そのようなシステム設置の際のユーザの負荷を低減し、単独行動判定の精度を高めることができる。

なお、本実施形態においてはフィルタ部１０４のフィルタ処理によって選択された人体情報を用いて、後続する変換パラメータの生成処理と遮蔽マップの作成処理とが行われるものとして説明を行った。しかしながら、変換パラメータの生成処理と遮蔽マップの作成処理とで利用する人体情報が異なっていてもよい。例えば、これらの処理それぞれについて優先的に利用される人体情報の条件が設定され（すなわち、それぞれ別途フィルタ条件が設定され）、その条件を満たす人体情報を用いてそれぞれの処理が行われてもよい。例えばフィルタ部１０４は、変換パラメータの生成処理においては、縦方向に移動している人物であることと、サイズのずれが所定の値以下である人物であることとをフィルタ条件として設定してもよい。そしてフィルタ部１０４は、遮蔽マップの作成処理においては、フレーム間での移動速度が所定の値以下である人物であることと、位置のずれが所定の値以下である人物であることとをフィルタ条件として設定してもよい。

［実施形態２］
実施形態１に係る情報処理装置は、万引きを行う恐れのある人物として画像内の単独であると判定される人体を抽出した。一方、実施形態２においては、万引きを行う恐れのある人物の抽出を行う際に、画像内の人物の動線を考慮する。例えば、人物が移動していない領域を棚などの障害物が存在する領域として判定することで、人物間に障害物があるかないかを考慮する。そのために、本実施形態に係る情報処理装置は、実施形態１における人物の単独判定の代わりに、画像内の人物の密集度を分析する。本実施形態に係る情報処理装置１２００は、判定部１０８に代わって分析部１２０１を有することを除き実施形態１の図１に示されるものと同様の機能部を有し、重複する説明は省略する。

図１２は、本実施形態に係る情報処理装置１２００の機能構成の一例を示すブロック図である。分析部１２０１は、取得部１０１が取得した画像上の各人物の密集度を分析する。本実施形態に係る分析部１２０１は、変換部１０６が変換した三次元座標上での人体情報の位置を用いて上述の分析処理を行う。そのために、分析部１２０１は、判定部１０８が行う処理と同様にして各人物間の距離ｄを算出し、次いで人物間の遮蔽物の有無を判定する。分析部１２０１は、算出したｄと遮蔽物の有無の判定結果とに基づいて、各人物について密集度を算出し、算出した密集度を送信部１０９へと送信する。

本実施形態に係る分析部１２０１は、所定の条件を満たす人物同士の組合せの数に基づいて密集度を算出する。ここでは、密集度を、人物間の距離ｄが予め設定した閾値以下でであって、かつその人物同士の間に遮蔽物が存在しないという条件を満たす人物のペアの総数と定義する。距離ｄの判定に用いられる閾値は、実施形態１の判定部１０８による単独の判定で用いられるものと同じ値であってもよく、それとは別に任意の値が設定されてもよい。遮蔽物の有無の判定は実施形態１の判定部１０８が行う処理と同様に行われる。

また、密集度の算出の仕方は上述の方法には限定されず、各人物の三次元位置の近さ及び密度に関する指標を密集度として算出する任意の手法によって算出されてよい。例えば分析部１２０１は、三次元座標上での人体情報の座標の分散の値が所定の値以上である場合に、その集計範囲内の人物は単独であるとしてもよい。

送信部１０９は、各人物の密集度を、Ｉ／Ｆ部２０３を介して別の解析装置又はユーザが保有する通知部（不図示）に送信する。本実施形態に係る送信部１０９は、密集度の値が小さい人物は他の人物の目につきにくく、万引きを行う恐れのある人物として、声掛けを行うようにユーザへと通知を送信することができる。

このような処理によれば、画像上の人体のうち密集度の低いものを判別し、万引き防止の声掛けを促すシステムなどにおいて単独行動している人物を示す情報を提供することができる。

（その他の実施例）
本発明は、上述の実施形態の１以上の機能を実現するプログラムを、ネットワーク又は記憶媒体を介してシステム又は装置に供給し、そのシステム又は装置のコンピュータにおける１つ以上のプロセッサがプログラムを読出し実行する処理でも実現可能である。また、１以上の機能を実現する回路（例えば、ＡＳＩＣ）によっても実現可能である。

発明は上記実施形態に制限されるものではなく、発明の精神及び範囲から離脱することなく、様々な変更及び変形が可能である。従って、発明の範囲を公にするために請求項を添付する。

１００：情報処理装置、１０１：取得部、１０２：追尾部、１０３：管理部、１０４：フィルタ部、１０５：算出部、１０６：変換部、１０７：推定部、１０８：判定部、１０９：送信部

Claims

画像から検出された少なくとも１つ以上の物体について、前記画像における位置を示すための第１の座標系における、前記物体の位置とサイズとを取得する取得手段と、
前記取得手段によって取得された前記物体の位置とサイズとに基づいて、前記第１の座標系における位置から前記第１の座標系とは異なる第２の座標系における位置を推定するパラメータを算出する算出手段と、
前記パラメータに基づいて、前記画像から検出された少なくとも１つ以上の物体の前記第１の座標系における位置を、前記第２の座標系に変換した位置を出力する出力手段と、
を備えることを特徴とする情報処理装置。
前記パラメータに基づいて変換された前記物体の前記第２の座標系における位置に基づいて前記物体の位置の分析を行う分析手段と、
前記物体の位置の分析の結果に基づいてユーザへの通知を行う通知手段と、
をさらに備えることを特徴とする、請求項１に記載の情報処理装置。
前記分析手段は、前記物体の位置の分析として、前記物体の近傍に他の物体が存在するか否か、又は前記物体の近傍に存在する他の物体の数が所定の値以下であるかの判定を行うことを特徴とする、請求項２に記載の情報処理装置。
前記ユーザへの通知が、近傍に他の物体が存在しない前記物体、又は近傍に存在する他の物体の数が所定の値以下である前記物体に対して声掛けを行うよう前記ユーザに促すことであることを特徴とする、請求項２又は３に記載の情報処理装置。
前記物体の前記第２の座標系における位置に基づいて、前記画像内の遮蔽物の位置を示す情報を生成する生成手段をさらに備え、
前記分析手段は、前記物体に対して、物体の間の距離が所定の値以下であり、かつ物体の間に前記遮蔽物が存在しない物体を、前記物体の近傍に存在する他の物体とすることを特徴とする、請求項２乃至４の何れか一項に記載の情報処理装置。
前記遮蔽物の位置を示す情報は、前記第２の座標系における、前記画像の部分領域ごとの、前記物体の前記第２の座標系における位置の分布を示す情報であることを特徴とする、請求項５に記載の情報処理装置。
前記分析手段は、前記第２の座標系において、前記物体と他の物体との間を結ぶ線分が通過する前記部分領域における前記位置の分布を示す情報に基づいて、前記物体の間に前記遮蔽物が存在するか否かを判定することを特徴とする、請求項６に記載の情報処理装置。
前記画像から検出された少なくとも１つ以上の物体のうち、所定の条件を満たす物体を選択する選択手段を更に有し、
前記出力手段は、前記選択手段によって選択された前記物体の位置とサイズに基づいて、前記画像から検出された少なくとも１つ以上の物体の前記第１の座標系における位置を前記第２の座標系に変換した位置を出力することを特徴とする、請求項１乃至７の何れか一項に記載の情報処理装置。
前記選択手段は、前記画像内の複数の物体のうち、前記取得手段が取得する前記第１の座標系における位置を示す情報の信頼度が所定の値以上である物体を選択することを特徴とする、請求項８に記載の情報処理装置。
前記画像から検出された物体の位置とサイズを、複数の時刻で撮像された画像から検出した物体情報を保持する保持手段を更に有し、
前記選択手段は、前記物体情報に基づいて、前記画像から検出された物体のうち所定の期間において前記所定の条件を満たす物体を選択することを特徴とする、請求項８又は９に記載の情報処理装置。
前記選択手段は、前記所定の期間における前記第１の座標系における位置のずれが所定の値以下である物体、前記所定の期間における前記第１の座標系における大きさのずれが所定の値以下である物体を選択することを特徴とする、請求項１０に記載の情報処理装置。
前記選択手段は、前記所定の期間における前記第１の座標系における位置の横方向への移動量又は縦方向への移動量が所定の値以上である物体を選択することを特徴とする、請求項１０又は１１に記載の情報処理装置。
前記選択手段は、所定時間以上に連続して前記第１の座標系における位置が取得されている物体を選択することを特徴とする、請求項１０乃至１２の何れか一項に記載の情報処理装置。
前記選択手段は、前記物体の位置又はサイズが異なる物体を所定の数より多くなるように選択することを特徴とする、請求項８乃至１３の何れか一項に記載の情報処理装置。
前記パラメータは、被写体の前記画像上での第１の座標系における位置から、前記画像を撮像した撮像装置から前記被写体への距離を算出するパラメータであることを特徴とする、請求項１乃至７の何れか一項に記載の情報処理装置。
前記パラメータは、前記第１の座標系における、縦方向の位置と横方向の位置とのそれぞれの値に対して異なる重みづけをするパラメータであることを特徴とする、請求項１５に記載の情報処理装置。
前記物体は人体であり、前記第１の座標系における位置及び大きさを示す情報は、前記画像における人体の頭部の座標及びサイズであることを特徴とする、請求項１乃至１４の何れか一項に記載の情報処理装置。
画像から検出された少なくとも１つ以上の物体について、前記画像における位置を示すための第１の座標系における、前記物体の位置とサイズと取得する工程と、
前記位置と前記サイズとに基づいて、前記第１の座標系における位置から前記第１の座標系とは異なる第２の座標系における位置を推定するパラメータを算出する工程と、
前記パラメータに基づいて、前記画像から検出された少なくとも１つ以上の物体の前記第１の座標系における位置を、前記第２の座標系に変換した位置を出力する出力する工程と、
を備えることを特徴とする情報処理方法。
コンピュータを、請求項１乃至１７の何れか一項に記載の情報処理装置の各手段として機能させるためのプログラム。